電話
028-6313-8188
郵箱
joyouai@joyouai.com
TOP
2025-03-13新聞資訊
文 | 中國電子信息產(chǎn)業(yè)發(fā)展研究院院長 張立
建設高質量數(shù)據(jù)集是落實《中共中央 國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,推動數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)標注產(chǎn)業(yè)高質量發(fā)展,推進“人工智能+”行動的重要抓手。當前,隨著以Deepseek為代表的高效推理大模型快速發(fā)展和廣泛部署,數(shù)據(jù)匯聚產(chǎn)量低、供給質量低、利用效率低的矛盾愈發(fā)突出,高質量數(shù)據(jù)集建設的重要性日益顯現(xiàn)。應從供給、標準、安全、價值多向發(fā)力,做好高質量數(shù)據(jù)集建設工作,賦能行業(yè)高質量發(fā)展。
01 高質量數(shù)據(jù)集建設面臨“三低”難題
(一)數(shù)據(jù)匯聚產(chǎn)量低:數(shù)據(jù)存量小產(chǎn)量低,數(shù)據(jù)集匯聚共享效率有待加強。
一是高質量數(shù)據(jù)儲備量低,中文數(shù)據(jù)規(guī)模較小。有關研究表明,應用于人工智能的數(shù)據(jù)集可能會在2026-2032年間耗盡所有高質量語言數(shù)據(jù)。此外,國際主流大模型數(shù)據(jù)集主要以英文為主,流行的Common Crawl數(shù)據(jù)集項目中文數(shù)據(jù)只占據(jù)4.8%。二是數(shù)據(jù)流通開放力度不足,公共數(shù)據(jù)獲取渠道不暢。近年來,網(wǎng)絡下載數(shù)據(jù)的通道不穩(wěn)定,數(shù)據(jù)發(fā)布格式多樣,跨部門、跨地區(qū)數(shù)據(jù)共享程度不足,數(shù)據(jù)孤島現(xiàn)象依然存在,數(shù)據(jù)資源缺乏有效整合和利用。三是數(shù)據(jù)標注自動化程度不足,數(shù)據(jù)集產(chǎn)量與數(shù)據(jù)增速不匹配。2023年,我國數(shù)據(jù)生產(chǎn)總量達32.85澤字節(jié),同比增長22.44%。然而,當前我國數(shù)據(jù)標注智能化、專業(yè)化程度較低,專業(yè)數(shù)據(jù)處理人員隊伍數(shù)量缺口較大,數(shù)據(jù)集產(chǎn)量小,部分專業(yè)數(shù)據(jù)集無法規(guī)?;a(chǎn),難以滿足專業(yè)場景需求。
(二)數(shù)據(jù)供給質量低:數(shù)據(jù)集質量良莠不齊,缺乏主流高價值數(shù)據(jù)引領。
一是數(shù)據(jù)集存在缺失、尺度不一問題。不同行業(yè)、系統(tǒng)產(chǎn)生的數(shù)據(jù)格式多樣,受制于數(shù)據(jù)采集、加工過程中各類誤差、工具手段穩(wěn)定性等影響,數(shù)據(jù)集普遍存在分布偏差、顆粒度不一致、采集缺失甚至錯誤數(shù)據(jù)等問題。二是數(shù)據(jù)集混用影響訓練效果。有關研究表明,在大模型的基準測試中相關數(shù)據(jù)被用于模型訓練的情況越來越常見,導致大模型出現(xiàn)部分測試分數(shù)虛高、泛化能力下降、不相關任務表現(xiàn)驟降等問題,甚至可能導致大模型在實際應用中產(chǎn)生“危害”。三是數(shù)據(jù)集標準不一,各行業(yè)主流價值數(shù)據(jù)集引領帶動作用未體現(xiàn)。當前,高質量數(shù)據(jù)集標準體系尚待完善,數(shù)據(jù)質量評估評價缺乏統(tǒng)一標準,政務領域、重點行業(yè)缺乏典型的主流價值數(shù)據(jù)集。
(三)數(shù)據(jù)利用效率低:算法偏見加劇數(shù)據(jù)遺失,數(shù)據(jù)要素價值挖掘短板明顯。
一是算法偏見導致原始數(shù)據(jù)遺失率高。在大模型訓練過程中,數(shù)據(jù)呈現(xiàn)長尾分布,為提高訓練成功率,多數(shù)大模型算法采用“去尾”方法,即訓練過程中對原始數(shù)據(jù)進行選擇性“忽略”,因而導致數(shù)據(jù)遺失問題,甚至造成對原始數(shù)據(jù)的破壞。二是數(shù)據(jù)使用率較低。據(jù)統(tǒng)計,2023年,在我國存儲的數(shù)據(jù)中,一年未使用的數(shù)據(jù)占比約4成,企業(yè)一年未使用的數(shù)據(jù)占比為超過30%,大量數(shù)據(jù)被存儲后便不再被讀取和復用,成為“死”數(shù)據(jù)。三是數(shù)據(jù)價值挖掘不足。數(shù)據(jù)加工能力不足導致大量數(shù)據(jù)價值被低估、難以挖掘復用。據(jù)統(tǒng)計,2023年,全國數(shù)據(jù)產(chǎn)存轉化率為2.9%,海量數(shù)據(jù)源頭即棄。在開展數(shù)字化轉型的大型企業(yè)中,實現(xiàn)數(shù)據(jù)復用增值的僅有8.3%,數(shù)據(jù)價值挖掘效率極低。此外,高質量數(shù)據(jù)集的價值實現(xiàn)路徑不清晰也引發(fā)企業(yè)運營建設積極性降低。
02 從供給、標準、安全、價值四方面發(fā)力,推動高質量數(shù)據(jù)集建設賦能
(一)強化數(shù)據(jù)獲取與共享,探索行業(yè)試點聯(lián)合推進共建新模式。
一是加強物聯(lián)網(wǎng)等數(shù)據(jù)接口開放,廣泛匯聚高質量數(shù)據(jù),提高原始數(shù)據(jù)直連比率。建立高質量數(shù)據(jù)集匯聚平臺,推動重點行業(yè)高質量中文數(shù)據(jù)集、思維鏈數(shù)據(jù)集和主流價值數(shù)據(jù)集建設,支持行業(yè)專業(yè)機構深度參與數(shù)據(jù)集建設、訓練、應用全流程。二是推動公共高質量數(shù)據(jù)集開放共享,搭建數(shù)據(jù)集共享平臺,加快構建安全數(shù)字底座,支持由專業(yè)機構配合全流程數(shù)據(jù)開放合規(guī)工作,推動數(shù)據(jù)集高效安全開放共享。三是鼓勵各地因地制宜出臺指導意見,探索建立委托授權、模型訓練知識產(chǎn)權保護豁免機制,試點行業(yè)間、地區(qū)間聯(lián)合共建數(shù)據(jù)共享開放交流機制,逐步提升數(shù)據(jù)流通共享效率。
(二)完善質量與標準體系,推動建設重點行業(yè)數(shù)據(jù)集評價標準。
一是建立數(shù)據(jù)集質量評估標準,有機融入《國家數(shù)據(jù)標準體系建設指南》體系。加快研究制定《高質量數(shù)據(jù)集質量評測規(guī)范》等行業(yè)高質量數(shù)據(jù)集質量評估相關標準,建立安全風險、有害內容評估專業(yè)數(shù)據(jù)集,全生命周期把控數(shù)據(jù)集質量水平。二是制定重點行業(yè)、主流價值數(shù)據(jù)標注評估標準,規(guī)范數(shù)據(jù)集接口標準。加快研究制定《高質量數(shù)據(jù)集數(shù)據(jù)標注規(guī)范》,規(guī)范面向人工智能模型訓練的高質量數(shù)據(jù)集數(shù)據(jù)標注流程。制定合成數(shù)據(jù)使用標準,平衡好合成數(shù)據(jù)與原始數(shù)據(jù)應用的“度”,助力共同發(fā)揮最佳作用。三是建立數(shù)據(jù)集流通應用質量評估標準。規(guī)范數(shù)據(jù)集使用、流通范圍,明確數(shù)據(jù)集提供方、使用方、服務方權利義務,建設數(shù)據(jù)集應用效率評估體系,指導動態(tài)分配數(shù)據(jù)采集、標注資源,提升數(shù)據(jù)資源利用效率。
(三)加強數(shù)據(jù)隱私與安全保障,推動數(shù)據(jù)集安全評估能力建設。
一是強化數(shù)據(jù)集安全保障技術水平。加強數(shù)據(jù)倫理、風險評估監(jiān)管判斷技術工具研發(fā),推動構建數(shù)據(jù)集隔離倉庫、原始數(shù)據(jù)資源池、數(shù)據(jù)安全屋等措施,加強真實數(shù)據(jù)保護管理能力。二是建立對合成數(shù)據(jù)集的持續(xù)監(jiān)控評估機制,加強多模態(tài)數(shù)據(jù)融合技術鑒偽能力,建設深度合成鑒偽檢測平臺,支持聯(lián)邦學習、差分隱私、可信數(shù)據(jù)交換等AI安全技術工具發(fā)展。三是建立跨行業(yè)產(chǎn)學研合作平臺,加強研究人員、數(shù)據(jù)工程師、行業(yè)專家多方緊密合作,增強算法與數(shù)據(jù)的匹配度。提高模型算法水平,在數(shù)據(jù)集處理全過程加入數(shù)據(jù)可靠性評估分析,提升數(shù)據(jù)資源利用效能。
(四)優(yōu)化數(shù)據(jù)集運營模式,推動數(shù)據(jù)資源價值生態(tài)循環(huán)落地。
一是搭建全國一體化的行業(yè)高質量數(shù)據(jù)集供需對接機制和平臺,建立數(shù)據(jù)集資源地圖,促進高質量數(shù)據(jù)集供需對接,推動數(shù)據(jù)集的流通和共享。二是加強政策引導,完善數(shù)據(jù)集定價和收益分配機制,鼓勵企業(yè)探索商業(yè)模式創(chuàng)新,實現(xiàn)數(shù)據(jù)集的可持續(xù)發(fā)展和應用。加快形成面向高質量數(shù)據(jù)集的價值循環(huán)體系,打造數(shù)據(jù)集產(chǎn)業(yè)生態(tài)。三是因地制宜挖掘優(yōu)勢產(chǎn)業(yè),分類開展行業(yè)高質量數(shù)據(jù)集的建設運營及應用工作,以試點先行,逐步推廣方式,推動實現(xiàn)區(qū)域、行業(yè)數(shù)據(jù)標注產(chǎn)業(yè)和數(shù)據(jù)集建設生態(tài)有序發(fā)展。發(fā)布高質量數(shù)據(jù)集建設典型案例,為行業(yè)和地方開展高質量數(shù)據(jù)集建設提供靶向支撐。