國(guó)家數(shù)據(jù)局近日發(fā)布公告,就《關(guān)于推進(jìn)行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動(dòng)的實(shí)施方案(征求意見(jiàn)稿)》向社會(huì)公開(kāi)征求意見(jiàn)。
行業(yè)高質(zhì)量數(shù)據(jù)集是經(jīng)過(guò)采集、加工等數(shù)據(jù)處理,可直接用于開(kāi)發(fā)和訓(xùn)練人工智能模型,并能有效提升模型、智能體、智能終端等應(yīng)用效能的行業(yè)數(shù)據(jù)的集合,包含行業(yè)通識(shí)和行業(yè)專(zhuān)識(shí)數(shù)據(jù)集。
方案提出,到2028年底,建成一批覆蓋重點(diǎn)領(lǐng)域、經(jīng)過(guò)應(yīng)用驗(yàn)證的行業(yè)高質(zhì)量數(shù)據(jù)集,打造一批數(shù)據(jù)驅(qū)動(dòng)人工智能創(chuàng)新發(fā)展的典型應(yīng)用場(chǎng)景,培育一批具備領(lǐng)先優(yōu)勢(shì)的創(chuàng)新型數(shù)據(jù)企業(yè)和專(zhuān)業(yè)人才,形成一批行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn)和工具。
方案明確,面向人工智能預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)等階段,持續(xù)推進(jìn)文本、圖像、音頻、視頻等多模態(tài)高質(zhì)量數(shù)據(jù)集建設(shè)。面向智能體等新型智能應(yīng)用形態(tài),加強(qiáng)知識(shí)庫(kù)、知識(shí)圖譜、本體等數(shù)據(jù)集建設(shè)。面向具身智能發(fā)展需求,加快重點(diǎn)場(chǎng)景物理交互、環(huán)境感知、運(yùn)動(dòng)控制等真機(jī)交互數(shù)據(jù)集建設(shè)。積極布局世界模型等前沿方向數(shù)據(jù)集建設(shè)。
在創(chuàng)新行業(yè)高質(zhì)量數(shù)據(jù)集商業(yè)模式方面,方案提出,推動(dòng)商業(yè)模式從基礎(chǔ)數(shù)據(jù)包銷(xiāo)售向應(yīng)用程序接口(API)調(diào)用、模型化解決方案及全棧服務(wù)梯次躍升。探索詞元交易等新型數(shù)據(jù)集交易模式,構(gòu)建以詞元為基礎(chǔ),可量化、可定價(jià)的數(shù)據(jù)集價(jià)值體系。(記者王云杉)