本報記者 田鵬
發(fā)展自主可控的大模型是我國搶占數(shù)據(jù)發(fā)展高地的必然選擇,而數(shù)據(jù)要素則是支撐大模型發(fā)展的重要引擎。
7月8日,上海數(shù)交所總經(jīng)理湯奇峰在2023世界人工智能大會“大模型時代下的數(shù)據(jù)要素流通”論壇上表示,大模型建設(shè)中,語料庫是一個非常重要的方向,語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設(shè)。
在全球人工智能蓬勃發(fā)展背景下,數(shù)據(jù)與算力、算法共同構(gòu)成了新一代人工智能發(fā)展過程中的三大要素。因此,意識到數(shù)據(jù)要素重要性的同時,更應(yīng)該認清目前我國在數(shù)據(jù)要素利用過程中所面臨的阻礙。
目前存在的阻礙有哪些?
語料庫建設(shè)是一件長期性、專業(yè)性的工作,需要遵循相應(yīng)的質(zhì)量標準和規(guī)范,并保持持續(xù)更新和擴充,以適應(yīng)大模型發(fā)展的新需求和新挑戰(zhàn)。
“從與大模型相關(guān)企業(yè)溝通的情況來看,我國語料庫建設(shè)還存在供給不足、質(zhì)量不高、多樣性匱乏、標準欠缺等現(xiàn)狀。”湯奇峰指出。
“數(shù)據(jù)要素在人工智能大模型的發(fā)展中具有關(guān)鍵性的作用,決定了模型的訓(xùn)練質(zhì)量、性能表現(xiàn)和應(yīng)用領(lǐng)域的廣度與深度。”在中國電子副總經(jīng)理陸志鵬看來,大模型技術(shù)實現(xiàn)高質(zhì)量發(fā)展,數(shù)據(jù)有效供給是關(guān)鍵,亟需建設(shè)安全可信的數(shù)據(jù)底座。當(dāng)前數(shù)據(jù)合規(guī)確權(quán)、計量估價、協(xié)調(diào)分配、安全隱私保護等核心難題需要破解。
科大訊飛大數(shù)據(jù)研究院院長譚昶表示,我們對大模型語料數(shù)據(jù)方面有三大關(guān)注點:首先,語料數(shù)據(jù)更新問題亟待解決。目前,大模型訓(xùn)練都是按月為周期,能否實現(xiàn)以天為周期值得思考。其次,語料偏見問題目前需要通過一些規(guī)則模式將其屏蔽,但這種模式對于大模型來說是一種約束和限制。第三,數(shù)據(jù)安全問題不容忽視。
在談及數(shù)據(jù)流通過程中面臨的問題時,中國知網(wǎng)副總經(jīng)理張宏偉稱,在真正的交易流通里面有定價的問題,有確權(quán)的問題,有收益分配的問題,尤其是我們的數(shù)據(jù),包括它的主體是多元的,有了數(shù)據(jù)分配之后,如何在這些利益主體之間分配,這個是非常難的問題。
“破題”關(guān)鍵在何方?
數(shù)據(jù)驅(qū)動三大變革,包括經(jīng)濟結(jié)構(gòu)、創(chuàng)新范式、企業(yè)模式。面向大模型,數(shù)據(jù)要素市場大有可為,多層次數(shù)據(jù)要素市場建設(shè)需要提供重要助力。因此,在認清數(shù)據(jù)要素流通過程中存在的問題之后,更應(yīng)清楚“破題”關(guān)鍵所在。
關(guān)于語料庫建設(shè)的挑戰(zhàn),湯奇峰認為,可以根據(jù)開放程度強弱和數(shù)據(jù)質(zhì)量高低將語料數(shù)據(jù)生態(tài)機構(gòu)分出四類供方,制定差異化工作策略。同時,從政府引導(dǎo)市場主導(dǎo)、豐富種類提高質(zhì)量、統(tǒng)一標準規(guī)范建設(shè)、加強監(jiān)管保障安全四個方向建設(shè)大模型時代下的語料庫。
湯奇峰稱,針對數(shù)據(jù)質(zhì)量高但開放程度低的供方,可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問題。”
商湯科技聯(lián)合創(chuàng)始人楊帆認為,對于訓(xùn)練數(shù)據(jù)的管理和監(jiān)督必不可少。同時,要實現(xiàn)數(shù)據(jù)開源,特別是訓(xùn)練數(shù)據(jù)相關(guān)領(lǐng)域的開源,只有開源才是更加健全。
在談及如何應(yīng)對上述風(fēng)險和阻礙時,張宏偉認為,各方權(quán)益的保護在某種程度為技術(shù)讓步的,但也不能過多讓步,保護創(chuàng)作者的利益仍然很重要。
大數(shù)據(jù)流通與交易技術(shù)國家工程實驗室常務(wù)副主任黃麗華表示,多層次數(shù)據(jù)要素市場的建設(shè)需要有明確的數(shù)據(jù)需求應(yīng)用場景,數(shù)據(jù)要素產(chǎn)權(quán)制度可以提供重要支撐,合規(guī)安全機制提供保障,基于這樣的一個市場,數(shù)據(jù)產(chǎn)品低成本、大規(guī)模可得才有可能實現(xiàn),才能更好地賦能商業(yè)高效應(yīng)用,促進數(shù)字化轉(zhuǎn)型。未來,顛覆性創(chuàng)新一定是基于數(shù)據(jù)+人工智能+行業(yè)專業(yè)知識發(fā)生的。
(編輯 孫倩)
 中國國際經(jīng)濟交流中心副理事長楊偉民:建議改革身份證制度和住房...2023-07-09 17:06
  中國國際經(jīng)濟交流中心副理事長楊偉民:建議改革身份證制度和住房...2023-07-09 17:06
              上海數(shù)據(jù)交易所總經(jīng)理湯奇峰:構(gòu)建大模型時代語料庫數(shù)據(jù)生態(tài) 推...2023-07-09 15:50
  上海數(shù)據(jù)交易所總經(jīng)理湯奇峰:構(gòu)建大模型時代語料庫數(shù)據(jù)生態(tài) 推...2023-07-09 15:50
              工業(yè)和信息化部副部長徐曉蘭:加大人工智能技術(shù)創(chuàng)新攻關(guān)力度 加...2023-07-06 19:43
  工業(yè)和信息化部副部長徐曉蘭:加大人工智能技術(shù)創(chuàng)新攻關(guān)力度 加...2023-07-06 19:43
              醫(yī)保談判藥品續(xù)約規(guī)則將優(yōu)化 利好創(chuàng)新藥企業(yè)2023-07-05 00:21
  醫(yī)保談判藥品續(xù)約規(guī)則將優(yōu)化 利好創(chuàng)新藥企業(yè)2023-07-05 00:21
             衛(wèi)星通信管理制度及政策法規(guī)進一步完善……[詳情]
| 23:44 | “出?!?、小游戲、電競 頭部游戲... | 
| 23:44 | 汽車行業(yè)“千億元營收陣營”擴容 ... | 
| 23:44 | “反內(nèi)卷”顯效 第三季度光伏產(chǎn)業(yè)... | 
| 23:44 | 濰柴動力2025年前三季度業(yè)績再創(chuàng)新... | 
| 23:44 | 面板市場進入復(fù)蘇通道 頭部上市公... | 
| 23:44 | 多家上市鋼企盈利能力提升 | 
| 23:44 | 廣交會“智慧醫(yī)療專區(qū)”首秀 創(chuàng)新... | 
| 23:44 | 潤澤科技下“笨功夫”角逐算力賽道 | 
| 23:35 | 5000億元新型政策性金融工具投放完... | 
| 23:35 | 基金經(jīng)理投資科技賽道“和而不同” | 
| 23:35 | 年內(nèi)新發(fā)公募基金數(shù)量已超去年全年 | 
| 23:35 | 券商頻調(diào)另類子公司注冊資本 | 
版權(quán)所有證券日報網(wǎng)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120180014增值電信業(yè)務(wù)經(jīng)營許可證B2-20181903
 京公網(wǎng)安備 11010202007567號京ICP備17054264號
 京公網(wǎng)安備 11010202007567號京ICP備17054264號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀法律申明,風(fēng)險自負。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
 
                掃一掃,即可下載
 
                掃一掃,加關(guān)注
 
                掃一掃,加關(guān)注