本報(bào)記者 田鵬
發(fā)展自主可控的大模型是我國(guó)搶占數(shù)據(jù)發(fā)展高地的必然選擇,而數(shù)據(jù)要素則是支撐大模型發(fā)展的重要引擎。
7月8日,上海數(shù)交所總經(jīng)理湯奇峰在2023世界人工智能大會(huì)“大模型時(shí)代下的數(shù)據(jù)要素流通”論壇上表示,大模型建設(shè)中,語(yǔ)料庫(kù)是一個(gè)非常重要的方向,語(yǔ)料庫(kù)采購(gòu)已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場(chǎng)配置的方式組織數(shù)據(jù)要素推動(dòng)語(yǔ)料庫(kù)建設(shè)。
在全球人工智能蓬勃發(fā)展背景下,數(shù)據(jù)與算力、算法共同構(gòu)成了新一代人工智能發(fā)展過(guò)程中的三大要素。因此,意識(shí)到數(shù)據(jù)要素重要性的同時(shí),更應(yīng)該認(rèn)清目前我國(guó)在數(shù)據(jù)要素利用過(guò)程中所面臨的阻礙。
目前存在的阻礙有哪些?
語(yǔ)料庫(kù)建設(shè)是一件長(zhǎng)期性、專業(yè)性的工作,需要遵循相應(yīng)的質(zhì)量標(biāo)準(zhǔn)和規(guī)范,并保持持續(xù)更新和擴(kuò)充,以適應(yīng)大模型發(fā)展的新需求和新挑戰(zhàn)。
“從與大模型相關(guān)企業(yè)溝通的情況來(lái)看,我國(guó)語(yǔ)料庫(kù)建設(shè)還存在供給不足、質(zhì)量不高、多樣性匱乏、標(biāo)準(zhǔn)欠缺等現(xiàn)狀。”湯奇峰指出。
“數(shù)據(jù)要素在人工智能大模型的發(fā)展中具有關(guān)鍵性的作用,決定了模型的訓(xùn)練質(zhì)量、性能表現(xiàn)和應(yīng)用領(lǐng)域的廣度與深度。”在中國(guó)電子副總經(jīng)理陸志鵬看來(lái),大模型技術(shù)實(shí)現(xiàn)高質(zhì)量發(fā)展,數(shù)據(jù)有效供給是關(guān)鍵,亟需建設(shè)安全可信的數(shù)據(jù)底座。當(dāng)前數(shù)據(jù)合規(guī)確權(quán)、計(jì)量估價(jià)、協(xié)調(diào)分配、安全隱私保護(hù)等核心難題需要破解。
科大訊飛大數(shù)據(jù)研究院院長(zhǎng)譚昶表示,我們對(duì)大模型語(yǔ)料數(shù)據(jù)方面有三大關(guān)注點(diǎn):首先,語(yǔ)料數(shù)據(jù)更新問(wèn)題亟待解決。目前,大模型訓(xùn)練都是按月為周期,能否實(shí)現(xiàn)以天為周期值得思考。其次,語(yǔ)料偏見(jiàn)問(wèn)題目前需要通過(guò)一些規(guī)則模式將其屏蔽,但這種模式對(duì)于大模型來(lái)說(shuō)是一種約束和限制。第三,數(shù)據(jù)安全問(wèn)題不容忽視。
在談及數(shù)據(jù)流通過(guò)程中面臨的問(wèn)題時(shí),中國(guó)知網(wǎng)副總經(jīng)理張宏偉稱,在真正的交易流通里面有定價(jià)的問(wèn)題,有確權(quán)的問(wèn)題,有收益分配的問(wèn)題,尤其是我們的數(shù)據(jù),包括它的主體是多元的,有了數(shù)據(jù)分配之后,如何在這些利益主體之間分配,這個(gè)是非常難的問(wèn)題。
“破題”關(guān)鍵在何方?
數(shù)據(jù)驅(qū)動(dòng)三大變革,包括經(jīng)濟(jì)結(jié)構(gòu)、創(chuàng)新范式、企業(yè)模式。面向大模型,數(shù)據(jù)要素市場(chǎng)大有可為,多層次數(shù)據(jù)要素市場(chǎng)建設(shè)需要提供重要助力。因此,在認(rèn)清數(shù)據(jù)要素流通過(guò)程中存在的問(wèn)題之后,更應(yīng)清楚“破題”關(guān)鍵所在。
關(guān)于語(yǔ)料庫(kù)建設(shè)的挑戰(zhàn),湯奇峰認(rèn)為,可以根據(jù)開(kāi)放程度強(qiáng)弱和數(shù)據(jù)質(zhì)量高低將語(yǔ)料數(shù)據(jù)生態(tài)機(jī)構(gòu)分出四類供方,制定差異化工作策略。同時(shí),從政府引導(dǎo)市場(chǎng)主導(dǎo)、豐富種類提高質(zhì)量、統(tǒng)一標(biāo)準(zhǔn)規(guī)范建設(shè)、加強(qiáng)監(jiān)管保障安全四個(gè)方向建設(shè)大模型時(shí)代下的語(yǔ)料庫(kù)。
湯奇峰稱,針對(duì)數(shù)據(jù)質(zhì)量高但開(kāi)放程度低的供方,可以通過(guò)數(shù)據(jù)交易鏈有效破解語(yǔ)料數(shù)據(jù)流通的信任問(wèn)題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問(wèn)題。”
商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為,對(duì)于訓(xùn)練數(shù)據(jù)的管理和監(jiān)督必不可少。同時(shí),要實(shí)現(xiàn)數(shù)據(jù)開(kāi)源,特別是訓(xùn)練數(shù)據(jù)相關(guān)領(lǐng)域的開(kāi)源,只有開(kāi)源才是更加健全。
在談及如何應(yīng)對(duì)上述風(fēng)險(xiǎn)和阻礙時(shí),張宏偉認(rèn)為,各方權(quán)益的保護(hù)在某種程度為技術(shù)讓步的,但也不能過(guò)多讓步,保護(hù)創(chuàng)作者的利益仍然很重要。
大數(shù)據(jù)流通與交易技術(shù)國(guó)家工程實(shí)驗(yàn)室常務(wù)副主任黃麗華表示,多層次數(shù)據(jù)要素市場(chǎng)的建設(shè)需要有明確的數(shù)據(jù)需求應(yīng)用場(chǎng)景,數(shù)據(jù)要素產(chǎn)權(quán)制度可以提供重要支撐,合規(guī)安全機(jī)制提供保障,基于這樣的一個(gè)市場(chǎng),數(shù)據(jù)產(chǎn)品低成本、大規(guī)模可得才有可能實(shí)現(xiàn),才能更好地賦能商業(yè)高效應(yīng)用,促進(jìn)數(shù)字化轉(zhuǎn)型。未來(lái),顛覆性創(chuàng)新一定是基于數(shù)據(jù)+人工智能+行業(yè)專業(yè)知識(shí)發(fā)生的。
(編輯 孫倩)
5年后再啟航 全面實(shí)施自貿(mào)區(qū)提升戰(zhàn)略
自貿(mào)試驗(yàn)區(qū)作為我國(guó)對(duì)外開(kāi)放的重要窗口……[詳情]
15:52 | 優(yōu)彩環(huán)保資源科技股份有限公司2024... |
14:58 | 盛和資源擬斥資超7億元收購(gòu)匹克公... |
14:51 | 首程控股一季度凈利同比增長(zhǎng)80.5% ... |
14:50 | 扎實(shí)落地“科技金融”大文章 國(guó)泰... |
14:06 | 603839,午后2分鐘直掛漲停!這一... |
13:48 | 成都銀行發(fā)放“天府外貿(mào)貸” 金融... |
13:37 | 金芙蓉基金亮相“港洽周” |
13:36 | 興業(yè)銀行北京分行:政銀共建賦能鄉(xiāng)... |
13:14 | 大商所就純苯期貨、期權(quán)合約及相關(guān)... |
13:14 | 證監(jiān)會(huì)舉辦2025年“5·15全國(guó)投資... |
12:59 | TCL華星攜APEX臻圖與印刷OLED“全... |
12:48 | 這一板塊持續(xù)爆發(fā),4股斬獲3連板! |
版權(quán)所有證券日?qǐng)?bào)網(wǎng)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120180014增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2-20181903
京公網(wǎng)安備 11010202007567號(hào)京ICP備17054264號(hào)
證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關(guān)注
掃一掃,加關(guān)注