本報(bào)訊 (記者李豪悅)2月27日,騰訊控股有限公司(以下簡(jiǎn)稱(chēng)“騰訊”)混元自研的快思考模型Turbo S正式發(fā)布。區(qū)別于Deepseek R1、混元T1等需要“想一下再回復(fù)”的慢思考模型,混元Turbo S能夠?qū)崿F(xiàn)“秒回”,吐字速度提升一倍,首字時(shí)延降低44%,同時(shí)在知識(shí)、數(shù)理、創(chuàng)作等方面也有突出表現(xiàn)。通過(guò)模型架構(gòu)創(chuàng)新,Turbo S部署成本也大幅下降,持續(xù)推動(dòng)大模型應(yīng)用門(mén)檻降低。
有研究表明,人類(lèi)約90%至95%的日常決策依賴(lài)直覺(jué),快思考正如人的“直覺(jué)”,為大模型提供了通用場(chǎng)景下的快速響應(yīng)能力,而慢思考更像理性思維,通過(guò)分析邏輯提供解決問(wèn)題思路??焖伎己吐伎嫉慕Y(jié)合和補(bǔ)充,可以讓大模型更智能、更高效地解決問(wèn)題。
在業(yè)界通用的多個(gè)公開(kāi)Benchmark上,騰訊混元Turbo S在知識(shí)、數(shù)學(xué)、推理等多個(gè)領(lǐng)域展現(xiàn)出對(duì)標(biāo)DeepSeek V3、GPT 4o、Claude3.5等業(yè)界領(lǐng)先模型的效果表現(xiàn)。
據(jù)介紹,通過(guò)長(zhǎng)短思維鏈融合,騰訊混元Turbo S在保持文科類(lèi)問(wèn)題快思考體驗(yàn)的同時(shí),基于自研混元T1慢思考模型合成的長(zhǎng)思維鏈數(shù)據(jù),顯著改進(jìn)了理科推理能力,實(shí)現(xiàn)模型整體效果提升。
架構(gòu)方面,通過(guò)創(chuàng)新性地采用了Hybrid-Mamba-Transformer融合模式,混元Turbo S有效降低了傳統(tǒng)Transformer結(jié)構(gòu)的計(jì)算復(fù)雜度,減少了KV-Cache緩存占用,實(shí)現(xiàn)訓(xùn)練和推理成本的下降。新的融合模式突破了傳統(tǒng)純Transformer結(jié)構(gòu)大模型面臨的長(zhǎng)文訓(xùn)練和推理成本高的難題,一方面發(fā)揮了Mamba高效處理長(zhǎng)序列的能力,也保留Transformer擅于捕捉復(fù)雜上下文的優(yōu)勢(shì),構(gòu)建了顯存與計(jì)算效率雙優(yōu)的混合架構(gòu),這是工業(yè)界首次成功將Mamba架構(gòu)無(wú)損地應(yīng)用在超大型MoE模型上。
作為旗艦?zāi)P?,Turbo S未來(lái)將成為騰訊混元系列衍生模型的核心基座,為推理、長(zhǎng)文、代碼等衍生模型提供基礎(chǔ)能力。基于Turbo S,通過(guò)引入長(zhǎng)思維鏈、檢索增強(qiáng)和強(qiáng)化學(xué)習(xí)等技術(shù),騰訊自研了推理模型T1,該模型已在騰訊元寶上線(xiàn),用戶(hù)可以選擇Deepseek R1或騰訊混元T1模型進(jìn)行回答。騰訊混元有關(guān)人士表示,正式版的騰訊混元T1模型API也將很快上線(xiàn),對(duì)外提供接入服務(wù)。
(編輯 張鈺鵬)
5年后再啟航 全面實(shí)施自貿(mào)區(qū)提升戰(zhàn)略
自貿(mào)試驗(yàn)區(qū)作為我國(guó)對(duì)外開(kāi)放的重要窗口……[詳情]
版權(quán)所有《證券日?qǐng)?bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營(yíng)許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日?qǐng)?bào)社電話(huà):010-83251700網(wǎng)站電話(huà):010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注