本報(bào)訊 (記者梁傲男)12月8日,北京智譜華章科技股份有限公司(以下簡稱“智譜”)正式上線并開源GLM-4.6V系列多模態(tài)大模型,包括面向云端與高性能集群場景的基礎(chǔ)版GLM-4.6V(106B-A12B)和面向本地部署與低延遲應(yīng)用的輕量版GLM-4.6V-Flash(9B)。
據(jù)介紹,GLM-4.6V將訓(xùn)練時(shí)上下文窗口提升到128k tokens,在視覺理解精度上達(dá)到同參數(shù)規(guī)模SOTA,首次在模型架構(gòu)中將Function Call(工具調(diào)用)能力原生融入視覺模型,打通從“視覺感知”到“可執(zhí)行行動(dòng)”的鏈路,為真實(shí)業(yè)務(wù)場景中的多模態(tài)Agent(智能體)提供統(tǒng)一的技術(shù)底座。
該系列模型較GLM-4.5V降價(jià)50%,API(應(yīng)用程序編程接口)調(diào)用價(jià)格為輸入1元/百萬tokens,輸出3元/百萬tokens,其中GLM-4.6V-Flash免費(fèi)供用戶使用。GLM-4.6V融入GLM Coding Plan,針對用戶8類場景定向開發(fā)了專用MCP(大模型上下文協(xié)議)工具。
傳統(tǒng)工具調(diào)用大多基于純文本,在面對圖像、視頻、復(fù)雜文檔等多模態(tài)內(nèi)容時(shí),需要多次中間轉(zhuǎn)換,帶來信息損失和工程復(fù)雜度。
據(jù)了解,GLM-4.6V從設(shè)計(jì)之初就圍繞“圖像即參數(shù),結(jié)果即上下文”,構(gòu)建了原生多模態(tài)工具調(diào)用能力:圖像、截圖、文檔頁面等可以直接作為工具參數(shù),無需先轉(zhuǎn)為文字描述再解析,減少鏈路損耗。對于工具返回的統(tǒng)計(jì)圖表、渲染后網(wǎng)頁截圖、檢索到的商品圖片等結(jié)果,模型能夠再次進(jìn)行視覺理解,將其納入后續(xù)推理鏈路。
模型原生支持基于視覺輸入的工具調(diào)用,完整打通從感知到理解到執(zhí)行的閉環(huán)。這使得GLM-4.6V能夠應(yīng)對圖文混排輸出、商品識(shí)別與好價(jià)推薦以及輔助型Agent場景等更復(fù)雜的視覺任務(wù)。
智譜方面表示:“智譜多模態(tài)開源周開啟,我們將持續(xù)開源更多前沿模型。擁抱多模態(tài)交互新范式,從GLM-4.6V開始。”
(編輯 張昕)
衛(wèi)星通信萬億賽道起飛,手機(jī)直連時(shí)代開啟
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日報(bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日報(bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日報(bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注