2025-09-12 08:26:38
阿里通義于9月12日發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。該架構(gòu)針對(duì)大模型未來(lái)擴(kuò)展趨勢(shì)設(shè)計(jì),采用全新高稀疏MoE架構(gòu),重構(gòu)Transformer核心組件,實(shí)現(xiàn)訓(xùn)練和推理雙重性價(jià)比突破?;谛录軜?gòu),“打樣”Qwen3-Next-80B-A3B系列模型,性能媲美千問(wèn)3旗艦版235B模型,計(jì)算效率大增,訓(xùn)練成本降超90%。
每經(jīng)記者|葉曉丹 每經(jīng)編輯|張益銘
每經(jīng)杭州9月12日電(記者葉曉丹)9月12日,阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。Qwen3-Next針對(duì)大模型在上下文長(zhǎng)度和總參數(shù)兩方面不斷擴(kuò)展(Scaling)的未來(lái)趨勢(shì)而設(shè)計(jì),采用全新的高稀疏MoE架構(gòu),并對(duì)經(jīng)典Transformer核心組件進(jìn)行了重構(gòu),創(chuàng)新采用線性注意力和自研門控注意力結(jié)合的混合注意力機(jī)制,實(shí)現(xiàn)了模型訓(xùn)練和推理的雙重性價(jià)比突破。
基于這一新架構(gòu),阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數(shù)80B僅激活3B,性能可媲美千問(wèn)3旗艦版235B模型,模型計(jì)算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長(zhǎng)文本推理吞吐量提升10倍以上,并可支持百萬(wàn)Tokens(文本處理的最小單位?)超長(zhǎng)上下文。
封面圖片來(lái)源:圖片來(lái)源:視覺(jué)中國(guó)-VCG211478193393
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
成都“率先落子”科技新賽道,“空中足球”點(diǎn)亮新未來(lái)!
文旅消費(fèi)定下2萬(wàn)億目標(biāo) 四川如何優(yōu)化格局力爭(zhēng)“多點(diǎn)開花”?
成都沖刺“十四五”消費(fèi)目標(biāo):新場(chǎng)景、新業(yè)態(tài)如何增活力?
四川今日官宣平臺(tái)經(jīng)濟(jì)啟新:走好“生態(tài)構(gòu)建”進(jìn)階之路
四川省平臺(tái)經(jīng)濟(jì)產(chǎn)業(yè)鏈合作伙伴大會(huì)即將舉行,筑強(qiáng)產(chǎn)貿(mào)協(xié)同“超級(jí)鏈接”
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP