作者 | 李水青
編輯 | 云鵬
智東西9月6日?qǐng)?bào)道,昨夜,阿里上線Qwen3系列最強(qiáng)模型Qwen3-Max的Preview版本,這也是阿里迄今為止最大的模型,參數(shù)量超1萬(wàn)億。該模型目前已登陸阿里百煉平臺(tái),且在通義千問(wèn)應(yīng)用及Qwen Chat上免費(fèi)可用。
據(jù)百煉平臺(tái)介紹,Qwen3-Max-Preview相較2.5系列整體通用能力有大幅度提升,中英文通用文本理解能力、復(fù)雜指令遵循能力、主觀開(kāi)放任務(wù)能力、多語(yǔ)言能力、工具調(diào)用能力均顯著增強(qiáng);模型知識(shí)幻覺(jué)更少。
就在昨日,Qwen官方X賬號(hào)預(yù)告了即將推出Qwen3家族中最強(qiáng)大、最聰明的一員。今天,這一模型正式上線,其測(cè)評(píng)結(jié)果也隨之公布。
據(jù)悉,Qwen3-Max-Preview在通用知識(shí)(SuperGPQA)、數(shù)學(xué)推理(AIME25)、編程(LiveCodeBench v6)、人類偏好對(duì)齊(Arena-Hard v2)以及綜合性能力評(píng)估(LiveBench)評(píng)測(cè)中,超越了Claude-Opus 4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1和阿里此前的開(kāi)源最佳Qwen3-235B-A22B-Instruct-2507。
在AI模型聚合平臺(tái)OpenRoute上,Qwen3-Max的介紹提及:其在推理、指令執(zhí)行、多語(yǔ)言支持和長(zhǎng)尾知識(shí)覆蓋方面均有顯著改進(jìn);同時(shí)在數(shù)學(xué)、編程、邏輯和科學(xué)任務(wù)中提供了更高的準(zhǔn)確率。該模型支持超過(guò)100種語(yǔ)言,具有更強(qiáng)大的翻譯和常識(shí)推理能力,并針對(duì)檢索增強(qiáng)生成 (RAG)和工具調(diào)用進(jìn)行了優(yōu)化,但并未包含專門的“思考”模式。
智東西第一時(shí)間在通義千問(wèn)網(wǎng)頁(yè)端上對(duì)Qwen3-Max-Preview進(jìn)行了體驗(yàn),發(fā)現(xiàn)模型在文本理解以及數(shù)學(xué)、編程能力上效果出色,且響應(yīng)速度很快。
首先讓Qwen3-Max-Preview生成一個(gè)小球碰撞模擬器,我們輸入提示詞:
“一個(gè)圓里面有兩個(gè)小球,一個(gè)黑色,一個(gè)白色,白色的球隨即位置自由下落,碰到邊界會(huì)反彈,同時(shí)再生成一個(gè)隨機(jī)位置的白色小球,黑色小球碰到邊界會(huì)反彈,碰到白色的球會(huì)變大一點(diǎn),請(qǐng)模擬一下?!?/p>
只見(jiàn)Qwen3-Max-Preview很快輸出了這個(gè)程序,模擬出了兩類球的運(yùn)動(dòng)過(guò)程,最終黑色球膨脹至把白球吞噬。
當(dāng)我們把難度提升,讓Qwen3-Max-Preview進(jìn)行一個(gè)力量與速度種群模擬,并不斷優(yōu)化這個(gè)模擬器,發(fā)現(xiàn)Qwen3-Max-Preview能夠?qū)崿F(xiàn)快速而準(zhǔn)確的模擬,能在幾秒鐘之內(nèi)完成一個(gè)成熟程序員可能需要大半天才能完成的工作。
我們輸入提示詞:“有兩個(gè)種群,種群a注重力量的發(fā)展,種群b注重速度的發(fā)展,請(qǐng)模擬一下兩個(gè)種群之間的相互作用并給出說(shuō)明。”
如下圖所示,即便我給出的提示詞非常模糊,Qwen3-Max-Preview依然理解到我的意思,并給出了較準(zhǔn)確的模擬。
在上述模擬中,我發(fā)現(xiàn)速度型種群被干掉的太快了,于是進(jìn)一步希望它們能夠具備“逃跑”能力。我輸入提示詞:“注重速度的種群被干掉的太快了,他們每個(gè)個(gè)體都應(yīng)該具備一定的躲避危險(xiǎn)的能力。”
而后,Qwen3-Max-Preview輸出了以下“力量與速度種群模擬(增強(qiáng)版)”,準(zhǔn)確模擬出了具有躲避危險(xiǎn)能力的小球,出現(xiàn)“誰(shuí)也干不掉誰(shuí)”的狀況。
只會(huì)逃跑不會(huì)反擊,早晚還是被干掉。于是我要求速度型種群具有協(xié)作進(jìn)攻能力,輸入提示詞:
“當(dāng)速度型種群團(tuán)結(jié)起來(lái)的時(shí)候,可以可以干掉單個(gè)的力量型個(gè)體,請(qǐng)加上這個(gè)能力再模擬一下。”
Qwen3-Max-Preview依然能夠很好的實(shí)現(xiàn),輸出了“力量與速度種群模擬(協(xié)作版)”,模擬出小綠球有了協(xié)作能力后能抵御紅球的能力,但雙方態(tài)勢(shì)依然很僵持。
隨著模擬的進(jìn)行,兩邊種群越來(lái)越少,于是我們進(jìn)一步要求Qwen3-Max-Preview給它們繁衍的能力,輸入提示詞:
“當(dāng)它們雙方干掉對(duì)方個(gè)體后,可以積累養(yǎng)分,繁衍自己,繼續(xù)模擬。”
于是,Qwen3-Max-Preview輸出了“力量與速度種群模擬(資源與繁衍版)”,從模擬可以看到,兩類球都自行開(kāi)始裂變,在這種情況下,紅球已經(jīng)干不過(guò)綠球了。
于是,我又輸入:
“發(fā)現(xiàn)力量型種群太弱了,它們根本抓不到對(duì)面,請(qǐng)給它們也提供團(tuán)隊(duì)協(xié)作的能力,可以圍捕速度型選手?!?/span>
Qwen3-Max-Preview輸出了“力量與速度種群模擬(雙向協(xié)作版)”,小綠球和小紅球分別形成抱團(tuán)趨勢(shì),從而形成了兩邊“群毆圍攻”的態(tài)勢(shì)。
通過(guò)這個(gè)有趣的小實(shí)驗(yàn)我們發(fā)現(xiàn),Qwen3-Max-Preview在提示詞表意很模糊的情況下,也能夠順利理解到用戶意圖。
尤其是“躲避危險(xiǎn)”、“團(tuán)結(jié)”、“協(xié)作”、“繁衍”等表述是比較抽象的,且對(duì)應(yīng)的實(shí)際含義很復(fù)雜,實(shí)現(xiàn)起來(lái)涉及調(diào)節(jié)的參數(shù)很多,但Qwen3-Max-Preview都在幾秒鐘之內(nèi)準(zhǔn)確理解語(yǔ)義及背后的邏輯,并完成模擬實(shí)驗(yàn)的編程,體現(xiàn)其在復(fù)雜推理、指令執(zhí)行、數(shù)學(xué)、編程等能力方面的出色能力。
由百煉平臺(tái)可知,在定價(jià)方面,Qwen3-Max-Preview支持256k上下文,根據(jù)輸入token數(shù)采取階梯計(jì)費(fèi):
輸入0-32k token價(jià)格:0.006元/千token輸入,0.024元/千token輸出。
輸入32k-128k token價(jià)格:0.01元/千token輸入,0.04元/千輸出。
輸入128k-252k token價(jià)格:0.015元/千token輸入,0.06元/token輸出。
對(duì)比Qwen-Max-0919的0.02元/千token輸入、0.06元/千token輸出的價(jià)格,Qwen3-Max-Preview的定價(jià)更有層次,性能更高但價(jià)格更加實(shí)惠。
體驗(yàn)地址:
https://chat.qwen.ai
阿里云百煉API服務(wù):
https://bailian.console.aliyun.com/?tab=model#/model-market
結(jié)語(yǔ):超大Qwen3模型,證明規(guī)?;瘮U(kuò)展效果
模型層的突破正成為阿里AI轉(zhuǎn)型的第一張王牌。在內(nèi)部測(cè)試和早期用戶測(cè)評(píng)中,Qwen3-Max-Preview表現(xiàn)出更廣的知識(shí)面,更優(yōu)秀的對(duì)話能力,在Agent任務(wù)與指令遵循等方面擁有更強(qiáng)勁的性能。
通義千問(wèn)大模型開(kāi)源閉源兩手抓,已代表了中國(guó)大模型的技術(shù)新高度。Qwen3-Max-Preview刷新了阿里大模型參數(shù)新紀(jì)錄,其試圖用更加強(qiáng)悍的性能,證明規(guī)?;瘮U(kuò)展的效果——更大的模型擁有更強(qiáng)的性能。