-->
阿里千問(wèn)最強(qiáng)模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro
阿里正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄,性能媲美GPT-5.2、Gemini 3 Pro
2026-01-27 08:32:52
來(lái)源:快科技??

快科技1月26日消息,阿里正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄,性能媲美GPT-5.2、Gemini 3 Pro,成為迄今為止最接近國(guó)際頂尖模型的國(guó)內(nèi)最強(qiáng)AI大模型。

通過(guò)總參數(shù)、強(qiáng)化學(xué)習(xí)、推理計(jì)算的極致規(guī)模擴(kuò)展,千問(wèn)新模型實(shí)現(xiàn)了性能的大幅飛躍,刷新科學(xué)知識(shí)(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項(xiàng)關(guān)鍵性能基準(zhǔn)測(cè)試的全球紀(jì)錄。

Qwen3-Max-Thinking是目前阿里規(guī)模最大、能力最強(qiáng)的千問(wèn)推理模型,其總參數(shù)量超萬(wàn)億(1T),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens。

此前,預(yù)覽版Qwen3-Max-Thinking斬獲數(shù)學(xué)推理AIME 25和HMMT 25的國(guó)內(nèi)首個(gè)雙滿分,推理性能已讓人驚艷;在此基礎(chǔ)上,阿里通義團(tuán)隊(duì)進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練,全面提升了正式版Qwen3-Max-Thinking性能。

在涵蓋事實(shí)知識(shí)、復(fù)雜推理、指令遵循、人類偏好對(duì)齊、Agent能力等19個(gè)公認(rèn)的大模型基準(zhǔn)測(cè)試中,千問(wèn)旗艦推理模型刷新了數(shù)項(xiàng)最佳表現(xiàn)(SOTA)紀(jì)錄,整體性能可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro 。

在關(guān)鍵的模型推理能力提升中,千問(wèn)新模型采用了一種全新的測(cè)試時(shí)擴(kuò)展(Test-time Scaling)機(jī)制,推理性能提升的同時(shí)還更經(jīng)濟(jì)。

業(yè)界普遍的推理時(shí)計(jì)算,只會(huì)簡(jiǎn)單增加并行推理路徑,重復(fù)推導(dǎo)已知結(jié)論,造成冗余推理效率低下;而千問(wèn)采用的這一新機(jī)制,可對(duì)此前推理的結(jié)果進(jìn)行“經(jīng)驗(yàn)提取”式的提煉,并據(jù)此進(jìn)行多輪自我迭代,在相同的上下文中實(shí)現(xiàn)更高效的推理計(jì)算,獲得更智能的推理結(jié)果。

基于這一推理技術(shù)創(chuàng)新,千問(wèn)推理性能和推理效率大為提升,比如在啟用工具的“人類最后的測(cè)試”HLE中,千問(wèn)得分58.3,大幅超過(guò)GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,錄得當(dāng)前所有模型的最高分。

面向即將到來(lái)的智能體Agent時(shí)代,Qwen3-Max-Thinking還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力。

具體而言,在完成初步的工具使用微調(diào)后,通義團(tuán)隊(duì)對(duì)模型進(jìn)一步在大量多樣化任務(wù)上進(jìn)行了基于規(guī)則獎(jiǎng)勵(lì)與模型獎(jiǎng)勵(lì)的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練,使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進(jìn)行思考的能力。

這種自適應(yīng)的工具調(diào)用能力可在QwenChat上完整體驗(yàn),模型自主選用搜索、個(gè)性化記憶和代碼解釋器等三個(gè)核心的Agent工具功能,提供專業(yè)人士一樣水平的回答,更合用戶心意、更智能、更流暢;同時(shí),模型幻覺(jué)也大為降低,為解決真實(shí)復(fù)雜任務(wù)打下基礎(chǔ)。

目前,開發(fā)者可在QwenChat上免費(fèi)體驗(yàn)Qwen3-Max-Thinking模型,企業(yè)可通過(guò)阿里云百煉獲取新模型API服務(wù),普通用戶也可通過(guò)千問(wèn)PC端和網(wǎng)頁(yè)端試用模型。據(jù)了解,千問(wèn)APP也即將接入新模型,所有用戶都可免費(fèi)體驗(yàn)千問(wèn)最強(qiáng)模型。

原創(chuàng)文章
最新文章
1
俞浩慈善基金會(huì)開展“看見更大的世界·音樂(lè)少年”公益活動(dòng) 助力云南彌勒學(xué)子唱響夢(mèng)想之聲
2
紅利期結(jié)束,干衣機(jī)首次“負(fù)增長(zhǎng)”,2026年品需家電還有機(jī)會(huì)?
3
格力再?gòu)?qiáng)調(diào)“暫時(shí)沒(méi)有鋁代銅計(jì)劃”,一線大牌這次很“默契”
4
群星璀璨,追覓之夜:當(dāng)音樂(lè)與科技交織,創(chuàng)新與關(guān)懷并行
5
行業(yè)首款性能Ultra iQOO 15 Ultra正式亮相,到手價(jià)4999元起
6
BOE(京東方)全球首個(gè)OLED顯示通透度團(tuán)體標(biāo)準(zhǔn)正式發(fā)布 以科學(xué)標(biāo)尺定義“柔性好屏”新高度
7
三星半導(dǎo)體營(yíng)收和利潤(rùn)創(chuàng)新高
8
2025年全球電視出貨量同比微跌0.1%,前五品牌中國(guó)占三
9
蘋果可折疊iPhone Fold :設(shè)計(jì)、顯示屏和發(fā)布傳聞
10
三星Galaxy S26系列首批產(chǎn)能曝光 Ultra占比超七成,產(chǎn)量達(dá)Plus 6倍
11
國(guó)補(bǔ)第三年:拉動(dòng)效應(yīng)遞減 家電行業(yè)迎“常態(tài)化”大考
12
REDMI Turbo 5 Max上新16GB+1TB版本!首銷3399元
13
華為終于揭曉MateBook Pro芯片真身:麒麟X90!
14
低迷的凈水器市場(chǎng),誰(shuí)主沉???線下看這TOP5,線上看這TOP3
15
冰雪科技狂歡!TCL SQD-Mini LED電視燃動(dòng)亞布力
16
全球電視市場(chǎng)格局生變:TOP5大洗牌,這個(gè)中國(guó)品牌兩年內(nèi)將登頂
17
2025全球TV出貨量微降,TCL逆勢(shì)晉位
18
Mate 80賣爆!華為1月中國(guó)手機(jī)市場(chǎng)份額攀升至18.6%
19
2025年智能投影銷量同比下降13.9%,依然是健康護(hù)眼首選
20
家電行業(yè)AI 深耕期:產(chǎn)品升級(jí)與渠道變革雙向賦能
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512