亚洲精品国产自产拍在线观看_欧洲亚洲国产日韩综合一区_午夜亚洲精品在线视频免费观看_日韩在线观看欧美尤物_亚洲AV成人无码一二三久久_国产精品无码中出在线_麻豆精品一区二区综合A∨_成年男女免费视频网站慢动作_377p人体大尺度啪啪_另类亚洲欧美偷拍

  • 剛剛,阿里首個(gè)超萬億參數(shù)新王登基!Qwen3-Max屠榜全SOTA,碾壓DeepSeek V3.1

      發(fā)布時(shí)間:2025-09-11 11:56:27   作者:玩站小弟   我要評(píng)論
    當(dāng)?shù)貢r(shí)間9日晚間,哈馬斯發(fā)表聲明,強(qiáng)烈譴責(zé)以色列在卡塔爾首都。

    阿里迄今為止,參數(shù)最大的模型誕生了!

    昨夜,Qwen3-Max-Preview(Instruct)官宣上線,超1萬億參數(shù)性能爆表。

    直接用成績說話——

    在全球主流權(quán)威基準(zhǔn)測(cè)試中,Qwen3-Max-Preview狂攬非推理模型「C」位,直接碾壓Claude-Opus 4(Non-Thinking)、Kimi-K2、DeepSeek-V3.1。

    甚至,它把自家Qwen3-235B-A22B-Instruct-2507狂甩身后,堪稱「AI卷王本王」。

    · 知識(shí)推理評(píng)測(cè)(SuperGPQA)拿下64.6分· 數(shù)學(xué)推理評(píng)測(cè)(AIME25)拿下80.6分,斷崖式領(lǐng)先· 競(jìng)爭(zhēng)性編程評(píng)測(cè)(LiveCodeBench V6)拿下57.5分· 復(fù)雜問題解決和人類偏好對(duì)齊評(píng)測(cè)(Arena-Hard v2)拿下86.1分,優(yōu)勢(shì)巨大· 被稱為「無法被操控的」評(píng)測(cè)(LiveBench)拿下79.3分

    驚艷的性能表現(xiàn)再次證明了,Scaling仍然有效,參數(shù)越大模型性能越強(qiáng)。

    總的來說,Qwen3-Max-Preview有以下幾大亮點(diǎn):性能更強(qiáng)、知識(shí)更廣、更擅長對(duì)話、任務(wù)處理、指令遵循。

    新模型可支持100+語言,還針對(duì)RAG、工具調(diào)用進(jìn)行優(yōu)化。

    模型一出,全網(wǎng)立即開始了實(shí)測(cè)。

    @karminski-牙醫(yī)實(shí)測(cè)中,Qwen3-Max-Preview前端能力明顯超越DeepSeek-V3.1。

    比如,在一個(gè)杯子流體模擬中,Gemini 2.5在傾倒前杯子底部有嚴(yán)重bug,DeepSeek-V3.1杯子中物體倒出的狀態(tài)(最后有一條線)不對(duì),而Qwen3-Max-Preview比較符合物理常識(shí)。

    Qwen3-Max-Preview還能完美生成一個(gè)騎自行車的鵜鶘SVG、一鍵直出精美前端網(wǎng)頁,一張照片做出像素花園。

    目前,模型已正式上線阿里云百煉平臺(tái),可通過API直接調(diào)用。同時(shí),Qwen Chat也同步上線新模型,支持免費(fèi)使用。

    在百煉平臺(tái)上,最大支持256k上下文,依token數(shù)階梯計(jì)費(fèi):

    · 0-32k token:輸入0.006元/千token;輸出0.024元/千token· 32k-128k token:輸入0.01元/千token;輸出0.04元/千token· 128k-252k token:輸入0.015元/千token;輸出0.06元/千token