亚洲丁香婷婷,亚洲精品欧美精品中文字幕,亚洲天堂国产,成年女人18级毛片毛片免费观看,99久久精品免费精品国产,成人亚洲欧美日韩中文字幕,久久国产成人午夜aⅴ影院

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

楊植麟首次透露K3架構(gòu),從月之暗面到MiniMax,中國AI“開源派”打響全球突圍戰(zhàn)

2025-11-13 12:12:53

11月11日凌晨,月之暗面三位創(chuàng)始人就K2 Thinking模型在Reddit論壇進行線上問答。創(chuàng)始人楊植麟不僅回應了訓練成本等問題,還透露了K3模型研發(fā)方向。K2 Thinking實測成績“能打”,長思維鏈能力備受關(guān)注。當前,中國開源應用生態(tài)正在形成,國產(chǎn)大模型在國際上贏得關(guān)注,國內(nèi)頭部模型公司呈現(xiàn)差異化發(fā)展路徑。

每經(jīng)記者|李宇彤    每經(jīng)編輯|陳星    

北京時間11月11日凌晨,月之暗面創(chuàng)始人楊植麟與聯(lián)合創(chuàng)始人周昕宇、吳育昕在知名論壇Reddit集體上線。在這個全球技術(shù)極客聚集地,三位首次同時露面,就上周發(fā)布的K2 Thinking模型開啟了一場長達數(shù)小時的線上AMA(線上問答)。

圖片來源:論壇截圖

《每日經(jīng)濟新聞》記者了解到,在交流中,楊植麟不僅回應了關(guān)于訓練成本、技術(shù)路線等方面的問題,還透露了下一代K3模型的研發(fā)方向?!癒DA(Kimi Delta Attention,一種線性注意力模塊)是我們最新的實驗性架構(gòu),相關(guān)想法很可能會在K3中使用?!彼硎?,“我們希望在K3中融入重大的架構(gòu)變革并開發(fā)新的能力。”

當被問及開源策略這一核心問題時,楊植麟的回答顯得既理想化又堅定:“我們擁抱開源,因為我們相信AGI(通用人工智能)應該引導大家走向團結(jié)而不是分裂?!?/p>

這場線上對話在業(yè)界看來,展現(xiàn)了中國AI(人工智能)企業(yè)正以更加開放、成熟的姿態(tài)融入全球技術(shù)生態(tài)。此前的7月,美國知名編程器Cursor開始全面禁止來自中國的IP調(diào)用Claude等模型。受此影響,Kimi K2調(diào)用量一度大幅上升。

本次線上問答還透露了哪些技術(shù)路線?中國大模型廠商在全球賽道上有著怎樣鮮明的分野?

K3計劃引入重大架構(gòu)變革

11月6日晚間,月之暗面旗下Kimi大模型發(fā)布了Kimi K2 Thinking,并稱其為“Kimi迄今能力最強的開源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能體)”理念訓練的新一代Thinking Agent,它原生掌握“邊思考、邊使用工具”的能力。

而Kimi K2 Thinking得到外界矚目的原因在于其“能打”的實測成績。據(jù)官方披露,Kimi K2 Thinking在“人類最后的考試”(Humanity's Last Exam)、自主網(wǎng)絡(luò)瀏覽能力(BrowseComp)、復雜信息收集推理(SEAL-0)等多項基準測試中表現(xiàn)達到SOTA(當前技術(shù)水平的最前沿)水平。

在“人類最后的考試”測試中,Kimi K2 Thinking的得分為44.9%,作為對比,Kimi公布的同場測試中GPT-5(High)的成績?yōu)?1.7%。

同時,長思維鏈能力也成為K2 Thinking備受關(guān)注的焦點。據(jù)介紹,該模型能夠連續(xù)執(zhí)行200至300次工具調(diào)用來解決復雜問題,保證任務連續(xù)性。而實現(xiàn)這一能力并非一帆風順。吳育昕在回答中坦言,支持“思考-工具-思考-工具”的交錯執(zhí)行模式是其中一大難點,這種模式在大語言模型(LLM)中仍屬較新行為,需投入大量工程才能有效實現(xiàn)。

對于“如此長的推理鏈如何保持穩(wěn)定性”這一疑問,楊植麟進一步闡釋了技術(shù)實現(xiàn)路徑:“我們采用端到端的智能體強化學習訓練K2 Thinking,這使得模型在數(shù)百個步驟的工具調(diào)用過程中,包括檢索在內(nèi)的每個中間環(huán)節(jié)都能保持良好的性能?!?/p>

值得一提的是,針對外界關(guān)心的訓練成本傳聞,楊植麟也首次做出澄清。

他表示,廣為流傳的“460萬美元”并非官方數(shù)字,真正的訓練成本很難量化,因為主要部分是研究和實驗。

吳育昕透露,K2 Thinking是在配備了Infiniband的H800 GPU(圖形處理器)集群上完成訓練的。盡管在算力規(guī)模上不占優(yōu)勢,但團隊“把每張顯卡的性能都壓榨到了極致”。

本次問答中下一代K3的藍圖也已初現(xiàn)輪廓。

楊植麟透露,團隊正計劃在K3中引入重大的架構(gòu)變革?!皬臍v史經(jīng)驗看,混合注意力機制在長序列任務中往往難以超越完全注意力機制。而我們在KDA架構(gòu)上的實驗表明,它在所有評估維度上都展現(xiàn)出性能提升,包括長序列輸入輸出的強化學習場景,同時保持了線性注意力機制的效率優(yōu)勢。因此,K3很可能會采納相關(guān)的設(shè)計理念?!?/p>

除了架構(gòu)革新,團隊還透露正在開發(fā)視覺語言模型(VL)。并且在文本模型方面,Kimi曾嘗試過1M上下文窗口,但因當時服務成本過高而未能推行。隨著技術(shù)進步與成本優(yōu)化,團隊表示未來將重新考慮引入更長的上下文窗口。

中國開源應用生態(tài)正在形成

在全球AI競賽中,國產(chǎn)大模型正憑借技術(shù)實力與開源策略,在國際舞臺上贏得越來越多的關(guān)注與認可,同時也面臨來自市場與地緣政治的挑戰(zhàn)。

本次問答中,一位海外用戶分享了他的兩難處境:其公司雖然認可Kimi模型的出色能力,但因其為“中國大模型”,出于潛在風險考量,不敢在生產(chǎn)環(huán)境中部署。

對此,吳育昕回應,完全理解這類擔憂。雖然“封禁”風險常常超出企業(yè)的控制范圍,但開源模式正是化解此疑慮的有效途徑——企業(yè)可以通過自行部署掌握控制權(quán)。他坦言:“我們期待一個更加互信的技術(shù)世界,但這需要時間?!?/p>

楊植麟則從更宏大的愿景出發(fā):“我們擁抱開源,因為我們相信AGI應該要引導大家走向團結(jié)而不是分裂?!?/p>

吳育昕(上)和楊植麟(下)在論壇中的回復 圖片來源:論壇截圖

這種以開源構(gòu)建信任、以技術(shù)連接世界的策略,正在復雜的國際環(huán)境中顯現(xiàn)成效。

今年7月,當美國知名編程工具Cursor全面禁止中國IP調(diào)用Claude等模型后,市場迅速做出了選擇。據(jù)平臺OpenRouter數(shù)據(jù)顯示,Kimi K2的調(diào)用量隨即大幅攀升,與同期發(fā)布的Grok4登上增長榜前兩名,日處理量突破100億Token(大模型處理文本時的最小單位)。其API(應用程序編程接口)價格僅為Claude Sonnet的五分之一,展現(xiàn)出性價比的競爭力。

這樣的增長勢頭并非孤例。10月27日,國內(nèi)另一家AI獨角獸MiniMax發(fā)布的開源文本模型M2,在權(quán)威測評榜Artificial Analysis中沖至全球總分前五、開源模型第一,實現(xiàn)了中國開源模型的歷史性突破。更引人注目的是其成本效益:M2的綜合成本低至每百萬Tokens約0.53美元,約為Claude 4.5 Sonnet的8%,且推理速度近乎其兩倍。

在技術(shù)路線上,國內(nèi)頭部模型公司已呈現(xiàn)出清晰的差異化發(fā)展路徑:MiniMax M2主打極致性價比與高速推理,致力于構(gòu)建豐富的多模態(tài)應用生態(tài);而Kimi則持續(xù)專注將長文本處理和深度思考能力推向極致,探索大模型的能力上限。

面對與OpenAI等巨頭的競爭,周昕宇幽默回應:“我們也不清楚OpenAI為何如此燒錢,這恐怕只有薩姆?奧爾特曼本人知道。我們有屬于自己的方式和節(jié)奏?!彼麖娬{(diào),公司的核心使命始終是尋求從能源到智能的最佳轉(zhuǎn)換,未來將繼續(xù)專注于提升智能本身。

對于外界翹首以盼的下一代模型K3,楊植麟的回答充滿期待:“在OpenAI建成千億級美元數(shù)據(jù)中心之前,K3會推出的?!?/p>

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

1

0