直擊WAIC2025｜手機Agent競賽升級：榮耀發(fā)布多模態(tài)感知大模型MagicGUI，從單智能體任務執(zhí)行到多智能體協(xié)同

每日經(jīng)濟新聞 2025-07-26 17:46:22

7月26日，在WAIC2025期間，榮耀發(fā)布MagicGUI大模型并開源。該模型參數(shù)規(guī)模為70億，是榮耀“阿爾法戰(zhàn)略”重要成果。相較于傳統(tǒng)語音助手，MagicGUI更接近于“數(shù)字助理”，可跨應用協(xié)同完成任務。榮耀MagicOS副總裁孫建發(fā)表示，模型報告已登陸GitHub平臺，相關(guān)測試數(shù)據(jù)將于近期上線。

每經(jīng)記者｜王晶每經(jīng)編輯｜董興生

AI（人工智能）時代的手機，不應滿足于依靠大模型的能力僅實現(xiàn)一些諸如翻譯、文檔處理、你問我答之類的簡單功能，AI的“智慧”和手機的便捷特性理應有更廣闊的想象空間。

7月26日，在“2025世界人工智能大會暨人工智能全球治理高級別會議”（WAIC2025）期間，榮耀發(fā)布MagicGUI大模型并開源。該模型也是其“阿爾法戰(zhàn)略”的重要成果，參數(shù)規(guī)模為70億。相較于傳統(tǒng)語音助手多數(shù)還停留在機械式對話的初級階段，MagicGUI的角色更接近于一位“數(shù)字助理”，它不僅可以理解復雜需求，更能跨應用協(xié)同完成任務。以打車場景為例，榮耀智能體YOYO可在滴滴、高德等出行App中實現(xiàn)打開應用、選擇地址、確認車型并下單等多步流程。這背后是AI智能體（Agent）多模態(tài)感知、UI理解和自動執(zhí)行規(guī)劃等能力在終端的加速落地。

事實上，自2023年OpenAI引爆大模型熱潮以來，主流手機廠商已逐漸形成共識：語音助手的“雞肋時代”將走向終結(jié)，AI助手不再是“聊天機器人”或被動響應，而是具備感知、推理、決策、操作能力的“輕量級智能體”。在這一趨勢下，vivo、OPPO、小米等廠商也已在2024年密集推出具備類似復雜任務執(zhí)行能力的智能體方案。但如今，基于MagicGUI大模型，榮耀的YOYO已經(jīng)從單智能體任務執(zhí)行進化為多智能體協(xié)同。

從單智能體任務執(zhí)行到多智能體協(xié)同

回望2011年，蘋果首次在iPhone上引入語音助手Siri，為全球用戶打開了人機語音交互的大門。但十余年過去，Siri的功能更新有限，人們多數(shù)時候只會用Siri來設置鬧鐘或播放歌曲，而不是將其看作一個真正的數(shù)字助手。

在蘋果2025年全球開發(fā)者大會（WWDC）上，蘋果沒有展示任何關(guān)于Siri的新功能，這意味著AI版Siri繼續(xù)“跳票”。甚至直到現(xiàn)在，國行iPhone 15Pro系列/iPhone 16系列的用戶仍無法體驗蘋果的AI功能。

即便用戶提出諸如“嗨，Siri，幫我在美團App上點一杯咖啡”這類請求，Siri至今也只能打開App，無法進一步解析頁面并完成后續(xù)動作。

反觀安卓陣營，近年來，在AI助手實用性和系統(tǒng)集成度方面的進展普遍優(yōu)于蘋果。從榮耀的“YOYO”、vivo的“藍心小V”到小米的“超級小愛”，紛紛從傳統(tǒng)語音助手進化為“任務型智能體”，能夠完成點咖啡、訂餐廳、發(fā)紅包、撥打微信電話等任務。

其中，基于MagicGUI大模型，榮耀智能體還實現(xiàn)了從單智能體任務執(zhí)行到多智能體協(xié)同的升級。比如“一語打車”“一語PPT”，YOYO智能體可同時調(diào)度多個專項智能體（如設計、排版、支付模塊），完成操作流程。借助MagicGUI大模型賦予的感知、推理、規(guī)劃、反思、執(zhí)行任務的全鏈路能力，YOYO能夠像人類助理般拆解復雜任務、調(diào)度跨應用資源等。而單智能體在處理復雜任務時會顯露出局限性，比如缺乏長期規(guī)劃能力，通常處理單一、特定的任務等。

從App主導到Agent主導

移動手機時代，用戶與設備交互的主體是一個個App，用戶通過點擊、輸入，在各個應用之間來回切換完成任務，而在AI驅(qū)動的終端智能體框架中，主導權(quán)正由App轉(zhuǎn)向Agent，即“能理解屏幕、規(guī)劃步驟、自動執(zhí)行”的AI助手。

這種變化背后，是各大廠商對GUI Agent（圖形用戶界面智能體）技術(shù)的持續(xù)投入。作為一種多模態(tài)視覺模型驅(qū)動的系統(tǒng)，GUI Agent可以通過觀察手機界面（如截圖或UI結(jié)構(gòu)）感知手機狀態(tài)，并生成相應的動作（如點擊、輸入、滑動等）來實現(xiàn)任務自動化。榮耀的MagicGUI大模型，即是該技術(shù)方向在終端的一次系統(tǒng)落地。

然而，手機GUI智能體在實際部署場景中常常面臨重大挑戰(zhàn)。比如，移動應用和用戶界面的多樣性創(chuàng)造了許多長尾場景，截至2025年僅Google Play上就有168萬個應用，現(xiàn)有智能體在長尾場景中難以有效執(zhí)行任務；智能手機上的各類App的內(nèi)容變動頻繁，操作不確定性強。

為此，榮耀方面介紹，其算法團隊為MagicGUI模型設計了一個兩階段的訓練范式，包括繼續(xù)預訓練（CPT）與強化微調(diào)（RFT），前者通過大規(guī)模注入GUI相關(guān)知識，提升模型的屏幕感知與定位能力；后者引入了空間增強的復合獎勵函數(shù)與DF-GRPO算法，通過強化學習激發(fā)模型知識表達，進一步提升模型的效果和泛化能力。

經(jīng)過訓練的MagicGUI大模型使得YOYO能根據(jù)屏幕視覺信息邊思考邊行動，依據(jù)頁面反饋推理下一步操作，更智能高效。如果遇到用戶指令有誤、操作無法完成等突發(fā)情況，它也能主動停止。

開源方面，榮耀MagicOS副總裁孫建發(fā)表示：“目前榮耀MagicGUI大模型報告已登陸GitHub平臺（軟件項目托管平臺），模型與相關(guān)測試數(shù)據(jù)將于近期上線相關(guān)開源平臺。”

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。