2026-02-08 15:50:01
2025年春晚人形機器人將再登臺,行業(yè)重心轉向場景落地,出貨量預計大增。業(yè)內(nèi)稱僅靠表演難以生存,機器人需走進工廠等證明價值。行業(yè)分化出三條技術路徑各有優(yōu)劣,均面臨續(xù)航、穩(wěn)定性、成本考驗。未來3至5年是場景落地關鍵期,技術路線競爭將在場景中檢驗,行業(yè)將逐漸收斂,國產(chǎn)化也將成為趨勢。
每經(jīng)記者|胥帥 每經(jīng)編輯|張益銘
今年春晚的焦點之一是人形機器人再上春晚。去年春晚舞臺上,宇樹機器人穿著大紅襖扭秧歌,這也帶動了人形機器人行業(yè)的熱度。2025年國內(nèi)人形機器人出貨量預計將激增650%以上。
如今,只會跳舞的人形機器人,還能得到投資人和行業(yè)的認可嗎?近期,《每日經(jīng)濟新聞》記者對話了人形機器人投資者、人形機器人核心產(chǎn)品負責人等。當前行業(yè)重心已放在場景落地?!爸粫璧馁u不動了,得有真實場景才能活?!币煌顿Y者坦言,那種僅靠三五個人、十來個人就拼湊起來的公司,張口就要估值、要融資,這類公司他們根本不碰。
從“刷屏表演者”向“實干勞動者”轉型,機器人的技術能力能否支撐這一跨越?受訪者在交流中并未強調更細分的人形,而是討論整個智能機器人。
機器人三條技術路線的競速也已進入白熱化:Figure AI(美國人形機器人初創(chuàng)公司)、智元的“通用智能”VLA模型能否應對工廠流水線?特斯拉推崇的“世界模型”如何靠仿真數(shù)據(jù)降低成本?波士頓動力式的分層決策怎樣保障機器人長期工作不犯錯?
續(xù)航、穩(wěn)定性、成本,成為三條技術路線在量產(chǎn)前夜面臨的殘酷考驗——機器人必須學會“干活”。
2025年央視春晚,當杭州宇樹科技的人形機器人身著大紅棉襖,扭起秧歌,全球為之沸騰。
時隔一年的馬年春晚,機器人又要回來了。宇樹科技是春晚機器人合作伙伴,首次登臺的銀河通用機器人是春晚指定的具身大模型機器人。觀眾可能再次看到人形機器人上演令人驚艷的翻轉、扭轉動作。
春晚的提前“劇透”進一步提升了人形機器人的行業(yè)關注度,機構數(shù)據(jù)也樂觀看待2025年的量產(chǎn)情況。高工機器人產(chǎn)業(yè)研究所數(shù)據(jù)顯示,2025年國內(nèi)人形機器人出貨量預計達1.8萬臺,較2024年激增超650%;在此基礎上,2026年國內(nèi)出貨量有望攀升至6.25萬臺。
就在今年1月22日,每經(jīng)記者注意到一個招標公告,招標公司是中國石油天然氣股份有限公司華北油田分公司,中標公司是四川天鏈機器人股份有限公司,這是基于加油站能源加注場景的人形機器人適配應用與可行性預研究項目研發(fā)材料采購。這意味著,在不遠的將來,我們或許能看到人形機器人承擔加油站能源加注工作。
隨著聚光燈的轉向,業(yè)內(nèi)人士也開始思考,機器人不再只是舞臺上的表演者,它們必須走進工廠、工地、物流倉庫,證明自己是能創(chuàng)造真實價值的“勞動者”,而非昂貴的“大號玩具”。
2月6日下午,一家專注于人形機器人領域的公司的資深投資人(曾是公司大股東)說:“如今,哪家機器人公司能深耕具體應用場景、扎穩(wěn)腳跟,未來才有出路。不管是做硬件、整機,還是軟硬件開發(fā),都必須和場景結合?!?/p>
過去的一年,他和很多人形機器人的投資人交流,他們的共識是,如果脫離人形機器人的應用場景,只是悶頭閉門造車,這類公司遲早會被行業(yè)淘汰。
“我們現(xiàn)在更看重企業(yè)是否有落地場景;如果沒有成型產(chǎn)品,我們基本上不會考慮投資。那種僅靠三五個人、十來個人就拼湊起來的公司,張口就要估值、要融資,我們根本不碰,這類公司往往死得很快?!彼f,如今,行業(yè)早已過了“機器人會跳舞就能賣得好”的野蠻生長階段。
雅可比機器人創(chuàng)始人邱迪聰接受《每日經(jīng)濟新聞》記者采訪表示:“無論多厲害的技術、多好的設計,到最后都需要形成一個可交易的產(chǎn)品,才能產(chǎn)生最終的經(jīng)濟價值?!?/p>
過去行業(yè)內(nèi)外常常熱衷于比較各家的技術路線,仿佛某一項技術優(yōu)勢就能“吃遍全場”。“但到最后你會發(fā)現(xiàn),技術只是其中一個部分,有時候在發(fā)展后期甚至不是一個重要的部分?!北M管邱迪聰自己也從事AI(人工智能)機器人學術研究,但他認為,技術的先進性本身并不能直接導致商業(yè)成功。
“接下來這段時間,具身智能的競爭都只在于:落地,落地,還是落地。”而落地最終要回答的核心問題是:“怎么才能夠讓有足夠的產(chǎn)品力、被客戶認可并大量規(guī)?;刭u出去,形成銷售落地?!?邱迪聰指出,無論融資規(guī)模多大,最終都必須回歸商業(yè)本質,對銷售額負責,“不然,估值和銷售比太高,就變成了融資很多卻沒做幾單生意,這就浪費了投資”。
究竟哪種機器人能真正“活下來”,拓展出自己的應用場景?不同企業(yè)押注的三種技術路徑,正在給出截然不同的答案。
2月3日,快思慢想研究院院長田豐告訴每經(jīng)記者:“2026年,智能機器人長時間作業(yè)的瓶頸將從‘能不能走’,轉向‘能干多久’和‘夠不夠穩(wěn)’?!?/p>
“大家普遍認為,2026年將是機器人走向服務產(chǎn)業(yè)應用場景的關鍵一年。”他指出,當前技術重點正從機器人的運動控制轉向“機器人大腦”能力的增強,以提高對復雜環(huán)境和任務的理解與執(zhí)行能力。“我們中心很早就開始去做一些布局和開發(fā)?!背啥既诵螜C器人創(chuàng)新中心產(chǎn)品總監(jiān)呂童博士表示。
行業(yè)也不得不重新思考:在機器人從“實驗室”走向“生產(chǎn)線”的關鍵節(jié)點,如何讓它們真正像人一樣精準、穩(wěn)定地完成擰螺絲、打包、搬運等實操任務?這場轉型的考驗尤為殘酷,續(xù)航功耗、實時響應能力與維護成本,成為檢驗所有技術路線的“試金石”。在這三重考驗下,原本看似百花齊放的技術路線,開始逐漸顯露出各自的優(yōu)勢與短板。
面對“實干”的要求,行業(yè)逐漸分化出三條主流技術路徑,每條路都代表了對智能機器人未來的不同想象。
第一條是VLA(視覺語言動作)模型路線,以追求“通用智能”為核心,試圖讓機器人像人類一樣通過視覺感知、語言理解,最終直接控制動作執(zhí)行。Figure AI、智元機器人等企業(yè)押注于此。
田豐分析了這條路徑的核心特點:“依賴海量數(shù)據(jù)訓練,以應對未知環(huán)境和未知任務,追求端到端的單一模型?!逼鋬?yōu)勢在于具備強大的語義理解能力,能夠聽懂“把桌子收拾干凈”這類模糊指令。但田豐也指出了其短板:“端到端模型的計算開銷大,對硬件的續(xù)航、散熱能力要求較高?!?/p>
去年以來,智元機器人、優(yōu)必選等企業(yè),已展示出人形機器人進廠“打螺絲”的實操能力。今年的CES展會上,一些非人形機器人的專業(yè)公司也進入這一賽道,比如速騰聚創(chuàng)展示了高穩(wěn)定性機器人作業(yè)系統(tǒng)。2月3日,《每日經(jīng)濟新聞》記者采訪了速騰聚創(chuàng)負責AI領域的專家洪浪(化名),他表示:“VLA是一種利用大語言模型的涌現(xiàn)能力實現(xiàn)操作智能的技術范式?!钡掍h一轉,指出了這條路線的隱性挑戰(zhàn):“單純給機器人一張圖片,它無法判斷一個盒子距離機械手有多少厘米,但VLA的輸出卻是3D世界中一系列實數(shù)坐標和朝向,這意味著端到端的VLA仍需隱式利用相當一部分參數(shù),來解決空間感知問題?!贝送?,當機器人手部即將觸碰到物體的“最后一厘米”時,絕大多數(shù)操作接觸面會被靈巧手自身遮擋,因此觸覺與力覺反饋的重要性就凸顯出來。
速騰聚創(chuàng)的解決方案主要有兩點。一是在傳統(tǒng)純視覺VLA的基礎上,融合3D點云和觸覺信息?!坝行Ю命c云后,我們的數(shù)據(jù)需求大幅降低,因為這一方式跳過了依靠海量數(shù)據(jù)隱式學習空間感知的階段。”其二是將觸覺作為VLA的另一模態(tài)輸入,速騰聚創(chuàng)不愿具名的專家強調,當前觸覺技術仍面臨三大行業(yè)性難題:一是硬件層面,優(yōu)質、高信噪比的觸覺傳感器依然稀缺;二是算法層面,尚未有成熟方法能高效利用觸覺數(shù)據(jù);三是數(shù)據(jù)層面,缺乏大規(guī)模的公開或私有觸覺數(shù)據(jù)集。
第二條是世界模型路線,核心是構建“數(shù)字世界”,特斯拉是這一路線的代表。該路線會在AI系統(tǒng)內(nèi)部構建物理世界的模擬器,讓機器人能夠預測自身行動的后果。
田豐將其概括為:“為機器人注入對物理規(guī)律的直覺理解,讓它通過推理和規(guī)劃,預測自身行動的結果?!边@條路徑重度依賴高質量仿真數(shù)據(jù),但一旦模擬器建成,便能大幅降低對昂貴真機數(shù)據(jù)的依賴。
第三條是分層決策與軟硬件協(xié)同路線,走的是務實路徑,波士頓動力、智元機器人是這一路線的代表。該路線將復雜任務拆解,由大模型負責任務語義理解與子任務分解,傳統(tǒng)算法則負責定位、導航、精密控制等基礎功能。田豐指出,這種模塊化架構的優(yōu)勢在于故障易隔離,能將復雜的推理任務與高頻實時控制解耦,確??刂苹芈返捻憫俣龋鋬?yōu)勢在真實世界的流水線上更能得到檢驗。
不過,呂童認為,各技術路線之間并不相互排斥,分層架構、3D場景圖、世界模型等多種架構正同步推進。他認為,VLA端到端與世界模型等路徑并非相互排斥,“它們需要協(xié)同發(fā)展”。機器人本身是一項系統(tǒng)工程,技術選型需綜合考量部署環(huán)境、網(wǎng)絡條件、算力支撐等現(xiàn)實因素,“不能脫離實際條件去談性能”。
不同企業(yè)基于自身基因,給出了不同的技術答案,但無論哪種路線,都繞不開一個核心難題——提升機器人適應不同場景的“泛化能力”。
邱迪聰則向記者進行了闡述,機器人控制的核心追求是解決泛化問題。最早的方法是基于模型預測控制,它讓機器人擺脫了完全固定的軌跡。這種方法如同解方程(例如 X +1 = Y),將環(huán)境感知(X)與動作(Y)動態(tài)關聯(lián),從而能應對預設范圍內(nèi)的變化。但其局限在于,一旦遇到模型未預料的情況,便會失效。
為了突破這一限制,VLA模型應運而生。其目標是讓機器人像人一樣,通過自然語言接受指令(如“把蘋果放到架子上”),并借助視覺感知自主完成任務。VLA模型通常在大型視覺語言模型基礎上,結合人類的操作數(shù)據(jù)進行訓練,使其具備強大的理解和泛化能力,但同時也面臨數(shù)據(jù)昂貴、算力消耗大、執(zhí)行速度慢等挑戰(zhàn)。
當前技術路線主要分為兩大類:模型驅動方法(如模型預測控制,穩(wěn)定但泛化能力有限)和數(shù)據(jù)驅動方法(包括強化學習和模仿學習)。VLA模型可視為后兩者的結合,代表了通向通用機器人的重要方向。
速騰聚創(chuàng)上述專家表示:“泛化的本質其實是內(nèi)插?!敝灰屇P徒佑|過足夠豐富的場景——比如昏暗或明亮的燈光、高矮不一的桌子、遠近不同的擺放位置,就能讓它在未知場景中做出合理判斷。但這還不夠,“數(shù)據(jù)必須足夠干凈,越干凈的數(shù)據(jù)集,模型越容易實現(xiàn)泛化”。他直言,自動駕駛和機器人領域都飽受“臟數(shù)據(jù)”困擾,這類數(shù)據(jù)會嚴重破壞模型的泛化能力。數(shù)據(jù)的多樣性和干凈度是兩回事,這是很多從業(yè)者容易踩的坑。
他還強調,提升AI操作系統(tǒng)的“下限”,遠比展示“上限”更具技術難度和行業(yè)含金量?!凹幢阕屇P蛧L試100次,能呈現(xiàn)高光時刻的也只是少數(shù);但提升下限,意味著能讓機器人在工廠里連續(xù)工作10個小時不犯錯,這才能真正產(chǎn)生價值。”
呂童則表示,行業(yè)需求正從追求單一數(shù)據(jù)量,轉向注重“數(shù)據(jù)多元化”與更便捷的采集方式,比如基于視頻的采集。同時,行業(yè)也在探索如何將人類社會積累的物理與自然知識融入世界模型,“這或許會成為行業(yè)未來的重點關注方向”。
除了數(shù)據(jù),算力部署也是關鍵問題,業(yè)內(nèi)普遍認為,高頻本地推理是保障機器人穩(wěn)定性的核心。如果一個系統(tǒng)能實現(xiàn)10赫茲的推理頻率,就意味著微小擾動能在0.1秒內(nèi)被處理?!叭粝到y(tǒng)推理頻率僅為2到3赫茲,就需要等待0.4到0.5秒,再加上執(zhí)行機構的控制時延和推理不同步問題,會顯著影響任務成功率?!?/p>
速騰聚創(chuàng)市場部總監(jiān)謝闐地向每經(jīng)記者表示,未來3至5年,將是具體場景機器人落地的關鍵期。機器人的價值在于勞動力的補充,人的實踐和經(jīng)驗總結是非常寶貴的,機器人可以學習模仿老師傅的經(jīng)驗和手藝,客戶愿意為能復制人類資深經(jīng)驗的機器人解決方案付費。也許當前具身機器人同樣時間內(nèi)只能完成人類一半甚至更少的工作量,但機器人可以在夜間工作,在節(jié)假日工作。
另一個案例是,去年的機器人大會上,很多來自江浙地區(qū)的制造企業(yè)負責人專程觀展,直接詢問“能不能買機器人組建產(chǎn)線”。市場需求雖迫切,但技術與商業(yè)化之間仍存在鴻溝。
他坦言,目前只有唱歌跳舞類的娛樂機器人能實現(xiàn)穩(wěn)定營收,整個機器人行業(yè)仍處于“研發(fā)向工程轉化”的階段,但娛樂場景帶來的行業(yè)熱度,極大加速了機器人“干活”能力的發(fā)展進程。
當前,機器人的市場需求正朝著務實方向發(fā)展?!坝脩粝Mx取一些具體場景,實現(xiàn)高度閉環(huán)?!眳瓮f,用戶的具體訴求集中在三個方面:降低生產(chǎn)成本、將人類從重復枯燥或高危工作中解放出來,以及在文商旅等領域提供情緒價值?!皺C器人的出現(xiàn),本質上是為了解決某個層面的實際問題。”
當前前沿的具身智能技術尚在研發(fā)期,穩(wěn)定性普遍未達到工業(yè)級水平。真正可靠的技術(如工業(yè)流水線、家用冰箱)因其穩(wěn)定到讓人“習以為?!倍辉俦惶貏e關注。
邱迪聰表示,工廠場景相對簡單,物品(如特定螺絲)和環(huán)境固定,操作雖精密但高度重復。商超場景復雜度高,需識別數(shù)十萬種商品,對物品理解要求極高,但操作以“拿、放、擺”為主。家庭場景則是機器人終極挑戰(zhàn):空間和物品千差萬別,操作更是涵蓋掃地、烹飪等包含幾十道工序的復雜任務,對通用性要求極高。從投入產(chǎn)出比(ROI)看,家庭場景目前不經(jīng)濟:一臺機器人售價可達數(shù)十萬元乃至百萬元,與能提供的有限服務不匹配。
商業(yè)場景正成為突破口。例如,在零售倉揀貨場景,機器人若能解決物品泛化問題,可提升運營效率30%~90%,具備了明確的商業(yè)價值。
不過,邱迪聰表示,當前前沿的具身智能技術尚在研發(fā)期,穩(wěn)定性普遍未達到工業(yè)級水平。
技術路徑的競爭,最終要在具體場景中接受檢驗。田豐分析道:“長時間穩(wěn)定作業(yè)是商業(yè)化落地的‘任督二脈’,不同技術路線,決定了機器人在不同場景下的性價比與存活率?!?/p>
“在相對結構化的工廠、物流場景中,不需要極高的VLA語義理解能力,但需要極高的平均無故障時間(MTBF)和極低的功耗,因此‘分層決策+軟硬件協(xié)同’路線更適配?!碧镓S進一步指出,“模塊化執(zhí)行器方案在量產(chǎn)成本和后期維護方面具有絕對優(yōu)勢?!?/p>
在地形復雜多變的建筑工程場景,世界模型結合輪足混合架構更適配。他以逐際動力為例:“通過世界模型預測地形,自動切換運動模態(tài)完成任務,其能量效率比純足式機器人高出3至5倍,能大幅降低長時間作業(yè)的續(xù)航壓力?!?/p>
在文旅與家庭服務場景,服務業(yè)對人機交互的要求極高,而VLA架構恰好能賦予機器人理解人類用戶差異化模糊指令的能力。
在謝闐地看來,當前機器人行業(yè)的商業(yè)模式已逐漸清晰:面向B端(企業(yè)端)客戶,與本體廠商、場景方開展聯(lián)合共創(chuàng)?!拔覀冃枰獙ふ覔碛姓鎸嵣a(chǎn)場景的合作伙伴,比如物流打包、汽車零部件裝配,共同推動方案落地驗證?!彼毖?,機器人的核心價值在于“無需改造現(xiàn)有基礎設施,能與人在同一環(huán)境中共存作業(yè)——比如在工廠中,白天人工作業(yè),晚上由機器人接手”。
從當下的行業(yè)競爭看向未來,人形機器人領域呈現(xiàn)出幾個清晰的發(fā)展趨勢。
從技術進步的時間維度來看,呂童認為,當前機器人技術正以“月”為單位快速迭代,行業(yè)在資本與技術層面仍保持高速推進態(tài)勢。但前沿技術與實際應用的結合,仍處于熟化與試錯階段?!罢麄€行業(yè)在應用側總體仍處于熟化過程中,必然會伴隨著試錯。”他還觀察到,學界與產(chǎn)業(yè)界的界限正日益模糊,許多新技術的誕生,正是源于一線實踐的反饋與倒逼。
田豐預測,技術路線將逐漸收斂:“借鑒PC(個人電腦)、手機的硬件發(fā)展歷史,智能機器人硬件架構將逐漸統(tǒng)一化?!避浖軜嬵I域,“有可能不再追求純粹的端到端,而是形成‘語義解析層—環(huán)境建圖層—運動執(zhí)行層’的三層解耦架構”。
在企業(yè)路線選擇上,軟硬件深度協(xié)同將成為優(yōu)先方向?!昂诵牟考仨毰c算法深度適配,那些單純進行部件組裝的機器人企業(yè),或將被行業(yè)淘汰?!碧镓S指出。
一個關鍵判斷是:“2026年,各企業(yè)的硬件差距將迅速收窄,真正的核心壁壘將是機器人在長時間作業(yè)中積累的非標環(huán)境作業(yè)數(shù)據(jù)?!?/span>那些已實現(xiàn)大量落地部署的機器人企業(yè)所形成的數(shù)據(jù)閉環(huán)能力,將成為其核心競爭壁壘。
另一個重要趨勢是國產(chǎn)化?!?026年國產(chǎn)行星滾柱絲杠、高功率密度伺服電機逐步實現(xiàn)量產(chǎn)替代,智能機器人結合國產(chǎn)零部件進行自研改造、集成優(yōu)化成為趨勢?!碧镓S總結道。
在謝闐地看來,機器人的終極價值不是替代人,而是傳承人的經(jīng)驗,是在人類休息的時間里、在人類無法適應的惡劣環(huán)境里——把老師傅的手藝、老專家的經(jīng)驗轉化為數(shù)據(jù)模型,讓一群機器人成為人類勞動力的補充?!斑@才是工業(yè)智能化的未來?!?/p>
邱迪聰總結,機器人技術固然重要——它驅動生產(chǎn)力革新、效率提升和體驗改善——但必須被放在合理的位置。技術是實現(xiàn)卓越產(chǎn)品的手段,而非目的本身。機器人“落地”考驗的是技術與商業(yè)場景的百分之百適配?!澳隳芙鉀Q90%的問題,但剩下的10%解決不了,整個場景就用不了,那前面的90%就等于0。”這意味著企業(yè)必須綜合考慮:技術的先進性是否匹配場景需求、機器人的穩(wěn)定性與可靠性、外觀設計與用戶交互體驗,以及整體解決方案能否在客戶可接受的投入產(chǎn)出比范圍內(nèi)形成閉環(huán)。任何影響最終體驗的細節(jié),都構成決定性的產(chǎn)品力。創(chuàng)業(yè)也好,新的科技也好,到最后都變成一個很簡單的問題:這個東西好用嗎?然后你愿意花錢買嗎?如果愿意,那就是成功。
封面圖片來源:每經(jīng)媒資庫
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP