具身智能機器人加速“進廠” 數據瓶頸亟待突破

“具身智能”被寫入今年的政府工作報告,具身智能機器人“進廠”、“營業”也被寄予厚望。在剛剛閉幕的2025中關村論壇年會上,忙碌的具身智能機器人也是備受矚目的焦點。
——————————
過去幾天,一些具身智能機器人“忙得很”。
剛剛閉幕的2025中關村論壇年會上,隨處可見機器人的身影,近百台機器人在這裡上演了“十八般武藝”,主持、泡茶、下棋、打太極……
最為忙碌的要數以人形機器人為代表的具身智能機器人,其中,北京清飛科技有限公司研發的仿生交互型機器人“妮婭”以逼真的形象穩居“C位”,它面前總有人排隊問詢論壇的信息。它在通過語音為觀眾答疑解惑的同時,臉上還不忘“擠”出微笑,並且模仿人類,向觀眾擺手、比耶、點贊等。
這幾天,作為具身智能領域的代表,北京大學助理教授、銀河通用創始人、智源具身智能研究中心主任王鶴接連參加了幾場論壇,談論的話題都離不開人形機器人和具身智能。3月27日,他在2025中關村論壇年會開幕式上表示,接下來,人形機器人將邁入生產力時代。
多家人形機器人宣布了產業化交付目標,這也意味著人形機器人將加速“進廠”,開始“營業”。這也將讓人形機器人擁有更多珍貴的真機數據,為具身智能邁向新征程奠定基礎。
進入“AI教AI”時代
人工智能(AI)、人形機器人、具身智能是2025中關村論壇年會熱門關鍵詞,在本屆論壇的“人工智能主題日”核心論壇——未來人工智能先鋒論壇上,更是如此。
“AI-First應用(以AI為核心優先考慮的應用)將會迎來爆發。”零一萬物CEO、創新工場董事長李開復帶來了關於AI的最新觀察。在他看來,今年AI領域一個焦點問題應該是:“Make AI Work,讓大模型真正賦能千行百業。”
李開復也指出,當前,大模型性能的提升正在加速,而不是在放緩。值得關注的是,AI借由“慢思考”具備了反思的能力,能夠自我迭代、自我進步,也就是“AI教AI”,AI進入到自我演進范式。
“算法通用性越來越好,模型通用性越來越好,讓我們逐漸看到了通用人工智能(AGI)的曙光。”百度首席技術官王海峰表示,從技術角度而言,AGI的技術通用性和能力全面性很重要。一個大模型可以適用於很多不同的領域,在不同的語言、不同的模態以及不同的應用場景,可以處理不同的任務。他也在期待,AI賦能千行百業,造福千家萬戶。
當前,AI Agent(智能體)熱度居高不下,不少企業都加入了發展“AI Agent 大軍”。
在面壁智能聯合創始人兼CEO李大海看來,大模型即Agent,這是未來智能體發展的方向,“把大模型送去‘上班’就是Agent”。
他介紹,目前,面壁的大模型“小鋼炮”MiniCPM系列端側模型已在汽車、手機、具身智能、智能可穿戴設備等多個主流方向推進“就業”,將大模型的功能和終端結合在一起,與更多場景相結合。
李大海也在期待,“以大模型為代表的智能革命到來的關鍵性時刻必然是:大模型越來越強、越來越小,奔騰於每個終端。人人都能享受到智能的便捷,真正實現智能普惠”。
數據瓶頸亟待突破
數據是驅動具身智能行業發展的一個關鍵要素。智源研究院院長王仲遠表示,世界是多模態的,目前,具身智能機器人大部分使用的是視覺、文本等模態,具身智能機器人行業對VLA模型(Vision-Language-Action Model,即視覺-語言-動作模型)並不陌生。實際上,對於具身智能來說,不少模態的信息還沒有被有效利用,例如觸覺模態等,對溫度、時間、空間等的感知,也需要未來具身智能行業逐步去突破。
“數據其實是現在具身智能發展的一大瓶頸。”王鶴指出,當前,數據不足限制了人形機器人的靈活性和智能化水平。他解釋,人們感覺日常生活中的人形機器人好像並沒有那麼聰慧、靈動,這背后一個制約因素就是數據不夠。
具身機器人需要多模態數據,其中包括現有的圖文數據、視頻數據、真機數據以及合成數據。其中,如何在真機數據和仿真合成數據之間取舍,也是從業者面臨的一個重要課題。
上海交通大學教授、穹徹智能創始人盧策吾表示,每種數據都有它的價值,提供相應的信息量,但每種數據也會有相應的“噪聲”。例如,互聯網的圖、文、視頻數據量大面廣,缺乏人形機器人的操作支持數據﹔仿真數據對於具身智能發展也很重要,但面臨復雜的情景,尤其是高精度的任務,可能出現仿真到現實的鴻溝﹔真機數據面臨最關鍵的問題是成本高昂。
當前,國內外一些大型企業採用了遙控操作的方式採集真機數據,但這種方法成本高昂且難以獲得大規模數據。要獲取足夠支撐人形機器人“干活”的真機數據,需要全球一起努力,而且時間太長了。王鶴說:“大家等不及。”
為破解這一難題,銀河通用嘗試通過大規模生產和使用合成數據來訓練人形機器人,不僅成本低廉,還明顯提升了數據獲取效率。
王鶴提出,從現階段來看,結合合成數據與真實數據是一種可行的方法,要用大量的合成數據讓機器人做預訓練,用真機數據做后訓練,用真機數據完成人形機器人訓練的“最后一公裡”。他認為,在人形機器人的存量還未達到百萬台級別的時候,合成數據是最寶貴的數據資產。銀河通用正在利用合成數據提升機器人泛化能力,讓具身大模型的數據成本真正可用、可控,客戶用得起。
對於業界對真機數據和仿真合成數據的爭論,盧策吾認為,更為關鍵的是不同數據的比例。他也相信,隨著實踐的發展,各類數據能夠收斂到一個比較合適的比例。
能力泛化與“進廠”
“今天我們需要的其實是一個什麼活都能干,在日常生活中成為我們真正的幫手,讓人們不再受困於勞累體力勞動的機器人。本質是實現通用,而不是像過去在一些工業場景裡隻能干一件事的專用機器人。”3月28日下午,王鶴在“AI青年創領新質生產力發展大會”上表示,人形機器人除了外形上與人相像,更需要考慮的是怎麼發展人形機器人“干活”的能力。
具身機器人的泛化能力是具身智能未來發展關鍵,也是真正讓人形機器人更好地為人服務的關鍵。王鶴說:“在人形機器人的生產力時代,一項核心技術就是基於視覺輸入的端到端具身大模型,能實現任務的通用和能力泛化。”
“具身機器人的泛化問題,恰恰是現在具身機器人和具身智能所面臨最大的一個挑戰。”王仲遠表示,當前,網絡上不乏酷炫的機器人視頻,但在實際場景中是否表現如此好有待考証。
王仲遠舉例道,在沒人教的情況下,一個不到兩歲的孩子通過手機看短視頻就學會了拆糖果,用牙簽穿著藍莓吃。從這個意義上來講,人類大腦的學習能力,遠超現在的具身智能、具身模型,而這正是科研機構和企業努力的方向。他也特別期待,有一天機器人可以通過自主學習,學會這些技能。
具身智能泛化的路徑不會一蹴而就。王鶴談到,物理世界的智能有一個循序漸進的過程,可以分步提升具身智能的泛化能力。
在他看來,可以先沿著有生產力價值的維度去探索具身智能的泛化,無論是在商超還是工廠,抓取、放置與行走是具身機器人最需要的功能,這些機器人通過“拿、放、走”的組合,滿足這些場景所需的基本“就業”技能。如果能夠通過合成大數據和少量的真機數據,讓這些技能實現泛化,人形機器人就有了生產力的價值和量產的空間,大量“進廠”﹔在各個應用場景落地后,產生大量真機數據,人形機器人就有了跨維度的可能,從而開拓更多技能,到更多場景做更多更復雜的任務,甚至是進入百姓家裡。
“我們的核心觀點是找到場景先用起來。”樂聚機器人創始人兼董事長冷曉琨介紹,今年元旦,公司剛剛完成了100台機器人的產業化交付,這些機器人的應用場景包括科研機構、展廳、工廠等。他指出,在與各個應用場景“磨合”的過程中,去解決這些機器人暴露出來的問題,也是不斷提升機器人智能性的一個過程。隻有在真實的工業和家庭環境中不斷測試和優化,才能讓機器人在面臨干擾和不確定性時,保持其性能和功能穩定。
機器人“進廠”,產業界普遍關注其無故障工作時間。冷曉琨表示,無故障工作時間是衡量機器人可靠性的關鍵指標之一。冷曉琨的目標是連續工作1500小時,即每天十幾個小時,無故障運行100天左右。
此外,冷曉琨還談到,建立豐富的場景測試庫對於確保機器人在復雜環境中的表現至關重要,通過大量的仿真測試,以及真機測試,逐步完善人形機器人的性能。
他認為,人形機器人要勝任更精細化的任務,還得先進“訓練場”。與人進職業技能學校一樣,人形機器人先進“人形機器人職業技能學校”進行訓練,至少在“訓練場”達到標准,才能放心地讓人形機器人去更多的場景完成更復雜的任務,以及真正走進千家萬戶。(趙麗梅 張均斌)
分享讓更多人看到
- 評論
- 關注