今年的《政府工作報告》當(dāng)中出現(xiàn)了很多的新名詞,其中,“具身智能”“智能機器人”這兩個較為相近的表述引發(fā)了諸多關(guān)注。一時間,大家都在問究竟什么是具身智能?什么是智能機器人?它們又與近年來爆火的人形機器人有什么區(qū)別?
雖然聽起來很前衛(wèi),但實際上具身智能并不是一個新概念。
1950年,人工智能之父、英國皇家學(xué)會院士艾倫·麥席森·圖靈就提出了智能與物理形態(tài)相結(jié)合的設(shè)想,然而,受限于技術(shù)條件,它在很長一段時間里并沒有取得實質(zhì)性進展。直到近年來,隨著人工智能大模型技術(shù)的突破,具身智能才真正迎來了發(fā)展的契機。
那么,熱度暴漲的具身智能到底有多“能”?
具身智能到底是什么?
2024世界機器人大會上發(fā)布的《人形機器人十大趨勢展望》指出,具身智能是可以在高變化下做出迅猛、精準(zhǔn)反應(yīng)的高質(zhì)量、高性能智能系統(tǒng)。它既不是單純的虛擬環(huán)境下的計算機仿真,也不是完全偏于物理空間的機電系統(tǒng),與人形機器人系統(tǒng)緊密相關(guān)。
“具身智能應(yīng)該是人工智能的一個分支,它主要是基于物理實體,能夠與物理世界進行感知和交互,以及有行動的一種智能系統(tǒng)。”國地共建具身智能機器人創(chuàng)新中心總經(jīng)理熊友軍在中國電子學(xué)會組織召開的“貫徹落實全國兩會精神——推動具身智能和人形機器人創(chuàng)新發(fā)展座談會”上表示。簡言之,具身智能就是讓人工智能“擁有身體”。
熊友軍進一步解釋道,一方面,具身智能強調(diào)物理實體;另一方面,具身智能強調(diào)與物理世界能夠進行交互、感知,同時與物理世界發(fā)生一些行為。
“我覺得要構(gòu)成一個完整的閉環(huán),構(gòu)成智能體跟物理世界有感知,有決策、思考和行動的閉環(huán)。”熊友軍認(rèn)為,具身智能區(qū)別于離身智能和現(xiàn)在的普通智能。“現(xiàn)在的DeepSeek或者ChatGPT,這樣的智能就是離身智能,可能存在虛擬空間、數(shù)字空間、信息空間;而具身智能,一定要有物理的實體,F(xiàn)在的智能可能是‘動嘴皮子’,而具身智能真的是要實干的,是一個‘實干家’。”
對于智能機器人,熊友軍認(rèn)為,其應(yīng)該是具身智能的一種形式,它有物理的身體,能夠與物理世界構(gòu)成感知、交互和思考行動的能力同時,智能機器人又區(qū)別于傳統(tǒng)的一些智能化的設(shè)備。“有些智能化設(shè)備沒有傳感器,完全靠程序驅(qū)動,環(huán)境變了,也不會根據(jù)環(huán)境的變化做出相應(yīng)的響應(yīng),很少有思考和決策的過程,只是機械的執(zhí)行,缺少跟物理世界交互、感知和思考的過程。像一般的智能化設(shè)備,可能還不屬于具身智能,而智能機器人應(yīng)該是具身智能里面的一種形式。”熊友軍解釋道。
“人形機器人,除了長得像人,應(yīng)該還有功能和思考行為,模擬人的一種機器人。在學(xué)術(shù)里面,我們覺得,它是具身智能的一種表現(xiàn)形式,也被稱為具身智能體的最佳載體。”熊友軍表示,具身智能有很多種表現(xiàn)形式。如輪式的,輪帶式的,復(fù)合型的機器人,機械臂類型的智能機器人也是具身智能的一種表現(xiàn)形式。因此,人形機器人只是智能機器人其中的一種而已。
針對具身智能、智能機器人與人形機器人三者之間的關(guān)系,全國政協(xié)常委、致公黨中央副主席、全國婦聯(lián)副主席、中國電子學(xué)會理事長徐曉蘭進一步指出,具身智能是未來產(chǎn)業(yè)的重要方向;智能機器人是具身智能的典型終端產(chǎn)品,涵蓋工業(yè)機器人、醫(yī)療機器人、服務(wù)機器人、農(nóng)業(yè)機器人以及人形機器人等;人形機器人是智能機器人的高階形態(tài),也是具身智能的最佳載體。人形機器人可廣泛應(yīng)用于生產(chǎn)制造、倉儲物流、搶險救災(zāi)、邊防安防、商業(yè)服務(wù)、家政醫(yī)療等場景,將有力帶動產(chǎn)業(yè)鏈上下游蓬勃發(fā)展,對推動科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合,培育瞪羚企業(yè)、獨角獸企業(yè),搶占全球科技與產(chǎn)業(yè)發(fā)展制高點具有重要戰(zhàn)略意義。同時,人形機器人可在研發(fā)、生產(chǎn)、檢測、維修、保養(yǎng)等環(huán)節(jié)提供大量就業(yè)崗位,是拉動新消費、催生新產(chǎn)業(yè)、擴大新就業(yè)的強勁動能,是應(yīng)對社會老齡化的重要抓手。
人工智能的最終形態(tài)嗎?
具身智能作為人工智能的一個分支,在其發(fā)展過程中,伴隨著“具身智能是人工智能最終形態(tài)”的一種說法。
對此,行業(yè)內(nèi)看法不盡相同。
知名數(shù)字經(jīng)濟學(xué)者、工信部信息通信經(jīng)濟專家委員會委員盤和林在接受中國工業(yè)報記者采訪時表示,“結(jié)合智能體的具身智能可能是AI的終極形態(tài),具身智能能過對環(huán)境進行感知,并基于感知獨立決策,給出解決方案然后執(zhí)行。這樣的人工智能基本上模仿人類所有的動作,完成人類所有的工作。”
“具身智能強調(diào)智能行為與身體緊密關(guān)聯(lián),身體是智能的載體,智能是身體的延伸,使得智能與身體高度統(tǒng)一,從而達到具有全面適應(yīng)性、連續(xù)性、協(xié)作性等特點。這也是實現(xiàn)通用人工智能的重要路徑之一。”資深產(chǎn)業(yè)經(jīng)濟觀察家梁振鵬在接受中國工業(yè)報記者采訪時也認(rèn)為。
然而,在接受中國工業(yè)報記者采訪時,天使投資人、資深人工智能專家郭濤卻表達不同的看法。他認(rèn)為,具身智能是實現(xiàn)通用人工智能的重要路徑之一,但它并非終極形態(tài)。AI的發(fā)展是一個不斷演進的過程,未來還可能出現(xiàn)新的技術(shù)和理念,具身智能只是在當(dāng)前階段具有重要意義和發(fā)展?jié)摿Φ囊环N形式。
科技商業(yè)博主、一篇網(wǎng)絡(luò)主編趙宏民在接受中國工業(yè)報記者采訪也不認(rèn)同“具身智能是AI的終極形態(tài)”的說法。“因為人工智能還有許多其他的技術(shù)和概念也在不斷發(fā)展中,如量子計算、隱私計算等。”
行業(yè)內(nèi)對具身智能與人工智能關(guān)系的不同看法,也映射出人們對人工智能正在不斷刷新認(rèn)知。
近年來,似乎每過一段時間,“人工智能”的有關(guān)消息總能霸榜各類平臺的熱榜。郭濤認(rèn)為,這是因為一方面,隨著科技的不斷發(fā)展和社會需求的變化,人們對人工智能的期望和要求不斷提高,促使研究者不斷探索新的方法和途徑;另一方面,不同時期對人工智能的研究重點和應(yīng)用場景有所不同,一些新的概念和技術(shù)在特定歷史階段可能因條件限制而未得到充分發(fā)展,隨著技術(shù)的進步和環(huán)境的變化,這些概念又重新受到關(guān)注和應(yīng)用。
盤和林則認(rèn)為,“如具身智能中的一部分,已經(jīng)從實驗室開始步入實踐應(yīng)用場景,而具身智能一旦進入場景,他們學(xué)習(xí)人類的渠道就變多了,那么其發(fā)展速度會更快。人類社會也就真正進入了智能時代,而所有人都在期待或者擔(dān)憂這個智能時代的到來,所以,具身智能每一步向前如今都能引發(fā)大量關(guān)注。”
值得注意的是,盤和林表示,“大部分具身智能產(chǎn)品還在探索階段,我們不能保證說未來十年或者二十年會有大突破。當(dāng)前,大多數(shù)具身智能的應(yīng)用場景中都有替代品。比如,跨臺階是具身智能的一個功能,但如果是爬山,其實很多地方有索道,索道比具身智能運力更大也更經(jīng)濟,同樣的,工業(yè)車間中,工業(yè)機器人也是具身智能的競爭對手。更多開放場景,由于具身智能成本過高,甚至不如雇人來得經(jīng)濟。所以,具身智能最大的挑戰(zhàn)是商業(yè)化,而商業(yè)化最大的挑戰(zhàn)是成本。”
“開源”影響幾何?
3月19日,國家地方共建具身智能機器人創(chuàng)新中心預(yù)告,即將發(fā)布里程碑式的通用具身智能平臺——“格物”。值得關(guān)注,一周前,3月12日,北京人形機器人創(chuàng)新中心(國家地方共建具身智能機器人創(chuàng)新中心)才剛剛發(fā)布了全球首個“一腦多能”“一腦多機”的通用具身智能平臺“慧思開物”。記者在發(fā)布會現(xiàn)場了解到,這一平臺將為人形機器人配備“大腦”和“小腦”,能夠?qū)崿F(xiàn)從任務(wù)理解到執(zhí)行的全流程智能化,填補了具身智能領(lǐng)域在通用軟件系統(tǒng)方面的空白。
“自去年11月,我們啟動了開源計劃以來,在本體開源方面,很多的合作伙伴,基于天工硬件母平臺,在他們的應(yīng)用場景里面做深度的垂直領(lǐng)域的二次開放,如優(yōu)必選用天工平臺開發(fā)了‘天工行者’,用于科研和教育。”熊友軍介紹,另外,在數(shù)據(jù)集的開源方面,國家地方共建具身智能機器人創(chuàng)新中心發(fā)布了首個行業(yè)標(biāo)準(zhǔn)化的通用具身智能數(shù)據(jù)集,并首批開放了10萬條的數(shù)據(jù)。同時,在開源社區(qū)方面,通過開源協(xié)作的模式,吸引了幾千名開發(fā)者參與模型訓(xùn)練的工作。
而更早些,1月21日,由國家地方共建人形機器人創(chuàng)新中心牽頭的全國首個異構(gòu)人形機器人訓(xùn)練場正式啟用。據(jù)國地共建人形機器人創(chuàng)新中心總經(jīng)理許彬介紹,這個具身智能訓(xùn)練場的核心目的是解決具身智能產(chǎn)業(yè)發(fā)展中的模型訓(xùn)練的技術(shù)問題,進一步強化我國人形機器人研發(fā)和應(yīng)用的基礎(chǔ)支撐,重點針對數(shù)據(jù)采集效率低、成本高、數(shù)據(jù)無法跨平臺復(fù)用以及缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范等挑戰(zhàn)。異構(gòu)人形機器人訓(xùn)練場將重點圍繞四個方向進行建設(shè):一是構(gòu)建可重構(gòu)場景和訓(xùn)練的基礎(chǔ)的具身智能模型;二是打造異構(gòu)集群采訓(xùn)推開源框架;三是搭建具身智能操作與任務(wù)調(diào)度系統(tǒng);四是建設(shè)開源共享和共性機制,形成模型數(shù)據(jù)飛輪。
作為“國家隊”,在發(fā)展過程中,兩大創(chuàng)新中心均不約而同瞄準(zhǔn)了“開源”。
在北京市社會科學(xué)院副研究員王鵬看來,大模型開源或打造開源開發(fā)平臺能重點解決一些技術(shù)問題。一是算法成熟度。開源大模型可以提供經(jīng)過驗證的算法和模型,降低人形機器人研發(fā)中的算法開發(fā)難度和風(fēng)險。二是數(shù)據(jù)獲取與處理。開源平臺可以共享數(shù)據(jù)資源和處理工具,幫助研發(fā)者更高效地獲取和處理數(shù)據(jù),提高人形機器人的感知和認(rèn)知能力。三是軟硬件解耦。開源開發(fā)平臺可以促進軟硬件的解耦,使得研發(fā)者可以更靈活地選擇和組合硬件和軟件組件,降低研發(fā)成本和提高研發(fā)效率。
“開源大模型可以應(yīng)用于人形機器人的智能感知和交互系統(tǒng),提高其環(huán)境感知、語音識別、自然語言處理等能力。開源平臺提供的算法和模型可以應(yīng)用于人形機器人的決策和規(guī)劃系統(tǒng),幫助其實現(xiàn)自主導(dǎo)航、路徑規(guī)劃、任務(wù)執(zhí)行等功能。此外,開源大模型還可以支持人形機器人的持續(xù)學(xué)習(xí)和進化,使其能夠適應(yīng)不斷變化的環(huán)境和任務(wù)需求。”王鵬對記者表示道。
“從目前人形機器人研發(fā)角度看,開源或打造開源開發(fā)平臺是解決技術(shù)問題的有效途徑之一。”梁振鵬則認(rèn)為,開源平臺可以幫助開發(fā)者快速獲取最新的技術(shù)成果和工具,縮短研發(fā)周期,降低研發(fā)成本。同時,開源平臺也可以促進開發(fā)者之間的交流和合作,共同推動人形機器人技術(shù)的發(fā)展。通過開源平臺,開發(fā)者可以更容易地實現(xiàn)人形機器人的智能化和自主化,從而降低人形機器人研發(fā)的成本,并促進其商業(yè)化應(yīng)用的發(fā)展。
郭濤表示,開源平臺可以提供更強大的語言理解和生成能力,幫助人形機器人更好地理解人類指令和進行自然語言交互;還可以為人形機器人的知識學(xué)習(xí)和推理提供支持,使其能夠更快地獲取和運用知識。
盤和林則認(rèn)為,大模型開源開發(fā)平臺,在具身智能領(lǐng)域,其實是做一個生態(tài)。“你用具身智能搬運,我用具身智能生產(chǎn),他用具身智能洗碗,中國制造業(yè)發(fā)達,相關(guān)機器人的硬件好找,但軟件開發(fā),算法需要長期投入,而開源平臺降低了算法開拓成本。反過來,當(dāng)你的生產(chǎn),搬運,洗碗具身智能已經(jīng)成功應(yīng)用,那么,你為開源平臺做了共享,這些功能方案會整合回平臺當(dāng)中。未來,我們可能收獲一個既會生產(chǎn),也會搬運,還會洗碗的機器人。所以,好處在于,一方面節(jié)約具身智能部署成本,另一方面逐漸形成具身智能的生態(tài)。”
未來向何處發(fā)力?
“現(xiàn)在人形機器人這么火,有一個問題可能會給大家潑一盆冷水。”趙宏民在接受采訪時反問記者:“你猜,現(xiàn)在最先進的人形機器人,充滿電,能不間斷運行多長時間電池耗盡?”
“答案很可怕,根據(jù)不同產(chǎn)品不同運行強度,大概續(xù)航時長是30分鐘到2小時。從這個意義而言,除了一些臨時表演和一些緊急的救援任務(wù)。脫離了電線的那些人形機器人,應(yīng)該還不具備大規(guī)模商業(yè)化的可能。”趙宏民表示。
具身智能除了商業(yè)化的問題外,熊友軍認(rèn)為,具身智能領(lǐng)域還存在三類主要問題:
一是關(guān)于數(shù)據(jù)集,當(dāng)前,各單位雖逐步開源數(shù)據(jù)集并建立收集平臺,但存在規(guī)模小、任務(wù)單一問題,導(dǎo)致機器人智能體訓(xùn)練效率低、成本高。熊友軍建議,各創(chuàng)新中心打通數(shù)據(jù)壁壘,推動全國協(xié)作共享,構(gòu)建規(guī);(xùn)練資源體系。
二是關(guān)于應(yīng)用場景。我國具身智能產(chǎn)業(yè)起步較晚,熊友軍希望,工信部牽頭鼓勵企業(yè)試用并開放場景做測試。我們雖搭建了一些場景,但與真實場景有差距。具身智能在實驗室訓(xùn)練后,還需在真實場景試練,目前,國家地方共建具身智能機器人創(chuàng)新中心在高壓、冷庫等危險場景做了測試,但與真實場景區(qū)別還比較大。
三是關(guān)于產(chǎn)業(yè)鏈。目前產(chǎn)業(yè)鏈還是沒有成體系,有一些上游產(chǎn)業(yè)鏈,核心關(guān)鍵的產(chǎn)業(yè)鏈,感覺有一些簡單的重復(fù),造成資源浪費。而核心的產(chǎn)業(yè)鏈,做的人卻比較少。
“具身智能和人形機器人是將人工智能轉(zhuǎn)換為現(xiàn)實生產(chǎn)力的重要載體,是培育發(fā)展新質(zhì)生產(chǎn)力的重要方向。”工信部科技司副司長杜廣達表示,下一步,工信部將深入貫徹落實黨中央、國務(wù)院決策部署,按照“一端抓供給,一端抓應(yīng)用,整體壯生態(tài)”思路:一是繼續(xù)推動具身大模型、工具鏈等技術(shù)攻關(guān)突破。二是持續(xù)挖掘人形機器人高價值應(yīng)用場景,促進供需對接。三是做強做優(yōu)產(chǎn)業(yè)生態(tài),加快推出一批關(guān)鍵急需標(biāo)準(zhǔn),建設(shè)開源社區(qū),打造整機、數(shù)據(jù)集等開源項目,提升安全可靠性測試能力和倫理治理水平,加強行業(yè)自律。
據(jù)麥肯錫預(yù)測,到2030年,全球具身智能市場規(guī)?赡苓_到數(shù)十萬億元。具身智能不僅蘊含著巨大經(jīng)濟價值,更關(guān)乎國家競爭力。如今,具身智能被寫入《政府工作報告》,更是標(biāo)志著它正式成為國家未來產(chǎn)業(yè)的重點發(fā)展方向。
可以預(yù)見,一個更加智能化的未來,正加速向我們走來。