版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

首次寫入政府工作報(bào)告! 這個(gè)科技新詞“具身智能”到底是什么?

科普中國新媒體
原創(chuàng)
科普中國新媒體官方賬號(hào)
收藏

在 2025 年 3 月 5 日在第十四屆全國人民代表大會(huì)第三次會(huì)議上的政府工作報(bào)告中,特別提到了“具身智能”。

圖片截自中華人民共和國中央人民政府網(wǎng)站 www.gov.cn

那么具身智能到底是什么呢?

rId5

圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

回想我們看過的科幻電影,經(jīng)典的機(jī)器人角色有很多——從冷酷強(qiáng)悍的殺手,到矯健的拳擊運(yùn)動(dòng)員,從穩(wěn)重冷靜的維修工,到神煩碎嘴的禮儀官……不過,這些作品中的想象很美好,但實(shí)現(xiàn)起來真的很難——甚至光是讓機(jī)器人像人那樣邁開兩條腿走路,都?xì)v盡坎坷。

反觀我們?nèi)祟惖男殞?,成長過程中也沒有人給他們編什么程序,經(jīng)過多次嘗試和摔倒之后,他們自己就學(xué)會(huì)了爬和走,很快就能跑得飛快并躲開障礙。而“具身智能”技術(shù),就參考了這個(gè)過程——這項(xiàng)技術(shù)能讓機(jī)器人像人那樣,用身體感知世界,在互動(dòng)學(xué)習(xí)中成長。

具身智能是什么,

是怎么跟機(jī)器人結(jié)合的?

具身智能,英文全稱是“Embodied Artificial Intelligence”,從這個(gè)全稱我們可以看出,其實(shí)具身智能這個(gè)詞中的“智能”就是“ AI ”(人工智能)的意思。而說到 AI ,大家早都不陌生了,從 ChatGpt 到 DeepSeek ,都是 AI 的一種。它們就像沒有身體的“大腦”,雖然能從外部接收數(shù)據(jù)并解決問題,但它們作為沒有身體的軟件系統(tǒng),缺乏通過身體與環(huán)境交互的能力和反饋機(jī)制。

rId6

圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

舉個(gè)例子,下圍棋的 AlphaGo ,就必須有一位工作人員在場上幫它落子,因?yàn)?AlphaGo 是個(gè)純算法系統(tǒng),盡管能在服務(wù)器上快速訓(xùn)練成千上萬場棋局,甚至能夠戰(zhàn)勝世界冠軍,但它自己甚至根本不具備在真實(shí)世界中拿起一枚棋子的能力。而具身智能機(jī)器人,則能通過攝像頭、觸覺及其他傳感器等“感官”收集環(huán)境信息,并用肢體與環(huán)境互動(dòng),進(jìn)而形成“感知-行動(dòng)”的閉環(huán)。

了解了上面的信息,再解釋具身智能相關(guān)的概念就比較容易理解了,所謂“具身智能”是指一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性??偨Y(jié)一下,具身智能就是“能夠感知、推理并與物理世界互動(dòng)的智能系統(tǒng)”。而具身智能機(jī)器人,可以視為具身智能系統(tǒng)的載體。

那么,“具身智能機(jī)器人”可以簡單理解為“給 AI 套了一具身體”或“給機(jī)器人裝上了一個(gè) AI ”嗎?這種認(rèn)識(shí)也是不全面的。舉個(gè)例子,現(xiàn)在有一些機(jī)器人產(chǎn)品,能夠做一些簡單的動(dòng)作,也連上了 AI ,甚至可以跟人聊得有來有回,但它們?nèi)匀徊荒芩闶蔷呱碇悄堋?/p>

這是因?yàn)樗鄙倭酥陵P(guān)重要的一環(huán),也就是“具身智能”中的“具身性”(Embodiment)。而具身性的核心在于,智能必須通過物理身體與環(huán)境的實(shí)時(shí)交互和動(dòng)態(tài)反饋來生成,而非依賴預(yù)設(shè)程序或離線數(shù)據(jù),要靠深度融合人工智能與機(jī)器人兩大前沿技術(shù)才能實(shí)現(xiàn)這個(gè)目標(biāo),簡單“拼”在一起是不行的。

為什么我們需要具身智能機(jī)器人?

其實(shí)現(xiàn)在已經(jīng)有很多機(jī)器人在幫助人類勞動(dòng)了,但很多機(jī)器人工作的時(shí)候依賴預(yù)先編好的程序,我們經(jīng)常能看到工廠生產(chǎn)線中的機(jī)械臂(也是機(jī)器人的一種),它們高效默契地運(yùn)行,能有條不紊地進(jìn)行搬運(yùn)、焊接等工作。這類機(jī)械臂通常高度依賴編程行動(dòng),雖然可以分毫不差地運(yùn)行,也集成了一些基本的傳感器以便了解工作狀態(tài),但遇到突發(fā)情況卻仍然“不懂”避讓行人(在無需工人的生產(chǎn)線上通常也沒有必要)。

這也是為什么很多工廠的機(jī)械臂操作區(qū)都要裝上隔離網(wǎng),標(biāo)上警戒線。因?yàn)檫@些機(jī)械臂工作時(shí)“只認(rèn)程序不認(rèn)人”,雖然有大量安全相關(guān)的措施和規(guī)章制度保障,但如果有人疏忽大意踏入它們的工作范圍,仍可能發(fā)生悲劇——面對(duì)嚴(yán)格按程序從 A 點(diǎn)運(yùn)動(dòng)到 B 點(diǎn)的機(jī)械臂,擋在路上的人體實(shí)在太脆弱了。

試想一下,你敢讓這樣一個(gè)一個(gè)“只認(rèn)程序”的機(jī)器人,走進(jìn)你的家中,幫你打理家務(wù),照顧老人小孩嗎?當(dāng)然,現(xiàn)在很多流水線上用的工業(yè)機(jī)器人也有了碰撞檢測等功能,變得更加安全,但它們?nèi)匀皇前搭A(yù)設(shè)程序執(zhí)行,缺乏動(dòng)態(tài)學(xué)習(xí)能力,更適合執(zhí)行簡單的重復(fù)任務(wù)。而一旦面臨復(fù)雜的環(huán)境和任務(wù),只靠預(yù)設(shè)程序是行不通的,因?yàn)樵趶?fù)雜環(huán)境下,很難窮盡所有的規(guī)則。

這里再舉個(gè)例子,在汽車制造業(yè)中,諸如搬運(yùn)物料、拋光、焊接、噴漆等加工工序,大部分可以用機(jī)器人輕松完成。但是到了發(fā)動(dòng)機(jī)、底盤、電器等裝配工序,大部分工作仍難以用機(jī)器人完成,因?yàn)檫@些工作更加復(fù)雜,更需要“隨機(jī)應(yīng)變”以及溝通合作,機(jī)器人還無法勝任,需要人工。

而具身智能,則更加靈活,具有適應(yīng)環(huán)境解決復(fù)雜任務(wù)的潛力,要想讓機(jī)器人實(shí)現(xiàn)更加廣泛的應(yīng)用并走進(jìn)千家萬戶,需要發(fā)展具身智能。

具身智能機(jī)器人,“活學(xué)活用”

由于具身智能和機(jī)器人的技術(shù)非常復(fù)雜,也有很多不同的技術(shù)路線,下面僅以具身智能開源學(xué)習(xí)項(xiàng)目 LeRobot 為例,簡單介紹一下具身智能機(jī)器人的基本特點(diǎn)。

,時(shí)長00:24

筆者自己學(xué)習(xí) LeRobot 時(shí)調(diào)試機(jī)械臂

假設(shè)我們的任務(wù)目標(biāo)是讓機(jī)械臂撿起黃色的小積木塊,再放進(jìn)盒子里。我們可以編程序直接“命令”機(jī)械臂嚴(yán)格按照規(guī)定路徑和動(dòng)作運(yùn)行——很多生產(chǎn)線上的工業(yè)機(jī)器人正是如此,但只要積木換個(gè)地方,機(jī)械臂按之前的行動(dòng)路徑就會(huì)撿個(gè)空。我們也可以編程序讓機(jī)械臂能識(shí)別出積木塊,再執(zhí)行“撿”的動(dòng)作并放進(jìn)盒子里,這樣更加靈活,但仍需要事先編寫相應(yīng)的程序。

而 LeRobot 則是靠人操作主動(dòng)臂,“手把手”地教從動(dòng)臂完成一次撿起積木放進(jìn)盒子的過程,從動(dòng)臂運(yùn)動(dòng)的整個(gè)過程會(huì)被 2 個(gè)不同位置的攝像頭全程監(jiān)控并記錄。改變幾次積木位置,操縱機(jī)械臂重復(fù)數(shù)十到上百次撿起和放下的動(dòng)作,就能獲得足夠的資料。

rId7LeRobot 的一次訓(xùn)練過程 來自 Huggingface 官方教程

再通過算法“學(xué)習(xí)”這些資料,就能讓這套系統(tǒng)“學(xué)會(huì)”撿積木——如果有積木塊出現(xiàn)在機(jī)械臂面前,它就會(huì)自己拿起積木來放進(jìn)盒子。

rId7LeRobot 一次成功的自主拾取過程 來自 Huggingface 官方教程

上圖中,研究人員并沒有操作主臂,甚至積木的位置也改變了,但機(jī)械臂仍然能自主完成任務(wù)。

從上面這個(gè)簡單的例子中,我們能了解具身智能的一些最基本的特點(diǎn)。首先,具身智能可以通過身體與環(huán)境的實(shí)時(shí)交互學(xué)習(xí)(多次撿起積木),不用事先編寫大量規(guī)則窮盡所有可能。其次,具身智能能夠在執(zhí)行任務(wù)的過程中動(dòng)態(tài)調(diào)整策略(積木換個(gè)地方也能撿到)。

當(dāng)然,這只是個(gè)簡單的例子,實(shí)際上具身智能機(jī)器人的技術(shù)路線有很多,除了像上邊的例子中基于真實(shí)世界交互的,還有在虛擬環(huán)境中進(jìn)行的仿真訓(xùn)練以及二者相結(jié)合的等等。此外,具身智能機(jī)器人還能實(shí)現(xiàn)遠(yuǎn)比撿起積木扔進(jìn)盒子里復(fù)雜得多的功能。比如行走、適應(yīng)地形,模擬人的動(dòng)作等等,不久之后,相信各類具身智能機(jī)器人,就能在更多的領(lǐng)域發(fā)揮重要作用。

最后總結(jié)一下,具身智能和機(jī)器人技術(shù)的融合,將會(huì)讓未來的機(jī)器人變得更加能干,甚至能理解和模擬簡單的感情交互。而且,對(duì)具身智能和機(jī)器人的持續(xù)投入,更將帶動(dòng)從軟件到硬件的整個(gè)產(chǎn)業(yè)鏈的發(fā)展。

策劃制作

作者丨丁崝 科普作者

審核丨于乃功 北京工業(yè)大學(xué)機(jī)器人工程專業(yè)負(fù)責(zé)人,北京人工智能研究院機(jī)器人研究中心主任,博士生導(dǎo)師

策劃丨丁崝

審校丨徐來、林林

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
烏蘭托婭
大學(xué)士級(jí)
2025-03-18