版權歸原作者所有,如有侵權,請聯(lián)系我們

機器人學會轉筆、盤核桃了!GPT-4加持,任務越復雜,表現(xiàn)越優(yōu)秀

學術頭條
一起見證人類探索征途上的每一個重大突破。
收藏

家人們,繼人工智能(AI)攻占象棋、圍棋、Dota之后,轉筆這一技能也被 AI 機器人學會了。

上面這個筆轉的賊溜的機器人,得益于名叫Eureka的智能體(Agent),是來自英偉達、賓夕法尼亞大學、加州理工學院和得克薩斯大學奧斯汀分校的一項研究。

得Eureka“指點”后的機器人還可以打開抽屜和柜子、扔球和接球,或者使用剪刀。據(jù)英偉達介紹,Eureka有10種不同的類型,可執(zhí)行29種不同的任務。

要知道在之前,單就轉筆這一功能,僅靠人類專家手工編程,是無法如此順滑的實現(xiàn)的。

機器人盤核桃

而Eureka 能夠自主編寫獎勵算法來訓練機器人,且碼力強勁:自編的獎勵程序在 83% 的任務中超越了人類專家,能使機器人的性能平均提升52%。

Eureka開創(chuàng)了一種從人類反饋中無梯度學習的新途徑,它能夠輕松吸收人類提供的獎勵和文字反饋,從而進一步完善自己的獎勵生成機制。

具體而言,Eureka 利用了 OpenAI 的 GPT-4 來編寫用于機器人的試錯學習的獎勵程序。這意味著該系統(tǒng)并不依賴于人類特定任務的提示或預設的獎勵模式。

Eureka 通過在 Isaac Gym 中使用 GPU 加速的仿真,能夠快速評估大量候選獎勵的優(yōu)劣,從而實現(xiàn)更有效率的訓練。接著,Eureka 會生成訓練結果的關鍵統(tǒng)計信息摘要,并指導 LLM(Language Model,語言模型)改進獎勵函數(shù)的生成。通過這種方式,AI 智能體能夠獨立地改善對機器人的指令。

Eureka的框架

研究人員還發(fā)現(xiàn),任務越復雜,GPT-4 的指令就越能優(yōu)于所謂的"獎勵工程師"的人類指令。參與該研究的研究員甚至稱 Eureka 為“超人類獎勵工程師”。

ureka 成功地彌補了高層推理(編碼)和低層運動控制之間的鴻溝。其采用了一種被稱為 "混合梯度架構":一個純推理的黑盒子 LLM(Language Model,語言模型)引導一個可學習的神經(jīng)網(wǎng)絡。在這個架構中,外層循環(huán)運行 GPT-4 來優(yōu)化獎勵函數(shù)(無梯度),而內(nèi)層循環(huán)則運行強化學習以訓練機器人的控制器(基于梯度)?!狽VIDIA的高級研究科學家Linxi "Jim" Fan

Eureka 可以整合人類的反饋,以便更好地調(diào)整獎勵,使其更符合開發(fā)者的期望。Nvidia 把這個過程稱為"in-context RLHF"(從人類反饋中進行上下文學習)。

值得注意的是,Nvidia 的研究團隊已經(jīng)開源了 Eureka 的 AI 算法庫。這將使得個人和機構能夠通過 Nvidia Isaac Gym 來探索和實驗這些算法。Isaac Gym 是建立在 Nvidia Omniverse 平臺上的,這是一個基于 Open USD 框架用于創(chuàng)建 3D 工具和應用程序的開發(fā)框架。

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

項目鏈接:https://eureka-research.github.io/

代碼鏈接:https://github.com/eureka-research/Eureka

如何評價?

在過去的十年中,強化學習取得了巨大的成功,但我們必須承認其中仍存在持續(xù)的挑戰(zhàn)。之前雖然有嘗試引入類似的技術,但與使用語言模型(LLM)來輔助獎勵設計的 L2R(Learning to Reward)相比,Eureka 更為突出,因為它消除了特定任務提示的需要。Eureka 之所以能比 L2R 更出色,是因為它能夠創(chuàng)建自由表達的獎勵算法,并利用環(huán)境源代碼作為背景信息。

英偉達的研究團隊進行了一項調(diào)查,以探索在使用人類獎勵函數(shù)啟動時,是否能提供一些優(yōu)勢。實驗的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出替代原始的人類獎勵函數(shù)。

圖片

在測試中,英偉達的研究團隊在每個任務的情境下,使用相同的強化學習算法和相同的超參數(shù)對所有最終獎勵函數(shù)進行了優(yōu)化。為了測試這些特定任務的超參數(shù)是否經(jīng)過良好調(diào)整以確保人工設計的獎勵的有效性,他們采用了經(jīng)過充分調(diào)整的近端策略優(yōu)化(PPO)實現(xiàn),這個實現(xiàn)基于之前的工作,沒有進行任何修改。對于每個獎勵,研究人員進行了五次獨立的 PPO 訓練運行,并報告了策略檢查點達到的最大任務指標值的平均值,作為獎勵性能的度量。

結果顯示:人類設計者通常對相關狀態(tài)變量有很好的理解,但在設計有效獎勵方面可能缺乏一定的熟練度。

Nvidia 的這項開創(chuàng)性研究在強化學習和獎勵設計領域開辟了新的疆界。他們的通用獎勵設計算法 Eureka 利用了大型語言模型和上下文進化搜索的力量,能夠在廣泛的機器人任務領域生成人類水平的獎勵,而無需特定任務提示或人工干預,這在很大程度上改變了我們對 AI 和機器學習的理解。

評論
坦 蕩 蕩
少師級
機器人越來越智能,轉筆這一技能也被 AI 機器人學會了,通過不斷的學習Ai應用會越來越廣。
2023-10-24
演繹無限精彩
大學士級
通過GPT-4加持的獎勵設計算法,產(chǎn)生的獎勵可以用于通過強化學習來讓機器人獲得復雜的具體技能,這在很大程度上改變了我們對 AI 和機器學習的理解。
2023-10-24
smxh676
大學士級
人類設計者通常對相關狀態(tài)變量有很好的理解,但在設計有效獎勵方面可能缺乏一定的熟練度。
2023-10-24