午夜免费国产体验区免费的,久久久无码精品国产一区,亚洲精品在看在线观看高清

家人們，繼人工智能（AI）攻占象棋、圍棋、Dota之后，轉筆這一技能也被 AI 機器人學會了。

上面這個筆轉的賊溜的機器人，得益于名叫Eureka的智能體（Agent），是來自英偉達、賓夕法尼亞大學、加州理工學院和得克薩斯大學奧斯汀分校的一項研究。

得Eureka“指點”后的機器人還可以打開抽屜和柜子、扔球和接球，或者使用剪刀。據(jù)英偉達介紹，Eureka有10種不同的類型，可執(zhí)行29種不同的任務。

要知道在之前，單就轉筆這一功能，僅靠人類專家手工編程，是無法如此順滑的實現(xiàn)的。

機器人盤核桃

而Eureka 能夠自主編寫獎勵算法來訓練機器人，且碼力強勁：自編的獎勵程序在 83% 的任務中超越了人類專家，能使機器人的性能平均提升52%。

Eureka開創(chuàng)了一種從人類反饋中無梯度學習的新途徑，它能夠輕松吸收人類提供的獎勵和文字反饋，從而進一步完善自己的獎勵生成機制。

具體而言，Eureka 利用了 OpenAI 的 GPT-4 來編寫用于機器人的試錯學習的獎勵程序。這意味著該系統(tǒng)并不依賴于人類特定任務的提示或預設的獎勵模式。

Eureka 通過在 Isaac Gym 中使用 GPU 加速的仿真，能夠快速評估大量候選獎勵的優(yōu)劣，從而實現(xiàn)更有效率的訓練。接著，Eureka 會生成訓練結果的關鍵統(tǒng)計信息摘要，并指導 LLM（Language Model，語言模型）改進獎勵函數(shù)的生成。通過這種方式，AI 智能體能夠獨立地改善對機器人的指令。

Eureka的框架

研究人員還發(fā)現(xiàn)，任務越復雜，GPT-4 的指令就越能優(yōu)于所謂的"獎勵工程師"的人類指令。參與該研究的研究員甚至稱 Eureka 為“超人類獎勵工程師”。

ureka 成功地彌補了高層推理（編碼）和低層運動控制之間的鴻溝。其采用了一種被稱為 "混合梯度架構"：一個純推理的黑盒子 LLM（Language Model，語言模型）引導一個可學習的神經(jīng)網(wǎng)絡。在這個架構中，外層循環(huán)運行 GPT-4 來優(yōu)化獎勵函數(shù)（無梯度），而內(nèi)層循環(huán)則運行強化學習以訓練機器人的控制器（基于梯度）?！狽VIDIA的高級研究科學家Linxi "Jim" Fan

Eureka 可以整合人類的反饋，以便更好地調(diào)整獎勵，使其更符合開發(fā)者的期望。Nvidia 把這個過程稱為"in-context RLHF"（從人類反饋中進行上下文學習）。

值得注意的是，Nvidia 的研究團隊已經(jīng)開源了 Eureka 的 AI 算法庫。這將使得個人和機構能夠通過 Nvidia Isaac Gym 來探索和實驗這些算法。Isaac Gym 是建立在 Nvidia Omniverse 平臺上的，這是一個基于 Open USD 框架用于創(chuàng)建 3D 工具和應用程序的開發(fā)框架。

論文鏈接：https://arxiv.org/pdf/2310.12931.pdf

項目鏈接：https://eureka-research.github.io/

代碼鏈接：https://github.com/eureka-research/Eureka

如何評價？

在過去的十年中，強化學習取得了巨大的成功，但我們必須承認其中仍存在持續(xù)的挑戰(zhàn)。之前雖然有嘗試引入類似的技術，但與使用語言模型（LLM）來輔助獎勵設計的 L2R（Learning to Reward）相比，Eureka 更為突出，因為它消除了特定任務提示的需要。Eureka 之所以能比 L2R 更出色，是因為它能夠創(chuàng)建自由表達的獎勵算法，并利用環(huán)境源代碼作為背景信息。

英偉達的研究團隊進行了一項調(diào)查，以探索在使用人類獎勵函數(shù)啟動時，是否能提供一些優(yōu)勢。實驗的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出替代原始的人類獎勵函數(shù)。

在測試中，英偉達的研究團隊在每個任務的情境下，使用相同的強化學習算法和相同的超參數(shù)對所有最終獎勵函數(shù)進行了優(yōu)化。為了測試這些特定任務的超參數(shù)是否經(jīng)過良好調(diào)整以確保人工設計的獎勵的有效性，他們采用了經(jīng)過充分調(diào)整的近端策略優(yōu)化（PPO）實現(xiàn)，這個實現(xiàn)基于之前的工作，沒有進行任何修改。對于每個獎勵，研究人員進行了五次獨立的 PPO 訓練運行，并報告了策略檢查點達到的最大任務指標值的平均值，作為獎勵性能的度量。

結果顯示：人類設計者通常對相關狀態(tài)變量有很好的理解，但在設計有效獎勵方面可能缺乏一定的熟練度。

Nvidia 的這項開創(chuàng)性研究在強化學習和獎勵設計領域開辟了新的疆界。他們的通用獎勵設計算法 Eureka 利用了大型語言模型和上下文進化搜索的力量，能夠在廣泛的機器人任務領域生成人類水平的獎勵，而無需特定任務提示或人工干預，這在很大程度上改變了我們對 AI 和機器學習的理解。

機器人學會轉筆、盤核桃了！GPT-4加持，任務越復雜，表現(xiàn)越優(yōu)秀

機器人學會轉筆、盤核桃了！GPT-4加持，任務越復雜，表現(xiàn)越優(yōu)秀