版權歸原作者所有,如有侵權,請聯(lián)系我們

即使人類犯錯,AI Agent也能快速學習!

學術頭條
原創(chuàng)
一起見證人類探索征途上的每一個重大突破。
收藏

為了教會 AI Agent 新技能,比如打開廚房櫥柜,研究者通常采用強化學習方法。這是一種試錯過程,AI Agent 通過采取正確的行動接近目標而獲得獎勵。

在大多數情況下,人類專家需要精心設計獎勵函數,從而鼓勵 AI Agent 進行更多探索。隨著 AI Agent 的探索和嘗試,人類專家需要不斷更新這個獎勵函數。這一過程既耗時又低效,特別是在任務復雜、步驟繁多時,擴展起來更是十分困難

日前,麻省理工學院(MIT)、哈佛大學和華盛頓大學的研究團隊開發(fā)了一種新型強化學習方法,這種方法不依賴專家設計的獎勵函數,而是利用來自許多非專家用戶的眾包反饋(crowdsourced feedback),來指導 AI Agent 達成學習目標。

圖片

盡管用戶眾包數據常常存在錯誤,這種新方法依然能夠讓 AI Agent 更快速地學習,這與其他嘗試使用非專家反饋的方法有所不同,而這些噪聲數據通常會讓其他方法失效。

此外,這種新方法支持異步收集反饋,使得全球各地的非專家用戶都可以參與到教導 AI Agent 的過程中

MIT 電氣工程與計算機科學系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在設計 AI Agent 時,最耗時且具挑戰(zhàn)性的部分之一就是設定獎勵函數。當前,獎勵函數主要由專家設計,如果我們想讓機器人學習多種任務,這種方式是難以擴展的。我們的研究提出了一種方案,通過眾包來設計獎勵函數,并讓非專家參與提供有效反饋,從而擴大機器人的學習范圍。”

未來,這種方法可以幫助機器人在人們家中快速學習特定任務,而無需人們親自示范每項任務。機器人可以獨立探索,由眾包的非專家反饋引導其探索方向。

“在我們的方法中,獎勵函數不是直接告訴 AI Agent怎樣完成任務,而是指導它應該探索的方向。因此,即便人類監(jiān)督存在一定的不準確性和噪聲,AI Agent仍然能夠進行有效探索,從而更好地學習,”Improbable AI Lab 研究助理、論文主要作者之一 Marcel Torne 解釋說。

即使接收的答案有誤,也能完成任務

一種收集強化學習用戶反饋的方法是向用戶展示 AI Agent 達到的兩種狀態(tài)的照片,并詢問哪種狀態(tài)更接近目標。例如,設想一個機器人的目標是打開廚房櫥柜,其中一張照片可能顯示它成功打開了櫥柜,另一張則可能顯示它打開了微波爐。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片。

有些早期方法嘗試使用這種眾包形式的二元反饋,來優(yōu)化 AI Agent 用以學習任務的獎勵函數。但問題在于,非專業(yè)人士容易出錯,這會導致獎勵函數變得極為混亂,以至于 AI Agent 可能無法達成目標

Torne 指出:“實際上,AI Agent 會過分認真地對待獎勵函數,努力完美符合這一函數。因此,我們不直接優(yōu)化獎勵函數,而是用它來指導機器人應探索的區(qū)域。”

研究團隊將這一過程分成兩個獨立部分,每部分由各自的算法驅動。他們將這種新型增強學習方法命名為人類引導探索(Human Guided Exploration,HuGE)。

圖片

一方面,目標選擇算法會持續(xù)接收眾包的人類反饋并進行更新。這些反饋并非用作獎勵函數,而是用于指引 AI Agent 的探索方向。簡而言之,非專業(yè)用戶提供的指引就像一路撒下的“面包屑”,逐漸引導 AI Agent 接近目標。

另一方面,AI Agent 自己也會進行探索,這一過程是自我監(jiān)督的,由目標選擇器進行指導。它會收集自己嘗試的動作的圖像或視頻,隨后發(fā)送給人類,用于更新目標選擇器。

這樣做有助于縮小 AI Agent 需要探索的范圍,引導它前往更接近目標的有希望的區(qū)域。但如果暫時沒有反饋,或反饋遲遲未到,AI Agent 仍會繼續(xù)自行學習,盡管速度較慢。這種方式允許反饋的收集不那么頻繁,也可以異步進行。

Torne 補充道:“探索過程可以自主、持續(xù)進行,因為它會不斷探索并學習新知識。當接收到更準確的信號時,它會以更明確的方式進行探索。它們可以按照各自的節(jié)奏運轉。

由于反饋只是輕微地引導 AI Agent 的行為,即使用戶提供的答案有誤,AI Agent 最終也能學會如何完成任務。

更快的學習

研究團隊在一系列模擬和真實環(huán)境的任務中測試了這種方法。

例如,在模擬環(huán)境中,他們利用 HuGE 高效學習一系列復雜動作,比如按特定順序堆積積木或在迷宮中導航。

圖片

在真實環(huán)境的測試中,他們用 HuGE 訓練機器人手臂來繪制字母“U”和拾取放置物體。這些測試匯集了來自三大洲 13 個國家的 109 名非專業(yè)用戶的數據。

圖片

無論是在真實世界還是模擬實驗中,HuGE 都使得 AI Agent學習完成任務的速度比其他方法更快。

圖片

此外,與制作和標注的合成數據相比,非專家眾包的數據表現(xiàn)更佳。對非專家用戶而言,標注 30 張圖片或視頻不到兩分鐘就能完成?!斑@展示了這種方法在擴展應用方面的巨大潛力,”Torne 補充說。

在一項相關的研究中,研究團隊在最近的機器人學習會議上展示了他們如何改進 HuGE,使得 AI Agent 不僅能學習完成任務,還能自主地重置環(huán)境繼續(xù)學習。例如,如果 AI Agent 學會了打開櫥柜,這種方法還能指導它關閉櫥柜。

“現(xiàn)在我們能讓它在沒有人工干預的情況下完全自主學習,”他說。

研究團隊還強調,在這種以及其他學習方法中,確保 AI Agent與人類價值觀保持一致是至關重要的。

未來,研究團隊計劃進一步完善 HuGE,讓 AI Agent 能夠通過自然語言和與機器人的物理交互等更多方式學習。他們還對將這種方法應用于同時訓練多個 AI Agent 表示出了興趣。

參考鏈接:

https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

評論
科普科普知識的搖籃!
大學士級
在科學技術的發(fā)展下,無論是在真實世界還是模擬實驗中,HuGE 都使得 AI Agent學習完成任務的速度比其他方法更快。
2023-11-30
666666666馬
貢生級
AI科技運用新發(fā)展為人們帶來更便捷的體驗,但是科技的未知性也有可能帶來一定的弊端。合理謹慎發(fā)展才能更好服務人類
2023-11-30
天津.諸葛
少師級
基于強大的的學習能力,AⅠ正在加速升級換代,甚至可在沒有人工干預的情況下完全自主學習。但應充分考慮的是,應確保AI與人類的價值觀一致,以免對人類造成威脅。
2023-11-30