單手解魔方效果驚艷,OpenAI發布最強機器手

我們見識過人類花式解魔方~

單手解魔方效果驚艷,OpenAI發布最強機器手

也見過顏值略低的機器人解魔方~

單手解魔方效果驚艷,OpenAI發布最強機器手

但是機器人單手解魔方你見過嗎?

近日,OpenAI的研究人員就訓練了一對神經網絡,可以讓機器人單手解魔方,效果極其驚艷!

使用與OpenAI Five相同的強化學習代碼,搭配一種稱為自動域隨機化(ADR)的新技術,對神經網絡進行全面的模擬訓練,該系統可以處理訓練中從未見過的情況。

研究人員通過此次實踐表明強化學習不僅是虛擬任務的工具,而且可以解決需要前所未有的靈活性的物理世界問題。

人類的雙手使我們能夠解決各種各樣的任務。在過去60年的機器人技術中,人類用可以固定的雙手完成艱巨的任務,而對于機器人來說,卻需要為每個任務設計一個定制的機器人。

作為替代方案,大家花了數十年的時間嘗試使用通用機器人硬件,但由于自由度高,取得的成功有限。

自2017年5月以來,OpenAI的研究人員一直在嘗試訓練像人一樣的機器人手來解決魔方問題。之所以設定這個目標,是因為他們相信,成功地訓練這樣一只機械手來完成復雜的操作任務,會為通用型機器人奠定了基礎。

單手解魔方的任務即使對人類來說也是一項艱巨的任務,而且一般兒童需要數年的時間才能掌握所需要的靈巧性。不過,OpenAI的機器人技術并非完美,因為解出魔方的概率是60%。(最大難度的只有20%的成功率)。

怎么實現的?

機器目前難以掌握的問題:感知和靈巧操縱。

因此,研究人員訓練神經網絡以實現所需的面旋轉和由Kociemba算法生成的立方體翻轉。

域隨機數據生成使僅在模擬中訓練的網絡可以遷移到真實的機器人上。

域隨機數據生成使神經網絡暴露于同一問題的許多不同變體,在這種情況下解魔方面臨的最大挑戰是在模擬環境中創建足以捕獲現實世界物理特征的環境。

對于像魔方或機械手這樣復雜的物體,很難測量和建模諸如摩擦,彈性和動力學之類的因素,僅僅依靠域隨機數據生成是不夠的。

為了克服這個問題,研究人員開發了一種稱為自動域隨機化(ADR)的新方法,該方法會在模擬中不斷產生越來越困難的環境。

該工作與POET緊密相關,POET自動生成2D環境。但是,該工作學習了針對所有環境的聯合策略,此策略可以轉移到任何新生成的環境。

這使其擺脫了對真實世界的精確模型的束縛,并使在模擬中學習到的遷移神經網絡能夠應用于真實世界。

ADR從單一的非隨機環境開始,在該環境中,神經網絡學習了如何解魔方。隨著神經網絡性能的提高和性能閾值的增大,域隨機化的數量會自動增加。由于神經網絡現在必須學會將其推廣到更隨機的環境,因此這使任務更加艱巨。網絡不斷學習,直到再次超過性能閾值,然后再進行更多隨機化,然后重復該過程。

單手解魔方效果驚艷,OpenAI發布最強機器手

研究人員隨機化的參數之一是魔方的尺寸(上圖)。ADR從固定大小的魔方開始,然后隨著訓練的進行逐漸增加隨機范圍。我們將相同的技術應用于所有其他參數,例如立方體的質量,機器人手指的摩擦力和手的視覺表面材料。因此,神經網絡必須學會在所有這些越來越困難的條件下解魔方。

單手解魔方效果驚艷,OpenAI發布最強機器手

域隨機化數據要求手動指定隨機化范圍,這是困難的,因為太多的隨機化會使學習變得困難,但是太少的隨機化則會阻礙向真實機器人遷移。ADR通過自動擴展隨機范圍來解決此問題,而無需人工干預。ADR消除了對領域知識的需求,并使將該方法應用于新任務更加簡單。與手動域隨機化相比,ADR還使任務始終具有挑戰性,而訓練卻從未收斂。

在塊翻轉任務上,將ADR與手動域隨機化進行比較,而該任務已經有了很強的基線。在一開始,ADR在真實機器人上的成功次數方面表現較差。但是隨著ADR增大熵(這是對環境復雜性的度量),遷移性能表現最終將在基線上翻倍,而無需人工調整。

魯棒性測試

利用ADR,可以在模擬環境中訓練神經網絡來解機器人手上的魔方。這是因為ADR將網絡暴露于無窮無盡的隨機模擬中。正是訓練過程中的復雜性,網絡才得以從模擬世界遷移到現實世界,因為它必須學會快速識別并適應面對的任何物理世界。

為了測試方法的局限性,研究者在手解魔方的同時做了各種各樣的擾動實驗。這不僅測試了控制網絡的魯棒性,也測試了視覺網絡,可以用它來估計立方體的位置和方向。

用ADR訓練的系統對擾動的魯棒性令人驚訝,盡管從未用ADR訓練過:在所有測試的擾動下,機器人都能成功地完成大多數翻轉和旋轉,盡管不是在最佳性能下。

Emergent meta-learning

研究者認為,元學習或學會學習,是構建通用系統的一個重要前提,因為它使它們能夠快速適應環境中不斷變化的條件。ADR背后的假設是,一個記憶增強網絡與一個充分隨機化的環境相結合,導致Emergent meta-learning,其中網絡實現了一個學習算法,該算法可使其自身迅速適應其所部署的環境。

為了系統地測試,研究者測量了神經網絡在不同的擾動下(如重新設置網絡的內存、重新設置動態)每次立方體翻轉(旋轉立方體使不同顏色的面朝上)成功的時間。在模擬中進行這些實驗,這使研究者能夠在一個受控的環境中進行超過10,000次的平均性能測試。

單手解魔方效果驚艷,OpenAI發布最強機器手

一開始,隨著神經網絡成功地實現了更多翻轉,每一次成功翻轉所用的時間都在縮短,因為神經網絡學會了適應。當施加擾動時(上圖中垂直的灰色線條),可以看到成功的時間是一個峰值。

這是因為網絡采用的策略在變化的環境中不起作用。然后,網絡重新學習新的環境,再次看到成功的時間減少到了以前的基線。

研究者還測量了失效概率,并對面旋轉(順時針或逆時針旋轉上表面90度)進行了相同的實驗,發現了相同的適應模式。

理解該神經網絡

可視化的網絡使研究者能夠理解它們在內存中存儲的內容。隨著網絡變得越來越復雜,這一點變得越來越重要。

神經網絡的記憶在上面是可視化的。使用可解釋性工具箱中的一個構件——非負矩陣分解,將這個高維向量壓縮成6組,并為每組分配一個獨特的顏色。然后在每個步長中顯示當前主導組的顏色。

研究者發現每個內存組都有與其相關的語義上有意義的行為。例如,我們可以通過觀察網絡內存的主導組來判斷它是要旋轉立方體還是在它發生之前順時針旋轉頂部。

挑戰

用機械手解魔方仍然不容易。當面對最大困難的擾亂操作時,需要26個面的旋轉,成功率為20%。對于需要15次旋轉才能撤銷最簡單的打亂操作,成功率為60%。當魔方掉落或超時時,認為嘗試失敗。

然而,研究者的網絡可以從任何初始條件解魔方。所以如果魔方掉了,可以把它放回手里繼續解下去。

通常發現,神經網絡更有可能在前幾個面旋轉和翻轉過程中失敗。之所以如此,是因為在早期的旋轉和翻轉過程中,神經網絡需要在解決魔方和適應物理世界之間取得平衡。


廣告
廣告
最新資訊
誰在給“網紅”重慶引流?
誰在給“網紅”重慶引流?
2019-10-26
1291次瀏覽
“朝天門自古就是重慶聯通世界的‘開放之門’,在互聯互通下,我們希望扮演橋梁紐帶作用,利用我們在‘一帶一路’沿線國家的投資優勢,為中國企業‘走出去’,外資企業‘走進來’嫁接更多互補資源。”
普思資本股權被凍結,王思聰未來的路在何方?
普思資本股權被凍結,王思聰未來的路在何方?
2019-10-19
831次瀏覽
按照B輪融資時的協議,樂視體育需要在2018年年底前完成投資方認可的上市工作。如果未能完成履約,樂視體育原股東需在投資方發出書面回購要求后的兩個月內,按照協議約定價格、以現金形式收購投資方所持有的全部公司股權并支付全部對價。面臨重創的樂視體育在2018年依然是癱瘓狀態,上市工作基本無望。
資本市場為什么不待見騰訊了?
資本市場為什么不待見騰訊了?
2019-10-24
1092次瀏覽
資本市場為什么不待見騰訊了?
做爱视频-性交视频-在线观看