2018.08.05 11:28 臺北時間

OpenAI擊敗業餘玩家！機器人手臂有了人類靈活性

發布時間：2018.08.05 11:28 臺北時間

更新時間：2023.09.12 20:27 臺北時間

文

DeepTech深科技

攝影

DeepTech深科技

已複製連結

贊助本文

論文 AI智慧機器人深科技研究機器人

2018年7月31日非營利AI研究公司OpenAI曾占領了新聞頭條，因為其最新的人工智慧Dota 2玩家——OpenAI Five——成功擊敗了業餘人類玩家。今天，它再次吸引了人們的眼球：一個能夠以人類靈活度來操控物體的機器人系統。

今年6月，由馬斯克、霍夫曼、彼得·蒂爾等一眾矽谷大佬聯合建立的非營利AI研究公司OpenAI曾占領了新聞頭條，因為其最新的人工智慧Dota 2玩家——OpenAI Five——成功擊敗了業餘人類玩家。今天，它再次吸引了人們的眼球：一個能夠以人類靈活度來操控物體的機器人系統。

在一篇即將發表的論文「Dexterous In-Hand Manipulation」（靈巧的手工操作）中，OpenAI的研究人員展示了一種使用增強模型的系統，它在一系列反復的試驗與試錯中讓AI進行學習，最終指導機器人用手臂以精准的尺度抓取並操控物體。更令人意外的是，它完全在電腦類比中進行數位訓練，沒有提供任何人類演示。
「對人類而言，靈巧地操控物體屬於基本日常，但對機器人卻頗具挑戰，」團隊寫道。「目前的機器人通常是在有限的設置中完成特定的任務，很多都不能駕馭複雜的末端執行器。在這項研究中，我們演示了控制策略的培訓方法，這些控制策略可以進行手工操作，並且可以部署在機器人上。」
那麼他們是如何做到的？研究人員用MuJoCo物理引擎來類比物理環境，讓真實的機器人可以在其中進行操作。他們還用Unity渲染圖像，通過培訓電腦視覺模型來讓機器人識別姿勢。但這種方法有局限性，類比只是物理模型的「粗略近似」，過渡到現實世界中可能就有點困難了。
OpenAI的機器人系統開發的新型物體操控手臂。他們的解決方案是將各個環境變數隨機化，比如物理（摩擦、重力、關節限制、物體尺寸等）和視覺外觀（亮度、姿勢、材料及紋理）。這既降低了過度擬合（神經網路在訓練中受噪音干擾而對其性能產生負面影響的現象）的可能性，又增加了生成有效演算法的機會，讓機器人基於真實世界手勢與姿勢選擇動作。

接下來，研究人員開始訓練迴圈神經網路模型。384台電腦，每台配備16核 CPU，每小時可以產生約2年的模擬經驗。在一個8核CPU電腦上進行優化後，他們又進入下一步：訓練卷積神經網路。卷積神經網路可以通過3個類比攝像機圖像來預測機器人手中物體的位置和方向。
模型訓練完成後就可以開始驗證測試了。研究人員使用的是幻影手臂（Shadow Dexterous Hand），它是一個擁有24個自由度的五指機器人手臂。為了操控物體，手臂被安裝在鋁制框架上。研究人員同時用兩組攝像機（動作捕捉攝像機與RGB攝像機）作為系統的眼睛，它可以追蹤物體的旋轉與方向。（雖然幻影手臂有觸摸感測器，但團隊僅選擇使用其關節感應功能對手指位置進行細細微性控制。）
團隊測試了兩次。第一次測試中，演算法的任務是將標有字母的立方體重新定向。團隊隨機選取字母，AI 系統完成之後就更換新字母，如此一直重複，直到立方體從機器人手中脫落，或者操控一個立方體要所需時間超過 1 分鐘，又或者機器人成功操作50次。在第二次測試中，研究人員將立方體替換為八角棱柱。
結果如何呢？這些模型不僅有「前所未有」的表現，而前還順便發現了人類的抓取動作，比如三角抓取（用拇指、食指和中指抓取），棱鏡抓取（拇指與其它手指相互對立），還有指尖捏握。它們還學會了如何旋轉機器人手臂，以及如何利用重力、平移和扭轉力將物體放入理想位置。
「我們的系統不僅能重新發現人類的抓取技能，還能讓抓取動作更好地適應自身的局限和能力，」他們寫道。
但它還不夠完美。它還沒有接受操控多個物體的訓練，抓取球形物體很費勁。在第二次測試中，模擬和真實的機器人操作之間存在測量得到的性能差距。
但最終，該研究展現了當代深度學習演算法的潛力。研究人員總結說：「現實世界中有一些問題是那些非學習型機器人無法解決的，我們的演算法可以解決這些問題」。
本文係由DeepTech深科技授權刊登。原文連結： OpenAI 的前沿 AI 系统，让机器人手臂有人类灵活性 

更新時間｜2023.09.12 20:27 臺北時間

支持鏡週刊

小心意大意義
小額贊助鏡週刊！

每期 $35 元動態話題報導
無限閱讀解鎖新鮮事

更多內容，歡迎鏡週刊紙本雜誌、鏡週刊數位訂閱、了解內容授權資訊。

獨家深度分析報導

線上閱讀