

Appleの研究者たちは、「 Humanoid Policy ∼ Human Policy 」という新しい論文の中で、ヒューマノイドロボットを訓練する興味深い方法を提案しています。その方法とは、Apple Vision Proを装着することです。
ロボットが見て、ロボットが実行する
このプロジェクトは、Apple、MIT、カーネギーメロン大学、ワシントン大学、カリフォルニア大学サンディエゴ校の共同プロジェクトです。人間が物体を操作する一人称視点の映像を、汎用ロボットモデルの学習にどのように活用できるかを研究しています。
研究者たちは合計で 25,000 人以上の人間のデモンストレーションと 1,500 人以上のロボットのデモンストレーション ( PH2Dと呼ばれるデータセット) を収集し、それらを統合 AI ポリシーに入力して、物理世界で実際のヒューマノイド ロボットを制御できるようにしました。
著者は次のように説明しています。
多様なデータを用いてヒューマノイドロボットの操作方針を訓練することで、タスクやプラットフォームをまたがる堅牢性と汎化性が向上します。しかし、ロボットのデモンストレーションのみから学習を行うには労力がかかり、遠隔操作によるデータ収集に高額な費用がかかるため、スケールアップが困難です。
この論文では、ロボット学習のためのクロスエンボディメントトレーニングデータとして機能する、よりスケーラブルなデータソースである自己中心的な人間のデモンストレーションを調査します。
彼らの解決策は? 人間に道を示させることだ。
より安価で迅速なトレーニング
トレーニングデータを収集するために、チームはデバイスの左下のカメラからビデオをキャプチャし、AppleのARKitを使用して3Dの頭と手の動きを追跡するApple Vision Proアプリを開発した。
しかし、より手頃なソリューションを模索するために、Meta Quest 3 などの他のヘッドセットに ZED Mini Stereo カメラを取り付けるためのマウントも 3D プリントし、低コストで同様の 3D モーション トラッキングを提供しました。

その結果、数秒で高品質のデモンストレーションを録画できるセットアップが実現しました。これは、より遅く、より高価で、拡張が難しい従来のロボット遠隔操作方法に比べて大幅に改善されています。
そして、最後にもう一つ興味深い詳細がある。人間はロボットよりもはるかに速く動くため、研究者はトレーニング中に人間のデモの速度を4分の1に落とし、ロボットがそれ以上の調整を必要とせずに追いつくのに十分な速度にしたのだ。
ヒューマンアクショントランスフォーマー(HAT)
研究全体の鍵となるのは、人間とロボットの両方のデモンストレーションを共有形式でトレーニングしたモデルである HAT です。
HAT は、データをソース(人間とロボット)ごとに分割するのではなく、両方のタイプの物体に一般化される単一のポリシーを学習し、システムの柔軟性とデータ効率を高めます。
いくつかのテストでは、この共有トレーニング手法により、従来の方法と比較して、ロボットはこれまで経験したことのないタスクも含め、より困難なタスクを処理できるようになりました。

全体的に、この研究は非常に興味深いので、ロボット工学に興味があるなら調べてみる価値があります。
家庭用ヒューマノイドロボットのアイデアは、あなたにとって怖いですか?ワクワクしますか?それとも無意味ですか?コメント欄で教えてください。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。