Appleの新しいAIモデルは、わずか3枚の画像から3Dシーンを生成c

Appleの新しいAIモデルは、わずか3枚の画像から3Dシーンを生成c
Appleの新しいAIモデルは、わずか3枚の画像から3Dシーンを生成c
Apple Vision Proディスプレイ

Apple の機械学習チームは、南京大学および香港科技大学の研究者と協力して、Matrix3D と呼ばれる興味深い 3D AI モデルを発表しました。

このいわゆる「大規模写真測量モデル」は、わずか数枚の2D写真から3Dオブジェクトやシーンを再構築できますが、既存のパイプラインとは大きく異なります。なぜこれが重要なのか、その理由を説明します。

まず最初に、写真測量法についてお話しします。写真測量法では、写真を用いて計測を行い、3Dモデルや地図を作成します。現在、このプロセスでは、姿勢推定や深度予測などのステップで異なるモデルを使用する必要があり、非効率性やエラーにつながる可能性があります。

Matrix3Dは、これらすべてを一度に処理することで、このプロセスを簡素化します。画像、カメラパラメータ(角度や焦点距離など)、深度データを取り込み、統一されたアーキテクチャを用いて処理します。これにより、ワークフローが簡素化されるだけでなく、精度も向上します。

Matrix3D モデルの推論パイプライン。

さらに興味深いのは、このモデルの学習方法です。研究者たちは、ChatGPTの初期バージョンの開発に貢献した初期のTransformerベースのAIシステムに非常によく似た、マスク学習戦略を採用しました。

学習プロセス中に入力データの一部をランダムに隠蔽することで、Matrix3Dは基本的にそのギャップを埋める方法を学習せざるを得なくなりました。この手法は、Matrix3Dが小規模または不完全なデータセットであっても効果的に学習できるようにするため、非常に重要なものです。

結果は実に印象的です。わずか3枚の入力画像から、Matrix3Dは物体や環境全体の詳細な3D再構成を生成できます。これは明らかに、Apple Vision Proのような没入型ヘッドセットに非常に興味深い応用が期待できます。

研究者たちはMatrix3DのソースコードをGitHubで公開し、論文をarXivで公開しました。また、より多くのサンプル動画を視聴したり、物体や環境の点群再現を操作したりできるウェブサイトも開設しました。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。