

今月発表された新しい論文の中で、Appleの研究者たちは、テキスト情報と視覚情報の両方を用いて大規模言語モデルを学習する新たな手法を開発したと発表しました。Appleの研究者によると、これは最先端の結果を得るための方法となるとのことです。
VentureBeatが最初に発見したように、この研究の目的は、「さまざまな種類のトレーニング データとモデル アーキテクチャをいかに慎重に組み合わせることで、さまざまな AI ベンチマークで最先端のパフォーマンスを実現できるか」を実証することです。
この論文は先週発表され、「MM1:マルチモーダルLLM事前トレーニングの方法、分析、洞察」と題されています。Appleの研究者は論文の要約で次のように説明しています。
本研究では、高性能なマルチモーダル大規模言語モデル(MLLM)の構築について議論します。特に、様々なアーキテクチャコンポーネントとデータ選択の重要性を検証します。画像エンコーダ、ビジョン言語コネクタ、そして様々な事前学習データの選択を慎重かつ包括的に検討することで、いくつかの重要な設計上の教訓が得られました。
たとえば、大規模なマルチモーダル事前トレーニングでは、画像キャプション、インターリーブされた画像テキスト、テキストのみのデータを慎重に組み合わせて使用することが、他の公開された事前トレーニング結果と比較して、複数のベンチマークにわたって最先端 (SOTA) の少数ショット結果を達成するために重要であることを示しています。
MM1 は最先端の「マルチモーダル モデルのファミリー」として説明されており、「強化されたコンテキスト内学習、複数画像推論、少量のショットによる思考連鎖の促進などの魅力的な特性」を備えています。
MM1 モデルのコンテキスト内学習機能は特に印象的です。
MM1は、大規模なマルチモーダル事前学習により、文脈に基づいた予測を実行できます。これにより、MM1は(a)物体の数を数え、カスタムフォーマットに従う、(b)画像の一部を参照してOCRを実行する、(c)日常的な物体に関する常識と語彙の知識を示す、(d)基本的な数学関数を実行する、といったことが可能になります。画像はCOCO 2014検証セットから取得しました。
研究者らは、このモデルファミリーは「複数画像推論と少数ショットプロンプトを可能にしながら、幅広いベンチマークで競争力のあるパフォーマンスを生み出す」と結論付けています。
続きを読む:
- AppleのAI開発は続く:テキストコマンドを使った写真編集
- Apple Keyframerは静止画像とテキストプロンプトからAIアニメーションを生成します
- iOS 18の新機能AI機能:これまでにわかっていること
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。