

数か月前、Appleはほぼ瞬時に高解像度画像処理を実現するビジュアル言語モデル(VLM)であるFastVLMをリリースしました。Apple Silicon搭載のMacをお持ちであれば、ぜひお試しください。その方法をご紹介します。
当社が初めて FastVLM を取り上げたとき、Apple Silicon 専用に設計された Apple 独自のオープン ML フレームワークである MLX を活用して、同様のモデルよりも 3 倍以上小型でありながら、最大 85 倍高速なビデオ キャプション作成を実現できることを説明しました。
それ以来、Appleはこのプロジェクトをさらに進め、現在ではGitHubだけでなくHugging Faceでも公開されています。Hugging Faceでは、軽量版のFastVLM-0.5Bをブラウザで直接読み込み、実際に動作を確認することができます。
お使いのハードウェアによっては、読み込みに少し時間がかかる場合があります。私の16GB M2 Pro MacBook Proでは数分かかりました。しかし、読み込みが終わるとすぐに、モデルは私の容姿、背後の部屋、様々な表情、そして私が視界に取り込む物体を正確に描写し始めました。
左下隅では、モデルがキャプションをライブ更新するときに考慮するプロンプトを調整したり、次のようないくつかの提案から選択したりできます。
- 見たものを一文で説明してください。
- 私のシャツの色は何色ですか?
- 表示されているテキストまたは書かれたコンテンツを識別します。
- どのような感情や行動が描かれているのでしょうか?
- 私が手に持っている物の名前を答えてください。
さらに高度な機能を試してみたい方は、仮想カメラアプリを使って動画をツールに取り込むと、複数のシーンを瞬時に詳細に描写し、何が起こっているのか理解しにくくなる様子を観察できます。もちろん、実際の使用例は異なりますが、このモデルがいかに高速かつ正確であるかを実感できるでしょう。
この実験で特に興味深いのは、ブラウザ上でローカルに実行されることです。つまり、データがデバイス外に漏れることはなく、オフラインでも実行できます。これはもちろん、ウェアラブルデバイスや支援技術にとって素晴らしいユースケースとなるでしょう。これらのデバイスでは、軽量性と低レイテンシが、より優れたユースケースを実現するために最も重要となるからです。
注目すべきは、このデモはより軽量な5億パラメータモデルで実行されているのに対し、FastVLMファミリーには15億パラメータと70億パラメータを備えた、より大規模で強力なバージョンも含まれている点です。より大きなモデルを使用すれば、パフォーマンスと速度はさらに向上する可能性がありますが、ブラウザ上で直接実行することはおそらく不可能でしょう。
試してみましたか?感想をコメント欄で共有してください。
Amazonのアクセサリーセール
- Apple AirTag 4個パック、29%オフ
- Apple AirTag、21%オフ
- Beats USB-C - USB-C 織り込みショートケーブル、19%オフ
- ワイヤレスCarPlayアダプター、10ドル割引
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。