AppleのスマートグラスはこのAIモデルで動作するかもしれないc

AppleのスマートグラスはこのAIモデルで動作するかもしれないc
AppleのスマートグラスはこのAIモデルで動作するかもしれないc
Apple Glassesのコンセプト

ここ数ヶ月、AppleがAI搭載ウェアラブルデバイスをリリースする計画について、多くの噂や報道が出回っています。現状では、Meta Ray-Banの直接的な競合製品は、独自のAI機能を搭載したカメラ付きAirPodsと並んで、2027年頃に発売される見込みです。

正確にどのようなものになるかを知るのは時期尚早かもしれないが、Apple は AI がどのように機能するかを少しだけ公開した。

2023 年、Apple の機械学習研究チームは、Apple Silicon 専用に設計された独自のオープン ML フレームワークである MLX をリリースしました。

簡単に言えば、MLX は、従来 AI 開発に関連付けられているフレームワークや言語に慣れている開発者にとって使い慣れたまま、Apple デバイス上でローカルにモデルをトレーニングおよび実行するための軽量な方法を提供します。

Appleの新しいビジュアルモデルは高速です

Appleは今回、MLXを活用したビジュアル言語モデル(VLM)であるFastVLMをリリースしました。これは、類似のモデルに比べて大幅に少ない計算量で、ほぼ瞬時に高解像度の画像処理を実現します。Appleは次のように述べています。

画像解像度、ビジョンの遅延、トークン数、LLM サイズの相互作用の包括的な効率分析に基づいて、遅延、モデル サイズ、精度の間で最適化されたトレードオフを実現するモデルである FastVLM を導入します。

FastVLMの中核を成すのは、FastViTHDと呼ばれるエンコーダです。このエンコーダは、「高解像度画像における効率的なVLMパフォーマンスを実現するために特別に設計」されています。

同機種と比較して、最大3.2倍高速で、サイズは3.6倍小型です。ユーザーが質問した内容(または見ているもの)に対する応答をクラウドに依存せずに、デバイスでローカルに情報を処理したい場合、これは大きなメリットです。

さらに、FastVLMはトークン出力数を削減するように設計されており、これは推論段階、つまりモデルがデータを解釈して応答を生成する段階においても重要な要素となります。Appleによると、このモデルは類似モデルと比較して、最初のトークン生成時間(ユーザーが最初のプロンプトを送信してから最初のトークンが返されるまでの時間)が85倍高速です。より高速で軽量なモデルでトークン数が少ないということは、処理速度が速いことを意味します。

FastVLMはGitHubで公開されており、レポートはarXivで公開されています。読みやすいとは言えませんが、AppleのAIプロジェクトのより技術的な側面に興味があるなら、ぜひ読んでみる価値があります。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。