

今年のWWDCで最初に発表されたことの一つは、サードパーティ開発者が初めて、新しいFoundation Modelsフレームワークを使ってAppleのデバイス内AIに直接アクセスできるようになるというものでした。しかし、これらのモデルは既存のモデルと比べてどうなのでしょうか?
新しい Foundation Models フレームワークにより、サードパーティの開発者は、Apple のネイティブ アプリで使用されるものと同じデバイス上の AI スタック上に構築できるようになりました。
言い換えれば、開発者はドキュメントの要約、ユーザーのテキストからの重要な情報の抽出、さらには構造化コンテンツの生成などの AI 機能を、完全にオフラインで API コストなしで統合できるようになることを意味します。
しかし、Apple のモデルは実際のところどれほど優れているのでしょうか?
重要なところで競争力を発揮
Apple 独自の人間による評価に基づくと、答えは「かなりしっかりしている」です。特に、サイズ、速度、効率のバランス (一部の人はこれを「トレードオフ」と呼ぶかもしれません) を考慮すると、かなりしっかりしています。
Apple のテストでは、約 30 億のパラメータを持つデバイス上のモデルが、画像タスクにおいて InternVL-2.5 や Qwen-2.5-VL-3B などの同様の軽量視覚言語モデルよりも優れており、それぞれプロンプトの 46% と 50% 以上を獲得しました。

また、テキストに関しては、Gemma-3-4B などの大型モデルに引けを取らず、一部の国際的な英語ロケールや多言語評価 (ポルトガル語、フランス語、日本語など) でもわずかにリードしました。
言い換えれば、Apple の新しいローカル モデルは、クラウドに頼ったり、データをデバイス外に持ち出したりすることなく、実際のさまざまな用途で一貫した結果を提供できるようになっているようです。

Appleのサーバーモデル(ローカルモデルのようにサードパーティ開発者がアクセスすることはできません)に関しては、LLaMA-4-Scoutと比較しても遜色なく、画像理解においてはQwen-2.5-VL-32Bをも上回りました。とはいえ、GPT-4oは依然として総合的に見て圧倒的な優位性を示しています。
「無料かつオフライン」という部分が本当に重要
ここで重要なのは、Appleの新しいモデルが優れているというだけではありません。それが組み込まれているという点です。Foundation Modelsフレームワークにより、開発者はオフライン処理のために重い言語モデルをアプリにバンドルする必要がなくなりました。つまり、アプリのサイズが小さくなり、ほとんどのタスクでクラウドに頼る必要がなくなります。
その結果、ユーザーにとってはよりプライベートなエクスペリエンスが実現し、開発者にとっては API コストがかからず、最終的には誰もが恩恵を受けられる節約が実現します。
Appleによると、これらのモデルはSwiftネイティブの「ガイド付き生成」システムを用いて構造化された出力に最適化されており、開発者はモデルの応答をアプリロジックに直接組み込むことができます。教育、生産性、コミュニケーション分野のアプリにとって、これはゲームチェンジャーとなる可能性があり、遅延、コスト、プライバシーのトレードオフなしにLLMの利点を提供します。
結局のところ、Appleのモデルは世界で最も強力ではありませんが、そうである必要はありません。Appleのモデルは優れており、高速で、そして今やすべての開発者が無料で、デバイス上でもオフラインでも利用できるようになっています。
より強力なモデルほど注目を集めることはないかもしれませんが、実際には、クラウドを必要としないサードパーティ製のiOSアプリに、真に有用なAI機能が次々と搭載されるようになるかもしれません。そしてAppleにとって、まさにそれが狙いなのかもしれません。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。