

WWDC25で、Appleはデバイス内およびクラウドベースの基盤モデルの新バージョンを発表しました。そして今回、これらのモデルの学習、最適化、評価方法を詳述した技術レポートを公開しました。レポートには、実に興味深い内部情報も含まれています。
「Apple Intelligence Foundation 言語モデル – 技術レポート 2025」という包括的な文書の中で、同社は新しいモデルのアーキテクチャ、データソース、事前トレーニング、事後トレーニング、ツール使用の開発、最適化、ベンチマークなど、さまざまな側面について説明しています。

非常に技術的な内容ですが、この手の分野の核心を突くのが好きな方には、ぜひ読んでいただきたい一冊です。特に興味深い点をいくつかご紹介します。
ローカルモデルは2つのブロックに分割されました
Appleのデバイス内モデル(開発者が利用できるモデル)には約30億のパラメータがあることは既に知られていました。今回、Appleはこのモデルが実際には2つのブロックに分かれていることを詳細に明らかにしました。
「ブロック 1 にはトランスフォーマー レイヤー全体の 62.5% が含まれており、ブロック 2 には残りの 37.5% のトランスフォーマー レイヤーが含まれていますが、キーと値の投影は削除されています。」
実際には、これはローカルモデルのキャッシュに必要なメモリが37.5%削減され、最初のトークン(基本的には単語の断片)の出力にかかる時間も約37.5%短縮されることを意味します。それでもAppleは、モデルの全体的なパフォーマンスと出力品質を維持するように分割構造を設計したと述べています。

余談ですが、数年前に Apple はこの研究を発表しました。この研究では、デバイスのメモリに収まるよりも大きなローカル モデルをパックするために、必要に応じて RAM とフラッシュ ストレージ間で LLM の一部を交換する方法について検討しました。
Apple は最終的に別の方法を取ったが、メモリが制限されたデバイスでも優れたローカル パフォーマンスを提供するために同社がさまざまな方法を実験してきたことは興味深い。
クラウドベースのモデルは創造的なアーキテクチャを持っています
Appleは、サーバーモデルとして、プライベートクラウドコンピューティングプラットフォーム向けにカスタマイズされたカスタムアーキテクチャを構築しました。これはParallel-Track Mixture-of-Experts(PT-MoE)と呼ばれ、その動作は非常に巧妙です。
簡単に言えば(そして物事を単純化しすぎるリスクを冒して)、専門家の混合とは、1つの巨大なAIモデルに頼るのではなく、それを小さなサブネットワーク(または専門家)に分割し、タスクが彼らが専門とする分野に関連する場合にのみアクティブ化することです。
例えば、料理に関するプロンプトの場合、料理関連のエキスパートのみが起動し、他のエキスパートは休止状態のままになります。結果として、全体的なモデルは依然として巨大ですが、モジュール設計により、すべてのプロンプトに対してすべてを巨大な統合モデルで実行するよりも高速に(そして多くの場合、より正確に)応答できます。
8 分ほどお時間がある場合のために、IBM Mixture of Experts の説明を次に示します。
AppleはParallel Track Transformerと呼ばれる新しい種類のTransformerを開発し、Mixture of Experts(MoE)レイヤーでスケールアップしました。複雑すぎるように聞こえますが、要点は次のとおりです。
従来のTransformerは、トークンを単一のレイヤースタックを通して順番に処理します。しかし、Appleの設計では、すべてのトークンをこの単一トラックのアプローチで計算するのではなく、モデルを複数の並列トラックに分割します。各トラックはトークンを独立して処理し、特定の時点でのみ同期します。
次に、各トラック内で、通常のトランスフォーマーレイヤーをMoEレイヤーに置き換えました。これにより、トークンごとに少数のエキスパートがアクティブになり、残りはアイドル状態になります。各トラックにローカルエキスパートが存在するため、システム全体ですべての処理を調整する必要がある場合に発生する処理のボトルネックを回避できます。

これに、ローカル コンテキストと全体像の理解のバランスをとる巧妙な設定 (Interleaving Global and Local Attention Layers と呼ばれる) を加えると、非常にモジュール化され、効率的でスケーラブルな、より高速かつスリムでありながら、非常にスマートなモデルが生まれます。
Appleは多言語対応を275%増加
Apple Intelligenceの初期導入時における最大の批判点の一つは(そして今もなお)、英語以外の言語サポートが限られていることでした。Appleは新モデルで言語サポートを拡大しており、その手順については資料で詳しく説明しています。
文書によると、Appleはトレーニング中に使用される多言語データの量を8%から30%に増加させた。これにはオーガニックコンテンツと合成コンテンツの両方が含まれる。
Appleはトークナイザー(基本的にはモデルのトークン語彙)も50%増加させました。つまり、モデルが認識できるトークンの種類は以前の10万種類から15万種類に増加したことになります。
同社によれば、これらの変更により、特に強化学習の微調整後に、英語以外のベンチマークでパフォーマンスが「大幅に向上」したという。
Appleは声明の中で、評価は翻訳ではなくネイティブスピーカーが書いたプロンプトを用いて行われ、モデルの精度と、現地の状況における自然な応答の聞こえ方の両方についてテストされたと説明しています。もしこの話に聞き覚えがあるなら、おそらくこのApple Researchの調査に関する最近の記事を読んだことがあるでしょう。
実際には、これらすべては、ライティング ツールなどの機能がサポートされている言語でより確実に動作することを意味します。

Apple はどこからデータを入手したのでしょうか?
最初のモデルと同様に、トレーニングデータの大部分はウェブのクロールから取得されました。しかし、AppleはApplebotクローラーはrobots.txt
除外設定を尊重するとしています。つまり、ウェブサイトがAppleによるコンテンツのスクレイピングを望まない場合は、その旨を伝えればApplebotはそれを無視するということです。
とはいえ、Apple は新モデルのデータの入手方法について次のように述べている。
- 公開されているウェブデータ: Appleは量や比率を明示していませんが、トレーニングデータの大部分はApplebotによるウェブページのクロールから得られたものだと述べています。Appleは、スパムページ、内容の薄いテキストやテンプレート化されたテキスト、壊れたフォーマットなど、低品質、危険、または関連性の低いコンテンツを削除するために、多層的なフィルタリングを適用しています。
- ライセンスデータ: Appleはここで詳細には触れていませんが、トレーニングデータの一部は出版社からライセンスを受けていることを認めています。以前の報道では、AppleがCondé Nast(The New Yorker、Vogue、Wiredなど)、NBC News、IAC(People Magazine、The Daily Beast、Better Homes and Gardensなど)と交渉中だったと報じられていたため、少なくとも一部のデータは含まれている可能性が高いと考えられます。
- 合成データ: Appleは、特に数学、コード、命令チューニング、視覚言語タスク向けに、小規模なモデルとカスタムパイプラインを用いて合成データを生成しました。Appleは、このデータがデータセットのどの程度を占めているかは明らかにしていませんが、合成データは微調整、強化学習、多言語サポートの改善といった主要なトレーニングステップにおいて大きな役割を果たしたと述べています。合成データが「作り話」を意味するのか疑問に思われる方もいるかもしれませんが、そうではない理由を解説した記事をご用意しています。
- 視覚データ: 画像理解をサポートするため、AppleはOCR処理されたスクリーンショットや手書きのメモなど、100億以上の画像とキャプションのペアを収集しました。また、独自のモデルを用いて、よりリッチなキャプションも生成しました。過去にはAppleがShutterstockとライセンス交渉を行っていたと報じられていたため、その素材も含まれている可能性があります。
9to5Macの見解
Appleの社内ドラマ、技術的な苦戦、そしてAI製品と競合他社との間のギャップ(一部の人は「溝」と呼ぶかもしれない)を埋めるのに必要な勢いを全体的に得られていないことに関するニュースは尽きない。これらはすべて事実だ。
しかし、AppleがAI分野で遅れをとっていると広く認識されているという事実は、同社が現状維持を表明していることを意味するものではありません。本レポートは、Appleの最新モデルにおける内部的な改善点(そして欠点)について興味深い洞察を提供するとともに、ほとんどの企業が試みることさえないプライバシー重視のアプローチについても詳細に説明しています。
Amazonのアクセサリーセール
- Anker 25,000mAh パワーバンク、100W、USB-C: 94.99ドル(旧価格 134.99ドル)
- Anker 折りたたみ式 3-in-1 ワイヤレス充電器、15W、Qi2: 71.99ドル(旧価格 89.99ドル)
- AirPods Pro 2:169ドル(以前は249ドル)
- AirTag、4個パック:$79.98(旧価格$99)
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。