

先週末、ブルームバーグのマーク・ガーマン氏とドレイク・ベネット氏は、Apple Intelligence で何が起きたのかを包括的に調査した記事を公開した。
この記事は、長年にわたる見落としから、企業トップによるAIの可能性に対する深い誤解まで、あらゆることを詳細に報じています。しかし、さらに重要なのは、Appleが現在、追いつくために何をしているのかを概説していることです。その取り組みの一つは?合成データへの取り組みです。
ガーマンとベネットは次のように述べています。
こうしたことから、Apple の研究者は、サードパーティからライセンス供与されたデータセットや、いわゆる合成データ (AI のトレーニング専用に作成された人工データ) にますます依存するようになった。
そして
最近のソフトウェアアップデートにより、iPhoneもAppleの合成データの改善に活用されるようになりました。偽造データは、ユーザーのスマートフォンに届いたメールの文言と比較することで評価・強化され、実際のユーザー情報をモデルに入力することなく、AIトレーニングのための現実世界の参照データとして提供されます。
このアイデアが奇妙に思えるなら、まず知っておくべきことがある。AIモデルのトレーニングにコンピューター生成の「偽の」データを利用する企業はAppleが初めてではない。
OpenAI、Microsoft、Metaといった企業は、この手法を用いてモデルの学習に成功しています。しかし、ブルームバーグの報道により、この手法はApple愛好家の間で注目を集めています。
つまり、合成データを利用することで、エンジニアは膨大な、完璧にラベル付けされた、プライバシー保護されたデータセットをオンデマンドで作成できるのです。これにより、現実世界ではほとんど発生しないエッジケースにも対応でき、実世界のサンプルが少しずつ集まるのを待つよりもはるかに高速に反復処理を行うことができます。
OpenAI は 2023 年 3 月に、GPT-4 のトレーニング プロセス中に幻覚を減らすために合成データを使用する方法を次のように詳しく説明しました。
閉領域幻覚については、GPT-4自体を用いて合成データを生成することができます。具体的には、比較データを生成するための複数段階のプロセスを設計します。
- GPT-4モデルにプロンプトを渡して応答を得る
- GPT-4にプロンプト+レスポンスを渡して、すべての幻覚をリストアップする指示を与える
(a)幻覚が見つからない場合は、続行する- プロンプト+応答+幻覚をGPT-4に渡し、幻覚なしで応答を書き換える指示を与える
- 全ての幻覚をリストアップする指示を付けて、プロンプト+新しい応答をGPT-4に渡す
(a)何も見つからない場合は、(元の応答、新しい応答)の比較ペアを維持する
(b)それ以外の場合は、最大5回繰り返すこのプロセスにより、幻覚を含む元の応答と、GPT-4に基づく幻覚を含まない新しい応答との比較が生成され、これもRMデータセットに混合されます。幻覚に対する緩和策により、TruthfulQAなどの評価で測定される事実性に関するパフォーマンスが向上し、精度は以前のバージョンの30%から約60%に向上することがわかりました。
マイクロソフトに関しては、2024年12月にリリースされたSmall Language Model(SLM)Phi-4は、55%が合成データで学習され、残りの45%は他のソースに分散して学習されました。もちろん、Phi-4がSLMであり、現在フロンティアLLMの学習に必要とされる数兆個のパラメータではなく、わずか140億個のパラメータしか持たなかったことは、SLMにとって有利に働きました。
しかし、このモデル(ちなみにオープンモデル)は、数学や推論のタスクでは GPT-4o や Gemini Pro 1 などのより大規模なモデルよりも優れたパフォーマンスを発揮しました。

しかし、「合成データ」とは一体何なのでしょうか?
合成データとは、実際のデータから収集されたものではなく、アルゴリズム(多くの場合、別のAIモデル)によって、あるいは手動で生成された情報です。社内で作成されるため、エンジニアは以下のことが可能になります。
- 完璧なラベル精度を保証します。
- まれなシナリオに合わせて調整します。
- データセットに個人を特定できる情報や著作権で保護された情報を含めないでください。
Apple自身の研究ブログでは、合成データの使用例が具体的に示されています。簡単に言うと、Appleはデバイス上で数千件ものサンプルメール(「明日午前11時半にテニスしませんか?」など)を作成し、それらをローカルで実際のメッセージと比較し、どの合成サンプルが最も関連性の高いかを示す匿名化された信号のみを返信しています。

一度だけ、ゲームに遅れて参加したことが報われた
これほど多くの AI 巨大企業が合成データに目を向けている理由は単純です。基本的に、彼らはすでに世界中の利用可能なデータをすべて消費しており、さらにデータを必要としているからです。
その結果、過去 2 年間で研究投資が行われ、合成データを使用した AI トレーニングのパフォーマンスが大幅に向上しました。
もちろんそれほど単純ではありませんが、要点は理解できると思います。
しかし、これではモデルが崩壊してしまうのではないでしょうか?
一言で言えば、いいえ。簡単に言えば、正しく行えばそうではありません。
かつては、インターネット全体が AI 生成のゴミに変わり、AI 生成のゴミでトレーニングされ、すべてが必然的に終焉を迎えるだろうと広く信じられていました。
ゆっくりと、しかし確実に、いくつかの研究が、厳選された合成データの一部を使用することで、実際にモデルの性能が向上する可能性があることを示唆し始めました。実際、生の「オーガニック」データのみに頼るよりも、その効果は大きいのです。例えば、MicrosoftのPhi-4はそれを証明し、この考えをさらに推し進めました。
Apple にとって、合成データを使用してモデルをトレーニングすることは、Siri の再起動を高速化し、より多くの言語と地域へのサポートを加速する可能性があり、素材のコーパスが小さいため GPU の必要数が少なくなる (これは良いことです。Apple は GPU は AI には必要ないと判断したからです) ため、多面的なメリットをもたらす可能性があります。
結論
もちろん、テクノロジー関連のあらゆる決定と同様に、これには重要なトレードオフが伴います。まず、クリーンで人間がキュレーションした合成データを収集するには、「従来の」方法よりもはるかにコストがかかり、時間がかかります。
そして最後に(少なくともこの記事の目的においては)、人間を関与させるということは、どれだけ避けようとしても偏見を持ち込むことを意味します。
それでも、AppleがApple Intelligence向けの合成データに投資しているのは朗報だ。まあ、 AppleがAIに投資しているというニュースはどれも朗報だ。ここ数週間、リークや報道、そして(正当な)非難が相次いだが、Appleはついに方針を転換し、ここ数年自ら掘り下げてきたAIという名の穴から抜け出すために実際に何をするのかを語り始める準備が整ったのかもしれない。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。