Appleの研究者が法学修士課程の学生にトークン予測を最大5倍速く教えるc

Appleの研究者が法学修士課程の学生にトークン予測を最大5倍速く教えるc
Appleの研究者が法学修士課程の学生にトークン予測を最大5倍速く教えるc
「信頼の危機」の中、上級AI研究者がAppleを去る | Apple Intelligenceのロゴは液体ガラス風

Appleの新しい研究論文では、出力品質を維持しながら大規模な言語モデルの応答を高速化する手法が詳しく説明されています。詳細はこちらをご覧ください。

オタクっぽい部分

従来、LLMは一度に1トークンずつテキストを生成します。これは、各ステップが前のステップすべてに依存して出力の一貫性と正確性を維持するため、処理速度が遅くなります。

モデルが「The cat is black」のような文を書いている場合、各トークンを順番に予測します。「The cat is」を書いた後、モデルはそれまでのすべて(ユーザーのリクエストとトレーニング中に学習したパターンを含む)を見て、語彙に含まれる可能性のあるすべての次のトークンの確率を計算します。これは自己回帰と呼ばれます。

このシナリオではblack、、、、、、、、、、、、、、などのオプションをランク付けし、コンテキストに最も適したものを選択します。tallsleepinggrumpyfluffyskinnypurringwhitetiredplayingmissingmeowingcold

アップルがやったこと

Apple のチームは、「Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential」という研究で、これらのモデルは通常、次のトークンのみを予測するようにトレーニングされているにもかかわらず、今後登場する複数のトークンに関する有用な情報を保持していることを発見しました。

これを基に、彼らはモデルが一度に複数のトークンを生成できる「マルチトークン予測」(MTP)フレームワークを開発しました。

数週間前に取り上げた拡散モデルの研究に少し似ているように思えるかもしれませんが、それほど間違ってはいません。トレーニングプロセスと基盤となる技術は異なりますが、どちらのアプローチも推論を高速化し、一度に1トークンずつ取得するアプローチよりも早く結果を得ることを目指しています。

この特定の研究では、研究者はプロンプトに特別な「マスク」トークンを挿入しました。これは基本的に、次の単語のプレースホルダーです。

例えば、「The cat is <MASK1> <MASK2>」は、1ステップで「 」と補完される可能性がありますvery fluffy。モデルは、入力時に複数の単語を一度に推測し、各単語を標準的な自己回帰デコードで生成されたものと即座に照合します。推測がチェックに合格しない場合は、通常の1つずつ処理するプロセスに戻ります。全体として、これにより精度を犠牲にすることなく、処理速度が向上します。

AppleはオープンソースのTulu3-8Bモデルを用いたテストで、このモデルに8つの追加トークンを投機的に予測するよう学習させ、Q&Aやチャットといっ​​た一般的なタスクでは平均2~3倍、コーディングや数学といった予測しやすい領域では最大5倍の高速化を報告しました。この高速化は、「ゲート付きLoRA適応と呼ばれるシンプルかつ効果的な手法のおかげで、生成品質の低下なしに実現されました」。

論文全文はarXivで読むことができます。

AmazonでMacの限定セール開催中

  • MacBook Air 15インチ、M4、16GB/256GB:  999ドル (17%オフ)
  • MacBook Pro 15インチ、M4、16GB/512GB:  1,299ドル (19%オフ)
  • MacBook Air 13インチ、M4、16GB/256GB:  799ドル (20%オフ)

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。