Appleの調査:法学修士(LLM)も昔ながらの生産性向上策の恩恵を受けているc

Appleの調査:法学修士(LLM)も昔ながらの生産性向上策の恩恵を受けているc
Appleの調査:法学修士(LLM)も昔ながらの生産性向上策の恩恵を受けているc
リマインダーアプリ iOS 18

Appleの研究者が共同執筆した新たな研究によると、オープンソースの大規模言語モデル(LLM)は、ある簡単な生産性向上のコツを使って自身の動作をチェックするよう指示された後、大幅なパフォーマンス向上を達成しました。詳細は以下の通りです。

少し背景

LLM がトレーニングされた後、その品質は通常、人間からのフィードバックによる強化学習 (RLHF) と呼ばれるトレーニング後のステップを通じてさらに改良されます。

RLHFでは、モデルが回答を出すたびに、人間のラベラーが「いいね!」(評価)するか、「いいね!」を下げ(ペナルティ)するかを選択できます。時間の経過とともに、モデルはどの回答が最も多くの「いいね!」を獲得する傾向があるかを学習し、結果として全体的な有用性が向上します。

このトレーニング後の段階の一部は、「アライメント」と呼ばれるより広範な分野に結びついており、LLM を有益かつ安全な方法で動作させる方法を探求します。

たとえば、不正確なモデルは、表面上は正しく見えても実際にはタスクを解決しない出力を生成することで、人間をだまして承認させる方法を学習する可能性があります。

もちろん、事前学習、学習、そして学習後の各段階でモデルの信頼性とアライメントを向上させる方法は複数存在します。しかし、本研究ではRLHFのみに焦点を当てます。

「言語モデルの調整においては、チェックリストは報酬モデルよりも優れている」という適切なタイトルの研究で、Apple はチェックリスト フィードバックからの強化学習 (RLCF) と呼ばれるチェックリスト ベースの強化学習スキームを提案しています。

RLCFは、チェックリストの各項目をどの程度満たしているかを0~100点満点で採点し、初期の結果は非常に有望です。研究者たちは以下のように説明しています。

広く研究されている5つのベンチマークにおいて、強力な命令追従モデル(Qwen2.5-7B-Instruct)にRLCFを適用した他のアライメント手法とRLCFを比較しました。RLCFは、FollowBenchでハード満足度が4ポイント、InFoBenchで6ポイント、Arena-Hardで勝率が3ポイント上昇するなど、あらゆるベンチマークでパフォーマンスを向上させる唯一の手法です。これらの結果は、チェックリストフィードバックが、多様なニーズを表現するクエリに対する言語モデルのサポートを向上させるための重要なツールであることを確立しています。

この最後の部分は、AI 搭載アシスタントに関して特に興味深いものです。AI 搭載アシスタントは、今後何百万ものユーザーがデバイスを操作する際に使用する標準的な基盤インターフェースとなるはずです。

再び研究者からのコメント:

言語モデルが有用であるためには、ユーザーの指示に従う必要があります。一般の人々が言語モデルベースのアシスタントを日常業務に組み込むようになるにつれ、言語モデルがユーザーの要求に忠実に従うことが期待されます。ユーザーがモデルの複雑な要求を満たす能力に信頼を寄せるようになるにつれて、これらのモデルには、仕様への細心の注意を必要とする、リッチで多段階的な指示がますます多く与えられます。

適切なチェックリストの作成

この研究の特に興味深いもう一つの側面は、各チェックリストがどのように作成され、各項目間に重要度の重みがどのように割り当てられるかです。

もちろん、これは法学修士(LLM)の助けを借りて実現されています。Appleの研究者たちは、過去の研究に基づき、「13万件の指示に対するチェックリスト(…)を作成し、新しいデータセットWildChecklistsを作成しました。私たちの手法のための候補回答を生成するために、Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Qwen2.5-7Bを使用しました。Qwen2.5-72B-Instructはチェックリスト生成モデルです(…)」。

基本的に、研究者たちはユーザーからの指示を、具体的な「はい/いいえ」の要件(例えば「これはスペイン語に翻訳されていますか?」)をまとめた小さなチェックリストで自動的に補完します。そして、より大きな教師モデルが各チェックリスト項目に対して候補の回答を採点し、その加重スコアが報酬信号となり、学習者モデルを微調整します。

結果と限界

各プロンプトに対して可能な限り最適なチェックリストを作成するための適切なシステムを導入した結果、研究者たちは、この手法をテストしたベンチマークの1つで最大8.2%の向上を確認しました。さらに、このソリューションは他のいくつかのベンチマークでも、他の手法と比較して優れた結果を示しました。

研究者らは、今回の研究が「複雑な命令追従」に焦点を当てており、RLCFは他のユースケースでは最適な強化学習手法ではない可能性があると指摘しています。また、この手法では、より強力なモデルを、より小規模なモデルを調整するための判断基準として用いるため、これも大きな限界となると述べています。そしておそらく最も重要なのは、「RLCFは複雑な命令追従を改善するが、安全性の調整を目的として設計されていない」と明確に述べている点です。

それでも、この研究は、将来的に人間と LLM ベースのアシスタントとのやりとりでおそらく最も重要な側面の 1 つとなる信頼性を向上させるための、興味深い新しい (しかしシンプルな) 方法を示しています。

これらのアシスタントがエージェント機能を獲得することが増え、指示の遵守(および調整)が重要になることを考えると、これはさらに重要になります。

Amazonのアクセサリーセール

  • Apple AirTag 4個パック、29%オフ
  • Apple AirTag、21%オフ
  • Beats USB-C - USB-C 織り込みショートケーブル、19%オフ
  • ワイヤレスCarPlayアダプター、10ドル割引

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。