

英語を母国語としない人に尋ねれば、おそらく法学修士課程の学生は母国語よりもシェイクスピアの言語でより良い成績を収める傾向があると言うでしょう。
違いは微妙な場合もあれば、そうでない場合もあります。2023年にカーネギーメロン大学が行ったこの研究では、英語以外の入力は安全フィルターをより簡単に回避できることが示されており、時には全く危険な場合もあります。
現在、Apple 社はこのギャップの一部を埋めることができる新しい方法を提案する研究論文を共同執筆しました。
Appleは次のように説明しています。
現在の大規模言語モデルは主に英語を主要言語として設計されており、少数の多言語モデルでも英語中心の傾向が強く見られます。
第二言語を学習するときにぎこちない表現を生み出す話者と同様に、LLM は語彙と文法の両方で英語中心のパターンを反映して、英語以外の言語で不自然な出力を生成することがよくあります。
つまり、モデルが中国語やフランス語を生成する場合でも、依然として英語で「考える」ことになります。その結果、英語以外の出力でも、英語のような文法や語彙パターンが維持されることになります。
これをテストするために、Apple の研究者は、パリ国立高等工科大学、エコール・ポリテクニーク、ローマ・ラ・サピエンツァ大学の研究者と協力して、2 つの新しい指標を導入しました。
- 語彙の自然さ: モデルはネイティブスピーカーのような語彙を使用していますか?
- 構文の自然さ: ネイティブの文法に一致する方法で文章が構成されていますか?
彼らは、モデルの出力を中国語、フランス語、英語でネイティブスピーカーが書いたウィキペディアの記事と比較しました。
結果はその偏りを裏付けました。中国で開発されたモデルQwenでさえ、中国語を含むすべての言語で期待を下回りました。MetaのLlama 3.1は全体的に最も自然な発音でしたが、それでも人間レベルの出力には大きく及ばない結果となりました。
Appleが提案した修正
このギャップを埋めるために、Apple は非常に巧妙な方法を使用して、不自然な出力よりも自然な出力を優先するようにモデルをトレーニングしました。つまり、不自然な例を手動で収集する代わりに、逆翻訳を使用して自動的に生成したのです。
人間が流暢に書いた中国語の回答を英語に翻訳し、その後再び中国語に戻すことで、「翻訳語」と呼ばれる微妙に不自然なパターンが生まれます。これらの操作された出力は否定例として使用され、元の回答は推奨される回答として使用されました。
より自然なバージョンを優先するようにモデルをトレーニングすることで、Apple は標準ベンチマークでの全体的なパフォーマンスを低下させることなく、語彙の選択と文法の両方を大幅に改善することができました。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。