
Appleがパーソナルアシスタント分野で揺るぎない王者となっている分野の一つはローカライズです。Siriは36か国の方言にまたがる24言語をサポートしています。一方、Googleアシスタントは5言語しか理解できず、Alexa(Amazon Echoで人気を博した)は英語とドイツ語の2言語しか理解できません。
iOS 10.3では上海語という新たな言語が導入され、国際的な優位性がさらに高まります。ロイター通信のインタビューで、Appleの音声認識担当責任者は、Siriがどのようにして全く新しい言語を学習するのかを説明しています…
アレックス・アセロ氏は2013年にAppleに入社し、現在同社の音声チームを率いている。Siriの音声認識機能はかつてNuanceの技術を採用していたが、Appleは数年前にそれを、機械学習を大いに活用して単語の理解度を向上させる、自社製のカスタム構築音声プラットフォームに置き換えた。
新しい言語を習得するプロセスについて、Acero 氏は、新しい言語を話せる実際の人々を呼び、さまざまな方言やアクセントにわたるさまざまな段落や単語リストを読んでもらうことからプロセスが始まると説明しています。
人間の音声は、他の人間によって録音・書き起こされます。これにより、単語とその発音の標準的な表現が形成され、正確性を確保するために実際の人間によって書き起こされます。この生の学習データは、アルゴリズムに基づく機械学習モデルに入力されます。
コンピュータ言語モデルは、任意の単語列の書き起こしを予測しようとします。このアルゴリズムは、より多くのデータで学習することで、時間の経過とともに自動的に改善されます。Appleは内部的にデータを微調整し、次のステップに進みます。
Appleは、Siriに直接アクセスするのではなく、iOSとmacOSの音声入力機能として新しい言語をリリースしました。これは、iPhoneのキーボードでスペースバーの隣にあるマイクキーを押すことで利用できます。これにより、Appleはより多くの人々から(匿名で送信される)音声サンプルを取得できます。
これらの実世界の音声クリップには、咳、間、ろれつが回らないといった背景ノイズや不完全な音声が自然に組み込まれています。Appleはこれらのサンプルを人間が書き起こし、新たに検証された音声とテキストの組み合わせを言語モデルの入力データとして活用します。この二次処理によって、ディクテーションのエラー率が半減すると報告書は述べています。
Appleは、システムの精度が十分に向上し、Siriの主要機能として展開できる状態になるまで、この手順を繰り返します。それとは別に、Siriが音声を合成し、テキスト読み上げと返答を実行できるように、声優が音声シーケンスを録音します。
その後、上海語がiOS 10.3とmacOS 10.12.4に搭載されるのと同様に、この言語はソフトウェアアップデートでリリースされます。Siriには「よくある質問」に対する回答があらかじめ用意されており、「ジョークを教えて」といった質問にも答えることができます。もちろん、「近くのレストランを探して」といった質問も動的に処理されます。
最終的には、人工知能は人間が書いた返答のデータベースを必要とせずに、一般的な会話の質問に答えられるようになるでしょう。しかし、それは現時点では現実的ではありません。Siriやその競合製品はすべて、ジョークや短い回答を人間に頼っているからです。
Acero によれば、Apple は Siri が新しい言語で展開されると、実際のユーザーが何を尋ねるかに注目し、人間の回答のデータベースを 2 週間ごとに更新しているという。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。