Apple、機械学習ジャーナルの最新記事で「Hey Siri」音声認識のパーソナライズについて詳細を明かすc

Apple、機械学習ジャーナルの最新記事で「Hey Siri」音声認識のパーソナライズについて詳細を明かすc
Apple、機械学習ジャーナルの最新記事で「Hey Siri」音声認識のパーソナライズについて詳細を明かすc

AppleのSiriチームは、音声起動型Siriを声だけで動作させるプロセスの一部を詳述した新しい機械学習ジャーナル記事を公開しました。Appleは昨年秋に音声起動型Siriの実現プロセスの一部を公開しており、今年最初の機械学習ジャーナル記事では、話者認識の課題に焦点を当てています。

前回のエントリーで言及したように、Apple によれば、「He​​y Siri」というフレーズが選ばれたのは、多くのユーザーがすでにハードウェア ボタンで Siri を起動する際に自然にこのフレーズを使用していたためだという。

「Hey Siri」というフレーズは、もともとできるだけ自然なものになるように選ばれました。実際、この機能が導入される前から、ユーザーはホームボタンを使用して Siri を起動し、うっかり「Hey Siri」という言葉をリクエストの先頭に付けてしまうほど自然でした。

新しいエントリーでは、音声で Siri を起動する場合の 3 つの課題について説明しています。メインのユーザーが Hey Siri に似たフレーズを言う、別のユーザーが Hey Siri と言う、または別のユーザーが Hey Siri に似たフレーズを言う、というものです。

アクティベーションをメインユーザーの音声のみに制限することで、この設計はこれら3つの問題のうち2つを理想的に防ぐことができます。この記事では、Appleがこの問題にどのように取り組んでいるかについて、表面的な部分に触れています。

話者認識システムの性能は、偽者承認率(IA)と誤拒否率(FR)の組み合わせで測定します。ただし、これらの値は、キーフレーズトリガーシステムの品質を測定する際に使用される値と区別(および同等とみなす)することが重要です。

機械学習ジャーナルの各記事と同様に、この記事ではその後、Apple の実装を比較的詳細に検討し、その後、騒がしい環境や広い部屋で Hey Siri を使用するという機能の未解決の問題について触れています。

私たちの現在の研究努力の 1 つは、着信テスト発話の環境がユーザーの話者プロファイル内の既存の発話と大きく一致しない困難な状況における劣化を理解し、定量化することに重点を置いています。

記事によると、音声起動のSiriはiPhone 6から始まりましたが、最初のバージョンは充電中のみ動作しました。現在では、新しいiPhone、iPad、Apple Watchで充電なしでも「Hey Siri」が使えるようになり、HomePodのメインコントローラーとしても機能しています。将来的には、AirPodsでも同様の「Hey Siri」機能が使えるようになるかもしれません。

完全なエントリは、国際音響・音声・信号処理会議に提出された研究に基づいており、ユーザーにとって自然に感じられるであろう機能の背後にある思考の量を詳細に見る貴重な機会となっています。

関連記事:

  • iOS 9には、Siriがあなたの声をよりよく認識できるようにするための「Hey Siri」音声トレーニングが含まれています
  • iOS 10では、「Hey Siri」は近くにあるデバイス1台のみで自動的に起動します [ビデオ]
  • Appleはディープニューラルネットワークと機械学習を使って「Hey Siri」がどのように機能するかを説明した

Appleのニュースをもっと知りたい方は、YouTubeで9to5Macを購読してください。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。