

Apple の機械学習ブログの最新記事では、オーディオ ソフトウェア エンジニアリング チームが、スマート スピーカーの音声検出の課題と、HomePod の A8 チップ上で実行される機械学習モデルを使用して遠距離場の精度を向上させる方法について説明しています。
HomePod は、大音量の音楽が再生されているときや、話している人が遠くにいるときでも認識精度を維持し、誰かがコマンドを話している音を、テレビや騒音の大きい家電製品などの室内の他の音から正しく分離できなければなりません。
いつものように、このブログ記事は他のエンジニアや科学者を対象に書かれており、非常に技術的な言葉遣いが使われているのもそれが反映されています。全文はこちらで読むことができますが、要点は、HomePodがカスタムマルチチャンネルフィルタリングを使用してエコーや背景ノイズを除去し、教師なし学習モデルを使用して、部屋の中で複数の人が話している場合でも「Hey Siri」と話しかけてきた人だけに集中するという点です。
ブログ記事には、このシステムの仕組みと、その優れたテスト結果を説明する多くの数学的要素が含まれています。マルチチャンネルサウンドプロセッサは、HomePodに搭載されているA8チップの単一コアの15%未満しか使用していないと述べられており、これはチームがエネルギー効率も最適化していたため重要なポイントです。
私のように数学がわからない場合は、ブログ記事の一番下までスクロールして、グラフの下の再生ボタンをクリックして、生のサウンド入力と処理後の結果の例を聞いてください。
図7の例は特に分かりやすく、マイク入力音が音楽用ツイーターとサブウーファーによってどれほど遮断されているかを示しています。生のサウンドバイトでは、Siriへのリクエストはほぼ聞き取れません。処理されたバージョンでは聞き取れるようになっていますが、それでも音声認識ワークフローの他のシステムが回避しなければならない可聴干渉がかなり多く存在します。
Apple のニュースをもっと知りたい場合は、YouTube の 9to5Mac をご覧ください。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。