
米国特許商標庁(USPTO)は火曜日、高度な音声合成機能に関する新たなAppleの特許を認可した。この機能は将来のモバイル機器やコンピュータで完全に実現されるか、あるいはソフトウェアアップデートによって同社の既存の製品ラインアップに導入されるかは不明だ。Appleがこの特許を最初に申請したのは、iPhone初公開のほぼ1年前の2006年2月だった。これは、今月発表されたSiriのかなり前から、同社が自社製品の機械生成音声の品質向上に努めていたことを示している。Siriの音声合成および音声テキスト変換インターフェースは、2009年と2011年のAppleの特許出願に概説されている。Mac OS Xには何年も前から音声合成機能が搭載されていたが、機械生成音声と発音の品質が著しく向上したのは、この夏Lionが解放されたときだった。Lionの高品質な音声合成機能から、AppleがNuanceの技術のライセンスを受けたのではないかとの疑念がウォッチャーの間で浮上した。Patently Appleのジャック・パーチャー氏に電子メールで話したところ、同氏は次のように語った。「時間が経てば、なぜAppleがNuanceに頼らざるを得ないと感じたのかが分かるだろう(あるいは分からないだろう)。しかし、これは、AppleだけではiPhoneに実用的なソリューションを提供する能力がないということを示しているに違いない」。
今月発表されたiPhone 4SとそのパーソナルアシスタントSiri(音声合成機能を搭載)は、Appleの全製品ラインアップにNuanceの技術ライセンスが大規模に展開される可能性を示唆しています。この新しい特許は「音声合成におけるマルチユニットアプローチ」と題され、受信した入力文字列の単位を、フレーズや単語間の発音関係などのメタデータを含む音声セグメントのライブラリと照合するプロセスを説明しています。従来の音声合成アプリケーションの音声は、人間の音声と比較すると人工的または機械的な響きになることが多いため、Appleは、この発明はより人間らしい音声を実現すると主張しています。さらに、クライアントサーバーアーキテクチャもサポートしており、iCloudに最適です。
Siriの共同創設者ノーマン・ウィナルスキー氏が9to5Macに独占的に語ったところによると、 Siriのモジュール式アーキテクチャにより、AppleはNuanceの音声合成コンポーネントを他の音声合成技術(最終的には自社技術も含む)に置き換えることができるという。Appleが自社所有ではない技術の使用に消極的であることを考えると、少なくとも将来のiOSおよびMac OS Xリリースに向けてNuanceの代替技術を研究していると推測するのは妥当だろう。それはあり得ないことではないだろう。Appleは2010年4月にSkyhookの位置情報収集サービスを廃止し、独自のクラウドソーシングソリューションに置き換えた。これが後にiPhoneの位置情報追跡スキャンダルの引き金となった。Appleの特許に、他に注目すべき点はあるだろうか?
まず第一に、これは大部分が高度に技術的な内容です。しかし、Appleは、音声の調子やリズムなどの韻律特性を考慮した音声品質を多くの箇所で称賛しています。さらに、Appleのソリューションは人間の声でトレーニングできるため、より説得力のある音声が得られます。これはまた、理論上、AI駆動のSiriが使用すればするほど精度が上がるのと同様に、システムがユーザーの声を学習し、適応できることも意味します。同社によると、この音声合成機能は「汎用および専用マイクロプロセッサの両方、およびあらゆる種類のデジタルコンピュータの1つまたは複数のプロセッサ」で実行でき、高度な洗練性と最適化が図られていることを示しています。発行された特許の著者は、AppleのエンジニアであるMatthias Neeracher、Devang K. Naik、Kevin B. Aitken、Jerome R. Bellegarda、およびKim EA Silvermanです。特許の詳細な説明を取得するには、USPTO検索エンジンにID番号8036894を入力してください。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。