Aqua VoiceはMacの音声入力がどれほど優れているかを示している

Aqua VoiceはMacの音声入力がどれほど優れているかを示している
Aqua VoiceはMacの音声入力がどれほど優れているかを示している
Aqua Voiceは、Appleがもう少し努力すればMacの音声入力がどれほど優れたものになるかを示している | 音波を表すカラフルな画像

私は音声入力と音声コマンドの大ファンです。後者はスマートホームを操作する最も一般的な方法で、メッセージやその他の短いテキストの多くを音声入力で入力しています。

Appleの内蔵音声入力機能は確かに長年にわたって改善されてきましたが、サードパーティ製アプリのAqua Voiceを試してみると、Appleが本気で取り組めばどれほど改善できるかが分かります。実際、この記事はすべてAqua Voiceの音声入力を使って書きました…

在宅勤務だからか、あるいは単に人前でiPhoneに音声入力しているのを見られるのが全く恥ずかしくないからかもしれませんが、私は長年、携帯電話との主なインターフェースとして音声入力を使ってきました。iMessage、WhatsAppなどのショートメッセージは、ほぼすべて音声入力です。

初期の音声入力とSiriの理解機能は、あまり良くありませんでした。長年かけて、どちらもかなり改善されましたが、それでも現在のレベルには遠く及びません。

ChatGPTなど、音声認識をサポートする他のアプリを使った際にも、これはすでに明らかでした。しかし、Appleが現在提供している機能と現状の実現可能性との間の最も大きなギャップが明らかになったのは、サードパーティ製アプリ「Aqua Voice」を試してみた時でした。

このアプリはMacにインストールするユーティリティです。インストールすると、標準のFnキーの割り当てを変更して、Mac内蔵の音声入力機能ではなくAqua Voiceを起動できるようになります。

17回のエラーに対して1回のエラー

両者の違いを分かりやすくするために、片方のMacでAqua Voiceを、もう片方のMacで標準のディクテーションを同時に起動し、スティーブ・ジョブズの有名な卒業式スピーチの冒頭部分を読み上げました。(私のデスクトップ環境では、最高のディクテーション性能を実現するために特別に設計されたSpeechWareマイクを使用していますが、比較テストではMacの内蔵マイクを使用しました。)

カンマの使い方は私の読み方次第である可能性があり、またスティーブが時折少し変わった句読点の使い方をすることもあったため、文法的に正しい限り、句読点の細かな違いは無視します。また、私のMacは両方ともアメリカ式とイギリス式のスペルを使用するように設定されており、それが時々混乱を招くため、アメリカ式とイギリス式のスペルの違いも無視します。

以下は、17 個のエラーに下線が引かれた Mac ディクテーション バージョンです。

今日は世界最高峰の大学の卒業式にご一緒できて光栄です。実を言うと私は大学を卒業したことがなく、今日が人生で一番大学卒業に近い日です私の人生から3つの話をしたいと思います。大したことじゃないんです、ただ3つの話です。1つ目は点と点をつなげて考える話です。私はリード大学を最初の6か月で中退しましたが、その後18か月ほどふらっと通っていましたが、本当に辞めたのはなぜかと言えば、それは私が生まれる前から始まっていました。私の実の母は体重の少ない若い大学院生で、私を養子に出すことにしました。彼女は私が大学を卒業した人に養子として引き取られるべきだと強く思っていたので、生まれたら弁護士夫妻に養子として引き取られる準備はすべて整っていましたが、私が生まれたとき、両親は土壇場で女の子がほしいと決めたので待機リストに載っていた私の両親は真夜中に電話を受け、「思いがけず男の子が生まれたんだ。この子をもらいませんか?」と尋ねられました。両親は「もちろん」と答えました。

次はアクアボイス版です。1つの間違いに下線が引かれています(「飛び出してきた」が「生まれた」に変わっています)。

本日は、世界最高峰の大学の一つであるこの大学の卒業式に皆様とご一緒できることを光栄に思います。

実を言うと、私は大学を卒業したことがなく、これが私にとって大学卒業に最も近い経験です。

今日は私の人生から3つの話をしたいと思います。それだけです。大したことではありません。ただ3つの話です。

最初の話は、点と点を繋ぐ話です。私はリード大学に入学して6ヶ月で中退しましたが、その後18ヶ月ほど留年し、最終的に退学しました。では、なぜ中退したのでしょうか?

それは私が生まれる前から始まりました。実母は若い未婚の大学院生で、私を養子に出すことに決めました。彼女は私を大学卒業生に養子縁組させるべきだと強く信じていたので、生まれた瞬間から弁護士夫妻に養子縁組される準備が整っていました。ところが、私が生まれてから間もなく、彼らは土壇場で女の子が欲しいと言い出したのです。そこで、待機リストに載っていた両親は真夜中に電話を受け、「思いがけず男の子が生まれました。養子縁組を希望しますか?」と尋ねられました。両親は「もちろんです」と答えました。

また、デフォルトのディクテーションでは単一のテキスト ブロックが生成されただけでしたが、Aqua Voice ではプロンプトなしで段落区切りをほぼ完璧に挿入できたこともわかります。

これは昼と夜の違いだ

ここ数週間、Aqua Voiceを頻繁に使っていますが、その素晴らしさには本当に驚かされます。これまで試したどの音声アシスタントよりも優れており、MacWhisperも素晴らしいと評判ですが、それでも最高です。

私のコメントを客観的に見ると、ディクテーションへの情熱は、ほぼあらゆるアプリを試してきたほどです。長年Dragon Dictateを使っていましたが、非常に優れたアプリでしたが、かなり個人トレーニングが必要でした。基本的に、すべての訂正を音声で行わなければならず、それは恐ろしく面倒な作業でした。

対照的に、Aquaはとにかく使いやすい。2週間使ってみて、2万語近くを口述筆記した。その中には、9to5Macの記事の多くもAquaで書いた。(もし他のライターの方で、タイピングから口述筆記への移行方法に興味がある方がいたら、コメント欄で教えてください。Aquaには確かなコツがあることに気づきました。)

使い始めてからというもの、ほとんどの時間をタイピングではなく音声入力で済ませているので、もう元には戻れません。Appleの内蔵音声入力機能もこれくらい優れていたらいいのに、と心から思います。

音声ベースの編集も非常に効果的です

iOS 26の新しい暫定Siri、発声のつまずきへの対応力が大幅に向上しました。例えば、何かを言い始めてから考えを変えてまた話し始めたとしても、Siriが理解してくれる可能性は少なくともそこそこあります。Aqua Voiceはさらにこの点で優れています。

しかし、非常に自然な音声ベースの編集も可能です。例えば、この文の冒頭部分を次のように変更するように指示しました。

「例えば、この文の冒頭部分を変えるように指示しました。正確には、for example を for instance に変えるんです。」

これの素晴らしいところは、編集モードを選択したり、特定の形式の表現を使用したりする必要がないことです。ほとんどの場合、この種のことで私が何を意味しているかを理解してしまいます。

App Intentsで何ができるようになるかのプレビューとして、アプリにコンテキスト認識を許可することで、ユーザーが作業中の内容をアプリが認識できるようにオプションで設定できます。このデモ動画では、コード編集にこの機能が使用されている例をご覧いただけます。

指示はAIの素晴らしい活用法である

このアプリのもう一つの素晴らしい点は、音声入力したテキスト全体に適用される、固定の指示を与えることができることです。私はこれを、デフォルトの設定で見つかった問題を解決するために使用しました。アプリの設定で私が与えた指示をそのまま貼り付けておきます。

文章は段落に分けてください。1から9までの数字と、それ以上の数字は単語で表してください。ただし、1つの文の中で2つを混在させないでください。金額は、単語ではなく数字で表してください。パーセンテージも単語ではなく数字で表してください。2024のような年も数字で表してください。ダッシュは、前後にスペースを入れたenダッシュを使用してください。文頭に「and」や「but」を入れる場合は、事前に十分な間隔を空けてください。don't by defaultなどの短縮形を使用し、明確に発音した場合にのみ展開形を使用してください。

(はい、私は生成 AI システムに対して礼儀正しく接しています。そして、その背後には科学があります!)

アクセシビリティにとってさらに重要な問題

このレベルの精度がさらに重要になる人々がいます。それは、障害のためにタイピングができない人々です。9to5Macのアクセシビリティアドバイザーを務めるコリン・ヒューズ氏もその一人で、彼は次のように述べています。

今年初めにAqua Voiceに出会い、無料トライアルで使い始めました。とても気に入ったので、すぐに有料会員になりました。

AppleがMacのディクテーションにこのようなAI技術を採用してくれることを期待しています。音声コントロールのディクテーションは、それに比べると原始的な印象ですが、Aquaはディクテーションの分野に真に新鮮な息吹を吹き込んでいます。ディクテーションアプリの王者、Dragonよりも生産性が高いツールがあれば、真剣に検討したくなるでしょう。

Aqua は自然言語編集に加え、多くの修正を即座に実行します。テキストをテキストボックスに貼り付けた時に初めて、「ああ、修正された。読みやすくなった」と気づくのです。まるで魔法のように感じられることもあります。

私は長年、Appleに対し、音声コントロールアプリケーションにAIを導入するよう求めてきました。Aqua Voiceは、AIがアクセシビリティにどれほど大きな変化をもたらすかを実証しています。音声コントロールのディクテーションと比較して、精度と生産性の両面で飛躍的な向上を実現しています。しかし、キーボードを全く使えない人にとっては、Aquaにはナビゲーションコントロールがないため、アクセシビリティに依然として課題が残ります。

とはいえ、生産性と精度の向上は計り知れないほど大きく、これを使わないなんて考えられません。Aquaを使うことで、体力を大幅に節約でき、認知負荷も軽減できます。一方、音声コントロールでのディクテーションは、これまで常にイライラさせられるだけでなく、体力的にも負担が大きかったのですが、Aquaなら全く問題ありません。

このアプリはAppleの音声コントロールの代替にもならないが、ヒューズ氏は部分的な回避策を見つけた。

Aqua Voiceは純粋なディクテーションアプリで、Voice Controlのようなナビゲーション機能は備えていませんが、これらを組み合わせる方法をいくつか見つけました。最初の方法は音声入力ではありません。Commandキーを押すとAquaがディクテーションモードになり、ディクテーションしたテキストをAquaから様々なテキストボックスに転送するようにプログラムしました。鉛筆を使えば、このキーを押せる範囲はギリギリです。簡単ではありませんが、私には可能です。しかし、重度の障害を持つ方の中には、キーボードが全く届かない方もいるかもしれません。

2つ目の方法は完全にハンズフリーです。音声コントロールはコマンドモードのみで有効にし、Aquaに代替アクティベーションキー(Tabキー)をプログラムしました。このキーでAquaを起動し、キーボードに触れることなく、音声入力したテキストを任意のテキストボックスに転送します。Aquaには、アプリケーションの起動とテキスト転送に使用できるキーコマンドがいくつか組み込まれています。

この方法の唯一の欠点は、Aquaが「Tabキーを押してください」という音声フレーズもテキストとして書き起こしてしまうことです。つまり、後で削除する必要があるのです。私はAquaの開発者に、特定の音声制御コマンドフレーズを無視するオプションを追加して、音声入力時にそのフレーズがディクテーションテキストに挿入されないようにすることを提案しました。Aquaはこのアイデアに好意的に受け止め、今後のアップデートで実装することを約束してくれました。

アクアボイスの2つの問題点

Aqua Voice は非常に印象的ですが、ほとんどの人にとって欠点となる点が 2 つあると思われます。

まず、プライバシーについてです。Aqua Voiceは、デバイス上で文字起こしを行うのではなく、サーバー上で文字起こしを行っています。同社によると、デバイス間のオプション同期サービスを使用しない限り、文字起こしされたテキストは一切保存されないとのことです。しかし、これは開発者の約束に基づくものであり、多くの人はセンシティブなコンテンツを扱うリスクを負う覚悟ができていません。

コンテキスト認識機能では、アプリがMac画面上の内容を認識できるため、さらにその重要性が増します。そのプライバシー管理を任せられる企業の完全なリストは以下の通りです。

  • りんご

2つ目はコストです。無料プランもありますが、1,000語しか使えないので、実質的にはごく短い無料トライアルに過ぎません。実際に実務で使う場合は、月額8ドルまたは年額96ドルの有料プランに加入する必要があります。有料プランでは無制限に使えます。

今の私の使用頻度を考えると、この金額は十分に正当化できると思います。しかし、ディクテーションをタイピングの代替ではなく、時折の補助として使うほとんどの人にとっては、妥当な金額でしょう。

最後に、アプリで接続エラーが何度か発生し、アプリを終了して再起動する必要がありました。ある時は、明らかにサーバー障害が発生しており、オンラインに戻るまで20分ほど待たなければなりませんでした。しかし、これはリソースの問題であり、これもAppleなら簡単に解決できるはずです。

アップルはこれをやるべきだ

比較的小規模な開発者でもこれができるのであれば、Appleにもできるはずです。クパチーノに本社を置くAppleのリソースを考えれば、デバイス上でこのレベルの精度を実現できるかもしれません。たとえ実現できなくても、無名の開発者よりもAppleのプライバシーに関する約束を信じる人ははるかに多いでしょう。

さらに重要なのは、Appleがこのレベルの機能をMacに標準装備すれば、音声コントロールも時代遅れで使いにくいツールから、信頼性が高く使いやすいツールへと完全に生まれ変わる可能性があるということです。キーボードやマウスを使えない人にとっては、文字通り人生を変えるような変化となるでしょう。

だから、Apple は、Aqua Voice を買収するか、同等のパフォーマンスを達成するために十分な社内リソースを投入してください。

注目のアクセサリー

  • Amazonの公式Appleストア
  • Anker 511 Nano Pro 超小型iPhone充電器
  • SpigenのiPhone 16e用MagFitケースがMagSafe対応に
  • iPhone 16モデル用25W出力のApple MagSafe充電器
  • 上記に対応するApple 30W充電器
  • Anker 240W 編組 USB-C - USB-C ケーブル

Aqua Voice for Macはこちらからダウンロードできます。無料プランでは1,000語をお試しいただけます。料金は月額8ドルまたは年額96ドルです。写真はUnsplashのJumping Jaxより

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。