Appleの新しい文字起こしAIの精度は?c

Appleの新しい文字起こしAIの精度は?c
Appleの新しい文字起こしAIの精度は?c

先日指摘したように、Whisperは最も有力な候補であり、依然として非常に優れた文字起こしモデルですが、OpenAIはWhisperから距離を置いています。とはいえ、Appleの新しい文字起こしAPIがWhisperよりも高速であることは素晴らしいニュースです。しかし、その精度はどれほどなのでしょうか?実際にテストしてみました。

完全な開示:この記事のアイデアは、開発者のPrakash Pax氏によるもので、彼は独自のテストを行いました。彼は以下のように説明しています。

英語の音声サンプルを15個録音しました。長さは15秒から2分までランダムに選択し、3つの音声テキスト変換ツールでテストしました。

  • Appleの新しい文字起こしAPI
  • openAI Whisper Large v3 ターボ
  • Eleven Labのスクライブv1

彼の結果をここには記載しません。そうしないと、彼の興味深い投稿にアクセスして自分で確認する理由がなくなります。

しかし、彼は自身の手法について、次のような注意書きを付け加えた。「私は英語を母国語としない。そのため、他の人にとっては結果が多少異なる可能性がある」。そして、彼のテストを見て、AppleとOpenAIが、現時点で圧倒的に最速の文字起こしモデルであるNVIDIAのParakeetとどのように対決するのか、興味が湧いた。

どうやってそれをやったか

私も英語のネイティブスピーカーではないので、最近の9to5Mac Daily のエピソード(長さ 7 分 31 秒)を使用することにしました。

OpenAIのWhisper Large V3 TurboとNVIDIAのParakeet v2を実行するためにMacWhisperを使用しました。Appleの音声APIについては、Finn Vorhees氏の優れたYapプロジェクトを使用しました。これらは、16GBのRAMを搭載したM2 Pro MacBook Proで実行しました。

実際の文字エラー率 (CER) と単語エラー率 (WER) の分析では、文字と単語のエラー率を計算する方法が多数あるため (例: スペースを正規化しますか? 大文字と小文字は区別しますか? 句読点は無視しますか?)、Metric: cer と Metric: wer という 2 つの Hugging Face Spaces を使用しました。

どちらもそれぞれのページでその手法を概説しているので、ここでは詳しくは触れません。重要なのは、すべてのモデルが同じアプローチを用いて評価されていることです。これにより、たとえ手法が多少異なっていても、正確な数値は異なっていても、ベースラインの一貫性と全体的な傾向の信頼性が確保されます。

彼らのやり方

モデル転写時間文字エラー率単語誤り率
インコ v22秒5.8%12.3%
ウィスパー ラージ V3 ターボ40秒0.2%1.5%
りんご9秒1.9%10.3%

さらに一歩進めて、ChatGPT、Claude、GeminiにもCERとWERを計算してもらうことにしました。結果と、その方法論に関する自己申告の説明を以下に示します。

ChatGPT (o4-mini-high)

参照(「ベースライン」)と各仮説(Apple、Parakeet、Whisper)は、まず次のように正規化されました。

  • すべてのテキストを小文字に変換する
  • すべての句読点(ピリオド、カンマ、引用符など)を削除します
  • 連続した空白を1つのスペースにまとめる
  • これにより、書式や大文字と小文字を区別せずに、単語 (または文字) 自体のみを比較できるようになります。
モデル転写時間文字エラー率単語誤り率
インコ v22秒6.0%12.3%
ウィスパー ラージ V3 ターボ40秒0.4%1.4%
りんご9秒2.1%10.2%

クロード(ソネット4)

テキスト正規化プロトコル:エラー率を計算する前に、すべてのテキストは公平な比較を保証するために標準化された正規化を受けます。

  1. 大文字と小文字の正規化: 小文字に変換
  2. 句読点の標準化
    • 中括弧 (' ') をアポストロフィ (') に正規化する
    • 中括弧 (” “) を直線の括弧 (“) に正規化する
    • エムダッシュ(–)をハイフン(-)に正規化する
  3. 空白の正規化: 複数の空白文字を単一のスペースに置き換えます
  4. トリミング: 先頭と末尾の空白を削除します

注: Claude 4 Opus を使用しようとしましたが、Anthropic 側のサーバー容量制限によりエラー メッセージが表示されました。

モデル転写時間文字エラー率単語誤り率
インコ v22秒8.4%11.0%
ウィスパー ラージ V3 ターボ40秒0.1%1.0%
りんご9秒3.5%8.2%

ジェミニ(2.5 Pro)

 公平な比較を保証するため、すべてのテキスト(ベースラインファイルと仮説ファイルの両方)は正規化されました。正規化プロセスは以下のとおりです。

  • すべてのテキストを小文字に変換します。
  • すべての句読点を削除します (例: ,、.、?、'、“)。
  • ハイフンをスペースに置き換えます(例:「end-to-end」は「end to end」になります)。
モデル転写時間文字エラー率単語誤り率
インコ v22秒7.6%12.3%
ウィスパー ラージ V3 ターボ40秒0.3%0.4%
りんご9秒3.4%5.3%

それで、どちらが良いのでしょうか?

誰もが好む答えは「場合による」です。

Whisper は明らかに 3 つの中で最も正確ですが、時間に敏感なプロジェクトに取り組んでいて、かなり長い内容を書き写す場合は、処理時間が問題になる可能性があります。

一方、精度よりもスピードを重視するなら、Parakeet は間違いなく最適な選択肢です。例えば、2時間の講義の録音があり、特定の部分を素早く見つけたいだけなら、精度を多少犠牲にしてもスピードを優先する方が賢明かもしれません。

Appleのモデルは中途半端な位置づけですが、悪い意味ではありません。速度面ではParakeetに近いものの、精度ではすでに上回っています。最初の試みとしてはなかなか良い結果です。

確かに、Whisperと比べるとまだ遠く及ばない。特に、手動調整が最小限、あるいは全く不要な、リスクの高い文字起こし作業においてはなおさらだ。しかし、サードパーティのAPIや外部インストールに依存せず、ネイティブで動作するという事実は、開発者の導入が進み、Appleが改良を続けている中で、特に大きな意味を持つ。

Amazonのアクセサリーセール

  • Anker 25,000mAh パワーバンク、100W、USB-C: 119.99ドル
  • Anker 折りたたみ式 3-in-1 ワイヤレス充電器、15W、Qi2:20% オフ、$71.99
  • AirPods Pro 2:20%オフの199.00ドル
  • エアタグ 4個パック:24%オフ、$74.99

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。