

音声や動画をテキストに書き起こす必要がある場合、現在のほとんどのアプリはOpenAIのWhisperモデルを採用しています。MacWhisperなどのアプリを使って会議や講義を書き起こしたり、YouTube動画の字幕を生成したりしている場合は、おそらくこのモデルを使用しているでしょう。
しかし、iOS 26やAppleの他の開発者向けベータ版には同社独自の文字起こしフレームワークが含まれており、テストでは、2倍以上の速度で実行しながらWhisperの精度に匹敵することが示唆されている…
Appleデバイスに内蔵されているディクテーション機能を使ったことがある方はご存知でしょうが、これはApple独自の音声認識フレームワークによって処理されています。新しいベータ版には、開発者が独自のアプリで使用できるSpeechAnalyzerとSpeechTranscriberのベータ版が含まれています。
Speechフレームワークを使用すると、録音またはライブオーディオ内の音声を認識できます。キーボードのディクテーションサポートは、音声認識を使用してオーディオコンテンツをテキストに変換します。このフレームワークは同様の動作を提供しますが、キーボードがなくても使用できます。
例えば、音声認識を使用して、音声コマンドを認識したり、アプリの他の部分でテキストディクテーションを処理したりすることができます。フレームワークは、SpeechAnalyzerクラスと、アナライザーに追加して特定の種類の分析と文字起こしを行うことができる複数のモジュールを提供しています。多くのユースケースでは、音声からテキストへの文字起こし機能を提供するSpeechTranscriberモジュールのみが必要です。
MacStories のJohn Voorhees 氏は、この新しい機能をテストするためのコマンドライン ツールを作成するよう息子に依頼し、その結果に非常に感銘を受けました。
フィンに、SpeechAnalyzerとSpeechTranscriberを使って動画や音声ファイルを文字起こしするコマンドラインツールを作るにはどれくらいかかるか尋ねたところ、彼は10分くらいでできるだろうと答え、その通りだった。結局、WWDC後にmacOS Tahoeをインストールするのにかかった時間は、フィンがYap(音声ファイルと動画ファイルを入力としてSRT形式とTXT形式の文字起こしを出力するシンプルなコマンドラインユーティリティ)を作るのにかかった時間よりも長かった。
彼は34分間の動画を使って、最も人気のある2つの文字起こしアプリであるMacWhisperとVidCapの両方と比較テストを行いました。Appleのモジュールはこれらのアプリと同等の精度を示しましたが、最も効率的な既存アプリであるLarge V3 Turboモデルを搭載したMacWhisperの2倍以上の速度でした。
アプリ | 転写時間 |
---|---|
Yap(Appleのフレームワークを使用) | 0:45 |
マックウィスパー(大型V3ターボ) | 1:41 |
ビッドキャップ | 1:55 |
マックウィスパー(ラージV2) | 3:55 |
これは一回限りのタスクでは比較的些細な改善のように思えるかもしれないが、一括文字起こしを実行したり、講義ノートを持つ学生のように非常に定期的にファイルを文字起こしする必要がある場合には、違いはすぐに蓄積されるだろうと彼は主張する。
macOS Tahoe 開発者ベータ版を実行している場合は、GitHub から Yap をインストールして自分でテストすることができます。
注目のアクセサリー
- Anker 511 Nano Pro 超小型iPhone充電器
- SpigenのiPhone 16e用MagFitケースがMagSafe対応に
- iPhone 16モデル用25W出力のApple MagSafe充電器
- 上記に対応するApple 30W充電器
- Anker 240W 編組 USB-C - USB-C ケーブル
画像: 9to5MacによるYouTube動画の字幕ファイルのスクリーンショット
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。