MacWhisperの音声文字起こしはビデオ作業の時間を大幅に節約します

MacWhisperの音声文字起こしはビデオ作業の時間を大幅に節約します
MacWhisperの音声文字起こしはビデオ作業の時間を大幅に節約します
MacWhisper 音声文字変換

同僚が書いた記事でアプリのことを知り、それが後に非常に役立つものであると判明したとき、私はとてもうれしく思いました。Filipe の MacWhisper オーディオ文字起こしに関する記事を読んだときも、まさに同じことが起こりました。

万全を期した映画製作のアプローチと MacWhisper の組み合わせが、髪の毛の飛び散りでビデオ録画が台無しになりそうになったときに役立ちました。

私は現在、アルゼンチンタンゴに関する無予算の短編ドキュメンタリーを制作中です。このドキュメンタリーでは、12人ほどの人々が、なぜダンスをするのか、ダンスによって人間としてどう変わったのかについて語ります。

インタビューとダンス映像を組み合わせた形式で、インタビューは私のアパートのリビングルームで撮影しました。インタビューの一部はカメラ目線で、大部分はダンス映像にナレーションがつけられます。

音声については、インタビュー対象者にはラベリアマイクを使用し、ワイヤレストランスミッターで音声をカメラに直接送信しています。しかし、万全の体制を信条としているため、別のサウンドレコーダーで独立した音声トラックも録音しています。

インタビューの1つに元の音声に問題がありましたが、すぐに気づいていれば簡単に修正できたはずです。カメラの音声を削除し、Final Cut Proの自動同期機能を使って別のオーディオトラックとビデオを同期させ、複合クリップから編集すればよかったのです。

しかし、問題はむしろ微妙で、編集がほぼ完了するまで気づきませんでした。インタビュー対象者の髪がブラウスにクリップで留められたマイクに時々当たり、かすかな「カチッ」という音が発生していたのです。編集中は聞こえないほど静かで、ほとんどの人は気づかないと思いますが、後から映像を見返した時には気になるほどで​​した。

その時点では、別のオーディオファイルを同期するには遅すぎました。編集作業では、インタビューを約 10 億個のコンポーネントに切り分け、数分間のインタビューから一度に約 20 秒のクリップを使用していたためです。

私がしなければならなかったのは、20分のファイルから関連する音声を見つけることでした。これは非常に面倒な作業だったでしょう。特に、あるセクションの文章の半分を別のセクションの文章の半分と組み合わせるケースもあったからです。(もちろん、インタビュー対象者には私の編集を承認してもらい、彼らの考えを正確に伝えることができているかを確認しました。)

しかし、音声ファイルをMacWhisperに通すと、わずか90秒後にはタイムスタンプ付きの完全な書き起こしができました。編集で使われたフレーズを検索し、音声ファイルのその部分にすぐにジャンプして元の音声と置き換えることができました。フレーム単位で微調整するだけで、動画と音声が適切にリップシンクされました。この作業全体はわずか数分で完了しました。(ちなみに、音声が動画より2、3フレーム遅れているだけで、音声が動画より進んでいるのか、それともその逆なのか判断しにくいと感じる人は、私だけでしょうか?)

今後同様のプロジェクトに取り組む際は、まず最初にトランスクリプトを入手するようにします。そうすれば、使いたいクリップを最初から素早く特定できたでしょう。音声や動画を扱う方には、ぜひお勧めします。無料版で必要な機能はすべて揃っていましたが、開発者へのささやかな感謝の気持ちを込めてPro版にアップグレードしました。

MacWhisper オーディオ文字起こしは、無料版と有料版 (25 ドルの 1 回限りの購入) の両方で利用できます。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。