通話の書き起こしと要約機能はまだ開発中だが、大きな可能性を秘めている。

通話の書き起こしと要約機能はまだ開発中だが、大きな可能性を秘めている。
通話の書き起こしと要約機能はまだ開発中だが、大きな可能性を秘めている。
Apple Intelligence 通話の文字起こしと要約 | 通話中の UI を表示

まず新しい Siri 機能を試し、新しいライティング ツールを調べた後、Apple Intelligence の次に試したのは、新しい通話の文字起こしと要約機能でした。

これは私がぜひ試してみたかった機能でした。特に、電話で誰かをインタビューする際の体験を完全に変える可能性があるからです...

通話の録音

上のメイン画像でUIフローをご確認いただけます。通話の発信または着信時に、画面の左上に新しいボタンが表示されます。これをタップすると、通話が録音中であることを相手全員に通知するアラートが表示されます。

3 秒間のカウントダウンの後、音声アナウンスが流れます。

この通話は録音されます

これは米国の一部の州および世界中の多くの国で法的に義務付けられています。

録音が始まると、通話内容をメモするよう促すバナーが表示されます。その後、バナーは消え、波形と録音終了ボタンだけが表示されます。

録音プロセスは本当にとても簡単でした。

ここでの意図は、音声通話録音がシステム全体の機能になること、つまりサードパーティのアプリでも機能することだと思われますが、まだそうなっていません。

転写

通話が完了すると、メモを取るオプションを受け入れるかどうかに関係なく、音声録音が埋め込まれた新しいメモが開きます。

その後、これを書き起こすことができます。5 分間の通話の場合は、わずか数秒しかかかりません。

録音を再生すると、Apple Musicのように時間同期したハイライト表示がされます。あるいは、逆に、録音の任意の部分をタップすると、その部分の録音が再生されます。

上記のサンプルからすでに推測できるかもしれませんが、現在の転写パフォーマンスは…うーん…良くありません。

グレッグの「うん」は「はっきり言って」に変わり、私の質問「ベータ版に対する通常のポリシーは何ですか?」はどういうわけか創造的に再解釈されて「パレスチナでの通常のビートは何ですか?」になりました。

その後も状況は改善せず、奇妙な選手交代が頻繁に行われ、ラインブレイクもかなりランダムでした。例えば:

グレッグ・グラッドウェル
たぶん 

グレッグ・グラッド
ウェル 

グレッグ・グラッドウェル
しばらくの間最もクールなものの1つであり、間違いなく非常に非常に役立つでしょう 

グレッグ・グラッドウェルは
今日の生活を告発した[「日常生活の中で」の歪曲] 

グレッグ・グラッドウェル

入力する代わりに、要約して電話やメールを送れるようになるでしょう 

この時点では文の半分が失われました。

上記では、カンマの前のスペースなど、ランダムな書式設定も確認できます。

これはベータ機能の最初のベータ版であり、そのように見えると言わざるを得ません。

比較のために、同じ録音の MacWhisper による書き起こしを以下に示します。

とても良い。

うん。

大丈夫。

素晴らしくて、明確で、率直です。

うん。

ベータ版に関する通常のポリシーは何ですか?

いつもより少し早めにやるんですか?

ちょっと興味があって、そうですね。

私はまだiPhoneを買うつもりはありません。

適切に動作させるには、物事が少し重要になるからです。

ベータ 2 は、ベータ 1 と比較すると整理されていると言えるでしょう。

そして、そのような視覚的な不具合や断片はますます少なくなっています。

Siri アプリ選択ウィジェットのアイコンの周りには非常に小さく乱雑なボードがあるなど、非常に古くてランダムなものがありました。

整理されましたね。

キーボードの不具合。ビジュアル キーボードを画面に表示しているときにも、1 つまたは 2 つの不具合が依然として存在します。

そして、あちこちにちょっとした不満がいくつかあります。

それは機能上の問題というよりも乱雑さの問題でした。

右。

そして、あなたも Apple Intelligence を試しましたよね?

はい、M1なのでiPadでApple Intelligenceを試してみました。

うん。

そして、すべては順調に見えました。

もちろん、誰が話しているかは分かりませんが、音質は格段に向上しています。これは、プライバシー保護のため、すべてデバイス上で処理されるため、Macのプロセッサの明らかに優れた性能によるところが大きいかもしれません。

要約

書き起こしが完了したら、タップして要約を表示することもできます。Apple Intelligenceベータ版に関する会話で作成された要約は以下の通りです。

「パレスチナ・ビート」の部分は別として、ひどい内容ではないのですが、非常に一般的な内容です。このような一般的な要約が多くの人にどれほど役立つのかは分かりませんが、弁護士など、数百、数千もの書き起こしを持っている方であれば、これらをインデックス化すれば、適切なものを見つけやすくなるかもしれません。

私は将来にとても期待しています

これは通話を録音するのに非常に便利な方法なので、まれに必要になったときに使用しますが、現在の文字起こし機能はまだ実際に役立つレベルではありません。

しかし、うまく機能すれば、この可能性にとても期待しています。例えば、少し前にMacWhisperのトランスクリプションが、動画の音声トラックが使えない状態だった時にどう役に立ったかについて書きましたが、最初はそのことに気づかず、バックアップ録音との同期が非常に困難になってしまいました。

音声ファイルをMacWhisperで処理すると、わずか90秒でタイムスタンプ付きの完全な書き起こしができました。編集で使用されたフレーズを検索し、音声ファイルのその部分に即座にジャンプして元の音声と置き換えることができました。フレーム単位で微調整するだけで、動画と音声のリップシンクが適切に調整されました。このプロセス全体はわずか数分で完了しました。 

インタビュー中に iPhone を追加の音声録音デバイスとして使用し、引用文を見つけて再度聞くことが非常に簡単になると思います。

特に電話インタビューの場合、時間同期された文字起こしが即座に行える利便性は素晴らしいものになります。

つまり…まだ使える状態ではありませんが、他の文字起こしツールのパフォーマンスを考えると、使えるようになるまでそれほど時間はかからないのではないかと思います。

havebin.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。