Pixel 4とPixel 4 XLに搭載された新機能の一つに、音声をリアルタイムで文字起こしできるレコーダーアプリがあります。これは講義やインタビューなど、様々な場面で非常に役立つツールです。オフラインでも動作しますが、音声をテキストに変換する方法はこれだけではありません。
Pixel 4またはPixel 4 XLをご購入いただいた場合、レコーダーアプリがプリインストールされています(またはこちらからダウンロードできます)。このアプリは他のAndroidスマートフォンにAPK経由でサイドロードできますが、リアルタイム音声文字変換機能は利用できません。これは、Googleが新しいフラッグシップスマートフォンの購入を促すために期待している機能の一つです(Motion Senseも同様です)。
アプリを起動すると、シンプルながらも洗練されたデザインが目を引きます。大きな赤い録音ボタンを押すと、予想通り録音が始まります。録音が開始されると「オーディオ」タブが開き、聞こえている音声の波形が表示されます。このタブと「トランスクリプト」画面を切り替えることができ、音声がリアルタイムで書き起こされます。

レコーダーは音声と音楽の違いを認識し、画面上の「オーディオ」タブにその違いを表示します。ただし、文字起こしは音声のみ、少なくとも今回試した曲では音声のみに対応しています(特に難解な歌詞を解読したい場合は、他のツールを探す必要があります)。
画面下部の一時停止ボタンをタップすると、必要に応じて録音にタイトルと保存場所を設定できます(レコーダーアプリが特定の単語の繰り返しを検知した場合、タイトルのキーワードとして候補が表示されます)。その後、録音を再開するか、スマートフォンに保存するかを選択できます。
実際に使えるのでしょうか?私たちの経験からすると、非常にうまく機能していますが、完璧とは程遠いです。アプリはまだすべての単語を拾い上げているわけではありませんが、明瞭な音声とわずかな背景ノイズがあれば、90%台後半の精度と言えるでしょう。文字起こしに時折途切れる箇所があり、まるでPixelのAI処理アルゴリズムが過負荷になり、休憩を取らざるを得なくなったかのようでした。

バックグラウンドで何か他の処理(例えばトークラジオの録音など)が行われているときは、精度が低下し始めます。ただし、Recorderアプリに関しては、公平を期すためにイギリスの音声とアクセントでテストしました。現時点では公式にサポートしているのはアメリカ英語のみですが、今後さらに多くの言語に対応していく予定です。
残念ながら、書き起こしを編集する機能はまだありません。録音したテキストを検索できるので、特定の単語の言及を見つけるのは簡単です。さらに便利なのは、口笛、拍手、音楽など、特定の音を検索すると、Recorderが一致するリストを表示することです。
Google が行うほぼすべてのことと同様に、機械学習はこれらすべてが機能するための鍵となっています。言語処理モデルを Pixel 4 と Pixel 4 XL に収まるほど小さいサイズにまで縮小することに成功し、Pixel 4 スマートフォンは同様の技術を使用して、Google レンズとデバイス上の Now Playing の曲認識を強化しています。
転写の代替手段
Pixel 4を購入すると、Recorderアプリが無料で付属します。Recorderの機能に最も近い競合製品はOtterです。Otterは元Google社員によって開発されましたが、こちらも人工知能の力を活用して、ライブまたは録音された音声をリアルタイムで認識します。
録音処理能力はOtterをGoogle Recorderアプリと差別化するものであり、Otterは会話中の複数の話者を識別することもできます。これはRecorderがまだ実現していない機能です。文字起こし検索機能も搭載されています。ライブ文字起こしにはAndroidまたはiOSアプリが必要ですが、毎月600分という豊富な無料文字起こし時間をご利用いただけます。
さらに、月額10ドルまたは年額100ドルを支払うことで、カスタム語彙のサポート、Dropboxとの連携、無音部分のスキップ機能など、追加機能が利用できるようになります。Pixel 4をお持ちでない方(あるいはお持ちの方)は、ぜひ試してみる価値があります。私たちのテストでは、Recorderアプリとほぼ同等の性能でした。

Otterのような競合サービスは数多く存在し、AIを活用して文字起こしを行っていますが、リアルタイム文字起こしまではまだ至っていません。Temiは、サイトにアップロードされた音声(またはAndroidまたはiOSアプリで録音された音声)を5分以内に処理することを約束しており、必要に応じてオンラインで文字起こしを編集できます。
限られたテストではありますが、Temiは謳い文句通りの迅速な処理能力と、その精度の高さに感銘を受けました。トライアル版の文字起こし(最長45分)は1回無料で利用でき、その後は1分あたり0.10ドルの費用がかかります(文字起こしの量によっては、Otterの定額制よりも従量課金制の柔軟性が気に入るかもしれません)。

Trint は、AI を活用した音声文字変換を探している人にとってもう 1 つの選択肢ですが、iOS アプリのみ (Android 用はまだありません) であり、リアルタイム処理コンポーネントはエンタープライズ ユーザーのみが利用できます。
ただし、OtterやTemiと比べるとやや高価です。7日間の無料トライアル期間終了後は、録音1時間あたり15ドル、または月額40ドルを支払う必要があります。後者の場合、3時間分の無料文字起こしが受けられます(1時間あたり13.33ドル)。包括的なオンラインエディターなど、豊富な機能が備わっています。
もちろん、ご希望であれば、昔ながらの人間に書き起こしを依頼することもできます。書き起こしには時間がかかりますが、精度は人工知能によるものより優れているはずです…少なくとも当面は。