Google、インスタント音声転写後の人工知能の仕組みを説明

Written by

in

Google は、サービス開発時間の大部分を、自社製品の多くで使用している人工知能を完成させることに費やしています。最もわかりやすい例は Android や Nest 製品などに搭載されている Google アシスタントですが、この機械学習を活用したサービスは他にもあり、そのレコーダーアプリもその 1 つです。

少し前に、Google が新機能を発表しました。それは、リアルタイムの音声文字起こしが追加されたという事実でした。別の言語であっても、録音している内容に関するテキストをその場で取得できます (こんにちは、通訳モード)。この文字起こしに加えて、Google では音声ファイル内を検索することもできます。マウンテンビューチームは、あまり技術的な側面には触れずに、その仕組みについて少し説明しました。

分割、分析、転写、ラベル付け

Googleによれば、予想通り、即時翻訳と即時文字起こしの背後にはアシスタントがいるという。 OK Google ですべてを教えてください。オーディオ処理能力も完全にオフラインです。クラウドへのアップロードはありませんが、すべてがデバイス自体で処理され、そこですべてのオーディオが分解され、分類されます。しかし、より重要なのは、ユーザーが簡単に識別できるコードがラベル付けされていることです。

音声は単語ごとに分割されており、すべての単語が書き起こされたテキスト内の特定のポイントを参照しています。このようにして、録音内の特定のポイントに戻って検索することが非常に簡単になります。すでに述べたように、これらはすべて転写そのものに基づいています。各単語は、後でそこから聞き始めるための正確な時間枠につながります。

しかし、これに加えて、Google は、ある色に染めた 50 ミリ秒のブロックを分析することによって、その瞬間に録音されているさまざまな種類の音声を分離することに専念しています。したがって、Google の人工知能マシンは、ユーザーがいつ話しているのか、いつ音楽が再生されているのかを認識し、何が再生されているかを認識することもできます。これらすべては、同じオーディオファイルに対して同時に動作する多数の個別のプロセスを通じて行われます。

音声は 50 ミリ秒のブロックで分析およびラベル付けされ、音声と音声のマーカーが形成されます。

Google はまた、同時に収集されるさまざまな音を認識し、主要な音にラベルを付けます。これらはすべてリアルタイムで行われたことを覚えておいてください。しかし、Google が私たちに言うこれらすべては、録音プロセス自体に関係しており、最後に何かを残します。録音が完了すると、Google はユーザーの作業内容に基づいて音声を保存するタイトルを提案します。

また、単語の頻度と文脈におけるその重要性が分析されるため、人工知能もこのプロセスに参入します。したがって、汚い言葉など、重要度レベルで「空」とみなされる単語が減算され、一連のメインタグが生成されます。

これは、Google レコーダーからの音声のリアルタイム文字起こしの背後にある人工知能、つまり機械学習手順がどのように機能するかです。録音時のサウンドファイルの解釈とラベル付け。そしてもちろん、Googleが開発したAIがここに介入するので、時間の経過とともにますます効率的になります。

詳細情報 | グーグル