Google、新しい人工知能モデルのおかげで Duo での通話品質を向上

Written by

in

Google は、アプリケーションのパフォーマンスを向上させるために、さまざまな機械学習モデルとどのように連携するかをよく説明します。彼は最近、 Soli レーダーがどのように機能するかを説明しましたが、今回は Google Duo のオーディオ品質の新たな改善がどのように機能するかを説明しています。

これは、音声波の失われたパケットを補完できるDeepMindテクノロジーに基づく生成システムである WaveNetEQ と呼ばれる新しいモデルで実現されました。 Google がどのようにしてそのような偉業を達成したのか見てみましょう。

これは、Google が生成モデルを通じて Duo の音質を改善する方法です

Googleによれば、データパケットがインターネット経由で送信される場合、受信時にエラーが発生しやすいという。

Google によると、通話がインターネット経由で送信される場合、パケットには特定の品質問題が発生します。これらの問題は、ネットワークの過度の変動や遅延が原因で発生し、これらによって合計コンテンツの最大 8% が失われる可能性があります。

あなたも、ビデオ通話中の定型音声やロボット音声に悩まされたことがあるはずです。主な理由は、荷物の送受信の過程で品質が失われることであり、いくつか失われると品質が低下します。

通信がリアルタイムで正しく機能することを保証するために、 Google は豊富な音声データベースでトレーニングされた PLC (プログラマブルロジックコントローラー) システムである WaveNetEQ を作成しました。このモデルは何をするのでしょうか?かなり専門的で複雑な説明なので、簡単にまとめてみましょう。

Google のシステムは音声パケットを分析して、その意味を予測しようとします。この情報をニューラルネットワークで処理すると、欠落した波のスペクトルが完成します。

WaveNetEQ は、音声の一部が失われた場合でも音声の波形を合成できる生成モデルです。確かに、ビデオ通話の品質が悪く、ロボットのような音や金属的な音が聞こえたことがあります。これは、パケット欠落が多く（遅延が大きい）、音質が再現できない場合に発生します。

Google はニューラルネットワークを使用してリアルタイムで信号に継続性を提供し、品質の損失を最小限に抑えることができます。基本的に、音声データベースのおかげで、モデルはユーザーが言おうとしていることを「推測」し、欠落しているフラグメントで Wave を完成させます。

これらの改善は、すでにGoogle Pixel 4の Google Duo に適用され始めていますが、同社はこのモデルが残りの端末にもすぐに適用されることを保証しているため、これはデバイスだけでなくアプリケーションの改善となります。

詳細情報 | グーグル