マイクロソフトが3秒の音声でその人の声を真似る新しいAIを発表

マイクロソフトがわずか3秒の音声でその人の声をシュミレートする新しいAIを発表 Microsoft VALL-E AI Technology Model Simulation Demo Preview Code Meta Voice Library English Language Recreation Audio Input

Pixabay

1.2K

米「Microsoft（マイクロソフト）」が1月15日（現地時間）、人間が話す声のわずか3秒のデータをもとに、その人が話すようにシュミレートしてテキストを読み上げてくれるAI “VALL-E”を発表。

「Microsoft」が“ニューラルコーデック言語モデル”と呼ぶVALL-Eの音声合成機能は、7,000人を超えるイングリッシュスピーカーによる60,000時間ものオーディオが含まれている「Meta」のLibri-Lightオーディオライブラリを利用してトレーニングされた。さらに、「Meta」が2022年10月に発表した“EnCodec”に基づいて構築されており、分析した人間の声を“EnCodec”で個別のトークンに分割し、トレーニングデータを使ってトークンが生成されるという。

しかしながら、VALL-Eが適切に機能するには、3秒間のサンプルデータの音声がトレーニングデータの音声と正確に一致している必要がある。そのため「Microsoft」は、特定の単語の精度と発音を改善するために、モデルの開発を継続する予定とのこと。現在このコードは、ディープフェイクのリスクがあるため、オープンソースではないが、気になる方は以下よりVALL-Eのデモをチェックしておこう。

Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023