Microsoft がわずか3秒の音声でその人の声をシュミレートする新しい AI を発表
7,000人を超えるイングリッシュスピーカーの音声を利用してトレーニング

米「Microsoft(マイクロソフト)」が1月15日(現地時間)、人間が話す声のわずか3秒のデータをもとに、その人が話すようにシュミレートしてテキストを読み上げてくれるAI “VALL-E”を発表。
「Microsoft」が“ニューラルコーデック言語モデル”と呼ぶVALL-Eの音声合成機能は、7,000人を超えるイングリッシュスピーカーによる60,000時間ものオーディオが含まれている「Meta」のLibri-Lightオーディオライブラリを利用してトレーニングされた。さらに、「Meta」が2022年10月に発表した“EnCodec”に基づいて構築されており、分析した人間の声を“EnCodec”で個別のトークンに分割し、トレーニングデータを使ってトークンが生成されるという。
しかしながら、VALL-Eが適切に機能するには、3秒間のサンプルデータの音声がトレーニングデータの音声と正確に一致している必要がある。そのため「Microsoft」は、特定の単語の精度と発音を改善するために、モデルの開発を継続する予定とのこと。現在このコードは、ディープフェイクのリスクがあるため、オープンソースではないが、気になる方は以下よりVALL-Eのデモをチェックしておこう。
Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice ?
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023