今週のテーマ:技術開発
ChatGPTのような生成AIが、学生や主婦など、より一般の層にも浸透してきていますね。今回は、Microsoftが発表した革新的な音声合成AIをご紹介します。このAIモデルは、たった3秒の音声データサンプルを読み込ませるだけで、指定したテキストプロンプトをサンプルと同じ声色で読み上げることができるというもので、注目を集めています。
Microsoftが発表したAIモデル「VALL-E」とは
2023年1月上旬、Microsoftの研究者チームが、VALL-Eと呼ばれる音声合成AIモデルを発表しました。このモデルは、たった3秒間の音声サンプルを与えるだけで、サンプルの人間の声を精密に再現することが可能になるといいます。一度音声サンプルの声を学習したVALL-Eは、その人物が何かを話しているように音声を合成し、話者の感情的なトーンや、アクセントの類似性、音響環境(たとえば、携帯電話の通話に圧縮された声)さえも維持できるといいます。
この技術は、高品質のテキスト読み上げアプリケーションへの応用や、人が録音した声を後から編集して発言を変更するといった音声編集に使用できるとされています。またChatGPTなど、他のジェネレーティブAIモデルと組み合わせて、全く新しいオーディオコンテンツを作成することも考えられます。
開発の背景にあるのは、Meta AIが開発した2つの技術
Microsoftは、論文でVALL-Eのことを「ニューラルコーデック言語モデル」と呼んでいます。VALL-Eはテキストと音声プロンプトから、個別の音声コーデックコードを生成する仕組みを採用しており、一般的な音声合成モデ…続きを読む |