レビュー

たった数秒の音声データから音声合成が可能な「VoiceCraft」


テキサス大学オースティン校を中心とした研究チームが、訓練データにないタスクをこなすゼロショットでの音声編集や音声の合成ができるAIの「VoiceCraft」を発表しました。

VoiceCraft
https://jasonppy.github.io/VoiceCraft_web/

今回発表された「VoiceCraft」は、テキストと画像のマルチモーダルモデルから着想を得て、ゼロショットでのテキストから音声の出力(Text-to-Speech)や音声合成、音声の編集を可能にしたニューラルコーデック言語モデル(Neural Codec Language Models)です。

VoiceCraftは、非常に自然に音声を編集することができます。まず、以下はオリジナルの音声で、「but the renaissance broke their monopoly on knowledge, one of the most important bastions of the church.(しかしルネサンスは、教会の最も重要なとりでのひとつである知識の独占を打ち破ったのです)」と話しています。


続いて、以下がVoiceCraftで編集された音声です。音声の内容は「but the renaissance broke their monopoly on knowledge, with it's free movement of research and endless scientific inquiry, one of the most important bastions of the church.」で、太字の部分がVoiceCraftで追加された部分です。


VoiceCraftはGitHubやHugging Faceで公開されているので、実際に自分で使うことが可能です。

GitHub - jasonppy/VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
https://github.com/jasonppy/VoiceCraft

VoiceCraft - a Hugging Face Space by pyp1
https://huggingface.co/spaces/pyp1/VoiceCraft_gradio

そこで、Hugging Faceで公開されている「VoiceCraft」を触ってみることにしました。上記のURLをクリックしてアクセスしてみると、以下の画面になります。


既にデモ用の音声が入力されていますが、今回はGitHubリポジトリで公開されているもうひとつのデモ音声を素材にすることにしました。手順は、以下の赤枠のボタンをクリックして、音声ファイルをアップロードすればOK。


「Transcribe」をクリックすると、音声の内容が書き起こされました。


続いて、読み上げさせたい文章を「Text」の欄に入力して「Run」をクリックします。プロンプトには、有名なキング牧師のスピーチの一節を使用しました。


できあがった音声は以下の赤枠のボタンで再生したりダウンロードしたりできます。


聞き比べてみます。まず、アップロードしたオリジナルの音声が以下。


続いて、VoiceCraftが作った音声が以下です。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIがわずか15秒の音声からクローン音声を生成できるAIモデル「Voice Engine」をリリース - GIGAZINE

誰でも簡単に琴葉茜や結月ゆかりの自然な読み上げ音声を生成できる「A.I.VOICE2」レビュー - GIGAZINE

サンプリングに使える素材をテキストプロンプトや音声ファイルを基に自動生成するAIサービス「Soundry AI」 - GIGAZINE

in レビュー,   ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.