Ai_Voice_Changer
名探偵コナンのボイスチェンジャーが実現しました。

先日、テレビで音声生成AIで総理の声を再現する映像を見て驚きました。
その技術について興味を持ち、実際に試してみたので共有したいと思います。
どうやってやるか
- 音声モデルの作成には RVC WebUI というライブラリを使う
- Google Colaboratory 版を利用するのが環境依存がないため便利
- GUI でポチポチ選択して設定しながら進めることができる
- リアルタイム変換には VC Cientが使える
手順
graph TD
subgraph rvc["RVC WebUI"]
model["音声モデルを生成する"]
end
subgraph cvc["CV Client"]
change["モデルを使ってリアルタイム変換する"]
end
model --> cvc
手順詳細は以下が参考になります。
必要なもの
- 学習させる音声データ
- 多いほど精度はあがる
- 合計5分ほどのデータでもかなり精度が高く驚いた
- 各種ライブラリ
- RVC WebUi
- CV Client