2020.03.17
日本音響学会春季研究発表会で発表予定だった顔画像からの音声生成の取り組みを公開します
2020年3月15-17日に開催予定だった日本音響学会春季研究発表会で AIシステム部に学生インターンで来て頂いていた後藤駿介さん、大西弘太郎が発表予定であった、顔画像から予測される埋め込みベクトルを用いた複数話者音声合成について情報公開します。
タイトル
顔画像から予測される埋め込みベクトルを用いた複数話者音声合成
内容
顔画像から推定される埋め込みベクトルを用いたDNN複数話者音声合成モデルを提案します。
主観評価実験の結果、顔画像から推定される埋め込みベクトルを用いて生成した音声は、音声から推定される埋め込みベクトルを用いて生成した音声と比較して、顔画像との親和性、自然性のどちらにおいても同等の結果であることが示されました。
下記プロジェクトページにデモもありますので、ご確認ください。
プロジェクトページ:https://github.com/DeNA/Face2Speech