日本音響学会春季研究発表会で音声合成の取り組みについて発表します

2019年3月5-7日に開催予定の日本音響学会春季研究発表会
AIシステム部に学生インターンで来て頂いていた園部良介さんが、End-to-End音声合成の話者適応技術に関して発表いたします。

タイトル

日本語 End-to-End 音声合成における話者適応の検討

内容

100文規模から2,000文規模の音声データを用いて、単一話者での日本語End-to-End音声合成システムの開発を目指します。
提案法では、fine-tuningにより小中規模データセットでの話者適応を用いることで実現しました。
主観評価実験の結果、提案法を用いて合成される音声は、単一話者のみを用いた場合と比べ、音質に関して有意であること確認しました。

サンプル音声

100文から2,000文まで音声データでの話者適応結果

なお一部の実験で、東大 猿渡研究室で開発されたJSUTを学習データとして使用しました。