2022.03.25
「AIルフィ」の実証実験に「音声合成技術」を提供
プレスリリース「『ONE PIECE』のルフィが「AIルフィ」となって 受付業務をおこなう実証実験を開始」が公開されました。本実証実験は、集英社・東映アニメーション・セコム・DeNAの協働で取り組んでいます。
DeNA AI研究開発部では、本実証実験において音声合成技術を提供しました。受付業務をする「AIルフィ」が訪問者と対話する音声は、音声合成技術で生成しています。本実証実験に向けて、ルフィの声優を務める田中真弓さんのご協力のもと事前に音声データを収録し、ルフィの音声データを最先端の音声合成技術で学習することにより、実際にルフィが語りかけるような自然な発話を実現しています。
近年のAI・深層学習を用いた音声合成技術は、大きく3つのモジュールを組み合わせることで実現します。1つ目は、入力された日本語文を解析し言語の特徴を推定する言語解析器です。2つ目は、得られた言語の特徴から音声の特徴に変換する音響モデルです。そして最後に、得られた音声の特徴を我々が耳にすることができる音声波形に変換するボコーダで構成されます。
本実証実験で用いられる音声合成技術には、DeNAがこれまでの活動を通して得たノウハウと最先端技術の両方が活かされています。特に音響モデル・ボコーダとして、日本語に対応させた最先端の深層学習ベースのモデルを開発し、少量の音声データから効率よくルフィの声色を再現できるようにしています。
アニメキャラクターの声はよく印象的といわれますが、これは一般的な声にはない音のダイナミックな特徴を多く含むからといわれます。こうしたダイナミックな特徴は、従来の深層学習ベースの音声合成技術で用いられる単純な再帰型ネットワークではモデル化が難しく、より高度な音響モデルを構築することで再現しました。また、一般的な音声合成の研究では、ダイナミックな特徴を持つ音声データを使用することは少ないので、研究の枠を超えた難しさへの挑戦でもありました。以下には、今回開発した音声合成技術で合成したルフィの発話サンプルを公開しています。ぜひお聞きください。
©尾田栄一郎/集英社
©尾田栄一郎/集英社・フジテレビ・東映アニメーション