2019年4月25日に、セコム株式会社、AGC株式会社、株式会社NTTドコモとともに、AIを活用した警戒監視などの警備や受付業務が提供可能な「バーチャル警備システム(※1)」の試作機開発について発表しました。

DeNAは「バーチャル警備員」の男女キャラクターデザイン原案、及び来訪者への返答の際の音声合成技術を提供しています。音声合成は、テキストから音声を合成する技術で、カーナビ、駅の構内放送、スマホの音声アシスタントなどで広く使われていますが、今回目指したのはデザインしたキャラクターに合わせた自然な音声発話ができることです。 そのため、AI研究開発エンジニアの他、ML Opsエンジニア、ゲームデザインやアニメ映像等に携わるメンバーなど社内のそれぞれのプロフェッショナルが集結し、以下のプロセスで音声合成機能の開発に着手しました。
1 キャラクターのイメージに合わせた声優の選定
2 様々な発話パターンや利用シーンを想定した収録原稿の作成
3 音声の収録
4 学習用データの作成(アノテーション)
5 音声合成モデルの構築
6 API、サーバー環境の構築
音声合成モデルに系列データを考慮した、再帰型ニューラルネットワークを用いたことで、実際に人間が語りかけているような自然な音声の合成に成功しました。また、任意のテキストを音声化できる高い拡張性を有しています。
<実際の音声合成サンプル>
今後「バーチャル警備システム」にとどまらず 、VTuberやゲームなどエンタメ領域での活用を見据えた研究開発をさらに進めてまいります。
※1 「バーチャル警備システム」は、2020年の実用化を目指すセコム株式会社のサービスです。
