project member
最新の音声変換技術を駆使しつつ、to C向けサービスとしてユーザーが楽しめるエンタメ体験と強く融合したWEBサービス「VOICE AVATAR 七声ニーナ」。
アルゴリズムの選定やto Cに向けたUI・UX、そしてナチュラルな音声変換技術の実現で見込める将来的なビジネスチャンスについて、システム本部データ統括部AI基盤部 竹村伸太郎、ゲームエンターテインメント戦略室 岩朝 暁彦、デザイン本部マーケティングデザイン部 樋口耕正に聞きました。
始まりは社内公募プロジェクトから
岩朝暁彦(以下、岩朝)
プロデューサーとクリエイティブのディレクションを担当しました。
今回でいうとキャラクターの設計やデザイン周り、アーティストのアサインなどです。
--
竹村伸太郎(以下、竹村)
バックエンドのエンジニアリングを全般的に担当しました。
今回、コアとなる音声変換技術は、完全に自社開発のものですが、DeNAの音声チームがこれまで取り組んできたR&Dの成果がベースになっています。
--
樋口耕正(以下、樋口)
サイトのデザイン・実装とUI・UXの設計やロゴ等、外注したキャラクターデザイン以外のクリエイティブを担当しました。
私はプロジェクトの終盤からジョインしましたが、このプロジェクトのきっかけは社内の公募プロジェクトでしたよね?
--
岩朝
はい。竹村さんから、DeNA発のIPを作りたいとう相談を受けました。
竹村さんがAIの研究開発をしていることもあるので、それを活かした方がいいんじゃないだろうかという提案をしました。
--
竹村
「オリジナルのIPを生み出す」という規定路線を踏まえつつ、AI技術などを踏まえた社外へ向けたサービスを提供することになりました。名前も候補がいろいろありましたよね。
--
岩朝
「おニュー」な技術というところから「ニーナ」ということで名前が先に決まりました(笑)。
この手のサービスの先進事例であり「初音ミク」を研究したところ、苗字を与えることで一定の人格感が生まれるだろうことがわかり、我々も苗字を与えた方が良いだろうと。
将来的にはさまざまな声を出すことを想定し、七つの声を出せるという意味で「七声」にしました。
「七声ニーナ」にすることでサービスのドメインだけではなく、キャラクターの人格感も女性であることも伝えられるし、グローバル的にも通用する名前になったんじゃないかな。
--
樋口
「VOICE AVATAR ニーナ」だとプロダクト名という印象にしかならないですよね。
--
岩朝
ですね。そうして生まれたのが「VOICE AVATAR 七声ニーナ」です。
ユーザーがしゃべった声を10秒間聞いたら、キャラクターの声で返してくれるという、音声変換技術をトライアルできるWEBサービスをリリースしました。
ナチュラルに仕上げるために行った音声収集
竹村
音声変換にあたっては、まずは声の収録を行います。
七声ニーナのキャラクターボイスは高田憂希さんという声優にお願いしましたが、高田さんの声で数千ワードを収録しました。
それと並行して、決められた文章をさまざまな方が読み上げた音声も収録します。
その収録したものを我々が開発した機械学習のモデルを使用してAIに学習させました。
--
樋口
音声を扱ったAIサービスというと、fontgraphy(※1)という事例がありますよね。
--
※1:声の特徴をAIが分析し、その結果によって、フォントとイメージ画像を選定し掛け合わせることで、生成するオリジナルグラフィック。
--
竹村
はい。fontgraphyは人の声を画像で表現して可視化するというプロジェクトでしたが、人によって声色は違うので出力が多様なんですよ。
一方、七声ニーナの出力は高田さんの声ひとつだけですので、fontgraphyほどのサンプルは必要ない、というのが大きな違いです。
岩朝
よりナチュラルに仕上げるためサンプルを録音した人数はfontgraphyより少ないものの、バリエーションはたくさん集めましたよね。
--
竹村
一般的な台詞でカバーしきれない「ヴァ」や「ウェ」のような音素があると、音の繋ぎがきれいにできないことがあります。
そこをカバーするには文章を何千も学習させなければならないので、どのレベル感に落ち着くかを模索しながら進めてきました。
--
岩朝
通常の音声合成技術だと大体500ワードくらいを録ることが多いのですが、我々は音素のバランスを考えてカバー率を高める工夫をしながら、プラスαで日常会話をより自然に再現できるように、大量の日常会話文章も習得させました。
現段階では100%再現できているわけではありませんが、将来的な反映を考え、かなり幅広くやっていると思います。
開発の肝は、モダンな技術と3つの軸
竹村
AIはPythonで実装を行い、サーバーサイドのシステムは全てGoogle Cloudに置きました。
AmazonのAWSやMicrosoftのAzureでも現在と同等のレスポンスでいけると思いますが、同じコストでできる範囲の性能でいうと、やはり断トツでGoogle Cloudと判断しました。
--
岩朝
Google Cloudを選ぶことで、モダンな技術とアーキテクチャーでの実装が叶ったんですよね。
--
竹村
はい。モダンには2つの意味があるんですが、ひとつは私が主に担当したサーバーサイドのクラウドサービスを使いこなすという意味です。
リーズナブル・スケーラブル・セキュリティの3つの軸を開発する上で心がけました。
また、七声ニーナはトラフィックが読みにくいサービスなので、どこかの時間に突発的にアクセスが集中してもサーバー側が対応できるよう、その時々で処理能力が自動調整できる設計にしました。
コスト面、人の声を扱う安全面ももちろん無視することはできません。
そして、モダンのもうひとつの意味は、AIが行う音声変換のシステムについてです。
最新の論文で言及されているような先端技術を取り入れ、さらにDeNA独自の工夫を重ねたものを導入しました。
この相乗効果で低コストかつレスポンスのスピードアップを実現できました。
--
岩朝
今回のシステムは、音声変換のスピードがかなり速い!
--
竹村
音声変換には高性能なGPU上で動いているかのように思われますが使用していません。
今回、一般的なノートパソコンでも動作するくらい高速処理が可能なAIシステムに仕上げることができました。
ですので、コストは抑えられたし、UX面でも時間的なストレスなく楽しんでもらえるようになったと思います。
--
樋口
ユーザーが「待たされている」という感覚を持たないようなキャラクターの動きやセリフ、ユーザーがクリックなどの行動をすることででインタラクションが生まれるといったコンテンツは必要だなと当初から考えていました。
それを意識したUXフローを準備はしていましたが、上がってきたものが予想以上に速くて! ユーザーにストレスを与えない秒数になったと思います。
キャラクターの背景を反映したロゴ・サイトデザイン
岩朝
七声ニーナのキャラクターをつくる上で2つポイントがありました。
ひとつ目のポイントは、DeNAを応援するキャラクターであって欲しいという点です。
ふたつ目は、ある意味不完全であることが魅力になるようなキャラクターであることが必要だと考えました。
今回はプロトタイプなので、品質の完全性やパーフェクションについて保証できないだろうと感じたからです。
ただ、その先の進歩はあるので、そこの価値は否定しない「うまくできないけど何か?」といったイメージで、感情表現の高さの幅を小さくして、プロトタイプ要素+ロボットっぽいデザインに落とし込みました。
そのコンセプトを樋口さんに共有して、サイトデザインを進めてもらいました。
樋口
ロゴはキャラクター性とサービスをデザインとして形にする必要があると考え「VOICE AVATAR」のOは音の波長を意識したものに、「七声ニーナ」は顔に見えるような目のモチーフを取り入れつつ、ロボットでありながらもどこかかわいらしい、ややポンコツ感を漂わせるようなデザインに仕上げました。
--
岩朝
デザインに落とし込むまでは随分と試行錯誤しました。
イラストレーターさんにもかなりご尽力いただいたと思います。
ロゴやUIデザインと整合させる上でも、今までにはあまり例がないUXを作ってもらいました。
それは、VTuberと対面しているようなユーザー体験です。
つまり、七声ニーナが画面の向こうからユーザーに「しゃべってください」と話しかけます。
そうすると七声ニーナが「ふんふん」と聞き耳を立て、しばらく考えるようなしぐさをした後、変換した音声を流すというアドベンチャーゲームみたいなものです。
--
樋口
サイトデザインを進める時点では、キャラクターデザインはラフのみで、声優さんもまだ検討中でした。
しかし、岩朝さんからはキャラクターはこういう設定で発注してますとか、サイトデザインの方向性など、具体的なクリエイティブの方向性は示めされていたので、特に迷わず作業を進めることができました。
私が多く担当するゲームタイトルの案件ではロゴが決まらない状態でサイトデザインを進めるようなケースも珍しくはないので、その辺りのノウハウも生かせたんだと思います。
--
岩朝
ファーストドラフトのクオリティが抜群なんですよ。ざっくりしたことしか伝えていなくても、ど真ん中のイメージに落とし込んでくれる。
この規模のサービスを短期間で仕上げられるチームはなかなか無いと思います。
樋口
なんせジョインしたのが年末で、当初は「今期中に出したい」と残り3ヶ月の時点で言われて…時間がなかった(笑)。
ですので、岩朝さんと一緒にプロジェクトを組んだことのあるメンバーを集めました。
一緒にやってきた経験からうまく進められるだろうと。
短期間でもバシッとはまる提案ができるメンバーをアサインできたのは大きかったですね。
--
岩朝
社内でチームが組めるメリットですよね。
--
竹村
こんなに早くサービスを作り上げるのは、自分の社会人経験の中でも初めてです。
他社さんにアウトソーシングしていたら絶対になしえないくらいのスピードだったと思います。
to Cならではの喜び。リリース後の意外な反応
樋口
年間で立てていた目標変換数は24時間でクリアしました。
変換クオリティを上げるために一ヶ月ほどリリースを遅延したくらい、世に出すことに不安があったので、この結果には少し驚きました。
変換クオリティに対することや、キャラクターがかわいいとか、こだわって実装したインタラクションに関することであるとか、概ね私たちが期待していた反応だったように思います。
今はSNSですぐ反応をキャッチアップできて、定量的にも定性的にも評価を把握することができますし、かなりの収穫がありました。
--
岩朝
日常的にインターネットサービスを使用している目ざとい層に、AIで自分の声が変わるという体験を初めてお届けできたのは、エポックメイキングな出来事でした。
また、音声変換技術について驚きの声をたくさんいただきました。
普段、AIや音声技術のようなものに触れていない人たちにとっては新鮮な感覚だったでしょうし、そういった方々の心を掴めたのは、UX面が大きいと考えています。
キャラクターを通じてインタラクションにキャラの個性や物語性を埋め込んだことが、間口をぐっと広げる要因になったようにも思いますね。
--
樋口
「なんだか楽しい」という反応は多いですね。
--
竹村
インターンや新卒採用の応募者からも、七声ニーナをきっかけにDeNAに興味を持った、音声変換技術に興味を持ったという声も多く聞かれました。
--
岩朝
同業他社の方々がこんなアプローチがあるんだなということに気づいて高い評価をくださったり、そこから情報交換が始まったり。
AIの音声変換技術という領域にインパクトを与えられたんじゃないかな。
「音声変換 × エンターテインメント × 社会課題解決」の未来を見据える
竹村
直近で予定しているのは、音声変換のクオリティ面の改善です。
イントネーションが反映されないとか、苦手な音素の克服、ノイズに対する耐性など、課題はまだあります。
地道に改良を続けながら変換技術をアップデートしていく、というのは基本方針としてあります。
--
樋口
クオリティ面の改善と共に、アンケートを取る計画があります。
その回答を受けて、今後できること・やることを議論する場が発生すると思います。
例えば七声ニーナ以外の新しいキャラクターが生まれるなど。
そこで求められるクリエイティブ、プラットフォームなどアウトプットは変わってくるので、中長期的にこのプロジェクトに携わり、次のステップに一緒に進めるような動きをしていきたいですね。
--
竹村
また、音声変換とエンタテインメントの掛け合わせについては、多言語がキーワードになると思っています。
例えば洋画の吹き替えなどですね。
--
岩朝
同じキャラクターの声で、日本語、次に中国語を話したりできますよね。
そうすることで、より自然な吹き替えが可能になりますね。
--
竹村
映画やドラマだけではなく、ゲームでも活用できます。
ゲームのテキスト量は膨大なので、音声変換によるスケールメリットは大きいです。
このように、エンタテイメント業界での活用には特に可能性を感じています。
--
岩朝
また、社会課題型の応用なら、コールセンターのオペレーターの声を会社を象徴するようなものにすることができます。
誰が対応しても同じ声にすることで安心感を与えたり、ブランドイメージをキープしたり、いつも同じ品質のサービスを提供したりしたいといったニーズにも対応できます。
最新の技術を使いながらアウトプットとしてユーザーにエンタメ体験を与える、ワンストップでのモノづくりを出来るIT企業はまだ少ないのが現状です。
そう考えた時に、私たちと一緒に仕事をすることで新しいサービスを作る、既存の事業課題を解決するなど、取り組めることはたくさんあると思っています。
我々はこの音声変換技術でさまざまなユースケースを検討しています。
竹村さんがたくさん工夫してくれたことで、コストの最適化面もクリアできることができましたし(笑)。
ご相談いただくことで各々の状況にフィットした解決策のご提案は幅広く出せると考えていますので、ぜひご連絡いただきたいですね。