【ビジネス向け】加速するDeepLearningの音声合成への応用【実用化間近】
音声合成におけるDeepMindの画期的な発表からわずか5ヶ月で百度がより優秀なシステム『Deep Voice』の開発に成功
百度が2017/2/28にテキスト音声合成システム『Deep Voice』を発表しました。
プレスリリース: Deep Voice: Real-Time Neural Text-to-Speech for Production - Baidu Research
論文:[1702.07825] Deep Voice: Real-time Neural Text-to-Speech
Deep Voiceは2016/9/16にDeepMindが出した音声合成システム『WaveNet』を改良したもので、性能が良く、処理速度がリアルタイムで可能なため、現実世界での活用が既に見込まれます。
AIによる音声合成の最新のレベルを実感
以下のリンクに飛び、画像のようにBaidu Researchのプレスリリースの下の方にある音声を再生してみてください。
Deep Voice: Real-Time Neural Text-to-Speech for Production - Baidu Research
- 上が『Deep Voice』が台本を見て生成した音声
- 下が『Deep Voice』に学習させた人間の元の音声
聴き比べてみると、いかに自然な音声が合成できているかわかるでしょう。実際にテストでは多くの人間を騙せたそうです。
前提知識
過去の音声合成は、
- データベースの音をつなぎ合わせる手法。つまり強調や声色変更ができない
- 音声の生成モデルを作って生成する手法。音や声、単語に対する専門知識が必要であり、また単語が繋がる場合の再現が難しかった。
- 音声の生の波形から学習し、生成する手法。DeepMindのWaveNetが実行。しかし生の波形から人間らしい音声を作るには細かいサンプリングレートが必要で計算量が莫大
という流れを踏んでいます。
百度のDeep VoiceはWaveNetを発展させ、性能を上げるとともに欠点を解消しました。
特徴
- 音声合成のプロセスの構成要素それぞれ全てにDeepLearningを用いることで、人力による調整やドメイン知識を必要としない (DeepMindのWaveNetは一部にしかDeepLearningを用いていなかった)
- リアルタイムよりも速い音声合成の速度 (既存の実装より400倍)
展望
Baiduは2014年にもDeep Speechを発表しており音声の研究を進めていることは明らかでしたが、DeepMindだけが人工知能の雄ではないということを見せつけてきました。
今後もこの分野は競争が過熱し、近い将来、機械による合成なのか人間によるものなのかは判断つかなくなることでしょう。
画面越しに話している人がAIだった、というのもそうですが、目の前にいる人であっても、付けられたスピーカーから音が出ているかもしれません。
将来的には日本人が抱えているスピーキング力の不足が解決するかもしれません。AIによる日本語から英語への翻訳、そして英語の読み上げによって。
関連リンク
需要があれば書くこと(コメントください)
私たちについて
Ations株式会社はオープンイノベーションを加速させることを目指しています。
現在は人工知能(AI)領域に絞り、開発会社とクライアントのAIリテラシーギャップを埋めるべく、メディアの運営および、AIコンサル、AIアドバイザリー、イベントや勉強会をしております。
いつでも気軽にご連絡ください。
また、「世界にテクノロジーを届けオープンイノベーションによって、科学の発展を加速させたい」と志を同じくする方は是非ご協力ください。ライター、エンジニア、デザイナー、インターン、オープンイノベーター、サイエンスコミュニケーターを募集しています。