【ビジネス向け】加速するDeepLearningの音声合成への応用【実用化間近】

データベースの音をつなぎ合わせる手法。つまり強調や声色変更ができない
音声の生成モデルを作って生成する手法。音や声、単語に対する専門知識が必要であり、また単語が繋がる場合の再現が難しかった。
音声の生の波形から学習し、生成する手法。DeepMindのWaveNetが実行。しかし生の波形から人間らしい音声を作るには細かいサンプリングレートが必要で計算量が莫大

という流れを踏んでいます。

百度のDeep VoiceはWaveNetを発展させ、性能を上げるとともに欠点を解消しました。

音声合成のプロセスの構成要素それぞれ全てにDeepLearningを用いることで、人力による調整やドメイン知識を必要としない　(DeepMindのWaveNetは一部にしかDeepLearningを用いていなかった)

Baiduは2014年にもDeep Speechを発表しており音声の研究を進めていることは明らかでしたが、DeepMindだけが人工知能の雄ではないということを見せつけてきました。

今後もこの分野は競争が過熱し、近い将来、機械による合成なのか人間によるものなのかは判断つかなくなることでしょう。

画面越しに話している人がAIだった、というのもそうですが、目の前にいる人であっても、付けられたスピーカーから音が出ているかもしれません。

将来的には日本人が抱えているスピーキング力の不足が解決するかもしれません。AIによる日本語から英語への翻訳、そして英語の読み上げによって。

Ations株式会社はオープンイノベーションを加速させることを目指しています。

現在は人工知能（AI）領域に絞り、開発会社とクライアントのAIリテラシーギャップを埋めるべく、メディアの運営および、AIコンサル、AIアドバイザリー、イベントや勉強会をしております。

いつでも気軽にご連絡ください。

また、「世界にテクノロジーを届けオープンイノベーションによって、科学の発展を加速させたい」と志を同じくする方は是非ご協力ください。ライター、エンジニア、デザイナー、インターン、オープンイノベーター、サイエンスコミュニケーターを募集しています。

Academication-AI