Experience Prototypistのマルチリンガル子育て+プログラミングブログ

Design Thinking、語学(英語、中国語、韓国語)、日中マルチリンガル育児、littleBitsやRaspberry Pi, Arduinoを使ったExperience Prototypingネタ。

マイクロソフト、スキャンソフトと連携



CNET Japanのニュースから(http://japan.cnet.com/news/ent/story/0,2000047623,20075900,00.htm?ref=rss)。

これまでも、Microsoft Speech Serverに関しては、(スキャンソフトに買収される前の)スピーチワークス社との提携があったので、何が新しいのかと思いきや、Virtuosoが使えるようになった点らしい。

Virtuosoとは、(CNETの記事にあるようなカスタム音声認識プログラムではなくて)、カスタム音声合成プログラムである(多分)。以前もどこかで書いたように、録音音声とTTSの再生音声をつぎはぎした場合、リアルな音声合成であっても声質が違うので不自然になってしまうが、いっそのこと、その録音音声の話者に「声」を提供してもらって、カスタムメイドのTTSを作ればいいじゃないかという発想である。音素データ等TTSが音声合成の際に使用するデータを余すところなく含む、一定量のまとまったスクリプトを読んでもらい、その録音データを分析すれば、理論上は当該話者と同じ声質を持つTTSができあがる。

そもそも、上記のようなつぎはぎをしないにしても、たとえば、電車やバスのアナウンスを人間に録音させてしまうと、後で停留所や駅が追加になったときに、再度、追加分だけを録音しても、以前とは録音環境も違い、また声帯も年をとるので、違和感のないような追加分の録音というのは無理だったりする。そういう意味でリアルな音声合成というのは存在価値がある。

応用例として、声優が死んでも、同じ声でアフレコはできる...なんていっても自分のオマンマが食い上げになってしまうようなデータの提供を声優さんはしないでしょうが。