Experience Prototypistのマルチリンガル子育て+プログラミングブログ

Design Thinking、語学(英語、中国語、韓国語)、日中マルチリンガル育児、littleBitsやRaspberry Pi, Arduinoを使ったExperience Prototypingネタ。

IBMが「音声ソフト」を寄贈



IBM、音声ソフトをオープンソースコミュニティに寄贈 - livedoor ニュース

あたかもIBMがViaVoiceをオープンソース化したような勘違いをしている人もいたが、もちろんそんなことはなくて(「音声ソフト」というのはなかなか微妙な表現だとは思うが)、VoiceXML対応のサービスを開発する際に便利なソフトウェア部品(RDC)と、Eclipseプラグインとして(多分)動作可能なエディタの2本立てのようである。

そもそも音声認識エンジンをオープンソース化するにしても、いわゆるエンジン部分は枯れたロジックで教科書を引き写してでもかけるだろうから、重要なのは音素データなり、ディクテーションエンジンであれば、統計言語モデルにもとづいて生成されたグラマといったあたりということになろうが、これこそが人的・金銭的リソースを費やさねばならないところであり、また、いわゆるプログラムではないから、オープンソースにしたからといってメリットが出るという分野でもない。

一方、MSの側もすでにMicrosoft Speech Server用のSpeech Application SDK (SASDK) 1.0をリリースしており、このSASDKを「英語版の」Visual Studio .NETがインストールされている環境にインストールすることにより、SALTベースのマルチモーダルなサービスを開発するための素敵なウィザードとグラマエディタなどなどがインストールされる。

このSASDKが要求するSAPIのバージョンが5.2であり、MS謹製の日本語音声認識エンジンのバージョンが5.1であることから、即日本語対応はできていないのだが、どうやら、JuliusがSAPI 5.2ベースのインタフェース(というよりグラマ記述形式?)をサポートしており、組み合わせて利用できるようである。以前、「何となく動作している」というレベルまで少し試してみたのだが、そのときの記録がどこかへいってしまったので、このあたりはややいい加減。

いずれにせよ、音声関連のサービスも(ベンチャーではない)競合が出てきているということは、今が市場が形成されつつあるひとつの通過点であるということの証左なのかもしれない。

(上の Julius のリンク先を確認するときに、遅ればせながら気がついたのだが、Juliusのバージョン 3.0が8月11日に出ていたようだ。)