KDDIはauの携帯電話に分散型音声認識(DSR: Distributed Speech Recognition)、「声de入力」を2月上旬に三洋からリリースされる3G携帯 A5518SA、Sweets pure、A5520SAの3機種に搭載する。SymbianOSやWindows Mobileなどの汎用OSを搭載した端末以外ではDSR搭載は世界初とのことだが、auの場合もBREWという(OSなのかプラットフォームなのか微妙ではあるにせよ)モノの上に乗っかっているわけで、世界初はまぁそんなものかと。
- もう親指は要らない? au、新しい音声入力機能搭載 − @IT
- au、「EZナビウォーク」に音声認識の検索機能
- ケータイナビも声で操作--KDDI、音声認識を使った新サービス - CNET Japan
- 舟木 将彦のウェブログ - アミボイス: マルチモーダルな音声検索
- KDDI 会社情報: ニュースリリース > 世界初、au携帯電話に分散型音声認識機能「声de入力」を搭載
ちなみに、分散型音声認識とはクライアント側では入力された音声から特徴量の抽出までを行い、(音声認識)サーバ側において特徴量から実際の認識作業を行うというもの。音素モデルや認識グラマ等はサーバにおけるので、リソースをふんだんに使ってのグラマ切り替えや、グラマ(自由発話を許すのであれば統計モデル)の変更のメンテナンス等が容易だ。
すでに音声認識ベンダーであるアドバンスト・メディア社がM1000などNTT DoCoMoの携帯や、702NKなどVodafoneの携帯(いずれもOSはSymbian)上で動作するDSRクライアントを使ってサービスをしているのだが、KDDIの場合はキャリアでありながら、自社の研究所(KDDI研究所)で開発している、(携帯)電話の音声に関して、認識精度の高いエンジンを乗せてきたというのがミソといえばミソだろう。
- KDDI 会社情報: ニュースリリース > 分散型音声認識システムの開発について
- 【WIRELESS JAPAN 2004】の中ほど「音声認識機能や数値だけでグラフを描画する技術、地上デジタル対応携帯など」で「分散型音声認識(DSR)プラットフォーム」が紹介されている。
話した音声が音声回線上ではなく、メールやWebと同じTCP/IP網をパケットに乗せて流れるということで、音声を含むマルチモーダルなアプリケーションの携帯電話上での展開がどう進んでいくのか、手始めは同社の目玉コンテンツであるEZナビウォーク「声で変換検索」からお出ましだが、楽しみである。
追記: ちなみにここ(http://finance.livedoor.com/quote/format?c=3773)から飛んでくる人が多いので付け加えておくと、AMIの(分散)音声認識技術とKDDI研究所の(分散)音声認識技術とは全く別のものです。両者とも株主に某自動車会社がいるから、技術的に(提携、提供など)つながっているんじゃないか、と邪推している人がいましたが、そんなことは*全く*ありません。