Experience Prototypistのマルチリンガル子育て+プログラミングブログ

Design Thinking、語学(英語、中国語、韓国語)、日中マルチリンガル育児、littleBitsやRaspberry Pi, Arduinoを使ったExperience Prototypingネタ。

auから分散型音声認識(DSR)搭載携帯電話リリース

KDDIauの携帯電話に分散型音声認識(DSR: Distributed Speech Recognition)、「声de入力」を2月上旬に三洋からリリースされる3G携帯 A5518SASweets pure、A5520SAの3機種に搭載する。SymbianOSやWindows Mobileなどの汎用OSを搭載した端末以外ではDSR搭載は世界初とのことだが、auの場合もBREWという(OSなのかプラットフォームなのか微妙ではあるにせよ)モノの上に乗っかっているわけで、世界初はまぁそんなものかと。

ちなみに、分散型音声認識とはクライアント側では入力された音声から特徴量の抽出までを行い、(音声認識)サーバ側において特徴量から実際の認識作業を行うというもの。音素モデルや認識グラマ等はサーバにおけるので、リソースをふんだんに使ってのグラマ切り替えや、グラマ(自由発話を許すのであれば統計モデル)の変更のメンテナンス等が容易だ。

すでに音声認識ベンダーであるアドバンスト・メディア社がM1000などNTT DoCoMoの携帯や、702NKなどVodafoneの携帯(いずれもOSはSymbian)上で動作するDSRクライアントを使ってサービスをしているのだが、KDDIの場合はキャリアでありながら、自社の研究所(KDDI研究所)で開発している、(携帯)電話の音声に関して、認識精度の高いエンジンを乗せてきたというのがミソといえばミソだろう。

話した音声が音声回線上ではなく、メールやWebと同じTCP/IP網をパケットに乗せて流れるということで、音声を含むマルチモーダルなアプリケーションの携帯電話上での展開がどう進んでいくのか、手始めは同社の目玉コンテンツであるEZナビウォーク「声で変換検索」からお出ましだが、楽しみである。

追記: ちなみにここ(http://finance.livedoor.com/quote/format?c=3773)から飛んでくる人が多いので付け加えておくと、AMIの(分散)音声認識技術とKDDI研究所の(分散)音声認識技術とは全く別のものです。両者とも株主に某自動車会社がいるから、技術的に(提携、提供など)つながっているんじゃないか、と邪推している人がいましたが、そんなことは*全く*ありません。