iPhoneに搭載されたGoogleモバイルアプリの音声認識について。すでに多くの人が体験されたかと思いますが、このアプリにはユーザがしゃべったワードを認識し、その認識したワードでそのままWeb検索を行う機能が搭載されています。
(中略)
この音声認識の精度なのですが、これがとんでもない高精度になっています。とてもスマートフォンごときのCPUで処理できる類の精度ではありません。
まぁ、種を明かして見れば簡単で、この音声認識はモバイルフォン側では全くデータを処理しておらず、音声データをそのままGoogleのサーバに送り、サーバ側で大量の音声データからパターンマッチを行っているのだそうです。その音声データはGoogleが各所からかき集めたもので、例えばアメリカでGoogleが展開する無料の104的サービスは全てこの音素データを収集するために行われたと言われています。この仕組みされ知ってしまえば、むしろ大量のデータがあり、そこから有意義な情報を取得する作業をGoogleが失敗する方が難しそうです。ただ、実際iPhoneのような、たかが携帯電話の音声認識でこんな精度がでてしまうと、いままでの死屍累々の音声認識サービスは何だったのだろうと思います。