国内の音声認識技術もどんどん進化してる!
さて、前回音声アシスタントについてコメントしましたが、仕事に関連して、国内の大手ベンダー以外の音声認識技術を少しリサーチしたので、備忘録もかねて情報シェアします。仕事に関連しなくても、海外旅行に便利なアプリをご紹介するので、ぜひ最後までお読みください!
・Hmcomm株式会社
産総研技術移転会社。音のIoTプラットフォームを目指し、end to endの音声認識AIを提供。既存の音声認識は、入力された音声の特徴量を抽出してから、音響モデルや言語モデル、辞書からなるデータベースをチューニングしながら、認識結果をテキスト化するが、この会社の技術は、単一のニューラルネットワークで直接モデル化して同時に最適化できるらしい。大量の言葉のデータベースもチューニングも不要なので、導入や運用もコストを抑えることが可能。この音声認識処理、自然言語処理、異音検知解析処理をベースに音声認識AIプラットフォーム「The VOICE JP」を発表。一番興味を惹かれたこの会社の特徴は、音響をベースに認識するアプローチが優れており、話者が子供や障害者でも認識できる可能性を感じた。熊本にAIラボを立ち上げたので、興味があれば直接コンタクトしてもいいかもしれない。
・VoiceTra(ボイストラ)
総務省の情報通信研究機構(NICT)が提供している個人旅行者向けの音声翻訳アプリ。音声認識+翻訳+音声合成の3つの技術を活用し、インバウンドもアウトバウンドも双方対応可能。31言語間の翻訳が可能で、無料提供により現時点で350万ダウンロードに達している。 実際に試してみると、旅行者が使いそうな会話については、驚くほど高い認識率を実感。但しここは研究機関であり、実証実験目的の運用なので基本的に商業利用は不可。しかし、ソフトウェアの一部は有償で数社にライセンス提供しており、ライセンス先を通じてならば、一般企業でも利用出来るとのことでした。興味があれば、下記HPから直接お問い合わせください。
・Amivoice
株式会社アドバンスト・メディアが提供する音声認識技術。10数年この技術を様々な分野の企業に提供しながら、技術レベルを積み上げてきたので、ある意味実践的であり信頼できるシステムだと言える。一方で大手ベンダーを除けば業界トップのため、ベンチャー企業が利用するには、価格が高いとの声もあり。ちなみに私は10年ほど前にこの会社訪問して実際に技術を紹介してもらったことがあり、その時点でも独立系でここまで技術力の高い企業があるのかと驚いたものです。
(番外編)株式会社QuantumCore
量子コンピューティング分野の技術移転により、独自の大変料時系列処理(RNN)で、パラメーター調整不要の処理基盤を提供する会社。独自アルゴリズムでLSTMの100分の1の処理時間の速さを実現したとのこと。デモで見たのは、9人の話者がトークしている中から、発音データ分類をしたケースで、ディープラーニングの4000倍の高速化に成功したとアピールしていた。ホントならすごい!
さて、もし海外旅行に行く予定の方がいれば、ぜひ下記のリンクから「VoiceTra」へアクセスして、スマホでアプリダウンロードしてみてください。私も次の旅行で実際に試してみようと思ってますが、海外が多い方の体験レポート、聞いてみたいです!
最近のコメント