音声認識という言葉を聞くと、真っ先に頭に浮かんでくるのがAIスピーカーという方が多いかもしれません。
2019年にAmazonやGoogleが販売したAIスピーカーが、一般家庭にも加速度的に普及したこともあって、音声認識AIも非常に身近な存在になりました。
とはいえ、AIスピーカーや音声認識AIそのものがAIだというイメージをしている方も少なからずいるでしょう。
しかし、その実態はAIの役割にもいくつか種類があり、あくまで音声認識はその中の1つです。
また、音声認識においてAIがどのような役割を担っているのかも気になります。本記事では、音声認識の基本的な概念から仕組み、活用事例までを詳しく解説していきます。
目次
音声認識とは?
そもそも音声認識は、AIが登場する前からあった技術です。音声認識とは、マイク等で取得した人間の音声データをコンピュータに読み込ませて、テキストデータへの変換や話者の特定を行う技術を指します。
音声認識は、コンピュータにあらかじめ搭載した解析モデルやアルゴリズムによって行われます。
音声認識の仕組み
音声認識は、次に挙げる4つの流れを経てデータ処理が行われます。
- 音響分析
- 音響モデル
- 発言辞書
- 言語モデル
音響分析
音響分析とは、分析対象のアナログな音声データをコンピューターで分析・分解して、取り扱いやすいデジタルデータの形に変換することです。たとえば、時間経過による音の強弱や周波数、音の間隔などの特徴を捉えて、デジタルデータとしてパラメータを出力します。
音響モデル
音響モデルとは、音響分析でデジタルデータになった音声から、何の文字であるのかを1つ1つ文字起こしをしていく工程をいいます。
1つ1つの言葉がどの音素や単語に近いのかを、アルゴリズムに標準データとして登録されているパターンと照合した結果、マッチング率の高いものが正解とします。たとえば、「おはよう」という音声データを音響モデルに当てはめると、「O-H-A-Y-O-U」という最小限の音素に分解されるのです。
発言辞書
発言辞書は、最小限の音素が組み合わさったときの文字判別をするために、コンピュータアルゴリズムに登録されている発言の辞書をいいます。つまり、音響モデルではまだ1つの言葉にもなっていない単なる音素の連なりを、正しい1つの単語と認識する工程です。
たとえば、上記の例「O-H-A-Y-O-U」という音素なば、「O-HA-YO-U」=「お・は・よ・う」と1つの単語として成立させます。このとき、OHやAYなどの音はありえない、YOの後にUがあるかないか、などの判断を発言辞書と照らし合わせています。
言語モデル
言語モデルは、アルゴリズムに登録されている膨大なデータから、音声データの判定精度をより高める工程です。アルゴリズムには、各単語ごとに次に派生する単語の出現率が設定されており、前後の単語と出現率によって文章を決定します。
たとえば、「あなたは花が好き」という文章は、音響モデルで「あなた」「は」「花」「が」「好き」という単語に分解できます。ただ、音声データからは「あなたが鼻をかむ」とも聞き取れる可能性があります。
このとき、「あなた」の次に出現率が高いのは「は」か「が」か、そして「は」の次に出現率が高いのは「花」か「鼻」かと、いった具合に連結した場合に正しかろう文章を、出現率を元に決めていくのです。
従来の音声認識と音声認識AIの違い
音声認識AIは、上記の音声認識の精度をより高める目的で、コンピュータのアルゴリズムにAIのディープラーニングの要素を取り込んだものをいいます。
従来の音声認識との違いは、取得したデータを蓄積してアルゴリズム自身が分析・学習し、自動で音声認識のアルゴリズム自体をアップデートして高精度化を図っていく点です。
従来の音声認識は、おおまかに上記で説明した4つの流れで言語化をしていきますが、すべて最初にコンピュータへ登録した時点のアルゴリズムでしかありません。
しかし、時代の変化によって、そして言葉が使われる場所や環境も組み合わさると、さらに言葉の使われ方は大きく変化していきます。
まさにAIやディープラーニングという言葉が、直近で一般に浸透しつつあるように、以前はそのような言葉は学者くらいしか知りませんでした。
つまり、2000年くらいの音声認識ではAIやディープラーニングという言葉があっても、発言辞書にも登録されていないので正しく解析できないのです。
このような、言葉の使われ方の変化に伴うアルゴリズムのアップデートは、都度管理者が分析した内容を反映・再設定する必要がありました。
それが、音声認識AIで自動化が可能となったのです。
時代の変化や場所、環境による言葉の使われ方の違いを、事前の膨大な教師データ入力と、解析時に取り込むデータから常にアップデートしてくれます。
また、音声認識の音響モデルから言語モデルまでの分析過程も、AIによって自動予測することが可能となっています。
たとえば、言語モデルの出現率もAIで自動的に予測してくれるので、わざわざ管理者がアルゴリズムを設定したり、変更したりする手間がなくなるのです。
音声認識AIからの出力は自然言語処理
音声認識AIというと、上記の解析だけではなくAIスピーカーのように返答してくれる出力まで、同じ音声認識AIと勘違いしている人が多いですが、少し違います。
音声認識AIは、あくまで音声データを解析して文字データにするところまでであって、そこから意味を読み取って適切な回答や操作を行う部分は含まれません。
このような、応答に関する領域は「自然言語処理」が行っています。自然言語処理とは、人間が話すような自然な言葉や文章を認識して処理する技術です。もちろん、自然言語処理もAIの技術の1つとなっています。
ソフトバンクのロボット「Pepper」を思い浮かべてもらうと、わかりやすいでしょう。たとえば、「◯◯のお店はどこ?」という音声を入力すると、その商業施設の適切な店名やフロア、生き方を教えてくれます。
これは、ただ単純に事前に登録されていた言葉・条件に合致する回答を、定型文としてそのまま話しているだけです。
しかし、音声認識AIになると、周辺環境や状況を考慮して返答をするようになります。もちろんPepperの中のアルゴリズムも1つ1つ違うので、自然言語処理が適用されたPepperもいる点は理解しておいてください。
音声認識AIの精度
AIスピーカーをお持ちの方は、たまに話しかけた内容と違う答えをされる経験があるかもしれません。そのため、「音声認識AIって精度がまだまだだよね」と感じている方も多いでしょう。
しかしながら、Microsoftが2017年に発表した内容によると、正答率は◯◯%と非常に高い精度を誇っていることがわかっています。
AIスピーカーの回答間違いは、音声認識AIの精度の問題と思われている場合も多いですが、原因は違います。実際のところ、「単純に声が小さいだけ」「はっきりした発音でない」「日本語としておかしい文脈」といったように、話しかける側の理由のほうが多いのです。
はっきりと聞き取りやすい声、かつ意味の通る日本語で話しかければ、AIスピーカーが間違った反応することはほとんどありません。
音声認識AIの活用事例
では、実際に音声認識AIが活用されている事例をいくつか紹介していきます。
AIスピーカー
音声認識AIの活用事例として外せないのが、やはりAIスピーカーですよね。AIスピーカーには、Amazon EchoやGoogle Homeなどがあります。話しかけるだけで今日のニュースや天気の確認ができるのはもちろん、音楽や動画の再生から家電の操作まで、非常に幅広く活躍してくれる1台です。
そんなAIスピーカーですが、実際に音声認識として機能しているのはスピーカー本体ではありません。実は、音声認識エンジンともいいますが、クラウド上にある音声認識AIがその役割を果たしています。iPhoneのSiriが最もイメージしやすいでしょう。
Amazon Echoなら「Amazon Alexa」、Google Homeなら「Google Assistant」といった具合ですね。つまりメインは音声認識AIであり、AIスピーカーはあくまで搭載デバイスの1つ。知ってのとおりスマホやパソコンだけでなく、自動車や冷蔵庫など搭載デバイスは非常に広く展開されています。
コールセンターの履歴入力自動化
音声認識AIは、コールセンターの業務効率化にも活用されています。コールセンターは、応対後の対応履歴入力にかかる時間や人材確保が業界的な課題です。この2つの課題を音声認識AIは、通話内容を自動的に要約してテキストデータにすることで解決します。
これで、応対後の後処理工程の作業工数を大きく削減できることに加え、オペレータ1人での業務効率化を図り、少ない人材でコールセンターを回せるようになるのです。また、応対履歴を自動で残してくれるため、クレーム対応などで後から音声を聴き直す手間も省けるので、よりスピーディーに顧客対応が可能です。もちろん、スーパーバイザーなどの負担も大きく減るでしょう。
今後は、コールセンターでの応対自体を音声認識AIと自動言語処理だけで対応するソリューションに期待されています。話している相手が人間ではなかった、という未来はすぐそこまで来ています。
議事録の自動書き起こし
会議の後に作成する議事録ほど、面倒なものはありませんよね。そんな議事録の文字起こしも、音声認識AIは自動化してくれます。会議で複数の話者がいたとしても、一人一人を認識して、誰の発言かわかるように記録をしてくれるので便利です。
また、会話の記録中に軽微な誤字などがあっても、リアルタイム編集やチェックマークを付けられるソリューションもあります。ちなみに、仕事で使っている方も多いGoogleドキュメントにも、音声入力機能が搭載されています。
こちらは複数人の会議議事録起こしというよりも、自分一人で文章を書くときにタイピングが面倒なときや時間効率アップの目的で利用されます。
今後の音声認識AIは自然言語処理とのセットが主流に
音声認識は、音声認識AIとなってことでわれわれにとっても、非常に身近なものとなりました。これまでの音声認識ではできなかった、アルゴリズムの自動アップデートや音声認識モデル自体の自動構築までをも、AIが実現しています。
実際に活用事例は、AIスピーカーだけでなくコールセンターや会議の議事録にまで広がっています。今後は自然言語処理との組み合わせで、より高度かつ人間に近い応対のできる音声AIが出現し、話し相手が人間かAIか判別できないようになる日も近いでしょう。