スマートフォンに搭載された音声アシスタント機能や、電話の自動応対など、音声認識技術は身近なさまざまなシーンで活用が進んでいる。加えて昨今では、音声認識によってテキスト化された情報を基に、業務効率化を実現できる製品のニーズが伸びている。例えばこれまでは人の手で書いていた議事録を、音声認識技術によって自動生成するような事例が登場しつつあるのだ。音声認識技術の最前線を見ていこう。

コールセンター・医療・製造業など多様に広がる音声認識技術
拡大する音声認識の活用用途とその市場

コロナ禍を契機に、さまざまな企業でWeb会議ツールの活用が進んだ。それに伴い、音声認識市場が拡大している。画像・音声認識市場や対話型AI・機械学習プラットフォーム市場を調査しているアイ・ティ・アール(以下、ITR)に、市場の変化を聞いた。

議事録作成や営業支援に

業種に特化した音声認識やチャットボットサービスが今後伸びていくかもしれません
アイ・ティ・アール
三浦竜樹

「音声認識とは、人が話す言語や動物の鳴き声、各種機器の機械動作音をコンピューターで解析し、その内容を文字データなどで取り出す処理を行う製品・サービスです。これらの技術はもともと、コンタクトセンターを中心とした電話音声の文字起こしによる業務の自動化や省力化用途で導入が進んでいました。しかし近年、会議の議事録作成といった用途での活用が非常に増えています。背景には、会議のスタイルが変化したことがあります」と指摘するのは、ITR プリンシパル・アナリスト 三浦竜樹氏。

 その変化とは、コロナ禍でWeb会議ツールの活用が進んだことにある。Web会議ツールは参加者一人ひとりの音声が異なるチャネルで認識される。会議室における対面の会議と比較すると、話者が分離された状態でクリアに録音されるため、音声認識の精度が上がり、結果的に議事録に音声認識を活用するケースが増加したのだ。議事録用途の音声認識ツールを提供している主要ベンダーは、文字起こしだけでなく、テキスト化したファイルから検索や各種分析、要約などの機能拡張を進めており、活用することでさらなる業務の効率化が期待できる。

「AI技術の進展も、音声認識市場の拡大に寄与しています。従来、グローバルなAIベンダーは日本語の認識精度を高める優先順位は高くありませんでした。しかし、とにかく録音したデータを学習させていく大規模言語モデルによって、日本語のようなマイナーな言語でも音声認識の精度が向上しました。この認識精度は、これから急速に向上すると予測しています」と三浦氏。このような議事録作成に加え、営業活動支援など、幅広い用途で活用が進んでいることから、音声認識市場の2022〜2027年度のCAGR(年平均成長率)は20.9%を予測している。

ボイスボット市場も急伸

 コールセンターでは、音声認識技術を活用することで顧客からの問い合わせをテキスト化し、そのデータを基に問い合わせ内容の傾向を可視化したり、オペレーター向けのFAQやチャットボットの作成に活用したりしている。また、コールセンターではその次のステップとして「ボイスボット」を導入するケースも出てきている。

 ボイスボットは、音声認識や自然言語解析技術を活用し、電話問い合わせにおける音声での受付・回答を支援する製品・サービスだ。ITRではこのボイスボット市場の調査も実施している。コールセンターにおけるボイスボットには2種類の活用方法がある。一つ目は音声認識と音声合成を組み合わせ、オペレーターの代わりに電話応対を行う、バーチャルオペレーター。二つ目は問い合わせの一次対応を行う、IVR(Interactive Voice Response:音声自動応答システム)の用途だ。

「コールセンターのオペレーター不足が課題になる中でボイスボットの需要は急伸しており、2022年度の売上金額は19億円、前年度比49.6%増と高成長を示しています。2023年度は同65.8%増と、2022年度を上回る伸びを見込んでいます。今後、音声認識や自然言語処理技術の進歩に伴って、ボイスボットの品質や応答能力はさらなる向上が予測されることから、同市場の2022〜2027年度のCAGRは35.9%を予測しています」と三浦氏。加えて、今後の音声認識市場やボイスボット市場は、生成AIが広く普及する中で、病院やホテルといった業種特化型のサービスが伸びていく可能性も秘めていると、その市場可能性を指摘した。

音声認識と生成AIの組み合わせが
多様な業務を効率化

音声認識市場においてトップシェア※を誇るアドバンスト・メディア。その音声認識エンジンが「AmiVoice」だ。最新のディープラーニング技術や、リカレントニューラルネットワークのBi-LSTM(Long Short-Term Memory)技術をエンジンに実装することで、非常に高い認識精度を誇っている。特に日本語に対する認識精度に定評があり、実に多様なビジネスシーンでの活用が進んでいる。音声認識技術のマーケットリーダーである同社に、現在の音声認識技術の活用について聞いた。
※出所:ecarlate「音声認識市場動向2023」音声認識ソフトウェア/クラウドサービス市場

医療向けから議事録に需要が拡大

 アドバンスト・メディアはBtoB市場に対して音声認識技術を提供している。その技術が最初に活用され始めたのは、医療現場だ。もともとアドバンスト・メディアが最初に提供し始めた音声認識技術が、2004年3月にリリースした医療向け電子カルテアプリケーション「AmiVoice Ex(Hospital/Clinic)」であり、現在は医療向け音声入力システム「AmiVoice Ex7」や医療向け音声入力キーボードアプリ「AmiVoice SBx Medical」、医療向け議事録作成ソフトウェア「AmiVoice Medical Conference」など、音声認識技術を活用した多様なサービスを提供している。電子カルテなどへの記入を音声で行うことで、作業の効率化を図っているのだ。

 医療現場の次に活用されるようになったのが、地方自治体などで行われる議会の議事録だ。2009年5月に東京都議会の全常任委員会で「AmiVoice 議事録作成支援システム」で導入されたほか、現在に至るまで約700の地方自治体で同社のAmiVoiceが活用されている。

「自治体によりますが、議会は主に3月、6月、9月、12月に行われ、そのタイミングで大量の議事録作成の業務が発生します。議会の議事録は一語一句漏らさずに作成する必要があり、これまでは速記者が記録して作成していました。これらの作業をAmiVoiceに置き換えることで、議事録の作成業務を大きく効率化できます」とアドバンスト・メディア 取締役 執行役員の大柳伸也氏。2018年ごろからは、働き方改革を実現するための業務効率化の需要が高まったことを受け、民間企業での導入も進んだという。

 議事録や書き起こしサービスとしては、音声ファイルをクラウドにアップロードして音声認識処理を行い文字起こしを行う「ProVoXT」(プロボクスト)と、会議中にリアルタイムに文字起こしを行うクラウド型議事録作成支援Webアプリケーション「CyberScribe」を提供しており、自治体からはProVoXT、民間企業からはCyberScribeの需要が高いという。スタンドアロン型文字起こし支援アプリケーション「AmiVoice ScribeAssist」も用意しており、外部クラウドサービスに音声データを保存したくないユーザーも利用可能だ。

業種に特化した音声認識

“アンビエント”な音声認識技術として、AmiVoiceを進化させていきます
アドバンスト・メディア
大柳伸也

 AmiVoiceのサービスの需要が最も高い現場が、コンタクトセンターだ。アドバンスト・メディアではコンタクトセンター向け音声認識ソリューションとして「AmiVoice Communication Suite」や、応対品質自動評価&レポートツール「AmiVoice CQM Assist」といった、音声認識を活用したコンタクトセンター向けソリューションを提供している。オペレーターと顧客との会話を音声認識によってテキスト化することで、応対履歴作成作業を効率化したり、応対品質の向上を実現したりすることが可能になる。

 そのほか、製造・物流、建設・不動産といった現場作業や、商談や接客の会話を音声認識で見える化するビジネスシーンでの活用も増えている。また昨今では、人の代わりにAIが24時間自動応答するAI対話の需要も広がりつつある。

 これらのAmiVoiceの音声認識技術は、昨今注目が集まっている生成AI技術と組み合わせることで、さらなる業務効率化を実現できる。アドバンスト・メディアでは、マイクロソフトが提供する「Azure OpenAI Service」を活用し、9月12日から文字起こし結果の要約や情報整理などを効率化するクラウドサービス「VoXT生成AI(β)Powered by GPT-3.5」(以下、VoXT生成AI(β))の試験提供を開始している。VoXT生成AI(β)は、会議の文字起こし結果などのテキストに対して、任意のプロンプト(指示)を入力することで、文章の要約などが簡単に行えるサービスだ。「要点まとめ」「議事録」「社内報等」といった目的に合わせたプロンプトのテンプレートも用意しており、プロンプトの書き方が分からないユーザーにとっても使いやすい。

 本サービスは試験提供に先立ち、7月から茨城県取手市における実証実験に活用され、有効なDX手段として認定されたという。試験提供されているVoXT生成AI(β)はすでに他の自治体での活用も進みつつあるという。また、民間企業での利用が多いCyberScribeにも9月20日に「AI要約(β)powered by GPT-3.5」(以下、AI要約(β))が搭載され、追加費用なしで利用できるようになったほか、10月11日にはAzure OpenAI Serviceを活用した建設現場向けの議事録作成代行サービス「AmiVoice スーパースクライバー」をリリースしている。

音声認識したテキストをテキストボックスに入力し、プロンプトを入力すると、それに基づいた文章が生成される。議事録はもちろん要点や社内報向けのテキストなど、プロンプトの参考となる項目も用意されている。
CyberScribeに搭載されたAI要約(β)では、自動要約ボタンをクリックすればScribeAssistがリアルタイムに文字起こししたデータを基に、ワンクリックで議事録形式などにまとめた文章が生成される。

生活に溶け込む音声認識へ

 生成AIと音声認識技術の活用は、議事録以外の用途でも業務の効率化が期待されている。「例えばコンタクトセンターでは、オペレーターの応対履歴を文書に残していますが、それを生成AIによって自動化したり、問い合わせに対する回答をオペレーターが調べるためのFAQを生成したりするような活用です」と大柳氏。また生成AIの活用によって、前述したAI対話の技術の向上が進んでいる。アドバンスト・メディアは10月5日に、OpenAIが提供する「ChatGPT」との連携機能を新たに搭載したAI音声対話アバター「AI Avatar AOI」を正式にリリースした。AI Avatar AOIが持つ独自の対話システムとChatGPTが連携することで、質の高いAI対話を実現する。

 AmiVoiceの今後について大柳氏は「当社の代表もよく言っているのですが、目指しているのは“アンビエント”です。アンビエントは英語で『周囲の』『環境の』というような意味があり、“環境にひっそり佇む”ような音声認識技術として、AmiVoiceを進化させていきます。現時点では、ユーザー側は意識的に音声認識技術を使っていると思いますが、生活の中でつぶやいたことや話したことを拾い上げ、そこからレコメンドしたり、作業をしたりするような、パーソナライズ化された技術として、当社の音声認識技術を発展させていきます。特に当社のAmiVoiceは日本語認識に強いため、日本企業の業務や業種、そして話す人に特化した音声認識エンジンを提供していきたいですね」と語った。

作業時間を大きく削減する
音声認識の三つの活用シーン

多様な業種で活用が進む音声認識技術。今回はコールセンター、医療、製造における活用シーンから、業種に最適化された音声認識ツールと、それらを活用することによって得られる効果を紹介していく。

SCENE.1 CALL CENTER

オペレーターの応対記録を蓄積して活用

(左)エス・アンド・アイ
 庄子 治
(右)エス・アンド・アイ
 佐々博音

 音声認識を活用し、コールセンターの応対支援やモニタリングをサポートするサービスが、エス・アンド・アイが提供する「AI Dig」だ。
 AI Digは、大きく二つの機能を実装している。オペレーターと顧客とのやりとりをリアルタイムにテキスト化する音声認識機能と、問い合わせに対する回答候補を検索したり表示したりできるナレッジ検索機能だ。それぞれの機能をオペレーターの利用シーンに応じて見ていこう。

 まずは応対中だ。AI Digの画面上で顧客とオペレーターの会話をリアルタイムにテキスト化することで、オペレーターはメモを取る必要がなくなり、会話に集中できる。製品名など登録したワードのハイライト表示や、会話テキストをクリックすることで、ナレッジ検索への連携も可能だ。ナレッジ検索による結果はAIが確信度の高い順にランキング表示されるため、マニュアルや技術書といった大量のデータの中から、効率的に必要な情報を検索できる。

 エス・アンド・アイ デジタルエンゲージメント本部 デジタルコミュニケーション#1 統括部長 佐々博音氏は「ナレッジ検索機能によって、オペレーターのスキル平準化が実現できます。熟練のオペレーターと新人のオペレーターの大きな差はこれまでの経験や知見ですが、ナレッジ検索を活用することで熟練者の知識や顧客体験をデータから掘り起こし、新人のオペレーターでも迅速に適切な回答を提供できるようになります」と語る。

音声認識により、会話内容がリアルタイムにテキスト化される(右端)。また問い合わせ内容を基に関連性の高い回答が確信度とともに表示される(中央)。回答を登録・学習させることでAIが質問文から回答候補を提案してくれる(左端)。

 応対終了後には、音声認識機能を活用しテキスト化された情報から、応対記録データをCRMに出力可能だ。商品や商品名など、あらかじめ設定したワードと抽出条件を基に、通話内容から該当する発話を自動的に抽出することもできる。「電話応対に10分かかった場合、その内容をテキスト化し、まとめる後工程の作業に5〜7分くらいかかるそうです」と、AI Digが導入されていないコールセンターでの負担を語るのは、エス・アンド・アイ デジタルエンゲージメント本部 デジタルコミュニケーション#1 sandiAI&APDソリューション 副部長 庄子 治氏。AI Digを活用することで、オペレーターにとって手間のかかるアフターコールワークを効率化できるのだ。また通話の音声ログが残っていることで、ほかのオペレーターへの引き継ぎも容易になる。

 AI Digによる音声認識機能は、オペレーターのみならず、スーパーバイザーなどの管理者権限を持つユーザーにとってもメリットが大きい。応対中の全オペレーターの通話内容をリアルタイムにモニタリングし、応対時間の長い対話や、言ってはいけないワード(特定ワード)を発している対話などを目視で検知し、タイムリーにオペレーターをフォローできるようになる。このオペレーターの管理機能は、コロナ禍で在宅勤務が増加したことから需要が大きく増加しており、音声認識機能に限定した「AI Dig for Voice」や、ナレッジ検索機能に限定した「AI Dig for Knowledge」も2021年6月1日からリリースしている。

 実際にAI Digを導入したコールセンターでは、特に新人や中堅オペレーターの1件当たりの対応時間が大きく改善しており、導入前と比較して新人は25%削減、中堅は10%削減した。スーパーバイザーからの助言率も全体で35%削減、新人では32%、中堅では44%削減するなど、これまで大きな数値の変動が見られなかった中堅オペレーターの数値が大幅に改善されたことに加え、新人オペレーターの教育期間の短縮や、早期独り立ちが図れたという。

 今後は生成AIを活用し、応対記録テキストの自動要約機能や、ナレッジ検索におけるマニュアル検索をより効率的に行える機能の実装を進めていく方針だ。

SCENE.2 MEDICAL CARE

診療時の会話を基に電子カルテに出力

最大4時間かかる電子カルテ入力の作業が約40分ほどに短縮でき、医療関係者に好評です
kanata 滝内冬夫

 音声認識とAIによって、声をカルテ化するクラウドツール「kanaVo」を提供しているのが2018年に創業したkanataだ。同社の代表取締役を務める滝内冬夫氏は2004年から電子カルテの制作に携わるなど、医療現場のICT化に長く関わってきた人物だ。しかし、kanaVoの開発のきっかけになったのは、滝内氏自身の子供の病にあった。

「息子が白血病を患い、1年3カ月入院していました。その期間、妻と交代しながら付き添いをしている中で看護師や医師の忙しさを目の当たりにしたんです」と語る滝内氏は、メモ帳に書ききれなかった記録を手袋に書き、それを誤ってゴミ箱に捨ててしまった看護師や、診察時に病状を説明してもそれがカルテには残しにくい医師といった、実体験に基づく例を挙げ、病院業務における記録の大変さを語った。

 kanaVoは、そうした病院業務における記録を、音声認識で可能にするツールだ。同社は2020年9月から音声解析による電子カルテ入力支援システム「スマート医療秘書kanata!」を提供しており、kanaVoはスマート医療秘書kanata!に寄せられた「音声認識の精度を向上してほしい」といったユーザーからのフィードバックを受け機能強化を行った製品だ。2021年11月にβ版をリリース、2022年夏ごろから正式に提供を開始した。

kanaVoは医者側と患者側の声を話者分離してテキスト化する。そのテキストを電子カルテに記載するときのフレームワークであるSOAPに基づき要約してくれるため、医師の業務負担を軽減できる。

 kanaVoは、診療中の会話をテキスト化するだけでなく、その内容を10秒程度でカルテ形式に要約してくれる。外来診療の場合、診察室に設置したマイクで患者と医師双方の声を分離してテキスト化し、その会話テキストを要約した結果を、ワンクリックでコピーして電子カルテに貼り付けられる。WebAPI連携している電子カルテであればこれらの転記作業も自動化できるという。以前は医師側と患者側の双方にマイクが必要だったが、最近では会議用のスピーカーマイク1台で対応できるようになったという。

「電子カルテへの記入時間は、少ない人で2時間、多い人は4時間ほどかかると言います。kanaVoを活用すれば、この電子カルテへの入力作業が約40分弱に短縮可能です」と滝内氏。2022年8月10日にはkanaVoと連携するスマートフォンアプリ「kanaVo mobile」も提供しており、在宅医療の医師や病院をラウンドする看護師などの音声入力もサポートする。

「kanaVoを導入した病院からは『PCではなく患者を診られるようになった』『患者さんから、先生が優しくなったと言われるようになった』といったうれしいフィードバックがありました」と滝内氏。一方で、医師からの健康指導などの話にきちんと従わない患者もいることから、医師からのフィードバックが正しく伝わるようにする仕組みや、患者の日々の暮らしを医師と共有できるような仕組みも求められている。こうしたニーズに応えるため、kanataは年内に東北大学と共に大学発のベンチャーを設立し、取り組みを進めていく方針だ。

 滝内氏は「kanataという社名は、今は天国にいる息子の名前から取りました。kanaVoという名前も、Voiceの意味もありますが、息子が『かな坊』と呼ばれていたことにもちなみます。息子の思いを受け継ぎ、息子が気付かせてくれた医療関係者の困りごとを解決するべく、当社は医療者の働き方改革に向けて、これからも取り組んでいきます」と語った。

SCENE.3 MANUFACTURE

音声で人員の稼働状況を見える化

音声指示によって、ハンズフリーかつアイズフリーで作業ができます
NEC 北野芳直

 製造業を取り巻く環境がめまぐるしく変化する中で、さまざまなリスクに対応していくため“ものづくりのデジタル化”が求められている。「多くのものづくりの現場において、設備稼働状況の見える化は進んでいます。一方で、人員の稼働状況と言った見える化は進んでおらず、データドリブン型のものづくりを進めていく上での課題になっています。NECではそうしたものづくりの現場において、人作業データを簡便に取得し、データ分析が行えるシステムとして『NEC 人作業ナビゲーション』(以下、人作業ナビゲーション)を提供しています」と語るのは、NEC スマートインダストリー統括部 ソリューションマーケティング第1グループ 中原啓輔氏。

 人作業ナビゲーションは、音声ガイドによる作業指示と、音声認識による作業実績の収集によって、作業品質や生産性を向上するためのツールだ。専用のスマートフォンアプリと、スマートフォンに接続するマイク付きイヤホンを組み合わせて使用する。作業指示書から作成した帳票を基に、音声ガイドが作業指示を行うため、作業者はハンズフリーで作業できる。音声認識機能によって作業実績を収集し、NECのデータ基盤「NEC Industrial IoT Platform」に蓄積することで、作業実績の見える化や分析が可能になる。

人作業ナビゲーションではマイク付きイヤホン装着し、作業指示を受ける。指示はタブレットやスマートフォンのアプリから音声で再生され、作業者はハンズフリーかつアイズフリーで作業が行える。
不慣れな作業や久しぶりの作業を、音声指示と音声認識がサポートしてくれます
NEC 中原啓輔

 NEC スマートインダストリー統括部 戦略グループ 兼 サプライチェーン改革推進部 シニアビジネスプランナー 北野芳直氏は「製造業の作業現場では通常、手による作業と、目による確認を行いますが、口と耳はあまり使われてきませんでした。人作業ナビゲーションではハンズフリーであり、アイズフリーであるというのが大きなポイントです。従来であれば行った作業を紙などのチェックシートに記録する必要がありましたが、音声認識による作業記録によって、それらの作業時間を短縮しつつ、作業のデータ化を効率的に行えます」と指摘する。

 また、人作業ナビゲーションによって新人の作業者や、久しぶりに作業する品(久しぶり品)、不慣れな作業などの作業品質の向上も実現できる。実際、NECプラットフォームズで導入した際の効果として、不慣れな作業員が標準作業を習得する際の訓練時間が25%削減したり、品質を担保しつつ組み立て作業時間の20%削減を実現したりしたという。また、作業改善サイクルは40倍高速化した。「これまでの作業改善サイクルでは、月に1回作業の時間をストップウォッチで計測し、作業時間のばらつきを改善してきましたが、人作業ナビゲーションによって1日2回このサイクルを回すことができ、改善後すぐに効果を検証できたそうです」と中原氏。

 音声によるナビゲーションは、作業手順を記述したExcelファイルを読み込ませるだけでよいため、メンテナンスも簡単だ。辞書登録機能によって一般的な語彙だけでなく、略称や製品番号などの業務で使用する単語を登録できるため、音声認識精度を向上されることが可能だ。また、専用のアプリによって利用者の声の特徴を学習して認識率を改善する話者学習機能も搭載しており、作業者に応じた発話の違いもカバーする。

「NECでは製造業に対するスマートファクトリービジネスを進めています。データドリブンな工場運営を進めていく上でデータ化できていない人の作業記録を人作業ナビゲーションで実現し、工場全体のスマート化を目指していきます」と北野氏は語った。