IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オンキヨー株式会社の特許一覧

特開2024-84170音声認識システム、及び、音声認識方法
<>
  • 特開-音声認識システム、及び、音声認識方法 図1
  • 特開-音声認識システム、及び、音声認識方法 図2
  • 特開-音声認識システム、及び、音声認識方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024084170
(43)【公開日】2024-06-25
(54)【発明の名称】音声認識システム、及び、音声認識方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240618BHJP
   G10L 13/00 20060101ALI20240618BHJP
   G10L 15/06 20130101ALI20240618BHJP
   G06F 3/16 20060101ALI20240618BHJP
   H04M 3/42 20060101ALI20240618BHJP
   H04M 3/50 20060101ALI20240618BHJP
【FI】
G10L15/22 460D
G10L13/00 100L
G10L15/06 300Y
G10L15/22 460Z
G10L15/22 200H
G10L15/06 300D
G06F3/16 670
G06F3/16 650
G06F3/16 690
G06F3/16 620
G06F3/16 410
H04M3/42 P
H04M3/50 A
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022198288
(22)【出願日】2022-12-13
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】平田 穂奈美
(72)【発明者】
【氏名】近藤 裕介
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BA13
5K201BA14
5K201CC03
5K201EC09
(57)【要約】
【課題】音声の認識を行う音声認識システムにおいて、システムの利用者が、音声認識が行われる音声を確認する行為を省くことを可能とする手段を提供すること。
【解決手段】音声認識システムは、音声を認識する音声認識処理と、音声認識処理の結果に基づいて、音声を合成する音声合成処理と、音声合成処理によって合成された音声を出力する音声出力処理と、音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理と、を実行する。
【選択図】図3
【特許請求の範囲】
【請求項1】
音声を認識する音声認識処理と、
前記音声認識処理の結果に基づいて、音声を合成する音声合成処理と、
前記音声合成処理によって合成された音声を出力する音声出力処理と、
前記音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理と、
を実行することを特徴とする音声認識システム。
【請求項2】
前記判定受付処理によって正しいとの判定が受け付けられた前記音声認識処理の結果であるテキスト、及び、前記判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、前記音声認識処理に用いられる音声認識エンジンの学習を行う学習処理をさらに実行することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記判定受付処理によって受け付けられた判定の結果を報知する報知処理をさらに実行することを特徴とする請求項1に記載の音声認識システム。
【請求項4】
前記報知処理として、前記判定受付処理によって受け付けられた判定の結果を表示することを特徴とする請求項3に記載の音声認識システム。
【請求項5】
前記報知処理において、
前記音声認識処理の結果であるテキストを表示し、
前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しいとの判定が受け付けられたテキストの表示態様を変更することを特徴とする請求項3に記載の音声認識システム。
【請求項6】
前記報知処理において、
前記音声認識処理の結果であるテキストを表示し、
前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しいとの判定が受け付けられたテキストをマーキングすることを特徴とする請求項3に記載の音声認識システム。
【請求項7】
前記報知処理において、
前記音声認識処理の結果であるテキストを表示し、
前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しくないとの判定が受け付けられたテキストの表示態様を変更することを特徴とする請求項3に記載の音声認識システム。
【請求項8】
前記報知処理において、
前記音声認識処理の結果であるテキストを表示し、
前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しくないとの判定が受け付けられたテキストの背景色を変更することを特徴とする請求項3に記載の音声認識システム。
【請求項9】
前記判定受付処理によって正しくないとの判定が受け付けられた場合、明確な発話を要求する音声を出力する再発話要求処理をさらに実行することを特徴とする請求項1に記載の音声認識システム。
【請求項10】
前記再発話要求処理を実行した後、前記音声認識処理、前記音声合成処理、前記音声出力処理、前記判定受付処理を実行することを特徴とする請求項9に記載の音声認識システム。
【請求項11】
外部からの発信を受信する受信処理と、
前記受信処理による受信後に、発話を受け付ける発話受付処理と、をさらに実行し、
前記発話受付処理によって受け付けられた発話に対して、前記音声認識処理を実行することを特徴とする請求項1に記載の音声認識システム。
【請求項12】
前記受信処理による受信後、且つ、前記発話受付処理による発話の受付前に、発話を要求する音声を発信元に出力する発話要求処理を実行することを特徴とする請求項11に記載の音声認識システム。
【請求項13】
音声を認識する音声認識処理と、
前記音声認識処理の結果に基づいて、音声を合成する音声合成処理と、
前記音声合成処理によって合成された音声を出力する音声出力処理と、
前記音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理と、
を実行することを特徴とする音声認識方法。
【請求項14】
前記判定受付処理によって正しいとの判定が受け付けられた前記音声認識処理の結果であるテキスト、及び、前記判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、前記音声認識処理に用いられる音声認識エンジンの学習を行う学習処理をさらに実行することを特徴とする請求項13に記載の音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
【背景技術】
【0002】
昨今、IVR(Interactive Voice Response)のような機械音声による自動応答システムが存在する。自動応答システムでは、以下のような手法が採用され始めている。まず、システムに接続するための電話番号に発信を行った利用者が、コールフロー内で(通話中に)発話した内容が、音声認識技術を用いて、テキストに変換される。そして、音声認識結果であるテキストは、音声とともに、システムのオペレーターが入電情報を確認するビュアー等に表示される。これにより、オペレーターによる入電履歴確認時に、発話内容を耳で聞いて全て書き起こすという手間は、省かれる。しかしながら、正確性を保つためには、認識結果がビュアー等に表示されていても、やはり、オペレーターは、録音音声を一度確認する必要があるという問題があった。
【0003】
なお、特許文献1には、音声対話システムと利用者との対話履歴が表示される発明が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007-219385号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、音声認識を利用した自動応答システムにおいて、正確性を保つためには、認識結果がビュアー等に表示されていても、システムのオペレーターは、録音音声を一度確認する必要があるという問題がある。
【0006】
本発明の目的は、音声の認識を行う音声認識システムにおいて、システムの利用者が、音声認識が行われる音声を確認する行為を省くことを可能とする手段を提供することである。
【課題を解決するための手段】
【0007】
第1の発明の音声認識システムは、音声を認識する音声認識処理と、前記音声認識処理の結果に基づいて、音声を合成する音声合成処理と、前記音声合成処理によって合成された音声を出力する音声出力処理と、前記音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理と、を実行することを特徴とする。
【0008】
本発明では、音声認識システムは、音声認識処理の結果に基づいて、音声を合成する音声合成処理を実行し、音声合成処理によって合成された音声を出力する音声出力処理を実行する。そして、音声認識システムは、音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理を実行する。これにより、判定受付処理によって受け付けた判定結果をシステムの利用者に報知すれば、利用者は、音声認識処理の結果が、正しいか否かを判断することができるため、音声認識処理の結果が正しい場合は、オペレーター等のシステムの利用者は、音声認識が行われた音声を確認する必要がない。
【0009】
このように、本発明によれば、システムの利用者は、音声認識が行われる音声を確認する行為を省くことができる。
【0010】
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記判定受付処理によって正しいとの判定が受け付けられた前記音声認識処理の結果であるテキスト、及び、前記判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、前記音声認識処理に用いられる音声認識エンジンの学習を行う学習処理をさらに実行することを特徴とする。
【0011】
本発明では、音声認識システムは、判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、音声認識処理に用いられる音声認識エンジンの学習を行う学習処理を実行する。これにより、音声認識の精度を向上させることができる。よって、音声認識システムが利用されればされるほど、音声認識の精度がより向上するため、利用者が、音声を全て確認する必要がなくなり、利用者による確認の時間、手間を更に減少させていくことが期待できる。
【0012】
第3の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記判定受付処理によって受け付けられた判定の結果を報知する報知処理をさらに実行することを特徴とする。
【0013】
本発明では、音声認識システムは、判定受付処理によって受け付けられた判定の結果を報知する報知処理を実行する。これにより、利用者は、音声認識処理の結果が、正しいか否かを判断することができる。
【0014】
第4の発明の音声認識システムは、第3の発明の音声認識システムにおいて、前記報知処理として、前記判定受付処理によって受け付けられた判定の結果を表示することを特徴とする。
【0015】
本発明では、音声認識システムは、報知処理として、判定受付処理によって受け付けられた判定の結果を表示する。これにより、利用者は、音声認識処理の結果が、正しいか否かを表示により判断することができる。
【0016】
第5の発明の音声認識システムは、第3の発明の音声認識システムにおいて、前記報知処理において、前記音声認識処理の結果であるテキストを表示し、前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しいとの判定が受け付けられたテキストの表示態様を変更することを特徴とする。
【0017】
本発明では、音声認識システムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しいとの判定が受け付けられたテキストの表示態様を変更する。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0018】
第6の発明の音声認識システムは、第3の発明の音声認識システムにおいて、前記報知処理において、前記音声認識処理の結果であるテキストを表示し、前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しいとの判定が受け付けられたテキストをマーキングすることを特徴とする。
【0019】
本発明では、音声認識システムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しいとの判定が受け付けられたテキストをマーキングする。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0020】
第7の発明の音声認識システムは、第3の音声認識システムにおいて、前記報知処理において、前記音声認識処理の結果であるテキストを表示し、前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しくないとの判定が受け付けられたテキストの表示態様を変更することを特徴とする。
【0021】
本発明では、音声認識システムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しくないとの判定が受け付けられたテキストの表示態様を変更する。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0022】
第8の発明の音声認識システムは、第3の音声認識システムにおいて、前記報知処理において、前記音声認識処理の結果であるテキストを表示し、前記音声認識処理の結果であるテキストを表示する場合に、前記判定受付処理によって正しくないとの判定が受け付けられたテキストの背景色を変更することを特徴とする。
【0023】
本発明では、音声認識システムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しくないとの判定が受け付けられたテキストの背景色を変更する。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0024】
第9の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記判定受付処理によって正しくないとの判定が受け付けられた場合、明確な発話を要求する音声を出力する再発話要求処理をさらに実行することを特徴とする。
【0025】
本発明では、判定受付処理によって正しくないとの判定が受け付けられた場合、明確な発話を要求する音声を出力する再発話要求処理をさらに実行する。これにより、発話者が明確な発話を行う可能性が高くなるため、音声認識の精度が向上する。
【0026】
第10の発明の音声認識システムは、第9の発明の音声認識システムにおいて、前記再発話要求処理を実行した後、前記音声認識処理、前記音声合成処理、前記音声出力処理、前記判定受付処理を実行することを特徴とする。
【0027】
第11の発明の音声認識システムは、第10の発明の音声認識システムにおいて、外部からの発信を受信する受信処理と、前記受信処理による受信後に、発話を受け付ける発話受付処理と、をさらに実行し、前記発話受付処理によって受け付けられた発話に対して、前記音声認識処理を実行することを特徴とする。
【0028】
第12の発明の音声認識システムは、第11の発明の音声認識システムにおいて、前記受信処理による受信後、且つ、前記発話受付処理による発話の受付前に、発話を要求する音声を発信元に出力する発話要求処理を実行することを特徴とする。
【0029】
第13の発明の音声認識方法は、音声を認識する音声認識処理と、前記音声認識処理の結果に基づいて、音声を合成する音声合成処理と、前記音声合成処理によって合成された音声を出力する音声出力処理と、前記音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理と、を実行することを特徴とする。
【0030】
第14の発明の音声認識方法は、第13の発明の音声認識方法において、前記判定受付処理によって正しいとの判定が受け付けられた前記音声認識処理の結果であるテキスト、及び、前記判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、前記音声認識処理に用いられる音声認識エンジンの学習を行う学習処理をさらに実行することを特徴とする。
【発明の効果】
【0031】
本発明によれば、システムの利用者は、音声認識が行われる音声を確認する行為を省くことができる。
【図面の簡単な説明】
【0032】
図1】コールシステムの処理動作を示すフローチャートである。
図2】コールシステムの処理動作を示すフローチャートである。
図3】ビュアーアプリケーションによって、ディスプレイ等に表示される表示画面の一例を示す図である。
【0033】
以下、本発明の実施形態について説明する。本実施形態では、音声認識を行う音声認識システムを、利用者からの入電(発信)を受電(受信)し、利用者の発話に対応するコールシステムに適用した例について説明する。すなわち、コールシステムは、利用者からの入電を受電し、受電した電話の通話(発話)音声を認識する。音声認識は、例えば、クラウド上で実現される。また、音声認識を含め、以下に説明する処理動作は、クラウド上で実現される。なお、クラウド上で実現されなくてもよく、各処理を実行するハードウェア及びソフトウェアの組み合わせ等により、以下に説明する処理動作が実現されてもよい。本実施形態に係るコールシステムは、利用者からの入電を受電し、利用者の発話に自動的に対応するものであり、自動応答システムとも言える。
【0034】
以下、コールシステムの処理動作について、図1及び図2に示すフローチャートに基づいて説明する。まず、コールシステムは、外部の利用者からの入電(発信)を受電(受信)する受電(受信)処理を実行する(S1)。次に、コールシステムは、利用者に発話を要求する音声を発信元に出力する発話要求処理を実行する(S2)。本実施形態では、コールシステムは、利用者に名前や住所などの発話を促す。例えば、コールシステムは、「お名前、ご住所をお話しください。」という音声を出力する。次に、コールシステムは、利用者の発話を受け付ける発話受付処理を実行する(S3)。なお、コールシステムは、例えば、発話要求処理以外に、電話番号、郵便番号等のボタン操作による入力を要求する入力要求処理を実行し、利用者によるボタン操作による入力を受け付ける入力受付処理を実行し、電話番号、郵便番号等の入力を受け付ける。
【0035】
次に、コールシステムは、発話受付処理によって受け付けられた発話に対して、音声を認識する音声認識処理を実行する(S4)。音声認識には、音声認識エンジンが用いられる。コールシステムは、利用者が発話した内容(音声)をリアルタイムに音声認識する。次に、コールシステムは、音声認識に成功した(音声認識を行うことができた)か否かを判断する(S5)。コールシステムは、音声認識に成功しなかった(音声認識を行うことができなかった)、すなわち、音声認識に失敗したと判断した場合(S5:No)、所定回数以上、音声認識に失敗している(音声認識を行うことができていない)か否かを判断する(S6)。
【0036】
コールシステムは、所定回数以上、音声認識に失敗している(音声認識を行うことができていない)と判断した場合(S6:Yes)、確認結果フラグを「False」にセットするフラグセット処理を実行し(S8)、処理を終了する。コールシステムは、所定回数以上、音声認識に失敗していないと判断した場合(S6:No)、再度の発話を要求する音声を出力する再発話要求処理を実行する(S7)。すなわち、コールシステムは、利用者に再発話を促す。例えば、コールシステムは、「もう一度、お名前、ご住所をお話しください。」という音声を出力する。コールシステムは、S7の処理の後、S3の処理を実行する。なお、S6の判断の後、S8の再発話要求処理が実行されるため、S6の判断は、所定回数以上、再発話を要求している(促している)か否かの判断とも言える。
【0037】
コールシステムは、音声認識に成功した(音声認識を行うことができた)と判断した場合(S5:Yes)、音声認識処理の結果に基づいて、音声を合成する音声合成処理を実行する(S9)。次に、コールシステムは、音声合成処理によって合成された音声を、入電元に出力する音声出力処理を実行する(S10)。すなわち、コールシステムは、合成音声を利用者に対して再生する。このとき、コールシステムは、音声認識結果に基づく音声合成と、音声認識の結果が正しいか否かの入力を要求する音声と、を出力する。例えば、コールシステムは、「これから、お客様のお名前、ご住所が再生されます。正しい場合は、1を、誤っている場合は、2を押してください。」との音声の後、「お名前、ヤマダタロウ、ご住所、東大阪市川俣」との音声を出力する。このように、コールシステムは、利用者の発話内容と、音声認識の結果(合成音声の内容)とが、一致しているか否かの判定を利用者に促す。
【0038】
次に、コールシステムは、音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理を実行する(S11)。コールシステムは、例えば、利用者の電話のボタン操作を、音声認識処理の結果が正しいか否かの判定として受け付ける。例えば、コールシステムは、利用者の電話の「1」のボタン操作を、音声認識処理の結果が正しいとの判定を受け付ける。また、例えば、コールシステムは、利用者の電話の「0」のボタン操作を、音声認識処理の結果が正しくない(誤り)との判定を受け付ける。
【0039】
次に、コールシステムは、判定受付処理において受け付けた判定が、誤判定であったか否かを判断する(S12)。コールシステムは、判定受付処理において受け付けた判定が、誤判定でない、すなわち、正しいとの判定を受け付けた場合(S12:No)、確認結果フラグを「True」にセットするフラグセット処理を実行する(S13)。次に、コールシステムは、後述する学習処理のため、S11の判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声を保存する保存処理を実行し(S14)、処理を終了する。
【0040】
コールシステムは、判定受付処理において受け付けた判定が、誤判定である、すなわち、正しくないとの判定を受け付けた場合(S12:Yes)、所定回数以上、音声認識に失敗しているか否かを判断する(S15)。コールシステムは、所定回数以上、音声認識に失敗していると判断した場合(S15:Yes)、確認結果フラグを「False」にセットするフラグセット処理を実行し(S16)、処理を終了する。
【0041】
コールシステムは、所定回数以上、音声認識に失敗していないと判断した場合(S15:No)、再度の発話を要求する音声を出力する再発話要求処理を実行する(S17)。すなわち、コールシステムは、利用者に再発話を促す。このとき、コールシステムは、よりはっきりと利用者が発話をするように促す(要求する)。例えば、コールシステムは、「もう一度、はっきりと、お名前、ご住所をお話しください。」という音声を出力する。次に、コールシステムは、利用者の発話を受け付ける発話受付処理を実行する(S18)。
【0042】
次に、コールシステムは、発話受付処理によって受け付けられた発話に対して、音声を認識する音声認識処理を実行する(S19)。コールシステムは、利用者が発話した内容(音声)をリアルタイムに音声認識する。次に、コールシステムは、音声認識に成功したか否かを判断する(S20)。コールシステムは、音声認識に成功しなかった、すなわち、音声認識に失敗したと判断した場合(S20:No)、所定回数以上、音声認識に失敗しているか否かを判断する(S21)。
【0043】
コールシステムは、所定回数以上、音声認識に失敗していると判断した場合(S21:Yes)、確認結果フラグを「False」にセットするフラグセット処理を実行し(S23)、処理を終了する。コールシステムは、所定回数以上、音声認識に失敗していないと判断した場合(S21:No)、再度の発話を要求する音声を出力する再発話要求処理を実行する(S22)。コールシステムは、S22の処理の後、S18の処理を実行する。
【0044】
コールシステムは、音声認識に成功したと判断した場合(S20:Yes)、音声認識処理の結果に基づいて、音声を合成する音声合成処理を実行する(S24)。次に、コールシステムは、音声合成処理によって合成された音声を、入電元に出力する音声出力処理を実行する(S25)。次に、コールシステムは、音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理を実行する(S26)。次に、コールシステムは、判定受付処理において受け付けた判定が、誤判定であったか否かを判断する(S27)。コールシステムは、判定受付処理において受け付けた判定が、誤判定でない、すなわち、正しいとの判定を受け付けた場合(S27:No)、確認結果フラグを「True」にセットするフラグセット処理を実行する(S29)。次に、コールシステムは、後述する学習処理のため、S26の判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声を保存する保存処理を実行し(S30)、処理を終了する。
【0045】
コールシステムは、判定受付処理において受け付けた判定が、誤判定である、すなわち、正しくないとの判定を受け付けた場合(S27:Yes)、確認結果フラグを「False」にセットするフラグセット処理を実行し(S28)、処理を終了する。
【0046】
コールシステムは、図1及び図2に示すフローチャートに基づいて説明した処理動作の中で、利用者によって音声により入力された内容を表示するビュアーアプリケーションを備えている。図3は、ビュアーアプリケーションによって、ディスプレイ等に表示される表示画面の一例を示す図である。
【0047】
図3に示すように、「項目名」フィールド(列)には、「電話番号」、「名前」、「郵便番号」等が表示される。「音声」フィールドには、利用者によって発話された音声を再生するためのボタン(♪マーク)が表示される。コールシステムのオペレーターは、ボタンを操作することで、音声を再生させ、再生された音声を確認(聴取)することができる。「登録内容」フィールドには、各項目(電話番号、名前等)に対する登録内容が表示される。「音声変換結果」フィールドには、音声認識の結果が表示される。
【0048】
「登録内容」フィールドにおいて、「電話番号」、「郵便番号」には、例えば、利用者のボタン操作によって入力が受け付けられた番号が表示される。また、「名前」、「住所」、「用件」には、例えば、音声認識の結果に基づいた内容が表示される。
【0049】
ここで、「登録内容」フィールドの音声認識の結果に基づく内容が表示される「名前」、「住所」、「用件」のフィールドは、音声認識の結果についての判定の正誤を示す確認フラグに基づいて、背景色が変更される。例えば、確認フラグが、「False」である場合、対応するフィールドの背景色がグレーに変更される。図3においては、「住所」フィールドの「6丁目1-41」の背景色が、白からグレーに変更されている。また、「用件」フィールドの「二個の音が出なくなりました」の背景色が、白からグレーに変更されている。このようにして、オペレーターに対して、間違っている登録内容のオペレーターへの確認が促される。なお、本実施形態では、フィールドの背景色が、白からグレーに変更されているが、例えば、赤に変更されるようになっていてもよい。
【0050】
このように、コールシステムは、表示画面の対応するフィールドの背景色を変更することで、判定受付処理によって受け付けられた判定の結果を報知する報知処理を実行する。本実施形態では、コールシステムは、判定受付処理によって、音声認識の結果が、誤っているとの判定が受け付けられたテキストに対応するフィールドの背景色を変更することで、判定受付処理によって受け付けられた判定の結果を報知するようになっている。これに限らず、コールシステムは、判定受付処理によって、音声認識の結果が、正しいとの判定が受け付けられたテキストに対応するフィールドの背景色を変更するようになっていてもよい。また、コールシステムは、表示画面に表示するテキストの色を変更することで、判定受付処理によって受け付けられた判定の結果を報知するようになっていてもよい。
【0051】
すなわち、コールシステムは、報知処理において、音音声認識処理の結果であるテキストを表示する場合に、テキストの表示態様を変更することで、判定受付処理の結果を報知する。テキストの表示態様の変更には、テキスト自体の表示態様を変更する(太字・斜体にする等の強調、色の変更等)のみならず、テキストのマーキング(ハイライト)表示、テキストが表示されている領域の背景色変更等が含まれる。
【0052】
なお、本実施形態では、コールシステムは、判定受付処理によって受け付けられた判定の結果を、表示により報知するようになっている。これに限らず、コールシステムは、表示以外の他の態様(例えば、音等)により、判定受付処理によって受け付けられた判定の結果を報知するようになっていてもよい。
【0053】
また、コールシステムは、判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、音声認識処理に用いられる音声認識エンジンの学習を行う学習処理をさらに実行する。学習処理を行うため、コールシステムは、判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声を保存する保存処理を行う。
【0054】
以上説明したように、本実施形態では、コールシステム(音声認識システム)は、音声認識処理の結果に基づいて、音声を合成する音声合成処理を実行し、音声合成処理によって合成された音声を出力する音声出力処理を実行する。そして、コールシステムは、音声認識処理の結果が正しいか否かの判定を受け付ける判定受付処理を実行する。これにより、判定受付処理によって受け付けた判定結果を、オペレーター等のシステムの利用者に報知すれば、利用者は、音声認識処理の結果が、正しいか否かを判断することができるため、音声認識処理の結果が正しい場合は、システムの利用者は、音声認識が行われた音声を確認する必要がない。
【0055】
このように、本実施形態によれば、システムの利用者は、音声認識が行われる音声を確認する行為を省くことができる。
【0056】
また、本実施形態では、コールシステムは、判定受付処理によって正しいとの判定が受け付けられた音声認識処理の結果であるテキスト、及び、判定受付処理によって正しいとの判定が受け付けられたテキストに対応する音声に基づいて、音声認識処理に用いられる音声認識エンジンの学習を行う学習処理を実行する。これにより、音声認識の精度を向上させることができる。よって、音声認識システムが利用されればされるほど、音声認識の精度がより向上するため、利用者が、音声を全て確認する必要がなくなり、利用者による確認の時間、手間を更に減少させていくことが期待できる。
【0057】
また、本実施形態では、コールシステムは、判定受付処理によって受け付けられた判定の結果を報知する報知処理を実行する。これにより、利用者は、音声認識処理の結果が、正しいか否かを判断することができる。
【0058】
また、本実施形態では、コールシステムは、報知処理として、判定受付処理によって受け付けられた判定の結果を表示する。これにより、利用者は、音声認識処理の結果が、正しいか否かを表示により判断することができる。
【0059】
また、本実施形態では、コールシステムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しくないとの判定が受け付けられたテキストの表示態様を変更する。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0060】
また、本実施形態では、コールシステムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しくないとの判定が受け付けられたテキストの背景色を変更する。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0061】
また、本実施形態では、コールシステムは、判定受付処理によって正しくないとの判定が受け付けられた場合、明確な発話を要求する音声を出力する再発話要求処理をさらに実行する。これにより、発話者が明確な発話を行う可能性が高くなるため、音声認識の精度が向上する。
【0062】
また、コールシステムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しいとの判定が受け付けられたテキストの表示態様を変更するようになっていてもよい。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0063】
また、コールシステムは、音声認識処理の結果であるテキストを表示する場合に、判定受付処理によって正しいとの判定が受け付けられたテキストをマーキングするようになっていてもよい。これにより、利用者は、直感的に、音声認識結果が正しいか否かを把握することができる。
【0064】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【産業上の利用可能性】
【0065】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
図1
図2
図3