(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-15
(45)【発行日】2022-11-24
(54)【発明の名称】音声認識装置、音声認識方法およびプログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20221116BHJP
G10L 15/16 20060101ALI20221116BHJP
G10L 15/10 20060101ALI20221116BHJP
【FI】
G10L15/32 210F
G10L15/16
G10L15/10 500T
(21)【出願番号】P 2019019476
(22)【出願日】2019-02-06
【審査請求日】2021-05-28
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100153017
【氏名又は名称】大倉 昭人
(72)【発明者】
【氏名】甘粕 哲郎
(72)【発明者】
【氏名】笠原 要
(72)【発明者】
【氏名】引地 孝文
(72)【発明者】
【氏名】杉崎 正之
【審査官】中村 天真
(56)【参考文献】
【文献】特開2016-062333(JP,A)
【文献】特開2015-049254(JP,A)
【文献】特開2013-167666(JP,A)
【文献】特開2012-093943(JP,A)
【文献】国際公開第2014/069121(WO,A1)
【文献】福冨隆朗ほか,コンタクトセンタ対話に対する要望・了承表現を用いた用件フェーズ抽出,日本音響学会2010年春季研究発表会講演論文集,日本,2010年03月10日,pp.223-226,ISSN 1880-7658
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
複数の話者による会話の音声データに対して、第1の方式により音声認識処理を行い、前記複数の話者それぞれの発話区間ごとの音声認識結果を出力する第1の音声認識部と、
前記第1の音声認識部による音声認識処理の結果に基づき、前記会話の用件を含む発話の区間である用件区間を判定する判定部と、
前記判定部により用件区間であると判定された区間の音声データに対して、前記第1の方式よりも高精度の第2の方式により音声認識処理を行い、音声認識結果を用件テキストとして出力する第2の音声認識部と、を備える音声認識装置。
【請求項2】
請求項1に記載の音声認識装置において、
前記判定部は、前記発話または前記用件区間に含まれるキーワードおよび該キーワードの類義語に基づき、前記用件のドメインを判定し、
前記第2の音声認識部は、前記第2の方式として、前記判定部により判定された前記用件のドメインに応じた音声認識モデルを用いた音声認識方式、または、前記発話の音響特徴または前記第1の音声認識部による音声認識の信頼度に応じた音声認識モデルを用いた音声認識方式を用いる、音声認識装置。
【請求項3】
音声認識装置において実行される音声認識方法であって、
複数の話者による会話の音声データに対して、第1の方式により音声認識処理を行い、前記複数の話者それぞれの発話区間ごとの音声認識結果を出力するステップと、
前記第1の方式による音声認識処理の結果に基づき、前記会話の用件を含む発話の区間である用件区間を判定するステップと、
前記用件区間であると判定された区間の音声データに対して、前記第1の方式よりも高精度の第2の方式により音声認識処理を行い、音声認識結果を用件テキストとして出力するステップと、を含む音声認識方法。
【請求項4】
請求項
3に記載の音声認識方法において、
前記第1の方式は、HMM(Hidden Markov Model)方式またはHMM-DNN(Deep Neural Network)方式を用いた音声認識方式であり、
前記第2の方式は、CNN-NIN(Convolutional Neural Network and Network In Network)方式を用いた音声認識方式である、音声認識方法。
【請求項5】
コンピュータを請求項1または2に記載の音声認識装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法およびプログラムに関する。
【背景技術】
【0002】
コンタクトセンタあるいは窓口などでの応対担当者による顧客への対応などの場面において、応対担当者と顧客との間で行われる会話を分析し、会話の音声を聞かずに会話の内容を確認したり、会話の内容から所望の情報を抽出したりすることが求められている。このような会話の分析のために、会話の音声をテキストに書き起こす音声認識処理が行われることがある。
【0003】
従来、音声認識処理に用いる音響スコアの計算方式としては、隠れマルコフモデル(HMM:Hidden Markov Model)あるいはHMM-DNN(Deep Neural Network)(例えば、非特許文献1参照)などの方式が用いられていた。HMMあるいはHMM-DNNなどの音響スコア計算方式を用いた音声認識方式は、比較的計算処理が小さく、コンタクトセンタのような複数の会話に対して音声認識処理を実行する必要がある環境において、比較的少ない処理ユニット数で音声認識処理を実行することが可能である。
【先行技術文献】
【非特許文献】
【0004】
【文献】"Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups," Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury, IEEE Signal Processing Magazine, Volume 29, Issue 6, pp. 82-97, November 2012.
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来より用いられている、HMMあるいはHMM-DNNなどの音響スコア計算方式を用いた音声認識方式によれば、会話の各発話の冒頭からデコード処理を開始して、発話の終了後、速やかに音声認識の結果が得られる。しかしながら、この方式では、十分な音声認識の精度が得られないという問題がある。特に、コンタクトセンタにおける顧客側の音声について、回線ノイズおよび顧客以外の騒音などのノイズが混入することで、音声認識の精度が低下する。
【0006】
電話音声の音声認識を行う際に問題となるノイズなどにより強い、CNN-NIN(Convolutional Neural Network and Network In Network)などの音響スコア計算方式を用いた音声認識方式を使うことで、より高精度な音声認識結果を得ることが期待できる。しかしながら、この方式では、従来より用いられていた音声認識方式よりも、多くの計算量が必要となるため、会話の全ての音声に対して音声認識処理を実行すると、必要な計算資源が増大するという問題がある。
【0007】
上記のような問題点に鑑みてなされた本発明の目的は、計算量の増大を抑制しつつ、会話の用件について高精度な音声認識結果を取得することができる音声認識装置、音声認識方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明に係る音声認識装置は、複数の話者による会話の音声データに対して、第1の方式により音声認識処理を行い、前記複数の話者それぞれの発話区間ごとの音声認識結果を出力する第1の音声認識部と、前記第1の音声認識部による音声認識処理の結果に基づき、前記会話の用件を含む発話の区間である用件区間を判定する判定部と、前記判定部により用件区間であると判定された区間の音声データに対して、前記第1の方式よりも高精度の第2の方式により音声認識処理を行い、音声認識結果を用件テキストとして出力する第2の音声認識部と、を備える。
【0010】
また、上記課題を解決するため、本発明に係る音声認識方法は、音声認識装置において実行される音声認識方法であって、複数の話者による会話の音声データに対して、第1の方式により音声認識処理を行い、前記複数の話者それぞれの発話区間ごとの音声認識結果を出力するステップと、前記第1の方式による音声認識処理の結果に基づき、前記会話の用件を含む発話の区間である用件区間を判定するステップと、前記用件区間であると判定された区間の音声データに対して、前記第1の方式よりも高精度の第2の方式により音声認識処理を行い、音声認識結果を用件テキストとして出力するステップと、を含む。
【0012】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上述した音声認識装置として機能させる。
【発明の効果】
【0014】
本発明に係る音声認識装置、音声認識方法およびプログラムによれば、計算量の増大を抑制しつつ、会話の用件について高精度な音声認識結果を取得することができる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施形態に係る音声認識装置の構成例を示す図である。
【
図2】
図1に示す音声認識装置の動作の一例を示すフローチャートである。
【
図3】
図1に示す検索装置の動作の一例を示すフローチャートである。
【
図4】
図1に示す処理管理部による、判定部からの問い合わせを受けた際の動作の一例を示すフローチャートである。
【
図5】
図1に示す処理管理部による、第2の音声認識部からの問い合わせを受けた際の動作の一例を示すフローチャートである。
【
図6】
図1に示す処理管理部による、判定部から完了通知を受けた際の動作の一例を示すフローチャートである。
【
図7】
図1に示す処理管理部による、第2の音声認識部から完了通知を受けた際の動作の一例を示すフローチャートである。
【
図8】
図1に示す処理管理部による、用件区間判定タイマーのタイムアウトを検出した際の動作の一例を示すフローチャートである。
【
図9】
図1に示す処理管理部による、音声認識タイマーのタイムアウトを検出した際の動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明を実施するための形態について、図面を参照しながら説明する。
【0017】
図1は、本発明の一実施形態に係る音声認識装置10の構成例を示す図である。本実施形態に係る音声認識装置10は、コンタクトセンタあるいは窓口などでの応対担当者と顧客との会話のような、複数の話者による会話の音声データに対して音声認識処理を行い、会話における各話者の発話を書き起こしたテキストを音声認識処理の結果として出力する。また、
図1においては、本実施形態に係る検索装置20を示している。検索装置20は、音声認識装置10による音声認識処理により得られたテキストから、検索クエリとして入力されたテキストと一致または類似するテキストを検索する。以下では、複数の話者による会話として、コンタクトセンタにおける応対担当者(オペレータ)と顧客とによる通話を例として説明する。
【0018】
音声認識装置10の構成について説明する。
【0019】
図1に示す音声認識装置10は、第1の音声認識部11と、処理管理部12と、判定部13と、第2の音声認識部14と、記憶部15-17とを備える。
図1において、実線矢印はデータあるいは情報の流れを示し、点線矢印は各構成要件間での通知などの流れを示す。
【0020】
音声認識装置10には、オペレータと顧客との会話の音声データが入力される。より具体的には、音声認識装置10には、オペレータと顧客との会話における、オペレータの発話の音声データ(オペレータ音声データ)と顧客の発話の音声データ(顧客音声データ)とが分離して入力される。入力された会話の音声データ(オペレータ音声データおよび顧客音声データ)は、第1の音声認識部11に入力されるとともに、その会話を識別可能な識別子(会話ID)に対応付けて記憶部15に記憶される。
【0021】
第1の音声認識部11は、入力されたオペレータ音声データおよび顧客音声データに対する音声認識処理を行い、発話の内容を示す認識結果テキストを生成する。具体的には、第1の音声認識部11は、入力された音声データから発話が行われた音声の区間を検出し、その区間の音声データに対して音声認識処理を行い、発話の内容をテキスト化した認識結果テキストを出力する。第1の音声認識部11は、会話の進行に伴い徐々に得られる音声データ(顧客音声データおよびオペレータ音声データ)に対する音声認識処理を逐次的に進め、発話の始端から終端と判定された区間(発話区間)ごとに、音声認識処理の結果である認識結果テキストを出力する。第1の音声認識部11は、発話区間の認識結果テキストを、その発話区間を含む会話の会話IDに対応付けて、記憶部15に記憶させる。
【0022】
第1の音声認識部11は、音声認識モデル11aと、音声認識モデル11bとを備える。第1の音声認識部11は、顧客音声データに対して、音声認識モデル11aを用いて音声認識処理を行い、顧客による発話の内容を示す認識結果テキストである顧客テキストを生成する。また、第1の音声認識部11は、オペレータ音声データに対して、音声認識モデル11bを用いた音声認識処理を行い、オペレータによる発話の内容を示す認識結果テキストであるオペレータテキストを生成する。
【0023】
音声認識モデル11a,11bは、音声認識結果にある程度の正確性を保持しつつ、事業上、合理的な計算設備量で、コンタクトセンタに架電される呼量に対して同時に全ての音声の音声認識処理が可能であるという基準を満たす音響モデルを用いることが好ましい。このような音響モデルとしては、例えば、音響スコアの計算にHMM-DNN方式を用いた音声認識モデルを用いることができるが、これに限られるものではなく、例えば、HMM方式を用いた音声認識モデルを用いてもよい。
【0024】
このように、第1の音声認識部11は、複数の話者による会話の音声データに対して、HMM方式あるいはHMM-DNN方式などを用いた音声認識方式(第1の方式)により音声認識処理を行い、複数の話者それぞれの発話区間ごとの音声認識結果(認識結果テキスト)を出力する。
【0025】
なお、
図1においては、第1の音声認識部11は、音声認識モデル11a,11bを用いて、話者ごとに音声認識処理を行い、顧客テキストおよびオペレータテキストを出力する例を示しているが、本発明はこれに限られるものではない。第1の音声認識部11は、話者を識別可能な1つの音声認識モデルを用いて音声認識処理を行い、顧客テキストおよびオペレータテキストを出力してもよい。
【0026】
処理管理部12は、判定部13および第2の音声認識部14による処理を管理する。具体的には、処理管理部12は、記憶部15に、会話IDで識別される会話ごとに、後述する判定部13による用件区間の判定、および、後述する第2の音声認識部14による音声認識処理が完了したか否かを記憶させる。そして、処理管理部12は、判定部13からの問い合わせに応じて、用件区間の判定が完了してない会話の会話IDを、問い合わせを受けた判定部13に通知する。また、処理管理部12は、第2の音声認識部14からの問い合わせに応じて、第2の音声認識部14による音声認識処理が完了してない会話の会話IDを、問い合わせを受けた第2の音声認識部14に通知する。処理管理部12の動作の詳細については後述する。
【0027】
判定部13は、処理管理部12から通知された会話IDに対応付けて記憶部15に記憶されている、認識結果テキストを取得して、あるいは、認識結果テキストおよび音声データを取得して、会話IDで識別される会話における用件を含む発話の区間である用件区間を判定する。すなわち、判定部13は、少なくとも第1の音声認識部11による音声認識処理の結果に基づき、会話の用件を含む発話の区間である用件区間を判定する。
【0028】
判定部13は、会話の用件区間に関する情報である用件区間情報を、その会話の会話IDに対応付けて記憶部16に記憶させる。用件区間情報は、例えば、会話の冒頭からの用件区間の始端と終端とを示す時刻の組み合わせの情報である。また、用件区間情報は、会話の中の時間的な区間情報に置き換えられた情報であってもよい。すなわち、用件区間情報は、会話における何番目の発話の認識結果テキストに用件が含まれていたかを示す情報であってもよい。この場合、会話の用件を含む認識結果テキストが生成された区間の区間情報を別途、第1の音声認識部11による処理結果から取り出してもよい。
【0029】
判定部13は、例えば、予め設定された、抽出対象の用件に対応するキーワードあるいはその類義語が各発話の認識結果テキストに含まれるか否かにより、用件区間の判定を行うことができる。また、判定部13は、複数の話者(顧客とオペレータ)による会話の構造に基づき、用件区間を判定してもよい。具体的には、判定部13は、会話における発話の中から、用件を確認するための発話である用件確認発話を検出する。顧客とオペレータとの会話の場合、顧客の問い合わせたい内容(用件)を確認するための用件確認発話は、オペレータによる発話である。判定部13は、オペレータによる用件確認発話とは別の話者(顧客)による発話であって、少なくとも用件確認発話の直前の発話を用件発話であると判定してもよい。
【0030】
一般に、顧客の問い合わせに対して、オペレータは顧客の問い合わせ内容を確認した上で、顧客の問い合わせに答えることが多い。そのため、オペレータの用件確認発話には、問い合わせ内容を確認するための特定の語句(「~ですね。」、「~ますね。」など)が含まれることが多いという傾向がある。また、顧客の問い合わせ内容を確認するために、オペレータは顧客の問い合わせ内容を繰り返した上で、顧客の問い合わせに答えることが多い。そのため、オペレータの用件確認発話には、顧客の用件発話と共通の語句が多く含まれていることが多いという傾向がある。
【0031】
判定部13は、これらの傾向に基づき、オペレータの発話が用件確認発話であるか否かを判定する。判定部13は、ディープラーニング、サポートベクタマシンなどの種々の手法を用いた機械学習により、オペレータの発話が用件確認発話であるか否かを判定してもよい。なお、用件確認発話は用件発話と比べて、パターンが決まっている。そのため、用件確認発話の判定は比較的容易である。
【0032】
判定部13は、用件確認発話の判定結果に基づき、顧客の発話が用件発話であるか否かを判定する。具体的には、判定部13は、用件確認発話の話者(オペレータ)とは異なる話者(顧客)の発話であって、用件確認発話の直前の発話を用件発話であると判定する。
【0033】
判定部13は、会話の用件区間の判定を完了すると、用件区間の判定を完了したことを処理管理部12に通知する。通常、判定部13は、会話の全体に対して、用件区間であるか否かの判定を行うが、予め設定した用件を含む用件区間を検出した時点で処理を終了してもよい。
【0034】
第2の音声認識部14は、判定部13により用件区間であると判定された区間の音声データに対して、第1の音声認識部11による音声認識方式(第1の方式)よりも高精度の音声認識方式(第2の方式)により音声認識処理を行い、音声認識結果を、用件区間の発話の内容を示す用件テキストとして出力する。
【0035】
具体的には、第2の音声認識部14は、処理管理部12から通知された会話IDに対応付けて記憶部16に記憶されている用件区間情報を取得する。また、第2の音声認識部14は、取得した用件区間情報に示される用件区間の音声データを記憶部15から取得し、取得した音声データに対する音声認識処理を行い、用件区間の発話の内容を示す用件テキストを生成する。第2の音声認識部14は、処理管理部12から通知された会話IDに対応付けて、生成した用件テキストを記憶部17に記憶させる。第2の音声認識部14は、用件区間情報に示される用件区間の発話の音声認識処理が完了すると、通知された会話IDで識別される会話の用件区間の発話の音声認識処理が完了したことを処理管理部12に通知する。
【0036】
第2の音声認識部14による音声認識方式は、上述したように、第1の音声認識部11による音声認識方式よりも高精度な方式である。例えば、第2の音声認識部14は、オペレータ側とは異なり制御することが難しい、送話器に混入する顧客自身の音声以外のノイズ、あるいは、電話回線を通過する際に重畳される電気的なノイズに強い音響スコアの計算が可能な音声認識モデルを用いて音声認識処理を行う。このような音声認識モデルとしては、例えば、音響スコアの計算にCNN-NIN方式を用いた音声認識モデルを用いることができる。CNN-NIN方式による音響スコアの計算の詳細については、例えば、下記の参考文献1に記載されているので、記載を省略する。
[参考文献1]
"THE NTT CHIME-3 SYSTEM: ADVANCES IN “SPEECH ENHANCEMENT AND RECOGNITION FOR MOBILE MULTI-MICROPHONE DEVICES", Takuya Yoshioka, Nobutaka Ito, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Masakiyo Fujimoto, Chengzhu Yu, Wojciech J. Fabian, Miquel Espi, Takuya Higuchi, Shoko Araki, and Tomohiro Nakatani, in Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pp. 436-443, December 2015.
【0037】
なお、音響スコアの計算方法による頑健性の向上だけでなく、言語スコアの計算方法の改良により顧客側の音声データの認識性能の向上を図ることも可能である。従来、言語スコアの計算においては、数単語程度の単語連鎖しか考慮されていなかった。ここで、考慮する単語連鎖数に制限が無い言語スコア計算方式を用いることで、より高い認識性能を実現することができる。上述したような言語スコアの計算は、例えば、RNN(Recurrent Neural Network)を用いた言語モデルを採用することで実現可能である(下記参考文献2参照)。
[参考文献2]
“音声認識のための深層学”, 久保陽太郎, 人工知能29巻1号,pp 62-70, 2014年1月”
【0038】
第2の音声認識部14は、例えば、上述したCNN-NIN方式を用いた音声認識モデルにより音響スコアの計算と、RNNを用いた言語モデルによる言語スコアの計算とを組み合わせて音声認識を行ってもよい。
【0039】
また、判定部13は、用件に加え、発話または用件区間に含まれるキーワードや類義語などに基づいて発話または用件のドメインを判定・出力し、第2の音声認識部14は、判定部13から出力されたドメインに対応する音声認識モデルを適用してもよい。また、顧客の発話の音声データにおける顧客自身の音声以外の音声や背景音・騒音などの音響特徴、第1の音声認識部11の信頼度などを利用して、第2の音声認識部14は、より音声認識精度が向上可能な音声認識モデルを適用してもよい。
【0040】
すなわち、第2の音声認識部14は、音声認識方式(第2の方式)として、判定部13により判定された用件のドメインに応じた音声認識モデルを用いた音声認識方式を用いてもよい。また、第2の音声認識部14は、発話の音響特徴または第1の音声認識部11による音声認識の信頼度に応じた音声認識モデルを用いた音声認識方式を用いてもよい。
【0041】
会話の用件は、その会話を分析する上で非常に重要となる。本実施形態においては、判定部13により用件区間と判定された区間の発話に対して、第2の音声認識部14による高精度な音声認識処理が行われるので、会話の用件について高精度な音声認識結果を取得することができる。また、一般に、精度の高い音声認識方法ほど、計算量が大きくなる傾向がある。本実施形態においては、用件区間と判定された区間に対してのみ、第2の音声認識部14による音声認識処理が行われるので、会話全体について高精度な音声認識を行う場合と比べて、計算量の増大を抑制することができる。その結果、CPU(Central Processing Unit)およびメモリなどの計算資源の削減を図ることができる。
【0042】
次に、検索装置20について説明する。
【0043】
検索装置20は、文章、フレーズなどのテキストが検索クエリとして入力される。検索装置20は、記憶部17に記憶されている、第2の音声認識部14による用件区間の発話の音声認識処理により得られた用件テキストと、その発話を含む会話の会話IDとが対応付けられた検索インデックスを、検索クエリに基づき検索する。そして、検索装置20は、検索クエリを含む(部分一致または完全一致する)、または、検索クエリと類似する用件テキストに対応付けられた会話IDを出力する。検索装置20は、例えば、予め設定された単語ごとの意味ベクトルに基づいて、検索クエリのテキストに含まれる単語と、用件テキストに含まれる単語とを用いて、意味の類似度を算出する。そして、検索装置20は、例えば、検索クエリのテキストとの類似度が所定値以上の用件テキストを、検索クエリと類似する用件テキストとして抽出する。例えば、単語と、その単語の概念を表す単語概念ベクトルとの組の集合である単語概念ベースにおける単語概念ベクトルを単語毎の意味ベクトルとして用いることができる。用件テキストに含まれる各単語の単語概念ベクトルを合成して算出することで用件テキストの意味ベクトルを算出し、検索クエリに含まれる各単語の単語概念ベクトルを合成して算出することで、検索クエリの意味ベクトルを算出し、意味の類似度は、例えば、その2つの意味ベクトルのコサイン類似度として算出することができる。意味ベクトルの算出および意味の類似度の算出の詳細については、例えば、下記の参考文献3に記載されているので、記載を省略する。
[参考文献3]
特開2017-072884号公報
【0044】
検索装置20の検索対象は、用件区間と判定された発話について、第2の音声認識部14による高精度な音声認識処理により得られた用件テキストに限られる。したがって、検索クエリに対して適合度の高い用件の発話を特定することが可能である。検索クエリを入力した検索装置20の利用者は、検索装置20から出力された会話IDを元に、記憶部15に記憶されている、その会話IDで識別される会話の音声データあるいはその会話の第1の音声認識部11による音声認識結果などを読み出すことで、検索クエリに対応する顧客の用件に関する会話の分析などを行うことができる。
【0045】
次に、音声認識装置10および検索装置20の動作について説明する。
【0046】
図2は、本実施形態に係る音声認識装置10の動作の一例を示すフローチャートであり、音声認識装置10において実行される音声認識方法について説明するための図である。
【0047】
第1の音声認識部11は、入力された複数の話者による会話の音声データに対して、第1の方式(例えば、HMM方式あるいはHMM-DNN方式などを用いた音声認識方式)により音声認識を行い、複数の話者それぞれの発話区間ごとの音声認識結果を出力する(ステップS11)。
【0048】
判定部13は、第1の方式による音声認識処理の結果に基づき、会話の用件を含む発話の区間である用件区間を判定する(ステップS12)。
【0049】
第2の音声認識部14は、用件区間であると判定された区間の音声データに対して、第1の方式よりも高精度の第2の方式(例えば、CNN-NIN方式などを用いた音声認識方式)により音声認識処理を行い、音声認識結果を用件テキストとして出力する(ステップS13)。
【0050】
図3は、検索装置20の動作の一例を示すフローチャートであり、検索装置20において実行される検索方法について説明するための図である。
【0051】
検索装置20は、フレーズ、文章などの検索クエリの入力を受け付ける(ステップS21)。
【0052】
次に、検索装置20は、用件区間の発話に対する第2の方式による音声認識処理により得られた用件テキストと、その発話を含む会話の会話ID(識別子)とが対応付けられた検索インデックスを、検索クエリに基づき検索する(ステップS22)。
【0053】
次に、検索装置20は、検索クエリを含む、または、検索クエリと類似する用件テキストに対応付けられた会話IDを出力する(ステップS23)。
【0054】
次に、処理管理部12の動作について、
図4から
図9に示すフローチャートを参照して説明する。なお、本実施形態に係る音声認識装置10を、複数の会話が並行して行われるコンタクトセンタなどに適用する場合、第1の音声認識部11が複数設けられ、並行して行われる会話の数だけ第1の音声認識部11による音声認識処理も並行して行われる。また、判定部13および第2の音声認識部14も複数設けられ、並行して処理が行われる。処理管理部12は、複数の判定部13に対する会話の用件区間の判定処理の割り当て、および、複数の第2の音声認識部14に対する用件区間の発話の音声認識処理の割り当てを行う。
【0055】
図4は、判定部13からの問い合わせを受けた際の処理管理部12の動作の一例を示すフローチャートである。
【0056】
判定部13は、処理対象の会話が無い(例えば、割り当てられた会話について用件区間の判定が完了した)場合、用件区間の判定が未処理の会話の有無を処理管理部12に問い合わせる。処理管理部12は、判定部13からの問い合わせを受けると(ステップS31)、記憶部15を参照し、用件区間の判定が未処理の会話の有無を判定する(ステップS32)。
【0057】
用件区間の判定が未処理の会話が無いと判定した場合(ステップS32:No)、処理管理部12は、用件区間の判定が未処理の会話が無いことを判定部13に通知し(ステップS33)、処理を終了する。
【0058】
用件区間の判定が未処理の会話が有ると判定した場合(ステップS32:Yes)、処理管理部12は、用件区間の判定が未処理の会話のうち、1つの会話の会話IDを判定部13に通知する。また、処理管理部12は、会話IDを通知した会話が処理中であることを記憶部15に記録する。こうすることで、1つの会話IDで識別される会話の用件区間の判定が複数の判定部13に割り当てられることを防ぐことができる。また、処理管理部12は、判定部13に会話の用件区間の判定を割り当ててから所定時間が経過したか否かを判定するための用件区間判定タイマーを開始する(ステップS34)。
【0059】
図5は、第2の音声認識部14からの問い合わせを受けた際の処理管理部12の動作の一例を示すフローチャートである。
【0060】
第2の音声認識部14は、処理対象の会話が無い(例えば、割り当てられた会話について用件区間の発話の音声認識処理が完了した)場合、用件区間の発話の音声認識が未処理の会話の有無を処理管理部12に問い合わせる。処理管理部12は、第2の音声認識部14からの問い合わせを受けると(ステップS41)、記憶部15を参照し、用件区間の発話の音声認識が未処理の会話の有無を判定する(ステップS42)。
【0061】
用件区間の発話の音声認識が未処理の会話が無いと判定した場合(ステップS42:No)、処理管理部12は、用件区間の発話の音声認識が未処理の会話が無いことを第2の音声認識部14に通知し(ステップS43)、処理を終了する。
【0062】
用件区間の発話の音声認識が未処理の会話が有ると判定した場合(ステップS42:Yes)、処理管理部12は、用件区間の発話の音声認識が未処理の会話のうち、1つの会話の会話IDを第2の音声認識部14に通知する。また、処理管理部12は、会話IDを通知した会話が処理中であることを記憶部15に記録する。こうすることで、1つの会話IDで識別される会話の用件区間の音声認識処理が複数の第2の音声認識部14に割り当てられることを防ぐことができる。また、処理管理部12は、判定部13に用件区間の発話の音声認識処理を割り当ててから所定時間が経過したか否かを判定するための音声認識タイマーを開始する(ステップS44)。
【0063】
図6は、判定部13からの完了通知を受けた際の処理管理部12の動作の一例を示すフローチャートである。
【0064】
判定部13は、処理管理部12から通知された会話IDで識別される会話(対象の会話)の用件区間の判定が完了すると、対象の会話の用件区間の判定が完了したことを示す完了通知を処理管理部12に行う。処理管理部12は、判定部13から完了通知を受けると(ステップS51)、対象の会話に対応する用件判定タイマーを停止する。また、処理管理部12は、対象の会話の用件区間の判定が完了したことを記憶部15に記憶する(ステップS52)。
【0065】
図7は、第2の音声認識部14からの完了通知を受けた際の処理管理部12の動作の一例を示すフローチャートである。
【0066】
第2の音声認識部14は、処理管理部12から通知された会話IDで識別される会話(対象の会話)の用件区間の発話の音声認識処理が完了すると、対象の会話の用件区間の発話の音声認識処理が完了したことを示す完了通知を処理管理部12に行う。処理管理部12は、第2の音声認識部14から完了通知を受けると(ステップS61)、対象の会話に対応する音声認識タイマーを停止する。また、処理管理部12は、対象の会話の用件区間の発話の音声認識処理が完了したことを記憶部15に記録する(ステップS62)。
【0067】
図8は、用件区間判定タイマーのタイムアウトを検出した際の処理管理部12の動作の一例を示すフローチャートである。
【0068】
処理管理部12は、用件区間判定タイマーのタイムアウトを検出すると(ステップS71)、タイムアウトを検出した用件区間判定タイマーに対応する対象の会話の用件区間の判定が未処理であることを記憶部15に記録する(ステップS72)。
【0069】
用件区間判定タイマーのタイムアウトを検出した場合、すなわち、判定部13に用件区間を判定する対象の会話の会話IDを通知した後、所定時間内に判定部13から完了通知が行われない場合、何らかの処理の問題の発生により、判定部13において用件区間の判定が失敗したと考えられる。この場合、対象の会話の用件区間の判定が未処理であることを記録することで、再度、判定部13に対象の会話の用件区間の判定を行わせることができる。
【0070】
図9は、音声認識タイマーのタイムアウトを検出した際の処理管理部12の動作の一例を示すフローチャートである。
【0071】
処理管理部12は、音声認識タイマーのタイムアウトを検出すると(ステップS81)、タイムアウトを検出した音声認識タイマーに対応する対象の会話の用件区間の発話の音声認識が未処理であることを記憶部15に記録する(ステップS82)。
【0072】
音声認識タイマーのタイムアウトを検出した場合、すなわち、第2の音声認識部14に用件区間の音声認識を行う対象の会話の会話IDを通知した後、所定時間内に第2の音声認識部14から完了通知が行われない場合、何らかの処理の問題の発生により、第2の音声認識部14において用件区間の発話の音声認識が失敗したと考えられる。この場合、対象の会話の用件区間の発話の音声認識が未処理であることを記録することで、再度、第2の音声認識部14に対象の会話の用件区間の発話の音声認識を行わせることができる。
【0073】
図4から
図9を参照して説明したように、処理管理部12は、複数の判定部13への用件区間の判定処理の振り分け、および、複数の第2の音声認識部14への用件区間の発話の音声認識処理の振り分けを行う。判定部13の処理および第2の音声認識部14の処理それぞれの処理時間は一定ではなく、処理する会話あるいは音声の内容によって異なる。そのため、大量の会話音声を処理する際には、処理管理部12による振り分けをおこなうことで、各処理が終わり次第、別の会話の処理を実行できるようになるため、1つの会話に対して初めから、判定部13および第2の音声認識部14を割り当てて処理する場合よりも効率的に処理を行うことができるため、判定部13および第2の音声認識部14の数の削減を図ることができる。
【0074】
このように本実施形態においては、音声認識装置10は、複数の話者による会話の音声データに対して、第1の方式により音声認識処理を行い、複数の話者それぞれの発話区間ごとの音声認識結果を出力する第1の音声認識部11と、第1の音声認識部11による音声認識処理の結果に基づき、会話の用件を含む発話の区間である用件区間を判定する判定部13と、判定部13により用件区間であると判定された区間の音声データに対して、第1の方式よりも高精度の第2の方式により音声認識処理を行い、音声認識結果を用件テキスト出力する第2の音声認識部14と、を備える。
【0075】
用件区間と判定された区間の発話に対して、第2の音声認識部14により第1の方式よりも高精度な第2の方式による音声認識処理が行われるので、会話の用件について高精度な音声認識結果を取得することができる。また、用件区間と判定された区間に対してのみ、第2の音声認識部14による音声認識処理が行われるので、会話全体について高精度な音声認識処理を行う場合と比べて、計算量の増大を抑制することができる。
【0076】
以上、音声認識装置10および検索装置20について説明したが、音声認識装置10および検索装置20として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置10および検索装置20の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
【0077】
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMおよびDVD-ROMなどの記録媒体であってもよい。
【0078】
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0079】
10 音声認識装置
11 第1の音声認識部
12 処理管理部
13 判定部
14 第2の音声認識部
15,16,17 記憶部