特許第6920153号(P6920153)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立情報通信エンジニアリングの特許一覧

特許6920153通話音声処理システム及び通話音声処理方法
<>
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000002
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000003
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000004
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000005
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000006
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000007
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000008
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000009
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000010
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000011
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000012
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000013
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000014
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000015
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000016
  • 特許6920153-通話音声処理システム及び通話音声処理方法 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6920153
(24)【登録日】2021年7月28日
(45)【発行日】2021年8月18日
(54)【発明の名称】通話音声処理システム及び通話音声処理方法
(51)【国際特許分類】
   H04M 3/51 20060101AFI20210805BHJP
   G10L 15/00 20130101ALI20210805BHJP
   G10L 15/22 20060101ALI20210805BHJP
   G10L 15/06 20130101ALI20210805BHJP
   H04M 3/42 20060101ALI20210805BHJP
【FI】
   H04M3/51
   G10L15/00 200A
   G10L15/22 200V
   G10L15/06 400V
   H04M3/42 P
【請求項の数】4
【全頁数】14
(21)【出願番号】特願2017-185610(P2017-185610)
(22)【出願日】2017年9月27日
(65)【公開番号】特開2019-62404(P2019-62404A)
(43)【公開日】2019年4月18日
【審査請求日】2020年9月7日
(73)【特許権者】
【識別番号】000233295
【氏名又は名称】株式会社日立情報通信エンジニアリング
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜特許業務法人
(72)【発明者】
【氏名】佐々木 孝章
【審査官】 白川 瑞樹
(56)【参考文献】
【文献】 特開2017−078753(JP,A)
【文献】 特開2009−300573(JP,A)
【文献】 特開2017−067881(JP,A)
【文献】 特開2005−134819(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F19/00
G06Q10/00−10/10
30/00−30/08
50/00−50/20
50/26−99/00
G10L15/00−17/26
H04M3/00
3/16−3/20
3/38−3/58
7/00−7/16
11/00−11/10
(57)【特許請求の範囲】
【請求項1】
第1の言語を音声認識するための第1の音声認識エンジンと、前記第1の言語とは異なる第2の言語を音声認識するための第2の音声認識エンジンとを用意し、
着信時に、通話情報に対応する言語として前記第1の言語を自動的に決定し、
前記第1の言語に対応する前記第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、
着信後に、前記第1の言語から前記第2の言語への切替えを指示する切替え指示に応答して、前記第2の言語に対応する前記第2の音声認識エンジンが利用中か否かを判断し、
前記第2の音声認識エンジンが利用中でなく前記第2の音声認識エンジンを使用可能と判断した場合には、前記第1の言語を前記第2の言語に切替え、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、
前記第2の音声認識エンジンが利用中により、前記第2の音声認識エンジンを使用不可能と判断した場合には、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする通話音声処理方法。
【請求項2】
前記通話中の前記音声情報を録音ファイルに録音し、
前記通話終了後に、前記第2の音声認識エンジンを用いて前記録音ファイルに録音された前記音声情報を認識することを特徴とする請求項に記載の通話音声処理方法。
【請求項3】
前記着信後に、オペレータが操作する操作端末に表示された言語選択画面を介して指示される前記切替え指示に応答して、前記第1の言語を前記第2の言語に切り替えることを特徴とする請求項に記載の通話音声処理方法。
【請求項4】
前記第1の音声認識エンジンを用いて前記着信時の音声情報を認識した音声認識結果を表示し、
前記着信後に、前記音声認識結果に応じて、前記第1の言語から前記第2の言語への切替えを指示し、
前記指示に基づいて、前記第2の音声認識エンジンを用いて前記着信後の音声情報を認識し、
前記第2の音声認識エンジンを用いて前記着信後の音声情報を認識した音声認識結果を表示することを特徴とする請求項に記載の通話音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話音声処理システム及び通話音声処理方法に関する。
【背景技術】
【0002】
コールセンタやオフィスにおいて、通話先の顧客とオペレータの通話内容を録音して、後日のトラブルに備えたり、内容をレビューしたりすることが行われている。録音データは、音声認識してテキストデータに変換することにより、コンピュータシステムで検索したり表示あるいは印刷できるようになり、業務データとしてより有効活用することができる。
【0003】
コールセンタで行われる音声認識に関して、特許文献1では、異なる言語ごとに用意された異なる音声認識エンジン(辞書)を用いて音声認識を行っている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2017−78753号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、異なる言語ごとに音声認識エンジンを採用して音声を認識している。しかし、特許文献1では、録音した音声を通話終了後に音声認識エンジンを用いて認識している。顧客との通話中は音声認識エンジンを切替えてはおらず、通話中は同じ音声認識エンジンを使用し続けている。
【0006】
このように、特許文献1では、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることについては考慮されていない。
【0007】
本発明の目的は、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることにある。
【課題を解決するための手段】
【0008】
本発明の一態様の通話音声処理システムは、複数の言語を音声認識するための複数の音声認識エンジンを有する音声認識装置と、複数の通話情報と前記複数の言語とを対応付ける言語対応テーブルと、前記複数の言語の中からいずれか一つの言語に切替える切替え用テーブルとを有する通話録音情報管理装置と、前記複数の言語を前記複数の音声認識エンジンにそれぞれ対応付ける音声認識エンジン選択テーブルを有する音声認識制御装置とを備え、着信時に、前記音声認識制御装置は、前記言語対応テーブルを参照して前記通話情報に対応する言語として第1の言語を自動的に決定し、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第1の言語に対応する第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、前記着信後に、前記音声認識制御装置は、前記第1の言語から前記第1の言語とは異なる第2の言語への切替えを指示する切替え指示に応答して、前記切り替え用テーブルを参照して前記第1の言語を前記第2の言語に切替え、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第2の言語に対応する第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識することを特徴とする。
【0009】
本発明の一態様の通話音声処理方法は、第1の言語を音声認識するための第1の音声認識エンジンと、前記第1の言語とは異なる第2の言語を音声認識するための第2の音声認識エンジンとを用意し、着信時に、通話情報に対応する言語として前記第1の言語を自動的に決定し、前記第1の言語に対応する前記第1の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、着信後に、前記第1の言語から前記第2の言語への切替えを指示する切替え指示に応答して、前記第2の言語に対応する前記第2の音声認識エンジンが利用中か否かを判断し、前記第2の音声認識エンジンが利用中でなく前記第2の音声認識エンジンを使用可能と判断した場合には、前記第1の言語を前記第2の言語に切替え、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、前記第2の音声認識エンジンが利用中により、前記第2の音声認識エンジンを使用不可能と判断した場合には、前記第2の言語に対応する前記第2の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする。
【発明の効果】
【0010】
本発明の一態様によれば、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることができる。
【図面の簡単な説明】
【0011】
図1】コールセンタシステムの全体構成図である。
図2】オペレータ用端末のオペレータPC画面を示す図である。
図3】着番号・言語対応テーブル(T−4)を示す図である。
図4】手動切替え用テーブル(T−5)を示す図である。
図5】通話情報テーブル(T−6)を示す図である。
図6】音声認識エンジン選択テーブル(T−7)を示す図である。
図7】音声認識結果テーブル(T−8)を示す図である。
図8】着信時の動作を説明するためのフローチャートである。
図9】オペレータ操作による音声認識エンジン切替え時の動作を説明するためのフローチャートである。
図10】着信時の動作を説明するためのシステム構成図である。
図11】オペレータ操作による音声認識エンジン切替え時の動作を説明するためのシステム構成図である。
図12】失敗時再実行時の動作を説明するためのシステム構成図である。
図13】着信時の書換え前後の通話情報テーブルを示す図である。
図14】手動切替え時の書換え前後の通話情報テーブルを示す図である。
図15】書換え前後の音声認識エンジン選択テーブルを示す図である。
図16】手動切替え時の書換え前後の手動切替え用テーブルを示す図である。
【発明を実施するための形態】
【0012】
通話音声処理システムは、コールセンタ等の電話応対業務において、顧客とオペレータの通話内容をリアルタイムに認識し、認識結果を管理して保存するシステムである。
【0013】
コールセンタにおけるリアルタイムの通話音声処理システムでは、一般的に着番号等のCTI(Computer Telephony Integration)情報を音声認識エンジン(辞書)に紐付けて、音声認識を行う。CTI情報は、言語を特定することができる情報である。多言語を扱う場合、音声認識エンジンは言語ごとに用意する。ここで、CTIとは、電話とコンピューターを連携して利用する技術の総称をいう。コールセンタなどで、顧客の電話番号から顧客情報をデータベースに照会したり、自動発信や自動転送したりする技術である。
【0014】
複数言語に対応するオペレータの通話対応時において、顧客の言語とCTI情報に紐づく言語が一致していない場合、適切な音声認識エンジンが選択されず、認識精度が落ちる場合がある。
【0015】
従来の通話音声処理システムは、着番号等のCTI情報と音声認識エンジンの紐付けで音声認識エンジンが選択されるため、会話内容に対して適切な音声認識エンジンが選択できず、認識精度が落ちる場合がある。
【0016】
また、CTI情報に依存させずに多言語に対応する方法として、システムで利用可能な複数の音声認識エンジンを並列に動作させる方法が考えられるが、システムリソースが多く必要となりコストが多くかかる。
【0017】
本発明の実施形態では、CTI情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択可能になる。
【0018】
本発明の実施形態では、複数の音声認識エンジンを並列に動作させる方式と比較して、少ないシステムリソースで多言語対応のリアルタイムシステムを実現する。具体的には、オペレータのマニュアル操作により、CTI情報のみに依存せず、最適な音声認識エンジンを使うことで認識率を高める。また、複数の音声認識エンジンを同時に動作させることなく、システムリソースを効率的に利用する。
【0019】
本発明の実施形態では、顧客との通話中に異なる言語ごとに最適な認識エンジンを採用することを可能にして通話中における音声の認識率を向上させる。
以下、図面を参照して、本発明の実施例について説明する。
【実施例】
【0020】
最初に、図1を参照して、コールセンタシステムについて説明する。
図1に示されるように、コールセンタシステムは、ネットワーク100を介して、IP−PBX(Internet Protocol−Private Branch eXchange:IP回線対応構内交換機)装置101、CTI装置102、音声通話処理システム103及びオペレータ用端末104が接続されて構成されている。
【0021】
IP−PBX装置101は、顧客105の通話端末106からの呼を受けて、IP網と公衆網107のプロトコル変換、発着信の呼制御などをおこなう。
【0022】
CTI装置102は、IP−PBX装置101から通話情報(着番号等)を取得して、音声通話処理システム103に送信する。
【0023】
オペレータ用端末104は、オペレータ108がオペレータ業務に使うオペレータPC端末であり、顧客105の通話端末106と公衆網107を介して通話を行う。
【0024】
顧客105の通話端末106から公衆網107を介して接続されるIP−PBX装置101が、ネットワーク100を介してオペレータ用端末104と接続して通話を行う。オペレータ108は、オペレータ用端末104から電話操作をすることができ、顧客105からの着信がオペレータ用端末104に表示されると、オペレータ用端末104から応答を操作して顧客105とオペレータ108は通話状態になる。
【0025】
音声通話処理システム103は、通話録音情報管理装置109、通話録音装置110、音声認識制御装置111、音声認識結果管理装置112、音声認識装置113を有する。
【0026】
通話録音装置110は、通話端末106でやりとりされる通話のデータストリームを、IP−PBX装置101を介して録音データとして録音する装置である。通話端末106での通話は、通話録音装置110に送られて録音ファイルとして保存される。通話録音装置110は、ミラーリングした通話音声を取得して録音して音声認識装置113に送信する。通話録音情報管理装置109は、通話情報と録音情報を対応付けて管理するためのサーバである。
【0027】
音声認識装置113は、録音データを音声認識エンジンにより、テキストデータに変換する。音声認識装置113は、日本語用エンジン113aと英語語用エンジン113bを有する。通常、顧客105が日本語で通話する場合には日本語用エンジン113aが用いられ、顧客105が英語で通話する場合には英語用エンジン113bが用いられる。日本語用エンジン113a及び英語用エンジン113bは、音声認識のアルゴリズム処理を行い、認識結果をテキストデータとして出力する。音声認識装置113は、各言語に対し複数の音声認識エンジンを持つことも可能である。
【0028】
音声認識制御装置111は、オペレータ用端末104からの音声認識要求を受けて、音声認識装置113に指示を与える。音声認識結果管理装置112は、音声認識装置113が出力するテキストデータをデータベースに格納して音声認識結果を蓄積する。ブラウザアクセスで認識した結果や言語選択画面をオペレータ用端末104に表示させる。
【0029】
次に、実施例の通話音声処理システムについて説明する。
【0030】
図2に示すように、オペレータ用端末104のオペレータPC画面は、通話内容表示領域200と、通話内容表示領域200に隣接した言語選択領域210を有する。音声認識装置113の音声認識エンジンを用いて音声を認識した認識結果は、音声認識結果管理装置112を介してオペレータ用端末104の通話内容表示領域200に表示される。言語選択画面は、言語選択領域210に表示される。
【0031】
オペレータ用端末104のオペレータPC画面は、音声認識結果が表示される通話内容表示領域200と言語選択領域210をウェブブラウザで表示する。言語選択領域210では、音声認識装置113が対応可能な言語が表示されており、言語を選択すると通話録音情報管理装置112に通知する。音声をリアルタイム認識する際、開始時(着信時)はCTI情報(例えば、着番号)により予め決められた音声認識エンジンが選択される。
【0032】
オペレータ108が音声認識エンジンの言語を切替える際に、オペレータ108は言語選択領域210で言語を選択する。選択した言語に対応する音声認識エンジンをテーブルを用いて決定し、音声認識エンジンを即時に切替える。
【0033】
言語選択領域は、日本語と英語(English)が選択可能なオペレータPC画面である。オペレータ108は、オペレータ用端末104を操作して言語選択領域210ら言語を選択する。この場合は、オペレータ108は、言語選択領域210から日本語か英語(English)を選択可能である。言語を選択したら、言語選択領域210の“submit”のボタン220を押して言語を決定する。通話内容表示領域200には、音声認識結果管理装置112に蓄積されたが音声認識結果230が表示される。
【0034】
通話録音情報管理装置109は、着番号・言語対応テーブル300(図3のテーブル(T−4))、手動切替え用テーブル400(図4のテーブル(T−5)、通話情報テーブル500(図5のテーブル(T−6))及び音声認識結果テーブル700(図7のテーブル(T−8))を有する。音声認識制御装置11は、音声認識エンジン選択テーブル600(図6のテーブル(T−7))を有する。
【0035】
図3に示すように、着番号・言語対応テーブル(T−4)300は、着番号300aと言語300bを対応付けるテーブルである。例えば、着番号300aの“111”には、言語300bの“日本語”が対応している。
【0036】
図4に示すように、手動切替え用のテーブル(T−5)400は、切替えID400aと言語400bを対応付けるテーブルである。オペレータ108による言語選択時にオペレータ108が手動で日本語か英語を切り替えて選択するテーブルである。例えば、切替えID400aの“F001”には、言語400bの”日本語”が対応し、切替えID400aの“F002”には言語400bの“英語”が対応している。
【0037】
図5に示すように、通話情報テーブル(T−6)500は、通話識別ID500a、着番号500b、エンジンID500c及び言語500dを対応付けて管理するテーブルである。例えば、通話識別ID500aの“AAAA”、着番号500bの“1113”、エンジンID500cの“1”には、言語500dの“日本語”が対応する。また、通話識別ID500a“のBBBB”、着番号500bの“1111”、エンジンID500cの“4”には、言語500dの“英語”が対応している。
【0038】
図6に示すように、音声認識エンジン選択テーブル(T−7)600は、音声認識エンジンを選択するためのテーブルである。音声認識エンジン選択テーブル(T−7)600は、同じ言語用エンジンが複数ある場合の対応も考慮して、ID600a、言語600b、音声認識エンジンアドレス600c、利用状態600dを対応付けて管理する。ここで、音声認識エンジン選択テーブル(T−7)600では省略するが、方言別の言語のエンジンを用意しても良い。方言別の言語とは、英語の場合には、UK英語あるいはUS英語などである。例えば、ID600aの“1”、言語600bの“日本語”、音声認識エンジンアドレス600cの“xxx.xxx.xxx.100.50000”では、利用状態600dは“利用中”となっている。
【0039】
図7に示すように、音声認識結果テーブル(T−8)700は、通話を識別するための通話識別ID70a、音声認識結果の出力順に付与されるシーケンス番号700b、認識実行日時700c(テーブル追加日時に等しい)、認識結果語彙700d(1レコードは、1有音区間分のデータを持つ)を有する。音声認識結果管理装置112は、音声認識装置113から音声認識結果を受信したら音声認識結果テーブル(T−8)700に格納する。音声認識結果テーブル(T−8)の認識実行日時によって、通話中のリアルタイムの認識か、通話終了後の認識かを判断する。例えば、通話識別ID700aの“BBBBB”シーケンス番号700bの“1”、認識実行日時700cの“2017/09/04 13:00:05”には、認識結果語彙700dの“波浪”が対応している。
【0040】
次に、実施例の通話音声処理システムの動作について説明する。
【0041】
例として、日本語と英語に対応している通話音声処理システムにおいて、自動選択で日本語用エンジン113aが選択された後、英語用エンジン113bに切替える場合を説明する。
【0042】
図8及び図10を参照して、着信時の動作について説明する。
【0043】
最初に、通話録音情報管理装置109は、CTI装置102からCTI情報(通話情報)として着番号を受信する(S800)。
【0044】
通話録音情報管理装置109は、着番号と言語を対応付ける着番号・言語対応テーブル300(図3のテーブル(T−4))を参照して言語として日本語を選択して着番号言語変換処理(S801)を行い、言語として日本語を使用することを音声認識制御装置111へ通知する(S802)。
【0045】
音声認識制御装置111は、音声認識エンジンとして日本語用エンジン113aを選択する音声認識エンジン選択処理(S803)を行い、音声認識エンジン選択テーブル600(図6のテーブル(T−7))を書換え、音声認識エンジンアドレスとIDを通話録音情報管理装置109に返す(S804)。
【0046】
ここで、書換え前後の音声認識エンジン選択テーブルをそれぞれ図15(a)、(b)に示す。テーブル(T−7a)600Aが書換え前のテーブル(図15(a))であり、テーブル(T−7a’)600Bが書換え後のテーブル(図15(b))である。具体的には、着信時書換え前の音声認識エンジン選択テーブル(T−7a)600AのID“1”の“日本語”が“空き”の状態から、着信時書換え後の音声認識エンジン選択テーブル(T−7a’)600BのID“1”の“日本語”が“利用中”の状態になる。
【0047】
通話録音情報管理装置109は、通話情報を設定(S805)して、音声認識エンジンアドレスを通話録音装置110に送る(S806)。この場合は、通話録音装置110に日本語用エンジン113aのアドレスを送る。通話録音情報管理装置109は、図5の通話情報テーブル(T−6a)500に当該通話情報を追加する。具体的には、図13(a)、(b)に示すように、着信時書換え前の通話情報テーブル(T−6a)500Aに、通話識別ID“BBBBB”、着番号“1113”、エンジンID“1”、言語“日本語”を追加して、着信時書換え後の通話情報テーブル(T−6a’)500Bを作成する。
【0048】
通話録音装置110は、通話を録音し、エンジンアドレス(日本語用エンジンアドレス)を設定してミラーリングされた通話音声を音声認識装置111に送る(S808)。
【0049】
音声認識装置113は、日本語用エンジン113aで音声認識を実行し(S809)、認識結果を音声認識結果管理装置に送る(S810)。
【0050】
音声認識結果管理装置112は、音声認識装置113から送られてきた認識結果を蓄積する(S811)。
【0051】
音声認識結果管理装置112に蓄積された認識結果は、オペレータ用端末104(オペレータPC)に送られて、音声認識結果がオペレータPC画面の通話内容表示領域200(図2参照)に表示される(S812)。
【0052】
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された認識結果を閲覧する(S813)。
【0053】
この際、図10に示すように、顧客105が日本語ではなく英語で通話を行った場合には、音声認識装置113は、日本語用エンジン113aで音声認識を実行し音声認識結果管理装置112に認識結果を送る。この場合、音声認識結果管理装置112は、音声認識装置113から送られてきた間違った認識結果を蓄積して記録する。そして、音声認識結果管理装置112に蓄積された間違った認識結果は、オペレータ用端末(オペレータPC)104に送られて間違った音声認識結果がオペレータPC画面の通話内容表示領域200に表示される。
【0054】
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された間違った認識結果を閲覧する。
【0055】
例えば、顧客105が“Hello”という音声を発した場合には、音声認識装置113は日本語用エンジン113aで音声認識を実行し“波浪”と認識する。この結果、音声認識結果管理装置112には間違った認識結果(“波浪”)が蓄積される。音声認識結果管理装置112に蓄積された間違った認識結果(“波浪”)は、オペレータPC画面の通話内容表示領域200に表示される。
【0056】
次に、図9及び図11を参照して、オペレータ操作による音声認識エンジン切替え時の動作について説明する。
【0057】
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された間違った認識結果(図10の“波浪”)を閲覧・確認して、音声認識エンジンの誤りに気付いて、音声認識の言語を日本語から英語(English)に切替える。オペレータ108は、音声認識の言語を英語に切り替えるため、オペレータPC画面に表示された言語選択領域210で英語(English)を選択し、“submit”のボタン220を押して言語として英語を選択し決定する(S900)。そして、英語用の切替えID(F002)が通話録音情報管理装置109に通知される(S901)。
【0058】
通話録音情報管理装置109は、手動切替え用テーブル400(図4のテーブル(T−5))を参照して、英語用切替えID(F002)に対応した言語である英語に変換する(S902)。
【0059】
通話録音情報管理装置109は、手動切替え用テーブル400(図4のテーブル(T−5))を用いて変換した言語である英語を音声認識制御装置111へ通知して、音声認識エンジンとして英語用エンジンを利用することを音声認識制御装置111へ知らせる(S903)。
【0060】
音声認識制御装置111は、音声認識エンジンとして英語用エンジン113bを選択(S904)して、音声認識エンジン選択テーブル600(図6のテーブル(T−7))の書換え利用可能な英語用エンジンアドレスとIDを返す(S905)。ここで、切替え時の書換え前後のテーブルをそれぞれ図16(a)、(b)に示すテーブル(T−7b)600C、テーブルT−7b’(600D)に示す。
【0061】
具体的には、手動切替え時書換え前の音声認識エンジン選択テーブル(T−7b)600CのID“1”の“日本語”が“利用中”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル(T−7b’)600DのID“1”の“日本語”が“空き”の状態になる。さらに、手動切替え時書換え前の音声認識エンジン選択テーブル(T−7b)600CのID“3”の“英語”が“空き”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル(T−7b’)600DのID“3”の“英語”が“利用中”の状態になる。
【0062】
通話録音情報管理装置109は、通話情報を更新する(S906)。具体的には、通話情報に紐付いた音声認識エンジンのIDを利用する英語用エンジン113bのIDに更新する。そして、通話録音情報管理装置109は、通話録音装置110に英語用のエンジンアドレスを送る(S907)。
【0063】
通話録音情報管理装置109は、図14(a)、(b)に示すように、手動切替え時書換え前の通話情報テーブル(T−6b)500Cを手動切替え時書換え後の通話情報テーブル(T−6b’)500Dに切替える。具体的には、手動切替え時書換え前の通話情報テーブル(T−6b)500Cの通話識別ID“BBBBB”のエンジンIDを“1”から“3”に、言語を“日本語”から“英語”に切替えて、手動切替え時書換え後の通話情報テーブル(T−6b’)500Dを作成する。
【0064】
通話録音装置110は、音声認識エンジンのアドレスを更新して(S908)、通話音声を音声認識装置に送る(S909)。
【0065】
音声認識装置113は、切替えた英語用エンジン113bを用いて音声認識を実行し(S910)、音声認識結果管理装置112に認識結果を送信する(S911)。
【0066】
音声認識結果管理装置112は、音声認識装置113から送られてきた認識結果を蓄積する(S912)。
【0067】
音声認識結果管理装置112に蓄積された認識結果は、オペレータ用端末(オペレータPC)104に送られて音声認識結果がオペレータPC画面の通話内容表示領域200(図2参照)に表示される(S913)。
【0068】
オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された認識結果を閲覧する(S914)。
【0069】
この際、図11に示すように、顧客105が英語で通話を行った場合には、音声認識装置113は、英語用エンジン113bで音声認識を実行し音声認識結果管理装置112に認識結果を送る。この場合、音声認識結果管理装置112は、音声認識装置113から送られてきた正しい(顧客の言語に合った)認識結果を蓄積する。そして、音声認識結果管理装置112に蓄積された正しい認識結果は、オペレータ用端末(オペレータPC)104に送られて正しい音声認識結果がオペレータPC画面の通話内容表示領域220に表示される。オペレータ108は、オペレータPC画面の通話内容表示領域200に表示された正しい認識結果を閲覧する。
【0070】
例えば、顧客105が“Please”という音声を発した場合には、音声認識装置113は英語用エンジン113bで音声認識を実行し“Please”と認識して、音声認識結果管理装置112に正しい認識結果(“Please”)が蓄積される。音声認識結果管理装置112に蓄積された正しい認識結果(“Please”)は、オペレータPC画面の通話内容表示領域200に表示される。
【0071】
最後に、図12を参照して、認識エンジンの切替え失敗時の再実行動作について説明する。
通話終了後、通話録音装置110は通話の録音を録音ファイル110aに出力し、音声認識装置113に送る。音声認識装置113は、録音ファイル110aに対して音声認識を実行し音声認識結果管理装置112に認識結果を蓄積する。
【0072】
具体的には、通話中に英語用エンジン113bが利用中により英語用エンジン113bへの即時切替えができなかった場合は、英語用エンジン113bが利用可能になった時点である通話終了後に出力される録音ファイル110aを音声認識装置113に送る。そして、通話終了後に英語用エンジン113bを用いて音声認識を実行する。
【0073】
具体的には、着信後に、英語用エンジン113bが利用中か否かを判断する。この判断の結果、英語用エンジン113bが利用中でなく、英語用エンジン113bを使用可能と判断した場合には、英語用エンジン113bを用いて着信後の通話中の音声情報を認識する。
【0074】
一方、上記判断の結果、英語用エンジン113bが利用中により、英語用エンジン113bを使用不可能と判断した場合には、通話終了後に、英語用エンジン113bを用いて着信後の音声情報を通話終了後に認識する。
【0075】
実施例によれば、CTI情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択することが可能になる。
【符号の説明】
【0076】
100 ネットワーク
101 IP−PBX装置
102 CTI装置
103 音声通話処理システム
104 オペレータ用端末
105 顧客
106 通話端末
107 公衆網
108 オペレータ
109 通話録音情報管理装置
110 通話録音装置
111 音声認識制御装置
112 音声認識結果管理装置
113 音声認識装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16