IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立情報通信エンジニアリングの特許一覧

特許7628041通話音声認識システムおよび通話音声認識方法
<>
  • 特許-通話音声認識システムおよび通話音声認識方法 図1
  • 特許-通話音声認識システムおよび通話音声認識方法 図2
  • 特許-通話音声認識システムおよび通話音声認識方法 図3
  • 特許-通話音声認識システムおよび通話音声認識方法 図4
  • 特許-通話音声認識システムおよび通話音声認識方法 図5
  • 特許-通話音声認識システムおよび通話音声認識方法 図6
  • 特許-通話音声認識システムおよび通話音声認識方法 図7
  • 特許-通話音声認識システムおよび通話音声認識方法 図8
  • 特許-通話音声認識システムおよび通話音声認識方法 図9
  • 特許-通話音声認識システムおよび通話音声認識方法 図10
  • 特許-通話音声認識システムおよび通話音声認識方法 図11
  • 特許-通話音声認識システムおよび通話音声認識方法 図12
  • 特許-通話音声認識システムおよび通話音声認識方法 図13
  • 特許-通話音声認識システムおよび通話音声認識方法 図14
  • 特許-通話音声認識システムおよび通話音声認識方法 図15A
  • 特許-通話音声認識システムおよび通話音声認識方法 図15B
  • 特許-通話音声認識システムおよび通話音声認識方法 図16
  • 特許-通話音声認識システムおよび通話音声認識方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-30
(45)【発行日】2025-02-07
(54)【発明の名称】通話音声認識システムおよび通話音声認識方法
(51)【国際特許分類】
   H04M 3/51 20060101AFI20250131BHJP
   H04M 3/42 20060101ALI20250131BHJP
   G10L 15/00 20130101ALI20250131BHJP
   G10L 15/10 20060101ALI20250131BHJP
【FI】
H04M3/51
H04M3/42 P
G10L15/00 200A
G10L15/10 500N
【請求項の数】 5
(21)【出願番号】P 2021051690
(22)【出願日】2021-03-25
(65)【公開番号】P2022149495
(43)【公開日】2022-10-07
【審査請求日】2023-12-21
(73)【特許権者】
【識別番号】000233295
【氏名又は名称】株式会社日立情報通信エンジニアリング
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】本間 理紗子
(72)【発明者】
【氏名】杉山 隆司
【審査官】石井 則之
(56)【参考文献】
【文献】特開2017-053997(JP,A)
【文献】特開2020-150409(JP,A)
【文献】特開2003-134256(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/51
H04M 3/42
G10L 15/00
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
通話音声を音声認識する通話音声認識システムであって、
通話の音声を録音する通話録音装置と、
前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、
通話音声を入力して、テキスト化する音声認識装置と、
前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、
前記音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、
前記音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、
前記音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示し、
さらに、前記音声認識制御装置は、通話の着信先の電話番号ごとに定められたサイトのサイト優先度を格納するサイト情報管理テーブルを保持し、
前記認識順序は、前記サイト情報管理テーブルのサイト優先度に基づいて定めることを特徴とする通話音声認識システム。
【請求項2】
通話音声を音声認識する通話音声認識システムであって、
通話の音声を録音する通話録音装置と、
前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、
通話音声を入力して、テキスト化する音声認識装置と、
前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、
前記音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、
前記音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、
前記音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示し、
さらに、前記音声認識制御装置は、通話における話者の発話時間を算出する発話時間算出部を有し、
前記認識順序は、前記通話における話者の発話時間に基づいて定めることを特徴とする通話音声認識システム。
【請求項3】
さらに、前記音声認識制御装置は、通話における話者の感情を分析し数値化する感情分析部を有し、
前記認識順序は、前記感情分析部により数値化された感情レベルに基づいて定めることを特徴とする請求項1記載の通話音声認識システム。
【請求項4】
通話音声を音声認識する通話音声認識システムで行われる通話音声認識方法であって、
通話録音装置が、通話の音声を録音し、
通話録音管理装置が、前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信し、
音声認識装置が、通話音声を入力して、テキスト化し、
音声認識制御装置が、前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示し、
通話ごとの認識優先度を格納する認識順序管理テーブルを保持する前記音声認識制御装置の認識順序制御部が、通話ごとの通話の音声認識順序を制御し、
認識実行指示部が、前記音声認識装置に通話の音声データのテキスト化を指示し、
前記認識実行指示部が、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示する場合において、
さらに、通話の着信先の電話番号ごとに定められたサイトのサイト優先度を格納するサイト情報管理テーブルを保持する前記音声認識制御装置が、前記認識順序を、前記サイト情報管理テーブルのサイト優先度に基づいて定めることを特徴とする通話音声認識方法。
【請求項5】
通話音声を音声認識する通話音声認識システムで行われる通話音声認識方法であって、
通話録音装置が、通話の音声を録音し、
通話録音管理装置が、前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信し、
音声認識装置が、通話音声を入力して、テキスト化し、
音声認識制御装置が、前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示し、
通話ごとの認識優先度を格納する認識順序管理テーブルを保持する前記音声認識制御装置の認識順序制御部が、通話ごとの通話の音声認識順序を制御し、
認識実行指示部が、前記音声認識装置に通話の音声データのテキスト化を指示し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示する場合において、
さらに、通話における話者の発話時間を算出する発話時間算出部を有する前記音声認識制御装置が、前記認識順序を、前記通話における話者の発話時間に基づいて定めることを特徴とする通話音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話音声認識システムおよび通話音声認識方法に係り、特に、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法に関する。
【背景技術】
【0002】
コールセンタ等の電話応対業務において、顧客とオペレータの通話を音声認識し、認識結果をテキスト化し、オペレータの端末に表示したり、オペレータと顧客の通話をスーパバイザの端末に表示したりして、顧客との対応をサポートするシステムが一般的に普及している。
【0003】
コールセンタにおいて、通話の音声認識をして、スーパバイザの監視業務の効率化と、オペレータの顧客への応対品質を向上させる技術に関しては、例えば、特許文献1がある。特許文献1に記載されたコールセンタシステムでは、顧客とオペレータの通話内容を音声認識して、それによるテキストの中での特定ワードをモニタして、警告値が大きくなったときには、スーパバイザへのアラートを発行する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2020-150409号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に通話を音声認識するのは、音声認識装置のサーバリソース(ハードウェアリソース、ソフトウェアリソース)が必要であり、認識依頼がサーバリソースを超過した場合は認識処理に待ちが生じる。
【0006】
例えば、複数の企業または拠点について、いわゆるクラウド型のサービス形態によって、音声認識サービスを運用するシステムの場合、全ての企業または拠点からのサービス要請を同列に扱うことが一般的である。そのため、通話を円滑に音声認識するには、全ての企業または拠点の営業形態での繁忙期を想定し、通話の音声認識に要する音声認識装置のサーバリソースを確保しておく必要がある。それにより、システム導入のコストがかかるが、このコストを削減するとサービスレベルが低下してしまう。よって、必要とされるサービスレベルを維持して運用コストの低減を図るためには、限られたサーバリソースを効率的に活用する制御を音声認識システムに導入することが求められる。
【0007】
特に、通話をリアルタイムでモニタリングし、オペレータがそのテキストを見ながら通話応答をしたり、スーパバイザが特に注意すべき通話を監視したりしなければならないコールセンタでの運用では、サーバリソースの有効な割当が重要な課題となる。
【0008】
また、一般に、コールセンタへの通話の種別によって、特に、企業側によって、苦情(クレーム)に関する通話などの注視すべきものと、料金の問合せ、商品の問合せなど、比較的、オペレータにとって、対応が容易なものがある。このように、コールセンタへの通話の種別によって、ある一定期間同時に顧客からの通話が有った場合に、どのような順で、音声認識によりテキスト化して、オペレータやスーパバイザに表示するかが、オペレータの顧客への応対品質を向上させるために重要なものになる。
【0009】
特許文献1に記載された通話音声認識では、通話の音声認識の順番をどのように割当てるかについては、考慮されていない。
【0010】
本発明の目的は、コールセンタにおいて、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法を提供することにある。
【課題を解決するための手段】
【0011】
本発明に係る通話音声認識システムは、好ましくは、通話音声を音声認識する通話音声認識システムであって、通話の音声を録音する通話録音装置と、通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、通話音声を入力して、テキスト化する音声認識装置と、通話録音管理装置からの通話情報と音声データを受信して、音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、認識実行指示部は、認識順序管理テーブルに格納された認識優先度に基づいて、音声認識装置に対して音声認識を行う通話を指示するようにしたものである。
【発明の効果】
【0012】
本発明によれば、コールセンタにおいて、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタなどの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法を提供することができる。
【図面の簡単な説明】
【0013】
図1】実施形態1に係る通話音声認識システムの構成と処理の概要を説明する図である。
図2】通話録音装置の構成を示すブロック図である。
図3】通話録音管理装置の構成を示すブロック図である。
図4】音声認識制御装置の構成を示すブロック図である。
図5】音声認識装置の構成を示すブロック図である。
図6】認識結果管理装置の構成を示すブロック図である。
図7】通話情報テーブルの一例を示す図である。
図8】オペレータ管理情報テーブルの一例を示す図である。
図9】IP内線情報テーブルの一例を示す図である。
図10】録音情報テーブルの一例を示す図である。
図11】認識結果テーブルの一例を示す図である。
図12】優先度管理テーブルの一例を示す図である。
図13】サイト情報管理テーブルの一例を示す図である。
図14】認識順序管理テーブルの一例を示す図である。
図15A】外部の通話端末の発信から、通話が音声認識されてテキストがPC端末に表示される一連の処理について説明する図である(その一)。
図15B】外部の通話端末の発信から、通話が音声認識されてテキストがPC端末に表示される一連の処理について説明する図である(その二)。
図16】音声認識の一連の処理を説明する図である。
図17】実施形態2に係る通話音声認識システムの構成と処理の概要を説明する図である。
【発明を実施するための形態】
【0014】
以下、本発明に係る各実施形態を、図1ないし図17を用いて説明する。
【0015】
〔実施形態1〕
以下、本発明に係る実施形態1を、図1ないし図16を用いて説明する。
【0016】
先ず、図1を用いて実施形態1に係る通話音声認識システムの構成と処理の概要について説明する。
本実施形態の通話音声認識システムは、図1に示されるように、顧客等の架電者(電話をかける者)の通話端末1から公衆網5を介して接続されるIP-PBX(Internet Protocol-Private Branch eXchange、IP回線対応構内交換機)30が、ネットワーク7を介して、オペレータの通話端末20(図では、20a、20b、20cと表記)と接続し通話をする構成を有する。オペレータは、オペレータ用PC端末25(図では、25a、25b、25cと表記)から通話端末20の電話操作をすることができ、架電者からの着信が、オペレータ用PC端末25に表示されると、PC端末25から応答を操作して、通話端末20が応答動作を実施して架電者とオペレータは通話状態になる。
【0017】
なお、本実施形態では、コールセンタは、サイトS1、サイトS2、サイトS3のように部署別に分けられているものとする。例えば、サイトS1は、顧客からの苦情対応の部署、サイトS2は、顧客からの商品、サービスなどの質問対応の部署、サイトS3は、顧客からの商品、サービスなどの新規受付対応の部署であり、その通話に対応するオペレータは、それぞれの通話に対応する応答を行う。
【0018】
通話音声認識システムには、オペレータを管理・監督するスーパバイザが居て、通話端末20sとスーパバイザ用PC端末25sにより、状況を監視し、必要なときには、オペレータを補助する操作を行う。スーパバイザ用PC端末25sは、PC端末25が有する電話制御部に加えて、管理者用のコールセンタ運用情報を表示する管理ツールが動作している。
【0019】
通話音声認識システム100は、ネットワーク7を介して、IP-PBX30、CTI(Computer Telephony Integration)装置40、通話録音装置50、通話録音管理装置60、音声認識制御装置110、音声認識装置120、認識結果管理装置130が接続して構成されている。
【0020】
IP-PBX30は、IP網と公衆網5のプロトコル変換、発着信の制御などを行う。CTI装置40は、コールセンタでの呼制御の中核となる装置であり、コールセンタの状況を管理し、IP-PBX30から受取った呼の状態情報をオペレータ用PC端末25、スーパバイザPC端末25sに送信するなどの機能を有する。
【0021】
通話録音装置50は、通話録音処理による録音データを作成する装置である。通話録音管理装置60は、録音データやこれに付加する通話情報を管理して、音声認識制御装置110に音声を送信する装置である。音声認識制御装置110は、通話録音管理装置60から音声認識の要求があったときに、音声認識装置120の使用状況やハードウェアの負荷と、通話の認識の優先度を考慮して、複数の音声認識装置120から選択して、認識する通話音声を音声認識装置に送信する装置である。音声認識装置120は、音声認識エンジンを搭載し、送信された音声を、通話テキストに変換する装置である。認識結果管理装置130は、音声認識装置120が認識してテキスト化したデータを管理する装置である。
【0022】
次に、図2ないし図6を用いて通話音声認識システムの各部の構成の詳細について説明する。
【0023】
先ず、図2を用いて通話録音装置の構成について説明する。
通話録音装置50は、図2に示されるように、ネットワークI/F(InterFace)部501、録音部502、通話録音管理装置I/F部503、端末I/F部504、記憶部505を有する。ネットワークI/F(InterFace)部501は、IPネットワークとのインタフェースを司り、RTPパケットを受信する機能部である。録音部502は、RTPパケットにより通話の録音をする機能部である。通話録音管理装置I/F部503は、録音した音声データを通話録音管理装置60に送信する機能部である。端末I/F部504は、オペレータ用PC端末25、スーパバイザ用PC端末25sとのインタフェースを司る機能部である。記憶部505は、テーブルやデータを格納する機能部である。通話録音装置50の記憶部505には、IP内線情報テーブル72、録音情報テーブル73、音声データファイル90が格納されている。なお、各テーブルの詳細については、後述する。
【0024】
次に、図3を用いて通話録音管理装置60の構成について説明する。
通話録音管理装置60は、図3に示されるように、通話録音判定部601、通話録音データ取得部602、CTI装置I/F部603、通話録音装置I/F部604、音声認識制御装置I/F部605、記憶部606を有する。通話録音判定部601は、通話情報から通話を録音すべきか否かを判定する機能部である。通話録音データ取得部602は、通話録音装置50から録音した音声データを受取る機能部である。CTI装置I/F部603は、CTI装置40とのインタフェースを司る機能部である。通話録音装置I/F部604は、通話録音装置50とのインタフェースを司る機能部である。音声認識制御装置I/F部605は、音声認識制御装置110とのインタフェースを司る機能部である。記憶部606は、テーブルやデータを格納する機能部である。通話録音管理装置60の記憶部606には、通話情報テーブル70、音声データファイル90が格納されている。なお、テーブルの詳細については、後述する。
【0025】
次に、図4を用いて音声認識制御装置110の構成について説明する。
音声認識制御装置110は、図4に示されるように、音声データファイル管理部1101、認識実行指示部1102、認識順序制御部1103、発話時間算出部1104、感情分析部1105、通話録音管理装置I/F部1106、音声認識装置I/F部1107、記憶部1108を有する。音声データファイル管理部1101は、音声データファイル90を管理する機能部である。認識実行指示部1102は、音声認識装置120に、音声データファイル90を送信し、音声認識を指示する機能部である。認識順序制御部1103は、通話の音声データの認識順序を制御する機能部である。発話時間算出部1104は、通話における話者の発話時間を算出する機能部である。感情分析部1105は、通話における話者の感情を分析し、数値化する機能部である。記憶部1108は、テーブルやデータを格納する機能部である。通話録音管理装置I/F部1106は、通話録音管理装置60とのインタフェースを司る機能部である。音声認識装置I/F部1107は、音声認識装置120とのインタフェースを司る機能部である。音声認識制御装置110の記憶部1108には、通話情報テーブル70、優先度管理テーブル76、サイト情報管理テーブル77、認識順序管理テーブル79、音声データファイル90が格納されている。なお、テーブルの詳細については、後述する。
【0026】
次に、図5を用いて音声認識装置120の構成について説明する。
音声認識装置120は、図5に示されるように、認識音声受信部1201、認識対象指示部1202、認識エンジン1203、音声認識制御装置I/F部1204、認識結果管理装置I/F部1205、記憶部1206を有する。認識音声受信部1201は、通話録音装置50から音声データを受信する機能部である。認識対象指示部1202は、音声認識制御装置110からの音声認識をする通話の通知を受けて、認識エンジン1203に認識対象を指示する機能部である。認識エンジン1203は、音声データを音声認識してテキスト化する機能部である。音声認識制御装置I/F部1204は、音声認識制御装置110とのインタフェースを司る機能部である。認識結果管理装置I/F部1205は、認識結果管理装置130とのインタフェースを司る機能部である。記憶部1206は、テーブルやデータを格納する機能部である。音声認識装置120の記憶部1206には、認識結果テーブル74と認識結果テキスト93が格納されている。なお、テーブルの詳細については、後述する。
【0027】
次に、図6を用いて認識結果管理装置130の構成について説明する。
認識結果管理装置130は、図6に示されるように、認識結果管理部1301、通話評価部1302、音声認識装置I/F部1303、端末I/F部1304、記憶部1305を有する。認識結果管理部1301は、音声認識装置120から受取った認識結果のテキストと関連する情報を管理する機能部である。通話評価部1302は、認識結果のテキストから、例えば、警告語が含まれているかなどの評価を行い、通話評価テーブル80に格納される通話評価データを生成する機能部である。音声認識装置I/F部1303は、音声認識装置120とのインタフェースを司る機能部である。端末I/F部1304は、オペレータ用PC端末25、スーパバイザ用PC端末25sとのインタフェースを司る機能部である。記憶部1305は、テーブルやデータを格納する機能部である。認識結果管理装置130の記憶部1305には、認識結果テーブル74、認識結果テキスト93、通話評価テーブル80(詳細は図示せず)が格納されている。なお、テーブルの詳細については、後述する。
【0028】
次に、図7ないし図14を用いて通話音声認識システムに用いられるデータ構造について説明する。
【0029】
通話情報テーブル70は、CTI装置40から送信される通話に関連する情報を、通話録音管理装置60が保持するためのテーブルである。通話情報テーブル70は、図7に示されるように、発信番号70a、内線番号70b、通話開始時間70c、通話終了時間70dの各フィールドを有する。
【0030】
発信番号70aには、通話をかけた通話端末1の発信番号が格納される。内線番号70bには、この通話を受信した通話の通話音声認識システムでの内線番号が格納される。通話開始時間70cには、かかってきた通話が開始された時刻が格納される。通話終了時間70dには、かかってきた通話が終了した時刻が格納される。
【0031】
オペレータ管理情報テーブル71は、オペレータの設定情報を保持するテーブルであり、図示しなかったがCTI装置40の記憶部に格納されている。オペレータ管理情報テーブル71は、図8に示されるように、内線番号71a、オペレータID71b、オペレータ名71c、所属サイトID71dの各フィールドを有する。内線番号71aには、このオペレータに割り当てられた内線番号が格納される。オペレータID71bには、オペレータに割り当てられた識別子が格納される。オペレータ名71cには、このオペレータの名前が格納される。所属サイトID71dには、このオペレータの所属する部署(サイト)のIDが格納される。
【0032】
IP内線情報テーブル72は、内線番号とIPアドレス対応テーブルの対応付けを示すテーブルであり、通話録音装置50に保持される。IP内線情報テーブル72は、図9に示されるように、内線番号72a、IPアドレス72b、サイトID72cの各フィールドを有する。IP内線情報テーブル72は、内線番号72aのフィールドの内線番号が、IPアドレス72bのフィールドのIPアドレスを有することを意味している。サイトID72cには、その内線番号の属する部署(サイト)を示す名称や識別子が格納される。
【0033】
録音情報テーブル73は、通話の録音に関する情報を保持するためのテーブルであり、通話録音装置50に保持される。録音情報テーブル73は、図10に示されるように、通話録音装置ID73a、録音ID73b、録音開始時刻73c、IPアドレス73d、音声データファイル73eの各フィールドを有する。通話録音装置ID73aには、通話録音装置50を識別するためのIDが格納される。録音ID73bには、通話録音のエントリを識別するためのIDが格納される。録音開始時刻73cには、通話録音の開始時刻が格納される。IPアドレス73dには、通話に係る通話端末20のIPアドレスが格納される。音声データファイル73eには、通話の音声データファイルのファイルパスが格納される。
【0034】
認識結果テーブル74は、音声認識結果に関する情報を保持するためのテーブルであり、音声認識装置120に保持され、認識結果管理装置130にコピーされて、認識結果テーブル74として保持される。認識結果テーブル74は、図11に示されるように、通話録音装置ID74a、録音ID74b、内線番号74c、通話ID74d、認識結果テキスト74eの各フィールドを有する。通話録音装置ID74aには、通話録音装置50を識別するためのIDが格納される。録音ID74bには、通話録音のエントリを識別するためのIDが格納される。内線番号74cには、通話端末20のセンタにおける内線番号が格納される。通話ID74dには、通話を識別するためのIDが格納される。認識結果テキスト74eには、通話における発話を音声認識してテキスト化したときのテキストファイルのファイルパス名が格納される。
【0035】
優先度管理テーブル76は、各優先度のプライオリティに関する情報を格納するテーブルであり、音声認識制御装置110に保持される。優先度管理テーブル76は、図12に示されるように、優先考慮項目76a、プライオリティ76bの各フィールドを有する。優先考慮項目76aは、各優先度を考慮する項目を識別する文字列が格納される。本実施形態では、優先考慮項目として、サイトごとの優先度を示す「サイト優先度」、通話ごとの発話時間である「発話時間」、通話を感情分析した結果である「感情レベル」がある。プライオリティ76bには、通話の認識順序を定めるにあたって、対応する優先考慮項目のプライオリティが格納される。ここでは、プライオリティ76bの値が小さいほど優先して、音声認識されるものとする。
【0036】
音声認識制御装置110は、このプライオリティに従って、通話に対応する音声を音声認識するように指示する。例えば、図12に示されるように、優先考慮項目76a「サイト優先度」が、プライオリティ一位となっているので、先ず、サイト優先度に従って、通話の認識順序を付け、もし、「サイト優先度」が同順位であるときには、次のプライオリティ二位の「感情レベル」に従って、通話の認識順序を付け、「感情レベル」が同順位であるときには、次のプライオリティ三位の「発話時間」に従って、通話の認識順序をつける。
【0037】
サイト優先度は、一般に苦情対応の部署のように、管理する側として通話の内容を詳細に把握すべきサイトに高い優先度付けをするようにする。
【0038】
また、感情レベルは、お客の感情が怒気を含んでいるなど好ましくないときには、その通話の優先度を高くする。
【0039】
通話の発話時間については、通話の発話時間が長いときには、音声認識のためのハードウェア・ソフトウェアリソースを多く消費するので、その通話の優先度を低くする。
【0040】
本実施形態では、認識優先度を三種類の優先考慮項目により判定することにしたが、この内の一つ、あるいは、二つを用いるようにしてもよいし、これ以外の優先考慮項目を付け加えるようにしてもよい。
【0041】
サイト情報管理テーブル77は、サイトごとの情報を格納するテーブルであり、音声認識制御装置110が保持するテーブルである。サイト情報管理テーブル77は、図13に示されるようにサイトID77a、サイト名称77b、サイト優先度77cからなる。サイトID77aには、サイトを一意的に識別するためのIDが格納される。サイト名称77bには、そのサイトの名称が格納される。サイト優先度77cには、そのサイトの認識優先度を判定するにあたってのサイトの優先度が格納される。ここでは、サイト優先度の値が小さいものほど優先するものとする。
【0042】
認識順序管理テーブル79は、通話ID79a、認識依頼時刻79b、サイトID79c、通話時間79d、音声データファイル79e、発話時間79f、感情レベル79g、認識優先度79hからなる。通話ID79aには、その通話を一意的に識別するIDが格納される。認識依頼時刻79bには、音声認識制御装置110が音声認識装置120に音声認識を依頼した時刻が格納される。サイトID79cには、その通話の着信した内線番号の属するサイトのサイトIDが格納される。通話時間79dには、その通話の通話時間が格納される。音声データファイル79eには、音声データファイルのファイルパスが格納される。発話時間79fには、その通話の話者が通話した時間が格納される。感情レベル79gには、その通話を感情分析したレベルが格納される。例えば、感情レベルの値が大きいほど、顧客の感情は怒りの感情を含むものとし、値が小さいときには、顧客の感情は穏やかであるとする。認識優先度79hには、その通話の音声認識を依頼する優先度が格納される。ここで、認識優先度79hの値が小さいものほど、認識順序が早く割り当てられるものとする。
【0043】
次に、図15Aないし図16を用いて通話音声認識システムの処理の詳細について説明する。
【0044】
先ず、図15Aおよび図15Bを用いて外部の通話端末の発信から、オペレータ用PC端末25およびスーパバイザ用PC端末25sに認識結果の表示を行うまでの一連の処理について説明する。
【0045】
先ず、顧客の通話端末1から発呼され(A01)、IP-PBX30で交換処理されて、コールセンタのオペレータの通話端末20に着呼したとする(A02)。
【0046】
IP-PBX30は、通話情報をCTI装置40に送信し(A03)、CTI装置40は、通話情報を通話録音管理装置60に送信する(A04)。
【0047】
IP-PBX30から通話端末20には、RTPパケットが送信されるが、IP-PBX30は、同時にコピーしたRTPパケットを通話録音装置50に転送する(A05)。
【0048】
通話録音装置50は、通話開始がされたことを、内線番号をパラメタとし、通話録音管理装置60に報告して(A06)、RTPパケットに基づいて、分割録音を開始し(S02a,S02b,…)、図9に示したIP内線情報テーブル72を参照し、図10に示した録音情報テーブル73に必要な情報を書き込む。
【0049】
また、CTI装置40は、通話録音管理装置60に、通話情報を送信する。
【0050】
通話録音管理装置60は、受信した内線番号をキーとして、通話認識情報テーブル(図示せず)を参照して、その内線番号にかかってきた電話に音声認識を行うか否かを判定する(S03)。通話認識情報テーブルには、内線番号ごとに、その内線番号にかかってきた通話に対して、リアルタイムで音声認識を行うか否かの情報がふくまれているものとする。通話録音管理装置60は、その通話がリアルタイム音声認識を行うべきものと判定したときに、通話録音装置50に音声データの転送を指示する(A07)。
【0051】
通話録音装置50は、それを受けて、通話と紐付けて通話録音管理装置60に音声データを送信する(A08)。
【0052】
次に、通話録音管理装置60は、音声認識制御装置110に、通話情報と音声データを送信する(A09)。
【0053】
音声認識制御装置110は、音声認識装置120のリソースの空きなどの情報を参照し、音声認識をする音声認識装置120を選択する(S04)。
【0054】
次に、音声認識制御装置110は、図14に示した認識順序管理テーブル79の認識優先度79hを参照し、認識優先度79hの値に従って、該当する通話の音声ファイルを音声認識装置120に送信し、音声認識を指示する(A10)。
【0055】
音声認識装置120は、これを受けて該当する通話の音声ファイルの音声認識を行う(S06)。そして、音声認識装置120は、認識結果管理装置130に、認識テキストを含む認識結果を送信する(A11)。
【0056】
認識結果管理装置130は、通話評価を行い(S07)、通話評価情報と認識結果テキストを、オペレータ用PC端末25とスーパバイザ用PC端末25sに送信する(A12、A13)。
【0057】
そして、オペレータ用PC端末25とスーパバイザ用PC端末25sは、認識テキストを表示する(S08、S09)。
【0058】
次に、図16を用いて音声認識の一連の処理を説明する。
先ず、通話録音管理装置60は、音声認識制御装置110に、通話情報と音声データファイルを送信する(A100、A101)。
【0059】
認識順序制御部1103は、送信されてきた通話情報を読み込む(A102)。
【0060】
また、認識順序制御部1103は、図13に示したサイト情報管理テーブル77を、読み込む(A103)。
【0061】
一方、音声ファイル管理部1101は、音声データファイル90を読み込み、発話時間算出部1104と、感情分析部1105に送信する(A105、A107)。
【0062】
発話時間算出部1104は、通話に紐付づけられた音声データを解析し、その通話の発話時間を算出し、認識順序管理テーブル79の発話時間79fに書き込む(A106)。
【0063】
感情分析部1105は、通話に紐付づけられた音声データを解析し、話者の通話を感情分析して、数値化してレベル分けし、認識順序管理テーブル79の感情レベル79gに書き込む(A108)。音声より話者の感情を分析する手法は、既にAIに関連する技術として様々に研究されており、公知の技術となっている。
【0064】
認識順序制御部1103は、図12に示した優先度管理テーブル76のデータを読み込み(A104)、図14に示した認識順序管理テーブル79のデータを読み込む(A109)。そして、認識順序制御部1103は、サイト情報管理テーブル77の通話に対応するサイトのサイト優先度77c、認識順序管理テーブル79の発話時間79f、感情レベル79gを取得し、優先度管理テーブル76のプライオリティ76bに従って、通話ごとの認識優先度を算出して、認識優先度79hに書き込む(A110)。
【0065】
認識優先度の算出は、プライオリティ76bに従った順番に行われ、サイト優先度が高い(値が小さい)、感情レベルからみて優先度が高い(値が大きい)、発話時間が短いものほど認識優先度が高く(値が小さく)設定される。
【0066】
認識実行指示部1102は、認識順序管理テーブル79の認識優先度79hを取得し(A111)、取得した認識優先度79hに従って、音声認識装置120の認識対象指示部1202に音声認識を行う対象となる通話を通知する(A112)。
【0067】
これを受けて、音声認識装置120の認識対象指示部1202は、音声認識を行う通話を認識エンジン1203に指示する(A114)。認識エンジン1203は、指示された通話に対応する音声データを入力し(A113)、音声認識を行って、認識結果テーブル74に必要な情報を書込み、認識結果テキスト93を出力する(A115)。
【0068】
以上、本実施形態によれば、音声認識制御装置は、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことを、音声認識装置に指示する。
【0069】
これにより、音声認識の処理順序が最適化され、コールセンタなどの適切な運用と、サーバリソースの有効活用を行うことができる。
【0070】
〔実施形態2〕
以下、図17を用いて実施形態2を説明する。
実施形態1では、あるコールセンタ内の部署を「サイト」として捉え、そこにかかってくる通話の音声認識の必要性から、サイト優先度を定める例について説明した。
【0071】
実施形態2では、音声認識サービスがクラウドとして、各企業に提供される場合の例であり、一つの音声認識サービスを提供されるクライアントを「サイト」として捉える。
【0072】
サイト優先度は、契約により、定期間(一年契約など)または通話認識ワード数などの定量的な量に依存する契約料金の高いものに対して、サイト優先度を高くすることが考えられる。また、音声認識サービスが重要とみなすクライアントの優先度を高くしてもよい。
【0073】
実施形態2のシステムの構成としては、クラウド音声認識システム1000が、インターネットなどのグローバルネットワーク9により、各サイトS1、サイトS2、サイトS3と、それぞれルータ300a、ルータ300bを介して接続されている。
【0074】
各サイトS1、サイトS2、サイトS3は、実施形態1と同様のIP-PBX30、CTI装置40、通話録音装置50、通話録音管理装置60を有しており、顧客からの通話の発着信と、通話の録音は、自サイトで行うものとする。
【0075】
クラウド音声認識システム1000は、実施形態1と同様の音声認識制御装置110、音声認識装置120、認識結果管理装置130を有しており、音声認識結果の認識結果テキストをサイトS1、サイトS2、サイトS3に送信する。クラウド音声認識システム1000は、各サイトから音声を受信し、サイト優先度を考慮に入れて、認識優先度を定めることは実施形態1と同様である。
【0076】
以上、本実施形態によれば、各サイトが一つの企業体として捉えられ、音声認識サービスをクラウドの形態として提供するときに、契約料金などの適切な根拠に従って、音声認識により通話の音声認識サービスを提供することができる。
【符号の説明】
【0077】
1…通話端末(顧客)
5…公衆網
7…ネットワーク
9…グローバルネットワーク
30…IP-PBX
40…CTI装置
50…通話録音装置
60…通話録音管理装置
110…音声認識制御装置
120…音声認識装置
130…認識結果管理装置
20…オペレータ用通話端末
25…オペレータ用PC端末
20s…通話端末
25s…スーパバイザ用PC端末
1000…クラウド音声認識システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15A
図15B
図16
図17