(58)【調査した分野】(Int.Cl.,DB名)
前記受け答え判定部は、検出された前記短い発話に対応する前記第2の話者の前記対話音声データの発話単位中に、前記第1の閾値より小さい第2の閾値以上の時間長の無音区間が検出できるか否かを判定し、前記第2の閾値以上の時間長の前記無音区間が検出できる場合に、前記第1の話者の前記短い発話を、前記受け答えと判定する、
ことを特徴とする請求項2に記載の対話要約生成装置。
前記受け答え判定部は、検出された前記短い発話が受け答えであると判定した場合に、前記短い発話に対応する第2の話者の前記対話音声データの発話単位を前記無音区間の前後で分離し、分離された前記無音区間の直前の発話区間の対話音声データを音声認識して得られた対話音声テキストと、受け答えと判定された前記短い発話とを対にして、前記要約文テキストに付加する、
ことを特徴とする請求項3に記載の対話要約生成装置。
前記受け答え判定部は、前記受け答えでないと判定された前記第1の話者の前記短い発話を相槌と判定し、判定された前記相槌を前記要約生成部に入力すべき前記対話音声テキストから削除する、
ことを特徴とする請求項1から4のいずれか1項に記載の対話要約生成装置。
前記音声認識部により生成された前記対話音声テキストを解析して複数の要素に区切り、区切られた複数の要素で名詞が連続するか否かを判定し、名詞が連続すると判定された複数の要素を結合して1つの要約単位を生成し、生成された要約単位で、前記要約生成部へ前記対話音声テキストを供給する音声認識後処理部をさらに備える、
ことを特徴とする請求項1から5のいずれか1項に記載の対話要約生成装置。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
【0022】
<本実施形態の音声処理システムのネットワーク構成>
以下では、顧客と、コールセンタのオペレータとの間で電話網を介してなされた通話を録音する例を説明するが、本実施形態はこれに限定されない。本実施形態は、例えば、通話に替えて、対面での対話をマイクロフォン等の集音装置により集音し録音した対話音声についても、同様に要約文を生成することができる。
図1は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。
図1を参照して、音声処理システムは、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、および対話要約照会用に利用可能なPC(Personal Computer)9を備える。PBX1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、コールセンタ構内に設置され、LAN(Local Area Network)/WAN(Wide Area Network)等のイントラネット8等のIP(Internet Protocol)ネットワークにより相互接続されてよい。
【0023】
或いは代替的に、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、インターネット等の遠隔IP接続を介して適宜コールセンタ外部に設置されてもよい。
特に、コールセンタのオペレータ以外の管理者等が対話要約照会用PC9を操作して要約文データベース内の応対履歴である対話音声要約の照会ないし更新処理を行う場合には、当該対話要約照会PC9は、オペレータ近傍に設置される必要はなく、遠隔IP接続を介して適宜コールセンタ外部に設置されることが好適である。
【0024】
音声処理システムは、さらに、イントラネット8或いはインターネットを介して音声処理システムに接続される、マイクロフォンを接続または内蔵する他のPC10を備えてよい。このように構成すれば、PC10のマイクロフォンで集音した対面でなされた対話音声を、本実施形態に係る音声処理システムに入力し、対面でなされた対話音声の要約文を生成することができる。
【0025】
PBX1は、コールセンタ内の内線電話を収容し、これら内線電話同士を接続するとともに、各オペレータの電話端末12を、構内回線11a、11b、11c・・・を介してPSTN(公衆電話網)13に回線交換接続して、各オペレータの電話端末12と、PSTN13に接続される顧客の電話端末14との間の通話を実現する。
【0026】
なお、
図1におけるPBX1は、PSTN13等の公衆電話交換回線網を介して顧客の電話端末14に接続されているが、これに替えて、或いはこれに加えて、IP網接続機能を備えることにより、VoIP(Voice Over Internet Protocol)ネットワーク等の音声パケット通信ネットワークを介して、IP電話機能を備える顧客のIP通話端末に接続されてよく、この場合、後述する音声取得サーバ2は、顧客のIP通話端末およびオペレータの電話端末12の間の音声通話を取得することができる。顧客の電話端末14は、固定電話機或いは携帯電話機やスマートフォンのいずれであってもよい。
<各サーバ装置の機能構成>
【0027】
音声取得サーバ2は、PBX1に分岐接続され、各オペレータの電話端末12と顧客の電話端末14との通話音声を取得するとともに、取得された通話音声をオペレータの電話端末12の識別子(例えば内線番号)と対応付けて各サーバに供給する。代替的に、この音声取得サーバ2は、PSTN13の終端装置(DSU)とPBX1との間の回線に分岐接続されてもよい。
【0028】
通話録音サーバ3は、制御サーバ4の制御の下、着呼後に音声取得サーバ2から供給される通話音声を必要に応じて圧縮し、取得された音声データを、例えばNAS(Network Appliance Storage)等の大規模外部記憶装置により構成される対話音声ファイル(
図2の対話音声ファイル31)のデータベースに蓄積記憶する。
好適には、通話録音サーバ3は、音声取得サーバ2からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、対話音声ファイル31に蓄積保存する。
【0029】
このデジタル音声データは、圧縮後に対話音声ファイル31に蓄積保存されてよい。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル5分の1圧縮、モノラル10分の1圧縮、或いはステレオ無圧縮等により録音音声が圧縮される。代替的に、通話録音サーバ3は、音声取得サーバ2から供給される音声データを変換圧縮することなく、通話音声ファイル31に蓄積保存してもよい。
【0030】
通話録音サーバ3はまた、対話音声ファイル31内に蓄積保存された1通話単位ごとの対話音声データに関連付けて、呼情報ファイル(不図示)に通話の制御情報として取得される呼情報を書き出す。この呼情報は、PBX1により供給される。
通話録音サーバ3により取得される呼情報は、例えば、着信開始情報(着信開始タイムスタンプを含む)、発信開始情報(発信開始タイムスタンプを含む)、通話開始情報(通話開始タイムスタンプを含む)、通話終了情報(通話終了タイムスタンプを含む)等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号(着信先内線番号等)等の呼識別情報とを含む。
【0031】
この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、PBX1により取得可能であり、例えばSIP(Session Initiation Protocol)の場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側に送信されるInviteコマンド中で、セッション開始に必要な情報を記述するSDP(Session Description Protocol)内に発呼側が受信に使用するIPアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される200 OKメッセージ中のSDP内に着呼側が受信に使用するIPアドレスとポート番号を指定し、このそれぞれ指定されたIPアドレスとポート番号を使用してRTP(Realtime Transport Protocol)プロトコル上音声データが送受信される。このため、これら発呼側および着呼側がそれぞれ受信に使用するIPアドレスとポート番号を取得することにより、1通話内の発話それぞれの話者識別情報を得ることができ、1通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。
ISDNの場合には、話者識別情報は、回線終端装置(Digital Service Unit:DSU)の物理的なピン位置として取得可能である。
【0032】
これら呼情報は、好適には、CTI(Computer Telephony Integration)プロトコルを実装した制御サーバ4上ないしオペレータのPC9上で稼動するCTIプログラムと連携して、これらの表示装置上に呼情報をリアルタイムに表示してよい。
【0033】
通話録音サーバ3はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース(不図示)を備える。この顧客情報は、顧客を識別する個人情報を含み、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜出力され得る。
【0034】
なお、通話録音サーバ3は、構内回線8に接続するのに替えて、例えば、PSTN13とPBX1との間に接続されてよく、このように構成すれば、通話録音サーバ3は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ2を別途設置することなく、通話録音サーバ3は、構内回線8に接続され、構内回線8に供給される通話音声を直接取得してよい。
【0035】
制御サーバ4は、音声取得サーバ2、通話録音サーバ3、音声認識サーバ5、感情解析サーバ6、および要約生成サーバ7から供給されるデータおよび制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィックおよび制御情報の送受信を制御する。代替的に、音声認識サーバ5および要約生成サーバ7は、通話録音サーバ3が保有する通話音声ファイル31や呼情報ファイルへのアクセスや対話要約照会用PC9へのインターフェースを、制御サーバ4を介することなく直接提供してもよい。この場合、音声処理システムは、別途制御サーバ4を備えなくてよい。
【0036】
音声認識サーバ5は、制御サーバ4の制御の下、対話音声ファイル31に蓄積保存された対話音声データを、オフフックからオンフックまでの1通話分ごと読み出し、1通話分の対話音声を複数の発話単位に分離する。この発話単位への分離は、無音区間を識別して対話音声をこの無音区間で区切るものであり、
図5を参照して後述する。
本実施形態において、音声認識サーバ5は、分離された発話単位ごとに対話音声データを解析して特徴量を抽出し、音声認識辞書(
図2の音声認識辞書32)等の各種認識用辞書を参照し、公知の音声認識技術を適用して対話音声データを文字コード列に変換し、さらに変換された文字コード列を対話音声テキストとしてファイルに出力する。本実施形態において、音声認識サーバ5が出力する対話音声テキストは、要約単位に区切られたテキスト(
図2の要約単位テキスト)を含む。この対話音声テキストを要約単位に区切る処理は、
図4、
図7、および
図8を参照して後述する。
【0037】
感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を示す定量的指標を話者の感情解析結果として出力する。この感情解析結果は、1通話内あるいは終日等、所定期間における各感情指標の変化として出力することができる。感情解析サーバ6が実行するこの感情解析処理の詳細は、
図6、
図22ないし
図24を参照して後述する。
【0038】
要約生成サーバ7は、対話音声テキストファイル33に格納された、要約単位に区切られた対話音声テキストを1通話分ごと読み出して、要約生成処理を実行し、生成された対話要約文を、要約文テキスト(
図3の要約文テキスト38)として出力する。この要約生成処理の詳細は、
図6を参照して後述する。
【0039】
要約生成サーバ7は、1通話内の一方の話者、例えばオペレータの発話の対話音声テキストを読み出して要約文を生成してもよく、他方の話者、例えば顧客の発話から抽出された受け答え部分(後述)を要約文に付加してもよく、双方の話者の対話音声テキストから要約文を作成してもよい。後者の場合、話者の識別情報を対話音声テキストに対応付けることが好適である。
【0040】
この1通話ごとに生成される要約文は、適宜、照会入力に応答して、対話要約照会用のPC9等のディスプレイ装置やプリンタ装置等の出力装置に出力可能であり、好適には、呼情報からデコードされた通話開始時間、通話終了時間、通話の発信者識別情報(顧客から着信した通話か、オペレータから発信した通話かを識別する情報)等と関連付けて出力されてよい。
好適には、PC9等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、要約文生成の際に参照されるべき重要語テーブル、不要語テーブル、各種変換テーブル等を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。
本実施形態において、要約生成サーバ7はさらに、音声認識サーバ5から供給される対話音声テキストを入力として、感情語テーブル(
図3の感情語テーブル37)等を参照して、対話音声テキスト中の感情表現部分を抽出し、要約文に含めるべき感情表現語に変換する。
【0041】
なお、
図1に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各サーバおよびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをASP(Application Service Provide)等の外部設備に設置してもよい。
【0042】
<音声認識サーバ5の機能構成例>
図2は、本実施形態に係る音声認識サーバ5の機能構成の非限定的一例を示す図である。
図2に示す音声認識サーバ5の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがROM等のメモリに記憶され、RAMに読み出してCPUが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、
図2に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。
図3に示す要約生成サーバ7、および他のサーバ装置の機能構成についても同様である。
図2を参照して、音声認識サーバ5は、音声認識前処理部51、音声認識部52、音声認識後処理部53、および相槌解析部54を備える。
【0043】
音声認識前処理部51は、通話録音サーバ3が蓄積保存した対話音声ファイル31から1通話ごとの対話音声のファイルを読み出して、読み出された1通話の対話音声ファイルから無音区間を検出し、検出された無音区間を境界として、対話における発話単位に区切る。音声認識前処理部51はまた、1通話の対話音声ファイルから区切られた複数の発話単位を、発話単位ごとに音声認識部52へ供給して、音声認識部52に発話単位での音声認識処理を実行させる。
【0044】
音声認識部52は、音声認識前処理部51から供給される発話単位ごとの対話音声を入力として、音声認識処理を実行し、発話単位ごとの対話音声テキストを音声認識後処理部53へ供給する。音声認識部52は、例えば正確に認識されるべき重要語や重要文を定義可能な音声認識辞書32を参照して、対話音声の音声データを対話音声テキストに変換することができる。なお、音声認識部52を公知の音声認識エンジンに実装し、一方、音声認識前処理部51、音声認識後処理部53、および相槌解析部54を例えば制御サーバ4に実装してもよい。
【0045】
音声認識後処理部53は、音声認識部52が出力する発話単位ごとの対話音声テキストに対して、構文解析および形態素解析等を実行して、対話音声テキストを要約単位に区切り、要約単位に区切られた対話音声テキスト33として出力する。構文解析結果および形態素解析結果は、要約単位に区切られた通話音声テキストに対応付けられてよい。この要約単位とは、発話単位の通話音声テキストから要約文生成を容易かつ高精度化できるよう、要約生成処理の処理単位としてさらに細分化された区切りの単位であり、その詳細は
図8を参照して後述する。
【0046】
音声認識後処理部53はまた、各重要語について重み付けを定義する音声認識用辞書32を参照して、抽出した要約単位ごとに重み付けを付与してもよい。例えば、日付、時間、住所、電話番号等は要約文に残すべき重要語であることが多く、音声認識後処理部53によりこれらの語を重み付けすることにより、誤変換を低減することができる。
【0047】
相槌解析部54は、音声認識後処理部53により供給される要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。
一方、相槌解析部54はまた、受け答えと判定されたテキストは、要約生成サーバ7が生成する要約文に含まれるよう、対話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキストに「受け答え」である旨をタグ付けする。この相槌解析処理の詳細は、
図13および
図14を参照して後述する。
【0048】
<要約生成サーバ7の機能構成例>
図3は、本実施形態に係る要約生成サーバ7の機能構成の非限定的一例を示す図である。
図3を参照して、要約生成サーバ7は、テキスト補正部71、冗長性排除部72、要約文生成部73、感情解析部74、および要約文短縮部75を備える。
【0049】
テキスト補正部71は、要約単位に区切られた対話音声テキスト33を読み出して、構文解析結果および形態素解析結果に基づいて、要約文生成を容易化するため、対話音声テキストを補正し、補正された対話音声テキストを冗長性排除部72へ出力する。
【0050】
冗長性排除部72は、テキスト補正部71から供給される補正された対話音声テキストの冗長性を排除する。具体的には、冗長性排除部72は、例えば不要語テーブル35を参照することにより、対話音声テキストから不要語や重複する文等を削除して、要約文生成部73に供給すべき対話音声テキストを短縮化する。冗長性排除部72は、冗長性が排除された短縮化対話音声テキストを、要約文生成部73へ出力する。
【0051】
要約文生成部73は、冗長性排除部72から供給される短縮化対話音声テキストを読み出し、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照して、要約文テキストを生成する。要約文生成部73は、1通話ごとに1つの要約文テキストを生成してよい。要約文生成部73が出力する要約文は、例えば、通話音声テキストの話し言葉を変換して得られる報告調の簡潔な文体、例えば体言止めの文体であってよい。
【0052】
本実施形態において、要約文生成部73は、感情解析サーバ6から、対話中の話者の感情を示す定量的指標を、話者の感情解析結果として取得し、取得された話者の感情解析結果を、生成すべき要約文テキストに含めたり、要約文テキストと同時にまたは関連して表示装置上に表示させたりすることができる。感情解析サーバ6から供給される話者の感情解析結果は、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の定量的指標を含む。
【0053】
感情解析部74は、要約文生成部73が生成する要約文から、感情語テーブル37を参照して、要約文テキスト中の感情表現部分を抽出し、要約文に含めるべき端的な感情表現語に変換して、変換された感情表現語で、要約文テキスト中で抽出された感情表現部分を置き換える。
要約文短縮部75は、要約文生成部73から供給される要約文が、所定長、例えば所定文字数の閾値を超えた場合に、当該閾値内の要約文長となるよう、要約文を短縮し、短縮化された要約文を要約文テキスト38として出力する。
【0054】
<音声認識サーバ5における音声認識処理の処理手順>
図4は、音声認識サーバ5の各部が実行する音声認識処理の処理手順の非限定的一例を示すフローチャートである。
S1で、音声認識サーバ5の音声認識前処理部51は、対話音声ファイル31から、1通話ごとにファイル化された対話音声データを読み出す。
S2で、音声認識サーバ5の音声認識前処理部51は、S1で読み出された対話音声中の話者を識別する。具体的には、音声認識前処理部51は、対話音声ファイルに対応付けられた呼情報の話者識別情報を参照することにより、対話音声から話者、例えば顧客とオペレータ、を識別することができる。
【0055】
具体的には、音声認識前処理部51は、呼情報データベース(不図示)を参照して、1通話内の話者識別情報を判別することにより、1通話内の発話のそれぞれの発話者が顧客であるかオペレータであるかを識別することができる。
後段の音声認識部52では、識別された話者ごとに、対話音声データが音声認識されるとともに、音声認識された対話音声テキストから要約を生成する要約生成サーバ7の要約文生成部73では、対話録音のタイムスタンプを参照して、双方の話者の認識結果のテキストを対応付けることができる。
【0056】
音声認識前処理部51は、一方の話者、例えばオペレータの発話であると識別された発話の対話音声データを他方の話者、例えば顧客の発話であると識別された発話の対話音声データより優先して、要約生成サーバ7に供給してもよい。これは、要約文生成源として、一方の発話者、典型的にはオペレータの発話の方が、応対履歴を要約するに足る情報がより効率的に得られるとの知見に基づく。
代替的に、音声認識前処理部51は、一方の話者のみ、例えばオペレータの発話であると識別された発話の対話音声データのみを音声認識して、対話音声テキストに変換してもよい。音声認識の対象を制限することで、高負荷な音声認識を行う音声認識サーバ5内におけるハードウエア資源が低減でき、音声認識処理や要約文生成処理のリアルタイム性が向上するとともに、対話音声テキストファイル等のリソース容量も削減できる。
【0057】
S3で、音声認識サーバ5の音声認識前処理部51は、1通話ごとに読み出された話者が分離された対話音声データを、発話単位に分離して、発話単位に分離された対話音声を、音声認識部52に供給する。
具体的には、音声認識前処理部51は、対話音声データ中で一定の無音区間を検出し、検出された無音区間で音声を区切ることにより、有音区間を切り出して発話単位の対話音声として分離する。
【0058】
図5に示すように、1通話分の対話音声ファイルは、CH1とCH2の2チャネルで構成される。CH1の音声は例えば顧客の発話であり、CH2の音声は例えばオペレータの発話であるものとする。
音声認識前処理部51は、一定の長さの無音区間を検出する。検出すべき無音区間は、例えば、1.5秒以上の無音区間であってよく、例えば1秒から2秒の間でその下限値が調整されてよい。この無音区間の下限値を、第1の閾値という。この無音区間の下限値は、例えば息継ぎに要する時間を考慮して設定することができる。また、この無音区間の下限値は、例えば「言ったよね」の発話中の撥音「っ」を誤って無音区間として検出しないよう設定されることが好適である。
【0059】
図5を参照して、音声認識前処理部51は、CH1の顧客の音声から、第1の閾値以上の長さの無音区間(SL11、SL12、・・・、SL16)を検出し、検出された2つの無音区間の間にある有音区間(SP11、SP12、・・・、S17)を抽出する。抽出された有音区間(SP11、SP12、・・・、S17)のそれぞれが、顧客として識別された音声中の1つの発話単位となり、本実施形態において、音声認識部52に供給される音声認識単位となる。有音区間のそれぞれは、息継ぎなしで発話された区間と見做すことができる。
同様に、
図5を参照して、音声認識前処理部51は、CH2のオペレータの音声から、第1の閾値を下限値とする無音区間(SL21、SL22、・・・、SL26)を検出し、検出された2つの無音区間の間にある有音区間(SP21、SP22、・・・、S27)を抽出する。抽出された有音区間(SP21、SP22、・・・、S27)のそれぞれが、オペレータとして識別された音声中の1つの発話単位となる。
【0060】
図4に戻り、S4で、音声認識サーバ5の音声認識部52は、音声認識前処理部51から発話単位で入力される対話音声データに対して、識別された話者ごとに音声認識処理を実行して、テキスト化された対話音声である対話音声テキストを出力する。
本実施形態においては、このように対話音声データを発話単位で音声認識処理を実行する。上記の無音区間は、当該無音区間中に話者が切り替わったこと、あるいは同一の話者が話題ないし内容を転換したことを推認させる。このため、無音区間の前後では発話内容における連続性が乏しいと推定でき、発話単位で対話音声テキストを音声認識することで、認識精度の向上が期待できる。
【0061】
この音声認識処理には、公知の音声認識エンジンを適用することができる。
音声認識部52が実行する音声認識処理における文字コード列への変換の一例として、例えば、対話音声データ中の、必要に応じて各種変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。
【0062】
音声認識部52および音声認識後処理部53により参照される音声認識辞書32には、予め音声認識の対象と想定され、かつ要約文に含まれるべき重要情報を含む重要語(ないし重要文)のデータが定義されているため、この音声認識辞書32に定義された重要語に相当する対話音声データの音素列のみが抽出されて意味づけされてよい。また、音声認識辞書32に定義される重要語(ないし重要文)には重み付けが付与されてよい。音声認識部52により読み出された対話音声データのうち、この定義された重要語に相当する対話音声データ箇所が対話音声テキストに変換され、音声認識結果として出力されてよい。
【0063】
図9は、S4で音声認識部52が出力する、対話音声データから生成される発話単位の音声認識結果である対話音声テキストの非限定的一例を示す。
図9の例では、「対話要約処理は不要な発言や表現の削除のほか話し言葉から書き言葉への変換などで構成されますなお処理対象データの特性に応じて選択することができます」が、2つの無音区間の間で抽出された発話単位となる。
図9に示すように、S4で出力される発話単位の音声認識結果は、句読点等で区切られない複数の文章を1つのまとまりとして含み得る。
【0064】
図4に戻り、S5で、音声認識サーバ5の音声認識後処理部53は、S4で音声認識部52が出力する音声認識結果を自然発話へ変換するとともに、要約単位に区切る。音声認識後処理部53はまた、S5で区切った要約単位の対話音声テキストに、構文解析や形態素解析結果に基づいて、種別や重み付けを付与することができる。
なお、S5における変換処理の詳細は、
図7および
図8を参照して後述する。
【0065】
S6で、音声認識サーバ5の相槌解析部54は、要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。
相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。一方、相槌解析部54は、受け答えと判定されたテキストを、要約生成サーバ7が生成する要約文に含まれるよう、通話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキスト要素に「受け答え」である旨をタグ付け(種別付与)する。なお、S6における相槌解析処理の詳細は、
図13および
図14を参照して後述する。
S7で、相槌解析部54は、受け答えと判定されたテキストを付加した要約単位に区切られた対話音声テキストを出力する。
【0066】
<音声認識後処理部53における音声認識後処理の詳細処理手順>
図7は、
図4のS5で音声認識後処理部53が実行する音声認識後処理の詳細処理手順の一例を示すフローチャートである。
図7を参照して、S51で、音声認識サーバ5の音声認識後処理部53は、音声認識辞書32を参照して、S4で音声認識部52が出力する音声認識結果である発話単位の対話音声テキストの構文解析を実行する。
S52で、音声認識後処理部53は、音声認識辞書32を参照して、発話単位の対話音声テキストの形態素解析を実行する。なお、S51の構文解析およびS52の形態素解析は、いずれかを先に実行してもよく、同時並行的に実行されてよい。
【0067】
図10は、
図9に示す発話単位の対話音声テキストに対して、S51における構文解析処理を実行して得られる構文解析結果の非限定的一例を示す。
図10に示すように、S51で出力される構文解析結果では、テキスト中の形態素間の関係が構造化されている。
図11は、
図9に示す発話単位の対話音声テキストに対して、S52における形態素解析処理を実行して得られる形態素解析結果の非限定的一例を示す。
図11に示すように、形態素解析結果は、抽出された形態素ごとに、書字、読み、取得された品詞種別(大分類、中分類、小分類)を含んでよい。
【0068】
図7に戻り、S53で、音声認識後処理部53は、S51およびS52の構文解析および形態素解析の解析結果に基づいて、発話単位の対話音声テキストを、要約単位に細分する。
図8は、
図7のS53で音声認識後処理部53が実行する要約単位への分離処理の詳細処理手順の一例を示すフローチャートである。
S531で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位の品詞種別が、名詞か否かを判定する。解析の結果得られた区切り単位の品詞種別が名詞である場合S(S531:Y)、S532に進む。一方、解析の結果得られた区切り単位の品詞種別が名詞以外である場合、S532以降の処理をスキップして処理を終了し、S6へ進む。
【0069】
S532で、音声認識後処理部53は、形態素解析および構文解析結果得られた区切り単位の群(まとまり)の先頭が、名詞以外か否かを判定する。区切り単位の群の先頭が名詞以外である場合(S532:Y)、S533以降の処理をスキップして処理を終了し、S6へ進む。一方、区切り単位の群の先頭が名詞である場合(S5323:N)、S533に進む。
【0070】
S533で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位が名詞+αであるか否かを判定する。区切り単位が名詞+αである場合、すなわち末尾に助詞等、名詞以外を含む場合(S533:Y)、S534で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合して、処理を終了し、S6に進む。一方、区切り単位が名詞+αでない場合、すなわち名詞のみである場合(S533:N)、S535で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合した上で、S532に戻り、S532およびS533の区切り単位の判定を繰り返す。
【0071】
図12は、
図9に示す発話単位の対話音声テキストを入力とし、
図10に示す構文解析結果および
図11に示す形態素解析結果を経て、
図4のS5で、音声認識後処理部43が出力する対話音声テキストの一例である。
図12中の四角記号は、それぞれ要約単位の区切りを示す。
図12に示すように、S5の自然発話への変換および要約単位への分離処理を実行することにより、連続する「対話」、「要約」、「処理は」が1つの要約単位に、また、連続する「処理」、「対象」、「データの」が他の1つの要約単位に、それぞれ結合されて、要約単位を構成している。
音声認識サーバ5の音声認識後処理部43はさらに、分離された要約単位の対話音声テキストのそれぞれに、音声認識辞書32を参照することにより、種別や重み付けを付加してよい。
図12では、要約単位「対話要約処理は」および要約単位「処理対象データの」が、それぞれ要約文に含められるべき重要要約単位として重み付けされている。
【0072】
<相槌解析部54における相槌解析処理の詳細処理手順>
図13は、
図4のS6で音声認識サーバ5の相槌解析部54が実行する相槌解析処理の詳細処理手順の非限定的一例を示すフローチャートである。
図13を参照して、S61で、音声認識サーバ5の相槌解析部54は、双方の話者、例えば顧客およびオペレータの対話音声を対話音声ファイル31から取得する。対話音声ファイル31には、1通話ごとに双方の話者を対応付けることが可能なタイムスタンプが付与されているため、相槌解析部44は、1通話単位を構成する双方の話者の対話音声を取得することができる。或いは、通話単位ごとに当該通話単位を構成する話者の対話音声それぞれに共通の識別子が付与されることにより、双方の話者の対話音声を対応付けてもよい。S61では、取得された双方の話者の対話音声とともに、当該対話音声を音声認識して得られた対話音声テキストが入力される。
【0073】
S62で、相槌解析部54は、顧客およびオペレータの双方の対話音声を対比し、対話の相手が発話している間に短い発話が検出できるか否かを判定する。
図14(a)を参照して、CH1の顧客の対話音声中の短い発話(SP14)は、対話の相手であるCH2のオペレータの発話(SP24)の間になされた短い発話であるため、S62で検出される。S62で検出すべき短い発話とは、例えば2秒未満であってよい。
相手が発話中に短い発話が検出されない場合(S62:N)、S63からS68の処理をスキップして処理を終了し、S7へ進む。一方、相手が発話中に短い発話が検出された場合(S62:Y)、S63に進む。
【0074】
S63で、相槌解析部54は、S62で検出された短い発話と同一のタイムスタンプを有する音声認識結果の対話音声テキストを検索し、当該短い発話の音声認識結果が受け答えと推定できるか否か、すなわち受け答えの候補となるか否かを判定する。例えば、短い発話が「はい」、「ええ」、「いいえ」、「いや」等のテキストであれば、受け答えの候補と判定できる。例えばこの受け答え候補は予め相槌解析部54に設定しておけばよい。
【0075】
短い発話の音声認識結果が受け答え候補でない場合(S63:N)、S64に進んで、当該短い発話は相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。すなわち、S64で相槌と判定された短い発話は、要約作成において意味のない相槌であるため、要約文生成源とされない。一方、短い発話の音声認識結果が受け答え候補である場合(S63:Y)、S65に進む。
【0076】
S65では、相槌解析部54はさらに、S63で検出された受け答え候補である短い発話の発話中に、対話の相手の音声に短い無音期間があるか否かを判定する。
図14(a)を参照して、CH1の顧客の音声中の短い発話(SP14)に対応するCH2のオペレータの発話では、
図4のS3で音声認識前処理部41により、第1の閾値以上の長さの無音区間を含まないため、1つの発話単位SP24として検出されている。S65では、この第1の閾値より小さい第2の閾値を用いて、対話の相手の音声に短い無音区間が検出できるか否かが判定される。この第2の閾値は、第1の閾値より小さい値を持ち、例えば、1秒であり、0.5秒から1.5秒の間で調整されてよい。
【0077】
S65で、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出された場合(S65:Y)、S66で当該短い発話は受け答えであると判定してS67に進む。一方、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出されない場合(S65:N)、S64に進んで、受け答え候補であった当該短い発話は、相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。
S67で、相槌解析部54は、S66で受け答えと判定された短い発話の前後で、対話の相手の音声を2つの発話単位に分離する。
【0078】
図14(b)を参照して、CH1の顧客の短い発話区間(SP14)の音声認識結果が受け答え候補と判定されたものとすると、この発話(SP14)中に、CH2のオペレータの発話区間(SP24)には、第2の閾値以上かつ第1の閾値より小さい無音区間(SL24a)が検出できる。この場合、相槌解析部54は、検出されたこの無音区間(SL24a)の前後で、オペレータの発話区間(SP24)を分離して、無音区間(SL24a)直前の発話区間(SP24a)と無音区間(SL24a)直後の発話区間(SP24b)とを取得する。
【0079】
S68で、相槌解析部54は、S67で分離された、短い無音区間(SL24a)直前の発話区間(SP24a)を音声認識して得られた対話音声テキストを、S66で受け答えと判定された音声テキストと対になるべき対話音声テキストであると判定し、この対のテキストを、受け答えのテキストと、当該受け答えを促した、何に対する受け答えであるかを特定するテキストとして、相互に対応付けて「受け答え」の種別を付与して、要約単位の対話音声テキストファイル33へ出力する。
【0080】
<要約生成サーバ7における要約生成処理の処理手順>
図6は、要約生成サーバ7の各部が実行する要約生成処理の処理手順の非限定的一例を示すフローチャートである。
図6を参照して、S10で、要約生成サーバ7のテキスト補正部71は、要約単位に区切られた対話音声テキスト33から1通話単位の対話音声テキストを読み出す。
【0081】
S11で、テキスト補正部71は、S10で読み出した対話音声テキストを補正する。具体的には、テキスト補正部71は、
図12に示すように要約単位(要約生成の処理単位)で区切られた1つの発話単位の対話音声テキストに、句読点を挿入した上で、句点の位置で改行を挿入する。
図15は、テキスト補正部71が参照する句読点テーブルの非限定的一例を示す。
図15の句読点テーブルは、句点または読点を直後に挿入すべき用語を定義する。
図15において、「1」は読点の挿入、「0」は句点の挿入を示す。テキスト補正部71は、
図15の句読点テーブルを参照して、要約単位の区切り記号から後方一致で、句読点テーブルに定義される「ますが」、「ますか」、「ます」、「はい」等の語を検索し、検索された語の直後に、句読点テーブルの定義に従って句点または読点を挿入していく。テキスト補正部71は、
図15の句読点テーブルに定義される検索語のうち、字数の多いものから順に検索してよい。
【0082】
テキスト補正部71はさらに、形態素解析で抽出された数詞を検索し、検索された数値の意味を解析する。応対履歴のための要約文生成においては、数詞が要約におけるキーワードとなる重要語であることが多い。このため、テキスト補正部71は、検索された数詞の意味を解析して、解析された数詞の意味に応じた種別を取得し、取得された種別に応じた単位や重みを付与する。
数詞の意味としては、例えば、「日付」、「時間」、「金額」、「電話番号」、「個数」等が付与され得るがこれに限定されない。
【0083】
図16は、テキスト補正部71が、解析された数詞の要素へ、種別、単位(表記)、重み付けをそれぞれ付与するために参照する数詞種別テーブルである。
図16を参照して、例えば日付や時刻や金額(円)には、個数(個)や温度(度)より高い重みが付与されている。
一方、テキスト補正部71は、対話音声テキスト中に前後の語に関連しない数詞が検索された場合、誤認識と判定して、対話音声テキストから当該数詞を削除してよい。また、テキスト補正部71は、要約文中における視認性および明瞭性向上のため、検索された数詞を半角数字に変換してよい。
【0084】
図6に戻り、S12で、要約生成サーバ7の冗長性排除部72は、音声認識された対話音声テキスト中の冗長性を排除してより簡明化ないし単純化された対話音声テキストを出力する。
具体的には、冗長性排除部72は、不要語テーブル35を参照して、対話音声テキストから不要語を削除する。
図17は、冗長性排除部72が参照する不要語テーブル35の非限定的一例を示す。
図17を参照して、不要語テーブル35には、「えー」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。
【0085】
冗長性排除部72はさらに、1通話分の対話音声テキストから、同一ないし類似内容を記述する文(ないし句、語等の意味を有するまとまりであってもよい)が複数回出現した場合に、重複する文を対話音声テキストから適宜削除してよい。好適には、冗長性排除部72は、1通話分の対話音声テキスト中に同一ないし類似内容を記述する文等が複数回出願した場合には、通話開始から終了までの時系列上前方に出現した文を削除し、最後に出現した文を残してよい。通話終了時点に近い文が、より応対における最終的な結論を記述する蓋然性が高いからである。また、最後に出現した文は、オペレータによる復唱であると推定でき、この場合、復唱された文がより応対履歴として要約に残すべき正確な内容を記述してものであると期待できるからである。
【0086】
冗長性排除部72は、さらに、重要語テーブル34を参照し、重要語テーブル34に登録済みであるキーワードの言い淀みや繰り返しを削除してもよい。
例えば、重要語テーブル34にキーワードとして表記「eVoice」、読み「イーボイス」と登録されていたものとする。
この場合、認識結果が「明日の10時にいいeVoiceへ伺います。」であったとすると、冗長性排除部72は、登録済みのキーワードの直前に読みが先頭から部分一致するものを検索し、検索された語を削除する。これにより、言い淀み箇所を対話音声テキストから削除することができる。
同様に、認識結果が「明日の10時にeVoiceへeVoiceにお伺いします。」であったとすると、冗長性排除部72は、上記のように、登録済みのキーワードの繰り返しは前方を削除する。これにより、繰り返し箇所を対話音声テキストから削除することができる。
【0087】
図6に戻り、S13で、要約生成サーバ7の要約文生成部73は、冗長性排除部72が出力する対話音声テキストから、応対履歴の要約文を生成する。具体的には、要約文生成部73は、会話体で記述された対話音声テキストを文章体に整形する。好適には、要約文生成部73は、会話体で記述された対話音声テキストを体言止めの文章体に整形する。
【0088】
図18は、要約文生成部73が参照する文体変換テーブル36の非限定的一例を示す。
図18を参照して、文体変換テーブル36には、左欄に変換元の会話体の語(「ございますね」、「と申します」、「おっしゃっていました」等)が、右欄に変換先の文章体の語(「ですね」、「です」、「言っていた」等)が、それぞれ定義されている。要約文生成部72は、対話音声テキストから、文体変換テーブル36に定義された変換元の会話体の語を検索し、検索された会話体の語を文体変換テーブル36に定義される対応する文章体の語に変換する。これにより、対話音声テキスト中の丁寧語が簡潔な報告調の文章体に変換される。
なお、
図19の文体変換テーブル36中、変換元の「ちょっと」の語には対応する変換先の文章体の語が定義されていない。この場合、要約文生成部72は、変換元の語を対話音声テキストから削除すればよい。
【0089】
図6に戻り、S13で、要約文生成部73はさらに、対話音声テキストから予め定義された重要語を検索し、検索された重要語を出力すべき要約文に含める。
図19、
図20および
図21はそれぞれ、要約文生成部73が参照する重要語テーブル34の非限定的一例を示す。
図17を参照して、重要語テーブル34には、「連絡」、および「確認」の語が重要語として定義されている。重要語テーブル34には、重要語を可変の重み(ポイント)とともに定義してよい。
図19には、「連絡」、および「確認」の語には、いずれも重み「1」が定義されている。また、ユーザが追加や削除等の編集可能な他の重要語テーブル34を提供し、固有名詞等を適宜定義可能としてよい。
要約文生成部73は、対話音声テキストから、重要語テーブル34に定義された重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。
【0090】
図20は、肯定表現である重要語(「はい」、「わかった」、「いいよ」、)了解」等)を定義する重要語テーブル34の非限定的一例を示し、
図21は、否定表現である重要語(「いいえ」、「やだよ」、「断る」、「承認しない」等)を定義する重要語テーブル34の非限定的一例を示す。要約文生成部73は、これらの重要語テーブル34も参照して、対話音声テキストから重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。
図20および
図21に含まれる肯定ないし否定表現としての重要語は、適宜文章体(「承諾」、「拒否」等)に変換されてよい。
なお、好適には、要約文生成部73は、冗長性排除部72から複数の文が供給された場合と単独の文が供給された場合のいずれであっても、1つの通話単位について1つの要約文を生成してよい。
【0091】
図6に戻り、S14で、要約生成サーバ7の要約文短縮部75は、要約文生成部73により生成された要約文が、所定長、例えば所定文字数の閾値を超えた場合に、該閾値内の要約文長となるよう、要約文を短縮する。
好適には、要約文短縮部75は、対話要約文が一覧表示される照会結果表示画面において、1通話単位の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく一瞥して可読な範囲の文字数を閾値として設定してよい。これにより、要約文確認のための追加的操作が不要となり、要約文全体の迅速な視認が可能となる。
【0092】
より詳細には、要約文短縮部75は、各種重要語テーブル34を参照して、要約文中に出現する重要語に付与された重み(重要度ポイント)に基づいて、要約文を短縮してよい。
一例として、要約文短縮部75は、冗長性排除部72から供給される対話音声テキストを、句点(「。」)ごとに区切り、1つの対話音声テキスト文ごとに、文中に出現する重要語の重要度ポイントを加算し、高い重要度が算出された通話テキスト文を優先的に選択してよい。
要約文短縮部75は、短縮された要約文を、要約文テキスト38のファイルへ出力する。
【0093】
図6のS15で、本実施形態において、要約文生成部73は、音声認識サーバ5の相槌解析部54が生成した、「受け答え」の種別が付与された対のテキストを、出力すべき要約文に付加する。
音声認識サーバ5の相槌解析部54により実行された
図13の相槌解析処理により、一方の話者(例えば、顧客)により発話された、受け答えと判定された対話音声テキストと、当該受け答えの直前に他方の話者(例えば、オペレータ)により発話された、当該受け答えを促した、何に対する受け答えであるかを特定する対話音声テキストとが対となり、「受け答え」の種別が付与されて、一問一答形式の対話として対話音声テキストに含まれている。
【0094】
要約文生成部73は、この「受け答え」の種別が付与された対話音声テキストの対を重要語として取り扱い、各種変換テーブル36を参照して、要約文用の文体に変換した上で、出力すべき要約文に付加する。例えば、「受け答え」の種別が付与された対話音声テキストが「発送は二三日後でよろしかったでしょうか(オペレータの問い)」と「はい(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「二三日後の発送を了承」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
【0095】
他の例として、「受け答え」の種別が付与された対話音声テキストが「ご注文の品は対話要約eV−Outlineでよろしいでしょうか(オペレータの問い)」と「はい、お願いします(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「注文の品は対話要約eV−Outlineを確認」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
【0096】
S16で、要約生成サーバ7の感情解析部74は、対話音声テキストに基づいて、対話の話者の感情解析処理を実行する。また、感情解析部74は、要約生成部73から感情解析サーバ6へのインターフェースを提供し、感情解析サーバ6に感情解析処理を実行させ、感情解析処理の実行結果を要約文生成部73へ供給してもよい。あるいは感情解析サーバ6を別途設けることなく、感情解析部74が要約文を生成すべき対話の話者の感情解析処理を実行してもよい。以下では、前者の感情解析サーバ6を使用して感情解析処理を実行する例を説明する。
【0097】
感情解析処理は、対話音声データを使用した非言語的感情解析処理と、音声認識結果である対話音声テキストを使用した言語的感情解析処理とを含む。
前者の対話音声データに基づく感情解析処理において、感情解析部74から呼び出された感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を数値化した定量的指標を話者の感情解析結果として出力する。
【0098】
感情解析サーバ6が提供するこの感情解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、感情解析サーバ6は、話者の発話の言語に依存することなく、対話音声データから話者の感情を数値化することができる。
後者の対話音声テキストに基づく感情解析処理において、要約生成サーバ7の感情解析部74は、音声認識サーバ5から供給される対話音声テキストを入力として、対話音声テキスト中の感情語を抽出し、感情語テーブル37を参照して、要約文に含めるべき感情表現に変換する。
【0099】
図22は、感情解析サーバ6が、1つの通話単位の一方の話者(顧客)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。
図22を参照して、顧客(CS)の1通話中の顧客の感情の遷移が時系列上出力されている。
図22は、顧客からのクレーム対応で、通話中にオペレータが顧客を納得させた例を示す。
図22において、「喜怒」および「満足度」の感情指標は、中盤から後半にかけてともに数値が上昇しており、一方、「ストレス度」の感情指標は、中盤から後半にかけて数値が減少しており、1つの通話単位の中盤から後半にかけて、顧客の怒りおよびストレスが低下して不満が満足に転化しているとの感情の遷移を読み取ることができる。
【0100】
また、
図22に例示される顧客の感情解析結果から、他方の話者であるオペレータの応対の品質を評価する指標を得ることができる。
例えば、通話の始めから「喜怒」の感情指標がマイナスで「怒り」が高いが、通話の最後には、「喜怒」の感情指標が0またはプラスに転化して「喜び」の傾向を示し、かつ「満足度」の感情指標も0またはプラスに転化して「満足」の傾向を示している場合、オペレータの応対履歴の評価は、優れた応対を示す「応対優良」としてよい。
ただし、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
【0101】
一方、通話の途中で突然「喜怒」の感情指標がマイナスに大きく転化するとともに「満足度」の感情指標もマイナスに大きく転化し、「怒り」かつ「不満」の傾向がその後も継続した場合、マイナス転化の直前のオペレータの発言が顧客の怒りや不満を誘発したと評価することができるため、当該オペレータの応対を確認することが必要であることを示す「応対注意」としてよい。
この場合も、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
また、上記のような傾向が示されなかった場合には、妥当な応対であることを示す「応対通常」としてよい。
【0102】
図23は、感情解析サーバ6が、1つの通話単位の他方の話者(オペレータ)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。
図23は、顧客との通話でオペレータがストレスを感じている例を示す。
図23において、「ストレス度」の感情指標は、通話の始めから終わりにかけて数値が上昇しており、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、例えば、前回までのストレス度の感情指標の数値の遷移と比較して今回の通話でのストレスが高まっている場合には、オペレータの評価指標を、当該オペレータのストレス状態を引き続き監視すべきであることを示す「応対注意」としてよい。
【0103】
図24は、ある期間内(1日、1週間等)における複数回(
図24では15回)の通話間での感情の遷移を示す。
図24において、通話回数が増加するにつれて、オペレータの「ストレス度」の感情指標の平均数値が徐々に上昇しており、通話回数が増加するにつれて、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、オペレータの評価指標を、当該オペレータの応対を中止させ、直ちにヒヤリングを実施すべきであることを示す「応対中止」としてよい。
【0104】
図25は、要約生成サーバ7の感情解析部74が参照する感情語テーブル37の非限定的一例を示す。
図25を参照して、感情語テーブル37には、左欄に変換元の感情語(「まあいいか」、「それでいいよ。ありがとう」、「がっかりしたよ」、「大丈夫だよな」、「なんとかしろよ」、「いい加減にしろよ」等)が、右欄に変換先の感情表現(「渋々承諾」、「快諾」、「落胆」、「不安」、「不快」等)が、それぞれ定義されている。要約生成サーバ7の感情解析部74は、対話音声テキストから、感情語テーブル37に定義された変換元の感情語を検索し、検索された感情語を感情語テーブル37に定義される対応する感情表現に変換する。これにより、対話音声テキスト中の感情語が簡潔な感情表現に変換される。
【0105】
図27は、
図25の感情語テーブル37を参照して、感情解析部74が音声認識結果である対話音声テキストから感情表現を組み入れた要約文を生成する非限定的一例を示す。
図26を参照して、感情解析部74は、
図27上段の対話音声テキスト「機器を交換したけど、また壊れて、がっかりだよ」を、
図27下段の「機器交換したが故障し落胆」の要約文へ変換する。出力すべき要約文に音声認識結果である対話音声テキストから把握される感情表現を含めることができる。変換後の「落胆」の語が話者(顧客)の感情表現を示すものであり、出力される要約文に含められる。
【0106】
一方、
図26は、感情解析サーバ7が対話音声データ(声色)から感情解析処理を実行して得られた感情表現を、要約文テキストに括弧書で付加した非限定的一例を示す。
図26を参照して、感情解析サーバ7は、
図26上段の対話音声テキスト「食品に虫が入っているんだよ」の基となった対話音声データに対して感情解析処理を実行し、例えば当該音声データの「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発言につき要注意であることを示す「顧客注意」の感情表現を生成して、要約生成サーバ7の感情解析部74を解して要約文生成部73へ供給する。要約生成サーバ7の要約文生成部73は、
図26上段の対話音声テキストから生成された
図26下段の要約文「食品に虫が混入」に、感情解析サーバ6から供給された「顧客注意」を括弧書で付加する。
上記のように、生成される要約文に話者の感情表現を反映させることにより、話者の感情遷移の状況把握や、対策を取るべき問題通話の自動抽出が容易に可能となる。
【0107】
図6に戻り、要約生成サーバ7の要約生成部73は、S17で、上記のような感情解析結果を用いて、
図27に示すように、要約文中の感情語からより端的でカテゴライズされた感情表現に置き換え、および
図26に示すように、出力すべき要約文に付加する。
S18で、要約文生成部73または要約文短縮部75は、最終的に生成された要約文を要約文テキスト38のファイルへ出力する。
【0108】
図28ないし
図30を参照して、音声認識サーバ5が出力する要約単位に区切られた対話音声テキストから最終的に出力される要約文を生成するまでの抽出変換処理の一例を説明する。
図28は、音声認識サーバ5が出力し、要約生成サーバ7に入力される1つの通話単位の対話音声テキストの非限定的一例を示す。
図28の対話音声テキストは、識別された話者(オペレータ(OP)または顧客(CS))ごとに、各行に1つの発話単位の対話音声テキストが示されており、各行の対話音声テキストは、四角で示される要約単位の区切りが挿入されている。
図29は、
図28に示す対話音声テキストから、要約生成サーバ7の要約文生成部73が中間的に出力する要約文テキストの非限定的一例を示す。
図29に示すように、
図28の20発話単位のテキストから、6発話単位のテキスト(3番目、6番目、9番目、11番目、14番目、および15番目の発話単位のテキスト)が抽出されるとともに、抽出された発話単位のテキストのそれぞれが、要約文用のより簡潔なテキストに変換されている。要約文生成部73は、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照することにより、
図28の1通話全体の対話音声テキストから
図29の中間的要約文テキストに変換する。
【0109】
図30は、
図29の中間的に出力する要約文テキストから、要約文生成部73ないし要約文短縮部75が最終的に出力する要約文テキストの非限定的一例を示す。
図30に示すように、
図29で抽出され変換された6発話単位のテキストから、5行の要約文が生成されており、各要約文の末尾は体言止めの「希望」、「確認」等に変換されている。特に、
図29の5行目のオペレータの発話(問い)と6行目の顧客の発話(受け答え)との対は、
図30において、「作成し郵送するので二三日待つ事を快諾」と1つの要約文に集約されている。要約文生成部73は、重要語テーブル34や各種変換テーブル36を参照することにより、応対履歴として機能する
図30の最終的に出力される要約文テキストを生成する。
図30の5行目の要約文の文末は、上記の感情解析処理を適用して、話者(顧客)の感情表現を反映した「快諾」に変換されている。
【0110】
図31は、
図28の対話音声テキストを照会した結果表示装置等に出力されるユーザインタフェースの非限定的一例を示す。
図31を参照して、ユーザインタフェースは、識別された話者311、発話単位の応対内容312、再生ボタン313、および話者の感情解析結果アイコン314を含んでよい。所望する発話に対応する再生ボタン313を選択することにより、当該発話の音声ファイルが再生される。
図32は、感情解析結果として、
図31で照会された通話単位についての、話者ごとの感情指標について、感情指標の数値から得られる感情解析結果が、「喜怒」が「通常」、満足感が「普通」ないし「やや高い」、ストレスが「なし」、「若干あり」等と示されている。
図31と
図32は同時に視認可能に表示装置上表示されてよい。
【0111】
図33は、1通話単位(録音時間1.25.716)について話者識別された発話単位の対話音声の音声認識結果、対応するユーザ辞書等を参照した自然言語処理結果、および音声ファイルのリンク、開始および終了時間を一覧で示す非限定的表示例である。
図33左下にあるように、当該通話単位について生成された要約文が表示されており、各処理結果と要約文との間の相互参照を容易にしている。
図33のユーザインタフェースは、音声ファイルを再生した後、音声認識結果や自然言語処理結果を、ユーザにエラー訂正させるべく、編集可能に表示してもよい。
また、
図33左下の生成された要約文には、対話において最終的に「サクサファンドの目論見書をインターネットで見ることを了承」したことが示されているが、当該要約文部分のうち「了承」に対して、複数の感情指標の数値から得られる感情解析結果を、例えば、「了承(快諾)」または「了承(渋々承諾)」のように括弧書等で付加してもよく、「了承」を「快諾」ないし「渋々承諾」等の感情解析結果を含む表現で置き換えてもよい。
本実施形態によれば、このように対話録音データ、対話音声の音声認識結果、自然言語処理結果、感情解析結果、および生成された要約文を統合して出力することができる。
【0112】
(各装置のハードウエア構成の一例)
図34は、音声処理システムにおける各装置が備えるハードウエア構成の一例を示す図である。音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9,10は、
図34に示すハードウエアコンポーネントの全部又は一部を備える。
図34に示す各装置100は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106、通信I/F107及びシステムバス108を備えてよい。
【0113】
CPU101は、装置における動作を統括的に制御するものであり、システムバス1088を介して各構成部(102〜107)を制御する。CPU101は音声認識処理、要約生成処理または感情解析処理等の各処理を実行する処理部として機能する。ROM102は、CPU101が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ104や着脱可能な記憶媒体(図示せず)に記憶されていてもよい。RAM103は、CPU101の主メモリ、ワークエリア等として機能する。よって、CPU101は、処理の実行に際してROM102から必要なプログラム等をRAM103にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
【0114】
外部メモリ104は例えば、CPU101がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ104には例えば、CPU101がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。入力部105はキーボード、タブレット等各種入力デバイスから構成される。表示部106は例えば液晶ディスプレイ等からなる。通信I/F107は、外部装置と通信するためのインターフェースであり、例えば無線LAN(Wi−Fi)インターフェースやBluetooth(登録商標)インターフェースを備える。システムバス108は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106及び通信I/F107を通信可能に接続する。
【0115】
以上説明したように、本実施形態によれば、対話音声から、十分に短縮化され、かつ対話の重要要素が欠落することが有効に防止された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
【0116】
以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。
【解決手段】対話要約生成装置は、対話音声データから対話の話者を識別する話者識別部と、識別された話者ごとに、対話音声データを発話単位に分離する音声分離部と、対話音声データを、分離された発話単位で音声認識して対話音声テキストを生成する音声認識部と、生成された対話音声テキストを要約して要約文テキストを生成する要約生成部と、第1の話者の対話音声テキストから所定時間長内の短い発話を検出し、検出された短い発話に対応する第2の話者の対話音声データの発話単位に基づいて、第1の話者の短い発話が受け答えか否かを判定し、受け答えと判定された短い発話を、生成された要約文テキストに付加する受け答え判定部とを備える。