【実施例1】
【0017】
本実施例では、係るコールセンタにおける上述したリスクを軽減する例について説明する。
【0018】
図1は、本発明の音声自動認識・音声変換システムをコールセンタ装置に適用したときの全体構成を示す構成図である。
【0019】
コールセンタ100は、通信部(通信手段)110、表示部(表示手段)120、音声自動認識・音声変換システム130、を有する。
【0020】
通信手段110は、顧客側の電話等の通信端末(通信手段)200との間で音声の送受信を行う。受信した顧客の音声(入力音声)は、表示手段120及び音声自動認識・音声変換システム130に供給する。
【0021】
音声自動認識・音声変換システム130は、声紋認識部(声紋認識手段)1301、感情認識部(感情認識手段)1302、キーワード認識部(キーワード認識手段)1303、音声分析部(音声分析手段)1304、音声変換部(音声変換手段)1305、顧客DB1306、担当者DB1307、音声DB1308、を有する。
【0022】
声紋認識手段1301は、通信手段110からの電話音声(入力音声)を受け、当該音声の声紋を認識する。この声紋認識から、年齢、性別、注意点(履歴がある場合)を判別する。
この声紋認識は、例えば、顧客DB1306に登録された声紋と照合して行う。顧客DB1306に登録されていない場合には、声紋認識手段1301において、入力音声の声紋から年齢、性別等を判定し、その結果を顧客DB1306に登録する。
【0023】
感情認識手段1302は、入力音声の音色(声色)から、対象顧客の「喜怒哀楽」等の感情を判別する。
【0024】
キーワード認識手段1303は、顧客の音声の中から、キーワードとなる音声、例えば聞き直しに関連する「声が小さい」などのキーワードを検出する。
【0025】
音声分析手段1304は、声紋認識手段1301による年齢、性別を示すデータや感情認識手段1302による感情を示すデータを基に音声DB1308や担当者DB1307を検索する。
そして、当該音声DBから、顧客(相手)の聞き取り易い音声情報(音量、音声速度、音程、音質等の音声パラメータ)を抽出する。
【0026】
また、音声分析手段1304は、当該担当者DB1307から、担当者の音声情報(音量、音声速度、音程、音質等の音声パラメータ)を抽出する。また、キーワード認識手段1303が、例えば顧客から「声が小さい」、「聞き取れない」等のキーワードを検知した場合、それに対応した音声情報(音量、音声速度等の音声パラメータ)を当該音声DB1308から、抽出する。
【0027】
要するに音声分析手段1304は、対象顧客の状態、年齢、性別等に合わせ、顧客が聞き取り易い音量、音声速度、音程、音質に変換可能な音声情報(属性のパラメータ)を抽出し、その分析結果は、表示装置120に表示する。
【0028】
音声変換手段1305は、担当者の音声(出力音声)を、音声分析手段1304による音声分析情報を基に顧客(相手)が聞き取り易い音声(音量、音声速度、音程、音質)に変換する。また、会話中で聞き直す仕草や「声が小さい」、「早口」などの会話内容から「音量を上げる」、「音声速度を遅くする」等の音声変換のチューニングをリアルタイムで実施する。
換言すれば、音声分析手段からの属性のパラメータ値に従い、顧客20の状態に応じた音声のチューニングを行う。この変換音声は、通信手段110を介して顧客側の通信手段200に送信する。
【0029】
顧客DB1306は、顧客(お客様)の個人情報のほか、声紋、声紋から判別される年齢、性別等を示す情報を蓄積する。
【0030】
担当者DB1307は、各担当者の音声パラメータ、担当者Aとして、例えば「音量:50、音声速度:70.音程20、音質:−40」等のパラメータ、担当者Bとして、「音量:30、音声速度:30.音程70、音質:+20」等のパラメータを蓄積する。
【0031】
音声DB1308は、年齢、性別、感情に対応する音声パラメータ、例えば「年齢50才、性別:男性、感情:平常」の場合には、「音量:65、音声速度:45、音程:60、音質:+30」、「年齢20才、性別:女性、感情:怒」の場合には、「音量:45、音声速度:55、音程:40、音質:+10」等のように顧客にとって最良(聞くのに適している)と思われる音声となるようなパラメータの組合せを蓄積する。
【0032】
図2は、本発明の音声自動認識・音声変換システムにおける処理フローを示す図である。
【0033】
同図において、電話対応および音声変換、変更内容の更新などについて説明する。
まず、ステップS13001において、事前に音声変換元の担当者の音声パラメータを担当者DB1307に登録する。
【0034】
次に、ステップS13002において、お客様(以下、顧客と言う)20側の通信手段200からの音声31をサービス提供事業者側100の通信手段110で受信する。
【0035】
このとき、音声自動認識・音声変換システム100は、以下のステップによる処理を実行する。
声紋認識手段1301は、ステップS13003において、顧客20の音声31から、声紋、声色の情報を取得する。
【0036】
また、声紋認識手段1301は、ステップS13004において、顧客DB1306の声紋を検索し、ステップS1305において、当該声紋に一致する声紋が顧客DB1306に登録済みか否かを判定する。つまり、顧客の音声31が顧客DB1306に登録されている既存ユーザか否かを判定する。
【0037】
その判定結果、顧客DB1306に登録されていない場合(No)には、声紋認識手段1301は、ステップS13006において、当該声紋から年齢、性別を判定し、ステップS13007において、当該判定結果を顧客DB1306に登録する。
【0038】
判定結果、声紋が顧客DB1306に登録されている場合(Yes)には、声紋認識手段1301は、ステップS13008において、顧客DB1306から個人(顧客)を特定し、年齢、性別、注意点等を抽出する。
【0039】
次に、感情認識手段1302は、ステップS13009において、声色から顧客の感情、つまり「喜怒哀楽」を判定する。
【0040】
音声分析手段1304は、ステップS13010において、年齢、性別、感情のデータを基に音声DB1308を検索し、次いでステップS13011において、当該音声DBから相手の年齢、性別、感情に応じた最適と思われる音声パラメータを抽出する。また、ステップS13012において、担当者DB1307から、担当者の音声パラメータ(音量、音声速度、音程、音質等の情報)を抽出する。
【0041】
また、音声分析手段1304は、ステップS13013において、担当者10の音声パラメータと最適な音声パラメータとの差分を取り、当該差分(変更値)を抽出する。
【0042】
音声変換手段1305は、ステップS13014において、音声分析手段1304から受取った属性のパラメータ値に従い担当者10の音声を変換する。
【0043】
次に、通信手段110は、ステップS13015において、音声変換手段1305により変換した変換音声33を顧客20側の通信手段200に送信する。
また、ステップS13016において、顧客20の年齢、性別、感情、注意点(履歴がある場合)などの情報を表示手段120に表示する。
【0044】
以上のステップを実行している状態において、感情認識手段1302は、ステップS13017において、顧客20との会話中から、顧客の感情変化を監視する。また、ステップS1308において、感情変化があるか否かを判定する。
【0045】
その監視結果、感情認識がある場合(Yes)には、ステップS13019において、感情変化を検出し、注意すべき点を表示手段120に表示する。例えば、顧客20が平常状態から突然怒りだした怒り状態に変化した場合、その旨を示すメッセージを表示手段120に表示し、担当者10に対して顧客対応に注意を払うことように喚起する。
【0046】
また、この場合には、感情認識手段1302は、ステップS13020において、年齢、性別、変化した感情を元に音声DB1308を再検索し、再度この感情変化状態における最適と思われる音声パラメータを抽出する。
【0047】
また、音声分析手段1304は、ステップS13021において、担当者の音声パラメータと最適な音声パラメータとの差分を取り、当該差分(変更値)を抽出する。
【0048】
また、音声変換手段1305は、ステップS13022において、音声分析手段1304から受取った属性のパラメータ値に従い、担当者10の音声を変換する。この変換音声33は、ステップS13023において、通信手段110を介して顧客20側の通信手段200に送信する。
【0049】
また、音声分析手段1304は、この変更内容をステップS13024において、顧客DB1306に反映する。
【0050】
ステップS13018において、感情変化がない場合には、次段のキーワード認識手段1303により、ステップS13025において、会話中のキーワードを監視する。また、ステップS13026において、聞き直すキーワードがあるか否かを判定する。
【0051】
その判定の結果、聞き直すキーワードがある場合(Yes)には、キーワード認識手段1303は、ステップS13027において、聞き直すキーワードを検出し、注意すべき点、例えば、声が小さいならば、その旨を表示手段120に表示する。
【0052】
また、音声分析手段1304は、ステップS13028において、キーワード認識手段1303により抽出したキーワードに応じた各属性のパラメータ値を変更する。
例えば、担当者10の声が小さい場合には、音量を上げる(+10)。また、早口である場合には、音声速度を下げる(−15)等のチューニングを行う。
【0053】
また、音声変換手段1305は、ステップS13029において、音声分析手段1304から受取った属性のパラメータ値に従い、担当者10の音声を変換する。
【0054】
この変換音声33は、ステップS13030において、通信手段110を介して顧客20側の通信手段200に送信する。
【0055】
また、音声分析手段1304は、この変更内容をステップS13031において、顧客DB1306に反映する。
【0056】
最後に、ステップS13032において、電話対応が終了したか否かを判定し、終了していない場合(No)には、ステップ13017に戻る。
電話対応が終了した場合(Yes)には、ステップS13033において、電話対応を終了、つまり電話を切る。次いで、ステップS13034において、顧客DB1306を更新し、履歴追加を行う。
【0057】
図3〜
図5は、お客様(顧客端末)と担当者(コールセンタ)との音声による通信(やり取り)の一例を模式的に示す図である。
【0058】
まず、感情変化前の状態について
図3を用いて説明する。
図3は、サービス提供事業者側(コールセンタ)100がお客様に提供した運用管理ソフトウェアに関して問題があり、顧客からコールセンタに連絡が入ったことを想定したときの担当者による対応を摸式的に示す図である。
お客様から電話により、製品に関する問合せがあったとき、音声自動認識・音声変換システム130は、このときのお客様の音声、例えば「もしもし〜」等の音声の声紋が顧客DB1306に登録されている場合には、その情報を参照して認識する。またお客様の音声から感情認識も行う。
【0059】
これらの認識結果は、例えばコールセンタ側の表示装置120のPCモニターに表示する。本例では、「X商事 YY様 契約:Jソフトウェア 年齢:50、性別:男性、感情:正常」を示している。このモニターは、コールセンタ側の担当者が見られるようにする。
【0060】
次に、これらの情報を基に、つまり「X商事 YY様 契約:Jソフトウェア 年齢:50、性別:男性、感情:正常」に最適値であると思われる「音量:65、音声速度:45、音程:60:音質:30」のパラメータを音声DB1308から抽出する。また、担当者の担当者値である「担当者A 音量:50、音声速度:70、音程:20、音質:40」のパラメータを担当者DB1307から抽出する。
【0061】
そして、これらのパレメータの差分を計算する。本例では、「音量:+15、音声速度:−25、音質:+40、音質+70」となる。この差分を基に担当者Aの音声を、顧客に対して適した音声となるように変換を行う。お客様とは、この音声変換された音声により、例えば「X商事のYYさんですね。いつもありがとうございます。Jソフトウェアのお問合せでしょうか?」等の音声により応対する。
【0062】
次に、顧客の感情変化を検知した場合について
図4を用いて説明する。
図4は、感情認識が、例えば、入力音声の音量が通常より3%上がり、音程が通常より5%高くなった場合を想定した例である。
以上のような両者の会話において、お客様の音声から感情の変化、例えば「平常」から「怒り」が感じられた場合には、当該お客様の感情状態「怒り」に応じて、音声DB1308から、「音量:55、音声速度:35、音程:40:音質:+10」のパラメータを抽出し、担当者Aのパラメータとの差分「音量:+5、音声速度:−35、音程:+20:音質:+50」を計算する。そして、この差分を基に担当者Aの音声を、音声変換の再構築(チューニング)を行う。本例によれば、きめ細かな音声変換のチューニングも可能である。
なお、感情認識の判定方法としては、単純な判定方式を採用してもよい。
【0063】
次に、聞き直し等の場合について
図5を参照して説明する。
お客様が「聞き取れなかったので、もう1度お願いします。少しお声が小さいのですが。」等の音声の場合には、キーワード認識機能により、つまり「声が小さい」の音声を検出し、担当者Aの音量を、例えば「音量:+10」とする。
【0064】
このときのお客様の感情変化やキーワード音声は、PCモニターに表示し、担当者Aが、その様子をPCモニターから察知できるようにする。
【0065】
上述した実施例によれば、以下のような効果を期待することができる。
(1)
お客様(顧客)の年齢、性別、感情に応じた最適な音声(音量、音声速度、音程、音質)で会話することができ、電話対応の印象を向上させることができる(製品、サービス、会社自体の印象向上が期待できる)。また、ストレスのない電話対応により、電話対応のトラブル(クレーム)を低減させることができる。
(2)
全ての担当者が上記の対応が可能となり、担当者の対応ばらつきを是正することができる。
(3)
人の耳では判別できないようなお客様の感情変化を適確に検知することができ、音声変換のチューニングを施すと共に担当者への慎重な対応意識を上げることができる。
(4)
年配者ハンディキャップを有するお客様に対しても、担当者の音声を最適な音声に変換して聞かせることができるため、お客様にストレスを与えないサービスを提供することができる。
(5)
また、付随的効果として、声紋で個人を特定することが可能なため、当該個人に関する情報をモニターすることにより、例えばサポートサービスにおいて、契約確認が容易になると共にお客様側に契約確認の手間が軽減できる。例えば、担当者は、「○○社の××さんですね。いつもありがとうございます。△△製品のお問合せでしょうか?」等の応答ができ、お客様から「よく分かったね〜。契約確認が楽で助かるよ」等の返答が期待できる。
(6)
また、付随効果として、声紋で個人を特定することが可能なため、契約情報を不正に取得してサービスを利用する、所謂「なりすまし」を防止することができる。
【0066】
なお、本発明は上記した実施例限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。