【文献】
cotreeの「アセスメントコーチング」を受けた話 <前編>,[online],2019年12月27日,[2020年7月9日検索],インターネット,URL,https://note.com/akiko_furusawa/n/n1fef267b0587
(58)【調査した分野】(Int.Cl.,DB名)
前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクスに配置された異なるセグメントに位置する場合、所定の値を前記相対距離に付加して、前記相対距離を算出する
ことを特徴とする請求項1または2に記載の話者間相性判定装置。
前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクス上で対角線上に配置される異なるセグメントに位置する場合、前記マトリクス上で縦方向または横方向に隣接して配置される異なるセグメントに位置する場合より、大きい値を前記相対距離に付加して、前記相対距離を算出する
ことを特徴とする請求項3に記載の話者間相性判定装置。
前記音声解析部による解析に先立って、前記音声データの音声波形に基づいて、前記音声データから有音区間を抽出し、抽出された前記有音区間を、所定の時間長以上となるまで繋ぎ合わせる前処理部をさらに備える
ことを特徴とする請求項1から5のいずれか1項に記載の話者間相性判定装置。
【発明を実施するための形態】
【0026】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
【0027】
(実施形態1)
以下では、例えば、コールセンタ内に設置される1つまたは複数のPC(Personal Computer)において、オペレータの音声、および電話網を介して集音される顧客の音声をそれぞれ録音して、音声処理サーバへ送信し、音声処理サーバにおいて、話者であるオペレータおよび顧客の性格をそれぞれ判定した上で、オペレータおよび顧客の間の相性を判定する一例を主として説明するが、本実施形態はこれに限定されない。
【0028】
本実施形態は、直接あるいは各種ネットワークを介して集音される複数の話者の音声を処理可能な構成であればよく、例えば、商品やサービスのマーケティング、販売、人事管理、採用、マッチング等を含む、既知の話者の性格を属性として利用可能なあらゆるアプリケーションに応用することができる。
【0029】
<本実施形態の音声処理システムのネットワーク構成>
図1は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。
図1を参照して、音声処理システムは、PC(Personal Computer)1および3、ルータ6、および音声処理サーバ7を備える。PC1、3は、ネットワーク5、ルータ6、およびインターネット8を介して、音声処理サーバ7に接続される。
【0030】
PC1、3は、それぞれ、マイクロフォン2、4に接続しまたはこれを内蔵する。PC1、3上では、例えば、HTTP(Hyper Text Transfer Protocol)のプロトコルで動作するWeb API(Application Programming Interface)を介して、音声処理サーバ7と連携動作し、PC1、3の表示装置上にユーザインタフェースを提供するアプリケーションが稼働してよい。
【0031】
PC1、3は、マイクロフォン2、4を介して直接集音された話者、例えば、オペレータ、の音声を記憶装置に記憶することができる。コールセンタにおいて、オペレータと通話すべき顧客の音声を集音する場合、オペレータの電話端末を収容するPBX(Private Branch eXchange)によりPSTN(Public Switched Telephone Network)等の公衆電話回線交換網に回線交換接続して、顧客の電話端末からオペレータの電話端末まで搬送される音声を、PBXまたはオペレータの電話端末に分岐接続するPCにより集音すればよい。PSTNに替えて、VoIP(Voice Over Internet Protocol)ネットワーク等の音声パケット通信ネットワークを介して、顧客の電話端末からの音声を集音してもよい。
【0032】
オペレータと顧客との間の通話を集音する場合、PBXから供給される呼情報から、インバウンド(顧客からの発話)またはアウトバウンド(オペレータからの発話)の極性を識別する話者識別情報を取得することができる。この話者識別情報を参照することにより、1通話内の顧客の発話とオペレータの発話とを必要に応じて個別或いは分離することができる。
なお、
図1には2つのPCが図示されているが、本実施形態におけるPCの数はこれに限定されず、1つであっても、3つ以上であってもよい。
【0033】
ネットワーク5は、例えば、Ethernet(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)であってよい。あるいは、ネットワーク5は、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi−Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G/4G/5G等の無線WAN(Wide Area Network)を含む。なお、ネットワーク5は、各機器を相互に通信可能に接続できればよく、通信の規格、規模、構成は上記に限定されない。
【0034】
ルータ6は、インターネット8の回線を、複数のPC1、3に分配するハブ機能を備え、PC1、3に、インターネット8を介した音声処理サーバ7へのアクセスを提供する。
音声処理サーバ7は、PC1、3で集音された話者の音声を解析して、話者の性格を判定するとともに、複数の話者について判定された性格同士の相性を判定する音声処理を実行する。音声処理サーバ7により実行される本実施形態の音声処理の詳細は、
図3〜
図12を参照して後述する。
【0035】
なお、集音された話者の音声は、PC1、3の記憶装置に記憶されてよく、或いは、音声処理サーバ7の記憶装置に記憶されてもよい。また、集音された話者の音声は、アナログ音声として記憶されてよく、或いは、A/D変換されて、デジタル音声として記憶されてもよい。デジタル音声として記憶する場合、供給されるアナログ音声の波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換すればよい。
【0036】
なお、
図1に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各装置およびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをASP(Application Service Provide)等の外部設備に設置してもよい。
【0037】
<音声処理サーバ7の機能構成例>
図2は、本実施形態に係る音声処理サーバ7の機能構成の非限定的一例を示す図である。
【0038】
図2に示す音声処理サーバ7の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがROM等のメモリに記憶され、RAMに読み出してCPUが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、
図2に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。
【0039】
図2を参照して、音声処理サーバ7は、音声取得部11、音声記憶部12、音声解析部13、性格型分類部14、性格型記憶部15、相性判定部16、および出力部17を備える。
【0040】
音声取得部11は、PC1、3から送信される話者の音声の音声ファイルを受信し、受信された音声ファイルを音声解析部13に供給する。
【0041】
本実施形態において、音声取得部11は、音声解析の前処理として、音声ファイル中の話者の音声波形を走査して、有音区間を1単位の会話として切り出し、切り出された会話を所定の計測閾値以上となるまで繋ぎ合わせて、判定単位の音声データを生成して、音声記憶部12に記憶し、および/または、音声解析部13に供給してよい。音声取得部12は、音声ファイル中の話者の音声波形を走査する前に、音声波形を適宜正規化してよい。代替的に、このような音声データの生成処理は、PC1、3において実行されてよい。
【0042】
音声記憶部12は、音声取得部11により生成された判定単位の音声データを記憶する。音声記憶部12はまた、PC1、3から送信される話者の音声を音声ファイルとして記憶してよい。音声記憶部12は、音声処理サーバ7内に設けられてよく、或いは、NAS(Network Appliance Storage)等の大規模外部記憶装置上に設けられてもよい。
【0043】
音声解析部13は、音声取得部11から供給される判定単位の音声データを解析して、話者の性格に関連する定量的指標を算出し、算出された定量的指標の値を、性格型分類部14に供給する。
【0044】
具体的には、本実施形態において、音声解析部13は、音声取得部11から供給される評価単位の会話中の音声波形の周波数スペクトルを時系列的に解析して、話者の発話の言語に依存することなく、また、特徴語を定義する辞書等を参照することなく、話者の性格に関連する定量的指標を算出する。
なお、音声解析部13が出力する定量的指標は、話者の性格を推定し得る限り、任意の指標が用いられてよいが、本実施形態では、以下、自己主張度(積極性/慎重性)および感情表現度(論理性/感情性)の2軸で定量的指標の値を算出する例を説明する。
【0045】
性格型分類部14は、音声解析部13から供給される定量的指標の値を、性格型マトリクス上にマッピングする。この性格型マトリクスは、縦軸に自己主張度(積極性/慎重性)、横軸に感情表現度(論理性/感情性)を有し、自己主張度および感情表現度のそれぞれの値に応じて4つのセグメントが配置されている。性格型マトリクスの4つのセグメントのそれぞれは、複数のセル、例えば、9つのセル、に分割されている。性格型分類部15は、2つの定量的指標の値の組み合わせで示されるセルを、性格型マトリクスの複数のセルから選択し、選択されたセルを、当該話者について分類された性格型として、性格型記憶部15に記憶する。この性格型マトリクスの詳細は、
図5を参照して後述する。或いは、性格型分類部15は、分類された性格型を、相性判定部16に供給してもよい。
【0046】
性格型記憶部15は、性格型分類部14により分類された話者の性格型を、当該話者を一意に識別する識別子、他の属性(例えば、性別、年齢層、住所エリア、職業分類等)と適宜対応付けて記憶する。
【0047】
相性判定部16は、指定された複数の話者の間の相性を判定して、判定された話者間の相性を出力部17に供給する。
具体的には、本実施形態において、相性判定部16は、性格型マトリクス上で、指定された話者それぞれについて選択されたセルの間の相対距離を算出し、算出されたセル間の相対距離の値から、指定された話者間の相性の程度を定量的に求める。この相性判定処理の詳細は、
図6および
図7を参照して後述する。
【0048】
出力部17は、性格型分類部14により分類された話者の性格型を表示装置に出力する。出力部17はさらに、相性判定部16により判定された指定された話者間の相性を表示装置に出力する。出力先の表示装置は、PC1、3に設けられてよく、或いは、音声処理サーバ7や他のサーバ装置に適宜設けられてもよい。出力部17は、分類された性格型および相性をより詳細に説明するメッセージや、推奨される応対を説明するメッセージを、出力結果とともに、表示装置に表示させてよい。
【0049】
<音声処理サーバ7による音声処理の詳細処理手順>
図3は、音声処理サーバ7が実行する音声処理の詳細処理手順の一例を示すフローチャートである。
図3を参照して、S1で、音声処理サーバ7の音声取得部11は、PC1、3から、PC1、3において集音および録音された話者の音声を取得する。音声取得部11は、プッシュ型またはプル型でPC1、3から適宜音声を受信してもよい。
【0050】
音声取得部11により取得される話者の音声は、特定の言語やコンテキストに従う必要がない。
本実施形態では、音声ファイルの音声波形の周波数スペクトルを非言語的に解析することで、話者を適切な性格型に分類するためのパラメータの値を導出する。このように、音声処理サーバ7は、集音された音声の言語やコンテキストに依存することなく、話者の音声を解析することができるため、性格や相性を判定すべき話者は、任意の内容で発話すればよい。発話を促すためには、例えば、「お名前と年代と性別をお話しください。」、「あなたの趣味や今興味があることをお話しください。」等のトリガメッセージをPC1、3の表示装置上に出力し、録音ボタンの押下時に、話者により発話された応答音声をマイクロフォン2,4で集音して、PC1、3の記憶装置上に録音すればよい。
【0051】
S2で、音声処理サーバ7の音声取得部11は、S1で取得された話者の音声に対して解析前処理を実行する。具体的には、音声取得部11は、計測閾値以上の長さの発話区間の音声を切り出して、切り出された音声を解析処理対象の音声データとして、音声記憶部12に格納する。
【0052】
図4は、音声取得部11が実行する解析前処理としての音声切り出しおよび繋ぎ合わせ処理を説明する図である。
音声取得部11は、録音された
図4に示す話者の音声の音声波形を走査して、有音区間を検出して切り出す。なお、
図4の音声波形について、PC1、3における集音の際に、録音された話者の音声波形の振幅の閾値を用いて、例えば、音声波形の振幅がマイクロフォンの最大音量の半分程度に収まるように、マイクロフォンの音量を調整してもよい。また、音声取得部11は、音声波形を走査する前に、音声波形を適宜増幅することにより正規化してよい。
【0053】
図4を参照して、音声取得部11は、有音音量(振幅)の閾値を超えた位置(経過秒数)を検出し、検出された位置に対して、有音区間の開始を示す「S」をマークして記憶装置に記憶する。
音声取得部11はまた、無音音量(振幅)の閾値を超えた位置(経過秒数)を検出し、検出された位置に対して、無音区間の開始を示す「E」とマークして記憶装置に記憶する。
【0054】
音声取得部12はさらに、「E」とマークされた無音区間の開始位置から無音時間の閾値(例えば、0.5秒)の間、有音を検出しない場合、直前の「E」までを1つの会話として処理する(
図4の「EOS」)。会話の終了を示す「EOS」の後に、有音を検出した場合は、検出された位置に対して「S」をマークして無音区間の検出に戻り、録音音声の終了時点まで、有音区間および無音区間の検出を繰り返す。
【0055】
音声取得部11は、最初に検知された有音区間の開始位置(「S」でマークされた位置)から、会話の終了位置(「EOS」でマークされた位置)までの1つの会話の中から、有音区間の開始位置(「S」)と無音区間の開始位置(「E」)との対で規定される区間を、有音区間として1つの会話音声から切り出す。音声取得部12は、この有音区間の切り出しを、会話の終了位置(「EOS」)まで繰り返す。
【0056】
有音区間を切り出す際に、音声取得部11は、有音区間の開始位置から終了位置までの区間長(秒数)が、有音時間の閾値(例えば、0.5秒)未満の場合は、ノイズまたは不要語と判断し、会話を無効化して削除してよい。
また、有音区間を切り出す際に、音声取得部11は、切り出された有音区間の前後に糊代(遊び)区間を付加して切り出してもよい。例えば、音声取得部12は、「S−糊代閾値(例えば、0.2秒)」から「E+糊代閾値(例えば、0.2秒)」を、1つの有音区間として切り出してよい。
【0057】
録音された1つの音声ファイルは、複数の有音区間を含み得る。音声取得部11は、所定の計測閾値(例えば、90秒)に到達するまで、切り出された複数の有音区間を繋ぎ合わせる処理を繰り返す。この有音区間を繋ぎ合わせる処理は、複数の会話に亘って実行され得る。最終的に、音声取得部11は、90秒以上の長さを持つ繋ぎ合わされた有音区間を処理対象の音声データとして生成し、生成された音声データを音声記憶部12に記憶する。
【0058】
なお、
図4を参照して上記で説明した有音区間の切り出しおよび繋ぎ合わせ処理は、音声処理サーバ7に替えて、PC1、3が実行してよい。この場合、PC1、3において、有音区間が切り出されおよび繋ぎ合わされた音声データを記憶し、音声処理サーバ7が、例えば、PC1、3に記憶された音声データファイルのアップロードを指示することにより、音声データファイルを受信すればよい。
【0059】
図3に戻り、S3で、音声処理サーバ7の音声解析部13は、音声取得部11から供給される、または音声記憶部12から読み出された処理対象の音声データを解析する。具体的には、音声解析部13は、音声取得部11から供給される処理対象の音声データを解析して、話者の性格に関連する定量的指標を算出し、算出された定量的指標の値を、性格型分類部14に供給する。
【0060】
S4で、音声処理サーバ7の性格型分類部14は、音声解析部13から供給される話者の性格に関連する定量的指標の値を、性格型マトリクス上にマッピングすることで、当該話者の性格型マトリクス上の位置を決定する。
【0061】
図5は、性格型分類部14が参照する性格型マトリクスの構成の一例を示す図である。
図5を参照して、性格型マトリクス9は2軸を有し、縦軸は、正方向に積極性(Energetic)、負方向に慎重性(Stress)を示し、横軸は、左方向に論理性(Logical)、右方向に感情性(Emotional)を示す。
図5において、性格型マトリクス9は4つのセグメントに分割され、左上のセグメントはEL型(積極的かつ論理的)、右上のセグメントはEE(積極的かつ論理的)、左下のセグメントはSL型(慎重かつ論理的)、右下のセグメントはSE型(慎重かつ感情的)をそれぞれ性格型として示す。
【0062】
本実施形態において、性格型マトリクス9のそれぞれのセグメントは、さらに、9つのセルに再分割されている(A1〜A3、B1〜B3、C1〜C3)。音声解析部13は、処理対象の音声データの音声波形を解析して、性格型マトリクス9の縦軸の積極性/慎重性の相対値および横軸の論理性/感情性の相対値を算出し、算出された相対値を音声解析結果として性格型分類部14に出力する。性格型分類部14は、音声解析部13が出力する積極性/慎重性の相対値と、論理性/感情性の相対値との交点を、性格型マトリクス9の上のいずれかのセグメントのいずれかのセルの位置にマッピングする。すなわち、性格型マトリクス9の上の各セルは、それぞれ積極性/慎重性、論理性/感情性の2軸において、それぞれ異なる性格型を識別する。
【0063】
音声解析部13が実行する音声解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、音声解析部13は、話者の発話の言語や発話の内容に依存することなく、解析対象の音声データの音声波形から把握される発話の抑揚(イントネーション)に基づいて話者の性格を示す感情の振幅や変化を数値化することができる。この感情解析には、公知の技術(例えば、特表2002−509267号公報)を適用することができるがこれに限定されない。
【0064】
性格型分類部14は、S4で決定された性格型マトリクス9のセグメントおよび当該セグメント内のセルの識別子(例えば、EL型/A1)を、性格型として、解析対象の話者の識別子と対応付けて、性格型記憶部15に記憶する。
【0065】
性格型分類部14は、S4で決定された性格型マトリクス9の上のセグメントおよび当該セグメント内のセルに対応するメッセージを、PC1、3に送信し、PC1,3の表示装置を介して出力してよい。音声処理サーバ7は、性格型マトリクス9の各セグメントおよび各セルについてそれぞれ、他のセグメントおよび他のセルと識別可能な性格型を記述するメッセージを記憶するテーブルを備え、性格型分類部14は、このメッセージテーブルを参照して、決定された性格型マトリクス9のセグメントおよびセルに対応するメッセージをPC1、3の表示装置を介して出力させてよい。
【0066】
図3に戻り、S5で、音声処理サーバ7の相性判定部16は、指定された相性判定対象の複数の話者についてのそれぞれの性格型の判定結果に基づいて、当該話者間の相性を判定する。
具体的には、本実施形態において、相性判定部16は、
図5に示す性格型マトリクス9で、指定された話者それぞれについて選択されたセルの間の相対距離を算出し、算出されたセル間の相対距離の値から、指定された話者間の相性の程度を定量的に求める。
【0067】
図6は、性格マトリクス9のセル間の相対距離の算出を一例として説明する図である。
図6を参照して、一例として、相性判定の基準となる話者についてS4で決定されたセグメントがEL型(積極的かつ論理的)、決定されたセルがEL型中のA1であるものとし、これを基準セルRとする。相性判定部16は、基準セルRから、相性判定の相手の話者について決定されたセグメントおよびセルまでの相対距離を
図6に示すように算出する。
【0068】
EL型のセグメント内において、基準セルRから縦方向および横方向にセルを横断するごとに+1を加算する。例えば、基準セルR(A1)から縦方向または横方向に隣接するセルであるB1、A2は、それぞれ基準セルRからの距離が1である。これらの隣接セルB1、A2のいずれかに縦方向または横方向に隣接するセルであるC1、B2、およびA3は、それぞれ基準セルRからの距離が2となる。同様に、これらのセルC1、B2、およびA3のいずれかに縦方向または横方向に隣接するセルであるC2、B3は、それぞれ基準セルRからの距離が3である。EL型のセグメント内で基準セルRの対角線上に位置するセルであるC3は、基準セルRからの距離が4である。他の性格型であるEE型、SL型、SE型についても、同様にセル間の相対距離を算出することができる。
【0069】
このように、相性判定部16は、性格型マトリクス9で、基準セルRから相性を判定する相手の話者について選択されたセルまでの縦方向および横方向の経路長を算出することにより、セル間の相対距離を算出する。
【0070】
本実施形態において、決定された性格型から他の性格型に移動する場合、セグメント間移動についての相対距離が付加されるものとする。非限定的一例として、このセグメント間移動の際に付加すべき相対距離の閾値は、性格型のセグメントを縦方向または横方向に横断する場合に+4を加算し、性格型のセグメントを対角線上に横断する場合に+5を加算するものとする。このセグメント間移動の際に付加すべき相対距離の閾値は、例えば、パラメータ設定画面等を介して変更可能であってよい。
【0071】
図6を参照して、例えば、EL型に属する基準セルR(A1)から、SL型(慎重かつ論理的)のセグメントのセルA1に移動する場合、同一セグメント内であれば、SL型のセルA1は基準セルRに隣接するため基準セルRからの距離は1である。ただしここでは、縦方向にセグメントを横断するため、+4を加算して、基準セルRからSL型のセルA1への相対距離は5となる。同様に、EL型に属する基準セルR(A1)から、EE型(積極的かつ感情的)のセグメントのセルA1に移動する場合、同一セグメント内であれば、EE型のセルA1は基準セルRに隣接するため基準セルRからの距離は1である。ただしここでは、縦方向にセグメントを横断するため、+4を加算して、基準セルRからSL型のセルA1への相対距離は5となる。
【0072】
EL型に属する基準セルR(A1)から、SE型(慎重かつ感情的)のセグメントのセルA1に移動する場合、同一セグメント内であれば、SE型のセルA1は、SL型またはEE型のセルA1に隣接するため基準セルからの距離は2である。ただしここでは、対角線上にセグメントを横断するため、+5を加算して、基準セルRからSE型のセルA1への相対距離は7となる。
【0073】
このように、本実施形態では、相性判定部16は、セル間の相対距離を、隣接するセルへの縦方向または横方向の移動距離から算出する。このため、基準セルRと対角線上に隣接するセルに対しては、基準セルRに縦方向または横方向に隣接するセルよりも大きい相対距離が算出される。
【0074】
同一性格型において、基準セルRに縦方向または横方向に隣接するセルの方が、基準セルRと対角線上に隣接するセルよりも、積極性/慎重性の縦軸のパラメータ値(属性値)または論理性/感情性の横軸のパラメータ値(属性値)のいずれかが基準セルRに近い。したがって、基準セルRに縦方向または横方向に隣接するセルに属する話者は、基準セルRと対角線上に隣接するセルに属する話者よりも、基準セルRに属する話者との性格型における近似性および親和性が高く、したがって、相性がよいと推定できるからである。
【0075】
また、本実施形態では、相性判定部16は、性格型のセグメントのボーダーラインを横断する場合、相対距離を付加する。このため、他の性格型のセグメントに属するセルに対しては、同一性格型のセグメント内に属するセルよりも大きい相対距離が算出される。たとえセル間の相対距離が近くても、性格型のセグメントを横断することは、複数の話者がそれぞれ異なる性格型に分類されることを意味するため、類型的に性格型における近似性および親和性が低く、したがって、同一の性格型と比較して相性が低下すると推定できるからである。
【0076】
図7は、性格マトリクス9のセル間の相対距離から話者間の相性を段階的に定義する相性判定テーブルの一例を示す図である。
図7を参照して、相性判定テーブルは、相対距離0〜1は「最適」、相対距離2〜3は「良好」、相対距離4〜5は「良い」、相対距離6〜7は「普通」、相対距離8〜9は「警告」、相対距離10〜11は「注意」、相対距離12〜15は「回避」と定義している。
【0077】
例えば、本実施形態をコールセンタ業務に適用してオペレータと顧客との相性を判定する場合、オペレータの当該顧客に対する相性が「最適」であれば、当該顧客と同じ性格でよりよい対応が可能である、「良好」であれば、当該顧客と近い性格でよりよい対応が可能である、「よい」であれば、当該顧客に合わせることが可能である、「普通」であれば、当該顧客に普通の対応が可能である、と、それぞれ許容可能な相性であり、良好な対応が望めることが判定できる。
【0078】
一方、オペレータの当該顧客に対する相性が「警告」であれば、当該顧客の性格をオペレータに伝えた上で対応に留意を要する、「注意」であれば、できれば当該顧客に対応しないことを勧める、「回避」であれば、当該顧客への対応を回避すべき、と、それぞれ相性が相対的に悪く、対応を再考または回避すべきことが判定できる。
【0079】
図3に戻り、S6で、音声処理サーバ7の出力部17は、S4で性格型分類部14により分類された話者の性格型、および/または、S5で相性判定部16により判定された指定された複数の話者間の相性を表示装置等の任意の出力デバイスに出力する。出力先の表示装置は、PC1、3に設けられてよく、或いは、音声処理サーバ7や他のサーバ装置に適宜設けられてもよい。出力部17は、分類された性格型および相性をより詳細に説明するメッセージや、推奨される応対を説明するメッセージを、出力結果とともに、表示装置に表示させてよい。
【0080】
図8から
図12を参照して、音声処理サーバ7がPC1、3の表示装置を介して提供する音声取得、ならびに話者の性格および話者間の相性出力のユーザインタフェースの非限定的一例を説明する。
図8を参照して、PC1、3の表示画面上のメッセージフィールド81は、話者の発話を促すメッセージとして、「お名前と年代と性別と出身地をお話しください。」を表示している。なお、本実施形態は、発話の言語やコンテキストに異存することなく話者の性格型および話者間の相性を判定するため、集音すべき発話内容は任意であり、したがって、発話を促すメッセージも任意の発話を促すメッセージであれば足りる。
【0081】
話者は、メッセージフィールド81に表示される発話を促すメッセージに応答して、録音開始ボタン(不図示)を押下して発話を開始し、所期の発話が終了した際に、録音終了ボタン82を押下して発話の録音の終了をユーザインタフェースに指示する。
【0082】
録音された発話中の有音区間長が、
図3のS2の処理を経て、計測閾値(例えば、90秒)に到達した場合、メッセージフィールド81は、「性格判定が実施戒能な録音時間に達しました。」とのメッセージを表示し、話者に必要な発話録音が終了したことを通知して、録音時間表示フィールド91に有音区間の累積録音時間を表示する。
図9において、性格判定ボタン92を押下すると、
図10の画面に遷移する。
図10を参照して、メッセージフィールド81は、
図8および
図9の画面を介して発話が録音された話者について判定された性格の判定結果を表示する。
性格保存ボタン101を押下すると、発話が録音された話者について判定された性格の判定結果が記憶装置に記憶される。
【0083】
図11を参照して、
図8および
図9の画面を介して発話が録音された第1の話者(「山田太郎」)に対する相性を判定すべき、第2の話者(「鈴木一郎」)の発話の録音が終了し、性格保存ボタン101が押下されると、メッセージフィールド81は、第2の話者の発話の録音が終了し、第2の話者の音声が記憶装置に記憶された旨を表示する。
話者1選択フィールド121は、第1の話者(「山田太郎」)を表示し、第2の話者(「鈴木一郎」)は、話者2選択フィールド111の押下により、第2の話者として設定される。
【0084】
相性判定ボタン113が押下されると、
図12の画面に遷移する。
図12を参照して、メッセージフィールド81は、第2の話者(「鈴木一郎」)の性格判定結果を表示している。
相性判定結果フィールド121は、第1の話者(「山田太郎」)と第2の話者(「鈴木一郎」)との相性が良好である旨を表示している。
【0085】
以上説明したように、本実施形態によれば、音声処理サーバは、話者により発話された音声データを解析し、音声解析結果に基づいて、複数のセグメントが配置され、かつ複数のセグメントのそれぞれが複数のセルに分割された性格型マトリクスであって、それぞれのセルが異なる性格を識別する性格型マトリクス上の特定のセルを選択する。音声処理サーバはさらに、解析部による解析結果に基づいて、複数の話者について、それぞれ選択されたセルの間の性格型マトリクス上の相対距離に基づいて、複数の話者の間の相性を判定する。
これにより、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者間の相性を判定することができる。
【0086】
(実施形態2)
以下、
図13および
図14を参照して、本発明の実施形態2を、実施形態1と異なる点についてのみ詳細に説明する。
実施形態1は、発話音声の解析結果に基づいて判定された話者の性格型に基づいて、複数の話者間の相性を判定した。本実施形態は、複数の話者間の相性を判定することに替えて、またはこれに加えて、発話音声の解析結果に基づいて判定された話者の性格型に基づいて、話者の職業適性(適応度)を判定する。
【0087】
<音声処理サーバ7による音声処理の詳細処理手順>
図13は、本実施形態において、音声処理サーバ7が実行する音声処理の詳細処理手順の一例を示すフローチャートである。
図13を参照して、S1からS4までの各処理は、
図3に示す実施形態1の各処理と同様である。
【0088】
S4で、音声処理サーバ7の性格型分類部14が、話者が発話した音声データを解析して話者の性格型を判定した後、S7に進む。
S7で、音声処理サーバ7の性格型分類部14はさらに、S4で判定された話者の性格型に基づいて、話者の適性を判定する。本実施形態をコールセンタ業務に適用する場合、性格型分類部14は、例えば、オペレータの発話を解析して得られるオペレータの性格に基づいて、オペレータの職業適性を判定してよい。
【0089】
図14は、本実施形態において、性格型分類部14が参照して話者の職業適性を判定する適性判定マトリクスの一例を示す図である。
図14の適性判定マトリクス9aは、
図5に示す性格型マトリクス9の各セルに適性値を付与したマトリクスであって、職業一般に汎用的に適用可能な適性判定マトリクスの一例を示す。
【0090】
図14を参照して、適性判定マトリクス9aの各セルは、ハッチングの種別で示されるように、縦軸および横軸に対してそれぞれ対照的に、マトリクスの中央のセルには高い適性度が、マトリクスの周縁のセルには低い適性度がそれぞれ付与されているものとする。換言すると、マトリクス中の複数のセル(36セル)は、マトリクスの中央から周縁に向けた相対距離に応じて、適性度が低下するよう、グルーピングされている。
【0091】
図14を参照して、例えば、4つの性格型のセグメントのそれぞれにおいて、セルA1には、最高の適性値4が、セルA1の周囲のセルA2、B1、およびB2には、それぞれ適性値3が、セルA2、B1、およびB2に縦方向または横方向で隣接するセルA3、B3、C1、およびC2には、それぞれ適性値2が、セルB2と対角線上で隣接し、マトリクスの四隅に位置するセルC3には、最低の適性値1が、付与されているものとする。適性値がより高いセルが性格判定結果として選択された話者は、より高い職業適性を有するものと推定することができ、一方、適性値がより低いセルが性格判定結果として選択された話者は、より低い職業適性を有するものと推定することができる。
【0092】
本実施形態では、職業の性質ないし属性に応じて、
図14の性格型マトリクスのそれぞれのセルに付与される適性値を、類型的に変更する。その結果、
図14の性格型マトリクスのそれぞれのセルに付与される適性値は、縦軸および/または横軸に対して非対称に分布し得る。
【0093】
例えば、コールセンタのオペレータには、未知の顧客との間で、限られた時間内の通話のみで良好なコミュニケーションを確立することが要請され、慎重ないし消極的である性格は、適性に乏しい。このため、音声処理サーバ7の性格型分類部14は、適性判定すべき職業がコールセンタのオペレータである場合、積極性/慎重性の値に閾値を設けて、閾値以上の慎重性を示すセルの適性値を減少してよい。例えば、4つの性格型のセグメントのそれぞれにおいて、セルB1およびB2に付与すべき適性値を、デフォルト値の3から2に変更してよく、セルC1およびセルC2に付与される適性値を、デフォルト値の2から1に変更してよい。
【0094】
一方、例えば、システムエンジニア(SE)には、論理的思考力が要請され、感情的である性格は、適性に乏しい。このため、音声処理サーバの性格型分類部14は、適性判定すべき職業がSEである場合、論理性/感情性の値に閾値を設けて、閾値以上の感情性を示すセルの適性値を減少してよい。例えば、EE型およびSE型の性格型のセグメントのそれぞれにおいて、セルA3およびセルB3に付与すべき適性値を、デフォルト値の2から1に変更してよい。
【0095】
上記のように、音声処理サーバ7の性格型分類部14は、話者の職業の性質ないし属性に応じて、異なる適性値が付与された複数の適性判定マトリクスから、話者の属性(職業)に対応する適性判定マトリクスを選択し、選択された適性判定マトリクスを参照して、話者の職業適性を判定する。
【0096】
図13に戻り、S8で、音声処理サーバ7の出力部17は、S4で性格型分類部14により分類された話者の性格型、および/または、S7で性格型分類部14により判定された話者の適性を表示装置等の任意の出力デバイスに出力する。出力先の表示装置は、PC1、3に設けられてよく、或いは、音声処理サーバ7や他のサーバ装置に適宜設けられてもよい。出力部17は、分類された性格型および適性をより詳細に説明するメッセージ等を、出力結果とともに、表示装置に表示させてよい。
図12を参照して、メッセージフィールド81は、第2の話者について判定されたオペレータとしての適性が、比較的高い適性度3に対応する「適応」を表示している。
【0097】
以上説明したように、本実施形態によれば、音声処理サーバは、話者により発話された音声データを解析し、音声解析結果に基づいて、複数のセグメントが配置され、かつ複数のセグメントのそれぞれが複数のセルに分割された性格型マトリクスであって、それぞれのセルが異なる性格を識別する性格型マトリクス上の特定のセルを選択する。音声処理サーバはさらに、選択されたセルに付与された適性値に基づいて、話者の適性を判定する。
これにより、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者の適性を判定することができる。
【0098】
(各装置のハードウエア構成の一例)
図15は、音声処理システムにおける各装置がそれぞれ備えるハードウエア構成の一例を示す図である。音声処理サーバ7、およびPC1、3は、
図15に示すハードウエアコンポーネントの全部又は一部を備える。
図15に示す各装置は、CPU21、ROM22、RAM23、外部メモリ24、入力部25、表示部26、通信I/F27及びシステムバス28を備えてよい。
【0099】
CPU21は、装置における動作を統括的に制御するものであり、システムバス28を介して各構成部(22〜27)を制御する。CPU21は音声解析処理、性格型判定処理、相性判定処理、または適性判定処理等の各処理を実行する処理部として機能する。ROM22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ24や着脱可能な記憶媒体(図示せず)に記憶されていてもよい。RAM23は、CPU21の主メモリ、ワークエリア等として機能する。よって、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
【0100】
外部メモリ24は例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、または着脱可能な外部記憶装置から構成され、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ24には例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
【0101】
入力部25はキーボード、タブレット等各種入力デバイスから構成される。表示部26は例えば液晶ディスプレイ等からなる。通信I/F27は、外部装置と通信するためのインタフェースであり、例えば、有線LANインタフェース、無線LAN(Wi−Fi)インタフェースやBluetooth(登録商標)インタフェースを備える。システムバス28は、CPU21、ROM22、RAM23、外部メモリ24、入力部25、表示部26及び通信I/F27を通信可能に接続する。
【0102】
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
【0103】
以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。
【解決手段】音声処理システムにおいて、話者相性判定装置である音声処理サーバは、話者により発話された音声データを解析し、複数のセグメントが配置され、かつ、複数のセグメントの夫々が複数のセルに分割され、複数のセルの夫々が異なる性格型に対応するマトリクスを記憶し、解析結果に基づいて、記憶されるマトリクス上のセルを選択し、複数の話者について、それぞれ選択されたセルの間のマトリクス上の相対距離に基づいて、複数の話者の間の相性を判定する。