(58)【調査した分野】(Int.Cl.,DB名)
前記ホスト装置の前記感情推定部は、前記特定の会話に係る各発話者の感情が、前記感情を表す指標に該当する確率を求めることを特徴とする、請求項1に記載の音声解析システム。
前記ホスト装置の前記出力部は、前記感情推定部により得られた、前記感情を表す指標に該当する確率を、当該感情推定部による推定結果として出力することを特徴とする、請求項2に記載の音声解析システム。
前記端末装置の前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の特徴量である音圧または高さに基づいて、前記精神活性度を推定することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析システム。
前記端末装置の前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号における特徴量と、予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均との差異に基づいて、前記精神活性度を推定することを特徴とする、請求項4に記載の音声解析システム。
前記出力部は、前記感情推定部により得られた、前記感情を表す指標に該当する確率を、当該感情推定部による推定結果として出力することを特徴とする、請求項8に記載の音声解析装置。
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の特徴量である音圧または高さに基づいて、前記精神活性度を推定することを特徴とする、請求項10に記載の音声解析装置。
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号における特徴量と、予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均との差異に基づいて、前記精神活性度を推定することを特徴とする、請求項11に記載の音声解析装置。
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号に基づいて、前記予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均値を更新することを特徴とする、請求項12に記載の音声解析装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、音声取得手段にて音声を取得し、取得した音声の非言語情報に基づいて話者の心理状態を推定する音声解析システムおよび音声解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、
使用者に装着される端末装置と、
前記端末装置から情報を取得するホスト装置とを備え、
前記端末装置は、
第1音声取得手段と、
前記使用者の口からの音波伝搬経路の距離が前記第1音声取得手段とは異なる位置に設けられた第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された音声が前記端末装置を装着した使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号に基づいて、当該音声の発話者の精神状態を表す精神活性度を推定する精神活性度推定部と、
前記識別部による識別結果および前記精神活性度推定部による推定結果を含む前記音声信号に関する情報である発話情報を前記ホスト装置へ送信する送信部とを備え、
前記ホスト装置は、
複数の前記端末装置から送信された前記発話情報を受信する受信部と、
前記受信部により受信された前記発話情報から、特定の会話に係る発話者ごとの発話情報を検出する会話情報検出部と、
特定の会話に係る前記発話情報から得られる各発話者の前記精神活性度の組み合わせに基づき、当該会話に係る各発話者の感情が、予め設定された感情を表す指標に該当するか否かを推定する感情推定部と、
前記感情推定部による推定結果を出力する出力部と、
を備えることを特徴とする、音声解析システムである。
請求項2に記載の発明は、
前記ホスト装置の前記感情推定部は、前記特定の会話に係る各発話者の感情が、前記感情を表す指標に該当する確率を求めることを特徴とする、請求項1に記載の音声解析システムである。
請求項3に記載の発明は、
前記ホスト装置の前記出力部は、前記感情推定部により得られた、前記感情を表す指標に該当する確率を、当該感情推定部による推定結果として出力することを特徴とする、請求項2に記載の音声解析システムである。
請求項4に記載の発明は、
前記端末装置の前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の特徴量である音圧または高さに基づいて、前記精神活性度を推定することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析システムである。
請求項5に記載の発明は、
前記端末装置の前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号における特徴量と、予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均との差異に基づいて、前記精神活性度を推定することを特徴とする、請求項4に記載の音声解析システムである。
請求項6に記載の発明は、
使用者に装着される端末装置と、
前記端末装置から情報を取得するホスト装置とを備え、
前記端末装置は、
第1音声取得手段と、
前記使用者の口からの音波伝搬経路の距離が前記第1音声取得手段とは異なる位置に設けられた第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された音声が前記端末装置を装着した使用者の発話音声か、他者の発話音声かを識別する識別部と、
前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号に基づいて、当該音声の発話者の精神状態を表す精神活性度を推定する精神活性度推定部と、
前記識別部による識別結果および前記精神活性度推定部による推定結果を含む前記音声信号に関する情報である発話情報を前記ホスト装置へ送信する送信部とを備え、
前記ホスト装置は、
前記端末装置から送信された前記発話情報を受信する受信部と、
前記受信部により受信された前記発話情報から、特定の会話に係る前記使用者の発話情報を検出する会話情報検出部と、
特定の会話に係る前記発話情報から得られる各発話者の前記精神活性度の組み合わせに基づき、当該会話に係る各発話者の感情が、予め設定された感情を表す指標に該当するか否かを推定する感情推定部と、
前記感情推定部による推定結果を出力する出力部と、
を備えることを特徴とする、音声解析システムである。
請求項7に記載の発明は、
発話音声の音声信号から得られる、発話者の精神状態を表す精神活性度の情報を取得する取得部と、
特定の会話に係る各発話者の前記精神活性度の組み合わせに基づき、当該会話に係る各発話者の感情が、予め設定された感情を表す指標に該当するか否かを推定する感情推定部と、
前記感情推定部による推定結果を出力する出力部と、
を備えることを特徴とする音声解析装置である。
請求項8に記載の発明は、
前記感情推定部は、前記特定の会話に係る各発話者の感情が、前記感情を表す指標に該当する確率を求めることを特徴とする、請求項7に記載の音声解析装置である。
請求項9に記載の発明は、
前記出力部は、前記感情推定部により得られた、前記感情を表す指標に該当する確率を、当該感情推定部による推定結果として出力することを特徴とする、請求項8に記載の音声解析装置である。
請求項10に記載の発明は、
使用者の口からの距離が相異なる位置となるように使用者に装着される第1音声取得手段および第2音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された音声が当該第1音声取得手段および当該第2音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別する識別部と、
前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号に基づいて、当該音声の発話者の精神状態を表す精神活性度を推定する精神活性度推定部と、
前記識別部による識別結果および前記精神活性度推定部による推定結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項11に記載の発明は、
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の特徴量である音圧または高さに基づいて、前記精神活性度を推定することを特徴とする、請求項10に記載の音声解析装置である。
請求項12に記載の発明は、
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号における特徴量と、予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均との差異に基づいて、前記精神活性度を推定することを特徴とする、請求項11に記載の音声解析装置である。
請求項13に記載の発明は、
前記精神活性度推定部は、前記第1音声取得手段および/または前記第2音声取得手段により取得された音声の音声信号に基づいて、前記予め定められた期間に当該第1音声取得手段および/または当該第2音声取得手段により取得された音声の音声信号における特徴量の平均値を更新することを特徴とする、請求項12に記載の音声解析装置である。
【発明の効果】
【0007】
請求項1の発明によれば、会話の場面における発話者(会話参加者)の心理状態を推定することができる。
請求項2の発明によれば、会話の場面における発話者(会話参加者)の心理状態を、特定の感情に該当する確率として求めることができる。
請求項3の発明によれば、特定の感情に該当する確率として得られた発話者の心理状態の情報を出力することができる。
請求項4の発明によれば、発話者の心理状態を推定するために用いられる各発話者の精神活性度を推定することができる。
請求項5の発明によれば、発話者の精神活性度を、平常時の状態に対する差異として求めることができる。
請求項6の発明によれば、会話の場面における装置使用者の心理状態を推定することができる。
請求項7の発明によれば、会話の場面における発話者(会話参加者)の心理状態を推定することができる。
請求項8の発明によれば、会話の場面における発話者(会話参加者)の心理状態を、特定の感情に該当する確率として求めることができる。
請求項9の発明によれば、特定の感情に該当する確率として得られた発話者の心理状態の情報を出力することができる。
請求項10の発明によれば、発話者の心理状態を推定するために用いられる発話者の精神活性度を推定することができる。
請求項11の発明によれば、収録した音声の非言語情報に基づいて発話者の精神活性度を推定することができる。
請求項12の発明によれば、発話者の精神活性度を、平常時の状態に対する差異として求めることができる。
請求項13の発明によれば、収録される発話音声が増えるに伴い、平常時の状態の判断が安定する。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(商標)(Wireless Fidelity)、Bluetooth(商標)、ZigBee(商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
【0010】
端末装置10は、音声取得手段として、少なくとも、1組のマイクロフォン(第1マイクロフォン11および第2マイクロフォン12)と、増幅器(第1増幅器13および第2増幅器14)とを備える。また、端末装置10は、処理手段として、収録音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17を備える。
【0011】
第1マイクロフォン11と第2マイクロフォン12とは、装着者の口(発声部位)からの音波伝搬経路の距離(以下、単に「距離」と記す)が異なる位置に配置される。ここでは、第1マイクロフォン11は装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。本実施形態の第1マイクロフォン11および第2マイクロフォン12として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンを用いることが好ましい。
【0012】
第1増幅器13および第2増幅器14は、第1マイクロフォン11および第2マイクロフォン12が取得音声に応じて出力する電気信号(音声信号)を増幅する。本実施形態の第1増幅器13および第2増幅器14として用いられる増幅器としては、既存のオペアンプ等を用いて良い。
【0013】
音声解析部15は、第1増幅器13および第2増幅器14から出力された音声信号を解析する。そして、第1マイクロフォン11および第2マイクロフォン12で取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部15は、第1マイクロフォン11および第2マイクロフォン12で取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。
【0014】
また、音声解析部15は、第1増幅器13または第2増幅器14から出力された音声信号をさらに解析し、発話者(装着者および他者)の精神活性度を推定する。すなわち、音声解析部15は、第1マイクロフォン11または第2マイクロフォン12で取得した音声の音声信号に基づき、音声の発話者の精神活性度を推定する精神活性度推定部として機能する。ここで、精神活性度とは、発話者の精神状態を示す情報である。一般に、発話者の精神状態と発話音声とは、蓋然的な特定の関係を有すると考えられる。例えば、興奮している発話者の発話音声は、平常時の発話音声と比較して大きくなったり、上ずったりする傾向がある。反対に、落ち着いている場合や気分が沈んでいる場合には、発話者の発話音声は、大きさや高さの変化が少ない。そこで、本実施形態において、精神活性度は、取得した音声信号を解析して得られる特徴量の変化の度合いによって表す。音声信号の特徴量としては、平均音圧、音圧変化、音圧分布、平均ピッチ(声の高さ)、ピッチ変化、ピッチ分布などが用いられる。特徴量の演算処理や精神活性度を求める処理の具体的な内容については後述する。
【0015】
データ送信部16は、音声解析部15による解析結果を含む取得データと端末装置10のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11および第2マイクロフォン12による音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。
【0016】
電源部17は、上記の第1マイクロフォン11、第2マイクロフォン12、第1増幅器13、第2増幅器14、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
【0017】
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。
【0018】
データ受信部21は、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、予めホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。
【0019】
データ解析部23は、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
【0020】
また、本実施形態のデータ解析部23は、データ解析処理の一つとして、端末装置10の音声解析により得られる発話者の精神活性度の情報を用いて、会話の場面における会話参加者の感情を推定する。すなわち、各会話参加者の精神活性度の組み合わせに基づき、そのような精神活性度の関係が生じ得る会話参加者の感情を特定する。会話参加者の感情を推定する処理の具体的な内容については後述する。
【0021】
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
【0022】
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、
図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
【0023】
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。
【0024】
提げ紐40には、第1マイクロフォン11および第2マイクロフォン12が設けられる(以下、第1マイクロフォン11と第2マイクロフォン12とを区別しない場合には、マイクロフォン11、12と記載)。マイクロフォン11、12は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30に収納された第1増幅器13、第2増幅器14に接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
【0025】
この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11、12を収納している。マイクロフォン11、12を提げ紐40の内部に設けることにより、マイクロフォン11、12の損傷や汚れを防ぎ、対話者がマイクロフォン11、12の存在を意識することが抑制される。なお、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11は、ケース31に内蔵して装置本体30に設けても良い。本実施形態では、第1マイクロフォン11が提げ紐40に設けられる場合を例として説明する。
【0026】
図2を参照すると、第1マイクロフォン11は、提げ紐40の装置本体30に接続される端部(例えば、接続部位から10cm以内の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第1マイクロフォン11は、装着者の口(発声部位)から約30cmから40cm程度離れた位置に配置される。なお、第1マイクロフォン11が装置本体30に設けられた場合も、装着者の口(発声部位)から第1マイクロフォン11までの距離は同程度である。
【0027】
第2マイクロフォン12は、提げ紐40の装置本体30に接続される端部から離れた位置(例えば、接続部位から20cm〜30cm程度の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第2マイクロフォン12は、装着者の首元(例えば鎖骨に当たる位置)に位置し、装着者の口(発声部位)から約10cmから20cm程度離れた位置に配置される。
【0028】
なお、本実施形態の端末装置10は、
図2に示す構成に限定されるものではない。例えば、マイクロフォン11、12は、第1マイクロフォン11から装着者の口(発声部位)までの(音波伝搬経路の)距離が第2マイクロフォン12から装着者の口(発声部位)までの(音波伝搬経路の)距離の数倍程度となるように、第1マイクロフォン11と第2マイクロフォン12の位置関係が特定されれば良い。したがって、第1マイクロフォン11を首の後ろ側の提げ紐40に設けても良い。また、マイクロフォン11、12は、上記のように提げ紐40に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第1マイクロフォン11と第2マイクロフォン12の各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第1マイクロフォン11と第2マイクロフォン12の位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。
【0029】
また、装置本体30は、
図2に示したように、提げ紐40に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン11、12からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第1マイクロフォン11が装置本体30に設けられる場合は、第1マイクロフォン11と第2マイクロフォン12との位置関係を上記のように保持する必要があるため、携帯時の装置本体30の位置は特定される。
【0030】
さらにまた、マイクロフォン11、12と装置本体30(あるいは音声解析部15)を有線で接続するのではなく、無線通信により接続しても良い。第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17は、上記の構成例では単一のケース31に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部17をケース31に収納せず、外部電源に接続して使用する構成としても良い。
【0031】
<収録音声の非言語情報に基づく発話者(自他)の識別>
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた2つのマイクロフォン11、12により収録された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11、12への入力音量)等の非言語情報である特徴量に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
【0032】
図1および
図2を参照して説明したように、本実施形態において、端末装置10の第1マイクロフォン11は装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離が大きく異なる。具体的には、第1マイクロフォン11と音源との間の距離は、第2マイクロフォン12と音源との間の距離の1.5〜4倍程度である。ここで、マイクロフォン11、12における収録音声の音圧は、マイクロフォン11、12と音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11における収録音声の音圧と第2マイクロフォン12における収録音声の音圧とは大きく異なる。
【0033】
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11と音源との間の距離が第2マイクロフォン12と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11における収録音声の音圧と第2マイクロフォン12における収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
【0034】
図3は、装着者および他者の口(発声部位)と、マイクロフォン11、12との位置の関係を示す図である。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11との間の距離をLa1、音源aと第2マイクロフォン12との間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11との間の距離をLb1、音源bと第2マイクロフォン12との間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒La2
【0035】
図4は、マイクロフォン11、12と音源との間の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11、12と音源との間の距離に応じて距離減衰する。
図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、
図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
【0036】
図5は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン12の音圧Ga2は、第1マイクロフォン11の音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン12の音圧Gb2は、第1マイクロフォン11の音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。
図5に示す例では、閾値を「2」とし、音圧比Ga2/Ga1は閾値「2」を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値「2」よりも小さいので他者の発話音声と判断されている。
【0037】
ところで、マイクロフォン11、12により収録される音声には、発話音声の他に、環境音等のいわゆる雑音(ノイズ)が含まれる。この雑音の音源とマイクロフォン11、12との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、
図4、
図5に示した例によれば、雑音の音源cと第1マイクロフォン11との間の距離をLc1とし、雑音の音源cと第2マイクロフォン12との間の距離をLc2とすると、距離Lc1と距離Lc2とは近似する。そして、マイクロフォン11、12の収録音声における音圧比Gc2/Gc1は、閾値「2」よりも小さくなる。しかし、このような雑音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。
【0038】
<発話者の精神活性度の推定>
次に、本実施形態における発話者の精神活性度の推定方法について説明する。
本実施形態において、発話者の精神活性度は、各発話者による一連の(一定時間以上の無音区間を挟まずに続くひとかたまりの)発話ごとに第1マイクロフォン11または第2マイクロフォン12で取得した音声信号の特徴量(音声特徴量)を求め、発話ごとにおける音声特徴量の変化の度合いで表す。音声特徴量としては、上記したように、平均音圧、音圧変化、音圧分布、平均ピッチ(声の高さ)、ピッチ変化、ピッチ分布などが用いられる。これらの音声特徴量の演算方法としては、既存の周知技術を用いて良い。例えば、下記のようにして求めることができる。
【0039】
・平均音圧:一連の発話における音声信号の信号レベルを絶対値化した後に加算し、その一連の発話が行われた時間で平均する。
・音圧変化:絶対値化した音圧グラフの山(ピーク)における最大値と最小値との差として求める。音圧グラフの山(ピーク)は、例えば音圧グラフの1次微分の正から負へのゼロ交点として求まる。
・音圧分布:音圧のヒストグラムを正規分布にフィッティングし、その際の標準偏差として求める。
・平均ピッチ:ピッチ(声の高さ、あるいは基本周波数F0)は、波形法、相関法、スペクトル法などで求められる。平均ピッチは、一連の発話における音声信号のピッチを加算し、その一連の発話が行われた時間で平均する。
・ピッチ変化:ピッチの最大値と最小値との差として求める。
・ピッチ分布:ピッチのヒストグラムを正規分布にフィッティングし、その際の標準偏差として求める。
【0040】
本実施形態では、上記のようにして求めた一連の発話ごとの音声特徴量と、同一発話者における平常時の音声特徴量との差異に基づいて、精神活性度を表す。すなわち、個別の発話における音声特徴量が、その発話者の平常時の音声特徴量に対してどれだけずれているかを求めて、その発話(対象発話)におけるその発話者の精神活性度とする。ここで、平常時の音声特徴量は、その発話者が予め定められた過去の特定の期間に行った発話における音声特徴量の平均とする。また、音声特徴量の差異としては、絶対値の変化量を用いても良いし、正規化した変化率を用いても良い。
【0041】
さらに、本実施形態において、精神活性度は、上記に例示した6つの音声特徴量のいずれか一つによって表しても良いし、複数の音声特徴量を用いて平均化したり、音声特徴量ごとに個別の重み付けを行って平均化したりすることによって表しても良い。例えば、音声特徴量iの重みをαi、音声特徴量iの対象発話での値をGi、音声特徴量iに関する対象発話の発話者の平常時の値(過去の特定期間の発話における音声特徴量iの平均値)をGi,aveとすると、精神活性度Mは、次のように表される。
M=Σ(αi×(Gi−Gi,ave)/Gi,ave)
【0042】
平常時の音声特徴量として用いられる過去の特定期間の発話における音声特徴量の平均は、発話が行われるたびに、その発話における音声特徴量を追加して値を随時更新しても良い。更新された値は、次の発話における精神活性度を求める際に用いられる。また、予め定められた固定的な期間に行われた発話における音声特徴量の平均値を固定的に用いても良い。
【0043】
端末装置10の使用者が常に同じ端末装置10(個体)を装着するとは限らない場合、例えば、端末装置10の電源投入時やリセット時を起点として発話が行われるたびに音声特徴量を取得して履歴を蓄積し、平常時の音声特徴量を求める。この場合、端末装置10の使用開始直後は蓄積された履歴が少ないためにエラーの発生率が高くなってしまうが、会話が進むにつれて安定する。
【0044】
<端末装置の動作例>
図6は、本実施形態における端末装置10の動作を示すフローチャートである。
図6に示すように、端末装置10のマイクロフォン11、12が音声を取得すると、各マイクロフォン11、12から取得音声に応じた電気信号(音声信号)が第1増幅器13および第2増幅器14へ送られる(ステップ601)。第1増幅器13および第2増幅器14は、マイクロフォン11、12からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ602)。
【0045】
音声解析部15は、第1増幅器13および第2増幅器14で増幅された信号に対してフィルタリング処理を行い、信号から環境音等の雑音(ノイズ)の成分を除去する(ステップ603)。次に、音声解析部15は、雑音成分が除かれた信号に対し、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に、各マイクロフォン11、12の収録音声における平均音圧を求める(ステップ604)。
【0046】
ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が有る場合(ステップ605でYes)、音声解析部15は、発話音声が有る(発話が行われた)と判断し、次に、第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ606)。ステップ606で求めた音圧比が閾値よりも大きい場合(ステップ607でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ608)。そして、この発話(対象発話)の音声信号に基づき、発話者である装着者の精神活性度を求める(ステップ609)。また、ステップ606で求めた音圧比が閾値よりも小さい場合(ステップ607でNo)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ610)。そして、この発話(対象発話)の音声信号に基づき、発話者である他者の精神活性度を求める(ステップ611)。
【0047】
一方、ステップ604で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ605でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ612)。なお、ステップ605の判断は、ステップ603のフィルタリング処理で除去しきれなかった雑音が信号に残っている場合を考慮し、平均音圧の利得の値が一定値以上の場合に、利得があると判断しても良い。
【0048】
この後、音声解析部15は、データ送信部16を介して、ステップ604〜ステップ612の処理で得られた情報(発話の有無、発話者の情報、発話者の精神活性度)を解析結果としてホスト装置20へ送信させる(ステップ613)。このとき、発話者毎(装着者自身または他者)の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置20へ送信させても良い。
【0049】
なお、本実施形態では、第1マイクロフォン11の音圧と第2マイクロフォン12の音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン11、12により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。例えば、第1マイクロフォン11における音声取得時刻(音声信号の出力時刻)と第2マイクロフォン12における音声取得時刻とを比較しても良い。この場合、装着者自身の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が大きいため、音声取得時刻にある程度の差(時間差)が生じる。一方、他者の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が閾値よりも小さい場合には他者の発話と判断するようにしても良い。
【0050】
<システムの適用例とホスト装置の機能>
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報のうちを用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。
【0051】
図7は、本実施形態の端末装置10をそれぞれ装着した複数の装着者が会話している状況を示す図である。
図8は、
図7の会話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図7に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
【0052】
端末装置10Aおよび端末装置10Bからは、それぞれ独立に、発話情報がホスト装置20に送られる。このとき、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、
図8に示すように、発話者(装着者と他者)の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Aと装着者Bとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。
【0053】
図9は、本適用例におけるホスト装置20の機能構成例を示す図である。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202と、感情推定部203とを備える。この会話情報検出部201、会話情報解析部202および感情推定部203は、データ解析部23の機能として実現される。
【0054】
ホスト装置20には、端末装置10A、端末装置10B以外の端末装置10からも発話情報が送られる。データ受信部21により受信された各端末装置10からの発話情報は、データ蓄積部22に蓄積される。そして、データ解析部23の会話情報検出部201が、データ蓄積部22に蓄積された各端末装置10の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。
【0055】
上記の
図8に示したように、端末装置10Aの発話情報と端末装置10Bの発話情報は、他の端末装置10の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部201は、データ蓄積部22に蓄積されている各端末装置10から取得した発話情報を比較し、複数の端末装置10から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置20には、複数の端末装置10から発話情報が随時送られているので、会話情報検出部201は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。
【0056】
なお、会話情報検出部201が複数の端末装置10の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した
図8に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。
【0057】
また、上記の例では、端末装置10をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置10において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者(二人以上)の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置10における取得情報どうしの間で近似する。そこで、会話情報検出部201は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置10から取得した発話情報を検出し、会話に参加していない装着者の端末装置10から取得した発話情報と区別する。
【0058】
次に、会話情報解析部202は、会話情報検出部201により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の3種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合い表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。
【0059】
対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間(一人の発話者が連続して発話している時間)のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0060】
傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値(レベル)が大きいものとする。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。
【0061】
会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間(会話参加者の誰も発言していない時間)の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。
【0062】
以上のようにして、会話情報解析部202による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。
【0063】
上記のような解析を、データ蓄積部22に蓄積された発話情報の中から会話情報検出部201により検出された種々の会話情報に対して行うことにより、端末装置10の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。
【0064】
また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。
【0065】
<会話参加者の感情の推定>
次に、上記のようなホスト装置20による解析処理の一つとして実現される、会話参加者の感情の推定について説明する。
上記の会話を特定する機能により、ホスト装置20のデータ解析部23は、複数の端末装置10から取得した発話情報の中から特定の会話に係る発話情報(会話情報)を抽出する。そして、データ解析部23の感情推定部203は、この会話情報に含まれる各発話者の精神活性度の情報に基づき、各会話者の感情を推定する。
【0066】
ここで、本実施形態では、感情を表現する指標として、「喜」、「怒」、「哀」、「楽」を用いる。ただし、これらは本実施形態で使用し得る指標の例に過ぎず、実際のシステムにおいては、これら四つの指標の一部のみを用いても良いし、その他の感情を表現する指標(例えば「苦」、「恐」、「嬉」、「幸」など)を用いても良い。解析結果として得られる感情の推定結果は、感情を表現する指標のいずれに該当するかによって示しても良いし、複数の指標の推定確率によって示しても良い。前者の場合、例えば、「発話者の感情が「喜」に該当する」というような推定結果が得られる。また、後者の場合、例えば、「喜:43%、怒:30%、哀:12%、楽:15%」というような推定結果が得られる。
【0067】
本実施形態では、会話の場面における会話参加者(発話者)の精神活性度に基づいて、その会話の場面における各発話者の立場から生じる各発話者の感情を推定する。したがって、推定の対象となる発話者は複数存在する。そして、本実施形態では、発話者が切り替わった時点に着目し、切り替わる前の発話者(以下、前発話者)の精神活性度と、切り替わった後の発話者(以下、後発話者)の精神活性度に基づき、各発話者の会話中の感情を推定する。具体的には、会話参加者が二人である場合、予め、会話をしている二人の精神活性度と、両者の感情状態(対象とする感情指標)との相関関係を把握しておき、観測された各会話参加者の精神活性度(観測値)から各会話参加者の感情を推定する(推定値を求める)。
【0068】
ここで、観測値から感情の推定値を求める方法としては、大きく分けて、(1)相関関係式を作る方法と、(2)ルックアップテーブルを作る方法の二つが考えられる。
(1)の方法で用いられる相関関係式は、何らかの物理原則に基づき導出されるのが理想的だが、感情に対して作成することは実際には困難である。したがって、現実的には、後述のルックアップテーブルの場合と同様の統計観測によって求められた離散実験点をベースに、近似式を作成して用いるのが妥当である。
(2)の方法で用いられるルックアップテーブルは、例えば、実際の会話の場面を数多く観測し、精神活性度の算出値(観測値)と、そのときの感情とを統計的に処理して作成される。ここで、観測時の感情の情報は、例えば、本人へのアンケートや第3者の観測による判断などの手段によって取得される。
【0069】
図10は、発話者の感情を推定する方法のうち、相関関係式を作る方法を説明する図である。
図10において、相関関係式は、f(M1,M2)の相関面(プレーン)によって表現されている。ここで、M1は前発話者の精神活性度、M2は後発話者の精神活性度である。この場合、相関関係式に前発話者と後発話者の精神活性度の観測値を導入することにより、各発話者の感情の推定値が求まる。なお、
図10には相関関係式を表す相関面のうち、前発話者の相関面の一例のみを示しているが、実際には、上述した感情を表現する指標ごとに、前発話者と後発話者の相関面が、それぞれ存在する。すなわち、
Ei,1=f1(M1,M2)
Ei,2=f2(M1,M2)
である。ここで、Ei,1を前発話者の感情指標とし、Ei,2を後発話者の感情指標とする。また、感情を表現する指標として上述した「喜」、「怒」、「哀」、「楽」を用いる場合、例えば、i=1〜4とし、E1を「喜」の推定確率、E2を「怒」の推定確率、E3を「哀」の推定確率、E4を「楽」の推定確率とする。
【0070】
図11は、発話者の感情を推定する方法のうち、ルックアップテーブルを作る方法で用いられるルックアップテーブルの例を示す図である。
図11において、Ei,1およびEi,2(i:i=1〜4)は、上記の相関関係式を作る方法の場合と同様である。
図11に示すテーブルでは、前発話者の精神活性度と後発話者の精神活性度が共に「−0.4以下」である場合のみ値が記載され、他の範囲の値は記載が省略されている。このルックアップテーブルを用いる場合には、二人の発話者の精神活性度をルックアップテーブルと比較することで、感情の推定値を求める。推定値を求める場合、テーブルにおける該当範囲のみを特定しても良いし、テーブルに登録されている値を用いて内挿や外挿を行い、推定値を求めても良い。
【0071】
以上のように、本実施形態では、会話において発話者が切り替わった時点に着目し、その前後の発話における発話者の精神活性度に基づいて各発話者の感情を推定する。そのため、発話者が切り替わるたびに、その一つ前の推定値および一つ後の推定値とそれぞれオーバーラップするように(いわばパイプライン状に)感情の推定が行われる。そこで、本実施形態では、感情の連続性を保つため、特定の重みαを掛けて、前後の推定値と平均化し、最終的な推定結果とする。
【0072】
図12は、発話者が切り替わるたびに感情の推定を行い、最終的な推定結果を得る様子を示す図である。
図12に示す例では、二人の発話者(A、B)が交互に発話し、発話者が切り替わった時点(発話者交代n−1、n、n+1)で、それぞれ感情を推定している。そして、各回の推定結果に重み(α,n−1)、(α,n)、(α,n+1)をそれぞれ掛けた後に、各推定値を加算して平均し、発話者交代nの時点での発話者(A、B)の最終的な推定結果を得ている。
【0073】
<感情の推定処理の具体例>
次に、感情の推定処理の具体例を説明する。
この具体例では、音声特徴量として平均音圧を用い、ルックアップテーブルを作る方法によって感情の推定を行う。推定結果は、各感情の指標に該当する確率(推定確率)によって表す。また、この具体例では、二人の会話参加者による対話を解析対象とする。
【0074】
まず、ルックアップテーブルを作るための統計処理について説明する。
統計処理のためのサンプルは、各会話参加者の精神活性度の絶対値がいずれも0.3以上(精神活性度大:0.3以上、または精神活性度小:−0.3以下)となった場面のみに注目して取得する。すなわち、会話参加者の二人とも平常時とは大きく異なる精神活性度を示す場合(興奮している場合やリラックスしている場合等)である。そのような場面における精神活性度の組み合わせは、次の4パターンとなる。
・パターン1 前発話者:精神活性度(大)、後発話者:精神活性度(大)
・パターン2 前発話者:精神活性度(大)、後発話者:精神活性度(小)
・パターン3 前発話者:精神活性度(小)、後発話者:精神活性度(大)
・パターン4 前発話者:精神活性度(小)、後発話者:精神活性度(小)
【0075】
実際の会話において、上記のパターンに該当する場面を多数(例えば、各パターンにつき30場面ずつ)抽出して、第三者(会話非参加者)の観察により評価し、各会話参加者の感情(喜怒哀楽)の組み合わせを推定する。そして、上記の四つのパターンの各々について、各会話参加者の喜怒哀楽の出現確率(30の場面のうちいくつが該当したか)を算出する。
【0076】
図13は、精神活性度のパターン毎における会話参加者(発話者)の感情の出現確率の例を示す図である。
例えば、上記のパターン1に対応する
図13(a)を参照すると、パターン1に該当する会話の場面において、前発話者と後発話者の両方が喜んでいる場合が40.0%、前発話者が喜び、後発話者が怒っている場合が3.3%、前発話者が喜び、後発話者が哀しんでいる場合が0%、前発話者が喜び、後発話者が楽しんでいる場合が6.7%の確率であったことがわかる。
【0077】
次に、上記のようにして得られた出現確率に基づきルックアップテーブルを作成する。
図14は、ルックアップテーブルの例を示す図である。
図14に示すルックアップテーブルにおいて、会話参加者のいずれかの精神活性度の絶対値が0.3以下の部分(図示の表における白抜きの十字形の領域)の値は、内挿により求める。例えば、会話参加者の両者とも精神活性度が0の場合(平常時の精神活性度に相当)を、喜怒哀楽のいずれの感情に該当する確率も各25%で均等と仮定する。そして、その0点と、0.3以上のエリアの確率との内挿値を計算する。
【0078】
以上のようにして作成されたルックアップテーブルは、
図1および
図9に示したホスト装置20の不揮発性の記憶装置(ROMや磁気ディスク装置等)に格納される。そして、プログラム制御により感情推定部203として機能するCPUが、このルックアップテーブルを参照し、会話参加者の感情を推定し、出力部24を介して推定結果を出力する。
【0079】
次に、具体的な会話の場面を想定し、会話参加者の感情を推定する例を説明する。
図15は、第1の場面例における推定の例を示す図である。
図15(a)は、会話参加者の精神活性度を示す。
図15(b)は、発話者Aの感情の推定値(確率)を示し、
図15(c)は、発話者Bの感情の推定値(確率)を示す。
【0080】
第1の場面例として、発話者Aと発話者Bが対話しており、両者ともリラックスして会話が盛り上がっている場面を想定する。
図15(a)において、発話者Aの精神活性度の推移が実線で、発話者Bの精神活性度の推移が破線で示されている。ホスト装置20の感情推定部203は、
図15(a)に示された精神活性度の情報を、
図14に示したルックアップテーブルと照合し、
図15(b)、
図15(c)に示す推定値を得る。
図15(b)および
図15(c)を参照すると、会話が進行するに伴って、発話者Aおよび発話者Bの両者とも、「喜」の感情である可能性の高い状態へ移行していることがわかる。
【0081】
図16は、第2の場面例における推定の例を示す図である。
図16(a)は、会話参加者の精神活性度を示す。
図16(b)は、発話者Cの感情の推定値(確率)を示し、
図16(c)は、発話者Dの感情の推定値(確率)を示す。
【0082】
第2の場面例として、発話者Dが発話者Cから注意を受けている場面を想定する。
図16(a)において、発話者Cの精神活性度の推移が実線で、発話者Dの精神活性度の推移が破線で示されている。ホスト装置20の感情推定部203は、
図16(a)に示された精神活性度の情報を、
図14に示したルックアップテーブルと照合し、
図16(b)、
図16(c)に示す推定値を得る。
図16(b)を参照すると、会話が進行するに伴って、発話者Cは「怒」の感情である可能性の高い状態へ移行していることがわかる。また、
図16(c)を参照すると、会話が進行するに伴って、発話者Dは「哀」の感情である可能性の高い状態へ移行していることがわかる。
【0083】
以上、具体的な会話の場面を想定して、本実施形態による発話者の感情の推定例を示したが、本実施形態による感情の推定の適用対象は上記の場面に限定されない。例えば、上記の例では会話参加者が二人の場合を例として説明したが、会話参加者が三人以上であっても各会話参加者の感情を推定することが可能である。本実施形態では、データ解析部23の会話情報検出部201により、同一の会話に係る発話情報を検出するため、会話参加者が三人以上である会話についても、個々の発話を行った発話者を特定し、各発話者の精神活性度の情報を個別に抽出することができる。したがって、得られた精神活性度の情報に基づき、各発話者の感情を推定することができる。
【0084】
また、本実施形態において、端末装置10の音声解析部15は、発話者に関して、端末装置10の装着者か否かの識別のみを行う。すなわち、他者の特定は行わない。したがって、ステップ611で求めた発話者である他者の精神活性度は、具体的に誰の精神活性度かを特定できない。しかし、二人の会話参加者による対話の場合、装着者の対話の相手である他者は、具体的に誰かはわからないものの、一人に特定される。したがって、会話における装着者自身と他者の立場が特定されるので、装着者の端末装置10により取得された発話情報のみから装着者と他者の感情を推定することができる。また、会話参加者が全員端末装置10を装着している場合には、各端末装置10から送信される装着者本人の精神活性度だけを用いて、各会話参加者の感情を推定できる。この場合には、ステップ611の他者の精神活性度の推定を割愛しても良い。
【0085】
なお、本実施形態による発話者の感情の推定は、端末装置10において発話情報として得られる、非言語情報である音声特徴量に基づいて推定される精神活性度を用いて行われるものであれば良く、具体的な処理の内容は上記の処理に限定されるものではない。さらに、本実施形態の端末装置10により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置20の機能として実現され得る。