(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023071231
(43)【公開日】2023-05-23
(54)【発明の名称】感情認識システムおよび感情認識方法
(51)【国際特許分類】
G10L 25/63 20130101AFI20230516BHJP
G10L 17/00 20130101ALI20230516BHJP
G10L 25/30 20130101ALI20230516BHJP
G10L 15/10 20060101ALI20230516BHJP
【FI】
G10L25/63
G10L17/00 200Z
G10L25/30
G10L15/10 500N
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021183862
(22)【出願日】2021-11-11
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】住吉 貴志
(57)【要約】
【課題】音声に表出される感情を適切に認識し得る感情認識システムを提供する。
【解決手段】感情認識システムにおいて、第1の音声データと第2の音声データとを入力する入力部と、2つの音声データにおける差分の感情を推論する差分感情認識モデルに、第1の音声データと第2の音声データとを入力し、第1の音声データと第2の音声データとにおける差分の感情を示す差分感情情報を差分感情認識モデルから取得する処理部と、を設けるようにした。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1の音声データと第2の音声データとを入力する入力部と、
2つの音声データにおける差分の感情を推論する差分感情認識モデルに、前記第1の音声データと前記第2の音声データとを入力し、前記第1の音声データと前記第2の音声データとにおける差分の感情を示す差分感情情報を前記差分感情認識モデルから取得する処理部と、
を備える感情認識システム。
【請求項2】
2つの音声データの話者が同一の話者であるかを推論する同一話者認識部に、前記第1の音声データと前記第2の音声データとを入力し、前記第1の音声データの話者と前記第2の音声データの話者とが同一の話者であることを示す判定情報を前記同一話者認識部から取得し、取得した判定情報に従って前記第1の音声データの話者と前記第2の音声データの話者とが同一の話者であるか否かを判定する判定部と、
前記判定部による判定の結果に応じた情報を出力する出力部と、
を備える請求項1に記載の感情認識システム。
【請求項3】
前記出力部は、前記判定部により同一の話者であると判定された場合、前記処理部により取得された差分感情情報を出力し、前記判定部により同一の話者でないと判定された場合、同一の話者の音声ではない旨を出力する、
請求項2に記載の感情認識システム。
【請求項4】
前記入力部は、連続音声データを入力し、
前記処理部は、前記入力部により入力された連続音声データから音声区間を検出し、音声区間ごとに前記連続音声データから音声データを抽出し、抽出した音声データから、一の音声データと前記一の音声データから所定の時間以内にある他の音声データと選択し、前記差分感情認識モデルに、前記一の音声データと前記他の音声データとを入力し、前記一の音声データと前記他の音声データとにおける差分の感情を示す差分感情情報を取得する、
請求項1に記載の感情認識システム。
【請求項5】
前記差分感情認識モデルは、同一人物の2つの音声データと前記2つの音声データにおける差分の感情を示す差分感情情報とが用いられて学習されている、
請求項1に記載の感情認識システム。
【請求項6】
前記同一話者認識部が、2つの音声データと、前記2つの音声データにおける差分の感情を示す差分感情情報と、前記2つの音声データの話者が同一であるか否かを示す情報とが用いられて学習される際、前記2つの音声データが異なる人物の音声データである場合、前記2つの音声データにおける差分の感情を示す差分感情情報が前記差分感情情報と無関係の値となるように変更されて学習されている、
請求項2に記載の感情認識システム。
【請求項7】
前記差分感情認識モデルは、ニューラルネットワークである、
請求項1に記載の感情認識システム。
【請求項8】
入力部が、第1の音声データと第2の音声データとを入力することと、
処理部が、2つの音声データにおける差分の感情を推論する差分感情認識モデルに、前記第1の音声データと前記第2の音声データとを入力し、前記第1の音声データと前記第2の音声データとにおける差分の感情を示す差分感情情報を前記差分感情認識モデルから取得することと、
を含む感情認識方法。
【請求項9】
判定部が、2つの音声データの話者が同一の話者であるかを推論する同一話者認識部に、前記第1の音声データと前記第2の音声データとを入力し、前記第1の音声データの話者と前記第2の音声データの話者とが同一の話者であることを示す判定情報を前記同一話者認識部から取得し、取得した判定情報に従って前記第1の音声データの話者と前記第2の音声データの話者とが同一の話者であるか否かを判定することと、
出力部が、前記判定部による判定の結果に応じた情報を出力することと、
を含む請求項8に記載の感情認識方法。
【請求項10】
前記出力部が、前記判定部により同一の話者であると判定された場合、前記処理部により取得された差分感情情報を出力し、前記判定部により同一の話者でないと判定された場合、同一の話者の音声ではない旨を出力する、
請求項9に記載の感情認識方法。
【請求項11】
前記入力部が、連続音声データを入力し、
前記処理部が、前記入力部により入力された連続音声データから音声区間を検出し、音声区間ごとに前記連続音声データから音声データを抽出し、抽出した音声データから、一の音声データと前記一の音声データから所定の時間以内にある他の音声データと選択し、前記差分感情認識モデルに、前記一の音声データと前記他の音声データとを入力し、前記一の音声データと前記他の音声データとにおける差分の感情を示す差分感情情報を取得する、
請求項8に記載の感情認識方法。
【請求項12】
前記差分感情認識モデルは、同一人物の2つの音声データと前記2つの音声データにおける差分の感情を示す差分感情情報とが用いられて学習されている、
請求項8に記載の感情認識方法。
【請求項13】
前記同一話者認識部が、2つの音声データと、前記2つの音声データにおける差分の感情を示す差分感情情報と、前記2つの音声データの話者が同一であるか否かを示す情報とが用いられて学習される際、前記2つの音声データが異なる人物の音声データである場合、前記2つの音声データにおける差分の感情を示す差分感情情報が前記差分感情情報と無関係の値となるように変更されて学習されている、
請求項9に記載の感情認識方法。
【請求項14】
前記差分感情認識モデルは、ニューラルネットワークである、
請求項8に記載の感情認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、音声に表出される感情を推論する技術に関する。
【背景技術】
【0002】
人間の音声に含まれる感情情報は、人間同士のコミュニケーションにおいて重要な役割を果たす。コミュニケーションの目的が達成されたかどうかが感情の動きで判断できる可能性があることから、コミュニケーションにおける感情を分析する需要が生じる。日々の営業活動、コールセンタでの応対等、ビジネスの場面において、多くの音声によるコミュニケーションにおける感情の分析が必要となるため、機械による音声感情認識が望まれている。
【0003】
音声感情認識は、入力された音声について、その音声に含まれる感情のカテゴリ、または感情カテゴリごとの度合いを出力する。その仕組みとしては、あらかじめ定めたルールに基づいて音声信号の特徴から分類したり回帰分析したりする方法、そのルールを機械学習により求める方法がある。
【0004】
近年、ユーザに応じた感情認識を容易に行うことができる音声対話装置が開示されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ルールベースの手法では、1つの音声データに基づいて出力される結果は、開発者が定めたルールまたはしきい値により決定される。また、機械学習の手法では、学習用に集められた音声データと、当該音声データを聴取して受けた感情の印象を正解値としてラベリングする人物(ラベラ)によるラベル結果に基づきパラメータが決定される。しかしながら、いずれの場合も、開発者、ラベラ等の少数の主観に依存した判断がなされるため、感情認識器の出力は、実際の利用者の印象と乖離する可能性がある。
【0007】
本発明は、以上の点を考慮してなされたもので、音声に表出される感情を適切に認識し得る感情認識システム等を提案しようとするものである。
【課題を解決するための手段】
【0008】
かかる課題を解決するため本発明においては、第1の音声データと第2の音声データとを入力する入力部と、2つの音声データにおける差分の感情を推論する差分感情認識モデルに、前記第1の音声データと前記第2の音声データとを入力し、前記第1の音声データと前記第2の音声データとにおける差分の感情を示す差分感情情報を前記差分感情認識モデルから取得する処理部と、を設けるようにした。
【0009】
上記構成では、例えば、2つの音声データから差分の感情(つまり、相対的な感情)が推論されるので、感情認識システムが認識する感情を、1つの音声データから推論される感情(つまり、絶対的な感情)よりも、実際の利用者の印象に近づけることができる。
【発明の効果】
【0010】
本発明によれば、音声に表出される感情を高精度に認識する感情認識システムを実現することができる。上記以外の課題、構成、および効果は、以下の実施の形態の説明により明らかにされる。
【図面の簡単な説明】
【0011】
【
図1】第1の実施の形態による差分感情認識装置に係る処理フローの一例を示す図である。
【
図2】第1の実施の形態による学習用音声データの一例を示す図である。
【
図3】第1の実施の形態による学習用差分感情ラベルデータの一例を示す図である。
【
図4】第1の実施の形態による差分感情認識装置の構成の一例を示す図である。
【
図5】第1の実施の形態による学習プログラムのフローチャートの一例を示す図である。
【
図6】第1の実施の形態による差分感情認識プログラムのフローチャートの一例を示す図である。
【
図7】第1の実施の形態による感情推移データの一例を示す図である。
【
図8】第1の実施の形態によるユーザインタフェースの一例を示す図である。
【
図9】第2の実施の形態による差分感情認識装置に係る処理フローの一例を示す図である。
【発明を実施するための形態】
【0012】
(I)第1の実施の形態
以下、本発明の一実施の形態を詳述する。ただし、本発明は、実施の形態に限定されるものではない。
【0013】
従来の技術では、入力される音声の話者特性の変動要因、入力される音声の環境特性の変動要因等の影響により、ルールが正しく機能しないために意図しない結果が出力される可能性もある。近時、深層学習の登場により、機械学習では、より複雑なルールを扱うことが可能となり、この問題の解決は広く取り組まれ、精度向上が行われているものの、十分に解決されているとはいえない。
【0014】
この点、本実施の形態に係る感情認識システムは、個人間で音声データの比較を行わず、個人内の音声データの比較を行って音声感情を認識する。音声感情とは、喜怒哀楽、ネガティブまたはポジティブ等、その人の内面が声として表出されたものである。本感情認識システムは、ある人の単体の音声を聞いて付与される感情のラベル(ある人が、今、喜んでいる、悲しんでいるといった感情が数値化された絶対評価のラベル)を使うのではなく、同じ人の2つの音声を聞いて付与される感情のラベル(ある人の2つの音声から把握される感情が数値化された差分評価(相対評価)のラベル)を使うので、ラベラは、ラベリングし易く、差分評価のラベルは、絶対評価のラベルより信頼性が高くなる。なお、本感情認識システムが感情を推論する際に用いる2つ音声は、同じ話者の音声であるが、連続している音声である必要はない。ただし、同じ日および/または同じ場所において取得される音声が用いられることが好ましい。
【0015】
本感情認識システムによれば、話者特性および環境特性の影響を従来よりも抑えて同一人物の音声の差分に基づく音声感情を認識することができる。
【0016】
次に、本発明の実施の形態を図面に基づいて説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は、単数でも複数でも構わない。なお、以下の説明では、図面において同一要素については、同じ番号を付し、説明を適宜省略する。
【0017】
なお、本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数または順序を限定するものではない。また、構成要素の識別のための番号は、文脈毎に用いられ、1つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
【0018】
図1は、本実施の形態の差分感情認識装置101に係る処理フローの一例を示す図である。
【0019】
まず、学習フェーズ110において、利用者102は、学習用音声データ111と学習用差分感情ラベルデータ112とを準備する。次に、利用者102は、差分感情認識装置101を用いて、差分感情認識モデル113を学習により生成する。
【0020】
次に、推論フェーズ120において、利用者102は、連続音声データ121を差分感情認識装置101に入力し、感情推移データ122を取得する。
【0021】
図2は、学習用音声データ111の一例(学習用音声テーブル200)を示す図である。
【0022】
学習用音声テーブル200は、複数の音声波形(音声データ)を格納する。複数の音声波形の各々に対しては、音声IDと話者IDとが付与される。音声IDは、音声波形を一意に識別する符号である。話者IDは、音声波形の話者に付与される符号であって、話者を一意に識別する符号である。付言するならば、学習用音声テーブル200には、複数の人物の複数の音声波形が格納されている。
【0023】
図3は、学習用差分感情ラベルデータ112の一例(学習用差分感情ラベルテーブル300)を示す図である。
【0024】
学習用差分感情ラベルテーブル300は、複数の差分感情を格納する。差分感情は、ラベラにより付与されたラベルであって、第1の音声IDの音声波形の音声(第1の音声)を基準とした、第2の音声IDの音声波形の音声(第2の音声)の感情を数値化したラベルである。第1の音声IDと第2の音声IDとは、学習用音声データ111の音声IDに対応した音声波形を指し示す。
【0025】
第1の音声IDおよび第2の音声IDは、同一の話者IDによるものとする。2つの入力における感情のラベル(差分値)がラベラによりラベリングされる。なお、従来通り1つの音声に対する感情の絶対値がラベリング(学習用音声データ111に保持)され、学習時は、絶対値の差分が差分値として用いられてもよい。例えば、学習用音声テーブル200に、音声ID「1」の音声の感情を示す絶対値「0.1」が格納され、音声ID「2」の音声の感情を示す絶対値「0.2」が格納されている場合、第1の音声IDの絶対値「0.1」と第2の音声IDの絶対値「0.2」とに対応する差分感情として差分値「0.1」が算出されてもよい。
【0026】
また、学習用差分感情ラベルテーブル300は、複数のラベラによる差分感情を保存してもよく、その場合、学習においては複数のラベラによる差分感情の平均値等の統計値が用いられる。また、感情カテゴリは、1つではなく複数としてもよく、その場合は、学習用差分感情ラベルテーブル300は、差分感情として、スカラ値ではなく、ベクトル値を保存する。
【0027】
図4は、差分感情認識装置101の構成の一例を示す図である。
【0028】
差分感情認識装置101は、一般的なPC(Personal Computer)の構成と同様、コンポーネントとして、記憶装置400、CPU401、ディスプレイ402、キーボード403、およびマウス404を備える。それぞれのコンポーネントは、バス405を介してデータを送受信することができる。
【0029】
記憶装置400は、プログラムとして、学習プログラム411および差分感情認識プログラム421を備える。これらのプログラムは、起動時に記憶装置400内に存在する図示しないOS(オペレーティングシステム)によりCPU401に読み込まれて実行される。
【0030】
差分感情認識モデル113は、例えば、入力層の状態数が第1の音声の特徴量「512」と第2の音声の特徴量「512」の計「1024」状態、隠れ層が1層で状態数が「512」状態、出力層の状態数が「1」状態であるニューラルネットワークとする。入力層の入力{x
i(i=1・・・1024)}に対し、隠れ層の値{h
j(j=1・・・512)}は、(式1)により計算される。
【数1】
【0031】
出力層の出力yは、第1の音声を基準とした第2の音声の感情の差分値であり、(式2)により計算される。
【数2】
【0032】
ここで、sは、活性化関数であり、例えばシグモイド関数であり、Wは、重みであり、bは、バイアスである。
【0033】
第1の音声および第2の音声から特徴量を求める手段としては、下記の文献1に記載の時系列のLLD(Low-Level Descriptors)に対する統計量等を用いることができる。
文献1:鈴木「音声に含まれる感情の認識」、日本音響学会誌71巻9号(2015)pp.484-489
【0034】
なお、本実施の形態は、ニューラルネットワークの構造を限定するものではなく、任意のニューラルネットワークの構造および活性化関数を用いてよい。また、差分感情認識モデル113は、ニューラルネットワークに限定するものではなく、任意のモデルを用いてよい。
【0035】
差分感情認識装置101の機能(学習プログラム411、差分感情認識プログラム421等)は、例えば、CPU401がプログラムを記憶装置400に読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。なお、差分感情認識装置101の1つの機能は、複数の機能に分けられていてもよいし、複数の機能は、1つの機能にまとめられていてもよい。例えば、差分感情認識プログラム421は、入力部422、処理部423、出力部424を含んで構成されてもよい。また、差分感情認識装置101の機能の一部は、別の機能として設けられてもよいし、他の機能に含められていてもよい。また、差分感情認識装置101の機能の一部は、差分感情認識装置101と接続可能な他のコンピュータにより実現されてもよい。例えば、学習プログラム411は、第1のPCに設けられ、差分感情認識プログラム421は、第2のPCに設けられていてもよい。
【0036】
図5は、学習プログラム411のフローチャートの一例を示す図である。
【0037】
まず、学習プログラム411は、差分感情認識モデル113のパラメータWij
1、bi
1、Wi
2、bi
2に初期値を付与する(S501)。学習プログラム411は、初期値としては、ニューラルネットワークの学習を進めやすくするためのランダムな値を与える。
【0038】
次に、学習プログラム411は、学習用音声データ111および学習用差分感情ラベルデータ112からデータを読み込む(S502)。
【0039】
次に、学習プログラム411は、差分感情認識モデル113のパラメータを更新する(S503)。更新方法としては、ニューラルネットワークにおけるバックプロパゲーション法を用いることができる。
【0040】
次に、学習プログラム411は、学習が収束したか否かを判定する(S504)。収束判定は、定められた一定の回数を実行したこと、誤差関数の値が定められたしきい値を下回ったこと等の条件で行われる。
【0041】
図6は、差分感情認識プログラム421のフローチャートの一例を示す図である。
【0042】
差分感情認識プログラム421の実行前に、利用者102等により分析対象の音声が連続音声データ121として記憶装置400に格納される。
【0043】
まず、差分感情認識プログラム421は、連続音声データ121を1フレーム分読み込み、連続音声データ121を読み込み終えた場合は、プログラムを終了する(S601)。
【0044】
次に、差分感情認識プログラム421は、音声区間を検出したか否かを判定する(S602)。音声区間の検出は、既知の手法を用いることができる。例えば、音量が一定の値以上のフレームが一定数連続したあと、音量が一定の値以下のフレームが一定数連続したとき、そこまでのフレーム群を音声区間とみなすような手法である。音声区間が検出されていない場合は、S601に処理が戻る。なお、音声区間は、音声が検出された区間(一連のフレーム群)であってもよいし、音声が検出された区間の前のフレームおよび/または後のフレームを含む区間であってもよい。
【0045】
次に、差分感情認識プログラム421は、検出された音声区間の情報を感情推移データ122に保存する(S603)。なお、S603では、音声区間IDと音声区間データとが感情推移データ122に格納され、感情推移はS606において格納される。
【0046】
次に、差分感情認識プログラム421は、音声区間のペアを選択可能であるか否かを判定する(S604)。選択される音声区間のペアは、例えば感情推移データ122において時間的に隣接したペアであり、感情推移が計算されていない音声区間をペアの1つに含むもの、とすることができる。ここで、差分感情認識プログラム421は、感情推移の計算をロバストにするため、隣接するペアを、所定の時間以内である複数のペアとしてもよい。また、差分感情認識プログラム421は、短い音声区間、音量の小さい音声区間等、感情認識が困難と思われる音声区間を含むペアを除外するという処理をしてもよい。
【0047】
次に、差分感情認識プログラム421は、選択した音声区間のペア(2つの音声区間の音声データ)を差分感情認識モデル113に入力し、差分感情認識モデル113から出力された差分感情を得る(S605)。
【0048】
次に、差分感情認識プログラム421は、差分感情に基づいて感情推移を計算し、感情推移データ122に保存する(S606)。ある音声区間の感情推移を求めるには、例えば、すべてのペアに対して、その音声区間とペアとなったもう1つの音声区間の感情推移に、求めた差分感情を足し合わせた値を求め、その値の平均値を取る、ということができる。最初の音声区間の感情推移は、平均値「0」としてよい。その後、S601に処理が戻る。
【0049】
図6では、連続音声データ121から検出される音声区間のペアを差分感情認識モデル113に入力して差分感情を取得する構成を例に挙げたが、この構成に限らない。例えば、差分感情認識プログラム421は、利用者により指定された2つの音声データを差分感情認識モデル113に入力して差分感情を取得する構成であってもよい。
【0050】
図7は、感情推移データ122の一例(感情推移テーブル700)を示す図である。
【0051】
感情推移テーブル700は、音声区間ごとに感情推移を格納する。音声区間IDは、音声区間を一意に識別する符号である。音声区間データは、音声区間が連続音声データ121のどの位置からどの位置までのものであるかを示す情報(例えば、時刻区間情報)である。感情推移は、差分感情認識プログラム421により得られた音声区間の感情推移値である。
【0052】
図8は、差分感情認識装置101のユーザインタフェースの一例を示す図である。
【0053】
利用者102は、ディスプレイ402から、入力する連続音声ファイルを選択可能であるという情報を得る。利用者102は、キーボード403および/またはマウス404を操作して、音声ファイル選択ボタン801を押し、差分感情認識装置101内に格納された音声ファイルを選択すると、その音声ファイルの音声が波形810としてディスプレイ402に可視化されるとともに、連続音声データ121として記憶装置400に格納される。利用者102は、続けて分析開始ボタン802を押すことで差分感情認識プログラム421を実行させることができる。感情推移データ122が生成されると、感情推移値がグラフ820としてディスプレイ402に可視化される。
【0054】
なお、感情推移値は、音声区間ごとに算出されるので、グラフ820では、感情推移値が滑らかに結ばれ、時系列で感情推移が示されている。付言するならば、可視化されるデータは、感情推移値に限るものではなく、感情のカテゴリであってもよいし、感情カテゴリごとの度合い(差分感情値)であってもよい。
【0055】
以上により説明した内容で感情認識システムを構成すれば、利用者は、音声の感情表現の差分値を学習したモデルによる差分感情認識器により、特定の話者の音声の感情の推移を容易に確認することができる。
【0056】
(II)第2の実施の形態
入力された音声に対して絶対的な感情評価値(感情の絶対値)を出力するように設計された従来のシステムでは、利用者は異なる人物の音声を入力し、その感情評価値をもって各人物に対する感情面の評価を行うという使い方をするおそれがある。前述のとおり、感情認識器の出力は、少数の主観が反映されたものであり、また精度も十分とは言えないため、このような利用は、適切な利用とは言えない場面がある。主な用途としては、同一人物の音声に対して、感情表現の起伏を可視化する等、相対的な感情の変化を見ることができれば十分なことが多いが、そのような用途に限定する仕組みが提供されていない。
【0057】
この点、本実施の形態の差分感情認識装置901は、入力された2つの音声データが、同一話者の音声データであるか否かを判定する。なお、本実施の形態では、第1の実施の形態と同じ構成については、同じ符号を用いて、その説明を省略する。
【0058】
図9は、本実施の形態の差分感情認識装置901に係る処理フローの一例を示す図である。
【0059】
本実施の形態における差分感情認識モデル911は、同一話者認識部を含み、出力層として出力yの他に出力zを持つ。出力zは、同一話者判定値であり、第1の音声と第2の音声とが同一話者である場合は「1」、同一話者でない場合は「0」を出力する。出力zは、(式3)により計算される。
【数3】
なお、差分感情認識モデル911のパラメータは、W
ij
1、b
i
1、W
i
2、b
i
2、W
i
3、b
i
3となる。
【0060】
学習プログラム411において、第1の実施の形態と同様の学習用音声データ111および学習用差分感情ラベルデータ112を用いて学習する場合、ラベルzは「1」となる。それ以外に、学習用音声データ111から、話者IDの異なる任意の音声データ2つを取り出し、ラベルyをランダムな値(学習用差分感情ラベルデータ112の差分感情と無関係な値)、ラベルzを「0」としてパラメータを更新する。
【0061】
差分感情認識プログラム421において感情推移を計算するにあたり、同一話者判定値がしきい値未満のものは同一話者でないと判断し、同一話者でないと判定された差分感情値が全体のペアの一定以上の割合である場合、感情推移は無効値とする。ディスプレイ402による感情推移の可視化においては、無効値である音声区間の結果については感情認識が無効であることを表示する。付言するならば、差分感情認識プログラム421は、感情推移を無効値とした場合、分析を中止してもよい。
【0062】
なお、本実施の形態は、差分感情認識モデル911が同一話者認識部を含む構成に限らない。例えば、差分感情認識モデル113と同一話者認識部(例えば、ニューラルネットワークの同一話者認識モデル)とが差分感情認識装置901に設けられている構成であってもよい。
【0063】
以上により説明した内容で感情認識システムを構成すれば、利用者が異なる話者の音声を含めた感情認識を実施しようとした場合、その結果を得ることができなくなる。これにより、異なる人物の音声を入力したときの感情評価値をもって各人物に対する感情面の評価とみなしてしまうという利用方法を回避することができる。
【0064】
(III)付記
上述の実施の形態には、例えば、以下のような内容が含まれる。
【0065】
上述の実施の形態においては、本発明を感情認識システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。
【0066】
また、上述の実施の形態において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部(例えばメモリ)および/またはインターフェース部(例えば通信ポート)等を用いながら行うため、処理の主語がプロセッサとされてもよい。プログラムを主語として説明された処理は、プロセッサ部あるいはそのプロセッサ部を有する装置が行う処理としてもよい。また、プロセッサ部は、処理の一部または全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit))を含んでもよい。
【0067】
また、上述の実施の形態において、プログラムの一部またはすべては、プログラムソースから、差分感情認識装置を実現するコンピュータのような装置にインストールされてもよい。プログラムソースは、例えば、ネットワークで接続されたプログラム配布サーバまたはコンピュータが読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。また、上述の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0068】
また、上述の実施の形態において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
【0069】
また、上述の実施の形態において、図示および説明した画面は、一例であり、受け付ける情報が同じであるならば、どのようなデザインであってもよい。
【0070】
また、上述の実施の形態において、図示および説明した画面は、一例であり、提示する情報が同じであるならば、どのようなデザインであってもよい。
【0071】
また、上述の実施の形態において、統計値として平均値を用いる場合について説明したが、統計値は、平均値に限るものではなく、最大値、最小値、最大値と最小値との差、最頻値、中央値、標準偏差等の他の統計値であってもよい。
【0072】
また、上述の実施の形態において、情報の出力は、ディスプレイへの表示に限るものではない。情報の出力は、スピーカによる音声出力であってもよいし、ファイルへの出力であってもよいし、印刷装置による紙媒体等への印刷であってもよいし、プロジェクタによるスクリーン等への投影であってもよいし、その他の態様であってもよい。
【0073】
また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0074】
上述した実施の形態は、例えば、以下の特徴的な構成を有する。
【0075】
(1)
感情認識システム(例えば、差分感情認識装置101、差分感情認識装置901、差分感情認識装置101および差分感情認識装置101と通信可能なコンピュータを備えるシステム、差分感情認識装置901および差分感情認識装置901と通信可能なコンピュータを備えるシステム)は、第1の音声データと第2の音声データとを入力する入力部(例えば、差分感情認識プログラム421、入力部422、回路)と、2つの音声データにおける差分の感情を推論する差分感情認識モデル(例えば、差分感情認識モデル113、差分感情認識モデル911)に、上記第1の音声データと上記第2の音声データとを入力し、上記第1の音声データと上記第2の音声データとにおける差分の感情を示す差分感情情報を上記差分感情認識モデルから取得する処理部(例えば、差分感情認識プログラム421、処理部423、回路)と、を備える。なお、第1の音声データと第2の音声データとは、1つの音声データ(例えば、連続音声データ121)に含まれていてもよいし、別々の音声データであってもよい。
【0076】
上記構成では、例えば、2つの音声データから差分の感情(つまり、相対的な感情)が推論されるので、感情認識システムが認識する感情を、1つの音声データから推論される感情(つまり、絶対的な感情)よりも、実際の利用者の印象に近づけることができる。
【0077】
(2)
上記感情認識システムは、2つの音声データの話者が同一の話者であるかを推論する同一話者認識部(例えば、差分感情認識モデル911、同一話者認識部)に、上記第1の音声データと上記第2の音声データとを入力し、上記第1の音声データの話者と上記第2の音声データの話者とが同一の話者であることを示す判定情報(例えば、同一話者でないことを示す「0」または同一話者であることを示す「1」であってもよいし、「0」~「1」の数値であってもよい)を上記同一話者認識部から取得し、取得した判定情報に従って上記第1の音声データの話者と上記第2の音声データの話者とが同一の話者であるか否かを判定する判定部(例えば、判定部を含む差分感情認識プログラム421、判定部、回路)と、上記判定部による判定の結果に応じた情報を出力する出力部(例えば、判定部を含む差分感情認識プログラム421、出力部424、回路)と、を備える。
【0078】
上記構成によれば、2つの音声データの話者が同一の話者であるか否かが判定されるので、例えば、異なる人の音声を入力し、各人の感情を評価する誤った使い方を回避することができる。
【0079】
(3)
上記出力部は、上記判定部により同一の話者であると判定された場合、上記処理部により取得された差分感情情報(例えば、グラフ820)を出力し、上記判定部により同一の話者でないと判定された場合、同一の話者の音声ではない旨(例えば、「同一話者でない音声区間があります。その音声区間のグラフを非表示にしています。」)を出力する。
【0080】
上記構成によれば、例えば、異なる人物間の音声の比較を拒否する仕組みを提供することができる。
【0081】
(4)
上記入力部は、連続音声データ(例えば、連続音声データ121)を入力し、上記処理部は、上記入力部により入力された連続音声データから音声区間を検出し、音声区間ごとに上記連続音声データから音声データを抽出し、抽出した音声データから、一の音声データと上記一の音声データから所定の時間以内にある他の音声データと選択し、上記差分感情認識モデルに、上記一の音声データと上記他の音声データとを入力し、上記一の音声データと上記他の音声データとにおける差分の感情を示す差分感情情報を取得する(例えば、
図6参照)。
【0082】
上記構成によれば、連続音声データが入力された場合、例えば、隣接する2つの音声データにおける差分の感情を示す差分感情情報が順次に取得されるので、利用者は、感情の推移を把握することができる。
【0083】
(5)
上記差分感情認識モデルは、同一人物の2つの音声データと上記2つの音声データにおける差分の感情を示す差分感情情報とが用いられて学習されている(
図5参照)。
【0084】
上記構成では、同一人物の2つの音声データに対するラベリングが行われるので、例えば、ラベラが感情を推定し易く、ラベルがラベラによる主観に依存してしまう事態を低減することができる。
【0085】
(6)
上記同一話者認識部が、2つの音声データと、上記2つの音声データにおける差分の感情を示す差分感情情報と、上記2つの音声データの話者が同一であるか否かを示す情報とが用いられて学習される際、上記2つの音声データが異なる人物の音声データである場合、上記2つの音声データにおける差分の感情を示す差分感情情報が上記差分感情情報と無関係の値(例えば、ランダムな値)となるように変更されて学習されている。
【0086】
上記構成によれば、例えば、差分感情認識モデルと同一話者認識部とを共通のデータを用いて学習することができるので、学習に用いるデータを準備する負担を低減することができる。
【0087】
(7)
上記差分感情認識モデルは、ニューラルネットワークである。
【0088】
上記構成では、差分感情認識モデルがニューラルネットワークであるので、声がこもりがちな人、声が高い人といった話者特性、残響が大きいといった環境特性等の変動要因の影響によりルールが正しく機能しない事態を低減し、推論の精度を向上させることができる。
【0089】
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
【0090】
「A、B、およびCのうちの少なくとも1つ」という形式におけるリストに含まれる項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができると理解されたい。同様に、「A、B、またはCのうちの少なくとも1つ」の形式においてリストされた項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができる。
【符号の説明】
【0091】
101……差分感情認識装置、113……差分感情認識モデル。