(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】感情種別グループの識別を介して感情推定を行うモデル、装置及び方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20240312BHJP
G10L 15/16 20060101ALI20240312BHJP
【FI】
G10L15/10 500N
G10L15/16
(21)【出願番号】P 2021027213
(22)【出願日】2021-02-24
【審査請求日】2023-02-10
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】イラクレウス パニコス
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2020-187262(JP,A)
【文献】特開2015-148712(JP,A)
【文献】国際公開第2018/168369(WO,A1)
【文献】Two-stage Classification of Emotional Speech,International Conference on Digital Telecommunications (ICDT'06),IEEE,2006年09月18日
【文献】Webから獲得した感情生起要因コーパスに基づく感情推定,情報処理学会論文誌 論文誌ジャーナル Vol.50 No.4 [CD-ROM] IPSJ Journal,2009年04月15日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータを機能させる感情推定モデルであって、
入力された当該音声データに係る発声主体の感情が、
当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、前記複数の感情種別を
、感情に係る所定の
2つの判断基準
の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グルー
プのうちのいずれに属するかを推定する感情種別グループ推定部と、
前記複数の感情種別グループのうち、複数の感情種別が属している感情種別グループの各々について設けられた感情種別推定部であって、入力された当該音声データに係る発声主体の感情が、当該感情種別グループに属している複数の感情種別
であって、当該2つの判断基準の両方からして互いに近い関係にある複数の感情種別のうちのいずれに該当するかを推定する少なくとも1つの感情種別推定部と
してコンピュータを機能させることを特徴とする感情推定モデル。
【請求項2】
当該
2つの判断基準は
、当該感情種別
がポジティブなものかネガティブなものかの
判断基準、及び
当該感情種別が活発に働くものか不活発なものかの
判断基準であることを特徴とする請求項1に記載の感情推定モデル。
【請求項3】
前記複数の感情種別は、「喜び」、「興奮」
、「怒り」、
及び「不満」
を含み、前記複数の感情種別グループは、「喜び」及び「興奮」の属するグループ、
並びに「怒り」及び「不満」の属するグループ
を含み、
当該感情種別推定部の1つは、入力された当該音声データに係る発声主体の感情が、当該2つの判断基準の両方に関して近い関係にある「喜び」及び「興奮」のうちのいずれに該当するかを推定し、当該感情種別推定部の他の1つは、入力された当該音声データに係る発声主体の感情が、当該2つの判断基準の両方に関して近い関係にある「怒り」及び「不満」のうちのいずれに該当するかを推定する
ことを特徴とする請求項1又は2に記載の感情推定モデル。
【請求項4】
前記感情種別グループ推定部によって推定された当該感情種別グループが、1つの感情種別のみを含んでいる感情種別グループである場合、該1つの感情種別を、当該音声データに係る発声主体の感情が該当する感情種別とすることを特徴とする請求項1から3のいずれか1項に記載の感情推定モデル。
【請求項5】
1つの感情種別グループについて設けられた当該感情種別推定部は、前記感情種別グループ推定部
へ入力され、該感情種別グループ推定部によって該1つの感情種別グループに該当すると推定された
複数の音声デー
タを用いて訓練されることを特徴とする請求項1から4のいずれか1項に記載の感情推定モデル。
【請求項6】
前記感情種別グループ推定部及び前記少なくとも1つの感情種別推定部は、全結合型深層ニューラルネットワーク・アルゴリズムを用いて構築されていることを特徴とする請求項1から5のいずれか1項に記載の感情推定モデル。
【請求項7】
請求項1から6のいずれか1項に記載された感情推定モデルを用いて、入力された音声データから、当該音声データに係る発声主体に係る当該感情種別を推定することを特徴とする感情推定装置。
【請求項8】
入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータに
よって実施される感情推定方法であって、
入力された当該音声データに係る発声主体の感情が、
当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、前記複数の感情種別を
、感情に係る所定の
2つの判断基準
の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グルー
プのうちのいずれに属するかを推定するステップと、
前記ステップで、当該音声データに係る発声主体の感情がそこに属すると推定された当該感情種別グループに、複数の感情種別が属している場合、該音声データに係る発声主体の感情が、
当該2つの判断基準の両方からして互いに近い関係にある該複数の感情種別のうちのいずれに該当するかを推定するステップと
を有することを特徴とする感情推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声から、当該音声の発声主体に係る情報を推定する技術に関する。
【背景技術】
【0002】
現在、発話者(発声主体)の感情をその音声から推定する感情推定技術が大いに注目されている。このような感情推定技術は、例えば非特許文献1でも述べられているように今後、ユーザ(人間)とコンピュータとが関わり合う場面でより重要な役割を果たすことが予測される。
【0003】
例えば、警察や救急病院等への通報がなされた緊急事態において、通報者の電話での音声からその感情状態をコンピュータが瞬時に推定できれば、その感情推定結果に基づき、より適切な対応や配慮が可能となる。また、例えば対話ロボットが、対話先のユーザの感情状態を推定することにより、その感情に合った動作・振る舞いを実施することもできる。さらには、コールセンターにおいてオペレータが、電話対応先である顧客の感情状態をコンピュータ経由で認識できれば、例えば当該顧客の満足度を的確に把握することも可能となるのである。
【0004】
このような音声による感情推定技術の研究では従来、音声特徴量を如何に抽出するか、また如何なる識別・分類器を採用するかが重要な課題となってきた。このうち特徴量抽出については、メル周波数ケプストラム係数(MFCC,Mel-Frequency Cepstral Coefficients)、pitch、i-vectorsや、LLD(Low-Level Descriptors)等の手法が開発されてきた。
【0005】
一方、識別・分類器については当初、混合ガウスモデル(GMM,Gaussian Mixture Models)、サポートベクタマシン(SVM,Support Vector Machines)や、ニューラルネットワーク(NN,Neural Networks)等のアルゴリズムが用いられてきたが、最近では多くの場合、深層ニューラルネットワーク(DNN,Deep Neural Networks)を採用して研究が進められている。
【先行技術文献】
【非特許文献】
【0006】
【文献】C. Busso, M. Bulut, and S. Narayanan, “Toward Effective Automatic Recognition Systems of Emotion in Speech”, In Social emotions in nature and artifact: emotions in human and human-computer interaction, S. Marsella J. Gratch, Ed. Oxford University Press, pp.110-127, 2013年
【文献】Mustaqeem and S. Kwon, “CLSTM: Deep Feature-Based Speech Emotion Recognition Using the Hierarchical ConvLSTM Network”, Mathematics 2020, 8(12), 2133, 2020年, <https://doi.org/10.3390/math8122133>
【文献】S. Koolagu di and K. Sreenivasa Rao, “Two stage emotion recognition based on speaking rate”, International Journal of Speech Technology 14(1), pp. 35-48, 2011年, <https://doi.org/10.1007/s10772-010-9085-x>
【発明の概要】
【発明が解決しようとする課題】
【0007】
このように好適な音声特徴量抽出手法の開発や識別・分類器の性能向上によって、音声による感情推定技術の研究は大いに発展してきた。しかしながら従来、識別すべき感情の種別(class)は多くの場合、少数にとどまっており、例えば典型例として非特許文献2における識別すべき感情種別は、「喜び(happy)」、「怒り(angry)」、「悲しみ(sad)」及び「ニュートラル(neutral)」の4つとなっている。
【0008】
これは、従来技術では依然、識別すべき感情種別の数を増やした場合に、感情識別の精度(正解率)が大幅に低下してしまう事実による。この点、本願発明者は、後に本発明の実施例に対する比較例として詳しく説明するが、DNNを用いた従来技術によって、現在最高水準の感情ラベル付き英語音声データコーパスとされているIEMOCAP(Interactive Emotional dyadic MOtion CAPture)データベースを用い、識別すべき感情種別が4つ、5つ、6つ及び7つの場合について、その推定した感情種別の正解率(accuracy)を調査した。
【0009】
その結果、従来の典型的な数である感情種別が4つの場合では、正解率は64.3%と最も高くなったが、感情種別数が増えるにしたがって正解率は低下し、感情種別が7つの場合、正解率は41.5%にまで悪化した。この正解率は、感情推定技術のアプリケーションに求められる性能の観点からして非常に低いものとなっている。
【0010】
ちなみに、実際の感情推定技術のアプリケーションにおいては、より多くの種別数の感情種別が識別されて、妥当な且つ十分に受け入れられる感情推定結果の取得されることが望まれている。すなわち、例えばユーザのより詳細な感情状態をサービスに反映させるべく、十分に高い精度で推定可能な感情の粒度を、より高めることが要望されているのである。
【0011】
ここで、非特許文献3に記載された感情推定技術は、4つを超える感情種別を識別するべく、入力された音声データを、その発話速度に基づいて3つのクラスタに分類し、その後、最終的な感情種別への分類を行う技術となっている。しかしながらこの技術において、分類の基準となっている発話速度は、発話者の感情状態以外の事情に強く依存するものであり、当該基準として相応しいものとは言えない。したがって、このような発話速度に基づいて実行されるクラスタ分類の段階においてすでに、最終的な感情種別の推定処理における精度(正解率)の向上は、望めないものとなってしまう。
【0012】
そこで、本発明は、発声主体の音声に基づきその感情を推定する処理において、より多い種別数の感情種別を、より高い精度で識別可能な感情推定モデル、感情推定装置、及び感情推定方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明によれば、入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータを機能させる感情推定モデルであって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、複数の感情種別を、感情に係る所定の2つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定する感情種別グループ推定部と、
上記の複数の感情種別グループのうち、複数の感情種別が属している感情種別グループの各々について設けられた感情種別推定部であって、入力された当該音声データに係る発声主体の感情が、当該感情種別グループに属している複数の感情種別であって、当該2つの判断基準の両方からして互いに近い関係にある複数の感情種別のうちのいずれに該当するかを推定する少なくとも1つの感情種別推定部と
してコンピュータを機能させる感情推定モデルが提供される。
【0014】
この本発明による感情推定モデルにおける好適な一実施形態として、当該2つの判断基準は、当該感情種別がポジティブなものかネガティブなものかの判断基準、及び当該感情種別が活発に働くものか不活発なものかの判断基準であることも好ましい。
【0015】
また、本発明による感情推定モデルにおいて、予め設定される複数の感情種別は、「喜び」、「興奮」、「怒り」、及び「不満」を含み、前記複数の感情種別グループは、「喜び」及び「興奮」の属するグループ、並びに「怒り」及び「不満」の属するグループを含み、当該感情種別推定部の1つは、入力された当該音声データに係る発声主体の感情が、当該2つの判断基準の両方に関して近い関係にある「喜び」及び「興奮」のうちのいずれに該当するかを推定し、当該感情種別推定部の他の1つは、入力された当該音声データに係る発声主体の感情が、当該2つの判断基準の両方に関して近い関係にある「怒り」及び「不満」のうちのいずれに該当するかを推定することも好ましい。
【0016】
さらに、本発明による感情推定モデルにおいて、感情種別グループ推定部によって推定された当該感情種別グループが、1つの感情種別のみを含んでいる感情種別グループである場合、この1つの感情種別を、当該音声データに係る発声主体の感情が該当する感情種別とすることも好ましい。
【0017】
また、本発明による感情推定モデルにおける訓練処理について、1つの感情種別グループについて設けられた当該感情種別推定部は、前記感情種別グループ推定部へ入力され、該感情種別グループ推定部によって該1つの感情種別グループに該当すると推定された複数の音声データを用いて訓練されることも好ましい。
【0018】
さらに、本発明による感情推定モデルにおいて、感情種別グループ推定部及び少なくとも1つの感情種別推定部は、全結合型DNN(Deep Neural Networks,深層ニューラルネットワーク)アルゴリズムを用いて構築されていることも好ましい。
【0019】
本発明によれば、また、上述した感情推定モデルを用いて、入力された音声データから、当該音声データに係る発声主体に係る当該感情種別を推定する感情推定装置が提供される。
【0020】
本発明によれば、さらに、入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータによって実施される感情推定方法であって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、複数の感情種別を、感情に係る所定の2つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定するステップと、
上記のステップで、当該音声データに係る発声主体の感情がそこに属すると推定された当該感情種別グループに、複数の感情種別が属している場合、この音声データに係る発声主体の感情が、当該2つの判断基準の両方からして互いに近い関係にあるこれら複数の感情種別のうちのいずれに該当するかを推定するステップと
を有する感情推定方法が提供される。
【発明の効果】
【0021】
本発明による感情推定モデル、感情推定装置、及び感情推定方法によれば、発声主体の音声に基づきその感情を推定する処理において、より多い種別数の感情種別を、より高い精度で識別することが可能となる。
【図面の簡単な説明】
【0022】
【
図1】本発明による感情推定モデル、及びこの感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。
【
図2】本発明に係る感情種別グループの設定における種々の態様を説明するための模式図である。
【
図3】本発明による感情推定モデルを用いて実際に感情推定処理を行った実施例、及びその評価のための比較例を説明するためのテーブル及びグラフである。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0024】
[感情推定モデル]
図1は、本発明による感情推定モデル、及びこの感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。
【0025】
図1に示した本実施形態の感情推定装置9は、発声主体(例えばロボットやボットでもあり得るが、ここでは以後、発話者とも称する)の発話音声を例えばマイクを介して取り込んで音声データとし、その音声データから、本発明による構築(学習)済みの感情推定モデル1を用いて発話者の感情を推定する装置である。より具体的には、当該発話者が発話時点において、如何なる感情種別(emotion class)に該当する感情状態にあるのかについての決定を行う。
【0026】
また同じく
図1に示した本実施形態の感情推定モデル1は、入力された音声データから、当該音声データに係る発話者の感情が、予め設定された複数の感情種別、本実施形態では「喜び(happy)」、「興奮(excited)」、「悲しみ(sad)」、「怒り(angry)」、「不満(frustration)」、「その他(other)」、及び「ニュートラル(neutral)」の7つのうちのいずれに該当するかを識別して推定するように構築されている。その結果、本実施形態の感情推定装置9は、これら7つの感情種別のうちで発話者の感情に該当するものを、感情推定結果として出力することができるのである。
【0027】
ここで従来、音声による感情推定技術において、識別すべき感情の種別(class)は多くの場合、少数にとどまっており、例えば典型例として「喜び」、「怒り」、「悲しみ」及び「ニュートラル」の4つが用いられてきた。これは、従来技術では、識別すべき感情の種別数を増やした場合に、感情識別の精度(正解率,accuracy)が大幅に低下してしまう事実による。
【0028】
この精度低下の問題を解決するべく、感情推定モデル1はその特徴として、
(A)入力された音声データに係る発話者の感情が、「感情に係る所定の判断基準」を用いて予め設定された「感情種別グループ」(本実施形態ではG1~G5の5つ)のうちのいずれに属するかを識別して推定する感情種別グループ推定部11と、
(B)複数の「感情種別グループ」(G1~G5)のうち、複数の感情種別が属している「感情種別グループ」(本実施形態ではG1及びG3)の各々について設けられた感情種別推定部であって、入力された音声データに係る発話者の感情が、当該「感情種別グループ」に属している複数の感情種別のうちのいずれに該当するかを識別して推定する少なくとも1つの感情種別推定部(本実施形態ではG1用感情種別推定部12G1、及びG3用感情種別推定部12G3)と
してコンピュータを機能させるモデルとなっている。
【0029】
このように、感情推定モデル1は、上記(A)及び(B)のツーパス感情識別方式(two-pass emotion recognition method)を実施可能となっているのである。
【0030】
ここで、第1パスである上記(A)における「感情種別グループ」は、予め設定された複数の感情種別(本実施形態では上記の7つ)を「感情に係る所定の判断基準」によって分類した結果として設定されたグループであり、予め、感情種別の種別数(本実施形態では7つ)よりも小さい数(本実施形態では5つ)だけ設定されている。その結果、上記(A)の感情種別グループ推定部11において、識別しなければならないグループの数(クラス数)は必ず、予め設定された感情種別数(7つ)よりも少ない数(5つ)となる。
【0031】
さらに、各「感情種別グループ」に属している感情種別の数は、予め設定された感情種別数(7つ)を必ず下回るのであるから、第2パスである上記(B)の感情種別推定部(G1用感情種別推定部12G1,G3用感情種別推定部12G3)においても、識別しなければならない感情種別の数(クラス数)は必ず、予め設定された感情種別数(7つ)よりも少ない数(本実施形態ではいずれも2つ)となる。
【0032】
したがって、感情推定モデル1において実施される推定(識別)処理のいずれにおいても、予め設定された感情種別の数(7つ)よりも少ない数のクラスの識別を行うことになり、その推定(識別)精度は大きく向上する。これにより、予め設定された感情種別の数(7つ)だけのクラスの識別を行わなければならない従来技術と比較して、最終的な感情推定の精度をより高めることが可能となる。
【0033】
言い換えると、感情推定モデル1はツーパス感情識別方式を採ることによって、第1パスおよび第2パスの各々での推定(識別)処理における識別すべきクラス数を低減させることができ、これにより、より多い感情種別数、例えば(従来の典型数である4つよりも多い)7つの感情種別を、(7つをいきなり識別することになる)従来技術よりも高い精度で識別することができるのである。
【0034】
また、ツーパスで実施されるいずれの推定(識別)処理においても、識別すべきクラス数をより小さく抑えることができるので、本実施形態の感情推定モデル1においては、感情種別推定処理全体で費やされる処理時間やメモリ量をより低減することも可能となっている。
【0035】
さらに本実施形態においては、上記(A)における「感情種別グループ」の設定に用いる「感情に係る所定の判断基準」として、
・2つの感情種別が、(a)ポジティブなものかネガティブなものかの観点、及び(b)活発に働くものか不活発なものかの観点からして近い関係にあれば、これら2つの感情種別は同じ「感情種別グループ」に属する、とする
判断基準を採用している。なお後に詳しく説明するが、上記の観点(a)及び観点(b)のいずれか一方のみを用いて判断することも可能となっている。
【0036】
ここで、上記2つの観点(a)及び(b)からの感情種別のマッピングは、後に
図2(A)を用いて詳細に説明するが、感情を分類して扱う必要のある様々な分野において信頼される手法として広く利用されている感情価・覚醒度マッピング(valence and arousal mapping)に相当するものとなる。具体的に、この感情価・覚醒度マッピングは、情動の方向性を示す感情価(valence)の軸と、情動の強さを示す覚醒度(arousal)の軸とが張る2次元感情空間である感情価・覚醒度マップに対し、感情種別を位置づけるものとなっている。
【0037】
本実施形態の感情推定モデル1においては、2つの感情種別が、分類における高い信頼性の期待される上記の感情価・覚醒度マップ内で互いに近い位置関係にある場合に、これら2つの感情種別は同じ「感情種別グループ」に属すると判断することを通して、複数の「感情種別グループ」が設定されている。したがって、第1パスである感情種別グループ推定部11における「感情種別グループ」の識別結果はより蓋然性の高いものとなり、その精度は、より向上することが期待されるのである。
【0038】
ちなみに、感情推定モデル1の上記構成(A)及び(B)は、当該モデルを実現する機械学習アルゴリズムを具現したプログラムの構成や(学習パラメータを含む)構造を表現したものである。ここで本実施形態において採用されている機械学習アルゴリズムは、本技術分野において先進的とされている全結合型のDNN(Deep Neural Networks)であり、当該モデルでの推定精度の向上を含む高性能化に資するものとなっている。
【0039】
ただし当然に、感情推定モデル1を実現する機械学習アルゴリズムは、DNNに限定されるものではない。しかしながら、音声データから抽出した感情に係る特徴量を取り扱うことを考慮すると、上記構成(A)及び(B)の各々は、DNNを含めニューラルネットワーク(NN,Neural Networks)で構成されることも好ましいのである。
【0040】
また、感情推定モデル1は上述したように、本実施形態においてツーパス(2パス)感情識別方式を採用しているが、勿論、3パス以上の方式も実施可能となっている。例えば3パスの場合、上記(B)の感情種別推定部において、「感情種別グループ」の中に更に「感情種別サブグループ」を予め設定しておき、入力された音声データに係る発話者の感情が、
(2パス目)いずれの「感情種別サブグループ」に属するかを識別して推定し、さらに、
(3パス目)複数の感情種別を含んでいる「感情種別サブグループ」について、当該複数の感情種別のうちのいずれに該当するかを更に識別して推定する
といった処理を行うことになる。言い換えると、上記(A)及び(B)の構成は、3パス以上の感情識別方式も包含するものとなっているのである。
【0041】
さらに、感情推定モデル1は、本実施形態では最終的に7つの感情種別を識別するものとなっているが、勿論(学習データを用意できればではあるが)、8つ以上の感情種別を識別するものとして構築されることも可能となっている。
【0042】
ここで、実際の感情推定技術のアプリケーションにおいては、より多くの種別数の感情種別が識別されて、妥当な且つ十分に受け入れられる感情推定結果の取得されることが望まれている。すなわち、例えばユーザのより詳細な感情状態を提供サービスに反映させるべく、十分に高い精度で推定可能な感情の粒度を、より高めることが要望されている。感情推定モデル1は、適切な訓練を行うことによって、このような要望を十分にクリアするアウトプットを行うことも可能となっているのである。
【0043】
図2は、本発明に係る感情種別グループの設定における種々の態様を説明するための模式図である。
【0044】
最初に、グループ分けすべき(且つ最終的に識別すべき)感情種別として、「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の7つが採用されている。これらは、現在最高水準の感情ラベル付き英語音声データコーパスとされているIEMOCAP(Interactive Emotional dyadic MOtion CAPture)データベースにおいて、音声データ(学習データ)に付与された7種の感情ラベル(正解ラベル)に相当するものである。
【0045】
図2(A)に示したグループ分けの態様においては、まず、これら7つの感情種別を感情価・覚醒度マップに対し位置づけている。具体的には、各感情種別の有する
(a)ポジティブやネガティブといった情動の方向性を示す感情価(valence)、及び
(b)覚醒や鎮静といった情動の強さを示す覚醒度(arousal)
を決定し、それに基づき、感情価(valence)軸と覚醒度(arousal)軸とが張る感情価・覚醒度マップに対し感情種別を位置づけている。ここで、この位置づけは、感情価・覚醒度マッピング(valence and arousal mapping)を用いた公知の様々な感情分類結果を参照して実施してもよく、または、各感情種別の感情価(valence)及び覚醒度(arousal)を独自の基準の下で決定した上で実施することも可能である。
【0046】
次いで同じく
図2(A)に示すように、感情価・覚醒度マップにおける各感情種別の位置に基づき、これら7つの感情種別を、複数の(
図2(A)では5つの)感情種別グループに分類する。ここで本態様において、これらの感情種別は、感情価・覚醒度マップにおいて、
(a)第1象限に位置する感情種別(「喜び」,「興奮」)の属する感情種別グループG1、
(b)第3象限に位置する感情種別(「悲しみ」)の属する感情種別グループG2、
(c)第2象限に位置する感情種別(「怒り」,「不満」)の属する感情種別グループG3、
(d)当該マップ上では位置づけられないとする感情種別(「その他」)の属する感情種別グループG4、及び
(e)当該マップの原点位置に相当する感情種別(「ニュートラル」)の属する感情種別グループG5
の5つに分類されている。すなわち本態様においては、同じ象限に位置する感情種別は「互いに近い関係にある」としてグループ分けを行っているのである。
【0047】
また、グループ分けの他の態様として、感情価・覚醒度マップ(2次元感情空間)で距離を定義しておき、互いの距離が所定閾値以下の感情種別、又は基準点から所定距離範囲内に入る感情種別を、1つの感情種別グループとして設定してよい。
【0048】
また、グループ分けの更なる他の態様として
図2(B)に示すように、感情種別を、感情価(valence)軸によって規定される感情価(valence)マップ(1次元感情空間)に対して位置づけ、次いで、互いの距離が所定閾値以下の感情種別、又は基準点から所定距離範囲内に入る感情種別を1つの感情種別グループとして、グループ分けを実施することもできる。ここで
図2(B)では、「その他」を含め、4つの感情種別グループが設定されている。
【0049】
さらに、グループ分けの更なる他の態様として
図2(C)に示すように、感情種別を、覚醒度(arousal)軸によって規定される覚醒度(arousal)マップ(1次元感情空間)に対して位置づけ、上記と同様にグループ分けすることも可能である。ここで
図2(C)では、「その他」を含め、3つの感情種別グループが設定されている。
【0050】
以上、
図2(A)~(C)を用いて、感情種別グループ設定の様々な態様を説明したが、いずれにしても、感情価(valence)や覚醒度(arousal)といった、それによる感情分類の信頼性が高く実績もある指標に基づいてグループ分けを実施している。その結果、蓋然性が高い若しくは尤もらしい感情種別グループを設定することができ、これにより、最終的な感情種別識別の精度が向上することも見込まれるのである。
【0051】
[モデル構成,感情推定プログラム,感情推定方法]
図1に戻って、以下、感情推定モデル1の本実施形態における具体的構成について説明を行う。感情推定モデル1は、感情推定装置9に搭載された本発明による感情推定プログラムに取り込まれて感情推定処理の主要ステップを実行可能にするモデルであり、その構成要素として、入力部10と、感情種別グループ推定部11と、G1用感情種別推定部12G1と、G3用感情種別推定部12G3と、出力部13とを備えており、言い換えると、これらの機能構成部としてコンピュータを機能させる。ここで、
図1の感情推定モデル1におけるこれらの機能構成部間を矢印で接続して示した処理の流れは、本発明による感情推定方法の一実施形態としても理解される。
【0052】
以下、上述した各機能構成部について説明を行う。最初に、入力部10は、本実施形態において全結合型DNNの入力層を含み、感情推定対象である発話者の音声に係る音声データを取り込み、当該音声データを、感情種別グループ推定部11及び各感情種別推定部(G1用感情種別推定部12G1,G3用感情種別推定部12G3)へ入力する。ここで、当該音声データは、例えば、様々な協会・組織によって提供されている学習データ源としての感情ラベル付き音声データコーパス、例えばIEMOCAP、に収められている音声データと同様の形式のデータとすることができる。
【0053】
同じく
図1において、感情種別グループ推定部11は、入力部10から受け取った音声データに係る発話者の感情が、予め設定された感情種別グループG1~G5のうちのいずれに属するかを推定する。
【0054】
より具体的に、感情種別グループ推定部11は、本実施形態において全結合型DNNにおける(例えば3層の)隠れ層及び出力層(例えばsoftmax層)を含み、例えば各感情種別グループ(G1,・・・,G5)についてのスコア(発話者の感情が当該感情種別グループに属することの確からしさを表す数値)の組を出力することができる。または、発話者の感情がそこに属する確度の最も高い(スコアの最も高い)感情種別グループ(G1~G5のいずれか)を出力してもよい。
【0055】
また、本実施形態の感情種別グループ推定部11は、例えばIEMOCAP等の音声データコーパスから取得される(正解)感情ラベル付き音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練(学習)されたものとすることができる。
【0056】
ここで、感情種別グループ推定部11は、入力された音声データから推定した(スコアの最も高い)感情種別グループが、1つの感情種別のみを含んでいる感情種別グループである場合(本実施形態では感情種別グループG2、G4又はG5である場合)、この1つの感情種別を、当該音声データに係る発話者(感情推定対象)の感情が該当する感情種別として出力部13へ出力する。具体的には、識別(推定)した感情種別グループがG2ならば「悲しみ」を、G4ならば「その他」を、さらに、G5ならば「ニュートラル」を感情種別推定結果として出力部13へ出力するのである。
【0057】
一方、感情種別グループ推定部11は、入力された音声データから推定した(スコアの最も高い)感情種別グループが、複数の感情種別を含んでいる感情種別グループである場合(本実施形態では感情種別グループG1又はG3である場合)、当該感情種別グループ用に予め設定された感情種別推定部に対し、感情種別推定処理を実施させる。具体的には、識別(推定)した感情種別グループがG1ならばG1用感情種別推定部12G1に対し、G3ならばG3用感情種別推定部12G3に対し、入力された音声データについての感情種別推定処理を実施させるのである。
【0058】
同じく
図1において、G1用感情種別推定部12G1は、感情種別グループ推定部11によって感情種別グループG1(に属する感情種別)に該当するとされた音声データを、入力部10から入力として受け取り、受け取った(入力された)音声データに係る発話者の感情が、感情種別グループG1に属する感情種別である「喜び」及び「興奮」のうちのいずれに該当するかを識別して推定する。
【0059】
より具体的に、G1用感情種別推定部12G1は、本実施形態において全結合型DNNにおける(例えば3層の)隠れ層及び出力層(例えばsoftmax層)を含み、例えば「喜び」及び「興奮」の各々についてのスコア(発話者の感情が当該感情種別に該当することの確からしさを表す数値)の組を出力することができる。または、発話者の感情がそれに該当する確度の最も高い(スコアの最も高い)感情種別(「喜び」又は「興奮」)を出力してもよい。ここでいずれにしても、出力部13へは確度の最も高い(スコアの最も高い)感情種別が出力されるのである。
【0060】
また、本実施形態のG1用感情種別推定部12G1は、例えばIEMOCAP等の音声データコーパスから取得される音声データ群であって、(それを入力とした感情種別グループ推定部11によって)感情種別グループG1に該当するとされた(正解)感情ラベル付き音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練(学習)されたものとすることができる。すなわちこの場合、学習データは、感情種別グループ推定部11で選別(ラベル付け)されたものを用いることになるが、G1用感情種別推定部12G1の訓練処理そのものは、感情種別グループ推定部11とは独立して実施されるのである。
【0061】
または訓練の変更態様として、G1用感情種別推定部12G1は、音声データコーパスから取得される音声データ群のうち、「喜び」ラベル又は「興奮」ラベルの付与されている音声データを用いて訓練(学習)されたものとすることも可能である。すなわち、学習データについても感情種別グループ推定部11での処理とは無関係に選択して、G1用感情種別推定部12G1の訓練処理を完全に独立させて実施することも可能となっている。
【0062】
同じく
図1において、G3用感情種別推定部12G3は、感情種別グループ推定部11によって感情種別グループG3(に属する感情種別)に該当するとされた音声データを、入力部10から入力として受け取り、受け取った(入力された)音声データに係る発話者の感情が、感情種別グループG3に属する感情種別である「怒り」及び「不満」のうちのいずれに該当するかを識別して推定する。
【0063】
より具体的に、G3用感情種別推定部12G3も、本実施形態において上記のG1用感情種別推定部12G1と同様、全結合型DNNにおける(例えば3層の)隠れ層及び出力層(例えばsoftmax層)を含み、例えば「怒り」及び「不満」の各々についてのスコア(発話者の感情が当該感情種別に該当することの確からしさを表す数値)の組を出力することができる。または、発話者の感情がそれに該当する確度の最も高い(スコアの最も高い)感情種別(「怒り」又は「不満」)を出力してもよい。
【0064】
また、本実施形態のG3用感情種別推定部12G3についても、上記のG1用感情種別推定部12G1と同様、(感情種別グループ推定部11によって)感情種別グループG3に該当するとされた音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練(学習)されたものとすることができる。すなわち、G3用感情種別推定部12G3の訓練処理そのものも、感情種別グループ推定部11とは独立して実施されるのである。または変更態様として、学習データについても感情種別グループ推定部11での処理とは無関係に選択して、G3用感情種別推定部12G3の訓練処理を完全に独立させて実施することも可能である。
【0065】
以上説明したように、感情種別推定部(G1用感情種別推定部12G1,G3用感情種別推定部12G3)は、入力された音声データに係る発話者の感情が、自らに対応する感情種別グループに属する感情種別のうちのいずれに該当するかを識別して推定する。ここで、感情種別推定部へ入力された音声データに係る発話者の感情については、当該感情種別推定部に係る感情種別グループに属している確度が十分に高くなっている。またさらに、この感情種別グループに属する感情種別の数(
図1ではいずれも2つ)は、予め設定された感情種別数(7つ)を必ず下回っている。その結果、感情種別推定部(G1用感情種別推定部12G1,G3用感情種別推定部12G3)における感情種別識別の精度は、十分に高いものとなるのである。
【0066】
同じく
図1において、出力部13は、
(a)感情種別グループ推定部11で推定(識別)された感情種別グループが感情種別を1つだけ含むものである場合に、この感情種別グループ推定部11から感情種別推定結果を受け取り、また、
(b)感情種別グループ推定部11で推定(識別)された感情種別グループが複数の感情種別を含むものである場合に、当該感情種別グループに係る感情種別推定部(G1用感情種別推定部12G1、又はG3用感情種別推定部12G3)から感情種別推定結果を受け取り、
受け取った感情種別推定結果としての感情種別を、入力された音声データに係る発話者の感情が該当するものとして外部へ出力する。
【0067】
ここで、上記(a)の感情種別推定結果も上記(b)の感情種別推定結果もともに、予め設定された感情種別数(7つ)よりも少ない数のクラスを識別する処理によって生成されたものであり、より確度の高いものとなっている。その結果、出力部13が出力する感情種別も、十分に高い精度(正解率)を有するものとなっているのである。
【0068】
[感情推定装置]
次に、以上に説明したような感情推定モデル1を搭載し、入力された音声データに係る発話者の感情を推定可能とする感情推定装置9について説明する。
【0069】
同じく
図1において、感情推定装置9は、入力部91と、訓練部92と、感情推定部93と、出力部94とを備えており、このうち訓練部92及び感情推定部93は、本発明による感情推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることができる。またこのことから、感情推定装置9は、感情推定の専用装置であってもよいが、本発明による感情推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。
【0070】
同じく
図1において、感情推定装置9の入力部91は、通信機能を備えていて、例えば外部の音声データコーパスから(正解)感情ラベルの付された音声データ群を受信し、訓練部92に保存させる。また、例えば外部のマイクと接続されていて、感情推定対象である発話者の音声を受け取った当該マイクから音声データを取得し、推定(識別)処理用のデータ形式への変換処理を施した上で、当該音声データを感情推定部93へ出力する。ここで、入力部91は、当該データ形式への変換処理を施した音声データに対し、(外部から指定された正解の)感情ラベルを付与した上で、このラベル付与済みの当該音声データを学習データとして訓練部92に保存させてもよい。
【0071】
また変更態様として、入力部91は、例えば感情推定対象のユーザ(例えば通話相手)の電話端末から、又は感情推定対象のユーザ(例えばコールセンターへの問合せ者)の電話端末と通話接続している外部の電話端末から、当該ユーザの音声データを取得することも好ましい。
【0072】
訓練部92は、自ら保存している(正解)感情ラベル付き音声データ群を用いてモデル構築(訓練)処理を行い、感情推定モデル1を構築して、感情推定部93へ出力する。
【0073】
感情推定部93は、入力部91より受け取った、感情推定対象である発話者の音声データを、訓練部92より受け取った訓練(学習)済みの感情推定モデル1へ入力し、その出力として、予め設定された感情種別(本実施形態では「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の7つ)のうちの推定結果としての1つを取得し、出力部94へ出力する。またさらに、感情推定モデル1から各感情種別の(最終的に又は各段階で付された)スコアを取得し、出力部94へ出力してもよい。
【0074】
出力部94は、受け取った感情推定結果(推定結果としての感情種別やスコア)を例えば、ディスプレイに表示させたり、(通信機能を備えている場合に)外部の情報処理装置に送信したりすることができる。ここで、表示・送信される感情推定結果は、例えば「(入力された音声データに係る)ユーザは、発話時点において「喜び」の状態にある」旨の情報となる。
【0075】
[実施例]
図3は、感情推定モデル1を用いて実際に感情推定処理を行った実施例、及びその評価のための比較例を説明するためのテーブル及びグラフである。
【0076】
最初に
図3(A)のテーブルには、本実施例を評価するための比較例として、入力層、3層の隠れ層、及び出力層からなる従来の全結合型DNNアルゴリズムによる感情推定モデルを用いて実施された感情種別推定実験の結果が示されている。ここで、当該モデルの訓練は、IEMOCAPデータベースから取得された感情ラベル付き音声データ群を用いて実施された。
【0077】
具体的に本比較例においては、当該モデルへ入力した、数百個の音声データの各々に係る発話者の感情が、
(a)「喜び」、「悲しみ」、「怒り」、及び「ニュートラル」の4つのうちのいずれに該当するか、
(b)「喜び」、「悲しみ」、「怒り」、「不満」、及び「ニュートラル」の5つのうちのいずれに該当するか、
(c)「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、及び「ニュートラル」の6つのうちのいずれに該当するか、及び
(d)「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の7つのうちのいずれに該当するか
を推定し、(a)~(d)それぞれの場合の正解率(accuracy)を調査した。
【0078】
その結果、
図3(A)のテーブルに示されたように、従来の典型数である感情種別が4つの場合において、正解率は64.3%と最も高くなったが、感情種別数が増えるにしたがって正解率は低下し、感情種別が7つの場合、正解率は41.5%にまで悪化した。この正解率は、感情推定技術のアプリケーションに求められる性能の観点からして非常に低いものとなっている。
【0079】
一方、本実施例においては、
図1に示した5つの感情種別グループG1~G5を設定した上で、IEMOCAPデータベースから取得された感情ラベル付き音声データ群を用いて、
図1に示した(隠れ層が3つの)感情種別グループ推定部11、(同じく隠れ層が3つの)G1用感情種別推定部12G1、及び(同じく隠れ層が3つの)G3用感情種別推定部12G3を含む、全結合型DNNアルゴリズムによる感情推定モデル1を構築し、当該モデルを用いて感情種別推定実験を行った。
【0080】
具体的に本実施例では、当該モデルへ入力した数百個の音声データの各々に係る発話者の感情が、
・上記(c)の6つの感情種別のうちのいずれに該当するか、及び
・上記(d)の7つの感情種別のうちのいずれに該当するか
を推定し、それぞれの場合の正解率(accuracy)を調査した。
【0081】
その結果、
図3(B)のヒストグラムに示されたように、本実施例では、感情種別数が6つの場合に正解率は53.9%となり、比較例(46.8%)を大きく上回った。さらに、感情種別数が7つの場合でも正解率は47.1%に達し、アプリケーション上問題があるとされた比較例(41.5%)からすると大幅に向上した正解率が得られた。
【0082】
以上、本発明による感情推定モデル1は、従来の典型数(4つ)を上回る例えば6つや7つの感情種別についても、より高い正解率(accuracy)をもって識別することが可能となっていることが分かる。すなわち、音声データに係る発話者の感情を、より高い精度をもってより高い粒度で推定することができるのである。
【0083】
以上詳細に説明したように、本発明によれば、複数の感情種別グループを設定し、いずれのパス(段階)においても予め設定された感情種別の数よりも少ない数のクラスの識別処理を実施するので、より多い感情種別数、例えば(従来の典型的な数である4つを上回る)7つの感情種別を、(7つをいきなり識別することになる)従来技術よりも高い精度で識別することができる。
【0084】
さらに、本発明によれば、十分に高い精度で推定可能な感情の粒度を、より高めることも可能となる。したがって、例えばユーザのより詳細な感情状態を提供サービスに反映させる必要がある事業分野、例えば医療、介護、コールセンター等の顧客対応、教育や、各種公共サービス、さらにはマーケティング等の分野において、その提供サービスの質の向上に貢献することも可能となるのである。
【0085】
また、例えば子供達に対し質の高い、且つ個々の感情の傾向に合った教育を提供するために、本発明によって取得された当該子供達の(その発話音声から推定した)感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標4「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。
【0086】
さらに、例えば大人達に対し、環境に害を及ぼさないディーセント・ワーク(働きがいのある人間らしい仕事)や、質の高い、且つ個々の感情の傾向に合った仕事を提供するために、本発明によって取得された当該大人達の(その発話音声から推定した)感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標8「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。
【0087】
またさらに、例えば消費者達に対し、個々の感情の傾向に沿った、持続可能な消費とライフスタイルについての教育を提供するために、本発明によって取得された当該消費者の(その発話音声から推定した)感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標12「持続可能な消費と生産のパターンを確保する」に貢献することも可能となるのである。
【0088】
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0089】
1 感情推定モデル
10 入力部
11 感情種別グループ推定部
12G1 G1用感情種別推定部(感情種別推定部)
12G3 G3用感情種別推定部(感情種別推定部)
13 出力部
9 感情推定装置
91 入力部
92 訓練部
93 感情推定部
94 出力部