特許7453169 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ＫＤＤＩ株式会社の特許一覧

特許7453169感情種別グループの識別を介して感情推定を行うモデル、装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-11

(45)【発行日】2024-03-19

(54)【発明の名称】感情種別グループの識別を介して感情推定を行うモデル、装置及び方法

(51)【国際特許分類】

G10L 15/10 20060101AFI20240312BHJP

G10L 15/16 20060101ALI20240312BHJP

【ＦＩ】

G10L15/10 500N

G10L15/16

【請求項の数】 8

(21)【出願番号】P 2021027213

(22)【出願日】2021-02-24

(65)【公開番号】P2022128796

(43)【公開日】2022-09-05

【審査請求日】2023-02-10

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100135068

【弁理士】

【氏名又は名称】早原茂樹

(74)【代理人】

【識別番号】100141313

【弁理士】

【氏名又は名称】辰巳富彦

(72)【発明者】

【氏名】イラクレウスパニコス

【審査官】渡部幸和

(56)【参考文献】

【文献】特開２０２０－１８７２６２（ＪＰ，Ａ）

【文献】特開２０１５－１４８７１２（ＪＰ，Ａ）

【文献】国際公開第２０１８／１６８３６９（ＷＯ，Ａ１）

【文献】Two-stage Classification of Emotional Speech，International Conference on Digital Telecommunications (ICDT'06)，IEEE，2006年09月18日

【文献】Ｗｅｂから獲得した感情生起要因コーパスに基づく感情推定，情報処理学会論文誌論文誌ジャーナルＶｏｌ．５０Ｎｏ．４［ＣＤ－ＲＯＭ］ IPSJ Journal，2009年04月15日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータを機能させる感情推定モデルであって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、前記複数の感情種別を、感情に係る所定の２つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定する感情種別グループ推定部と、
前記複数の感情種別グループのうち、複数の感情種別が属している感情種別グループの各々について設けられた感情種別推定部であって、入力された当該音声データに係る発声主体の感情が、当該感情種別グループに属している複数の感情種別であって、当該２つの判断基準の両方からして互いに近い関係にある複数の感情種別のうちのいずれに該当するかを推定する少なくとも１つの感情種別推定部と
してコンピュータを機能させることを特徴とする感情推定モデル。

【請求項2】

当該２つの判断基準は、当該感情種別がポジティブなものかネガティブなものかの判断基準、及び当該感情種別が活発に働くものか不活発なものかの判断基準であることを特徴とする請求項１に記載の感情推定モデル。

【請求項3】

前記複数の感情種別は、「喜び」、「興奮」、「怒り」、及び「不満」を含み、前記複数の感情種別グループは、「喜び」及び「興奮」の属するグループ、並びに「怒り」及び「不満」の属するグループを含み、
当該感情種別推定部の１つは、入力された当該音声データに係る発声主体の感情が、当該２つの判断基準の両方に関して近い関係にある「喜び」及び「興奮」のうちのいずれに該当するかを推定し、当該感情種別推定部の他の１つは、入力された当該音声データに係る発声主体の感情が、当該２つの判断基準の両方に関して近い関係にある「怒り」及び「不満」のうちのいずれに該当するかを推定する
ことを特徴とする請求項１又は２に記載の感情推定モデル。

【請求項4】

前記感情種別グループ推定部によって推定された当該感情種別グループが、１つの感情種別のみを含んでいる感情種別グループである場合、該１つの感情種別を、当該音声データに係る発声主体の感情が該当する感情種別とすることを特徴とする請求項１から３のいずれか１項に記載の感情推定モデル。

【請求項5】

１つの感情種別グループについて設けられた当該感情種別推定部は、前記感情種別グループ推定部へ入力され、該感情種別グループ推定部によって該１つの感情種別グループに該当すると推定された複数の音声データを用いて訓練されることを特徴とする請求項１から４のいずれか１項に記載の感情推定モデル。

【請求項6】

前記感情種別グループ推定部及び前記少なくとも１つの感情種別推定部は、全結合型深層ニューラルネットワーク・アルゴリズムを用いて構築されていることを特徴とする請求項１から５のいずれか１項に記載の感情推定モデル。

【請求項7】

請求項１から６のいずれか１項に記載された感情推定モデルを用いて、入力された音声データから、当該音声データに係る発声主体に係る当該感情種別を推定することを特徴とする感情推定装置。

【請求項8】

入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータによって実施される感情推定方法であって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、前記複数の感情種別を、感情に係る所定の２つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定するステップと、
前記ステップで、当該音声データに係る発声主体の感情がそこに属すると推定された当該感情種別グループに、複数の感情種別が属している場合、該音声データに係る発声主体の感情が、当該２つの判断基準の両方からして互いに近い関係にある該複数の感情種別のうちのいずれに該当するかを推定するステップと
を有することを特徴とする感情推定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声から、当該音声の発声主体に係る情報を推定する技術に関する。

【背景技術】

【0002】

現在、発話者（発声主体）の感情をその音声から推定する感情推定技術が大いに注目されている。このような感情推定技術は、例えば非特許文献１でも述べられているように今後、ユーザ（人間）とコンピュータとが関わり合う場面でより重要な役割を果たすことが予測される。

【0003】

例えば、警察や救急病院等への通報がなされた緊急事態において、通報者の電話での音声からその感情状態をコンピュータが瞬時に推定できれば、その感情推定結果に基づき、より適切な対応や配慮が可能となる。また、例えば対話ロボットが、対話先のユーザの感情状態を推定することにより、その感情に合った動作・振る舞いを実施することもできる。さらには、コールセンターにおいてオペレータが、電話対応先である顧客の感情状態をコンピュータ経由で認識できれば、例えば当該顧客の満足度を的確に把握することも可能となるのである。

【0004】

このような音声による感情推定技術の研究では従来、音声特徴量を如何に抽出するか、また如何なる識別・分類器を採用するかが重要な課題となってきた。このうち特徴量抽出については、メル周波数ケプストラム係数（ＭＦＣＣ，Mel-Frequency Cepstral Coefficients）、pitch、i-vectorsや、ＬＬＤ（Low-Level Descriptors）等の手法が開発されてきた。

【0005】

一方、識別・分類器については当初、混合ガウスモデル（ＧＭＭ，Gaussian Mixture Models）、サポートベクタマシン（ＳＶＭ，Support Vector Machines）や、ニューラルネットワーク（ＮＮ，Neural Networks）等のアルゴリズムが用いられてきたが、最近では多くの場合、深層ニューラルネットワーク（ＤＮＮ，Deep Neural Networks）を採用して研究が進められている。

【先行技術文献】

【非特許文献】

【0006】

【文献】C. Busso, M. Bulut, and S. Narayanan, “Toward Effective Automatic Recognition Systems of Emotion in Speech”, In Social emotions in nature and artifact: emotions in human and human-computer interaction, S. Marsella J. Gratch, Ed. Oxford University Press, pp.110-127, ２０１３年

【文献】Mustaqeem and S. Kwon, “CLSTM: Deep Feature-Based Speech Emotion Recognition Using the Hierarchical ConvLSTM Network”, Mathematics 2020, 8(12), 2133, ２０２０年, ＜https://doi.org/10.3390/math8122133＞

【文献】S. Koolagu di and K. Sreenivasa Rao, “Two stage emotion recognition based on speaking rate”, International Journal of Speech Technology 14(1), pp. 35-48, ２０１１年, ＜https://doi.org/10.1007/s10772-010-9085-x＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

このように好適な音声特徴量抽出手法の開発や識別・分類器の性能向上によって、音声による感情推定技術の研究は大いに発展してきた。しかしながら従来、識別すべき感情の種別（class）は多くの場合、少数にとどまっており、例えば典型例として非特許文献２における識別すべき感情種別は、「喜び（happy）」、「怒り（angry）」、「悲しみ（sad）」及び「ニュートラル（neutral）」の４つとなっている。

【0008】

これは、従来技術では依然、識別すべき感情種別の数を増やした場合に、感情識別の精度（正解率）が大幅に低下してしまう事実による。この点、本願発明者は、後に本発明の実施例に対する比較例として詳しく説明するが、ＤＮＮを用いた従来技術によって、現在最高水準の感情ラベル付き英語音声データコーパスとされているＩＥＭＯＣＡＰ（Interactive Emotional dyadic MOtion CAPture）データベースを用い、識別すべき感情種別が４つ、５つ、６つ及び７つの場合について、その推定した感情種別の正解率（accuracy）を調査した。

【0009】

その結果、従来の典型的な数である感情種別が４つの場合では、正解率は64.3％と最も高くなったが、感情種別数が増えるにしたがって正解率は低下し、感情種別が７つの場合、正解率は41.5％にまで悪化した。この正解率は、感情推定技術のアプリケーションに求められる性能の観点からして非常に低いものとなっている。

【0010】

ちなみに、実際の感情推定技術のアプリケーションにおいては、より多くの種別数の感情種別が識別されて、妥当な且つ十分に受け入れられる感情推定結果の取得されることが望まれている。すなわち、例えばユーザのより詳細な感情状態をサービスに反映させるべく、十分に高い精度で推定可能な感情の粒度を、より高めることが要望されているのである。

【0011】

ここで、非特許文献３に記載された感情推定技術は、４つを超える感情種別を識別するべく、入力された音声データを、その発話速度に基づいて３つのクラスタに分類し、その後、最終的な感情種別への分類を行う技術となっている。しかしながらこの技術において、分類の基準となっている発話速度は、発話者の感情状態以外の事情に強く依存するものであり、当該基準として相応しいものとは言えない。したがって、このような発話速度に基づいて実行されるクラスタ分類の段階においてすでに、最終的な感情種別の推定処理における精度（正解率）の向上は、望めないものとなってしまう。

【0012】

そこで、本発明は、発声主体の音声に基づきその感情を推定する処理において、より多い種別数の感情種別を、より高い精度で識別可能な感情推定モデル、感情推定装置、及び感情推定方法を提供することを目的とする。

【課題を解決するための手段】

【0013】

本発明によれば、入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータを機能させる感情推定モデルであって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、複数の感情種別を、感情に係る所定の２つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定する感情種別グループ推定部と、
上記の複数の感情種別グループのうち、複数の感情種別が属している感情種別グループの各々について設けられた感情種別推定部であって、入力された当該音声データに係る発声主体の感情が、当該感情種別グループに属している複数の感情種別であって、当該２つの判断基準の両方からして互いに近い関係にある複数の感情種別のうちのいずれに該当するかを推定する少なくとも１つの感情種別推定部と
してコンピュータを機能させる感情推定モデルが提供される。

【0014】

この本発明による感情推定モデルにおける好適な一実施形態として、当該２つの判断基準は、当該感情種別がポジティブなものかネガティブなものかの判断基準、及び当該感情種別が活発に働くものか不活発なものかの判断基準であることも好ましい。

【0015】

また、本発明による感情推定モデルにおいて、予め設定される複数の感情種別は、「喜び」、「興奮」、「怒り」、及び「不満」を含み、前記複数の感情種別グループは、「喜び」及び「興奮」の属するグループ、並びに「怒り」及び「不満」の属するグループを含み、当該感情種別推定部の１つは、入力された当該音声データに係る発声主体の感情が、当該２つの判断基準の両方に関して近い関係にある「喜び」及び「興奮」のうちのいずれに該当するかを推定し、当該感情種別推定部の他の１つは、入力された当該音声データに係る発声主体の感情が、当該２つの判断基準の両方に関して近い関係にある「怒り」及び「不満」のうちのいずれに該当するかを推定することも好ましい。

【0016】

さらに、本発明による感情推定モデルにおいて、感情種別グループ推定部によって推定された当該感情種別グループが、１つの感情種別のみを含んでいる感情種別グループである場合、この１つの感情種別を、当該音声データに係る発声主体の感情が該当する感情種別とすることも好ましい。

【0017】

また、本発明による感情推定モデルにおける訓練処理について、１つの感情種別グループについて設けられた当該感情種別推定部は、前記感情種別グループ推定部へ入力され、該感情種別グループ推定部によって該１つの感情種別グループに該当すると推定された複数の音声データを用いて訓練されることも好ましい。

【0018】

さらに、本発明による感情推定モデルにおいて、感情種別グループ推定部及び少なくとも１つの感情種別推定部は、全結合型ＤＮＮ（Deep Neural Networks，深層ニューラルネットワーク）アルゴリズムを用いて構築されていることも好ましい。

【0019】

本発明によれば、また、上述した感情推定モデルを用いて、入力された音声データから、当該音声データに係る発声主体に係る当該感情種別を推定する感情推定装置が提供される。

【0020】

本発明によれば、さらに、入力された音声データから、当該音声データに係る発声主体の感情が、予め設定された複数の感情種別のうちのいずれに該当するかを推定するコンピュータによって実施される感情推定方法であって、
入力された当該音声データに係る発声主体の感情が、当該感情種別の種別数よりも小さい数だけ設定された感情種別グループであって、複数の感情種別を、感情に係る所定の２つの判断基準の両方に同時に照らし合わせ、互いに近い関係にあるもの同士を同じグループとする形で分類した結果としての複数の感情種別グループのうちのいずれに属するかを推定するステップと、
上記のステップで、当該音声データに係る発声主体の感情がそこに属すると推定された当該感情種別グループに、複数の感情種別が属している場合、この音声データに係る発声主体の感情が、当該２つの判断基準の両方からして互いに近い関係にあるこれら複数の感情種別のうちのいずれに該当するかを推定するステップと
を有する感情推定方法が提供される。

【発明の効果】

【0021】

本発明による感情推定モデル、感情推定装置、及び感情推定方法によれば、発声主体の音声に基づきその感情を推定する処理において、より多い種別数の感情種別を、より高い精度で識別することが可能となる。

【図面の簡単な説明】

【0022】

【図1】本発明による感情推定モデル、及びこの感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。

【図2】本発明に係る感情種別グループの設定における種々の態様を説明するための模式図である。

【図3】本発明による感情推定モデルを用いて実際に感情推定処理を行った実施例、及びその評価のための比較例を説明するためのテーブル及びグラフである。

【発明を実施するための形態】

【0023】

以下、本発明の実施形態について、図面を用いて詳細に説明する。

【0024】

［感情推定モデル］
図１は、本発明による感情推定モデル、及びこの感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。

【0025】

図１に示した本実施形態の感情推定装置９は、発声主体（例えばロボットやボットでもあり得るが、ここでは以後、発話者とも称する）の発話音声を例えばマイクを介して取り込んで音声データとし、その音声データから、本発明による構築（学習）済みの感情推定モデル１を用いて発話者の感情を推定する装置である。より具体的には、当該発話者が発話時点において、如何なる感情種別（emotion class）に該当する感情状態にあるのかについての決定を行う。

【0026】

また同じく図１に示した本実施形態の感情推定モデル１は、入力された音声データから、当該音声データに係る発話者の感情が、予め設定された複数の感情種別、本実施形態では「喜び（happy）」、「興奮（excited）」、「悲しみ（sad）」、「怒り（angry）」、「不満（frustration）」、「その他（other）」、及び「ニュートラル（neutral）」の７つのうちのいずれに該当するかを識別して推定するように構築されている。その結果、本実施形態の感情推定装置９は、これら７つの感情種別のうちで発話者の感情に該当するものを、感情推定結果として出力することができるのである。

【0027】

ここで従来、音声による感情推定技術において、識別すべき感情の種別（class）は多くの場合、少数にとどまっており、例えば典型例として「喜び」、「怒り」、「悲しみ」及び「ニュートラル」の４つが用いられてきた。これは、従来技術では、識別すべき感情の種別数を増やした場合に、感情識別の精度（正解率，accuracy）が大幅に低下してしまう事実による。

【0028】

この精度低下の問題を解決するべく、感情推定モデル１はその特徴として、
（Ａ）入力された音声データに係る発話者の感情が、「感情に係る所定の判断基準」を用いて予め設定された「感情種別グループ」（本実施形態ではＧ１～Ｇ５の５つ）のうちのいずれに属するかを識別して推定する感情種別グループ推定部１１と、
（Ｂ）複数の「感情種別グループ」（Ｇ１～Ｇ５）のうち、複数の感情種別が属している「感情種別グループ」（本実施形態ではＧ１及びＧ３）の各々について設けられた感情種別推定部であって、入力された音声データに係る発話者の感情が、当該「感情種別グループ」に属している複数の感情種別のうちのいずれに該当するかを識別して推定する少なくとも１つの感情種別推定部（本実施形態ではＧ１用感情種別推定部１２Ｇ１、及びＧ３用感情種別推定部１２Ｇ３）と
してコンピュータを機能させるモデルとなっている。

【0029】

このように、感情推定モデル１は、上記（Ａ）及び（Ｂ）のツーパス感情識別方式（two-pass emotion recognition method）を実施可能となっているのである。

【0030】

ここで、第１パスである上記（Ａ）における「感情種別グループ」は、予め設定された複数の感情種別（本実施形態では上記の７つ）を「感情に係る所定の判断基準」によって分類した結果として設定されたグループであり、予め、感情種別の種別数（本実施形態では７つ）よりも小さい数（本実施形態では５つ）だけ設定されている。その結果、上記（Ａ）の感情種別グループ推定部１１において、識別しなければならないグループの数（クラス数）は必ず、予め設定された感情種別数（７つ）よりも少ない数（５つ）となる。

【0031】

さらに、各「感情種別グループ」に属している感情種別の数は、予め設定された感情種別数（７つ）を必ず下回るのであるから、第２パスである上記（Ｂ）の感情種別推定部（Ｇ１用感情種別推定部１２Ｇ１，Ｇ３用感情種別推定部１２Ｇ３）においても、識別しなければならない感情種別の数（クラス数）は必ず、予め設定された感情種別数（７つ）よりも少ない数（本実施形態ではいずれも２つ）となる。

【0032】

したがって、感情推定モデル１において実施される推定（識別）処理のいずれにおいても、予め設定された感情種別の数（７つ）よりも少ない数のクラスの識別を行うことになり、その推定（識別）精度は大きく向上する。これにより、予め設定された感情種別の数（７つ）だけのクラスの識別を行わなければならない従来技術と比較して、最終的な感情推定の精度をより高めることが可能となる。

【0033】

言い換えると、感情推定モデル１はツーパス感情識別方式を採ることによって、第１パスおよび第２パスの各々での推定（識別）処理における識別すべきクラス数を低減させることができ、これにより、より多い感情種別数、例えば（従来の典型数である４つよりも多い）７つの感情種別を、（７つをいきなり識別することになる）従来技術よりも高い精度で識別することができるのである。

【0034】

また、ツーパスで実施されるいずれの推定（識別）処理においても、識別すべきクラス数をより小さく抑えることができるので、本実施形態の感情推定モデル１においては、感情種別推定処理全体で費やされる処理時間やメモリ量をより低減することも可能となっている。

【0035】

さらに本実施形態においては、上記（Ａ）における「感情種別グループ」の設定に用いる「感情に係る所定の判断基準」として、
・２つの感情種別が、（ａ）ポジティブなものかネガティブなものかの観点、及び（ｂ）活発に働くものか不活発なものかの観点からして近い関係にあれば、これら２つの感情種別は同じ「感情種別グループ」に属する、とする
判断基準を採用している。なお後に詳しく説明するが、上記の観点（ａ）及び観点（ｂ）のいずれか一方のみを用いて判断することも可能となっている。

【0036】

ここで、上記２つの観点（ａ）及び（ｂ）からの感情種別のマッピングは、後に図２（Ａ）を用いて詳細に説明するが、感情を分類して扱う必要のある様々な分野において信頼される手法として広く利用されている感情価・覚醒度マッピング（valence and arousal mapping）に相当するものとなる。具体的に、この感情価・覚醒度マッピングは、情動の方向性を示す感情価（valence）の軸と、情動の強さを示す覚醒度（arousal）の軸とが張る２次元感情空間である感情価・覚醒度マップに対し、感情種別を位置づけるものとなっている。

【0037】

本実施形態の感情推定モデル１においては、２つの感情種別が、分類における高い信頼性の期待される上記の感情価・覚醒度マップ内で互いに近い位置関係にある場合に、これら２つの感情種別は同じ「感情種別グループ」に属すると判断することを通して、複数の「感情種別グループ」が設定されている。したがって、第１パスである感情種別グループ推定部１１における「感情種別グループ」の識別結果はより蓋然性の高いものとなり、その精度は、より向上することが期待されるのである。

【0038】

ちなみに、感情推定モデル１の上記構成（Ａ）及び（Ｂ）は、当該モデルを実現する機械学習アルゴリズムを具現したプログラムの構成や（学習パラメータを含む）構造を表現したものである。ここで本実施形態において採用されている機械学習アルゴリズムは、本技術分野において先進的とされている全結合型のＤＮＮ（Deep Neural Networks）であり、当該モデルでの推定精度の向上を含む高性能化に資するものとなっている。

【0039】

ただし当然に、感情推定モデル１を実現する機械学習アルゴリズムは、ＤＮＮに限定されるものではない。しかしながら、音声データから抽出した感情に係る特徴量を取り扱うことを考慮すると、上記構成（Ａ）及び（Ｂ）の各々は、ＤＮＮを含めニューラルネットワーク（ＮＮ，Neural Networks）で構成されることも好ましいのである。

【0040】

また、感情推定モデル１は上述したように、本実施形態においてツーパス（２パス）感情識別方式を採用しているが、勿論、３パス以上の方式も実施可能となっている。例えば３パスの場合、上記（Ｂ）の感情種別推定部において、「感情種別グループ」の中に更に「感情種別サブグループ」を予め設定しておき、入力された音声データに係る発話者の感情が、
（２パス目）いずれの「感情種別サブグループ」に属するかを識別して推定し、さらに、
（３パス目）複数の感情種別を含んでいる「感情種別サブグループ」について、当該複数の感情種別のうちのいずれに該当するかを更に識別して推定する
といった処理を行うことになる。言い換えると、上記（Ａ）及び（Ｂ）の構成は、３パス以上の感情識別方式も包含するものとなっているのである。

【0041】

さらに、感情推定モデル１は、本実施形態では最終的に７つの感情種別を識別するものとなっているが、勿論（学習データを用意できればではあるが）、８つ以上の感情種別を識別するものとして構築されることも可能となっている。

【0042】

ここで、実際の感情推定技術のアプリケーションにおいては、より多くの種別数の感情種別が識別されて、妥当な且つ十分に受け入れられる感情推定結果の取得されることが望まれている。すなわち、例えばユーザのより詳細な感情状態を提供サービスに反映させるべく、十分に高い精度で推定可能な感情の粒度を、より高めることが要望されている。感情推定モデル１は、適切な訓練を行うことによって、このような要望を十分にクリアするアウトプットを行うことも可能となっているのである。

【0043】

図２は、本発明に係る感情種別グループの設定における種々の態様を説明するための模式図である。

【0044】

最初に、グループ分けすべき（且つ最終的に識別すべき）感情種別として、「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の７つが採用されている。これらは、現在最高水準の感情ラベル付き英語音声データコーパスとされているＩＥＭＯＣＡＰ（Interactive Emotional dyadic MOtion CAPture）データベースにおいて、音声データ（学習データ）に付与された７種の感情ラベル（正解ラベル）に相当するものである。

【0045】

図２（Ａ）に示したグループ分けの態様においては、まず、これら７つの感情種別を感情価・覚醒度マップに対し位置づけている。具体的には、各感情種別の有する
（ａ）ポジティブやネガティブといった情動の方向性を示す感情価（valence）、及び
（ｂ）覚醒や鎮静といった情動の強さを示す覚醒度（arousal）
を決定し、それに基づき、感情価（valence）軸と覚醒度（arousal）軸とが張る感情価・覚醒度マップに対し感情種別を位置づけている。ここで、この位置づけは、感情価・覚醒度マッピング（valence and arousal mapping）を用いた公知の様々な感情分類結果を参照して実施してもよく、または、各感情種別の感情価（valence）及び覚醒度（arousal）を独自の基準の下で決定した上で実施することも可能である。

【0046】

次いで同じく図２（Ａ）に示すように、感情価・覚醒度マップにおける各感情種別の位置に基づき、これら７つの感情種別を、複数の（図２（Ａ）では５つの）感情種別グループに分類する。ここで本態様において、これらの感情種別は、感情価・覚醒度マップにおいて、
（ａ）第１象限に位置する感情種別（「喜び」,「興奮」）の属する感情種別グループＧ１、
（ｂ）第３象限に位置する感情種別（「悲しみ」）の属する感情種別グループＧ２、
（ｃ）第２象限に位置する感情種別（「怒り」,「不満」）の属する感情種別グループＧ３、
（ｄ）当該マップ上では位置づけられないとする感情種別（「その他」）の属する感情種別グループＧ４、及び
（ｅ）当該マップの原点位置に相当する感情種別（「ニュートラル」）の属する感情種別グループＧ５
の５つに分類されている。すなわち本態様においては、同じ象限に位置する感情種別は「互いに近い関係にある」としてグループ分けを行っているのである。

【0047】

また、グループ分けの他の態様として、感情価・覚醒度マップ（２次元感情空間）で距離を定義しておき、互いの距離が所定閾値以下の感情種別、又は基準点から所定距離範囲内に入る感情種別を、１つの感情種別グループとして設定してよい。

【0048】

また、グループ分けの更なる他の態様として図２（Ｂ）に示すように、感情種別を、感情価（valence）軸によって規定される感情価（valence）マップ（１次元感情空間）に対して位置づけ、次いで、互いの距離が所定閾値以下の感情種別、又は基準点から所定距離範囲内に入る感情種別を１つの感情種別グループとして、グループ分けを実施することもできる。ここで図２（Ｂ）では、「その他」を含め、４つの感情種別グループが設定されている。

【0049】

さらに、グループ分けの更なる他の態様として図２（Ｃ）に示すように、感情種別を、覚醒度（arousal）軸によって規定される覚醒度（arousal）マップ（１次元感情空間）に対して位置づけ、上記と同様にグループ分けすることも可能である。ここで図２（Ｃ）では、「その他」を含め、３つの感情種別グループが設定されている。

【0050】

以上、図２（Ａ）～（Ｃ）を用いて、感情種別グループ設定の様々な態様を説明したが、いずれにしても、感情価（valence）や覚醒度（arousal）といった、それによる感情分類の信頼性が高く実績もある指標に基づいてグループ分けを実施している。その結果、蓋然性が高い若しくは尤もらしい感情種別グループを設定することができ、これにより、最終的な感情種別識別の精度が向上することも見込まれるのである。

【0051】

［モデル構成，感情推定プログラム，感情推定方法］
図１に戻って、以下、感情推定モデル１の本実施形態における具体的構成について説明を行う。感情推定モデル１は、感情推定装置９に搭載された本発明による感情推定プログラムに取り込まれて感情推定処理の主要ステップを実行可能にするモデルであり、その構成要素として、入力部１０と、感情種別グループ推定部１１と、Ｇ１用感情種別推定部１２Ｇ１と、Ｇ３用感情種別推定部１２Ｇ３と、出力部１３とを備えており、言い換えると、これらの機能構成部としてコンピュータを機能させる。ここで、図１の感情推定モデル１におけるこれらの機能構成部間を矢印で接続して示した処理の流れは、本発明による感情推定方法の一実施形態としても理解される。

【0052】

以下、上述した各機能構成部について説明を行う。最初に、入力部１０は、本実施形態において全結合型ＤＮＮの入力層を含み、感情推定対象である発話者の音声に係る音声データを取り込み、当該音声データを、感情種別グループ推定部１１及び各感情種別推定部（Ｇ１用感情種別推定部１２Ｇ１，Ｇ３用感情種別推定部１２Ｇ３）へ入力する。ここで、当該音声データは、例えば、様々な協会・組織によって提供されている学習データ源としての感情ラベル付き音声データコーパス、例えばＩＥＭＯＣＡＰ、に収められている音声データと同様の形式のデータとすることができる。

【0053】

同じく図１において、感情種別グループ推定部１１は、入力部１０から受け取った音声データに係る発話者の感情が、予め設定された感情種別グループＧ１～Ｇ５のうちのいずれに属するかを推定する。

【0054】

より具体的に、感情種別グループ推定部１１は、本実施形態において全結合型ＤＮＮにおける（例えば３層の）隠れ層及び出力層（例えばsoftmax層）を含み、例えば各感情種別グループ（Ｇ１，・・・，Ｇ５）についてのスコア（発話者の感情が当該感情種別グループに属することの確からしさを表す数値）の組を出力することができる。または、発話者の感情がそこに属する確度の最も高い（スコアの最も高い）感情種別グループ（Ｇ１～Ｇ５のいずれか）を出力してもよい。

【0055】

また、本実施形態の感情種別グループ推定部１１は、例えばＩＥＭＯＣＡＰ等の音声データコーパスから取得される（正解）感情ラベル付き音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練（学習）されたものとすることができる。

【0056】

ここで、感情種別グループ推定部１１は、入力された音声データから推定した（スコアの最も高い）感情種別グループが、１つの感情種別のみを含んでいる感情種別グループである場合（本実施形態では感情種別グループＧ２、Ｇ４又はＧ５である場合）、この１つの感情種別を、当該音声データに係る発話者（感情推定対象）の感情が該当する感情種別として出力部１３へ出力する。具体的には、識別（推定）した感情種別グループがＧ２ならば「悲しみ」を、Ｇ４ならば「その他」を、さらに、Ｇ５ならば「ニュートラル」を感情種別推定結果として出力部１３へ出力するのである。

【0057】

一方、感情種別グループ推定部１１は、入力された音声データから推定した（スコアの最も高い）感情種別グループが、複数の感情種別を含んでいる感情種別グループである場合（本実施形態では感情種別グループＧ１又はＧ３である場合）、当該感情種別グループ用に予め設定された感情種別推定部に対し、感情種別推定処理を実施させる。具体的には、識別（推定）した感情種別グループがＧ１ならばＧ１用感情種別推定部１２Ｇ１に対し、Ｇ３ならばＧ３用感情種別推定部１２Ｇ３に対し、入力された音声データについての感情種別推定処理を実施させるのである。

【0058】

同じく図１において、Ｇ１用感情種別推定部１２Ｇ１は、感情種別グループ推定部１１によって感情種別グループＧ１（に属する感情種別）に該当するとされた音声データを、入力部１０から入力として受け取り、受け取った（入力された）音声データに係る発話者の感情が、感情種別グループＧ１に属する感情種別である「喜び」及び「興奮」のうちのいずれに該当するかを識別して推定する。

【0059】

より具体的に、Ｇ１用感情種別推定部１２Ｇ１は、本実施形態において全結合型ＤＮＮにおける（例えば３層の）隠れ層及び出力層（例えばsoftmax層）を含み、例えば「喜び」及び「興奮」の各々についてのスコア（発話者の感情が当該感情種別に該当することの確からしさを表す数値）の組を出力することができる。または、発話者の感情がそれに該当する確度の最も高い（スコアの最も高い）感情種別（「喜び」又は「興奮」）を出力してもよい。ここでいずれにしても、出力部１３へは確度の最も高い（スコアの最も高い）感情種別が出力されるのである。

【0060】

また、本実施形態のＧ１用感情種別推定部１２Ｇ１は、例えばＩＥＭＯＣＡＰ等の音声データコーパスから取得される音声データ群であって、（それを入力とした感情種別グループ推定部１１によって）感情種別グループＧ１に該当するとされた（正解）感情ラベル付き音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練（学習）されたものとすることができる。すなわちこの場合、学習データは、感情種別グループ推定部１１で選別（ラベル付け）されたものを用いることになるが、Ｇ１用感情種別推定部１２Ｇ１の訓練処理そのものは、感情種別グループ推定部１１とは独立して実施されるのである。

【0061】

または訓練の変更態様として、Ｇ１用感情種別推定部１２Ｇ１は、音声データコーパスから取得される音声データ群のうち、「喜び」ラベル又は「興奮」ラベルの付与されている音声データを用いて訓練（学習）されたものとすることも可能である。すなわち、学習データについても感情種別グループ推定部１１での処理とは無関係に選択して、Ｇ１用感情種別推定部１２Ｇ１の訓練処理を完全に独立させて実施することも可能となっている。

【0062】

同じく図１において、Ｇ３用感情種別推定部１２Ｇ３は、感情種別グループ推定部１１によって感情種別グループＧ３（に属する感情種別）に該当するとされた音声データを、入力部１０から入力として受け取り、受け取った（入力された）音声データに係る発話者の感情が、感情種別グループＧ３に属する感情種別である「怒り」及び「不満」のうちのいずれに該当するかを識別して推定する。

【0063】

より具体的に、Ｇ３用感情種別推定部１２Ｇ３も、本実施形態において上記のＧ１用感情種別推定部１２Ｇ１と同様、全結合型ＤＮＮにおける（例えば３層の）隠れ層及び出力層（例えばsoftmax層）を含み、例えば「怒り」及び「不満」の各々についてのスコア（発話者の感情が当該感情種別に該当することの確からしさを表す数値）の組を出力することができる。または、発話者の感情がそれに該当する確度の最も高い（スコアの最も高い）感情種別（「怒り」又は「不満」）を出力してもよい。

【0064】

また、本実施形態のＧ３用感情種別推定部１２Ｇ３についても、上記のＧ１用感情種別推定部１２Ｇ１と同様、（感情種別グループ推定部１１によって）感情種別グループＧ３に該当するとされた音声データ群を学習データとして用い、公知の誤差逆伝播法によって訓練（学習）されたものとすることができる。すなわち、Ｇ３用感情種別推定部１２Ｇ３の訓練処理そのものも、感情種別グループ推定部１１とは独立して実施されるのである。または変更態様として、学習データについても感情種別グループ推定部１１での処理とは無関係に選択して、Ｇ３用感情種別推定部１２Ｇ３の訓練処理を完全に独立させて実施することも可能である。

【0065】

以上説明したように、感情種別推定部（Ｇ１用感情種別推定部１２Ｇ１，Ｇ３用感情種別推定部１２Ｇ３）は、入力された音声データに係る発話者の感情が、自らに対応する感情種別グループに属する感情種別のうちのいずれに該当するかを識別して推定する。ここで、感情種別推定部へ入力された音声データに係る発話者の感情については、当該感情種別推定部に係る感情種別グループに属している確度が十分に高くなっている。またさらに、この感情種別グループに属する感情種別の数（図１ではいずれも２つ）は、予め設定された感情種別数（７つ）を必ず下回っている。その結果、感情種別推定部（Ｇ１用感情種別推定部１２Ｇ１，Ｇ３用感情種別推定部１２Ｇ３）における感情種別識別の精度は、十分に高いものとなるのである。

【0066】

同じく図１において、出力部１３は、
（ａ）感情種別グループ推定部１１で推定（識別）された感情種別グループが感情種別を１つだけ含むものである場合に、この感情種別グループ推定部１１から感情種別推定結果を受け取り、また、
（ｂ）感情種別グループ推定部１１で推定（識別）された感情種別グループが複数の感情種別を含むものである場合に、当該感情種別グループに係る感情種別推定部（Ｇ１用感情種別推定部１２Ｇ１、又はＧ３用感情種別推定部１２Ｇ３）から感情種別推定結果を受け取り、
受け取った感情種別推定結果としての感情種別を、入力された音声データに係る発話者の感情が該当するものとして外部へ出力する。

【0067】

ここで、上記（ａ）の感情種別推定結果も上記（ｂ）の感情種別推定結果もともに、予め設定された感情種別数（７つ）よりも少ない数のクラスを識別する処理によって生成されたものであり、より確度の高いものとなっている。その結果、出力部１３が出力する感情種別も、十分に高い精度（正解率）を有するものとなっているのである。

【0068】

［感情推定装置］
次に、以上に説明したような感情推定モデル１を搭載し、入力された音声データに係る発話者の感情を推定可能とする感情推定装置９について説明する。

【0069】

同じく図１において、感情推定装置９は、入力部９１と、訓練部９２と、感情推定部９３と、出力部９４とを備えており、このうち訓練部９２及び感情推定部９３は、本発明による感情推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることができる。またこのことから、感情推定装置９は、感情推定の専用装置であってもよいが、本発明による感情推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。

【0070】

同じく図１において、感情推定装置９の入力部９１は、通信機能を備えていて、例えば外部の音声データコーパスから（正解）感情ラベルの付された音声データ群を受信し、訓練部９２に保存させる。また、例えば外部のマイクと接続されていて、感情推定対象である発話者の音声を受け取った当該マイクから音声データを取得し、推定（識別）処理用のデータ形式への変換処理を施した上で、当該音声データを感情推定部９３へ出力する。ここで、入力部９１は、当該データ形式への変換処理を施した音声データに対し、（外部から指定された正解の）感情ラベルを付与した上で、このラベル付与済みの当該音声データを学習データとして訓練部９２に保存させてもよい。

【0071】

また変更態様として、入力部９１は、例えば感情推定対象のユーザ（例えば通話相手）の電話端末から、又は感情推定対象のユーザ（例えばコールセンターへの問合せ者）の電話端末と通話接続している外部の電話端末から、当該ユーザの音声データを取得することも好ましい。

【0072】

訓練部９２は、自ら保存している（正解）感情ラベル付き音声データ群を用いてモデル構築（訓練）処理を行い、感情推定モデル１を構築して、感情推定部９３へ出力する。

【0073】

感情推定部９３は、入力部９１より受け取った、感情推定対象である発話者の音声データを、訓練部９２より受け取った訓練（学習）済みの感情推定モデル１へ入力し、その出力として、予め設定された感情種別（本実施形態では「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の７つ）のうちの推定結果としての１つを取得し、出力部９４へ出力する。またさらに、感情推定モデル１から各感情種別の（最終的に又は各段階で付された）スコアを取得し、出力部９４へ出力してもよい。

【0074】

出力部９４は、受け取った感情推定結果（推定結果としての感情種別やスコア）を例えば、ディスプレイに表示させたり、（通信機能を備えている場合に）外部の情報処理装置に送信したりすることができる。ここで、表示・送信される感情推定結果は、例えば「（入力された音声データに係る）ユーザは、発話時点において「喜び」の状態にある」旨の情報となる。

【0075】

［実施例］
図３は、感情推定モデル１を用いて実際に感情推定処理を行った実施例、及びその評価のための比較例を説明するためのテーブル及びグラフである。

【0076】

最初に図３（Ａ）のテーブルには、本実施例を評価するための比較例として、入力層、３層の隠れ層、及び出力層からなる従来の全結合型ＤＮＮアルゴリズムによる感情推定モデルを用いて実施された感情種別推定実験の結果が示されている。ここで、当該モデルの訓練は、ＩＥＭＯＣＡＰデータベースから取得された感情ラベル付き音声データ群を用いて実施された。

【0077】

具体的に本比較例においては、当該モデルへ入力した、数百個の音声データの各々に係る発話者の感情が、
（ａ）「喜び」、「悲しみ」、「怒り」、及び「ニュートラル」の４つのうちのいずれに該当するか、
（ｂ）「喜び」、「悲しみ」、「怒り」、「不満」、及び「ニュートラル」の５つのうちのいずれに該当するか、
（ｃ）「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、及び「ニュートラル」の６つのうちのいずれに該当するか、及び
（ｄ）「喜び」、「興奮」、「悲しみ」、「怒り」、「不満」、「その他」、及び「ニュートラル」の７つのうちのいずれに該当するか
を推定し、（ａ）～（ｄ）それぞれの場合の正解率（accuracy）を調査した。

【0078】

その結果、図３（Ａ）のテーブルに示されたように、従来の典型数である感情種別が４つの場合において、正解率は64.3％と最も高くなったが、感情種別数が増えるにしたがって正解率は低下し、感情種別が７つの場合、正解率は41.5％にまで悪化した。この正解率は、感情推定技術のアプリケーションに求められる性能の観点からして非常に低いものとなっている。

【0079】

一方、本実施例においては、図１に示した５つの感情種別グループＧ１～Ｇ５を設定した上で、ＩＥＭＯＣＡＰデータベースから取得された感情ラベル付き音声データ群を用いて、図１に示した（隠れ層が３つの）感情種別グループ推定部１１、（同じく隠れ層が３つの）Ｇ１用感情種別推定部１２Ｇ１、及び（同じく隠れ層が３つの）Ｇ３用感情種別推定部１２Ｇ３を含む、全結合型ＤＮＮアルゴリズムによる感情推定モデル１を構築し、当該モデルを用いて感情種別推定実験を行った。

【0080】

具体的に本実施例では、当該モデルへ入力した数百個の音声データの各々に係る発話者の感情が、
・上記（ｃ）の６つの感情種別のうちのいずれに該当するか、及び
・上記（ｄ）の７つの感情種別のうちのいずれに該当するか
を推定し、それぞれの場合の正解率（accuracy）を調査した。

【0081】

その結果、図３（Ｂ）のヒストグラムに示されたように、本実施例では、感情種別数が６つの場合に正解率は53.9％となり、比較例（46.8％）を大きく上回った。さらに、感情種別数が７つの場合でも正解率は47.1％に達し、アプリケーション上問題があるとされた比較例（41.5％）からすると大幅に向上した正解率が得られた。

【0082】

以上、本発明による感情推定モデル１は、従来の典型数（４つ）を上回る例えば６つや７つの感情種別についても、より高い正解率（accuracy）をもって識別することが可能となっていることが分かる。すなわち、音声データに係る発話者の感情を、より高い精度をもってより高い粒度で推定することができるのである。

【0083】

以上詳細に説明したように、本発明によれば、複数の感情種別グループを設定し、いずれのパス（段階）においても予め設定された感情種別の数よりも少ない数のクラスの識別処理を実施するので、より多い感情種別数、例えば（従来の典型的な数である４つを上回る）７つの感情種別を、（７つをいきなり識別することになる）従来技術よりも高い精度で識別することができる。

【0084】

さらに、本発明によれば、十分に高い精度で推定可能な感情の粒度を、より高めることも可能となる。したがって、例えばユーザのより詳細な感情状態を提供サービスに反映させる必要がある事業分野、例えば医療、介護、コールセンター等の顧客対応、教育や、各種公共サービス、さらにはマーケティング等の分野において、その提供サービスの質の向上に貢献することも可能となるのである。

【0085】

また、例えば子供達に対し質の高い、且つ個々の感情の傾向に合った教育を提供するために、本発明によって取得された当該子供達の（その発話音声から推定した）感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標４「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。

【0086】

さらに、例えば大人達に対し、環境に害を及ぼさないディーセント・ワーク（働きがいのある人間らしい仕事）や、質の高い、且つ個々の感情の傾向に合った仕事を提供するために、本発明によって取得された当該大人達の（その発話音声から推定した）感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するＳＤＧｓの目標８「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。

【0087】

またさらに、例えば消費者達に対し、個々の感情の傾向に沿った、持続可能な消費とライフスタイルについての教育を提供するために、本発明によって取得された当該消費者の（その発話音声から推定した）感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するＳＤＧｓの目標１２「持続可能な消費と生産のパターンを確保する」に貢献することも可能となるのである。

【0088】

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

【符号の説明】

【0089】

１感情推定モデル
１０入力部
１１感情種別グループ推定部
１２Ｇ１Ｇ１用感情種別推定部（感情種別推定部）
１２Ｇ３Ｇ３用感情種別推定部（感情種別推定部）
１３出力部
９感情推定装置
９１入力部
９２訓練部
９３感情推定部
９４出力部

【図1】

【図2】

【図3】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版