特許7577308 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特許7577308感情推定装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-25

(45)【発行日】2024-11-05

(54)【発明の名称】感情推定装置

(51)【国際特許分類】

G06N 20/20 20190101AFI20241028BHJP

G06N 3/04 20230101ALI20241028BHJP

G06N 3/08 20230101ALI20241028BHJP

【ＦＩ】

G06N20/20

G06N3/04 100

G06N3/08

【請求項の数】 8

(21)【出願番号】P 2020182166

(22)【出願日】2020-10-30

(65)【公開番号】P2022072619

(43)【公開日】2022-05-17

【審査請求日】2023-08-29

【新規性喪失の例外の表示】特許法第３０条第２項適用令和２年８月２９日、ＭＤＰＩＳｅｎｓｏｒｓ（オンライン論文誌）にて発表

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３１年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業総括実施型研究ＥＲＡＴＯ「石黒共生ヒューマンロボットインタラクションプロジェクト」協働研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100099933

【弁理士】

【氏名又は名称】清水敏

(72)【発明者】

【氏名】フショウゼン

(72)【発明者】

【氏名】劉超然

(72)【発明者】

【氏名】イシイカルロストシノリ

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１８－０７２８７６（ＪＰ，Ａ）

【文献】石渡太智ほか，Relational Graph Attention Networksを利用した感情認識の検討，ＦＩＴ２０２０第１９回情報科学技術フォーラム講演論文集第２分冊，2020年08月18日，pp. 167-168

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

人の情報表示及び情報伝達に関する複数種類のモダリティについて得られる素性間に存在する関連性により、前記複数種類のモダリティの素性の各々を更新する更新手段と、
前記更新手段により更新された前記複数種類のモダリティの前記素性を用いて、前記人の感情を推定するための感情推定手段とを含む、感情推定装置であって、
前記感情推定装置はニューラルネットワークにより構成され、
前記更新手段は、
前記複数種類のモダリティについて得られる前記素性間に存在する前記関連性を、前記素性をノードとし、各ノードを接続するエッジを有するグラフニューラルネットワークにおけるノード間のアテンションとして算出するアテンション算出手段と、
前記ノードの各々について、前記アテンション算出手段により算出される前記アテンションの内、当該ノードに隣接する隣接ノードの各々からのアテンションを用いて当該ノードの素性を更新する素性更新手段とを含む、感情推定装置。

【請求項2】

前記素性更新手段が算出する、隣接するノード間のアテンションは、アテンションの方向により異なる、請求項１に記載の感情推定装置。

【請求項3】

前記更新手段は、前記複数種類のモダリティから感情を表す素性ベクトルを算出する個別のニューラルネットワークの、最終隠れ層の状態を前記素性として受ける、請求項２に記載の感情推定装置。

【請求項4】

前記個別のニューラルネットワークは、前記複数種類のモダリティの時系列に関する双方向ニューラルネットワークを含み、
前記更新手段は、前記双方向ニューラルネットワークの、順方向の前記最終隠れ層の状態を表すベクトルと、逆方向の前記最終隠れ層の状態を表すベクトルとを連接したものを前記素性として受ける、請求項３に記載の感情推定装置。

【請求項5】

前記アテンション算出手段は、
各々が全結合ニューラルネットワークからなり、各々が前記複数種類のモダリティの前記素性間に存在する前記関連性を、前記素性をノードとし、各ノードを接続するエッジを有するグラフネットワークにおけるノード間のアテンションとして算出する、複数のアテンション算出ヘッドと、
前記ノードの各々について、前記複数のアテンション算出ヘッドにより算出される前記アテンションの内、当該ノードに隣接する隣接ノードの各々からのアテンションの平均を当該ノードに対する前記アテンションとして算出する平均算出手段とを含む、請求項３又は請求項４に記載の感情推定装置。

【請求項6】

前記更新手段は、ｉ番目のノードの素性をＥｈ_ｉ、アテンション算出ヘッドの数をＫ、前記モダリティの種類の数をＮとして、以下の式によりｉ番目のノードの素性Ｅｈ_ｉを更新する、請求項５に記載の感情推定装置。

【数1】

ただし、σ（）は非線形の活性化関数を表し、Ｗは学習により得られる線形変換の重み、ａは重みベクトル、ａの右肩のＴはベクトルの転置、記号「||」はベクトルの連接、をそれぞれ表す。

【請求項7】

前記複数種類のモダリティは、表情の時系列、発話音声、及び発話テキストの内の少なくとも２つからなる任意の組み合わせを含む、請求項１から請求項６のいずれか１項に記載の感情推定装置。

【請求項8】

前記複数種類のモダリティは、表情の時系列、発話音声、及び発話テキストを含む、請求項１から請求項６のいずれか１項に記載の感情推定装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は感情推定技術に関し、特に複数種類のモダリティの情報を用いて人の感情を推定する感情推定装置、感情推定方法及びコンピュータプログラムに関する。

【背景技術】

【0002】

最近は、感情推定に関する研究が進みつつある。感情推定とは、人が他の人等とコミュニケーションを行っているときのその人の声、表情、身体動作、発話の内容等に基づいて人の内部状態を推定することである。人の感情を推定することで、例えば人と対話するエージェントの動作を制御したり、逆にエージェントの動作を制御することで相手にエージェントがどのような感情を抱いているかを伝達したりできる。

【0003】

人が他の人等とコミュニケーションするチャネルとして、上記したように声、顔（表情）、身体動作、発話の内容等があるが、これらはそれぞれモダリティと呼ばれる。人の声、表情、身体動作、及び発話等、複数のモダリティのいずれか一つから人の感情を推定する技術はシングル・モダリティによる感情推定技術である。複数のモダリティから人の感情を推定する技術はマルチ・モダリティによる感情推定技術と呼ばれる。

【0004】

シングル・モダリティによる感情推定技術として、これまで様々な手法が研究されている。例えば後掲の非特許文献１、２は表情を用いる。非特許文献３、４は発話音声を用いる。非特許文献５、６は身体の動きを用いる。非特許文献７は発話の内容であるテキストを用いる。

【0005】

従来の研究では、こうした感情推定の技術のためのデータとして、例えば俳優等に特定の感情を表すような発話をするよう依頼し、そこから得られたものを用いていた。しかしそのようにして意図的に感情を表現した発話、表情、動作等は、日常的に見られるコミュニケーションでの表現より大げさで強すぎることが多い。そのため、そうした発話から得たデータを用いると、日常的なコミュニケーションに伴う感情の表現を正確に捉えられないという問題があった。そのため最近では、意図的に感情を表現した発話から得たデータではなく、日常的なコミュニケーションから得た画像、音声等を感情推定のための基礎的データとする研究者が多くなっている。

【0006】

こうしたデータを用いた場合、上記したようなシングル・モダリティのデータから感情推定を行う場合には、その精度が不十分であるという問題がある。実際のところ、人のコミュニケーションはマルチ・モダリティなものであって、その内の一つのモダリティのみを用いても感情推定を十分な精度で行うことは難しい。したがって、マルチ・モダリティによる感情推定を行うことで精度を高くできる可能性がある。

【0007】

マルチ・モダリティによる感情推定技術として、後掲の非特許文献８－１３に開示されたものがある。これらでは、個々のシングル・モダリティによる感情推定モデルから得られた素性を単純に連接（ｃｏｎｃａｔｅｎａｔｅ）したもの、又は平均をとったものを素性として感情推定を行うマルチ・モダリティの感情推定モデルを提案している。

【先行技術文献】

【非特許文献】

【0008】

【文献】Byeon, Y.H.; Kwak, K.C. Facial expression recognition using 3d convolutional neural network. Int. J. Adv. Comput. Sci. Appl. 2014, 5.

【文献】Zhang, S.; Pan, X.; Cui, Y.; Zhao, X.; Liu, L. Learning affective video features for facial expression recognition via hybrid deep learning. IEEE Access 2019, 7, 32297-32304.

【文献】Lotfian, R.; Busso, C. Curriculum learning for speech emotion recognition from crowdsourced labels. IEEE/ACM Trans. Audio Speech Lang. Process. 2019, 27, 815-826.

【文献】Fu, C.; Dissanayake, T.; Hosoda, K.; Maekawa, T.; Ishiguro, H. Similarity of Speech Emotion in Different Languages Revealed by a Neural Network with Attention. In Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing (ICSC), San Diego, CA, USA, 3-5 February 2020; pp. 381-386.

【文献】Ahmed, F.; Gavrilova, M.L. Two-layer feature selection algorithm for recognizing human emotions from 3d motion analysis. In Proceedings of the Computer Graphics International Conference, Calgary, AB, Canada, 17-20 June 2019; Springer: Cham, Switzerland, 2019; pp. 53-67.

【文献】Ajili, I.; Mallem, M.; Didier, J.Y. Human motions and emotions recognition inspired by LMA qualities. Vis. Comput. 2019, 35, 1411-1426.

【文献】Hazarika, D.; Poria, S.; Zimmermann, R.; Mihalcea, R. Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling. arXiv 2019, arXiv:1910.04980

【文献】Asghar, M.A.; Khan, M.J.; Amin, Y.; Rizwan, M.; Rahman, M.; Badnava, S.; Mirjavadi, S.S. EEG-Based Multi-Modal Emotion Recognition using Bag of Deep Features: An Optimal Feature Selection Approach. Sensors 2019, 19, 5218.

【文献】Tsiourti, C.; Weiss, A.; Wac, K.; Vincze, M. Multimodal integration of emotional signals from voice, body, and context: Effects of (in) congruence on emotion recognition and attitudes towards robots. Int. J. Soc. Robot. 2019, 11, 555-573.

【文献】Majumder, N.; Poria, S.; Hazarika, D.; Mihalcea, R.; Gelbukh, A.; Cambria, E. Dialoguernn: An attentive rnn for emotion detection in conversations. In Proceedings of the AAAI Conference on Artificial Intelligence, Honolulu, HI, USA, 27 January-1 February 2019; Volume 33, pp. 6818-6825.

【文献】Le, D.; Aldeneh, Z.; Provost, E.M. Discretized Continuous Speech Emotion Recognition with Multi-Task Deep Recurrent Neural Network. In Proceedings of the Interspeech, Stockholm, Sweden, 20-24 August 2017; pp. 1108-1112.

【文献】Sahu, G. Multimodal Speech Emotion Recognition and Ambiguity Resolution. arXiv 2019, arXiv:1904.06022.

【文献】Li, J.L.; Lee, C.C. Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention Profile. In Proceedings of the Interspeech, Graz, Austria, 15-19 September 2019; pp. 211-215.

【発明の概要】

【発明が解決しようとする課題】

【0009】

マルチ・モダリティによる感情推定技術により、シングル・モダリティの場合と比較して精度は高くなった。しかし、マルチ・モダリティの場合、シングル・モダリティのモデルの個々の出力をどのように組み合わせれば精度を高めることができるかという問題がある。各モダリティの間には何らかの関連があるはずであり、そうした関連を用いて感情推定に用いることができれば、精度をより高くできる可能性がある。

【0010】

したがってこの発明の目的は、シングル・モダリティのモデルの出力を組み合わせて感情推定の精度をより高めることができる感情推定装置を提供することである。

【課題を解決するための手段】

【0011】

本発明の第１の局面に係る感情推定装置は、人の情報表示及び情報伝達に関する複数種類のモダリティについて得られる素性間に存在する関連性により、複数種類のモダリティの素性の各々を更新する更新手段と、更新手段により更新された複数種類のモダリティの素性を用いて、人の感情を推定するための感情推定手段とを含む。

【0012】

好ましくは、感情推定装置はニューラルネットワークにより構成される。

【0013】

より好ましくは、更新手段は、複数種類のモダリティについて得られる素性間に存在する関連性を、素性をノードとし、各ノードを接続するエッジを有するグラフニューラルネットワークにおけるノード間のアテンションとして算出するアテンション算出手段と、ノードの各々について、アテンション算出手段により算出されるアテンションの内、当該ノードに隣接する隣接ノードの各々からのアテンションを用いて当該ノードの素性を更新する素性更新手段とを含む。

【0014】

さらに好ましくは、素性更新手段が算出する、隣接するノード間のアテンションは、アテンションの方向により異なる。

【0015】

好ましくは、更新手段は、複数種類のモダリティから感情を表す素性ベクトルを算出する個別のニューラルネットワークの、最終隠れ層の状態を素性として受ける。

【0016】

より好ましくは、個別のニューラルネットワークは、複数種類のモダリティの時系列に関する双方向ニューラルネットワークを含み、更新手段は、双方向のニューラルネットワークの、順方向の最終隠れ層の状態を表すベクトルと、逆方向の最終隠れ層の状態を表すベクトルとを連接したものを素性として受ける。

【0017】

さらに好ましくは、アテンション算出手段は、各々が全結合ニューラルネットワークからなり、各々が複数種類のモダリティの素性間に存在する関連性を、素性をノードとし、各ノードを接続するエッジを有するグラフネットワークにおけるノード間のアテンションとして算出する、複数のアテンション算出ヘッドと、ノードの各々について、複数のアテンション算出ヘッドにより算出されるアテンションの内、当該ノードに隣接する隣接ノードの各々からのアテンションの平均を当該ノードに対するアテンションとして算出する平均算出手段とを含む。

【0018】

好ましくは、更新手段は、ｉ番目のノードの素性をＥｈ_ｉ、アテンション算出ヘッドの数をＫ、モダリティの種類の数をＮとして、以下の式によりｉ番目のノードの素性Ｅｈ_ｉを更新する。

【0019】

【数1】

【0020】

より好ましくは、複数種類のモダリティは、表情の時系列、発話音声、及び発話テキストの内の少なくとも２つからなる任意の組み合わせを含む。

【0021】

さらに好ましくは、複数種類のモダリティは、表情の時系列、発話音声、及び発話テキストを含む。

【0022】

本発明の第２の局面に係る感情推定方法は、人の情報表示及び情報伝達に関する複数種類のモダリティについて得られる素性間に存在する関連性により、複数種類のモダリティの素性の各々を更新するステップと、更新するステップにおいて更新された複数種類のモダリティの素性を用いて、人の感情を推定するステップとを含む。

【0023】

本発明の第３の局面に係るコンピュータプログラムは、コンピュータを、人の情報表示及び情報伝達に関する複数種類のモダリティについて得られる素性間に存在する関連性により、複数種類のモダリティの素性の各々を更新する更新手段と、更新手段により更新された複数種類のモダリティの素性を用いて、人の感情を推定するための感情推定手段として機能させる。

【発明の効果】

【0024】

この発明によれば、シングル・モダリティのモデルの出力を組み合わせて感情推定の精度をより高めることができる感情推定装置を提供できる。この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

【図面の簡単な説明】

【0025】

【図1】図１は、この発明の第１の実施形態に係るマルチ・モダリティ感情推定システムの概略構成を示す模式的ブロック図である。

【図2】図２は、図１に示すマルチヘッドＧＡＴの構成を示すブロック図である。

【図3】図３は、図２に示す更新部のより詳しい構成を示すブロック図である。

【図4】図４は、図１に示すマルチ・モダリティ感情推定システムの訓練の流れを示すフローチャートである。

【図5】図５は、図１及び図２に示すマルチヘッドＧＡＴの訓練をするためのプログラムの制御構造を示すフローチャートである。

【図6】図６は、ＧＡＴによる素性の更新を実現するプログラムの制御構造を示すフローチャートである。

【図7】図７は、図１に示すマルチ・モダリティ感情推定システムの感情推定時の動作を説明するためのブロック図である。

【図8】図８は、この発明の各実施形態を実現するコンピュータシステムの外観を示す図である。

【図9】図９は、図８に外観を示すコンピュータシステムのハードウェア構成を示すブロック図である。

【発明を実施するための形態】

【0026】

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

【0027】

＜第１の実施形態＞
［構成］
この実施形態では、表情、発話音声、及び発話の内容であるテキストの３つのモダリティを用いて感情推定を行う。感情推定にはＧＡＴを使用してこれら３つのモダリティの情報を融合して感情推定を行う。ＧＡＴを用いることにより、これら３つのモダリティ相互の関係に基づいて各モダリティの特徴が強調され、感情推定の精度を高める。

【0028】

図１に第１の実施形態に係るマルチ・モダリティ感情推定システム５０の概略構成図を示す。図１を参照して、マルチ・モダリティ感情推定システム５０は、感情推定の対象となる人物の発話時の表情データの時系列を受けて表情素性７２、７４等の時系列を出力する表情モデル６０と、同じ人物の発話時のテキストからテキスト素性ベクトル８２を出力するテキストモデル６２と、同じ人物の発話時の音声データを受けて音声素性７６、７８等の時系列を抽出する音声モデル６４とを含む。

【0029】

マルチ・モダリティ感情推定システム５０はさらに、表情素性７２及び表情素性７４等を連接した表情素性ベクトル８０、音声素性７６及び音声素性７８等を連接した音声素性ベクトル８４、及びテキスト素性ベクトル８２を受けて、後述するＧＡＴにより感情推定のための処理を行うように訓練される、グラフニューラルネットワークからなるマルチヘッドＧＡＴ６６と、マルチヘッドＧＡＴ６６の出力を受けて最終的な感情推定結果７０を出力するように訓練される全結合層６８とを含む。

【0030】

表情モデル６０、テキストモデル６２、及び音声モデル６４等は、素性ベクトルを出力できるものであれば既存のものを用いてよい。それらが互いに異なる考え方のモデルであってもよい。また、訓練もそれぞれ別々に行ってよい。後述する実験において使用したモデルについては実験結果の説明に記載している。

【0031】

この実施形態では、各モデルとして個別のニューラルネットワークを用いており、ニューラルネットワークの最終層の隠れ状態をフラット化したものを素性ベクトルとして用いる。

【0032】

図２を参照して、マルチヘッドＧＡＴ６６は、いずれも表情モデル６０、テキストモデル６２、及び音声モデル６４からの素性ベクトルを受ける更新部１００、１０２及び更新部１０４を含む。

【0033】

更新部１００、１０２、及び更新部１０４は互いに同じ構成を持っている。ただし、更新部１００はテキストモデル６２及び音声モデル６４の出力を用いて表情モデル６０の出力を更新する。更新部１０２は表情モデル６０及び音声モデル６４の出力を用いてテキストモデル６２の出力を更新する。更新部１０４は表情モデル６０及びテキストモデル６２の出力を用いて音声モデル６４の出力を更新する。

【0034】

この更新は、ＧＡＴによるものである。ＧＡＴは通常使用されているニューラルネットワークとはトポロジが異なる。通常使用されているニューラルネットワークは複数の層を含み、各層は複数のノードを含む。ノード数は層によって異なることもあるし同じこともある。基本的には、ノード間の接続は、層内の各ノードと、その層に隣接する上下の層内の各ノードとの間に設けられる。したがってノードの配列は基本的には格子を形成している。

【0035】

しかし、現実世界の情報の間の関係は、このような格子型のトポロジに限らない。例えばソーシャルネットワーク、交通機関のネットワーク、道路ネットワークのようなネットワークは格子型ではない。しかし、いずれの場合も、ノードと２つのノードを結ぶエッジとの集合によりネットワークが定義されているという共通性がある。こうした図形は一般的にはグラフと呼ばれる。グラフを数学的に扱う分野がグラフ理論である。

【0036】

このようにグラフを構成するネットワークを扱うニューラルネットワークは、グラフニューラルネットワーク（ＧＮＮ）と呼ばれる。この実施形態では、異なるモダリティからの隠れ層から得た隠れ素性をノード、各ノード間の関係をエッジとして扱うＧＮＮを考え、このＧＮＮにおいて各モダリティの素性の値をノード間の関連性に基づいて強調するためにグラフアテンションネットワーク（ＧＡＴ）を採用する。

【0037】

具体的には、図２を参照して、表情モデル６０から得られる表情素性をＡ、テキストモデル６２から得られるテキスト素性をＢ、音声モデル６４から得られる音声素性をＣとする。Ａ、Ｂ、ＣをノードとするＧＮＮを考える。更新部１００、１０２及び更新部１０４はいずれも、後述の式にしたがってモダリティ間の関係にしたがって素性Ａ、Ｂ及びＣを更新する。

【0038】

図２に示す更新部１００、１０２及び更新部１０４は、どの素性について更新するかという点を除き、いずれも同じ構成を持つ。したがって説明を簡略にするために、ここでは更新部１００についてのみその構成を説明する。

【0039】

図３を参照して、更新部１００は、いずれも素性Ａ、Ｂ及びＣを受け、素性Ａの値を素性Ｂ及びＣを用いて更新するための複数のヘッド１２０、１２２、…、１２４を含む。これらは全く同じ構成を持っている。しかし、ＧＮＮの学習時にこれらのパラメータが乱数により初期化され、その後に学習が行われるため、最終的には異なるパラメータを持ち、異なる演算でノード間のアテンションを計算し、そのアテンションを用いて素性Ａを更新する。ヘッド１２０が出力する値を素性Ａ′^１、ヘッド１２２が出力する値を素性Ａ′^２、以下同様にして、ヘッド１２４が出力する値を素性Ａ′^８とする。ヘッド１２０、１２２、…、１２４は以下の式により素性Ａの値を更新する。以下の式では、Ｋは更新部１００、１０２、更新部１０４が持つアテンションヘッドの数（この実施形態ではＫ＝８）、Ｗは訓練によりパラメータを学習する線形変換の重み、ａ∈Ｒ^２ｎｆは重みベクトル、Ｎはモダリティの数（この実施形態ではＮ＝３）をそれぞれ表す。

【0040】

【数2】

Ｅｈ_ｉ∈Ｒ^ｎｅｆはｉ番目のモダリティの隠れ素性ベクトルを、縦の２本線の記号はベクトルの連接（ｃｏｎｃａｔｅｎａｔｉｏｎ）を、σ（）はシグモイド関数を、それぞれ表す。またＥｈ_１はＡ、Ｅｈ_２はＢ、Ｅｈ_３はＣをそれぞれ表す。

【0041】

更新部１００はさらに、ヘッド１２０、１２２、…、１２４が算出した更新後の素性Ａ′^１、Ａ′^２、…Ａ′^８の平均を算出し素性Ａ′として出力するための平均算出部１２６を含む。

【0042】

図２に示す更新部１０２及び更新部１０４がそれぞれ上記した処理と同じ処理を素性Ｂ及び素性Ｃに対して行うことで、更新後の素性Ａ′、Ｂ′、Ｃ′が更新部１００、１０２、及び更新部１０４から出力される。これらは連接されてマルチヘッドＧＡＴ６６の出力となり、全結合層６８に入力される。上記式において、添字ｉと添字ｊとが非対称であることから分かるように、ノード間のアテンションはその方向により異なる。

【0043】

マルチ・モダリティ感情推定システム５０の訓練は以下のようにして行う。図４はマルチ・モダリティ感情推定システム５０を訓練するための処理の流れを示すフローチャートである。このフローチャートにしたがった処理は、一つのプログラムで実現してもよいし、複数のプログラムとそれら複数のプログラムを所定の順番で又は並列に実行するプログラムで実現してもよい。又は、個々のステップを別々のプログラムで実現し、図４に示されるように順番に、又は並列にそれらプログラムを実行させるようにしてもよい。

【0044】

図４を参照してこのプログラムは、予め図１及び図２に示す表情モデル６０、テキストモデル６２及び音声モデル６４のための訓練データを準備して訓練データ記憶装置１５０に記憶させた後に実行される。このプログラムは、訓練データ記憶装置１５０に保存されている訓練データの数が少ないときに、所定の方法で訓練データの数を増加させる（拡張する）ステップ１６０と、ステップ１６０の後に、訓練データ記憶装置１５０に記憶された訓練データを用いて表情モデル６０、テキストモデル６２、及び音声モデル６４の訓練を互いに並列に行うステップ１６２、１６４及びステップ１６６と、これら訓練が十分に行われ表情モデル６０、テキストモデル６２、及び音声モデル６４による感情推定の精度がそれぞれ所定のしきい値以上となったことに応答して、表情モデル６０、テキストモデル６２及び音声モデル６４を用いてマルチヘッドＧＡＴ６６及び全結合層６８の訓練を行うステップ１６８とを含む。

【0045】

ステップ１６２、１６４、及びステップ１６６の訓練は、それぞれのモデルに応じて適切な既存の方法で行えばよい。

【0046】

図５を参照して、図４のステップ１６８は、以下に説明するステップ２０２を全訓練データに対して実行するステップ２００と、ステップ２００により訓練されたマルチヘッドＧＡＴ６６及び全結合層６８のパラメータが収束したか否か、すなわち、前回のステップ２０２の実行後のパラメータと今回の実行後のパラメータとの差の絶対値の合計が所定のしきい値となったか否かを判定し、判定が否定なら制御をステップ２００に戻して再度訓練を実行し、判定が肯定ならマルチヘッドＧＡＴ６６及び全結合層６８の訓練を終了させるステップ２０４とを含む。なお、ステップ２００に先立って、マルチヘッドＧＡＴ６６及び全結合層６８のパラメータを例えば乱数により初期化する。

【0047】

ステップ２０２は、今回のステップ２０２の実行においてまだ訓練データとして使用されていないデータからランダムに所定数のサンプルからなるミニバッチをサンプリングするステップ２２０と、ステップ２２０でサンプリングされたミニバッチ内の全訓練データに対してステップ２２４を実行し、その実行ごとに生ずる教師データとマルチヘッドＧＡＴ６６の出力との誤差を累積するステップ２２２と、ステップ２２２の完了後に、ステップ２２２の処理で累積されていた誤差を用い、誤差逆伝播法によりマルチヘッドＧＡＴ６６を構成するＧＮＮのパラメータの更新を行って処理中のミニバッチに対するステップ２０２の処理を終了するステップ２２６とを含む。なお、ステップ２２０では、ミニバッチの訓練データについて誤差を累積する変数の値が０にクリアされる。

【0048】

ステップ２２４は、表情モデル６０を用いて訓練データに対する表情素性を算出するステップ２４０と、ステップ２４０と並列に、テキストモデル６２を用いて訓練データに対するテキスト素性を算出するステップ２４２と、ステップ２４０及びステップ２４２と並列に、音声モデル６４を用いて訓練データに対する音声素性を算出するステップ２４４とを含む。

【0049】

ステップ２２４はさらに、ステップ２４０、２４２及びステップ２４４でそれぞれ算出された素性を用い、ＧＡＴによる素性の更新を行うステップ２４６と、ステップ２４６でそれぞれ更新された素性を全結合層６８に入力することによりその出力として感情推定結果７０を推定するステップ２４８と、ステップ２４８で全結合層６８により推定された感情推定結果７０と、訓練データに付与された教師データとの間の誤差を累積してステップ２２４の実行を終了するステップ２５０とを含む。ステップ２５０の処理が終了した時点でまだミニバッチ内の訓練データが残っていればステップ２２４が繰り返される。

【0050】

図６に、図５のステップ２４６の詳細を示す。図６を参照して、ステップ２４６で実行されるＧＡＴによる素性の更新処理は、ＧＡＴによる素性の更新を表情素性、テキスト素性及び音声素性について実行し、各素性について８個の更新後素性を算出するステップ２８０と、ステップ２８０でそれぞれ算出された８個の表情素性、８個のテキスト素性及び８個の音声素性の各々について平均値を算出するステップ２８２と、ステップ２８２で算出された更新後の８個の表情素性ベクトルの平均、８個のテキスト素性ベクトルの平均、及び８個の音声素性ベクトルの平均を結合してこのステップ２４６の処理を終了するステップ２８４とを含む。

【0051】

ステップ２８０は、図３に示す更新部１００の８個のヘッド１２０、１２２、…、１２４により、表情素性に対する更新処理を並行して行い、更新された８個の表情素性Ａ′^１、Ａ′^２、…、Ａ′^８を算出するステップ３００と、ステップ３００と同様、図２に示す更新部１０２により更新された８個のテキスト素性Ｂ′^１、Ｂ′^２、…、Ｂ′^８を算出するステップ３０２と、図２に示す更新部１０４により更新された８個の音声素性Ｃ′^１、Ｃ′^２、…、Ｃ′^８を算出するステップ３０４とを含む。こうした処理は、図２に示す更新部１００、１０２及び更新部１０４がいずれも８個のヘッドを含むため、互いに並列に実行できる。

【0052】

ステップ２８２は、ステップ３００で算出された８個の表情素性Ａ′^１、Ａ′^２、…、Ａ′^８の平均である更新後の表情素性Ａ′を算出するステップ３１０と、ステップ３０２で算出された８個のテキスト素性Ｂ′^１、Ｂ′^２、…、Ｂ′^８の平均である更新後のテキスト素性Ｂ′を算出するステップ３１２と、ステップ３０４において算出された８個の音声素性Ｃ′^１、Ｃ′^２、…、Ｃ′^８の平均である更新後の音声素性Ｃ′を算出するステップ３１４とを含む。

【0053】

［動作］
マルチ・モダリティ感情推定システム５０の動作には２つのフェーズがある。第１は訓練フェーズ、第２はテストフェーズである。

【0054】

訓練フェーズはさらに、個別の表情モデル６０、テキストモデル６２及び音声モデル６４の訓練を行う個別訓練フェーズと、訓練が終了した表情モデル６０、テキストモデル６２及び音声モデル６４を用いてマルチヘッドＧＡＴ６６の訓練を行う統合訓練フェーズである。

【0055】

〔個別訓練フェーズ〕
個別の表情モデル６０、テキストモデル６２及び音声モデル６４については、前述したとおり、図４のステップ１６２、１６４及びステップ１６６に示すように、それぞれの採用したモデルに応じて訓練を行えばよい。これらは順番に行うことも、並行して行うこともできる。これらについて十分な訓練が完了した後、マルチヘッドＧＡＴ６６の訓練が可能になる。

【0056】

〔統合訓練フェーズ〕
統合訓練は、表情モデル６０、テキストモデル６２及び音声モデル６４について十分な訓練が終わった後（図４のステップ１６８）に行われる。

【0057】

図５を参照して、統合訓練では、まだ訓練データとして使用されていないデータからランダムに所定数のサンプルからなるミニバッチをサンプリングする（ステップ２２０）。ステップ２２０でサンプリングされたミニバッチ内の全訓練データに対してステップ２２４を実行する。

【0058】

すなわち、訓練データの内、顔画像データから表情素性を算出し（ステップ２４０）、テキストデータからテキスト素性を算出し（ステップ２４２）、音声データから音声素性を算出する（ステップ２４４）。図６を参照して、ステップ２８０のステップ３００において、図２に示す更新部１００により、テキスト素性Ｂ及び音声素性Ｃを用いて表情素性Ａを更新し、更新後の表情素性Ａ′を出力する。より具体的には、図３に示すように、８個のヘッド１２０、１２２、…、１２４においてそれぞれテキスト素性Ｂ及び音声素性Ｃを用いて表情素性Ａを更新し、更新後の表情素性Ａ′^１、Ａ′^２、…、Ａ′^８を出力する。同様にして、ステップ２８０のステップ３０２において、図２に示す更新部１０２により、表情素性Ａ及び音声素性Ｃを用いてテキスト素性Ｂを更新し、更新後のテキスト画像素性Ｂ′を出力する。ステップ２８０のステップ３０４において、図２に示す更新部１０４により、表情素性Ａ及びテキスト素性Ｂを用いて音声素性Ａを更新し、更新後の音声素性Ｃ′を出力する。

【0059】

そして、図６のステップ２８２で平均化した表情素性Ａ′、テキスト素性Ｂ′、及び音声素性Ｃ′を算出する。ステップ２８４でこれらの素性ベクトルを結合して１つの素性ベクトルとする。

【0060】

図５を参照して、ステップ２４６で得られた結合後の素性ベクトルを図２に示す全結合層６８に入力し、その出力として感情推定結果７０を得る。図５のステップ２５０において、感情推定結果７０と訓練データの正解ラベルとの差を誤差として求め、誤差を蓄積してこの訓練データに対するステップ２２４の処理を終了する。

【0061】

以上、ステップ２２４の処理をステップ２２０でサンプリングされたミニバッチ内の全訓練データに対して実行するとステップ２２２の処理が終了する。終了後、ステップ２２６において、蓄積された誤差を用いて、誤差逆伝播法によりマルチヘッドＧＡＴ６６及び全結合層６８のパラメータの更新を行う。

【0062】

以上の処理を訓練データの全体にわたって繰り返し、訓練データの全体に対する処理が終了した時点で、ステップ２０４において、更新後のパラメータの値と更新前のパラメータ（前回のステップ２００の処理が完了した時点でのパラメータ）の値との差が算出される。この差が所定のしきい値以下であれば訓練が終了する。差がしきい値より大きければ制御は再びステップ２００に戻り、ステップ２００の処理が実行される。

【0063】

［実験］
上記した第１の実施形態に係るマルチ・モダリティ感情推定システム５０について、以下のような条件で実験を行った。

【0064】

〔音声〕
実験では、処理対象となるユーザの発話の最大長さを６．５秒とした。６．５秒より長い発話は６．５秒で打ち切り、６．５秒より短い発話については音声の末尾に０をパディングした。サンプリングレートは１６０００Ｈｚとした。各フレームについて、長さ８０００、ホップ長４００の離散コサイン変換を行った。メルスペクトログラムの尺度段階は３８４に設定した。

【0065】

訓練サンプル数の不均衡を是正するために、エントロピー重み法に基づくデータ拡張を行った。Ａ∈Ｒｍ×ｎを抽出されたスペクトログラムとする。ｎはタイムステップ数を示し、ｍはメルスケールを示す。Ａ内の各要素について以下の式（１）により正規化した。ｘ_ｉｊはメルスペクトログラムのオリジナルの要素を示し、ｐ_ｉｊは正規化後の要素を示す。

【0066】

【数3】

【0067】

この後、以下の式（２）及び（３）を用いて拡張後のサンプルを得た。式（３）内の「ａｌｐｈａ」は定数であり、以下の実験では２に設定した。

【0068】

【数4】

大まかにいえば、上記式による変換により、メルスペクトログラムの各尺度のもとの値をスケールし直し、大きな情報エントロピーを有する特徴を強調したことになる。情報エントロピーの値が小さなものについても無視はせずある値を割り当てた。

【0069】

〔表情〕
各発話の映像内の各フレームから顔部分を抽出し、各発話長に基づき平均した間隔で１０フレームを選択した。実験では、空間－時間素性を抽出するために、非特許文献１０に開示された方法を用いた。この方法は、非特許文献２に示された３Ｄ－ＣＮＮを用いるものである。

【0070】

３Ｄ－ＣＮＮは事前学習された表情の認識モデルであり、入力ストリームの別々の２つのチャネル、すなわち静的なフレームレベルでクロップされた顔画像を処理する空間的ＣＮＮネットワーク部と、オプティカルフロー画像を処理する時間的ＣＮＮネットワーク部である。これら２つの部分により空間－時間素性を抽出した後、これらを統合ネットワークにより統合した。以下の実験では、素性としてこの統合ネットワークの隠れ層の出力を用いた。

【0071】

〔テキスト〕
各発話の書き起こしをベクトルに変換し各文をトークン化するために、ＷｏｒｄＰｉｅｃｅトークナイザ（https://github.com/google/sentencepiece）を用いた。このトークナイザは言語処理モデルとして著名なＢＥＲＴでも用いられている。ＢＥＲＴについては以下の文献を参照されたい。

【0072】

《参考文献１》
Devlin, J.; Chang, M.W.; Lee, K.; Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv 2018, arXiv:1810.04805.

【0073】

各発話の感情は、全体の時系列情報から決定されたが、そのようなシーケンス情報では決定的に重要なある特定のタイムステップがある。サンプルの各タイムステップの間の関係を考慮してこの決定的に重要なタイムステップを選択するために、感情エンコーダ－デコーダ（ＥＥＤ）と呼ばれる、自然言語による翻訳分野の以下の文献に触発されたものを用いた。

【0074】

《参考文献２》
Bahdanau, D.; Cho, K.; Bengio, Y. Neural machine translation by jointly learning to align and translate. arXiv 2014, arXiv:1409.0473.

【0075】

エンコーディング段階ではエンコーダへの入力が行列Ｘ＝［ｘ_１，ｘ_２，…，ｘ_ｔ］、ただしｘ_ｔ∈Ｒ^ｎｆであるものとする。以下の式（４）及び（５）は、隠れ状態ｈ_ｉを算出するための流れを示す。^→Ｗ、^→Ｗｚ、^→Ｗｒ∈Ｒ^{ｎｈ×ｎｆ}、^→Ｕ、^→Ｕｚ、^→Ｕｒ∈Ｒ^{ｎｈ×ｎｈ}は重み行列である（「^→」は式中では上記記載においてこの記号の直後の文字の直上に記載されている。）。ただしｎ_ｈ及びｎ_ｆはそれぞれ直前の層からの隠れユニットと素性の数を示す。ｎ_ｆはモダリティごとに異なることに注意が必要である。各モダリティに関する素性数については以下のテーブル１を参照されたい。

【0076】

【表1】

また上記記載及び式（４）（５）において各文字の直上に記載された矢印の内、順方向の矢印「→」は前向きの時系列シーケンス処理を示し、逆方向の矢印「←」は後ろ向きの時系列シーケンス処理を示す。

【0077】

【数5】

^←ｈ_ｉについても同様である。

【0078】

ｎ^ｅｆは隠れ感情素性の数（長さ）である。隠れ感情ベクトルを算出するため、エンコーディング段階から得られた隠れ層をフラット化し、ボトルネックとして全結合層を採用した。

【0079】

実験では、モダリティにより異なるニューラルネットワークをユニ・モダリティモデル（ユニ・モデル）として実装した。各話者のタイムステップｔとｔ－１のデータを入力として各ユニ・モデルを別々に訓練した。

【0080】

〔音声〕
音声についてタイムステップｔ－１及びｔのメルスペクトログラムを抽出し、双方向ＬＳＴＭに入力して時系列情報を処理した。続いてマルチヘッドアテンション層により、タイムステップ間の関係を強調する処理を並列に行った。強調処理後の隠れ層の値をＥＥＤに入力し感情の判定に最も寄与する情報を選択させた。性能改善のためにマルチタスク訓練を行った。この感情モデルは、感情ラベルの分類に加えて、同時に話者の性別も認識し、女性と男性の間のピッチの違いによる影響を考慮するようにした。

【0081】

〔表情〕
映像から話者の顔部分を抽出した後、３Ｄ－ＣＮＮにデータを入力し、空間－時間的素性を含む隠れベクトルを得た。３Ｄ－ＣＮＮによれば、各映像フレームから適切な素性を抽出できるのに加え、各フレーム内における顔の特徴（空間部）とフレーム間のオプティカルフロー（時間部）を個別に考慮した空間－時間的素性を抽出できる。表情の分析プロセスには、空間部を個別にファインチューンするため、ＶＧＧモデルを採用した。時間部はビデオメッセージ全体を順に処理する。この場合の入力は、フレーム画像、並びに高さ及び重みの次元数である。訓練後の空間－時間的ＣＮＮの素性を融合させるため、識別素性をあわせて学習するための全結合ニューラルネットワークを採用した。この素性をＥＥＤにより処理し、感情を推定するために重要な情報を選択した。

【0082】

〔テキスト〕
テキストによる感情分析には、以下の文献に記載されたＳｅＭｅｍＮＮを採用し、最初から訓練した。

【0083】

《参考文献３》
Fu, C.; Liu, C.; Ishi, C.; Yoshikawa, Y.; Ishiguro, H. SeMemNN: A Semantic Matrix-Based Memory Neural Network for Text Classification. In Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing (ICSC), San Diego, CA, USA, 3-5 February 2020; pp. 123-127.

【0084】

ＳｅＭｅｍＮＮでは、２つの入力が協働し、アドレス用行列及び意味的行列を生成する。アドレス行列は意味的行列から対応する情報を読み出すためのアドレスベクトルを生成するためのものである。ＳｅＭｅｍＮＮによれば、タイムステップｔ－１とｔとにおけるテキストがアドレス用行列を生成し、意味的行列はタイムステップｔにおけるテキストから個別に生成される。ＧＡＴのマルチヘッド設計により、様々な感情に対する音声、表情、及びテキストモダリティの間の関係を収集した。この操作は複数のモダリティの間で行われ、かつ各モダリティをノードとみなすので、これをマルチヘッドモダリティ間グラフアテンションと名付けた。

【0085】

〔マルチ・モデル〕
音声、表情、及びテキストの各モダリティのためのユニ・モデルを、感情認識タスクによりエンド・ツー・エンド方式で別々に訓練した。これらユニ・モデルの訓練が十分に行われた後、各モダリティから隠れ層を抽出し、マルチヘッドＧＡＴによりこれら３つのモダリティの間の関係を以下の式（６）により計算した。この式については既に説明済である。

【0086】

【数6】

【0087】

〔使用したデータセット〕
実験では、以下の参考文献に記載のＩｎｔｅｒａｃｔｉｖｅｅｍｏｔｉｏｎａｌｄｙａｄｉｃｍｏｔｉｏｎｃａｐｔｕｒｅｄａｔａｂａｓｅ（ＩＥＭＯＣＡＰ）を使用した。その構成を以下のテーブル２に示す。各訓練データに対して以下のいずれか１つのラベルが付されている。

【0088】

【表2】

【0089】

《参考文献４》
Busso, C.; Bulut, M.; Lee, C.C.; Kazemzadeh, A.; Mower, E.; Kim, S.; Chang, J.N.; Lee, S.; Narayanan, S.S. IEMOCAP: Interactive emotional dyadic motion capture database. Lang. Resour. Eval. 2008, 42, 335.

【0090】

このデータセットは、１０人の発話者による双方向の対話の映像を含む。各映像は単一の二者の組み合わせについての対話を含み、発話ごとに分割され、感情ラベルが付されている。実験では、このデータセットを約８０／２０の比率で訓練セットとテストセットとに分割した。訓練セットは５８１０サンプル、テストサンプルは１６２３サンプルである。

【0091】

実験ではＫｅｒａｓ（https://keras.io/）を用いて全体のニューラルネットワークを実装し、オプティマイザとしてａｄａｍ（https://keras.io/api/optimizers/adam/）を用いた。学習率は０．０００１に設定した。ＢＬＳＴＭのセル数は１２８とし、マルチヘッドアテンションヘッドを８個とした。

【0092】

音声モデルについては各タスクでの重みを１とした。他のハイパーパラメータについては前出のテーブル１に示したとおりである。音声、表情、及びテキストモデルで訓練するパラメータ数はそれぞれ１３６０万、１３３０万、２４８０万である。最終のマルチ・モデルに関して訓練するパラメータ数は５１８０万である。

【0093】

〔比較対象〕
この実験では、上記実施形態について設定を種々に変えたものにより得られた結果と、以下のように実施形態自身の変形例と、さらに他の技術とを比較した。

【0094】

・音声サンプルの拡張。音声サンプルを拡張してモデルを訓練した場合と、拡張せず訓練した場合とを比較。

【0095】

・ＥＥＤをＬＳＴＭで置換。上記実施形態で使用したＥＥＤはＬＳＴＭに類似している。しかし、ＥＥＤではＬＳＴＭに訓練対象となる行列Ｕを追加して時系列情報を分析し、各タイムステップでの線形変換を学習するようにした。したがって、比較のためにＥＥＤを双方向ＬＳＴＭで置換したものを作成した。

【0096】

・ＳｅＭｅｍＮＮとＢＥＲＴの比較。テキスト分類の分野ではＢＥＲＴの卓越した性能が知られている。しかし、ＢＥＲＴをテキスト感情認識に適用した例はほとんどない。そこでＳｅＭｅｍＮＮを事前学習済のＢＥＲＴで置換した場合の性能を比較した。

【0097】

・ＤｉａｌｏｇｕｅＲＮＮ。これは非特許文献１０に記載されている、リカレント型ニューラルネットワークであり、会話時のグローバルな文脈を考慮して話者の状態をトラッキングする２つのＧＲＵと、感情状態の流れをトラッキングするもう一つのＧＲＵとを用いたものである。

【0098】

・ＤｉａｌｏｇｕｅＧＣＮ。これは以下の文献に記載されているもので、グラフ今ボリュー書なるネットワーク（ＧＣＮ）を用い、対話者の自己及び相手への依存性を文脈情報で高めたものである。

【0099】

《参考文献５》
Ghosal, D.; Majumder, N.; Poria, S.; Chhaya, N.; Gelbukh, A. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation. arXiv 2019, arXiv:1908.11540.

【0100】

〔実験結果〕
・音声感情認識
最初に音声のユニ・モデルについての結果をテーブル３に示す。テーブル３において、ＡＭは音声モデル（発話感情認識モデル）を示す。添字ＥＥＤはＥＥＤを用いた音声モデルを示し、添字ＬＳＴＭはＬＳＴＭを用いた音声モデルを示す。Ａｕｇは拡張した訓練データを用いて訓練したモデルであることを示し、Ｏｒｉは拡張なしの訓練データを用いて訓練したモデルであることを示す。

【0101】

【表3】

この表から、ＥＥＤを用いた、かつ訓練データを拡張したものが他よりも高い性能を示したことが分かる。

【0102】

拡張した訓練データを用いて訓練した場合には、ＥＥＤを用いたものはＬＳＴＭを採用したものと比較してｈａｐｐｙ，ｓａｄ，ｅｘｃｉｔｅｄ，ｆｒｕｓｔｒａｔｅｄでより高い性能を示し、その差は８．１５％、７％、１．３１％、及び６．９７％であった。重み付けした平均精度も５４．０４％から５６．３０％に改善し、Ｆ１スコアも５３．３４％から５５．７３％に改善した。

【0103】

拡張前の訓練データで訓練した場合、ＥＥＤを用いたものはＬＳＴＭを用いたものと比較してｎｅｕｔｒａｌ，ａｎｇｒｙ，ｅｘｃｉｔｅｄ，ｆｒｕｓｔｒａｔｅｄでより高い性能を示し、その差は９．８６％，０．５７％，１３．９２％，５．４７％であった。重み付け平均精度は４７．８７％から５２．１１％に改善し、Ｆ１スコアも４６．９１％から５１．２１％に改善した。

【0104】

訓練データを拡張した場合、ＥＥＤを採用すると、拡張しない場合と比較してｈａｐｐｙ，ｓａｄ，ｎｅｕｔｒａｌ，ａｎｇｒｙ，ｆｒｕｓｔｒａｔｅｄで高い性能を示し、その差は３．６７％、１５．１２％、０．７９％、０．８３％、９．６７％であった。重み付け平均精度は５２．１１％から５６．３０％に改善し、Ｆ１スコアも５１．２１％から５５．７３％に改善した。

【0105】

訓練データを拡張してＬＳＴＭを採用すると、拡張しない場合と比較してｓａｄ，ｎｅｕｔｒａｌ，ａｎｇｒｙ，ｅｘｃｉｔｅｄ，ｆｒｕｓｔｒａｔｅｄで高い性能を示し、その差は０．４６％、１１．８％、８．４２％、４．４１％及び８．１７％であった。重み付け平均精度は４７．８７％から５４．０４％に改善し、Ｆ１スコアも４６．９１％から５３．３４％に改善した。

【0106】

・表情感情認識
テーブル４は、表情感情認識モデルによる結果を示す。ＶＭはＶｉｓｕａｌＭｏｄｅｌ（顔表情認識モデル）を示す。添字ＥＥＤはＥＥＤを用いたモデルを示し、添字ＬＳＴＭはＥＥＤをＬＳＴＭで置換したモデルを示す。

【0107】

【表4】

テーブル４から、ＥＥＤを採用したモデルのほうが高い性能を示すことが分かる。ＥＥＤを採用したモデルは、ＬＳＴＭを採用したモデルと比較してｓａｄ，ｎｅｕｔｒａｌ，ａｎｇｒｙ，ｅｘｃｉｔｅｄで高い性能を示し、その差は５．２５％、４．０１％、６．１７％、９．６９％であった。また重み付け平均精度は１．４８％、Ｆ１スコアは３．３４％改善した。

【0108】

・テキスト感情認識
テーブル５はテキスト感情認識モデルの結果を示す。ＴＭはテキストモデルを示し、添字ＳｅＭｅｍＮＮはＳｅＭｅｍＮＮを採用したテキストモデルと、添字ＢＥＲＴは英語で事前学習したＢＥＲＴを採用したテキストモデルを示す。

【0109】

【表5】

この結果から、ＳｅＭｅｍＮＮを用いたモデルがＢＥＲＴを用いたものよりかなり高い性能を示すことが分かる。重み付け平均精度では３９．６２％から５２．９９％への改善が見られ、Ｆ１スコアも３６．１３％から５１．５１％に改善した。またどの感情カテゴリでも、ＳｅＭｅｍＮＮを用いた方がＢＥＲＴを用いたものよりも１０％以上高い精度を示しており、特にＡｎｇｒｙでは３０ポイント程度の精度の改善が見られた。この結果、少なくともＩＥＭＯＣＡＰのデータセットに関してはＳｅＭｅｍＮＮを用いた方がＢＥＲＴよりも感情テキスト認識には適していることが分かった。

【0110】

・マルチ・モダリティ
マルチ・モデルとしては、以上の実験で最も高い性能が得られたユニ・モデル（ＶＭ_ＥＥＤ，ＡＭ_{ＥＥＤ＿Ａｕｇ}，ＴＭ_{ＳｅＭｅｍＮＮ}）を組み合わせた。テーブル６にその結果を示す。

【0111】

【表6】

【0112】

これらの内、ＭｕｌＭ_{Ｄｅｎｓｅ}は上記実施形態のＧＡＴを用いないものである。ＭｕｌＭ_{Ｄｅｎｓｅ}の重み付け平均精度は６７．２６、重み付けＦ１スコアは６６．７４であった。これに対して比較対象のＤｉａｌｏｇｕｅＲＮＮの平均精度は６３．４０、平均Ｆ１スコアは６２．７５であり、またＤｉａｌｏｇｕｅＧＣＮ及びの平均精度は６５．２５、平均Ｆ１スコアは６４．１８であった。ＭｕｌＭ_{Ｄｅｎｓｅ}はＤｉａｌｏｇｕｅＧＣＮと比較して平均精度及びＦ１スコアの双方において２％以上の改善となっており、またＤｉａｌｏｇｕｅＲＮＮと比較すると平均精度及びＦ１スコアの双方において約５．５％の改善となっている。この性能改善の大部分は、ユニ・モデルの性能によるものと思われる。

【0113】

これに対し、ＭｕｌＭ_ＧＡＴは、ＭｕｌＭ_{Ｄｅｎｓｅ}に上記実施形態で説明したＧＡＴを加えたマルチ・モデルである。テーブル６から分かるように、ＭｕｌＭ_ＧＡＴの性能はさらに高くなり、平均精度で６９．８８、平均Ｆ１スコアで６８．３１という値を示した。これはＭｕｌＭ_{Ｄｅｎｓｅ}と比較して、さらに２．５％改善した値である。個々の感情ラベルを調べると、ｈａｐｐｙ，ｎｅｕｔｒａｌ，ａｎｇｒｙ，ｆｒｕｓｔｒａｔｅｄにおいて従来技術より高い精度を示した。これらの中でもｈａｐｐｙという感情ラベルでは、ＤｉａｌｏｇｕｅＧＣＮよりも４７％も高いという大きな改善を示した。さらにＭｕｌＭ_{Ｄｅｎｓｅ}と比較すると、ＧＡＴを採用したＭｕｌＭ_ＧＡＴではｈａｐｐｙ，ａｎｇｒｙ，及びｆｒｕｓｔｒａｔｅｄという感情ラベルで少なくとも５％以上の改善を示している。

【0114】

以上から、上記実施形態で説明したＧＡＴによりモダリティ間の関連性を用いて各モダリティの素性を強調することにより、マルチ・モダリティによる感情認識の精度をより高められることが確認できた。

【0115】

［変形例］
なお、上記実施形態では、表情、音声、発話テキストという３種類のモダリティを用いている。しかしこの発明はそのような実施形態には限定されない。これら３種類のモダリティの内、少なくとも２つを含む任意の組み合わせを用いてもよい。また、上記３種類のモダリティに加えて、又はこれらのいずれかに代えて、体全体の動き、若しくは頭部、腕、手又は胴体の動き、体温又はその分布等をモダリティとして採用してもよい。

【0116】

［コンピュータによる実現］
図８は、上記各実施形態を実現するコンピュータシステムの外観図である。図９は、図８に示すコンピュータシステムのハードウェアブロック図である。

【0117】

図８を参照して、このコンピュータシステム９５０は、ＤＶＤドライブ１００２を有するコンピュータ９７０と、いずれもコンピュータ９７０に接続された、ユーザと対話するためのキーボード９７４、マウス９７６、及びモニタ９７２とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア（例えばタッチパネル、音声入力、ポインティングデバイス一般）であればどのようなものも利用できる。

【0118】

図９を参照して、コンピュータ９７０は、ＤＶＤドライブ１００２に加えて、ＣＰＵ９９０と、ＧＰＵ９９２と、ＣＰＵ９９０、ＧＰＵ９９２、ＤＶＤドライブ１００２に接続されたバス１０１０と、バス１０１０に接続され、コンピュータ９７０のブートアッププログラム等を記憶するＲＯＭ９９６と、バス１０１０に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するＲＡＭ９９８と、バス１０１０に接続された不揮発性メモリであるＨＤＤ１０００とを含む。ＨＤＤ１０００は、ＣＰＵ９９０及びＧＰＵ９９２が実行するプログラム、並びにＣＰＵ９９０及びＧＰＵ９９２が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ９７０はさらに、他端末との通信を可能とするネットワーク９８６への接続を提供するネットワークＩ／Ｆ１００８と、ＵＳＢメモリ９８４が着脱可能で、ＵＳＢメモリ９８４とコンピュータ９７０内の各部との通信を提供するＵＳＢポート１００６とを含む。

【0119】

コンピュータ９７０はさらに、マイク９８２及びスピーカ９８０とバス１０１０とに接続され、ＣＰＵ９９０により生成されＲＡＭ９９８又はＨＤＤ１０００に保存された音声信号、映像信号及びテキストデータをＣＰＵ９９０の指示にしたがって読み出し、アナログ変換及び増幅処理をしてスピーカ９８０を駆動したり、マイク９８２からのアナログの音声信号をデジタル化し、ＲＡＭ９９８又はＨＤＤ１０００の、ＣＰＵ９９０により指定される任意のアドレスに保存したりするための音声Ｉ／Ｆ１００４を含む。

【0120】

上記実施形態では、図２に示す表情モデル６０、テキストモデル６２、音声モデル６４、マルチヘッドＧＡＴ６６、全結合層６８、発話信号、映像信号、テキストデータ等のデータ及びパラメータ等は、いずれも例えば図９に示すＨＤＤ１０００、ＲＡＭ９９８、ＤＶＤ９７８又はＵＳＢメモリ９８４、若しくはネットワークＩ／Ｆ１００８及びネットワーク９８６を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からＨＤＤ１０００に書込まれコンピュータ９７０の実行時にはＲＡＭ９９８にロードされる。

【0121】

このコンピュータシステムを、図１に示す表情モデル６０、テキストモデル６２、音声モデル６４を個別に訓練する訓練装置、訓練後の表情モデル６０、テキストモデル６２、及び音声モデル６４を用いてマルチヘッドＧＡＴ６６及び全結合層６８の訓練を行う訓練装置、さらに訓練後の表情モデル６０、テキストモデル６２、音声モデル６４、マルチヘッドＧＡＴ６６及び全結合層６８を用いたマルチ・モダリティ感情認識装置及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、ＤＶＤドライブ１００２に装着されるＤＶＤ９７８に記憶され、ＤＶＤドライブ１００２からＨＤＤ１０００に転送される。又は、このプログラムはＵＳＢメモリ９８４に記憶され、ＵＳＢメモリ９８４をＵＳＢポート１００６に装着し、プログラムをＨＤＤ１０００に転送する。又は、このプログラムはネットワーク９８６を通じてコンピュータ９７０に送信されＨＤＤ１０００に記憶されてもよい。

【0122】

プログラムは実行のときにＲＡＭ９９８にロードされる。もちろん、キーボード９７４、モニタ９７２及びマウス９７６を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをＨＤＤ１０００に格納してもよい。スクリプト言語の場合には、キーボード９７４等を用いて入力したスクリプトをＨＤＤ１０００に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ９７０にインストールしておく必要がある。

【0123】

ＣＰＵ９９０は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスにしたがってＲＡＭ９９８からプログラムを読み出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってＲＡＭ９９８、ＨＤＤ１０００又はそれ以外の機器から読み出して命令により指定される処理を実行する。ＣＰＵ９９０は、実行結果のデータを、ＲＡＭ９９８、ＨＤＤ１０００、ＣＰＵ９９０内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、ＤＶＤ９７８から、ＵＳＢメモリ９８４から、又はネットワークを介して、ＲＡＭ９９８に直接にロードしてもよい。なお、ＣＰＵ９９０が実行するプログラムの中で、一部のタスク（主として数値計算）については、プログラムに含まれる命令により、又はＣＰＵ９９０による命令実行時の解析結果にしたがって、ＧＰＵ９９２にディスパッチされる。

【0124】

コンピュータ９７０により上記した各実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ９７０を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ９７０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ９７０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ９７０の動作方法は周知であるので、ここでは繰返さない。

【0125】

なお、ＧＰＵ９９２は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、ＣＰＵ９９０からＧＰＵ９９２にディスパッチされ、実行され、その結果が直接に、又はＲＡＭ９９８の所定アドレスを介してＣＰＵ９９０に返され、プログラム中の所定の変数に代入される。

【0126】

今回開示された実施形態は単に例示であって、本発明が上記した実施形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

【符号の説明】

【0127】

５０マルチ・モダリティ感情推定システム
６０表情モデル
６２テキストモデル
６４音声モデル
６６マルチヘッドＧＡＴ
６８全結合層
７０感情推定結果
７２、７４表情素性
７６、７８音声素性
８０表情素性ベクトル
８２テキスト素性ベクトル
８４音声素性ベクトル
１００、１０２、１０４更新部
１２０、１２２、１２４ヘッド
１２６平均算出部
１５０訓練データ記憶装置

【図1】