特許7603965 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特許7603965分類器の訓練方法及び訓練装置、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-13

(45)【発行日】2024-12-23

(54)【発明の名称】分類器の訓練方法及び訓練装置、及びコンピュータプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20241216BHJP

G06N 20/00 20190101ALI20241216BHJP

G10L 15/10 20060101ALI20241216BHJP

【ＦＩ】

G06N3/08

G06N20/00 130

G10L15/10 500N

【請求項の数】 11

(21)【出願番号】P 2020191499

(22)【出願日】2020-11-18

(65)【公開番号】P2022080435

(43)【公開日】2022-05-30

【審査請求日】2023-09-27

【新規性喪失の例外の表示】特許法第３０条第２項適用令和２年１０月１６日、ウェブサイトｈｔｔｐｓ：／／ｄｌ．ａｃｍ．ｏｒｇ／ｄｏｉ／ａｂｓ／１０．１１４５／３４２３３２７．３４２３６６９にて公開のＭｕＳｅ’２０：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌｏｎＭｕｌｔｉｍｏｄａｌＳｅｎｔｉｍｅｎｔＡｎａｌｙｓｉｓｉｎＲｅａｌ－ｌｉｆｅＭｅｄｉａＣｈａｌｌｅｎｇｅａｎｄＷｏｒｋｓｈｏｐの予稿集に発表

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３１年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業総括実施型研究ＥＲＡＴＯ「石黒共生ヒューマンロボットインタラクションプロジェクト」協働研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100099933

【弁理士】

【氏名又は名称】清水敏

(72)【発明者】

【氏名】フショウゼン

(72)【発明者】

【氏名】劉超然

(72)【発明者】

【氏名】イシイカルロストシノリ

【審査官】多賀実

(56)【参考文献】

【文献】国際公開第２０１４／０６９１２２（ＷＯ，Ａ１）

【文献】特開２０１９－０２８８３９（ＪＰ，Ａ）

【文献】特表２０１９－５０２９８８（ＪＰ，Ａ）

【文献】LATIF, Siddique et al.，"Augmenting Generative Adversarial Networks for Speech Emotion Recognition"，arXiv.org [online]，2020年07月26日，pp. 1-5, [検索日 2024.11.26]，インターネット：＜URL：https://arxiv.org/pdf/2005.08447v3＞

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０８

Ｇ０６Ｎ２０／００

Ｇ１０Ｌ１５／１０

(57)【特許請求の範囲】

【請求項1】

コンピュータが、所定の分布にしたがって入力からデータを生成するようにエンコーダを訓練するステップと、
コンピュータが、前記所定の分布からのサンプルのデコーダによるデコード結果と、第１の訓練用データに対する前記エンコーダの出力の、前記デコーダを用いたデコード結果とから生成されたデコーダ訓練用の新たなサンプルの、前記第１の訓練用データに対する誤差を最小化するように前記デコーダを訓練するステップと、
コンピュータが、前記所定の分布からのサンプルの前記デコーダによるデコード結果と、第２の訓練用データに対する前記エンコーダの出力の、前記デコーダを用いたデコード結果とから生成された分類器訓練用の新たなサンプルと、前記第２の訓練用データとを正しく分類する確率を最大化するように分類器を訓練し、かつ、前記分類器が誤って分類する確率を最大化するように前記エンコーダ及び前記デコーダを訓練するステップとを含み、
前記所定の分布からのサンプル及び前記第１の訓練用データの各々には、複数種類の教師ラベルのいずれかが割り当てられている、分類器の訓練方法。

【請求項2】

前記所定の分布、前記第１の訓練用データ及び前記第２の訓練用データの各々は、発話音声データを含み、前記複数種類の教師ラベルは、当該発話音声データの表す発話者の感情を示すラベルである、請求項１に記載の分類器の訓練方法。

【請求項3】

前記エンコーダを訓練するステップは、コンピュータが、前記所定の分布からのサンプルと、前記第１の訓練用データに対する前記エンコーダの出力とを所定の判別器が正しく判別する確率を最大化するように前記所定の判別器を訓練し、かつ前記所定の判別器が誤って判別する確率を最大化するよう前記エンコーダを訓練するステップを含む、請求項１又は請求項２に記載の分類器の訓練方法。

【請求項4】

前記デコーダを訓練するステップは、
コンピュータが、前記所定の分布からのサンプルを前記デコーダによりデコードして第１のデコード結果を得るステップと、
コンピュータが、前記第１の訓練用データに対する前記エンコーダの出力を前記デコーダによりデコードして第２のデコード結果を得るステップと、
コンピュータが、前記第１のデコード結果と前記第２のデコード結果との間で所定の演算を行うことにより前記分類器訓練用の新たなデコードサンプルを生成するステップと、
コンピュータが、前記分類器訓練用の新たなデコードサンプルと前記第１の訓練用データとの誤差が小さくなるように、誤差逆伝播法により前記デコーダのパラメータを更新するステップとを含む、請求項１から請求項３のいずれか１項に記載の分類器の訓練方法。

【請求項5】

前記デコーダを訓練するステップはさらに、コンピュータが、前記第１のデコード結果を得るステップと、前記第２のデコード結果を得るステップと、前記デコーダのパラメータを更新するステップとを所定の終了条件が成立するまで繰り返すステップを含む、請求項４に記載の分類器の訓練方法。

【請求項6】

前記新たなデコードサンプルを生成するステップは、コンピュータが、前記第１のデコード結果と前記第２のデコード結果との平均を算出することにより前記新たなデコードサンプルを生成するステップを含む、請求項４又は請求項５に記載の分類器の訓練方法。

【請求項7】

前記分類器を訓練するステップは、
コンピュータが、前記所定の分布からのサンプルを前記デコーダによりデコードして分類器訓練用の第１のデコード結果を得るステップと、
コンピュータが、前記第２の訓練用データに対する前記エンコーダの出力を前記デコーダによりデコードして分類器訓練用の第２のデコード結果を得るステップと、
コンピュータが、前記分類器訓練用の第１のデコード結果と前記分類器訓練用の第２のデコード結果との間で所定の演算を行うことにより前記分類器訓練用の新たなデコードサンプルを生成するステップと、
コンピュータが、前記第２の訓練用データ又は前記分類器訓練用の新たなデコードサンプルについて、前記第２の訓練用データか、前記分類器訓練用の新たなデコードサンプルかを前記分類器により分類して分類結果を得るステップと、
コンピュータが、前記分類結果と正しい分類との誤差を用いた誤差逆伝播法により、前記誤差が小さくなるように前記分類器のパラメータを更新するステップとを含む、請求項１から請求項６のいずれか１項に記載の分類器の訓練方法。

【請求項8】

前記分類器を訓練するステップはさらに、コンピュータが、前記分類器訓練用の第１のデコード結果を得るステップと、前記分類器訓練用の第２のデコード結果を得るステップと、前記分類器のパラメータを更新するステップとを所定の終了条件が成立するまで繰り返すステップを含む、請求項７に記載の分類器の訓練方法。

【請求項9】

前記分類器訓練用の新たなデコードサンプルを生成するステップは、コンピュータが、前記分類器訓練用の第１のデコード結果と前記分類器訓練用の第２のデコード結果との平均を算出することにより前記分類器訓練用の新たなデコードサンプルを生成するステップを含む、請求項７又は請求項８に記載の分類器の訓練方法。

【請求項10】

コンピュータを、請求項１から請求項９のいずれか１項に記載の訓練方法を実行するよう機能させる、コンピュータプログラム。

【請求項11】

所定の分布にしたがって入力からデータを生成するようにエンコーダを訓練するエンコーダ訓練手段と、
前記所定の分布からのサンプルのデコーダによるデコード結果と、第１の訓練用データに対する前記エンコーダの出力の、前記デコーダを用いたデコード結果とから生成されたデコーダ訓練用の新たなサンプルの、前記第１の訓練用データに対する誤差を最小化するように前記デコーダを訓練するデコーダ訓練手段と、
前記所定の分布からのサンプルの前記デコーダによるデコード結果と、第２の訓練用データに対する前記エンコーダの出力の、前記デコーダを用いたデコード結果とから生成された分類器訓練用の新たなサンプルと、前記第２の訓練用データとを正しく分類する確率を最大化するように分類器を訓練し、かつ、前記分類器が誤って分類する確率を最大化するように前記エンコーダ及び前記デコーダを訓練する分類器訓練手段とを含み、
前記所定の分布からのサンプル及び前記第１の訓練用データの各々には、複数種類の教師ラベルのいずれかが割り当てられている、分類器の訓練装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は音声等から話者の感情等の内的状況を分類するための分類器とその訓練方法及び訓練装置、そのためのコンピュータプログラム、並びに感情分類器に関する。

【背景技術】

【0002】

最近は、感情推定に関する研究が進みつつある。感情推定とは、人が他の人等とコミュニケーションを行っているときのその人の声、表情、身体動作、発話の内容等に基づいて人の内部状態を推定することである。人の感情を推定することで、例えば人と対話するエージェントの動作を制御したり、逆にエージェントの動作を制御することで相手にエージェントがどのような感情を抱いているかを伝達したりできる。

【0003】

現在では、こうした人の内部状態を推定するための技術として、ニューラルネットワーク等の機械学習を行うことが主流である。テキスト又はイメージ等の場合には、そうしたデータを大量に集め、学習のために分類しデータベース化することは比較的容易である。しかし音声の場合、そのようなデータを大量に集め、信頼性高く分類することは難しい。従来は、例えば俳優等に特定の感情を表すような発話をするよう依頼し、そこから得られた音声を用いていた。しかしそのようにして意図的に感情を表現した発話は、日常的に見られるコミュニケーションでの表現より大げさで強すぎることが多い。そのため、そうした発話から得たデータを用いると、日常的なコミュニケーションに伴う感情の表現を正確に捉えられないという問題があった。したがって最近では、意図的に感情を表現した発話から得たデータではなく、日常的なコミュニケーションから得た音声を感情推定のための基礎的データとする研究者が多くなっている。

【0004】

しかし、このような日常的なコミュニケーションから得た音声について、話者の内部状態を他者が正確に分類することは極めて難しい。仮に正確に分かることがあったとしても、そのようなデータには偏りがあり、感情からどのような音声が生ずるかについての実際の分布の全体をカバーできるとは考えられない。そのため、そうしたデータを用いて例えば機械学習により感情推定のためのモデルを訓練したとしても、信頼性の高い推定を行うことは困難であるという問題がある。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０２０－１５４３３２

【非特許文献】

【0006】

【文献】Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, and Brendan Frey. 2015. Adversarial Autoencoders. arXiv preprint arXiv:1511.05644 (2015).

【文献】Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative Adversarial Nets. In Advances in Neural Information Processing Systems, pages 2672-2680, 2014.

【文献】Lukas Stappen, Alice Baird, Georgios Rizos, Panagiotis Tzirakis, Xinchen Du, Felix Hafner, Lea Schumann, Adria Mallol-Ragolta, Bjorn W Schuller, Iulia Lefter, et al. 2020. MuSe 2020-The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop. arXiv preprint arXiv:2004.14858 (2020).

【発明の概要】

【発明が解決しようとする課題】

【0007】

前掲の特許文献１には、音声の解析区間を設定し、解析区間に含まれる音声データの特徴量の変化するパターンを決定して、感情ごとに対応する特徴量の変化パターンごとに分類された音声データを教師データとして発話者の感情を推定する技術が開示されている。

【0008】

しかしこの特許文献１に開示の技術も発話データを大量に集めることが前提とされており、感情ごとに対応する特徴量の変化パターンを決定する必要がある。そのためには、発話時の話者の感情を正確に知る必要がある。しかし、学習のためのデータを多く集めるのが難しいことは前述したとおりである。データが不足すると、得られたモデルの信頼性が低くなるという問題がある。

【0009】

したがってこの発明は、音声に代表されるような、人間の内部状態を正確に知ることが難しいモダリティのデータについて、モデルの訓練を信頼性高く行えるようにすることを目的とする。

【課題を解決するための手段】

【0010】

本発明の第１の局面に係る分類器の訓練方法は、コンピュータが、所定の分布にしたがって入力からデータを生成するようにエンコーダを訓練するステップと、コンピュータが、所定の分布からのサンプルのデコーダによるデコード結果と、第１の訓練用データに対するエンコーダの出力の、デコーダを用いたデコード結果とから生成されたデコーダ訓練用の新たなサンプルの、第１の訓練用データに対する誤差を最小化するようにデコーダを訓練するステップと、コンピュータが、所定の分布からのサンプルのデコーダによるデコード結果と、第２の訓練用データに対するエンコーダの出力の、デコーダを用いたデコード結果とから生成された分類器訓練用の新たなサンプルと、第２の訓練用データとを正しく分類する確率を最大化するように分類器を訓練し、かつ、分類器が誤って分類する確率を最大化するようにエンコーダ及びデコーダを訓練するステップとを含み、所定の分布からのサンプル及び第１の訓練用データの各々には、複数種類の教師ラベルのいずれかが割り当てられている。

【0011】

好ましくは、所定の分布、第１の訓練用データ及び第２の訓練用データの各々は、発話音声データを含み、複数種類の教師ラベルは、当該発話音声データの表す発話者の感情を示すラベルである。

【0012】

より好ましくは、エンコーダを訓練するステップは、コンピュータが、所定の分布からのサンプルと、第１の訓練用データに対するエンコーダの出力とを所定の判別器が正しく判別する確率を最大化するように所定の判別器を訓練し、かつ所定の判別器が誤って判別する確率を最大化するようエンコーダを訓練するステップを含む。

【0013】

さらに好ましくは、デコーダを訓練するステップは、コンピュータが、所定の分布からのサンプルをデコーダによりデコードして第１のデコード結果を得るステップと、コンピュータが、第１の訓練用データに対するエンコーダの出力をデコーダによりデコードして第２のデコード結果を得るステップと、コンピュータが、第１のデコード結果と第２のデコード結果との間で所定の演算を行うことにより分類器訓練用の新たなデコードサンプルを生成するステップと、コンピュータが、分類器訓練用の新たなデコードサンプルと第１の訓練用データとの誤差が小さくなるように、誤差逆伝播法によりデコーダのパラメータを更新するステップとを含む。

【0014】

好ましくは、デコーダを訓練するステップはさらに、コンピュータが、第１のデコード結果を得るステップと、第２のデコード結果を得るステップと、デコーダのパラメータを更新するステップとを所定の終了条件が成立するまで繰り返すステップを含む。

【0015】

より好ましくは、新たなデコードサンプルを生成するステップは、コンピュータが、第１のデコード結果と第２のデコード結果との平均を算出することにより新たなデコードサンプルを生成するステップを含む。

【0016】

さらに好ましくは、分類器を訓練するステップは、コンピュータが、所定の分布からのサンプルをデコーダによりデコードして分類器訓練用の第１のデコード結果を得るステップと、コンピュータが、第２の訓練用データに対するエンコーダの出力をデコーダによりデコードして分類器訓練用の第２のデコード結果を得るステップと、コンピュータが、分類器訓練用の第１のデコード結果と分類器訓練用の第２のデコード結果との間で所定の演算を行うことにより分類器訓練用の新たなデコードサンプルを生成するステップと、コンピュータが、第２の訓練用データ又は分類器訓練用の新たなデコードサンプルについて、第２の訓練用データか、分類器訓練用の新たなデコードサンプルかを分類器により分類して分類結果を得るステップと、コンピュータが、分類結果と正しい分類との誤差を用いた誤差逆伝播法により、誤差が小さくなるように分類器のパラメータを更新するステップとを含む。

【0017】

好ましくは、分類器を訓練するステップはさらに、コンピュータが、分類器訓練用の第１のデコード結果を得るステップと、分類器訓練用の第２のデコード結果を得るステップと、分類器のパラメータを更新するステップとを所定の終了条件が成立するまで繰り返すステップを含む。

【0018】

より好ましくは、分類器訓練用の新たなデコードサンプルを生成するステップは、コンピュータが、分類器訓練用の第１のデコード結果と分類器訓練用の第２のデコード結果との平均を算出することにより分類器訓練用の新たなデコードサンプルを生成するステップを含む。

【0019】

本発明の第２の局面に係る分類器は、上記したいずれかの分類器の訓練方法により訓練された分類器である。

【0020】

本発明の第３の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の各手段として機能させる。

【0021】

本発明の第４の局面に係る分類器の訓練装置は、所定の分布にしたがって入力からデータを生成するようにエンコーダを訓練するエンコーダ訓練手段と、所定の分布からのサンプルのデコーダによるデコード結果と、第１の訓練用データに対するエンコーダの出力の、デコーダを用いたデコード結果とから生成されたデコーダ訓練用の新たなサンプルの、第１の訓練用データに対する誤差を最小化するようにデコーダを訓練するデコーダ訓練手段と、所定の分布からのサンプルのデコーダによるデコード結果と、第２の訓練用データに対するエンコーダの出力の、デコーダを用いたデコード結果とから生成された分類器訓練用の新たなサンプルと、第２の訓練用データとを正しく分類する確率を最大化するように分類器を訓練し、かつ、分類器が誤って分類する確率を最大化するようにエンコーダ及びデコーダを訓練する分類器訓練手段とを含み、所定の分布からのサンプル及び第１の訓練用データの各々には、複数種類の教師ラベルのいずれかが割り当てられている。

【0022】

本発明の第５の局面に係る感情分類器は、入力データが表す感情を示す感情ラベルを出力する感情分類手段と、データが実データであるか、所定のデータ生成手段により生成されたフェイクデータであるかを示す判別ラベルを出力する判別手段とを含む。

【0023】

好ましくは、入力データは発話音声である。

【0024】

この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。

【図面の簡単な説明】

【0025】

【図1】図１は、一般的な感情認識モデルの訓練過程を模式的に示すブロック図である。

【図2】図２は、実データの分布を敵対的学習によりエンコーダに学習させるシステムのブロック図である。

【図3】図３は、本発明による訓練データの拡張手法を模式的に示す図である。

【図4】図４は、本発明の実施形態に係る、訓練データの拡張のための構成及び訓練データの感情の分類器の訓練のための分類器訓練装置の構成を模式的に示す図である。

【図5】図５は、図４に示すエンコーダの構成を模式的に示す図である。

【図6】図６は、図４に示すデコーダの構成を模式的に示す図である。

【図7】図７は、図４に示す判別器の構成を模式的に示す図である。

【図8】図８は、図４に示す分類器の構成を模式的に示す図である。

【図9】図９は、図４に示す分類器訓練装置の訓練をコンピュータにより実現するためのコンピュータプログラムの制御構造を示すフローチャートである。

【図10】図１０は、図４に示す分類器訓練装置の訓練過程を説明するための模式図である。

【図11】図１１は、分類器のテスト時の構成を示す模式図である。

【図12】図１２は、分類器の全体訓練の１０回目の繰り返しで得られた訓練データの構成を示すグラフである。

【図13】図１３は、分類器の全体訓練の１００回目の繰り返しで得られた訓練データの構成を示すグラフである。

【図14】図１４は、分類器の全体訓練の５００回目の繰り返しで得られた訓練データの構成を示すグラフである。

【図15】図１５は、この発明の実施形態を実現するコンピュータシステムの外観を示す図である。

【図16】図１６は、図１５に外観を示すコンピュータシステムのハードウェア構成を示すブロック図である。

【発明を実施するための形態】

【0026】

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

【0027】

＜従来技術＞
モデルの精度を高める手法の一つとして、利用可能な訓練用サンプルから新たな訓練用サンプルを追加する手法がある。

【0028】

図１に、従来技術に係る訓練用サンプルの追加手法を用いる感情認識モデルの訓練システム５０の概略構成を示す。この従来技術は、前掲の非特許文献１に開示されたものである。

【0029】

図１を参照して、感情認識モデルの訓練システム５０は、実際の音声データから得たサンプルからなる実データ記憶装置６０と、実データ記憶装置６０に記憶されたサンプルを用いた敵対的学習によりサンプルデータの分布を学習するよう、感情ラベル付き音声の生成モデル６２の訓練を行うトレーニング部６４と、生成モデル６２により生成された拡張サンプル（拡張音声データ）を記憶するための拡張サンプル記憶装置６６と、実データ記憶装置６０に記憶されたサンプルデータと、拡張サンプル記憶装置６６に記憶された拡張後の音声データとを教師データとして感情認識モデル７０の訓練を行うためのトレーニング部６８とを含む。このようにして訓練された感情認識モデル７０は、音声データ７２が与えられると、その音声を発話したときの話者の感情を示す感情ラベル７４を出力する。なお、敵対的学習については非特許文献２にその基本的な考え方が開示されている。

【0030】

図２は、図１に示すトレーニング部６４の構成を示す。トレーニング部６４は生成モデル６２を敵対的学習により訓練する。図２を参照して、トレーニング部６４は、例えばサンプルΧが与えられると内部のパラメータにしたがって演算をしてサンプルΧを表す表現ベクトルＺを出力するエンコーダ９０と、所定の分布からサンプリングされたノイズε又はエンコーダ９０からの表現ベクトルＺが与えられると、それらが所定の分布から得られたものか（リアル）、エンコーダ９０によりサンプルから得られたものか（フェイク）を判定し、リアル／フェイクの判別結果を出力する判別器９２と、エンコーダ９０からの表現ベクトルＺを受けてデコードして得られる拡張サンプルΧ′がサンプルΧと等しくなるよう（誤差が最小となるよう）訓練されるデコーダ９４とを含む。すなわち、エンコーダ９０とデコーダ９４とはオートエンコーダを形成する。

【0031】

このトレーニング部６４では、ノイズεが所定の分布から得られたデータであり、表現ベクトルＺがサンプルΧから得られたエンコーダ９０の出力であると正しく判定するように判別器９２を訓練し、同時に表現ベクトルＺを判別器９２がノイズεであると誤判定する確率を最大化するようエンコーダ９０を訓練する、いわゆる敵対的学習が行われる。さらに、エンコーダ９０からの表現ベクトルＺをデコーダ９４でデコードした拡張サンプルΧ′がエンコーダ９０へのサンプルΧと等しくなるようデコーダ９４の訓練を行う。この２つのフェーズの訓練が所定の終了条件が成立するまで行われる。

【0032】

こうした訓練の結果、デコーダ９４はノイズεにより示される分布を学習し、入力が与えられると、ノイズεのもととなった分布にしたがって拡張サンプルΧ′を出力するようになる。こうして、サンプルが拡張サンプルΧ′により拡張される。

【0033】

しかし、この従来技術では以下のような問題がある。図３（Ａ）を参照して、感情認識モデル７０の訓練を行うための訓練サンプルの分布１２０に対し、一般的にはテスト用サンプルの分布１２２が完全に重なることはないと考えられる。すなわち、図３（Ａ）に示すように、テスト用サンプルの分布１２２は訓練サンプルの分布１２０と一部重なっているが、一部は訓練サンプルの分布１２０の外にあると考えられる。

【0034】

上記した従来技術では、ノイズεがしたがう訓練サンプルの分布１２０の分布を感情認識モデル７０に学習させる。その結果、図３（Ｂ）に示されるように、たしかに訓練サンプルの分布１２０の内部のサンプル数は多くなる。しかしそれらのほとんどは訓練サンプルの分布１２０の内部にとどまり、テスト用サンプルの分布１２２の全体をカバーすることはないと考えられる。そのため、テスト用サンプルの分布１２２によるテストをすると、十分な性能向上を示すことはないと考えられる。

【0035】

以下に説明する実施形態は、図３（Ｃ）に示すように、拡張後のデータが示す実世界で予測されるサンプルの分布１２４が訓練サンプルの分布１２０の外部まで広がり、テスト用サンプルの分布１２２をできるだけ多く含むようにするためのものである。

【0036】

＜実施形態＞
［構成］
図４に、この実施形態に係る分類器訓練装置１５０の構成をブロック図形式で示す。図４を参照して、分類器訓練装置１５０においては、図２のトレーニング部６４と異なり、デコーダ９４が、ノイズεとエンコーダ９０の出力である表現ベクトルＺとの各々を別々にデコードして、第１のデコード結果Χ′_εと第２のデコード結果Χ′_Ｚとを出力する。分類器訓練装置１５０はさらに、第１のデコード結果Χ′_εと第２のデコード結果Χ′_Ｚとの算術平均である拡張サンプルΧ′を算出する平均算出部１６０と、平均算出部１６０の出力する拡張サンプルΧ′とエンコーダ９０への入力であるサンプルΧとを受け、入力されたデータが真のサンプルΧ（リアル）か、デコーダ９４によるデコードで得られた拡張サンプルΧ′（フェイク）かの判別結果を示すラベル、及び、各データが複数の感情カテゴリＣ１／Ｃ２／…の何れに属するかを示すラベルを出力する分類器１６２とを新たに含む点において図２のトレーニング部６４と異なる。デコーダ９４には、ノイズεと表現ベクトルＺが順番に入力される。

【0037】

図５は図４に示すエンコーダ９０の構成を示す。図５を参照して、エンコーダ９０は、音声信号から抽出したパワースペクトログラム１８０を入力とする、時系列データの処理に適した双方向ＧＲＵ層１８２と、双方向ＧＲＵ層１８２の後段に設けられた３層の全結合層１８４とを含む。全結合層１８４の最後の隠れ層のベクトル表現が表現ベクトルＺである。

【0038】

この実施形態では、双方向ＧＲＵ層１８２のＧＲＵセルの数は６４、３層の隠れ層のユニット数はそれぞれ５１２、２５６及び１２８である。

【0039】

図６を参照して、デコーダ９４は、ノイズε又は表現ベクトルＺを入力とするシンプルな３層の全結合層２００を含む。各層のユニット数は６４、６４及び３８，４００とした。全結合層２００の最終層の出力が再構成されたスペクトログラムである。

【0040】

図７を参照して、判別器９２は、デコーダ９４と同様、ノイズε又は表現ベクトルＺを入力とするシンプルな３層の全結合層２１０を含む。３層の全結合層２１０のユニット数はそれぞれ５１２、２５６及び１である。最終層の出力がリアル／フェイクを示す。

【0041】

図８を参照して、分類器１６２は、サンプルΧ及び拡張サンプルΧ′のいずれかであるパワースペクトログラム２３０を入力として受ける、３層のコンボリューショナルネットワーク２３２と、コンボリューショナルネットワーク２３２の出力を受ける双方向ＧＲＵ層２３４と、双方向ＧＲＵ層２３４からの出力を受ける、３つの独立した全結合層２３６、２３８、及び全結合層２４０とを含む。コンボリューショナルネットワーク２３２の各層のフィルタ数はそれぞれ５１２、２５６及び１２８であり、カーネルサイズはそれぞれ３、１、及び３である。フィルタのストライドはいずれも１である。双方向ＧＲＵ層２３４のＧＲＵセルの数は６４である。

【0042】

全結合層２３６、２３８及び全結合層２４０はいずれも３層の全結合層からなるニューラルネットワークである。全結合層２３６はリアル／フェイクの判別を行うためのもの、全結合層２３８は感情の一次元である覚醒度を示すラベルを出力するためのもの、全結合層２４０は感情の他の一次元である感情価を示すラベルを出力するためのものである。

【0043】

全結合層２３６の３つの全結合層のユニット数はそれぞれ５１２、３２及び１である。全結合層２３８及び全結合層２４０のいずれにおいても、３つの全結合層のユニット数はそれぞれ５１２、３２及び３である。

【0044】

図９に、図４に示す分類器訓練装置１５０の訓練を行うためのコンピュータプログラムの制御構造をフローチャート形式で示す。図９を参照して、このプログラムは、図４に示すエンコーダ９０と判別器９２とをいわゆる敵対的学習によりＮエポックにわたり繰り返し訓練するステップ３００と、ステップ３００に続き、デコーダ９４の出力がエンコーダ９０への入力と等しく（誤差が小さく）なるように、エンコーダ９０とデコーダ９４とを通常の誤差逆伝播法によりＮエポックにわたり繰り返し訓練するステップ３０２と、ステップ３０２に続き、デコーダ９４と分類器１６２とを敵対的学習により、Ｎエポックにわたり繰り返し訓練するステップ３０４と、ステップ３０４の後、分類器訓練装置１５０を構成する各ニューラルネットワークのパラメータが収束したか否かを判定し、収束したときにはこのプログラムの実行を終了し、収束していない場合には制御をステップ３００に戻して分類器訓練装置１５０の訓練を再度開始するステップ３０６とを含む。

【0045】

以下の式（１）に、この実施形態の説明で使用されている記号について示す。

【0046】

【数1】

上記式（１）の表現を使用して、以下の式（２）に図４の分類器訓練装置１５０の訓練を行う際の目的関数を示す。

【0047】

【数2】

なお、式（２）で「Ｃ」及び「Ｄ」は分類器１６２及び判別器９２をそれぞれ示し、「Ｃｃ」及び「Ｃｄ」はいずれも分類器１６２の出力の一部であって、感情の分類とリアル／フェイクの判別とをそれぞれ示す。白抜きのＥは期待値を示し、その右下の添字はどの変数に関する期待値かを示す。また「Ｄｅｃｏｄｅｒ（ε，Ｚ）」は、上記したようにノイズε及び表現ベクトルZに対するデコーダ出力の平均を示す。

【0048】

このような訓練と同時に平均算出部１６０の出力する拡張サンプルΧ′として、実データを拡張した新たな訓練サンプルが得られ、その訓練サンプルを用いて分類器１６２の訓練が行われる。訓練が完了した後の分類器１６２は、図１１に示すように発話の音声データであるサンプルΧを受けると、発話したときの話者の感情を示す２種類のラベル（＋サンプルΧに関するリアル／フェイクの出力）を出力する分類器として利用可能である。

【0049】

［動作］
上記した分類器訓練装置１５０は以下のように動作する。なお、これに先立ち、実データのサンプルが予め記憶装置に記憶されているものとする。

【0050】

図９のステップ３００で、図１０（Ａ）に示すように、エンコーダ９０及び判別器９２の敵対的学習が行われる。この学習では、例えばサンプルΧに対してエンコーダ９０が表現ベクトルＺを出力し、所定の分布から得られたノイズε又はエンコーダ９０からの表現ベクトルＺが判別器９２に与えられる。判別器９２とエンコーダ９０との敵対的学習では、判別器９２がノイズεについてはリアル、表現ベクトルＺについてはフェイクと正しく判別するように、かつ、エンコーダ９０については、判別器９２が表現ベクトルＺを誤ってリアルと判別するように、それぞれパラメータを学習する。この訓練は訓練データを全て利用する訓練を１エポックとして、Ｎエポックにわたり繰り返される。この訓練により、エンコーダ９０及び判別器９２のパラメータが更新される。

【0051】

ステップ３００の訓練が終了すると、図９のステップ３０２で、図１０（Ｂ）に示すように、デコーダ９４の出力とエンコーダ９０への入力との誤差が小さくなるようにエンコーダ９０及びデコーダ９４の訓練が行われる。すなわち、ノイズεがデコーダ９４に与えられ、デコーダ９４がそれをデコードして第１のデコード結果Χ′_εを出力する。続いてサンプルΧがエンコーダ９０に与えられエンコーダ９０がそれエンコードして表現ベクトルＺを出力する。この表現ベクトルＺがデコーダ９４によりデコードされ第２のデコード結果Χ′_Ｚが得られる。平均算出部１６０が両者の平均である拡張サンプルΧ′を算出する。エンコーダ９０及びデコーダ９４は、拡張サンプルΧ′がサンプルΧと等しくなるように（両者の誤差が小さくなるように）訓練される。

【0052】

この訓練は訓練データを全て利用する訓練を１エポックとして、Ｎエポックにわたり繰り返される。この訓練により、エンコーダ９０とデコーダ９４とのパラメータが更新される。またこの過程で新たなサンプルが生成される。

【0053】

ステップ３０２の訓練が終了すると、図９のステップ３０４で、エンコーダ９０、デコーダ９４及び分類器１６２の訓練が実行される。このとき、分類器１６２には、サンプルΧと拡張サンプルΧ′とが別々に与えられる。分類器１６２はサンプルΧが入力されたときにはリアルと、拡張サンプルΧ′が入力されたときにはフェイクと正しく判定するように訓練され、一方でエンコーダ９０及びデコーダ９４は、分類器１６２が拡張サンプルΧ′をサンプルΧと誤って判定する確率を最大化するように訓練される。この訓練がＮエポックにわたり繰り返される。その結果、エンコーダ９０、デコーダ９４及び分類器１６２のパラメータが更新される。この過程では、もとのサンプルΧに加え、新たに生成されたステップ３０２で生成された新たな拡張サンプルΧ′が訓練サンプルとして使用される。

【0054】

この処理を実行した後、図９のステップ３０６で、エンコーダ９０、判別器９２、デコーダ９４及び分類器１６２のパラメータが収束したか否かが判定される。収束していれば、このときのエンコーダ９０、判別器９２、デコーダ９４及び分類器１６２のパラメータを所定の記憶装置に格納してこのプログラムの実行を終了する。パラメータが収束していなければ制御は再びステップ３００に戻り、上記した処理がさらに繰り返される。

【0055】

なお、パラメータが収束したか否かという条件ではなく、全体の繰り返しが何回実行されたかを終了条件としてもよい。

【0056】

以上のようにして訓練が終了した後の分類器１６２は、テスト時に音声データが入力されるとその音声の発話時の発話者の感情を示す２種類のラベルを出力するようになる。なお、分類器１６２は訓練時には入力がリアルかフェイクかを示すラベルを出力するようにされている。したがって、分類器１６２はテスト時にも入力がリアルかフェイクかを示す情報も出力できるが、これの情報自体はテスト時には意味がないので利用されない。

【0057】

なお、図９に示す例では、ステップ３００、３０２及びステップ３０４の全てにおいて同じエポック数の訓練を行った。しかしこの発明はそのような実施形態には限定されない。互いに異なるエポック数を採用したり、一つだけ他のものと異なるエポック数を採用したりしてもよい。

【0058】

さらに、上記したエンコーダ９０、判別器９２、デコーダ９４、分類器１６２等を構成する双方向ＧＲＵ層のセル数、ニューラルネットワークの層数、及び各層のユニット数も上記したものには限定されない。

【0059】

［実験結果］
上記実施形態に係る分類器訓練装置１５０により訓練した分類器１６２の精度について、非特許文献３に紹介されたMuSe-Topicのデータセットを使用して実験により確認した。このデータセットに関しては自動車の紹介ビデオに関する２つのタスクが設けられている。第１はドメイン特有の１０クラスの感情の予測であり、第２は３クラスの感情価と覚醒度とに関する予測である。実験ではビデオのうち、音声のみを利用した感情を予測するタスクのみ行った。

【0060】

元のデータを４２０７の訓練サンプルと１３３５のテストサンプルとに分割して上記実施形態で説明した分類器訓練装置１５０の訓練を行い、訓練が終わった分類器１６２のテストを行った。分類器１６２の評価は、各予測結果とは別に、（０．３４×）Unweighted Average Recall (UAR)と、（０．６６×）Ｆ１スコアとを組合せて行った。これはベースラインのモデルと同じ基準である。

【0061】

音声信号の前処理として、ビデオ信号の各セグメントからパワースペクトログラムを抽出し、訓練で使用する素性として用いた。各発話の最大長を６．８秒に設定した。それより長い発話は１５秒でカットし、短い発話は足りない部分をゼロでパディングした。サンプリングレートは１６０００Ｈｚとした。各フレームについて長さ１０２４でホップ長５１２の高速フーリエ変換を行った。

【0062】

実験では、図９のステップ３００では１０エポック、ステップ３０２では２０エポック、ステップ３０４では２０エポックの繰り返しを行い、全体の処理の終了は、繰り返し回数が５００となったときとした。

【0063】

実験に使用したサンプルデータの概略統計を以下のテーブル１に示す。

【0064】

【表1】

実験では様々な設定を用いた。それらの設定を以下のテーブル２に示す。

【0065】

【表2】

このテーブルにおいて、ＡＡＥＣは上記した実施形態で訓練された分類器を示す。「構成要素」に記載のＤ及びＣはそれぞれ判別器及び分類器を示す。Ｇは上記した実施形態のエンコーダ・デコーダを、Ｇ_ｏｒｉは図２に示す従来のエンコーダ・デコーダを示す。ＡＡＥ＿Ｃは、分類器Ｃだけで判別器Ｄが不要かを確認するために判別器Ｄを削除したものである。ＡＡＥ＋Ｃは、分類器Ｃに対する敵対的学習により分類器Ｃの性能が向上しているか否かを確認するためのものであり、繰り返し学習時に分類器Ｃを外しておき、繰り返し終了後に分類器Ｃを訓練したものである。ＡＡＥＣ′は上記した実施形態のエンコーダ・デコーダの効果を図２に示す従来のエンコーダ・デコーダと比較するためのものである。また、ＡＡＥＣの効果を確認するために、分類器Ｃのみを訓練した結果を「Classifier」により示してある。

【0066】

テーブル２には、ベースラインとして非特許文献３に報告された結果を示す。ベースラインは、オーディオのみを用いたＳＶＭによる感情認識と、オーディオのみを用いたＬＳＴＭとセルフアテンションとを用いたニューラルネットワーク（ＬＳＴＭ＋ｓｅｌｆ－ＡＴＴ）による感情認識と、音声＋画像＋テキストを用いたマルチモーダルのモデルによる感情認識ＭＭＴとの結果を示す。なお、「ＭＭＴ」は、「ＭｕｌｔｉｍｏｄａｌＴｒａｎｓｆｏｒｍｅｒ」の略である。

【0067】

テーブル２において太字で示した数字が最も高い性能を示している。テーブル２を参照して、上記実施形態に係る敵対的学習、又はそれに類する敵対的学習を用いて訓練した分類器が分類器のみのものより高い性能を示している事が分かる。拡張後のデータを用いて訓練した分類器（ＡＡＥ＋Ｃ）も分類器のみと比較して性能が２．６％向上している。また、ＡＡＥＣとＡＡＥ＋Ｃとの結果を比較すると、ＡＡＥＣは２．２％の性能の向上を示しており、上記実施形態の敵対的学習が高い効果を示すことが分かる。

【0068】

さらに、ＡＡＥＣとＡＡＥ＿Ｃとの結果を比較すると、判別器を組み込んだモデルは、組合せのスコアで性能が０．８％程度改善している。この結果から、判別器と分類器とが一部重なった働きをしてはいるものの、判別器がある方がよいことが分かる。

【0069】

ＡＡＥＣとＡＡＥＣ′との比較からは、上記実施形態に示したように、ノイズεと表現ベクトルZとを別々にデコーダに入力し、得られた第１のデコード結果Χ′_ε及び第２のデコード結果Χ′_Ｚを平均して拡張サンプルΧ′を得ることにより、性能が向上したことが分かる。その値（４０．３３％）は、ＡＡＥＣ′の性能（３８．３１％）を約１．５％上回っている。

【0070】

上記実施形態に係るデコーダに、訓練の１０回、１００回及び５００回の繰り返し時にサンプルをランダムに生成させ、元のデータと拡張されたデータとの分散状態を主成分分析により視覚化したものを図１２、図１３及び図１４にそれぞれ示す。これらの図は白黒であるため少し分かりづらいが、逆Ｙ字型のシンボルがオリジナルのサンプルを示し、Ｘ型のシンボルがテスト用サンプルを示し、＋型のシンボルが拡張されたサンプル（図中で最も濃い領域）を示す。

【0071】

これらの図から明らかなように、もともとの訓練用サンプルはテスト用サンプルを完全にはカバーしていない。これは従来技術の問題点として述べたとおりである。訓練の繰り返しの最初では、拡張後のサンプルはもともとの訓練用サンプルとかなり重複した部分に生成されているが、繰り返し数が大きくなるにつれて、拡張後のサンプルが訓練用サンプルの領域よりも外に多く生成されるようになっていることが分かる。この結果、上記した実施形態により生成された拡張後のサンプルが、実世界のデータの分布により近くなること、したがってそのような拡張後のサンプルを使用して訓練した分類器が元の訓練用サンプルのみを用いて訓練した分類器より高い性能を示すことが確認できた。

【0072】

［コンピュータによる実現］
図１５は、上記各実施形態を実現するコンピュータシステムの外観図である。図１６は、図１５に示すコンピュータシステムのハードウェアブロック図である。

【0073】

図１５を参照して、このコンピュータシステム９５０は、ＤＶＤドライブ１００２を有するコンピュータ９７０と、いずれもコンピュータ９７０に接続された、ユーザと対話するためのキーボード９７４、マウス９７６、及びモニタ９７２とを含む。もちろんこれらはユーザ対話が必要となったときのための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア（例えばタッチパネル、音声入力、ポインティングデバイス一般）であればどのようなものも利用できる。

【0074】

図１６を参照して、コンピュータ９７０は、ＤＶＤドライブ１００２に加えて、ＣＰＵ９９０と、ＧＰＵ９９２と、ＣＰＵ９９０、ＧＰＵ９９２、ＤＶＤドライブ１００２に接続されたバス１０１０と、バス１０１０に接続され、コンピュータ９７０のブートアッププログラム等を記憶するＲＯＭ９９６と、バス１０１０に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するＲＡＭ９９８と、バス１０１０に接続された不揮発性メモリであるＨＤＤ１０００とを含む。ＨＤＤ１０００は、ＣＰＵ９９０及びＧＰＵ９９２が実行するプログラム、並びにＣＰＵ９９０及びＧＰＵ９９２が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ９７０はさらに、他端末との通信を可能とするネットワーク９８６への接続を提供するネットワークＩ／Ｆ１００８と、ＵＳＢメモリ９８４が着脱可能で、ＵＳＢメモリ９８４とコンピュータ９７０内の各部との通信を提供するＵＳＢポート１００６とを含む。

【0075】

コンピュータ９７０はさらに、マイク９８２及びスピーカ９８０とバス１０１０とに接続され、ＣＰＵ９９０により生成されＲＡＭ９９８又はＨＤＤ１０００に保存された音声信号、映像信号及びテキストデータをＣＰＵ９９０の指示にしたがって読み出し、アナログ変換及び増幅処理をしてスピーカ９８０を駆動したり、マイク９８２からのアナログの音声信号をデジタル化し、ＲＡＭ９９８又はＨＤＤ１０００の、ＣＰＵ９９０により指定される任意のアドレスに保存したりするための音声Ｉ／Ｆ１００４を含む。

【0076】

上記実施形態では、図４に示すエンコーダ９０、判別器９２、デコーダ９４、及び分類器１６２、並びに発話信号、映像信号及びテキストデータ等のデータ及びパラメータ等は、いずれも例えば図１６に示すＨＤＤ１０００、ＲＡＭ９９８、ＤＶＤ９７８又はＵＳＢメモリ９８４、若しくはネットワークＩ／Ｆ１００８及びネットワーク９８６を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からＨＤＤ１０００に書込まれコンピュータ９７０の実行時にはＲＡＭ９９８にロードされる。

【0077】

このコンピュータシステムを、図４に示す分類器訓練装置１５０のエンコーダ９０、判別器９２、デコーダ９４及び分類器１６２、これらを敵対的学習により訓練する分類器訓練装置１５０、訓練後の分類器１６２を用いた感情認識装置及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、ＤＶＤドライブ１００２に装着されるＤＶＤ９７８に記憶され、ＤＶＤドライブ１００２からＨＤＤ１０００に転送される。又は、これらのプログラムはＵＳＢメモリ９８４に記憶され、ＵＳＢメモリ９８４をＵＳＢポート１００６に装着し、プログラムをＨＤＤ１０００に転送する。又は、このプログラムはネットワーク９８６を通じてコンピュータ９７０に送信されＨＤＤ１０００に記憶されてもよい。

【0078】

プログラムは実行のときにＲＡＭ９９８にロードされる。もちろん、キーボード９７４、モニタ９７２及びマウス９７６を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをＨＤＤ１０００に格納してもよい。スクリプト言語の場合には、キーボード９７４等を用いて入力したスクリプトをＨＤＤ１０００に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ９７０にインストールしておく必要がある。ただし、分類器訓練装置１５０による訓練には大量の計算が伴うため、スクリプト言語ではなくコンピュータのネイティブなコードからなるオブジェクトプログラムとして本発明の実施形態の各部を実現する方が好ましい。

【0079】

ＣＰＵ９９０は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスにしたがってＲＡＭ９９８からプログラムを読み出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってＲＡＭ９９８、ＨＤＤ１０００又はそれ以外の機器から読み出して命令により指定される処理を実行する。ＣＰＵ９９０は、実行結果のデータを、ＲＡＭ９９８、ＨＤＤ１０００、ＣＰＵ９９０内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、ＤＶＤ９７８から、ＵＳＢメモリ９８４から、又はネットワークを介して、ＲＡＭ９９８に直接にロードしてもよい。なお、ＣＰＵ９９０が実行するプログラムの中で、一部のタスク（主として数値計算）については、プログラムに含まれる命令により、又はＣＰＵ９９０による命令実行時の解析結果にしたがって、ＧＰＵ９９２にディスパッチされる。

【0080】

コンピュータ９７０により上記した各実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ９７０を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ９７０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ９７０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ９７０の動作方法は周知であるので、ここでは繰返さない。

【0081】

なお、ＧＰＵ９９２は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、ＣＰＵ９９０からＧＰＵ９９２にディスパッチされ、実行され、その結果が直接に、又はＲＡＭ９９８の所定アドレスを介してＣＰＵ９９０に返され、プログラム中の所定の変数に代入される。

【0082】

今回開示された実施形態は単に例示であって、本発明が上記した実施形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

【符号の説明】

【0083】

５０感情認識モデルの訓練システム
６０実データ記憶装置
６２生成モデル
６４、６８トレーニング部
６６拡張サンプル記憶装置
７０感情認識モデル
７２音声データ
７４感情ラベル
９０エンコーダ
９２判別器
９４デコーダ
１２０訓練サンプルの分布
１２２テスト用サンプルの分布
１２４実世界で予測されるサンプルの分布
１５０分類器訓練装置
１６０平均算出部
１６２分類器
１８０、２３０パワースペクトログラム
１８２、２３４双方向ＧＲＵ層
１８４、２００、２１０、２３６、２３８、２４０全結合層
２３２コンボリューショナルネットワーク

【図1】