(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-28
(45)【発行日】2025-02-05
(54)【発明の名称】感情分類器の訓練装置及び訓練方法
(51)【国際特許分類】
G10L 25/63 20130101AFI20250129BHJP
G10L 25/30 20130101ALI20250129BHJP
【FI】
G10L25/63
G10L25/30
(21)【出願番号】P 2021048619
(22)【出願日】2021-03-23
【審査請求日】2024-01-18
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年11月10日、https://github.com/CZFuChason/MAECにて発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成31年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業 総括実施型研究ERATO「石黒共生ヒューマンロボットインタラクションプロジェクト」協働研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】393031586
【氏名又は名称】株式会社国際電気通信基礎技術研究所
(74)【代理人】
【識別番号】100099933
【氏名又は名称】清水 敏
(72)【発明者】
【氏名】フ ショウゼン
(72)【発明者】
【氏名】劉 超然
(72)【発明者】
【氏名】イシイ カルロス トシノリ
【審査官】土井 悠生
(56)【参考文献】
【文献】特開2020-091338(JP,A)
【文献】国際公開第2020/204948(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
音声データの表わす発話者の感情を分類する、ニューラルネットワークからなる感情分類器を訓練するための訓練装置であって、
複数の訓練データ項目を
含む訓練データを記憶する訓練データ記憶装置に接続して用いられ、
前記複数の訓練データ項目の各々は、音声データと、当該音声データが表わす発話者の感情を示すラベルとを含み、前記ラベルは複数種類のラベルから選択され、
前記訓練装置は、
前記訓練データから訓練データ項目を選択する訓練データ選択手段と、
前記訓練データ選択手段により選択された訓練データ項目を入力に受けるように接続された第1のニューラルネットワークと、
前記複数種類のラベルに応じて予め準備された、互いに異なる複数の分布のうち、前記訓練データ選択手段により選択された前記訓練データ項目の前記ラベルに応じた分布からサンプルを取得するサンプリング手段と、
前記第1のニューラルネットワークの出力を入力として受ける第2のニューラルネットワークと、
前記第1のニューラルネットワークの出力と、前記サンプリング手段がサンプリングした前記サンプルとを選択的に入力として受けるように接続される第3のニューラルネットワークと、
前記第3のニューラルネットワークが、前記サンプリング手段により取得されたサンプルと、前記訓練データ選択手段により選択された前記訓練データ項目
を受けた前記第1のニューラルネットワークの出力とを識別
するよう、
前記第1及び前記第3のニューラルネットワークを訓練し、かつ、前記第2のニューラルネットワークが、前記訓練データ選択手段により選択された前記訓練データ項目を受けた前記第1のニューラルネットワークの
前記出力に基づき、当該訓練データ項目に付されたラベルを推定して前記訓練データ項目を分類するよう、前記第
1及び前記第
2のニューラルネットワークを訓練するための訓練手段とを含み、
前記訓練手段による訓練が終了したときの前記第2のニューラルネットワークが前記感情分類器である、訓練装置。
【請求項2】
前記訓練手段は、
前記第3のニューラルネットワークが、前記サンプリング手段により取得されたサンプルを第1の種類のデータであると識別するよう、前記第3のニューラルネットワークを訓練する第1訓練手段と、
前記訓練データ選択手段により選択された前記訓練データ項目を入力として受けた前記第1のニューラルネットワークの出力が、前記第1の種類ではない第2の種類のデータであると前記第3のニューラルネットワークが識別するよう、前記第1のニューラルネットワーク及び前記第3のニューラルネットワークを訓練する第2訓練手段と、
前記訓練データ選択手段により選択された前記訓練データ項目に対して前記第1のニューラルネットワークの出力を受けた前記第2のニューラルネットワークが、当該訓練データ項目に付された前記ラベルにしたがった分類結果を出力するよう、前記第1及び前記第2のニューラルネットワークを訓練するための第3訓練手段と、
前記訓練データ選択手段、前記サンプリング手段、前記第1、前記第2、及び前記第3訓練手段による前記第1、前記第2、及び前記第3のニューラルネットワークの訓練を、前記訓練データ選択手段により選択される訓練データ
項目を変化させながら、所定の終了条件が成立するまで繰り返すよう制御する訓練制御手段とを含む、請求項1に記載の訓練装置。
【請求項3】
前記訓練データ項目の各々には、発話者の属性を示す属性ラベルがさらに付されており、
前記第3訓練手段は、前記訓練データ項目の発話者の感情に加え、当該発話者の前記属性ラベルも分類するよう、前記第2のニューラルネットワークを訓練する、請求項2に記載の訓練装置。
【請求項4】
前記属性ラベルは、発話者の性別を表わす、請求項3に記載の訓練装置。
【請求項5】
前記サンプリング手段は、前記複数種類のラベルに応じて予め準備された、互いに異なる複数のガウス分布のうち、前記訓練データ選択手段により選択された前記訓練データ項目の前記ラベルに応じたガウス分布からサンプルを取得するガウス分布サンプリング手段を含む、請求項1から請求項4のいずれか1項に記載の訓練装置。
【請求項6】
前記複数のガウス分布は、互いに異なる平均を持つ、請求項5に記載の訓練装置。
【請求項7】
前記複数のガウス分布は、互いに等しい分散を持つ、請求項6に記載の訓練装置。
【請求項8】
前記複数のガウス分布の平均は互いに1ずつ異なっている、請求項6又は請求項7に記載の訓練装置。
【請求項9】
前記複数のガウス分布の分散は、いずれも前記複数のガウス分布の平均の相違の最小値の半分以下でありかつ0より大きい、請求項6から請求項8のいずれか1項に記載の訓練装置。
【請求項10】
前記複数のガウス分布の分散はいずれも前記複数のガウス分布の平均の最小値の0.4倍以下である、請求項9に記載の訓練装置。
【請求項11】
前記第1のニューラルネットワークの出力と、前記サンプリング手段によりサンプリングされるサンプルとは互いに等しい次元のベクトルである、請求項1から請求項10のいずれか1項に記載の訓練装置。
【請求項12】
コンピュータにより、音声データの表わす発話者の感情を分類する、ニューラルネットワークからなる感情分類器を訓練するための訓練方法であって、
複数の訓練データ項目を
含む訓練データを記憶する訓練データ記憶装置に接続して用いられ、
前記複数の訓練データ項目の各々は、音声データと、当該音声データが表わす発話者の感情を示すラベルとを含み、前記ラベルは複数種類のラベルから選択され、
前記訓練方法は、
コンピュータが、前記訓練データ記憶装置に記憶された前記複数の訓練データ項目から訓練データ項目を選択するステップと、
コンピュータが、前記選択するステップにおいて選択されたデータ項目を第1のニューラルネットワークの入力に与えるステップと、
コンピュータが、前記複数種類のラベルに応じて予め準備された、互いに異なる複数の分布のうち、前記選択するステップにおいて選択された前記訓練データ項目の前記ラベルに応じた分布からサンプルを取得するステップと、
コンピュータが、前記第1のニューラルネットワークの出力を第2のニューラルネットワークに入力するステップと、
コンピュータが、前記第1のニューラルネットワークの出力と、前記サンプルを取得するステップにおいてサンプリングされた前記サンプルとを選択的に第3のニューラルネットワークに入力するステップと、
前記第3のニューラルネットワークが、前記サンプルを取得するステップにおいて取得されたサンプルと、前記選択するステップにおいて選択された前記訓練データ項目
を受けた前記第1のニューラルネットワークの出力とを識別
するよう、コンピュータが、前記第1及び前記第3のニューラルネットワークを訓練し、かつ、前記第2のニューラルネットワークが、前記選択するステップにおいて選択された前記訓練データ項目を受けた前記第1のニューラルネットワークの出力に基づき、当該訓練データ項目に付されたラベルを推定して前記訓練データ項目を分類するよう、コンピュータが
、前記第
1及び前記第
2のニューラルネットワークを訓練するステップとを含み、
前記訓練するステップにおける訓練が終了したときの前記第2のニューラルネットワークが前記感情分類器となる、訓練方法。
【請求項13】
前記訓練するステップは、
前記第3のニューラルネットワークが、前記サンプルを取得するステップにおいて取得されたサンプルを第1の種類のデータであると識別するよう、コンピュータが前記第3のニューラルネットワークを訓練する第1訓練ステップと、
前記選択するステップにおいて選択された前記訓練データ項目を入力として受けた前記第1のニューラルネットワークの出力が、前記第1の種類ではない第2の種類のデータであると前記第3のニューラルネットワークが識別するよう、コンピュータが前記第1のニューラルネットワーク及び前記第3のニューラルネットワークを訓練する第2訓練ステップと、
前記選択するステップにおいて選択された前記訓練データ項目に対して前記第1のニューラルネットワークの出力を受けた前記第2のニューラルネットワークが、当該訓練データ項目に付された前記ラベルにしたがった分類結果を出力するよう、コンピュータが、前記第1及び前記第2のニューラルネットワークを訓練するための第3訓練ステップと、
前記選択するステップ、前記サンプルを取得するステップ、前記第1、前記第2、及び前記第3訓練ステップを、前記選択するステップにおいて選択される訓練データ項目を変化させながら、所定の終了条件が成立するまでコンピュータが繰り返す繰り返しステップとを含む、請求項12に記載の訓練方法。
【請求項14】
前記訓練データ項目の各々には、発話者の所定の属性の種類を示す属性ラベルがさらに付されており、
前記第3訓練ステップは、前記訓練データ項目の発話者の感情に加え、当該発話者の前記所定の属性も分類するよう、コンピュータが前記第2のニューラルネットワークを訓練するステップを含む、請求項13に記載の訓練方法。
【請求項15】
前記所定の属性は、発話者の性別である、請求項14に記載の訓練
方法。
【請求項16】
前記サンプルを取得するステップは、コンピュータが、前記複数種類のラベルに応じて予め準備された、互いに異なる複数のガウス分布のうち、前記選択するステップにおいて選択された前記訓練データ項目の前記ラベルに応じたガウス分布からサンプルを取得するステップを含む、請求項12から請求項15のいずれか1項に記載の訓練方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は感情分類技術に関し、特に、音声から発話者の感情を推定する感情分類器の訓練装置及び訓練方法に関する。
【背景技術】
【0002】
音声に基づく感情認識(Speech Emotion Recognition)は、施設の利用者の感情を追跡したり、及び人間とエージェントとの間のユーザ体験を改善したりするという用途に使用されている。最近では特に、特徴選択といわゆる深層学習モデルとの発達により、音声感情認識は非常に発達してきている。発話サンプルは時系列という属性を持つため、これまでの研究では多くがGRU(Gated Recurrent Unit)及びLSTM(Long Short-Term Memory)、又は畳込みニューラルネットワーク(CNN(Convolutional Neural Network))とLSTMの組み合わせを用いて時系列情報を理解することを試みている。
【0003】
発話中に含まれる特徴量の系列を考慮するのに加え、最近では会話における文脈に関する情報を分析可能な新たなモデルが提案されている。こうしたモデルによりさらに感情認識の精度は向上した。これ以外にも、ラベルを適用するために最も有効なフレームを特定するための手法としてアテンションを採用する技術、さらに発話中で最も目立つ部分を特定し焦点をあてるために複数インスタンス学習という考えを採用することも提案されている。また、音声は人により、またその性別により種々であるため、音声感情認識の精度を高めるために、性別と感情との双方を分類するマルチタスク学習という手法も提案されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】Yunqi Cai, Lantian Li, Dong Wang, and Andrew Abel. ”Deep normalization for speaker vectors.” arXiv preprint arXiv:2004.04095 (2020).
【文献】Jiaxing Liu, Zhilei Liu, Longbiao Wang, Lili Guo, and Jianwu Dang. ”Speech Emotion Recognition with Local-Global Aware Deep Representation Learning.” In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7174-7178. IEEE, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしこうした進歩にもかかわらず、発話を正則化することについてはあまり重要視されていない。発話における感情の表現は人により異なるため、そのような偏りのために、同じカテゴリに属するサンプルが一つのクラスタにまとまらなかったり、不規則な境界の(非ガウス分布にしたがう)クラスタを形成したりする可能性がある。特に高次空間ではこの問題がより大きくなり、同一ドメイン内のデータセットに対してモデルが過学習を起こしやすくなったり、パターン分布の局所的な不規則性に過敏になったり、複数ドメインでの実装の際のスコアが低くなったりする可能性がある。
【0006】
こうした課題を解決するために、前掲の非特許文献1は、感情認識の分野ではなく話者識別という分野ではあるが、識別的正規化フローモデルと呼ばれる新たなモデルを用いて深層正規化と呼ばれる手法を提案している。
【0007】
この非特許文献1の手法によれば、分布の空間を正則化することはできるが、話者識別の分野であって感情分類の分野にそのまま適用するのは難しい。少なくとも感情分類の分野に非特許文献1の手法を適用したとしてもさらに改良が必要である。
【0008】
それ故にこの発明の主たる目的は種々の話者による音声からも高い精度で話者の感情の分類を行うことができるような感情分類器の訓練装置及び訓練方法を提供することである。
【課題を解決するための手段】
【0009】
本発明の第1の局面に係る訓練装置は、音声データの表わす話者の感情を分類する、ニューラルネットワークからなる感情分類器を訓練するための訓練装置であって、複数の訓練データ項目を記憶する訓練データ記憶装置に接続して用いられ、複数の訓練データ項目の各々は、音声データと、当該音声データが表わす話者の感情を示すラベルとを含み、ラベルは複数種類のラベルから選択され、訓練装置は、訓練データから訓練データ項目を選択する訓練データ選択手段と、訓練データ選択手段により選択された訓練データ項目を入力に受けるように接続された第1のニューラルネットワークと、複数種類のラベルに応じて予め準備された、互いに異なる複数の分布のうち、訓練データ選択手段により選択された訓練データ項目のラベルに応じた分布からサンプルを取得するサンプリング手段と、第1のニューラルネットワークの出力を入力として受ける第2のニューラルネットワークと、第1のニューラルネットワークの出力と、サンプリング手段がサンプリングしたサンプルとを選択的に入力として受けるように接続される第3のニューラルネットワークと、第3のニューラルネットワークが、サンプリング手段により取得されたサンプルと、訓練データ選択手段により選択された訓練データ項目とを識別し、かつ、第2のニューラルネットワークが、訓練データ選択手段により選択された訓練データ項目を受けた第1のニューラルネットワークの出力に基づき、当該訓練データ項目に付されたラベルを推定して訓練データ項目を分類するよう、第1、第2、及び第3のニューラルネットワークを訓練するための訓練手段とを含み、訓練手段による訓練が終了したときの第2のニューラルネットワークが感情分類器である。
【0010】
好ましくは、訓練手段は、第3のニューラルネットワークが、サンプリング手段により取得されたサンプルを第1の種類のデータであると識別するよう、第3のニューラルネットワークを訓練する第1訓練手段と、訓練データ選択手段により選択された訓練データ項目を入力として受けた第1のニューラルネットワークの出力が、第1の種類ではない第2の種類のデータであると第3のニューラルネットワークが識別するよう、第1のニューラルネットワーク及び第3のニューラルネットワークを訓練する第2訓練手段と、訓練データ選択手段により選択された訓練データ項目に対して第1のニューラルネットワークの出力を受けた第2のニューラルネットワークが、当該訓練データ項目に付されたラベルにしたがった分類結果を出力するよう、第1及び第2のニューラルネットワークを訓練するための第3訓練手段と、訓練データ選択手段、サンプリング手段、第1、第2、及び第3訓練手段による第1、第2、及び第3のニューラルネットワークの訓練を、訓練データ選択手段により選択される訓練データを変化させながら、所定の終了条件が成立するまで繰り返すよう制御する訓練制御手段とを含む。
【0011】
より好ましくは、訓練データ項目の各々には、話者の属性を示す属性ラベルがさらに付されており、第3訓練手段は、訓練データ項目の話者の感情に加え、当該話者の属性ラベルも分類するよう、第2のニューラルネットワークを訓練する。
【0012】
さらに好ましくは、属性ラベルは、話者の性別を表わす。
【0013】
好ましくは、サンプリング手段は、複数種類のラベルに応じて予め準備された、互いに異なる複数のガウス分布のうち、訓練データ選択手段により選択された訓練データ項目のラベルに応じたガウス分布からサンプルを取得するガウス分布サンプリング手段を含む。
【0014】
より好ましくは、複数のガウス分布は、互いに異なる平均を持つ。
【0015】
さらに好ましくは、複数のガウス分布は、互いに等しい分散を持つ。
【0016】
好ましくは、複数のガウス分布の平均は互いに1ずつ異なっている。
【0017】
より好ましくは、複数のガウス分布の分散は、いずれも複数のガウス分布の平均の相違の最小値の半分以下でありかつ0より大きい。
【0018】
さらに好ましくは、複数のガウス分布の分散はいずれも複数のガウス分布の平均の最小値の0.4倍以下である。
【0019】
好ましくは、第1のニューラルネットワークの出力と、サンプリング手段によりサンプリングされるサンプルとは互いに等しい次元のベクトルである。
【0020】
本発明の第2の局面に係る訓練方法は、コンピュータにより、音声データの表わす話者の感情を分類する、ニューラルネットワークからなる感情分類器を訓練するための訓練方法であって、複数の訓練データ項目を記憶する訓練データ記憶装置に接続して用いられ、複数の訓練データ項目の各々は、音声データと、当該音声データが表わす話者の感情を示すラベルとを含み、ラベルは複数種類のラベルから選択され、訓練方法は、コンピュータが、訓練データ記憶装置に記憶された複数の訓練データ項目から訓練データ項目を選択するステップと、コンピュータが、選択するステップにおいて選択されたデータ項目を第1のニューラルネットワークの入力に与えるステップと、コンピュータが、複数種類のラベルに応じて予め準備された、互いに異なる複数の分布のうち、選択するステップにおいて選択された訓練データ項目のラベルに応じた分布からサンプルを取得するステップと、コンピュータが、第1のニューラルネットワークの出力を第2のニューラルネットワークに入力するステップと、コンピュータが、第1のニューラルネットワークの出力と、サンプルを取得するステップにおいてサンプリングされたサンプルとを選択的に第3のニューラルネットワークに入力するステップと、第3のニューラルネットワークが、サンプルを取得するステップにおいて取得されたサンプルと、選択するステップにおいて選択された訓練データ項目とを識別し、かつ、第2のニューラルネットワークが、選択するステップにおいて選択された訓練データ項目を受けた第1のニューラルネットワークの出力に基づき、当該訓練データ項目に付されたラベルを推定して訓練データ項目を分類するよう、コンピュータが第1、第2、及び第3のニューラルネットワークを訓練するステップとを含み、訓練するステップにおける訓練が終了したときの第2のニューラルネットワークが感情分類器となる。
【0021】
好ましくは、訓練するステップは、第3のニューラルネットワークが、サンプルを取得するステップにおいて取得されたサンプルを第1の種類のデータであると識別するよう、コンピュータが第3のニューラルネットワークを訓練する第1訓練ステップと、選択するステップにおいて選択された訓練データ項目を入力として受けた第1のニューラルネットワークの出力が、第1の種類ではない第2の種類のデータであると第3のニューラルネットワークが識別するよう、コンピュータが第1のニューラルネットワーク及び第3のニューラルネットワークを訓練する第2訓練ステップと、選択するステップにおいて選択された訓練データ項目に対して第1のニューラルネットワークの出力を受けた第2のニューラルネットワークが、当該訓練データ項目に付されたラベルにしたがった分類結果を出力するよう、コンピュータが、第1及び第2のニューラルネットワークを訓練するための第3訓練ステップと、選択するステップ、サンプルを取得するステップ、第1、第2、及び第3訓練ステップを、選択するステップにおいて選択される訓練データ項目を変化させながら、所定の終了条件が成立するまでコンピュータが繰り返す繰り返しステップとを含む。
【0022】
より好ましくは、訓練データ項目の各々には、話者の所定の属性の種類を示す属性ラベルがさらに付されており、第3訓練ステップは、訓練データ項目の話者の感情に加え、当該話者の所定の属性も分類するよう、コンピュータが第2のニューラルネットワークを訓練するステップを含む。
【0023】
さらに好ましくは、所定の属性は、話者の性別である。
【0024】
好ましくは、サンプルを取得するステップは、コンピュータが、複数種類のラベルに応じて予め準備された、互いに異なる複数のガウス分布のうち、選択するステップにおいて選択された訓練データ項目のラベルに応じたガウス分布からサンプルを取得するステップを含む。
【0025】
この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
【図面の簡単な説明】
【0026】
【
図1】
図1は、第1実施形態に係る分類器訓練装置の概略ブロック図である。
【
図2】
図2は、
図1に示すエンコーダの概略ブロック図である。
【
図3】
図3は、
図1に示す先行発話特徴量抽出部の概略ブロック図である。
【
図4】
図4は、
図3に示す拡張畳込ブロックの概略ブロック図である。
【
図7】
図7は、第1実施形態による分類器の訓練をコンピュータにより実現するためのコンピュータプログラムの制御構造を示すフローチャートである。
【
図8】
図8は、本願発明の各実施形態を実現するコンピュータシステムの外観図である。
【
図9】
図9は、
図8に示すコンピュータシステムのハードウェアブロック図である。
【発明を実施するための形態】
【0027】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、訓練データの中で、音声データのサンプルとそのラベルとからなる一組のデータを訓練データ項目という。
【0028】
第1 第1実施形態
1.構成
(1)全体構成
図1を参照して、第1の実施形態に係る分類器訓練装置50は、訓練データ項目を多数記憶する訓練データ記憶装置60に接続して使用され、感情分類器の訓練時に、訓練データ記憶装置60に記憶された訓練データ項目を1つずつ選択するためのデータ選択部64とを含む。各訓練データ項目は、発話データと、発話者の感情を示すラベルとを含む。この実施形態では、ラベルとして幸せ、悲しみ、中立、及び怒りという4種類のラベルを用いる。もちろん、これらラベルの種類はこれら4種類に限定されるわけではなく、任意の数のラベルを利用できる。
【0029】
分類器訓練装置50はさらに、データ選択部64により選択されたデータ項目の中の発話データを受けるように設けられた入力を持ち、発話データをエンコードして、対象となる発話に関する情報を表わす所定長のベクトルである中間表現を出力するためのエンコーダ70と、上記した4種類のラベルに対応して準備される4種類のガウス分布を特定するパラメータ(各分布の平均及び分散)を記憶するためのパラメータ記憶部66と、データ選択部64が選択したデータ項目に含まれるラベルに対応するガウス分布からサンプルを取得するためのサンプリング部68とを含む。
【0030】
分類器訓練装置50はさらに、エンコーダ70の出力に接続された第1の入力と、サンプリング部68の出力に接続された第2の入力とを持ち、外部から与えられる制御信号に応答して、第1の入力又は第2の入力の一方への入力を選択して出力するための選択部72と、選択部72の出力を受ける入力を持ち、入力がエンコーダ70からの入力か、サンプリング部68からの入力かを識別するように訓練される識別器74と、エンコーダ70の出力を受ける入力を持ち、入力される音声データの発話者の感情が上記4種類の感情のいずれに分類されるかを推定するように訓練される分類器76とを含む。
【0031】
分類器訓練装置50はさらに、サンプリング部68から選択部72を経て識別器74に与えられる入力が、サンプリング部68からの入力であると識別器74が正しく識別するように識別器74を訓練するための第1更新部78と、エンコーダ70から選択部72を経て識別器74に与えられる入力が、エンコーダ70からの入力であると識別器74が正しく識別できるように、識別器74とエンコーダ70との双方を訓練するための第2更新部80と、エンコーダ70からの入力を分類器76が上記4種類の感情のいずれかに正しく分類するように、分類器76とエンコーダ70とを訓練するための第3更新部82と、データ選択部64、サンプリング部68、エンコーダ70、選択部72、識別器74、分類器76、第1更新部78、第2更新部80、及び第3更新部82を制御し、訓練データ記憶装置60から選択される訓練データ項目を変化させながら、所定の終了条件が充足されるまで、上記各部が繰り返し動作するよう各部を制御するための訓練制御部62とを含む。
【0032】
なお、第1更新部78、第2更新部80及び第3更新部82による訓練は、いずれも通常の誤差逆伝搬法による。
【0033】
(2)エンコーダ70
図2を参照して、エンコーダ70は、訓練データ100から感情の分類対象となる発話(現在発話)の所定の特徴量の時系列からなる特徴量行列を抽出するための現在発話特徴量抽出部124と、対話の相手方の発話をはさんで現在発話に先行する、同じ話者の発話(先行発話)からその特徴量の時系列を抽出し特徴量行列として出力するための先行発話特徴量抽出部120と、先行発話と現在発話との間の相手方の発話からその特徴量の時系列を抽出し特徴量行列として出力するための相手発話特徴量抽出部122とを含む。
【0034】
エンコーダ70はさらに、先行発話特徴量抽出部120からの特徴量行列と相手発話特徴量抽出部122からの特徴量行列との間で乗算を行うための乗算部126と、乗算部126の出力の各要素に対してSoftmax演算を行うためのソフトマックス演算部128と、ソフトマックス演算部128の出力と現在発話特徴量抽出部124の出力との間で乗算を行うための乗算部130と、乗算部130の出力と現在発話特徴量抽出部124の出力とを連結するための連接部132とを含む。
【0035】
(3)先行発話特徴量抽出部120
図2に示す先行発話特徴量抽出部120、相手発話特徴量抽出部122、及び現在発話特徴量抽出部124はいずれも同様に構成されている。したがってここでは先行発話特徴量抽出部120を例としてその構成を説明する。
【0036】
図3を参照して、先行発話特徴量抽出部120は、訓練データ100に含まれる各訓練データ項目中の音声データを所定長で所定ストライドのフレームによりフレーム化し、各フレームについて所定の音響特徴量(この実施形態ではMFCC(Mel-frequency cepstral coefficient)、F0及びゼロクロス率及びそれらの統計)を時系列のベクトル列として抽出するための音響特徴量抽出ブロック202と、音響特徴量抽出ブロック202の出力するベクトル列に対して拡張畳込みを実行するための拡張畳込ブロック204と、音響特徴量抽出ブロック202の出力するベクトル列に対して通常の畳込みを実行するための畳込ブロック206とを含む。拡張畳込ブロック204の出力と畳込ブロック206の出力とによりセグメントレベル特徴量208が得られる。
【0037】
先行発話特徴量抽出部120はさらに、発話レベルのセグメントレベル特徴量208を処理して各セグメントにおける状態を算出し出力する双方向GRU212と、ボトルネック特徴量210と双方向GRU212の出力との間でドット積演算を行うことにより、セグメント間のアテンションを算出するためのドット積アテンションブロック214と、ドット積アテンションブロック214の出力に対してグローバルプーリングを行うグローバルプーリング層216と、双方向GRU212の出力に対してグローバルプーリングを行うグローバルプーリング層218と、グローバルプーリング層216の出力とグローバルプーリング層218の出力との間で乗算を行うことにより、アテンション付きのベクトル列を出力するための乗算ブロック220とを含む。
【0038】
この
図3における演算についてさらに詳細に説明する。まず、音響特徴量抽出ブロック202により音声データがフレーム化され、各フレームについて特徴量ベクトル列s
1,s
2,…,s
nが得られたものとする。すなわち、各音声データが以下の式により表されるサンプルデータx
iに変換される。
【0039】
【0040】
図3に示す拡張畳込ブロック204及び206はこのx
iに対して拡張畳込みを行って以下の式(2)のベクトルh
iに変換し、セグメントレベル特徴量208が得られる。式(3)により示されるように、セグメントレベル特徴量208の各ベクトルh
i中のボトルネック層の要素から、BTで表されるボトルネック特徴量210が得られる。
【0041】
【0042】
図3に示す双方向GRU212が発話レベルのセグメントレベル特徴量208を処理することで以下の式(4)におけるKeyにより示す行列が得られる。以下はアテンション機構に関する。すなわち、この行列と上記したBTで表されるボトルネック特徴量210との間にドット積アテンションブロック214がドット積を適用することにより式(4)におけるアテンションAが算出される。このアテンションを受けたグローバルプーリング層216の出力が下記のKQ、双方向GRU212の出力Keyに対するグローバルプーリング層218の出力が下記のV、このKQとVとの間で乗算ブロック220が行列の乗算をすることにより、アテンション付きの隠れ特徴量行列HFが得られる。
【0043】
【0044】
図4を参照して、
図3に示す拡張畳込ブロック204は、入力に対して畳込みを行う畳込層252と、畳込層252の出力に対してさらに畳込みを行う畳込層254と、畳込層254の出力に対して拡張畳込みを行う拡張畳込層256とを含む。拡張畳込層256の出力が拡張畳込ブロック204の出力となる。
【0045】
図2を参照して、相手発話特徴量抽出部122及び現在発話特徴量抽出部124も先行発話特徴量抽出部120と同様の構成を持つ。したがってこれらから、発話者の先行する発話の隠れ特徴量、直前の対話相手の発話の隠れ特徴量、及び発話者の現在の(対象となる)隠れ特徴量(HF
pre, HF
Int, HF
cur)がそれぞれ得られる。これらを乗算部126、ソフトマックス演算部128、乗算部130及び連接部132により以下の式(5)に示されるように連接し、訓練データ100の訓練データ項目の音声を中間表現Zに変換する。
【0046】
【0047】
(4)識別器74
図5を参照して、
図2に示す識別器74は、識別器74への入力を受けるように設けられた全結合層302と、全結合層302の出力を受ける全結合層304とを含む。全結合層304の出力が識別器74の出力となる。
【0048】
(5)分類器76
図6を参照して、分類器76は、入力から発話者の感情を分類するための、直列に設けられた全結合層352及び354と、入力から発話者の、感情のような時間的変化をしないある属性(ここでは性別)を分類するための、直列に設けられた全結合層356及び358とを含む。全結合層354の出力は4つの値を要素とするベクトルであり、これらの値が4種類の感情のスコアを示す。最大スコアに対応する感情が分類結果である。全結合層358の出力は2つの値を要素とするベクトルであり、これらの値が発話者の性別のスコアを示す。いずれか大きいスコアが話者の性別を示す。
【0049】
この実施形態の目的は音声からの感情分類である。そのためには分類器76は感情を分類するための全結合層352及び354のみを持てばよい。しかし、この実施形態に示すように、目的とする1種類の分類だけでなく、目的とは直接関係を持たない分類も含めた2種類の分類を行うように分類器を訓練することにより、目的とする分類の精度が向上することが知られている(マルチタスク学習)。したがってこの実施形態でも、感情の分類だけではなく、性別の分類も分類器76により行うようにしている。
【0050】
(6)プログラム構成
上記した構成を持つ分類器訓練装置50をコンピュータハードウェアにより実現するためのコンピュータプログラムの制御構造を
図7に示す。
【0051】
図7を参照して、このプログラムは、起動後に、プログラム中で使用する各変数領域を初期化するステップ400と、ステップ404を所定の終了条件が成立するまでくりかえし実行するステップ402と、ステップ402が終了した後に所定の終了処理を行うステップ406とを含む。終了処理は、ステップ402で学習が終わったパラメータ、特に少なくとも
図1に示す分類器76のパラメータの集合を所定の記憶装置に保存する処理を含む。ここでの終了条件は、訓練データに含まれる訓練データ項目を全て用いて以下の処理を実行する処理を1エポックとし、所定数のエポックが完了したという条件を用いる。
【0052】
この実施形態では、ミニバッチ形式で訓練を行う。ただしパラメータの更新は各サンプルについて行う。すなわち、ステップ404は、訓練データからバッチのデータ項目数だけ訓練データ項目をサンプリングするステップ420と、ステップ420でサンプリングした訓練データ項目の各々についてステップ424を実行することにより、バッチ内の訓練データ項目に対して算出された誤差を用いた誤差逆伝搬法によりエンコーダ70、識別器74及び分類器76のパラメータをそれぞれ更新するステップ422とを含む。
【0053】
ステップ424は、処理対象の訓練データ項目に含まれるラベルを取り出すステップ450と、このラベルの種類に対応するガウス分布を選択してサンプリングを行うステップ452と、ステップ452でサンプリングされたサンプルを識別器74に入力するステップ454と、識別器74の出力に基いて識別器74のパラメータの更新を行うステップ456とを含む。ここでは、ガウス分布からのサンプルが識別器74に入力されたときにはその出力がフォールスに、一方、後述するようにエンコーダ70からのデータが識別器74に入力されたときにはその出力がトゥルーに、それぞれなるように、識別器74を訓練する。すなわち、ステップ456では、識別器74の出力とフォールスを表わす値との誤差が小さくなるように識別器74のパラメータの更新が行われる。
【0054】
なお、この実施形態においては、ステップ456で使用される損失関数LDは以下の式(6)のとおりである。ただしεはラベルに対応するガウス分布からランダムにサンプリングされたベクトルである。このサンプルの次元は上記した中間表現Zの次元と同じである。D()は識別器74の出力であることを示す。
【0055】
【0056】
ステップ404はさらに、ステップ450でサンプリングされた訓練データ項目の音声データをエンコーダ70に入力してその中間表現をエンコーダ70の出力に得るステップ458と、ステップ458においてエンコーダ70の出力として得られたデータを識別器74に入力してその識別結果を得るステップ460と、ステップ460で識別器74から得られた識別結果とトゥルーを表わす値との誤差が小さくなるように、エンコーダ70と識別器74との双方のパラメータを更新するステップ462とを含む。前述したように、この例では実際の訓練データ項目から得られた入力について識別器74がトゥルーと判定するように識別器74を訓練することが目的であるが、それと同時にエンコーダ70についても同様に訓練する。
【0057】
ステップ404はさらに、ステップ450でサンプリングされた訓練データ項目の音声データをエンコーダ70に入力してその中間表現を得るステップ464と、ステップ464で得られた中間表現を分類器76に入力して分類器76による性別と感情との双方の分類結果を得るステップ466と、ステップ466で得られた2つの分類結果と、正しいラベルとの誤差の双方が小さくなるように、誤差逆伝搬法によりエンコーダ70及び分類器76のパラメータを更新してこの訓練データ項目に対する処理を終了するステップ468とを含む。
【0058】
分類器76の訓練における損失関数Lcは以下の式(7)により表される。
【0059】
【数6】
この式でC
g()は性別に関する分類器76の出力を示し、C
eは感情に関する分類器76の出力を示す。これは他の式でも同様である。
【0060】
この実施形態においてエンコーダ70の訓練で使用する損失関数Lencは以下の式(8)のとおりである。
【0061】
【数7】
この式でEnc()はエンコーダ70の出力であることを示す。
【0062】
ステップ402では、このように、ステップ450でサンプリングされる訓練データ項目を変化させながら訓練データ全体にステップ404を実行することを所定の終了条件が成立するまで繰り返す。この実施形態では、全ての訓練データ項目に対してステップ404の処理を実行する処理を所定回数だけ行ったときに訓練を終了するものとする。この訓練が終了したときの分類器76のパラメータと、分類器76の実体であるニューラルネットワークを実現するプログラム群とにより、発話の音声データからその発話者の感情及び性別を分類する分類器が実現できる。
【0063】
2.動作
第1実施形態に係る分類器訓練装置50は以下のように動作する。訓練データ記憶装置60には予め多数の訓練用データ項目が準備されている。これら訓練用データ項目の各々は、対話を構成する発話データと、その発話者の感情を表わすラベルと、発話者の性別を示す性別ラベルとを含む。またこの例では、この発話データは、分類の対象となる発話と、その発話に先行する同じ発話者の発話と、これら2つの発話の間に存在する、対話の相手方の発話とを含む。またパラメータ記憶部66には、感情を示す4種類のラベルに対応する4種類のガウス分布を特定するパラメータ(平均と分散)が記憶されている。
【0064】
訓練制御部62は、終了条件が成立するまで以下の処理を繰り返す。なお、以下の処理は全て訓練制御部62の制御によるものなので、記載をわかりやすくするために、これ以上は訓練制御部62の制御に言及しない。
【0065】
まず、データ選択部64が訓練データ記憶装置60から訓練データ項目を一つ選択する(
図7のステップ450。以下の記載で各「ステップ」は
図7に示すものである。)。サンプリング部68は訓練制御部62を介してデータ選択部64が選択した訓練データ項目に含まれるラベルを調べ、パラメータ記憶部66に記憶されているそのラベルに対応するパラメータにより特定されるガウス分布からサンプリングする(ステップ452)。サンプリング部68はサンプリングしたサンプルを選択部72に与える。選択部72はサンプリング部68からのサンプルを識別器74に与える(ステップ454)。識別器74はこの入力に対して内部で演算を行い、その結果を出力する。第1更新部78は、識別器74への入力がガウス分布からのものなので、識別器74の出力がフォールスを示す値に近づくよう、誤差逆伝搬法により識別器74のパラメータを更新する(ステップ456)。
【0066】
次に、データ選択部64は選択した訓練データ項目の音声データをエンコーダ70に与える(ステップ458)。ステップ458はこの音声データを処理して中間表現を生成し、選択部72に与える。選択部72はエンコーダ70からの中間表現を選択して識別器74に与える(ステップ460)。識別器74はこの中間表現を処理して結果を出力する。第2更新部80は、識別器74の出力とトゥルーを示す値との誤差が小さくなるように、誤差逆伝搬法によりエンコーダ70及び識別器74のパラメータを更新する(ステップ462)。
【0067】
データ選択部64は、選択した訓練データ項目を再びエンコーダ70に与える。エンコーダ70は更新後のパラメータを用いてこの入力に対する演算を行ってその中間表現を出力する。この中間表現は分類器76に入力される(ステップ466)。分類器76は入力対する処理を行って結果を出力する。第3更新部82は、分類器76の出力する感情の分類結果がデータ選択部64の選択した訓練データ項目に付されていたラベルを表わす値に近くなるように、かつ、分類器76の出力する性別の分類結果が訓練データ項目に付されていた性別ラベルを表わす値に近くなるように、エンコーダ70と分類器76との出力を誤差逆伝搬法により更新する。
【0068】
分類器訓練装置50の各部は、訓練データ記憶装置60に記憶されている全ての訓練データ項目を用いて行う処理を所定回数実行するまで、上記した訓練を繰り返す。訓練が終了した時点での分類器76のパラメータ及び分類器76のニューラルネットワークを実現するアルゴリズムを持つプログラムとにより、入力される音声データに基いてその話者の感情を分類できる分類器が実現される。なおこの分類器は、上記した訓練方法からも分かるように、話者の性別も分類できる。
【0069】
3.コンピュータによる実現
第1実施形態に係る分類器訓練装置50の各部は、適切なプログラム実行機能とデータハンドリング機能とを持つオペレーティングシステムが稼働するコンピュータハードウェア上で実行される、
図7に制御構造を示すプログラムにより実現される。
【0070】
図8は、上記各実施形態を実現するコンピュータシステムの外観図である。
図9は、
図8に示すコンピュータシステムのハードウェアブロック図である。
【0071】
図8を参照して、このコンピュータシステム950は、DVD(Digital Versatile Disc)ドライブ1002を有するコンピュータ970と、いずれもコンピュータ970に接続された、ユーザと対話するためのキーボード974、マウス976、モニタ972、1対のスピーカ980、及びマイクロフォン982とを含む。もちろんこれらはユーザ対話が必要となったときのための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル、ポインティングデバイス一般)であればどのようなものも利用できる。
【0072】
図9を参照して、コンピュータ970は、DVDドライブ1002に加えて、CPU(Central Processing Unit)990と、GPU(Graphics Processing Unit)992と、CPU990、GPU992、DVDドライブ1002に接続されたバス1010と、バス1010に接続され、コンピュータ970のブートアッププログラム等を記憶するROM(Read-Only Memory)996と、バス1010に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するRAM(Random Access Memory)998と、バス1010に接続された不揮発性メモリであるSSD(Solid State Drive)1000とを含む。SSD1000は、CPU990及びGPU992が実行するプログラム、並びにCPU990及びGPU992が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ970はさらに、他端末との通信を可能とするネットワーク986への接続を提供するネットワークI/F(Interface)1008と、USB(Universal Serial Bus)メモリ984が着脱可能で、USBメモリ984とコンピュータ970内の各部との通信を提供するUSBポート1006とを含む。
【0073】
コンピュータ970はさらに、マイクロフォン982及びスピーカ980とバス1010とに接続され、CPU990により生成されRAM998又はSSD1000に保存された音声信号、映像信号及びテキストデータをCPU990の指示にしたがって読み出し、アナログ変換及び増幅処理をしてスピーカ980を駆動したり、マイクロフォン982からのアナログの音声信号をデジタル化し、RAM998又はSSD1000の、CPU990により指定される任意のアドレスに保存したりするための音声I/F1004を含む。
【0074】
上記実施形態では、
図1に示すエンコーダ70、識別器74、及び分類器76等のパラメータ、並びに訓練データ等は、いずれも例えば
図9に示すSSD1000、RAM998、DVD978又はUSBメモリ984、若しくはネットワークI/F1008及びネットワーク986を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からSSD1000に書込まれコンピュータ970の実行時にはRAM998にロードされる。
【0075】
このコンピュータシステムを、
図1に示す分類器訓練装置50の訓練データ記憶装置60、訓練制御部62、データ選択部64、エンコーダ70、選択部72、識別器74、分類器76、第1更新部78、第2更新部80、及び第3更新部82、並びにその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、DVDドライブ1002に装着されるDVD978に記憶され、DVDドライブ1002からSSD1000に転送される。又は、これらのプログラムはUSBメモリ984に記憶され、USBメモリ984をUSBポート1006に装着し、プログラムをSSD1000に転送する。又は、このプログラムはネットワーク986を通じてコンピュータ970に送信されSSD1000に記憶されてもよい。
【0076】
プログラムは実行のときにRAM998にロードされる。もちろん、キーボード974、モニタ972及びマウス976を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをSSD1000に格納してもよい。スクリプト言語の場合には、キーボード974等を用いて入力したスクリプトをSSD1000に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ970にインストールしておく必要がある。ただし、分類器訓練装置50による訓練には大量の計算が伴うため、スクリプト言語ではなくコンピュータのネイティブなコードからなるオブジェクトプログラムとして本発明の実施形態の各部を実現する方が好ましい。
【0077】
CPU990は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスにしたがってRAM998からプログラムを読み出して命令を解釈する。CPU990はさらに、命令の実行に必要なデータを命令により指定されるアドレスにしたがってRAM998、SSD1000又はそれ以外の機器から読み出して命令により指定される処理を実行する。CPU990は、実行結果のデータを、RAM998、SSD1000、CPU990内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムにしたがって動作するCPU990により更新される。コンピュータプログラムは、DVD978から、USBメモリ984から、又はネットワークを介して、RAM998に直接にロードしてもよい。なお、CPU990が実行するプログラムの中で、一部のタスク(主として並列実行可能な数値計算)については、プログラムに含まれる命令により、又はCPU990による命令実行時の解析結果にしたがって、GPU992により実行される。
【0078】
コンピュータ970により上記した各実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ970を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ970上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又はコンピュータ970にインストールされる各種ツールキットのモジュールにより提供され、実行時にダイナミックリンクによりオブジェクトプログラムにリンクされる。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ970の動作方法は周知であるので、ここでは繰返さない。
【0079】
なお、GPU992は並列処理を行うことが可能であり、機械学習に伴う大量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、CPU990からGPU992に対して発行され、実行され、その結果が直接に、又はRAM998の所定アドレスを介してCPU990に返され、プログラム中の所定の変数に代入される。
【0080】
4.効果
上記第1実施形態によれば、既存の訓練データ項目の数が十分でないときでも、あえて訓練データ項目の数を人為的に増やさなくても分類精度を高くできることが後述するように実験で確認できた。分類器の訓練方法として、従来にない比較的簡単な方法によって、音声データから発話者の感情を十分な精度で分類できるという効果が得られる。
【0081】
第2 第2実施形態
上記第1実施形態では、訓練において、最初にガウス分布からサンプリングしたサンプルを用いて識別器74を訓練し、次に選択された訓練データ項目により識別器74とエンコーダ70を、さらにエンコーダ70と分類器76とをこの順序で訓練している。しかしこの発明はそのような実施形態には限定されない。上記した3種類の訓練を1つの訓練データ項目に対して1セットとして実行するものであればその順序は第1実施形態のものには限定されない。
【0082】
第2実施形態では最初にエンコーダ70及び識別器74を、次にエンコーダ70及び分類器76を、最後に識別器74を、それぞれ訓練する。こうした訓練方法で訓練した分類器76によっても第1実施形態と同様の効果を得ることができる。
【0083】
第3 実験
1.設定
上記第1実施形態に係る分類器訓練装置50の性能をテストするために、以下のような実験を行った。実験では、IEMOCAP及びMELDと呼ばれる2種類のデータセットを用いた。
【0084】
IEMOCAPは非特許文献2で用いられており、10人の発話者による、1対1の双方向対話の映像からなっている。各映像は2人の対話で発話ごとに分割されており、感情ラベルが付されている。この実験では、上記したように幸福、悲しみ、中立、及び怒りという4種類の感情ラベルを用いた。もとのデータセットでは興奮、不満というラベルも付されているが、多くの研究でされているように、興奮は幸福に、不満は悲しみに、それぞれ併合した。非特許文献2と同様、データの中で80%を訓練データセットに、20%をテストセットに、ランダムに分割し、5重交差検証を行った。訓練用サンプルは5946サンプルであり、テスト用サンプルは1487サンプルであった。この実験では、非特許文献2に開示された結果を比較対象とした。
【0085】
MELDは米国のTVシリーズから集められた、複数パーティの会話データセットである。今回の実験では、実験においてIEMOCAPの訓練データとの比較を整合させるために、元のデータセットから「joy(幸福)」、「悲しみ」、「中立」、及び「怒り」のカテゴリのサンプルを抽出して用いた。クロスコーパスでの検証が同じデータ構造で行えるよう、予め選択した訓練データセットから、発話者の先行する発話と対話者による発話とが使用できる2000サンプルを選択した。訓練サンプルの数は8292である。このデータセットについては発話者の性別を示す情報が付されていないため、このデータセットを用いた場合には発話者の感情の分類のみを行うようにした。
【0086】
今回の実験では、拡張畳込みブロックでのカーネルサイズを各層について512、512及び128とした。各カーネルのサイズは1、3及び1である。拡張畳込みにおける拡張率(dilated size)は2に設定した。ボトルネックにおけるノード数は512とし、BiGRUでのセル数は256に設定した。バッチサイズは32である。オプティマイザとしてはAdamを使用し、学習率を10-4とした。各感情ラベルに対応した4つのガウス分布の平均はそれぞれ0,1,2,3とし、分散はいずれも等しく0.3とした。この平均と分散との値は、ガウス分布相互をある程度分離できればよい。ここでは隣接するガウス分布の平均の間の差はいずれも1としたが、これより大きくてもよく、これより小さくして分散を小さくしてもよい。この実験のように平均の間の差を1とした場合には、分散は例えば0.5以下であればある程度分離でき、0.4以下とすればさらに互いを分離可能である。この実験では分散を0.3としており、したがってガウス分布の間の分離は実質的に十分であると考えられる。
【0087】
また、この実施形態では隣接するガウス分布の平均の相違は全て等しく1とした。しかしこの発明はそのような実施形態には限定されず、隣接するガウス分布の平均の相違が互いに異なっていても、一部のみ異なっていてもよい。ただしこの場合には、分散は隣接するガウス分布の平均の相違の半分以下とすることが望ましい。隣接するガウス分布の平均の相違の最小値の半分以下とするとさらに好ましい。
【0088】
性能はUA(Unweighted Accuracy)とWA(Weighted Accuracy)とを用いて行った。UAは全体の精度の平均を意味し、WAは正しく分類されたサンプルの割合を示す。実験ではテスト用データセットに対するモデルの性能とクロスコーパス検証(一方のコーパスで訓練したモデルの性能を他方のコーパスのデータでテストする検証方法)とを訓練の各エポックについて行い、最もよいモデルを保存した。
【0089】
上記したように、この実験では、非特許文献2に記載されたモデルの性能をベースラインとした。さらに、中間表現を互いに分離したガウス分布にマップすることで中間表現を正則化することの効果を調べるため、通常のガウス分布(平均は1.0、分散は0.3)を用いるものを準備した(MAEC)。これとは別に識別器74を持たないものも準備した(MEC)。
【0090】
2.結果
実験結果を、非特許文献2に記載されたベースラインモデルの結果とあわせて以下のテーブル1に示す。テーブル1において、ISO-MAECが上記実施形態に係るモデルを示す。
【0091】
【0092】
テーブル1において、例えば「IEMOCAP」と記載された行において「IEMOCAPによる訓練結果」と記載された列との交点のセルの数字は、IEMOCAPを用いて訓練した各モデルに対し、IEMOCAPをテストデータとした実験による性能を示す。「IEMOCAP」と記載された行において「MELDによる訓練結果」と記載された列との交点のセルの数字は、MELDを用いて訓練した各モデルに対し、IEMOCAPをテストデータとした実験(クロスコーパス検証)による性能を示す。「MELD」と記載された行についても同様である。
【0093】
テーブル1を参照して、IEMOCAPを用いて訓練した場合、MAECモデルは、単一のガウス分布へのマッピングを行うことにより、MECと比較してWA及びUAにおいてそれぞれ約2.8%及び2.4%の性能向上を示した。しかし、上記実施形態1に係るISO-MAECモデルでは、ラベルに応じて互いに分離された複数のガウス分布に中間表現をマッピングすることにより、さらにWA及びUAにおいてそれぞれ1.87%及び2.23%の性能向上を示した。クロスコーパスでの検証では、実施形態1に係るモデルはMAEC及びMECのいずれに対しても、WA及びUAにおいてそれぞれ9%及び1%以上の性能向上を示した。
【0094】
MELDを用いて訓練した場合、MECモデルはWA及びUAにおいてそれぞれ49.65%及び57.17%の性能を示した。MAECモデルは、中間表現をガウス分布にマッピングする正則化という機能を取り入れることにより、MECモデルと比較してWA及びUAにおいてそれぞれ3.53%及び1.08%の性能向上を示した。上記実施形態に係るISO-MAECモデルは、WAについては0.95%の性能向上を示した。クロスコーパス検証では、MECモデルはWA及びUAにおいてそれぞれ33.31%及び48.21%の性能を示した。これに対してMAECは、MECモデルと比較して、WA及びUAにおいてそれぞれ3.24%及び0.89%の性能向上を示した。上記実施形態に係るISO-MAECは、分離したガウス分布に中間表現をマップするという正則化を採用したことで、MAECと比較してさらに9.05%及び3.48%の性能向上を示した。
【0095】
以上のとおり、この実験から、単に中間表現をガウス分布にマップすることで入力を正則化した場合でも性能が上昇することがわかった。それだけではなく、ラベルごとに別々であって、かつ互いに分離されたガウス分布に中間表現をマッピングする上記実施形態の方法を適用することでさらに性能が向上することが確認できた。
【0096】
今回開示された実施形態は単に例示であって、本発明が上記した実施形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0097】
50 分類器訓練装置
60 訓練データ記憶装置
62 訓練制御部
64 データ選択部
66 パラメータ記憶部
68 サンプリング部
70 エンコーダ
72 選択部
74 識別器
76 分類器
78 第1更新部
80 第2更新部
82 第3更新部
100 訓練データ
120 先行発話特徴量抽出部
122 相手発話特徴量抽出部
124 現在発話特徴量抽出部
126、130 乗算部
128 ソフトマックス演算部
132 連接部
202 音響特徴量抽出ブロック
204 拡張畳込ブロック
206 畳込ブロック
208 セグメントレベル特徴量
210 ボトルネック特徴量
212 双方向GRU
214 ドット積アテンションブロック
216、218 グローバルプーリング層
220 乗算ブロック
252、254 畳込層
256 拡張畳込層