(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023171101
(43)【公開日】2023-12-01
(54)【発明の名称】学習装置、推定装置、学習方法、推定方法及びプログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20231124BHJP
G06N 20/00 20190101ALI20231124BHJP
G10L 25/63 20130101ALI20231124BHJP
【FI】
G10L15/10 500N
G06N20/00
G10L25/63
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022083342
(22)【出願日】2022-05-20
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り https://urldefense.com/v3/__https://doi.org/10.11517/pjsai.JSAI2021.0_1N4IS1a04__;!!OhYLZkit9p47d2A!tgXzqFzv9TekHSM3dtP_BsPwARY3xw8lrckskexffOipN2A1DVlYR2QxmCYlzbCvWpYvxDO60Jo8dPxFIZ07laQ$ 掲載日 令和3年6月8日
(71)【出願人】
【識別番号】504126835
【氏名又は名称】エヌ・ティ・ティ レゾナント株式会社
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(72)【発明者】
【氏名】立石 修平
(72)【発明者】
【氏名】中辻 真
(72)【発明者】
【氏名】奥井 颯平
(72)【発明者】
【氏名】小瀬木 悠佳
(72)【発明者】
【氏名】八島 浩文
(72)【発明者】
【氏名】松野 繁雄
(57)【要約】 (修正有)
【課題】発話者の感情の推定の精度を向上させる学習装置、推定装置、学習方法、推定方法及びプログラムを提供する。
【解決手段】学習装置において、制御部は、発話の最中の推定対象の感情に依存する感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備える。数理モデルは、感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する感情時系列の種類に応じて予め定められた条件である区分け条件の下で、感情時系列が時間方向に区分けされた結果として得られる意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を実行する。写像は、学習により更新される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、
を備え、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習装置。
【請求項2】
前記感情時系列の1つは前記推定対象の発話の時系列である、
請求項1に記載の学習装置。
【請求項3】
前記感情時系列の他の1つは前記発話の音の時系列である、
請求項2に記載の学習装置。
【請求項4】
前記感情時系列の他の1つは前記発話を発話している最中の前記推定対象の様子を映した動画である、
請求項2に記載の学習装置。
【請求項5】
前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、
前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
請求項1から4のいずれか一項に記載の学習装置。
【請求項6】
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。
【請求項7】
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、
を有し、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習方法。
【請求項8】
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。
【請求項9】
請求項1に記載の学習装置としてコンピュータを機能させるためのプログラム。
【請求項10】
請求項6に記載の推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。
【背景技術】
【0002】
機械学習の技術を用いて発話者の感情を推定する技術に関心が高まっている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Kaicheng Yang, et.al., “CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis”, 2020 Association for Computing Machinery, ACM ISBN 978-1-4503-7988-5/20/10
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、これまでの技術では単一の情報を用いて感情の推定を行うことが主に行われている。感情の推定には、感情に応じた内容を有する情報を解析することが大事であるが、感情は複雑であるため、単一の情報を用いた推定では、推定の精度が低い場合があった。
【0005】
上記事情に鑑み、本発明は、発話者の感情の推定の精度を向上させる技術を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置である。
【0007】
本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、を備える推定装置である。
【0008】
本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、を有し、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習方法である。
【0009】
本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、を有する推定方法である。
【0010】
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
【0011】
本発明の一態様は、上記の推定装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0012】
本発明により、発話者の感情の推定の精度を向上させることが可能となる。
【図面の簡単な説明】
【0013】
【
図1】実施形態における数理モデルの概要を説明する説明図。
【
図2】実施形態の学習装置のハードウェア構成の一例を示す図。
【
図3】実施形態の学習装置が備える制御部の構成の一例を示す図。
【
図4】実施形態の学習装置が実行する処理の流れの一例を示すフローチャート。
【
図5】実施形態の推定装置のハードウェア構成の一例を示す図。
【
図6】実施形態の推定装置が備える制御部の構成の一例を示す図。
【
図7】実施形態の推定装置が実行する処理の流れの一例を示すフローチャート。
【発明を実施するための形態】
【0014】
(実施形態)
図1は、実施形態における数理モデルの概要を説明する説明図である。より具体的には、
図1は、推定対象である発話者の感情を推定する数理モデル(以下「感情推定モデル」という。)の概要を説明する図である。感情推定モデルは、学習により更新される。学習により更新されるとは、機械学習の方法により更新されることを意味する。
【0015】
感情推定モデルは、より具体的には、2種類以上の感情時系列に基づき推定対象の感情を推定する数理モデルである。感情時系列は、発話者が発する発話に関する時系列であって、発話の最中の発話者の感情に依存する時系列である。
【0016】
感情時系列は、例えば発話者の発話の時系列(以下「発話時系列」という。)である。感情時系列は、例えば発話時系列が示す発話の音の時系列(以下「音時系列」という。)である。感情時系列は、例えば発話時系列が示す発話を発話中の発話者の動画音の時系列(以下「音時系列」という。)である。
【0017】
感情時系列は、例えば発話時系列が示す発話を発話している最中の発話者の様子を映した動画(以下「発話動画」という。)である。このように感情時系列は、発話時系列が示す発話の時系列と、発話時系列が示す発話に関する時系列と、発話時系列が示す発話を発話している最中の発話者に関する時系列と、のいずれかに属するであればどのような時系列であってもよい。
【0018】
例えば発話時系列と音時系列とは互いに種類の異なる時系列である。また、発話時系列と発話動画とも互いに種類の異なる時系列である。音時系列と発話動画とも互いに種類の異なる時系列である。感情推定モデルには、2種類以上の感情時系列が入力されればどのような入力時系列でもよいが、少なくとも発話時系列は入力されることが望ましい。
【0019】
図1には、感情時系列として、発話時系列と、音時系列と、発話動画との3つが示されている。感情推定モデルでは、ベクトル化取得処理が実行される。ベクトル化処理は、感情時系列を示すベクトル(以下「感情時系列ベクトル」という。)を感情時系列ごとに取得する処理である。感情時系列ベクトルは具体的には、各要素が、時系列のサンプルを示すベクトルである。したがって、
図1の例では、ベクトル化処理の実行により、発話時系列を示す感情時系列ベクトルと、音時系列を示す感情時系列ベクトルと、発話動画を示す感情時系列ベクトルとが得られる。
【0020】
次に感情推定モデルでは、意味付与処理が実行される。意味付与処理は、意味ベクトルを感情時系列ベクトルに付与する処理である。意味ベクトルは、各意味区間の意味を示すベクトルである。意味区間は、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である。以下、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件を、区分け条件という。
【0021】
なお、ベクトルにベクトルを付与するとは、ベクトルとベクトルとを結合することを意味する。ベクトルとベクトルとの結合とは、N次元のベクトルであるベクトルH1とM次元のベクトルであるベクトルH2とから(N+M)次元のベクトルH3を生成する処理(NとMとは1以上の整数)である。ベクトルH3の1番目からN番目までの要素は順にベクトルH1の1番目からN番目までの要素であり、ベクトルH3の(N+1)番目から(N+M)番目までの要素は順にベクトルH2の1番目からM番目までの要素である。
【0022】
以下、意味付与処理によって得られたベクトルであって感情時系列ベクトルと意味ベクトルとの結合したベクトルを統合ベクトルという。
【0023】
図1の例では、意味付与処理の実行により、発話時系列を示す感情時系列ベクトルに対応する統合ベクトルと、音時系列を示す感情時系列ベクトルに対応する統合ベクトルと、発話動画を示す感情時系列ベクトルに対応する統合ベクトルと、の3種類の統合ベクトルが得られる。
【0024】
なお区分け条件は、例えば発話時系列の場合であれば、単語を1つだけ含むという条件である。音時系列あれば、区分け条件は、例えば音の開始から終わりまでの1フレーズだけを含む、という条件である。発話動画であれば、区分け条件は、例えば1シーンだけを含む、という条件である。
【0025】
したがって、意味区間の時間方向の長さは意味区間ごとに異なり、必ずしも同一では無い。例えば発話時系列の場合であれば、意味区間の長さは単語の長さであるので、発話時系列に長さの異なる複数の単語が含まれていれば、発話時系列には時間方向の長さが異なる複数の意味区間が存在する。
【0026】
なお意味付与処理では、意味の候補を示す情報であって予め所定の記憶装置に記憶済みの情報(以下「セマンティック辞書」という。)に基づいて意味ベクトルが付与される。意味付与処理は、例えば以下の参考文献1に記載のLMMS(Language Modeling Makes Sense)を用いた技術であってもよい。
【0027】
参考文献1:Daniel Loureiro, et al. Language Modelling Makes Sense: Propagating Representations through WordNet for Full-Coverage Word Sense Disambiguation, In Proc. ACL’19, 5682-5691
【0028】
なお、発話時系列に対する意味付与処理では、例えば発話時系列の示す発話内の各単語の意味を示す情報が音時系列を示す感情時系列ベクトルに付与される。なお、音時系列に対する意味付与処理では、例えば音時系列が示す各音の高低の情報や大小の情報が音時系列を示す感情時系列ベクトルに付与される。なお、発話動画に対する意味付与処理では、例えば発話動画の示す動画の各シーンの内容を示す情報が発話動画を示す感情時系列ベクトルに付与される。
【0029】
次に感情推定モデルでは、共通情報取得処理が実行される。共通情報取得処理は、統合ベクトルの種類に依らず各統合ベクトルに同一の写像を作用させる処理である。写像は、例えば所定のベクトルとの二項演算を表す写像であってもよい。この場合、所定のベクトルと二項演算の定義とは、統合ベクトルの種類に依らず同一である。二項演算は、例えばテンソル積である。写像は、例えば行列であってもよい。二項演算としてテンソル積が用いられる場合、各元はベクトル又は行列等のテンソルである。そのためテンソル積では、各元の要素同士がすべて乗算される。したがってテンソル積が用いられることで、他の二項演算が用いられた場合よりも、二項同士の関連性が高い精度で抽出される。
【0030】
共通情報取得処理の実行の結果は、後段の処理に入力される。共通情報取得処理の実行の結果とは、二項演算の結果である。すなわち、共通情報取得処理の実行の結果とは、写像の像である。後段の処理は、具体的には、共通情報取得処理の実行の結果に基づいて感情を推定する処理(以下「感情推定後処理」という。)である。感情の推定は、例えば共通情報取得処理の実行の結果に基づいて文章分類(Sequence Classification)タスクによって推定される。
【0031】
共通情報取得処理の実行の次に感情推定モデルでは、感情推定後処理を実行する。このようにして、感情推定モデルは推定対象の感情を推定する。
【0032】
<共通情報取得処理の奏する効果>
ここで共通情報取得処理の奏する効果について説明する。共通情報取得処理は、上述したように入力された各統合ベクトルに同一の写像を作用させる処理である。したがって、各統合ベクトルに共通する情報を取得する処理である。数学的には、共通情報取得処理は、各統合ベクトルを含む1つのベクトル空間において、各統合ベクトルを同一の超平面に斜影する処理である。ところで、各統合ベクトルはいずれも、発話時系列が示す発話の時系列と、発話時系列が示す発話に関する時系列と、発話時系列が示す発話を発話している最中の発話者に関する時系列と、のいずれかに属する時系列から得られたものである。
【0033】
そのため、各統合ベクトルは発話時系列が示す発話の主題(トピック)を共通の情報として有する。したがって、共通情報取得処理によって得られる各統合ベクトルに共通する情報は主題を含む。感情推定モデルの学習により写像が更新されることで、共通情報取得処理において、共通の情報の全情報量のうちの主題の情報量の割合が高まる。たとえ主題の情報を含んでいても他の多くの情報に埋もれていては主題の情報の感情推定モデルの推定結果に対する影響は小さい。すなわち、主題の情報を含んでいても他の多くの情報に埋もれていては主題の情報は、感情推定モデルの推定結果に対して有意な効果を与えない。
【0034】
上述したように、共通情報取得処理は、感情推定モデルによる推定に用いられる全情報の情報量のうち主題の情報の情報量を増大させる処理であるので、共通情報取得処理の実行により、主題の情報の感情推定モデルの推定結果に対する影響が増大する。その結果、感情推定モデルは、主題を示す情報による有意な効果を受けて、推定結果を得ることができる。主題が発話の内容の概要を示す重要な情報であることを鑑みれば、推定において主題の情報も有意に用いることができる感情推定モデルは、感情を推定する数理モデルであって共通情報取得処理を実行しない他の数理モデルよりも推定の精度が高い。
【0035】
なお、機械学習の方法は、例えばBERT(Bidirectional Encoder Representations from Transformers)を用いる方法であってもよいし、LSTM(Long short-term memory)を用いる方法であってもよいし、CNN(Convolutional Neural Networks)を用いる方法であってもよい。感情推定モデルの学習では、正解データと2種類以上の感情時系列との対が訓練データとして用いられる。正解データは、感情を示す情報である。学習における損失関数は正解データとの違いを示す関数であり、感情推定モデルは損失関数の示す違いが小さくなるように更新される。なお、学習は学習に関する所定の終了条件(以下「学習終了条件」という。)が満たされるまで実行される。学習終了条件は、例えば予め定められた回数の学習が終了したという条件である。学習終了条件は、例えば感情推定モデルの推定の精度が所定の精度以上という条件であってもよい。
【0036】
図2は、実施形態における学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0037】
より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0038】
制御部11は、学習装置1が備える各種機能部の動作を制御する。制御部11は、例えば感情推定モデルの学習を行う。制御部11は、例えば出力部15の動作を制御する。制御部11は、例えば感情推定モデルの学習により生じた各種情報を記憶部14に記録する。
【0039】
入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、学習装置1に対する各種情報の入力を受け付ける。入力部12には、例えば感情時系列が入力される。
【0040】
通信部13は、学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば訓練データの送信元の装置である。通信部13は、訓練データの送信元の装置との通信によって訓練データを取得する。外部装置は、例えば後述する推定装置2である。
【0041】
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えば感情推定モデルの学習により生じた各種情報を記憶する。記憶部14は、予め感情推定モデルを記憶する。なお数理モデルを記憶するとは数理モデルを記述するコンピュータプログラムを記憶することを意味する。記憶部14は、得られた学習済みの感情推定モデルを記憶してもよい。
【0042】
出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば感情推定モデルの実行の結果を表示してもよい。
【0043】
図3は、実施形態における制御部11の構成の一例を示す図である。制御部11は、データ取得部110、学習部120、記憶制御部130、通信制御部140及び出力制御部150を備える。
【0044】
データ取得部110は、訓練データを取得する。すなわちデータ取得部110は、正解データと感情時系列とを取得する。学習部120は、データ取得部110の得た訓練データを用いて、学習終了条件が満たされるまで感情推定モデルを更新する。すなわち、学習部120は、正解データと2種類以上の感情時系列とを用いて学習済みの感情推定モデルを得る。学習済みの感情推定モデルは、学習終了条件が満たされた時点の感情推定モデルである。
【0045】
記憶制御部130は、記憶部14に各種情報を記録する。通信制御部140は通信部13の動作を制御する。出力制御部150は、出力部15の動作を制御する。
【0046】
図4は、実施形態における学習装置1が実行する処理の流れの一例を示すフローチャートである。データ取得部110が正解データと2種類以上の感情時系列とを含む訓練データを取得する(ステップS101)。次に、学習部120が、ステップS101で得られた2種類以上の感情時系列に対して感情推定モデルを実行することで、推定対象の感情を推定する(ステップS102)。ステップS102では感情推定モデルが実行されるので、ベクトル化処理、意味付与処理、共通情報取得処理及び感情推定後処理が実行される。
【0047】
ステップS102の次に、学習部120がステップS102の推定結果を用い、ステップS101で得られた正解データと違いに基づき、感情推定モデルを更新する(ステップS103)。次に、学習部120が、学習終了条件が満たされたか否かを判定する(ステップS104)。学習終了条件が満たされた場合(ステップS104:YES)、処理が終了する。一方、学習終了条件が満たされない場合(ステップS104:NO)、ステップS101の処理に戻る。
【0048】
学習終了条件が満たされた時点の感情推定モデルが学習済みの感情推定モデルであり、得られた学習済みの感情推定モデルは、以下の
図7に示す推定装置2によって推定対象の感情の推定に用いられる。学習済みの感情推定モデルは推定装置2が実行可能な状態になれば、どのような方法で推定装置2の制御化に置かれてもよい。学習済みの感情推定モデルは、例えば学習終了条件が満たされた後に通信によって学習装置1から推定装置2に送信されることで、推定装置2による実行が可能になる。
【0049】
図7は、実施形態における推定装置2のハードウェア構成の一例を示す図である。推定装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。推定装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
【0050】
より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、推定装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
【0051】
制御部21は、推定装置2が備える各種機能部の動作を制御する。制御部21は、例えば学習済みの感情推定モデルを実行する。制御部21は、例えば出力部25の動作を制御する。制御部21は、例えば学習済みの感情推定モデルの実行により生じた各種情報を記憶部24に記録する。
【0052】
入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を推定装置2に接続するインタフェースとして構成されてもよい。入力部22は、推定装置2に対する各種情報の入力を受け付ける。
【0053】
通信部23は、推定装置2を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば感情時系列の送信元の装置である。外部装置は、例えば学習装置1である。通信部23は、学習装置1との通信により、学習済みの感情推定モデルを取得する。なお、感情時系列は、必ずしも通信部23に入力される必要は無く、入力部22に入力されてもよい。
【0054】
記憶部24は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は推定装置2に関する各種情報を記憶する。記憶部24は、例えば入力部22又は通信部23を介して入力された情報を記憶する。記憶部24は、例えば学習済みの感情推定モデルの実行により生じた各種情報を記憶する。記憶部24は、学習済みの感情推定モデルを記憶する。
【0055】
出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を推定装置2に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。出力部25は、例えば学習済みの感情推定モデルの実行結果を表示してもよい。
【0056】
図6は、実施形態における制御部21の構成の一例を示す図である。制御部21は、対象取得部210、推定部220、記憶制御部230、通信制御部240及び出力制御部250を備える。対象取得部210は、入力部22又は通信部23に入力された感情時系列を取得する。
【0057】
推定部220は、対象取得部210の取得した感情時系列に対して学習済みの感情推定モデルを実行する。推定部220は、学習済みの感情推定モデルの実行により、対象取得部210の取得した感情時系列に対応する発話者の感情が推定される。
【0058】
上述したように感情時系列は発話者が発する発話に関する時系列であって発話の最中の発話者の感情に依存する時系列である。したがって、対象取得部210の取得した感情時系列に対応する発話者とは、発した発話に関する時系列であって自身の感情に依存する時系列が対象取得部210の取得した感情時系列であるという条件(以下「対応発話者条件」という。)を満たす発話者である。そのため、対応発話者条件を満たす発話者が、推定部220による感情の推定の対象である。
【0059】
記憶制御部230は、記憶部24に各種情報を記録する。通信制御部240は通信部23の動作を制御する。出力制御部250は、出力部25の動作を制御する。
【0060】
図7は、実施形態における推定装置2が実行する処理の流れの一例を示すフローチャートである。対象取得部210が、入力部22又は通信部23に入力された2種類以上の感情時系列を取得する(ステップS201)。次に推定部220が、学習済みの感情推定モデルを実行することで、対象取得部210の取得した感情時系列に対応する発話者の感情を推定する(ステップS202)。次に出力制御部250が出力部25の動作を制御して、ステップS202で推定された感情を出力部25に出力させる(ステップS203)。
【0061】
このように構成された実施形態における学習装置1は、共通情報取得処理を実行する感情推定モデルを学習により更新する。したがって、上述の共通情報取得処理の奏する効果の説明に記載のように、感情推定モデルは、主題を示す情報による有意な効果を受けて推定結果を得る。そのため、学習装置1は、発話者の感情の推定の精度を向上させることができる。
【0062】
また、このように構成された実施形態における推定装置2は、学習装置1が得た学習済みの感情推定モデルを用いて、推定対象の感情を推定する。したがって推定装置2は、推定対象の感情の推定の精度を向上させることができる。
【0063】
(変形例)
感情推定後処理は、共通情報取得処理の実行の結果そのものに代えて、共通情報取得処理の実行の結果に対して次元削減処理が実行された結果に対して、実行されてもよい。すなわち、共通情報取得処理と感情情報推定後処理との間に次元削減処理が実行されてもよい。次元削減処理は、共通情報取得処理の実行の結果がベクトル等のテンソルである場合にテンソルの次元を減らす処理である。次元削減処理の実行により得られるテンソルの次元は、感情情報推定後処理が処理可能な次元である。
【0064】
感情推定後処理は、共通情報取得処理の実行の結果そのものに代えて、共通情報取得処理の実行の結果に対して時分解埋め込み処理が実行された結果に対して、実行されてもよい。時分解埋め込み処理は、共通情報取得処理の実行の結果がベクトルである場合に適用可能である。意味付与処理では、上述したように意味区間ごとに意味が付与されている。したがって、意味付与処理で得られたベクトル(すなわち統合ベクトル)は意味区間の時間の長さの情報を有している。そして、共通情報取得処理は統合ベクトルに対しても実行されるため、各意味区間の時間の長さを示す情報(以下「意味区間長さ情報」という。)は、共通情報取得処理の実行の結果も有する。
【0065】
しかしながら、感情推定後処理は、意味区間の長さが同じという情報の元で演算を行う処理である場合がある。そこで、時分解埋め込み処理は、意味区間長さ情報の示す各意味区間の長さが意味区間によらず同一であるというベクトルを得るように、共通情報取得処理の実行の結果として得られたベクトルを変換する。
【0066】
具体的には、以下の処理が実行される。
【0067】
【0068】
【0069】
【0070】
式(1)の左辺は各モダリティの発話における単語分割された埋め込みテンソルを意味する。式(1)の右辺は左辺テンソルがモダリティの埋め込みベクトルから成っていることを意味する。この時、mは{l、a、v}を意味している。すなわち、mは、lとaとvとの集合であることを意味する。mはモダリティに対する添え字の総称として置かれており、lは言語モダリティを、aは音声モダリティを、vは映像モダリティを、それぞれ意味している。式(1)の右辺の各要素は、単語ごとの埋め込みベクトルを意味する。nuは、発話の単語長を意味する。式(2)の左辺は時分解埋め込み処理によって生成される時系列モダリティの発話全体に対する特徴量テンソルを意味する。式(2)の右辺の“conv1D”は一次元畳み込み処理を意味し、時系列の全データポイントを発話における単語長のデータポイント数まで畳み込む処理を示している。式(2)の右辺のM´は発話における各モダリティの時系列の特徴テンソルを意味する。MはAとVとの組である。Aは音声モダリティを、Vは映像モダリティを、それぞれ意味する。式(3)の左辺は発話全体の特徴量テンソルを意味する。式(3)の右辺の“concat”は行列の結合処理を意味する。式(3)のAuは、式(2)におけるMuテンソルのうち音声モダリティ成分意味する。式(3)のWaは、Auに対する重みを意味する。式(3)のVuは、式(2)におけるMuテンソルのうち映像モダリティ成分意味する。式(3)のWvは、Vuに対する重みを意味する。を意味する。式(3)におけるmも、言語、音声、映像の各モダリティの集合を意味しており、すなわちこの式は各モダリティの単語分割埋め込みテンソルに対して右辺の操作を行うことを示している。この時の右辺のE´mは式(1)の左辺と同じもの、すなわち上述の単語分割埋め込みテンソルである。
【0071】
このように、時分解埋め込み処理は、時系列を示す入力されたベクトルであって意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する処理である。そして、変換後の各意味区間の長さは発話時系列が含む各発話の長さの平均値で入力されたベクトルが示す時系列の時間方向の長さを割り算した長さである。
【0072】
なお、時分解埋め込み処理は、感情推定後処理の実行前に実行されればよく、例えば次元削減処理の結果に対して実行されてもよい。
【0073】
なお、学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
【0074】
なお、推定装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、推定装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
【0075】
なお、学習装置1と、推定装置2と、の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0076】
なお、対象取得部210の取得する感情時系列は対象情報の一例である。対象取得部210の取得した感情時系列の示す文章は処理対象の一例である。
【0077】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0078】
(付記1)
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、
を備え、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習装置。
【0079】
(付記2)
前記感情時系列の1つは前記推定対象の発話の時系列である、
付記1に記載の学習装置。
【0080】
(付記3)
前記感情時系列の他の1つは前記発話の音の時系列である、
付記2に記載の学習装置。
【0081】
(付記4)
前記感情時系列の他の1つは前記発話を発話している最中の前記推定対象の様子を映した動画である、
付記2又は3に記載の学習装置。
【0082】
(付記5)
前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、
前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
付記1から4のいずれか一つに記載の学習装置。
【0083】
(付記6)
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。
【0084】
(付記7)
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、
を有し、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習方法。
【0085】
(付記8)
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。
【0086】
(付記9)
付記1から5のいずれか一つに記載の学習装置としてコンピュータを機能させるためのプログラム。
【0087】
(付記10)
付記6に記載の推定装置としてコンピュータを機能させるためのプログラム。
【符号の説明】
【0088】
1…学習装置、 2…推定装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 110…データ取得部、 120…学習部、 130…記憶制御部、 140…通信制御部、 150…出力制御部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 210…対象取得部、 220…推定部、 230…記憶制御部、 240…通信制御部、 250…出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ
【手続補正書】
【提出日】2023-05-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、
を備え、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新され、
前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の3種類のいずれかである、
学習装置。
請求項1に記載の学習装置。
【請求項2】
前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
請求項1に記載の学習装置。
【請求項3】
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新され、前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の3種類のいずれかである、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。
【請求項4】
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、
を有し、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新され、
前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の3種類のいずれかである、
学習方法。
【請求項5】
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された2種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新され、前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の3種類のいずれかである、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。
【請求項6】
請求項1に記載の学習装置としてコンピュータを機能させるためのプログラム。
【請求項7】
請求項3に記載の推定装置としてコンピュータを機能させるためのプログラム。