特開2023-171101 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ　レゾナント株式会社の特許一覧

特開2023-171101学習装置、推定装置、学習方法、推定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023171101

(43)【公開日】2023-12-01

(54)【発明の名称】学習装置、推定装置、学習方法、推定方法及びプログラム

(51)【国際特許分類】

G10L 15/10 20060101AFI20231124BHJP

G06N 20/00 20190101ALI20231124BHJP

G10L 25/63 20130101ALI20231124BHJP

【ＦＩ】

G10L15/10 500N

G06N20/00

G10L25/63

【審査請求】有

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022083342

(22)【出願日】2022-05-20

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有りｈｔｔｐｓ：／／ｕｒｌｄｅｆｅｎｓｅ．ｃｏｍ／ｖ３／＿＿ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１５１７／ｐｊｓａｉ．ＪＳＡＩ２０２１．０＿１Ｎ４ＩＳ１ａ０４＿＿；！！ＯｈＹＬＺｋｉｔ９ｐ４７ｄ２Ａ！ｔｇＸｚｑＦｚｖ９ＴｅｋＨＳＭ３ｄｔＰ＿ＢｓＰｗＡＲＹ３ｘｗ８ｌｒｃｋｓｋｅｘｆｆＯｉｐＮ２Ａ１ＤＶｌＹＲ２ＱｘｍＣＹｌｚｂＣｖＷｐＹｖｘＤＯ６０Ｊｏ８ｄＰｘＦＩＺ０７ｌａＱ＄掲載日令和３年６月８日

(71)【出願人】

【識別番号】504126835

【氏名又は名称】エヌ・ティ・ティレゾナント株式会社

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(72)【発明者】

【氏名】立石修平

(72)【発明者】

【氏名】中辻真

(72)【発明者】

【氏名】奥井颯平

(72)【発明者】

【氏名】小瀬木悠佳

(72)【発明者】

【氏名】八島浩文

(72)【発明者】

【氏名】松野繁雄

(57)【要約】（修正有）

【課題】発話者の感情の推定の精度を向上させる学習装置、推定装置、学習方法、推定方法及びプログラムを提供する。
【解決手段】学習装置において、制御部は、発話の最中の推定対象の感情に依存する感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備える。数理モデルは、感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する感情時系列の種類に応じて予め定められた条件である区分け条件の下で、感情時系列が時間方向に区分けされた結果として得られる意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を実行する。写像は、学習により更新される。
【選択図】図３

【特許請求の範囲】

【請求項1】

発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、
を備え、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習装置。

【請求項2】

前記感情時系列の１つは前記推定対象の発話の時系列である、
請求項１に記載の学習装置。

【請求項3】

前記感情時系列の他の１つは前記発話の音の時系列である、
請求項２に記載の学習装置。

【請求項4】

前記感情時系列の他の１つは前記発話を発話している最中の前記推定対象の様子を映した動画である、
請求項２に記載の学習装置。

【請求項5】

前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、
前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
請求項１から４のいずれか一項に記載の学習装置。

【請求項6】

発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。

【請求項7】

発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、
を有し、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習方法。

【請求項8】

発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。

【請求項9】

請求項１に記載の学習装置としてコンピュータを機能させるためのプログラム。

【請求項10】

請求項６に記載の推定装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。

【背景技術】

【0002】

機械学習の技術を用いて発話者の感情を推定する技術に関心が高まっている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Kaicheng Yang, et.al., “CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis”, 2020 Association for Computing Machinery, ACM ISBN 978-1-4503-7988-5/20/10

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、これまでの技術では単一の情報を用いて感情の推定を行うことが主に行われている。感情の推定には、感情に応じた内容を有する情報を解析することが大事であるが、感情は複雑であるため、単一の情報を用いた推定では、推定の精度が低い場合があった。

【0005】

上記事情に鑑み、本発明は、発話者の感情の推定の精度を向上させる技術を提供することを目的としている。

【課題を解決するための手段】

【0006】

本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置である。

【0007】

本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、を備える推定装置である。

【0008】

本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、を有し、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習方法である。

【0009】

本発明の一態様は、発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、を有する推定方法である。

【0010】

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。

【0011】

本発明の一態様は、上記の推定装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0012】

本発明により、発話者の感情の推定の精度を向上させることが可能となる。

【図面の簡単な説明】

【0013】

【図1】実施形態における数理モデルの概要を説明する説明図。

【図2】実施形態の学習装置のハードウェア構成の一例を示す図。

【図3】実施形態の学習装置が備える制御部の構成の一例を示す図。

【図4】実施形態の学習装置が実行する処理の流れの一例を示すフローチャート。

【図5】実施形態の推定装置のハードウェア構成の一例を示す図。

【図6】実施形態の推定装置が備える制御部の構成の一例を示す図。

【図7】実施形態の推定装置が実行する処理の流れの一例を示すフローチャート。

【発明を実施するための形態】

【0014】

（実施形態）
図１は、実施形態における数理モデルの概要を説明する説明図である。より具体的には、図１は、推定対象である発話者の感情を推定する数理モデル（以下「感情推定モデル」という。）の概要を説明する図である。感情推定モデルは、学習により更新される。学習により更新されるとは、機械学習の方法により更新されることを意味する。

【0015】

感情推定モデルは、より具体的には、２種類以上の感情時系列に基づき推定対象の感情を推定する数理モデルである。感情時系列は、発話者が発する発話に関する時系列であって、発話の最中の発話者の感情に依存する時系列である。

【0016】

感情時系列は、例えば発話者の発話の時系列（以下「発話時系列」という。）である。感情時系列は、例えば発話時系列が示す発話の音の時系列（以下「音時系列」という。）である。感情時系列は、例えば発話時系列が示す発話を発話中の発話者の動画音の時系列（以下「音時系列」という。）である。

【0017】

感情時系列は、例えば発話時系列が示す発話を発話している最中の発話者の様子を映した動画（以下「発話動画」という。）である。このように感情時系列は、発話時系列が示す発話の時系列と、発話時系列が示す発話に関する時系列と、発話時系列が示す発話を発話している最中の発話者に関する時系列と、のいずれかに属するであればどのような時系列であってもよい。

【0018】

例えば発話時系列と音時系列とは互いに種類の異なる時系列である。また、発話時系列と発話動画とも互いに種類の異なる時系列である。音時系列と発話動画とも互いに種類の異なる時系列である。感情推定モデルには、２種類以上の感情時系列が入力されればどのような入力時系列でもよいが、少なくとも発話時系列は入力されることが望ましい。

【0019】

図１には、感情時系列として、発話時系列と、音時系列と、発話動画との３つが示されている。感情推定モデルでは、ベクトル化取得処理が実行される。ベクトル化処理は、感情時系列を示すベクトル（以下「感情時系列ベクトル」という。）を感情時系列ごとに取得する処理である。感情時系列ベクトルは具体的には、各要素が、時系列のサンプルを示すベクトルである。したがって、図１の例では、ベクトル化処理の実行により、発話時系列を示す感情時系列ベクトルと、音時系列を示す感情時系列ベクトルと、発話動画を示す感情時系列ベクトルとが得られる。

【0020】

次に感情推定モデルでは、意味付与処理が実行される。意味付与処理は、意味ベクトルを感情時系列ベクトルに付与する処理である。意味ベクトルは、各意味区間の意味を示すベクトルである。意味区間は、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である。以下、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件を、区分け条件という。

【0021】

なお、ベクトルにベクトルを付与するとは、ベクトルとベクトルとを結合することを意味する。ベクトルとベクトルとの結合とは、Ｎ次元のベクトルであるベクトルＨ１とＭ次元のベクトルであるベクトルＨ２とから（Ｎ＋Ｍ）次元のベクトルＨ３を生成する処理（ＮとＭとは１以上の整数）である。ベクトルＨ３の１番目からＮ番目までの要素は順にベクトルＨ１の１番目からＮ番目までの要素であり、ベクトルＨ３の（Ｎ＋１）番目から（Ｎ＋Ｍ）番目までの要素は順にベクトルＨ２の１番目からＭ番目までの要素である。

【0022】

以下、意味付与処理によって得られたベクトルであって感情時系列ベクトルと意味ベクトルとの結合したベクトルを統合ベクトルという。

【0023】

図１の例では、意味付与処理の実行により、発話時系列を示す感情時系列ベクトルに対応する統合ベクトルと、音時系列を示す感情時系列ベクトルに対応する統合ベクトルと、発話動画を示す感情時系列ベクトルに対応する統合ベクトルと、の３種類の統合ベクトルが得られる。

【0024】

なお区分け条件は、例えば発話時系列の場合であれば、単語を１つだけ含むという条件である。音時系列あれば、区分け条件は、例えば音の開始から終わりまでの１フレーズだけを含む、という条件である。発話動画であれば、区分け条件は、例えば１シーンだけを含む、という条件である。

【0025】

したがって、意味区間の時間方向の長さは意味区間ごとに異なり、必ずしも同一では無い。例えば発話時系列の場合であれば、意味区間の長さは単語の長さであるので、発話時系列に長さの異なる複数の単語が含まれていれば、発話時系列には時間方向の長さが異なる複数の意味区間が存在する。

【0026】

なお意味付与処理では、意味の候補を示す情報であって予め所定の記憶装置に記憶済みの情報（以下「セマンティック辞書」という。）に基づいて意味ベクトルが付与される。意味付与処理は、例えば以下の参考文献１に記載のＬＭＭＳ（Language Modeling Makes Sense）を用いた技術であってもよい。

【0027】

参考文献１：Daniel Loureiro, et al. Language Modelling Makes Sense: Propagating Representations through WordNet for Full-Coverage Word Sense Disambiguation, In Proc. ACL’19, 5682-5691

【0028】

なお、発話時系列に対する意味付与処理では、例えば発話時系列の示す発話内の各単語の意味を示す情報が音時系列を示す感情時系列ベクトルに付与される。なお、音時系列に対する意味付与処理では、例えば音時系列が示す各音の高低の情報や大小の情報が音時系列を示す感情時系列ベクトルに付与される。なお、発話動画に対する意味付与処理では、例えば発話動画の示す動画の各シーンの内容を示す情報が発話動画を示す感情時系列ベクトルに付与される。

【0029】

次に感情推定モデルでは、共通情報取得処理が実行される。共通情報取得処理は、統合ベクトルの種類に依らず各統合ベクトルに同一の写像を作用させる処理である。写像は、例えば所定のベクトルとの二項演算を表す写像であってもよい。この場合、所定のベクトルと二項演算の定義とは、統合ベクトルの種類に依らず同一である。二項演算は、例えばテンソル積である。写像は、例えば行列であってもよい。二項演算としてテンソル積が用いられる場合、各元はベクトル又は行列等のテンソルである。そのためテンソル積では、各元の要素同士がすべて乗算される。したがってテンソル積が用いられることで、他の二項演算が用いられた場合よりも、二項同士の関連性が高い精度で抽出される。

【0030】

共通情報取得処理の実行の結果は、後段の処理に入力される。共通情報取得処理の実行の結果とは、二項演算の結果である。すなわち、共通情報取得処理の実行の結果とは、写像の像である。後段の処理は、具体的には、共通情報取得処理の実行の結果に基づいて感情を推定する処理（以下「感情推定後処理」という。）である。感情の推定は、例えば共通情報取得処理の実行の結果に基づいて文章分類（Sequence Classification）タスクによって推定される。

【0031】

共通情報取得処理の実行の次に感情推定モデルでは、感情推定後処理を実行する。このようにして、感情推定モデルは推定対象の感情を推定する。

【0032】

＜共通情報取得処理の奏する効果＞
ここで共通情報取得処理の奏する効果について説明する。共通情報取得処理は、上述したように入力された各統合ベクトルに同一の写像を作用させる処理である。したがって、各統合ベクトルに共通する情報を取得する処理である。数学的には、共通情報取得処理は、各統合ベクトルを含む１つのベクトル空間において、各統合ベクトルを同一の超平面に斜影する処理である。ところで、各統合ベクトルはいずれも、発話時系列が示す発話の時系列と、発話時系列が示す発話に関する時系列と、発話時系列が示す発話を発話している最中の発話者に関する時系列と、のいずれかに属する時系列から得られたものである。

【0033】

そのため、各統合ベクトルは発話時系列が示す発話の主題（トピック）を共通の情報として有する。したがって、共通情報取得処理によって得られる各統合ベクトルに共通する情報は主題を含む。感情推定モデルの学習により写像が更新されることで、共通情報取得処理において、共通の情報の全情報量のうちの主題の情報量の割合が高まる。たとえ主題の情報を含んでいても他の多くの情報に埋もれていては主題の情報の感情推定モデルの推定結果に対する影響は小さい。すなわち、主題の情報を含んでいても他の多くの情報に埋もれていては主題の情報は、感情推定モデルの推定結果に対して有意な効果を与えない。

【0034】

上述したように、共通情報取得処理は、感情推定モデルによる推定に用いられる全情報の情報量のうち主題の情報の情報量を増大させる処理であるので、共通情報取得処理の実行により、主題の情報の感情推定モデルの推定結果に対する影響が増大する。その結果、感情推定モデルは、主題を示す情報による有意な効果を受けて、推定結果を得ることができる。主題が発話の内容の概要を示す重要な情報であることを鑑みれば、推定において主題の情報も有意に用いることができる感情推定モデルは、感情を推定する数理モデルであって共通情報取得処理を実行しない他の数理モデルよりも推定の精度が高い。

【0035】

なお、機械学習の方法は、例えばＢＥＲＴ（Bidirectional Encoder Representations from Transformers）を用いる方法であってもよいし、ＬＳＴＭ（Long short-term memory）を用いる方法であってもよいし、ＣＮＮ（Convolutional Neural Networks）を用いる方法であってもよい。感情推定モデルの学習では、正解データと２種類以上の感情時系列との対が訓練データとして用いられる。正解データは、感情を示す情報である。学習における損失関数は正解データとの違いを示す関数であり、感情推定モデルは損失関数の示す違いが小さくなるように更新される。なお、学習は学習に関する所定の終了条件（以下「学習終了条件」という。）が満たされるまで実行される。学習終了条件は、例えば予め定められた回数の学習が終了したという条件である。学習終了条件は、例えば感情推定モデルの推定の精度が所定の精度以上という条件であってもよい。

【0036】

図２は、実施形態における学習装置１のハードウェア構成の一例を示す図である。学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。学習装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0037】

より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、学習装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0038】

制御部１１は、学習装置１が備える各種機能部の動作を制御する。制御部１１は、例えば感情推定モデルの学習を行う。制御部１１は、例えば出力部１５の動作を制御する。制御部１１は、例えば感情推定モデルの学習により生じた各種情報を記憶部１４に記録する。

【0039】

入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置を学習装置１に接続するインタフェースとして構成されてもよい。入力部１２は、学習装置１に対する各種情報の入力を受け付ける。入力部１２には、例えば感情時系列が入力される。

【0040】

通信部１３は、学習装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば訓練データの送信元の装置である。通信部１３は、訓練データの送信元の装置との通信によって訓練データを取得する。外部装置は、例えば後述する推定装置２である。

【0041】

記憶部１４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４は学習装置１に関する各種情報を記憶する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えば感情推定モデルの学習により生じた各種情報を記憶する。記憶部１４は、予め感情推定モデルを記憶する。なお数理モデルを記憶するとは数理モデルを記述するコンピュータプログラムを記憶することを意味する。記憶部１４は、得られた学習済みの感情推定モデルを記憶してもよい。

【0042】

出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置を学習装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えば感情推定モデルの実行の結果を表示してもよい。

【0043】

図３は、実施形態における制御部１１の構成の一例を示す図である。制御部１１は、データ取得部１１０、学習部１２０、記憶制御部１３０、通信制御部１４０及び出力制御部１５０を備える。

【0044】

データ取得部１１０は、訓練データを取得する。すなわちデータ取得部１１０は、正解データと感情時系列とを取得する。学習部１２０は、データ取得部１１０の得た訓練データを用いて、学習終了条件が満たされるまで感情推定モデルを更新する。すなわち、学習部１２０は、正解データと２種類以上の感情時系列とを用いて学習済みの感情推定モデルを得る。学習済みの感情推定モデルは、学習終了条件が満たされた時点の感情推定モデルである。

【0045】

記憶制御部１３０は、記憶部１４に各種情報を記録する。通信制御部１４０は通信部１３の動作を制御する。出力制御部１５０は、出力部１５の動作を制御する。

【0046】

図４は、実施形態における学習装置１が実行する処理の流れの一例を示すフローチャートである。データ取得部１１０が正解データと２種類以上の感情時系列とを含む訓練データを取得する（ステップＳ１０１）。次に、学習部１２０が、ステップＳ１０１で得られた２種類以上の感情時系列に対して感情推定モデルを実行することで、推定対象の感情を推定する（ステップＳ１０２）。ステップＳ１０２では感情推定モデルが実行されるので、ベクトル化処理、意味付与処理、共通情報取得処理及び感情推定後処理が実行される。

【0047】

ステップＳ１０２の次に、学習部１２０がステップＳ１０２の推定結果を用い、ステップＳ１０１で得られた正解データと違いに基づき、感情推定モデルを更新する（ステップＳ１０３）。次に、学習部１２０が、学習終了条件が満たされたか否かを判定する（ステップＳ１０４）。学習終了条件が満たされた場合（ステップＳ１０４：ＹＥＳ）、処理が終了する。一方、学習終了条件が満たされない場合（ステップＳ１０４：ＮＯ）、ステップＳ１０１の処理に戻る。

【0048】

学習終了条件が満たされた時点の感情推定モデルが学習済みの感情推定モデルであり、得られた学習済みの感情推定モデルは、以下の図７に示す推定装置２によって推定対象の感情の推定に用いられる。学習済みの感情推定モデルは推定装置２が実行可能な状態になれば、どのような方法で推定装置２の制御化に置かれてもよい。学習済みの感情推定モデルは、例えば学習終了条件が満たされた後に通信によって学習装置１から推定装置２に送信されることで、推定装置２による実行が可能になる。

【0049】

図７は、実施形態における推定装置２のハードウェア構成の一例を示す図である。推定装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。推定装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0050】

より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、推定装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0051】

制御部２１は、推定装置２が備える各種機能部の動作を制御する。制御部２１は、例えば学習済みの感情推定モデルを実行する。制御部２１は、例えば出力部２５の動作を制御する。制御部２１は、例えば学習済みの感情推定モデルの実行により生じた各種情報を記憶部２４に記録する。

【0052】

入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を推定装置２に接続するインタフェースとして構成されてもよい。入力部２２は、推定装置２に対する各種情報の入力を受け付ける。

【0053】

通信部２３は、推定装置２を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば感情時系列の送信元の装置である。外部装置は、例えば学習装置１である。通信部２３は、学習装置１との通信により、学習済みの感情推定モデルを取得する。なお、感情時系列は、必ずしも通信部２３に入力される必要は無く、入力部２２に入力されてもよい。

【0054】

記憶部２４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は推定装置２に関する各種情報を記憶する。記憶部２４は、例えば入力部２２又は通信部２３を介して入力された情報を記憶する。記憶部２４は、例えば学習済みの感情推定モデルの実行により生じた各種情報を記憶する。記憶部２４は、学習済みの感情推定モデルを記憶する。

【0055】

出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を推定装置２に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。出力部２５は、例えば学習済みの感情推定モデルの実行結果を表示してもよい。

【0056】

図６は、実施形態における制御部２１の構成の一例を示す図である。制御部２１は、対象取得部２１０、推定部２２０、記憶制御部２３０、通信制御部２４０及び出力制御部２５０を備える。対象取得部２１０は、入力部２２又は通信部２３に入力された感情時系列を取得する。

【0057】

推定部２２０は、対象取得部２１０の取得した感情時系列に対して学習済みの感情推定モデルを実行する。推定部２２０は、学習済みの感情推定モデルの実行により、対象取得部２１０の取得した感情時系列に対応する発話者の感情が推定される。

【0058】

上述したように感情時系列は発話者が発する発話に関する時系列であって発話の最中の発話者の感情に依存する時系列である。したがって、対象取得部２１０の取得した感情時系列に対応する発話者とは、発した発話に関する時系列であって自身の感情に依存する時系列が対象取得部２１０の取得した感情時系列であるという条件（以下「対応発話者条件」という。）を満たす発話者である。そのため、対応発話者条件を満たす発話者が、推定部２２０による感情の推定の対象である。

【0059】

記憶制御部２３０は、記憶部２４に各種情報を記録する。通信制御部２４０は通信部２３の動作を制御する。出力制御部２５０は、出力部２５の動作を制御する。

【0060】

図７は、実施形態における推定装置２が実行する処理の流れの一例を示すフローチャートである。対象取得部２１０が、入力部２２又は通信部２３に入力された２種類以上の感情時系列を取得する（ステップＳ２０１）。次に推定部２２０が、学習済みの感情推定モデルを実行することで、対象取得部２１０の取得した感情時系列に対応する発話者の感情を推定する（ステップＳ２０２）。次に出力制御部２５０が出力部２５の動作を制御して、ステップＳ２０２で推定された感情を出力部２５に出力させる（ステップＳ２０３）。

【0061】

このように構成された実施形態における学習装置１は、共通情報取得処理を実行する感情推定モデルを学習により更新する。したがって、上述の共通情報取得処理の奏する効果の説明に記載のように、感情推定モデルは、主題を示す情報による有意な効果を受けて推定結果を得る。そのため、学習装置１は、発話者の感情の推定の精度を向上させることができる。

【0062】

また、このように構成された実施形態における推定装置２は、学習装置１が得た学習済みの感情推定モデルを用いて、推定対象の感情を推定する。したがって推定装置２は、推定対象の感情の推定の精度を向上させることができる。

【0063】

（変形例）
感情推定後処理は、共通情報取得処理の実行の結果そのものに代えて、共通情報取得処理の実行の結果に対して次元削減処理が実行された結果に対して、実行されてもよい。すなわち、共通情報取得処理と感情情報推定後処理との間に次元削減処理が実行されてもよい。次元削減処理は、共通情報取得処理の実行の結果がベクトル等のテンソルである場合にテンソルの次元を減らす処理である。次元削減処理の実行により得られるテンソルの次元は、感情情報推定後処理が処理可能な次元である。

【0064】

感情推定後処理は、共通情報取得処理の実行の結果そのものに代えて、共通情報取得処理の実行の結果に対して時分解埋め込み処理が実行された結果に対して、実行されてもよい。時分解埋め込み処理は、共通情報取得処理の実行の結果がベクトルである場合に適用可能である。意味付与処理では、上述したように意味区間ごとに意味が付与されている。したがって、意味付与処理で得られたベクトル（すなわち統合ベクトル）は意味区間の時間の長さの情報を有している。そして、共通情報取得処理は統合ベクトルに対しても実行されるため、各意味区間の時間の長さを示す情報（以下「意味区間長さ情報」という。）は、共通情報取得処理の実行の結果も有する。

【0065】

しかしながら、感情推定後処理は、意味区間の長さが同じという情報の元で演算を行う処理である場合がある。そこで、時分解埋め込み処理は、意味区間長さ情報の示す各意味区間の長さが意味区間によらず同一であるというベクトルを得るように、共通情報取得処理の実行の結果として得られたベクトルを変換する。

【0066】

具体的には、以下の処理が実行される。

【0067】

【数1】

【0068】

【数2】

【0069】

【数3】

【0070】

式（１）の左辺は各モダリティの発話における単語分割された埋め込みテンソルを意味する。式（１）の右辺は左辺テンソルがモダリティの埋め込みベクトルから成っていることを意味する。この時、ｍは｛ｌ、ａ、ｖ｝を意味している。すなわち、ｍは、ｌとａとｖとの集合であることを意味する。ｍはモダリティに対する添え字の総称として置かれており、ｌは言語モダリティを、ａは音声モダリティを、ｖは映像モダリティを、それぞれ意味している。式（１）の右辺の各要素は、単語ごとの埋め込みベクトルを意味する。ｎ_ｕは、発話の単語長を意味する。式（２）の左辺は時分解埋め込み処理によって生成される時系列モダリティの発話全体に対する特徴量テンソルを意味する。式（２）の右辺の“ｃｏｎｖ１Ｄ”は一次元畳み込み処理を意味し、時系列の全データポイントを発話における単語長のデータポイント数まで畳み込む処理を示している。式（２）の右辺のＭ´は発話における各モダリティの時系列の特徴テンソルを意味する。ＭはＡとＶとの組である。Ａは音声モダリティを、Ｖは映像モダリティを、それぞれ意味する。式（３）の左辺は発話全体の特徴量テンソルを意味する。式（３）の右辺の“ｃｏｎｃａｔ”は行列の結合処理を意味する。式（３）のＡ^ｕは、式（２）におけるＭ^ｕテンソルのうち音声モダリティ成分意味する。式（３）のＷ^ａは、Ａ^ｕに対する重みを意味する。式（３）のＶ^ｕは、式（２）におけるＭ^ｕテンソルのうち映像モダリティ成分意味する。式（３）のＷ^ｖは、Ｖ^ｕに対する重みを意味する。を意味する。式（３）におけるｍも、言語、音声、映像の各モダリティの集合を意味しており、すなわちこの式は各モダリティの単語分割埋め込みテンソルに対して右辺の操作を行うことを示している。この時の右辺のＥ´_ｍは式（１）の左辺と同じもの、すなわち上述の単語分割埋め込みテンソルである。

【0071】

このように、時分解埋め込み処理は、時系列を示す入力されたベクトルであって意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する処理である。そして、変換後の各意味区間の長さは発話時系列が含む各発話の長さの平均値で入力されたベクトルが示す時系列の時間方向の長さを割り算した長さである。

【0072】

なお、時分解埋め込み処理は、感情推定後処理の実行前に実行されればよく、例えば次元削減処理の結果に対して実行されてもよい。

【0073】

なお、学習装置１は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

【0074】

なお、推定装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、推定装置２が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

【0075】

なお、学習装置１と、推定装置２と、の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

【0076】

なお、対象取得部２１０の取得する感情時系列は対象情報の一例である。対象取得部２１０の取得した感情時系列の示す文章は処理対象の一例である。

【0077】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0078】

（付記１）
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、
を備え、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習装置。

【0079】

（付記２）
前記感情時系列の１つは前記推定対象の発話の時系列である、
付記１に記載の学習装置。

【0080】

（付記３）
前記感情時系列の他の１つは前記発話の音の時系列である、
付記２に記載の学習装置。

【0081】

（付記４）
前記感情時系列の他の１つは前記発話を発話している最中の前記推定対象の様子を映した動画である、
付記２又は３に記載の学習装置。

【0082】

（付記５）
前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、
前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
付記１から４のいずれか一つに記載の学習装置。

【0083】

（付記６）
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。

【0084】

（付記７）
発話の最中の推定対象の感情に依存する時系列である感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習ステップ、
を有し、
前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、
前記写像は前記学習により更新される、
学習方法。

【0085】

（付記８）
発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新される、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。

【0086】

（付記９）
付記１から５のいずれか一つに記載の学習装置としてコンピュータを機能させるためのプログラム。

【0087】

（付記１０）
付記６に記載の推定装置としてコンピュータを機能させるためのプログラム。

【符号の説明】

【0088】

１…学習装置、２…推定装置、１１…制御部、１２…入力部、１３…通信部、１４…記憶部、１５…出力部、１１０…データ取得部、１２０…学習部、１３０…記憶制御部、１４０…通信制御部、１５０…出力制御部、２１…制御部、２２…入力部、２３…通信部、２４…記憶部、２５…出力部、２１０…対象取得部、２２０…推定部、２３０…記憶制御部、２４０…通信制御部、２５０…出力制御部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2023-05-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記数理モデルは、前記共通情報取得処理の後に、時系列を示す入力されたベクトルであって前記意味区間の時間の長さを示す情報である意味区間長さ情報を有するベクトルの前記意味区間長さ情報の内容を変更する処理であって、前記意味区間長さ情報の示す各意味区間の長さを意味区間によらず同一の長さに変換する時分解埋め込み処理を実行し、前記時分解埋め込み処理による変換後の各意味区間の長さは、前記推定対象の発話の時系列である発話時系列が含む各発話の長さの平均値によって入力された前記ベクトルが示す時系列の時間方向の長さを割り算した長さである、
請求項１に記載の学習装置。

【請求項3】

発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得部と、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新され、前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の３種類のいずれかである、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得部の取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定部と、
を備える推定装置。

【請求項4】

【請求項5】

発話の最中の推定対象の感情に依存する時系列である感情時系列を取得する対象取得ステップと、
感情時系列に基づき前記推定対象の感情を推定する数理モデルの学習を行う学習部、を備え、前記感情時系列を示す感情時系列ベクトルに対して、感情時系列の区分けに関する条件であって感情時系列の種類に応じて予め定められた条件である区分け条件の下で感情時系列が時間方向に区分けされた結果として得られる区間である意味区間を示す意味ベクトルが付与された２種類以上の統合ベクトルに対して、同一の写像を作用させる共通情報取得処理を前記数理モデルは実行し、前記写像は前記学習により更新され、前記感情時系列は、前記発話の時系列と、前記発話の音の時系列と、前記発話を発話している最中の前記推定対象の様子を映した動画と、の３種類のいずれかである、学習装置が得た学習済みの前記数理モデルによって、発した発話に関する時系列であって自身の感情に依存する時系列が前記対象取得ステップの取得した前記感情時系列であるという条件を満たす推定対象、の感情を推定する推定ステップと、
を有する推定方法。

【請求項6】

請求項１に記載の学習装置としてコンピュータを機能させるためのプログラム。

【請求項7】

請求項３に記載の推定装置としてコンピュータを機能させるためのプログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版