(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023168804
(43)【公開日】2023-11-29
(54)【発明の名称】行動推定装置、行動推定方法および行動推定プログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20231121BHJP
G06F 17/18 20060101ALI20231121BHJP
【FI】
G06Q10/04
G06F17/18 Z
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022080134
(22)【出願日】2022-05-16
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504182255
【氏名又は名称】国立大学法人横浜国立大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】石井 陽子
(72)【発明者】
【氏名】石井 亮
(72)【発明者】
【氏名】永徳 真一郎
(72)【発明者】
【氏名】大塚 和弘
(72)【発明者】
【氏名】大土 隼平
(72)【発明者】
【氏名】三好 一輝
【テーマコード(参考)】
5B056
5L049
【Fターム(参考)】
5B056BB64
5L049AA04
(57)【要約】
【課題】対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測する。
【解決手段】抽出部15aが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル14aを用いて、所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。算出部15bが、抽出された特徴量の時間分布を算出する。特定部15cが、特徴量の影響の大きさが極大値となる時点を特定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出部と、
抽出された前記特徴量の時間分布を算出する算出部と、
前記特徴量の前記影響の大きさが極大値となる時点を特定する特定部と、
を有することを特徴とする行動推定装置。
【請求項2】
前記抽出部は、各特徴量を用いることで得られる前記対話者に関する値の予測値に対する該特徴量の貢献度を反映するSHAP値を算出することにより、前記特徴量を抽出することを特徴とする請求項1に記載の行動推定装置。
【請求項3】
前記算出部は、部分的な時間区間から得られる前記特徴量を全時間区間について加算する時間的加算法を用いて、前記特徴量の時間分布を算出することを特徴とする請求項1に記載の行動推定装置。
【請求項4】
前記算出部は、核密度推定法を用いて前記特徴量に対応する機能の生起する確率分布を推定することにより、前記特徴量の時間分布を算出することを特徴とする請求項3に記載の行動推定装置。
【請求項5】
前記極大値の時点における前記特徴量に対応する前記対話者の行動を推定する推定部をさらに有することを特徴とする請求項1に記載の行動推定装置。
【請求項6】
所定のトピックごとに区切られた対話に関するデータから、前記極大値の時点に対応するトピックを抽出するトピック抽出部をさらに有することを特徴とする請求項1に記載の行動推定装置。
【請求項7】
行動推定装置が実行する行動推定方法であって、
入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出工程と、
抽出された前記特徴量の時間分布を算出する算出工程と、
前記特徴量の前記影響の大きさが極大値となる時点を特定する特定工程と、
を含んだことを特徴とする行動推定方法。
【請求項8】
コンピュータを請求項1~6のいずれか1項に記載の行動推定装置として機能させるための行動推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、行動推定装置、行動推定方法および行動推定プログラムに関する。
【背景技術】
【0002】
人と人との対話中に生じる非言語行動の中でも、頭部運動は様々な役割を担うことが知られている。例えば、話し手は発話の強調や反応確認の際に、また、聞き手は話し手に対する相槌や応答や同意のサインとして、頭部運動を表出する。このように、頭部運動には複数の機能があり、また、1つの頭部運動が同時に複数の意味をもつ場合があることが知られている。
【0003】
このような頭部運動の機能の多様性と曖昧性とに着目し、従来、対話中のユーザの頭部運動からその運動の機能や意味を抽出したり、ユーザの主観的印象を予測したりする技術が知られている(非特許文献1,2参照)。
【0004】
対話を行っている対話者自身の特性や抱く主観的印象は、そのような頭部運動に加え、対話中のある時点において影響が大きい特徴量に表れるはずである。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】K. Otsuka and M. Tsumori, “Analyzing Multifunctionality of Head Movements in Face-to-Face Conversations Using Deep Convolutional Neural Networks”, IEEE Access, 2020年, vol.8, pp.217169-217195
【非特許文献2】Shumepi Otsuchi, et al., “Prediction of Interlocutors’ Subjective Impressions Based on Functional Head-Movement Features in Group Meetings” 、[online]、2021年、in Proceedings of ACM International Conference on Multimodal Interaction (ICMI2021), pp.352-360, [2022年4月13日検索]、インターネット<URL:https://doi.org/10.1145/3462244.3479930>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、対話中の対話者に対して影響の大きい特徴量の発生時点を細かい粒度で予測できないという問題がある。例えば、対話中の対話者に影響の大きい特徴量とその発生時刻とを正解データとして用いれば、影響の大きい特徴量の時系列の発生時点を予測可能となる。しかしながら、従来技術では、2分ごとにデータが区切られていて、それ以上の細かい粒度で対話者に影響を与えた特徴量を特定することができないため、正解データを用意することができない。
【0007】
本発明は、上記に鑑みてなされたものであって、対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測とすることを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明に係る行動推定装置は、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出部と、抽出された前記特徴量の時間分布を算出する算出部と、前記特徴量の前記影響の大きさが極大値となる時点を特定する特定部と、を有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、行動推定装置の概略構成を例示する模式図である。
【
図2】
図2は、算出部の処理を説明するための図である。
【
図3】
図3は、特定部の処理を説明するための図である。
【
図4】
図4は、行動推定処理手順を示すフローチャートである。
【
図5】
図5は、第2の実施形態の行動推定装置の概略構成を例示する模式図である。
【
図6】
図6は、行動推定プログラムを実行するコンピュータを例示する図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0012】
[行動推定装置の概要]
本実施形態の行動推定装置は、対話中の対話者に関する値に影響を与えている特徴量と、その発生時点とを細かい粒度で予測する。ここで、対話中の対話者に関する値とは、例えば、対話者が対話中の対話や他の対話者に抱く印象を数値化したもの、あるいは、対話者自身の性格特性を表す値等である。
【0013】
具体的には、行動推定装置は、複数の特徴量の入力に対して対話者に関する予測値を出力するモデルを用いて、予測値に影響を与えている特徴量とその発生時点とを抽出する。これにより、行動推定装置は、モデルの学習データの時間間隔の粒度が細かくなくても、予測値に影響を与えている特徴量を細かい粒度で予測することが可能となる。
【0014】
本実施形態では、行動推定装置は、例えば、対話者が対話中に対話に対して抱く印象(以下、主観的印象とも記す)を対話中の対話者に関する値として、この主観的印象に与える影響の大きい特徴量とその発生時点とを予測する。例えば、行動推定装置は、学習済みのモデルに対してSHAP分析を適用し、各特徴量が印象の予測値に対して与えた影響の大きさを表す貢献度を算出する。また、行動推定装置は、貢献度の上位1つ以上の特徴量の集合を抽出し、各特徴量の時間分布を、各特徴量の生起確率の分布で近似して、核密度推定法により推定する。そして、行動推定装置は、時間分布と貢献度との積和をとって貢献度の時間分布を算出することにより、対話者の印象に対して影響の大きい特徴量とその発生時点とを特定する。
【0015】
[行動推定装置の構成]
図1は、行動推定装置の概略構成を例示する模式図である。
図1に例示するように、行動推定装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
【0016】
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。
【0017】
通信制御部13は、NIC(Network Interface Card)等で実現され、ネットワークを介したサーバ等の外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、後述する行動推定に用いられるデータを管理する管理装置等と制御部15との通信を制御する。
【0018】
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、行動推定装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。例えば、記憶部14は、後述する行動推定処理で用いられるモデル14a等を記憶する。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
【0019】
ここで、モデル14aは、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力する。本実施形態のモデル14aは、対話者が対話中に対話に対して抱く主観的印象の予測値を出力するように学習されたものである。
【0020】
具体的には、モデル14aは、対話者jに対し、対話者自身が入力した印象項目Iの内観スコアyi,j(i∈I)を正解データとして、各項目の学習を行った回帰モデルである。モデル14aは、特徴量xjが入力された場合に、内観スコアの各項目の予測値yi^(xj)を出力する。
【0021】
特徴量とは、例えば、運動時間長Hrate、3自由度の頭部姿勢角θazi,t、θele,t、θroll,t、およびそれぞれの分散δ2
azi、δ2
ele、δ2
rollである。あるいは、機能含有率、機能区分構成比、機能出現率等のうちのいずれか1つ以上であってもよい。
【0022】
制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、
図1に例示するように、抽出部15a、算出部15b、特定部15cおよび推定部15dとして機能して、後述する行動推定処理を実行する。なお、これらの機能部は、それぞれあるいは一部が異なるハードウェアに実装されてもよい。例えば、推定部15dは、その他の機能部とは別の装置として実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
【0023】
抽出部15aは、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル14aを用いて、所定の特徴量を含む対話中の対話者のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。例えば、抽出部15aは、対話者が対話中に対話に対して抱く主観的印象に対する影響の大きさが所定の閾値以上である特徴量を抽出する。
【0024】
具体的には、抽出部15aは、各特徴量を用いることで得られる対話者に関する値の予測値に対する該特徴量の貢献度を反映するSHAP値を算出することにより、上記の特徴量を抽出する。ここで、SHAP値は、全ての特徴量の順列に対する各特徴量の限界貢献度の平均として算出され、データセット内の各特徴量f∈xjが、最終的な印象の予測結果に対して与えた影響の大きさを表す。
【0025】
限界貢献度とは、特徴量fが用いられることで得られる予測値に対する貢献度の期待値である。予測対象の印象i,対話者jから得られる特徴量xjに対する予測結果、モデルの予測結果の期待値、および特徴量fのSHAP値の間には、次式(1)、(2)が成立する。
【0026】
【0027】
上記式(2)は、全ての特徴量の順列に対し、特徴量fを用いた際の予測結果の差を算出し、その平均を算出することを意味している。ここで得られたSHAP値の絶対値の大きさは、印象に対する影響度を表す。すなわち、この値が大きいほど、印象に対してより大きな影響を与えた特徴量であると解釈できる。また、この値の符号が正である場合には、印象の向上に影響を与えたことを意味し、負である場合には、印象の低下に影響を与えたことを意味する。
【0028】
そこで、本実施形態では、抽出部15aは、SHAP値の絶対値が大きいものから順にR個の特徴量を選択して抽出する。ここで選択する各特徴量は、行動との関連性が明確なものとする。例えば「対話におけるうなずきの出現率」という特徴量は、「うなずき」という行動と関連している。上記のSHAP分析の結果、ある人物jの印象iに大きな影響を与えたとして抽出されたR個の特徴量の集合F^に「対話におけるうなずきの出現率」が含まれている場合には、この特徴量に対応する「うなずき」という行動がこの人物の印象の形成に関与したものと特定される。また、SHAP値の符号により、その行動が印象の向上または低下のいずれに影響したかを推察することが可能となる。
【0029】
算出部15bは、抽出された特徴量の時間分布を算出する。具体的には、算出部15bは、対話のどの時点の行動が、印象の形成にどの程度の影響を与えたかを推測するために、特徴量の時間展開を行う。
【0030】
その際に、算出部15bは、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。特徴量の時間的加算法とは、対話の部分的な時間区間から得られる特徴量が対話全体に対する特徴量と同等になる性質を指す。つまり、特徴量f∈F^を時間的に展開した分布を算出すれば、その分布の高低により、どの時点がどの程度、特徴量の構成に寄与したかを把握することが可能となる。
【0031】
時間展開された特徴量の分布を算出するために、頭部運動機能等の行動を表す各機能が出現したフレームの割合を表す機能出現率に着目する。機能出現率は、対話の開始から終了までに、各フレームにおける機能の出現の回数をカウントし、対話の時間長で割ることで算出でき、時間的加算法が成立することがわかる。
【0032】
各機能は、各時刻において0/1の離散的な値として検出される。そこで、この過程を一種の確率過程とみなし、確率的に機能が生成され検出されるものと仮定する。また、各時刻において機能が生成・検出される確率の時間分布を、特徴量の生起確率分布と呼び、特徴量を時間展開した分布とみなす。
【0033】
そして、算出部15bは、核密度推定法(Kernel Density Estimation)を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。すなわち、算出部15bは、核密度推定法を用いて、特徴量の生起確率分布を近似的に推定する。核密度推定法は、有限の標本点が与えられた場合に、標本点の元となる連続分布を推定する。この場合に、核(カーネル)関数としてガウス関数を用いると、各人物jについて、時刻tにおける機能出現率の生起確率分布は、次式(3)~(5)のように表される。
【0034】
【0035】
バンド幅hは、生起確率分布の時間的な平滑化の度合いを制御するパラメータである。上記式(3)において、時刻tの生起確率分布の値は、その時点における特徴量fに対応する頭部運動等の機能が出現する確率、すなわち単位フレーム当たりの生起率の推定値を意味する。その機能が頻繁に出現する時間帯において、生起確率分布は高い値を示し、特徴量fの構成に対してより大きく寄与していると考えられる。
【0036】
この特徴量は、SHAP分析により特定された印象の形成に寄与した特徴量fであることから、生起確率分布がより高い値を示す時間に生じた行動が、印象の形成により大きな影響を与えたと考えられる。
【0037】
なお、生起確率分布と特徴量との間には、次式(6)が成り立つ。
【0038】
【0039】
上記式(6)は、生起確率分布の全区間での総和は、特徴量の値と等しくなることを意味しており、特徴量が時間的に加法的であることを示唆する。
【0040】
ここで、
図2は、算出部の処理を説明するための図である。
図2には、核密度推定法による、ある機能の検出結果の時系列に対する生起確率分布の推定結果が例示されている。具体的には、
図2には、生起確率分布を示す曲線と、頭部運動機能が検出された時刻とが例示されている。
【0041】
また、機能含有率に関する生起確率分布は、機能出現率に関する生起確率分布を用いて、次式(7)、(8)のように表される。
【0042】
【0043】
同様に、機能区分構成比に関する生起確率分布は、次式(9)~(11)のように表される。
【0044】
【0045】
同様に、運動学的特徴である運動時間長および頭部姿勢角の分散に関する生起確率分布は、対話中のフレームtにおける頭部運動の検出結果dtを用いて、次式(12)~(14)のように定義される。
【0046】
【0047】
算出部15bは、上記の定義を用いて、印象の予測値に寄与する度合いの大きい特徴量のそれぞれについて、特徴量の時間展開に相当する生起確率分布pj,f(t)を算出する。なお、全ての特徴量について生起確率分布を算出してもよいし、いずれかの特徴量について生起確率分布を算出してもよい、その場合には、いずれかの特徴量を任意に人手により選択してもよいし、ランダムに所定数n個を選択してもよい。
【0048】
図1の説明に戻る。特定部15cは、特徴量の影響の大きさが極大値となる時点を特定する。ここで、
図3は、特定部の処理を説明するための図である。特定部15cは、算出部15bから、特徴量の各々について得られた特徴量の時間展開に相当する生起確率分布を受け取って、これらの特徴量が印象の予測値に寄与した度合いに相当するSHAP値を時間軸上に展開する。そして、特定部15cは、
図3に例示するように、SHAP値の分布の極大値となる時点を特定し、この時点を印象の形成にもっとも寄与した時刻と推定する。
【0049】
具体的には、特定部15cは、次式(15)のように、生起確率分布pj,f(t)を正規化する。
【0050】
【0051】
上記式(15)の正規化生起確率分布は、時刻ごとに特徴量fの印象の形成に寄与した割合を示唆する。特定部15cは、特徴量集合に含まれる特徴量について、この正規化生起確率分布とSHAP値の積和の絶対値を算出して、次式(16)に示すように、印象に対する貢献度の時間分布(以下、貢献度分布とも記す)を定義する。
【0052】
【0053】
ここでは、複数の特徴量の集合による予測結果に対する貢献の度合いは、各特徴量のSHAP値の和として求められるという、SHAP値の加法性を利用する。SHAP値の和を算出する際には、特定部15cは、予め特徴量ごとに設定された所定の重みwn(nは特徴量の数)を用いて、各特徴量のSHAP値にwnを積算した後にSHAP値の和を算出してもよい。あるいは、特定部15cは、任意の特徴量を選択し、選択した特徴量のSHAP値の和を算出してもよい。また、特徴量の選択を複数回行ってもよいし、選択した各特徴量の各SHAP値に任意の重みwnを積算した後にSHAP値の和を算出してもよい。
【0054】
このようにして得られた貢献度分布の極大値を示す時点(極大時点)t^を、次式(17)に示すように特定する。
【0055】
【0056】
本実施形態では、対話者の印象は特定の時点での行動に大きな影響を受けるものと仮定して、得られたSHAP値の極大時点およびその時点での特徴量から示唆される行動を、対話全体に対する印象に最も大きな影響を与えた行動として特定する。
【0057】
その際に、SHAP値の和を複数算出した場合には、SHAP値の和の数と同数の極大時点を求めることができる。特定部15cは、極大時点と、極大時点の特定に用いた特徴量とを出力する。
【0058】
図1の説明に戻る。推定部15dは、極大値の時点における特徴量に対応する対話者の行動を推定する。具体的には、推定部15dは、特定部15cが出力した極大時点と、極大時点の特定に用いた特徴量とを受け取って、極大時点に対応する特徴量がどのような行動に対応するのかを推定する。
【0059】
具体的には、特徴量の組み合わせや極大時点の時刻に対応する行動を予め登録しておくことにより、推定部15dは、特定部15cから出力された情報に対応する行動を特定する。例えば、時刻hh:mm:00~hh:mm:59に「頭部姿勢角」の特徴量が存在している場合に対応して「行動A」が登録されているとする。そして、極大時点が上記時間帯に該当し、極大時点に対応する特徴量が「頭部姿勢角」の特徴量であった場合には、推定部15dは、「行動A」と推定する。これにより、対話中の対話者の印象等に対して影響が大きい行動を検知することが可能となる。
【0060】
[行動推定処理]
次に、
図4を参照して、本実施形態に係る行動推定装置10による行動推定処理について説明する。
図4は、行動推定処理手順を示すフローチャートである。
図4のフローチャートは、例えば、行動推定処理の開始を指示する操作入力があったタイミングで開始される。
【0061】
まず、抽出部15aが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル14aを用いて、所定の特徴量を含む対話中の対話者のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する(ステップS1)。例えば、抽出部15aは、対話者が対話中に対話に対して抱く主観的印象に対する影響の大きさが所定の閾値以上である特徴量を抽出する。
【0062】
次に、算出部15bが、抽出された特徴量の時間分布を算出する(ステップS2)。具体的には、算出部15bは、対話のどの時点の行動が、印象の形成にどの程度の影響を与えたかを推測するために、特徴量の時間展開を行う。その際に、算出部15bは、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。
【0063】
また、算出部15bは、核密度推定法を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。すなわち、算出部15bは、核密度推定法を用いて、特徴量の生起確率分布を近似的に推定する。
【0064】
次に、特定部15cが、特徴量の影響の大きさが極大値となる時点を特定する(ステップS3)。具体的には、特定部15cは、特徴量の生起確率分布を用いて、これらの特徴量が印象の予測値に寄与した度合いに相当するSHAP値を時間軸上に展開する。そして、特定部15cは、SHAP値の分布の極大値となる時点を特定し、この時点を印象の形成にもっとも寄与した時刻と推定する。
【0065】
そして、推定部15dが、極大値の時点における特徴量に対応する対話者の行動を推定し、例えば出力部12を介して出力する。これにより、一連の行動推定処理が完了する。
【0066】
[第2の実施形態]
図5は、第2の実施形態の行動推定装置の概略構成を例示する模式図である。なお以下では、上記の実施形態の行動推定装置10の行動推定処理と異なる点についてのみ説明を行い、共通する点についての説明を省略する。
【0067】
第2の実施形態の行動推定装置10は、
図5に示すように、上記実施形態の行動推定装置10の推定部15dに代えて、トピック抽出部15eと関連データ14bとを有する点が異なる。
【0068】
関連データ14bは、対話に関する時系列データであり、例えば、画像による映像データである。時系列データは、音声データ、点群データであってもよい。関連データ14bは、例えば、外部の管理装置等から通信制御部13を介して予め取得して記憶部14に記憶させる。
【0069】
第2の実施形態の行動推定装置10において、特定部15cは、n(≧1)個の極大時点tn^を特定する。
【0070】
そして、トピック抽出部15eは、所定のトピックごとに区切られた対話に関するデータから、極大値の時点に対応するトピックを抽出する。具体的には、トピック抽出部15eは、対話に関するデータとして、例えば映像データを受け取って、トピック単位で分割する。
【0071】
トピック単位の分割は、人手で行われてもよい。あるいは、トピック抽出部15eが、音声特徴から例えば音圧の大きさが所定の閾値以下になった部分で区切ってもよいし、複数の閾値を設定して区切ってもよい。または、トピック抽出部15eは、映像特徴からオプティカルフローを抽出し、所定の閾値以上のベクトルを検出した場合に区切ってもよいし、その他の映像特徴から複数の閾値を設定して区切ってもよい。あるいは、トピック抽出部15eは、すでに分割されたデータを正解データとして用いて機械学習モデルを学習により構築し、区切り箇所を予測してもよい。また、その他、映像を区切る市中の手法を用いても良い。
【0072】
そして、トピック抽出部15eは、分割されたトピックのうち、極大時点を含むトピックを抽出する。その際には、トピック抽出部15eは、トピック分割に用いた時系列データと同一の時系列データからトピックを抽出してもよいし、トピック分割に用いた時系列データと時系列が共通する映像データ以外の音声データや点群データ等の他の時系列データからトピックを抽出してもよい。
【0073】
また、トピック抽出部15eは、全ての極大時点に対応するトピックを抽出してもよいし、選択されたいずれかの極大時点に対応したトピックを抽出してもよい。トピック抽出部15eは、抽出したトピックを、例えば出力部12を介して出力する。これにより、対話中の対話者の印象等に対して影響が大きい、対話に関連する場面が検知される。
【0074】
[効果]
以上、説明したように、行動推定装置10において、抽出部15aが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル14aを用いて、所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。また、算出部15bが、抽出された特徴量の時間分布を算出する。また、特定部15cが、特徴量の影響の大きさが極大値となる時点を特定する。
【0075】
具体的には、抽出部15aが、各特徴量を用いることで得られる対話者に関する値の予測値に対する該特徴量の貢献度を反映するSHAP値を算出することにより、影響の大きさが所定の閾値以上である特徴量を抽出する。
【0076】
また、算出部15bが、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。その場合に、算出部15bは、核密度推定法を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。
【0077】
これにより、行動推定装置10は、モデル14aの学習データの時間間隔の粒度が細かくなくても、予測値に影響を与えている特徴量とその発生時点とを細かい粒度で予測することが可能となる。
【0078】
また、推定部15dは、前記極大値の時点における特徴量に対応する対話者の行動を推定する。これにより、行動推定装置10は、対話中の対話者に影響が大きい行動を検知することが可能となる。
【0079】
また、トピック抽出部15eは、所定のトピックごとに区切られた対話に関するデータから、極大値の時点に対応するトピックを抽出する。これにより、行動推定装置10は、対話中の対話者の印象等に対して影響が大きい、対話に関連する場面を検知することが可能となる。
【0080】
[プログラム]
上記実施形態に係る行動推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、行動推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の行動推定処理を実行する行動推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の行動推定プログラムを情報処理装置に実行させることにより、情報処理装置を行動推定装置10として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、行動推定装置10の機能を、クラウドサーバに実装してもよい。
【0081】
図6は、行動推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
【0082】
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
【0083】
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
【0084】
また、行動推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した行動推定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
【0085】
また、行動推定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
【0086】
なお、行動推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、行動推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0087】
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0088】
10 行動推定装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
14a モデル
14b 関連データ
15 制御部
15a 抽出部
15b 算出部
15c 特定部
15d 推定部
15e トピック抽出部