特開2023-168804 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人横浜国立大学の特許一覧

特開2023-168804行動推定装置、行動推定方法および行動推定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023168804

(43)【公開日】2023-11-29

(54)【発明の名称】行動推定装置、行動推定方法および行動推定プログラム

(51)【国際特許分類】

G06Q 10/04 20230101AFI20231121BHJP

G06F 17/18 20060101ALI20231121BHJP

【ＦＩ】

G06Q10/04

G06F17/18 Z

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022080134

(22)【出願日】2022-05-16

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504182255

【氏名又は名称】国立大学法人横浜国立大学

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】石井陽子

(72)【発明者】

【氏名】石井亮

(72)【発明者】

【氏名】永徳真一郎

(72)【発明者】

【氏名】大塚和弘

(72)【発明者】

【氏名】大土隼平

(72)【発明者】

【氏名】三好一輝

【テーマコード（参考）】

5B056

5L049

【Ｆターム（参考）】

5B056BB64

5L049AA04

(57)【要約】

【課題】対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測する。
【解決手段】抽出部１５ａが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル１４ａを用いて、所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。算出部１５ｂが、抽出された特徴量の時間分布を算出する。特定部１５ｃが、特徴量の影響の大きさが極大値となる時点を特定する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出部と、
抽出された前記特徴量の時間分布を算出する算出部と、
前記特徴量の前記影響の大きさが極大値となる時点を特定する特定部と、
を有することを特徴とする行動推定装置。

【請求項2】

前記抽出部は、各特徴量を用いることで得られる前記対話者に関する値の予測値に対する該特徴量の貢献度を反映するＳＨＡＰ値を算出することにより、前記特徴量を抽出することを特徴とする請求項１に記載の行動推定装置。

【請求項3】

前記算出部は、部分的な時間区間から得られる前記特徴量を全時間区間について加算する時間的加算法を用いて、前記特徴量の時間分布を算出することを特徴とする請求項１に記載の行動推定装置。

【請求項4】

前記算出部は、核密度推定法を用いて前記特徴量に対応する機能の生起する確率分布を推定することにより、前記特徴量の時間分布を算出することを特徴とする請求項３に記載の行動推定装置。

【請求項5】

前記極大値の時点における前記特徴量に対応する前記対話者の行動を推定する推定部をさらに有することを特徴とする請求項１に記載の行動推定装置。

【請求項6】

所定のトピックごとに区切られた対話に関するデータから、前記極大値の時点に対応するトピックを抽出するトピック抽出部をさらに有することを特徴とする請求項１に記載の行動推定装置。

【請求項7】

行動推定装置が実行する行動推定方法であって、
入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出工程と、
抽出された前記特徴量の時間分布を算出する算出工程と、
前記特徴量の前記影響の大きさが極大値となる時点を特定する特定工程と、
を含んだことを特徴とする行動推定方法。

【請求項8】

コンピュータを請求項１～６のいずれか１項に記載の行動推定装置として機能させるための行動推定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、行動推定装置、行動推定方法および行動推定プログラムに関する。

【背景技術】

【0002】

人と人との対話中に生じる非言語行動の中でも、頭部運動は様々な役割を担うことが知られている。例えば、話し手は発話の強調や反応確認の際に、また、聞き手は話し手に対する相槌や応答や同意のサインとして、頭部運動を表出する。このように、頭部運動には複数の機能があり、また、１つの頭部運動が同時に複数の意味をもつ場合があることが知られている。

【0003】

このような頭部運動の機能の多様性と曖昧性とに着目し、従来、対話中のユーザの頭部運動からその運動の機能や意味を抽出したり、ユーザの主観的印象を予測したりする技術が知られている（非特許文献１，２参照）。

【0004】

対話を行っている対話者自身の特性や抱く主観的印象は、そのような頭部運動に加え、対話中のある時点において影響が大きい特徴量に表れるはずである。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】K. Otsuka and M. Tsumori, “Analyzing Multifunctionality of Head Movements in Face-to-Face Conversations Using Deep Convolutional Neural Networks”, IEEE Access, 2020年, vol.8, pp.217169-217195

【非特許文献2】Shumepi Otsuchi, et al., “Prediction of Interlocutors’ Subjective Impressions Based on Functional Head-Movement Features in Group Meetings” 、[online]、2021年、in Proceedings of ACM International Conference on Multimodal Interaction (ICMI2021), pp.352-360, ［2022年4月13日検索］、インターネット<URL：https://doi.org/10.1145/3462244.3479930>

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来技術では、対話中の対話者に対して影響の大きい特徴量の発生時点を細かい粒度で予測できないという問題がある。例えば、対話中の対話者に影響の大きい特徴量とその発生時刻とを正解データとして用いれば、影響の大きい特徴量の時系列の発生時点を予測可能となる。しかしながら、従来技術では、２分ごとにデータが区切られていて、それ以上の細かい粒度で対話者に影響を与えた特徴量を特定することができないため、正解データを用意することができない。

【0007】

本発明は、上記に鑑みてなされたものであって、対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測とすることを目的とする。

【課題を解決するための手段】

【0008】

上述した課題を解決し、目的を達成するために、本発明に係る行動推定装置は、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデルを用いて、前記所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する抽出部と、抽出された前記特徴量の時間分布を算出する算出部と、前記特徴量の前記影響の大きさが極大値となる時点を特定する特定部と、を有することを特徴とする。

【発明の効果】

【0009】

本発明によれば、対話中の対話者に対して影響の大きい特徴量とその発生時点とを細かい粒度で予測することが可能となる。

【図面の簡単な説明】

【0010】

【図1】図１は、行動推定装置の概略構成を例示する模式図である。

【図2】図２は、算出部の処理を説明するための図である。

【図3】図３は、特定部の処理を説明するための図である。

【図4】図４は、行動推定処理手順を示すフローチャートである。

【図5】図５は、第２の実施形態の行動推定装置の概略構成を例示する模式図である。

【図6】図６は、行動推定プログラムを実行するコンピュータを例示する図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

【0012】

［行動推定装置の概要］
本実施形態の行動推定装置は、対話中の対話者に関する値に影響を与えている特徴量と、その発生時点とを細かい粒度で予測する。ここで、対話中の対話者に関する値とは、例えば、対話者が対話中の対話や他の対話者に抱く印象を数値化したもの、あるいは、対話者自身の性格特性を表す値等である。

【0013】

具体的には、行動推定装置は、複数の特徴量の入力に対して対話者に関する予測値を出力するモデルを用いて、予測値に影響を与えている特徴量とその発生時点とを抽出する。これにより、行動推定装置は、モデルの学習データの時間間隔の粒度が細かくなくても、予測値に影響を与えている特徴量を細かい粒度で予測することが可能となる。

【0014】

本実施形態では、行動推定装置は、例えば、対話者が対話中に対話に対して抱く印象（以下、主観的印象とも記す）を対話中の対話者に関する値として、この主観的印象に与える影響の大きい特徴量とその発生時点とを予測する。例えば、行動推定装置は、学習済みのモデルに対してＳＨＡＰ分析を適用し、各特徴量が印象の予測値に対して与えた影響の大きさを表す貢献度を算出する。また、行動推定装置は、貢献度の上位１つ以上の特徴量の集合を抽出し、各特徴量の時間分布を、各特徴量の生起確率の分布で近似して、核密度推定法により推定する。そして、行動推定装置は、時間分布と貢献度との積和をとって貢献度の時間分布を算出することにより、対話者の印象に対して影響の大きい特徴量とその発生時点とを特定する。

【0015】

［行動推定装置の構成］
図１は、行動推定装置の概略構成を例示する模式図である。図１に例示するように、行動推定装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

【0016】

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

【0017】

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ネットワークを介したサーバ等の外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、後述する行動推定に用いられるデータを管理する管理装置等と制御部１５との通信を制御する。

【0018】

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、行動推定装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。例えば、記憶部１４は、後述する行動推定処理で用いられるモデル１４ａ等を記憶する。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

【0019】

ここで、モデル１４ａは、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力する。本実施形態のモデル１４ａは、対話者が対話中に対話に対して抱く主観的印象の予測値を出力するように学習されたものである。

【0020】

具体的には、モデル１４ａは、対話者ｊに対し、対話者自身が入力した印象項目Ｉの内観スコアｙ_ｉ，ｊ（ｉ∈Ｉ）を正解データとして、各項目の学習を行った回帰モデルである。モデル１４ａは、特徴量ｘｊが入力された場合に、内観スコアの各項目の予測値ｙ_ｉ＾（ｘ_ｊ）を出力する。

【0021】

特徴量とは、例えば、運動時間長Ｈ_ｒａｔｅ、３自由度の頭部姿勢角θ_{ａｚｉ，ｔ}、θ_{ｅｌｅ，ｔ}、θ_{ｒｏｌｌ，ｔ}、およびそれぞれの分散δ^２ _ａｚｉ、δ^２ _ｅｌｅ、δ^２ _ｒｏｌｌである。あるいは、機能含有率、機能区分構成比、機能出現率等のうちのいずれか１つ以上であってもよい。

【0022】

制御部１５は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、抽出部１５ａ、算出部１５ｂ、特定部１５ｃおよび推定部１５ｄとして機能して、後述する行動推定処理を実行する。なお、これらの機能部は、それぞれあるいは一部が異なるハードウェアに実装されてもよい。例えば、推定部１５ｄは、その他の機能部とは別の装置として実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

【0023】

抽出部１５ａは、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル１４ａを用いて、所定の特徴量を含む対話中の対話者のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。例えば、抽出部１５ａは、対話者が対話中に対話に対して抱く主観的印象に対する影響の大きさが所定の閾値以上である特徴量を抽出する。

【0024】

具体的には、抽出部１５ａは、各特徴量を用いることで得られる対話者に関する値の予測値に対する該特徴量の貢献度を反映するＳＨＡＰ値を算出することにより、上記の特徴量を抽出する。ここで、ＳＨＡＰ値は、全ての特徴量の順列に対する各特徴量の限界貢献度の平均として算出され、データセット内の各特徴量ｆ∈ｘ_ｊが、最終的な印象の予測結果に対して与えた影響の大きさを表す。

【0025】

限界貢献度とは、特徴量ｆが用いられることで得られる予測値に対する貢献度の期待値である。予測対象の印象ｉ，対話者ｊから得られる特徴量ｘ_ｊに対する予測結果、モデルの予測結果の期待値、および特徴量ｆのＳＨＡＰ値の間には、次式（１）、（２）が成立する。

【0026】

【数1】

【数2】

【0027】

上記式（２）は、全ての特徴量の順列に対し、特徴量ｆを用いた際の予測結果の差を算出し、その平均を算出することを意味している。ここで得られたＳＨＡＰ値の絶対値の大きさは、印象に対する影響度を表す。すなわち、この値が大きいほど、印象に対してより大きな影響を与えた特徴量であると解釈できる。また、この値の符号が正である場合には、印象の向上に影響を与えたことを意味し、負である場合には、印象の低下に影響を与えたことを意味する。

【0028】

そこで、本実施形態では、抽出部１５ａは、ＳＨＡＰ値の絶対値が大きいものから順にＲ個の特徴量を選択して抽出する。ここで選択する各特徴量は、行動との関連性が明確なものとする。例えば「対話におけるうなずきの出現率」という特徴量は、「うなずき」という行動と関連している。上記のＳＨＡＰ分析の結果、ある人物ｊの印象ｉに大きな影響を与えたとして抽出されたＲ個の特徴量の集合Ｆ＾に「対話におけるうなずきの出現率」が含まれている場合には、この特徴量に対応する「うなずき」という行動がこの人物の印象の形成に関与したものと特定される。また、ＳＨＡＰ値の符号により、その行動が印象の向上または低下のいずれに影響したかを推察することが可能となる。

【0029】

算出部１５ｂは、抽出された特徴量の時間分布を算出する。具体的には、算出部１５ｂは、対話のどの時点の行動が、印象の形成にどの程度の影響を与えたかを推測するために、特徴量の時間展開を行う。

【0030】

その際に、算出部１５ｂは、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。特徴量の時間的加算法とは、対話の部分的な時間区間から得られる特徴量が対話全体に対する特徴量と同等になる性質を指す。つまり、特徴量ｆ∈Ｆ＾を時間的に展開した分布を算出すれば、その分布の高低により、どの時点がどの程度、特徴量の構成に寄与したかを把握することが可能となる。

【0031】

時間展開された特徴量の分布を算出するために、頭部運動機能等の行動を表す各機能が出現したフレームの割合を表す機能出現率に着目する。機能出現率は、対話の開始から終了までに、各フレームにおける機能の出現の回数をカウントし、対話の時間長で割ることで算出でき、時間的加算法が成立することがわかる。

【0032】

各機能は、各時刻において０／１の離散的な値として検出される。そこで、この過程を一種の確率過程とみなし、確率的に機能が生成され検出されるものと仮定する。また、各時刻において機能が生成・検出される確率の時間分布を、特徴量の生起確率分布と呼び、特徴量を時間展開した分布とみなす。

【0033】

そして、算出部１５ｂは、核密度推定法（Kernel Density Estimation）を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。すなわち、算出部１５ｂは、核密度推定法を用いて、特徴量の生起確率分布を近似的に推定する。核密度推定法は、有限の標本点が与えられた場合に、標本点の元となる連続分布を推定する。この場合に、核（カーネル）関数としてガウス関数を用いると、各人物ｊについて、時刻ｔにおける機能出現率の生起確率分布は、次式（３）～（５）のように表される。

【0034】

【数3】

【数4】

【数5】

【0035】

バンド幅ｈは、生起確率分布の時間的な平滑化の度合いを制御するパラメータである。上記式（３）において、時刻ｔの生起確率分布の値は、その時点における特徴量ｆに対応する頭部運動等の機能が出現する確率、すなわち単位フレーム当たりの生起率の推定値を意味する。その機能が頻繁に出現する時間帯において、生起確率分布は高い値を示し、特徴量ｆの構成に対してより大きく寄与していると考えられる。

【0036】

この特徴量は、ＳＨＡＰ分析により特定された印象の形成に寄与した特徴量ｆであることから、生起確率分布がより高い値を示す時間に生じた行動が、印象の形成により大きな影響を与えたと考えられる。

【0037】

なお、生起確率分布と特徴量との間には、次式（６）が成り立つ。

【0038】

【数6】

【0039】

上記式（６）は、生起確率分布の全区間での総和は、特徴量の値と等しくなることを意味しており、特徴量が時間的に加法的であることを示唆する。

【0040】

ここで、図２は、算出部の処理を説明するための図である。図２には、核密度推定法による、ある機能の検出結果の時系列に対する生起確率分布の推定結果が例示されている。具体的には、図２には、生起確率分布を示す曲線と、頭部運動機能が検出された時刻とが例示されている。

【0041】

また、機能含有率に関する生起確率分布は、機能出現率に関する生起確率分布を用いて、次式（７）、（８）のように表される。

【0042】

【数7】

【数8】

【0043】

同様に、機能区分構成比に関する生起確率分布は、次式（９）～（１１）のように表される。

【0044】

【数9】

【数10】

【数11】

【0045】

同様に、運動学的特徴である運動時間長および頭部姿勢角の分散に関する生起確率分布は、対話中のフレームｔにおける頭部運動の検出結果ｄ_ｔを用いて、次式（１２）～（１４）のように定義される。

【0046】

【数12】

【数13】

【数14】

【0047】

算出部１５ｂは、上記の定義を用いて、印象の予測値に寄与する度合いの大きい特徴量のそれぞれについて、特徴量の時間展開に相当する生起確率分布ｐ_ｊ，ｆ（ｔ）を算出する。なお、全ての特徴量について生起確率分布を算出してもよいし、いずれかの特徴量について生起確率分布を算出してもよい、その場合には、いずれかの特徴量を任意に人手により選択してもよいし、ランダムに所定数ｎ個を選択してもよい。

【0048】

図１の説明に戻る。特定部１５ｃは、特徴量の影響の大きさが極大値となる時点を特定する。ここで、図３は、特定部の処理を説明するための図である。特定部１５ｃは、算出部１５ｂから、特徴量の各々について得られた特徴量の時間展開に相当する生起確率分布を受け取って、これらの特徴量が印象の予測値に寄与した度合いに相当するＳＨＡＰ値を時間軸上に展開する。そして、特定部１５ｃは、図３に例示するように、ＳＨＡＰ値の分布の極大値となる時点を特定し、この時点を印象の形成にもっとも寄与した時刻と推定する。

【0049】

具体的には、特定部１５ｃは、次式（１５）のように、生起確率分布ｐ_ｊ，ｆ（ｔ）を正規化する。

【0050】

【数15】

【0051】

上記式（１５）の正規化生起確率分布は、時刻ごとに特徴量ｆの印象の形成に寄与した割合を示唆する。特定部１５ｃは、特徴量集合に含まれる特徴量について、この正規化生起確率分布とＳＨＡＰ値の積和の絶対値を算出して、次式（１６）に示すように、印象に対する貢献度の時間分布（以下、貢献度分布とも記す）を定義する。

【0052】

【数16】

【0053】

ここでは、複数の特徴量の集合による予測結果に対する貢献の度合いは、各特徴量のＳＨＡＰ値の和として求められるという、ＳＨＡＰ値の加法性を利用する。ＳＨＡＰ値の和を算出する際には、特定部１５ｃは、予め特徴量ごとに設定された所定の重みｗ_ｎ（ｎは特徴量の数）を用いて、各特徴量のＳＨＡＰ値にｗ_ｎを積算した後にＳＨＡＰ値の和を算出してもよい。あるいは、特定部１５ｃは、任意の特徴量を選択し、選択した特徴量のＳＨＡＰ値の和を算出してもよい。また、特徴量の選択を複数回行ってもよいし、選択した各特徴量の各ＳＨＡＰ値に任意の重みｗ_ｎを積算した後にＳＨＡＰ値の和を算出してもよい。

【0054】

このようにして得られた貢献度分布の極大値を示す時点（極大時点）ｔ＾を、次式（１７）に示すように特定する。

【0055】

【数17】

【0056】

本実施形態では、対話者の印象は特定の時点での行動に大きな影響を受けるものと仮定して、得られたＳＨＡＰ値の極大時点およびその時点での特徴量から示唆される行動を、対話全体に対する印象に最も大きな影響を与えた行動として特定する。

【0057】

その際に、ＳＨＡＰ値の和を複数算出した場合には、ＳＨＡＰ値の和の数と同数の極大時点を求めることができる。特定部１５ｃは、極大時点と、極大時点の特定に用いた特徴量とを出力する。

【0058】

図１の説明に戻る。推定部１５ｄは、極大値の時点における特徴量に対応する対話者の行動を推定する。具体的には、推定部１５ｄは、特定部１５ｃが出力した極大時点と、極大時点の特定に用いた特徴量とを受け取って、極大時点に対応する特徴量がどのような行動に対応するのかを推定する。

【0059】

具体的には、特徴量の組み合わせや極大時点の時刻に対応する行動を予め登録しておくことにより、推定部１５ｄは、特定部１５ｃから出力された情報に対応する行動を特定する。例えば、時刻ｈｈ：ｍｍ：００～ｈｈ：ｍｍ：５９に「頭部姿勢角」の特徴量が存在している場合に対応して「行動Ａ」が登録されているとする。そして、極大時点が上記時間帯に該当し、極大時点に対応する特徴量が「頭部姿勢角」の特徴量であった場合には、推定部１５ｄは、「行動Ａ」と推定する。これにより、対話中の対話者の印象等に対して影響が大きい行動を検知することが可能となる。

【0060】

［行動推定処理］
次に、図４を参照して、本実施形態に係る行動推定装置１０による行動推定処理について説明する。図４は、行動推定処理手順を示すフローチャートである。図４のフローチャートは、例えば、行動推定処理の開始を指示する操作入力があったタイミングで開始される。

【0061】

まず、抽出部１５ａが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル１４ａを用いて、所定の特徴量を含む対話中の対話者のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する（ステップＳ１）。例えば、抽出部１５ａは、対話者が対話中に対話に対して抱く主観的印象に対する影響の大きさが所定の閾値以上である特徴量を抽出する。

【0062】

次に、算出部１５ｂが、抽出された特徴量の時間分布を算出する（ステップＳ２）。具体的には、算出部１５ｂは、対話のどの時点の行動が、印象の形成にどの程度の影響を与えたかを推測するために、特徴量の時間展開を行う。その際に、算出部１５ｂは、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。

【0063】

また、算出部１５ｂは、核密度推定法を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。すなわち、算出部１５ｂは、核密度推定法を用いて、特徴量の生起確率分布を近似的に推定する。

【0064】

次に、特定部１５ｃが、特徴量の影響の大きさが極大値となる時点を特定する（ステップＳ３）。具体的には、特定部１５ｃは、特徴量の生起確率分布を用いて、これらの特徴量が印象の予測値に寄与した度合いに相当するＳＨＡＰ値を時間軸上に展開する。そして、特定部１５ｃは、ＳＨＡＰ値の分布の極大値となる時点を特定し、この時点を印象の形成にもっとも寄与した時刻と推定する。

【0065】

そして、推定部１５ｄが、極大値の時点における特徴量に対応する対話者の行動を推定し、例えば出力部１２を介して出力する。これにより、一連の行動推定処理が完了する。

【0066】

［第２の実施形態］
図５は、第２の実施形態の行動推定装置の概略構成を例示する模式図である。なお以下では、上記の実施形態の行動推定装置１０の行動推定処理と異なる点についてのみ説明を行い、共通する点についての説明を省略する。

【0067】

第２の実施形態の行動推定装置１０は、図５に示すように、上記実施形態の行動推定装置１０の推定部１５ｄに代えて、トピック抽出部１５ｅと関連データ１４ｂとを有する点が異なる。

【0068】

関連データ１４ｂは、対話に関する時系列データであり、例えば、画像による映像データである。時系列データは、音声データ、点群データであってもよい。関連データ１４ｂは、例えば、外部の管理装置等から通信制御部１３を介して予め取得して記憶部１４に記憶させる。

【0069】

第２の実施形態の行動推定装置１０において、特定部１５ｃは、ｎ（≧１）個の極大時点ｔ_ｎ＾を特定する。

【0070】

そして、トピック抽出部１５ｅは、所定のトピックごとに区切られた対話に関するデータから、極大値の時点に対応するトピックを抽出する。具体的には、トピック抽出部１５ｅは、対話に関するデータとして、例えば映像データを受け取って、トピック単位で分割する。

【0071】

トピック単位の分割は、人手で行われてもよい。あるいは、トピック抽出部１５ｅが、音声特徴から例えば音圧の大きさが所定の閾値以下になった部分で区切ってもよいし、複数の閾値を設定して区切ってもよい。または、トピック抽出部１５ｅは、映像特徴からオプティカルフローを抽出し、所定の閾値以上のベクトルを検出した場合に区切ってもよいし、その他の映像特徴から複数の閾値を設定して区切ってもよい。あるいは、トピック抽出部１５ｅは、すでに分割されたデータを正解データとして用いて機械学習モデルを学習により構築し、区切り箇所を予測してもよい。また、その他、映像を区切る市中の手法を用いても良い。

【0072】

そして、トピック抽出部１５ｅは、分割されたトピックのうち、極大時点を含むトピックを抽出する。その際には、トピック抽出部１５ｅは、トピック分割に用いた時系列データと同一の時系列データからトピックを抽出してもよいし、トピック分割に用いた時系列データと時系列が共通する映像データ以外の音声データや点群データ等の他の時系列データからトピックを抽出してもよい。

【0073】

また、トピック抽出部１５ｅは、全ての極大時点に対応するトピックを抽出してもよいし、選択されたいずれかの極大時点に対応したトピックを抽出してもよい。トピック抽出部１５ｅは、抽出したトピックを、例えば出力部１２を介して出力する。これにより、対話中の対話者の印象等に対して影響が大きい、対話に関連する場面が検知される。

【0074】

［効果］
以上、説明したように、行動推定装置１０において、抽出部１５ａが、入力された所定の特徴量に対し、対話中の対話者に関する値の予測値を出力するモデル１４ａを用いて、所定の特徴量を含む対話者が対話中のデータから、当該対話者に関する値の予測値に対する影響の大きさが所定の閾値以上である特徴量を抽出する。また、算出部１５ｂが、抽出された特徴量の時間分布を算出する。また、特定部１５ｃが、特徴量の影響の大きさが極大値となる時点を特定する。

【0075】

具体的には、抽出部１５ａが、各特徴量を用いることで得られる対話者に関する値の予測値に対する該特徴量の貢献度を反映するＳＨＡＰ値を算出することにより、影響の大きさが所定の閾値以上である特徴量を抽出する。

【0076】

また、算出部１５ｂが、部分的な時間区間から得られる特徴量を全時間区間について加算する時間的加算法を用いて、特徴量の時間分布を算出する。その場合に、算出部１５ｂは、核密度推定法を用いて特徴量に対応する機能の生起する確率分布を推定することにより、特徴量の時間分布を算出する。

【0077】

これにより、行動推定装置１０は、モデル１４ａの学習データの時間間隔の粒度が細かくなくても、予測値に影響を与えている特徴量とその発生時点とを細かい粒度で予測することが可能となる。

【0078】

また、推定部１５ｄは、前記極大値の時点における特徴量に対応する対話者の行動を推定する。これにより、行動推定装置１０は、対話中の対話者に影響が大きい行動を検知することが可能となる。

【0079】

また、トピック抽出部１５ｅは、所定のトピックごとに区切られた対話に関するデータから、極大値の時点に対応するトピックを抽出する。これにより、行動推定装置１０は、対話中の対話者の印象等に対して影響が大きい、対話に関連する場面を検知することが可能となる。

【0080】

［プログラム］
上記実施形態に係る行動推定装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、行動推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の行動推定処理を実行する行動推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の行動推定プログラムを情報処理装置に実行させることにより、情報処理装置を行動推定装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。また、行動推定装置１０の機能を、クラウドサーバに実装してもよい。

【0081】

図６は、行動推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

【0082】

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

【0083】

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

【0084】

また、行動推定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した行動推定装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

【0085】

また、行動推定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

【0086】

なお、行動推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、行動推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【0087】

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

【符号の説明】

【0088】

１０行動推定装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１４ａモデル
１４ｂ関連データ
１５制御部
１５ａ抽出部
１５ｂ算出部
１５ｃ特定部
１５ｄ推定部
１５ｅトピック抽出部

【図1】