IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7237895情報処理装置、情報処理プログラム及び情報処理方法
<>
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図1
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図2
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図3
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図4
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図5
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図6
  • 特許-情報処理装置、情報処理プログラム及び情報処理方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-03
(45)【発行日】2023-03-13
(54)【発明の名称】情報処理装置、情報処理プログラム及び情報処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230306BHJP
【FI】
G06T7/00 P
G06T7/00 660A
【請求項の数】 9
(21)【出願番号】P 2020130113
(22)【出願日】2020-07-31
(65)【公開番号】P2022026573
(43)【公開日】2022-02-10
【審査請求日】2022-05-26
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】黒川 茂莉
(72)【発明者】
【氏名】水元 朋子
(72)【発明者】
【氏名】小西 達也
(72)【発明者】
【氏名】新井田 統
(72)【発明者】
【氏名】西村 康孝
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2019/093392(WO,A1)
【文献】特許第6624539(JP,B1)
【文献】特開2009-15610(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
被調査者と会話をしている調査者の視線を特定する視線特定部と、
前記調査者と前記被調査者との前記会話を取得する会話取得部と、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得する撮像画像取得部と、
前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成する学習部と、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力する出力部と、
を有する、情報処理装置。
【請求項2】
前記学習部は、前記第2画像特徴量及び前記文特徴量それぞれの予測値と実測値との差を低減するように機械学習することによって、前記予測モデルを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記学習部は、前記会話の文の区切りに基づいて、前記第1時刻、前記第2時刻及び前記第3時刻を決定する、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記学習部は、前記第2画像特徴量及び前記文特徴量に加えて、前記会話の次の発話文の特徴を示す次文特徴量を予測するための前記予測モデルを生成する、
請求項1から3のいずれか一項に記載の情報処理装置。
【請求項5】
前記学習部は、前記予測モデルにおいて前記次文特徴量に代えて前記被調査者の要望を推測するようにさらに学習することによって、前記要望を推測するための要望推測モデルを生成し、
前記出力部は、前記要望推測モデルに新たな撮像画像を入力することによって推測された前記要望を示す情報を出力する、
請求項4に記載の情報処理装置。
【請求項6】
前記学習部は、前記要望の予測値と実測値との差を低減するように機械学習することによって、前記要望推測モデルを生成する、
請求項5に記載の情報処理装置。
【請求項7】
前記出力部は、前記撮像画像上に、予測された前記第2画像特徴量に対応する範囲を表示する、
請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
プロセッサに、
被調査者と会話をしている調査者の視線を特定するステップと、
前記調査者と前記被調査者との前記会話を取得するステップと、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、
前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力するステップと、
を実行させる、情報処理プログラム。
【請求項9】
プロセッサが実行する、
被調査者と会話をしている調査者の視線を特定するステップと、
前記調査者と前記被調査者との前記会話を取得するステップと、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、
前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力するステップと、
を有する、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報端末を制御するための情報処理装置、情報処理プログラム及び情報処理方法に関する。
【背景技術】
【0002】
特許文献1には、分析対象の人間、業務、時間等の情報と、それらの情報の属性とを関連付けて分析することによって、業務課題を特定するシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-246529号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、被調査者の隠されたニーズや課題を抽出するために、調査者が被調査者との間で会話をしながら被調査者の環境を観察するエスノグラフィ(行動観察ともいう)という調査の手法が知られている。エスノグラフィにおいて、調査者は会話及び観察を主観的に関連付けて調査を進めて行く。そのため、調査者が被調査者の環境をどのように把握しているかは暗黙知となっており、被調査者の環境に含まれるいずれの領域が調査において重要であるかを外部から特定することは困難であった。
【0005】
本発明はこれらの点に鑑みてなされたものであり、調査者が被調査者に対して行う調査のために、被調査者の環境において重要な領域を特定できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の情報処理装置は、被調査者と会話をしている調査者の視線を特定する視線特定部と、前記調査者と前記被調査者との前記会話を取得する会話取得部と、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得する撮像画像取得部と、前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成する学習部と、前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力する出力部と、を有する。
【0007】
前記学習部は、前記第2画像特徴量及び前記文特徴量それぞれの予測値と実測値との差を低減するように機械学習することによって、前記予測モデルを生成してもよい。
【0008】
前記学習部は、前記会話の文の区切りに基づいて、前記第1時刻、前記第2時刻及び前記第3時刻を決定してもよい。
【0009】
前記学習部は、前記第2画像特徴量及び前記文特徴量に加えて、前記会話の次の発話文の特徴を示す次文特徴量を予測するための前記予測モデルを生成してもよい。
【0010】
前記学習部は、前記予測モデルにおいて前記次文特徴量に代えて前記被調査者の要望を推測するようにさらに学習することによって、前記要望を推測するための要望推測モデルを生成し、前記出力部は、前記要望推測モデルに新たな撮像画像を入力することによって推測された前記要望を示す情報を出力してもよい。
【0011】
前記学習部は、前記要望の予測値と実測値との差を低減するように機械学習することによって、前記要望推測モデルを生成してもよい。
【0012】
前記出力部は、前記撮像画像上に、予測された前記第2画像特徴量に対応する範囲を表示してもよい。
【0013】
本発明の第2の態様の情報処理プログラムは、プロセッサに、被調査者と会話をしている調査者の視線を特定するステップと、前記調査者と前記被調査者との前記会話を取得するステップと、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力するステップと、を実行させる。
【0014】
本発明の第3の態様の情報処理方法は、プロセッサが実行する、被調査者と会話をしている調査者の視線を特定するステップと、前記調査者と前記被調査者との前記会話を取得するステップと、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、前記撮像画像の特徴を示す第1画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第2画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第1時刻における前記第1画像特徴量から、前記第1時刻より後の第2時刻における前記第2画像特徴量及び前記文特徴量を予測し、さらに前記第2時刻における前記第1画像特徴量、予測された前記第2時刻における前記第2画像特徴量及び予測された前記第2時刻における前記文特徴量から、前記第2時刻より後の第3時刻における前記第2画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、前記予測モデルに新たな撮像画像を入力することによって予測された前記第2画像特徴量に対応する領域を示す情報を出力するステップと、を有する。
【発明の効果】
【0015】
本発明によれば、調査者が被調査者に対して行う調査のために、被調査者の環境において重要な領域を特定できるという効果を奏する。
【図面の簡単な説明】
【0016】
図1】実施形態に係る情報処理システムの模式図である。
図2】実施形態に係る情報処理装置のブロック図である。
図3】第1学習処理を説明するための模式図である。
図4】第2学習処理を説明するための模式図である。
図5】出力部が画像特徴量に対応する領域を示す情報を出力する方法を説明するための模式図である。
図6】出力部が被調査者の要望を示す情報を出力する方法を説明するための模式図である。
図7】実施形態に係る情報処理装置が実行する情報処理方法のフローチャートを示す図である。
【発明を実施するための形態】
【0017】
[情報処理システムの概要]
図1は、本実施形態に係る情報処理システムSの模式図である。情報処理システムSは、情報処理装置1を含む。情報処理システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0018】
情報処理装置1は、調査者の被調査者に対する調査に関するデータを学習し、学習結果を利用して予測又は推測された情報を出力するサーバ等のコンピュータである。調査者は、被調査者との間で会話をしながら被調査者の環境を観察する、すなわちエスノグラフィを行う人間である。被調査者は、調査者による調査の対象とする人間である。調査者は、被調査者との会話と、被調査者を含む環境の観察とを組み合わせて行うことによって、インタビューやアンケートのみから特定することが難しいような被調査者の隠されたニーズや課題を抽出することを試みる。
【0019】
情報処理装置1は、撮像部11と、音声入力部12とを有する。撮像部11は、例えば一又は複数のカメラを含む。撮像部11は、調査者及び被調査者が滞在する部屋の内部等、調査者及び被調査者を含む環境を撮像する。また、撮像部11は、撮像部11と物体との間の距離を測定可能なレーザセンサや超音波センサ等の距離センサを含む。音声入力部12は、例えば一又は複数のマイクロフォンを含む。音声入力部12は、調査者と被調査者との会話を録音する。情報処理装置1は、複数の撮像部11、及び複数の音声入力部12を有してもよい。
【0020】
[情報処理装置1全体の構成]
図2は、本実施形態に係る情報処理装置1のブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示したもの以外のデータの流れがあってもよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
【0021】
情報処理装置1は、上述の撮像部11及び音声入力部12に加えて、記憶部13と、制御部14とを有する。情報処理装置1は、図2に示す具体的な構成に限定されない。情報処理装置1は、1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
【0022】
記憶部13は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部13は、制御部14が実行するプログラムを予め記憶している。記憶部13は、情報処理装置1の外部に設けられてもよく、その場合にネットワークを介して制御部14との間でデータの授受を行ってもよい。
【0023】
制御部14は、撮像画像取得部141と、視線特定部142と、会話取得部143と、特徴抽出部144と、学習部145と、出力部146とを有する。制御部14は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部13に記憶されたプログラムを実行することにより、撮像画像取得部141、視線特定部142、会話取得部143、特徴抽出部144、学習部145及び出力部146として機能する。制御部14の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部14の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0024】
[特徴抽出処理に係る構成]
調査者が被調査者に対する調査をしている間に、撮像部11は、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を、画像データとして記憶部13に記憶させる。撮像画像は、動画像、又は定期的に撮像された複数の静止画像を含む。調査者が被調査者に対する調査をしている間に、音声入力部12は、調査者と被調査者との会話を録音した音声データを記憶部13に記憶させる。
【0025】
情報処理装置1は、記憶部13に記憶された画像データ及び音声データに対して以下に説明する特徴抽出処理を実行する。情報処理装置1は、例えば、調査者が情報処理装置1と通信可能な情報端末において所定の開始指示を行ったことを契機として、画像データ及び音声データに対する特徴抽出処理を開始する。
【0026】
撮像画像取得部141は、記憶部13に記憶された画像データから、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を取得する。撮像画像は、環境の全体に対応しており、例えば360度画像である。また、撮像画像取得部141は、同じ時刻に撮像された複数の画像を1つの撮像画像としてもよい。時刻tにおける撮像画像を、全体画像I(t)とする。
【0027】
視線特定部142は、各時刻tにおいて、被調査者と会話をしている調査者の視線を特定する。視線特定部142は、例えば、予め記憶部13に記憶された調査者の顔画像と、全体画像I(t)とを比較することによって、調査者の視線を特定する。この場合に、視線特定部142は、視線方向δごとに撮像された調査者の参照用顔画像RI(δ)を記憶部13から取得する。視線方向δは、調査者の視線の向きを表しており、例えば2次元又は3次元のベクトルである。ここで、参照用顔画像RI(δ)は目の領域に限定した画像でもよい。
【0028】
視線特定部142は、全体画像I(t)を走査することによって、参照用顔画像RI(δ)と最も合致する領域を検出し、合致度Sim(I(t),RI(δ))を算出する。合致度Sim(I(t),RI(δ))は、例えばコサイン類似度である。視線特定部142は、光の加減やその時の髪の色等の影響を取り除くため、I(t)から抽出した輪郭とRI(δ)から抽出した輪郭の合致度を算出してもよい。そして視線特定部142は、合致度Sim(I(t),RI(δ))が最大になる視線方向δを、時刻tにおける調査者の視線方向δ(t)として特定する。視線方向δ(t)は、3次元空間の場合には、3次元の方向ベクトル(単位ベクトル)として表現されてもよい。
【0029】
また、視線特定部142は、各時刻tにおいて、全体画像I(t)の少なくとも一部の画像であって、特定した視線の先にあたる注視点を含む視線方向画像EI(t)を特定する。注視点を含む視線方向画像EI(t)は、調査者が被調査者と会話をしている間に観察した領域に対応している。
【0030】
視線特定部142は、例えば、以下の方法で視線方向画像EI(t)を特定する、ここで、撮像部11を原点とした調査者の位置ベクトルをpとする。
(a)視線特定部142は、調査者の視線方向δ(t)の延長方向を、調査者の位置ベクトルと視線方向ベクトルのスカラー倍の和p+kδ(t)として求め、これと環境に存在する物体との交点をqとして求める。視線特定部142は、交点qを、環境の3Dモデルを事前に用意しその上での幾何学的演算により求めてもよいし、レーザセンサや超音波センサなどにより特定しても構わない。
(b)視線特定部142は、既知の座標変換方法によって交点qを全体画像I(t)上の位置q’に変換する。
(c)視線特定部142は、全体画像I(t)上の位置q’の周辺の格子領域を切り出し、視線方向画像EI(t)を特定する。この際、視線特定部142は、既知のテクスチャマッピングの技術を用いて格子領域の画像を平面画像(矩形画像)に投影し、平面画像として視線方向画像EI(t)を特定してもよい。
【0031】
視線特定部142は、ここに例示した具体的な方法に限られず、その他の方法で調査者の視線方向δ(t)及び視線方向画像EI(t)を特定してもよい。
【0032】
会話取得部143は、記憶部13に記憶された音声データに対して既知の音声認識処理を実行することによって、調査者と被調査者との会話の文を取得する。また、会話取得部143は、音声データに代えて又は加えて、調査者によって入力された文字情報から会話の文を取得してもよい。
【0033】
特徴抽出部144は、記憶部13に記憶された画像データに対して既知の物体認識処理を実行することによって、全体画像I(t)の特徴を示す画像特徴量(第1画像特徴量ともいう)と、視線方向画像EI(t)の特徴を示す画像特徴量(第2画像特徴量ともいう)とを抽出する。画像特徴量は、例えば、物体の種類(本棚、テレビ等)、物体が含むコンテンツの種類(本棚の本、テレビの番組等)、物体の大きさ、物体の状態(整理されているか否か等)を示す情報である。画像特徴量は、例えば、連続値のベクトルによって表される。
【0034】
なお、後述の学習部145において画像自体を画像特徴量として用いる場合には、特徴抽出部144は全体画像I(t)及び視線方向画像EI(t)から画像特徴量の抽出を行わなくてもよい。また、特徴抽出部144は、360度画像が円周状の画像であるため、これを平面画像(矩形画像)に変換した上で、当該平面画像から画像特徴量を抽出してもよい。具体的には、360度画像を格子領域に分割し、各領域を既知のテクスチャマッピングの技術を用いて平面画像に変換し、変換後の平面画像をつなぎあわせることで1枚の平面画像を構成してもよい。
【0035】
また、特徴抽出部144は、会話取得部143が取得した会話の文に対して既知の形態素解析処理を実行することによって、会話の文の特徴を示す文特徴量を抽出する。特徴抽出部144は、例えば、「本読むとか、好きなんでしょ?」という会話の文を、形態素解析処理によって「本 読む と か 好き だ の です ?」に分割する。さらに特徴抽出部144は、形態素の中から一部の品詞を選択してもよい。特徴抽出部144は、例えば、名詞及び動詞を抽出する場合に、「本 読む」を抽出する。
【0036】
特徴抽出部144は、予め定義された語彙に基づいて、文特徴量を示すベクトルを取得する。特徴抽出部144は、例えば、「マンガ 見る 寝る 本 読む」という語彙が定義されている場合に、これらの語彙のうち「本」と「読む」が会話の文に含まれるため、文特徴量を示すマルチホットベクトルS(t)={0,0,0,1,1}を取得する。同様の方法で、特徴抽出部144は、会話の次の発話文の特徴を示す次文特徴量を抽出する。
【0037】
特徴抽出部144による画像特徴量、文特徴量及び次文特徴量の抽出が行われた後に、学習部145は、会話の次の発話文を予測するための予測モデルを生成するための第1学習処理と、被調査者の要望を推測するための推測モデルを生成するための第2学習処理とを実行する。
【0038】
[第1学習処理に係る構成]
第1学習処理として、学習部145は、特徴抽出部144が抽出した画像特徴量及び文特徴量を機械学習することによって、画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。
【0039】
図3は、第1学習処理を説明するための模式図である。図3において、xt、st、etは、それぞれ時刻tにおける全体画像I(t)の画像特徴量(第1画像特徴量)、文特徴量、及び視線方向画像EI(t)の画像特徴量(第2画像特徴量)である。yは、次の発話文の特徴を示す次文特徴量である。
【0040】
文特徴量及び次文特徴量は、例えば特徴抽出部144が取得したマルチホットベクトルS(t)である。全体画像I(t)及び視線方向画像EI(t)の画像特徴量は、例えば、特徴抽出部144が抽出した全体画像I(t)及び視線方向画像EI(t)に含まれている物体の特徴を表すベクトル又は行列である。また、全体画像I(t)及び視線方向画像EI(t)の画像特徴量は、それぞれ全体画像I(t)自体及び視線方向画像EI(t)自体であってもよい。
【0041】
学習部145は、各時刻tのxt、st、etを変換することによって潜在表現であるhtを算出する。学習部145は、htを変換することによって次の時刻t+1における会話の文の文特徴量及び視線方向画像EI(t)の画像特徴量の推定値、すなわちs’t+1、e’t+1を算出する。また、学習部145は、これを再帰的に繰り返し、最終的にhtを変換することよって次の時刻t+1における次の発話文の特徴を示す次文特徴量の推定値y’を算出する。
【0042】
学習部145による第1学習処理の計算過程の詳細を以下に説明する。ここでは学習部145が第1時刻t-2、第2時刻t-1、第3時刻tについて計算する例を説明するが、計算対象とする時刻の数は限定されない。学習部145は、例えば、会話の文の区切り(1回の発話が開始してから終了するまでの期間等)に基づいて、第1時刻t-2、第2時刻t-1及び第3時刻tを決定する。これにより、第1時刻t-2、第2時刻t-1及び第3時刻tはそれぞれ1つの文に対応する。
【0043】
学習部145は、式(1)を用いて全体画像I(t-2)の画像特徴量xt-2からht-2を算出する。以降の各式におけるW(x→h)等のパラメータは重み行列であり、学習によって最適化される。また、画像特徴量が画像自体の場合は、学習部145は、重み行列を用いた変換に代えて既知の畳み込み関数を用いた変換によりht-2を算出してもよい。
【数1】
【0044】
学習部145は、式(2)、式(3)を用いて、ht-2から文特徴量の推定値s’t-1、視線方向画像EI(t-1)の画像特徴量の推定値e’t-1を算出する。以降の各式におけるSigmoid関数、ReLU関数は式(4)、式(5)によって表され、入力がベクトルの場合はベクトルの各要素にSigmoid関数、ReLU関数が適用される。また、学習部145は、Sigmoid関数、ReLU関数に代えて、その他の活性化関数を適用してもよい。
【数2】
【数3】
【数4】
【数5】
【0045】
学習部145は、式(6)を用いて、全体画像I(t-1)の画像特徴量xt-1、文特徴量の推定値s’t-1、及び視線方向画像EI(t-1)の画像特徴量の推定値e’t-1から、ht-1を算出する。
【数6】
【0046】
学習部145は、式(7)、式(8)を用いて、ht-1から文特徴量の推定値s’t、視線方向画像EI(t-1)の画像特徴量の推定値e’tを算出する。
【数7】
【数8】
【0047】
学習部145は、式(9)を用いて、全体画像I(t)の画像特徴量xt、文特徴量の推定値s’t、及び視線方向画像EI(t)の画像特徴量の推定値e’tから、htを算出する。式(2)~式(9)において出力値が再び入力値になることが繰り返されているため、本実施形態に係る学習処理は再帰的であるといえる。
【数9】
【0048】
学習部145は、式(10)を用いて、htから次の発話文の特徴を示す次文特徴量の推定値y’を算出する。
【数10】
【0049】
学習部145は、画像特徴量et-1、et、文特徴量st-1、st及び次文特徴量yそれぞれの予測値と実測値との差(すなわち、損失関数)を低減するように、式(1)~式(10)を最適化する。実測値は、記憶部13に記憶された画像データ及び音声データから抽出された正解値である。学習部145は、例えば、式(11)に例示した損失関数Lを定義する。
【数11】
【0050】
式(11)のλ1、λ2、λ3、λ4、λ5は、損失関数の各項を加重和するときの重みであり、全て1でもよく、又はハイパーパラメータとして調整されてもよい。式(11)のbinary_crossentropyは2値交差エントロピーであり、mean_squared_errorは平均二乗誤差である。損失関数Lは、その他の式によって定義されてもよい。
【0051】
学習部145は、損失関数Lを小さくするように、式(1)~式(10)のW(x→h)等の各パラメータを最適化する。学習部145は、このように最適化した式(1)~式(10)及びパラメータを、予測モデルとして記憶部13に記憶させる。
【0052】
このように、学習部145は、特徴抽出部144が抽出した画像特徴量及び文特徴量を機械学習することによって、第1時刻における撮像画像から、第1時刻より後の第2時刻における画像特徴量及び文特徴量を予測し、さらに第2時刻における撮像画像、予測された第2時刻における画像特徴量及び予測された第2時刻における文特徴量から、第2時刻より後の第3時刻における画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。
【0053】
学習部145によって生成された予測モデルは、入力された全体画像I(t)に対して、視線方向画像EI(t)の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に次の発話文を予測できるように構成されている。したがって、全体画像I(t)の中で予測モデルが途中経過として予測した画像特徴量に対応する領域は、調査者の被調査者に対する調査のために重要な領域、すなわち調査に対する貢献度が高い領域であると考えられる。そこで情報処理装置1は、後述の出力処理において、予測モデルによって予測された画像特徴量に対応する領域を示す情報を出力することによって、被調査者の環境において重要な領域を特定しやすくできる。
【0054】
[第2学習処理に係る構成]
第2学習処理として、学習部145は、第1学習処理で生成した予測モデルを用いて転移学習することによって、被調査者の要望を推測するための要望推測モデルを生成する。被調査者の要望は、被調査者が欲する又は欲しない商品やサービス、被調査者が必要とする又は必要としない情報等である。要望の推測を行わない場合に、情報処理装置1は、第2学習処理を実行せず、第1学習処理のみを実行してもよい。
【0055】
図4は、第2学習処理を説明するための模式図である。図4について、図3と異なる部分を以下に説明する。yは、次の発話文の特徴を示す次文特徴量の代わりに、被調査者の要望を示す値である。第2学習処理において、学習部145は、要望の予測値y’と要望の実測値yとの差である損失関数Lyを低減するように、予測モデルのパラメータを用いて機械学習する。要望yの実測値は、被調査者へのインタビューやアンケートによって予め収集され、記憶部13に記憶された正解値である。
【0056】
ここで学習部145は、予測モデルの最後のW(h→y)のみを調整し、それ以外の予測モデルのパラメータを固定しておく。これにより、学習部145は、予測モデルにおいて次の発話文を予測できるように調整されたパラメータを再利用して、次の発話文の代わりに被調査者の要望を推測可能な要望推測モデルを生成できる。また、学習部145は、最後のW(h→y)以外の予測モデルのパラメータを固定せず、更新しても構わない。この場合、第1学習処理で学習されたパラメータを初期値として用いることにより、効率的に要望推測モデルを生成できる。
【0057】
学習部145によって生成された要望推測モデルは、入力された全体画像I(t)に対して、視線方向画像EI(t)の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に被調査者の要望を推測できるように構成されている。これにより情報処理装置1は、後述の出力処理において、調査者及び被調査者の会話と、調査者による被調査者の環境の観察とを学習した結果である要望推測モデルを用いて、被調査者の環境の撮像画像のみから被調査者の要望を推測できる。
【0058】
[出力処理に係る構成]
出力部146は、学習部145が生成した予測モデルに新たな撮像画像を入力することによって予測された画像特徴量(第2画像特徴量)に対応する領域を示す情報を出力する。新たな撮像画像は、撮像部11が被調査者を含む環境を撮像した画像である。被調査者は、予測モデルの学習時に用いたデータに係る被調査者と同じ人物であってもよく、異なる人物であってもよい。
【0059】
出力部146は、予測モデルに、新たな撮像画像、すなわち新たな撮像画像の特徴を示す画像特徴量(第1画像特徴量)を入力する。そうすると、予測モデルは、図3に示したように、各時刻tの会話の文の文特徴量s’tと、視線方向画像EI(t)の画像特徴量e’tとを予測して出力する。
【0060】
出力部146は、撮像画像に対して既知の物体認識処理を実行し、撮像画像の中で、予測モデルが出力した画像特徴量(第2画像特徴量)に対応する範囲、すなわち予測モデルが出力した画像特徴量と同一又は類似の画像特徴量が検出される範囲を特定する。
【0061】
図5は、出力部146が画像特徴量に対応する領域を示す情報を出力する方法を説明するための模式図である。出力部146は、調査者に関連付けられたスマートフォン等の情報端末の表示部において、撮像画像I上に、特定した画像特徴量に対応する範囲Aを表示する。出力部146は、例えば、撮像画像I上で範囲Aを示す枠線を表示し、又は範囲A内の色や模様等の表示態様を範囲A外の表示態様とは異ならせる。
【0062】
これにより、情報処理装置1は、調査者に対して、被調査者を含む環境の撮像画像において、過去の会話及び観察を含む調査のデータを学習した結果に基づいて重要であると予測された領域を通知することができる。調査者は、被調査者の環境において重要な領域を容易に把握し、被調査者に対する調査を効率的に進めることができる。
【0063】
また、出力部146は、学習部145が生成した要望推測モデルに新たな撮像画像を入力することによって予測された要望を示す情報を出力してもよい。新たな撮像画像は、撮像部11が被調査者を含む環境を撮像した画像である。被調査者は、要望推測モデルの学習時に用いたデータに係る被調査者と同じ人物であってもよく、異なる人物であってもよい。
【0064】
出力部146は、要望推測モデルに、新たな撮像画像、すなわち新たな撮像画像の特徴を示す画像特徴量(第1画像特徴量)を入力する。そうすると、要望推測モデルは、図4に示したように、要望yを推測して出力する。出力部146は、要望推測モデルが推測した要望yを示す情報を、文字、画像、音声等を用いて調査者又は被調査者に対して出力する。
【0065】
図6は、出力部146が被調査者の要望を示す情報を出力する方法を説明するための模式図である。図6の例では、被調査者を含む環境に、上述の撮像部11と音声出力部とを備えるロボットRが配置されている。出力部146は、ロボットRが備えるスピーカ等の音声出力部から、要望推測モデルが推測した要望を示す音声を出力する。また、出力部146は、スマートフォン等の情報端末を用いて、要望推測モデルが推測した要望を示す情報を出力してもよい。また、出力部146は、被調査者に代えて又は加えて、調査者に対して、要望推測モデルが推測した要望を示す情報を出力してもよい。
【0066】
これにより、情報処理装置1は、調査者又は被調査者に対して、被調査者を含む環境の撮像画像を用いて、過去の会話及び観察を含む調査のデータを学習した結果に基づいて推測された被調査者の要望を通知することができる。これにより、調査者又は被調査者は、会話を行うことなく、被調査者の隠された要望を知ることができる。
【0067】
[情報処理方法の説明]
図7は、本実施形態に係る情報処理装置1が実行する情報処理方法のフローチャートを示す図である。撮像画像取得部141は、記憶部13に記憶された画像データから、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を取得する(S11)。時刻tにおける撮像画像を、全体画像I(t)とする。
【0068】
視線特定部142は、各時刻tにおいて、被調査者と会話をしている調査者の視線を特定する(S12)。また、視線特定部142は、各時刻tにおいて、全体画像I(t)の少なくとも一部の画像であって、特定した視線の先にあたる注視点を含む視線方向画像EI(t)を特定する。会話取得部143は、記憶部13に記憶された音声データに対して既知の音声認識処理を実行することによって、調査者と被調査者との会話の文を取得する(S13)。
【0069】
特徴抽出部144は、記憶部13に記憶された画像データに対して既知の物体認識処理を実行することによって、全体画像I(t)及び視線方向画像EI(t)それぞれの特徴を示す画像特徴量を抽出する。また、特徴抽出部144は、会話取得部143が取得した会話の文に対して既知の形態素解析処理を実行することによって、会話の文の特徴を示す文特徴量を抽出する(S14)。
【0070】
学習部145は、特徴抽出部144が抽出した画像特徴量及び文特徴量に対して、会話の次の発話文を予測するための予測モデルを生成するための第1学習処理と、被調査者の要望を推測するための推測モデルを生成するための第2学習処理とを実行する(S15)。
【0071】
第1学習処理として、学習部145は、特徴抽出部144が抽出した画像特徴量及び文特徴量を機械学習することによって、画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。第2学習処理として、学習部145は、第1学習処理で生成した予測モデルを用いて転移学習することによって、被調査者の要望を推測するための要望推測モデルを生成する。
【0072】
出力部146は、学習部145が生成した予測モデルに新たな撮像画像を入力することによって予測された画像特徴量に対応する領域を示す情報を出力する(S16)。また、出力部146は、学習部145が生成した要望推測モデルに新たな撮像画像を入力することによって予測された要望を示す情報を出力してもよい。
【0073】
[本実施形態の効果]
本実施形態に係る情報処理システムSによれば、情報処理装置1は、機械学習をすることによって、入力された全体画像に対して、視線方向画像の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に次の発話文を予測できる予測モデルを生成する。全体画像の中で予測モデルが途中経過として予測した画像特徴量に対応する領域は、調査者の被調査者に対する調査のために重要な領域といえるため、情報処理装置1は、当該領域を調査者の被調査者に対する調査のために重要な領域として特定し、調査者に通知することができる。
【0074】
また、情報処理装置1は、次の発話文を予測できる予測モデルにおいて要望を推測するように転移学習をすることによって、要望推測モデルを生成する。これにより、情報処理装置1は、調査者及び被調査者の会話と、調査者による被調査者の環境の観察とを学習した結果である要望推測モデルを用いて、被調査者の環境の撮像画像のみから被調査者の要望を推測できる。
【0075】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【0076】
情報処理装置1のプロセッサは、図7に示す情報処理方法に含まれる各ステップ(工程)の主体となる。すなわち、情報処理装置1のプロセッサは、図7に示す情報処理方法を実行するためのプログラムを記憶部13から読み出し、該プログラムを実行して情報処理装置1の各部を制御することによって、図7に示す情報処理方法を実行する。図7に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
【符号の説明】
【0077】
S 情報処理システム
1 情報処理装置
14 制御部
141 撮像画像取得部
142 視線特定部
143 会話取得部
144 特徴抽出部
145 学習部
146 出力部
図1
図2
図3
図4
図5
図6
図7