特許7118697 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｐｒｅｆｅｒｒｅｄ　Ｎｅｔｗｏｒｋｓの特許一覧

特許7118697注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-08-05

(45)【発行日】2022-08-16

(54)【発明の名称】注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル

(51)【国際特許分類】

G06T 7/00 20170101AFI20220808BHJP

G09G 5/00 20060101ALI20220808BHJP

G09G 5/36 20060101ALI20220808BHJP

【ＦＩ】

G06T7/00 350C

G09G5/00 550C

G09G5/00 550X

G09G5/36 520P

G09G5/36 510M

G09G5/00 550H

【請求項の数】 31

(21)【出願番号】P 2018068120

(22)【出願日】2018-03-30

(65)【公開番号】P2019179390

(43)【公開日】2019-10-17

【審査請求日】2021-01-27

(73)【特許権者】

【識別番号】515130201

【氏名又は名称】株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ

(74)【代理人】

【識別番号】100091982

【弁理士】

【氏名又は名称】永井浩之

(74)【代理人】

【識別番号】100091487

【弁理士】

【氏名又は名称】中村行孝

(74)【代理人】

【識別番号】100082991

【氏名又は名称】佐藤泰和

(74)【代理人】

【識別番号】100105153

【弁理士】

【氏名又は名称】朝倉悟

(74)【代理人】

【識別番号】100118876

【弁理士】

【氏名又は名称】鈴木順生

(74)【代理人】

【識別番号】100206243

【弁理士】

【氏名又は名称】片桐貴士

(72)【発明者】

【氏名】福田昌昭

【審査官】新井則和

(56)【参考文献】

【文献】特開２０１８－０２２３６０（ＪＰ，Ａ）

【文献】国際公開第２０１７／１５５６６３（ＷＯ，Ａ１）

【文献】米国特許第０９０２５８８０（ＵＳ，Ｂ２）

【文献】TILKE Judd et al.，Learning to predict where humans look，2009 IEEE 12th International Conference on Computer Vision，IEEE，2009年09月29日，pp. 2106-2113，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5459462

【文献】渡辺隆，シグモイド型パルスジェネレータを取り入れたＰｕｌｓｅ－ＣｏｕｐｌｅｄＮｅｕｒａｌＮｅｔｗｏｒｋによる注視点探索法，計測自動制御学会論文集第３８巻第８号，日本，計測自動制御学会，2002年08月31日，pp. 726-732

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０９Ｇ５／００

Ｇ０９Ｇ５／３６

(57)【特許請求の範囲】

【請求項1】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部と、
複数のニューラルネットワークを記憶する記憶部と、を備え、
前記注視点推定部が、前記推定用画像の視聴者の属性に基づき、前記複数のニューラルネットワークから前記注視点に関する情報の推定に用いる前記ニューラルネットワークを選択する、
推定装置。

【請求項2】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部、を備え、
前記注視点推定部は、前記推定用画像の視聴者の属性を用いて、前記注視点を推定する、
推定装置。

【請求項3】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部と、
前記注視点に関する情報に基づき、前記推定用画像を加工する画像加工部と、を備える、
推定装置。

【請求項4】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部と、
前記注視点に関する情報に基づき、前記推定用画像を評価する評価部と、を備える、
推定装置。

【請求項5】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部と、
前記推定用画像と前記注視点に関する情報とに基づき、前記推定用画像の視聴者の注視物を導出する注視物導出部と、を備える、
推定装置。

【請求項6】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部、を備え、
前記注視点に関する情報は、前記推定用画像内のピクセルが前記注視点である可能性を示す画像であって、
前記画像は、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
推定装置。

【請求項7】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部、を備え、
前記注視点に関する情報は、前記推定用画像内における領域に関する情報を含む、
推定装置。

【請求項8】

前記推定用画像からオプティカルフローを算出する算出部
をさらに備え、
前記注視点推定部は、前記オプティカルフローを用いて、前記注視点に関する情報を推定する
請求項１ないし７のいずれか一項に記載の推定装置。

【請求項9】

複数のニューラルネットワークを記憶する記憶部
をさらに備え、
前記注視点推定部が、前記推定用画像の視聴者の属性に基づき、前記複数のニューラルネットワークから前記注視点に関する情報の推定に用いる前記ニューラルネットワークを選択する、
請求項２ないし８のうち１に従属しないいずれか一項に記載の推定装置。

【請求項10】

前記注視点推定部は、前記推定用画像の視聴者の属性を用いて、前記注視点を推定する
請求項１、３ないし９のうち２に従属しないいずれか一項に記載の推定装置。

【請求項11】

前記注視点に関する情報に基づき、前記推定用画像を加工する画像加工部
をさらに備える請求項１、２、４ないし１０のうち３に従属しないいずれか一項に記載の推定装置。

【請求項12】

前記注視点に関する情報に基づき、前記推定用画像を評価する評価部
をさらに備える
請求項１ないし３、５ないし１１のうち４に従属しないいずれか一項に記載の推定装置。

【請求項13】

前記推定用画像と前記注視点に関する情報とに基づき、前記推定用画像の視聴者の注視物を導出する注視物導出部
をさらに備える請求項１ないし４、６ないし１２のうち５に従属しないいずれか一項に記載の推定装置。

【請求項14】

前記推定用画像の視聴者に関する入力データに前記注視物に関する情報が含まれている場合、前記注視物に関する返答を生成する返答生成部
をさらに備える請求項５または１３に記載の推定装置。

【請求項15】

前記注視点に関する情報は、前記推定用画像内のピクセルが前記注視点である可能性を示す情報を含む、
請求項１ないし５、７ないし１４のうち６に従属しないいずれか一項に記載の推定装置。

【請求項16】

前記注視点に関する情報は、前記推定用画像内のピクセルが前記注視点である可能性を示す画像である、
請求項１ないし５、７ないし１５のうち６に従属しないいずれか一項に記載の推定装置。

【請求項17】

前記画像は、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
請求項１６に記載の推定装置。

【請求項18】

前記注視点に関する情報は、前記推定用画像内における領域に関する情報を含む、
請求項１ないし１７のいずれか一項に記載の推定装置。

【請求項19】

前記推定用画像の視聴者は、前記推定用画像を見る人である、
請求項１、２、５のいずれか一項、または、８ないし１８のうち１、２、５、９、１０、１３、１４のいずれかに従属するいずれか一項に記載の推定装置。

【請求項20】

請求項６、または、８ないし１９のうち６、１６のいずれかに従属するいずれか一項に記載の推定装置を用いて、前記注視点である可能性を示す画像を生成する方法。

【請求項21】

画像を撮影する撮影装置と、
請求項１ないし１９のいずれか一項に記載の推定装置と、
を備え、
前記推定装置が、前記撮影装置によって撮影された画像を、前記推定用画像として受け取り、
前記推定装置が、前記注視点に関する情報を前記撮影装置に送信し、
前記撮影装置が、前記注視点の位置または周辺にある物体を撮影するために自装置の設定を変更する
システム。

【請求項22】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定する注視点推定部、を備え、移動体に搭載された撮影画像により撮影された画像を前記推定用画像として受け取る推定装置と、
前記推定装置により推定された前記注視点に関する情報に基づき、前記移動体を移動させるように制御する制御装置と、
を備えるシステム。

【請求項23】

移動体に搭載された撮影装置により撮影された画像を前記推定用画像として受け取る請求項１ないし１９のいずれか一項に記載の推定装置と、
前記推定装置により推定された前記注視点に関する情報に基づき、前記移動体を移動させるように制御する制御装置と、
を備えるシステム。

【請求項24】

ニューラルネットワークを記憶する少なくとも１つのメモリと、
少なくとも１つのプロセッサと、を備え、
前記少なくとも１つのプロセッサは、
対象画像を前記ニューラルネットワークに入力することによって評価スコアを生成し、
前記対象画像に対するアイトラッキング情報を前記ニューラルネットワークに入力することなく、前記対象画像内のピクセルが注視点である可能性を示す画像を生成し、
生成された前記画像が、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
評価装置。

【請求項25】

学習用画像と前記学習用画像に対する注視点に関する情報とに基づく学習を行うことにより、ニューラルネットワークを生成するモデル生成方法であって、
前記ニューラルネットワークは、前記学習用画像に対するアイトラッキング情報が入力されることなく、前記学習用画像が前記ニューラルネットワークに入力されることにより、前記注視点に関する情報を出力し、
前記注視点に関する情報は、前記学習用画像内のピクセルが前記注視点である可能性を示す画像であって、
前記画像は、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
モデル生成方法。

【請求項26】

推定用画像に対するアイトラッキング情報をニューラルネットワークに入力することなく、前記ニューラルネットワークを用いて前記推定用画像から前記推定用画像に対する注視点に関する情報を推定するステップ、を備え、
前記注視点に関する情報は、前記推定用画像内のピクセルが前記注視点である可能性を示す画像であって、
前記画像は、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
画像の生成方法。

【請求項27】

対象画像をニューラルネットワークに入力することによって評価スコアを生成するステップと、
前記対象画像に対するアイトラッキング情報を前記ニューラルネットワークに入力することなく、前記対象画像内のピクセルが注視点である可能性を示す画像を生成するステップと、
を備え、
生成された前記画像が、ヒートマップ、等高線図、及び、３次元グラフのうちの少なくとも一つである、
評価方法。

【請求項28】

複数のニューラルネットワークから、前記対象画像の視聴者の属性に基づき、前記ニューラルネットワークを選択するステップ
をさらに備える
請求項２７に記載の評価方法。

【請求項29】

前記対象画像の視聴者の属性が、性別、年齢、出身地、住所、職業、家族構成、年収、趣味、及び、状態のうちの少なくとも一つである、
請求項２８に記載の評価方法。

【請求項30】

前記対象画像の視聴者は、前記対象画像を見る人である、
請求項２８または２９に記載の評価方法。

【請求項31】

請求項２５から請求項３０のいずれかに記載の方法を少なくとも１台のコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデルに関する。

【背景技術】

【0002】

複数のカメラを用いてアイトラッキングを行い、アイトラッキングの対象者の注視点を推定する技術の開発が進められている。対象者の注視点を認識することができれば、対象者が注視している物体に関連する情報を提供するといったサービスを行うことができる。

【0003】

しかし、対象者の注視点を推定するには、対象者の特徴点の位置情報を収集するための複数の装置が必要となる。例えば、目を撮影するカメラ、頭部の向きを検出するカメラ、対象者の目と基準点との距離を測定する装置などが必要となる。そのため、当該装置が設置された環境でしか注視点を算出することができない。また、対象者が移動している場合、対象者が群衆にまぎれてしまう場合などでは、アイトラッキングによる推定精度が低下してしまう。

【先行技術文献】

【特許文献】

【0004】

【文献】特許６１８７１５５号公報

【非特許文献】

【0005】

【文献】Phillip Isola、外３名、"Image-to-Image Translation with Conditional Adversarial Networks"、[online]、平成29年11月22日、Berkeley AI Research (BAIR) Laboratory University of California、[平成30年3月1日検索]、インターネット（URL：https://arxiv.org/pdf/1611.07004.pdf）

【発明の概要】

【発明が解決しようとする課題】

【0006】

アイトラッキングが困難な環境下では、人の注視点を推定し、推定された注視点に基づくサービスを提供することが困難である。

【課題を解決するための手段】

【0007】

本発明の一実施形態である注視点推定処理装置は、注視点推定モデルを記憶する記憶部と、注視点推定部と、を備える。学習用画像と前記学習用画像に対する第１注視点に関する情報とに基づく学習により生成された注視点推定モデルを記憶する。前記注視点推定部は、前記注視点推定モデルを用いて、推定用画像から、前記推定用画像に対する第２注視点に関する情報を推定する。

【図面の簡単な説明】

【0008】

【図1】第１の実施形態に係る注視点推定処理システムの一例を示すブロック図。

【図2】学習用画像および検出注視点画像を説明する図。

【図3】第１の実施形態に係る注視点推定処理システムの処理の概略フローチャート。

【図4】第１の実施形態に係る注視点推定モデル生成装置の処理の概略フローチャート。

【図5】第１の実施形態に係る注視点推定処理装置の処理の概略フローチャート。

【図6】第２の実施形態に係る注視点推定処理システムの一例を示すブロック図。

【図7】第２の実施形態に係る注視点推定処理装置の処理の概略フローチャート。

【図8】第３の実施形態に係る注視点推定処理システムの一例を示すブロック図。

【図9】第３の実施形態に係る注視点推定処理装置の処理の概略フローチャート。

【図10】第４の実施形態に係る注視点推定処理システムの一例を示すブロック図。

【図11】注視点推定処理装置との会話について説明する図。

【図12】第４の実施形態に係る注視点推定処理装置の処理の概略フローチャート。

【図13】本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。

【発明を実施するための形態】

【0009】

以下、図面を参照しながら、本発明の実施形態について説明する。

【0010】

（第１の実施形態）
図１は、第１の実施形態に係る注視点推定処理システムの一例を示すブロック図である。図１に示された注視点推定処理システム１は、学習用画像表示装置１１と、注視点検出装置１２と、属性データ提供装置１３と、注視点推定モデル生成装置１４と、推定用データ提供装置１５と、注視点推定処理装置１６と、出力先装置１７と、を備える。注視点推定モデル生成装置１４は、学習用画像データ記憶部１４１と、検出注視点画像データ記憶部１４２と、属性データ記憶部１４３と、学習用画像解析部（オプティカルフロー算出部）１４４と、注視点推定モデル生成部（学習部）１４５と、を備える。注視点推定処理装置１６は、注視点推定モデル記憶部１６１と、推定用画像解析部（オプティカルフロー算出部）１６２と、注視点推定部１６３と、を備える。

【0011】

第１の実施形態に係る注視点推定処理システムは、推定用データ提供装置１５から画像が入力されると、当該画像を見た視聴者が示すと推定される当該画像内の注視点を推定し、当該注視点に関する情報を出力するというシステムである。具体的には、まず、注視点推定モデル生成装置１４が、ディープラーニングにより、注視点を推定するための注視点推定モデルを生成する。そして、注視点推定処理装置１６が、注視点推定モデルを用いて、推定用データ提供装置１５から入力された画像から、注視点を推定する。処理の詳細は、各装置および各構成要素とともに説明する。

【0012】

なお、上記では、注視点を推定するために必要と思われる主な装置および構成要素を記載しており、その他の装置および構成要素が含まれていてもよい。また、装置および構成要素が細分化されていてもよいし、一つにまとめられていてもよい。また、各装置は、通信ネットワークを介したデータの送受が可能であり、各装置の入力および出力に係る構成要素（つまり、入力部および出力部）は、省略されている。また、装置および構成要素に係る処理が省略される場合には、当該装置および構成要素も省略されてよい。

【0013】

例えば、一つの注視点推定モデル生成装置が、生成した注視点推定モデルを複数に複製して、複数の注視点推定処理装置１６に送信し、各注視点推定処理装置１６は、注視点推定モデルをソフトウェアの一部であるプログラムモジュールとして使用することが想定される。そのため、図１では、注視点推定モデル生成装置１４と、注視点推定処理装置１６と、が異なる装置として示されている。しかし、注視点推定モデル生成装置１４および注視点推定処理装置１６が、同一の装置であってもよい。また、例えば、注視点推定モデルへの入力情報として、オプティカルフローなどの画像解析結果を用いない場合は、学習用画像解析部１４４および推定用画像解析部１６２は省略されてよい。

【0014】

なお、本説明において、「学習」という用語は、機械学習を意味してもよいし、ディープラーニングを意味してもよい。また、「画像」という用語は、静止画および動画の両方を包括する概念であり、特に問題がなければ、静止画または動画に置き換えられて読まれてもよい。つまり、注視点推定処理システムにより用いられる画像は、動画でも静止画でもよい。また、装置内において、画像はデータとして扱われるが、画像データの表現形式は特に限られるものではない。また、位置およびその位置に対応する情報が示されたデータは画像データとして扱ってよい。ヒートマップなどのグラフも画像に含まれる。なお、画像の表示とともに音が提供されることもある。音のような画像とともに付随する情報により、注視点が変化することもあり得る。そこで、本説明における「画像」には、画像に付随する情報も含まれるものとする。

【0015】

各装置について説明する。

【0016】

学習用画像表示装置１１は、視聴者に対し、学習用画像を表示する装置である。学習用画像表示装置１１は、表示した学習用画像を注視点推定モデル生成装置１４に送信する。なお、学習用画像の視聴者を第１視聴者と記載する。第１視聴者は、複数人を想定するが、１人でもよい。

【0017】

注視点検出装置１２は、学習用画像を視聴中の第１視聴者に対して、アイトラッキングを行い、学習用画像上の第１視聴者の注視点を検出する。例えば、注視点を検出可能なヘッドマウントディスプレイが製品化されている。当該ヘッドマウントディスプレイを学習用画像表示装置１１および注視点検出装置１２として用いてもよい。

【0018】

注視点の検出後、注視点検出装置１２は、検出結果に基づき、学習用画像上の第１視聴者の注視点を示す画像を生成し、当該画像を注視点推定モデル生成装置１４に送信する。当該画像を、検出注視点画像と記載する。検出注視点画像は、学習用画像内の各ピクセルが注視点である可能性（スコア）を示す画像である。スコアは、確率分布などで示すことが可能である。検出注視点画像は、ヒートマップ、等高線図、３次元グラフといった画像となり得る。

【0019】

図２は、学習用画像および検出注視点画像を説明する図である。左上側と左下側にある画像は、学習用画像を示す。当該学習用画像は、ある商品のコマーシャルのための画像であることを想定している。左上側の画像には人が、左下側の画像には商品とその人が、表されている。右上側と右下側にある画像は、検出注視点画像を示す。図２の例の検出注視点画像では、各ピクセルが注視点である可能性を濃淡で表しており、濃いほうが注視点である可能性が高く、薄いほうが注視点である可能性が低いことを示す。右上側の検出注視点画像が左上側の学習用画像に対応し、右下側の検出注視点画像が左下側の学習用画像に対応している。これにより、人だけが表されている左上の学習用画像では、その人の顔が注視される可能性が高いことが分かる。また、商品と人が表されている左下の学習用画像では、商品が注視される可能性は高いが、人だけが表されている学習用画像における人の顔と比較して、注視される可能性が低いことが示されている。

【0020】

図２のような、学習用画像と、学習用画像に対応し学習用画像上の注視点を示す検出注視点画像と、が注視点推定モデル生成装置１４に送信される。なお、学習用画像と、検出注視点画像と、は、予め対応づけがされており、注視点推定モデル生成装置１４が学習用画像と検出注視点画像との組み合わせを認識できるものとする。例えば、検出注視点画像の識別子が学習用画像の識別子の一部を含むように、注視点検出装置１２が、検出注視点画像に識別子を付与すればよい。あるいは、学習用画像の表示時刻と、検出注視点画像の注視点の検出時刻と、に基づき、対応関係が把握されてもよい。

【0021】

なお、本実施形態は、検出注視点画像を注視点検出装置１２が生成しているが、注視点推定モデル生成装置１４が生成してもよい。例えば、注視点検出装置１２は、検出注視点画像ではなく、ピクセルごとのスコアが示されたデータといった注視点に関するデータを注視点推定モデル生成装置１４に送信し、注視点推定モデル生成装置１４が、その内部で当該データから検出注視点画像を生成してもよい。

【0022】

属性データ提供装置１３は、第１視聴者の属性を示すデータを注視点推定モデル生成装置１４に提供する。当該データを単に属性データと記載する。例えば、学習用画像表示装置１１が画像を表示する前に、第１視聴者が属性データ提供装置１３に対し第１視聴者の属性を入力する。そして、第１視聴者の属性も、学習用画像および検出注視点画像と同様に、これらと対応付けられる。用いられる属性は、特に限られず、適宜に定めてよい。

【0023】

学習用画像における第１視聴者の注視点は、第１視聴者が興味を示す対象上にあると想定されるが、当該対象は、第１視聴者の属性により異なる。例えば、性別、年齢、出身地、住所、職業、家族構成、年収、趣味、状態などが異なれば、興味を示す対象が異なる傾向がある。例えば、スポーツ選手の画像が表示されたときに、第１視聴者が興味を示すか否かは、第１視聴者の趣味に影響されやすい。また、第１視聴者の疲労度が高い場合、第１視聴者の注意力が散漫となり、画像を注視しないこともあり得る。ゆえに、第１視聴者の属性が、学習用画像および検出注視点画像と対応付けられたほうが好ましい。なお、必ずしも属性が対応付けられていなくともよい。

【0024】

また、第１視聴者の学習用画像を見る直前の行動、第１視聴者の学習用画像を見る場所、第１視聴者の学習用画像を見る時間帯なども、注視点に影響すると考えられる。これらの情報も属性として用いてもよい。例えば、第１視聴者に対するライフログが記録されている場合、注視点推定モデル生成装置１４は、ライフログ記録装置からライフログを受信し、受信されたライフログを属性データとして用いてよい。つまり、ライフログ記録装置は、属性データ提供装置１３に該当する。

【0025】

注視点推定モデル生成装置１４は、学習用画像および検出注視点画像を入力情報として学習を行い、注視点推定モデルを生成する。

【0026】

なお、属性も入力情報に含めてよい。あるいは、注視点推定モデルが、属性ごとに分けて、生成されてもよい。例えば、学習用画像と、男性の第１視聴者による検出注視点画像と、を用いて、男性用の注視点推定モデルを生成してもよい。

【0027】

注視点推定モデル生成装置１４が備える、学習用画像データ記憶部１４１、検出注視点画像データ記憶部１４２、および属性データ記憶部１４３はそれぞれ、学習用画像、検出注視点画像、および属性データを記憶する。

【0028】

学習用画像解析部（オプティカルフロー算出部）１４４は、学習用画像を解析することにより、学習用画像に関する情報を生成する。本実施形態では、当該解析により、時系列の学習用画像から、オプティカルフローが算出されることを想定する。なお、オプティカルフロー以外の情報を算出してもよい。

【0029】

オプティカルフローは、動画像などの時系列の画像における（フレーム間における）速度ベクトルの分布状態を示す。つまり、算出されたオプティカルフローは、学習用画像に表された物体の動きを示す。

【0030】

物体が急に表示された場合、表示された物体が移動した場合などでは、当該物体は注視される傾向にある。つまり、学習用画像に表された物体の動きは、注視点に影響を与える。そのため、オプティカルフローは、注視点推定モデルの生成の際の入力情報として用いられる。なお、本説明において、「物体」には、ヒトなどの生体も含まれる。

【0031】

オプティカルフローの算出方法としては、様々な方法が知られている。例えば、勾配法、Ｌｕｃａｓ-Ｋａｎａｄｅ法、マッチング、グラディエント、パーティクルフィルタといったものがある。本実施形態で用いられるオプティカルフローの算出方法は、特に限られるものではなく、公知手法から適宜に定めてよい。

【0032】

注視点推定モデル生成部１４５は、少なくとも、学習用画像および検出注視点画像に基づく学習を行うことにより、注視点推定モデルを生成する。なお、前述の通り、属性も学習の入力情報に含めてよい。注視点推定モデルは、与えられた画像から別の画像を生成するための、多層のニューラルネットワーク（ディープニューラルネットワーク：ＤＮＮ）のモデルである。学習用画像、オプティカルフローなどがニューラルネットワークの入力層に入力され、各中間層における演算を経ることにより、模擬画像が出力層から出力される。注視点推定モデル生成部１４５は、模擬画像が検出注視点画像に近づくように、各中間層における演算の重み付け係数（パラメータ）を更新する。模擬画像が検出注視点画像に近づいているかは、特徴ベースマッチング、領域バースマッチングといった既存のマッチング手法を用いて判断してもよい。こうして、学習済みのニューラルネットワークは、推定用画像から推定注視点画像を生成可能となる。

【0033】

ニューラルネットワークも様々な種類が提唱されているが、適宜に選んでよい。例えば、敵対生成ネットワーク（ＧＡＮ）を用いると、与えられた画像から別の画像を精度よく生成できることが知られている。

【0034】

敵対生成ネットワークを用いた場合、注視点推定モデルは、学習用画像から模擬画像を生成する画像生成モデルと、与えられた画像が模擬画像なのか検出注視点画像なのかを識別する識別モデルと、を含む。学習により、検出注視点画像であると識別モデルが識別してしまうような模擬画像を画像生成モデルが生成できるように、画像生成モデルのパラメータが更新されていく。その一方で、学習により、識別モデルが正しく模擬画像と識別できるように、識別モデルのパラメータも更新されていく。このようにして、画像生成モデルおよび識別モデルのパラメータの更新が繰り返されることにより、生成される模擬画像が、検出注視点画像に近づくこととなる。つまり、学習用画像から検出注視点画像を生成可能となる。

【0035】

また、敵対生成ネットワークに条件を加えた、条件付き敵対生成ネットワーク（ｃＧＡＮ）を用い、さらに中間層のネットワーク構造を、Ｅｎｃｏｄｅｒ-Ｄｅｃｏｒｄｅｒ構造からＵ－ｎｅｔ構造に変えることにより、画像生成の精度が高まることが知られている。このようなニューラルネットワークを用いることにより、入力された画像から、注視点を示す画像を生成するモデルを生成することが可能である。

【0036】

また、注視点推定モデルの出力は、必ずしも画像データとは限られない。例えば、注視点推定モデルのニューラルネットワークが第１および第２のニューラルネットワークに別れており、第１のニューラルネットワークにおいて画像データが出力され、第２のニューラルネットワークにおいて当該画像に対する処理が行われて、注視点推定モデルの出力として、注視点とされるピクセルまたは領域が出力されてもよい。また、第１および第２のニューラルネットワークによる機能を１つのニューラルネットワークで実現してもよい。

【0037】

推定用データ提供装置１５は、注視点推定処理装置に、注視点の推定の対象の画像を提供する装置である。当該画像を推定用画像と記載する。また、推定用画像を視聴すると想定された視聴者を、第２視聴者と記載して、学習用画像の第１視聴者と区別する。なお、第２視聴者が、第１視聴者と同じであってもよい。

【0038】

また、推定用データ提供装置１５は、推定用画像だけでなく、推定用画像を解析することにより得られたデータを、注視点推定処理装置１６に提供してもよい。当該データを推定用データと記載する。例えば、画像認識モデルを用いて、推定用画像に表された物体を認識し、推定用画像とともに当該物体の名称、輪郭などを提供してもよい。また、注視点推定モデルが属性ごとに生成されている場合は、第２視聴者の属性が推定用データに含まれていてもよい。また、以降、推定用画像も推定用データに含まれるものとして記載する。

【0039】

注視点推定処理装置１６は、注視点推定モデルを用いて、推定用画像から、第２視聴者の注視点に関する情報を推定する。

【0040】

注視点推定モデル記憶部１６１は、注視点推定モデルを属性ごとに分類して記憶する。これにより、注視点推定部１６３が、属性に応じた注視点推定モデルを抽出することができる。

【0041】

推定用画像解析部（オプティカルフロー算出部）１６２は、推定用画像を解析することにより、推定用画像に関する情報を生成する。本実施形態では、学習用画像解析部１４４と同様に、当該解析により、時系列の推定用画像から、推定用画像に対するオプティカルフローが算出されることを想定する。

【0042】

注視点推定部１６３は、注視点推定モデル記憶部１６１から注視点推定モデルを取得する。推定用データ提供装置１５から第２視聴者の属性を取得した場合は、複数の注視点推定モデルのうちから、当該属性に応じた注視点推定モデルを抽出する。そして、注視点推定モデルを用いて、推定用画像から、推定用画像内の各ピクセルが注視点である可能性を示す情報を生成する。当該情報は、各ピクセルが注視点であるか否かを示す情報であればよく、画像を示すデータでもよいし、当該画像に基づき加工が行われたデータでもよい。

【0043】

なお、ここでは、画像が生成されるとして説明を行う。当該画像を、推定注視点画像と記載する。注視点推定モデルの入力層に推定用画像が入力されると、推定モデルの各中間層において、学習済みのパラメータに基づく演算が行われ、注視点推定モデルの出力層から推定用注視点画像が出力される。推定用画像とオプティカルフローから、推定注視点画像を生成してもよい。

【0044】

推定注視点画像は、推定用画像内の各ピクセルが注視点である可能性（スコア）を示す画像である。推定注視点画像は、ヒートマップ、等高線図、３次元グラフなどのような、検出注視点画像と同じ表示形態の画像となる。

【0045】

生成された推定注視点画像を推定された注視点とみなしてもよいが、注視点推定部１６３は、推定注視点画像に基づき、推定注視点画像の一部を注視点として認定してもよい。注視点は、１つのピクセルとしてもよいし、複数のピクセルを含む領域としてもよい。例えば、推定注視点画像のスコアが最も高いピクセルを注視点としてもよい。あるいは、所定の単位円または単位矩形を用いて、単位円または単位矩形内のスコアの合計が最も高い領域を算出し、当該領域の中心のピクセルを注視点としてもよいし、当該領域を注視点としてもよい。あるいは、含まれる全てのピクセルのスコアが閾値以上である領域を注視点としてもよい。例えば、推定注視点画像がヒートマップで表されている場合に、最も濃い領域を注視点としてもよい。

【0046】

推定注視点画像、注視点といった注視点に関する情報は、指定された出力先装置１７に出力される。出力先装置１７は、特に限られるものではない。これにより、出力先装置１７において、推定された注視点に関する情報に基づき、様々な処理を実行することができる。また、注視点は、画像で表示されてもよいし、位置座標などで表示されてもよい。

【0047】

例えば、出力先装置１７が、モニタなどの画像表示装置であって、注視点推定処理装置１６による処理結果がモニタなどに表示されてもよい。あるいは、外部装置または外部装置を制御する制御装置に推定結果が送信されて、推定結果に基づき、当該外部装置が制御されてもよい。

【0048】

例えば、推定用データ提供装置１５および出力先装置１７が同一の撮影装置（例えばデジタルカメラ）であるとする。当該撮影装置が注視点推定処理装置１６に推定用画像を提供し、注視点が当該撮影装置に返される場合、当該撮影装置が、注視点を含む物体または注視点に含まれる物体（注視点が領域の場合）を精度よく撮影するために、設定を変更することが可能になる。例えば、フォーカスを合わせる、ズームアップするといった制御が可能になる。

【0049】

また、出力先装置１７が、ドローン、レスキューロボットといった移動体の制御装置である場合、移動体に搭載されたカメラからの画像を推定用画像として用いることが考えられる。そして、推定注視点画像を当該制御装置に送信することにより、制御装置が推定注視点画像に基づき、移動体の移動を制御することが可能となる。例えば、当該移動体を注視点のほうに移動させるといった制御を行うこともできる。これにより、人による操縦なしで、当該移動体を人が興味を持つほうへ移動させることもできる。

【0050】

次に、本実施形態の処理の流れについて説明する。図３は、第１の実施形態に係る注視点推定処理システム１の処理の概略フローチャートである。本フローチャートでは、属性データを用いる場合を記載する。

【0051】

属性データ提供装置１３が、学習用画像を視聴する第１視聴者の属性を取得する（Ｓ１０１）。学習用画像表示装置１１が学習用画像を第１視聴者に表示する（Ｓ１０２）。注視点検出装置１２が学習用画像上の第１視聴者の注視点を測定し、検出注視点画像を生成する（Ｓ１０３）。そして、第１視聴者の属性、学習用画像、および検出注視点画像の各データが各装置から送信され、注視点推定モデル生成装置１４がこれらのデータを受信する（Ｓ１０４）。

【0052】

注視点推定モデル生成装置１４は、これらの受信データから注視点推定モデルを生成する（Ｓ１０５）。生成された注視点推定モデルは、注視点推定処理装置１６に送られる。その後、推定用画像、第２視聴者の属性といった推定用データが、推定用データ提供装置１５から送られ、注視点推定処理装置１６が当該推定用データを受信する（Ｓ１０６）。注視点推定処理装置１６は、第２視聴者の属性に応じた注視点推定モデルを用いて、推定用画像から注視点を推定する（Ｓ１０７）。そして、注視点に関する情報が出力先装置１７に送信されて、出力先装置１７が注視点に関する情報を用いて処理を実行する（Ｓ１０８）。このようにして、推定された注視点に基づくサービスが提供される。

【0053】

次に、注視点推定モデル生成装置１４の処理の流れについて説明する。図４は、第１の実施形態に係る注視点推定モデル生成装置１４の処理の概略フローチャートである。本フローチャートでは、敵対生成ネットワークを用いる場合を記載する。

【0054】

学習用画像解析部１４４が、時系列の推定用画像からオプティカルフローを算出する（Ｓ２０１）。一方、注視点推定モデル生成部１４５は、属性データと対応する注視点推定モデルを選択する（Ｓ２０２）。注視点推定モデル生成部１４５が、選択された注視点推定モデルを用いて、学習用画像および対応するオプティカルフローに基づき、模擬画像を生成する（Ｓ２０３）。注視点推定モデル生成部１４５が、模擬画像を検出注視点画像として認識可能か判定する（Ｓ２０４）。注視点推定モデル生成部１４５が判定結果に基づき、注視点推定モデルのパラメータを更新する（Ｓ２０５）。これらの処理が何度も行われることにより、注視点推定モデルのパラメータが改善されていき、注視点推定モデルの精度が向上する。

【0055】

次に、注視点推定処理装置１６の処理の流れについて説明する。図５は、第１の実施形態に係る注視点推定処理装置１６の処理の概略フローチャートである。

【0056】

推定用画像解析部１６２が、時系列の推定用画像からオプティカルフローを算出する（Ｓ３０１）。一方、注視点推定部１６３は、注視点推定モデル記憶部１６１に記憶されている複数の注視点推定モデルから、属性に応じた注視点推定モデルを選択する（Ｓ３０２）。注視点推定部１６３が、選択された注視点推定モデルを用いて、推定用画像および対応するオプティカルフローに基づき、推定注視点画像を生成する（Ｓ３０３）。さらに、注視点推定部１６３が推定注視点画像に基づき、注視点を認定する（Ｓ３０４）。こうして、注視点に関する情報が生成される。

【0057】

なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。例えば、オプティカルフローを用いない場合は、オプティカルフローの算出は省略される。また、上記では、説明の便宜上、順番に処理が行われたが、オプティカルフローの算出と、注視点推定モデルの選択と、は並行に処理されてもよい。以降のフローチャートについても同様である。

【0058】

以上のように、本実施形態によれば、画像に基づき、注視点を推定することができる。アイトラッキングを行う場合は、視聴者を撮影するためのカメラなどの装置が必要であり、視聴者と基準点との相対的位置関係を認識し続けなければならないといった欠点があったが、本実施形態は、これらの欠点を有しない。

【0059】

また、第１視聴者の属性に応じた注視点推定モデルを生成することもでき、第２視聴者の属性に応じた注視点推定モデルを用いて注視点推定を行うことにより、注視点の推定の精度が向上する。

【0060】

また、オプティカルフローを考慮した注視点推定モデルを生成することもでき、画像内の物体の動きに対応した注視点推定が行われるため、注視点の推定の精度が向上する。

【0061】

（第２実施形態）
図６は、第２の実施形態に係る注視点推定処理システムの一例を示すブロック図である。図６に示された注視点推定処理システム１では、注視点推定処理装置１６が、画像加工部１６４をさらに備える。なお、第１の実施形態と同様な点は、説明を省略する。

【0062】

画像加工部１６４は、推定用画像内の注視点に基づき、推定用画像を加工する。そして、加工された推定用画像は、出力先装置１７に出力される。つまり、本実施形態の注視点推定処理装置１６は、画像加工装置でもあり、出力先装置１７は画像表示装置を想定する。また、推定用画像は、出力先装置１７にて表示される予定の画像である。

【0063】

推定用画像の加工は、予め定められた規則に基づき、行われればよい。当該規則は、推定用データ提供装置１５から提供されてもよいし、予め注視点推定処理装置１６内に設定されていてもよい。

【0064】

加工規則は適宜に定めてよい。例えば、推定用データ提供装置１５から、推定用画像内の物体の輪郭を示す情報を受け取り、推定用画像内の注視点に基づき、推定用画像内の物体のいずれかを、精細にレンダリングするといった加工を行ってもよい。

【0065】

例えば、ロボットなどの移動体からの送信画像を見ながら、人が遠隔通信にて当該移動体を操作する場合に、送信画像を推定用画像として用いて注視点を検出した上で、当該送信画像を注視点に基づき加工し、操縦士に表示することが想定される。当該想定においては、注視点から離れている物体は、操縦士が認識していない可能性があり、移動体が当該物体にぶつかる恐れがある。ゆえに、画像加工部１６４が、注視点から離れている物体を強調するように、送信画像を加工するといったことが考えられる。このような処理を行うことにより、運転、操作などの補助を行うことができる。

【0066】

また、推定用画像の注視点の周辺の画像を、推定用画像に対応する属性に応じた広告に、変更してもよい。当該広告は、推定用データに含まれていればよい。また、推定用データに複数の広告が含まれている場合に、画像加工部１６４が第２視聴者の属性に応じた広告を抽出してもよい。これにより、推定用画像を提供する業者、広告業者などのニーズに応えることができる。

【0067】

また、第２視聴者の注視点に応じて、これから表示する画像の一部または全体を変更してもよい。例えば、推定用画像に物体Ａと物体Ｂとが表示されている場合に、画像加工部１６４が、注視点に基づき、第２視聴者が物体Ａのほうを注視すると認識したとする。その場合において、次に加工する推定用画像として、物体Ａに係る推定用画像と、物体Ｂに係る推定用画像と、を受け取ったときは、画像加工部１６４は、物体Ａに係る推定用画像を用いる。あるいは、その場合において、画像加工部１６４は、次に加工する推定用画像から物体Ｂを消去する加工を行う。こうして、推定用画像を第２視聴者用に特化することにより、第２視聴者の画像に対する満足度、集中度などが向上する。

【0068】

図７は、第２の実施形態に係る注視点推定処理装置１６の処理の概略フローチャートである。本実施形態の注視点推定処理装置１６の処理の流れは、Ｓ３０１からＳ３０４までは、図５に示したフローチャートと同じである。そして、注視点推定部１６３が注視点を認定した後（Ｓ３０４）に、画像加工部１６４が推定注視点画像または注視点に基づき、推定用画像を加工する（Ｓ４０１）。これにより、出力先装置１７が加工された推定用画像を用いて処理を実行することができる。

【0069】

以上のように、本実施形態によれば、注視点推定処理装置１６が注視点に基づき推定用画像の加工まで行う。これにより、推定用画像の第２視聴者が注視する物体などに応じて、推定用画像を変更することができ、第２視聴者または提供者のニーズに応えた画像を提供することができる。

【0070】

（第３実施形態）
図８は、第３の実施形態に係る注視点推定処理システムの一例を示すブロック図である。図８に示された注視点推定処理システム１では、注視点推定処理装置１６が、画像評価部１６５をさらに備える。なお、第１の実施形態と同様な点は、説明を省略する。

【0071】

画像評価部１６５は、推定用画像内の注視点に基づき、推定用画像を評価する。そして、画像評価部１６５による評価が、出力先装置１７に出力される。つまり、本実施形態の注視点推定処理装置１６は、画像評価装置でもある。

【0072】

推定用画像の評価は、所定の評価規則に基づき、行われればよい。評価規則は、推定用データ提供装置１５から提供されてもよいし、予め注視点推定処理装置１６に設定登録されていてもよい。

【0073】

評価規則内容は適宜に定めてよい。例えば、推定用データ提供装置１５から、注視点として好ましい領域が指定されて、当該領域と、推定された注視点との差分により、評価されてもよい。また、評価は、スコアで表されてもよいし、優、良、可、不可といった所定の分類項目に分類されてもよい。

【0074】

図９は、第３の実施形態に係る注視点推定処理装置１６の処理の概略フローチャートである。本実施形態の注視点推定処理装置１６の処理の流れは、Ｓ３０１からＳ３０４までは、図５に示したフローチャートと同じである。そして、そして、注視点推定部１６３が注視点を認定した後（Ｓ３０４）に、画像評価部１６５が推定注視点画像または注視点に基づき、推定用画像を評価する（Ｓ５０１）。これにより、出力先装置１７が推定用画像の評価を用いて処理を実行することができる。

【0075】

以上のように、本実施形態によれば、注視点推定処理装置１６が注視点に基づき推定用画像の評価まで行う。これにより、推定用画像の提供者は、推定用画像を第２視聴者に見せる前に、推定用画像の客観的な評価を得ることができ、推定用画像の改善を行うことができる。

【0076】

（第４実施形態）
図１０は、第４の実施形態に係る注視点推定処理システムの一例を示すブロック図である。図１０に示された注視点推定処理システム１では、音データ提供装置１８をさらに備える。また、注視点推定処理装置１６が、注視物導出部１６６と、返答生成部１６７と、をさらに備える。なお、第１の実施形態と同様な点は、説明を省略する。

【0077】

本実施形態では、画像と音声の両方を利用するマルチモーダル機能を有するシステムを想定し、推定された注視点に関する情報が、装置と人との会話に応用される。ここでは、第２視聴者と会話する装置が、推定された注視点に関する情報を利用して、第２視聴者が示唆する物体を認識することを想定する。

【0078】

人の指示は、不明確になることが多い。例えば「あれを取ってください」というような指示があるが、「あれ」が意味する物体が何であるかを他者が理解することは困難である。しかし、このような指示代名詞を用いた指示を出す場合、指示者は「あれ」が意味する物体を注視している可能性が高い。ゆえに、本実施形態では、注視点に関する情報を、特定が困難な語句に対する補助情報として用いることにより、ユーザが伝えようとする物体を特定する。

【0079】

音データ提供装置１８は、マイクなどによって拾われた音データ化して、注視点推定処理装置１６に送信する装置である。当該データは、例えば、第２視聴者の音声をテキスト化したものでもよい。あるいは、音データ提供装置１８は、マイクに拾われた音が何の音であることを判定し、判定された結果が注視点推定処理装置１６に送信されてもよい。音のデータ化は、汎用の音認識ソフトにより行うことが可能である。

【0080】

なお、本実施形態では、音データに含まれている、「この」、「あの」といった指示語と、当該指示語に対応する語句と、を必要とする。ゆえに。音データ提供装置１８は、音データを全て送信してもよいし、必要とされる語句に関するデータだけを送信してもよい。なお、当該指示語に対応する語句は、単に、指示語の後に続く語句としてもよい。例えば、「あのレストランについて教えて」という音データが得られた場合、音データ提供装置１８は、少なくとも、「あの」および「レストラン」を、注視点推定処理装置１６に送信する。なお、音データが全て送信される場合は、注視点推定処理装置１６が、予め登録されたリストに含まれる指示語と、マッチングを行うことにより、指示語と、指示語に対応する語句を抽出すればよい。

【0081】

注視点推定処理装置１６の注視物導出部１６６は、推定用画像内の注視点に基づき、第２視聴者が注視すると推定される物体を導出する。当該物体を注視物と記載する。注視点を含む物体を注視物としてもよい。注視点が領域である場合は、当該領域内の物体のいずれかにしてもよい。例えば、当該領域内の物体のうち、最も大きく表示されている物体としてもよい。

【0082】

注視物導出部１６６は、注視物の名称を導出する。注視物の名称は、推定用データから導出すればよい。あるいは、注視物導出部１６６が、予め生成済みの画像認識モデルを用いて、当該物体の名称を推定してもよい。

【0083】

また、注視物導出部１６６は、注視物の位置を示す語句を導出する。位置を示す語句は、ピクセルの座標値などではなく、日常会話においてよく用いられる語句にする方が好ましい。例えば、注視点のピクセルが、推定用画像の中心座標を基準とした四象限の第１象限にある場合、ユーザ認識推定部は、第１象限に予め割り当てられていた語句「右上」を導出する。割り当て語句は、予め記憶された、位置および割り当て語句の対応関係を示すリストから導出されればよい。

【0084】

返答生成部１６７は、指示語と対応する語句と、注視物の名称と、が一致しているかを判定する。一致している場合は、指示語と対応する語句が、注視物を指しているとして、注視物に関する返答を、音データ、推定用データに含まれる注視物の情報などを用いて、生成する。

【0085】

図１１は、注視点推定処理装置１６との会話について説明する図である。図１１の例では、第２視聴者が車両を運転中の運転手であることを想定している。図１１（Ａ）は、運転手が見ている画像が示されている。当該画像は、車両に搭載されたカメラから取得される。そして、当該画像が推定用画像として、注視点推定処理装置１６に送信されているとする。図１１（Ｂ）は、注視点推定部１６３が生成した推定注視点画像を示す図である。図１１（Ｂ）の左側に、黒の濃度が高い領域が存在する。当該領域を注視点とすると、注視物導出部１６６は、例えば、「注視物」が「レストラン」であり、「注視物の位置」が「左側」であると導出して、返答生成部１６７に出力する。

【0086】

返答生成部１６７に、上記の注視点に関する情報が入力されているときに、「あのレストランについて教えて」という音データが返答生成部１６７に入力されたとする。返答生成部１６７は、当該音データに注視物の名称「レストラン」が含まれていることを認識し、返信を生成する。例えば、音データに含まれる「あのレストラン」と、注視点に関する情報に含まれる「左側」と、を用いて、「あのレストランは左側のレストランですか」という質問文を生成する。

【0087】

あるいは、推定用データ提供装置１５から提供された、推定用画像内の物体の情報を用いて、回答文を生成してもよい。例えば、推定用データに、前述のレストランの分類区分（例えば、和食、イタリアン、ファストフードなど）、企業名、営業時間などが含まれていることが考えられる。これらの情報を用いて、「左側のレストランは、和食レストランです」という回答を生成することもできる。

【0088】

図１１（Ａ）には、右側にもレストランが示されている。注視点に関する情報がなければ、第２視聴者が言う「あのレストラン」がどちらのレストランを示唆しているかを認識することはできない。そのため、どのレストランかを確認するための質問文を生成することになるが、「あのレストランは左側のレストランですか」といった同意だけを求める質問文は、第２視聴者に与える不満は少ないと想定される。例えば、第２視聴者に対して「どちらのレストランですか」と質問すると、第２視聴者がレストランを説明することになるため、第２視聴者の不満が増加する。また、「左側のレストランですか、右側のレストランですか」と質問することも考えられるが、第２視聴者が右側のレストランを認識していないと、第２視聴者が反応できない恐れもある。また、根拠なく「あのレストランは左側のレストランですか」と聞いた場合には、注視していないほうを尋ねる可能性が本実施形態よりも高い。つまり、本実施形態よりも、第２視聴者の不満が増加する可能性が高い。

【0089】

したがって、音データに含まれる名称に係る物体が、第２視聴者が見ている画像内に複数ある場合にも、同意だけを求める質問文、または、回答文を生成できる本実施形態は、第２視聴者に与える不満を抑え、円滑な会話を可能にする。

【0090】

返答生成部１６７は生成した返答データを出力先装置１７に送信する。本実施形態では、出力先装置１７が音声生成装置であることを想定する。出力先装置１７は返答データを音声に変換して、スピーカ等で出力する。これにより、第２視聴者との会話が成立する。音声生成装置は、テキストから音声を合成する汎用ソフトを用いて実現することが可能である。

【0091】

図１２は、第４の実施形態に係る注視点推定処理装置１６の処理の概略フローチャートである。注視点の推定に係るＳ３０１からＳ３０４までの処理は、これまでの実施形態と同じであり、ここではＳ３０４の後の処理を説明する。

【0092】

注視物導出部１６６が推定された注視点に基づき、注視物の名称を導出する（Ｓ６０１）。注視物導出部１６６が、注視物の位置を示す語句を導出する（Ｓ６０２）。返答生成部１６７が、注視物導出部１６６から注視物の名称および位置を、音データ提供装置１８から音データを取得する（Ｓ６０３）。指示語と対応する語句が、物体の名称と一致している場合（Ｓ６０４のＹＥＳ）に、返答生成部１６７が物体に係る返答を生成する（Ｓ６０５）。こうして、返答が生成されて、音声生成装置に送られることにより、第２視聴者との会話が成立する。

【0093】

なお、上記では、注視物の導出と、返答の生成と、を注視点推定処理装置１６が行うとしたが、注視点推定処理装置１６が注視物の導出までを行い、導出された注視物を出力先装置１７に送信し、返答の生成は、出力先装置１７が行ってもよい。

【0094】

なお、上記では、装置と人との会話が、音声により行われることを想定した。しかし、耳が不自由な人、言語が異なる人に対しては、音声ではなく、手話、筆談（テキスト）などにより会話を行う場合もあり得る。そのような場合においては、音データ提供装置１８の代わりに、カメラにより撮影されたジェスチャーを解読するジェスチャー解読装置、またはカメラにより撮影された文字を解読する光学文字認識装置（ＯＣＲ）を用いる。そして、音データの代わりに、これらの装置が解読した内容を示すデータが、注視点推定処理装置１６に送信されればよい。これにより、注視点推定処理装置１６が返答を生成する処理は上記と同様に行うことができる。つまり、返答生成部１６７への入力データは、音データに限られるものではない。なお、返答の送信先は、画像表示装置でもよいし、音声生成装置でもよい。返答内容を異なる言語に置き換えることは、返答の送信先で行われればよい。

【0095】

以上のように、本実施形態によれば、ロボットなどの装置に音声で指示を出すような場合において、注視点に関する情報が補助情報として用いられる。これにより、指示代名詞などが含まれ特定が困難な語句に対しても、ユーザが伝えようとする物体を特定して返答することができる。

【0096】

なお、上記の各実施形態は、組み合わせられてもよい。例えば、第２の実施形態の画像加工部１６４と、第３の実施形態の画像評価部１６５と、の両方を備える注視点推定処理装置に係る実施形態も存在する。画像評価部１６５による評価に基づき、画像加工部１６４が加工内容を変化させてもよい。

【0097】

なお、上記の実施形態では、注視点推定処理装置１６は、注視点に関する情報を各ピクセルに対するスコアで表現していたが、注視点に関する情報を各ピクセルの座標で表現してもよい。例えば、注視点が存在する領域をバウンディングボックスで表現する場合、注視点推定部１６３が、矩形に対応する４つの座標に関する情報を出力するように構成してもよい。この場合、注視点推定モデル生成装置１４では、注視点に係るバウンディングボックスの座標に関する情報を出力するように注視点推定モデルを学習する。また、注視点に関する情報として、矩形領域とその領域に対応するスコアの情報とを出力するようにしてもよい。

【0098】

なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：集積回路）などの専用の電子回路（すなわちハードウェア）により実現されてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア（プログラム）を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載された中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、画像処理装置（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサ（処理回路）にプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。言い換えると、当該プログラムの実行により、プロセッサ（処理回路）が、注視点推定モデル生成装置１４、注視点推定処理装置１６などの各処理を実行できるように構成される。

【0099】

例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。

【0100】

図１３は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。注視点推定モデル生成装置１４および注視点推定処理装置１６は、プロセッサ２１と、主記憶装置２２と、補助記憶装置２３と、ネットワークインタフェース２４と、デバイスインタフェース２５と、を備え、これらがバス２６を介して接続されたコンピュータ装置２として実現できる。

【0101】

なお、図１３のコンピュータ装置２は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１３では、１台のコンピュータ装置２が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。

【0102】

プロセッサ２１は、コンピュータの制御装置および演算装置を含む電子回路（処理回路）である。プロセッサ２１は、コンピュータ装置２の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ２１は、コンピュータ装置２のＯＳ（オペレーティングシステム）や、アプリケーションなどを実行することにより、コンピュータ装置２を構成する各構成要素を制御する。プロセッサ２１は、上記の処理を行うことができれば特に限られるものではない。注視点推定モデル生成装置１４および注視点推定処理装置１６内の画像解析部（１４４および１６２）、注視点推定モデル生成部１４５、注視点推定部１６３などは、プロセッサ２１により実現される。また、プロセッサ２１は、注視点推定モデルを読み込むと、推定用画像から推定注視点画像などを出力するように機能する。

【0103】

主記憶装置２２は、プロセッサ２１が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置２２に記憶された情報がプロセッサ２１により直接読み出される。補助記憶装置２３は、主記憶装置２２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。注視点推定モデル生成装置１４および注視点推定処理装置１６内の各記憶部（１４１、１４２、１４３、１６１）は、主記憶装置２２または補助記憶装置２３により実現されてもよい。

【0104】

ネットワークインタフェース２４は、無線または有線により、通信ネットワーク３に接続するためのインタフェースである。ネットワークインタフェース２４は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース２４より、通信ネットワーク３を介して、コンピュータ装置２と外部装置４Ａとを接続することができる。

【0105】

デバイスインタフェース２５は、外部装置４Ｂと直接接続するＵＳＢなどのインタフェースである。つまり、コンピュータ装置２と外部装置４との接続は、ネットワークを介してでもよいし、直接でもよい。

【0106】

なお、外部装置４（４Ａおよび４Ｂ）は、注視点推定モデル生成装置１４および注視点推定処理装置１６以外の各装置でもよいし、外部記憶媒体でもよいし、ストレージ装置でもよい。

【0107】

なお、外部装置４は入力装置でもよい。入力装置は、キーボード、マウス、タッチパネルなどのデバイスを備え、これらのデバイスにより入力された情報をコンピュータ装置２に与える。入力装置からの信号はプロセッサ２１に出力される。

【0108】

上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0109】

１：注視点推定処理システム、１１：学習用画像表示装置、１２：注視点検出装置、１３：属性データ提供装置、１４：注視点推定モデル生成装置、１４１：学習用画像データ記憶部、１４２：検出注視点画像データ記憶部、１４３：属性データ記憶部、１４４：学習用画像解析部（オプティカルフロー算出部）、１４５：注視点推定モデル生成部（学習部）、１５:推定用データ提供装置、１６：注視点推定処理装置、１６１：注視点推定モデル記憶部、１６２：推定用画像解析部（オプティカルフロー算出部）、１６３：注視点推定部、１６４：画像加工部、１６５：画像評価部、１６６：注視物導出部、１６７：返答生成部、１７：出力先装置、１８：音データ提供装置、２：コンピュータ装置、２１：プロセッサ、２２：主記憶装置、２３：補助記憶装置、２４：ネットワークインタフェース、２５：デバイスインタフェース、２６：バス、３：通信ネットワーク、４（４Ａ、４Ｂ）：外部装置

【図1】