特許7578955 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特許7578955学習装置、推測装置、学習方法、推測方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-29

(45)【発行日】2024-11-07

(54)【発明の名称】学習装置、推測装置、学習方法、推測方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241030BHJP

A61B 3/113 20060101ALI20241030BHJP

G06V 20/56 20220101ALI20241030BHJP

【ＦＩ】

G06T7/00 350B

A61B3/113

G06V20/56

【請求項の数】 10

(21)【出願番号】P 2021083943

(22)【出願日】2021-05-18

(65)【公開番号】P2022177579

(43)【公開日】2022-12-01

【審査請求日】2023-09-26

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】入江豪

(72)【発明者】

【氏名】オンカークリシュナ

(72)【発明者】

【氏名】相澤清晴

【審査官】岡本俊威

(56)【参考文献】

【文献】特開２０２１－０６４０２５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ａ６１Ｂ３／１１３

Ｇ０６Ｖ２０／５６

(57)【特許請求の範囲】

【請求項1】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、
を備え、
前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、
前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する、
学習装置。

【請求項2】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、
を備える推測装置。

【請求項3】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、
を有し、
前記数理モデルは、前記画像データと入力されるタイミングに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、
前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新される、
学習方法。

【請求項4】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御ステップ、
を有する推測方法。

【請求項5】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、
を備え、
前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新し、
前記数理モデルは、長短期記憶ネットワークを用いて表現され、
前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は０では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、
学習装置。

【請求項6】

前記制御部は、数理モデルを強化学習の方法で更新する、
請求項５に記載の学習装置。

【請求項7】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新し、前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は０では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、
を備える推測装置。

【請求項8】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、
を有し、
前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新され、
前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は０では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、
学習方法。

【請求項9】

画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新し、前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は０では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御ステップ、
を有する推測方法。

【請求項10】

請求項１、５又は６のいずれか一項に記載の学習装置と請求項２又は７のいずれか一項に記載の推測装置とのいずれか１つとしてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、推測装置、学習方法、推測方法及びプログラムに関する。

【背景技術】

【0002】

情景等の空間の内の領域のうち人間が目を向けやすい領域である注視領域（Focus of Attention: ＦｏＡ）を予測する技術が開発されている。代表的なものに、画像又は映像を分析することにより、その画像又は映像の中の注視領域を検出する顕著性推定（Saliency Estimation）と呼ばれる技術がある。ロボットビジョンやコンピュータビジョンの技術領域で長年研究され、物体認識や画像又は映像編集、画像符号化、画質評価、自律運転、オンラインマーケティングなど、多岐にわたる分野で利用されてきた。

【0003】

ＡＩ（artificial intelligence）技術の社会実装が進められているが、人間と同じように実世界を知覚又は認知する機能はＡＩ技術が備えるべき基本的な要件の一つであり、注視領域を予測する技術はその根幹をなす技術の一つである。特に、人間と同じように実世界で活動するＡＩロボットやＡＩエージェントについては、備え付けられたカメラによる一人称視点での画像又は映像を入力として外界を知覚することが想定されている。そのため、一人称視点での画像又は映像を対象とした注視領域を予測する技術への期待は高い。以降、説明の簡単のため画像を例に注視領域を予測する技術を説明するが、映像は複数の画像の集合であるため、以下の説明は画像に代えて映像についても成り立つ。

【0004】

最近の深層学習の発展と共に、一人称視点の画像に基づく顕著性推定にも大きな進展がもたらされ、優れた予測性能が達成された。例えば、非特許文献１は、自動運転シナリオにおける一人称視点の画像中の注視領域を高精度に推定可能な３次元畳み込みネットワークに基づくモデルを提案した。

【0005】

また、非特許文献２は、年齢による注視領域の違いに着目し、画像変換の技術を利用することで、成人による注視領域の推定の結果を高齢者による注視領域の推定の結果へと変換する技術を提案した。この技術も、自動運転シナリオや歩行者視点での一人称視点画像を対象とし、高精度な顕著性予測を可能とする。

【先行技術文献】

【非特許文献】

【0006】

【文献】Andrea Palazzi, Davide Abati, Simone Calderara, Francesco Solera, and Rita Cucchiara, “Predicting the drivers focus of attention: the dr(eye)ve project”, IEEE transactions on pattern analysis and machine intelligence, 2018.

【文献】Onkar Krishna, Go Irie, Takahito Kawanishi, Kunio Kashino, and Kiyoharu Aizawa, “Translating Adult’s Focus of Attention to Elderly’s”, In Proceedings of International Conference on Pattern Recognition, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、これらの技術は、あくまで画像中に写る注視領域を推定するように設計され、あくまで画像中に写る注視領域を推定する技術である。実世界で活動する人間は、必ずしも情景のなかの観測可能な領域に注意を向けて行動しているとは限らない。人間は、時には後方や、あるいは壁の向こう側など、不可視ながらも注意を向けるべき領域を予測又は判断し、予備動作をとったり、危険回避をするような行動を起こす。

【0008】

そこで、人間と共に実世界で活動するＡＩシステムにも、人間と同様の機能が期待される。具体的には、ＡＩシステムが、画像に写らない領域中の注視領域を予測する機能を備えることが期待される。

【0009】

しかしながら、既存の画像顕著性の推定の技術は、いずれも画像に写る領域に限って顕著な領域を推定する技術として実現されており、画像に写らない領域ついては注視領域を予測する技術では無かった。上述したように、このことは映像についても同様である。

【0010】

上記事情に鑑み、本発明は、空間内の領域であって画像又は映像に写らない領域中の注視領域を予測する技術の提供を目的としている。

【課題を解決するための手段】

【0011】

【0012】

本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、を備える推測装置である。

【0013】

本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、を有し、前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新される、学習方法である。

【0014】

【0015】

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0016】

本発明により、空間内の領域であって画像又は映像に写らない領域中の注視領域を予測することが可能となる。

【図面の簡単な説明】

【0017】

【図1】実施形態の予測システム１００の構成の一例を示す図。

【図2】実施形態における予測結果表現形式の第１の例を説明する説明図。

【図3】実施形態における予測結果表現形式の第２の例を説明する説明図。

【図4】実施形態における予測結果表現形式の第３の例を説明する説明図。

【図5】実施形態における予測結果表現形式の第４の例を説明する説明図。

【図6】実施形態における予測器１０の構成の一例を示す図。

【図7】実施形態における予測器１０が実行する処理の流れの一例を示すフローチャート。

【図8】実施形態における強化予測処理の流れの一例を示すフローチャート。

【図9】実施形態における報酬取得処理の流れの一例を示すフローチャート。

【図10】実施形態における学習装置１のハードウェア構成の一例を示す図。

【図11】実施形態における制御部１１の機能構成の一例を示す図。

【図12】実施形態における予測装置２のハードウェア構成の一例を示す図。

【図13】実施形態における制御部２１の機能構成の一例を示す図。

【発明を実施するための形態】

【0018】

（実施形態）
図１は、実施形態の予測システム１００の構成の一例を示す図である。予測システム１００は、予測システム１００は、学習装置１及び予測装置２を備える。以下、説明の簡単のため学習装置１及び予測装置２に入力されるデータが画像データである場合を例に、予測システム１００を説明する。しかしながら、映像は画像の時系列であるため、学習装置１及び予測装置２に入力されるデータは、画像データに代えて映像のデータである映像データであってもよい。以下、説明の簡単のため学習装置１及び予測装置２に画像データが入力される場合を例に予測システム１００を説明するが、学習装置１及び予測装置２には画像データに代えて映像データが入力されてもよい。

【0019】

学習装置１は、画像データの入力を受け付ける。学習装置１は、入力された画像データに基づき、予測モデルを機械学習の方法により更新する。予測モデルは、入力された画像データと、入力された画像データが示す画像には写らない空間内の注視領域（Focus of Attention: ＦｏＡ）との関係を示す数理モデルである。画像データが示す画像には写らない空間内の注視領域とは、言い換えれば、画像データの画像が示す空間の外側の空間における注視領域である。注視領域は、空間の内の領域（以下「空間内領域」という。）のうち人間が目を向けやすい領域である。

【0020】

予測装置２は、画像データの入力を受け付ける。予測装置２は、学習装置１が取得した学習済みの予測モデルを用い、入力された画像データに基づいて、注視領域を予測する。予測装置２は、予測器制御部２１１を備える。予測器制御部２１１の詳細は後述するが、予測器制御部２１１は、学習済みの予測モデルを表現する回路の動作を制御する。

【0021】

なお学習済みとは、学習が所定の終了条件（以下「学習終了条件」という。）が満たされるまで実行されたことを意味する。そのため、学習済みの数理モデルとは、学習終了条件が満たされた時点における数理モデルである。学習終了条件は、例えば所定の回数の学習が行われたという条件である、学習終了条件は、例えば学習による学習モデルの変化が所定の変化より小さい、という条件であってもよい。

【0022】

なお、数理モデルとは、実行される条件と順番とが予め定められた１又は複数の処理を含む集合である。数理モデルが含む処理は、例えば予め定められた関数に値を入力することで関数の値を取得する処理である。

【0023】

なお、学習を行うとは数理モデルを更新することを意味する。数理モデルの更新とは、数理モデルを表現する回路のパラメータの値が更新されることを意味する。数理モデルが含む少なくとも一部の処理は、例えばニューラルネットワークによって表現される。なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって数理モデルの少なくとも一部の処理を表現する回路の一例である。学習によって数理モデルが更新されるとは、数理モデルを表現する回路のパラメータの値が更新されることを意味する。数理モデルを表現する回路の一部がニューラルネットワークである場合、ニューラルネットワークのパラメータは、予め定義済みの量に基づいて好適に調整される。予め定義済みの量は、例えば予め定義済みの目的関数の値（すなわち損失）である。

【0024】

＜予測の結果の表現の形式の例＞
学習済み予測モデル又は予測モデルによる予測の結果を表現する表現の形式（以下「予測結果表現形式」という。）について説明する。

【0025】

図２は、実施形態における予測結果表現形式の第１の例を説明する説明図である。図２は、予測の結果の注視領域を、注意を引きやすい点（以下「注視点」という。）の位置として表現する予測結果表現形式の一例である。図２には、高さ２Ｈ＋１画素、幅２Ｗ＋１画素の画像が示されている。図２において、例えば画像の中心の画素を(０，０)と表現すると、画像中の任意の画素の位置（すなわち座標）は、水平位置ｘ及び垂直位置ｙを用いて（ｘ、ｙ）と表現される。

【0026】

図２の予測結果表現形式は、図２の画像に写る空間の外側に注視点が存在するような場合であっても、注視点を座標によって表現可能である。すなわち、注視点のｘ座標が－Ｗ＜ｘ＜Ｗの範囲外にあり、ｙ座標が－Ｈ＜ｙ＜Ｈの範囲外にある場合であっても、図２の予測結果表現形式は、注視点を座標によって表現可能である。ｘ軸とｙ軸とは互いに直交する予め定められた座標軸である。

【0027】

図２は、注視点の一例として、中心から画素数にして２Ｗだけ右に離れた位置（２Ｗ、０）に位置する点を示す。中心から２Ｗだけ右に離れているため、位置（２Ｗ、０）に位置する点は、画像の範囲外に位置する。

【0028】

図３は、実施形態における予測結果表現形式の第２の例を説明する説明図である。図３は、中心からの距離ｒと角度θを用いて（すなわち極座標）、予測の結果の注視点の位置を表現する予測結果表現形式の一例を示す。なお、図３の予測結果表現形式では、注視点の位置の表現に関して距離ｒは必ずしも用いられる必要は無い。図３の予測結果表現形式において、注視点の位置は、角度θ（すなわち注視方向）のみで表現されてもよい。

【0029】

図４は、実施形態における予測結果表現形式の第３の例を説明する説明図である。図４の例は、点の位置を離散化して離散化の結果を用いて表現する予測結果表現形式の一例である。離散化の方法は、例えば図４に示すように、Ｗ×Ｈの単位で画像の内外の面を２４の領域に分割する方法である。以下、分割後の各領域を離散化領域という。画像の内外の面が２４の領域に分割されたため、各離散化領域のサイズは、Ｗ×Ｈである。各離散化領域は、１から分割数までの分割数個の識別子のうちの１つが付与されており、任意の点は、属する各離散化領域の識別子の値によって表現される。

【0030】

例えば図４の点Ａは、識別子が５の識別子の離散化領域に属するため、「５」と出力される。なお、識別子の付与されていない離散化領域では点は、例えば、識別子が付与された離散化領域のうち最も近い離散化領域の識別子で表現される。予測結果表現形式では、点Ａの属する離散化領域が識別子の付与されていない離散化領域である場合には、例えば「該当領域無し」という情報で、点Ａの属する離散化領域が識別子の付与されていない離散化領域であることを表現してもよい。なお、各離散化領域のサイズは必ずしもＷ×Ｈである必要は無い。また、離散化領域の数も必ずしも２４である必要は無い。各離散化領域のサイズや離散化領域の数は、予測システム１００を適用する場面に応じて適宜ユーザが予め決定してもよい。

【0031】

図５は、実施形態における予測結果表現形式の第４の例を説明する説明図である。図５は、注視領域を分布として表現する出力の一例である。図５は、平均（Ｗ、Ｈ）、分散σ^２の等方的な２次元正規分布として注視領域が表現された出力の一例を示す。分散は必ずしも当方的である必要は無い。分散は、ｘ軸方向とｙ軸方向とでそれぞれ異なる分散であってもよい。また、分布は必ずしも正規分布である必要はない。分布は、注視領域の位置及び範囲を示すことのできる分布であればどのような確率分布であってもよい。分布は例えば確率分布であってもよい。

【0032】

予測結果表現形式は、図２～図５の例に限らず、学習済み予測モデル又は予測モデルによる予測の結果を表現可能であって、画像に写る空間の少なくとも外側の空間における空間領域を表現可能であればどのような表現の形式であってもよい。

【0033】

図１の説明に戻る。学習装置１は、予測モデルを学習可能な方法であればどのような方法で予測モデルを更新してもよい。予測モデルは例えばニューラルネットワークを用いて表現されてもよい。以下、予測モデルを表現する回路を予測器１０という。

【0034】

学習装置１は予測器１０のパラメータを更新することで予測モデルを更新する。学習終了条件が満たされた時点の予測器１０のパラメータは、予測装置２に送信される。予測装置２は、予測器１０と同様の回路を備え、学習装置１から取得したパラメータを用いて回路を動作させる。これにより、予測装置２は、学習装置１が取得した学習済みの予測モデルを実行する。そのため、予測装置２が備える予測器１０と同様の回路は、予測器制御部２１１の制御対象の回路である。以下、説明の簡単のため予測装置２が備える回路であって予測器１０と同様の回路もまた予測器１０という。

【0035】

学習装置１が学習済みの予測モデルを取得する方法の詳細は後述するが、学習装置１が学習済みの予測モデルを取得する方法の説明のためにまずは、予測器１０について説明する。

【0036】

＜予測器１０の説明＞
予測器１０は、予測モデルを表現する回路であり、予め定められた予測結果表現形式で予測モデルによる予測の結果（すなわち画像データが示す画像には写らない空間内の注視領域）を出力可能であればどのような回路であってもよい。すなわち予測器１０は、画像データに基づき画像データが示す画像には写らない空間内の注視領域を予測し、予測した結果を予め定められた予測結果表現形式で出力可能であればどのような回路であってもよい。予測器１０は、例えば畳み込みニューラルネットワーク（Convolutional neural network;ＣＮＮ）と、長短期記憶（Long Short Term Memory；ＬＳＴＭ）ネットワークと、２つの全結合層（Fully Connected Layer;ＦＣ）とによって構成される回路である。

【0037】

予測器１０がＣＮＮとＬＳＴＭと２つの全結合層とで構成される回路である場合、予測器１０を構成するＣＮＮのネットワーク構造は、予測器１０が予測モデルを表現可能であり予め定められた予測結果表現形式で結果を出力可能であれば、どのようなネットワーク構造であってもよい。予測器１０を構成するＣＮＮは、例えば以下の参考文献１に記載のResNetであってもよい。ResNetは画像データを直接入力して取得可能であるため、予測システム１００に好適である。

【0038】

参考文献１：Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition, In Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

【0039】

以下説明の簡単のため、予測器１０がＣＮＮとＬＳＴＭと２つの全結合層とで構成される回路である場合を例に、予測システム１００を説明する。

【0040】

図６は、実施形態における予測器１０の構成の一例を示す図である。図６に記載の予測器１０はＣＮＮ１０１、ＬＳＴＭ１０２、予測ＦＣ１０３及び停止判定ＦＣ１０４を備える。ＣＮＮ１０１には画像データが入力される。ＣＮＮ１０１は、畳み込みニューラルネットワーク（Convolutional neural network;ＣＮＮ）であり、入力された画像データに基づき、入力された画像データの特徴量（以下「画像特徴」という。）を取得する。

【0041】

ＬＳＴＭ１０２は、長短期記憶ネットワークであり、ＣＮＮ１０１の取得した画像特徴と補助情報とに基づき、領域特徴を取得する。領域特徴は、ＬＳＴＭ１０２の出力であってＬＳＴＭ１０２の後段に位置する予測ＦＣ１０３及び停止判定ＦＣ１０４に入力される出力である。したがって、領域特徴は、中間出力の一種である。領域特徴は、画像特徴及び補助情報が示す情報の少なくとも一部と過去の注視領域の予測の結果の履歴が示す情報の少なくとも一部とを含む情報である。領域情報が含む情報の種類又は量は、学習により更新される。

【0042】

補助情報はＬＳＴＭ１０２に入力される情報である。補助情報は、ＬＳＴＭ１０２に入力されるタイミングに応じた値を示す。補助情報が示す値は、０では無い分散を有する所定の分布にしたがう値である。補助情報は、例えばＬＳＴＭ１０２に入力される回数に依存して定まるベクトルを示す。補助情報は、例えば１つ前のタイミングの入力以前に得られた領域特徴を示してもよい。補助情報は、例えば１つ前のタイミングの入力以前に得られた複数の領域特徴の分布の統計量を示してもよい。補助情報は、例えば画像特徴と同じ次元数ｄを持ち、各要素の値が以下の式（１）及び（２）により規定されるベクトル（以下「補助ベクトル」という。）を示してもよい。

【0043】

【数1】

【0044】

【数2】

【0045】

ａ（ｉ、ｋ）はｉ回目の入力時における補助ベクトルのｋ番目の要素の値を表す。ｉ番目の入力時とは、補助情報がＬＳＴＭ１０２に入力されるｉ回目のタイミングを意味する。ｃは定数である。定数ｃの値は、例えば１００００である。

【0046】

以下説明の簡単のため、補助情報が、補助ベクトルを示す場合を例に予測システム１００を説明する。

【0047】

＜補助情報が奏する効果について＞
補助情報が奏する効果について説明する。補助情報の奏する効果の説明のため、まずは予測器１０が備えるＬＳＴＭ（すなわちＬＳＴＭ１０２）について説明する。ＬＳＴＭ１０２は、ＣＮＮ１０１の出力である画像特徴を入力として受け取り、領域特徴を出力する。入力された１つの画像における注視領域の数は必ずしも一つとは限らない。また、入力される画像によってその数は変化しうる。

【0048】

予測器１０は、ＬＳＴＭ１０２に画像特徴が複数回入力されることにより、１又は複数の注視領域を出力する。ＬＳＴＭは再帰的ニューラルネットの一種であり、内部に状態変数を持ち、入力と状態変数の双方に基づいて出力が決定されるニューラルネットワークである。ＬＳＴＭの状態変数は、入力を受けるたびに更新される。そのため、ＬＳＴＭ１０２に同一の画像特徴が入力された場合であっても、入力のたびにその出力は変化し得る。したがって、ＬＳＴＭを用いる予測器１０は、同一の画像データから得られた画像特徴が複数回入力された場合であっても、入力のたびに必ずしも同一ではない注視領域を予測することが可能である。

【0049】

補助情報が用いられる場合、入力された画像特徴が過去の学習時の画像特徴と同一であったとしても、過去に予測器１０に入力された情報と異なる情報が予測器１０に入力される。その結果、予測器１０に入力された画像特徴が過去の学習時の画像特徴と同一であったとしても、過去の結果とは異なる結果が予測器１０から出力される頻度が高まる。このように、補助情報は、予測の結果が同一でない頻度を高める効果を奏する。

【0050】

このように予測器１０は例えば、画像データと補助情報とに基づき、画像データが示す画像には写らない空間内の注視領域を予測し、予測した結果を予め定められた予測結果表現形式で出力する回路である。以下、画像データに少なくとも基づき画像データが示す画像には写らない空間内の注視領域を予測する処理を、予測処理という。

【0051】

領域特徴は、予測ＦＣ１０３及び停止判定ＦＣ１０４に入力される。予測ＦＣ１０３は、入力された領域特徴に基づき注視領域を出力する。予測ＦＣ１０３の出力の形式（すなわち予測結果表現形式）は、予め定められた形式である。予測結果表現形式は、例えば予測ＦＣ１０３に入力される領域特徴に応じてユーザが予め定めた形式である。

【0052】

予測ＦＣ１０３は、例えば注視領域を図２に示す例のように注視点が座標値として表現される場合には、２次元の座標値（ｘ、ｙ）を出力する。予測ＦＣ１０３は、例えば図４に示す例のように点の位置が離散化されて表現される場合には、各離散化領域に注視領域が存在する確率を出力する。予測ＦＣ１０３は、例えば図５に示す例のように注視領域の位置及び範囲が分布を用いて表現されている場合には、その分布のパラメータを出力する。予測ＦＣ１０３が出力する分布のパラメータは、例えば図５の例であれば、平均ｘ及びｙの値と、分散σ^２の値とである。

【0053】

停止判定ＦＣ１０４は、領域特徴に基づき、予測処理を停止するか否かを判定する。より具体的には、停止判定ＦＣ１０４は、領域特徴に基づき、予測処理を停止するか否かを表す二値の値である停止判定情報ｔを出力する。停止判定ＦＣ１０４が予測処理を停止する条件は学習により得られる。学習により得られるとは、例えば損失関数が最小化されるように条件が更新されることで得られることを意味する。

【0054】

予測器１０の構成がＬＳＴＭに画像特徴が複数回入力されることによって１又は複数の注視領域を出力する構成である場合、１又は複数の注視領域が出力される。しかしながら、上述したように何回出力を得るべきかについては自明ではない。そこで、停止判定ＦＣ１０４が領域特徴に基づき状況に応じた判定を行う。状況に応じたとは具体的には、予測処理の過程で生じた情報に基づいて、ということを意味する。

【0055】

なお、出力を得る回数は、例えば予め定められた回数（以下「最大予測回数」という。）Ｔであってもよい。このような場合、停止判定ＦＣ１０４は、例えば出力の得られた回数が最大予測回数Ｔに到達した場合に予測処理を停止すると判定し、出力の得られた回数が最大予測回数Ｔ未満である場合に予測処理を停止しないと判定する。

【0056】

予測器１０に入力される画像データごとに適切な予測の回数（すなわち注視領域の数）は異なる。そのため、停止判定ＦＣ１０４による予測処理を停止するか否かの判定は、予め定められた最大予測回数Ｔを用いた判定よりも、上述の、領域特徴に基づいた判定の方が好ましい。

【0057】

図７は、実施形態における予測器１０が実行する処理の流れの一例を示すフローチャートである。ＣＮＮ１０１に画像データが入力される（ステップＳ１０１）。画像データは、例えばカメラで撮影された画像の画像データである。画像データは、例えば映像から抽出されたフレームの画像データであってもよく、例えば、自動車の車載カメラなどによってキャプチャされた映像のフレームの画像データであってもよい。

【0058】

次に、予測器制御部２１１が、予測処理の実行が開始された回数ｉを１に設定する（ステップＳ１０２）。回数ｉを１に設定するとは、補助情報を初期化することを意味する。次にＣＮＮ１０１が入力された画像の画像データに基づき、画像特徴ｆを取得する（ステップＳ１０３）。次に、画像特徴ｆ及び補助情報ａｉに基づきＬＳＴＭ１０２が領域特徴を取得する（ステップＳ１０４）。次に、領域特徴に基づき予測ＦＣ１０３が注視領域を予測する（ステップＳ１０５）。次に、予測ＦＣ１０３は、予測の結果を示す予測結果Ｏｉを出力する（ステップＳ１０６）。

【0059】

次に、停止判定ＦＣ１０４が領域特徴に基づき予測処理を停止するか否かを判定する（ステップＳ１０７）。次に、停止判定ＦＣ１０４が、判定の結果を示す情報（すなわち停止判定情報ｔｉ）を出力する（ステップＳ１０８）。次に、予測器制御部２１１が、停止判定情報に基づき予測終了条件が満たされるか否かを判定する（ステップＳ１０９）。予測終了条件は、予測処理の終了に関する条件であって少なくとも停止判定情報に基づく条件である。予測終了条件は例えば、停止判定情報tiが停止を示すという条件と、予測処理の実行が開始された回数が最大予測回数Ｔ以上（すなわち、i＜T）であるという条件とのいずれか一方が満たされる、という条件である。

【0060】

予測終了条件が満たされる場合、処理が終了する。一方、予測終了条件が満たされない場合、予測器制御部２１１は、予め定められた所定の更新の規則にしたがい補助情報ａｉを更新する（ステップＳ１１０）。ステップＳ１１０の次に、ステップＳ１０４の処理に戻る。

【0061】

なお、ステップＳ１０６はステップＳ１０５の実行後であってステップＳ１０９の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップＳ１０８はステップＳ１０７の実行後であってステップＳ１０９の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップＳ１０５の処理は、ステップＳ１０４の実行後であってステップＳ１０９の実行前であれば、ステップＳ１０７の処理より後に実行されてもよい。

【0062】

なお、最大予測回数Ｔは、任意の正数であり、例えばＴ＝５である。最大予測回数は任意の正数でよいが、学習装置１により予測モデルの学習時に用いられる教師データが示す正解の注視領域の数の最大値よりも大きな値であることが望ましい。

【0063】

このように、予測器１０は画像特徴抽出処理、予測処理及び停止判定処理を実行する。画像特徴抽出処理は、画像データに基づき画像特徴を取得する処理である。図７の例ではステップ１０３の処理である。予測処理は、図７の例では、ステップＳ１０４、ステップＳ１０５及びステップＳ１０６の一連の流れが示す処理である。停止判定処理は、画像データに少なくとも基づき予測処理を停止するか否かを判定する処理である。停止判定処理は、図７の例では、ステップＳ１０４、ステップＳ１０７及びステップＳ１０８の一連の流れが示す処理である。

【0064】

このような処理により、予測器１０は、最大Ｔ回の予測処理を通じ、最大Ｔ個の予測の結果を得ることができる。以降、予測器１０による予測の結果の数をＮと表す。

【0065】

＜学習装置１が学習済みの予測モデルを取得する方法＞
学習装置１は、訓練用データを用いて予測モデルの学習を行う。訓練用データは、画像データと正解注視領域の集合を示すデータ（以下「正解注視領域データ」という。）との対のデータである。正解注視領域は対応する画像データが示す画像には写らない空間内の注視領域である。そのため正解注視領域の集合は、対応する画像に含まれる注視領域の集合である。

【0066】

より具体的には訓練用データＤは、画像データを学習データ（すなわち説明変数側のデータ）とし、正解注視領域データを教師データ（すなわち目的変数側のデータ）として含むデータである。学習データの画像データが示す画像は、注視領域を１つだけ含む画像であってもよいし、複数含む画像であってもよい。以下、学習データの画像データを画像データＩと表し、正解注視領域の集合を集合｛Ｓｊ｝（ｊ＝１、・・・、Ｍ）と表す。したがって、訓練用データは集合Ｄ＝｛（Ｉ、｛Ｓｊ｝）｝である。そこで以下、訓練用データを訓練用データＤと表す。

【0067】

予測モデルの学習の方法は、訓練用データを用いた学習の方法であればどのような方法であってもよく、例えば強化学習の方法であってもよい。以下、強化学習による予測モデルの学習の処理（以下「予測モデル強化学習処理」という。）の一例を説明する。

【0068】

予測モデル強化学習処理は、強化予測処理と、報酬取得処理と、強化予測学習処理と、停止判定学習処理と、を含む。各処理の説明の前に、強化学習の概略を説明する。

【0069】

強化学習は、ある状況下での行動を決定するエージェントの最適な行動決定方策を学習する学習方法である。強化学習は、一連のエージェントの行動の結果、もたらされた最終的な状況が望ましいものであるか否かに応じた報酬を規定することによって、エージェントを学習させる学習方法である。

【0070】

予測モデル強化学習処理では、強化学習におけるエージェントとして予測器１０を用いる。予測モデル強化学習処理では、強化学習における行動として注視領域の予測と、予測処理の停止の判定と、を用いる。予測モデル強化学習処理では、強化学習における状況として、画像データＩと、過去の予測の結果の正誤と、停止の判定の結果の正誤と、を用いる。

【0071】

上述したように強化学習は、試行錯誤による探索型の学習である。より具体的には、強化学習は、更新の対象となる数理モデルを用いて結果を得た後、得られた結果に基づき報酬を算出し、報酬に基づき更新の対象の数理モデルを更新する。したがって、強化学習ではまず、更新の対象となる数理モデルを用いて結果を得る処理が行われる。予測モデル強化学習処理における、更新の対象となる数理モデルを用いて結果を得る処理、が強化予測処理である。

【0072】

したがって、強化予測処理は、予測器１０を用いて予測処理及び停止判定処理を実行する処理である。

【0073】

図８は、実施形態における強化予測処理の流れの一例を示すフローチャートである。後述する学習制御部１１１が、訓練用データＤを取得する（ステップＳ２０１）。次に、学習制御部１１１が、強化予測処理の実行が開始された回数ｉを１に設定する（ステップＳ２０２）。回数ｉを１に設定するとは、補助情報を初期化することを意味する。次にＣＮＮ１０１が入力された画像の画像データに基づき、画像特徴ｆを取得する（ステップＳ２０３）。次に、画像特徴ｆ及び補助情報ａｉに基づきＬＳＴＭ１０２が領域特徴を取得する（ステップＳ２０４）。次に、領域特徴に基づき予測ＦＣ１０３が注視領域を予測する（ステップＳ２０５）。次に、予測ＦＣ１０３が予測の結果を示す予測結果Ｏｉを出力する。出力された予測結果Ｏｉは学習制御部１１１により後述の記憶部１３等の所定の記憶装置に記録される（ステップＳ２０６）。

【0074】

次に、停止判定ＦＣ１０４が領域特徴に基づき予測処理を停止するか否かを判定する（ステップＳ２０７）。次に、停止判定ＦＣ１０４が、判定の結果を示す情報（すなわち停止判定情報ｔｉ）を出力する。出力された停止判定情報ｔｉは学習制御部１１１により所定の記憶装置に記録される（ステップＳ２０８）。次に、学習制御部１１１が、停止判定情報に基づき学習時予測終了条件が満たされるか否かを判定する（ステップＳ２０９）。強化予測終了条件は、強化予測処理の終了に関する条件であって少なくとも停止判定情報に基づく条件である。強化予測終了条件は、停止させるか否かの判定の対象の処理が予測処理に代えて強化予測処理である点で予測終了条件と異なる条件である。強化予測終了条件は例えば、停止判定情報tiが停止を示すという条件と、強化予測処理の実行が開始された回数が最大予測回数Ｔ以上（すなわち、i＜T）であるという条件とのいずれか一方が満たされる、という条件である。

【0075】

強化予測終了条件が満たされる場合、処理が終了する。一方、強化予測終了条件が満たされない場合、学習制御部１１１は、予め定められた所定の更新の規則にしたがい補助情報ａｉを更新する（ステップＳ２１０）。ステップＳ２１０の次に、ステップＳ２０４の処理に戻る。

【0076】

なお、ステップＳ２０６はステップＳ２０５の実行後であってステップＳ２０９の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップＳ２０８はステップＳ２０７の実行後であってステップＳ２０９の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップＳ２０５の処理は、ステップＳ２０４の実行後であってステップＳ２０９の実行前であれば、ステップＳ２０７の処理より後に実行されてもよい。

【0077】

図８の処理は、予め用意された全ての訓練データＤに対して実行される。

【0078】

報酬取得処理は、正誤判定処理を含む。正誤判定処理は、強化予測処理によって得られた予測結果の集合｛Ｏｉ｝が正規注視領域の集合｛Ｓｊ｝を正しく予測できたか否かを判定する処理である。報酬取得処理では、正誤判定処理の実行の後に、正誤判定処理の結果に基づいて、報酬が取得される。報酬の取得は例えば演算により取得される。

【0079】

図９は、実施形態における報酬取得処理の流れの一例を示すフローチャートである。学習制御部１１１が成功予測数Ｑを初期化する（ステップＳ３０１）。初期化の結果、成功予測数Ｑには０が代入される。次に、学習制御部１１１は、強化予測処理によって得られた予測結果の集合｛Ｏｉ｝のうち未だ予測の成否が判定されていない１つの予測結果Ｏｉを選択する（ステップＳ３０２）。次に、学習制御部１１１は、ステップＳ３０２で選択された予測結果Ｏｉの予測の成否を判定する（ステップＳ３０３）。予測の成否の判定とは、具体的には、正解注視領域｛Ｓｊ｝のうちの少なくとも１つを予測できたか否かを判定することを意味する。正解注視領域｛Ｓｊ｝のうちの少なくとも１つを予測できた場合、予測は成功であり、正解注視領域｛Ｓｊ｝のいずれも予測できなかった場合、予測が成功しなかった（すなわち否である）ことを意味する。

【0080】

予測の成否の判定の方法は、予測結果表現形式に依存する。一例として図２又は図３のように注視領域が注視点によって与えられている場合について、予測の成否の判定の方法の一例を説明する。この場合、Ｏｉ、｛Ｓｊ｝共に点を表している。そのため、｛Ｓｊ｝の中からＯｉの距離が最も近いものをＳ＊と決定し、Ｓ＊とＯｉとの距離が一定以下であれば予測の成功と判定し、一定より大きければ予測の失敗と判定する方法で予測の成否は判定される。

【0081】

予測の成否の判定の方法の他の例として図４のように離散化された領域になっている場合について、予測の成否の判定の方法の一例を説明する。この場合、Ｏｉと｛Ｓｊ｝のうちの少なくとも一つのＳ＊と、が同一の領域を示している場合に予測の成功と判定し、示していない場合に予測の失敗と判定する方法で予測の成否は判定される。また、図５のように分布によって表現されている場合には、Ｏｉの分布が覆う領域と｛Ｓｊ｝のうちの少なくとも一つＳ＊が覆う領域との重なりが一定以上である場合に予測の成功、一定未満である場合に予測の失敗と判定する方法で予測の成否は判定される。

【0082】

ステップＳ３０３の次に、学習制御部１１１は、成功予測数Ｑを更新するとともに、予測結果Ｏｉによって予測された正解注視領域を正解注視領域の集合｛Ｓｊ｝から取り除く（ステップＳ３０４）。成功予測数Ｑの更新は、具体的には成功予測数の値を１増加させる処理である。

【0083】

次に学習制御部１１１は、報酬取得条件が満たされたか否かを判定する（ステップＳ３０５）。報酬取得条件は、強化予測処理によって得られた予測結果全ての予測結果Ｏｉについて予測の成否が判定されたという条件と、正規注視領域の集合｛Ｓｊ｝が空集合であるという条件と、の少なくとも一方が満たされるという条件である。なお、予測の成否の判定の処理は、具体的には、ステップＳ３０３の処理である。

【0084】

報酬取得条件が満たされない場合（ステップＳ３０５：ＮＯ）、ステップＳ３０２の処理に戻る。一方、報酬取得条件が満たされた場合（ステップＳ３０５：ＹＥＳ）、学習制御部１１１は予め定義された報酬の値を取得する（ステップＳ３０６）。

【0085】

＜報酬について＞
報酬について説明する。報酬は、例えば以下の式（３）で定義される量Ｒ_ｐｒｅｄである。

【0086】

【数3】

【0087】

望ましい予測モデルは、報酬が適切であればあるほど得られる確率が高まる。また、複数ある正解注視領域のうち、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できる学習を実行することが好ましい。したがって、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できた場合により大きな報酬を与えることにより、好ましい学習が実行される確率が高まる。

【0088】

上記式（３）の左辺の値は、０以上１以下の値である。上記式（３）の左辺の値は、予測回数Ｎが正解注視領域数Ｍと同数で、かつ、全ての予測が成功したとき、すなわちＭ＝Ｎ＝Ｑのときに最大値１．０となる。したがって式（３）で定義される報酬Ｒ_ｐｒｅｄは、複数ある正解注視領域のうち、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できた場合に高い報酬を与えるという性質を満たす。そのため、式（３）で定義される報酬Ｒ_ｐｒｅｄは、予測モデルの学習に好適である。

【0089】

強化予測学習処理について説明する。強化予測学習処理は、報酬取得処理で得られた報酬に基づき、予測モデルを更新する。強化予測学習処理は、例えば予測器１０がＣＮＮ１０１、ＬＳＴＭ１０２、予測ＦＣ１０３及び停止判定ＦＣ１０４を備える場合、ＮＮ１０１、ＬＳＴＭ１０２及び予測ＦＣ１０３を報酬に基づき更新する。以下、説明の簡単のためＮＮ１０１、ＬＳＴＭ１０２及び予測ＦＣ１０３を結合した深層ニューラルネットワークを、φと表す。

【0090】

強化予測学習処理は報酬に基づきネットワークφを更新する処理である。強化予測学習処理が報酬に基づきネットワークφを更新する処理は報酬に基づく方法であればどのような方法であってもよい。例えば更新の方法は、方策勾配法であってもよい。更新の方法が方策勾配法の場合、以下の式（４）及び式（５）に基づいて、ネットワークφの重みＷφが更新される。

【0091】

【数4】

【0092】

【数5】

【0093】

αは学習率を表す任意の正の実数値である。αは例えば０．０１である。

【0094】

このように、予測モデル強化学習処理では、予測モデルを用い、訓練データに含まれる画像データに基づき注視領域を推定する処理（すなわち強化予測処理）が実行される。予測モデル強化学習処理では、報酬取得処理及び強化予測学習処理の実行により、強化予測処理によって得られた推定の結果が訓練データに含まれる正解注視領域データの示す注視領域に近づくように予測モデルが更新される。

【0095】

ここでネットワークφの学習に強化学習が用いられる方が、教師あり学習を用いる場合よりも推定精度の高い予測モデルを生成することができる。強化学習の方が推定の精度が高い理由を説明する。

【0096】

理由の１つは、予測器１０によるｉ回目の予測結果Ｏｉに対して、複数ある正解注視領域｛Ｓｊ｝のうち、どの正解注視領域と比較されるべきかが自明ではないことである。理由の１つは、予測器１０による予測は、予測終了条件が満たされるまで繰り返し実行されるため、複数回の予測の結果を総合的に判断して学習を進める必要があることである。例えば、１回目の予測結果Ｏ１が正解注視領域の内の最初の一つＳ１を正しく示したとしても、２回目以降の予測結果Ｏ２，…，ＯＮが、全く同じ正解注視領域Ｓ１を示す場合、２回目以降の予測結果は意味のある予測結果であるとは言い難い。

【0097】

このように、予測モデルの良し悪しは各予測結果に基づいて判断することはできず、複数回の予測結果に基づいて判断する（すなわち総合的に判断する）必要がある。さらに、予測モデルは正解注視領域を過不足なく予測できることが望ましい。理由の１つは、注視領域の予測結果｛Ｏｉ｝だけでなく停止判定情報｛ｔｉ｝についても高い精度の情報であることが望ましいことである。

【0098】

停止判定学習処理について説明する。停止判定学習処理は停止判定処理の内容を更新する処理である。停止判定学習処理は、例えばＣＮＮ１０１、ＬＳＴＭ１０２及び停止判定ＦＣ１０４を更新する。停止判定処理は、全ての正解注視領域を予測できたタイミングを停止と判断する処理であることが望ましい。全ての正解注視領域を予測できたタイミングは、例えばステップＳ３０５において｛Ｓｊ｝が空集合になったタイミングである。

【0099】

停止判定処理については予測処理と異なり、出力に対する明確な教示データが得られる。そのため、停止判定処理については、教師ありの機械学習の方法で更新されても強化学習で更新される場合と同程度以上の高い精度の処理が生成される。

【0100】

停止判定学習処理は、予測器１０の備えるＣＮＮ１０１、ＬＳＴＭ１０２及び停止判定ＦＣ１０４の更新を行う。以下、説明の簡単のためＮＮ１０１、ＬＳＴＭ１０２及び停止判定ＦＣ１０４を結合した深層ニューラルネットワークを、ψと表す。停止判定学習処理が実行する学習の方法は、教師有りの学習方法であればどのような方法であってもよい。停止判定学習処理は、例えば勾配法により停止判定処理の内容を更新する。一例として停止判定学習処理が実行する学習の方法が勾配法である場合について、停止判定学習処理を説明する。

【0101】

説明の簡単のため、示す内容が正解である停止判定情報（以下「正解停止判定情報」という。）であって識別子ｉの正解停止判定情報をｕｉと表す。例えば、識別子ｉの正解停止判定情報ｕｉは、｛Ｓｊ｝が空になった場合には１を、そうでない場合には０を示す。停止判定学習処理は、以下の式（６）の損失関数が小さくなるように、ψの重みＷψを更新する。

【0102】

【数6】

【0103】

式（６）の損失関数は、Binary Cross Entropyと呼称される損失関数である。式（６）の損失関数は、停止判定情報ｔｉが、正解停止判定情報ｕｉと一致するときに小さい値を取る。したがって、式（６）の損失関数の値（すなわち損失）が小さくなるようにＷψを更新していくことにより、ｕｉに近いｔｉを出力可能なψが得られる。更新の方法は、例えば勾配法である。

【0104】

学習装置１は、強化予測処理、報酬取得処理、強化予測学習処理及び停止判定学習処理の各サブルーチンを順次実行することを繰り返すことにより予測モデルの学習を実行する。

【0105】

図１０は、実施形態における学習装置１のハードウェア構成の一例を示す図である。学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。学習装置１は、プログラムの実行によって制御部１１、入出力インタフェース１２及び記憶部１３を備える装置として機能する。

【0106】

より具体的には、学習装置１は、プロセッサ９１が記憶部１３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、学習装置１は、制御部１１、入出力インタフェース１２及び記憶部１３を備える装置として機能する。

【0107】

制御部１１は、学習装置１が備える各種機能部の動作を制御する。入出力インタフェース１２は、学習装置１を外部装置に接続するためのインタフェースを含んで構成される。入出力インタフェース１２は、有線又は無線を介して外部装置と通信する。外部装置は例えば予測装置２である。また入出力インタフェース１２は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入出力インタフェース１２は、これらの入力装置を学習装置１に接続するインタフェースを含んで構成されてもよい。

【0108】

入出力インタフェース１２は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。入出力インタフェース１２は、これらの表示装置を学習装置１に接続するインタフェースを含んで構成されてもよい。入出力インタフェース１２には、例えば訓練用データが入力される。

【0109】

記憶部１３は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１３は、学習装置１に関する各種情報を記憶する。記憶部１３は、例えば制御部１１が実行する処理の結果生じた各種情報を記憶する。記憶部１３は、例えば、予測器１０のパラメータの値を記憶する。記憶部１３は、例えば予め補助情報を記憶する。記憶部１３は、例えば予め最大予測回数Ｔを記憶していてもよい。

【0110】

図１１は、実施形態における制御部１１の機能構成の一例を示す図である。制御部１１は、学習制御部１１１と予測器１０とを備える。学習制御部１１１は予測器１０の動作を制御し、予測器１０の学習を実行する。学習制御部１１１は例えば予測モデル強化学習処理を実行する。

【0111】

図１２は、実施形態における予測装置２のハードウェア構成の一例を示す図である。予測装置２は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。予測装置２は、プログラムの実行によって制御部２１、入出力インタフェース２２及び記憶部２３を備える装置として機能する。

【0112】

より具体的には、予測装置２は、プロセッサ９３が記憶部２３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、予測装置２は、制御部２１、入出力インタフェース２２及び記憶部２３を備える装置として機能する。

【0113】

制御部２１は、予測装置２が備える各種機能部の動作を制御する。入出力インタフェース２２は、予測装置２を外部装置に接続するためのインタフェースを含んで構成される。入出力インタフェース２２は、有線又は無線を介して外部装置と通信する。外部装置は例えば学習装置１である。また入出力インタフェース２２は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入出力インタフェース２２は、これらの入力装置を予測装置２に接続するインタフェースを含んで構成されてもよい。

【0114】

入出力インタフェース２２は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。入出力インタフェース２２は、これらの表示装置を予測装置２に接続するインタフェースを含んで構成されてもよい。入出力インタフェース２２には、例えば推定対象の画像データが入力される。

【0115】

記憶部２３は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２３は、予測装置２に関する各種情報を記憶する。記憶部２３は、例えば制御部２１が実行する処理の結果生じた各種情報を記憶する。記憶部２３は、例えば、学習済みの予測モデルを記憶する。記憶部２３は、例えば予め補助情報を記憶する。記憶部２３は、例えば予め最大予測回数Ｔを記憶していてもよい。

【0116】

図１３は、実施形態における制御部２１の機能構成の一例を示す図である。制御部２１は、予測器制御部２１１と予測器１０とを備える。予測器制御部２１１は、予測装置２が備える予測器１０の動作を制御する。すなわち、予測器制御部２１１は、学習済みの予測モデルを予測器１０に実行させる。

【0117】

＜適用例＞
予測システム１００の適用例を説明する。予測装置２は、例えば車両に設置される。この場合、予測装置２は、車両に搭載されたカメラにより取得された画像に基づき可視領域外の注視すべき領域を予測する。予測の後、予測装置２は、例えば視覚的又は聴覚的な警告を介して、注視又は注目されるべきエリアを示す。

【0118】

予測装置２は、例えばロボットに搭載されてもよい。この場合、予測装置２は、ロボットに搭載されたカメラにより取得された画像から、可視領域外の注視すべき領域を予測する。予測の後、予測装置２は、予測の結果に基づきロボットの行動を制御する制御装置に対して予測の結果を送信することで、ロボットの行動を制御する。

【0119】

このように構成された予測システム１００は、画像データと画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを得る学習装置１を備える。そのため予測システム１００は、空間内の領域であって画像に写らない領域中の注視領域を予測することができる。このことは上述したように画像データに代えて映像データについても同様である。

【0120】

また、予測システム１００は、学習装置１が得た数理モデルを用いて注視領域を予測する予測装置２を備える。そのため予測システム１００は、空間内の領域であって画像に写らない領域中の注視領域を予測することができる。このことは上述したように画像データに代えて映像データについても同様である。

【0121】

（変形例）
なお、予測システム１００、学習装置１及び予測装置２のそれぞれは、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。なお、予測システム１００、学習装置１及び予測装置２それぞれの各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。なお、学習済みの予測モデルは、更新済みの数理モデルの一例である。なお、予測装置２は推測装置の一例である。なお、予測は推測の一例である。

【0122】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0123】

１００…予測システム、１…学習装置、２…予測装置、１０…予測器、１１…制御部、１２…入出力インタフェース、１３…記憶部、１１１…学習制御部、２１…制御部、２２…入出力インタフェース、２３…記憶部、２１１…予測器制御部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ

【図1】