(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-29
(45)【発行日】2024-11-07
(54)【発明の名称】学習装置、推測装置、学習方法、推測方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241030BHJP
A61B 3/113 20060101ALI20241030BHJP
G06V 20/56 20220101ALI20241030BHJP
【FI】
G06T7/00 350B
A61B3/113
G06V20/56
(21)【出願番号】P 2021083943
(22)【出願日】2021-05-18
【審査請求日】2023-09-26
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】入江 豪
(72)【発明者】
【氏名】オンカー クリシュナ
(72)【発明者】
【氏名】相澤 清晴
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2021-064025(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
A61B 3/113
G06V 20/56
(57)【特許請求の範囲】
【請求項1】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、
を備え、
前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、
前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する、
学習装置。
【請求項2】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、
前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、
を備える推測装置。
【請求項3】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、
を有し、
前記数理モデルは、前記画像データと入力されるタイミングに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、
前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新される、
学習方法。
【請求項4】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、
前記数理モデルは、前記画像データと入力されるタイミングとに応じた値を持つ情報とに基づいて前記画像には写らない空間内の注視領域の推定を行い、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御ステップ、
を有する推測方法。
【請求項5】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、
を備え、
前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新
し、
前記数理モデルは、長短期記憶ネットワークを用いて表現され、
前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は0では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、
学習装置。
【請求項6】
前記制御部は、数理モデルを強化学習の方法で更新する、
請求項
5に記載の学習装置。
【請求項7】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新
し、前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は0では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、
を備える推測装置。
【請求項8】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、
を有し、
前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新され
、
前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は0では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、
学習方法。
【請求項9】
画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新
し、前記数理モデルは、長短期記憶ネットワークを用いて表現され、前記数理モデルは、前記長短期記憶ネットワークに入力される情報であり、示す値が前記長短期記憶ネットワークに入力されるタイミングに応じた値であり、前記値は0では無い分散を有する所定の分布にしたがう値である補助情報に基づいて、前記注視領域を推定する、学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御ステップ、
を有する推測方法。
【請求項10】
請求項
1、5又は6のいずれか一項に記載の学習装置
と請求項2又は7のいずれか一項に記載の推測装置とのいずれか1つとしてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、推測装置、学習方法、推測方法及びプログラムに関する。
【背景技術】
【0002】
情景等の空間の内の領域のうち人間が目を向けやすい領域である注視領域(Focus of Attention: FoA)を予測する技術が開発されている。代表的なものに、画像又は映像を分析することにより、その画像又は映像の中の注視領域を検出する顕著性推定(Saliency Estimation)と呼ばれる技術がある。ロボットビジョンやコンピュータビジョンの技術領域で長年研究され、物体認識や画像又は映像編集、画像符号化、画質評価、自律運転、オンラインマーケティングなど、多岐にわたる分野で利用されてきた。
【0003】
AI(artificial intelligence)技術の社会実装が進められているが、人間と同じように実世界を知覚又は認知する機能はAI技術が備えるべき基本的な要件の一つであり、注視領域を予測する技術はその根幹をなす技術の一つである。特に、人間と同じように実世界で活動するAIロボットやAIエージェントについては、備え付けられたカメラによる一人称視点での画像又は映像を入力として外界を知覚することが想定されている。そのため、一人称視点での画像又は映像を対象とした注視領域を予測する技術への期待は高い。以降、説明の簡単のため画像を例に注視領域を予測する技術を説明するが、映像は複数の画像の集合であるため、以下の説明は画像に代えて映像についても成り立つ。
【0004】
最近の深層学習の発展と共に、一人称視点の画像に基づく顕著性推定にも大きな進展がもたらされ、優れた予測性能が達成された。例えば、非特許文献1は、自動運転シナリオにおける一人称視点の画像中の注視領域を高精度に推定可能な3次元畳み込みネットワークに基づくモデルを提案した。
【0005】
また、非特許文献2は、年齢による注視領域の違いに着目し、画像変換の技術を利用することで、成人による注視領域の推定の結果を高齢者による注視領域の推定の結果へと変換する技術を提案した。この技術も、自動運転シナリオや歩行者視点での一人称視点画像を対象とし、高精度な顕著性予測を可能とする。
【先行技術文献】
【非特許文献】
【0006】
【文献】Andrea Palazzi, Davide Abati, Simone Calderara, Francesco Solera, and Rita Cucchiara, “Predicting the drivers focus of attention: the dr(eye)ve project”, IEEE transactions on pattern analysis and machine intelligence, 2018.
【文献】Onkar Krishna, Go Irie, Takahito Kawanishi, Kunio Kashino, and Kiyoharu Aizawa, “Translating Adult’s Focus of Attention to Elderly’s”, In Proceedings of International Conference on Pattern Recognition, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、これらの技術は、あくまで画像中に写る注視領域を推定するように設計され、あくまで画像中に写る注視領域を推定する技術である。実世界で活動する人間は、必ずしも情景のなかの観測可能な領域に注意を向けて行動しているとは限らない。人間は、時には後方や、あるいは壁の向こう側など、不可視ながらも注意を向けるべき領域を予測又は判断し、予備動作をとったり、危険回避をするような行動を起こす。
【0008】
そこで、人間と共に実世界で活動するAIシステムにも、人間と同様の機能が期待される。具体的には、AIシステムが、画像に写らない領域中の注視領域を予測する機能を備えることが期待される。
【0009】
しかしながら、既存の画像顕著性の推定の技術は、いずれも画像に写る領域に限って顕著な領域を推定する技術として実現されており、画像に写らない領域ついては注視領域を予測する技術では無かった。上述したように、このことは映像についても同様である。
【0010】
上記事情に鑑み、本発明は、空間内の領域であって画像又は映像に写らない領域中の注視領域を予測する技術の提供を目的としている。
【課題を解決するための手段】
【0011】
本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する、学習装置である。
【0012】
本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御部、を備える推測装置である。
【0013】
本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御ステップ、を有し、前記制御ステップでは、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域が推定され、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルが更新される、学習方法である。
【0014】
本発明の一態様は、画像データと前記画像データが示す画像には写らない空間内の注視領域を示すデータである正解注視領域データとの対のデータである訓練用データに基づき、画像データと前記画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを更新する制御部、を備え、前記制御部は、前記数理モデルを用い訓練データに含まれる画像データに基づき注視領域を推定し、推定の結果が前記訓練データに含まれる正解注視領域データの示す前記注視領域に近づくように前記数理モデルを更新する学習装置によって、所定の終了条件が満たされるまで更新された前記数理モデルである更新済みの数理モデルを用いて、入力された画像データに基づき前記画像データが示す画像には写らない空間内の注視領域を推定する制御ステップ、を有する推測方法である。
【0015】
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0016】
本発明により、空間内の領域であって画像又は映像に写らない領域中の注視領域を予測することが可能となる。
【図面の簡単な説明】
【0017】
【
図1】実施形態の予測システム100の構成の一例を示す図。
【
図2】実施形態における予測結果表現形式の第1の例を説明する説明図。
【
図3】実施形態における予測結果表現形式の第2の例を説明する説明図。
【
図4】実施形態における予測結果表現形式の第3の例を説明する説明図。
【
図5】実施形態における予測結果表現形式の第4の例を説明する説明図。
【
図6】実施形態における予測器10の構成の一例を示す図。
【
図7】実施形態における予測器10が実行する処理の流れの一例を示すフローチャート。
【
図8】実施形態における強化予測処理の流れの一例を示すフローチャート。
【
図9】実施形態における報酬取得処理の流れの一例を示すフローチャート。
【
図10】実施形態における学習装置1のハードウェア構成の一例を示す図。
【
図11】実施形態における制御部11の機能構成の一例を示す図。
【
図12】実施形態における予測装置2のハードウェア構成の一例を示す図。
【
図13】実施形態における制御部21の機能構成の一例を示す図。
【発明を実施するための形態】
【0018】
(実施形態)
図1は、実施形態の予測システム100の構成の一例を示す図である。予測システム100は、予測システム100は、学習装置1及び予測装置2を備える。以下、説明の簡単のため学習装置1及び予測装置2に入力されるデータが画像データである場合を例に、予測システム100を説明する。しかしながら、映像は画像の時系列であるため、学習装置1及び予測装置2に入力されるデータは、画像データに代えて映像のデータである映像データであってもよい。以下、説明の簡単のため学習装置1及び予測装置2に画像データが入力される場合を例に予測システム100を説明するが、学習装置1及び予測装置2には画像データに代えて映像データが入力されてもよい。
【0019】
学習装置1は、画像データの入力を受け付ける。学習装置1は、入力された画像データに基づき、予測モデルを機械学習の方法により更新する。予測モデルは、入力された画像データと、入力された画像データが示す画像には写らない空間内の注視領域(Focus of Attention: FoA)との関係を示す数理モデルである。画像データが示す画像には写らない空間内の注視領域とは、言い換えれば、画像データの画像が示す空間の外側の空間における注視領域である。注視領域は、空間の内の領域(以下「空間内領域」という。)のうち人間が目を向けやすい領域である。
【0020】
予測装置2は、画像データの入力を受け付ける。予測装置2は、学習装置1が取得した学習済みの予測モデルを用い、入力された画像データに基づいて、注視領域を予測する。予測装置2は、予測器制御部211を備える。予測器制御部211の詳細は後述するが、予測器制御部211は、学習済みの予測モデルを表現する回路の動作を制御する。
【0021】
なお学習済みとは、学習が所定の終了条件(以下「学習終了条件」という。)が満たされるまで実行されたことを意味する。そのため、学習済みの数理モデルとは、学習終了条件が満たされた時点における数理モデルである。学習終了条件は、例えば所定の回数の学習が行われたという条件である、学習終了条件は、例えば学習による学習モデルの変化が所定の変化より小さい、という条件であってもよい。
【0022】
なお、数理モデルとは、実行される条件と順番とが予め定められた1又は複数の処理を含む集合である。数理モデルが含む処理は、例えば予め定められた関数に値を入力することで関数の値を取得する処理である。
【0023】
なお、学習を行うとは数理モデルを更新することを意味する。数理モデルの更新とは、数理モデルを表現する回路のパラメータの値が更新されることを意味する。数理モデルが含む少なくとも一部の処理は、例えばニューラルネットワークによって表現される。なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって数理モデルの少なくとも一部の処理を表現する回路の一例である。学習によって数理モデルが更新されるとは、数理モデルを表現する回路のパラメータの値が更新されることを意味する。数理モデルを表現する回路の一部がニューラルネットワークである場合、ニューラルネットワークのパラメータは、予め定義済みの量に基づいて好適に調整される。予め定義済みの量は、例えば予め定義済みの目的関数の値(すなわち損失)である。
【0024】
<予測の結果の表現の形式の例>
学習済み予測モデル又は予測モデルによる予測の結果を表現する表現の形式(以下「予測結果表現形式」という。)について説明する。
【0025】
図2は、実施形態における予測結果表現形式の第1の例を説明する説明図である。
図2は、予測の結果の注視領域を、注意を引きやすい点(以下「注視点」という。)の位置として表現する予測結果表現形式の一例である。
図2には、高さ2H+1画素、幅2W+1画素の画像が示されている。
図2において、例えば画像の中心の画素を(0,0)と表現すると、画像中の任意の画素の位置(すなわち座標)は、水平位置x及び垂直位置yを用いて(x、y)と表現される。
【0026】
図2の予測結果表現形式は、
図2の画像に写る空間の外側に注視点が存在するような場合であっても、注視点を座標によって表現可能である。すなわち、注視点のx座標が-W<x<Wの範囲外にあり、y座標が-H<y<Hの範囲外にある場合であっても、
図2の予測結果表現形式は、注視点を座標によって表現可能である。x軸とy軸とは互いに直交する予め定められた座標軸である。
【0027】
図2は、注視点の一例として、中心から画素数にして2Wだけ右に離れた位置(2W、0)に位置する点を示す。中心から2Wだけ右に離れているため、位置(2W、0)に位置する点は、画像の範囲外に位置する。
【0028】
図3は、実施形態における予測結果表現形式の第2の例を説明する説明図である。
図3は、中心からの距離rと角度θを用いて(すなわち極座標)、予測の結果の注視点の位置を表現する予測結果表現形式の一例を示す。なお、
図3の予測結果表現形式では、注視点の位置の表現に関して距離rは必ずしも用いられる必要は無い。
図3の予測結果表現形式において、注視点の位置は、角度θ(すなわち注視方向)のみで表現されてもよい。
【0029】
図4は、実施形態における予測結果表現形式の第3の例を説明する説明図である。
図4の例は、点の位置を離散化して離散化の結果を用いて表現する予測結果表現形式の一例である。離散化の方法は、例えば
図4に示すように、W×Hの単位で画像の内外の面を24の領域に分割する方法である。以下、分割後の各領域を離散化領域という。画像の内外の面が24の領域に分割されたため、各離散化領域のサイズは、W×Hである。各離散化領域は、1から分割数までの分割数個の識別子のうちの1つが付与されており、任意の点は、属する各離散化領域の識別子の値によって表現される。
【0030】
例えば
図4の点Aは、識別子が5の識別子の離散化領域に属するため、「5」と出力される。なお、識別子の付与されていない離散化領域では点は、例えば、識別子が付与された離散化領域のうち最も近い離散化領域の識別子で表現される。予測結果表現形式では、点Aの属する離散化領域が識別子の付与されていない離散化領域である場合には、例えば「該当領域無し」という情報で、点Aの属する離散化領域が識別子の付与されていない離散化領域であることを表現してもよい。なお、各離散化領域のサイズは必ずしもW×Hである必要は無い。また、離散化領域の数も必ずしも24である必要は無い。各離散化領域のサイズや離散化領域の数は、予測システム100を適用する場面に応じて適宜ユーザが予め決定してもよい。
【0031】
図5は、実施形態における予測結果表現形式の第4の例を説明する説明図である。
図5は、注視領域を分布として表現する出力の一例である。
図5は、平均(W、H)、分散σ
2の等方的な2次元正規分布として注視領域が表現された出力の一例を示す。分散は必ずしも当方的である必要は無い。分散は、x軸方向とy軸方向とでそれぞれ異なる分散であってもよい。また、分布は必ずしも正規分布である必要はない。分布は、注視領域の位置及び範囲を示すことのできる分布であればどのような確率分布であってもよい。分布は例えば確率分布であってもよい。
【0032】
予測結果表現形式は、
図2~
図5の例に限らず、学習済み予測モデル又は予測モデルによる予測の結果を表現可能であって、画像に写る空間の少なくとも外側の空間における空間領域を表現可能であればどのような表現の形式であってもよい。
【0033】
図1の説明に戻る。学習装置1は、予測モデルを学習可能な方法であればどのような方法で予測モデルを更新してもよい。予測モデルは例えばニューラルネットワークを用いて表現されてもよい。以下、予測モデルを表現する回路を予測器10という。
【0034】
学習装置1は予測器10のパラメータを更新することで予測モデルを更新する。学習終了条件が満たされた時点の予測器10のパラメータは、予測装置2に送信される。予測装置2は、予測器10と同様の回路を備え、学習装置1から取得したパラメータを用いて回路を動作させる。これにより、予測装置2は、学習装置1が取得した学習済みの予測モデルを実行する。そのため、予測装置2が備える予測器10と同様の回路は、予測器制御部211の制御対象の回路である。以下、説明の簡単のため予測装置2が備える回路であって予測器10と同様の回路もまた予測器10という。
【0035】
学習装置1が学習済みの予測モデルを取得する方法の詳細は後述するが、学習装置1が学習済みの予測モデルを取得する方法の説明のためにまずは、予測器10について説明する。
【0036】
<予測器10の説明>
予測器10は、予測モデルを表現する回路であり、予め定められた予測結果表現形式で予測モデルによる予測の結果(すなわち画像データが示す画像には写らない空間内の注視領域)を出力可能であればどのような回路であってもよい。すなわち予測器10は、画像データに基づき画像データが示す画像には写らない空間内の注視領域を予測し、予測した結果を予め定められた予測結果表現形式で出力可能であればどのような回路であってもよい。予測器10は、例えば畳み込みニューラルネットワーク(Convolutional neural network;CNN)と、長短期記憶(Long Short Term Memory;LSTM)ネットワークと、2つの全結合層(Fully Connected Layer;FC)とによって構成される回路である。
【0037】
予測器10がCNNとLSTMと2つの全結合層とで構成される回路である場合、予測器10を構成するCNNのネットワーク構造は、予測器10が予測モデルを表現可能であり予め定められた予測結果表現形式で結果を出力可能であれば、どのようなネットワーク構造であってもよい。予測器10を構成するCNNは、例えば以下の参考文献1に記載のResNetであってもよい。ResNetは画像データを直接入力して取得可能であるため、予測システム100に好適である。
【0038】
参考文献1:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition, In Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
【0039】
以下説明の簡単のため、予測器10がCNNとLSTMと2つの全結合層とで構成される回路である場合を例に、予測システム100を説明する。
【0040】
図6は、実施形態における予測器10の構成の一例を示す図である。
図6に記載の予測器10はCNN101、LSTM102、予測FC103及び停止判定FC104を備える。CNN101には画像データが入力される。CNN101は、畳み込みニューラルネットワーク(Convolutional neural network;CNN)であり、入力された画像データに基づき、入力された画像データの特徴量(以下「画像特徴」という。)を取得する。
【0041】
LSTM102は、長短期記憶ネットワークであり、CNN101の取得した画像特徴と補助情報とに基づき、領域特徴を取得する。領域特徴は、LSTM102の出力であってLSTM102の後段に位置する予測FC103及び停止判定FC104に入力される出力である。したがって、領域特徴は、中間出力の一種である。領域特徴は、画像特徴及び補助情報が示す情報の少なくとも一部と過去の注視領域の予測の結果の履歴が示す情報の少なくとも一部とを含む情報である。領域情報が含む情報の種類又は量は、学習により更新される。
【0042】
補助情報はLSTM102に入力される情報である。補助情報は、LSTM102に入力されるタイミングに応じた値を示す。補助情報が示す値は、0では無い分散を有する所定の分布にしたがう値である。補助情報は、例えばLSTM102に入力される回数に依存して定まるベクトルを示す。補助情報は、例えば1つ前のタイミングの入力以前に得られた領域特徴を示してもよい。補助情報は、例えば1つ前のタイミングの入力以前に得られた複数の領域特徴の分布の統計量を示してもよい。補助情報は、例えば画像特徴と同じ次元数dを持ち、各要素の値が以下の式(1)及び(2)により規定されるベクトル(以下「補助ベクトル」という。)を示してもよい。
【0043】
【0044】
【0045】
a(i、k)はi回目の入力時における補助ベクトルのk番目の要素の値を表す。i番目の入力時とは、補助情報がLSTM102に入力されるi回目のタイミングを意味する。cは定数である。定数cの値は、例えば10000である。
【0046】
以下説明の簡単のため、補助情報が、補助ベクトルを示す場合を例に予測システム100を説明する。
【0047】
<補助情報が奏する効果について>
補助情報が奏する効果について説明する。補助情報の奏する効果の説明のため、まずは予測器10が備えるLSTM(すなわちLSTM102)について説明する。LSTM102は、CNN101の出力である画像特徴を入力として受け取り、領域特徴を出力する。入力された1つの画像における注視領域の数は必ずしも一つとは限らない。また、入力される画像によってその数は変化しうる。
【0048】
予測器10は、LSTM102に画像特徴が複数回入力されることにより、1又は複数の注視領域を出力する。LSTMは再帰的ニューラルネットの一種であり、内部に状態変数を持ち、入力と状態変数の双方に基づいて出力が決定されるニューラルネットワークである。LSTMの状態変数は、入力を受けるたびに更新される。そのため、LSTM102に同一の画像特徴が入力された場合であっても、入力のたびにその出力は変化し得る。したがって、LSTMを用いる予測器10は、同一の画像データから得られた画像特徴が複数回入力された場合であっても、入力のたびに必ずしも同一ではない注視領域を予測することが可能である。
【0049】
補助情報が用いられる場合、入力された画像特徴が過去の学習時の画像特徴と同一であったとしても、過去に予測器10に入力された情報と異なる情報が予測器10に入力される。その結果、予測器10に入力された画像特徴が過去の学習時の画像特徴と同一であったとしても、過去の結果とは異なる結果が予測器10から出力される頻度が高まる。このように、補助情報は、予測の結果が同一でない頻度を高める効果を奏する。
【0050】
このように予測器10は例えば、画像データと補助情報とに基づき、画像データが示す画像には写らない空間内の注視領域を予測し、予測した結果を予め定められた予測結果表現形式で出力する回路である。以下、画像データに少なくとも基づき画像データが示す画像には写らない空間内の注視領域を予測する処理を、予測処理という。
【0051】
領域特徴は、予測FC103及び停止判定FC104に入力される。予測FC103は、入力された領域特徴に基づき注視領域を出力する。予測FC103の出力の形式(すなわち予測結果表現形式)は、予め定められた形式である。予測結果表現形式は、例えば予測FC103に入力される領域特徴に応じてユーザが予め定めた形式である。
【0052】
予測FC103は、例えば注視領域を
図2に示す例のように注視点が座標値として表現される場合には、2次元の座標値(x、y)を出力する。予測FC103は、例えば
図4に示す例のように点の位置が離散化されて表現される場合には、各離散化領域に注視領域が存在する確率を出力する。予測FC103は、例えば
図5に示す例のように注視領域の位置及び範囲が分布を用いて表現されている場合には、その分布のパラメータを出力する。予測FC103が出力する分布のパラメータは、例えば
図5の例であれば、平均x及びyの値と、分散σ
2の値とである。
【0053】
停止判定FC104は、領域特徴に基づき、予測処理を停止するか否かを判定する。より具体的には、停止判定FC104は、領域特徴に基づき、予測処理を停止するか否かを表す二値の値である停止判定情報tを出力する。停止判定FC104が予測処理を停止する条件は学習により得られる。学習により得られるとは、例えば損失関数が最小化されるように条件が更新されることで得られることを意味する。
【0054】
予測器10の構成がLSTMに画像特徴が複数回入力されることによって1又は複数の注視領域を出力する構成である場合、1又は複数の注視領域が出力される。しかしながら、上述したように何回出力を得るべきかについては自明ではない。そこで、停止判定FC104が領域特徴に基づき状況に応じた判定を行う。状況に応じたとは具体的には、予測処理の過程で生じた情報に基づいて、ということを意味する。
【0055】
なお、出力を得る回数は、例えば予め定められた回数(以下「最大予測回数」という。)Tであってもよい。このような場合、停止判定FC104は、例えば出力の得られた回数が最大予測回数Tに到達した場合に予測処理を停止すると判定し、出力の得られた回数が最大予測回数T未満である場合に予測処理を停止しないと判定する。
【0056】
予測器10に入力される画像データごとに適切な予測の回数(すなわち注視領域の数)は異なる。そのため、停止判定FC104による予測処理を停止するか否かの判定は、予め定められた最大予測回数Tを用いた判定よりも、上述の、領域特徴に基づいた判定の方が好ましい。
【0057】
図7は、実施形態における予測器10が実行する処理の流れの一例を示すフローチャートである。CNN101に画像データが入力される(ステップS101)。画像データは、例えばカメラで撮影された画像の画像データである。画像データは、例えば映像から抽出されたフレームの画像データであってもよく、例えば、自動車の車載カメラなどによってキャプチャされた映像のフレームの画像データであってもよい。
【0058】
次に、予測器制御部211が、予測処理の実行が開始された回数iを1に設定する(ステップS102)。回数iを1に設定するとは、補助情報を初期化することを意味する。次にCNN101が入力された画像の画像データに基づき、画像特徴fを取得する(ステップS103)。次に、画像特徴f及び補助情報aiに基づきLSTM102が領域特徴を取得する(ステップS104)。次に、領域特徴に基づき予測FC103が注視領域を予測する(ステップS105)。次に、予測FC103は、予測の結果を示す予測結果Oiを出力する(ステップS106)。
【0059】
次に、停止判定FC104が領域特徴に基づき予測処理を停止するか否かを判定する(ステップS107)。次に、停止判定FC104が、判定の結果を示す情報(すなわち停止判定情報ti)を出力する(ステップS108)。次に、予測器制御部211が、停止判定情報に基づき予測終了条件が満たされるか否かを判定する(ステップS109)。予測終了条件は、予測処理の終了に関する条件であって少なくとも停止判定情報に基づく条件である。予測終了条件は例えば、停止判定情報tiが停止を示すという条件と、予測処理の実行が開始された回数が最大予測回数T以上(すなわち、i<T)であるという条件とのいずれか一方が満たされる、という条件である。
【0060】
予測終了条件が満たされる場合、処理が終了する。一方、予測終了条件が満たされない場合、予測器制御部211は、予め定められた所定の更新の規則にしたがい補助情報aiを更新する(ステップS110)。ステップS110の次に、ステップS104の処理に戻る。
【0061】
なお、ステップS106はステップS105の実行後であってステップS109の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップS108はステップS107の実行後であってステップS109の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップS105の処理は、ステップS104の実行後であってステップS109の実行前であれば、ステップS107の処理より後に実行されてもよい。
【0062】
なお、最大予測回数Tは、任意の正数であり、例えばT=5である。最大予測回数は任意の正数でよいが、学習装置1により予測モデルの学習時に用いられる教師データが示す正解の注視領域の数の最大値よりも大きな値であることが望ましい。
【0063】
このように、予測器10は画像特徴抽出処理、予測処理及び停止判定処理を実行する。画像特徴抽出処理は、画像データに基づき画像特徴を取得する処理である。
図7の例ではステップ103の処理である。予測処理は、
図7の例では、ステップS104、ステップS105及びステップS106の一連の流れが示す処理である。停止判定処理は、画像データに少なくとも基づき予測処理を停止するか否かを判定する処理である。停止判定処理は、
図7の例では、ステップS104、ステップS107及びステップS108の一連の流れが示す処理である。
【0064】
このような処理により、予測器10は、最大T回の予測処理を通じ、最大T個の予測の結果を得ることができる。以降、予測器10による予測の結果の数をNと表す。
【0065】
<学習装置1が学習済みの予測モデルを取得する方法>
学習装置1は、訓練用データを用いて予測モデルの学習を行う。訓練用データは、画像データと正解注視領域の集合を示すデータ(以下「正解注視領域データ」という。)との対のデータである。正解注視領域は対応する画像データが示す画像には写らない空間内の注視領域である。そのため正解注視領域の集合は、対応する画像に含まれる注視領域の集合である。
【0066】
より具体的には訓練用データDは、画像データを学習データ(すなわち説明変数側のデータ)とし、正解注視領域データを教師データ(すなわち目的変数側のデータ)として含むデータである。学習データの画像データが示す画像は、注視領域を1つだけ含む画像であってもよいし、複数含む画像であってもよい。以下、学習データの画像データを画像データIと表し、正解注視領域の集合を集合{Sj}(j=1、・・・、M)と表す。したがって、訓練用データは集合D={(I、{Sj})}である。そこで以下、訓練用データを訓練用データDと表す。
【0067】
予測モデルの学習の方法は、訓練用データを用いた学習の方法であればどのような方法であってもよく、例えば強化学習の方法であってもよい。以下、強化学習による予測モデルの学習の処理(以下「予測モデル強化学習処理」という。)の一例を説明する。
【0068】
予測モデル強化学習処理は、強化予測処理と、報酬取得処理と、強化予測学習処理と、停止判定学習処理と、を含む。各処理の説明の前に、強化学習の概略を説明する。
【0069】
強化学習は、ある状況下での行動を決定するエージェントの最適な行動決定方策を学習する学習方法である。強化学習は、一連のエージェントの行動の結果、もたらされた最終的な状況が望ましいものであるか否かに応じた報酬を規定することによって、エージェントを学習させる学習方法である。
【0070】
予測モデル強化学習処理では、強化学習におけるエージェントとして予測器10を用いる。予測モデル強化学習処理では、強化学習における行動として注視領域の予測と、予測処理の停止の判定と、を用いる。予測モデル強化学習処理では、強化学習における状況として、画像データIと、過去の予測の結果の正誤と、停止の判定の結果の正誤と、を用いる。
【0071】
上述したように強化学習は、試行錯誤による探索型の学習である。より具体的には、強化学習は、更新の対象となる数理モデルを用いて結果を得た後、得られた結果に基づき報酬を算出し、報酬に基づき更新の対象の数理モデルを更新する。したがって、強化学習ではまず、更新の対象となる数理モデルを用いて結果を得る処理が行われる。予測モデル強化学習処理における、更新の対象となる数理モデルを用いて結果を得る処理、が強化予測処理である。
【0072】
したがって、強化予測処理は、予測器10を用いて予測処理及び停止判定処理を実行する処理である。
【0073】
図8は、実施形態における強化予測処理の流れの一例を示すフローチャートである。後述する学習制御部111が、訓練用データDを取得する(ステップS201)。次に、学習制御部111が、強化予測処理の実行が開始された回数iを1に設定する(ステップS202)。回数iを1に設定するとは、補助情報を初期化することを意味する。次にCNN101が入力された画像の画像データに基づき、画像特徴fを取得する(ステップS203)。次に、画像特徴f及び補助情報aiに基づきLSTM102が領域特徴を取得する(ステップS204)。次に、領域特徴に基づき予測FC103が注視領域を予測する(ステップS205)。次に、予測FC103が予測の結果を示す予測結果Oiを出力する。出力された予測結果Oiは学習制御部111により後述の記憶部13等の所定の記憶装置に記録される(ステップS206)。
【0074】
次に、停止判定FC104が領域特徴に基づき予測処理を停止するか否かを判定する(ステップS207)。次に、停止判定FC104が、判定の結果を示す情報(すなわち停止判定情報ti)を出力する。出力された停止判定情報tiは学習制御部111により所定の記憶装置に記録される(ステップS208)。次に、学習制御部111が、停止判定情報に基づき学習時予測終了条件が満たされるか否かを判定する(ステップS209)。強化予測終了条件は、強化予測処理の終了に関する条件であって少なくとも停止判定情報に基づく条件である。強化予測終了条件は、停止させるか否かの判定の対象の処理が予測処理に代えて強化予測処理である点で予測終了条件と異なる条件である。強化予測終了条件は例えば、停止判定情報tiが停止を示すという条件と、強化予測処理の実行が開始された回数が最大予測回数T以上(すなわち、i<T)であるという条件とのいずれか一方が満たされる、という条件である。
【0075】
強化予測終了条件が満たされる場合、処理が終了する。一方、強化予測終了条件が満たされない場合、学習制御部111は、予め定められた所定の更新の規則にしたがい補助情報aiを更新する(ステップS210)。ステップS210の次に、ステップS204の処理に戻る。
【0076】
なお、ステップS206はステップS205の実行後であってステップS209の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップS208はステップS207の実行後であってステップS209の実行前に実行されればどのようなタイミングで実行されてもよい。なお、ステップS205の処理は、ステップS204の実行後であってステップS209の実行前であれば、ステップS207の処理より後に実行されてもよい。
【0077】
図8の処理は、予め用意された全ての訓練データDに対して実行される。
【0078】
報酬取得処理は、正誤判定処理を含む。正誤判定処理は、強化予測処理によって得られた予測結果の集合{Oi}が正規注視領域の集合{Sj}を正しく予測できたか否かを判定する処理である。報酬取得処理では、正誤判定処理の実行の後に、正誤判定処理の結果に基づいて、報酬が取得される。報酬の取得は例えば演算により取得される。
【0079】
図9は、実施形態における報酬取得処理の流れの一例を示すフローチャートである。学習制御部111が成功予測数Qを初期化する(ステップS301)。初期化の結果、成功予測数Qには0が代入される。次に、学習制御部111は、強化予測処理によって得られた予測結果の集合{Oi}のうち未だ予測の成否が判定されていない1つの予測結果Oiを選択する(ステップS302)。次に、学習制御部111は、ステップS302で選択された予測結果Oiの予測の成否を判定する(ステップS303)。予測の成否の判定とは、具体的には、正解注視領域{Sj}のうちの少なくとも1つを予測できたか否かを判定することを意味する。正解注視領域{Sj}のうちの少なくとも1つを予測できた場合、予測は成功であり、正解注視領域{Sj}のいずれも予測できなかった場合、予測が成功しなかった(すなわち否である)ことを意味する。
【0080】
予測の成否の判定の方法は、予測結果表現形式に依存する。一例として
図2又は
図3のように注視領域が注視点によって与えられている場合について、予測の成否の判定の方法の一例を説明する。この場合、Oi、{Sj}共に点を表している。そのため、{Sj}の中からOiの距離が最も近いものをS*と決定し、S*とOiとの距離が一定以下であれば予測の成功と判定し、一定より大きければ予測の失敗と判定する方法で予測の成否は判定される。
【0081】
予測の成否の判定の方法の他の例として
図4のように離散化された領域になっている場合について、予測の成否の判定の方法の一例を説明する。この場合、Oiと{Sj}のうちの少なくとも一つのS*と、が同一の領域を示している場合に予測の成功と判定し、示していない場合に予測の失敗と判定する方法で予測の成否は判定される。また、
図5のように分布によって表現されている場合には、Oiの分布が覆う領域と{Sj}のうちの少なくとも一つS*が覆う領域との重なりが一定以上である場合に予測の成功、一定未満である場合に予測の失敗と判定する方法で予測の成否は判定される。
【0082】
ステップS303の次に、学習制御部111は、成功予測数Qを更新するとともに、予測結果Oiによって予測された正解注視領域を正解注視領域の集合{Sj}から取り除く(ステップS304)。成功予測数Qの更新は、具体的には成功予測数の値を1増加させる処理である。
【0083】
次に学習制御部111は、報酬取得条件が満たされたか否かを判定する(ステップS305)。報酬取得条件は、強化予測処理によって得られた予測結果全ての予測結果Oiについて予測の成否が判定されたという条件と、正規注視領域の集合{Sj}が空集合であるという条件と、の少なくとも一方が満たされるという条件である。なお、予測の成否の判定の処理は、具体的には、ステップS303の処理である。
【0084】
報酬取得条件が満たされない場合(ステップS305:NO)、ステップS302の処理に戻る。一方、報酬取得条件が満たされた場合(ステップS305:YES)、学習制御部111は予め定義された報酬の値を取得する(ステップS306)。
【0085】
<報酬について>
報酬について説明する。報酬は、例えば以下の式(3)で定義される量Rpredである。
【0086】
【0087】
望ましい予測モデルは、報酬が適切であればあるほど得られる確率が高まる。また、複数ある正解注視領域のうち、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できる学習を実行することが好ましい。したがって、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できた場合により大きな報酬を与えることにより、好ましい学習が実行される確率が高まる。
【0088】
上記式(3)の左辺の値は、0以上1以下の値である。上記式(3)の左辺の値は、予測回数Nが正解注視領域数Mと同数で、かつ、全ての予測が成功したとき、すなわちM=N=Qのときに最大値1.0となる。したがって式(3)で定義される報酬Rpredは、複数ある正解注視領域のうち、できる限り多くの注視領域を、なるべく少ない予測回数で、より正確に予測できた場合に高い報酬を与えるという性質を満たす。そのため、式(3)で定義される報酬Rpredは、予測モデルの学習に好適である。
【0089】
強化予測学習処理について説明する。強化予測学習処理は、報酬取得処理で得られた報酬に基づき、予測モデルを更新する。強化予測学習処理は、例えば予測器10がCNN101、LSTM102、予測FC103及び停止判定FC104を備える場合、NN101、LSTM102及び予測FC103を報酬に基づき更新する。以下、説明の簡単のためNN101、LSTM102及び予測FC103を結合した深層ニューラルネットワークを、φと表す。
【0090】
強化予測学習処理は報酬に基づきネットワークφを更新する処理である。強化予測学習処理が報酬に基づきネットワークφを更新する処理は報酬に基づく方法であればどのような方法であってもよい。例えば更新の方法は、方策勾配法であってもよい。更新の方法が方策勾配法の場合、以下の式(4)及び式(5)に基づいて、ネットワークφの重みWφが更新される。
【0091】
【0092】
【0093】
αは学習率を表す任意の正の実数値である。αは例えば0.01である。
【0094】
このように、予測モデル強化学習処理では、予測モデルを用い、訓練データに含まれる画像データに基づき注視領域を推定する処理(すなわち強化予測処理)が実行される。予測モデル強化学習処理では、報酬取得処理及び強化予測学習処理の実行により、強化予測処理によって得られた推定の結果が訓練データに含まれる正解注視領域データの示す注視領域に近づくように予測モデルが更新される。
【0095】
ここでネットワークφの学習に強化学習が用いられる方が、教師あり学習を用いる場合よりも推定精度の高い予測モデルを生成することができる。強化学習の方が推定の精度が高い理由を説明する。
【0096】
理由の1つは、予測器10によるi回目の予測結果Oiに対して、複数ある正解注視領域{Sj}のうち、どの正解注視領域と比較されるべきかが自明ではないことである。理由の1つは、予測器10による予測は、予測終了条件が満たされるまで繰り返し実行されるため、複数回の予測の結果を総合的に判断して学習を進める必要があることである。例えば、1回目の予測結果O1が正解注視領域の内の最初の一つS1を正しく示したとしても、2回目以降の予測結果O2,…,ONが、全く同じ正解注視領域S1を示す場合、2回目以降の予測結果は意味のある予測結果であるとは言い難い。
【0097】
このように、予測モデルの良し悪しは各予測結果に基づいて判断することはできず、複数回の予測結果に基づいて判断する(すなわち総合的に判断する)必要がある。さらに、予測モデルは正解注視領域を過不足なく予測できることが望ましい。理由の1つは、注視領域の予測結果{Oi}だけでなく停止判定情報{ti}についても高い精度の情報であることが望ましいことである。
【0098】
停止判定学習処理について説明する。停止判定学習処理は停止判定処理の内容を更新する処理である。停止判定学習処理は、例えばCNN101、LSTM102及び停止判定FC104を更新する。停止判定処理は、全ての正解注視領域を予測できたタイミングを停止と判断する処理であることが望ましい。全ての正解注視領域を予測できたタイミングは、例えばステップS305において{Sj}が空集合になったタイミングである。
【0099】
停止判定処理については予測処理と異なり、出力に対する明確な教示データが得られる。そのため、停止判定処理については、教師ありの機械学習の方法で更新されても強化学習で更新される場合と同程度以上の高い精度の処理が生成される。
【0100】
停止判定学習処理は、予測器10の備えるCNN101、LSTM102及び停止判定FC104の更新を行う。以下、説明の簡単のためNN101、LSTM102及び停止判定FC104を結合した深層ニューラルネットワークを、ψと表す。停止判定学習処理が実行する学習の方法は、教師有りの学習方法であればどのような方法であってもよい。停止判定学習処理は、例えば勾配法により停止判定処理の内容を更新する。一例として停止判定学習処理が実行する学習の方法が勾配法である場合について、停止判定学習処理を説明する。
【0101】
説明の簡単のため、示す内容が正解である停止判定情報(以下「正解停止判定情報」という。)であって識別子iの正解停止判定情報をuiと表す。例えば、識別子iの正解停止判定情報uiは、{Sj}が空になった場合には1を、そうでない場合には0を示す。停止判定学習処理は、以下の式(6)の損失関数が小さくなるように、ψの重みWψを更新する。
【0102】
【0103】
式(6)の損失関数は、Binary Cross Entropyと呼称される損失関数である。式(6)の損失関数は、停止判定情報tiが、正解停止判定情報uiと一致するときに小さい値を取る。したがって、式(6)の損失関数の値(すなわち損失)が小さくなるようにWψを更新していくことにより、uiに近いtiを出力可能なψが得られる。更新の方法は、例えば勾配法である。
【0104】
学習装置1は、強化予測処理、報酬取得処理、強化予測学習処理及び停止判定学習処理の各サブルーチンを順次実行することを繰り返すことにより予測モデルの学習を実行する。
【0105】
図10は、実施形態における学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入出力インタフェース12及び記憶部13を備える装置として機能する。
【0106】
より具体的には、学習装置1は、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入出力インタフェース12及び記憶部13を備える装置として機能する。
【0107】
制御部11は、学習装置1が備える各種機能部の動作を制御する。入出力インタフェース12は、学習装置1を外部装置に接続するためのインタフェースを含んで構成される。入出力インタフェース12は、有線又は無線を介して外部装置と通信する。外部装置は例えば予測装置2である。また入出力インタフェース12は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入出力インタフェース12は、これらの入力装置を学習装置1に接続するインタフェースを含んで構成されてもよい。
【0108】
入出力インタフェース12は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。入出力インタフェース12は、これらの表示装置を学習装置1に接続するインタフェースを含んで構成されてもよい。入出力インタフェース12には、例えば訓練用データが入力される。
【0109】
記憶部13は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は、学習装置1に関する各種情報を記憶する。記憶部13は、例えば制御部11が実行する処理の結果生じた各種情報を記憶する。記憶部13は、例えば、予測器10のパラメータの値を記憶する。記憶部13は、例えば予め補助情報を記憶する。記憶部13は、例えば予め最大予測回数Tを記憶していてもよい。
【0110】
図11は、実施形態における制御部11の機能構成の一例を示す図である。制御部11は、学習制御部111と予測器10とを備える。学習制御部111は予測器10の動作を制御し、予測器10の学習を実行する。学習制御部111は例えば予測モデル強化学習処理を実行する。
【0111】
図12は、実施形態における予測装置2のハードウェア構成の一例を示す図である。予測装置2は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。予測装置2は、プログラムの実行によって制御部21、入出力インタフェース22及び記憶部23を備える装置として機能する。
【0112】
より具体的には、予測装置2は、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、予測装置2は、制御部21、入出力インタフェース22及び記憶部23を備える装置として機能する。
【0113】
制御部21は、予測装置2が備える各種機能部の動作を制御する。入出力インタフェース22は、予測装置2を外部装置に接続するためのインタフェースを含んで構成される。入出力インタフェース22は、有線又は無線を介して外部装置と通信する。外部装置は例えば学習装置1である。また入出力インタフェース22は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入出力インタフェース22は、これらの入力装置を予測装置2に接続するインタフェースを含んで構成されてもよい。
【0114】
入出力インタフェース22は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。入出力インタフェース22は、これらの表示装置を予測装置2に接続するインタフェースを含んで構成されてもよい。入出力インタフェース22には、例えば推定対象の画像データが入力される。
【0115】
記憶部23は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は、予測装置2に関する各種情報を記憶する。記憶部23は、例えば制御部21が実行する処理の結果生じた各種情報を記憶する。記憶部23は、例えば、学習済みの予測モデルを記憶する。記憶部23は、例えば予め補助情報を記憶する。記憶部23は、例えば予め最大予測回数Tを記憶していてもよい。
【0116】
図13は、実施形態における制御部21の機能構成の一例を示す図である。制御部21は、予測器制御部211と予測器10とを備える。予測器制御部211は、予測装置2が備える予測器10の動作を制御する。すなわち、予測器制御部211は、学習済みの予測モデルを予測器10に実行させる。
【0117】
<適用例>
予測システム100の適用例を説明する。予測装置2は、例えば車両に設置される。この場合、予測装置2は、車両に搭載されたカメラにより取得された画像に基づき可視領域外の注視すべき領域を予測する。予測の後、予測装置2は、例えば視覚的又は聴覚的な警告を介して、注視又は注目されるべきエリアを示す。
【0118】
予測装置2は、例えばロボットに搭載されてもよい。この場合、予測装置2は、ロボットに搭載されたカメラにより取得された画像から、可視領域外の注視すべき領域を予測する。予測の後、予測装置2は、予測の結果に基づきロボットの行動を制御する制御装置に対して予測の結果を送信することで、ロボットの行動を制御する。
【0119】
このように構成された予測システム100は、画像データと画像データが示す画像には写らない空間内の注視領域との関係を示す数理モデルを得る学習装置1を備える。そのため予測システム100は、空間内の領域であって画像に写らない領域中の注視領域を予測することができる。このことは上述したように画像データに代えて映像データについても同様である。
【0120】
また、予測システム100は、学習装置1が得た数理モデルを用いて注視領域を予測する予測装置2を備える。そのため予測システム100は、空間内の領域であって画像に写らない領域中の注視領域を予測することができる。このことは上述したように画像データに代えて映像データについても同様である。
【0121】
(変形例)
なお、予測システム100、学習装置1及び予測装置2のそれぞれは、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。なお、予測システム100、学習装置1及び予測装置2それぞれの各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。なお、学習済みの予測モデルは、更新済みの数理モデルの一例である。なお、予測装置2は推測装置の一例である。なお、予測は推測の一例である。
【0122】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0123】
100…予測システム、 1…学習装置、 2…予測装置、 10…予測器、 11…制御部、 12…入出力インタフェース、 13…記憶部、 111…学習制御部、 21…制御部、 22…入出力インタフェース、 23…記憶部、 211…予測器制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ