(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06V 10/98 20220101AFI20241126BHJP
G06T 7/00 20170101ALI20241126BHJP
【FI】
G06V10/98
G06T7/00 350B
(21)【出願番号】P 2023572239
(86)(22)【出願日】2023-11-21
(86)【国際出願番号】 JP2023041869
【審査請求日】2023-11-21
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】葛 鴻鵬
(72)【発明者】
【氏名】松田 顕
(72)【発明者】
【氏名】小俣 智
(72)【発明者】
【氏名】森 啓太郎
(72)【発明者】
【氏名】早川 将和
(72)【発明者】
【氏名】藤武 将人
【審査官】小池 正彦
(56)【参考文献】
【文献】国際公開第2022/124224(WO,A1)
【文献】国際公開第2022/255418(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/98
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
判定対象物を被写体として含む画像データを取得する取得部と、
前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントであって、
前記領域についての操作を行った場合に与えられる報酬を予測し、予測された報酬が最大になるように前記領域についての操作を選択するエージェントに、前記領域を変更させる操作を選択させる選択部と、
前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出する算出部と、
前記算出部が算出した確信度に基づいて決定した報酬を、前記エージェントに与える報酬決定部と、
前記報酬決定部が決定した報酬と、前記エージェントが予測した報酬とに基づいて、前記領域に対して行う操作を前記エージェントに学習させる学習部と、
前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力する出力部と、
を有する情報処理装置。
【請求項2】
前記算出部は、前記エージェントが選択した操作に基づいて、前記判定対象物の種類として予め定められた複数のクラスそれぞれに属する確率を算出し、算出した確率に基づいて、前記領域に含まれる判定対象物の種類の確信度を算出する、
請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、前記エージェントが直前に選択した操作と、前記画像データから抽出した画像の特徴量と、に基づいて、前記領域に対して行う操作を前記エージェントに選択させる、
請求項1に記載の情報処理装置。
【請求項4】
前記報酬決定部は、
前記エージェントが選択した操作をした場合における確信度が、操作をする前の確信度より高い場合に正の報酬を前記エージェントに与え、
決定した操作をした場合における前記確信度が操作をする前の前記確信度より低い場合に負の報酬を前記エージェントに与える、
請求項3に記載の情報処理装置。
【請求項5】
前記報酬決定部は、前記エージェントが前記画像データにおける判定対象物の最終的な位置を決定した場合に、前記判定対象物の最終的な位置における前記確信度が閾値より大きい場合に正の報酬を前記エージェントに与える、
請求項3又は4に記載の情報処理装置。
【請求項6】
判定対象物を被写体として含む学習用の画像データである学習画像データと、前記学習画像データに含まれる判定対象物の種類と、を教師データとして、前記エージェントに前記判定対象物が位置する領域を決定する操作を学習させる学習部をさらに有する、
請求項1に記載の情報処理装置。
【請求項7】
コンピュータが実行する、
判定対象物を被写体として含む画像データを取得するステップと、
前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントであって、
前記領域についての操作を行った場合に与えられる報酬を予測し、予測された報酬が最大になるように前記領域についての操作を選択するエージェントに、前記領域を変更させる操作を選択させるステップと、
前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出するステップと、
算出された確信度に基づいて決定した報酬を、前記エージェントに与えるステップと、
決定された報酬と、前記エージェントが予測した報酬とに基づいて、前記領域に対して行う操作を前記エージェントに学習させるステップと、
前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力するステップと、
を有する情報処理方法。
【請求項8】
コンピュータに、
判定対象物を被写体として含む画像データを取得するステップと、
前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントであって、
前記領域についての操作を行った場合に与えられる報酬を予測し、予測された報酬が最大になるように前記領域についての操作を選択するエージェントに、前記領域を変更させる操作を選択させるステップと、
前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出するステップと、
算出された確信度に基づいて決定した報酬を、前記エージェントに与えるステップと、
決定された報酬と、前記エージェントが予測した報酬とに基づいて、前記領域に対して行う操作を前記エージェントに学習させるステップと、
前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
画像中に被写体として含まれる物体を識別する技術が知られている(例えば非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Juan C Caicedo and Svetlana Lazebnik, “Active object localizationwith deep reinforcement learning,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2488-2496.
【発明の概要】
【発明が解決しようとする課題】
【0004】
既存の画像認識技術においては、画像中に含まれる判定対象物の位置を示すアノテーションが必要であり、画像中の位置を示すアノテーションを用意するための手間がかかるという問題があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、判定対象物の位置を示すアノテーションによらず画像中に含まれる判定対象物を特定できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の情報処理装置においては、判定対象物を被写体として含む画像データを取得する取得部と、前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントに、前記領域を変更させる操作を選択させる選択部と、前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出する算出部と、前記算出部が算出した確信度に基づいて決定した報酬を、前記エージェントに与える報酬決定部と、前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力する出力部と、を有する。
【0007】
前記算出部は、前記エージェントが選択した操作に基づいて、前記判定対象物の種類として予め定められた複数のクラスそれぞれに属する確率を算出し、算出した確率に基づいて、前記領域に含まれる判定対象物の種類の確信度を算出してもよい。
【0008】
前記選択部は、前記エージェントが直前に選択した操作と、前記画像データから抽出した画像の特徴量と、に基づいて、前記領域に対して行う操作を前記エージェントに選択させてもよい。
【0009】
前記報酬決定部は、前記エージェントが選択した操作をした場合における確信度が、操作をする前の確信度より高い場合に正の報酬を前記エージェントに与え、決定した操作をした場合における前記確信度が操作をする前の前記確信度より低い場合に負の報酬を前記エージェントに与えてもよい。
【0010】
前記報酬決定部は、前記エージェントが前記画像データにおける判定対象物の最終的な位置を決定した場合に、前記判定対象物の最終的な位置における前記確信度が閾値より大きい場合に正の報酬を前記エージェントに与えてもよい。
【0011】
判定対象物を被写体として含む学習用の画像データである学習画像データと、前記学習画像データに含まれる判定対象物の種類と、を教師データとして、前記エージェントに前記判定対象物が位置する領域を決定する操作を学習させる学習部をさらに有してもよい。
【0012】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、判定対象物を被写体として含む画像データを取得するステップと、前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントに、前記領域を変更させる操作を選択させるステップと、前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出するステップと、算出された確信度に基づいて決定した報酬を、前記エージェントに与えるステップと、前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力するステップと、を有する。
【0013】
本発明の第3の態様のプログラムにおいては、コンピュータに、判定対象物を被写体として含む画像データを取得するステップと、前記画像データの少なくとも一部を含む領域であって前記判定対象物を特定するための前記領域を操作するエージェントに、前記領域を変更させる操作を選択させるステップと、前記エージェントが選択した操作がされた後の前記領域に含まれる前記判定対象物の種類の確信度を算出するステップと、算出された確信度に基づいて決定した報酬を、前記エージェントに与えるステップと、前記判定対象物が位置する領域を決定する操作を前記エージェントが選択した場合に、前記決定する操作をした時点における前記領域の位置と、前記画像データにおける前記判定対象物の種類と、を出力するステップと、を実行させる。
【発明の効果】
【0014】
本発明によれば、画像における判定対象物の位置の情報が無い場合においても画像中に含まれる判定対象物の種類を判定することができる。
【図面の簡単な説明】
【0015】
【
図1】情報処理システムSの概要を説明するための図である。
【
図2】情報処理装置1の構成を示すブロック図である。
【
図3】情報処理装置1における処理を模式的に示す図である。
【
図4】出力部135が表示させる画面の一例を示す図である。
【
図5】情報処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0016】
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明するための図である。情報処理システムSは、画像中に含まれる物体を特定するためのシステムである。情報処理システムSは、情報処理装置1及び情報端末2を有する。
【0017】
情報処理装置1は、画像中に含まれる対象物の種類と対象物が含まれる位置とを判定する装置である。より具体的には、情報処理装置1は、画像を取得し、取得した画像に含まれる対象物の位置と、対象物のクラスと、を出力する。本明細書においては、クラスは、判定対象物の種類を示す。例えば判定対象物が企業やサービスを識別するためのロゴである場合、クラスはロゴの種類を示す。ロゴは、商品等を提供する事業者を示してもよいし、事業者が提供する商品等をしてもよい。情報処理装置1は、例えばサーバである。クラスの数は教師データとして与えられる画像データに含まれる判定対象物の種類に基づいて決定される。
【0018】
情報端末2は、ユーザが操作する端末である。情報端末2は、例えばスマートフォン、タブレット、又はパーソナルコンピュータである。情報端末2は、判定対象の画像を情報処理装置1に送信し、情報処理装置1が判定した結果を取得し、取得した判定結果を表示部に表示させる。
【0019】
図1(a)を参照して情報処理システムSにおける処理について説明する。情報処理装置1は、画像データDを取得する(
図1における(1))。画像データDは、判定対象物を被写体として含む。情報処理装置1は、取得した画像データDに含まれる判定対象物の位置と種類とを特定する(
図1における(2))。情報処理装置1は、特定した判定対象物の位置と種類とを情報端末2に出力する(
図1における(3))。
【0020】
図1(b)を参照して判定対象物の位置と種類とを特定するための処理について説明する。情報処理装置1は、以下に示すように強化学習の手法により、エージェントAに領域Rに対して行う操作を選択させ、画像中の対象物の位置と種類とを特定する。領域Rは、入力された画像中の判定対象物を特定するための領域であり所謂バウンディングボックス(Bounding Box)である。エージェントAは、画像データDの特徴量に基づいて領域Rに対して行う操作を決定する。エージェントAは、操作に応じて与えられる報酬を最大化するよう領域Rに対して行う操作を学習した学習済みモデルである。一例として、エージェントAは、既知のDQN(Deep Q Network)を用いた学習により生成された学習モデルである。
【0021】
エージェントAは、画像データDにおける領域Rに含まれる画像の特徴量に基づいて領域Rに対して行う操作を選択する(
図1における(2-1))。エージェントAは、画像データDにおける領域Rに含まれる画像の特徴量に基づいて、それぞれの操作を行った場合に与えられる報酬を予測し、報酬の予測結果に基づいて操作を選択する。一例として、エージェントAは、報酬が最大になるよう操作を選択する。領域Rに対して行う操作は、領域Rの拡大、縮小、アスペクト比の変更、縦方向の移動又は横方向の移動並びに操作の終了のいずれかである。すなわち、エージェントAが領域Rに対する操作を行うことにより、領域Rの位置、大きさ、形が変更される。なお、
図2(b)においては、領域Rが縮小する操作が行われる例を示している。
【0022】
情報処理装置1は、操作後の領域Rに含まれる画像の特徴量に基づいて、分類対象のクラスごとの確信度(Confidence score)を算出する(
図1における(2-2))。情報処理装置1は、画像を入力すると、クラスごとの予測確率を出力するよう学習されたクラス予測モデルを用いて予測確率を算出し、算出した予測確率に基づいて確信度を算出する。予測確率は、判定対象物が当該クラスに属すると予測される確率を示す。確信度は予測の不確実性を示す指標である。複数のクラスの予測確率が高い場合、確信度は小さくなり、特定のクラスの予測確率のみが高い場合に確信度は大きくなる。情報処理装置1は、算出した確信度に基づいてエージェントAに与える報酬を決定する。報酬の決定方法については後述する。
【0023】
情報処理装置1は、判定対象の画像を取得した場合に、上述した(2-1)から(2-3)の処理を、エージェントAが操作の終了を選択するまで繰り返すことで、判定対象物の位置と種類とを特定する。
【0024】
領域Rが画像に含まれる判定対象物を適切に捉えていない場合、確信度は小さくなると考えられる。換言すれば、確信度が大きい場合、領域Rも適切な位置を指定していると考えられる。そのため、情報処理装置1においては、確信度を用いることにより判定対象物の位置を示すアノテーションが無い場合においても画像中に含まれる判定対象物の種類を判定することができる。特に画像中に含まれるロゴの大きさやその位置が様々であるロゴ認識タスクにおいては、情報処理装置1は好適である。
【0025】
[情報処理装置1の構成]
図2は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、取得部131、選択部132、算出部133、報酬決定部134、出力部135及び学習部136を有する。
【0026】
図3を参照して、情報処理装置1における詳細を説明する。
図3は、情報処理装置1における処理を模式的に示す図である。取得部131は、判定対象物を被写体として含む画像データDを取得する。取得部131は、画像データDを情報端末2から取得する。判定対象物は、画像認識により分類及び位置特定の対象となる物体である。一例として、判定対象物は、企業又は企業が提供するサービスを識別するためのロゴマークである。すなわち画像データDは、ロゴマークが付された物体を被写体として含む画像データである。
【0027】
取得部131は、取得した画像データDを画像エンコーダーに入力し、画像の特徴量を抽出する。なお、画像データDを取得した場合には、取得部131は、初期位置として予め設定された所定の位置(例えば画像の全体を含む領域)に領域Rを設定してもよい。なお、取得部131は、画像データDを取得した時点における確信度を、後述するように算出部133に算出させてもよい。
【0028】
選択部132は、画像データDの少なくとも一部を含む領域であって判定対象物を特定するための領域を操作するエージェントAに、領域Rを変更させる操作を選択させる。選択部132は、画像に含まれる特徴量を、エージェントAに入力し、領域Rに対して行う操作内容を示す情報を出力させる。
【0029】
算出部133は、エージェントAが選択した操作がされた領域Rに含まれる判定対象物の種類の確信度を算出する。算出部133は、エージェントAが選択した操作に基づいて、画像データDの領域Rに含まれる対象物が複数のクラスそれぞれに属する確率を算出し、算出した確率に基づいて、領域Rに含まれる判定対象物の種類の確信度を算出する。一例として、記憶部12は、画像の特徴量を入力するとクラスごとの予測確率を出力するよう学習された学習済みモデルであるクラス予測モデルを記憶しており、算出部133は、画像の特徴量をクラス予測モデルに入力することで、クラスごとの予測確率を出力させ、確信度を算出する。算出部133は、領域Rに含まれる画像の特徴量に基づいて、分類されうるクラスそれぞれについての確信度を算出する。算出部133は、それぞれのクラスの確信度を正規化してもよい。
【0030】
報酬決定部134は、算出部133が算出した確信度に基づいて決定した報酬を、エージェントAに与える。報酬決定部134は、操作前の領域Rに基づく確信度と、操作後の領域Rに基づく確信度と、に基づいてエージェントAに与える報酬を決定する。一例として、報酬決定部134は、操作後の領域に基づく確信度が操作前の領域に基づく確信度より高い場合に正の報酬をエージェントAに与え、操作後の領域に基づく確信度が操作前の領域に基づく確信度より低い場合に、負の報酬をエージェントAに与えてもよい。
【0031】
報酬決定部134は、一例として、下記の式に基づいて報酬を決定する。ここで、Reは報酬を、C´は操作後の領域Rに基づくターゲットとなるクラスの確信度を、Cは操作前の領域Rに基づくターゲットとなるクラスの確信度を、それぞれ表す。なお、sign(C´-C)は符号関数であり、引数の符号がマイナスになる場合は-1を、引数の符号が正の場合は+1を、引数が0の場合は0となる関数である。ターゲットとなるクラスは、例えば、判定対象のクラスのうち、最も確信度が大きいクラスである。
【0032】
【0033】
選択部132及び算出部133及び報酬決定部134は、エージェントAによって操作の終了が選択されるまでの間上述の処理を繰り返す。出力部135は、判定対象物が位置する領域を決定する操作をエージェントAが選択した場合に、決定する操作をした時点における領域Rの位置と、画像データDにおける判定対象物の種類と、を出力する。出力部135は、操作の終了が選択された時点における領域Rの位置と、判定結果のクラスと、を含む画面を情報端末2に表示させてもよい。
図4は、出力部135が表示させる画面の一例を示す図である。
図4に示す画面においては、判定対象の画像Pに、操作の終了が選択された時点における領域Rの位置を示すオブジェクトが重畳して表示されるとともに、判定結果のクラスを示す情報が表示されている。判定結果のクラスは、例えば、操作の終了が選択された時点において最も確信度が大きいクラスである。
【0034】
学習部136は、エージェントAが予想した報酬と、操作を繰り返した結果実際にエージェントAに与えられた報酬と、に基づいて、エージェントAのパラメータを更新し、エージェントAを学習させる。
【0035】
なお、エージェントAの学習が完了した場合の推論段階の処理においては、報酬決定部134の処理は省略されてもよい。
【0036】
情報処理装置1がこのように構成されることで、画像における判定対象物の位置の情報が無い場合においても画像中に含まれる判定対象物の種類を判定することができる。
【0037】
過去の操作の履歴を入力データとしてさらに用いて操作を決定するよう選択部132が構成されてもよい。すなわち、選択部132は、エージェントAが直前に選択した操作と、画像データDから抽出した画像の特徴量と、に基づいて、領域Rに対して行う操作をエージェントAに選択させる。選択部132は、過去数回分の操作内容に基づいて、領域Rに対して行う操作をエージェントAに選択させてもよい。このように選択部132が構成されることで、より適切な操作内容を選択させることができ、判定の精度を向上させることができる。
【0038】
領域Rに対する操作が終了し、最終的な領域Rの位置が決定された場合の確信度に基づいてエージェントAに与える報酬を決定するよう報酬決定部134が構成されてもよい。報酬決定部134は、エージェントAが画像データDにおける判定対象物の最終的な位置を決定した場合に、判定対象物の最終的な位置における確信度が閾値より大きい場合に正の報酬をエージェントAに与える。最終的な領域Rの位置が決定された場合における報酬は一例として以下の式で表される。
【0039】
【数2】
ここで、Reωは最終的な位置が決定された場合の報酬を、ηは最終位置における報酬として予め設定された値を、τは確信度の閾値として予め設定された値を、それぞれ示す。ηの値は操作内容決定時に与える報酬より大きく設定されてもよい。τの値は判定対象物の認識精度に基づいて決定される。
【0040】
報酬決定部134がこのように構成されることで、決定した操作に基づく報酬と最終的な位置に基づく報酬とのバランスをとることができ、判定精度を向上させることができる。
【0041】
[学習について]
2段階でエージェントの学習を行うよう情報処理装置1が構成されてもよい。まず、取得部131は学習画像データ及び学習画像データに含まれる被写体が属するクラスを取得する。学習画像データは、判定対象物を被写体として含む学習用の画像データである。学習部136は、学習画像データと、学習画像データに含まれる判定対象物のクラスと、を教師データとして、エージェントAに判定対象物が位置する領域を決定する操作を学習させる。
【0042】
学習部136は、学習画像データと学習画像データに含まれる判定対象物のクラスと、を用いてクラス予測モデルを学習させる。一例として、学習部136は、クラス予測モデルが予測したクラスと正解クラスとの交差エントロピー誤差に基づいてクラス予測モデルのパラメータを更新してもよい。この段階においては、学習部136は、画像中に判定対象物が大きく写りこむ学習画像データを用いてクラス予測モデルを学習させる。
【0043】
次に、学習部136は、学習画像データと学習画像データに含まれる判定対象物のクラスとに基づいて、エージェントAとクラス予測モデルとを同時に学習させる。一例として、学習部136は、エージェントAが予想した報酬と実際にエージェントAに与えられた報酬とに基づいて、エージェントAのパラメータを更新する。
【0044】
このように2段階で学習するよう学習部136が構成されることにより、判定対象物についての情報及び最適な操作を効率的かつ包括的に学習させることができる。
【0045】
[情報処理装置1における処理の流れ]
図5は、情報処理装置1における処理の流れを示すフローチャートである。
図5に示すフローチャートは、情報処理装置1が判定処理を実行する指示を受付けた時点から開始している。
【0046】
取得部131は、画像データDを取得する(S01)。取得部131は、画像データDを画像エンコーダーに入力し、画像の特徴量を抽出する(S02)。取得部131は、領域Rの初期位置を決定する(S03)。
【0047】
算出部133は、画像の特徴量と領域Rの位置とに基づいて、それぞれのクラスの確信度を算出する(S04)。具体的には、算出部133は、抽出した特徴量に基づいて画像データDに含まれる判定対象物がそれぞれのクラスに属する予測確率を算出し、算出した予測確率に基づいて、確信度を算出する。
【0048】
選択部132は、画像の特徴量と領域Rの位置とをエージェントAに入力し、領域Rに対する操作を選択させる(S05)。選択部132は、過去の操作を示す情報をさらにエージェントAに入力して、操作を出力させてもよい。
【0049】
選択部132は、終了条件を満たすか否かを判定する(S06)。終了条件は、エージェントAが操作の終了を選択したことである。終了条件を満たす場合(S06におけるYES)、情報処理装置1は、処理をS10に進める。
【0050】
終了条件を満たさない場合(S06におけるNO)、算出部133は、画像の特徴量と操作後の領域Rの位置とに基づいて、それぞれのクラスの確信度を算出する(S07)。報酬決定部134は、操作前の領域Rに基づく確信度と、操作後の領域Rに基づく確信度と、に基づいてエージェントAに与える報酬を決定する(S08)。
【0051】
情報処理装置1は、既定の回数、S05~S08の処理を実行したか否かを判定する(S09)。S05~S08の処理を実行した回数が既定の回数以上である場合(S09におけるYES)、情報処理装置1は、処理をS10に進める。既定の回数に到達していない場合(S09におけるNO)、情報処理装置1は、処理をS05に進める。なお、情報処理装置1は、既定の回数S05~S08の処理を実行したかに変えて又は加えて、報酬が一定の値に達した場合に処理をS10に進めてもよい。
【0052】
終了条件を満たす場合(S06におけるYES)、又は、S05~S08の処理を実行した回数が既定の回数以上である場合(S09におけるYES)、算出部133は、最終的な領域Rの位置が決定された場合の確信度に基づいてエージェントAに与える報酬を決定する(S10)。出力部135は、判定結果を出力する(S11)。具体的には、出力部135は、算出部133が算出した予測結果と、エージェントAが決定した最終的な領域Rの位置と、に基づいて、判定対象物の種類と、判定対象物の位置と、を出力する。そして、情報処理装置1は、処理を終了する。
【0053】
[本実施の形態における効果]
以上説明したとおり、情報処理装置1は画像における判定対象物の位置の情報が無い場合においても画像中に含まれる判定対象物の種類を判定することができる。
【0054】
以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0055】
1 情報処理装置
2 情報端末
11 通信部
12 記憶部
13 制御部
131 取得部
132 選択部
133 算出部
134 報酬決定部
135 出力部
136 学習部
【要約】
判定対象物を被写体として含む画像データを取得する取得部131と、画像データの少なくとも一部を含む領域であって判定対象物を特定するための領域を操作するエージェントに、領域を変更させる操作を選択させる選択部132と、エージェントが選択した操作がされた後の領域に含まれる判定対象物の種類の確信度を算出する算出部133と、算出部が算出した確信度に基づいて決定した報酬を、エージェントに与える報酬決定部134と、判定対象物が位置する領域を決定する操作をエージェントが選択した場合に、決定する操作をした時点における領域の位置と、画像データにおける判定対象物の種類と、を出力する出力部135と、を有する情報処理装置1である。