(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-28
(45)【発行日】2024-12-06
(54)【発明の名称】情報処理装置及び方法、撮像装置、及び撮像システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241129BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020122345
(22)【出願日】2020-07-16
【審査請求日】2023-07-18
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】川地 周平
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2019-118098(JP,A)
【文献】特開2012-088787(JP,A)
【文献】特開2018-129682(JP,A)
【文献】特開2000-048212(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
撮像の指示に応じて取得された第一の画像と、当該第一の画像の前に自動的に取得された複数の第二の画像とを記憶する記憶手段と、
前記第一の画像における被写体を特定するための特定手段と、
前記特定手段により特定された前記被写体を、前記第一の画像の前に取得された前記複数の第二の画像から検出する検出手段と、
前記複数の第二の画像のそれぞれから前記検出された被写体の領域に関する情報と、前記複数の第二の画像とを、それぞれ対応付けたセットを学習用データとして採用するよう制御する制御手段と
、を有し、
を有する前記検出手段は、前記第一の画像と、前記第二の画像との差が、所定の差よりも小さい場合、前記被写体の検出を行わないことを特徴とする情報処理装置。
【請求項2】
前記特定手段は、ユーザにより指定されることによって前記第一の画像における被写体を特定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記特定手段は、輪郭抽出により前記第一の画像における被写体の領域を検出することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記検出手段は、前記特定手段により特定された前記第一の画像における被写体を追尾する追尾処理を用いて、前記複数の第二の画像から前記被写体を検出することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記検出手段は、前記複数の第二の画像を時間的に遡って追尾処理を行うことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記追尾処理では、動きベクトルを検出することを特徴とする請求項4または5に記載の情報処理装置。
【請求項7】
撮像手段と、
請求項1乃至
6のいずれか1項に記載の情報処理装置と、
前記検出手段により検出された前記被写体の領域の情報に基づいて、被写体を推測するための推論モデルを生成する学習手段と、
前記学習手段により生成された推論モデルを用いて、前記撮像手段により撮影された画像から前記被写体の領域を推測する推測手段と
を有することを特徴とする撮像装置。
【請求項8】
前記推測手段により推測された前記被写体の領域を示す表示を、前記撮像手段により撮影された画像に重畳表示する表示手段を更に有することを特徴とする請求項
7に記載の撮像装置。
【請求項9】
請求項1乃至
6のいずれか1項に記載の情報処理装置と、
撮像装置と
からなり、
前記撮像装置が、
撮像手段と、
前記情報処理装置と通信するための通信手段と、
前記情報処理装置の前記検出手段により検出された前記被写体の領域の情報に基づいて、被写体を推測するための推論モデルを生成する学習手段と、
前記学習手段により生成された推論モデルを用いて、前記撮像手段により撮影された画像から前記被写体の領域を推測する推測手段と、を有する
ことを特徴とする撮像システム。
【請求項10】
撮像の指示に応じて取得された第一の画像と、当該第一の画像の前に自動的に取得された複数の第二の画像とを記憶手段に記憶する記憶工程と、
前記第一の画像における被写体を特定するための特定工程と、
前記特定工程により特定された前記被写体を、前記第一の画像の前に取得された前記複数の第二の画像から検出する検出工程と、
前記複数の第二の画像のそれぞれから前記検出された被写体の領域に関する情報と、前記複数の第二の画像とを、それぞれ対応付けたセットを学習用データとして採用するよう制御する制御工程と
、を有し、
前記検出工程では、前記第一の画像と、前記第二の画像との差が、所定の差よりも小さい場合、前記被写体の検出を行わないことを特徴とする情報処理方法。
【請求項11】
コンピュータに、請求項1乃至
6のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
【請求項12】
請求項
11に記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び方法、撮像装置、及び撮像システムに関し、特に、撮影して得られた画像から被写体を検出するための機械学習を行う情報処理装置及び方法、撮像装置、及び撮像システムに関する。
【背景技術】
【0002】
近年、ディープラーニング技術の発展等により、機械学習による画像の物体認識技術の開発が一層盛んに行われている。例えばデジタルカメラでは、ライブビュー撮影で取得した画像から被写体を検出し、被写体に自動的にフォーカスを合わせて(AF)追従するためにこのような技術を適用している。
【0003】
機械学習は、学習と推論のフェーズに分けられ、学習して得られた辞書データをもとに推論を行う。機械学習により物体認識を行うための学習フェーズでは、認識しようとする対象物体を示す正解ラベルを伴った画像が大量に必要となる。
【0004】
特許文献1では、時系列の画像データを用い、画像と正解ラベルのペアを教師データとして、機械学習に用いる教師データを効率的に生成する技術について開示されている。この技術は時系列の画像のうち、すでにラベル付けされた画像があった場合に、その前に記録された画像における被写体位置を推定してラベル付けを行っていくことで、時系列画像を用いて効率的に学習を行うものである。
【0005】
さらに、特許文献2では、元となる教師データに対して、反転、色調変更、拡大縮小、並行移動、歪曲変形や別画像との合成等の画像処理を行うことで教師データを増やす技術について開示されている。この技術を用いることで、学習のために必要となる画像の撮影枚数を減らすことが可能になる。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2019-75130号公報
【文献】特許第6441980号
【発明の概要】
【発明が解決しようとする課題】
【0007】
機械学習でより精度の高い物体認識を行うためには、数千から数万程度の教師データが必要とされているが、特許文献1及び2に示す例では、十分な教師データを得ることができない。
【0008】
例えば、
図2は、ユーザがライブビュー(LV)画像201~205を見ながら被写体である自動車200を追い、静止画像206を撮影した例を示している。特許文献1及び2にあるように撮影後にユーザが画像を選んで自動車200を被写体としてラベル付けして学習させる場合、記録されているのは静止画像206であり、LV画像201~205は記録されていない。この一連の画像において、LV画像201等の早い段階で被写体である自動車200を認識できた場合、露出や焦点調節、フレーミング等、より適切な撮影を行うことが可能になる。
【0009】
しかしながら、被写体である自動車200は、撮影角度や距離が変化するため、その見た目の形や大きさが変化している。そのため、特許文献1に記載されているように、静止画像206及びその前に記録された画像を用いて教師データを生成した場合、再びLV画像201のような状態となった自動車200を精度よく認識できないことが考えられる。また、このような見た目の変化は、特許文献2の画像処理で生成できる教師データの範疇を超えている。
【0010】
また、特許文献1にあるように、画像に対する最終的なラベル付けを人間の目視による判断に基づいて行う場合、大きな労力を伴うことから、これも課題となっている。
【0011】
本発明は上記問題点を鑑みてなされたものであり、物体認識のための機械学習に用いることのできる教師データを効率的に増やすことを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、本発明の情報処理装置は、撮像の指示に応じて取得された第一の画像と、当該第一の画像の前に自動的に取得された複数の第二の画像とを記憶する記憶手段と、前記第一の画像における被写体を特定するための特定手段と、前記特定手段により特定された前記被写体を、前記第一の画像の前に取得された前記複数の第二の画像から検出する検出手段と、前記複数の第二の画像のそれぞれから前記検出された被写体の領域に関する情報と、前記複数の第二の画像とを、それぞれ対応付けたセットを学習用データとして採用するよう制御する制御手段と、を有し、前記検出手段は、前記第一の画像と、前記第二の画像との差が、所定の差よりも小さい場合、前記被写体の検出を行わない。
【発明の効果】
【0013】
本発明によれば、物体認識のための機械学習に用いることのできる教師データを効率的に増やすことができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態における機能構成を示すブロック図。
【
図2】静止画像と、静止画像を撮影する前のLV画像の一例を示す図。
【
図3】実施形態におけるLV画像付き静止画像の例を示す図。
【
図4】実施形態における学習用の教師データの概念を示す図。
【
図5】実施形態における学習する被写体種別の指定を行う際の表示の例を示す図。
【
図6】実施形態における学習する画像を選択する際の表示の例を示す図。
【
図7】実施形態における学習する被写体の領域を指定する操作の例を示す図。
【
図8】実施形態における静止画像からLV画像に向かって被写体を追尾する例を示す図。
【
図9】実施形態における被写体認識の学習処理の詳細な流れを説明するフローチャート。
【
図10】実施形態における被写体認識の学習処理の詳細な流れを説明するフローチャート。
【
図11】実施形態において、学習済み推論モデルを用いて推定した被写体の被写体枠を、ライブビュー画像に重畳表示した例を示す図。
【発明を実施するための形態】
【0015】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0016】
図1は、本発明の実施形態における撮像装置100の機能構成を示すブロック図である。撮像装置100は、撮像部101、画像処理部102、撮影画像記憶部103、記録・再生部104、ライブビュー(LV)画像記憶部105、教師データ生成部106を有する。更に、操作・表示部107、教師データ記憶部108、学習部109、推論モデル記憶部110、推論部111及び被写体位置情報記憶部112を有する。
【0017】
撮像部101は、光学系及び撮像素子(不図示)を備え、光学系を通して入射した被写体像を撮像素子で光電変換し、映像データに変換して出力する。画像処理部102は、撮像部101が出力した映像データに対して適切な画像処理を施す。画像処理部102は、例えば中央演算処理装置(CPU)で実装される。また画像処理の得意なグラフィクスプロセッシングユニット(GPU)で実装されてもよい。撮像部101により撮影動作を所定の周期で繰り返し行い、画像処理部102により画像処理された映像データを操作・表示部107に逐次表示することで、ライブビュー(LV)表示を実現することができる。ユーザは、LV表示を見ながら構図や撮影設定を決めて静止画像を撮影することができる。操作・表示部107は、タッチパネルを搭載したディスプレイで実装される。なお、以下の説明においては、LV表示のために取得した表示用画像をLV画像と呼ぶ。
【0018】
撮影画像記憶部103は、静止画像及びLV画像を記憶するための不揮発性メモリ、ライブビュー(LV)画像記憶部105は、LV画像の撮影中に操作・表示部107にLV画像を出力するための表示画像を一時的に記憶するメモリである。記録・再生部104は、画像処理部102により画像処理された静止画像やLV画像の映像データの撮影画像記憶部103及びLV画像記憶部105への記録や再生を制御する。記録・再生部104は例えば中央演算処理装置(CPU)で実装される。
【0019】
操作・表示部107は、タッチパネルを備えた表示装置(不図示)であり、LV画像記憶部105に一時記憶されたLV画像や、ユーザインタフェース(以下UI)を表示すると共に、ユーザからの操作を受け付ける。
【0020】
撮像装置100は、撮影した静止画像やLV画像から被写体を検出するための学習機能及び推論機能を有しており、教師データ生成部106は、被写体を検出するための教師データを生成する。なお、教師データ生成部106は、被写体種別指定部106A、画像選択部106B、被写体領域指定部106C、被写体追尾部106Dを有する。教師データ生成部106は例えば中央演算処理装置(CPU)で実装される。
【0021】
教師データ記憶部108は、教師データ生成部106が生成した教師データを記憶し、学習部109に受け渡す。学習部109は教師データを元に学習を行い、推論モデルを生成する。推論モデル記憶部110は推論モデルを記憶する。推論部111は、推論モデルに基づいて、LV画像から被写体検出(推論)を行う。被写体位置情報記憶部112は、推論部111によって検出された被写体の位置を記憶する。教師データ記憶部108及び推論モデル記憶部110は例えば不揮発性メモリで実装される。また、学習部109及び推論部111は、例えば中央演算処理装置(CPU)で実装される。また、より行列演算の得意なGPUで実装されてもよい。あるいは、CPUとGPUとが連携して実装されてもよい。また、推論モデルに用いられる具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。以下の説明では、ディープラーニングを利用して推論モデルを生成する場合を例に挙げて述べる。
【0022】
なお、本実施形態では、静止画やLV画像のうち、被写体検出の学習に用いる画像を「学習用画像」と呼ぶ。
【0023】
(撮像機能)
撮像装置100の撮影機能について説明する。ユーザが操作・表示部107に対する指示によって撮影モードを設定すると、ライブビュー動作が開始される。
【0024】
ライブビュー動作時、撮像部101で周期的に撮像されたLV画像は、画像処理部102によって適切な画像処理が施された後、LV画像記憶部105を経由して、逐次、操作・表示部107の表示装置にLV表示される。LV画像記憶部105は直近のLV画像を所定枚数バッファする。
【0025】
ユーザがLV表示を見ながら構図や撮影条件を設定し、静止画像撮影を指示すると、以下の処理が行われる。まず、撮像部101で撮像された静止画像は画像処理部102によって適切な画像処理が施された後、記録・再生部104を経由して撮影画像記憶部103に記録される。さらに、学習用画像として利用するために、LV画像記憶部105にバッファされている所定枚数の直近のLV画像を静止画像と関連付けて記録する。この関連付けられたデータセットを以下、「LV画像付き静止画像」と呼ぶ。
【0026】
図2に示す撮影例では、
図3のように、LV画像付き静止画像300は、静止画像206と直近の複数のLV画像201~205とからなる。LV画像付き静止画像300は、ユーザが撮影した静止画像206の記録データとしての役割と、被写体検出の学習用画像としての役割とを兼ねるものである。
【0027】
なお、撮影画像が動かない場合はLV画像を学習用画像としても追加の教師データにはならない。またLV画像のコマ間で差分が少ない場合に全てのLV画像を学習に用いるのは効率的でない。そのため、画像間差分検出部(不図示)を更に設け、LV画像間の差分が予め決められた閾値を下回る場合は、該当するLV画像を記録しないようにしてもよい。
【0028】
(学習について)
続いて、撮像装置100の学習機能について説明する。この機能は撮影後、撮りためた静止画像に写っている被写体をユーザが指定すると、その被写体を検出できるように学習する機能である。
【0029】
本実施形態における、被写体検出を学習するための教師データは、学習用画像、被写体種別及びその画像中の被写体の位置情報のセットである。
図4を参照して学習機能の概念について説明する。この例において教師データは、画像400、被写体種別、この画像内における学習対象の被写体(自動車)をちょうど含む矩形領域401の情報からなる。データ形式としては、404に示すように画像ファイル名、被写体種別名、矩形領域401の対角をなす2つの点402、403の座標値である。
【0030】
教師データは、LV画像付き静止画像とユーザからの指示を元に教師データ生成部106によって生成される。具体的には、被写体種別指定部106Aによって学習する被写体の種別を指定し、画像選択部106BによってLV画像付き静止画像から学習する静止画像を選択する。そして、被写体領域指定部106Cによって選択した静止画像中の被写体領域を指定することで教師データが得られる。さらに、被写体追尾部106Dによって静止画像に関連付けられたLV画像中の被写体領域を推定し、それらも追加の教師データとする。得られた教師データは教師データ記憶部108に記憶され、学習部109はこの教師データを参照して学習を行う。
【0031】
以下、
図9のフローチャートを参照して、被写体認識の学習処理について詳細に説明する。
【0032】
S901において、被写体種別指定部106Aは、操作・表示部107を経由してユーザから被写体種別を受け取るための制御を行う。このときの操作・表示部107への表示例を
図5に示す。被写体として車を新たに追加したい場合は、501のように被写体種別を入力して確定釦502をタップして確定する。登録済みの被写体種別の場合は登録済みリスト503の中から選択する。
【0033】
次に、S902において、画像選択部106Bは、学習させたい画像を選択するための制御を行う。記録・再生部104を経由して撮影画像記憶部103から記憶されている静止画像を読み出し、一覧を操作・表示部107に表示する。その表示例を
図6に示す。ウインドウ600内の領域601に画像一覧がサムネイル表示されており、ユーザが所望の画像をタップし、終了ボタン602を押すことで静止画像を選択することができる。
【0034】
次に、S903において、選択した静止画像に対応するLV画像付き静止画像を用いて、被写体認識の学習処理を行う。ここで、
図10のフローチャートを参照して、S903で行われる学習処理について説明する。
【0035】
S1001において、被写体領域指定部106Cは、選択された静止画像における被写体の位置情報をユーザから取得するための制御を行う。その際の操作・表示部107における操作例を
図7に示す。この例では自動車を学習させるために、まず、選択された静止画像701を操作・表示部107に表示する。そして、操作・表示部107のタッチパネル700上の位置AからBにドラッグすることで自動車の領域をちょうど含むA,Bを対角とする矩形702を指定する。このようにして選択された静止画像、被写体種別及び被写体領域を表す矩形情報のセットが教師データとなる(S1002)。
【0036】
なお、本実施形態では、被写体の矩形領域指定をユーザ自身が行っているが、これに限定されるものではなく、例えばユーザが被写体の一部をタップし、既知の輪郭抽出技術を用いて被写体領域を抽出するように構成してもよい。
【0037】
S1003において、被写体追尾部106Dは、選択された静止画像のLV画像付き静止画像を学習対象とし、当該静止画像の1枚前に撮影されたLV画像があるかどうかを判断する。無い場合には処理を終了する。一方、1枚前に撮影されたLV画像がある場合には、S1004に進み、学習対象となったLV画像付き静止画像について、静止画像上の被写体を基準にしてLV画像を時間順に遡って追尾し、被写体領域を推測する制御を行う。ここで、
図3に示すLV画像付き静止画像300とした場合に、この時に行われる追尾の具体例を
図8に示す。上述したように、LV画像付き静止画像300は、静止画像206及びLV画像201~205からなる。撮影された時間順は、LV画像201が最も早く、以降LV画像202、203、204、205、静止画像206となっている。
【0038】
静止画像206に対して被写体である自動車の矩形領域807が指定されているとき、被写体追尾部106Dは、静止画像206の1枚前のLV画像205から被写体である自動車を検出する。被写体追尾に成功して、被写体を検出できた場合には(S1005でYES)、LV画像205において検出した被写体領域を示す矩形情報を、教師データとして教師データ記憶部108に記憶(S1006)する。そして、S1003の処理に戻って、更に1枚前のLV画像204に対して上述した処理を繰り返す。
【0039】
このように、LV画像205~201を時間的に遡りながら被写体の追尾を行い、LV画像205~201中の矩形領域808~812を推測する。このようにしてLV画像205~201についても教師データを生成する。
【0040】
一方、被写体追尾に失敗して被写体を見つけられなかった場合は(S1005でNO)、S1007に進み、被写体ロストとして処理を終了する。
【0041】
なお、被写体追尾部106Dの追尾処理は、例えば動きベクトル検出等、公知の技術を用いて実現可能である。
【0042】
なお、撮影画像が動かない場合はLV画像を学習用画像としても追加の教師データにはならない。またLV画像のコマ間で差分が少ない場合に全てのLV画像を学習に用いるのは効率的でない。そのため、画像間差分検出部(不図示)を設け、LV画像から教師データを生成する際、前回教師データとした静止画像やLV画像に対する画像または被写体領域の差分が予め決められた閾値を下回っている間は教師データとせず、LV画像を間引くように構成してもよい。
【0043】
図10に示す学習処理が終了すると、
図9のS904に進む。S904では、教師データとして登録する静止画像を追加するかどうかを判断し、追加する場合にはS902に戻って上記処理を繰り返し、追加しない場合には、処理を終了する。
【0044】
また、本実施形態では、撮影画像記憶部103、教師データ生成部106、教師データ記憶部108及び学習部109を撮像装置100内に配置して処理しているが、本発明はこれに限られるものでは無い。これらの一部または全部をクラウド化し、撮像装置100内の通信部(不図示)を経由してクラウド上で処理するように構成したり、PC等の情報処理装置に接続して処理するように構成し、撮像装置100と共に撮像システムを構築してもよい。
【0045】
以上のように、ユーザが撮影した静止画像だけでなく、その直前のライブビュー画像を用いることで、被写体検出のための機械学習に用いることのできる教師データを効率的に増やすことができる。
【0046】
そして、学習部109は、上述したようにして教師データ記憶部108に記憶された教師データを用いて学習を行い、推論モデルを生成して、推論モデル記憶部110に記憶する。
【0047】
(推論機能)
最後に撮像装置100の推論機能について説明する。推論機能は、上述した学習機能によって得られた推論モデルを元に、撮影された画像から被写体を検出する機能である。ここでは、ライブビュー撮影時に被写体を検出して、撮影をアシストするために用いる例について説明する。
【0048】
推論部111は、LV画像記憶部105からLV画像を取得し、推論モデル記憶部110に記録された学習済み推論モデルを元に、推論(被写体検出)を行う。推論の結果、被写体種別及び、被写体をちょうど含む矩形領域の情報を得る。この情報を、以下「被写体位置情報」と呼ぶ。被写体位置情報は被写体位置情報記憶部112に記録される。操作・表示部107は、被写体位置情報を用いて、表示されるライブビュー画像に被写体枠を重畳する。これによってユーザはカメラが被写体を認識している状況を知ることができる。
図11は、学習済み推論モデルを用いて推定した被写体の被写体枠を、ライブビュー画像に重畳表示した例を示す図である。
【0049】
また、撮像部101及び画像処理部102も被写体位置情報を利用して被写体にフォーカスや露出を合わせたり、被写体種別に応じた最適な画像処理を行ったりすることができる。
【0050】
また、学習済みの被写体種別のうち、どれを検出するかをユーザが選択するように構成すれば、撮影状況に応じてユーザが所望する被写体に対してのみ反応させることも可能である。
【0051】
<他の実施形態>
また、本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。
【0052】
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。
【0053】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0054】
100:撮像装置、101:撮像部、102:画像処理部、103:撮影画像記憶部、104:記録・再生部、105:LV画像記憶部、106:教師データ生成部、106A:被写体種別指定部、106B:画像選択部、106C:被写体領域指定部、106D:被写体追尾部、107:操作・表示部、108:教師データ記憶部、109:学習部、110:推論モデル記憶部、111:推論部、112:被写体位置情報記憶部