(58)【調査した分野】(Int.Cl.,DB名)
前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた大きさに拡大又は縮小した領域を占める前記部分画像を抽出する、
ことを特徴とする請求項1又は2に記載の画像認識装置。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について図面に基づき詳細に説明する。
【0014】
図1は、本発明の一実施形態に係る画像認識装置10の構成図である。本実施形態に係る画像認識装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。
図1に示すように、本実施形態に係る画像認識装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
【0015】
プロセッサ12は、例えば画像認識装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
【0016】
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
【0017】
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
【0018】
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
【0019】
なお、画像認識装置10は、ネットワークボードなどの通信インタフェース、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
【0020】
図2は、画像認識装置10での画像認識の対象となる撮影画像20の一例を示す図である。撮影画像20は、例えばデジタルカメラなどのカメラで実空間内の被写体を撮影した画像である。
【0021】
図3は、
図2に例示する撮影画像20に対応付けられるデプス画像22の一例を示す図である。デプス画像22は、撮影画像20に含まれる画素のそれぞれに対応付けられる、カメラから被写体までの距離の分布を表している。
【0022】
図2に示す撮影画像20は、ステレオカメラや赤外線測距センサ付きのカメラなどといった、深さ情報に関連付けられた撮影画像の撮影が可能なカメラが実空間内の被写体を撮影した画像であっても構わない。そしてこの場合における深さ情報に相当する画像が、
図3に示すデプス画像22であっても構わない。
【0023】
また例えば、複数の方向から被写体を撮影した撮影画像に基づいて、撮影画像20を撮影した際のカメラの位置、向き、及び、画角に対応付けられる深さ情報が生成されるようにしてもよい。そしてこの深さ情報に基づいて、
図3に示すデプス画像22が生成されてもよい。
【0024】
そして本実施形態では、撮影画像20及びデプス画像22に対して、第1の画像認識及び第2の画像認識が実行される。本実施形態では、第1の画像認識は、撮影画像20の全体及びデプス画像22の全体に対して実行される。そして第2の画像認識は、撮影画像20の一部及びデプス画像22の一部に対して実行される。以下、本実施形態における第1の画像認識を全体認識と呼び、第2の画像認識を部分認識と呼ぶこととする。
【0025】
本実施形態では、まず、撮影画像20及びデプス画像22が全体認識に用いられる学習済モデルに入力される。この学習済モデルは例えば、画像に表れている、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体を認識できるモデルである。ここで全体認識において撮影画像20及びデプス画像22が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク(二次元CNN)であってもよい。そしてこの入力に応じて当該学習済モデルから、撮影画像20及びデプス画像22に対する画像認識の実行結果が出力される。
図4には、当該実行結果の一例である、全体認識結果画像24の一例が示されている。
【0026】
以下の説明では、撮影画像20、デプス画像22、及び、全体認識結果画像24のそれぞれにおいて、右方向がX軸正方向で下方向がY軸正方向であることとする。また、撮影画像20、デプス画像22、及び、全体認識結果画像24は同じ形状で同じ大きさの画像であることとする。
【0027】
図4に示すように、全体認識結果画像24は、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割されている。全体認識結果画像24には、例えば、テーブルに対応付けられるテーブル領域26、ソファーに対応付けられるソファー領域28、カーテンに対応付けられるカーテン領域30、及び、椅子に対応付けられる椅子領域32が示されている。ここで椅子領域32のように、互いに分離された複数の領域が同じカテゴリの領域として認識されてもよい。そして全体認識結果画像24内の画素の位置は、撮影画像20内の画素の位置、及び、デプス画像22内の画素の位置に対応付けられる。
【0028】
そして本実施形態では、特定の物体が表されている全体認識結果画像24内の、予め定められている特定のカテゴリの物体に対応付けられる領域が、基準領域34として特定される。以下、当該特定のカテゴリの物体を部分認識ターゲットと呼ぶこととする。
【0029】
ここで部分認識ターゲットが、
図5に例示する部分認識管理データにおいて設定されていてもよい。
図5に示すように、部分認識管理データには、例えば、部分認識ターゲットデータ、移動変形規則データ、及び、部分認識モデルIDが含まれる。
【0030】
部分認識ターゲットデータは、例えば、部分認識ターゲットの名称等を示すデータである。移動変形規則データは、例えば、基準領域34に基づいて後述する部分認識領域36を決定する規則を示すデータである。部分認識モデルIDは、例えば、部分認識領域36を占める部分画像に対する部分認識に用いられる学習済モデルの識別情報である。
【0031】
図5には、部分認識ターゲットデータの値がテーブルである部分認識管理データと、部分認識ターゲットデータの値が本棚である部分認識管理データと、が示されている。そのためこの場合は、部分認識ターゲットはテーブル及び本棚であることとなる。そしてこの場合に、
図4に示すように、全体認識結果画像24内における、テーブル領域26に対応付けられる領域が基準領域34として特定されるようにしてもよい。
【0032】
ここで例えば
図4に示すように、テーブル領域26に外接する矩形領域が基準領域34として特定されてもよい。またテーブル領域26に外接する矩形領域に余裕領域を加えた領域が基準領域34として特定されてもよい。例えばテーブル領域26に外接する矩形領域と中心が同じであり、当該矩形領域よりも縦横の長さが所定の長さだけ長い領域が基準領域34として特定されてもよい。また例えば、テーブル領域26に外接する矩形領域と中心が同じであり、当該矩形領域に対して1倍より大きな所定倍の大きさである領域が基準領域34として特定されてもよい。
【0033】
そして本実施形態では、基準領域34に基づいて、部分認識の対象となる部分認識領域36が決定される。ここで例えば、
図5に示す移動変形規則データが示す規則のような、部分認識ターゲットに応じた所与の規則に従って基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。また、部分認識ターゲットに応じた方向に基準領域34を移動させた領域が部分認識領域36として決定されてもよい。また、部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域36として決定されてもよい。
【0034】
例えば
図5の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データには、移動変形規則データの値として「上に40%移動 高さ60%」が設定されている。この場合に例えば
図4に示すように、基準領域34をその高さの40%だけ上(Y軸負方向)に移動させた上で、中心の位置を変えずに高さを60%に縮小した領域が部分認識領域36として決定されてもよい。
【0035】
図4に示すように、基準領域34が、頂点の座標値が(x1,y1)、(x1,y2)、(x2,y1)、及び、(x2,y2)である矩形領域であるとする。そして基準領域34に基づいて、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が部分認識領域36として決定されることとする。この場合、上述の例では、p1=x1,p2=x2,q1=1.2y1−0.2y2,q2=0.6y1+0.4y2との関係にある。
【0036】
そして本実施形態では、全体認識結果画像24内における部分認識領域36の位置及び大きさに基づいて、撮影画像20内における部分認識領域38の位置及び大きさ、及び、デプス画像22内における部分認識領域40の位置及び大きさが決定される。
【0037】
ここで全体認識結果画像24内における部分認識領域36に相当する撮影画像20内の領域が部分認識領域38として特定されてもよい。例えば、撮影画像20内における、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が、部分認識領域38として特定されてもよい。また全体認識結果画像24内における部分認識領域36に相当するデプス画像22内の領域が部分認識領域40として特定されてもよい。例えば、デプス画像22内における、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が、部分認識領域40として特定されてもよい。
【0038】
そして本実施形態では、部分認識領域38を占める撮影画像20の一部である
図6に例示する部分撮影画像42が撮影画像20から抽出される。また部分認識領域38を占めるデプス画像22の一部である
図7に例示する部分デプス画像44がデプス画像22から抽出される。
【0039】
そして本実施形態では、部分撮影画像42及び部分デプス画像44に対する部分認識が実行される。本実施形態では、部分認識の実行に用いられる学習済モデルが予め複数用意されている。そして本実施形態では例えば、全体認識において認識された部分認識ターゲットに基づいて、これら複数の学習済モデルのうちから部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択される。
【0040】
ここで例えば
図5に示す部分認識管理データに基づいて、部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択されてもよい。
図5の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルIDとして1が設定されている。この場合は、識別情報の値が1であるモデルが部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択される。ここで例えば識別情報の値が1であるモデルは、当該モデルに対応する部分認識ターゲットに関連する物体を認識可能なモデルであってもよい。例えば、識別情報の値が1であるモデルが、画像に表れている、ペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識できるモデルであってもよい。
【0041】
ここで部分認識において撮影画像20及びデプス画像22が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク(二次元CNN)であってもよい。そしてこの入力に応じて当該学習済モデルから、部分撮影画像42及び部分デプス画像44に対する画像認識の実行結果が出力される。
図8には、当該実行結果の一例である、部分認識結果画像46の一例が示されている。
【0042】
部分認識結果画像46には、テーブルに対応付けられるテーブル領域26、及び、テーブルに置かれたペットボトルに対応付けられるペットボトル領域48が示されている。この例では、全体認識では認識できなかったペットボトルが部分認識において認識できている。
【0043】
以上の例では、テーブルの上に相当する部分画像が部分撮影画像42及び部分デプス画像44として抽出される。そのため、部分認識においてテーブルの上に配置されている物体を的確に認識できることとなる。
【0044】
なお以上、全体認識結果画像24にテーブル領域26が示されている場合について説明したが、全体認識結果画像24に本棚に対応付けられる本棚領域が示されていることがある。この場合は例えば、
図5に示す部分認識ターゲットデータの値が本棚である部分認識管理データに基づいて、本棚領域に相当する基準領域34を中心の位置を変えずに高さ及び幅を85%に縮小した領域が部分認識領域36として決定されてもよい。そしてこの部分認識領域36に相当する撮影画像20内の部分認識領域38を占める部分撮影画像42、及び、部分認識領域36に相当するデプス画像22内の部分認識領域40を占める部分デプス画像44が抽出されてもよい。そして識別情報の値が2であるモデルを用いた部分撮影画像42及び部分デプス画像44に対する部分認識が実行されてもよい。ここで識別情報の値が2であるモデルは例えば、画像に表れている、個々の書籍や雑誌、書籍や雑誌の題号などを認識できる学習済モデルであってもよい。
【0045】
この場合は、本棚の中に相当する部分画像が部分撮影画像42及び部分デプス画像44として抽出される。そのため、部分認識において本棚の中に配置されている物体を的確に認識できることとなる。
【0046】
例えばテーブル、ソファー、カーテン、椅子、本棚、ペットボトル、カップ、皿、などといった多くの種類の物体を認識できる学習済モデルを用いて撮影画像20やデプス画像22の画像認識を行うことが考えられる。しかしこのように画像認識によって多くの種類の物体を認識し分けようとすると、物体に対応付けられる特徴量同士の差が小さくなるため誤認識の可能性が高くなる。
【0047】
そこで本実施形態では、限られた種類の数の物体を認識する全体認識がまずは実行されるようにした。上述の例では、撮影画像20及びデプス画像22に対して、テーブル、ソファー、カーテン、椅子、本棚などの物体を認識する全体認識が実行されるようにした。そして全体認識の結果に基づき抽出される部分画像に対して、全体認識の結果に応じた好適なモデルを用いて、全体認識では認識されない物体を含む、全体認識の結果に応じた限られた種類の数の物体を認識する部分認識が実行されるようにした。上述の例では、部分撮影画像42及び部分デプス画像44に対して、ペットボトル、カップ、皿、テーブルなどといった、テーブルに関連する限られた種類の数の物体が認識されるようにした。
【0048】
以上のようにして本実施形態に係る画像認識装置10によれば、高い精度で多くの種類の物体を認識できることとなる。
【0049】
以下、本実施形態に係る画像認識装置10の機能、及び、画像認識装置10で実行される処理についてさらに説明する。
【0050】
図9は、本実施形態に係る画像認識装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像認識装置10で、
図9に示す機能のすべてが実装される必要はなく、また、
図9に示す機能以外の機能が実装されていても構わない。
【0051】
図9に示すように、画像認識装置10は、機能的には例えば、部分認識管理データ記憶部50、全体認識モデル52、複数の部分認識モデル54(第1部分認識モデル54(1)、第2部分認識モデル54(2)、・・・、第n部分認識モデル54(n))、画像取得部56、全体認識部58、部分画像抽出部60、モデル選択部62、部分認識部64、を含んでいる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。
【0052】
以上の機能は、コンピュータである画像認識装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像認識装置10に供給されてもよい。
【0053】
部分認識管理データ記憶部50は、本実施形態では、例えば、
図5に例示する部分認識管理データを記憶する。
【0054】
全体認識モデル52は、本実施形態では例えば、全体認識に用いられる学習済モデルである。全体認識モデル52は、例えば、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体が表された画像を入力データとして含み全体認識結果画像24のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
【0055】
部分認識モデル54は、本実施形態では例えば、部分認識に用いられる学習済モデルである。本実施形態に係る部分認識モデル54は、部分認識管理データに対応付けられる。例えば第1部分認識モデル54(1)は、部分認識モデルIDが1である部分認識管理データに対応付けられ、第2部分認識モデル54(2)は、部分認識モデルIDが2である部分認識管理データに対応付けられる。そして本実施形態では部分認識管理データを介して、部分認識モデル54と物体とが関連付けられる。例えば第1部分認識モデル54(1)は、テーブルに関連付けられ、第2部分認識モデル54(2)は、本棚に関連付けられる。
【0056】
そして部分認識モデル54は、部分認識管理データを介して当該部分認識モデル54と関連付けられる物体が認識可能な学習済モデルであってもよい。また例えば、部分認識モデル54のそれぞれは、互いに異なる物体が認識可能な学習済モデルであってもよい。
【0057】
例えば第1部分認識モデル54(1)は、例えばペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識可能な学習済モデルである。ここで第1部分認識モデル54(1)は、例えば、テーブルにペットボトル、カップ、皿、テーブルなどの物体が配置されている様子を表す画像を入力データとして含み部分認識結果画像46のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
【0058】
また例えば第2部分認識モデル54(2)は、例えば個々の書籍や雑誌、及びこれらの題号を認識可能な学習済モデルである。ここで第2部分認識モデル54(2)は、例えば、書籍や雑誌が収納された本棚が表された画像を入力データとして含み部分認識結果画像46のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
【0059】
画像取得部56は、本実施形態では例えば、全体認識の対象となる画像を取得する。例えば画像取得部56は、撮影画像20及びデプス画像22を取得する。
【0060】
全体認識部58は、本実施形態では例えば、少なくとも1の所与の物体について、画像取得部56が取得する画像内における当該所与の物体の位置を認識する処理を実行する。上記の所与の物体とは、例えば、
図5に例示する部分認識管理データにおいて部分認識ターゲットとして設定されている、テーブルや本棚などの物体を指す。ここで全体認識部58は、全体認識モデル52を用いて画像取得部56が取得する画像に対する全体認識の処理を実行してもよい。例えば全体認識部58は、撮影画像20及びデプス画像22を全体認識モデル52に入力した際の出力である全体認識結果画像24を、全体認識の結果として生成する。
【0061】
部分画像抽出部60は、本実施形態では例えば、画像取得部56が取得する画像内における上記の所与の物体の位置に対応付けられる、当該画像の一部である部分画像を当該画像から抽出する。
【0062】
ここで例えば、部分画像抽出部60は、
図5に例示する部分認識管理データの部分認識ターゲットデータの値として示されている物体に対応する領域を、全体認識結果画像24内の基準領域34として特定してもよい。そして例えば、当該部分認識ターゲットデータに関連付けられている移動変形規則データが示す規則に従って基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。ここで部分認識ターゲットに応じた方向に基準領域34を移動させた領域が部分認識領域36として決定されてもよい。また部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域36として決定されてもよい。
【0063】
そして部分画像抽出部60は、決定される部分認識領域36に対応する、撮影画像20内の部分認識領域38、及び、デプス画像22内の部分認識領域40を決定してもよい。
【0064】
そして部分画像抽出部60は、撮影画像20内の部分認識領域38が占める部分画像を部分撮影画像42として撮影画像20から抽出してもよい。また部分画像抽出部60は、デプス画像22内の部分認識領域40が占める部分画像を部分デプス画像44としてデプス画像22から抽出してもよい。
【0065】
モデル選択部62は、本実施形態では例えば、複数の部分認識モデル54のうちから全体認識により認識された物体に対応付けられるものを選択する。ここで例えば部分認識ターゲットに対応付けられる部分認識モデル54が選択されてもよい。例えば部分認識ターゲットに関連する物体の画像を学習済である、部分認識ターゲットに関連する物体を認識可能な部分認識モデル54が選択されてもよい。例えば部分画像抽出部60が、テーブル領域26に基づき部分撮影画像42及び部分デプス画像44を抽出したとする。この場合にモデル選択部62が、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルIDである1に対応付けられる、第1部分認識モデル54(1)を選択してもよい。
【0066】
部分認識部64は、本実施形態では例えば、部分画像抽出部60が抽出する部分画像が表す、位置が認識される所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する。部分認識部64は、例えば選択される部分認識モデル54を用いて部分画像抽出部60が抽出した部分画像が表す物体が何であるかを認識する処理を実行してもよい。例えば部分認識部64は、部分撮影画像42及び部分デプス画像44を第1部分認識モデル54(1)に入力した際の出力である部分認識結果画像46を、部分認識の結果として生成する。
【0067】
ここで、本実施形態に係る画像認識装置10で行われる処理の流れの一例を、
図10に例示するフロー図を参照しながら説明する。
【0068】
まず、画像取得部56が撮影画像20及びデプス画像22を取得する(S101)。
【0069】
そして全体認識部58が、全体認識モデル52を用いて撮影画像20及びデプス画像22に対する全体認識の処理を実行する(S102)。ここで例えば
図4に示す全体認識結果画像24が生成されてもよい。
【0070】
そして部分画像抽出部60が、
図5に示すいずれかの部分認識管理データにおける部分認識ターゲットデータの値として設定されている物体に対応付けられる、全体認識結果画像24内の領域を基準領域34として特定する(S103)。ここで例えばテーブル領域26に対応する基準領域34が特定されてもよい。
【0071】
そして部分画像抽出部60が、全体認識結果画像24内の部分認識領域36を決定する(S104)。ここで例えば
図5に示す部分認識管理データにおいて部分認識ターゲットデータの値に関連付けられている移動変形規則データの値が示す規則に従って、基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。
【0072】
そして部分画像抽出部60が、S104に示す処理で決定された部分認識領域36に対応付けられる、撮影画像20内の部分認識領域38及びデプス画像22内の部分認識領域40を特定する(S105)。
【0073】
そして部分画像抽出部60が、部分画像を抽出する(S106)。ここで例えば、撮影画像20内の部分認識領域38を占める部分画像が部分撮影画像42として抽出され、デプス画像22内の部分認識領域40を占める部分画像が部分デプス画像44として抽出されてもよい。
【0074】
そしてモデル選択部62が、部分認識に用いられる部分認識モデル54を選択する(S107)。ここで例えば、部分認識管理データにおいて、S103に示す処理で特定された基準領域34に表される部分認識ターゲットに対応する部分認識モデルIDにより識別される部分認識モデル54(例えば第1部分認識モデル54(1))が選択されてもよい。
【0075】
そして部分認識部64が、S107に示す処理で選択された部分認識モデル54を用いて、S106に示す処理で抽出された部分画像に対する部分認識の処理を実行して(S108)、本処理例に示す処理を終了する。S108に示す処理では例えば
図8に示す部分認識結果画像46が生成されてもよい。
【0076】
なお以上の例では、撮影画像20及びデプス画像22に対して全体認識が実行されたが、撮影画像20のみに対して全体認識が実行されてもよい。また以上の例では、部分撮影画像42及び部分デプス画像44に対して部分認識が実行されたが、部分撮影画像42のみに対して部分認識が実行されてもよい。
【0077】
また例えば、全体認識の対象となる画像から、それぞれ異なる部分認識ターゲットに対応付けられる複数の部分画像が抽出されてもよい。例えばテーブルに対応付けられる部分画像と本棚に対応付けられる部分画像とが抽出されてもよい。そしてこの場合に、それぞれの部分画像に対して、異なる部分認識モデル54を用いた部分認識が実行されてもよい。例えば、テーブルに対応付けられる部分画像に対して第1部分認識モデル54(1)を用いた部分認識が実行され、本棚に対応付けられる部分画像に対して第2部分認識モデル54(2)を用いた部分認識が実行されてもよい。
【0078】
また例えば、部分認識モデル54が、全体認識モデル52により認識される物体のサブカテゴリの物体を認識可能な学習済モデルであってもよい。
【0079】
例えば全体認識部58が、全体認識の対象となる画像内における、四本足の動物が表されている位置を認識したとする。そして部分画像抽出部60が、動物に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に、部分認識部64が、当該部分画像を、例えば、犬、猫、虎などといった四本足の動物のサブカテゴリの物体の画像を学習済である部分認識モデル54に入力してもよい。そして部分認識部64が当該部分画像を当該部分認識モデル54に入力した際の出力に基づいて、当該部分画像に表されている四本足の動物の種類を推定してもよい。
【0080】
同様に例えば、部分画像抽出部60が、木に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に例えば、部分認識部64が、当該部分画像を、例えば、桜、梅、松などといった木の種類を認識可能な部分認識モデル54に入力した際の出力に基づいて、当該部分画像に表されている木の種類を推定してもよい。
【0081】
また例えば全体認識部58が、ビジュアルアテンションの技術を用いて、全体認識の対象となる画像の中から注視すべき領域を特定する処理を実行してもよい。そして部分画像抽出部60が、注視すべき領域を占める部分画像を全体認識の対象となる画像から抽出してもよい。また部分画像抽出部60が、注視すべき領域を基準領域34とした場合における部分認識領域36を占める部分画像を全体認識の対象となる画像から抽出してもよい。
【0082】
なお、本発明は上述の実施形態に限定されるものではない。
【0083】
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。