IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7509238情報処理装置、情報処理方法およびプログラム
<>
  • 特許-情報処理装置、情報処理方法およびプログラム 図1
  • 特許-情報処理装置、情報処理方法およびプログラム 図2
  • 特許-情報処理装置、情報処理方法およびプログラム 図3
  • 特許-情報処理装置、情報処理方法およびプログラム 図4
  • 特許-情報処理装置、情報処理方法およびプログラム 図5
  • 特許-情報処理装置、情報処理方法およびプログラム 図6
  • 特許-情報処理装置、情報処理方法およびプログラム 図7
  • 特許-情報処理装置、情報処理方法およびプログラム 図8
  • 特許-情報処理装置、情報処理方法およびプログラム 図9
  • 特許-情報処理装置、情報処理方法およびプログラム 図10
  • 特許-情報処理装置、情報処理方法およびプログラム 図11
  • 特許-情報処理装置、情報処理方法およびプログラム 図12
  • 特許-情報処理装置、情報処理方法およびプログラム 図13
  • 特許-情報処理装置、情報処理方法およびプログラム 図14
  • 特許-情報処理装置、情報処理方法およびプログラム 図15
  • 特許-情報処理装置、情報処理方法およびプログラム 図16
  • 特許-情報処理装置、情報処理方法およびプログラム 図17
  • 特許-情報処理装置、情報処理方法およびプログラム 図18
  • 特許-情報処理装置、情報処理方法およびプログラム 図19
  • 特許-情報処理装置、情報処理方法およびプログラム 図20
  • 特許-情報処理装置、情報処理方法およびプログラム 図21
  • 特許-情報処理装置、情報処理方法およびプログラム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-24
(45)【発行日】2024-07-02
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240625BHJP
   G06V 10/82 20220101ALI20240625BHJP
【FI】
G06T7/00 350C
G06V10/82
【請求項の数】 10
(21)【出願番号】P 2022569394
(86)(22)【出願日】2020-12-16
(86)【国際出願番号】 JP2020046958
(87)【国際公開番号】W WO2022130534
(87)【国際公開日】2022-06-23
【審査請求日】2023-06-07
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】白石 壮馬
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2020-197954(JP,A)
【文献】特開2020-181255(JP,A)
【文献】特開2019-61505(JP,A)
【文献】特開2013-88268(JP,A)
【文献】米国特許第9483701(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
(57)【特許請求の範囲】
【請求項1】
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、を備え
前記第1特定手段は、前記画像を表す画像データ、および、前記画像中の前記物体が存在する領域の候補を示す領域候補データを入力として、前記画像中の物体が存在する領域を示す複数の領域データを出力する1または複数の学習済モデルを用いて、前記複数の領域を特定し、
前記領域データは、前記領域データが示す領域と前記領域候補データが示す領域の候補との差分を示す、
情報処理装置。
【請求項2】
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、を備え、
前記第2特定手段は、前記画像における前記識別用領域内の部分画像を含み、当該部分画像以外を背景色で充填した識別用画像を生成し、
前記識別手段は、前記識別用画像を入力とし、前記物体の識別結果を出力する識別用学習済モデルを用いて、前記物体を識別する、
報処理装置。
【請求項3】
前記背景色は、前記識別用学習済モデルが学習した教師データの背景色と同一である、
請求項2に記載の情報処理装置。
【請求項4】
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、を備え、
前記第1特定手段は、互いに傾きが異なる基準軸を有する前記複数の領域を特定する、
報処理装置。
【請求項5】
前記第1特定手段は、前記画像を表す画像データ、および、前記画像中の前記物体が存在する領域の候補を示す領域候補データを入力として、前記画像中の物体が存在する領域を示す複数の領域データを出力する1または複数の学習済モデルを用いて、前記複数の領域を特定する、
請求項2から4のいずれか1項に記載の情報処理装置。
【請求項6】
画像中の物体が存在する領域の候補を示す領域候補データを生成する第1生成手段と、
前記画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する第2生成手段と、
前記画像を示す画像データ、および、前記領域候補データを入力とし、前記複数の領域データを出力する1または複数の学習済モデルを生成する第3生成手段と、
を備え、
前記第2生成手段は、互いに傾きが異なる基準軸を有する前記複数の領域をそれぞれ示す複数の領域データを生成する、
情報処理装置。
【請求項7】
情報処理装置が、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定し、
特定した前記複数の領域に基づいて、前記物体の識別用領域を特定し、
特定した前記識別用領域に基づいて、前記物体を識別する
ことを含み、
前記識別用領域を特定する工程において、前記画像における前記識別用領域内の部分画像を含み、当該部分画像以外を背景色で充填した識別用画像を生成し、
前記物体を識別する工程において、前記識別用画像を入力とし、前記物体の識別結果を出力する識別用学習済モデルを用いて、前記物体を識別する、
情報処理方法。
【請求項8】
情報処理装置が、
画像中の物体が存在する領域の候補を示す領域候補データを生成し、
前記画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成し、
前記画像を示す画像データ、および、前記領域候補データを入力とし、前記複数の領域データを出力する1または複数の学習済モデルを生成する
ことを含み、
前記情報処理装置が、前記複数の領域データを生成する工程において、互いに傾きが異なる基準軸を有する前記複数の領域をそれぞれ示す複数の領域データを生成する、
情報処理方法。
【請求項9】
コンピュータを情報処理装置として機能させるプログラムであって、
前記プログラムは、前記コンピュータを、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、として機能させ、
前記第2特定手段は、前記画像における前記識別用領域内の部分画像を含み、当該部分画像以外を背景色で充填した識別用画像を生成し、
前記識別手段は、前記識別用画像を入力とし、前記物体の識別結果を出力する識別用学習済モデルを用いて、前記物体を識別する、
ことを特徴とするプログラム。
【請求項10】
コンピュータを情報処理装置として機能させるプログラムであって、
前記プログラムは、前記コンピュータを、
画像中の物体が存在する領域の候補を示す領域候補データを生成する第1生成手段と、
前記画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する第2生成手段と、
前記画像を示す画像データ、および、前記領域候補データを入力とし、前記複数の領域データを出力する1または複数の学習済モデルを生成する第3生成手段と、
として機能させ、
前記第2生成手段は、互いに傾きが異なる基準軸を有する前記複数の領域をそれぞれ示す複数の領域データを生成する、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる物体を識別する技術に関する。
【背景技術】
【0002】
画像に含まれる物体を識別する技術として、画像中の物体が存在する領域を特定し、特定した領域内の画像データに基づいて当該物体を識別することが行われている。このうち、画像中の物体が存在する領域を特定する技術を改善するものとして、非特許文献1には、物体の回転を考慮して物体が存在する領域を特定する技術が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Liu et al., "Learning a Rotation Invariant Detector with Rotatable Bounding Box", arXiv:1711.09405v1, 26 Nov 2017, https://arxiv.org/pdf/1711.09405.pdf
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術では、特定される領域が矩形の領域に限定される。また、円形に近い物体について、当該物体が存在する領域の角度を一意に定めることが難しいという問題がある。そのため、特許文献1の技術では、画像に含まれる物体の識別の精度が低い場合がある。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、画像に含まれる物体の識別の精度を向上させるための技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一側面に係る情報処理装置は、画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、を備える。
【0007】
本発明の一側面に係る情報処理装置は、画像中の物体が存在する領域の候補を示す領域候補データを生成する第1生成手段と、前記画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する第2生成手段と、前記画像を示す画像データ、および、前記領域候補データを入力とし、前記複数の領域データを出力する1または複数の学習済モデルを生成する第3生成手段と、を備える。
【0008】
本発明の一側面に係る情報処理方法は、情報処理装置が、画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定し、特定した前記複数の領域に基づいて、前記物体の識別用領域を特定し、特定した前記識別用領域に基づいて、前記物体を識別することを含む。
【0009】
本発明の一側面に係るプログラムは、コンピュータを情報処理装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、として機能させる。
【発明の効果】
【0010】
本発明の一態様によれば、画像に含まれる物体の識別の精度を向上させることができる。
【図面の簡単な説明】
【0011】
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
図2】本発明の例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
図3】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
図4】本発明の例示的実施形態2に係る情報処理方法の流れを示すフロー図である。
図5】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
図6】本発明の例示的実施形態3に係る領域切出部の構成を示すブロック図である。
図7】本発明の例示的実施形態3に係る領域切出方法および物体識別方法の流れを示すフロー図である。
図8】本発明の例示的実施形態3に係る学習済モデルの一例を模式的に示した図である。
図9】本発明の例示的実施形態3に係る領域を例示する図である。
図10】本発明の例示的実施形態3に係る領域を例示する図である。
図11】本発明の例示的実施形態3に係るパラメータの一例を示す図である。
図12】本発明の例示的実施形態3に係る領域を例示する図である。
図13】本発明の例示的実施形態4に係る領域切出部の構成を示すブロック図である。
図14】本発明の例示的実施形態5に係る情報処理装置の構成を示すブロック図である。
図15】本発明の例示的実施形態5に係る学習済モデルの生成方法の流れを示すフロー図である。
図16】本発明の例示的実施形態5に係る領域データの生成方法の流れを示すフロー図である。
図17】本発明の例示的実施形態5に係る領域データの生成方法の具体例を示す図である。
図18】本発明の例示的実施形態6に係る情報処理装置の構成を示すブロック図である。
図19】本発明の例示的実施形態6に係る領域切出部の構成を示すブロック図である。
図20】本発明の例示的実施形態6に係る領域の切出し方法の具体例を示す図である。
図21】本発明の例示的実施形態7に係る領域切出部の構成を示すブロック図である。
図22】本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0012】
〔例示的実施形態1〕
本発明の例示的実施形態1について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0013】
<情報処理装置の構成>
本例示的実施形態に係る情報処理装置10の構成について、図1を参照して説明する。図1は、情報処理装置10の構成を示すブロック図である。情報処理装置10は、画像に含まれる物体を識別する。
【0014】
図1に示すように、情報処理装置10は、第1特定部11、第2特定部12および識別部13を備える。第1特定部11は、本例示的実施形態において第1特定手段を実現する構成である。第2特定部12は、本例示的実施形態において第2特定手段を実現する構成である。識別部13は、本例示的実施形態において識別手段を実現する構成である。
【0015】
第1特定部11は、画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する。物体の領域は、画像に含まれる物体に対応する領域である。物体の領域は例えば、物体を含む多角形、楕円形または円形の領域である。また、物体の領域は例えば、物体が外接する矩形、物体が外接する楕円、または物体が外接する円の領域である。
【0016】
基準位置または基準方向は、物体が存在する領域を特定するために用いられる基準位置または基準方向である。基準方向は、一例として、物体の領域を示す矩形の基準軸の方向である。基準軸は、矩形を定める4辺のうちの2辺と平行な軸をいう。基準位置は、物体の領域を示す矩形の基準となる位置をいう。一例として、ひとつの物体につき複数の基準位置が用いられてもよい。
【0017】
基準方向がそれぞれ異なる複数の領域を特定するとは、一例として、物体が外接する矩形であって基準軸が異なる複数の矩形を、物体の領域として特定することをいう。また、一例として、基準位置がそれぞれ異なる複数の領域を特定するとは、物体を基準位置に基づいて複数に分割した場合に、分割した各部分に外接する矩形をそれぞれ特定することをいう。ただし、基準位置または基準方向がそれぞれ異なる複数の領域を特定する処理は、上述した処理に限定されない。
【0018】
第2特定部12は、第1特定部11が特定した複数の領域に基づいて、物体の領域を特定する。以下の説明では、第2特定部12が特定する領域を「識別用領域」ともいう。識別用領域は、一例として、物体に外接する凸形状の多角形である。
【0019】
一例として、第2特定部12は、第1特定部11が特定した複数の領域の全てに含まれる領域(積集合)を識別用領域として特定する。また、一例として、第2特定部12は、第1特定部11が特定した複数の領域を全て含む領域(和集合)を、識別用領域として特定してもよい。また、一例として、第2特定部12は、第1特定部11が特定した複数の領域のうちの1以上の第1の領域の全てに含まれる領域と、第1特定部11が特定した複数の領域のうちの1以上の第2の領域とを含む領域を、識別用領域として特定してもよい。ただし、第1特定部11が特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて識別用領域を特定する処理は、上述した処理に限定されない。
【0020】
識別部13は、画像において第2特定部12が特定した識別用領域に基づいて物体を識別する。一例として、識別部13は、識別用領域以外の領域を所定の背景画像に変換した、物体を識別するために用いられる画像データを生成し、生成した画像データに基づき物体を識別してもよい。以下の説明では、説明の便宜上、画像において識別用領域以外の領域を「背景領域」ともいう。また、識別部13が生成する画像データを「識別用画像データ」ともいう。背景画像は、例えば単色の画像であってもよく、所定のパターンで配色された配色パターンを含む画像であってもよい。一例として、背景画像は、白色の単色の画像であってもよく、また、黒色の単色の画像であってもよい。また、背景画像は、一例として、物体を識別するために用いる学習済モデルを構築する際に教師データとして用いられた画像データにおける背景の画像であってもよい。例えば、画像データに含まれる物体がパン等の商品である場合、背景画像は、商品が載せられたトレイの画像であってもよい。背景領域の色を所定の背景画像に変換する技術としては、公知の技術を採用可能である。
【0021】
<情報処理方法の流れ>
以上のように構成された情報処理装置10が実行する情報処理方法S10の流れについて、図2を参照して説明する。図2は、情報処理方法S10の流れを示すフロー図である。図2に示すように、情報処理方法S10は、ステップS11~S13を含む。
【0022】
(ステップS11)
ステップS11において、第1特定部11は、画像データの表す画像に含まれる物体の領域を、基準位置または基準方向がそれぞれ異なる複数の領域を特定する。
【0023】
(ステップS12)
ステップS12において、第2特定部12は、ステップS11で第1特定部11が特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて、物体の識別用領域を特定する。
【0024】
(ステップS13)
ステップS13において、識別部13は、第2特定部12が特定した識別用領域に基づいて、画像中の物体を識別する。
【0025】
<本例示的実施形態の効果>
以上のように、本例示的実施形態に係る情報処理装置10は、異なる基準で特定した物体の複数の領域に基づき識別用領域を特定し、特定した識別用領域に基づいて物体の識別を行うことにより、背景の影響を抑えた識別処理が実現される。これにより、物体の識別の精度を向上させることができる。
【0026】
〔例示的実施形態2〕
本発明の例示的実施形態2について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
【0027】
<情報処理装置の構成>
本例示的実施形態に係る情報処理装置10Aの構成について、図3を参照して説明する。図3は、情報処理装置10Aの構成を示すブロック図である。情報処理装置10Aは、画像に含まれる物体の領域を特定するために用いられる1または複数の学習済モデルを構築する。
【0028】
図3に示すように、情報処理装置10Aは、第1生成部14、第2生成部15および第3生成部16を備える。第1生成部14は、本例示的実施形態において第1生成手段を実現する構成である。第2生成部15は、本例示的実施形態において第2生成手段を実現する構成である。第3生成部16は、本例示的実施形態において第3生成手段を実現する構成である。
【0029】
第1生成部14は、画像中の物体が存在する領域の候補を示す領域候補データを生成する。領域の候補は、画像に含まれる物体の領域の候補となる領域である。物体の領域の候補は例えば、物体を含む多角形、楕円形または円形の領域である。また、物体の領域の候補は例えば、物体が外接する矩形、物体が外接する楕円、または物体が外接する円の領域である。
【0030】
領域候補データは、一例として、機械学習により構築された学習済モデルに画像データを入力して得られるデータである。領域候補を推定する学習済モデルは、一例として、Faster R-CNN(Regions with CNN features)等の物体検出の手法で用いられるRPN(Region Proposal Network)である。換言すると、領域候補データは、一例として、RPNに画像データを入力することにより得られるRoI(region-of-interest)であってもよい。
【0031】
第2生成部15は、画像中の物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する。物体の領域は、画像に含まれる物体に対応する領域である。物体の領域は例えば、物体を含む多角形、楕円形または円形の領域である。また、物体の領域は例えば、物体が外接する矩形、物体が外接する楕円、または物体が外接する円の領域である。
【0032】
第3生成部16は、画像を示す画像データ、および、領域候補データを入力とし、複数の領域データを出力する1または複数の学習済モデルを生成する。第3生成部16がひとつの学習済モデルを生成する場合、当該学習済モデルは、複数の領域データを出力する学習済モデルである。一方、第3生成部16が複数の学習済モデルを生成する場合、当該複数の学習済モデルは、一例として、各々異なる領域データを出力する。学習済モデルは、機械学習により構築される。学習済モデルは、一例として、CNN(Convolution al Neural Network、畳み込みニューラルネットワーク)構造を有するモデルで実現可能である。
【0033】
<学習済モデル生成方法の流れ>
以上のように構成された情報処理装置10Aが実行する学習済モデルの生成方法S20の流れについて、図4を参照して説明する。図4は、学習済モデルの生成方法S20の流れを示すフロー図である。図4に示すように、学習済モデルの生成方法S20は、ステップS21~S23を含む。
【0034】
(ステップS21)
ステップS21において、第1生成部14は、画像中の物体が存在する領域の候補を示す領域候補データを生成する。
【0035】
(ステップS22)
ステップS22において、第2生成部15は、画像中の物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する。
【0036】
(ステップS23)
ステップS23において、第3生成部16は、画像を示す画像データ、および、領域候補データを入力とし、複数の領域データを出力する1または複数の学習済モデルを生成する。
【0037】
<本例示的実施形態の効果>
以上のように、本例示的実施形態に係る情報処理装置10Aは、複数の領域データを出力する1または複数の学習済モデルを生成する。生成された1または複数の学習済モデルが物体の識別のために用いられることにより、本例示的実施形態に係る情報処理装置10Aによれば、物体の識別の精度を向上させることができる。
【0038】
〔例示的実施形態3〕
本発明の例示的実施形態3について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
【0039】
<情報処理装置の構成>
本例示的実施形態に係る情報処理装置10Bについて、図5を参照して説明する。図5は、情報処理装置10Bの構成を示すブロック図である。情報処理装置10Bは、画像に含まれる物体を識別する装置である。図5に示すように、情報処理装置10Bは、制御部110Bおよび記憶装置120Bを含む。
【0040】
制御部110Bは、画像取得部111、汎用物体検出部112、領域切出部113、識別部114、出力部115を備える。制御部110Bに含まれるこれらの機能ブロックの詳細については後述する。
【0041】
記憶装置120Bは、学習済モデルLM12および学習済モデルLM13を記憶する。
【0042】
情報処理装置10Bは通信部(図示略)を備えていてもよい。通信部は、制御部110Bの制御の下に、ネットワーク(図示略)を介して他の装置との間で情報を送受信する。
【0043】
(画像取得部)
画像取得部111は、画像データを取得する。画像取得部111が取得する画像データは、画像を表すデータであり、一例として、画像の特徴マップ(feature maps)である。画像取得部111は、画像データを記憶装置120Bから読み出すことにより取得してもよく、また、他の装置から通信部を介して画像データを受信することにより取得してもよい。また、画像取得部111は、所定のファイル形式の画像データを特徴マップに変換する処理を実行することにより、画像データを取得してもよい。
【0044】
(汎用物体検出部)
汎用物体検出部112は、画像中の物体が存在する領域の候補(以下、「領域候補」という)を検出する。本例示的実施形態では、汎用物体検出部112は、機械学習により構築された学習済モデルLM12を用いて物体の領域候補を検出する。
【0045】
学習済モデルLM12は、画像を表す画像データを入力として、物体の領域候補を示す領域候補データを出力する。学習済モデルLM12は、一例として、Faster-RCNN等の物体検出の手法で用いられるRPNである。換言すると、汎用物体検出部112は、画像取得部111が取得した画像データをRPNに入力することにより得られるRoIを物体の領域候補とする。なお、汎用物体検出部112が物体の領域候補を検出する手法は上述した手法に限られない。汎用物体検出部112は、一例として、Fast R-CNN等の物体検出の手法で用いられる既存の手法を用いて物体の領域候補を検出してもよい。汎用物体検出部112は、物体の領域候補を示す領域候補データを出力する。
【0046】
(領域切出部)
領域切出部113は、画像取得部111が取得した画像データと、汎用物体検出部112が検出した領域候補を用いて、物体の識別用領域を特定する。また、領域切出部113は、画像において識別用領域以外の領域を所定の背景画像に変換した識別用画像データを生成する。領域切出部113の詳細については後述する。
【0047】
(識別部)
識別部114は、領域切出部113が切り出した識別用領域に含まれる物体を識別する。識別部114は、一例として、機械学習により構築された学習済モデルLM14(識別用学習済モデル)を用いて物体を識別する。学習済モデルLM14は、画像データを入力とし、画像データに含まれる物体の推定結果を出力するよう機械学習により構築されたモデルである。学習済モデルLM14の学習に用いる画像データは、例えば、識別対象の物体を撮像した画像データであり得る。学習済モデルLM14は、例えばCNN構造を有するモデルで実現可能である。
【0048】
(出力部)
出力部115は、識別部114の識別結果を示す識別結果データを出力する。出力部115は、一例として、記憶装置120Bに識別結果データを記憶させることにより出力してもよい。また、出力部115は、識別結果データを他の装置に送信することにより出力してもよい。また、出力部115は、識別結果データを表示装置に表示させることにより出力してもよい。出力部115の出力態様は上述したものに限られず、他の態様であってもよい。
【0049】
<領域切出部の構成>
図6は、領域切出部113の構成を示すブロック図である。図6に示すように、領域切出部113は、第1特定部31、クラス識別部32、第2特定部33、および生成部34を備える。
【0050】
(第1特定部)
第1特定部31は、画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する。第1特定部31は、一例として、物体に外接する矩形、円、楕円、および正方形の少なくともいずれかひとつの形状の領域を、物体の領域として特定する。
【0051】
本例示的実施形態において、第1特定部31は、学習済モデルLM13を用いて物体の複数の領域を特定する。
【0052】
(学習済モデル)
学習済モデルLM13は、機械学習により構築された学習済モデルであり、画像を表す画像データ、および、画像中の物体が存在する領域の候補を示す領域候補データを入力として、画像中の物体が存在する領域を示す複数の領域データを出力する。学習済モデルLM13が出力する複数の領域データは、領域の抽出に関する基準位置または基準方向がそれぞれ異なる。
【0053】
領域データは、一例として、物体の外接矩形の位置およびサイズを表すパラメータを含む。学習済モデルLM13を用いて物体の領域を特定する手法の詳細については後述する。
【0054】
(クラス識別部)
図6のクラス識別部32は、画像取得部111が取得した画像データと、汎用物体検出部112が出力する領域候補データとに基づき、画像に含まれる物体のクラスの識別結果を示すデータを出力する。クラスの識別結果を示すデータは、一例として、複数の領域について各領域が背景であるか否かを示す情報を含む。
【0055】
(第2特定部)
第2特定部33は、第1特定部31が特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて、物体の識別用領域を特定する。一例として、第2特定部33は、第1特定部31が特定した複数の領域の積集合を、識別用領域として特定する。識別用領域は、一例として、物体に外接する凸形状の多角形である。識別用領域の形状はこれに限られず、一例として、凹形状の多角形であってもよい。
【0056】
また、第2特定部33は、識別用領域の特定処理において、クラス識別部32が識別した領域毎のクラスに基づき、識別用領域を特定する。
【0057】
(生成部)
生成部34は、画像において第2特定部33が特定した識別用領域以外の領域を所定の背景画像に変換した識別用画像データを生成する。
【0058】
<物体識別方法の流れ>
以上のように構成された情報処理装置10Bが実行する物体識別方法S10Bの流れについて、図7を参照して説明する。図7は、物体識別方法S10Bの流れを示すフロー図である。図7に示すように、物体識別方法S10Bは、ステップS31~S7を含む。
【0059】
(ステップS31)
ステップS31において、画像取得部111は、画像データを取得する。画像取得部111は、一例として、所定のファイル形式の画像データを特徴マップに変換する処理を実行し、特徴マップ画像データとして取得する。
【0060】
(ステップS32)
ステップS32において、汎用物体検出部112は、画像に含まれる物体の大まかな領域である領域候補を特定する。一例として、汎用物体検出部112は、学習済モデルLM12に画像データを入力して得られる領域候補データを取得する。より具体的には、汎用物体検出部112は、一例として、RPNに特徴マップを入力することにより得られるRoIを取得する。画像に複数の物体が含まれる場合、汎用物体検出部112は、複数の物体の領域候補を特定する。
【0061】
(ステップS33)
ステップS33において、第1特定部31は、画像に含まれる物体のそれぞれについて、互いに傾きが異なる基準軸を有する複数の領域を特定する。一例として、第1特定部31は、学習済モデルLM13を用いて物体の領域を複数特定する。
【0062】
図8は、学習済モデルLM13の一例を模式的に示した図である。図示のとおり、学習済モデルLM13には、画像データと領域候補データとを含む入力データが入力される。
【0063】
学習済モデルLM13は、例えば、畳み込み層と、プーリング層と、結合層とから成る。畳み込み層において、入力データはフィルタリングによる情報の畳み込みがなされる。畳み込みを経たデータは、プーリング層においてプーリング処理が施される。これにより、データ中の特徴の位置変化に対するモデルの認識能力が向上する。プーリング処理を経たデータは、結合層で処理されることによって、学習済モデルLM13の出力データに変換されて出力される。すなわち、学習済モデルLM13に入力された入力データを、図8に示す各層をこれらの順に通過させることにより、画像に含まれる物体の複数の領域を表す出力データが出力される。
【0064】
学習済モデルLM13は、切り出される領域の基準軸がそれぞれ異なる複数の領域を表す出力データを出力する。図9は、学習済モデルLM13が出力する出力データの示す複数の領域を例示する図である。この例で、学習済モデルLM13は、領域r130~r132の3つの領域を表す出力データを出力する。領域r130は、基準軸a130に平行な2辺を有する、物体OBJ1の外接矩形の領域である。領域r131は、基準軸a131に平行な2辺を有する、物体OBJ1の外接矩形の領域である。領域r132は、基準軸a132に平行な2辺を有する外接矩形の領域である。
【0065】
図10は、画像に複数の物体が含まれる場合において、学習済モデルLM13が出力する出力データの示す複数の領域を例示する図である。図10において、画像Img21は、画像取得部111が取得する画像の一例である。図示のように、画像Img21は、複数の物体を含む。また、図において、画像Img22は、汎用物体検出部112が画像Img21から検出した、各物体の領域候補を例示する図である。画像Img23は、学習済モデルLM13が出力する出力データの示す複数の領域、すなわち、汎用物体検出部112の検出結果に基づき第1特定部31が特定する複数の領域を例示する図である。画像Img24は、第2特定部33が特定する、物体毎の識別用領域を例示する図である。
【0066】
図10の例では、第1特定部31は、画像Img21に含まれる複数の物体のそれぞれの領域を、学習済モデルLM13を用いて複数特定する。また、第2特定部33は、第1特定部31の特定結果に基づき、複数の物体の識別用領域を特定する。
【0067】
学習済モデルLM13が回帰するパラメータの具体例について、図面を参照しつつ説明する。図11は、学習済モデルLM13が回帰するパラメータの具体例を示す図である。図において、中心点croi、高さhroi、幅wroiは、汎用物体検出部112が出力する領域候補データの示す領域候補の中心点、高さ、幅を示す。これらのパラメータは、RPNにより取得されるRoIに含まれるパラメータである。
【0068】
図11において、領域r140~r142は、学習済モデルLM13が出力する出力データが示す領域である。領域r140~r142は、中心点の座標、領域の高さ、および領域の幅により表される。図において、中心点cθ0、高さhθ0、幅wθ0は、領域r140の中心点、高さ、幅を示す。中心点cθ1、高さhθ1、幅wθ1は、領域r141の中心点、高さ、幅を示す。中心点cθ2、高さhθ2、幅wθ2は、領域r142の中心点、高さ、幅を示す。
【0069】
図11の例で、学習済モデルLM13が回帰するパラメータは、差分dxθi,c、dyθi,c、dhθi,c、dwθi,c、の4つのパラメータを含む。換言すると、図11の例では、学習済モデルLM13が出力する領域データは、これら4つのパラメータを含む。差分dxθi,c、dyθi,c、dhθi,c、dwθi,c、はそれぞれ、以下の数1~数4で回帰される。
【0070】
【数1】
【0071】
【数2】
【0072】
【数3】
【0073】
【数4】
【0074】
数1~数4において、座標croi[x]は、中心点croiのx座標であり、座標croi[y]は、中心点croiのy座標である。座標cθi[x]は、中心点cθiのx座標であり、座標cθi[y]は、中心点cθiのy座標である。i(0≦i≦2)は、複数の基準軸に対応する添え字である。cは、クラス識別部32の識別結果であるクラスインデックスに対応する添え字である。すなわち、図11の例では、クラスごとに別のニューロンがアサインされる。
【0075】
図12は、回帰情報に基づき復元される矩形の領域を例示する図である。上記(数1)~(数4)に基づき、矩形の領域r13iの中心点cθi、高さhθi、幅wθiは以下の(数5)~(数8)で算出される。
【0076】
【数5】
【0077】
【数6】
【0078】
【数7】
【0079】
【数8】
【0080】
第1特定部31は、(数5)~(数8)で算出される矩形領域の中心点cθiのx座標cθi[x]、y座標cθi[y]、高さhθi、幅wθiを用いて、矩形領域の頂点a、b、c、dを特定するためのベクトルhhalf、whalfを算出する。ベクトルhhalf、whalfは、以下の(数9)、(数10)で表される。
【0081】
【数9】
【0082】
【数10】
【0083】
第1特定部31が特定する矩形領域の頂点a、b、c、dは、ベクトルhhalf、whalfを用いて以下の式で表される。
・a = hhalf-whalf
・b = hhalf+whalf
・c = hhalf+whalf
・d = hhalf-whalf
【0084】
学習済モデルLM13が回帰するパラメータは、上述したパラメータ以外のものであってもよい。学習済モデルLM13が回帰するパラメータは、一例として、外接矩形の対角線長を表すパラメータであってもよい。
【0085】
(ステップS34)
図7のステップS34において、第2特定部33は、第1特定部31が特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて、物体の識別用領域を特定する。一例として、第2特定部33は、第1特定部31が特定した複数の領域の積集合を、識別用領域として特定する。換言すると、第2特定部33は、第1特定部31が特定した複数の領域が重畳する領域を、識別用領域として特定する。図11の例では、第2特定部33は、外接矩形の領域r140~r142に含まれる領域の積集合である識別用領域r13を特定する。
【0086】
第2特定部33が特定する識別用領域は、第1特定部31が特定した複数の領域の積集合に限られない。一例として、識別用領域は、ベースとなる所定の矩形領域を必ず含む領域であってもよい。識別用領域は例えば、領域r140と領域r141との両方に含まれる領域と、領域r142(ベースとなる領域)との両方を含む領域であってもよい。また、識別用領域は、第1特定部31が特定した複数の領域のうち、閾値以上の数の領域が重畳している領域であってもよい。
【0087】
また、一例として、識別用領域は、所定数以上の矩形領域に含まれる領域であってもよい。識別用領域は例えば、2以上の矩形領域に含まれる領域の和集合であってもよい。
【0088】
(ステップS35)
ステップS35において、生成部34は、画像において第2特定部33が特定した識別用領域以外の領域を所定の背景画像に変換した識別用画像データを生成する。一例として、生成部34は、画像における識別用領域内の部分画像を含み、当該部分画像以外を背景色で充填して識別用画像を表す識別用画像データを生成する。背景色は、一例として、学習済モデルLM13が学習した教師データの背景色と同一である。一例として、学習済モデルLM13の機械学習において教師データとして用いられた画像データが、所定色のトレイに載ったパン等の商品を撮影した画像である場合、生成部34は、識別用領域以外の領域を、上記所定色に変換した識別用画像データを生成する。
【0089】
(ステップS36)
ステップS36において、識別部114は、生成部34が生成した識別用画像データを用いて、領域切出部113が切り出した識別用領域に含まれる物体を識別する。識別部114は、一例として、生成部34が生成した識別用画像データを、機械学習により構築された学習済モデルLM14に入力して得られる出力データに基づき、物体を識別する。
【0090】
(ステップS37)
出力部115は、識別部114の識別結果を示す識別結果データを出力する。出力部115が出力した識別結果データは、一例として、POS(Point of sale system)システムにおいて用いられる。例えば、POSシステムは、出力部115が出力した識別結果データに基づき、利用者が購入しようとしている商品の代金を算出してもよい。なお、出力部115が出力した識別結果データは、POSシステムで用いられるのに限られず、他の種々のシステムで活用され得る。
【0091】
ところで、画像に含まれる物体の外接矩形を検出して物体を識別する場合、外接矩形内の領域に背景が多く含まれてしまい、物体の識別が適切に行えない場合がある。例えば、画像中に細長い形状の物体が斜めに含まれる場合、その物体の外接矩形内の領域に背景が多く含まれてしまったり、また、他の物体が含まれてしまったりするため、物体の識別が適切に行われない場合がある。
【0092】
<本例示的実施形態の効果>
本例示的実施形態によれば、情報処理装置10Bは、異なる基準軸に基づき物体の領域を特定し、特定した複数の領域に基づき識別用領域を特定し、特定した識別用領域の外側を除外した画像データを用いて物体の識別を行う。これにより、背景の影響を抑えた識別処理を実行することができ、物体の識別の精度を向上させることができる。
【0093】
また、本例示的実施形態によれば、情報処理装置10Bは、学習済モデルLM13を用いて複数の基準軸について物体の領域を特定する。そのため、情報処理装置10Bは、ひとつの画像データを学習済モデルLM13に入力すればよい。換言すると、情報処理装置10Bは、複数の基準軸のそれぞれに応じた領域の特定処理に際し、画像を基準軸に応じて回転させるといった処理の実行が不要である。これにより、領域の特定処理に係る計算コストが軽減される。
【0094】
また、本例示的実施形態では、第1特定部31は、複数の外接矩形の推定処理を一括して実行する。そのため、本例示的実施形態によれば、推定処理に要する時間を、推定処理を順番に実行する場合に比べて短縮することができる。
【0095】
また、本例示的実施形態によれば、領域切出部133が用いる学習済モデルLM13は、識別部114が用いる学習済モデルLM14とは別途設けられている。そのため、例えば識別対象とする物体を追加する場合であっても、学習済モデルLM14を再学習させればよく、学習済モデルLM13を学習させ直す必要はない。
【0096】
上述の例示的実施形態では、情報処理装置10Bが、図7のステップS31~S37の処理を実行する場合について説明した。情報処理装置10Bは、ステップS31~S37の一部の処理を実行してもよい。一例として、情報処理装置10Bは、ステップS31~S34の処理を実行し、ステップS34で特定した識別用領域を出力してもよい。換言すると、図7のステップS31~S34を実行する装置と、ステップS35~ステップS37を実行する装置とが別体の装置であってもよい。
【0097】
〔例示的実施形態4〕
本発明の例示的実施形態4について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0098】
本例示的実施形態に係る情報処理装置10Cは、上述の例示的実施形態3の領域切出部113に代えて、領域切出部113Cを備える。
【0099】
図13は、領域切出部113Cの構成を示すブロック図である。領域切出部113Cは、クラス識別部32を備えない点、および第2特定部33に代えて第2特定部33Cを備える点において、領域切出部113と異なっている。
【0100】
第2特定部33Cは、第1特定部31が特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて、物体の識別用領域を特定する。一例として、第2特定部33は、第1特定部31が特定した複数の領域の積集合を、識別用領域として特定する。
【0101】
本例示的実施形態によれば、情報処理装置10Cは、異なる基準軸に基づき物体の領域を特定し、特定した複数の領域に基づき識別用領域を特定し、特定した識別用領域の外側を除外した画像データを用いて物体の識別を行う。これにより、背景の影響を抑えた識別処理を実行することができ、物体の識別の精度を向上させることができる。
【0102】
〔例示的実施形態5〕
本発明の例示的実施形態5について、図面を参照して詳細に説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0103】
<情報処理装置の構成>
図14は、本例示的実施形態に係る情報処理装置10Dの構成を示すブロック図である。情報処理装置10Dは、上述の例示的実施形態3の制御部110Bに代えて、制御部110Dを備える。制御部110Dは、推定フェーズ実行部150、および学習フェーズ実行部160を備える。
【0104】
推定フェーズ実行部150は、画像に含まれる物体を識別する。推定フェーズ実行部150が備える画像取得部111、汎用物体検出部112、領域切出部113、識別部114および出力部115は、上述の例示的実施形態3のそれらと同様であるため、同じ符号を付記し、その説明を繰り返さない。
【0105】
学習フェーズ実行部160は、第1生成部121、第2生成部122、第3生成部123を備える。
【0106】
(第1生成部)
第1生成部121は、画像に含まれる物体の領域候補を表す領域候補データを生成する。本例示的実施形態では、第1生成部121は、学習済モデルLM12に画像データを入力することにより得られる領域候補データを生成する。学習済モデルLM12が出力する領域候補データは、一例として、RPNの出力であるRoIである。
【0107】
(第2生成部)
第2生成部122は、画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する。第2生成部122が行う、領域データを生成する手法については後述する。
【0108】
(第3生成部)
第3生成部123は、入力データから複数の領域データを導出する学習済モデルLM13を生成する。
【0109】
<第2生成部の構成>
第2生成部122は、画像取得部221、画像回転部222、物体検出部223、および外接矩形算出部224を含む。
【0110】
(画像取得部)
画像取得部221は、画像データを取得する。画像取得部221が取得する画像データは、画像を表すデータであり、一例として、画像の特徴マップ(feature maps)である。画像取得部221は、画像データを記憶装置120Bから読み出すことにより取得してもよく、また、他の装置から通信部を介して画像データを受信することにより取得してもよい。また、画像取得部221は、所定のファイル形式の画像データを特徴マップに変換する処理を実行することにより、画像データを取得してもよい。
【0111】
(画像回転部)
画像回転部222は、画像取得部221が取得した画像データの表す画像を所定方向に回転させた回転画像を生成する。
【0112】
(物体検出部)
物体検出部223は、画像回転部222が生成した回転画像に含まれる物体の領域を特定する。一例として、物体検出部223は、画像データを学習済モデルに入力することにより得られる領域データに基づき、物体の領域を特定する。学習済モデルは、一例として、画像データを入力として、領域データを出力する学習済モデルであり、CNN構造を有するモデルで実現可能である。物体検出部223が物体の領域を特定する手法としては、既存の手法が適用され得る。
【0113】
(外接矩形算出部)
外接矩形算出部224は、領域を上記所定方向と反対方向に回転させた回転領域を示すデータを、領域データとして生成する。
【0114】
<学習済モデル生成方法の流れ>
以上のように構成された情報処理装置10Dが実行する、学習済モデルの生成方法S20Dの流れについて、図15を参照して説明する。図15は、学習済モデルの生成方法S20Dの流れを示すフロー図である。図15に示すように、学習済モデルの生成方法S20Dは、ステップS51~S53を含む。
【0115】
(ステップS51)
ステップS51において、第1生成部121は、画像を表す画像データと、当該画像に含まれる物体の領域候補を表す領域候補データとを含む入力データを生成する。画像データが表す画像に含まれる物体の数は、1つであってもよく、複数であってもよい。
【0116】
(ステップS52)
ステップS52において、第2生成部122は、画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する。第2生成部122が複数の領域データを生成する手法については後述する。
【0117】
(ステップS53)
ステップS53において、第3生成部123は、各々が入力データから複数の領域データを導出する学習済モデルLM13を生成する。換言すると、第3生成部123は、入力データと複数の領域データとを教師データとした機械学習により学習済モデルLM13を構築する。教師データに含まれる入力データは、画像を表す画像データ、および、当該画像データについて第1生成部121が生成した領域候補データを含む。教師データに含まれる複数の領域データは、第2生成部が生成した複数の領域データである。学習済モデルLM13の学習に用いる画像データは、例えば、識別対象の物体を撮像した多数の画像データであり得る。なお、学習済モデルLM13の学習に用いる画像データと、学習済モデルLM14の学習に用いる画像データとは同一であってもよい。
【0118】
<領域データ生成方法の流れ>
図16は、第2生成部122が実行する複数の領域データの生成方法S21Dの流れを示すフロー図である。図16に示すように、複数の領域データの生成方法S21Dは、ステップS41~S45を含む。
【0119】
(ステップS41)
ステップS41において、画像取得部221は、画像データを取得する。
【0120】
(ステップS42)
第2生成部122は、角度θ(iは1≦i≦Nを満たす整数)のそれぞれについて、ステップS42~S44の処理を実行することにより、複数の領域データを生成する。本例示的実施形態において、複数の領域データは、互いに傾きが異なる基準軸を有する複数の領域をそれぞれ示す。
【0121】
まず、ステップS42において、画像回転部222は、画像取得部221が取得した画像データの表す画像を、所定方向に角度(-θ)だけ回転させた画像(以下、「回転画像」という)を生成する。
【0122】
図17は、領域データの生成方法の具体例を示す図である。図において、画像Img31は、回転前の画像を表す。画像Img32は、画像回転部222が画像Img31を角度(-θ)だけ回転させた回転画像である。
【0123】
(ステップS43)
図16のステップS43において、物体検出部223は、画像回転部222が生成した回転画像に含まれる物体の領域を特定する。
【0124】
(ステップS44)
ステップS44において、外接矩形算出部224は、領域を角度(+θ)だけ回転させた回転領域を示す領域データを生成する。図17の領域r33は、物体検出部223が画像Img32において特定した領域r32を、角度(+θ)だけ回転させた領域である。
【0125】
第2生成部122は、角度θ(iは1≦i≦Nを満たす整数)のそれぞれについて、ステップS42~S44の処理を実行することにより、画像に含まれるひとつの物体について、複数の領域データを特定する。
【0126】
(ステップS45)
図16のステップS45において、外接矩形算出部224は、特定した複数の領域データを記憶装置120Bに記憶する。
【0127】
<本例示的実施形態の効果>
以上のように、本例示的実施形態によれば、情報処理装置10Dは、画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する。また、情報処理装置10Dは、生成した領域データを教師データとして機械学習させた学習済モデルを生成する。この学習済モデルが物体の識別に用いられることにより、背景の影響を抑えた識別処理が実現される。
【0128】
情報処理装置10Dが行う領域データの生成方法は、上述の例示的実施形態に示したものに限られない。一例として、情報処理装置10Dは、セグメンテーション用のアノテーションに基づいて、回転した外接矩形を算出してもよい。
【0129】
〔例示的実施形態6〕
本発明の例示的実施形態6について、図面を参照して詳細に説明する。なお、例示的実施形態1~5にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0130】
<情報処理装置の構成>
図18は、情報処理装置10Eの構成を示すブロック図である。情報処理装置10Eは、上述の例示的実施形態5の制御部110Dに代えて、制御部110Eを備える。制御部110Eは、推定フェーズ実行部150E、および学習フェーズ実行部160Eを備える。
【0131】
推定フェーズ実行部150Eは、推定フェーズ実行部150が備える領域切出部113に代えて、領域切出部113Eを備える。学習フェーズ実行部160Eは、学習フェーズ実行部160の第2生成部122に代えて、第2生成部122Eを備える。
【0132】
(領域切出部)
領域切出部113Eは、画像取得部111が取得した画像データと、汎用物体検出部112が検出した領域候補を用いて、物体の識別用領域を特定する。領域切出部113の詳細については後述する。
【0133】
(第2生成部)
第2生成部122Eは、上述の例示的実施形態5の外接矩形算出部224に代えて、部分矩形算出部224Eを備える。部分矩形算出部224Eは、学習済モデルLM13Eの教師データに含まれる領域データを生成する。本例示的実施形態において、複数の領域データは、互いに異なる基準位置を有する複数の領域をそれぞれ示す。
【0134】
(領域切出部の構成)
図19は、領域切出部113Eの構成を例示するブロック図である。領域切出部113Eは、第1特定部31E、クラス識別部32、第2特定部33E、および生成部34を備える。第1特定部31Eは、複数の基準位置に基づき物体の領域を複数特定する。第2特定部33Eは、特定した複数の領域を包含する領域(和集合)を、物体の識別用領域として特定する。
【0135】
第1特定部31Eは、画像に含まれる物体の領域をそれぞれ異なる基準位置に基づき複数特定する。より具体的には、第1特定部31Eは、学習済モデルLM13Eを用いた推定結果に基づき、物体の領域を特定する。
【0136】
学習済モデルLM13Eは、機械学習により構築された学習済モデルであり、画像に含まれる物体の領域を表す領域データを複数出力する。学習済モデルLM13Eが出力する複数の領域データは、領域の抽出に関する基準位置がそれぞれ異なっている。
【0137】
学習済モデルLM13Eの入力データは、画像データと、領域候補データとを含む。学習済モデルLM13Eの出力データは、物体の領域を表す複数の領域データを含む。各領域データは、一例として、物体の外接矩形の位置およびサイズを表すパラメータを含む。
【0138】
図20は、領域の切り出し方法の具体例を示す図である。図20において、画像データImg50は、領域の第1の切り出し方法の具体例を示す図であり、画像データImg52は、領域の第2の切り出し方法の具体例を示す図である。この例で、学習済モデルLM13Eは、部分領域p150~p152を示す出力データを出力する。部分領域p150は、領域候補データの示す領域候補R150を所定の基準位置に基づき分割した部分領域である。部分領域p151は、領域候補データの示す領域候補R150を所定の基準位置に基づき分割した部分領域である。部分領域p152は、領域候補データの示す領域候補R150を所定の基準位置に基づき分割した部分領域である。
【0139】
画像データImg60の例では、部分領域p160は、領域候補データの示す領域候補を所定の基準位置に基づき分割した部分領域p160である。部分領域p161は、領域候補データの示す領域候補R160を所定の基準位置に基づき分割した部分領域である。部分領域p162は、領域候補データの示す領域候補R160を所定の基準位置に基づき分割した部分領域である。
【0140】
第2特定部33Eは、第1特定部31Eが特定した複数の領域を包含する領域を、物体の識別用領域として特定する。一例として、第2特定部33Eは、部分領域p150~p152を包含する領域p15を識別用領域として特定する。また、一例として、第2特定部33Eは、部分領域p160~p162を包含する領域p16を識別用領域として特定してもよい。また、一例として、第2特定部33Eは、領域p15と領域p16との積集合である領域p17を、識別用領域として特定してもよい。
【0141】
学習済モデルLM13Eの学習フェーズにおいては、部分矩形算出部224Eは、一例として、図20の部分領域p150~p152を表す領域データ、または部分領域p160~p162を表す領域データを生成する。部分矩形算出部224Eは、一例として、物体検出部223が検出した物体の領域を所定の軸方向(例えば、x軸方向、y軸方向、等)に3分割した各領域を表す領域データを生成してもよい。この場合、第3生成部123は、部分矩形算出部224Eが生成した複数の領域データを教師データとして用いて学習済モデルLM13Eを機械学習させる。
【0142】
本例示的実施形態によれば、情報処理装置10Eは、異なる基準位置に基づき物体の領域を特定し、特定した複数の領域を包含する識別用領域を特定し、特定した識別用領域の外側を除外した画像データを用いて物体の識別を行う。これにより、背景の影響を抑えた識別処理を実行することができ、物体の識別の精度を向上させることができる。
【0143】
〔例示的実施形態7〕
本発明の例示的実施形態7について、図面を参照して詳細に説明する。なお、例示的実施形態1~6にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0144】
本例示的実施形態に係る情報処理装置10Gは、上述の実施形態3に係る領域切出部113に代えて、領域切出部113Gおよび記憶装置120Gを備える。図21は、領域切出部113Gの構成を例示するブロック図である。領域切出部113Gは、第1特定部31に代えて、第1特定部31Gを備える。記憶装置120Gは、学習済モデルLM13に代えて、学習済モデルLM130~LM132を備える。このように、本例示的実施形態では、複数の領域データを出力する学習済モデルLM13を用いる替わりに、それぞれが領域データを出力する複数の学習済モデルLM130~LM132を用いる点において上述の実施形態3とは異なっている。
【0145】
本例示的実施形態において、第1特定部31Gは、画像を表す画像データ、および、画像中の物体が存在する領域の候補を示す領域候補データを入力として、画像中の物体が存在する領域を示す複数の領域データを出力する学習済モデルLM130~LM132を用いて、物体の複数の領域を特定する。
【0146】
第1特定部31は、外接矩形推定部311a~311cを備える。外接矩形推定部311a~311cは、画像に含まれる物体の領域をそれぞれ異なる基準で特定する。本例示的実施形態において、外接矩形推定部311a~311cは、画像に含まれる物体の領域をそれぞれ異なる基準軸に基づき特定する。より具体的には、外接矩形推定部311a~311cはそれぞれ、学習済モデルLM130~LM132を用いた推定結果に基づき、物体の領域を特定する。以下の説明では、外接矩形推定部311a~311cを各々区別する必要がない場合には、これらを「外接矩形推定部311」と称する。
【0147】
(学習済モデル)
学習済モデルLM130~LM132は機械学習により構築された学習済モデルである。学習済モデルLM130~LM132はそれぞれ、画像を表す画像データ、および、画像中の物体が存在する領域の候補を示す領域候補データを入力として、画像中の物体が存在する領域を示す領域データを出力する。学習済モデルLM130~LM132は、各々が出力する領域データの示す領域の基準位置または基準方向が互いに異なるように学習されている。
【0148】
学習済モデルLM130~LM132の入力データは、画像データと領域候補データとを含む。学習済モデルLM130~LM132の出力データは、物体の領域を表す領域データであり、一例として、物体の外接矩形の位置およびサイズを表すパラメータを含む。
【0149】
外接矩形推定部311a~311cは、複数の基準軸に基づき物体の領域を複数特定する。一例として、外接矩形推定部311a~311cは、学習済モデルLM130~LM132を用いて基準軸毎の物体の外接矩形を検出する。
【0150】
学習済モデルLM130~LM132は、切り出される領域の基準軸がそれぞれ異なっている。学習済モデルLM130~LM132が出力する領域データは、一例として、図9の領域r130~r132である。この場合、図9の基準軸a130~a132はそれぞれ、学習済モデルLM130~LM132について定められた基準軸である。
【0151】
一例として、学習済モデルLM130が出力する出力データは、基準軸a130に平行な2辺を有する、物体OBJ1の外接矩形の領域r130を示す。学習済モデルLM131が出力する出力データは、基準軸a131に平行な2辺を有する、物体OBJ1の外接矩形の領域r131を示す。学習済モデルLM132が出力する出力データは、基準軸a132に平行な2辺を有する外接矩形の領域r132を示す。
【0152】
〔例示的実施形態8〕
本発明の例示的実施形態8について、図面を参照して詳細に説明する。なお、例示的実施形態1~7にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0153】
本例示的実施形態に係る情報処理装置10Fは、上述の実施形態3に係る領域切出部113に代えて、領域切出部113Fを備える。図22は、領域切出部113Fの構成を例示するブロック図である。領域切出部113Fは、第1特定部31に代えて、第1特定部31Fを備える。
【0154】
第1特定部31Fは、外接矩形推定部312、および回転部313を備える。外接矩形推定部312は、画像に含まれる物体の領域を複数の基準で特定する。本例示的実施形態において、外接矩形推定部312は、画像に含まれる物体の領域を、複数の基準軸に基づき特定する。より具体的には、外接矩形推定部312は、学習済モデルLM13Fを用いた推定結果に基づき、物体の領域を特定する。
【0155】
学習済モデルLM13Fは、機械学習により構築された、画像に含まれる物体の領域を表す出力データを出力する学習済モデルである。学習済モデルLM13Fの入力データは、画像データと、候補領域データとを含む。学習済モデルLM13Fの出力データは、物体の領域を表す領域データであり、一例として、物体の外接矩形の位置およびサイズを表すパラメータを含む。
【0156】
回転部313は、複数の基準軸aθ(iは、1≦i≦Nを満たす整数)に基づき画像を回転した回転画像データを生成し、生成した回転画像データを外接矩形推定部312に供給する。一例として、回転部313は識別対象である画像Img0を角度θ1だけ回転させた回転画像Img1、画像Img0を角度θ2だけ回転させた回転画像Img2、の2つの回転画像を生成する。
【0157】
この場合、外接矩形推定部312は、画像Img0を表す画像データと領域候補データとを学習済モデルLM13Fに入力することにより得られる第1の領域データを取得する。また、外接矩形推定部312は、画像Img1を表す画像データと領域候補データとを学習済モデルLM13Fに入力することにより得られる第2の領域データを取得する。また、外接矩形推定部312は、画像Img3を表す画像データと領域候補データとを学習済モデルLM13Fに入力することにより得られる第3の領域データを取得する。外接矩形推定部312は、取得した第1の領域データ、第2の領域データ、および第3の領域データを第2特定部33に供給する。
【0158】
第2特定部33は、第1特定部31Fが特定した複数の領域の2以上の和集合および積集合の一方または両方を用いて、物体の識別用領域を特定する。第2特定部33が識別用領域を特定する手法は上述の例示的実施形態3と同様であり、その詳細な説明を繰り返さない。
【0159】
〔例示的実施形態9〕
上述の各例示的実施形態では、領域切出部113は、Faster-RCNN等の物体検出の手法で用いられるRPNの出力であるRoIを学習済モデルLM13の入力データとして用いた。学習済モデルLM13の入力データとして用いる領域候補データは、上述した各例示的実施形態で示したものに限られない。領域候補データは例えば、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等の他の物体検出の手法に係るデータであってもよい。一例として、YOLOにおいて画像全体をグリッド分割した各領域を表すデータを、学習済モデルLM13の入力データとして用いてもよい。
【0160】
〔ソフトウェアによる実現例〕
情報処理装置10、10A、10B、10C、10D、10Eの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0161】
後者の場合、情報処理装置10、10A、10B、10C、10D、10Eは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図22に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置10、10A、10B、10C、10D、10Eとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置10、10A、10B、10C、10D、10Eの各機能が実現される。
【0162】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0163】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0164】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0165】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0166】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0167】
(付記1)
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、
を備える情報処理装置。
【0168】
上記の構成によれば、情報処理装置は、異なる基準で特定した物体の複数の領域に基づき識別用領域を特定し、特定した識別用領域に基づいて物体の識別を行うことにより、背景の影響を抑えた識別処理が実現される。これにより、物体の識別の精度を向上させることができる。
【0169】
(付記2)
前記第1特定手段は、前記画像を表す画像データ、および、前記画像中の前記物体が存在する領域の候補を示す領域候補データを入力として、前記画像中の物体が存在する領域を示す複数の領域データを出力する1または複数の学習済モデルを用いて、前記複数の領域を特定する、
付記1に記載の情報処理装置。
【0170】
上記の構成によれば、機械学習により構築された学習済モデルから得られる出力データを用いて物体の領域を複数特定し、特定した複数の領域に基づいて物体の識別用領域を特定する。これにより、画像に含まれる物体の識別用領域の特定の精度を高くすることができる。
【0171】
(付記3)
前記領域データは、前記領域データが示す領域と前記領域候補データが示す領域の候補との差分を示す、
付記2に記載の情報処理装置。
【0172】
上記の構成によれば、各学習モデルが出力する領域データが示す領域と領域候補データが示す領域の候補との差分に基づいて、各領域データが示す領域を特定することができる。
【0173】
(付記4)
前記第1特定手段は、前記画像を表す画像データを入力として、前記領域候補データを出力する学習済モデルを用いて取得した前記領域候補データを前記学習済モデルに入力する、
付記3に記載の情報処理装置。
【0174】
上記の構成によれば、情報処理装置は、学習モデルを用いて領域候補データを取得することができる。
【0175】
(付記5)
前記第2特定手段は、前記画像における前記識別用領域内の部分画像を含み、当該部分画像以外を背景色で充填した識別用画像を生成し、
前記識別手段は、前記識別用画像を入力とし、前記物体の識別結果を出力する識別用学習済モデルを用いて、前記物体を識別する、
付記1から4のいずれか1つに記載の情報処理装置。
【0176】
上記の構成によれば、情報処理装置は、識別用学習済モデルに入力するための識別用画像として、識別用領域以外の領域を背景色で充填した識別用画像を生成する。これにより、学習済モデルを用いた物体の識別の精度を向上させることができる。
【0177】
(付記6)
前記背景色は、前記識別用学習済モデルが学習した教師データの背景色と同一である、付記5に記載の情報処理装置。
【0178】
上記の構成によれば、識別用画像の背景色が、識別用学習済モデルが学習した教師データの背景色と同一であるので、物体の識別の精度を向上させることができる。
【0179】
(付記7)
前記第1特定手段は、互いに傾きが異なる基準軸を有する前記複数の領域を特定する、
付記1から6のいずれか1つに記載の情報処理装置。
【0180】
上記の構成によれば、識別用領域に含まれる背景を少なくすることができ、この識別用領域に基づき物体の識別を行うことにより、物体の識別の精度を向上させることができる。
【0181】
(付記8)
前記第2特定手段は、前記複数の領域の積集合に基づいて、前記識別用領域を特定する、
付記7に記載の情報処理装置。
【0182】
上記の構成によれば、識別用領域に含まれる背景を少なくすることができ、この識別用領域に基づき物体の識別を行うことにより、物体の識別の精度を向上させることができる。
【0183】
(付記9)
前記第1特定手段は、互いに異なる基準位置を有する前記複数の領域を特定する、
付記1から6の何れか1つに記載の情報処理装置。
【0184】
上記の構成によれば、識別用領域に含まれる背景を少なくすることができ、この識別用領域に基づき物体の識別を行うことにより、物体の識別の精度を向上させることができる。
【0185】
(付記10)
前記第2特定手段は、前記複数の領域の和集合に基づいて、前記識別用領域を特定する、
付記9に記載の情報処理装置。
【0186】
上記の構成によれば、識別用領域に含まれる背景を少なくすることができ、この識別用領域に基づき物体の識別を行うことにより、物体の識別の精度を向上させることができる。
【0187】
(付記11)
画像中の物体が存在する領域の候補を示す領域候補データを生成する第1生成手段と、
前記画像中の前記物体が存在する領域であって、基準位置または基準方向が互いに異なる複数の領域をそれぞれ示す複数の領域データを生成する第2生成手段と、
前記画像を示す画像データ、および、前記領域候補データを入力とし、前記複数の領域データを出力する1または複数の学習済モデルを生成する第3生成手段と、
を備える情報処理装置。
【0188】
上記の構成によれば、情報処理装置は、画像における物体の領域を、領域の特定に関する基準位置または基準方向がそれぞれ異なる基準で特定した、物体を識別するために用いる複数の領域データを生成する。また、情報処理装置は、生成した領域データを教師データとして機械学習させた学習済モデルを生成する。これらの学習済モデルが物体の識別に用いられることにより、背景の影響を抑えた識別処理が実現される。
【0189】
(付記12)
前記第2生成手段は、互いに傾きが異なる基準軸を有する前記複数の領域をそれぞれ示す複数の領域データを生成する、
付記11の記載の情報処理装置。
【0190】
上記の構成によれば、情報処理装置は、互いに傾きが異なる基準軸を有する複数の領域をそれぞれ表す複数の領域データを生成し、生成した領域データを教師データとして用いて学習済モデルを機械学習させる。これらの学習済モデルが物体の識別に用いられることにより、背景の影響を抑えた識別処理が実現される。
【0191】
(付記13)
前記第2生成手段は、
前記画像を所定方向に回転させた回転画像を生成する回転画像生成手段と、
前記回転画像に含まれる物体の領域を特定する領域特定手段と、
前記領域を前記所定方向と反対方向に回転させた回転領域を示すデータを、前記領域データとして生成する回転領域生成手段と、を備える、
付記12に記載の情報処理装置。
【0192】
上記の構成によれば、情報処理装置は、物体の識別のために用いる学習済モデルの教師データを生成することができる。
【0193】
(付記14)
前記第2生成手段は、互いに異なる基準位置を有する前記複数の領域をそれぞれ示す複数の領域データを生成する、
付記11に記載の情報処理装置。
【0194】
上記の構成によれば、上記の構成によれば、情報処理装置は、互いに異なる基準位置を有する複数の領域をそれぞれ表す複数の領域データを生成し、生成した領域データを教師データとして用いて学習済モデルを機械学習させる。これらの学習済モデルが物体の識別に用いられることにより、背景の影響を抑えた識別処理が実現される。
【0195】
(付記15)
情報処理装置が、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定し、
特定した前記複数の領域に基づいて、前記物体の識別用領域を特定し、
特定した前記識別用領域に基づいて、前記物体を識別する、
ことを含む情報処理方法。
【0196】
上記の構成によれば、付記1と同様の効果を奏する。
【0197】
(付記16)
コンピュータを情報処理装置として機能させるプログラムであって、
前記プログラムは、前記コンピュータを、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、として機能させる、
ことを特徴とするプログラム。
【0198】
上記の構成によれば、付記1と同様の効果を奏する。
【0199】
(付記17)
コンピュータを情報処理装置として機能させるプログラムを記憶した記憶媒体であって、
前記プログラムは、前記コンピュータを、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定手段と、
前記第1特定手段が特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定手段と、
前記第2特定手段が特定した前記識別用領域に基づいて、前記物体を識別する識別手段と、として機能させる、
ことを特徴とするプログラムを記憶した記憶媒体。
【0200】
上記の構成によれば、付記1と同様の効果を奏する。
【0201】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0202】
少なくとも1つのプロセッサを備え、前記プロセッサは、
画像中の物体が存在する領域として、基準位置または基準方向がそれぞれ異なる複数の領域を特定する第1特定処理と、
前記第1特定処理において特定した前記複数の領域に基づいて、前記物体の識別用領域を特定する第2特定処理と、
前記第2特定処理において特定した前記識別用領域に基づいて、前記物体を識別する識別処理と、を実行する情報処理装置。
【0203】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記第1特定処理と、前記第2特定処理と、前記生成処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0204】
10、10A、10B、10C、10D、10E 情報処理装置
11、31 第1特定部
12、33、33C 第2特定部
13 識別部
34 生成部
14、121 第1生成部
15、122、122E 第2生成部
16、123 第3生成部
32 クラス識別部
110B、110D、110E 制御部
111、221 画像取得部
112 汎用物体検出部
113、113C、113E 領域切出部
114 識別部
115 出力部
120B 記憶装置
150、150E 推定フェーズ実行部
160、160E 学習フェーズ実行部
222 画像回転部
223 物体検出部
224 外接矩形算出部
311a、311b、311c、312 外接矩形推定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22