IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7459151情報処理装置、情報処理システム、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図4
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図5
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図6
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図7
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図8
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図9
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図10
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図11
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図12
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図13
  • 特許-情報処理装置、情報処理システム、情報処理方法、及びプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-22
(45)【発行日】2024-04-01
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240325BHJP
   H04N 23/60 20230101ALI20240325BHJP
【FI】
G06T7/00 660A
H04N23/60 500
【請求項の数】 12
(21)【出願番号】P 2022018960
(22)【出願日】2022-02-09
(65)【公開番号】P2023026293
(43)【公開日】2023-02-24
【審査請求日】2022-07-04
(31)【優先権主張番号】P 2021132089
(32)【優先日】2021-08-13
(33)【優先権主張国・地域又は機関】JP
【前置審査】
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】本條 智也
【審査官】佐藤 実
(56)【参考文献】
【文献】特開2020-198053(JP,A)
【文献】特開2010-176504(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
H04N 23/60
(57)【特許請求の範囲】
【請求項1】
第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出手段と、
前記検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定手段と、
前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出手段が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出手段による物体検出の検出結果を修正する修正手段と
を有することを特徴とする情報処理装置。
【請求項2】
前記判定手段は、前記第1の画像において、前記第1の検出領域と前記第2の検出領域とが所定の割合以上重なっている場合に、前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定することを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記第1の画像は、撮像装置が撮像することにより取得される撮像画像であることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記第2の画像は、前記第1の検出領域と前記第2の検出領域との和集合を含む領域に対応する画像であることを特徴とする請求項1~の何れか1項に記載の情報処理装置。
【請求項5】
前記第2の画像は、前記第1の検出領域と前記第2の検出領域との和集合と、所定のマージンとを含むことを特徴とする請求項に記載の情報処理装置。
【請求項6】
過去の検出結果と現在の検出結果との対応付けを行い、過去の検出結果に対応する属性に係る情報に基づいて、現在の検出結果に対応する属性を更新する対応付け手段を有することを特徴とする請求項1~の何れか1項に記載の情報処理装置。
【請求項7】
前記対応付け手段は、所定の過去の画像の検出結果における属性の統計情報を取得し、前記統計情報において最も出現頻度の高い属性を現在の検出結果の属性とすることを特徴とする請求項に記載の情報処理装置。
【請求項8】
前記第1の属性及び前記第2の属性は、それぞれ、メガネ着用及びメガネ非着用を示すことを特徴とする請求項1~の何れか1項に記載の情報処理装置。
【請求項9】
第1の情報処理装置と第2の情報処理装置とを有する情報処理システムであって、
前記第1の情報処理装置は、
第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う第1の検出手段と、
前記第1の検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域との重なりを判定する判定手段と、
前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定された場合、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域に対応する第2の画像を抽出する抽出手段と、
前記第2の画像を用いて前記第2の情報処理装置が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記第1の検出手段による物体検出の検出結果を修正する修正手段と、
前記抽出手段が抽出した前記第2の画像を前記第2の情報処理装置に出力する第1の通信手段と、を有し、
前記第2の情報処理装置は、
前記第1の通信手段により出力される前記第2の画像を拡大することにより得られる画像から、前記第1の属性と前記第2の属性とのそれぞれに対応する物体の検出を行う第2の検出手段と、
前記第2の検出手段による前記画像に対する物体検出の検出結果を、前記第2の画像に対する物体検出の検出結果として前記第1の情報処理装置に出力する第2の通信手段と、を有することを特徴とする情報処理システム。
【請求項10】
前記第1の情報処理装置は、撮像装置であり、
前記第2の情報処理装置は、前記撮像装置に接続される他の装置である
ことを特徴とする請求項に記載の情報処理システム。
【請求項11】
第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出工程と、
前記検出工程において前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定工程と、
前記判定工程において前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出工程において物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出工程における物体検出の検出結果を修正する修正工程と
を有することを特徴とする情報処理方法。
【請求項12】
コンピュータを、請求項1~の何れか1項に記載の情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像から物体を検出する技術に関する。
【背景技術】
【0002】
近年、監視カメラ等の撮像装置により撮像された画像を用いて物体の検出や追尾、属性の推定等を行う画像解析や、そのような画像解析の結果を用いた物体数の推定が様々なシーンで行われている。物体の検出では、例えば、検出対象の物体の位置及び大きさ、物体の属性、物体の信頼度等を出力する。物体の検出において、一つの物体に対して複数の検出結果が生じる場合がある。それにより、検出結果の信頼性低下や統計データの信頼性低下などにつながるという課題がある。そのような課題に対し、特許文献1には、検出処理枠ごとに出力された検出枠の位置及び大きさに基づいて、他の検出枠と重複する重複度合いが閾値以上となる検出枠を、検出枠の性質に応じて統合し最終的な物体検出枠として出力する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-180945号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された技術では、検出結果の信頼性が低い場合でもその検出結果を使用して検出枠の統合を行い最終的な物体検出枠として出力するため、最終的な物体検出枠の信頼性が低くなってしまうことがある。本発明は、このような事情に鑑みてなされたものであり、画像を用いた物体の検出において、最終的により適切な検出結果を出力できるようにすることを目的とする。
【課題を解決するための手段】
【0005】
本発明に係る情報処理装置は、第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出手段と、前記検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定手段と、前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出手段が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出手段による物体検出の検出結果を修正する修正手段とを有することを特徴とする。
【発明の効果】
【0006】
本発明によれば、画像を用いた物体の検出において、最終的により適切な検出結果を出力することが可能となる。
【図面の簡単な説明】
【0007】
図1】第1の実施形態による情報処理装置の構成例を示す図である。
図2】第1の実施形態による情報処理装置の機能構成例を示す図である。
図3】第1の実施形態による物体検出処理を説明するフローチャートである。
図4】第1の実施形態による物体検出処理を説明する図である。
図5】第2の実施形態による情報処理装置の構成例を示す図である。
図6】第2の実施形態による情報処理装置の機能構成例を示す図である。
図7】第2の実施形態による物体検出処理を説明するフローチャートである。
図8】第2の実施形態による物体検出処理を説明する図である。
図9】第3の実施形態による情報処理装置の機能構成例を示す図である。
図10】第3の実施形態による物体検出処理を説明するフローチャートである。
図11】第3の実施形態による物体検出処理を説明する図である。
図12】第4の実施形態による情報処理装置の機能構成例を示す図である。
図13】第4の実施形態による物体検出処理を説明するフローチャートである。
図14】第4の実施形態による物体検出処理を説明する図である。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態を図面に基づいて説明する。
【0009】
[第1の実施形態]
図1は、本実施形態による情報処理装置100の構成例を示すブロック図である。本実施形態における情報処理装置100は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。
【0010】
本実施形態による情報処理装置100は、CPU101、メモリ102、通信インターフェース(I/F)部103、表示部104、入力部105、及び記憶部106を有する。CPU101、メモリ102、通信I/F部103、表示部104、入力部105、及び記憶部106は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置100は、これ以外の構成をさらに有していてもよい。
【0011】
CPU(Central Processing Unit)101は、情報処理装置100の全体の制御を司る。CPU101は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ102は、CPU101が処理に利用するデータ、プログラム等を記憶する。また、メモリ102は、CPU101の主メモリ、ワークエリア等としての機能を有する。CPU101がメモリ102に記憶されたプログラムに基づき処理を実行することにより、後述する図2に示す情報処理装置100の機能構成及び後述する図3に示すフローチャートの処理が実現される。
【0012】
通信I/F部103は、情報処理装置100をネットワークに接続するインターフェースである。表示部104は、液晶ディスプレイ等の表示部材を有し、CPU101による処理の結果等を表示する。入力部105は、マウス又はボタン等の操作部材を有し、ユーザの操作を情報処理装置100に入力する。記憶部106は、例えば、CPU101がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部106は、例えば、CPU101がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU101が処理に利用するデータ、プログラム等を記憶部106に記憶するようにしてもよい。
【0013】
図2は、情報処理装置100の機能構成例を示すブロック図である。情報処理装置100は、画像取得部201、物体検出部202、重なり判定部203、画像抽出部204、結果修正部205、結果出力部206、及び記憶部207を有する。
【0014】
画像取得部201は、物体検出を行う対象となる画像を取得する。本実施形態では、物体検出を行う対象となる画像は、通信I/F部103を通じて外部から取得する。以下では、この画像取得部201が取得した、物体検出を行う対象となる画像のデータを単に「入力画像」とも呼ぶ。以下の説明では、入力画像は、一例として水平方向(横方向)の幅が1080ピクセルであり、垂直方向(縦方向)の高さが720ピクセルである、1080×720ピクセルのRGB画像とする。なお、入力画像は、1080×720ピクセルのRGB画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていてもよい。
【0015】
物体検出部202は、画像から複数の属性(クラス)に係る物体検出を行う。本実施形態では、物体検出部202は、画像取得部201によって取得された画像から人物の顔を検出する。また、物体検出部202は、画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出できるように学習が行われた機械学習モデルを用いて、検出結果を出力する。「メガネ着用の顔」と「メガネ非着用の顔」との検出は、例えば下記文献1に記載の技術を適用することで実現できる。
(文献1)J.Redmon,A.Farhadi,”YOLO9000:Better
Faster Stronger”,Computer Vision and Pa
ttern Recognition (CVPR) 2016.
【0016】
ここで、物体検出部202が出力する検出結果は、検出した顔の位置及び大きさ、顔の属性(クラス)、及び検出の信頼度であるとする。顔の位置及び大きさは、例えば顔を囲む矩形枠を規定する座標(例えば、矩形の左上座標(x1,y1)及び右下座標(x2,y2))により出力される。また、顔の属性は、メガネ着用の顔であるか又はメガネ非着用の顔であるかを示す。また、検出の信頼度は、例えば、信頼度が最も低い場合を0とし、信頼度が最も高い場合を1として、0~1の実数で出力される。以下では、顔を囲む矩形枠、顔の属性、及び検出の信頼度のそれぞれを、単に、「検出枠」、「属性」、「信頼度」とも呼ぶ。なお、検出結果の出力方法は、前述した例に限定されるものではなく、検出した顔の位置及び大きさ、顔の属性、及び検出の信頼度がそれぞれ認識できればよい。
【0017】
重なり判定部203は、物体検出部202によって得られた検出結果について異なる属性の検出結果の重なりを判定する。重なり判定部203は、物体検出部202によって得られた全検出結果のうち、任意の2つの検出枠を組として、組毎に検出枠の重なり率を算出する。重なり判定部203は、算出した重なり率が閾値以上である、すなわち検出枠の領域が所定の割合以上重なった検出枠の組があれば重なりありと判定し、その検出結果の組を出力する。本実施形態では、重なり率は、IoU(Intersection over Union)で計算するものとし、閾値は一例として0.5とする。つまり、2つの検出枠の領域の共通部分を領域の和集合で割ったときの商が0.5以上であれば重なり判定部203は重なりありと判定する。閾値以上重なった検出枠の組がない場合には、重なり判定部203は、重なりなしと判定する。
【0018】
画像抽出部204は、重なり判定部203による判定結果に基づき、入力画像と重なり判定部203により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部204は、抽出した領域の画像(以下、「抽出画像」とも呼ぶ)と、入力画像に対する抽出する領域の左上の座標を出力する。本実施形態では、抽出する領域の左上座標を(x1-((x2-x1)/10),y1-((y2-y1)/10))、右下座標を(x2+((x2-x1)/10),y2+((y2-y1)/10))とし、検出枠の和集合に対してマージンを取って抽出する。画像抽出部204は、抽出画像と、抽出する領域の左上座標(x1-((x2-x1)/10),y1-((y2-y1)/10))とを出力する。ここで、(x1,y1)は2つの検出枠の和集合を包含する矩形領域の左上座標であり、(x2,y2)は2つの検出枠の和集合を包含する矩形領域の右下座標である。なお、抽出する領域が入力画像の範囲を超えた領域については、例えば白色で塗りつぶすものとする。
【0019】
結果修正部205は、物体検出部202による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。結果修正部205は、まず入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除する。次に、結果修正部205は、抽出画像に対する検出結果の数が1つである場合、抽出画像で得られた検出結果に置き換える。また、結果修正部205は、抽出画像に対する検出結果の数が2つ以上である場合、検出枠が2つの検出枠の和集合を包含する矩形領域であって、顔の属性が「メガネ着用不明」、検出の信頼度が1である検出結果を生成して置き換える。
【0020】
結果出力部206は、入力画像に検出結果を重畳した画像を出力する。本実施形態では、結果出力部206は、例えば、検出結果に基づいて属性に応じた検出枠を入力画像に重畳した画像を出力する。記憶部207は、情報処理装置100の各機能部201~206での処理に用いるデータや処理結果として得られるデータ等を記憶する。
【0021】
次に、図3及び図4を参照して、情報処理装置100が行う処理について説明する。図3は、第1の実施形態による物体検出処理を説明するフローチャートである。図4は、第1の実施形態による物体検出処理を説明する図である。
【0022】
ステップS301において、画像取得部201は、入力画像(物体検出を行う対象となる画像)を取得する。入力画像410の一例を図4(a)に示す。本実施形態では、入力画像410は、前述したように1080×720ピクセルの画像であるとする。
【0023】
ステップS302において、物体検出部202は、入力画像を用いて検出対象である人物の顔を検出する顔検出処理を行い、入力画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。入力画像に対する顔検出処理の検出結果の例を図4(b)に示し、検出結果を入力画像に重畳した画像の例を図4(c)に示す。図4(b)に示した例では、検出結果として4つの検出結果A~Dが得られ、それぞれ検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性(「メガネ着用」又は「メガネ非着用」)と、信頼度とが出力される。また、図4(c)に示した例では、入力画像410に対して検出結果A~Dに対応する検出枠411~414が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果A、Dに対応する検出枠411、414が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果B、Cに対応する検出枠412、413が実線の矩形枠で表示されている。
【0024】
ステップS303において、重なり判定部203は、入力画像に対する検出結果の内の任意の2つの検出結果を組として、入力画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Aの検出枠の左上座標が(20,200)であり、右下座標が(320,500)である。また、検出結果Bの検出枠の左上座標が(40,210)であり、右下座標が(340,510)である。したがって、検出結果Aと検出結果Bの検出枠の重なり率は、
IoU(A,B)=((320-40)×(500-210))÷(300×300+300×300-((320-40)×(500-210)))≒0.82
となる。その他の組み合わせにおいて、検出枠の重なり率は0となる。
【0025】
ステップS304において、重なり判定部203は、ステップS303で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合(ステップS304でYES)、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップS305に移行する。一方、重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合(ステップS304でNO)、ステップS309に移行する。本実施形態の例では、重なり率の閾値は0.5であるとする。重なり判定部203は、ステップS303において算出した重なり率が0.5以上となった検出結果の組が存在する場合にはステップS305に移行し、存在しない場合にはステップS309に移行する。本例では、検出結果Aと検出結果Bの検出枠の重なり率が0.5以上であるので、重なり判定部203は、重なり率が0.5以上となった組み合わせ(A,B)を出力し、ステップS305に移行する。
【0026】
ステップS305において、画像抽出部204は、入力画像とステップS304で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部204は、検出結果の組から2つの検出枠の和集合に対する外接矩形を算出する。本例では、組み合わせ(A,B)について外接矩形を算出する。図4(b)に示したように、検出結果Aの検出枠の左上座標が(20,200)、右下座標が(320,500)であり、検出結果Bの検出枠の左上座標が(40,210)、右下座標が(340,510)である。したがって、組み合わせ(A,B)の外接矩形は、左上座標が(20,200)となり、右下座標が(340,510)となる。次に、画像抽出部204は、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。本例では、組み合わせ(A,B)の外接矩形は、左上座標が(20,200)、右下座標が(340,510)である。したがって、抽出する領域の左上座標は、(20-((340-20)/10),(200-((510-200)/10)=(-12,169)となる。また、抽出する領域の右下座標は、(340+((340-20)/10),510+((510-200)/10))=(372,541)となる。抽出する領域の左上座標が(-12,169)となり、右下座標が(372,541)となるので、抽出画像は、水平方向の幅が384ピクセルとなり、垂直方向の高さが372ピクセルとなる。これをもとに抽出した抽出画像420の例を図4(d)に示す。
【0027】
ステップS306において、物体検出部202は、ステップS305で抽出した抽出画像を用いて顔検出処理を行い、抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。抽出画像に対する顔検出処理の検出結果の例を図4(e)に示し、検出結果を抽出画像に重畳した画像の例を図4(f)に示す。図4(e)に示した例では、検出結果Eが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。また、図4(f)に示した例では、メガネ着用の顔として検出された検出結果Eに対応する検出枠421が破線の矩形枠で抽出画像420に重畳して表示されている。
【0028】
ステップS307において、結果修正部205は、ステップS306で得られた抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果(ここでは検出結果E)が1つであるため、結果修正部205は、抽出画像に対応づいた検出結果A及び検出結果Bを削除し、抽出画像の検出結果Eで置き換える。このとき、検出結果Eの検出枠の座標を、入力画像に対する抽出する領域の左上座標(-12,169)を基準として、入力画像における座標に変換する。抽出画像における検出結果Eの検出枠の左上座標が(42,36)であり、右下座標が(342,336)であるので、入力画像における検出結果Eの検出枠の左上座標は(30,205)であり、右下座標は(330,505)である。変換した結果を含む入力画像の最終結果の例を図4(g)に示す。
【0029】
ステップS308において、結果出力部206は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部206は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合(ステップS308でYES)、ステップS309に移行する。一方、結果出力部206は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合(ステップS308でNO)、ステップS305に移行し、未処理の組み合わせについてステップS305以降の処理を実行する。
【0030】
ステップS309において、結果出力部206は、図4(g)に示したような入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。入力画像に対する最終の検出結果を入力画像に重畳した画像の例を図4(h)に示す。図4(h)に示した例では、入力画像410に対して検出結果C、D、Eに対応する検出枠413、414、421が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果D、Eに対応する検出枠414、421が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果Cに対応する検出枠413が実線の矩形枠で表示されている。
【0031】
第1の実施形態によれば、入力画像に対する物体検出において、異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域を抽出した抽出画像に対して物体検出を行い、抽出画像に対する検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。
【0032】
(変形例)
なお、物体検出部202において、検出対象とする物体の種類や物体検出を行う画像のサイズは任意でよい。また、検出したい物体を検出することができる技術であれば、物体検出部202は、文献1に開示されている技術に限らず、様々な技術を適用可能である。また、重なり判定部203において、検出対象の種類が3種類以上であった場合には、任意の2種類の検出結果の組み合わせに対して、前述した重なりの判定手法を適用可能である。
【0033】
結果修正部205は、抽出画像に対する検出結果の数が2つ以上の場合、前述した処理に限らず、以下のような他の処理を行うようにしても良い。例えば、顔の属性に対しては検出の信頼度が最も高い検出結果の顔の属性を用いても良いし、また、検出結果そのもの(検出枠、属性、及び信頼度)を検出の信頼度が最も高い検出結果そのもので置き換えても良い。このとき、入力画像に対する検出結果と抽出画像に対する検出結果との中で最も信頼度が高いものを選択しても良い。
【0034】
さらに、画像抽出部204において抽出する領域は、検出枠の和集合が含まれる矩形領域であれば任意で良い。例えば、検出枠の和集合に対する外接矩形に対するマージンを0としてもよいし、物体検出部202の仕様に基づいて所定のマージンを設定しても良い。例えば、入力画像の横幅に対して物体検出部202での検出精度が最も向上する物体の横幅の割合が50%であった場合、検出枠の和集合が含まれる矩形領域の幅が入力画像の幅の50%となるようにマージンを設定しても良い。また、画像抽出部204は、入力画像から指定された領域を抽出するだけでなく、抽出画像に対して画像を左右反転させたり、画像をx方向又はy方向にシフトさせたり、輝度や色相等の画素値を変更させたりするようにしても良い。
【0035】
また、入力画像の検出結果で重なりが生じた場合に2回目の検出を行わず(すなわちステップS305及びステップS306の処理をスキップする)、結果修正部205が直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。例えば、新しい検出枠は、重なった検出枠の和集合を包含する矩形領域とし、顔の属性は結果不明を示す「メガネ着用不明」とし、検出の信頼度は1とするような検出結果を生成して、重なりが生じた検出結果と置き換えてもよい。さらに、抽出画像に対する検出結果が空の場合には、同様に結果修正部205により直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。
【0036】
[第2の実施形態]
前述した第1の実施形態では1つの情報処理装置によって物体検出処理を行っていたが、第2の実施形態では複数の情報処理装置によって物体検出処理を行う場合について説明する。以下の第2の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。
【0037】
図5は、本実施形態による情報処理装置100及び情報処理装置500を有する情報処理システムの構成例を示すブロック図である。図5において、図1に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。本実施形態における情報処理装置100及び情報処理装置500は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。
【0038】
情報処理装置100と情報処理装置500とは、ネットワーク510を通じて接続されている。情報処理装置500は、CPU501、メモリ502、通信I/F部503、及び記憶部504を有する。CPU501、メモリ502、通信I/F部503、及び記憶部504は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置500は、これ以外の構成をさらに有していてもよい。情報処理装置100は第1の情報処理装置の一例であり、情報処理装置500は第2の情報処理装置の一例である。また、通信I/F部103は第1の通信手段の一例であり、通信I/F部503は第2の通信手段の一例である。
【0039】
CPU501は、情報処理装置500の全体の制御を司る。CPU501は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ502は、CPU501が処理に利用するデータ、プログラム等を記憶する。また、メモリ502は、CPU501の主メモリ、ワークエリア等としての機能を有する。CPU501がメモリ502に記憶されたプログラムに基づき処理を実行することにより、後述する図6に示す情報処理装置500の機能構成及び後述する図7に示すフローチャートの処理の一部が実現される。
【0040】
通信I/F部503は、情報処理装置500をネットワーク510に接続するインターフェースである。記憶部504は、例えば、CPU501がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部504は、例えば、CPU501がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU501が処理に利用するデータ、プログラム等を記憶部504に記憶するようにしてもよい。
【0041】
図6は、情報処理装置500の機能構成例を示すブロック図である。情報処理装置500は、画像取得部601、物体検出部602、画像加工部603、結果出力部604、及び記憶部605を有する。
【0042】
画像取得部601は、物体検出を行う対象となる画像を取得する。本実施形態では、情報処理装置500において物体検出を行う対象となる画像は抽出画像であり、画像取得部601は、ネットワーク510経由で通信I/F部603を通じて情報処理装置100から抽出画像を取得する。
【0043】
物体検出部602は、画像から複数の属性(クラス)に係る物体検出を行う。物体検出部602は、物体検出部202と同様にして、抽出画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。本実施形態では、物体検出部602は、一例として水平方向(横方向)の幅及び垂直方向(縦方向)の高さがともに448ピクセルである448×448ピクセルのRGB画像から検出を行うものとする。その他は物体検出部202と同様である。
【0044】
画像加工部603は、抽出画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部603は、抽出画像を448×448ピクセルの画像に変形する。この場合、抽出画像の幅がwピクセル、高さがhピクセルであれば、縦の変形倍率は(448/w)となり、横の変形倍率は(448/h)となる。
【0045】
結果出力部604は、画像加工部603から出力される変形倍率を用いて、物体検出部602から出力される検出結果の検出枠を変形前の抽出画像における座標に補正して出力する。本実施形態の例では、左上座標(x1,y1)と右下座標(x2,y2)の検出枠に対し、縦及び横の変形倍率がそれぞれwm、hmである場合、補正された左上座標は(x1/wm,y1/hm)となり、右下座標は(x2/wm,y2/hm)となる。記憶部605は、情報処理装置500の各機能部601~604での処理に用いるデータや処理結果として得られるデータ等を記憶する。
【0046】
次に、図3図7及び図8を参照して、情報処理装置100、500が行う処理について説明する。図7は、第2の実施形態による物体検出処理を説明するフローチャートである。図8は、図7に示すフローチャートの処理を説明する図である。
【0047】
第2の実施形態による物体検出処理において、図3に示したステップS301~ステップS306の処理、及びステップS308~S309の処理は、第1の実施形態による物体検出処理と同様である。第2の実施形態による物体検出処理は、図3に示したステップS307での処理が第1の実施形態による物体検出処理と異なる。図3に示したステップS307の処理に対応する処理の、第2の実施形態における詳細な処理の流れを、図7を参照して説明する。
【0048】
ステップS701において、情報処理装置100の結果修正部205は、ステップS306で得られた抽出画像に対する検出結果の数が2つ以上であるか否かを判定する。結果修正部205は、抽出画像に対する検出結果の数が2つ以上であると判定した場合(ステップS701でYES)にはステップS702に移行し、2つ以上でないと判定した場合(ステップS701でNO)にはステップS706に移行する。
【0049】
ステップS702において、情報処理装置500の画像取得部601は、情報処装置100から抽出画像を受信する。受信した抽出画像710の一例を図8(a)に示す。ここで、本例において抽出画像710は、図4(d)に示した第1の実施形態における抽出画像420と同様とし、水平方向の幅が384ピクセルであり、垂直方向の高さが372ピクセルの画像であるとする。
【0050】
ステップS703において、情報処理装置500の画像加工部603は、ステップS702で受信した抽出画像を所定のサイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。本例では、画像加工部603は、ステップS702で受信した384×372ピクセルの抽出画像を448×448ピクセルの画像に変形する。したがって、縦方向の変形倍率は(448/384)となり、横方向の変形倍率は(448/372)となる。
【0051】
ステップS704において、情報処理装置500の物体検出部602は、変形後の抽出画像を用いて顔検出処理を行い、変形後の抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。変形後の抽出画像に対する顔検出処理の検出結果の例を図8(b)に示し、変形後の抽出画像に検出結果を重畳した画像の例を図8(c)に示す。図8(b)に示した例では、1つの検出結果Fが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図8(b)における検出枠の座標は、変形後の抽出画像における座標である。また、図8(c)に示した例では、メガネ着用の顔として検出された検出結果Fに対応する検出枠721が破線の矩形枠で変形後の抽出画像720に重畳して表示されている。
【0052】
ステップS705において、情報処理装置500の結果出力部606は、縦横の変形倍率を用いて、ステップS704で出力された検出結果の検出枠の座標を変形前の抽出画像における座標を補正して出力する。すなわち、結果出力部606は、448×448ピクセルの変形後の画像における検出枠の座標を、縦横の変形倍率448/384及び448/372を用いて、384×372ピクセルの変形前の画像における座標に変換し、情報処理装置100に出力する。変換した検出結果の例を図8(d)に示し、検出結果を384×372ピクセルの抽出画像に重畳した画像の例を図8(e)に示す。図8(d)に示した例では、検出結果Fの検出枠の左上座標(x1,y1)及び右下座標(x2,y2)がそれぞれ変形倍率に応じて変換されている。また、図8(e)に示した例では、メガネ着用の顔として検出された検出結果Fに対応する検出枠711が破線の矩形枠で変形前の抽出画像710に重畳して表示されている。
【0053】
ステップS706において、情報処理装置100の結果修正部205は、ステップS705で情報処理装置500の結果出力部604から出力された抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果(ここでは検出結果F)が1つであるため、結果修正部205は、抽出画像に対応づいた検出結果A及び検出結果Bを削除し、抽出画像の検出結果Fで置き換える。
【0054】
第2の実施形態によれば、物体検出において異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域の画像に対して物体検出を行い、その検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。
【0055】
(変形例)
なお、本実施形態では2つの情報処理装置100、500がネットワーク510を通じて接続されている構成としている。しかし、これに限定されるものではなく、例えば情報処理装置100がカメラなどのエッジデバイスで、情報処理装置500がエッジデバイスの外部端子(USB等)に接続されたデバイスであっても良い。また、情報処理装置100がPC(パーソナル・コンピュータ)で情報処理装置500がクラウド上に存在していても良い。
【0056】
また、物体検出部602は、物体検出部202と同様に「メガネ着用の顔」と「メガネ非着用の顔」とを検出するようにしているが、例えば「メガネ着用の顔」と「メガネ非着用の顔」の内の一方だけを検出する検出器であってもよい。例えば「メガネ着用の顔」だけを検出する検出器とした場合、「メガネ着用の顔」が検出されれば検出結果を「メガネ着用の顔」とし、「メガネ着用の顔」が検出されなければ検出結果を「メガネ非着用の顔」とすることができる。また他にも、顔を検出する検出器と、メガネの着用の有無を判別する判別器の2種類に分かれていても良い。
【0057】
[第3の実施形態]
前述した実施形態では単一の入力画像を用いて処理を行っていたが、第3の実施形態では撮影タイミングの異なる2つの入力画像を用いて処理を行う場合について説明する。以下の第3の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置100の構成は、図1に示した第1の実施形態における構成例と同様である。
【0058】
図9は、情報処理装置100の機能構成例を示すブロック図である。図9において、図2に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置100は、画像取得部201、物体検出部202、重なり判定部203、画像抽出部904、結果修正部905、結果出力部206、記憶部207、及び対応付け部908を有する。
【0059】
画像抽出部904は、画像抽出部204と同様に、重なり判定部203による判定結果に基づき、入力画像と重なり判定部203により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部904は、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。画像抽出部904は、さらに、抽出画像に対する検出結果の数が2つ以上である場合、検出枠の和集合を新たに検出枠とした検出結果を出力する。このとき、顔の属性が「メガネ着用不明」、検出の信頼度が1とする。なお、検出枠の座標は、第1の実施形態と同様の方法で、入力画像における座標に変換する。
【0060】
対応付け部908は、過去の検出結果と現在の検出結果との対応付けを行う。対応付け部908は、検出結果(以下、「今回の検出結果」あるいは「今回の検出枠」とも呼ぶ)を、保持している追尾情報と対応付けて追尾情報を更新し、検出結果の属性を追尾情報に基づいて更新する。追尾情報として、追尾IDと追尾IDに対応する検出枠の座標(左上座標及び右下座標)、属性、及び属性の統計情報が記憶される。ここで、属性の統計情報とは、過去における既定回数分の属性の履歴(登場回数)を指す。本実施形態の例では、既定回数を2回とし、例えば前回の属性がメガネ着用であり、今回の属性がメガネ非着用であった場合、属性の統計情報として、メガネ着用が1、メガネ非着用が1となる。属性がメガネ着用不明である場合、属性の統計情報には追加しない。
【0061】
また、対応付け部908は、過去の検出結果の属性に係る情報に基づいて、今回(現在)の検出結果の属性を更新する。具体的には、対応付け部908は、属性の統計情報に基づいて、その時点で最も出現頻度の高い(出現回数の多い)属性をその検出結果の属性として更新する。出現頻度が等しい場合には、今回の検出結果での属性が優先される。今回の検出結果と保持している追尾情報と対応付けについては、例えば、各追尾IDに対応する検出枠の座標と、今回の検出結果の検出枠の座標とに基づいて行う。本実施形態では、各追尾IDに対応する検出枠の中心座標と、今回の任意の検出枠の中心座標との距離を全組み合わせについて計算し、距離が閾値(本実施形態では100とする)以下かつ最も距離が短い追尾IDと今回の検出結果の組み合わせを対応付ける。また、追尾IDに対応する座標を今回の検出枠の中心座標に更新する。今回の検出結果と対応づかなかった追尾IDは削除される。追尾IDと対応づかなかった今回の検出結果が存在する場合、新たに追尾IDが生成されて追尾情報に追加される。
【0062】
結果修正部905は、抽出画像に対する検出結果を入力画像の検出結果に反映する。結果修正部905は、入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除し、抽出画像で得られた検出結果に置き換える。
【0063】
次に、図3図10及び図11を参照して、情報処理装置100が行う物体検出処理について説明する。図10は、第3の実施形態による物体検出処理を説明するフローチャートである。図11は、図10に示すフローチャートの処理を説明する図である。
【0064】
第3の実施形態による物体検出処理において、図3に示したステップS301~ステップS306の処理、及びステップS308~S309の処理は、第1の実施形態による物体検出処理と同様である。第3の実施形態による物体検出処理は、図3に示したステップS307での処理が第1の実施形態による物体検出処理と異なる。図3に示したステップS307の処理に対応する処理の、第3の実施形態における詳細な処理の流れを、図10を参照して説明する。
【0065】
ステップS1001において、結果修正部905は、ステップS306で得られた抽出画像に対する検出結果の数が2つ以上であるか否かを判定する。結果修正部905は、抽出画像に対する検出結果の数が2つ以上であると判定した場合(ステップS1001でYES)にはステップS1002に移行し、2つ以上でないと判定した場合(ステップS1001でNO)にはステップS1005に移行する。この例では、入力画像に対する検出結果が図4(b)に示したようになっており、抽出画像に対する検出結果として図11(a)に示すように2つの検出結果(検出結果G及び検出結果H)が存在する場合を想定する。なお、図11(a)において、検出枠の座標は、抽出画像の座標系での座標である。
【0066】
ステップS1002において、画像抽出部904は、ステップS305の処理と同様にして、ステップS304で出力された検出結果の組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果を出力する。本実施形態の例では、画像抽出部904は、検出結果G、Hの組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果Iを出力する。図11(a)に示した検出結果より、抽出画像の座標系において2つの検出結果の検出枠の和集合に対する外接矩形は、左上座標が(32,31)となり、右下座標が(352,341)となる。抽出画像の座標系から入力画像の座標系へ変換することにより、入力画像の座標系において2つの検出結果の検出枠の和集合に対する外接矩形は、図11(b)に示すように左上座標が(20,200)となり、右下座標が(340,510)となる。
【0067】
ステップS1003において、対応付け部908は、ステップS1002で画像抽出部904から出力された検出結果と、保持している追尾情報とを対応付ける。本実施形態の例では、対応付け部908は、ステップS1002で出力された検出結果Iと、保持している追尾情報とを対応付ける。図11(c)に示すような追尾情報を保持しているものとして、検出結果Iとの対応付けを一例として説明する。検出結果Iの検出枠の中心座標は(180,355)であり、追尾ID1の検出枠の中心座標は(170,350)である。したがって、検出結果Iと追尾ID1との検出枠の中心座標間の距離Lは、
L=((180-170)^2+(355-350)^2)^(1/2)≒11.2
となり、閾値である100よりも小さいため、対応付けの候補となる。また、検出結果Iと追尾ID2及び追尾ID3とについても同様に計算を行うと中心座標間の距離は100よりも大きくなるため、対応付けの候補とならない。この結果、検出結果Iと追尾ID1とが対応付けられる。
【0068】
ステップS1004において、対応付け部907は、追尾情報に基づいて検出結果の属性を更新する。検出結果Iは追尾ID1と対応づいており、追尾IDの属性の統計情報(図11(c))よりメガネ着用の回数がメガネ非着用の回数より大きいことから、検出結果Iの属性はメガネ着用となる。
【0069】
ステップS1005において、結果修正部905は、第1の実施形態と同様に、抽出画像に対する検出結果を、入力画像の検出結果に反映する。ここでは、結果修正部205は、検出結果A及び検出結果Bを削除し、検出結果Iに置き換える。
【0070】
第3の実施形態によれば、画像を用いた物体検出において異なる属性の検出結果の重なりが生じても、最終的により適切な検出結果を出力することができる。
【0071】
(変形例)
なお、対応付け部908における過去の入力画像の検出結果と現在の入力画像の検出結果との対応付け方法は、物体追尾処理で一般的に用いられる手法が適用できる。また、本実施形態では2回分の属性を統計情報として保持するようにしているが、それ以上の回数分の属性を統計情報として保持するようにしても本実施形態と同様にして処理が可能である。また、本実施形態では属性の統計情報を既定回数分の属性の履歴(登場回数)としているが、登場回数ではなく信頼度の累積としてもよい。
【0072】
[第4の実施形態]
前述した第1の実施形態では、1回目の顔検出に使用した画像から抽出画像を生成したが、第4の実施形態では1回目の顔検出に使用した画像の元となる画像から抽出画像を生成する場合について説明する。以下の第4の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置100の構成は、図1に示した第1の実施形態における構成例と同様である。
【0073】
図12は、情報処理装置100の機能構成例を示すブロック図である。図12において、図2に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置100は、画像取得部1201、物体検出部1202、重なり判定部203、画像抽出部204、結果修正部205、結果出力部206、記憶部207、及び画像加工部1208を有する。
【0074】
画像取得部1201は、物体検出を行う対象となる画像(入力画像)を取得する。また、画像取得部1201は、取得した画像から所定の範囲を抽出する。本実施形態では、物体検出を行う対象となる画像(入力画像)は、通信I/F部103を通じて外部から取得するものとし、一例として1080×720ピクセルのRGB画像とする。また、画像取得部1201は、その入力画像から一例として左上座標(30,0)、右下座標(750,720)の範囲を抽出するものとする。
【0075】
物体検出部1202は、第1の実施形態における物体検出部202と同様に、画像から複数の属性(クラス)に係る物体検出を行う。本実施形態では、物体検出部1202は、一例として水平方向(横方向)の幅及び垂直方向(縦方向)の高さがともに224ピクセルである、224×224ピクセルのRGB画像から検出を行うものとする。その他は第1の実施形態における物体検出部202と同様である。
【0076】
画像加工部1208は、画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部1208は、画像を224×224ピクセルの画像に変形する。この場合、変形前の画像の幅がwピクセル、高さがhピクセルであれば、縦の変形倍率は(224/w)となり、横の変形倍率は(224/h)となる。
【0077】
結果修正部205は、物体検出部1202による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。その他は第1の実施形態における結果修正部205と同様である。
【0078】
次に、図13及び図14を参照して、情報処理装置100が行う処理について説明する。図13は、第4の実施形態による物体検出処理を説明するフローチャートである。図14は、第4の実施形態による物体検出処理を説明する図である。
【0079】
ステップS1301において、画像取得部1201は、入力画像(物体検出を行う対象となる画像)を取得し、取得した入力画像から左上座標(30,0)、右下座標(750,720)の範囲を抽出して720×720ピクセルの画像を取得する。入力画像1401の一例を図14(a)に示し、入力画像1401から抽出した720×720ピクセルの画像1402の一例を図14(b)に示す。
【0080】
ステップS1302において、画像加工部1208は、ステップS1301で取得した720×720ピクセルの画像を224×224ピクセルの画像(以下、第1の処理対象画像)に変形する。このとき、縦方向の変形倍率と横方向の変形倍率はともに(224/720)となる。第1の処理対象画像1403の一例を図14(c)に示す。
【0081】
ステップS1303において、物体検出部1202は、図3に示したステップS302と同様にして、第1の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第1の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第1の処理対象画像に対する顔検出処理の検出結果の例を図14(d)に示す。図14(d)に示した例では、3つの検出結果A~Cが得られ、それぞれ検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図14(d)における検出枠の座標は、第1の処理対象画像における座標である。
【0082】
ステップS1304において、重なり判定部203は、第1の処理対象画像に対する検出結果の内の任意の2つの検出結果を組として、第1の処理対象画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Aの検出枠の左上座標が(0,62)であり、右下座標が(85,156)である。また、検出結果Bの検出枠の左上座標が(0,65)であり、右下座標が(91,159)である。したがって、検出結果Aと検出結果Bの検出枠の重なり率は、
IoU(A,B)=((85-0)×(156-65))÷((85-0)×(156-62)+(91-0)×(159-65)-((85-0)×(156-65)))≒0.88
となる。その他の組み合わせにおいて、検出枠の重なり率は0となる。
【0083】
ステップS1305において、重なり判定部203は、ステップS1304で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合(ステップS1305でYES)、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップS1306に移行する。一方、重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合(ステップS1305でNO)、ステップS1311に移行する。本実施形態の例では、重なり率の閾値は0.5であるとする。重なり判定部203は、ステップS1304において算出した重なり率が0.5以上となった検出結果の組が存在する場合にはステップS1306に移行し、存在しない場合にはステップS1311に移行する。本例では、検出結果Aと検出結果Bの検出枠の重なり率が0.5以上であるので、重なり判定部203は、重なり率が0.5以上となった組み合わせ(A,B)を出力し、ステップS1306に移行する。
【0084】
ステップS1306において、画像抽出部204は、入力画像とステップS1305で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部204は、検出結果の組から2つの検出枠の座標を、入力画像から抽出した範囲と変形倍率の情報を使用して入力画像の座標に変換する。本例では、検出結果Aの検出枠の左上座標が(0,62)であるので、変形倍率(224/720)を使用して、入力画像における検出結果Aの左上座標は、(30+0÷(224/720),0+62÷(224/720))=(30,199)となる。他の座標も同様に計算した結果を図14(e)に示す。
【0085】
次に、画像抽出部204は、検出結果の組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。詳細については、図3に示したステップS305での処理と同様である。本例では、抽出する領域の左上座標は(1,168)、右下座標は(352,542)となる。このようにして算出した、抽出する領域の左上座標及び右下座標をもとに入力画像から抽出した抽出画像1404の例を図14(f)に示す。抽出する領域の左上座標が(1,168)、右下座標が(352,542)であるので、抽出画像1404は351×374ピクセルの画像である。
【0086】
ステップS1307において、画像加工部1208は、ステップS1306で抽出した351×374ピクセルの画像を224×224ピクセルの画像(以下、第2の処理対象画像)に変形する。このとき、横方向の変形倍率は(224/351)となり、縦方向の変形倍率は(224/374)となる。第2の処理対象画像の一例を図14(g)に示す。
【0087】
ステップS1308において、物体検出部1202は、図3に示したステップS306と同様にして、第2の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第2の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第2の処理対象画像に対する顔検出処理の検出結果の例を図14(h)に示す。図14(h)に示した例では、1つの検出結果Eが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図14(h)における検出枠の座標は、第2の処理対象画像における座標である。
【0088】
ステップS1309において、結果修正部205は、ステップS1308で得られた第2の処理対象画像に対する検出結果に基づいて、抽出画像に対する検出結果を、入力画像の検出結果に反映する。詳細には、図3に示したステップS307と同様にして、結果修正部205は、第2の処理対象画像に対する検出結果の座標を、入力画像の座標に変換する。このとき、結果修正部205は、ステップS1306で得られた入力画像に対する抽出する領域の左上座標とステップS1307で得られた変形倍率の情報を使用して、第2の処理対象画像に対する検出結果の座標を入力画像の座標に変換する。入力画像における検出結果Eの例を図14(i)に示す。
【0089】
ステップS1310において、結果出力部206は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部206は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合(ステップS1310でYES)、ステップS1311に移行する。結果出力部206は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合(ステップS1310でNO)、ステップS1306に移行し、未処理の組み合わせについてステップS1306以降の処理を実行する。
【0090】
ステップS1311において、結果出力部206は、入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。
【0091】
第4の実施形態によれば、2回目の検出処理で使用される抽出画像を、1回目の検出処理で使用した画像ではなく、入力画像から抽出する。これにより、画像変形処理等により1回目の検出処理で使用した画像が入力画像よりも解像度が低くなってしまった場合等において、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。また、入力画像から1回目の検出処理で使用する画像を切り出した際に検出対象物の一部が見切れてしまった場合等においても、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。
【0092】
(変形例)
なお、画像取得部1201は、入力画像から1つの領域を抽出するとしたが、複数の領域を抽出するようにして、ステップS1302~ステップS1311の処理を領域ごとに繰り返すようにしてもよい。また、前述した第2の実施形態及び第3の実施形態に、本実施形態の処理を組み込むことも可能である。
【0093】
[その他の実施形態]
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0094】
100、500:情報処理装置 201、601、1201:画像取得部 202、602、1202:物体検出部 203:重なり判定部 204、904:画像抽出部 205、905:結果修正部 206、604:結果出力部 207、605:記憶部 603、1208:画像加工部 908:対応付け部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14