(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-18
(45)【発行日】2025-03-27
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20250319BHJP
G06V 10/70 20220101ALN20250319BHJP
【FI】
G06T7/00 350B
G06T7/00 350A
G06T7/00 350C
G06T7/00 660Z
G06V10/70
(21)【出願番号】P 2024084545
(22)【出願日】2024-05-24
(62)【分割の表示】P 2023122331の分割
【原出願日】2018-04-26
【審査請求日】2024-05-24
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】朴 君
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2017-016344(JP,A)
【文献】特開2017-028561(JP,A)
【文献】特開2008-269182(JP,A)
【文献】特許第7331910(JP,B2)
【文献】特開2015-176227(JP,A)
【文献】特開2015-46071(JP,A)
【文献】浅井 康博 他5名,複数方向から撮影された人物の手荷物所持判定に関する検討,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM),日本,一般社団法人 電子情報通信学会,2015年01月
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
画像を学習させた検出器を用いて、撮像画像から、検出対象である対象オブジェクトを含む複数の画像領域を検出する第1検出部と、
前記撮像画像において、前記撮像画像に映る人物の身体の部位を検出する第2検出部と、
前記画像領域と前記身体の部位とに基づいて、複数の前記身体の部位のうち前記対象オブジェクトが存在する部位を特定する特定部と、
を有し、
前記対象オブジェクトは人の持ち物であり、
前記対象オブジェクトの種類は、前記画像領域ごとに異なる、
情報処理装置。
【請求項2】
前記第1検出部は、前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項1に記載の情報処理装置。
【請求項3】
前記第1検出部は、前記対象オブジェクトの種類ごとに前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項1に記載の情報処理装置。
【請求項4】
前記人の持ち物は装着物である、請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
コンピュータによって実行される情報処理方法であって、
画像を学習させた検出器を用いて、撮像画像から、検出対象である対象オブジェクトを含む複数の画像領域を検出し、
前記撮像画像において、前記撮像画像に映る人物の身体の部位を検出し、
前記画像領域と前記身体の部位とに基づいて、複数の前記身体の部位のうち前記対象オブジェクトが存在する部位を特定し、
前記対象オブジェクトは人の持ち物であり、
前記対象オブジェクトの種類は、前記画像領域ごとに異なる、
情報処理方法。
【請求項6】
コンピュータによって実行される情報処理方法であって、
撮像画像において、前記撮像画像に映る人物の身体の部位を検出し、
画像を学習させた検出器を用いて、前記撮像画像から、検出対象である対象オブジェクトを含む複数の画像領域を検出し、
前記画像領域と前記身体の部位とに基づいて、複数の前記身体の部位のうち前記対象オブジェクトが存在する部位を特定し、
前記対象オブジェクトは人の持ち物であり、
前記対象オブジェクトの種類は、前記画像領域ごとに異なる、
情報処理方法。
【請求項7】
前記コンピュータは、前記画像領域を検出する処理では、前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項5又は6に記載の情報処理方法。
【請求項8】
前記コンピュータは、前記画像領域を検出する処理では、前記対象オブジェクトの種類ごとに前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項5又は6に記載の情報処理方法。
【請求項9】
前記人の持ち物は装着物である、請求項5から8のいずれか1項に記載の情報処理方法。
【請求項10】
コンピュータに、
画像を学習させた検出器を用いて、撮像画像から、検出対象である対象オブジェクトを含む複数の画像領域を検出する処理、
前記撮像画像において、前記撮像画像に映る人物の身体の部位を検出する処理、
前記画像領域と前記身体の部位とに基づいて、複数の前記身体の部位のうち前記対象オブジェクトが存在する部位を特定する処理、
を実行させ、
前記対象オブジェクトは人の持ち物であり、
前記対象オブジェクトの種類は、前記画像領域ごとに異なる、
プログラム。
【請求項11】
前記コンピュータは、前記画像領域を検出する処理では、前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項10に記載のプログラム。
【請求項12】
前記コンピュータは、前記画像領域を検出する処理では、前記対象オブジェクトの種類ごとに前記対象オブジェクトを表す画像を学習させた検出器を用いて前記画像領域を検出する、
請求項10に記載のプログラム。
【請求項13】
前記人の持ち物は装着物である、請求項10から12のいずれか1項に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は物体認識に関する。
【背景技術】
【0002】
カメラによって生成された撮像画像から物体を検出する技術が開発されている。例えば特許文献1は、撮像画像から複数の物体を検出し、検出した物体の関連づけを行う装置を開示している。具体的には、特許文献1の装置は、撮像画像に物(例えばカバン)と複数の人物とが含まれている場合に、その物と持ち主の人物とを関連づける。
【0003】
そのために、特許文献1の装置は、予め規定されている接続関係を利用して、人物のパーツを順に認識しながら接続していく。例えば、顔->首->胴体->腕という順番で認識及び接続が行われる。さらに、特許文献1の装置は、認識されたパーツの周辺に頻繁に存在する物として予め規定されている物の認識を行う。例えば、腕の周辺に頻繁に存在する物として、カバンが規定されている。そのため、前述した様に人物の腕が認識されたことに応じて、カバンの認識が行われる。その結果、「顔->首->胴体->腕->カバン」のように接続されていることが分かる。そこで特許文献1の装置は、接続されている顔とカバンの関連づけ(すなわち、人物とカバンの関連づけ)を行う。
【0004】
ここで特許文献1では、人物のパーツの周辺に頻繁に存在する物について、そのパーツに対しておよそどの辺りの位置にあるのかを推定するための情報が規定されている。そして、特許文献1には、この情報を用いて、物を認識する画像領域を限定してもよいことが記載されている。例えば特許文献1の装置は、前述した流れで人物の腕を検出したら、人物の腕に対しておよそどの辺りにカバンが存在するかを示す情報を利用して、カバンの認識を行う画像領域を限定する。そして、限定した画像領域についてカバンの認識が行われる。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】Zhe Cao、外3名、「Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields」、CoRR、2016年11月24日
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の技術では、人物のパーツを認識したことを前提として、そのパーツの周辺に頻繁に存在する物の認識が行われる。そのため、人物の或るパーツが認識されなかったら、そのパーツの周辺に頻繁に存在する物の認識が行われない。例えば前述の例では、人物の腕が認識されなければ、カバンの認識が行われない。
【0008】
この点、人物の全てのパーツが必ずしも撮像画像に含まれるとは限らない。例えば、人物の腕の前に障害物が立っていたり、人物の腕がカメラの撮像範囲の外にあったりすると、撮像画像から人物の腕が認識されないため、カバンを認識することもできなくなる。
【0009】
本願発明は上記の課題に鑑みてなされたものであり、人の持ち物を撮像画像から高い精度で検出する技術を提供することである。
【課題を解決するための手段】
【0010】
本発明の情報処理装置は、1)検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出部と、2)撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出部と、3)1つ以上の候補領域と推定位置に基づいて、1つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定部と、を有する。
【0011】
本発明の制御方法は、コンピュータによって実行される制御方法である。当該制御方法は、1)検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出ステップと、2)撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出ステップと、3)1つ以上の候補領域と推定位置に基づいて、1つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定ステップと、を有する。
【0012】
本発明のプログラムは、コンピュータに、本発明の制御方法が有する各ステップを実行させる。
【発明の効果】
【0013】
本発明によれば、人の持ち物を撮像画像から高い精度で検出する技術が提供される。
【図面の簡単な説明】
【0014】
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
【0015】
【
図1】本実施形態の情報処理装置が行う処理を概念的に示す図である。
【
図2】実施形態1の情報処理装置の機能構成を例示する図である。
【
図3】情報処理装置を実現するための計算機を例示する図である。
【
図4】実施形態1の情報処理装置によって実行される処理の流れを例示するフローチャートである。
【
図5】推定位置を含む候補領域を例示する図である。
【
図6】候補領域に含まれる推定位置の数に基づいて算出される第1スコアを例示する図である。
【
図7】推定位置について算出された対象オブジェクトの存在確率を考慮して算出される第1スコアを例示する図である。
【
図8】実施形態2の情報処理装置の機能構成を例示するブロック図である。
【
図9】実施形態2の情報処理装置によって実行される処理の流れを例示するフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
【0017】
[実施形態1]
<概要>
図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、カメラ10によって生成された撮像画像20から、対象オブジェクトを表す画像領域であるオブジェクト領域30を検出する。対象オブジェクトは、人の持ち物である。なお、ここでいう「人の持ち物」とは、人が手に持っている物(手提げカバンや杖など)には限定されず、何らかの形で人が所持している物を全般的に含む。例えば、人の持ち物には、人が肩に掛けている物(肩掛けカバンなど)、人が首から提げている物(身分証明書など)、人が背中に背負っている物(リュックサックなど)、人が頭に装着している物(帽子やヘルメットなど)、人が顔に装着している物(眼鏡やサングラスなど)、及び人が手に装着している物(時計など)などが含まれる。
【0018】
情報処理装置2000は、対象オブジェクトの画像特徴に基づいて、撮像画像20から、候補領域22を1つ以上検出する。候補領域22は、対象オブジェクトを表すと推定される画像領域である。例えば対象オブジェクトが帽子であれば、情報処理装置2000は、帽子の画像特徴に基づいて、帽子を表すと推定される画像領域を検出し、検出した画像領域を候補領域22とする。候補領域22は、例えば、対象オブジェクトを表す確率が所定値以上であると推測される画像領域である。
【0019】
また、情報処理装置2000は、撮像画像20から人物領域26を検出し、検出した人物領域26に基づいて、推定位置24を検出する。人物領域26は、人物を表すと推定される領域である。推定位置24は、撮像画像20において対象オブジェクトが存在すると推定される位置である。
【0020】
ここで、人の持ち物は、その物の種類に応じて、人との相対的な位置関係を予測することができる。例えば、帽子の位置は、人の頭部である蓋然性が高い。その他にも例えば、サングラスの位置は、人の顔部分である蓋然性が高い。その他にも例えば、リュックサックの位置は、人の背中部分である蓋然性が高い。
【0021】
そこで情報処理装置2000は、このように予測可能な対象オブジェクトと人との相対的な位置関係に基づいて、推定位置24を検出する。例えば対象オブジェクトが帽子であれば、情報処理装置2000は、人物領域26が表す人物と帽子との相対的な位置関係に基づいて、帽子が存在すると推定される位置を検出し、検出した位置を推定位置24とする。
【0022】
そして情報処理装置2000は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。例えば、情報処理装置2000は、複数検出された候補領域22のうち、推定位置24を含む候補領域22を、オブジェクト領域30として特定する。ただし、後述するように、候補領域22と推定位置24とに基づいて特定されるオブジェクト領域30は、推定位置24を含む候補領域22には限定されない。
【0023】
<作用・効果>
本実施形態の情報処理装置2000によれば、対象オブジェクトの画像特徴に基づいて検出される候補領域22と、人物領域26に基づいて検出される推定位置24とを用いて、対象オブジェクトを表すオブジェクト領域30が特定される。こうすることで、対象オブジェクトの画像特徴に基づいて検出される候補領域22の全てがオブジェクト領域30(対象オブジェクトを表す画像領域)として特定されるわけではなく、人物領域26に基づいて検出される推定位置24によって、オブジェクト領域30として特定される候補領域22が限定される。例えば、対象オブジェクトが存在する蓋然性が低い位置の候補領域22は、オブジェクト領域30として特定されなくなる。このように、対象オブジェクトを表す画像領域を、対象オブジェクトの画像特徴という基準と人物を表す画像領域という基準の2つを利用して特定することにより、対象オブジェクトの画像特徴という1つの基準で特定する場合と比較し、対象オブジェクトを表す画像領域を高い精度で特定することができる。
【0024】
ここで、対象オブジェクトの推定位置24は、人物を表す画像領域を利用して検出される。そのため、人物の一部のパーツ(例えば腕など)が撮像画像20から検出されなくても、推定位置24を検出することができる。よって、情報処理装置2000によれば、人物の一部のパーツが撮像画像20に含まれなかったとしても、オブジェクト領域30を特定することができる。
【0025】
なお、
図1を参照した上述の説明は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の機能を限定するものではない。以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
【0026】
<情報処理装置2000の機能構成の例>
図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、候補領域検出部2020、推定位置検出部2040、及び特定部2060を有する。候補領域検出部2020は、検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する。推定位置検出部2040は、撮像画像20から人物領域26を検出する。さらに推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。
【0027】
<情報処理装置2000のハードウエア構成>
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
【0028】
図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)やサーバマシンなどの据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などの可搬型の計算機である。その他にも例えば、計算機1000は、撮像画像20を生成するカメラ10であってもよい。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
【0029】
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
【0030】
プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
【0031】
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
【0032】
ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
【0033】
<カメラ10について>
カメラ10は、撮像を行い、その結果として画像データを生成する任意の撮像装置である。例えばカメラ10は、監視場所に設置された監視カメラである。
【0034】
前述した様に、情報処理装置2000を実現する計算機1000は、カメラ10であってもよい。この場合、カメラ10は、自身で生成した撮像画像20を解析することで、オブジェクト領域30の特定を行う。このような機能を持たせるカメラ10としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP(Internet Protocol)カメラなどと呼ばれるカメラを用いることができる。
【0035】
<情報処理装置2000の利用例>
情報処理装置2000は、「カメラによって生成された画像データから所定のオブジェクトを検出する」という処理が有用な任意の場面で利用することができる。例えば情報処理装置2000は、監視カメラによって生成された監視映像の解析に利用される。この場合、カメラ10は監視映像を生成する監視カメラである。また、撮像画像20は監視映像を構成するビデオフレームである。
【0036】
情報処理装置2000は、監視映像を構成するビデオフレームから、所定のオブジェクトを表す画像領域(すなわち、対象オブジェクトを表すオブジェクト領域30)を特定する。こうすることで、監視場所における対象オブジェクトの存在を把握することができる。また、対象オブジェクトを持っている人物を検出することもできる。
【0037】
より具体的には、情報処理装置2000によれば、監視映像を利用して、危険物の存在を把握したり、要注意人物(危険物を持っている人物やサングラスやヘルメットなどで顔を隠している人物など)の存在を把握したりすることができる。また、監視対象の施設で置き去り物体が発見された場合に、その施設の様々な場所に設置された監視カメラによって生成された過去の監視映像を情報処理装置2000で解析することにより、その置き去り物体が運ばれたルートの特定や、その置き去り物体を運んだ人物の検出などを行うこともできる。
【0038】
<処理の流れ>
図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。情報処理装置2000は、撮像画像20を取得する(S102)。候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する(S104)。推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する(S108)。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する(S110)。
【0039】
なお、必ずしも
図4に示すように全ての処理がシーケンシャルに実行される必要はない。例えば、候補領域検出部2020が実行する処理(S104)と推定位置検出部2040が実行する処理(S106及びS108)とは、並行して実行されてもよい。
【0040】
情報処理装置2000が
図4に示す一連の処理を実行するタイミングは様々である。例えば情報処理装置2000は、カメラ10によって撮像画像20が生成される度に、その撮像画像20を取得して、
図4に示す一連の処理を実行する。その他にも例えば、情報処理装置2000は、所定のタイミングで、カメラ10によって生成された撮像画像20を複数まとめて取得し、各撮像画像20について
図4に示す一連の処理を実行する(いわゆるバッチ処理)。その他にも例えば、情報処理装置2000は、撮像画像20を指定する入力操作を受け付け、指定された撮像画像20について一連の処理を実行する。
【0041】
<撮像画像20の取得:S102>
情報処理装置2000は撮像画像20を取得する(S102)。撮像画像20は、カメラ10によって生成された画像データそのものであってもよいし、カメラ10によって生成された画像データに対して何らかの処理(例えば色調補正やトリミングなど)が加えられたものであってもよい。
【0042】
情報処理装置2000が撮像画像20を取得する方法は任意である。例えば情報処理装置2000は、撮像画像20が記憶されている記憶装置にアクセスすることで、撮像画像20を取得する。撮像画像20が記憶されている記憶装置は、カメラ10の内部に設けられていてもよいし、そのカメラの外部に設けられていてもよい。その他にも例えば、情報処理装置2000は、カメラ10から送信される撮像画像20を受信することで、撮像画像20を取得してもよい。なお、前述したように、情報処理装置2000がカメラ10として実現される場合、情報処理装置2000は、自身で生成した撮像画像20を取得する。
【0043】
<候補領域22の検出:S104>
候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を検出する(S104)。ここで、検出対象のオブジェクトの画像特徴に基づいて、画像データからそのオブジェクトを表すと推測される画像領域(すなわち、候補領域22)を検出する技術には、既存の技術を利用することができる。例えば、候補領域22の検出には、対象オブジェクトを表すと推定される画像領域を画像データから検出するように予め学習させた検出器を利用することができる。検出器のモデルには、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)や SVM(サポートベクトルマシン)などの任意のモデルを採用できる。
【0044】
ここで、候補領域検出部2020は、対象オブジェクトを表すと推測される確率が閾値以上である画像領域を、候補領域22として検出する。ここで、この閾値を大きくすると、フォールスネガティブ(検出漏れ)が発生しやすくなる。一方、この閾値を小さくすると、フォールスポジティブ(誤検出)が発生しやすくなる。
【0045】
この点、情報処理装置2000では、候補領域検出部2020のみによってオブジェクト領域30が特定されるわけではなく、推定位置検出部2040によって検出される推定位置24も用いて、オブジェクト領域30が特定される。そのため、閾値を大きめに設定して検出漏れが発生してしまうよりも、閾値を小さめに設定して誤検出が発生してしまう方が好ましいと言える。なぜなら、閾値を小さめに設定して候補領域22を多めに検出しておき、推定位置検出部2040によって検出される推定位置24を利用して候補領域22の絞り込みを行うという方法により、対象オブジェクトを表すオブジェクト領域30を高い精度で特定できるためである。
【0046】
そこで、候補領域検出部2020が利用する上記閾値は、対象オブジェクトの画像特徴のみに基づいてオブジェクト領域30の特定を行う場合(すなわち、推定位置検出部2040を利用しない場合)に設定される閾値以下の値にすることが好適である。
【0047】
候補領域検出部2020は、候補領域22の検出結果を表すデータを生成する。このデータは、検出された候補領域22を特定するデータであり、例えば候補領域22の特定の位置(例えば左上端の座標)及びサイズ(例えば幅と高さ)を示す。
【0048】
<人物領域26の検出:S106>
推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。ここで、画像データから人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、画像データから人物を表す画像領域を検出するように予め学習させた検出器を利用することができる。この検出器のモデルにも、例えば、ニューラルネットワークなどの任意のモデルを利用できる。
【0049】
ここで、推定位置24を検出するためには、人物領域26から人の身体の部位(頭部、顔、胴体、手、及び足など)を検出することが好適である。人の身体の部位も、前述した検出器などを利用した検出、テンプレート画像や局所特徴量などを利用して検出によって検出することができる。
【0050】
その他にも例えば、推定位置検出部2040は、人物領域26として、人の関節の位置など、人の特徴的な点の集合を検出してもよい。関節などといった人の特徴的な点の位置を検出する技術には、例えば、非特許文献1に示す技術を利用することができる。
【0051】
<推定位置24の検出:S106>
推定位置検出部2040は、人物領域26に基づいて推定位置24を検出する。前述した様に、推定位置24は、撮像画像20において対象オブジェクトが存在すると推定される位置である。推定位置24は、撮像画像20上の一点で表されてもよいし、画像領域で表されてもよい。
【0052】
例えば推定位置24の検出には、人物を表す画像領域の位置が指定された画像データが入力されたことに応じて、その画像データにおいて対象オブジェクトが存在すると推定される位置を検出するように予め学習させた検出器を利用することができる。検出器のモデルにも、ニューラルネットワークなどの任意のモデルを採用できる。
【0053】
この検出器の学習は、例えば、「画像データ、その画像データにおける人物領域、その画像データにおける対象オブジェクトの位置」という組み合わせで構成される教師データを用いて行う。このような教師データを用いることにより、検出器に、対象オブジェクトと人との相対的な位置関係を学習させることができる。さらに、上記教師データには、人物領域における人の各部位の位置を示す情報が含まれることが好適である。
【0054】
推定位置検出部2040は、対象オブジェクトが存在する確率が所定値以上の位置を、推定位置24として検出する。この際、推定位置検出部2040は、推定位置24と併せて、その推定位置24に対象オブジェクトが存在する確率を出力するようにしてもよい。
【0055】
例えば推定位置検出部2040は、推定位置24の検出結果を表すデータとして、撮像画像20と同じサイズの行列データを生成する。この行列データは、例えば、推定位置24の位置に1を示し、他の位置に0を示す。また、推定位置24に対象オブジェクトが存在する確率を出力する場合、この行列データは、各位置に対象オブジェクトが存在する確率を示す。ただし、推定位置24の検出結果を表すデータは任意の形式でよく、行列データに限定されない。
【0056】
<<検出範囲の限定>>
推定位置検出部2040は、推定位置24の検出を行う画像領域を、候補領域22を利用いて限定してもよい。すなわち、撮像画像20全体からではなく、候補領域22に基づいて限定される一部の画像領域から推定位置24の検出を行う。こうすることで、推定位置24の検出に要する時間や計算機資源を削減することができる。
【0057】
例えば推定位置検出部2040は、候補領域22の内部のみを、推定位置24の検出範囲とする。その他にも例えば、推定位置検出部2040は、候補領域22を含む所定の範囲から推定位置24を検出する。例えばこの所定の範囲は、候補領域22を1より大きい所定の倍率で拡大することで得られる範囲である。
【0058】
なお、推定位置検出部2040は、人物領域26を検出する画像領域についても、候補領域22を利用して限定してもよい。例えば、推定位置検出部2040は、候補領域22を含む所定の範囲(例えば、候補領域22を拡大することで得られる範囲)から人物領域26を検出する。
【0059】
<オブジェクト領域30の特定>
特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。概念的には、特定部2060は、推定位置24を用いて、対象オブジェクトを含むと推測される画像領域である候補領域22の中から、対象オブジェクトを含む蓋然性が特に高いものを特定し、特定した候補領域22をオブジェクト領域30として特定する。ただし後述するように、オブジェクト領域30は、いずれか1つの候補領域22と完全に一致する必要はなく、候補領域22の一部の画像領域であってもよい。
【0060】
特定部2060は、候補領域22と推定位置24との重なりに着目してオブジェクト領域30を特定する。その具体的な方法には、様々な方法を採用することができる。以下、その具体的な方法を例示する。
【0061】
<<具体的な方法1>>
特定部2060は、推定位置24を含む候補領域22を、オブジェクト領域30として特定する。
図5は、推定位置24を含む候補領域22を例示する図である。
図5では、撮像画像20から、候補領域22が複数検出されている。また、推定位置24が1つ検出されている。ここで、推定位置24は候補領域22-1に含まれている。そこで特定部2060は、候補領域22-1をオブジェクト領域30として特定する。
【0062】
<<具体的な方法2>>
ここでは、推定位置24が複数算出されることを前提とする。そして特定部2060は、各候補領域22について、推定位置24を含む度合いを表すスコア(以下、第1スコア)を算出する。特定部2060は、第1スコアに基づいてオブジェクト領域30を特定する。
【0063】
第1スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、第1スコアが最大である候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、第1スコアが所定値以上である候補領域22をオブジェクト領域30として特定する。後者の場合、オブジェクト領域30が複数特定されうる。
【0064】
第1スコアの定め方は様々である。例えば特定部2060は、候補領域22に含まれる推定位置24の数を、その候補領域22についての第1スコアとして算出する。その他にも例えば、特定部2060は、候補領域22に含まれる推定位置24の数を候補領域22の大きさで正規化した値(例えば、推定位置24の数を候補領域22の面積で割った値)を、その候補領域22についての第1スコアとして算出する。
【0065】
図6は、候補領域22に含まれる推定位置24の数に基づいて算出される第1スコアを例示する図である。候補領域22には推定位置24が3つ含まれている。そこで例えば、特定部2060は、候補領域22の第1スコアを3とする。ここで、候補領域22の面積が S であるとする。この場合、特定部2060は、候補領域22の第1スコアを候補領域22の面積で正規化した 3/S を第1スコアとしてもよい。
【0066】
第1スコアの算出方法は前述の例に限定されない。例えば、各推定位置24について、対象オブジェクトが存在する確率が算出されているとする。この場合、特定部2060は、候補領域22に含まれる各推定位置24について算出された存在確率の総和を、その候補領域22についての第1スコアとして算出してもよい。
【0067】
図7は、推定位置24について算出された対象オブジェクトの存在確率を考慮して算出される第1スコアを例示する図である。候補領域22には推定位置24が3つ含まれており、それぞれについて算出された存在確率は p1, p2, 及び p3 である。そのため、候補領域22の第1スコアは p1+p2+p3 である。
【0068】
このように、推定位置24に対象オブジェクトが存在する確率を考慮して第1スコアを算出することにより、対象オブジェクトを表すオブジェクト領域30をより高い精度で特定することができる。例えば、対象オブジェクトの存在確率が 0.1 である推定位置24を3つ含む候補領域22よりも、対象オブジェクトの存在確率が 0.6 である推定位置24を1つ含む候補領域22の方が、対象オブジェクトを表す画像領域である蓋然性が高いといえる。存在確率の総和を第1スコアとする算出方法によれば、後者の候補領域22の第1スコアが、前者の候補領域22の第1スコアよりも大きくなる。そのため、後者の候補領域22の方が、オブジェクト領域30として特定されやすくなる。
【0069】
<<具体的な方法3>>
ここでは、候補領域検出部2020が、各候補領域22について、その候補領域22が対象オブジェクトを表す確率を算出するとする。また、特定部2060は、各候補領域22について、前述した第1スコアを算出するとする。特定部2060は、候補領域22が対象オブジェクトを表す確率と、第1スコアとの積として、第2スコアを算出する。そして特定部2060は、第2スコアに基づいてオブジェクト領域30を特定する。
【0070】
第2スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、第2スコアが最大である候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、第2スコアが所定値以上である候補領域22をオブジェクト領域30として特定する。
【0071】
<<具体的な方法4>>
特定部2060は、候補領域22の代表点と推定位置24との間の距離に基づく第3スコアを算出し、算出した第3スコアに基づいてオブジェクト領域30を特定する。第3スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、最も小さい第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、所定値以下の第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。
【0072】
候補領域22の代表点は、候補領域22に含まれる任意の点とすることができる。例えば候補領域22の代表点は、候補領域22の中心である。
【0073】
推定位置24が複数ある場合、特定部2060は、複数の推定位置24それぞれについて候補領域22の代表点との間の距離を算出してもよいし、いずれか1つの推定位置24について候補領域22の代表点との間の距離を算出してもよい。前者の場合、例えば特定部2060は、算出した複数の距離の統計値(最小値、最頻値、又は平均値など)に基づいて第3スコアを算出する。後者の場合、特定部2060は、1つの推定位置24と候補領域22の代表点との間の距離を算出し、その距離に基づいて第3スコアを算出する。
【0074】
ここで、1つの推定位置24のみについて、候補領域22の代表点との間の距離を算出する場合において、その推定位置24を特定する方法は様々である。例えば特定部2060は、複数の推定位置24で構成される画像領域の中心を算出し、その中心に最も近い推定位置24を特定し、特定した推定位置24と候補領域22の代表点との間の距離を算出する。その他にも例えば、各推定位置24について対象オブジェクトの存在確率が算出されている場合、特定部2060は、対象オブジェクトの存在確率が最も高い推定位置24と候補領域22の代表点との間の距離を算出する。
【0075】
また、推定位置24が画像領域として表されている場合、特定部2060は、その画像領域の代表点と候補領域22の代表点との間の距離に基づいて、第3スコアを算出する。画像領域として表されている推定位置24の代表点は、例えば、その画像領域の中心位置である。
【0076】
推定位置24と候補領域22の代表点との間の距離に基づいて第3スコアを算出する方法は様々である。例えば特定部2060は、候補領域22の代表点と推定位置24との間の距離そのものを第3スコアとする。
【0077】
その他にも例えば、特定部2060は、候補領域22の代表点と推定位置24との間の距離に、その推定位置24に対象オブジェクトが存在する確率に基づく補正係数を乗算した値を、第3スコアとする。補正係数は、推定位置24に対象オブジェクトが存在する確率が高いほど小さくなるようにする。例えば補正係数は、推定位置24に対象オブジェクトが存在する確率の逆数である。
【0078】
このように推定位置24に対象オブジェクトが存在する確率を考慮することで、対象オブジェクトを表すオブジェクト領域30をより高い精度で特定することができる。例えば、対象オブジェクトが存在する確率が 0.1 である推定位置24との間の距離が1である候補領域22よりも、対象オブジェクトが存在する確率が 0.6 である推定位置24との間の距離が2である候補領域22の方が、対象オブジェクトを表す画像領域である蓋然性が高いと考えられる。上述した補正係数を利用する方法によれば、後者の候補領域22の方が、前者の候補領域22よりも、第3スコアが大きくなる。よって、後者の候補領域22の方が、オブジェクト領域30として特定されやすくなる。
【0079】
<結果の出力>
情報処理装置2000は、オブジェクト領域30を特定する情報(以下、出力情報)を出力する。出力情報を出力する方法は様々である。例えば情報処理装置2000は、出力情報を任意の記憶装置に記憶させる。その他にも例えば、情報処理装置2000は、出力情報をディスプレイ装置に記憶させる。
【0080】
例えば出力情報は、撮像画像20の識別子、オブジェクト領域30の特定の位置(例えば、オブジェクト領域30の左上端の座標)、及びオブジェクト領域30のサイズ(例えば、幅と高さ)を示す。撮像画像20からオブジェクト領域30が特定された場合、出力情報は、複数のオブジェクト領域30それぞれについて、位置及びサイズを示す。その他にも例えば、出力情報は、オブジェクト領域30を示す情報(例えば枠)を重畳させた撮像画像20であってもよい。
【0081】
[実施形態2]
図8は、実施形態2の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態2の情報処理装置2000は、実施形態1の情報処理装置2000と同様の機能を有する。
【0082】
実施形態2の情報処理装置2000は、複数の種類の対象オブジェクトを扱う。具体的には、情報処理装置2000は、検出すべきオブジェクトの種類を示す種類情報を取得し、種類情報に示されている種類のオブジェクトを対象オブジェクトとする。そのために、実施形態2の情報処理装置2000は、種類情報を取得する種類情報取得部2080を有する。
【0083】
種類情報が示すオブジェクトの種類は、1つであってもよいし、複数であってもよい。種類情報がオブジェクトの種類を複数示す場合、情報処理装置2000は、各種類のオブジェクトをそれぞれ対象オブジェクトとして、各対象オブジェクトについてオブジェクト領域30を特定する。例えば、種類情報が「帽子、サングラス、白杖」という3つの種類を示している場合、情報処理装置2000は、撮像画像20の中から、帽子を表すオブジェクト領域30、サングラスを表すオブジェクト領域30、及び白杖を表すオブジェクト領域30をそれぞれ特定する。
【0084】
種類情報取得部2080が種類情報を取得する方法は様々である。例えば種類情報取得部2080は、種類情報が記憶されている記憶装置から種類情報を取得する。その他にも例えば、種類情報取得部2080は、他の装置から送信される種類情報を受信することで、種類情報を取得する。その他にも例えば、種類情報取得部2080は、ユーザから種類情報の入力を受け付けることで、種類情報を取得する。
【0085】
実施形態2の候補領域検出部2020は、種類情報に示されている種類のオブジェクトについて候補領域22を検出する。ここで、特定の種類のオブジェクトを画像データから検出する技術には、既存の技術を利用できる。例えば、オブジェクトの種類ごとに、その種類のオブジェクトを画像データから検出するように学習させた検出器を用意しておく。候補領域検出部2020は、撮像画像20を、種類情報が示す種類のオブジェクトについて候補領域22を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて候補領域22を検出する。
【0086】
実施形態2の推定位置検出部2040は、人物領域26に基づき、種類情報に示されている種類のオブジェクトについて推定位置24を検出する。例えば、推定位置検出部2040においても、オブジェクトの種類ごとに、推定位置24を検出する検出器を用意しておく。すなわち、オブジェクトの種類ごとに、オブジェクトと人との位置関係を学習させておく。推定位置検出部2040は、撮像画像20及び人物領域26を特定する情報を、種類情報が示す種類のオブジェクトについて推定位置24を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて推定位置24を検出する。
【0087】
実施形態2の特定部2060は、上述のように種類情報が示す種類の対象オブジェクトについて検出された候補領域22及び推定位置24に基づいてオブジェクト領域30を特定する。出力情報は、オブジェクトの種類ごとに生成される。
【0088】
<作用効果>
実施形態の情報処理装置2000によれば、種類情報によって示されている種類のオブジェクトについて、オブジェクト領域30が特定される。こうすることで、複数の種類のオブジェクトのうち、指定されたオブジェクトを撮像画像20から検出するように、情報処理装置2000を設定できる。そのため、複数の種類のオブジェクトそれぞれを撮像画像20から検出したり、その時々で検出するオブジェクトの種類を変更したりすることができる。そのため、情報処理装置2000の利便性が向上する。
【0089】
例えば、要注意人物の持ち物に関する情報が得られたことに応じ、要注意人物の持ち物を検出するように撮像画像20を設定することができる。また、置き去り物体が発見された場合、その置き去り物体を検出するように情報処理装置2000を設定することができる。
【0090】
<ハードウエア構成の例>
実施形態2の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば
図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
【0091】
<処理の流れ>
図9は、実施形態2の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。種類情報取得部2080は、種類情報を取得する(S202)。情報処理装置2000は撮像画像20を取得する(S204)。候補領域検出部2020は、種類情報に示される種類のオブジェクトについて、候補領域22を検出する(S206)。推定位置検出部2040は人物領域26を検出する(S208)。推定位置検出部2040は、人物領域26に基づき、種類情報に示される種類のオブジェクトについて、推定位置24を検出する(S210)。特定部2060は、検出された候補領域22及び推定位置24に基づいて、オブジェクト領域30を特定する。
【0092】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。