(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】画像認識システム、画像認識方法および画像認識プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240709BHJP
G06V 10/82 20220101ALI20240709BHJP
G06V 20/66 20220101ALI20240709BHJP
【FI】
G06T7/00 350C
G06T7/00 660Z
G06T7/00 300B
G06V10/82
G06V20/66
(21)【出願番号】P 2022510310
(86)(22)【出願日】2020-03-27
(86)【国際出願番号】 JP2020013931
(87)【国際公開番号】W WO2021192206
(87)【国際公開日】2021-09-30
【審査請求日】2022-08-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】平川 康史
【審査官】宮島 潤
(56)【参考文献】
【文献】特開2018-84890(JP,A)
【文献】特開2017-33256(JP,A)
【文献】特開2010-86482(JP,A)
【文献】高科 勇太 Yuta Takashina,画像処理による視覚障害者の見守りシステム Observing system for visually impaired person by image processing,電気学会研究会資料 The Papers of Technical Meeting on "Perception Information",IEE Japan,日本,一般社団法人電気学会 The Institute of Electrical Engineers of Japan(IEEJ),2013年04月26日,p.47-52
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
G06T 1/00 - 1/40
G06T 3/00 - 5/50
G06T 9/00 - 9/40
(57)【特許請求の範囲】
【請求項1】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出部と、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領
域を含
み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を
、前記第1画像から切り出す抽出画像生成部と、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出部と、
を備え
、
前記抽出画像生成部は、前記抽出領域に対して画像サイズの変換を行うことで第2画像を生成する第2画像生成部を有し、
前記第2検出部は、前記第2画像から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を検出するオブジェクト検出部を有する
画像認識システム。
【請求項2】
前記第2画像生成部は、前記第2画像として、前記抽出領域から、幅方向の画素数が高さ方向の画素数に等しい画像を生成する
請求項
1に記載の画像認識システム。
【請求項3】
前記第2画像生成部は、前記人物領域が有する画素数が所定サイズ未満の場合には前記第2画像の生成を行なわず、前記人物領域が有する画素数が前記所定サイズ以上である場合に前記抽出領域から前記第2画像を生成する
請求項
1または
2に記載の画像認識システム。
【請求項4】
前記オブジェクト検出部は、
前記第2画像から、前記対象オブジェクトを表すと推定される画像領域である1または複数の候補領域を検出する候補領域検出部と、
前記人物領域に対する前記1または複数の候補領域の相対的な位置情報に基づいて、前記1または複数の候補領域から、前記人物領域との距離が所定閾値未満である候補領域を前記オブジェクト領域として特定する特定部と
を有する
請求項
1から
3のいずれか一項に記載の画像認識システム。
【請求項5】
前記第2画像を表示する表示部をさらに備える
請求項
1から
4のいずれか一項に記載の画像認識システム。
【請求項6】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出部と、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成部と、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出部と、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出部は、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて前記所定部位を選択し、前記第1画像から骨格推定モデルを用いて前記人物の身体の前記所定部位を推定し、推定された前記所定部位を含む範囲の領域を前記人物領域として検出する
画像認識システム。
【請求項7】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出部と、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成部と、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出部と、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出部は、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて、前記所定部位を選択する部位選択部を有する
画像認識システム。
【請求項8】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領
域を含
み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を
、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え
、
前記抽出画像生成ステップは、前記抽出領域に対して画像サイズの変換を行うことで第2画像を生成する第2画像生成ステップを有し、
前記第2検出ステップは、前記第2画像から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を検出するオブジェクト検出ステップを有する
画像認識方法。
【請求項9】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出ステップは、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて前記所定部位を選択し、前記第1画像から骨格推定モデルを用いて前記人物の身体の前記所定部位を推定し、推定された前記所定部位を含む範囲の領域を前記人物領域として検出する
画像認識方法。
【請求項10】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出ステップは、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて、前記所定部位を選択する部位選択ステップを有する
画像認識方法。
【請求項11】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領
域を含
み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を
、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え
、
前記抽出画像生成ステップは、前記抽出領域に対して画像サイズの変換を行うことで第2画像を生成する第2画像生成ステップを有し、
前記第2検出ステップは、前記第2画像から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を検出するオブジェクト検出ステップを有する画像認識方法をコンピュータに実行させる画像認識プログラム。
【請求項12】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出ステップは、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて前記所定部位を選択し、前記第1画像から骨格推定モデルを用いて前記人物の身体の前記所定部位を推定し、推定された前記所定部位を含む範囲の領域を前記人物領域として検出する画像認識方法をコンピュータに実行させる画像認識プログラム。
【請求項13】
人物と前記人物に関連する対象オブジェクトとが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する第1検出ステップと、
前記人物領域の大きさが大きくなるほど大きい大きさで少なくとも前記人物領域を含み前記人物領域に対して予め位置及び範囲が設定された前記人物領域より大きな抽出領域を、前記第1画像から切り出す抽出画像生成ステップと、
切り出された前記抽出領域から前記対象オブジェクトを検出する第2検出ステップと、
を備え、
前記人物領域は、前記人物の身体の所定部位を含む領域であり、
前記第1検出ステップは、前記対象オブジェクトの種別を示す対象オブジェクト種別情報を取得し、前記対象オブジェクト種別情報に基づいて、前記所定部位を選択する部位選択ステップを有する画像認識方法をコンピュータに実行させる画像認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像認識システム、画像認識方法および非一時的なコンピュータ可読媒体に関する。
【背景技術】
【0002】
カメラが生成した撮像画像から物体を検出する技術が知られている。たとえば特許文献1では、学習済の畳み込みニューラルネットワーク(CNN)を用いて、撮像画像に含まれる人物が所持しているかばんなどの所持品を検出する情報処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここでカメラが生成した撮像画像は、所定の画像サイズに縮小変換されて、学習済のCNNの入力層に入力される。このとき撮像画像に検出対象の所持品が小さく映っている場合や検出対象の所持品が白杖などの長細いものである場合、縮小変換によって所持品を表す画像領域に画素潰れが生じる可能性がある。したがって、上述の特許文献1に記載の情報処理装置では所持品を検出することができず、物体の認識精度のさらなる向上が求められている。
【0005】
本開示の目的は、上述の課題に鑑み、画像に含まれる物体の認識精度を向上させることができる画像認識システム、画像認識方法および非一時的なコンピュータ可読媒体を提供することにある。
【課題を解決するための手段】
【0006】
本開示の一態様に係る画像認識システムは、第1検出部と、抽出画像生成部と、第2検出部とを備える。前記第1検出部は、人物に関連する対象オブジェクトが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する。前記抽出画像生成部は、前記人物領域に応じて設定された抽出領域を前記第1画像から切り出す。前記第2検出部は、切り出された前記抽出領域に基づいて、前記対象オブジェクトを検出する。
【0007】
本開示の一態様に係る画像認識方法は、第1検出ステップと、抽出画像生成ステップと、第2検出ステップとを備える。前記第1検出ステップは、人物に関連する対象オブジェクトが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する。前記抽出画像生成ステップは、前記人物領域に応じて設定された抽出領域を前記第1画像から切り出す。前記第2検出ステップは、切り出された前記抽出領域に基づいて、前記対象オブジェクトを検出する。
【0008】
本開示の一態様に係る非一時的なコンピュータ可読媒体は、画像認識方法をコンピュータに実行させる画像認識プログラムが格納されている。前記画像認識方法は、第1検出ステップと、抽出画像生成ステップと、第2検出ステップとを備える。前記第1検出ステップは、人物に関連する対象オブジェクトが撮像された第1画像から、前記人物の身体の少なくとも一部を表す人物領域を検出する。前記抽出画像生成ステップは、前記人物領域に応じて設定された抽出領域を前記第1画像から切り出す。前記第2検出ステップは、切り出された前記抽出領域に基づいて、前記対象オブジェクトを検出する。
【発明の効果】
【0009】
本開示により、画像に含まれる物体の認識精度を向上させることができる画像認識システム、画像認識方法および非一時的なコンピュータ可読媒体を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態1にかかる画像認識システムの構成を示すブロック図である。
【
図2】実施形態2にかかる画像認識システムの構成を示すブロック図である。
【
図3】実施形態2にかかる画像認識システムの処理を示すフローチャートである。
【
図4】実施形態2にかかる画像認識システムの処理を説明するための図である。
【
図5】実施形態2にかかる画像認識システムの処理を説明するための図である。
【
図6】実施形態2にかかる画像認識システムの処理を説明するための図である。
【
図7】実施形態2にかかる画像認識システムの処理を説明するための図である。
【
図8】実施形態2にかかる画像認識システムの処理を説明するための図である。
【
図9】実施形態2にかかる画像認識システムの表示の一例を示す図である。
【
図10】実施形態3にかかる画像認識システムの構成を示すブロック図である。
【
図11】実施形態3にかかる画像認識システムの処理を示すフローチャートである。
【
図12】実施形態4にかかる画像認識システムの構成を示すブロック図である。
【
図13】実施形態4にかかる画像認識システムの処理を示すフローチャートである。
【
図14】実施形態5にかかる画像認識システムの構成を示すブロック図である。
【
図15】実施形態5にかかる第2検出部のオブジェクト領域検出処理を示すフローチャートである。
【
図16】実施形態5にかかる第2検出部のオブジェクト領域検出処理を説明するための図である。
【
図17】実施形態6にかかる画像認識システムの構成を示すブロック図である。
【
図18】実施形態6にかかる第1検出部の人物領域検出処理を示すフローチャートである。
【
図19】実施形態6にかかる第1検出部の人物領域検出処理を説明するための図である。
【
図20】実施形態7にかかる画像認識システムの構成を示すブロック図である。
【
図21】実施形態7にかかる部位選択情報のデータ構造の一例を示す図である。
【
図22】実施形態7にかかる第1検出部の人物領域検出処理を示すフローチャートである。
【
図23】実施形態1~7にかかるコンピュータの構成図である。
【発明を実施するための形態】
【0011】
以下、実施形態を通じて本開示を説明するが、請求の範囲にかかる開示を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。なお、以下の記載において画像の画素数(画像サイズとも呼ぶ)または画像領域の画素数をX×Yと表記した場合、Xは矩形画像または矩形画像領域における幅方向の画素数を示し、Yは矩形画像または矩形画像領域における高さ方向の画素数を示すものとする。そしてXおよびYは自然数であるものとする。
【0012】
<実施形態1>
まず
図1を用いて、本開示の実施形態1について説明する。
図1は、実施形態1にかかる画像認識システム10の構成を示すブロック図である。画像認識システム10は、第1検出部101と、抽出画像生成部104と、第2検出部107とを備える。
第1検出部101は、人物に関連する対象オブジェクトが撮像された第1画像から、人物の身体の少なくとも一部を表す人物領域を検出する。
抽出画像生成部104は、人物領域に応じて設定された抽出領域を第1画像から切り出す。
第2検出部107は、切り出された抽出領域に基づいて、対象オブジェクトを検出する。
【0013】
このように実施形態1の構成によれば、画像認識システム10は、不要領域を除いた抽出領域に基づいて対象オブジェクトを検出する。このため対象オブジェクトの検出のために、対象となる画像をCNNの入力画像の画像サイズと同等の画像サイズになるように変換する場合に、対象オブジェクトを表す画像領域に画素潰れが生じることを回避することができる。これにより、画像に含まれる物体の認識精度を向上させることができる。
【0014】
<実施形態2>
次に
図2~9を用いて、本開示の実施形態2について説明する。
図2は、実施形態2にかかる画像認識システム20の構成を示すブロック図である。画像認識システム20は、撮像画像から人物に関連する対象オブジェクトを認識するコンピュータシステムである。
画像認識システム20は、取得部200と、第1検出部201と、抽出画像生成部204と、第2検出部207と、記憶部211とを備える。
【0015】
取得部200は、対象オブジェクトの検出等の一連の認識処理に必要な各種情報を取得する。取得部200は、監視カメラ等の撮像装置(不図示)から、またはユーザからの入力を受け付けることにより、第1画像I1を取得する。第1画像I1は、人物と、人物に関連する対象オブジェクトとが撮像されている。対象オブジェクトは、人物の所持品であってよい。人物の所持品は、人物が手に持っている物には限定されず、何らかの形で所持している物を含む。人物の所持品は、人が手に持っている物(白杖若しくはかばん等)、人が首から提げている物(身分証明書等)、人が頭に装着している物(帽子等)、または人が顔に装着している物(眼鏡等)であってよい。取得部200は、取得した情報を第1検出部201に供給する。
【0016】
第1検出部201は、第1画像I1から、人物領域検出器を用いて人物の身体の少なくとも一部を表す人物領域を検出する。人物領域は、人物全体を表してもよく、人物の身体の一部を表してもよい。一例として人物の身体の一部は、手、腕、首、頭または顔等の部位である。人物領域検出器は、例えば入力画像から人物を表す画像領域または人物の特定の部位を表す画像領域を検出するように予め学習させた検出器であってよい。このような検出器は、任意の既存の物体検出モデルを用いてよい。本実施形態2で人物領域検出器は、学習済のCNNを含むSSD(Single Shot MultiBox Detector)またはWSSD(Weighted Single Shot MultiBox Detector)等の検出モデルを用いる。しかしこれに限らず、人物領域検出器は、SVM(サポートベクトルマシン)等の他の任意の検出モデルを用いてもよい。
第1検出部201は、検出された人物領域にかかる情報を抽出画像生成部204に供給する。
【0017】
抽出画像生成部204は、第1画像I1から抽出領域を切り出す。ここで抽出領域は、第1検出部201によって検出された人物領域に応じて設定された画像領域である。たとえば抽出領域は、第1画像I1において、人物領域に対して予め定められた位置に、予め定められた範囲で配置される画像領域であってよい。また抽出領域は、第1画像I1において、人物領域を中心として予め定められた範囲に配置される画像領域であってよい。一例として抽出領域は、第1画像I1において人物領域の中心を中心として、人物領域の画素数に基づいて設定される画素数を有する画像領域であってよい。また抽出領域は、人物領域と同一の画像領域であってもよい。
【0018】
そして抽出画像生成部204は、切り出された抽出領域に基づいて第2画像I2を生成する。抽出画像生成部204は、抽出領域が後述する第2検出部207で用いられるオブジェクト検出器の入力画像の画像サイズと同等の画像サイズになるように、抽出領域に対して画像変換を行い、第2画像I2を生成する。
抽出画像生成部204は、生成した第2画像I2を第2検出部207に供給する。
【0019】
第2検出部207は、第2画像I2から、オブジェクト検出器を用いて対象オブジェクトを表す画像領域であるオブジェクト領域を検出する。ここでオブジェクト検出器は、入力画像から対象オブジェクトを表す画像領域を検出するように予め学習させた検出器であってよい。オブジェクト検出器は、学習済のCNNを含むSSDまたはWSSD等の検出モデルを用いてよい。
【0020】
記憶部211は、対象オブジェクトの検出等の一連の認識処理に必要な各種情報を記憶する記憶媒体である。たとえば記憶部211は、第1検出部201が用いる人物領域検出器の学習済パラメータおよび第2検出部207が用いるオブジェクト検出器の学習済パラメータ等を記憶する。
【0021】
次に
図3を用いて
図4~8を参照しながら、画像認識システム20の画像認識方法について説明する。
図3は、実施形態2にかかる画像認識システム20の処理を示すフローチャートである。
図4~8は、実施形態2にかかる画像認識システム20の処理を説明するための図である。
【0022】
まずステップS10において、取得部200は、第1画像I1を取得する。ここで第1画像I1は、
図4に示すように、人物と、人物に関連する対象オブジェクトとが撮像されている。本例において対象オブジェクトは人物が手に持っている「白杖」である。
図4に示すように、第1画像I1は、X1×Y1の画素数を有する。本例では第1画像I1は、フルハイビジョンの撮像画像であり、すなわちX1は1920であり、Y1は1080である。
【0023】
次にステップS11において、第1検出部201は、第1画像I1から人物領域を検出する。本例において第1検出部201は、記憶部211から人物領域検出器の学習済パラメータを取得し、当該学習済パラメータを含む学習済の人物領域検出器を用いて、第1画像I1から人物全体である人物領域Pを検出する。
図5に示すように、人物領域PはXP1×YP1の画素数を有する(XP1<X1かつYP1<Y1)。
【0024】
このとき第1検出部201は、第1画像I1を、人物領域検出器の入力画像の画像サイズ(たとえば300画素×300画素)と同じ画像サイズになるように変換をし、当該変換後の画像を人物領域検出器に入力してよい。そして第1検出部201は、出力結果にかかる画像領域に基づいて、第1画像I1における人物領域Pを特定してよい。なお第1検出部201は、画像変換をする場合、後述するステップS13において抽出画像生成部204が行う画像変換処理と同様の処理を行ってよい。
そして第1検出部201は、人物領域Pにかかる情報を抽出画像生成部204に供給する。
【0025】
次にステップS12において、抽出画像生成部204は、人物領域に基づいて抽出領域を特定する。たとえば
図6に示すように抽出画像生成部204は、人物領域Pの中心を中心として、XA1×YA1の画素数を有する画像領域を抽出領域Aと特定する(XP1<XA1<X1かつYP1<YA1<Y1)。ここでXA1およびYA1はそれぞれ、XP1およびYP1に基づいて設定されてよい。たとえばXA1およびYA1はそれぞれ、XP1およびYP1のN倍(N>1)の値を有してよい。Nは、予め定められてよい。
【0026】
次にステップS13において、抽出画像生成部204は、特定された抽出領域に基づいて第2画像I2を生成する。たとえば
図7に示すように、抽出画像生成部204は第1画像I1からXA1×YA1の画素数を有する抽出領域Aを切り出し、抽出領域AをX2×Y2の画素数を有する第2画像I2に変換する。X2およびY2はそれぞれ、オブジェクト検出器の入力画像の画像サイズの幅方向の画素数および高さ方向の画素数と等しい。X2およびY2はそれぞれ、X1およびY1よりも小さい値を有してよい。本例ではX2およびY2は、いずれも300である。
【0027】
このとき抽出画像生成部204は、抽出領域Aおよび第2画像I2の画素数に基づいて、抽出領域Aに対して拡大、縮小、伸張、または圧縮等の画像変換処理を行う。本例では、抽出画像生成部204は、抽出領域Aに対して幅方向に(X2/XA1)倍、高さ方向に(Y2/YA1)倍の画像変換処理を行う。たとえば抽出領域Aを拡大または縮小する場合、抽出画像生成部204は、抽出領域Aに含まれる所定の画素と周囲の画素との間隔を変更し、その間の画素を補間してよい。また抽出領域Aを伸張する場合、抽出画像生成部204は、引き伸ばす方向の画素について、画素同士の間隔を拡げ、その間の画素を補間してよい。また抽出領域Aを圧縮する場合、抽出画像生成部204は、縮める方向の画素について、画素同士の間隔を狭め、適宜画素を補間してよい。抽出画像生成部204は、抽出領域Aを拡大または伸張する場合において、画素同士の間隔を広げることに代えて、拡大または伸張する方向にゼロパディングを行ってよい。
そして抽出画像生成部204は、生成した第2画像I2を第2検出部207に供給する。
【0028】
次にステップS14において、第2検出部207は記憶部211からオブジェクト検出器の学習済パラメータを取得し、当該学習済パラメータを含む学習済のオブジェクト検出器を用いて第2画像I2からオブジェクト領域を検出する。上述の通りオブジェクト検出器の入力画像の画像サイズは、X2×Y2と等しい。したがって本例では当該画像サイズは300×300である。たとえば
図8に示すように第2検出部207は、第2画像I2において白杖を表すオブジェクト領域Bを検出する。
【0029】
次にステップS15において、第2検出部207は、一連の処理を終了するか否かを判定する。第2検出部207は、終了する場合は処理を終了し、そうでない場合は処理をステップS11に戻す。
【0030】
ここで特許文献1に記載の情報処理装置のようにステップS11~13を行わない場合、オブジェクト検出器には、X1×Y1(=1920×1080)からX2×Y2(=300×300)に縮小変換された第1画像I1が第2画像I2として入力される。つまり幅方向の画素数が(X2/X1)(=約0.16)倍、高さ方向の画素数が(Y2/Y1)(=約0.28)倍になるように第1画像I1が縮小変換される。ここで変換前の画像に対する変換後の画像の解像度の割合をSとすると、幅方向のSが(X2/X1)(=約0.16)、高さ方向のSが(Y2/Y1)(=約0.28)となり、画像変換処理により画像の解像度が大きく低下する。このため第2画像I2のオブジェクト領域において画素潰れが生じやすくなる。しかし実施形態2によれば、ステップS11~13により切り出された抽出領域Aを第2画像I2に変換するため、抽出領域Aの画素数が第2画像I2の画素数に近づくほど画像変換による解像度の低下は軽減する。たとえば抽出領域Aの画素数がX2×Y2(=300×300)と同程度である場合は、生成される第2画像I2の解像度は、第1画像I1における抽出領域Aの解像度と同程度に維持される。したがってオブジェクト領域において画素潰れが生じることを回避することができ、これにより第1画像I1に含まれる対象オブジェクトの認識精度を向上させることができる。さらに抽出領域Aは第1画像I1中の不要領域にかかる情報が除去されているため、計算コストを低減しつつ認識精度を向上させることができる。本実施形態2にかかる画像認識システム20は、対象オブジェクトが幅および高さの一方の画素数が他方の画素数よりも大幅に小さい「白杖」である場合に特に顕著な効果を奏する。したがって画像認識システム20は、監視カメラの映像を利用して「白杖」を所持するロービジョンの人物を特定し、特定された人物に対して音声案内を行う音声支援システム等に適用されることが可能となる。
【0031】
なお本実施形態2でオブジェクト検出器の入力画像の画像サイズは300×300、すなわちX2およびY2はいずれも300であったが、X2およびY2はいずれも300未満であってもよい。すなわちオブジェクト検出器の入力画像の画像サイズは、200×200であってもよく、150×150であってもよく、100×100であってもよい。この場合オブジェクト検出器は、予め定められた画像サイズの入力画像に応じて学習された検出器であってよい。ただしオブジェクト検出器の入力画像の画像サイズがこのような小さい値である場合、300×300である場合と比べて、生成される第2画像I2の解像度は低下する。しかしこのような場合でも変換前後の画像の解像度の割合SがステップS11~13を行わないでオブジェクト領域を検出する場合のSよりも所定量大きくなるようにX2およびY2を定めることで、解像度の低下による認識精度への影響を緩和させることができる。しかもこの場合、第2検出部207はより軽量な検出器を用いてオブジェクト領域を検出することができるため、認識精度をある程度確保しつつ計算コストを大幅に低減させることができる。
【0032】
なお本実施形態2の画像認識システム20は、表示部をさらに備えてよい。
図9は、実施形態2にかかる画像認識システム20の表示の一例を示す図である。本図に示すように、表示部は、第1画像I1と第2画像I2とを表示してよい。
【0033】
表示部は、第2画像I2からオブジェクト領域Bが検出されたことに応じて、オブジェクト領域Bを第2画像I2上に重畳表示してよい。
また表示部は、検出されたオブジェクト領域Bに対応する抽出領域Aを第1画像I1上に重畳表示してよい。
【0034】
さらに本図に示すように、表示部はユーザから第1画像I1の入力を受け付ける画像入力手段を有してもよい。画像入力手段は、取得部200に接続されてよい。そして表示部は、画像入力手段により第1画像I1の入力を受け付けたことに応じて第1画像I1を表示してよい。
【0035】
なお表示部は、ユーザから抽出領域Aを重畳表示させた第1画像I1、第2画像I2またはオブジェクト領域Bを重畳表示させた第2画像I2の出力の要求を受け付ける画像出力手段を有してもよい。画像認識システム20は、画像出力手段により当該出力の要求を受け付けたことに応じて、要求にかかる画像データを所定のデータ形式で出力してよい。
【0036】
<実施形態3>
次に
図10~11を用いて、本開示の実施形態3について説明する。実施形態3は、第2画像I2の画像サイズが抽出領域のサイズに基づいて決定されることに特徴を有する。
図10は、実施形態3にかかる画像認識システム30の構成を示すブロック図である。実施形態3の画像認識システム30は、実施形態2の画像認識システム20と基本的には同様の構成および機能を有する。ただし実施形態3の画像認識システム30は、抽出画像生成部204に代えて抽出画像生成部304を備える点で実施形態2と相違する。
【0037】
抽出画像生成部304は、抽出画像生成部204の構成および機能に加えて、サイズ決定部305をさらに有する。
サイズ決定部305は、抽出領域が有する画素数に基づいて、第2画像I2が有する画素数を決定する。たとえばサイズ決定部305は、抽出領域が有する画素数に基づいて、予め定められた第2画像I2が有し得る画素数のうちの1つを選択し、選択された画素数を第2画像I2が有する画素数として決定する。第2画像I2が有し得る画素数は、たとえば300×300と、200×200とを含んでよい。そして抽出画像生成部204は、決定された画素数に合わせて抽出領域を変換し、第2画像I2を生成する。
【0038】
なお実施形態3の記憶部211は、実施形態2の記憶部211が記憶する情報に加えて、第2画像I2が有し得る画素数ごとに、オブジェクト検出器の学習済パラメータを記憶する。たとえば記憶部211は、入力画像の画像サイズが300×300であるオブジェクト検出器の学習済パラメータと、入力画像の画像サイズが200×200であるオブジェクト検出器の学習済パラメータとを記憶する。
【0039】
図11は、実施形態3にかかる画像認識システム30の処理を示すフローチャートである。
図11に示すステップは、
図3に示すステップS13~14に代えてステップS20~24を有する。なお
図3に示すステップと同様のステップについては同一の記号を付して説明を省略する。
【0040】
ステップS20において、抽出画像生成部304のサイズ決定部305は、ステップS12で抽出画像生成部304が抽出領域Aを特定したことに応じて、抽出領域Aが有する画素数に基づいて、第2画像I2が有する画素数を決定する。
【0041】
たとえばサイズ決定部305は、抽出領域Aの高さおよび幅方向の少なくとも一方の画素数が300未満である場合は、第2画像I2が有する画素数を200×200に決定してよい。またサイズ決定部305は、高さ方向および幅方向のいずれの画素数も300以上である場合は、第2画像I2が有する画素数を300×300に決定してよい。
【0042】
またサイズ決定部305は、変換前後の画像の解像度の割合Sが予め定められた参照値S0よりも大きくなるように、第2画像I2が有する画素数を決定してもよい。ここで変換前後の画像の解像度の割合Sは、第2画像I2の画素数を抽出領域Aの画素数で除した値(すなわち、幅方向でX2/XA1または高さ方向でY2/YA1)である。たとえばサイズ決定部305は、第2画像I2の解像度を担保するため、第2画像I2が有し得る画素数のうち、抽出領域Aの画素数と参照値S0との間の積よりも大きい画素数を第2画像I2の画素数として決定する。具体的には、サイズ決定部305は、第2画像I2が有し得るX2(またはY2)の値の中から、抽出領域Aの高さおよび幅方向の画素数のうち小さいほうと参照値S0との間の積よりも大きいものを選択し、第2画像I2のX2(またはY2)として決定する。なおこのようにして選択されたX2(またはY2)の値が複数ある場合は、サイズ決定部305は、これらの値の最小値を第2画像I2のX2(またはY2)として決定してよい。これにより、計算コストを低減させることができる。
【0043】
そしてステップS22において、抽出画像生成部304は、特定された抽出領域Aおよび決定した第2画像I2の画素数に基づいて、ステップS13と同様の処理を行い、第2画像I2を生成する。そして抽出画像生成部304は、生成した第2画像I2を第2検出部207に供給する。
【0044】
ステップS24において、第2検出部207は、記憶部211から決定した第2画像I2の画素数に対応するオブジェクト検出器の学習済パラメータを取得する。そして第2検出部207は、当該学習済パラメータを含む学習済のオブジェクト検出器を用いて第2画像I2からオブジェクト領域Bを検出する。
【0045】
このように実施形態3によれば、画像認識システム30は、切り出しにかかる抽出領域Aのサイズに基づいて第2画像I2の画像サイズを決定する。したがって、オブジェクト領域の検出における入力画像の解像度を担保し、これにより認識精度を担保しつつ、計算コストを低減させることが可能となる。
【0046】
<実施形態4>
次に
図12~13を用いて、本開示の実施形態4について説明する。ここで、第1画像I1上で人物が小さく映っている場合、その人物に関連する対象オブジェクトも小さく映っている可能性が高い。このような場合、対象オブジェクトのオブジェクト領域を精度よく検出することが困難となる。実施形態4は、人物領域Pが所定サイズ未満の場合に、後続のオブジェクト領域の検出処理が行われないことに特徴を有する。
【0047】
図12は、実施形態4にかかる画像認識システム40の構成を示すブロック図である。実施形態4の画像認識システム40は、実施形態3の画像認識システム30と基本的には同様の構成および機能を有する。ただし実施形態4の画像認識システム40は、抽出画像生成部304に代えて抽出画像生成部404を備える点で実施形態3と相違する。
【0048】
抽出画像生成部404は、抽出画像生成部304の構成および機能に加えて、判定部406を有する。
判定部406は、人物領域Pが有する画素数に基づいて、第2画像I2を生成するか否かを判定する。つまり判定部406は、人物領域Pが有する画素数に基づいて、処理を後続のオブジェクト領域の検出ステップに進めるか否かを判定する。
【0049】
図13は、実施形態4にかかる画像認識システム40の処理を示すフローチャートである。
図13に示すステップは、
図11に示すステップに加えて、ステップS30を有する。なお
図11に示すステップと同様のステップについては同一の記号を付して説明を省略する。
【0050】
ステップS30において、抽出画像生成部404の判定部406は、ステップS11で第1検出部201が第1画像I1から人物領域Pを検出したことに応じて、人物領域Pが有する画素数が予め定められた第1閾値よりも大きいか否かを判定する。具体的には判定部406は、人物領域Pが有する高さまたは幅方向の画素数が第1閾値よりも大きいか否かを判定する。判定部406は、当該画素数が第1閾値よりも大きいと判定した場合(ステップS30でYes)、処理をステップS12に進める。一方、判定部406は、そうでない場合(ステップS30でNo)、処理をステップS15に進める。
【0051】
このように実施形態4によれば、画像認識システム40が人物領域Pの画素数に基づいて、第2画像I2を生成するか否かを判定するため、人物領域Pが所定サイズ未満である場合にはその後の処理を省略することができる。これにより計算コストを低減させるとともに、一連の認識処理のリアルタイム性を確保することが可能となる。
【0052】
なお判定部406は人物領域Pが有する画素数に代えて、抽出領域Aが有する画素数に基づいて第2画像I2を生成するか否かを判定してもよい。この場合、
図13に示すステップS30は省略される。そしてステップS12において抽出画像生成部404は、人物領域Pに基づいて抽出領域Aを特定し、抽出領域Aが有する画素数が第1閾値よりも大きいか否かを判定する。判定部406は、当該画素数が第1閾値よりも大きいと判定した場合、処理をステップS20に進める。一方、判定部406は、そうでない場合、処理をステップS15に進める。このときも上述と同様の効果が得られる。
【0053】
<実施形態5>
次に
図14~16を用いて、本開示の実施形態5について説明する。実施形態5はオブジェクト検出器の検出結果の中から、人物領域との間の相対的な位置情報に基づいてオブジェクト領域を特定することに特徴を有する。
【0054】
図14は、実施形態5にかかる画像認識システム50の構成を示すブロック図である。実施形態5の画像認識システム50は、実施形態4の画像認識システム40と基本的には同様の構成および機能を有する。ただし実施形態5の画像認識システム50は、第2検出部207に代えて第2検出部507を備える点で実施形態4と相違する。
【0055】
第2検出部507は、基本的には第2検出部207と同様の機能を有するが、候補領域検出部508と特定部509とを有する。
【0056】
候補領域検出部508は、オブジェクト検出器を用いて、第2画像I2から1または複数の候補領域を検出する。ここで候補領域は、対象オブジェクトを表すと推定される画像領域である。
【0057】
特定部509は、人物領域Pに対する1または複数の候補領域の相対的な位置情報に基づいて、1または複数の候補領域から、オブジェクト領域Bを特定する。本実施形態5で相対的な位置情報は、例えば人物領域Pと候補領域との間の距離であってよい。
【0058】
次に
図15を用いて
図16を参照しながら、実施形態5にかかる第2検出部507のオブジェクト領域検出処理について説明する。
図15は、実施形態5にかかる第2検出部507のオブジェクト領域検出処理を示すフローチャートである。
図16は、実施形態5にかかる第2検出部507のオブジェクト領域検出処理を説明するための図である。
【0059】
まずステップS40において、第2検出部507の候補領域検出部508は、記憶部211から第2画像I2の画素数に対応するオブジェクト検出器の学習済パラメータを取得する。そして候補領域検出部508は、当該学習済パラメータを含む学習済のオブジェクト検出器を用いて第2画像I2から候補領域を検出する。
図16に示すように、候補領域検出部508は第2画像I2に含まれる複数の候補領域C1,C2を検出する。
【0060】
次にステップS42において、特定部509は、候補領域の各々について、第2画像I2における人物領域P2との間の距離を算出する。ここで第2画像I2における人物領域P2は、第1画像I1における人物領域Pに対応する画像領域である。
図16に示すように、各候補領域C1,C2と人物領域P2との間の距離d1,d2は、各候補領域の中心等の代表点と人物領域P2の中心等の代表点との間の距離であってよい。
【0061】
そして特定部509は、人物領域P2との間の距離が第2閾値未満である候補領域があるか否かを判定する。なお第2閾値は、予め定められた値であっても、人物領域P2の画素数に応じて設定された値であってもよい。特定部509は、人物領域P2との間の距離が第2閾値未満である候補領域があると判定した場合(ステップS42でYes)、処理をステップS44に進める。一方で特定部509は、そうでない場合(ステップS42でNo)、処理を
図13に示すステップS15に戻す。
【0062】
そしてステップS44において、特定部509は、人物領域P2との間の距離が第2閾値未満である候補領域をオブジェクト領域Bと特定する。そして特定部509は処理を
図13に示すステップS15に戻す。
【0063】
実施形態5によれば、画像認識システム50は、人物との距離に基づいてその人物の所持品であるかの判定を行うため、人物が所持する対象オブジェクトを適切に検出することができ、認識精度を向上させることができる。たとえば対象オブジェクトが「白杖」の場合は、画像認識システム50は、監視カメラの映像を利用して白杖を適切に検出し、さらには白杖を所持する人物を適切に特定することができる。
【0064】
なお第2閾値が人物領域P2の画素数に応じて動的に設定される場合は、画像認識システム50は、人物が所持する対象オブジェクトをより適切に検出することが可能となり、認識精度がより向上する。
【0065】
なお実施形態5では画像認識システム50は、人物領域P2との間の距離が第2閾値未満である候補領域をオブジェクト領域Bと特定した。しかしこれに代えて画像認識システム50は、人物領域P2との間の距離が最も小さい候補領域をオブジェクト領域Bと特定してもよい。これによっても上述と同様の効果を得ることができる。
【0066】
<実施形態6>
次に
図17~19を用いて、本開示の実施形態6について説明する。実施形態6は人物の骨格構造に基づいて人物領域が検出されることに特徴を有する。
図17は、実施形態6にかかる画像認識システム60の構成を示すブロック図である。実施形態6の画像認識システム60は、実施形態5の画像認識システム50と基本的には同様の構成および機能を有する。ただし実施形態6の画像認識システム60は、第1検出部201に代えて第1検出部601を備える点で実施形態5と相違する。
【0067】
第1検出部601は、第1検出部201と基本的には同様の機能を有し、第1画像I1から人物領域Pを検出する。ここで本実施形態6では、人物領域Pは、人物の身体の部位を表す。たとえば人物領域Pは、手、首、頭または顔等の部位を表す。第1検出部601は、骨格推定部602を有する。
【0068】
骨格推定部602は、骨格推定モデルを用いて人物の二次元骨格構造を推定する。そして骨格推定部602は、推定された二次元骨格構造に基づいて、人物領域Pを検出する。骨格推定モデルは、機械学習により学習済の既存の骨格推定モデルであってよい。
【0069】
次に
図18を用いて
図19を参照しながら、実施形態6にかかる第1検出部601の人物領域検出処理について説明する。
図18は、実施形態6にかかる第1検出部601の人物領域検出処理を示すフローチャートである。また
図19は、実施形態6にかかる第1検出部601の人物領域検出処理を説明するための図である。
【0070】
まずステップS50において、第1検出部601の骨格推定部602は、骨格推定モデルを用いて第1画像I1から人物の二次元骨格構造を推定する。ここで推定された二次元骨格構造は、関節等の特徴的な点であるキーポイントと、キーポイント間を結ぶボーンとから構成される。たとえば骨格推定部602は、まず第1画像I1の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。
図19に示す例では、人物のキーポイントとして、頭K1、首K2、右肩K31、左肩K32、右肘K41、左肘K42、右手K51、左手K52、右腰K61、左腰K62、右膝K71、左膝K72、右足K81、左足K82を検出する。
【0071】
次にステップS52において、骨格推定部602は、推定した二次元骨格構造に基づいて人物領域Pを特定する。
図19に示す例では対象オブジェクトが「白杖」であり、人物領域Pは人物の「手」を表す。したがって骨格推定部602は、検出した複数のキーポイントから人物の「手」に関連するキーポイントである右手K51を選択し、右手K51を含む所定範囲の領域を人物領域Pと特定してよい。
【0072】
このとき骨格推定部602は、キーポイント間を結ぶボーンの長さに基づいて人物領域Pの範囲を決定してよい。たとえば骨格推定部602は、右手K51と右肘K41とを結ぶボーンB41の長さに基づいて、人物領域Pの範囲を決定し、人物領域Pを特定してよい。
そして骨格推定部602は、処理を
図13に示すステップS30に戻す。
【0073】
なお
図15に示すステップS42において、特定部509は、人物領域Pの推定時に選択したキーポイントに対応する点を人物領域P2の代表点として、候補領域と人物領域P2との間の距離の算出に用いてよい。
【0074】
このように実施形態6によれば、画像認識システム60は、人物の骨格構造に基づいて人物領域を検出するため、人物領域に基づいて人物が所持する対象オブジェクトをより適切に検出することが可能となり、認識精度がより向上する。
【0075】
<実施形態7>
次に
図20~22を用いて、本開示の実施形態7について説明する。実施形態7は対象オブジェクトの種別に応じて人物領域が特定されることに特徴を有する。
図20は、実施形態7にかかる画像認識システム
70の構成を示すブロック図である。実施形態7の画像認識システム70は、実施形態6の画像認識システム60と基本的には同様の構成および機能を有する。ただし実施形態7の画像認識システム70は、第1検出部601に代えて第1検出部701を備え、記憶部211に代えて記憶部711を備える点で実施形態6と相違する。
【0076】
第1検出部701は、第1検出部601の構成および機能に加えて、部位選択部703を有する。
部位選択部703は、対象オブジェクトの種別に基づいて、部位の種別を選択する。なお骨格推定部602は、選択された部位の種別に応じて人物領域Pを特定する。
【0077】
記憶部711は、記憶部211の構成および機能に加えて、対象オブジェクトの種別と部位の種別とを関連付ける部位選択情報を記憶する。また記憶部711は、部位の種別ごとの人物領域検出器の学習済パラメータと、対象オブジェクトの種別ごとのオブジェクト検出器の学習済パラメータとを記憶する。
【0078】
図21は、実施形態7にかかる部位選択情報のデータ構造の一例を示す図である。部位選択情報は、対象オブジェクトの種別と、部位の種別とを含む。
対象オブジェクトの種別は、「白杖」、「かばん」または「帽子」等であってよい。
部位の種別は、対象オブジェクトの種別が「白杖」である場合は、「手」であってよく、対象オブジェクトの種別が「かばん」である場合は、「手」または「腕」であってよく、対象オブジェクトの種別が「帽子」である場合は、「頭」であってよい。
【0079】
なお部位選択情報は、本図に示すようにオブジェクト領域を特定する場合に用いる第2閾値に関連する値をさらに含んでもよい。部位選択情報に含まれる第2閾値に関連する値は、第2閾値の値であってもよく、人物領域P2を所定のサイズに正規化した場合の第2閾値の正規化値であってもよい。この場合、
図15に示すステップS42において、特定部509は対象オブジェクトの種別および部位の種別に基づいて、記憶部711の部位選択情報から第2閾値に関連する値を取得し、これに基づいて第2閾値の値を設定してよい。そして特定部509は、人物領域P2との間の距離が第2閾値未満である候補領域があるか否かを判定してよい。
【0080】
図22は、実施形態7にかかる第1検出部701の人物領域検出処理を示すフローチャートである。
まずステップS60において、第1検出部701の部位選択部703は、取得部200を介して対象オブジェクトの種別に関する対象オブジェクト種別情報を取得する。なお取得部200は、ユーザからの入力を受け付けることにより対象オブジェクト種別情報を取得してよい。
【0081】
次にステップS62において、部位選択部703は、記憶部711の部位選択情報を参照し、対象オブジェクトの種別に関連付けられた部位の種別を選択する。
【0082】
次にステップS63において、第1検出部701の骨格推定部602は、
図18に示すステップS50と同様に、骨格推定モデルを用いて第1画像I1から人物の二次元骨格構造を推定する。
【0083】
そしてステップS64において、骨格推定部602は、推定した二次元骨格構造と、選択された部位の種別とに基づいて、人物領域Pを特定する。
【0084】
このように実施形態7によれば、画像認識システム70は、対象オブジェクトの種別に基づいて人物領域Pを特定する。このため画像認識システム70は人物領域Pに基づいてより適切に対象オブジェクトを検出することが可能となり、認識精度がより向上する。
【0085】
上述の実施形態1~7ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。
【0086】
なお上述の実施形態1~7では、この開示をハードウェアの構成として説明したが、この開示は、これに限定されるものではない。この開示は、上述の人物領域検出処理、第2画像生成処理、オブジェクト領域検出処理等の画像認識処理を、後述するプロセッサ1010にコンピュータプログラムを実行させることにより実現することも可能である。
【0087】
図23は、実施形態1~7にかかるコンピュータ1900の構成図の一例である。
図23に示すように、コンピュータ1900は、システム全体を制御するための制御部1000を備えている。この制御部1000には、データバス等のバスラインを介して、入力装置1050、記憶装置1200、記憶媒体駆動装置1300、通信制御装置1400、および入出力I/F1500が接続されている。
【0088】
制御部1000は、プロセッサ1010と、ROM1020と、RAM1030とを備えている。
プロセッサ1010は、ROM1020や記憶装置1200等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。
ROM1020は、プロセッサ1010が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0089】
RAM1030は、プロセッサ1010にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM1030には、本実施形態1~7による各種処理を行うための各種エリアが確保可能になっている。
【0090】
入力装置1050は、キーボード、マウスおよびタッチパネル等のユーザからの入力を受け付ける入力装置である。たとえばキーボードは、テンキー、各種機能を実行するための機能キーおよびカーソルキー等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置1100に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置1100の表面に配置される入力機器で、表示装置1100に画面表示された各種操作キーに対応した、ユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。
【0091】
表示装置1100は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、キーボードやマウスによる入力結果が表示されたり、最終的に検索されたイメージ情報が表示されたりするようになっている。また表示装置1100は、コンピュータ1900の各種機能に応じて、タッチパネルから必要な各種操作を行うための操作キーを画像表示する。
【0092】
記憶装置1200は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。
この記憶装置1200に使用される記憶媒体は、主としてハードディスク等が使用されるが、後述の記憶媒体駆動装置1300で駆動対象となる非一時的なコンピュータ可読媒体(non-transitory computer readable medium)であればよい。
記憶装置1200は、データ格納部1210、プログラム格納部1220および図示しないその他の格納部(例えば、この記憶装置1200内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。プログラム格納部1220には、本実施形態1~7における各種処理を実現するためのプログラムが格納されている。データ格納部1210には、本実施形態1~7にかかる各種データベースの各種データを格納する。
【0093】
記憶媒体駆動装置1300は、プロセッサ1010が外部の記憶媒体(外部記憶媒体)からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。
ここで、外部記憶媒体とは、コンピュータプログラムやデータ等が非一時的に記憶できる非一時的なコンピュータ可読媒体をいう。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また各種プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路並びに記憶媒体駆動装置1300を介して、各種プログラムをコンピュータに供給できる。
【0094】
つまりコンピュータ1900は、制御部1000のプロセッサ1010が、記憶媒体駆動装置1300にセットされた外部の記憶媒体から各種プログラムを読み込んで、記憶装置1200の各部に格納する。
【0095】
そして、コンピュータ1900が各種処理を実行する場合、記憶装置1200から該当プログラムをRAM1030に読み込み、実行するようになっている。但しコンピュータ1900は、記憶装置1200からではなく、記憶媒体駆動装置1300により外部の記憶媒体からRAM1030に直接プログラムを読み込んで実行することも可能である。また、コンピュータによっては各種プログラム等を予めROM1020に記憶させておき、これをプロセッサ1010が実行するようにしてもよい。さらに、コンピュータ1900は、各種プログラムやデータを、通信制御装置1400を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0096】
通信制御装置1400は、コンピュータ1900と他のパーソナルコンピュータやワードプロセッサ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置1400は、これら各種外部電子機器からコンピュータ1900にアクセスすることを可能とする。
【0097】
入出力I/F1500は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続するためのインターフェースである。
【0098】
なお、プロセッサ1010として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)およびASIC(application specific integrated circuit)等が用いられてもよい。また、これらのうち複数個を並列に用いてもよい。
【0099】
請求の範囲、明細書、および図面中において示したシステムおよび方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。請求の範囲、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。
【0100】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0101】
10,20,30,40,50,60,70 画像認識システム
101,201,601,701 第1検出部
104,204,304,404 抽出画像生成部
107,207,507 第2検出部
200 取得部
211,711 記憶部
305 サイズ決定部
406 判定部
508 候補領域検出部
509 特定部
602 骨格推定部
703 部位選択部
I1 第1画像
I2 第2画像
P 人物領域
A 抽出領域
1000 制御部
1010 プロセッサ
1020 ROM
1030 RAM
1050 入力装置
1100 表示装置
1200 記憶装置
1210 データ格納部
1220 プログラム格納部
1300 記憶媒体駆動装置
1400 通信制御装置
1500 入出力I/F
1900 コンピュータ