特許第5887264号(P5887264)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本システムウエア株式会社の特許一覧

特許5887264物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体
<>
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000002
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000003
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000004
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000005
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000006
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000007
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000008
  • 特許5887264-物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5887264
(24)【登録日】2016年2月19日
(45)【発行日】2016年3月16日
(54)【発明の名称】物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体
(51)【国際特許分類】
   G06T 7/00 20060101AFI20160303BHJP
   G06T 7/20 20060101ALI20160303BHJP
【FI】
   G06T7/00 100C
   G06T7/20 300A
【請求項の数】10
【全頁数】14
(21)【出願番号】特願2012-514787(P2012-514787)
(86)(22)【出願日】2011年5月9日
(86)【国際出願番号】JP2011060649
(87)【国際公開番号】WO2011142313
(87)【国際公開日】20111117
【審査請求日】2014年5月1日
(31)【優先権主張番号】特願2010-109409(P2010-109409)
(32)【優先日】2010年5月11日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】592161372
【氏名又は名称】日本システムウエア株式会社
(74)【代理人】
【識別番号】100105946
【弁理士】
【氏名又は名称】磯野 富彦
(72)【発明者】
【氏名】味香 聡
(72)【発明者】
【氏名】波田 陽子
【審査官】 新井 則和
(56)【参考文献】
【文献】 特開2010−028608(JP,A)
【文献】 特開2010−040052(JP,A)
【文献】 特開2009−205469(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00−7/60
(57)【特許請求の範囲】
【請求項1】
対象となる物体が含まれた動画像から該物体を認識する物体認識装置であって、
処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第1の基準色と、該処理対象のフレーム画像のRGBヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第1の基準色に対して最も離れたピークを示す第2の基準色とを特定する基準色特定手段と、
エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定手段と、
前記閉領域の中で、前記フレーム画像の1つ前に処理を行った画像フレームで特定された前記第1および第2の基準色を含み、かつ前記1つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識手段と、
を備えることを特徴とする物体認識装置。
【請求項2】
前記1つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定手段をさらに備え、
前記基準色特定手段と、前記閉領域特定手段と、前記対象物体認識手段は、前記処理対象領域のみに処理を行うことを特徴とする請求項1に記載の物体認識装置。
【請求項3】
前記対象物体認識手段が前記処理対象領域内に前記物体が存在しないと判断した場合に、前記処理対象領域決定手段が前記処理対象領域を前記フレーム画像の全領域まで拡大して、該拡大した領域内を基準色特定手段と、閉領域特定手段と、対象物体認識手段とが再度処理を行うことを特徴とする請求項2記載の物体認識装置。
【請求項4】
対象となる物体が含まれた動画像から該物体を認識する物体認識方法であって、
処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第1の基準色を特定する第1の基準色特定段階と、
前記処理対象のフレーム画像のRGBヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第1の基準色に対して最も離れたピークを示す第2の基準色を特定する第2の基準色特定段階と、
エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定段階と、
前記閉領域の中で、前記フレーム画像の1つ前に処理を行った画像フレームで特定された前記第1および第2の基準色を含み、かつ前記1つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識段階と、
を含むことを特徴とする物体認識方法。
【請求項5】
前記1つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定段階をさらに含み、
前記第1の基準色特定段階の処理と、前記第2の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理は、前記処理対象領域のみに行われることを特徴とする請求項4に記載の物体認識方法。
【請求項6】
前記対象物体認識段階で前記処理対象領域内に前記物体が存在しないと判断された場合に、前記処理対象領域を前記画像フレームの全領域まで拡大して、該拡大した領域内で前記第1の基準色特定段階の処理と、前記第2の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理とが再度行われることを特徴とする請求項5に記載の物体認識方法。
【請求項7】
請求項4ないし6の何れか一項に記載の物体認識方法を実行する電子回路。
【請求項8】
請求項7に記載の電子回路を搭載したジェスチャー認識装置。
【請求項9】
請求項4ないし6の何れか一項に記載の物体認識方法を処理装置に実行させるプログラム。
【請求項10】
請求項9に記載のプログラムを格納したコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像内の物体を認識するための装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体に関する。より詳細には、本発明は、単純な構成で動画像内の移動物体を認識可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体に関する。
【背景技術】
【0002】
パーソナルコンピュータなどの処理装置に所定の情報を入力する場合に、通常、ユーザインターフェース用のデバイスが使用される。このデバイスの主な例としては、キーボード、トラックボール、ジョイスティックなどが挙げられ、これらのデバイスによりユーザは容易に所望の情報を処理装置に入力することができる。
【0003】
しかし、処理装置を狭い机の上で使用する場合、あるいはハンディ機器として野外で使用する場合など、ユーザインターフェース用デバイスを使用するための十分な領域を確保できない場合がある。このような場合、近年ではジェスチャー認識装置が利用されている。ジェスチャー認識装置とは主にカメラとプログラムとによって実装され、ユーザの手や指の形状や動作を認識し、その形状や動作に従った処理を処理装置に行わせるものである。
【0004】
このジェスチャー認識装置は、カメラで撮像した画像に所定の処理を施し、その画像に写っているユーザの手や指の位置や形状を認識している。この画像処理技術で最も一般的なものとしてはテンプレートマッチングが挙げられる。テンプレートマッチングは、予めテンプレート画像として人間の手などの画像を用意し、撮像した画像に当該テンプレート画像と同一の部分があるかどうかを探索する手法である(特許文献1参照)。
【0005】
また、カメラが撮像した画像の中から対象の物体と同色の部分(対象の物体が人間の手ならば肌色の部分)を検出し、検出した箇所に対象の物体が存在していると判断する色検出技術もある(特許文献2参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第4444583号
【特許文献2】特許第4126721号
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記の手法には以下のような改善すべき不都合点がある。
テンプレートマッチング処理では、テンプレート画素と
カメラが撮像した画素の両画素を総当りで比較することになるため、処理に相当の時間が掛かってしまう。特に、動画像から移動物体を検出する場合には、処理量が膨大になり、処理装置の処理が動画像のフレームレートに追従できない可能性がある。
【0008】
色検出技術では、通常、処理量を抑えるために単一の色相を用いる。しかし、単色に見える物体でも実際には複数の色相から構成されている。また、太陽光、蛍光灯光などの外乱光の影響などで見る角度で物体の色が異なってしまう。また、画像内に対象の物体とほぼ同一の色相を有する対象外の物体が存在する場合には、その対象外の物体を誤って検出してしまう可能性がある。そのため、このような色検出技術では正確に対象の物体を検出できない恐れがある。
【0009】
本発明は上記の不都合を改善するために創案されたものであり、本発明の目的は、単純な構成で動画像内の移動物体を正確に認識することが可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体を提供することである。
【課題を解決するための手段】
【0010】
前記課題を解決するために創案された請求項1の発明は、対象となる物体が含まれた動画像から該物体を認識する物体認識装置である。当該物体認識装置は、処理対象のフレーム画像内の対象物が有する色相の中で最も広い面積を占める色相である第1の基準色と、該処理対象のフレーム画像のRGBヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第1の基準色に対して最も離れたピークを示す第2の基準色とを特定する基準色特定手段と、エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定手段と、前記閉領域の中で、前記フレーム画像の1つ前に処理を行った画像フレームで特定された前記第1および第2の基準色を含み、かつ前記1つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識手段と、を備える。
【0011】
前記課題を解決するために創案された請求項2の発明は、請求項1に記載の物体認識装置が、前記1つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定手段をさらに備え、前記基準色特定手段と、前記閉領域特定手段と、前記対象物体認識手段は、前記処理対象領域のみに処理を行う。
【0012】
前記課題を解決するために創案された請求項3の発明は、請求項2に記載の物体認識装置において、前記対象物体認識手段が前記処理対象領域内に前記物体が存在しないと判断した場合に、前記処理対象領域決定手段が前記処理対象領域を前記フレーム画像の全領域まで拡大して、該拡大した領域内を基準色特定手段と、閉領域特定手段と、対象物体認識手段とが再度処理を行う。
【0013】
前記課題を解決するために創案された請求項4の発明は、対象となる物体が含まれた動画像から該物体を認識する物体認識方法である。当該物体認識方法は、処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第1の基準色を特定する第1の基準色特定段階と、前記処理対象のフレーム画像のRGBヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第1の基準色に対して最も離れたピークを示す第2の基準色を特定する第2の基準色特定段階と、エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定段階と、前記閉領域の中で、前記フレーム画像の1つ前に処理を行った画像フレームで特定された前記第1および第2の基準色を含み、かつ前記1つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識段階と、を含む。
【0014】
前記課題を解決するために創案された請求項5の発明は、請求項4に記載の物体認識方法が、前記1つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定段階をさらに含み、前記第1の基準色特定段階の処理と、前記第2の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理は、前記処理対象領域のみに行われる。
【0015】
前記課題を解決するために創案された請求項6の発明は、請求項5に記載の物体認識方法において、前記対象物体認識段階で前記処理対象領域内に前記物体が存在しないと判断された場合に、前記処理対象領域を前記画像フレームの全領域まで拡大して、該拡大した領域内で前記第1の基準色特定段階の処理と、前記第2の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理とが再度行われる。
【0016】
前記課題を解決するために創案された請求項7の発明は、請求項4ないし6の何れか一項に記載の物体認識方法を実行する電子回路である。
【0017】
前記課題を解決するために創案された請求項8の発明は、請求項7に記載の電子回路を搭載したジェスチャー認識装置である。
【0018】
前記課題を解決するために創案された請求項9の発明は、請求項4ないし6の何れか一項に記載の物体認識方法を処理装置に実行させるプログラムである。
【0019】
前記課題を解決するために創案された請求項10の発明は、請求項9に記載のプログラムを格納したコンピュータ可読媒体である。
【0020】
従来の色検出の手法は、予め決められた単一の色を基準色として用いる。しかし、物体は単色に見えるものでも実際には複数の色で構成されているため、単一の基準色では確度の高い物体認識を行うことが難しい。そのため、請求項1および4の発明では2種類の基準色を用いている。また、この基準色として、色相から求めた第1の基準色と、RGBから求めた第2の基準色とを用いることで色検出の精度を高めている。
【0021】
位置する角度や、太陽光や蛍光灯光等の外乱光の影響により、同一の物体でも経時的にその色が変化して見える場合がある。そのため、基準色を固定してしまうと正確に色検出ができなくなる恐れがある。しかし、本発明では、フレーム画像毎に基準色を求め、対象のフレーム画像の1つ前のフレーム画像で求めた基準色を用いて当該対象のフレームを処理している。そのため、物体の経時的な色変化にも対応することができる。
【0022】
また、認識対象の物体が同一の色を有する他の物体と重なって位置した場合に、従来の色検出ではその物体と他の物体とを単一の物体として認識してしまう。しかし、本発明ではエッジ検出を行い、このような同一色を有する複数の物体が重なった場合でもそれぞれ独立した閉領域として取り扱う。
【0023】
さらに、認識対象の物体と同一の色を有する他の物体が存在する場合には、従来はどちらの物体が認識対象の物体か識別することが困難であった。しかし、本発明では、対象のフレーム画像の1つ前のフレーム画像で認識した物体と少なくとも一部が重複した位置に存在する閉領域を認識対象の物体として識別している。これは、通常の動画像は1秒間に数10枚以上撮像されるフレーム画像の群から構成されるため、たとえ物体がある程度の速度で移動しても、隣接するフレーム画像では必ずその物体は前のフレーム画像内の物体と重複する部分を有するという根拠に基づいている。
【0024】
動画像を取り扱う場合、1秒間に数10枚以上撮像されるフレーム画像をリアルタイムで処理せねばならない。したがって、物体認識装置の演算能力が低い場合には処理速度が動画像のフレームレートに追従できない可能性がある。そのため、請求項2および5の発明では、フレーム画像中の処理を行うエリアを限定して、物体認識装置の演算負荷を低減させている。
【0025】
しかし、仮に認識すべき物体が処理対象領域の外に移動してしまった場合は物体の認識が不可能となる。そのため、請求項3および6の発明では、処理対象領域内に認識対象の物体が存在しない場合には、処理対象領域をフレーム画像の全枠まで拡大させて再度処理を行う。これにより、物体認識の確度を向上させている。
【0026】
請求項7により、本発明を電子回路の形態で提供することが可能となる。
【0027】
請求項8により、本発明をジェスチャー認識装置の形態で提供することが可能となる。
【0028】
請求項9により、本発明をプログラムの形態で提供することが可能となる。
【0029】
請求項10により、本発明をコンピュータ可読媒体の形態で提供することが可能となる。
【発明の効果】
【0030】
本発明によって、複雑なアルゴリズムが不要で、それゆえ単純な構成で動画像内の移動物体を正確に認識することが可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体を提供することが可能となった。
【図面の簡単な説明】
【0031】
図1】本発明の一実施形態に係る色検出方法を説明するための図であり、(a)は検出対象の掌の画像であり、(b)は従来の単色検出方法で得られる掌画像であり、(c)は本発明の一実施形態に係る色検出方法で得られる掌画像である。
図2】本発明の一実施形態に係る閉領域特定方法を説明するための図であり、(a)は撮像対象であり、(b)は撮像した画像フレームと処理対象領域であり、(c)はラベリングした閉領域である。
図3】本発明の一実施形態に係る重複領域決定方法を説明するための図であり、(a)は処理する画像フレームの物体と、1つ前のフレーム画像の物体とを重ね合わせた図であり、(b)は(a)における重複領域のみを示した図であり、(c)は処理する画像フレーム全体と、重複領域とを示した図である。
図4】本発明の一実施形態に係る処理対象領域を説明するための図であり、(a)はフレーム画像であり、(b)は認識する物体を囲んだ領域であり、(c)は処理対象領域である。
図5】本発明の一実施形態に係る物体認識装置の機能ブロック図である。
図6】本発明の一実施形態に係る物体認識方法の初期設定を説明するための図であり、(a)は初期設定直前の画像であり、(b)は初期設定中の画像である。
図7】本発明の一実施形態に係る物体認識方法の初期設定の手順を示すフロー図である。
図8】本発明の一実施形態に係る物体認識方法の手順を示すフロー図である。
【発明を実施するための形態】
【0032】
本発明の一実施形態に係る物体認識装置の構成や機能について添付図面を参照して以下に詳細に説明する。この物体認識装置は動画像内の物体、特に移動物体の位置を認識する機能を有する。
本実施形態では認識の対象とする物体が自由空間を動く人間の手であることを前提として物体認識装置の構成及び機能を説明するが、対象の物体は人間の手に限定されるものではなく、如何なる物体も認識することが可能である。
本発明の一実施形態に係る物体認識装置は主に以下の4つの処理を実行している。まず、それぞれの処理の特徴について以下に説明する。
【0033】
[2つの基準色を用いた色検出処理]
図1(a)は認識対象の物体である人間の手が写った画像の例である。従来の技術において、画像内の人間の手を色検出する場合には、例えば0〜30°程度の色相を人間の肌色と仮定し、これに該当する色相部分を検索する。この手法により検索を行い、二値画像にした例を図1(b)に示す。このように、従来の色検出技術では、正確に人間の手を検出することができない。なぜならば、人間の手の肌色の度合いは、掌、甲など部分により異なり、また、太陽、蛍光灯光など外乱光の影響により経時的に変化する。したがって、本発明の一実施形態に係る物体認識装置は第1の基準色と第2の基準色とからなる2つの基準色を用いて色検出を行う。
【0034】
第1の基準色とは、画像内の認識対象の物体が有する色相のうち、最も広い範囲を占める色相である。第2の基準色とは、画像内の認識対象の物体を構成するすべての画素についてRGBのヒストグラムを生成し、所定の閾値を超える複数のピーク値の中から第1の基準色と最も離れたピークの色である。RGBのヒストグラムは、三原色のすべてを併せた画素数で作成する。また、所定の閾値は特に限定するものではないが、例えばピーク値の50%の値でよい。この手法により検出を行い、二値画像にした例を図1(c)に示すこのように、従来の色検出手法とは異なり、本発明の色検出手法を用いれば好適に物体を検出することができる。また、第1および第2の基準色は予め決定されるものではなく、フレーム画像ごとに求められる。これにより、色の経時変化にも対応することができる。
【0035】
[閉領域検出処理]
上記の色検出処理では、対象の物体とこの物体と同一の色を有する他の物体とが相互に接触した状態で配置されていた場合に、これらの物体を単一の物体として検出してしまう。例えば、図2(a)に示す状態で矩形の枠で囲まれた領域を撮像して得られた画像に上述の色検出処理を行うと、図2(b)に示す二値画像が得られる。この画像では、人間の手と顔の区分けができていないため、手および顔が単一の物体となり、手の部分だけを検出することができない。そこで、色検出で得られた領域に対してエッジ検出を行って複数の領域に分割する。詳細には、各画素における色情報を分析し、連結している画像に同一ラベルを付加することで複数の閉領域をグループ分けする。図2(c)は、この閉領域特定部50が閉領域をグループ分けして、ラベリングした例である。この図では、5つのグループが形成されており、認識対象の物体である手の部分はグループ1である。このように、認識対象の物体の周囲に同一色の別の物体と重なって存在しても混同すること無く、それぞれ区分けすることが可能となる。
【0036】
[重複閉領域検出処理]
上述の閉領域検出処理では、複数の閉領域が存在する場合にこの中のどの領域が対象の物体に相当するか判断することができない。そこで、現行のフレーム画像の1つ前に処理をしたフレーム画像の情報を用いて対象の物体に相当する閉領域を識別する。図3(a)に示すように、人間の手を自由空間で移動させた場合に、それを撮像した動画像の時間的に隣接する2つのフレーム画像を重ね合わせる。すると、図3(b)に示すような重複した部分が形成される。そこで、図3(c)のように、この重複した部分を有する閉領域を対象の物体として検出する。
【0037】
[処理対象領域画定処理]
この処理はオプションであり、処理全体に伴う装置の演算負荷を低減させることを目的とする。図4(a)に示したフレーム画像中に存在する対象の物体の位置を認識すると、図4(b)の点線で示すようにこの物体のエッジに隣接する矩形の領域を求める。次に、図4(c)に示すように、図4(b)の点線の領域よりも所定の面積だけ拡大した太字で示された領域を求め、この領域を処理対象領域とし、次のフレーム画像では上述のすべての処理はこの処理対象領域のみに行う。なお、ここで拡大する所定の面積は、特定の値に限定されるものではないが、本実施形態では20〜50%の範囲であることが望ましい。所定の面積が大きいほど物体を認識する確度は向上するが、その反面、処理する負荷量が増大してしまう。物体の移動速度や装置の演算能力などを考慮して最適な値を選択されたい。
以上の4つの処理を行う、本発明の物体認識装置の詳細な機能要素について以下に説明する。
【0038】
図5は、本発明の一実施形態に係る物体認識装置1000の機能ブロック図を示している。図示のように、物体認識装置1000は、機能要素として、フレーム画像受信部10と、処理対象領域抽出部20と、基準色取得部30と、二値画像生成部40と、閉領域特定部50と、重複閉領域選択部60と、処理対象領域決定部70と、基準色決定部80と、記憶部90と、から構成される。物体認識装置1000はパーソナルコンピュータ等の処理装置によって実装される。また、入力部には撮像装置が接続され、出力部には後段の装置が接続されている。撮像装置は、認識する対象の物体を所定のフレームレートで撮像し、その撮像したデータを所定の形式の動画像データとして出力する機能を有する。この撮像装置には汎用ビデオカメラを用いてよい。
【0039】
[フレーム画像受信部]
フレーム画像受信部10は、撮像装置から動画像データを受け取る機能を有する。具体的には、撮像装置が生成した所定の形式の動画像データを受け取り、必要に応じてその動画像データを後段の機能要素が処理可能なデータ形式に変換する。
【0040】
[処理対象領域抽出部]
処理対象領域抽出部20は、フレーム画像受信部10から受け取ったフレーム画像から処理対象領域に相当する部分の画像のみを抽出する機能を有する。この処理対象領域はフレーム画像ごとに一意に求められ、後述する処理対象領域決定部70によって決定され、記憶部90に格納されている。なお、使用される処理対象領域は、処理を行う画像フレームの1つ前に処理を行った画像フレームから求められたものである。抽出された画像部分は二値画像生成部40に送られる。
【0041】
[基準色取得部]
基準色取得部30は、記憶部90にアクセスして、該記憶部90に格納された第1の基準色と第2の基準色とを取得する機能を有する。この第1の基準色および第2の基準色はフレーム画像ごとに一意に求められ、後述する基準色決定部80によって決定され、記憶部90に格納されている。なお、使用される第1の基準色および第2の基準色は、処理を行う画像フレームの1つ前に処理を行った画像フレームから求められたものである。取得された第1の基準色と第2の基準色とは二値画像生成部40に送られる。
【0042】
[二値画像生成部]
二値画像生成部40は、処理対象領域抽出部20から受け取った画像部分を、基準色取得部30から受け取った第1の基準色および第2の基準色を用いて二値画像に変換する機能を有する。生成された二値画像は閉領域特定部50に送られる。
【0043】
[閉領域特定部]
閉領域特定部50は、二値画像生成部40が作成した二値画像の中の閉領域を検出し、その閉領域にラベリングをする機能を有する。ラベリングをした画像は重複閉領域選択部60へ送られる。
【0044】
[重複閉領域選択部]
重複閉領域選択部60は、閉領域特定部50がラベリングした閉領域の中から認識する物体に相当する閉領域を選択する機能を有する。具体的には、記憶部90に格納された1つ前に処理を行ったフレーム画像の情報を用い、当該1つ前のフレーム画像で認識した物体(手)が占めるエリアと、閉領域特定部50がラベリングした閉領域とを比較し、該物体のエリアと重なり合う閉領域を認識する物体と判断する。次いで、その物体に相当する閉領域を構成するすべての画素の座標を求め、この座標情報を後段の装置に出力すると共に、記憶部90に格納する。
【0045】
[処理対象領域決定部]
処理対象領域決定部70は、重複閉領域選択部60が認識すべき物体として判断した閉領域を基に、次の画像フレームにおける処理対象領域を求める機能を有する。求めた処理対象領域は記憶部90に格納される。
【0046】
[基準色決定部]
基準色決定部80は、重複閉領域選択部60が認識すべき物体として判断した閉領域から次の画像フレームの処理で用いる第1および第2基準色を求める機能を有する。求めた第1および第2基準色は記憶部90に格納される。
【0047】
[記憶部]
記憶部90は、認識した物体の画素座標、第1および第2の基準色、処理対象領域などを格納する機能を有し、ハードディスク、メモリ、各種のディスク等で実装される。
【0048】
以上が本発明の一実施形態に係る物体認識装置1000の有する主な機能である。次に、この物体認識装置1000が実行する物体認識方法について説明する。
本発明の一実施形態に係る物体認識方法では、最初に初期設定を行わなければならない。初期設定は、物体認識装置1000に処理の開始の意志を示し、認識対象となる物体を把握させることを目的とする。以下、図7および図8のフロー図を参照して、この初期設定について説明する。
【0049】
まず、ユーザは、物体認識装置1000に接続された撮像装置に対向し、その撮像装置が撮像する画像内に画定された所定のエリア(第1エリア)内に認識対象の物体である右手が収まるように配置させる(図6(b)参照)(ステップS10)。このとき、エリア内に右手が十分に収まるように、ユーザが移動して右手の位置を調整してもよく、あるいは撮像装置のズームを調整してもよい。また、右手が顔と重ならないようにし、できる限り右手の背景には他の物体が存在しないようにする。
また、ユーザが正対した時、顔認識により顔の位置を特定し、顔の右側に対象となる手を開いてかざすことにより開始する様にしてもよい。
【0050】
以上の状態で撮像装置がユーザを撮像して、その画像を物体認識装置1000が受け取る(ステップS20)。この撮像画像から第1エリアを所定面積だけ拡大した最初の処理対象領域を求める(ステップS30)。次いで、撮像画像内の認識対象の物体である右手の最初の第1および第2の基準色を求める(ステップS40)。さらに、当該第2エリア内の閉領域を求める(ステップS50)。ここで、第1エリア内にはユーザの右手以外の物体は存在しないため、検出された閉領域はユーザの右手に相当する。最後に求めた最初の第1および第2の基準色および最初の処理対象領域、並びに物体の画素座標の情報を記憶部90に格納する(ステップS60)。
【0051】
以上の所定設定が終了すると、物体認識装置1000が物体認識方法を行う。この方法の手順を図8のフロー図に示す。
最初に、撮像装置が右手を継続的に撮像し、撮像した動画像をフレーム画像受信部10に送付する。フレーム画像受信部10がその動画像を受け取ると(ステップS100)、この動画像を構成するフレーム画像を順次、処理対象領域抽出部20に転送する。
【0052】
フレーム画像を受け取った処理対象領域抽出部20は、記憶部90にアクセスして1つ前のフレーム画像で求めた処理対象領域に関する情報を取得する(ステップS110)。そして、受け取ったフレーム画像から所得した処理対象領域に相当するエリアの画像部分を抽出して二値画像生成部40に渡す(ステップS120)。それと同時に、基準色取得部30は、記憶部90にアクセスして1つ前のフレーム画像で求めた第1の基準色および第2の基準色に関する情報を取得し、これを二値画像生成部40に転送する(ステップS130)。
【0053】
二値画像生成部40は、基準色取得部30から受け取った第1および第2の基準色を用いて、処理対象領域抽出部20から受け取った画像に対して二値画像処理を行う(ステップS140)。
【0054】
二値画像生成部40が二値画像を生成すると、閉領域特定部50がその二値画像内におけるすべての閉領域を識別する(ステップS150)。次いで、重複閉領域選択部60が記憶部90にアクセスして1つ前のフレーム画像で認識した右手の画素座標を取得し、この画素座標で形成されるエリアと重複する閉領域があるかどうかを調べる(ステップS160)。
【0055】
重複した閉領域が存在する場合には(ステップS170で「YES」)、その重複した閉領域が右手、すなわち認識すべき物体であると判断する(ステップS180)。そして、認識した物体の画素座標を後段の装置に出力すると共に記憶部90に格納する。一方、重複した閉領域が存在しない場合には(ステップS170で「NO」)、認識すべき物体が処理対象領域外に移動したことを意味するため、処理対象領域を画像フレームの枠全体まで拡大して(ステップS190)、再度ステップS140ないしS180の処理を行う。
【0056】
最後に、処理対象領域決定部70が認識した物体の大きさを基に次のフレーム画像で用いる処理対象領域を求め(ステップS200)、基準色決定部80が認識した物体から次のフレーム画像で用いる第1および第2の基準色を求め(ステップS210)、求めた処理対象領域と第1および第2の基準色を記憶部90に格納する(ステップS220)。以上で物体認識処理を終了する。
【0057】
以上に渡って本発明の一実施形態に係る物体認識装置1000およびこの装置によって行われる物体認識方法について説明をしたが、本発明はこの実施形態に限定されるものではない。
【0058】
例えば、物体認識装置1000が行う色検出では、最大色相である第1の基準色と、RGBのピーク値である第2の基準色を用いているが、本発明はこの内容に限定されるものではない。代替的に、2番目に高い色相やRGBの2番目のピーク値がなどを第3、第4の基準色と設定して色検出を行ってもよい。このように3種以上の基準色を用いることは、認識する物体が複数の色の組み合わせから構成される場合には特に有用である。
【0059】
また、本実施形態では、図8のフロー図のステップS170の処理で重複する閉領域が存在しない場合、ステップS190で処理対象領域をフレーム画像の枠まで拡大する処理を行っているが、本発明はこの手順に限定されるものではない。代替的に、処理対象領域を所定の割合、例えば面積比で10%ずつ段階的に拡大させて、重複する閉領域が見つかるまでステップS140ないしS180の手順を繰り返してもよい。
【0060】
本発明の一実施形態に係る物体認識装置1000は、認識する物体の位置を検出する機能を有しているが、本発明はこの機能に限定されるものでない。例えば、本発明の物体認識装置1000は、認識する物体の位置に加えてその形状を検出してもよい。例えば、右手の領域の重心およびエッジを求めて右手の形状、例えば、パー、グーなどを識別し、この形状に対応するコマンドの実行、あるいはパルス波形を出力するなどの機能を追加してもよい。
【0061】
本発明の一実施形態に係る物体認識装置1000は、ユーザインターフェース用のジェスチャー認識装置に好適に適用することができるが、その用途は特定のものに限定されるものではなく、様々な物体を認識する用途に用いることができる。
【0062】
本発明の一実施形態に係る物体認識装置1000が有する機能は、特定のハードウェア資源またはソフトウェア処理に限定されないことに留意されたい。すなわち、この機能を実現できる限り、如何なるハードウェア(電子回路等)、ソフトウェア(プログラム)、あるいはそれらの組み合わせ等を用いてよい。
【0063】
上述した本発明の一実施形態に係る物体認識方法を、プログラムとして実装する場合には、このプログラムを外部のサーバ等から該方法を実行する情報処理装置にダウンロードするか、あるいはコンピュータ可読媒体の形態で分配されることが好ましい。コンピュータ可読媒体の例としては、CD−ROM、DVD、磁気テープ、フレキシブルディスク、光磁気ディスク、ハードディスク、メモリ媒体などが挙げられる。
【0064】
以上、本発明を図面に示した実施形態を用いて説明したが、これらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から逸脱しない範囲で多様な変更および変形が可能なことは理解できるであろう。したがって、本発明の範囲は、説明された実施形態によって定められず、特許請求の範囲に記載された技術的趣旨により定められねばならない。
【符号の説明】
【0065】
10 フレーム画像受信部
20 処理対象領域抽出部
30 基準色取得部
40 二値画像生成部
50 閉領域特定部
60 重複閉領域選択部
70 処理対象領域決定部
80 基準色決定部
90 記憶部
1000 物体認識装置
図1
図2
図3
図4
図5
図6
図7
図8