特許7537470 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ カシオ計算機株式会社の特許一覧

特許7537470情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-13

(45)【発行日】2024-08-21

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20240814BHJP

【ＦＩ】

G06T7/20 300A

【請求項の数】 9

(21)【出願番号】P 2022101126

(22)【出願日】2022-06-23

(65)【公開番号】P2024002121

(43)【公開日】2024-01-11

【審査請求日】2023-06-07

(73)【特許権者】

【識別番号】000001443

【氏名又は名称】カシオ計算機株式会社

(74)【代理人】

【識別番号】110001254

【氏名又は名称】弁理士法人光陽国際特許事務所

(72)【発明者】

【氏名】井上聖

【審査官】合田幸裕

(56)【参考文献】

【文献】特開２０１７－０８４３１９（ＪＰ，Ａ）

【文献】特開２０１８－１０７６４２（ＪＰ，Ａ）

【文献】特開２０１１－１７５３４７（ＪＰ，Ａ）

【文献】特開２０２２－０８１８０８（ＪＰ，Ａ）

【文献】特開２０１５－０４２２４１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１４／０１４０６１３（ＵＳ，Ａ１）

【文献】中国特許出願公開第１０９２７２５１３（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／２０

ＩＥＥＥＸｐｌｏｒｅ

ＪＳＴＰｌｕｓ（ＪＤｒｅａｍＩＩＩ）

(57)【特許請求の範囲】

【請求項1】

被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する処理部を備え、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記処理部は、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する、
情報処理装置。

【請求項2】

前記処理部は、前記深度画像のうち前記第１領域に対応する画素の深度情報に基づいて前記第１深度条件を決定する、請求項１に記載の情報処理装置。

【請求項3】

前記第２深度条件は、画素の深度が、前記第３領域に対応する画素の深度の代表値を含む所定範囲に入っていること、である、請求項１に記載の情報処理装置。

【請求項4】

前記処理部は、前記深度画像のうち前記第３領域に対応する領域の大きさに基づいて前記所定範囲の幅を決定する、請求項３に記載の情報処理装置。

【請求項5】

前記処理部は、前記重複範囲のうち、前記第３領域と、前記第４領域に対応する領域のうち前記第３領域と一繋がりである部分と、を含む領域を前記検出対象として検出する、
請求項１に記載の情報処理装置。

【請求項6】

前記処理部は、
前記カラー画像のうち前記第３領域に対応する画素の色情報に基づいて第２色条件を決定し、
前記深度画像の前記第２領域のうち、前記カラー画像において画素の色情報が前記第２色条件を満たす領域と対応する第５領域を特定し、
前記重複範囲のうち、前記第３領域と、前記深度画像の前記第５領域に対応する領域と、を含む領域を前記検出対象として検出する、
請求項１～５のいずれか一項に記載の情報処理装置。

【請求項7】

前記処理部は、前記重複範囲のうち、前記第３領域と、前記第５領域に対応する領域のうち前記第３領域と一繋がりである部分と、を含む領域を前記検出対象として検出する、
請求項６に記載の情報処理装置。

【請求項8】

情報処理装置のコンピュータが実行する情報処理方法であって、
被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少
なくとも一部である検出対象を検出する検出工程を備え、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記検出工程では、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する、
情報処理方法。

【請求項9】

情報処理装置のコンピュータに、
被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得する処理と、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少
なくとも一部である検出対象を検出する検出処理と、を実行させるプログラムであって、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記検出処理では、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

従来、操作者のジェスチャーを検出し、検出されたジェスチャーに応じて機器の動作を制御する技術がある。この技術では、操作者の体のうちジェスチャーを行う特定の一部（例えば、手）を検出する必要がある。操作者の体の一部を検出する方法の一つとして、操作者を撮影した画像の色を解析する方法が知られている。例えば、特許文献１には、操作者を撮影した画像において、色相、彩度及び明度の各々について閾値処理を行うことで肌の色の領域を抽出し、抽出された領域を手の領域とみなす技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－２５０４８２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、画像における手などの検出対象の色は、照明の色や輝度、及び光源との位置関係による陰のでき方などによって変化するため、色相、彩度及び明度といった色を指定するパラメータの閾値を一律に定めた閾値処理では検出漏れが生じやすい。また、操作者の背景の色が検出対象の色となっている場合には、背景が検出対象として誤検出されてしまう。このように、画像の色情報のみでは検出対象を精度よく検出することができないという課題がある。

【0005】

この発明の目的は、より高精度に検出対象を検出することができる情報処理装置、情報処理方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0006】

上記課題を解決するため、本発明に係る情報処理装置は、
被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する処理部を備え、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記処理部は、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する。

【0007】

上記課題を解決するため、本発明に係る情報処理方法は、
被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する検出工程を備え、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記検出工程では、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する。

【0008】

上記課題を解決するため、本発明に係るプログラムは、
情報処理装置のコンピュータに、
被写体を撮影して色情報を含むカラー画像と、深度情報を含む深度画像とを複数取得する処理と、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する検出処理と、を実行させるプログラムであって、
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記検出処理では、
前記カラー画像のうち、画素の色情報が前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を特定し、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する。

【発明の効果】

【0009】

本発明によれば、より高精度に検出対象を検出することができる。

【図面の簡単な説明】

【0010】

【図1】情報処理システムの構成を示す模式図である。

【図2】カラーカメラによるカラー画像の撮影範囲、及び深度カメラによる深度画像の撮影範囲を示す図である。

【図3】情報処理装置の機能構成を示すブロック図である。

【図4】機器制御処理の制御手順を示すフローチャートである。

【図5】手検出処理の制御手順を示すフローチャートである。

【図6】手検出処理における第１領域～第３領域の特定方法を説明する図である。

【図7】手検出処理における第４領域の追加動作を説明する図である。

【図8】手検出処理における第５領域の追加動作を説明する図である。

【発明を実施するための形態】

【0011】

以下、本発明の実施の形態を図面に基づいて説明する。

【0012】

＜情報処理システムの概要＞
図１は、本実施形態の情報処理システム１の構成を示す模式図である。
情報処理システム１は、情報処理装置１０と、撮影装置２０と、プロジェクタ８０とを備える。情報処理装置１０は、無線又は有線により撮影装置２０及びプロジェクタ８０と通信接続されており、撮影装置２０及びプロジェクタ８０との間で、制御信号や画像データ等のデータの送受信を行うことが可能となっている。

【0013】

情報処理システム１の情報処理装置１０は、操作者７０（被写体）が手７１（検出対象）によって行うジェスチャーを検出し、検出したジェスチャーに応じてプロジェクタ８０の動作（画像の投影動作や、各種設定を変更する動作等）を制御する。詳しくは、撮影装置２０は、撮影装置２０の正面に位置する操作者７０を撮影して、撮影画像の画像データを情報処理装置１０に送信する。情報処理装置１０は、撮影装置２０から受信した画像データを解析して、操作者７０が、手７１によって所定のジェスチャーを行ったか否かを判別する。情報処理装置１０は、操作者７０が、手７１によって所定のジェスチャーを行ったと判別すると、制御信号をプロジェクタ８０に送信し、検出したジェスチャーに応じた動作を行うようにプロジェクタ８０を制御する。これにより、例えば、操作者７０が手７１を右側に動かすジェスチャーを行うことで、プロジェクタ８０が投影している画像Ｉｍを次の画像Ｉｍに切り替え、手７１を左側に動かすジェスチャーを行うことで、画像Ｉｍを１つ前の画像Ｉｍに切り替える、といった直感的な操作が可能となる。

【0014】

＜情報処理システムの構成＞
情報処理システム１の撮影装置２０は、カラーカメラ３０及び深度カメラ４０を備える。
カラーカメラ３０は、操作者７０及びその背景を含む撮影範囲を撮影して、撮影範囲の二次元のカラー画像に係るカラー画像データ１３２（図３参照）を生成する。カラー画像データ１３２の各画素は、色情報を含む。本実施形態では、色情報は、Ｒ（赤）、Ｇ（緑）、及びＢ（青）についての階調値の組み合わせである。カラーカメラ３０は、例えば、画素ごとに、Ｒ、Ｇ、Ｂのカラーフィルタを透過した光の強度をそれぞれ検出する撮像素子（ＣＣＤセンサ又はＣＭＯＳセンサ等）を有し、これらの撮像素子の出力に基づいて１つの画素の色情報を生成する。ただし、カラーカメラ３０の構成は、各画素の色情報を含むカラー画像データ１３２を生成可能なものであれば、上記の構成に限定されない。また、カラー画像データ１３２の色情報の表現形式はＲＧＢ系に限られない。

【0015】

深度カメラ４０は、操作者７０及びその背景を含む撮影範囲を撮影して、撮影範囲の深度情報を含む深度画像に係る深度画像データ１３３（図３参照）を生成する。深度画像は、各画素が、操作者７０及び背景の構造物（以下、「測距対象物」と記す）の奥行き（深度カメラ４０から測距対象物までの距離）に係る深度情報を含む。深度カメラ４０としては、例えば、ＴＯＦ（Time Of Flight）方式で距離を検出するもの、又はステレオ方式で距離を検出するものなどを用いることができる。このうちＴＯＦ方式では、光源から照射された光が測距対象物で反射して深度カメラ４０に戻ってくるまでの時間に基づいて測距対象物との距離を検出する。また、ステレオ方式では、異なる位置に設けられた２つのカメラで測距対象物を撮影し、各カメラによる撮影画像における測距対象物の位置の差分（視差）に基づいて、三角測量法の原理により測距対象物との距離を検出する。ただし、深度カメラ４０による距離の検出方式は、ＴＯＦ方式及びステレオ方式に限られない。

【0016】

撮影装置２０のカラーカメラ３０及び深度カメラ４０は、撮影装置２０の正面に位置する操作者７０を所定のフレームレートで連続して撮影する。図１に示す撮影装置２０では、カラーカメラ３０及び深度カメラ４０が一体的に設けられているが、各カメラが操作者７０を撮影可能であれば、この構成に限定されない。例えば、カラーカメラ３０及び深度カメラ４０が別個となっている構成であってもよい。

【0017】

図２は、カラーカメラ３０によるカラー画像３１の撮影範囲、及び深度カメラ４０による深度画像４１の撮影範囲を示す図である。
カラーカメラ３０及び深度カメラ４０は、撮影範囲（画角）が等しいことが好ましい。ただし、図２に示すように、カラーカメラ３０によるカラー画像３１の撮影範囲と、深度カメラ４０による深度画像４１の撮影範囲とがずれていてもよく、撮影範囲が重複する部分（以下、「重複範囲５１」と記す）を有していればよい。すなわち、カラーカメラ３０及び深度カメラ４０は、カラー画像３１及び深度画像４１の撮影範囲が重複する重複範囲５１において操作者７０を撮影可能となるように位置関係及び向きが定められていればよい。本実施形態では、カラー画像３１及び深度画像４１が、「被写体を撮影して得られた画像」に相当する。

【0018】

後述する手７１の検出処理を可能とするために、重複範囲５１において、カラー画像３１の画素と、深度画像４１の画素との対応付けがなされている。すなわち、重複範囲５１において、カラー画像３１の各画素に対応する深度画像４１の画素を特定可能であり、深度画像４１の各画素に対応するカラー画像３１の画素を特定可能である。画素の対応付けは、同時に（撮影のフレーム周期以下のずれが生じている場合を含む）撮影されたカラー画像３１及び深度画像４１に基づいて、公知の画像解析技術により対応点を特定することにより行ってもよいし、カラーカメラ３０及び深度カメラ４０の位置関係及び向きに基づいて予め対応付けを行ってもよい。また、カラー画像３１の１つの画素に対して深度画像４１の２以上の画素が対応していてもよく、深度画像４１の１つの画素に対してカラー画像３１の２以上の画素が対応していてもよい。よって、カラーカメラ３０及び深度カメラ４０の解像度は、必ずしも一致していなくてもよい。
また、後述する第１マスク画像６１～第５マスク画像６５は、重複範囲５１を含む大きさで生成される。
本実施形態では、カラー画像３１及び深度画像４１の撮影範囲が同一となるようにカラーカメラ３０及び深度カメラ４０の位置関係及び向きが調整されている場合を例に挙げて説明する。よって、カラー画像３１及び深度画像４１の全体が重複範囲５１となっているものとする。また、カラーカメラ３０及び深度カメラ４０の解像度が同一であり、カラー画像３１の画素と深度画像４１の画素とが１対１に対応付けられているものとする。よって、本実施形態では、後述する第１マスク画像６１～第５マスク画像６５は、カラー画像３１及び深度画像４１と同一の解像度及び大きさの画像である。

【0019】

図３は、情報処理装置１０の機能構成を示すブロック図である。
情報処理装置１０は、ＣＰＵ１１（Central Processing Unit）と、ＲＡＭ１２（Random Access Memory）と、記憶部１３と、操作部１４と、表示部１５と、通信部１６と、バス１７などを備える。情報処理装置１０の各部は、バス１７を介して接続されている。情報処理装置１０は、本実施形態ではノートＰＣであるが、これに限られず、例えば据置型のＰＣ、スマートフォン、又はタブレット型端末などであってもよい。

【0020】

ＣＰＵ１１は、記憶部１３に記憶されているプログラム１３１を読み出して実行し、各種演算処理を行うことで、情報処理装置１０の動作を制御するプロセッサである。ＣＰＵ１１は、「処理部」に相当する。なお、情報処理装置１０は、複数のプロセッサ（複数のＣＰＵ等）を有していてもよく、本実施形態のＣＰＵ１１が実行する複数の処理を、当該複数のプロセッサが実行してもよい。この場合には、複数のプロセッサが「処理部」に相当する。また、この場合において、複数のプロセッサが共通の処理に関与してもよいし、あるいは、複数のプロセッサが独立に異なる処理を並列に実行してもよい。

【0021】

ＲＡＭ１２は、ＣＰＵ１１に作業用のメモリ空間を提供し、一時データを記憶する。

【0022】

記憶部１３は、コンピュータとしてのＣＰＵ１１により読み取り可能な非一時的な記録媒体であり、プログラム１３１及び各種データを記憶する。記憶部１３は、例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の不揮発性メモリを含む。プログラム１３１は、コンピュータが読み取り可能なプログラムコードの形態で記憶部１３に格納されている。記憶部１３に記憶されるデータとしては、撮影装置２０から受信したカラー画像データ１３２及び深度画像データ１３３、並びに、後述する手検出処理で生成される第１マスク画像６１～第５マスク画像６５に係るマスク画像データ１３４などがある。

【0023】

操作部１４は、表示部１５の表示画面に重ねられて設けられたタッチパネル、物理ボタン、マウスなどのポインティングデバイス、及びキーボードなどの入力装置のうち少なくとも１つを有し、入力装置に対する入力操作に応じた操作情報をＣＰＵ１１に出力する。

【0024】

表示部１５は、液晶ディスプレイなどの表示装置を備え、ＣＰＵ１１からの表示制御信号に従って表示装置において各種表示を行う。

【0025】

通信部１６は、ネットワークカード又は通信モジュール等により構成され、撮影装置２０及びプロジェクタ８０との間で所定の通信規格に従ってデータの送受信を行う。

【0026】

図１に示すプロジェクタ８０は、投影画像の画像データに応じた強度分布の投影光を高指向性で照射することにより、投影面に画像Ｉｍを投影（形成）する。詳しくは、プロジェクタ８０は、光源と、当該光源から出力された光の強度分布を調整して光像を形成するデジタルマイクロミラー素子（ＤＭＤ）等の表示素子と、表示素子が形成した光像を集光して画像Ｉｍとして投影する投影レンズ群などを備える。プロジェクタ８０は、撮影装置２０から送信される制御信号に従って、投影する画像Ｉｍを変更したり、投影態様に係る設定（明るさ、色合い等）を変更したりする。

【0027】

＜情報処理システムの動作＞
次に、情報処理システム１の動作について説明する。
情報処理装置１０のＣＰＵ１１は、或る期間に亘ってカラーカメラ３０が撮影した複数のカラー画像３１（カラー画像データ１３２）と、上記或る期間に亘って深度カメラ４０が撮影した複数の深度画像４１とを解析して、各画像に映っている操作者７０が、手７１（手首から先の部分）によって所定のジェスチャーを行ったか否かを判別する。ＣＰＵ１１は、操作者７０の手７１によってジェスチャーが行われたと判別すると、検出したジェスチャーに応じた動作をプロジェクタ８０に行わせるための制御信号をプロジェクタ８０に送信する。

【0028】

ここで、手７１によるジェスチャーは、例えば、操作者７０から見て手７１を或る方向（右方向、左方向、下方向、及び上方向等）に動かしたり、所定の形状の軌跡（円形等）を描くように手７１を動かしたりする動作などである。これらの各ジェスチャーには、プロジェクタ８０の１つの動作が予め対応付けられている。例えば、手７１を右方向に動かすジェスチャーに、投影されている画像Ｉｍを次の画像Ｉｍに切り替える動作を対応付け、手７１を左方向に動かすジェスチャーに、投影されている画像Ｉｍを１つ前の画像Ｉｍに切り替える動作を対応付けてもよい。この場合には、手７１を右方向／左方向に動かすジェスチャーを行うことで、投影画像を次の画像／前の画像に切り替えることができる。これらはジェスチャーとプロジェクタ８０の動作との対応付けの一例であり、任意のジェスチャーに、プロジェクタ８０の任意の動作を対応付けることができる。また、操作部１４に対するユーザ操作に応じて、ジェスチャーとプロジェクタ８０の動作との対応付けを変更したり、新たな対応付けを生成したりすることが可能であってもよい。

【0029】

このように操作者７０の手７１のジェスチャーによりプロジェクタ８０を操作する場合には、撮影装置２０が撮影した画像において手７１を正確に検出することが重要となる。手７１を正しく検出できなければ、ジェスチャーを正しく認識することができず、操作性が激しく低下するためである。

【0030】

従来、操作者７０を撮影した画像の色を解析することで、画像に映っている手７１を検出する方法が知られている。しかしながら、画像における手７１の色は、照明の色や輝度、及び光源との位置関係による陰のでき方などによって変化するため、色情報のみを用いると検出漏れが生じやすい。また、操作者７０の背景の色が手７１の色に近い場合には、背景が手７１として誤検出されてしまう。このように、画像の色情報のみでは手７１を精度よく検出することができない。

【0031】

そこで、本実施形態の情報処理システム１では、カラー画像３１に加えて深度画像４１を用いることで、手７１の検出精度を高めている。詳しくは、情報処理装置１０のＣＰＵ１１は、カラー画像３１の画素の色情報を取得し、深度画像４１の画素の深度情報を取得し、これらの色情報及び深度情報に基づいて、カラー画像３１及び深度画像４１に共通して含まれる、操作者７０の手７１を検出する。

【0032】

以下、図４～図８を参照して、情報処理装置１０のＣＰＵ１１が、操作者７０のジェスチャーを検出してプロジェクタ８０の動作を制御する動作について説明する。ＣＰＵ１１は、上記動作を実現するために、図４に示す機器制御処理、及び図５に示す手検出処理を実行する。

【0033】

図４は、機器制御処理の制御手順を示すフローチャートである。
機器制御処理は、例えば、情報処理装置１０、撮影装置２０及びプロジェクタ８０の電源が投入され、プロジェクタ８０を操作するためのジェスチャーの受け付けが開始された場合に実行される。

【0034】

機器制御処理が開始されると、ＣＰＵ１１は、撮影装置２０に制御信号を送信して、カラーカメラ３０及び深度カメラ４０による撮影を開始させる（ステップＳ１０１）。撮影が開始されると、ＣＰＵ１１は、手検出処理を実行する（ステップＳ１０２）。

【0035】

図５は、手検出処理の制御手順を示すフローチャートである。
図６は、手検出処理における第１領域Ｒ１～第３領域Ｒ３の特定方法を説明する図である。
手検出処理が開始されると、ＣＰＵ１１は、カラーカメラ３０により撮影されたカラー画像３１のカラー画像データ１３２、及び、深度カメラ４０により撮影された深度画像４１の深度画像データ１３３を取得する（ステップＳ２０１）。
図６の上段左側に、操作者７０を撮影したカラー画像３１の例が示されている。図６のカラー画像３１では、操作者７０の背景は省略されている。
図６の上段右側に、操作者７０を撮影した深度画像４１の例が示されている。図６の深度画像４１では、深度カメラ４０から測距対象物までの距離が、濃度によって表されている。詳しくは、深度カメラ４０から測距対象物までの距離が遠い画素ほど濃くなるように描かれている。

【0036】

ＣＰＵ１１は、カラー画像３１及び深度画像４１の重複範囲５１において、カラー画像３１の画素と、深度画像４１の画素とを対応付ける（ステップＳ２０２）。ここでは、例えば、カラー画像３１及び深度画像４１に対して所定の画像解析処理を行って対応点を特定する方法などを用いることができる。ただし、カラーカメラ３０及び深度カメラ４０の位置関係及び向き等に基づいて予め画素の対応付けがなされている場合には、本ステップは省略することができる。本実施形態では、上述のとおり、カラー画像３１及び深度画像４１の解像度及び撮影範囲が同一であり（すなわち、カラー画像３１及び深度画像４１の全体が重複範囲５１となっており）、予めカラー画像３１及び深度画像４１の画素が１対１に対応付けられているため、本ステップは省略される。

【0037】

ＣＰＵ１１は、カラー画像３１の色情報を、ＲＧＢ系からＨＳＶ系に変換する（ステップＳ２０３）。ＨＳＶ系では、色相（Ｈ）、彩度（Ｓ）及び明度（Ｖ）の３つの成分で表される色空間において色が表される。ＨＳＶ系を用いることで、肌の色を特定した閾値処理が容易になる。肌の色は、主に色相に反映されるためである。なお、ＨＳＶ系以外の表色系に変換してもよい。また、本ステップを省略し、ＲＧＢ系のままで以降の処理を実行してもよい。

【0038】

ＣＰＵ１１は、カラー画像３１のうち、画素の色情報が、手７１の色（肌の色）に係る第１色条件を満たす第１領域Ｒ１を特定する（ステップＳ２０４）。ここで、第１色条件は、画素の色情報が、ＨＳＶ系において肌の色を含む第１色範囲に入っている場合に満たされる。第１色範囲は、色相、彩度及び明度の各上限値及び下限値（閾値）によって表され、機器制御処理の開始前に予め定められて記憶部１３に記憶されている。なお、第１色範囲はユーザが任意に設定可能である。ステップＳ２０４では、ＣＰＵ１１は、カラー画像３１の各画素に対し、当該画素の色情報により表される色（色相、彩度及び明度）が第１色範囲に入っているか否かを判別する閾値処理を実行する。そして、色情報により表される色が第１色範囲に入っている画素からなる領域を、第１領域Ｒ１として特定する。また、ＣＰＵ１１は、第１領域Ｒ１に対応する画素の画素値を「１」とし、第１領域Ｒ１以外の領域に対応する画素の画素値を「０」とした、２値の第１マスク画像６１を生成する。第１マスク画像６１は、重複範囲５１に対応する大きさで生成され、その画像データは、記憶部１３のマスク画像データ１３４に記憶される（後述する第２マスク画像６２～第５マスク画像６５についても同様）。

【0039】

図６の中段左側には、カラー画像３１に基づいて生成された第１マスク画像６１が示されている。図６の第１マスク画像６１では、画素値が「１」となっている画素が白色で表され、画素値が「０」となっている画素が黒色で表されている（後述する第２マスク画像６２～第５マスク画像６５についても同様）。第１マスク画像６１では、カラー画像３１において肌の色となっている顔及び手７１の部分の画素値が「１」となる。また、顔及び手７１以外の部分の画素値が「０」となる。

【0040】

図５のステップＳ２０４が終了すると、ＣＰＵ１１は、深度画像４１のうち、画素の深度情報が、手７１の奥行きに係る第１深度条件を満たす第２領域Ｒ２を特定する（ステップＳ２０５）。ここで、第２深度条件は、画素の深度情報により表される深度（深度カメラ４０からの距離）が、予め定められた第１深度範囲に入っている場合に満たされる。第１深度範囲は、ジェスチャーを行う操作者７０の手７１が通常位置する深度範囲が含まれるように定められ、上限値及び下限値（閾値）によって表される。一例を挙げると、第１深度範囲は、深度カメラ４０から５０ｃｍ以上かつ１ｍ以下といった値に設定することができる。第１深度範囲は、予め定められて記憶部１３に記憶されている。なお、第１深度範囲はユーザが任意に設定可能である。ステップＳ２０４では、ＣＰＵ１１は、深度画像４１の各画素に対し、当該画素の深度情報により表される深度が第１深度範囲に入っているか否かを判別する閾値処理を実行する。そして、深度情報により表される深度が第１深度範囲に入っている画素からなる領域を、第２領域Ｒ２として特定する。また、ＣＰＵ１１は、第２領域Ｒ２に対応する画素の画素値を「１」とし、第２領域Ｒ２以外の領域に対応する画素の画素値を「０」とした、２値の第２マスク画像６２を生成する。第１マスク画像６１の画素と第２マスク画像６２の画素とは１対１に対応する。

【0041】

図６の中段右側には、深度画像４１に基づいて生成された第２マスク画像６２が示されている。図６に示す第２マスク画像６２では、深度画像４１における手７１のうち親指の部分を除いた一部、及び手首（服の袖の一部）の部分に相当する画素の画素値が「１」となっており、他の部分の画素の画素値が「０」となっている。

【0042】

なお、第１深度条件は、深度画像４１のうち、ステップＳ２０４で特定された第１領域Ｒ１に対応する画素の深度情報に基づいてＣＰＵ１１が決定してもよい。例えば、第１領域Ｒ１のうち最も面積の大きい領域を特定し、深度画像４１のうち当該領域と対応する領域の深度の代表値（平均値又は中央値等）を中心とする所定幅の深度範囲を、第１深度範囲としてもよい。

【0043】

図５のステップＳ２０５が終了すると、ＣＰＵ１１は、第１領域Ｒ１及び第２領域Ｒ２のいずれにも重なる第３領域Ｒ３があるか否かを判別する（ステップＳ２０６）。すなわち、ＣＰＵ１１は、第１マスク画像６１及び第２マスク画像６２の対応する画素同士がいずれも「１」となっている領域があるか否かを判別する。第３領域Ｒ３があると判別された場合には（ステップＳ２０６で“ＹＥＳ”）、ＣＰＵ１１は、第３領域Ｒ３を表す第３マスク画像６３を生成する（ステップＳ２０７）。

【0044】

図６の下段には、中段の第１マスク画像６１及び第２マスク画像６２に基づいて生成された第３マスク画像６３が示されている。第３マスク画像６３の各画素の画素値は、第１マスク画像６１の対応する画素の画素値と、第２マスク画像６２の対応する画素の画素値との論理積を取ったものに相当する。すなわち、第１マスク画像６１及び第２マスク画像６２において対応する画素がいずれも「１」である画素の画素値が「１」となっており、第１マスク画像６１及び第２マスク画像６２のうち少なくとも一方が「０」である画素の画素値が「０」となっている。よって、第３領域Ｒ３は、手７１のうち親指に相当する部分を除いた一部に相当する。
この段階では、第３領域Ｒ３が、操作者７０の手７１に相当する領域（以下「手領域」と記す）として検出される。

【0045】

図５のステップＳ２０７が終了すると、ＣＰＵ１１は、モルフォロジー変換等の公知のノイズ除去処理により第３マスク画像６３のノイズを除去する（ステップＳ２０８）。なお、上述の第１マスク画像６１及び第２マスク画像６２、並びに後述する第４マスク画像６４及び第５マスク画像６５に対しても同様のノイズ除去処理を行ってもよい。

【0046】

続くステップＳ２０９～Ｓ２１１では、ＣＰＵ１１は、カラー画像３１（第１マスク画像６１）の第１領域Ｒ１の中から、深度が、第３領域Ｒ３の深度に係る第２深度範囲に入っている第４領域Ｒ４を特定し、第４領域Ｒ４を手領域に追加（補完）する。

【0047】

詳しくは、まず、ＣＰＵ１１は、深度画像４１のうち第３領域Ｒ３に対応する画素の深度情報に基づいて第２深度条件を決定する（ステップＳ２０９）。第２深度条件は、画素の深度が、第３領域Ｒ３に対応する画素の深度の代表値（例えば、平均値又は中央値）を含む第２深度範囲（所定範囲）に入っていること、とすることができる。例えば、第２深度範囲は、上記の代表値をＤとして、Ｄ±ｄの範囲内とすることができる。ここで、値ｄは、例えば１０ｃｍとすることができる。大人の手７１の大きさが２０ｃｍ程度であるため、値ｄを１０ｃｍとすることで、第２深度範囲の幅（２ｄ）を、大人の手７１の大きさ程度とすることができ、手７１が位置する範囲を適切にカバーすることができる。

【0048】

なお、第２深度範囲の幅（２ｄ）を、深度画像４１のうち第３領域Ｒ３に対応する領域の大きさ（例えば、最大幅）に基づいて決定してもよい。詳しくは、第３領域Ｒ３に対応する画素の深度の代表値と、深度画像４１上で第３領域Ｒ３に対応する領域の大きさ（画素数）とから、第３領域Ｒ３の実際の大きさ（手７１の大きさに相当）を導出し、導出された値を第２深度範囲の幅（２ｄ）としてもよい。

【0049】

次に、ＣＰＵ１１は、第１領域Ｒ１に、深度が第２深度条件を満たす第４領域Ｒ４があるか否かを判別する（ステップＳ２１０）。詳しくは、ＣＰＵ１１は、カラー画像３１（第１マスク画像６１）の第１領域Ｒ１のうち、深度画像４１において画素の深度情報が第２深度条件を満たす領域と対応する第４領域Ｒ４があるか否かを判別する。ここでは、ＣＰＵ１１は、カラー画像３１の第１領域Ｒ１のうち或る画素について、対応する深度画像４１の画素の深度が第２深度条件を満たす場合に、第１領域Ｒ１の上記或る画素が第４領域Ｒ４に属すると判別する。

【0050】

第１領域Ｒ１に第４領域Ｒ４があると判別された場合には（ステップＳ２１０で“ＹＥＳ”）、ＣＰＵ１１は、この時点における手領域（第３マスク画像６３における第３領域Ｒ３）に第４領域Ｒ４を追加した第４マスク画像６４を生成する（ステップＳ２１１）。
この段階では、重複範囲５１（第４マスク画像６４の範囲）のうち、第３領域Ｒ３及び第４領域Ｒ４を含む領域が、操作者７０の手７１に相当する領域（手領域）として検出される。

【0051】

図７は、手検出処理における第４領域Ｒ４の追加動作を説明する図である。
図７の左側の上段には深度画像４１が示されており、深度画像４１のうち第３領域Ｒ３に対応する画素の範囲にハッチングが付されている。上記のステップＳ２０９では、このハッチングが付された範囲内の画素の深度情報に基づいて第２深度条件が決定される。第２深度条件が決定されると、図７の左側の下段に示す第１マスク画像６１の第１領域Ｒ１のうち、対応する画素の深度が第２深度条件を満たす第４領域Ｒ４が抽出される。図７の第１マスク画像６１では、抽出された第４領域Ｒ４にハッチングが付されている。図７に示す例では、第１領域Ｒ１のうち、第３領域Ｒ３と深度が近似する手７１の領域が第４領域Ｒ４として抽出され、第３領域Ｒ３と深度が近似しない顔の領域は、第４領域Ｒ４として抽出されない。第４領域Ｒ４が抽出されると、図７の右側の上段に示す第３マスク画像６３の第３領域Ｒ３と、第１マスク画像６１の第４領域Ｒ４との論理和に相当する第４マスク画像６４（図７の右側の下段の画像）が生成される。第４マスク画像６４では、第３領域Ｒ３において欠けていた親指に相当する部分が第４領域Ｒ４から追加され、手領域が実際の手７１の領域に近付いていることが分かる。

【0052】

図７では、第４領域Ｒ４の全体が、第３領域Ｒ３と重ねたときに第３領域Ｒ３と一繋がりとなっているが、第４領域Ｒ４に、第３領域Ｒ３と一繋がりとならない部分がある場合には、第４領域Ｒ４のうち第３領域Ｒ３と一繋がりとなる部分を手領域として追加してもよい。
また、図７では、第４領域Ｒ４の全体が一繋がりとなっているが、第４領域Ｒ４が複数の領域に分かれている場合には、複数の領域のうち最も面積の大きい領域のみを第３領域Ｒ３に追加して手領域としてもよい。

【0053】

図５に戻り、ステップＳ２１１が終了した場合、又は、ステップＳ２１０において第４領域Ｒ４がないと判別された場合には（ステップＳ２１０で“ＮＯ”）、ＣＰＵ１１は、ステップＳ２１２～Ｓ２１４において、深度画像４１（第２マスク画像６２）の第２領域Ｒ２の中から、色が、第３領域Ｒ３の色に係る第２色範囲に入っている第５領域Ｒ５を特定し、第５領域Ｒ５を手領域に追加（補完）する。

【0054】

詳しくは、まず、ＣＰＵ１１は、カラー画像３１のうち第３領域Ｒ３に対応する画素の色情報に基づいて第２色条件を決定する（ステップＳ２１２）。第２色条件は、画素の色が、第３領域Ｒ３に対応する画素の色の代表色を含む第２色範囲に入っていること、とすることができる。第２色範囲は、例えば、上記の代表色の色相をＨ、彩度をＳ、明度をＶとして、色相がＨ±ｈの範囲内、再度がＳ±ｓの範囲内、明度がＶ±ｖの範囲内となる範囲とすることができる。値Ｈ、値Ｓ及び値Ｖは、それぞれ、第３領域Ｒ３に対応する画素の色相の代表値（平均値又は中央値等）、彩度の代表値（平均値又は中央値等）、及び明度の代表値（平均値又は中央値等）とすることができる。また、値ｈ、値ｓ及び値ｖは、人による手７１の色のばらつき等に基づいて設定することができる。

【0055】

次に、ＣＰＵ１１は、第２領域Ｒ２に、色が第２色条件を満たす第５領域Ｒ５があるか否かを判別する（ステップＳ２１３）。詳しくは、ＣＰＵ１１は、深度画像４１（第２マスク画像６２）の第２領域Ｒ２のうち、カラー画像３１において画素の色情報が第２色条件を満たす領域と対応する第５領域Ｒ５があるか否かを判別する。ここでは、ＣＰＵ１１は、深度画像４１の第２領域Ｒ２のうち或る画素について、対応するカラー画像３１の画素の色度が第２色条件を満たす場合に、第２領域Ｒ２の上記或る画素が第５領域Ｒ５に属すると判別する。

【0056】

第２領域Ｒ２に第５領域Ｒ５があると判別された場合には（ステップＳ２１３で“ＹＥＳ”）、ＣＰＵ１１は、この時点における手領域（第４マスク画像６４が生成されている場合には、第４マスク画像６４における第３領域Ｒ３及び第４領域Ｒ４、第４マスク画像６４が生成されていない場合には、第３マスク画像６３における第３領域Ｒ３）に第５領域Ｒ５を追加した第５マスク画像６５を生成する（ステップＳ２１４）。
この段階では、重複範囲５１（第５マスク画像６５の範囲）のうち、第３領域Ｒ３、第４領域Ｒ４及び第５領域Ｒ５を含む領域（第４マスク画像６４が生成されていない場合には、第３領域Ｒ３及び第５領域Ｒ５を含む領域）が、操作者７０の手７１に相当する領域（手領域）として検出される。

【0057】

図８は、手検出処理における第５領域Ｒ５の追加動作を説明する図である。
図８の左側の上段にはカラー画像３１が示されており、カラー画像３１のうち第３領域Ｒ３に対応する画素の範囲にハッチングが付されている。上記のステップＳ２１２では、このハッチングが付された範囲内の画素の色情報に基づいて第２色条件が決定される。第２色条件が決定されると、図８の左側の下段に示す第２マスク画像６２の第２領域Ｒ２のうち、対応する画素の色が第２色条件を満たす第５領域Ｒ５が抽出される。図８の第２マスク画像６２では、抽出された第５領域Ｒ５にハッチングが付されている。図８に示す例では、第２領域Ｒ２のうち、第３領域Ｒ３と色が近似する手７１の領域が第５領域Ｒ５として抽出され、第３領域Ｒ３と色が近似しない服の袖の領域は、第５領域Ｒ５として抽出されない。第５領域Ｒ５が抽出されると、図８の右側の上段に示す第４マスク画像６４の第３領域Ｒ３及び第４領域Ｒ４と、第２マスク画像６２の第５領域Ｒ５との論理和に相当する第５マスク画像６５（図８の右側の下段の画像）が生成される。第５マスク画像６５では、第３領域Ｒ３及び第４領域Ｒ４において欠けていた小指の外側に相当する部分が追加され、手領域が実際の手７１の領域にさらに近付いていることが分かる。

【0058】

図８では、第５領域Ｒ５の全体が、第３領域Ｒ３及び第４領域Ｒ４と重ねたときに第３領域Ｒ３及び第４領域Ｒ４と一繋がりとなっているが、第５領域Ｒ５に、第３領域Ｒ３及び第４領域Ｒ４と一繋がりとならない部分がある場合には、第５領域Ｒ５のうち第３領域Ｒ３及び第４領域Ｒ４と一繋がりとなる部分を手領域として追加してもよい。
また、図８では、第５領域Ｒ５の全体が一繋がりとなっているが、第５領域Ｒ５が複数の領域に分かれている場合には、複数の領域のうち最も面積の大きい領域のみを第３領域Ｒ３及び第４領域Ｒ４に追加して手領域としてもよい。

【0059】

なお、第４マスク画像６４が生成されていない場合には、図８において、第４マスク画像６４に代えて第３マスク画像６３が用いられる。この場合には、第３マスク画像６３の第３領域Ｒ３と、第２マスク画像６２の第５領域Ｒ５との論理和に相当する第５マスク画像６５が生成される。また、第５領域Ｒ５に、第３領域Ｒ３と一繋がりとならない部分がある場合には、第５領域Ｒ５のうち第３領域Ｒ３と一繋がりとなる部分を手領域として追加してもよい。また、第５領域Ｒ５が複数の領域に分かれている場合には、複数の領域のうち最も面積の大きい領域のみを手領域に追加してもよい。

【0060】

図５のステップＳ２１４が終了した場合、ステップＳ２０６において第３領域Ｒ３がないと判別された場合には（ステップＳ２０６で“ＮＯ”）、又は、ステップＳ２１３において第５領域がないと判別された場合には（ステップＳ２１３で“ＮＯ”）、ＣＰＵ１１は、手検出処理を終了させ、処理を機器制御処理に戻す。
なお、ステップＳ２０９～Ｓ２１１の、第４領域Ｒ４を手領域に追加する処理、及び、ステップＳ２１２～Ｓ２１４の、第５領域Ｒ５を手領域に追加する処理のうち少なくとも一方を省略してもよい。

【0061】

図４に戻り、手検出処理（ステップＳ１０２）が終了すると、ＣＰＵ１１は、手領域を表すマスク画像（以下、「手領域マスク画像」と記す）が生成されたか否かを判別する（ステップＳ１０３）。ここで、手領域マスク画像は、第３マスク画像６３～第５マスク画像６５のうち、図５の手検出処理において最後に生成されたものである。すなわち、手領域マスク画像は、ステップＳ２１４が実行されている場合には第５マスク画像６５であり、ステップＳ２１１が実行され、ステップＳ２１４が実行されていない場合には第４マスク画像６４であり、ステップＳ２０７が実行され、ステップＳ２１１及びステップＳ２１４が実行されていない場合には第３マスク画像６３である。

【0062】

手領域マスク画像が生成されたと判別された場合には（ステップＳ１０３で“ＹＥＳ”）、ＣＰＵ１１は、異なるフレームに対応する複数の手領域マスク画像から操作者７０の手７１によるジェスチャーを検出したか否かを判別する（ステップＳ１０４）。ここで、複数の手領域マスク画像は、直近の所定数のフレーム期間に撮影されたカラー画像３１及び深度画像４１に基づいて生成された、上記所定数の手領域マスク画像である。なお、機器制御処理の開始後、ステップＳ１０２の手検出手段の実行回数が上記所定数に達していない場合には、ステップＳ１０４において“ＮＯ”に分岐することとしてもよい。
ＣＰＵ１１は、複数の手領域マスク画像にわたる手領域の移動軌跡が所定のジェスチャーの成立条件を満たしている場合に、複数の手領域マスク画像からジェスチャーを検出したと判別する。

【0063】

複数の手領域マスク画像からジェスチャーを検出したと判別された場合には（ステップＳ１０４で“ＹＥＳ”）、ＣＰＵ１１は、検出したジェスチャーに応じた動作を行わせるための制御信号を、プロジェクタ８０に送信する（ステップＳ１０５）。当該制御信号を受信したプロジェクタ８０は、制御信号に応じた動作を行う。

【0064】

ステップＳ１０５が終了した場合、ステップＳ１０３において手領域マスクが生成されていないと判別された場合（ステップＳ１０３で“ＮＯ”）、又は、ステップＳ１０４において複数の手領域マスク画像からジェスチャーが検出されないと判別された場合には（ステップＳ１０４で“ＮＯ”）、ＣＰＵ１１は、情報処理システム１におけるジェスチャーの受け付けを終了するか否かを判別する（ステップＳ１０６）。ここでは、ＣＰＵ１１は、例えば、情報処理装置１０、撮影装置２０又はプロジェクタ８０の電源をオフする操作がなされている場合に、ジェスチャーの受け付けを終了すると判別する。

【0065】

ジェスチャーの受け付けを終了しないと判別された場合には（ステップＳ１０６で“ＮＯ”）、ＣＰＵ１１は、処理をステップＳ１０２に戻し、次のフレーム期間に撮影されたカラー画像３１及び深度画像４１に基づいて手７１を検出するための手検出処理を実行する。ステップＳ１０２～Ｓ１０６のループ処理は、例えば、カラーカメラ３０及び深度カメラ４０による撮影のフレームレートで（すなわち、カラー画像３１及び深度画像４１が生成するたびに）繰り返し実行される。あるいは、ステップＳ１０２の手検出処理を撮影のフレームレートで繰り返し実行し、所定数のフレーム期間に１回の割合でステップＳ１０３～Ｓ１０６を実行してもよい。
ジェスチャーの受け付けを終了すると判別された場合には（ステップＳ１０６で“ＹＥＳ”）、ＣＰＵ１１は、機器制御処理を終了させる。

【0066】

＜効果＞
以上のように、本実施形態に係る情報処理装置１０は、ＣＰＵ１１を備え、ＣＰＵ１１は、操作者７０を撮影して得られたカラー画像３１及び深度画像４１における色情報及び操作者７０の奥行きに係る深度情報を取得し、取得した色情報及び深度情報に基づいて、カラー画像３１及び深度画像４１に含まれる操作者７０の少なくとも一部である検出対象としての手７１を検出する。これにより、手７１のうち色情報から検出することが難しい部分（例えば、陰になって暗い部分や、照明により色が変化した部分など）を、深度情報を用いて補完して検出することができる。また、背景に手７１と同一色の部分があったとしても、深度情報を併用することにより、当該部分を手７１と誤検出する不具合の発生を抑制することができる。よって、より高精度に手７１を検出することができる。この結果、非接触かつ直感的な機器の操作を可能とするマンマシンインタフェースにおいて、精度の高いジェスチャー検出を実現できる。例えば、プロジェクタ８０による画像Ｉｍの投影中に高精度なジェスチャー操作を受け付け可能とすることで、非接触操作が可能なディスプレイを実現することができる。

【0067】

また、操作者７０を撮影して得られた画像は、複数の画像であり、当該複数の画像は、色情報を含むカラー画像３１と、深度情報を含む深度画像４１と、を含む。これによれば、カラーカメラ３０により撮影されたカラー画像３１と、深度カメラ４０により撮影された深度画像４１と、を用いて手７１を検出することができる。

【0068】

また、カラー画像３１の撮影範囲及び深度画像４１の撮影範囲が重複する重複範囲５１において、カラー画像３１の画素と、深度画像４１の画素とが対応付けられており、ＣＰＵ１１は、カラー画像３１のうち、画素の色情報が、手７１の色に係る第１色条件を満たす第１領域Ｒ１を特定し、深度画像４１のうち、画素の深度情報が、手７１の奥行きに係る第１深度条件を満たす第２領域Ｒ２を特定し、重複範囲５１のうち、第１領域Ｒ１に対応する領域及び第２領域Ｒ２に対応する領域のいずれにも重なる第３領域Ｒ３を含む領域を手７１として検出する。これにより、色情報に基づいて特定された第１領域Ｒ１に、手７１の領域以外の、手７１と色が近似する領域（顔等）が含まれていても、深度情報に基づいて特定された第２領域Ｒ２との重複部分を抽出することで、手７１以外の領域を精度よく除外することができる。よって、より高精度に手７１を検出することができる。

【0069】

また、ＣＰＵ１１は、深度画像４１のうち第１領域Ｒ１に対応する画素の深度情報に基づいて第１深度条件を決定する。これにより、撮影時の手７１の実際の深度を反映した第１深度条件に基づいて、より高精度に第２領域Ｒ２を特定することができる。

【0070】

また、ＣＰＵ１１は、深度画像４１のうち第３領域Ｒ３に対応する画素の深度情報に基づいて第２深度条件を決定し、カラー画像３１の第１領域Ｒ１のうち、深度画像４１において画素の深度情報が第２深度条件を満たす領域と対応する第４領域Ｒ４を特定し、重複範囲５１のうち、第３領域Ｒ３と、カラー画像３１の第４領域Ｒ４に対応する領域と、を含む領域を手７１として検出する。これによれば、手領域として抽出された第３領域Ｒ３の深度情報を用いることで、カラー画像３１の第１領域Ｒ１のうち、手７１の領域であって第３領域Ｒ３に含まれていない部分を高精度に補完して検出することができる。これにより、手７１のうち色情報から検出することが難しい部分（例えば、陰になって暗い部分や、照明により色が変化した部分など）を補完して検出することができる。よって、より高精度に手７１を検出することができる。

【0071】

また、第２深度条件は、画素の深度が、第３領域Ｒ３に対応する画素の深度の代表値を含む所定範囲に入っていること、である。このような第２深度条件を用いることで、手７１を含む深度範囲をより高精度に特定することができる。

【0072】

また、ＣＰＵ１１は、深度画像４１のうち第３領域Ｒ３に対応する領域の大きさに基づいて上記の所定範囲の幅を決定する。これにより、撮影された手７１の大きさに応じて適切に第２深度条件を決定することができる。

【0073】

また、ＣＰＵ１１は、重複範囲５１のうち、第３領域Ｒ３と、第４領域Ｒ４に対応する領域のうち第３領域Ｒ３と一繋がりである部分と、を含む領域を手７１として検出する。これにより、第４領域Ｒ４のうち手７１以外の領域をより確実に除外することができる。

【0074】

また、ＣＰＵ１１は、カラー画像３１のうち第３領域Ｒ３に対応する画素の色情報に基づいて第２色条件を決定し、深度画像４１の第２領域Ｒ２のうち、カラー画像３１において画素の色情報が第２色条件を満たす領域と対応する第５領域Ｒ５を特定し、重複範囲５１のうち、第３領域Ｒ３と、深度画像４１の第５領域Ｒ５に対応する領域と、を含む領域を手７１として検出する。これによれば、手領域として抽出された第３領域Ｒ３の色情報を用いることで、深度画像４１の第２領域Ｒ２のうち、手７１の領域であって第３領域Ｒ３に含まれていない部分を高精度に補完して検出することができる。よって、より高精度に手７１を検出することができる。

【0075】

また、ＣＰＵ１１は、重複範囲５１のうち、第３領域Ｒ３と、第５領域Ｒ５に対応する領域のうち第３領域Ｒ３と一繋がりである部分と、を含む領域を手７１として検出する。これにより、第５領域Ｒ５のうち手７１以外の領域をより確実に除外することができる。

【0076】

また、本実施形態に係る情報処理方法は、情報処理装置１０のコンピュータとしてのＣＰＵ１１が実行する情報処理方法であって、操作者７０を撮影して得られたカラー画像３１及び深度画像４１における色情報及び操作者７０の奥行きに係る深度情報を取得し、取得した色情報及び深度情報に基づいて、カラー画像３１及び深度画像４１に含まれる操作者７０の少なくとも一部である検出対象としての手７１を検出する。このような方法によれば、より高精度に手７１を検出することができる。よって、非接触かつ直感的な機器の操作を可能とするマンマシンインタフェースにおいて、精度の高いジェスチャー検出を実現できる。

【0077】

また、本実施形態に係るプログラム１３１は、情報処理装置１０のコンピュータとしてのＣＰＵ１１に、操作者７０を撮影して得られたカラー画像３１及び深度画像４１における色情報及び操作者７０の奥行きに係る深度情報を取得する処理、取得した色情報及び深度情報に基づいて、カラー画像３１及び深度画像４１に含まれる操作者７０の少なくとも一部である検出対象としての手７１を検出する処理、を実行させる。このようなプログラム１３１に従ってＣＰＵ１１に処理を行わせることで、より高精度に手７１を検出することができる。よって、非接触かつ直感的な機器の操作を可能とするマンマシンインタフェースにおいて、精度の高いジェスチャー検出を実現できる。

【0078】

＜その他＞
なお、上記実施形態における記述は、本発明に係る情報処理装置、情報処理方法及びプログラムの一例であり、これに限定されるものではない。
例えば、上記実施形態では、情報処理装置１０、撮影装置２０、及びプロジェクタ８０（ジェスチャーによる操作対象機器）が別個となっている例を用いて説明したが、この態様に限られない。
例えば、情報処理装置１０と撮影装置２０とが一体となっていてもよい。一例を挙げると、情報処理装置１０の表示部１５のベゼルに、撮影装置２０のカラーカメラ３０及び深度カメラ４０が組み込まれていてもよい。
また、情報処理装置１０と操作対象機器とが一体となっていてもよい。例えば、上記実施形態におけるプロジェクタ８０に情報処理装置１０の機能を組み込み、情報処理装置１０が実行していた処理をプロジェクタ８０の図示しないＣＰＵが実行してもよい。この場合には、プロジェクタ８０が「情報処理装置」に相当し、プロジェクタ８０のＣＰＵが「処理部」に相当する。
また、撮影装置２０と操作対象機器とが一体となっていてもよい。例えば、上記実施形態におけるプロジェクタ８０の筐体に、撮影装置２０のカラーカメラ３０及び深度カメラ４０が組み込まれていてもよい。
また、情報処理装置１０、撮影装置２０及び操作対象機器が全て一体となっていてもよい。例えば、操作対象機器としての情報処理装置１０の表示部１５のベゼルにカラーカメラ３０及び深度カメラ４０が組み込まれた態様において、操作者７０の手７１のジェスチャーにより情報処理装置１０の動作を制御してもよい。

【0079】

また、被写体として操作者７０を例示し、被写体の少なくとも一部である検出対象として手７１を例示したが、これらに限られない。例えば、検出対象は、操作者７０の手７１以外の部位（腕や頭等）であってもよく、これらの部位によりジェスチャーが行われてもよい。また、被写体の全体が検出対象であってもよい。
また、被写体は人に限られず、ロボットや動物等であってもよい。これらの場合にも、ロボットや動物等のうちジェスチャーを行う検出対象の色が予め定められていれば、上記実施形態の方法により検出対象を検出することができる。

【0080】

また、上記実施形態では、手領域マスク画像（第３マスク画像６３～第５マスク画像６５のいずれか）において画素値が「１」となっている領域を手７１として検出したが、これに限られず、画素値が「１」となっている領域を少なくとも含む領域を手７１として検出してもよい。例えば、公知の方法により手領域をさらに補完してもよい。

【0081】

また、上記実施形態では、「被写体を撮影して得られた画像」がカラー画像３１及び深度画像４１である例を用いて説明したが、これに限られない。例えば、１つの画像における各画素に色情報及び深度情報が含まれている場合には、「被写体を撮影して得られた画像」は、当該１つの画像であってもよい。

【0082】

また、以上の説明では、本発明に係るプログラムのコンピュータ読み取り可能な媒体として記憶部１３のＨＤＤ、ＳＳＤを使用した例を開示したが、この例に限定されない。その他のコンピュータ読み取り可能な媒体として、フラッシュメモリ、ＣＤ－ＲＯＭ等の情報記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを通信回線を介して提供する媒体として、キャリアウエーブ（搬送波）も本発明に適用される。

【0083】

また、上記実施形態における情報処理装置１０、撮影装置２０及びプロジェクタ８０の各構成要素の細部構成及び細部動作に関しては、本発明の趣旨を逸脱することのない範囲で適宜変更可能であることは勿論である。

【0084】

本発明の実施の形態を説明したが、本発明の範囲は、上述の実施の形態に限定するものではなく、特許請求の範囲に記載された発明の範囲とその均等の範囲を含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
＜請求項１＞
被写体を撮影して得られた画像における色情報及び前記被写体の奥行きに係る深度情報を取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する、
処理部を備える情報処理装置。
＜請求項２＞
前記画像は、複数の画像であり、
前記複数の画像は、前記色情報を含むカラー画像と、前記深度情報を含む深度画像と、を含む、
請求項１に記載の情報処理装置。
＜請求項３＞
前記カラー画像の撮影範囲及び前記深度画像の撮影範囲が重複する重複範囲において、前記カラー画像の画素と、前記深度画像の画素とが対応付けられており、
前記処理部は、
前記カラー画像のうち、画素の色情報が、前記検出対象の色に係る第１色条件を満たす第１領域を特定し、
前記深度画像のうち、画素の深度情報が、前記検出対象の奥行きに係る第１深度条件を満たす第２領域を特定し、
前記重複範囲のうち、前記第１領域に対応する領域及び前記第２領域に対応する領域のいずれにも重なる第３領域を含む領域を前記検出対象として検出する、
請求項２に記載の情報処理装置。
＜請求項４＞
前記処理部は、前記深度画像のうち前記第１領域に対応する画素の深度情報に基づいて前記第１深度条件を決定する、請求項３に記載の情報処理装置。
＜請求項５＞
前記処理部は、
前記深度画像のうち前記第３領域に対応する画素の深度情報に基づいて第２深度条件を決定し、
前記カラー画像の前記第１領域のうち、前記深度画像において画素の深度情報が前記第２深度条件を満たす領域と対応する第４領域を特定し、
前記重複範囲のうち、前記第３領域と、前記カラー画像の前記第４領域に対応する領域と、を含む領域を前記検出対象として検出する、
請求項３に記載の情報処理装置。
＜請求項６＞
前記第２深度条件は、画素の深度が、前記第３領域に対応する画素の深度の代表値を含む所定範囲に入っていること、である、請求項５に記載の情報処理装置。
＜請求項７＞
前記処理部は、前記深度画像のうち前記第３領域に対応する領域の大きさに基づいて前記所定範囲の幅を決定する、請求項６に記載の情報処理装置。
＜請求項８＞
前記処理部は、前記重複範囲のうち、前記第３領域と、前記第４領域に対応する領域のうち前記第３領域と一繋がりである部分と、を含む領域を前記検出対象として検出する、請求項５に記載の情報処理装置。
＜請求項９＞
前記処理部は、
前記カラー画像のうち前記第３領域に対応する画素の色情報に基づいて第２色条件を決定し、
前記深度画像の前記第２領域のうち、前記カラー画像において画素の色情報が前記第２色条件を満たす領域と対応する第５領域を特定し、
前記重複範囲のうち、前記第３領域と、前記深度画像の前記第５領域に対応する領域と、を含む領域を前記検出対象として検出する、
請求項３～８のいずれか一項に記載の情報処理装置。
＜請求項１０＞
前記処理部は、前記重複範囲のうち、前記第３領域と、前記第５領域に対応する領域のうち前記第３領域と一繋がりである部分と、を含む領域を前記検出対象として検出する、
請求項９に記載の情報処理装置。
＜請求項１１＞
情報処理装置のコンピュータが実行する情報処理方法であって、
被写体を撮影して得られた画像における色情報及び前記被写体の奥行きに係る深度情報を取得し、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する、
情報処理方法。
＜請求項１２＞
情報処理装置のコンピュータに、
被写体を撮影して得られた画像における色情報及び前記被写体の奥行きに係る深度情報を取得する処理、
取得した前記色情報及び前記深度情報に基づいて、前記画像に含まれる前記被写体の少なくとも一部である検出対象を検出する処理、
を実行させるプログラム。

【符号の説明】

【0085】

１情報処理システム
１０情報処理装置
１１ＣＰＵ（１以上の処理部）
１２ＲＡＭ
１３記憶部
１３１プログラム
１３２カラー画像データ
１３３深度画像データ
１３４マスク画像データ
１４操作部
１５表示部
１６通信部
１７バス
２０撮影装置
３０カラーカメラ
３１カラー画像
４０深度カメラ
４１深度画像
５１重複範囲
６１第１マスク画像
６２第２マスク画像
６３第３マスク画像
６４第４マスク画像
６５第５マスク画像
７０操作者（撮影対象）
７１手（検出対象）
８０プロジェクタ
Ｉｍ画像

【図1】