(58)【調査した分野】(Int.Cl.,DB名)
前記注目点推定部は、学習画像、及び前記学習画像に対応付けられた複数の投影方向における確率マップを学習して得られた学習器に、前記入力画像を入力することで、前記確率マップを特定する、請求項1に記載の情報処理装置。
前記統合部は、各投影方向における前記確率マップから最大値を有する2次元位置を取得し、前記2次元位置に基づいて、前記注目点の3次元位置を特定する、請求項1に記載の情報処理装置。
【発明を実施するための形態】
【0014】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0015】
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
【0016】
なお、説明は以下の順序で行うものとする。
<<1.背景>>
<<2.概要>>
<<3.構成>>
<3−1.全体構成>
<3−2.制御部の詳細>
<<4.動作>>
<<5.変形例>>
<5−1.変形例1>
<5−2.変形例2>
<5−3.変形例3>
<5−4.変形例4>
<<6.ハードウェア構成例>>
<<7.むすび>>
【0017】
<<1.背景>>
本開示の一実施形態に係る情報処理装置について説明する前に、まず、本開示の一実施形態に係る情報処理装置の創作に至った背景を説明する。
【0018】
入力画像に基づいて、入力画像に含まれる物体に関する注目点の位置を取得することが行われている。本明細書において、物体に関する注目点は、例えば、同種の物体が共通して有する点であってもよい。例えば、注目点は、手(物体の一例)における指先、関節点であってもよいし、顔(物体の一例)における目、鼻、口であってもよいし、人体(物体の一例)における端点、関節点であってもよいし、自動車(物体の一例)におけるタイヤ、ライトであってもよい。
【0019】
手の注目点位置は、例えば手の形状や注目点位置に基づいたUI(User Interface)、ユーザの意図理解等への応用が考えられる。また、人体の注目点位置は、例えば人体の形状や注目点位置に基づいたUI、ゲーム操作等への応用が考えられる。また、自動車の注目点位置は、運転アシストや自動運転機能における、他の自動車の状況を立体的に把握した処理等への応用が考えられる。
【0020】
図1は、画像から手(物体の一例)の注目点位置を特定する処理の一例を示す説明図である。
図1に示す例では、入力画像T12に基づく注目点推定処理T13により、注目点の存在確率を示す確率マップT14が得られる。注目点推定処理T13は、例えば、入力画像T12に類似する画像を対応情報データベースDB10から検索し、検索により得られた画像と対応する確率マップを、確率マップT14として取得する処理であってもよい。なお、
図1に示す例では、確率マップT14における輝度値が大きい程、当該輝度値を示す位置に対応する入力画像T12の位置に注目点が存在する確率が大きい。
【0021】
図1に示すように、対応情報データベースDB10には、画像D1、及び画像D1と対応付けられた確率マップM1を含む対応情報C1が格納される。確率マップM1の生成方法は問わないが、例えば予め人手により生成されてもよい。なお、
図1では対応情報データベースDB10に格納される対応情報の例として対応情報C1のみが示されているが、対応情報データベースDB10は、対応情報を複数格納し、対応情報データベースDB10が格納する対応情報の数に応じて、注目点推定処理T13の精度が向上し得る。
【0022】
注目点推定処理T13により得られた確率マップT14に基づく位置推定処理T15により、注目点位置T16が特定(推定)される。位置推定処理T15は、例えば確率マップT14において最も値(注目点の存在確率)の大きい位置を、注目点位置T16として推定する処理であってもよい。特定される注目点位置T16は、
図1に示すように、入力画像T12における2次元位置(x,y)であってもよい。
【0023】
注目点位置の応用先によっては、注目点の2次元位置ではなく、注目点の3次元位置を取得することが望ましい場合が考えられる。ここで、例えば、入力画像T12がデプス情報を含むデプス画像(距離画像)である場合、位置(x,y)におけるデプス値zを参照することで、3次元位置(x,y,z)が注目点位置T16として特定され得る。しかし、デプス画像において、注目点が隠れている場合や、デプス値の精度が低い場合には、誤った3次元位置が注目点位置として特定され、注目点位置の推定精度が低下する恐れがある。
【0024】
そこで、上記事情を一着眼点にして本開示の一実施形態を創作するに至った。本実施形態によれば、複数の投影方向における確率マップを推定し、当該複数の方向における確率マップに基づいて、注目点の3次元位置を特定することで、高精度に注目点の3次元位置を推定することが可能である。以下、このような効果を有する本開示の一実施形態の概要について
図2、
図3を参照して説明を行う。
【0025】
<<2.概要>>
以下では、本開示の一実施形態の概要について説明し、本実施形態に係る情報処理装置の詳細な構成については
図4等を参照して後述する。なお、以下では、画像から手の注目点位置を特定する例について説明するが、本実施形態に係る物体は手に限定されない。
【0026】
本実施形態に係る情報処理装置は、
図1に示した例と異なり、複数(少なくとも2以上)の投影方向における確率マップを推定する。
図2は、複数の投影方向における確率マップについて説明するための説明図である。
【0027】
図2に示す例において、デプス画像D10は、手をセンシング(撮像)して得られたデプス画像である。デプス画像D10は、x方向、及びy方向の情報に加え、デプス方向(深さ方向)であるz方向の情報を有するため、
図2に示すように、例えば3次元空間における点群(点の集合)として表現することが可能である。
【0028】
例えば、点群として表現されたデプス画像D10における注目点は、例えばz方向(第1の投影方向)に投影されるとx−y平面上の点として表現され、y方向(第2の投影方向)に投影されるとx−z平面上の点として表現され得る。逆に、
図2に示すように、z方向に投影されたx−y平面上の確率マップM12(z方向における確率マップ)と、y方向に投影されたx−z平面上の確率マップM14(y方向における確率マップ)とに基づき、3次元位置を特定することが可能である。例えば、各投影方向における確率マップから最大値を有する2次元位置を取得し、当該2次元位置に基づいて、注目点の3次元位置を特定することが可能である。
【0029】
上記のように、少なくとも2以上の投影方向における確率マップが得られた場合、デプス値を参照することなく、注目点の3次元位置を特定することが可能であり、デプス値の精度が低い場合であっても、高精度に注目点の3次元位置を特定し得る。なお、
図2に示す例では、z方向、y方向に投影された確率マップを示したが、x方向に投影されたy−z平面上の確率マップも考えられる。
【0030】
図3は、本実施形態の概要を説明するための説明図である。
図3に示す例では、入力画像T22に基づく注目点推定処理T23により、異なる2つの投影方向における確率マップT24,T25が特定される。確率マップT24は、z方向に投影されたx−y平面上の確率マップであり、確率マップT25は、y方向に投影されたx−z平面上の確率マップである。
【0031】
注目点推定処理T23は、例えば、入力画像T22に類似する画像を対応情報データベースDB20から検索し、検索により得られた画像と対応する、複数の投影方向における確率マップを、確率マップT24,T25として取得する処理であってもよい。
【0032】
図3に示すように、対応情報データベースDB20には、画像D2、及び画像D2と対応付けられた複数の投影方向における確率マップM22、確率マップM24、を含む対応情報C2が格納される。例えば、確率マップM22はz方向における確率マップであり、確率マップM24はy方向における確率マップである。
【0033】
確率マップM22、確率マップM24の生成方法は問わないが、例えば予め人手により生成されてもよい。なお、
図3では対応情報データベースDB10に格納される対応情報の例として対応情報C2のみが示されているが、対応情報データベースDB20は、対応情報を複数格納し、対応情報データベースDB20が格納する対応情報の数に応じて、注目点推定処理T23の精度が向上し得る。
【0034】
注目点推定処理T23により得られた確率マップT24、T25に基づく統合処理T26により、注目点位置T28が特定される。統合処理T26は、例えば、確率マップT24、T25の夫々から最大値を有する2次元位置を取得し、当該2次元位置に基づいて、注目点の3次元位置(x,y,z)を特定する処理であってもよい。
【0035】
なお、以下では、入力画像T22、及び画像D2がデプス情報を含むデプス画像(距離画像)である例について説明するが、本技術は係る例に限定されない。本実施形態によれば、
図2を参照して説明したように、複数の投影方向における確率マップが得られることで、デプス値を参照しなくても注目点の3次元位置を特定することが可能である。そのため、入力画像T22、及び画像D2は、デプス画像に限定されず、所謂RGBカメラにより取得されるRGB画像(カラー画像)であってもよいし、他の種類の画像であってもよい。また、入力画像T22と画像D2とは、同一の種類の画像であることが望ましい。入力画像T22、及び画像D2が他の種類の画像である例については、変形例として後述する。
【0036】
また、
図3に示す例では、1の入力画像に対して、1の注目点の3次元位置が特定されているが、1の入力画像に対して、複数の注目点(各指の先、各指の関節等)の3次元位置が特定されてもよい。また、係る場合、対応情報データベースDB20に格納される対応情報は、1の画像と、出力され得る注目点の数に応じた数の確率マップと、が対応付けられた情報であってもよい。
【0037】
以上、本実施形態の概要について説明した。続いて、
図4,
図5を参照して、本実施形態に係る情報処理装置の構成例を説明する。
【0038】
<<3.構成>>
図4は、本実施形態に係る情報処理装置の構成例を示すブロック図である。
図4に示すように、本実施形態に係る情報処理装置10は、制御部110、センサ部120、記憶部160、及び表示部170を備える。以下、情報処理装置10の全体的な機能構成例を説明した後に、制御部110について詳細に説明する。
【0039】
<3−1.全体構成>
制御部110は、情報処理装置10の各構成を制御する。例えば、制御部110は、センサ部120が取得した撮像画像に基づいて、当該撮像画像に含まれる物体に関する注目点の3次元位置を特定し、当該3次元位置に基づいて表示部170の表示を制御する。
【0040】
センサ部120は、センシング(撮像)に基づいて撮像画像を取得する。センサ部120は、例えばデプス画像を取得可能なステレオカメラ、ToF(Time-of-Flight)カメラ、Structured lightカメラ等であってもよい。
【0041】
記憶部160は、情報処理装置10の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部160は、
図3を参照して説明した、画像、及び画像と対応付けられた複数の投影方向における確率マップを含む対応情報が複数格納された対応情報データベースDB20を記憶する。
【0042】
表示部170は、制御部110の制御に従い、表示を行うディスプレイである。表示部170により表示される画面の例については、
図5を参照して後述する。
【0043】
<3−2.制御部の詳細>
以上、本実施形態に係る情報処理装置10の全体的な機能構成例について説明した。続いて、
図4に示した制御部110の機能構成をより詳細に説明する。
図4に示すように、制御部110は、検出部111、切り出し部113、注目点推定部115、統合部117、表示制御部119、としても機能する。
【0044】
検出部111は、センサ部120により取得された撮像画像から、手(物体の一例)を検出する。検出部111が用いる物体検出手法は問わないが、例えば非特許文献1で行われているように、Randomized Decision Forest(RDF)に基づく物体検出手法等が用いられてもよい。検出部111により検出された手領域が、切り出し部113へ提供される。
【0045】
切り出し部113は、検出部111により検出された手領域に基づいて、撮像画像から手の周囲を所定の形状(例えば矩形)で切り出し、所定のサイズにリサイズする。なお、切り出し部113は、切り出された領域のうち、手領域以外の領域の値を所定値(例えば0)としてもよい。また、切り出し部113は、値の正規化処理を行ってもよい。切り出し部113によって得られた画像が、入力画像として、注目点推定部115へ入力されるため、係る構成により、注目点推定部115の処理精度が向上する。
【0046】
注目点推定部115は、入力画像に基づいて、複数の投影方向において、注目点の存在確率を示す確率マップを特定する。例えば、注目点推定部115は、入力画像と類似する画像(以下、類似画像と呼ぶ場合がある)を記憶部160に記憶される対応情報データベースDB20から検索し、検索により得られた類似画像に対応付けられた、複数の投影方向における確率マップを特定すべき確率マップとして取得してもよい。なお、類似画像の検索は、例えば対応情報データベースDB20に含まれる画像のうち、入力画像との差分が小さいものを類似画像として抽出するマッチング処理であってもよい。
【0047】
係る構成により、入力画像がデプス画像に限定されず、注目点推定部115による注目点推定処理は入力画像と同様の種類の画像が対応情報データベースDB20に含まれていれば、多様な種類の画像を入力画像として実行可能であるという効果が得られる。
【0048】
また、注目点推定部115は、1の入力画像に類似する類似画像として、複数の類似画像を対応情報データベースDB20から抽出し、当該複数の類似画像に対応付けられた、投影方向ごとに複数存在する確率マップに基づいて、各投影方向における確率マップを特定してもよい。例えば、注目点推定部115は、複数の確率マップを足し合わせ、全体の和が所定値(例えば1)となるように正規化した確率マップを、特定すべき確率マップとして取得してもよい。係る構成により、注目点位置の推定精度が向上し得る。
【0049】
統合部117は、注目点推定部115により特定された複数の投影方向における確率マップに基づいて、注目点の3次元位置を特定する。
【0050】
例えば、統合部117は、各投影方向における確率マップから最大値を有する2次元位置を取得し、当該2次元位置に基づいて、注目点の3次元位置を特定してもよい。例えば、z方向における確率マップ、及びy方向における確率マップのそれぞれから、各確率マップにおいて最大値を有する2次元位置(x1,y1),及び(x2,z2)が取得された場合を考える。
【0051】
係る場合、統合部117は、例えばx方向の位置については2つの2次元位置の平均値を用い、y方向、z方向の位置については各2次元位置の値をそのまま用いるように注目点の3次元位置を特定してもよい。すなわち、上記の例において、統合部117は、注目点の三次元位置を((x1+x2)/2,y1,z2)と、特定してもよい。
【0052】
なお、統合部117による3次元位置の特定方法は係る例に限定されない。例えば、統合部117は、x方向の位置について、いずれかの2次元位置を優先して用いてもよい。また、統合部117は、複数の投影方向における確率マップを3次元空間に逆投影して足し合わせ、3次元空間において最も値(確率)が高い点の位置を注目点の3次元位置として特定してもよい。
【0053】
上記のように注目点の3次元位置を特定することで、デプス画像のデプス値を参照することなく、注目点の3次元位置を特定することが可能であり、注目点が隠れている場合や、デプス値の精度が低い場合であっても、位置推定精度が低下し難い。
【0054】
表示制御部119は、表示部170による表示を制御する。例えば、表示制御部119は、入力画像と、注目点を示すマーカとを表示部170に表示させてもよい。また、表示制御部119は、注目点の3次元位置に応じた大きさで、注目点を示すマーカを表示させてもよい。
【0055】
図5は、表示制御部119が表示部170に表示させる画面の一例を示す説明図である。
図5に示す画面G10には、入力画像G12と共に、注目点を示すマーカG14,G16が表示される。
図5に示す例では、注目点を示すマーカの大きさは、画面G10の奥方向(z方向)に遠くなる(z方向の位置座標が大きくなる)程、小さくなるように、表示されている。係る構成により、ユーザは、注目点の3次元位置を視覚的に容易に理解することが可能である。
【0056】
なお、表示制御部119による表示制御は、係る例に限定されない。例えば、表示制御部119は、特定された注目点の3次元位置をUIとして用いて、多様な画面の表示制御を行ってもよい。また、情報処理装置10は、注目点の3次元位置に基づいて、表示以外の出力機能を有してもよい。
【0057】
<<4.動作>>
以上、本実施形態に係る情報処理装置10の構成例について説明した。続いて、本実施形態に係る情報処理装置10の動作例について、
図6を参照して説明する。
【0058】
図6は、本実施形態に係る情報処理装置10の動作例を示すフローチャート図である。
図6に示すように、
【0059】
まず、センサ部120がセンシング(撮像)により撮像画像を取得する(S102)。続いて、検出部111が撮像画像から手の検出を行い、撮像画像から手が検出されない場合(S104においてNO)、処理はステップS102に戻る。
【0060】
一方、撮像画像から手が検出された場合(S104においてYES)、検出部により手領域が取得される(S106)。続いて、切り出し部113により画像の切り出しと正規化が行われ、入力画像が得られる(S108)。
【0061】
注目点推定部115は、入力画像と類似する類似画像を、対応情報データベースから検索する(S110)。さらに、注目点推定部115は、検索により得られた類似画像に対応付けられた確率マップに基づいて、複数の投影方向における確率マップを特定する(S112)。
【0062】
続いて、統合部117が、ステップS112で特定された複数の投影方向における確率マップに基づいて、注目点の3次元位置を特定する(S114)。最後に、表示制御部119が、注目点の3次元位置に基づいて、表示部170による表示を制御し、例えば注目点を示すマーカを表示させる(S116)。
【0063】
なお、上述した一連の処理(S102〜S116)は、随時、または所定の間隔で繰り返されてもよい。
【0064】
<<5.変形例>>
以上、本開示の一実施形態を説明した。以下では、本開示の一実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、各変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
【0065】
<5−1.変形例1>
上記実施形態では、注目点推定部115が、類似画像検索に基づいて確率マップを特定する例を説明したが、本技術は係る例に限定されない。以下では、注目点推定部115が、機械学習手法を用いて、確率マップを特定する例を変形例1として説明する。用いられる機械学習手法は特に限定されないが、例えばCNN(Convolutional Neural Network)に基づく手法が用いられてもよい。
【0066】
例えば、注目点推定部115は、事前に学習画像と、学習画像に対応付けられた複数の投影方向における確率マップを学習して得られたCNN(学習器の一例)に、入力画像を入力することで、複数の投影方向における確率マップを特定してもよい。上記のようにして得られたCNNは、入力画像を入力することで、特定すべき複数の投影方向における確率マップを出力し得る。
【0067】
なお、学習画像、及び学習画像に対応付けられた複数の投影方向における確率マップは、それぞれ、
図4を参照して説明した対応情報に含まれる画像、及び確率マップと同様であってもよい。また、係る場合、記憶部160は、対応情報データベースを記憶していなくてもよい。また、記憶部160は、学習済みのCNN(学習器の一例)を記憶していてもよい。係る構成によれば、記憶部160が記憶するデータサイズを小さくすることが可能となる。
【0068】
また、上記のように機械学習手法を用いて確率マップが特定される場合、学習される確率マップは、絶対的な位置ではなく、相対的な位置で表現される確率マップであってもよい。
図7は、確率マップにおける相対的な位置について説明するための説明図である。
【0069】
図7に示す点P10は、デプス画像D10から特定される手のひら中心(手領域に属する点群の重心)のx−z平面上の位置である。ここで、
図7に示すように、x−z平面上における注目点P12の絶対的なz方向の位置は、正規化された範囲の端からの距離L1で表現され得る。一方、注目点P12の相対的なz方向の位置は、点P10からのz方向の距離L2で表現され得る。
【0070】
上記のような相対的な位置で表現される確率マップが学習に用いられることで、注目点同士の関係性を容易に求めることが可能である場合(例えば入力画像がデプス画像以外の画像である場合)、注目点推定部115は、より適切な確率マップを特定し得る。
【0071】
<5−2.変形例2>
上記実施形態では、入力画像がデプス画像である例を説明したが、本技術は係る例に限定されない。以下では入力画像が偏光情報を含む偏光画像である場合の例を、変形例2として説明する。
【0072】
図8は、偏光画像が入力画像として用いられる場合の利点を説明するための説明図である。
図8に示す現実空間R3は、テーブルR32に、手R34が接触している状態を表している。このような状況で、デプス情報を取得したデプス画像D3は、手領域のデプス値と、テーブル領域のデプス値の差分が小さいため、このようなデプス画像D3を入力画像として手検出を行う場合、精度が低下する恐れがある。
【0073】
一方、偏光情報は例えば被写体の材質に応じて異なるため、偏光情報を取得した偏光画像H3において、手領域とテーブル領域で値の差が明確となる。そのため、偏光画像を入力画像として手検出を行うと、手検出結果E3のように、高精度に手領域を検出することが可能となり、その結果、注目点位置の推定精度も向上し得る。
【0074】
偏光画像が入力画像として用いられる場合、記憶部160に記憶される対応情報データベースは、偏光画像、及び偏光画像と対応付けられた確率マップを対応情報として格納してもよい。また、対応情報は、複数の偏光方向における偏光画像を含んでもよい。
図9は、本変形例に係る対応情報の例を示す説明図である。
【0075】
図9に示すように、本変形例において対応情報データベースに格納される対応情報C5は、0°、90°、180°、270°の4つの偏光方向における偏光画像H52〜H58を含む画像(群)H5を含む。また、対応情報C5は、画像(群)H5と対応付けられた複数の投影方向における確率マップM52、M54を更に含む。
【0076】
係る場合、入力画像も複数の偏光方向における偏光画像を含んでよく、注目点推定部115は、偏光方向ごとに入力画像と、対応情報データベースに含まれる画像の差分を算出し、差分の合計が小さくなる画像(群)を類似画像としても抽出してもよい。係る構成により、より高精度に類似画像を特定することが可能であり、その結果として、注目点の位置推定精度も向上し得る。
【0077】
<5−3.変形例3>
以下では入力画像が法線情報を含む法線画像である場合の例を、変形例3として説明する。法線画像は、例えばデプス画像から生成されてもよいが、偏光画像から生成される方が分解能が高くなりやすため、偏光画像から生成されることが望ましい。
【0078】
図10は、法線画像について説明するための説明図である。法線画像H1からは、例えば法線方向(図中矢印)の情報を取得することが可能であり、物体の形状(例えば指の丸みの形状)を把握することができる。また、法線画像H1は、
図10に示すように、例えばx方向成分、y方向成分、z方向成分に分けて表現することが可能である。なお、法線画像H1は、例えば、法線成分のx方向、y方向、z方向をそれぞれR(赤)、G(緑)、B(青)の各チャンネルの値とした1のRGB画像(カラー画像)として表現されてもよい。
【0079】
図10に示す例では、法線画像をy方向成分に分解した画像の一部Y10において、領域Y12で値が比較的大きいため、法線は上方向(y軸正方向)の成分が強く、領域Y14で値が比較的大きいため、法線は下方向(y軸負方向)の成分が強いことがわかる。
【0080】
なお、法線成分の表現方法はx方向、y方向、z方向で表現する方法に限定されず、例えば法線成分を天頂角や方位角で表現することも可能である。
【0081】
法線画像が入力画像として用いられる場合、記憶部160に記憶される対応情報データベースは、法線画像、及び法線画像と対応付けられた確率マップを対応情報として格納してもよい。また、対応情報は、複数の法線成分を表現した法線画像を含んでもよい。
図11は、本変形例に係る対応情報の例を示す説明図である。
【0082】
図11に示すように、本変形例において対応情報データベースに格納される対応情報C6は、x方向、y方向、z方向の3方向の法線成分をそれぞれ表現した法線画像N62〜N66を含む画像(群)N6を含む。また、対応情報C6は、画像(群)N6と対応付けられた複数の投影方向における確率マップM62、M64を更に含む。
【0083】
係る場合、入力画像も同様にx方向、y方向、z方向の3方向の法線成分をそれぞれ表現した法線画像を含んでよく、注目点推定部115は、方向ごとに入力画像と、対応情報データベースに含まれる画像の差分を算出し、差分の合計が小さくなる画像(群)を類似画像としても抽出してもよい。
【0084】
<5−4.変形例4>
上記実施形態、及び変形例では、入力画像に含まれる画像の種類(RGB画像、デプス画像、偏光画像、法線画像等)は同一である例を説明したが、本技術は係る例に限定されない。以下では、変形例4として、入力画像が複数の種類の画像を含む例を説明する。
【0085】
また入力画像が複数の種類の画像を含む場合、記憶部160に記憶される対応情報データベースは、入力画像に対応する種類の画像を含む対応情報を格納してもよい。
【0086】
図12は、入力画像が、法線画像とデプス画像を含む場合の対応情報の例を示す説明図である。
図12に示すように、係る場合において対応情報データベースに格納される対応情報C7は、3方向の法線成分をそれぞれ表現した法線画像N72〜N76と、デプス画像D78と、を含む画像(群)G7を含む。また、対応情報C7は、画像(群)G7と対応付けられた複数の投影方向における確率マップM72、M74を更に含む。
【0087】
また、
図13は、入力画像が、偏光画像とデプス画像を含む場合の対応情報の例を示す説明図である。
図13に示すように、係る場合において対応情報データベースに格納される対応情報C8は、4つの偏光方向における偏光画像H82〜H88と、デプス画像D89と、を含む画像(群)G8を含む。また、対応情報C8は、画像(群)G8と対応付けられた複数の投影方向における確率マップM82、M84を更に含む。
【0088】
上記の場合、注目点推定部115は、画像の種類ごと、及び方向ごとに入力画像と、対応情報データベースに含まれる画像の差分を算出し、差分の合計が小さくなる画像(群)を類似画像としても抽出してもよい。係る構成により、より高精度に類似画像を特定することが可能であり、その結果として、注目点の位置推定精度も向上し得る。
【0089】
また、入力画像に含まれる複数種類の画像が、それぞれ別の用途で用いられてもよい。
図14は、入力画像が、デプス画像と偏光画像を含む場合の注目点推定処理の一例を示す説明図である。
図14に示す現実空間R9は、手R92(注目点を有する物体の一例)の上に、ペンR94(手以外の物体の一例)が存在する状態を表している。このような状況で取得されるデプス情報を利用して(デプス画像に基づいて)注目点推定を行って得られる確率マップA9には、注目点(指先)に対応する領域A92の他に、ペンの先に対応する領域A94にも大きな値(存在確率)が生じる場合がある。確率マップA9をそのまま統合部117に入力して3次元位置を特定すると、誤った3次元位置が特定される恐れがある。
【0090】
ここで、
図14に示すように、偏光情報を用いて(偏光画像に基づいて)、手検出を行った検出結果E9では、ペンの領域を除いた手領域E92が得られている。なお、検出結果E9は、
図14に示すように2値で表現されてもよいし、手の存在確率を示すマップとして表現されてもよい。注目点推定部115は、確率マップA9と検出結果E9を重ね合わせることで、注目点(指先)に対応する領域K92のみに大きな値を有する確率マップK9を特定することが可能である。なお、
図14では、手検出が偏光画像に基づいて行われる例を説明したが、偏光画像の代わりに法線画像が用いられてもよい。
係る構成により、注目点位置の推定精度が向上する。
【0091】
<<6.ハードウェア構成>>
以上、本開示の実施形態を説明した。最後に、
図15を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。
図15は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、
図15に示す情報処理装置900は、例えば、
図4に示した情報処理装置10を実現し得る。本実施形態に係る情報処理装置10による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
【0092】
図15に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913、及びセンサ915を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
【0093】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、制御部110を形成し得る。
【0094】
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0095】
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0096】
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば表示部170を形成し得る。
【0097】
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置908は、例えば、記憶部160を形成し得る。
【0098】
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
【0099】
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
【0100】
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。
【0101】
センサ915は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサである。センサ915は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得する。また、センサ915は、GPS信号を受信して装置の緯度、経度及び高度を測定するGPSセンサを含んでもよい。センサ915は、例えば、センサ部120を形成し得る。
【0102】
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
【0103】
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
【0104】
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
【0105】
<<7.むすび>>
以上説明したように、本開示の実施形態によれば、注目点の隠れや、デプス値の精度の影響を受け難いため、より高精度に注目点の3次元位置を推定することが可能である。また、デプス画像以外の画像を入力画像として用いることが可能であり、より多様な用途、構成で用いることが可能である。また、2次元の確率マップを複数特定した後に3次元位置を特定するため、3次元位置を直接的に求める場合よりも計算量を抑制することが可能である。
【0106】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0107】
例えば、上記実施形態では、注目点推定部115が、2方向の確率マップを特定する例を説明したが、本技術は係る例に限定されない。注目点推定部115は、3方向の確率マップを特定してもよく、係る場合、記憶部160が記憶する対応情報データベースに格納される対応情報に、3方向の確率マップが含まれてもよい。また、係る場合、統合部117は、3方向の確率マップに基づいて、3次元位置を特定してもよい。
【0108】
また、入力画像にデプス画像が含まれ、デプス値が高精度であることや、注目点が隠れていないことが判断可能な場合には、1方向の確率マップに基づいて得られた2次元位置のデプス値を参照することで、注目点の3次元位置が特定されてもよい。
【0109】
また、上記では、手の注目点位置を特定する例について説明したが、本技術に係る物体は手に限定されず、例えば人体や顔、自動車等であってもよい。また、特定された注目点位置は、表示以外にも様々な応用が可能である。
【0110】
例えば、手の注目点位置は、手の形状や注目点位置に基づいたUI、ユーザの意図理解等への応用が考えられ、人体の注目点位置は、例えば人体の形状や注目点位置に基づいたUI、ゲーム操作等への応用が考えられる。また、自動車の注目点位置は、運転アシストや自動運転機能における、他の自動車の状況を立体的に把握した処理等への応用が考えられる。
【0111】
また、上記の変形例2〜4では、複数の画像が入力画像に含まれる例を説明したが、入力画像は、全て1の方向(同一方向)からのセンシング(撮像)に基づいて得られた画像であってもよい。上述した本技術の実施形態によれば、複数の方向からセンシングした入力画像を用いなくとも、3次元位置を特定可能であり、センシングに係るコストが抑制され得る。
【0112】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0113】
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力画像に基づいて、複数の投影方向において、注目点の存在確率を示す確率マップを特定する注目点推定部と、
前記複数の投影方向における前記確率マップに基づいて、前記注目点の3次元位置を特定する統合部と、
を備える情報処理装置。
(2)
前記注目点推定部は、前記入力画像と類似する類似画像に対応付けられた確率マップに基づいて、前記確率マップを特定する、前記(1)に記載の情報処理装置。
(3)
前記注目点推定部は、複数の前記類似画像に対応付けられた前記確率マップに基づいて、前記確率マップを特定する、前記(2)に記載の情報処理装置。
(4)
前記注目点推定部は、学習画像、及び前記学習画像に対応付けられた複数の投影方向における確率マップを学習して得られた学習器に、前記入力画像を入力することで、前記確率マップを特定する、前記(1)に記載の情報処理装置。
(5)
前記統合部は、各投影方向における前記確率マップから最大値を有する2次元位置を取得し、前記2次元位置に基づいて、前記注目点の3次元位置を特定する、前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記入力画像は、偏光画像、法線画像のうち少なくともいずれか一方を含む、前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記入力画像は、複数の偏光方向における偏光画像を含む、前記(6)に記載の情報処理装置。
(8)
前記注目点は前記入力画像に含まれる物体が有する点であり、
前記入力画像は、さらにデプス画像を含み、
前記注目点推定部は、前記デプス画像に基づいて得られる確率マップと、前記偏光画像または前記法線画像に基づく前記物体の検出結果と、に基づいて、前記確率マップを特定する、前記(6)または(7)に記載の情報処理装置。
(9)
前記入力画像は、1の方向からのセンシングに基づいて得られた画像である、前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記情報処理装置は、前記注目点の3次元位置に応じた大きさで、前記注目点を示すマーカを表示させる表示制御部をさらに備える、前記(1)〜(9)のいずれか一項に記載の情報処理装置。
(11)
入力画像に基づいて、複数の投影方向において、注目点の存在確率を示す確率マップを特定することと、
前記複数の投影方向における前記確率マップに基づいて、前記注目点の3次元位置をプロセッサが特定することと、
を含む情報処理方法。
(12)
コンピュータに、
入力画像に基づいて、複数の投影方向において、注目点の存在確率を示す確率マップを特定する機能と、
前記複数の投影方向における前記確率マップに基づいて、前記注目点の3次元位置を特定する機能と、
を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。