【文献】
Jamie Shotton et al.,“Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images”,2013 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2013年,pp.2930-2937
(58)【調査した分野】(Int.Cl.,DB名)
前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記RGB画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、1以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記3次元座標を対応付けることで、姿勢推定モデルを生成する、請求項1に記載の姿勢推定モデル生成装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1に記載の技術は、RGB−Dカメラの使用を前提とした技術であって、一般的なステレオRGBカメラにそのまま適用することはできない。また、RGB−Dカメラは、カメラ付近の赤外線照明を被写体に照射した場合に、被写体からの反射によって得られる輝度データに基づいてデプスを算出する。したがって、遠くの被写体や、屋外における被写体のデプスの推定に誤差が生じやすく、姿勢推定を精度よく行うことは困難である。
【0005】
本発明は、上記の問題に鑑みてなされたものであり、RGBカメラを用いて、パッシブな構成で、ワークの姿勢推定を精度よく行うことができる、姿勢推定モデル生成装置及び姿勢推定装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の姿勢推定モデル生成装置は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、前記複数の撮像デバイス
の中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部とを備えた構成を有している。
【0007】
ワークの各パーツは、ワークを撮像した画像において、輝度分布とデプス分布に特徴が現れる。したがって、画像におけるワークのパーツ位置を3次元座標で表現した場合、輝度分布とデプス分布の関係と、この3次元座標との関係を学習することで、撮像データからワークのパーツ位置の座標、ひいては、ワークの姿勢を推定することが可能となる。この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のRGB輝度分布及び/または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定することが可能なモデルを生成することができる。したがって、パッシブな構成で、姿勢推定を行うことができるモデルを生成することができる。
【0008】
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記RGB画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、1以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記3次元座標を対応付けることで
、姿勢推定モデルを生成してよい。
【0009】
輝度分布及びデプス分布と、オブジェクトの3次元座標との関係を直接数式化することは困難である。したがって、この構成のように、ランダムフォレストに基づいて、注目ピクセル周辺におけるRGB画像間の輝度差及び/またはデプス値の差に基づいて、注目ピクセルが属する部分領域集合のノード分割を繰り返し行うことで、輝度分布及び/デプス値分布からオブジェクトの姿勢を推定するためのモデルを簡易に生成することができる。なお、部分領域とは、画像を所定の大きさの領域に分割した場合における、1つの単位領域を意味する。
【0010】
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、前記デプス画像内のあるピクセルにおけるデプス値をd(p
i)、カメラβによって撮像された画像のあるピクセルにおけるRGB輝度をI
β(p
i,γ)オフセット量をω
1、ω
2として、
【数1】
【数2】
d
i:注目ピクセルにおけるデプス値
γ1,γ2:RGB輝度
β:カメラID
で表されるf
da-d(θ,p
i)またはf
da-agb(θ,p
i,β)と、分割閾値τとの比較により、情報利得が最も大きくなるように、前記ノード分割を行ってよい。
【0011】
この構成のように、注目ピクセル周辺におけるRGB画像間の輝度差または2ピクセル間のデプス差と分割閾値τとの比較によって、ノード分割後の情報利得が最も大きくなるように、ノード分割を繰り返し行うことで、輝度分布及びデプス分布から姿勢を推定するためのモデルを簡易に生成することができる。
【0012】
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、前記部分領域を識別するIDは、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDを用いてよい。
【0013】
部分領域の集合をノード分割していくことで、決定木のリーフノードには、まず、各部分領域が対応付けられることになる。これに正解データとしての3次元座標を対応付けることで、姿勢を推定するためのモデルを生成することができる。この構成によれば、各リーフノードに部分領域を対応付ける際、デプス画像おける部分領域のIDを用いればよく、RGB画像における部分領域にIDを付与する必要はない。したがって、簡易な構成で、姿勢推定モデルを生成することができる。
【0014】
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、前記部分領域を識別するIDは、各前記RGB画像における前記部分領域に付与されたIDと、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDに対して、所定の重みづけ係数が設定された所定の算出式に基づいて決定されてよい。
【0015】
RGB画像と仮想デプス画像とは、相互に撮像角度が異なるため、同じ位置の部分領域に写るオブジェクトの領域が異なる。この構成によれば、各リーフノードに部分領域を対応付ける際、このような画像のずれも考慮して部分領域IDが決定されるので、精度よく姿勢推定モデルを生成することができる。
【0016】
本発明の姿勢推定装置は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、前記複数の撮像デバイス
の中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、所定の推定モデルに基づいて、前記RGB画像組から、前記仮想的なデプス撮像装置によってデプス画像を撮像した場合におけるデプス値を推定するデプス推定部と、前記姿勢推定モデル生成部にて生成された
姿勢推定モデルを用いて、前記RGB画像組及び推定された前記デプス値に基づいて、前記対象物の姿勢推定を行う姿勢推定部とを備えた構成を有している。
【0017】
この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のRGB輝度分布及び/または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定するモデルを生成し、姿勢推定を行うことができる。したがって、パッシブな構成で、姿勢推定を行うことができる。
【0018】
本発明の姿勢推定装置において、前記デプス推定部は、前記対象物が、前記
姿勢推定モデルの生成において学習対象となっていない場合には、推定デプス値をゼロとして出力してよい。
【0019】
この構成によれば、推定デプス値ゼロの領域は、オブジェクトが存在しない領域と扱うことができ、例えば、推定デプス値ゼロの領域をマスクすることにより、姿勢推定対象領域から除外することができる。したがって、かかる構成により、高速かつ精度よく姿勢推定を行うことができる。
【0020】
本発明の姿勢推定モデル生成方法は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、前記複数の撮像デバイス
の中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するステップと、前記RGB画像
組を取得
するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像
を生成
するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを備える。
【0021】
本発明のプログラムは、姿勢推定モデルを生成するためのプログラムであって、コンピュータに、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、前記複数の撮像デバイス
の中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像を生成するステップと、前記RGB画像
組を取得
するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像
を生成
するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを実行させる。
【発明の効果】
【0022】
本発明によれば、RGBカメラを用いて、ワークの姿勢推定を精度よく行うためのモデルを生成することができる。
【発明を実施するための形態】
【0024】
以下、本発明の実施の形態のデプス推定装置について、図面を参照しながら説明する。
【0025】
図1は、本発明の実施の形態の姿勢推定装置の構成を示す図である。
図1に示すように、本発明の実施の形態の姿勢推定装置1は、RGB画像取得部10と、デプス画像生成部11と、ピクセル情報取得部12と、姿勢推定モデル生成部13と、デプス推定部14と、と、姿勢推定部15と、記憶部16とを備える。記憶部16は、学習データ記憶部17と、デプス推定モデル記憶部18と、姿勢推定モデル記憶部19とを備える。
【0026】
(姿勢推定装置の構成)
RGB画像取得部10は、ステレオカメラによって、様々なワーク(姿勢推定対象物)を、様々な距離、角度から撮像された左右のRGB画像を取得し、学習データ記憶部17に出力する。デプス画像生成部11は、仮想中央カメラによって撮像された場合のデプス画像をコンピュータグラフィックによって生成し、左右のRGB画像と対応付けて学習データ記憶部17に出力する。ここで、仮想中央カメラとは、RGB画像取得部10にて取得されたRGB画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。すなわち、デプス画像生成部11にて生成されるデプス画像は、ステレオカメラの左右カメラ及び仮想的な中央カメラによって、同時に撮影を行った場合において、当該仮想的中央カメラから取得されるデプス画像に対応する。したがって、デプス画像生成部11は、RGB画像取得部にて取得した左右のRGB画像のペアの分だけ、デプス画像を生成する。
【0027】
ピクセル情報取得部12は、デプス画像生成部11にて生成されたデプス画像における、各ピクセル情報を取得し、RGB画像の各ペアと対応付けて、学習データ記憶部17に出力する。本実施の形態において、ピクセル情報とは、各ピクセルに対応付けられた、オブジェクト識別データ(ID等)及び各オブジェクトにおける位置を示す3次元座標データまたはオブジェクト外部の背景領域であることを示すデータである。なお、本実施の形態において、ピクセル情報は、ユーザにより入力されたデータを取得する。
【0028】
姿勢推定モデル生成部13は、RGB画像と、ピクセル情報と、仮想的デプス画像を用いて、姿勢推定モデルを生成し、姿勢推定モデル記憶部19に出力する。本実施の形態においては、左右RGB画像の輝度分布及びデプス値分布と、オブジェクトにおける位置情報との関係を学習し、RGB画像から、対象ワークの姿勢を推定することができるモデルを生成する。後述のように、本実施の形態において、姿勢推定モデルは、ランダムフォレストに基づいて生成される、仮想中央カメラから見たワークの3次元座標を出力する複数の決定木として生成される。
【0029】
デプス推定部14は、デプス推定モデル記憶部18に記憶される推定モデルを用いて、上記の仮想中央カメラによって画像を撮像した場合における、当該画像のあるピクセルにおけるデプス値を推定する。後述のように、本実施の形態においては、デプス値の推定は、RGB画像取得部10にて取得された左右のRGB画像ペアを用いて行われる。
【0030】
姿勢推定部15は、姿勢推定モデル生成部13にて生成され、姿勢推定モデル記憶部19に記憶されるモデルと、デプス推定部14にて算出された推定デプス値を用いて、ステレオカメラから取得した左右のRGB画像について、仮想中央カメラから見たワークの姿勢推定を行う。具体的には、ランダムに選択した3つのピクセルを姿勢推定モデルに当てはめて、3つのピクセルの3次元座標を求め、それら3ピクセルの位置関係に基づいて、1つの姿勢候補とする。同様に、3ピクセルのランダムサンプリングを行って、複数の姿勢候補を求め、最適化処理に基づき、1つの姿勢候補を選択し、姿勢推定結果として出力する。
【0031】
なお、
図1に示す姿勢推定装置1は、CPU、RAM、ROM、HDD等を備えたコンピュータにより実現される。CPUがROMに記憶されたプログラムを読み出して実行することにより、姿勢推定モデル生成部13等の機能が実現される。このような姿勢推定装置1を実現するためのプログラムも本発明の範囲に含まれる。
【0032】
また、上述のように、RGB画像取得部10と、デプス画像生成部11と、ピクセル情報取得部12と、姿勢推定モデル生成部13と、学習データ記憶部17との協働により、姿勢推定モデルが生成される。したがって、これらの構成により、姿勢推定モデル生成装置としての機能が実現される。
【0033】
(デプス推定モデル生成装置の構成)
ここで、本実施の形態における姿勢推定装置1のデプス推定部14にて用いられる、デプス推定モデルを生成する、デプス推定モデル生成装置の構成について説明する。
図2は、デプス推定モデル生成装置2の構成を示すブロック図である。
図2に示すように、デプス推定モデル生成装置2は、RGB画像取得部20と、デプス画像生成部21と、デプス推定モデル生成部22と、記憶部23とを備える。記憶部23は、学習データ記憶部24と、デプス推定モデル記憶部25とを備える。
【0034】
RGB画像取得部20は、ステレオカメラにて撮像された左右のRGB画像を取得し、学習データ記憶部24に出力する。デプス画像生成部21は、RGB画像取得部20にて取得された左右1組のRGB画像に対応する、仮想カメラのデプス画像をコンピュータグラフィックスによって生成し、学習データ記憶部24に出力する。ここでも、仮想カメラとは、RGB画像取得部20にて取得されたRGB画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。
【0035】
デプス推定モデル生成部22は、学習データ記憶部24に記憶される、RGB画像及びデプス画像生成部21にて生成されたデプス画像を用いて、デプス推定モデルを生成する。被写体をステレオカメラによって、距離を様々に変えて撮像した場合、カメラからの距離(デプス)と左右カメラ画像の輝度変化との間には、確率的な関数関係が存在する。本実施の形態においては、デプスと左右画像とのこのような関係性に着目し、左右画像データからデプス値へ変換する確率的関係の逆関数を、デプス推定モデルとして学習によって取得する。
【0036】
(デプス推定モデル生成フロー)
まずは、デプス推定モデル記憶部18に記憶されるデプス推定モデルを生成する、デプス推定モデル生成装置2の動作フローについて説明する。
図3は、本実施の形態におけるデプス推定モデル生成装置2の動作フロー図である。デプス推定モデル生成装置2は、まず、RGB画像を取得し、学習データ記憶部24に記憶する(ステップS1)。ステップS1にて取得されるRGB画像は、ステレオカメラによって、視線の方向及び/または距離を様々に変えて撮像された左右のペア画像である。続いて、デプス推定モデル生成装置2は、ステップS1にて取得したRGB画像の各左右画像のペアについて、仮想カメラのデプス画像を生成し、各画像ペアに対応付けて、学習データ記憶部16に記憶する(ステップS2)。
図4(a)、(b)は、ステップS1にて取得されたRGB画像の一例、
図4(c)は、ステップS2にて生成されたデプス画像の一例を示す図である。これらのRGB画像のペア及びそれに対応するデプス画像が、1組の教師データとなる。
【0037】
図3に戻り、デプス推定モデル生成装置10は、各教師データの組について、注目領域(ROI)のサンプリングを行う(ステップS3)。以下では、サンプリングされた注目領域の中心のピクセルを「注目ピクセル」と呼ぶ。デプス推定モデル生成装置2は、注目ピクセルについて、左画像についてω
1、右画像についてω
2だけオフセットし(ステップS4)、オフセット後の左右画像のRGB輝度の差に基づいて、デプス値集合のノード分割を行う(ステップS5)。具体的には、各ノードにおいて、次式で表されるオフセット後の左右画像のRGB輝度の差f(ω、γ、p
i)
【数3】
について、分割閾値をτとし、分割後のデプス値の分散E(j)
【数4】
が最小となるように、上式のパラメータを決定して、ノード分割を行う。本実施の形態では、i)RGBの組み合わせ(γ
1及びγ
2として、どのRGB輝度値を、単独でまたはいくつ組み合わせて用いるか)、ii)オフセット量ω
1、ω
2、iii)分割閾値τ、が、学習により決定するパラメータとなる。なお、i)RGBの組み合わせについては、例えば、右画像はR輝度値のみ、左画像はGとB輝度値のみ、等、左画像と右画像とで、異なる画素の輝度値を用いてもよい。
【0038】
図5は、ステップS4及びS5における、ノード分割を模式的に説明するための図である。今、あるノードJにおいて、
図4(c)のデプス画像の注目ピクセルp
iにおけるデプス値d
iを2つの子ノード(ノードK、ノードL)のうちのいずれかに分類する例を考える。
図5のRGB画像の左画像において、オフセット後のピクセル(p
i+ω
1)のR/G/Bの少なくとも1つの輝度値(2つ以上の輝度値を用いる場合は、その合計値)が、上式におけるI
L(p
i+ω
1,γ
1)であり、また、RGB画像の右画像において、オフセット後のピクセル(p
i+ω
2)のR/G/Bの少なくとも1つの輝度値(2つ以上の輝度値を用いる場合は、その合計値)が、上式におけるI
R(p
i+ω
2,γ
2)である。本実施の形態においては、これらの2つの輝度値の差が入力値となる。この入力値は、
図5に模式的に示すように、同じ注目領域内の注目ピクセルp
i周辺の2つのピクセル間の輝度差を意味する。
【0039】
p
iにおけるデプス値d
iが、ノードJからノードKに分類されたとすると、ノードKでは、注目ピクセルp
iからのオフセット量を変えて、p
i周辺の2つのピクセル間の輝度差に基づいて、デプス値d
iを2つの子ノードのいずれに分類するかが決定される。このように、1回のノード分割でデプス値と対応付けられるのは、左右画像の2つのピクセル間の輝度差である。しかし、
図5から理解されるように、ステップS4及びS5の処理を繰り返してノードを順次分割していくことで、左右画像の同じ注目領域内の輝度分布と、中心ピクセルである注目ピクセルにおける仮想カメラから見たデプスとの関係を学習していくことになる。本願の発明者は、推定対象となる被写体にテクスチャが少ない場合であっても、左右画像の同じ注目領域内の画像の輝度分布は、対象物までの距離に応じて変化することを見出した。したがって、本実施の形態のように、ある注目ピクセルについて、オフセット量を変化させながら、繰り返し左右画像の輝度差とデプス値との対応付けを行う学習によって、推定対象にテクスチャが少ない場合でも、精度よくデプス値を推定することができるモデルを生成することができる。
【0040】
再び
図3に戻り、デプス値推定モデル生成装置10は、ステップS6にて、所定の収束条件を満足したと判断されるまで、ステップS4及びS5の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割後のデプス値の分散値の減少幅が所定の閾値以下になること、等を設定することができる。
【0041】
所定の収束条件を満たすと判断された場合には(ステップS6にてYes)、1つの回帰木の生成を終了し、所定数の回帰木が生成されるまで(ステップS7にてYes)、注目領域のサンプリング(ステップS3)に戻り、回帰木の生成を繰り返す。
【0042】
図6は、以上の処理によって生成された1つの回帰木の一例を示す図である。
図6に示すように、生成された回帰木の各リーフには、デプス値のヒストグラムが対応付けられることになる。
【0043】
(デプス値推定フロー)
次に、本発明の実施の形態における姿勢推定装置1において、姿勢推定モデルを用いた姿勢推定を行う際に用いられる、デプス値の推定フローについて説明する。本実施の形態において、デプス値の推定は、上述の処理によって生成された、デプス推定モデルを用いて行われる。
【0044】
図7は、本実施の形態の姿勢推定装置1におけるデプス値推定処理の流れを示す図である。姿勢推定装置1は、まず、推定対象となるステレオ画像の入力を受け付ける(ステップS11)。そして、入力された左右画像の各ピクセルについて、複数の回帰木である推定モデルを適用し、(ステップS12)、デプス確率値の合計を算出する(ステップS13)。姿勢推定装置1は、さらに、デプス方向及び空間方向に平滑化フィルタ処理を行い、デプス出力値とする(ステップS14)。
【0045】
なお、ステップS14におけるフィルタ処理には、種々のアルゴリズムをベースとする線形フィルタまたは非線形フィルタを用いてよい。その際、例えば、空間方向にはバイラテラルフィルタ等のように、エッジを保存するような非線形フィルタを適用することもできる。
【0046】
また、本実施の形態では、デプス推定モデルの生成において学習したオブジェクト以外の物が存在する領域については、デプス値をゼロとして出力する。
【0047】
(姿勢推定モデル生成フロー)
次に、本発明の実施の形態における、姿勢推定モデル生成フローについて説明する。本実施の形態において、姿勢推定モデルの生成は、上述の処理にて推定されたデプス値を用いて行われる。
【0048】
図8は、本実施の形態における、姿勢推定モデルの生成処理の流れを示す図である。まず、RGB画像取得部10はRGB画像を取得し(ステップS201)、デプス画像生成部11はデプス画像を生成する(ステップS202)。また、ピクセル情報取得部12は、デプス画像の各ピクセルについて、ピクセル情報を取得する(ステップS203)。次に、姿勢推定モデル生成部13は、デプス画像において、対象ワークが映っている領域を所定の大きさの部分領域に分割し、各部分領域にラベルを付与する(ステップS204)。ここで、ラベルとは、各部分領域のIDを意味する。
【0049】
次に、姿勢推定モデル生成部13は、注目領域のサンプリングを行う(ステップS205)。以下では、この注目領域の中心ピクセルを「注目ピクセル」と呼ぶ。姿勢推定モデル生成部13は、注目ピクセルについて、オフセット後の左右画像のRGB輝度の差(注目ピクセル周辺の輝度差特徴)を算出し、また、デプス画像における注目ピクセルを異なる2ピクセルにオフセットした後の、デプス差(注目ピクセル周辺のデプス差特徴)を算出する(ステップS206)。なお、輝度差特徴及びデプス差特徴を算出する際のオフセット量は、デプス画像の注目ピクセルにおけるデプス値で規格化した値を用いる。同じピクセル分だけオフセットさせても、カメラからオブジェクトまでの距離(デプス)に応じて、オフセット後のピクセルが対応するオブジェクトの位置は異なる。オフセット量をデプス値で規格化することで、モデルを用いて姿勢推定を行う際に、カメラからオブジェクトまでの距離を学習時と同一にする必要はない。注目ピクセル周辺の輝度差特徴f
da-agb(θ、p
i)は、具体的には、
【数5】
であり、注目ピクセル周辺のデプス差特徴は、
【数6】
である。
【0050】
次に、ステップS206にて算出された注目ピクセル周辺の輝度差特徴及びデプス差特徴と、分割閾値τとを比較し、ノード分割を行う(ステップS207)。具体的には、輝度差特徴とデプス差特徴のうち、分割閾値τとの減算を行い、分割による情報利得がより大きくなる方を選択する。その上で、分割後の情報利得が最大となるように、上式(選択した、輝度差特徴またはデプス差特徴のいずれか)のパラメータを決定して、ノード分割を行う(ステップS207)。オブジェクトの各パーツは、オブジェクトを撮像した画像において、輝度分布とデプス分布に特徴が現れるが、オブジェクトのパーツによって、輝度分布よりもデプス分布に、より大きく特徴が現れる場合と、デプス分布よりも輝度分布に、より大きく特徴が現れる場合がある。本実施の形態は、この点に着目し、入力値をより少ない回数で(つまり、高速に)分類できるようにノード分割を行うものである。本実施の形態では、i)RGBの組み合わせ(γ
1及びγ
2として、どのRGB輝度値を、単独でまたはいくつ組み合わせて用いるか)、ii)オフセット量ω
1、ω
2、iii)分割閾値τが、学習により決定するパラメータとなる。
【0051】
ステップS208にて、所定の収束条件を満足したと判断されるまで、ステップS206及びS207の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割前後の情報利得の利得差が所定の閾値以下になること、等を設定することができる。
【0052】
所定の収束条件を満たすと判断された場合には(ステップS208にてYes)、1つの回帰木の生成を終了し、所定数の回帰木が生成されるまで(ステップS209にてYes)、注目領域のサンプリング(ステップS205)に戻り、回帰木の生成を繰り返す。
【0053】
ステップS209までの処理で、
図9に模式的に示すような、決定木の構造が生成される。この段階で、各リーフノードに対応付けられているのは、注目ピクセルが属する部分領域のラベルである。本実施の形態では、3次元座標を出力するためのモデルを生成することから、ステップS209に続いて、各リーフノードに、正解データとしての3次元座標の対応付けを行う。
【0054】
具体的には、まず、姿勢推定モデル生成部13は、ピクセルのランダムサンプリングを行う(ステップS210)。次に、姿勢推定モデル生成部13は、学習データ記憶部17に記憶されるピクセル情報のうち、ステップS210で選択したピクセルに対応するピクセル情報を取得し、各リーフノードにピクセル情報を対応付ける(ステップS211)。具体的には、ステップS210にて選択したピクセルについて、ステップS209までの処理で生成された木構造をたどり、到達したリーフノードに、取得したピクセル情報を対応付ける。全てのリーフノードにピクセル情報を対応付けるまで(ステップS212にてYes)、ステップS210及びS211の処理を繰り返し、姿勢推定モデルを生成する。
【0055】
図10は、生成された1つの決定木の一例を示す図である。上述のように、ピクセル情報とは、各ピクセルが属するオブジェクトのID及び当該オブジェクトにおける3次元座標データまたは背景に属することを示すデータである。したがって、1つのリーフノードに複数の3次元座標が割り当てられ得る。本実施の形態では、ミーンシフト等のクラスタリング手法を用いて、代表座標値を割り当てる。
図10において、p(c|l
j)は、j番目の決定木におけるリーフノードlに分類されるピクセルが、オブジェクトcに属する確率、p(bg|l
j)は、同じリーフノードに分類されるピクセルが、背景に属する確率を示す。また、y
c(l
j)は、同じリーフノードに分類されるピクセルの、オブジェクトcにおける推定3次元座標値である。
【0056】
(姿勢推定フロー)
図11は、本実施の形態における、姿勢推定処理の流れを示すフロー図である。まず、姿勢推定装置1は、推定対象となるワークを撮像したステレオRGB画像の入力を受け付ける(ステップS31)。次に、デプス推定部14は、デプス推定モデルを用いて、ステップS31にて取得したRGB画像に基づき、デプス値の推定を行う(ステップS32)。続いて、姿勢推定部15は、ステップS31にて取得したRGB画像及びステップS32にて算出された推定デプス値に基づき、姿勢推定モデルを用いて、オブジェクトの識別と、オブジェクトにおける3次元座標値を求める(ステップS33)。そして、姿勢推定部15は、最適化処理を行い、ワーク姿勢を決定する(ステップS34)。
【0057】
最適化処理は、オブジェクトの3Dモデルを生成したうえで、3次元座標と対応する3Dモデルの3点をランダムサンプリングし、この3点からワーク姿勢候補を推定する。そして、i)レンダリング画像とのデプス差、ii)レンダリング画像との3次元座標の差、iii)オブジェクト存在確率、の3つの値の和をエネルギー(コスト)として、これを最小にする姿勢を求める。
【0058】
ところで、上述のように、本実施の形態において、デプス推定部14は、デプス推定モデルの生成の際に学習したオブジェクト以外のワークについては、デプス値ゼロを出力する。デプス値がゼロであるということは、そこにオブジェクトが存在しないことと同じとみてよい。このことを利用して、本実施の形態では、iii)クラス存在確率について、デプス値ゼロの領域は、クラス存在確率をゼロとする。また、上記の最適化処理において、3点をランダムサンプリングする際に、デプス値ゼロの領域からランダムサンプリングが行われないようにする。これにより、不要な姿勢候補を予め除外することができ、また、エネルギー算出の負荷を軽減させることができる。すなわち、上述のデプス推定モデル生成装置にて生成されたモデルを用いて算出されたデプス推定値を姿勢推定に用いることで、高速に、精度よく、姿勢推定を行うことができる。
【0059】
以上、説明したように、上記の実施の形態の姿勢推定モデル生成装置は、ランダムフォレストに基づいて、注目ピクセル周辺におけるRGB画像間の輝度差及び/またはデプス画像における2ピクセル間のデプス差に基づいて、ラベル集合のノード分割を繰り返し行い、決定木の構造を生成する。そして、各リーフノードに、正解データとしての3次元座標とオブジェクトID(または、オブジェクトの存在しない背景領域)を対応付けることで、3次元座標を推定するためのモデルを生成し、推定された3次元座標に基づいてワークの姿勢推定を行う。したがって、RGBステレオカメラを用いて、パッシブな構成でワークの姿勢推定を行うことができるモデルを生成することができる。
【0060】
なお、上記の実施の形態では、デプス画像を生成し、該デプス画像に基づいて算出されたデプス値と、RGB画像の輝度データとに基づいて、姿勢推定モデルを生成する場合について説明したが、デプス画像の生成は行わずに、代わりに、デプス推定部にて、デプス推定モデルを用いて算出される推定デプス値を用いてもよい。
【0061】
また、上記の実施の形態では、生成されたデプス画像における部分領域のラベルIDを用いてノード分割を行う場合について説明したが、代わりに、RGB左右画像を同様に部分領域に分割して、部分領域のラベルIDを用いてもよい。また、デプス画像における部分領域のラベルIDに加えて、左右画像における部分領域のIDを用いてもよく、この場合、それぞれのIDに所定の重みづけをした上でラベルIDを決定してもよい。
【0062】
さらに、上記の実施の形態では、ステレオカメラによって撮影された2つの左右画像を輝度分布を求める教師データとして利用する場合について説明したが、本発明の範囲はこれに限られない。例えば、2つ以上の撮像デバイスによって撮像された、2つ以上の左右画像をセットとしてもよい。この場合、分割閾値τと比較される輝度差特徴は、そのうちの1つまたは2つのカメラによって撮像された1つまたは2つの画像間の輝度値の差
【数7】
としてもよい。また、分割閾値τと比較する輝度差特徴の算出式は、上式に限られない。例えば、
【数8】
等、2つ以上の画像を用いて、各画像のオフセット後の輝度値を用いた所定の演算結果を分割閾値τと比較してもよい。
【0063】
また、上記の実施の形態では、ステレオカメラの中央に仮想カメラを設置した場合のデプス画像を生成する場合について説明したが、仮想カメラの設置位置は、中央でなくてもよいし、仮想カメラは1つに限られない。例えば、RGB撮像デバイスが、等位平行に4つ設置されている場合、左端の撮像デバイスおよび右端の撮像デバイスによって取得したRGB画像に対し、左から2番目、3番目の撮像デバイスから見たデプス画像を生成してもよい。この場合、輝度差特徴の変形例として説明したように、任意の仮想カメラを組み合わせてデプス差特徴を算出してもよく、また、2つ以上のデプス画像のデプス値を用いた所定の演算結果をデプス差特徴としてもよい。