【実施例】
【0025】
まず、三次元モデルをPoint SVDにより姿勢正規化する。三次元モデルでは、制作者やソフトウェアにより、大きさや位置・回転が任意となる。これらは抽出する三次元モデルの特徴量にも影響を与えるため、事前に正規化を行う必要がある。PointSVDは、三次元モデルの面にランダムに点を生成し、それらの点群の平均を三次元モデルの重心として、三次元空間の原点に平行移動することで位置の任意性を解決する。また、サンプル点を特異値分解することで、三次元モデルの主軸を求める。その主軸を、三次元空間のx軸,y軸,z軸に沿うように回転を行うことで回転の任意性を解決する。さらに、各頂点座標を原点からの最大距離で割ること
で正規化し、大きさの任意性を解決する。
【0026】
次に、複数視点N
ν(例えばgeodesic sphereの各頂点を視点とした38視点)からM×M(例えば256×256)ピクセルの大きさで濃淡L段階(例えば32段階)の深度バッファ画像を生成する。各深度バッファ画像で、注目画素と4近傍のいずれかと画素値が異なるものを境界画素として検出する。そして、
図1のように、境界画素において、注目画素と4近傍(Top、Right、Bottom、Left)との差を正負(Positive、Negative)に分類し、それぞれで画素値の出現頻度によるヒストグラムを作成する。よって、深度バッファ画像ごとに計算されるヒストグラムの大きさは4×2×Lビンとなる。各ヒストグラムは要素の総和により正規化される。
【0027】
本発明にかかる三次元モデルの特徴抽出方法およびアノテーションシステムのフロー(以下、流れということがある。)は、
図2に示される。七つのステップからなり、処理の手順に従ってステップごとに説明を行う。データベースに大量の三次元形状モデルが蓄積されており、形状モデルごとに七つのステップを繰り返す。
【0028】
<ステップ1>
データベースの各三次元形状モデルに対して、姿勢正規化を適用し、「位置」「回転」「大きさ」の任意性を解消する。姿勢正規化された三次元形状モデルは、その重心が半径1の球の中心にくるように配置される(
図3)。
【0029】
<ステップ2>
多数視点(例えば、38視点)の各々から深度バッファ画像を生成する。姿勢正規化された球を、38頂点をもつ三角パッチで近似し、その各頂点から球の中心に向かうベクトルに垂直な面に投影し深度バッファ画像(デプスバッファ画像)を生成する(
図4)。
【0030】
<ステップ3>
各深度バッファ画像に対して、すべての画素を境界画素(Border)と内部画素(Interior)に分類する(
図5)。
【0031】
<ステップ4>
注目画素と、前記注目画素の4近傍の各画素値との差を算出する(
図6)。
【0032】
<ステップ5>
前記ステップ4の差の値に応じて、深度バッファ画像ごとに4種類のヒストグラムの境界パターンヒストグラム(Border Pixel Pattern Histogram:BPPHという。)を作成する(
図7)。
【0033】
<ステップ6>
前記ステップ5で得られたBPPH特徴量を前記ステップ2で適用する複数の視点からの深度バッファすべてに適用して得られた特徴量を三次元形状モデルの形状特徴量とし、検索におけるインデックスとして利用する。なお、最終的には、ヒストグラムの頻度合計が1.0となるように正規化を行う(
図7)。
【0034】
<ステップ7>
k−近傍法でアノテーションを行う。ここで、
図8に示すように、たとえば、{vehicle, bicycle}は、訓練データとして、この二つのラベルのついた三次元形状モデルのアノテーションを表す。
図8では、円弧の中心にある未知な三次元形状モデルに対して、k=3として、3近傍にあるラベルの和集合が出力ラベルに生成される。
【0035】
3Dモデル同士の類似度計算の際は、クエリ(検索質問)となる3Dモデルに上記の1〜6のステップで特徴量に変換し、その特徴量とデータベースにある特徴量との距離をステップ7で計算し、距離の小さい順にソーティングしたものが、類似する形状の順序となる。本実施例では、この距離計算を、(数1)に示される、Histogram Intersection距離を使って求めている。
【0036】
【数1】
【0037】
なお、本発明の実施例における前記数値パラメータは実施形態の一例にすぎず、前記フローは、前記数値パラメータに依存しない。
【0038】
また、前記ステップ7を自動アノテーションの代わりに、検索や分類に変更することで、検索装置にも、また、分類装置にも適用することができる。
【0039】
BPH特徴量による三次元モデル・アノテーションシステムの有効性を確認するために、従来手法との比較実験を行った。
【0040】
まず、複数視点N
νの境界画素ヒストグラムの全組み合わせで相違度を計算し、N
ν×N
νの大きさの相違度行列を計算する。そして、相違度行列に対してハンガリアン法を適用することで得られる、組み合わせの最小和の相違度を三次元モデルの相違度とする。これにより、三次元モデルの回転の任意性の解決と、複数視点での三次元モデルの形状比較を実現することができる。
【0041】
今回の実験ではテストデータとしてSHREC’12 Generic 3D DatasetとPrinceton Shape Benchmark(PSB)の三次元物体を利用した。SHREC’12 Generic 3D DatasetとPSBは本来、三次元物体の形状検索のためのデータセットである。しかし、三次元物体のアノテーションを目的としたデータセットは、これまでに提案されていないため、これらの三次元物体に対して、人手で複数のラベルを付与した。例としては、家の形状をした三次元物体であれば、building、house、manmade、architectureのようにラベル付けが行われている。今回の実験では、SHREC’12 Generic 3D Datasetの1,200個の三次元物体に、合計で120種類のラベル付けを行った。また、PSBでは、1,814個の三次元物体に,188種類のラベル付けを行った。これらのデータセットは、様々な三次元物体から構成され、一般的な検索精度を評価することができる。
【0042】
これらの三次元物体に対し、Leave−one−out法を用いて、それぞれのデータに対してアノテーションを行った。この手法では、SHREC’12 Generic 3D Datasetであれば、1,199個の三次元物体を訓練データとし、残りの1個の三次元物体に対し、アノテーションを行う。
【0043】
ラベル推定アルゴリズムにはk−近傍識別機(k−Nearest Neighbor Classifier 、 k−NN)を用いた。k−NNは、特徴空間上で、テストデータと訓練データとの比較を行い、テストデータのk−近傍にある訓練データが属するクラスの内、 最多数を占めたクラスを、識別結果として出力する分類器である。
【0044】
k−NNをアノテーションに用いる場合は、
図8のようになる。訓練データにクラスではなく複数ラベルを付与しておき、テストデータのk−近傍にある訓練データのラベルを、アノテーション結果として出力する。k−NNはシンプルなアルゴリズムでありながら、画像の自動アノテーションでは優れた性能を示している。今回は、k=1として、最近傍法を用いた。
【0045】
評価尺度としては、画像のアノテーションと同様に、ラベルに対する再現率であるRecall、適合率であるPrecision、 調和平均であるF−Measureを用いた。いずれの評価尺度も値が大きくなるほど、キーワードの推定性能が優れていると言える。
【0046】
比較手法としては、関連研究で述べた、Light Field Descriptor(LFD)、DESIRE Descriptor(DESIRE)、Border / Interior Pixel Classification(BIC)、Spherical Harmonics Descriptor(SHD)を用いた。BICについては、二次元画像の特徴抽出手法であるため、BPHと同様に、深度バッファ画像に対して処理を行った。
【0047】
表1はSGDにおける各特徴量の適合率、再現率、F−値をまとめたものである。発明技術は全ての評価尺度において最も優れたアノテーション性能となった。従来技術よりも高い適合率でありながら、一般に適合率とトレードオフの関係にある再現率においても、従来技術より高い値となっている。これは、発明技術が、三次元モデルのアノテーションにおいて、正確性と網羅性を兼ね備えていることを示している。
【0048】
【表1】