特許7491830 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7491830被写体シルエット抽出装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-20

(45)【発行日】2024-05-28

(54)【発明の名称】被写体シルエット抽出装置、方法及びプログラム

(51)【国際特許分類】

G06T 7/564 20170101AFI20240521BHJP

G06T 7/80 20170101ALI20240521BHJP

G06T 7/194 20170101ALI20240521BHJP

【ＦＩ】

G06T7/564

G06T7/80

G06T7/194

【請求項の数】 10

(21)【出願番号】P 2020212906

(22)【出願日】2020-12-22

(65)【公開番号】P2022099127

(43)【公開日】2022-07-04

【審査請求日】2023-03-07

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100092772

【弁理士】

【氏名又は名称】阪本清孝

(74)【代理人】

【識別番号】100119688

【弁理士】

【氏名又は名称】田邉壽二

(72)【発明者】

【氏名】渡邊良亮

【審査官】佐藤実

(56)【参考文献】

【文献】特開２００３－０６７７２６（ＪＰ，Ａ）

【文献】特開２０１８－２０５７８８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出装置において、
カメラで撮影した3D空間およびその動画像の対応する画素ペアの座標に基づいて推定したカメラパラメータの再投影誤差でカメラパラメータ誤差を代表するカメラパラメータ誤差推定手段と、
動画像から被写体シルエットを取得する手段と、
前記カメラパラメータ誤差に基づいて、前記取得した被写体シルエットの輪郭を膨張させる際の膨張量を計算する手段と、
前記膨張量の計算結果に基づいて、前記被写体シルエットの輪郭を膨張させる手段とを具備し、
前記膨張量を計算する手段は、カメラパラメータ誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出装置。

【請求項2】

前記再投影誤差が最小化するようにカメラパラメータを最適化する手段を更に具備し、
前記最適化後のカメラパラメータの再投影誤差でカメラパラメータ誤差を代表することを特徴とする請求項１に記載の被写体シルエット抽出装置。

【請求項3】

前記カメラパラメータ誤差推定手段は、カメラごとにカメラパラメータ誤差を推定することを特徴とする請求項１または２に記載の被写体シルエット抽出装置。

【請求項4】

前記カメラパラメータ誤差推定手段は、カメラごとに各画素ペアの再投影誤差を計算し、
カメラごとに各画素ペアの再投影誤差の平均値でカメラパラメータ誤差を代表することを特徴とする請求項３に記載の被写体シルエット抽出装置。

【請求項5】

前記カメラパラメータ誤差推定手段は、各カメラの画素ごとにカメラパラメータ誤差を推定することを特徴とする請求項１または２に記載の被写体シルエット抽出装置。

【請求項6】

前記カメラパラメータ誤差推定手段は、カメラごとに各画素ペアの再投影誤差を計算し、
各カメラの画素ごとに距離の最も近い画素ペアの再投影誤差でカメラパラメータ誤差を代表することを特徴とする請求項５に記載の被写体シルエット抽出装置。

【請求項7】

前記カメラパラメータ誤差推定手段は、カメラごとに各画素ペアの再投影誤差を計算し、
各カメラの画素ごとに各画素ペアの再投影誤差および当該画素ペアまでの距離の関数でカメラパラメータ誤差を代表することを特徴とする請求項５に記載の被写体シルエット抽出装置。

【請求項8】

被写体シルエットの輪郭を所定量だけ縮退させる輪郭縮退処理手段を更に具備し、
被写体シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返すことを特徴とする請求項１ないし７のいずれかに記載の被写体シルエット抽出装置。

【請求項9】

カメラで撮影した動画像から被写体のシルエットをコンピュータが抽出する被写体シルエット抽出方法において、
カメラで撮影した3D空間およびその動画像の対応する画素ペアの座標に基づいて推定したカメラパラメータの再投影誤差でカメラパラメータ誤差を代表し、
動画像から被写体シルエットを取得し、
前記カメラパラメータ誤差に基づいて、前記取得した被写体シルエットの輪郭を膨張させる際の膨張量を計算し、
前記膨張量の計算結果に基づいて、前記被写体シルエットの輪郭を膨張させ、
前記膨張量の計算では、カメラパラメータ誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出方法。

【請求項10】

カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出プログラムにおいて、
カメラで撮影した3D空間およびその動画像の対応する画素ペアの座標に基づいて推定したカメラパラメータの再投影誤差でカメラパラメータ誤差を代表する手順と、
動画像から被写体シルエットを取得する手順と、
前記カメラパラメータ誤差に基づいて、前記取得した被写体シルエットの輪郭を膨張させる際の膨張量を計算する手順と、
前記膨張量の計算結果に基づいて、前記被写体シルエットの輪郭を膨張させる手順とをコンピュータに実行させ、
前記膨張量を計算する手順は、カメラパラメータ誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、カメラで撮影した動画像から被写体部分のみを前景としたシルエットを抽出する被写体シルエット抽出装置、方法及びプログラムに関する。

【背景技術】

【0002】

自由視点映像技術は、複数カメラの映像を入力してカメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献1が開示する視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が知られている。

【0003】

視体積交差法は、図13に示す様に、異なるカメラ位置で撮影したN枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を次式(1)に基づいて視体積（Visual Hull）VH(K)として獲得する技術である。

【0004】

【数1】

【0005】

ここで、集合Kは各カメラのシルエット画像の集合であり、V_kはk番目のカメラから得られるシルエット画像に基づいて計算される視錐体である。また、通常はN枚全てのカメラの共通部分となる部分がモデル化されるが、N-1枚が共通する場合にモデル化するなど、モデル化が成されるカメラ台数に関しては変更してもよい。

【0006】

このとき、例えばマーチングキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換する機能を具備し、ポリゴンモデルとして3Dモデルを出力する機能を有していてもよい。

【0007】

このような視体積交差法は、非特許文献2が開示するフルモデル方式自由視点(＝3Dモデルの形状を忠実に表現する方式の自由視点)を実現する上での基礎技術として利用されている。

【0008】

視体積交差法で利用する積集合を得るためのシルエット抽出手法として、非特許文献3に代表される背景差分法ベースの手法が知られている。背景差分法は、背景モデルと呼ばれる被写体が存在しない状態のモデルと入力画像の差分を基に被写体を抽出する手法である。また、近年は非特許文献4が開示するDeep Learningベースの被写体シルエット抽出手法も登場し、高精度でシルエットを抽出可能な手法が次々と提案されている。

【先行技術文献】

【特許文献】

【0009】

【文献】特願2020-012676号

【非特許文献】

【0010】

【文献】Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994).

【文献】J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), Montreal, QC, 2007, pp. 177-184.

【文献】C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252, Vol. 2, (1999).

【文献】Lim, Long Ang, and Hacer Yalim Keles. "Foreground Segmentation Using Convolutional Neural Networks for Multiscale Feature Encoding." Pattern Recognition Letters, (2018).

【文献】J. Chen, et al, "Sports Camera Calibration via Synthetic Data," CVPR Workshop, 2019.

【文献】Z. Zhang. A flexible new technique for camera calibration. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 22(11):1330-1334, 2000.

【文献】鶴崎裕貴、野中敬介、渡邊良亮、内藤整, "Line Segment Detectorを用いたカメラキャリブレーションの高精度化に関する検討," , 2020-AVM-108, 7, pp. 1-6, 2020.

【文献】O. Barnich and M. Van Droogenbroeck, "ViBe: A Universal Background Subtraction Algorithm for Video Sequences," in IEEE Transactions on Image Processing, vol. 20, no. 6, pp. 1709-1724, June 2011.

【発明の概要】

【発明が解決しようとする課題】

【0011】

視体積交差法に利用するシルエット抽出では、非特許文献3，4のシルエット抽出技術により得られるシルエットが完璧（ここでの完璧とは、非特許文献3，4の中で評価に用いられているF-Measureが100%を示すことと定義する）であったとしても、視体積交差法によって生成される3Dモデルに欠損が生じ得る。これは、カメラの内部パラメータや外部パラメータの推定誤差が一つの要因となっている。

【0012】

視体積交差法を用いた3Dモデルの生成のためには、事前にカメラの位置や向きを正しく推定し、加えて画像中に含まれるレンズによる歪を除去するなど、カメラパラメータの推定誤差を小さくする必要がある。これらの研究は、非特許文献5などで改善が進められているものの研究途上であり、正確にカメラの位置や向きを自動推定することは困難である。その結果、図6に示すように合成後の3Dモデルに欠損が発生し、視聴時に違和感が発生するという課題があった。

【0013】

本発明の目的は、上記の技術課題を解決し、カメラパラメータの推定誤差を考慮して、動画像から3Dモデル生成に適した被写体シルエットを抽出できる被写体シルエット抽出装置、方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0014】

上記の目的を達成するために、本発明は、カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出装置において、以下の構成を具備した点に特徴がある。

【0015】

(1) 動画像に基づいてカメラパラメータ誤差を推定する手段と、カメラパラメータ誤差の推定結果に基づいてシルエット抽出パラメータを計算する手段と、シルエット抽出パラメータに基づいて被写体シルエットを計算する手段とを具備した。

【0016】

(2) カメラパラメータ誤差が大きいほど被写体シルエットの輪郭を膨張するようにした。

【0017】

(3) 被写体シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返すようにした。

【0018】

(4) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値を計算するようにした。

【0019】

(5) カメラパラメータ誤差が大きいほど背景モデルの更新率を低い値に計算するようにした。

【0020】

(6) カメラパラメータ誤差が大きいほど、各画素が前景領域に識別され易くなるように背景差分閾値を計算し、背景モデルの更新率を低い値に計算するようにした。

【発明の効果】

【0021】

(1) カメラパラメータ誤差の推定結果に基づいて計算したシルエット抽出パラメータを用いて被写体シルエットを計算するので、当該被写体シルエットを用いて3Dモデルを生成する際にカメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できるようになる。

【0022】

(2) カメラパラメータ誤差が大きいほど被写体シルエットの輪郭が膨張するので、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できる被写体シルエットを提供できるようになる。

【0023】

(3) 被写体シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返されるので、カメラパラメータ誤差が原因で生じ得る欠けやノイズなどの品質劣化を抑制できる被写体シルエットを提供できるようになる。

【0024】

(4) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値が計算されるので被写体シルエットを拡張できる。したがって、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できる被写体シルエットを提供できるようになる。

【0025】

(5) カメラパラメータ誤差が大きいほど背景モデルの更新率が低い値に計算されるので、各画素が前景領域に識別され易くなる。したがって、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できる被写体シルエットを提供できるようになる。

【0026】

(6) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値が計算され、背景モデルの更新率が低い値に計算されるので、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できる。

【図面の簡単な説明】

【0027】

【図1】本発明を適用した被写体シルエット抽出装置を含む3Dモデル生成システムの機能ブロック図である。

【図2】本発明の第1実施形態に係る被写体シルエット抽出装置の機能ブロック図である。

【図3】カメラパラメータの推定方法を模式的に示した図である。

【図4】再投影誤差が発生している例を示した図である。

【図5】カメラパラメータの推定誤差が原因で視体積が小さく計算される例を示した図である。

【図6】カメラパラメータの推定誤差が原因で3Dモデルに欠損が生じる例を示した図である。

【図7】シルエットの輪郭膨張により欠損の少ない3Dモデルが形成される例を示した図である。

【図8】本発明の第2実施形態に係る被写体シルエット抽出装置の機能ブロック図である。

【図9】本発明の第3実施形態に係る被写体シルエット抽出装置の機能ブロック図である。

【図10】背景モデルを用いた背景差分法によりシルエットを抽出する方法を模式的に示した図である。

【図11】本発明の第4実施形態に係る被写体シルエット抽出装置の機能ブロック図である。

【図12】本発明の第5実施形態に係る被写体シルエット抽出装置の機能ブロック図である。

【図13】視体積交差法による3Dモデルの生成方法を示した図である。

【発明を実施するための形態】

【0028】

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明を適用した被写体シルエット抽出装置1を含む3Dモデル生成システム100の主要部の構成を示した機能ブロック図である。

【0029】

被写体シルエット抽出装置1は、動画像取得部10、カメラパラメータ誤差推定部20、シルエット抽出パラメータ計算部30およびシルエット計算部40を主要な構成とする。3Dモデル生成システム100は前記被写体シルエット抽出装置1に加えて、シルエット画像を用いて視体積交差法により3Dモデルを生成する3Dモデル生成部2を含む。

【0030】

このような3Dモデル生成システム100またはその被写体シルエット抽出装置1は、CPU，ROM，RAM，バス，インタフェース等を備えた少なくとも一台の汎用のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。

【0031】

動画像取得部10は、少なくとも一台のカメラcamから動画像を取得する。動画像を複数のカメラから取得する場合、各カメラは被写体を異なる視点から撮影するように配置される。動画像はカメラから直接取得しても良いし、あるいは動画像データベース（DB）3などに保蔵されている動画像ファイルを読み出すことで取得しても良い。

【0032】

カメラパラメータ誤差推定部20は、動画像から抽出した静止画像、例えばフレーム画像に基づいてカメラごとに各カメラの状態を示すカメラパラメータの誤差（カメラパラメータ誤差）を推定する。

【0033】

シルエット抽出パラメータ計算部30は、カメラパラメータ誤差の推定結果に基づいて、動画像からシルエットを抽出する際のパラメータ（シルエット抽出パラメータ）を計算する。シルエット計算部40は、動画像からフレームごとに前記シルエット抽出パラメータを用いたシルエット計算によりシルエット画像を抽出する。

【0034】

3Dモデル生成部2は、前記図13を参照して説明したように、シルエット画像を用いた視体積交差法により被写体の3Dモデルを生成する。

【0035】

図2は、前記被写体シルエット抽出装置1の第1実施形態の構成を示した機能ブロック図であり、ここでは本発明の説明に不要な構成は図示を省略している。本実施形態は、動画像から既知の手法で取得した被写体のシルエットを前記シルエット抽出パラメータに基づいて膨張させるようにした点に特徴がある。

【0036】

カメラパラメータ誤差推定部20は、カメラパラメータ推定部21および再投影誤差推定部22を含む。カメラパラメータは、ワールド座標上の3Dの点(X, Y, Z)をカメラ映像上の2Dの点(u, v)に変換するために用いられ、内部パラメータおよび外部パラメータを含む。ピンホールカメラモデルにおける変換式は次式(2)の行列で表される。

【0037】

【数2】

【0038】

r11～r33はカメラの向きを示す回転行列、t1～t3はカメラの位置を表す並進行列であり、いずれもカメラの外部パラメータと呼ばれる。fx，fyはズーム具合を示すピクセル単位の焦点距離、cx、cyは画像の主点であり、いずれもカメラの内部パラメータと呼ばれる。内部パラメータは、その他にカメラレンズ特有の放射状歪や接線歪等をモデル化する際の歪み係数を含む場合もある。sは[u,v,1]とするためのスケーリングに用いる変数である。

【0039】

前記カメラパラメータ推定部21は、既知の手法によりカメラパラメータを推定する。本実施形態では、非特許文献6が開示するように、ワールド座標系の既知の3次元ワールド座標と画像上の対応する2次元座標とのペアを多数集め、これらの再投影誤差が小さくなるように最適なパラメータを推定する手法を採用する。

【0040】

図3は、非特許文献6によるカメラパラメータの推定方法を模式的に示した図である。撮影対象がスタジアム内のフィールドやコートを含み、同図(a)のように、白線交点の3次元ワールド座標(Xi, Yi, Zi)が規格等から既知であれば、これらの白線交点と同図(b)の2D画像に写り込んだ対応する各白線交点の2D位置(u_{c, i}，v_{c, i})との画素ペアを多く収集して各パラメータを暫定的に推定する。そして、このパラメータを使って3D座標(Xi, Yi, Zi)を2D画像上に投影した点(u'_{c, i}，v'_{c, i})と写り込んだ位置(u_{c, i}，v_{c, i})との距離の差（再投影誤差）Rc, iが小さくなるように各パラメータを最適化することでカメラパラメータが推定される。

【0041】

iは画素ペアのインデックスであり、図3の例ではスタジアムの白線交点の3D位置が既知なので、その3D位置に該当する画像[同図(b)]上の対応点をUI上での手動での選択、ないしは非特許文献7が開示する手法に基づいて自動推定することによって、3Dワールド座標上の点(Xi, Yi, Zi)と2D画像上の点(u_{c, i}，v_{c, i})との対応する画素ペアを獲得する。

【0042】

本実施形態では、カメラパラメータ推定部21が各画素ペアiの再投影誤差Rc, iの平均値が小さくなるカメラパラメータを推定するものの、取得する動画像がレンズによる歪曲収差の影響で歪んでいる場合や、2D画像上の点(uc, i，vc, i)の推定位置に誤りが含まれる場合には再投影誤差Rc, iが0にならない。

【0043】

図4は、再投影誤差が発生している例を示した図であり、この例では白線交点の検出された位置(uc, 11，vc, 11)が実際の白線交点の位置から大幅にずれていることから、推定されたカメラパラメータを利用して3D座標(X11, Y11, Z11)を2D画像上に投影した点(u'_{c, 11}，v'_{c, 11})に関しても実際の白線交点の位置から大幅にずれており、最終的に再投影誤差Rc, iも大きくなっている。これは極端な例ではあるが、一般的にも再投影誤差Rc, iを0にすることは困難である。

【0044】

再投影誤差Rc, iが大きいと、カメラパラメータの推定結果が誤差を含んでいる可能性が高くなることから、この状況下で自由視点制作を行うと、図５に示したように視体積が小さく計算されることがあり、その結果、図6に一例を示したように3Dモデルに欠損が生じ得る。

【0045】

本実施形態では、前記再投影誤差推定部22が、カメラc上の全ての画素ペアから計算される再投影誤差Rc, iの平均を次式(3)で計算し、これで各カメラcが抱えるカメラパラメータ誤差Ecを代表する。ここで、Iは(Xi, Yi, Zi)と(uc, i，vc, i)との対応する画素ペアの総数である。

【0046】

【数3】

【0047】

上式(3)ではカメラパラメータE_cがカメラごとに一つの値として求まるが、カメラ上の画素(u, v)ごとに異なるカメラパラメータ誤差E_c,(u, v)を計算するようにしてもよい。画素ごとに異なるカメラパラメータ誤差を計算する手段として、上式(3)において、各画素(u, v)に最も近い画素ペアの再投影誤差R_{c, i}をE_c(u, v)として得る方法が考えられる。あるいは画素(u, v)ごとに周囲の各画素ペアの再投影誤差R_{c, i}を、距離が近い画素ペアの再投影誤差R_{c, i}ほど強く反映されるように距離の逆数に応じて重み付け和した値としても良い。

【0048】

これにより、画素(u, v)に応じた再投影誤差を採用できるため、画像の一部分のみに歪曲収差が大きく含まれる場合などに、より正確に誤差を推定できる。また、画素ごとに誤差E_c(u, v)を得ることで、後段のシルエット抽出パラメータ計算部30において画素(u, v)ごとに異なるカメラパラメータを設定できるようになる。

【0049】

なお、カメラパラメータ誤差Ec (u, v)の計算方法は再投影誤差を用いる方法に限定されない。例えば、カメラレンズによって生じる放射状歪がカメラの画角の外側ほど大きくなるという傾向に基づいて、画像中心からの距離が遠くなるほどEc (u, v)が大きくなるように計算するなどの方法を採用してもよい。

【0050】

シルエット抽出パラメータ計算部30は膨張量計算部31を含み、前記カメラパラメータ誤差推定部20によるカメラパラメータ誤差の推定結果に基づいて、動画像から抽出したシルエットを膨張させる際の膨張量を計算する。

【0051】

本実施例では、非特許文献3や非特許文献4が開示する代表的な手法で動画像から抽出したシルエットの前景領域（シルエットが白の領域）の輪郭を膨張する。これにより、図7に示すように3Dモデル形成時に欠損が少ないモデル形成が可能になる。

【0052】

なお、シルエットの輪郭を膨張させることにより、当該シルエットを用いて生成される3Dモデルの輪郭も膨張されてしまうという懸念はある。しかしながら、被写体の一部が欠損しているよりは被写体の3Dモデルが膨張されている方が視聴時の違和感が目立ちにくくなる。加えて、被写体の膨張に関しては、本発明の発明者等が発明し、特許文献1に開示したように、違和感を軽減する手法が既に提案されている。

【0053】

前記膨張量計算部31は、上式(3)で求められるカメラパラメータ誤差E_cに基づいて膨張量dを計算する。本実施形態では、カメラパラメータ誤差E_cが大きいカメラから抽出したシルエットほど膨張量dがより大きな値に設定され、シルエットがより大きく膨張される。これにより、カメラパラメータの影響で被写体3Dモデルに欠損が生じてしまうことを抑止できる。なお、パラメータ誤差をカメラ単位（Ec）ではなくカメラごとに画素単位Ec,i(u, v)で計算できていれば、膨張量dも画素(u, v)ごとに決定してもよい。

【0054】

シルエット計算部40はシルエット抽出部41およびシルエット輪郭膨張処理部42を備える。シルエット抽出部41は、フレーム画像に非特許文献3や非特許文献4が開示する任意の手法を適用して被写体のシルエットを抽出する。シルエット輪郭膨張処理部42は、シルエット抽出部41が抽出したシルエットに対する後処理として、前記膨張量dに応じた輪郭膨張の処理を施す。

【0055】

前記シルエット輪郭膨張処理部42における膨張は、抽出したシルエットの前景領域の各画素を、その周辺(2d+1)×(2d+1)画素まで拡張することで行われる。dはシルエットの輪郭の膨張量を表すパラメータであり、0以上の整数となる必要がある（d=0は膨張処理が実施されないことを意味する）。なお、シルエットの輪郭膨張は周辺(2d+1)×(2d+1)画素に拡張する方法に限定されず、上下左右4画素への膨張を繰り返すなどの他の膨張方法を採用しても良い。

【0056】

なお、図8に示した第2実施形態のように、シルエット計算部40がシルエット輪郭縮退処理部43を更に備える場合には、シルエット抽出パラメータ計算部30が縮退量計算部32を更に備えても良い。

【0057】

シルエット抽出では、小さいサイズの縮退処理を施した後に大きいサイズの膨張処理を施すことでシルエットの前景領域は膨張させつつ縮退処理時に微細なノイズを消去できることが知られている。

【0058】

縮退処理は、シルエットの前景画素の周辺(2e+1)×(2e+1)画素内に前景ではない画素が1画素でも含まれている場合に、当該画素は前景領域の輪郭付近にあるものとしてシルエットの状態を前景から背景に変更することで行われる。eはシルエットの縮退量であり、0以上の整数である（ただしe=0は縮退処理が実施されないことを意味する）。

【0059】

前記縮退量計算部32は、膨張量dの計算結果に所定の係数を乗じるか、あるいは膨張量dを変数とする所定の関数計算によりd>eの縮退量eを計算できる。このとき、縮退量eはノイズ除去の観点ではd>eに設定されることが望ましい。しかしながら、縮退量eが大き過ぎると本来前景となるべき領域がノイズとして背景にされてしまう懸念もある。そこで、本実施形態では固定的に縮退量e=2とし、前記膨張量計算部31が前記カメラパラメータ誤差Ecおよび縮退量e=2を次式(4)に適用して膨張量dを計算する。

【0060】

【数4】

【0061】

ここで、roundは小数点以下を四捨五入する関数である。Econstは膨張量dを調節するための定数であり手動で設定される。上式(4)によれば、各カメラの画素ごとにカメラパラメータ誤差Ec(u, v)の大きさによって膨張量dが画素ごとに調節される。

【0062】

なお、本実施形態では縮退量eを定数としたが、膨張量dを定数とし縮退量eを変数としてもよい。この場合、上式(4)ではEconstの設定によっては膨張量dが負の値となる可能性があるが、膨張量dが負の値になる場合にはd=0として処理を行えばよい。

【0063】

また、本実施形態ではノイズ除去の観点からd>eとなるように膨張量dおよび縮退量eが計算されるものとして説明したが、本発明はこれのみに限定されるものではなく、d<eやd=eであって良い。本実施形態では、縮退処理および膨張処理が当該順序で少なくとも一回繰り返される。

【0064】

図9は、被写体シルエット抽出装置1の第3実施形態の構成を示した機能ブロック図であり、シルエット計算部40は背景モデルを用いた背景差分法によりシルエット計算を行う。シルエット抽出パラメータ計算部30は背景差分法によるシルエット計算で用いるパラメータをパラメータ誤差の推定結果に基づいて計算する。

【0065】

本実施形態では、シルエット抽出パラメータ計算部30に背景差分閾値計算部33および背景モデル更新率計算部34を設け、シルエット抽出パラメータとして前景/背景の判定に用いる閾値T(u, v)および背景モデルの更新率U(u, v)を採用した点に特徴がある。

【0066】

背景差分閾値計算部33は、例えば次式(5)に基づいて閾値T(u, v)を計算する。ここで、T_min，T_maxは、それぞれ閾値決定を行う際に最小となる閾値と最大となる閾値である。E_maxはカメラパラメータ誤差E_c(u, v)によるパラメータの変化量をコントロールするための定数である。これらの値は対象とするシーンなどを鑑みて手動で決定される。

【0067】

【数5】

【0068】

背景モデル更新率計算部34は、例えば次式(6)に基づいて更新率U(u, v)を計算する。ここで、U_min，U_maxはそれぞれ更新率を変化させる際の最小更新率と最大更新率であり、これらの値は対象とするシーンなどを鑑みて手動で決定される。

【0069】

【数6】

【0070】

本実施形態によれば、上式(5)により、カメラパラメータ誤差Ec(u, v)が大きくなるほど背景差分閾値T(u, v)が小さく設定されるため各画素を前景と判定されやすくできる。その結果、多くの画素が前景と判定されるようになるので第1，第2実施形態の輪郭膨張に近しい効果を奏することができる。

【0071】

さらに、上式(6)により、カメラパラメータ誤差Ec(u, v)が大きくなるほど背景モデルの更新率U(u,v)が小さく設定されるため背景モデルを更新されにくくできる。その結果、背景モデルの更新が進んで輪郭が削られていく効果を抑止することができる。

【0072】

シルエット計算部40において、前景抽出処理部44は動画像から背景モデルを用いた背景差分法により前景を抽出する。背景を単一のガウス分布でモデル化する場合、図10に模式的に示したように、ある画素の背景モデルを構築するためのFフレーム目までのガウス分布の平均がμ_F (u, v)、標準偏差がσ_F (u, v)で与えられるとき、背景差分の計算式は次式(7)となる。

【0073】

【数7】

【0074】

本実施形態では、上記の条件式(7)を満たす画素(u, v)は背景と判断される。I_F (u, v)は取得した動画像の各画素の輝度値、zは標準偏差の何倍までを背景と判断するかを調節するパラメータであり、閾値T(u, v)は上式(5)で計算される。

【0075】

なお、背景差分の判定に使う画像の色空間に関してはグレースケールでも良いし、RGBやYUV等の色空間でも実施可能であるが、複数の色チャネルを持つ場合には全てのチャネルを独立に処理し、全ての色で背景になる条件を満たす場合に背景となると判定するものとする。

【0076】

背景モデルの構築方法は単純ガウス分布を用いた方法に限定されず、非特許文献3が開示する混合ガウス分布を用いて背景モデルを構築する手法や、非特許文献8が開示する各画素位置の過去の画素サンプルを特定数保持し続けることで背景モデルを構築する手法を採用しても良い。

【0077】

画素サンプルを特定数保持する手法では、保持しているサンプル内に入力画素との類似画素が何画素あるかに基づいて前景/背景の判定を行うため、この判定基準となる画素数の閾値を上下させることで、本発明の機構を実現可能である。また更新率という観点でも、特定数保持される画素サンプルを一定の確率で現在フレームの画素で置き換える処理が実施されるため、この確率（＝更新率）を上下することで実現できる。

【0078】

背景モデル更新部45は、背景モデルのガウス分布平均μF (u, v)および標準偏差σF (u, v)を次式(8)，(9)，(10)により各フレームで更新する。

【0079】

【数8】

【0080】

【数9】

【0081】

【数10】

【0082】

このように、本実施形態ではフレームごとに背景モデルを徐々に更新することで、日照変化等に応じて少しずつ背景の色が変わる場面等に対して、動的に背景を更新し、精度面で優れたシルエット抽出を実現することができる。

【0083】

なお、本実施形態ではカメラパラメータ誤差Ec(u, v)がカメラごとに画素単位で推定されるものとして説明したが、本発明はこれのみに限定されるものではなく、カメラ単位で推定されても良い。この場合、判定閾値および背景モデルの更新率もカメラ単位で計算される。

【0084】

また、上記の第3実施形態ではカメラパラメータの推定誤差に基づいて計算するシルエット抽出パラメータが背景差分閾値T(u, v)および背景モデル更新率U(u, v)であるものとして説明した。しかしながら本発明はこれのみに限定されるものではなく、図11に示した第4実施形態のように背景差分閾値T(u, v)のみであっても良いし、あるいは図12に示した第5実施形態のように背景モデル更新率U(u, v)のみであっても良い。

【0085】

さらに、第1または第2実施形態と第3ないし第5実施形態とを適宜に組み合わせ、カメラパラメータの推定誤差に基づいてシルエットの膨張量dを計算し、さらにシルエットを背景差分法で抽出する際の背景差分閾値T(u, v)や背景モデル更新率U(u, v)を計算するようにしても良い。

【符号の説明】

【0086】

1…被写体シルエット抽出装置，2…3Dモデル生成部，3…動画像DB，10…動画像取得部，20…カメラパラメータ誤差推定部，21…カメラパラメータ推定部，22…再投影誤差推定部，30…シルエット抽出パラメータ計算部，31…膨張量計算部，32…縮退量計算部，33…背景差分閾値計算部，34…背景モデル更新率計算部，40…シルエット計算部，41…シルエット抽出部，42…シルエット輪郭膨張処理部，43…シルエット輪郭縮退処理部，44…前景抽出処理部，45…背景モデル更新部，100…3Dモデル生成システム

【図1】