(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-12
(45)【発行日】2024-07-23
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/194 20170101AFI20240716BHJP
H04N 7/18 20060101ALI20240716BHJP
【FI】
G06T7/194
H04N7/18 K
H04N7/18 U
(21)【出願番号】P 2020048906
(22)【出願日】2020-03-19
【審査請求日】2023-03-09
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】小沼 和文
【審査官】佐藤 実
(56)【参考文献】
【文献】特開2020-003884(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
第1の撮像装置の位置姿勢を特定するためのパラメータを取得する第1の取得手段と、
前記第1の撮像装置とは異なる複数の第2の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第2の取得手段と、
取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第1の撮像装置の位置姿勢に基づいて、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正手段と、
を有し、
前記第1の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第1の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第1の撮像装置の視点に投影することにより特定される
ことを特徴とする、画像処理装置。
【請求項2】
前記補正手段は、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第1の撮像装置により過去に取得された画像に基づき補正することを特徴とする、請求項1に記載の画像処理装置。
【請求項3】
前記補正手段は、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第1の撮像装置により過去に取得された画像のうち、前記被写体に対応する領域に含まれる画素の画素値に基づいて補正することを特徴とする、請求項2に記載の画像処理装置。
【請求項4】
前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値は、前記第1の撮像装置により過去に取得された画像における前記被写体に対応する領域に含まれる画素の画素値に置き換えられることを特徴とする、請求項1に記載の画像処理装置。
【請求項5】
前記補正手段は、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれない画素の画素値に基づいて補正することを特徴とする、請求項1に記載の画像処理装置。
【請求項6】
前記補正手段は、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第1の撮像装置により取得された画像における前記被写体に対応する領域の周囲の領域に含まれる画素の画素値に基づいて補正することを特徴とする、請求項1に記載の画像処理装置。
【請求項7】
前記補正手段は、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第1の撮像装置及び前記第2の撮像装置とは異なる第3の撮像装置によって取得された画像に基づいて補正することを特徴とする、請求項1に記載の画像処理装置。
【請求項8】
前記補正手段は、前記第1の撮像装置によって取得された画像内の前記被写体に対応する領域が膨張または拡張された領域に含まれる画素の画素値を補正することを特徴とする、請求項1に記載の画像処理装置。
【請求項9】
画像処理装置が実行する画像処理方法であって、
第1の撮像装置の位置姿勢を特定するためのパラメータを取得する第1の取得工程と、
前記第1の撮像装置とは異なる複数の第2の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第2の取得工程と、
取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第1の撮像装置の位置姿勢に基づいて、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正工程と、
を有し、
前記第1の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第1の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第1の撮像装置の視点に投影することにより特定される
ことを特徴とする、画像処理方法。
【請求項10】
コンピュータを、請求項1から請求項
8のいずれか1項に記載の画像処理装置が有する各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、仮想視点画像を生成する画像処理技術に関する。
【背景技術】
【0002】
複数のカメラを用いた撮影システムで撮影した画像から、ユーザが指定した仮想視点から見た画像を作りだし、仮想視点画像を表示することができる仮想視点画像生成システムがある。特許文献1には、ユーザが指定した仮想視点に応じた仮想視点画像を生成可能な画像処理システムが開示されている。特許文献1に記載の画像処理装置(画像コンピューティングサーバ)は、複数のカメラで撮影した画像のうち変化が大きい部分を前景画像とし、変化が小さい部分を背景画像として抽出する、前景背景分離処理を行う。例えば、画像処理装置は、サッカー競技が行われるフィールドを撮影した画像から、選手やボールに対応する前景画像と、フィールド面に対応する背景画像とを抽出する。さらに画像処理装置は、その抽出した前景画像に基づき被写体の三次元モデルの形状を推定・生成し、前景画像、背景画像と共に蓄積装置に蓄積する。そして、画像処理装置は、ユーザが指定した仮想視点に基づいて蓄積装置から適切なデータを取得して仮想視点画像を生成する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
仮想視点画像の生成において、撮影画像から背景画像を正確に抽出できない場合に、違和感のある仮想視点画像が生成されてしまうことが考えられる。例えば観客席を背景にして前景であるボールが撮影された撮影画像に対して前景背景分離処理を行う場合、ボールだけでなく観客席にも動きがあることから、正確に前景と背景を分離できない虞がある。そのため、前景の一部又は全部が映りこんだ背景画像を使用して仮想視点画像を生成することとなり、観客席の部分にボールの像が映りこんだ違和感のある仮想視点画像が生成される虞がある。
【0005】
そこで、本発明は、背景部分に違和感のある仮想視点画像が生成されるのを抑制することを目的とする。
【課題を解決するための手段】
【0006】
本発明の画像処理装置は、第1の撮像装置の位置姿勢を特定するためのパラメータを取得する第1の取得手段と、前記第1の撮像装置とは異なる複数の第2の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第2の取得手段と、取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第1の撮像装置の位置姿勢に基づいて、前記第1の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正手段と、を有し、前記第1の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第1の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第1の撮像装置の視点に投影することにより特定されることを特徴とする。
【発明の効果】
【0007】
本発明によれば、背景部分に違和感のある仮想視点画像が生成されるのを抑制することを目的とする。
【図面の簡単な説明】
【0008】
【
図1】第1の実施形態の画像処理装置を含むシステム構成例を示す図である。
【
図3】背景画像に被写体のシルエットが投影される例の説明図である。
【
図4】本実施形態に係る画像補正処理の説明図である。
【
図5】第2の実施形態の画像処理装置を含むシステム構成例を示す図である。
【
図6】第2の実施形態のおける他のシステム構成例を示す図である。
【
図7】画像処理装置に適用可能なコンピュータの構成例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を、添付の図面に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。なお同一の構成または処理については、同じ参照符号を付して説明する。
【0010】
<第1の実施形態>
図1は、第1の実施形態に係る画像処理装置を含む画像処理システムの構成例を示した図である。
図1に示した画像処理システムは、複数の被写体撮像部1、背景撮像部2、同期部3、三次元形状推定部4、被写体検出部5、補正部6、背景テクスチャ生成部7、蓄積部8、画像生成部9、及び操作表示部10を含んで構成される。なお、本画像処理システムは、1つの電子機器によって構成されてもよいし、複数の電子機器によって構成されてもよい。
図1において、本実施形態に係る画像処理装置は、例えば三次元形状推定部4、被写体検出部5、補正部6、背景テクスチャ生成部7、蓄積部8、及び画像生成部9により構成されているとする。
【0011】
複数の被写体撮像部1と、背景撮像部2とは、同期部3による同期信号に基づいて互いに高精度に同期して撮像を行う。
複数の被写体撮像部1は、それぞれが主に被写体を撮影するような画角および撮影方向に設置され、撮影した被写体撮影画像を三次元形状推定部4に出力する撮像装置である。なお、被写体撮像部1は、
図2に示すように、競技場のグラウンドや被写体を複数の方向から撮影するため、つまり複数の視点から被写体等を撮影するために、グラウンドを囲むように設置されているとする。
【0012】
三次元形状推定部4は、複数の被写体撮像部1から入力された複数視点の被写体撮像画像を用いて、例えば被写体のシルエットを抽出したうえで、視体積交差法などを用いて被写体三次元モデルを生成する。また、三次元形状推定部4は、生成した被写体三次元モデルと被写体撮像画像とを、蓄積部8に出力して蓄積させる。なお本実施形態において前景として扱われる被写体とは、三次元モデル生成の対象となる人物やそれら人物が扱う物品などである。例えばサッカーなどの競技であった場合、選手や審判といった人物とボールとが、三次元モデル生成の対象となる。
【0013】
背景撮像部2は、競技場の観客席などの撮影エリアを撮影するような画角および撮影方向に設置され、当該撮影エリアを撮影した画像を背景撮像画像として取得する撮像装置である。なお、本実施形態において背景撮像部2は、観客席などの動きや変化がある背景を撮影するための専用のカメラでありその撮影画像は背景画像として扱われる。詳細は後述するが、本実施形態において、背景撮像部2にて取得された背景撮像画像は、後述する補正部6によって補正されたのち、背景テクスチャ生成部7に出力される。
【0014】
背景テクスチャ生成部7は、背景撮像画像を、背景三次元モデルに貼り付けるための背景テクスチャ画像に幾何変換することで、背景テクスチャ画像を生成する。本実施形態では、背景テクスチャ生成部7が所定の記憶装置に予め記憶された背景三次元形状モデルを取得するものとする。背景テクスチャ生成部7が取得した背景テクスチャ画像及び背景三次元モデルは、蓄積部8に出力されて蓄積される。本実施形態における背景とは、前述の前景としての被写体以外の物体である地面や構造物である。また人物であっても、観客など被写体三次元モデル生成の対象とならない人物は背景に含まれる。
【0015】
蓄積部8は、三次元形状推定部4から入力された被写体撮影画像及び被写体三次元モデルと、背景テクスチャ生成部7から入力された背景三次元モデルと背景テクスチャ画像とを蓄積(保存)する。
【0016】
画像生成部9は、ユーザにより操作表示部10から入力された仮想視点の位置、向き及び時刻の情報に基づき、蓄積部8から該当時刻に対応したデータ(被写体撮影画像及び被写体三次元モデル、背景三次元モデルおよび背景テクスチャ画像のデータ)を取得する。画像生成部9は取得したデータのうち背景三次元モデルと背景テクスチャ画像から仮想視点に対応する背景を描画し、被写体三次元モデルおよび被写体撮影画像から仮想視点に対応する被写体を描画し、これらの背景と被写体を含む画像を仮想視点画像として生成して操作表示部10に出力する。これにより、操作表示部10の画面上には仮想視点画像が表示される。
【0017】
ここで、背景テクスチャ生成部7が、背景撮像画像をそのまま幾何変換した画像を背景テクスチャ画像として扱う場合について考える。このとき、例えば
図3(a)に示す被写体(この例ではサッカーボール31と人物34)の一部が背景撮像部2の画角に入っているとする。この場合、背景撮像部2による背景撮像画像に被写体の画像が含まれる。例えば、サッカーボール31が高く上がったことで、背景撮像部2の画角内に当該サッカーボール31が入った場合、
図3(a)に示すように、背景である観客席のモデルに張り付ける背景テクスチャ画像に、サッカーボール31が映り込むことがある。また、フィールド周辺の動的に表示が変わる電子看板33などでも同様に、その電子看板33の手前にいる人物34が背景撮像部2の画角に入ると、背景撮像画像の電子看板33の部分に人物34が重なってしまう。その結果、背景である電子看板33のモデルに張り付ける背景テクスチャ画像に、人物34が映り込むことがある。このような背景テクスチャ画像を用いて仮想視点画像を生成した場合、仮想視点画像内にサッカーボール31の他にそのボールの像36も描画され、また、人物34の他にその人物の像37も描画されてしまう。その結果、仮想視点画像の視聴者に違和感を与え、視聴者は混乱してしまうことになる。またそのような像が映り込んだ画像は、現実空間を正確に表現できていないという点で、品質が低い画像である。
【0018】
そこで、本実施形態における画像処理システムは、上記のボールの像36や人物の像37が含まれない背景テクスチャ画像を用いて仮想視点画像を生成する。そのために、被写体検出部5は、三次元形状推定部4から被写体三次元モデルを取得する。そして被写体検出部5は、その被写体三次元モデルを、背景撮像部2の位置姿勢(カメラの位置姿勢)を示す外部パラメータと、背景撮像部2の光学系に関する内部パラメータとを基に、背景撮像部2の撮像画像相当の画像に投影する。
【0019】
例えば
図3(a)に示す状況において、サッカーボール31の被写体三次元モデルは背景撮像部2の背景撮像画像中のシルエット領域39に投影され、人物34の被写体三次元モデルはシルエット領域38に投影される。そして被写体検出部5は、背景撮像部2による背景撮像画像に投影されるシルエットの領域を被写体領域(シルエット被写体領域とする。)として検出し、そのシルエット被写体領域を表す情報を補正部6に送る。このとき、補正部6に送られる情報が示すシルエットの領域は、投影されるシルエットの形状そのものとしてもよいし、三次元形状推定部4の精度などを考慮して、シルエットを膨張させた形状としてもよい。あるいは、シルエットの領域を含む矩形形状が、被写体領域(矩形被写体領域とする)として補正部6に送られてもよい。補正部6に出力される矩形被写体領域の情報は、画像ではなく、矩形形状の四つの頂点の座標データのみでよく、これによりデータ量を削減することができる。
【0020】
補正部6は、背景撮像部2から入力された背景撮像画像に対し、前述したシルエット被写体領域に映っている被写体を除去するための画像補正処理を行う。この画像補正処理を実現するために、補正部6は、入力された背景撮像画像を、逐次、一定時間ごとに保持する。
図4は、最新の(現在の)背景撮像画像41と、補正部6が保持している過去の背景撮像画像42と、被写体検出部5にて検出されるシルエット被写体検出領域を表すシルエット画像43と、それらに基づく画像補正処理後の背景撮像画像45とを示した図である。
図4の最新の背景撮像画像41の場合、補正部6による画像補正処理が行われていないため、人物410およびサッカーボール411が映りこんでいる。また、過去の背景撮像画像42の場合にも、補正部6による画像補正処理が行われていないため、人物420およびサッカーボール421が映りこんでいる。シルエット画像43は、最新の背景撮像画像41について被写体検出部5により検出されるシルエット被写体領域およびその位置を示しており、
図4の例では、矩形被写体領域430および431とその位置が検出されているとする。
【0021】
補正部6は、
図4に示すように、最新の背景撮像画像41における人物410およびサッカーボール411の領域に対し、過去の背景撮像画像42の該当領域部分を用いて上書きするような画像補正処理を行う。この場合、補正部6は、最新の背景撮像画像41について被写体検出部5が検出したシルエット画像43の矩形被写体領域430および431に対応した領域を、過去の背景撮像画像42から抽出する。
図4の抽出被写体領域画像44は、過去の背景撮像画像42から、矩形被写体領域430および431に対応した領域が抽出されて得られたものである。抽出被写体領域画像44のなかの矩形領域413と414は、過去の背景撮像画像42から、シルエット画像43の矩形被写体領域430および431に対応して抽出された領域である。そして、補正部6は、最新の背景撮像画像41に対し、抽出被写体領域画像44の矩形領域413と414を上書きする。これにより、補正後の背景撮像画像45は、最新の背景撮像画像41から人物410とサッカーボール411が除去された画像となる。補正部6は、この補正後の背景撮像画像45を背景テクスチャ生成部7に出力する。
【0022】
第1の実施形態においては、前述したような画像補正処理を行うことにより、背景撮像画像及びそれから生成される背景テクスチャ画像に映りこんでしまう前景の被写体を除去することが可能である。そして、前景の被写体が除去された背景テクスチャ画像を用いて仮想視点画像を生成することにより、前景の被写体の像が背景に映り込んだ違和感のある仮想視点画像が表示されてしまうことを抑制することができる。
【0023】
前述の実施形態では、例えばシルエット被写体領域の抽出を三次元形状推定部4で行う構成としたが、必ずしもこれに限定するものでない。例えば、被写体撮像部1がシルエット被写体領域を抽出する機能を備えていてもよい。この場合、被写体撮像部1は、被写体撮影画像から、抽出したシルエット被写体領域やシルエットを含む矩形被写体領域を切り出したうえで、三次元形状推定部4に送信することとしてもよい。また、被写体撮像部1以外に、別途、シルエット被写体領域を抽出する抽出部を設ける構成としてもよい。また、前述の実施形態ではシルエット被写体領域の抽出方法について特に制限を設けないが、例えば、予め被写体がない状態の画像を取得したうえで、その画像との比較により被写体領域を抽出する背景差分方式を用いることで実現してもよい。さらには、被写体として人の形状を機械学習することで抽出してももちろん構わない。
【0024】
また、前述の実施形態では三次元形状推定部4及び背景テクスチャ生成部7の出力を蓄積部8に蓄積する構成としたが、必ずしも蓄積部8に蓄積する必要はない。例えば時間をさかのぼって画像を生成しない用途であれば、三次元形状推定部4及び背景テクスチャ生成部7の出力を直接、画像生成部9に入力する構成としてもよい。
また、前述の実施形態では撮像から画像生成まで一つの画像処理システムとして記載したが、必ずしも一つの構成に限定するものではない。例えば蓄積部8に記録するまでを仮想視点画像素材生成装置とし、蓄積部8に記録された素材を用いて仮想視点画像を生成する部分を仮想視点画像生成装置とし、それぞれ個別装置として構成してもよい。
また、前述の実施形態の場合、被写体検出部5は、三次元形状推定部4から被写体三次元モデルを取得する構成として記載したが、必ずしもこれに限定するものではない。例えば被写体検出部5が、蓄積部8に蓄積・保存された、被写体三次元モデルを取得する構成としてもよい。
【0025】
また、前述の実施形態では、説明を簡単にするために背景撮像部2を単一の撮像装置として記載したがこれに限定するものではない。実際の撮影においては、四方及び上下を撮影する必要があり、また背景の構造によってはオクルージョンなどが発生することもあるため、複数の背景撮像部2を備えることが望ましい。複数の背景撮像部2は、それぞれが、少なくとも異なる角度から背景を撮像する。その場合、被写体検出部5は、それぞれの背景撮像部2の外部パラメータおよび内部パラメータに基づき、被写体三次元モデルを投影し、各背景撮像部2におけるシルエット被写体領域を求める。
【0026】
また、前述のように背景を複数の背景撮像部2で撮影する場合、背景撮像画像を重複する形で撮影してもよい。この場合、撮影範囲の一部が重複する2つ以上の背景撮像部2の設置位置が大きく異なる場合、被写体が映り込む位置はそれぞれ異なる可能性がある。そこで、補正部6において、被写体領域の補正を行う際に、該当の背景撮像画像と撮影範囲の一部が重複する他の背景撮像画像から該当位置の画像を取得して上書きすることでも補正が可能である。
【0027】
また、前述の実施形態では、被写体検出部5で検出した被写体のシルエット形状に対して膨張処理や矩形への拡張を行ったが、それらは必ずしも被写体検出部5で行う必要はない。例えば被写体検出部5が出力した被写体領域を基に、補正部6が膨張や矩形への拡張を行ってもよい。
また、補正部6における画像補正処理は、最新の背景撮像画像を過去の背景撮像画像で置き換えることに限定されず、例えば、同じフレームの画像内の補正対象部分に類似した部分を用いて置換する、または、時間的に前後の背景撮像画像の画素値の平均値で置換するといった方法を用いても構わない。また、被写体が写っていない別な背景撮像部2の画像で補完しても構わない。
【0028】
<第2の実施形態>
図5は、第2の実施形態に係る画像処理装置を含む画像処理システムの構成例を示した図である。
図5に示した画像処理システムの構成は、
図1に示した第1の実施形態の画像処理システムの構成と概ね同じであるが、被写体検出部5の動作及び周囲の構成部との接続と、補正部6の動作が
図1の例とは異なる。以下、
図5の構成および動作において、
図1とは異なる部分のみを説明する。なお、被写体撮像部1、背景撮像部2、同期部3、三次元形状推定部4、被写体検出部5、補正部6、背景テクスチャ生成部7、蓄積部8、画像生成部9、及び操作表示部10において、
図1の対応した各部と同様の動作に関する説明は省略する。
【0029】
第2の実施形態において、被写体検出部5は、背景撮像部2が取得した背景撮像画像を取得する。被写体検出部5は、取得した背景撮像画像の一定の時間範囲分を内部に保持する。そして、被写体検出部5は、最新の背景撮像画像と、過去の背景撮像画像との差分画像を求める。このときの差分画像では、検出すべき被写体のほかに、背景として動きがあったものが抽出される。さらに、被写体検出部5は、これらの中で想定される被写体の大きさや色、形状、また複数の過去画像との比較を行った上で移動速度などを求め、それらに基づき被写体を検出して、それをシルエット被写体領域として補正部6に出力する。
【0030】
補正部6は、背景撮像部2から入力された背景撮像画像に対して、被写体検出部5から入力されたシルエット被写体領域の被写体部分を除去するための画像補正を行う。具体的には、補正部6は、入力されたシルエット被写体領域の周囲の部分の画素の色及びパターンを基に類似の色及びパターンを生成して、それらによりシルエット被写体領域の部分を上書きする。なおこの場合、厳密には補正前の画像とは異なるが、人間の目に見てそこに被写体があったとは判り難い画像で補正することができる。補正部6は、その補正後の背景撮像画像を背景テクスチャ生成部7に出力する。
【0031】
その他の各構成部の構成と動作などは前述の第1の実施形態と同様であり、蓄積部8に各仮想視点画像素材が蓄えられ、それに基づき画像生成部9が仮想視点画像を生成する。
このように、第2の実施形態においては、第1の実施形態と同様に、背景撮像画像及びそれから生成される背景テクスチャ画像に映り込む被写体を除去することが可能である。これにより、第2の実施形態によれば、被写体三次元モデルと被写体撮影画像から生成される被写体と、背景に映り込んでしまった被写体とが、仮想視点画像において多重に表示されることを抑制することができる。
【0032】
第2の実施形態の場合、第1の実施形態と比較すると、被写体検出部5における被写体検出の処理の計算量が少なくなり、また、各背景撮像部2の各々の撮像画像のみで検出することが可能となる。そのため、例えば被写体検出部5および補正部6を、背景撮像部2に含めた構成とすることも可能である。一方で、第1の実施形態の方が、被写体領域検出精度を高められるまた、第2の実施形態の画像処理は、ボールなどの移動速度が速いものを検出するのに適している。ただし、動きの遅い被写体や動きの大きな被写体、例えば人物などの場合、同じ場所に一定時間留まる場合や、移動量が被写体の大きさ未満になる場合もある。このような場合、観客席におけるボールの検出には本実施形態の被写体検出部を適用し、人物の被写体が映り込む画角においては第1の実施形態の被写体検出部を適用するなど、画角と領域とで使用する被写体検出部を切り替える構成としてもよい。
【0033】
また、第2の実施形態では、被写体検出部5において被写体の大きさや色、形状、また複数の過去画像との比較を行ったうえで移動速度などに基づき被写体を検出するとしたが、この際に機械学習を用いた推定手段を用いてもよい。また機械学習を用いる場合には色や形状などの特徴抽出をあらかじめ行わず深層学習などの機械学習手法を用いて被写体を検出してもよい。
【0034】
また補正部6も同様に、背景撮像画像内のパターンや映り込む被写体の種類に基づいて、第1の実施形態に示した補正部6における画像補正方法と、第2の実施形態で示した補正部6における画像補正方法とを、切り替える構成としてもよい。つまり、第1の実施形態のように三次元形状を投影して前記被写体領域を検出する処理と、第2の実施形態のように差分画像に基づいて被写体領域を検出する処理とを、画像内の部分によって切り替えてもよい。
また第2の実施形態では、必ずしも被写体撮像部1と背景撮像部2が同期している必要はないため、同期部3は複数の被写体撮像部1のみを同期する構成としてもよい。
【0035】
また本実施形態では、背景撮像画像に対してシルエット被写体領域の検出及び被写体を除去するための画像補正を行ったが、必ずしもこれに限定するものではない。例えば
図6に示すように、背景テクスチャ生成部7において生成された背景テクスチャ画像に対して、被写体領域の検出及び補正を行ってもよい。
図6に示した画像処理システムの構成は、
図5に示した構成と概ね同じであるが、被写体検出部5と背景テクスチャ生成部7と補正部6の接続関係が、
図5の例とは異なる。すなわち、
図6の構成の場合、背景撮像部2で取得された背景撮像画像が背景テクスチャ生成部7に出力され、その背景テクスチャ生成部7の出力が被写体検出部5と補正部6に送られる。そして、補正部6の出力が蓄積部8に送られる。なお、被写体撮像部1、背景撮像部2、同期部3、三次元形状推定部4、被写体検出部5、補正部6、背景テクスチャ生成部7、蓄積部8、画像生成部9、及び操作表示部10において、
図1の対応した各部と同様の動作に関する説明は省略する。
【0036】
図6の構成例では、被写体検出部5において前述同様の処理を行うことで、背景テクスチャ画像におけるシルエット被写体領域の検出を行う。そのうえで、補正部6が、背景テクスチャ生成部7からの背景テクスチャ画像と、被写体検出部5からのシルエット被写体領域とを用いて、被写体を除去する画像補正処理を行う。これにより、
図6の構成例では、背景テクスチャ画像に映り込んだ被写体を除去することができる。
図6のように、背景テクスチャ画像に対して被写体除去を行う構成は、背景撮像画像に対して被写体除去を行う処理よりも計算量を少なくすることができる可能性がある。なぜならば、背景撮像画像のすべてが背景テクスチャ画像に使われるわけではなく、背景撮像画像に対して被写体除去処理を行う場合、背景テクスチャ画像が使われない部分の被写体の検出及び除去が行われるためである。
【0037】
<その他の構成>
図1、
図5、または
図6に示した各処理部は、ハードウェアでもって構成しているものとして説明したが、これらの各図に示した各処理部で行う処理は、コンピュータプログラムの実行によって実現されてもよい。
図7は、前述した各実施形態に係る画像処理装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。
【0038】
図7において、CPU801は、RAM802やROM803に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、前述した各実施形態の何れかの画像処理装置が行うものとして説明した各処理を実行する。すなわちCPU801は、
図1、
図5、または
図6に示した各処理部として機能することになる。
【0039】
RAM802は、外部記憶装置806からロードされたコンピュータプログラムやデータ、I/F(インターフェース)807を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、RAM802は、CPU801が各種の処理を実行する際に用いるワークエリアを有する。すなわちRAM802は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。
【0040】
ROM803には、本コンピュータの設定データや、ブートプログラムなどが格納されている。操作部804は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をCPU801に対して入力することができる。出力部805は、CPU801による処理結果を表示する。また出力部805は例えば液晶ディスプレイで構成される。操作表示部10はこれら操作部804と出力部805で構成される。
【0041】
外部記憶装置806は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置806には、OS(オペレーティングシステム)や、
図1、
図5、または
図6に示した各処理部の機能をCPU801に実現させるためのコンピュータプログラムが保存されている。更には、外部記憶装置806には、処理対象としての各画像データが保存されていてもよい。
【0042】
外部記憶装置806に保存されているコンピュータプログラムやデータは、CPU801による制御に従って適宜、RAM802にロードされ、CPU801による処理対象となる。I/F807には、LANやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、本コンピュータはこのI/F807を介して様々な情報を取得したり、送出したりすることができる。本発明においては、被写体撮像部1、背景撮像部2がこれに接続され、撮像された画像を入力したり、それぞれを制御したりする。808は上述の各部を繋ぐバスである。
上述の構成からなる作動は前述の実施形態で説明した作動をCPU801が中心となってその制御を行う。
【0043】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0044】
1:被写体撮像部、2:背景撮像部、3:同期部、4:三次元形状推定部、5:被写体検出部、6:補正部、7:背景テクスチャ生成部、8:蓄積部、9:画像生成部、10:操作表示部