特許7520539 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7520539画像処理装置、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-12

(45)【発行日】2024-07-23

(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム

(51)【国際特許分類】

G06T 7/194 20170101AFI20240716BHJP

H04N 7/18 20060101ALI20240716BHJP

【ＦＩ】

G06T7/194

H04N7/18 K

H04N7/18 U

【請求項の数】 10

(21)【出願番号】P 2020048906

(22)【出願日】2020-03-19

(65)【公開番号】P2021149513

(43)【公開日】2021-09-27

【審査請求日】2023-03-09

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100090273

【弁理士】

【氏名又は名称】國分孝悦

(72)【発明者】

【氏名】小沼和文

【審査官】佐藤実

(56)【参考文献】

【文献】特開２０２０－００３８８４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｈ０４Ｎ７／１８

(57)【特許請求の範囲】

【請求項1】

第１の撮像装置の位置姿勢を特定するためのパラメータを取得する第１の取得手段と、
前記第１の撮像装置とは異なる複数の第２の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第２の取得手段と、
取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第１の撮像装置の位置姿勢に基づいて、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正手段と、
を有し、
前記第１の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第１の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第１の撮像装置の視点に投影することにより特定される
ことを特徴とする、画像処理装置。

【請求項2】

前記補正手段は、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第１の撮像装置により過去に取得された画像に基づき補正することを特徴とする、請求項１に記載の画像処理装置。

【請求項3】

前記補正手段は、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第１の撮像装置により過去に取得された画像のうち、前記被写体に対応する領域に含まれる画素の画素値に基づいて補正することを特徴とする、請求項２に記載の画像処理装置。

【請求項4】

前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値は、前記第１の撮像装置により過去に取得された画像における前記被写体に対応する領域に含まれる画素の画素値に置き換えられることを特徴とする、請求項１に記載の画像処理装置。

【請求項5】

前記補正手段は、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれない画素の画素値に基づいて補正することを特徴とする、請求項１に記載の画像処理装置。

【請求項6】

前記補正手段は、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第１の撮像装置により取得された画像における前記被写体に対応する領域の周囲の領域に含まれる画素の画素値に基づいて補正することを特徴とする、請求項１に記載の画像処理装置。

【請求項7】

前記補正手段は、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を、前記第１の撮像装置及び前記第２の撮像装置とは異なる第３の撮像装置によって取得された画像に基づいて補正することを特徴とする、請求項１に記載の画像処理装置。

【請求項8】

前記補正手段は、前記第１の撮像装置によって取得された画像内の前記被写体に対応する領域が膨張または拡張された領域に含まれる画素の画素値を補正することを特徴とする、請求項１に記載の画像処理装置。

【請求項9】

画像処理装置が実行する画像処理方法であって、
第１の撮像装置の位置姿勢を特定するためのパラメータを取得する第１の取得工程と、
前記第１の撮像装置とは異なる複数の第２の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第２の取得工程と、
取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第１の撮像装置の位置姿勢に基づいて、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正工程と、
を有し、
前記第１の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第１の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第１の撮像装置の視点に投影することにより特定される
ことを特徴とする、画像処理方法。

【請求項10】

コンピュータを、請求項１から請求項８のいずれか１項に記載の画像処理装置が有する各手段として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、仮想視点画像を生成する画像処理技術に関する。

【背景技術】

【0002】

複数のカメラを用いた撮影システムで撮影した画像から、ユーザが指定した仮想視点から見た画像を作りだし、仮想視点画像を表示することができる仮想視点画像生成システムがある。特許文献１には、ユーザが指定した仮想視点に応じた仮想視点画像を生成可能な画像処理システムが開示されている。特許文献１に記載の画像処理装置（画像コンピューティングサーバ）は、複数のカメラで撮影した画像のうち変化が大きい部分を前景画像とし、変化が小さい部分を背景画像として抽出する、前景背景分離処理を行う。例えば、画像処理装置は、サッカー競技が行われるフィールドを撮影した画像から、選手やボールに対応する前景画像と、フィールド面に対応する背景画像とを抽出する。さらに画像処理装置は、その抽出した前景画像に基づき被写体の三次元モデルの形状を推定・生成し、前景画像、背景画像と共に蓄積装置に蓄積する。そして、画像処理装置は、ユーザが指定した仮想視点に基づいて蓄積装置から適切なデータを取得して仮想視点画像を生成する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－５０５９３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

仮想視点画像の生成において、撮影画像から背景画像を正確に抽出できない場合に、違和感のある仮想視点画像が生成されてしまうことが考えられる。例えば観客席を背景にして前景であるボールが撮影された撮影画像に対して前景背景分離処理を行う場合、ボールだけでなく観客席にも動きがあることから、正確に前景と背景を分離できない虞がある。そのため、前景の一部又は全部が映りこんだ背景画像を使用して仮想視点画像を生成することとなり、観客席の部分にボールの像が映りこんだ違和感のある仮想視点画像が生成される虞がある。

【0005】

そこで、本発明は、背景部分に違和感のある仮想視点画像が生成されるのを抑制することを目的とする。

【課題を解決するための手段】

【0006】

本発明の画像処理装置は、第１の撮像装置の位置姿勢を特定するためのパラメータを取得する第１の取得手段と、前記第１の撮像装置とは異なる複数の第２の撮像装置により取得された複数の画像に基づいて生成される被写体の三次元形状データを取得する第２の取得手段と、取得された前記パラメータと、前記被写体の三次元形状データと、に基づき特定される前記第１の撮像装置の位置姿勢に基づいて、前記第１の撮像装置により取得された画像における前記被写体に対応する領域に含まれる画素の画素値を補正する補正手段と、を有し、前記第１の撮像装置により取得された画像における前記被写体に対応する領域は、取得された前記パラメータに基づき特定される前記第１の撮像装置の位置姿勢に基づき、前記被写体の三次元形状データを前記第１の撮像装置の視点に投影することにより特定されることを特徴とする。

【発明の効果】

【0007】

本発明によれば、背景部分に違和感のある仮想視点画像が生成されるのを抑制することを目的とする。

【図面の簡単な説明】

【0008】

【図1】第１の実施形態の画像処理装置を含むシステム構成例を示す図である。

【図2】被写体撮像部の配置例を示す図である。

【図3】背景画像に被写体のシルエットが投影される例の説明図である。

【図4】本実施形態に係る画像補正処理の説明図である。

【図5】第２の実施形態の画像処理装置を含むシステム構成例を示す図である。

【図6】第２の実施形態のおける他のシステム構成例を示す図である。

【図7】画像処理装置に適用可能なコンピュータの構成例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態を、添付の図面に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。なお同一の構成または処理については、同じ参照符号を付して説明する。

【0010】

＜第１の実施形態＞
図１は、第１の実施形態に係る画像処理装置を含む画像処理システムの構成例を示した図である。図１に示した画像処理システムは、複数の被写体撮像部１、背景撮像部２、同期部３、三次元形状推定部４、被写体検出部５、補正部６、背景テクスチャ生成部７、蓄積部８、画像生成部９、及び操作表示部１０を含んで構成される。なお、本画像処理システムは、１つの電子機器によって構成されてもよいし、複数の電子機器によって構成されてもよい。図１において、本実施形態に係る画像処理装置は、例えば三次元形状推定部４、被写体検出部５、補正部６、背景テクスチャ生成部７、蓄積部８、及び画像生成部９により構成されているとする。

【0011】

複数の被写体撮像部１と、背景撮像部２とは、同期部３による同期信号に基づいて互いに高精度に同期して撮像を行う。
複数の被写体撮像部１は、それぞれが主に被写体を撮影するような画角および撮影方向に設置され、撮影した被写体撮影画像を三次元形状推定部４に出力する撮像装置である。なお、被写体撮像部１は、図２に示すように、競技場のグラウンドや被写体を複数の方向から撮影するため、つまり複数の視点から被写体等を撮影するために、グラウンドを囲むように設置されているとする。

【0012】

三次元形状推定部４は、複数の被写体撮像部１から入力された複数視点の被写体撮像画像を用いて、例えば被写体のシルエットを抽出したうえで、視体積交差法などを用いて被写体三次元モデルを生成する。また、三次元形状推定部４は、生成した被写体三次元モデルと被写体撮像画像とを、蓄積部８に出力して蓄積させる。なお本実施形態において前景として扱われる被写体とは、三次元モデル生成の対象となる人物やそれら人物が扱う物品などである。例えばサッカーなどの競技であった場合、選手や審判といった人物とボールとが、三次元モデル生成の対象となる。

【0013】

背景撮像部２は、競技場の観客席などの撮影エリアを撮影するような画角および撮影方向に設置され、当該撮影エリアを撮影した画像を背景撮像画像として取得する撮像装置である。なお、本実施形態において背景撮像部２は、観客席などの動きや変化がある背景を撮影するための専用のカメラでありその撮影画像は背景画像として扱われる。詳細は後述するが、本実施形態において、背景撮像部２にて取得された背景撮像画像は、後述する補正部６によって補正されたのち、背景テクスチャ生成部７に出力される。

【0014】

背景テクスチャ生成部７は、背景撮像画像を、背景三次元モデルに貼り付けるための背景テクスチャ画像に幾何変換することで、背景テクスチャ画像を生成する。本実施形態では、背景テクスチャ生成部７が所定の記憶装置に予め記憶された背景三次元形状モデルを取得するものとする。背景テクスチャ生成部７が取得した背景テクスチャ画像及び背景三次元モデルは、蓄積部８に出力されて蓄積される。本実施形態における背景とは、前述の前景としての被写体以外の物体である地面や構造物である。また人物であっても、観客など被写体三次元モデル生成の対象とならない人物は背景に含まれる。

【0015】

蓄積部８は、三次元形状推定部４から入力された被写体撮影画像及び被写体三次元モデルと、背景テクスチャ生成部７から入力された背景三次元モデルと背景テクスチャ画像とを蓄積（保存）する。

【0016】

画像生成部９は、ユーザにより操作表示部１０から入力された仮想視点の位置、向き及び時刻の情報に基づき、蓄積部８から該当時刻に対応したデータ（被写体撮影画像及び被写体三次元モデル、背景三次元モデルおよび背景テクスチャ画像のデータ）を取得する。画像生成部９は取得したデータのうち背景三次元モデルと背景テクスチャ画像から仮想視点に対応する背景を描画し、被写体三次元モデルおよび被写体撮影画像から仮想視点に対応する被写体を描画し、これらの背景と被写体を含む画像を仮想視点画像として生成して操作表示部１０に出力する。これにより、操作表示部１０の画面上には仮想視点画像が表示される。

【0017】

ここで、背景テクスチャ生成部７が、背景撮像画像をそのまま幾何変換した画像を背景テクスチャ画像として扱う場合について考える。このとき、例えば図３（ａ）に示す被写体（この例ではサッカーボール３１と人物３４）の一部が背景撮像部２の画角に入っているとする。この場合、背景撮像部２による背景撮像画像に被写体の画像が含まれる。例えば、サッカーボール３１が高く上がったことで、背景撮像部２の画角内に当該サッカーボール３１が入った場合、図３（ａ）に示すように、背景である観客席のモデルに張り付ける背景テクスチャ画像に、サッカーボール３１が映り込むことがある。また、フィールド周辺の動的に表示が変わる電子看板３３などでも同様に、その電子看板３３の手前にいる人物３４が背景撮像部２の画角に入ると、背景撮像画像の電子看板３３の部分に人物３４が重なってしまう。その結果、背景である電子看板３３のモデルに張り付ける背景テクスチャ画像に、人物３４が映り込むことがある。このような背景テクスチャ画像を用いて仮想視点画像を生成した場合、仮想視点画像内にサッカーボール３１の他にそのボールの像３６も描画され、また、人物３４の他にその人物の像３７も描画されてしまう。その結果、仮想視点画像の視聴者に違和感を与え、視聴者は混乱してしまうことになる。またそのような像が映り込んだ画像は、現実空間を正確に表現できていないという点で、品質が低い画像である。

【0018】

そこで、本実施形態における画像処理システムは、上記のボールの像３６や人物の像３７が含まれない背景テクスチャ画像を用いて仮想視点画像を生成する。そのために、被写体検出部５は、三次元形状推定部４から被写体三次元モデルを取得する。そして被写体検出部５は、その被写体三次元モデルを、背景撮像部２の位置姿勢（カメラの位置姿勢）を示す外部パラメータと、背景撮像部２の光学系に関する内部パラメータとを基に、背景撮像部２の撮像画像相当の画像に投影する。

【0019】

例えば図３（ａ）に示す状況において、サッカーボール３１の被写体三次元モデルは背景撮像部２の背景撮像画像中のシルエット領域３９に投影され、人物３４の被写体三次元モデルはシルエット領域３８に投影される。そして被写体検出部５は、背景撮像部２による背景撮像画像に投影されるシルエットの領域を被写体領域（シルエット被写体領域とする。）として検出し、そのシルエット被写体領域を表す情報を補正部６に送る。このとき、補正部６に送られる情報が示すシルエットの領域は、投影されるシルエットの形状そのものとしてもよいし、三次元形状推定部４の精度などを考慮して、シルエットを膨張させた形状としてもよい。あるいは、シルエットの領域を含む矩形形状が、被写体領域（矩形被写体領域とする）として補正部６に送られてもよい。補正部６に出力される矩形被写体領域の情報は、画像ではなく、矩形形状の四つの頂点の座標データのみでよく、これによりデータ量を削減することができる。

【0020】

補正部６は、背景撮像部２から入力された背景撮像画像に対し、前述したシルエット被写体領域に映っている被写体を除去するための画像補正処理を行う。この画像補正処理を実現するために、補正部６は、入力された背景撮像画像を、逐次、一定時間ごとに保持する。
図４は、最新の（現在の）背景撮像画像４１と、補正部６が保持している過去の背景撮像画像４２と、被写体検出部５にて検出されるシルエット被写体検出領域を表すシルエット画像４３と、それらに基づく画像補正処理後の背景撮像画像４５とを示した図である。図４の最新の背景撮像画像４１の場合、補正部６による画像補正処理が行われていないため、人物４１０およびサッカーボール４１１が映りこんでいる。また、過去の背景撮像画像４２の場合にも、補正部６による画像補正処理が行われていないため、人物４２０およびサッカーボール４２１が映りこんでいる。シルエット画像４３は、最新の背景撮像画像４１について被写体検出部５により検出されるシルエット被写体領域およびその位置を示しており、図４の例では、矩形被写体領域４３０および４３１とその位置が検出されているとする。

【0021】

補正部６は、図４に示すように、最新の背景撮像画像４１における人物４１０およびサッカーボール４１１の領域に対し、過去の背景撮像画像４２の該当領域部分を用いて上書きするような画像補正処理を行う。この場合、補正部６は、最新の背景撮像画像４１について被写体検出部５が検出したシルエット画像４３の矩形被写体領域４３０および４３１に対応した領域を、過去の背景撮像画像４２から抽出する。図４の抽出被写体領域画像４４は、過去の背景撮像画像４２から、矩形被写体領域４３０および４３１に対応した領域が抽出されて得られたものである。抽出被写体領域画像４４のなかの矩形領域４１３と４１４は、過去の背景撮像画像４２から、シルエット画像４３の矩形被写体領域４３０および４３１に対応して抽出された領域である。そして、補正部６は、最新の背景撮像画像４１に対し、抽出被写体領域画像４４の矩形領域４１３と４１４を上書きする。これにより、補正後の背景撮像画像４５は、最新の背景撮像画像４１から人物４１０とサッカーボール４１１が除去された画像となる。補正部６は、この補正後の背景撮像画像４５を背景テクスチャ生成部７に出力する。

【0022】

第１の実施形態においては、前述したような画像補正処理を行うことにより、背景撮像画像及びそれから生成される背景テクスチャ画像に映りこんでしまう前景の被写体を除去することが可能である。そして、前景の被写体が除去された背景テクスチャ画像を用いて仮想視点画像を生成することにより、前景の被写体の像が背景に映り込んだ違和感のある仮想視点画像が表示されてしまうことを抑制することができる。

【0023】

前述の実施形態では、例えばシルエット被写体領域の抽出を三次元形状推定部４で行う構成としたが、必ずしもこれに限定するものでない。例えば、被写体撮像部１がシルエット被写体領域を抽出する機能を備えていてもよい。この場合、被写体撮像部１は、被写体撮影画像から、抽出したシルエット被写体領域やシルエットを含む矩形被写体領域を切り出したうえで、三次元形状推定部４に送信することとしてもよい。また、被写体撮像部１以外に、別途、シルエット被写体領域を抽出する抽出部を設ける構成としてもよい。また、前述の実施形態ではシルエット被写体領域の抽出方法について特に制限を設けないが、例えば、予め被写体がない状態の画像を取得したうえで、その画像との比較により被写体領域を抽出する背景差分方式を用いることで実現してもよい。さらには、被写体として人の形状を機械学習することで抽出してももちろん構わない。

【0024】

また、前述の実施形態では三次元形状推定部４及び背景テクスチャ生成部７の出力を蓄積部８に蓄積する構成としたが、必ずしも蓄積部８に蓄積する必要はない。例えば時間をさかのぼって画像を生成しない用途であれば、三次元形状推定部４及び背景テクスチャ生成部７の出力を直接、画像生成部９に入力する構成としてもよい。
また、前述の実施形態では撮像から画像生成まで一つの画像処理システムとして記載したが、必ずしも一つの構成に限定するものではない。例えば蓄積部８に記録するまでを仮想視点画像素材生成装置とし、蓄積部８に記録された素材を用いて仮想視点画像を生成する部分を仮想視点画像生成装置とし、それぞれ個別装置として構成してもよい。
また、前述の実施形態の場合、被写体検出部５は、三次元形状推定部４から被写体三次元モデルを取得する構成として記載したが、必ずしもこれに限定するものではない。例えば被写体検出部５が、蓄積部８に蓄積・保存された、被写体三次元モデルを取得する構成としてもよい。

【0025】

また、前述の実施形態では、説明を簡単にするために背景撮像部２を単一の撮像装置として記載したがこれに限定するものではない。実際の撮影においては、四方及び上下を撮影する必要があり、また背景の構造によってはオクルージョンなどが発生することもあるため、複数の背景撮像部２を備えることが望ましい。複数の背景撮像部２は、それぞれが、少なくとも異なる角度から背景を撮像する。その場合、被写体検出部５は、それぞれの背景撮像部２の外部パラメータおよび内部パラメータに基づき、被写体三次元モデルを投影し、各背景撮像部２におけるシルエット被写体領域を求める。

【0026】

また、前述のように背景を複数の背景撮像部２で撮影する場合、背景撮像画像を重複する形で撮影してもよい。この場合、撮影範囲の一部が重複する２つ以上の背景撮像部２の設置位置が大きく異なる場合、被写体が映り込む位置はそれぞれ異なる可能性がある。そこで、補正部６において、被写体領域の補正を行う際に、該当の背景撮像画像と撮影範囲の一部が重複する他の背景撮像画像から該当位置の画像を取得して上書きすることでも補正が可能である。

【0027】

また、前述の実施形態では、被写体検出部５で検出した被写体のシルエット形状に対して膨張処理や矩形への拡張を行ったが、それらは必ずしも被写体検出部５で行う必要はない。例えば被写体検出部５が出力した被写体領域を基に、補正部６が膨張や矩形への拡張を行ってもよい。
また、補正部６における画像補正処理は、最新の背景撮像画像を過去の背景撮像画像で置き換えることに限定されず、例えば、同じフレームの画像内の補正対象部分に類似した部分を用いて置換する、または、時間的に前後の背景撮像画像の画素値の平均値で置換するといった方法を用いても構わない。また、被写体が写っていない別な背景撮像部２の画像で補完しても構わない。

【0028】

＜第２の実施形態＞
図５は、第２の実施形態に係る画像処理装置を含む画像処理システムの構成例を示した図である。図５に示した画像処理システムの構成は、図１に示した第１の実施形態の画像処理システムの構成と概ね同じであるが、被写体検出部５の動作及び周囲の構成部との接続と、補正部６の動作が図１の例とは異なる。以下、図５の構成および動作において、図１とは異なる部分のみを説明する。なお、被写体撮像部１、背景撮像部２、同期部３、三次元形状推定部４、被写体検出部５、補正部６、背景テクスチャ生成部７、蓄積部８、画像生成部９、及び操作表示部１０において、図１の対応した各部と同様の動作に関する説明は省略する。

【0029】

第２の実施形態において、被写体検出部５は、背景撮像部２が取得した背景撮像画像を取得する。被写体検出部５は、取得した背景撮像画像の一定の時間範囲分を内部に保持する。そして、被写体検出部５は、最新の背景撮像画像と、過去の背景撮像画像との差分画像を求める。このときの差分画像では、検出すべき被写体のほかに、背景として動きがあったものが抽出される。さらに、被写体検出部５は、これらの中で想定される被写体の大きさや色、形状、また複数の過去画像との比較を行った上で移動速度などを求め、それらに基づき被写体を検出して、それをシルエット被写体領域として補正部６に出力する。

【0030】

補正部６は、背景撮像部２から入力された背景撮像画像に対して、被写体検出部５から入力されたシルエット被写体領域の被写体部分を除去するための画像補正を行う。具体的には、補正部６は、入力されたシルエット被写体領域の周囲の部分の画素の色及びパターンを基に類似の色及びパターンを生成して、それらによりシルエット被写体領域の部分を上書きする。なおこの場合、厳密には補正前の画像とは異なるが、人間の目に見てそこに被写体があったとは判り難い画像で補正することができる。補正部６は、その補正後の背景撮像画像を背景テクスチャ生成部７に出力する。

【0031】

その他の各構成部の構成と動作などは前述の第１の実施形態と同様であり、蓄積部８に各仮想視点画像素材が蓄えられ、それに基づき画像生成部９が仮想視点画像を生成する。
このように、第２の実施形態においては、第１の実施形態と同様に、背景撮像画像及びそれから生成される背景テクスチャ画像に映り込む被写体を除去することが可能である。これにより、第２の実施形態によれば、被写体三次元モデルと被写体撮影画像から生成される被写体と、背景に映り込んでしまった被写体とが、仮想視点画像において多重に表示されることを抑制することができる。

【0032】

第２の実施形態の場合、第１の実施形態と比較すると、被写体検出部５における被写体検出の処理の計算量が少なくなり、また、各背景撮像部２の各々の撮像画像のみで検出することが可能となる。そのため、例えば被写体検出部５および補正部６を、背景撮像部２に含めた構成とすることも可能である。一方で、第１の実施形態の方が、被写体領域検出精度を高められるまた、第２の実施形態の画像処理は、ボールなどの移動速度が速いものを検出するのに適している。ただし、動きの遅い被写体や動きの大きな被写体、例えば人物などの場合、同じ場所に一定時間留まる場合や、移動量が被写体の大きさ未満になる場合もある。このような場合、観客席におけるボールの検出には本実施形態の被写体検出部を適用し、人物の被写体が映り込む画角においては第１の実施形態の被写体検出部を適用するなど、画角と領域とで使用する被写体検出部を切り替える構成としてもよい。

【0033】

また、第２の実施形態では、被写体検出部５において被写体の大きさや色、形状、また複数の過去画像との比較を行ったうえで移動速度などに基づき被写体を検出するとしたが、この際に機械学習を用いた推定手段を用いてもよい。また機械学習を用いる場合には色や形状などの特徴抽出をあらかじめ行わず深層学習などの機械学習手法を用いて被写体を検出してもよい。

【0034】

また補正部６も同様に、背景撮像画像内のパターンや映り込む被写体の種類に基づいて、第１の実施形態に示した補正部６における画像補正方法と、第２の実施形態で示した補正部６における画像補正方法とを、切り替える構成としてもよい。つまり、第１の実施形態のように三次元形状を投影して前記被写体領域を検出する処理と、第２の実施形態のように差分画像に基づいて被写体領域を検出する処理とを、画像内の部分によって切り替えてもよい。
また第２の実施形態では、必ずしも被写体撮像部１と背景撮像部２が同期している必要はないため、同期部３は複数の被写体撮像部１のみを同期する構成としてもよい。

【0035】

また本実施形態では、背景撮像画像に対してシルエット被写体領域の検出及び被写体を除去するための画像補正を行ったが、必ずしもこれに限定するものではない。例えば図６に示すように、背景テクスチャ生成部７において生成された背景テクスチャ画像に対して、被写体領域の検出及び補正を行ってもよい。図６に示した画像処理システムの構成は、図５に示した構成と概ね同じであるが、被写体検出部５と背景テクスチャ生成部７と補正部６の接続関係が、図５の例とは異なる。すなわち、図６の構成の場合、背景撮像部２で取得された背景撮像画像が背景テクスチャ生成部７に出力され、その背景テクスチャ生成部７の出力が被写体検出部５と補正部６に送られる。そして、補正部６の出力が蓄積部８に送られる。なお、被写体撮像部１、背景撮像部２、同期部３、三次元形状推定部４、被写体検出部５、補正部６、背景テクスチャ生成部７、蓄積部８、画像生成部９、及び操作表示部１０において、図１の対応した各部と同様の動作に関する説明は省略する。

【0036】

図６の構成例では、被写体検出部５において前述同様の処理を行うことで、背景テクスチャ画像におけるシルエット被写体領域の検出を行う。そのうえで、補正部６が、背景テクスチャ生成部７からの背景テクスチャ画像と、被写体検出部５からのシルエット被写体領域とを用いて、被写体を除去する画像補正処理を行う。これにより、図６の構成例では、背景テクスチャ画像に映り込んだ被写体を除去することができる。図６のように、背景テクスチャ画像に対して被写体除去を行う構成は、背景撮像画像に対して被写体除去を行う処理よりも計算量を少なくすることができる可能性がある。なぜならば、背景撮像画像のすべてが背景テクスチャ画像に使われるわけではなく、背景撮像画像に対して被写体除去処理を行う場合、背景テクスチャ画像が使われない部分の被写体の検出及び除去が行われるためである。

【0037】

＜その他の構成＞
図１、図５、または図６に示した各処理部は、ハードウェアでもって構成しているものとして説明したが、これらの各図に示した各処理部で行う処理は、コンピュータプログラムの実行によって実現されてもよい。
図７は、前述した各実施形態に係る画像処理装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。

【0038】

図７において、ＣＰＵ８０１は、ＲＡＭ８０２やＲＯＭ８０３に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、前述した各実施形態の何れかの画像処理装置が行うものとして説明した各処理を実行する。すなわちＣＰＵ８０１は、図１、図５、または図６に示した各処理部として機能することになる。

【0039】

ＲＡＭ８０２は、外部記憶装置８０６からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）８０７を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、ＲＡＭ８０２は、ＣＰＵ８０１が各種の処理を実行する際に用いるワークエリアを有する。すなわちＲＡＭ８０２は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。

【0040】

ＲＯＭ８０３には、本コンピュータの設定データや、ブートプログラムなどが格納されている。操作部８０４は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をＣＰＵ８０１に対して入力することができる。出力部８０５は、ＣＰＵ８０１による処理結果を表示する。また出力部８０５は例えば液晶ディスプレイで構成される。操作表示部１０はこれら操作部８０４と出力部８０５で構成される。

【0041】

外部記憶装置８０６は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置８０６には、ＯＳ（オペレーティングシステム）や、図１、図５、または図６に示した各処理部の機能をＣＰＵ８０１に実現させるためのコンピュータプログラムが保存されている。更には、外部記憶装置８０６には、処理対象としての各画像データが保存されていてもよい。

【0042】

外部記憶装置８０６に保存されているコンピュータプログラムやデータは、ＣＰＵ８０１による制御に従って適宜、ＲＡＭ８０２にロードされ、ＣＰＵ８０１による処理対象となる。Ｉ／Ｆ８０７には、ＬＡＮやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、本コンピュータはこのＩ／Ｆ８０７を介して様々な情報を取得したり、送出したりすることができる。本発明においては、被写体撮像部１、背景撮像部２がこれに接続され、撮像された画像を入力したり、それぞれを制御したりする。８０８は上述の各部を繋ぐバスである。
上述の構成からなる作動は前述の実施形態で説明した作動をＣＰＵ８０１が中心となってその制御を行う。

【0043】

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

【符号の説明】

【0044】

１：被写体撮像部、２：背景撮像部、３：同期部、４：三次元形状推定部、５：被写体検出部、６：補正部、７：背景テクスチャ生成部、８：蓄積部、９：画像生成部、１０：操作表示部

【図1】