特許7326965 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7326965画像処理装置、画像処理プログラム、及び画像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-08-07

(45)【発行日】2023-08-16

(54)【発明の名称】画像処理装置、画像処理プログラム、及び画像処理方法

(51)【国際特許分類】

G06T 7/60 20170101AFI20230808BHJP

【ＦＩ】

G06T7/60 180B

【請求項の数】 6

(21)【出願番号】P 2019138494

(22)【出願日】2019-07-29

(65)【公開番号】P2021022185

(43)【公開日】2021-02-18

【審査請求日】2022-04-27

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100074099

【弁理士】

【氏名又は名称】大菅義之

(74)【代理人】

【識別番号】100121083

【弁理士】

【氏名又は名称】青木宏義

(74)【代理人】

【識別番号】100138391

【弁理士】

【氏名又は名称】天田昌行

(72)【発明者】

【氏名】堀内伸一

【審査官】片岡利延

(56)【参考文献】

【文献】特開２００９－２９０７８２（ＪＰ，Ａ）

【文献】特開２０１０－０３９５８０（ＪＰ，Ａ）

【文献】特開２０１７－０２７１９７（ＪＰ，Ａ）

【文献】特開２０１５－１８８２５１（ＪＰ，Ａ）

【文献】特開２０１６－０５９０５１（ＪＰ，Ａ）

【文献】特開２０１４－１１６７８９（ＪＰ，Ａ）

【文献】特開２００８－０８９８１１（ＪＰ，Ａ）

【文献】特開２００６－０１８２４６（ＪＰ，Ａ）

【文献】特開２０１８－０５５６４４（ＪＰ，Ａ）

【文献】Dushyant Mehta et al.，XNect: Real-time Multi-person 3D Human PoseEstimation with a Single RGB Camera，[online]，2019年07月01日，https://arxiv.org/abs/1907.00837v1

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／６０

(57)【特許請求の範囲】

【請求項1】

複数の被写体が写っている画像を記憶する記憶部と、
前記画像内で前記複数の被写体それぞれが写っている領域から検出されたエッジに基づいて、前記複数の被写体それぞれが写っている領域の鮮明度を計算し、前記複数の被写体のうち特定の被写体が写っている領域の鮮明度と前記複数の被写体のうち他の被写体が写っている領域の鮮明度との差分を、前記画像の奥行方向における前記特定の被写体と前記他の被写体との間の相対距離を示す指標として計算する計算部と、
前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定する推定部と、
を備えることを特徴とする画像処理装置。

【請求項2】

前記画像から前記複数の被写体それぞれが写っている領域の下端の位置を検出する検出部と、
前記複数の被写体それぞれが写っている領域の下端の位置を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する補正部とをさらに備え、
前記推定部は、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする請求項１記載の画像処理装置。

【請求項3】

前記複数の被写体それぞれが写っている領域を用いて、前記画像内における前記複数の被写体の間の重なりを判定する判定部と、
前記複数の被写体の間の重なりを判定した結果を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する補正部とをさらに備え、
前記推定部は、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする請求項１記載の画像処理装置。

【請求項4】

前記複数の被写体それぞれに対応する３次元モデルを生成し、前記特定の被写体と前記他の被写体との間の位置関係を複数の３次元モデルの間の位置関係に反映する生成部をさらに備えることを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。

【請求項5】

画像内で複数の被写体それぞれが写っている領域から検出されたエッジに基づいて、前記複数の被写体それぞれが写っている領域の鮮明度を計算し、
前記複数の被写体のうち特定の被写体が写っている領域の鮮明度と前記複数の被写体のうち他の被写体が写っている領域の鮮明度との差分を、前記画像の奥行方向における前記特定の被写体と前記他の被写体との間の相対距離を示す指標として計算し、
前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定する、
処理をコンピュータに実行させるための画像処理プログラム。

【請求項6】

コンピュータによって実行される画像処理方法であって、
前記コンピュータが、
画像内で複数の被写体それぞれが写っている領域から検出されたエッジに基づいて、前記複数の被写体それぞれが写っている領域の鮮明度を計算し、
前記複数の被写体のうち特定の被写体が写っている領域の鮮明度と前記複数の被写体のうち他の被写体が写っている領域の鮮明度との差分を、前記画像の奥行方向における前記特定の被写体と前記他の被写体との間の相対距離を示す指標として計算し、
前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定する、
ことを特徴とする画像処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、画像処理プログラム、及び画像処理方法に関する。

【背景技術】

【0002】

日常のエンターテインメント、ビジネス等において、インタラクティブなＶＲ（Virtual Reality）及びＡＲ（Augmented Reality）のニーズが高まっている中で、ユーザ自身の動きを仮想空間内の３次元モデルに反映することが試みられている。

【0003】

人物を撮像した画像に関して、撮像画像に含まれる顔を検出し、検出された顔の顔幅に基づいて、レンズ部の光軸方向における各顔の位置の前後関係を推定する技術が知られている（例えば、特許文献１を参照）。

【0004】

画像から顔を検出する技術、及び２次元姿勢推定の技術も知られている（例えば、非特許文献１～非特許文献５を参照）。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００９－２２３８３５号公報

【非特許文献】

【0006】

【文献】V. Kazemi et al.,“One Millisecond Face Alignment with an Ensemble of Regression Trees”, 2014 IEEE Conference on Computer Vision and Pattern Recognition, pp.1867-1874, 2014

【文献】Z. Cao et al.,“OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”, Cornell University, arXiv:1812.08008v2 [cs.CV], May 2019

【文献】“tf-pose-estimation”、GitHub, Inc.、［online］、［令和１年７月５日検索］、インターネット＜ＵＲＬ：https://github.com/ildoonet/tf-pose-estimation＞

【文献】“OpenPose”、GitHub, Inc.、［online］、［令和１年７月５日検索］、インターネット＜ＵＲＬ：https://github.com/CMU-Perceptual-Computing-Lab/openpose＞

【文献】“Pose Detection in the Browser: PoseNet Model”、GitHub, Inc.、［online］、［令和１年７月５日検索］、インターネット＜ＵＲＬ：https://github.com/tensorflow/tfjs-models/tree/master/posenet＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

複数の人物を撮影した画像からそれぞれの人物の３次元モデルを生成する場合、３次元空間における人物間の奥行方向の距離を、仮想空間内の複数の３次元モデルの間の距離に反映することは困難である。

【0008】

なお、かかる問題は、仮想空間内の３次元モデルを生成する場合に限らず、３次元空間における人物間の距離に基づく他の処理を行う場合においても生ずるものである。また、かかる問題は、複数の人物を撮影した画像から人物間の距離を推定する場合に限らず、人物以外の複数の被写体を撮影した画像から被写体間の距離を推定する場合においても生ずるものである。

【0009】

１つの側面において、本発明は、複数の被写体が写っている画像から、画像の奥行方向における被写体間の位置関係を推定することを目的とする。

【課題を解決するための手段】

【0010】

１つの案では、画像処理装置は、記憶部、計算部、及び推定部を含む。記憶部は、複数の被写体が写っている画像を記憶する。

【0011】

計算部は、画像内で複数の被写体それぞれが写っている領域の鮮明度に基づいて、画像の奥行方向における複数の被写体の間の相対距離を示す指標を計算する。推定部は、複数の被写体の間の相対距離を示す指標と、画像内における複数の被写体それぞれの大きさとに基づいて、画像の奥行方向における複数の被写体の間の位置関係を推定する。

【発明の効果】

【0012】

１つの側面において、複数の被写体が写っている画像から、画像の奥行方向における被写体間の位置関係を推定することができる。

【図面の簡単な説明】

【0013】

【図1】画像処理装置の機能的構成図である。

【図2】画像処理のフローチャートである。

【図3】画像処理装置の第１の具体例を示す機能的構成図である。

【図4】推定処理を示す図である。

【図5】複数の人物が写っている画像を示す図である。

【図6】顔領域を示す図である。

【図7】リサイズされた顔領域を示す図である。

【図8】スコアを示す図である。

【図9】スコア差を示す図である。

【図10】人物間の位置関係を示す図である。

【図11】３次元モデルを示す図である。

【図12】画像処理の第１の具体例を示すフローチャートである。

【図13】画像処理装置の第２の具体例を示す機能的構成図である。

【図14】足の位置が異なる複数の人物が写っている画像を示す図である。

【図15】足の位置が異なる人物間の位置関係を示す図である。

【図16】下端座標を示す図である。

【図17】足の位置が異なる複数の人物の補正後スコア差を示す図である。

【図18】足の位置が異なる人物間の補正後の位置関係を示す図である。

【図19】足の位置が異なる複数の人物の３次元モデルを示す図である。

【図20】画像処理の第２の具体例を示すフローチャートである。

【図21】足の位置に基づく補正処理のフローチャートである。

【図22】画像処理装置の第３の具体例を示す機能的構成図である。

【図23】身体が重なった複数の人物が写っている画像を示す図である。

【図24】身体が重なった人物間の位置関係を示す図である。

【図25】判定処理を示す図である。

【図26】判定結果を示す図である。

【図27】身体が重なった複数の人物の補正後スコア差を示す図である。

【図28】身体が重なった人物間の補正後の位置関係を示す図である。

【図29】身体が重なった複数の人物の３次元モデルを示す図である。

【図30】人物の重なりに基づく補正処理のフローチャートである。

【図31】３次元モデルの動画像を示す図である。

【図32】画像処理の第３の具体例を示すフローチャートである。

【図33】情報処理装置のハードウェア構成図である。

【発明を実施するための形態】

【0014】

以下、図面を参照しながら、実施形態を詳細に説明する。
ＶＲ又はＡＲにおいて、ユーザ自身の動きを仮想空間内の３次元モデルに反映する方法として、ユーザの全身に装着されたセンサを用いるモーショントラッキング、複数台の赤外線カメラを用いる方法等が存在する。しかし、これらのセンサ、赤外線カメラ等は、ユーザの身近に存在する機器ではないため、これらの機器を用いる方法では、一般的なニーズに応えることが難しい。このため、ユーザの動きを手軽に３次元モデルに反映する方法は確立されていない。

【0015】

そこで、一般家庭における普及率が高い単眼カメラを用いて、３次元空間におけるユーザの位置及び姿勢を仮想空間内の３次元モデルの位置及び姿勢に変換する技術が開発されている。しかしながら、単眼カメラの画像は、現実の４次元時空から奥行方向と時間方向の次元を除いた、水平方向と垂直方向の２次元形式で出力されるため、奥行方向の情報を持たない。このため、ユーザの位置及び姿勢を仮想空間に変換した際に、仮想空間の奥行方向の次元が活用されない。

【0016】

特に、複数の人物を撮影した画像から複数の３次元モデルを生成する場合、人物同士の奥行座標の違いが３次元モデルに反映されないため、複数の３次元モデルが仮想空間内で同じ領域を共有する状況が発生することがある。また、複数の人物がカメラに向かって意識的に横２列以上の列に並んだ場合、それらの人物を撮影した画像から３次元モデルを生成すると、横１列に並んだ３次元モデルが生成される。

【0017】

画像に写っている人物の顔の大きさ、人物の身体同士の重なり等に基づいて、人物間の前後関係を推定することは可能であるが、顔、身体等の誤検出によって推定精度が低下することが多い。また、顔の大きさ、身体同士の重なり等に基づいて、人物間の距離を推定することは困難である。画像から奥行方向の情報を再現するには、画像の光学情報を解析することが望ましい。

【0018】

図１は、実施形態の画像処理装置の機能的構成例を示している。図１の画像処理装置１０１は、記憶部１１１、計算部１１２、及び推定部１１３を含む。記憶部１１１は、複数の被写体が写っている画像１２１を記憶する。計算部１１２及び推定部１１３は、画像１２１を用いて画像処理を行う。

【0019】

図２は、図１の画像処理装置１０１が行う画像処理の例を示すフローチャートである。まず、計算部１１２は、画像１２１内で複数の被写体それぞれが写っている領域の鮮明度に基づいて、画像１２１の奥行方向における複数の被写体の間の相対距離を示す指標を計算する（ステップ２０１）。次に、推定部１１３は、複数の被写体の間の相対距離を示す指標と、画像１２１内における複数の被写体それぞれの大きさとに基づいて、画像１２１の奥行方向における複数の被写体の間の位置関係を推定する（ステップ２０２）。

【0020】

図１の画像処理装置１０１によれば、複数の被写体が写っている画像から、画像の奥行方向における被写体間の位置関係を推定することができる。

【0021】

図３は、図１の画像処理装置１０１の第１の具体例を示している。図３の画像処理装置３０１は、記憶部３１１、画像取得部３１２、計算部３１３、推定部３１４、生成部３１５、及び出力部３１６を含み、複数の人物を撮影した画像から、それぞれの人物の３次元モデルを生成する。人物は、被写体の一例である。

【0022】

記憶部３１１、計算部３１３、及び推定部３１４は、図１の記憶部１１１、計算部１１２、及び推定部１１３にそれぞれ対応する。画像処理装置３０１は、タブレット、ノート型ＰＣ（Personal Computer）、スマートデバイス等の携帯端末装置であってもよく、クラウド上のサーバであってもよい。

【0023】

撮像装置３０２は、例えば、ＣＣＤ（Charged-Coupled Device）、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）等の撮像素子を有するカメラである。撮像装置３０２は、単眼カメラであってもよい。

【0024】

撮像装置３０２は、複数の人物を撮影して画像３２１を出力する。画像取得部３１２は、撮像装置３０２から画像３２１を取得して、記憶部３１１に格納する。画像３２１は、図１の画像１２１に対応する。

【0025】

計算部３１３は、画像３２１から各人物の顔が写っている顔領域を抽出し、各人物の顔領域の鮮明度を示すスコア３２２を計算して、記憶部３１１に格納する。次に、計算部３１３は、画像３２１に写っている複数の人物の中から、特定の人物を基準人物として選択する。

【0026】

そして、計算部３１３は、基準人物のスコア３２２と、画像３２１に写っている各人物のスコア３２２との差分を計算し、スコア差３２３として記憶部３１１に格納する。スコア差３２３は、画像３２１の奥行方向における人物間の相対距離を示す指標の一例であり、基準人物と他の人物との間の相対距離を示している。画像３２１の奥行方向は、撮像装置３０２の光軸の方向に対応する。

【0027】

推定部３１４は、画像３２１内における基準人物の顔の大きさと他の人物の顔の大きさとに基づいて、いずれの人物の方が撮像装置３０２に近いかを推定する。そして、推定部３１４は、いずれの人物の方が撮像装置３０２に近いかを推定した結果とスコア差３２３とに基づいて、画像３２１の奥行方向における人物間の位置関係を推定する。人物間の位置関係は、基準人物と他の人物との間の位置関係によって表される。

【0028】

図４は、人物間の位置関係を推定する推定処理の例を示している。人物４０１～人物４０３のうち、人物４０２は、撮像装置３０２の焦点の位置に立っており、人物４０１は、焦点よりも撮像装置３０２に近い位置（前方）に立っており、人物４０３は、焦点よりも撮像装置３０２から遠い位置（後方）に立っている。

【0029】

人物４０１～人物４０３を撮影した画像内において、光学的には、焦点に位置する被写体の鮮明度が最も高く、被写体が焦点から離れるほど鮮明度が低下する。したがって、人物４０２のスコアが最も大きく、人物４０１及び人物４０３のスコアは、人物４０２のスコアよりも小さくなる。

【0030】

この例では、最大のスコアを持つ人物４０２が基準人物として選択され、人物４０２のスコア差は０となり、人物４０１及び人物４０３のスコア差は１００となる。しかし、スコア差は人物４０２の位置からの相対距離を示しているのみであり、スコア差だけでは、人物４０１及び人物４０３が人物４０２の前方又は後方のいずれに位置するかが決定されない。

【0031】

そこで、推定部３１４は、人物４０１と人物４０２の顔の大きさを比較し、人物４０１の顔が人物４０２の顔よりも大きいため、人物４０１が人物４０２よりも前方に位置すると判定して、人物４０１のスコア差に負の符号を付加する。これにより、人物４０１のスコア差は－１００に変更される。一方、人物４０３の顔は人物４０２の顔よりも小さいため、推定部３１４は、人物４０３が人物４０２よりも後方に位置すると判定する。この場合、人物４０３のスコア差に負の符号は付加されない。

【0032】

符号を含めたスコア差の昇順は、各人物が撮像装置３０２に近い順を表しており、人物間におけるスコア差の差分は、人物間の相対距離を示している。

【0033】

このように、画像３２１に写っている特定の人物を基準人物として選択し、基準人物と他の人物とのスコア差３２３を計算することで、人物間の相対距離を容易に推定することができる。また、基準人物と他の人物の顔の大きさを比較することで、他の人物が基準人物の前方又は後方のいずれに位置するかを推定することができる。

【0034】

生成部３１５は、複数の人物それぞれに対応する、仮想空間内の３次元モデル３２５を生成し、人物間の位置関係を、仮想空間内における複数の３次元モデル３２５の間の位置関係に反映する。各人物の３次元モデル３２５は、バーチャルキャラクターであってもよい。

【0035】

生成部３１５は、人物間の位置関係から、仮想空間内における各３次元モデル３２５の奥行方向の座標３２４を計算して、記憶部３１１に格納する。そして、生成部３１５は、各３次元モデル３２５を座標３２４が示す位置に配置することで、人物間の位置関係を複数の３次元モデル３２５の間の位置関係に反映する。出力部３１６は、仮想空間内に配置された３次元モデル３２５を示す情報を出力する。

【0036】

図３の画像処理装置３０１によれば、画像に写っている複数の人物を空間的に識別して、画像の奥行方向における人物間の位置関係を推定することができる。これにより、人物同士の奥行座標の違いを仮想空間内の３次元モデルに反映することが可能になる。

【0037】

図５は、複数の人物が写っている画像３２１の例を示している。図５の画像３２１には、人物Ａ、人物Ｂ、人物Ｃ、人物Ｄ、人物Ｅ、及び人物Ｆが写っている。

【0038】

まず、計算部３１３は、図５の画像３２１から各人物の顔領域を抽出する。例えば、計算部３１３は、非特許文献１の技術、又は機械学習ＯＳＳ（Open Source Software）のライブラリであるＤＬｉｂの顔検出機能を用いて、顔領域を抽出することができる。

【0039】

図６は、図５の画像３２１から抽出された顔領域の例を示している。顔領域６０１は人物Ｅの顔領域であり、顔領域６０２は人物Ａの顔領域であり、顔領域６０３は人物Ｄの顔領域である。顔領域６０４は人物Ｂの顔領域であり、顔領域６０５は人物Ｃの顔領域であり、顔領域６０６は人物Ｆの顔領域である。

【0040】

顔領域の鮮明度は顔領域の大きさの影響を受けるため、正確な鮮明度を示すスコア３２２を求めるために、６人の顔領域の大きさを統一することが好ましい。そこで、計算部３１３は、顔領域６０１～顔領域６０６のうち最も小さな顔領域を基準領域として選択し、他の顔領域の中心を固定して基準領域と同じ大きさの領域を切り抜くことで、他の顔領域をリサイズする。これにより、６人の顔領域の大きさが統一される。

【0041】

図７は、リサイズされた顔領域の例を示している。顔領域７０１は人物Ｅの顔領域であり、顔領域７０２は人物Ａの顔領域であり、顔領域７０３は人物Ｄの顔領域である。顔領域７０４は人物Ｂの顔領域であり、顔領域７０５は人物Ｃの顔領域であり、顔領域７０６は人物Ｆの顔領域である。

【0042】

次に、計算部３１３は、各人物の顔領域のスコア３２２を計算する。例えば、計算部３１３は、各人物の顔領域の画像をグレースケール画像に変換し、グレースケール画像からエッジを検出し、検出されたエッジを用いてスコア３２２を計算することができる。グレースケール画像からエッジを検出するオペレータとしては、ラプラシアンフィルタ、ソーベルフィルタ、プレヴィットフィルタ、キャニーフィルタ等を用いることができる。

【0043】

例えば、ラプラシアンフィルタを用いる場合、計算部３１３は、次式により、顔領域内のｉ番目（ｉ＝１～Ｎ）の画素に対するラプラシアンＬｉを計算する。

【0044】

【数1】

【0045】

式（１）の右辺は、ラプラシアンフィルタによる演算を表し、ｆｉは、ｉ番目の画素の輝度を表す。ｘは、画像３２１の水平方向の座標を表し、ｙは、画像３２１の垂直方向の座標を表す。例えば、計算部３１３は、画像処理ＯＳＳのライブラリであるＯｐｅｎＣＶ（Open Source Computer Vision Library）のラプラシアン関数を用いて、ラプラシアンＬｉを計算することができる。次に、計算部３１３は、次式により、ラプラシアンＬｉの分散σ^２を計算する。

【0046】

【数2】

【0047】

Ｎは、顔領域内の画素の総数を表し、式（３）のＬ０は、ラプラシアンＬｉの標本平均を表す。式（２）の分散σ^２がスコア３２２として用いられる。

【0048】

図８は、図７の顔領域から計算された各人物のスコア３２２の例を示している。スコア３２２は、各顔領域の画像の鮮明度を示しており、スコアが大きい方がより鮮明な画像である。したがって、人物Ａ～人物Ｆのうち、人物Ｂの顔領域の画像が最も鮮明であることが分かる。

【0049】

そこで、計算部３１３は、人物Ｂを基準人物として選択し、人物Ｂのスコア３２２と各人物のスコア３２２との差分を、スコア差３２３として計算する。

【0050】

図９は、図８のスコア３２２から計算された各人物のスコア差３２３の例を示している。図９のスコア差３２３は、次式により計算される。

【0051】

人物Ａ人物Ｂのスコア－人物Ａのスコア
＝１５０２２－６１７２
＝８８５０
人物Ｂ人物Ｂのスコア－人物Ｂのスコア
＝１５０２２－１５０２２
＝０
人物Ｃ人物Ｂのスコア－人物Ｃのスコア
＝１５０２２－１０５１５
＝４５０７
人物Ｄ人物Ｂのスコア－人物Ｄのスコア
＝１５０２２－１０９７８
＝４０４４
人物Ｅ人物Ｂのスコア－人物Ｅのスコア
＝１５０２２－１０６１９
＝４４０３
人物Ｆ人物Ｂのスコア－人物Ｆのスコア
＝１５０２２－７３４２
＝７６８０

【0052】

次に、推定部３１４は、画像３２１に写っている各人物の顔の大きさを計算する。例えば、推定部３１４は、非特許文献１の技術又はＤＬｉｂの顔検出機能を用いて、顔の大きさを計算することができる。推定部３１４は、２次元姿勢推定により、顔の特徴点（目、耳等）から顔の大きさを計算してもよく、ＯｐｅｎＣＶの顔検出機能を用いて顔の大きさを計算してもよい。顔の大きさは、顔の２つの特徴点の間の距離であってもよく、顔の面積であってもよい。

【0053】

次に、推定部３１４は、人物Ｂと他の人物の顔の大きさを比較し、他の人物の顔が人物Ｂの顔よりも大きい場合、他の人物のスコア差に負の符号を付加する。例えば、人物Ｄの顔は人物Ｂの顔よりも大きいため、人物Ｄのスコア差は、４０４４から－４０４４に変更される。人物Ａの顔は人物Ｂの顔よりも小さいため、人物Ａのスコア差は変更されない。人物Ｃ、人物Ｅ、及び人物Ｆについても、人物Ａと同様である。

【0054】

図１０は、人物Ｄのスコア差を変更した後の各人物のスコア差３２３によって示される、人物間の位置関係の例を示している。この例では、スコア差３２３が昇順にソートされている。図１０の人物間の位置関係は、人物Ｄ、人物Ｂ、人物Ｅ、人物Ｃ、人物Ｆ、及び人物Ａの順に、撮像装置３０２に近いことを示している。したがって、人物Ｄが最も近く、人物Ａが最も遠い。

【0055】

次に、生成部３１５は、人物Ａ～人物Ｆの３次元モデル３２５を生成し、図１０の人物間の位置関係を、６人の３次元モデル３２５の間の位置関係に反映する。

【0056】

図１１は、図５の人物Ａ～人物Ｆの３次元モデル３２５の例を示している。３次元モデル１１０１～３次元モデル１１０６は、人物Ａ～人物Ｆにそれぞれ対応している。仮想空間内における３次元モデル１１０１～３次元モデル１１０６の奥行方向の座標３２４は、図１０のスコア差３２３を反映した値に設定される。

【0057】

図１２は、図３の画像処理装置３０１が行う画像処理の第１の具体例を示すフローチャートである。まず、画像取得部３１２は、撮像装置３０２から画像３２１を取得し（ステップ１２０１）、画像３２１に複数の人物が写っているか否かを判定する（ステップ１２０２）。

【0058】

例えば、ユーザは、画像３２１に複数の人物が写っているか否かを示す情報を、画像処理装置３０１に入力する。この場合、画像取得部３１２は、入力された情報に基づいて、画像３２１に複数の人物が写っているか否かを判定することができる。画像取得部３１２は、画像３２１から人物を検出することで、複数の人物が写っているか否かを判定してもよい。

【0059】

画像３２１に複数の人物が写っていない場合（ステップ１２０２，ＮＯ）、画像処理装置３０１は、処理を終了する。

【0060】

一方、画像３２１に複数の人物が写っている場合（ステップ１２０２，ＹＥＳ）、計算部３１３は、画像３２１から各人物の顔領域を抽出し（ステップ１２０３）、顔領域のスコア３２２を計算する（ステップ１２０４）。そして、計算部３１３は、画像３２１に写っている複数の人物の中から、基準人物を選択する（ステップ１２０５）。

【0061】

次に、計算部３１３は、画像３２１に写っているいずれかの人物を処理対象として選択し、処理対象の人物のスコア差３２３を計算する（ステップ１２０６）。

【0062】

次に、推定部３１４は、基準人物と処理対象の人物の顔の大きさを比較して、処理対象の人物の顔が基準人物の顔よりも大きい場合、処理対象の人物のスコア差３２３に負の符号を付加する（ステップ１２０７）。そして、推定部３１４は、スコア差３２３に基づいて、画像３２１の奥行方向における、基準人物と処理対象の人物との位置関係を推定する（ステップ１２０８）。

【0063】

次に、生成部３１５は、処理対象の人物に対応する３次元モデル３２５を生成し、推定された位置関係を、基準人物の３次元モデル３２５と、処理対象の人物の３次元モデル３２５との位置関係に反映する（ステップ１２０９）。そして、出力部３１６は、生成された３次元モデル３２５を示す情報を出力する。

【0064】

なお、処理対象の人物が基準人物である場合、ステップ１２０７及びステップ１２０８の処理は省略される。

【0065】

次に、生成部３１５は、画像３２１に写っているすべての人物の処理が終了したか否かをチェックする（ステップ１２１０）。未処理の人物が残っている場合（ステップ１２１０，ＮＯ）、画像処理装置３０１は、次の人物を処理対象として選択して、ステップ１２０６以降の処理を繰り返す。そして、すべての人物の処理が終了した場合（ステップ１２１０，ＹＥＳ）、画像処理装置３０１は、処理を終了する。

【0066】

ところで、顔領域の鮮明度に基づく人物間の相対距離の推定精度は、撮像装置３０２の解像度及び被写界深度に依存する。解像度が高い方が鮮明度の違いが明確に表れるため、相対距離の推定精度が高くなる。また、被写界深度が浅い方が鮮明度の違いが明確に表れるため、相対距離の推定精度が高くなる。

【0067】

しかし、撮像装置３０２の解像度が常に高く、被写界深度が常に浅いとは限らないため、相対距離の推定精度を向上させるために、顔領域の鮮明度以外の情報を用いてスコア差３２３を補正することが望ましい。

【0068】

例えば、複数の人物が平らな床面上に立っている場合、撮像装置３０２からより遠い位置に立っている人物の足先は、画像３２１の垂直方向においてより高い位置に写る。したがって、画像３２１から足の位置を検出することで、スコア差３２３が適切であるか否かを判定することができる。

【0069】

また、画像３２１内で人物の身体が重なって写っている場合、他の人物に隠れている人物の方が、撮像装置３０２からより遠い位置に立っている。したがって、画像３２１から人物の重なりを検出することで、スコア差３２３が適切であるか否かを判定することができる。

【0070】

図１３は、足の位置に基づく補正処理を行う、図１の画像処理装置１０１の第２の具体例を示している。図１３の画像処理装置１３０１は、図３の画像処理装置３０１において、検出部１３１１及び補正部１３１２を追加した構成を有する。

【0071】

検出部１３１１は、画像３２１から各人物が写っている領域の下端の位置を示す下端座標１３２１を検出して、記憶部３１１に格納する。例えば、検出部１３１１は、非特許文献２～非特許文献５のいずれかに記載された２次元姿勢推定を行うことで、画像３２１から下端座標１３２１を検出することができる。

【0072】

補正部１３１２は、下端座標１３２１を用いてスコア差３２３を補正し、補正後のスコア差３２３を補正後スコア差１３２２として記憶部３１１に格納する。推定部３１４は、補正後スコア差１３２２に基づいて人物間の位置関係を推定する。

【0073】

図１３の画像処理装置１３０１によれば、顔領域の鮮明度に基づく人物間の位置関係の推定精度が低い場合であっても、各人物の足の位置に基づいて人物間の位置関係を修正することができる。

【0074】

図１４は、足の位置が異なる複数の人物が写っている画像３２１の例を示している。図１４の画像３２１は、解像度が低く、かつ、被写界深度が深い撮像装置３０２によって撮影された画像であり、画像３２１には、人物Ａ、人物Ｂ、及び人物Ｃが写っている。この場合、人物Ｃ、人物Ｂ、及び人物Ａの順に、撮像装置３０２に近い。

【0075】

図１５は、図１４の画像３２１から計算された各人物のスコア差３２３によって示される、人物間の位置関係の例を示している。図１５の人物間の位置関係は、人物Ｂ、人物Ｃ、及び人物Ａの順に、撮像装置３０２に近いことを示している。

【0076】

しかしながら、図１５のスコア差３２３は、図１４の画像３２１に写っている人物間の位置関係を十分に反映しておらず、人物Ｂと人物Ｃの順序が逆転している。

【0077】

図１６は、図１４の画像３２１から検出された各人物の下端座標１３２１の例を示している。図１６の下端座標１３２１は、各人物の左足の足先の位置を示す垂直方向の座標であり、画像３２１の垂直方向の長さを１として規格化されている。より大きな下端座標１３２１は、画像３２１の下端により近い位置を示す。したがって、人物Ｃ、人物Ｂ、及び人物Ａの順に、画像３２１の下端に近いことが分かる。

【0078】

ここで、図１５に示した人物Ｘ（Ｘ＝Ａ，Ｂ，Ｃ）のスコア差３２３をスコア差ｄ（Ｘ）とし、図１６に示した人物Ｘの下端座標１３２１をｙ（Ｘ）とし、人物Ｘの補正後スコア差１３２２を補正後スコア差ｃ（Ｘ）とする。例えば、スコア差ｄ（Ａ）～スコア差ｄ（Ｃ）のうち最大のスコア差ｄ（Ａ）を基準値として用いた場合、補正部１３１２は、次式により補正後スコア差ｃ（Ｘ）を計算することができる。

【0079】

ｃ（Ｘ）＝ｄ（Ａ）－｛ｙ（Ｘ）－ｙ（Ａ）｝×ｄ０（１１）
ｄ０＝ＭＡＸ｛ｄ（Ａ），ｄ（Ｂ），ｄ（Ｃ）｝
－ＭＩＮ｛ｄ（Ａ），ｄ（Ｂ），ｄ（Ｃ）｝（１２）

【0080】

式（１２）のＭＡＸ｛ｄ（Ａ），ｄ（Ｂ），ｄ（Ｃ）｝は、スコア差ｄ（Ａ）～スコア差ｄ（Ｃ）の最大値を表し、ＭＩＮ｛ｄ（Ａ），ｄ（Ｂ），ｄ（Ｃ）｝は、スコア差ｄ（Ａ）～スコア差ｄ（Ｃ）の最小値を表す。式（１１）によれば、最大のスコア差ｄ（Ａ）を有する人物Ａと人物Ｘの下端座標１３２１の差分に基づいて、人物Ｘの補正後スコア差ｃ（Ｘ）を求めることができる。

【0081】

図１７は、式（１１）により計算された各人物の補正後スコア差１３２２の例を示している。図１７の補正後スコア差１３２２は、下端座標１３２１の昇順に小さくなっている。補正部１３１２は、スコア差ｄ（Ｂ）又はスコア差ｄ（Ｃ）を基準値として用いて、別の計算式により補正後スコア差ｃ（Ｘ）を計算してもよい。

【0082】

図１８は、各人物の補正後スコア差１３２２によって示される、人物間の補正後の位置関係の例を示している。この例では、補正後スコア差１３２２が昇順にソートされている。図１８の人物間の位置関係は、人物Ｃ、人物Ｂ、及び人物Ａの順に、撮像装置３０２に近いことを示しており、下端座標１３２１の順序と整合している。

【0083】

図１９は、図１４の人物Ａ～人物Ｃの３次元モデル３２５の例を示している。３次元モデル１９０１～３次元モデル１９０３は、人物Ａ～人物Ｃにそれぞれ対応している。仮想空間内における３次元モデル１９０１～３次元モデル１９０３の奥行方向の座標３２４は、図１８の補正後スコア差１３２２を反映した値に設定される。

【0084】

図２０は、図１３の画像処理装置１３０１が行う画像処理の第２の具体例を示すフローチャートである。ステップ２００１～ステップ２０１０の処理は、図１２のステップ１２０１～ステップ１２１０の処理と同様である。

【0085】

すべての人物の処理が終了した場合（ステップ２０１０，ＹＥＳ）、画像処理装置１３０１は、足の位置に基づく補正処理を行う（ステップ２０１１）。

【0086】

図２１は、図２０のステップ２０１１における、足の位置に基づく補正処理の例を示すフローチャートである。まず、検出部１３１１は、画像３２１から各人物の下端座標１３２１を検出する（ステップ２１０１）。そして、補正部１３１２は、ステップ２００８において推定された人物間の位置関係が、下端座標１３２１の順序と整合しているか否かをチェックする（ステップ２１０２）。

【0087】

人物間の位置関係が示す撮像装置３０２に近い人物の順序と、下端座標１３２１が示す画像３２１の下端に近い人物の順序とが一致している場合、位置関係が下端座標１３２１の順序と整合していると判定される。一方、撮像装置３０２に近い人物の順序と画像３２１の下端に近い人物の順序とが一致していない場合、位置関係が下端座標１３２１の順序と整合していないと判定される。

【0088】

位置関係が下端座標１３２１の順序と整合していない場合（ステップ２１０２，ＮＯ）、補正部１３１２は、下端座標１３２１を用いてスコア差３２３を補正して、補正後スコア差１３２２を生成する（ステップ２１０３）。

【0089】

次に、推定部３１４は、補正後スコア差１３２２に基づいて、画像３２１の奥行方向における人物間の位置関係を推定し（ステップ２１０４）、生成部３１５は、推定された位置関係に基づいて、複数の３次元モデル３２５の間の位置関係を修正する（ステップ２１０５）。そして、出力部３１６は、修正された３次元モデル３２５を示す情報を出力する。

【0090】

一方、位置関係が下端座標１３２１の順序と整合している場合（ステップ２１０２，ＹＥＳ）、画像処理装置１３０１は、処理を終了する。

【0091】

図２２は、人物の重なりに基づく補正処理を行う、図１の画像処理装置１０１の第３の具体例を示している。図２２の画像処理装置２２０１は、図３の画像処理装置３０１において、判定部２２１１及び補正部２２１２を追加した構成を有する。

【0092】

判定部２２１１は、画像３２１内で各人物が写っている領域を用いて、画像３２１内における人物間の重なりを判定し、判定結果２２２１を記憶部３１１に格納する。例えば、検出部２２１１は、非特許文献２～非特許文献５のいずれかに記載された２次元姿勢推定を行うことで、人物間における身体の重なりを検出することができる。

【0093】

補正部２２１２は、判定結果２２２１を用いてスコア差３２３を補正し、補正後のスコア差３２３を補正後スコア差２２２２として記憶部３１１に格納する。推定部３１４は、補正後スコア差２２２２に基づいて人物間の位置関係を推定する。

【0094】

図２２の画像処理装置２２０１によれば、顔領域の鮮明度に基づく人物間の位置関係の推定精度が低い場合であっても、人物の重なりに基づいて人物間の位置関係を修正することができる。

【0095】

図２３は、身体が重なった複数の人物が写っている画像３２１の例を示している。図２３の画像３２１は、解像度が低い撮像装置３０２によって撮影された画像であり、画像３２１には、人物Ａ、人物Ｂ、人物Ｃ、人物Ｄ、及び人物Ｅが写っている。この場合、人物Ａは、人物Ｂよりも前方に位置し、人物Ｃは、人物Ｂ及び人物Ｄよりも前方に位置し、人物Ｅは、人物Ｄよりも前方に位置している。

【0096】

図２４は、図２３の画像３２１から計算された各人物のスコア差３２３によって示される、人物間の位置関係の例を示している。図２４の人物間の位置関係は、人物Ｅ、人物Ｃ、人物Ｂ、人物Ｄ、及び人物Ａの順に、撮像装置３０２に近いことを示している。

【0097】

しかしながら、図２４のスコア差３２３は、図２３の画像３２１に写っている人物間の位置関係を十分に反映しておらず、人物Ａと人物Ｂの順序が逆転している。

【0098】

図２５は、判定部２２１１が行う判定処理の例を示している。判定部２２１１は、２次元姿勢推定により検出された各人物の骨格を用いて、人物間における身体の重なりを判定する。

【0099】

例えば、判定部２２１１は、人物Ｐ１及び人物Ｐ２のうち、人物Ｐ１の身体の一部が人物Ｐ２の両肩よりも下方の部分と重なっている場合、人物Ｐ１と人物Ｐ２の身体が重なっており、かつ、人物Ｐ２が人物Ｐ１よりも前方に位置すると判定する。人物Ｐ１に着目した判定処理と人物Ｐ２に着目した判定処理とで、相反する判定結果が得られた場合、判定部２２１１は、人物Ｐ１と人物Ｐ２の身体の大きさを比較し、身体の大きい人物が身体の小さい人物よりも前方に位置すると判定する。

【0100】

図２５（ａ）は、人物が左腕を身体の左方向に伸ばしている場合の判定処理の例を示している。線分２５１１は、画像３２１に写っている人物２５０１の左腕を表し、点２５２１及び点２５２２は、画像３２１に写っている人物２５０２の右肩及び左肩をそれぞれ表す。点２５２３は、点２５２１から画像３２１の下端へ降ろした垂線の足を表し、点２５２４は、点２５２２から画像３２１の下端へ降ろした垂線の足を表す。

【0101】

点２５２１～点２５２４を頂点とする矩形２５３１は、人物２５０２の両肩よりも下方の部分が写っている領域を表す。この場合、線分２５１１の一部が矩形２５３１内に含まれているため、判定部２２１１は、人物２５０１と人物２５０２の身体が重なっており、かつ、人物２５０２が人物２５０１よりも前方に位置すると判定する。

【0102】

図２５（ｂ）は、一方の人物が左腕を身体の左方向に伸ばしており、他方の人物が右腕を身体の右方向に伸ばしている場合の判定処理の例を示している。線分２５５１は、画像３２１に写っている人物２５０３の左腕を表し、点２５４１及び点２５４２は、人物２５０３の右肩及び左肩をそれぞれ表す。点２５４３は、点２５４１から画像３２１の下端へ降ろした垂線の足を表し、点２５４４は、点２５４２から画像３２１の下端へ降ろした垂線の足を表す。

【0103】

線分２５８１は、画像３２１に写っている人物２５０４の右腕を表し、点２５７１及び点２５７２は、人物２５０４の右肩及び左肩をそれぞれ表す。点２５７３は、点２５７１から画像３２１の下端へ降ろした垂線の足を表し、点２５７４は、点２５７２から画像３２１の下端へ降ろした垂線の足を表す。

【0104】

点２５４１～点２５４４を頂点とする矩形２５６１は、人物２５０３の両肩よりも下方の部分が写っている領域を表し、点２５７１～点２５７４を頂点とする矩形２５９１は、人物２５０４の両肩よりも下方の部分が写っている領域を表す。

【0105】

人物２５０３に着目すると、線分２５５１の一部が矩形２５９１内に含まれているため、判定部２２１１は、人物２５０３と人物２５０４の身体が重なっており、かつ、人物２５０４が人物２５０３よりも前方に位置すると判定する。一方、人物２５０４に着目すると、線分２５８１の一部が矩形２５６１内に含まれているため、判定部２２１１は、人物２５０３と人物２５０４の身体が重なっており、かつ、人物２５０３が人物２５０４よりも前方に位置すると判定する。

【0106】

人物２５０３に着目した判定処理と人物２５０４に着目した判定処理とで、相反する判定結果が得られたため、判定部２２１１は、人物２５０３と人物２５０４の身体の大きさを比較し、身体の大きい人物が身体の小さい人物よりも前方に位置すると判定する。

【0107】

図２６は、図２３の画像３２１から生成された判定結果２２２１の例を示している。人物Ｂに着目した判定処理において、人物Ａ及び人物Ｃの身体が人物Ｂの身体と重なっており、かつ、人物Ａ及び人物Ｃが人物Ｂよりも前方に位置すると判定される。また、人物Ｄに着目した判定処理において、人物Ｃ及び人物Ｅの身体が人物Ｄの身体と重なっており、かつ、人物Ｃ及び人物Ｅが人物Ｄよりも前方に位置すると判定される。

【0108】

図２４に示した人物間の位置関係は、人物Ｄに着目した判定処理の結果と整合しているが、人物Ｂに着目した判定処理の結果と整合しておらず、人物Ａと人物Ｂの順序が逆転している。

【0109】

ここで、図２３に示した人物Ｘ（Ｘ＝Ａ，Ｂ，Ｃ，Ｄ，Ｅ）のスコア差３２３をスコア差ｄ（Ｘ）とし、人物Ｘの補正後スコア差２２２２を補正後スコア差ｃ（Ｘ）とすると、補正部２２１２は、以下の手順で補正後スコア差ｃ（Ｘ）を計算することができる。

【0110】

人物Ｘの位置関係が判定結果２２２１と整合している場合、補正部２２１２は、次式により補正後スコア差ｃ（Ｘ）を決定する。

【0111】

ｃ（Ｘ）＝ｄ（Ｘ）（１３）

【0112】

判定部２２１１によって人物Ｘ及び人物Ｑが人物Ｐよりも前方に位置すると判定され、人物Ｘの位置関係が判定結果２２２１と整合しておらず、人物Ｑの位置関係が判定結果２２２１と整合している場合、補正部２２１２は、次式により係数ｒ（Ｘ）を計算する。

【0113】

ｒ（Ｘ）＝｛ｄ（Ｘ）－ｄ（Ｐ）｝／｛ｄ（Ｐ）－ｄ（Ｑ）｝（１４）

【0114】

ｒ（Ｘ）≦１である場合、補正部２２１２は、次式により補正後スコア差ｃ（Ｘ）を計算する。

【0115】

ｃ（Ｘ）＝ｄ（Ｐ）－｛ｄ（Ｐ）－ｄ（Ｑ）｝×ｒ（Ｘ）（１５）

【0116】

一方、ｒ（Ｘ）＞１である場合、補正部２２１２は、次式により補正後スコア差ｃ（Ｘ）を計算する。

【0117】

ｃ（Ｘ）＝ｄ（Ｐ）－｛ｄ（Ｐ）－ｄ（Ｑ）｝×（１／ｒ（Ｘ））（１６）

【0118】

式（１５）又は式（１６）によれば、人物Ｐと人物Ｑのスコア差３２３の差分と、係数ｒ（Ｘ）とに基づいて、人物Ｘの補正後スコア差ｃ（Ｘ）を求めることができる。

【0119】

いずれかの人物の補正後スコア差ｃ（Ｘ）が判定結果２２２１と整合していない場合、補正部２２１２は、補正後スコア差ｃ（Ｘ）を新たなスコア差ｄ（Ｘ）として用いて、新たな補正後スコア差ｃ（Ｘ）を計算する処理を繰り返す。そして、すべての人物の補正後スコア差ｃ（Ｘ）が判定結果２２２１と整合した場合、補正部２２１２は、最終的に得られた補正後スコア差ｃ（Ｘ）を、補正後スコア差２２２２として記憶部３１１に格納する。

【0120】

図２６の判定結果２２２１は、人物Ａ及び人物Ｃが人物Ｂよりも前方に位置すること示している。この場合、図２４に示した人物間の位置関係において、人物Ａの位置関係は判定結果２２２１と整合しておらず、人物Ｃの位置関係は判定結果２２２１と整合している。そこで、補正部２２１２は、Ｘ＝Ａ、Ｐ＝Ｂ、及びＱ＝Ｃとして、式（１４）により係数ｒ（Ａ）を計算する。

【0121】

ｒ（Ａ）＝｛ｄ（Ａ）－ｄ（Ｂ）｝／｛ｄ（Ｂ）－ｄ（Ｃ）｝
＝｛２６６４－０｝／｛０－（－２１２３）｝
＝２６６４／２１２３（１７）

【0122】

この場合、ｒ（Ａ）＞１であるため、補正部２２１２は、式（１６）により補正後スコア差ｃ（Ａ）を計算する。

【0123】

ｃ（Ａ）＝ｄ（Ｂ）－｛ｄ（Ｂ）－ｄ（Ｃ）｝×（１／ｒ（Ａ））
＝０－｛０－（－２１２３）｝×（２１２３／２６６４）
＝－１６９２（１８）

【0124】

図２７は、式（１３）～式（１６）により計算された各人物の補正後スコア差２２２２の例を示している。人物Ａの補正後スコア差２２２２は－１６９２であり、人物Ｂ～人物Ｅの補正後スコア差２２２２は、補正前のスコア差３２３と同じである。人物Ａの補正後スコア差２２２２は、人物Ｂの補正後スコア差２２２２よりも小さくなっている。

【0125】

図２８は、各人物の補正後スコア差２２２２によって示される、人物間の補正後の位置関係の例を示している。この例では、補正後スコア差２２２２が昇順にソートされている。図２８の人物間の位置関係は、人物Ｅ、人物Ｃ、人物Ａ、人物Ｂ、及び人物Ｄの順に、撮像装置３０２に近いことを示しており、図２６の判定結果２２２１と整合している。

【0126】

図２９は、図２３の人物Ａ～人物Ｅの３次元モデル３２５の例を示している。３次元モデル２９０１～３次元モデル２９０５は、人物Ａ～人物Ｅにそれぞれ対応している。仮想空間内における３次元モデル２９０１～３次元モデル２９０５の奥行方向の座標３２４は、図２８の補正後スコア差２２２２を反映した値に設定される。

【0127】

図２２の画像処理装置２２０１が行う画像処理は、図２０に示した画像処理と同様である。ただし、画像処理装置２２０１は、ステップ２０１１において、足の位置に基づく補正処理の代わりに、人物の重なりに基づく補正処理を行う。

【0128】

図３０は、人物の重なりに基づく補正処理の例を示すフローチャートである。まず、判定部２２１１は、画像３２１に写っている人物の２次元姿勢推定を行って（ステップ３００１）、人物の重なりが存在するか否かを判定する（ステップ３００２）。人物の重なりが存在する場合（ステップ３００２，ＹＥＳ）、補正部２２１２は、ステップ２００８において推定された人物間の位置関係が、判定結果２２２１の順序と整合しているか否かをチェックする（ステップ３００３）。

【0129】

位置関係が判定結果２２２１の順序と整合していない場合（ステップ３００３，ＮＯ）、補正部２２１２は、判定結果２２２１を用いてスコア差３２３を補正して、補正後スコア差２２２２を生成する（ステップ３００４）。

【0130】

次に、推定部３１４は、補正後スコア差２２２２に基づいて、画像３２１の奥行方向における人物間の位置関係を推定し（ステップ３００５）、生成部３１５は、推定された位置関係に基づいて、複数の３次元モデル３２５の間の位置関係を修正する（ステップ３００６）。そして、出力部３１６は、修正された３次元モデル３２５を示す情報を出力する。

【0131】

人物の重なりが存在しない場合（ステップ３００２，ＮＯ）、又は位置関係が判定結果２２２１の順序と整合している場合（ステップ３００３，ＹＥＳ）、画像処理装置２２０１は、処理を終了する。

【0132】

図３の画像処理装置３０１、図１３の画像処理装置１３０１、及び図２２の画像処理装置２２０１は、静止画像に写っている複数の人物だけでなく、映像に映っている複数の人物それぞれの３次元モデル３２５を生成することもできる。

【0133】

この場合、撮像装置３０２は、複数の人物を撮影した映像を出力する。映像には、時系列のフレームが含まれている。画像取得部３１２は、複数の時刻それぞれにおけるフレームを取得し、各時刻のフレームを画像３２１として記憶部３１１に格納する。

【0134】

そして、画像処理装置３０１、画像処理装置１３０１、及び画像処理装置２２０１は、各時刻の画像３２１から３次元モデル３２５を生成する。出力される３次元モデル３２５のフレームレートを、撮像装置３０２が出力する映像のフレームレートと合わせることで、３次元モデル３２５の動画像をリアルタイムで出力することも可能である。

【0135】

図３１は、３次元モデル３２５の動画像の例を示している。フレーム番号は、映像に含まれる各フレームの識別情報である。入力画像は、各フレームの画像３２１を表し、出力画像は、各フレームの画像３２１から生成された仮想空間の画像を表す。

【0136】

図３２は、図３の画像処理装置３０１が３次元モデル３２５の動画像を生成する画像処理の第３の具体例を示すフローチャートである。まず、画像取得部３１２は、撮像装置３０２から静止画像又は映像のいずれが出力されているかをチェックする（ステップ３２０１）。

【0137】

撮像装置３０２から映像が出力されている場合（ステップ３２０１，ＹＥＳ）、画像取得部３１２は、映像に含まれる各フレームの画像を画像３２１として取得し（ステップ３２０２）、画像処理装置３０１は、モデル生成処理を行う（ステップ３２０３）。

【0138】

次に、画像取得部３１２は、映像が終了したか否かをチェックし（ステップ３２０４）、映像が終了していない場合（ステップ３２０４，ＮＯ）、画像処理装置３０１は、次のフレームについてステップ３２０２以降の処理を繰り返す。そして、映像が終了した場合（ステップ３２０４，ＹＥＳ）、画像処理装置３０１は、処理を終了する。

【0139】

一方、撮像装置３０２から静止画像が出力されている場合（ステップ３２０１，ＮＯ）、画像取得部３１２は、静止画像を画像３２１として取得し（ステップ３２０５）、画像処理装置３０１は、モデル生成処理を行う（ステップ３２０６）。

【0140】

ステップ３２０３及びステップ３２０６のモデル生成処理は、図１２のステップ１２０２～ステップ１２１０の処理と同様である。

【0141】

画像処理装置１３０１及び画像処理装置２２０１も、図３２と同様の画像処理を行うことで、３次元モデル３２５の動画像を生成することができる。この場合、画像処理装置１３０１及び画像処理装置２２０１は、ステップ３２０３及びステップ３２０６において、図２０のステップ２００２～ステップ２０１１と同様の処理を行う。

【0142】

図１、図３、図１３、及び図２２の画像処理装置の構成は一例に過ぎず、画像処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図３、図１３、及び図２２の画像処理装置において、事前に画像３２１が記憶部３１１に格納されている場合は、画像取得部３１２を省略することができる。仮想空間内の３次元モデル３２５を生成しない場合は、生成部３１５及び出力部３１６を省略することができる。被写体は、人物には限られず、動物、植物、車両、建造物等であってもよい。

【0143】

図２、図１２、図２０、図２１、図３０、及び図３２のフローチャートは一例に過ぎず、画像処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、事前に画像３２１が記憶部３１１に格納されている場合は、図１２のステップ１２０１、図２０のステップ２００１、図３２のステップ３２０１、ステップ３２０２、及びステップ３２０５の処理を省略することができる。仮想空間内の３次元モデル３２５を生成しない場合は、図１２のステップ１２０９及び図２０のステップ２００９の処理を省略することができる。

【0144】

図４の推定処理は一例に過ぎず、画像処理装置の構成又は条件に応じて別の推定方法を用いてもよい。図５、図１４、図２３、及び図３１の画像３２１と図６及び図７の顔領域は一例に過ぎず、画像３２１及び顔領域は、被写体に応じて変化する。画像処理装置は、顔以外の部位が写っている領域の鮮明度を示すスコア３２２を計算してもよく、顔以外の部位の大きさに基づいて撮像装置３０２に近い人物を推定してもよい。

【0145】

図８のスコア３２２と図９、図１０、図１５、及び図２４のスコア差３２３は一例に過ぎず、スコア３２２及びスコア差３２３は、画像３２１に応じて変化する。図１１、図１９、図２９、及び図３１の３次元モデル３２５は一例に過ぎず、３次元モデル３２５は、画像３２１に応じて変化する。

【0146】

図１６の下端座標１３２１と図１７及び図１８の補正後スコア差１３２２は一例に過ぎず、下端座標１３２１及び補正後スコア差１３２２は、画像３２１に応じて変化する。図２５の判定処理は一例に過ぎず、画像処理装置の構成又は条件に応じて別の判定方法を用いてもよい。図２６の判定結果２２２１と図２７及び図２８の補正後スコア差２２２２は一例に過ぎず、判定結果２２２１及び補正後スコア差２２２２は、画像３２１に応じて変化する。

【0147】

式（１）～式（１８）の計算式は一例に過ぎず、画像処理装置の構成又は条件に応じて別の計算式を用いてもよい。例えば、式（２）の分散σ^２の代わりに、標準偏差をスコア３２２として用いることもできる。

【0148】

図３３は、図１、図３、図１３、及び図２２の画像処理装置として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図３３の情報処理装置は、ＣＰＵ（Central Processing Unit）３３０１、メモリ３３０２、入力装置３３０３、出力装置３３０４、補助記憶装置３３０５、媒体駆動装置３３０６、及びネットワーク接続装置３３０７を含む。これらの構成要素はハードウェアであり、バス３３０８により互いに接続されている。図３、図１３、及び図２２の撮像装置３０２は、バス３３０８に接続されていてもよい。

【0149】

メモリ３３０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ３３０２は、図１の記憶部１１１、又は図３、図１３、及び図２２の記憶部３１１として用いることができる。

【0150】

ＣＰＵ３３０１（プロセッサ）は、例えば、メモリ３３０２を利用してプログラムを実行することにより、図１の計算部１１２及び推定部１１３として動作する。

【0151】

ＣＰＵ３３０１は、メモリ３３０２を利用してプログラムを実行することにより、図３、図１３、及び図２２の画像取得部３１２、計算部３１３、推定部３１４、及び生成部３１５としても動作する。

【0152】

ＣＰＵ３３０１は、メモリ３３０２を利用してプログラムを実行することにより、図１３の検出部１３１１及び補正部１３１２としても動作する。ＣＰＵ３３０１は、メモリ３３０２を利用してプログラムを実行することにより、図２２の判定部２２１１及び補正部２２１２としても動作する。

【0153】

入力装置３３０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置３３０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、３次元モデル３２５を示す情報であってもよい。出力装置３３０４は、図３、図１３、及び図２２の出力部３１６として用いることができる。

【0154】

補助記憶装置３３０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置３３０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置３３０５にプログラム及びデータを格納しておき、それらをメモリ３３０２にロードして使用することができる。補助記憶装置３３０５は、図１の記憶部１１１、又は図３、図１３、及び図２２の記憶部３１１として用いることができる。

【0155】

媒体駆動装置３３０６は、可搬型記録媒体３３０９を駆動し、その記録内容にアクセスする。可搬型記録媒体３３０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体３３０９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体３３０９にプログラム及びデータを格納しておき、それらをメモリ３３０２にロードして使用することができる。

【0156】

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ３３０２、補助記憶装置３３０５、又は可搬型記録媒体３３０９のような、物理的な（非一時的な）記録媒体である。

【0157】

ネットワーク接続装置３３０７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置３３０７を介して受信し、それらをメモリ３３０２にロードして使用することができる。ネットワーク接続装置３３０７は、図３、図１３、及び図２２の出力部３１６として用いることができる。

【0158】

なお、情報処理装置が図３３のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体３３０９又は通信ネットワークを使用しない場合は、媒体駆動装置３３０６又はネットワーク接続装置３３０７を省略してもよい。

【0159】

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

【0160】

図１乃至図３３を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の被写体が写っている画像を記憶する記憶部と、
前記画像内で前記複数の被写体それぞれが写っている領域の鮮明度に基づいて、前記画像の奥行方向における前記複数の被写体の間の相対距離を示す指標を計算する計算部と、
前記複数の被写体の間の相対距離を示す指標と、前記画像内における前記複数の被写体それぞれの大きさとに基づいて、前記画像の奥行方向における前記複数の被写体の間の位置関係を推定する推定部と、
を備えることを特徴とする画像処理装置。
（付記２）
前記複数の被写体の間の相対距離を示す指標は、前記複数の被写体のうち特定の被写体と、前記複数の被写体のうち他の被写体との間の相対距離を示す指標であり、
前記推定部は、前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記１記載の画像処理装置。
（付記３）
前記画像から前記複数の被写体それぞれが写っている領域の下端の位置を検出する検出部と、
前記複数の被写体それぞれが写っている領域の下端の位置を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する補正部とをさらに備え、
前記推定部は、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記２記載の画像処理装置。
（付記４）
前記複数の被写体それぞれが写っている領域を用いて、前記画像内における前記複数の被写体の間の重なりを判定する判定部と、
前記複数の被写体の間の重なりを判定した結果を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する補正部とをさらに備え、
前記推定部は、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記２記載の画像処理装置。
（付記５）
前記複数の被写体それぞれに対応する３次元モデルを生成し、前記複数の被写体の間の位置関係を複数の３次元モデルの間の位置関係に反映する生成部をさらに備えることを特徴とする付記１乃至４のいずれか１項に記載の画像処理装置。
（付記６）
画像内で複数の被写体それぞれが写っている領域の鮮明度に基づいて、前記画像の奥行方向における前記複数の被写体の間の相対距離を示す指標を計算し、
前記複数の被写体の間の相対距離を示す指標と、前記画像内における前記複数の被写体それぞれの大きさとに基づいて、前記画像の奥行方向における前記複数の被写体の間の位置関係を推定する、
処理をコンピュータに実行させるための画像処理プログラム。
（付記７）
前記複数の被写体の間の相対距離を示す指標は、前記複数の被写体のうち特定の被写体と、前記複数の被写体のうち他の被写体との間の相対距離を示す指標であり、
前記コンピュータは、前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記６記載の画像処理プログラム。
（付記８）
前記画像処理プログラムは、
前記画像から前記複数の被写体それぞれが写っている領域の下端の位置を検出し、
前記複数の被写体それぞれが写っている領域の下端の位置を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する、
処理を前記コンピュータにさらに実行させ、
前記コンピュータは、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記７記載の画像処理プログラム。
（付記９）
前記画像処理プログラムは、
前記複数の被写体それぞれが写っている領域を用いて、前記画像内における前記複数の被写体の間の重なりを判定し、
前記複数の被写体の間の重なりを判定した結果を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正する、
処理を前記コンピュータにさらに実行させ、
前記推定部は、補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記７記載の画像処理プログラム。
（付記１０）
前記画像処理プログラムは、
前記複数の被写体それぞれに対応する３次元モデルを生成し、
前記複数の被写体の間の位置関係を複数の３次元モデルの間の位置関係に反映する、
処理を前記コンピュータにさらに実行させることを特徴とする付記６乃至９のいずれか１項に記載の画像処理プログラム。
（付記１１）
コンピュータによって実行される画像処理方法であって、
前記コンピュータが、
画像内で複数の被写体それぞれが写っている領域の鮮明度に基づいて、前記画像の奥行方向における前記複数の被写体の間の相対距離を示す指標を計算し、
前記複数の被写体の間の相対距離を示す指標と、前記画像内における前記複数の被写体それぞれの大きさとに基づいて、前記画像の奥行方向における前記複数の被写体の間の位置関係を推定する、
ことを特徴とする画像処理方法。
（付記１２）
前記複数の被写体の間の相対距離を示す指標は、前記複数の被写体のうち特定の被写体と、前記複数の被写体のうち他の被写体との間の相対距離を示す指標であり、
前記コンピュータは、前記画像内における前記特定の被写体の大きさと、前記画像内における前記他の被写体の大きさとに基づいて、前記特定の被写体又は前記他の被写体のうちいずれの方が前記画像を撮影した撮像装置に近いかを推定し、前記特定の被写体又は前記他の被写体のうちいずれの方が前記撮像装置に近いかを推定した結果と、前記特定の被写体と前記他の被写体との間の相対距離を示す指標とに基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記１１記載の画像処理方法。
（付記１３）
前記コンピュータは、
前記画像から前記複数の被写体それぞれが写っている領域の下端の位置を検出し、
前記複数の被写体それぞれが写っている領域の下端の位置を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正し、
補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記１２記載の画像処理方法。
（付記１４）
前記コンピュータは、
前記複数の被写体それぞれが写っている領域を用いて、前記画像内における前記複数の被写体の間の重なりを判定し、
前記複数の被写体の間の重なりを判定した結果を用いて、前記特定の被写体と前記他の被写体との間の相対距離を示す指標を補正し、
補正後の指標に基づいて、前記特定の被写体と前記他の被写体との間の位置関係を推定することを特徴とする付記１２記載の画像処理方法。
（付記１５）
前記コンピュータは、
前記複数の被写体それぞれに対応する３次元モデルを生成し、
前記複数の被写体の間の位置関係を複数の３次元モデルの間の位置関係に反映することを特徴とする付記１１乃至１４のいずれか１項に記載の画像処理方法。

【符号の説明】

【0161】

１０１、３０１、１３０１、２２０１画像処理装置
１１１、３１１記憶部
１１２、３１３計算部
１１３、３１４推定部
１２１、３２１画像
３０２撮像装置
３１２画像取得部
３１５生成部
３１６出力部
３２２スコア
３２３スコア差
３２４座標
３２５、１１０１～１１０６、１９０１～１９０３、２９０１～２９０５３次元モデル
４０１～４０３、２５０１～２５０４人物
６０１～６０６、７０１～７０６顔領域
１３１１検出部
１３１２、２２１２補正部
１３２１下端座標
１３２２、２２２２補正後スコア差
２２１１判定部
２２２１判定結果
２５１１、２５５１、２５８１線分
２５２１～２５２４、２５４１～２５４４、２５７１～２５７４点
２５３１、２５６１、２５９１矩形
３３０１ＣＰＵ
３３０２メモリ
３３０３入力装置
３３０４出力装置
３３０５補助記憶装置
３３０６媒体駆動装置
３３０７ネットワーク接続装置
３３０８バス
３３０９可搬型記録媒体

【図1】