IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7700866画像処理プログラム、画像処理装置、及び画像処理方法
<>
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図1
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図2
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図3
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図4
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図5
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図6
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図7
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図8
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図9
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図10
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図11
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図12
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図13
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図14
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図15
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図16
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図17
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図18
  • 特許-画像処理プログラム、画像処理装置、及び画像処理方法 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-23
(45)【発行日】2025-07-01
(54)【発明の名称】画像処理プログラム、画像処理装置、及び画像処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250624BHJP
   G06T 7/60 20170101ALI20250624BHJP
【FI】
G06T7/00 660B
G06T7/60 150D
【請求項の数】 6
(21)【出願番号】P 2023550811
(86)(22)【出願日】2021-09-28
(86)【国際出願番号】 JP2021035727
(87)【国際公開番号】W WO2023053229
(87)【国際公開日】2023-04-06
【審査請求日】2023-12-14
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】楊 帆
【審査官】橋爪 正樹
(56)【参考文献】
【文献】特開2020-160812(JP,A)
【文献】特開2019-159739(JP,A)
【文献】特開2005-135014(JP,A)
【文献】国際公開第2020/017359(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
予め決められた空間に配置された撮像装置により撮影された画像から、前記予め決められた空間内の、複数の人物又は所定の競技に用いられる複数の所定の道具である、複数の物体それぞれを囲む領域を抽出し、
前記予め決められた空間の中に予め設定される空間である対象空間の頂点を示す3次元座標と、前記撮像装置の位置を示す3次元座標との間の距離と、前記複数の物体のうち、前記対象空間内に存在する人物又は所定の道具である特定対象の物体を表す立体の形状を表す情報と、に基づいて、前記特定対象の物体を囲む領域の大きさの下限を示す第1閾値と、前記特定対象の物体を囲む領域の大きさの上限を示す第2閾値とを計算し、
前記複数の物体それぞれを囲む領域の中から、前記第1閾値よりも大きく、かつ、前記第2閾値よりも小さな領域を、前記特定対象の物体を囲む領域として抽出する、
処理をコンピュータに実行させるための画像処理プログラム。
【請求項2】
前記立体の形状を表す情報は、前記立体の寸法の閾値である、請求項1記載の画像処理プログラム。
【請求項3】
前記特定対象の物体を表す形状は、前記特定対象の物体の形状に伴って変化し、
前記画像処理プログラムは、前記特定対象の物体の複数の形状それぞれの発生頻度に関する統計情報を用いて、前記立体の寸法の前記閾値を計算する処理を、前記コンピュータにさらに実行させることを特徴とする請求項2記載の画像処理プログラム。
【請求項4】
前記第1閾値と前記第2閾値とを計算する処理は、透視変換に基づく、ことを特徴とする請求項1乃至3の何れか1項に記載の画像処理プログラム。
【請求項5】
予め決められた空間に配置された撮像装置により撮影された画像から、前記予め決められた空間内の、複数の人物又は所定の競技に用いられる複数の所定の道具である、複数の物体それぞれを囲む領域を抽出する物体抽出と、
前記予め決められた空間の中に予め設定される空間である対象空間の頂点を示す3次元座標と、前記撮像装置の位置を示す3次元座標との間の距離と、前記複数の物体のうち、前記対象空間内に存在する人物又は所定の道具である特定対象の物体を表す立体の形状を表す情報と、に基づいて、前記特定対象の物体を囲む領域の大きさの下限を示す第1閾値と、前記特定対象の物体を囲む領域の大きさの上限を示す第2閾値とを計算する決定部と、
前記複数の物体それぞれを囲む領域の中から、前記第1閾値よりも大きく、かつ、前記第2閾値よりも小さな領域を、前記特定対象の物体を囲む領域として抽出する対象物抽出部と、を備えることを特徴とする画像処理装置。
【請求項6】
予め決められた空間に配置された撮像装置により撮影された画像から、前記予め決められた空間内の、複数の人物又は所定の競技に用いられる複数の所定の道具である、複数の物体それぞれを囲む領域を抽出し、
前記予め決められた空間の中に予め設定される空間である対象空間の頂点を示す3次元座標と、前記撮像装置の位置を示す3次元座標との間の距離と、前記複数の物体のうち、前記対象空間内に存在する人物又は所定の道具である特定対象の物体を表す立体の形状を表す情報と、に基づいて、前記特定対象の物体を囲む領域の大きさの下限を示す第1閾値と、前記特定対象の物体を囲む領域の大きさの上限を示す第2閾値とを計算し、
前記複数の物体それぞれを囲む領域の中から、前記第1閾値よりも大きく、かつ、前記第2閾値よりも小さな領域を、前記特定対象の物体を囲む領域として抽出する、
処理をコンピュータが実行することを特徴とする画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理技術に関する。
【背景技術】
【0002】
画像処理に関連して、カメラにより撮影された画像から、画像に写っている人物等の物体を囲む領域を抽出する技術が知られている。物体を囲む領域は、境界ボックスと呼ばれることがある。
【0003】
境界ボックスを人体の骨格認識を行う領域として設定すると、その応用分野として、骨格認識と技認識とから構成される体操採点支援システムが注目を浴びている(例えば、非特許文献1を参照)。スポーツに関連した技術として、3次元ロバスト物体追跡のためのAdaptive Appearance Model、スポーツ競技場のためのカメラ姿勢推定技術、及び画像からスポーツ競技場の位置を特定する技術も知られている(例えば、非特許文献2、非特許文献3、及び非特許文献4を参照)。また、パノラマ映像を用いて人物の位置を特定する技術も知られている(例えば、非特許文献5を参照)。
【0004】
一方、境界ボックスの別の適用例として、監視空間を撮像した監視画像から対象物体を検出する画像監視装置も知られている(例えば、特許文献1を参照)。どのような状況にあっても安定的に高精度な背景を得ることができ、照明変動や遮蔽等の影響を受けても検出に失敗することのない対象物認識システムも知られている(例えば、特許文献2を参照)。映像解析を用いた物体特定及び挙動特性化のためのシステムも知られている(例えば、特許文献3を参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2010-45501号公報
【文献】特開2011-209794号公報
【文献】米国特許第6678413号明細書
【非特許文献】
【0006】
【文献】桝井 昇一他,“3Dセンシング・技認識技術による体操採点支援システムの実用化”,情報処理学会,会誌「デジタルプラクティスコーナー」,Vol.1,No.1,2020年10月
【文献】Z. Tang et al., "MOANA: An Online Learned Adaptive Appearance Model for Robust Multiple Object Tracking in 3D", IEEE Access, Vol. 7, 2019, pages 31934-31945.
【文献】L. Citraro et al., "Real-Time Camera Pose Estimation for Sports Fields", arXiv.org, arXiv:2003.14109v1, March 2020, 12 pages.
【文献】N. Homayounfar et al., "Sports Field Localization via Deep Structured Models", 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017, pages 4012-4020.
【文献】F. Yang et al., "Using Panoramic Videos for Multi-person Localization and Tracking in a 3D Panoramic Coordinate", arXiv.org, arXiv:1911.10535v5, March 2020, 5 pages.
【発明の概要】
【発明が解決しようとする課題】
【0007】
スポーツ競技場において演技を行う選手をカメラにより撮影し、撮影された画像を用いて選手の演技を採点する場合、画像内で採点対象の選手が写っている領域を特定した後、選手の骨格を認識する手法は、採点のように高精度の人の動きを解析する際に有効である。しかしながら、採点対象の選手を含む複数の人物が画像に写っている場合、採点対象の選手が写っている領域を特定することが難しい。
【0008】
なお、かかる問題は、画像を用いて選手の演技を採点する場合に限らず、画像に写っている様々な対象物に関連する領域を特定する場合において生ずるものである。
【0009】
1つの側面において、本発明は、複数の物体が写っている画像において、動く対象物に関連する領域を特定することを目的とする。ここでいう動きには、一般的な立ち姿勢だけでなく、体操における宙返りのようなアクロバティック姿勢を含んでいる。
【課題を解決するための手段】
【0010】
1つの案では、画像処理プログラムは、以下の処理をコンピュータに実行させる。
【0011】
コンピュータは、予め決められた空間に配置された撮像装置により撮影された画像から、前記予め決められた空間内の、複数の人物又は所定の競技に用いられる複数の所定の道具である、複数の物体それぞれを囲む領域を抽出し、前記予め決められた空間の中に予め設定される空間である対象空間の頂点を示す3次元座標と、前記撮像装置の位置を示す3次元座標との間の距離と、前記複数の物体のうち、前記対象空間内に存在する人物又は所定の道具である特定対象の物体を表す立体の形状を表す情報と、に基づいて、前記特定対象の物体を囲む領域の大きさの下限を示す第1閾値と、前記特定対象の物体を囲む領域の大きさの上限を示す第2閾値とを計算し、前記複数の物体それぞれを囲む領域の中から、前記第1閾値よりも大きく、かつ、前記第2閾値よりも小さな領域を、前記特定対象の物体を囲む領域として抽出する。

【発明の効果】
【0012】
1つの側面によれば、複数の物体が写っている画像において、動く対象物に関連する領域を特定することができる。
【図面の簡単な説明】
【0013】
図1】比較例1の方法のフローチャートである。
図2】比較例2の方法のフローチャートである。
図3】画像処理装置の機能的構成図である。
図4】画像処理のフローチャートである。
図5】多視点画像処理システムの構成図である。
図6】多視点画像処理システムにおける画像処理装置の機能的構成図である。
図7】対象空間を示す図である。
図8】境界ボックスを示す図である。
図9】対象空間及び境界ボックスを示す図である。
図10】体操選手を表す立体を示す図である。
図11】統計情報を示す図である。
図12】Dmax及びDminを示す図である。
図13】対象物抽出処理を示す図である。
図14】4枚の画像から抽出された境界ボックスを示す図である。
図15】対象物抽出処理により抽出された境界ボックスを示す図である。
図16】多視点画像処理システムにおける画像処理のフローチャートである。
図17】出演者の境界ボックスを抽出する対象物抽出処理を示す図である。
図18】バスケットボールの境界ボックスを抽出する対象物抽出処理を示す図である。
図19】情報処理装置のハードウェア構成図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0015】
スポーツ競技場において撮影された画像を用いて、選手の骨格を認識して、その結果から演技を採点する場合、画像に写っている多数の人物の中から、対象空間内で演技を行っている選手を特定することが有効である。対象空間とは、3次元空間において、採点対象の選手が演技を行う所定の空間である。
【0016】
この場合、画像に写っている多数の人物のうち、背景に写っている人物が除外され、対象空間内で演技を行っている選手が特定される。背景に写っている人物には、対象空間内で演技を行っていない他の選手、コーチ、観客、審判、カメラマン等が含まれる。以下では、対象空間内で演技を行っている選手を指して、対象空間内の選手と記載することがある。
【0017】
情報処理装置(コンピュータ)を用いて対象空間内の選手を特定する場合、情報処理装置は、画像から各人物を囲む境界ボックスを抽出する。そして、情報処理装置は、抽出された境界ボックスのうち、背景や前景に写っている人物の境界ボックスを除外することで、対象空間内の選手の境界ボックスを抽出する。これにより、後続する骨格認識の精度を向上させることができる。
【0018】
背景に写っている人物の境界ボックスを除外する方法としては、例えば、比較例1及び比較例2の方法が挙げられる。
【0019】
図1は、比較例1の方法を示すフローチャートである。まず、ユーザは、画像から抽出された多数の境界ボックスの中から、対象領域内の複数の境界ボックスを選択し、選択された境界ボックスの大きさから境界ボックス範囲を推定する(ステップ101)。対象領域は、対象空間に対応する、画像内の領域を表し、境界ボックス範囲は、対象空間内の選手を囲む境界ボックスの大きさの範囲を表す。
【0020】
次に、情報処理装置は、画像から抽出された境界ボックスのうち、推定された境界ボックス範囲に属さない大きさを有する境界ボックスを除外する(ステップ102)。
【0021】
しかしながら、3次元空間においてカメラが対象空間に近づくほど、画像内の対象領域と対象空間内の選手の境界ボックスは大きくなり、カメラが対象空間から遠ざかるほど、対象領域と対象空間内の選手の境界ボックスは小さくなる。したがって、比較例1の方法では、カメラと対象空間との距離が変更される度に、手作業による境界ボックスの選択と境界ボックス範囲の推定が繰り返される。このため、比較例1の方法は効率的ではなく、オンライン処理に適していない。
【0022】
図2は、比較例2の方法を示すフローチャートである。比較例2の方法では、非特許文献2~非特許文献4に示されているように、人物が地面上を移動することと、地面は平面であることを前提としている。
【0023】
まず、情報処理装置は、画像から抽出された各境界ボックスの底辺の中点を3次元空間に逆投影することで、各人物の足の位置を推定する(ステップ201)。次に、情報処理装置は、画像から抽出された境界ボックスのうち、推定された足の位置がスポーツ競技場の地面上に存在しない境界ボックスを除外する(ステップ202)。
【0024】
比較例2の方法によれば、サッカー、バスケットボール等の競技において、背景に写っている観客等の境界ボックスを除外することができる。しかしながら、スポーツ競技場の床面から離れた空間内で選手が演技を行う体操のような競技では、人物が地面上を移動するという前提が成り立たない。体操選手の画像に対して比較例2の方法を適用すると、対象空間内の体操選手の足の位置が床面上に存在しないため、その体操選手の境界ボックスが誤って除外されてしまう。
【0025】
図3は、実施形態の画像処理装置の機能的構成例を示している。図3の画像処理装置301は、物体抽出部311、決定部312、及び対象物抽出部313を含む。
【0026】
図4は、図3の画像処理装置301が行う画像処理の例を示すフローチャートである。まず、物体抽出部311は、撮像装置により撮影された画像から、複数の物体それぞれに関連する領域(境界ボックス)を抽出する(ステップ401)。
【0027】
次に、決定部312は、対象物が動く空間の範囲と撮像装置の位置とに基づいて閾値を決定する(ステップ402)。そして、対象物抽出部313は、複数の物体それぞれに関連する領域の大きさと閾値とを比較した比較結果に基づいて、複数の物体それぞれに関連する領域の中から対象物に関連する領域(境界ボックス)を抽出する(ステップ403)。
【0028】
図3の画像処理装置301によれば、複数の物体が写っている画像において、動く対象物に関連する領域を特定することができる。
【0029】
図5は、図3の画像処理装置301を含む多視点画像処理システムの構成例を示している。図5の多視点画像処理システムは、撮像装置501-1~撮像装置501-N(Nは撮像装置の台数を示す2以上の整数)、同期信号発生器502、キャプチャ装置503、及び画像処理装置504を含む。
【0030】
多視点画像処理システムは、体操競技場の映像を撮影して、対象空間内の体操選手の演技の採点を支援する処理を行う。撮像装置501-1~撮像装置501-Nは、対象空間内の体操選手を取り囲むように、体操競技場内の所定の場所に設置される。映像に写っている人物は、物体に対応し、対象空間内の体操選手は、対象物に対応する。対象空間は、対象物が動く空間の範囲に対応する。
【0031】
撮像装置501-1~撮像装置501-N、同期信号発生器502、キャプチャ装置503、及び画像処理装置504は、ハードウェアである。画像処理装置504は、図3の画像処理装置301に対応する。
【0032】
同期信号発生器502は、信号ケーブルを介して、同期信号を撮像装置501-1~撮像装置501-Nへ出力する。
【0033】
撮像装置501-i(i=1~N)は、例えば、CCD(Charge-Coupled Device)、CMOS(Complementary Metal-Oxide-Semiconductor)等の撮像素子を有するカメラである。各撮像装置501-iは、同期信号発生器502から出力される同期信号に同期して、体操競技場における対象空間の映像を撮影し、信号ケーブルを介して、映像をキャプチャ装置503へ出力する。
【0034】
キャプチャ装置503は、撮像装置501-1~撮像装置501-Nそれぞれから出力される映像のデジタル信号を集約して、画像処理装置504へ出力する。キャプチャ装置503から出力される映像は、同期された複数の時刻それぞれにおける画像を含む。
【0035】
図6は、図5の画像処理装置504の機能的構成例を示している。図6の画像処理装置504は、取得部611、物体抽出部612、決定部613、対象物抽出部614、骨格認識部615、出力部616、及び記憶部617を含む。物体抽出部612、決定部613、及び対象物抽出部614は、図3の物体抽出部311、決定部312、及び対象物抽出部313にそれぞれ対応する。
【0036】
記憶部617は、対象空間情報622及び撮像装置情報623を記憶する。対象空間情報622は、対象空間を示す情報である。対象空間は、体操の場合には採点対象の種目(あん馬、吊り輪、平均台等、男女10種目が存在する)の種類に合わせて、事前に設定される。対象空間の形状としては、直方体、複数の直方体の組み合わせ、角柱、円柱等を用いることができる。例えば、対象空間の形状がm個の頂点を有する立体で表される場合、対象空間情報622は、m個の頂点の3次元座標(xj,yj,zj)(j=1~m)を含んでいてもよい。
【0037】
図7は、対象空間の例を示している。図7(a)は、直方体の対象空間の例を示している。対象空間の形状が直方体701である場合、対象空間情報622は、直方体701の8個の頂点の3次元座標(xj,yj,zj)(j=1~8)を含む。
【0038】
図7(b)は、2個の直方体を組み合わせた対象空間の例を示している。図7(b)の対象空間の形状は、直方体701と直方体702を組み合わせた形状である。この場合、対象空間情報622は、直方体701の8個の頂点の3次元座標(xj,yj,zj)(j=1~8)と、直方体702の8個の頂点の3次元座標(xj,yj,zj)(j=9~16)とを含む。
【0039】
図7(c)は、六角柱の対象空間の例を示している。対象空間の形状が六角柱703である場合、対象空間情報622は、六角柱703の12個の頂点の3次元座標(xj,yj,zj)(j=1~12)を含む。
【0040】
撮像装置情報623は、3次元空間における各撮像装置501-iの位置座標(Xi,Yi,Zi)(i=1~N)、焦点距離f、及び実効スケール(1画素当たりの3次元距離)sを含む。この例では、簡単のため、撮像装置501-1~撮像装置501-Nの焦点距離fは同じであり、アスペクト比は1であると仮定している。
【0041】
取得部611は、キャプチャ装置503から出力される映像を取得し、取得された映像から各時刻における画像621を抽出して、記憶部617に格納する。
【0042】
物体抽出部612は、人物検出処理を行うことで、画像621から、画像621に写っている複数の人物それぞれの境界ボックスを抽出し、各人物の境界ボックスを示す領域情報626を生成して、記憶部617に格納する。人物の境界ボックスは、物体に関連する領域に対応する。領域情報626は、例えば、画像621内における境界ボックスの左上頂点の座標(xp,yp)、境界ボックスの幅wp、及び境界ボックスの高さhpを含む。
【0043】
図8は、画像621から抽出された境界ボックスの例を示している。境界ボックス801は、平均台の演技を行う体操選手を囲んでいる。この場合、境界ボックス801の右下頂点812の座標は、境界ボックス801の左上頂点811の座標(xp,yp)、境界ボックス801の幅wp、及び境界ボックス801の高さhpを用いて、(xp+wp,yp+hp)により表される。
【0044】
図9は、画像621内における対象空間及び境界ボックスの例を示している。図9(a)は、吊り輪の演技における対象空間及び境界ボックスの例を示している。対象空間901は、3次元空間において、体操選手が吊り輪の演技を行う空間である。境界ボックス911は、対象空間901内の体操選手の境界ボックスであり、境界ボックス912は、背景の人物の境界ボックスである。
【0045】
図9(b)は、平均台の演技における対象空間及び境界ボックスの例を示している。対象空間902は、3次元空間において、体操選手が平均台の演技を行う空間である。境界ボックス913は、対象空間902内の体操選手の境界ボックスであり、境界ボックス914は、背景の人物の境界ボックスである。
【0046】
決定部613は、対象空間内の体操選手の大きさを推定し、推定された体操選手の大きさを示す対象物情報624を生成して、記憶部617に格納する。体操選手の大きさは、例えば、3次元空間において、体操選手の身体を隙間なく囲む立体により表される。体操選手の大きさを表す立体としては、直方体、複数の直方体の組み合わせ、角柱、円柱等を用いることができる。演技を行う体操選手の姿勢は、体操選手の動きに伴って変化するため、体操選手を表す立体の形状も、体操選手の動きに伴って変化する。
【0047】
図10は、体操選手を表す立体の例を示している。この例では、体操選手を表す立体として、直方体が用いられている。図10(a)~図10(e)は、体操選手の様々な姿勢に対応する直方体の例を示している。高さHは、直方体の垂直方向の長さを表し、幅Wmaxは、複数のカメラから見た直方体の水平方向の長さの最大値を表し、幅Wminは、複数のカメラから見た直方体の水平方向の長さの最小値を表す。
【0048】
このように、体操選手を表す立体の形状は、体操選手の姿勢に応じて様々に変化するため、決定部613は、体操選手の身体の複数の形状それぞれの発生頻度に関する統計情報に基づいて、体操選手の大きさを推定する。
【0049】
身体の形状の発生頻度に関する統計情報は、例えば、モーションキャプチャ、3次元センシング(非特許文献1)による骨格認識、オープンなデータセット等から取得することができる。対象物情報624としては、例えば、Sminの下限を示す閾値T1とSmaxの上限を示す閾値T2の組み合わせを用いることができる。Sminは、WminとHの和を表し、Smaxは、WmaxとHの和を表す。
【0050】
図11は、身体の形状の発生頻度に関する統計情報の例を示している。図11(a)は、M個の姿勢それぞれを表す直方体のSminの分布の例を示している。横軸は、Sminの値(mm)を表し、縦軸は、Sminの値に対応する直方体が表す姿勢の個数を表す。
【0051】
決定部613は、図11(a)の分布において、T1以下のSminを有する姿勢の個数がM*(α/100)となり、T1よりも大きなSminを有する姿勢の個数がM*((100-α)/100)となるようなT1を計算する。これにより、M個の姿勢のうち、最小値に近いSminを有するα%の姿勢が外れ値として除外される。αは、実験結果等に基づいて決定される。αは、0~20の範囲の数値であってもよい。
【0052】
図11(b)は、M個の姿勢それぞれを表す直方体のSmaxの分布の例を示している。横軸は、Smaxの値(mm)を表し、縦軸は、Smaxの値に対応する直方体が表す姿勢の個数を表す。
【0053】
決定部613は、図11(b)の分布において、T2以上のSmaxを有する姿勢の個数がM*(α/100)となり、T2よりも小さなSmaxを有する姿勢の個数がM*((100-α)/100)となるようなT2を計算する。これにより、M個の姿勢のうち、最大値に近いSmaxを有するα%の姿勢が外れ値として除外される。
【0054】
身体の形状の発生頻度に関する統計情報を用いてT1及びT2を決定することで、体操選手の姿勢が様々に変化する場合であっても、姿勢の変化を反映した適切な対象物情報624を生成することができる。
【0055】
次に、決定部613は、対象空間情報622、撮像装置情報623、及び対象物情報624を用いて、対象空間内の体操選手を囲む境界ボックスTBの大きさの範囲を示す閾値を決定する。境界ボックスTBは、対象物に関連する領域に対応する。
【0056】
決定部613は、例えば、画像621内において、境界ボックスTBの大きさの下限を示す閾値B1と、境界ボックスTBの大きさの上限を示す閾値B2とを決定し、B1及びB2の組み合わせを、範囲情報625として記憶部617に格納する。B1は、第1閾値の一例であり、B2は、第2閾値の一例である。
【0057】
決定部613は、例えば、透視変換に基づく次式により、画素単位のB1及びB2を計算することができる。
【0058】
B1=(f/s)*(T1/Dmax) (1)
B2=(f/s)*(T2/Dmin) (2)
【0059】
fは、撮像装置情報623に含まれる焦点距離を表し、sは、撮像装置情報623に含まれる1画素当たりの3次元距離を表す。したがって、f/sは、画素単位の焦点距離に対応する。T1及びT2は、対象物情報624に含まれる閾値を表す。
【0060】
Dmaxは、撮像装置501-iから対象空間のj番目(j=1~m)の頂点までの3次元距離D(i,j)の最大値を表し、Dminは、D(i,j)の最小値を表す。決定部613は、撮像装置情報623に含まれる撮像装置501-iの位置座標(Xi,Yi,Zi)と、対象空間情報622に含まれるj番目の頂点の3次元座標(xj,yj,zj)とを用いて、D(i,j)を計算することができる。
【0061】
図12は、Dmax及びDminの例を示している。図12(a)は、図9(a)の対象空間901に対するDmax及びDminの例を示している。この場合、撮像装置501-iから対象空間901の8個の頂点までの3次元距離D(i,j)(j=1~8)のうち、最大値がDmaxとして用いられ、最小値がDminとして用いられる。
【0062】
図12(b)は、図9(b)の対象空間902に対するDmax及びDminの例を示している。この場合、撮像装置501-iから対象空間902の8個の頂点までの3次元距離D(i,j)(j=1~8)のうち、最大値がDmaxとして用いられ、最小値がDminとして用いられる。
【0063】
対象空間情報622、撮像装置情報623、及び対象物情報624を用いてB1及びB2を決定することで、撮像装置501-iから対象空間までの3次元距離と体操選手の大きさとに応じて、適切な範囲情報625を生成することができる。
【0064】
対象物抽出部614は、領域情報626に含まれる幅wp及び高さhpを用いて、各境界ボックスの大きさBSを、次式により計算する。
【0065】
BS=wp+hp (3)
【0066】
次に、対象物抽出部614は、各境界ボックスのBSを、範囲情報625に含まれるB1及びB2とそれぞれ比較する。そして、対象物抽出部614は、領域情報626が示す複数の境界ボックスの中から、B1よりも大きく、かつ、B2よりも小さなBSを有する1つ又は複数の境界ボックスを、境界ボックスTBとして抽出する。対象物抽出部614は、抽出された境界ボックスTBの領域情報626を、対象物領域情報627として記憶部617に格納する。
【0067】
一例として、次のような4個の境界ボックスが画像621から抽出された場合について説明する。
【0068】
BOX1 wp=53 hp=97
BOX2 wp=46 hp=128
BOX3 wp=475 hp=598
BOX4 wp=102 hp=421
【0069】
この場合、式(3)により、各境界ボックスのBSは、次のように計算される。
【0070】
BOX1 BS=150
BOX2 BS=174
BOX3 BS=1073
BOX4 BS=523
【0071】
B1=245、B2=847である場合、BOX1及びBOX2のBSはB1よりも小さく、BOX3のBSはB2よりも大きい。BOX4のBSはB1よりも大きく、かつ、B2よりも小さい。したがって、BOX1~BOX3は除外され、BOX4のみが境界ボックスTBとして抽出される。
【0072】
B1よりも大きく、かつ、B2よりも小さなBSを有する境界ボックスを、境界ボックスTBとして抽出することで、画像に写っている多数の人物の中から背景や前景の人物を除外して、対象空間内の体操選手を特定することができる。
【0073】
図13は、境界ボックスTBを抽出する対象物抽出処理の例を示している。図13(a)は、吊り輪の演技を撮影した画像621から抽出された複数の境界ボックスの例を示している。境界ボックス1311は、対象空間1301内の体操選手の境界ボックスであり、境界ボックス1312は、体操選手が吊り輪にぶら下がる動作を補助する補助者の境界ボックスである。その他の14個の小さな境界ボックスは、背景の人物の境界ボックスである。
【0074】
図13(b)は、図13(a)の16個の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。この例では、背景の14個の境界ボックスが除外され、境界ボックス1311及び境界ボックス1312が境界ボックスTBとして抽出されている。このうち、補助者の境界ボックス1312は、演技開始後の画像621からは抽出されなくなるため、人物追跡処理を行うことで、後続する処理の対象から除外することができる。
【0075】
図14は、吊り輪の演技において、同じ時刻に4台の撮像装置501-i(i=1~4)により撮影された4枚の画像621から抽出された、複数の境界ボックスの例を示している。
【0076】
図14(a)は、撮像装置501-1により撮影された画像621から抽出された複数の境界ボックスの例を示している。図14(b)は、撮像装置501-2により撮影された画像621から抽出された複数の境界ボックスの例を示している。図14(c)は、撮像装置501-3により撮影された画像621から抽出された複数の境界ボックスの例を示している。図14(d)は、撮像装置501-4により撮影された画像621から抽出された複数の境界ボックスの例を示している。
【0077】
図14(b)及び図14(d)の境界ボックスには、各人物の境界ボックスだけでなく、複数の人物を含む大きな境界ボックスも含まれている。
【0078】
図15は、図14の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。
【0079】
図15(a)は、図14(a)の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。図15(b)は、図14(b)の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。図15(c)は、図14(c)の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。図15(d)は、図14(d)の境界ボックスに対する対象物抽出処理により抽出された境界ボックスTBの例を示している。
【0080】
何れの画像621においても、背景の人物の境界ボックスが除外され、対象空間内の体操選手及び補助者の境界ボックスが境界ボックスTBとして抽出されている。
【0081】
採点対象の演技の種類が変更された場合、演技の種類に合わせて対象空間情報622及び対象物情報624が変更される。撮像装置501-iの設置場所が変更された場合、設置場所に合わせて撮像装置情報623が変更される。対象空間情報622、撮像装置情報623、又は対象物情報624が変更された場合、決定部613は、閾値B1及び閾値B2を再度計算することで、範囲情報625を更新する。対象物抽出部614は、更新後の範囲情報625を用いて、境界ボックスTBを抽出する。
【0082】
骨格認識部615は、対象物領域情報627が示す境界ボックスTBに含まれる人物の画像を用いて骨格認識処理を行うことで、対象空間内の体操選手の骨格を認識し、認識された骨格の3次元座標を生成する。骨格認識処理は、人物追跡処理、2次元姿勢推定処理、3次元姿勢推定処理、及び平滑化処理を含む。骨格認識処理としては、例えば、非特許文献1に記載された処理を用いることができる。
【0083】
出力部616は、体操選手の骨格の3次元座標を出力する。骨格の3次元座標の時系列変化から演技の技を認識することで、体操選手により行われた演技の採点を支援することができる。
【0084】
図5の多視点画像処理システムによれば、体操競技場内の複数の人物が写っている画像において、対象空間内で演技を行っている体操選手の境界ボックスを特定することができる。
【0085】
撮像装置501-iと対象空間との距離が変更された場合であっても、閾値B1及び閾値B2の決定と対象物抽出処理が自動的に行われるため、対象空間内の体操選手の境界ボックスを効率良く特定することができる。したがって、オンライン処理に適した画像処理が実現される。
【0086】
また、人物が地面上を移動するという前提を用いていないため、対象空間内の体操選手の足の位置が床面上に存在しない場合であっても、体操選手の境界ボックスが除外されることはない。
【0087】
図16は、図6の画像処理装置504が行う画像処理の例を示すフローチャートである。まず、取得部611は、キャプチャ装置503から出力される映像を取得し、取得された映像から各時刻における画像621を抽出する(ステップ1601)。
【0088】
次に、物体抽出部612は、人物検出処理を行うことで、画像621から複数の人物それぞれの境界ボックスを抽出し、各人物の境界ボックスを示す領域情報626を生成する(ステップ1602)。
【0089】
次に、決定部613は、対象空間内の体操選手の大きさを推定し、推定された体操選手の大きさを示す対象物情報624を生成する(ステップ1603)。次に、決定部613は、対象空間情報622、撮像装置情報623、及び対象物情報624を用いて、対象空間内の体操選手を囲む境界ボックスTBの大きさの範囲を示す閾値B1及び閾値B2を決定する。そして、決定部613は、B1及びB2を含む範囲情報625を生成する(ステップ1604)。
【0090】
次に、対象物抽出部614は、各境界ボックスの大きさBSを、範囲情報625に含まれるB1及びB2とそれぞれ比較し、B1よりも大きく、かつ、B2よりも小さなBSを有する境界ボックスを、境界ボックスTBとして抽出する。そして、対象物抽出部614は、境界ボックスTBを示す対象物領域情報627を生成する(ステップ1605)。
【0091】
次に、骨格認識部615は、境界ボックスTBに含まれる人物の画像を用いて骨格認識処理を行うことで、対象空間内の体操選手の骨格の3次元座標を生成する(ステップ1606)。そして、出力部616は、体操選手の骨格の3次元座標を出力する(ステップ1607)。
【0092】
図5の多視点画像処理システムは、体操競技場の画像に写っている体操選手の境界ボックスを特定する処理に限らず、様々な画像に写っている対象物の境界ボックスを特定する処理に適用することができる。
【0093】
適用分野は、フィギュアスケートにおける演技の採点の支援であってもよく、各種イベントにおける出演者の姿勢の検出であってもよく、バスケットボールの練習における採点の支援であってもよい。
【0094】
図17は、イベントの舞台を撮影した画像621から出演者の境界ボックスを抽出する対象物抽出処理の例を示している。画像621に写っている人物は、物体に対応し、舞台上で演技を行う出演者は、対象物に対応する。この例では、抽出された出演者の境界ボックスに含まれる画像を用いて、出演者の姿勢が検出され、出演者の3次元アバターが舞台上の画面に表示される。
【0095】
図17(a)は、舞台を撮影した画像621から抽出された複数の人物それぞれの境界ボックスの例を示している。境界ボックス1714~境界ボックス1719は、舞台上で演技を行う出演者の境界ボックスである。境界ボックス1711~境界ボックス1713及び境界ボックス1720~境界ボックス1723は、背景の観客の境界ボックスである。
【0096】
図17(b)は、図17(a)の13個の境界ボックスに対する対象物抽出処理により抽出された、出演者の境界ボックスの例を示している。この例では、背景の7個の境界ボックスが除外され、境界ボックス1714~境界ボックス1719が、出演者の境界ボックスとして抽出されている。
【0097】
図18は、バスケットボールの練習風景を撮影した画像621から、選手がドリブルしているバスケットボールの境界ボックスを抽出する対象物抽出処理の例を示している。画像621に写っているバスケットボールは、物体に対応し、選手がドリブルしているバスケットボールは、対象物に対応する。この例では、抽出されたバスケットボールの境界ボックスに含まれる画像を用いて、ドリブルの採点が支援される。
【0098】
図18(a)は、バスケットボールの練習風景を撮影した画像621から抽出された複数のバスケットボールそれぞれの境界ボックスの例を示している。境界ボックス1811及び境界ボックス1812は、対象空間1801内の選手がドリブルしている対象バスケットボールの境界ボックスである。境界ボックス1813及び境界ボックス1814は、他の選手が手にしているバスケットボールの境界ボックスである。
【0099】
この例では、対象バスケットボールをドリブルしている選手を包含する十角柱の空間が、対象空間1801として用いられる。したがって、対象空間1801の各頂点の3次元座標は、選手の移動に伴って動的に更新される。対象バスケットボールをドリブルしている選手の位置は、例えば、非特許文献5に記載された方法により推定することができる。対象バスケットボールの大きさは既知である。
【0100】
図18(b)は、図18(a)の4個の境界ボックスに対する対象物抽出処理により抽出された対象バスケットボールの境界ボックスの例を示している。この例では、境界ボックス1813及び境界ボックス1814が除外され、境界ボックス1811及び境界ボックス1812が、対象バスケットボールの境界ボックスとして抽出されている。
【0101】
図3の画像処理装置301の構成は一例に過ぎず、画像処理装置301の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0102】
図5の多視点画像処理システムの構成は一例に過ぎず、多視点画像処理システムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。図6の画像処理装置504の構成は一例に過ぎず、多視点画像処理システムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0103】
例えば、図6の画像処理装置504において、事前に画像621が記憶部617に格納されている場合は、取得部611を省略することができる。骨格認識処理を行う必要がない場合は、骨格認識部615を省略することができる。
【0104】
図1図2図4、及び図16のフローチャートは一例に過ぎず、情報処理装置又は画像処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図16の画像処理において、事前に画像621が記憶部617に格納されている場合は、ステップ1601の処理を省略することができる。骨格認識処理を行う必要がない場合は、ステップ1606の処理を省略することができる。
【0105】
図7図9図12図13、及び図18に示した対象空間は一例に過ぎず、画像処理装置504は、別の形状の対象空間を用いて画像処理を行ってもよい。図8図9図13図15図17、及び図18に示した境界ボックスは一例に過ぎず、境界ボックスの位置及び大きさは、画像621に応じて変化する。画像処理装置504は、矩形の境界ボックスの代わりに、別の形状の領域を用いて画像処理を行ってもよい。
【0106】
図10に示した立体は一例に過ぎず、体操選手を表す立体は、演技の種類に応じて変化する。図11に示した統計情報は一例に過ぎず、身体の形状の発生頻度に関する統計情報は、演技の種類に応じて変化する。
【0107】
Sminは、必ずしもWminとHの和である必要はなく、Smaxは、必ずしもWmaxとHの和である必要はない。画像処理装置504は、別の指標をSmin及びSmaxとして用いて、T1及びT2を計算してもよい。
【0108】
式(1)~式(3)は一例に過ぎず、画像処理装置504は、別の計算式を用いてB1、B2、及びBSを計算してもよい。
【0109】
図19は、図3の画像処理装置301及び図6の画像処理装置504として用いられる情報処理装置のハードウェア構成例を示している。図19の情報処理装置は、CPU(Central Processing Unit)1901、メモリ1902、入力装置1903、出力装置1904、補助記憶装置1905、媒体駆動装置1906、及びネットワーク接続装置1907を含む。これらの構成要素はハードウェアであり、バス1908により互いに接続されている。図5のキャプチャ装置503は、バス1908に接続されていてもよい。
【0110】
メモリ1902は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ1902は、図6の記憶部617として動作してもよい。
【0111】
CPU1901(プロセッサ)は、例えば、メモリ1902を利用してプログラムを実行することにより、図3の物体抽出部311、決定部312、及び対象物抽出部313として動作する。CPU1901は、メモリ1902を利用してプログラムを実行することにより、図6の取得部611、物体抽出部612、決定部613、対象物抽出部614、及び骨格認識部615としても動作する。
【0112】
入力装置1903は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示又は情報の入力に用いられる。出力装置1904は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせ又は処理結果の出力に用いられる。出力装置1904は、図6の出力部616として動作してもよい。
【0113】
補助記憶装置1905は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1905は、ハードディスクドライブ又はSSD(Solid State Drive)であってもよい。情報処理装置は、補助記憶装置1905にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。補助記憶装置1905は、図6の記憶部617として動作してもよい。
【0114】
媒体駆動装置1906は、可搬型記録媒体1909を駆動し、その記録内容にアクセスする。可搬型記録媒体1909は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1909は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。ユーザ又はオペレータは、可搬型記録媒体1909にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。
【0115】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1902、補助記憶装置1905、又は可搬型記録媒体1909のような、物理的な(非一時的な)記録媒体である。
【0116】
ネットワーク接続装置1907は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1907を介して受信し、それらをメモリ1902にロードして使用することができる。ネットワーク接続装置1907は、図6の出力部616として動作してもよい。
【0117】
なお、情報処理装置が図19のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略又は変更することも可能である。例えば、ユーザ又はオペレータとのインタフェースが不要である場合は、入力装置1903及び出力装置1904を省略してもよい。情報処理装置が可搬型記録媒体1909又は通信ネットワークを利用しない場合は、媒体駆動装置1906又はネットワーク接続装置1907を省略してもよい。
【0118】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19