IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヒンジ ヘルス, インコーポレイテッドの特許一覧

特許7554278複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム
<>
  • 特許-複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム 図1
  • 特許-複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム 図2
  • 特許-複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム 図3
  • 特許-複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-10
(45)【発行日】2024-09-19
(54)【発明の名称】複数のビューから2D人間姿勢をマッチングさせるための方法およびシステム
(51)【国際特許分類】
   G06V 10/26 20220101AFI20240911BHJP
   G06T 7/00 20170101ALI20240911BHJP
   G06T 7/20 20170101ALI20240911BHJP
   G06T 7/593 20170101ALI20240911BHJP
【FI】
G06V10/26
G06T7/00 660B
G06T7/20 300Z
G06T7/593
【請求項の数】 8
(21)【出願番号】P 2022556032
(86)(22)【出願日】2020-03-20
(65)【公表番号】
(43)【公表日】2023-06-30
(86)【国際出願番号】 IB2020052609
(87)【国際公開番号】W WO2021186225
(87)【国際公開日】2021-09-23
【審査請求日】2023-03-14
(73)【特許権者】
【識別番号】521546728
【氏名又は名称】ヒンジ ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ジャン, ウェンシン
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】米国特許出願公開第2019/0266780(US,A1)
【文献】米国特許出願公開第2019/0109975(US,A1)
【文献】特開2019-102877(JP,A)
【文献】中国特許出願公開第109829972(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/26
G06T 7/00
G06T 7/20
G06T 7/593
(57)【特許請求の範囲】
【請求項1】
各ビューの人間の2次元(2)骨格から、2つ以上のカメラビューの間の人間を識別する方法であって、前記方法は、
a)前記2つ以上のカメラビューのそれぞれにおける骨格毎に、前記2つ以上のカメラビューの別のものにおける前記骨格のそれぞれとの対毎スコア化を実施し、類似性スコアを各対に割り当てることであって、対のカメラビューからの対の2D骨格の前記対毎スコア化は、
前記2D骨格の複数の要素の要素毎に、
前記対のカメラビューから当該要素までの対の光線をモデル化すること、
前記対の光線間の距離を判定すること、および
前記複数の要素について判定された複数の距離の加重の合計を表わす前記類似性スコアを生成すること
を含む、ことと、
b)前記対の前記類似性スコアを最大限にすることによって、第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することと、
c)第1のカメラビューにおける骨格のセットであって、前記第1のカメラビューにおける前記人間に関連する前記セットを識別することによって、前記最良マッチングを使用して、第2のカメラビューにおける骨格のセットとともに、骨格を群化することと、
d)前記2つ以上のカメラビューのあるフレーム内の前記群化された骨格内の各骨格に識別子を割り当てることと、次いで、マッチングする前記2つ以上のカメラビューの後続フレーム内の前記群化された骨格内の各骨格に、同一の識別子を割り当てることと
を含む、方法。
【請求項2】
前記対のカメラビューからの対の骨格の前記対毎スコア化は、各カメラビューから前記カメラビューと関連付けられる前記2骨格の要素までの光線をモデル化することと、2本の光線間の最小距離を判定することとを含む、請求項1に記載の方法。
【請求項3】
前記光線が発散的である場合、前記対は、前記類似性スコア内に含まれない、請求項2に記載の方法。
【請求項4】
前記対のカメラビューからの対の骨格の前記対毎スコア化は、前記の光線間の前記距離が閾値を超過する要素を除外することをさらに含む、請求項2に記載の方法。
【請求項5】
各ビューの人間の2次元(2D)骨格から、2つ以上のカメラビューの間の人間を識別する方法であって、前記方法は、
a)前記2つ以上のカメラビューのそれぞれにおける骨格毎に、前記2つ以上のカメラビューの別のものにおける前記骨格のそれぞれとの対毎スコア化を実施し、類似性スコアを各対に割り当てることと、
b)前記対の前記類似性スコアを最大限にすることによって、第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することと、
c)第1のカメラビューにおける骨格のセットであって、前記第1のカメラビューにおける前記人間に関連する前記セットを識別することによって、前記最良マッチングを使用して、第2のカメラビューにおける骨格のセットとともに、骨格を群化することと、
d)前記2つ以上のカメラビューのあるフレーム内の前記群化された骨格内の各骨格に識別子を割り当てることと、次いで、マッチングする前記2つ以上のカメラビューの後続フレーム内の前記群化された骨格内の各骨格に、同一の識別子を割り当てることと
を含み、
対のカメラビューからの対の骨格の前記対毎スコア化は、各カメラビューから前記カメラビューと関連付けられる前記2D骨格の要素までの光線をモデル化することと、2本の光線間の最小距離を判定することとを含み、
前記対のカメラビューからの前記対の骨格の前記対毎スコア化は、典型的な人間からの前記2骨格から形成される、推定的3骨格の属性の偏差を判定することをさらに含む、方法。
【請求項6】
メラの位置および角度を判定することによって、各カメラビューを較正することと、前記1つ以上のカメラビューから同時に捉えられるフレームを整合させることによって、前記カメラビューを同期させることとをさらに含む、請求項1に記載の方法。
【請求項7】
第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することは、任意のマッチングを識別しないことを含む、請求項1に記載の方法。
【請求項8】
2人以上の人間に関する運動捕捉システムであって、前記運動捕捉システムは、
同期化されたビデオストリームを生成するの較正されたカメラであって、前記対の較正されたカメラは、前記2人以上の人間を含む少なくとも部分的に重複する視野を有する第1のカメラおよび第2のカメラを含む、対の較正されたカメラと、
前記第1のカメラと関連付けられる第1の2次元(2D)姿勢推定器モジュールであって、前記第1の2D姿勢推定器モジュールは、前記同期化されたビデオストリームのうちの第1の同期化されたビデオストリームのフレームに関して、対応する視野内の人間毎に2D骨格を生成するように構成される第1の2D姿勢推定器モジュールと、
前記第2のカメラと関連付けられる第2の2D姿勢推定器モジュールであって、前記第2の2D姿勢推定器モジュールは、前記同期化されたビデオストリームのうちの第2の同期化されたビデオストリームのフレームに関して、対応する視野内の人間毎に2D骨格を生成するように構成される、第2の2D姿勢推定器モジュールと、
前記第1のカメラと関連付けられる前記2D骨格毎に、前記第2のカメラと関連付けられる前記2D骨格のそれぞれとの対毎スコア化を実施し、各対に対して、類似性スコアを割り当てるためのスコア化モジュールであって、前記スコア化モジュールは、各カメラビューから前記カメラビューと関連付けられる前記2D骨格の要素までの光線をモデル化することと、2つの光線間の最小距離を判定することとを実行するように構成される、スコア化モジュールと、
前記対の前記類似性スコアを最大限にすることによって、第2のカメラビューにおける2D骨格に、第1のカメラビューにおける2D骨格をマッチングさせる、マッチングモジュールと、
第1のカメラビューにおける2D骨格のセットであって、前記第1のカメラビューにおける前記人間に関連する前記セットを識別することによって、最良マッチングを使用して、第2のカメラビューにおける2D骨格のセットとともに、2D骨格を群化する、群化モジュールと、
各2D骨格群に、前記同期化されたビデオストリームのフレームのシーケンスを横断して一貫したままである、識別子を割り当てる、時間マッチングモジュールと、
前記人間の位置を捕捉する、前記人間の3次元(3D)骨格を作成するために、人間に関するフレームのシーケンスを横断して、前記群化された2D骨格を組み合わせる、3D再構築モジュールと
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ビデオセグメント内の2D関節骨格を識別し、追跡することに関する。より具体的には、本開示は、2Dデータが、複数の視点から捉えられるビデオセグメントのフレームから抽出される場合に、同一人物に対応する2D骨格データをマッチングさせることに関する。
【背景技術】
【0002】
同期化された2Dビデオシーケンスからの3D人間姿勢の再構築は、2段階で遂行され得る。第1の段階である、2D人間姿勢の推定は、各ビデオシーケンスの各フレーム内の特徴点を検出する。第2の段階は、3D骨格の中に、カメラ較正パラメータとともに、2D特徴点を融合する。
【0003】
2D人間姿勢推定器は、ビデオシーケンスの各ビデオフレームにおいて、解剖学的関節に対応し得る、特徴点を検出するために、深層ニューラルネットワークに依拠し得る。単一の人物に属する特徴点群は、2D骨格を形成するために接続され得る。複数の人物を含有する場面に関しては、複数の2D骨格が、各フレーム内で検出され得、それぞれが、インデックスまたは一意のIDを割り当てられる。複数の人物の姿勢の推定は、複数の着目領域上で、特徴点検出を実施することによって遂行されてもよい、または単一の画像フレーム内の全ての特徴点をともに「1回」で検出し、次いで、それらを個々の2D骨格の中に群化することによって遂行されてもよい。
【0004】
場面内の人物毎に、具体的な人物に対応する2D骨格が、ともに群化され、3D骨格が、データ融合技法を通して推定される。例えば、各3D関節位置は、2つ以上の特徴点の三角測量によって、独立して推定され得る。代替として、3D関節位置は、関節の運動を経時的にモデル化する、カルマンフィルタによって推定され得る。
【0005】
複数の人物を含有する場面に関しては、2D骨格が群化され、それによって、各群が、単一の人物に対応することが重要であり得る。各ビューにおける2D骨格は、独立して抽出され得るため、そのインデックスまたはIDは、ビューを横断して相関されない。故に、マッチングステップが、典型的には、3D骨格を復元するために融合された2D群を識別するために使用される。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示は、ある側面における、各ビューの人間の2D骨格から、2つ以上のカメラビューの間の人間を識別する方法に関する。本方法は、2つ以上のカメラビューのそれぞれにおける、骨格毎に、2つ以上のカメラビューの別のものにおける、骨格のそれぞれとの対毎スコア化を実施し、類似性スコアを各対に割り当てることを含む。本方法はまた、対の類似性スコアを最大限にすることによって、第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することを含む。本方法は、第1のカメラビューにおける骨格のセットであって、第1のカメラビューにおける人間に関連するセットを識別することによって、最良マッチングを使用して、第2のカメラビューにおける骨格のセットとともに、骨格を群化することを含む。
【0007】
ある側面では、本開示は、同期化されたビデオストリームを生成する、2つ以上の較正されたカメラを備える、2人以上の人間に関する運動捕捉システムに関し、各カメラは、2人以上の人間を含む、重複する視野を有する。本システムは、ビデオストリームのフレームに関して、カメラの視野内の人間毎に2D骨格を生成するために、2つ以上の較正されたカメラのそれぞれと関連付けられる、2D姿勢推定器モジュールと、第1のカメラと関連付けられる2D骨格毎に、2つ以上のカメラの別のものの各2D骨格との対毎スコア化を実施し、各対に対して、類似性スコアを割り当てるためのスコア化モジュールとを有する。本システムはまた、対の類似性スコアを最大限にすることによって、第2のカメラビューにおける2D骨格に対して、第1のカメラビューにおける2D骨格をマッチングさせる、マッチングモジュールと、捕捉された場面において、群内の各2D骨格が、所与のカメラビューにおける、個別の人物のビューに対応するように、それぞれ、各人物に関する2D骨格のセットを識別することによって、2D骨格を群化する、群化モジュールとを有する。本システムはまた、各2D骨格群に、ビデオストリームのフレームのシーケンスを横断して一貫したままである、識別子を割り当てる、時間マッチングモジュールと、人間の位置を捕捉する、人間の3D骨格を作成するために、人間に関するフレームのシーケンスを横断して、群化された2D骨格を組み合わせる、3D再構築モジュールとを含む。
本発明は、例えば、以下を提供する。
(項目1)
各ビューの人間の2d骨格から、2つ以上のカメラビューの間の人間を識別する方法であって、
a)前記2つ以上のカメラビューのそれぞれにおける骨格毎に、前記2つ以上のカメラビューの別のものにおける前記骨格のそれぞれとの対毎スコア化を実施し、類似性スコアを各対に割り当てることと、
b)前記対の前記類似性スコアを最大限にすることによって、第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することと、
c)第1のカメラビューにおける骨格のセットであって、前記第1のカメラビューにおける前記人間に関連する前記セットを識別することによって、前記最良マッチングを使用して、第2のカメラビューにおける骨格のセットとともに、骨格を群化することと
を含む、方法。
(項目2)
前記カメラビューのあるフレーム内の前記群化された骨格内の各骨格に識別子を割り当てることと、マッチングする前記カメラビューの後続フレーム内の前記群化された骨格内の各骨格に、同一の識別子を割り当てることとをさらに含む、項目1に記載の2つ以上のカメラビューの間の人間を識別する方法。
(項目3)
対のカメラビューからの対の骨格の前記対毎スコア化は、各カメラビューから前記カメラビューと関連付けられる前記2d骨格の要素までの光線をモデル化することと、前記2本の光線間の最小距離を判定することとを含む、項目1または2に記載の2つ以上のカメラビューの間の人間を識別する方法。
(項目4)
前記光線は、発散的であり、前記対は、前記類似性スコア内に含まれない、項目3に記載の方法。
(項目5)
対のカメラビューからの対の骨格の前記対毎スコア化は、前記2本の光線間の前記最小距離が閾値を超過する場合、要素を除外することをさらに含む、項目3に記載の方法。
(項目6)
対のカメラビューからの対の骨格の前記対毎スコア化は、典型的な人間からの前記2d骨格から形成される、推定的3d骨格の属性の偏差を判定することをさらに含む、項目3に記載の方法。
(項目7)
前記カメラの位置および角度を判定することによって、各カメラビューを較正することと、前記1つ以上のカメラビューから同時に捉えられる、フレームを整合させることによって、前記カメラビューを同期させることとをさらに含む、項目1-6のいずれか1項に記載の方法。
(項目8)
第2のカメラビューにおける骨格に対する、第1のカメラビューにおける骨格の最良マッチングを識別することは、任意のマッチングを識別しないことを含む、項目1-7のいずれか1項に記載の方法。
(項目9)
2人以上の人間に関する運動捕捉システムであって、
同期化されたビデオストリームを生成する、2つ以上の較正されたカメラであって、各カメラは、前記2人以上の人間を含む、重複する視野を有する、2つ以上の較正されたカメラと、
前記ビデオストリームのフレームに関して、前記カメラの視野内の人間毎に2D骨格を生成するために、前記2つ以上の較正されたカメラのそれぞれと関連付けられる、2D姿勢推定器モジュールと、
第1のカメラと関連付けられる前記2D骨格毎に、前記2つ以上のカメラの別のものの各2D骨格との対毎スコア化を実施し、各対に対して、類似性スコアを割り当てるためのスコア化モジュールと、
前記対の前記類似性スコアを最大限にすることによって、第2のカメラビューにおける2D骨格に、第1のカメラビューにおける2D骨格をマッチングさせる、マッチングモジュールと、
第1のカメラビューにおける2D骨格のセットであって、前記第1のカメラビューにおける前記人間に関連する前記セットを識別することによって、前記最良マッチングを使用して、第2のカメラビューにおける2D骨格のセットとともに、2D骨格を群化する、群化モジュールと、
各2D骨格群に、前記ビデオストリームのフレームのシーケンスを横断して一貫したままである、識別子を割り当てる、時間マッチングモジュールと、
前記人間の位置を捕捉する、前記人間の3D骨格を作成するために、人間に関するフレームのシーケンスを横断して、前記群化された2D骨格を組み合わせる、3D再構築モジュールと
を備える、システム。
(項目10)
前記スコア化モジュールは、各カメラビューから前記カメラビューと関連付けられる前記2d骨格の要素までの光線のモデルを備え、前記2本の光線間の最小距離を判定することを含む、項目9に記載のシステム。
【図面の簡単な説明】
【0008】
図面では、本開示の実施形態を、実施例としてのみ図示する。
【0009】
図1図1は、ある実施形態による、3つのビデオシーケンスから導出される、2D骨格データの例示的図的記述である。
【0010】
図2図2は、ある実施形態による、2D人間姿勢をマッチングさせるためのシステムのブロック図である。
【0011】
図3図3は、ある実施形態による、対のビューに関する類似性スコアの例示的表と、対毎マッチングモジュールによって生産される、マッチング対である。
【0012】
図4図4は、対毎マッチングの例示的グラフと、それぞれが、一意の人物に対応する群を表す、接続された構成要素またはサイクルである。
【発明を実施するための形態】
【0013】
詳細な説明
本開示は、3D再構築の目的のために、2D骨格の形態で、人間姿勢データをマッチングさせるための方法およびシステムを対象とする。本システムは、類似性スコアを各対のクロスビュー2D骨格に割り当てる、スコア化モジュール20と、類似性スコアに基づいて、最適な対毎マッチングを割り当てる、マッチングモジュール30と、対毎マッチングに基づいて、各群が、一意の人物に対応するように、各2D骨格を群に割り当てる、群化モジュール50と、マルチビデオシーケンスにわたって、各群に同一人物への対応を維持するIDを割り当てる、時間一貫性モジュール60とを備えてもよい。
【0014】
図1を参照すると、2D骨格データ10が、較正されたカメラから捉えられる、2つ以上のビデオシーケンスから抽出される。3D再構築を実施するために、2D骨格は、ビューを横断してマッチングされてもよい。較正されたカメラは、好ましくは、視野、角度、および場所の情報が既知である、カメラである。2つ以上のビデオシーケンスは、好ましくは、ビデオシーケンスのそれぞれが、同一の時間帯を含み、同一の人間/骨格のうちの少なくともいくつかを含むように同期化される。いくつかの事例では、1人以上の人間/骨格は、カメラのうち1つ以上の視野から離れ得る。
【0015】
2D人間姿勢推定器は、2つ以上のビデオシーケンスのそれぞれにおける人間毎に、2D骨格を生成し得る。これは、Wrnch.AIによるもの等を含む、畳み込みニューラルネットワーク(CNN)の使用等、既知の技法を使用して行われ得る。2D骨格のシーケンスは、カメラ毎に、ビデオシーケンスに対応して、提供され得る。
【0016】
図2を参照すると、2Dマッチングシステムは、以下のモジュール、すなわち、対毎スコア化モジュール20と、対毎マッチングモジュール30と、群化モジュール40と、時間一貫性モジュール50とを備え得る。対毎スコア化モジュール20は、類似性スコアをクロスビュー対の2D骨格の可能性として考えられる各組み合わせに割り当て得る。クロスビュー対の2D骨格は、1つの骨格が、第1のビデオシーケンスからのものであり、第2の骨格が、第2のビデオシーケンスからのものである、任意の対の骨格である。所与の対の2D骨格の類似性スコアは、その対が同一の人物に属する、尤度と相関する。好ましい実施形態では、類似性スコアは、下記に説明されるように、クロスビュー特徴点対の「近似三角測量」の概念に基づいた、いくつかのメトリックの加重の合計であり得る。
【0017】
近似三角測量は、2つ特徴点のそれぞれを通して、光線を投影することによって、算出される。2D骨格の特徴点は、頭の中心部、骨盤の中心部、右または左手首等の1つの特定の要素であり得る。ピンホールカメラモデルを仮定すると、各光線は、その場所、角度、および視野等のカメラに関して既知であるパラメータに基づいて、個別のカメラの光心から出ており、仮想の画像平面上の特徴点を通して通過する方向に進むものとして、モデル化される。これは、一方が第1のカメラおよびビデオシーケンスから生じており、もう一方が第2のカメラおよびビデオシーケンスから生じている、比較されている2つの骨格にわたって、同一の特徴点、例えば、頭の中心部に対して行われる。三角測量点は、2本の光線間の最小ユークリッド距離を伴う、3次元における点である。三角測量誤差は、2本の光線間の最小距離であり得る。三角測量点が、カメラの後方にあると判定される場合、光線は、分散され、本点は、スコア算出内で検討されなくてもよい。いくつかの実施形態では、これは、1つを上回る特徴点対に対して行われ得る。
【0018】
1つの類似性スコアメトリックは、所与の対の2D骨格に関する近似三角測量のセットに対する「インライア」特徴点対の総数であり得、この場合、インライア対においては、ある閾値を下回る、三角測量誤差を伴う特徴点対として定義され得る。例えば、対の2D骨格{A,B}は、可能性として考えられる8つのうち7つのインライア対の合計を有し得(左手首関節に対応する対は、高三角測量誤差のため、インライアと見なされない)、別の対の骨格{A,C}は、可能性として考えられる8つのうち6つのインライア対の合計を有し得る(それぞれ、右足首および頭の関節に対応する対は、インライアと見なされない)。本事例では、{A,B}は、加重類似性スコアのインライアメトリックに関して、{A,C}よりも高いスコアをとり得る。別のメトリックは、2つ骨格に属する全ての対の特徴点の平均三角測量誤差であり得る。別のメトリックは、全てのインライア三角測量点から成る、推定的3D骨格再構築の「人間らしさ」であり得る。人間らしさメトリックは、人体測定データに基づいて、平均的人物のものからの、推定的骨格の四肢長の偏差に逆比例し得る。例えば、ミスマッチングされた対の2D骨格から導出された推定的3D骨格は、平均的人物の2倍の長さであり得る、四肢を有し得、したがって、対の正確にマッチングされた骨格よりも低い、人間らしさメトリックを有し得る。
【0019】
図3を参照すると、対毎マッチングモジュール30は、順に、全てのクロスビュー類似性スコア60を調査し得る。換言すると、対の骨格、すなわち、第1のカメラからの第1の骨格および第2のカメラからの第2の骨格毎の類似性スコアである。モジュールは、類似性スコア70を最大限にする、2つのビューにおける2D骨格間の1対1マッチングのセットを見出し得る。これは、ハンガリーアルゴリズム、主要シンプレックスアルゴリズム、またはオークションアルゴリズム等の割当法を使用することによって解決され得る。マッチングが成立しない場合(例えば、2つビューが、人物の共通性のないセットを捕捉するとき)に対処するために、ある実施形態は、その類似性スコアが、閾値を下回るマッチングを抑制し得る。本プロセスは、カメラビューの全ての対に対して繰り返され得る。
【0020】
群化モジュール50は、対毎マッチングのセットを捉え得、2D骨格のN個のセットを出力し、この場合、Nは、場面内の明確に異なる人物の数であり、各セットは、場面内の明確に異なる人物に対応する。図4を参照すると、本群化のための手順は、以下の通りであり得る。無向グラフ80が、最初に構築され得、各2D骨格が、頂点と関連付けられ、各対毎マッチングは、縁である。次いで、グラフは、サブグラフ90にパーティション化され、それによって、各サブグラフの頂点は、同一人物に属する2D骨格を含む。サブグラフは、接続された構成要素、または二重接続された構成要素であり得、これらのサブグラフは、標準深度優先探索法を使用して抽出され得る。
【0021】
時間マッチングモジュール60は、各人物のIDが、ビデオシーケンスにわたって一貫したままであるように、各2D骨格群にIDを割り当て得る。ある実施形態は、カメラパラメータに従って、先の時間ステップから、3D骨格を再投影し、現在の時間ステップにおける、予測される2D骨格のセットを作成することによって、これを達成し得る。先の時間ステップの2D骨格投影から各2D骨格群までのピクセル距離が、算出され得、ハンガリーアルゴリズム等のマッチング法が使用され、ピクセル距離が最小限になるように現存する3D骨格のセットと2D骨格群との間で1対1対応を生成する。2D群は、次いで、現存する3D骨格のインデックスに対応するIDを割り当てられ得る。これは、ビデオシーケンスの各時間ステップに対して持続され得る。
【0022】
説明されるシステムモジュールは、別個のソフトウェアモジュール、別個のハードウェアモジュール、もしくは一部または1つ以上のハードウェア構成要素であってもよい。上記に説明されるモジュールの機能性は、単一のシステム内に実装される、または説明されるモジュールに類似する、または異なる別個のモジュール内で提供され得る。
【0023】
ソフトウェアモジュールは、C++またはアセンブリコード等のコンピュータ言語で書かれた命令から成り、CPU等のコンピュータハードウェア上で起動され得る、またはそれらは、FPGA上で実装され得る。ソフトウェアは、1つ以上のハードドライブ等のRAMまたは磁気記憶装置等の記憶装置を利用し得る。本システムは、デスクトップ型コンピュータ、携帯電話、またはソフトウェア、データ、骨格パラメータを保持するための好適なメモリを含む、別のプラットフォーム上で、起動されてもよい。
【0024】
ある実施形態では、人間マッチングシステムは、リアルタイムにまたは後処理において等、2人以上の人間対象の3D姿勢をデジタル化する、運動捕捉システムの一部を備えてもよい。本デジタル化された姿勢データは、デジタル媒体のため、またはスポーツ分析のためのパフォーマンスキャプチャ等のアプリケーションのために使用されてもよい。2つ以上の較正されたカメラが、同期化され、そのビデオストリームは、ビデオストリーム毎に1つ等、2D姿勢推定器システムによって、捕捉および処理され得る。マッチングシステムは、ネットワークインターフェースまたはコンピュータバスを通して等、2D姿勢推定器から出力2D骨格を受信し得る。マッチングされた2D骨格群は、次いで、場面内の人物毎に2D特徴点を融合し、骨格毎に3D姿勢データを取得する、3D再構築モジュールに提供され得る。
【0025】
本開示の種々の実施形態が、実施例として、このように詳細に説明されているが、本開示から逸脱することなく、変形例および修正が成され得ることは、当業者にとって明らかであろう。本開示は、添付の請求項の範囲内に該当するものとしてそのような全ての変形例および修正を含む。
図1
図2
図3
図4