(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-30
(54)【発明の名称】複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉
(51)【国際特許分類】
G06V 10/82 20220101AFI20230623BHJP
G06T 7/00 20170101ALI20230623BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 660B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022556030
(86)(22)【出願日】2020-03-20
(85)【翻訳文提出日】2022-11-14
(86)【国際出願番号】 IB2020052600
(87)【国際公開番号】W WO2021186222
(87)【国際公開日】2021-09-23
(81)【指定国・地域】
(71)【出願人】
【識別番号】521546728
【氏名又は名称】ヒンジ ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ブラウン, コリン ジョゼフ
(72)【発明者】
【氏名】ジャン, ウェンシン
(72)【発明者】
【氏名】ワン, ダレイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096CA05
5L096FA67
5L096GA30
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
マーカレス運動捕捉のための装置のある実施例が提供される。本装置は、異なる視点から対象の画像を捕捉するためのカメラを含む。加えて、本装置は、画像を受信するための姿勢推定エンジンを含む。各姿勢推定エンジンは、受信された画像の粗い骨格を生成するためのものであり、粗い骨格に基づいて、画像の領域を識別するためのものである。さらに、本装置は、以前に識別された着目領域を受信するための姿勢推定エンジンを含む。これらの姿勢推定エンジンのそれぞれは、着目領域の細かい骨格を生成するためのものである。加えて、本装置は、骨格全体を生成するための取着エンジンを含む。各骨格全体は、粗い骨格に取着される細かい骨格を含むためのものである。本装置はさらに、骨格全体を受信するための集約器を含む。集約器は、骨格全体から3次元骨格を生成するためのものである。
【特許請求の範囲】
【請求項1】
装置であって、
対象の第1の画像を捕捉するための第1のカメラと、
前記第1の画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記第1の画像の第1の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記第1の粗い骨格に基づいて、前記第1の画像の第1の領域を識別する、第1の姿勢推定エンジンと、
前記第1の領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記第1の画像の第1の領域の第1の細かい骨格を生成する、第2の姿勢推定エンジンと、
第1の骨格全体を生成するための第1の取着エンジンであって、前記第1の骨格全体は、前記第1の粗い骨格に取着される、前記第1の細かい骨格を含む、第1の取着エンジンと、
前記対象の第2の画像を捕捉するための第2のカメラであって、前記第2の画像は、前記第1のカメラと異なる視点から捕捉される、第2のカメラと、
前記第2の画像を受信するための第3の姿勢推定エンジンであって、前記第3の姿勢推定エンジンは、前記第1の画像の第2の粗い骨格を生成し、前記第3の姿勢推定エンジンはさらに、前記第2の粗い骨格に基づいて、前記第2の画像の第2の領域を識別する、第3の姿勢推定エンジンと、
前記第2の領域を受信するための第4の姿勢推定エンジンであって、前記第4の姿勢推定エンジンは、前記第2の画像の第2の領域の第2の細かい骨格を生成する、第4の姿勢推定エンジンと、
第2の骨格全体を生成するための第2の取着エンジンであって、前記第2の骨格全体は、前記第2の粗い骨格に取着される、前記第2の細かい骨格を含む、第2の取着エンジンと、
前記第1の骨格全体および前記第2の骨格全体を受信するための集約器であって、前記集約器は、前記第1の骨格全体および前記第2の骨格全体から、3次元骨格を生成する、集約器と
を備える、装置。
【請求項2】
前記第1の姿勢推定エンジンによって生成される、前記第1の粗い骨格は、前記対象の身体を表す、請求項1に記載の装置。
【請求項3】
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項2に記載の装置。
【請求項4】
前記第2の姿勢推定エンジンによって生成される、前記第1の細かい骨格は、前記対象の手を表す、請求項3に記載の装置。
【請求項5】
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項4に記載の装置。
【請求項6】
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格をスケーリングするためのものである、請求項1-5のいずれか1項に記載の装置。
【請求項7】
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格を平行移動させるためのものである、前請求項1-6のいずれか1項に記載の装置。
【請求項8】
前記第1の姿勢推定エンジンは、前記第1の粗い骨格を生成するために、前記第1の画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第1の画像を使用するためのものである、請求項1-9のいずれか1項に記載の装置。
【請求項9】
前記第3の姿勢推定エンジンによって生成される、前記第2の粗い骨格は、前記対象の身体を表す、請求項1-8のいずれか1項に記載の装置。
【請求項10】
前記第2の姿勢推定エンジンによって生成される、前記第2の細かい骨格は、前記対象の手を表す、請求項9に記載の装置。
【請求項11】
前記第2の取着エンジンは、前記第2の粗い骨格と組み合わせるために、前記第2の細かい骨格をスケーリングするためのものである、請求項1-10のいずれか1項に記載の装置。
【請求項12】
前記第2の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第2の細かい骨格を平行移動させるためのものである、請求項1-11のいずれか1項に記載の装置。
【請求項13】
前記第3の姿勢推定エンジンは、前記第2の粗い骨格を生成するために、前記第2の画像の分解能を低減させるためのものであり、前記第4の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第2の画像を使用するためのものである、請求項1-12のいずれか1項に記載の装置。
【請求項14】
装置であって、
対象の画像を捕捉するためのカメラと、
前記画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記画像の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記粗い骨格に基づいて、前記画像の領域を識別する、第1の姿勢推定エンジンと、
前記領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記画像の領域の細かい骨格を生成する、第2の姿勢推定エンジンと、
骨格全体を生成するための取着エンジンであって、前記骨格全体は、前記粗い骨格に取着される、前記細かい骨格を含む、取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、3次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
【請求項15】
前記第1の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、請求項14に記載の装置。
【請求項16】
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項15に記載の装置。
【請求項17】
前記第2の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、請求項16に記載の装置。
【請求項18】
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項17に記載の装置。
【請求項19】
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、請求項14-18のいずれか1項に記載の装置。
【請求項20】
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、請求項14-19のいずれか1項に記載の装置。
【請求項21】
前記第1の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、請求項14-20のいずれか1項に記載の装置。
【請求項22】
装置であって、
複数の外部ソースから複数の骨格全体を受信するための通信インターフェースであって、前記複数の骨格全体のそれぞれの骨格全体は、粗い骨格に取着される、細かい骨格を含む、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、3次元骨格を生成するためのものである、集約器と
を備える、装置。
【請求項23】
前記集約器は、3次元関節を生成するために、第1の骨格全体の第1の関節と第2の骨格全体の第2の関節を組み合わせるためのものである、請求項22に記載の装置。
【請求項24】
前記3次元関節は、手関節を表す、請求項23に記載の装置。
【請求項25】
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記細かい骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
【請求項26】
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを適用することを含む、請求項25に記載の方法。
【請求項27】
前記着目領域の前記細かい骨格を生成することは、前記着目領域内の前記手関節位置を推測するために、第2の畳み込みニューラルネットワークを適用することを含む、請求項26に記載の方法。
【請求項28】
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、請求項25-27のいずれか1項に記載の方法。
【請求項29】
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、請求項25-28のいずれか1項に記載の方法。
【請求項30】
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、請求項25-29のいずれか1項に記載の方法。
【請求項31】
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第1のカメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性のコンピュータ可読媒体。
【請求項32】
前記コードは、前記画像内の身体関節位置を推測するために第1の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、請求項31に記載の非一過性コンピュータ可読媒体。
【請求項33】
前記コードは、前記着目領域内の前記手関節位置を推測するために第2の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、請求項32に記載の非一過性コンピュータ可読媒体。
【請求項34】
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサに指示する、請求項31-33のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項35】
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサに指示する、請求項31-34のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項36】
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、請求項31-35のいずれか1項に記載の非一過性コンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
運動捕捉は、人、動物、または物体の移動を記録することを伴う、一般的な分野である。運動捕捉は、映画、ビデオゲーム、エンターテインメント、生体力学、訓練映像、スポーツシミュレータ、および他の技術における、コンピュータ生成イメージ等、種々の用途で使用され得る。従来から、人物の手の指を伴う等、細かい移動の運動捕捉は、細かい運動を遂行する、対象の部分上に、マーカを取着することによって遂行される。マーカは、運動の容易な追跡を可能にするために、関節部分だけではなく、関節の間等、具体的な場所に設置され得る。使用されるマーカは、特に限定されず、画像処理のために、カメラシステムがマーカを容易に識別することを可能にする、アクティブまたはパッシブマーカを伴い得る。いくつかの実施例では、マーカは、手袋または衣類の一部等の装着可能装置上に、予め位置付けられ得る。
【発明の概要】
【課題を解決するための手段】
【0002】
対象に取着されるマーカを使用した、運動捕捉技法は、公知である。加えて、運動捕捉が、マーカを使用することなく遂行される、マーカレス運動捕捉システムも、人気が高まりつつある。マーカレス運動捕捉技法は、自然なままの体験を提供し、対象は、それに取着されるマーカによって運動を限定されない。例えば、マーカは、結果としてエラーをもたらし得る、環境または他のマーカと衝突し得る。特に、マーカを使用した人物の運動捕捉に関して、マーカは、典型的には、人物に対してカスタムされたサイズである、特殊スーツ上に埋設される。加えて、スーツは、同時に捕捉するために望ましいものであり得る、コスチュームまたは他の扮装具の着用を不可能にし得る。さらに、マーカは、確実に検出されるように、赤外線等の特殊照明を使用し得る。マーカレス運動捕捉は、対象が、多種多様なコスチュームを着用することを可能にし、より少ない実装するべきハードウェアを使用する。しかしながら、マーカレス運動捕捉は、典型的には、より低い忠実性を有し、マーカシステムを使用した運動捕捉システムよりも少ない関節を追跡することしかできない。
【0003】
特に、対象のマーカレス運動捕捉は、運動捕捉が、対象全体であるとき、対象のより小さな部分を追跡することが困難であり得る。例えば、運動捕捉の対象が、人間対象である場合、手の移動は、それらが、そのようなより小規模ベースであるため、捕捉することが困難であり得る。一般的に、人間対象の手は、非常に細かく、対象の運動に有意に寄与する。特に、手は、多くの場合、環境内の物体を操作するために使用され得る。故に、手の運動捕捉が正確ではない場合、人間対象の移動は、不自然であるように現れ得る。
【0004】
複数の姿勢推定エンジンを使用した手のマーカレス運動捕捉を提供する方法に従って、システム内でともに動作する、種々の装置が、提供される。本システムは、複数のビューを処理する、複数のコンピュータビジョンベースの姿勢推定エンジンを使用し、マーカレス運動捕捉プロセスを使用して、人間対象の手の運動を捕捉し得る。特に、本システムは、全体として、対象に関する姿勢を生成し、メイン画像から抽出される、手等の対象の一部に関する付加的な姿勢推定を実施し得る。
【0005】
本説明において、下記に議論される装置および方法は、概して、人間対象の手に焦点を絞って、人間対象に適用される。下記に説明される実施例が、顔の表情を捕捉すること等、人間対象の他の部分に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。加えて、捕捉されるべき細かい複雑な移動に従事する、対象の小さな部分を有する、動物および機械等の他の対象も、同様に想定される。
【0006】
図1を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、50に示される。装置50は、装置50のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび/または入力/出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置50またはその中で装置が動作するシステムの動作状態を視認すること、装置50のパラメータを更新すること、または装置50をリセットすることを含み得る。本実施例では、装置50は、運動捕捉のための画像または映像を捕捉し、着目領域内に、人間対象上の手等の細かい詳細を伴う骨格を生成するためのものである。本実施例では、装置50は、カメラ55と、第1の姿勢推定エンジン60と、第2の姿勢推定エンジン65と、取着エンジン70と、通信インターフェース75とを含む。
【0007】
本実施例では、装置50はまた、装置50およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る、メモリ記憶ユニット(図示せず)を含み得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。他の実施例では、装置50は、プロセッサに指示するための外部サーバ等、別個のソースからの命令を受信し得る。さらなる実施例では、装置50の各構成要素は、任意の中央制御から独立して動作する、単独の構成要素であり得る。
【図面の簡単な説明】
【0008】
ここで、単に実施例として、付随の図面が参照されるであろう。
【0009】
【
図1】
図1は、マーカレス運動捕捉のための例示的装置の構成要素の概略描写である。
【0010】
【
図2】
図2は、マーカレス運動捕捉のための別の例示的装置の構成要素の概略描写である。
【0011】
【
図3】
図3は、外部ソースから、関節回転を推測するための例示的システムの描写である。
【0012】
【
図4】
図4は、マーカレス運動捕捉の方法の実施例のフローチャートである。
【発明を実施するための形態】
【0013】
詳細な説明
カメラ55は、画像または映像の形態で、データを収集するためのものである。特に、カメラ55は、運動中の対象の画像を捕捉するための高分解能デジタル映像レコーダであり得る。本実施例では、映像は、規定されたフレームレートで捕捉された画像の集合であり得る。故に、映像の各フレームまたは画像が、運動捕捉中に、別個に処理され、処理後に再度組み合わせられ、運動捕捉を提供し得ることが、本説明から利益を享受する当業者によって理解されるであろう。いくつかの実施例では、フレームは、1つおきのフレームまたは数個おきのフレーム等、運動捕捉のためのより遅いレートでサンプリングされ、算出リソースに関する需要を低減させ得る。例えば、カメラ55は、人間対象の画像を捕捉し得る。いくつかの実施例では、カメラ55は、ステージ上またはスポーツアリーナ内等、具体的な対象の運動に追従するための運動追跡を含み得る。カメラ55は、特に限定されず、カメラ55が画像を捕捉する様式も、限定されない。例えば、カメラ55は、光信号を検出するために、相補型金属酸化膜半導体を有する、アクティブピクセルセンサ上に光を集束させるための種々の光学的構成要素を含み得る。他の実施例では、光学系が、電荷結合素子上に光を集束させるために使用され得る。
【0014】
姿勢推定エンジン60は、処理のためにカメラ55から画像を受信するために、カメラ55と通信する。姿勢推定エンジン60が、複数の画像または映像データを受信し得ることが、本説明から利益を享受する当業者によって理解されるはずである。姿勢推定エンジン60において受信された画像は、画像内の対象の粗い骨格を生成するために使用され得る。本実施例では、画像は、人間対象の2次元表現を含み得る。故に、姿勢推定エンジン60は、接続された関節を有する、人間対象の身体の骨格を生成し得る。故に、各関節は、近似回転を有する、人間対象上の解剖学的場所または目印を表し得る。例えば、骨格内の関節は、肘、肩、膝、股関節等を表し得る。
【0015】
いくつかの実施形態では、姿勢推定エンジン60はまた、カメラ55によって捕捉される画像の分解能を低減させ、装置50の性能を増加させ得る。例えば、カメラ55によって捕捉される画像が、高分解能画像である場合、画像データは、512×384等のより低い分解能にスケーリングダウンされ得、これは、粗い骨格を生成するために十分であり得る。
【0016】
姿勢推定エンジン60が骨格を生成する様式は、限定されず、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン60が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン60は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン60は、骨格を生成し、関節の位置および回転を推測するために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。他の実施例では、完全畳み込みモデルまたはランダムフォレスト等の他の機械モデルを含む畳み込みニューラルネットワーク、他の深層ニューラルネットワーク、再帰ニューラルネットワーク、もしくは他の時間的モデル等、人間身体の一部の類似性を検出し、場所を特定するための特徴を表すことが可能である、他の機械学習モデルが、人間姿勢推定のために使用され得る。
【0017】
姿勢推定エンジン60が、最初に、着目領域(ROI)を検出し、次いで、各ROI内の人間骨格等の詳細を推測する、Mask-R-CNNタイプモデル等のトップダウンアーキテクチャ、入力画像全体を横断して関節を検出し、次いで、人間内に関節をクラスタ化する、VGG19等のボトムアップアーキテクチャ、またはハイブリッド型アーキテクチャ等の他のアーキテクチャである、モデルを使用し得ることが、当業者によって理解されるはずである。姿勢推定エンジン60は、異なる種類の関節の検出を表す、異なるマップ上、または関節座標のベクトル等の他の表現内において、ピークを伴うヒートマップとして、関節を推測し得る。姿勢推定エンジン60はまた、骨の類似性マップ等の他のマップ、またはインスタンスマスクおよびパーツマスク等の他のマップを出力し得、これは、骨格内の関節のクラスタ化を支援するために使用され得る。本実施例では、姿勢推定エンジン60はさらに、着目に値する、カメラ55から受信された2次元画像内の領域を特定する。着目領域は、特に限定されず、自動的に選択される、またはユーザ等の外部ソースから受信された入力に基づいて、選択され得る。着目領域が選択される様式は、特に限定されない。画像内の人間対象の本実施例を続けると、着目領域の位置が、左または右手首関節等の他の既知の関節の推測された場所、ならびに/もしくは前腕の推測される方向を与えられた、手のひらの中心の典型的な場所等、他の情報、予備知識、学習された機能または経験則に基づいて、自動的に選択され得る。着目される領域のサイズもまた、例えば、人物全体の推測される身長、および人物の身長と比較した、手の典型的な相対的サイズ、または推測される前腕の長さ等の関連情報、学習された機能、または経験則に基づいて、自動的に選択され得る。他の実施例では、着目領域は、顔面等の細かい詳細を伴う人間姿勢の別の部分であり得る。本実施例では、姿勢推定エンジン60は、画像内の境界を定義することによって、領域を識別する。他の実施例では、姿勢推定エンジン60は、元画像をクロッピングし、より小さい画像を生成してもよい。
【0018】
姿勢推定エンジン65は、カメラ55によって最初に捕捉された画像の着目領域を受信するために、姿勢推定エンジン60と通信する。いくつかの実施例では、姿勢推定エンジン65は、画像をカメラ55から直接受信し、姿勢推定エンジン60から着目領域の境界定義を受信し得る。特に、例えば、姿勢推定エンジン60が、元画像の分解能を低減させる場合、姿勢推定エンジン65は、フル分解能で元画像を受信し、姿勢推定エンジン60から受信された境界に基づいて、着目領域をクロッピングする。他の実施例では、姿勢推定エンジン65は、姿勢推定エンジン60からクロッピングされた画像を受信してもよい。姿勢推定エンジン65は、着目領域内の対象の一部の細かい骨格を生成するためのものである。上記の実施例を続けると、着目領域は、手等の人間対象の一部の2次元表現である。故に、姿勢推定エンジン60は、接続された関節を有する手の骨格を生成し得る。故に、各関節は、近似回転を有する、手のある点を表し得る。例えば、骨格内の関節は、指骨間関節、中手指節関節、または手首内等の関節の組み合わせを表し得る。
【0019】
姿勢推定エンジン65が細かい骨格を生成する様式は、限定されず、姿勢推定エンジン60のように対象全体に適用される代わりに、着目領域上のみに適用される、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン60が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン60は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン65は、姿勢推定エンジン60と同様に動作され、骨格を生成し、関節の位置および回転を割り当てるために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、別の畳み込みニューラルネットワークが使用され、クロッピングされた画像に適用されてもよい。ニューラルネットワークの適用を画像の一部に限定することによって、より多くの詳細が、画像から抽出され得、それによって、手の中の個々の関節が、識別または推測され、運動捕捉を改良し得ることが、本説明から利益を享受する当業者によって理解されるはずである。
【0020】
取着エンジン70は、姿勢推定エンジン60によって生成される粗い骨格、および姿勢推定エンジン65によって生成される細かい骨格から、骨格全体を生成するためのものである。取着エンジン70が骨格全体を生成する様式は、特に限定されない。例えば、細かい骨格は、着目領域によって定義される対象の一部を表し得る。本実施例では、取着エンジン70は、姿勢推定エンジン60によって生成される粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、姿勢推定エンジン65によって生成される、細かい骨格を伴う部分に置換し得る。
【0021】
取着エンジン70はまた、細かい骨格から粗い骨格への遷移を平滑化し得る。取着エンジン70によって遂行される平滑化機能は、姿勢推定エンジン65および姿勢推定エンジン60を使用する、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに、それぞれ、不連続点を作成する場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。取着エンジン70によって遂行される平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。
【0022】
姿勢推定エンジン60が、複数の着目領域を識別し得ることが、本説明から利益を享受する当業者によって理解されるはずである。例えば、姿勢推定エンジン60は、人間対象上の2つの手を識別し得る。加えて、姿勢推定エンジン60はまた、顔面、足、または脊椎を識別し得る。さらに、姿勢推定エンジン60は、指または顔特徴(例えば、目または唇)等のサブ着目領域を識別し得る。いくつかの実施例では、各着目領域は、姿勢推定エンジン65によって、順に処理されてもよい。他の実施例では、着目領域は、姿勢推定エンジン65によって、並行して処理されてもよい。他の実施例はまた、付加的な姿勢推定エンジン(図示せず)を含んでもよく、付加的な姿勢推定エンジンは、付加的な着目領域を並行して処理するために使用され得る。そのような実施例では、各姿勢推定エンジンは、人間対象の手等の具体的なタイプの着目領域に特殊化され得る。
【0023】
通信インターフェース75は、それに取着エンジン70によって生成される骨格全体を表すデータが伝送される、集約器と通信する。本実施例では、通信インターフェース75は、WiFiネットワークまたはセルラーネットワーク等、多数の接続されたデバイスと共有される、パブリックネットワークであり得る、ネットワークを経由して、集約器と通信してもよい。他の実施例では、通信インターフェース75は、イントラネット、または他のデバイスとの有線接続等のプライベートネットワークを介して、データを集約器に伝送してもよい。
【0024】
本実施例では、骨格全体は、カメラ55によって捕捉される画像内の対象の2次元表現である。集約器は、異なる観点において捕捉された画像から生成される2次元骨格全体等の付加的なデータとともに、取着エンジン70によって生成される骨格全体を使用し、画像内の対象の3次元骨格を生成し得る。故に、集約器は、複数の視点または観点から骨格を統合し、種々の3次元結像技法を使用して、3次元骨格を生成し得る。したがって、いったん3次元骨格が形成されると、3次元骨格は、概して粗い骨格においては捕捉されない、詳細なレベルまで、着目領域内の詳細を捕捉し得る。
【0025】
本実施例では、3次元骨格は、異なる観点から捕捉される画像データから生成される、対象の2次元骨格全体からの対応する点を三角測量することによって、算出され得る。集約器は、異なる観点からの画像データから生成される、2次元骨格全体の関節位置のノイズのある、または誤った測定および推測を破棄するために、ランダムサンプルコンセンサス(RANSAC)もしくは他の類似技法等の外れ値棄却技法を採用し得る。外れ値棄却技法は、外れ値の棄却方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。三角測量は、確率的フレームワーク内の現在および過去の測定値を組み合わせる、カルマンフィルタフレームワークの一環として、算出されてもよい、または代数的アプローチまたは訓練された機械学習モデルを用いる等、他の方法で算出されてもよい。加えて、三角測量はまた、異なる観点からの画像データから生成される、複数の骨格から、3次元位置および回転の算出方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。
【0026】
集約器はまた、複数の対象の場合、同一人物に対応するように、異なる観点から捕捉される画像からの骨格をマッチングさせる方法を決定するために、マッチング技法を採用し得る。異なる画像データから対象をマッチングするために、マッチング技法は、種々の経験則または機械学習モデルを採用し得、各ビューからの個別画像から導出される情報等、位置および速度、または関節、もしくは外見特徴等の骨格特徴を活用し得る。
【0027】
本実施例は、集約器によって使用される骨格全体が、細かい骨格が粗い骨格に取着されることになる同様の様式で生成されることを想定するが、他の実施例は、集約器によって受信された付加的なデータ内では、細かい骨格を生成しない場合がある。例えば、集約器は、着目領域内の細かい特徴を伴う、一次骨格全体を使用し得るが、3次元骨格は、付加的な粗い骨格のみを伴って生成され得る。そのような実施例では、細かい骨格が各観点に対して生成されないため、本システムのための算出リソースは、低減され得る。
【0028】
本実施例では、通信インターフェース75が、データを集約器に伝送する様式は、限定されず、集約器への有線接続を介して、電気信号を伝送することを含み得る。他の実施例では、通信インターフェース75は、ルータまたは中央コントローラ等の中継デバイスを伴い得る、インターネットを介して、無線で集約器に接続され得る。さらなる実施例では、通信インターフェース75は、Bluetooth(登録商標)接続、無線信号、または赤外線信号等の無線信号を伝送および受信し、その後、付加的なデバイスに中継するための無線インターフェースであり得る。
【0029】
図2を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、80に示される。装置80は、装置80のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび/または入力/出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置80またはその中で装置が動作するシステムの動作状態を視認すること、装置80のパラメータを更新すること、または装置80をリセットすることを含み得る。本実施例では、装置80は、3次元骨格を形成するために、装置50等の複数のデバイスと相互作用し、3次元運動捕捉を提供するためのものである。装置80は、通信インターフェース85と、メモリ記憶ユニット90と、集約器95とを含む。
【0030】
通信インターフェース85は、装置50等の外部ソースと通信するためのものである。本実施例では、通信インターフェース85は、取着エンジン70によって、粗い骨格と細かい骨格を組み合わせることによって生成される、骨格全体を表すデータを受信するためのものである。通信インターフェース85は、複数の装置50と通信し得、各装置50は、対象を捕捉するために、異なる観点で配置される。本実施例では、通信インターフェース85は、WiFiネットワークまたはセルラーネットワークを経由して等、上記に説明される通信インターフェース75と同様の様式で、装置50と通信し得る。他の実施例では、通信インターフェース85は、イントラネット、または他の中継デバイスとの無線接続等のプライベートネットワークを介して、装置50からデータを受信し得る。
【0031】
メモリ記憶ユニット90は、通信インターフェース85を介して、装置50から受信されたデータを記憶するためのものである。特に、メモリ記憶ユニット90は、映像内の対象の運動捕捉のために組み合わせられ得る、複数の骨格全体を記憶し得る。複数の観点からの骨格全体が、通信インターフェース85を介して受信される実施例では、メモリ記憶ユニット90が、データベース内の粗い特徴および細かい特徴を伴う骨格全体を記憶および編成するために使用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。
【0032】
本実施例では、メモリ記憶ユニット90は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含み得る。装置50または他のデータ収集デバイスから受信されたデータに加えて、メモリ記憶ユニット90は、集約器95等、装置80およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る。特に、メモリ記憶ユニット90は、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置80に、一般的な機能性、例えば、種々のアプリケーションをサポートするための機能性を提供し得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。さらに、メモリ記憶ユニット90はまた、ディスプレイおよび他のユーザインターフェース等、装置80の他の構成要素および周辺デバイスを動作させるための制御命令を記憶し得る。
【0033】
集約器95は、メモリ記憶ユニット90と通信し、少なくとも1つの2次元骨格全体を、異なる観点からの異なる2次元骨格全体等の付加的なデータと組み合わせ、画像の対象を表す3次元骨格を生成するためのものである。複数の3次元骨格を時間の関数として組み合わせることによって、経時的に対象の運動を捕捉する。集約器95が組み合わせ得る、装置50によって生成される骨格全体の数が、限定されないことを理解されたい。
【0034】
集約器95が2次元骨格を組み合わせる様式は、特に限定されない。本実施例では、各骨格全体は、複数の姿勢推定エンジンからの結果を組み合わせることによって生成される、細かい特徴と、粗い特徴とを含む。2次元骨格全体のうちの1つにおける関節は、別の2次元骨格全体における対応する関節と相関し得、それによって、他の2次元骨格全体は、3次元骨格を形成するために、組み合わせられ、融合され得る。そこから2次元骨格のそれぞれが把握される位置を把握することによって、立体視技法が、2次元骨格全体に基づいて、3次元骨格全体を三角測量するために使用され得る。
【0035】
故に、細かい特徴と粗い特徴とを有する、複数の2次元骨格全体を組み合わせることによって、3次元骨格は、対象の運動を捕捉し得る。対象全体の運動捕捉は、より自然に現れる。特に、3次元骨格内の粗い関節だけではなく、手および指等の細かい関節の運動も、捕捉され、3次元で自然に回転され得る。いくつかの実施例では、関節および/または回転はさらに、ノイズを低減させるために、平滑化される、またはカルマンフィルタ等のフィルタリング技法を使用して、フィルタリングされ得る。
【0036】
図3を参照すると、コンピュータネットワークシステムの概略描写が、概して、100に示される。システム100が、純粋に例示的であることを理解されたく、様々なコンピュータネットワークシステムが想定されることが、当業者にとって明白であろう。システム100は、装置80と、ネットワーク110によって接続される、複数の装置50-1および50-2とを含む。ネットワーク110は、特に限定されず、インターネット、イントラネットまたはローカルエリアネットワーク、携帯電話ネットワーク、もしくはこれらのタイプのネットワークのいずれかの組み合わせ等、任意のタイプのネットワークを含み得る。いくつかの実施例では、ネットワーク110はまた、ピアツーピアネットワークを含み得る。
【0037】
本実施例では、装置50-1および装置50-2は、限定されず、着目領域内の粗い詳細だけではなく、細かい詳細も推測される、2段階姿勢推定プロセスを使用して、骨格全体を生成するために使用される、任意のタイプの画像捕捉および処理デバイスであり得る。装置50-1および装置50-2は、そこから3次元骨格が生成される、骨格全体を提供するために、ネットワーク110を経由して、装置50と通信する。
【0038】
故に、装置50-1は、実質的に、装置50-2に類似し、装置50と関連して、上記に説明される構成要素を含み得る。装置50-1および装置50-2はそれぞれ、対象を捕捉するために、異なる観点において搭載され、位置付けられてもよい。故に、装置50-1および装置50-2はそれぞれ、ネットワーク110を介して、装置80内の集約器95に伝送されることになる、対象の2次元骨格を生成し得る。
【0039】
図4を参照すると、マーカを使用することなく、3次元運動を捕捉する例示的方法のフローチャートが、概して、500に示される。方法500の解説を支援するために、方法500が、システム100によって実施され得ると仮定されたい。実際に、方法500は、システム100が構成され得る、1つの方法であり得る。さらに、方法500に関する以下の議論は、システム100ならびに装置50-1、装置50-2、および装置80等のその構成要素のさらなる理解につながり得る。加えて、方法500が、示されるような正確なシーケンスで実施されなくてもよく、種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調される。
【0040】
ブロック510を起点として、装置50-1は、カメラを使用して、対象の画像を捕捉する。本実施例では、装置50-2が、異なる観点において搭載されたカメラを使用して、同一対象の画像を捕捉するために、並行して動作させ得ることを理解されたい。
【0041】
次いで、ブロック520において、粗い骨格が、ブロック510において捕捉された画像から生成され得る。装置50-1および装置50-2が並行して動作する実施例では、別個の粗い骨格が、生成され得る。本実施例では、ブロック520において生成される粗い骨格は、2次元で、対象の身体全体を表し得る。故に、対象のより細かい詳細が、個別の姿勢推定エンジンによって、有意に詳細に処理されない場合があることを理解されたい。粗い骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を画像に適用し得る。機械学習技法は、粗い骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。さらに、画像の処理を遂行するための算出負荷を低減させるために、元画像の分解能が、この段階で、低減されてもよい。代替として、粗い骨格を生成するために、各フレームを処理することの代わりに、フレームのサンプルが、処理されてもよい。
【0042】
ブロック530は、ブロック510によって捕捉された元画像内の着目領域を識別することを伴う。着目領域は、ブロック520において生成される粗い骨格に基づいて、識別され得る。例えば、特徴認識プロセスは、細かい骨格が生成される、潜在的な着目領域を識別するために、粗い骨格上で遂行され得る。具体的な実施例として、対象が人間である場合、粗い骨格の手が、着目領域として認識されてもよい。
【0043】
着目領域の識別に応じて、着目領域の細かい骨格が、ブロック540において生成されることになる。細かい骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を元画像のクロッピングされた部分に適用し得る。ブロック520の実行が画像の分解能を低減させる実施例では、元の分解能の画像が、着目領域のより多くの詳細を捕捉するために使用され得ることを理解されたい。機械学習技法は、細かい骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。
【0044】
次いで、ブロック550は、骨格全体を形成するために、ブロック520において生成された粗い骨格に、ブロック540において生成された細かい骨格を取着することを含む。細かい骨格が粗い骨格に取着される様式は、特に限定されない。本実施例では、取着エンジン70は、ブロック520において生成された粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、ブロック540において生成された、細かい骨格を伴う部分に置換し得る。
【0045】
さらに、取着エンジン70等によるブロック550の実行は、細かい骨格から粗い骨格への遷移を平滑化することを伴い得る。平滑化機能は、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに不連続点を作成させる場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。
【0046】
ブロック560は、3次元骨格を形成するために、付加的なデータとともに、ブロック550において生成された骨格全体を集約する。例えば、複数の観点からの2次元骨格全体は、種々の3次元結像技法を使用して、3次元骨格を生成するために使用され得る。本実施例では、付加的な2次元骨格は、ブロック560の実行の際に使用される付加的なデータであり得る。他の実施例では、他のタイプのデータが、2次元骨格全体内の深度を推定するために使用され得る。
【0047】
上記に提供される、種々の実施例の特徴および側面が、本開示の範囲内にある、さらなる実施例内に組み合わせられ得ることを認識されたい。
【手続補正書】
【提出日】2023-03-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
装置であって、
対象の第1の画像を捕捉するための第1のカメラと、
前記第1の画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記第1の画像の第1の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記第1の粗い骨格に基づいて、前記第1の画像の第1の領域を識別する、第1の姿勢推定エンジンと、
前記第1の領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記第1の画像の第1の領域の第1の細かい骨格を生成する、第2の姿勢推定エンジンと、
第1の骨格全体を生成するための第1の取着エンジンであって、前記第1の骨格全体は、前記第1の粗い骨格に取着される、前記第1の細かい骨格を含む、第1の取着エンジンと、
前記対象の第2の画像を捕捉するための第2のカメラであって、前記第2の画像は、前記第1のカメラと異なる視点から捕捉される、第2のカメラと、
前記第2の画像を受信するための第3の姿勢推定エンジンであって、前記第3の姿勢推定エンジンは、前記第
2の画像の第2の粗い骨格を生成し、前記第3の姿勢推定エンジンはさらに、前記第2の粗い骨格に基づいて、前記第2の画像の第2の領域を識別する、第3の姿勢推定エンジンと、
前記第2の領域を受信するための第4の姿勢推定エンジンであって、前記第4の姿勢推定エンジンは、前記第2の画像の第2の領域の第2の細かい骨格を生成する、第4の姿勢推定エンジンと、
第2の骨格全体を生成するための第2の取着エンジンであって、前記第2の骨格全体は、前記第2の粗い骨格に取着される、前記第2の細かい骨格を含む、第2の取着エンジンと、
前記第1の骨格全体および前記第2の骨格全体を受信するための集約器であって、前記集約器は、前記第1の骨格全体および前記第2の骨格全体から、3次元骨格を生成する、集約器と
を備える、装置。
【請求項2】
前記第1の姿勢推定エンジンによって生成される、前記第1の粗い骨格は、前記対象の身体を表す、請求項1に記載の装置。
【請求項3】
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項2に記載の装置。
【請求項4】
前記第2の姿勢推定エンジンによって生成される、前記第1の細かい骨格は、前記対象の手を表す、請求項3に記載の装置。
【請求項5】
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項4に記載の装置。
【請求項6】
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格をスケーリングするためのものである、請求項1
~5のいずれか1項に記載の装置。
【請求項7】
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格を平行移動させるためのものである、前請求項1
~5のいずれか1項に記載の装置。
【請求項8】
前記第1の姿勢推定エンジンは、前記第1の粗い骨格を生成するために、前記第1の画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第1の画像を使用するためのものである、請求項1
~5のいずれか1項に記載の装置。
【請求項9】
前記第3の姿勢推定エンジンによって生成される、前記第2の粗い骨格は、前記対象の身体を表す、請求項1
~5のいずれか1項に記載の装置。
【請求項10】
前記第2の姿勢推定エンジンによって生成される、前記第2の細かい骨格は、前記対象の手を表す、請求項9に記載の装置。
【請求項11】
前記第2の取着エンジンは、前記第2の粗い骨格と組み合わせるために、前記第2の細かい骨格をスケーリングするためのものである、請求項1
~5のいずれか1項に記載の装置。
【請求項12】
前記第2の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第2の細かい骨格を平行移動させるためのものである、請求項1
~5のいずれか1項に記載の装置。
【請求項13】
前記第3の姿勢推定エンジンは、前記第2の粗い骨格を生成するために、前記第2の画像の分解能を低減させるためのものであり、前記第4の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第2の画像を使用するためのものである、請求項1
~5のいずれか1項に記載の装置。
【請求項14】
装置であって、
対象の画像を捕捉するためのカメラと、
前記画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記画像の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記粗い骨格に基づいて、前記画像の領域を識別する、第1の姿勢推定エンジンと、
前記領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記画像の領域の細かい骨格を生成する、第2の姿勢推定エンジンと、
骨格全体を生成するための取着エンジンであって、前記骨格全体は、前記粗い骨格に取着される、前記細かい骨格を含む、取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、3次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
【請求項15】
前記第1の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、請求項14に記載の装置。
【請求項16】
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項15に記載の装置。
【請求項17】
前記第2の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、請求項16に記載の装置。
【請求項18】
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項17に記載の装置。
【請求項19】
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、請求項14
~18のいずれか1項に記載の装置。
【請求項20】
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、請求項14
~18のいずれか1項に記載の装置。
【請求項21】
前記第1の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、請求項14
~18のいずれか1項に記載の装置。
【請求項22】
装置であって、
複数の外部ソースから複数の骨格全体を受信するための通信インターフェースであって、前記複数の骨格全体のそれぞれの骨格全体は、粗い骨格に取着される、細かい骨格を含む、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、3次元骨格を生成するためのものである、集約器と
を備える、装置。
【請求項23】
前記集約器は、3次元関節を生成するために、第1の骨格全体の第1の関節と第2の骨格全体の第2の関節を組み合わせるためのものである、請求項22に記載の装置。
【請求項24】
前記3次元関節は、手関節を表す、請求項23に記載の装置。
【請求項25】
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記細かい骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
【請求項26】
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを適用することを含む、請求項25に記載の方法。
【請求項27】
前記着目領域の前記細かい骨格を生成することは、前記着目領域内
の手関節位置を推測するために、第2の畳み込みニューラルネットワークを適用することを含む、請求項26に記載の方法。
【請求項28】
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、請求項25
~27のいずれか1項に記載の方法。
【請求項29】
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、請求項25
~27のいずれか1項に記載の方法。
【請求項30】
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、請求項25
~27のいずれか1項に記載の方法。
【請求項31】
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第1のカメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性のコンピュータ可読媒体。
【請求項32】
前記コードは、前記画像内の身体関節位置を推測するために第1の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、請求項31に記載の非一過性コンピュータ可読媒体。
【請求項33】
前記コードは、前記着目領域内
の手関節位置を推測するために第2の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、請求項32に記載の非一過性コンピュータ可読媒体。
【請求項34】
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは
、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサに
さらに指示する、請求項31
~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項35】
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは
、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサに
さらに指示する、請求項31
~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項36】
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、請求項31
~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
本実施例では、装置50はまた、装置50およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る、メモリ記憶ユニット(図示せず)を含み得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。他の実施例では、装置50は、プロセッサに指示するための外部サーバ等、別個のソースからの命令を受信し得る。さらなる実施例では、装置50の各構成要素は、任意の中央制御から独立して動作する、単独の構成要素であり得る。
本発明は、例えば、以下を提供する。
(項目1)
装置であって、
対象の第1の画像を捕捉するための第1のカメラと、
前記第1の画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記第1の画像の第1の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記第1の粗い骨格に基づいて、前記第1の画像の第1の領域を識別する、第1の姿勢推定エンジンと、
前記第1の領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記第1の画像の第1の領域の第1の細かい骨格を生成する、第2の姿勢推定エンジンと、
第1の骨格全体を生成するための第1の取着エンジンであって、前記第1の骨格全体は、前記第1の粗い骨格に取着される、前記第1の細かい骨格を含む、第1の取着エンジンと、
前記対象の第2の画像を捕捉するための第2のカメラであって、前記第2の画像は、前記第1のカメラと異なる視点から捕捉される、第2のカメラと、
前記第2の画像を受信するための第3の姿勢推定エンジンであって、前記第3の姿勢推定エンジンは、前記第1の画像の第2の粗い骨格を生成し、前記第3の姿勢推定エンジンはさらに、前記第2の粗い骨格に基づいて、前記第2の画像の第2の領域を識別する、第3の姿勢推定エンジンと、
前記第2の領域を受信するための第4の姿勢推定エンジンであって、前記第4の姿勢推定エンジンは、前記第2の画像の第2の領域の第2の細かい骨格を生成する、第4の姿勢推定エンジンと、
第2の骨格全体を生成するための第2の取着エンジンであって、前記第2の骨格全体は、前記第2の粗い骨格に取着される、前記第2の細かい骨格を含む、第2の取着エンジンと、
前記第1の骨格全体および前記第2の骨格全体を受信するための集約器であって、前記集約器は、前記第1の骨格全体および前記第2の骨格全体から、3次元骨格を生成する、集約器と
を備える、装置。
(項目2)
前記第1の姿勢推定エンジンによって生成される、前記第1の粗い骨格は、前記対象の身体を表す、項目1に記載の装置。
(項目3)
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、項目2に記載の装置。
(項目4)
前記第2の姿勢推定エンジンによって生成される、前記第1の細かい骨格は、前記対象の手を表す、項目3に記載の装置。
(項目5)
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、項目4に記載の装置。
(項目6)
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格をスケーリングするためのものである、項目1-5のいずれか1項に記載の装置。
(項目7)
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格を平行移動させるためのものである、前項目1-6のいずれか1項に記載の装置。
(項目8)
前記第1の姿勢推定エンジンは、前記第1の粗い骨格を生成するために、前記第1の画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第1の画像を使用するためのものである、項目1-9のいずれか1項に記載の装置。
(項目9)
前記第3の姿勢推定エンジンによって生成される、前記第2の粗い骨格は、前記対象の身体を表す、項目1-8のいずれか1項に記載の装置。
(項目10)
前記第2の姿勢推定エンジンによって生成される、前記第2の細かい骨格は、前記対象の手を表す、項目9に記載の装置。
(項目11)
前記第2の取着エンジンは、前記第2の粗い骨格と組み合わせるために、前記第2の細かい骨格をスケーリングするためのものである、項目1-10のいずれか1項に記載の装置。
(項目12)
前記第2の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第2の細かい骨格を平行移動させるためのものである、項目1-11のいずれか1項に記載の装置。
(項目13)
前記第3の姿勢推定エンジンは、前記第2の粗い骨格を生成するために、前記第2の画像の分解能を低減させるためのものであり、前記第4の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第2の画像を使用するためのものである、項目1-12のいずれか1項に記載の装置。
(項目14)
装置であって、
対象の画像を捕捉するためのカメラと、
前記画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記画像の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記粗い骨格に基づいて、前記画像の領域を識別する、第1の姿勢推定エンジンと、
前記領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記画像の領域の細かい骨格を生成する、第2の姿勢推定エンジンと、
骨格全体を生成するための取着エンジンであって、前記骨格全体は、前記粗い骨格に取着される、前記細かい骨格を含む、取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、3次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
(項目15)
前記第1の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、項目14に記載の装置。
(項目16)
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、項目15に記載の装置。
(項目17)
前記第2の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、項目16に記載の装置。
(項目18)
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、項目17に記載の装置。
(項目19)
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、項目14-18のいずれか1項に記載の装置。
(項目20)
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、項目14-19のいずれか1項に記載の装置。
(項目21)
前記第1の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、項目14-20のいずれか1項に記載の装置。
(項目22)
装置であって、
複数の外部ソースから複数の骨格全体を受信するための通信インターフェースであって、前記複数の骨格全体のそれぞれの骨格全体は、粗い骨格に取着される、細かい骨格を含む、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、3次元骨格を生成するためのものである、集約器と
を備える、装置。
(項目23)
前記集約器は、3次元関節を生成するために、第1の骨格全体の第1の関節と第2の骨格全体の第2の関節を組み合わせるためのものである、項目22に記載の装置。
(項目24)
前記3次元関節は、手関節を表す、項目23に記載の装置。
(項目25)
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記細かい骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
(項目26)
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを適用することを含む、項目25に記載の方法。
(項目27)
前記着目領域の前記細かい骨格を生成することは、前記着目領域内の前記手関節位置を推測するために、第2の畳み込みニューラルネットワークを適用することを含む、項目26に記載の方法。
(項目28)
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、項目25-27のいずれか1項に記載の方法。
(項目29)
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、項目25-28のいずれか1項に記載の方法。
(項目30)
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、項目25-29のいずれか1項に記載の方法。
(項目31)
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第1のカメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性のコンピュータ可読媒体。
(項目32)
前記コードは、前記画像内の身体関節位置を推測するために第1の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、項目31に記載の非一過性コンピュータ可読媒体。
(項目33)
前記コードは、前記着目領域内の前記手関節位置を推測するために第2の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、項目32に記載の非一過性コンピュータ可読媒体。
(項目34)
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサに指示する、項目31-33のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目35)
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサに指示する、項目31-34のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目36)
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、項目31-35のいずれか1項に記載の非一過性コンピュータ可読媒体。
【国際調査報告】