IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヒンジ ヘルス, インコーポレイテッドの特許一覧

<>
  • 特表-姿勢パーサ 図1
  • 特表-姿勢パーサ 図2
  • 特表-姿勢パーサ 図3A
  • 特表-姿勢パーサ 図3B
  • 特表-姿勢パーサ 図4
  • 特表-姿勢パーサ 図5
  • 特表-姿勢パーサ 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-10
(54)【発明の名称】姿勢パーサ
(51)【国際特許分類】
   G06T 7/70 20170101AFI20240403BHJP
   G06T 7/00 20170101ALI20240403BHJP
【FI】
G06T7/70 Z
G06T7/00 660B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023566807
(86)(22)【出願日】2021-07-27
(85)【翻訳文提出日】2023-10-30
(86)【国際出願番号】 IB2021056817
(87)【国際公開番号】W WO2022243739
(87)【国際公開日】2022-11-24
(31)【優先権主張番号】63/191,538
(32)【優先日】2021-05-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521546728
【氏名又は名称】ヒンジ ヘルス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ラマチャンドラ, バラトクマール
(72)【発明者】
【氏名】クルシェウスキ, ポール アンソニー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA02
5L096DA02
5L096FA12
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
装置が、2次元画像から複数のオブジェクトの姿勢を推定するために提供される。本装置は、外部ソースから未加工データを受信するための通信インターフェースを含む。未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む。加えて、本装置は、未加工データを記憶するためのメモリ記憶ユニットを含む。本装置はまた、第1のオブジェクトおよび第2のオブジェクトのパーツを検出し、かつパーツの中間表現を生成するための第1のニューラルネットワークエンジンを含む。さらに、本装置は、トランスフォーマニューラルネットワークを中間表現に適用し、パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析し、第1のオブジェクトパーツから第1のオブジェクトの第1の姿勢を生成し、第2のオブジェクトパーツから第2のオブジェクトの第2の姿勢を生成するための、第2のニューラルネットワークエンジンを含む。
【特許請求の範囲】
【請求項1】
装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データを記憶するためのメモリ記憶ユニットと、
前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出し、かつ前記パーツの中間表現を生成するための第1のニューラルネットワークエンジンと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析し、前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成し、前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成するための、第2のニューラルネットワークエンジンと
を備える、装置。
【請求項2】
前記第1のニューラルネットワークエンジンは、畳み込みニューラルネットワークを前記未加工データに適用するためのものである、請求項1に記載の装置。
【請求項3】
前記中間表現は、複数のキーポイントヒートマップを含む、請求項2に記載の装置。
【請求項4】
前記中間表現は、複数の類似性フィールドを含む、請求項2に記載の装置。
【請求項5】
前記中間表現は、複数の連想埋込を含む、請求項2に記載の装置。
【請求項6】
前記第1のニューラルネットワークエンジンおよび前記第2のニューラルネットワークエンジンは、グラフィックス処理ユニット上で実行される、請求項1-5のいずれか1項に記載の装置。
【請求項7】
前記第2のニューラルネットワークエンジンは、前記第1のオブジェクトおよび前記第2のオブジェクトの前記パーツを解析するために、二部マッチング損失演算を実行するためのものである、請求項1-6のいずれか1項に記載の装置。
【請求項8】
方法であって、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
第1のニューラルネットワークエンジンを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を含む、方法。
【請求項9】
前記第1のニューラルネットワークエンジンを用いて、畳み込みニューラルネットワークを前記未加工データに適用することをさらに含む、請求項8に記載の方法。
【請求項10】
前記中間表現を生成することは、複数のキーポイントヒートマップを生成することを含む、請求項9に記載の方法。
【請求項11】
前記中間表現を生成することは、複数の類似性フィールドを生成することを含む、請求項9に記載の方法。
【請求項12】
前記中間表現を生成することは、複数の連想埋込を生成することを含む、請求項9に記載の方法。
【請求項13】
第2のニューラルネットワークエンジンを実行し、前記トランスフォーマニューラルネットワークをグラフィックス処理ユニット上で適用することをさらに含む、請求項8-12のいずれか1項に記載の方法。
【請求項14】
前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析するために、二部マッチング損失演算を実行することをさらに含む、請求項8-13のいずれか1項に記載の方法。
【請求項15】
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、プロセッサに、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現とを含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を行うように指示するためにある、非一過性コンピュータ可読媒体。
【請求項16】
前記コードは、前記プロセッサに、畳み込みニューラルネットワークを前記未加工データに適用し、前記パーツを検出するように指示するためのものである、請求項15に記載の非一過性コンピュータ可読媒体。
【請求項17】
前記コードは、前記プロセッサに、前記中間表現の一部として、複数のキーポイントヒートマップを生成するように指示するためのものである、請求項16に記載の非一過性コンピュータ可読媒体。
【請求項18】
前記コードは、前記プロセッサに、前記中間表現の一部として、複数の類似性フィールドを生成するように指示するためのものである、請求項16に記載の非一過性コンピュータ可読媒体。
【請求項19】
前記コードは、前記プロセッサに、前記中間表現の一部として複数の連想埋込を生成するように指示するためのものである、請求項16に記載の非一過性コンピュータ可読媒体。
【請求項20】
前記コードは、前記プロセッサに、前記トランスフォーマニューラルネットワークをグラフィックス処理ユニット上で適用するように指示するためのものである、請求項15-19のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項21】
前記コードは、前記プロセッサに、二部マッチング損失演算を実行し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析するように指示するためのものである、請求項15-20のいずれか1項に記載の非一過性コンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
(背景)
2次元画像から姿勢のセットを生成するための姿勢解析が、公知である。例えば、中間表現から姿勢を構築する、手動設計型ヒューリスティックアルゴリズムが、使用されてもよい。特に、2次元姿勢に関して、予測キーポイントヒートマップ内の局所的ピークを見出すこと、および予測された骨ヒートマップからの情報を使用することが、キーポイント間の接続を形成し、姿勢を作成するために使用され得る。さらなる実施例では、完全連結グラフにわたって(NPハード)整数線形プログラミング問題を解決すること、または一度に1つの姿勢を予測するために再帰ニューラルネットワークを使用することもまた、使用されてもよい。
【発明の概要】
【課題を解決するための手段】
【0002】
姿勢解析は、2次元画像から複数のオブジェクトの姿勢を生成するために使用されるプロセスである。それによってこれが遂行される様式は、特に限定されず、種々の異なる方法が、使用される。複数のオブジェクトを伴う画像に関して、オブジェクトおよびオブジェクトの各キーポイントまたはパーツの識別は、正確なオブジェクトと関連付けられるためにある。オブジェクト姿勢の識別は、複数の目的のために使用され得る。例えば、オブジェクトの姿勢は、他の下流の用途における使用のために、画像内で識別されてもよい。特に、オブジェクト姿勢の識別は、後続の再生または分析のために、スポーツフィールド上のプレーヤ等のオブジェクトを追跡し、プレーヤの動きを追従し、動きを捕捉するために使用され得る。
【0003】
コンピュータ実装型方法が、複数の姿勢推定タスクおよびサブステップを単一の一元化されたシステムの中に統合するために提供され、エンドツーエンド訓練、視覚的文脈のより良好な使用、および複数のステップによって誘起される誤差乗算の低減に対する扉を開く。これは、グラフィックス処理ユニット上で遂行される、高速かつ完全に微分可能なアプローチを使用し、中間姿勢表現から最終的な固定された姿勢のセットまで進行する。姿勢のセットは、2次元姿勢、3次元姿勢、外観推定、およびインスタンスのセグメント化、およびタスク間の相乗効果から利益を享受する、単一の一元化されたモデルの中へのこれらの出力の統合を可能にし得る。
【0004】
本方法は、以前の「ボトムアップ」型姿勢推定モデルに優る改良を提供する。例えば、本方法の出力は、姿勢解析等の処理のために、ヒートマップ等の中間データを中央処理ユニットに転送することなく、グラフィックス処理ユニット上の後続のタスクのための単一のオブジェクトクロップを抽出するために使用されることができる。加えて、本方法は、推論時間において、現在使用されているカスタム設計型姿勢解析アルゴリズムよりも高速であり得る。さらに、本方法は、推定された姿勢の最終的な座標の監視を提供し、これは、ボトムアップ方法の正確度を改良し得る。同一の方法はまた、組み合わせられたボトムアップ2次元および3次元姿勢推定モデルを有効にするためのボトムアップ3次元姿勢推定モデル、または組み合わせられた姿勢推定に加えたインスタンスセグメント化モデルを有効にするためのインスタンスセグメント化モデル、もしくは同様のものを提供し得る。
【0005】
本方法は、装置によって遂行されてもよい。本装置は、別個のオブジェクト検出器(例えば、トップダウンアプローチ)または別個のクラスタ化ステップ(例えば、ボトムアップアプローチ)を使用することなく、未加工データ画像内の姿勢を解析する。代わりに、本装置は、出力姿勢座標の可変サイズ指定セットを推定するために、位置埋込およびオブジェクトクエリを伴う、トランスフォーマネットワークを使用する。これは、予測され得る人物(出力スロット)の最大数の先験的な定義を使用し、出力スロットあたり2つの予測ヘッド、すなわち、人物/非人物バイナリクラス予測のために1つおよび姿勢座標予測のために1つを有することによって達成される。トランスフォーマアーキテクチャは、一度に1人の人物の姿勢を順次予測することとは対照的に、オブジェクトクエリとともに、出力の並列デコーディングを可能にする。故に、これは、従来のアルゴリズムを使用して、姿勢解析のために、パーツ検出等のプロセスの一部をグラフィックス処理ユニットから中央処理ユニットに転送し、続いて、下流のタスク内のさらなる処理のために、グラフィックス処理ユニットに戻すことの代わりに、プロセスが、グラフィックス処理ユニット上で並行して遂行されることを可能にする。
【0006】
ここで、実施例のみとして、付随の図面の参照が行われるであろう。
【図面の簡単な説明】
【0007】
図1図1は、2次元画像から複数のオブジェクトの姿勢を推定するための例示的装置の構成要素の概略描写である。
【0008】
図2図2は、図1の装置において受信される画像を表す、未加工データの実施例である。
【0009】
図3A図3Aは、図2の画像から推定される、複数の所定の関節の組み合わせの関節ヒートマップである。
【0010】
図3B図3Bは、図2の画像から推定される、複数の所定の関節の組み合わせの骨ヒートマップである。
【0011】
図4図4は、トランスフォーマネットワークエンジンによって遂行される、2次元姿勢推定に関するアーキテクチャの概略描写である。
【0012】
図5図5は、2次元画像から複数のオブジェクトの姿勢を推定するために、装置へのアクセスを提供するためのシステムの概略描写である。
【0013】
図6図6は、2次元画像からの複数のオブジェクトの姿勢を推定する方法の実施例のフローチャートである。
【発明を実施するための形態】
【0014】
(詳細な説明)
本明細書で使用されるように、絶対的な配向(例えば、「上部」、「底部」、「上」、「下」、「左」、「右」、「低」、「高」等)を示唆する用語の使用はいずれも、例証的利便性のためにあり、特定の図に示される配向を指し得る。しかしながら、そのような用語は、種々の構成要素が、実践では、説明される、または示されるものと同一または異なる配向において利用されるであろうことが想定されるため、限定する意味合いにおいて解釈されないものとする。
【0015】
本説明では、下記に議論されるモデルおよび技法は、概して、人物の画像に適用される。下記に説明される実施例が、動物および機械等の他のオブジェクトにも同様に適用され得ることは、本説明から利益を享受する当業者によって理解されるはずである。
【0016】
図1を参照すると、2次元画像から複数のオブジェクトの姿勢を推定するための装置の概略描写が、概して、50において示されている。装置50は、付加的な構成要素、例えば、装置50のユーザと相互作用するためのインジケータ等の種々の付加的なインターフェースおよび/または入力/出力デバイスを含んでもよい。相互作用は、装置50またはその中で装置50が動作するシステムの動作状態を視認すること、装置50のパラメータを更新すること、または装置50をリセットすることを含み得る。本実施例では、装置50は、図2に示されるような画像100を表す未加工データ等の未加工データを受信し、未加工データを処理し、画像100内のオブジェクトの姿勢を推定するためのものである。本実施例では、装置50は、通信インターフェース55と、メモリ記憶ユニット60と、ニューラルネットワークエンジン65と、トランスフォーマネットワークエンジン70とを含む。
【0017】
通信インターフェース55は、複数の標的オブジェクトを伴う画像を表す未加工データを受信するために、外部ソースと通信するためのものである。一具体的実施例では、未加工データは、画像内の人々である、オブジェクト110、120、130を伴う画像100を表し得る。通信インターフェース55によって受信される未加工データは、ある事例では、複雑な画像を表し得ないが、装置50が、画像内のオブジェクトのオクルージョンに起因して、典型的には取り扱うことが困難である、複雑な画像を取り扱うように構成されることを理解されたい。オクルージョンは、限定されず、ある場合には、画像は、相互にオクルードする他のオブジェクトを含み得る。他の実施例では、オブジェクトは、オクルージョンを引き起こされる他の特徴に関与し得る。
【0018】
それによってオブジェクトが表される様式および2次元画像の正確なフォーマットは、特に、限定されない。本実施例では、2次元画像は、RGBフォーマットにおいて受信され得る。2次元画像が、カメラによって捕捉および処理されるラスタグラフィックファイルまたは圧縮画像ファイル等の異なるフォーマットであることは、本説明から利益を享受する当業者によって理解されるはずである。さらに、標的オブジェクトは、特に、限定されない。本実施例では、標的オブジェクトは、人々である。他の実施例では、標的オブジェクトは、前景における人々等の人々のサブ群であってもよい。さらなる実施例では、標的オブジェクトは、動物および機械等の非人間であってもよい。
【0019】
さらに、それによって通信インターフェース55が未加工データを受信する様式は、限定されない。本実施例では、通信インターフェース55は、ネットワークを経由して外部ソースと通信し、これは、WiFiネットワークまたはセルラーネットワーク等の多数の接続されたデバイスと共有される、パブリックネットワークであり得る。他の実施例では、通信インターフェース55は、他のデバイスとのイントラネットまたは有線接続等のプライベートネットワークを介して、外部ソースからデータを受信してもよい。加えて、そこから通信インターフェース55が未加工データを受信する外部ソースは、いかなるタイプのソースにも限定されない。例えば、通信インターフェース55は、Bluetooth(登録商標)接続、無線信号、または赤外線信号を介して未加工データを捕捉する、別の近接する携帯用電子デバイスに接続されてもよい。別の実施例として、通信インターフェース55は、カメラシステム、またはクラウド等の外部データソースから、未加工データを受信するためのものである。通信インターフェース55を介して受信される未加工データは、概して、メモリ記憶ユニット60上に記憶されることになる。
【0020】
別の実施例では、装置50は、スマートフォン等の携帯用電子デバイスの一部であってもよく、これは、未加工データを捕捉するためのカメラシステム(図示せず)を含む。故に、本実施例では、外部ソースは、装置50の一部であってもよく、通信インターフェース55は、携帯用電子デバイスの装置50部分をカメラシステムと接続するために、携帯用電子デバイス内に電気接続を含み得る。電気接続は、携帯用電子デバイス内に種々の内部バスを含み得る。
【0021】
さらに、通信インターフェース55は、未加工データに基づいた姿勢推定等の結果を伝送するために使用されてもよい。例えば、通信インターフェース55は、動画エンジン(図示せず)または姿勢アナライザ等の下流のサービスと通信していてもよい。故に、装置50は、セグメント化されることになる複雑なオクルージョンを伴う複数のオブジェクトを表す、外部ソースからの未加工データを受信するように動作し得る。特に、装置50は、カメラを伴うスマートフォン等の携帯用電子デバイスであってもよく、これは、カメラを用いて画像を捕捉し、画像内の各オブジェクトの姿勢を生成することが可能である。
【0022】
メモリ記憶ユニット60は、通信インターフェース55を介して受信される未加工データを記憶するためのものである。特に、メモリ記憶ユニット60は、それに関して姿勢推定が生成されることになるオブジェクトを表す2次元画像を含む、未加工データを記憶し得る。本実施例では、メモリ記憶ユニット60は、映像のフレーム内に異なるオブジェクトを表す、複数の2次元画像を記憶し得る。故に、未加工データは、画像内の種々のオブジェクトの動きを表す、映像データであってもよい。具体的実施例として、オブジェクトは、異なるサイズの人々の画像であってもよく、人々に関する関節と称される、異なるキーポイントを示す異なる姿勢にある人々を含み、人物の身体のいくつかの部分が、他のキーポイントおよび同一の身体の一部または別の身体の一部をオクルードしていてもよい。例えば、画像100に示されるような画像は、スポーツ場面のものであり得、本場合では、通常のゲームプレイにおいて動き回っている複数のプレーヤが、捕捉される。そのような場面では、各プレーヤが、別のプレーヤをオクルードし得ることは、当業者によって理解されるはずである。
【0023】
さらに、メモリ記憶ユニット60は、付加的なデータを記憶するために使用されてもよい。例えば、メモリ記憶ユニット60は、ニューラルネットワークエンジン65またはトランスフォーマネットワークエンジン70によって使用されることになる、テンプレートおよびモデルデータ等の種々の参照データソースを記憶し得る。メモリ記憶ユニット60が、複数のデータベースを維持するために使用される、物理的コンピュータ可読媒体であり得る、または中央サーバまたはクラウドサーバ等の1つ以上の外部サーバを横断して分散され得る、複数の媒体を含み得ることを理解されたい。
【0024】
本実施例では、メモリ記憶ユニット60は、特に限定されないが、任意の電子的、磁気的、光学的、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含む。上記で述べられるように、メモリ記憶ユニット60は、通信インターフェース55を介して外部ソースから受信される未加工データ、テンプレートデータ、訓練データ、ニューラルネットワークエンジン65からの結果、および/または後処理エンジン70からの結果等の情報を記憶するために使用されてもよい。加えて、メモリ記憶ユニット60は、装置50の一般的な動作に関する命令を記憶するために使用されてもよい。メモリ記憶ユニット60はまた、種々の用途をサポートするための機能性等の一般的な機能性を装置50に提供するために、プロセッサによって実行可能であるオペレーティングシステムを記憶してもよい。メモリ記憶ユニット60は、加えて、ニューラルネットワークエンジン65および後処理エンジン70を動作させるための命令を記憶してもよい。さらに、メモリ記憶ユニット60はまた、カメラおよびユーザインターフェース等、装置50とともに配設され得る他の構成要素および任意の周辺デバイスを動作させるための制御命令を記憶してもよい。
【0025】
メモリ記憶ユニット60は、装置50の構成要素を動作させるために、データまたは命令を伴って事前にロードされ得る。他の実施例では、命令は、通信インターフェース55を介して、またはメモリフラッシュドライブ等、装置50に接続される携帯用メモリ記憶デバイスから命令を直接転送することによってロードされ得る。他の実施例では、メモリ記憶ユニット60は、外付けハードドライブ等の外部ユニット、またはコンテンツを提供するクラウドサービスであってもよい。
【0026】
ニューラルネットワークエンジン65は、メモリ記憶ユニット60内に記憶される、未加工データを受信または読出するためのものである。ニューラルネットワークエンジン65は、続いて、未加工データによって表される画像内のオブジェクトのパーツを検出し、検出されるパーツの中間表現を生成する。それによってニューラルネットワークエンジン65が中間表現を生成する様式は、特に、限定されない。本実施例では、ニューラルネットワークエンジン65は、畳み込みニューラルネットワークを未加工データに適用し、中間表現を生成し得る。本実施例を継続すると、身体パーツ検出モデルを実装するためにニューラルネットワークエンジンによって適用される、畳み込みニューラルネットワークは、限定されず、入力として画像を受信し、空間的2次元特徴マップとして表される身体パーツ検出の中間表現を生産し得る、任意のモデルに関与し得る。
【0027】
中間表現は、特に、限定されない。例えば、ニューラルネットワークエンジン65は、中間表現として、複数のキーポイントヒートマップを生成してもよく、本場合では、各キーポイントヒートマップは、画像100内のオブジェクトのうちの1つのキーポイントを表す。図3Aを参照すると、キーポイントヒートマップは、画像100内の可視キーポイントを示すために組み合わせられる。特に、図3Aに示される組み合わせられたヒートマップが、相互の上にオーバーレイされるとき、ニューラルネットワークエンジン65によって判定されるようなキーポイント毎のキーポイントヒートマップ値の合計であり得ることは、本説明から利益を享受する当業者によって理解されるはずである。
【0028】
ニューラルネットワークエンジン65によって生成される中間表現は、パーツ類似性フィールドによって表される、複数のコネクタヒートマップであってもよく、これは、パーツ間の関連付けを説明するベクトルフィールドであり、パーツは、ここではキーポイントである。コネクタヒートマップを組み合わせることは、図3Bに示されるような中間表現を生成し得る。図3Bを参照すると、コネクタヒートマップは、組み合わせされ、画像100内の可視コネクタを示す。特に、図3Bに示される組み合わせられたヒートマップが、相互の上にオーバーレイされるとき、ニューラルネットワークエンジン65によって判定されるようなコネクタ毎のコネクタヒートマップ値の合計であり得ることは、本説明から利益を享受する当業者によって理解されるはずである。本実施例では、各コネクタは、2つのキーポイントまたは「関節」間の「骨」を表し得る。用語「関節」および「骨」が、人物上の基準点の近似値を表すために動きの範囲内でモデル化され得る、人物内の種々の基準点を指すことは、本説明から利益を享受する当業者によって理解されるはずである。例えば、関節は、眼等の生理学的関節ではない、人物上の基準点を指し得る。他の実施例では、関節は、手関節または足関節等の複数の生理学的骨関節を伴う基準点を指し得る。同様に、コネクタまたは骨は、本明細書に説明されるような関節間の接続を指し得る。
【0029】
他の実施例では、ニューラルネットワークエンジン65はまた、他の中間表現を生成し得る。例えば、ニューラルネットワークエンジン65は、あるタイプのコネクタヒートマップである、正規分布曲線状骨ヒートマップを生成し得る。本実施例では、正規分布曲線状骨ヒートマップは、その主軸が、キーポイント対を継合する直線と整合される、楕円形正規分布曲線を伴う付加的なマップによって表され得る。
【0030】
別の実施例として、ニューラルネットワークエンジン65はまた、連想埋込を生成し得る。本実施例では、連想埋込タグマップは、画像内の人物の識別情報を用いて各ピクセルを識別するための役割を果たす、一意のIDタグを含有する。したがって、姿勢読取は、タグマップ内で同一のIDタグを共有する、キーポイントを単純に接続することによって達成され得る。
【0031】
トランスフォーマネットワークエンジン70は、トランスフォーマニューラルネットワークモデルをニューラルネットワークエンジン65によって生成される中間表現に適用するためのものである。トランスフォーマニューラルネットワークアーキテクチャは、ニューラルネットワークエンジンから、あるタイプのコネクタヒートマップまたは連想埋込マップもしくは同様のものとともに、パーツ検出の中間表現を取り込み、パーツ対オブジェクトの関連付け問題を解決し、パーツを構成する姿勢の固定されたセットを出力するために使用され得る、あるタイプのネットワークである。本実施例では、トランスフォーマネットワークエンジン70は、微分可能かつエンドツーエンドの訓練可能様式を使用して、中間表現を画像内の各オブジェクトの別個の姿勢に解析するために、複雑な計算を遂行することよりも少ない算出リソースを使用する。中間表現を解析することに応じて、トランスフォーマネットワークエンジン70は、画像内のオブジェクトに対応するグラウンドトゥルース姿勢のセット等の複数の姿勢を生成する。故に、トランスフォーマネットワークエンジン70は、完全連結グラフにわたって整数線形プログラミング問題を解決する、または再帰ニューラルネットワークを実行する(これらは両方とも、トランスフォーマネットワークエンジン70によって遂行されるトランスフォーマニューラルネットワークよりも多くの算出リソースを使用する)等、中間表現を別のプロセッサに転送し、より算出的に集約計算を遂行し、姿勢を解析する代わりに、ニューラルネットワーク65の機能を遂行する、同一のグラフィックス処理ユニット等のグラフィックス処理ユニット上で実行され得る。
【0032】
図4を参照すると、トランスフォーマネットワークエンジン70によって遂行される、トランスフォーマニューラルネットワークアーキテクチャが、より詳細に示されている。本実施例では、トランスフォーマネットワークエンジン70は、位置エンコーダ72と、トランスフォーマエンコーダ74と、トランスフォーマデコーダ76と、予測ヘッドとを含み得る。
【0033】
本実施例では、出力姿勢が、順列不変であることは、本説明から利益を享受する当業者によって理解されるはずである。位置エンコーダ72は、入力された空間的特徴マップについての位置情報を中間表現内に投入する。入力位置エンコーディングは、ピクセル座標マップ(xおよびy)のそれぞれにサインおよびコサイン関数の合計を適用することによって生成され、要素毎の追加によって、キーポイントヒートマップの中に埋め込まれる。出力位置エンコーディングは、出力を生成する際に、学習プロセスの間に学習され、トランスフォーマデコーダによって使用されるベクトルである。
【0034】
トランスフォーマエンコーダ74およびトランスフォーマデコーダ76は、投入された位置を伴う中間表現を処理する。本実施例では、トランスフォーマエンコーダ74は、各層が2つのサブ層を有する、同じデータ層のスタックから成る。トランスフォーマエンコーダ74は、次いで、マルチヘッド自己アテンション機構および単純な位置毎完全連結型順方向送給ネットワークを適用する。トランスフォーマデコーダ76はまた、同じデータ層のスタックから成る。加えて、トランスフォーマデコーダ76は、出力されたヘッドが、相互に対して競合しないように防止し、画像内の同一人物の姿勢情報を処理ために、データから学習される、出力位置エンコーディング/オブジェクトクエリを使用する。トランスフォーマエンコーダ74の各層内の2つのサブ層に加えて、トランスフォーマデコーダ76は、第3のサブ層を挿入し、これは、トランスフォーマエンコーダ74からのスタックの出力にわたってマルチヘッドアテンションを実施する。トランスフォーマエンコーダと同様に、サブ層のそれぞれの周囲の残留する接続の後に、層の正規化が、遂行される。トランスフォーマエンコーダ74およびトランスフォーマデコーダ76が、ニューラルネットワークエンジン65から受信される中間表現上に、グローバル推測を実施するための能力を提供することは、本説明から利益を享受する当業者によって理解されるはずである。マルチヘッド自己アテンションは、いくつかの自己アテンション機構を並行して起動させる、モジュールである。アテンション機構は、3つの入力、すなわち、クエリ(Q)、キー(K)、および値(V)を取り込み、演算g(f(Q,K),V)を実施する。Q=K=Vのとき、アテンション機構は、自己アテンションと称される。ここで使用される自己アテンションの特定の形態は、関数f()およびg()を判定する、スケーリングされたドット積アテンション関数である。
【0035】
本実施例では、トランスフォーマデコーダ76から予測ヘッド78への出力数は、最大予期出力数よりも大きい数に固定されることになる。オブジェクト数が出力数よりも多い実施例では、ヌル出力トークンが、過剰出力上に追加され得る。故に、これは、出力数までの未知数のオブジェクトを伴う画像内の姿勢を予測するための能力を提供する。本実施例では、トランスフォーマデコーダ76は、4つの出力を生成する。しかしながら、他の実施例では、トランスフォーマデコーダ76が、4つよりも多いまたは少ない出力を生成し得ることは、本説明から利益を享受する当業者によって理解されるはずである。
【0036】
本実施例では、トランスフォーマデコーダ76は、順次ではなく並行して出力を生成し、特に、モデルから訓練および推論するための効率的な様式を提供し、オブジェクトクエリおよび/または出力位置埋込は、予測ヘッド78に対するアンカとして作用する。これは、予測ヘッド78が、トランスフォーマデコーダ76からの出力予測に対する競合を回避することを可能にする。代わりに、予測ヘッド78は、次いで、それに対してそれらが関与する予測のタイプにおいて、特殊化されてもよい。
【0037】
トランスフォーマネットワーク70は、標識された姿勢データを使用して、予測ヘッド78からの結果を本システムを訓練することに適用されるように、二部マッチング損失演算を実行し得る。本実施例では、二部マッチング損失演算は、損失関数の内側で、安定結婚問題を解決するためにある。これは、放出されることになる正確な出力数を結果としてもたらすだけではなく、画像あたりの可変出力数の順列不変ペナルティ化を提供する。
【0038】
本実施例では、姿勢解析プロセスに関する二部マッチング損失は、以下の計算を用いて遂行され得る。トランスフォーマネットワークからの予測数は、Nであると仮定され得、Nは、画像内で予期される人物の最大数よりも典型的にははるかに大きい数に予め設定される。本実施例を継続すると、yは、グラウンドトゥルース人物のセットであり得、
【数1】
は、N個の予測のセットであり得る。一般性を喪失することなく、yは、サイズNのセットであるとも見なされ、
【数2】
(非人物)で埋められ得る。これら2つのセット間の二部マッチングを見出すためには、最低コストを伴う、N個の要素
【数3】
の順列が、検索され得る。
【数4】
式中、
【数5】
は、グラウンドトゥルースyと指数σ(i)を伴う予測値との間の対毎マッチングコストである。最適な割当は、ハンガリアンアルゴリズムを用いて算出され得る。
【0039】
マッチングコストは、バイナリクラス予測(人物/非人物)と、予測された姿勢およびグラウンドトゥルース姿勢の類似性との両方を考慮に入れる。グラウンドトゥルースの各要素iは、y=(c,r)と見なされ得、式中、cは、標的クラス標識であり、
【数6】
は、人物の姿勢を備えるグラウンドトゥルースキーポイントに関する画像上座標を定義する、ベクトルである。
【0040】
指数σ(i)を伴う予測値に関して、クラスcの確率は、
【数7】
として、予測された姿勢は、
【数8】
として定義されることができる。これらの表記を用いる場合、以下が、定義され得る。
【数9】
【0041】
第2のステップは、損失関数、すなわち、先のステップにおいてマッチングされた全ての対に関するハンガリアン損失を算出することである。損失は、クラス予測値に関する負の対数尤度と姿勢回帰損失との線形組み合わせによって定義される。
【数10】
【0042】
式中、
【数11】
は、第1のステップにおいて算出される、最適な割当である。
【0043】
最終的に、姿勢回帰損失は、以下のように定義される。
【数12】
【0044】
姿勢回帰損失の特定の形態は、それが、所与の対の姿勢が異なる度合の測定値を提供する微分可能関数を表す限り、他の形態をとってもよい。
【0045】
図5を参照すると、コンピュータネットワークシステムの概略描写が、概して、200において示されている。システム200が純粋に例示的であることは、理解されるはずであり、様々なコンピュータネットワークシステムが想定されることは、当業者に明白であろう。システム200は、2次元画像から複数のオブジェクトの姿勢を推定するための装置50と、複数の外部ソース20-1および20-2(総称的に、これらの外部ソースは、本明細書では「外部ソース20」と称され、集合的にも、それらは、「外部ソース20」と称される)と、ネットワーク210によって接続される複数のコンテンツ要求側25-1および25-2(総称的に、これらのコンテンツ要求側は、本明細書では「コンテンツ要求側25」と称され、集合的にも、それらは、「コンテンツ要求側25」と称される)とを含む。ネットワーク210は、特に、限定されず、インターネット、イントラネットもしくはローカルエリアネットワーク、携帯電話ネットワーク、またはこれらのタイプのネットワークのいずれかの組み合わせ等の任意のタイプのネットワークを含んでもよい。いくつかの実施例では、ネットワーク210はまた、ピアツーピアネットワークを含んでもよい。
【0046】
本実施例では、外部ソース20は、オブジェクトの画像100等の未加工データを提供するために、ネットワーク210を経由して装置50と通信するために使用される、任意のタイプのコンピューティングデバイスであり得る。例えば、外部ソース20-1は、スマートフォンであってもよい。外部ソース20-1が、ラップトップコンピュータ、携帯用電子デバイス、ゲームデバイス、モバイルコンピューティングデバイス、携帯用コンピューティングデバイス、タブレット型コンピューティングデバイス、または同等物等で代用され得ることは、本説明から利益を享受する当業者によって理解されるはずである。いくつかの実施例では、外部ソース20-2は、画像を捕捉するためのカメラであってもよい。未加工データは、外部ソース20において受信または捕捉される画像または映像から生成されてもよい。コンテンツ要求側25はまた、画像100の解析された姿勢推定値を受信するために、ネットワーク210を経由して装置50と通信するために使用される、任意のタイプのコンピューティングデバイスであってもよい。例えば、コンテンツ要求側25は、動画エンジンまたは姿勢アナライザ等の下流のサービスプロバイダであってもよい。
【0047】
図6を参照すると、2次元画像から複数のオブジェクトの姿勢を推定する例示的方法のフローチャートが、概して、300において示されている。方法300の解説を支援するために、方法300は、装置50によって実施され得ると仮定されたい。実際に、方法200は、その中に装置50が構成され得る、1つの方法であり得る。さらに、方法300の以下の議論は、装置50およびその構成要素のさらなる理解につながり得る。加えて、方法300が、示されるような正確な順序で実施されない場合があり、種々のブロックが、順にではなく並行して、または全く異なるシーケンスで実施され得ることが、強調されるものとする。
【0048】
ブロック310から始まり、装置50は、通信インターフェース55を介して、外部ソースから未加工データを受信する。本実施例では、未加工データは、人々等の複数のオブジェクトを伴う画像の表現を含む。それによって人物が表される様式および2次元画像の正確なフォーマットは、特に、限定されない。例えば、2次元画像は、RGBフォーマットであってもよい。他の実施例では、2次元画像は、カメラによって捕捉および処理されるラスタグラフィックファイルまたは圧縮画像ファイル等の異なるフォーマットである。いったん装置50において受信されると、未加工データは、ブロック320において、メモリ記憶ユニット60内に記憶されることになる。
【0049】
ブロック330は、ニューラルネットワークエンジン65を使用して、未加工データによって表される画像内のオブジェクトのパーツを検出することに関与し、これは、畳み込みニューラルネットワークを未加工データに適用し得る。検出される画像のパーツのタイプは、特に、限定されない。例えば、ニューラルネットワークエンジン65は、関節等のキーポイントを検出し得る。他の実施例では、ニューラルネットワークエンジン65は、骨等のキーポイント間のコネクタを検出し得る。
【0050】
次いで、ブロック340は、ニューラルネットワークエンジン65を用いて検出される、パーツの中間表現を生成することを含む。中間表現は、特に、限定されない。例えば、中間表現は、複数のキーポイントヒートマップであってもよく、本場合では、各キーポイントヒートマップは、画像100内のオブジェクトのうちの1つのキーポイントを表す。他の実施例では、中間表現は、複数のコネクタヒートマップまたは連想埋込であってもよい。
【0051】
トランスフォーマニューラルネットワークモデルは、ブロック350において、中間表現に適用され、微分可能かつエンドツーエンドの訓練可能な様式において、中間表現を画像100内のオブジェクトの別個の姿勢に解析する。ブロック360は、解析された中間表現を使用し、画像内のオブジェクトに対応する複数の推定された姿勢を生成する。
【0052】
種々の利点が、ここで当業者に明白な状態になるであろう。特に、装置50は、効率的なトランスフォーマニューラルネットワークを用いて、2次元画像内の姿勢を解析するために使用され得る。特に、これは、低速の非微分可能クラスタ化アプローチおよびまたは他の算出的に重い順次動作の使用を回避し、より高速な処理時間を提供する。より高速の処理時間に起因して、本プロセスは、単一のグラフィックス処理ユニット上で、またはスマートフォン等の携帯用電子デバイス上で遂行され得る。多くの携帯用電子デバイスが、カメラを含むため、人々を伴うスポーツ場面等の複数のオブジェクトを伴う画像の捕捉からの全プロセスが、画像内のオブジェクトに関する複数の姿勢を生成するために処理され得ることは、本説明から利益を享受する当業者によって理解されるはずである。これは、姿勢アナライザ等の下流のサービスによって使用され、さらなるデータを抽出する、またはゲーム内のプレーヤの動きを分析する、またはコーチングスタッフによる改良のために誤差を精査し得る。
【0053】
上記に提供される種々の実施例の特徴および側面は、本開示の範囲内にも該当する、さらなる実施例の中に組み合わされ得ることを認識されたい。
図1
図2
図3A
図3B
図4
図5
図6
【手続補正書】
【提出日】2023-10-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
装置であって、
外部ソースから未加工映像データを受信するための通信インターフェースであって、前記未加工映像データは、第1の人物および第2の人物の表現を含む、通信インターフェースと、
前記未加工映像データを記憶するためのメモリ記憶ユニットと、
前記第1の人物および前記第2の人物のパーツを検出し、かつ前記パーツの中間表現を生成するための第1のニューラルネットワークエンジンと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1の人物パーツおよび第2の人物パーツに解析し、前記第1の人物パーツから前記第1の人物の第1の姿勢を生成し、前記第2の人物パーツから前記第2の人物の第2の姿勢を生成するための、第2のニューラルネットワークエンジンと
を備える、装置。
【請求項2】
前記第1のニューラルネットワークエンジンは、畳み込みニューラルネットワークを前記未加工映像データに適用するためのものである、請求項1に記載の装置。
【請求項3】
前記中間表現は、複数のキーポイントヒートマップを含み、前記複数のキーポイントヒートマップのそれぞれは、前記第1の人物または前記第2の人物のキーポイントを表し、前記複数のキーポイントヒートマップは、前記表現における前記第1の人物および前記第2の人物の全て可視キーポイントを集合的に示す、請求項2に記載の装置。
【請求項4】
前記中間表現は、複数の類似性フィールドを含み、前記複数の類似性フィールドのそれぞれは、前記パーツ間の関連付けを説明するベクトルを表す、請求項2に記載の装置。
【請求項5】
前記中間表現は、複数の連想埋込を含み、前記複数の連想埋込のそれぞれは、各ピクセルを前記第1の人物または前記第2の人物と識別するために役割を果たす、一意の識別子を含む、請求項2に記載の装置。
【請求項6】
前記第1のニューラルネットワークエンジンおよび前記第2のニューラルネットワークエンジンは、グラフィックス処理ユニットによって実行される、請求項1-5のいずれか1項に記載の装置。
【請求項7】
前記第2のニューラルネットワークエンジンは、前記第1のオブジェクトおよび前記第2のオブジェクトの前記パーツを解析するために、二部マッチング損失演算を実行するためのものである、請求項1-6のいずれか1項に記載の装置。
【請求項8】
方法であって、
通信インターフェースを介して、第1のオブジェクトおよび第2のオブジェクトの表現を含む未加工データを受信することと
1のニューラルネットワークを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
第2のニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を含む、方法。
【請求項9】
前記第2のニューラルネットワークをグラフィックス処理ユニット上で適用する、ニューラルネットワークエンジンを実行することをさらに含む、請求項に記載の方法。
【請求項10】
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、プロセッサに、
第1のオブジェクトおよび第2のオブジェクトの表現を含む未加工データを受信することと
畳み込みニューラルネットワークを前記未加工データに適用することによって、前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を行うように指示するためにある、非一過性コンピュータ可読媒体。
【請求項11】
前記コードは、前記プロセッサに、前記中間表現の一部として、複数のキーポイントヒートマップを生成するように指示するためのものである、請求項10に記載の非一過性コンピュータ可読媒体。
【請求項12】
前記コードは、前記プロセッサに、前記中間表現の一部として、複数の類似性フィールドを生成するように指示するためのものである、請求項10に記載の非一過性コンピュータ可読媒体。
【請求項13】
前記コードは、前記プロセッサに、前記中間表現の一部として複数の連想埋込を生成するように指示するためのものである、請求項10に記載の非一過性コンピュータ可読媒体。
【請求項14】
前記コードは、前記プロセッサに、前記トランスフォーマニューラルネットワークをグラフィックス処理ユニット上で適用するように指示するためのものである、請求項1013のいずれか1項に記載の非一過性コンピュータ可読媒体。
【請求項15】
前記コードは、前記プロセッサに、二部マッチング損失演算を実行し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析するように指示するためのものである、請求項1014のいずれか1項に記載の非一過性コンピュータ可読媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】
本発明は、例えば、以下を提供する。
(項目1)
装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、通信インターフェースと、
前記未加工データを記憶するためのメモリ記憶ユニットと、
前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出し、かつ前記パーツの中間表現を生成するための第1のニューラルネットワークエンジンと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析し、前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成し、前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成するための、第2のニューラルネットワークエンジンと
を備える、装置。
(項目2)
前記第1のニューラルネットワークエンジンは、畳み込みニューラルネットワークを前記未加工データに適用するためのものである、項目1に記載の装置。
(項目3)
前記中間表現は、複数のキーポイントヒートマップを含む、項目2に記載の装置。
(項目4)
前記中間表現は、複数の類似性フィールドを含む、項目2に記載の装置。
(項目5)
前記中間表現は、複数の連想埋込を含む、項目2に記載の装置。
(項目6)
前記第1のニューラルネットワークエンジンおよび前記第2のニューラルネットワークエンジンは、グラフィックス処理ユニット上で実行される、項目1-5のいずれか1項に記載の装置。
(項目7)
前記第2のニューラルネットワークエンジンは、前記第1のオブジェクトおよび前記第2のオブジェクトの前記パーツを解析するために、二部マッチング損失演算を実行するためのものである、項目1-6のいずれか1項に記載の装置。
(項目8)
方法であって、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
第1のニューラルネットワークエンジンを用いて、前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を含む、方法。
(項目9)
前記第1のニューラルネットワークエンジンを用いて、畳み込みニューラルネットワークを前記未加工データに適用することをさらに含む、項目8に記載の方法。
(項目10)
前記中間表現を生成することは、複数のキーポイントヒートマップを生成することを含む、項目9に記載の方法。
(項目11)
前記中間表現を生成することは、複数の類似性フィールドを生成することを含む、項目9に記載の方法。
(項目12)
前記中間表現を生成することは、複数の連想埋込を生成することを含む、項目9に記載の方法。
(項目13)
第2のニューラルネットワークエンジンを実行し、前記トランスフォーマニューラルネットワークをグラフィックス処理ユニット上で適用することをさらに含む、項目8-12のいずれか1項に記載の方法。
(項目14)
前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析するために、二部マッチング損失演算を実行することをさらに含む、項目8-13のいずれか1項に記載の方法。
(項目15)
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、プロセッサに、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、第1のオブジェクトおよび第2のオブジェクトの表現とを含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記第1のオブジェクトおよび前記第2のオブジェクトのパーツを検出することと、
前記パーツの中間表現を生成することと、
トランスフォーマニューラルネットワークを前記中間表現に適用し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析することと、
前記第1のオブジェクトパーツから前記第1のオブジェクトの第1の姿勢を生成することと、
前記第2のオブジェクトパーツから前記第2のオブジェクトの第2の姿勢を生成することと
を行うように指示するためにある、非一過性コンピュータ可読媒体。
(項目16)
前記コードは、前記プロセッサに、畳み込みニューラルネットワークを前記未加工データに適用し、前記パーツを検出するように指示するためのものである、項目15に記載の非一過性コンピュータ可読媒体。
(項目17)
前記コードは、前記プロセッサに、前記中間表現の一部として、複数のキーポイントヒートマップを生成するように指示するためのものである、項目16に記載の非一過性コンピュータ可読媒体。
(項目18)
前記コードは、前記プロセッサに、前記中間表現の一部として、複数の類似性フィールドを生成するように指示するためのものである、項目16に記載の非一過性コンピュータ可読媒体。
(項目19)
前記コードは、前記プロセッサに、前記中間表現の一部として複数の連想埋込を生成するように指示するためのものである、項目16に記載の非一過性コンピュータ可読媒体。
(項目20)
前記コードは、前記プロセッサに、前記トランスフォーマニューラルネットワークをグラフィックス処理ユニット上で適用するように指示するためのものである、項目15-19のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目21)
前記コードは、前記プロセッサに、二部マッチング損失演算を実行し、前記パーツを第1のオブジェクトパーツおよび第2のオブジェクトパーツに解析するように指示するためのものである、項目15-20のいずれか1項に記載の非一過性コンピュータ可読媒体。
ここで、実施例のみとして、付随の図面の参照が行われるであろう。
【国際調査報告】