IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー コーポレイション オブ アメリカの特許一覧

特表2024-519362ビデオ解析のための追跡によるポーズ再構築
<>
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図1
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図2
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図3
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図4
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図5
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図6
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図7
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図8
  • 特表-ビデオ解析のための追跡によるポーズ再構築 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-10
(54)【発明の名称】ビデオ解析のための追跡によるポーズ再構築
(51)【国際特許分類】
   G06T 7/593 20170101AFI20240501BHJP
   G06T 7/20 20170101ALI20240501BHJP
【FI】
G06T7/593
G06T7/20 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023571174
(86)(22)【出願日】2022-05-27
(85)【翻訳文提出日】2023-11-15
(86)【国際出願番号】 IB2022055034
(87)【国際公開番号】W WO2022259084
(87)【国際公開日】2022-12-15
(31)【優先権主張番号】17/344,734
(32)【優先日】2021-06-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.JAVA
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】504257564
【氏名又は名称】ソニー コーポレイション オブ アメリカ
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】シュー ワンシン
(72)【発明者】
【氏名】ファン コ-カイ アルバート
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096BA06
5L096CA02
5L096CA05
5L096DA01
5L096FA09
5L096FA66
5L096FA69
5L096HA02
5L096HA05
(57)【要約】
実装は、一般にビデオ解析のための追跡によるポーズ再構築を実行する。いくつかの実装では、方法が、環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することを含む。方法は、少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することをさらに含む。方法は、複数のビデオと少なくとも1人の被験者の追跡とに基づいて、少なくとも1人の被験者の3次元(3D)モデルを再構築することをさらに含む。
【選択図】 図1
【特許請求の範囲】
【請求項1】
システムであって、
1又は2以上のプロセッサと、
1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、前記1又は2以上のプロセッサによる実行のためのロジックと、
を備え、前記ロジックは、実行時に、
環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、
前記少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1人の被験者の追跡とに基づいて、前記少なくとも1人の被験者の3次元(3D)モデルを再構築することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
ことを特徴とするシステム。
【請求項2】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項1に記載のシステム。
【請求項3】
前記環境は手術室である、
請求項1に記載のシステム。
【請求項4】
前記ロジックは、実行時に、前記少なくとも1人の被験者の1又は2以上のキーポイントを決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項5】
前記ロジックは、実行時に、前記少なくとも1人の被験者に関連するポーズ情報を決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項6】
前記ロジックは、実行時に、前記少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
請求項1に記載のシステム。
【請求項7】
前記ロジックは、実行時に、前記少なくとも1人の被験者の3Dモデルを前記複数のビデオに基づいて再構築することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能であり、前記複数のビデオは2次元(2D)ビデオである、
請求項1に記載のシステム。
【請求項8】
プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記プログラム命令は、1又は2以上のプロセッサによって実行された時に、
環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、
前記少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1人の被験者の追跡とに基づいて、前記少なくとも1人の被験者の3次元(3D)モデルを再構築することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、ことを特徴とするコンピュータ可読記憶媒体。
【請求項9】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項10】
前記環境は手術室である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項11】
前記命令は、実行時に、前記少なくとも1人の被験者の1又は2以上のキーポイントを決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項12】
前記命令は、実行時に、前記少なくとも1人の被験者に関連するポーズ情報を決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項13】
前記命令は、実行時に、前記少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項14】
前記命令は、実行時に、前記少なくとも1人の被験者の3Dモデルを前記複数のビデオに基づいて再構築することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能であり、前記複数のビデオは2次元(2D)ビデオである、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項15】
コンピュータ実装方法であって、
環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、
前記少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1人の被験者の追跡とに基づいて、前記少なくとも1人の被験者の3次元(3D)モデルを再構築することと、
を含むことを特徴とする方法。
【請求項16】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項15に記載の方法。
【請求項17】
前記環境は手術室である、
請求項15に記載の方法。
【請求項18】
前記少なくとも1人の被験者の1又は2以上のキーポイントを決定することをさらに含む、
請求項15に記載の方法。
【請求項19】
前記少なくとも1人の被験者に関連するポーズ情報を決定することさらに含む、
請求項15に記載の方法。
【請求項20】
前記少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することをさらに含む、
請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2021年6月10日に出願された「ビデオ解析のための追跡によるポーズ再構築(POSE RECONSTRUCTION BY TRACKING FOR VIDEO ANALYSIS)」という名称の米国特許出願第17/344,734号(クライアント参照番号:SYP339216US01)に基づく優先権を主張するものであり、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。
【0002】
本出願は、2021年6月10日に出願された「複数のカメラを用いた臨床活動認識(CLINICAL ACTIVITY RECOGNITION WITH MULTIPLE CAMERAS)」という名称の米国特許出願シリアル番号第17/344,730号(SYP339214US01)に関連し、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。
【背景技術】
【0003】
カメラシステムの中には、人物のビデオを取り込み、人物の動きを分析し、メタデータの画像又はビデオデータセットを生成できるものがある。システムのカメラビデオによって取り込まれた人間のアクションを識別するには、ある人物がビデオを手動で確認する必要がある。手動でのモニタリング及びイベント報告は、特にビデオカメラの位置及び角度が変化して十分なカバレッジを提供できない場合に信頼性が低く、多大な時間を要する場合がある。管理された環境内で複数のカメラを使用することもできる。しかしながら、被写体、動き及び背景の変動が依然として大幅に制限される場合がある。
【発明の概要】
【課題を解決するための手段】
【0004】
実施形態は、一般にビデオ解析のための追跡によるポーズ再構築に関する。いくつかの実施形態では、システムが、1又は2以上のプロセッサと、1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、1又は2以上のプロセッサによる実行のためのロジックとを含む。ロジックは、実行時に、環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1人の被験者の追跡とに基づいて、少なくとも1人の被験者の3次元(3D)モデルを再構築することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0005】
さらにシステムに関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の1又は2以上のキーポイントを決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を1又は2以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の3Dモデルを複数のビデオに基づいて再構築することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは2次元(2D)ビデオである。
【0006】
いくつかの実施形態では、プログラム命令を有する非一時的なコンピュータ可読記憶媒体を提供する。命令は、1又は2以上のプロセッサによって実行された時に、環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1人の被験者の追跡とに基づいて、少なくとも1人の被験者の3次元(3D)モデルを再構築することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0007】
さらにコンピュータ可読記憶媒体に関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の1又は2以上のキーポイントを決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を1又は2以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の3Dモデルを複数のビデオに基づいて再構築することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは2次元(2D)ビデオである。
【0008】
いくつかの実施形態では、方法が、環境内で少なくとも1つのアクションを実行する少なくとも1人の被験者の複数のビデオを取得することと、少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1人の被験者の追跡とに基づいて、少なくとも1人の被験者の3次元(3D)モデルを再構築することと、を含む。
【0009】
さらに方法に関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の1又は2以上のキーポイントを決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を1又は2以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1人の被験者の3Dモデルを複数のビデオに基づいて再構築することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは2次元(2D)ビデオである。
【0010】
本明細書の残り部分及び添付図面を参照することにより、本明細書に開示する特定の実装の特質及び利点をさらに理解することができる。
【図面の簡単な説明】
【0011】
図1】本明細書で説明する実装に使用できる、ビデオ解析のための追跡によるポーズ再構築のための環境例100のブロック図である。
図2】いくつかの実施形態による、ビデオ解析のための追跡によるポーズ再構築のためのフロー図例である。
図3】いくつかの実施形態による、マルチビューポーズを再構築するためのフロー図例である。
図4】本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例のブロック図である。
図5】本明細書で説明する実装に使用できる、臨床活動を認識するための環境例を示すブロック図である。
図6】いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。
図7】いくつかの実施形態による、再構築されたポーズを提供するためのフロー図例である。
図8】本明細書で説明する実装に使用できるネットワーク環境例のブロック図である。
図9】本明細書で説明する実装に使用できるコンピュータシステム例のブロック図である。
【発明を実施するための形態】
【0012】
本明細書で説明する実施形態は、ビデオ解析のための追跡によるポーズ再構築を可能にし、容易にし、管理する。様々な実施形態では、システムが、環境内で少なくとも1つのアクションを実行している少なくとも1人の被験者のビデオを取得する。システムは、少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡する。システムは、ビデオ及び少なくとも1人の被験者の追跡に基づいて、少なくとも1人の被験者の3次元(3D)モデルをさらに再構築する。
【0013】
図1は、本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例100のブロック図である。本明細書でさらに詳細に説明するように、システム102は、より良い患者治療及びより高い病院効率を提供するコンテキストアウェアシステムである。いくつかの実装では、環境100が、ネットワーク106を介してクライアント104と通信するシステム102を含む。ネットワーク106は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0014】
様々な実施形態では、環境100が、1又は2以上の人々及び/又は1又は2以上のオブジェクトを含む活動が認識され、モニタされ、追跡されるいずれかの環境であることができる。様々な実施形態では、環境100がいずれかの臨床環境であることができる。例えば、いくつかの実施形態では、環境100が手術室であることができる。他の実施形態では、環境100が、集中治療室(ICU)、病室、緊急救命室などであることができる。
【0015】
活動エリア110は、手術室の手術エリアであることができる。いくつかの実施形態では、活動エリア110が手術室全体であることができる。様々な実施形態では、システム102、クライアント104及びネットワーク106が、環境に対して局所的なもの、遠隔的なもの(例えば、クラウド内)、又はこれらの組み合わせであることができる。
【0016】
様々な実施形態では、少なくとも2つのビデオカメラによってビデオが取り込まれる。例えば、図示のように、システム102は、活動エリア110内のオブジェクト108のビデオを異なる角度で取り込む物理的ビデオカメラ112、114、116及び118を使用してオブジェクト108の活動をモニタする。
【0017】
本明細書でさらに詳細に説明するように、様々な実施形態では、オブジェクト108が1又は2以上の人々を表すことができる。例えば、様々なシナリオでは、オブジェクト108が、医師及び看護師などの臨床医、1又は2以上の助手、患者などのうちの1人又は2人以上を表すことができる。様々な実施形態では、オブジェクト108が1又は2以上の無生物を表すこともできる。例えば、様々なシナリオでは、オブジェクト108が、1又は2以上の病院ベッド、手術器具、手術ツールなどを表すことができる。また、オブジェクト108は、複数の人物又は複数の無生物、或いはこれらの組み合わせを表すこともできる。特定のタイプのオブジェクトは様々であることができ、特定の実装に依存する。様々な実施形態では、オブジェクト108を、被験者108、人物108、ターゲットユーザ108、又はいずれかの無生物オブジェクト108と呼ぶこともできる。
【0018】
様々な実施形態では、システムが、被験者がウェアラブル機器を有する必要がないという点で効率的な視覚ベースのアプローチを利用する。また、視覚ベースのアプローチは、システムの異なる設定に対して高度にスケーラブルでもある。様々な実施形態では、システムが、臨床環境(例えば、手術室、緊急救命室など)における活動を自動的かつ正確に認識することで、臨床活動の最適化に重要な手術又は臨床ワークフローの理解を可能にする。システムは、患者の転帰及びケアを強化してスタッフのコストを削減するために、スタッフ及び患者活動のリアルタイムモニタリングを実行する。
【0019】
様々な実施形態では、異なる角度及び/又は異なる距離を含む、同じオブジェクトの異なる視点から複数のビデオ画像及び/又は静止画像を取り込むために、物理的ビデオカメラ112、114、116及び118が様々な場所に配置される。カメラという用語とビデオカメラという用語は同義的に使用することができる。これらの異なる視点は、異なるオブジェクトの外観を区別しやすくする。
【0020】
説明を容易にするために、図1には、システム102、クライアント104、ネットワーク106及び活動エリア110の各々につき1つのブロックを示す。ブロック102、104、106及び110は、複数のシステム、クライアント装置、ネットワーク及び活動エリアを表すこともできる。また、所与の活動エリアにはあらゆる数の人々/被験者が存在することができる。例えば、いくつかの実施形態では、被験者108が1又は2以上の異なる被験者を表すことができる。他の実装では、環境100が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0021】
本明細書で説明する実施形態はシステム102によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム102に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム102に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0022】
図2は、いくつかの実施形態による、ビデオ解析のための追跡によるポーズ再構築のためのフロー図例である。図1及び図2を共に参照すると、方法は、システム102などのシステムが環境内で少なくとも1つのアクションを実行している少なくとも1人の被験者の複数のビデオを取得するブロック202から開始する。様々な実施形態では、カメラがビデオを録画し、ビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、(事前較正されたものを含む)所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、1又は2以上の内的行列(intrinsic matrices)、1又は2以上の外的行列(extrinsic matrices)などを含むことができる。
【0023】
ブロック204において、システム102が少なくとも1人の被験者を少なくとも2つのカメラにわたって追跡する。様々な実施形態では、取得されるビデオが2次元(2D)ビデオである。様々な実施形態では、システムが、複数のカメラからの2Dビデオ情報を処理することによって、クロスビュー関連付けの曖昧さ(cross-view association ambiguity)を回避する。オクルージョンに起因するノイズ及び不完全な2Dポーズは、異なるカメラからの所与のポーズの関連付けを複雑にし、これによって3D空間におけるポーズの再構築にさらに影響が及ぶ恐れがある。システムは、複数のカメラを利用することにより、各個々のオブジェクトを見失うことなくカメラからカメラへと追跡することができる。
【0024】
様々な実施形態では、システムが、ビデオカメラを介して追跡する各オブジェクト又は被験者の1又は2以上のキーポイントを決定する。システムは、各オブジェクトに関連するポーズ情報も決定する。システムは、各オブジェクトに関連するそれぞれのキーポイントにも基づいてポーズ情報を決定する。様々な実施形態では、システムが、少なくとも1人の被験者に関連するポーズ情報を三角測量に基づいて決定する。キーポイント、ポーズ情報及び三角測量に関連するさらなる実施形態については、本明細書でさらに詳細に説明する。
【0025】
ブロック206において、システム102が、ビデオと少なくとも1人の被験者の追跡とに基づいて少なくとも1人の被験者の3次元(3D)モデルを再構築する。様々な実施形態では、システムが、2Dビデオであるビデオに基づいてオブジェクト又は被験者の3Dモデルを再構築する。3Dモデルの再構築は、様々なエリアに応用することができる。例えば、このようなエリアは、医療又はスポーツ分野、監視及びセキュリティ、小売業又は製造業などでの行動理解に応用することができる。具体的な用途は様々であることができ、特定の実装に依存する。
【0026】
ステップ、動作又は計算については特定の順序で示しているかもしれないが、特定の実装では順序を変更することもできる。特定の実装に応じて他のステップ順も可能である。いくつかの特定の実装では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。また、いくつかの実装は、全てのステップを有さないことも、及び/又は本明細書に示すステップに代えて又は加えて他のステップを有することもできる。
【0027】
図3は、いくつかの実施形態による、マルチビューポーズを再構築するためのフロー図例である。以下の詳細は、いくつかの実施形態によるポーズ再構築及び追跡フレームワークについて説明するものである。図1及び図3を共に参照すると、方法は、システム102などのシステムがカメラパラメータを取得するブロック302から開始する。様々な実施形態では、カメラパラメータが、環境の設定に応じて、システム内の各カメラの内的行列及び外的行列を含むことができる。
【0028】
ブロック304において、システム102が2次元(2D)ポーズ情報を計算する。様々な実施形態では、システムが、2Dポーズ情報を計算するために一般的なキーポイント推定器を利用し、トップダウンアプローチ又はボトムアップアプローチのいずれかを使用することができる。
【0029】
ブロック306において、システム102が2Dポーズのマッチングを行う。様々な実施形態では、ポーズマッチングが、複数のカメラにわたって一貫したビデオに取り込まれた各ターゲットオブジェクトのアイデンティティを維持し、追跡する。様々な実施形態では、システムが、マッチングに1又は2以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束(epipolar constraints)、データ関連付けのためのユークリッド距離及びアルゴリズム(Euclidean distance and algorithm for data association)、ハンガリアンアルゴリズム(Hungarian algorithm)などを挙げることができる。
【0030】
例示的なシナリオでは、システムが、幾何学的拘束(geometric constraints)及びサイクル一貫性拘束(cycle-consistent constraints)などを使用することにより、同じ人物の2Dポーズを異なるカメラビューにわたって関連付けることができる。従って、ある人物が1つのカメラの視野から外れた場合には、同じ環境内の別のカメラの視野に同じ人物が取り込まれる。様々な実施形態では、システムが、四肢の関節、身長、関節及び四肢の位置、人物の軌跡などの、ある人物の一部の検出及び知識に基づいてその人物の動き及びポーズを追跡することができる。
【0031】
本明細書で説明する実施形態は、ポーズをカメラにわたってフレーム毎に関連付ける従来の方法とは対照的に、3D空間内のポーズ追跡情報を使用することによって計算を抑える。
【0032】
ブロック308において、システム102が、逆投影された(back-projected)2Dポーズ情報を取得する。様々な実施形態では、システムが、ブロック310からの3Dポーズ情報を画像平面に投影することによって、逆投影された2Dポーズ情報を取得することができる。様々な実施形態では、3D空間からの追跡情報が、ブロック306におけるポーズマッチングのための指針を現在のフレームに与える。
【0033】
ブロック310において、システム102が3Dポーズを再構築する。様々な実施形態では、システムが、複数の2D対応ポーズ及び三角測量に基づいてポーズの3D位置を決定する。三角測量に関する実施形態については、例えば図7に関連して本明細書でさらに詳細に説明する。
【0034】
図4は、本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例400のブロック図である。環境400は、カメラ402、404及び406を含む。様々な実施形態では、カメラ402~406を異なる位置に配置することができる。
【0035】
様々な実施形態では、カメラ402~406を、これらの視野が重なるように異なる位置に配置することができる。図示のように、カメラ402、404及び406の視野は重複領域408において重なり合う。重複領域408に所与の1又は複数のオブジェクト(例えば、スタッフ、患者など)が配置されると、カメラ402、404及び406の各々は、所与の1又は複数のオブジェクトの映像(footage)を取り込むことができる。
【0036】
様々な実施形態では、カメラ402~406が、オクルージョンを回避して環境内のオブジェクトの3D再構築を可能にするように設定されて予め較正される。様々な実施形態では、較正に使用されるオブジェクトが全てのカメラに同時に見える。3つのカメラを示しているが、環境400内にはあらゆる数のカメラが存在することができる。特定のカメラ数は特定の環境に依存することができる。様々な実施形態では、環境内のパターンを較正するために、システムがカメラ402~406を使用して床のタイルなどのオブジェクトをモニタする。一般的に使用されているチェッカーボードパターン又は赤色-緑色-青色-深度(RGB-D)カメラの使用を含む別のカメラ較正法を使用することもできる。
【0037】
図5は、本明細書で説明する実装に使用できる、臨床活動を認識するための環境例500のブロック図である。オブジェクト又は被験者506及び508のビデオ映像を取り込むカメラ502及び504を示す。オブジェクト506及び508は、例えば手術室内の職員、又は手術室内の職員及び患者などであることができる。
【0038】
様々な実施形態では、システムが、スケルトンベースの活動認識を含むデータ融合及び臨床行動認識を実行する。上述したように、様々な実施形態では、データ融合が、1つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の2D対応ポーズを所与として仮想3D空間内の全てのオブジェクト(例えば、スタッフ、患者など)の3Dポーズを再構築する。
【0039】
システムは、各職員及び患者のアクションを骨格ポーズに基づいて認識する。このようなアクションは、立つこと、歩くこと、しゃがむこと、座ることなどを含むことができる。システムは、行動分類器を利用してこのようなアクションを認識することができる。システムのプロセスは、RGB画像又は深度マップに比べて、背景オブジェクト及び無関係なオブジェクト(例えば、衣服の質感など)などの視覚的ノイズに対してロバストである。別の方法としては、画像又は深度マップから直接アクションを認識することを挙げることができる。いくつかの実施形態では、システムが、再構築された3D空間内でポーズを追跡し、空間的空間(spatial space)及び時間的空間の両方から骨格特徴を抽出することによって、さらなる利得を達成することができる。
【0040】
図6は、いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。図1及び図6を共に参照すると、方法は、システム102などのシステムが逆投影された2Dポーズ情報を取得するブロック602から開始する。
【0041】
ブロック604において、システム102が推定されるポーズを取得する。システムは、カメラ内で検出された各オブジェクトの推定されるポーズを収集する。
【0042】
ブロック606において、システム102が対応するポーズを発見する。このような対応するポーズは、異なるカメラによって取り込まれた同じオブジェクト(例えば、人物)の異なるポーズを含むことができる。
【0043】
ブロック608において、システム102がポーズのマッチングを行う。例えば、システムは、異なるカメラからの同じオブジェクト(例えば、人物)のポーズをマッチさせる。いくつかの実施形態では、システムが、ポーズがいずれかの既存のトラックレット(tracklets)にマッチしなかった場合にポーズマッチングステップを実行する。トラックレットは、画像認識システムによって構築される、移動オブジェクトがたどる軌道の断片として定義することができる。
【0044】
様々な実施形態では、システムが、マッチングに1又は2以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束、データ関連付けのためのユークリッド距離及びアルゴリズム、ハンガリアンアルゴリズムなどを挙げることができる。
【0045】
ブロック610において、システム102がマッチ結果を提供する。マッチ結果は、各特定のオブジェクト(例えば、人物)の全てのポーズを示す。
【0046】
図7は、いくつかの実施形態による、再構築されたポーズを提供するためのフロー図例である。図1及び図7を共に参照すると、方法は、システム102などのシステムが2Dポーズのマッチングを行うブロック702から開始する。
【0047】
ブロック704において、システム102が2Dポーズから複数対のビューを選択する。様々な実施形態では、システムが各対を異なるカメラから取得する。様々な実施形態では、複数対のビューの選択が2つの条件に基づくことができる。いくつかの実施形態では、第1の条件を、再投影誤差が所定の閾値未満であることに基づいてビューの対を選択することとすることができる。いくつかの実施形態では、第2の条件を、信頼スコアが所定の閾値よりも高いことに基づいてビューの対を選択することとすることができる。例えば、高い信頼スコアはオクルージョンが少ないことに関連することができ、低い信頼スコアはオクルージョンが多いことに関連することができる。この選択は、正確な3D再構築のために再投影誤差を最小化して信頼スコアを最大化することによって達成することができる。
【0048】
後述するように、方法は、2つの一連のステップに従って再構築されたポーズを提供する。第1の一連のステップは、ブロック706、708及び710に関連する。システムは、ビューの対の組が空でない場合にはこれらのステップを実行する。第2の一連のステップは、ブロック712、714及び716に関連する。システムは、ビューの対が選択されない場合にはこれらのステップを実行する。
【0049】
ブロック706において、システム102が2つのビューを選択する。様々な実施形態では、システムが、最大ランクの信頼スコア及び最小ランクの再投影誤差を有する2つのビューを選択する。ブロック708に関連して後述するように、システムは、3Dポーズ再構築のために2つのビューを使用して三角測量を実行することができる。
【0050】
ブロック708において、システム102が三角測量を実行する。様々な実施形態では、システムが適応的三角測量(adaptive triangulation)を利用することができる。三角測量は、マルチビューフレームワークにおける所与の2D一致ポーズに基づいて3Dポーズ情報を取得するために使用することができる。いくつかの実施形態では、システムが、全てのカメラにわたって再構築を実行する代わりに、カメラビューのサブセットを3Dポーズ再構築のために適応的に選択することができる。例えば、システムは、計算を最小化するために、所与のターゲットオブジェクトを取り込むカメラを決定することができる。所与のオブジェクトを取り込まない他のカメラは不要であり、従ってこの特定のオブジェクトの情報の収集には使用されない。オブジェクトを取り込むカメラのみを使用することで、システムが実行する計算が十分ではあるが過剰ではないことが保証される。
【0051】
ブロック710において、システム102が再構築されたポーズを提供する。様々な実施形態では、システムが、複数の2D対応ポーズ及び三角測量に基づいて、同じオブジェクト(例えば、臨床医、患者など)の各ポーズの3D位置を決定する。システムは、各オブジェクトの3Dポーズを再構築するために複数のカメラのビデオフィードからポーズを決定する。
【0052】
上述したように、第2の一連のステップはブロック712、714及び716に関連する。システムは、ビューの対が選択されない場合にこれらのステップを実行する。
【0053】
ブロック712において、システム102が三角測量を実行する。様々な実施形態では、システム102が、上述したステップ708と同様に三角測量を実行する。
【0054】
ブロック714において、システム102がポーズを統合する。例えば、様々な実施形態では、システムが、各オブジェクト(例えば、臨床医、患者など)を取り込む異なるカメラの異なる視点からの各オブジェクトのポーズを集約する。
【0055】
ブロック716において、システム102が再構築されたポーズを提供する。様々な実施形態では、システム102が、上述したステップ710と同様に三角測量を実行する。
【0056】
本明細書で説明する実施形態は、様々な利点を提供する。例えば、実施形態は、較正されたカメラの組を使用して環境内の全ての人物の3Dポーズを効率的に推定する。実施形態は、いずれかのリアルタイムマルチパーソン2Dポーズ推定システムの上に成り立つことができ、このような実施形態は、実用的用途において頻繁に発生し得るオクルージョンに対してロバストである。
【0057】
本明細書で説明する実施形態は、単純でありながら、3Dでのマルチカメラマルチターゲットポーズ再構築において有効である。また、本明細書で説明する実施形態は、さらなる3Dポーズ再構築のための重要なステップとして機能するポーズマッチングのためのコスト効率の高い解決策を提供する。
【0058】
図8は、本明細書で説明するいくつかの実装に使用できるネットワーク環境例800のブロック図である。いくつかの実装では、ネットワーク環境800が、サーバ装置804とデータベース806とを含むシステム802を含む。例えば、システム802は、図1のシステム102を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。ネットワーク環境800は、システム802と通信できる、及び/又は直接又はシステム802を介して互いに通信できるクライアント装置810、820、830及び840も含む。ネットワーク環境800は、システム802及びクライアント装置810、820、830及び840が通信できるようにするネットワーク850も含む。ネットワーク850は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0059】
説明を容易にするために、図8には、システム802、サーバ装置804及びネットワークデータベース806の各々につき1つのブロックと、クライアント装置810、820、830及び840のための4つのブロックとを示す。ブロック802、804及び806は、複数のシステム、サーバ装置及びネットワークデータベースを表すこともできる。また、あらゆる数のクライアント装置が存在することができる。他の実装では、環境800が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0060】
本明細書で説明する実施形態はシステム802のサーバ装置804によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム802に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム802に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0061】
本明細書で説明する様々な実施形態では、システム802のプロセッサ及び/又はいずれかのクライアント装置810、820、830及び840のプロセッサが、本明細書で説明する要素(例えば、情報など)が1又は2以上のディスプレイ画面上のユーザインターフェイス内に表示されるようにする。
【0062】
図9は、本明細書で説明するいくつかの実装に使用できるコンピュータシステム例900のブロック図である。例えば、コンピュータシステム900は、図8のサーバ装置804及び/又は図1のシステム102を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。いくつかの実装では、コンピュータシステム900が、プロセッサ902、オペレーティングシステム904、メモリ906、及び入力/出力(I/O)インターフェイス908を含むことができる。様々な実装では、プロセッサ902を、本明細書で説明する様々な機能及び特徴を実装するため、並びに本明細書で説明する方法の実装を実行するために使用することができる。本明細書で説明する実装を実行するものとしてプロセッサ902を説明しているが、説明するステップは、コンピュータシステム900のいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはコンピュータシステム900又はいずれかの好適なシステムに関連するいずれかの好適な1又は複数のプロセッサが実行することもできる。本明細書で説明する実装は、ユーザ装置上で、サーバ上で、又はこれらの組み合わせにおいて実行することができる。
【0063】
コンピュータシステム900は、メモリ906上、又は他のいずれかの好適な記憶位置、又はコンピュータ可読媒体上に記憶することができるソフトウェアアプリケーション910を含む。ソフトウェアアプリケーション910は、本明細書で説明する実装及びその他の機能をプロセッサ902が実行することを可能にする命令を与える。ソフトウェアアプリケーションは、1又は2以上のネットワーク及びネットワーク通信に関連する様々な機能を実行するネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム900のコンポーネントは、1又は2以上のプロセッサ、又はハードウェア装置のいずれかの組み合わせ、並びにハードウェア、ソフトウェア、ファームウェアなどのいずれかの組み合わせによって実装することができる。
【0064】
説明を容易にするために、図9には、プロセッサ902、オペレーティングシステム904、メモリ906、I/Oインターフェイス908及びソフトウェアアプリケーション910の各々につき1つのブロックを示す。これらのブロック902、904、906、908及び910は、複数のプロセッサ、オペレーティングシステム、メモリ、I/Oインターフェイス、及びソフトウェアアプリケーションを表すこともできる。様々な実装では、コンピュータシステム900が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0065】
特定の実施形態に関して説明を行ったが、これらの特定の実施形態は例示にすぎず、限定的なものではない。これらの実施例に示す概念は、他の実施例及び実装に適用することもできる。
【0066】
様々な実装では、1又は2以上のプロセッサによる実行のためのソフトウェアが1又は2以上の非一時的コンピュータ可読媒体に符号化される。このソフトウェアは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行する。
【0067】
特定の実施形態のルーチンの実装には、C、C++、Java、アセンブリ言語などを含むいずれかの好適なプログラミング言語を使用することができる。手続き型又はオブジェクト指向型などの異なるプログラミング技術を使用することができる。これらのルーチンは、単一の処理装置又は複数のプロセッサ上で実行することができる。ステップ、動作又は計算については特定の順序で示しているかもしれないが、異なる特定の実施形態ではこの順序を変更することができる。いくつかの特定の実施形態では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。
【0068】
特定の実施形態は、命令実行システム、装置又はデバイスが使用する、或いはこれらに接続された(機械可読記憶媒体とも呼ばれる)非一時的コンピュータ可読記憶媒体に実装することができる。特定の実施形態は、ソフトウェア又はハードウェア又はこれらの組み合わせにおける制御ロジックの形で実装することもできる。制御ロジックは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行することができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。
【0069】
特定の実施形態は、プログラム可能な汎用デジタルコンピュータを使用することによって、及び/又は特定用途向け集積回路、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノエンジニアリングシステム、コンポーネント及び機構を使用することによって実装することができる。一般に、特定の実施形態の機能は、当業で周知のあらゆる手段によって実現することができる。分散型のネットワーク化されたシステム、コンポーネント及び/又は回路を使用することもできる。データの通信又は転送は、有線、無線又は他のいずれかの手段によるものとすることができる。
【0070】
「プロセッサ」は、データ、信号又はその他の情報を処理するいずれかの好適なハードウェア及び/又はソフトウェアシステム、機構又はコンポーネントを含むことができる。プロセッサは、汎用中央処理装置、複数の処理装置、機能を実現するための専用回路又はその他のシステムを有するシステムを含むことができる。処理は、地理的位置に制限される必要も、又は時間的制限を有する必要もない。例えば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行することができる。処理の一部は、異なる(又は同じ)処理システムが異なる時点に異なる場所で実行することもできる。コンピュータは、メモリと通信するいずれかのプロセッサとすることができる。メモリは、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、磁気記憶装置(ハードディスクドライブなど)、フラッシュ、光学記憶装置(CD又はDVDなど)、磁気又は光ディスク、或いはプロセッサによって実行される命令(例えば、プログラム又はソフトウェア命令)を記憶するのに適したその他の有形媒体などの電子的記憶装置を含むいずれかの好適なデータストレージ、メモリ及び/又は非一時的コンピュータ可読記憶媒体とすることができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。命令は、例えばサーバ(例えば、分散システム及び/又はクラウドコンピューティングシステム)から配信されるサービス型ソフトウェア(SaaS)などの形態の電気信号に含めて電気信号として提供することもできる。
【0071】
また、特定の用途に従って有用である時には、図面/図に示す要素のうちの1つ又は2つ以上をより分離又は統合された形で実装し、或いはいくつかの事例では除去又は動作不能とすることもできると理解されるであろう。上述した方法のいずれかをコンピュータが実行できるようにする、機械可読媒体に記憶できるプログラム又はコードを実装することも本発明の趣旨及び範囲に含まれる。
【0072】
本明細書及び以下の特許請求の範囲全体を通じて使用する「1つの(英文不定冠詞)」及び「その(英文定冠詞)」は、文脈において別途明確に示していない限り複数形の照応を含む。また、本明細書及び以下の特許請求の範囲全体を通じて使用する「~内(in)」の意味は、文脈において別途明確に示していない限り、「~内(in)」及び「~上(on)」の意味を含む。
【0073】
以上、本明細書では特定の実施形態について説明したが、上述した開示では修正、様々な変更及び置換の自由が意図されており、いくつかの例では、記載した範囲及び趣旨から逸脱することなく、特定の実施形態のいくつかの特徴が対応する他の特徴の使用を伴わずに使用されると理解されたい。従って、特定の状況又は材料を基本的範囲及び趣旨に適合させるように多くの修正を行うことができる。
【符号の説明】
【0074】
100 環境
102 システム
104 クライアント
106 ネットワーク
108 被験者
110 活動エリア
112~118 ビデオカメラ
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】