特表2024-519362 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー　コーポレイション　オブ　アメリカの特許一覧

特表2024-519362ビデオ解析のための追跡によるポーズ再構築

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-10

(54)【発明の名称】ビデオ解析のための追跡によるポーズ再構築

(51)【国際特許分類】

G06T 7/593 20170101AFI20240501BHJP

G06T 7/20 20170101ALI20240501BHJP

【ＦＩ】

G06T7/593

G06T7/20 300

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023571174

(86)(22)【出願日】2022-05-27

(85)【翻訳文提出日】2023-11-15

(86)【国際出願番号】 IB2022055034

(87)【国際公開番号】W WO2022259084

(87)【国際公開日】2022-12-15

(31)【優先権主張番号】17/344,734

(32)【優先日】2021-06-10

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＪＡＶＡ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(71)【出願人】

【識別番号】504257564

【氏名又は名称】ソニーコーポレイションオブアメリカ

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(72)【発明者】

【氏名】シューワンシン

(72)【発明者】

【氏名】ファンコ－カイアルバート

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096AA09

5L096BA06

5L096CA02

5L096CA05

5L096DA01

5L096FA09

5L096FA66

5L096FA69

5L096HA02

5L096HA05

(57)【要約】

実装は、一般にビデオ解析のための追跡によるポーズ再構築を実行する。いくつかの実装では、方法が、環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することを含む。方法は、少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することをさらに含む。方法は、複数のビデオと少なくとも１人の被験者の追跡とに基づいて、少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することをさらに含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

システムであって、
１又は２以上のプロセッサと、
１又は２以上の非一時的なコンピュータ可読記憶媒体に符号化された、前記１又は２以上のプロセッサによる実行のためのロジックと、
を備え、前記ロジックは、実行時に、
環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、
前記少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも１人の被験者の追跡とに基づいて、前記少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、
を含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、
ことを特徴とするシステム。

【請求項2】

前記取得される複数のビデオは２次元（２Ｄ）ビデオである、
請求項１に記載のシステム。

【請求項3】

前記環境は手術室である、
請求項１に記載のシステム。

【請求項4】

前記ロジックは、実行時に、前記少なくとも１人の被験者の１又は２以上のキーポイントを決定することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、
請求項１に記載のシステム。

【請求項5】

前記ロジックは、実行時に、前記少なくとも１人の被験者に関連するポーズ情報を決定することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、
請求項１に記載のシステム。

【請求項6】

前記ロジックは、実行時に、前記少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、
請求項１に記載のシステム。

【請求項7】

前記ロジックは、実行時に、前記少なくとも１人の被験者の３Ｄモデルを前記複数のビデオに基づいて再構築することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能であり、前記複数のビデオは２次元（２Ｄ）ビデオである、
請求項１に記載のシステム。

【請求項8】

プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記プログラム命令は、１又は２以上のプロセッサによって実行された時に、
環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、
前記少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも１人の被験者の追跡とに基づいて、前記少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、
を含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、ことを特徴とするコンピュータ可読記憶媒体。

【請求項9】

前記取得される複数のビデオは２次元（２Ｄ）ビデオである、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項10】

前記環境は手術室である、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項11】

前記命令は、実行時に、前記少なくとも１人の被験者の１又は２以上のキーポイントを決定することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項12】

前記命令は、実行時に、前記少なくとも１人の被験者に関連するポーズ情報を決定することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能である、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項13】

前記命令は、実行時に、前記少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を前記１又は２以上のプロセッサに実行させるように動作可能である、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項14】

前記命令は、実行時に、前記少なくとも１人の被験者の３Ｄモデルを前記複数のビデオに基づいて再構築することを含む動作を前記１又は２以上のプロセッサに実行させるようにさらに動作可能であり、前記複数のビデオは２次元（２Ｄ）ビデオである、
請求項８に記載のコンピュータ可読記憶媒体。

【請求項15】

コンピュータ実装方法であって、
環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、
前記少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも１人の被験者の追跡とに基づいて、前記少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、
を含むことを特徴とする方法。

【請求項16】

前記取得される複数のビデオは２次元（２Ｄ）ビデオである、
請求項１５に記載の方法。

【請求項17】

前記環境は手術室である、
請求項１５に記載の方法。

【請求項18】

前記少なくとも１人の被験者の１又は２以上のキーポイントを決定することをさらに含む、
請求項１５に記載の方法。

【請求項19】

前記少なくとも１人の被験者に関連するポーズ情報を決定することさらに含む、
請求項１５に記載の方法。

【請求項20】

前記少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することをさらに含む、
請求項１５に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願との相互参照〕
本出願は、２０２１年６月１０日に出願された「ビデオ解析のための追跡によるポーズ再構築（ＰＯＳＥＲＥＣＯＮＳＴＲＵＣＴＩＯＮＢＹＴＲＡＣＫＩＮＧＦＯＲＶＩＤＥＯＡＮＡＬＹＳＩＳ）」という名称の米国特許出願第１７／３４４，７３４号（クライアント参照番号：ＳＹＰ３３９２１６ＵＳ０１）に基づく優先権を主張するものであり、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。

【0002】

本出願は、２０２１年６月１０日に出願された「複数のカメラを用いた臨床活動認識（ＣＬＩＮＩＣＡＬＡＣＴＩＶＩＴＹＲＥＣＯＧＮＩＴＩＯＮＷＩＴＨＭＵＬＴＩＰＬＥＣＡＭＥＲＡＳ）」という名称の米国特許出願シリアル番号第１７／３４４，７３０号（ＳＹＰ３３９２１４ＵＳ０１）に関連し、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。

【背景技術】

【0003】

カメラシステムの中には、人物のビデオを取り込み、人物の動きを分析し、メタデータの画像又はビデオデータセットを生成できるものがある。システムのカメラビデオによって取り込まれた人間のアクションを識別するには、ある人物がビデオを手動で確認する必要がある。手動でのモニタリング及びイベント報告は、特にビデオカメラの位置及び角度が変化して十分なカバレッジを提供できない場合に信頼性が低く、多大な時間を要する場合がある。管理された環境内で複数のカメラを使用することもできる。しかしながら、被写体、動き及び背景の変動が依然として大幅に制限される場合がある。

【発明の概要】

【課題を解決するための手段】

【0004】

実施形態は、一般にビデオ解析のための追跡によるポーズ再構築に関する。いくつかの実施形態では、システムが、１又は２以上のプロセッサと、１又は２以上の非一時的なコンピュータ可読記憶媒体に符号化された、１又は２以上のプロセッサによる実行のためのロジックとを含む。ロジックは、実行時に、環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、複数のビデオと少なくとも１人の被験者の追跡とに基づいて、少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、を含む動作を１又は２以上のプロセッサに実行させるように動作可能である。

【0005】

さらにシステムに関して、いくつかの実施形態では、取得される複数のビデオが２次元（２Ｄ）ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の１又は２以上のキーポイントを決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を１又は２以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の３Ｄモデルを複数のビデオに基づいて再構築することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは２次元（２Ｄ）ビデオである。

【0006】

いくつかの実施形態では、プログラム命令を有する非一時的なコンピュータ可読記憶媒体を提供する。命令は、１又は２以上のプロセッサによって実行された時に、環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、複数のビデオと少なくとも１人の被験者の追跡とに基づいて、少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、を含む動作を１又は２以上のプロセッサに実行させるように動作可能である。

【0007】

さらにコンピュータ可読記憶媒体に関して、いくつかの実施形態では、取得される複数のビデオが２次元（２Ｄ）ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の１又は２以上のキーポイントを決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を１又は２以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の３Ｄモデルを複数のビデオに基づいて再構築することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは２次元（２Ｄ）ビデオである。

【0008】

いくつかの実施形態では、方法が、環境内で少なくとも１つのアクションを実行する少なくとも１人の被験者の複数のビデオを取得することと、少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡することと、複数のビデオと少なくとも１人の被験者の追跡とに基づいて、少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築することと、を含む。

【0009】

さらに方法に関して、いくつかの実施形態では、取得される複数のビデオが２次元（２Ｄ）ビデオである。いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の１又は２以上のキーポイントを決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を決定することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定することを含む動作を１又は２以上のプロセッサに実行させるように動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも１人の被験者の３Ｄモデルを複数のビデオに基づいて再構築することを含む動作を１又は２以上のプロセッサに実行させるようにさらに動作可能であり、複数のビデオは２次元（２Ｄ）ビデオである。

【0010】

本明細書の残り部分及び添付図面を参照することにより、本明細書に開示する特定の実装の特質及び利点をさらに理解することができる。

【図面の簡単な説明】

【0011】

【図1】本明細書で説明する実装に使用できる、ビデオ解析のための追跡によるポーズ再構築のための環境例１００のブロック図である。

【図2】いくつかの実施形態による、ビデオ解析のための追跡によるポーズ再構築のためのフロー図例である。

【図3】いくつかの実施形態による、マルチビューポーズを再構築するためのフロー図例である。

【図4】本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例のブロック図である。

【図5】本明細書で説明する実装に使用できる、臨床活動を認識するための環境例を示すブロック図である。

【図6】いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。

【図7】いくつかの実施形態による、再構築されたポーズを提供するためのフロー図例である。

【図8】本明細書で説明する実装に使用できるネットワーク環境例のブロック図である。

【図9】本明細書で説明する実装に使用できるコンピュータシステム例のブロック図である。

【発明を実施するための形態】

【0012】

本明細書で説明する実施形態は、ビデオ解析のための追跡によるポーズ再構築を可能にし、容易にし、管理する。様々な実施形態では、システムが、環境内で少なくとも１つのアクションを実行している少なくとも１人の被験者のビデオを取得する。システムは、少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡する。システムは、ビデオ及び少なくとも１人の被験者の追跡に基づいて、少なくとも１人の被験者の３次元（３Ｄ）モデルをさらに再構築する。

【0013】

図１は、本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例１００のブロック図である。本明細書でさらに詳細に説明するように、システム１０２は、より良い患者治療及びより高い病院効率を提供するコンテキストアウェアシステムである。いくつかの実装では、環境１００が、ネットワーク１０６を介してクライアント１０４と通信するシステム１０２を含む。ネットワーク１０６は、Ｗｉ－Ｆｉネットワーク、Ｂｌｕｅｔｏｏｔｈネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。

【0014】

様々な実施形態では、環境１００が、１又は２以上の人々及び／又は１又は２以上のオブジェクトを含む活動が認識され、モニタされ、追跡されるいずれかの環境であることができる。様々な実施形態では、環境１００がいずれかの臨床環境であることができる。例えば、いくつかの実施形態では、環境１００が手術室であることができる。他の実施形態では、環境１００が、集中治療室（ＩＣＵ）、病室、緊急救命室などであることができる。

【0015】

活動エリア１１０は、手術室の手術エリアであることができる。いくつかの実施形態では、活動エリア１１０が手術室全体であることができる。様々な実施形態では、システム１０２、クライアント１０４及びネットワーク１０６が、環境に対して局所的なもの、遠隔的なもの（例えば、クラウド内）、又はこれらの組み合わせであることができる。

【0016】

様々な実施形態では、少なくとも２つのビデオカメラによってビデオが取り込まれる。例えば、図示のように、システム１０２は、活動エリア１１０内のオブジェクト１０８のビデオを異なる角度で取り込む物理的ビデオカメラ１１２、１１４、１１６及び１１８を使用してオブジェクト１０８の活動をモニタする。

【0017】

本明細書でさらに詳細に説明するように、様々な実施形態では、オブジェクト１０８が１又は２以上の人々を表すことができる。例えば、様々なシナリオでは、オブジェクト１０８が、医師及び看護師などの臨床医、１又は２以上の助手、患者などのうちの１人又は２人以上を表すことができる。様々な実施形態では、オブジェクト１０８が１又は２以上の無生物を表すこともできる。例えば、様々なシナリオでは、オブジェクト１０８が、１又は２以上の病院ベッド、手術器具、手術ツールなどを表すことができる。また、オブジェクト１０８は、複数の人物又は複数の無生物、或いはこれらの組み合わせを表すこともできる。特定のタイプのオブジェクトは様々であることができ、特定の実装に依存する。様々な実施形態では、オブジェクト１０８を、被験者１０８、人物１０８、ターゲットユーザ１０８、又はいずれかの無生物オブジェクト１０８と呼ぶこともできる。

【0018】

様々な実施形態では、システムが、被験者がウェアラブル機器を有する必要がないという点で効率的な視覚ベースのアプローチを利用する。また、視覚ベースのアプローチは、システムの異なる設定に対して高度にスケーラブルでもある。様々な実施形態では、システムが、臨床環境（例えば、手術室、緊急救命室など）における活動を自動的かつ正確に認識することで、臨床活動の最適化に重要な手術又は臨床ワークフローの理解を可能にする。システムは、患者の転帰及びケアを強化してスタッフのコストを削減するために、スタッフ及び患者活動のリアルタイムモニタリングを実行する。

【0019】

様々な実施形態では、異なる角度及び／又は異なる距離を含む、同じオブジェクトの異なる視点から複数のビデオ画像及び／又は静止画像を取り込むために、物理的ビデオカメラ１１２、１１４、１１６及び１１８が様々な場所に配置される。カメラという用語とビデオカメラという用語は同義的に使用することができる。これらの異なる視点は、異なるオブジェクトの外観を区別しやすくする。

【0020】

説明を容易にするために、図１には、システム１０２、クライアント１０４、ネットワーク１０６及び活動エリア１１０の各々につき１つのブロックを示す。ブロック１０２、１０４、１０６及び１１０は、複数のシステム、クライアント装置、ネットワーク及び活動エリアを表すこともできる。また、所与の活動エリアにはあらゆる数の人々／被験者が存在することができる。例えば、いくつかの実施形態では、被験者１０８が１又は２以上の異なる被験者を表すことができる。他の実装では、環境１００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

【0021】

本明細書で説明する実施形態はシステム１０２によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム１０２に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム１０２に関連するいずれかの好適な１又は複数のプロセッサが容易にすることができる。

【0022】

図２は、いくつかの実施形態による、ビデオ解析のための追跡によるポーズ再構築のためのフロー図例である。図１及び図２を共に参照すると、方法は、システム１０２などのシステムが環境内で少なくとも１つのアクションを実行している少なくとも１人の被験者の複数のビデオを取得するブロック２０２から開始する。様々な実施形態では、カメラがビデオを録画し、ビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、（事前較正されたものを含む）所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、１又は２以上の内的行列（ｉｎｔｒｉｎｓｉｃｍａｔｒｉｃｅｓ）、１又は２以上の外的行列（ｅｘｔｒｉｎｓｉｃｍａｔｒｉｃｅｓ）などを含むことができる。

【0023】

ブロック２０４において、システム１０２が少なくとも１人の被験者を少なくとも２つのカメラにわたって追跡する。様々な実施形態では、取得されるビデオが２次元（２Ｄ）ビデオである。様々な実施形態では、システムが、複数のカメラからの２Ｄビデオ情報を処理することによって、クロスビュー関連付けの曖昧さ（ｃｒｏｓｓ－ｖｉｅｗａｓｓｏｃｉａｔｉｏｎａｍｂｉｇｕｉｔｙ）を回避する。オクルージョンに起因するノイズ及び不完全な２Ｄポーズは、異なるカメラからの所与のポーズの関連付けを複雑にし、これによって３Ｄ空間におけるポーズの再構築にさらに影響が及ぶ恐れがある。システムは、複数のカメラを利用することにより、各個々のオブジェクトを見失うことなくカメラからカメラへと追跡することができる。

【0024】

様々な実施形態では、システムが、ビデオカメラを介して追跡する各オブジェクト又は被験者の１又は２以上のキーポイントを決定する。システムは、各オブジェクトに関連するポーズ情報も決定する。システムは、各オブジェクトに関連するそれぞれのキーポイントにも基づいてポーズ情報を決定する。様々な実施形態では、システムが、少なくとも１人の被験者に関連するポーズ情報を三角測量に基づいて決定する。キーポイント、ポーズ情報及び三角測量に関連するさらなる実施形態については、本明細書でさらに詳細に説明する。

【0025】

ブロック２０６において、システム１０２が、ビデオと少なくとも１人の被験者の追跡とに基づいて少なくとも１人の被験者の３次元（３Ｄ）モデルを再構築する。様々な実施形態では、システムが、２Ｄビデオであるビデオに基づいてオブジェクト又は被験者の３Ｄモデルを再構築する。３Ｄモデルの再構築は、様々なエリアに応用することができる。例えば、このようなエリアは、医療又はスポーツ分野、監視及びセキュリティ、小売業又は製造業などでの行動理解に応用することができる。具体的な用途は様々であることができ、特定の実装に依存する。

【0026】

ステップ、動作又は計算については特定の順序で示しているかもしれないが、特定の実装では順序を変更することもできる。特定の実装に応じて他のステップ順も可能である。いくつかの特定の実装では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。また、いくつかの実装は、全てのステップを有さないことも、及び／又は本明細書に示すステップに代えて又は加えて他のステップを有することもできる。

【0027】

図３は、いくつかの実施形態による、マルチビューポーズを再構築するためのフロー図例である。以下の詳細は、いくつかの実施形態によるポーズ再構築及び追跡フレームワークについて説明するものである。図１及び図３を共に参照すると、方法は、システム１０２などのシステムがカメラパラメータを取得するブロック３０２から開始する。様々な実施形態では、カメラパラメータが、環境の設定に応じて、システム内の各カメラの内的行列及び外的行列を含むことができる。

【0028】

ブロック３０４において、システム１０２が２次元（２Ｄ）ポーズ情報を計算する。様々な実施形態では、システムが、２Ｄポーズ情報を計算するために一般的なキーポイント推定器を利用し、トップダウンアプローチ又はボトムアップアプローチのいずれかを使用することができる。

【0029】

ブロック３０６において、システム１０２が２Ｄポーズのマッチングを行う。様々な実施形態では、ポーズマッチングが、複数のカメラにわたって一貫したビデオに取り込まれた各ターゲットオブジェクトのアイデンティティを維持し、追跡する。様々な実施形態では、システムが、マッチングに１又は２以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束（ｅｐｉｐｏｌａｒｃｏｎｓｔｒａｉｎｔｓ）、データ関連付けのためのユークリッド距離及びアルゴリズム（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅａｎｄａｌｇｏｒｉｔｈｍｆｏｒｄａｔａａｓｓｏｃｉａｔｉｏｎ）、ハンガリアンアルゴリズム（Ｈｕｎｇａｒｉａｎａｌｇｏｒｉｔｈｍ）などを挙げることができる。

【0030】

例示的なシナリオでは、システムが、幾何学的拘束（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔｓ）及びサイクル一貫性拘束（ｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｔｃｏｎｓｔｒａｉｎｔｓ）などを使用することにより、同じ人物の２Ｄポーズを異なるカメラビューにわたって関連付けることができる。従って、ある人物が１つのカメラの視野から外れた場合には、同じ環境内の別のカメラの視野に同じ人物が取り込まれる。様々な実施形態では、システムが、四肢の関節、身長、関節及び四肢の位置、人物の軌跡などの、ある人物の一部の検出及び知識に基づいてその人物の動き及びポーズを追跡することができる。

【0031】

本明細書で説明する実施形態は、ポーズをカメラにわたってフレーム毎に関連付ける従来の方法とは対照的に、３Ｄ空間内のポーズ追跡情報を使用することによって計算を抑える。

【0032】

ブロック３０８において、システム１０２が、逆投影された（ｂａｃｋ－ｐｒｏｊｅｃｔｅｄ）２Ｄポーズ情報を取得する。様々な実施形態では、システムが、ブロック３１０からの３Ｄポーズ情報を画像平面に投影することによって、逆投影された２Ｄポーズ情報を取得することができる。様々な実施形態では、３Ｄ空間からの追跡情報が、ブロック３０６におけるポーズマッチングのための指針を現在のフレームに与える。

【0033】

ブロック３１０において、システム１０２が３Ｄポーズを再構築する。様々な実施形態では、システムが、複数の２Ｄ対応ポーズ及び三角測量に基づいてポーズの３Ｄ位置を決定する。三角測量に関する実施形態については、例えば図７に関連して本明細書でさらに詳細に説明する。

【0034】

図４は、本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例４００のブロック図である。環境４００は、カメラ４０２、４０４及び４０６を含む。様々な実施形態では、カメラ４０２～４０６を異なる位置に配置することができる。

【0035】

様々な実施形態では、カメラ４０２～４０６を、これらの視野が重なるように異なる位置に配置することができる。図示のように、カメラ４０２、４０４及び４０６の視野は重複領域４０８において重なり合う。重複領域４０８に所与の１又は複数のオブジェクト（例えば、スタッフ、患者など）が配置されると、カメラ４０２、４０４及び４０６の各々は、所与の１又は複数のオブジェクトの映像（ｆｏｏｔａｇｅ）を取り込むことができる。

【0036】

様々な実施形態では、カメラ４０２～４０６が、オクルージョンを回避して環境内のオブジェクトの３Ｄ再構築を可能にするように設定されて予め較正される。様々な実施形態では、較正に使用されるオブジェクトが全てのカメラに同時に見える。３つのカメラを示しているが、環境４００内にはあらゆる数のカメラが存在することができる。特定のカメラ数は特定の環境に依存することができる。様々な実施形態では、環境内のパターンを較正するために、システムがカメラ４０２～４０６を使用して床のタイルなどのオブジェクトをモニタする。一般的に使用されているチェッカーボードパターン又は赤色－緑色－青色－深度（ＲＧＢ－Ｄ）カメラの使用を含む別のカメラ較正法を使用することもできる。

【0037】

図５は、本明細書で説明する実装に使用できる、臨床活動を認識するための環境例５００のブロック図である。オブジェクト又は被験者５０６及び５０８のビデオ映像を取り込むカメラ５０２及び５０４を示す。オブジェクト５０６及び５０８は、例えば手術室内の職員、又は手術室内の職員及び患者などであることができる。

【0038】

様々な実施形態では、システムが、スケルトンベースの活動認識を含むデータ融合及び臨床行動認識を実行する。上述したように、様々な実施形態では、データ融合が、１つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の２Ｄ対応ポーズを所与として仮想３Ｄ空間内の全てのオブジェクト（例えば、スタッフ、患者など）の３Ｄポーズを再構築する。

【0039】

システムは、各職員及び患者のアクションを骨格ポーズに基づいて認識する。このようなアクションは、立つこと、歩くこと、しゃがむこと、座ることなどを含むことができる。システムは、行動分類器を利用してこのようなアクションを認識することができる。システムのプロセスは、ＲＧＢ画像又は深度マップに比べて、背景オブジェクト及び無関係なオブジェクト（例えば、衣服の質感など）などの視覚的ノイズに対してロバストである。別の方法としては、画像又は深度マップから直接アクションを認識することを挙げることができる。いくつかの実施形態では、システムが、再構築された３Ｄ空間内でポーズを追跡し、空間的空間（ｓｐａｔｉａｌｓｐａｃｅ）及び時間的空間の両方から骨格特徴を抽出することによって、さらなる利得を達成することができる。

【0040】

図６は、いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。図１及び図６を共に参照すると、方法は、システム１０２などのシステムが逆投影された２Ｄポーズ情報を取得するブロック６０２から開始する。

【0041】

ブロック６０４において、システム１０２が推定されるポーズを取得する。システムは、カメラ内で検出された各オブジェクトの推定されるポーズを収集する。

【0042】

ブロック６０６において、システム１０２が対応するポーズを発見する。このような対応するポーズは、異なるカメラによって取り込まれた同じオブジェクト（例えば、人物）の異なるポーズを含むことができる。

【0043】

ブロック６０８において、システム１０２がポーズのマッチングを行う。例えば、システムは、異なるカメラからの同じオブジェクト（例えば、人物）のポーズをマッチさせる。いくつかの実施形態では、システムが、ポーズがいずれかの既存のトラックレット（ｔｒａｃｋｌｅｔｓ）にマッチしなかった場合にポーズマッチングステップを実行する。トラックレットは、画像認識システムによって構築される、移動オブジェクトがたどる軌道の断片として定義することができる。

【0044】

様々な実施形態では、システムが、マッチングに１又は２以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束、データ関連付けのためのユークリッド距離及びアルゴリズム、ハンガリアンアルゴリズムなどを挙げることができる。

【0045】

ブロック６１０において、システム１０２がマッチ結果を提供する。マッチ結果は、各特定のオブジェクト（例えば、人物）の全てのポーズを示す。

【0046】

図７は、いくつかの実施形態による、再構築されたポーズを提供するためのフロー図例である。図１及び図７を共に参照すると、方法は、システム１０２などのシステムが２Ｄポーズのマッチングを行うブロック７０２から開始する。

【0047】

ブロック７０４において、システム１０２が２Ｄポーズから複数対のビューを選択する。様々な実施形態では、システムが各対を異なるカメラから取得する。様々な実施形態では、複数対のビューの選択が２つの条件に基づくことができる。いくつかの実施形態では、第１の条件を、再投影誤差が所定の閾値未満であることに基づいてビューの対を選択することとすることができる。いくつかの実施形態では、第２の条件を、信頼スコアが所定の閾値よりも高いことに基づいてビューの対を選択することとすることができる。例えば、高い信頼スコアはオクルージョンが少ないことに関連することができ、低い信頼スコアはオクルージョンが多いことに関連することができる。この選択は、正確な３Ｄ再構築のために再投影誤差を最小化して信頼スコアを最大化することによって達成することができる。

【0048】

後述するように、方法は、２つの一連のステップに従って再構築されたポーズを提供する。第１の一連のステップは、ブロック７０６、７０８及び７１０に関連する。システムは、ビューの対の組が空でない場合にはこれらのステップを実行する。第２の一連のステップは、ブロック７１２、７１４及び７１６に関連する。システムは、ビューの対が選択されない場合にはこれらのステップを実行する。

【0049】

ブロック７０６において、システム１０２が２つのビューを選択する。様々な実施形態では、システムが、最大ランクの信頼スコア及び最小ランクの再投影誤差を有する２つのビューを選択する。ブロック７０８に関連して後述するように、システムは、３Ｄポーズ再構築のために２つのビューを使用して三角測量を実行することができる。

【0050】

ブロック７０８において、システム１０２が三角測量を実行する。様々な実施形態では、システムが適応的三角測量（ａｄａｐｔｉｖｅｔｒｉａｎｇｕｌａｔｉｏｎ）を利用することができる。三角測量は、マルチビューフレームワークにおける所与の２Ｄ一致ポーズに基づいて３Ｄポーズ情報を取得するために使用することができる。いくつかの実施形態では、システムが、全てのカメラにわたって再構築を実行する代わりに、カメラビューのサブセットを３Ｄポーズ再構築のために適応的に選択することができる。例えば、システムは、計算を最小化するために、所与のターゲットオブジェクトを取り込むカメラを決定することができる。所与のオブジェクトを取り込まない他のカメラは不要であり、従ってこの特定のオブジェクトの情報の収集には使用されない。オブジェクトを取り込むカメラのみを使用することで、システムが実行する計算が十分ではあるが過剰ではないことが保証される。

【0051】

ブロック７１０において、システム１０２が再構築されたポーズを提供する。様々な実施形態では、システムが、複数の２Ｄ対応ポーズ及び三角測量に基づいて、同じオブジェクト（例えば、臨床医、患者など）の各ポーズの３Ｄ位置を決定する。システムは、各オブジェクトの３Ｄポーズを再構築するために複数のカメラのビデオフィードからポーズを決定する。

【0052】

上述したように、第２の一連のステップはブロック７１２、７１４及び７１６に関連する。システムは、ビューの対が選択されない場合にこれらのステップを実行する。

【0053】

ブロック７１２において、システム１０２が三角測量を実行する。様々な実施形態では、システム１０２が、上述したステップ７０８と同様に三角測量を実行する。

【0054】

ブロック７１４において、システム１０２がポーズを統合する。例えば、様々な実施形態では、システムが、各オブジェクト（例えば、臨床医、患者など）を取り込む異なるカメラの異なる視点からの各オブジェクトのポーズを集約する。

【0055】

ブロック７１６において、システム１０２が再構築されたポーズを提供する。様々な実施形態では、システム１０２が、上述したステップ７１０と同様に三角測量を実行する。

【0056】

本明細書で説明する実施形態は、様々な利点を提供する。例えば、実施形態は、較正されたカメラの組を使用して環境内の全ての人物の３Ｄポーズを効率的に推定する。実施形態は、いずれかのリアルタイムマルチパーソン２Ｄポーズ推定システムの上に成り立つことができ、このような実施形態は、実用的用途において頻繁に発生し得るオクルージョンに対してロバストである。

【0057】

本明細書で説明する実施形態は、単純でありながら、３Ｄでのマルチカメラマルチターゲットポーズ再構築において有効である。また、本明細書で説明する実施形態は、さらなる３Ｄポーズ再構築のための重要なステップとして機能するポーズマッチングのためのコスト効率の高い解決策を提供する。

【0058】

図８は、本明細書で説明するいくつかの実装に使用できるネットワーク環境例８００のブロック図である。いくつかの実装では、ネットワーク環境８００が、サーバ装置８０４とデータベース８０６とを含むシステム８０２を含む。例えば、システム８０２は、図１のシステム１０２を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。ネットワーク環境８００は、システム８０２と通信できる、及び／又は直接又はシステム８０２を介して互いに通信できるクライアント装置８１０、８２０、８３０及び８４０も含む。ネットワーク環境８００は、システム８０２及びクライアント装置８１０、８２０、８３０及び８４０が通信できるようにするネットワーク８５０も含む。ネットワーク８５０は、Ｗｉ－Ｆｉネットワーク、Ｂｌｕｅｔｏｏｔｈネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。

【0059】

説明を容易にするために、図８には、システム８０２、サーバ装置８０４及びネットワークデータベース８０６の各々につき１つのブロックと、クライアント装置８１０、８２０、８３０及び８４０のための４つのブロックとを示す。ブロック８０２、８０４及び８０６は、複数のシステム、サーバ装置及びネットワークデータベースを表すこともできる。また、あらゆる数のクライアント装置が存在することができる。他の実装では、環境８００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

【0060】

本明細書で説明する実施形態はシステム８０２のサーバ装置８０４によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム８０２に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム８０２に関連するいずれかの好適な１又は複数のプロセッサが容易にすることができる。

【0061】

本明細書で説明する様々な実施形態では、システム８０２のプロセッサ及び／又はいずれかのクライアント装置８１０、８２０、８３０及び８４０のプロセッサが、本明細書で説明する要素（例えば、情報など）が１又は２以上のディスプレイ画面上のユーザインターフェイス内に表示されるようにする。

【0062】

図９は、本明細書で説明するいくつかの実装に使用できるコンピュータシステム例９００のブロック図である。例えば、コンピュータシステム９００は、図８のサーバ装置８０４及び／又は図１のシステム１０２を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。いくつかの実装では、コンピュータシステム９００が、プロセッサ９０２、オペレーティングシステム９０４、メモリ９０６、及び入力／出力（Ｉ／Ｏ）インターフェイス９０８を含むことができる。様々な実装では、プロセッサ９０２を、本明細書で説明する様々な機能及び特徴を実装するため、並びに本明細書で説明する方法の実装を実行するために使用することができる。本明細書で説明する実装を実行するものとしてプロセッサ９０２を説明しているが、説明するステップは、コンピュータシステム９００のいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはコンピュータシステム９００又はいずれかの好適なシステムに関連するいずれかの好適な１又は複数のプロセッサが実行することもできる。本明細書で説明する実装は、ユーザ装置上で、サーバ上で、又はこれらの組み合わせにおいて実行することができる。

【0063】

コンピュータシステム９００は、メモリ９０６上、又は他のいずれかの好適な記憶位置、又はコンピュータ可読媒体上に記憶することができるソフトウェアアプリケーション９１０を含む。ソフトウェアアプリケーション９１０は、本明細書で説明する実装及びその他の機能をプロセッサ９０２が実行することを可能にする命令を与える。ソフトウェアアプリケーションは、１又は２以上のネットワーク及びネットワーク通信に関連する様々な機能を実行するネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム９００のコンポーネントは、１又は２以上のプロセッサ、又はハードウェア装置のいずれかの組み合わせ、並びにハードウェア、ソフトウェア、ファームウェアなどのいずれかの組み合わせによって実装することができる。

【0064】

説明を容易にするために、図９には、プロセッサ９０２、オペレーティングシステム９０４、メモリ９０６、Ｉ／Ｏインターフェイス９０８及びソフトウェアアプリケーション９１０の各々につき１つのブロックを示す。これらのブロック９０２、９０４、９０６、９０８及び９１０は、複数のプロセッサ、オペレーティングシステム、メモリ、Ｉ／Ｏインターフェイス、及びソフトウェアアプリケーションを表すこともできる。様々な実装では、コンピュータシステム９００が、図示の全てのコンポーネントを有さないことも、及び／又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。

【0065】

特定の実施形態に関して説明を行ったが、これらの特定の実施形態は例示にすぎず、限定的なものではない。これらの実施例に示す概念は、他の実施例及び実装に適用することもできる。

【0066】

様々な実装では、１又は２以上のプロセッサによる実行のためのソフトウェアが１又は２以上の非一時的コンピュータ可読媒体に符号化される。このソフトウェアは、１又は２以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行する。

【0067】

特定の実施形態のルーチンの実装には、Ｃ、Ｃ＋＋、Ｊａｖａ、アセンブリ言語などを含むいずれかの好適なプログラミング言語を使用することができる。手続き型又はオブジェクト指向型などの異なるプログラミング技術を使用することができる。これらのルーチンは、単一の処理装置又は複数のプロセッサ上で実行することができる。ステップ、動作又は計算については特定の順序で示しているかもしれないが、異なる特定の実施形態ではこの順序を変更することができる。いくつかの特定の実施形態では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。

【0068】

特定の実施形態は、命令実行システム、装置又はデバイスが使用する、或いはこれらに接続された（機械可読記憶媒体とも呼ばれる）非一時的コンピュータ可読記憶媒体に実装することができる。特定の実施形態は、ソフトウェア又はハードウェア又はこれらの組み合わせにおける制御ロジックの形で実装することもできる。制御ロジックは、１又は２以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行することができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。

【0069】

特定の実施形態は、プログラム可能な汎用デジタルコンピュータを使用することによって、及び／又は特定用途向け集積回路、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノエンジニアリングシステム、コンポーネント及び機構を使用することによって実装することができる。一般に、特定の実施形態の機能は、当業で周知のあらゆる手段によって実現することができる。分散型のネットワーク化されたシステム、コンポーネント及び／又は回路を使用することもできる。データの通信又は転送は、有線、無線又は他のいずれかの手段によるものとすることができる。

【0070】

「プロセッサ」は、データ、信号又はその他の情報を処理するいずれかの好適なハードウェア及び／又はソフトウェアシステム、機構又はコンポーネントを含むことができる。プロセッサは、汎用中央処理装置、複数の処理装置、機能を実現するための専用回路又はその他のシステムを有するシステムを含むことができる。処理は、地理的位置に制限される必要も、又は時間的制限を有する必要もない。例えば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行することができる。処理の一部は、異なる（又は同じ）処理システムが異なる時点に異なる場所で実行することもできる。コンピュータは、メモリと通信するいずれかのプロセッサとすることができる。メモリは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、磁気記憶装置（ハードディスクドライブなど）、フラッシュ、光学記憶装置（ＣＤ又はＤＶＤなど）、磁気又は光ディスク、或いはプロセッサによって実行される命令（例えば、プログラム又はソフトウェア命令）を記憶するのに適したその他の有形媒体などの電子的記憶装置を含むいずれかの好適なデータストレージ、メモリ及び／又は非一時的コンピュータ可読記憶媒体とすることができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。命令は、例えばサーバ（例えば、分散システム及び／又はクラウドコンピューティングシステム）から配信されるサービス型ソフトウェア（ＳａａＳ）などの形態の電気信号に含めて電気信号として提供することもできる。

【0071】

また、特定の用途に従って有用である時には、図面／図に示す要素のうちの１つ又は２つ以上をより分離又は統合された形で実装し、或いはいくつかの事例では除去又は動作不能とすることもできると理解されるであろう。上述した方法のいずれかをコンピュータが実行できるようにする、機械可読媒体に記憶できるプログラム又はコードを実装することも本発明の趣旨及び範囲に含まれる。

【0072】

本明細書及び以下の特許請求の範囲全体を通じて使用する「１つの（英文不定冠詞）」及び「その（英文定冠詞）」は、文脈において別途明確に示していない限り複数形の照応を含む。また、本明細書及び以下の特許請求の範囲全体を通じて使用する「～内（ｉｎ）」の意味は、文脈において別途明確に示していない限り、「～内（ｉｎ）」及び「～上（ｏｎ）」の意味を含む。

【0073】

以上、本明細書では特定の実施形態について説明したが、上述した開示では修正、様々な変更及び置換の自由が意図されており、いくつかの例では、記載した範囲及び趣旨から逸脱することなく、特定の実施形態のいくつかの特徴が対応する他の特徴の使用を伴わずに使用されると理解されたい。従って、特定の状況又は材料を基本的範囲及び趣旨に適合させるように多くの修正を行うことができる。

【符号の説明】

【0074】

１００環境
１０２システム
１０４クライアント
１０６ネットワーク
１０８被験者
１１０活動エリア
１１２～１１８ビデオカメラ

【図1】