IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー コーポレイション オブ アメリカの特許一覧

特表2024-530490マルチビュー・マルチターゲット行動認識
<>
  • 特表-マルチビュー・マルチターゲット行動認識 図1
  • 特表-マルチビュー・マルチターゲット行動認識 図2
  • 特表-マルチビュー・マルチターゲット行動認識 図3
  • 特表-マルチビュー・マルチターゲット行動認識 図4
  • 特表-マルチビュー・マルチターゲット行動認識 図5
  • 特表-マルチビュー・マルチターゲット行動認識 図6
  • 特表-マルチビュー・マルチターゲット行動認識 図7
  • 特表-マルチビュー・マルチターゲット行動認識 図8
  • 特表-マルチビュー・マルチターゲット行動認識 図9
  • 特表-マルチビュー・マルチターゲット行動認識 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-21
(54)【発明の名称】マルチビュー・マルチターゲット行動認識
(51)【国際特許分類】
   G06T 7/55 20170101AFI20240814BHJP
   G06V 40/20 20220101ALI20240814BHJP
   G06T 7/60 20170101ALI20240814BHJP
【FI】
G06T7/55
G06V40/20
G06T7/60 150D
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024507163
(86)(22)【出願日】2022-07-20
(85)【翻訳文提出日】2024-02-06
(86)【国際出願番号】 IB2022056655
(87)【国際公開番号】W WO2023017339
(87)【国際公開日】2023-02-16
(31)【優先権主張番号】63/260,108
(32)【優先日】2021-08-10
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/559,751
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.JAVA
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】504257564
【氏名又は名称】ソニー コーポレイション オブ アメリカ
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(74)【代理人】
【識別番号】100151987
【弁理士】
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】スー ワンシン
(72)【発明者】
【氏名】ファン コ-カイ アルバート
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA02
5L096BA06
5L096CA05
5L096FA60
5L096FA64
5L096FA66
5L096FA69
5L096GA40
5L096GA51
5L096HA05
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
実装は、一般に再構築された3次元(3D)ポーズを使用してロバストなマルチビュー・マルチターゲット行動認識を実行する。いくつかの実装では、方法が、複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で複数の被写体の複数のビデオを取得することを含む。方法は、少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することをさらに含む。方法は、複数のビデオと少なくとも1つのターゲット被写体の追跡とに基づいて、少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することをさらに含む。方法は、3Dモデルの再構築に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することをさらに含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
システムであって、
1又は2以上のプロセッサと、
1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、前記1又は2以上のプロセッサによる実行のためのロジックと、
を備え、前記ロジックは、実行時に、
複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で前記複数の被写体の複数のビデオを取得することと、
前記少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1つのターゲット被写体の前記追跡とに基づいて、前記少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、
前記3Dモデルの再構築に基づいて、前記少なくとも1つのターゲット被写体の前記1又は2以上の行動を認識することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
ことを特徴とするシステム。
【請求項2】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項1に記載のシステム。
【請求項3】
前記ロジックは、実行時に、前記少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項4】
前記ロジックは、実行時に、前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項5】
前記ロジックは、実行時に、ポーズ情報に基づいて前記3Dモデルを再構築することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項6】
前記ロジックは、実行時に、
前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、
前記ポーズ情報の前記決定に基づいて、前記少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項1に記載のシステム。
【請求項7】
前記ロジックは、実行時に、前記3Dモデルの前記再構築に基づいて前記少なくとも1つのターゲット被写体の複数の行動のうちの異なる動作を区別することを含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
請求項1に記載のシステム。
【請求項8】
プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記プログラム命令は、1又は2以上のプロセッサによって実行された時に、
複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で前記複数の被写体の複数のビデオを取得することと、
前記少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1つのターゲット被写体の前記追跡とに基づいて、前記少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、
前記3Dモデルの再構築に基づいて、前記少なくとも1つのターゲット被写体の前記1又は2以上の行動を認識することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、ことを特徴とするコンピュータ可読記憶媒体。
【請求項9】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項10】
前記命令は、実行時に、前記少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項11】
前記命令は、実行時に、前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項12】
前記命令は、実行時に、ポーズ情報に基づいて前記3Dモデルを再構築することを含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項13】
前記命令は、実行時に、
前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、
前記ポーズ情報の前記決定に基づいて、前記少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項14】
前記命令は、実行時に、前記3Dモデルの前記再構築に基づいて前記少なくとも1つのターゲット被写体の複数の行動のうちの異なる動作を区別することを含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項15】
コンピュータ実装方法であって、
複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で前記複数の被写体の複数のビデオを取得することと、
前記少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、
前記複数のビデオと前記少なくとも1つのターゲット被写体の前記追跡とに基づいて、前記少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、
前記3Dモデルの再構築に基づいて、前記少なくとも1つのターゲット被写体の前記1又は2以上の行動を認識することと、
を含むことを特徴とする方法。
【請求項16】
前記取得される複数のビデオは2次元(2D)ビデオである、
請求項15に記載の方法。
【請求項17】
前記少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することをさらに含む、
請求項15に記載の方法。
【請求項18】
前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することをさらに含む、
請求項15に記載の方法。
【請求項19】
ポーズ情報に基づいて前記3Dモデルを再構築することをさらに含む、
請求項15に記載の方法。
【請求項20】
前記少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、
前記ポーズ情報の前記決定に基づいて、前記少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、
をさらに含む、請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2021年8月10日に出願された「再構築された3Dポーズを用いたロバストなマルチビュー・マルチターゲット行動認識(ROBUST MULTI-VIEW MULTI-TARGET ACTION RECOGNITION USING RECONSTRUCTED 3D POSES)」という名称の米国仮特許出願第63/260,108号(クライアント参照番号:SYP340606US01)に基づく優先権を主張する、2021年12月22日に出願された「マルチビュー・マルチターゲット行動認識(MULTI-VIEW MULTI-TARGET ACTION RECOGNITION)」という名称の米国特許出願第17/559,751号に基づく優先権を主張するものであり、これらの文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。
【背景技術】
【0002】
行動認識は活発な研究分野になってきており、このような研究は急速に進歩し続けている。カメラシステムの中には、人物のビデオを取り込み、人物の動きを分析し、メタデータの画像又はビデオデータセットを生成できるものがある。システムのカメラビデオによって取り込まれた人間の行動を識別するには、ある人物がビデオを手動で確認する必要がある。手動でのモニタリング及びイベント報告は、特にビデオカメラの位置及び角度が変化して十分なカバレッジを提供できない場合に信頼性が低く、多大な時間を要する場合がある。管理された環境内で複数のカメラを使用することもできる。しかしながら、被写体、動き及び背景の変動が依然として大幅に制限される場合がある。また、複雑な環境内の複数の人々のポーズ情報を理解することも依然として課題である。
【発明の概要】
【課題を解決するための手段】
【0003】
実施形態は、一般にマルチビュー・マルチターゲット行動認識に関する。いくつかの実施形態では、システムが、1又は2以上のプロセッサと、1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、1又は2以上のプロセッサによる実行のためのロジックとを含む。ロジックは、実行時に、複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で複数の被写体の複数のビデオを取得することと、少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1つのターゲット被写体の追跡とに基づいて、少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、3Dモデルの再構築に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0004】
さらにシステムに関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、ロジックが、実行時に、少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、ポーズ情報に基づいて3Dモデルを再構築することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、ポーズ情報の決定に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、3Dモデルの再構築に基づいて少なくとも1つのターゲット被写体の複数の行動のうちの異なる動作を区別することを含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0005】
いくつかの実施形態では、ププログラム命令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。命令は、1又は2以上のプロセッサによって実行された時に、複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で複数の被写体の複数のビデオを取得することと、少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1つのターゲット被写体の追跡とに基づいて、少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、3Dモデルの再構築に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0006】
さらにコンピュータ可読記憶媒体に関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、命令が、実行時に、少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、ポーズ情報に基づいて3Dモデルを再構築することを含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、ポーズ情報の決定に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、3Dモデルの再構築に基づいて少なくとも1つのターゲット被写体の複数の行動のうちの異なる動作を区別することを含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0007】
いくつかの実施形態では、方法が、複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で複数の被写体の複数のビデオを取得することと、少なくとも1つのターゲット被写体を少なくとも2つのカメラにわたって追跡することと、複数のビデオと少なくとも1つのターゲット被写体の追跡とに基づいて、少なくとも1つのターゲット被写体の3次元(3D)モデルを再構築することと、3Dモデルの再構築に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、を含む。
【0008】
さらに方法に関して、いくつかの実施形態では、取得される複数のビデオが2次元(2D)ビデオである。いくつかの実施形態では、方法が、少なくとも1つのターゲット被写体の1又は2以上のキーポイントを決定することをさらに含む。いくつかの実施形態では、方法が、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することをさらに含む。いくつかの実施形態では、方法が、ポーズ情報に基づいて3Dモデルを再構築することをさらに含む。いくつかの実施形態では、方法が、少なくとも1つのターゲット被写体に関連するポーズ情報を決定することと、ポーズ情報の決定に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識することと、をさらに含む。
【0009】
本明細書の残り部分及び添付図面を参照することにより、本明細書に開示する特定の実装の特質及び利点をさらに理解することができる。
【図面の簡単な説明】
【0010】
図1】本明細書で説明する実装に使用できる、複数のカメラを使用して複数の人々の行動を認識するための環境例のブロック図である。
図2】いくつかの実装による、複数のカメラを使用して複数の人々の行動を認識するためのフロー図例である。
図3】いくつかの実装による、マルチビューポーズを再構築するためのフロー図例である。
図4】本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例のブロック図である。
図5】本明細書で説明する実装に使用できる、臨床活動を認識するための環境例のブロック図である。
図6】いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。
図7】いくつかの実施形態による、再構築されたポーズを提供するためのフロー図例である。
図8】いくつかの実施形態による、ターゲット被写体の行動を認識するためのフロー図例である。
図9】本明細書で説明する実装に使用できるネットワーク環境例のブロック図である。
図10】本明細書で説明する実装に使用できるコンピュータシステム例のブロック図である。
【発明を実施するための形態】
【0011】
本明細書で説明する実施形態は、再構築された3次元(3D)ポーズを用いたロバストなマルチビュー・マルチターゲット行動認識を可能にし、容易にし、管理する。本明細書でさらに詳細に説明するように、実装は、骨格ベースのニューラルネットワークと共に、再構築された3Dポーズの情報を事前知識として利用することにより、マルチカメラ・マルチターゲット行動を認識する。本明細書で説明する実装は、複雑な環境において深層学習法よりも高いパフォーマンスを達成する。本明細書で説明する実装は、同様の動きパターンの行動を区別するとともに、訓練に著しい追加データを必要とすることなく、既存の深層学習法よりも柔軟かつスケーラブルである。
【0012】
実装は、様々な潜在的応用分野を有する。このような分野としては、例えば医療又はスポーツ分野における行動理解を挙げることができる。応用は特定の用途によって異なることができる。他の応用分野としては、ヒューマンコンピュータインタラクション、監視及びセキュリティ、小売業、製造業などを挙げることができる。
【0013】
様々な実装では、システムが、複数の被写体のうちの少なくとも1つのターゲット被写体が1又は2以上の行動を実行する環境内で複数の被写体の複数のビデオを取得する。さらに、システムは、少なくとも2つのカメラにわたって少なくとも1つのターゲット被写体を追跡する。さらに、システムは、ビデオと少なくとも1つのターゲット被写体の追跡とに基づいて、少なくとも1つのターゲット被写体の3Dモデルを再構築する。さらに、システムは、3Dモデルの再構築に基づいて、少なくとも1つのターゲット被写体の1又は2以上の行動を認識する。
【0014】
図1は、本明細書で説明する実装に使用できる、複数のカメラを使用して複数の人々の行動を認識するための環境例100のブロック図である。本明細書でさらに詳細に説明するように、システム102は、複数のカメラを使用して複数の人々の行動のロバストな認識を提供するコンテキストアウェアシステムである。いくつかの実装では、環境100が、ネットワーク106を介してクライアント104と通信するシステム102を含む。ネットワーク106は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0015】
様々な実装では、環境100が、複数の被写体(例えば、複数の人々及び/又は複数の物体など)に関与する活動がシステム102によって認識され、モニタされ、追跡されるいずれかの環境であることができる。様々な実装では、環境100が、仕事場及び公共の場を含むいずれかの環境であることができる。例えば、いくつかの実装では、環境100が小売店、臨床環境、公共公園などであることができる。様々な実装では、システム102、クライアント104及びネットワーク106が、環境100に対して局所的なもの、環境100に対して遠隔的なもの(例えば、クラウド内)、又はこれらの組み合わせであることができる。
【0016】
環境100には、屋内エリア又は屋外エリアであることができる活動エリア108を示す。いくつかのシナリオでは、活動エリア108が屋内部分及び屋外部分を含むことができる。活動エリア108の構成は、特定の実施形態に応じて異なることができる。例えば、活動エリア108の一部は、レストランの屋内座席エリア、及びレストランの屋外パティオ座席エリアを含むことができる。
【0017】
また、人々又は被写体110、112及び114も示す。人々の文脈で被写体例を説明するが、被写体は無生物オブジェクトを含むこともでき、これらは全て複数のビデオカメラ120、122、124及び126によって取り込まれる。
【0018】
様々な実装では、複数のビデオカメラによってビデオが取り込まれる。例えば、図示のように、システム102は、人々110、112、114のビデオを異なる角度又は視点で取り込む物理的ビデオカメラ120、122、124、126を使用して活動領域108内の被写体又は人々110、112、114などの活動をモニタする。
【0019】
様々な実装では、システム102が、複数の被写体から少なくとも1つのターゲット被写体を識別する。単一のターゲット被写体の文脈で様々な実装を説明するが、これらの実装は複数のターゲット被写体の各々にも適用される。従って、システムは、1又は2以上のターゲット被写体を追跡し、ターゲット被写体の1又は2以上の3Dモデルを再構築し、1又は2以上のターゲット被写体の行動を認識する。本明細書では、これらの態様のための様々な実装例をさらに詳細に説明する。様々な実装では、被写体110、112、114などの各々が1又は2以上の人々を表すことができる。また、特定のターゲット被写体に対する実装及び言及は、ありとあらゆるターゲット被写体にも適用することができる。ターゲット被写体の数は、特定の実装に応じて異なることができる。例えば、様々なシナリオでは、被写体110、112、114が、医師及び看護師などの臨床医、1又は2以上の助手、患者などのうちの1人又は2人以上を表すことができる。様々な実装では、被写体110、112及び114に加えて、システムが追跡できる1又は2以上の無生物オブジェクト(図示せず)が存在することもできる。例えば、様々なシナリオでは、オブジェクトが、1又は2以上の病院ベッド、手術器具、手術ツールなどを含むことができる。特定のタイプのオブジェクトは様々であることができ、特定の実装に依存する。様々な実装では、所与の被写体を、被写体、人物、ターゲット被写体、オブジェクト又は無生物オブジェクトと呼ぶこともできる。
【0020】
様々な実装では、システムが、被写体がウェアラブル機器を有する必要がないという点で効率的な視覚ベースのアプローチを利用する。また、視覚ベースのアプローチは、システムの異なる設定に対して高度にスケーラブルでもある。様々な実装では、システムが、臨床環境(例えば、手術室、緊急救命室など)における活動を自動的かつ正確に認識することで、臨床活動の最適化にとって重要な手術又は臨床ワークフローの理解を可能にする。システムは、患者の転帰及びケアを強化してスタッフのコストを削減するために、スタッフ及び患者活動のリアルタイムモニタリングを実行する。
【0021】
様々な実施形態では、異なる角度及び/又は異なる距離を含む同じオブジェクトの異なる視点から複数のビデオ画像及び/又は静止画像を取り込むために、物理的ビデオカメラ120、122、124及び126が様々な場所に配置される。カメラという用語とビデオカメラという用語は同義的に使用することができる。これらの異なる視点は、異なるオブジェクトの外観を区別しやすくする。
【0022】
説明を容易にするために、図1には、システム102、クライアント104、ネットワーク106及び活動エリア108の各々につき1つのブロックを示す。ブロック102、104、106及び108は、複数のシステム、クライアント装置、ネットワーク及び活動エリアを表すこともできる。また、所与の活動エリアにはあらゆる数の被写体が存在することができる。他の実装では、環境100が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0023】
本明細書で説明する実装はシステム102によって実行されるが、他の実装では、本明細書で説明する実装の実行を、システム102に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム102に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0024】
図2は、いくつかの実装による、複数のカメラを使用して複数の人々の行動を認識するためのフロー図例である。図1及び図2を共に参照すると、方法は、システム102などのシステムが環境100の活動領域108内の複数の被写体の複数のビデオを受信又は取得するブロック202から開始する。ビデオに取り込まれる複数の被写体は、環境100内で少なくとも1つの行動を実行する、追跡すべき少なくとも1つのターゲット被写体を含む。様々な実装では、カメラがビデオを録画し、ビデオをいずれかの好適な記憶位置に記憶することができる。様々な実装では、(事前較正されたものを含む)所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、1又は2以上の内的行列(intrinsic matrices)、1又は2以上の外的行列(extrinsic matrices)などを含むことができる。ターゲット被写体の文脈で様々な実装例を説明するが、これらの実装は、ビデオに取り込まれる他の被写体のうちの1つ又は2つ以上又は全てに適用することもできる。換言すれば、追跡されるターゲット被写体は複数存在することができ、システムは追跡される各ターゲット被写体の行動を認識する。
【0025】
ブロック204において、システム102が少なくとも1つのターゲット被写体を少なくとも2つのカメラ(例えば、ビデオカメラ120、122、124、126など)にわたって追跡する。カメラの数及び(単複の)ターゲット被写体に対するカメラの位置は、特定の実装に応じて異なることができる。様々な実装では、取得されるビデオが2次元(2D)ビデオである。様々な実装では、システムが、複数のカメラからの2Dビデオ情報を処理することによって、クロスビュー関連付けの曖昧さ(cross-view association ambiguity)を回避する。オクルージョンに起因するノイズ及び不完全な2Dポーズは、異なるカメラからの所与のポーズの関連付けを複雑にし、これによって3D空間におけるポーズの再構築にさらに影響が及ぶ恐れがある。システムは、複数のカメラを利用することにより、各個々のオブジェクトを見失うことなくカメラからカメラへと追跡することができる。
【0026】
様々な実装では、システムが、ビデオカメラを介してシステムが追跡する、ターゲット被写体を含む1又は2以上の被写体の1又は2以上のキーポイントを決定する。システムは、ターゲット被写体を含む1又は2以上のオブジェクト又は被写体に関連するポーズ情報も決定及び/又は推定する。様々な実装では、システムが、いずれかの好適なポーズ推定器及び事前較正されたカメラを使用して2Dポーズ推定を実行することができる。システムは、追跡される各オブジェクト又は被写体に関連するそれぞれのキーポイントにも基づいてポーズ情報を決定する。様々な実装では、システムが、少なくとも1つのターゲット被写体に関連するポーズ情報を三角測量に基づいて決定する。キーポイント、ポーズ情報及び三角測量に関連するさらなる実装については本明細書でさらに詳細に説明する。
【0027】
ブロック206において、システム102が、ビデオとターゲット被写体の追跡とに基づいて、ターゲット被写体の3次元(3D)モデルを再構築する。様々な実装では、システムが、2Dビデオであるビデオに基づいてオブジェクト又はターゲット被写体の3Dモデルを再構築する。上述したように、システムはターゲット被写体に関連するポーズ情報を決定する。様々な実装では、システムが、ポーズ情報に基づいて3Dモデルを再構築する。
【0028】
本明細書に示すように様々な実装例をターゲット被写体の文脈で説明しているが、これらの実装は、ビデオに取り込まれた他の被写体(例えば、複数のターゲット被写体)のうちの1つ又は2つ以上又は全てに適用することもできる。3Dモデルの再構築は、様々なエリアに適用することができる。例えば、このようなエリアは、医療又はスポーツ分野、監視及びセキュリティ、小売業又は製造業などでの行動理解に応用することができる。具体的な用途は様々であることができ、特定の実装に依存する。
【0029】
ブロック208において、システム102が、3Dモデルの再構築に基づいてターゲット被写体の1又は2以上の行動を認識する。様々な実装では、システム102が、ターゲット被写体の行動に関連するポーズ情報を決定又は推定する。次に、システムは、少なくとも1つのターゲット被写体に関連するポーズ情報に基づくとともに3Dモデルの再構築に関連して、ターゲット被写体の1又は2以上の行動を認識する。システムは、ポーズ決定又はポーズ推定を含む3Dモデルの再構築に基づいて、ターゲット被写体の異なる行動を区別する。
【0030】
様々な実装では、システムが、事前較正されたカメラの組を利用して、複数の被写体の行動を効率的かつロバストに認識する。このような事前較正されたカメラは、例えばカメラ120、122、124及び126を含むことができる。
【0031】
本明細書では、3Dモデルの再構築に基づくターゲット被写体の行動の認識に関するさらなる実装例について、例えば図8に関連してさらに詳細に説明する。
【0032】
ステップ、動作又は計算については特定の順序で示しているかもしれないが、特定の実装では順序を変更することもできる。特定の実装に応じて他のステップ順も可能である。いくつかの特定の実装では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。また、いくつかの実装は、全てのステップを有さないことも、及び/又は本明細書に示すステップに代えて又は加えて他のステップを有することもできる。
【0033】
以下の図3図7及び関連する説明は、3Dモデルの再構築に関する様々な態様を伴う。図8及び関連する説明は、ターゲット被写体の行動の認識に関する様々な態様を伴う。これらの説明する実装は、ビデオに取り込まれるありとあらゆるターゲット被写体を含む、ビデオに取り込まれるいずれか1つ又は2つ以上の被写体に適用される。
【0034】
図3は、いくつかの実施形態による、マルチビューポーズを再構築するためのフロー図例である。以下の詳細は、いくつかの実装によるポーズ再構築及び追跡フレームワークについて説明するものである。図1及び図3を共に参照すると、方法は、システム102などのシステムがカメラパラメータを取得するブロック302から開始する。様々な実装では、カメラパラメータが、環境の設定に応じて、システム内の各カメラの内的行列及び外的行列を含むことができる。
【0035】
ブロック304において、システム102が2次元(2D)ポーズ情報を計算する。様々な実装では、システムが、2Dポーズ情報を計算するために一般的なキーポイント推定器を利用し、トップダウンアプローチ又はボトムアップアプローチのいずれかを使用することができる。
【0036】
ブロック306において、システム102が2Dポーズのマッチングを行う。様々な実装では、ポーズマッチングが、複数のカメラにわたって一貫したビデオに取り込まれた各ターゲット被写体のアイデンティティを維持し、追跡する。様々な実装では、システムが、マッチングに1又は2以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束(epipolar constraints)、データ関連付けのためのユークリッド距離及びアルゴリズム(Euclidean distance and algorithm for data association)、ハンガリアンアルゴリズム(Hungarian algorithm)などを挙げることができる。
【0037】
例示的なシナリオでは、システムが、幾何学的拘束(geometric constraints)及びサイクル一貫性拘束(cycle-consistent constraints)などを使用することにより、同じ人物の2Dポーズを異なるカメラビューにわたって関連付けることができる。従って、ある人物が1つのカメラの視野から外れた場合には、同じ環境内の別のカメラの視野に同じ人物が取り込まれる。様々な実装では、システムが、四肢の関節、身長、関節及び四肢の位置、人物の軌跡などの、ある人物の一部の検出及び知識に基づいてその人物の動き及びポーズを追跡することができる。
【0038】
本明細書で説明する実装は、ポーズをカメラにわたってフレーム毎に関連付ける従来の方法とは対照的に、3D空間内のポーズ追跡情報を使用することによって計算を抑える。
【0039】
ブロック308において、システム102が、逆投影された(back-projected)2Dポーズ情報を取得する。様々な実装では、システムが、(後述する)ブロック310からの3Dポーズ情報を画像平面に投影することによって、逆投影された2Dポーズ情報を取得することができる。様々な実装では、3D空間からの追跡情報が、ブロック306におけるポーズマッチングのための指針を現在のフレームに与える。
【0040】
ブロック310において、システム102が3Dポーズを再構築する。様々な実装では、システムが、複数の2D対応ポーズ及び三角測量に基づいてポーズの3D位置を決定する。本明細書では、三角測量に関する実装について、例えば図7に関連してさらに詳細に説明する。
【0041】
図4は、本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例400のブロック図である。環境400は、カメラ402、404及び406を含む。様々な実装では、カメラ402~406を異なる位置に配置することができる。
【0042】
様々な実装では、カメラ402~406を、これらの視野が重なるように異なる位置に配置することができる。図示のように、カメラ402、404及び406の視野は重複領域408において重なり合う。重複領域408に所与の1又は複数の被写体(例えば、スタッフ、患者など)が配置されると、カメラ402、404及び406の各々は、所与の1又は複数の被写体の映像(footage)を取り込むことができる。
【0043】
様々な実装では、カメラ402~406が、オクルージョンを回避して環境内の被写体の3D再構築を可能にするように設定されて予め較正される。様々な実装では、較正に使用される被写体が全てのカメラに同時に見える。3つのカメラを示しているが、環境400内にはあらゆる数のカメラが存在することができる。特定のカメラ数は特定の環境に依存することができる。様々な実装では、環境内のパターンを較正するために、システムがカメラ402~406を使用して床のタイルなどの被写体をモニタする。一般的に使用されているチェッカーボードパターン又は赤色-緑色-青色-深度(RGB-D)カメラの使用を含む別のカメラ較正法を使用することもできる。
【0044】
図5は、本明細書で説明する実装に使用できる、臨床活動を認識するための環境例500のブロック図である。被写体506及び508のビデオ映像を取り込むカメラ502及び504を示す。被写体506及び508は、例えば手術室内の職員、又は手術室内の職員及び患者などであることができる。
【0045】
様々な実装では、システムが、骨格ベースの活動認識を含むデータ融合及び臨床行動認識を実行する。上述したように、様々な実装では、データ融合が、1つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の2D対応ポーズを所与として仮想3D空間内の全ての被写体(例えば、スタッフ、患者など)の3Dポーズを再構築する。
【0046】
システムは、各職員及び患者の行動を骨格ポーズに基づいて認識する。このような行動は、立つこと、歩くこと、しゃがむこと、座ることなどを含むことができる。システムは、行動分類器を利用してこのような行動を認識することができる。システムのプロセスは、RGB画像又は深度マップに比べて、背景被写体(例えば、人々、オブジェクトなど)及び無関係なオブジェクト(例えば、衣服の質感など)などの視覚的ノイズに対してロバストである。別の方法としては、画像又は深度マップから直接行動を認識することを挙げることができる。いくつかの実装では、システムが、再構築された3D空間内でポーズを追跡し、空間的空間(spatial space)及び時間的空間の両方から骨格特徴を抽出することによって、さらなる利得を達成することができる。
【0047】
図6は、いくつかの実施形態による、マルチビューポーズを決定するためのフロー図例である。図1及び図6を共に参照すると、方法は、システム102などのシステムが逆投影された2Dポーズ情報を取得するブロック602から開始する。
【0048】
ブロック604において、システム102が推定されるポーズを取得する。システムは、カメラによって検出された各被写体の推定されるポーズを収集する。
【0049】
ブロック606において、システム102が対応するポーズを発見する。このような対応するポーズは、異なるカメラによって取り込まれた同じ被写体(例えば、人物)の異なるポーズを含むことができる。
【0050】
ブロック608において、システム102がポーズのマッチングを行う。例えば、システムは、異なるカメラからの同じ被写体(例えば、人物)のポーズをマッチさせる。いくつかの実装では、システムが、ポーズがいずれかの既存のトラックレット(tracklets)にマッチしなかった場合にポーズマッチングステップを実行する。トラックレットは、画像認識システムによって構築される、移動する被写体がたどる軌道の断片として定義することができる。
【0051】
様々な実装では、システムが、マッチングに1又は2以上のメトリクスを適用することができる。メトリクスの例としては、エピポーラ拘束、データ関連付けのためのユークリッド距離及びアルゴリズム、ハンガリアンアルゴリズムなどを挙げることができる。
【0052】
ブロック610において、システム102がマッチ結果を提供する。マッチ結果は、各特定の被写体(例えば、人物)の全てのポーズを示す。
【0053】
図7は、いくつかの実装による、再構築されたポーズを提供するためのフロー図例である。図1及び図7を共に参照すると、方法は、システム102などのシステムが2Dポーズのマッチングを行うブロック702から開始する。
【0054】
ブロック704において、システム102が2Dポーズから複数対のビューを選択する。様々な実装では、システムが各対を異なるカメラから取得する。様々な実装では、複数対のビューの選択が2つの条件に基づくことができる。いくつかの実装では、第1の条件が、再投影誤差が所定の閾値未満であることに基づいてビューの対を選択することであることができる。いくつかの実装では、第2の条件が、信頼スコアが所定の閾値よりも高いことに基づいてビューの対を選択することであることができる。例えば、高い信頼スコアはオクルージョンが少ないことに関連することができ、低い信頼スコアはオクルージョンが多いことに関連することができる。この選択は、正確な3D再構築のために再投影誤差を最小化して信頼スコアを最大化することによって達成することができる。
【0055】
後述するように、方法は、2つの一連のステップに従って再構築されたポーズを提供する。第1の一連のステップは、ブロック706、708及び710に関連する。システムは、ビューの対の組が空でない場合にこれらのステップを実行する。第2の一連のステップは、ブロック712、714及び716に関連する。システムは、ビューの対が選択されない場合にこれらのステップを実行する。
【0056】
ブロック706において、システム102が2つのビューを選択する。様々な実装では、システムが、最大ランクの信頼スコア及び最小ランクの再投影誤差を有する2つのビューを選択する。ブロック708に関連して後述するように、システムは、3Dポーズ再構築のために2つのビューを使用して三角測量を実行することができる。
【0057】
ブロック708において、システム102が三角測量を実行する。様々な実装では、システムが適応的三角測量(adaptive triangulation)を利用することができる。三角測量は、マルチビューフレームワークにおける所与の2D一致ポーズに基づいて3Dポーズ情報を取得するために使用することができる。いくつかの実装では、システムが、全てのカメラにわたって再構築を実行する代わりに、カメラビューのサブセットを3Dポーズ再構築のために適応的に選択することができる。例えば、システムは、計算を最小化するために、所与のターゲット被写体を取り込むカメラを決定することができる。所与の被写体を取り込まない他のカメラは不要であり、従ってこの特定の被写体の情報の収集には使用されない。被写体を取り込むカメラのみを使用することで、システムが実行する計算が十分ではあるが過剰ではないことが保証される。
【0058】
ブロック710において、システム102が再構築されたポーズを提供する。様々な実装では、システムが、複数の2D対応ポーズ及び三角測量に基づいて、同じ被写体(例えば、臨床医、患者など)の各ポーズの3D位置を決定する。システムは、各被写体の3Dポーズを再構築するために複数のカメラのビデオフィードからポーズを決定する。
【0059】
上述したように、第2の一連のステップはブロック712、714及び716に関連する。システムは、ビューの対が選択されない場合にこれらのステップを実行する。
【0060】
ブロック712において、システム102が三角測量を実行する。様々な実装では、システム102が、上述したステップ708と同様に三角測量を実行する。
【0061】
ブロック714において、システム102がポーズを統合する。例えば、様々な実装では、システムが、各被写体(例えば、臨床医、患者など)を取り込む異なるカメラの異なる視点からの各被写体のポーズを集約する。
【0062】
ブロック716において、システム102が再構築されたポーズを提供する。様々な実装では、システム102が、上述したステップ710と同様に三角測量を実行する。
【0063】
図8は、いくつかの実装による、ターゲット被写体の行動を認識するためのフロー図例である。図1及び図8を共に参照すると、方法は、システム102などのシステムが推定される2Dポーズを決定するブロック802から開始する。システムは、カメラによって検出された各被写体の推定される2Dポーズを収集する。様々な実装では、システムが、各推定される2Dポーズの時点[00t]を決定する。
【0064】
ブロック804において、システム102が3D空間内のポーズを決定する。システムは、カメラによって検出された各被写体の推定されるポーズを収集する。様々な実装では、システムが、行動認識のロバスト性の改善に役立つように、再構築された3Dポーズを用いた骨格ベースのアプローチを利用する。例えば、いくつかの実装では、システムが、絶対値(例えば、5’8”など)でのターゲット被写体の身長、又は他の被写体の身長と比較した身長(例えば、2”だけ高い、1”だけ低いなど)を決定することができる。ある実装では、システムがターゲット被写体の重心を決定することができる。重心は、他の被写体(例えば、人々、物体など)に対するターゲット被写体の位置を決定する上で有用であることができる。システムは、別の被写体に対するターゲット被写体の移動軌跡(例えば、他の特定の被写体の前を通り過ぎることなど)を決定することができる。
【0065】
ブロック806において、システム102が逆投影ポーズ情報を決定して、3D空間情報から2D空間情報に変換する。様々な実装では、システムが、同様の行動を互いに区別するために、以前のフレームからの3D位置情報を利用することができる。例えば、システムは、時点[00t]、及び逆投影ポーズ情報の逆投影時点(t-n)を決定する。システムは、3D空間及び2D空間におけるターゲット被写体に関するポーズ情報を収集するために、以前のフレームに基づいて異なる時点でのターゲット被写体のポーズを比較することができる。
【0066】
ブロック808において、システム102がターゲット被写体の1又は2以上の行動を認識する。システムは、様々な行動、行動順、及び行動時点を決定することができる。例えば、システムは、ターゲット被写体が座っていたかどうか、ターゲット被写体が立っていたかどうか、ターゲット被写体が座ったり立ったりした順序及び時点を決定することができる。
【0067】
様々な実装では、システムが、様々な機械学習法又は深層学習法を使用して行動を認識することができる。例えば、システムは、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、グラフ畳み込みネットワーク(GCN)、又は他の好適な(単複の)ニューラルネットワークを使用して、ターゲット被写体の1又は2以上の行動を認識することができる。
【0068】
ブロック810において、システム102が、ターゲット被写体の認識された1又は複数の行動の1又は2以上の行動カテゴリを決定する。例えば、システムは、所与の行動を(例えば、座った状態から立った状態などへの)遷移行動として分類することができる。別の例では、システムが、所与の行動を動き(例えば、歩くこと、手を挙げることなど)として分類することができる。別の例では、システムが、所与の行動を物体の取り扱い(例えば、コンピュータを持ち上げること、ドアに鍵を差し込むことなど)として分類することができる。特定のカテゴリは、特定の実装に応じて異なることができる。
【0069】
システムは、3D仮想空間における再構築されたポーズを事前知識として使用し、深層学習ベースのアプローチを使用してシーン内の全てのターゲット被写体の行動を認識する。実装は、いずれかの2D及び/又は3Dポーズ推定システム上に成り立つことができる。あるシナリオ例では、システムが、行動及び行動のカテゴリに基づいて、ターゲット被写体が犯罪又はその他の受け入れ難い行為を犯しているかどうかを検出することができる。別のシナリオ例では、システムが、ターゲット被写体がビデオゲームをプレイしている時にターゲット被写体をモニタすること(例えば、ビデオゲームの状況におけるターゲット被写体の動きを追跡することなど)ができる。
【0070】
実装は、複数の観察される被写体が関与する実際の応用において頻繁に発生し得るオクルージョンに対してロバストである。このオクルージョンは自己オクルージョン(self-occlusion)を伴うことができる。例えば、所与のターゲット被写体が、別の被写体によって所与のカメラから遮られた位置に移動することがある。オクルージョンは、所与のターゲット被写体が物体によって所与のカメラから遮られる物体間オクルージョン(inter-object occlusion)を伴うこともできる。このようなオクルージョン問題は、複数のカメラを使用し、3Dモデルに基づいてターゲット被写体を追跡することで回避することができる。例えば、いくつかの実装では、システムが、それぞれのキーポイントに基づいて被写体の位置を区別してこれらの位置を追跡することができる。同様に、システムは、1又は2以上のターゲット被写体を含む様々な被写体の独特な行動を識別して追跡する。システムは、所与の被写体のどの部分が隠れているかを判定することができる。システムは、相対的キーポイントを追跡することにより、複数のカメラ及び複数のそれぞれの視野に基づく3Dモデルを使用して位置及び行動を確認することができる。実装は、効率的な分析及び訓練のために一定量のデータ量を必要とする従来のシステムとは異なり、最適なパフォーマンスのために最小限のデータしか必要としない。
【0071】
実装は、モーションブラー及び照明変動が原因で区別可能な視覚情報を欠いていることがある制御されていない環境にも適用される。システムは、いくつかのカメラがモーションブラーの影響を受けないことができる複数のカメラからのビデオにアクセスすることによってモーションブラーに適応することができる。様々な実装では、システムが、3Dモデルに基づいて照明変動及び変化に適応する。例えば、システムは、1又は2以上のカメラに基づいて照明の変化を検出することができる。システムは、人間の介入を伴わずにカメラのうちの1つ又は2つ以上を自動的に調整又は再較正することができる。これらの機能は、様々な現実用途(ヘルスケア、セキュリティ、ヒューマンコンピュータインタラクションなど)に適用することができる。
【0072】
本明細書で説明する実装は様々な利点をもたらす。例えば、本明細書で説明する実装は、単純でありながら、3Dでのマルチカメラ・マルチターゲットポーズ再構築において有効である。また、本明細書で説明する実装は、さらなる3Dポーズ再構築のための重要なステップとして機能するポーズマッチングのためのコスト効率の高い解決策を提供する。本明細書で説明する実装は、深層学習法よりも高いパフォーマンスを達成する。また、本明細書で説明する実装は、訓練に著しい追加データを必要とすることなく、既存の深層学習法よりも柔軟かつスケーラブルである。複数のターゲット被写体の行動を認識する能力は、2又は3以上のターゲット被写体間の相互作用又は交換(例えば、球技での相互作用、小売店での販売取引など)も追跡するという利点を有する。
【0073】
図9は、本明細書で説明するいくつかの実装に使用できるネットワーク環境例900のブロック図である。いくつかの実装では、ネットワーク環境900が、サーバ装置904とデータベース906とを含むシステム902を含む。例えば、システム902は、図1のシステム102を実装するため、並びに本明細書で説明する実装を実行するために使用することができる。ネットワーク環境900は、システム902と通信できる、及び/又は直接又はシステム902を介して互いに通信できるクライアント装置910、920、930及び940も含む。ネットワーク環境900は、システム902及びクライアント装置910、920、930及び940が通信できるようにするネットワーク950も含む。ネットワーク950は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0074】
説明を容易にするために、図9には、システム902、サーバ装置904及びネットワークデータベース906の各々につき1つのブロックと、クライアント装置910、920、930及び940のための4つのブロックとを示す。ブロック902、904及び906は、複数のシステム、サーバ装置及びネットワークデータベースを表すこともできる。また、あらゆる数のクライアント装置が存在することもできる。他の実装では、環境900が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0075】
本明細書で説明する実装はシステム902のサーバ装置904によって実行されるが、他の実装では、本明細書で説明する実装の実行を、システム902に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム902に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0076】
本明細書で説明する様々な実装では、システム902のプロセッサ及び/又はいずれかのクライアント装置910、920、930及び940のプロセッサが、本明細書で説明する要素(例えば、情報など)が1又は2以上のディスプレイ画面上のユーザインターフェイス内に表示されるようにする。
【0077】
図10は、本明細書で説明するいくつかの実装に使用できるコンピュータシステム例1000のブロック図である。例えば、コンピュータシステム1000は、図9のサーバ装置904及び/又は図1のシステム102を実装するため、並びに本明細書で説明する実装を実行するために使用することができる。いくつかの実装では、コンピュータシステム1000が、プロセッサ1002、オペレーティングシステム1004、メモリ1006、及び入力/出力(I/O)インターフェイス1008を含むことができる。様々な実装では、プロセッサ1002を、本明細書で説明する様々な機能及び特徴を実装するため、並びに本明細書で説明する方法の実装を実行するために使用することができる。本明細書で説明する実装を実行するものとしてプロセッサ1002を説明しているが、説明するステップは、コンピュータシステム1000のいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはコンピュータシステム1000又はいずれかの好適なシステムに関連するいずれかの好適な1又は複数のプロセッサが実行することもできる。本明細書で説明する実装は、ユーザ装置上で、サーバ上で、又はこれらの組み合わせにおいて実行することができる。
【0078】
コンピュータシステム1000は、メモリ1006上、又は他のいずれかの好適な記憶位置、又はコンピュータ可読媒体上に記憶することができるソフトウェアアプリケーション1010を含む。ソフトウェアアプリケーション1010は、本明細書で説明する実装及びその他の機能をプロセッサ1002が実行することを可能にする命令を与える。ソフトウェアアプリケーションは、1又は2以上のネットワーク及びネットワーク通信に関連する様々な機能を実行するネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム1000のコンポーネントは、1又は2以上のプロセッサ、又はハードウェア装置のいずれかの組み合わせ、並びにハードウェア、ソフトウェア、ファームウェアなどのいずれかの組み合わせによって実装することができる。
【0079】
説明を容易にするために、図10には、プロセッサ1002、オペレーティングシステム1004、メモリ1006、I/Oインターフェイス1008及びソフトウェアアプリケーション1010の各々につき1つのブロックを示す。これらのブロック1002、1004、1006、1008及び1010は、複数のプロセッサ、オペレーティングシステム、メモリ、I/Oインターフェイス、及びソフトウェアアプリケーションを表すこともできる。様々な実装では、コンピュータシステム1000が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0080】
特定の実装に関して説明を行ったが、これらの特定の実装は例示にすぎず、限定的なものではない。これらの実施例に示す概念は、他の実施例及び実装に適用することもできる。
【0081】
様々な実装では、1又は2以上のプロセッサによる実行のためのソフトウェアが1又は2以上の非一時的コンピュータ可読媒体に符号化される。このソフトウェアは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行する。
【0082】
特定の実装のルーチンの実装には、C、C++、Java、アセンブリ言語などを含むいずれかの好適なプログラミング言語を使用することができる。手続き型又はオブジェクト指向型などの異なるプログラミング技術を使用することができる。これらのルーチンは、単一の処理装置又は複数のプロセッサ上で実行することができる。ステップ、動作又は計算については特定の順序で示しているかもしれないが、異なる特定の実装ではこの順序を変更することができる。いくつかの特定の実装では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。
【0083】
特定の実装は、命令実行システム、装置又はデバイスが使用する、或いはこれらに接続された(機械可読記憶媒体とも呼ばれる)非一時的コンピュータ可読記憶媒体に実装することができる。特定の実装は、ソフトウェア又はハードウェア又はこれらの組み合わせにおける制御ロジックの形で実装することもできる。制御ロジックは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行することができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。
【0084】
特定の実装は、プログラム可能な汎用デジタルコンピュータを使用することによって、及び/又は特定用途向け集積回路、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノエンジニアリングシステム、コンポーネント及び機構を使用することによって実装することができる。一般に、特定の実装の機能は、当業で周知のあらゆる手段によって実現することができる。分散型のネットワーク化されたシステム、コンポーネント及び/又は回路を使用することもできる。データの通信又は転送は、有線、無線又は他のいずれかの手段によるものであることができる。
【0085】
「プロセッサ」は、データ、信号又はその他の情報を処理するいずれかの好適なハードウェア及び/又はソフトウェアシステム、機構又はコンポーネントを含むことができる。プロセッサは、汎用中央処理装置、複数の処理装置、機能を実現するための専用回路又はその他のシステムを有するシステムを含むことができる。処理は、地理的位置に制限される必要も、又は時間的制限を有する必要もない。例えば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行することができる。処理の一部は、異なる(又は同じ)処理システムが異なる時点に異なる場所で実行することもできる。コンピュータは、メモリと通信するいずれかのプロセッサであることができる。メモリは、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、磁気記憶装置(ハードディスクドライブなど)、フラッシュ、光学記憶装置(CD又はDVDなど)、磁気又は光ディスク、或いはプロセッサによって実行される命令(例えば、プログラム又はソフトウェア命令)を記憶するのに適したその他の有形媒体などの電子的記憶装置を含むいずれかの好適なデータストレージ、メモリ及び/又は非一時的コンピュータ可読記憶媒体であることができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。命令は、例えばサーバ(例えば、分散システム及び/又はクラウドコンピューティングシステム)から配信されるサービス型ソフトウェア(SaaS)などの形態の電気信号に含めて電気信号として提供することもできる。
【0086】
また、特定の用途に従って有用である時には、図面/図に示す要素のうちの1つ又は2つ以上をより分離又は統合された形で実装し、或いはいくつかの事例では除去又は動作不能とすることもできると理解されるであろう。上述した方法のいずれかをコンピュータが実行できるようにする、機械可読媒体に記憶できるプログラム又はコードを実装することも本発明の趣旨及び範囲に含まれる。
【0087】
本明細書及び以下の特許請求の範囲全体を通じて使用する「1つの(英文不定冠詞)」及び「その(英文定冠詞)」は、文脈において別途明確に示していない限り複数形の照応を含む。また、本明細書及び以下の特許請求の範囲全体を通じて使用する「~内(in)」の意味は、文脈において別途明確に示していない限り、「~内(in)」及び「~上(on)」の意味を含む。
【0088】
以上、本明細書では特定の実装について説明したが、上述した開示では修正、様々な変更及び置換の自由が意図されており、いくつかの例では、記載した範囲及び趣旨から逸脱することなく、特定の実装のいくつかの特徴が対応する他の特徴の使用を伴わずに使用されると理解されたい。従って、特定の状況又は材料を基本的範囲及び趣旨に適合させるように多くの修正を行うことができる。
【符号の説明】
【0089】
100 環境
102 システム
104 クライアント
106 ネットワーク
108 活動エリア
110、112、114 被写体
120、122、124、126 ビデオカメラ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【国際調査報告】