(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-28
(54)【発明の名称】複数のカメラを用いた臨床活動認識
(51)【国際特許分類】
G06T 7/20 20170101AFI20240521BHJP
【FI】
G06T7/20 300Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023571952
(86)(22)【出願日】2022-05-27
(85)【翻訳文提出日】2023-11-20
(86)【国際出願番号】 IB2022055031
(87)【国際公開番号】W WO2022259083
(87)【国際公開日】2022-12-15
(32)【優先日】2021-06-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】504257564
【氏名又は名称】ソニー コーポレイション オブ アメリカ
(74)【代理人】
【識別番号】100092093
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】シュー ワンシン
(72)【発明者】
【氏名】ファン コ-カイ アルバート
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA06
5L096CA04
5L096CA05
5L096FA09
5L096FA66
5L096FA67
5L096FA69
5L096FA77
5L096GA40
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
実装は、一般に複数のカメラを使用して臨床活動を認識する。いくつかの実装では、方法が、環境内の複数のオブジェクトの複数のビデオを取得することを含む。方法は、複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することをさらに含む。方法は、1又は2以上のキーポイントに基づいて活動情報を認識することをさらに含む。方法は、活動情報に基づいてワークフロー情報を計算することをさらに含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
システムであって、
1又は2以上のプロセッサと、
1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、前記1又は2以上のプロセッサによる実行のためのロジックと、
を備え、前記ロジックは、実行時に、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、
前記1又は2以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、
ことを特徴とするシステム。
【請求項2】
前記環境は手術室である、
請求項1に記載のシステム。
【請求項3】
前記複数のビデオは、少なくとも2つのビデオカメラによって取り込まれる、
請求項1に記載のシステム。
【請求項4】
前記活動情報はポーズ情報を含む、
請求項1に記載のシステム。
【請求項5】
前記ロジックは、実行時に、
前記環境内の人々である1又は2以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の1又は2以上の活動を識別することと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、請求項1に記載のシステム。
【請求項6】
前記ロジックは、実行時に、
前記環境内の無生物である1又は2以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記1又は2以上のオブジェクトを各人物に関連付けることと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、請求項1に記載のシステム。
【請求項7】
前記ワークフロー情報は手術ワークフロー情報を含む、
請求項1に記載のシステム。
【請求項8】
プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記プログラム命令は、1又は2以上のプロセッサによって実行された時に、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、
前記1又は2以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含む動作を前記1又は2以上のプロセッサに実行させるように動作可能である、ことを特徴とするコンピュータ可読記憶媒体。
【請求項9】
前記環境は手術室である、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項10】
前記複数のビデオは、少なくとも2つのビデオカメラによって取り込まれる、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項11】
前記活動情報はポーズ情報を含む、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項12】
前記命令は、実行時に、
前記環境内の人々である1又は2以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の1又は2以上の活動を識別することと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、請求項8に記載のコンピュータ可読記憶媒体。
【請求項13】
前記命令は、実行時に、
前記環境内の無生物である1又は2以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記1又は2以上のオブジェクトを各人物に関連付けることと、
を含む動作を前記1又は2以上のプロセッサに実行させるようにさらに動作可能である、請求項8に記載のコンピュータ可読記憶媒体。
【請求項14】
前記ワークフロー情報は手術ワークフロー情報を含む、
請求項8に記載のコンピュータ可読記憶媒体。
【請求項15】
コンピュータ実装方法であって、
環境内の複数のオブジェクトの複数のビデオを取得することと、
前記複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、
前記1又は2以上のキーポイントに基づいて活動情報を認識することと、
前記活動情報に基づいてワークフロー情報を計算することと、
を含むことを特徴とする方法。
【請求項16】
前記環境は手術室である、
請求項15に記載の方法。
【請求項17】
前記複数のビデオは、少なくとも2つのビデオカメラによって取り込まれる、
請求項15に記載の方法。
【請求項18】
前記活動情報はポーズ情報を含む、
請求項15に記載の方法。
【請求項19】
前記環境内の人々である1又は2以上のオブジェクトを認識することと、
前記環境内の各人物の行路を追跡することと、
各人物の1又は2以上の活動を識別することと、
をさらに含む、請求項15に記載の方法。
【請求項20】
前記環境内の無生物である1又は2以上のオブジェクトを認識することと、
前記環境内で認識された各無生物の位置を追跡することと、
無生物である前記1又は2以上のオブジェクトを各人物に関連付けることと、
をさらに含む、請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2021年6月10日に出願された「複数のカメラを用いた臨床活動認識(CLINICAL ACTIVITY RECOGNITION WITH MULTIPLE CAMERAS)」という名称の米国特許出願第17/344,730号(クライアント参照番号:SYP339212US01)に基づく優先権を主張するものであり、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。
【0002】
本出願は、2021年6月10日に出願された「ビデオ解析のための追跡によるポーズ再構築(POSE RECONSTRUCTION BY TRACKING FOR VIDEO ANALYSIS)」という名称の米国特許出願シリアル番号第17/344,734号(SYP339216US01)に関連し、この文献は全ての目的でその全文が本出願に記載されているかのように引用により本明細書に組み入れられる。
【背景技術】
【0003】
カメラシステムの中には、人物のビデオを取り込み、人物の動きを分析し、メタデータの画像又はビデオデータセットを生成できるものがある。システムのカメラビデオによって取り込まれた人間のアクションを識別するには、ある人物がビデオを手動で確認する必要がある。手動でのモニタリング及びイベント報告は、特にビデオカメラの位置及び角度が変化して十分なカバレッジを提供できない場合に信頼性が低く、多大な時間を要する場合がある。管理された環境内で複数のカメラを使用することもできる。しかしながら、被写体、動き及び背景の変動が依然として大幅に制限される場合がある。
【発明の概要】
【課題を解決するための手段】
【0004】
実施形態は、一般に複数のカメラを使用して臨床活動を認識することに関する。本明細書で説明する実施形態は、手術室、集中治療室(ICU)、病室、緊急救命室などの臨床環境における人間の活動の認識に応用することができる。実施形態は、より良い患者治療及びより高い病院効率を提供するためのコンテキストアウェアシステムを提供する。
【0005】
いくつかの実施形態では、システムが、1又は2以上のプロセッサと、1又は2以上の非一時的なコンピュータ可読記憶媒体に符号化された、1又は2以上のプロセッサによる実行のためのロジックとを含む。ロジックは、実行時に、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、1又は2以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0006】
いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも2つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、ロジックが、実行時に、環境内の人々である1又は2以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の1又は2以上の活動を識別することと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ロジックが、実行時に、環境内の無生物である1又は2以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である1又は2以上のオブジェクトを各人物に関連付けることと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。
【0007】
いくつかの実施形態では、プログラム命令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。プログラム命令は、1又は2以上のプロセッサによって実行された時に、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、1又は2以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む動作を1又は2以上のプロセッサに実行させるように動作可能である。
【0008】
さらにコンピュータ可読記憶媒体に関して、いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも2つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、命令が、実行時に、環境内の人々である1又は2以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の1又は2以上の活動を識別することと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、命令が、実行時に、環境内の無生物である1又は2以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である1又は2以上のオブジェクトを各人物に関連付けることと、を含む動作を1又は2以上のプロセッサに実行させるようにさらに動作可能である。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。
【0009】
いくつかの実施形態では、方法が、環境内の複数のオブジェクトの複数のビデオを取得することと、複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定することと、1又は2以上のキーポイントに基づいて活動情報を認識することと、活動情報に基づいてワークフロー情報を計算することと、を含む。
【0010】
いくつかの実施形態では、環境が手術室である。いくつかの実施形態では、複数のビデオが少なくとも2つのビデオカメラによって取り込まれる。いくつかの実施形態では、活動情報がポーズ情報を含む。いくつかの実施形態では、方法が、環境内の人々である1又は2以上のオブジェクトを認識することと、環境内の各人物の行路を追跡することと、各人物の1又は2以上の活動を識別することと、をさらに含む。いくつかの実施形態では、方法が、環境内の無生物である1又は2以上のオブジェクトを認識することと、環境内で認識された各無生物の位置を追跡することと、無生物である1又は2以上のオブジェクトを各人物に関連付けることと、をさらに含む。いくつかの実施形態では、ワークフロー情報が手術ワークフロー情報を含む。
【0011】
本明細書の残り部分及び添付図面を参照することにより、本明細書に開示する特定の実装の特質及び利点をさらに理解することができる。
【図面の簡単な説明】
【0012】
【
図1】本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例のブロック図である。
【
図2】いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。
【
図3】いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。
【
図4】本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例のブロック図である。
【
図5A】本明細書で説明する実装に使用できる、トップダウン手法を使用して臨床活動を認識するためのフロー図である。
【
図5B】本明細書で説明する実装に使用できる、ボトムアップ手法を使用して臨床活動を認識するためのフロー図である。
【
図6】本明細書で説明する実装に使用できる、臨床活動を認識するための環境例のブロック図である。
【
図7】本明細書で説明する実装に使用できる、臨床活動の認識において使用されるユーザインターフェイス例のブロック図である。
【
図8】本明細書で説明する実装に使用できるネットワーク環境例のブロック図である。
【
図9】本明細書で説明する実装に使用できるコンピュータシステム例のブロック図である。
【発明を実施するための形態】
【0013】
本明細書で説明する実施形態は、複数のカメラを用いた臨床活動の認識及びモニタリングを可能にし、容易にし、管理する。いくつかの実施形態では、システムが、環境内の複数のオブジェクトの複数のビデオを取得する。システムは、複数のオブジェクトの各オブジェクトの1又は2以上のキーポイントを決定する。システムは、1又は2以上のキーポイントに基づいて活動情報を認識する。システムは、活動情報に基づいてワークフロー情報をさらに計算する。
【0014】
本明細書に開示する実施形態については、オブジェクト又は被験者が人間である文脈で説明するが、これらの実施形態は、臨床環境などの環境内で様々な行動を実行できる動物、機械装置などの他のオブジェクトに適用することもできる。
【0015】
図1は、本明細書で説明する実装に使用できる、複数のカメラを使用して臨床活動を認識するための環境例100のブロック図である。本明細書でさらに詳細に説明するように、システム102は、より良い患者治療及びより高い病院効率を提供するコンテキストアウェアシステムである。いくつかの実装では、環境100が、ネットワーク106を介してクライアント104と通信するシステム102を含む。ネットワーク106は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0016】
様々な実施形態では、環境100が、1又は2以上の人々及び/又は1又は2以上のオブジェクトを含む活動が認識され、モニタされ、追跡されるいずれかの環境であることができる。様々な実施形態では、環境100がいずれかの臨床環境であることができる。例えば、いくつかの実施形態では、環境100が手術室であることができる。他の実施形態では、環境100が、集中治療室(ICU)、病室、緊急救命室などであることができる。
【0017】
活動エリア110は、手術室の手術エリアであることができる。いくつかの実施形態では、活動エリア110が手術室全体であることができる。様々な実施形態では、システム102、クライアント104及びネットワーク106が、環境に対して局所的なもの、遠隔的なもの(例えば、クラウド内)、又はこれらの組み合わせであることができる。
【0018】
様々な実施形態では、少なくとも2つのビデオカメラによってビデオが取り込まれる。例えば、図示のように、システム102は、活動エリア110内のオブジェクト108のビデオを異なる角度で取り込む物理的ビデオカメラ112、114、116及び118を使用してオブジェクト108の活動をモニタする。
【0019】
本明細書でさらに詳細に説明するように、様々な実施形態では、オブジェクト108が1又は2以上の人々を表すことができる。例えば、様々なシナリオでは、オブジェクト108が、医師及び看護師などの臨床医、1又は2以上の助手、患者などのうちの1人又は2人以上を表すことができる。様々な実施形態では、オブジェクト108が1又は2以上の無生物を表すこともできる。例えば、様々なシナリオでは、オブジェクト108が、1又は2以上の病院ベッド、手術器具、手術道具などを表すことができる。また、オブジェクト108は、複数の人物又は複数の無生物、或いはこれらの組み合わせを表すこともできる。特定のタイプのオブジェクトは様々であることができ、特定の実装に依存する。様々な実施形態では、オブジェクト108を、被験者108、人物108、ターゲットユーザ108、又はいずれかの無生物オブジェクト108と呼ぶこともできる。
【0020】
様々な実施形態では、システムが、被験者がウェアラブル機器を有する必要がないという点で効率的な視覚ベースのアプローチを利用する。また、視覚ベースのアプローチは、システムの異なる設定に対して高度にスケーラブルでもある。様々な実施形態では、システムが、臨床環境(例えば、手術室、緊急救命室など)における活動を自動的かつ正確に認識することで、臨床活動の最適化に重要な手術又は臨床ワークフローの理解を可能にする。システムは、患者の転帰及びケアを強化してスタッフのコストを削減するために、スタッフ及び患者活動のリアルタイムモニタリングを実行する。
【0021】
様々な実施形態では、異なる角度及び/又は異なる距離を含む、同じオブジェクトの異なる視点から複数のビデオ画像及び/又は静止画像を取り込むために、物理的ビデオカメラ112、114、116及び118が様々な場所に配置される。カメラという用語とビデオカメラという用語は同義的に使用することができる。これらの異なる視点は、異なるオブジェクトの外観を区別しやすくする。
【0022】
説明を容易にするために、
図1には、システム102、クライアント104、ネットワーク106及び活動エリア110の各々につき1つのブロックを示す。ブロック102、104、106及び110は、複数のシステム、クライアント装置、ネットワーク及び活動エリアを表すこともできる。また、所与の活動エリアにはあらゆる数の人々/被験者が存在することができる。例えば、いくつかの実施形態では、被験者108が1又は2以上の異なる被験者を表すことができる。他の実装では、環境100が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0023】
本明細書で説明する実施形態はシステム102によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム102に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム102に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0024】
図2は、いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。
図1及び
図2を共に参照すると、方法は、システム102などのシステムが環境内の複数のオブジェクトの複数のビデオを取得するブロック202から開始する。様々な実施形態では、カメラがビデオを録画し、ビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、(事前較正されたものを含む)所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、1又は2以上の内的行列(intrinsic matrices)、1又は2以上の外的行列(extrinsic matrices)などを含むことができる。
【0025】
ブロック204において、システムが環境内の各オブジェクトの1又は2以上のキーポイントを決定する。様々な実施形態では、システムが、ウェアラブル機器が不要であるという点で有益な、複数のカメラを使用する視覚ベースの技術を利用する。また、システムは、システムの異なる設定に対して高度にスケーラブルでもある。
【0026】
様々な実施形態では、システムが、臨床手順の効率を高めるために手術中にスタッフに様々な状況を良好に認識させるのに役立つ骨格ベースの活動認識手法を提供する。例えば、様々な実施形態では、システムがポーズ推定の実行においてキーポイントを使用することができる。例えば、システムは、医師又は看護師又は他の臨床医などの職員が患者を手術室に案内する場合に、主要身体部分(例えば、頭、胴体、脚、腕など)、関節(首、肩、肘、手首、膝、足首など)、設備、ベッドなどのキーポイントを識別する。
【0027】
様々な実施形態では、システムが、人工知能(AI)技術、深層機械学習技術及びコンピュータビジョン技術を利用してビデオからキーポイントを検出、識別及び認識し、各キーポイントをオブジェクト(例えば、職員の頭、患者の胴体など)に関連付けることができる。システムは、これらの技術を利用して、キーポイントの動き及び行路の識別、分類、測定、モニタリング及び追跡を行う。上述したように、手作りの特徴(handcrafted features)又はウェアラブル機器は不要である。複数のカメラを使用することで、システムが環境の変化に対してロバストになる。また、複数のカメラを使用することで、複雑で混雑した環境のオブジェクトオクルージョン(object occlusions)も低下する。
【0028】
ブロック206において、システムが1又は2以上のキーポイントに基づいて活動情報を認識する。様々な実施形態では、活動情報がポーズ情報を含む。例えば、システムは、臨床医が患者をベッドまで歩かせていることを検出して認識することができる。システムは、患者が横になっていることを検出して認識することができる。次に、システムは、患者が横たわっているベッドを職員などの人物が押していることを検出して認識することができる。システムは、患者がベッド内に存在する状態でその人物がベッドを動かしているかどうかを検出することができる。本明細書でさらに詳細に説明するように、システムは、1又は2以上の人々がいつ部屋に出入りしているか、及び/又は機器及び/又は備品をいつ室内に運び込み、運び回っているかを検出することもできる。
【0029】
様々な実施形態では、システムが、AI技術、深層機械学習技術及びコンピュータビジョン技術を利用して、歩くことに関連する動き、機器を運ぶことに関連する動き、機器を動作させることに関連する動き、メモを取ることに関連する動きなどの特定の活動情報を認識することができる。様々な実施形態では、システムが、AI技術、深層機械学習技術及びコンピュータビジョン技術を利用して、被験者の体位及び動きを含む活動情報を特定のオブジェクトに関連付けることもできる。システムは、これらの及びその他の技術を利用して異なるオブジェクトを区別することができる。本明細書に示すように、システムは、複数のカメラを利用して、所与の環境内の異なるオブジェクトのビデオをオブジェクトに対する異なる角度及び距離で取り込む。
【0030】
このような活動の認識は、病院利用を最適化するために重要な外科的及び/又はその他の臨床的ワークフローの理解を可能にする。臨床環境内の活動のリアルタイムモニタリングは、患者転帰及びケアを強化してスタッフのコストを削減する。
【0031】
ブロック208において、システムが活動情報に基づいてワークフロー情報を計算する。様々な実施形態では、ワークフロー情報が、環境内の1又は2以上のオブジェクト(例えば、人々、設備など)の活動情報を含む。例えば、ワークフロー情報は、各人物(例えば、臨床医、患者など)が入室する時点、準備活動、手術活動、片付け活動などを含むことができる、手術の開始から終了までを表すことができる。ワークフロー情報は、タイムライン、及びタイムライン中に発生する特定の活動を含むこともできる。ワークフロー情報に関するさらなる実施形態例については、例えば
図7に関連して本明細書でさらに詳細に説明する。
【0032】
本明細書に示すように、システムは、環境内の人々である1又は2以上のオブジェクトを認識するとともに、各人物の1又は2以上の活動も識別する。様々な実施形態では、システムが環境内の各人物の行路も追跡する。例えば、システムは、ある人物が所与の部屋又は空間に出入りする際の人物の行路を含む特定の動きを検出することができる。例えば、システムは、ある人物が所与の環境(例えば、手術室など)内を歩く際の人物の行路を含む特定の動きを検出することができる。例えば、システムは、ある職員が患者を所与の環境内の特定の場所及び/又は向きに移動させる際に職員がたどる経路を追跡することができる。
【0033】
様々な実施形態では、システムが、環境内の無生物である1又は2以上のオブジェクトを認識する。システムは、環境内で認識された各無生物の位置を追跡する。例えば、システムは、手術道具のトレイ、患者が存在するベッド、他の様々な設備などを、環境(例えば、手術室など)内でのこれらの位置及び向きと共に検出することができる。また、システムは、無生物である1又は2以上のオブジェクトを各人物に関連付ける。例えば、所与の人物(例えば、臨床医、助手、その他の職員など)が特定の無生物(例えば、手術道具のトレイなど)を取り扱う場合、システムは、その無生物を特定の人物(例えば、助手)に関連付けることができる。
【0034】
様々な実施形態では、ワークフロー情報が手術ワークフロー情報を含む。例えば、システムは、オブジェクト(例えば、環境内に存在する、環境に出入りする1又は2以上の人々、1又は2以上の無生物など)のリストを生成することができる。次に、システムは、本明細書で説明するように各オブジェクトに関連するアクションを決定することができる。例えば、システムは、看護師が患者を手術室に案内すること、患者が横になるのを看護師が補助すること、医師が部屋に入ること、職員のチームが手術のために患者及び機器を準備すること、医師が様々な外科的処置を含む手術を行うこと、手術後の片付け、などに関連する情報を検出し、認識して記憶することができる。これらは一例であり、関連する特定のアクションは特定の実装に応じて異なる。
【0035】
様々な実施形態では、システムが、ワークフローのアクションの時系列的な整理、及び各アクションに関連するタイミング情報(例えば、タイムスタンプなど)の記憶も行う。ワークフロー情報は、検出されたオブジェクトのリスト、様々な異なるオブジェクト間の関連性、及び異なるアクションのタイムラインなどを含むことができる。従って、システムは、全体的手順の開始時刻及び停止時刻を決定する。システムは、全体的手順内の段階の開始時刻及び停止時刻も決定する。このような段階は、例えば設定段階、手術段階、報告段階、片付け段階などを含むことができる。
【0036】
様々な実施形態では、このようなワークフロー情報が、職員(例えば、管理者、医師、看護師など)がワークフロー内で行われたアクションを分析するのに有用である。システムは、各アクションが適切であるか、それとも不適切であるか、正常であるか、それとも異常であるか、迅速なものであるか、それとも時間のかかるものであるかなどを判定することができる。システムは、不適切なもの、異常なもの、時間のかかるものなどと思われる特定の活動にフラグ付けすることができる。
【0037】
様々な実施形態では、システムが、ワークフロー情報を提示するレポートを生成することができる。システムは、ワークフロー情報に基づいて1又は2以上の推奨を計算することができる。推奨は、本明細書で説明するような特定の活動に関連するフラグに基づくことができる。例えば、システムは、特定の設定手順が他の同様の設定手順に比べて異常に長い時間を要すると判定することができる。システムは、レポート内でそのアクション及び/又はそのアクションに関連する人物にフラグ付けすることができる。様々な実施形態では、ユーザ又はスタッフがこのような判定を検証し、及び/又はさらなる効率性及び/又は有効性のためにワークフローを修正することができる。従って、本明細書で説明する実施形態は、生成されたワークフロー情報を使用して、異なる処置のタイミングの改善、複雑な事態の把握などを行える点で有益である。レポートに関するさらなる実施形態例については、例えば
図7に関連して本明細書でさらに詳細に説明する。
【0038】
図3は、いくつかの実施形態による、複数のカメラを使用して臨床活動を認識するためのフロー図例である。
図1及び
図3を共に参照すると、方法は、システム102などのシステムが複数のビデオカメラからビデオを取得するブロック302から開始する。本明細書に示すように、複数のカメラはビデオを録画し、これらのビデオをいずれかの好適な記憶位置に記憶することができる。様々な実施形態では、(事前較正されたものを含む)所定のカメラパラメータで構成できる複数のカメラからビデオシーケンスが取り込まれる。このようなカメラパラメータは、1又は2以上の内的行列、1又は2以上の外的行列などを含むことができる。
【0039】
ブロック304において、システムがポーズ推定を実行する。このようなポーズ推定は、スタッフ及び患者を含む1又は2以上の人物のポーズ情報を含むことができる。このようなポーズ推定は、いずれかの好適なマルチパーソンポーズ推定器又はキーポイント検出器(例えば、アルファポーズ推定器、高分解能ネットワークなど)を使用して実行することができる。
【0040】
ブロック306において、システムが複数のカメラを使用してデータ融合を実行する。複数のカメラからのロバストかつ正確なデータ融合は、複雑で混雑した環境内で処理することができる。様々な実施形態では、データ融合が、1つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の2D対応ポーズを所与として仮想3D空間内の全てのオブジェクト(例えば、スタッフ、患者など)の3Dポーズを再構築する。
【0041】
様々な実施形態では、複数のカメラが、システムが自己オクルージョン(self-occlusion)及びオブジェクト間オクルージョン(inter-object occlusion)を伴うオブジェクトに対処することを可能にする。例えば、重大な自己オクルージョン及びオブジェクト間オクルージョンは、他の人物又は大型の臨床設備が所与のオブジェクトを所与のカメラから部分的に又は完全に遮ることに起因することができる。
【0042】
複数のカメラは、モニタされているオブジェクトのビューをより多く提供することによってモニタリングタスクを単純化する。複数のカメラを使用することで区別可能な外観情報がもたらされ、たとえ顔がマスクで覆われている場合、及び/又はスタッフと患者とが同様の衣服を着用している場合でもシステムが顔を認識できるようになる。
【0043】
ブロック308において、システムが臨床活動を認識する。様々な実施形態では、システムが、グラフィックスコアネクスト(graphics core next:GCN)法、再帰ニューラルネットワーク(recurrent neural network:RNN)法などを含むことができる一般的な骨格ベースの活動分類器を利用することができる。
【0044】
ブロック310において、システムが、臨床活動を含むワークフロー情報を生成する。様々な実施形態では、ワークフロー情報が、オブジェクト(例えば、スタッフ、患者、無生物など)の行路、及びこのようなオブジェクト(例えば、スタッフ、患者など)の活動を含むことができる。例えば、いくつかの実施形態では、システムが、1つのオブジェクト(例えば、職員など)が別のオブジェクト(例えば、患者など)を手術室に案内している可能性を識別して認識することができる。このような情報は、例えば医療モニタリング、手術室の効率改善などの医療分野における多くの用途にさらに使用することができる。従って、システムは、環境内のスタッフ、患者及び様々なオブジェクトを自動的に認識し、その活動及び動きを識別し、その行路をモニタして追跡する。
【0045】
図4は、本明細書で説明する実装に使用できる、複数のカメラ及び重複領域を使用して臨床活動を認識するための環境例400のブロック図である。環境400は、カメラ402、404及び406を含む。様々な実施形態では、カメラ402~406を異なる位置に配置することができる。
【0046】
様々な実施形態では、カメラ402~406を、これらの視野が重なるように異なる位置に配置することができる。図示のように、カメラ402、404及び406の視野は重複領域408において重なり合う。重複領域408に所与の1又は複数のオブジェクト(例えば、スタッフ、患者など)が配置されると、カメラ402、404及び406の各々は、所与の1又は複数のオブジェクトの映像(footage)を取り込むことができる。
【0047】
様々な実施形態では、カメラ402~406が、オクルージョンを回避して環境内のオブジェクトの3D再構築を可能にするように設定されて予め較正される。様々な実施形態では、較正に使用されるオブジェクトが全てのカメラに同時に見える。3つのカメラを示しているが、環境400内にはあらゆる数のカメラが存在することができる。特定のカメラ数は特定の環境に依存することができる。様々な実施形態では、環境内のパターンを較正するために、システムがカメラ402~406を使用して床のタイルなどのオブジェクトをモニタする。一般的に使用されているチェッカーボードパターン又は赤色-緑色-青色-深度(RGB-D)カメラの使用を含む別のカメラ較正法を使用することもできる。
【0048】
図5A及び
図5Bは、臨床環境における複数人物の2次元(2D)ポーズ推定に関するフロー図である。本明細書で説明する実施形態は、複数の人物のポーズを推定するために所与の画像内の全ての人物の身体関節を識別して特定する。
図5A及び
図5Bに関連して後述するように、実施形態はトップダウン手法及びボトムアップ手法を含むことができる。
【0049】
図5Aは、本明細書で説明する実装に使用できる、トップダウン手法を使用して臨床活動を認識するためのフロー図である。
図1及び
図5Aを共に参照すると、方法は、システム102などのシステムが画像をサンプリングするブロック502から開始する。
【0050】
ブロック504において、システムが人々を検出する。システムは、一般的なオブジェクト検出器を利用してスタッフ(例えば、臨床医、助手など)及び患者を検出することができる。
【0051】
ブロック506において、システムがキーポイントを推定する。システムは、キーポイント検出器を使用して各人物の頭、四肢、関節などのキーポイントを推定する。
【0052】
図5Bは、本明細書で説明する実装に使用できる、ボトムアップ手法を使用して臨床活動を認識するためのフロー図である。
図1及び
図5Bを共に参照すると、方法は、システム102などのシステムが画像をサンプリングするブロック512から開始する。
【0053】
ブロック514において、システムがキーポイントを推定する。本明細書に示すように、システムは、キーポイント検出器を使用して各人物の頭、四肢、関節などのキーポイントを推定する。
【0054】
ブロック516において、システムがキーポイントを関連付ける。例えば、システムはキーポイントをポーズに関連付け、関連するキーポイントを接続することによって2Dポーズを推定する。
【0055】
いくつかの実施形態では、システムが、画像空間内の人物及びキーポイントを追跡し、関心領域を精緻化し、非最大抑制(non-maximum suppression)を伴う(単複の)冗長ポーズを除去し、強化されたヒートマップ復号を使用してキーポイント検出を強化することによって、さらなる利得を達成することができる。
【0056】
図6は、本明細書で説明する実装に使用できる、臨床活動を認識するための環境例600のブロック図である。オブジェクト又は被験者606及び608のビデオ映像を取り込むカメラ602及び604を示す。オブジェクト606及び608は、例えば手術室内の職員、又は手術室内の職員及び患者などであることができる。
【0057】
様々な実施形態では、システムが、骨格ベースの活動認識を含むデータ融合及び臨床行動認識を実行する。上述したように、様々な実施形態では、データ融合が、1つのカメラからのある人物のポーズを他のカメラからの同じ人物のポーズに関連付け又は融合するプロセスである。システムは、データ融合後に、複数の2D対応ポーズを所与として仮想3D空間内の全てのオブジェクト(例えば、スタッフ、患者など)の3Dポーズを再構築する。
【0058】
システムは、各職員及び患者のアクションを骨格ポーズに基づいて認識する。このようなアクションは、立つこと、歩くこと、しゃがむこと、座ることなどを含むことができる。システムは、行動分類器を利用してこのようなアクションを認識することができる。システムのプロセスは、RGB画像又は深度マップに比べて、背景オブジェクト及び無関係なオブジェクト(例えば、衣服の質感など)などの視覚的ノイズに対してロバストである。別の方法としては、画像又は深度マップから直接アクションを認識することを挙げることができる。いくつかの実施形態では、システムが、再構築された3D空間内でポーズを追跡し、空間的空間(spatial space)及び時間的空間の両方から骨格特徴を抽出することによって、さらなる利得を達成することができる。
【0059】
図7は、本明細書で説明する実装に使用できる、臨床活動の認識において使用されるユーザインターフェイス例700のブロック図である。手術ワークフロー分析には、3人のオブジェクト又は被験者に関連するワークフロー情報を示す。この特定の実施形態例では、ワークフロー情報が、(Nurse1及びNurse2として表記する)2人の職員及び(Asst1として表記する)1人の助手に関連する。オブジェクト又は被験者の数は様々であることができ、特定の実装に依存する。例えば、患者、臨床設備及び/又は手術設備、道具、及び/又は消耗品などに関連するワークフロー情報が存在することができる。
【0060】
この実施形態例では、手術ワークフロー分析が設備の搬入に関する。図示のように、設備の搬入には60分を要している。例えば、1人の職員であるNurse1は、エネルギー装置の搬入に10分を要し、内視鏡の搬入に50分を要している。別の職員であるNurse2は、特定の道具の搬入に20分を要し、医用素材の搬入に40分を要している。助手であるAsst1は、手術室(OR)から設備を運び出すのに20分を要し、超音波装置を搬入するのに20分を要し、内視鏡を設定するのに20分を要している。Nurse1、Nurse2及びAsst1という3人のオブジェクト又は被験者を示しているが、ユーザインターフェイス700にはあらゆる数のオブジェクトを示すことができる。
【0061】
様々な実施形態では、本明細書に示すように、システムが、人々及び無生物を含む様々なオブジェクトを認識し、モニタして追跡する。システムは、各人物が行う個々の行動を識別する。これらの行動は、
図6に示すような動きを含むことができる。行動は、各人物が行う、臨床設備及び/又は手術設備、道具及び/又は備品などの無生物に関する行動を含むこともできる。
【0062】
本明細書で説明する実施形態は様々な用途を有する。このような用途としては、例えば臨床スタッフ及び患者の行路情報及び活動(例えば、歩行、起立など)の分析を挙げることができる。他の用途としては、知的手術ワークフロー分析、ロボット支援手術、手術室の効率改善及び最適化、医療モニタリング、患者の安全向上などを挙げることができる。
【0063】
本明細書で説明する実施形態は様々な利点をもたらす。例えば、システムは、臨床環境(手術室、ICU、病室、救急室など)における人間の活動及び行動を認識して分析する。これにより、効率性の把握、分析、最適化、並びに異常行動アラートなどの病院業務の自動モニタリングが可能になる。また、実施形態は、人々のポーズ骨格を活用することにより、多くの既存のモーションキャプチャシステムが必要とするウェアラブル機器又は特定の姿勢を必要とすることなく、複数のカメラを用いた複数人物の活動認識に深層学習ベースのフレームワークを利用する。
【0064】
図8は、本明細書で説明するいくつかの実装に使用できるネットワーク環境例800のブロック図である。いくつかの実装では、ネットワーク環境800が、サーバ装置804とデータベース806とを含むシステム802を含む。例えば、システム802は、
図1のシステム102を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。ネットワーク環境800は、システム802と通信できる、及び/又は直接又はシステム802を介して互いに通信できるクライアント装置810、820、830及び840も含む。ネットワーク環境800は、システム802及びクライアント装置810、820、830及び840が通信できるようにするネットワーク850も含む。ネットワーク850は、Wi-Fiネットワーク、Bluetoothネットワーク、インターネットなどのいずれかの好適な通信ネットワークであることができる。
【0065】
説明を容易にするために、
図8には、システム802、サーバ装置804及びネットワークデータベース806の各々につき1つのブロックと、クライアント装置810、820、830及び840のための4つのブロックとを示す。ブロック802、804及び806は、複数のシステム、サーバ装置及びネットワークデータベースを表すこともできる。また、あらゆる数のクライアント装置が存在することができる。他の実装では、環境800が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0066】
本明細書で説明する実施形態はシステム802のサーバ装置804によって実行されるが、他の実施形態では、本明細書で説明する実施形態の実行を、システム802に関連するいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはシステム802に関連するいずれかの好適な1又は複数のプロセッサが容易にすることができる。
【0067】
本明細書で説明する様々な実施形態では、システム802のプロセッサ及び/又はいずれかのクライアント装置810、820、830及び840のプロセッサが、本明細書で説明する要素(例えば、情報など)が1又は2以上のディスプレイ画面上のユーザインターフェイス内に表示されるようにする。
【0068】
図9は、本明細書で説明するいくつかの実装に使用できるコンピュータシステム例900のブロック図である。例えば、コンピュータシステム900は、
図8のサーバ装置804及び/又は
図1のシステム102を実装するため、並びに本明細書で説明する実施形態を実行するために使用することができる。いくつかの実装では、コンピュータシステム900が、プロセッサ902、オペレーティングシステム904、メモリ906、及び入力/出力(I/O)インターフェイス908を含むことができる。様々な実装では、プロセッサ902を、本明細書で説明する様々な機能及び特徴を実装するため、並びに本明細書で説明する方法の実装を実行するために使用することができる。本明細書で説明する実装を実行するものとしてプロセッサ902を説明しているが、説明するステップは、コンピュータシステム900のいずれかの好適なコンポーネント又はコンポーネントの組み合わせ、或いはコンピュータシステム900又はいずれかの好適なシステムに関連するいずれかの好適な1又は複数のプロセッサが実行することもできる。本明細書で説明する実装は、ユーザ装置上で、サーバ上で、又はこれらの組み合わせにおいて実行することができる。
【0069】
コンピュータシステム900は、メモリ906上、又は他のいずれかの好適な記憶位置、又はコンピュータ可読媒体上に記憶することができるソフトウェアアプリケーション910を含む。ソフトウェアアプリケーション910は、本明細書で説明する実装及びその他の機能をプロセッサ902が実行することを可能にする命令を与える。ソフトウェアアプリケーションは、1又は2以上のネットワーク及びネットワーク通信に関連する様々な機能を実行するネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム900のコンポーネントは、1又は2以上のプロセッサ、又はハードウェア装置のいずれかの組み合わせ、並びにハードウェア、ソフトウェア、ファームウェアなどのいずれかの組み合わせによって実装することができる。
【0070】
説明を容易にするために、
図9には、プロセッサ902、オペレーティングシステム904、メモリ906、I/Oインターフェイス908及びソフトウェアアプリケーション910の各々につき1つのブロックを示す。これらのブロック902、904、906、908及び910は、複数のプロセッサ、オペレーティングシステム、メモリ、I/Oインターフェイス、及びソフトウェアアプリケーションを表すこともできる。様々な実装では、コンピュータシステム900が、図示の全てのコンポーネントを有さないことも、及び/又は本明細書に示す要素に代えて又は加えて他のタイプの要素を含む他の要素を有することもできる。
【0071】
特定の実施形態に関して説明を行ったが、これらの特定の実施形態は例示にすぎず、限定的なものではない。これらの実施例に示す概念は、他の実施例及び実装に適用することもできる。
【0072】
様々な実装では、1又は2以上のプロセッサによる実行のためのソフトウェアが1又は2以上の非一時的コンピュータ可読媒体に符号化される。このソフトウェアは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行する。
【0073】
特定の実施形態のルーチンの実装には、C、C++、Java、アセンブリ言語などを含むいずれかの好適なプログラミング言語を使用することができる。手続き型又はオブジェクト指向型などの異なるプログラミング技術を使用することができる。これらのルーチンは、単一の処理装置又は複数のプロセッサ上で実行することができる。ステップ、動作又は計算については特定の順序で示しているかもしれないが、異なる特定の実施形態ではこの順序を変更することができる。いくつかの特定の実施形態では、本明細書において順次的なものとして示す複数のステップを同時に実行することもできる。
【0074】
特定の実施形態は、命令実行システム、装置又はデバイスが使用する、或いはこれらに接続された(機械可読記憶媒体とも呼ばれる)非一時的コンピュータ可読記憶媒体に実装することができる。特定の実施形態は、ソフトウェア又はハードウェア又はこれらの組み合わせにおける制御ロジックの形で実装することもできる。制御ロジックは、1又は2以上のプロセッサによって実行された時に、本明細書で説明した実装及びその他の機能を実行することができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。
【0075】
特定の実施形態は、プログラム可能な汎用デジタルコンピュータを使用することによって、及び/又は特定用途向け集積回路、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノエンジニアリングシステム、コンポーネント及び機構を使用することによって実装することができる。一般に、特定の実施形態の機能は、当業で周知のあらゆる手段によって実現することができる。分散型のネットワーク化されたシステム、コンポーネント及び/又は回路を使用することもできる。データの通信又は転送は、有線、無線又は他のいずれかの手段によるものとすることができる。
【0076】
「プロセッサ」は、データ、信号又はその他の情報を処理するいずれかの好適なハードウェア及び/又はソフトウェアシステム、機構又はコンポーネントを含むことができる。プロセッサは、汎用中央処理装置、複数の処理装置、機能を実現するための専用回路又はその他のシステムを有するシステムを含むことができる。処理は、地理的位置に制限される必要も、又は時間的制限を有する必要もない。例えば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行することができる。処理の一部は、異なる(又は同じ)処理システムが異なる時点に異なる場所で実行することもできる。コンピュータは、メモリと通信するいずれかのプロセッサとすることができる。メモリは、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、磁気記憶装置(ハードディスクドライブなど)、フラッシュ、光学記憶装置(CD又はDVDなど)、磁気又は光ディスク、或いはプロセッサによって実行される命令(例えば、プログラム又はソフトウェア命令)を記憶するのに適したその他の有形媒体などの電子的記憶装置を含むいずれかの好適なデータストレージ、メモリ及び/又は非一時的コンピュータ可読記憶媒体とすることができる。例えば、実行可能命令を含むことができる制御ロジックの記憶には、ハードウェア記憶装置などの有形媒体を使用することができる。命令は、例えばサーバ(例えば、分散システム及び/又はクラウドコンピューティングシステム)から配信されるサービス型ソフトウェア(SaaS)などの形態の電気信号に含めて電気信号として提供することもできる。
【0077】
また、特定の用途に従って有用である時には、図面/図に示す要素のうちの1つ又は2つ以上をより分離又は統合された形で実装し、或いはいくつかの事例では除去又は動作不能とすることもできると理解されるであろう。上述した方法のいずれかをコンピュータが実行できるようにする、機械可読媒体に記憶できるプログラム又はコードを実装することも本発明の趣旨及び範囲に含まれる。
【0078】
本明細書及び以下の特許請求の範囲全体を通じて使用する「1つの(英文不定冠詞)」及び「その(英文定冠詞)」は、文脈において別途明確に示していない限り複数形の照応を含む。また、本明細書及び以下の特許請求の範囲全体を通じて使用する「~内(in)」の意味は、文脈において別途明確に示していない限り、「~内(in)」及び「~上(on)」の意味を含む。
【0079】
以上、本明細書では特定の実施形態について説明したが、上述した開示では修正、様々な変更及び置換の自由が意図されており、いくつかの例では、記載した範囲及び趣旨から逸脱することなく、特定の実施形態のいくつかの特徴が対応する他の特徴の使用を伴わずに使用されると理解されたい。従って、特定の状況又は材料を基本的範囲及び趣旨に適合させるように多くの修正を行うことができる。
【符号の説明】
【0080】
100 環境
102 システム
104 クライアント
106 ネットワーク
108 オブジェクト
110 活動エリア
112~118 ビデオカメラ
【国際調査報告】