(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-10
(54)【発明の名称】自然言語処理技法を使用するコンピュータビジョンベースの外科ワークフロー認識システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240403BHJP
G06N 3/0464 20230101ALI20240403BHJP
G06N 3/045 20230101ALI20240403BHJP
G06N 20/00 20190101ALI20240403BHJP
G06F 16/73 20190101ALI20240403BHJP
G06F 16/78 20190101ALI20240403BHJP
G06V 10/82 20220101ALI20240403BHJP
【FI】
G06T7/00 350C
G06N3/0464
G06N3/045
G06N20/00 130
G06F16/73
G06F16/78
G06V10/82
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023563018
(86)(22)【出願日】2022-04-13
(85)【翻訳文提出日】2023-11-16
(86)【国際出願番号】 IB2022053473
(87)【国際公開番号】W WO2022219555
(87)【国際公開日】2022-10-20
(32)【優先日】2021-04-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520280601
【氏名又は名称】シーサッツ・インコーポレイテッド
【氏名又は名称原語表記】CSATS, Inc.
【住所又は居所原語表記】1100 Olive Way, Suite 1100, Seattle, Washington 98101, United States of America
(74)【代理人】
【識別番号】100088605
【氏名又は名称】加藤 公延
(74)【代理人】
【識別番号】100130384
【氏名又は名称】大島 孝文
(72)【発明者】
【氏名】ツァン・ボカイ
(72)【発明者】
【氏名】ガーネム・アメール
(72)【発明者】
【氏名】ミレタリ・ファウスト
(72)【発明者】
【氏名】バーカー・ジョセリン・エレイン
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5B175FB02
5L096BA06
5L096CA02
5L096HA11
5L096KA04
(57)【要約】
自然言語処理(NLP)技法を使用するコンピュータビジョンベースの外科ワークフロー認識のためのシステム、方法、及び手段が開示される。外科処置の外科ビデオは、例えば、ワークフロー認識を達成するために、処理及び分析され得る。外科フェーズは、外科ビデオに基づいて決定され、注釈付きビデオ表現を生成するためにセグメント化され得る。外科ビデオの注釈付きビデオ表現は、外科処置と関連付けられた情報を提供し得る。例えば、注釈付きビデオ表現は、外科フェーズ、外科イベント、外科ツール使用などに関する情報を提供し得る。
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
プロセッサを備え、前記プロセッサが、
複数の画像を含む外科ビデオデータを取得し、
前記複数の画像を複数の外科活動と関連付けるために、前記外科ビデオデータに対して自然言語処理を実行し、かつ
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成するように構成されており、前記予測結果が、前記外科ビデオデータにおける前記複数の外科活動の開始時間及び終了時間を示すように構成されている、コンピューティングシステム。
【請求項2】
前記実行された自然言語処理が、
変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、請求項1に記載のコンピューティングシステム。
【請求項3】
前記実行された自然言語処理が、
三次元畳み込みニューラルネットワーク(3D CNN)及び変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、請求項1に記載のコンピューティングシステム。
【請求項4】
前記実行された自然言語処理が、
自然言語処理を使用して、前記外科ビデオデータの表現サマリを抽出することであって、自然言語処理を使用して抽出することが、変換器と関連付けられている、抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を決定することと、を含む、請求項1に記載のコンピューティングシステム。
【請求項5】
前記実行された自然言語処理が、
前記外科ビデオデータの表現サマリを抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、ビデオセグメントの予測されるグループ化を決定することと、
自然言語処理を使用して、前記ビデオセグメントの予測されるグループ化をフィルタ処理することと、を含む、請求項1に記載のコンピューティングシステム。
【請求項6】
前記予測結果が、注釈付き外科ビデオ又は前記外科ビデオと関連付けられたメタデータのうちの少なくとも1つを含む、請求項1に記載のコンピューティングシステム。
【請求項7】
前記自然言語処理が、
自然言語処理を使用して、前記複数の外科活動と関連付けられたフェーズ境界を決定することであって、前記フェーズ境界が、第1の外科フェーズと第2の外科フェーズとの間の境界を示す、決定すること、並びに
出力を生成することであって、前記出力が、第1の外科フェーズ開始時間、第1の外科フェーズ終了時間、第2の外科フェーズ開始時間、及び第2の外科フェーズ終了時間を示す、生成すること、と関連付けられている、請求項1に記載のコンピューティングシステム。
【請求項8】
前記自然言語処理が、
アイドル期間を識別することであって、前記アイドル期間が、前記外科処置中の不活動と関連付けられている、識別すること、
出力を生成することであって、前記出力が、アイドル開始時間及びアイドル終了時間を示す、生成すること、並びに
前記識別されたアイドル期間に基づいて、前記予測結果を絞り込むこと、と関連付けられている、請求項1に記載のコンピューティングシステム。
【請求項9】
前記プロセッサが、
前記識別されたアイドル期間に基づいて、外科処置改善推奨を生成するように更に構成されている、請求項8に記載のコンピューティングシステム。
【請求項10】
前記複数の外科活動が、外科イベント、外科フェーズ、外科タスク、外科ステップ、アイドル期間、又は外科ツールの使用のうちの1つ又は2つ以上を示す、請求項1に記載のコンピューティングシステム。
【請求項11】
前記ビデオデータが、外科デバイスから受信され、前記外科デバイスが、外科コンピューティングシステム、外科ハブ、外科部位カメラ、又は外科監視システムである、請求項1に記載のコンピューティングシステム。
【請求項12】
前記自然言語処理が、前記ビデオデータ内の外科ツールを検出することと関連付けられ、前記予測結果が、前記外科処置における前記外科ツールの使用と関連付けられた開始時間、及び前記外科処置における前記外科ツールの前記使用と関連付けられた終了時間を示すように構成されている、請求項1に記載のコンピューティングシステム。
【請求項13】
方法であって、
複数の画像を含む外科ビデオデータを取得することと、
前記複数の画像を複数の外科活動と関連付けるために、前記外科ビデオデータに対して自然言語処理を実行することと、
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成することと、を含み、前記予測結果が、前記外科ビデオデータにおける前記複数の外科活動の開始時間及び終了時間を示すように構成されている、方法。
【請求項14】
自然言語処理を実行することが、
変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、請求項13に記載の方法。
【請求項15】
自然言語処理を実行することが、
三次元畳み込みニューラルネットワーク(3D CNN)及び変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、請求項13に記載の方法。
【請求項16】
自然言語処理を実行することが、
自然言語処理を使用して、前記外科ビデオデータの表現サマリを抽出することであって、自然言語処理を使用して抽出することが、変換器と関連付けられている、抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を決定することと、を含む、請求項13に記載の方法。
【請求項17】
前記予測結果が、注釈付き外科ビデオ又は前記外科ビデオと関連付けられたメタデータのうちの少なくとも1つを含む、請求項13に記載の方法。
【請求項18】
自然言語処理を実行することが、
自然言語処理を使用して、前記複数の外科活動と関連付けられたフェーズ境界を決定することであって、前記フェーズ境界が、第1の外科フェーズと第2の外科フェーズとの間の境界を示す、決定すること、並びに
出力を生成することであって、前記出力が、第1の外科フェーズ開始時間、第1の外科フェーズ終了時間、第2の外科フェーズ開始時間、及び第2の外科フェーズ終了時間を示す、生成すること、と関連付けられている、請求項13に記載の方法。
【請求項19】
自然言語処理を実行することが、
アイドル期間を識別することであって、前記アイドル期間が、前記外科処置中の不活動と関連付けられている、識別すること、
出力を生成することであって、前記出力が、アイドル開始時間及びアイドル終了時間を示す、生成すること、並びに
前記識別されたアイドル期間に基づいて、前記予測結果を絞り込むこと、と関連付けられている、請求項13に記載の方法。
【請求項20】
コンピューティングシステムであって、
プロセッサを備え、前記プロセッサが、
複数の画像を含むビデオデータを取得し、
自然言語処理ネットワークを少なくとも部分的に使用して、前記ビデオデータの表現サマリを抽出し、
前記抽出された表現に基づいて、複数のワークフロー活動と関連付けられたビデオセグメントの予測されるグループ化を決定し、かつ
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成するように構成されており、前記予測結果が、前記外科ビデオデータにおける前記複数のワークフロー活動の開始時間及び終了時間を示すように構成されている、コンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年4月14日出願の米国特許仮出願第63/174,820号の利益を主張し、その開示は参照により全体が本明細書に組み込まれる。
【背景技術】
【0002】
記録された外科処置は、医療教育及び/又は医療訓練目的のための貴重な情報を含み得る。記録された外科処置を分析して、当該外科処置に関連する効率、質、及び転帰メトリックを決定することができる。しかしながら、外科ビデオは、長いビデオである。例えば、外科ビデオは、複数の外科フェーズからなる外科処置全体を含むことができる。外科ビデオの長さ及び外科フェーズの数は、外科ワークフロー認識に対して困難を提示する場合がある。
【発明の概要】
【課題を解決するための手段】
【0003】
自然言語処理(natural language processing、NLP)技法を使用するコンピュータビジョンベースの外科ワークフロー認識のためのシステム、方法、及び手段が開示される。外科処置の外科ビデオは、例えば、ワークフロー認識を達成するために、処理及び分析され得る。外科フェーズは、外科ビデオに基づいて決定され、注釈付きビデオ表現を生成するためにセグメント化され得る。外科ビデオの注釈付きビデオ表現は、外科処置と関連付けられた情報を提供し得る。例えば、注釈付きビデオ表現は、外科フェーズ、外科イベント、外科ツール使用などに関する情報を提供し得る。
【0004】
コンピューティングシステムは、NLP技法を使用して、外科ビデオと関連付けられた予測結果を生成し得る。予測結果は、外科ワークフローに対応し得る。例えば、コンピューティングシステムは、外科ビデオデータを取得し得る。外科ビデオデータは、例えば、外科コンピューティングシステム、外科ハブ、外科部位カメラ、外科監視システムなどの外科デバイスから取得され得る。外科ビデオデータは、画像を含み得る。コンピューティングシステムは、例えば、画像を外科活動と関連付けるために、外科ビデオに対してNLP技法を実行し得る。外科活動は、外科フェーズ、外科タスク、外科ステップ、アイドル期間、外科ツールの使用などを示し得る。コンピューティングシステムは、例えば、実行されたNLP技法に基づいて、予測結果を生成し得る。予測結果は、外科ビデオデータ内の外科活動と関連付けられた情報を示すように構成され得る。例えば、予測結果は、外科ビデオデータ内の外科活動の開始時間及び終了時間を示すように構成され得る。予測結果は、注釈付き外科ビデオ及び/又は外科ビデオと関連付けられたメタデータとして生成され得る。
【0005】
例えば、実行されるNLP技法は、外科ビデオデータの表現サマリを抽出することを含み得る。コンピューティングシステムは、NLP技法を使用して、例えば、変換器ネットワークを使用して、外科ビデオデータの表現サマリを抽出し得る。コンピューティングシステムは、NLP技法を使用して、例えば、三次元畳み込みニューラルネットワーク(three-dimensional convolutional neural network、3D CNN)及び変換器ネットワーク(例えば、ハイブリッドネットワークと呼ばれることがある)を使用して、外科ビデオデータの表現サマリを抽出し得る。
【0006】
例えば、実行されるNLP技法は、NLP技法を使用して、外科ビデオの表現サマリを抽出すること、抽出された表現サマリに基づいて、ベクトル表現を生成すること、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を(例えば、生成されたベクトル表現に基づいて)決定することを含み得る。実行されるNLP技法は、例えば、変換器ネットワークを使用して、ビデオセグメントの予測されるグループ化をフィルタ処理することを含み得る。
【0007】
例えば、コンピューティングシステムは、NLP技法を使用して、外科活動と関連付けられたフェーズ境界を識別し得る。フェーズ境界は、外科フェーズ間の境界を示し得る。コンピューティングシステムは、識別されたフェーズ境界に基づいて、出力を生成し得る。例えば、出力は、各外科フェーズの開始時間及び終了時間を示し得る。
【0008】
例えば、コンピューティングシステムは、NLP技法を使用して、外科ビデオと関連付けられた外科イベント(例えば、アイドル期間)を識別し得る。アイドル期間は、外科処置中の不活動と関連付けられ得る。コンピューティングシステムは、アイドル期間に基づいて、出力を生成し得る。例えば、出力は、アイドル開始時間及びアイドル終了時間を示し得る。コンピューティングシステムは、例えば、識別されたアイドル期間に基づいて、予測結果を絞り込み得る。コンピューティングシステムは、例えば、識別されたアイドル期間に基づいて、外科処置改善推奨を生成し得る。
【0009】
例えば、コンピューティングシステムは、NLP技法を使用して、ビデオデータ内の外科ツールを検出し得る。コンピューティングシステムは、検出された外科ツールに基づいて、予測結果を生成し得る。予測結果は、外科処置中の外科ツールの使用と関連付けられた開始時間及び終了時間を示すように構成され得る。
【0010】
コンピューティングシステムは、NLP技法を使用して、外科ビデオの注釈付きビデオ表現を生成し(例えば、外科ワークフロー認識を達成し)得る。例えば、コンピューティングシステムは、人工知能(artificial intelligence、AI)モデルを使用して、外科ワークフロー認識を達成し得る。例えば、コンピューティングシステムは、外科ビデオを受信してもよく、外科ビデオは、以前に記録された外科処置又はライブ外科処置と関連付けられてもよい。例えば、コンピューティングシステムは、外科ハブ及び/又は外科監視システムからライブ外科処置のビデオデータを受信し得る。コンピューティングシステムは、外科ビデオに対してNLP技法を実行し得る。コンピューティングシステムは、例えば外科フェーズなど、外科ビデオと関連付けられた1つ又は2つ以上のフェーズを決定し得る。コンピューティングシステムは、例えば、NLP技法処理に基づいて、予測結果を決定し得る。予測結果は、例えば、外科フェーズ、外科イベント、外科ツール使用などに関する情報など、外科ビデオと関連付けられた情報を含み得る。コンピューティングシステムは、予測結果を記憶装置及び/又はユーザに送信し得る。
【0011】
コンピューティングシステムは、NLP技法を使用して、例えば、ビデオデータに基づいて、表現サマリを抽出し得る。表現サマリは、ビデオデータと関連付けられた検出された特徴を含み得る。検出された特徴は、外科フェーズ、外科イベント、外科ツールなどを示すために使用され得る。コンピューティングシステムは、NLP技法を使用して、例えば、抽出された表現サマリに基づいて、ベクトル表現を生成し得る。コンピューティングシステムは、NLP技法を使用して、例えばビデオセグメントの予測されるグループ化を、(例えば、生成されたベクトル表現に基づいて)決定し得る。ビデオセグメントの予測されるグループ化は、例えば、同じ外科フェーズ、外科イベント、外科ツールなどと関連付けられたビデオセグメントのグループ化であり得る。コンピューティングシステムは、NLP技法を使用して、例えば、ビデオセグメントの予測されるグループ化をフィルタ処理し得る。コンピューティングシステムは、NLP技法を使用して、予測される外科ワークフローフェーズ間のフェーズ境界を決定し得る。例えば、コンピューティングシステムは、外科フェーズ間の遷移期間を決定し得る。コンピューティングシステムは、NLP技法を使用して、アイドル期間を決定することができ、例えば、アイドル期間は、外科処置中の不活動と関連付けられる。
【0012】
例において、コンピューティングシステムは、AIモデルとともにニューラルネットワークを使用して、ワークフロー認識を決定し得る。ニューラルネットワークは、畳み込みニューラルネットワーク(convolutional neural network、CNN)、変換器ネットワーク、及び/又はハイブリッドネットワークを含み得る。
【図面の簡単な説明】
【0013】
【
図1】外科処置ビデオと関連付けられた情報を決定し、注釈付き外科ビデオを生成するための例示的なコンピューティングシステムを示す。
【
図2】ビデオに対する特徴抽出、セグメント化、及びフィルタ処理を使用して、予測結果を生成する、例示的なワークフロー認識を示す。
【
図3】例示的なコンピュータビジョンベースのワークフロー、イベント、及びツール認識を示す。
【
図4】完全畳み込みネットワークを使用する例示的な特徴抽出ネットワークを示す。
【
図5】例示的な相互作用保存チャネル分離畳み込みネットワークボトルネックブロックを示す。
【
図6】多段時間畳み込みネットワークを使用する例示的なアクションセグメント化ネットワークを示す。
【
図7】例示的な多段時間畳み込みネットワークアーキテクチャを示す。
【
図8A】外科ワークフロー認識のためのコンピュータビジョンベースの認識アーキテクチャ内の自然言語処理のための例示的な配置を示す。
【
図8B】外科ワークフロー認識のためのコンピュータビジョンベースの認識アーキテクチャのフィルタ処理部分内の自然言語処理のための例示的な配置を示す。
【
図9】変換器を使用する例示的な特徴抽出ネットワークを示す。
【
図10】ハイブリッドネットワークを使用する例示的な特徴抽出ネットワークを示す。
【
図11】自然言語処理技法が挿入された例示的な2段時間畳み込みネットワークを示す。
【
図12】変換器を使用する例示的なアクションセグメント化ネットワークを示す。
【
図13】ハイブリッドネットワークを使用する例示的なアクションセグメント化ネットワークを示す。
【
図14】ビデオの予測結果の決定の例示的なフロー図を示す。
【発明を実施するための形態】
【0014】
記録された外科処置は、医療教育及び/又は医療訓練のための貴重な情報を含み得る。記録された外科処置から導出される情報は、当該外科処置に関連する効率、質、及び転帰メトリックを決定する際に有用であり得る。例えば、記録された外科処置は、外科処置における外科チームのスキル及びアクションに洞察を与え得る。記録された外科処置は、例えば、外科処置における改善領域を識別することによって、訓練を可能にし得る。例えば、回避可能なアイドル期間は、訓練目的のために使用され得る、記録された外科処置において識別され得る。
【0015】
多くの外科処置が記録されており、収集物として分析されて、例えば、手術に関連付けられた情報及び/又は特徴を決定することができ、その結果、その情報を使用して、外科的戦術及び/又は外科処置を改善し得る。外科処置は、外科処置のパフォーマンスと関連付けられたフィードバック及び/又はメトリックを決定するために分析され得る。例えば、記録された外科処置からの情報は、ライブ外科処置を分析するために使用され得る。記録された外科処置からの情報は、ライブ外科処置を実行するORチームをガイド又は指示するために使用され得る。
【0016】
外科処置は、例えば、分析され得る外科フェーズ、ステップ、及び/又はタスクを伴い得る。外科処置は一般に長いので、記録された外科処置は長いビデオであり得る。訓練目的及び外科的改善のために外科的情報を決定するために、長く記録された外科処置を通して解析することは、困難であり得る。外科処置は、例えば、分析のために、外科フェーズ、ステップ、及び/又はタスクに分割され得る。より短いセグメントは、より容易な分析を可能にし得る。外科処置のより短いセグメントは、異なる記録された外科処置の同じ又は類似の外科フェーズ間の比較を可能にし得る。外科処置を外科フェーズにセグメント化することは、外科処置のための特定の外科的ステップ及び/又はタスクのより詳細な分析を可能にし得る。例えば、スリーブ状胃切除処置は、胃切除フェーズなどの外科フェーズにセグメント化され得る。第1のスリーブ状胃切除処置の胃切除フェーズは、第2のスリーブ状胃切除処置の胃切除フェーズと比較されてもよい。胃切除フェーズからの情報は、胃切除フェーズのための外科的技法を改善するために、かつ/又は将来の胃切除フェーズのための医療指示を提供するために使用され得る。
【0017】
外科処置は、例えば、外科フェーズにセグメント化され得る。例えば、外科フェーズは、特定の外科イベント、外科ツールの使用、及び/又は外科フェーズ中に生じ得るアイドル期間を決定するために分析され得る。外科イベントは、外科フェーズにおける傾向を決定するために識別され得る。外科イベントは、外科フェーズの改善領域を決定するために使用され得る。
【0018】
実施例では、外科フェーズ中のアイドル期間が識別され得る。アイドル期間は、改善され得る外科フェーズの部分を決定するために識別され得る。例えば、アイドル期間は、異なる外科処置にわたる特定の外科フェーズ中の同様の時間に検出され得る。アイドル期間は、外科ツール交換の結果であると識別及び決定され得る。アイドル期間は、例えば、外科ツール交換を事前に準備することによって低減され得る。外科ツール交換を事前に準備することは、アイドル期間を排除し、ダウンタイムを低減することによって短縮された外科処置を可能にし得る。
【0019】
実施例では、外科フェーズ間の遷移期間(例えば、外科フェーズ境界)が識別され得る。遷移期間は、例えば、外科ツールの変更又はORスタッフの変更によって示されてもよい。遷移期間は、外科処置の改善領域を決定するために分析され得る。
【0020】
ビデオベースの外科ワークフロー認識は、例えば手術室のためのコンピュータ支援介入システムにおいて実行され得る。コンピュータ支援介入システムは、ORチーム間の協調を強化し、かつ/又は外科的安全性を改善し得る。コンピュータ支援介入システムは、オンライン(例えば、リアルタイム、ライブフィード)及び/又はオフライン外科ワークフロー認識のために使用され得る。例えば、オフライン外科ワークフロー認識は、外科処置の以前に記録されたビデオに対して外科ワークフロー認識を実行することを含み得る。オフライン外科ワークフロー認識は、外科ビデオデータベースのインデックス付けを自動化するためのツールを提供し、かつ/又は学習及び教育目的のために、ビデオベースアセスメント(video-based assessment、VBA)システムにおけるサポートを外科医に提供し得る。
【0021】
コンピューティングシステムは、外科処置を分析するために使用され得る。コンピューティングシステムは、記録された外科処置から外科的情報及び/又は特徴を導出し得る。コンピューティングシステムは、例えば、外科ビデオの記憶装置、外科ハブ、OR内の監視システムなどから外科ビデオを受信し得る。コンピューティングシステムは、例えば、外科ビデオから特徴を抽出すること、及び/又は情報を決定することによって、外科ビデオを処理し得る。抽出された特徴及び/又は情報は、例えば、外科フェーズなどの外科処置のワークフローを識別するために使用され得る。コンピューティングシステムは、記録された外科ビデオを、例えば、外科処置と関連付けられた異なる外科フェーズに対応するビデオセグメントにセグメント化し得る。コンピューティングシステムは、外科ビデオにおける外科フェーズ間の遷移を決定し得る。コンピューティングシステムは、例えば、外科フェーズ及び/又はセグメント化された記録された外科ビデオにおいて、アイドル期間及び/又は外科ツール使用を決定してもよい。コンピューティングシステムは、記録された外科処置から導出された外科的情報(例えば、外科フェーズセグメント化情報)を生成し得る。例えば、導出された外科情報は、医療教育及び/又は指導などの将来の使用のために記憶装置に送信されてもよい。
【0022】
実施例では、コンピューティングシステムは、画像処理を使用して、記録された外科ビデオから情報を導出し得る。コンピューティングシステムは、記録された外科ビデオのフレームに対して画像処理及び/又は画像/ビデオ分類を使用してもよい。コンピューティングシステムは、画像処理に基づいて、外科処置の外科フェーズを決定し得る。コンピューティングシステムは、画像処理に基づいて、外科イベント及び/又は外科フェーズ遷移を識別し得る情報を決定する。
【0023】
コンピューティングシステムは、例えば、記録された外科処置を分析し、記録された外科処置と関連付けられた情報を決定するためのモデル人工知能(AI)システムを含み得る。モデルAIシステムは、例えば、記録された外科処置から導出された情報に基づいて、外科処置と関連付けられたパフォーマンスメトリックを導出し得る。モデルAIシステムは、画像処理及び/又は画像/ビデオ分類を使用して、例えば、外科フェーズ、外科フェーズ遷移、外科イベント、外科ツール使用、アイドル期間などの外科処置情報を決定し得る。コンピューティングシステムは、例えば、機械学習を使用して、モデルAIシステムを訓練し得る。コンピューティングシステムは、訓練されたモデルAIシステムを使用して、外科ワークフロー認識、外科イベント認識、外科ツール検出などを達成し得る。
【0024】
コンピューティングシステムは、画像/ビデオ分類ネットワークを使用して、例えば、外科ビデオから空間情報をキャプチャし得る。コンピューティングシステムは、例えば、外科ワークフロー認識を達成するために、フレームごとに外科ビデオから空間情報をキャプチャし得る。
【0025】
機械学習は、教師あり(例えば、教師あり学習)であり得る。教師あり学習アルゴリズムは、データセット(例えば、訓練データ)を訓練することから数学モデルを作成し得る。訓練データは、訓練例のセットからなり得る。訓練例は、1つ又は2つ以上の入力及び1つ又は2つ以上のラベル付き出力を含み得る。ラベル付き出力は、監視フィードバックとして機能し得る。数学モデルでは、訓練例は、特徴ベクトルと呼ばれるときがあるアレイ又はベクトルによって表され得る。訓練データは、行列を構成する特徴ベクトルの行によって表され得る。目的関数(例えば、コスト関数)の反復最適化を通して、教師あり学習アルゴリズムは、1つ又は2つ以上の新しい入力と関連付けられた出力を予測するために使用され得る関数(例えば、予測関数)を学習し得る。好適に訓練された予測関数は、訓練データの一部ではなかった可能性がある1つ又は2つ以上の入力に対する出力を判定し得る。例示的なアルゴリズムは、線形回帰、ロジスティック回帰、及びニューラルネットワークを含み得る。教師あり学習アルゴリズムによって解くことができる例示的な問題は、分類、回帰問題などを含み得る。
【0026】
機械学習は、教師なし(例えば、教師なし学習)であり得る。教師なし学習アルゴリズムは、入力を含み得るデータセット上で訓練し得、データ内の構造を見出し得る。データ内の構造は、データポイントのグループ化又はクラスタ化に類似し得る。したがって、アルゴリズムは、ラベル付けされていない可能性がある訓練データから学習し得る。監視フィードバックに応答する代わりに、教師なし学習アルゴリズムは、訓練データにおける共通性を識別し得、各訓練例におけるそのような共通性の有無に基づいて反応し得る。例示的なアルゴリズムは、アプリオリアルゴリズム、K平均、K最近傍(K-Nearest Neighbor、KNN)、K中央値などを含み得る。教師なし学習アルゴリズムによって解くことができる例示的な問題は、クラスタ化問題、異常/外れ値検出問題などを含み得る。
【0027】
機械学習は、強化学習を含み得、強化学習は、累積報酬の概念を最大化するために、ソフトウェアエージェントが環境内でどのようにアクションを取ることができるかに関係し得る機械学習の領域であり得る。強化学習アルゴリズムは、(例えば、マルコフ決定過程(Markov decision process、MDP)によって表される)環境の正確な数学モデルの知識を仮定しない場合があり、正確なモデルが実現可能でないことがあるときに使用され得る。
【0028】
機械学習は、認知コンピューティング(cognitive computing、CC)と呼ばれる技術プラットフォームの一部であり得、認知コンピューティングは、コンピュータサイエンス及び認知科学などの様々な分野を構成し得る。CCシステムは、スケールで学習し、目的をもって推論し、人間と自然に対話することが可能であり得る。データマイニング、視覚認識、及び/又は自然言語処理を使用し得る自己教示アルゴリズムによって、CCシステムは、問題を解決し、人間のプロセスを最適化することが可能であり得る。
【0029】
機械学習の訓練プロセスの出力は、新しいデータセットに対する転帰を予測するためのモデルであり得る。例えば、線形回帰学習アルゴリズムは、線形予測関数の係数及び定数を調整することによって、訓練プロセス中に線形予測関数の予測誤差を最小にし得るコスト関数であり得る。最小値に達し得るときに、調整された係数を有する線形予測関数は、訓練されたとみなされ、訓練プロセスが生成したモデルを構成し得る。例えば、分類のためのニューラルネットワーク(neural network、NN)アルゴリズム(例えば、多層パーセプトロン(multilayer perceptron、MLP))は、バイアスが割り当てられ、重み接続で相互接続されたノードの層のネットワークによって表される仮説関数を含み得る。仮説関数は、線形関数と、1つ又は2つ以上のロジスティック関数からなる最外層を伴うにネストされたロジスティック関数と、を含み得る、非線形関数(例えば、高度非線形関数)であり得る。NNアルゴリズムは、フィードフォワード伝搬及び逆方向伝搬のプロセスを通してバイアス及び重みを調整することによって、分類誤差を最小限に抑えるためのコスト関数を含み得る。大域的最小値に到達し得るときに、調整されたバイアス及び重みの層を伴う最適化された仮説関数は、訓練されたとみなされ、訓練プロセスが生成したモデルを構成し得る。
【0030】
データ集合体は、機械学習ライフサイクルの段階として機械学習のために実行され得る。データ集合体は、様々なデータソースを識別すること、データソースからデータを収集すること、データを統合することなどの工程を含み得る。例えば、外科フェーズを予測するための機械学習モデルを訓練するために、外科イベント、アイドル期間、外科ツール使用が識別され得る。そのようなデータソースは、以前に記録された外科又は外科監視システムによってキャプチャされたライブ外科処置など、外科処置と関連付けられた外科ビデオであり得る。そのようなデータソースからのデータは、取り出され、機械学習ライフサイクルにおける更なる処理のために中央の場所に記憶され得る。そのようなデータソースからのデータは、リンク(例えば、論理的にリンク)され得、それらが中央に記憶されているかのようにアクセスされ得る。外科データ及び/又は外科後データは、同様に識別及び/又は収集され得る。更に、収集されたデータが、統合され得る。
【0031】
データ準備は、機械学習ライフサイクルの別の段階として機械学習のために行われ得る。データ準備は、データフォーマッティング、データクリーニング、及びデータサンプリングなどのデータ前処理工程を含み得る。例えば、収集されるデータは、モデルを訓練するのに好適なデータフォーマットではない場合がある。実施例では、データは、ビデオフォーマットであってもよい。そのようなデータ記録は、モデル訓練のために変換され得る。そのようなデータは、モデル訓練のための数値にマッピングされ得る。例えば、外科ビデオデータは、個人識別子情報、又は年齢、勤務先、肥満度指数(body mass index、BMI)、人口統計情報、及び同等物などの、患者を識別し得る他の情報を含み得る。そのような識別データは、モデル訓練の前に除去され得る。例えば、識別データは、プライバシーの理由で除去され得る。別の例として、モデル訓練のために使用され得るよりも多くの利用可能なデータがあり得るので、データが除去され得る。そのような場合に、利用可能なデータのサブセットは、ランダムにサンプリングされ、モデル訓練のために選択され得、残りは廃棄され得る。
【0032】
データ準備は、スケーリング及び集約などのデータ変換処置(例えば、前処理後)を含み得る。例えば、前処理されたデータは、様々なスケールのデータ値を含み得る。これらの値は、例えば、モデル訓練のために0~1の間になるようにスケールアップ又はスケールダウンされ得る。例えば、前処理済みデータは、集計されるとより多くの意味をもつデータ値を含み得る。
【0033】
モデル訓練は、機械学習ライフサイクルの別の態様であり得る。本明細書に記載されるモデル訓練プロセスは、使用される機械学習アルゴリズムに依存し得る。モデルは、それが訓練され、相互検証され、検査された後に、好適に訓練されたとみなされ得る。したがって、データ準備段階からのデータセット(例えば、入力データセット)は、訓練データセット(例えば、入力データセットの60%)、検証データセット(例えば、入力データセットの20%)、及び試験データセット(例えば、入力データセットの20%)に分割され得る。モデルが訓練データセットで訓練された後、モデルは、過剰適合を低減するために検証データセットに対して実行され得る。モデルの精度が増加しているときに検証データセットに対して実行されたときにモデルの精度が低下する場合、これは過剰適合の問題を示し得る。検査データセットは、最終モデルの精度をテストして、展開の準備ができているか、又はより多くの訓練が必要とされ得るかを判定するために使用され得る。
【0034】
モデル配備は、機械学習ライフサイクルの別の態様であり得る。モデルは、スタンドアロンコンピュータプログラムの一部として展開され得る。モデルは、より大きなコンピューティングシステムの一部として展開され得る。モデルは、モデル性能パラメータを用いて展開され得る。そのような性能パラメータは、稼働中のデータセットで予測するために使用されるため、モデル精度を監視し得る。例えば、そのようなパラメータは、偽陽性及び分類モデルの偽陽性を追跡し得る。そのようなパラメータは、モデルの精度を改善するための更なる処理のために、偽陽性及び偽陽性を更に記憶し得る。
【0035】
配備後のモデル更新は、機械学習サイクルの別の態様であり得る。例えば、展開されたモデルは、偽陽性及び/又は偽陰性がプロダクションデータ上で予測されるときに更新され得る。実施例では、分類のために展開されたMLPモデルの場合、偽陽性が生じると、展開されたMLPモデルは、偽陽性を低減するために陽性を予測するための確率カットオフを増加させるように更新され得る。実施例では、分類のために展開されたMLPモデルの場合、偽陰性が生じると、展開されたMLPモデルは、偽陰性を低減するために陽性を予測するための確率カットオフを減少させるように更新され得る。実施例では、外科的合併症の分類のための展開されたMLPモデルの場合、偽陽性及び偽陰性の両方が生じるとき、展開されたMLPモデルは、偽陽性を予測することが偽陰性よりも重大でない場合があるので、偽陰性を低減するために、陽性を予測するための確率カットオフを減少させるように更新され得る。
【0036】
例えば、展開されたモデルは、より多くのライブ産生データが訓練データとして利用可能になるにつれて更新され得る。そのような場合、展開されたモデルは、そのような追加のライブ産生データを用いて更に訓練され、検証され、検査され得る。実施例では、更に訓練されたMLPモデルの更新されたバイアス及び重みは、展開されたMLPモデルのバイアス及び重みを更新し得る。当業者であれば、展開後モデル更新は、1回限りの発生でない場合があり、展開されたモデルの精度を改善するのに好適な頻度で行われ得ることを認識する。
【0037】
図1は、外科処置ビデオと関連付けられた情報を決定し、注釈付き外科ビデオを生成するための例示的なコンピューティングシステムを示す。
図1に示されるように、外科ビデオ1000は、コンピューティングシステム1010によって受信され得る。コンピューティングシステム1010は、外科ビデオに対して処理(例えば、画像処理)を実行し得る。コンピューティングシステム1010は、実行された処理に基づいて、外科ビデオと関連付けられた特徴及び/又は情報を決定し得る。例えば、コンピューティングシステム1010は、外科フェーズ、外科フェーズ遷移、外科イベント、外科ツール使用、アイドル期間などの特徴及び/又は情報を決定し得る。コンピューティングシステム1010は、例えば、処理からの抽出された特徴及び/又は情報に基づいて、外科フェーズをセグメント化し得る。コンピューティングシステム1010は、セグメント化された外科フェーズ及び外科ビデオ情報に基づいて、出力を生成し得る。生成された出力は、注釈付き外科ビデオなどの外科活動情報1090であり得る。生成された出力は、例えば、外科フェーズ、外科フェーズ遷移、外科イベント、外科ツール使用、アイドル期間などと関連付けられた情報など、外科ビデオと関連付けられた情報を(例えばメタデータ内に)含み得る。
【0038】
コンピューティングシステム1010は、プロセッサ1020と、ネットワークインターフェース1030と、を備え得る。プロセッサ1020は、システムバスを介して、通信モジュール1040、記憶装置1050、メモリ1060、不揮発性メモリ1070、及び入力/出力(input/output、I/O)インターフェース1080に結合され得る。システムバスは、任意の様々な利用可能なバスアーキテクチャを使用する、メモリバス若しくはメモリコントローラ、ペリフェラルバス若しくは外部バス、及び/又はローカルバスを含むいくつかのタイプのバス構造のうちのいずれかとすることができ、それらのアーキテクチャとしては、9ビットバス、業界標準アーキテクチャ(Industrial Standard Architecture、ISA)、微小な豊かな畑アーキテクチャ(Micro-Charmel Architecture、MSA)、拡張ISA(Extended ISA、EISA)、インテリジェントドライブエレクトロニクス(Intelligent Drive Electronics、IDE)、VESAローカルバス(VESA Local Bus、VLB)、周辺装置相互接続(Peripheral Component Interconnect、PCI)、USB、アドバンストグラフィックスポート(Advanced Graphics Port、AGP)、パーソナルコンピュータメモリカード国際協会バス(Personal Computer Memory Card International Association、PCMCIA)、小型計算機システムインターフェース(Small Computer Systems Interface、SCSI)、又は任意の他の独自バスが挙げられるが、これらに限定されない。
【0039】
プロセッサ1020は、Texas Instruments製のARM Cortexの商品名で知られているものなど、任意のシングルコア又はマルチコアプロセッサであってもよい。一態様では、プロセッサは、例えば、Texas Instrumentsから入手可能なLM4F230H5QR ARM Cortex-M4Fプロセッサコアであってもよい。このプロセッサコアは、最大40MHzの256KBのシングルサイクルフラッシュメモリ若しくは他の不揮発性メモリのオンチップメモリ、性能を40MHz超に改善するためのプリフェッチバッファ、32KBのシングルサイクルシリアルランダムアクセスメモリ(serial random access memory、SRAM)、StellarisWare(登録商標)ソフトウェアを搭載した内部読み出し専用メモリ(read-only memory、ROM)、2KBの電気的消去可能プログラマブル読み出し専用メモリ(electrically erasable programmable read-only memory、EEPROM)及び/又は、1つ又は2つ以上のパルス幅変調(pulse width modulation、PWM)モジュール、1つ又は2つ以上の直交エンコーダ入力(quadrature encoder input、QEI)アナログ、12個のアナログ入力チャネルを備える1つ又は2つ以上の12ビットアナログ-デジタル変換器(analog-to-digital converter、ADC)を含む。なお、その詳細は、製品データシートで入手可能である。
【0040】
実施例では、プロセッサ1020は、同じくTexas Instruments製のHercules ARM Cortex R4の商品名で知られるTMS570及びRM4xなどの2つのコントローラベースのファミリを備える安全コントローラを備えてもよい。安全コントローラは、スケーラブルな性能、接続性及びメモリの選択肢を提供しながら、高度な集積型安全機構を提供するために、とりわけ、IEC61508及びISO26262の安全限界用途専用に構成され得る。
【0041】
システムメモリとしては、揮発性メモリ及び不揮発性メモリを挙げることができる。起動中などにコンピューティングシステム内の要素間で情報を転送するための基本ルーチンを含む基本入出力システム(basic input/output system、BIOS)は、不揮発性メモリに記憶される。例えば、不揮発性メモリとしては、ROM、プログラマブルROM(programmable ROM、PROM)、電気的プログラマブルROM(electrically programmable ROM、EPROM)、EEPROM又はフラッシュメモリが挙げられ得る。揮発性メモリとしては、外部キャッシュメモリとして機能するランダムアクセスメモリ(random-access memory、RAM)が挙げられる。更に、RAMは、SRAM、ダイナミックRAM(dynamic RAM、DRAM)、シンクロナスDRAM(synchronous DRAM、SDRAM)、ダブルデータレートSDRAM(double data rate SDRAM、DDR SDRAM)、エンハンスドSDRAM(enhanced SDRAM、ESDRAM)、シンクリンクDRAM(Synchlink DRAM、SLDRAM)及びダイレクトランバスRAM(direct Rambus RAM、DRRAM)などの多くの形態で利用可能である。
【0042】
コンピューティングシステム1010はまた、取り外し可能/取り外し不可能な揮発性/不揮発性のコンピュータ記憶装置媒体、例えばディスク記憶装置などを含み得る。ディスク記憶装置としては、磁気ディスクドライブ、フロッピーディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS-60ドライブ、フラッシュメモリカード又はメモリスティックのようなデバイスを挙げることができるが、これらに限定されない。加えて、ディスク記憶装置は、上記の記憶媒体を、独立して、又は他の記憶媒体との組み合わせで含むことができる。他の記憶媒体としては、コンパクトディスクROMデバイス(CD-ROM)、コンパクトディスク記録可能ドライブ(CD-Rドライブ)、コンパクトディスク書き換え可能ドライブ(CD-RWドライブ)若しくはデジタル多用途ディスクROMドライブ(DVD-ROM)などの光ディスクドライブが挙げられるがこれらに限定されない。ディスクストレージデバイスのシステムバスへの接続を容易にするために、取り外し可能な又は取り外し不可能なインターフェースが用いられてもよい。
【0043】
コンピューティングシステム1010は、好適な動作環境において、記載したユーザと基本コンピュータリソースとの間で媒介として機能するソフトウェアを含み得ることを理解されたい。このようなソフトウェアとしてはオペレーティングシステムを挙げることができる。ディスク記憶装置上に記憶され得るオペレーティングシステムは、コンピューティングシステムのリソースを制御及び割り当てするように機能し得る。システムアプリケーションは、システムメモリ内又はディスク記憶装置上のいずれかに記憶されたプログラムモジュール及びプログラムデータを介して、オペレーティングシステムによるリソース管理を活用し得る。本明細書に記載される様々な構成要素は、様々なオペレーティングシステム又はオペレーティングシステムの組み合わせで実装することができることを理解されたい。
【0044】
ユーザは、I/Oインターフェース1080に結合された入力デバイスを介してコンピューティングシステム1010にコマンド又は情報を入力し得る。入力デバイスとしては、マウス、トラックボール、スタイラス、タッチパッドなどのポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどを挙げることができるが、これらに限定されない。これら及び他の入力デバイスは、インターフェースポートを介し、システムバスを通してプロセッサ1020に接続する。インターフェースポートとしては、例えば、シリアルポート、パラレルポート、ゲームポート及びUSBが挙げられる。出力デバイスは、入力デバイスと同じタイプのポートのうちのいくつかを使用する。したがって、例えば、USBポートを使用して、コンピューティングシステム1010に入力を提供し、コンピューティングシステム1010からの情報を出力デバイスに出力してもよい。出力アダプタは、特別なアダプタを必要とし得る出力デバイスの中でもとりわけ、モニタ、ディスプレイ、スピーカ及びプリンタなどのいくつかの出力デバイスが存在できることを示すために提供され得る。出力アダプタとしては、出力デバイスとシステムバスとの間の接続手段を提供するビデオ及びサウンドカードを挙げることができるが、これは例示としてのものであり、限定するものではない。リモートコンピュータなどの他のデバイス及び/又はデバイスのシステムは、入力及び出力機能の両方を提供できることに留意されたい。
【0045】
コンピューティングシステム1010は、クラウドコンピュータなどの1つ又は2つ以上のリモートコンピュータ、又はローカルコンピュータへの論理接続を使用するネットワーク化環境で動作し得る。リモートクラウドコンピュータは、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサベースの機器、ピアデバイス又は他の一般的なネットワークノードなどであり得るが、典型的には、コンピューティングシステムに関して説明される要素の多く又は全てを含む。簡潔にするために、リモートコンピュータとともに、メモリストレージデバイスのみが示される。リモートコンピュータは、ネットワークインターフェースを介してコンピューティングシステムに論理的に接続され、続いて、通信接続部を介して物理的に接続され得る。ネットワークインターフェースは、ローカルエリアネットワーク(local area network、LAN)及びワイドエリアネットワーク(wide area network、WAN)などの通信ネットワークを包含し得る。LAN技術としては、光ファイバ分散データインターフェース(Fiber Distributed Data Interface、FDDI)、銅線分散データインターフェース(Copper Distributed Data Interface、CDDI)、Ethernet/IEEE802.3、Token Ring/IEEE802.5などを挙げることができる。WAN技術としては、ポイントツーポイントリンク、統合サービスデジタルネットワーク(Integrated Services Digital Network、ISDN)及びその変形などの回路交換ネットワーク、パケット交換ネットワーク並びにデジタル加入者回線(Digital Subscriber Line、DSL)を挙げることができるが、これらに限定されない。
【0046】
様々な実施例では、コンピューティングシステム1010及び/又はプロセッサモジュール20093は、画像プロセッサ、画像処理エンジン、メディアプロセッサ、又はデジタル画像の処理に使用される任意の専用デジタル信号プロセッサ(digital signal processor、DSP)を含んでもよい。画像プロセッサは、単一命令複数データ(single instruction,multiple data、SIMD)、又は複数命令複数データ(multiple instruction,multiple data、MIMD)技術を用いた並列コンピューティングを用いて速度及び効率を高めることができる。デジタル画像処理エンジンは、様々なタスクを実施することができる。画像プロセッサは、マルチコアプロセッサアーキテクチャを備えるチップ上のシステムであってもよい。
【0047】
通信接続部とは、ネットワークインターフェースをバスに接続するために利用されるハードウェア/ソフトウェアを指してもよい。例示的な明瞭さのため、通信接続部は、コンピューティングシステム1010の内部に示されているが、通信接続部は、コンピューティングシステム1010の外部にあってもよい。例示のみを目的として、ネットワークインターフェースへの接続に必要なハードウェア/ソフトウェアとしては、通常の電話グレードモデム、ケーブルモデム、光ファイバモデム、及びDSLモデムを含むモデム、ISDNアダプタ、並びにイーサネットカードなどの内部及び外部技術を挙げることができる。いくつかの例では、ネットワークインターフェースはまた、RFインターフェースを使用して提供されてもよい。
【0048】
実施例では、外科ビデオ1000は、以前に記録された外科ビデオであり得る。例えば、コンピューティングシステムが情報を処理及び導出するために、外科処置のための多くの以前に記録された外科的ビデオが利用可能であり得る。以前に記録された外科ビデオは、記録された外科処置の集合体からのものであってもよい。外科ビデオ1000は、外科チームが分析することを所望し得る、外科処置のための記録された外科ビデオであり得る。例えば、外科チームは、分析及び/又はレビューのために外科ビデオを提出し得る。外科チームは、外科ビデオを提出して、外科処置における改善領域に関するフィードバック又は指導を受信してもよい。例えば、外科チームは、成績付けために外科ビデオを提出し得る。
【0049】
実施例では、外科ビデオ1000は、ライブ外科処置のライブビデオキャプチャであり得る。例えば、ライブ外科処置のライブビデオキャプチャは、手術室内の監視システム及び/又は外科ハブによって記録及び/又はストリーミングされてもよい。例えば、外科ビデオ1000は、外科処置を実行する手術室から受信され得る。ビデオは、例えば、外科ハブ、OR内の監視システムなどから受信されてもよい。コンピューティングシステムは、外科処置が実行されるときにオンライン外科ワークフロー認識を実行し得る。ライブ外科処置のビデオは、例えば、分析のために、コンピューティングシステムに送信され得る。コンピューティングシステムは、例えばライブビデオキャプチャを使用して、ライブ外科処置を処理及び/又はセグメント化し得る。
【0050】
実施例において、コンピューティングシステム1010は、受信された外科ビデオに対して処理を実行し得る。コンピューティングシステム1010は、画像処理を実行して、例えば、外科ビデオと関連付けられた外科ビデオ特徴及び/又は外科ビデオ情報を抽出し得る。外科ビデオ特徴及び/又は情報は、外科フェーズ、外科フェーズ遷移、外科イベント、外科ツール使用、アイドル期間などを示し得る。外科ビデオ特徴及び/又は情報は、外科処置と関連付けられた外科フェーズを示し得る。例えば、外科処置は、外科フェーズにセグメント化され得る。外科ビデオ特徴及び/又は情報は、外科ビデオの各部分がどの外科フェーズを表すかを示し得る。
【0051】
コンピューティングシステム1010は、例えば、モデルAIシステムを使用して、外科ビデオを処理及び/又はセグメント化し得る。モデルAIシステムは、画像処理及び/又は画像分類を使用して、外科ビデオから特徴及び/又は情報を抽出してもよい。モデルAIシステムは、訓練されたモデルAIシステムであってもよい。モデルAIシステムは、注釈付き外科ビデオを使用して、訓練されてもよい。例えば、モデルAIシステムは、ニューラルネットワークを使用して、外科ビデオを処理し得る。ニューラルネットワークは、例えば、注釈付き外科ビデオを使用して、訓練されてもよい。
【0052】
実施例では、コンピューティングシステム1010は、外科ビデオから抽出された特徴及び/又は情報を使用して、外科ビデオをセグメント化し得る。外科ビデオは、例えば、外科処置と関連付けられた外科フェーズにセグメント化され得る。外科ビデオは、例えば、外科ビデオ内の識別された外科イベント又は特徴に基づいて、外科フェーズにセグメント化され得る。例えば、遷移イベントは、外科ビデオにおいて識別され得る。遷移イベントは、外科処置が第1の外科フェーズから第2の外科フェーズに切り替わっていることを示し得る。遷移イベントは、ORスタッフの変化、外科ツールの変化、外科部位の変化、外科活動の変化などに基づいて示され得る。例えば、コンピューティングシステムは、遷移イベントの前に発生する外科ビデオからのフレームを第1のグループに連結し、遷移イベントの後に発生するフレームを第2のグループに連結し得る。第1のグループ化は、第1の外科フェーズを表し得、第2のグループ化は、第2の外科フェーズを表し得る。
【0053】
コンピューティングシステムは、例えば、抽出された特徴及び/若しくは情報に基づく、並びに/又はセグメント化されたビデオ(例えば、外科フェーズ)に基づく予測結果を含み得る、外科活動予測結果を生成し得る。予測結果は、ワークフローフェーズにセグメント化された外科処置を示し得る。予測結果は、例えば、外科イベント、アイドル期間、遷移イベントなどを詳述する注釈など、外科処置を詳述する注釈を含み得る。
【0054】
実施例では、コンピューティングシステム1010は、外科活動情報1090(例えば、注釈付き外科ビデオ、外科ビデオ情報、ビデオセグメント及び/又はセグメント化された外科フェーズと関連付けられた外科活動を示す外科ビデオメタデータ)を生成し得る。例えば、コンピューティングシステム1010は、外科活動情報1090をユーザに送信し得る。ユーザは、OR内の外科チーム及び/又は医療インストラクタであってもよい。注釈は、各ビデオフレームに対して、ビデオフレームのグループに対して、かつ/又は外科活動に対応する各ビデオセグメントに対して生成されてもよい。例えば、コンピューティングシステム1010は、生成された外科活動情報に基づいて、関連するビデオセグメントを抽出し、外科ビデオの関連するセグメントを、外科処置を実行している間に使用するために、OR内の外科チームに送信し得る。外科チームは、処理及び/又はセグメント化されたビデオを使用して、ライブ外科処置をガイドし得る。
【0055】
コンピューティングシステムは、注釈付き外科ビデオ、予測結果、抽出された特徴及び/若しくは情報、並びに/又はセグメント化されたビデオ(例えば、外科フェーズ)を、例えば、記憶装置及び/又は他のエンティティに送信し得る。記憶装置は、コンピューティングシステム記憶装置(例えば、
図1に示す記憶装置1050など)であってもよい。記憶装置は、クラウド記憶装置、エッジ記憶装置、外科ハブ記憶装置などであってもよい。例えば、コンピューティングシステムは、将来の訓練目的のためにクラウド記憶装置に出力を送信してもよい。クラウド記憶装置は、訓練及び/又は指導目的のための、処理及びセグメント化された外科ビデオを含み得る。
【0056】
実施例では、コンピューティングシステムに含まれる記憶装置1050(例えば、
図1に示されるような)は、以前にセグメント化された外科フェーズ、以前に記録された外科ビデオ、外科処置と関連付けられた以前の外科ビデオ情報などを含み得る。記憶装置1050は、例えば、外科ビデオに対して実行される処理を改善するために、コンピューティングシステム1050によって使用され得る。例えば、記憶装置1050は、以前に処理及び/又はセグメント化された外科ビデオを使用して、到来する外科ビデオを処理及び/又はセグメント化し得る。例えば、記憶装置1050に記憶された情報は、コンピューティングシステム1010が外科ビデオを処理し、かつ/又はフェーズセグメント化を実行するために使用するモデルAIシステムを改善及び/又は訓練するために使用され得る。
【0057】
図2は、ビデオに対する特徴抽出、セグメント化、及びフィルタ処理を使用して、予測結果を生成する、例示的なワークフロー認識を示す。
図1に関して本明細書で説明するコンピューティングシステムなどのコンピューティングシステムは、ビデオを受信し得、ビデオは、フレーム及び/又は画像のグループに分割され得る。コンピューティングシステムは、画像2010を撮影し、例えば、
図2の2020に示すように、画像に対して特徴抽出を実行し得る。
【0058】
実施例では、特徴抽出は、表現抽出を含み得る。表現抽出は、ビデオからのフレーム/画像から表現サマリを抽出することを含み得る。抽出された表現サマリは、例えば、完全なビデオ表現となるように一緒に連結されてもよい。抽出された表現サマリは、抽出された特徴、確率などを含み得る。
【0059】
実施例において、コンピューティングシステムは、外科ビデオに対して特徴抽出を実行してもよい。コンピューティングシステムは、外科ビデオにおいて実行された外科処置と関連付けられた特徴2030を抽出し得る。特徴2030のサマリは、外科フェーズ、外科イベント、外科ツールなどを示し得る。例えば、コンピューティングシステムは、例えば、特徴抽出及び/又は表現抽出に基づいて、外科ツールがビデオフレーム内に存在すると判定してもよい。
【0060】
図2に示すように、コンピューティングシステムは、例えば、画像2010に対して実行される特徴抽出に基づいて、特徴2030を生成し得る。生成された特徴2030は、例えば、完全なビデオ表現になるように、一緒に連結され得る。コンピューティングシステムは、例えば、抽出された特徴に対してセグメント化を実行し得る(例えば、
図2の2040に示すように)。フィルタ処理されていない予測結果2050は、ビデオ表現内のイベント及び/又はフェーズなど、ビデオ表現についての情報を含み得る。コンピューティングシステムは、例えば、実行された特徴抽出(例えば、抽出された特徴を有する完全なビデオ表現)に基づいて、セグメント化を実行し得る。セグメント化は、ビデオフレーム/画像を連結及び/又はグループ化することを含み得る。例えば、セグメント化は、類似の特徴サマリと関連付けられているビデオフレーム/画像を連結及び/又はグループ化することを含み得る。コンピューティングシステムは、同じ特徴を有するビデオフレーム/クリップを一緒にグループ化するために、セグメント化を実行し得る。コンピューティングシステムは、記録されたビデオをフェーズに分割するために、セグメント化を実行し得る。フェーズは、完全なビデオ表現になるように、一緒に組み合わされ得る。フェーズは、互いに関連するビデオクリップを分析するためにセグメント化されてもよい。
【0061】
セグメント化は、ワークフローセグメント化を含み得る。例えば、外科ビデオにおいて、コンピューティングシステムは、完全なビデオ表現をワークフローフェーズにセグメント化し得る。ワークフローフェーズは、外科処置における外科フェーズと関連付けられ得る。例えば、外科ビデオは、実行された外科処置全体を含み得る。コンピューティングシステムは、ワークフローセグメント化を実行して、同じ外科フェーズと関連付けられたビデオクリップ/フレームを一緒にグループ化し得る。
【0062】
図2に示すように、セグメント化に基づいて、コンピューティングシステムは、フィルタ処理されていない予測結果2050を生成し得る。コンピューティングシステムは、実行されたセグメント化に基づいて、出力を生成し得る。例えば、コンピューティングシステムは、フィルタ処理されていない予測結果(例えば、フィルタ処理されていないワークフローセグメント化予測結果)を生成し得る。フィルタ処理されていない予測結果は、誤った予測セグメントを含む場合がある。例えば、フィルタ処理されていない予測結果は、外科ビデオ中に存在しなかった外科フェーズを含み得る。
【0063】
図2に示すように、2060において、コンピューティングシステムは、例えば、フィルタ処理されていない予測結果2050をフィルタ処理し得る。フィルタ処理に基づいて、コンピューティングシステムは、予測結果2070を生成し得る。予測結果2070は、ビデオと関連付けられたフェーズ及び/又はイベントを表し得る。コンピューティングシステムは、ビデオに対して特徴抽出、セグメント化、及び/又はフィルタ処理を実行して、ワークフロー認識、外科イベント検出、外科ツール検出などのうちの1つ又は2つ以上と関連付けられた予測結果を生成し得る。コンピューティングシステムは、例えば、フィルタ処理されていない予測結果に対して、フィルタ処理を実行し得る。フィルタ処理は、例えば、(例えば、人間によって設定された、又は経時的に自動的に導出された)所定の規則、平滑フィルタ(例えば、メジアンフィルタ)などを使用するなど、ノイズフィルタ処理を含み得る。ノイズフィルタ処理は、事前知識ノイズフィルタ処理を含み得る。例えば、フィルタ処理されていない予測結果は、不正確な予測を含み得る。フィルタ処理は、ビデオと関連付けられた正確な情報を含み得る正確な予測結果を生成するために、不正確な予測を除去し得る。
【0064】
実施例において、コンピューティングシステムは、外科ビデオ及び外科処置と関連付けられたフィルタ処理されていない予測結果に対して、フィルタ処理を実行し得る。外科ビデオでは、外科医は、外科フェーズの最中に、外科ツールをアイドル状態にするか又は引き抜き得る。フィルタ処理されていない予測結果は、不正確であり得る(例えば、特徴抽出及びセグメント化が、不正確な予測結果を生成し得る)。フィルタ処理されていない予測結果に関連する不正確さは、例えば、フィルタ処理を使用して、補正され得る。フィルタ処理は、事前知識ノイズフィルタ処理(prior knowledge noise filtering、PKNF)を使用することを含み得る。PKNFは、オフライン外科ワークフロー認識(例えば、外科ビデオと関連付けられたワークフロー情報を決定すること)などのために、フィルタ処理されていない予測結果に対して使用され得る。コンピューティングシステムは、例えば、フィルタ処理されていない予測結果に対して、PKNFを実行し得る。PKNFは、フェーズ順序、フェーズ発生率、及び/又はフェーズ時間を考慮に入れることができる。例えば、外科処置の文脈では、PKNFは、外科フェーズ順序、外科フェーズ発生率、及び/又は外科フェーズ時間を考慮に入れることができる。
【0065】
コンピューティングシステムは、例えば、外科フェーズ順序に基づいて、PKNFを実行し得る。例えば、外科処置は、外科フェーズのセットを含み得る。外科処置における外科フェーズのセットは、特定の順序に従い得る。フィルタ処理されていない予測結果は、それがあるべき特定のフェーズ順序に従わない外科フェーズを表し得る。例えば、フィルタ処理されていない予測結果は、外科処置と関連付けられた特定のフェーズ順序と一致しない、順序外の外科フェーズを含み得る。例えば、フィルタ処理されていない予測結果は、外科処置と関連付けられた特定のフェーズ順序に含まれない、外科フェーズを含み得る。コンピューティングシステムは、例えばフェーズ順序に従って可能なラベルに基づいて、モデルAIシステムが最も高い信頼度を有するラベルを選択することによって、PKNFを実行し得る。
【0066】
コンピューティングシステムは、例えば、外科フェーズ時間に基づいて、PKNFを実行し得る。例えば、コンピューティングシステムは、フィルタ処理されていない予測結果において同じ予測ラベルを共有する予測セグメント(例えば、予測されるフェーズ)をチェックし得る。同じ外科フェーズの予測セグメントについて、コンピューティングシステムは、例えば、予測セグメント間の時間間隔が外科フェーズについて設定された接続閾値よりも短い場合、予測セグメントを接続し得る。接続閾値は、外科フェーズの長さと関連付けられた時間であってもよい。コンピューティングシステムは、例えば、各外科フェーズ予測セグメントについて、外科フェーズ時間を計算し得る。コンピューティングシステムは、例えば、外科フェーズであるには短すぎる予測セグメントを補正し得る。
【0067】
コンピューティングシステムは、例えば、外科フェーズの発生率に基づいて、PKNFを実行し得る。コンピューティングシステムは、いくつかの外科フェーズが設定された回数未満(例えば、固定された発生回数未満)で起こる(例えば、起こるだけである)ことを決定してもよい。コンピューティングシステムは、フィルタ処理されていない予測結果において同じフェーズの複数のセグメントが表されていると判定する。コンピューティングシステムは、フィルタ処理されていない予測結果において表される同じフェーズについてのセグメントの数が、外科フェーズと関連付けられた発生閾値数を超えることを決定し得る。同じフェーズについてのセグメントの数が発生閾値数を超えるという決定に基づいて、コンピューティングシステムは、例えば、モデルAIシステムの信頼度のランキングに従って、セグメントを選択し得る。
【0068】
ビデオベースの外科ワークフロー認識のための正確なソリューションが、低い計算コストで達成され得る。例えば、コンピューティングシステムは、モデルAIシステムとともにニューラルネットワークを使用して、記録された外科ビデオから情報を決定し得る。ニューラルネットワークは、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)、変換器ニューラルネットワークなどを含み得る。コンピューティングシステムは、ニューラルネットワークを使用して、空間情報及び時間情報を決定し得る。コンピューティングシステムは、ニューラルネットワークを組み合わせて使用し得る。例えば、コンピューティングシステムは、CNN及びRNNの両方を一緒に使用して、例えば、外科ビデオ内の各ビデオセグメントと関連付けられた空間情報及び時間情報の両方をキャプチャし得る。例えば、コンピューティングシステムは、ResNet50を2D CNNとして使用して、視覚特徴を外科ビデオからフレームごとに抽出して空間情報をキャプチャし、2段因果的時間畳み込みネットワーク(temporal convolutional network、TCN)を使用して、外科ワークフローのために抽出された特徴からグローバル時間情報をキャプチャし得る。
【0069】
図3は、例示的なコンピュータビジョンベースのワークフロー、イベント、及びツール認識を示す。ワークフロー認識(例えば、外科ワークフロー認識)は、例えば、
図1に関して本明細書に説明されるコンピューティングシステムなどのコンピューティングシステムを使用して、手術室内で実装されてもよい。コンピューティングシステムは、外科ワークフロー認識を達成するためにコンピュータビジョンベースのシステムを使用し得る。例えば、コンピューティングシステムは、ビデオ(例えば、外科ビデオ)から導出された空間情報及び/又は時間情報を使用して、外科ワークフロー認識を達成し得る。実施例では、コンピューティングシステムは、(例えば、
図2に関して本明細書で説明されるように)ビデオに対して特徴抽出、セグメント化、又はフィルタ処理のうちの1つ又は2つ以上を実行し得る(例えば、外科ワークフロー認識を達成するために)。
図3に示されるように、ビデオは、ビデオクリップ及び/又は画像3010に分割され得る。コンピューティングシステムは、画像3010に対して特徴抽出を実行してもよい。
図3の3020に示すように、コンピューティングシステムは、例えば、相互作用保存チャネル分離畳み込みネットワーク(interaction-preserved channel-separated convolutional network、IP-CSN)を使用して、ビデオ(例えば、外科ビデオ)からセグメントを通して空間情報及び/又はローカル時間情報を含む特徴3030を抽出し得る。コンピューティングシステムは、例えば、抽出された特徴3030を用いて、多段時間畳み込みネットワーク(multi-stage temporal convolutional network、MS-TCN)を訓練し得る。
図3の3040に示すように、コンピューティングシステムは、ビデオ(例えば、外科ビデオ)からグローバル時間情報をキャプチャするために、抽出された特徴3030を用いてMS-TCNを訓練し得る。ビデオからのグローバル時間情報は、フィルタ処理されていない予測残差3050を含み得る。
図3の3060に示すように、コンピューティングシステムは、例えば、PKNFを使用して、MS-TCNの出力から予測ノイズ(例えば、フィルタ処理されていない予測残差3050)をフィルタ処理し得る。コンピューティングシステムは、外科処置外科ワークフロー認識のためにコンピュータビジョンベースの認識アーキテクチャを使用し得る。コンピューティングシステムは、外科処置のための外科ワークフロー認識において高いフレームレベルの精度を達成し得る。コンピューティングシステムは、IP-CSNを用いて短いビデオセグメント内の空間及びローカル時間情報をキャプチャし、MS-TCNを用いて完全なビデオ内のグローバル時間情報をキャプチャし得る。
【0070】
コンピューティングシステムは、例えば、特徴抽出ネットワークを使用し得る。ビデオアクション認識ネットワークは、ビデオクリップの特徴を抽出するために使用され得る。ビデオアクション認識ネットワークを最初から訓練することは、大量の訓練データを使用する(例えば、必要とする)ことがある。ビデオアクション認識ネットワークは、例えば、ネットワークを訓練するために、事前訓練された重みを使用し得る。
【0071】
コンピューティングシステムは、例えば、完全な外科ビデオのためのワークフロー認識を達成するために、アクションセグメント化ネットワークを使用し得る。コンピューティングシステムは、例えば、ビデオアクション認識ネットワークに基づいて、完全なビデオから導出されたビデオクリップから特徴を抽出及び連結し得る。コンピューティングシステムは、例えば、アクションセグメント化ネットワークを使用して、外科ワークフロー認識のための完全なビデオ特徴を決定し得る。アクションセグメント化ネットワークは、例えば、外科ビデオの特徴を用いて外科ワークフロー認識を達成するために、長期短期記憶(long short-term memory、LSTM)ネットワークを使用してもよい。アクションセグメント化ネットワークは、例えば、外科ビデオの特徴を用いて外科ワークフロー認識を達成するために、MS-TCNを使用してもよい。
【0072】
実施例では、コンピューティングシステムは、コンピュータビジョンベースの認識アーキテクチャ(例えば、
図3に関して本明細書で説明されるような)を使用して、外科ワークフロー認識を達成し得る。コンピューティングシステムは、深層3D CNN(例えば、IP-CSN)を実装して、ビデオセグメントごとに空間的特徴及びローカル時間的特徴をキャプチャし得る。コンピューティングシステムは、MS-TCNを使用して、ビデオからグローバル時間情報をキャプチャし得る。コンピューティングシステムは、PKNFを使用して、例えば、オフライン外科ワークフロー認識のために、MS-TCN出力から予測ノイズをフィルタ処理し得る。コンピュータビジョンベースの認識アーキテクチャは、IPCSN-MSTCN-PKNFワークフローと呼ばれ得る。
【0073】
実施例では、コンピューティングシステムは、コンピュータビジョンベースのアーキテクチャ(例えば、
図3に関して本明細書で説明されるような)を使用して、推論を実行し、外科ワークフロー認識を達成し得る。コンピューティングシステムは、外科ビデオを受信し得る。コンピューティングシステムは、オンライン外科ワークフロー認識のために、進行中の外科処置と関連付けられた外科ビデオを受信し得る。コンピューティングシステムは、オフライン外科ワークフロー認識のために、以前に実行された外科処置と関連付けられた外科ビデオを受信し得る。コンピューティングシステムは、外科ビデオを短いビデオセグメントに分割し得る。例えば、コンピューティングシステムは、
図3に示すように、外科ビデオをフレーム及び/又は画像3010のグループに分割し得る。コンピューティングシステムは、IP-CSNを使用して、(例えば、
図3の3020に示すように)例えば、画像3010から特徴3030を抽出し得る。各抽出された特徴は、ビデオセグメント及び/又は画像のグループ3010のサマリとみなされ得る。コンピューティングシステムは、例えば、完全なビデオ特徴を達成するために、抽出された特徴3030を連結し得る。コンピューティングシステムは、抽出された特徴3030に対してMS-TCNを使用して、例えば、完全な外科ビデオ(例えば、外科ワークフローに対するフィルタ処理されていない予測結果)に対する初期外科フェーズセグメント化を達成し得る。コンピューティングシステムは、例えばPKNFを使用して、MS-TCNから出力された初期外科フェーズセグメント化をフィルタ処理し得る。フィルタ処理に基づいて、コンピューティングシステムは、完全なビデオのための絞り込まれた予測結果を生成し得る。
【0074】
実施例では、コンピューティングシステムは、オフライン外科ワークフロー認識のために、コンピュータビジョンベースの認識(例えば、
図3に関して本明細書で説明されるような)を使用して、AIモデルを構築し得る。コンピューティングシステムは、例えば、転移学習を使用してAIモデルを訓練し得る。コンピューティングシステムは、例えば、IP-CSNを使用して、データセットに対して転移学習を行い得る。コンピューティングシステムは、IP-CSNを使用して、データセットの特徴を抽出し得る。コンピューティングシステムは、例えば、抽出された特徴を使用して、MS-TCNを訓練し得る。コンピューティングシステムは、MS-TCN出力から予測ノイズを(例えば、PKNFを使用して)フィルタ処理し得る。
【0075】
コンピューティングシステムは、例えば、特徴抽出のためにIP-CSNを使用し得る。コンピューティングシステムは、3D CNNを使用して、ビデオセグメント内の空間情報及び時間情報をキャプチャし得る。2D CNNは、例えば、インフレートされた3D CNN(I3D)を取得するために、時間次元に沿ってインフレートされ得る。RGBストリーム及びオプティカルフローストリームは、例えば、2ストリームI3Dソリューションを設計するために使用され得る。例えば、R(2+1)DのようなCNNを使用してもよい。R(2+1)Dは、空間及び時間における3D畳み込みをファクタリングすることに焦点を当ててもよい。チャネル分離畳み込みネットワーク(channel-separated convolutional network、CSN)が使用され得る。CSNは、例えば、チャネル相互作用及び時空間相互作用を分離することによって、3D畳み込みをファクタリングすることに焦点を当ててもよい。R(2+1)D及び/又はCSNは、精度を改善し、計算コストを低減するために使用され得る。
【0076】
実施例では、CSNは、データセット(例えば、Kinetics-400データセット)上の2ストリームI3D及びR(2+1)Dよりも性能が優れ得る。CSNモデルは、例えば、データセット(例えば、IG-65Mデータセット)に対する大規模な弱教師あり事前訓練を用いて、(例えば、2ストリームI3D、R(2+1)Dなどと比較して)より良好に機能し得る。計算の観点から、CSNは、高価な計算を使用する(例えば、使用する必要がある)2ストリームI3Dにおけるオプティカルフローストリームと比較して、RGBストリーム(例えば、RGBストリームのみ)を入力として使用する(例えば、使用する必要がある)ことがある。CSNは、例えば、相互作用保存チャネル分離畳み込みネットワーク(IP-CSN)を設計するために使用され得る。IP-CSNは、ワークフロー認識アプリケーションに使用されてもよい。
【0077】
コンピューティングシステムは、例えば、特徴抽出ネットワークのために、完全畳み込みネットワークを使用し得る。
図4は、完全畳み込みネットワークを使用する例示的な特徴抽出ネットワークを示す。R(2+1)Dは、完全畳み込みネットワーク(fully convolutional network、FCN)であり得る。R(2+1)Dは、ResNetアーキテクチャから導出されたFCNであり得る。R(2+1)Dは、例えば、ビデオデータからコンテキストをキャプチャして、別個の畳み込み(例えば、空間畳み込み及び時間畳み込み)を使用し得る。R(2+1)Dの受容野は、フレームの幅及び高さの次元において、かつ/又は第3の次元(例えば、時間を表し得る)を通じて、空間的に延び得る。
【0078】
実施例では、R(2+1)Dは、層から構成され得る。例えば、R(2+1)Dは、R(2+1)Dのコンパクトバージョンとみなされ得る34個の層を含み得る。R(2+1)Dの層のために使用されるべき初期重みが、取得され得る。例えば、R(2+1)Dは、例えば、IG-65Mデータセット及び/又はKinetics-400データセットなどのデータセットに対して、事前訓練された初期重みを使用し得る。
【0079】
図5は、例示的なIP-CSNボトルネックブロックを示す。実施例では、CSNは、畳み込み層(例えば、全ての畳み込み層)が1×1×1畳み込み又はkxkxk深さ方向畳み込みである3D CNNであり得る。1×1×1畳み込みが、チャネル相互作用のために使用され得る。kxkxk深さ方向畳み込みは、ローカル時空間相互作用のために使用され得る。
図5に示されるように、3×3×3畳み込みは、1×1×1の従来の畳み込み及び3×3×3の深さ方向の畳み込みに置き換えられ得る。3D ResNet内の標準3Dボトルネックブロックは、IP-CSNボトルネックブロックに変更され得る。IP-CSNボトルネックブロックは、(例えば、従来の3×3×3畳み込みの)パラメータ及びFLOPを低減し得る。IP-CSNボトルネックブロックは、追加された1×1×1畳み込みとの(例えば、全ての)チャネル相互作用を保存し得る。
【0080】
3D CNNは、例えば、最初から訓練され得る。大量のビデオデータが、3D CNNを最初から訓練するために使用され得る。転移学習は、例えば、3D CNNを最初から訓練するために行われ得る。例えば、データセット(例えば、IG-65M及び/又はKinetics-400データセット)に対して事前訓練された初期重みが、3D CNNを訓練するために使用され得る。ビデオ(例えば、外科ビデオ)は、例えば、訓練のために、ラベル(例えば、クラスラベル)で注釈を付けられ得る。実施例では、外科ビデオは、例えば、いくつかのクラスラベルが外科フェーズラベルであり、他のクラスラベルが外科フェーズラベルではない場合、クラスラベルで注釈を付けられ得る。各クラスラベルの開始時間及び終了時間に注釈を付けることができる。IP-CSNは、例えば、データセットを使用して、微調整されてもよい。IP-CSNは、例えば、設定時間より長い各注釈セグメント内からランダムに選択されたビデオセグメントを使用して、データセットに基づいて微調整されてもよい。フレームは、ビデオセグメントからの1つの訓練サンプルとして一定間隔でサンプリングされ得る。例えば、19.2秒のビデオセグメントは、19.2秒よりも長い各注釈セグメント内でランダムに選択され得る。32個のフレームが、19.2秒のビデオセグメントから(例えば、1つの)訓練サンプルとして一定間隔でサンプリングされ得る。
【0081】
コンピューティングシステムは、例えば、外科フェーズセグメント化のために、完全畳み込みネットワークを使用し得る。
図6は、MS-TCNを使用する例示的なアクションセグメント化ネットワークを示す。コンピューティングシステムは、例えば、外科フェーズセグメント化のために、MS-TCNを使用し得る。MS-TCNは、ビデオデータの完全な時間分解能で動作し得る。MS-TCNは、例えば、各段階が前のフェーズによって絞り込まれ得る段階を含み得る。MS-TCNは、例えば、各段階において、拡張畳み込みを含み得る。各段階に拡張畳み込みを含めることは、モデルが大きな時間的受容野を有するより少ないパラメータを有することを可能にし得る。各段階に拡張畳み込みを含めることは、モデルがビデオデータの完全な時間分解能を使用することを可能にし得る。例えば、MS-TCNは、例えば、グローバルな時間的特徴を完全なビデオに組み込むために、IP-CSNに従い得る。
【0082】
実施例では、コンピューティングシステムは、例えば、ビデオからグローバル時間情報をキャプチャするために、(例えば、2段因果的TCNの代わりに)4段非因果的TCNを使用し得る。コンピューティングシステムは、入力X(例えば、X={x1,x2,...,xt})を受信し得る。入力Xが与えられると、コンピューティングシステムは、MS-TCNを使用して、出力Pを予測し得る(例えば、ここで、P={P1,P2,...,Pt})。例えば、入力X及び出力Pにおけるtは、時間ステップ(例えば、現在の時間ステップ)であり得、ここで、1≦t≦Tである。Tは、総時間ステップの数であり得る。Xtは、時間ステップtにおける特徴入力であってもよい。Ptは、現在の時間ステップに対する出力予測であってもよい。例えば、入力Xは、外科ビデオであってもよく、Xtは、外科ビデオにおける時間ステップtにおける特徴入力であってもよい。出力Pは、外科ビデオ入力と関連付けられた予測結果であり得る。出力Pは、外科イベント、外科フェーズ、外科情報、外科ツール、アイドル期間、遷移ステップ、フェーズ境界などと関連付けられ得る。例えば、Ptは、外科ビデオ入力において時間tに発生している外科フェーズであり得る。
【0083】
図7は、例示的なMS-TCNアーキテクチャを示す。実施例では、コンピューティングシステムは、入力Xを受信し、MS-TCNを入力Xに適用し得る。MS-TCNは、例えば、時間畳み込み層などの層を含み得る。MS-TCNは、例えば、第1の1×1畳み込み層などの第1の層を(例えば、第1の段階において)含み得る。第1の1×1畳み込み層は、入力Xの次元をネットワーク内の特徴マップ番号と一致させるために使用され得る。コンピューティングシステムは、第1の1×1畳み込み層の出力に対して、拡張1D畳み込みの1つ又は2つ以上の層を使用し得る。例えば、同じ数の畳み込みフィルタ及び3のカーネルサイズを有する拡張1D畳み込みの層が使用され得る。コンピューティングシステムは、例えば、
図7に示されるような(例えば、MS-TCNの)各層において、RelUアクティベーションを使用し得る。残差接続は、例えば、勾配流を促進するために使用され得る。拡張畳み込みが使用され得る。拡張畳み込みの使用は、受容野を増加させ得る。受容野は、例えば、式1に基づいて、計算され得る。
RF(l)=2
(l+1)-1 式1
【0084】
例えば、lは層番号及びl∈[1,L]を示し得、ここで、Lは、拡張畳み込み層の総数を示し得る。最後の拡張畳み込み層の後、コンピューティングシステムは、第2の1×1畳み込み層及びソフトマックスアクティベーションを使用して、例えば、第1の段階から初期予測を生成し得る。コンピューティングシステムは、例えば、追加の段階を使用して、初期予測を絞り込み得る。(例えば、各)追加段階は、前の段階から初期予測を取得し、それらを絞り込み得る。(例えば、MS-TCNにおける)分類損失について、クロスエントロピー損失は、例えば、式2を使用して計算され得る。
【0085】
【0086】
例えば、pt,cは、例えば、時間ステップtにおけるクラスcでの予測確率を示し得る。平滑損失は、オーバーセグメント化を低減し得る。オーバーセグメント化を低減するための平滑損失のために、切り捨て平均二乗誤差が、例えば、式3及び4に従ってフレーム単位の対数確率にわたって計算され得る。
【0087】
式3の場合、
【0088】
【0089】
【0090】
例えば、Cはクラスの総数を示し得、τは閾値を示し得る。最終損失関数は、段階にわたる損失を合計し得、これは、例えば、式5に従って計算し得され得る。
Lfinal=ΣS(Lcls+λLT-MSE) 式5
【0091】
例えば、Sは、MS-TCNの総段階数を示し得る。例えば、λは、重み付けされたパラメータであり得る。
【0092】
外科ビデオでは、外科医は、外科フェーズ中に、外科ツールをアイドル状態にするか又は引き抜き得る。アイドル期間と関連付けられたビデオセグメント及び/又は外科フェーズの途中で外科ツールを引き出す外科医と関連付けられたビデオセグメントについて、深層学習モデルは、不正確に予測する場合がある。コンピューティングシステムは、例えば、PKNFなどのフィルタ処理を適用し得る。フィルタ処理は、深層学習モデルによって生成された不正確な予測を識別し得る。
【0093】
コンピューティングシステムは、(例えば、オフライン外科ワークフロー認識のために)PKNFを使用し得る。PKNFは、例えば、(例えば、本明細書に説明されるような)外科フェーズ順序、外科フェーズ発生率、及び/又は外科フェーズ時間を考慮に入れ得る。
【0094】
例えば、コンピューティングシステムは、所定の外科フェーズ順序に基づいて、フィルタ処理を実行し得る。外科処置における外科フェーズは、(例えば、所定の外科フェーズ順序における)特定の順序に従い得る。コンピューティングシステムは、例えば、予測が適切な特定のフェーズ順序に従わない場合、MS-TCNからの予測を補正し得る。コンピューティングシステムは、例えば、モデルが最も高い信頼度を有するラベルを、例えば、フェーズ順序に従って可能なラベルから選択することによって、予測を補正し得る。
【0095】
例えば、コンピューティングシステムは、外科フェーズ時間に基づいて、フィルタ処理を実行し得る。コンピューティングシステムは、例えば、最小フェーズ時間T(例えば、T={T1,T2,.,TN}であり、Nは外科フェーズの総数であり得る)を得るために、(例えば、フィルタ処理されていない予測結果における)注釈に対して統計分析を実行し得る。コンピューティングシステムは、MS-TCNからの同じ予測ラベルを共有する予測セグメントをチェックし得る。コンピューティングシステムは、例えば、予測セグメント間の時間間隔が外科フェーズについて設定された接続閾値よりも短い場合、同じ予測ラベルを共有する隣接する予測セグメントを接続し得る。コンピューティングシステムは、外科フェーズであるには短すぎる予測セグメントを補正し得る。
【0096】
例えば、コンピューティングシステムは、外科フェーズ発生率(例えば、外科フェーズ発生カウント)に基づいて、フィルタ処理を実行し得る。外科フェーズは、外科処置中に固定された発生回数だけ発生し得る(例えば、発生するのみであり得る)。コンピューティングシステムは、例えば、注釈に対する統計分析に基づいて、外科処置における外科フェーズと関連付けられた発生数を検出し得る。同じフェーズの複数のセグメントが予測に現れ、コンピューティングシステムが、セグメントの数が外科フェーズに対して設定されたフェーズ発生閾値を超えると判定した場合、コンピューティングシステムは、例えばモデルの信頼度のランキングに従ってセグメントを選択し得る。
【0097】
実施例では、コンピューティングシステムは、ライブ外科処置のためのオンライン外科ワークフロー認識を実行し得る。コンピューティングシステムは、オンライン外科ワークフロー認識のために、(例えば、
図3に関して本明細書で説明されるような)コンピュータビジョンベースの認識アーキテクチャを適用し得る。例えば、コンピューティングシステムは、オンライン外科ワークフロー認識のためにIPCSN MSTCNを使用し得る。オンライン推論中に、IP-CSNによって抽出された空間的特徴及びローカル時間的特徴は、ビデオセグメントによって保存され得る。時間ステップtにおいて、コンピューティングシステムは、例えば、特徴セットF(例えば、ここで、F={f
1,f
2,...,f
t})を構築するために、例えば、時間ステップtにおいて抽出された特徴と一緒に、時間ステップtより前に抽出された特徴を読み込んでもよい。コンピューティングシステムは、特徴セットFをMS-TCNに送信して、予測出力Pを生成し得る(例えば、ここで、P={P
1,P
2,...,P
t})。P
tは、時間ステップtにおけるオンライン予測結果であってもよい。例えば、予測出力Pは、オンライン外科処置に関連付けられた予測結果であってもよい。予測出力Pは、ライブ外科処置と関連付けられた外科活動、外科イベント、外科フェーズ、外科的情報、外科ツール使用、アイドル期間、遷移ステップなどの予測結果を含み得る。例えば、Ptは、現在の外科フェーズの予測結果であってもよい。
【0098】
外科ワークフロー認識は、例えば、自然言語処理(NLP))技法を使用することによって、達成され得る。NLPは、人間の言語の理解及び生成に対応する人工知能の一分野であり得る。NLP技法は、人間の言語及び単語と関連付けられた情報及びコンテキストを抽出及び/又は生成することに対応し得る。例えば、NLP技法は、自然言語データを処理するために使用され得る。NLP技法は、例えば、自然言語データと関連付けられた情報及び/又はコンテキストを決定するために、自然言語データを処理するために使用され得る。NLP技法は、例えば、自然言語データを分類及び/又はカテゴリ化するために使用され得る。NLP技法は、コンピュータビジョン及び/又は画像処理(例えば、画像認識)に適用され得る。例えば、NLP技術を画像に適用して、処理される画像と関連付けられた情報を生成し得る。画像処理にNLP技法を適用するコンピューティングシステムは、画像と関連付けられた情報及び/又はタグを生成し得る。例えば、コンピューティングシステムは、画像処理とともにNLP技法を使用して、画像分類などの画像と関連付けられた情報を決定し得る。コンピューティングシステムは、外科画像とともにNLP技法を使用して、例えば、外科画像と関連付けられた外科情報を導出し得る。コンピューティングシステムは、NLP技法を使用して、外科画像を分類及びカテゴリ化し得る。例えば、NLP技法を使用して、外科ビデオ内の外科イベントを決定し、決定された情報を有する注釈付きビデオ表現を作成し得る。
【0099】
NLPは、例えば、表現サマリを生成(例えば、特徴抽出)及び/又は表現サマリを解釈(例えば、セグメント化)するために使用され得る。NLP技法は、変換器、ユニバーサル変換器、変換器(bidirectional encoder representations from transformer、BERT)からの双方向性エンコーダ表現、longformerなどを使用することを含み得る。NLP技法は、例えば、外科ワークフロー認識を達成するために、(例えば、
図3に関して本明細書で説明されるような)コンピュータビジョンベースの認識アーキテクチャに適用され得る。NLP技法は、コンピュータビジョンベースの認識アーキテクチャ全体にわたって使用されてもよく、かつ/又はコンピュータビジョンベースの認識アーキテクチャのコンポーネントを置き換えてもよい。外科ワークフロー認識アーキテクチャ内のNLP技法の配置は、柔軟であり得る。例えば、NLP技法は、コンピュータビジョンベースの認識アーキテクチャを置換及び/又は補足し得る。実施例では、変換器ベースのモデリング、畳み込み設計、及び/又はハイブリッド設計が使用され得る。例えば、NLP技法を使用することは、長編外科ビデオ(例えば、長さが1時間まで又はそれを超えるビデオ)を分析することを可能にし得る。NLP技法及び/又は変換器なしでは、長編外科ビデオの分析は、例えば、500秒以下の入力に制限され得る。
【0100】
図8Aは、外科ワークフロー認識のためのコンピュータビジョンベースの認識アーキテクチャ内のNLP技法のための例示的な配置を示す。NLP技法は、外科ビデオと関連付けられた画像8010に対して実行され得る。実施例では、NLP技法は、以下のようなワークフロー認識パイプライン内の1つ又は2つ以上の場所に挿入され得る:表現抽出を用いて(例えば、
図8Aの8020に示されるように)、表現抽出とセグメント化との間に(例えば、
図8Aの8030に示されるように)、セグメント化を用いて(例えば、
図8Aの8040に示されるように)、かつ/又はセグメント化の後に(例えば、
図8Aの8050に示されるように)。NLP技法は、(例えば、8020、8030、8040、及び/又は8050における)ワークフロー認識パイプライン内の複数の場所で同時に実行され得る。例えば、ViT-BERT(例えば、完全な変換器設計)が、(例えば、
図8Aの8020において)使用されてもよい。
【0101】
図8Bは、外科ワークフロー認識のためのコンピュータビジョンベースの認識アーキテクチャのフィルタ処理部分内のNLP技法の例示的な配置を示す。NLP技法は、外科ビデオと関連付けられた画像8110に対して実行され得る。NLP技法は、(例えば、8130において示されるように)ワークフロー認識パイプラインのフィルタ処理部分において使用され得る。例えば、コンピュータビジョンベースの認識アーキテクチャは、画像8110に対して表現抽出及び/又はセグメント化を実行し得る。コンピュータビジョンベースの認識アーキテクチャは、予測結果8120を生成し得る。予測結果は、例えば、コンピューティングシステムによってフィルタ処理され得る。フィルタ処理は、例えば、8130に示すように、NLP技法を使用し得る。(例えば、NLP技法を使用する)フィルタ処理の出力は、(例えば、
図8Bの8140に示されるような)フィルタ処理された予測結果であり得る。例えば、予測結果8120は、(例えば、
図8Bの予測1、予測2、及び予測3によって示されるように)外科処置中の3つの異なる外科フェーズを示し得る。フィルタ処理後、フィルタ処理された予測結果は、不正確な予測を除去し得る。例えば、フィルタ処理された予測結果8140は、(例えば、
図8Bの予測2及び予測3によって示されるように)2つの異なる外科フェーズを示し得る。フィルタ処理は、不正確に予測された予測1を除去し得る。
【0102】
例えば、コンピューティングシステムは、表現抽出中にNLP技法を適用し得る。コンピューティングシステムは、例えば、完全変換器ネットワークを使用し得る。
図9は、完全畳み込みネットワークを使用する例示的な特徴抽出ネットワークを示す。コンピューティングシステムは、BERTネットワークを使用してもよい。BERTネットワークは、コンテキスト関係を双方向に検出し得る。BERTネットワークは、テキスト理解のために使用され得る。BERTネットワークは、例えば、そのコンテキスト認識機能に基づいて、表現抽出ネットワークのパフォーマンスを向上させることができる。コンピューティングシステムは、組み合わされたネットワークを使用して、R(2+1)D-BERTなどの表現抽出を実行し得る。
【0103】
実施例において、コンピューティングシステムは、例えば、時間的なビデオ理解を改善するために、アテンションを使用し得る。コンピューティングシステムは、ビデオアクション認識のためにTimeSformerを使用し得る。TimeSformerは、分割された空間-時間アテンションを使用することができ、例えば、空間的アテンションの前に時間的アテンションが適用される。コンピューティングシステムは、空間時間アテンションモデル(space time attention model、STAM)及び/又はファクタリングされたエンコーダを有するビデオビジョン変換器(video vision transformer、ViViT)を使用し得る。コンピューティングシステムは、例えば、ビデオアクション認識を支援するために、(例えば、時間変換器の前に)空間変換器を使用し得る。コンピューティングシステムは、例えば、ビデオフレームから空間情報をキャプチャするための空間変換器として、ビジョン変換器(vision transformer、ViT)を使用し得る。コンピューティングシステムは、空間変換器によって抽出された特徴からビデオフレーム間の時間情報をキャプチャするために、例えば、時間変換器としてBERTネットワークを使用し得る。ViTモデルの初期重みを得ることができる。コンピューティングシステムは、ViTモデルとしてViT-B/32を使用し得る。ViT-B/32モデルは、例えば、データセット(例えば、ImageNet-21データセット)を使用して事前訓練されてもよい。コンピューティングシステムは、例えば、分類の目的で(例えば、R(2+1)D-BERTの設計に従って)、BERTに埋め込む追加の分類を使用し得る。
【0104】
実施例では、コンピューティングシステムは、例えば表現抽出のためにハイブリッドネットワークを使用し得る。
図10は、ハイブリッドネットワークを使用する例示的な特徴抽出ネットワークを示す。ハイブリッド特徴抽出ネットワークは、特徴抽出のために畳み込みと変換器の両方を使用し得る。R(2+1)D-BERTは、例えば、アクション認識に対するハイブリッドアプローチであってもよい。ビデオクリップからの時間情報は、例えば、R(2+1)Dモデルの終わりにある時間グローバル平均プーリング(temporal global average pooling、TGAP)層をBERT層で置き換えることによって、より良好にキャプチャされ得る。R(2+1)D-BERTモデルは、例えば、データセット(例えば、IG-65Mデータセット)に対する大規模弱教師あり事前訓練からの事前訓練された重みを用いて訓練され得る。
【0105】
例えば、コンピューティングシステムは、表現抽出とセグメント化との間にNLP技法を適用し得る。コンピューティングシステムは、例えば、変換器への入力が表現抽出から生成された表現サマリ(例えば、抽出された特徴)であり得る場合、変換器を(例えば、表現抽出とセグメント化との間で)使用し得る。コンピューティングシステムは、変換器を使用してNLP符号化表現サマリを生成してもよい。NLP符号化表現サマリは、セグメント化のために使用される。
【0106】
例えば、コンピューティングシステムは、セグメント化中にNLP技法を適用し得る。コンピューティングシステムは、例えば、(例えば、セグメント化のために使用される)2段TCNの間でBERTネットワークを使用し得る。
図11は、NLP技法を用いた例示的な2段TCNを示す。
図11に示すように、入力X11010は、2段TCNで使用され得る。入力X 11010は、表現サマリであってもよい。2段TCNは、MS-TCN 11020のための第1の段及びMS-TCN 11030のための第2の段を含み得る。NLP技法は、(例えば、
図11の11040に示すように)例えば、MS-TCN11020のための第1のフェーズとMS-TCN 11030のための第2のフェーズとの間で使用され得る。NLP技法は、MS-TCNのために第1の段階と第2の段階との間でBERTを使用することを含み得る。
図11に示されているように、MS-TCNのための第1の段階の出力は、NLP技法(例えば、BERT)のための入力であり得る。実行されたNLP技法(例えば、BERT)の出力は、MS-TCNのための第2の段階のための入力であり得る。
【0107】
例えば、コンピューティングシステムは、アクションセグメント化ネットワークのために完全変換ネットワークを使用し得る。
図12は、変換器を使用する例示的なアクションセグメント化ネットワークを示す。変換器は、TCNのように時系列データを処理し得る。シーケンス長に対して二次関数的にスケーリングし得る自己アテンション動作は、変換器が長いシーケンスを処理することを制限し得る。longformerは、例えば、自己アテンションを置き換えるために、ローカルウィンドウ化されたアテンションとタスク動機付けされたグローバルのアテンションとを一緒に組み合わせることができる。組み合わせられたローカルウィンドウ化されたアテンション及びタスク動機付けグローバルアテンションは、longformerにおけるメモリ使用を低減させ得る。longformerにおけるメモリ使用量を低減することは、長いシーケンス処理を改善し得る。longformerを使用することは、シーケンス長(例えば、4096のシーケンス長)のための時系列データを処理することを可能にし得る。例えば、シーケンスの一部(例えば、トークン)が1秒の外科ビデオ特徴を表す場合、longformerは、1パスで4096秒のビデオを処理し得る。コンピューティングシステムは、例えば、longformerで各部分を別々に処理し、完全な外科ビデオのために処理された結果を組み合わせることができる。
【0108】
実施例において、MS-TCN内のTCNは、例えば、多段longformer(MS-Longformer)を形成するために、longformerと置き換えられてもよい。MS-Longformerは、完全変換器アクションセグメント化ネットワークとして使用され得る。ローカルスライディングウィンドウアテンションは、例えば、拡張アテンションがlongformerで実装されない場合、MS-Longformerにおいて使用され得る。コンピューティングシステムは、例えば、longformerの複数の段階及び制限されたリソース(例えば、限られたGPUメモリリソース)の使用に基づいて、MS-Longformer内でグローバルアテンションを使用することを控え得る。
【0109】
例えば、コンピューティングシステムは、アクションセグメント化ネットワークのためにハイブリッドネットワークを使用し得る。
図13は、ハイブリッドネットワークを使用する例示的なアクションセグメント化ネットワークを示す。ハイブリッドネットワークは、MS-TCNと一緒に変換器としてlongformerを使用し得る。4段TCNの場合、longformerブロックは、4段TCNの前、TCNの第1の段階の後、TCNの第2の段階の後、又は4段TCNの後に使用され得る。変換器とMS-TCNとの組み合わせは、多段時間ハイブリッドネットワーク(multi-stage temporal hybrid network、MS-THN)と呼ばれることがある。コンピューティングシステムは、MS-THNの前にlongformerを使用し得る。コンピューティングシステムは、例えば、グローバルアテンションを利用するために(例えば、GPUメモリリソースなどの制限されたリソースを使用して)、MS-THNの前に(例えば、1つの)longformerブロック(例えば、1つのlongformerブロック)を使用し得る。
【0110】
例えば、コンピューティングシステムは、セグメント化とフィルタ処理との間にNLP技法を適用し得る。コンピューティングシステムは、例えば、変換器への入力がセグメント化サマリであり得る場合、変換器を(例えば、セグメント化とフィルタ処理との間で)使用し得る。コンピューティングシステムは、(例えば、変換器を使用して)出力を生成し得、出力は、NLP復号化セグメント化サマリであり得る。NLP復号化セグメント化サマリは、フィルタ処理のための入力であってもよい。
【0111】
実施例では、NLP技法は、ワークフロー認識パイプライン内のコンポーネントを置き換え得る。コンピューティングシステムは、外科ワークフロー認識のためのパイプラインにおいてNLP技法を(例えば、追加的に及び/又は代替的に)使用し得る。例えば、NLP技法は、(例えば、コンピュータビジョンベースの認識アーキテクチャに関して本明細書で説明したように)表現抽出モデルを置き換え得る。NLP技法は、例えば、3D CNN又はCNN-RNN設計を使用する代わりに、表現抽出を実行するために使用され得る。NLP技法は、例えばTimeSformerを使用して、表現抽出を実行するために使用され得る。例えば、NLP技法を使用して、セグメント化を実行し得る。NLP技法は、例えば、MS-Transformerモデルを構築するために、MS-TCN内で実行されるTCNを置き換え得る。例えば、NLP技法は、(例えば、コンピュータビジョンベースの認識アーキテクチャに関して本明細書で説明したように)フィルタ処理ブロックを置き換え得る。NLP技法は、例えば、実行されたセグメント化からの予測結果を絞り込むために使用され得る。NLP技法は、表現抽出モデル、セグメント化モデル、及びフィルタ処理ブロックの任意の組み合わせを置き換え得る。例えば、(例えば、単一の)NLP技法ブロックを使用して、(例えば、外科ワークフロー認識のための)エンドツーエンド変換器モデルを構築し得る。(例えば、単一の)NLP技法ブロックは、CSN(例えば、又は他のCNN)、MS-TCN、及びPKNFを置き換えるために使用され得る。
【0112】
コンピューティングシステムは、外科処置のためのワークフロー認識において、NLP技法を使用し得る。例えば、コンピューティングシステムは、胃バイパス術などのロボット及び腹腔鏡外科ビデオのワークフロー認識において、NLP技術を使用し得る。胃バイパス術は、例えば、35以上の肥満度指数(BMI)を有するか、又は肥満に関連する併存疾患を有する個体において、体重減少を引き起こすために行われる侵襲的手順であり得る。胃バイパス術は、身体による栄養素の摂取を低減し得、BMIを低減し得る。胃バイパス処置は、外科的ステップ及び/又はフェーズにおいて実行されてもよい。胃バイパス処置は、例えば、探索/検査フェーズ、胃嚢作製フェーズ、胃嚢ステープル線補強フェーズ、網分割フェーズ、腸測定フェーズ、胃空腸吻合フェーズ、空腸分割フェーズ、空腸吻合フェーズ、腸間膜閉鎖フェーズ、裂孔欠損閉鎖フェーズなどの外科的ステップ及び/又はフェーズを含み得る。胃バイパス処置と関連付けられた外科ビデオは、胃バイパス処置フェーズに関連するセグメントを含み得る。外科フェーズ遷移セグメント、未定義の外科フェーズセグメント、体外セグメントなどに対するビデオセグメントは、共通のラベル(例えば、フェーズラベルではない)を割り当てられ得る。
【0113】
例えば、コンピューティングシステムは、胃バイパス処置のためのビデオを受信し得る。コンピューティングシステムは、例えば、外科ビデオ内のビデオセグメントにラベルを割り当てることによって、外科ビデオに注釈を付け得る。外科ビデオは、毎秒30フレームのフレームレートを有してもよい。コンピューティングシステムは、(例えば、NLP技法を使用する)本明細書で説明される深層学習モデルを訓練し得る。例えば、コンピューティングシステムは、データセットをランダムに分割することによって、深層学習ワークフローを訓練し得る。多くのビデオが、訓練データセットのために使用され得る。例えば、225個のビデオが訓練データセットに使用されてもよく、52個のビデオが検証データセットに使用されてもよく、60個のビデオが試験データセットに使用されてもよい。表1は、例示的な訓練データセット、検証データセット、及び試験データセットにおける外科フェーズの分数を示す。例えば、制限されたデータが、特定の外科フェーズに対して利用可能であり得る。表1に示されるように、限定されたデータが、探索/検査フェーズ、六分割フェーズ、及び/又は裂孔欠損閉鎖フェーズのために利用可能であり得る。不均衡なデータは、異なる外科フェーズと関連付けられた異なる外科時間の結果であり得る。不均衡なデータは、外科処置に対してオプションである異なる外科フェーズの結果であり得る。
【0114】
【0115】
実施例では、コンピューティングシステムは、NLP技法を使用して、外科処置におけるワークフロー認識のために、AIモデル及び/又はニューラルネットワークを訓練し得る。コンピューティングシステムは、データベース(例えば、外科ビデオのデータベース)から外科画像及び/又はフレームのセットを取得し得る。コンピューティングシステムは、セット内の各外科画像及び/又はフレームに、1つ又は2つ以上の変換を適用し得る。1つ又は2つ以上の変換は、ミラーリング、回転、平滑化、コントラスト低減などを含み得る。コンピューティングシステムは、例えば、1つ又は2つ以上の変換に基づいて、外科画像及び/又はフレームの修正されたセットを生成し得る。コンピューティングシステムは、訓練セットを作成し得る。訓練セットは、外科画像及び/又はフレームのセット、外科画像及び/又はフレームの修正されたセット、非外科画像及び/又はフレームのセットなどを含み得る。コンピューティングシステムは、例えば、訓練セットを使用して、AIモデル及び/又はニューラルネットワークを訓練し得る。初期訓練の後、モデルAI及び/又はニューラルネットワークは、非外科フレーム及び/又は画像を、外科フレーム及び/又は画像であると誤ってタグ付けすることがある。モデルAI及び/又はニューラルネットワークは、例えば、外科画像及び/又はフレームに対するワークフロー認識精度を増加させるために、絞り込まれ、かつ/又は更に訓練されてもよい。
【0116】
実施例では、コンピューティングシステムは、例えば、追加の訓練セットを使用して、外科処置におけるワークフロー認識のためにAIモデル及び/又はニューラルネットワークを絞り込み得る。例えば、コンピューティングシステムは、追加の訓練セットを生成し得る。追加の訓練セットは、訓練の第1の段階の後に外科画像として誤って検出された非外科画像及び/又はフレームのセット、並びにAIモデル及び/又はニューラルネットワークを最初に訓練するために使用された訓練セットを含み得る。コンピューティングシステムは、例えば、第2の訓練セットを使用して、第2の段階においてモデルAI及び/又はニューラルネットワークを絞り込み、かつ/又は更に訓練し得る。モデルAI及び/又はニューラルネットワークは、例えば、訓練の第2のフェーズの後に、ワークフロー認識精度の増加に対応し得る。
【0117】
実施例では、コンピューティングシステムは、AIモデルを訓練し、訓練されたAIモデルを、NLP技法を使用して、ビデオデータに適用し得る。例えば、AIモデルはセグメント化モデルであってもよい。セグメント化モデルは、例えば、変換器を使用し得る。コンピューティングシステムは、例えば、1つ又は2つ以上の外科処置と関連付けられた注釈付きビデオデータの1つ又は2つ以上の訓練データセットを受信し得る。コンピューティングシステムは、例えば、セグメント化モデルを訓練するために、1つ又は2つ以上の訓練データセットを使用してもよい。コンピューティングシステムは、例えば、1つ又は2つ以上の外科処置と関連付けられた注釈付きビデオデータの1つ又は2つ以上の訓練データセットに対して、セグメント化AIモデルを訓練し得る。コンピューティングシステムは、例えば、リアルタイム(例えば、ライブ外科処置)又は記録された外科処置(例えば、以前に行われた外科処置)における外科処置の外科ビデオを受信し得る。コンピューティングシステムは、外科ビデオから、1つ又は2つ以上の表現サマリを抽出し得る。コンピューティングシステムは、例えば、1つ又は2つ以上の表現サマリに対応するベクトル表現を生成してもよい。コンピューティングシステムは、訓練されたセグメント化モデル(例えば、AIモデル)を適用して、例えば、ベクトル表現を分析し得る。コンピューティングシステムは、ベクトル表現を分析するために、例えば、ビデオセグメントの予測されるグループ化を識別する(例えば、認識する)ために、訓練されたセグメント化モデルを適用し得る。各ビデオセグメントは、例えば、外科フェーズ、外科イベント、外科ツール使用などの、外科処置の論理的ワークフローフェーズを表し得る。
【0118】
実施例では、ビデオは、例えば、ビデオと関連付けられた予測結果を決定するために、NLP技法を使用して処理され得る。
図14は、ビデオの予測結果の決定の例示的なフロー図を示す。
図14の14010に示されるように、ビデオデータが取得され得る。ビデオデータは、外科処置と関連付けられ得る。例えば、ビデオデータは、以前に実行された外科処置又はライブ外科処置と関連付けられ得る。ビデオデータは、複数の画像を含み得る。
図14の14020に示すように、NLP技法をビデオデータに対して実行し得る。
図14の14030に示されるように、ビデオデータからの画像は、外科活動と関連付けられ得る。
図14の14040に示すように、予測結果を生成し得る。例えば、自然言語処理に基づいて、予測結果が生成されてもよい。予測結果は、入力ビデオデータのビデオ表現(例えば、予測ビデオ表現)であり得る。
【0119】
実施例では、予測結果は注釈付きビデオを含み得る。注釈付きビデオは、ビデオに添付されたラベル及び/又はタグを含んでもよい。ラベル及び/又はタグは、自然言語処理に基づいて決定された情報を含んでもよい。例えば、ラベル及び/又はタグは、外科フェーズ、外科イベント、外科ツールの使用、アイドル期間、ステップ遷移、外科フェーズ境界などの外科活動を含んでもよい。ラベル及び/又はタグは、外科活動と関連付けられた開始時間及び/又は終了時間を含んでもよい。実施例では、予測結果は、入力ビデオに添付されたメタデータであり得る。メタデータは、ビデオと関連付けられた情報を含み得る。メタデータは、ラベル及び/又はタグを含んでもよい。
【0120】
予測結果は、ビデオデータと関連付けられた外科活動を示し得る。例えば、予測結果は、ビデオデータ内の同じ外科活動と関連付けられている画像及び/又はビデオセグメントのグループを示し得る。例えば、外科ビデオは、外科処置と関連付けられ得る。外科処置は、1つ又は2つ以上の外科フェーズで実行され得る。例えば、予測結果は、画像又はビデオセグメントがどの外科フェーズと関連付けられているかを示し得る。予測結果は、同じ外科フェーズとして分類された画像及び/又はビデオセグメントをグループ化し得る。
【0121】
実施例では、ビデオデータに対して実行されるNLP技法は、以下のうちの1つ又は2つ以上(例えば、少なくとも1つ)と関連付けられ得る:ビデオデータに基づいて、表現サマリを抽出すること、抽出された表現サマリに基づいて、ベクトル表現を生成すること、生成されたベクトル表現に基づいて、ビデオセグメントの予測されるグループ化を決定すること、ビデオセグメントの予測されるグループ化をフィルタ処理することなど。例えば、実行されるNLP技法は、変換器ネットワークを使用して、外科ビデオデータの表現サマリを抽出することを含み得る。例えば、実行されるNLP技法は、3D CNN及び変換器ネットワークを使用して、外科ビデオデータの表現サマリを抽出することを含み得る。
【0122】
例えば、実行されるNLP技法は、NLP技法を使用して、外科ビデオデータの表現サマリを抽出すること、抽出された表現サマリに基づいて、ベクトル表現を生成すること、及びNLP技法を使用して、ビデオセグメントの予測されるグループ化を(例えば、生成されたベクトル表現に基づいて)決定することを含み得る。例えば、実行されるNLP技法は、外科ビデオデータの表現サマリを抽出すること、抽出された表現サマリに基づいて、ベクトル表現を生成すること、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を(例えば、生成されたベクトル表現に基づいて)決定すること、及び自然言語処理を使用して、ビデオセグメントの予測されるグループ化をフィルタ処理することを含み得る。
【0123】
実施例では、外科ビデオは、外科処置と関連付けられ得る。外科ビデオは、外科デバイスから受信され得る。例えば、外科ビデオは、外科コンピューティングシステム、外科ハブ、外科監視システム、外科部位カメラなどから受信され得る。外科ビデオは、記憶装置から受信されてもよく、記憶装置は、外科処置と関連付けられた外科ビデオを含んでもよい。外科ビデオは、(例えば、本明細書で説明されるような)NLP技法を使用して、処理され得る。(例えば、実行されたNLP技法に基づいて決定された)画像及び/又はビデオデータと関連付けられた外科活動は、外科処置のためのそれぞれの外科ワークフローと関連付けられ得る。
【0124】
NLPは、例えば、外科ビデオ中のフェーズ境界を決定するために使用され得る。フェーズ境界は、外科活動間の遷移点であってもよい。例えば、フェーズ境界は、決定された活動が切り替わるビデオ内のポイントであり得る。フェーズ境界は、例えば、外科フェーズが変化する外科ビデオ内のポイントであり得る。フェーズ境界は、例えば、第1の外科フェーズの終了時間及び第1の外科フェーズの後に生じる第2の外科フェーズの開始時間に基づいて、決定されてもよい。フェーズ境界は、第1の外科フェーズの終了時間と第2の外科フェーズの開始時間との間の画像及び/又はビデオセグメントであってもよい。
【0125】
NLPは、例えば、ビデオ中のアイドル期間を決定するために使用され得る。アイドル期間は、外科処置中の不活動と関連付けられ得る。アイドル期間は、ビデオにおける外科活動の欠如と関連付けられ得る。アイドル期間は、例えば、外科処置における遅延に基づいて、外科処置において生じ得る。アイドル期間は、外科処置における外科フェーズの間に生じ得る。アイドル期間は、例えば、類似の外科活動と関連付けられたビデオセグメントの2つのグループの間に生じるように決定され得る。同じ類似の外科活動と関連付けられたビデオセグメントの2つのグループは、(例えば、同じ外科フェーズを2回実行するなど、同じ外科フェーズの2つのインスタンスの代わりに)同じ外科フェーズであると決定され得る。例えば、アイドル期間の前に生じる外科活動は、アイドル期間の後に生じる外科活動と比較され得る。予測結果は、例えば、決定されたアイドル期間に基づいて、絞り込まれ得る。例えば、絞り込まれた予測結果は、アイドル期間が、アイドル期間の前後に生じる外科フェーズと関連付けられていることを示し得る。
【0126】
アイドル期間は、ステップ遷移と関連付けられ得る。例えば、ステップ遷移は、外科フェーズ間の期間であってもよい。ステップ遷移は、外科活動がアイドルであり得る後続の外科フェーズのためのセットアップと関連付けられた期間を含み得る。ステップ遷移は、例えば、2つの異なる外科フェーズの間に生じるアイドル期間に基づいて、決定され得る。
【0127】
外科推奨は、例えば、識別されたアイドル期間に基づいて、生成され得る。例えば、外科推奨は、(例えば、効率に関して)改善され得る外科ビデオ内の領域を示し得る。外科推奨は、将来の外科処置において防止され得るアイドル期間を示し得る。例えば、アイドル期間が、外科ツールの交換が遅延を引き起こすような外科フェーズ中の外科ツール破損と関連付けられている場合、外科推奨は、外科フェーズのためのバックアップ外科ツールを準備する提案を示し得る。
【0128】
例では、NLP技法を使用して、外科ビデオにおいて使用される外科ツールを検出し得る。外科ツールの使用は、画像及び/又はビデオセグメントと関連付けられ得る。予測結果は、外科ツールの使用と関連付けられた開始時間及び/又は終了時間を示し得る。外科ツールの使用は、例えば、外科フェーズなどの外科活動を決定するために使用され得る。例えば、外科フェーズは、外科フェーズと関連付けられた外科ツールが画像及び/又はビデオセグメントのグループ内で検出されるので、画像及び/又はビデオセグメントのグループと関連付けられ得る。予測結果は、例えば、検出された外科ツールに基づいて、決定及び/又は生成されてもよい。
【0129】
実施例では、NLP技法は、ニューラルネットワークを使用して、実行され得る。例えば、NLP技法は、CNN、変換器ネットワーク、及び/又はハイブリッドネットワークを使用して実行され得る。CNNは、3D CNN、CNN-RNN、MS-TCN、2D CNNなどのうちの1つ又は2つ以上を含んでもよい。変換器ネットワークは、ユニバーサル変換器ネットワーク、BERTネットワーク、longformerネットワークなどのうちの1つ又は2つ以上を含み得る。ハイブリッドネットワークは、(例えば、本明細書で説明されるような)CNN又は変換器ネットワークの任意の組み合わせを有するニューラルネットワークを含み得る。実施例では、NLP技法は、時空間モデリングと関連付けられ得る。時空間モデリングは、BERT(ViT-BERT)ネットワーク)(ViT-)ネットワーク、TimeSformerネットワーク、R(2+1)Dネットワーク、R(2+1)D-BERTネットワーク、3DConvNetネットワークなどと関連付けられ得る。
【0130】
複数の例において、コンピューティングシステムは、ビデオ分析及び外科ワークフローフェーズ認識のために使用され得る。コンピューティングシステムは、プロセッサを含み得る。コンピューティングシステムは、命令を記憶するメモリを含んでもよい。プロセッサは、抽出を実行してもよい。プロセッサは、1つ又は2つ以上の表現サマリを抽出するように構成され得る。プロセッサは、例えば、ビデオデータの1つ又は2つ以上のデータセットから、1つ又は2つ以上の表現サマリを抽出してもよい。ビデオデータは、1つ又は2つ以上の外科処置と関連付けられ得る。プロセッサは、例えば、1つ又は2つ以上の表現サマリに対応するベクトル表現を生成するように構成されてもよい。プロセッサは、セグメント化を実行してもよい。プロセッサは、例えば、ビデオセグメントの予測されるグループ化を認識するために、ベクトル表現を分析するように構成されてもよい。各ビデオセグメントは、1つ又は2つ以上の外科処置の論理的ワークフローフェーズを表し得る。プロセッサは、フィルタ処理を実行し得る。プロセッサは、ビデオセグメントの予測されるグループ化にフィルタを適用するように構成され得る。フィルタは、ノイズフィルタであってもよい。プロセッサは、例えば、抽出、セグメント化、又はフィルタ処理のうちの1つ又は2つ以上(例えば、少なくとも1つ)とともに、NLP技法を使用するように構成され得る。実施例では、コンピューティングシステムは、変換器ネットワークを使用して、抽出、セグメント化、又はフィルタ処理のうちの少なくとも1つを実行する。
【0131】
例えば、コンピューティングシステムは、抽出を実行し得る。コンピューティングシステムは、NLP技法を使用して、抽出を実行し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)CNNを用いて、抽出を実行してもよい。コンピューティングシステムは、(例えば、本明細書で説明されるように)変換器ネットワークを用いて、抽出を実行し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)ハイブリッドネットワークを用いて、抽出を実行し得る。例えば、コンピューティングシステムは、抽出に関連して、時空間学習を使用し得る。
【0132】
例えば、抽出は、フレームごと及び/又はセグメントごとの分析を実行することを含んでもよい。コンピューティングシステムは、外科処置と関連付けられたビデオデータの1つ又は2つ以上のデータセットのフレームごと及び/又はセグメントごとの分析を実行し得る。例えば、抽出は、時系列モデルを適用することを含み得る。コンピューティングシステムは、例えば、外科処置と関連付けられたビデオデータの1つ又は2つ以上のデータセットに時系列モデルを適用し得る。例えば、抽出は、例えば、フレームごと及び/又はセグメントごとの分析に基づいて、表現サマリを抽出することを含んでもよい。例えば、抽出は、例えば、表現サマリを連結することによって、ベクトル表現を生成することを含んでもよい。
【0133】
例えば、コンピューティングシステムは、セグメント化を実行し得る。コンピューティングシステムは、NLP技法を使用して、セグメント化を実行し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)CNNを用いて、セグメント化を実行してもよい。コンピューティングシステムは、(例えば、本明細書で説明されるように)変換器ネットワークを用いて、セグメント化を実行し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)ハイブリッドネットワークを用いて、セグメント化を実行し得る。例えば、コンピューティングシステムは、抽出に関連付けられた空間学習を使用し得る。実施例では、コンピューティングシステムは、MS-TCNアーキテクチャ、長期短期記憶(LSTM)アーキテクチャ、及び/又は再帰型ニューラルネットワークを使用して、セグメント化を実行し得る。
【0134】
例えば、コンピューティングシステムは、フィルタ処理を実行し得る。コンピューティングシステムは、NLP技法を使用して、フィルタ処理を実行し得る。コンピューティングシステムは、(例えば、本明細書に説明されるように)CNN、変換器ネットワーク、又はハイブリッドネットワークを用いて、フィルタ処理を実行してもよい。コンピューティングシステムは、例えば、ルールのセットを使用して、フィルタ処理を実行し得る。コンピューティングシステムは、平滑フィルタを使用して、フィルタ処理を実行し得る。コンピューティングシステムは、事前知識ノイズフィルタ処理(PKNF)を使用して、フィルタ処理を実行し得る。PKNFは、履歴データに基づいて、使用され得る。履歴データは、外科フェーズ順序、外科フェーズ発生率、外科フェーズ時間などのうちの1つ又は2つ以上と関連付けられ得る。
【0135】
実施例では、ビデオデータは、外科ビデオに対応し得る。ビデオデータのデータセットは、外科処置と関連付けられ得る。外科処置は、以前に行われていてもよく、又は進行中(例えば、ライブ外科処置)であってもよい。コンピューティングシステムは、ビデオセグメントの予測されるグループ化を認識するために、抽出及び/又はセグメント化を実行し得る。ビデオセグメントの各予測されるグループ化は、外科処置の論理的ワークフローフェーズを表し得る。各論理的ワークフローフェーズは、ビデオから検出されたイベント及び/又は外科ビデオ内の外科ツール検出に対応し得る。
【0136】
実施例では、コンピューティングシステムは、外科処置のフェーズを識別(例えば、自動的に識別)し得る。コンピューティングシステムは、ビデオデータを取得し得る。ビデオデータは、外科処置と関連付けられた外科的ビデオデータであり得る。コンピューティングシステムは、例えば、ビデオデータに対して抽出を実行し得る。コンピューティングシステムは、外科処置と関連付けられたビデオデータから、表現サマリを抽出し得る。コンピューティングシステムは、ベクトル表現を生成し得る。ベクトル表現は、表現サマリに対応し得る。コンピューティングシステムは、例えば、ベクトル表現を分析するために、セグメント化を実行し得る。コンピューティングシステムは、例えば、セグメント化に基づいて、ビデオセグメントの予測されるグループ化を認識し得る。各ビデオセグメントは、1つ又は2つ以上の外科処置の論理的ワークフローを表し得る。コンピューティングシステムは、NLP技法を使用し得る。例えば、コンピューティングシステムは、抽出又はセグメント化のうちの少なくとも1つと関連付けられたNLP技法を使用し得る。
【0137】
実施例では、コンピューティングシステムは、時空間分析に関連して、NLP技法を使用し得る。コンピューティングシステムは、抽出及びセグメント化に関連して、NLP技法を使用し得る。コンピューティングシステムは、NLP技法を使用して、例えば、抽出から出力されたデータに基づいて、NLP符号化表現を生成し得る。コンピューティングシステムは、NLP符号化表現に対してセグメント化を実行してもよい。コンピューティングシステムは、NLP技法を使用して、例えば、ビデオセグメントの予測されるグループ化のNLP復号化サマリを生成し得る。コンピューティングシステムは、NLP技法を使用して、例えば、セグメント化から出力されたデータに基づいて、ビデオセグメントの予測されるグループ化のNLP復号化サマリを生成し得る。コンピューティングシステムは、ビデオセグメントの予測されるグループ化のNLP復号化サマリに対してフィルタ処理を実行し得る。
【0138】
実施例では、コンピューティングシステムは、抽出中にNLP技法を使用し得る。コンピューティングシステムは、例えば、抽出を置き換えるために、NLP技法を使用し得る。コンピューティングシステムは、抽出の後及びセグメント化の前に、NLP技法を使用し得る。例えば、コンピューティングシステムは、NLP技法を使用して、例えば、抽出によって出力されたデータに基づいて、NLP符号化表現サマリを生成してもよい。コンピューティングシステムは、セグメント化中にNLP技法を使用し得る。コンピューティングシステムは、例えば、抽出を置き換えるために、NLP技法を使用し得る。コンピューティングシステムは、セグメント化の後及びフィルタ処理の前に、NLP技法を使用し得る。例えば、コンピューティングシステムは、NLP技法を使用して、例えば、セグメント化モジュールによって出力されたデータに基づいて、ビデオセグメントの予測されるグループ化の復号されたNLP復号化サマリを生成し得る。
【0139】
実施例では、コンピューティングシステムは、例えば、NLP技法を使用して、外科処置のフェーズを識別(例えば、自動的に識別)し得る。コンピューティングシステムは、時空間分析のために、NLP技法を使用し得る。例えば、コンピューティングシステムは、ビデオデータの1つ又は2つ以上のデータセットを取得し得る。コンピューティングシステムは、ビデオデータの1つ又は2つ以上のデータセットに対する時空間分析のために、NLP技法を使用し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)抽出を実行するために、NLP技法を使用し得る。コンピューティングシステムは、(例えば、本明細書で説明されるように)セグメント化を実行するために、NLP技法を使用し得る。コンピューティングシステムは、外科処置のフェーズを識別するためのエンドツーエンドモデルとして、NLP技法を使用し得る。例えば、エンドツーエンドモデルは、(例えば、単一の)エンドツーエンド変換器ベースのモデルを含み得る。
【0140】
実施例では、コンピューティングシステムは、外科ビデオに対してワークフロー認識を実行してもよい。例えば、コンピューティングシステムは、IP-CSNを使用して、抽出を実行し得る。コンピューティングシステムは、IP-CSNを使用して、例えば、空間情報及び/又はローカル時間情報を含む特徴を抽出し得る。コンピューティングシステムは、例えば、外科ビデオの1つ又は2つ以上の時間セグメントを使用して、セグメントごとに特徴を抽出し得る。コンピューティングシステムは、例えば、外科ビデオからグローバル時間情報をキャプチャするために、MS-TCNを使用し得る。グローバル時間情報は、外科ビデオ全体と関連付けられ得る。コンピューティングシステムは、例えば、抽出された特徴を使用して、MS-TCNを訓練し得る。コンピューティングシステムは、例えば、PKNFを使用して、フィルタ処理を実行し得る。コンピューティングシステムは、例えば、ノイズをフィルタ処理するために、PKNFを使用して、フィルタ処理を実行し得る。コンピューティングシステムは、MS-TCNの出力からノイズをフィルタ処理し得る。
【0141】
コンピューティングシステムは、(例えば、本明細書で説明されるように)外科のコンテキストにおいて、NLP技法を使用して、ビデオ分析及び/又はワークフロー認識を実行し得るが、ビデオ分析及び/又はワークフロー認識は、外科ビデオに限定されない。(例えば、本明細書で説明されるように)NLP技法を使用するビデオ分析及び/又はワークフロー認識は、外科コンテキストに関連しない他のビデオデータに適用され得る。
【0142】
〔実施の態様〕
(1) コンピューティングシステムであって、
プロセッサを備え、前記プロセッサが、
複数の画像を含む外科ビデオデータを取得し、
前記複数の画像を複数の外科活動と関連付けるために、前記外科ビデオデータに対して自然言語処理を実行し、かつ
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成するように構成されており、前記予測結果が、前記外科ビデオデータにおける前記複数の外科活動の開始時間及び終了時間を示すように構成されている、コンピューティングシステム。
(2) 前記実行された自然言語処理が、
変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、実施態様1に記載のコンピューティングシステム。
(3) 前記実行された自然言語処理が、
三次元畳み込みニューラルネットワーク(3D CNN)及び変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、実施態様1に記載のコンピューティングシステム。
(4) 前記実行された自然言語処理が、
自然言語処理を使用して、前記外科ビデオデータの表現サマリを抽出することであって、自然言語処理を使用して抽出することが、変換器と関連付けられている、抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を決定することと、を含む、実施態様1に記載のコンピューティングシステム。
(5) 前記実行された自然言語処理が、
前記外科ビデオデータの表現サマリを抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、ビデオセグメントの予測されるグループ化を決定することと、
自然言語処理を使用して、前記ビデオセグメントの予測されるグループ化をフィルタ処理することと、を含む、実施態様1に記載のコンピューティングシステム。
【0143】
(6) 前記予測結果が、注釈付き外科ビデオ又は前記外科ビデオと関連付けられたメタデータのうちの少なくとも1つを含む、実施態様1に記載のコンピューティングシステム。
(7) 前記自然言語処理が、
自然言語処理を使用して、前記複数の外科活動と関連付けられたフェーズ境界を決定することであって、前記フェーズ境界が、第1の外科フェーズと第2の外科フェーズとの間の境界を示す、決定すること、並びに
出力を生成することであって、前記出力が、第1の外科フェーズ開始時間、第1の外科フェーズ終了時間、第2の外科フェーズ開始時間、及び第2の外科フェーズ終了時間を示す、生成すること、と関連付けられている、実施態様1に記載のコンピューティングシステム。
(8) 前記自然言語処理が、
アイドル期間を識別することであって、前記アイドル期間が、前記外科処置中の不活動と関連付けられている、識別すること、
出力を生成することであって、前記出力が、アイドル開始時間及びアイドル終了時間を示す、生成すること、並びに
前記識別されたアイドル期間に基づいて、前記予測結果を絞り込むこと、と関連付けられている、実施態様1に記載のコンピューティングシステム。
(9) 前記プロセッサが、
前記識別されたアイドル期間に基づいて、外科処置改善推奨を生成するように更に構成されている、実施態様8に記載のコンピューティングシステム。
(10) 前記複数の外科活動が、外科イベント、外科フェーズ、外科タスク、外科ステップ、アイドル期間、又は外科ツールの使用のうちの1つ又は2つ以上を示す、実施態様1に記載のコンピューティングシステム。
【0144】
(11) 前記ビデオデータが、外科デバイスから受信され、前記外科デバイスが、外科コンピューティングシステム、外科ハブ、外科部位カメラ、又は外科監視システムである、実施態様1に記載のコンピューティングシステム。
(12) 前記自然言語処理が、前記ビデオデータ内の外科ツールを検出することと関連付けられ、前記予測結果が、前記外科処置における前記外科ツールの使用と関連付けられた開始時間、及び前記外科処置における前記外科ツールの前記使用と関連付けられた終了時間を示すように構成されている、実施態様1に記載のコンピューティングシステム。
(13) 方法であって、
複数の画像を含む外科ビデオデータを取得することと、
前記複数の画像を複数の外科活動と関連付けるために、前記外科ビデオデータに対して自然言語処理を実行することと、
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成することと、を含み、前記予測結果が、前記外科ビデオデータにおける前記複数の外科活動の開始時間及び終了時間を示すように構成されている、方法。
(14) 自然言語処理を実行することが、
変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、実施態様13に記載の方法。
(15) 自然言語処理を実行することが、
三次元畳み込みニューラルネットワーク(3D CNN)及び変換器ネットワークを使用して、前記外科ビデオデータの表現サマリを抽出することを含む、実施態様13に記載の方法。
【0145】
(16) 自然言語処理を実行することが、
自然言語処理を使用して、前記外科ビデオデータの表現サマリを抽出することであって、自然言語処理を使用して抽出することが、変換器と関連付けられている、抽出することと、
前記抽出された表現サマリに基づいて、ベクトル表現を生成することと、
前記生成されたベクトル表現に基づいて、自然言語処理を使用して、ビデオセグメントの予測されるグループ化を決定することと、を含む、実施態様13に記載の方法。
(17) 前記予測結果が、注釈付き外科ビデオ又は前記外科ビデオと関連付けられたメタデータのうちの少なくとも1つを含む、実施態様13に記載の方法。
(18) 自然言語処理を実行することが、
自然言語処理を使用して、前記複数の外科活動と関連付けられたフェーズ境界を決定することであって、前記フェーズ境界が、第1の外科フェーズと第2の外科フェーズとの間の境界を示す、決定すること、並びに
出力を生成することであって、前記出力が、第1の外科フェーズ開始時間、第1の外科フェーズ終了時間、第2の外科フェーズ開始時間、及び第2の外科フェーズ終了時間を示す、生成すること、と関連付けられている、実施態様13に記載の方法。
(19) 自然言語処理を実行することが、
アイドル期間を識別することであって、前記アイドル期間が、前記外科処置中の不活動と関連付けられている、識別すること、
出力を生成することであって、前記出力が、アイドル開始時間及びアイドル終了時間を示す、生成すること、並びに
前記識別されたアイドル期間に基づいて、前記予測結果を絞り込むこと、と関連付けられている、実施態様13に記載の方法。
(20) コンピューティングシステムであって、
プロセッサを備え、前記プロセッサが、
複数の画像を含むビデオデータを取得し、
自然言語処理ネットワークを少なくとも部分的に使用して、前記ビデオデータの表現サマリを抽出し、
前記抽出された表現に基づいて、複数のワークフロー活動と関連付けられたビデオセグメントの予測されるグループ化を決定し、かつ
前記実行された自然言語処理に少なくとも部分的に基づいて、予測結果を生成するように構成されており、前記予測結果が、前記外科ビデオデータにおける前記複数のワークフロー活動の開始時間及び終了時間を示すように構成されている、コンピューティングシステム。
【国際調査報告】