(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-18
(54)【発明の名称】深層学習ベースのリアルタイム残存手術時間(RSD)推定
(51)【国際特許分類】
A61B 34/10 20160101AFI20240311BHJP
【FI】
A61B34/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023558189
(86)(22)【出願日】2022-01-18
(85)【翻訳文提出日】2023-10-04
(86)【国際出願番号】 IB2022050386
(87)【国際公開番号】W WO2022200864
(87)【国際公開日】2022-09-29
(32)【優先日】2021-03-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516133124
【氏名又は名称】バーブ サージカル インコーポレイテッド
【氏名又は名称原語表記】Verb Surgical Inc.
(74)【代理人】
【識別番号】100088605
【氏名又は名称】加藤 公延
(74)【代理人】
【識別番号】100130384
【氏名又は名称】大島 孝文
(72)【発明者】
【氏名】ファソラヒ・ゲゼルギエ・モナ
(72)【発明者】
【氏名】バーカー・ジョセリン・エレイン
(72)【発明者】
【氏名】ガルシア・キルロイ・パブロ・エドゥアルド
(57)【要約】
本明細書に記載される実施形態は、所与の外科的処置のライブ手術セッションのリアルタイム残存手術時間(RSD)を、ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、連続的に予測するための手術時間推定システムを提供する。一態様では、プロセスは、ライブ手術セッションの現在時刻における内視鏡ビデオの現在のフレームを受信し、現在時刻は、ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある。プロセスは次に、ライブ手術セッションの開始に対応する内視鏡ビデオの開始と現在時刻に対応する現在のフレームとの間の、ライブ手術セッションの経過部分に対応する内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングする。プロセスは、次いで、N-1個のランダムにサンプリングされたフレームと現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得する。次に、プロセスは、N個のフレームのセットを、所与の外科的処置のための訓練済みモデルへと供給する。その後、プロセスは、N個のフレームのセットに基づいて現在のRSD予測を出力する。
【特許請求の範囲】
【請求項1】
外科的処置のライブ手術セッションの残存手術時間(RSD)を、前記ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するためのコンピュータ実装方法であって、
前記ライブ手術セッションの現在時刻における前記内視鏡ビデオの現在のフレームを受信することであって、前記現在時刻は、前記ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある、受信することと、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記N個のフレームのセットを、前記外科的処置のための訓練済みRSD機械学習(ML)モデルに供給することと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を出力することと、
を含む、コンピュータ実装方法。
【請求項2】
前記N-1個のランダムにサンプリングされたフレームが、前記ライブ手術セッションの前記経過部分中に発生した様々な事象の十分に正確なスナップショットを提供するように、Nが十分に大きくなるように選択される、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記ライブ手術セッションの前記経過部分をランダムにサンプリングすることは、連続RSD予測を行っている間に、前記内視鏡ビデオ内の所与のフレームを異なる予測タイムポイントにおいて2回以上サンプリングすることを可能にする、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記方法は、前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルを使用して、前記ライブ手術セッションの完了率の予測を生成することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記方法は、
現在のRSD予測のセットを生成するために、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングするステップと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得するステップと、
前記N個のフレームのセットを、訓練済みRSD MLモデルに供給するステップと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を生成するステップと、
を複数回繰り返すことと、
前記現在のRSD予測のセットの平均値及び分散値を計算することと、
前記計算された平均値及び分散値を前記現在のRSD予測として使用することによって、前記現在のRSD予測を改善することと、
によって、前記現在時刻における前記現在のRSD予測を改善すること、を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記方法は、
前記内視鏡ビデオ内の予測タイムポイントの前記シーケンスに対応するリアルタイムRSD予測の連続シーケンスを生成することと、
リアルタイムRSD予測の前記シーケンスにおける高周波ジッタを除去することによって前記RSD予測を平滑化するために、リアルタイムRSD予測の前記シーケンスにローパスフィルタを適用することと、
によって、前記RSD予測を改善すること、を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記方法は、
前記外科的処置のトレーニングビデオのセットを受信することであって、トレーニングビデオの前記セット内の各ビデオは、前記外科的処置に熟練した外科医によって実行される前記外科的処置の実行に対応する、受信することと、
トレーニングビデオの前記セット内の各トレーニングビデオについて、所定の時間間隔に従って、前記トレーニングビデオ全体にわたる等間隔のタイムポイントのシーケンスにおいてトレーニングデータ生成ステップのシーケンスを実行することによって、ラベル付けされたトレーニングデータのセットを構築することであって、タイムポイントの前記シーケンス内の対応するタイムポイントにおけるトレーニングデータ生成ステップの前記シーケンス内の各トレーニングデータ生成ステップが、
前記対応するタイムポイントにおける前記トレーニングビデオの現在のフレームを受信することと、
前記トレーニングビデオの開始と前記現在のフレームとの間の、前記手術セッションの前記経過部分に対応する前記トレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記現在のフレームに関連付けられたラベルで、前記N個のフレームのセットにラベル付けすることと、
を含む、構築することと、
トレーニングビデオの前記セットに関連付けられたラベル付けされたトレーニングデータの複数のセットを出力することと、
によって、トレーニングデータセットを生成すること、
を更に含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記方法は、
畳み込みニューラルネットワーク(CNN)モデルを受信することと、
ラベル付けされたトレーニングデータの前記複数のセットを含む前記トレーニングデータセットを用いて前記CNNモデルを訓練することと、
前記訓練されたCNNモデルに基づいて前記訓練済みRSD MLモデルを取得することと、
によって、前記訓練済みRSD MLモデルを確立することを更に含む、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記方法は、前記トレーニングデータセットを生成する前に、
前記トレーニングビデオ内の各ビデオフレームについて、
前記ビデオフレームから前記トレーニングビデオの終了までの残存手術時間を自動的に判定することと、
前記ビデオフレームの前記ラベルとして、前記判定された残存手術時間で前記ビデオフレームに自動的に注釈を付けることと、
によって、トレーニングビデオの前記セット内の各トレーニングビデオにラベル付けすることを更に含む、請求項7に記載のコンピュータ実装方法。
【請求項10】
前記現在のフレームに関連付けられた前記ラベルは、分単位の関連付けられた残存手術時間を含む、請求項7に記載のコンピュータ実装方法。
【請求項11】
前記CNNモデルは、ビデオフレームのシーケンスを単一の入力として受信するように構成された動作認識ネットワークアーキテクチャ(I3d)を含む、請求項8に記載のコンピュータ実装方法。
【請求項12】
前記トレーニングデータセットを用いて前記CNNモデルを訓練することは、検証データセットに対して前記CNNモデルを評価することを含む、請求項8に記載のコンピュータ実装方法。
【請求項13】
外科的処置のライブ手術セッションの残存手術時間(RSD)を、前記ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するためのシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサに結合されたメモリであって、前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記ライブ手術セッションの現在時刻における前記内視鏡ビデオの現在のフレームを受信することであって、前記現在時刻は、前記ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある、受信することと、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記N個のフレームのセットを、前記外科的処置のための訓練済みRSD機械学習(ML)モデルに供給することと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を出力することと、
を行わせる、命令を記憶している、メモリと、
を備える、システム。
【請求項14】
前記N-1個のランダムにサンプリングされたフレームが、前記ライブ手術セッションの前記経過部分中に発生した様々な事象の十分に正確なスナップショットを提供するように、Nが十分に大きくなるように選択される、請求項13に記載のシステム。
【請求項15】
前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
現在のRSD予測のセットを生成するために、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングするステップと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得するステップと、
前記N個のフレームのセットを、訓練済みRSD MLモデルに供給するステップと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を生成するステップと、
を複数回繰り返すことと、
前記現在のRSD予測のセットの平均値及び分散値を計算することと、
前記計算された平均値及び分散値を前記現在のRSD予測として使用することによって、前記現在のRSD予測を改善することと、
によって、前記現在時刻における前記現在のRSD予測を改善させる命令を更に記憶している、請求項13に記載のシステム。
【請求項16】
前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記内視鏡ビデオ内の予測タイムポイントの前記シーケンスに対応するリアルタイムRSD予測の連続シーケンスを生成することと、
リアルタイムRSD予測の前記シーケンスにおける高周波ジッタを除去することによって前記RSD予測を平滑化するために、リアルタイムRSD予測の前記シーケンスにローパスフィルタを適用することと、
によって、前記RSD予測を改善させる命令を更に記憶している、請求項13に記載のシステム。
【請求項17】
前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記外科的処置のトレーニングビデオのセットを受信することであって、トレーニングビデオの前記セット内の各ビデオは、前記外科的処置に熟練した外科医によって実行される前記外科的処置の実行に対応する、受信することと、
トレーニングビデオの前記セット内の各トレーニングビデオについて、所定の時間間隔に従って、前記トレーニングビデオ全体にわたる等間隔のタイムポイントのシーケンスにおいてトレーニングデータ生成ステップのシーケンスを実行することによって、ラベル付けされたトレーニングデータのセットを構築することであって、タイムポイントの前記シーケンス内の対応するタイムポイントにおけるトレーニングデータ生成ステップの前記シーケンス内の各トレーニングデータ生成ステップが、
前記対応するタイムポイントにおける前記トレーニングビデオの現在のフレームを受信することと、
前記トレーニングビデオの開始と前記現在のフレームとの間の、前記外科的処置の前記経過部分に対応する前記トレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記現在のフレームに関連付けられたラベルで、前記N個のフレームのセットにラベル付けすることと、
を含む、構築することと、
トレーニングビデオの前記セットに関連付けられたラベル付けされたトレーニングデータの複数のセットを出力することと、
によって、トレーニングデータセットを生成させる命令を更に記憶している、請求項13に記載のシステム。
【請求項18】
前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
畳み込みニューラルネットワーク(CNN)モデルを受信することと、
トレーニングビデオの前記セットに対応するラベル付けされたトレーニングデータの前記複数のセットを含む前記トレーニングデータセットを用いて前記CNNモデルを訓練することと、
前記訓練されたCNNモデルに基づいて前記訓練済みRSD MLモデルを取得することと、
によって、前記訓練済みRSD MLモデルを確立させる命令を更に記憶している、請求項17に記載のシステム。
【請求項19】
前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
ラベル付けされたトレーニングデータの前記複数のセット内のラベル付けされたトレーニングデータの各セットから1つのラベル付けされたトレーニングデータをランダムに選択することと、
ランダムに選択されたラベル付けされたトレーニングデータの前記セットを組み合わせて、トレーニングデータのバッチを形成することと、
トレーニングデータの前記バッチを用いて前記CNNモデルを訓練して、前記CNNモデルを更新することと、
によって、ラベル付けされたトレーニングデータの前記複数のセットを用いて前記CNNモデルを訓練させる命令を更に記憶している、請求項18に記載のシステム。
【請求項20】
前記CNNモデルは、ビデオフレームのシーケンスを単一の入力として受信するように構成された動作認識ネットワークアーキテクチャ(I3d)を含む、請求項18に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、機械学習ベースの外科的処置分析ツールを構築することに関し、より具体的には、内視鏡ビデオフィードに基づいて外科的処置のライブ手術セッション中に深層学習ベースのリアルタイム残存手術時間(RSD)推定を実行するためのシステム、デバイス、及び技法に関する。
【背景技術】
【0002】
手術室(operating room、OR)コストは、最も高い医療コスト及びヘルスケア関連のコストのうちの1つである。ヘルスケア支出が急騰するとともに、ORコストを削減し、OR効率性を向上させることを目的としたORコスト管理が、ますます重要な研究対象となっている。ORコストは、1分当たりのコスト構造に基づいて測定されることが多い。例えば、ある2005年の研究には、ORコストは1分当たり22ドル~133ドルの範囲であり、平均コストが1分当たり62ドルであることが示されている。この1分当たりのコスト構造において、所与の外科的処置のORコストは、外科的処置の所要時間/長さに正比例する。したがって、正確な手術時間推定は、効率的なOR管理システムを構築する際に重要な役割を果たす。ORチームが手術時間を長く推定した場合、高価なORリソースの利用が不十分になることに留意されたい。一方、手術時間が短く推定された場合、他のORチーム及び患者の待機時間が長くなる。しかしながら、手術時間を正確に予測することは、患者の多様性、外科医の技能、及び他の予測不可能な要因に起因して、非常に困難である。
【0003】
上記の問題に対する1つの解決策は、腹腔鏡ビデオフィードから残存手術時間(remaining surgery duration、RSD)を自動的に推定するために機械学習を使用することである。例えば、既存のRSD推定技術は、トレーニングデータセットの各フレームに、予め定義された手術フェーズを手動でラベル付けする。次いで、教師あり機械学習モデルが、トレーニングデータセット内の各タイムスタンプにおける手術フェーズを推定するように、そのトレーニングデータセットに基づいて訓練される。次に、トレーニングデータセットにわたる各手術フェーズの統計を利用することによって、現在の手術フェーズを終了するための残りの時間を推定することができる。現在のタイムスタンプにおいてどのフェーズが完了しているかを推定することと組み合わせた推定を使用して、RSDが推定される。残念ながら、この技法は、トレーニングセット内のフレームの各々に手動でラベル付けすることを必要とし、これは労働集約的であり、高価である。
【0004】
別の既存のRSD推定技術は、手術フェーズの注釈付けに依存しない。この手法では、機械学習モデルへの入力は単一のフレームである。しかしながら、機械学習モデルが、単一のフレームの前に何が起こったかを単一のフレーム自体だけから予測することは極めて困難である。この問題に対処するために、回帰型ニューラルネットワークの異なる変形形態を教師なし手法において利用して、以前のフレームを暗黙的にカプセル化して隠れ状態にする。残念ながら、手術ビデオは通常非常に長く、何千ものフレームを複数の隠れ状態として表すように機械学習モデルに教えることは簡単ではないので、この手法のRSD予測精度は依然として不十分である。
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書に記載されるいくつかの実施形態は、所与の外科的処置のライブ手術セッションの残存手術時間(RSD)を、ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するための手術時間推定システムの様々な例を提供する。特定の実施形態では、開示されるRSD予測システムは、ライブ手術セッションの現在時刻における内視鏡ビデオの現在のフレームを受信し、現在時刻は、ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある。RSD予測システムは、次に、ライブ手術セッションの開始に対応する内視鏡ビデオの開始と現在時刻に対応する現在のフレームとの間の、ライブ手術セッションの経過部分に対応する内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングする。RSD予測システムは、次いで、N-1個のランダムにサンプリングされたフレームと現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得する。次に、システムは、N個のフレームのセットを、所与の外科的処置のための訓練済み機械学習モデルへと供給する。その後、RSD予測システムは、N個のフレームのセットに基づいて現在のRSD予測を出力する。
【0006】
いくつかの実施形態では、N-1個のランダムにサンプリングされたフレームが、ライブ手術セッションの経過部分中に発生した様々な事象の十分に正確なスナップショットを提供するように、Nが十分に大きくなるように選択される。
【0007】
いくつかの実施形態では、ライブ手術セッションの経過部分をランダムにサンプリングすることは、連続RSD予測を行っている間に、内視鏡ビデオ内の所与のフレームを異なる予測タイムポイントにおいて2回以上サンプリングすることを可能にする。
【0008】
いくつかの実施形態では、RSD予測システムはまた、N個のフレームのセットに基づいて、訓練済みRSD MLモデルを使用して、ライブ手術セッションの完了率の予測を生成する。
【0009】
いくつかの実施形態では、RSD予測システムは、現在のRSD予測のセットを生成するために、(1)ライブ手術セッションの開始に対応する内視鏡ビデオの開始と現在時刻に対応する現在のフレームとの間の、ライブ手術セッションの経過部分に対応する内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングするステップと、N-1個のランダムにサンプリングされたフレームと現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得するステップと、N個のフレームのセットを、訓練済みRSD MLモデルに供給するステップと、N個のフレームのセットに基づいて、訓練済みRSD MLモデルから現在のRSD予測を生成するステップと、を複数回繰り返すことと、によって、現在時刻における現在のRSD予測を改善する。次に、RSD予測システムは、現在のRSD予測のセットの平均値及び分散値を計算する。その後、RSD予測システムは、計算された平均値及び分散値を現在のRSD予測として使用することによって、現在のRSD予測を改善する。
【0010】
いくつかの実施形態では、RSD予測システムは、内視鏡ビデオ内の予測タイムポイントのシーケンスに対応するリアルタイムRSD予測の連続シーケンスを生成することと、リアルタイムRSD予測のシーケンスにおける高周波ジッタを除去することによってRSD予測を平滑化するために、リアルタイムRSD予測のシーケンスにローパスフィルタを適用することと、によって、RSD予測を更に改善する。
【0011】
いくつかの実施形態では、RSD予測システムは、最初に、外科的処置のトレーニングビデオのセットを受信することによって、トレーニングデータセットを生成し、トレーニングビデオのセット内の各ビデオは、外科的処置に熟練した外科医によって実行される外科的処置の実行に対応する。次に、トレーニングビデオのセット内の各トレーニングビデオについて、RSD予測システムは、所定の時間間隔に従って、トレーニングビデオ全体にわたる等間隔のタイムポイントのシーケンスにおいてトレーニングデータ生成ステップのシーケンスを実行することによって、ラベル付けされたトレーニングデータのセットを構築する。より具体的には、タイムポイントのシーケンス内の対応するタイムポイントにおけるトレーニングデータ生成ステップのシーケンス内の各トレーニングデータ生成ステップは、(1)対応するタイムポイントにおけるトレーニングビデオの現在のフレームを受信することと、(2)トレーニングビデオの開始と現在のフレームとの間の、手術セッションの経過部分に対応するトレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、(3)N-1個のランダムにサンプリングされたフレームと現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、(4)現在のフレームに関連付けられたラベルで、N個のフレームのセットにラベル付けすることと、を含む。最後に、RSD予測システムは、トレーニングビデオのセットに関連付けられたラベル付けされたトレーニングデータの複数のセットを出力する。
【0012】
いくつかの実施形態では、RSD予測システムは、(1)畳み込みニューラルネットワーク(convolutional neural network、CNN)モデルを受信することと、(2)ラベル付けされたトレーニングデータの複数のセットを含むトレーニングデータセットを用いてCNNモデルを訓練することと、(3)訓練されたCNNモデルに基づいて訓練済みRSD MLモデルを取得することと、によって、訓練済みRSD MLモデルを確立する。
【0013】
いくつかの実施形態では、RSD予測システムは、トレーニングデータセットを生成する前に、トレーニングビデオ内の各ビデオフレームについて、ビデオフレームからトレーニングビデオの終了までの残存手術時間を自動的に判定することと、ビデオフレームのラベルとして、判定された残存手術時間でビデオフレームに自動的に注釈を付けることと、によって、トレーニングビデオのセット内の各トレーニングビデオにラベル付けするように更に構成されている。
【0014】
いくつかの実施形態では、現在のフレームに関連付けられたラベルは、分単位の関連付けられた残存手術時間を含む。
【0015】
いくつかの実施形態では、CNNモデルは、ビデオフレームのシーケンスを単一の入力として受信するように構成された動作認識ネットワークアーキテクチャ(I3d)を含む。
【0016】
いくつかの実施形態では、トレーニングデータセットを用いてCNNモデルを訓練することは、検証データセットに対してCNNモデルを評価することを含む。
【0017】
本明細書に記載されるいくつかの実施形態はまた、リアルタイムRSD予測を行うための訓練済みRSD予測モデルを構築するためのRSD予測モデルトレーニングシステムの様々な例を提供する。特定の実施形態では、開示されるRSD予測モデルトレーニングシステムは、標的の外科的処置を同様に実行することができる多数の外科医によって実行される標的の外科的処置のトレーニングビデオのセットを受信する。次に、開示されるモデルトレーニングシステムは、計算リソース制限に基づいて、受信されたトレーニングビデオのセットからトレーニングビデオのサブセットをランダムに選択する。開示されるモデルトレーニングシステムは、その後、トレーニングビデオのサブセットに基づいて反復モデル調整手順を開始する。具体的には、各所与の反復において、開示されるモデルトレーニングシステムは、トレーニングビデオのサブセットの各々から、所与のトレーニングビデオの開始と終了との間のタイムスタンプを選択する。その後、開示されるモデルトレーニングシステムは、ランダムに選択されたタイムスタンプのセットに基づいて、トレーニングビデオのサブセットの各々におけるビデオフレームを抽出する。
【0018】
次に、トレーニングビデオのサブセットの各々においてランダムに選択された各ビデオフレームについて、開示されるモデルトレーニングシステムは、トレーニングビデオの開始とランダムに選択されたビデオフレームとの間のトレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、N-1個のランダムにサンプリングされたフレームとランダムに選択されたビデオフレームとを時間的順序で組み合わせることとによって、対応するトレーニングビデオ内の所与のビデオフレームに対するN個のフレームのセットを構築する。このようにして、開示されるモデルトレーニングシステムは、トレーニングビデオのサブセットから抽出されたN個のフレームのセットを含むトレーニングデータのバッチを生成する。その後、開示されるモデルトレーニングシステムは、トレーニングデータのバッチを使用して、RSD予測モデルのモデルパラメータを更新する。次に、開示されるモデルトレーニングシステムは、モデルトレーニングプロセスの別の反復が必要であるかどうかを判定するために、検証データセットに対して、更新されたRSD予測モデルを評価する。次に、リアルタイムRSD予測システム及びRSD予測モデルトレーニングシステムの異なる実施形態について以下により詳細に説明する。
【0019】
いくつかの実施形態では、RSD予測モデルトレーニングシステムは、トレーニングビデオのセットに対応するラベル付けされたトレーニングデータの複数のセットを使用して、RSD予測モデルを訓練するように構成されている。より具体的には、RSD予測モデルは、ラベル付けされたトレーニングデータの複数のセット内のラベル付けされたトレーニングデータの各セットから1つのラベル付けされたトレーニングデータをランダムに選択することと、ランダムに選択されたラベル付けされたトレーニングデータのセットを組み合わせて、トレーニングデータのバッチを形成することと、RSD予測モデルをトレーニングデータのバッチを用いて訓練して、RSD予測モデルを更新することと、によって、RSD予測モデルを訓練するように構成されている。
【図面の簡単な説明】
【0020】
本開示の構造及び動作は、以下の詳細な説明及び同様の参照番号が同様の部品を指す添付の図面を検討することによって理解されるであろう。
【
図1】本明細書に記載されるいくつかの実施形態による、ロボット手術システムを備えた例示的な手術室(OR)環境を示す図である。
【
図2】本明細書に記載されるいくつかの実施形態による、処置ビデオフィードに基づいて外科的処置中にリアルタイムRSD予測を実行するための残存手術時間(RSD)予測システムのブロック図である。
【
図3】本明細書に記載されるいくつかの実施形態による、開示されたRSD予測システムにおいて訓練済みRSD予測モデルを構築するためのRSD予測モデルトレーニングシステムのブロック図である。
【
図4】本明細書に記載されるいくつかの実施形態による、処置ビデオフィードに基づいてライブ手術セッション中にリアルタイムRSD予測を実行するための例示的なプロセスを示すフローチャートである。
【
図5】本明細書に記載されるいくつかの実施形態による、開示されたRSD予測システムにおいて訓練済みRSD予測モデルを構築するための例示的なプロセスを示すフローチャートである。
【
図6】本明細書に記載されるいくつかの実施形態による、開示されたRSD予測システムにおいてRSD予測モデルを訓練するための別の例示的なプロセスを示すフローチャートである。
【
図7】主題の技術のいくつかの実施形態を実装することができるコンピュータシステムを概念的に示す図である。
【発明を実施するための形態】
【0021】
以下に記載される詳細な説明は、主題の技術の様々な構成の説明として意図されており、主題の技術が実施され得る唯一の構成を表すことを意図するものではない。添付の図面は、本明細書に組み込まれ、詳細な説明の一部を構成する。詳細な説明には、主題の技術の徹底した理解を提供することを目的とした、具体的な詳細が含まれる。しかしながら、主題の技術は、本明細書に記載される特定の詳細に限定されるものではなく、これらの特定の詳細なしで実施されてもよい。場合によっては、主題の技術の概念を不明瞭にすることを回避するために、構造及び構成要素がブロック図形式で示される。
【0022】
本明細書に記載されるいくつかの実施形態は、所与の外科的処置のライブ手術セッションの残存手術時間(RSD)を、ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するための手術時間推定システムの様々な例を提供する。特定の実施形態では、開示されるRSD予測システムは、ライブ手術セッションの現在時刻における内視鏡ビデオの現在のフレームを受信し、現在時刻は、ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある。RSD予測システムは、次に、ライブ手術セッションの開始に対応する内視鏡ビデオの開始と現在時刻に対応する現在のフレームとの間の、ライブ手術セッションの経過部分に対応する内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングする。RSD予測システムは、次いで、N-1個のランダムにサンプリングされたフレームと現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得する。次に、システムは、N個のフレームのセットを、所与の外科的処置のための訓練済み機械学習モデルへと供給する。その後、RSD予測システムは、N個のフレームのセットに基づいて現在のRSD予測を出力する。
【0023】
本明細書に記載されるいくつかの実施形態はまた、リアルタイムRSD予測を行うための訓練済みRSD予測モデルを構築するためのRSD予測モデルトレーニングシステムの様々な例を提供する。特定の実施形態では、開示されるRSD予測モデルトレーニングシステムは、標的の外科的処置を同様に実行することができる多数の外科医によって実行される標的の外科的処置のトレーニングビデオのセットを受信する。次に、開示されるモデルトレーニングシステムは、計算リソース制限に基づいて、受信されたトレーニングビデオのセットからトレーニングビデオのサブセットをランダムに選択する。開示されるモデルトレーニングシステムは、その後、トレーニングビデオのサブセットに基づいて反復モデル調整手順を開始する。具体的には、各所与の反復において、開示されるモデルトレーニングシステムは、トレーニングビデオのサブセットの各々から、所与のトレーニングビデオの開始と終了との間のタイムスタンプを選択する。その後、開示されるモデルトレーニングシステムは、ランダムに選択されたタイムスタンプのセットに基づいて、トレーニングビデオのサブセットの各々におけるビデオフレームを抽出する。
【0024】
次に、トレーニングビデオのサブセットの各々においてランダムに選択された各ビデオフレームについて、開示されるモデルトレーニングシステムは、トレーニングビデオの開始とランダムに選択されたビデオフレームとの間のトレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、N-1個のランダムにサンプリングされたフレームとランダムに選択されたビデオフレームとを時間的順序で組み合わせることとによって、対応するトレーニングビデオ内の所与のビデオフレームに対するN個のフレームのセットを構築する。このようにして、開示されるモデルトレーニングシステムは、トレーニングビデオのサブセットから抽出されたN個のフレームのセットを含むトレーニングデータのバッチを生成する。その後、開示されるモデルトレーニングシステムは、トレーニングデータのバッチを使用して、RSD予測モデルのモデルパラメータを更新する。次に、開示されるモデルトレーニングシステムは、モデルトレーニングプロセスの別の反復が必要であるかどうかを判定するために、検証データセットに対して、更新されたRSD予測モデルを評価する。次に、リアルタイムRSD予測システム及びRSD予測モデルトレーニングシステムの異なる実施形態について以下により詳細に説明する。
【0025】
図1は、本明細書に記載されるいくつかの実施形態による、ロボット手術システム100を備えた例示的な手術室(OR)環境110を示している図を示す。
図1に示すように、ロボット手術システム100は、外科医コンソール120と、制御タワー130と、ロボット手術プラットフォーム116(例えば、テーブル又はベッドなど)に位置する1つ以上の外科用ロボットアーム112とを備え、エンドエフェクタを有する外科用ツールが、外科的処置を実行するためにロボットアーム112の遠位端に取り付けられている。ロボットアーム112は、テーブル装着型システムとして示されているが、他の構成では、ロボットアームは、カート、天井若しくは側壁、又は別の好適な支持面に装着されてもよい。ロボット手術システム100は、ロボット支援型手術を実行するための任意の現在存在する又は将来開発されるロボット支援型手術システムを含むことができる。
【0026】
一般に、外科医又は他のオペレータなどのユーザ/オペレータ140は、ユーザコンソール120を使用して、ロボットアーム112及び/又は外科用器具を遠隔操作(例えば、テレオペレーション)することができる。ユーザコンソール120は、
図1に示すように、ロボット手術システム100と同じ手術室内に位置し得る。他の環境では、ユーザコンソール120は、隣接する若しくは近くの部屋に位置し得る、又は別の建物、都市、若しくは国の遠隔地から遠隔操作され得る。ユーザコンソール120は、シート132、足踏み式制御装置134、1つ以上のハンドヘルド型ユーザインターフェースデバイス(user interface device、UID)136、及び、例えば、患者内の手術部位の視野を表示するように構成された少なくとも1つのユーザディスプレイ138を備え得る。例示的なユーザコンソール120に示されるように、シート132に位置しており、ユーザディスプレイ138を見ている外科医は、足踏み式制御装置134及び/又はUID136を操作して、ロボットアーム122及び/又はアームの遠位端に装着された外科用器具を遠隔制御し得る。
【0027】
いくつかの変形形態では、ユーザはまた、ロボット手術システム100を「ベッド対面」(over the bed、OTB)モードで動作させてもよく、このモードでは、ユーザは患者の側にいて、(例えば、片手に保持されたハンドヘルド型ユーザインターフェースデバイス(UID)136を用いて)ロボット駆動ツール/それに取り付けられたエンドエフェクタと手動式腹腔鏡ツールとを同時に操作する。例えば、ユーザの左手は、ハンドヘルドUID136を操作してロボット手術構成要素を制御していてもよく、一方で、ユーザの右手は、手動式腹腔鏡ツールを操作していてもよい。したがって、これらの変形形態では、ユーザは、患者に対してロボット支援型(低侵襲手術)MIS及び手動式腹腔鏡手術の両方を実行してもよい。
【0028】
例示的な処置又は手術の間、患者は、麻酔を受け取るために、滅菌状態で準備され、覆われている。手術部位への最初のアクセスは、手術部位へのアクセスを容易にするために、ロボット手術システム100が収納構成又は引き込み構成にある状態で手動で実行され得る。アクセスが完了すると、ロボットシステムの初期位置決め又は準備が実施され得る。処置中、ユーザコンソール120にいる外科医は、足踏み式制御装置134及び/又はUID136を利用して、様々な外科用ツール/エンドエフェクタ及び/又は撮像システムを操作して、手術を実行し得る。また、手動支援が、滅菌ガウンを着用した人員によって処置台で提供されてもよく、この人員は、組織を後退させること、又は1つ以上のロボットアーム112を伴う手動の再配置若しくはツール交換を実行することを含むが、それらに限定されない作業を実行してもよい。また、ユーザコンソール120において外科医を支援するために、滅菌されていない人員も存在し得る。処置又は手術が完了すると、ロボット手術システム100及び/又はユーザコンソール120は、ロボット手術システム100の洗浄及び/若しくは滅菌、並びに/又は、例えばユーザコンソール120を介した医療記録の入力若しくは印刷(電子的であるか又はハードコピーであるかに関わらない)を含むが、これらに限定されない、1つ若しくは2つ以上の術後処置を容易にするように構成又は設定され得る。
【0029】
いくつかの態様では、ロボット手術プラットフォーム116とユーザコンソール120との間の通信は、ユーザコンソール120からのユーザコマンドをロボット制御コマンドに変換し、ロボット制御コマンドをロボット手術プラットフォーム116に送信することができる制御タワー130を介し得る。制御タワー130はまた、ロボット手術プラットフォーム116からユーザコンソール120に状態及びフィードバックを送信し得る。ロボット手術プラットフォーム116と、ユーザコンソール120と、制御タワー130との間の接続は、有線接続及び/若しくは無線接続を介してもよく、独自のものであってもよく、かつ/又は様々なデータ通信プロトコルのいずれかを使用して実行されてもよい。任意の有線接続が、手術室の床及び/又は壁若しくは天井に任意選択的に内蔵されていてもよい。ロボット手術システム100は、手術室内のディスプレイ、並びにインターネット又は他のネットワークを介してアクセス可能である遠隔ディスプレイを含む、1つ以上のディスプレイにビデオ出力を提供し得る。ビデオ出力又はフィードはまた、プライバシーを確保するために暗号化され得、ビデオ出力の全て又は一部は、サーバ又は電子医療記録システムに保存され得る。
【0030】
図2は、本明細書に記載されるいくつかの実施形態による、処置ビデオフィードに基づいて外科的処置中にリアルタイムRSD予測を実行するための残存手術時間(RSD)予測システム200のブロック図を示す。
図2に示すように、RSD予測システム200は、内視鏡ビデオ受信モジュール202と、Nフレーム生成モジュール204と、訓練済みRSD予測機械学習(machine-learning、ML)モデル206とを含むことができ、これらは図示のように結合されている。ただし、開示されるRSD予測システムの他の実施形態は、内視鏡ビデオ受信モジュール202と、
図2には示されていない訓練済みRSD予測MLモデル206(又は以下では「RSD予測モデル206」)との間に追加の処理モジュールを含んでもよい。
【0031】
いくつかの実施形態では、RSD予測モデル206は、具体的には、特定の外科的処置、例えばルーワイ胃バイパス処置又はスリーブ胃切除処置のために構築され、訓練された。この特定の外科的処置は、典型的には、特定の外科的処置の特徴である所定のフェーズ/ステップのセットを含む(各フェーズ/ステップは、サブフェーズ/サブステップを更に含み得る)ことに留意されたい。いくつかの実施形態では、RSD予測システム200内の内視鏡ビデオ受信モジュール202は、外科的処置、例えば、外科医によって実行されている胃バイパス処置のリアルタイム/ライブ内視鏡ビデオフィード208を受信する。いくつかの実施形態では、外科的処置中に完全かつ連続的なRSD予測を提供するために、内視鏡ビデオ受信モジュール202は、外科的処置のライブ内視鏡ビデオフィード208(又は以下では「ビデオフィード208」)を全体的に、すなわち、外科的処置の開始の瞬間から外科的処置の終了まで受信することができる。ビデオフィード208は、典型的には、大部分が患者の身体の内側からキャプチャされた未処理の生ビデオ画像から構成されることに留意されたい。
【0032】
当業者であれば、リアルタイムRSD予測を実行する前に複数の訓練済みRSD予測モデルを構築(construct)/構築(build)でき、それにより、複数の訓練済みRSD予測モデルのうちの各RSD予測モデルが、複数の異なる外科的処置のうちの特定の外科的処置のために構築されることを理解するであろう。したがって、ビデオフィード208によってキャプチャされた特定の外科的処置に基づいて、RSD予測システム200は、RSD予測システム200によって使用される複数の構築されたRSD予測モデルから対応するRSD予測モデル206を選択することができる。
【0033】
いくつかの実施形態では、内視鏡ビデオ受信モジュール202は、所定のバッファサイズのフレームバッファ210を更に含む。ビデオフィード208がちょうど受信され始めた外科的処置の開始時に、フレームバッファ210は、受信されたビデオフィード208内のフレームごとに又はフレームを1つおきにフレームバッファ210内にバッファリングできるように本質的に空であることに留意されたい。しかしながら、フレームバッファ210の所定のバッファサイズは、記録されたビデオフィード全体の各フレームごとに又は更にはフレームを1つおきに記憶するのに必要な空間よりも小さいことが多い。したがって、いくつかの実施形態では、フレームバッファ210は、ローリングバッファとして構成され得る。これらの実施形態では、ライブ外科的処置中の特定の時点にフレームバッファ210がいっぱいになると、内視鏡ビデオ受信モジュール202は、内視鏡フィード208から新しいビデオフレームを受信してフレームバッファ210に記憶し、同時に、より古いビデオフレームを、例えば、最も古いフレームをフレームバッファ210から除去するように構成され得る。フレームバッファ210の管理について以下により詳細に説明する。
【0034】
RSD予測システム200は、内視鏡ビデオ受信モジュール202に結合されているNフレーム生成モジュール204を更に含む。いくつかの実施形態では、Nフレーム生成モジュール204は、新たに受信された各ビデオフレームに対応するタイムポイントごとに動作するように構成される。これは、ビデオフィード208が60fpsでキャプチャされる場合、Nフレーム生成モジュール204が、受信された各フレームごとに60回/秒アクティブ化されることを意味する。しかしながら、この手法は、非常に計算集約的であり、非実用的であり得る。いくつかの他の実施形態では、Nフレーム生成モジュール204は、Nフレーム生成モジュール204が所定の時間間隔に従った一連の所定のタイムポイントにおいてのみ、例えば、1秒ごと、2秒ごと、又は5秒ごとなどでのみ、トリガ/アクティブ化されるように、タイマに同期され得る。これは、ビデオフィード208が60fpsでキャプチャされる場合、Nフレーム生成モジュール204が、単一のフレームごとではなく、60フレームごとに1回、120フレームごとに1回、又は300フレームごと1回などでのみアクティブ化されることを意味する。
【0035】
RSD予測システム200は、ライブ外科的処置中に連続的かつリアルタイムのRSD予測/更新を生成するように構成されているので、RSD予測がフレーム単位で行われるか、あるいは所定の時間間隔に基づいて行われるかに関わらず、各RSD予測点に対応する時間を、ライブ外科的処置の「現在時刻」、「現在時刻T」又は「現在のタイプポイント」と呼ぶ。しかしながら、RSD予測が所定の時間間隔に基づいて、例えば、1秒ごとに又は2秒ごとに行われる場合、現在のRSD予測を行うための現在のタイプポイントは、外科的処置全体の間に連続RSD予測/更新を行うための所定のタイムポイントのシーケンスの中にある。更に、現在のタイプポイントに対応するビデオフィード208のビデオフレームを、ライブ外科的処置の「現在のフレーム」と呼び、これは、ビデオフィード208内の最も新しいビデオフレームでもある。
【0036】
いくつかの実施形態では、リアルタイムRSD予測の生成に備えて、Nフレーム生成モジュール204は、外科的処置の現在時刻における内視鏡フィード208の現在のフレームを取得する。Nフレーム生成モジュール204は、内視鏡ビデオ受信モジュール202内のフレームバッファ210から、又はビデオフィード208から直接、現在のフレームを取得できることに留意されたい。更に、Nフレーム生成モジュール204は、外科的処置の経過部分に対応するビデオフィード208の以前に受信され記憶されたビデオフレームから、すなわち、外科的処置の開始に対応する内視鏡ビデオの開始から、現在のタイプポイントに対応するビデオフィード208の現在のフレームまで、N-1個の追加フレームをランダムにサンプリングするように構成される。ここで、Nは、以下により詳細に説明される所定の整数であることに留意されたい。
【0037】
いくつかの実施形態では、整数Nは、RSD予測システム200がN個のフレームのセットを処理するための計算上の制約(Nの上限を規定する)と、外科的処置の経過部分中に生じた事象のセットの代表的な又は十分に正確なスナップショットを提供するように、十分な大きさの、外科的処置の経過部分からランダムにサンプリングされたN-1個のフレームのセット(Nの下限を規定する)との間のトレードオフとして選択される。このようにして、下流のRSD予測モデル206は、N-1個のランダムにサンプリングされたフレームと現在のフレーム(すなわち、合計N個のフレーム)によってキャプチャされた画像のセットを分析することに基づいて、外科的処置全体の中のどのタイムポイント及びフェーズ/ステップに現在のフレームが位置するのかを予測することができる。一方、数Nの上限は、N個のフレームのセットを所定の時間間隔内でリアルタイムで処理して、下流のRSD-MLモデル206によるリアルタイムRSD予測を行うことができることを示す。
【0038】
Nフレーム生成モジュール204は、フレームバッファ210内にバッファリングされたビデオフレームからN-1個のフレームをランダムにサンプリングできることに留意されたい。例えば、現在時刻Tにおいて、合計K個のフレーム(現在のフレームを含む)がフレームバッファ210にバッファリング/記憶されている場合、K-1個のフレーム(現在のフレームを除く)の中から、N-1個のフレームをランダムにサンプリングすることができる。実用的な理由により、(N-1)≦(K-1)であることが望ましい。いくつかの実施形態では、Nは[4,20]の間の数である。したがって、内視鏡フィード208からビデオフレームを受信してバッファリングする最初の数秒間の後、N-1<<(K-1)という関係を容易に満たし、その後、外科的処置全体にわたって維持することができる。
【0039】
いくつかの実施形態では、フレームバッファ210内の各ビデオフレームは、ビデオフレームが受信モジュール202によって受信される順序を表す対応するシーケンス番号sに関連付けられている。例えば、現在時刻で合計K個のフレームが受信済みである場合、フレームバッファ210に記憶された各フレームは、1~K(Kは現在のフレームである)の対応するシーケンス番号sを有することになる。したがって、K-1個のバッファリングされたフレームの中から、N-1個のフレームをランダムにサンプリングするために、Nフレーム生成モジュール204は、1~Kの第1の乱数R1を生成し、その後、シーケンス番号s=R1を有するバッファリングされたフレームを、N-1個のフレームのうちの最初のフレームとして選択することができる。Nフレーム生成モジュール204は、次いで、第2の乱数R2を生成することによって、この手順を繰り返すことができる。R2≠R1である場合、Nフレーム生成モジュール204は、シーケンス番号s=R2を有するバッファリングされたフレームを、N-1個のフレームのうちの2番目のサンプリングされたフレームとして選択することができる。しかしながら、R2=R1である場合、Nフレーム生成モジュール204は、新しい乱数R2を生成して、以前の乱数R2を置換するように構成される。これらの乱数生成及び比較ステップは、R1に等しくない乱数R2が取得されるまで繰り返される。この時点において、Nフレーム生成モジュール204は、シーケンス番号s=R2≠R1を有するバッファリングされたフレームを、N-1個のフレームのうちの2番目のサンプリングされたフレームとして選択するように構成される。更に、Nフレーム生成モジュール204は、固有の乱数を生成し、N-1個未満のランダムにサンプリングされたフレームが取得された場合には固有の乱数に等しいシーケンス番号sを有するバッファリングされたフレームを選択する上記手順を繰り返すように構成される。しかしながら、この手順は、N-1個の固有のランダムに生成された数に基づいてランダムにサンプリングされたN-1個のフレームが、K-1個のバッファリングされたフレームの中から選択されたときに終了することができる。
【0040】
内視鏡ビデオ208のN-1個のランダムにサンプリングされたフレームが取得された後、Nフレーム生成モジュール204は、N-1個のランダムにサンプリングされたフレームを現在のフレームKと組み合わせて、N個のフレームのセットを取得するように構成され、N個のフレームのセットは、N個のフレームのセットの対応するシーケンス番号sと一致する時間的順序で配列されている。言い換えれば、N個のフレームのセットは、内視鏡フィード208内のN個のフレームのセットの元の時間的順序が維持されるように、シーケンス番号sの対応するセットの小さい順に順序付けられている。
【0041】
外科的処置の開始時に、Nフレーム生成モジュール204によって生成されたN個のフレームのセットは、典型的には、N個のフレームが密な空間であるので、同様の画像を含むことに留意されたい。外科的処置が進行するにつれて、特に、リアルタイム処置が外科的処置の終了に向かって進行すると、N個のフレームのセット内の個々のフレームはますます広がり、N個のフレームのセットは、互いにますます異なるようになる。その結果、N個のフレームのセットは、外科的処置の経過部分において生じた事象のプロキシとして機能し続ける。
【0042】
また、上述のNフレーム生成手順によって生成されたN個のフレームのセットは、それ自体が外科的処置全体中に所定の予測タイムポイントのシーケンスのうちの単一の決定タイムポイントである現在時刻Tにおいて、単一のRSD予測を生成するために使用されることに留意されたい。したがって、上記のNフレーム生成手順は、ランダムにサンプリングされたN個のフレームのシーケンス214を生成するために、ライブ外科的処置にわたるRSD予測タイムポイントのシーケンスにおいて、Nフレーム生成モジュール204によって連続的に実行される(本明細書の「ランダムにサンプリングされたN個のフレームのシーケンス214」は、RSD予測タイムポイントのシーケンスにおいて生成され、時間的順序に配列されたN個のフレームの複数のセットを意味することに留意されたい)。当業者であれば、ライブ外科的処置にわって時間が進行するにつれて、フレームバッファ210内のバッファリングされたビデオフレームKのセットは、(最大が存在する場合、最大許容値に達するまで)成長し続けることを理解するであろう。その結果、更に、バッファリングされたビデオフレームのセットを、現在時刻Tの関数であるK(T)として指定する。したがって、各新しいRSD予測タイムポイントTにおいて、N個のフレームの新しいセットは、フレームバッファ210内のバッファリングされたビデオフレームK(T)の新しいセットに基づいて生成される。
【0043】
2つの連続した予測タイムポイントT1及びT2>T1において生成されたN個のフレームの2つの連続したセット{F1}及び{F2}を比較するとき、2つの観測が行われ得ることに留意されたい。第1に、セット{F2}内のランダムにサンプリングされた各フレームはK(T2)から選択されるのに対し、セット{F1}内のランダムにサンプリングされた各フレームはK(T1)から選択され、K(T2)>K(T1)(最大が存在する場合には、最大値Kmaxに達する前)は、外科的処置の経過部分のわずかに長い期間を表す。第2に、セット{F2}内の所与のランダムにサンプリングされたフレームはまた、セット{F1}内にもあり得る。言い換えれば、ランダムサンプリング動作におけるランダム性により、フレームバッファ210内の同じバッファリングされたフレームが、ライブ外科的処置中の所定の予測タイムポイントのシーケンスにおいて2回以上選択されることが可能になる。開示されるNフレーム生成モジュール204のこの特性は、RSD予測システム200が、いくつかの以前に処理されたビデオフレームを後の時間に再訪/再処理することを可能にし、これは、RSD予測の安定性及び一貫性を徐々に改善するという利点を有する。
【0044】
図2に戻ると、RSD予測システム200は、Nフレーム生成モジュール204に結合されている訓練済みRSD予測モデル206を更に含むことに留意されたい。以下でより詳細に説明するように、訓練済みRSD予測モデル206は、同じ外科的処置の1つ又は複数のトレーニングビデオから生成される1つ又は複数のトレーニングデータセットに基づいて、上述の同じNフレーム生成手順を使用して、構築/訓練され得る。RSD予測システム200内でリアルタイムRSD予測を実行するとき、RSD予測モデル206は、Nフレーム生成モジュール204からランダムにサンプリングされたN個のフレームのシーケンス214の中から、現在の予測タイムポイントTにおけるN個のフレームの単一のセットを受信し、その後、N個のフレームの固有のセットの処理に基づいて新しい現在のRSD予測を生成するように構成される。いくつかの他の実施形態では、RSD予測モデル206は、フレームのセットの対応する順序に基づいて、N個のフレームのセットを処理するように構成されるが、フレームのセットに関連付けられた正確なタイムスタンプを知る必要はない。
【0045】
いくつかの実施形態では、現在のタイプポイントTにおけるN個のフレームのただ1つのランダムに選択されたセットを生成し、単一のRSD予測を計算する代わりに、現在のタイプポイントTにおけるN個のフレームの複数のランダムに選択されたセットを生成することができ、その後、RSD予測モデル206を使用して、同じ現在のタイプポイントTに対応するランダムに選択されたN個のフレームの複数のセットの処理に基づいて複数のRSD予測を生成する。次に、現在のタイプポイントTに関するRSD予測の分散値及び平均値を、現在のタイムポイントTに対応する複数のRSD予測に基づいて計算することができる。次いで、現在のRSD予測を、計算された平均値及び分散値で置換することができ、これは、単一のRSD予測手法よりも、現在のタイプポイントTにおける信頼性の高いRSD予測を表す。
【0046】
例えば、分単位の量としてRSD予測を行うことに加えて、RSD予測モデル206は、現在のタイプポイントTにおいて外科的処置の何パーセントが完了したかを示す完了率予測を生成するように構成することもできることに留意されたい。完了率予測は、ライブセッションの手術クルーと次の手術セッションのために並んで待機している手術クルーの両方に、別の有用な情報を提供することに留意されたい。
【0047】
いくつかの実施形態では、RSD予測MLモデル206は、様々な畳み込みニューラルネットワーク(CNN/ConvNet)アーキテクチャを使用して実装することができる。例えば、RSD予測モデル206の特定の実施形態は、動作認識ネットワークアーキテクチャ(I3d)を、ビデオフレームのシーケンスを単一の入力として受信するように構成されているモデルのバックボーンとして使用することに基づく。しかしながら、RSD予測モデル206の他の実装形態は、長・短期記憶(long short-term memory、LSTM)ネットワークアーキテクチャなどの回帰型ニューラルネットワーク(recurrent neural network、RNN)アーキテクチャを使用することもできる。ライブ外科的処置中、訓練済みRSD予測モデル206は、ランダムにサンプリングされたN個のフレームのシーケンス214に基づいて、所定の予測タイムポイントのシーケンスにおいて連続するリアルタイムRSD予測216を(例えば、残り何分であるか、として)生成するように構成されており、それによって、手術室の内側と外側の両方の外科医及び手術スタッフは、進捗及び残存手術時間を常に知ることができる。いくつかの実施形態では、新しいRSD予測が連続的に生成されるとき、バターワースフィルタを使用して、例えば、いくつかの高周波ジッタを除去することによって、RSD出力を「平滑化」することができ、それによって、直近の予測のセットを、次のRSD予測の方向(例えば、時間的に減少又は増加)のインジケータとして使用することができる。
【0048】
各予測タイムポイントにおける外科的処置の経過部分を表すバッファリングされたビデオフレームを小さな時間ステップ(例えば、1秒又は2秒)でサンプリングし、各予測タイムポイントにおいて対応するRSD予測を行うことによって、開示されるRSD予測システム200は、小さなサンプリング間隔、例えば、1秒又は2秒間隔だけ離れた予測の母集団を生成することに留意されたい。そのような小さなサンプリング時間ステップを使用して、開示されるRSD予測システム200は、一連の同様のRSD予測を行うために、バッファリングされたビデオフレームの同じセットを何度もランダムに実質的にサンプリングするように構成される。したがって、一連のRSD予測における一貫性は、そのようなRSD予測を行う際のRSD予測モデル206の有効性を示すために必要である。
【0049】
上述したように、フレームバッファ210のサイズが限界を有する場合、より多くのビデオフレームが追加されるのでバッファ管理が必要となる。ナイーブ手法では、バッファサイズ限界に達すると、フレームバッファ210へと追加された新しいビデオフレームは、より古いフレーム、例えば、フレームバッファ210から除去される最も古いフレームを伴うことになる。しかしながら、この手法は、外科的処置の早期部分を除去し続けることになるので望ましくないが、開示されたランダムサンプリング技法は、各予測タイムポイントごとに手術時間の経過部分全体をサンプリングすることを意図している。いくつかの実施形態では、フレームバッファ210から最も古いビデオフレームをドロップする代わりに、バッファ内のより古いフレームが、バッファ全体を通してより戦略的に除去され得る。例えば、フレーム除去戦略は、バッファ内の1つおきのフレームを除去し、それによって、ビデオのより早期の部分の外科的処置情報を常に保存することができるようにすることを含むことができる。ビデオの早期部分のビデオフレームを更に多く保つために、ビデオフレームに重要度の重みを割り当てることもでき、したがって、より古いフレームがより高い重みを受ける一方で、より新しいフレームがより低い重みを受ける。上述の1つおきにフレームを除去する技法と組み合わされたこの技法により、手術ビデオの開始部分からの更に多くのビデオフレームを、外科的処置にわたってフレームバッファ210内に保つことを可能にすることができる。
【0050】
上述したように、所定の数Nは、RSD予測モデル206がN個のフレームのセットを処理するための計算上の制約(Nの上限を規定する)と、RSD予測モデル206が「観測」し、したがって、N個のフレームの現在のセットに基づいて現在時刻/フレームまでの外科的処置の進捗を推定することを可能にするように、十分な大きさの、外科的処置の経過部分からランダムにサンプリングされたN-1個のフレームのセット(Nの下限を規定する)との間のトレードオフとして選択すべきである。1つの特定の実施形態では、N=8、すなわち、各RSD予測に関する7個のランダムにサンプリングされたフレーム+現在のフレームは、外科的処置全体にわたって計算の複雑さとRSD予測精度との間の最適なバランスを提供することが分かった。
【0051】
いくつかの実施形態では、所与の外科的処置にわたって数Nを一定に保つ代わりに、Nフレーム生成モジュール204によってより多くのフレームを追加することが可能であり、それによって、Nは、ライブ外科的処置が進行するにつれて、より多くのバッファリングされたフレームをサンプリングすることが可能になるように可変数になる。しかしながら、RSD予測モデル206による画像処理の一貫性のために、増加した数のサンプリングされたフレームを実装する開示されるRSD予測システムは、N個のフレームのセットを含むP個のフレームのセットで始まる必要があり、この後に、M個の「ブラックフレーム」のセットが続き、各ブラックフレームは、意思決定に寄与しないダミーフレームとして使用される。しかしながら、時間が進行するにつれて、例えば、外科的処置における所定のタイムポイントのセットにおいて、リアルなバッファリングされたフレームを実際にサンプリングするために、M個のブラックフレームのセット内の1つ以上のフレームがN個のフレームのセット上に追加される。N個のフレームの元のセットと組み合わせることによって、M個のブラックフレームのセットから新たに追加されたフレームは、より多くのバッファリングされたフレームをリアルタイムRSD予測のためにRSD予測モデル206によってサンプリングし、処理することを可能にする。
【0052】
いくつかの実施形態では、RSD予測システム200は、特定の外科的処置に基づいてRSD予測モデル206を選択し得る。言い換えれば、多数のRSD予測モデルが、様々な固有の外科的処置のために構築され得る。例えば、実行されている外科的処置がルーワイ胃バイパス術である場合、RSD予測システム200は、ルーワイ胃バイパス術専用に構築され訓練されたRSD予測モデル206を選択するように構成される。しかしながら、実行されている外科的処置がスリーブ状胃切除術である場合、RSD予測システム200は、RSD予測システム200におけるスリーブ状胃切除術のために構築され訓練された異なるRSD予測モデル206を選択し得る。したがって、リアルタイムRSD予測のためにライブ外科的処置においてRSD予測モデル206を使用する前に、RSD予測モデル206は、トレーニングビデオを使用して、例えば、ゴールドスタンダードを実施する外科医によって実行された、又は同じ外科的処置をほぼ同様に実行する多数の外科医によって実行された同じ外科的処置の記録されたビデオを使用して訓練される必要がある。
【0053】
図3は、本明細書に記載されるいくつかの実施形態による、RSD予測システム200においてRSD予測モデル206を構築するためのRSD予測モデルトレーニングシステム300のブロック図を示す。
図3に示すように、RSD予測モデルトレーニングシステム300は、トレーニングビデオ受信モジュール302と、トレーニングデータ生成モジュール304と、RSD予測モデル調整モジュール306とを含むことができ、これらは図示のように結合されている。開示されるRSD予測モデルトレーニングシステム300(又は以下では「モデルトレーニングシステム300」)は、フェーズ/ステップの所定のセット(各フェーズ/ステップは、所定のサブフェーズ/サブステップを更に含むことができる)を含む特定の外科的処置のためのRSD予測システム200において使用されるRSD予測モデル206を構築/訓練するように構成されることに留意されたい。次いで、特定の外科的処置、例えば、ルーワイ胃バイパス処置又はスリーブ胃切除処置のライブ手術セッション中に、RSD予測システム200におけるリアルタイムRSD予測のために、モデルトレーニングシステム300の出力である訓練済みRSD予測モデル206を使用することができる。
【0054】
いくつかの実施形態では、モデルトレーニングシステム300内のトレーニングビデオ受信モジュール302は、RSD予測モデル206と同じ外科的処置、例えば胃バイパス処置の記録されたトレーニングビデオ308のセットを受信する。例えば、トレーニングビデオ308のセットは、ゴールドスタンダードを実施する外科医によって実行されている、又は他の場合には標準的な様式で所与の外科的処置を実行することに熟練した外科医によって実行されている外科的処置を描写するトレーニングビデオAを含むことができる。したがって、RSD予測モデル206を訓練するためにトレーニングビデオAが使用されるとき、トレーニングビデオAを使用して、所与の外科的処置を実行する際の標準を確立することができる。外科的処置に熟練した外科医の単一のトレーニングビデオは、RSD予測モデル206が、そのビデオに描写された外科的処置の特徴を学習することを可能にするが、外科的処置におけるステップのセットの実行順序の変更など、外科的処置の標準的な実行に対する変更を認識するようにモデルに教えるには十分でない場合がある。更に、単一のトレーニングビデオはまた、患者における癒着など、異なるタイプの合併症、及び外科的処置中に起こり得る通常とは異なる事象を認識するようにモデルに教えるには十分ではない場合がある。しかしながら、同じ外科的処置の様々なシナリオ及び変形形態を網羅する複数のトレーニングビデオがRSD予測モデル206を訓練するために使用されるとき、訓練済みモデルは、(1)手術ステップの順序における変更、(2)患者の合併症、(3)通常とは異なる事象、及び(4)他の変更を認識する能力によって、よりロバストになる。
【0055】
いくつかの実施形態では、トレーニングビデオ308のセットは、同様に、例えば、外科的処置に関連付けられた標準的な手術ステップの同じセットを実行することによって外科的処置を実行することができる多数の外科医によって実行された同じ外科的処置の記録された手術ビデオを含むことができる。しかしながら、トレーニングビデオ308のセットは、外科的処置を実行する際の変更も含むことができる。いくつかの実施形態では、トレーニングビデオ308のセットは、手術ステップのセットを実行する順序の変更をキャプチャする記録されたビデオの第1のサブセットセットを含むことができる。トレーニングビデオ308のセットはまた、既知の患者の合併症及び同じ外科的処置中に起こり得る既知のタイプの通常とは異なる事象をキャプチャする記録されたビデオの第2のサブセットセットも含むことができる。いくつかの実施形態では、トレーニングビデオ308のセットはまた、異なるカメラエンジェルでキャプチャされた同じ外科的処置も含むことができる。例えば、単一のカメラエンジェルでは取得することができない外科的処置の追加のタイミング情報をキャプチャするために、2つの対向するエンジェルで配置された2つの内視鏡カメラによって2つのトレーニングビデオを生成することができる。
【0056】
いくつかの実施形態では、トレーニングビデオ受信モジュール302は、記憶装置312を含むことができ、トレーニングビデオ受信モジュール302は、実際のモデルトレーニングプロセスの前に、トレーニングビデオ308のセットを記憶装置312にプリロードするように構成される。内視鏡ビデオ受信モジュール202に関連して説明したフレームバッファ210とは異なり、記憶装置312は、サイズ制限なしにトレーニングビデオ308のセット全体を記憶できることに留意されたい。いくつかの実施形態では、トレーニングビデオ受信モジュール302は、トレーニングビデオ308のセット内の受信された各トレーニングビデオ(以下では「所与のトレーニングビデオ308」と呼ぶ)内の各フレームにラベル付けして、フレームをそれぞれのタイミング情報に関連付けるように構成されたラベル付けサブモジュール314を更に含む。いくつかの実装形態では、ラベル付けサブモジュール314は、所与のトレーニングビデオ308内のフレームの順序に基づいて、所与のトレーニングビデオ308内の各フレームにシーケンシャルなフレーム番号、例えば、0、1、2などをラベル付けするように構成される。このフレーム番号ラベルは、関連付けられた外科的処置における関連付けられたフレームの相対的タイミングを示すことができることに留意されたい。所与のフレームのフレーム番号ラベルに基づいて、関連付けられた外科的処置における所与のフレームの特定のタイムスタンプ及び所与のフレームから外科的処置の終了までのRSD値を自動的に判定できることに留意されたい。逆に、所与のトレーニングビデオ308に関するタイムスタンプ(例えば、23分45秒)が提供されると、タイムスタンプに関連付けられたフレーム番号ラベルを自動的に判定することができ、その後、対応するビデオフレームを選択することができる。
【0057】
いくつかの実施形態では、トレーニングビデオのセット内の所与のトレーニングビデオ308にラベル付けすることは、追加でかつ任意選択的に、所与のトレーニングビデオ308内のビデオフレームに関する手術フェーズ/ステップ及び/又はサブフェーズ/サブステップのラベルを提供することを含み得る。例えば、所与のトレーニングビデオ308における外科的処置の所与の手術フェーズ/ステップが20分15秒に開始し、36分37秒に終了する場合、これらの2つのタイムスタンプ間の各フレームは、同じ手術フェーズ/ステップとしてラベル付けされなければならない。各フレームに関するこのフェーズ/ステップラベルは、所与のフレームの上述したフレーム番号ラベルに追加されることに留意されたい。いくつかの実装形態では、所与のトレーニングビデオ308についてのこれらの追加のかつ任意選択的なフェーズ/ステップラベルは、各フェーズ/ステップの開始タイムポイント及び終了タイムポイントを手動で識別し、その後、開始タイムポイントと終了タイムポイントとの間のフレームに、関連付けられたフェーズ/ステップラベルで注釈を付けることによって、人間のオペレータ/ラベル付け担当者によって生成され得る。したがって、後続のパラメータ調整ステップでは、所与のフレームのフレーム番号ラベルを使用して、所与のフレームの特定のタイムスタンプを判定することができ、所与のフレームのフェーズ/ステップラベルを使用して、所与のトレーニングビデオ308において、関連付けられた外科的処置におけるどのフェーズ/ステップに所与のフレームが関連付けられているかを判定することができる。
【0058】
いくつかの他の実施形態では、所与のトレーニングビデオ308に関する付加的及び任意選択的なフェーズ/ステップラベルは、ラベル付けサブモジュール314によって自動的に生成され得る。例えば、ラベル付けサブモジュール314は、フェーズ/ステップ認識のための所与のトレーニングビデオ308に関連付けられた特定の外科的処置のために訓練された別個の深層学習ニューラルネットワークを含み得る。したがって、そのような訓練済み深層学習ニューラルネットワークを含むラベル付けサブモジュール314を使用して、所与のトレーニングビデオ308内の各手術フェーズ/ステップの開始及び終了を自動的に識別し、その後、所与のフェーズ/ステップの2つの識別された境界間のフレームに、対応するフェーズ/ステップラベルでラベル付けすることができる。トレーニングビデオ受信モジュール302は、受信された生トレーニングビデオ308のセットに対応するラベル付けされたトレーニングビデオ318のセットを出力することに留意されたい。
【0059】
トレーニングビデオ受信モジュール302は、モデルトレーニングシステム300内のトレーニングデータ生成モジュール304に結合されている。いくつかの実施形態では、トレーニングデータ生成モジュール304は、ラベル付けされたトレーニングビデオ318のセットを処理して、トレーニングデータセット330を生成するように構成される。いくつかの実施形態では、ラベル付けされたトレーニングビデオ318のセット内のラベル付けされたトレーニングビデオ(以下では「所与のラベル付けされたトレーニングビデオ318」と呼ぶ)の開始とラベル付けされたトレーニングビデオの終了との間の各ビデオフレームを使用して、トレーニングデータセット330内の単一のトレーニングデータポイントを生成することができる。いくつかの実施形態では、トレーニングデータ生成モジュール304は、所与のラベル付けされたトレーニングビデオ318内のタイムスタンプのセットをランダムに選択し、その後、ランダムに選択されたタイムスタンプのセットに対応するトレーニングデータポイントのセットを構築することによって、所与のラベル付けされたトレーニングビデオ318からトレーニングデータポイントのセットを生成するように構成される。このようにして、トレーニングデータ生成モジュール304は、ラベル付けされたトレーニングビデオ318のセットから生成されたトレーニングデータポイントの複数のセットを組み合わせることによって、トレーニングデータセット330を生成することができる。
【0060】
いくつかの実施形態では、ランダムに選択されたタイムスタンプのセットに基づいてトレーニングデータポイントを生成する代わりに、トレーニングデータ生成モジュール304は、所定の時間間隔に基づくタイムポイントのセットにおいて、所与のラベル付けされたトレーニングビデオ318からトレーニングデータポイントのセットを生成し、その後、タイムポイントのセットに対応するトレーニングデータポイントのセットを構築するように構成される。例えば、トレーニングデータ生成モジュール304は、1分間隔のタイムポイントのセットにおいて、所与のラベル付けされたトレーニングビデオ318からトレーニングデータポイントのセットを生成することができる。いくつかの実施形態では、トレーニングデータ生成モジュール304は、ラベル付けされたトレーニングビデオ318における外科的処置の進捗に従って、トレーニングデータシーケンスとしてトレーニングデータセット330を生成する。より具体的には、トレーニングデータ生成モジュール304は、所定の時間間隔に基づいて、ラベル付けされたトレーニングビデオ318内の各タイムポイントにおいてトレーニングデータポイントを漸進的に出力することによって、トレーニングデータセット330を生成することができる。
【0061】
上述のRSD予測プロセスと同様に、トレーニングデータセット330内のトレーニングデータポイントを生成するための所与のラベル付けされたトレーニングビデオ318内の選択された各タイムポイントは、所与のラベル付けされたトレーニングビデオ318内のラベル付けされたビデオフレーム(以下では「選択されたフレーム」と呼ぶ)に対応する。トレーニングデータ生成モジュール304は、RSD予測システム200内のNフレーム生成モジュール204と同じように動作するように構成されているNフレーム生成モジュール324も含むことに留意されたい。より具体的には、選択されたタイムポイントにおける対応するトレーニングデータポイントを生成するために、Nフレーム生成モジュール324は、選択されたタイムポイントにおける所与のラベル付けされたトレーニングビデオ318の選択されたフレームを取得するように構成される。次に、Nフレーム生成モジュール324は、選択されたフレームの前の、かつ選択されたタイムポイント未満の時間期間中のラベル付けされたトレーニングビデオ318の部分から、N-1個の「以前の」フレームをランダムにサンプリングすることによって、N-1個の追加フレームを生成するように構成され、Nは本明細書において所定の整数である。言い換えれば、N-1個の追加フレームは、トレーニングビデオの開始から選択されたタイムポイントまでのラベル付けされたトレーニングビデオ318全体から取得することができる。N-1個のフレームのセットをサンプリングして所与のトレーニングデータポイントを形成する際のランダム性に起因して、時間的シーケンスで順序付けられる場合であっても、これらのN個のフレームの間の時間間隔は、例えば、最初の2つのフレームの間は5分、最後の2つのフレーム間は10分など、異なることがあることに留意されたい。いくつかの実施形態では、これらのN-1個のフレームは、所与のラベル付けされたトレーニングビデオ318内の任意の体外事象に関連付けられた任意のビデオフレームを含まないことがある。
【0062】
上述したように、所定の数Nは、生成されたN個のフレームのセットから構成されたトレーニングデータセット330を用いてRSD予測モデル206をトレーニングために計算上の制約(Nの上限を規定する)と、選択されたタイムポイント/フレームまでの外科的処置の進捗を十分に表すように、十分に多数の、選択されたタイムポイント/フレームの前のサンプリングされたフレーム(Nの下限を規定する)との間のトレードオフとして選択される。いくつかの実施形態では、モデルトレーニングシステム300内のNフレーム生成モジュール324によって使用される所定の数Nは、RSD予測システム200内のNフレーム生成モジュール204によって使用される所定の数Nと同一である。1つの特定の実施形態では、N=8であり、すなわち、Nフレーム生成モジュール324は、選択されたタイムポイントにおいて選択されたフレームを取得し、選択されたタイムポイントの前にラベル付けされたトレーニングビデオ318の部分にわたって7個の追加フレームをランダムにサンプリングすることによって、8フレームトレーニングデータポイントを生成するように構成される。上述したように、N-1個の追加フレームを選択する際のランダム性により、RSD予測モデルトレーニングプロセス中にトレーニングデータセット330を生成するときに、ラベル付けされたトレーニングビデオ318内の同じフレームを2回以上選択することが可能になる。
【0063】
ラベル付けされたトレーニングビデオ318のセットを処理した後、トレーニングデータ生成モジュール304は、トレーニングデータセット330を出力として生成する。再び
図3を参照すると、トレーニングデータ生成モジュール304は、複数のラベル付けされたトレーニングビデオ318から生成されたトレーニングデータポイントの複数のセットを含む受信されたトレーニングデータセット330に基づいてRSD予測モデル206内のニューラルネットワークパラメータのセットを調整するように構成されているRSD予測モデル調整モジュール306(又は以下では「モデル調整モジュール306」)に結合されており、各トレーニングデータポイントは、所与のラベル付けされたトレーニングビデオ318内のそれぞれの時間/フレーム番号ラベルによって時間的シーケンスで順序付けられたN個のフレームのセットから更に構成されることに留意されたい。
【0064】
いくつかの実装形態では、RSD予測モデルトレーニングプロセスは、以下のように、ラベル付けされたトレーニングビデオ318のセットに基づいてモデルをトレーニングするために、トレーニングデータ生成モジュール304及びモデル調整モジュール306を集合的に使用することを含む。最初に、M個のトレーニングビデオのサブセットが、ラベル付けされたトレーニングビデオ318のセットからランダムに選択される。このステップは、トレーニングデータ生成モジュール304によって実行され得る。ラベル付けされたトレーニングビデオ318のセットは、同時にモデルトレーニングのために全てを使用することができるわけでない多数(例えば、数百個)のビデオを含むことがあり得ることに留意されたい。具体的に言えば、所与の時間における単一のトレーニングデータポイントを処理するための計算リソース制限に基づいて、数Mを判定することができる。いくつかの実施形態では、数Mは、ビデオフレームのセットを処理するためにモデル調整モジュール306によって使用される1つ以上のプロセッサ(例えば、1つ以上のグラフィック処理ユニット(graphic processing unit、GPU))のメモリ制限に基づいて判定される。数Mがラベル付けされたトレーニングビデオ318のセット内のビデオの数以上であることが判明した場合、ラベル付けされたトレーニングビデオ318のセット全体を選択できることに留意されたい。
【0065】
次に、トレーニングデータ生成モジュール304を使用して、M個の選択されたトレーニングビデオの各々について、タイムスタンプが、所与のトレーニングビデオの開始と終了との間でランダムに選択される。その後、トレーニングデータ生成モジュール304を使用して、ランダムに選択されたタイムスタンプに基づいて所与のトレーニングビデオ内のビデオフレームが選択される。次に、ランダムに選択されたビデオフレームについて、Nフレーム生成モジュール324は、上述のNフレーム生成技法を使用してN-1個の追加フレームをランダムに選択するために使用され、これらのN-1個の追加のフレームをランダムに選択されたビデオフレームと組み合わせて、所与のトレーニングビデオに関するN個のフレームのセットを形成する。上記のステップは、M個の選択されたトレーニングビデオからランダムに選択されたM個のフレームに対応するM個の選択されたトレーニングビデオのセット全体に対して繰り返されることに留意されたい。結果として、トレーニングデータ生成モジュール304は、M個の選択されたトレーニングビデオに対応するN個のフレームのM個のセットを生成する(例えば、M=16)。N個のフレームのこれらのM個のセットをトレーニングデータの「バッチ」と呼び、これはトレーニングデータセット330内の単一のトレーニングデータポイントとみなすことができる。トレーニングデータの単一バッチを生成するための上述のステップに対する変更は、M個の選択されたトレーニングビデオの各々から1つのフレームをランダムに選択する代わりに、M個の選択されたトレーニングビデオのセット全体から、M個のフレーム内の各フレームをランダムに選択できることであることに留意されたい。言い換えれば、M個の選択されたトレーニングビデオのセット内の所与のビデオから2つ以上のフレームを選択することが可能であるが、M個の選択されたトレーニングビデオのセット内の所与のビデオが全く選択されないことも可能である。
【0066】
トレーニングデータのバッチを上述のように生成した後、モデル調整モジュール306を使用して、「反復」と呼ばれるプロセスにおいてモデルを最適化するためにトレーニングデータのバッチを処理する。具体的には、反復中、バッチは、RSD予測モデルのニューラルネットワークを通過し、誤差が推定されて、例えば、勾配降下などの最適化技法を使用してRSD予測モデルの重み及びバイアスなどのパラメータを更新するために使用される。
【0067】
トレーニングデータの単一のバッチを生成し、そのバッチを使用してRSD予測モデルを更新する上述のプロセスは、モデルトレーニングプロセスの単一の反復を表すことに留意されたい。したがって、RSD予測モデルトレーニングプロセスは、多くのそのような反復を含み、RSD予測モデルは、多くの反復における各反復を通じて漸進的に最適化される。いくつかの実施形態では、モデルトレーニングプロセス中、RSD予測モデルは、検証データセットに対する各所与の反復の終了時に評価される。検証データセットに対する訓練済みモデルからのRSD予測誤差が安定している又はプラトーである(例えば、所定の誤差マージン内である)場合、RSD予測モデルトレーニングプロセスを終了することができる。そうでない場合、別の新しい反復がモデルトレーニングプロセスに追加される。
【0068】
上述のRSD予測モデルトレーニングプロセスは、ラベル付けされたトレーニングビデオ318のセット内のトレーニングデータポイントをランダムに選択することに基づくことに留意されたい。いくつかの他の実施形態では、モデルトレーニングシステム300に基づく開示されるRSD予測モデルトレーニングプロセスは、ラベル付けされたトレーニングビデオ318のセット内のラベル付けされた各トレーニングビデオ318の進捗に従う漸進的トレーニングプロセスであり得る。この漸進的モデルトレーニングプロセスでは、トレーニングデータセット330は、ラベル付けされた各トレーニングビデオ318の開始からラベル付けされたトレーニングビデオ318の終了に向かって、所定の時間間隔に基づいて(例えば、1分で)、一度に1つのデータポイントずつ漸進的に生成され得る。
【0069】
より具体的には、トレーニングデータ生成モジュール304は、所与のラベル付けされたトレーニングビデオ318の開始から所与のラベル付けされたトレーニングビデオ318の終了に向かって、所定の時間間隔に基づいて(例えば、1秒又は1分間隔で)、トレーニングデータポイントのシーケンスとしてトレーニングデータセット330を生成し続ける。同様に、上述のRSD予測プロセスに対して、漸進的モデルトレーニングプロセスにおいて生成されている現在のトレーニングデータポイントに関連付けられる時間は、モデルトレーニングプロセスの「現在時刻」と呼ばれ得る。したがって、現在時刻において、現在時刻に対応する所与のラベル付けされたトレーニングビデオ318内の現在のフレームが選択される。次に、選択された現在のフレームについて、Nフレーム生成モジュール324は、上述のNフレーム生成技法を使用してN-1個の追加フレームをランダムに選択するために使用され、これらのN-1個の追加フレームを現在のフレームと組み合わせて、N個のフレームのセット、すなわち、トレーニングデータセット330内の現在のトレーニングデータポイントを形成する。
【0070】
上記と同様に、モデル調整モジュール306は、トレーニングデータセット330内の新たに生成されたトレーニングデータポイントを使用して、トレーニングデータポイントのシーケンスに関連付けられたRSD値(すなわち、所与のラベル付けされたトレーニングビデオ318内の真のRSD値)のシーケンスに基づいて、ニューラルネットワークパラメータのセットを調整/更新することを継続する。具体的には、所与の生成されたトレーニングデータポイント及び対応するRSD値に基づいてニューラルネットワークパラメータのセットを調整することは、対応する真のRSD値と一致するように訓練されているRSD予測モデルを使用してRSD値を予測することを含む。いくつかの実施形態では、トレーニングデータセット330を用いてニューラルネットワークパラメータのセットを調整することは、確率的勾配降下法を実行してRSD予測誤差を最小化することを含む。トレーニングデータ生成モジュール304によって生成されたトレーニングデータセット330全体がモデル調整モジュール306によって処理された後、モデルトレーニングシステム300は、最終的に訓練済みRSD予測モデル206を出力する。
【0071】
いくつかの実施形態では、開示される漸進的モデルトレーニングプロセスは、小さな時間ステップ(例えば、数秒)に基づいて、ラベル付けされたトレーニングビデオ318をサンプリングする。トレーニングデータセット330内のトレーニングデータポイントのシーケンスは、この小さい時間ステップだけ離れているので、漸進的モデルトレーニングプロセスは、本質的に、ビデオフレームの実質的に同じセットを比較的短い時間期間(例えば、1分)の間に何度も繰り返してサンプリングし、実質的に同じ標的RSDに基づいてこの短い時間期間の間に一連のモデル調整手順を実行する。したがって、開示されるモデルトレーニングプロセスはまた、訓練済みRSD予測モデル206の予測の一貫性及び精度を漸進的に改善する。
【0072】
いくつかの実施形態では、各現在のタイプポイントにおいて単一のトレーニングデータポイントを生成する代わりに、同じ現在のタイプポイントにおいてNフレーム生成モジュール324を使用して複数のトレーニングデータポイントを生成してもよい。ランダム性は、N個のフレームの各セットを生成することに関与したので、同じ現在のタイプポイントで生成された複数のトレーニングデータポイントの各々は、ランダムにサンプリングされたN-1個のフレームの異なるセットで、したがって、N個のフレームの異なるセット構成される可能性が最も高い。しかしながら、これらの複数のトレーニングデータポイントはまた、同じ標的RSD値に関連付けられているので、関連付けられた現在のタイプポイントにおいてニューラルネットワークパラメータのセットを調整/訓練するためにそれらを使用する結果として、所与のタイムポイントにおいて単一のトレーニングデータポイントを使用するよりも収束時間が早くなり得る。
【0073】
いくつかの実施形態では、モデル調整モジュール306は、ラベル付けされたトレーニングビデオ318のセットを使用してRSD予測モデルを訓練するように構成される。例えば、モデル調整モジュール306は、ラベル付けされたトレーニングビデオ318のセット全体が処理されるまで、ニューラルネットワークパラメータのセットを調整するために、単一のラベル付けされたトレーニングビデオ318に対する上述の漸進的トレーニングプロセスに基づいて、ラベル付けされたトレーニングビデオ318のセット内の各トレーニングビデオを順次処理するように構成され得る。
【0074】
いくつかの実施形態では、モデル調整モジュール306はまた、ラベル付けされたトレーニングビデオ318のセットを使用して、現在の予測タイムポイントにおいて外科的処置の何パーセントが完了したかを示す完了率予測を行うようにRSD予測モデル206を訓練するように構成される。各予測タイムポイントにおける完了率値は既知であるので、モデル調整モジュール306は、RSD予測モデル206による完了率予測が所与の予測タイムポイントにおける実際の完了率値を満たすようにするために、ニューラルネットワークパラメータのセットを調整/訓練するように構成される。
【0075】
上述の漸進的モデルトレーニングプロセスは、訓練の1つのエポックを表し、すなわち、ラベル付けされたトレーニングビデオ318のセットから選択されたトレーニングデータポイントは、単一のパスにおいて1回だけ使用されることに留意されたい。いくつかの実施形態では、モデルトレーニングプロセスの収束を保証するために、ラベル付けされたトレーニングビデオ318のセットは、複数のエポック/パスにおいて繰り返し使用される。
【0076】
より具体的には、トレーニングデータポイントの複数のセットが、所定の時間間隔に基づいて、ラベル付けされたトレーニングビデオ318のセットから最初に生成され得る。次に、RSD予測モデルは、トレーニングデータポイントの同じセットを使用して、複数のエポックを通して訓練される。具体的には、訓練の各エポックにおいて、同じ訓練ステップが、トレーニングデータポイントの同じセットを使用してモデル調整モジュール306によって実行され、これにより、RSD予測モデルが収束に1ステップ近づく。実際には、トレーニングデータポイントの同じセットに基づいて、訓練の20~50エポックを実行することができる。これは、トレーニングデータポイントの複数のセット内の各データポイントについて、所与のデータポイントに対して同じランダムサンプリング手順を20~50回実行するために、トレーニングデータ生成モジュール304を20~50回使用することを意味する。したがって、モデルトレーニングプロセスの各エポックにおいて、トレーニングデータポイントの同じセットに基づいて固有のトレーニングデータセット330が生成される。これは、Nフレーム生成モジュール324のランダムな性質により、モデルトレーニングプロセスの異なるエポックが、トレーニングデータポイントの同じセット内の各データポイントについて以前のフレーム/画像の異なるセットを使用することが可能になるからである。
【0077】
各タイムポイントTにおける以前のフレームの均一サンプリングと比較すると、均一サンプリング技法又は開示されるランダムサンプリング技法のいずれかを使用してRSD予測を実行することは、比較的同様のリアルタイムRSD予測結果を生成することがあり得ることに留意されたい。しかしながら、RSD予測モデルトレーニングに関する開示されたランダムサンプリング技法を使用することは、少なくとも、均一サンプリング技法は、複数のトレーニングデータポイントが同じタイムポイントT又は異なるエポックにおいて生成されるときに新しいトレーニングデータセットを生成することができないので、一般に、均一サンプリング技法を使用するよりも速い収束速度など、著しく良好なモデルトレーニング結果を達成することができる。更に、上述したように、開示されるランダムサンプリング技法を使用してN-1個の追加フレームを選択する際のランダム性はまた、所与のトレーニングビデオ内の同じ前のフレームが、生成されたトレーニングデータセット内で2回以上選択されることを可能にし、それによって、訓練済みRSD予測モデルの予測安定性が徐々にではあるがより効果的に改善されることを可能にするという利点を有する。
【0078】
開示されるランダムサンプリング技法はまた、リアルタイムRSD予測中に訓練済みRSD予測モデルのモデル予測信頼度をテストするためのメカニズムを提供することに留意されたい。例えば、訓練済みRSD予測モデル206を使用して所与のタイムポイントTにおいて第1のRSD予測を行った後、Nフレーム生成技法を再度適用して、より早期のフレームを再度ランダムにサンプリングすることができ、訓練済みRSD予測モデル206を使用して第2の予測を行う。次いで、Nフレーム生成技法を再び使用して、より早期のフレームをもう一度ランダムにサンプリングすることができ、訓練済みRSD予測モデル206を使用して、第3の予測を行う。次に、複数のRSD予測を予測信頼度について比較することができる。3つの予測の全てが実質的に同じである場合(例えば、差が数秒以内である場合)、RSD予測結果の信頼度は高くなり得る。しかしながら、タイムポイントTにおける複数のRSD予測が著しく異なる結果を生成する場合(例えば、追加のRSD予測が、第1のRSD予測を中心に跳ね上がる又は下げる場合)、訓練済みモデルが、外科的処置の開始からタイムポイントTまでに起こったことを学習できないことを示す可能性がある。そのようなシナリオでは、手動による介入、及び/又は外科的処置において起こったことを理解するための術後分析が必要な場合がある。
【0079】
図4は、本明細書に記載されるいくつかの実施形態による、処置ビデオフィードに基づいてライブ手術セッション中にリアルタイムRSD予測を実行するための例示的なプロセス400を示すフローチャートを提示する。1つ以上の実施形態では、
図4のステップのうちの1つ以上は、省略しても、繰り返しても、かつ/又は異なる順序で実行してもよい。したがって、
図4に示されるステップの特定の配列は、本技法の範囲を限定するものとして解釈されるべきではない。
【0080】
プロセス400は、外科医によって実行されている特定の外科的処置のライブ手術セッションのリアルタイム/ライブ内視鏡ビデオフィードを受信することによって開始する(ステップ402)。いくつかの実施形態では、外科的処置は、ルーワイ胃バイパス処置又はスリーブ状胃切除処置である。次に、プロセス400は、ライブ手術セッションの現在時刻における内視鏡フィードの現在のフレームを取得する(ステップ404)。プロセス400はまた、手術セッションの経過部分に対応するビデオフィードの記憶/バッファリングされたビデオフレームから、N-1個の追加フレームをランダムにサンプリングする(ステップ406)。N-1個の追加フレームをランダムにサンプリングする様々な実施形態については、RSD予測システム200及び
図2に関連して上述した。手術セッションの経過部分からランダムにサンプリングされたN-1個のフレームは、手術セッションの経過部分中に生じた事象のセットの代表的なスナップショットを提供することに留意されたい。その後、プロセス400は、N-1個のランダムにサンプリングされたフレームを現在のフレームと組み合わせて、元の時間的順序で配列されたN個のフレームのセットを生成する(ステップ408)。次に、プロセス400は、外科的処置に関する訓練済みRSD予測モデルを使用してN個のフレームのセットを処理して、ライブ手術セッションのためのリアルタイムRSD予測を生成する(ステップ410)。次に、プロセス400は、ライブ手術セッションの終了に達したかどうかを判定する(ステップ412)。達していない場合、プロセス400は、続いてステップ404に戻り、次の予測タイムポイントでライブビデオフィードを処理し続け、次のリアルタイムRSD予測を生成する。ライブ手術セッションの終了に達すると、リアルタイムRSD予測プロセス400は終了する。
【0081】
図5は、本明細書に記載されるいくつかの実施形態による、開示されたRSD予測システムにおいて訓練済みRSD予測モデルを構築するための例示的なプロセス500を示すフローチャートを提示する。1つ以上の実施形態では、
図5のステップのうちの1つ以上は、省略しても、繰り返しても、かつ/又は異なる順序で実行してもよい。したがって、
図5に示されるステップの特定の配列は、本技法の範囲を限定するものとして解釈されるべきではない。
【0082】
プロセス500は、標的の外科的処置、例えば、胃バイパス処置の記録されたトレーニングビデオを受信することによって開始する(ステップ502)。いくつかの実施形態では、標的外科的処置は、ルーワイ胃バイパス処置又はスリーブ状胃切除処置である。いくつかの実施形態では、トレーニングビデオ内に描写された標的の外科的処置は、ゴールドスタンダードを実施する外科医によって、又は他の場合には、標準的な様式で所与の外科的処置を実行することに熟練した外科医によって実行される。次に、プロセス500は、受信されたトレーニングビデオ内の各フレームにラベル付けして、フレームをそれぞれのタイミング情報に関連付ける(ステップ504)。いくつかの実施形態では、タイミング情報は、トレーニングビデオ内のフレームの順序に基づくシーケンシャルなフレーム番号である。いくつかの実装形態では、プロセス500は、追加でかつ任意選択的に、トレーニングビデオ内のフレームのセットに手術フェーズ/ステップラベルでラベル付けすることができる。
【0083】
次に、プロセス500は、ラベル付けされたトレーニングビデオの進捗に従って、漸進的な半教師あり学習プロセスに進む。具体的には、プロセス500は、ラベル付けされたトレーニングビデオ内の現在時刻Tにおけるトレーニングデータセット内にトレーニングデータポイントを生成する(ステップ506)。いくつかの実施形態では、プロセス500は、現在時刻Tにおけるラベル付けされたトレーニングビデオの現在のフレームを最初に取得することによって、現在時刻Tにおけるトレーニングデータポイントを生成する。次に、プロセス500は、現在時刻T以前のラベル付けされたトレーニングビデオの部分から、Nー1個の「以前の」フレームをランダムにサンプリングすることによって、N-1個の追加フレームを生成する。プロセス500は、その後、N-1個のランダムにサンプリングされたフレームと配列された現在のフレームとを元の時間的順序で組み合わせて、現在時刻Tにおける対応するトレーニングデータポイントを取得する。
【0084】
次に、プロセス500は、現在時刻における生成されたトレーニングデータポイント及び対応する標的RSD値を使用して、RSD予測モデルにおけるニューラルネットワークパラメータのセットを調整する(ステップ508)。いくつかの実施形態では、所与の生成されたトレーニングデータポイント及び対応する標的RSDに基づいてニューラルネットワークパラメータのセットを調整することは、対応する標的RSD値に合うように訓練されているRSD予測モデルを使用してRSD値を予測することを含む。次に、プロセス500は、ラベル付けされたトレーニングビデオの終了に達したかどうかを判定する(ステップ510)。達していない場合、プロセス500は、その後、ステップ506に戻り、所定の時間間隔に基づいて、ラベル付けされたトレーニングビデオ内の次の現在時刻Tにおけるトレーニングデータセット内の次のトレーニングデータポイントを生成することによって、漸進的トレーニングプロセスを継続する。ラベル付けされたトレーニングビデオの終了に達すると、漸進的トレーニングプロセス500は終了する。
【0085】
単一のトレーニングビデオの使用に基づいてプロセス500を説明してきたが、
図3のモデルトレーニングシステム300と併せて説明されるいくつかの実施形態に従って、プロセス500を、複数のトレーニングビデオを含むように容易に修正できることに留意されたい。更に、プロセス500におけるモデルトレーニングプロセスは、単一エポックの様式で説明されるが、
図3のモデルトレーニングシステム300と併せて説明されるいくつかの実施形態に従って、プロセス500をマルチエポックモデルトレーニングプロセスへと容易に修正することができる。
【0086】
図6は、本明細書に記載されるいくつかの実施形態による、開示されたRSD予測システムにおいてRSD予測モデルを訓練するための別の例示的なプロセス600を示すフローチャートを提示する。1つ以上の実施形態では、
図6のステップのうちの1つ以上は、省略しても、繰り返しても、かつ/又は異なる順序で実行してもよい。したがって、
図6に示されるステップの特定の配列は、本技法の範囲を限定するものとして解釈されるべきではない。
【0087】
プロセス600は、標的の外科的処置、例えば、胃バイパス処置のラベル付けされたトレーニングビデオを受信することによって開始する(ステップ602)。いくつかの実施形態では、ラベル付けされたトレーニングビデオのセットは、同様に、例えば、標準的な手術ステップの同じセットを実行することによって標的の外科的処置を実行することができる多数の外科医によって実行された標的の外科的処置の記録された手術ビデオを含むことができる。しかしながら、ラベル付けされたトレーニングビデオのセットはまた、手術ステップのセットを実行する順序の変更など、標的の外科的処置を行う際の変更も含むことができる。いくつかの実施形態では、ラベル付けされたトレーニングビデオのセットは、上述のトレーニングビデオラベル付け技法を使用して、対応する生のトレーニングビデオのセットから取得された。具体的に言えば、ラベル付けされた各トレーニングビデオは、関連付けられたビデオフレームのタイムスタンプを含む。いくつかの実施形態では、ビデオフレームのタイムスタンプは、フレーム番号ラベルのセットによって表される。
【0088】
次に、プロセス600は、ラベル付けされたトレーニングビデオのセットから、M個のトレーニングビデオのサブセットをランダムに選択する(ステップ604)。いくつかの実施形態では、所与の時間における複数のトレーニングデータポイントを処理するための計算リソース制限に基づいて、数Mを判定することができる。具体的に言えば、RSD予測モデルを訓練するためにシステムによって使用される1つ以上のプロセッサ(例えば、1つ以上のグラフィック処理ユニット(GPU))のメモリ制限に基づいて、数Mを判定することができる。プロセス600は、その後、M個の選択されたトレーニングビデオに基づいて、反復モデル調整手順を開始する。
【0089】
具体的には、モデル調整手順の所与の反復において、プロセス600は、M個のトレーニングビデオの各々について、所与のトレーニングビデオの開始と終了との間のタイムスタンプをランダムに選択する(ステップ606)。ラベル付けされたトレーニングビデオ内のフレーム番号ラベル及び対応する実際のタイムスタンプは、互いに対して一意に関連しているので、ステップ606におけるランダムタイムスタンプは、フレーム番号又は実際の時間のいずれかの形態で提供され得ることに留意されたい。その後、プロセス600は、M個のトレーニングビデオに関連付けられたM個のランダムに選択されたタイムスタンプに基づいて、M個のトレーニングビデオの各々のビデオフレームを抽出する(ステップ608)。次に、M個のトレーニングビデオの各々M個のランダムに選択されたビデオフレームの各々について、プロセス600は、上述のNフレーム生成技法を使用して、対応するトレーニングビデオ内の所与のビデオフレームについて、N個のフレームのセットを構築する(ステップ610)。その結果、プロセス600は、M個のトレーニングビデオから抽出されたN個のフレームのM個のセットを含むトレーニングデータのバッチを生成する。
【0090】
その後、プロセス600は、トレーニングデータのバッチを使用して、RSD予測モデルの重み及びバイアスなど、モデルパラメータを更新する(ステップ612)。例えば、プロセス600は、トレーニングデータのバッチに基づいて、モデルパラメータを訓練する際に勾配降下法などの最適化技法を使用することができる。次に、プロセス600は、検証データセットに対して、更新されたRSD予測モデルを評価する(ステップ614)。プロセス600は、その後、訓練済みモデルからのRSD予測誤差がプラトーに達したか、又は許容可能な誤差マージン内に達したかを判定する(ステップ616)。達していない場合、プロセス600は、ステップ606に戻り、RSD予測モデルトレーニングプロセスの新たな反復を開始する。達した場合には、RSD予測モデルトレーニングプロセス600は終了する。
【0091】
更なる利益及び適用例
ORのスケジュール設定を目的として、現在の外科的処置には、典型的には、統計的平均時間に基づいてスケジュールされたOR時間が割り当てられ、現在の外科的処置の後に、次のスケジュールされた外科的処置が続くことに留意されたい。以前のRSD予測技法は、スケジュールされたOR時間とあまり異ならないので、従来のRSD予測技法は、典型的には、外科的処置の開始時により正確である。しかしながら、RSD予測において、様々な合併症要因及び通常とは異なる事象の影響が、外科的処置の終了に向かってますます顕著になるので、RSD予測誤差は、典型的には、外科的処置の終了に向かって増大する。
【0092】
対照的に、開示されるRSD予測モデル206によって生成されるリアルタイムRSD予測は、外科的処置の終了に向かってますます正確になり、外科的処置の終了近くの正確なRSD予測は、次の手術クルーによって準備ために使用され得る。例えば、2時間の長さの外科的処置の場合、RSD予測精度は、外科的処置の終了に向かって、外科的処置の最後の30分増大し続ける。開示されるRSD予測システム及び技法のこの特性は、次のスケジュールされた外科的処置の外科医及び手術クルーに、進行中の外科的処置の終了近くに、例えば、RSD予測が30分未満であるときに、非常に信頼性の高いRSD予測を提供する。したがって、次のスケジュールされた外科的処置の外科医には、現在の外科的処置がいつ終了するかを正確に分かり、それによって、この外科医は、準備し、それに応じてORに到着するための時間バッファを計画することができる。
【0093】
代替的に、手術クルーは、リアルタイムRSD予測が術前準備のための所定の時間バッファに等しくなったときに、次のスケジュールされた外科的処置の準備を開始することができる。言い換えれば、正確なRSD予測により、現在の外科的処置がまだ進行中であるときに、次のスケジュールされた外科的処置のための術前準備を実行することが可能になる。例えば、RSD予測が20分マークに達したときに、手術クルーは、次のスケジュールされた外科的処置のためにORを準備し始めることができるが、現在の外科的処置の最後の数分間待機することはない。これにより、現在の外科的処置から次のスケジュールされた外科的処置へと、非常に短い間隙で又は間隙なしに、シームレスに移行することが可能になる。
【0094】
時間の関数としての理想的なRSD予測曲線は、時間とともにy値が線形に減少する、すなわち、RSD値が減少する負の傾きの線のようであることに留意されたい。多くの状況において、実際のRSD予測は、理想的な予測曲線に従うことが多い。しかしながら、いくつかの状況では、様々な異常事象により、実際のRSD予測を理想的なRSD予測曲線から著しく逸脱させることがある。外科的処置中の異常事象の1つのタイプは、難しい解剖学的構造に関連付けられる合併症の発生に起因する。別のタイプの異常事象は、出血又は(例えば、曇り又は血液により覆われることに起因する)カメラ視野の遮断など、通常とは異なる事象の発生によるものである。異常事象の発生は、通常、外科的処置に余分な時間/遅延を加える。
【0095】
いくつかの実施形態では、開示されるRSD予測技法は、標準的なRSD予測曲線(例えば、ゴールドスタンダードを実施する外科医によって生成される)から突然逸脱する(例えば、跳ね上がる)ようにRSD予測出力/曲線に反映される異常事象によって引き起こされる遅延を予測するように構成される。開示されるRSD予測技法は、そのような合併症事象及び他の異常/通常とは異なる事象を、リアルタイムRSD予測出力に基づいてそのような事象の早期に又は開始時に自動的かつ瞬時に識別することを容易にする。例えば、リアルタイムRSD予測出力は、合併症の可能性を示すリアルタイムRSD予測曲線の傾きの突然の変化を引き起こすことがある。別の例として、RSD予測曲線を使用すると、予測出力が突然上昇し、その後、RSD予測曲線の一般的な傾きに従うように下降して戻ることに気付くことによって、外科医が外科的処置の順序を切り替えているときを識別することができる。そのような異常事象を瞬時にリアルタイムで識別する能力は、外部の補助者を必要とする外科的処置中の潜在的な問題を識別することを可能にすることに留意されたい。
【0096】
別の利点は、同じ外科的処置を実行している2人の外科医を比較することである。外科的処置について高度に熟練したゴールドスタンダードを実施する外科医でモデルを訓練することができる。その後、訓練済みモデルを、ゴールドスタンダードを実施する外科医のようになるように訓練中の別の外科医に適用する。次いで、ゴールドスタンダードを実施する外科医のRSD曲線(「ゴールドスタンダードRSD曲線」とも呼ばれる)全体を訓練中の外科医からのRSD曲線全体と比較すると、トレーニングRSD曲線が外科的処置を通じて加速及び減速するので、訓練中の外科医がゴールドスタンダード曲線よりも速く又は遅くなるトレーニングRSD曲線内の場所を識別することができる。このような比較により、訓練中の外科医がRSD予測出力の術後レビューを実施することが可能になる。
【0097】
図7は、主題の技術のいくつかの実施形態を実装することができるコンピュータシステムを概念的に示す。コンピュータシステム700は、クライアント、サーバ、コンピュータ、スマートフォン、PDA、ラップトップ、又は1つ以上のプロセッサが埋め込まれた若しくは結合されたタブレットコンピュータ、あるいは任意の他の種類のコンピューティングデバイスであり得る。そのようなコンピュータシステムは、様々なタイプのコンピュータ可読媒体、及び様々な他のタイプのコンピュータ可読媒体のためのインターフェースを含む。コンピュータシステム700は、バス702、処理ユニット(単数又は複数)712、システムメモリ704、読み出し専用メモリ(read-only memory、ROM)710、永続的記憶デバイス708、入力デバイスインターフェース714、出力デバイスインターフェース706、及びネットワークインターフェース716を含む。いくつかの実施形態では、コンピュータシステム700は、ロボット手術システムの一部である。
【0098】
バス702は、コンピュータシステム700の数多くの内部デバイスを通信可能に接続する全てのシステムバス、周辺バス、及びチップセットバスを集合的に表す。例えば、バス702は、処理ユニット(単数又は複数)712を、ROM710、システムメモリ704、及び永続的記憶デバイス708と通信可能に接続する。
【0099】
これらの様々なメモリユニットから、処理ユニット(単数又は複数)712は、
図2~
図6に関連して説明される様々なリアルタイムRSD予測手順及び様々なRSD予測モデルトレーニング手順を含む、本特許の開示に記載される様々なプロセスを実行するために、実行すべき命令及び処理すべきデータを取り出す。処理ユニット(単数又は複数)712は、マイクロプロセッサ、グラフィック処理ユニット(GPU)、テンソル処理ユニット(TPU)、インテリジェントプロセッサユニット(IPU)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、及び特定用途向け集積回路(ASIC)を含むが、これらには限定されない、任意のタイプのプロセッサを含むことができる。処理ユニット(単数又は複数)712は、異なる実装形態では、シングルプロセッサ又はマルチコアプロセッサであり得る。
【0100】
ROM710は、処理ユニット(単数又は複数)712及びコンピュータシステムの他のモジュールによって必要とされる静的データ及び命令を記憶する。一方、永続的記憶デバイス708は、読み出し/書き込みメモリデバイスである。このデバイスは、コンピュータシステム700がオフのときであっても命令及びデータを記憶する不揮発性メモリユニットである。主題の開示のいくつかの実装形態は、永続的記憶デバイス708としてマス記憶デバイス(磁気ディスク又は光ディスク、並びにその対応するディスクドライブなど)を使用する。
【0101】
他の実装形態は、永続的デバイス708としてリムーバル記憶装置(フロッピーディスク、フラッシュトライブ、及びその対応するディスクドライブなど)を使用する。永続的記憶デバイス708と同様に、システムメモリ704は、読み出し/書き込みメモリデバイスである。しかしながら、記憶デバイス708とは異なり、システムメモリ704は、ランダムアクセスメモリなどの揮発性読み出し/書き込みメモリデバイスである。システムメモリ704は、プロセッサが実行時に必要とする命令及びデータの一部を記憶する。いくつかの実装形態では、
図2~
図6に関連して説明される様々なリアルタイムRSD予測手順及び様々なRSD予測モデルトレーニング手順を含む、本特許の開示に記載される様々なプロセスは、システムメモリ704、永続的記憶デバイス708、及び/又はROM710に記憶される。これらの様々なメモリユニットから、処理ユニット(単数又は複数)712は、いくつかの実装形態のプロセスを実行するために、実行すべき命令及び処理すべきデータを取り出す。
【0102】
バス702はまた、入力デバイスインターフェース714及び出力デバイスインターフェース706に接続する。入力デバイスインターフェース714は、ユーザがコンピュータシステムに情報を通信し、コンピュータシステムのコマンドを選択することを可能にする。入力デバイスインターフェース714とともに使用される入力デバイスは、例えば、英数字キーボード及びポインティングデバイス(「カーソル制御デバイス」とも呼ばれる)を含む。出力デバイスインターフェース706は、例えば、コンピュータシステム700によって生成された画像の表示を可能にする。出力デバイスインターフェース706とともに使用される出力デバイスは、例えば、プリンタ、及び陰極線管(cathode ray tube、CRT)又は液晶ディスプレイ(liquid crystal display、LCD)などのディスプレイデバイスを含む。いくつかの実装形態は、入力デバイスと出力デバイスの両方として機能するタッチスクリーンなどのデバイスを含む。
【0103】
最後に、
図7に示すように、バス702はまた、ネットワークインターフェース716を介してコンピュータシステム700をネットワーク(図示せず)に結合する。このように、コンピュータは、コンピュータのネットワーク(ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、イントラネット、又はインターネットなどのネットワークのネットワークなど、の一部であり得る。コンピュータシステム700の任意の又は全ての構成要素は、主題の開示と併せて使用され得る。
【0104】
本特許の開示で開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装され得る。ハードウェア及びソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップについて、全般的に、それらの機能に関して上述した。そのような機能がハードウェアとして実装されるか、又はソフトウェアとして実装されるかは、特定の適用例及びシステム全体に課される設計上の制約に依存する。当業者は、特定の適用例ごとに変動する方法で説明した機能を実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすものとして解釈されるべきではない。
【0105】
本明細書に開示される態様に関連して説明される様々な例示的な論理、論理ブロック、モジュール、及び回路を実装するために使用されるハードウェアは、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、個別ゲート論理又は個別トランジスタ論理、個別ハードウェア構成要素、あるいは、本明細書に記載される機能を実行するように設計されたそれらの任意の組み合わせにより実装又は実行され得る。汎用プロセッサはマイクロプロセッサであってもよいが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンであってもよい。プロセッサはまた、受信機デバイスの組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと併せた1つ以上のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。代替的に、いくつかのステップ又は方法は、所与の機能に固有の回路によって実行され得る。
【0106】
1つ以上の例示的な態様では、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、機能は、非一時的コンピュータ可読記憶媒体又は非一時的プロセッサ可読記憶媒体上に、1つ以上の命令又はコードとして記憶され得る。本明細書で開示される方法又はアルゴリズムのステップは、非一時的コンピュータ可読記憶媒体又はプロセッサ可読記憶媒体上に常駐し得るプロセッサ実行可能命令において具現化され得る。非一時的コンピュータ可読記憶媒体又はプロセッサ可読記憶媒体は、コンピュータ又はプロセッサによってアクセスされ得る任意の記憶媒体であり得る。限定ではないが例として、そのような非一時的なコンピュータ可読又はプロセッサ可読の記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ、CD-ROM又は他の光学ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶デバイス、あるいは、命令又はデータ構造の形式で所望のプログラムコードを記憶するために使用することができ、かつコンピュータによってアクセスすることができる任意の他の媒体を含み得る。本明細書で使用される「ディスク(disk)」及び「ディスク(disc)」という用語は、コンパクトディスク(CD)、レーザディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)はデータをレーザを用いて光学的に再生する。上記の組み合わせはまた、非一時的コンピュータ可読媒体及び非一時的プロセッサ可読媒体の範囲内に含まれる。更に、方法又はアルゴリズムの動作は、コンピュータプログラム製品に組み込まれ得る、非一時的プロセッサ可読記憶媒体及び/又は非一時的コンピュータ可読記憶媒体上のコード及び/又は命令のうちの1つ又は任意の組み合わせ、あるいはそれらのセットとして常駐し得る。
【0107】
本特許文書は、多くの詳細を含むが、これらは、いかなる開示された技術の範囲又は特許請求の範囲に記載され得るものの範囲に対する限定としてではなく、むしろ、特定の技術の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態の文脈の中で本特許文書で記載される特定の特徴はまた、単一の実施形態において組み合わされて実施され得る。逆に、単一の実施形態の文脈の中で記載される様々な特徴はまた、複数の実施形態において別個に、又は任意の適切な部分的組み合わせで実施され得る。更に、幾つかの特徴が特定の組み合わせで機能するものとして上記で記載されているが、更には初期的にはそのように特許請求している場合であっても、特許請求された組み合わせからの1つ以上の特徴は、場合によってはこの組み合わせから除外されてもよく、特許請求された組み合わせが、部分的組合せ又は部分的な組合せの変形を目的としてもよい。
【0108】
同様に、操作が特定の順序で図面中に示されるが、これは、このような操作が示される特定の順序で若しくは順次に実施されること、又は全ての図示する操作が所望の結果を達成するために実施されることが必要であると理解されるべきではない。更に、本特許文書に記載される実施形態における様々なシステム構成要素の分離は、全ての実施形態においてそのような分離を必要とすると理解されるべきではない。
【0109】
いくつかの実装形態及び例のみが記載されており、本特許文書で説明及び図示されているものに基づいて他の実装形態、拡張形態、及び変形形態が行われ得る。
【0110】
〔実施の態様〕
(1) 外科的処置のライブ手術セッションの残存手術時間(RSD)を、前記ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するためのコンピュータ実装方法であって、
前記ライブ手術セッションの現在時刻における前記内視鏡ビデオの現在のフレームを受信することであって、前記現在時刻は、前記ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある、受信することと、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記N個のフレームのセットを、前記外科的処置のための訓練済みRSD機械学習(ML)モデルに供給することと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を出力することと、
を含む、コンピュータ実装方法。
(2) 前記N-1個のランダムにサンプリングされたフレームが、前記ライブ手術セッションの前記経過部分中に発生した様々な事象の十分に正確なスナップショットを提供するように、Nが十分に大きくなるように選択される、実施態様1に記載のコンピュータ実装方法。
(3) 前記ライブ手術セッションの前記経過部分をランダムにサンプリングすることは、連続RSD予測を行っている間に、前記内視鏡ビデオ内の所与のフレームを異なる予測タイムポイントにおいて2回以上サンプリングすることを可能にする、実施態様1に記載のコンピュータ実装方法。
(4) 前記方法は、前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルを使用して、前記ライブ手術セッションの完了率の予測を生成することを更に含む、実施態様1に記載のコンピュータ実装方法。
(5) 前記方法は、
現在のRSD予測のセットを生成するために、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングするステップと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得するステップと、
前記N個のフレームのセットを、訓練済みRSD MLモデルに供給するステップと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を生成するステップと、
を複数回繰り返すことと、
前記現在のRSD予測のセットの平均値及び分散値を計算することと、
前記計算された平均値及び分散値を前記現在のRSD予測として使用することによって、前記現在のRSD予測を改善することと、
によって、前記現在時刻における前記現在のRSD予測を改善すること、を更に含む、実施態様1に記載のコンピュータ実装方法。
【0111】
(6) 前記方法は、
前記内視鏡ビデオ内の予測タイムポイントの前記シーケンスに対応するリアルタイムRSD予測の連続シーケンスを生成することと、
リアルタイムRSD予測の前記シーケンスにおける高周波ジッタを除去することによって前記RSD予測を平滑化するために、リアルタイムRSD予測の前記シーケンスにローパスフィルタを適用することと、
によって、前記RSD予測を改善すること、を更に含む、実施態様1に記載のコンピュータ実装方法。
(7) 前記方法は、
前記外科的処置のトレーニングビデオのセットを受信することであって、トレーニングビデオの前記セット内の各ビデオは、前記外科的処置に熟練した外科医によって実行される前記外科的処置の実行に対応する、受信することと、
トレーニングビデオの前記セット内の各トレーニングビデオについて、所定の時間間隔に従って、前記トレーニングビデオ全体にわたる等間隔のタイムポイントのシーケンスにおいてトレーニングデータ生成ステップのシーケンスを実行することによって、ラベル付けされたトレーニングデータのセットを構築することであって、タイムポイントの前記シーケンス内の対応するタイムポイントにおけるトレーニングデータ生成ステップの前記シーケンス内の各トレーニングデータ生成ステップが、
前記対応するタイムポイントにおける前記トレーニングビデオの現在のフレームを受信することと、
前記トレーニングビデオの開始と前記現在のフレームとの間の、前記手術セッションの前記経過部分に対応する前記トレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記現在のフレームに関連付けられたラベルで、前記N個のフレームのセットにラベル付けすることと、
を含む、構築することと、
トレーニングビデオの前記セットに関連付けられたラベル付けされたトレーニングデータの複数のセットを出力することと、
によって、トレーニングデータセットを生成すること、
を更に含む、実施態様1に記載のコンピュータ実装方法。
(8) 前記方法は、
畳み込みニューラルネットワーク(CNN)モデルを受信することと、
ラベル付けされたトレーニングデータの前記複数のセットを含む前記トレーニングデータセットを用いて前記CNNモデルを訓練することと、
前記訓練されたCNNモデルに基づいて前記訓練済みRSD MLモデルを取得することと、
によって、前記訓練済みRSD MLモデルを確立することを更に含む、実施態様7に記載のコンピュータ実装方法。
(9) 前記方法は、前記トレーニングデータセットを生成する前に、
前記トレーニングビデオ内の各ビデオフレームについて、
前記ビデオフレームから前記トレーニングビデオの終了までの残存手術時間を自動的に判定することと、
前記ビデオフレームの前記ラベルとして、前記判定された残存手術時間で前記ビデオフレームに自動的に注釈を付けることと、
によって、トレーニングビデオの前記セット内の各トレーニングビデオにラベル付けすることを更に含む、実施態様7に記載のコンピュータ実装方法。
(10) 前記現在のフレームに関連付けられた前記ラベルは、分単位の関連付けられた残存手術時間を含む、実施態様7に記載のコンピュータ実装方法。
【0112】
(11) 前記CNNモデルは、ビデオフレームのシーケンスを単一の入力として受信するように構成された動作認識ネットワークアーキテクチャ(I3d)を含む、実施態様8に記載のコンピュータ実装方法。
(12) 前記トレーニングデータセットを用いて前記CNNモデルを訓練することは、検証データセットに対して前記CNNモデルを評価することを含む、実施態様8に記載のコンピュータ実装方法。
(13) 外科的処置のライブ手術セッションの残存手術時間(RSD)を、前記ライブ手術セッションのリアルタイム内視鏡ビデオに基づいて、リアルタイムで連続的に予測するためのシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサに結合されたメモリであって、前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記ライブ手術セッションの現在時刻における前記内視鏡ビデオの現在のフレームを受信することであって、前記現在時刻は、前記ライブ手術セッション中に連続RSD予測を行うための予測タイムポイントのシーケンスの中にある、受信することと、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記N個のフレームのセットを、前記外科的処置のための訓練済みRSD機械学習(ML)モデルに供給することと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を出力することと、
を行わせる、命令を記憶している、メモリと、
を備える、システム。
(14) 前記N-1個のランダムにサンプリングされたフレームが、前記ライブ手術セッションの前記経過部分中に発生した様々な事象の十分に正確なスナップショットを提供するように、Nが十分に大きくなるように選択される、実施態様13に記載のシステム。
(15) 前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
現在のRSD予測のセットを生成するために、
前記ライブ手術セッションの開始に対応する前記内視鏡ビデオの開始と前記現在時刻に対応する前記現在のフレームとの間の、前記ライブ手術セッションの経過部分に対応する前記内視鏡ビデオのN-1個の追加フレームをランダムにサンプリングするステップと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得するステップと、
前記N個のフレームのセットを、訓練済みRSD MLモデルに供給するステップと、
前記N個のフレームのセットに基づいて、前記訓練済みRSD MLモデルから現在のRSD予測を生成するステップと、
を複数回繰り返すことと、
前記現在のRSD予測のセットの平均値及び分散値を計算することと、
前記計算された平均値及び分散値を前記現在のRSD予測として使用することによって、前記現在のRSD予測を改善することと、
によって、前記現在時刻における前記現在のRSD予測を改善させる命令を更に記憶している、実施態様13に記載のシステム。
【0113】
(16) 前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記内視鏡ビデオ内の予測タイムポイントの前記シーケンスに対応するリアルタイムRSD予測の連続シーケンスを生成することと、
リアルタイムRSD予測の前記シーケンスにおける高周波ジッタを除去することによって前記RSD予測を平滑化するために、リアルタイムRSD予測の前記シーケンスにローパスフィルタを適用することと、
によって、前記RSD予測を改善させる命令を更に記憶している、実施態様13に記載のシステム。
(17) 前記メモリは、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記外科的処置のトレーニングビデオのセットを受信することであって、トレーニングビデオの前記セット内の各ビデオは、前記外科的処置に熟練した外科医によって実行される前記外科的処置の実行に対応する、受信することと、
トレーニングビデオの前記セット内の各トレーニングビデオについて、所定の時間間隔に従って、前記トレーニングビデオ全体にわたる等間隔のタイムポイントのシーケンスにおいてトレーニングデータ生成ステップのシーケンスを実行することによって、ラベル付けされたトレーニングデータのセットを構築することであって、タイムポイントの前記シーケンス内の対応するタイムポイントにおけるトレーニングデータ生成ステップの前記シーケンス内の各トレーニングデータ生成ステップが、
前記対応するタイムポイントにおける前記トレーニングビデオの現在のフレームを受信することと、
前記トレーニングビデオの開始と前記現在のフレームとの間の、前記外科的処置の前記経過部分に対応する前記トレーニングビデオのN-1個の追加フレームをランダムにサンプリングすることと、
前記N-1個のランダムにサンプリングされたフレームと前記現在のフレームとを時間的順序で組み合わせて、N個のフレームのセットを取得することと、
前記現在のフレームに関連付けられたラベルで、前記N個のフレームのセットにラベル付けすることと、
を含む、構築することと、
トレーニングビデオの前記セットに関連付けられたラベル付けされたトレーニングデータの複数のセットを出力することと、
によって、トレーニングデータセットを生成させる命令を更に記憶している、実施態様13に記載のシステム。
(18) 前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
畳み込みニューラルネットワーク(CNN)モデルを受信することと、
トレーニングビデオの前記セットに対応するラベル付けされたトレーニングデータの前記複数のセットを含む前記トレーニングデータセットを用いて前記CNNモデルを訓練することと、
前記訓練されたCNNモデルに基づいて前記訓練済みRSD MLモデルを取得することと、
によって、前記訓練済みRSD MLモデルを確立させる命令を更に記憶している、実施態様17に記載のシステム。
(19) 前記メモリが、前記1つ以上のプロセッサによって実行されると、前記システムに、
ラベル付けされたトレーニングデータの前記複数のセット内のラベル付けされたトレーニングデータの各セットから1つのラベル付けされたトレーニングデータをランダムに選択することと、
ランダムに選択されたラベル付けされたトレーニングデータの前記セットを組み合わせて、トレーニングデータのバッチを形成することと、
トレーニングデータの前記バッチを用いて前記CNNモデルを訓練して、前記CNNモデルを更新することと、
によって、ラベル付けされたトレーニングデータの前記複数のセットを用いて前記CNNモデルを訓練させる命令を更に記憶している、実施態様18に記載のシステム。
(20) 前記CNNモデルは、ビデオフレームのシーケンスを単一の入力として受信するように構成された動作認識ネットワークアーキテクチャ(I3d)を含む、実施態様18に記載のシステム。
【国際調査報告】