(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】医用画像をリアルタイムで処理するためのシステムおよび方法
(51)【国際特許分類】
G16H 30/20 20180101AFI20240723BHJP
【FI】
G16H30/20
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023580547
(86)(22)【出願日】2022-07-04
(85)【翻訳文提出日】2024-01-29
(86)【国際出願番号】 CA2022051054
(87)【国際公開番号】W WO2023279199
(87)【国際公開日】2023-01-12
(32)【優先日】2021-07-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523487553
【氏名又は名称】エー.アイ.ヴァリ インコーポレイテッド
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】アザド,アザール
(72)【発明者】
【氏名】シィオン,ボー
(72)【発明者】
【氏名】アームストロング,デイビッド
(72)【発明者】
【氏名】ファン,キイン
(72)【発明者】
【氏名】フリート,デイビッド
(72)【発明者】
【氏名】リヴン,ミシャ
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA26
(57)【要約】
本明細書では、少なくとも1つの関心対象物体(OOI)を有する1つ以上の画像に対するアノテーションデータであって、少なくとも1つのOOIを有する1つ以上の画像にユーザがコメントすることによって提供された発話から生成されたテキストを含む、アノテーションデータと、分類とを使用して、自動的に生成された注釈付き画像のために医療診断処置中に取得された画像および発話を分析するためのシステムに関する様々な実施形態について記載される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
医療処置のための医用画像データを分析するためのシステムであって、
前記医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
一連の画像から少なくとも1つの画像を受信すること、
前記少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定すること、
前記医療処置中に、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示すること、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識すること、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換すること、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合すること、および
前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成すること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。
【請求項2】
前記少なくとも1つのプロセッサが、前記発話が、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する少なくとも1つの参照画像の要求として認識されたとき、前記少なくとも1つの参照画像を表示し、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信するようにさらに構成されている、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサが、前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信するようにさらに構成されている、請求項1または2に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサが、前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている、請求項1~3のいずれか一項に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサが、所与の画像内の所与のOOIについて、
前記所与の画像内の前記所与のOOIに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと
を行うようにさらに構成されている、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク(CNN)を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
によって前記OOIの前記分類を決定するように構成されている、請求項1~5のいずれか一項に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサが、前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像にタイムスタンプをオーバーレイするようにさらに構成されている、請求項1~6のいずれか一項に記載のシステム。
【請求項8】
前記少なくとも1つのプロセッサが、前記少なくとも1つの画像の前記信頼スコアをディスプレイ上または前記レポート内にリアルタイムで示すようにさらに構成されている、請求項4~7のいずれか一項に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
によって前記医療処置中に前記入力音声を受信するように構成されている、請求項1~8のいずれか一項に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサが、前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定するようにさらに構成されている、請求項1~9のいずれか一項に記載のシステム。
【請求項11】
前記少なくとも1つのプロセッサが、
前記レポートに追加するための患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像を含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成するようにさらに構成されている、請求項4~10のいずれか一項に記載のシステム。
【請求項12】
前記少なくとも1つのプロセッサが、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行するようにさらに構成されている、請求項1~11のいずれか一項に記載のシステム。
【請求項13】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項12に記載のシステム。
【請求項14】
前記少なくとも1つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項12または13に記載のシステム。
【請求項15】
前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項12~14のいずれか一項に記載のシステム。
【請求項16】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項14または請求項15に記載のシステム。
【請求項17】
前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項12~16のいずれか一項に記載のシステム。
【請求項18】
前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
によって前記少なくとも1つのOOIの前記分類を決定するようにさらに構成されている、請求項17に記載のシステム。
【請求項19】
前記少なくとも1つのプロセッサが、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている、請求項1~18のいずれか一項に記載のシステム。
【請求項20】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項1~19のいずれか一項に記載のシステム。
【請求項21】
前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項1~20のいずれか一項に記載のシステム。
【請求項22】
医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするためのシステムであって、
前記機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成すること、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択すること、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成すること、および
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。
【請求項23】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項22に記載のシステム。
【請求項24】
前記少なくとも1つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項22または23に記載のシステム。
【請求項25】
前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項22~24のいずれか一項に記載のシステム。
【請求項26】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項24または請求項25に記載のシステム。
【請求項27】
前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項22~26のいずれか一項に記載のシステム。
【請求項28】
前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を行うようにさらに構成されている、請求項22~27のいずれか一項に記載のシステム。
【請求項29】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項22~28のいずれか一項に記載のシステム。
【請求項30】
前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22~29のいずれか一項に記載のシステム。
【請求項31】
前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22~30のいずれか一項に記載のシステム。
【請求項32】
1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項22~31のいずれか一項に記載のシステム。
【請求項33】
医療処置のための医用画像データを分析するための方法であって、
一連の画像から少なくとも1つの画像を受信することと、
前記少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定することと、
前記医療処置中に、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示することと、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識することと、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換することと、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合することと、
前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成することと
を含む方法。
【請求項34】
前記発話が、前記分類を含む少なくとも1つの参照画像の要求を含むものとして認識されたとき、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する前記少なくとも1つの参照画像を表示し、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信することをさらに含む請求項33に記載の方法。
【請求項35】
前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信することをさらに含む、請求項33または請求項34に記載の方法。
【請求項36】
前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成することをさらに含む請求項33~36のいずれか一項に記載の方法。
【請求項37】
所与の画像内の所与のOOIについて、
前記所与の画像内の前記所与のOOIに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと
をさらに含む、請求項33~36のいずれか一項に記載の方法。
【請求項38】
前記OOIの前記分類を決定することが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク(CNN)を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
を含む、請求項33~37のいずれか一項に記載の方法。
【請求項39】
前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像にタイムスタンプをオーバーレイすることをさらに含む請求項33~38のいずれか一項に記載の方法。
【請求項40】
前記少なくとも1つの画像の前記信頼スコアをディスプレイ上または前記レポート内にリアルタイムで示すことをさらに含む請求項33~39のいずれか一項に記載の方法。
【請求項41】
前記医療処置中に前記入力音声を前記受信することが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
を含む、請求項33~40のいずれか一項に記載の方法。
【請求項42】
前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定することをさらに含む請求項33~41のいずれか一項に記載の方法。
【請求項43】
前記レポートに追加するための患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像を含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成することをさらに含む、請求項33~42のいずれか一項に記載の方法。
【請求項44】
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行することをさらに含む、請求項33~43のいずれか一項に記載の方法。
【請求項45】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項44に記載の方法。
【請求項46】
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項44または請求項45に記載の方法。
【請求項47】
前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項44~46のいずれか一項に記載の方法。
【請求項48】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項46または請求項47に記載の方法。
【請求項49】
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項44~48のいずれか一項に記載の方法。
【請求項50】
前記少なくとも1つのOOIの前記分類を前記決定することが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を含む、請求項49に記載の方法。
【請求項51】
新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む請求項43~50のいずれか一項に記載の方法。
【請求項52】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項43~51のいずれか一項に記載の方法。
【請求項53】
前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項33~52のいずれか一項に記載の方法。
【請求項54】
医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするための方法であって、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成することと、
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすることと
を含む方法。
【請求項55】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項54に記載の方法。
【請求項56】
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項54または請求項55に記載の方法。
【請求項57】
前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項54~56のいずれか一項に記載の方法。
【請求項58】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項56または請求項57に記載の方法。
【請求項59】
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項54~58のいずれか一項に記載の方法。
【請求項60】
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
をさらに含む請求項54~59のいずれか一項に記載の方法。
【請求項61】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項54~60のいずれか一項に記載の方法。
【請求項62】
前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54~61のいずれか一項に記載の方法。
【請求項63】
前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54~62のいずれか一項に記載の方法。
【請求項64】
1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項54~63のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年7月4日に出願された米国仮特許出願第63/218,357号の利益を主張し、米国仮特許出願第63/218,357号の内容全体が本明細書に組み込まれるものとする。
【0002】
本明細書では、一般に、医用画像をリアルタイムで処理するためのシステム、ならびにその方法およびコンピュータプログラム製品に関する様々な実施形態について記載される。
【背景技術】
【0003】
以下のパラグラフは、本開示の背景として提供される。しかしながら、本明細書で論じられるいかなるものも、従来技術または当業者の知識の一部であることを認めるものではない。
【0004】
医用イメージングは、疾患の診断を確認し、治療に対する患者の反応を監視し、場合によっては治療処置を提供するために必要な入力を提供する。いくつかの異なる医用イメージングモダリティを、様々な医療診断処置に使用することができる。医用イメージングモダリティの例には、胃腸(GI)内視鏡検査、X線検査、MRI、CTスキャン、超音波検査(ultrasound)、超音波検査(ultrasonography)、心エコー検査、膀胱造影検査、腹腔鏡検査などがある。適切な診断を確実にするために、これらの各々は分析が必要である。現在の技術水準では、改善し得る誤診率をもたらす可能性がある。
【0005】
例えば、内視鏡検査は、胃腸疾患の診断を確認し、治療に対する患者の反応を監視し、場合によっては治療処置を提供するためのゴールドスタンダードである。臨床試験中に患者から収集された内視鏡検査ビデオは、通常、バイアスを減らし正確性を高めるために、独立した臨床医によってレビューされる。しかしながら、これらの分析では、ビデオ画像を目視で確認し、その結果を手作業で記録するか、手作業で画像に注釈を付ける必要があり、コストと時間がかかり、標準化が困難である。
【0006】
毎年、何百万人もの患者が誤診され、その半数近くが早期がんに苦しんでいる。大腸がん(CRC)は、世界的にがんによる死亡原因の第3位であるが、早期に発見されれば治療が成功する可能性がある。現在、臨床医は内視鏡/大腸内視鏡のビデオ画像を視覚的に分析した後、手動で診断を報告している。内視鏡検査の誤診率は28%を上回り、これは主にヒューマンエラーによるものである。したがって、誤診は医療システムと患者にとって大きな問題であるとともに、重大な社会経済的影響を及ぼす。
【0007】
従来のシステムは、内視鏡検査中に内視鏡によって生成されたビデオを表示し、ビデオを記録し(まれな場合)、それ以上の機能を提供しない。場合によっては、研究者は、画像をデスクトップに保存し、オフラインのプログラムを使用して、ポリープや他の関心対象物体の周囲に手動で線を引くこともある。しかしながら、この分析は内視鏡検査が実施された後に行われるため、検査が終了した後では、不確定な結果が出た場合でも、臨床医は大腸の領域を再スキャンすることができない。
【0008】
上述の課題および/または欠点に対処するシステムおよび方法が必要とされている。
【発明の概要】
【0009】
本明細書の教示に従って、医用画像をリアルタイムで処理するためのシステムおよび方法、ならびにそれに使用するためのコンピュータ製品の様々な実施形態が提供される。
【0010】
広範な一態様では、本明細書の教示に従って、少なくとも1つの実施形態において、医療処置のための医用画像データを分析するためのシステムが提供され、システムは、医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、プログラム命令を実行すると、一連の画像から少なくとも1つの画像を受信すること、少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、少なくとも1つのOOIが存在するとき、少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定すること、医療処置中に、少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示すること、医療処置中のユーザからの発話を含む入力音声信号を受信し、発話を認識すること、医療処置中に発話が少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムを使用して、発話を少なくとも1つのテキスト文字列に変換すること、少なくとも1つのテキスト文字列を、ユーザからの発話が提供された少なくとも1つの画像と照合すること、および少なくとも1つのテキスト文字列が対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成することを行うように構成された少なくとも1つのプロセッサとを含む。
【0011】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、発話が、少なくとも1つのOOIと同じ分類で分類されたOOIを有する少なくとも1つの参照画像の要求として認識されたとき、少なくとも1つの参照画像を表示し、少なくとも1つのOOIの分類を確認するか、または却下する入力をユーザから受信するようにさらに構成されている。
【0012】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つのOOIが疑わしいと分類されたとき、未決定のOOIを有する少なくとも1つの画像に対するユーザ分類を示す入力をユーザから受信するようにさらに構成されている。
【0013】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている。
【0014】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、所与の画像内の所与のOOIについて、所与の画像内の所与のOOIに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、所与のOOIの分類の確率分布に基づいて信頼スコアを計算することと、信頼スコアが信頼閾値よりも高いとき、バウンディングボックス座標で少なくとも1つの画像上にバウンディングボックスをオーバーレイすることとを行うようにさらに構成されている。
【0015】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、OOIに畳み込みニューラルネットワーク(CNN)を適用することと、畳み込み演算、活性化演算、およびプーリング演算を使用して行列を処理することによって、特徴ベクトルを生成することと、特徴ベクトルに基づいてOOIの分類を実行することとによってOOIの分類を決定するように構成されている。
【0016】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つの注釈付き画像を生成するとき、対応する少なくとも1つの画像にタイムスタンプをオーバーレイするようにさらに構成されている。
【0017】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つの画像の信頼スコアをディスプレイ上またはレポート内にリアルタイムで示すようにさらに構成されている。
【0018】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、一連の画像の表示を一時停止すること、一連の画像内の所与の画像のスナップショットを撮影すること、または最初のボイスコマンドを提供することを含む第1のユーザアクションの検出時に、ユーザからの入力音声の音声ストリームの受信を開始することと、あらかじめ決められた長さの間沈黙のままであること、指定されたボタンを押すこと、または最後のボイスコマンドを提供することを含む第2のユーザアクションの検出時に、音声ストリームの受信を終了することとによって医療処置中に入力音声を受信するように構成されている。
【0019】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、医療処置中に入力音声を受信したときに一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように少なくとも1つの画像を指定するようにさらに構成されている。
【0020】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、レポートに追加するための患者情報データのセットをキャプチャすることと、少なくとも1つの注釈付き画像を含む一連の画像のサブセットをロードすることと、患者情報データのセットと、少なくとも1つの注釈付き画像を含む一連の画像のサブセットとをレポートに結合することとによって医療処置のレポートを生成するようにさらに構成されている。
【0021】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つのトレーニング画像にエンコーダを適用して、少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、少なくとも1つの機械学習モデルに少なくとも1つの特徴ベクトルを適用することによって、トレーニングOOIのクラスを選択することと、少なくとも1つの特徴ベクトルを少なくとも1つのトレーニング画像および少なくとも1つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することとによって少なくとも1つの機械学習モデルのトレーニングを実行するようにさらに構成されている。
【0022】
少なくとも1つの実施形態では、クラスは、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである。
【0023】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも1つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている。
【0024】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、教師あり学習、教師なし学習、または半教師あり学習を使用して、少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている。
【0025】
少なくとも1つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。
【0026】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴空間の一部である特徴に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、新しいトレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、新しいトレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも1つの機械学習モデルを作成するようにさらに構成されている。
【0027】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、デコーダへの入力として1つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの1つをマッピングすることと、少なくとも1つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの1つから新しいトレーニング画像を再構成することとによって少なくとも1つのOOIの分類を決定するようにさらに構成されている。
【0028】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、発話データセットを使用して発話-テキスト変換アルゴリズムをトレーニングすることであって、発話データセットが、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている。
【0029】
少なくとも1つの実施形態では、発話-テキスト変換アルゴリズムは、少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする。
【0030】
少なくとも1つの実施形態では、医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される。
【0031】
広範な別の態様では、本明細書の教示に従って、少なくとも1つの実施形態において、医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするためのシステムが提供され、システムは、機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、プログラム命令を実行すると、少なくとも1つのトレーニング画像にエンコーダを適用して、少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成すること、少なくとも1つの機械学習モデルに少なくとも1つの特徴を適用することによって、トレーニングOOIのクラスを選択すること、少なくとも1つの特徴をトレーニング画像および少なくとも1つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、グランドトゥルーステキストおよびグランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データとグランドトゥルーステキストとの間の一致を識別するように発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成すること、およびトレーニングOOIと少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすることを行うように構成された少なくとも1つのプロセッサとを含む。
【0032】
少なくとも1つの実施形態では、クラスは、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである。
【0033】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも1つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている。
【0034】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、教師あり学習、教師なし学習、または半教師あり学習を使用して、少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている。
【0035】
少なくとも1つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。
【0036】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴を含む特徴空間に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、トレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、トレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも1つの機械学習モデルを作成するようにさらに構成されている。
【0037】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、デコーダへの入力として1つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの1つをマッピングすることと、少なくとも1つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの1つから新しいトレーニング画像を再構成することとを行うようにさらに構成されている。
【0038】
少なくとも1つの実施形態では、発話-テキスト変換アルゴリズムは、少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする。
【0039】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つのテキスト文字列に一致する入力音声を生成する発話-テキスト変換アルゴリズムに基づいて、OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている。
【0040】
少なくとも1つの実施形態では、少なくとも1つのプロセッサは、少なくとも1つのテキスト文字列に一致する入力音声を生成する発話-テキスト変換アルゴリズムに基づいて、OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている。
【0041】
少なくとも1つの実施形態では、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対してトレーニングが行われる。
【0042】
別の広範な態様では、本明細書の教示に従って、少なくとも1つの実施形態において、医療処置のための医用画像データを分析するための方法が提供され、方法は、一連の画像から少なくとも1つの画像を受信することと、少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、少なくとも1つのOOIが存在するとき、少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定することと、医療処置中に、少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示することと、医療処置中のユーザからの発話を含む入力音声信号を受信し、発話を認識することと、医療処置中に発話が少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムを使用して、発話を少なくとも1つのテキスト文字列に変換することと、少なくとも1つのテキスト文字列を、ユーザからの発話が提供された少なくとも1つの画像と照合することと、少なくとも1つのテキスト文字列が対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成することとを含む。
【0043】
少なくとも1つの実施形態では、方法は、発話が、分類を含む少なくとも1つの参照画像の要求を含むものとして認識されたとき、少なくとも1つのOOIと同じ分類で分類されたOOIを有する少なくとも1つの参照画像を表示し、少なくとも1つのOOIの分類を確認するか、または却下する入力をユーザから受信することをさらに含む。
【0044】
少なくとも1つの実施形態では、方法は、少なくとも1つのOOIが疑わしいと分類されたとき、未決定のOOIを有する少なくとも1つの画像に対するユーザ分類を示す入力をユーザから受信することをさらに含む。
【0045】
少なくとも1つの実施形態では、方法は、少なくとも1つの注釈付き画像を含むレポートを自動的に生成することをさらに含む。
【0046】
少なくとも1つの実施形態では、方法は、所与の画像内の所与のOOIについて、所与の画像内の所与のOOIに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、所与のOOIの分類の確率分布に基づいて信頼スコアを計算することと、信頼スコアが信頼閾値よりも高いとき、バウンディングボックス座標で少なくとも1つの画像上にバウンディングボックスをオーバーレイすることとをさらに含む。
【0047】
少なくとも1つの実施形態では、方法は、畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、OOIに畳み込みニューラルネットワーク(CNN)を適用することと、畳み込み演算、活性化演算、およびプーリング演算を使用して行列を処理することによって、特徴ベクトルを生成することと、特徴ベクトルに基づいてOOIの分類を実行することとによってOOIの分類を決定することをさらに含む。
【0048】
少なくとも1つの実施形態では、方法は、少なくとも1つの注釈付き画像を生成するとき、対応する少なくとも1つの画像にタイムスタンプをオーバーレイすることをさらに含む。
【0049】
少なくとも1つの実施形態では、方法は、少なくとも1つの画像の信頼スコアをディスプレイ上またはレポート内にリアルタイムで示すことをさらに含む。
【0050】
少なくとも1つの実施形態では、医療処置中に入力音声を受信することは、一連の画像の表示を一時停止すること、一連の画像内の所与の画像のスナップショットを撮影すること、または最初のボイスコマンドを提供することを含む第1のユーザアクションの検出時に、ユーザからの入力音声の音声ストリームの受信を開始することと、あらかじめ決められた長さの間沈黙のままであること、指定されたボタンを押すこと、または最後のボイスコマンドを提供することを含む第2のユーザアクションの検出時に、音声ストリームの受信を終了することとを含む。
【0051】
少なくとも1つの実施形態では、方法は、医療処置中に入力音声を受信したときに一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように少なくとも1つの画像を指定することをさらに含む。
【0052】
少なくとも1つの実施形態では、方法は、レポートに追加するための患者情報データのセットをキャプチャすることと、少なくとも1つの注釈付き画像を含む一連の画像のサブセットをロードすることと、患者情報データのセットと、少なくとも1つの注釈付き画像を含む一連の画像のサブセットとをレポートに結合することとによって医療処置のレポートを生成することをさらに含む。
【0053】
少なくとも1つの実施形態では、方法は、少なくとも1つのトレーニング画像にエンコーダを適用して、少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、少なくとも1つの機械学習モデルに少なくとも1つの特徴ベクトルを適用することによって、トレーニングOOIのクラスを選択することと、少なくとも1つの特徴ベクトルを少なくとも1つのトレーニング画像および少なくとも1つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することとによって少なくとも1つの機械学習モデルのトレーニングを実行することをさらに含む。
【0054】
少なくとも1つの実施形態では、クラスは、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである。
【0055】
少なくとも1つの実施形態では、方法は、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも1つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることをさらに含む。
【0056】
少なくとも1つの実施形態では、方法は、教師あり学習、教師なし学習、または半教師あり学習を使用して、少なくとも1つの機械学習モデルをトレーニングすることをさらに含む。
【0057】
少なくとも1つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。
【0058】
少なくとも1つの実施形態では、方法は、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴空間の一部である特徴に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、新しいトレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、新しいトレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも1つの機械学習モデルを作成することをさらに含む。
【0059】
少なくとも1つの実施形態では、方法は、デコーダへの入力として1つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの1つをマッピングすることと、少なくとも1つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの1つから新しいトレーニング画像を再構成することとによって少なくとも1つのOOIの分類を決定することをさらに含む。
【0060】
少なくとも1つの実施形態では、方法は、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、発話データセットを使用して発話-テキスト変換アルゴリズムをトレーニングすることであって、発話データセットが、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む。
【0061】
少なくとも1つの実施形態では、発話-テキスト変換アルゴリズムは、少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする。
【0062】
少なくとも1つの実施形態では、医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される。
【0063】
広範な別の態様では、本明細書の教示に従って、少なくとも1つの実施形態において、医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするための方法が提供され、方法は、少なくとも1つのトレーニング画像にエンコーダを適用して、少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成することと、少なくとも1つの機械学習モデルに少なくとも1つの特徴を適用することによって、トレーニングOOIのクラスを選択することと、少なくとも1つの特徴をトレーニング画像および少なくとも1つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、グランドトゥルーステキストおよびグランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データとグランドトゥルーステキストとの間の一致を識別するように発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成することと、トレーニングOOIと少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすることとを含む。
【0064】
少なくとも1つの実施形態では、クラスは、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである。
【0065】
少なくとも1つの実施形態では、方法は、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも1つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることをさらに含む。
【0066】
少なくとも1つの実施形態では、少なくとも1つの機械学習モデルをトレーニングすることは、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む。
【0067】
少なくとも1つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。
【0068】
少なくとも1つの実施形態では、方法は、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴を含む特徴空間に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、トレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、トレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも1つの機械学習モデルを作成することをさらに含む。
【0069】
少なくとも1つの実施形態では、方法は、デコーダへの入力として1つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの1つをマッピングすることと、少なくとも1つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの1つから新しいトレーニング画像を再構成することとをさらに含む。
【0070】
少なくとも1つの実施形態では、発話-テキスト変換アルゴリズムは、少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする。
【0071】
少なくとも1つの実施形態では、方法は、少なくとも1つのテキスト文字列に一致する入力音声を生成する発話-テキスト変換アルゴリズムに基づいて、OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む。
【0072】
少なくとも1つの実施形態では、方法は、少なくとも1つのテキスト文字列に一致する入力音声を生成する発話-テキスト変換アルゴリズムに基づいて、OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む。
【0073】
少なくとも1つの実施形態では、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対してトレーニングが行われる。
【0074】
本出願の他の特徴および利点は、添付の図面とともに以下の詳細な説明から明らかになるであろう。しかしながら、詳細な説明および特定の例は、本出願の好ましい実施形態を示しているが、本出願の趣旨および範囲内の様々な変更および修正が、この詳細な説明から当業者に明らかになるので、例示としてのみ与えられていることを理解されたい。
【0075】
本明細書に記載された様々な実施形態をよりよく理解するために、およびこれらの様々な実施形態がどのように実施され得るかをより明確に示すために、少なくとも1つの例示的な実施形態を示し、次に説明される添付の図面を一例として参照する。図面は、本明細書に記載された教示の範囲を制限することを意図するものではない。
【図面の簡単な説明】
【0076】
【
図1】限定はされないが、例えば内視鏡画像などの医療処置画像をリアルタイムで処理するためのシステムの例示的な実施形態のブロック図である。
【
図2】
図1のシステムとともに使用するための内視鏡検査装置の例示的なセットアップおよび内視鏡検査画像解析システムの代替的な例示的な実施形態の図である。
【
図3】
図2の内視鏡画像解析システムとともに使用するコンピュータデバイスのハードウェア構成要素およびデータフローの例示的な実施形態のブロック図である。
【
図4】入力音声とリアルタイムアノテーションプロセスとの間の対話の例示的な実施形態のブロック図である。
【
図5A】入力音声ストリームおよび一連の入力画像をリアルタイムアノテーションプロセスで処理するための方法の例示的な実施形態のブロック図である。
【
図5B】
図5Aの入力音声ストリームのキャプチャを開始および終了するための方法の例示的な実施形態のブロック図である。
【
図5C】発話認識アルゴリズムを使用して入力音声ストリームを処理するための方法の例示的な実施形態のブロック図である。
【
図6】
図2のシステムを使用して内視鏡検査処置中に画像解析を実行するための方法の例示的な実施形態のブロック図である。
【
図7】画像解析トレーニングアルゴリズムの例示的な実施形態のブロック図である。
【
図8A】物体検出アルゴリズムによって使用されるU-netアーキテクチャの第1の例示的な実施形態のブロック図である。
【
図8B】物体検出アルゴリズムによって使用されるU-netアーキテクチャの第2の例示的な実施形態の詳細なブロック図である。
【
図9】健康な形態学的特性を有する内視鏡画像の例を示す図である。
【
図10】不健康な形態学的特性を有する内視鏡画像の例を示す図である。
【
図11】排他的データセットからのラベルなしビデオフレーム画像の例を示す図である。
【
図12】レポート生成プロセスの例示的な実施形態のブロック図である。
【
図13】ビデオ処理アルゴリズムおよびアノテーションアルゴリズムを使用して入力ビデオストリームを処理するための方法の例示的な実施形態のブロック図である。
【
図14】真陽性値に対する正の発話認識結果率を示すトレーニング結果のチャートである。
【
図15】発話認識アルゴリズムの例示的な実施形態のブロック図である。
【
図16】画像解析アルゴリズムによって使用され得る物体検出アルゴリズムの例示的な実施形態のブロック図である。
【
図17】注釈付き画像を含むレポートの例示的な実施形態を示す図である。
【発明を実施するための形態】
【0077】
本明細書に記載された例示的な実施形態のさらなる態様および特徴は、添付の図面とともに以下の説明から明らかになるであろう。
【0078】
本明細書の教示による様々な実施形態が、特許請求される主題の少なくとも1つの実施形態の一例を提供するために、以下で説明される。本明細書に記載されたいかなる実施形態も、特許請求される主題を限定しない。特許請求される主題は、以下に記載されるデバイス、システム、もしくは方法のいずれか1つの特徴のすべてを有するデバイス、システム、もしくは方法、または本明細書に記載されたデバイス、システム、もしくは方法の複数もしくはすべてに共通の特徴に限定されない。任意の特許請求される主題の実施形態ではない、本明細書に記載されたデバイス、システム、または方法が存在し得る可能性がある。本明細書において請求されていない、本明細書に記載された任意の主題は、別の保護手段、例えば、継続特許出願の主題であり得、出願人、発明者、または所有者は、本明細書におけるその開示によって、任意のそのような主題を放棄(abandon)、放棄(disclaim)、または公衆に提供することを意図しない。
【0079】
説明を簡単かつ明瞭にするために、適切であると見なされる場合、対応するまたは類似の要素を示すために、図面間で参照番号を繰り返す場合があることを理解されたい。加えて、本明細書に記載された実施形態の完全な理解を提供するために、多くの特定の詳細が記載されている。しかしながら、本明細書に記載された実施形態は、これらの特定の詳細なしで実施されてもよいことが当業者によって理解されよう。他の例では、本明細書に記載された実施形態を不明瞭にしないように、周知の方法、手順、および構成要素は詳細には説明されていない。また、説明は、本明細書に記載された実施形態の範囲を限定するものと見なされないものとする。
【0080】
また、本明細書で使用される「結合された」または「結合する」という用語は、これらの用語が使用される状況に応じて、いくつかの異なる意味を有する可能性があることにも留意されたい。例えば、結合されたまたは結合するという用語は、機械的または電気的意味を有し得る。例えば、本明細書で使用されるように、結合されたまたは結合するという用語は、2つの要素またはデバイスが、互いに直接接続され得るか、または、特定の状況に応じて、電気信号、電気接続、もしくは機械的要素を介して、1つもしくは複数の中間要素もしくはデバイスを介して互いに接続され得ることを示すことができる。
【0081】
また、本明細書で使用される場合、「および/または」という用語は、包括的な「または」を表すことが意図されることにも留意されたい。すなわち、「Xおよび/またはY」は、例えば、XまたはYまたはその両方を意味することが意図される。さらなる例として、「X、Y、および/またはZ」は、X、Y、Z、またはそれらの任意の組合せを意味することを意図する。
【0082】
本明細書で使用される「実質的に」、「約」、および「およそ」など、程度の用語は、最終結果が大幅に変更されないような変更された用語の妥当な量の偏差を意味することに留意されたい。また、これらの程度の用語は、この偏差が修正する用語の意味を否定しない場合、1%、2%、5%、または10%など、修正された用語の偏差を含むと解釈され得る。
【0083】
さらに、本明細書における端点による数値範囲の列挙は、その範囲内に包含されるすべての数および端数を含む(例えば、1~5は、1、1.5、2、2.75、3、3.90、4、および5を含む)。また、そのすべての数および端数は、例えば、1%、2%、5%、または10%など、最終結果が有意に変化しない場合、参照される数のある量までの変動を意味する「約」という用語によって修正されると推定されることも理解されたい。
【0084】
また、本明細書に記載された任意のシステムまたは方法の動作を説明する際に「ウィンドウ」という用語を使用することは、初期化、構成、または他のユーザ操作を実行するためのユーザインターフェースを説明するものとして理解されることを意図していることに留意されたい。
【0085】
本明細書の教示によって説明されるデバイス、システム、または方法の例示的な実施形態は、ハードウェアおよびソフトウェアの組合せとして実装され得る。例えば、本明細書に記載された実施形態は、少なくとも部分的に、1つ以上のコンピュータプログラムを使用して、少なくとも1つの処理要素および少なくとも1つの記憶要素(すなわち、少なくとも1つの揮発性メモリ要素および少なくとも1つの不揮発性メモリ要素(本明細書ではメモリ要素をメモリユニットと呼ぶこともある))を含む1つ以上のプログラマブルデバイス上で実行することによって実装され得る。ハードウェアは、タッチスクリーン、タッチパッド、マイクロフォン、キーボード、マウス、ボタン、キー、スライダ、脳波(EEG)入力デバイス、視線追跡デバイスなどのうち少なくとも1つを含む入力デバイス、ならびにハードウェアの実装に応じてディスプレイ、プリンタなどのうち1つ以上を備え得る。
【0086】
オブジェクト指向プログラミングなど、高レベルプロシージャ言語で書かれたソフトウェアを介して実装され得る、本明細書に記載された実施形態のうちの少なくとも一部を実装するために使用されるいくつかの要素があり得ることにも留意されたい。したがって、プログラムコードは、C++、C#、JavaScript、Python、または任意の他の適切なプログラミング言語で記述されてもよく、オブジェクト指向プログラミングの当業者に知られているように、モジュールまたはクラスを含んでいてもよい。代替的に、または追加として、ソフトウェアを介して実装されるこれらの要素のうちのいくつかは、必要に応じて、アセンブリ言語、機械語、またはファームウェアで記述されてもよい。いずれの場合も、言語は、コンパイル型言語でもインタープリタ型言語でもよい。
【0087】
これらのソフトウェアプログラムの少なくともいくつかは、限定はしないが、本明細書に記載された実施形態のうちの少なくとも1つの機能を実装するために必要なプロセッサ、オペレーティングシステム、ならびに関連するハードウェアおよびソフトウェアを有するデバイスによって読み取り可能(またはアクセス可能)である、ROM、磁気ディスク、光ディスク、USBキーなどのコンピュータ可読媒体、またはクラウド上に記憶され得る。ソフトウェアプログラムコードは、デバイスによって読み取られると、本明細書に記載された方法の少なくとも1つを実行するために、新しい特定のあらかじめ定義された方法(例えば、特定用途向けコンピュータ)で動作するようにデバイスを構成する。
【0088】
本明細書に記載された実施形態のデバイス、システム、および方法に関連付けられたプログラムの少なくともいくつかは、1つ以上の処理ユニットのための、プログラムコードなどのコンピュータ使用可能命令を担持するコンピュータ可読媒体を含むコンピュータプログラム製品中に分散することが可能であり得る。媒体は、限定はしないが、1つ以上のディスケット、コンパクトディスク、テープ、チップ、ならびに磁気および電子記憶装置などの非一時的な形態を含む様々な形態で提供され得る。代替の実施形態では、媒体は、限定はしないが、有線送信、衛星送信、インターネット送信(例えば、ダウンロード)、媒体、デジタル信号およびアナログ信号など、本質的に一時的であり得る。コンピュータ使用可能命令はまた、コンパイルされたコードおよびコンパイルされていないコードを含む、様々なフォーマットであり得る。
【0089】
本明細書の教示に従って、様々なモダリティの医用画像を処理するためのシステムおよび方法、ならびにそれとともに使用するコンピュータ製品の様々な実施形態が提供される。処理は、リアルタイムで行われてもよい。
【0090】
システムの少なくとも1つの実施形態において、システムは、医療処置のための医用画像データを分析して、医療処置中に撮影された、例えばビデオフィードのような一連の画像から注釈付き画像を生成する従来のシステムの改善を提供する。医療処置は医療診断処置であり得る。例えば、システムは、一連のビデオフレームからの1つのビデオフレームであってもよいし、例えば、1つ以上の対応するCTスライスまたはMRIスライスの1つ以上の画像など一連の画像から取得されてもよい画像を受信する。このシステムは、画像内に関心対象物体(OOI)が存在するときを決定し、OOIが存在するとき、OOIの分類を決定する。このシステムは、少なくとも1つの機械学習モデルを使用して、これら決定の両方を行う。システムは、医療処置中に、画像および任意の決定されたOOIをディスプレイ上でユーザに表示する。システムはまた、医療処置中にユーザからの入力音声を受信する。システムは入力音声から発話を認識し、発話-テキスト変換アルゴリズムを使用して発話をテキスト文字列に変換する。場合によっては、システムは、テキスト文字列と対応する画像を照合する。システムは、テキスト文字列が対応する画像にリンクされた(例えば、重ね合わされている)注釈付き画像を生成する。少なくとも1つの代替実施形態では、テキスト文字列は、参照画像がOOIと同様に分類されており、ユーザが一連の画像(例えば、一連のビデオフレームまたはCTもしくはMRIスライスからの一連の画像)からの所与の画像を参照画像と比較して、OOIの自動分類が正しいかどうかを決定できるようにするために表示され得るライブラリまたはデータベースからの画像(参照画像と呼ばれ得る)を閲覧するためのコマンドを含み得る。
医用イメージング技術
【0091】
本明細書に記載される医用画像をリアルタイムで処理するためのシステムおよび方法に関する様々な実施形態は、様々な医用イメージング技術に応用可能である。本明細書に記載される実施形態の利点の1つは、(a)目的のエリアが異常、構造的損傷のエリア、生理学的変化のエリア、または治療ターゲットであり得る、画像内の目的のエリアを識別/マークする、および/または(b)治療もしくは処置の次のステップのために画像内の目的のエリアにマーク/タグを付けるために使用され得るテキストをリアルタイムで生成するために発話認識を提供することを含む。もう1つの利点は、即時レポート(例えば、識別/マーキング/タグ付け、ならびに生成されたテキストまたはその一部に基づいてレポートに画像が含まれる場合がある)を生成する機能を含む。もう1つの利点は、オペレータの診断能力を高め、サポートするために、オペレータによって識別されたOOIに類似する、以前に注釈を付けられた、または特徴付けられた画像を、リアルタイムで表示することを含む。
【0092】
本明細書に記載される様々な実施形態は、品質保証および臨床ノートのために、処置中の出来事のリアルタイムのタイムスタンプ付き文書を提供する機会など、処置中のボイス-テキスト技術に応用することもできる。内視鏡検査において、例えば、これは、患者の症状(例えば、痛み)、鎮痛剤の投与、患者の体位変換などの文書化を含む。これらのデータは、次いで、他の監視情報、患者の生理学的パラメータ(例えば、脈拍、BP、オキシメトリ)、器具操作などと同時に記録することができる。
【0093】
以下の表1は、本明細書に記載の医用画像を処理するためのシステムおよび方法の様々な実施形態を使用するための臨床応用の、完全なリストではない例を提供する。
【表1-1】
【表1-2】
【0094】
表1の追加の臨床応用は、「内視鏡」技術が処置の実行における視覚運動要件で多忙なオペレータによる異常のリアルタイムの識別およびリアルタイムの文書化の必要がある他の多くの専門分野で使用されているという事実を反映している。「内視鏡」処置のほとんどは、治療的介入が増えてきてはいるが、主に診断的なものである。
【0095】
対照的に、外科的腹腔鏡検査は、治療標的の正確な特定に基づいているが、主に治療的なものである。多くの手術は長時間に及ぶため、処置中の出来事や治療介入を総合的に文書化する機会はほとんどなく、その場合、処置後に記憶に基づいて文書化しなければならない。
【0096】
ほとんどの専門医は病理組織学的診断を管理計画に組み込んでいるが、病理組織学的診断および報告などは病理組織医が行っていることに留意されたい。本明細書に記載される実施形態の利点の1つは、病理組織医が検査中にリアルタイムで画像またはOOIを識別し、局在化し、注釈を付け、その後の報告書を作成し、データバンクから比較可能な画像/OOIにアクセスできる機構を提供することである。
【0097】
本明細書に記載される実施形態のもう1つの利点は、ボイス制御/注釈を使用して画像内のOOIの位置をマーキングするオプションを提供することであり、これは放射線学および病理組織学に適用され得る。放射線科医または病理医は、病変をOOIとして特定すると同時に、標準化された語彙を使用してボイス-テキスト技術でOOIに注釈を付けることができる。
【0098】
処置中の画像またはビデオの注釈は、潜在的に、ボイス-テキストを使用したOOIローカライゼーションを含み、(例えば)腹腔鏡外科処置のビデオ録画に基づいて)手術を文書化または報告する手段である。
内視鏡検査用途
【0099】
本明細書の教示に従って説明される医用画像を処理するためのシステムおよび方法の様々な実施形態は、例示の目的で、GI内視鏡検査から取得される画像を用いて説明される。したがって、本明細書に記載されたシステムおよび方法は、異なるタイプの内視鏡検査用途から生成された医用画像、または表1に示される例のような他のイメージングモダリティを使用して画像が取得される他の医療用途とともに使用され得ることを理解されたい。本明細書に記載されたシステムおよび方法が使用され得る内視鏡検査の様々な用途には、限定はされないが、呼吸器系、耳鼻咽喉科、産婦人科、循環器科、泌尿器科、神経科、整形外科および一般外科に関するものが含まれ得る。
呼吸器系:
【0100】
内視鏡検査用途には、限定はされないが、例えば、狭帯域イメージング(NBI)の有無にかかわらず、標準化された内視鏡プラットフォームを使用することに基づく、気管支内超音波検査およびナビゲーショナル気管支鏡検査のような軟性気管支鏡検査および医療用胸腔鏡検査が含まれる。
耳鼻咽喉科:
【0101】
内視鏡検査用途には、限定はされないが、鼓膜切開手術または他の耳鼻咽喉科手術など、聴覚的合併症に対処する外科的処置、喉頭蓋、舌、声帯に影響を及ぼす喉頭疾患に対処する外科的処置、上顎洞に対する外科的処置、鼻ポリープ、または耳鼻咽喉科医の意思決定支援システムに統合される他の臨床的または構造的評価などが含まれる。
産婦人科:
【0102】
内視鏡検査用途には、限定はされないが、例えば、低侵襲手術(ロボット手術技術を含む)、腹腔鏡手術など、産婦人科に関連する疾患の構造的および病理学的評価および診断が含まれる。
循環器科:
【0103】
内視鏡検査用途には、限定はされないが、例えば、低侵襲手術(ロボット手術技術を含む)等の心臓病に関連する疾患の構造的および病理学的評価および診断が含まれる。
泌尿器科:
【0104】
内視鏡検査用途には、腎疾患の診断および治療、腎構造および病理学的評価、ならびに治療処置(ロボット手術および低侵襲手術を含む)、ならびに、限定はされないが、局所治療および/または手術としての腎結石、がんなどの治療を含む用途に使用される処置が含まれる。
神経学(中枢神経系/脊椎):
【0105】
内視鏡検査用途には、限定はされないが、例えば、標準化された技術または3Dイメージングに基づく低侵襲脊椎手術など、脊椎の構造的および病理学的評価が含まれる。
整形外科:
【0106】
内視鏡検査用途には、限定はされないが、関節手術が含まれる。
【0107】
最初に
図1を参照すると、医療処置における形態学的特性を検出し、1つ以上の画像にリアルタイムで注釈を付けるための自動化システム100の例示的な実施形態のブロック図が示されている。医療処置は医療診断処置であり得る。内視鏡検査の文脈で使用されるとき、システム100は内視鏡画像解析(EIA)システムと呼ばれることがある。しかしながら、前述したように、システム100は、他のイメージングモダリティおよび/または医療診断処置と併せて使用することができる。システム100は、少なくとも1つのユーザデバイス110と通信することができる。いくつかの実施形態では、システム100は、サーバによって実施され得る。ユーザデバイス110およびシステム100は、例えば、有線であっても無線であってもよい通信ネットワーク105を介して通信し得る。通信ネットワーク105は、例えば、インターネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、WiFi、Bluetooth等とすることができる。
【0108】
ユーザデバイス110は、ユーザによって操作されるコンピューティングデバイスであってもよい。ユーザデバイス110は、例えば、スマートフォン、スマートウォッチ、タブレットコンピュータ、ラップトップ、仮想現実(VR)デバイス、または拡張現実(AR)デバイスであり得る。ユーザデバイス110は、例えば、スマートフォンおよびセンサーなど、一緒に動作するコンピューティングデバイスの組合せでもよい。また、ユーザデバイス110は、例えば、ユーザによって遠隔操作されるデバイスであってもよく、このような場合、ユーザデバイス110は、例えば、パーソナルコンピューティングデバイス(スマートフォンなど)を介してユーザによって操作され得る。ユーザデバイス110は、システム100のいくつかの部分と通信するアプリケーション(例えば、モバイルアプリ)を実行するように構成されてもよい。
【0109】
システム100は、単一のコンピュータ上で実行することができる。システム100は、プロセッサユニット124、ディスプレイ126、ユーザインターフェース128、インターフェースユニット130、入出力(I/O)ハードウェア132、ネットワークユニット134、電源ユニット136、およびメモリユニット(「データストア」とも呼ばれる)138を含む。他の実施形態では、システム100は、より多くのまたはより少ない構成要素を有することができるが、一般に同様の方法で機能する。例えば、システム100は、複数のコンピューティングデバイスまたはコンピューティングシステムを使用して実装することができる。
【0110】
プロセッサユニット124は、例えばIntel Xeonプロセッサなどの標準的なプロセッサを含み得る。あるいは、プロセッサユニット124によって使用されるプロセッサが複数存在し得、これらのプロセッサが並列に機能し、特定の機能を実行し得る。ディスプレイ126は、限定はしないが、コンピュータモニタ、またはタブレットデバイスのためのものなどLCDディスプレイであってもよい。ユーザインターフェース128は、ネットワークユニット134を介してアクセス可能なアプリケーションプログラミングインターフェース(API)またはウェブベースのアプリケーションであってもよい。ネットワークユニット134は、Ethernetまたは802.11xアダプタなどの標準的なネットワークアダプタであってもよい。
【0111】
プロセッサユニット124は、メモリユニット138に記憶された機械学習モデル146を使用して予測を提供するように機能する、グラフィカルプロセッシングユニット(GPU)などの1つ以上のスタンドアロンプロセッサを使用して実装することができる予測エンジン152で動作することができる。予測エンジン152は、1つ以上の機械学習アルゴリズムにトレーニングデータを適用することによって、1つ以上の予測アルゴリズムを構築することができる。トレーニングデータは、例えば、画像データ、ビデオデータ、音声データ、およびテキストを含み得る。予測は、最初に画像内の対象物を識別し、次いでその分類を決定することを伴い得る。例えば、トレーニングは、例えば、他の医療診断/外科用途または他のイメージングモダリティにおいて遭遇する可能性のあるポリープまたは少なくとも1つの他の生理学的構造など、OOIの形態学的特性に基づいてもよく、次いで、画像解析中に、画像解析ソフトウェアは、最初に、新たに取得された画像がポリープの画像の形態学的特性と一致するOOIを有するかどうかを識別し、もしそうであれば、OOIがポリープまたは少なくとも1つの他の生理学的構造であると予測する。これは、OOIが正しく識別されているという信頼スコアを決定することを含み得る。
【0112】
プロセッサユニット124はまた、様々なGUIを生成するために使用されるグラフィカルユーザインターフェース(GUI)エンジン154用のソフトウェア命令を実行することもできる。GUIエンジン154は、各ユーザインターフェースに対して一定のレイアウトに従ってデータを提供するとともに、ユーザからのデータ入力または制御入力を受信する。次いで、GUIエンジン154は、ユーザからの入力を使用して、ディスプレイ126に示されるデータを変更することができ、またはシステム100の動作を変更し、これは、異なるGUIを示すことを含み得る。
【0113】
メモリユニット138は、オペレーティングシステム140のプログラム命令、他のアプリケーション用のプログラムコード142(「プログラム142」とも呼ばれる)、入力モジュール144、複数の機械学習モデル146、出力モジュール148、データベース150、およびGUIエンジン154を記憶し得る。機械学習モデル146は、限定はされないが、ディープラーニングモデルおよび他のアプローチに基づく画像認識および分類アルゴリズムを含み得る。データベース150は、例えば、メモリユニット138に記憶されたローカルデータベースであってもよく、または他の実施形態では、クラウド上のデータベース、複数のデータベース、またはそれらの組合せなどの外部データベースであってもよい。
【0114】
少なくとも1つの実施形態では、機械学習モデル146は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、および/または予測モデリングの他の適切な実装(例えば、多層パーセプトロン)を含む。CNNは、画像およびパターンを認識するように設計されている。CNNは、畳み込み演算を実行し、例えば画像の領域を分類し、画像領域内で認識される対象物のエッジを見るために使用することができる。RNNは、テキスト、発話、時間発展などのシーケンスを認識するために使用することができるため、RNNをデータのシーケンスに適用して、次に何が起こるかを予測することができる。したがって、CNNは、何が起こっているかを検出するか、または所与の時間に所与の画像上で少なくとも1つの生理学的構造を検出するために使用され、RNNは、情報メッセージ(例えば、OOIの分類)を提供するために使用され得る。
【0115】
プログラム142は、実行されると、システム100のための様々な機能およびツールを実装するために特定の方法で動作するようにプロセッサユニット124を構成するプログラムコードを備える。プログラム142は、画像解析アルゴリズム、発話認識アルゴリズム、テキストマッチングアルゴリズム、用語訂正アルゴリズムを含む様々なアルゴリズムに使用され得るプログラムコードを含む。
【0116】
図2を参照すると、リアルタイムで医用画像を取得し、処理するためのシステムの例示的なセットアップ200の図が示されている。
図2に示されるセットアップ200は、医用画像の具体例として、内視鏡画像を取得し、処理するためのシステムを示しているが、他の医療用途および/または医用イメージングモダリティに使用することもできる。セットアップ200は、内視鏡システムおよび内視鏡画像解析(EIA)システム242を含む。内視鏡システムは、内視鏡プラットフォーム210、主画像プロセッサ215、内視鏡220、ハンドヘルドコントローラ225、および内視鏡モニタ240の5つの主要構成要素を含む。内視鏡画像解析システムは、要素245~270を含む。
【0117】
主画像プロセッサ215は、内視鏡220を介して入力を受信する。内視鏡220は、患者への挿入に適した任意の内視鏡でよい。他の実施形態では、他の医療用途および/またはイメージングモダリティのために、内視鏡は、表1に示される例など、画像を取得するために、以下に説明されるような別のイメージングデバイスおよび/またはセンサーに置き換えられる。また、主画像プロセッサ215は、内視鏡220が消化管または他の人体部位に挿入され、内視鏡220のカメラが画像(例えば、画像信号)をキャプチャするために使用されるとき、ユーザからの入力を受信する。主画像プロセッサ215は、表示または出力されるように処理され得る画像信号を内視鏡220から受信する。例えば、主画像プロセッサ215は、内視鏡220によってキャプチャされた画像を内視鏡モニタ240に送って表示する。内視鏡モニタ240は、内視鏡220および主画像プロセッサ215と互換性のある内視鏡処置に適した任意のモニタとすることができる。他の医用イメージングモダリティの場合、主画像プロセッサ215は、CT走査装置、超音波装置、MRIスキャナ、X線装置、核医学イメージング装置、組織学イメージングデバイス等のような他のデバイス/プラットフォームから画像を受信することができ、それに応じて、内視鏡220からの出力は、表1に示される例など、それらの用途において、これらのデバイス/プラットフォームの各々からの出力に置き換えられる。
【0118】
画像処理ユニット235は、内視鏡220からの画像信号の処理を制御する。画像処理ユニット235は、内視鏡220から画像信号を受信し、次いでカメラによって実行される従来の画像処理と一致する方法で画像信号を処理するために使用されるメイン画像プロセッサ215を備える。次いで、主画像プロセッサ215は、接続ケーブル236を介して画像データおよび制御信号を内視鏡モニタ240に送ることによって、処理された画像の内視鏡モニタ240への表示を制御する。
【0119】
内視鏡220は、プログラムされたボタン230からなるハンドヘルドコントロールパネル225に接続されている。ハンドヘルドコントロールパネル225およびプログラムされたボタン230は、入力モジュール144の一部であってもよい。プログラムされたボタン230は、内視鏡220を制御するための入力信号を送るために押され得る。プログラムされたボタン230は、入力信号を主画像プロセッサ215に送るためにユーザ(臨床医、胃腸科医、または他の医療専門家であり得る)によって作動され得、入力信号は、一連の画像(例えば、ビデオストリームまたはビデオフレームのシーケンス)の表示を一時停止するか、または一連の画像内の所与の画像(例えば、ビデオストリームのビデオフレームまたはビデオフレームのシーケンス内のビデオフレーム)のスナップショットを撮影するように主画像プロセッサ215に指示するために使用され得る。入力信号は、一連の画像(例えば、内視鏡モニタ240に表示されているビデオストリーム)の表示を一時的に中断することがあり、これにより、サーバ120は、注釈が付けられる特定の画像(例えば、ビデオフレーム)を検出することができる。
【0120】
少なくとも1つの実施形態では、内視鏡220は、(例えば、MRIデバイスによって生成されるスライスなど)一緒にビデオを形成してもしなくてもよい別の種類の画像を生成するイメージングデバイスと置き換えられる。このような場合、一連の画像は、それらの一連の画像(例えば、一連のスライス)である。
【0121】
EIAシステム242は、内視鏡220によって取得された画像を分析し、これらの画像の対応する注釈付きバージョン、および他の機能を提供するために使用される、1つ以上の構成要素を含む、AIベースの分析プラットフォームなどの分析プラットフォームを提供する。EIAシステム242は、システム100の代替的な例示的な実施形態であると考えることができる。より一般的には、EIAシステム242は、他の医用イメージングモダリティに使用されるとき、システム100の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表1に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。
【0122】
この例示的な実施形態では、EIAシステム242は、内視鏡画像を受信するために、例えばHDMIケーブル245を介して内視鏡モニタ240に接続され得るマイクロコンピュータ255を含む。HDMIケーブル245は、任意の標準的なHDMIケーブルであり得る。変換キー250により、内視鏡モニタ240のHDMIポートをマイクロコンピュータ255のUSBポートに接続できるようにする。マイクロコンピュータ255は、プログラム142、予測エンジン152、および機械学習モデル146が集合的に記憶された、メモリユニット138などの1つ以上のメモリデバイスに通信可能に結合されている。マイクロコンピュータ255は、画像解析ソフトウェアプログラム命令を実行して、内視鏡220によって収集された画像信号に画像解析アルゴリズムを適用する。
【0123】
マイクロコンピュータ255は、例えば、1つ以上のメモリ要素とともに、CPUおよびGPUを備えるNVIDIA Jetsonマイクロコンピュータであってもよい。加えて、画像解析アルゴリズムは、特定の機能を実行するために畳み込みニューラルネットワーク(例えば、
図16に示すような)を使用するYOLOv4に基づき得る物体検出アルゴリズムを含む。YOLOv4物体検出アルゴリズムは、EIAシステムがより高速に画像を解析でき得るので、有利である可能性がある。YOLOv4物体検出アルゴリズムは、例えば、TensorRT、Raspberry Pi、またはTensorFlowなどのソフトウェアアクセラレータを備えたNVIDIA Jetsonマイクロコンピュータによって実装され得る。
【0124】
ソフトウェアアクセラレータTensorRTは、EIAシステム242が、NVIDIA GPUなどのGPUを使用して、機械学習モデル146をより速い速度でトレーニングすることを可能にするので、有利であり得る。ソフトウェアアクセラレータTensorRTは、EIAシステム242の性能に影響を与えることなく機械学習モデル146の変更を可能にすることによって、EIAシステム242にさらなる利点を提供し得る。ソフトウェアアクセラレータTensorRTは、レイヤ融合、ブロック融合、float-int変換器などの特定の機能を使用して、EIAシステム242のこれらの利点を達成することができる。EIAシステム242がYOLOv4を使用するとき、ソフトウェアアクセラレータTensorRTは、YOLOv4の性能速度を向上させる可能性がある。
【0125】
マイクロコンピュータ255は、USB接続268を介してマイクロフォン270に接続され得る。マイクロフォン270は、医療処置(例えば、医療診断処置)中など、ユーザ入力を含む可能性のある音響信号を受信し、音響信号を入力音声信号に変換する。マイクロフォン270は、I/Oハードウェア132の一部であると考えられ得る。マイクロコンピュータ255の1つ以上のプロセッサは、入力モジュールソフトウェア144の動作によって、マイクロフォン270によって取得された入力音声信号を受信することができる。次いで、マイクロコンピュータ255は、マイクロフォン270によって収集された入力音声信号に発話認識アルゴリズムを適用することができる。発話認識アルゴリズムは、プログラム142、予測エンジン152、および機械学習モデル146のうちの1つ以上を使用して実装され得る。
【0126】
画像解析モニタ265は、標準HDMIケーブル260を使用して、HDMI接続を介してマイクロコンピュータ255に接続され得る。マイクロコンピュータ255は、画像解析アルゴリズムおよび発話認識アルゴリズムの結果を画像解析モニタ265に表示する。例えば、所与の画像について、画像解析モニタ265は、各OIの周りにバウンディングボックスが配置される1つ以上のOOIを表示することができ、オプションとして、バウンディングボックス内に含まれる要素に関する特定の情報を示すために、カラーインジケータがバウンディングボックスに使用され得る。発話認識およびボイス-テキストアルゴリズムによって生成された注釈は、データベース150または何らかの他のデータストアに記憶され得る。ボイス-テキストアルゴリズムは、プログラム142、予測エンジン152、および機械学習モデル146のうちの1つ以上を使用して実装され得る。マイクロコンピュータ255は、画像解析モニタ265に注釈を表示する。
【0127】
本明細書に記載される少なくとも1つの実施形態では、信頼スコアも画像解析ソフトウェアによって生成され得ることに留意されたい。これは、所与の画像(すなわち、所与のビデオフレーム)について決定されたOOIの決定されたバウンディングボックスの各画素を、例えばポリープのような物体の分類に基づいて、物体のグランドトゥルースと比較することによって行われ得る。信頼スコアは、例えば、0と1の間の小数として定義することができ、これは信頼度のパーセンテージとして解釈することができる。次いで、確信度スコアは、複数の貢献者間の一致のレベルを表し、結果の妥当性に対する「信頼度」を示し得る。集計結果は、最も信頼度の高い回答に基づいて選択され得る。次いで、信頼スコアは、性能を向上させるために時間の経過とともに調整され得る事前に設定された信頼閾値と比較される。信頼スコアが信頼閾値よりも大きい場合、バウンディングボックス、分類、およびオプションとして信頼スコアは、医療処置中に所与の画像とともにユーザに表示され得る。あるいは、信頼スコアが信頼閾値よりも低い場合、画像解析システムは、所与の画像に疑わしいというラベルを付け、所与の画像とともにこのラベルをユーザに表示し得る。少なくとも1つの実装形態では、信頼スコアはネットワークの出力である。このような場合、物体検出モデルは、物体のクラス、物体の位置、および/または信頼スコアを出力し得る。信頼スコアは、畳み込み演算、アクティベーション演算、およびプーリング演算を実行することによって、ニューラルネットワークによって生成され得る。信頼スコアの生成方法の一例が
図16に示され得る。
【0128】
図3を参照すると、EIAシステム242のマイクロコンピュータ255とともに使用するコンピュータデバイスのハードウェア構成要素およびデータフロー300の例示的な実施形態のブロック図が示されている。
図3を参照して本明細書で説明されるように、ハードウェア構成要素およびデータフロー300は、内視鏡検査の文脈でEIAシステム242とともに使用され得る。しかしながら、より一般的には、EIAシステム242は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム100の代替的な例示的な実施形態であると考えることができる。このような場合、これに続く内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表1に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。
【0129】
マイクロコンピュータ255は、様々な入力および出力ポートを有する電子ボード310上に実装される。マイクロコンピュータ255は、一般に、CPU255C、GPU255G、およびメモリユニット255Mを備える。例えば、マイクロコンピュータ255は、NVIDIA CUDAコアのGPU255G、およびNVIDIA Camel ARM、Vision Accelerator、Video Encode、およびVideo DecodeののCPU255Cを備えた、医療機器、高解像度センサー、または自動光学検査のような高性能AIシステム用に設計されたハードウェアであってもよい。データフロー300は、マイクロコンピュータ255に供給される入力信号と、マイクロコンピュータによって生成され、1つ以上の出力デバイス、記憶デバイス、またはリモートコンピューティングデバイスに送信される出力信号とからなる。変換キー250はビデオ入力信号を受信し、マイクロコンピュータUSBビデオ入力ポート370にビデオ入力信号を導く。あるいは、ビデオ入力信号はUSBケーブルを介して提供されてもよく、その場合、変換キー250は不要であり、マイクロコンピュータUSBビデオ入力ポート370がビデオ入力信号を受信する。マイクロコンピュータUSBビデオ入力ポート370は、マイクロコンピュータ255が内視鏡220からリアルタイムのビデオ入力信号を受信することを可能にする。
【0130】
マイクロコンピュータ255は、マイクロフォン270からの入力音声信号をマイクロコンピュータ音声USBポート360に向けることによって、潜在的なユーザ入力を受信する。次いで、マイクロコンピュータ255は、発話認識アルゴリズムで使用するために、入力音声信号をマイクロコンピュータ音声USBポート360から受信する。オプションのUSB接続380を介して、追加の入力デバイスをマイクロコンピュータ255に接続することもできる。例えば、マイクロコンピュータ255は、2つのオプションのUSB接続380(例えば、マウスおよびキーボード用)に接続されていてもよい。
【0131】
マイクロコンピュータCPU255CおよびGPU255Gは、プログラム142、機械学習モデル146、および予測エンジン152のうちの1つ以上を実行するために組み合わせて動作する。マイクロコンピュータ255は、最初にすべての出力ファイルをメモリユニット255Mに記憶し、その後、すべての出力ファイルを外部メモリに記憶するように構成され得る。外部メモリは、データ出力ポート330に接続されたUSBメモリカードでもよい。代替または追加として、外部メモリはユーザデバイス110によって提供されてもよい。代替またはそれへの追加として、マイクロコンピュータ255は、保存のために出力データを別のコンピュータ(またはコンピューティングデバイス)に提供することができる。例えば、マイクロコンピュータ255は、出力データを安全なクラウドサーバに記憶することができる。別の例として、マイクロコンピュータ255は、ユーザデバイス110にデータを記憶して出力することができ、ユーザデバイス110は、互換性のあるアプリケーションを備えたスマートフォンであってもよい。
【0132】
マイクロコンピュータ255は、ユーザが1つ以上のあらかじめプログラムされた機能を選択することを可能にするボタン340を有し得る。ボタン340は、マイクロコンピュータ255に関連する特定の機能に対する制御入力を提供するように構成され得る。例えば、ボタン340のうちの1つは、マイクロコンピュータCPU255Cおよび/またはGPU255Gをオンにし、マイクロコンピュータCPU255Cおよび/またはGPU255Gをオフにし、マイクロコンピュータ255上で品質管理プロセスの動作を開始し、注釈付き画像を含む内視鏡画像を示すGUIを実行し、注釈を開始および終了するように構成され得る。ボタン340は、LEDライト341または他の同様の視覚出力デバイスを有することもできる。マイクロコンピュータ255は、電源ケーブルポート350を通して電力を受け取る。電源ケーブルポート350は、マイクロコンピュータ255の様々な構成要素に電力を供給し、それらが動作できるようにする。
【0133】
マイクロコンピュータプロセッサ255Cは、マイクロコンピュータUSBビデオ出力ポート320を介して、画像解析結果をモニタ265に表示することができる。モニタ265は、HDMI接続を使用して、マイクロコンピュータHDMIビデオ出力ポート320を介してマイクロコンピュータ255に接続され得る。
【0134】
図4を参照すると、リアルタイムアノテーションプロセス436を使用して入力音声信号および入力ビデオ信号を処理するための方法400の例示的な実施形態のブロック図が示されている。方法400および後続の方法およびプロセスは、EIAシステム242によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム100または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、EIAシステム242は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム100の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表1に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。方法400は、CPU255CおよびGPU255Gによって実行され得る。
【0135】
方法400は、EIAシステム242が高性能能力を有するGPU255GおよびCPU255Cを有すること、および物体検出アルゴリズムが構築される方法によって、アノテーションプロセス436をリアルタイムで提供することができる。代替またはそれへの追加として、方法400および物体検出アルゴリズムは、AWS GPUを使用してクラウド上で実行されてもよく、ユーザは、内視鏡検査ビデオをアップロードし、リアルタイムアノテーションプロセス436に類似するプロセス(例えば、リアルタイムで内視鏡検査をシミュレートするか、またはビデオの一時停止を可能にする)を使用することができる。
【0136】
405において、リアルタイムアノテーションプロセス436を実行する前に、EIAシステム242は、発話認識アルゴリズム410をスタンバイ状態にする。待機中、発話認識アルゴリズム410は、入力モジュール144からの入力音声信号を待つ。発話認識アルゴリズム410は、プログラム142、機械学習モデル146、および予測エンジン152のうちの1つ以上を使用して実装され得る。
【0137】
420において、EIAシステム242は、リアルタイムアノテーションプロセス436を開始するために、第1の信号受信機でユーザから開始信号421を受信する。EIAシステム242は、マイクロフォン270を介して入力音声信号を受信する。例えば、信号受信機はボタン340のうちの1つであってもよい。
【0138】
422において、EIAシステム242は、入力音声信号をキャプチャし、プログラム142を使用して実装され得る発話認識アルゴリズム410を使用することによって、入力音声信号を発話データに変換する。次いで、発話データは発話-テキスト変換アルゴリズムによって処理されて、発話データを、アノテーションデータを作成するために使用される1つ以上のテキスト文字列に変換する。次いで、EIAシステム242は、画像とアノテーションデータのマッチングアルゴリズムを使用して、どの画像にアノテーションデータを追加すべきかを決定する。
【0139】
430において、画像とアノテーションデータのマッチングアルゴリズムは、入力画像シリーズ(例えば、入力ビデオ信号)から、アノテーションデータ内のテキスト文字列が対応する所与の画像を決定し、次いで、アノテーションデータを所与の画像にリンクする。アノテーションデータを所与の画像にリンクすることは、例えば、(a)アノテーションデータを所与の画像にオーバーレイすること、(b)アノテーションデータを所与の画像に重ね合わせること、(c)アノテーションデータを有するウェブページにリンクするハイパーリンクを所与の画像に提供すること、(d)所与の画像またはその関連部分にカーソルを置くとポップアップするアノテーションデータを有するポップアップウィンドウを提供すること、または(e)当業者に知られている任意の等価なリンクを含み得る。画像とアノテーションデータのマッチングアルゴリズムは、例えば、注釈が付けられている画像のキャプチャとアノテーションデータの受信について互いに一致するタイムスタンプを使用して、この決定を行うことができる。入力画像シリーズは、例えば、内視鏡220を使用して取得されたビデオ入力ストリームからの入力ビデオ信号であり得る。他のイメージングモダリティでは、入力ビデオ信号は、代わりに、前述のような一連の画像であり得る。
【0140】
432において、第2の信号受信機が終了信号422を受信し、処理する。例えば、第2の信号受信機は、第1の信号受信機と別のボタン340であってもよく、または同じものであってもよい。終了信号422を受信すると、EIAシステム242はリアルタイムアノテーションプロセス436を終了する。終了信号422が受信されないとき、EIAシステム242は、発話認識アルゴリズム410、アノテーションキャプチャ、およびマッチングアルゴリズム430の動作を継続することによって、リアルタイムアノテーションプロセス436を継続する。
【0141】
434において、EIAシステム242は、1つ以上の注釈付き画像を出力する。この出力は、(a)モニタまたはディスプレイに表示され得る、(b)レポートに組み込まれ得る、(c)データ記憶要素/デバイスに記憶され得る、および/または(d)別の電子デバイスに送信され得る。
【0142】
マイクロコンピュータ255は、メモリユニット255Mなどの内部ストレージ440を備える。内部ストレージ440は、内視鏡処置の完全なビデオまたはその一部、1つ以上の注釈付き画像、および/または音声データなどのデータを記憶するために使用することができる。例えば、マイクロコンピュータ255は、リアルタイムアノテーションプロセス436中に音声データをキャプチャし、それを内部ストレージ440に記憶することができる。代替またはそれへの追加として、マイクロコンピュータ255は、注釈付き画像を内部ストレージ440に記憶してもよい。
【0143】
図5Aを参照すると、リアルタイムアノテーションプロセス436で入力音声ストリームおよび一連の画像の入力ストリーム(例えば、入力ビデオストリーム)を処理するための方法500の例示的な実施形態のブロック図が示されている。方法500は、CPU255Cおよび/またはGPU255Gによって実行され得る。方法500は、EIAシステム242によって入力として受信される開始コマンド信号423によって開始される。発話認識アルゴリズム410は入力音声信号を受信し、発話認識を開始するための処理を開始する。EIAシステム242は、発話認識アルゴリズム410によって決定された音声データを記録する。発話認識アルゴリズム410は、終了コマンド信号422が受信されると、入力音声信号の処理を停止する。
【0144】
発話-テキスト変換アルゴリズム520は、プログラム142、予測エンジン152、および機械学習モデル146のうちの1つ以上を使用して実装され得る。例えば、発話-テキストアルゴリズム520は、Wav2vec 2.0などのオープンソースの事前トレーニング済みアルゴリズム、または任意の他の適切な発話認識アルゴリズムであってもよい。発話-テキストアルゴリズム520は、発話認識アルゴリズム410によって決定された発話データを取り込み、畳み込みニューラルネットワーク(例えば、
図15に示すような)であり得るアルゴリズムを使用して、発話データをテキスト525に変換する。
【0145】
次いで、テキスト525は、用語訂正アルゴリズム530によって処理される。用語訂正アルゴリズム530は、プログラム142および予測エンジン152のうちの1つ以上を使用して実装され得る。用語訂正アルゴリズム530は、文字列マッチングアルゴリズムおよびカスタム語彙を使用して、発話-テキスト会話アルゴリズム520が犯した誤りを訂正する。用語訂正アルゴリズム142は、Fuzzywuzzyなどのオープンソースのアルゴリズムであってもよい。テキスト525は、カスタム語彙内の各用語と相互参照される。次いで、用語訂正アルゴリズム142は、テキスト525がカスタム語彙内の用語とどれだけ密接に一致するかに基づいて、一致スコアを計算する。用語訂正アルゴリズムは、マッチングスコアが閾値マッチングスコアよりも高いかどうかを決定する。用語訂正アルゴリズム530は、マッチングスコアが閾値マッチングスコアよりも高い場合、テキスト525またはその一部をカスタム語彙内の用語で置き換える。
【0146】
発話認識出力540は、ユーザがコメントした所与の画像に追加する注釈を含むアノテーションデータと呼ばれることがある。発話認識出力540は、マッチングアルゴリズム430に送られる。マッチングアルゴリズム430は、プログラム142または機械学習モデル146を使用して実装され得る。マッチングアルゴリズム430は、アノテーションデータが対応するマッチング画像(すなわち、アノテーションデータに変換された、ユーザが口頭でコメントした画像)を決定し、発話認識出力540からのアノテーションデータを、内視鏡220からの一連の画像510の入力ストリーム(例えば、ビデオ入力ストリーム)からキャプチャされた一致画像にオーバーレイして、注釈付き画像出力434を生成する。注釈付き画像出力434は、発話認識出力540がオーバーレイしたキー画像434-1(例えば、OOIを有する)であってもよい。注釈付き画像出力434は、発話認識出力540がオーバーレイしたビデオクリップ434-2であってもよい。キー画像434-1およびビデオクリップ434-2は、サーバ120によって出力され、440に記憶され得る。
【0147】
少なくとも1つの実施形態では、内視鏡220は、(例えば、MRIデバイスによって生成されるスライスなど)他の種類の画像を生成するイメージングデバイスと置き換えられる。このような場合、キー画像434-1は異なる種類の画像(例えば、スライス)であってもよく、ビデオクリップ434-2は画像のシーケンス(例えば、スライスのシーケンス)に置き換えられてもよい。
【0148】
発話-テキスト変換アルゴリズム520は、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む発話データセットを使用してトレーニングすることができる。新しい音声データを新しい発話データセットと比較して、グランドトゥルーステキストとの一致を識別することができる。様々な医療アプリケーションおよびイメージングモダリティのために、グランドトゥルーステキストと、グランドトゥルーステキストの音声データを取得することができ、その例が表1に示されている。
【0149】
図5Bを参照すると、
図5Aの発話認識アルゴリズム410によって処理される入力音声ストリームのキャプチャを開始および終了するための方法550の例示的な実施形態のブロック図が示されている。方法550は、CPU255Cによって実行され得る。EIAシステム242は、ビデオ一時停止コマンド560、スナップショット撮影コマンド562、またはボイス開始コマンド564を含み得る入力開始信号423(例えば、ユーザ対話により提供される)に応答して、発話認識アルゴリズム410を開始する。入力信号がビデオ一時停止コマンド560を提供すると、EIAシステム242は入力ビデオストリームを一時停止する。入力信号421がスナップショット撮影コマンド562を提供すると、EIAシステム242は入力ビデオストリームのスナップショットを撮影し、これはスナップショット撮影コマンド562が受信されたときに表示される特定の画像をキャプチャすることを伴う。入力信号421が「アノテーション開始」などボイス開始コマンド564を提供すると、EIAシステム242はアノテーションを開始する。他の医療用途および/またはイメージングモダリティの場合、当業者に知られているように、他の制御アクションを実行することができる。
【0150】
少なくとも1つの実施形態では、EIAシステム242は、他の種類の画像(例えば、MRI装置によって生成されるスライス)を生成するイメージングデバイスから取得される画像を解析するための等価なシステムに置き換えられる。このような場合、ビデオ一時停止コマンド560は、一連の画像(例えば、一連のスライス)の表示を一時停止するコマンドに置き換えられる。
【0151】
EIAシステム242は、無音入力570、ボタン押下入力572、またはボイス終了コマンド574を含み得る入力終了信号424(例えば、ユーザによって生成される)に応答して、発話認識アルゴリズム410の動作を終了する。無音入力570は、例えば、聞き取れない入力、または閾値音量レベルを下回る入力音声であり得る。無音入力570は、発話認識アルゴリズム410の動作を正常に終了させるために、例えば、少なくとも5秒間持続させることができる。ボタン押下入力572は、ユーザがボタン340のうちの1つなどの指定されたボタンを押下した結果である可能性がある。「アノテーション停止」などのボイス終了コマンド574を使用して、画像のアノテーションを停止することができる。
【0152】
図5Cを参照すると、カスタム語彙584と相互参照される発話認識および発話-テキスト変換アルゴリズム520などの発話-テキスト変換アルゴリズムを使用して、音声信号582などの入力音声ストリームを処理するための方法580のブロック図が示されている。方法580は、EIAシステム242の1つ以上のプロセッサによって実行され得る。カスタム語彙584は、EIAシステム242が動作される前に構築され得、オプションで随時更新される。他の実施形態では、カスタム語彙584は、他の医療用途および/または医用イメージングモダリティ用に構築され得る。発話-テキスト変換アルゴリズム520は、一般的に、マイクロフォン270へのユーザが録音した入力である音声信号582を受信する。グランドトゥルース586は、消化管内視鏡検査、または別のタイプの内視鏡処置、または前述のような別のイメージングモダリティを使用する他の医療処置など、実行されている医療処置に固有の一連の用語であり得る。グランドトゥルース586は、データベース(データベース150など)に記憶されたデータベースファイルであってもよい。胃、結腸、肝臓など、異なるカテゴリの用語のための複数のグランドトゥルースデータセットがあってもよい。グランドトゥルース586は、最初は、胃腸内視鏡検査、または他の医療用途および/もしくはイメージングモダリティに固有のあらかじめ決定された用語からなり得る。したがって、グランドトゥルースによって、発話-テキスト変換アルゴリズムは、少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングすることができる。例えば、ポリープおよび出血など、複数の特徴が発生する可能性があるので、1つのOOIが複数の医学用語にマッピングされる場合がある。グランドトゥルース586は、発話認識アルゴリズム520の更新および精度分析を可能にするため、有利である場合がある。EIAシステム242は、グランドトゥルース586を更新するキーボードおよび/またはマイクロフォンからのユーザ入力を受信することができる。ユーザは、例えば、グランドトゥルース586を更新するために、用語を入力すること、および/またはマイクロフォン270に向かって話すことによって用語を提供することができる。カスタム語彙584は、キーと値のペアからなる辞書である。「キー」は発話認識アルゴリズム520の出力文字列525であり、「値」はグランドトゥルース586からの対応するテキストである。
【0153】
図6を参照すると、
図2のシステムを使用して内視鏡検査処置中に画像解析を実行するための方法600の例示的な実施形態のブロック図が示されている。方法600は、EIAシステム242のCPU255CおよびGPU255Gによって実施することができ、EIAシステム242がユーザに継続的に適応して各OOIに対する効果的な画像解析出力を生成できるようにする。方法600のいくつかのステップは、マイクロコンピュータ255のCPU255CおよびGPU255Gと、内視鏡検査プラットフォーム210の主画像プロセッサ215とを使用して実行され得る。
【0154】
610において、方法600は、内視鏡検査処置の開始で始まる。内視鏡検査の開始は、620において内視鏡検査装置の電源が入れられた(または起動された)ときに開始され得る。これと並行して、マイクロフォン270、およびAIプラットフォーム(例えばEIAシステム242)が650でオンにされる。方法600は、互いに並行して実行される2つの分岐を含む。
【0155】
620で始まる方法600の分岐に続いて、内視鏡検査プラットフォーム210のプロセッサ215は、動作可能な内視鏡検査装置220が存在するという信号を受信する。
【0156】
622において、プロセッサ215は、動作可能な内視鏡検査装置220がプロセッサ210に適切に接続されていることを決定するために診断チェックを実行する。ステップ622は、内視鏡検査品質保証(QA)ステップと呼ばれることがある。プロセッサ215は、QAステップが成功または失敗したことをユーザに示すために、モニタ240に確認を送る。プロセッサ215がモニタ240にエラーメッセージを送った場合、ユーザは処置を続行する前にエラーを解決しなければならない。
【0157】
ステップ650で始まる方法600の他の分岐を参照すると、ステップ650が実行された後、方法600はステップ652に進み、EIAシステム242は、マイクロコンピュータ255とマイクロフォン270とが適切に接続されていることを決定するための診断チェックを実行し、これはAIプラットフォーム品質保証(QA)ステップと呼ばれることがある。AIプラットフォームQAステップには、アルゴリズムのチェックが含まれる。エラーがある場合、EIAシステム252は、モニタ265に表示されるエラーメッセージを生成して、ビデオストリームキャプチャの実行を続行する前に、エラーメッセージに関連する1つ以上の問題を解決する必要があることをユーザに通知する。
【0158】
QAステップが正常に実行されると、方法600はステップ654に進み、EIAシステム242は、内視鏡検査装置220によって提供される画像を含む入力ビデオストリームをキャプチャする。入力ビデオストリームからの画像データは、画像解析アルゴリズムによる処理のために、入力モジュール142によって受信され得る。入力ビデオストリームが受信されているとき、または他の医用イメージングモダリティ用途のための一連の画像が入力されているとき、マイクロコンピュータ255は、LEDライト341を起動して、EIAシステム242が動作していることを示し得る(例えば、安定した緑色の光を示すことによって)。
【0159】
再び左の分岐に戻って参照すると、内視鏡検査処置の開始である624において、プロセッサ215は、ユーザに患者情報を入力するように求める(例えば、入力モジュール144を介して)か、または医療カルテから患者情報を直接ダウンロードすることによって、患者情報をチェックする。患者情報は、患者の人口統計情報、(例えば、EIAシステム242の)ユーザ、処置タイプ、および任意の固有の識別子からなる可能性がある。マイクロコンピュータ255は、内視鏡検査処置の開始から特定のフレーム/画像を入力する。特定の画像は、EIAシステム242が第2の出力を生成するために使用され得る。第2の出力は、内視鏡検査処置の開始からの特定の画像を含むDICOMレポートにおいて使用され、この画像は、DICOMレポートの患者情報をキャプチャするために使用され得る。代替または追加として、医療診断(例えば、内視鏡診断)情報データがキャプチャされ得る。プライバシーを確保するために、サーバ120は、患者情報が任意の他のデータファイルに保存されないようにすることができる。
【0160】
626において、内視鏡検査処置の開始とEIAシステム242によるビデオストリームのキャプチャの両方の後、EIAシステム242は、次いで、音声の記録を開始するために入力信号を受信するために待機状態にある。これは、プロセスA632およびプロセスB660の開始を示す。EIAシステム242は、入力開始信号421を受信すると、プロセスA632およびプロセスB660を開始する。
【0161】
628において、EIAシステム242は、入力音声信号内の発話としてユーザ入力を受信する。EIAシステム242は、入力終了信号424を受信するまで、入力音声信号の記録を継続する。
【0162】
630において、入力終了信号424を受信した後、EIAシステム242は入力音声信号の記録を終了する。これは、プロセスA632の終了を示す。しかしながら、EIAシステム242は、後で、内視鏡処置が終了し、内視鏡検査装置220の電源が切られるまで、音声開始および停止コマンドが提供されると、プロセスA632を繰り返し得る。
【0163】
内視鏡処置が終了すると、方法600は634に進み、そこでプロセッサ215は内視鏡処置が終了したという信号を受信する。
【0164】
638において、プロセッサ215は内視鏡検査プラットフォーム210の電源を切る。代替またはそれへの追加として、EIAシステム242は、内視鏡検査プラットフォーム210の電源が切られたことを示す信号を受信する。
【0165】
方法600の右の分岐を再び参照すると、プロセスB660は、プロセスA632と並行して実行され、プロセスA632のすべてのステップを含み、発話認識および発話-テキストアルゴリズムを実行して、656においてアノテーションデータを生成し、658において画像をアノテーションデータと照合する。EIAシステム242は、内視鏡検査装置の電源を切るためのユーザコマンドを含む入力信号がEIAシステム242によって受信されるまで、プロセスB660を繰り返し行うことができる。
【0166】
656において、EIAシステム242は、発話認識および発話-テキスト変換プロセスを開始し、アノテーションデータを生成する。これは、発話認識アルゴリズム410、発話-テキスト変換アルゴリズム520、用語訂正アルゴリズム530、およびリアルタイムアノテーションプロセス436を使用して行われ得る。
【0167】
658において、EIAシステム242は、画像とアノテーションを照合する。これは、マッチングアルゴリズム430を使用して行うことができる。
【0168】
662において、リアルタイムアノテーションプロセス436は、出力の生成および記憶のためにデータファイルを準備するためのコマンド信号をユーザから受信する。例えば、画像データ、音声信号データ、注釈付き画像、および/または一連の画像(ビデオクリップなど)が、記憶のためにマークされ得る。例えばDICOM形式など特定のデータ形式で注釈付き画像を使用して出力ファイルを生成することができる。
【0169】
664において、EIAシステム242は、出力ファイルの準備ができたというメッセージを送り、これは、EIAシステム242がユーザからデータファイル準備コマンド信号を受信した後、設定された時間(例えば、20秒以下)の後に発生する可能性がある。この時点で、出力ファイルはモニタに表示され、記憶要素に記憶され、および/またはリモートデバイスに送信され得る。レポートは、印刷することもできる。
【0170】
666において、EIAシステム242は、手順の終了時に、動作中のAIプラットフォームおよびマイクロフォンの電源を切る。代替として、EIAシステム242は、AIプラットフォームおよびマイクロフォンの電源が切られたことを示す信号を受信する。EIAシステム242は、システムシャットダウンを開始し、電源ユニット136からの電力を無効にするソフトウェアコマンドをユーザが入力することによって、電源を切ることができる。
【0171】
図7を参照すると、画像解析トレーニングアルゴリズム700の例示的な実施形態の図が示されている。エンコーダ720は、(例えば、入力モジュール144を介して)入力X790を受信する。入力X790は、医用イメージングデバイス(例えば、内視鏡220)によって提供される一連の画像からの少なくとも1つの画像である。エンコーダ720は、少なくとも1つの畳み込みニューラルネットワーク(CNN)を使用して、入力X790を特徴ベクトル730に圧縮する。特徴ベクトル730は、パターン認識の目的で入力X790を記述する数値特徴のn次元ベクトルまたは行列であってもよい。エンコーダ720は、2x2パッチの最大値(すなわち、最大プール)のみが複数個所でCNNの特徴層に向かって伝搬できるようにすることによって圧縮を実行することができる。
【0172】
次いで、特徴ベクトル730がデコーダ770に入力される。デコーダ770は、低解像度特徴ベクトル730から高解像度画像780を再構成する。
【0173】
分類器740は、特徴ベクトル730をターゲットクラス750にわたる分布にマッピングする。ラベル付き(すなわち、カテゴリまたは分類で注釈が付けられた)入力画像の場合、分類器740は、エンコーダ720およびデコーダ770とともにトレーニングされ得る。これは、エンコーダ720およびデコーダ770が、それらの特徴を分類する方法を共同で学習しながら、分類に有用な特徴を学習することを促進するので、有利である可能性がある。
【0174】
分類器740は、チャネル次元を半分に減少させ、次いで1に減少させる2つの畳み込み層から構築されてもよく、次いで、カテゴリ数に等しいサイズを有する実数値ベクトルに隠れ状態を投影する全結合(FC)線形層が続く。結果は、例えばソフトマックスのようなマッピング関数を使用してマッピングされ、ターゲットクラスにわたるカテゴリ分布を表す。畳み込み層の間に、Swish活性化関数(例えば、x*sigmoid(x))を使用することができる。分類器740の出力は、入力画像内のOOIを与えられた場合にモデルが各カテゴリに割り当てる確率を提供する。
【0175】
エンコーダ720、デコーダ770、および分類器740は、EIAシステム242が半教師ありトレーニングを実行することを可能にする。半教師ありトレーニングは、EIAシステム242が少ないラベル付きトレーニングデータセットで画像解析アルゴリズムを構築できるので有利である。
【0176】
画像Xjが与えられると、以下に従って、パラメータの最尤度(ML)学習に対してオートエンコーダの損失(LAE)が定義される。
LAE(xj)=(p(x=xj)log p(x=xj|h=Eθ(x))+(1-p(x=xj))log(1-p(x=xj|h=Eθ(x))))
式中、p(x=xj)は入力画像に対するものであり、p(x=xj|h=Eθ(x))は再構成画像(すなわち、デコーダからの再構成画像が入力画像と同じである確率)に対するものであり、両方ともカラー画像のチャネル単位および画素単位の表現にわたるベルヌーイ分布として解釈される。ベルヌーイ分布は、入力画像と再構成画像との間の整合性の尺度を提供する。各画像画素は、3つのチャネル(赤、緑、青)を含む。各チャンネルは、対応する色の強度を表す[0,...,1]の範囲の実数値を保持し、0は強度がないことを表し、1は最大強度を表す。範囲は[0,...,1]であるため、強度値はLAE(xj)の確率として使用することができ、これはモデルとサンプルのデータ分布間のバイナリクロスエントロピー(BCE)である。確率的勾配降下法を使用したLAEの最小化は、学習手順を伴う。LAEの最小化は、画像内の情報をキャプチャする特徴ベクトルの学習を促す。入力画像を再構成するために、符号化された特徴ベクトルのみを使用してこれを行う。言い換えれば、LAEの最小化は、ラベルが利用可能な場合、分類に使用することができる有益な特徴の学習を促す。LAEは教師なし方式でトレーニングすることができ、これは、EIAシステム242が、構築にラベル付きトレーニングデータセットを必要としないことを意味する。
【0177】
ラベル付き画像(xi,yi)が与えられると、EIAシステム242は、以下に従って、パラメータの最尤度(ML)学習のための分類器損失(LCLF)を定義する。
LCLF(xi, yi)=log p(y=yi|h=Eθ(x))
式中、p(y=yi|h=Eθ(x))は、カテゴリyiの確率であり、LCLF(xi,yi)は、モデルとサンプルのカテゴリ分布間の離散クロスエントロピー(CE)である。LCLFは、学習された特徴が分類に有用であるように促し、解析パイプラインで使用される入力画像が与えられた場合のカテゴリごとの確率を提供する。LCLFは教師あり方式でトレーニングされ、これは、サーバ120が、構築にラベル付きトレーニングデータセットを必要とすることを意味する。LCLFは、モデルからの予測と、トレーニングデータで提供されたグランドトゥルースラベルとの間の整合性を定量化する損失であると考えることができる。LCLFが標準的なクロスエントロピー損失である場合、これはモデルが正しいクラスに与える対数ソフトマックス確率を使用することになる。
【0178】
データセットDに対する半教師あり損失は、以下のように定義される。
LCLF(D)=λ1N(ΣiLCLF(xi,yi))+1M(ΣjLAE(xj))
式中、λは分類成分の重みを制御し、Nはラベル付き画像の数、Mはラベルなし画像の数であり、一般的に、N<<M(MはNよりかなり大きい)である。半教師あり損失は、大量のラベルなし画像から有益な特徴を学習すること、および少量のラベル付き画像から強力な分類器(例えば、より正確に、より迅速にトレーニング可能)を学習することを可能にする。重みは、より悪い再構成を犠牲にして、分類により適した特徴の学習を強制することができる。λの適切な値としては、例えば10,000が挙げられる。重みは、自己符号化器の損失と分類器の損失の線形結合として単一の損失を形成する方法を提供する可能性があり、これは、何らかの形式の相互検証を使用して決定され得る。
【0179】
一連の医用画像(例えば、内視鏡ビデオストリーム)は、異なるアルゴリズムを使用して画像内のOOIを決定するために、物体検出のために分析され得る。複数のオープンソースデータセットおよび/または専用の医療診断処置データセットを、アルゴリズムのトレーニングに使用することができる。例えば、大腸内視鏡検査の場合、データセットは、健康、不健康の異なるクラスのOOIで分類された画像、およびラベルなし大腸内視鏡検査画像を含み、そのすべての例が
図9、
図10、および
図11に示されている。アルゴリズム(例えば、画像解析アルゴリズム、物体検出アルゴリズム)は、組織を分類するために組織の形態学的特性を調べ、組織を明確に識別できない場合は、「焦点の合っていない組織」(またはぼやけた)クラスに割り当てることができる。したがって、焦点の合っていない組織クラスの画像は、物体検出および/または分類を正確に行うことができないような、不十分かつ/または低品質の画像である。他の医療用途および/またはイメージングモダリティの場合、位置を特定し分類すべき関心対象物体に基づいて、他のクラスを使用することができる。
【0180】
システム100、またはEIAシステム242(内視鏡検査の文脈において)は、OOIの分類に使用される機械学習方法のトレーニング中に、教師あり方法710と教師なし方法760とを組み合わせることができる。このアルゴリズムのパネル(例えば、一緒に動作する2つ以上のアルゴリズム)は、(例えば、
図8Aまたは
図8Bに示すように)U-netアーキテクチャを使用することができる。トレーニングは、消化管内視鏡検査の文脈で説明されているが、トレーニングは、検出され分類されることが望まれる様々な対象物を有する画像のトレーニングセットを使用することによって、他のタイプの内視鏡検査、他のタイプの医療用途、および/または他のイメージングモダリティに対して行われてもよいことを理解されたい。
【0181】
注釈付き画像データセット790(例えば、注釈付き内視鏡画像データセット)もまた、教師あり方法710をトレーニングするために使用することができる。この場合、エンコーダ(E)720は、所与の画像を潜在特徴空間に投影し、分類器(C)740が特徴をターゲットクラスにわたる分布にマッピングし、トレーニング画像750における疾患/組織の形態学的特性に基づいて複数のクラスを識別することを可能にするアルゴリズム/特徴ベクトル730を構築する。
【0182】
ラベルなし画像を使用することによって、補助デコーダ(G)770は、再構成方法780を使用して、特徴を画像上の分布にマッピングする。U-netアーキテクチャにおいて再構成方法780を実施するために、画像を画素に分解し、画像再構成アルゴリズム(例えば、U-netアーキテクチャの右側に図式的に示すように)を使用して検出された信号から初期圧力分布を取得することができる。教師なし方法760は、特徴がクラスごとにより少ない数の注釈付き画像を使用できるようにすることによって、付加価値を追加することができる。
【0183】
図8Aを参照すると、画像解析アルゴリズム(プログラム142に記憶され得る)によって使用され得るU-netアーキテクチャ800の第1の例示的な実施形態のブロック図が示されている。
【0184】
畳み込みブロック830は、(例えば、入力モジュール144を介して)入力画像810を受信する。畳み込みブロック830は、畳み込み層、活性化層、およびプーリング層(例えば直列)からなる。畳み込みブロック830は、特徴XXXを生成する。この例は、
図8Aの左上の第1の畳み込みブロック830について示されている。
【0185】
逆畳み込みブロックは、畳み込みブロックのうちの1つおよび前の逆畳み込みブロックによって生成された特徴を受信する。例えば、
図8Aの右上の逆畳み込みブロック820は、畳み込みブロック830によって生成された特徴XXX、ならびに先行する(すなわち、次に低い)逆畳み込みブロックの出力を受信する。逆畳み込みブロック840は、畳み込み層、転置畳み込み層、および活性化層からなる。逆畳み込みブロック840は、出力特徴820を生成する。出力特徴820は、例えば、数値の配列とすることができる。逆畳み込みブロック840は、提供された特徴に情報を追加し、対応する特徴が与えられると、画像の再構成を可能にする。
【0186】
分類器ブロック850は、畳み込み層、活性化層、および全結合層からなる。分類器ブロック850は、一連の畳み込みブロックにおける最後の畳み込みブロックによって生成された特徴XXXを受信する。分類器ブロック850は、分析中の画像内の1つ以上の物体のクラスを生成する。例えば、各画像または画像の領域は、GI内視鏡検査の例では「ポリープである」または「ポリープでない」など1つ以上のクラスでラベル付けされ得るが、他のタイプの内視鏡処置、医療処置、および/またはイメージングモダリティには他のクラスが使用され得る。
【0187】
図8Bを参照すると、画像解析アルゴリズム(プログラム142に記憶され得る)によって使用され得るU-netアーキテクチャ860の第2の例示的な実施形態のブロック図が示されている。
【0188】
864において、第1の畳み込み層は、(例えば、入力モジュール144を介して)入力画像を受信する。このレベルの様々な畳み込み層は、入力画像を線形混合し、入力画像の簡潔な特徴(すなわち表現)を学習するために、畳み込みの線形部分のみが使用される(例えば、3x3畳み込みの場合、1画素の順序が失われる)。これは、3x3畳み込み、ReLu操作によって行うことができる。各後続の3x3畳み込みReLu操作の後、層の解像度が低下する。例えば、層の解像度は、572x572(3チャンネルを有する)から570x570(64チャンネルを有する)、568x568(64チャンネルを有する)になり得る。最終層では、最大プール2x2演算が適用され、次の畳み込み層のために、畳み込み済層が生成され得る(868)。加えて、逆畳み込みのために畳み込み済層にコピー&クロップ操作が適用され得る(896)。
【0189】
868において、後続の畳み込み層は、上の畳み込み層から(864から)畳み込み済層を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴(すなわち表現)を学習するために、畳み込みの線形部分のみが使用される。これは、3x3畳み込み、ReLu操作によって行われる。各後続の3x3畳み込みReLu操作の後、層の解像度が低下する。例えば、層の解像度は、284x284(64チャンネルを有する)から282x282(128チャンネルを有する)、280x280(128チャンネルを有する)になり得る。最終層では、最大プール2x2演算が適用され、次の畳み込み層のために、畳み込み済層が生成される(872)。加えて、逆畳み込みのために畳み込み済層にコピー&クロップ操作が適用される(892)。
【0190】
872において、別の後続の畳み込み層は、上の前の畳み込み層から(868から)畳み込み済層を受け取る。このレベルの様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴(つまり表現)を学習するために、畳み込みの線形部分のみが使用される。これは、3x3畳み込み、ReLu操作によって行われる。各後続の3x3畳み込みReLu操作の後、層の解像度が低下する。例えば、層の解像度は、140x140(128チャンネルを有する)から138x138(256チャンネルを有する)、136x136(256チャンネルを有する)になり得る。最終層では、最大プール2x2演算が適用され、次の畳み込み層のために、畳み込み済層が生成される(876)。加えて、逆畳み込みのために畳み込み済層にコピー&クロップ操作が適用される(888)。
【0191】
876において、畳み込み層は、上の前の畳み込み層から(872から)畳み込み済層を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴(すなわち表現)を学習するために、畳み込みの線形部分のみが使用される。これは、3x3畳み込み、ReLu操作によって行われる。各後続の3x3畳み込みReLu操作の後、層の解像度が低下する。例えば、層の解像度は、68x68(256チャンネルを有する)から66x66(512チャンネルを有する)、64x64(512チャンネルを有する)になり得る。最終層では、最大プール2x2演算が適用され、次の畳み込み層のために、畳み込み済層が生成される(880)。加えて、逆畳み込みのために畳み込み済層にコピー&クロップ操作が適用される(884)。
【0192】
880において、畳み込み層は、上の畳み込み層から(876から)特徴を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴(すなわち表現)を学習するために、畳み込みの線形部分のみが使用される。これは、3x3畳み込み、ReLu操作によって行われる。各後続の3x3畳み込みReLu操作の後、層の解像度が低下する。例えば、層の解像度は、32x32(512チャンネルを有する)から30x30(1024チャンネルを有する)、28x28(512チャンネルを有する)になり得る。最終層では、逆畳み込みのために、上昇畳み込みプール2x2演算が畳み込み済層に適用される(884)。
【0193】
次いで、デコーダ770は、884、888、892、および896において逆畳み込みを実行する。デコーダ770は、単一次元を2x2パッチにマッピングする一連の線形変換(上昇畳み込み)を使用して特徴に次元を追加することによって、特徴から画像を再構成する。再構成画像は、画素ごとにRGBチャンネル(赤、緑、青)を使用して表され、各値は[0,...,1]の範囲内にある。0の値は強度がないことを意味し、1の値は最大の強度を意味する。再構成画像は、寸法および形式が入力画像と同一である。
【0194】
884において、逆畳み込み層は、下の畳み込み層から(880から)特徴を、前の畳み込みから(876から)トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを2X2画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、56x56(1024チャンネルを有する)から54x54(512チャンネルを有する)、52x52(512チャンネルを有する)になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール2x2演算が逆畳み込み済層に適用される(888)。
【0195】
888において、逆畳み込み層は、下の逆畳み込み層から(884から)逆畳み込み済層を、前の畳み込みから(872から)トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを2X2画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、104x104(512チャンネルを有する)から102x102(256チャンネルを有する)、100x100(256チャンネルを有する)になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール2x2演算が逆畳み込み済層に適用される(892)。
【0196】
892において、逆畳み込み層は、下の逆畳み込み層から(888から)逆畳み込み済層を、前の畳み込みから(868から)トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを2X2画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、200x200(256チャンネルを有する)から198x198(128チャンネルを有する)、196x196(128チャンネルを有する)になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール2x2演算が逆畳み込み済層に適用される(896)。
【0197】
896において、逆畳み込み層は、(例えば、入力モジュール144を介して)下の逆畳み込み層から(892から)逆畳み込み済層を、前の畳み込みから(864から)トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを2X2画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、392x392(128チャンネルを有する)から390x390(64チャンネルを有する)、388x388(64チャンネルを有する)になり得る。最後層では、畳み込み1x1演算が逆畳み込み済層、再構成画像に適用される(898)。
【0198】
898において、再構成画像は、畳み込みから得られた特徴とともに出力される。再構成画像は、寸法および形式が入力画像と同一である。例えば、再構成画像の解像度は、572x572(3チャンネルを有する)であり得る。
【0199】
図8Bは、3つの畳み込み層を有するU-netアーキテクチャを示しているが、U-netアーキテクチャは、(例えば、異なるサイズの画像、または異なる分析の深さに対して)より多くの畳み込み層が存在するように構造化されてもよい。
【0200】
図9を参照すると、健康な形態学的特性900を有する内視鏡画像の例が示されている。健康な形態学的特性900を有する内視鏡画像は、左から右に、正常な盲腸、正常な幽門、および正常なZ線からなる。健康な形態学的特性900を有するこれらの大腸内視鏡画像は、Kvasirデータセットから取得される。健康な形態学的特性900を有する内視鏡画像は、教師ありまたは半教師ありの方法で画像解析アルゴリズムをトレーニングするためにEIAシステム242によって使用され得る。
【0201】
図10を参照すると、不健康な形態学的特性1000を有する内視鏡画像の例が示されている。不健康な形態学的特性1000を有する内視鏡画像は、左から右に、染色された隆起ポリープ、染色された切除縁、食道炎、ポリープ、および潰瘍性大腸炎からなる。不健康な形態学的特性1000を有するこれらの内視鏡画像は、Kvasirデータセットから取得される。不健康な形態学的特性1000を有する内視鏡画像は、教師ありまたは半教師ありの方法で画像解析アルゴリズムをトレーニングするためにEIAシステム242によって使用され得る。代替またはそれへの追加として、健康または不健康な形態学的特性を有する医用画像は、限定はされないが、例えば、本明細書に記載の方法およびシステムを他のタイプの医用用途に使用するために適合させるために、CTスキャナ、超音波装置、MRIスキャナ、X線装置、核医学イメージング装置、組織学イメージングデバイスなどの他のデバイス/プラットフォームから取得することができる。
【0202】
図11を参照すると、専用データセット1100からのラベルなしビデオフレーム画像の例が示されている。専用データセット1100からのラベルなしビデオフレーム画像は、健康な組織と不健康な組織の両方を含む。専用データセット1100からのラベルなしビデオフレーム画像は、EIAシステム242によって、半教師ありの方法で画像解析アルゴリズムをトレーニングするために使用される。
【0203】
図12を参照すると、レポート生成プロセス1200の例示的な実施形態のブロック図が示されている。レポートは、例えばDICOMレポート形式など特定の形式で生成され得る。プロセス1200はEIAシステム242によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム100または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、EIAシステム242は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム100の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、または内視鏡画像への任意の言及は、表1に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができ、プロセス1200は、これらの他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、および医用画像とともに使用され得る。
【0204】
1210において、EIAシステム242は、患者人口統計フレームをロードする。患者人口統計フレームは、内視鏡処置を受ける患者の氏名、生年月日、性別、医療番号などの患者識別子からなる可能性がある。EIAシステム242は、内視鏡モニタ240に患者人口統計フレームを表示することができる。EIAシステム242は、内視鏡モニタ240からの静止画像を使用して患者データを収集することができる。
【0205】
1220において、EIAシステム242は、プログラム142に記憶され得る光学式文字認識アルゴリズムを実行する。EIAシステム242は、光学式文字認識アルゴリズムを使用して患者の人口統計フレームを読み取る。光学式文字認識アルゴリズムは、画像の特定の位置にあるテキスト文字を識別できるコードのセットを使用し得る。特に、光学式文字認識アルゴリズムは、患者情報を示す画像の境界を見ることができる。
【0206】
1230において、EIAシステム242は、読み取られた患者情報を抽出し、レポート生成にその情報を使用する。
【0207】
1240において、EIAシステム242は、該当する場合、レポート生成のために、キー画像(すなわち、一連の画像からのビデオフレームまたは画像)および/またはビデオクリップを注釈(例えば、データベース150から)とともにロードする。キーフレームは、画像とアノテーションデータのマッチングアルゴリズムによって識別されたものであり得る。
【0208】
1250において、EIAシステム242はレポートを生成する。レポートは、例えば、出力モジュール148を介して、ディスプレイに出力されてもよく、および/または、ネットワークユニットを介して、電子健康記録システムまたは電子医療記録システムに送信されてもよい。
【0209】
図13を参照すると、EIAシステム242によって使用され得る画像処理アルゴリズムおよびアノテーションアルゴリズムを使用して、一連の画像を処理するための方法1300の例示的な実施形態のブロック図が示されている。方法1300はEIAシステム242によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム100または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、EIAシステム242は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム100の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、または内視鏡画像への任意の言及は、表1に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができ、プロセス1300は、これらの他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、および医用画像とともに使用され得る。
【0210】
1310において、EIAシステム242は、一連の画像1304を受信し、入力ビデオストリームからの内視鏡画像など、一連の画像から画像をトリミングする。例えば、OpenCV(オープンソースライブラリ)などの画像処理ライブラリを使用してトリミングを行うことができる。EIAシステム242は、生の図形と、x最小値、x最大値、y最小値、y最大値を入力することができる。次いで、OpenCVは、トリミングされた画像を生成することができる。
【0211】
1320において、EIAシステム242は、トリミングされた内視鏡画像内の1つ以上の対象物を検出する。1つ以上の対象物が検出されると、それらの位置が決定され、次いで、各対象物の分類および信頼スコアが決定される。これは、トレーニングされた物体検出アルゴリズムを使用して行われ得る。この物体検出アルゴリズムのアーキテクチャは、YOLOv4であり得る。物体検出アルゴリズムは、例えば公開データベースまたはDarknetを使用してトレーニングされ得る。
【0212】
行為1310および1320は、画像シリーズ1305からのいくつかの画像に対して繰り返され得る。
【0213】
1330において、EIAシステム242は、画像シリーズ1305からの1つ以上の画像に対する注釈を開始するための信号(560、562、564)を受信する。次いで、EIAシステム242は、発話認識、発話-テキスト変換を実行し、アノテーションデータ1335を生成し、これは前述のように行われ得る。
【0214】
次いで、方法1300は1340に進み、アノテーションデータがマッチング画像に追加され、アノテーション画像が作成される。再度、これは、ユーザによって提供されたコマンドおよびコメントに基づいて、画像シリーズ1305からの複数の画像に対して繰り返され得る。注釈付き画像は、出力ビデオストリーム1345に出力され得る。
【0215】
以下の表2は、教師あり方法および教師なし方法を使用して組織を分類した結果を示す。
【表2】
【0216】
次に、
図14を参照すると、EIAシステム242によって使用される発話認識アルゴリズムの精度を表し、真陽性(TP)値に対する正の発話認識結果(P)率を示すYOLOv4のトレーニング結果のチャート1400が示されている。チャートのx軸はトレーニング反復回数(1反復は32枚の画像からなる画像の1ミニバッチ)を表し、y軸は検証群を使用したポリープ検出のTP検出率を表す。チャート1400は、TP率が反復500で0.826から始まり、反復1000後に0.922まで増加することを示している。反復1000~3000回にわたって、TP率は概ね約0.92~0.93の水準を維持する。TPは、3000回の反復後0.93に達し得る。
【0217】
AIアルゴリズムによって提供される分類の精度は、物体検出または発話認識の精度を評価するための分析指標として選択された。偽陽性(FP)という用語は、実際の観測値が「偽」であるにもかかわらず、機械学習モデルが「真」の値を予測するエラーを指す。一方、偽陰性(FN)は、実際の観測値が「真」であるにもかかわらず、機械学習モデルが「偽」の予測値を出力するエラーを示す。FPは、機械学習モデルを使用するとき、医療分野におけるソフトウェア分類プラットフォームの信頼性を低下させる主な要因である。その結果、本明細書に記載されるトレーニング済み物体および発話認識アルゴリズムは、精度などの指標を使用して検証されている。
【0218】
図15を参照すると、発話認識アルゴリズム1500の例示的な実施形態のブロック図が示されている。発話認識アルゴリズム1500は、プログラム142、予測エンジン152、および機械学習モデル146のうちの1つ以上を使用して実装され得る。他の実施形態では、発話認識アルゴリズム1500は、表1に示される例など、他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像とともに使用され得ることを理解されたい。
【0219】
発話認識アルゴリズム1500は、マイクロフォン270を介して取得された生の音声データ1510を受信する。発話認識アルゴリズム1500は、畳み込みニューラルネットワークブロック1520および変換器ブロック1530を含む。畳み込みニューラルネットワークブロック1520は、生の音声データ1510を受信する。畳み込みニューラルネットワークブロック1520は、生の音声データ1510から特徴を抽出して特徴ベクトルを生成する。畳み込みニューラルネットワークブロック1520内の各畳み込みニューラルネットワークは、使用される重みを含め、全く同じであってもよい。発話認識アルゴリズム1500における畳み込みニューラルネットワークブロック1520の数は、生のオ―ディオデータ1510の長さに依存し得る。
【0220】
変換器ブロック1530は、畳み込みニューラルネットワークブロック1520から特徴ベクトルを受け取る。変換器ブロック1530は、特徴ベクトルから特徴を抽出することによって、ユーザ入力に対応する文字を生成する。
【0221】
図16を参照すると、画像解析アルゴリズムによって使用され得る物体検出アルゴリズム1620のためのデータフロー1600の例示的な実施形態のブロック図が示されている。物体検出アルゴリズム1620は、プログラム142、予測エンジン152、および機械学習モデル146のうちの1つ以上を使用して実装され得る。他の実施形態では、物体検出アルゴリズム1620は、表1に示される例など、他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像とともに使用され得ることを理解されたい。
【0222】
物体検出アルゴリズム1620は、処理された画像1610を受信する。処理された画像1610は、元の画像のトリミングおよびサイズ変更されたバージョンであってもよい。
【0223】
処理された画像1610は、処理された画像1610から特徴を抽出することができる畳み込みニューラルネットワークであるCPSDarknet53 1630に入力される。
【0224】
CSPDarknet53 1630の出力は、空間ピラミッドプーリング演算子1640およびパス集約ネットワーク1650に提供される。
【0225】
空間ピラミッドプーリング演算子1640は、CSPDarknet53 1630の固定サイズ制約を除去することができるプーリング層である。空間ピラミッドプーリング演算子1640の出力は、パス集約ネットワーク1650に提供される。
【0226】
パス集約ネットワーク1650は、CSPDarknet53 1630の出力から異なる深さの特徴を抽出することによって、CSPDarknet53 1630および空間ピラミッドプーリング演算子1640からの出力を処理する。パス集約ネットワーク1650は、Yoloヘッド1660に出力される。
【0227】
Yoloヘッド1660は、OOIのクラス1670、バウンディングボックス1680、および信頼スコア1690を予測し、生成する。クラス1670は、OOIの分類である。
図9~
図11は、分類された物体を含む画像の様々な例を示す。例えば、クラス1670は、ポリープであり得る。しかしながら、分類1690が十分に高い信頼スコアで決定されない場合、画像は疑わしいと分類される可能性がある。
【0228】
次に
図17を参照すると、本明細書の教示に従って生成された注釈付き画像を含むレポート1700の例示的な実施形態が示されている。レポート1700は、本明細書の教示に従って、医療処置(例えば、内視鏡検査処置などの医療診断処置)中に発生する画像および音声のキャプチャ中に収集される様々な情報を含む。レポート1700は、一般に、限定はされないが、(a)患者データ(すなわち、氏名、生年月日など)、(b)医療処置に関する情報(例えば、任意の生検が行われた場合、任意の治療が行われた場合など、処置の日付)、(c)処置および任意の所見の説明を提供するための説明フィールド、(d)1つ以上の注釈付き画像、および(e)患者に対するさらなる治療/フォローアップのための任意の推奨事項のテキストを含む推奨事項フィールドを含む、様々な要素を含む。他の実施形態では、注釈付き画像以外の要素の一部は、オプションであり得る。場合によっては、バウンディングボックス、アノテーションデータ、信頼スコアとともに、注釈付きの画像をレポートに含めることができる。他の場合では、バウンディングボックス、アノテーションデータおよび/または信頼スコアがレポートに含まれない場合がある。
【0229】
本明細書に記載される少なくとも1つの実施形態では、EIAシステム242またはシステム100は、いくつかの機能を実行するように構成され得る。例えば、OOIが検出され分類され、その分類が所与の画像に含まれる所与の画像が表示され得る。次いで、ユーザは、EIAシステム242によって提供された自動分類に同意しない可能性がある場合、発話でコメントを提供することができる。この場合、ユーザのコメントは、所与の画像に一致するテキスト文字列に変換される。アノテーションデータは、テキスト文字列を使用して生成され、アノテーションデータは、所与の画像にリンクされる(例えば、オーバーレイまたは重ね合わされる)。
【0230】
少なくとも1つの実施形態では、OOIが検出され、自動的に分類され、自動分類が所与の画像に含まれる所与の画像が表示され得る。ユーザは、所与の画像を表示し、自動分類が正しいかどうかを再確認したい場合がある。このような場合、ユーザは、自動分類と同じ分類のOOIを有する他の画像を表示するコマンドを提供し得る。ユーザの発話は、このコマンドを含み得る。したがって、発話-テキスト変換が実行されると、テキストが検査されて、少なくとも1つのOOIと同じ分類で分類されたOOIを有する参照画像の要求などのコマンドが含まれているかどうかが決定され得る。次いで、EIAシステム242またはシステム100のプロセッサは、データストアから参照画像を取り出し、参照画像を表示し、少なくとも1つのOOIの自動分類を確認または却下するその後の入力を、発話を介してユーザから受信し得る。アノテーションデータは、この後の入力に基づいて生成され、所与の画像にオーバーレイされ得る。
【0231】
本明細書に記載される少なくとも1つの実施形態では、EIAシステム242またはシステム100は、いくつかの機能を実行するように構成され得る。例えば、OOIが検出され分類され、その分類が所与の画像に含まれる所与の画像が表示され得る。次いで、ユーザは、EIAシステム242によって提供された自動分類に同意しない可能性がある場合、発話でコメントを提供することができる。この場合、ユーザのコメントは、所与の画像に一致するテキスト文字列に変換される。アノテーションデータは、テキスト文字列を使用して生成され、アノテーションデータは、所与の画像にリンクされる(例えば、オーバーレイまたは重ね合わされる)。
【0232】
本明細書に記載される少なくとも1つの実施形態では、EIAシステム242またはシステム100は、いくつかの機能を実行するように構成され得る。例えば、OOIが検出されたが、分類に関連付けられた信頼スコアがOOIを確実に分類するには十分でない場合、所与の画像が表示される可能性がある。このような場合、所与の画像が表示され、疑わしいと示されることがあり、この場合、未決定のOOIを有する少なくとも1つの画像に対するユーザ分類を示すユーザからの入力が受信され得る。次いで、所与の画像は、ユーザ分類で注釈が付けられ得る。
【0233】
本明細書に記載される少なくとも1つの実施形態では、EIAシステム242またはシステム100は、注釈付き画像を生成するときにタイムスタンプをオーバーレイするように構成されてもよく、タイムスタンプは、画像が医用イメージングデバイス(例えば、内視鏡220)によって最初に取得された時間を示す。
【0234】
本出願人の教示は、例示の目的で様々な実施形態と併せているが、本明細書に記載された実施形態が例であることを意図しているため、本明細書に記載された本出願人の教示は、そのような実施形態に限定されることは意図されない。むしろ、本明細書に記載され図示された出願人の教示は、本明細書に記載された実施形態から逸脱することなく、様々な代替、修正、および均等物を包含し、その一般的な範囲は、添付の特許請求の範囲に定義される。
【手続補正書】
【提出日】2022-05-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
医療処置のための医用画像データを分析するためのシステムであって、
前記医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
一連の画像から少なくとも1つの画像を受信すること、
前記少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定すること、
前記医療処置中に、
バウンディングボックスを使用して、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示すること、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識すること、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズム
および用語訂正アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換すること、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合すること、および
前記医療処置中に、前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成すること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。
【請求項2】
前記少なくとも1つのプロセッサが、前記発話が、
前記医療処置中に、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する少なくとも1つの参照画像の要求として認識されたとき、前記少なくとも1つの参照画像を表示し、
前記少なくとも1つの機械学習モデルを更新するために、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信するようにさらに構成されている、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサが、前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信するようにさらに構成されている、請求項1または2に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサが、前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている、請求項1~3のいずれか一項に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサが、所与の画像内の所与のOOIについて、
前記バウンディングボックスのバウンディングボックス座標を識別すること
であって、前記バウンディングボックスが、前記所与の画像内の前記所与のOOIに関連付けられている、識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと
、
前記医療処置中に前記ユーザから確認を受信すると、前記少なくとも1つの画像にカスタム語彙をオーバーレイすることと
を行うようにさらに構成されている、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク(CNN)を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
によって前記OOIの前記分類を決定するように構成されている、請求項1~5のいずれか一項に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサが、
前記医療処置中に前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像に
、少なくとも1つの処置中の出来事のタイムスタンプ
およびタイムスタンプ付き文書をオーバーレイするようにさらに構成されている、請求項1~6のいずれか一項に記載のシステム。
【請求項8】
前記少なくとも1つのプロセッサが、
前記医療処置中に、前記少なくとも1つの画像の前記信頼スコアをディスプレイ上
にリアルタイムで示すようにさらに構成されている、請求項
5~7のいずれか一項に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
によって前記医療処置中に前記入力音声を受信するように構成されている、請求項1~8のいずれか一項に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサが、前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定するようにさらに構成されている、請求項1~9のいずれか一項に記載のシステム。
【請求項11】
前記少なくとも1つのプロセッサが、
前記レポートに追加するための
前記医療処置中に生成された患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像
または前記バウンディングボックスによって識別された前記少なくとも1つのOOIを含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成するようにさらに構成されている、請求項4~10のいずれか一項に記載のシステム。
【請求項12】
前記少なくとも1つのプロセッサが、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行するようにさらに構成されている、請求項1~11のいずれか一項に記載のシステム。
【請求項13】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項12に記載のシステム。
【請求項14】
前記少なくとも1つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項12または13に記載のシステム。
【請求項15】
前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項12~14のいずれか一項に記載のシステム。
【請求項16】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項14または請求項15に記載のシステム。
【請求項17】
前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項12~16のいずれか一項に記載のシステム。
【請求項18】
前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
によって前記少なくとも1つのOOIの前記分類を決定するようにさらに構成されている、請求項17に記載のシステム。
【請求項19】
前記少なくとも1つのプロセッサが、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている、請求項1~18のいずれか一項に記載のシステム。
【請求項20】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項1~19のいずれか一項に記載のシステム。
【請求項21】
前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項1~20のいずれか一項に記載のシステム。
【請求項22】
医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするためのシステムであって、
前記機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成すること、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択すること、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成すること、および
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。
【請求項23】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項22に記載のシステム。
【請求項24】
前記少なくとも1つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項22または23に記載のシステム。
【請求項25】
前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項22~24のいずれか一項に記載のシステム。
【請求項26】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項24または請求項25に記載のシステム。
【請求項27】
前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項22~26のいずれか一項に記載のシステム。
【請求項28】
前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を行うようにさらに構成されている、請求項
27に記載のシステム。
【請求項29】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項22~28のいずれか一項に記載のシステム。
【請求項30】
前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22~29のいずれか一項に記載のシステム。
【請求項31】
前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22~30のいずれか一項に記載のシステム。
【請求項32】
1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項22~31のいずれか一項に記載のシステム。
【請求項33】
医療処置のための医用画像データを分析するための方法であって、
一連の画像から少なくとも1つの画像を受信することと、
前記少なくとも1つの画像に少なくとも1つの関心対象物体(OOI)が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも1つの機械学習モデルを使用して実行される、決定することと、
前記医療処置中に、
バウンディングボックスを使用して、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示することと、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識することと、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズム
および用語訂正アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換することと、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合することと、
前記医療処置中に、前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成することと
を含む方法。
【請求項34】
前記発話が、前記分類を含む少なくとも1つの参照画像の要求を含むものとして認識されたとき、
前記医療処置中に、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する前記少なくとも1つの参照画像を表示し、
前記少なくとも1つの機械学習モデルを更新するために、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信することをさらに含む請求項33に記載の方法。
【請求項35】
前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信することをさらに含む、請求項33または請求項34に記載の方法。
【請求項36】
前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成することをさらに含む請求項33~36のいずれか一項に記載の方法。
【請求項37】
所与の画像内の所与のOOIについて、
前記バウンディングボックスのバウンディングボックス座標を識別すること
であって、前記バウンディングボックスが、前記所与の画像内の前記所与のOOIに関連付けられている、識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと
、
前記医療処置中に前記ユーザから確認を受信すると、前記少なくとも1つの画像にカスタム語彙をオーバーレイすることと
をさらに含む、請求項33~36のいずれか一項に記載の方法。
【請求項38】
前記OOIの前記分類を決定することが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク(CNN)を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
を含む、請求項33~37のいずれか一項に記載の方法。
【請求項39】
前記医療処置中に前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像に
、少なくとも1つの処置中の出来事のタイムスタンプ
およびタイムスタンプ付き文書をオーバーレイすることをさらに含む請求項33~38のいずれか一項に記載の方法。
【請求項40】
前記医療処置中に、前記少なくとも1つの画像の前記信頼スコアをディスプレイ上
にリアルタイムで示すことをさらに含む請求項
34~39のいずれか一項に記載の方法。
【請求項41】
前記医療処置中に前記入力音声を前記受信することが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
を含む、請求項33~40のいずれか一項に記載の方法。
【請求項42】
前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定することをさらに含む請求項33~41のいずれか一項に記載の方法。
【請求項43】
前記レポートに追加するための
前記医療処置中に生成された患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像
または前記バウンディングボックスによって識別された前記少なくとも1つのOOIを含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成することをさらに含む、請求項33~42のいずれか一項に記載の方法。
【請求項44】
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行することをさらに含む、請求項33~43のいずれか一項に記載の方法。
【請求項45】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項44に記載の方法。
【請求項46】
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項44または請求項45に記載の方法。
【請求項47】
前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項44~46のいずれか一項に記載の方法。
【請求項48】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項46または請求項47に記載の方法。
【請求項49】
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項44~48のいずれか一項に記載の方法。
【請求項50】
前記少なくとも1つのOOIの前記分類を前記決定することが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を含む、請求項49に記載の方法。
【請求項51】
新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む請求項43~50のいずれか一項に記載の方法。
【請求項52】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項43~51のいずれか一項に記載の方法。
【請求項53】
前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項33~52のいずれか一項に記載の方法。
【請求項54】
医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするための方法であって、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物(OOI)に対する少なくとも1つの特徴を生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成することと、
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすることと
を含む方法。
【請求項55】
前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項54に記載の方法。
【請求項56】
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項54または請求項55に記載の方法。
【請求項57】
前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項54~56のいずれか一項に記載の方法。
【請求項58】
前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項56または請求項57に記載の方法。
【請求項59】
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項54~58のいずれか一項に記載の方法。
【請求項60】
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
をさらに含む請求項
59に記載の方法。
【請求項61】
前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項54~60のいずれか一項に記載の方法。
【請求項62】
前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54~61のいずれか一項に記載の方法。
【請求項63】
前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体(OOI)から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54~62のいずれか一項に記載の方法。
【請求項64】
1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項54~63のいずれか一項に記載の方法。
【国際調査報告】