特表2024-528522 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エー．アイ．ヴァリインコーポレイテッドの特許一覧

特表2024-528522医用画像をリアルタイムで処理するためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
6
7
8A
8B
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-30

(54)【発明の名称】医用画像をリアルタイムで処理するためのシステムおよび方法

(51)【国際特許分類】

G16H 30/20 20180101AFI20240723BHJP

【ＦＩ】

G16H30/20

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2023580547

(86)(22)【出願日】2022-07-04

(85)【翻訳文提出日】2024-01-29

(86)【国際出願番号】 CA2022051054

(87)【国際公開番号】W WO2023279199

(87)【国際公開日】2023-01-12

(31)【優先権主張番号】63/218,357

(32)【優先日】2021-07-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡＳＣＲＩＰＴ

２．ＰＹＴＨＯＮ

３．ＢＬＵＥＴＯＯＴＨ

４．ＨＤＭＩ

５．ＴＥＮＳＯＲＦＬＯＷ

６．ＲＡＳＰＢＥＲＲＹＰＩ

(71)【出願人】

【識別番号】523487553

【氏名又は名称】エー．アイ．ヴァリインコーポレイテッド

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】アザド，アザール

(72)【発明者】

【氏名】シィオン，ボー

(72)【発明者】

【氏名】アームストロング，デイビッド

(72)【発明者】

【氏名】ファン，キイン

(72)【発明者】

【氏名】フリート，デイビッド

(72)【発明者】

【氏名】リヴン，ミシャ

【テーマコード（参考）】

5L099

【Ｆターム（参考）】

5L099AA26

(57)【要約】

本明細書では、少なくとも１つの関心対象物体（ＯＯＩ）を有する１つ以上の画像に対するアノテーションデータであって、少なくとも１つのＯＯＩを有する１つ以上の画像にユーザがコメントすることによって提供された発話から生成されたテキストを含む、アノテーションデータと、分類とを使用して、自動的に生成された注釈付き画像のために医療診断処置中に取得された画像および発話を分析するためのシステムに関する様々な実施形態について記載される。
【選択図】図１

【特許請求の範囲】

【請求項1】

医療処置のための医用画像データを分析するためのシステムであって、
前記医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
一連の画像から少なくとも１つの画像を受信すること、
前記少なくとも１つの画像に少なくとも１つの関心対象物体（ＯＯＩ）が存在するときを決定し、前記少なくとも１つのＯＯＩが存在するとき、前記少なくとも１つのＯＯＩの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定すること、
前記医療処置中に、前記少なくとも１つの画像および任意の決定されたＯＯＩをディスプレイ上でユーザに表示すること、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識すること、
前記医療処置中に前記発話が前記少なくとも１つの画像上のコメントとして認識されたとき、発話－テキスト変換アルゴリズムを使用して、前記発話を少なくとも１つのテキスト文字列に変換すること、
前記少なくとも１つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも１つの画像と照合すること、および
前記少なくとも１つのテキスト文字列が前記対応する少なくとも１つの画像にリンクされている少なくとも１つの注釈付き画像を生成すること
を行うように構成された少なくとも１つのプロセッサと
を備えるシステム。

【請求項2】

前記少なくとも１つのプロセッサが、前記発話が、前記少なくとも１つのＯＯＩと同じ分類で分類されたＯＯＩを有する少なくとも１つの参照画像の要求として認識されたとき、前記少なくとも１つの参照画像を表示し、前記少なくとも１つのＯＯＩの前記分類を確認するか、または却下する入力を前記ユーザから受信するようにさらに構成されている、請求項１に記載のシステム。

【請求項3】

前記少なくとも１つのプロセッサが、前記少なくとも１つのＯＯＩが疑わしいと分類されたとき、前記未決定のＯＯＩを有する前記少なくとも１つの画像に対するユーザ分類を示す入力を前記ユーザから受信するようにさらに構成されている、請求項１または２に記載のシステム。

【請求項4】

前記少なくとも１つのプロセッサが、前記少なくとも１つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている、請求項１～３のいずれか一項に記載のシステム。

【請求項5】

前記少なくとも１つのプロセッサが、所与の画像内の所与のＯＯＩについて、
前記所与の画像内の前記所与のＯＯＩに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、
前記所与のＯＯＩの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも１つの画像上に前記バウンディングボックスをオーバーレイすることと
を行うようにさらに構成されている、請求項１～４のいずれか一項に記載のシステム。

【請求項6】

前記少なくとも１つのプロセッサが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記ＯＯＩに畳み込みニューラルネットワーク（ＣＮＮ）を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記ＯＯＩの前記分類を実行することと
によって前記ＯＯＩの前記分類を決定するように構成されている、請求項１～５のいずれか一項に記載のシステム。

【請求項7】

前記少なくとも１つのプロセッサが、前記少なくとも１つの注釈付き画像を生成するとき、前記対応する少なくとも１つの画像にタイムスタンプをオーバーレイするようにさらに構成されている、請求項１～６のいずれか一項に記載のシステム。

【請求項8】

前記少なくとも１つのプロセッサが、前記少なくとも１つの画像の前記信頼スコアをディスプレイ上または前記レポート内にリアルタイムで示すようにさらに構成されている、請求項４～７のいずれか一項に記載のシステム。

【請求項9】

前記少なくとも１つのプロセッサが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第１のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第２のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
によって前記医療処置中に前記入力音声を受信するように構成されている、請求項１～８のいずれか一項に記載のシステム。

【請求項10】

前記少なくとも１つのプロセッサが、前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも１つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも１つの画像を指定するようにさらに構成されている、請求項１～９のいずれか一項に記載のシステム。

【請求項11】

前記少なくとも１つのプロセッサが、
前記レポートに追加するための患者情報データのセットをキャプチャすることと、
前記少なくとも１つの注釈付き画像を含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも１つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成するようにさらに構成されている、請求項４～１０のいずれか一項に記載のシステム。

【請求項12】

前記少なくとも１つのプロセッサが、
少なくとも１つのトレーニング画像にエンコーダを適用して、前記少なくとも１つのトレーニング画像内のトレーニングＯＯＩに対する少なくとも１つの特徴ベクトルを生成することと、
前記少なくとも１つの機械学習モデルに前記少なくとも１つの特徴ベクトルを適用することによって、前記トレーニングＯＯＩのクラスを選択することと、
前記少なくとも１つの特徴ベクトルを前記少なくとも１つのトレーニング画像および前記少なくとも１つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも１つの機械学習モデルのトレーニングを実行するようにさらに構成されている、請求項１～１１のいずれか一項に記載のシステム。

【請求項13】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項１２に記載のシステム。

【請求項14】

前記少なくとも１つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも１つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項１２または１３に記載のシステム。

【請求項15】

前記少なくとも１つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも１つの機械学習モデルをトレーニングするようにさらに構成されている、請求項１２～１４のいずれか一項に記載のシステム。

【請求項16】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項１４または請求項１５に記載のシステム。

【請求項17】

前記少なくとも１つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも１つの機械学習モデルを作成するようにさらに構成されている、請求項１２～１６のいずれか一項に記載のシステム。

【請求項18】

前記少なくとも１つのプロセッサが、
前記デコーダへの入力として１つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記１つをマッピングすることと、
前記少なくとも１つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記１つから新しいトレーニング画像を再構成することと
によって前記少なくとも１つのＯＯＩの前記分類を決定するようにさらに構成されている、請求項１７に記載のシステム。

【請求項19】

前記少なくとも１つのプロセッサが、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話－テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている、請求項１～１８のいずれか一項に記載のシステム。

【請求項20】

前記発話－テキスト変換アルゴリズムが、前記少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングする、請求項１～１９のいずれか一項に記載のシステム。

【請求項21】

前記医用画像データが、１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得される、請求項１～２０のいずれか一項に記載のシステム。

【請求項22】

医療処置のための医用画像データの分析に使用するための少なくとも１つの機械学習モデルと、発話－テキスト変換アルゴリズムとをトレーニングするためのシステムであって、
前記機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
少なくとも１つのトレーニング画像にエンコーダを適用して、前記少なくとも１つのトレーニング画像内の目的のトレーニング対象物（ＯＯＩ）に対する少なくとも１つの特徴を生成すること、
前記少なくとも１つの機械学習モデルに前記少なくとも１つの特徴を適用することによって、前記トレーニングＯＯＩのクラスを選択すること、
前記少なくとも１つの特徴を前記トレーニング画像および前記少なくとも１つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話－テキスト変換アルゴリズムをトレーニングし、それによって少なくとも１つのテキスト文字列を生成すること、および
前記トレーニングＯＯＩと前記少なくとも１つのテキスト文字列を注釈付き画像にオーバーレイすること
を行うように構成された少なくとも１つのプロセッサと
を備えるシステム。

【請求項23】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項２２に記載のシステム。

【請求項24】

【請求項25】

前記少なくとも１つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも１つの機械学習モデルをトレーニングするようにさらに構成されている、請求項２２～２４のいずれか一項に記載のシステム。

【請求項26】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項２４または請求項２５に記載のシステム。

【請求項27】

前記少なくとも１つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも１つの機械学習モデルを作成するようにさらに構成されている、請求項２２～２６のいずれか一項に記載のシステム。

【請求項28】

前記少なくとも１つのプロセッサが、
前記デコーダへの入力として１つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記１つをマッピングすることと、
前記少なくとも１つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記１つから新しいトレーニング画像を再構成することと
を行うようにさらに構成されている、請求項２２～２７のいずれか一項に記載のシステム。

【請求項29】

前記発話－テキスト変換アルゴリズムが、前記少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングする、請求項２２～２８のいずれか一項に記載のシステム。

【請求項30】

前記少なくとも１つのプロセッサが、前記少なくとも１つのテキスト文字列に一致する入力音声を生成する前記発話－テキスト変換アルゴリズムに基づいて、前記ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成するようにさらに構成されている、請求項２２～２９のいずれか一項に記載のシステム。

【請求項31】

前記少なくとも１つのプロセッサが、前記少なくとも１つのテキスト文字列に一致する入力音声を生成する前記発話－テキスト変換アルゴリズムに基づいて、前記ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成するようにさらに構成されている、請求項２２～３０のいずれか一項に記載のシステム。

【請求項32】

１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項２２～３１のいずれか一項に記載のシステム。

【請求項33】

医療処置のための医用画像データを分析するための方法であって、
一連の画像から少なくとも１つの画像を受信することと、
前記少なくとも１つの画像に少なくとも１つの関心対象物体（ＯＯＩ）が存在するときを決定し、前記少なくとも１つのＯＯＩが存在するとき、前記少なくとも１つのＯＯＩの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定することと、
前記医療処置中に、前記少なくとも１つの画像および任意の決定されたＯＯＩをディスプレイ上でユーザに表示することと、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識することと、
前記医療処置中に前記発話が前記少なくとも１つの画像上のコメントとして認識されたとき、発話－テキスト変換アルゴリズムを使用して、前記発話を少なくとも１つのテキスト文字列に変換することと、
前記少なくとも１つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも１つの画像と照合することと、
前記少なくとも１つのテキスト文字列が前記対応する少なくとも１つの画像にリンクされている少なくとも１つの注釈付き画像を生成することと
を含む方法。

【請求項34】

前記発話が、前記分類を含む少なくとも１つの参照画像の要求を含むものとして認識されたとき、前記少なくとも１つのＯＯＩと同じ分類で分類されたＯＯＩを有する前記少なくとも１つの参照画像を表示し、前記少なくとも１つのＯＯＩの前記分類を確認するか、または却下する入力を前記ユーザから受信することをさらに含む請求項３３に記載の方法。

【請求項35】

前記少なくとも１つのＯＯＩが疑わしいと分類されたとき、前記未決定のＯＯＩを有する前記少なくとも１つの画像に対するユーザ分類を示す入力を前記ユーザから受信することをさらに含む、請求項３３または請求項３４に記載の方法。

【請求項36】

前記少なくとも１つの注釈付き画像を含むレポートを自動的に生成することをさらに含む請求項３３～３６のいずれか一項に記載の方法。

【請求項37】

所与の画像内の所与のＯＯＩについて、
前記所与の画像内の前記所与のＯＯＩに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、
前記所与のＯＯＩの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも１つの画像上に前記バウンディングボックスをオーバーレイすることと
をさらに含む、請求項３３～３６のいずれか一項に記載の方法。

【請求項38】

前記ＯＯＩの前記分類を決定することが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記ＯＯＩに畳み込みニューラルネットワーク（ＣＮＮ）を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記ＯＯＩの前記分類を実行することと
を含む、請求項３３～３７のいずれか一項に記載の方法。

【請求項39】

前記少なくとも１つの注釈付き画像を生成するとき、前記対応する少なくとも１つの画像にタイムスタンプをオーバーレイすることをさらに含む請求項３３～３８のいずれか一項に記載の方法。

【請求項40】

前記少なくとも１つの画像の前記信頼スコアをディスプレイ上または前記レポート内にリアルタイムで示すことをさらに含む請求項３３～３９のいずれか一項に記載の方法。

【請求項41】

前記医療処置中に前記入力音声を前記受信することが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第１のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第２のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
を含む、請求項３３～４０のいずれか一項に記載の方法。

【請求項42】

前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも１つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも１つの画像を指定することをさらに含む請求項３３～４１のいずれか一項に記載の方法。

【請求項43】

前記レポートに追加するための患者情報データのセットをキャプチャすることと、
前記少なくとも１つの注釈付き画像を含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも１つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成することをさらに含む、請求項３３～４２のいずれか一項に記載の方法。

【請求項44】

少なくとも１つのトレーニング画像にエンコーダを適用して、前記少なくとも１つのトレーニング画像内のトレーニングＯＯＩに対する少なくとも１つの特徴ベクトルを生成することと、
前記少なくとも１つの機械学習モデルに前記少なくとも１つの特徴ベクトルを適用することによって、前記トレーニングＯＯＩのクラスを選択することと、
前記少なくとも１つの特徴ベクトルを前記少なくとも１つのトレーニング画像および前記少なくとも１つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも１つの機械学習モデルのトレーニングを実行することをさらに含む、請求項３３～４３のいずれか一項に記載の方法。

【請求項45】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項４４に記載の方法。

【請求項46】

ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも１つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項４４または請求項４５に記載の方法。

【請求項47】

前記少なくとも１つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項４４～４６のいずれか一項に記載の方法。

【請求項48】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項４６または請求項４７に記載の方法。

【請求項49】

前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも１つの機械学習モデルを作成することをさらに含む、請求項４４～４８のいずれか一項に記載の方法。

【請求項50】

前記少なくとも１つのＯＯＩの前記分類を前記決定することが、
前記デコーダへの入力として１つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記１つをマッピングすることと、
前記少なくとも１つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記１つから新しいトレーニング画像を再構成することと
を含む、請求項４９に記載の方法。

【請求項51】

新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話－テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む請求項４３～５０のいずれか一項に記載の方法。

【請求項52】

前記発話－テキスト変換アルゴリズムが、前記少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングする、請求項４３～５１のいずれか一項に記載の方法。

【請求項53】

前記医用画像データが、１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得される、請求項３３～５２のいずれか一項に記載の方法。

【請求項54】

医療処置のための医用画像データの分析に使用するための少なくとも１つの機械学習モデルと、発話－テキスト変換アルゴリズムとをトレーニングするための方法であって、
少なくとも１つのトレーニング画像にエンコーダを適用して、前記少なくとも１つのトレーニング画像内の目的のトレーニング対象物（ＯＯＩ）に対する少なくとも１つの特徴を生成することと、
前記少なくとも１つの機械学習モデルに前記少なくとも１つの特徴を適用することによって、前記トレーニングＯＯＩのクラスを選択することと、
前記少なくとも１つの特徴を前記トレーニング画像および前記少なくとも１つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話－テキスト変換アルゴリズムをトレーニングし、それによって少なくとも１つのテキスト文字列を生成することと、
前記トレーニングＯＯＩと前記少なくとも１つのテキスト文字列を注釈付き画像にオーバーレイすることと
を含む方法。

【請求項55】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項５４に記載の方法。

【請求項56】

【請求項57】

前記少なくとも１つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項５４～５６のいずれか一項に記載の方法。

【請求項58】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項５６または請求項５７に記載の方法。

【請求項59】

前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも１つの機械学習モデルを作成することをさらに含む、請求項５４～５８のいずれか一項に記載の方法。

【請求項60】

前記デコーダへの入力として１つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記１つをマッピングすることと、
前記少なくとも１つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記１つから新しいトレーニング画像を再構成することと
をさらに含む請求項５４～５９のいずれか一項に記載の方法。

【請求項61】

前記発話－テキスト変換アルゴリズムが、前記少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングする、請求項５４～６０のいずれか一項に記載の方法。

【請求項62】

前記少なくとも１つのテキスト文字列に一致する入力音声を生成する前記発話－テキスト変換アルゴリズムに基づいて、前記ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成することをさらに含む請求項５４～６１のいずれか一項に記載の方法。

【請求項63】

前記少なくとも１つのテキスト文字列に一致する入力音声を生成する前記発話－テキスト変換アルゴリズムに基づいて、前記ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成することをさらに含む請求項５４～６２のいずれか一項に記載の方法。

【請求項64】

１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項５４～６３のいずれか一項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年７月４日に出願された米国仮特許出願第６３／２１８，３５７号の利益を主張し、米国仮特許出願第６３／２１８，３５７号の内容全体が本明細書に組み込まれるものとする。

【0002】

本明細書では、一般に、医用画像をリアルタイムで処理するためのシステム、ならびにその方法およびコンピュータプログラム製品に関する様々な実施形態について記載される。

【背景技術】

【0003】

以下のパラグラフは、本開示の背景として提供される。しかしながら、本明細書で論じられるいかなるものも、従来技術または当業者の知識の一部であることを認めるものではない。

【0004】

医用イメージングは、疾患の診断を確認し、治療に対する患者の反応を監視し、場合によっては治療処置を提供するために必要な入力を提供する。いくつかの異なる医用イメージングモダリティを、様々な医療診断処置に使用することができる。医用イメージングモダリティの例には、胃腸（ＧＩ）内視鏡検査、Ｘ線検査、ＭＲＩ、ＣＴスキャン、超音波検査（ｕｌｔｒａｓｏｕｎｄ）、超音波検査（ｕｌｔｒａｓｏｎｏｇｒａｐｈｙ）、心エコー検査、膀胱造影検査、腹腔鏡検査などがある。適切な診断を確実にするために、これらの各々は分析が必要である。現在の技術水準では、改善し得る誤診率をもたらす可能性がある。

【0005】

例えば、内視鏡検査は、胃腸疾患の診断を確認し、治療に対する患者の反応を監視し、場合によっては治療処置を提供するためのゴールドスタンダードである。臨床試験中に患者から収集された内視鏡検査ビデオは、通常、バイアスを減らし正確性を高めるために、独立した臨床医によってレビューされる。しかしながら、これらの分析では、ビデオ画像を目視で確認し、その結果を手作業で記録するか、手作業で画像に注釈を付ける必要があり、コストと時間がかかり、標準化が困難である。

【0006】

毎年、何百万人もの患者が誤診され、その半数近くが早期がんに苦しんでいる。大腸がん（ＣＲＣ）は、世界的にがんによる死亡原因の第３位であるが、早期に発見されれば治療が成功する可能性がある。現在、臨床医は内視鏡／大腸内視鏡のビデオ画像を視覚的に分析した後、手動で診断を報告している。内視鏡検査の誤診率は２８％を上回り、これは主にヒューマンエラーによるものである。したがって、誤診は医療システムと患者にとって大きな問題であるとともに、重大な社会経済的影響を及ぼす。

【0007】

従来のシステムは、内視鏡検査中に内視鏡によって生成されたビデオを表示し、ビデオを記録し（まれな場合）、それ以上の機能を提供しない。場合によっては、研究者は、画像をデスクトップに保存し、オフラインのプログラムを使用して、ポリープや他の関心対象物体の周囲に手動で線を引くこともある。しかしながら、この分析は内視鏡検査が実施された後に行われるため、検査が終了した後では、不確定な結果が出た場合でも、臨床医は大腸の領域を再スキャンすることができない。

【0008】

上述の課題および／または欠点に対処するシステムおよび方法が必要とされている。

【発明の概要】

【0009】

本明細書の教示に従って、医用画像をリアルタイムで処理するためのシステムおよび方法、ならびにそれに使用するためのコンピュータ製品の様々な実施形態が提供される。

【0010】

広範な一態様では、本明細書の教示に従って、少なくとも１つの実施形態において、医療処置のための医用画像データを分析するためのシステムが提供され、システムは、医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、プログラム命令を実行すると、一連の画像から少なくとも１つの画像を受信すること、少なくとも１つの画像に少なくとも１つの関心対象物体（ＯＯＩ）が存在するときを決定し、少なくとも１つのＯＯＩが存在するとき、少なくとも１つのＯＯＩの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定すること、医療処置中に、少なくとも１つの画像および任意の決定されたＯＯＩをディスプレイ上でユーザに表示すること、医療処置中のユーザからの発話を含む入力音声信号を受信し、発話を認識すること、医療処置中に発話が少なくとも１つの画像上のコメントとして認識されたとき、発話－テキスト変換アルゴリズムを使用して、発話を少なくとも１つのテキスト文字列に変換すること、少なくとも１つのテキスト文字列を、ユーザからの発話が提供された少なくとも１つの画像と照合すること、および少なくとも１つのテキスト文字列が対応する少なくとも１つの画像にリンクされている少なくとも１つの注釈付き画像を生成することを行うように構成された少なくとも１つのプロセッサとを含む。

【0011】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、発話が、少なくとも１つのＯＯＩと同じ分類で分類されたＯＯＩを有する少なくとも１つの参照画像の要求として認識されたとき、少なくとも１つの参照画像を表示し、少なくとも１つのＯＯＩの分類を確認するか、または却下する入力をユーザから受信するようにさらに構成されている。

【0012】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つのＯＯＩが疑わしいと分類されたとき、未決定のＯＯＩを有する少なくとも１つの画像に対するユーザ分類を示す入力をユーザから受信するようにさらに構成されている。

【0013】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている。

【0014】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、所与の画像内の所与のＯＯＩについて、所与の画像内の所与のＯＯＩに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、所与のＯＯＩの分類の確率分布に基づいて信頼スコアを計算することと、信頼スコアが信頼閾値よりも高いとき、バウンディングボックス座標で少なくとも１つの画像上にバウンディングボックスをオーバーレイすることとを行うようにさらに構成されている。

【0015】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、ＯＯＩに畳み込みニューラルネットワーク（ＣＮＮ）を適用することと、畳み込み演算、活性化演算、およびプーリング演算を使用して行列を処理することによって、特徴ベクトルを生成することと、特徴ベクトルに基づいてＯＯＩの分類を実行することとによってＯＯＩの分類を決定するように構成されている。

【0016】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つの注釈付き画像を生成するとき、対応する少なくとも１つの画像にタイムスタンプをオーバーレイするようにさらに構成されている。

【0017】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つの画像の信頼スコアをディスプレイ上またはレポート内にリアルタイムで示すようにさらに構成されている。

【0018】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、一連の画像の表示を一時停止すること、一連の画像内の所与の画像のスナップショットを撮影すること、または最初のボイスコマンドを提供することを含む第１のユーザアクションの検出時に、ユーザからの入力音声の音声ストリームの受信を開始することと、あらかじめ決められた長さの間沈黙のままであること、指定されたボタンを押すこと、または最後のボイスコマンドを提供することを含む第２のユーザアクションの検出時に、音声ストリームの受信を終了することとによって医療処置中に入力音声を受信するように構成されている。

【0019】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、医療処置中に入力音声を受信したときに一連の画像を記憶し、それによって、対応する少なくとも１つの注釈付き画像を生成するためのアノテーションデータを受信するように少なくとも１つの画像を指定するようにさらに構成されている。

【0020】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、レポートに追加するための患者情報データのセットをキャプチャすることと、少なくとも１つの注釈付き画像を含む一連の画像のサブセットをロードすることと、患者情報データのセットと、少なくとも１つの注釈付き画像を含む一連の画像のサブセットとをレポートに結合することとによって医療処置のレポートを生成するようにさらに構成されている。

【0021】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つのトレーニング画像にエンコーダを適用して、少なくとも１つのトレーニング画像内のトレーニングＯＯＩに対する少なくとも１つの特徴ベクトルを生成することと、少なくとも１つの機械学習モデルに少なくとも１つの特徴ベクトルを適用することによって、トレーニングＯＯＩのクラスを選択することと、少なくとも１つの特徴ベクトルを少なくとも１つのトレーニング画像および少なくとも１つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することとによって少なくとも１つの機械学習モデルのトレーニングを実行するようにさらに構成されている。

【0022】

少なくとも１つの実施形態では、クラスは、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである。

【0023】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも１つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている。

【0024】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、教師あり学習、教師なし学習、または半教師あり学習を使用して、少なくとも１つの機械学習モデルをトレーニングするようにさらに構成されている。

【0025】

少なくとも１つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。

【0026】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴空間の一部である特徴に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、新しいトレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、新しいトレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも１つの機械学習モデルを作成するようにさらに構成されている。

【0027】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、デコーダへの入力として１つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの１つをマッピングすることと、少なくとも１つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの１つから新しいトレーニング画像を再構成することとによって少なくとも１つのＯＯＩの分類を決定するようにさらに構成されている。

【0028】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、発話データセットを使用して発話－テキスト変換アルゴリズムをトレーニングすることであって、発話データセットが、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている。

【0029】

少なくとも１つの実施形態では、発話－テキスト変換アルゴリズムは、少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングする。

【0030】

少なくとも１つの実施形態では、医用画像データが、１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得される。

【0031】

広範な別の態様では、本明細書の教示に従って、少なくとも１つの実施形態において、医療処置のための医用画像データの分析に使用するための少なくとも１つの機械学習モデルと、発話－テキスト変換アルゴリズムとをトレーニングするためのシステムが提供され、システムは、機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、プログラム命令を実行すると、少なくとも１つのトレーニング画像にエンコーダを適用して、少なくとも１つのトレーニング画像内の目的のトレーニング対象物（ＯＯＩ）に対する少なくとも１つの特徴を生成すること、少なくとも１つの機械学習モデルに少なくとも１つの特徴を適用することによって、トレーニングＯＯＩのクラスを選択すること、少なくとも１つの特徴をトレーニング画像および少なくとも１つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、グランドトゥルーステキストおよびグランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データとグランドトゥルーステキストとの間の一致を識別するように発話－テキスト変換アルゴリズムをトレーニングし、それによって少なくとも１つのテキスト文字列を生成すること、およびトレーニングＯＯＩと少なくとも１つのテキスト文字列を注釈付き画像にオーバーレイすることを行うように構成された少なくとも１つのプロセッサとを含む。

【0032】

【0033】

【0034】

【0035】

少なくとも１つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。

【0036】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴を含む特徴空間に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、トレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、トレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも１つの機械学習モデルを作成するようにさらに構成されている。

【0037】

【0038】

【0039】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つのテキスト文字列に一致する入力音声を生成する発話－テキスト変換アルゴリズムに基づいて、ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースであると決定されたとき、医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成するようにさらに構成されている。

【0040】

少なくとも１つの実施形態では、少なくとも１つのプロセッサは、少なくとも１つのテキスト文字列に一致する入力音声を生成する発話－テキスト変換アルゴリズムに基づいて、ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースではないと決定されたとき、医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成するようにさらに構成されている。

【0041】

少なくとも１つの実施形態では、１つ以上の内視鏡処置、１つ以上のＭＲＩスキャン、１つ以上のＣＴスキャン、１つ以上のＸ線、１つ以上の超音波写真、１つ以上の核医学画像、または１つ以上の組織学的画像から取得された医用画像データに対してトレーニングが行われる。

【0042】

別の広範な態様では、本明細書の教示に従って、少なくとも１つの実施形態において、医療処置のための医用画像データを分析するための方法が提供され、方法は、一連の画像から少なくとも１つの画像を受信することと、少なくとも１つの画像に少なくとも１つの関心対象物体（ＯＯＩ）が存在するときを決定し、少なくとも１つのＯＯＩが存在するとき、少なくとも１つのＯＯＩの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定することと、医療処置中に、少なくとも１つの画像および任意の決定されたＯＯＩをディスプレイ上でユーザに表示することと、医療処置中のユーザからの発話を含む入力音声信号を受信し、発話を認識することと、医療処置中に発話が少なくとも１つの画像上のコメントとして認識されたとき、発話－テキスト変換アルゴリズムを使用して、発話を少なくとも１つのテキスト文字列に変換することと、少なくとも１つのテキスト文字列を、ユーザからの発話が提供された少なくとも１つの画像と照合することと、少なくとも１つのテキスト文字列が対応する少なくとも１つの画像にリンクされている少なくとも１つの注釈付き画像を生成することとを含む。

【0043】

少なくとも１つの実施形態では、方法は、発話が、分類を含む少なくとも１つの参照画像の要求を含むものとして認識されたとき、少なくとも１つのＯＯＩと同じ分類で分類されたＯＯＩを有する少なくとも１つの参照画像を表示し、少なくとも１つのＯＯＩの分類を確認するか、または却下する入力をユーザから受信することをさらに含む。

【0044】

少なくとも１つの実施形態では、方法は、少なくとも１つのＯＯＩが疑わしいと分類されたとき、未決定のＯＯＩを有する少なくとも１つの画像に対するユーザ分類を示す入力をユーザから受信することをさらに含む。

【0045】

少なくとも１つの実施形態では、方法は、少なくとも１つの注釈付き画像を含むレポートを自動的に生成することをさらに含む。

【0046】

少なくとも１つの実施形態では、方法は、所与の画像内の所与のＯＯＩについて、所与の画像内の所与のＯＯＩに関連付けられたバウンディングボックスのバウンディングボックス座標を識別することと、所与のＯＯＩの分類の確率分布に基づいて信頼スコアを計算することと、信頼スコアが信頼閾値よりも高いとき、バウンディングボックス座標で少なくとも１つの画像上にバウンディングボックスをオーバーレイすることとをさらに含む。

【0047】

少なくとも１つの実施形態では、方法は、畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、ＯＯＩに畳み込みニューラルネットワーク（ＣＮＮ）を適用することと、畳み込み演算、活性化演算、およびプーリング演算を使用して行列を処理することによって、特徴ベクトルを生成することと、特徴ベクトルに基づいてＯＯＩの分類を実行することとによってＯＯＩの分類を決定することをさらに含む。

【0048】

少なくとも１つの実施形態では、方法は、少なくとも１つの注釈付き画像を生成するとき、対応する少なくとも１つの画像にタイムスタンプをオーバーレイすることをさらに含む。

【0049】

少なくとも１つの実施形態では、方法は、少なくとも１つの画像の信頼スコアをディスプレイ上またはレポート内にリアルタイムで示すことをさらに含む。

【0050】

少なくとも１つの実施形態では、医療処置中に入力音声を受信することは、一連の画像の表示を一時停止すること、一連の画像内の所与の画像のスナップショットを撮影すること、または最初のボイスコマンドを提供することを含む第１のユーザアクションの検出時に、ユーザからの入力音声の音声ストリームの受信を開始することと、あらかじめ決められた長さの間沈黙のままであること、指定されたボタンを押すこと、または最後のボイスコマンドを提供することを含む第２のユーザアクションの検出時に、音声ストリームの受信を終了することとを含む。

【0051】

少なくとも１つの実施形態では、方法は、医療処置中に入力音声を受信したときに一連の画像を記憶し、それによって、対応する少なくとも１つの注釈付き画像を生成するためのアノテーションデータを受信するように少なくとも１つの画像を指定することをさらに含む。

【0052】

少なくとも１つの実施形態では、方法は、レポートに追加するための患者情報データのセットをキャプチャすることと、少なくとも１つの注釈付き画像を含む一連の画像のサブセットをロードすることと、患者情報データのセットと、少なくとも１つの注釈付き画像を含む一連の画像のサブセットとをレポートに結合することとによって医療処置のレポートを生成することをさらに含む。

【0053】

少なくとも１つの実施形態では、方法は、少なくとも１つのトレーニング画像にエンコーダを適用して、少なくとも１つのトレーニング画像内のトレーニングＯＯＩに対する少なくとも１つの特徴ベクトルを生成することと、少なくとも１つの機械学習モデルに少なくとも１つの特徴ベクトルを適用することによって、トレーニングＯＯＩのクラスを選択することと、少なくとも１つの特徴ベクトルを少なくとも１つのトレーニング画像および少なくとも１つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することとによって少なくとも１つの機械学習モデルのトレーニングを実行することをさらに含む。

【0054】

【0055】

少なくとも１つの実施形態では、方法は、ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、少なくとも１つの機械学習モデルをトレーニングすることであって、画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることをさらに含む。

【0056】

少なくとも１つの実施形態では、方法は、教師あり学習、教師なし学習、または半教師あり学習を使用して、少なくとも１つの機械学習モデルをトレーニングすることをさらに含む。

【0057】

少なくとも１つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。

【0058】

少なくとも１つの実施形態では、方法は、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴空間の一部である特徴に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、新しいトレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、新しいトレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも１つの機械学習モデルを作成することをさらに含む。

【0059】

少なくとも１つの実施形態では、方法は、デコーダへの入力として１つ以上の特徴を受信することと、逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに特徴のうちの１つをマッピングすることと、少なくとも１つの機械学習モデルをトレーニングするために、デコーダを使用して特徴のうちの１つから新しいトレーニング画像を再構成することとによって少なくとも１つのＯＯＩの分類を決定することをさらに含む。

【0060】

少なくとも１つの実施形態では、方法は、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、発話データセットを使用して発話－テキスト変換アルゴリズムをトレーニングすることであって、発話データセットが、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む。

【0061】

【0062】

【0063】

広範な別の態様では、本明細書の教示に従って、少なくとも１つの実施形態において、医療処置のための医用画像データの分析に使用するための少なくとも１つの機械学習モデルと、発話－テキスト変換アルゴリズムとをトレーニングするための方法が提供され、方法は、少なくとも１つのトレーニング画像にエンコーダを適用して、少なくとも１つのトレーニング画像内の目的のトレーニング対象物（ＯＯＩ）に対する少なくとも１つの特徴を生成することと、少なくとも１つの機械学習モデルに少なくとも１つの特徴を適用することによって、トレーニングＯＯＩのクラスを選択することと、少なくとも１つの特徴をトレーニング画像および少なくとも１つの機械学習モデルをトレーニングするための選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、グランドトゥルーステキストおよびグランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データとグランドトゥルーステキストとの間の一致を識別するように発話－テキスト変換アルゴリズムをトレーニングし、それによって少なくとも１つのテキスト文字列を生成することと、トレーニングＯＯＩと少なくとも１つのテキスト文字列を注釈付き画像にオーバーレイすることとを含む。

【0064】

【0065】

【0066】

少なくとも１つの実施形態では、少なくとも１つの機械学習モデルをトレーニングすることは、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む。

【0067】

少なくとも１つの実施形態では、トレーニングデータセットは、不健康な組織および疑わしい組織の各々についてのサブカテゴリをさらに含む。

【0068】

少なくとも１つの実施形態では、方法は、エンコーダへの入力としてトレーニング画像を受信することと、エンコーダを使用して、トレーニング画像を特徴を含む特徴空間に投影することと、分類器を使用して、特徴をターゲットクラスのセットにマッピングすることと、トレーニングデータセットを生成するために、トレーニング画像の形態学的特性を識別することであって、トレーニングデータセットが、トレーニング画像にパラメータをリンクするデータを有する、識別することと、形態学的特性に基づいて、１つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することとによって少なくとも１つの機械学習モデルを作成することをさらに含む。

【0069】

【0070】

【0071】

少なくとも１つの実施形態では、方法は、少なくとも１つのテキスト文字列に一致する入力音声を生成する発話－テキスト変換アルゴリズムに基づいて、ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースであると決定されたとき、医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成することをさらに含む。

【0072】

少なくとも１つの実施形態では、方法は、少なくとも１つのテキスト文字列に一致する入力音声を生成する発話－テキスト変換アルゴリズムに基づいて、ＯＯＩに関連付けられた少なくとも１つのテキスト文字列がそのＯＯＩのグランドトゥルースではないと決定されたとき、医用画像データを分析する間に検出された関心対象物体（ＯＯＩ）から少なくとも１つの新しいトレーニング画像を生成することをさらに含む。

【0073】

【0074】

本出願の他の特徴および利点は、添付の図面とともに以下の詳細な説明から明らかになるであろう。しかしながら、詳細な説明および特定の例は、本出願の好ましい実施形態を示しているが、本出願の趣旨および範囲内の様々な変更および修正が、この詳細な説明から当業者に明らかになるので、例示としてのみ与えられていることを理解されたい。

【0075】

本明細書に記載された様々な実施形態をよりよく理解するために、およびこれらの様々な実施形態がどのように実施され得るかをより明確に示すために、少なくとも１つの例示的な実施形態を示し、次に説明される添付の図面を一例として参照する。図面は、本明細書に記載された教示の範囲を制限することを意図するものではない。

【図面の簡単な説明】

【0076】

【図1】限定はされないが、例えば内視鏡画像などの医療処置画像をリアルタイムで処理するためのシステムの例示的な実施形態のブロック図である。

【図2】図１のシステムとともに使用するための内視鏡検査装置の例示的なセットアップおよび内視鏡検査画像解析システムの代替的な例示的な実施形態の図である。

【図3】図２の内視鏡画像解析システムとともに使用するコンピュータデバイスのハードウェア構成要素およびデータフローの例示的な実施形態のブロック図である。

【図4】入力音声とリアルタイムアノテーションプロセスとの間の対話の例示的な実施形態のブロック図である。

【図5A】入力音声ストリームおよび一連の入力画像をリアルタイムアノテーションプロセスで処理するための方法の例示的な実施形態のブロック図である。

【図5B】図５Ａの入力音声ストリームのキャプチャを開始および終了するための方法の例示的な実施形態のブロック図である。

【図5C】発話認識アルゴリズムを使用して入力音声ストリームを処理するための方法の例示的な実施形態のブロック図である。

【図6】図２のシステムを使用して内視鏡検査処置中に画像解析を実行するための方法の例示的な実施形態のブロック図である。

【図7】画像解析トレーニングアルゴリズムの例示的な実施形態のブロック図である。

【図8A】物体検出アルゴリズムによって使用されるＵ－ｎｅｔアーキテクチャの第１の例示的な実施形態のブロック図である。

【図8B】物体検出アルゴリズムによって使用されるＵ－ｎｅｔアーキテクチャの第２の例示的な実施形態の詳細なブロック図である。

【図9】健康な形態学的特性を有する内視鏡画像の例を示す図である。

【図10】不健康な形態学的特性を有する内視鏡画像の例を示す図である。

【図11】排他的データセットからのラベルなしビデオフレーム画像の例を示す図である。

【図12】レポート生成プロセスの例示的な実施形態のブロック図である。

【図13】ビデオ処理アルゴリズムおよびアノテーションアルゴリズムを使用して入力ビデオストリームを処理するための方法の例示的な実施形態のブロック図である。

【図14】真陽性値に対する正の発話認識結果率を示すトレーニング結果のチャートである。

【図15】発話認識アルゴリズムの例示的な実施形態のブロック図である。

【図16】画像解析アルゴリズムによって使用され得る物体検出アルゴリズムの例示的な実施形態のブロック図である。

【図17】注釈付き画像を含むレポートの例示的な実施形態を示す図である。

【発明を実施するための形態】

【0077】

本明細書に記載された例示的な実施形態のさらなる態様および特徴は、添付の図面とともに以下の説明から明らかになるであろう。

【0078】

本明細書の教示による様々な実施形態が、特許請求される主題の少なくとも１つの実施形態の一例を提供するために、以下で説明される。本明細書に記載されたいかなる実施形態も、特許請求される主題を限定しない。特許請求される主題は、以下に記載されるデバイス、システム、もしくは方法のいずれか１つの特徴のすべてを有するデバイス、システム、もしくは方法、または本明細書に記載されたデバイス、システム、もしくは方法の複数もしくはすべてに共通の特徴に限定されない。任意の特許請求される主題の実施形態ではない、本明細書に記載されたデバイス、システム、または方法が存在し得る可能性がある。本明細書において請求されていない、本明細書に記載された任意の主題は、別の保護手段、例えば、継続特許出願の主題であり得、出願人、発明者、または所有者は、本明細書におけるその開示によって、任意のそのような主題を放棄（ａｂａｎｄｏｎ）、放棄（ｄｉｓｃｌａｉｍ）、または公衆に提供することを意図しない。

【0079】

説明を簡単かつ明瞭にするために、適切であると見なされる場合、対応するまたは類似の要素を示すために、図面間で参照番号を繰り返す場合があることを理解されたい。加えて、本明細書に記載された実施形態の完全な理解を提供するために、多くの特定の詳細が記載されている。しかしながら、本明細書に記載された実施形態は、これらの特定の詳細なしで実施されてもよいことが当業者によって理解されよう。他の例では、本明細書に記載された実施形態を不明瞭にしないように、周知の方法、手順、および構成要素は詳細には説明されていない。また、説明は、本明細書に記載された実施形態の範囲を限定するものと見なされないものとする。

【0080】

また、本明細書で使用される「結合された」または「結合する」という用語は、これらの用語が使用される状況に応じて、いくつかの異なる意味を有する可能性があることにも留意されたい。例えば、結合されたまたは結合するという用語は、機械的または電気的意味を有し得る。例えば、本明細書で使用されるように、結合されたまたは結合するという用語は、２つの要素またはデバイスが、互いに直接接続され得るか、または、特定の状況に応じて、電気信号、電気接続、もしくは機械的要素を介して、１つもしくは複数の中間要素もしくはデバイスを介して互いに接続され得ることを示すことができる。

【0081】

また、本明細書で使用される場合、「および／または」という用語は、包括的な「または」を表すことが意図されることにも留意されたい。すなわち、「Ｘおよび／またはＹ」は、例えば、ＸまたはＹまたはその両方を意味することが意図される。さらなる例として、「Ｘ、Ｙ、および／またはＺ」は、Ｘ、Ｙ、Ｚ、またはそれらの任意の組合せを意味することを意図する。

【0082】

本明細書で使用される「実質的に」、「約」、および「およそ」など、程度の用語は、最終結果が大幅に変更されないような変更された用語の妥当な量の偏差を意味することに留意されたい。また、これらの程度の用語は、この偏差が修正する用語の意味を否定しない場合、１％、２％、５％、または１０％など、修正された用語の偏差を含むと解釈され得る。

【0083】

さらに、本明細書における端点による数値範囲の列挙は、その範囲内に包含されるすべての数および端数を含む（例えば、１～５は、１、１．５、２、２．７５、３、３．９０、４、および５を含む）。また、そのすべての数および端数は、例えば、１％、２％、５％、または１０％など、最終結果が有意に変化しない場合、参照される数のある量までの変動を意味する「約」という用語によって修正されると推定されることも理解されたい。

【0084】

また、本明細書に記載された任意のシステムまたは方法の動作を説明する際に「ウィンドウ」という用語を使用することは、初期化、構成、または他のユーザ操作を実行するためのユーザインターフェースを説明するものとして理解されることを意図していることに留意されたい。

【0085】

本明細書の教示によって説明されるデバイス、システム、または方法の例示的な実施形態は、ハードウェアおよびソフトウェアの組合せとして実装され得る。例えば、本明細書に記載された実施形態は、少なくとも部分的に、１つ以上のコンピュータプログラムを使用して、少なくとも１つの処理要素および少なくとも１つの記憶要素（すなわち、少なくとも１つの揮発性メモリ要素および少なくとも１つの不揮発性メモリ要素（本明細書ではメモリ要素をメモリユニットと呼ぶこともある））を含む１つ以上のプログラマブルデバイス上で実行することによって実装され得る。ハードウェアは、タッチスクリーン、タッチパッド、マイクロフォン、キーボード、マウス、ボタン、キー、スライダ、脳波（ＥＥＧ）入力デバイス、視線追跡デバイスなどのうち少なくとも１つを含む入力デバイス、ならびにハードウェアの実装に応じてディスプレイ、プリンタなどのうち１つ以上を備え得る。

【0086】

オブジェクト指向プログラミングなど、高レベルプロシージャ言語で書かれたソフトウェアを介して実装され得る、本明細書に記載された実施形態のうちの少なくとも一部を実装するために使用されるいくつかの要素があり得ることにも留意されたい。したがって、プログラムコードは、Ｃ^＋＋、Ｃ＃、ＪａｖａＳｃｒｉｐｔ、Ｐｙｔｈｏｎ、または任意の他の適切なプログラミング言語で記述されてもよく、オブジェクト指向プログラミングの当業者に知られているように、モジュールまたはクラスを含んでいてもよい。代替的に、または追加として、ソフトウェアを介して実装されるこれらの要素のうちのいくつかは、必要に応じて、アセンブリ言語、機械語、またはファームウェアで記述されてもよい。いずれの場合も、言語は、コンパイル型言語でもインタープリタ型言語でもよい。

【0087】

これらのソフトウェアプログラムの少なくともいくつかは、限定はしないが、本明細書に記載された実施形態のうちの少なくとも１つの機能を実装するために必要なプロセッサ、オペレーティングシステム、ならびに関連するハードウェアおよびソフトウェアを有するデバイスによって読み取り可能（またはアクセス可能）である、ＲＯＭ、磁気ディスク、光ディスク、ＵＳＢキーなどのコンピュータ可読媒体、またはクラウド上に記憶され得る。ソフトウェアプログラムコードは、デバイスによって読み取られると、本明細書に記載された方法の少なくとも１つを実行するために、新しい特定のあらかじめ定義された方法（例えば、特定用途向けコンピュータ）で動作するようにデバイスを構成する。

【0088】

本明細書に記載された実施形態のデバイス、システム、および方法に関連付けられたプログラムの少なくともいくつかは、１つ以上の処理ユニットのための、プログラムコードなどのコンピュータ使用可能命令を担持するコンピュータ可読媒体を含むコンピュータプログラム製品中に分散することが可能であり得る。媒体は、限定はしないが、１つ以上のディスケット、コンパクトディスク、テープ、チップ、ならびに磁気および電子記憶装置などの非一時的な形態を含む様々な形態で提供され得る。代替の実施形態では、媒体は、限定はしないが、有線送信、衛星送信、インターネット送信（例えば、ダウンロード）、媒体、デジタル信号およびアナログ信号など、本質的に一時的であり得る。コンピュータ使用可能命令はまた、コンパイルされたコードおよびコンパイルされていないコードを含む、様々なフォーマットであり得る。

【0089】

本明細書の教示に従って、様々なモダリティの医用画像を処理するためのシステムおよび方法、ならびにそれとともに使用するコンピュータ製品の様々な実施形態が提供される。処理は、リアルタイムで行われてもよい。

【0090】

システムの少なくとも１つの実施形態において、システムは、医療処置のための医用画像データを分析して、医療処置中に撮影された、例えばビデオフィードのような一連の画像から注釈付き画像を生成する従来のシステムの改善を提供する。医療処置は医療診断処置であり得る。例えば、システムは、一連のビデオフレームからの１つのビデオフレームであってもよいし、例えば、１つ以上の対応するＣＴスライスまたはＭＲＩスライスの１つ以上の画像など一連の画像から取得されてもよい画像を受信する。このシステムは、画像内に関心対象物体（ＯＯＩ）が存在するときを決定し、ＯＯＩが存在するとき、ＯＯＩの分類を決定する。このシステムは、少なくとも１つの機械学習モデルを使用して、これら決定の両方を行う。システムは、医療処置中に、画像および任意の決定されたＯＯＩをディスプレイ上でユーザに表示する。システムはまた、医療処置中にユーザからの入力音声を受信する。システムは入力音声から発話を認識し、発話－テキスト変換アルゴリズムを使用して発話をテキスト文字列に変換する。場合によっては、システムは、テキスト文字列と対応する画像を照合する。システムは、テキスト文字列が対応する画像にリンクされた（例えば、重ね合わされている）注釈付き画像を生成する。少なくとも１つの代替実施形態では、テキスト文字列は、参照画像がＯＯＩと同様に分類されており、ユーザが一連の画像（例えば、一連のビデオフレームまたはＣＴもしくはＭＲＩスライスからの一連の画像）からの所与の画像を参照画像と比較して、ＯＯＩの自動分類が正しいかどうかを決定できるようにするために表示され得るライブラリまたはデータベースからの画像（参照画像と呼ばれ得る）を閲覧するためのコマンドを含み得る。
医用イメージング技術

【0091】

本明細書に記載される医用画像をリアルタイムで処理するためのシステムおよび方法に関する様々な実施形態は、様々な医用イメージング技術に応用可能である。本明細書に記載される実施形態の利点の１つは、（ａ）目的のエリアが異常、構造的損傷のエリア、生理学的変化のエリア、または治療ターゲットであり得る、画像内の目的のエリアを識別／マークする、および／または（ｂ）治療もしくは処置の次のステップのために画像内の目的のエリアにマーク／タグを付けるために使用され得るテキストをリアルタイムで生成するために発話認識を提供することを含む。もう１つの利点は、即時レポート（例えば、識別／マーキング／タグ付け、ならびに生成されたテキストまたはその一部に基づいてレポートに画像が含まれる場合がある）を生成する機能を含む。もう１つの利点は、オペレータの診断能力を高め、サポートするために、オペレータによって識別されたＯＯＩに類似する、以前に注釈を付けられた、または特徴付けられた画像を、リアルタイムで表示することを含む。

【0092】

本明細書に記載される様々な実施形態は、品質保証および臨床ノートのために、処置中の出来事のリアルタイムのタイムスタンプ付き文書を提供する機会など、処置中のボイス－テキスト技術に応用することもできる。内視鏡検査において、例えば、これは、患者の症状（例えば、痛み）、鎮痛剤の投与、患者の体位変換などの文書化を含む。これらのデータは、次いで、他の監視情報、患者の生理学的パラメータ（例えば、脈拍、ＢＰ、オキシメトリ）、器具操作などと同時に記録することができる。

【0093】

以下の表１は、本明細書に記載の医用画像を処理するためのシステムおよび方法の様々な実施形態を使用するための臨床応用の、完全なリストではない例を提供する。

【表1-1】

【表1-2】

【0094】

表１の追加の臨床応用は、「内視鏡」技術が処置の実行における視覚運動要件で多忙なオペレータによる異常のリアルタイムの識別およびリアルタイムの文書化の必要がある他の多くの専門分野で使用されているという事実を反映している。「内視鏡」処置のほとんどは、治療的介入が増えてきてはいるが、主に診断的なものである。

【0095】

対照的に、外科的腹腔鏡検査は、治療標的の正確な特定に基づいているが、主に治療的なものである。多くの手術は長時間に及ぶため、処置中の出来事や治療介入を総合的に文書化する機会はほとんどなく、その場合、処置後に記憶に基づいて文書化しなければならない。

【0096】

ほとんどの専門医は病理組織学的診断を管理計画に組み込んでいるが、病理組織学的診断および報告などは病理組織医が行っていることに留意されたい。本明細書に記載される実施形態の利点の１つは、病理組織医が検査中にリアルタイムで画像またはＯＯＩを識別し、局在化し、注釈を付け、その後の報告書を作成し、データバンクから比較可能な画像／ＯＯＩにアクセスできる機構を提供することである。

【0097】

本明細書に記載される実施形態のもう１つの利点は、ボイス制御／注釈を使用して画像内のＯＯＩの位置をマーキングするオプションを提供することであり、これは放射線学および病理組織学に適用され得る。放射線科医または病理医は、病変をＯＯＩとして特定すると同時に、標準化された語彙を使用してボイス－テキスト技術でＯＯＩに注釈を付けることができる。

【0098】

処置中の画像またはビデオの注釈は、潜在的に、ボイス－テキストを使用したＯＯＩローカライゼーションを含み、（例えば）腹腔鏡外科処置のビデオ録画に基づいて）手術を文書化または報告する手段である。
内視鏡検査用途

【0099】

本明細書の教示に従って説明される医用画像を処理するためのシステムおよび方法の様々な実施形態は、例示の目的で、ＧＩ内視鏡検査から取得される画像を用いて説明される。したがって、本明細書に記載されたシステムおよび方法は、異なるタイプの内視鏡検査用途から生成された医用画像、または表１に示される例のような他のイメージングモダリティを使用して画像が取得される他の医療用途とともに使用され得ることを理解されたい。本明細書に記載されたシステムおよび方法が使用され得る内視鏡検査の様々な用途には、限定はされないが、呼吸器系、耳鼻咽喉科、産婦人科、循環器科、泌尿器科、神経科、整形外科および一般外科に関するものが含まれ得る。
呼吸器系：

【0100】

内視鏡検査用途には、限定はされないが、例えば、狭帯域イメージング（ＮＢＩ）の有無にかかわらず、標準化された内視鏡プラットフォームを使用することに基づく、気管支内超音波検査およびナビゲーショナル気管支鏡検査のような軟性気管支鏡検査および医療用胸腔鏡検査が含まれる。
耳鼻咽喉科：

【0101】

内視鏡検査用途には、限定はされないが、鼓膜切開手術または他の耳鼻咽喉科手術など、聴覚的合併症に対処する外科的処置、喉頭蓋、舌、声帯に影響を及ぼす喉頭疾患に対処する外科的処置、上顎洞に対する外科的処置、鼻ポリープ、または耳鼻咽喉科医の意思決定支援システムに統合される他の臨床的または構造的評価などが含まれる。
産婦人科：

【0102】

内視鏡検査用途には、限定はされないが、例えば、低侵襲手術（ロボット手術技術を含む）、腹腔鏡手術など、産婦人科に関連する疾患の構造的および病理学的評価および診断が含まれる。
循環器科：

【0103】

内視鏡検査用途には、限定はされないが、例えば、低侵襲手術（ロボット手術技術を含む）等の心臓病に関連する疾患の構造的および病理学的評価および診断が含まれる。
泌尿器科：

【0104】

内視鏡検査用途には、腎疾患の診断および治療、腎構造および病理学的評価、ならびに治療処置（ロボット手術および低侵襲手術を含む）、ならびに、限定はされないが、局所治療および／または手術としての腎結石、がんなどの治療を含む用途に使用される処置が含まれる。
神経学（中枢神経系／脊椎）：

【0105】

内視鏡検査用途には、限定はされないが、例えば、標準化された技術または３Ｄイメージングに基づく低侵襲脊椎手術など、脊椎の構造的および病理学的評価が含まれる。
整形外科：

【0106】

内視鏡検査用途には、限定はされないが、関節手術が含まれる。

【0107】

最初に図１を参照すると、医療処置における形態学的特性を検出し、１つ以上の画像にリアルタイムで注釈を付けるための自動化システム１００の例示的な実施形態のブロック図が示されている。医療処置は医療診断処置であり得る。内視鏡検査の文脈で使用されるとき、システム１００は内視鏡画像解析（ＥＩＡ）システムと呼ばれることがある。しかしながら、前述したように、システム１００は、他のイメージングモダリティおよび／または医療診断処置と併せて使用することができる。システム１００は、少なくとも１つのユーザデバイス１１０と通信することができる。いくつかの実施形態では、システム１００は、サーバによって実施され得る。ユーザデバイス１１０およびシステム１００は、例えば、有線であっても無線であってもよい通信ネットワーク１０５を介して通信し得る。通信ネットワーク１０５は、例えば、インターネット、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ等とすることができる。

【0108】

ユーザデバイス１１０は、ユーザによって操作されるコンピューティングデバイスであってもよい。ユーザデバイス１１０は、例えば、スマートフォン、スマートウォッチ、タブレットコンピュータ、ラップトップ、仮想現実（ＶＲ）デバイス、または拡張現実（ＡＲ）デバイスであり得る。ユーザデバイス１１０は、例えば、スマートフォンおよびセンサーなど、一緒に動作するコンピューティングデバイスの組合せでもよい。また、ユーザデバイス１１０は、例えば、ユーザによって遠隔操作されるデバイスであってもよく、このような場合、ユーザデバイス１１０は、例えば、パーソナルコンピューティングデバイス（スマートフォンなど）を介してユーザによって操作され得る。ユーザデバイス１１０は、システム１００のいくつかの部分と通信するアプリケーション（例えば、モバイルアプリ）を実行するように構成されてもよい。

【0109】

システム１００は、単一のコンピュータ上で実行することができる。システム１００は、プロセッサユニット１２４、ディスプレイ１２６、ユーザインターフェース１２８、インターフェースユニット１３０、入出力（Ｉ／Ｏ）ハードウェア１３２、ネットワークユニット１３４、電源ユニット１３６、およびメモリユニット（「データストア」とも呼ばれる）１３８を含む。他の実施形態では、システム１００は、より多くのまたはより少ない構成要素を有することができるが、一般に同様の方法で機能する。例えば、システム１００は、複数のコンピューティングデバイスまたはコンピューティングシステムを使用して実装することができる。

【0110】

プロセッサユニット１２４は、例えばＩｎｔｅｌＸｅｏｎプロセッサなどの標準的なプロセッサを含み得る。あるいは、プロセッサユニット１２４によって使用されるプロセッサが複数存在し得、これらのプロセッサが並列に機能し、特定の機能を実行し得る。ディスプレイ１２６は、限定はしないが、コンピュータモニタ、またはタブレットデバイスのためのものなどＬＣＤディスプレイであってもよい。ユーザインターフェース１２８は、ネットワークユニット１３４を介してアクセス可能なアプリケーションプログラミングインターフェース（ＡＰＩ）またはウェブベースのアプリケーションであってもよい。ネットワークユニット１３４は、Ｅｔｈｅｒｎｅｔまたは８０２．１１ｘアダプタなどの標準的なネットワークアダプタであってもよい。

【0111】

プロセッサユニット１２４は、メモリユニット１３８に記憶された機械学習モデル１４６を使用して予測を提供するように機能する、グラフィカルプロセッシングユニット（ＧＰＵ）などの１つ以上のスタンドアロンプロセッサを使用して実装することができる予測エンジン１５２で動作することができる。予測エンジン１５２は、１つ以上の機械学習アルゴリズムにトレーニングデータを適用することによって、１つ以上の予測アルゴリズムを構築することができる。トレーニングデータは、例えば、画像データ、ビデオデータ、音声データ、およびテキストを含み得る。予測は、最初に画像内の対象物を識別し、次いでその分類を決定することを伴い得る。例えば、トレーニングは、例えば、他の医療診断／外科用途または他のイメージングモダリティにおいて遭遇する可能性のあるポリープまたは少なくとも１つの他の生理学的構造など、ＯＯＩの形態学的特性に基づいてもよく、次いで、画像解析中に、画像解析ソフトウェアは、最初に、新たに取得された画像がポリープの画像の形態学的特性と一致するＯＯＩを有するかどうかを識別し、もしそうであれば、ＯＯＩがポリープまたは少なくとも１つの他の生理学的構造であると予測する。これは、ＯＯＩが正しく識別されているという信頼スコアを決定することを含み得る。

【0112】

プロセッサユニット１２４はまた、様々なＧＵＩを生成するために使用されるグラフィカルユーザインターフェース（ＧＵＩ）エンジン１５４用のソフトウェア命令を実行することもできる。ＧＵＩエンジン１５４は、各ユーザインターフェースに対して一定のレイアウトに従ってデータを提供するとともに、ユーザからのデータ入力または制御入力を受信する。次いで、ＧＵＩエンジン１５４は、ユーザからの入力を使用して、ディスプレイ１２６に示されるデータを変更することができ、またはシステム１００の動作を変更し、これは、異なるＧＵＩを示すことを含み得る。

【0113】

メモリユニット１３８は、オペレーティングシステム１４０のプログラム命令、他のアプリケーション用のプログラムコード１４２（「プログラム１４２」とも呼ばれる）、入力モジュール１４４、複数の機械学習モデル１４６、出力モジュール１４８、データベース１５０、およびＧＵＩエンジン１５４を記憶し得る。機械学習モデル１４６は、限定はされないが、ディープラーニングモデルおよび他のアプローチに基づく画像認識および分類アルゴリズムを含み得る。データベース１５０は、例えば、メモリユニット１３８に記憶されたローカルデータベースであってもよく、または他の実施形態では、クラウド上のデータベース、複数のデータベース、またはそれらの組合せなどの外部データベースであってもよい。

【0114】

少なくとも１つの実施形態では、機械学習モデル１４６は、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、および／または予測モデリングの他の適切な実装（例えば、多層パーセプトロン）を含む。ＣＮＮは、画像およびパターンを認識するように設計されている。ＣＮＮは、畳み込み演算を実行し、例えば画像の領域を分類し、画像領域内で認識される対象物のエッジを見るために使用することができる。ＲＮＮは、テキスト、発話、時間発展などのシーケンスを認識するために使用することができるため、ＲＮＮをデータのシーケンスに適用して、次に何が起こるかを予測することができる。したがって、ＣＮＮは、何が起こっているかを検出するか、または所与の時間に所与の画像上で少なくとも１つの生理学的構造を検出するために使用され、ＲＮＮは、情報メッセージ（例えば、ＯＯＩの分類）を提供するために使用され得る。

【0115】

プログラム１４２は、実行されると、システム１００のための様々な機能およびツールを実装するために特定の方法で動作するようにプロセッサユニット１２４を構成するプログラムコードを備える。プログラム１４２は、画像解析アルゴリズム、発話認識アルゴリズム、テキストマッチングアルゴリズム、用語訂正アルゴリズムを含む様々なアルゴリズムに使用され得るプログラムコードを含む。

【0116】

図２を参照すると、リアルタイムで医用画像を取得し、処理するためのシステムの例示的なセットアップ２００の図が示されている。図２に示されるセットアップ２００は、医用画像の具体例として、内視鏡画像を取得し、処理するためのシステムを示しているが、他の医療用途および／または医用イメージングモダリティに使用することもできる。セットアップ２００は、内視鏡システムおよび内視鏡画像解析（ＥＩＡ）システム２４２を含む。内視鏡システムは、内視鏡プラットフォーム２１０、主画像プロセッサ２１５、内視鏡２２０、ハンドヘルドコントローラ２２５、および内視鏡モニタ２４０の５つの主要構成要素を含む。内視鏡画像解析システムは、要素２４５～２７０を含む。

【0117】

主画像プロセッサ２１５は、内視鏡２２０を介して入力を受信する。内視鏡２２０は、患者への挿入に適した任意の内視鏡でよい。他の実施形態では、他の医療用途および／またはイメージングモダリティのために、内視鏡は、表１に示される例など、画像を取得するために、以下に説明されるような別のイメージングデバイスおよび／またはセンサーに置き換えられる。また、主画像プロセッサ２１５は、内視鏡２２０が消化管または他の人体部位に挿入され、内視鏡２２０のカメラが画像（例えば、画像信号）をキャプチャするために使用されるとき、ユーザからの入力を受信する。主画像プロセッサ２１５は、表示または出力されるように処理され得る画像信号を内視鏡２２０から受信する。例えば、主画像プロセッサ２１５は、内視鏡２２０によってキャプチャされた画像を内視鏡モニタ２４０に送って表示する。内視鏡モニタ２４０は、内視鏡２２０および主画像プロセッサ２１５と互換性のある内視鏡処置に適した任意のモニタとすることができる。他の医用イメージングモダリティの場合、主画像プロセッサ２１５は、ＣＴ走査装置、超音波装置、ＭＲＩスキャナ、Ｘ線装置、核医学イメージング装置、組織学イメージングデバイス等のような他のデバイス／プラットフォームから画像を受信することができ、それに応じて、内視鏡２２０からの出力は、表１に示される例など、それらの用途において、これらのデバイス／プラットフォームの各々からの出力に置き換えられる。

【0118】

画像処理ユニット２３５は、内視鏡２２０からの画像信号の処理を制御する。画像処理ユニット２３５は、内視鏡２２０から画像信号を受信し、次いでカメラによって実行される従来の画像処理と一致する方法で画像信号を処理するために使用されるメイン画像プロセッサ２１５を備える。次いで、主画像プロセッサ２１５は、接続ケーブル２３６を介して画像データおよび制御信号を内視鏡モニタ２４０に送ることによって、処理された画像の内視鏡モニタ２４０への表示を制御する。

【0119】

内視鏡２２０は、プログラムされたボタン２３０からなるハンドヘルドコントロールパネル２２５に接続されている。ハンドヘルドコントロールパネル２２５およびプログラムされたボタン２３０は、入力モジュール１４４の一部であってもよい。プログラムされたボタン２３０は、内視鏡２２０を制御するための入力信号を送るために押され得る。プログラムされたボタン２３０は、入力信号を主画像プロセッサ２１５に送るためにユーザ（臨床医、胃腸科医、または他の医療専門家であり得る）によって作動され得、入力信号は、一連の画像（例えば、ビデオストリームまたはビデオフレームのシーケンス）の表示を一時停止するか、または一連の画像内の所与の画像（例えば、ビデオストリームのビデオフレームまたはビデオフレームのシーケンス内のビデオフレーム）のスナップショットを撮影するように主画像プロセッサ２１５に指示するために使用され得る。入力信号は、一連の画像（例えば、内視鏡モニタ２４０に表示されているビデオストリーム）の表示を一時的に中断することがあり、これにより、サーバ１２０は、注釈が付けられる特定の画像（例えば、ビデオフレーム）を検出することができる。

【0120】

少なくとも１つの実施形態では、内視鏡２２０は、（例えば、ＭＲＩデバイスによって生成されるスライスなど）一緒にビデオを形成してもしなくてもよい別の種類の画像を生成するイメージングデバイスと置き換えられる。このような場合、一連の画像は、それらの一連の画像（例えば、一連のスライス）である。

【0121】

ＥＩＡシステム２４２は、内視鏡２２０によって取得された画像を分析し、これらの画像の対応する注釈付きバージョン、および他の機能を提供するために使用される、１つ以上の構成要素を含む、ＡＩベースの分析プラットフォームなどの分析プラットフォームを提供する。ＥＩＡシステム２４２は、システム１００の代替的な例示的な実施形態であると考えることができる。より一般的には、ＥＩＡシステム２４２は、他の医用イメージングモダリティに使用されるとき、システム１００の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表１に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。

【0122】

この例示的な実施形態では、ＥＩＡシステム２４２は、内視鏡画像を受信するために、例えばＨＤＭＩケーブル２４５を介して内視鏡モニタ２４０に接続され得るマイクロコンピュータ２５５を含む。ＨＤＭＩケーブル２４５は、任意の標準的なＨＤＭＩケーブルであり得る。変換キー２５０により、内視鏡モニタ２４０のＨＤＭＩポートをマイクロコンピュータ２５５のＵＳＢポートに接続できるようにする。マイクロコンピュータ２５５は、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６が集合的に記憶された、メモリユニット１３８などの１つ以上のメモリデバイスに通信可能に結合されている。マイクロコンピュータ２５５は、画像解析ソフトウェアプログラム命令を実行して、内視鏡２２０によって収集された画像信号に画像解析アルゴリズムを適用する。

【0123】

マイクロコンピュータ２５５は、例えば、１つ以上のメモリ要素とともに、ＣＰＵおよびＧＰＵを備えるＮＶＩＤＩＡＪｅｔｓｏｎマイクロコンピュータであってもよい。加えて、画像解析アルゴリズムは、特定の機能を実行するために畳み込みニューラルネットワーク（例えば、図１６に示すような）を使用するＹＯＬＯｖ４に基づき得る物体検出アルゴリズムを含む。ＹＯＬＯｖ４物体検出アルゴリズムは、ＥＩＡシステムがより高速に画像を解析でき得るので、有利である可能性がある。ＹＯＬＯｖ４物体検出アルゴリズムは、例えば、ＴｅｎｓｏｒＲＴ、ＲａｓｐｂｅｒｒｙＰｉ、またはＴｅｎｓｏｒＦｌｏｗなどのソフトウェアアクセラレータを備えたＮＶＩＤＩＡＪｅｔｓｏｎマイクロコンピュータによって実装され得る。

【0124】

ソフトウェアアクセラレータＴｅｎｓｏｒＲＴは、ＥＩＡシステム２４２が、ＮＶＩＤＩＡＧＰＵなどのＧＰＵを使用して、機械学習モデル１４６をより速い速度でトレーニングすることを可能にするので、有利であり得る。ソフトウェアアクセラレータＴｅｎｓｏｒＲＴは、ＥＩＡシステム２４２の性能に影響を与えることなく機械学習モデル１４６の変更を可能にすることによって、ＥＩＡシステム２４２にさらなる利点を提供し得る。ソフトウェアアクセラレータＴｅｎｓｏｒＲＴは、レイヤ融合、ブロック融合、ｆｌｏａｔ－ｉｎｔ変換器などの特定の機能を使用して、ＥＩＡシステム２４２のこれらの利点を達成することができる。ＥＩＡシステム２４２がＹＯＬＯｖ４を使用するとき、ソフトウェアアクセラレータＴｅｎｓｏｒＲＴは、ＹＯＬＯｖ４の性能速度を向上させる可能性がある。

【0125】

マイクロコンピュータ２５５は、ＵＳＢ接続２６８を介してマイクロフォン２７０に接続され得る。マイクロフォン２７０は、医療処置（例えば、医療診断処置）中など、ユーザ入力を含む可能性のある音響信号を受信し、音響信号を入力音声信号に変換する。マイクロフォン２７０は、Ｉ／Ｏハードウェア１３２の一部であると考えられ得る。マイクロコンピュータ２５５の１つ以上のプロセッサは、入力モジュールソフトウェア１４４の動作によって、マイクロフォン２７０によって取得された入力音声信号を受信することができる。次いで、マイクロコンピュータ２５５は、マイクロフォン２７０によって収集された入力音声信号に発話認識アルゴリズムを適用することができる。発話認識アルゴリズムは、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６のうちの１つ以上を使用して実装され得る。

【0126】

画像解析モニタ２６５は、標準ＨＤＭＩケーブル２６０を使用して、ＨＤＭＩ接続を介してマイクロコンピュータ２５５に接続され得る。マイクロコンピュータ２５５は、画像解析アルゴリズムおよび発話認識アルゴリズムの結果を画像解析モニタ２６５に表示する。例えば、所与の画像について、画像解析モニタ２６５は、各ＯＩの周りにバウンディングボックスが配置される１つ以上のＯＯＩを表示することができ、オプションとして、バウンディングボックス内に含まれる要素に関する特定の情報を示すために、カラーインジケータがバウンディングボックスに使用され得る。発話認識およびボイス－テキストアルゴリズムによって生成された注釈は、データベース１５０または何らかの他のデータストアに記憶され得る。ボイス－テキストアルゴリズムは、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６のうちの１つ以上を使用して実装され得る。マイクロコンピュータ２５５は、画像解析モニタ２６５に注釈を表示する。

【0127】

本明細書に記載される少なくとも１つの実施形態では、信頼スコアも画像解析ソフトウェアによって生成され得ることに留意されたい。これは、所与の画像（すなわち、所与のビデオフレーム）について決定されたＯＯＩの決定されたバウンディングボックスの各画素を、例えばポリープのような物体の分類に基づいて、物体のグランドトゥルースと比較することによって行われ得る。信頼スコアは、例えば、０と１の間の小数として定義することができ、これは信頼度のパーセンテージとして解釈することができる。次いで、確信度スコアは、複数の貢献者間の一致のレベルを表し、結果の妥当性に対する「信頼度」を示し得る。集計結果は、最も信頼度の高い回答に基づいて選択され得る。次いで、信頼スコアは、性能を向上させるために時間の経過とともに調整され得る事前に設定された信頼閾値と比較される。信頼スコアが信頼閾値よりも大きい場合、バウンディングボックス、分類、およびオプションとして信頼スコアは、医療処置中に所与の画像とともにユーザに表示され得る。あるいは、信頼スコアが信頼閾値よりも低い場合、画像解析システムは、所与の画像に疑わしいというラベルを付け、所与の画像とともにこのラベルをユーザに表示し得る。少なくとも１つの実装形態では、信頼スコアはネットワークの出力である。このような場合、物体検出モデルは、物体のクラス、物体の位置、および／または信頼スコアを出力し得る。信頼スコアは、畳み込み演算、アクティベーション演算、およびプーリング演算を実行することによって、ニューラルネットワークによって生成され得る。信頼スコアの生成方法の一例が図１６に示され得る。

【0128】

図３を参照すると、ＥＩＡシステム２４２のマイクロコンピュータ２５５とともに使用するコンピュータデバイスのハードウェア構成要素およびデータフロー３００の例示的な実施形態のブロック図が示されている。図３を参照して本明細書で説明されるように、ハードウェア構成要素およびデータフロー３００は、内視鏡検査の文脈でＥＩＡシステム２４２とともに使用され得る。しかしながら、より一般的には、ＥＩＡシステム２４２は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム１００の代替的な例示的な実施形態であると考えることができる。このような場合、これに続く内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表１に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。

【0129】

マイクロコンピュータ２５５は、様々な入力および出力ポートを有する電子ボード３１０上に実装される。マイクロコンピュータ２５５は、一般に、ＣＰＵ２５５Ｃ、ＧＰＵ２５５Ｇ、およびメモリユニット２５５Ｍを備える。例えば、マイクロコンピュータ２５５は、ＮＶＩＤＩＡＣＵＤＡコアのＧＰＵ２５５Ｇ、およびＮＶＩＤＩＡＣａｍｅｌＡＲＭ、ＶｉｓｉｏｎＡｃｃｅｌｅｒａｔｏｒ、ＶｉｄｅｏＥｎｃｏｄｅ、およびＶｉｄｅｏＤｅｃｏｄｅののＣＰＵ２５５Ｃを備えた、医療機器、高解像度センサー、または自動光学検査のような高性能ＡＩシステム用に設計されたハードウェアであってもよい。データフロー３００は、マイクロコンピュータ２５５に供給される入力信号と、マイクロコンピュータによって生成され、１つ以上の出力デバイス、記憶デバイス、またはリモートコンピューティングデバイスに送信される出力信号とからなる。変換キー２５０はビデオ入力信号を受信し、マイクロコンピュータＵＳＢビデオ入力ポート３７０にビデオ入力信号を導く。あるいは、ビデオ入力信号はＵＳＢケーブルを介して提供されてもよく、その場合、変換キー２５０は不要であり、マイクロコンピュータＵＳＢビデオ入力ポート３７０がビデオ入力信号を受信する。マイクロコンピュータＵＳＢビデオ入力ポート３７０は、マイクロコンピュータ２５５が内視鏡２２０からリアルタイムのビデオ入力信号を受信することを可能にする。

【0130】

マイクロコンピュータ２５５は、マイクロフォン２７０からの入力音声信号をマイクロコンピュータ音声ＵＳＢポート３６０に向けることによって、潜在的なユーザ入力を受信する。次いで、マイクロコンピュータ２５５は、発話認識アルゴリズムで使用するために、入力音声信号をマイクロコンピュータ音声ＵＳＢポート３６０から受信する。オプションのＵＳＢ接続３８０を介して、追加の入力デバイスをマイクロコンピュータ２５５に接続することもできる。例えば、マイクロコンピュータ２５５は、２つのオプションのＵＳＢ接続３８０（例えば、マウスおよびキーボード用）に接続されていてもよい。

【0131】

マイクロコンピュータＣＰＵ２５５ＣおよびＧＰＵ２５５Ｇは、プログラム１４２、機械学習モデル１４６、および予測エンジン１５２のうちの１つ以上を実行するために組み合わせて動作する。マイクロコンピュータ２５５は、最初にすべての出力ファイルをメモリユニット２５５Ｍに記憶し、その後、すべての出力ファイルを外部メモリに記憶するように構成され得る。外部メモリは、データ出力ポート３３０に接続されたＵＳＢメモリカードでもよい。代替または追加として、外部メモリはユーザデバイス１１０によって提供されてもよい。代替またはそれへの追加として、マイクロコンピュータ２５５は、保存のために出力データを別のコンピュータ（またはコンピューティングデバイス）に提供することができる。例えば、マイクロコンピュータ２５５は、出力データを安全なクラウドサーバに記憶することができる。別の例として、マイクロコンピュータ２５５は、ユーザデバイス１１０にデータを記憶して出力することができ、ユーザデバイス１１０は、互換性のあるアプリケーションを備えたスマートフォンであってもよい。

【0132】

マイクロコンピュータ２５５は、ユーザが１つ以上のあらかじめプログラムされた機能を選択することを可能にするボタン３４０を有し得る。ボタン３４０は、マイクロコンピュータ２５５に関連する特定の機能に対する制御入力を提供するように構成され得る。例えば、ボタン３４０のうちの１つは、マイクロコンピュータＣＰＵ２５５Ｃおよび／またはＧＰＵ２５５Ｇをオンにし、マイクロコンピュータＣＰＵ２５５Ｃおよび／またはＧＰＵ２５５Ｇをオフにし、マイクロコンピュータ２５５上で品質管理プロセスの動作を開始し、注釈付き画像を含む内視鏡画像を示すＧＵＩを実行し、注釈を開始および終了するように構成され得る。ボタン３４０は、ＬＥＤライト３４１または他の同様の視覚出力デバイスを有することもできる。マイクロコンピュータ２５５は、電源ケーブルポート３５０を通して電力を受け取る。電源ケーブルポート３５０は、マイクロコンピュータ２５５の様々な構成要素に電力を供給し、それらが動作できるようにする。

【0133】

マイクロコンピュータプロセッサ２５５Ｃは、マイクロコンピュータＵＳＢビデオ出力ポート３２０を介して、画像解析結果をモニタ２６５に表示することができる。モニタ２６５は、ＨＤＭＩ接続を使用して、マイクロコンピュータＨＤＭＩビデオ出力ポート３２０を介してマイクロコンピュータ２５５に接続され得る。

【0134】

図４を参照すると、リアルタイムアノテーションプロセス４３６を使用して入力音声信号および入力ビデオ信号を処理するための方法４００の例示的な実施形態のブロック図が示されている。方法４００および後続の方法およびプロセスは、ＥＩＡシステム２４２によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム１００または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、ＥＩＡシステム２４２は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム１００の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、内視鏡画像への任意の言及は、表１に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができる。方法４００は、ＣＰＵ２５５ＣおよびＧＰＵ２５５Ｇによって実行され得る。

【0135】

方法４００は、ＥＩＡシステム２４２が高性能能力を有するＧＰＵ２５５ＧおよびＣＰＵ２５５Ｃを有すること、および物体検出アルゴリズムが構築される方法によって、アノテーションプロセス４３６をリアルタイムで提供することができる。代替またはそれへの追加として、方法４００および物体検出アルゴリズムは、ＡＷＳＧＰＵを使用してクラウド上で実行されてもよく、ユーザは、内視鏡検査ビデオをアップロードし、リアルタイムアノテーションプロセス４３６に類似するプロセス（例えば、リアルタイムで内視鏡検査をシミュレートするか、またはビデオの一時停止を可能にする）を使用することができる。

【0136】

４０５において、リアルタイムアノテーションプロセス４３６を実行する前に、ＥＩＡシステム２４２は、発話認識アルゴリズム４１０をスタンバイ状態にする。待機中、発話認識アルゴリズム４１０は、入力モジュール１４４からの入力音声信号を待つ。発話認識アルゴリズム４１０は、プログラム１４２、機械学習モデル１４６、および予測エンジン１５２のうちの１つ以上を使用して実装され得る。

【0137】

４２０において、ＥＩＡシステム２４２は、リアルタイムアノテーションプロセス４３６を開始するために、第１の信号受信機でユーザから開始信号４２１を受信する。ＥＩＡシステム２４２は、マイクロフォン２７０を介して入力音声信号を受信する。例えば、信号受信機はボタン３４０のうちの１つであってもよい。

【0138】

４２２において、ＥＩＡシステム２４２は、入力音声信号をキャプチャし、プログラム１４２を使用して実装され得る発話認識アルゴリズム４１０を使用することによって、入力音声信号を発話データに変換する。次いで、発話データは発話－テキスト変換アルゴリズムによって処理されて、発話データを、アノテーションデータを作成するために使用される１つ以上のテキスト文字列に変換する。次いで、ＥＩＡシステム２４２は、画像とアノテーションデータのマッチングアルゴリズムを使用して、どの画像にアノテーションデータを追加すべきかを決定する。

【0139】

４３０において、画像とアノテーションデータのマッチングアルゴリズムは、入力画像シリーズ（例えば、入力ビデオ信号）から、アノテーションデータ内のテキスト文字列が対応する所与の画像を決定し、次いで、アノテーションデータを所与の画像にリンクする。アノテーションデータを所与の画像にリンクすることは、例えば、（ａ）アノテーションデータを所与の画像にオーバーレイすること、（ｂ）アノテーションデータを所与の画像に重ね合わせること、（ｃ）アノテーションデータを有するウェブページにリンクするハイパーリンクを所与の画像に提供すること、（ｄ）所与の画像またはその関連部分にカーソルを置くとポップアップするアノテーションデータを有するポップアップウィンドウを提供すること、または（ｅ）当業者に知られている任意の等価なリンクを含み得る。画像とアノテーションデータのマッチングアルゴリズムは、例えば、注釈が付けられている画像のキャプチャとアノテーションデータの受信について互いに一致するタイムスタンプを使用して、この決定を行うことができる。入力画像シリーズは、例えば、内視鏡２２０を使用して取得されたビデオ入力ストリームからの入力ビデオ信号であり得る。他のイメージングモダリティでは、入力ビデオ信号は、代わりに、前述のような一連の画像であり得る。

【0140】

４３２において、第２の信号受信機が終了信号４２２を受信し、処理する。例えば、第２の信号受信機は、第１の信号受信機と別のボタン３４０であってもよく、または同じものであってもよい。終了信号４２２を受信すると、ＥＩＡシステム２４２はリアルタイムアノテーションプロセス４３６を終了する。終了信号４２２が受信されないとき、ＥＩＡシステム２４２は、発話認識アルゴリズム４１０、アノテーションキャプチャ、およびマッチングアルゴリズム４３０の動作を継続することによって、リアルタイムアノテーションプロセス４３６を継続する。

【0141】

４３４において、ＥＩＡシステム２４２は、１つ以上の注釈付き画像を出力する。この出力は、（ａ）モニタまたはディスプレイに表示され得る、（ｂ）レポートに組み込まれ得る、（ｃ）データ記憶要素／デバイスに記憶され得る、および／または（ｄ）別の電子デバイスに送信され得る。

【0142】

マイクロコンピュータ２５５は、メモリユニット２５５Ｍなどの内部ストレージ４４０を備える。内部ストレージ４４０は、内視鏡処置の完全なビデオまたはその一部、１つ以上の注釈付き画像、および／または音声データなどのデータを記憶するために使用することができる。例えば、マイクロコンピュータ２５５は、リアルタイムアノテーションプロセス４３６中に音声データをキャプチャし、それを内部ストレージ４４０に記憶することができる。代替またはそれへの追加として、マイクロコンピュータ２５５は、注釈付き画像を内部ストレージ４４０に記憶してもよい。

【0143】

図５Ａを参照すると、リアルタイムアノテーションプロセス４３６で入力音声ストリームおよび一連の画像の入力ストリーム（例えば、入力ビデオストリーム）を処理するための方法５００の例示的な実施形態のブロック図が示されている。方法５００は、ＣＰＵ２５５Ｃおよび／またはＧＰＵ２５５Ｇによって実行され得る。方法５００は、ＥＩＡシステム２４２によって入力として受信される開始コマンド信号４２３によって開始される。発話認識アルゴリズム４１０は入力音声信号を受信し、発話認識を開始するための処理を開始する。ＥＩＡシステム２４２は、発話認識アルゴリズム４１０によって決定された音声データを記録する。発話認識アルゴリズム４１０は、終了コマンド信号４２２が受信されると、入力音声信号の処理を停止する。

【0144】

発話－テキスト変換アルゴリズム５２０は、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６のうちの１つ以上を使用して実装され得る。例えば、発話－テキストアルゴリズム５２０は、Ｗａｖ２ｖｅｃ２．０などのオープンソースの事前トレーニング済みアルゴリズム、または任意の他の適切な発話認識アルゴリズムであってもよい。発話－テキストアルゴリズム５２０は、発話認識アルゴリズム４１０によって決定された発話データを取り込み、畳み込みニューラルネットワーク（例えば、図１５に示すような）であり得るアルゴリズムを使用して、発話データをテキスト５２５に変換する。

【0145】

次いで、テキスト５２５は、用語訂正アルゴリズム５３０によって処理される。用語訂正アルゴリズム５３０は、プログラム１４２および予測エンジン１５２のうちの１つ以上を使用して実装され得る。用語訂正アルゴリズム５３０は、文字列マッチングアルゴリズムおよびカスタム語彙を使用して、発話－テキスト会話アルゴリズム５２０が犯した誤りを訂正する。用語訂正アルゴリズム１４２は、Ｆｕｚｚｙｗｕｚｚｙなどのオープンソースのアルゴリズムであってもよい。テキスト５２５は、カスタム語彙内の各用語と相互参照される。次いで、用語訂正アルゴリズム１４２は、テキスト５２５がカスタム語彙内の用語とどれだけ密接に一致するかに基づいて、一致スコアを計算する。用語訂正アルゴリズムは、マッチングスコアが閾値マッチングスコアよりも高いかどうかを決定する。用語訂正アルゴリズム５３０は、マッチングスコアが閾値マッチングスコアよりも高い場合、テキスト５２５またはその一部をカスタム語彙内の用語で置き換える。

【0146】

発話認識出力５４０は、ユーザがコメントした所与の画像に追加する注釈を含むアノテーションデータと呼ばれることがある。発話認識出力５４０は、マッチングアルゴリズム４３０に送られる。マッチングアルゴリズム４３０は、プログラム１４２または機械学習モデル１４６を使用して実装され得る。マッチングアルゴリズム４３０は、アノテーションデータが対応するマッチング画像（すなわち、アノテーションデータに変換された、ユーザが口頭でコメントした画像）を決定し、発話認識出力５４０からのアノテーションデータを、内視鏡２２０からの一連の画像５１０の入力ストリーム（例えば、ビデオ入力ストリーム）からキャプチャされた一致画像にオーバーレイして、注釈付き画像出力４３４を生成する。注釈付き画像出力４３４は、発話認識出力５４０がオーバーレイしたキー画像４３４－１（例えば、ＯＯＩを有する）であってもよい。注釈付き画像出力４３４は、発話認識出力５４０がオーバーレイしたビデオクリップ４３４－２であってもよい。キー画像４３４－１およびビデオクリップ４３４－２は、サーバ１２０によって出力され、４４０に記憶され得る。

【0147】

少なくとも１つの実施形態では、内視鏡２２０は、（例えば、ＭＲＩデバイスによって生成されるスライスなど）他の種類の画像を生成するイメージングデバイスと置き換えられる。このような場合、キー画像４３４－１は異なる種類の画像（例えば、スライス）であってもよく、ビデオクリップ４３４－２は画像のシーケンス（例えば、スライスのシーケンス）に置き換えられてもよい。

【0148】

発話－テキスト変換アルゴリズム５２０は、グランドトゥルーステキストと、グランドトゥルーステキストの音声データとを含む発話データセットを使用してトレーニングすることができる。新しい音声データを新しい発話データセットと比較して、グランドトゥルーステキストとの一致を識別することができる。様々な医療アプリケーションおよびイメージングモダリティのために、グランドトゥルーステキストと、グランドトゥルーステキストの音声データを取得することができ、その例が表１に示されている。

【0149】

図５Ｂを参照すると、図５Ａの発話認識アルゴリズム４１０によって処理される入力音声ストリームのキャプチャを開始および終了するための方法５５０の例示的な実施形態のブロック図が示されている。方法５５０は、ＣＰＵ２５５Ｃによって実行され得る。ＥＩＡシステム２４２は、ビデオ一時停止コマンド５６０、スナップショット撮影コマンド５６２、またはボイス開始コマンド５６４を含み得る入力開始信号４２３（例えば、ユーザ対話により提供される）に応答して、発話認識アルゴリズム４１０を開始する。入力信号がビデオ一時停止コマンド５６０を提供すると、ＥＩＡシステム２４２は入力ビデオストリームを一時停止する。入力信号４２１がスナップショット撮影コマンド５６２を提供すると、ＥＩＡシステム２４２は入力ビデオストリームのスナップショットを撮影し、これはスナップショット撮影コマンド５６２が受信されたときに表示される特定の画像をキャプチャすることを伴う。入力信号４２１が「アノテーション開始」などボイス開始コマンド５６４を提供すると、ＥＩＡシステム２４２はアノテーションを開始する。他の医療用途および／またはイメージングモダリティの場合、当業者に知られているように、他の制御アクションを実行することができる。

【0150】

少なくとも１つの実施形態では、ＥＩＡシステム２４２は、他の種類の画像（例えば、ＭＲＩ装置によって生成されるスライス）を生成するイメージングデバイスから取得される画像を解析するための等価なシステムに置き換えられる。このような場合、ビデオ一時停止コマンド５６０は、一連の画像（例えば、一連のスライス）の表示を一時停止するコマンドに置き換えられる。

【0151】

ＥＩＡシステム２４２は、無音入力５７０、ボタン押下入力５７２、またはボイス終了コマンド５７４を含み得る入力終了信号４２４（例えば、ユーザによって生成される）に応答して、発話認識アルゴリズム４１０の動作を終了する。無音入力５７０は、例えば、聞き取れない入力、または閾値音量レベルを下回る入力音声であり得る。無音入力５７０は、発話認識アルゴリズム４１０の動作を正常に終了させるために、例えば、少なくとも５秒間持続させることができる。ボタン押下入力５７２は、ユーザがボタン３４０のうちの１つなどの指定されたボタンを押下した結果である可能性がある。「アノテーション停止」などのボイス終了コマンド５７４を使用して、画像のアノテーションを停止することができる。

【0152】

図５Ｃを参照すると、カスタム語彙５８４と相互参照される発話認識および発話－テキスト変換アルゴリズム５２０などの発話－テキスト変換アルゴリズムを使用して、音声信号５８２などの入力音声ストリームを処理するための方法５８０のブロック図が示されている。方法５８０は、ＥＩＡシステム２４２の１つ以上のプロセッサによって実行され得る。カスタム語彙５８４は、ＥＩＡシステム２４２が動作される前に構築され得、オプションで随時更新される。他の実施形態では、カスタム語彙５８４は、他の医療用途および／または医用イメージングモダリティ用に構築され得る。発話－テキスト変換アルゴリズム５２０は、一般的に、マイクロフォン２７０へのユーザが録音した入力である音声信号５８２を受信する。グランドトゥルース５８６は、消化管内視鏡検査、または別のタイプの内視鏡処置、または前述のような別のイメージングモダリティを使用する他の医療処置など、実行されている医療処置に固有の一連の用語であり得る。グランドトゥルース５８６は、データベース（データベース１５０など）に記憶されたデータベースファイルであってもよい。胃、結腸、肝臓など、異なるカテゴリの用語のための複数のグランドトゥルースデータセットがあってもよい。グランドトゥルース５８６は、最初は、胃腸内視鏡検査、または他の医療用途および／もしくはイメージングモダリティに固有のあらかじめ決定された用語からなり得る。したがって、グランドトゥルースによって、発話－テキスト変換アルゴリズムは、少なくとも１つのＯＯＩを複数のＯＯＩ医学用語のうちの１つにマッピングすることができる。例えば、ポリープおよび出血など、複数の特徴が発生する可能性があるので、１つのＯＯＩが複数の医学用語にマッピングされる場合がある。グランドトゥルース５８６は、発話認識アルゴリズム５２０の更新および精度分析を可能にするため、有利である場合がある。ＥＩＡシステム２４２は、グランドトゥルース５８６を更新するキーボードおよび／またはマイクロフォンからのユーザ入力を受信することができる。ユーザは、例えば、グランドトゥルース５８６を更新するために、用語を入力すること、および／またはマイクロフォン２７０に向かって話すことによって用語を提供することができる。カスタム語彙５８４は、キーと値のペアからなる辞書である。「キー」は発話認識アルゴリズム５２０の出力文字列５２５であり、「値」はグランドトゥルース５８６からの対応するテキストである。

【0153】

図６を参照すると、図２のシステムを使用して内視鏡検査処置中に画像解析を実行するための方法６００の例示的な実施形態のブロック図が示されている。方法６００は、ＥＩＡシステム２４２のＣＰＵ２５５ＣおよびＧＰＵ２５５Ｇによって実施することができ、ＥＩＡシステム２４２がユーザに継続的に適応して各ＯＯＩに対する効果的な画像解析出力を生成できるようにする。方法６００のいくつかのステップは、マイクロコンピュータ２５５のＣＰＵ２５５ＣおよびＧＰＵ２５５Ｇと、内視鏡検査プラットフォーム２１０の主画像プロセッサ２１５とを使用して実行され得る。

【0154】

６１０において、方法６００は、内視鏡検査処置の開始で始まる。内視鏡検査の開始は、６２０において内視鏡検査装置の電源が入れられた（または起動された）ときに開始され得る。これと並行して、マイクロフォン２７０、およびＡＩプラットフォーム（例えばＥＩＡシステム２４２）が６５０でオンにされる。方法６００は、互いに並行して実行される２つの分岐を含む。

【0155】

６２０で始まる方法６００の分岐に続いて、内視鏡検査プラットフォーム２１０のプロセッサ２１５は、動作可能な内視鏡検査装置２２０が存在するという信号を受信する。

【0156】

６２２において、プロセッサ２１５は、動作可能な内視鏡検査装置２２０がプロセッサ２１０に適切に接続されていることを決定するために診断チェックを実行する。ステップ６２２は、内視鏡検査品質保証（ＱＡ）ステップと呼ばれることがある。プロセッサ２１５は、ＱＡステップが成功または失敗したことをユーザに示すために、モニタ２４０に確認を送る。プロセッサ２１５がモニタ２４０にエラーメッセージを送った場合、ユーザは処置を続行する前にエラーを解決しなければならない。

【0157】

ステップ６５０で始まる方法６００の他の分岐を参照すると、ステップ６５０が実行された後、方法６００はステップ６５２に進み、ＥＩＡシステム２４２は、マイクロコンピュータ２５５とマイクロフォン２７０とが適切に接続されていることを決定するための診断チェックを実行し、これはＡＩプラットフォーム品質保証（ＱＡ）ステップと呼ばれることがある。ＡＩプラットフォームＱＡステップには、アルゴリズムのチェックが含まれる。エラーがある場合、ＥＩＡシステム２５２は、モニタ２６５に表示されるエラーメッセージを生成して、ビデオストリームキャプチャの実行を続行する前に、エラーメッセージに関連する１つ以上の問題を解決する必要があることをユーザに通知する。

【0158】

ＱＡステップが正常に実行されると、方法６００はステップ６５４に進み、ＥＩＡシステム２４２は、内視鏡検査装置２２０によって提供される画像を含む入力ビデオストリームをキャプチャする。入力ビデオストリームからの画像データは、画像解析アルゴリズムによる処理のために、入力モジュール１４２によって受信され得る。入力ビデオストリームが受信されているとき、または他の医用イメージングモダリティ用途のための一連の画像が入力されているとき、マイクロコンピュータ２５５は、ＬＥＤライト３４１を起動して、ＥＩＡシステム２４２が動作していることを示し得る（例えば、安定した緑色の光を示すことによって）。

【0159】

再び左の分岐に戻って参照すると、内視鏡検査処置の開始である６２４において、プロセッサ２１５は、ユーザに患者情報を入力するように求める（例えば、入力モジュール１４４を介して）か、または医療カルテから患者情報を直接ダウンロードすることによって、患者情報をチェックする。患者情報は、患者の人口統計情報、（例えば、ＥＩＡシステム２４２の）ユーザ、処置タイプ、および任意の固有の識別子からなる可能性がある。マイクロコンピュータ２５５は、内視鏡検査処置の開始から特定のフレーム／画像を入力する。特定の画像は、ＥＩＡシステム２４２が第２の出力を生成するために使用され得る。第２の出力は、内視鏡検査処置の開始からの特定の画像を含むＤＩＣＯＭレポートにおいて使用され、この画像は、ＤＩＣＯＭレポートの患者情報をキャプチャするために使用され得る。代替または追加として、医療診断（例えば、内視鏡診断）情報データがキャプチャされ得る。プライバシーを確保するために、サーバ１２０は、患者情報が任意の他のデータファイルに保存されないようにすることができる。

【0160】

６２６において、内視鏡検査処置の開始とＥＩＡシステム２４２によるビデオストリームのキャプチャの両方の後、ＥＩＡシステム２４２は、次いで、音声の記録を開始するために入力信号を受信するために待機状態にある。これは、プロセスＡ６３２およびプロセスＢ６６０の開始を示す。ＥＩＡシステム２４２は、入力開始信号４２１を受信すると、プロセスＡ６３２およびプロセスＢ６６０を開始する。

【0161】

６２８において、ＥＩＡシステム２４２は、入力音声信号内の発話としてユーザ入力を受信する。ＥＩＡシステム２４２は、入力終了信号４２４を受信するまで、入力音声信号の記録を継続する。

【0162】

６３０において、入力終了信号４２４を受信した後、ＥＩＡシステム２４２は入力音声信号の記録を終了する。これは、プロセスＡ６３２の終了を示す。しかしながら、ＥＩＡシステム２４２は、後で、内視鏡処置が終了し、内視鏡検査装置２２０の電源が切られるまで、音声開始および停止コマンドが提供されると、プロセスＡ６３２を繰り返し得る。

【0163】

内視鏡処置が終了すると、方法６００は６３４に進み、そこでプロセッサ２１５は内視鏡処置が終了したという信号を受信する。

【0164】

６３８において、プロセッサ２１５は内視鏡検査プラットフォーム２１０の電源を切る。代替またはそれへの追加として、ＥＩＡシステム２４２は、内視鏡検査プラットフォーム２１０の電源が切られたことを示す信号を受信する。

【0165】

方法６００の右の分岐を再び参照すると、プロセスＢ６６０は、プロセスＡ６３２と並行して実行され、プロセスＡ６３２のすべてのステップを含み、発話認識および発話－テキストアルゴリズムを実行して、６５６においてアノテーションデータを生成し、６５８において画像をアノテーションデータと照合する。ＥＩＡシステム２４２は、内視鏡検査装置の電源を切るためのユーザコマンドを含む入力信号がＥＩＡシステム２４２によって受信されるまで、プロセスＢ６６０を繰り返し行うことができる。

【0166】

６５６において、ＥＩＡシステム２４２は、発話認識および発話－テキスト変換プロセスを開始し、アノテーションデータを生成する。これは、発話認識アルゴリズム４１０、発話－テキスト変換アルゴリズム５２０、用語訂正アルゴリズム５３０、およびリアルタイムアノテーションプロセス４３６を使用して行われ得る。

【0167】

６５８において、ＥＩＡシステム２４２は、画像とアノテーションを照合する。これは、マッチングアルゴリズム４３０を使用して行うことができる。

【0168】

６６２において、リアルタイムアノテーションプロセス４３６は、出力の生成および記憶のためにデータファイルを準備するためのコマンド信号をユーザから受信する。例えば、画像データ、音声信号データ、注釈付き画像、および／または一連の画像（ビデオクリップなど）が、記憶のためにマークされ得る。例えばＤＩＣＯＭ形式など特定のデータ形式で注釈付き画像を使用して出力ファイルを生成することができる。

【0169】

６６４において、ＥＩＡシステム２４２は、出力ファイルの準備ができたというメッセージを送り、これは、ＥＩＡシステム２４２がユーザからデータファイル準備コマンド信号を受信した後、設定された時間（例えば、２０秒以下）の後に発生する可能性がある。この時点で、出力ファイルはモニタに表示され、記憶要素に記憶され、および／またはリモートデバイスに送信され得る。レポートは、印刷することもできる。

【0170】

６６６において、ＥＩＡシステム２４２は、手順の終了時に、動作中のＡＩプラットフォームおよびマイクロフォンの電源を切る。代替として、ＥＩＡシステム２４２は、ＡＩプラットフォームおよびマイクロフォンの電源が切られたことを示す信号を受信する。ＥＩＡシステム２４２は、システムシャットダウンを開始し、電源ユニット１３６からの電力を無効にするソフトウェアコマンドをユーザが入力することによって、電源を切ることができる。

【0171】

図７を参照すると、画像解析トレーニングアルゴリズム７００の例示的な実施形態の図が示されている。エンコーダ７２０は、（例えば、入力モジュール１４４を介して）入力Ｘ７９０を受信する。入力Ｘ７９０は、医用イメージングデバイス（例えば、内視鏡２２０）によって提供される一連の画像からの少なくとも１つの画像である。エンコーダ７２０は、少なくとも１つの畳み込みニューラルネットワーク（ＣＮＮ）を使用して、入力Ｘ７９０を特徴ベクトル７３０に圧縮する。特徴ベクトル７３０は、パターン認識の目的で入力Ｘ７９０を記述する数値特徴のｎ次元ベクトルまたは行列であってもよい。エンコーダ７２０は、２ｘ２パッチの最大値（すなわち、最大プール）のみが複数個所でＣＮＮの特徴層に向かって伝搬できるようにすることによって圧縮を実行することができる。

【0172】

次いで、特徴ベクトル７３０がデコーダ７７０に入力される。デコーダ７７０は、低解像度特徴ベクトル７３０から高解像度画像７８０を再構成する。

【0173】

分類器７４０は、特徴ベクトル７３０をターゲットクラス７５０にわたる分布にマッピングする。ラベル付き（すなわち、カテゴリまたは分類で注釈が付けられた）入力画像の場合、分類器７４０は、エンコーダ７２０およびデコーダ７７０とともにトレーニングされ得る。これは、エンコーダ７２０およびデコーダ７７０が、それらの特徴を分類する方法を共同で学習しながら、分類に有用な特徴を学習することを促進するので、有利である可能性がある。

【0174】

分類器７４０は、チャネル次元を半分に減少させ、次いで１に減少させる２つの畳み込み層から構築されてもよく、次いで、カテゴリ数に等しいサイズを有する実数値ベクトルに隠れ状態を投影する全結合（ＦＣ）線形層が続く。結果は、例えばソフトマックスのようなマッピング関数を使用してマッピングされ、ターゲットクラスにわたるカテゴリ分布を表す。畳み込み層の間に、Ｓｗｉｓｈ活性化関数（例えば、ｘ＊ｓｉｇｍｏｉｄ（ｘ））を使用することができる。分類器７４０の出力は、入力画像内のＯＯＩを与えられた場合にモデルが各カテゴリに割り当てる確率を提供する。

【0175】

エンコーダ７２０、デコーダ７７０、および分類器７４０は、ＥＩＡシステム２４２が半教師ありトレーニングを実行することを可能にする。半教師ありトレーニングは、ＥＩＡシステム２４２が少ないラベル付きトレーニングデータセットで画像解析アルゴリズムを構築できるので有利である。

【0176】

画像Ｘｊが与えられると、以下に従って、パラメータの最尤度（ＭＬ）学習に対してオートエンコーダの損失（ＬＡＥ）が定義される。
ＬＡＥ（ｘｊ）＝（ｐ（ｘ＝ｘｊ）ｌｏｇｐ（ｘ＝ｘｊ｜ｈ＝Ｅθ（ｘ））＋（１－ｐ（ｘ＝ｘｊ））ｌｏｇ（１－ｐ（ｘ＝ｘｊ｜ｈ＝Ｅθ（ｘ））））
式中、ｐ（ｘ＝ｘｊ）は入力画像に対するものであり、ｐ（ｘ＝ｘｊ｜ｈ＝Ｅθ（ｘ））は再構成画像（すなわち、デコーダからの再構成画像が入力画像と同じである確率）に対するものであり、両方ともカラー画像のチャネル単位および画素単位の表現にわたるベルヌーイ分布として解釈される。ベルヌーイ分布は、入力画像と再構成画像との間の整合性の尺度を提供する。各画像画素は、３つのチャネル（赤、緑、青）を含む。各チャンネルは、対応する色の強度を表す［０，．．．，１］の範囲の実数値を保持し、０は強度がないことを表し、１は最大強度を表す。範囲は［０，．．．，１］であるため、強度値はＬＡＥ（ｘｊ）の確率として使用することができ、これはモデルとサンプルのデータ分布間のバイナリクロスエントロピー（ＢＣＥ）である。確率的勾配降下法を使用したＬＡＥの最小化は、学習手順を伴う。ＬＡＥの最小化は、画像内の情報をキャプチャする特徴ベクトルの学習を促す。入力画像を再構成するために、符号化された特徴ベクトルのみを使用してこれを行う。言い換えれば、ＬＡＥの最小化は、ラベルが利用可能な場合、分類に使用することができる有益な特徴の学習を促す。ＬＡＥは教師なし方式でトレーニングすることができ、これは、ＥＩＡシステム２４２が、構築にラベル付きトレーニングデータセットを必要としないことを意味する。

【0177】

ラベル付き画像（ｘｉ，ｙｉ）が与えられると、ＥＩＡシステム２４２は、以下に従って、パラメータの最尤度（ＭＬ）学習のための分類器損失（ＬＣＬＦ）を定義する。
ＬＣＬＦ（ｘｉ，ｙｉ）＝ｌｏｇｐ（ｙ＝ｙｉ｜ｈ＝Ｅθ（ｘ））
式中、ｐ（ｙ＝ｙｉ｜ｈ＝Ｅθ（ｘ））は、カテゴリｙｉの確率であり、ＬＣＬＦ（ｘｉ，ｙｉ）は、モデルとサンプルのカテゴリ分布間の離散クロスエントロピー（ＣＥ）である。ＬＣＬＦは、学習された特徴が分類に有用であるように促し、解析パイプラインで使用される入力画像が与えられた場合のカテゴリごとの確率を提供する。ＬＣＬＦは教師あり方式でトレーニングされ、これは、サーバ１２０が、構築にラベル付きトレーニングデータセットを必要とすることを意味する。ＬＣＬＦは、モデルからの予測と、トレーニングデータで提供されたグランドトゥルースラベルとの間の整合性を定量化する損失であると考えることができる。ＬＣＬＦが標準的なクロスエントロピー損失である場合、これはモデルが正しいクラスに与える対数ソフトマックス確率を使用することになる。

【0178】

データセットＤに対する半教師あり損失は、以下のように定義される。
ＬＣＬＦ（Ｄ）＝λ１Ｎ（ΣｉＬＣＬＦ（ｘｉ，ｙｉ））＋１Ｍ（ΣｊＬＡＥ（ｘｊ））
式中、λは分類成分の重みを制御し、Ｎはラベル付き画像の数、Ｍはラベルなし画像の数であり、一般的に、Ｎ＜＜Ｍ（ＭはＮよりかなり大きい）である。半教師あり損失は、大量のラベルなし画像から有益な特徴を学習すること、および少量のラベル付き画像から強力な分類器（例えば、より正確に、より迅速にトレーニング可能）を学習することを可能にする。重みは、より悪い再構成を犠牲にして、分類により適した特徴の学習を強制することができる。λの適切な値としては、例えば１０，０００が挙げられる。重みは、自己符号化器の損失と分類器の損失の線形結合として単一の損失を形成する方法を提供する可能性があり、これは、何らかの形式の相互検証を使用して決定され得る。

【0179】

一連の医用画像（例えば、内視鏡ビデオストリーム）は、異なるアルゴリズムを使用して画像内のＯＯＩを決定するために、物体検出のために分析され得る。複数のオープンソースデータセットおよび／または専用の医療診断処置データセットを、アルゴリズムのトレーニングに使用することができる。例えば、大腸内視鏡検査の場合、データセットは、健康、不健康の異なるクラスのＯＯＩで分類された画像、およびラベルなし大腸内視鏡検査画像を含み、そのすべての例が図９、図１０、および図１１に示されている。アルゴリズム（例えば、画像解析アルゴリズム、物体検出アルゴリズム）は、組織を分類するために組織の形態学的特性を調べ、組織を明確に識別できない場合は、「焦点の合っていない組織」（またはぼやけた）クラスに割り当てることができる。したがって、焦点の合っていない組織クラスの画像は、物体検出および／または分類を正確に行うことができないような、不十分かつ／または低品質の画像である。他の医療用途および／またはイメージングモダリティの場合、位置を特定し分類すべき関心対象物体に基づいて、他のクラスを使用することができる。

【0180】

システム１００、またはＥＩＡシステム２４２（内視鏡検査の文脈において）は、ＯＯＩの分類に使用される機械学習方法のトレーニング中に、教師あり方法７１０と教師なし方法７６０とを組み合わせることができる。このアルゴリズムのパネル（例えば、一緒に動作する２つ以上のアルゴリズム）は、（例えば、図８Ａまたは図８Ｂに示すように）Ｕ－ｎｅｔアーキテクチャを使用することができる。トレーニングは、消化管内視鏡検査の文脈で説明されているが、トレーニングは、検出され分類されることが望まれる様々な対象物を有する画像のトレーニングセットを使用することによって、他のタイプの内視鏡検査、他のタイプの医療用途、および／または他のイメージングモダリティに対して行われてもよいことを理解されたい。

【0181】

注釈付き画像データセット７９０（例えば、注釈付き内視鏡画像データセット）もまた、教師あり方法７１０をトレーニングするために使用することができる。この場合、エンコーダ（Ｅ）７２０は、所与の画像を潜在特徴空間に投影し、分類器（Ｃ）７４０が特徴をターゲットクラスにわたる分布にマッピングし、トレーニング画像７５０における疾患／組織の形態学的特性に基づいて複数のクラスを識別することを可能にするアルゴリズム／特徴ベクトル７３０を構築する。

【0182】

ラベルなし画像を使用することによって、補助デコーダ（Ｇ）７７０は、再構成方法７８０を使用して、特徴を画像上の分布にマッピングする。Ｕ－ｎｅｔアーキテクチャにおいて再構成方法７８０を実施するために、画像を画素に分解し、画像再構成アルゴリズム（例えば、Ｕ－ｎｅｔアーキテクチャの右側に図式的に示すように）を使用して検出された信号から初期圧力分布を取得することができる。教師なし方法７６０は、特徴がクラスごとにより少ない数の注釈付き画像を使用できるようにすることによって、付加価値を追加することができる。

【0183】

図８Ａを参照すると、画像解析アルゴリズム（プログラム１４２に記憶され得る）によって使用され得るＵ－ｎｅｔアーキテクチャ８００の第１の例示的な実施形態のブロック図が示されている。

【0184】

畳み込みブロック８３０は、（例えば、入力モジュール１４４を介して）入力画像８１０を受信する。畳み込みブロック８３０は、畳み込み層、活性化層、およびプーリング層（例えば直列）からなる。畳み込みブロック８３０は、特徴ＸＸＸを生成する。この例は、図８Ａの左上の第１の畳み込みブロック８３０について示されている。

【0185】

逆畳み込みブロックは、畳み込みブロックのうちの１つおよび前の逆畳み込みブロックによって生成された特徴を受信する。例えば、図８Ａの右上の逆畳み込みブロック８２０は、畳み込みブロック８３０によって生成された特徴ＸＸＸ、ならびに先行する（すなわち、次に低い）逆畳み込みブロックの出力を受信する。逆畳み込みブロック８４０は、畳み込み層、転置畳み込み層、および活性化層からなる。逆畳み込みブロック８４０は、出力特徴８２０を生成する。出力特徴８２０は、例えば、数値の配列とすることができる。逆畳み込みブロック８４０は、提供された特徴に情報を追加し、対応する特徴が与えられると、画像の再構成を可能にする。

【0186】

分類器ブロック８５０は、畳み込み層、活性化層、および全結合層からなる。分類器ブロック８５０は、一連の畳み込みブロックにおける最後の畳み込みブロックによって生成された特徴ＸＸＸを受信する。分類器ブロック８５０は、分析中の画像内の１つ以上の物体のクラスを生成する。例えば、各画像または画像の領域は、ＧＩ内視鏡検査の例では「ポリープである」または「ポリープでない」など１つ以上のクラスでラベル付けされ得るが、他のタイプの内視鏡処置、医療処置、および／またはイメージングモダリティには他のクラスが使用され得る。

【0187】

図８Ｂを参照すると、画像解析アルゴリズム（プログラム１４２に記憶され得る）によって使用され得るＵ－ｎｅｔアーキテクチャ８６０の第２の例示的な実施形態のブロック図が示されている。

【0188】

８６４において、第１の畳み込み層は、（例えば、入力モジュール１４４を介して）入力画像を受信する。このレベルの様々な畳み込み層は、入力画像を線形混合し、入力画像の簡潔な特徴（すなわち表現）を学習するために、畳み込みの線形部分のみが使用される（例えば、３ｘ３畳み込みの場合、１画素の順序が失われる）。これは、３ｘ３畳み込み、ＲｅＬｕ操作によって行うことができる。各後続の３ｘ３畳み込みＲｅＬｕ操作の後、層の解像度が低下する。例えば、層の解像度は、５７２ｘ５７２（３チャンネルを有する）から５７０ｘ５７０（６４チャンネルを有する）、５６８ｘ５６８（６４チャンネルを有する）になり得る。最終層では、最大プール２ｘ２演算が適用され、次の畳み込み層のために、畳み込み済層が生成され得る（８６８）。加えて、逆畳み込みのために畳み込み済層にコピー＆クロップ操作が適用され得る（８９６）。

【0189】

８６８において、後続の畳み込み層は、上の畳み込み層から（８６４から）畳み込み済層を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴（すなわち表現）を学習するために、畳み込みの線形部分のみが使用される。これは、３ｘ３畳み込み、ＲｅＬｕ操作によって行われる。各後続の３ｘ３畳み込みＲｅＬｕ操作の後、層の解像度が低下する。例えば、層の解像度は、２８４ｘ２８４（６４チャンネルを有する）から２８２ｘ２８２（１２８チャンネルを有する）、２８０ｘ２８０（１２８チャンネルを有する）になり得る。最終層では、最大プール２ｘ２演算が適用され、次の畳み込み層のために、畳み込み済層が生成される（８７２）。加えて、逆畳み込みのために畳み込み済層にコピー＆クロップ操作が適用される（８９２）。

【0190】

８７２において、別の後続の畳み込み層は、上の前の畳み込み層から（８６８から）畳み込み済層を受け取る。このレベルの様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴（つまり表現）を学習するために、畳み込みの線形部分のみが使用される。これは、３ｘ３畳み込み、ＲｅＬｕ操作によって行われる。各後続の３ｘ３畳み込みＲｅＬｕ操作の後、層の解像度が低下する。例えば、層の解像度は、１４０ｘ１４０（１２８チャンネルを有する）から１３８ｘ１３８（２５６チャンネルを有する）、１３６ｘ１３６（２５６チャンネルを有する）になり得る。最終層では、最大プール２ｘ２演算が適用され、次の畳み込み層のために、畳み込み済層が生成される（８７６）。加えて、逆畳み込みのために畳み込み済層にコピー＆クロップ操作が適用される（８８８）。

【0191】

８７６において、畳み込み層は、上の前の畳み込み層から（８７２から）畳み込み済層を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴（すなわち表現）を学習するために、畳み込みの線形部分のみが使用される。これは、３ｘ３畳み込み、ＲｅＬｕ操作によって行われる。各後続の３ｘ３畳み込みＲｅＬｕ操作の後、層の解像度が低下する。例えば、層の解像度は、６８ｘ６８（２５６チャンネルを有する）から６６ｘ６６（５１２チャンネルを有する）、６４ｘ６４（５１２チャンネルを有する）になり得る。最終層では、最大プール２ｘ２演算が適用され、次の畳み込み層のために、畳み込み済層が生成される（８８０）。加えて、逆畳み込みのために畳み込み済層にコピー＆クロップ操作が適用される（８８４）。

【0192】

８８０において、畳み込み層は、上の畳み込み層から（８７６から）特徴を受け取る。様々な層が入力画像を線形に混合し、入力画像の簡潔な特徴（すなわち表現）を学習するために、畳み込みの線形部分のみが使用される。これは、３ｘ３畳み込み、ＲｅＬｕ操作によって行われる。各後続の３ｘ３畳み込みＲｅＬｕ操作の後、層の解像度が低下する。例えば、層の解像度は、３２ｘ３２（５１２チャンネルを有する）から３０ｘ３０（１０２４チャンネルを有する）、２８ｘ２８（５１２チャンネルを有する）になり得る。最終層では、逆畳み込みのために、上昇畳み込みプール２ｘ２演算が畳み込み済層に適用される（８８４）。

【0193】

次いで、デコーダ７７０は、８８４、８８８、８９２、および８９６において逆畳み込みを実行する。デコーダ７７０は、単一次元を２ｘ２パッチにマッピングする一連の線形変換（上昇畳み込み）を使用して特徴に次元を追加することによって、特徴から画像を再構成する。再構成画像は、画素ごとにＲＧＢチャンネル（赤、緑、青）を使用して表され、各値は［０，．．．，１］の範囲内にある。０の値は強度がないことを意味し、１の値は最大の強度を意味する。再構成画像は、寸法および形式が入力画像と同一である。

【0194】

８８４において、逆畳み込み層は、下の畳み込み層から（８８０から）特徴を、前の畳み込みから（８７６から）トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを２Ｘ２画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、５６ｘ５６（１０２４チャンネルを有する）から５４ｘ５４（５１２チャンネルを有する）、５２ｘ５２（５１２チャンネルを有する）になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール２ｘ２演算が逆畳み込み済層に適用される（８８８）。

【0195】

８８８において、逆畳み込み層は、下の逆畳み込み層から（８８４から）逆畳み込み済層を、前の畳み込みから（８７２から）トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを２Ｘ２画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、１０４ｘ１０４（５１２チャンネルを有する）から１０２ｘ１０２（２５６チャンネルを有する）、１００ｘ１００（２５６チャンネルを有する）になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール２ｘ２演算が逆畳み込み済層に適用される（８９２）。

【0196】

８９２において、逆畳み込み層は、下の逆畳み込み層から（８８８から）逆畳み込み済層を、前の畳み込みから（８６８から）トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを２Ｘ２画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、２００ｘ２００（２５６チャンネルを有する）から１９８ｘ１９８（１２８チャンネルを有する）、１９６ｘ１９６（１２８チャンネルを有する）になり得る。最終層では、次の逆畳み込み層のために、上昇畳み込みプール２ｘ２演算が逆畳み込み済層に適用される（８９６）。

【0197】

８９６において、逆畳み込み層は、（例えば、入力モジュール１４４を介して）下の逆畳み込み層から（８９２から）逆畳み込み済層を、前の畳み込みから（８６４から）トリミングされた画像を受け取る。これらのステップでは、上昇畳み込みと収縮パスからの高解像度特徴との連結のシーケンスにより、高解像度セグメンテーションマップを構築する。この上昇畳み込みは、学習されたカーネルを使用して、各特徴ベクトルを２Ｘ２画素の出力ウィンドウにマッピングし、その後非線形活性化関数が続く。例えば、層の解像度は、３９２ｘ３９２（１２８チャンネルを有する）から３９０ｘ３９０（６４チャンネルを有する）、３８８ｘ３８８（６４チャンネルを有する）になり得る。最後層では、畳み込み１ｘ１演算が逆畳み込み済層、再構成画像に適用される（８９８）。

【0198】

８９８において、再構成画像は、畳み込みから得られた特徴とともに出力される。再構成画像は、寸法および形式が入力画像と同一である。例えば、再構成画像の解像度は、５７２ｘ５７２（３チャンネルを有する）であり得る。

【0199】

図８Ｂは、３つの畳み込み層を有するＵ－ｎｅｔアーキテクチャを示しているが、Ｕ－ｎｅｔアーキテクチャは、（例えば、異なるサイズの画像、または異なる分析の深さに対して）より多くの畳み込み層が存在するように構造化されてもよい。

【0200】

図９を参照すると、健康な形態学的特性９００を有する内視鏡画像の例が示されている。健康な形態学的特性９００を有する内視鏡画像は、左から右に、正常な盲腸、正常な幽門、および正常なＺ線からなる。健康な形態学的特性９００を有するこれらの大腸内視鏡画像は、Ｋｖａｓｉｒデータセットから取得される。健康な形態学的特性９００を有する内視鏡画像は、教師ありまたは半教師ありの方法で画像解析アルゴリズムをトレーニングするためにＥＩＡシステム２４２によって使用され得る。

【0201】

図１０を参照すると、不健康な形態学的特性１０００を有する内視鏡画像の例が示されている。不健康な形態学的特性１０００を有する内視鏡画像は、左から右に、染色された隆起ポリープ、染色された切除縁、食道炎、ポリープ、および潰瘍性大腸炎からなる。不健康な形態学的特性１０００を有するこれらの内視鏡画像は、Ｋｖａｓｉｒデータセットから取得される。不健康な形態学的特性１０００を有する内視鏡画像は、教師ありまたは半教師ありの方法で画像解析アルゴリズムをトレーニングするためにＥＩＡシステム２４２によって使用され得る。代替またはそれへの追加として、健康または不健康な形態学的特性を有する医用画像は、限定はされないが、例えば、本明細書に記載の方法およびシステムを他のタイプの医用用途に使用するために適合させるために、ＣＴスキャナ、超音波装置、ＭＲＩスキャナ、Ｘ線装置、核医学イメージング装置、組織学イメージングデバイスなどの他のデバイス／プラットフォームから取得することができる。

【0202】

図１１を参照すると、専用データセット１１００からのラベルなしビデオフレーム画像の例が示されている。専用データセット１１００からのラベルなしビデオフレーム画像は、健康な組織と不健康な組織の両方を含む。専用データセット１１００からのラベルなしビデオフレーム画像は、ＥＩＡシステム２４２によって、半教師ありの方法で画像解析アルゴリズムをトレーニングするために使用される。

【0203】

図１２を参照すると、レポート生成プロセス１２００の例示的な実施形態のブロック図が示されている。レポートは、例えばＤＩＣＯＭレポート形式など特定の形式で生成され得る。プロセス１２００はＥＩＡシステム２４２によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム１００または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、ＥＩＡシステム２４２は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム１００の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、または内視鏡画像への任意の言及は、表１に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができ、プロセス１２００は、これらの他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、および医用画像とともに使用され得る。

【0204】

１２１０において、ＥＩＡシステム２４２は、患者人口統計フレームをロードする。患者人口統計フレームは、内視鏡処置を受ける患者の氏名、生年月日、性別、医療番号などの患者識別子からなる可能性がある。ＥＩＡシステム２４２は、内視鏡モニタ２４０に患者人口統計フレームを表示することができる。ＥＩＡシステム２４２は、内視鏡モニタ２４０からの静止画像を使用して患者データを収集することができる。

【0205】

１２２０において、ＥＩＡシステム２４２は、プログラム１４２に記憶され得る光学式文字認識アルゴリズムを実行する。ＥＩＡシステム２４２は、光学式文字認識アルゴリズムを使用して患者の人口統計フレームを読み取る。光学式文字認識アルゴリズムは、画像の特定の位置にあるテキスト文字を識別できるコードのセットを使用し得る。特に、光学式文字認識アルゴリズムは、患者情報を示す画像の境界を見ることができる。

【0206】

１２３０において、ＥＩＡシステム２４２は、読み取られた患者情報を抽出し、レポート生成にその情報を使用する。

【0207】

１２４０において、ＥＩＡシステム２４２は、該当する場合、レポート生成のために、キー画像（すなわち、一連の画像からのビデオフレームまたは画像）および／またはビデオクリップを注釈（例えば、データベース１５０から）とともにロードする。キーフレームは、画像とアノテーションデータのマッチングアルゴリズムによって識別されたものであり得る。

【0208】

１２５０において、ＥＩＡシステム２４２はレポートを生成する。レポートは、例えば、出力モジュール１４８を介して、ディスプレイに出力されてもよく、および／または、ネットワークユニットを介して、電子健康記録システムまたは電子医療記録システムに送信されてもよい。

【0209】

図１３を参照すると、ＥＩＡシステム２４２によって使用され得る画像処理アルゴリズムおよびアノテーションアルゴリズムを使用して、一連の画像を処理するための方法１３００の例示的な実施形態のブロック図が示されている。方法１３００はＥＩＡシステム２４２によって実行されるものとして説明されているが、これは例示のためのものであることに留意し、システム１００または別の適切な処理システムを使用してもよいことを理解されたい。しかしながら、より一般的には、ＥＩＡシステム２４２は、他の医用イメージング用途およびイメージングモダリティに使用されるとき、システム１００の代替的な例示的な実施形態であると考えることができる。このような場合、内視鏡検査、内視鏡、または内視鏡画像への任意の言及は、表１に示される例など、それぞれ他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像に置き換えることができ、プロセス１３００は、これらの他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、および医用画像とともに使用され得る。

【0210】

１３１０において、ＥＩＡシステム２４２は、一連の画像１３０４を受信し、入力ビデオストリームからの内視鏡画像など、一連の画像から画像をトリミングする。例えば、ＯｐｅｎＣＶ（オープンソースライブラリ）などの画像処理ライブラリを使用してトリミングを行うことができる。ＥＩＡシステム２４２は、生の図形と、ｘ最小値、ｘ最大値、ｙ最小値、ｙ最大値を入力することができる。次いで、ＯｐｅｎＣＶは、トリミングされた画像を生成することができる。

【0211】

１３２０において、ＥＩＡシステム２４２は、トリミングされた内視鏡画像内の１つ以上の対象物を検出する。１つ以上の対象物が検出されると、それらの位置が決定され、次いで、各対象物の分類および信頼スコアが決定される。これは、トレーニングされた物体検出アルゴリズムを使用して行われ得る。この物体検出アルゴリズムのアーキテクチャは、ＹＯＬＯｖ４であり得る。物体検出アルゴリズムは、例えば公開データベースまたはＤａｒｋｎｅｔを使用してトレーニングされ得る。

【0212】

行為１３１０および１３２０は、画像シリーズ１３０５からのいくつかの画像に対して繰り返され得る。

【0213】

１３３０において、ＥＩＡシステム２４２は、画像シリーズ１３０５からの１つ以上の画像に対する注釈を開始するための信号（５６０、５６２、５６４）を受信する。次いで、ＥＩＡシステム２４２は、発話認識、発話－テキスト変換を実行し、アノテーションデータ１３３５を生成し、これは前述のように行われ得る。

【0214】

次いで、方法１３００は１３４０に進み、アノテーションデータがマッチング画像に追加され、アノテーション画像が作成される。再度、これは、ユーザによって提供されたコマンドおよびコメントに基づいて、画像シリーズ１３０５からの複数の画像に対して繰り返され得る。注釈付き画像は、出力ビデオストリーム１３４５に出力され得る。

【0215】

以下の表２は、教師あり方法および教師なし方法を使用して組織を分類した結果を示す。

【表2】

【0216】

次に、図１４を参照すると、ＥＩＡシステム２４２によって使用される発話認識アルゴリズムの精度を表し、真陽性（ＴＰ）値に対する正の発話認識結果（Ｐ）率を示すＹＯＬＯｖ４のトレーニング結果のチャート１４００が示されている。チャートのｘ軸はトレーニング反復回数（１反復は３２枚の画像からなる画像の１ミニバッチ）を表し、ｙ軸は検証群を使用したポリープ検出のＴＰ検出率を表す。チャート１４００は、ＴＰ率が反復５００で０．８２６から始まり、反復１０００後に０．９２２まで増加することを示している。反復１０００～３０００回にわたって、ＴＰ率は概ね約０．９２～０．９３の水準を維持する。ＴＰは、３０００回の反復後０．９３に達し得る。

【0217】

ＡＩアルゴリズムによって提供される分類の精度は、物体検出または発話認識の精度を評価するための分析指標として選択された。偽陽性（ＦＰ）という用語は、実際の観測値が「偽」であるにもかかわらず、機械学習モデルが「真」の値を予測するエラーを指す。一方、偽陰性（ＦＮ）は、実際の観測値が「真」であるにもかかわらず、機械学習モデルが「偽」の予測値を出力するエラーを示す。ＦＰは、機械学習モデルを使用するとき、医療分野におけるソフトウェア分類プラットフォームの信頼性を低下させる主な要因である。その結果、本明細書に記載されるトレーニング済み物体および発話認識アルゴリズムは、精度などの指標を使用して検証されている。

【0218】

図１５を参照すると、発話認識アルゴリズム１５００の例示的な実施形態のブロック図が示されている。発話認識アルゴリズム１５００は、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６のうちの１つ以上を使用して実装され得る。他の実施形態では、発話認識アルゴリズム１５００は、表１に示される例など、他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像とともに使用され得ることを理解されたい。

【0219】

発話認識アルゴリズム１５００は、マイクロフォン２７０を介して取得された生の音声データ１５１０を受信する。発話認識アルゴリズム１５００は、畳み込みニューラルネットワークブロック１５２０および変換器ブロック１５３０を含む。畳み込みニューラルネットワークブロック１５２０は、生の音声データ１５１０を受信する。畳み込みニューラルネットワークブロック１５２０は、生の音声データ１５１０から特徴を抽出して特徴ベクトルを生成する。畳み込みニューラルネットワークブロック１５２０内の各畳み込みニューラルネットワークは、使用される重みを含め、全く同じであってもよい。発話認識アルゴリズム１５００における畳み込みニューラルネットワークブロック１５２０の数は、生のオ―ディオデータ１５１０の長さに依存し得る。

【0220】

変換器ブロック１５３０は、畳み込みニューラルネットワークブロック１５２０から特徴ベクトルを受け取る。変換器ブロック１５３０は、特徴ベクトルから特徴を抽出することによって、ユーザ入力に対応する文字を生成する。

【0221】

図１６を参照すると、画像解析アルゴリズムによって使用され得る物体検出アルゴリズム１６２０のためのデータフロー１６００の例示的な実施形態のブロック図が示されている。物体検出アルゴリズム１６２０は、プログラム１４２、予測エンジン１５２、および機械学習モデル１４６のうちの１つ以上を使用して実装され得る。他の実施形態では、物体検出アルゴリズム１６２０は、表１に示される例など、他の医用イメージング手順、イメージングモダリティ、イメージングデバイス、または医用画像とともに使用され得ることを理解されたい。

【0222】

物体検出アルゴリズム１６２０は、処理された画像１６１０を受信する。処理された画像１６１０は、元の画像のトリミングおよびサイズ変更されたバージョンであってもよい。

【0223】

処理された画像１６１０は、処理された画像１６１０から特徴を抽出することができる畳み込みニューラルネットワークであるＣＰＳＤａｒｋｎｅｔ５３１６３０に入力される。

【0224】

ＣＳＰＤａｒｋｎｅｔ５３１６３０の出力は、空間ピラミッドプーリング演算子１６４０およびパス集約ネットワーク１６５０に提供される。

【0225】

空間ピラミッドプーリング演算子１６４０は、ＣＳＰＤａｒｋｎｅｔ５３１６３０の固定サイズ制約を除去することができるプーリング層である。空間ピラミッドプーリング演算子１６４０の出力は、パス集約ネットワーク１６５０に提供される。

【0226】

パス集約ネットワーク１６５０は、ＣＳＰＤａｒｋｎｅｔ５３１６３０の出力から異なる深さの特徴を抽出することによって、ＣＳＰＤａｒｋｎｅｔ５３１６３０および空間ピラミッドプーリング演算子１６４０からの出力を処理する。パス集約ネットワーク１６５０は、Ｙｏｌｏヘッド１６６０に出力される。

【0227】

Ｙｏｌｏヘッド１６６０は、ＯＯＩのクラス１６７０、バウンディングボックス１６８０、および信頼スコア１６９０を予測し、生成する。クラス１６７０は、ＯＯＩの分類である。図９～図１１は、分類された物体を含む画像の様々な例を示す。例えば、クラス１６７０は、ポリープであり得る。しかしながら、分類１６９０が十分に高い信頼スコアで決定されない場合、画像は疑わしいと分類される可能性がある。

【0228】

次に図１７を参照すると、本明細書の教示に従って生成された注釈付き画像を含むレポート１７００の例示的な実施形態が示されている。レポート１７００は、本明細書の教示に従って、医療処置（例えば、内視鏡検査処置などの医療診断処置）中に発生する画像および音声のキャプチャ中に収集される様々な情報を含む。レポート１７００は、一般に、限定はされないが、（ａ）患者データ（すなわち、氏名、生年月日など）、（ｂ）医療処置に関する情報（例えば、任意の生検が行われた場合、任意の治療が行われた場合など、処置の日付）、（ｃ）処置および任意の所見の説明を提供するための説明フィールド、（ｄ）１つ以上の注釈付き画像、および（ｅ）患者に対するさらなる治療／フォローアップのための任意の推奨事項のテキストを含む推奨事項フィールドを含む、様々な要素を含む。他の実施形態では、注釈付き画像以外の要素の一部は、オプションであり得る。場合によっては、バウンディングボックス、アノテーションデータ、信頼スコアとともに、注釈付きの画像をレポートに含めることができる。他の場合では、バウンディングボックス、アノテーションデータおよび／または信頼スコアがレポートに含まれない場合がある。

【0229】

本明細書に記載される少なくとも１つの実施形態では、ＥＩＡシステム２４２またはシステム１００は、いくつかの機能を実行するように構成され得る。例えば、ＯＯＩが検出され分類され、その分類が所与の画像に含まれる所与の画像が表示され得る。次いで、ユーザは、ＥＩＡシステム２４２によって提供された自動分類に同意しない可能性がある場合、発話でコメントを提供することができる。この場合、ユーザのコメントは、所与の画像に一致するテキスト文字列に変換される。アノテーションデータは、テキスト文字列を使用して生成され、アノテーションデータは、所与の画像にリンクされる（例えば、オーバーレイまたは重ね合わされる）。

【0230】

少なくとも１つの実施形態では、ＯＯＩが検出され、自動的に分類され、自動分類が所与の画像に含まれる所与の画像が表示され得る。ユーザは、所与の画像を表示し、自動分類が正しいかどうかを再確認したい場合がある。このような場合、ユーザは、自動分類と同じ分類のＯＯＩを有する他の画像を表示するコマンドを提供し得る。ユーザの発話は、このコマンドを含み得る。したがって、発話－テキスト変換が実行されると、テキストが検査されて、少なくとも１つのＯＯＩと同じ分類で分類されたＯＯＩを有する参照画像の要求などのコマンドが含まれているかどうかが決定され得る。次いで、ＥＩＡシステム２４２またはシステム１００のプロセッサは、データストアから参照画像を取り出し、参照画像を表示し、少なくとも１つのＯＯＩの自動分類を確認または却下するその後の入力を、発話を介してユーザから受信し得る。アノテーションデータは、この後の入力に基づいて生成され、所与の画像にオーバーレイされ得る。

【0231】

【0232】

本明細書に記載される少なくとも１つの実施形態では、ＥＩＡシステム２４２またはシステム１００は、いくつかの機能を実行するように構成され得る。例えば、ＯＯＩが検出されたが、分類に関連付けられた信頼スコアがＯＯＩを確実に分類するには十分でない場合、所与の画像が表示される可能性がある。このような場合、所与の画像が表示され、疑わしいと示されることがあり、この場合、未決定のＯＯＩを有する少なくとも１つの画像に対するユーザ分類を示すユーザからの入力が受信され得る。次いで、所与の画像は、ユーザ分類で注釈が付けられ得る。

【0233】

本明細書に記載される少なくとも１つの実施形態では、ＥＩＡシステム２４２またはシステム１００は、注釈付き画像を生成するときにタイムスタンプをオーバーレイするように構成されてもよく、タイムスタンプは、画像が医用イメージングデバイス（例えば、内視鏡２２０）によって最初に取得された時間を示す。

【0234】

本出願人の教示は、例示の目的で様々な実施形態と併せているが、本明細書に記載された実施形態が例であることを意図しているため、本明細書に記載された本出願人の教示は、そのような実施形態に限定されることは意図されない。むしろ、本明細書に記載され図示された出願人の教示は、本明細書に記載された実施形態から逸脱することなく、様々な代替、修正、および均等物を包含し、その一般的な範囲は、添付の特許請求の範囲に定義される。

【図1】

【図2】

【図3】

【図4】

【図5A】

【図5B】

【図5C】

【図6】

【図7】

【図8A】

【図8B】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【手続補正書】

【提出日】2022-05-04

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

医療処置のための医用画像データを分析するためのシステムであって、
前記医療処置のための医用画像データを分析するためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
一連の画像から少なくとも1つの画像を受信すること、
前記少なくとも1つの画像に少なくとも1つの関心対象物体（OOI）が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定すること、
前記医療処置中に、バウンディングボックスを使用して、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示すること、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識すること、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムおよび用語訂正アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換すること、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合すること、および
前記医療処置中に、前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成すること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。

【請求項2】

前記少なくとも1つのプロセッサが、前記発話が、前記医療処置中に、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する少なくとも1つの参照画像の要求として認識されたとき、前記少なくとも1つの参照画像を表示し、前記少なくとも1つの機械学習モデルを更新するために、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信するようにさらに構成されている、請求項1に記載のシステム。

【請求項3】

前記少なくとも1つのプロセッサが、前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信するようにさらに構成されている、請求項1または2に記載のシステム。

【請求項4】

前記少なくとも1つのプロセッサが、前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成するようにさらに構成されている、請求項1～3のいずれか一項に記載のシステム。

【請求項5】

前記少なくとも1つのプロセッサが、所与の画像内の所与のOOIについて、
前記バウンディングボックスのバウンディングボックス座標を識別することであって、前記バウンディングボックスが、前記所与の画像内の前記所与のOOIに関連付けられている、識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと、
前記医療処置中に前記ユーザから確認を受信すると、前記少なくとも1つの画像にカスタム語彙をオーバーレイすることと
を行うようにさらに構成されている、請求項1～4のいずれか一項に記載のシステム。

【請求項6】

前記少なくとも1つのプロセッサが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク（CNN）を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
によって前記OOIの前記分類を決定するように構成されている、請求項1～5のいずれか一項に記載のシステム。

【請求項7】

前記少なくとも1つのプロセッサが、前記医療処置中に前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像に、少なくとも1つの処置中の出来事のタイムスタンプおよびタイムスタンプ付き文書をオーバーレイするようにさらに構成されている、請求項1～6のいずれか一項に記載のシステム。

【請求項8】

前記少なくとも1つのプロセッサが、前記医療処置中に、前記少なくとも1つの画像の前記信頼スコアをディスプレイ上にリアルタイムで示すようにさらに構成されている、請求項5～7のいずれか一項に記載のシステム。

【請求項9】

前記少なくとも1つのプロセッサが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
によって前記医療処置中に前記入力音声を受信するように構成されている、請求項1～8のいずれか一項に記載のシステム。

【請求項10】

前記少なくとも1つのプロセッサが、前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定するようにさらに構成されている、請求項1～9のいずれか一項に記載のシステム。

【請求項11】

前記少なくとも1つのプロセッサが、
前記レポートに追加するための前記医療処置中に生成された患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像または前記バウンディングボックスによって識別された前記少なくとも1つのOOIを含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成するようにさらに構成されている、請求項4～10のいずれか一項に記載のシステム。

【請求項12】

前記少なくとも1つのプロセッサが、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行するようにさらに構成されている、請求項1～11のいずれか一項に記載のシステム。

【請求項13】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項12に記載のシステム。

【請求項14】

前記少なくとも1つのプロセッサが、
ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすることを行うようにさらに構成されている、
請求項12または13に記載のシステム。

【請求項15】

前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項12～14のいずれか一項に記載のシステム。

【請求項16】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項14または請求項15に記載のシステム。

【請求項17】

前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項12～16のいずれか一項に記載のシステム。

【請求項18】

前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
によって前記少なくとも1つのOOIの前記分類を決定するようにさらに構成されている、請求項17に記載のシステム。

【請求項19】

前記少なくとも1つのプロセッサが、新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることを行うようにさらに構成されている、請求項1～18のいずれか一項に記載のシステム。

【請求項20】

前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項1～19のいずれか一項に記載のシステム。

【請求項21】

前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項1～20のいずれか一項に記載のシステム。

【請求項22】

医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするためのシステムであって、
前記機械学習モデルをトレーニングするためのプログラム命令を記憶した非一時的コンピュータ可読媒体と、
前記プログラム命令を実行すると、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物（OOI）に対する少なくとも1つの特徴を生成すること、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択すること、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成すること、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成すること、および
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすること
を行うように構成された少なくとも1つのプロセッサと
を備えるシステム。

【請求項23】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項22に記載のシステム。

【請求項24】

【請求項25】

前記少なくとも1つのプロセッサが、教師あり学習、教師なし学習、または半教師あり学習を使用して、前記少なくとも1つの機械学習モデルをトレーニングするようにさらに構成されている、請求項22～24のいずれか一項に記載のシステム。

【請求項26】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項24または請求項25に記載のシステム。

【請求項27】

前記少なくとも1つのプロセッサが、
前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成するようにさらに構成されている、請求項22～26のいずれか一項に記載のシステム。

【請求項28】

前記少なくとも1つのプロセッサが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を行うようにさらに構成されている、請求項27に記載のシステム。

【請求項29】

前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項22～28のいずれか一項に記載のシステム。

【請求項30】

前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（OOI）から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22～29のいずれか一項に記載のシステム。

【請求項31】

前記少なくとも1つのプロセッサが、前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（OOI）から少なくとも1つの新しいトレーニング画像を生成するようにさらに構成されている、請求項22～30のいずれか一項に記載のシステム。

【請求項32】

1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項22～31のいずれか一項に記載のシステム。

【請求項33】

医療処置のための医用画像データを分析するための方法であって、
一連の画像から少なくとも1つの画像を受信することと、
前記少なくとも1つの画像に少なくとも1つの関心対象物体（OOI）が存在するときを決定し、前記少なくとも1つのOOIが存在するとき、前記少なくとも1つのOOIの分類を決定することであって、両方の決定は少なくとも１つの機械学習モデルを使用して実行される、決定することと、
前記医療処置中に、バウンディングボックスを使用して、前記少なくとも1つの画像および任意の決定されたOOIをディスプレイ上でユーザに表示することと、
前記医療処置中の前記ユーザからの発話を含む入力音声信号を受信し、前記発話を認識することと、
前記医療処置中に前記発話が前記少なくとも1つの画像上のコメントとして認識されたとき、発話-テキスト変換アルゴリズムおよび用語訂正アルゴリズムを使用して、前記発話を少なくとも1つのテキスト文字列に変換することと、
前記少なくとも1つのテキスト文字列を、前記ユーザからの前記発話が提供された前記少なくとも1つの画像と照合することと、
前記医療処置中に、前記少なくとも1つのテキスト文字列が前記対応する少なくとも1つの画像にリンクされている少なくとも1つの注釈付き画像を生成することと
を含む方法。

【請求項34】

前記発話が、前記分類を含む少なくとも1つの参照画像の要求を含むものとして認識されたとき、前記医療処置中に、前記少なくとも1つのOOIと同じ分類で分類されたOOIを有する前記少なくとも1つの参照画像を表示し、前記少なくとも1つの機械学習モデルを更新するために、前記少なくとも1つのOOIの前記分類を確認するか、または却下する入力を前記ユーザから受信することをさらに含む請求項33に記載の方法。

【請求項35】

前記少なくとも1つのOOIが疑わしいと分類されたとき、前記未決定のOOIを有する前記少なくとも1つの画像に対するユーザ分類を示す入力を前記ユーザから受信することをさらに含む、請求項33または請求項34に記載の方法。

【請求項36】

前記少なくとも1つの注釈付き画像を含むレポートを自動的に生成することをさらに含む請求項33～36のいずれか一項に記載の方法。

【請求項37】

所与の画像内の所与のOOIについて、
前記バウンディングボックスのバウンディングボックス座標を識別することであって、前記バウンディングボックスが、前記所与の画像内の前記所与のOOIに関連付けられている、識別することと、
前記所与のOOIの前記分類の確率分布に基づいて信頼スコアを計算することと、
前記信頼スコアが信頼閾値よりも高いとき、前記バウンディングボックス座標で前記少なくとも1つの画像上に前記バウンディングボックスをオーバーレイすることと、
前記医療処置中に前記ユーザから確認を受信すると、前記少なくとも1つの画像にカスタム語彙をオーバーレイすることと
をさらに含む、請求項33～36のいずれか一項に記載の方法。

【請求項38】

前記OOIの前記分類を決定することが、
畳み込み演算、活性化演算、およびプーリング演算を実行して行列を生成することによって、前記OOIに畳み込みニューラルネットワーク（CNN）を適用することと、
前記畳み込み演算、活性化演算、およびプーリング演算を使用して前記行列を処理することによって、特徴ベクトルを生成することと、
前記特徴ベクトルに基づいて前記OOIの前記分類を実行することと
を含む、請求項33～37のいずれか一項に記載の方法。

【請求項39】

前記医療処置中に前記少なくとも1つの注釈付き画像を生成するとき、前記対応する少なくとも1つの画像に、少なくとも1つの処置中の出来事のタイムスタンプおよびタイムスタンプ付き文書をオーバーレイすることをさらに含む請求項33～38のいずれか一項に記載の方法。

【請求項40】

前記医療処置中に、前記少なくとも1つの画像の前記信頼スコアをディスプレイ上にリアルタイムで示すことをさらに含む請求項34～39のいずれか一項に記載の方法。

【請求項41】

前記医療処置中に前記入力音声を前記受信することが、
前記一連の画像の表示を一時停止すること、
前記一連の画像内の所与の画像のスナップショットを撮影すること、または
最初のボイスコマンドを提供すること
を含む第1のユーザアクションの検出時に、前記ユーザからの前記入力音声の音声ストリームの受信を開始することと、
あらかじめ決められた長さの間沈黙のままであること、
指定されたボタンを押すこと、または
最後のボイスコマンドを提供すること
を含む第2のユーザアクションの検出時に、前記音声ストリームの受信を終了することと
を含む、請求項33～40のいずれか一項に記載の方法。

【請求項42】

前記医療処置中に前記入力音声を受信したときに前記一連の画像を記憶し、それによって、対応する少なくとも1つの注釈付き画像を生成するためのアノテーションデータを受信するように前記少なくとも1つの画像を指定することをさらに含む請求項33～41のいずれか一項に記載の方法。

【請求項43】

前記レポートに追加するための前記医療処置中に生成された患者情報データのセットをキャプチャすることと、
前記少なくとも1つの注釈付き画像または前記バウンディングボックスによって識別された前記少なくとも1つのOOIを含む前記一連の画像のサブセットをロードすることと、
前記患者情報データのセットと、前記少なくとも1つの注釈付き画像を含む前記一連の画像の前記サブセットとを前記レポートに結合することと
によって前記医療処置のレポートを生成することをさらに含む、請求項33～42のいずれか一項に記載の方法。

【請求項44】

少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内のトレーニングOOIに対する少なくとも1つの特徴ベクトルを生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴ベクトルを適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴ベクトルを前記少なくとも1つのトレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと
によって前記少なくとも1つの機械学習モデルのトレーニングを実行することをさらに含む、請求項33～43のいずれか一項に記載の方法。

【請求項45】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項44に記載の方法。

【請求項46】

ラベル付きトレーニング画像、ラベルなしトレーニング画像、またはラベル付きトレーニング画像とラベルなしトレーニング画像の混合を含むトレーニングデータセットを使用して、前記少なくとも1つの機械学習モデルをトレーニングすることであって、前記画像が、健康な組織、不健康な組織、疑わしい組織、および焦点の合っていない組織によってカテゴリ化された例を含む、トレーニングすること
をさらに含む、請求項44または請求項45に記載の方法。

【請求項47】

前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項44～46のいずれか一項に記載の方法。

【請求項48】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項46または請求項47に記載の方法。

【請求項49】

前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴空間の一部である特徴に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
新しいトレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記新しいトレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項44～48のいずれか一項に記載の方法。

【請求項50】

前記少なくとも1つのOOIの前記分類を前記決定することが、
前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
を含む、請求項49に記載の方法。

【請求項51】

新しい音声データを発話データセットと比較してグランドトゥルーステキストとの一致を識別するために、前記発話データセットを使用して前記発話-テキスト変換アルゴリズムをトレーニングすることであって、前記発話データセットが、前記グランドトゥルーステキストと、前記グランドトゥルーステキストの音声データとを含む、トレーニングすることをさらに含む請求項43～50のいずれか一項に記載の方法。

【請求項52】

前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項43～51のいずれか一項に記載の方法。

【請求項53】

前記医用画像データが、1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得される、請求項33～52のいずれか一項に記載の方法。

【請求項54】

医療処置のための医用画像データの分析に使用するための少なくとも1つの機械学習モデルと、発話-テキスト変換アルゴリズムとをトレーニングするための方法であって、
少なくとも1つのトレーニング画像にエンコーダを適用して、前記少なくとも1つのトレーニング画像内の目的のトレーニング対象物（OOI）に対する少なくとも1つの特徴を生成することと、
前記少なくとも1つの機械学習モデルに前記少なくとも1つの特徴を適用することによって、前記トレーニングOOIのクラスを選択することと、
前記少なくとも1つの特徴を前記トレーニング画像および前記少なくとも1つの機械学習モデルをトレーニングするための前記選択されたクラスに関連付けることによって、デコーダを使用して、ラベル付きトレーニング画像を再構成することと、
グランドトゥルーステキストおよび前記グランドトゥルーステキスト用の音声データを含む発話データセットを使用して、新しい音声データと前記グランドトゥルーステキストとの間の一致を識別するように前記発話-テキスト変換アルゴリズムをトレーニングし、それによって少なくとも1つのテキスト文字列を生成することと、
前記トレーニングOOIと前記少なくとも1つのテキスト文字列を注釈付き画像にオーバーレイすることと
を含む方法。

【請求項55】

前記クラスが、健康組織クラス、不健康組織クラス、疑わしい組織クラス、または焦点の合っていない組織クラスである、請求項54に記載の方法。

【請求項56】

【請求項57】

前記少なくとも1つの機械学習モデルを前記トレーニングすることが、教師あり学習、教師なし学習、または半教師あり学習を使用することを含む、請求項54～56のいずれか一項に記載の方法。

【請求項58】

前記トレーニングデータセットが、前記不健康な組織および前記疑わしい組織の各々についてのサブカテゴリをさらに含む、請求項56または請求項57に記載の方法。

【請求項59】

前記エンコーダへの入力としてトレーニング画像を受信することと、
前記エンコーダを使用して、前記トレーニング画像を特徴を含む特徴空間に投影することと、
分類器を使用して、前記特徴をターゲットクラスのセットにマッピングすることと、
トレーニングデータセットを生成するために、前記トレーニング画像の形態学的特性を識別することであって、前記トレーニングデータセットが、前記トレーニング画像にパラメータをリンクするデータを有する、識別することと、
前記形態学的特性に基づいて、1つ以上のマッピングされたクラスがあるか、マッピングされたクラスがないかを決定することと
によって前記少なくとも1つの機械学習モデルを作成することをさらに含む、請求項54～58のいずれか一項に記載の方法。

【請求項60】

前記デコーダへの入力として1つ以上の前記特徴を受信することと、
逆畳み込みニューラルネットワークを使用して、ラベルなしデータセットに前記特徴のうちの前記1つをマッピングすることと、
前記少なくとも1つの機械学習モデルをトレーニングするために、前記デコーダを使用して前記特徴のうちの前記1つから新しいトレーニング画像を再構成することと
をさらに含む請求項59に記載の方法。

【請求項61】

前記発話-テキスト変換アルゴリズムが、前記少なくとも1つのOOIを複数のOOI医学用語のうちの1つにマッピングする、請求項54～60のいずれか一項に記載の方法。

【請求項62】

前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースであると決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（OOI）から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54～61のいずれか一項に記載の方法。

【請求項63】

前記少なくとも1つのテキスト文字列に一致する入力音声を生成する前記発話-テキスト変換アルゴリズムに基づいて、前記OOIに関連付けられた少なくとも1つのテキスト文字列がそのOOIのグランドトゥルースではないと決定されたとき、前記医用画像データを分析する間に検出された関心対象物体（OOI）から少なくとも1つの新しいトレーニング画像を生成することをさらに含む請求項54～62のいずれか一項に記載の方法。

【請求項64】

1つ以上の内視鏡処置、1つ以上のMRIスキャン、1つ以上のCTスキャン、1つ以上のX線、1つ以上の超音波写真、1つ以上の核医学画像、または1つ以上の組織学的画像から取得された医用画像データに対して前記トレーニングが行われる、請求項54～63のいずれか一項に記載の方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版