(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-08
(54)【発明の名称】誤差予測を使用した画像スコアリング
(51)【国際特許分類】
G06T 7/00 20170101AFI20230801BHJP
G06V 10/82 20220101ALI20230801BHJP
G06N 3/09 20230101ALI20230801BHJP
G06N 3/0464 20230101ALI20230801BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/09
G06N3/0464
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023502686
(86)(22)【出願日】2021-07-15
(85)【翻訳文提出日】2023-03-09
(86)【国際出願番号】 JP2021026607
(87)【国際公開番号】W WO2022014672
(87)【国際公開日】2022-01-20
(32)【優先日】2020-07-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】000002934
【氏名又は名称】武田薬品工業株式会社
(74)【代理人】
【識別番号】230104019
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100119183
【氏名又は名称】松任谷 優子
(74)【代理人】
【識別番号】100149076
【氏名又は名称】梅田 慎介
(74)【代理人】
【識別番号】100162503
【氏名又は名称】今野 智介
(74)【代理人】
【識別番号】100144794
【氏名又は名称】大木 信人
(72)【発明者】
【氏名】グリーンブラット エリオット
(72)【発明者】
【氏名】シーゲルマン ジェニファー
(72)【発明者】
【氏名】ヤルディビ オズレム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA06
5L096BA13
5L096CA04
5L096DA02
5L096HA11
5L096KA04
(57)【要約】
誤差予測を使用して画像をスコアリングする方法(600)は、状態の強度を表す画像データのフレーム(20)を受信することを含む。本方法は、画像データのフレームを、ニューラルネットワーク(110)を用いて処理することをさらに含む。本方法は、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値(120)を予測することをさらに含む。本方法は、ニューラルネットワークによって、予測強度値の誤差値(130)を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値(122)との差を表す。
【選択図】
図5
【特許請求の範囲】
【請求項1】
方法(600)であって、
データ処理ハードウェア(12)において、状態の強度を表す画像データのフレーム(20)を受信することと、
前記データ処理ハードウェア(12)によって、ニューラルネットワーク(110)を使用して、前記画像データのフレーム(20)を処理することと、
前記ニューラルネットワーク(110)によって、前記画像データのフレーム(20)に基づいて前記状態の強度値(120)を予測することと、
前記ニューラルネットワーク(110)によって、前記予測強度値(120)の誤差値(130)を予測することであって、前記予測誤差値(130)は、前記画像データのフレーム(20)の前記予測強度値(120)とグラウンドトゥルース強度値(122)との間の差を表す前記予測することと、
を含む、前記方法。
【請求項2】
前記データ処理ハードウェア(12)において、前記画像データの一連のフレーム(20)を含むビデオデータを受信することであって、各フレーム(20)は、前記状態の前記強度を表す、前記受信することと、
前記データ処理ハードウェア(12)によって、前記画像データの一連のフレーム(20)の各フレーム(20)の前記予測強度値(120)及び前記予測誤差値(130)に基づいて前記状態の前記強度を決定することと、
をさらに含む、請求項1に記載の方法(600)。
【請求項3】
前記画像データの一連のフレーム(20)の各フレーム(20)の前記予測強度値(120)及び予測誤差値(130)に基づいて前記状態の前記強度を決定することは、前記予測強度値(120)の少なくとも一部に曲線を適合させることを含む、請求項2に記載の方法(600)。
【請求項4】
前記データ処理ハードウェア(12)によって、前記フレーム(20)の対応する予測誤差値(130)に基づいて、前記画像データの一連のフレーム(20)における各フレーム(20)のフレーム情報性(312)を決定することであって、前記フレーム情報性(312)は、前記画像データの対応するフレーム(20)の前記強度値(120)を決定することの難しさを表す、前記決定することと、
前記データ処理ハードウェア(12)によって、前記フレーム情報性(312)に基づいて前記画像データの一連のフレーム(20)のフレーム(20)のサブセットを選択することと、
前記データ処理ハードウェア(12)によって、前記選択されたフレーム(20)のサブセットを手動評価のために提供することと、
をさらに含む、請求項2に記載の方法(600)。
【請求項5】
前記フレーム(20)のサブセットを選択することは、最高のフレーム情報性(312)を有する前記画像データのフレーム(20)を選択することを含む、請求項4に記載の方法(600)。
【請求項6】
前記ニューラルネットワーク(110)は、回帰畳み込みニューラルネットワーク(CNN)(110)を含む、請求項1に記載の方法(600)。
【請求項7】
前記画像データのフレーム(20)に基づいて前記状態の前記強度値(120)を予測することは、
前記画像データのフレーム(20)の複数の異なる配向のそれぞれについて、前記状態の配向強度値(120O)を予測することと、
前記配向強度値(120O)のそれぞれに基づいて前記状態の前記強度値(120)を決定することと、
をさらに含む、請求項1に記載の方法(600)。
【請求項8】
前記配向強度値(120O)のそれぞれに基づいて前記状態の前記強度値(120)を決定することは、前記配向強度値(120O)の逆分散加重平均を決定することを含む、請求項7に記載の方法(600)。
【請求項9】
前記複数の異なる配向は、8つの異なる配向を含む、請求項7に記載の方法(600)。
【請求項10】
前記ニューラルネットワーク(110)は、前記画像データのフレーム(20)の前記予測強度値(120)と前記グラウンドトゥルース強度値(122)との間の前記差を表す第1の損失関数(510)を使用して最初にトレーニングされる、請求項1に記載の方法(600)。
【請求項11】
前記ニューラルネットワーク(110)は、前記第1の損失関数(510)を使用して最初にトレーニングされた後、
前記画像データのフレーム(20)の前記予測強度値(120)と前記グラウンドトゥルース強度値(122)との差と、
前記画像データのフレーム(20)の前記予測誤差値(130)とグラウンドトゥルース誤差値(132)との差と、
を表す第2の損失関数(530)を使用してトレーニングされる、請求項10に記載の方法(600)。
【請求項12】
前記状態は、疾患を含む、請求項1に記載の方法(600)。
【請求項13】
前記画像データのフレーム(20)は、患者の消化器官の内面を表す、請求項1に記載の方法(600)。
【請求項14】
前記消化器官は、食道、胃、小腸、及び大腸を含む、請求項13に記載の方法(600)。
【請求項15】
前記画像データのフレーム(20)は、医用画像データのフレーム(20)を含む、請求項1に記載の方法(600)。
【請求項16】
方法(700)であって、
データ処理ハードウェア(12)において、関心領域を表す画像データのフレーム(20)を受信することと、
前記データ処理ハードウェア(12)によって、ニューラルネットワーク(110)を使用して、前記画像データのフレーム(20)を処理することと、
前記ニューラルネットワーク(110)によって、前記画像データのフレーム(20)に基づいて前記関心領域をセグメント化することと、
前記ニューラルネットワーク(110)によって、前記セグメント化された関心領域の誤差値(130)を予測することであって、前記予測された誤差値(130)は、前記画像データのフレーム(20)の前記セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す、前記予測することと、
を含む、前記方法(700)。
【請求項17】
システム(100)であって、
データ処理ハードウェア(12)と、
前記データ処理ハードウェア(12)と通信するメモリハードウェア(14)であって、前記データ処理ハードウェア(12)で実行されると、前記データ処理ハードウェア(12)に、
状態の強度を表す画像データのフレーム(20)を受信することと、
前記画像データのフレーム(20)を、ニューラルネットワーク(110)を用いて処理することと、
前記ニューラルネットワーク(110)によって、前記画像データのフレーム(20)に基づいて前記状態の強度値(120)を予測することと、
前記ニューラルネットワーク(110)によって、前記予測強度値(120)の誤差値(130)を予測することであって、前記予測誤差値(130)は、前記画像データのフレーム(20)の前記予測強度値(120)とグラウンドトゥルース強度値(122)との間の差を表す、前記予測することと、
を含む動作を実行させる命令を記憶する、前記メモリハードウェア(14)と、
を含む、前記システム(100)。
【請求項18】
前記画像データの一連のフレーム(20)を含むビデオデータを受信することであって、各フレーム(20)は、前記状態の前記強度を表す、前記受信することと、
前記画像データの一連のフレーム(20)の各フレーム(20)の前記予測強度値(120)及び前記予測誤差値(130)に基づいて前記状態の前記強度を決定することと、
をさらに含む、請求項17に記載のシステム(100)。
【請求項19】
前記画像データの一連のフレーム(20)の各フレーム(20)の前記予測強度値(120)及び予測誤差値(130)に基づいて前記状態の前記強度を決定することは、前記予測強度値(120)の少なくとも一部に曲線を適合させることを含む、請求項18に記載のシステム(100)。
【請求項20】
前記フレーム(20)の対応する予測誤差値(130)に基づいて、前記画像データの一連のフレーム(20)における各フレーム(20)のフレーム情報性(312)を決定することであって、前記フレーム情報性(312)は、前記画像データの対応するフレーム(20)の前記強度値(120)を決定することの難しさを表す、前記決定することと、
前記フレーム情報性(312)に基づいて前記画像データの一連のフレーム(20)のフレーム(20)のサブセットを選択することと、
前記選択されたフレームのサブセット(20)を手動評価のために提供することと、
をさらに含む、請求項18に記載のシステム(100)。
【請求項21】
前記フレーム(20)のサブセットを選択することは、最高のフレーム情報性(312)を有する前記画像データのフレーム(20)を選択することを含む、請求項20に記載のシステム(100)。
【請求項22】
前記ニューラルネットワーク(110)は、回帰畳み込みニューラルネットワーク(CNN)(110)を含む、請求項17に記載のシステム(100)。
【請求項23】
前記画像データのフレーム(20)に基づいて前記状態の前記強度値(120)を予測することは、
前記画像データのフレーム(20)の複数の異なる配向のそれぞれについて、前記状態の配向強度値(120O)を予測することと、
前記配向強度値(120O)のそれぞれに基づいて前記状態の前記強度値(120)を決定することと、
をさらに含む、請求項17に記載のシステム(100)。
【請求項24】
前記配向強度値(120O)のそれぞれに基づいて前記状態の前記強度値(120)を決定することは、前記配向強度値(120O)の逆分散加重平均を決定することを含む、請求項23に記載のシステム(100)。
【請求項25】
前記複数の異なる配向は、8つの異なる配向を含む、請求項23に記載のシステム(100)。
【請求項26】
前記ニューラルネットワーク(110)は、前記画像データのフレーム(20)の前記予測強度値(120)と前記グラウンドトゥルース強度値(122)との間の前記差を表す第1の損失関数(510)を使用して最初にトレーニングされる、請求項17に記載のシステム(100)。
【請求項27】
前記ニューラルネットワーク(110)は、前記第1の損失関数(510)を使用して最初にトレーニングされた後、
前記画像データのフレーム(20)の前記予測強度値(120)と前記グラウンドトゥルース強度値(122)との差と、
前記画像データのフレーム(20)の前記予測誤差値(130)とグラウンドトゥルース誤差値(132)との差と、
を表す第2の損失関数(530)を使用してトレーニングされる、請求項26に記載のシステム(100)。
【請求項28】
前記状態は、疾患を含む、請求項17に記載のシステム(100)。
【請求項29】
前記画像データのフレーム(20)は、患者の消化器官の内面を表す、請求項17に記載のシステム(100)。
【請求項30】
前記消化器官は、食道、胃、小腸、及び大腸を含む、請求項29に記載のシステム(100)。
【請求項31】
前記画像データのフレーム(20)は、医用画像データのフレーム(20)を含む、請求項17に記載のシステム(100)。
【請求項32】
システム(100)であって、
データ処理ハードウェア(12)と、
データ処理ハードウェア(12)と通信するメモリハードウェア(14)であって、前記データ処理ハードウェア(12)上で実行されると、前記データ処理ハードウェア(12)に、
関心領域を表す画像データのフレーム(20)を受信することと、
前記画像データのフレーム(20)を、ニューラルネットワーク(110)を用いて処理することと、
前記ニューラルネットワーク(110)によって、前記画像データのフレーム(20)に基づいて前記関心領域をセグメント化することと、
前記ニューラルネットワーク(110)によって、前記セグメント化された関心領域の誤差値(130)を予測することであって、前記予測された誤差値(130)は、前記画像データのフレーム(20)の前記セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す前記予測することと、
を含む動作を実行させる命令を記憶する、前記メモリハードウェア(14)と、
を含む、前記システム(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、誤差予測を使用して画像の一部またはすべてをスコアリングすることに関する。
【背景技術】
【0002】
機械学習(例えば、ニューラルネットワーク)の出現により、手動評価の代わりに、または手動評価と並行して、機械が画像データのフレームを評価できるようになった。通常、これらのアルゴリズムは、画像データの入力フレームを受信し、フレームを処理し、予測を出力する。いくつかの例では、予測は、フレームの態様または特徴を表すスコアである。他の例では、予測は、画像データのフレームの関心領域のセグメント化である。いずれにしても、機械学習により、大量の画像データを迅速に処理することができる。これらの技術は、幅広い技術に適用可能である。一例では、アルゴリズムは、医療処置(例えば、内視鏡、X線など)中に取得された画像データを分析するために使用される。具体的には、機械学習を使用して、医療処置(例えば、消化器官などの内臓の医療処置)中に取得された画像データのフレームで表される状態の強度を予測することができる。
【発明の概要】
【課題を解決するための手段】
【0003】
本発明の一態様は、誤差予測を使用した画像スコアリング方法を提供する。本方法は、データ処理ハードウェアにおいて、状態の強度を表す画像データのフレームを受信することを含む。本方法は、データ処理ハードウェアによって、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値を予測することをさらに含む。本方法は、ニューラルネットワークによって、予測強度値の誤差値を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差を表す。
【0004】
本開示の実施態様は、以下の任意の特徴の1つまたは複数を含んでもよい。いくつかの実施態様では、本方法は、データ処理ハードウェアによって、画像データの一連のフレームを含むビデオデータを受信することをさらに含み、各フレームは、前記状態の前記強度を表す。本方法は、データ処理ハードウェアによって、画像データの一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することをさらに含む。
【0005】
いくつかの例では、一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することは、予測強度値の少なくとも一部に曲線を適合させることを含む。任意選択的に、本方法は、データ処理ハードウェアによって、フレームの対応する予測誤差値に基づいて、画像データの一連のフレームにおける各フレームのフレーム情報性を決定することをさらに含む。フレーム情報性は、対応するフレームの強度値を決定することの難しさを表す。本方法は、データ処理ハードウェアによって、フレーム情報性に基づいて画像データの一連のフレームのフレームのサブセットを選択し、データ処理ハードウェアによって、選択されたサブセットを手動評価のために提供することをさらに含む。
【0006】
いくつかの実施態様では、フレームのサブセットを選択することは、フレーム情報性が最も高いフレームを選択することを含む。ニューラルネットワークは、回帰畳み込みニューラルネットワーク(CNN)を含んでもよい。画像データのフレームに基づいて状態の強度値を予測することは、画像データのフレームの複数の異なる配向のそれぞれについて、状態の配向強度値を予測し、配向強度値のそれぞれに基づいて状態の強度値を決定することを含んでもよい。
【0007】
いくつかの例では、配向強度値のそれぞれに基づいて状態の強度値を決定することは、配向強度値の逆分散加重平均を決定することを含む。任意選択的に、複数の異なる配向は、8つの異なる配向を含む。いくつかの実施態様では、ニューラルネットワークは、第1の損失関数を使用して最初にトレーニングされる。第1の損失関数は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差とを表す。ニューラルネットワークは、第1の損失関数を使用して最初にトレーニングされた後、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差と、画像データのフレームの予測誤差値とグラウンドトゥルース誤差値との差とを表す第2の損失関数を使用してトレーニングされる。
【0008】
いくつかの実施態様では、状態は疾患を含む。画像データのフレームは、患者の消化器官の内面を表す。消化器官は、食道、胃、小腸、及び大腸を含んでもよい。
【0009】
本開示の別の態様は、誤差予測を使用した画像スコアリング方法を提供する。本方法は、データ処理ハードウェアにおいて、関心領域を表す画像データのフレームを受信することを含む。本方法は、データ処理ハードウェアによって、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて関心領域をセグメント化することをさらに含む。本方法は、ニューラルネットワークによって、セグメント化された関心領域の誤差値を予測することをさらに含む。誤差値は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。
【0010】
本開示の別の態様は、誤差予測を使用した画像スコアリングを提供するシステムを提供する。本システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、状態の強度を表す画像データのフレームを受信することを含む。動作は、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値を予測することをさらに含む。動作は、ニューラルネットワークによって、予測強度値の誤差値を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差を表す。
【0011】
この態様は、以下の任意の特徴の1つまたは複数を含んでもよい。いくつかの実施態様では、動作は、画像データの一連のフレームを含むビデオデータを受信することをさらに含み、各フレームは、状態の強度を表す。動作は、画像データの一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することをさらに含む。
【0012】
いくつかの例では、一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することは、予測強度値の少なくとも一部に曲線を適合させることを含む。任意選択的に、動作は、フレームの対応する予測誤差値に基づいて、画像データの一連のフレームにおける各フレームのフレーム情報性を決定することをさらに含む。フレーム情報性は、対応するフレームの強度値を決定することの難しさを表す。動作は、フレーム情報性に基づいて画像データの一連のフレームのフレームのサブセットを選択し、選択されたサブセットを手動評価のために提供することをさらに含む。
【0013】
いくつかの実施態様では、フレームのサブセットを選択することは、フレーム情報性が最も高いフレームを選択することを含む。ニューラルネットワークは、回帰畳み込みニューラルネットワーク(CNN)を含んでもよい。画像データのフレームに基づいて状態の強度値を予測することは、画像データのフレームの複数の異なる配向のそれぞれについて、状態の配向強度値を予測し、配向強度値のそれぞれに基づいて状態の強度値を決定することを含んでもよい。
【0014】
いくつかの例では、配向強度値のそれぞれに基づいて状態の強度値を決定することは、配向強度値の逆分散加重平均を決定することを含む。任意選択的に、複数の異なる配向は、8つの異なる配向を含む。いくつかの実施態様では、ニューラルネットワークは、第1の損失関数を使用して最初にトレーニングされる。第1の損失関数は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差とを表す。ニューラルネットワークは、第1の損失関数を使用して最初にトレーニングされた後、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差と、画像データのフレームの予測誤差値とグラウンドトゥルース誤差値との差とを表す第2の損失関数を使用してトレーニングされる。
【0015】
いくつかの実施態様では、状態は疾患を含む。画像データのフレームは、患者の消化器官の内面を表す。消化器官は、食道、胃、小腸、及び大腸を含んでもよい。
【0016】
本開示の別の態様は、誤差予測を使用した画像スコアリングを提供するための別のシステムを提供する。本システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、関心領域を表す画像データのフレームを受信することを含む。動作は、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて関心領域をセグメント化することをさらに含む。動作は、ニューラルネットワークによって、セグメント化された関心領域の誤差値を予測することをさらに含む。誤差値は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。
【0017】
本開示の1つまたは複数の実施態様の詳細は、添付の図面及び以下の説明において述べられる。他の態様、特徴、及び利点は、説明および図面、ならびに請求項から明らかになる。
【図面の簡単な説明】
【0018】
【
図1】誤差予測を使用して画像をスコアリングするための例示的なシステムの概略図である。
【
図2】
図1の例示的なシステムの強度決定器の概略図である。
【
図3】
図1の例示的なシステムの情報性キュレータの概略図である。
【
図4】
図1の例示的なシステムのフレームオリエンタの概略図である。
【
図5】
図1の例示的なシステムの損失率関数の概略図である。
【
図6】画像スコアリングユーザ誤差予測を行う方法の動作の配置例のフローチャートである。
【
図7】誤差予測を使用して画像スコアリングを行う方法の動作の別の例示的な構成のフローチャートである。
【
図8】本明細書で説明するシステム及び方法を実装するために使用できるコンピューティングデバイスの例の概略図である。
【0019】
種々の図面における同様の参照記号は、同様の要素を指す。
【発明を実施するための形態】
【0020】
画像データのフレームを分析する(たとえば、状態の強度を評価する)ことは、従来、時間のかかる作業である。ただし、機械学習の進歩により、画像データの分析に必要な労力を大幅に削減する機会が提供される。通常、従来の機械学習アルゴリズムは、画像データの1つまたは複数のフレームに基づいて値(または関心領域のセグメンテーション)を予測するようにトレーニングされる。適切にトレーニングされたモデルは、トレーニングを受けた人間の評価者の精度に近づくか、それを超えることさえある。
【0021】
医療分野では、大量の画像データを正確に解析する必要がある。たとえば、一般的な医療処置では、体内の臓器やその他の構造の画像データ(ビデオデータなど)を取得する。この画像データを評価して、状態の強度を決定してもよい。例えば、トレーニングを受けた評価者は、消化器官の画像データを評価して、セリアック病、クローン病などの疾患の程度を判定する場合がある。ただし、表現される可能性のある症状の範囲が広く、画像データの品質が様々であるため、トレーニングを受けた専門家や機械学習アルゴリズムにとっても、状態を正確かつ一貫して評価することは困難である。ただし、画像データの正確な評価は、患者ケアを改善するために非常に重要である。
【0022】
本明細書における実施態様は、画像データのフレームを評価し、画像データのフレームに基づいて少なくとも1つの値の予測と、予測値の誤差の予測を行う誤差予測モデルを含む画像スコアリングシステムを対象とする。予測誤差は、画像データのフレームに関連付けられた予測値とグラウンドトゥルース値との差を表す。つまり、誤差予測モデルは、それ自体の予測の誤差を予測する。このシステムは、予測値及び/または予測誤差を使用して、例えば、状態の強度及び決定の確実性を決定し、及び/またはさらなる評価のために画像データのフレームのセットをキュレートすることができる。
【0023】
図1を参照すると、いくつかの実施態様では、例示的なシステム100はコンピューティングデバイス10を含む。コンピューティングデバイス10は、デスクトップワークステーション、ラップトップワークステーション、またはモバイルデバイス(すなわち、スマートフォン)などの任意のデバイスに対応することができる。コンピューティングデバイス10は、コンピューティングリソース12(例えば、データ処理ハードウェア)及び/またはストレージリソース14(例えば、メモリハードウェア)を含む。コンピューティングデバイス10は、拡張性/柔軟性のあるコンピューティングリソース及び/またはストレージリソースを有する単一のコンピュータ、複数のコンピュータ、または分散システム(例えば、クラウド環境)であってもよい。コンピューティングデバイス10は、画像データのフレーム20を受信または取得するように構成される。フレームには、任意の種類または量の画像データをカプセル化するための任意の構造が含まれる。画像データのフレーム20は、いくつかの例では、状態の強度を表す。例えば、画像データのフレーム20は、患者の消化器官(例えば、食道、胃、小腸、または大腸など)の内面を表し、状態は疾患である。他の例では、画像データのフレーム20は関心領域を表す。コンピューティングデバイス10は、コンピューティングデバイス10に接続された周辺装置(例えばカメラまたは記憶装置)を介して、または例えばネットワークを介して別のコンピューティングデバイスから画像データのフレーム20を受信することができる。
【0024】
いくつかの実施態様では、コンピューティングデバイス10は、画像データのフレーム20を前処理する。例えば、コンピューティングデバイス10は、画像データのフレーム20を(例えば、512×512の解像度に)クロップし、画像データのフレーム20をグレースケールに変換し(例えば、RGBカラーチャネルの幾何平均を使用して)、及び/またはフレーム20内の位置情報を符号化する。他の例では、コンピューティングデバイス10は、リモートエンティティによって既に前処理された画像データのフレーム20を受信する。
【0025】
コンピューティングデバイス10は、誤差予測モデル110を実行する。誤差予測モデル110は、いくつかの実施態様では、1つまたは複数の層を有するニューラルネットワークである。例えば、誤差予測モデル110は、回帰畳み込みニューラルネットワーク(CNN)であるが、他のタイプのニューラルネットワークも使用することができる。誤差予測モデル110は、推論中に画像データのフレーム20を受信し、いくつかの例では、画像データのフレーム20で表される状態の強度値120を予測し、予測強度値120の誤差値130を予測する。予測誤差値130は、予測強度値と画像データのフレーム20のグラウンドトゥルース強度値122(
図5)との間の差(すなわち、理想的な結果)を表す。
【0026】
誤差値130は、予測強度値120における誤差予測モデル110の確実性または信頼度を示してもよい。例えば、誤差値130が小さい(すなわち、誤差予測モデル110が、予測強度値120とグラウンドトゥルース強度値122との間の小さな差を予測する)ことは、予測強度値120の信頼度が高いことを示す。一方、より大きな誤差値130(すなわち、誤差予測モデル110は、予測強度値120とグラウンドトゥルース強度値122との間の大きな差を予測する)は、予測強度値120の信頼度が低いことを示してもよい。
【0027】
図示の例では、誤差予測モデル110は、状態の強度を示す画像データのフレーム20を受信し、強度値120と画像データのフレーム20に関連付けられた誤差値130の両方を予測するが、この例は、誤差予測モデル110を限定することを意図したものではない。すなわち、誤差予測モデル110は、任意の種類のデータを受信し、受信したデータ及び予測の予測誤差値に関する任意の予測を行うようにトレーニングされてもよい。例えば、誤差予測モデル110は、関心領域を表す画像データのフレームを受信することができる。誤差予測モデル110は、画像データのフレームに基づいて関心領域をセグメント化する(すなわち、関心領域の位置及び境界を決定する)ことができる。誤差予測モデル110はまた、セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す、セグメント化された関心領域の誤差値を予測することができる。繰り返すが、誤差値は、入力データの詳細に関係なく、予測値の信頼度または確実性を示す。
【0028】
引き続き
図1を参照すると、いくつかの実施態様では、誤差予測モデル110は、画像データ152のトレーニングフレームのコーパスから生成されたトレーニングデータ150でトレーニングされ、画像データ152の各トレーニングフレームは、状態の強度を表す。画像データ152のトレーニングフレームのコーパスには、注釈を付けることができる(すなわち、画像データのそれぞれのフレームに関連付けられるグラウンドトゥルース強度値を示す)。誤差予測モデル110は、トレーニング中に、トレーニングデータ150を受信し、予測強度値120及び誤差値130を生成する。予測値120、130及び実際のグラウンドトゥルース値122、132(注釈付き画像152から)は、誤差予測モデル110に関連付けられる1つまたは複数の重み(例えば逆伝播)を変更するために、1つまたは複数の損失関数(
図5)の形で誤差予測モデルに戻される。
【0029】
ここで
図2を参照すると、いくつかの実施態様では、コンピューティングデバイス10は、誤差予測モデル110を含む強度決定器200を実行する。強度決定器200は、画像データ20a~nの一連のフレームを含むビデオデータを受信し、各フレーム20は、状態の強度を表す。強度決定器200は、画像データのフレーム20を誤差予測モデル110に一度に1つずつ提供し、各フレーム20の関連付けられる予測強度値120及び誤差値130を記録または記憶する。強度決定器200は、画像データの一連のフレーム20の各フレームの予測強度値120及び/または予測誤差値130に基づいて状態212の全体的な強度を決定する。例えば、強度決定器200は、曲線を予測強度値120の少なくとも一部に適合させる曲線適合器210を実行する。曲線適合器210は、フレーム20の加重平均を使用することができる。各予測強度値120の重みは、対応する予測誤差値130に基づくことができる。例えば、予測強度値120の信頼度が高いことを示してもよいより低い予測誤差値130は、対応する予測強度値120についてのより高い重みに関連付けることができる。同様に、予測強度値120の信頼度が低いことを示してもよいより高い予測誤差値130は、対応する予測強度値120のより低い重みに関連付けることができる。
【0030】
ここで
図3を参照すると、いくつかの例では、コンピューティングデバイスは、誤差予測モデル110を含む情報性キュレータ300を実行する。情報性キュレータ300は、画像データの一連のフレーム20(すなわち、ビデオデータ)の予測誤差値130を受信する情報性決定器310を含む。情報性決定器310は、画像データの対応するフレーム20の強度値を決定することの難しさを表す、画像データの各フレーム20について、それぞれのフレーム情報性312を決定する。強度値を決定することの難しさは、予測強度値120の誤差値130と相関する。すなわち、誤差値130が大きいほど、予測強度値120の信頼度が低いことを示し、ひいては、画像データの各フレーム20から強度値を決定する際の難しさが高いことを示してもよい。例えば、画像データのいくつかのフレーム20は、正確な評価を困難にする質の悪いものである可能性があり、フレーム情報性312は、この態様を定量化することができる。
【0031】
情報性キュレータ300はまた、フレームセレクタ320を実行してもよい。フレームセレクタ320は、情報性決定器310から受信した各フレーム20のフレーム情報性312に基づいて、画像データの一連のフレーム20から画像データ20Cのフレームのサブセットを選択する。例えば、フレームセレクタ320は、フレーム情報性312が最も高いいくつかのフレーム20C(例えば、フレーム情報性312が最も高い10個のフレーム)を選択することができる。他の例では、フレームセレクタ320は、閾値情報性の値を満たす画像データ20Cのすべてのフレームを選択する。例えば、フレームセレクタ320は、閾値よりも高いフレーム情報性312を有するすべてのフレーム20を選択する。
【0032】
いくつかの例では、フレームセレクタ320は、手動評価のために選択されたフレーム20Cを提供する。これにより、情報性キュレータ300は、状態の強度を決定するのに最も簡単な(例えば、最も低い誤差値130を有する)画像データ20Cのフレームのセットをキュレートすることができる。すなわち、状態の強度は、情報性キュレータ300によって選択されなかった画像データのフレーム20よりも、キュレーションされたフレーム20Cのセットにおいてより明白である。これにより、専門家は、画像データの最も関連性の高いフレーム20のみを迅速に評価することができる。このようにして、情報性キュレータ300は、状態の強度を決定するために専門家が評価しなければならないフレーム20の量を大幅に減らすことができる。
【0033】
ここで
図4を参照すると、いくつかの例では、コンピューティングデバイス10は、誤差予測モデル110の前に画像データのフレーム20を受信するフレームオリエンタ400を実行する。フレームオリエンタ400は、誤差予測モデル110に、画像データの各フレーム20を複数の異なる配向(例えば、90度、180度、270度などで回転)で提供する。例えば、フレームオリエンタ400は、誤差予測モデル110に、画像データの各フレーム20の8つの異なる配向を提供する。誤差予測モデル110は、複数の異なる配向のそれぞれについて、配向強度値120O対応する配向誤差値130Oを予測する。コンピューティングデバイス10は、対応する配向強度値120O(及び同様に配向誤差値130O)のそれぞれに基づいて、画像データのフレーム20の全体強度値を決定することができる。例えば、コンピューティングデバイス10は、配向強度値120Oの平均または逆分散加重平均を決定する。コンピューティングデバイス10は、配向強度値120O及び配向誤差値130Oに基づいて他の計算を実行することができる。例えば、コンピューティングデバイス10は、配向強度値120O及び配向誤差値130Oの両方の標準偏差を決定することができる。標準偏差は、とりわけ、画像データのフレーム20のフレーム情報性312に影響を及ぼし得る。例えば、より低い標準偏差はより高いフレーム情報性312に関連付けられ、逆に、より高い標準偏差はより低いフレーム情報性312に関連付けられ得る。
【0034】
ここで
図5を参照すると、いくつかの例では、誤差予測モデル110(すなわち、ニューラルネットワーク)は、強度損失関数510と誤差損失関数520との組み合わせである組合損失関数530でトレーニングされる。強度損失関数510は、対応するグラウンドトゥルース強度値122に対する予測強度120の損失またはコストを測定する。一般に、予測強度値120がグラウンドトゥルース強度値122に近づくほど、強度損失関数510によって決定される強度損失512は小さくなる。同様に、誤差損失関数520は、グラウンドトゥルース誤差値132に対する予測誤差値130の損失またはコストを決定する。グラウンドトゥルース誤差値132は、予測強度値120とグラウンドトゥルース強度値122との間の実際の差から決定されてもよい。誤差損失関数520は、予測誤差値130とグラウンドトゥルース誤差値132との間の差に基づいて誤差損失522を決定する。
【0035】
組合損失関数530は、強度損失512と誤差損失522の両方を受信し、組合損失532を決定することができる。組合損失532は、誤差予測モデル110を調整するために誤差予測モデル110に逆伝播されてもよい。いくつかの例では、誤差予測モデル110は、最初に、強度損失関数510及び強度損失512のみを使用して部分的にトレーニングされる。すなわち、誤差予測モデル110は、強度損失512のみを逆伝播することによって最初にトレーニングされてもよい。最初のトレーニングに続いて、誤差予測モデル110は、組合損失532を使用してトレーニングされてもよい。このようにして、誤差予測モデル110は、強度損失512によって主にトレーニングされ、次に組合損失532によって調整または調節されて精度をさらに向上させるように、2段階のトレーニングプロセスを使用してトレーニングされる。任意選択で、後続のトレーニングでは、最初に誤差予測モデル110の一部のみ(たとえば、最上位の高密度層のみ)をトレーニングし、次に誤差予測モデル110の全体をトレーニングすることができる。誤差値130の他の利点に加えて、誤差損失522を含めること(すなわち、組合損失関数530と共に)は、予測強度値120の精度を高めることができる。すなわち、誤差予測モデル110をトレーニングしてそれ自体の誤差を予測することは、グラウンドトゥルース強度値122に対して測定される予測強度値120の精度を直接的に向上させることにつながり得る。
【0036】
したがって、画像スコアリングシステムは、強度値の予測だけでなく強度値の誤差の予測も行う誤差予測モデル110を提供する。予測誤差は、システムが信頼度の低いフレームを無視し、機械と人間の両方が評価するのが難しいフレームを識別するのに役立つ信頼度の尺度として扱うことができる。ここで説明した技術は、回帰出力に効果的であり、困難かつ計算的に高価な操作を必要としない。誤差予測モデルは、システム内でのトレーニングと統合を簡素化して、エンドツーエンドでトレーニングすることができる。
【0037】
図6は、誤差予測を使用して画像スコアリングを行う方法600の動作の例示的な構成のフローチャートである。方法600は、ステップ602で、データ処理ハードウェア12において、状態の強度を表す画像データのフレーム20を受信することを含む。方法600は、ステップ604で、データ処理ハードウェア12によって、ニューラルネットワーク110を使用して、画像データのフレーム20を処理することを含む。ステップ606で、方法600は、ニューラルネットワーク110によって、画像データのフレーム20に基づいて状態の強度値120を予測することを含む。ステップ608で、方法600は、ニューラルネットワーク110によって、予測強度値120の誤差値130を予測することを含む。誤差値130は、画像データのフレームの予測強度値120とグラウンドトゥルース強度値122との差を表す。
【0038】
図7は、誤差予測を使用して画像スコアリングを行う方法700の動作の別の例示的な構成のフローチャートである。方法700は、ステップ702で、データ処理ハードウェア12において、関心領域を表す画像データのフレーム20を受信することを含む。方法700は、ステップ704で、データ処理ハードウェア12によって、ニューラルネットワーク110を使用して、画像データのフレーム20を処理することを含む。ステップ706で、方法700は、ニューラルネットワーク110によって、画像データのフレーム20に基づいて関心領域をセグメント化することを含む。ステップ708で、方法700は、ニューラルネットワーク110によって、セグメント化された関心領域の誤差値130を予測することを含む。誤差値130は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。
【0039】
図8は、本明細書で説明するシステム及び方法を実装するために使用できるコンピューティングデバイス800の例の概略図である。コンピューティングデバイス800は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなど、様々な形態でのデジタルコンピュータを表すことを意図する。ここに示されるコンポーネント、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、本書で説明及び/または請求される発明の実施態様を限定することを意味するものではない。
【0040】
コンピューティングデバイス800は、プロセッサ810、メモリ820、記憶装置830、メモリ820に接続する高速インターフェース/コントローラ840、高速拡張ポート850、及び低速バス870及び記憶装置830に接続する低速インターフェース/コントローラ860を含む。コンポーネント810、820、830、840、850、及び860のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ810は、コンピューティングデバイス800内で実行するための、メモリ820または記憶装置830に記憶された命令を含む命令を処理して、高速インターフェース840に結合されたディスプレイ880などの外部入力/出力装置上のグラフィカルユーザインターフェース(GUI)のためのグラフィック情報を表示することができる。他の実施態様では、複数のプロセッサ及び/または複数のバスを、必要に応じて、複数のメモリ及びメモリのタイプとともに使用することができる。また、複数のコンピューティングデバイス800を接続することができ、各デバイスは、必要な動作の一部(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)を提供する。
【0041】
メモリ820は、コンピューティングデバイス800内に非一時的に情報を記憶する。メモリ820は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ820は、コンピューティングデバイス800による使用のために一時的または永続的にプログラム(例えば、一連の命令)またはデータ(例えば、プログラム状態情報)を記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例には、フラッシュメモリ及び読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能なプログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)(例えば、通常、ブートプログラムなどのファームウェアに使用される)が含まれるが、これらに限定されない。揮発性メモリの例には、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、及びディスクまたはテープが含まれるが、これらに限定されない。
【0042】
記憶装置830は、コンピューティングデバイス800に大容量ストレージを提供することができる。いくつかの実施態様では、記憶装置830はコンピュータ可読媒体である。様々な異なる実施態様では、記憶装置830は、フロッピーディスク装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリまたは他の同様の固体メモリデバイス、またはストレージエリアネットワークまたはその他の構成での装置を含む装置のアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報担体に有形に具体化される。コンピュータプログラム製品は、実行されると、上記方法などの1つまたは複数の方法を実行する命令を含む。情報担体は、メモリ820、記憶装置830、またはプロセッサ810上のメモリなどのコンピュータまたは機械可読媒体である。
【0043】
高速コントローラ840は、コンピューティングデバイス800の帯域幅集約型動作を管理し、低速コントローラ860は、より低い帯域幅集約型動作を管理する。このような職務の割り当ては単なる例である。いくつかの実施態様では、高速コントローラ840は、メモリ820、ディスプレイ880(例えば、グラフィックプロセッサまたはアクセラレータを介して)に結合され、かつ様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート850に結合される。いくつかの実施態様では、低速コントローラ860は、記憶装置830及び低速拡張ポート890に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含み得る低速拡張ポート890は、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチまたはルータなどのネットワーキングデバイスなどの1つまたは複数の入/出力装置に結合されてもよい。
【0044】
コンピューティングデバイス800は、図に示されるように、多くの異なる形態で実装されてもよい。例えば、標準サーバ800aとして、またはそのようなサーバ800aのグループ内で複数回、ラップトップコンピュータ800bとして、またはラックサーバシステム800cの一部として実装することができる。
【0045】
本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子回路及び/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組み合わせで実現することができる。これらの様々な実施態様は、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置から、または少なくとも1つの出力装置に、データ及び命令を受信または送信するように結合された、特殊または汎用であり得る少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能及び/または解釈可能な1つまたは複数のコンピュータプログラムでの実施態様を含むことができる。
【0046】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれてもよい。アプリケーションの例には、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションが含まれるが、これらに限定されない。
【0047】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラム可能なプロセッサのための機械命令を含み、かつ高水準手続型及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語で実装されてもよい。本願で使用される場合、「機械可読の媒体」及び「コンピュータ可読の媒体」という用語は、機械命令及び/またはデータを、機械可読の信号として機械命令を受け取る機械可読の媒体を含むプログラム可能なプロセッサに提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置及び/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路(PLD))を指す。「機械可読の信号」という用語は、機械命令及び/またはデータをプログラム可能なプロセッサに提供するために用いられるあらゆる信号を指す。
【0048】
この明細書で説明されているプロセスと論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能なプロセッサによって実行でき、入力データを操作して出力を生成することによって機能を実行する1つまたは複数のコンピュータプログラムを実行する。プロセスと論理フローは、例えばFPGA(フィールドプログラム可能なゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実行することもできる。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、またはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、または光ディスクを含むか、それらからデータを受信または、それらにデータを転送するように動作可能に結合される。ただし、コンピュータは、そのようなデバイスを備えている必要はない。コンピュータプログラムの命令及びデータを記憶するのに適したコンピュータ可読媒体は、例えば、EPROM、EEPROM、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内部ハードディスク及び着脱可能ディスクなどの磁気ディスク、光磁気ディスク、並びにCD ROM及びDVD-ROMディスクを含む、全ての形式の不揮発性メモリを含む。プロセッサ及びメモリは、専用論理回路によって補足され得、または専用論理回路に組み込むことができる。
【0049】
ユーザとのやりとりを提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(ブラウン管)、LCD(液晶画面)モニタまたはタッチスクリーン、及びオプションで、ユーザがそれによってコンピュータへの入力を提供できるマウスやトラックボールなどのキーボードならびにポインティングデバイスを有するコンピュータ上で実装することができる。他の種類のデバイスもまた、ユーザとのやりとりを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、かつユーザからの入力は、音響、音声言語、または触覚入力であることができる。さらに、コンピュータは、ユーザが使用するデバイスとの間でドキュメントを送受信することにより、例えば、Webブラウザーから受信した要求に応じて、ユーザのクライアントデバイス上のWebブラウザーにWebページを送信することにより、ユーザと対話することができる。
【0050】
いくつかの実施態様が説明されてきた。それでも、本開示の趣旨及び範囲から逸脱することなく、多様な修正が成され得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。
【国際調査報告】