特表2023-534248 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 武田薬品工業株式会社の特許一覧

特表2023-534248誤差予測を使用した画像スコアリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-08-08

(54)【発明の名称】誤差予測を使用した画像スコアリング

(51)【国際特許分類】

G06T 7/00 20170101AFI20230801BHJP

G06V 10/82 20220101ALI20230801BHJP

G06N 3/09 20230101ALI20230801BHJP

G06N 3/0464 20230101ALI20230801BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

G06N3/09

G06N3/0464

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023502686

(86)(22)【出願日】2021-07-15

(85)【翻訳文提出日】2023-03-09

(86)【国際出願番号】 JP2021026607

(87)【国際公開番号】W WO2022014672

(87)【国際公開日】2022-01-20

(31)【優先権主張番号】63/052,293

(32)【優先日】2020-07-15

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】000002934

【氏名又は名称】武田薬品工業株式会社

(74)【代理人】

【識別番号】230104019

【弁護士】

【氏名又は名称】大野聖二

(74)【代理人】

【識別番号】100119183

【弁理士】

【氏名又は名称】松任谷優子

(74)【代理人】

【識別番号】100149076

【弁理士】

【氏名又は名称】梅田慎介

(74)【代理人】

【識別番号】100162503

【弁理士】

【氏名又は名称】今野智介

(74)【代理人】

【識別番号】100144794

【弁理士】

【氏名又は名称】大木信人

(72)【発明者】

【氏名】グリーンブラットエリオット

(72)【発明者】

【氏名】シーゲルマンジェニファー

(72)【発明者】

【氏名】ヤルディビオズレム

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA06

5L096BA13

5L096CA04

5L096DA02

5L096HA11

5L096KA04

(57)【要約】

誤差予測を使用して画像をスコアリングする方法（６００）は、状態の強度を表す画像データのフレーム（２０）を受信することを含む。本方法は、画像データのフレームを、ニューラルネットワーク（１１０）を用いて処理することをさらに含む。本方法は、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値（１２０）を予測することをさらに含む。本方法は、ニューラルネットワークによって、予測強度値の誤差値（１３０）を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値（１２２）との差を表す。
【選択図】図５

【特許請求の範囲】

【請求項1】

方法（６００）であって、
データ処理ハードウェア（１２）において、状態の強度を表す画像データのフレーム（２０）を受信することと、
前記データ処理ハードウェア（１２）によって、ニューラルネットワーク（１１０）を使用して、前記画像データのフレーム（２０）を処理することと、
前記ニューラルネットワーク（１１０）によって、前記画像データのフレーム（２０）に基づいて前記状態の強度値（１２０）を予測することと、
前記ニューラルネットワーク（１１０）によって、前記予測強度値（１２０）の誤差値（１３０）を予測することであって、前記予測誤差値（１３０）は、前記画像データのフレーム（２０）の前記予測強度値（１２０）とグラウンドトゥルース強度値（１２２）との間の差を表す前記予測することと、
を含む、前記方法。

【請求項2】

前記データ処理ハードウェア（１２）において、前記画像データの一連のフレーム（２０）を含むビデオデータを受信することであって、各フレーム（２０）は、前記状態の前記強度を表す、前記受信することと、
前記データ処理ハードウェア（１２）によって、前記画像データの一連のフレーム（２０）の各フレーム（２０）の前記予測強度値（１２０）及び前記予測誤差値（１３０）に基づいて前記状態の前記強度を決定することと、
をさらに含む、請求項１に記載の方法（６００）。

【請求項3】

前記画像データの一連のフレーム（２０）の各フレーム（２０）の前記予測強度値（１２０）及び予測誤差値（１３０）に基づいて前記状態の前記強度を決定することは、前記予測強度値（１２０）の少なくとも一部に曲線を適合させることを含む、請求項２に記載の方法（６００）。

【請求項4】

前記データ処理ハードウェア（１２）によって、前記フレーム（２０）の対応する予測誤差値（１３０）に基づいて、前記画像データの一連のフレーム（２０）における各フレーム（２０）のフレーム情報性（３１２）を決定することであって、前記フレーム情報性（３１２）は、前記画像データの対応するフレーム（２０）の前記強度値（１２０）を決定することの難しさを表す、前記決定することと、
前記データ処理ハードウェア（１２）によって、前記フレーム情報性（３１２）に基づいて前記画像データの一連のフレーム（２０）のフレーム（２０）のサブセットを選択することと、
前記データ処理ハードウェア（１２）によって、前記選択されたフレーム（２０）のサブセットを手動評価のために提供することと、
をさらに含む、請求項２に記載の方法（６００）。

【請求項5】

前記フレーム（２０）のサブセットを選択することは、最高のフレーム情報性（３１２）を有する前記画像データのフレーム（２０）を選択することを含む、請求項４に記載の方法（６００）。

【請求項6】

前記ニューラルネットワーク（１１０）は、回帰畳み込みニューラルネットワーク（ＣＮＮ）（１１０）を含む、請求項１に記載の方法（６００）。

【請求項7】

前記画像データのフレーム（２０）に基づいて前記状態の前記強度値（１２０）を予測することは、
前記画像データのフレーム（２０）の複数の異なる配向のそれぞれについて、前記状態の配向強度値（１２０Ｏ）を予測することと、
前記配向強度値（１２０Ｏ）のそれぞれに基づいて前記状態の前記強度値（１２０）を決定することと、
をさらに含む、請求項１に記載の方法（６００）。

【請求項8】

前記配向強度値（１２０Ｏ）のそれぞれに基づいて前記状態の前記強度値（１２０）を決定することは、前記配向強度値（１２０Ｏ）の逆分散加重平均を決定することを含む、請求項７に記載の方法（６００）。

【請求項9】

前記複数の異なる配向は、８つの異なる配向を含む、請求項７に記載の方法（６００）。

【請求項10】

前記ニューラルネットワーク（１１０）は、前記画像データのフレーム（２０）の前記予測強度値（１２０）と前記グラウンドトゥルース強度値（１２２）との間の前記差を表す第１の損失関数（５１０）を使用して最初にトレーニングされる、請求項１に記載の方法（６００）。

【請求項11】

前記ニューラルネットワーク（１１０）は、前記第１の損失関数（５１０）を使用して最初にトレーニングされた後、
前記画像データのフレーム（２０）の前記予測強度値（１２０）と前記グラウンドトゥルース強度値（１２２）との差と、
前記画像データのフレーム（２０）の前記予測誤差値（１３０）とグラウンドトゥルース誤差値（１３２）との差と、
を表す第２の損失関数（５３０）を使用してトレーニングされる、請求項１０に記載の方法（６００）。

【請求項12】

前記状態は、疾患を含む、請求項１に記載の方法（６００）。

【請求項13】

前記画像データのフレーム（２０）は、患者の消化器官の内面を表す、請求項１に記載の方法（６００）。

【請求項14】

前記消化器官は、食道、胃、小腸、及び大腸を含む、請求項１３に記載の方法（６００）。

【請求項15】

前記画像データのフレーム（２０）は、医用画像データのフレーム（２０）を含む、請求項１に記載の方法（６００）。

【請求項16】

方法（７００）であって、
データ処理ハードウェア（１２）において、関心領域を表す画像データのフレーム（２０）を受信することと、
前記データ処理ハードウェア（１２）によって、ニューラルネットワーク（１１０）を使用して、前記画像データのフレーム（２０）を処理することと、
前記ニューラルネットワーク（１１０）によって、前記画像データのフレーム（２０）に基づいて前記関心領域をセグメント化することと、
前記ニューラルネットワーク（１１０）によって、前記セグメント化された関心領域の誤差値（１３０）を予測することであって、前記予測された誤差値（１３０）は、前記画像データのフレーム（２０）の前記セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す、前記予測することと、
を含む、前記方法（７００）。

【請求項17】

システム（１００）であって、
データ処理ハードウェア（１２）と、
前記データ処理ハードウェア（１２）と通信するメモリハードウェア（１４）であって、前記データ処理ハードウェア（１２）で実行されると、前記データ処理ハードウェア（１２）に、
状態の強度を表す画像データのフレーム（２０）を受信することと、
前記画像データのフレーム（２０）を、ニューラルネットワーク（１１０）を用いて処理することと、
前記ニューラルネットワーク（１１０）によって、前記画像データのフレーム（２０）に基づいて前記状態の強度値（１２０）を予測することと、
前記ニューラルネットワーク（１１０）によって、前記予測強度値（１２０）の誤差値（１３０）を予測することであって、前記予測誤差値（１３０）は、前記画像データのフレーム（２０）の前記予測強度値（１２０）とグラウンドトゥルース強度値（１２２）との間の差を表す、前記予測することと、
を含む動作を実行させる命令を記憶する、前記メモリハードウェア（１４）と、
を含む、前記システム（１００）。

【請求項18】

前記画像データの一連のフレーム（２０）を含むビデオデータを受信することであって、各フレーム（２０）は、前記状態の前記強度を表す、前記受信することと、
前記画像データの一連のフレーム（２０）の各フレーム（２０）の前記予測強度値（１２０）及び前記予測誤差値（１３０）に基づいて前記状態の前記強度を決定することと、
をさらに含む、請求項１７に記載のシステム（１００）。

【請求項19】

前記画像データの一連のフレーム（２０）の各フレーム（２０）の前記予測強度値（１２０）及び予測誤差値（１３０）に基づいて前記状態の前記強度を決定することは、前記予測強度値（１２０）の少なくとも一部に曲線を適合させることを含む、請求項１８に記載のシステム（１００）。

【請求項20】

前記フレーム（２０）の対応する予測誤差値（１３０）に基づいて、前記画像データの一連のフレーム（２０）における各フレーム（２０）のフレーム情報性（３１２）を決定することであって、前記フレーム情報性（３１２）は、前記画像データの対応するフレーム（２０）の前記強度値（１２０）を決定することの難しさを表す、前記決定することと、
前記フレーム情報性（３１２）に基づいて前記画像データの一連のフレーム（２０）のフレーム（２０）のサブセットを選択することと、
前記選択されたフレームのサブセット（２０）を手動評価のために提供することと、
をさらに含む、請求項１８に記載のシステム（１００）。

【請求項21】

前記フレーム（２０）のサブセットを選択することは、最高のフレーム情報性（３１２）を有する前記画像データのフレーム（２０）を選択することを含む、請求項２０に記載のシステム（１００）。

【請求項22】

前記ニューラルネットワーク（１１０）は、回帰畳み込みニューラルネットワーク（ＣＮＮ）（１１０）を含む、請求項１７に記載のシステム（１００）。

【請求項23】

【請求項24】

前記配向強度値（１２０Ｏ）のそれぞれに基づいて前記状態の前記強度値（１２０）を決定することは、前記配向強度値（１２０Ｏ）の逆分散加重平均を決定することを含む、請求項２３に記載のシステム（１００）。

【請求項25】

前記複数の異なる配向は、８つの異なる配向を含む、請求項２３に記載のシステム（１００）。

【請求項26】

前記ニューラルネットワーク（１１０）は、前記画像データのフレーム（２０）の前記予測強度値（１２０）と前記グラウンドトゥルース強度値（１２２）との間の前記差を表す第１の損失関数（５１０）を使用して最初にトレーニングされる、請求項１７に記載のシステム（１００）。

【請求項27】

【請求項28】

前記状態は、疾患を含む、請求項１７に記載のシステム（１００）。

【請求項29】

前記画像データのフレーム（２０）は、患者の消化器官の内面を表す、請求項１７に記載のシステム（１００）。

【請求項30】

前記消化器官は、食道、胃、小腸、及び大腸を含む、請求項２９に記載のシステム（１００）。

【請求項31】

前記画像データのフレーム（２０）は、医用画像データのフレーム（２０）を含む、請求項１７に記載のシステム（１００）。

【請求項32】

システム（１００）であって、
データ処理ハードウェア（１２）と、
データ処理ハードウェア（１２）と通信するメモリハードウェア（１４）であって、前記データ処理ハードウェア（１２）上で実行されると、前記データ処理ハードウェア（１２）に、
関心領域を表す画像データのフレーム（２０）を受信することと、
前記画像データのフレーム（２０）を、ニューラルネットワーク（１１０）を用いて処理することと、
前記ニューラルネットワーク（１１０）によって、前記画像データのフレーム（２０）に基づいて前記関心領域をセグメント化することと、
前記ニューラルネットワーク（１１０）によって、前記セグメント化された関心領域の誤差値（１３０）を予測することであって、前記予測された誤差値（１３０）は、前記画像データのフレーム（２０）の前記セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す前記予測することと、
を含む動作を実行させる命令を記憶する、前記メモリハードウェア（１４）と、
を含む、前記システム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、誤差予測を使用して画像の一部またはすべてをスコアリングすることに関する。

【背景技術】

【0002】

機械学習（例えば、ニューラルネットワーク）の出現により、手動評価の代わりに、または手動評価と並行して、機械が画像データのフレームを評価できるようになった。通常、これらのアルゴリズムは、画像データの入力フレームを受信し、フレームを処理し、予測を出力する。いくつかの例では、予測は、フレームの態様または特徴を表すスコアである。他の例では、予測は、画像データのフレームの関心領域のセグメント化である。いずれにしても、機械学習により、大量の画像データを迅速に処理することができる。これらの技術は、幅広い技術に適用可能である。一例では、アルゴリズムは、医療処置（例えば、内視鏡、Ｘ線など）中に取得された画像データを分析するために使用される。具体的には、機械学習を使用して、医療処置（例えば、消化器官などの内臓の医療処置）中に取得された画像データのフレームで表される状態の強度を予測することができる。

【発明の概要】

【課題を解決するための手段】

【0003】

本発明の一態様は、誤差予測を使用した画像スコアリング方法を提供する。本方法は、データ処理ハードウェアにおいて、状態の強度を表す画像データのフレームを受信することを含む。本方法は、データ処理ハードウェアによって、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値を予測することをさらに含む。本方法は、ニューラルネットワークによって、予測強度値の誤差値を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差を表す。

【0004】

本開示の実施態様は、以下の任意の特徴の１つまたは複数を含んでもよい。いくつかの実施態様では、本方法は、データ処理ハードウェアによって、画像データの一連のフレームを含むビデオデータを受信することをさらに含み、各フレームは、前記状態の前記強度を表す。本方法は、データ処理ハードウェアによって、画像データの一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することをさらに含む。

【0005】

いくつかの例では、一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することは、予測強度値の少なくとも一部に曲線を適合させることを含む。任意選択的に、本方法は、データ処理ハードウェアによって、フレームの対応する予測誤差値に基づいて、画像データの一連のフレームにおける各フレームのフレーム情報性を決定することをさらに含む。フレーム情報性は、対応するフレームの強度値を決定することの難しさを表す。本方法は、データ処理ハードウェアによって、フレーム情報性に基づいて画像データの一連のフレームのフレームのサブセットを選択し、データ処理ハードウェアによって、選択されたサブセットを手動評価のために提供することをさらに含む。

【0006】

いくつかの実施態様では、フレームのサブセットを選択することは、フレーム情報性が最も高いフレームを選択することを含む。ニューラルネットワークは、回帰畳み込みニューラルネットワーク（ＣＮＮ）を含んでもよい。画像データのフレームに基づいて状態の強度値を予測することは、画像データのフレームの複数の異なる配向のそれぞれについて、状態の配向強度値を予測し、配向強度値のそれぞれに基づいて状態の強度値を決定することを含んでもよい。

【0007】

いくつかの例では、配向強度値のそれぞれに基づいて状態の強度値を決定することは、配向強度値の逆分散加重平均を決定することを含む。任意選択的に、複数の異なる配向は、８つの異なる配向を含む。いくつかの実施態様では、ニューラルネットワークは、第１の損失関数を使用して最初にトレーニングされる。第１の損失関数は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差とを表す。ニューラルネットワークは、第１の損失関数を使用して最初にトレーニングされた後、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差と、画像データのフレームの予測誤差値とグラウンドトゥルース誤差値との差とを表す第２の損失関数を使用してトレーニングされる。

【0008】

いくつかの実施態様では、状態は疾患を含む。画像データのフレームは、患者の消化器官の内面を表す。消化器官は、食道、胃、小腸、及び大腸を含んでもよい。

【0009】

本開示の別の態様は、誤差予測を使用した画像スコアリング方法を提供する。本方法は、データ処理ハードウェアにおいて、関心領域を表す画像データのフレームを受信することを含む。本方法は、データ処理ハードウェアによって、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて関心領域をセグメント化することをさらに含む。本方法は、ニューラルネットワークによって、セグメント化された関心領域の誤差値を予測することをさらに含む。誤差値は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。

【0010】

本開示の別の態様は、誤差予測を使用した画像スコアリングを提供するシステムを提供する。本システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、状態の強度を表す画像データのフレームを受信することを含む。動作は、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて状態の強度値を予測することをさらに含む。動作は、ニューラルネットワークによって、予測強度値の誤差値を予測することをさらに含む。誤差値は、画像データのフレームの予測強度値とグラウンドトゥルース強度値との差を表す。

【0011】

この態様は、以下の任意の特徴の１つまたは複数を含んでもよい。いくつかの実施態様では、動作は、画像データの一連のフレームを含むビデオデータを受信することをさらに含み、各フレームは、状態の強度を表す。動作は、画像データの一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することをさらに含む。

【0012】

いくつかの例では、一連のフレームの各フレームの予測強度値及び予測誤差値に基づいて状態の強度を決定することは、予測強度値の少なくとも一部に曲線を適合させることを含む。任意選択的に、動作は、フレームの対応する予測誤差値に基づいて、画像データの一連のフレームにおける各フレームのフレーム情報性を決定することをさらに含む。フレーム情報性は、対応するフレームの強度値を決定することの難しさを表す。動作は、フレーム情報性に基づいて画像データの一連のフレームのフレームのサブセットを選択し、選択されたサブセットを手動評価のために提供することをさらに含む。

【0013】

【0014】

【0015】

【0016】

本開示の別の態様は、誤差予測を使用した画像スコアリングを提供するための別のシステムを提供する。本システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、関心領域を表す画像データのフレームを受信することを含む。動作は、ニューラルネットワークを使用して、画像データのフレームを処理し、ニューラルネットワークによって、画像データのフレームに基づいて関心領域をセグメント化することをさらに含む。動作は、ニューラルネットワークによって、セグメント化された関心領域の誤差値を予測することをさらに含む。誤差値は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。

【0017】

本開示の１つまたは複数の実施態様の詳細は、添付の図面及び以下の説明において述べられる。他の態様、特徴、及び利点は、説明および図面、ならびに請求項から明らかになる。

【図面の簡単な説明】

【0018】

【図1】誤差予測を使用して画像をスコアリングするための例示的なシステムの概略図である。

【図2】図１の例示的なシステムの強度決定器の概略図である。

【図3】図１の例示的なシステムの情報性キュレータの概略図である。

【図4】図１の例示的なシステムのフレームオリエンタの概略図である。

【図5】図１の例示的なシステムの損失率関数の概略図である。

【図6】画像スコアリングユーザ誤差予測を行う方法の動作の配置例のフローチャートである。

【図7】誤差予測を使用して画像スコアリングを行う方法の動作の別の例示的な構成のフローチャートである。

【図8】本明細書で説明するシステム及び方法を実装するために使用できるコンピューティングデバイスの例の概略図である。

【0019】

種々の図面における同様の参照記号は、同様の要素を指す。

【発明を実施するための形態】

【0020】

画像データのフレームを分析する（たとえば、状態の強度を評価する）ことは、従来、時間のかかる作業である。ただし、機械学習の進歩により、画像データの分析に必要な労力を大幅に削減する機会が提供される。通常、従来の機械学習アルゴリズムは、画像データの１つまたは複数のフレームに基づいて値（または関心領域のセグメンテーション）を予測するようにトレーニングされる。適切にトレーニングされたモデルは、トレーニングを受けた人間の評価者の精度に近づくか、それを超えることさえある。

【0021】

医療分野では、大量の画像データを正確に解析する必要がある。たとえば、一般的な医療処置では、体内の臓器やその他の構造の画像データ（ビデオデータなど）を取得する。この画像データを評価して、状態の強度を決定してもよい。例えば、トレーニングを受けた評価者は、消化器官の画像データを評価して、セリアック病、クローン病などの疾患の程度を判定する場合がある。ただし、表現される可能性のある症状の範囲が広く、画像データの品質が様々であるため、トレーニングを受けた専門家や機械学習アルゴリズムにとっても、状態を正確かつ一貫して評価することは困難である。ただし、画像データの正確な評価は、患者ケアを改善するために非常に重要である。

【0022】

本明細書における実施態様は、画像データのフレームを評価し、画像データのフレームに基づいて少なくとも１つの値の予測と、予測値の誤差の予測を行う誤差予測モデルを含む画像スコアリングシステムを対象とする。予測誤差は、画像データのフレームに関連付けられた予測値とグラウンドトゥルース値との差を表す。つまり、誤差予測モデルは、それ自体の予測の誤差を予測する。このシステムは、予測値及び／または予測誤差を使用して、例えば、状態の強度及び決定の確実性を決定し、及び／またはさらなる評価のために画像データのフレームのセットをキュレートすることができる。

【0023】

図１を参照すると、いくつかの実施態様では、例示的なシステム１００はコンピューティングデバイス１０を含む。コンピューティングデバイス１０は、デスクトップワークステーション、ラップトップワークステーション、またはモバイルデバイス（すなわち、スマートフォン）などの任意のデバイスに対応することができる。コンピューティングデバイス１０は、コンピューティングリソース１２（例えば、データ処理ハードウェア）及び／またはストレージリソース１４（例えば、メモリハードウェア）を含む。コンピューティングデバイス１０は、拡張性／柔軟性のあるコンピューティングリソース及び／またはストレージリソースを有する単一のコンピュータ、複数のコンピュータ、または分散システム（例えば、クラウド環境）であってもよい。コンピューティングデバイス１０は、画像データのフレーム２０を受信または取得するように構成される。フレームには、任意の種類または量の画像データをカプセル化するための任意の構造が含まれる。画像データのフレーム２０は、いくつかの例では、状態の強度を表す。例えば、画像データのフレーム２０は、患者の消化器官（例えば、食道、胃、小腸、または大腸など）の内面を表し、状態は疾患である。他の例では、画像データのフレーム２０は関心領域を表す。コンピューティングデバイス１０は、コンピューティングデバイス１０に接続された周辺装置（例えばカメラまたは記憶装置）を介して、または例えばネットワークを介して別のコンピューティングデバイスから画像データのフレーム２０を受信することができる。

【0024】

いくつかの実施態様では、コンピューティングデバイス１０は、画像データのフレーム２０を前処理する。例えば、コンピューティングデバイス１０は、画像データのフレーム２０を（例えば、５１２×５１２の解像度に）クロップし、画像データのフレーム２０をグレースケールに変換し（例えば、ＲＧＢカラーチャネルの幾何平均を使用して）、及び／またはフレーム２０内の位置情報を符号化する。他の例では、コンピューティングデバイス１０は、リモートエンティティによって既に前処理された画像データのフレーム２０を受信する。

【0025】

コンピューティングデバイス１０は、誤差予測モデル１１０を実行する。誤差予測モデル１１０は、いくつかの実施態様では、１つまたは複数の層を有するニューラルネットワークである。例えば、誤差予測モデル１１０は、回帰畳み込みニューラルネットワーク（ＣＮＮ）であるが、他のタイプのニューラルネットワークも使用することができる。誤差予測モデル１１０は、推論中に画像データのフレーム２０を受信し、いくつかの例では、画像データのフレーム２０で表される状態の強度値１２０を予測し、予測強度値１２０の誤差値１３０を予測する。予測誤差値１３０は、予測強度値と画像データのフレーム２０のグラウンドトゥルース強度値１２２（図５）との間の差（すなわち、理想的な結果）を表す。

【0026】

誤差値１３０は、予測強度値１２０における誤差予測モデル１１０の確実性または信頼度を示してもよい。例えば、誤差値１３０が小さい（すなわち、誤差予測モデル１１０が、予測強度値１２０とグラウンドトゥルース強度値１２２との間の小さな差を予測する）ことは、予測強度値１２０の信頼度が高いことを示す。一方、より大きな誤差値１３０（すなわち、誤差予測モデル１１０は、予測強度値１２０とグラウンドトゥルース強度値１２２との間の大きな差を予測する）は、予測強度値１２０の信頼度が低いことを示してもよい。

【0027】

図示の例では、誤差予測モデル１１０は、状態の強度を示す画像データのフレーム２０を受信し、強度値１２０と画像データのフレーム２０に関連付けられた誤差値１３０の両方を予測するが、この例は、誤差予測モデル１１０を限定することを意図したものではない。すなわち、誤差予測モデル１１０は、任意の種類のデータを受信し、受信したデータ及び予測の予測誤差値に関する任意の予測を行うようにトレーニングされてもよい。例えば、誤差予測モデル１１０は、関心領域を表す画像データのフレームを受信することができる。誤差予測モデル１１０は、画像データのフレームに基づいて関心領域をセグメント化する（すなわち、関心領域の位置及び境界を決定する）ことができる。誤差予測モデル１１０はまた、セグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す、セグメント化された関心領域の誤差値を予測することができる。繰り返すが、誤差値は、入力データの詳細に関係なく、予測値の信頼度または確実性を示す。

【0028】

引き続き図１を参照すると、いくつかの実施態様では、誤差予測モデル１１０は、画像データ１５２のトレーニングフレームのコーパスから生成されたトレーニングデータ１５０でトレーニングされ、画像データ１５２の各トレーニングフレームは、状態の強度を表す。画像データ１５２のトレーニングフレームのコーパスには、注釈を付けることができる（すなわち、画像データのそれぞれのフレームに関連付けられるグラウンドトゥルース強度値を示す）。誤差予測モデル１１０は、トレーニング中に、トレーニングデータ１５０を受信し、予測強度値１２０及び誤差値１３０を生成する。予測値１２０、１３０及び実際のグラウンドトゥルース値１２２、１３２（注釈付き画像１５２から）は、誤差予測モデル１１０に関連付けられる１つまたは複数の重み（例えば逆伝播）を変更するために、１つまたは複数の損失関数（図５）の形で誤差予測モデルに戻される。

【0029】

ここで図２を参照すると、いくつかの実施態様では、コンピューティングデバイス１０は、誤差予測モデル１１０を含む強度決定器２００を実行する。強度決定器２００は、画像データ２０ａ～ｎの一連のフレームを含むビデオデータを受信し、各フレーム２０は、状態の強度を表す。強度決定器２００は、画像データのフレーム２０を誤差予測モデル１１０に一度に１つずつ提供し、各フレーム２０の関連付けられる予測強度値１２０及び誤差値１３０を記録または記憶する。強度決定器２００は、画像データの一連のフレーム２０の各フレームの予測強度値１２０及び／または予測誤差値１３０に基づいて状態２１２の全体的な強度を決定する。例えば、強度決定器２００は、曲線を予測強度値１２０の少なくとも一部に適合させる曲線適合器２１０を実行する。曲線適合器２１０は、フレーム２０の加重平均を使用することができる。各予測強度値１２０の重みは、対応する予測誤差値１３０に基づくことができる。例えば、予測強度値１２０の信頼度が高いことを示してもよいより低い予測誤差値１３０は、対応する予測強度値１２０についてのより高い重みに関連付けることができる。同様に、予測強度値１２０の信頼度が低いことを示してもよいより高い予測誤差値１３０は、対応する予測強度値１２０のより低い重みに関連付けることができる。

【0030】

ここで図３を参照すると、いくつかの例では、コンピューティングデバイスは、誤差予測モデル１１０を含む情報性キュレータ３００を実行する。情報性キュレータ３００は、画像データの一連のフレーム２０（すなわち、ビデオデータ）の予測誤差値１３０を受信する情報性決定器３１０を含む。情報性決定器３１０は、画像データの対応するフレーム２０の強度値を決定することの難しさを表す、画像データの各フレーム２０について、それぞれのフレーム情報性３１２を決定する。強度値を決定することの難しさは、予測強度値１２０の誤差値１３０と相関する。すなわち、誤差値１３０が大きいほど、予測強度値１２０の信頼度が低いことを示し、ひいては、画像データの各フレーム２０から強度値を決定する際の難しさが高いことを示してもよい。例えば、画像データのいくつかのフレーム２０は、正確な評価を困難にする質の悪いものである可能性があり、フレーム情報性３１２は、この態様を定量化することができる。

【0031】

情報性キュレータ３００はまた、フレームセレクタ３２０を実行してもよい。フレームセレクタ３２０は、情報性決定器３１０から受信した各フレーム２０のフレーム情報性３１２に基づいて、画像データの一連のフレーム２０から画像データ２０Ｃのフレームのサブセットを選択する。例えば、フレームセレクタ３２０は、フレーム情報性３１２が最も高いいくつかのフレーム２０Ｃ（例えば、フレーム情報性３１２が最も高い１０個のフレーム）を選択することができる。他の例では、フレームセレクタ３２０は、閾値情報性の値を満たす画像データ２０Ｃのすべてのフレームを選択する。例えば、フレームセレクタ３２０は、閾値よりも高いフレーム情報性３１２を有するすべてのフレーム２０を選択する。

【0032】

いくつかの例では、フレームセレクタ３２０は、手動評価のために選択されたフレーム２０Ｃを提供する。これにより、情報性キュレータ３００は、状態の強度を決定するのに最も簡単な（例えば、最も低い誤差値１３０を有する）画像データ２０Ｃのフレームのセットをキュレートすることができる。すなわち、状態の強度は、情報性キュレータ３００によって選択されなかった画像データのフレーム２０よりも、キュレーションされたフレーム２０Ｃのセットにおいてより明白である。これにより、専門家は、画像データの最も関連性の高いフレーム２０のみを迅速に評価することができる。このようにして、情報性キュレータ３００は、状態の強度を決定するために専門家が評価しなければならないフレーム２０の量を大幅に減らすことができる。

【0033】

ここで図４を参照すると、いくつかの例では、コンピューティングデバイス１０は、誤差予測モデル１１０の前に画像データのフレーム２０を受信するフレームオリエンタ４００を実行する。フレームオリエンタ４００は、誤差予測モデル１１０に、画像データの各フレーム２０を複数の異なる配向（例えば、９０度、１８０度、２７０度などで回転）で提供する。例えば、フレームオリエンタ４００は、誤差予測モデル１１０に、画像データの各フレーム２０の８つの異なる配向を提供する。誤差予測モデル１１０は、複数の異なる配向のそれぞれについて、配向強度値１２０Ｏ対応する配向誤差値１３０Ｏを予測する。コンピューティングデバイス１０は、対応する配向強度値１２０Ｏ（及び同様に配向誤差値１３０Ｏ）のそれぞれに基づいて、画像データのフレーム２０の全体強度値を決定することができる。例えば、コンピューティングデバイス１０は、配向強度値１２０Ｏの平均または逆分散加重平均を決定する。コンピューティングデバイス１０は、配向強度値１２０Ｏ及び配向誤差値１３０Ｏに基づいて他の計算を実行することができる。例えば、コンピューティングデバイス１０は、配向強度値１２０Ｏ及び配向誤差値１３０Ｏの両方の標準偏差を決定することができる。標準偏差は、とりわけ、画像データのフレーム２０のフレーム情報性３１２に影響を及ぼし得る。例えば、より低い標準偏差はより高いフレーム情報性３１２に関連付けられ、逆に、より高い標準偏差はより低いフレーム情報性３１２に関連付けられ得る。

【0034】

ここで図５を参照すると、いくつかの例では、誤差予測モデル１１０（すなわち、ニューラルネットワーク）は、強度損失関数５１０と誤差損失関数５２０との組み合わせである組合損失関数５３０でトレーニングされる。強度損失関数５１０は、対応するグラウンドトゥルース強度値１２２に対する予測強度１２０の損失またはコストを測定する。一般に、予測強度値１２０がグラウンドトゥルース強度値１２２に近づくほど、強度損失関数５１０によって決定される強度損失５１２は小さくなる。同様に、誤差損失関数５２０は、グラウンドトゥルース誤差値１３２に対する予測誤差値１３０の損失またはコストを決定する。グラウンドトゥルース誤差値１３２は、予測強度値１２０とグラウンドトゥルース強度値１２２との間の実際の差から決定されてもよい。誤差損失関数５２０は、予測誤差値１３０とグラウンドトゥルース誤差値１３２との間の差に基づいて誤差損失５２２を決定する。

【0035】

組合損失関数５３０は、強度損失５１２と誤差損失５２２の両方を受信し、組合損失５３２を決定することができる。組合損失５３２は、誤差予測モデル１１０を調整するために誤差予測モデル１１０に逆伝播されてもよい。いくつかの例では、誤差予測モデル１１０は、最初に、強度損失関数５１０及び強度損失５１２のみを使用して部分的にトレーニングされる。すなわち、誤差予測モデル１１０は、強度損失５１２のみを逆伝播することによって最初にトレーニングされてもよい。最初のトレーニングに続いて、誤差予測モデル１１０は、組合損失５３２を使用してトレーニングされてもよい。このようにして、誤差予測モデル１１０は、強度損失５１２によって主にトレーニングされ、次に組合損失５３２によって調整または調節されて精度をさらに向上させるように、２段階のトレーニングプロセスを使用してトレーニングされる。任意選択で、後続のトレーニングでは、最初に誤差予測モデル１１０の一部のみ（たとえば、最上位の高密度層のみ）をトレーニングし、次に誤差予測モデル１１０の全体をトレーニングすることができる。誤差値１３０の他の利点に加えて、誤差損失５２２を含めること（すなわち、組合損失関数５３０と共に）は、予測強度値１２０の精度を高めることができる。すなわち、誤差予測モデル１１０をトレーニングしてそれ自体の誤差を予測することは、グラウンドトゥルース強度値１２２に対して測定される予測強度値１２０の精度を直接的に向上させることにつながり得る。

【0036】

したがって、画像スコアリングシステムは、強度値の予測だけでなく強度値の誤差の予測も行う誤差予測モデル１１０を提供する。予測誤差は、システムが信頼度の低いフレームを無視し、機械と人間の両方が評価するのが難しいフレームを識別するのに役立つ信頼度の尺度として扱うことができる。ここで説明した技術は、回帰出力に効果的であり、困難かつ計算的に高価な操作を必要としない。誤差予測モデルは、システム内でのトレーニングと統合を簡素化して、エンドツーエンドでトレーニングすることができる。

【0037】

図６は、誤差予測を使用して画像スコアリングを行う方法６００の動作の例示的な構成のフローチャートである。方法６００は、ステップ６０２で、データ処理ハードウェア１２において、状態の強度を表す画像データのフレーム２０を受信することを含む。方法６００は、ステップ６０４で、データ処理ハードウェア１２によって、ニューラルネットワーク１１０を使用して、画像データのフレーム２０を処理することを含む。ステップ６０６で、方法６００は、ニューラルネットワーク１１０によって、画像データのフレーム２０に基づいて状態の強度値１２０を予測することを含む。ステップ６０８で、方法６００は、ニューラルネットワーク１１０によって、予測強度値１２０の誤差値１３０を予測することを含む。誤差値１３０は、画像データのフレームの予測強度値１２０とグラウンドトゥルース強度値１２２との差を表す。

【0038】

図７は、誤差予測を使用して画像スコアリングを行う方法７００の動作の別の例示的な構成のフローチャートである。方法７００は、ステップ７０２で、データ処理ハードウェア１２において、関心領域を表す画像データのフレーム２０を受信することを含む。方法７００は、ステップ７０４で、データ処理ハードウェア１２によって、ニューラルネットワーク１１０を使用して、画像データのフレーム２０を処理することを含む。ステップ７０６で、方法７００は、ニューラルネットワーク１１０によって、画像データのフレーム２０に基づいて関心領域をセグメント化することを含む。ステップ７０８で、方法７００は、ニューラルネットワーク１１０によって、セグメント化された関心領域の誤差値１３０を予測することを含む。誤差値１３０は、画像データのフレームのセグメント化された関心領域とグラウンドトゥルース関心領域との間の差を表す。

【0039】

図８は、本明細書で説明するシステム及び方法を実装するために使用できるコンピューティングデバイス８００の例の概略図である。コンピューティングデバイス８００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなど、様々な形態でのデジタルコンピュータを表すことを意図する。ここに示されるコンポーネント、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、本書で説明及び／または請求される発明の実施態様を限定することを意味するものではない。

【0040】

コンピューティングデバイス８００は、プロセッサ８１０、メモリ８２０、記憶装置８３０、メモリ８２０に接続する高速インターフェース／コントローラ８４０、高速拡張ポート８５０、及び低速バス８７０及び記憶装置８３０に接続する低速インターフェース／コントローラ８６０を含む。コンポーネント８１０、８２０、８３０、８４０、８５０、及び８６０のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ８１０は、コンピューティングデバイス８００内で実行するための、メモリ８２０または記憶装置８３０に記憶された命令を含む命令を処理して、高速インターフェース８４０に結合されたディスプレイ８８０などの外部入力／出力装置上のグラフィカルユーザインターフェース（ＧＵＩ）のためのグラフィック情報を表示することができる。他の実施態様では、複数のプロセッサ及び／または複数のバスを、必要に応じて、複数のメモリ及びメモリのタイプとともに使用することができる。また、複数のコンピューティングデバイス８００を接続することができ、各デバイスは、必要な動作の一部（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）を提供する。

【0041】

メモリ８２０は、コンピューティングデバイス８００内に非一時的に情報を記憶する。メモリ８２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ８２０は、コンピューティングデバイス８００による使用のために一時的または永続的にプログラム（例えば、一連の命令）またはデータ（例えば、プログラム状態情報）を記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例には、フラッシュメモリ及び読み取り専用メモリ（ＲＯＭ）／プログラム可能な読み取り専用メモリ（ＰＲＯＭ）／消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が含まれるが、これらに限定されない。揮発性メモリの例には、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスクまたはテープが含まれるが、これらに限定されない。

【0042】

記憶装置８３０は、コンピューティングデバイス８００に大容量ストレージを提供することができる。いくつかの実施態様では、記憶装置８３０はコンピュータ可読媒体である。様々な異なる実施態様では、記憶装置８３０は、フロッピーディスク装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリまたは他の同様の固体メモリデバイス、またはストレージエリアネットワークまたはその他の構成での装置を含む装置のアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報担体に有形に具体化される。コンピュータプログラム製品は、実行されると、上記方法などの１つまたは複数の方法を実行する命令を含む。情報担体は、メモリ８２０、記憶装置８３０、またはプロセッサ８１０上のメモリなどのコンピュータまたは機械可読媒体である。

【0043】

高速コントローラ８４０は、コンピューティングデバイス８００の帯域幅集約型動作を管理し、低速コントローラ８６０は、より低い帯域幅集約型動作を管理する。このような職務の割り当ては単なる例である。いくつかの実施態様では、高速コントローラ８４０は、メモリ８２０、ディスプレイ８８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）に結合され、かつ様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート８５０に結合される。いくつかの実施態様では、低速コントローラ８６０は、記憶装置８３０及び低速拡張ポート８９０に結合される。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、無線イーサネット）を含み得る低速拡張ポート８９０は、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチまたはルータなどのネットワーキングデバイスなどの１つまたは複数の入／出力装置に結合されてもよい。

【0044】

コンピューティングデバイス８００は、図に示されるように、多くの異なる形態で実装されてもよい。例えば、標準サーバ８００ａとして、またはそのようなサーバ８００ａのグループ内で複数回、ラップトップコンピュータ８００ｂとして、またはラックサーバシステム８００ｃの一部として実装することができる。

【0045】

本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子回路及び／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組み合わせで実現することができる。これらの様々な実施態様は、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置から、または少なくとも１つの出力装置に、データ及び命令を受信または送信するように結合された、特殊または汎用であり得る少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能及び／または解釈可能な１つまたは複数のコンピュータプログラムでの実施態様を含むことができる。

【0046】

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれてもよい。アプリケーションの例には、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションが含まれるが、これらに限定されない。

【0047】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラム可能なプロセッサのための機械命令を含み、かつ高水準手続型及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語で実装されてもよい。本願で使用される場合、「機械可読の媒体」及び「コンピュータ可読の媒体」という用語は、機械命令及び／またはデータを、機械可読の信号として機械命令を受け取る機械可読の媒体を含むプログラム可能なプロセッサに提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置及び／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路（ＰＬＤ））を指す。「機械可読の信号」という用語は、機械命令及び／またはデータをプログラム可能なプロセッサに提供するために用いられるあらゆる信号を指す。

【0048】

この明細書で説明されているプロセスと論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラム可能なプロセッサによって実行でき、入力データを操作して出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する。プロセスと論理フローは、例えばＦＰＧＡ（フィールドプログラム可能なゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用論理回路によって実行することもできる。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、またはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための１つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための１つまたは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、または光ディスクを含むか、それらからデータを受信または、それらにデータを転送するように動作可能に結合される。ただし、コンピュータは、そのようなデバイスを備えている必要はない。コンピュータプログラムの命令及びデータを記憶するのに適したコンピュータ可読媒体は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内部ハードディスク及び着脱可能ディスクなどの磁気ディスク、光磁気ディスク、並びにＣＤＲＯＭ及びＤＶＤ－ＲＯＭディスクを含む、全ての形式の不揮発性メモリを含む。プロセッサ及びメモリは、専用論理回路によって補足され得、または専用論理回路に組み込むことができる。

【0049】

ユーザとのやりとりを提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえばＣＲＴ（ブラウン管）、ＬＣＤ（液晶画面）モニタまたはタッチスクリーン、及びオプションで、ユーザがそれによってコンピュータへの入力を提供できるマウスやトラックボールなどのキーボードならびにポインティングデバイスを有するコンピュータ上で実装することができる。他の種類のデバイスもまた、ユーザとのやりとりを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、かつユーザからの入力は、音響、音声言語、または触覚入力であることができる。さらに、コンピュータは、ユーザが使用するデバイスとの間でドキュメントを送受信することにより、例えば、Ｗｅｂブラウザーから受信した要求に応じて、ユーザのクライアントデバイス上のＷｅｂブラウザーにＷｅｂページを送信することにより、ユーザと対話することができる。

【0050】

いくつかの実施態様が説明されてきた。それでも、本開示の趣旨及び範囲から逸脱することなく、多様な修正が成され得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

【図1】