特許7603995 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オックスフォード　ユニヴァーシティ　イノヴェーション　リミテッドの特許一覧

特許7603995ビデオ内視鏡検査における品質評価

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9-1
9-2
9-3
10
11-1
11-2

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-13

(45)【発行日】2024-12-23

(54)【発明の名称】ビデオ内視鏡検査における品質評価

(51)【国際特許分類】

G06T 7/00 20170101AFI20241216BHJP

A61B 1/045 20060101ALI20241216BHJP

G06T 5/00 20240101ALI20241216BHJP

【ＦＩ】

G06T7/00 Q

A61B1/045 614

A61B1/045 618

A61B1/045 615

G06T5/00 700

G06T7/00 350C

【請求項の数】 31

(21)【出願番号】P 2021559174

(86)(22)【出願日】2020-04-03

(65)【公表番号】

(43)【公表日】2022-06-14

(86)【国際出願番号】 GB2020050897

(87)【国際公開番号】W WO2020201772

(87)【国際公開日】2020-10-08

【審査請求日】2023-03-29

(31)【優先権主張番号】1904857.8

(32)【優先日】2019-04-05

(33)【優先権主張国・地域又は機関】GB

(73)【特許権者】

【識別番号】507226592

【氏名又は名称】オックスフォードユニヴァーシティイノヴェーションリミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】リッツシャー、ジェンス

(72)【発明者】

【氏名】アリ、シャリブ

(72)【発明者】

【氏名】ベイリー、アダム

(72)【発明者】

【氏名】イースト、ジェイムズエドワード

(72)【発明者】

【氏名】ブレイデン、バーバラ

(72)【発明者】

【氏名】チョウ、フェリックス

(72)【発明者】

【氏名】ルー、シン

【審査官】鈴木圭一郎

(56)【参考文献】

【文献】特開２００６－１２２５０２（ＪＰ，Ａ）

【文献】Wei Hua，外１名，Low-light Image Enhancement Based on Joint Generative Adversarial Network and Image Quality Assessment，2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI)，2018年10月13日

【文献】ABM Rezbaul Islam，外５名，Non-Informative Frame Classification in Colonoscopy Videos Using CNNs，ICBSP '18: Proceedings of the 2018 3rd International Conference on Biomedical Imaging, Signal Processing，2018年10月11日，pp. 53-60

【文献】Haiying Liu，De-blurring wireless capsule endoscopy images by total variation minimization，Proceedings of 2011 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing，IEEE，2011年10月03日，p102-106

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ａ６１Ｂ１／０４５

Ｇ０６Ｔ５／００

(57)【特許請求の範囲】

【請求項1】

内視鏡検査手順を撮像する連続したフレームを含むビデオ画像信号を分析する方法であって、
前記フレームの領域を異なるタイプの画像アーチファクトに対応する複数のクラスのうちの１つに属するものとして分類する機械学習技術を使用して前記ビデオ画像信号を分析するステップであって、前記クラスが、
前記画像の動きボケに対応する動きボケ・クラス、
前記画像の誤った露出のタイプに対応する少なくとも１つの誤った露出クラス、及び
前記フレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも１つのノイズ・アーチファクト・クラスを含む、ステップと、
分類された前記領域に基づいて前記連続したフレームの画像品質を表す少なくとも１つの品質スコアを導出するステップと、を含む方法。

【請求項2】

前記少なくとも１つの誤った露出クラスは、前記画像の露出過剰及び前記画像の露出不足にそれぞれ対応する２つの誤った露出クラスを含む、請求項１に記載の方法。

【請求項3】

前記少なくとも１つのノイズ・アーチファクト・クラスは、
気泡による前記画像のオクルージョンに対応するノイズ・アーチファクト・クラス、
鏡面反射に対応するノイズ・アーチファクト・クラス、
気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスのうちの１つ又は複数を含む、請求項１又は２に記載の方法。

【請求項4】

気泡又は鏡面反射以外の前記ノイズ・アーチファクトは、色収差又はデブリによるオクルージョンのうちの任意の１つ又は複数を含む、請求項１から３までのいずれか一項に記載の方法。

【請求項5】

前記少なくとも１つの品質スコアは、前記分類された領域の面積に基づき、前記品質スコアが、面積と共に減少する品質を表す、請求項１から４までのいずれか一項に記載の方法。

【請求項6】

前記少なくとも１つの品質スコアは、前記分類された領域の場所に基づき、前記品質スコアが、前記画像内の中心にある場所では、中心にない場所よりも低い品質を表す、請求項１から５までのいずれか一項に記載の方法。

【請求項7】

前記少なくとも１つの品質スコアは、すべてのタイプの前記分類された領域に基づいた組み合わされた品質スコアを含む、請求項１から６までのいずれか一項に記載の方法。

【請求項8】

前記組み合わされた品質スコアは、前記クラスに依存している重みによって重み付けされた各クラスの前記分類された領域の面積に基づき、前記品質スコアが、面積と共に減少する品質を表す、請求項７に記載の方法。

【請求項9】

前記組み合わされた品質スコアは、前記クラスに依存している重みによって重み付けされた各クラスの前記分類された領域の場所に基づき、前記品質スコアが、前記画像内の中心にある場所では、中心にない場所よりも低い品質を表す、請求項７又は８に記載の方法。

【請求項10】

前記重みは、前記分類された領域の数にさらに依存している、請求項８又は９に記載の方法。

【請求項11】

前記分類された領域が属する画像アーチファクトのクラスに対応する前記画像アーチファクトのタイプを減少させるように前記画像フレームを処理することによって、少なくともいくつかの画像フレームを復元するステップをさらに含む、請求項１から１０までのいずれか一項に記載の方法。

【請求項12】

復元する前記ステップは、前記対応する画像アーチファクトのタイプを減少させるようにクラスごとの別個のプロセスによって、前記画像フレームを処理することを含む、請求項１１に記載の方法。

【請求項13】

前記別個のプロセスは、前記領域が属するクラスの既定の順序で実施される、請求項１２に記載の方法。

【請求項14】

前記既定の順序は、前記動きボケ・クラス、その後に前記少なくとも１つの誤った露出クラス、その後に前記少なくとも１つのノイズ・アーチファクト・クラスを含む、請求項１３に記載の方法。

【請求項15】

前記動きボケ・クラスのためのプロセスは、前記動きボケを表す最適化カーネルを用いて前記フレームを逆畳み込みすることができるブラインド・フレーム・ボケ除去プロセスを含む、請求項１２から１４までのいずれか一項に記載の方法。

【請求項16】

前記ブラインド・フレーム・ボケ除去プロセスは、敵対的生成ネットワークを使用する、請求項１５に記載の方法。

【請求項17】

前記敵対的生成ネットワークは、事前情報を条件とし、並びに／又はｌ_２－文脈損失及び高周波文脈損失を含み得る文脈損失を埋め込む、請求項１６に記載の方法。

【請求項18】

前記少なくとも１つの誤った露出クラスのためのプロセスは、ガンマ補正プロセスを含む、請求項１２から１７までのいずれか一項に記載の方法。

【請求項19】

前記ガンマ補正プロセスは、非線形であり、及び／又は最適化ガンマ関数による補正を含む、請求項１２から１８までのいずれか一項に記載の方法。

【請求項20】

前記ガンマ補正プロセスは、敵対的生成ネットワークを使用する、請求項１９に記載の方法。

【請求項21】

前記敵対的生成ネットワークは、事前情報を条件とし、及び／又はｌ_２－文脈損失であり得る文脈損失を埋め込む、請求項２０に記載の方法。

【請求項22】

前記少なくとも１つの誤った露出クラスのためのプロセスは、色転写をさらに含む、請求項１８から２１までのいずれか一項に記載の方法。

【請求項23】

前記少なくとも１つのノイズ・アーチファクト・クラスのためのプロセスは、インペインティング・プロセスを含む、請求項１２から２２までのいずれか一項に記載の方法。

【請求項24】

前記インペインティング・プロセスは、敵対的生成ネットワークを使用する、請求項２３に記載の方法。

【請求項25】

前記敵対的生成ネットワークは、事前情報を条件とし、及び／又はｌ_１－文脈損失であり得る文脈損失を埋め込む、請求項２４に記載の方法。

【請求項26】

前記品質スコアに基づいて復元される前記画像フレームを選択するステップをさらに含む、請求項１１から２５までのいずれか一項に記載の方法。

【請求項27】

前記機械学習技術は、畳み込みニューラル・ネットワークである、請求項１から２６までのいずれか一項に記載の方法。

【請求項28】

前記畳み込みニューラル・ネットワークは、単一のステージにおいて前記領域及び前記領域の前記クラスを同時に予測するように構成され、前記単一のステージは、空間ピラミッド・プーリングを使用し得る、請求項２７に記載の方法。

【請求項29】

コンピュータ装置による実行が可能であり、実行時、請求項１から２８までのいずれか一項に記載の方法を前記コンピュータ装置に実施させるように構成される、コンピュータ・プログラム。

【請求項30】

請求項２９に記載のコンピュータ・プログラムを格納するコンピュータ可読記憶媒体。

【請求項31】

内視鏡検査手順の連続したフレームを含むビデオ画像信号を分析するための分析装置であって、
前記フレームの領域をそれぞれのタイプの画像アーチファクトに対応する複数のクラスのうちの１つに属するものとして分類する機械学習技術を使用して前記ビデオ画像信号を分析するように構成される機械学習ブロックであって、前記クラスが、
前記画像の動きボケに対応する動きボケ・クラス、
前記画像の誤った露出のタイプに対応する少なくとも１つの誤った露出クラス、及び
ノイズである画像アーチファクトのタイプに対応する少なくとも１つのノイズ・アーチファクト・クラスを含む、機械学習ブロックと、
分類された前記領域に基づいて前記連続したフレームの画像品質を表す品質スコアを導出するように構成される品質スコア・ブロックと、を備える分析装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ビデオ内視鏡検査に関する。

【背景技術】

【0002】

内視鏡検査は、診断及び低侵襲外科治療の両方に使用されるルーチン撮像技術である。元々は、食道、胃、及び結腸を撮像するために使用され、今では、ハードウェアの小型化及び撮像センサの改善が、耳、鼻、喉、心臓、尿路、関節、及び腹部の内視鏡検査を可能にしている。内視鏡検査は、任意のそのような管における疾患進行の監視、外科計画、及び外科治療の制御を提供する。内視鏡検査手順は、内視鏡によるビデオ画像信号の捕捉を伴う。ビデオ画像信号は、内視鏡手順を撮像する連続したフレームを含む。

【0003】

これらの内視鏡検査応用に共通して、様々な異なる撮像アーチファクトが、ビデオ画像を破損し、その視覚的解釈を妨げ、内視鏡検査の使用における重大な臨床的課題をもたらす。内視鏡内のカメラは、長い可撓性チューブに埋め込まれる。いかなる小さな手の動きも、記録されたビデオ内に深刻な動きアーチファクトを引き起こし得る。照明に必要とされる光は、組織及び周囲の流体と相互作用し得、非常に明るい画素エリア（鏡面性又は画素飽和のいずれかに起因して）を発生させる。異なる視野角及びオクルージョンが、露出不足に起因するコントラスト問題を結果としてもたらし得る。加えて、任意の他の複雑な現実世界の撮像応用と同様に、デブリ、液体、気泡などの視覚的クラッタが、下層組織の視覚的理解を制限し得る。

【0004】

そのようなアーチファクトは、内視鏡検査の有効性を制限する。例えば、アーチファクトは、例えば診断及び治療中、ビデオ画像を使用する医師の能力に影響を及ぼす。それは、診断の品質に直接影響を与える内視鏡医間での高オペレータ変動の理由の一部である。例として、これは、（参考文献４８及び４９）に開示されるように、初期段階に検出されている場合に限って効果的に治療することができる管腔ＧＩ癌に特に関連性がある。同様に、アーチファクトは、例えば、フォローアップ及びアーカイブのためのビデオ・モザイキング、報告のためのビデオ・フレーム検索など、ビデオ画像信号に対して実施されるいかなるコンピュータ支援の内視鏡検査法にも悪影響を及ぼす。選択されたアーチファクトの検出及び復元に対処する、ビデオ画像信号を分析する様々な方法が知られている。しかしながら、典型的には、内視鏡検査ビデオ画像は、多数のアーチファクトを含み、そのような知られている分析方法は、典型的な臨床応用において効果的であるソリューションを提供しない。

【0005】

例として、いくつかの知られている分析方法は、以下の通りである。

【0006】

（参考文献１及び２）は、ビデオ・フレーム品質評価法の研究を開示する。非常に有用なグローバル・ビデオ品質メトリックが紹介及び考察されているが、フレーム品質劣化の原因に関する情報や、劣化した領域を、フレーム復元のために特定することはできない。一般に、これらの品質スコアを利用することは、各アーチファクト・タイプの深刻度を考慮することなく、アーチファクトにより破損したフレームの除去を可能にするだけである。破損したフレームのそのような単純除去は、ビデオの情報内容量を大幅に減少させ、またそれらの全体的な時間的平滑性に影響を及ぼし得る。これの１つの悪影響は、例えば、（参考文献３）に開示されるように、連続した時間的フレームにおける少なくとも６０％重複が成功することを必要とするモザイキング法であり得る。故に、アーチファクトは、効果的且つ信頼性の高いコンピュータ支援の内視鏡検査ツールを開発することにおける主たる障害である。正確な識別、分類、及び、可能な場合、復元は、ビデオ・データのダウンストリーム分析を実施するには絶対不可欠である。

【0007】

複数のアーチファクトを検出し、適切な復元を提供することは、非常に困難である。今日まで、大半の調査グループは、例えば、（参考文献４－７）において、内視鏡撮像における特定のアーチファクトだけを研究してきた。例えば、全変動（ＴＶ：ＴｏｔａｌＶａｒｉａｔｉｏｎａｌ）手法を利用したワイヤレス・カプセル内視鏡検査画像のボケ除去が、（参考文献４）において提案された。しかしながら、ＴＶベースのボケ除去は、パラメータに影響されやすく、上手く実施するためには幾何学的特徴を必要とする。内視鏡画像は、非常にまばらな特徴を有し、幾何学的に顕著な構造体に欠ける。

【0008】

（参考文献５－８）に開示されるようなハンドクラフト特徴及び（参考文献９）に開示されるようなニューラル・ネットワークの両方が、鏡面反射を復元するために使用されてきた。これらの既存の復元技術の主な欠点は、発見的に選ばれた画像強度が、近傍（ローカル）画像画素と比較されることである。一般に、ローカル情報及びグローバル情報の両方が、リアルなフレーム復元には必要とされる。ほぼすべての方法の１つの共通した制限は、当然ながら様々な異なる効果が内視鏡検査ビデオを破損するが、それらの方法が１つの特定のアーチファクト・クラスだけに対処することである。例えば、「鏡面性」及び水「気泡」の両方が同じフレーム内に存在し得る。内視鏡医はまた、特定の病理学的特徴をより良好に強調するために、取得中に異なるモダリティ（例えば、通常明視野（ＢＦ：Ｂｒｉｇｈｔｆｉｅｌｄ）、酢酸、狭帯域光観察ＮＢＩ：Ｎａｒｒｏｗ－ＢａｎｄＩｍａｇｉｎｇ）、又は蛍光（ＦＬ：ＦｌｕｏｒｅｓｃｅｎｃｅＬｉｇｈｔ））間で動的に切り替える。最終的に、患者間変動は、同じモダリティで観察されるときでさえ著しい。既存の方法は、これらの課題のすべてに適切に対処することができない。

【0009】

１つのタイプの撮像アーチファクトに対処することに加えて、１つのみの撮像モダリティ、及び単一の患者ビデオ・シーケンスが、内視鏡検査ベースの画像分析文献の大半、例えば、（参考文献５－９）において、検討されている。

【発明の概要】

【課題を解決するための手段】

【0010】

本発明の第１の態様によると、内視鏡検査手順を撮像する連続したフレームを含むビデオ画像信号を分析する方法であって、フレームの領域を異なるタイプの画像アーチファクトに対応する複数のクラスのうちの１つに属するものとして分類する機械学習技術を使用してビデオ画像信号を分析するステップであって、上記クラスが、画像の動きボケに対応する動きボケ・クラス、画像の誤った露出のタイプに対応する少なくとも１つの誤った露出クラス、及びフレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも１つのノイズ・アーチファクト・クラスを含む、ステップと、分類された領域に基づいて連続したフレームの画像品質を表す少なくとも１つの品質スコアを導出するステップと、を含む方法が提供される。

【0011】

したがって、本方法は、第一に、６つの異なる主なアーチファクトを検出及び分類し、第二に、フレームごとの品質スコアを提供することができる完全自動のフレームワークを提供する。機械学習技術は、動きボケ、誤った露出、及び少なくとも１つのノイズ・アーチファクトの各々についてマルチクラス検出を提供し、実際に遭遇する可能性の高いすべてのタイプのアーチファクトの同時検出を提供する。パラメータ設定の手動調節、又は特定のアーチファクトにのみ好適であるハンドクラフト特徴の使用を必要とする以前の方法（例えば、上の（参考文献４～９）における）とは異なり、多患者及び多モードビデオ・フレームを利用し得る多クラス・アーチファクト検出が適用される。

【0012】

分類された領域は、連続したフレームの画像品質を表す品質スコアを導出するために使用される。そのような品質スコアは、いくつかの利点をもたらす。それが、分類された領域から導出されることから、品質スコアは、体系的に導出されたものであり、品質の高信頼尺度である。そのような手法は、誤った分類率を減少させ、検出方法を、及び、続いて適用される場合はフレーム復元方法も、より良好に一般化する。

【0013】

品質スコアは、例えば以下のように、多くの方式で使用され得る。品質スコアは、内視鏡医にリアルタイムで提供され得、これにより、内視鏡医が、例えば、撮像された管の部分の内視鏡検査を繰り返すことによって、又は内視鏡検査装置若しくは手順の設定を変更することによって、内視鏡検査手順を適合させることを可能にする。同様に、品質スコアは、それが、捕捉されているビデオ画像信号の品質に関する高信頼の情報を提供することから、内視鏡医の訓練中に使用され得る。他の状況では、品質スコアは、品質の記録としてビデオ画像信号と一緒に格納され得、これは、特定のビデオ画像信号の臨床的有用性又は内視鏡医の能力を評価するために使用され得る。このシステムはまた、内視鏡医の訓練のために使用され得る。動きボケの検出は、例えば、訓練生に、どこで速度を落とさなければならないのか、又はどこで特定の解剖学的領域を再検査しなければならないのかに関する情報を提供するために直接使用され得る。

【0014】

少なくとも１つの誤った露出クラスは、画像の露出過剰及び画像の露出不足にそれぞれ対応する２つの誤った露出クラスを含み得る。

【0015】

少なくとも１つのノイズ・アーチファクト・クラスは、気泡による画像のオクルージョンに対応するノイズ・アーチファクト・クラス、鏡面反射に対応するノイズ・アーチファクト・クラス、気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスのうちの１つ又は複数を含む。後者の場合、気泡又は鏡面反射以外のノイズ・アーチファクトは、色収差又はデブリによるオクルージョンのうちの任意の１つ又は複数を含み得る。

【0016】

有利には、品質スコアは、以下の特徴を有し得る。

【0017】

少なくとも１つの品質スコアは、分類された領域の面積に基づき得、品質スコアは、面積と共に減少する品質を表す。

【0018】

少なくとも１つの品質スコアは、分類された領域の場所に基づき得、品質スコアは、画像内の中心にある場所では、中心にない場所よりも低い品質を表す。

【0019】

少なくとも１つの品質スコアは、すべてのタイプの分類された領域に基づいた組み合わされた品質スコアを含み得る。これは必須ではなく、品質スコアは、代替的に、画像アーチファクトのタイプに対応する各クラスに関して提示され得る。しかしながら、組み合わされた品質スコアは、それが品質の全体的尺度を提供することから、特に有用である。

【0020】

そのような組み合わされた品質スコアは、クラスに依存している重みによって重み付けされた各クラスの分類された領域の面積に基づき得、品質スコアは、面積と共に減少する品質を表す。

【0021】

そのような組み合わされた品質スコアは、クラスに依存している重みによって重み付けされた各クラスの分類された領域の場所に基づき得、品質スコアは、画像内の中心にある場所では、中心にない場所よりも低い品質を表す。

【0022】

重みは、分類された領域の数にさらに依存していてもよい。

【0023】

有利には、本方法は、分類された領域が属する画像アーチファクトのクラスに対応する画像アーチファクトのタイプを減少させるように画像フレームを処理することによって、少なくともいくつかの画像フレームを復元するステップをさらに含み得る。

【0024】

復元される画像フレームは、品質スコアに基づいて選択され得る。これは、品質スコアが、アーチファクトの深刻度の尺度、及びひいては高信頼の復元が可能であるかどうかを提供することから、有利である。復元のために選択されない画像フレームは、それらが復元後でも十分な品質のものではないという前提で破棄され得る。

【0025】

復元するステップは、対応する画像アーチファクトのタイプを減少させるようにクラスごとの別個のプロセスによって、画像フレームを処理することを含み得る。

【0026】

別個のプロセスは、領域が属するクラスの既定の順序で実施され得る。単一のフレーム内に複数のアーチファクトが存在する高い可能性に起因して、これらのアーチファクトの順序付けされていない復元は、効果的ではなく、フレーム品質の著しい低下のリスクを冒し得るということが理解されている。したがって、個々のアーチファクト・タイプの性質を考慮する順次的な復元プロセスが使用される。

【0027】

注意深く選ばれた正則化を用いた敵対的生成ネットワークは、破損したフレームを復元するために最終的に使用される。

【0028】

プロセスのいずれか又はすべてが、事前情報を条件とし得る敵対的生成ネットワークを使用し得る。

【0029】

そのような敵対的生成ネットワークは、文脈損失、例えば、動きボケ・クラスのためのプロセスの場合はｌ_２－文脈損失及び高周波文脈損失、少なくとも１つの誤った露出クラスのためのプロセスの場合はｌ_２－文脈損失、又は少なくとも１つの誤った露出クラスのためのプロセスの場合はｌ_１－文脈損失を埋め込み得る。アーチファクトのタイプに依存するように正則化のタイプを選ぶことによって、復元の品質が改善される。

【0030】

既定の順序は、動きボケ・クラス、その後に少なくとも１つの誤った露出クラス、その後に少なくとも１つのノイズ・アーチファクト・クラスを含み得る。

【0031】

動きボケ・クラスのためのプロセスは、以下の特徴を有し得る。

【0032】

動きボケ・クラスのためのプロセスは、動きボケを表す最適化カーネルを用いてフレームを逆畳み込みすることができるブラインド・フレーム・ボケ除去プロセスを含み得る。

【0033】

少なくとも１つの誤った露出クラスのためのプロセスは、以下の特徴を有し得る。

【0034】

少なくとも１つの誤った露出クラスのためのプロセスは、非線形であり得、及び／又は最適化ガンマ関数による補正を含み得る、ガンマ補正プロセスを含み得る。

【0035】

少なくとも１つの誤った露出クラスのためのプロセスは、追加的に、色転写を含み得る。

【0036】

少なくとも１つのノイズ・アーチファクト・クラスのためのプロセスは、インペインティング・プロセスを含む。

【0037】

そのような注意深く選ばれたモデルは、高品質及び非常にリアルなフレーム復元の両方をもたらし得るということが実証されている。

【0038】

機械学習技術は、畳み込みニューラル・ネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であり得る。高信頼のマルチクラス検出は、内視鏡データ内に存在する交差患者（ｃｒｏｓｓｐａｔｉｅｎｔ）間及び交差モダリティにおけるマルチクラス・アーチファクト検出を効率的に一般化することができるマルチスケール及び深層畳み込みニューラル・ネットワーク・ベースの物体検出を通じて可能になる。

【0039】

ＣＮＮは、単一のステージにおいて領域及び領域のクラスを同時に予測するように構成され得る。ＣＮＮのそのような単一のステージは、空間ピラミッド・プーリングを使用し得る。

【0040】

本発明のさらなる態様によると、コンピュータ装置による実行が可能であり、実行時、請求項１から２３までのいずれか一項に記載の方法をコンピュータ装置に実施させるように構成されるコンピュータ・プログラムが提供される。コンピュータ・プログラムは、コンピュータ可読記憶媒体に格納され得る。

【0041】

本発明の依然としてさらなる態様によると、内視鏡検査手順の連続したフレームを含むビデオ画像信号を分析するための分析装置が提供され、本分析装置は、本発明の第１の態様の方法と同様の方法を実施するように構成される。

【0042】

より良好な理解を可能にするため、本発明の実施例は、添付の図面を参照して、非限定的な実例としてこれより説明されるものとする。

【図面の簡単な説明】

【0043】

【図1】内視鏡装置、及び内視鏡装置によって生成されるビデオ画像信号を分析する分析装置の概略図である。

【図2】ビデオ画像信号のフレームの４つの実例を、それらのフレーム内の分類された領域を上に重ねて示す図である。

【図3】分類された領域を上に重ねて示す、品質スコアが決定されたフレームの実例を、各フレーム内の領域の面積の円グラフと一緒に、示す図である。

【図4】分類された領域を上に重ねて示す、品質スコアが決定されたフレームの実例を、各フレーム内の領域の面積の円グラフと一緒に、示す図である。

【図5】動きボケ補正ブロックで実施されるＣＧＡＮにおいて実施されるスコアリングプロセスの概略図である。

【図6】露出補正ブロックで実施されるプロセスを、それにより処理されるフレームのいくつかの実例と一緒に示す、概略図である。

【図7】アーチファクト検出についてのクラス特有の精度再現率曲線のセットを示す図である。

【図8】異なるボケ除去方法を使用して実施される動きボケ補正の前及び後のフレームの対のセットを示す図である。

【図9】露出補正プロセスの効果を例証する、フレームのセット及び関連ＲＧＢヒストグラムを示す図である。

【図10】インペインティング・プロセスの効果を例証するフレームのセットを示す図である。

【図11】復元のために選択されたフレームを示す３つのビデオ画像信号の時間的マップ、選択された比率のグラフ、及び存在するアーチファクトの各タイプの割合の円グラフを示す図である。

【発明を実施するための形態】

【0044】

図２～図６、図８～図１０に示される元のビデオ画像はカラー画像であった。

【0045】

図１は、以下のように構成される内視鏡検査装置１及び分析装置１０を例証する。

【0046】

内視鏡装置１は、カメラ３に接続される内視鏡２を備える。内視鏡検査中、内視鏡２は、人間（又は動物）の身体の管４に挿入され、カメラ３は、内視鏡検査手順のビデオ画像を表すことを含み、複数の連続したフレームを含む、ビデオ画像信号を捕捉する。ビデオ画像信号は、内視鏡検査装置２から、分析のために分析装置１０へ供給される。内視鏡検査装置１は、概略的に示されており、一般には、任意の既知のタイプのものであってもよく、分析装置１０によって実施される分析は、内視鏡検査装置１の性質に依存していない。

【0047】

分析装置１０は、実行時、分析装置１０にビデオ画像信号を分析する方法を実施させるコンピュータ・プログラムを実行するコンピュータ装置であってもよい。図１は、その方法のステップを実施する機能ブロックを例証する。コンピュータ装置は、任意のタイプのコンピュータ装置であってもよいが、典型的には、従来構造のものである。コンピュータ・プログラムは、コンピュータ装置による実行が可能である任意の好適なプログラミング言語で記述され得る。コンピュータ・プログラムは、コンピュータ可読記憶媒体に格納され得、このコンピュータ可読記憶媒体は、任意のタイプのもの、例えば、コンピューティング・システムのドライブ内に挿入可能であり、磁気的、光学的、若しくは光磁気的に情報を格納し得る記録媒体、ハードドライブなどのコンピュータ・システムの固定記録媒体、又はコンピュータ・メモリであってもよい。

【0048】

分析装置１０の記憶装置１１は、内視鏡検査装置１から供給されるビデオ画像信号を表す入力ビデオ・データ１２を格納する。

【0049】

分析装置１０の分析装置１０は、以下の通りに分析方法を実施して、内視鏡データ内に存在する複数のアーチファクトの自動検出及び検出されたアーチファクトのその後の復元の両方のために、交差モダリティ及び患者間のビデオ画像信号を取り扱う体系的且つ一般的な手法を提供する。そのようなアーチファクトは、フレーム内に、線形、非線形、又は両方で具現化され得る。

【0050】

ＣＮＮブロック１３は、ビデオ画像信号を分析するために使用される畳み込みニューラル・ネットワーク（ＣＮＮ）を実施する。ＣＮＮは、機械学習技術の一例である。ＣＮＮは、ビデオ画像信号のフレームの領域を複数のクラスのうちの１つに属するものとして分類する。それらのクラスは、以下に説明されるように、画像アーチファクトのそれぞれのタイプに対応する。１つの実例において、画像アーチファクトの６つのタイプに対応する６つのクラスが例証される。

【0051】

コンピュータ・ビジョンにおける近年の研究は、リアルタイム応用にロバスト且つ好適である物体検出器を提供する。ここでは、ＣＮＮは、異なるアーチファクトをリアルタイムで識別するマルチスケール深層物体検出モデルを使用する。

【0052】

ＣＮＮにおいて実施される機械学習技術の一般的議論は以下の通りである。

【0053】

深層学習は、従来のハンドクラフト「スライディング・ウィンドウ式」物体分類手法（例えば、（参考文献１１）に開示されるような）を一般化する物体検出器の構築を可能にする。

【0054】

ＯｖｅｒＦｅａｔ（参考文献１２）及びＲ－ＣＮＮ（参考文献１３）を含む初期の試みは、固定数の事前生成された候補物体領域提案（参考文献１４）を使用して、関連特徴を学習し、物体を検出するための畳み込みニューラル・ネットワーク（ＣＮＮ）の能力を実証した。高速Ｒ－ＣＮＮ（参考文献１５）はまず、中間処理なしに、初期領域提案ネットワーク及び提案された領域の連続した分類をもたらす、完全に訓練可能なエンド・ツー・エンド・ネットワークを導入した。領域提案生成が、順次に境界ボックス検出の先に起こるため、このアーキテクチャは、２ステージ検出器として知られる。非常に正確ではあるが、主な欠点は、その緩徐な推論及び広範囲の訓練である。

【0055】

代替的に、ＣＮＮは、単一のステージにおいて領域及び領域のクラスを同時に予測し得る。例えば、ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ（ＹＯＬＯ、（参考文献１６））は、優れた性能及び大幅により高速な推論時間で、単一のＣＮＮ及び単一の損失関数を使用してクラス及び境界ボックス座標を同時に予測するために、高速Ｒ－ＣＮＮを単純化した。この同時検出は、１ステージ検出器として知られる。２ステージ検出器と比較して、単一ステージ検出器は、１）様々なサイズの物体の存在、及び２）より正確なポジティブ・ボックス・マイニングを要する、高い初期数のアンカー・ボックス要件に起因する、高い誤検出という主に２つの問題に苦しむ。前者は、特徴ピラミッド（参考文献１７－１８）を使用して複数のスケールで境界ボックスを予測することによって補正される。後者を解決するために、ＲｅｔｉｎａＮｅｔ（参考文献１９）は、難しい誤分類された試料により焦点を合わせるために伝搬損失を調節する新たなフォーカル損失を導入した。近年、ＹＯＬＯｖ３（参考文献２０）は、さらなる速度改善を伴ったＲｅｔｉｎａＮｅｔアーキテクチャを単純化した。境界ボックスは、ＲｅｔｉｎａＮｅｔにおけるフォーカル損失とは違って複数のクラスに属する物体の検出を可能にするために、物体らしさ（Ｏｂｊｅｃｔｎｅｓｓ）スコア及び独立ロジスティック回帰を利用して単に３つの異なるスケールで予測される（ＲｅｔｉｎａＮｅｔにおける５つとは違って）。まとめると、高速Ｒ－ＣＮＮ、ＲｅｔｉｎａＮｅｔ、及びＹＯＬＯｖ３が、一般に普及した自然画像ベンチマークＣＯＣＯデータセット（参考文献２１）に対する正確性対速度の現在の先行技術の検出エンベロープを規定する。

【0056】

これらの利点に起因して、ＣＮＮブロック１３において実装されるＣＮＮは、有利には、上に説明される技術のいずれかを含む、単一のステージにおいて領域及び領域のクラスを同時に予測するタイプのものであるが、好ましくは、空間ピラミッド・プーリングが、大小両方のサイズのアーチファクトを捕捉するための単一のステージを可能にするために使用される。これは、実用価値のあるものであるリアルタイム・アーチファクト検出を可能にし、例えば、データ取得中に内視鏡医にフィードバックを提供するために検出結果が使用されることを可能にする。

【0057】

検出される異なるタイプの画像アーチファクトに対応するクラスは、以下の通りである。クラスは、３つのグループ、すなわち、
１．画像の動きボケに対応する動きボケ・クラス、
２．フレームの誤った露出のタイプに対応する少なくとも１つの誤った露出クラス、及び
３．フレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも１つのノイズ・アーチファクト・クラス
に分けられ得る。

【0058】

これより、今度はこれらについて検討する。

【0059】

動きボケ・クラスは、画像の動きボケ、すなわち、撮像されている物体に対する内視鏡の運動によって生じるボケに対応する。これは、内視鏡検査においては一般的であり、ボケの最小化は、内視鏡医のスキルである。多くの場合、ボケは、画像のストリーキングとして現れる。動きボケは、撮像されている物体をゆがめることにより、画像の品質を低減させる。

【0060】

少なくとも１つの誤った露出クラスは、画像の露出過剰に対応するクラス、及び画像の露出不足に対応するクラスのうちのいずれか又は両方であり得る。内視鏡検査装置１は、典型的には、捕捉画像の明るさを配慮する画像センサの全体的な露出設定を変更することなど、一般にカメラについて知られる様々な技術を使用して露出制御を実施し得る。しかしながら、これにもかかわらず、内視鏡ビデオ画像が露出過剰の領域及び／又は露出不足の領域を有することは依然として一般的である。露出過剰は、明るい画素の領域として観察され、以下では「飽和」とも称される。露出不足は、低コントラストの領域として観察され、以下では「低コントラスト」とも称される。これらの両方のタイプの誤った露出は、物体の特徴を判別するのを困難にすることによって、画像の品質を低減させる。

【0061】

少なくとも１つのノイズ・アーチファクト・クラスは、一般に、フレームにノイズをもたらす任意の画像アーチファクトに対応し得る。そのような画像アーチファクトは、ビデオ画像に対する付加ノイズと見なされ得るが、典型的には、カメラ３において発生する電気ノイズ又は他のノイズによってではなく、物理的障害物又は光学効果によって引き起こされる。

【0062】

少なくとも１つのノイズ・アーチファクト・クラスは、気泡による画像のオクルージョンに対応するノイズ・アーチファクト・クラスを含み得る。典型的には、内視鏡検査ビデオ画像には、下層組織の外観をゆがめる水気泡が存在する。

【0063】

少なくとも１つのノイズ・アーチファクト・クラスは、鏡面反射に対応するノイズ・アーチファクト・クラスを含み得る。典型的には、内視鏡検査ビデオ画像において、鏡のような表面反射がアーチファクトを引き起こす。これらは、本明細書内では以後「鏡面性」と称される。

【0064】

少なくとも１つのノイズ・アーチファクト・クラスは、色収差又はデブリによるオクルージョンなど、気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスを含み得る。これらは、本明細書内では以後「種々の（ｍｉｓｃｅｌｌａｎｅｏｕｓ）」アーチファクトと称される。

【0065】

ＣＮＮブロック１３は、ビデオ画像信号のフレームの分類された領域を識別するアーチファクト・データ１４を出力する。各々の分類された領域に関して、アーチファクト・データ１４は、典型的には境界ボックスにより、領域自体、すなわち、領域を構成する画素、及び領域が属するクラスの両方を識別する。

【0066】

例として、図２は、ビデオ画像信号のフレームのいくつかの実例を例証し、これらのフレームの上には、実施されたＣＮＮがＹＯＬＯｖ３－ＳＰＰであった実例では、ＣＮＮブロック１３によって分類されたそれらのフレーム内の領域を識別する境界ボックス及びラベルが重ねられている。

【0067】

品質スコア・ブロック１５は、アーチファクト・データ１４によって識別される分類された領域に基づいて、連続したフレームの画像品質を表す品質スコアを導出する。品質スコア・ブロック１５は、各フレームに関する品質スコアを表す品質データ１６を出力する。

【0068】

品質スコア・ブロック１５は、以下の通りに品質スコアを導出する。

【0069】

品質評価は、画像破損が画像分析方法に大いに影響を及ぼすことから、ビデオ内視鏡検査において重要である。しかしながら、すべてのフレームが同じ割合で破損されるわけではないと思われる。フレーム内に存在するアーチファクトの量及びタイプに応じて、リアルなフレーム復元が可能であり得る。この実例では、品質スコアは、該当するフレーム内のすべてのタイプの分類された領域に基づいた組み合わされた品質スコアである。

【0070】

品質スコアＱＳは、フレームの品質を表し、ａ）クラス（すなわち、画像アーチファクトのタイプ）、ｂ）面積、及びｃ）フレーム内の各々の分類された領域内のフレーム内での場所に基づく。重みが、これらのカテゴリの各々に割り当てられ、平均重みが、品質スコアとして計算される。故に、品質スコアは、以下のように計算され得、
ＱＳ＝［１－Σ（λ_ＡＷ_ＣＷ_Ａ＋λ_ＬＷ_ＣＷ_Ｌ）］_０（１）
式中、総和は、画像内の各々の検出されたアーチファクトに関連付けられる領域のセットに及び、Ｗ_Ｃは、領域のクラスと関連付けられたクラス重みであり、Ｗ_Ａは、領域の面積と関連付けられた面積重みであり、Ｗ_Ｌは、画像の場所と関連付けられた場所重みであり、λ_Ａ、λ_Ｌは、面積及び場所の互いに対する相対的寄与を重み付けする相対的重みである。故に、品質スコアＱＳは、分類された領域の性質に応じて、１の値から減少するが、下限値はゼロである。

【0071】

クラス重みＷ_Ｃ、面積重みＷ_Ａ、及び場所重みＷ_Ｌの各々の値は、領域のクラス、面積、及び場所と関連付けられた復元の容易性及び重要性に依存する。

【0072】

クラス重みＷ_Ｃの値は、画像アーチファクトのそれぞれのタイプの復元の容易性に依存する。例えば、動きボケは、フレーム全体にわたっていても、フレームにノイズをもたらす画像アーチファクトのタイプよりも容易に復元されるため、ノイズ・アーチファクト・クラスのクラス重みは、動きボケ・クラスのクラス重みよりも高い。同様に、露出不足は、露出過剰よりも容易に復元されるため、露出過剰クラスのクラス重みは、露出不足クラスのクラス重みよりも高い。

【0073】

好適な重み付けスキームの実例として、上で論じられるクラスのクラス重みＷ_Ｃの値は、動きボケ０．０５、飽和０．１０、低コントラスト０．０５、気泡０．１０、鏡面性０．２０、及び種々のアーチファクト０．５０であり得る。

【0074】

等式（１）において、項λ_ＡＷ_ＣＷ_Ａは、品質スコアＱＳが、フレーム内の分類された領域の面積と共に減少する品質を表すようにする。

【0075】

面積重みＷ_Ａの値は、面積と関連付けられた復元の容易性に依存する。故に、面積重みＷ_Ａの値は、復元の容易性が面積と共に減少することから、面積と共に増加する。

【0076】

好適な重み付けスキームの実例として、面積重みＷ_Ａの値は、例えば、フレームの総面積の一定の割合又は比率である、領域の面積と共に線形に単純にスケーリングし得る。代替として、面積重みＷ_Ａの値は、非線形様式で領域の面積と共に増加し得る。

【0077】

等式（１）において、項λ_ＬＷ_ＣＷ_Ｌは、品質スコアＱＳが、フレーム内の分類された領域の場所に基づくようにする。

【0078】

場所重みＷ_Ｌの値は、フレーム内での領域の場所と関連付けられた復元の重要性に依存する。すなわち、復元は、視覚の一貫性のために、中心の場所にある領域ではより高い重要性のものである。したがって、場所重みＷ_Ｌは、フレームの中心への近接性に伴って増加し、それにより、フレーム内での分類された領域の面積と共に減少する品質を表し、特に、品質は、場所が中心にない場合よりも、画像内の中心にある場所で低くなる。

【0079】

好適な重み付けスキームの実例として、領域内の異なる場所についての場所重みＷ_Ｌの値は、領域の中心部０．５、領域の左部０．２５、領域の右部０．２５、領域の上部０．２５、領域の下部０．２５、領域の左上部０．１２５、領域の右上部０．１２５、領域の左下部０．１２５、及び領域の右下部０．１２５であり得る。

【0080】

単純な実例において、相対的重みλ_Ａ、λ_Ｌは、一定値、例えば、λ_Ａ＝０．５、λ_Ｌ＝０．５をとり得る。代替的に、相対的重みλ_Ａ、λ_Ｌは、分類された領域の数にさらに依存していてもよい。例えば、相対的重みλ_Ａ、λ_Ｌが一定値をとる重み付けスキームは、大面積のアーチファクトが存在する場合は特に、わずかの検出されたアーチファクト（例えば、５つ未満）を有するフレームを強調する。故に、より複雑化した重み付けスキームにおいて、こうした定数λ_Ａ、λ_Ｌは、減少した数の領域については増加し得、例えば、領域の数が５以上である場合は値λ_Ａ＝０．５、λ_Ｌ＝０．５をとり、領域の数が５未満である場合は値λ_Ａ＝１、λ_Ｌ＝１をとる。

【0081】

例として、図３及び図４は、品質スコアが、分類された領域のクラス、面積、及び場所にどのようにして依存するかを実証する２つのフレームの実例を示す。実施されたＣＮＮがＹＯＬＯｖ３－ＳＰＰであった実例において、ＣＮＮブロック１３によって分類されたそれらのフレーム内の領域を識別する境界ボックス及びラベルは、画像の上に重ねられ、異なるクラス内の領域の面積の円グラフが横に示される。

【0082】

図３の実例は、露出不足クラス（「コントラスト」とラベル付けされる）に分類される大面積の領域を有するフレームである。しかしながら、品質スコアは、中心の場所及び大面積にもかかわらず露出不足クラスのクラス重みＷ_Ｃが低いことから、０．７５という比較的高い値をとり、これは、フレーム強度が容易に復元され得ることから、適切である。

【0083】

図４の実例は、領域複数の種々のアーチファクト及び鏡面性を有するフレームを示す。品質スコアは、種々のアーチファクト及び鏡面性が、高いクラス重みＷ_Ｃを有し、また中心に位置し、これがリアルなフレーム復元を抑制することから、０．２３という比較的低い値をとる。

【0084】

故に、上の実例では、各々の品質スコアは、該当するフレーム内のすべてのタイプの分類された領域に基づいた組み合わされた品質スコアである。

【0085】

しかしながら、品質スコア・ブロック１５は、代替的又は追加的に、アーチファクトの各タイプに関する品質スコアを導出し得る。それは、内視鏡医に提供される情報を補強し、例えば、特定のタイプのアーチファクトを低減するように内視鏡検査手順が適合されることを可能にする。

【0086】

【0087】

分析装置１０の画像復元ブロック２０は、ビデオ・データ１１によって表されるビデオ画像信号に対して復元プロセスを実施する。画像復元ブロック２０は、ビデオ画像信号の多くのフレームの高品質復元を提供し、それにより、診断目的のために、全体的な品質及びビデオ画像信号の有用性を改善する。しかしながら、画像復元ブロック２０の使用は、必須ではなく、上のように導出される品質スコアは、それ自体が有用である。

【0088】

画像復元ブロック２０は、以下の機能ブロックを含む。

【0089】

選択ブロック２１は、品質スコア・データ１６によって表される品質スコアに基づいて、復元のためのビデオ画像信号のフレームを選択する。これは、フレームの破損の度合いが、復元が価値のあるものであるか、又は可能であるかの度合いに影響を及ぼすことを認識する。故に、選択ブロック２１は、例えば、以下のように閾値と比較される、品質スコアＱＳに基づいて、フレームを分類する：
ＱＳ＜０．５：破損が激しいと分類されるフレーム、
０．５≦ＯＳ≦０．９５：破損が軽いと分類されるフレーム、及び
ＱＳ＞０．９５：高品質と分類されるフレーム。

【0090】

閾値のレベルは、ユーザ指定され得る。

【0091】

破損が激しいと分類されるフレームは、選択されず、代わりに、フレームを許容レベルまで復元することができないため、復元が価値のあるものではないということに基づいて、いかなるさらなる処理もなしに破棄される。

【0092】

高品質と分類されるフレームは、復元の必要なしにすでに十分な品質のものであるため、選択されない。代替として、高品質と分類されるフレームが選択されてもよい。

【0093】

破損が軽いと分類されるフレームは、復元のために選択される。

【0094】

選択されたフレームは、拡張ブロック２２に供給される。拡張ブロック２２は、選択されたフレーム内の分類された領域を拡張して、拡張領域を提供する。動きボケ・クラスに関して、拡張領域は、フレーム全体であり得る。他のクラスに関して、拡張領域は、分類された領域から拡張されるが、分類された領域が、拡張がフレームの境界を越えて延在する十分に大きい面積である場合を除き、一般には、フレーム全体ではない。拡張ブロック２２は、拡張領域を表す拡張データ２３を出力する。拡張データ２３は、さらなる処理のために後のブロックに供給される。

【0095】

３つのさらなるブロックは、分類された領域が属する画像アーチファクトのクラスに対応する画像アーチファクトのタイプを低減するように画像フレームを処理し、復元されたビデオ画像信号を表す復元されたビデオ・データ２７を出力することによって、実際の復元プロセスを実施するために存在する。

【0096】

これらのさらなるブロックは、動きボケ・クラスに分類された領域を復元するためのプロセスを実施する動きボケ補正ブロック２４、誤った露出クラスのうちの１つに分類された領域を復元するためのプロセスを実施する露出補正ブロック２５、及びノイズ・アーチファクト・クラスのうちの１つに分類された領域を復元するためのプロセスを実施するノイズ・アーチファクト補正ブロック２６である。故に、クラスごとの別個のプロセスが、対応する画像アーチファクトのタイプを低減するためにこれらの３つのブロックにおいて実施される。単一のフレームが複数のアーチファクトによって破損され得、各アーチファクト・クラスが内視鏡フレームに異なって影響を及ぼし得るため、別個のプロセスは、実際に遭遇されるすべてのタイプの画像アーチファクトのための効果的な復元を提供することができる。

【0097】

復元プロセスは、動きボケ・クラス、その後に少なくとも１つの誤った露出クラス、その後に少なくとも１つのノイズ・アーチファクト・クラスである、領域が属するクラスの既定の順序での処理を実施することに起因して、特に効果的である。これは、以下の理由からである。

【0098】

画像復元は、リアル且つノイズ・フリーの画像画素を破損した画像画素から生成するプロセスである。内視鏡フレーム復元においては、アーチファクト・タイプに応じて、目標は、完全にノイズ・フリーの画像の生成、又は周囲画素情報を使用した望ましくない画素の画素インペインティングのいずれかである（参考文献２２）。マルチクラス内視鏡アーチファクト復元では、復元ブロックは、１）ｈ（．）が未知のとき、動きボケ補正ブロック２４においてフレーム・ボケ除去を使用し、すなわちブラインドボケ除去タスクであり、２）コントラクト不均衡の効果を最小限にし（フレーム内の露出過剰及び露出不足領域の補正、すなわち、露出補正ブロック２５におけるγ補正、並びに３）鏡面画素及び撮像アーチファクト又はデブリありの画素をインペインティングで置き換え、すなわち、ノイズ・アーチファクト補正ブロック２６における付加ノイズη（．）の補正又は組み合わされた非線形関数Ｆ（．）である。

【0099】

単一のフレーム内に複数のアーチファクトが存在する可能性が高いことに起因して、これらのアーチファクトの順序付けされていない復元は、フレーム品質をさらに壊滅させ得る。したがって、アーチファクトの個々のタイプの性質を考慮する順次的な復元プロセスが使用される。

【0100】

最適化又は推定問題として、ノイズの多い、及び破損された入力画像Ｉを得られる真の信号の再構築を定式化することは、十分に動機付けされた数学モデルを要求する。様々な異なるタイプのアーチファクトは、高品質結果を達成するために複雑なソリューションを必要とする複雑性のレベルを誘発する。画像ノイズが付加的であることを前提とし、動きボケを未知のカーネルを用いた線形畳み込みとして近似することは、理にかなっている。加えて、コントラスト及び画素飽和問題は、非線形ガンマ補正として定式化され得る。これらの現象の組み合わせたプロセスに起因する他の残っているアーチファクト（例えば、鏡面性、気泡、及び撮像アーチファクト）は、プロセス全体の関数と仮定され得る。

【0101】

ビデオ画像信号がｆ（ｔ）であるとすると、破損したノイズの多いビデオ・フレームは、したがって、以下のように近似され得、
Ｉ（ｔ）＝Ｆ［（ｈ＊ｆ（ｔ）＋η）^γ］（２）
式中、ηは、撮像システムによって誘発される付加ノイズであり、ｈでの畳み込み誘発された動きボケへの近似、γは、露出過剰及び露出不足領域を捕捉し、Ｆは、他のアーチファクト（鏡面性、気泡、及び撮像アーチファクトを含む）、又はそれらの組み合わせも同様に捕捉することをモデル化する一般非線形関数である。

【0102】

このモデルは、なぜビデオ・フレームの復元が、既定の順序で実施される別個の処理ステップへと構造化されるのかを説明する。すなわち、動きボケ、次いで誤った露出、及び次いでノイズ・アーチファクトのための補正の既定の順序は、ノイズの成分に対応する数学的演算が、等式（２）内のビデオ画像信号ｆ（ｔ）に対して操作する順序、すなわち、ｈ、次いでγ、及び次いでＦ、に対応する。復元が異なる順序で実行される場合、個々のプロセスは、互いに破損することができ、あまり効果的ではない復元、又はフレーム品質の低下さえももたらす。

【0103】

動きボケ補正ブロック２４、露出補正ブロック２５、及びノイズ・アーチファクト補正ブロック２６の各々において実施されるプロセスは、事前情報を条件とし、文脈損失を埋め込む、深層学習モデルを使用して、特に敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を使用して、実施される。

【0104】

近年、ＧＡＮ（参考文献１０）は、制限された訓練データを使用した画像から画像への翻訳問題に成功のうちに適用されている。本明細書で適用されるようなＧＡＮにおいて、生成器Ｇは、ランダムノイズ分布からサンプルＧ（ｚ）を「生成」する（ｚ～Ｎ（０，σ^２Ｉ）を有するｐ_{ｎｏｉｓｅ}（ｚ））一方、別個の識別器ネットワークは、現実の標的画像（ｘ～非ゼロ平均ガウスを仮定したｐ_ｄａｔａ（ｘ））と生成器によって生成された偽画像とを区別しようとする。したがって、目的関数Ｖは、この場合、最小－最大問題である。
ｍｉｎＧｍａｘＤＶ（Ｄ，Ｇ）＝Ｅ_{ｘ～ｐｄａｔａ}（ｘ）［ｌｏｇＤ（ｘ）］＋Ｅ_{ｚ～ｐｎｏｉｓｅ}（ｚ）［ｌｏｇ（１－Ｄ（Ｇ（ｚ）））］（３）

【0105】

実際には、等式（３）における生成器モデルは、サンプルがランダム入力ノイズから生成されることから、かなり非凸状であり、不安定であり、訓練が遅い。様々なグループ（参考文献２３～２６）が、この問題を解決するための方式を提供しており、再構築品質及び数値安定性の改善、並びに計算時間の低減を達成している。

【0106】

したがって、本明細書において適用される生成器出力の安定性を確実にするための１つの一般に普及した方式は、事前情報をＧＡＮの必要条件とすることである（例えば、ＣＧＡＮにおけるクラスラベル「ｙ」（参考文献２３））。ＣＧＡＮのための目的関数Ｖｃｏｎｄは、以下のように記述され得る。
ｍｉｎＧｍａｘＤＶ_ｃｏｎｄ（Ｄ，Ｇ）＝Ｅ_{ｘ，ｙ～ｐｄａｔａ}（ｘ，ｙ）［ｌｏｇＤ（ｘ｜ｙ）］＋Ｅ_ｙ～ｐｙ，ｚ～_ｐｚ［ｌｏｇ（１－Ｄ（Ｇ（ｚ｜ｙ），ｙ））］（４）

【0107】

本明細書において適用され得る別の効率的な方法は、文脈損失を使用して生成器を正則化することである（例えば、ｐｉｘ２ｐｉｘ（参考文献２５）、ｄｅｂｌｕｒＧＡＮ（参考文献２７））。（参考文献２８）において、識別器及び生成器を正則化することは、視覚的品質を改善するのに大いに役立った。

【0108】

アーチファクト・クラス依存の文脈損失を埋め込むそのような条件付き敵対的生成モデル（参考文献２３）（ＣＧＡＮ）は、効果的な復元のために訓練される。表１は、各ブロックで適用される復元法をまとめたものであり、以下にさらに詳細に説明される。

【表1】

【0109】

動きボケ・クラス内の分類された領域に対して動きボケ補正ブロック２４で実施される復元プロセスが、これより検討されるものとする。

【0110】

動きボケは、内視鏡検査ビデオにおける共通の問題である。静止画像とは異なり、動きボケは、多くの場合、ビデオ・フレーム・データ内で未知のカーネルｈ（．）を伴って不均一である（等式（２）を参照）。いくつかのブラインド逆畳み込みが、動きボケ除去に適用されてきた。これらは、古典的な最適化法（参考文献２９～３１）からニューラル・ネットワーク・ベースの方法（参考文献３２、３３）にまで及ぶ。古典的な方法に勝る畳み込みニューラル・ネットワーク（ＣＮＮ）の優れた性能にもかかわらず、ＣＮＮの主な欠点は、それらが、大量のハイパー・パラメータ及び大きな訓練データセットを調整することを要することである。ブラインド逆畳み込みは、ボケ画像がその一致するボケなし画像へ変換される、画像から画像への翻訳問題として提起され得る。故に、動きボケ補正ブロック２４で実施されるＣＧＡＮは、動きボケを表す最適化カーネルを用いてフレームを逆畳み込みするブラインド・フレーム・ボケ除去プロセスを使用する。

【0111】

ＣＧＡＮは、正則化としてｌ_２－文脈損失（生成された画像と標的／鮮明画像との間の差を２乗）及び追加のｌ_２高周波損失を伴って適用される。これは、動きボケが主に、画像エッジ、画像全体と比較して少しの特徴的な画像画素、に影響を及ぼすということによって動機付けされる。高周波画像はまず、４つの異なるスケールにおいて反復的な低域－広域フィルタリングを使用して訓練データ内のボケ画像及び鮮明画像の両方について計算される（参考文献３４）。これらの画像は、次いで、生成器の挙動に関して識別器に追加の情報を提供するために使用される。

【0112】

したがって、動きボケ補正ブロック２４で実施されるＣＧＡＮは、等式（４）が以下のようになるように適合することによって訓練され、
ｍｉｎＧｍａｘＤＶ’_ｃｏｎｄ（Ｄ，Ｇ）＝Ｖ_ｃｏｎｄ＋Σλ｜｜ｘ_{ｒｅａｌｉ}－Ｇ（ｚ_ｉ｜ｙ_ｉ）｜｜_ｉ（５）
式中、総和は、元画像及び高周波画像の対にわたり、λ＝５０であり、ｌ＝．であり、ｘ_ｒｅａｌは、復元のためのグラウンド・トゥルース画像（すなわち、この場合、鮮明画像）である。図５は、等式（５）の演算を図式で例証しており、文脈高周波特徴損失を例証する。

【0113】

（参考文献１０）にあるようなジェンセン・シャノン（ＪＳ：Ｊｅｎｓｅｎ－Ｓｈａｎｎｏｎ）ダイバージェンスを使用した等式（４）の最小化は、モード崩壊、消滅していく勾配のような問題をもたらし得る。結果として、（参考文献３５）は、勾配ペナルティを備えたＷａｓｓｅｒｓｔｅｉｎ距離（ＷＧＡＮ－ＧＰ）を使用することを提案した。動きボケ補正ブロック２４で実施されるＣＧＡＮは、ＷＧＡＮ－ＧＰに基づいた批評ネットワークを使用する（参考文献２７）。

【0114】

誤った露出クラスのうちの１つにおける分類された領域に対して露出補正ブロック２５で実施される復元プロセスが、これより検討されるものとする。飽和又は低コントラストの場合、光源と撮像された組織との間の小さい又は大きい距離が、大きい照明変化をもたらし得、これが飽和又は低コントラストを結果としてもたらし得る。これは、等式（２）内の変数γの役割を動機付ける。故に、露出補正ブロック２５で実施される復元プロセスは、非線形であるガンマ補正プロセスを実施する。このガンマ補正プロセスは、最適化ガンマ関数による補正を含む。

【0115】

飽和又は低コントラスト画像画素は、多くの場合、鏡面性と比較して大きな画像面積にわたって発生し、画像全体に全体的に影響を及ぼす。加えて、これらの照明変化は、通常明視野（ＢＦ）モダリティにおいて、他のモダリティと比較して、より顕著に観察される。影響を受けた画像画素の補償は、影響を受けた画像面積のサイズによっては困難な問題である。飽和復元タスクは、画像から画像への翻訳問題として提起され、露出補正ブロック２５は、飽和除去のために生成器－識別器ネットワークを訓練するためだけに、ｌ_２－文脈損失を伴って、上に説明される動きボケ除去のために使用される同じエンド・ツー・エンドＣＧＡＮ手法を適用する。ここでは、ｌ_２－文脈損失は、それが、飽和に関する通常照明条件と低コントラスト条件との間の偏差を捕捉するのに望ましいことから、より好適である。

【0116】

２つの異なる照明条件のための任意のグラウンド・トゥルース・データの欠如に起因して、露出補正ブロック２５は、乱反射（散乱光）及び周囲（画素飽和を伴う領域を付与する自然光への追加照明）照明１を含む自然風景画像、並びにｃｙｃｌｅＧＡＮベースのスタイル変換（参考文献２４）を使用してシミュレートされる内視鏡画像対（飽和画像及び通常のＢＦ画像を用いて他の画像に対して別々に訓練され得る）を含む、融合データセットで訓練され得る。

【0117】

訓練セット内の自然画像の組み込みに起因する配色シフトを補正するために、露出補正ブロック２５で実施されるプロセスは、生成されたフレームに適用される色転写（ＣＲＴ：ＣｏｌｏｒＴｒａｎｓｆｅｒ）をさらに含み得る。ソース画像Ｉｓ、及び再色付けするための標的画像Ｉｔを前提に、それぞれの画素値（ＲＧＢチャネルでの）の平均（μ_ｓ，μ_ｔ）及び共分散行列（Σ_ｓ，Σ_ｔ）は、例えば開示されるように（参考文献３６）、線形変換を通じて一致され得る。好適な線形変形は、以下によって得られ、
Ｉ’_ｔ＝Σ_ｓ ^１／２Σ_ｔ ^－１／２（Ｉ_ｔ－μ_ｔ）＋μ_ｓ（６）
式中、Ｉ’_ｔは、再色付けされた出力である。ソース内の飽和画素エリアからの色の再転写を回避するために、平均及び共分散行列は、最大強度値の画像強度＜９０％から計算される。

【0118】

例証のため、図６は、訓練されたＧＡＮベースのネットワークを使用した露出補正ブロック２５からの生成結果（右側）、及びグラウンド・トゥルース結果の非常に近くを示す色シフト補正後の生成結果（下）の実例を示す。

【0119】

低コントラスト・フレームを回復するために、ＣＧＡＮ飽和ネットワークは、同じ訓練データセットの反転画像対で訓練された。すなわち、露出過剰クラス（飽和）及び露出不足クラス（低コントラスト）は、訓練セットが反転されることを除き、同じ様式で処理される。

【0120】

ノイズ・アーチファクト・クラスのうちの１つにおける分類された領域に対してノイズ・アーチファクト補正ブロック２６で実施される復元プロセスが、これより検討されるものとする。

【0121】

照明不一致及び視点変化は、気泡及び光る器官表面からの反射に起因して強力な輝点を引き起こし、水様の物質が、多色の色彩アーチファクト（本明細書では「撮像又は混合アーチファクト」と称される）を作成し得る。これらの不一致は、等式（２）内の線形（例えば、付加ノイズη）及び非線形ノイズ（関数Ｆ（．））の組み合わせとして現れる。したがって、ノイズ・アーチファクト補正ブロック２６で実施される復元プロセスは、インペインティングを含む。そのようなインペインティングは、事前情報が影響を受けた領域内の飽和画素を置き換えるために使用されることから、周囲画素の情報を使用する。

【0122】

適用され得るインペインティング法は以下の通りである。ＴＶインペインティング法は、幾何学構造を有する画像を復元するのに一般に普及しており（参考文献３７）、テクスチャ合成にはパッチ・ベースの方法（参考文献３８）が一般に普及している。しかしながら、これらの方法は、計算的に高価である。深層ニューラル・ネットワークにおける近年の進歩は、ほぼリアルタイムの性能で視覚的に妥当な画像構造及びテクスチャ（参考文献３９）を回復することを証明した。しかしながら、それらは、マスクのサイズ、又は画像内の未知の画素の数に制限される。この文脈において、ＧＡＮ（参考文献４０～４２）は、より大きいマスクを用いた場合でさえ、より高速でよりコヒーレントな再構築を提供することにより成功を収めることを示した。文脈損失及び生成損失の両方が、これらの方法において使用されている。Ｉｉｚｕｋａら（参考文献４１）及びＹｕら（参考文献４２）は、再構築品質を改善するためにローカル及びグローバル識別器を使用した。ネットワークの受容野を拡大するために、（参考文献４２）は、（参考文献４１）内のＤＣＧＡＮの代わりにＷＧＡＮ－ＧＰを使用した粗密ネットワーク・アーキテクチャをさらに使用した。追加的に、距離ベースの重みマスクを使用したｌ_１割引文脈（再構築）損失が、追加された正則化のために使用された（参考文献４２）。（参考文献４１）と比較して低減された訓練時間及びより優れた再構築品質に起因して、ノイズ・アーチファクト補正ブロック２６は、インペインティングのために（参考文献４２）において提案されたネットワークを使用し得る。

【0123】

例として、分析装置１０を使用した実験は、以下の通りに実施された。

【0124】

７つの固有の患者ビデオ（胃食道、２００本のビデオの大規模コホートから選択される）が、訓練のために使用され、１０本の異なるビデオが、広範な検証のために使用された。実験は、この手法の有効性を例証するために、十分に確立されたビデオ品質評価メトリックを利用した。加えて、復元されたフレームの品質は、２人の経験豊富な内視鏡医によっても評価されている。視覚的改善、重要性、及び復元されたフレーム内の任意の人工的に導入されたアーチファクトの存在又は不在に基づいたスコアが、これらの専門家によって提供された。

【0125】

アーチファクト検出のための内視鏡検査データセットは、以下の通りであった。

【0126】

アーチファクト検出データセットは、訓練データのための２００本の内視鏡ビデオのコホートから選択される７つの固有の患者ビデオからサンプリングされる、２つの動作モダリティ：通常明視野（ＢＦ）及び狭帯域光観察（ＮＢＩ）からの合計１２９０枚の内視鏡検査画像（５１２×５１２画素にリサイズされる）で構成された。選択は、これらのビデオ内に存在する代表的なアーチファクトの数、及び下層の食道のテクスチャ可変性に基づいた。２人の専門家が、各々の注釈が分類される境界ボックスを使用して合計６５０４個のアーチファクトに注釈を付けた。

【0127】

９０％－１０％分割が、物体検出のための訓練試験セットを構築するために使用され、結果として、１１６１枚及び１２９枚の画像、並びに５８６０個及び６４４個の境界ボックスをそれぞれもたらした。一般に、訓練及び試験データは、同じクラス分布及び同様の境界ボックス（ほぼ正方形）を呈するが、０．２未満の平均幅を有して小さいか、又は０．５超の幅を有して大きいかのいずれかである。所与の領域が複数のアーチファクトを含む場合、複数の注釈が使用される。

【0128】

アーチファクト検出のための高速Ｒ－ＣＮＮ、ＲｅｔｉｎａＮｅｔ、及びＹＯＬＯｖ３アーキテクチャを調査した。検証されたオープン・ソース・コードは、これらのアーキテクチャのすべてに使用可能である。実験的に、ロバストな検出、及び内視鏡アーチファクト検出のための改善された推論時間のため、空間ピラミッド・プーリングを備えたＹＯＬＯｖ３（ＹＯＬＯｖ３－ＳＰＰ）を組み込むことを選択した。空間ピラミッド・プーリングは、ＹＯＬＯｖ３アーキテクチャからの複数スケールにおいて、計算された単一ステージＣＮＮ特徴を利用して部分画像領域からの特徴をプールすることを可能にした。推論速度の上昇に加えて、空間ピラミッド・プーリングを組み込むことは、古典的なＹＯＬＯｖ３法（セクションＩＶ－Ｂを参照）と比較して擬陽性検出を減少させた。ＹＯＬＯｖ３－ＳＰＰは、臨床環境での使用の主な要件である正確性－速度のトレードオフのための卓越した特徴を提供した。

【0129】

品質評価メトリックに関して、アーチファクト検出を評価するために、標準平均精度（ｍＡＰ：ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）及びＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ（ＩｏＵ）メトリックが使用された。定量的尺度として、ｍＡＰ_５、ｍＡＰ_２５、及びｍＡＰ_５０とそれぞれ表される５％、２５％、及び５０％のポジティブな整合のためのＩｏＵ閾値におけるｍＡＰ、ポジティブな整合間の平均ＩｏＵ、注釈付きのボックスの数に対する予測したボックスの数、並びに１つの画像のための平均推論時間を使用して、すべてのアーキテクチャの検出結果を定量的に比較した。ボケ除去法の品質評価では、ピーク信号対ノイズ比（ＰＳＮＲ：ＰｅａｋＳｉｇｎａｌ－ｔｏ－ＮｏｉｓｅＲａｔｉｏ）及び構造的類似性（ＳＳＩＭ：ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ）尺度が使用された。飽和及び鏡面性復元タスクの定量化のためにＰＳＮＲの制限を克服するためにさらに含まれるのは、ゆがみのタイプとは無関係である、より高度な視覚情報忠実性（ＶＩＦ：ＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎＦｉｄｅｌｉｔｙ、（参考文献４４））、及び相対的エッジコヒーレンス（ＲＥＣＯ：ＲｅｌａｔｉｖｅＥｄｇｅＣｏｈｅｒｅｎｃｅ、（参考文献４５））品質評価メトリックである。

【0130】

表２は、異なるニューラル・ネットワーク・アーキテクチャを用いた試験セットに対するアーチファクト検出結果を示す。すべてのタイミングは、単一の６ＧＢＮＶＩＤＩＡＧＴＸＴｉｔａｎＢｌａｃｋＧＰＵ上に報告され、１２９枚すべての試験画像にわたって評価される単一の５１２×５１２画像（おそらくは、示されるように入力に対してリスケーリングされる）についての平均時間である。グラウンド・トゥルース・ボックスの総数＝６４４ボックスである。

【0131】

表２は、ＹＯＬＯｖ３異形が、高速Ｒ－ＣＮＮ及びＲｅｔｉｎａｎｅｔの両方に勝っていることを示す。ＹＯＬＯｖ３－ｓｐｐ（提案されている）は、高速Ｒ－ＣＮＮよりも速い検出速度６で０．０５及び０．２５のＩｏＵ閾値においてそれぞれ４９．０及び４５．７という最良のｍＡＰをもたらす（参考文献１５）。Ｒｅｔｉｎａｎｅｔは３８．９の最良ＩｏＵを呈するが、ＩｏＵは、境界ボックス注釈における注釈者相違の影響を受け、これは検出器の性能には類似しない場合があるということに留意されたい。

【表2】

【0132】

図７は、アーチファクト検出についてのクラス特有の精度再現率曲線を示し、表３は、異なる物体検出ネットワークのクラス特有の平均精度（ＡＰ：ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）を示す。図７及び表２は、クラス特有の性能に関して、ＹＯＬＯｖ３－ｓｐｐが、種々のアーチファクト及び気泡（両方とも内視鏡ビデオ内に圧倒的に存在する）を、それぞれ４８．０及び５５．９の平均精度で検出することにわたって最良であることを示す。高速Ｒ－ＣＮＮは、飽和（７１．０）及びボケ（１４．５）について最高平均精度をもたらしたが、ＲｅｔｉｎａＮｅｔ及びＹＯＬＯｖ３は、それぞれコントラスト（７３．６）及び鏡面性検出（４０．０）について勝っていた。提案されたＹＯＬＯｖ３－ｓｐｐは、鏡面性（３４．７）、飽和（５５．７）、及びコントラスト（７２．１）について、２番目に良い平均精度スコアをもたらしたということは留意するに値する。

【表3】

【0133】

故に、要約すると、ＣＮＮブロック１３は、４９．０の最高平均精度（５％閾値におけるｍＡＰ）、及び８８ｍｓの最低計算時間をもたらし、正確なリアルタイム処理を可能にする。

【0134】

復元は、以下の通りに実施された。

【0135】

動きボケ補正ブロック２４では、モデルは、ボケのための１５の異なるシミュレート運動軌道を有する１０，７１０枚（７１５枚の固有の鮮明画像）の多患者及び多モード画像からなる、対になったボケ－鮮明データセットに対して３００エポック訓練された（（参考文献２７）を参照）。

【0136】

追加された文脈及び高周波特徴損失を伴う条件付き敵対的生成ネットワークは、ｄｅｂｌｕｒＧＡＮ（参考文献２７）、スケール回帰ネットワーク・ベースのＳＲＮ－ＤｅｂｌｕｒＮｅｔ（参考文献４６）、及び従来型のＴＶベースの方法（参考文献３１）と比較された。

【0137】

ＴＶ正則化重みλ及びボケカーネルｒは、回復されたボケ除去画像の品質に影響を及ぼす（参考文献３１）。λ＝１０３及びｒ＝２．３が、データセットのためのいくつかの反復パラメータ設定実験の後に選ばれた。再訓練は、ボケ除去モデルによって使用される同じデータセットに対して、ＳＲＮ－ＤｅｂｌｕｒＮｅｔ（参考文献４６）及びｄｅｂｌｕｒＧＡＮ（参考文献２７）について実施された。フレーム・ボケ除去法は、視覚的に大きいボケを有する５つの画像及びシミュレートされた試験軌道（表４に示される）を使用して、並びに各々が３０枚の画像を有する３つの異なる試験シーケンス（シミュレートされた動きボケ軌道、表５に示される）に対して、定量的に評価された。表４は、異なる動きボケを有する無作為に選択された画像についてのピーク信号対ノイズ比（ＰＳＮＲ）及び構造的類似性尺度（ＳＳＩＭ）を示す。表５は、条件付きＧＡＮモデルにおいて追加された高周波（ＨＦ：ＨｉｇｈＦｒｅｑｕｅｎｃｙ）特徴損失（提案された）及び文脈損失のみ（（参考文献２７）に開示されるような）の両方を伴う試験軌道内の画像シーケンスについての平均ＰＳＮＲ及び平均ＳＳＩＭを示す。図８は、ＷＬ及びＮＢＩフレームに対する異なるボケ除去法の定性的結果を例証する。

【0138】

表４は、ｌ_２－文脈損失及び追加された高周波（ＨＦ）特徴損失を伴うＣＧＡＮが、すべてのボケありフレームについて最高ＰＳＮＲ及びＳＳＩＭ値をスコアする一方、ＴＶベースの逆畳み込み法（参考文献３１）が、すべてのフレームにわたって最小ＰＳＮＲ及びＳＳＩＭ値を結果としてもたらしたことを示す。ほぼ１ｄＢの増加が、フレーム＃８０、＃９９、及び＃１０３については、ｄｅｂｌｕｒＧＡＮ法（参考文献２７）に対して見ることができるが、２ｄＢゲインが、＃１０２、＃１１６については、提案したモデルを使用したＳＲＮ－ＤｅｂｌｕｒＮｅｔ（参考文献４６）に対して見ることができる。提案されたモデルは全体的に、表５内のボケ画像シーケンスについて、２番目に良いｄｅｂｌｕｒＧＡＮと比較して最良の結果をもたらす。これは、図８において定性的にも見られる。ＳＲＮ－ＤｅｂｌｕｒＮｅｔは、ＷＬフレーム及びＮＢＩフレームの両方で右上において画像を変形させるということが観察され得る。

【表4】

【表5】

【0139】

露出補正ブロック２５では、２つの異なる照明条件のための任意のグラウンド・トゥルース・データの欠如に起因して、モデルは、乱反射（散乱光）及び周囲（画素飽和を伴う領域を付与する自然光への追加照明）照明１を含む２００枚の自然風景画像、並びにｃｙｃｌｅＧＡＮベースのスタイル変換（参考文献２４）を使用してシミュレートされる２００枚の内視鏡画像対（７人の固有の患者からの飽和画像及び通常のＢＦ画像を用いて別の２００枚の画像に対して別々に訓練され得る）を含む、融合データセットで訓練された。

【0140】

飽和除去をグローバル問題として取り扱い、上で論じられるような露出過剰についてフレーム全体を補正する結果。表６は、ＣｙｃｌｅＧＡＮを使用したシミュレート・データセット内の１９枚の無作為に選択された飽和画像についての平均ＰＳＮＲ及び平均ＳＳＩＭを示す。シミュレート画像の品質評価（ＱＡ：ＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔ）、ｌ_２－ｃｏｎｔｅｘｕａｌＣＧＡＮ、及び色再転写（ＣＲＴ）法を使用した後処理が提供される。これらは、復元モデルが、すべての試験されたメトリック（ＰＳＮＲ、ＳＳＩＭ、ＶＩＦ、及びＲＥＣＯ）にわたって増加した平均値を実証することを示す。

【表6】

【0141】

ＲＥＣＯ（１．３１３から１．５１２へ）、及びＶＩＦ（０．８１０から０．８１８へ）のような視覚的品質メトリックについての色変換後の改善は、上昇した視覚的品質を例証する。

【0142】

これは、飽和及び鏡面性補正を例証する図９に提示される定性的結果においても明らかである。特に、図９は、フレーム、及び各フレームの右に関連ＲＧＢヒストグラム・トップを示す。図９のヒストグラムにおいて、垂直軸は、周波数（０．００－０．１０）であり、水平軸は、強度（０－２５５）である。

【0143】

第１の列のフレームは、最初の２つのフレーム内の飽和領域の輪郭、第３のフレーム内の輪郭鏡面性を伴う３つの異なる元の破損フレームである。第２の列のフレームは、訓練されたエンド・ツー・エンド生成器を使用して露出補正ブロック２５によって復元された復元画像であり、第２の列に提示される。これは、左及び中央フレーム内の大きく飽和した画像パッチが、下層の画像詳細を保護しながら、訓練された生成器によって明白に除去されることを示す。

【0144】

第３の列のフレームは、補正画像強度の単純なリスケーリングの結果である。これは、ＣＧＡＮ復元フレームをリスケーリングすることによる図９（第３の列）に示されるような単純なコントラスト・ストレッチングが、元の色調を回復することができないことを示す。

【0145】

第４の列のフレームは、代わりに色補正を使用した結果である。これは、色変換が、新たな飽和をもたらすことなくＣＧＡＮ復元画像内に元の色一貫性を上手く復元することを示す。

【0146】

ノイズ・アーチファクト補正ブロック２６では、ボトルネック手法が、ｐｌａｃｅｓ２データセットの事前訓練された重みで初期化されたモデルを再訓練するために使用された（参考文献４３）。内視鏡検査画像内に存在する大きな視覚的変動を捕捉するために、品質スコア＞９５％を有する７つの異なる患者内視鏡検査ビデオからの１０００枚の画像が、「クリーン」画像として使用された。１７２枚の画像が、訓練中、検証セットとして使用された。訓練セット及び検証セットの両方が、マルチモーダル内視鏡ビデオ・フレームを含んでいた。訓練及び検証中、異なるパッチ・サイズ｛（５×５），（７×７），（１１×１１），（１３×１３），．．．，（３３×３３）｝のマスクが、無作為に生成され、復元のために使用された。単一の画像は、復元のために１つ又は複数の生成されたマスクを有し得る。

【0147】

鏡面性及び他のローカル・アーチファクトは、上で論じられるようなインペインティングに基づいて除去される。インペインティング法を検証するために、２５枚の画像のセット（クリーン）が、５１２×５１２画像サイズの合計画素の５％及び１２％をカバーする無作為に選択されたパッチと共に使用された。ｌ_１－文脈損失モデルを有する本発明のＣＧＡＮベースのモデルを、広く使用されている従来のＴＶベース及びパッチ・ベースのインペインティング法と比較した。表７は、３つの異なる患者ビデオからの２０枚の無作為に選択された画像上の２１個の無作為にサンプリングされた矩形ボックスを伴う合計画像画素（５１２５１２画素）の５％及び１２％をカバーするマスクについて、欠損している画素の復元のためのＰＳＮＲ、ＶＩＦ（参考文献４４）、及びＲＥＣＯ（参考文献４５））メトリックについての平均値を示す。表７の結果は、ｌ_１－文脈ＣＧＡＮ法が、ＶＩＦ及びＲＥＣＯ尺度の両方について最良の品質保証値を有することを示す（５％マスク画素ではＶＩＦ：０．９５、ＲＥＣＯ：０．９９２、及び１２％マスク画素ではＶＩＦ：０．８８３、ＲＥＣＯ：０．９８３）。

【表7】

【0148】

ＴＶベースのインペインティング法が両方の場合においてより高いＰＳＮＲ値をスコアしたとしても、それは、最小のＲＥＣＯ値（５％及び１２％の場合にそれぞれ０．９８４及び０．９７５）をスコアしており、最高の計算コストを有する（３９２秒）。対照的に、ｌ_１－ｃｏｎｔｅｘｕａｌＣＧＡＮは、最小の計算時間を有する（訓練モデルを読み込み、ＧｅＦｏｒｃｅＧＴＸ１０８０Ｔｉ上で画像に適用するのに２秒）。

【0149】

実際の問題のある胃－食道内視鏡フレームに対する本発明の鏡面性及びローカル・アーチファクト除去の定性的結果は、以下の通りに図１０に示される。

【0150】

第１の行は、分析装置１０によって検出される破損領域（鏡面性、撮像アーチファクト）を含む元の破損フレームである。見て分かるように、撮像アーチファクト（第１及び第４の列）及び鏡面性（第２及び第３の列）は、近傍画素に対して局所的に、且つ未破損画像外観に対して全体的に、画素強度に大きな偏差をもたらす。

【0151】

第２の行のフレームは、検出された境界ボックス、及び矩形でマークされる復元エリアを示す。

【0152】

第３の行のフレームは、近年のＴＶベースの方法を使用したインペインティング・プロセスの影響下にある同じフレームである。第４の行のフレームは、ｌ_１－ｃｏｎｔｅｘｕａｌＣＧＡＮを使用したインペインティング・プロセスの影響下にある同じフレームである。第３及び第４の行のフレームから見て分かるように、インペインティング法を使用して、画像は、境界ボックス検出に基づいて復元されている。第３の行の２番目に良いＴＶベースの方法は、第４の行に示されるＣＧＡＮ生成モデルと比較して、未知の画素の再構築中に不鮮明で滑らかでないパッチを生成する。

【0153】

第５の行のフレームは、ＴＶベースのプロセス及びｌ_１－ｃｏｎｔｅｘｕａｌＣＧＡＮを使用した復元エリアを示す。これらの領域をよく見ると、ローカル画像構造がきちんと保護され、再構築画素から周囲画素への滑らかな遷移が存在することを示す。即時に目に付くゴースト効果は、ＴＶベースの方法を使用した第２の列のフレームにおいて観察され得る。

【0154】

アーチファクト検出及び回復フレームワークは、各々１０，０００近いフレームを含む１０本の胃食道ビデオについて評価された。アーチファクト検出では、０．２５の物体らしさ閾値が、検出ボックス内の重複を低減するために使用され、フレームを復元するためのＱＳ値は、０．５に設定された。基準として、所与の入力ビデオ・フレームを破棄するか、保持するかどうかを決定するために、６０００枚の手動でラベル付けされたポジ及びネガ画像のセットに対する二値分類のための全結合最終層を伴うシーケンシャル６層畳み込みニューラル・ネットワーク（サイズ３、５５の６４個のフィルタを有する層、ＲｅＬＵ活性化関数、及びバッチ正規化）を訓練した。０．７５の閾値が、十分な品質のフレームのみを保持するために二値分類器に対して設定された。

【0155】

したがって、各タイプの画像アーチファクトの分類された領域の復元は、フレーム復元タスクについて定量的及び定性的改善を示し、とりわけ、ボケ及び飽和のためのＰＳＮＲ及びＳＳＩＭメトリック両方における改善を達成し、また、鏡面性及び他の種々のアーチファクト除去のための視覚的類似性メトリックに対する著しい改善を達成する。

【0156】

図１１は、３つの臨床内視鏡検査ビデオ画像信号のフレーム回復を例証する。時間的マップは、二値深層分類器及び選択ブロック２１によって復元のために選択されたビデオ画像信号のフレームを示す。棒グラフは、２つの方法による復元のために選択されたビデオ画像信号のフレームの比率を示す。円グラフは、各ビデオ画像信号内に存在する各アーチファクト・タイプの割合を示す。

【0157】

図１１に示されるように、分析装置１０は、二分決定と比較してフレームの大多数を維持することに成功している。

【0158】

品質向上したビデオが、再び、生のビデオよりも少ない数のフレーム排除を結果としてもたらしたＣＮＮベースの二値分類器に供給された。結果的に、結果として生じるビデオは、生のビデオを利用した等価の二値クリーンされたビデオと比較してより連続的である。例えば、ビデオ画像信号３において、二値分類器に基づいたフレーム除去後のビデオは、３０％のみが保持されるため、後処理アルゴリズムにとって有害であり得る多くの明らかな急激な遷移を直接もたらす。それに比べて、分析装置１０は、フレームの７０％を維持し、すなわち、４０％近くのフレーム復元である。試験される１０本すべての内視鏡ビデオにわたって定性的に、検討される１０本のビデオの平均６８．７％を維持して、２５％多くのビデオ・フレームが復元された。

【0159】

復元されたビデオ画像信号の臨床的関連は、以下の通りに試験された。

【0160】

１０本の試験ビデオから選択される２０個の高品質フレームが、ボケ、鏡面性、飽和、及び種々のアーチファクトにより破損された。上に説明される復元プロセスが、次いで、これらのフレームに適用された。２人の専門内視鏡医が、独立して、元の高品質画像及び対応するビデオと比較してこれらの復元結果をスコアするように要請された。０から１０までの範囲のスコアは、１）不自然なゆがみの追加が負のスコアを割り当てられること、及び２）ゆがみの除去が正のスコアを割り当てられること、に基づいた。得られた平均スコアは、ボケ７．８７、鏡面性又は種々のアーチファクト７．７、及び飽和１．５であった。顕著な復元が、ボケ及び鏡面性又は種々のアーチファクトについて得られた。しかしながら、飽和補正は、視覚的コヒーレンスが改善されていたとしても、大半は３Ｄ情報の損失に起因して（フィードバック・コメントによると）専門家にとって満足のいくものではなかった。
（参考文献）
（参考文献１）Ｓ．Ｃｈｉｋｋｅｒｕｒ、Ｖ．Ｓｕｎｄａｒａｍ、Ｍ．Ｒｅｉｓｓｌｅｉｎ、及びＬ．Ｊ．Ｋａｒａｍ、「Ｏｂｊｅｃｔｉｖｅｖｉｄｅｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｍｅｔｈｏｄｓ：Ａｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｒｅｖｉｅｗ，ａｎｄｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎ」、ＩＥＥＥＴｒａｎｓ．Ｂｒｏａｄｃａｓｔ．、ｖｏｌ．５７、ｎｏ．２、１６５～１８２頁、２０１１年
（参考文献２）Ｄ．Ｐ．Ｍｅｎｏｒ、Ｃ．Ａ．Ｍｅｌｌｏ、及びＣ．Ｚａｎｃｈｅｔｔｉｎ、「Ｏｂｊｅｃｔｉｖｅｖｉｄｅｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｂａｓｅｄｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ」、ＰｒｏｃｅｄｉａＣｏｍｐｕｔ．Ｓｃｉ．、ｖｏｌ．９６、１５５１～１５５９頁、２０１６年
（参考文献３）Ｓ．Ａｌｉ、Ｃ．Ｄａｕｌ、Ｅ．Ｇａｌｂｒｕｎ、Ｆ．Ｇｕｉｌｌｅｍｉｎ、及びＷ．Ｂｌｏｎｄｅｌ、「ＡｎｉｓｏｔｒｏｐｉｃｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｏｎｅｄｇｅｐｒｅｓｅｒｖｉｎｇＲｉｅｓｚｗａｖｅｌｅｔｓｆｏｒｒｏｂｕｓｔｖｉｄｅｏｍｏｓａｉｃｉｎｇ」、Ｐａｔｔ．Ｒｅｃｏｇ．、ｖｏｌ．５１、４２５～４４２頁、２０１６年
（参考文献４）Ｈ．Ｌｉｕ、Ｗ．Ｓ．Ｌｕ、及びＭ．Ｑ．Ｈ．Ｍｅｎｇ、「Ｄｅ－ｂｌｕｒｒｉｎｇｗｉｒｅｌｅｓｓｃａｐｓｕｌｅｅｎｄｏｓｃｏｐｙｉｍａｇｅｓｂｙｔｏｔａｌｖａｒｉａｔｉｏｎｍｉｎｉｍｉｚａｔｉｏｎ」、ＰＡＣＲＩＭ．ＩＥＥＥ、２０１１年８月、１０２～１０６頁
（参考文献５）Ｔ．Ｓｔｅｈｌｅ、「Ｒｅｍｏｖａｌｏｆｓｐｅｃｕｌａｒｒｅｆｌｅｃｔｉｏｎｓｉｎｅｎｄｏｓｃｏｐｉｃｉｍａｇｅｓ」、ＡｃｔａＰｏｌｙｔｅｃｈｎｉｃａ、ｖｏｌ．４６、ｎｏ．４、２００６年
（参考文献６）Ｓ．Ｔｃｈｏｕｌａｃｋ、Ｊ．Ｐ．Ｌａｎｇｌｏｉｓ、及びＦ．Ｃｈｅｒｉｅｔ、「Ａｖｉｄｅｏｓｔｒｅａｍｐｒｏｃｅｓｓｏｒｆｏｒｒｅａｌ－ｔｉｍｅｄｅｔｅｃｔｉｏｎａｎｄｃｏｒｒｅｃｔｉｏｎｏｆｓｐｅｃｕｌａｒｒｅｆｌｅｃｔｉｏｎｓｉｎｅｎｄｏｓｃｏｐｉｃｉｍａｇｅｓ」、ＷｏｒｋｓｈｏｐｏｎＣｉｒｃｕｉｔａｎｄＳｙｓｔ．及びＴＡＩＳＡＣｏｎｆ．ＩＥＥＥ、２００８年、４９～５２頁
（参考文献７）Ｍ．Ａｋｂａｒｉ、Ｍ．Ｍｏｈｒｅｋｅｓｈ、Ｓ．Ｓｏｒｏｕｓｈｍｅｈｒ、Ｎ．Ｋａｒｉｍｉ、Ｓ．Ｓａｍａｖｉ、及びＫ．Ｎａｊａｒｉａｎ、「Ａｄａｐｔｉｖｅｓｐｅｃｕｌａｒｒｅｆｌｅｃｔｉｏｎｄｅｔｅｃｔｉｏｎａｎｄｉｎｐａｉｎｔｉｎｇｉｎｃｏｌｏｎｏｓｃｏｐｙｖｉｄｅｏｆｒａｍｅｓ」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０８４０２、２０１８年
（参考文献８）Ａ．Ｍｏｈａｍｍｅｄ、Ｉ．Ｆａｒｕｐ、Ｍ．Ｐｅｄｅｒｓｅｎ、Ｏ．Ｈｏｖｄｅ、及びＳ．ＹｉｌｄｉｒｉｍＹａｙｉｌｇａｎ、「Ｓｔｏｃｈａｓｔｉｃｃａｐｓｕｌｅｅｎｄｏｓｃｏｐｙｉｍａｇｅｅｎｈａｎｃｅｍｅｎｔ」、Ｊ．ｏｆＩｍａｇ．、ｖｏｌ．４、ｎｏ．６、２０１８年
（参考文献９）Ｆ．Ｉｓａｂｅｌ、Ｂ．Ｓｅｂａｓｔｉａｎ、Ｒ．Ｃａｒｉｎａ、Ｗ．Ｊ．Ｗｅ、及びＳ．Ｓｔｅｆａｎｉｅ、Ｉ．Ｆｕｎｋｅ、Ｓ．Ｂｏｄｅｎｓｔｅｄｔ、Ｃ．，Ｊ．Ｗｅｉｔｚ、Ｓ．Ｓｐｅｉｄｅｌ、「Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｆｏｒｓｐｅｃｕｌａｒｈｉｇｈｌｉｇｈｔｒｅｍｏｖａｌｉｎｅｎｄｏｓｃｏｐｉｃｉｍａｇｅｓ」、Ｐｒｏｃ．ＳＰＩＥ、ｖｏｌ．１０５７６、２０１８年、１０５７６～１０５７６－９頁
（参考文献１０）Ｉ．Ｊ．Ｇｏｏｄｆｅｌｌｏｗ、Ｊ．Ｐｏｕｇｅｔ－Ａｂａｄｉｅ、Ｍ．Ｍｉｒｚａ、Ｂ．Ｘｕ、Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ、Ｓ．Ｏｚａｉｒ、Ａ．Ｃ．Ｃｏｕｒｖｉｌｌｅ、及びＹ．Ｂｅｎｇｉｏ、「Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ」、ＮＩＰＳ、２０１４年、２６７２～２６８０頁
（参考文献１１）Ｐ．Ｖｉｏｌａ及びＭ．Ｊｏｎｅｓ、「Ｒａｐｉｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｕｓｉｎｇａｂｏｏｓｔｅｄｃａｓｃａｄｅｏｆｓｉｍｐｌｅｆｅａｔｕｒｅｓ」、ＣＶＰＲ．ＩＥＥＥ、２００１年、５１１～５１８頁
（参考文献１２）Ｐ．Ｓｅｒｍａｎｅｔ、Ｄ．Ｅｉｇｅｎ、Ｘ．Ｚｈａｎｇ、Ｍ．Ｍａｔｈｉｅｕ、Ｒ．Ｆｅｒｇｕｓ、及びＹ．Ｌｅ－Ｃｕｎ、「Ｏｖｅｒｆｅａｔ：Ｉｎｔｅｇｒａｔｅｄｒｅｃｏｇｎｉｔｉｏｎ，ｌｏｃａｌｉｚａｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１３１２．６２２９、２０１３年
（参考文献１３）Ｒ．Ｇｉｒｓｈｉｃｋ、Ｊ．Ｄｏｎａｈｕｅ、Ｔ．Ｄａｒｒｅｌｌ、及びＪ．Ｍａｌｉｋ、「Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ」、ＣＶＰＲ．ＩＥＥＥ、２０１４年、５８０～５８７頁
（参考文献１４）Ｊ．Ｒ．Ｕｉｊｌｉｎｇｓ、Ｋ．Ｅ．ＶａｎＤｅＳａｎｄｅ、Ｔ．Ｇｅｖｅｒｓ、及びＡ．Ｗ．Ｓｍｅｕｌｄｅｒｓ、「Ｓｅｌｅｃｔｉｖｅｓｅａｒｃｈｆｏｒｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ」、Ｉｎｔ．Ｊ．ｏｆＣｏｍｐｕｔ．ｖｉｓｉｏｎ、ｖｏｌ．１０４、ｎｏ．２、１５４～１７１頁、２０１３年
（参考文献１５）Ｓ．Ｒｅｎ、Ｋ．Ｈｅ、Ｒ．Ｇｉｒｓｈｉｃｋ、及びＪ．Ｓｕｎ、「Ｆａｓｔｅｒｒ－ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ」、ＮＩＰＳ、２０１５年、９１～９９頁
（参考文献１６）Ｊ．Ｒｅｄｍｏｎ、Ｓ．Ｄｉｖｖａｌａ、Ｒ．Ｇｉｒｓｈｉｃｋ、及びＡ．Ｆａｒｈａｄｉ、「Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：Ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ」、ＣＶＰＲ．ＩＥＥＥ、２０１６年、７７９～７８８頁
（参考文献１７）Ｋ．Ｈｅ、Ｘ．Ｚｈａｎｇ、Ｓ．Ｒｅｎ、及びＪ．Ｓｕｎ、「Ｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇｉｎｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ」、ＥＣＣＶ．Ｓｐｒｉｎｇｅｒ、２０１４年、３４６～３６１頁
（参考文献１８）Ｔ．－Ｙ．Ｌｉｎ、Ｐ．Ｄｏｌｌａｒ、Ｒ．Ｂ．Ｇｉｒｓｈｉｃｋ、Ｋ．Ｈｅ、Ｂ．Ｈａｒｉｈａｒａｎ、及びＳ．Ｊ．Ｂｅｌｏｎｇｉｅ、「Ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ」、ＣＶＰＲ．ＩＥＥＥ、２０１７年、９３６～９４４頁
（参考文献１９）Ｔ．－Ｙ．Ｌｉｎ、Ｐ．Ｇｏｙａｌ、Ｒ．Ｇｉｒｓｈｉｃｋ、Ｋ．Ｈｅ、及びＰ．Ｄｏｌｌａ’ｒ、「Ｆｏｃａｌｌｏｓｓｆｏｒｄｅｎｓｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０８．０２００２、２０１７年
（参考文献２０）Ｊ．Ｒｅｄｍｏｎ及びＡ．Ｆａｒｈａｄｉ、「Ｙｏｌｏｖ３：Ａｎｉｎｃｒｅｍｅｎｔａｌｉｍｐｒｏｖｅｍｅｎｔ」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０４．０２７６７、２０１８年
（参考文献２１）Ｔ．－Ｙ．Ｌｉｎ、Ｍ．Ｍａｉｒｅ、Ｓ．Ｂｅｌｏｎｇｉｅ、Ｊ．Ｈａｙｓ、Ｐ．Ｐｅｒｏｎａ、Ｄ．Ｒａｍａｎａｎ、Ｐ．Ｄｏｌｌａｒ、及びＣ．Ｌ．Ｚｉｔｎｉｃｋ、「Ｍｉｃｒｏｓｏｆｔｃｏｃｏ：Ｃｏｍｍｏｎｏｂｊｅｃｔｓｉｎｃｏｎｔｅｘｔ」、ＥＣＣＶ．Ｓｐｒｉｎｇｅｒ、２０１４年、７４０～７５５頁
（参考文献２２）Ｃ．Ａ．Ｚ．Ｂａｒｃｅｌｏｓ及びＭ．Ａ．Ｂａｔｉｓｔａ、「Ｉｍａｇｅｒｅｓｔｏｒａｔｉｏｎｕｓｉｎｇｄｉｇｉｔａｌｉｎｐａｉｎｔｉｎｇａｎｄｎｏｉｓｅｒｅｍｏｖａｌ」、ＩｍａｇｅａｎｄＶｉｓｉｏｎＣｏｍｐｕｔ．、ｖｏｌ．２５、ｎｏ．１、６１～６９頁、２００７年
（参考文献２３）Ｍ．Ｍｉｒｚａ及びＳ．Ｏｓｉｎｄｅｒｏ、「Ｃｏｎｄｉｔｉｏｎａｌｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ」、ＣｏＲＲ、ｖｏｌ．ａｂｓ／１４１１．１７８４、２０１４年
（参考文献２４）Ｊ．－Ｙ．Ｚｈｕ、Ｔ．Ｐａｒｋ、Ｐ．Ｉｓｏｌａ、及びＡ．Ａ．Ｅｆｒｏｓ、「Ｕｎｐａｉｒｅｄｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎｕｓｉｎｇｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｔａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ」、ＩＣＣＶ．ＩＥＥＥ、２０１７年、２２４２～２２５１頁
（参考文献２５）Ｐ．Ｉｓｏｌａ、Ｊ．－Ｙ．Ｚｈｕ、Ｔ．Ｚｈｏｕ、及びＡ．Ａ．Ｅｆｒｏｓ、「Ｉｍａｇｅ－ｔｏ－ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎｗｉｔｈｃｏｎｄｉｔｉｏｎａｌａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ」、ＣＶＰＲ、２０１７年
（参考文献２６）Ｔ．Ｋａｒｒａｓ、Ｔ．Ａｉｌａ、Ｓ．Ｌａｉｎｅ、及びＪ．Ｌｅｈｔｉｎｅｎ、「Ｐｒｏｇｒｅｓｓｉｖｅｇｒｏｗｉｎｇｏｆｇａｎｓｆｏｒｉｍｐｒｏｖｅｄｑｕａｌｉｔｙ，ｓｔａｂｉｌｉｔｙ，ａｎｄｖａｒｉａｔｉｏｎ」、ＣｏＲＲ、２０１７年
（参考文献２７）Ｏ．Ｋｕｐｙｎ、Ｖ．Ｂｕｄｚａｎ、Ｍ．Ｍｙｋｈａｉｌｙｃｈ、Ｄ．Ｍｉｓｈｋｉｎ、及びＪ．Ｍａｔａｓ、「Ｄｅｂｌｕｒｇａｎ：Ｂｌｉｎｄｍｏｔｉｏｎｄｅｂｌｕｒｒｉｎｇｕｓｉｎｇｃｏｎｄｉｔｉｏｎａｌａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ」、ＣｏＲＲ、ｖｏｌ．ａｂｓ／１７１１．０７０６４、２０１７年
（参考文献２８）Ｂ．Ｄｕｈｙｅｏｎ及びＳ．Ｈｙｕｎｊｕｎｇ、「Ｉｍｐｒｏｖｅｄｔｒａｉｎｉｎｇｏｆｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｕｓｉｎｇｒｅｐｒｅｓｅｎｔａｔｉｖｅｆｅａｔｕｒｅｓ」、ＣｏＲＲ、ｖｏｌ．ａｂｓ／１８０１．０９１９５、２０１８年
（参考文献２９）Ｈ．Ｔｏｎｇ、Ｍ．Ｌｉ、Ｈ．Ｚｈａｎｇ、及びＣ．Ｚｈａｎｇ、「Ｂｌｕｒｄｅｔｅｃｔｉｏｎｆｏｒｄｉｇｉｔａｌｉｍａｇｅｓｕｓｉｎｇｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ」、ＩＣＭＥ．ＩＥＥＥ、２００４年、１７～２０頁
（参考文献３０）Ｌ．Ｘｕ、Ｓ．Ｚｈｅｎｇ、及びＪ．Ｊｉａ、「Ｕｎｎａｔｕｒａｌｌ０ｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｎａｔｕｒａｌｉｍａｇｅｄｅｂｌｕｒｒｉｎｇ」、ＣＶＰＲ．ＩＥＥＥ、２０１３年、１１０７～１１１４頁
（参考文献３１）Ｐ．Ｇｅｔｒｅｕｅｒ、「ＴｏｔａｌＶａｒｉａｔｉｏｎＤｅｃｏｎｖｏｌｕｔｉｏｎｕｓｉｎｇＳｐｌｉｔＢｒｅｇｍａｎ」、ＩｍａｇｅＰｒｏｃｅｓｓ．ＯｎＬｉｎｅ、ｖｏｌ．２、１５８～１７４頁、２０１２年
（参考文献３２）Ａ．Ｃｈａｋｒａｂａｒｔｉ、「Ａｎｅｕｒａｌａｐｐｒｏａｃｈｔｏｂｌｉｎｄｍｏｔｉｏｎｄｅｂｌｕｒｒｉｎｇ」、ＥＣＣＶ．Ｓｐｒｉｎｇｅｒ、２０１６年、２２１～２３５頁
（参考文献３３）Ｓ．Ｎａｈ、Ｔ．Ｈ．Ｋｉｍ、及びＫ．Ｍ．Ｌｅｅ、「Ｄｅｅｐｍｕｌｔｉ－ｓｃａｌｅｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｄｙｎａｍｉｃｓｃｅｎｅｄｅｂｌｕｒｒｉｎｇ」、ＣＶＰＲ．ＩＥＥＥ、２０１７年、２５７～２６５頁
（参考文献３４）Ａ．Ｂｕａｄｅｓ、Ｔ．Ｌｅ、Ｊ．－Ｍ．Ｍｏｒｅｌ、及びＬ．Ｖｅｓｅ、「Ｃａｒｔｏｏｎ＋ＴｅｘｔｕｒｅＩｍａｇｅＤｅｃｏｍｐｏｓｉｔｉｏｎ」、ＩｍａｇｅＰｒｏｃｅｓｓ．ＯｎＬｉｎｅ、ｖｏｌ．１、２０１１年
（参考文献３５）Ｍ．Ａｒｊｏｖｓｋｙ、Ｓ．Ｃｈｉｎｔａｌａ、及びＬ．Ｂｏｔｔｏｕ、「Ｗａｓｓｅｒｓｔｅｉｎｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ」、ＩＣＭＬ、２０１７年、２１４～２２３頁
（参考文献３６）Ａ．Ｐ．Ｈｅｒｔｚｍａｎｎ、「Ａｌｇｏｒｉｔｈｍｓｆｏｒｒｅｎｄｅｒｉｎｇｉｎａｒｔｉｓｔｉｃｓｔｙｌｅｓ」、Ｐｈ．Ｄ．ｄｉｓｓｅｒｔａｔｉｏｎ、ＮｅｗＹｏｒｋＵｎｉｖｅｒｓｉｔｙ、ＧｒａｄｕａｔｅＳｃｈｏｏｌｏｆＡｒｔｓａｎｄＳｃｉｅｎｃｅ、２００１年
（参考文献３７）Ｊ．Ｓｈｅｎ及びＴ．Ｆ．Ｃｈａｎ、「Ｍａｔｈｅｍａｔｉｃａｌｍｏｄｅｌｓｆｏｒｌｏｃａｌｎｏｎｔｅｘｔｕｒｅｉｎｐａｉｎｔｉｎｇｓ」、ＳＩＡＭＪ．ｏｆＡｐｐｌ．Ｍａｔｈ．、ｖｏｌ．６２、ｎｏ．３、１０１９～１０４３頁、２００２年
（参考文献３８）Ａ．Ａ．Ｅｆｒｏｓ及びＷ．Ｔ．Ｆｒｅｅｍａｎ、「Ｉｍａｇｅｑｕｉｌｔｉｎｇｆｏｒｔｅｘｔｕｒｅｓｙｎｔｈｅｓｉｓａｎｄｔｒａｎｓｆｅｒ」、ＳＩＧＧＲＡＰＨ．ＡＣＭ、２００１年、３４１～３４６頁
（参考文献３９）Ｒ．Ｋｏｈｌｅｒ、Ｃ．Ｓｃｈｕｌｅｒ、Ｂ．Ｓｃｈｏｌｋｏｐｆ、及びＳ．Ｈａｒｍｅｌｉｎｇ、「Ｍａｓｋ－ｓｐｅｃｉｆｉｃｉｎｐａｉｎｔｉｎｇｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ」、ＧＣＰＲ．Ｓｐｒｉｎｇｅｒ、２０１４年、５２３～５３４頁、ｌＮＣＳ
（参考文献４０）Ｄ．Ｐａｔｈａｋ、Ｐ．Ｋｒａｈｅｎｂｕｈｌ、Ｊ．Ｄｏｎａｈｕｅ、Ｔ．Ｄａｒｒｅｌｌ、及びＡ．Ａ．Ｅｆｒｏｓ、「Ｃｏｎｔｅｘｔｅｎｃｏｄｅｒｓ：Ｆｅａｔｕｒｅｌｅａｒｎｉｎｇｂｙｉｎｐａｉｎｔｉｎｇ」、ＣＶＰＲ．ＩＥＥＥ、２０１６年、２５３６～２５４４頁
（参考文献４１）Ｓ．Ｉｉｚｕｋａ、Ｅ．Ｓｉｍｏ－Ｓｅｒｒａ、及びＨ．Ｉｓｈｉｋａｗａ、「ＧｌｏｂａｌｌｙａｎｄＬｏｃａｌｌｙＣｏｎｓｉｓｔｅｎｔＩｍａｇｅＣｏｍｐｌｅｔｉｏｎ」、ＳＩＧＧＲＡＰＨ、ｖｏｌ．３６、ｎｏ．４、１０７：１～１０７：１４頁、２０１７年
（参考文献４２）Ｊ．Ｙｕ、Ｚ．Ｌｉｎ、Ｊ．Ｙａｎｇ、Ｘ．Ｓｈｅｎ、Ｘ．Ｌｕ、及びＴ．Ｓ．Ｈｕａｎｇ、「Ｇｅｎｅｒａｔｉｖｅｉｍａｇｅｉｎｐａｉｎｔｉｎｇｗｉｔｈｃｏｎｔｅｘｔｕａｌａｔｔｅｎｔｉｏｎ」、ＣｏＲＲ、ｖｏｌ．ａｂｓ／１８０１．０７８９２、２０１８年（参照オンライン）入手可能：ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０１．０７８９２
（参考文献４３）Ｂ．Ｚｈｏｕ、Ａ．Ｌａｐｅｄｒｉｚａ、Ａ．Ｋｈｏｓｌａ、Ａ．Ｏｌｉｖａ、及びＡ．Ｔｏｒｒａｌｂａ、「Ｐｌａｃｅｓ：Ａ１０ｍｉｌｌｉｏｎｉｍａｇｅｄａｔａｂａｓｅｆｏｒｓｃｅｎｅｒｅｃｏｇｎｉｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．、ｖｏｌ．４０、ｎｏ．６、１４５２～１４６４頁、２０１８年
（参考文献４４）Ｈ．Ｒ．Ｓｈｅｉｋｈ及びＡ．Ｃ．Ｂｏｖｉｋ、「Ｉｍａｇｅｉｎｆｏｒｍａｔｉｏｎａｎｄｖｉｓｕａｌｑｕａｌｉｔｙ」、ＩＥＥＥＴｒａｎｓ．ＩｍａｇｅＰｒｏｃｅｓｓ．、ｖｏｌ．１５、ｎｏ．２、４３０～４４４頁、２００６年
（参考文献４５）Ｖ．Ｂａｒｏｎｃｉｎｉ、Ｌ．Ｃａｐｏｄｉｆｅｒｒｏ、Ｅ．Ｄ．Ｄ．Ｃｌａｕｄｉｏ、及びＧ．Ｊａｃｏｖｉｔｔｉ、「Ｔｈｅｐｏｌａｒｅｄｇｅｃｏｈｅｒｅｎｃｅ：Ａｑｕａｓｉｂｌｉｎｄｍｅｔｒｉｃｆｏｒｖｉｄｅｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔ」、ＥＵＳＩＰＣＯ、２００９年８月、５６４～５６８頁
（参考文献４６）Ｘ．Ｔａｏ、Ｈ．Ｇａｏ、Ｘ．Ｓｈｅｎ、Ｊ．Ｗａｎｇ、及びＪ．Ｊｉａ、「Ｓｃａｌｅ－ｒｅｃｕｒｒｅｎｔｎｅｔｗｏｒｋｆｏｒｄｅｅｐｉｍａｇｅｄｅｂｌｕｒｒｉｎｇ」、ＣＶＰＲ．ＩＥＥＥ、２０１８年、８１７４～８１８２頁
（参考文献４７）Ａ．Ｎｅｗｓｏｎ、Ａ．Ａｌｍａｎｓａ、Ｙ．Ｇｏｕｓｓｅａｕ、及びＰ．Ｐｒｅｚ、「Ｎｏｎ－ＬｏｃａｌＰａｔｃｈ－ＢａｓｅｄＩｍａｇｅＩｎｐａｉｎｔｉｎｇ」、ＩｍａｇｅＰｒｏｃｅｓｓ．ＯｎＬｉｎｅ、ｖｏｌ．７、３７３～３８５頁、２０１７年
（参考文献４８）Ｇ．Ｒ．Ｃａｍｅｒｏｎら、「ＤｅｔｅｃｔｉｏｎａｎｄｓｔａｇｉｎｇｏｆｅｓｏｐｈａｇｅａｌｃａｎｃｅｒｓｗｉｔｈｉｎＢａｒｒｅｔｔ’ｓｅｓｏｐｈａｇｕｓｉｓｉｍｐｒｏｖｅｄｂｙａｓｓｅｓｓｍｅｎｔｉｎｓｐｅｃｉａｌｉｚｅｄＢａｒｒｅｔｔ’ｓｕｎｉｔｓ」、Ｇａｓｔｒｏｉｎｔｅｓｔｉｎａｌｅｎｄｏｓｃｏｐｙ８０．６（２０１４年）、９７１～９８３頁
（参考文献４９）Ｄ．Ｗ．Ｓｃｈｏｌｖｉｎｃｋら、「ＤｅｔｅｃｔｉｏｎｏｆｌｅｓｉｏｎｓｉｎｄｙｓｐｌａｓｔｉｃＢａｒｒｅｔｔａＡＺ’ｓｅｓｏｐｈａｇｕｓｂｙｃｏｍｍｕｎｉｔｙａｎｄｅｘｐｅｒｔｅｎｄｏｓｃｏｐｉｓｔｓ」、Ｅｎｄｏｓｃｏｐｙ４９．０２（２０１７年）、１１３～１２０頁

【図1】