(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-14
(54)【発明の名称】ビデオ内視鏡検査における品質評価
(51)【国際特許分類】
G06T 7/00 20170101AFI20220607BHJP
A61B 1/045 20060101ALI20220607BHJP
G06T 5/00 20060101ALI20220607BHJP
【FI】
G06T7/00 Q
A61B1/045 614
A61B1/045 618
A61B1/045 615
G06T5/00 700
G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021559174
(86)(22)【出願日】2020-04-03
(85)【翻訳文提出日】2021-11-22
(86)【国際出願番号】 GB2020050897
(87)【国際公開番号】W WO2020201772
(87)【国際公開日】2020-10-08
(32)【優先日】2019-04-05
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】507226592
【氏名又は名称】オックスフォード ユニヴァーシティ イノヴェーション リミテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(72)【発明者】
【氏名】リッツシャー、ジェンス
(72)【発明者】
【氏名】アリ、シャリブ
(72)【発明者】
【氏名】ベイリー、アダム
(72)【発明者】
【氏名】イースト、ジェイムズ エドワード
(72)【発明者】
【氏名】ブレイデン、バーバラ
(72)【発明者】
【氏名】チョウ、フェリックス
(72)【発明者】
【氏名】ルー、シン
【テーマコード(参考)】
4C161
5B057
5L096
【Fターム(参考)】
4C161CC06
4C161HH51
4C161SS21
4C161WW13
4C161WW18
5B057AA07
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CE02
5B057CE03
5B057CE06
5B057CE11
5B057CE17
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC36
5B057DC40
5L096AA02
5L096BA06
5L096BA13
5L096CA04
5L096DA01
5L096EA39
5L096FA53
5L096FA59
5L096FA62
5L096GA55
5L096HA09
5L096HA11
5L096KA04
5L096KA15
5L096MA01
5L096MA03
(57)【要約】
分析装置は、内視鏡検査手順を撮像する連続したフレームを含むビデオ画像信号を分析する。機械学習ブロックは、フレームの領域をそれぞれのタイプの画像アーチファクトに対応する複数のクラスのうちの1つに属するものとして分類する機械学習技術を使用してビデオ画像信号を分析する。クラスは、画像の動きボケに対応する動きボケ・クラス、画像の誤った露出のタイプに対応する少なくとも1つの誤った露出クラス、及びノイズである画像アーチファクトのタイプに対応する少なくとも1つのノイズ・アーチファクト・クラスを含む。品質スコア・ブロックは、分類された領域に基づいて連続したフレームの画像品質を表す品質スコアを導出する。
【特許請求の範囲】
【請求項1】
内視鏡検査手順を撮像する連続したフレームを含むビデオ画像信号を分析する方法であって、
前記フレームの領域を異なるタイプの画像アーチファクトに対応する複数のクラスのうちの1つに属するものとして分類する機械学習技術を使用して前記ビデオ画像信号を分析するステップであって、前記クラスが、
前記画像の動きボケに対応する動きボケ・クラス、
前記画像の誤った露出のタイプに対応する少なくとも1つの誤った露出クラス、及び
前記フレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも1つのノイズ・アーチファクト・クラスを含む、ステップと、
分類された前記領域に基づいて前記連続したフレームの画像品質を表す少なくとも1つの品質スコアを導出するステップと、を含む方法。
【請求項2】
前記少なくとも1つの誤った露出クラスは、前記画像の露出過剰及び前記画像の露出不足にそれぞれ対応する2つの誤った露出クラスを含む、請求項1に記載の方法。
【請求項3】
前記少なくとも1つのノイズ・アーチファクト・クラスは、
気泡による前記画像のオクルージョンに対応するノイズ・アーチファクト・クラス、
鏡面反射に対応するノイズ・アーチファクト・クラス、
気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスのうちの1つ又は複数を含む、請求項1又は2に記載の方法。
【請求項4】
気泡又は鏡面反射以外の前記ノイズ・アーチファクトは、色収差又はデブリによるオクルージョンのうちの任意の1つ又は複数を含む、請求項1から3までのいずれか一項に記載の方法。
【請求項5】
前記少なくとも1つの品質スコアは、前記分類された領域の面積に基づき、前記品質スコアが、面積と共に減少する品質を表す、請求項1から4までのいずれか一項に記載の方法。
【請求項6】
前記少なくとも1つの品質スコアは、前記分類された領域の場所に基づき、前記品質スコアが、前記画像内の中心にある場所では、中心にない場所よりも低い品質を表す、請求項1から5までのいずれか一項に記載の方法。
【請求項7】
前記少なくとも1つの品質スコアは、すべてのタイプの前記分類された領域に基づいた組み合わされた品質スコアを含む、請求項1から6までのいずれか一項に記載の方法。
【請求項8】
前記組み合わされた品質スコアは、前記クラスに依存している重みによって重み付けされた各クラスの前記分類された領域の面積に基づき、前記品質スコアが、面積と共に減少する品質を表す、請求項7に記載の方法。
【請求項9】
前記組み合わされた品質スコアは、前記クラスに依存している重みによって重み付けされた各クラスの前記分類された領域の場所に基づき、前記品質スコアが、前記画像内の中心にある場所では、中心にない場所よりも低い品質を表す、請求項7又は8に記載の方法。
【請求項10】
前記重みは、前記分類された領域の数にさらに依存している、請求項8又は9に記載の方法。
【請求項11】
前記分類された領域が属する画像アーチファクトのクラスに対応する前記画像アーチファクトのタイプを減少させるように前記画像フレームを処理することによって、少なくともいくつかの画像フレームを復元するステップをさらに含む、請求項1から10までのいずれか一項に記載の方法。
【請求項12】
復元する前記ステップは、前記対応する画像アーチファクトのタイプを減少させるようにクラスごとの別個のプロセスによって、前記画像フレームを処理することを含む、請求項11に記載の方法。
【請求項13】
前記別個のプロセスは、前記領域が属するクラスの既定の順序で実施され、前記既定の順序は、任意選択的に、前記動きボケ・クラス、その後に前記少なくとも1つの誤った露出クラス、その後に前記少なくとも1つのノイズ・アーチファクト・クラスを含み得る、請求項12に記載の方法。
【請求項14】
前記動きボケ・クラスのためのプロセスは、前記動きボケを表す最適化カーネルを用いて前記フレームを逆畳み込みすることができるブラインド・フレーム・ボケ除去プロセスを含む、請求項12又は13に記載の方法。
【請求項15】
前記ブラインド・フレーム・ボケ除去プロセスは、任意選択的に事前情報を条件とし、並びに/又はl
2-文脈損失及び高周波文脈損失を含み得る文脈損失を埋め込む、敵対的生成ネットワークを使用する、請求項14に記載の方法。
【請求項16】
前記少なくとも1つの誤った露出クラスのためのプロセスは、任意選択的に非線形であり、及び/又は最適化ガンマ関数による補正を含む、ガンマ補正プロセスを含む、請求項12から15までのいずれか一項に記載の方法。
【請求項17】
前記ガンマ補正プロセスは、任意選択的に事前情報を条件とし、及び/又はl
2-文脈損失であり得る文脈損失を埋め込む、敵対的生成ネットワークを使用する、請求項16に記載の方法。
【請求項18】
前記少なくとも1つの誤った露出クラスのためのプロセスは、色転写をさらに含む、請求項16又は17に記載の方法。
【請求項19】
前記少なくとも1つのノイズ・アーチファクト・クラスのためのプロセスは、インペインティング・プロセスを含む、請求項12から18までのいずれか一項に記載の方法。
【請求項20】
前記インペインティング・プロセスは、任意選択的に事前情報を条件とし、及び/又はl
1-文脈損失であり得る文脈損失を埋め込む、敵対的生成ネットワークを使用する、請求項19に記載の方法。
【請求項21】
前記品質スコアに基づいて復元される前記画像フレームを選択するステップをさらに含む、請求項11から20までのいずれか一項に記載の方法。
【請求項22】
前記機械学習技術は、畳み込みニューラル・ネットワークである、請求項1から21までのいずれか一項に記載の方法。
【請求項23】
前記畳み込みニューラル・ネットワークは、単一のステージにおいて前記領域及び前記領域の前記クラスを同時に予測するように構成され、前記単一のステージは、空間ピラミッド・プーリングを使用し得る、請求項22に記載の方法。
【請求項24】
コンピュータ装置による実行が可能であり、実行時、請求項1から23までのいずれか一項に記載の方法を前記コンピュータ装置に実施させるように構成される、コンピュータ・プログラム。
【請求項25】
請求項24に記載のコンピュータ・プログラムを格納するコンピュータ可読記憶媒体。
【請求項26】
内視鏡検査手順の連続したフレームを含むビデオ画像信号を分析するための分析装置であって、
前記フレームの領域をそれぞれのタイプの画像アーチファクトに対応する複数のクラスのうちの1つに属するものとして分類する機械学習技術を使用して前記ビデオ画像信号を分析するように構成される機械学習ブロックであって、前記クラスが、
前記画像の動きボケに対応する動きボケ・クラス、
前記画像の誤った露出のタイプに対応する少なくとも1つの誤った露出クラス、及び
ノイズである画像アーチファクトのタイプに対応する少なくとも1つのノイズ・アーチファクト・クラスを含む、機械学習ブロックと、
分類された前記領域に基づいて前記連続したフレームの画像品質を表す品質スコアを導出するように構成される品質スコア・ブロックと、を備える分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ内視鏡検査に関する。
【背景技術】
【0002】
内視鏡検査は、診断及び低侵襲外科治療の両方に使用されるルーチン撮像技術である。元々は、食道、胃、及び結腸を撮像するために使用され、今では、ハードウェアの小型化及び撮像センサの改善が、耳、鼻、喉、心臓、尿路、関節、及び腹部の内視鏡検査を可能にしている。内視鏡検査は、任意のそのような管における疾患進行の監視、外科計画、及び外科治療の制御を提供する。内視鏡検査手順は、内視鏡によるビデオ画像信号の捕捉を伴う。ビデオ画像信号は、内視鏡手順を撮像する連続したフレームを含む。
【0003】
これらの内視鏡検査応用に共通して、様々な異なる撮像アーチファクトが、ビデオ画像を破損し、その視覚的解釈を妨げ、内視鏡検査の使用における重大な臨床的課題をもたらす。内視鏡内のカメラは、長い可撓性チューブに埋め込まれる。いかなる小さな手の動きも、記録されたビデオ内に深刻な動きアーチファクトを引き起こし得る。照明に必要とされる光は、組織及び周囲の流体と相互作用し得、非常に明るい画素エリア(鏡面性又は画素飽和のいずれかに起因して)を発生させる。異なる視野角及びオクルージョンが、露出不足に起因するコントラスト問題を結果としてもたらし得る。加えて、任意の他の複雑な現実世界の撮像応用と同様に、デブリ、液体、気泡などの視覚的クラッタが、下層組織の視覚的理解を制限し得る。
【0004】
そのようなアーチファクトは、内視鏡検査の有効性を制限する。例えば、アーチファクトは、例えば診断及び治療中、ビデオ画像を使用する医師の能力に影響を及ぼす。それは、診断の品質に直接影響を与える内視鏡医間での高オペレータ変動の理由の一部である。例として、これは、(参考文献48及び49)に開示されるように、初期段階に検出されている場合に限って効果的に治療することができる管腔GI癌に特に関連性がある。同様に、アーチファクトは、例えば、フォローアップ及びアーカイブのためのビデオ・モザイキング、報告のためのビデオ・フレーム検索など、ビデオ画像信号に対して実施されるいかなるコンピュータ支援の内視鏡検査法にも悪影響を及ぼす。選択されたアーチファクトの検出及び復元に対処する、ビデオ画像信号を分析する様々な方法が知られている。しかしながら、典型的には、内視鏡検査ビデオ画像は、多数のアーチファクトを含み、そのような知られている分析方法は、典型的な臨床応用において効果的であるソリューションを提供しない。
【0005】
例として、いくつかの知られている分析方法は、以下の通りである。
【0006】
(参考文献1及び2)は、ビデオ・フレーム品質評価法の研究を開示する。非常に有用なグローバル・ビデオ品質メトリックが紹介及び考察されているが、フレーム品質劣化の原因に関する情報や、劣化した領域を、フレーム復元のために特定することはできない。一般に、これらの品質スコアを利用することは、各アーチファクト・タイプの深刻度を考慮することなく、アーチファクトにより破損したフレームの除去を可能にするだけである。破損したフレームのそのような単純除去は、ビデオの情報内容量を大幅に減少させ、またそれらの全体的な時間的平滑性に影響を及ぼし得る。これの1つの悪影響は、例えば、(参考文献3)に開示されるように、連続した時間的フレームにおける少なくとも60%重複が成功することを必要とするモザイキング法であり得る。故に、アーチファクトは、効果的且つ信頼性の高いコンピュータ支援の内視鏡検査ツールを開発することにおける主たる障害である。正確な識別、分類、及び、可能な場合、復元は、ビデオ・データのダウンストリーム分析を実施するには絶対不可欠である。
【0007】
複数のアーチファクトを検出し、適切な復元を提供することは、非常に困難である。今日まで、大半の調査グループは、例えば、(参考文献4-7)において、内視鏡撮像における特定のアーチファクトだけを研究してきた。例えば、全変動(TV:Total Variational)手法を利用したワイヤレス・カプセル内視鏡検査画像のボケ除去が、(参考文献4)において提案された。しかしながら、TVベースのボケ除去は、パラメータに影響されやすく、上手く実施するためには幾何学的特徴を必要とする。内視鏡画像は、非常にまばらな特徴を有し、幾何学的に顕著な構造体に欠ける。
【0008】
(参考文献5-8)に開示されるようなハンドクラフト特徴及び(参考文献9)に開示されるようなニューラル・ネットワークの両方が、鏡面反射を復元するために使用されてきた。これらの既存の復元技術の主な欠点は、発見的に選ばれた画像強度が、近傍(ローカル)画像画素と比較されることである。一般に、ローカル情報及びグローバル情報の両方が、リアルなフレーム復元には必要とされる。ほぼすべての方法の1つの共通した制限は、当然ながら様々な異なる効果が内視鏡検査ビデオを破損するが、それらの方法が1つの特定のアーチファクト・クラスだけに対処することである。例えば、「鏡面性」及び水「気泡」の両方が同じフレーム内に存在し得る。内視鏡医はまた、特定の病理学的特徴をより良好に強調するために、取得中に異なるモダリティ(例えば、通常明視野(BF:Brightfield)、酢酸、狭帯域光観察NBI:Narrow-Band Imaging)、又は蛍光(FL:Fluorescence Light))間で動的に切り替える。最終的に、患者間変動は、同じモダリティで観察されるときでさえ著しい。既存の方法は、これらの課題のすべてに適切に対処することができない。
【0009】
1つのタイプの撮像アーチファクトに対処することに加えて、1つのみの撮像モダリティ、及び単一の患者ビデオ・シーケンスが、内視鏡検査ベースの画像分析文献の大半、例えば、(参考文献5-9)において、検討されている。
【発明の概要】
【課題を解決するための手段】
【0010】
本発明の第1の態様によると、内視鏡検査手順を撮像する連続したフレームを含むビデオ画像信号を分析する方法であって、フレームの領域を異なるタイプの画像アーチファクトに対応する複数のクラスのうちの1つに属するものとして分類する機械学習技術を使用してビデオ画像信号を分析するステップであって、上記クラスが、画像の動きボケに対応する動きボケ・クラス、画像の誤った露出のタイプに対応する少なくとも1つの誤った露出クラス、及びフレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも1つのノイズ・アーチファクト・クラスを含む、ステップと、分類された領域に基づいて連続したフレームの画像品質を表す少なくとも1つの品質スコアを導出するステップと、を含む方法が提供される。
【0011】
したがって、本方法は、第一に、6つの異なる主なアーチファクトを検出及び分類し、第二に、フレームごとの品質スコアを提供することができる完全自動のフレームワークを提供する。機械学習技術は、動きボケ、誤った露出、及び少なくとも1つのノイズ・アーチファクトの各々についてマルチクラス検出を提供し、実際に遭遇する可能性の高いすべてのタイプのアーチファクトの同時検出を提供する。パラメータ設定の手動調節、又は特定のアーチファクトにのみ好適であるハンドクラフト特徴の使用を必要とする以前の方法(例えば、上の(参考文献4~9)における)とは異なり、多患者及び多モードビデオ・フレームを利用し得る多クラス・アーチファクト検出が適用される。
【0012】
分類された領域は、連続したフレームの画像品質を表す品質スコアを導出するために使用される。そのような品質スコアは、いくつかの利点をもたらす。それが、分類された領域から導出されることから、品質スコアは、体系的に導出されたものであり、品質の高信頼尺度である。そのような手法は、誤った分類率を減少させ、検出方法を、及び、続いて適用される場合はフレーム復元方法も、より良好に一般化する。
【0013】
品質スコアは、例えば以下のように、多くの方式で使用され得る。品質スコアは、内視鏡医にリアルタイムで提供され得、これにより、内視鏡医が、例えば、撮像された管の部分の内視鏡検査を繰り返すことによって、又は内視鏡検査装置若しくは手順の設定を変更することによって、内視鏡検査手順を適合させることを可能にする。同様に、品質スコアは、それが、捕捉されているビデオ画像信号の品質に関する高信頼の情報を提供することから、内視鏡医の訓練中に使用され得る。他の状況では、品質スコアは、品質の記録としてビデオ画像信号と一緒に格納され得、これは、特定のビデオ画像信号の臨床的有用性又は内視鏡医の能力を評価するために使用され得る。このシステムはまた、内視鏡医の訓練のために使用され得る。動きボケの検出は、例えば、訓練生に、どこで速度を落とさなければならないのか、又はどこで特定の解剖学的領域を再検査しなければならないのかに関する情報を提供するために直接使用され得る。
【0014】
少なくとも1つの誤った露出クラスは、画像の露出過剰及び画像の露出不足にそれぞれ対応する2つの誤った露出クラスを含み得る。
【0015】
少なくとも1つのノイズ・アーチファクト・クラスは、気泡による画像のオクルージョンに対応するノイズ・アーチファクト・クラス、鏡面反射に対応するノイズ・アーチファクト・クラス、気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスのうちの1つ又は複数を含む。後者の場合、気泡又は鏡面反射以外のノイズ・アーチファクトは、色収差又はデブリによるオクルージョンのうちの任意の1つ又は複数を含み得る。
【0016】
有利には、品質スコアは、以下の特徴を有し得る。
【0017】
少なくとも1つの品質スコアは、分類された領域の面積に基づき得、品質スコアは、面積と共に減少する品質を表す。
【0018】
少なくとも1つの品質スコアは、分類された領域の場所に基づき得、品質スコアは、画像内の中心にある場所では、中心にない場所よりも低い品質を表す。
【0019】
少なくとも1つの品質スコアは、すべてのタイプの分類された領域に基づいた組み合わされた品質スコアを含み得る。これは必須ではなく、品質スコアは、代替的に、画像アーチファクトのタイプに対応する各クラスに関して提示され得る。しかしながら、組み合わされた品質スコアは、それが品質の全体的尺度を提供することから、特に有用である。
【0020】
そのような組み合わされた品質スコアは、クラスに依存している重みによって重み付けされた各クラスの分類された領域の面積に基づき得、品質スコアは、面積と共に減少する品質を表す。
【0021】
そのような組み合わされた品質スコアは、クラスに依存している重みによって重み付けされた各クラスの分類された領域の場所に基づき得、品質スコアは、画像内の中心にある場所では、中心にない場所よりも低い品質を表す。
【0022】
重みは、分類された領域の数にさらに依存していてもよい。
【0023】
有利には、本方法は、分類された領域が属する画像アーチファクトのクラスに対応する画像アーチファクトのタイプを減少させるように画像フレームを処理することによって、少なくともいくつかの画像フレームを復元するステップをさらに含み得る。
【0024】
復元される画像フレームは、品質スコアに基づいて選択され得る。これは、品質スコアが、アーチファクトの深刻度の尺度、及びひいては高信頼の復元が可能であるかどうかを提供することから、有利である。復元のために選択されない画像フレームは、それらが復元後でも十分な品質のものではないという前提で破棄され得る。
【0025】
復元するステップは、対応する画像アーチファクトのタイプを減少させるようにクラスごとの別個のプロセスによって、画像フレームを処理することを含み得る。
【0026】
別個のプロセスは、領域が属するクラスの既定の順序で実施され得る。単一のフレーム内に複数のアーチファクトが存在する高い可能性に起因して、これらのアーチファクトの順序付けされていない復元は、効果的ではなく、フレーム品質の著しい低下のリスクを冒し得るということが理解されている。したがって、個々のアーチファクト・タイプの性質を考慮する順次的な復元プロセスが使用される。
【0027】
注意深く選ばれた正則化を用いた敵対的生成ネットワークは、破損したフレームを復元するために最終的に使用される。
【0028】
プロセスのいずれか又はすべてが、事前情報を条件とし得る敵対的生成ネットワークを使用し得る。
【0029】
そのような敵対的生成ネットワークは、文脈損失、例えば、動きボケ・クラスのためのプロセスの場合はl2-文脈損失及び高周波文脈損失、少なくとも1つの誤った露出クラスのためのプロセスの場合はl2-文脈損失、又は少なくとも1つの誤った露出クラスのためのプロセスの場合はl1-文脈損失を埋め込み得る。アーチファクトのタイプに依存するように正則化のタイプを選ぶことによって、復元の品質が改善される。
【0030】
既定の順序は、動きボケ・クラス、その後に少なくとも1つの誤った露出クラス、その後に少なくとも1つのノイズ・アーチファクト・クラスを含み得る。
【0031】
動きボケ・クラスのためのプロセスは、以下の特徴を有し得る。
【0032】
動きボケ・クラスのためのプロセスは、動きボケを表す最適化カーネルを用いてフレームを逆畳み込みすることができるブラインド・フレーム・ボケ除去プロセスを含み得る。
【0033】
少なくとも1つの誤った露出クラスのためのプロセスは、以下の特徴を有し得る。
【0034】
少なくとも1つの誤った露出クラスのためのプロセスは、非線形であり得、及び/又は最適化ガンマ関数による補正を含み得る、ガンマ補正プロセスを含み得る。
【0035】
少なくとも1つの誤った露出クラスのためのプロセスは、追加的に、色転写を含み得る。
【0036】
少なくとも1つのノイズ・アーチファクト・クラスのためのプロセスは、インペインティング・プロセスを含む。
【0037】
そのような注意深く選ばれたモデルは、高品質及び非常にリアルなフレーム復元の両方をもたらし得るということが実証されている。
【0038】
機械学習技術は、畳み込みニューラル・ネットワーク(CNN:Convolutional Neural Network)であり得る。高信頼のマルチクラス検出は、内視鏡データ内に存在する交差患者(cross patient)間及び交差モダリティにおけるマルチクラス・アーチファクト検出を効率的に一般化することができるマルチスケール及び深層畳み込みニューラル・ネットワーク・ベースの物体検出を通じて可能になる。
【0039】
CNNは、単一のステージにおいて領域及び領域のクラスを同時に予測するように構成され得る。CNNのそのような単一のステージは、空間ピラミッド・プーリングを使用し得る。
【0040】
本発明のさらなる態様によると、コンピュータ装置による実行が可能であり、実行時、請求項1から23までのいずれか一項に記載の方法をコンピュータ装置に実施させるように構成されるコンピュータ・プログラムが提供される。コンピュータ・プログラムは、コンピュータ可読記憶媒体に格納され得る。
【0041】
本発明の依然としてさらなる態様によると、内視鏡検査手順の連続したフレームを含むビデオ画像信号を分析するための分析装置が提供され、本分析装置は、本発明の第1の態様の方法と同様の方法を実施するように構成される。
【0042】
より良好な理解を可能にするため、本発明の実施例は、添付の図面を参照して、非限定的な実例としてこれより説明されるものとする。
【図面の簡単な説明】
【0043】
【
図1】内視鏡装置、及び内視鏡装置によって生成されるビデオ画像信号を分析する分析装置の概略図である。
【
図2】ビデオ画像信号のフレームの4つの実例を、それらのフレーム内の分類された領域を上に重ねて示す図である。
【
図3】分類された領域を上に重ねて示す、品質スコアが決定されたフレームの実例を、各フレーム内の領域の面積の円グラフと一緒に、示す図である。
【
図4】分類された領域を上に重ねて示す、品質スコアが決定されたフレームの実例を、各フレーム内の領域の面積の円グラフと一緒に、示す図である。
【
図5】動きボケ補正ブロックで実施されるCGANにおいて実施されるスコアリングプロセスの概略図である。
【
図6】露出補正ブロックで実施されるプロセスを、それにより処理されるフレームのいくつかの実例と一緒に示す、概略図である。
【
図7】アーチファクト検出についてのクラス特有の精度再現率曲線のセットを示す図である。
【
図8】異なるボケ除去方法を使用して実施される動きボケ補正の前及び後のフレームの対のセットを示す図である。
【
図9】露出補正プロセスの効果を例証する、フレームのセット及び関連RGBヒストグラムを示す図である。
【
図10】インペインティング・プロセスの効果を例証するフレームのセットを示す図である。
【
図11】復元のために選択されたフレームを示す3つのビデオ画像信号の時間的マップ、選択された比率のグラフ、及び存在するアーチファクトの各タイプの割合の円グラフを示す図である。
【発明を実施するための形態】
【0044】
【0045】
図1は、以下のように構成される内視鏡検査装置1及び分析装置10を例証する。
【0046】
内視鏡装置1は、カメラ3に接続される内視鏡2を備える。内視鏡検査中、内視鏡2は、人間(又は動物)の身体の管4に挿入され、カメラ3は、内視鏡検査手順のビデオ画像を表すことを含み、複数の連続したフレームを含む、ビデオ画像信号を捕捉する。ビデオ画像信号は、内視鏡検査装置2から、分析のために分析装置10へ供給される。内視鏡検査装置1は、概略的に示されており、一般には、任意の既知のタイプのものであってもよく、分析装置10によって実施される分析は、内視鏡検査装置1の性質に依存していない。
【0047】
分析装置10は、実行時、分析装置10にビデオ画像信号を分析する方法を実施させるコンピュータ・プログラムを実行するコンピュータ装置であってもよい。
図1は、その方法のステップを実施する機能ブロックを例証する。コンピュータ装置は、任意のタイプのコンピュータ装置であってもよいが、典型的には、従来構造のものである。コンピュータ・プログラムは、コンピュータ装置による実行が可能である任意の好適なプログラミング言語で記述され得る。コンピュータ・プログラムは、コンピュータ可読記憶媒体に格納され得、このコンピュータ可読記憶媒体は、任意のタイプのもの、例えば、コンピューティング・システムのドライブ内に挿入可能であり、磁気的、光学的、若しくは光磁気的に情報を格納し得る記録媒体、ハードドライブなどのコンピュータ・システムの固定記録媒体、又はコンピュータ・メモリであってもよい。
【0048】
分析装置10の記憶装置11は、内視鏡検査装置1から供給されるビデオ画像信号を表す入力ビデオ・データ12を格納する。
【0049】
分析装置10の分析装置10は、以下の通りに分析方法を実施して、内視鏡データ内に存在する複数のアーチファクトの自動検出及び検出されたアーチファクトのその後の復元の両方のために、交差モダリティ及び患者間のビデオ画像信号を取り扱う体系的且つ一般的な手法を提供する。そのようなアーチファクトは、フレーム内に、線形、非線形、又は両方で具現化され得る。
【0050】
CNNブロック13は、ビデオ画像信号を分析するために使用される畳み込みニューラル・ネットワーク(CNN)を実施する。CNNは、機械学習技術の一例である。CNNは、ビデオ画像信号のフレームの領域を複数のクラスのうちの1つに属するものとして分類する。それらのクラスは、以下に説明されるように、画像アーチファクトのそれぞれのタイプに対応する。1つの実例において、画像アーチファクトの6つのタイプに対応する6つのクラスが例証される。
【0051】
コンピュータ・ビジョンにおける近年の研究は、リアルタイム応用にロバスト且つ好適である物体検出器を提供する。ここでは、CNNは、異なるアーチファクトをリアルタイムで識別するマルチスケール深層物体検出モデルを使用する。
【0052】
CNNにおいて実施される機械学習技術の一般的議論は以下の通りである。
【0053】
深層学習は、従来のハンドクラフト「スライディング・ウィンドウ式」物体分類手法(例えば、(参考文献11)に開示されるような)を一般化する物体検出器の構築を可能にする。
【0054】
OverFeat(参考文献12)及びR-CNN(参考文献13)を含む初期の試みは、固定数の事前生成された候補物体領域提案(参考文献14)を使用して、関連特徴を学習し、物体を検出するための畳み込みニューラル・ネットワーク(CNN)の能力を実証した。高速R-CNN(参考文献15)はまず、中間処理なしに、初期領域提案ネットワーク及び提案された領域の連続した分類をもたらす、完全に訓練可能なエンド・ツー・エンド・ネットワークを導入した。領域提案生成が、順次に境界ボックス検出の先に起こるため、このアーキテクチャは、2ステージ検出器として知られる。非常に正確ではあるが、主な欠点は、その緩徐な推論及び広範囲の訓練である。
【0055】
代替的に、CNNは、単一のステージにおいて領域及び領域のクラスを同時に予測し得る。例えば、You Only Look Once(YOLO、(参考文献16))は、優れた性能及び大幅により高速な推論時間で、単一のCNN及び単一の損失関数を使用してクラス及び境界ボックス座標を同時に予測するために、高速R-CNNを単純化した。この同時検出は、1ステージ検出器として知られる。2ステージ検出器と比較して、単一ステージ検出器は、1)様々なサイズの物体の存在、及び2)より正確なポジティブ・ボックス・マイニングを要する、高い初期数のアンカー・ボックス要件に起因する、高い誤検出という主に2つの問題に苦しむ。前者は、特徴ピラミッド(参考文献17-18)を使用して複数のスケールで境界ボックスを予測することによって補正される。後者を解決するために、RetinaNet(参考文献19)は、難しい誤分類された試料により焦点を合わせるために伝搬損失を調節する新たなフォーカル損失を導入した。近年、YOLOv3(参考文献20)は、さらなる速度改善を伴ったRetinaNetアーキテクチャを単純化した。境界ボックスは、RetinaNetにおけるフォーカル損失とは違って複数のクラスに属する物体の検出を可能にするために、物体らしさ(Objectness)スコア及び独立ロジスティック回帰を利用して単に3つの異なるスケールで予測される(RetinaNetにおける5つとは違って)。まとめると、高速R-CNN、RetinaNet、及びYOLOv3が、一般に普及した自然画像ベンチマークCOCOデータセット(参考文献21)に対する正確性対速度の現在の先行技術の検出エンベロープを規定する。
【0056】
これらの利点に起因して、CNNブロック13において実装されるCNNは、有利には、上に説明される技術のいずれかを含む、単一のステージにおいて領域及び領域のクラスを同時に予測するタイプのものであるが、好ましくは、空間ピラミッド・プーリングが、大小両方のサイズのアーチファクトを捕捉するための単一のステージを可能にするために使用される。これは、実用価値のあるものであるリアルタイム・アーチファクト検出を可能にし、例えば、データ取得中に内視鏡医にフィードバックを提供するために検出結果が使用されることを可能にする。
【0057】
検出される異なるタイプの画像アーチファクトに対応するクラスは、以下の通りである。クラスは、3つのグループ、すなわち、
1.画像の動きボケに対応する動きボケ・クラス、
2.フレームの誤った露出のタイプに対応する少なくとも1つの誤った露出クラス、及び
3.フレームにノイズをもたらす画像アーチファクトのタイプに対応する少なくとも1つのノイズ・アーチファクト・クラス
に分けられ得る。
【0058】
これより、今度はこれらについて検討する。
【0059】
動きボケ・クラスは、画像の動きボケ、すなわち、撮像されている物体に対する内視鏡の運動によって生じるボケに対応する。これは、内視鏡検査においては一般的であり、ボケの最小化は、内視鏡医のスキルである。多くの場合、ボケは、画像のストリーキングとして現れる。動きボケは、撮像されている物体をゆがめることにより、画像の品質を低減させる。
【0060】
少なくとも1つの誤った露出クラスは、画像の露出過剰に対応するクラス、及び画像の露出不足に対応するクラスのうちのいずれか又は両方であり得る。内視鏡検査装置1は、典型的には、捕捉画像の明るさを配慮する画像センサの全体的な露出設定を変更することなど、一般にカメラについて知られる様々な技術を使用して露出制御を実施し得る。しかしながら、これにもかかわらず、内視鏡ビデオ画像が露出過剰の領域及び/又は露出不足の領域を有することは依然として一般的である。露出過剰は、明るい画素の領域として観察され、以下では「飽和」とも称される。露出不足は、低コントラストの領域として観察され、以下では「低コントラスト」とも称される。これらの両方のタイプの誤った露出は、物体の特徴を判別するのを困難にすることによって、画像の品質を低減させる。
【0061】
少なくとも1つのノイズ・アーチファクト・クラスは、一般に、フレームにノイズをもたらす任意の画像アーチファクトに対応し得る。そのような画像アーチファクトは、ビデオ画像に対する付加ノイズと見なされ得るが、典型的には、カメラ3において発生する電気ノイズ又は他のノイズによってではなく、物理的障害物又は光学効果によって引き起こされる。
【0062】
少なくとも1つのノイズ・アーチファクト・クラスは、気泡による画像のオクルージョンに対応するノイズ・アーチファクト・クラスを含み得る。典型的には、内視鏡検査ビデオ画像には、下層組織の外観をゆがめる水気泡が存在する。
【0063】
少なくとも1つのノイズ・アーチファクト・クラスは、鏡面反射に対応するノイズ・アーチファクト・クラスを含み得る。典型的には、内視鏡検査ビデオ画像において、鏡のような表面反射がアーチファクトを引き起こす。これらは、本明細書内では以後「鏡面性」と称される。
【0064】
少なくとも1つのノイズ・アーチファクト・クラスは、色収差又はデブリによるオクルージョンなど、気泡又は鏡面反射以外のノイズ・アーチファクトに対応するノイズ・アーチファクト・クラスを含み得る。これらは、本明細書内では以後「種々の(miscellaneous)」アーチファクトと称される。
【0065】
CNNブロック13は、ビデオ画像信号のフレームの分類された領域を識別するアーチファクト・データ14を出力する。各々の分類された領域に関して、アーチファクト・データ14は、典型的には境界ボックスにより、領域自体、すなわち、領域を構成する画素、及び領域が属するクラスの両方を識別する。
【0066】
例として、
図2は、ビデオ画像信号のフレームのいくつかの実例を例証し、これらのフレームの上には、実施されたCNNがYOLOv3-SPPであった実例では、CNNブロック13によって分類されたそれらのフレーム内の領域を識別する境界ボックス及びラベルが重ねられている。
【0067】
品質スコア・ブロック15は、アーチファクト・データ14によって識別される分類された領域に基づいて、連続したフレームの画像品質を表す品質スコアを導出する。品質スコア・ブロック15は、各フレームに関する品質スコアを表す品質データ16を出力する。
【0068】
品質スコア・ブロック15は、以下の通りに品質スコアを導出する。
【0069】
品質評価は、画像破損が画像分析方法に大いに影響を及ぼすことから、ビデオ内視鏡検査において重要である。しかしながら、すべてのフレームが同じ割合で破損されるわけではないと思われる。フレーム内に存在するアーチファクトの量及びタイプに応じて、リアルなフレーム復元が可能であり得る。この実例では、品質スコアは、該当するフレーム内のすべてのタイプの分類された領域に基づいた組み合わされた品質スコアである。
【0070】
品質スコアQSは、フレームの品質を表し、a)クラス(すなわち、画像アーチファクトのタイプ)、b)面積、及びc)フレーム内の各々の分類された領域内のフレーム内での場所に基づく。重みが、これらのカテゴリの各々に割り当てられ、平均重みが、品質スコアとして計算される。故に、品質スコアは、以下のように計算され得、
QS=[1-Σ(λAWCWA+λLWCWL)]0 (1)
式中、総和は、画像内の各々の検出されたアーチファクトに関連付けられる領域のセットに及び、WCは、領域のクラスと関連付けられたクラス重みであり、WAは、領域の面積と関連付けられた面積重みであり、WLは、画像の場所と関連付けられた場所重みであり、λA、λLは、面積及び場所の互いに対する相対的寄与を重み付けする相対的重みである。故に、品質スコアQSは、分類された領域の性質に応じて、1の値から減少するが、下限値はゼロである。
【0071】
クラス重みWC、面積重みWA、及び場所重みWLの各々の値は、領域のクラス、面積、及び場所と関連付けられた復元の容易性及び重要性に依存する。
【0072】
クラス重みWCの値は、画像アーチファクトのそれぞれのタイプの復元の容易性に依存する。例えば、動きボケは、フレーム全体にわたっていても、フレームにノイズをもたらす画像アーチファクトのタイプよりも容易に復元されるため、ノイズ・アーチファクト・クラスのクラス重みは、動きボケ・クラスのクラス重みよりも高い。同様に、露出不足は、露出過剰よりも容易に復元されるため、露出過剰クラスのクラス重みは、露出不足クラスのクラス重みよりも高い。
【0073】
好適な重み付けスキームの実例として、上で論じられるクラスのクラス重みWCの値は、動きボケ0.05、飽和0.10、低コントラスト0.05、気泡0.10、鏡面性0.20、及び種々のアーチファクト0.50であり得る。
【0074】
等式(1)において、項λAWCWAは、品質スコアQSが、フレーム内の分類された領域の面積と共に減少する品質を表すようにする。
【0075】
面積重みWAの値は、面積と関連付けられた復元の容易性に依存する。故に、面積重みWAの値は、復元の容易性が面積と共に減少することから、面積と共に増加する。
【0076】
好適な重み付けスキームの実例として、面積重みWAの値は、例えば、フレームの総面積の一定の割合又は比率である、領域の面積と共に線形に単純にスケーリングし得る。代替として、面積重みWAの値は、非線形様式で領域の面積と共に増加し得る。
【0077】
等式(1)において、項λLWCWLは、品質スコアQSが、フレーム内の分類された領域の場所に基づくようにする。
【0078】
場所重みWLの値は、フレーム内での領域の場所と関連付けられた復元の重要性に依存する。すなわち、復元は、視覚の一貫性のために、中心の場所にある領域ではより高い重要性のものである。したがって、場所重みWLは、フレームの中心への近接性に伴って増加し、それにより、フレーム内での分類された領域の面積と共に減少する品質を表し、特に、品質は、場所が中心にない場合よりも、画像内の中心にある場所で低くなる。
【0079】
好適な重み付けスキームの実例として、領域内の異なる場所についての場所重みWLの値は、領域の中心部0.5、領域の左部0.25、領域の右部0.25、領域の上部0.25、領域の下部0.25、領域の左上部0.125、領域の右上部0.125、領域の左下部0.125、及び領域の右下部0.125であり得る。
【0080】
単純な実例において、相対的重みλA、λLは、一定値、例えば、λA=0.5、λL=0.5をとり得る。代替的に、相対的重みλA、λLは、分類された領域の数にさらに依存していてもよい。例えば、相対的重みλA、λLが一定値をとる重み付けスキームは、大面積のアーチファクトが存在する場合は特に、わずかの検出されたアーチファクト(例えば、5つ未満)を有するフレームを強調する。故に、より複雑化した重み付けスキームにおいて、こうした定数λA、λLは、減少した数の領域については増加し得、例えば、領域の数が5以上である場合は値λA=0.5、λL=0.5をとり、領域の数が5未満である場合は値λA=1、λL=1をとる。
【0081】
例として、
図3及び
図4は、品質スコアが、分類された領域のクラス、面積、及び場所にどのようにして依存するかを実証する2つのフレームの実例を示す。実施されたCNNがYOLOv3-SPPであった実例において、CNNブロック13によって分類されたそれらのフレーム内の領域を識別する境界ボックス及びラベルは、画像の上に重ねられ、異なるクラス内の領域の面積の円グラフが横に示される。
【0082】
図3の実例は、露出不足クラス(「コントラスト」とラベル付けされる)に分類される大面積の領域を有するフレームである。しかしながら、品質スコアは、中心の場所及び大面積にもかかわらず露出不足クラスのクラス重みW
Cが低いことから、0.75という比較的高い値をとり、これは、フレーム強度が容易に復元され得ることから、適切である。
【0083】
図4の実例は、領域複数の種々のアーチファクト及び鏡面性を有するフレームを示す。品質スコアは、種々のアーチファクト及び鏡面性が、高いクラス重みW
Cを有し、また中心に位置し、これがリアルなフレーム復元を抑制することから、0.23という比較的低い値をとる。
【0084】
故に、上の実例では、各々の品質スコアは、該当するフレーム内のすべてのタイプの分類された領域に基づいた組み合わされた品質スコアである。
【0085】
しかしながら、品質スコア・ブロック15は、代替的又は追加的に、アーチファクトの各タイプに関する品質スコアを導出し得る。それは、内視鏡医に提供される情報を補強し、例えば、特定のタイプのアーチファクトを低減するように内視鏡検査手順が適合されることを可能にする。
【0086】
品質スコアは、例えば以下のように、多くの方式で使用され得る。品質スコアは、内視鏡医にリアルタイムで提供され得、これにより、内視鏡医が、例えば、撮像された管の部分の内視鏡検査を繰り返すことによって、又は内視鏡検査装置若しくは手順の設定を変更することによって、内視鏡検査手順を適合させることを可能にする。同様に、品質スコアは、それが、捕捉されているビデオ画像信号の品質に関する高信頼の情報を提供することから、内視鏡医の訓練中に使用され得る。他の状況では、品質スコアは、品質の記録としてビデオ画像信号と一緒に格納され得、これは、特定のビデオ画像信号の臨床的有用性又は内視鏡医の能力を評価するために使用され得る。
【0087】
分析装置10の画像復元ブロック20は、ビデオ・データ11によって表されるビデオ画像信号に対して復元プロセスを実施する。画像復元ブロック20は、ビデオ画像信号の多くのフレームの高品質復元を提供し、それにより、診断目的のために、全体的な品質及びビデオ画像信号の有用性を改善する。しかしながら、画像復元ブロック20の使用は、必須ではなく、上のように導出される品質スコアは、それ自体が有用である。
【0088】
画像復元ブロック20は、以下の機能ブロックを含む。
【0089】
選択ブロック21は、品質スコア・データ16によって表される品質スコアに基づいて、復元のためのビデオ画像信号のフレームを選択する。これは、フレームの破損の度合いが、復元が価値のあるものであるか、又は可能であるかの度合いに影響を及ぼすことを認識する。故に、選択ブロック21は、例えば、以下のように閾値と比較される、品質スコアQSに基づいて、フレームを分類する:
QS<0.5:破損が激しいと分類されるフレーム、
0.5≦OS≦0.95:破損が軽いと分類されるフレーム、及び
QS>0.95:高品質と分類されるフレーム。
【0090】
閾値のレベルは、ユーザ指定され得る。
【0091】
破損が激しいと分類されるフレームは、選択されず、代わりに、フレームを許容レベルまで復元することができないため、復元が価値のあるものではないということに基づいて、いかなるさらなる処理もなしに破棄される。
【0092】
高品質と分類されるフレームは、復元の必要なしにすでに十分な品質のものであるため、選択されない。代替として、高品質と分類されるフレームが選択されてもよい。
【0093】
破損が軽いと分類されるフレームは、復元のために選択される。
【0094】
選択されたフレームは、拡張ブロック22に供給される。拡張ブロック22は、選択されたフレーム内の分類された領域を拡張して、拡張領域を提供する。動きボケ・クラスに関して、拡張領域は、フレーム全体であり得る。他のクラスに関して、拡張領域は、分類された領域から拡張されるが、分類された領域が、拡張がフレームの境界を越えて延在する十分に大きい面積である場合を除き、一般には、フレーム全体ではない。拡張ブロック22は、拡張領域を表す拡張データ23を出力する。拡張データ23は、さらなる処理のために後のブロックに供給される。
【0095】
3つのさらなるブロックは、分類された領域が属する画像アーチファクトのクラスに対応する画像アーチファクトのタイプを低減するように画像フレームを処理し、復元されたビデオ画像信号を表す復元されたビデオ・データ27を出力することによって、実際の復元プロセスを実施するために存在する。
【0096】
これらのさらなるブロックは、動きボケ・クラスに分類された領域を復元するためのプロセスを実施する動きボケ補正ブロック24、誤った露出クラスのうちの1つに分類された領域を復元するためのプロセスを実施する露出補正ブロック25、及びノイズ・アーチファクト・クラスのうちの1つに分類された領域を復元するためのプロセスを実施するノイズ・アーチファクト補正ブロック26である。故に、クラスごとの別個のプロセスが、対応する画像アーチファクトのタイプを低減するためにこれらの3つのブロックにおいて実施される。単一のフレームが複数のアーチファクトによって破損され得、各アーチファクト・クラスが内視鏡フレームに異なって影響を及ぼし得るため、別個のプロセスは、実際に遭遇されるすべてのタイプの画像アーチファクトのための効果的な復元を提供することができる。
【0097】
復元プロセスは、動きボケ・クラス、その後に少なくとも1つの誤った露出クラス、その後に少なくとも1つのノイズ・アーチファクト・クラスである、領域が属するクラスの既定の順序での処理を実施することに起因して、特に効果的である。これは、以下の理由からである。
【0098】
画像復元は、リアル且つノイズ・フリーの画像画素を破損した画像画素から生成するプロセスである。内視鏡フレーム復元においては、アーチファクト・タイプに応じて、目標は、完全にノイズ・フリーの画像の生成、又は周囲画素情報を使用した望ましくない画素の画素インペインティングのいずれかである(参考文献22)。マルチクラス内視鏡アーチファクト復元では、復元ブロックは、1)h(.)が未知のとき、動きボケ補正ブロック24においてフレーム・ボケ除去を使用し、すなわちブラインドボケ除去タスクであり、2)コントラクト不均衡の効果を最小限にし(フレーム内の露出過剰及び露出不足領域の補正、すなわち、露出補正ブロック25におけるγ補正、並びに3)鏡面画素及び撮像アーチファクト又はデブリありの画素をインペインティングで置き換え、すなわち、ノイズ・アーチファクト補正ブロック26における付加ノイズη(.)の補正又は組み合わされた非線形関数F(.)である。
【0099】
単一のフレーム内に複数のアーチファクトが存在する可能性が高いことに起因して、これらのアーチファクトの順序付けされていない復元は、フレーム品質をさらに壊滅させ得る。したがって、アーチファクトの個々のタイプの性質を考慮する順次的な復元プロセスが使用される。
【0100】
最適化又は推定問題として、ノイズの多い、及び破損された入力画像Iを得られる真の信号の再構築を定式化することは、十分に動機付けされた数学モデルを要求する。様々な異なるタイプのアーチファクトは、高品質結果を達成するために複雑なソリューションを必要とする複雑性のレベルを誘発する。画像ノイズが付加的であることを前提とし、動きボケを未知のカーネルを用いた線形畳み込みとして近似することは、理にかなっている。加えて、コントラスト及び画素飽和問題は、非線形ガンマ補正として定式化され得る。これらの現象の組み合わせたプロセスに起因する他の残っているアーチファクト(例えば、鏡面性、気泡、及び撮像アーチファクト)は、プロセス全体の関数と仮定され得る。
【0101】
ビデオ画像信号がf(t)であるとすると、破損したノイズの多いビデオ・フレームは、したがって、以下のように近似され得、
I(t)=F[(h*f(t)+η)γ] (2)
式中、ηは、撮像システムによって誘発される付加ノイズであり、hでの畳み込み誘発された動きボケへの近似、γは、露出過剰及び露出不足領域を捕捉し、Fは、他のアーチファクト(鏡面性、気泡、及び撮像アーチファクトを含む)、又はそれらの組み合わせも同様に捕捉することをモデル化する一般非線形関数である。
【0102】
このモデルは、なぜビデオ・フレームの復元が、既定の順序で実施される別個の処理ステップへと構造化されるのかを説明する。すなわち、動きボケ、次いで誤った露出、及び次いでノイズ・アーチファクトのための補正の既定の順序は、ノイズの成分に対応する数学的演算が、等式(2)内のビデオ画像信号f(t)に対して操作する順序、すなわち、h、次いでγ、及び次いでF、に対応する。復元が異なる順序で実行される場合、個々のプロセスは、互いに破損することができ、あまり効果的ではない復元、又はフレーム品質の低下さえももたらす。
【0103】
動きボケ補正ブロック24、露出補正ブロック25、及びノイズ・アーチファクト補正ブロック26の各々において実施されるプロセスは、事前情報を条件とし、文脈損失を埋め込む、深層学習モデルを使用して、特に敵対的生成ネットワーク(GAN:Generative Adversarial Network)を使用して、実施される。
【0104】
近年、GAN(参考文献10)は、制限された訓練データを使用した画像から画像への翻訳問題に成功のうちに適用されている。本明細書で適用されるようなGANにおいて、生成器Gは、ランダムノイズ分布からサンプルG(z)を「生成」する(z~N(0,σ2I)を有するpnoise(z))一方、別個の識別器ネットワークは、現実の標的画像(x~非ゼロ平均ガウスを仮定したpdata(x))と生成器によって生成された偽画像とを区別しようとする。したがって、目的関数Vは、この場合、最小-最大問題である。
minG maxD V(D,G)=Ex~pdata(x)[log D(x)]+Ez~pnoise(z)[log(1-D(G(z)))] (3)
【0105】
実際には、等式(3)における生成器モデルは、サンプルがランダム入力ノイズから生成されることから、かなり非凸状であり、不安定であり、訓練が遅い。様々なグループ(参考文献23~26)が、この問題を解決するための方式を提供しており、再構築品質及び数値安定性の改善、並びに計算時間の低減を達成している。
【0106】
したがって、本明細書において適用される生成器出力の安定性を確実にするための1つの一般に普及した方式は、事前情報をGANの必要条件とすることである(例えば、CGANにおけるクラスラベル「y」(参考文献23))。CGANのための目的関数Vcondは、以下のように記述され得る。
minG maxD Vcond(D,G)=Ex,y~pdata(x,y)[logD(x|y)]+Ey~py,z~pz[log(1-D(G(z|y),y))] (4)
【0107】
本明細書において適用され得る別の効率的な方法は、文脈損失を使用して生成器を正則化することである(例えば、pix2pix(参考文献25)、deblurGAN(参考文献27))。(参考文献28)において、識別器及び生成器を正則化することは、視覚的品質を改善するのに大いに役立った。
【0108】
アーチファクト・クラス依存の文脈損失を埋め込むそのような条件付き敵対的生成モデル(参考文献23)(CGAN)は、効果的な復元のために訓練される。表1は、各ブロックで適用される復元法をまとめたものであり、以下にさらに詳細に説明される。
【表1】
【0109】
動きボケ・クラス内の分類された領域に対して動きボケ補正ブロック24で実施される復元プロセスが、これより検討されるものとする。
【0110】
動きボケは、内視鏡検査ビデオにおける共通の問題である。静止画像とは異なり、動きボケは、多くの場合、ビデオ・フレーム・データ内で未知のカーネルh(.)を伴って不均一である(等式(2)を参照)。いくつかのブラインド逆畳み込みが、動きボケ除去に適用されてきた。これらは、古典的な最適化法(参考文献29~31)からニューラル・ネットワーク・ベースの方法(参考文献32、33)にまで及ぶ。古典的な方法に勝る畳み込みニューラル・ネットワーク(CNN)の優れた性能にもかかわらず、CNNの主な欠点は、それらが、大量のハイパー・パラメータ及び大きな訓練データセットを調整することを要することである。ブラインド逆畳み込みは、ボケ画像がその一致するボケなし画像へ変換される、画像から画像への翻訳問題として提起され得る。故に、動きボケ補正ブロック24で実施されるCGANは、動きボケを表す最適化カーネルを用いてフレームを逆畳み込みするブラインド・フレーム・ボケ除去プロセスを使用する。
【0111】
CGANは、正則化としてl2-文脈損失(生成された画像と標的/鮮明画像との間の差を2乗)及び追加のl2高周波損失を伴って適用される。これは、動きボケが主に、画像エッジ、画像全体と比較して少しの特徴的な画像画素、に影響を及ぼすということによって動機付けされる。高周波画像はまず、4つの異なるスケールにおいて反復的な低域-広域フィルタリングを使用して訓練データ内のボケ画像及び鮮明画像の両方について計算される(参考文献34)。これらの画像は、次いで、生成器の挙動に関して識別器に追加の情報を提供するために使用される。
【0112】
したがって、動きボケ補正ブロック24で実施されるCGANは、等式(4)が以下のようになるように適合することによって訓練され、
minG maxD V’
cond(D,G)=V
cond+Σλ||x
real i-G(z
i|y
i)||
i (5)
式中、総和は、元画像及び高周波画像の対にわたり、λ=50であり、l=.であり、x
realは、復元のためのグラウンド・トゥルース画像(すなわち、この場合、鮮明画像)である。
図5は、等式(5)の演算を図式で例証しており、文脈高周波特徴損失を例証する。
【0113】
(参考文献10)にあるようなジェンセン・シャノン(JS:Jensen-Shannon)ダイバージェンスを使用した等式(4)の最小化は、モード崩壊、消滅していく勾配のような問題をもたらし得る。結果として、(参考文献35)は、勾配ペナルティを備えたWasserstein距離(WGAN-GP)を使用することを提案した。動きボケ補正ブロック24で実施されるCGANは、WGAN-GPに基づいた批評ネットワークを使用する(参考文献27)。
【0114】
誤った露出クラスのうちの1つにおける分類された領域に対して露出補正ブロック25で実施される復元プロセスが、これより検討されるものとする。飽和又は低コントラストの場合、光源と撮像された組織との間の小さい又は大きい距離が、大きい照明変化をもたらし得、これが飽和又は低コントラストを結果としてもたらし得る。これは、等式(2)内の変数γの役割を動機付ける。故に、露出補正ブロック25で実施される復元プロセスは、非線形であるガンマ補正プロセスを実施する。このガンマ補正プロセスは、最適化ガンマ関数による補正を含む。
【0115】
飽和又は低コントラスト画像画素は、多くの場合、鏡面性と比較して大きな画像面積にわたって発生し、画像全体に全体的に影響を及ぼす。加えて、これらの照明変化は、通常明視野(BF)モダリティにおいて、他のモダリティと比較して、より顕著に観察される。影響を受けた画像画素の補償は、影響を受けた画像面積のサイズによっては困難な問題である。飽和復元タスクは、画像から画像への翻訳問題として提起され、露出補正ブロック25は、飽和除去のために生成器-識別器ネットワークを訓練するためだけに、l2-文脈損失を伴って、上に説明される動きボケ除去のために使用される同じエンド・ツー・エンドCGAN手法を適用する。ここでは、l2-文脈損失は、それが、飽和に関する通常照明条件と低コントラスト条件との間の偏差を捕捉するのに望ましいことから、より好適である。
【0116】
2つの異なる照明条件のための任意のグラウンド・トゥルース・データの欠如に起因して、露出補正ブロック25は、乱反射(散乱光)及び周囲(画素飽和を伴う領域を付与する自然光への追加照明)照明1を含む自然風景画像、並びにcycleGANベースのスタイル変換(参考文献24)を使用してシミュレートされる内視鏡画像対(飽和画像及び通常のBF画像を用いて他の画像に対して別々に訓練され得る)を含む、融合データセットで訓練され得る。
【0117】
訓練セット内の自然画像の組み込みに起因する配色シフトを補正するために、露出補正ブロック25で実施されるプロセスは、生成されたフレームに適用される色転写(CRT:Color Transfer)をさらに含み得る。ソース画像Is、及び再色付けするための標的画像Itを前提に、それぞれの画素値(RGBチャネルでの)の平均(μs,μt)及び共分散行列(Σs,Σt)は、例えば開示されるように(参考文献36)、線形変換を通じて一致され得る。好適な線形変形は、以下によって得られ、
I’t=Σs
1/2Σt
-1/2(It-μt)+μs (6)
式中、I’tは、再色付けされた出力である。ソース内の飽和画素エリアからの色の再転写を回避するために、平均及び共分散行列は、最大強度値の画像強度<90%から計算される。
【0118】
例証のため、
図6は、訓練されたGANベースのネットワークを使用した露出補正ブロック25からの生成結果(右側)、及びグラウンド・トゥルース結果の非常に近くを示す色シフト補正後の生成結果(下)の実例を示す。
【0119】
低コントラスト・フレームを回復するために、CGAN飽和ネットワークは、同じ訓練データセットの反転画像対で訓練された。すなわち、露出過剰クラス(飽和)及び露出不足クラス(低コントラスト)は、訓練セットが反転されることを除き、同じ様式で処理される。
【0120】
ノイズ・アーチファクト・クラスのうちの1つにおける分類された領域に対してノイズ・アーチファクト補正ブロック26で実施される復元プロセスが、これより検討されるものとする。
【0121】
照明不一致及び視点変化は、気泡及び光る器官表面からの反射に起因して強力な輝点を引き起こし、水様の物質が、多色の色彩アーチファクト(本明細書では「撮像又は混合アーチファクト」と称される)を作成し得る。これらの不一致は、等式(2)内の線形(例えば、付加ノイズη)及び非線形ノイズ(関数F(.))の組み合わせとして現れる。したがって、ノイズ・アーチファクト補正ブロック26で実施される復元プロセスは、インペインティングを含む。そのようなインペインティングは、事前情報が影響を受けた領域内の飽和画素を置き換えるために使用されることから、周囲画素の情報を使用する。
【0122】
適用され得るインペインティング法は以下の通りである。TVインペインティング法は、幾何学構造を有する画像を復元するのに一般に普及しており(参考文献37)、テクスチャ合成にはパッチ・ベースの方法(参考文献38)が一般に普及している。しかしながら、これらの方法は、計算的に高価である。深層ニューラル・ネットワークにおける近年の進歩は、ほぼリアルタイムの性能で視覚的に妥当な画像構造及びテクスチャ(参考文献39)を回復することを証明した。しかしながら、それらは、マスクのサイズ、又は画像内の未知の画素の数に制限される。この文脈において、GAN(参考文献40~42)は、より大きいマスクを用いた場合でさえ、より高速でよりコヒーレントな再構築を提供することにより成功を収めることを示した。文脈損失及び生成損失の両方が、これらの方法において使用されている。Iizukaら(参考文献41)及びYuら(参考文献42)は、再構築品質を改善するためにローカル及びグローバル識別器を使用した。ネットワークの受容野を拡大するために、(参考文献42)は、(参考文献41)内のDCGANの代わりにWGAN-GPを使用した粗密ネットワーク・アーキテクチャをさらに使用した。追加的に、距離ベースの重みマスクを使用したl1割引文脈(再構築)損失が、追加された正則化のために使用された(参考文献42)。(参考文献41)と比較して低減された訓練時間及びより優れた再構築品質に起因して、ノイズ・アーチファクト補正ブロック26は、インペインティングのために(参考文献42)において提案されたネットワークを使用し得る。
【0123】
例として、分析装置10を使用した実験は、以下の通りに実施された。
【0124】
7つの固有の患者ビデオ(胃食道、200本のビデオの大規模コホートから選択される)が、訓練のために使用され、10本の異なるビデオが、広範な検証のために使用された。実験は、この手法の有効性を例証するために、十分に確立されたビデオ品質評価メトリックを利用した。加えて、復元されたフレームの品質は、2人の経験豊富な内視鏡医によっても評価されている。視覚的改善、重要性、及び復元されたフレーム内の任意の人工的に導入されたアーチファクトの存在又は不在に基づいたスコアが、これらの専門家によって提供された。
【0125】
アーチファクト検出のための内視鏡検査データセットは、以下の通りであった。
【0126】
アーチファクト検出データセットは、訓練データのための200本の内視鏡ビデオのコホートから選択される7つの固有の患者ビデオからサンプリングされる、2つの動作モダリティ:通常明視野(BF)及び狭帯域光観察(NBI)からの合計1290枚の内視鏡検査画像(512×512画素にリサイズされる)で構成された。選択は、これらのビデオ内に存在する代表的なアーチファクトの数、及び下層の食道のテクスチャ可変性に基づいた。2人の専門家が、各々の注釈が分類される境界ボックスを使用して合計6504個のアーチファクトに注釈を付けた。
【0127】
90%-10%分割が、物体検出のための訓練試験セットを構築するために使用され、結果として、1161枚及び129枚の画像、並びに5860個及び644個の境界ボックスをそれぞれもたらした。一般に、訓練及び試験データは、同じクラス分布及び同様の境界ボックス(ほぼ正方形)を呈するが、0.2未満の平均幅を有して小さいか、又は0.5超の幅を有して大きいかのいずれかである。所与の領域が複数のアーチファクトを含む場合、複数の注釈が使用される。
【0128】
アーチファクト検出のための高速R-CNN、RetinaNet、及びYOLOv3アーキテクチャを調査した。検証されたオープン・ソース・コードは、これらのアーキテクチャのすべてに使用可能である。実験的に、ロバストな検出、及び内視鏡アーチファクト検出のための改善された推論時間のため、空間ピラミッド・プーリングを備えたYOLOv3(YOLOv3-SPP)を組み込むことを選択した。空間ピラミッド・プーリングは、YOLOv3アーキテクチャからの複数スケールにおいて、計算された単一ステージCNN特徴を利用して部分画像領域からの特徴をプールすることを可能にした。推論速度の上昇に加えて、空間ピラミッド・プーリングを組み込むことは、古典的なYOLOv3法(セクションIV-Bを参照)と比較して擬陽性検出を減少させた。YOLOv3-SPPは、臨床環境での使用の主な要件である正確性-速度のトレードオフのための卓越した特徴を提供した。
【0129】
品質評価メトリックに関して、アーチファクト検出を評価するために、標準平均精度(mAP:mean Average Precision)及びIntersection-over-Union(IoU)メトリックが使用された。定量的尺度として、mAP5、mAP25、及びmAP50とそれぞれ表される5%、25%、及び50%のポジティブな整合のためのIoU閾値におけるmAP、ポジティブな整合間の平均IoU、注釈付きのボックスの数に対する予測したボックスの数、並びに1つの画像のための平均推論時間を使用して、すべてのアーキテクチャの検出結果を定量的に比較した。ボケ除去法の品質評価では、ピーク信号対ノイズ比(PSNR:Peak Signal-to-Noise Ratio)及び構造的類似性(SSIM:Structural Similarity)尺度が使用された。飽和及び鏡面性復元タスクの定量化のためにPSNRの制限を克服するためにさらに含まれるのは、ゆがみのタイプとは無関係である、より高度な視覚情報忠実性(VIF:Visual Information Fidelity、(参考文献44))、及び相対的エッジコヒーレンス(RECO:Relative Edge Coherence、(参考文献45))品質評価メトリックである。
【0130】
表2は、異なるニューラル・ネットワーク・アーキテクチャを用いた試験セットに対するアーチファクト検出結果を示す。すべてのタイミングは、単一の6GB NVIDIA GTX Titan Black GPU上に報告され、129枚すべての試験画像にわたって評価される単一の512×512画像(おそらくは、示されるように入力に対してリスケーリングされる)についての平均時間である。グラウンド・トゥルース・ボックスの総数=644ボックスである。
【0131】
表2は、YOLOv3異形が、高速R-CNN及びRetinanetの両方に勝っていることを示す。YOLOv3-spp(提案されている)は、高速R-CNNよりも速い検出速度6で0.05及び0.25のIoU閾値においてそれぞれ49.0及び45.7という最良のmAPをもたらす(参考文献15)。Retinanetは38.9の最良IoUを呈するが、IoUは、境界ボックス注釈における注釈者相違の影響を受け、これは検出器の性能には類似しない場合があるということに留意されたい。
【表2】
【0132】
図7は、アーチファクト検出についてのクラス特有の精度再現率曲線を示し、表3は、異なる物体検出ネットワークのクラス特有の平均精度(AP:Average Precision)を示す。
図7及び表2は、クラス特有の性能に関して、YOLOv3-sppが、種々のアーチファクト及び気泡(両方とも内視鏡ビデオ内に圧倒的に存在する)を、それぞれ48.0及び55.9の平均精度で検出することにわたって最良であることを示す。高速R-CNNは、飽和(71.0)及びボケ(14.5)について最高平均精度をもたらしたが、RetinaNet及びYOLOv3は、それぞれコントラスト(73.6)及び鏡面性検出(40.0)について勝っていた。提案されたYOLOv3-sppは、鏡面性(34.7)、飽和(55.7)、及びコントラスト(72.1)について、2番目に良い平均精度スコアをもたらしたということは留意するに値する。
【表3】
【0133】
故に、要約すると、CNNブロック13は、49.0の最高平均精度(5%閾値におけるmAP)、及び88msの最低計算時間をもたらし、正確なリアルタイム処理を可能にする。
【0134】
復元は、以下の通りに実施された。
【0135】
動きボケ補正ブロック24では、モデルは、ボケのための15の異なるシミュレート運動軌道を有する10,710枚(715枚の固有の鮮明画像)の多患者及び多モード画像からなる、対になったボケ-鮮明データセットに対して300エポック訓練された((参考文献27)を参照)。
【0136】
追加された文脈及び高周波特徴損失を伴う条件付き敵対的生成ネットワークは、deblurGAN(参考文献27)、スケール回帰ネットワーク・ベースのSRN-DeblurNet(参考文献46)、及び従来型のTVベースの方法(参考文献31)と比較された。
【0137】
TV正則化重みλ及びボケカーネルrは、回復されたボケ除去画像の品質に影響を及ぼす(参考文献31)。λ=103及びr=2.3が、データセットのためのいくつかの反復パラメータ設定実験の後に選ばれた。再訓練は、ボケ除去モデルによって使用される同じデータセットに対して、SRN-DeblurNet(参考文献46)及びdeblurGAN(参考文献27)について実施された。フレーム・ボケ除去法は、視覚的に大きいボケを有する5つの画像及びシミュレートされた試験軌道(表4に示される)を使用して、並びに各々が30枚の画像を有する3つの異なる試験シーケンス(シミュレートされた動きボケ軌道、表5に示される)に対して、定量的に評価された。表4は、異なる動きボケを有する無作為に選択された画像についてのピーク信号対ノイズ比(PSNR)及び構造的類似性尺度(SSIM)を示す。表5は、条件付きGANモデルにおいて追加された高周波(HF:High Frequency)特徴損失(提案された)及び文脈損失のみ((参考文献27)に開示されるような)の両方を伴う試験軌道内の画像シーケンスについての平均PSNR及び平均SSIMを示す。
図8は、WL及びNBIフレームに対する異なるボケ除去法の定性的結果を例証する。
【0138】
表4は、l
2-文脈損失及び追加された高周波(HF)特徴損失を伴うCGANが、すべてのボケありフレームについて最高PSNR及びSSIM値をスコアする一方、TVベースの逆畳み込み法(参考文献31)が、すべてのフレームにわたって最小PSNR及びSSIM値を結果としてもたらしたことを示す。ほぼ1dBの増加が、フレーム#80、#99、及び#103については、deblurGAN法(参考文献27)に対して見ることができるが、2dBゲインが、#102、#116については、提案したモデルを使用したSRN-DeblurNet(参考文献46)に対して見ることができる。提案されたモデルは全体的に、表5内のボケ画像シーケンスについて、2番目に良いdeblurGANと比較して最良の結果をもたらす。これは、
図8において定性的にも見られる。SRN-DeblurNetは、WLフレーム及びNBIフレームの両方で右上において画像を変形させるということが観察され得る。
【表4】
【表5】
【0139】
露出補正ブロック25では、2つの異なる照明条件のための任意のグラウンド・トゥルース・データの欠如に起因して、モデルは、乱反射(散乱光)及び周囲(画素飽和を伴う領域を付与する自然光への追加照明)照明1を含む200枚の自然風景画像、並びにcycleGANベースのスタイル変換(参考文献24)を使用してシミュレートされる200枚の内視鏡画像対(7人の固有の患者からの飽和画像及び通常のBF画像を用いて別の200枚の画像に対して別々に訓練され得る)を含む、融合データセットで訓練された。
【0140】
飽和除去をグローバル問題として取り扱い、上で論じられるような露出過剰についてフレーム全体を補正する結果。表6は、CycleGANを使用したシミュレート・データセット内の19枚の無作為に選択された飽和画像についての平均PSNR及び平均SSIMを示す。シミュレート画像の品質評価(QA:Quality Assessment)、l
2-contexual CGAN、及び色再転写(CRT)法を使用した後処理が提供される。これらは、復元モデルが、すべての試験されたメトリック(PSNR、SSIM、VIF、及びRECO)にわたって増加した平均値を実証することを示す。
【表6】
【0141】
RECO(1.313から1.512へ)、及びVIF(0.810から0.818へ)のような視覚的品質メトリックについての色変換後の改善は、上昇した視覚的品質を例証する。
【0142】
これは、飽和及び鏡面性補正を例証する
図9に提示される定性的結果においても明らかである。特に、
図9は、フレーム、及び各フレームの右に関連RGBヒストグラム・トップを示す。
図9のヒストグラムにおいて、垂直軸は、周波数(0.00-0.10)であり、水平軸は、強度(0-255)である。
【0143】
第1の列のフレームは、最初の2つのフレーム内の飽和領域の輪郭、第3のフレーム内の輪郭鏡面性を伴う3つの異なる元の破損フレームである。第2の列のフレームは、訓練されたエンド・ツー・エンド生成器を使用して露出補正ブロック25によって復元された復元画像であり、第2の列に提示される。これは、左及び中央フレーム内の大きく飽和した画像パッチが、下層の画像詳細を保護しながら、訓練された生成器によって明白に除去されることを示す。
【0144】
第3の列のフレームは、補正画像強度の単純なリスケーリングの結果である。これは、CGAN復元フレームをリスケーリングすることによる
図9(第3の列)に示されるような単純なコントラスト・ストレッチングが、元の色調を回復することができないことを示す。
【0145】
第4の列のフレームは、代わりに色補正を使用した結果である。これは、色変換が、新たな飽和をもたらすことなくCGAN復元画像内に元の色一貫性を上手く復元することを示す。
【0146】
ノイズ・アーチファクト補正ブロック26では、ボトルネック手法が、places2データセットの事前訓練された重みで初期化されたモデルを再訓練するために使用された(参考文献43)。内視鏡検査画像内に存在する大きな視覚的変動を捕捉するために、品質スコア>95%を有する7つの異なる患者内視鏡検査ビデオからの1000枚の画像が、「クリーン」画像として使用された。172枚の画像が、訓練中、検証セットとして使用された。訓練セット及び検証セットの両方が、マルチモーダル内視鏡ビデオ・フレームを含んでいた。訓練及び検証中、異なるパッチ・サイズ{(5×5),(7×7),(11×11),(13×13),...,(33×33)}のマスクが、無作為に生成され、復元のために使用された。単一の画像は、復元のために1つ又は複数の生成されたマスクを有し得る。
【0147】
鏡面性及び他のローカル・アーチファクトは、上で論じられるようなインペインティングに基づいて除去される。インペインティング法を検証するために、25枚の画像のセット(クリーン)が、512×512画像サイズの合計画素の5%及び12%をカバーする無作為に選択されたパッチと共に使用された。l
1-文脈損失モデルを有する本発明のCGANベースのモデルを、広く使用されている従来のTVベース及びパッチ・ベースのインペインティング法と比較した。表7は、3つの異なる患者ビデオからの20枚の無作為に選択された画像上の21個の無作為にサンプリングされた矩形ボックスを伴う合計画像画素(512 512画素)の5%及び12%をカバーするマスクについて、欠損している画素の復元のためのPSNR、VIF(参考文献44)、及びRECO(参考文献45))メトリックについての平均値を示す。表7の結果は、l
1-文脈CGAN法が、VIF及びRECO尺度の両方について最良の品質保証値を有することを示す(5%マスク画素ではVIF:0.95、RECO:0.992、及び12%マスク画素ではVIF:0.883、RECO:0.983)。
【表7】
【0148】
TVベースのインペインティング法が両方の場合においてより高いPSNR値をスコアしたとしても、それは、最小のRECO値(5%及び12%の場合にそれぞれ0.984及び0.975)をスコアしており、最高の計算コストを有する(392秒)。対照的に、l1-contexual CGANは、最小の計算時間を有する(訓練モデルを読み込み、GeForce GTX1080 Ti上で画像に適用するのに2秒)。
【0149】
実際の問題のある胃-食道内視鏡フレームに対する本発明の鏡面性及びローカル・アーチファクト除去の定性的結果は、以下の通りに
図10に示される。
【0150】
第1の行は、分析装置10によって検出される破損領域(鏡面性、撮像アーチファクト)を含む元の破損フレームである。見て分かるように、撮像アーチファクト(第1及び第4の列)及び鏡面性(第2及び第3の列)は、近傍画素に対して局所的に、且つ未破損画像外観に対して全体的に、画素強度に大きな偏差をもたらす。
【0151】
第2の行のフレームは、検出された境界ボックス、及び矩形でマークされる復元エリアを示す。
【0152】
第3の行のフレームは、近年のTVベースの方法を使用したインペインティング・プロセスの影響下にある同じフレームである。第4の行のフレームは、l1-contexual CGANを使用したインペインティング・プロセスの影響下にある同じフレームである。第3及び第4の行のフレームから見て分かるように、インペインティング法を使用して、画像は、境界ボックス検出に基づいて復元されている。第3の行の2番目に良いTVベースの方法は、第4の行に示されるCGAN生成モデルと比較して、未知の画素の再構築中に不鮮明で滑らかでないパッチを生成する。
【0153】
第5の行のフレームは、TVベースのプロセス及びl1-contexual CGANを使用した復元エリアを示す。これらの領域をよく見ると、ローカル画像構造がきちんと保護され、再構築画素から周囲画素への滑らかな遷移が存在することを示す。即時に目に付くゴースト効果は、TVベースの方法を使用した第2の列のフレームにおいて観察され得る。
【0154】
アーチファクト検出及び回復フレームワークは、各々10,000近いフレームを含む10本の胃食道ビデオについて評価された。アーチファクト検出では、0.25の物体らしさ閾値が、検出ボックス内の重複を低減するために使用され、フレームを復元するためのQS値は、0.5に設定された。基準として、所与の入力ビデオ・フレームを破棄するか、保持するかどうかを決定するために、6000枚の手動でラベル付けされたポジ及びネガ画像のセットに対する二値分類のための全結合最終層を伴うシーケンシャル6層畳み込みニューラル・ネットワーク(サイズ3、5 5の64個のフィルタを有する層、ReLU活性化関数、及びバッチ正規化)を訓練した。0.75の閾値が、十分な品質のフレームのみを保持するために二値分類器に対して設定された。
【0155】
したがって、各タイプの画像アーチファクトの分類された領域の復元は、フレーム復元タスクについて定量的及び定性的改善を示し、とりわけ、ボケ及び飽和のためのPSNR及びSSIMメトリック両方における改善を達成し、また、鏡面性及び他の種々のアーチファクト除去のための視覚的類似性メトリックに対する著しい改善を達成する。
【0156】
図11は、3つの臨床内視鏡検査ビデオ画像信号のフレーム回復を例証する。時間的マップは、二値深層分類器及び選択ブロック21によって復元のために選択されたビデオ画像信号のフレームを示す。棒グラフは、2つの方法による復元のために選択されたビデオ画像信号のフレームの比率を示す。円グラフは、各ビデオ画像信号内に存在する各アーチファクト・タイプの割合を示す。
【0157】
図11に示されるように、分析装置10は、二分決定と比較してフレームの大多数を維持することに成功している。
【0158】
品質向上したビデオが、再び、生のビデオよりも少ない数のフレーム排除を結果としてもたらしたCNNベースの二値分類器に供給された。結果的に、結果として生じるビデオは、生のビデオを利用した等価の二値クリーンされたビデオと比較してより連続的である。例えば、ビデオ画像信号3において、二値分類器に基づいたフレーム除去後のビデオは、30%のみが保持されるため、後処理アルゴリズムにとって有害であり得る多くの明らかな急激な遷移を直接もたらす。それに比べて、分析装置10は、フレームの70%を維持し、すなわち、40%近くのフレーム復元である。試験される10本すべての内視鏡ビデオにわたって定性的に、検討される10本のビデオの平均68.7%を維持して、25%多くのビデオ・フレームが復元された。
【0159】
復元されたビデオ画像信号の臨床的関連は、以下の通りに試験された。
【0160】
10本の試験ビデオから選択される20個の高品質フレームが、ボケ、鏡面性、飽和、及び種々のアーチファクトにより破損された。上に説明される復元プロセスが、次いで、これらのフレームに適用された。2人の専門内視鏡医が、独立して、元の高品質画像及び対応するビデオと比較してこれらの復元結果をスコアするように要請された。0から10までの範囲のスコアは、1)不自然なゆがみの追加が負のスコアを割り当てられること、及び2)ゆがみの除去が正のスコアを割り当てられること、に基づいた。得られた平均スコアは、ボケ7.87、鏡面性又は種々のアーチファクト7.7、及び飽和1.5であった。顕著な復元が、ボケ及び鏡面性又は種々のアーチファクトについて得られた。しかしながら、飽和補正は、視覚的コヒーレンスが改善されていたとしても、大半は3D情報の損失に起因して(フィードバック・コメントによると)専門家にとって満足のいくものではなかった。
(参考文献)
(参考文献1)S.Chikkerur、V.Sundaram、M.Reisslein、及びL.J.Karam、「Objective video quality assessment methods: A classification, review,and performance comparison」、IEEE Trans.Broadcast.、vol.57、no.2、165~182頁、2011年
(参考文献2)D.P.Menor、C.A.Mello、及びC.Zanchettin、「Objective video quality assessment based on neural networks」、Procedia Comput.Sci.、vol.96、1551~1559頁、2016年
(参考文献3)S.Ali、C.Daul、E.Galbrun、F.Guillemin、及びW.Blondel、「Anisotropic motion estimation on edge preserving Riesz wavelets for robust video mosaicing」、Patt.Recog.、vol.51、425~442頁、2016年
(参考文献4)H.Liu、W.S.Lu、及びM.Q.H.Meng、「De-blurring wireless capsule endoscopy images by total variation minimization」、PACRIM.IEEE、2011年8月、102~106頁
(参考文献5)T.Stehle、「Removal of specular reflections in endoscopic images」、Acta Polytechnica、vol.46、no.4、2006年
(参考文献6)S.Tchoulack、J.P.Langlois、及びF.Cheriet、「A video stream processor for real-time detection and correction of specular reflections in endoscopic images」、Workshop on Circuit and Syst.及びTAISA Conf.IEEE、2008年、49~52頁
(参考文献7)M.Akbari、M.Mohrekesh、S.Soroushmehr、N.Karimi、S.Samavi、及びK.Najarian、「Adaptive specular reflection detection and inpainting in colonoscopy video frames」、arXiv preprint arXiv:1802.08402、2018年
(参考文献8)A.Mohammed、I.Farup、M.Pedersen、O.Hovde、及びS.Yildirim Yayilgan、「Stochastic capsule endoscopy image enhancement」、J.of Imag.、vol.4、no.6、2018年
(参考文献9)F.Isabel、B.Sebastian、R.Carina、W.J.We、及びS.Stefanie、I.Funke、S.Bodenstedt、C.,J.Weitz、S.Speidel、「Generative adversarial networks for specular highlight removal in endoscopic images」、Proc.SPIE、vol.10576、2018年、10 576~10 576 - 9頁
(参考文献10)I.J.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.C.Courville、及びY.Bengio、「Generative adversarial nets」、NIPS、2014年、2672~2680頁
(参考文献11)P.Viola及びM.Jones、「Rapid object detection using a boosted cascade of simple features」、CVPR.IEEE、2001年、511~518頁
(参考文献12)P.Sermanet、D.Eigen、X.Zhang、M.Mathieu、R.Fergus、及びY.Le-Cun、「Overfeat: Integrated recognition, localization and detection using convolutional networks」、arXiv preprint arXiv:1312.6229、2013年
(参考文献13)R.Girshick、J.Donahue、T.Darrell、及びJ.Malik、「Rich feature hierarchies for accurate object detection and semantic segmentation」、CVPR.IEEE、2014年、580~587頁
(参考文献14)J.R.Uijlings、K.E.Van De Sande、T.Gevers、及びA.W.Smeulders、「Selective search for object recognition」、Int.J.of Comput.vision、vol.104、no.2、154~171頁、2013年
(参考文献15)S.Ren、K.He、R.Girshick、及びJ.Sun、「Faster r-cnn: Towards real-time object detection with region proposal networks」、NIPS、2015年、91~99頁
(参考文献16)J.Redmon、S.Divvala、R.Girshick、及びA.Farhadi、「You only look once: Unified, real-time object detection」、CVPR.IEEE、2016年、779~788頁
(参考文献17)K.He、X.Zhang、S.Ren、及びJ.Sun、「Spatial pyramid pooling in deep convolutional networks for visual recognition」、ECCV.Springer、2014年、346~361頁
(参考文献18)T.-Y.Lin、P.Dollar、R.B.Girshick、K.He、B.Hariharan、及びS.J.Belongie、「Feature pyramid networks for object detection」、CVPR.IEEE、2017年、936~944頁
(参考文献19)T.-Y.Lin、P.Goyal、R.Girshick、K.He、及びP.Dolla’r、「Focal loss for dense object detection」、arXiv preprint arXiv:1708.02002、2017年
(参考文献20)J.Redmon及びA.Farhadi、「Yolov3: An incremental improvement」、arXiv preprint arXiv:1804.02767、2018年
(参考文献21)T.-Y.Lin、M.Maire、S.Belongie、J.Hays、P.Perona、D.Ramanan、P.Dollar、及びC.L.Zitnick、「Microsoft coco: Common objects in context」、ECCV.Springer、2014年、740~755頁
(参考文献22)C.A.Z.Barcelos及びM.A.Batista、「Image restoration using digital inpainting and noise removal」、Image and Vision Comput.、vol.25、no.1、61~69頁、2007年
(参考文献23)M.Mirza及びS.Osindero、「Conditional generative adversarial nets」、CoRR、vol.abs/1411.1784、2014年
(参考文献24)J.-Y.Zhu、T.Park、P.Isola、及びA.A.Efros、「Unpaired image-to-image translation using cycle-consistent adversarial networks」、ICCV.IEEE、2017年、2242~2251頁
(参考文献25)P.Isola、J.-Y.Zhu、T.Zhou、及びA.A.Efros、「Image-to-image translation with conditional adversarial networks」、CVPR、2017年
(参考文献26)T.Karras、T.Aila、S.Laine、及びJ.Lehtinen、「Progressive growing of gans for improved quality, stability, and variation」、CoRR、2017年
(参考文献27)O.Kupyn、V.Budzan、M.Mykhailych、D.Mishkin、及びJ.Matas、「Deblurgan: Blind motion deblurring using conditional adversarial networks」、CoRR、vol.abs/1711.07064、2017年
(参考文献28)B.Duhyeon及びS.Hyunjung、「Improved training of generative adversarial networks using representative features」、CoRR、vol.abs/1801.09195、2018年
(参考文献29)H.Tong、M.Li、H.Zhang、及びC.Zhang、「Blur detection for digital images using wavelet transform」、ICME.IEEE、2004年、17~20頁
(参考文献30)L.Xu、S.Zheng、及びJ.Jia、「Unnatural l0 sparse representation for natural image deblurring」、CVPR.IEEE、2013年、1107~1114頁
(参考文献31)P.Getreuer、「Total Variation Deconvolution using Split Bregman」、Image Process.On Line、vol.2、158~174頁、2012年
(参考文献32)A.Chakrabarti、「A neural approach to blind motion deblurring」、ECCV.Springer、2016年、221~235頁
(参考文献33)S.Nah、T.H.Kim、及びK.M.Lee、「Deep multi-scale convolutional neural network for dynamic scene deblurring」、CVPR.IEEE、2017年、257~265頁
(参考文献34)A.Buades、T.Le、J.-M.Morel、及びL.Vese、「Cartoon+Texture Image Decomposition」、Image Process.On Line、vol.1、2011年
(参考文献35)M.Arjovsky、S.Chintala、及びL.Bottou、「Wasserstein generative adversarial networks」、ICML、2017年、214~223頁
(参考文献36)A.P.Hertzmann、「Algorithms for rendering in artistic styles」、Ph.D.dissertation、New York University、Graduate School of Arts and Science、2001年
(参考文献37)J.Shen及びT.F.Chan、「Mathematical models for local nontexture inpaintings」、SIAM J.of Appl.Math.、vol.62、no.3、1019~1043頁、2002年
(参考文献38)A.A.Efros及びW.T.Freeman、「Image quilting for texture synthesis and transfer」、SIGGRAPH.ACM、2001年、341~346頁
(参考文献39)R.Kohler、C.Schuler、B.Scholkopf、及びS.Harmeling、「Mask-specific inpainting with deep neural networks」、GCPR.Springer、2014年、523~534頁、lNCS
(参考文献40)D.Pathak、P.Krahenbuhl、J.Donahue、T.Darrell、及びA.A.Efros、「Context encoders: Feature learning by inpainting」、CVPR.IEEE、2016年、2536~2544頁
(参考文献41)S.Iizuka、E.Simo-Serra、及びH.Ishikawa、「Globally and Locally Consistent Image Completion」、SIGGRAPH、vol.36、no.4、107:1~107:14頁、2017年
(参考文献42)J.Yu、Z.Lin、J.Yang、X.Shen、X.Lu、及びT.S.Huang、「Generative image inpainting with contextual attention」、CoRR、vol.abs/1801.07892、2018年(参照オンライン)入手可能: http://arxiv.org/abs/1801.07892
(参考文献43)B.Zhou、A.Lapedriza、A.Khosla、A.Oliva、及びA.Torralba、「Places: A10 million image database for scene recognition」、IEEE Trans.Pattern Anal.Mach.Intell.、vol.40、no.6、1452~1464頁、2018年
(参考文献44)H.R.Sheikh及びA.C.Bovik、「Image information and visual quality」、IEEE Trans.Image Process.、vol.15、no.2、430~444頁、2006年
(参考文献45)V.Baroncini、L.Capodiferro、E.D.D.Claudio、及びG.Jacovitti、「The polar edge coherence: A quasi blind metric for video quality assessment」、EUSIPCO、2009年8月、564~568頁
(参考文献46)X.Tao、H.Gao、X.Shen、J.Wang、及びJ.Jia、「Scale-recurrent network for deep image deblurring」、CVPR.IEEE、2018年、8174~8182頁
(参考文献47)A.Newson、A.Almansa、Y.Gousseau、及びP.Prez、「Non-Local Patch-Based Image Inpainting」、Image Process.On Line、vol.7、373~385頁、2017年
(参考文献48)G.R.Cameronら、「Detection and staging of esophageal cancers within Barrett’s esophagus is improved by assessment in specialized Barrett’s units」、Gastrointestinal endoscopy 80.6 (2014年)、971~983頁
(参考文献49)D.W.Scholvinckら、「Detection of lesions in dysplastic BarrettaAZ’s esophagus by community and expert endoscopists」、Endoscopy 49.02 (2017年)、113~120頁
【国際調査報告】