(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-29
(54)【発明の名称】分類の視覚的説明、方法、システム
(51)【国際特許分類】
G06V 10/70 20220101AFI20240221BHJP
A61B 6/03 20060101ALI20240221BHJP
【FI】
G06V10/70
A61B6/03 360T
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023542785
(86)(22)【出願日】2021-01-18
(85)【翻訳文提出日】2023-09-12
(86)【国際出願番号】 US2021070050
(87)【国際公開番号】W WO2022154981
(87)【国際公開日】2022-07-21
(81)【指定国・地域】
(71)【出願人】
【識別番号】593063105
【氏名又は名称】シーメンス メディカル ソリューションズ ユーエスエー インコーポレイテッド
【氏名又は名称原語表記】Siemens Medical Solutions USA,Inc.
(74)【代理人】
【識別番号】110003317
【氏名又は名称】弁理士法人山口・竹本知的財産事務所
(74)【代理人】
【識別番号】100075166
【氏名又は名称】山口 巖
(74)【代理人】
【識別番号】100133167
【氏名又は名称】山本 浩
(74)【代理人】
【識別番号】100169627
【氏名又は名称】竹本 美奈
(72)【発明者】
【氏名】シビル,ルドビク
【テーマコード(参考)】
4C093
5L096
【Fターム(参考)】
4C093AA21
4C093AA22
4C093AA26
4C093CA35
4C093FF17
4C093FF18
4C093FF33
4C093FG13
5L096DA01
5L096HA11
5L096KA04
(57)【要約】
分類を視覚的に説明するためのフレームワーク。このフレームワークは、入力画像に似ているが、分類器によって1つ以上の代替クラスに属するものとして分類された新しい画像を生成するために、生成モデルを訓練する(204)。そして、現在の入力画像と、現在の入力画像から訓練された生成モデルによって生成された新しい画像とに基づいて最適化を実行することによって、少なくとも1つの説明マスクを生成する(206)ことができる。
【特許請求の範囲】
【請求項1】
説明マスク生成のための操作を実行するために機械によって実行可能な命令のプログラムを実現する1つ又は複数の非一時的なコンピュータ可読媒体であって、
前記操作は、
入力画像と分類器を受信し、
訓練された生成モデルによって、入力画像に似ているが入力画像とは異なるクラスに属するものとして分類器によって分類された新しい画像を生成し、
入力画像と新しい画像とに基づいて最適化を実行することによって少なくとも1つの説明マスクを生成し、前記最適化によって分類器の分類確率を所定値まで低下させ、
説明マスクを提示する
ことを含む、非一時的なコンピュータ可読媒体。
【請求項2】
生成モデルが条件的生成有害ネットワーク(cGAN)を含む、請求項1に記載の1つ又は複数の非一時的なコンピュータ可読媒体。
【請求項3】
前記操作は、前記分類器によって不正確なクラスに属すると考えられる新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことにより前記生成モデルを訓練することをさらに含む、請求項1に記載の1つ又は複数の非一時的なコンピュータ可読媒体。
【請求項4】
システムであって、
コンピュータ可読プログラムコードを記憶するための非一時的な記憶デバイスと、
前記記憶デバイスと通信するプロセッサとを含み、
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、
訓練入力画像および分類器を受信すること、
前記訓練入力画像に似ているが、前記分類器によって1つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために前記訓練入力画像に基づき生成モデルを訓練すること、
現在の入力画像と前記現在の入力画像から前記訓練された生成モデルにより生成された新しい画像とに基づく最適化を行うことによって少なくとも1つの説明マスクを生成すること、および
前記説明マスクを提示すること、
を含む操作を実行するように動作可能である、システム。
【請求項5】
前記分類器は、前記訓練入力画像を正常または異常画像として分類するように訓練された二進分類器を含む、請求項4に記載のシステム。
【請求項6】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて敵対的生成ネットワーク(GAN)を訓練することにより前記深層生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項7】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて条件付敵対的生成ネットワーク(cGAN)を訓練することにより前記深層生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項8】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって不正確なクラスに属すると考えられる前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する請求項4に記載のシステム。
【請求項9】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記訓練入力画像とは似ていない前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項10】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「異常」として分類された第1の入力画像を受け取ることに応答して、「正常」でありかつ前記第1の入力画像に似ている第1の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項11】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「正常」として分類された第2の入力画像を受け取ることに応答して、「異常」でありかつ前記第2の入力画像に類似している第2の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項12】
前記説明マスクの各値が、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合因子を表す、請求項4に記載のシステム。
【請求項13】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像から複数の異なる説明マスクを生成することによって前記少なくとも1つの説明マスクを生成するように動作する、請求項4に記載のシステム。
【請求項14】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記複数の異なる説明マスクを集約するように動作する、請求項13に記載のシステム。
【請求項15】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、クラスタリング技術を実行することによって前記複数の異なる説明マスクを集約するように動作する、請求項14に記載のシステム。
【請求項16】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器の分類確率を所定の値に低減させる前記最適化を実行することによって前記少なくとも1つの説明マスクを生成するように動作する、請求項4に記載のシステム。
【請求項17】
前記所定の値は1/Nを含み、Nは前記分類器によって決定されたクラスの総数である、請求項16に記載のシステム。
【請求項18】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類確率を減少させる、より小さなマスクを見つけることによって前記最適化を実行するように動作する、請求項16に記載のシステム。
【請求項19】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合和について前記最適化を実行するように動作する、請求項4に記載のシステム。
【請求項20】
方法であって、
訓練入力画像と分類器を受信すること、
前記訓練入力画像に似ているが前記分類器によって1つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために、前記訓練入力画像に基づく生成モデルを訓練すること、
現在の入力画像と、電流入力画像から訓練された生成モデルによって生成された新しい画像に基づいて最適化を行い、そして説明マスクを提示すること
現在の入力画像と、前記訓練された生成モデルにより前記現在の入力画像から生成された新しい画像とに基づく最適化を実行することによって少なくとも1つの説明マスクを生成すること、および
前記説明マスクを提示すること、
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、デジタル医療データ処理、特に分類の視覚的説明に関する。
【背景技術】
【0002】
近年、人工知能(AI)システムは、様々なタスクや領域において、その精度が飛躍的に向上している。しかし、これらのシステムは基本的にブラックボックスであり、精度が向上するのと引き換えに透明性が低下している。つまり、これらのアルゴリズムは自己の判断を説明できない。特に、医療分野では、AIシステムを信頼するためには、どのように判断がなされたかを人間が理解できなければならない、医療分野では透明性の欠如は問題である。透明性を高まれば、AIの判断をいつ信頼できるのか、いつ破棄すべきなのかを、人間のオペレータは知ることができる。
【0003】
説明可能なAI(文献ではXAIと呼ばれる)は、新興の分野であり、多くの技術が発表されている。XAIの目的は分類につながる重要な要素を提供することである。これらの手法は、(1)記号的、(2)顕著性ベース、(3)注意ベース、のカテゴリに分類することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
70年代から90年代にかけて、説明機能を内蔵した記号的推論システムが開発された。しかし、これらのシステムは、画像の解釈のような非カテゴリ的なタスクではうまく機能しない。顕著性ベースの方法は、分類器がその出力をその入力に対して微分可能であることを必要とする。ガイド付きバックプロパゲーション、Grad-CAM、統合勾配等の数多くの手法が文献で提案された。例えば、Springenberg, Jost Tobias et al. "Striving for Simplicity: The All Convolutional Net". CoRR abs/1412.6806 (2015); Selvaraju, R.R., Cogswell, M., Das, A. et al. Grad-CAM: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. Int J Comput Vis 128, 336-359 (2020); and Sundararajan, M., Taly, A., and Yan, Q., "Axiomatic Attribution for Deep Networks", 2017それぞれを参照されたい。顕著性ベースの方法は、ニューラルネットワーク(NN)の出力に対する入力の微分を計算することによって、主に入力の影響に注目する。よく訓練されたニューラルネットワークは、その入力を低次元の多様体に投影し、それを分類する。しかし、画像にはもともとノイズが含まれているため、NNは入力を多様体に正確に投影できないことがある。出力に対する入力の微分はノイズを悪化させ、解釈の難しい顕著性マップのノイズパターンとなる。この効果は、医療画像アプリケーションにおいて増幅され、一般的には、学習サンプルの数が少なくサンプルの相対的な類似性が高い(すなわち、マニホールドの外に落ちやすい)。
【0005】
注意ベースの手法では、神経回路網に追加された訓練可能なアテンションメカニズムを使用して、画像内の関連位置を特定する。例えば、K. Li, Z. Wu, K. Peng, J. Ernst and Y. Fu, "Tell Me Where to Look: Guided Attention Inference Network," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp.9215-9223を参照されたい。注意ベースの方法は、分類を「説明する」のではなく、さらなる解釈を必要とする関連領域を指し示す。そのため、医療用途にはあまり適していない。
【課題を解決するための手段】
【0006】
本明細書では、分類を視覚的に説明するためのフレームワークを説明する。一態様によれば、このフレームワークは、入力画像に似ているが、分類器によって1つ以上の代替クラスに属するとして分類された新しい画像を生成するために、生成モデルを訓練する。その後、現在の入力画像と、現在の入力画像から訓練された生成モデルによって生成された新しい画像とに基づいて最適化を実行することにより、少なくとも1つの説明マスクを生成することができる。
【0007】
添付の図面との関連において考慮される場合、以下の詳細な説明を参照することによって、よりよく理解されるようになるにつれて、本開示およびそれに付随する多くの態様のより完全な理解は、容易に得られるであろう。
【図面の簡単な説明】
【0008】
【
図2】
図2は、説明マスクを生成する例示的な方法を示す。
【
図3】
図3は、例示的なcGANアーキテクチャを示す。
【
図4B】
図4Bは、複数の説明マスクを生成するための例示的なプロセスを示す
【
図7】
図7は、本フレームワークによって生成された結果を示す。
【
図8】
図8は、本フレームワークによって生成された追加結果を示す。
【発明を実施するための形態】
【0009】
以下の説明では、本フレームワークの実施態様を十分に理解できるように、特定の構成要素、装置、方法などの例など、多数の具体的な詳細を示す。しかしながら、これらの具体的な詳細は、本フレームワークの実施を実践するために採用する必要がないことは、当業者には明らかであろう。他の例では、本フレームワークの実施を不必要に曖昧にすることを避けるために、周知の材料または方法は詳細に記載されていない。本フレームワークは、様々な修正および代替形態に影響を受けやすいが、その具体的な実施形態は、図面において例示的に示され、本明細書において詳細に説明される。しかしながら、本発明を開示された特定の形態に限定する意図はなく、逆に、本発明の精神および範囲に属するすべての修正、等価物、および代替物を対象とする意図があることを理解されたい。さらに、理解を容易にするために、特定の方法ステップを別個のステップとして区切っているが、これらの別個に区切られたステップは、その実行において必ずしも順序に依存すると解釈されるべきではない。
【0010】
本明細書で使用する「エックス線画像」という用語は、可視X線画像(例えば、ビデオ画面上に表示される)又はエックス線画像のデジタル表現(例えば、X線検出器の画素出力に対応するファイル)を意味する場合がある。本明細書で使用される「治療中X線画像」という用語は、介入処置または治療処置の治療提供段階中の任意の時点でキャプチャされた画像を指す場合があり、これには放射線源がオンまたはオフのいずれかになっている時間が含まれる場合がある。時折、説明の便宜のために、CT撮像データ(例えば、コーンビームCT撮像データ)が例示的な撮像モダリティとして本明細書で使用されることがある。しかしながら、エックス線レントゲン写真、MRI、PET(陽電子放射断層撮影法)、PET-CT、SPECT、SPECT-CT、MR-PET、3D超音波画像などを含むがこれらに限定されない任意のタイプの画像モダリティからのデータもまた、様々な実施態様において使用され得ることが理解されよう。
【0011】
以下の議論から明らかなように別段の記載がない限り、「分割」、「生成」、「登録」、「決定」、「整列」、「位置決め」、「処理」、「計算」、「選択」、「推定」、「検出」、「追跡」などの用語は、コンピュータシステムのレジスタやメモリ内の物理的(例えば、コンピュータシステムのレジスタやメモリ内の物理的(例えば電子的)量として表現されたデータを、コンピュータシステムのメモリやレジスタ、あるいは他の情報記憶装置、伝送装置、表示装置内の物理的量として同様に表現された他のデータに操作および変換する、コンピュータシステム、または同様の電子計算装置の動作およびプロセスを指す場合がある。本明細書で説明する方法の実施形態は、コンピュータソフトウェアを使用して実施することができる。 認識された標準に準拠するプログラミング言語で記述されている場合、本方法を実施するように設計された命令シーケンスは、様々なハードウェアプラットフォーム上で実行するため、および様々なオペレーティングシステムとのインタフェース用にコンパイルすることができる。さらに、本フレームワークの実装は、特定のプログラミング言語を参照して記述されていない。様々なプログラミング言語が使用され得ることが理解されるであろう。
【0012】
本明細書で使用する場合、「画像」という用語は、離散的な画像要素(例えば、2D画像ではピクセル、3D画像ではボクセル)から構成される多次元データを指す。画像は、例えば、コンピュータ断層撮影法、磁気共鳴画像法、超音波法、又は当業者に公知の他の医用画像システムによって収集された被検体の医用画像であってもよい。画像はまた、例えば、リモートセンシングシステム、電子顕微鏡など、非医療的な文脈から提供されることもある。画像は、R3からRへの関数、またはR3へのマッピングとして考えることができるが、本発明の方法は、そのような画像に限定されるものではなく、任意の次元の画像、例えば、2次元画像または3次元ボリュームに適用することができる。2次元または3次元画像の場合、画像のドメインは、典型的には、2次元または3次元の矩形配列であり、各画素またはボクセルは、2本または3本の互いに直交する軸のセットを参照してアドレス指定することができる。本明細書で使用される「デジタル」及び「デジタル化された」という用語は、適宜、デジタル取得システムを介して、又はアナログ画像からの変換を介して取得されたデジタル又はデジタル化されたフォーマットの画像又はボリュームを指す。
【0013】
従来、2D撮像及び画像表示に関して使用されてきた画像要素を表す「ピクセル」という用語と、3D撮像に関してしばしば使用されるボリューム画像要素を表す「ボクセル」という用語は、互換的に使用することができる。3Dボリューム画像は、それ自体が2Dセンサアレイ上のピクセルとして得られた画像データから合成され、ある角度からの2D画像として表示されることに留意すべきである。したがって、2D画像処理および画像解析技術を3Dボリューム画像データに適用することができる。以下の説明では、画素を操作するものとして説明される技術は、表示のために2D画素データの形で保存され表現される3Dボクセルデータを操作するものとして説明されることもある。同様に、ボクセルデータを操作する技術は、ピクセルを操作するものとして説明することもできる。以下の説明では、「新しい入力画像」、「偽画像」、「出力画像」および「新しい画像」という用語は、互換的に使用することができる。
【0014】
本フレームワークの1つの側面は、生成モデルを訓練することによって、正常か異常かの判定をタスクとする任意の分類器によって検出された異常の説明を提供する。 生成モデルは、入力画像に似ているが分類器によって1つ以上の代替クラスに属すると分類された新しい画像を生成するように訓練される。生成モデルは、説明マスク(またはマップ)からノイズを除去するように説明を制約する。生成された説明マスクのノイズのレベルは、有利なことに既存の方法よりも数十倍低く、それによって説明マスクの解釈が容易になる。学習された生成モデルは新しい入力画像x′を生成することができ、この入力画像x′は、分類器が最も高い確率でクラスとみなすものを理解するために使用することができる。これは分類器の偏りを理解するのに非常に有用である(例えば、専門家がt'を見た場合、同じ分類をするだろうか)。これらおよびその他の特徴や利点については、本明細書で詳しく説明する。
【0015】
図1は、例示的なシステム100を示すブロック図である。システム100は、本明細書に記載のフレームワークを実施するためのコンピュータシステム101を含む。いくつかの実施形態では、コンピュータシステム101は、スタンドアロンデバイスとして動作する。他の実施態様では、コンピュータシステム101は、撮影装置102やワークステーション103などの他の機械に(例えば、ネットワークを使用して)接続されてもよい。 ネットワーク展開において、コンピュータシステム101は、サーバ(例えば、シンクライアントサーバ)、クラウドコンピューティングプラットフォーム、サーバ・クライアントユーザネットワーク環境におけるクライアントユーザマシン、又はピアツーピア(又は分散)ネットワーク環境におけるピアマシンとして動作することができる。
【0016】
いくつかの実施形態では、コンピュータシステム101は、入出力インタフェース121を介して、1つまたは複数の非一過性のコンピュータ読み取り可能媒体105(例えば、コンピュータストレージまたはメモリ)、表示装置110(例えば、モニタ)、および様々な入力装置111(例えば、マウスまたはキーボード)に結合されたプロセッサまたは中央処理装置(CPU)104を備える。コンピュータシステム101は、キャッシュ、電源、クロック回路、通信バスなどのサポート回路をさらに含むことができる。追加のデータ記憶装置や印刷装置など、他の様々な周辺装置もコンピュータシステム101に接続することができる。
【0017】
本技術は、マイクロ命令コードの一部として、またはオペレーティングシステムを介して実行されるアプリケーションプログラムもしくはソフトウェア製品の一部として、またはそれらの組み合わせとして、ハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、またはそれらの組み合わせの様々な形態で実装することができる。 幾つかの実施態様では、本明細書に記載される技法は、非一過性のコンピュータ可読媒体105に接して具現化されるコンピュータ可読プログラムコードとして実施される。特に、本技法は、説明モジュール106およびデータベース109によって実施することができる。説明モジュール106は、トレーニングユニット102およびオプティマイザ103を含むことができる。
【0018】
非一時的コンピュータ可読媒体105は、ランダムアクセスメモリ(RAМ)、読取専用メモリ(ROM)、磁気フロッピーディスク、フラッシュメモリ、及び他のタイプのメモリ、又はそれらの組み合わせを含むことができる。コンピュータ読み取り可能なプログラムコードは、CPU104によって実行され、例えば、撮影装置102から取得された医療データを処理する。このように、コンピュータシステム101は、コンピュータ読み取り可能なプログラムコードを実行すると特定目的のコンピュータシステムとなる汎用コンピュータシステムである。コンピュータ可読プログラムコードは、特定のプログラミング言語およびその実装に限定されることを意図していない。本明細書に含まれる開示の教示を実施するために、様々なプログラミング言語およびそのコーディングが使用され得ることが理解されよう。
【0019】
データベース(またはデータセット)109(例えば、医用画像)の保存には、同一または異なるコンピュータ可読媒体105を用いてもよい。このようなデータは、外部記憶装置又は他のメモリに格納することもできる。外部ストレージは、CPU104によって管理され、ハードディスク、RAM、又はリムーバブルメディアなどのメモリ上に存在するデータベース管理システム(DBMS)を使用して実装されてもよい。外部ストレージは、1つまたは複数の追加のコンピュータシステム上に実装されてもよい。例えば、外部ストレージは、別のコンピュータシステム上に存在するデータウェアハウスシステム、クラウドプラットフォーム又はシステム、画像保存通信システム(PACS)、又は他の病院、医療機関、医療事務所、検査施設、薬局又は他の医療患者記録保存システムを含むことができる。
【0020】
撮影装置102は、少なくとも一人の患者に関連する医用画像データ120を取得する。このような医用画像データ120は処理されてデータベース109に格納されることがある。撮影装置102は、そのような医用画像データ120を取得、収集及び/又は記憶するための放射線学スキャナ(例えば、X線、MR又はCTスキャナ)及び/又は適切な周辺装置(例えば、キーボード及びディスプレイ装置)であってもよい。
【0021】
ワークステーション103は、コンピュータと、キーボードやディスプレイ装置などの適切な周辺機器とを含むことができ、システム100全体と連動して操作することができる。例えば、ワークステーション103は、撮影装置102によって取得された医用画像データをワークステーション103でレンダリングして表示装置で見ることができるように、撮影装置102と直接的又は間接的に通信することができる。ワークステーション103は、所定の患者の他の種類の医療データ122を提供することもできる。ワークステーション103は、医療データ122を入力するための入力装置(例えば、キーボード、マウス、タッチスクリーンの音声又は映像認識インタフェース等)を介してユーザ入力を受け取るためのグラフィカルユーザインタフェースを含むことができる。
【0022】
さらに、添付の図に描かれている構成システムコンポーネントおよび方法ステップの一部は、ソフトウェアで実装することができるため、システムコンポーネント(またはプロセスステップ)間の実際の接続は、本フレームワークがプログラムされる方法に応じて異なる可能性があることを理解されたい。本明細書で提供される教示を考慮すれば、関連技術における通常の当業者であれば、本フレームワークのこれらおよび類似の実施形態または構成を想到することができるであろう。
【0023】
図2は、説明マスクを生成する例示的な方法200を示す。方法200のステップは、示された順序で実行されてもよいし、異なる順序で実行されてもよいことが理解されるべきである。また、追加のステップ、異なるステップ、または少ないステップを設けてもよい。さらに、方法200は、
図1のシステム101、異なるシステム、またはそれらの組み合わせで実施されてもよい。
【0024】
202において、訓練入力画像は、高分解能コンピュータ断層撮影法(HRCT)、磁気共鳴(MR)画像法、コンピュータ断層撮影法(CT)、ヘリカルCT、エックス線、血管造影法、陽電子放出断層撮影法(PET)、透視法、超音波、単一光子放出コンピュータ断層撮影法(SPECT)、またはそれらの組み合わせなどの医用画像技術を使用して、直接的または間接的に取得された医用画像であってよい。訓練入力画像は、1つ又は複数の種類の疾患を評価するための正常画像及び異常画像を含むことができる。 例えば、訓練入力画像は、パーキンソン病を評価するためのドーパミントランスポータースキャン(DaTscan)SPECT画像の正常及び異常を含むことができる。別の例として、訓練入力画像は、アミロイドーシスを評価するためのアミロイド陽性PET画像及びアミロイド陰性PET画像を含むことができる。異常画像には少なくとも1つの異常(例えば、脳細胞におけるαシヌクレインタンパク質の異常蓄積、アミロイド沈着、病変)が含まれるが、正常画像には異常は含まれない。
【0025】
いくつかの実施形態では、分類器fは、訓練入力画像を正常画像または異常画像として分類するように訓練されるバイナリ分類器である。他の実施形態では、分類器fは非バイナリ分類器であってもよいことは理解されるべきである。分類器fは入力xを取り、N個のクラス間の分類確率を表す出力Оを返す。ここで、cは最も高い確率をもつクラスである。分類器fは、ニューラルネットワーク、決定木、ランダムフォレスト、およびサポートベクターマシン、共進化ニューラルネットワーク、またはそれらの組み合わせを含むが、これらに限定されない機械学習技術を使用して実装することができる。
【0026】
204において、訓練ユニット102は、訓練入力画像を用いて生成モデルを訓練し、新たな高品質の偽画像x′を生成する。生成モデルは、訓練入力画像xに似ている(または可能な限り近い)が、分類器によって1つまたは複数の代替クラス(すなわち、それぞれの訓練入力画像とは1つまたは複数の異なるクラス)に属するものとして分類される新たな入力画像x′を生成するように訓練される。生成モデルは、新しいデータインスタンスを生成することができる統計モデルのクラスである。生成モデルは、データ自体の分布を含み、所与の例がどの程度可能性があるかを示す。いくつかの実施形態では、生成モデルは条件付き生成モデルであり、入力画像xは、対応する出力画像x′を生成するために条件付けされる。生成モデルは、例えば、生成モデルとディープニューラルネットワークの組み合わせによって形成されるディープ生成モデルであってもよい。深層生成モデルの例としては、変分オートエンコーダ(VAE)、生成逆数ネットワーク(GAN)、自己回帰モデルなどが挙げられるが、これらに限定されない。
【0027】
一実施態様では、生成モデルは生成敵対ネットワーク(GAN)を含む。生成敵対ネットワーク(GAN)は、ミニマックスゲームにおいて互いに競合する2つのニューラルネットワーク-ジェネレータGおよび識別器D-を含む機械学習フレームワークである。生成モデルは条件付きGANであってもよい。条件付きGAN(cGAN)は、データの条件付き生成モデルを学習し、入力画像xは、学習のために識別器への入力として使用される対応する出力画像x′を生成するように条件付けられる。例えば、Isola, Phillipら, "Image-to-Image Translation with Conditional Adversarial Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017):5967-5976を参照されたい。ジェネレータGの目的は、本物の入力xと区別できない偽の入力x′を生成することであり、識別器Dの目的は、Gによって生成された偽の入力から本物の入力を認識することである。ジェネレータGと識別器Dは順番に最適化され、ミニマックスゲームは、理想的には、xの分布を模倣した高品質の新しい入力画像x′を生成するジェネレータGに収束し、一方で、識別器Dは、新しい入力画像x′が本物であるか偽物であるかを推測することはできない。無条件GANとは異なり、cGANではGもDも入力画像xを観察する。
【0028】
図3は、例示的なcGANアーキテクチャ300を示す。cGANは、ジェネレータ302および識別器304を含む。ジェネレータ302は、入力画像x(306)として取り込み、入力画像x(306)に可能な限り近いが分類器fによって代替クラスに分類される制約を有する新しい入力画像x′(308)を生成するように訓練され得る。例えば、入力画像x(306)が分類器によって「異常」に分類された場合、ジェネレータ302は、新しい画像x′(308)を「正常」画像であり、入力画像x(306)に酷似するように生成するように訓練することができる。別の例として、入力画像x(306)が分類器によって「正常」と分類された場合、ジェネレータ302は、入力画像x(306)に酷似した「異常」画像となるように新たな画像x′(308)を生成するように訓練されてもよい。識別器304は、ジェネレータ302によって生成された偽の入力画像x′(308)から本物の入力画像(310)を認識するように訓練されてもよい。
【0029】
cGANの目的は次のように定式化できる:
ここで、xは観測された入力画像、cは最も確率の高いクラス、G(x,c)はGの新しい画像x′、D(x,c)はDの出力、Loss
cGAN(G,D)はGとDの損失関数である。Gは、損失関数を最大化しようとする敵対的なDに対して、損失関数Loss
cGAN(G,D)を最小化しようとする。損失関数Loss
cGAN(G,D)は、期待値E
x,c[log D(x,c)]とE
x,c[log(1-D(G(x,c),c)]の和であり、xとcはそれぞれ可能な画像とクラスからサンプリングされる。
【0030】
他の実施形態では、cGANの目的は以下のように定式化される:
ここで、xは観察された入力画像、cは最も高い確率を有するクラス、G(x,c)はGの新しい画像x′、D(x,c)はDの出力、Loss
cGAN(G,D)はG及びDの損失関数、αはパラメータ、L1(G)は観察された入力画像xとGによって生成された新しい画像x′との間の距離である(すなわち、x′=G(x,c))である。この場合、Dの仕事は変わらないが、GはDを欺くだけでなく、L1の意味で基底真理出力に近くなるように訓練される。言い換えれば、Gは、入力画像xと異なった(あるいは似ていない)新しい画像x′を生成した場合、ペナルティとなる。
【0031】
さらに他の実施形態では、cGANの目的は以下のように定式化される:
ここで、xは観察された入力画像、cは最も高い確率を持つクラス、G(x,c)はGの新しい画像x′、D(x,c)はDの出力、Loss
cGAN(G,D)はGとDの損失関数、αとβはパラメータ、fは分類関数(または分類器)、L1(G)は観察された入力xとGによって生成された新しい画像x′の間の距離(すなわち、x′=G(x,c))であり、Lは、ジェネレータGが分類器によって不正なクラスに属すると認識された画像を生成した場合に、ジェネレータGにペナルティを与える損失項である。パラメータαおよびβの例示的な値は、例えば、それぞれ0.0002および(0.5, 0.999)である。目的関数(6)において、病気分類器は、損失項Lによってジェネレータ302にリンクされ、ジェネレータ302が、分類器によって正しくないクラスに属するとみなされる新しい画像を生成した場合にペナルティを受けるようになっている。例えば、Gが「異常」入力画像から「正常」画像を生成しようとし、疾患分類器がこの生成された新しい画像を(正常ではなく)「異常」と分類した場合、LはGにペナルティを与えるようにゼロ以外の値が割り当てられる。
【0032】
cGANの訓練は、条件付きオートエンコーダ、条件付き変分オートエンコーダ、および/または他のGAN変分などの様々な技術を用いて実施されてもよい。さらに、訓練されたcGANは、例えば、ADAMオプティマイザ-適応勾配降下アルゴリズム(ADAM)を使用して最適化されてもよい。例えば、Kingma, D.P. and Ba, J. (2014), Adam: A Method for Stochastic Optimizationを参照されたい。他のタイプの最適化アルゴリズムを使用してもよい。
【0033】
訓練されたジェネレータGは、分類器が何をクラスcと見なすかを理解するために使用できる新しい入力画像x′を生成することができる。これは、分類器の偏り(例えば、専門家がx′を見て同じ分類を行うか)を理解するために非常に有用であり、また設計者の観点からは、分類器が適切に訓練され、専門家が病気について知っていることを模倣していることを保証することができる。
【0034】
図2に戻って、206において、オプティマイザ103は、現在の入力画像xと、現在の入力画像から訓練された生成モデルによって生成された新しい画像x′とに基づいて最適化を実行することによって説明マスクを生成する。現在の入力画像xは、例えば、訓練画像を取得するために使用されたものと同じモダリティ(例えば、SPECTスキャナ又はPETスキャナ)を使用して、撮影装置102によって患者から取得され得る。次に、説明マスクは、分類器の分類確率を所定値まで低下させるために、現在の入力画像x及び新しい画像x′に基づいて最適化を実行することによって生成される。説明マスクは、分類器の判定を変更するために現在の入力画像xにおいて変更する必要のあるボクセルを表すので、これらのボクセルは分類器による分類を説明する可能性がある。説明マスクの各値はxとx′の間のブレンド係数を表す。
【0035】
図4Aは、例示的な最適化アーキテクチャ400を示す。新しい画像x′(408)は、観察された入力画像x(404)とクラスcとに基づいて訓練されたcGANのGによって生成される。マスク(401)は、新しい入力画像x′(408)とブレンドされる入力画像x(404)の部分を表す。分類関数f(402)は、入力画像x(404)とマスク(401)によってブレンドされた新しい偽画像x′(408)の組み合わせを入力とし、cが最も高い確率のクラスであるN個のクラス間の分類確率を表す出力Oを返す。分類器の出力Oに対するマスク(401)の勾配は、xとx′のブレンドになるように制約され、その一方でx′はxに類似するように設計されているため、非現実的なノイズ源を制限し、ノイズに対するロバスト性を高めている。
【0036】
最適化は、クラスcの分類器確率を1/Nの確率に減少させる、より小さいMask′を見つけようとする。最適化問題は、以下のように定式化されてもよい:
α(例えば、0.05)は、説明マスク(411)のスパース性を制御するためのスケーリング係数を表し、
は2つの項の要素積を表す。結合入力x"は、現在の入力画像xと前のマスクによってブレンドされた新しい画像x′の和を表す。最適化は、分類器(402)のクラスcの確率を最小化する結合入力x"に対して実行される。従って、構造上、結合入力x"は入力x(404)と同じドメインにあり、そのように解釈することができる。
【0037】
最適化は、マスク(401)に対する分類器の出力O(c)の偏導関数を計算することにより、バックプロパゲーションアルゴリズムを使用して実装することができる。例えば、Le Cun Y. (1986), "Learning Process in an Asymmetric Threshold Network"を参照。Disordered Systems and Biological Organization, NATO ASI Series (Series F: Computer and Systems Sciences), vol. 20. Springer, Berlin, Heidelbergに記載されている。最適化は、分類器f(x")(c)が所定の確率(例えば、1/N)に達すると停止する。これはマスクにノイズが入る可能性があり、1/Nがノイズと説明の間の良い妥協点であることがわかったからである。いくつかの実施形態では、バックプロパゲーションは0.1の学習率で最大200回適用される。
【0038】
本フレームワークは、正常または異常の複数のモードをサポートするように拡張することができる。これは、ジェネレータGから複数の新しい入力画像x′をサンプリングし、アーキテクチャ400によって生成された各x′の説明マスクを集約することによって行うことができる。複数の説明マスクは、単一の現在の入力画像xから生成されてもよい。
図4Bは、複数の説明マスクを生成するための例示的なプロセス410を示す。複数の異なる説明マスク412は、同じ単一の入力画像x(414)を学習済み生成モデルに複数回(例えば、100回)通して、複数の新しい入力画像x′を生成し、これをアーキテクチャ400に通して複数の説明マスク412を生成することによって生成することができる。複数の異なる説明マスク412は、説明のロバスト性を向上させるために任意に集約されてもよい。集約は、例えば、説明マスクを平均化またはクラスタリングすることによって実行することができる。
【0039】
例示的なプロセス410に示されるように、クラスタリングは、複数のクラスタ416a~bを生成するために実行されてもよい。2つのクラスタ(クラスタ1及びクラスタ2)のみが示されているが、他の数のクラスタが生成されてもよいことは理解されるべきである。異なるクラスタは、例えば、異なる病変又は他の異常を表すことができる。クラスタリングアルゴリズムは、例えば、ノイズを含むアプリケーションの密度ベースの空間クラスタリング(DBSCAN)または他の適切な技術を含むことができる。各クラスタ(例えばクラスタ中心)に対して代表的な説明マスクを選択し、ユーザに提示することができる。クラスタのサイズは、ユーザのために説明マスクを順序付けるか、または説明の重要性を特徴付けるために使用することができる。
【0040】
図2に戻り、208において、説明モジュール106が説明マスクを提示する。説明マスクは、例えば、ワークステーション103に表示されるグラフィカルユーザインタフェースに表示される。説明マスクは、分類器によって生成された分類(例えば、異常分類)の視覚的説明を提供する。説明マスクのノイズのレベルは、有利なことに、既存の方法によって生成されるノイズのレベルよりもはるかに低く、それによって説明マスクの解釈がより分かりやすくなる。さらに、訓練された生成モデルによって生成された新しい入力画像x′もグラフィカルユーザインタフェースに表示することができる。新しい入力画像x′は、分類器が最も高い確率でクラスとみなすものを理解するために使用することができる。
【0041】
このフレームワークは、パーキンソン病の文脈で実装された。DaTscan画像に対して分類器を訓練し、正常画像と異常画像の分類を行った。分類器は1356枚の画像を用いて訓練され、148枚の画像でテストされ、テストデータで97%の精度が得られた。
【0042】
図5は、分類器の分類を説明するために、異なる従来のアルゴリズムと本発明のフレームワークを使用して得られた結果の例示的な比較を示す。従来のアルゴリズムには、Grad-CAM、バックプロパゲーション、ガイド付きバックプロパゲーション、および統合勾配アルゴリズムが含まれる。列502はランダムに選択された異常入力DaTscan画像を示す。列504、506、508、および510は、列502の入力画像に基づいて、標準的なアルゴリズムを用いて生成された説明マップを表示する。列512は、本フレームワークによって生成された説明マップを表示する。従来の方法によって生成された説明マップは、解釈を困難にする極端なノイズを示す。対照的に、本フレームワークによって生成された説明マップは、ノイズが非常に少ないため、解釈が容易である。
【0043】
図6は、分類器の分類を説明するために、異なる従来のアルゴリズムと本発明のフレームワークを使用して得られた結果の別の例示的な比較を示す。列604、606、608および610は、従来のアルゴリズムを用いて列602の入力画像に基づいて生成された説明マップを表示する。列612は、本フレームワークによって生成された説明マップを表示する。本フレームワークと比較して、従来の方法では、より極端なノイズを示す説明マップが生成され、それによって解釈が困難になっている。
【0044】
図7は、本フレームワークによって生成された結果を示す。列702はテストデータからの入力DaTscan画像xを示す。列706は、本フレームワークによって生成された説明マスクを示す。列704は、入力画像xと説明用マスクとを重ね合わせ、入力画像に対する空間パターンをよりよく視覚化できるようにしたものである。計算されたマスクのパターンは被殻取り込みの非対称性または両側性の減少と極めてよく相関しており、これらのスキャンが異常と分類された理由を合理的に説明している。列712は、異常入力画像702を入力画像702と密接に一致する正常画像に変換する学習済みcGANの新しい入力画像x′を示す。最後に、列710は、現在の入力画像xとマスクによってブレンドされた新しい画像x′との和を表す結合入力x"を示す。これらの画像x"は入力画像702と密接に一致し、分類器の確率を50%以下に減少させる。
【0045】
図8は、本フレームワークによって生成された追加結果を示す。列802はテストデータからの入力DaTscan画像xを示す。列806は、本フレームワークによって生成された説明マスクである。列804は、入力画像xを説明マスクと重ね合わせ、入力画像に対する空間パターンをより良く視覚化できるようにしたものである。計算されたマスクのパターンは被殻取り込みの非対称性または両側性の減少と極めてよく相関しており、これらのスキャンが異常と分類された理由を合理的に説明している。縦列812は、異常入力画像802を入力画像802と密接に一致する正常画像に変換する、訓練されたcGANの新しい入力画像x′を示す。最後に、列810は、現在の入力画像xとマスクによってブレンドされた新しい画像x′の和を表す結合入力x "を示す。これらの画像x"は入力画像802と密接に一致し、分類器の確率を50%以下に減少させる。
【0046】
本フレームワークは、例示的な実施形態を参照して詳細に説明されているが、当業者は、添付の特許請求の範囲に記載される本発明の精神および範囲から逸脱することなく、様々な修正および置換を行うことができることを理解するであろう。例えば、異なる例示的な実施形態の要素および/または特徴を、本開示および添付の特許請求の範囲の範囲内で互いに組み合わせおよび/または互いに置換することができる。
【手続補正書】
【提出日】2023-12-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
説明マスク生成のための操作を実行するために機械によって実行可能な命令のプログラムを実現する1つ又は複数の非一時的なコンピュータ可読媒体であって、
前記操作は、
入力画像と分類器を受信し、
訓練された生成モデルによって、入力画像に似ているが入力画像とは異なるクラスに属するものとして
前記分類器によって分類された新しい画像を生成し、
入力画像と新しい画像とに基づいて最適化を実行することによって少なくとも1つの説明マスクを生成し、前記最適化によって
前記分類器の分類確率を所定値まで低下させ、
前記説明マスクを提示する
ことを含む、非一時的なコンピュータ可読媒体。
【請求項2】
前記生成モデルが条件的生成有害ネットワーク(cGAN)を含む、請求項1に記載の1つ又は複数の非一時的なコンピュータ可読媒体。
【請求項3】
前記操作は、前記分類器によって不正確なクラスに属すると考えられる新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことにより前記生成モデルを訓練することをさらに含む、請求項1に記載の1つ又は複数の非一時的なコンピュータ可読媒体。
【請求項4】
システムであって、
コンピュータ可読プログラムコードを記憶するための非一時的な記憶デバイスと、
前記記憶デバイスと通信するプロセッサとを含み、
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、
訓練入力画像および分類器を受信すること、
前記訓練入力画像に似ているが、前記分類器によって1つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために前記訓練入力画像に基づき生成モデルを訓練すること、
現在の入力画像と前記現在の入力画像から前記訓練された生成モデルにより生成された新しい画像とに基づく最適化を行うことによって少なくとも1つの説明マスクを生成すること、および
前記説明マスクを提示すること、
を含む操作を実行するように動作可能である、システム。
【請求項5】
前記分類器は、前記訓練入力画像を正常または異常画像として分類するように訓練された二進分類器を含む、請求項4に記載のシステム。
【請求項6】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて敵対的生成ネットワーク(GAN)を訓練することによ
り深層生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項7】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて条件付敵対的生成ネットワーク(cGAN)を訓練することによ
り深層生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項8】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって不正確なクラスに属すると考えられる前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する請求項4に記載のシステム。
【請求項9】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記訓練入力画像とは似ていない前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項10】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「異常」として分類された第1の入力画像を受け取ることに応答して、「正常」でありかつ前記第1の入力画像に似ている第1の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項11】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「正常」として分類された第2の入力画像を受け取ることに応答して、「異常」でありかつ前記第2の入力画像に類似している第2の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項4に記載のシステム。
【請求項12】
前記説明マスクの各値が、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合因子を表す、請求項4に記載のシステム。
【請求項13】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像から複数の異なる説明マスクを生成することによって前記少なくとも1つの説明マスクを生成するように動作する、請求項4に記載のシステム。
【請求項14】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記複数の異なる説明マスクを集約するように動作する、請求項13に記載のシステム。
【請求項15】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、クラスタリング技術を実行することによって前記複数の異なる説明マスクを集約するように動作する、請求項14に記載のシステム。
【請求項16】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器の分類確率を所定の値に低減させる前記最適化を実行することによって前記少なくとも1つの説明マスクを生成するように動作する、請求項4に記載のシステム。
【請求項17】
前記所定の値は1/Nを含み、Nは前記分類器によって決定されたクラスの総数である、請求項16に記載のシステム。
【請求項18】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類確率を減少させる、より小さなマスクを見つけることによって前記最適化を実行するように動作する、請求項16に記載のシステム。
【請求項19】
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合和について前記最適化を実行するように動作する、請求項4に記載のシステム。
【請求項20】
方法であって、
訓練入力画像と分類器を受信すること、
前記訓練入力画像に似ているが前記分類器によって1つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために、前記訓練入力画像に基づく生成モデルを訓練すること
、
現在の入力画像と、前記訓練された生成モデルにより前記現在の入力画像から生成された新しい画像とに基づく最適化を実行することによって少なくとも1つの説明マスクを生成すること、および
前記説明マスクを提示すること、
【国際調査報告】