特表2024-509039 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シーメンス　メディカル　ソリューションズ　ユーエスエー　インコーポレイテッドの特許一覧

特表2024-509039分類の視覚的説明、方法、システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-29

(54)【発明の名称】分類の視覚的説明、方法、システム

(51)【国際特許分類】

G06V 10/70 20220101AFI20240221BHJP

A61B 6/03 20060101ALI20240221BHJP

【ＦＩ】

G06V10/70

A61B6/03 360T

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023542785

(86)(22)【出願日】2021-01-18

(85)【翻訳文提出日】2023-09-12

(86)【国際出願番号】 US2021070050

(87)【国際公開番号】W WO2022154981

(87)【国際公開日】2022-07-21

(81)【指定国・地域】

(71)【出願人】

【識別番号】593063105

【氏名又は名称】シーメンスメディカルソリューションズユーエスエーインコーポレイテッド

【氏名又は名称原語表記】ＳｉｅｍｅｎｓＭｅｄｉｃａｌＳｏｌｕｔｉｏｎｓＵＳＡ，Ｉｎｃ．

(74)【代理人】

【識別番号】110003317

【氏名又は名称】弁理士法人山口・竹本知的財産事務所

(74)【代理人】

【識別番号】100075166

【弁理士】

【氏名又は名称】山口巖

(74)【代理人】

【識別番号】100133167

【弁理士】

【氏名又は名称】山本浩

(74)【代理人】

【識別番号】100169627

【弁理士】

【氏名又は名称】竹本美奈

(72)【発明者】

【氏名】シビル，ルドビク

【テーマコード（参考）】

4C093

5L096

【Ｆターム（参考）】

4C093AA21

4C093AA22

4C093AA26

4C093CA35

4C093FF17

4C093FF18

4C093FF33

4C093FG13

5L096DA01

5L096HA11

5L096KA04

(57)【要約】

分類を視覚的に説明するためのフレームワーク。このフレームワークは、入力画像に似ているが、分類器によって1つ以上の代替クラスに属するものとして分類された新しい画像を生成するために、生成モデルを訓練する（２０４）。そして、現在の入力画像と、現在の入力画像から訓練された生成モデルによって生成された新しい画像とに基づいて最適化を実行することによって、少なくとも1つの説明マスクを生成する（２０６）ことができる。

【特許請求の範囲】

【請求項1】

説明マスク生成のための操作を実行するために機械によって実行可能な命令のプログラムを実現する１つ又は複数の非一時的なコンピュータ可読媒体であって、
前記操作は、
入力画像と分類器を受信し、
訓練された生成モデルによって、入力画像に似ているが入力画像とは異なるクラスに属するものとして分類器によって分類された新しい画像を生成し、
入力画像と新しい画像とに基づいて最適化を実行することによって少なくとも１つの説明マスクを生成し、前記最適化によって分類器の分類確率を所定値まで低下させ、
説明マスクを提示する
ことを含む、非一時的なコンピュータ可読媒体。

【請求項2】

生成モデルが条件的生成有害ネットワーク（ｃＧＡＮ）を含む、請求項１に記載の１つ又は複数の非一時的なコンピュータ可読媒体。

【請求項3】

前記操作は、前記分類器によって不正確なクラスに属すると考えられる新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことにより前記生成モデルを訓練することをさらに含む、請求項１に記載の１つ又は複数の非一時的なコンピュータ可読媒体。

【請求項4】

システムであって、
コンピュータ可読プログラムコードを記憶するための非一時的な記憶デバイスと、
前記記憶デバイスと通信するプロセッサとを含み、
前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、
訓練入力画像および分類器を受信すること、
前記訓練入力画像に似ているが、前記分類器によって１つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために前記訓練入力画像に基づき生成モデルを訓練すること、
現在の入力画像と前記現在の入力画像から前記訓練された生成モデルにより生成された新しい画像とに基づく最適化を行うことによって少なくとも１つの説明マスクを生成すること、および
前記説明マスクを提示すること、
を含む操作を実行するように動作可能である、システム。

【請求項5】

前記分類器は、前記訓練入力画像を正常または異常画像として分類するように訓練された二進分類器を含む、請求項４に記載のシステム。

【請求項6】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて敵対的生成ネットワーク（ＧＡＮ）を訓練することにより前記深層生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項7】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて条件付敵対的生成ネットワーク（ｃＧＡＮ）を訓練することにより前記深層生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項8】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって不正確なクラスに属すると考えられる前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する請求項４に記載のシステム。

【請求項9】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記訓練入力画像とは似ていない前記新しい画像を生成する前記生成モデルに応答して、前記生成モデルにペナルティを科すことによって前記生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項10】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「異常」として分類された第１の入力画像を受け取ることに応答して、「正常」でありかつ前記第１の入力画像に似ている第１の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項11】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器によって「正常」として分類された第２の入力画像を受け取ることに応答して、「異常」でありかつ前記第２の入力画像に類似している第２の新しい画像を生成する前記生成モデルを訓練することによって前記生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項12】

前記説明マスクの各値が、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合因子を表す、請求項４に記載のシステム。

【請求項13】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像から複数の異なる説明マスクを生成することによって前記少なくとも１つの説明マスクを生成するように動作する、請求項４に記載のシステム。

【請求項14】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記複数の異なる説明マスクを集約するように動作する、請求項１３に記載のシステム。

【請求項15】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、クラスタリング技術を実行することによって前記複数の異なる説明マスクを集約するように動作する、請求項１４に記載のシステム。

【請求項16】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類器の分類確率を所定の値に低減させる前記最適化を実行することによって前記少なくとも１つの説明マスクを生成するように動作する、請求項４に記載のシステム。

【請求項17】

前記所定の値は１／Ｎを含み、Ｎは前記分類器によって決定されたクラスの総数である、請求項１６に記載のシステム。

【請求項18】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記分類確率を減少させる、より小さなマスクを見つけることによって前記最適化を実行するように動作する、請求項１６に記載のシステム。

【請求項19】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて、前記現在の入力画像と、前記訓練された生成モデルによって前記現在の入力画像から生成された前記新しい画像との混合和について前記最適化を実行するように動作する、請求項４に記載のシステム。

【請求項20】

方法であって、
訓練入力画像と分類器を受信すること、
前記訓練入力画像に似ているが前記分類器によって１つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために、前記訓練入力画像に基づく生成モデルを訓練すること、
現在の入力画像と、電流入力画像から訓練された生成モデルによって生成された新しい画像に基づいて最適化を行い、そして説明マスクを提示すること
現在の入力画像と、前記訓練された生成モデルにより前記現在の入力画像から生成された新しい画像とに基づく最適化を実行することによって少なくとも１つの説明マスクを生成すること、および
前記説明マスクを提示すること、
を含む方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般的に、デジタル医療データ処理、特に分類の視覚的説明に関する。

【背景技術】

【0002】

近年、人工知能（ＡＩ）システムは、様々なタスクや領域において、その精度が飛躍的に向上している。しかし、これらのシステムは基本的にブラックボックスであり、精度が向上するのと引き換えに透明性が低下している。つまり、これらのアルゴリズムは自己の判断を説明できない。特に、医療分野では、ＡＩシステムを信頼するためには、どのように判断がなされたかを人間が理解できなければならない、医療分野では透明性の欠如は問題である。透明性を高まれば、ＡＩの判断をいつ信頼できるのか、いつ破棄すべきなのかを、人間のオペレータは知ることができる。

【0003】

説明可能なＡＩ（文献ではＸＡＩと呼ばれる）は、新興の分野であり、多くの技術が発表されている。ＸＡＩの目的は分類につながる重要な要素を提供することである。これらの手法は、（１）記号的、（２）顕著性ベース、（３）注意ベース、のカテゴリに分類することができる。

【発明の概要】

【発明が解決しようとする課題】

【0004】

７０年代から９０年代にかけて、説明機能を内蔵した記号的推論システムが開発された。しかし、これらのシステムは、画像の解釈のような非カテゴリ的なタスクではうまく機能しない。顕著性ベースの方法は、分類器がその出力をその入力に対して微分可能であることを必要とする。ガイド付きバックプロパゲーション、Ｇｒａｄ－ＣＡＭ、統合勾配等の数多くの手法が文献で提案された。例えば、Springenberg, Jost Tobias et al. "Striving for Simplicity： The All Convolutional Net". CoRR abs/1412.6806 (2015); Selvaraju, R.R., Cogswell, M., Das, A. et al. Grad-CAM： Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. Int J Comput Vis 128, 336-359 (2020); and Sundararajan, M., Taly, A., and Yan, Q., "Axiomatic Attribution for Deep Networks", 2017それぞれを参照されたい。顕著性ベースの方法は、ニューラルネットワーク（ＮＮ）の出力に対する入力の微分を計算することによって、主に入力の影響に注目する。よく訓練されたニューラルネットワークは、その入力を低次元の多様体に投影し、それを分類する。しかし、画像にはもともとノイズが含まれているため、ＮＮは入力を多様体に正確に投影できないことがある。出力に対する入力の微分はノイズを悪化させ、解釈の難しい顕著性マップのノイズパターンとなる。この効果は、医療画像アプリケーションにおいて増幅され、一般的には、学習サンプルの数が少なくサンプルの相対的な類似性が高い（すなわち、マニホールドの外に落ちやすい）。

【0005】

注意ベースの手法では、神経回路網に追加された訓練可能なアテンションメカニズムを使用して、画像内の関連位置を特定する。例えば、K. Li, Z. Wu, K. Peng, J. Ernst and Y. Fu, "Tell Me Where to Look： Guided Attention Inference Network," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp.9215-9223を参照されたい。注意ベースの方法は、分類を「説明する」のではなく、さらなる解釈を必要とする関連領域を指し示す。そのため、医療用途にはあまり適していない。

【課題を解決するための手段】

【0006】

本明細書では、分類を視覚的に説明するためのフレームワークを説明する。一態様によれば、このフレームワークは、入力画像に似ているが、分類器によって１つ以上の代替クラスに属するとして分類された新しい画像を生成するために、生成モデルを訓練する。その後、現在の入力画像と、現在の入力画像から訓練された生成モデルによって生成された新しい画像とに基づいて最適化を実行することにより、少なくとも１つの説明マスクを生成することができる。

【0007】

添付の図面との関連において考慮される場合、以下の詳細な説明を参照することによって、よりよく理解されるようになるにつれて、本開示およびそれに付随する多くの態様のより完全な理解は、容易に得られるであろう。

【図面の簡単な説明】

【0008】

【図1】図１は、例示的なシステムを示す。

【図2】図２は、説明マスクを生成する例示的な方法を示す。

【図3】図３は、例示的なｃＧＡＮアーキテクチャを示す。

【図4A】図４Ａは、例示的な最適化アーキテクチャを示す。

【図4B】図４Ｂは、複数の説明マスクを生成するための例示的なプロセスを示す

【図5】図５は、結果の例示的比較を示す。

【図6】図６は、結果の別の例示的比較を示す。

【図7】図７は、本フレームワークによって生成された結果を示す。

【図8】図８は、本フレームワークによって生成された追加結果を示す。

【発明を実施するための形態】

【0009】

以下の説明では、本フレームワークの実施態様を十分に理解できるように、特定の構成要素、装置、方法などの例など、多数の具体的な詳細を示す。しかしながら、これらの具体的な詳細は、本フレームワークの実施を実践するために採用する必要がないことは、当業者には明らかであろう。他の例では、本フレームワークの実施を不必要に曖昧にすることを避けるために、周知の材料または方法は詳細に記載されていない。本フレームワークは、様々な修正および代替形態に影響を受けやすいが、その具体的な実施形態は、図面において例示的に示され、本明細書において詳細に説明される。しかしながら、本発明を開示された特定の形態に限定する意図はなく、逆に、本発明の精神および範囲に属するすべての修正、等価物、および代替物を対象とする意図があることを理解されたい。さらに、理解を容易にするために、特定の方法ステップを別個のステップとして区切っているが、これらの別個に区切られたステップは、その実行において必ずしも順序に依存すると解釈されるべきではない。

【0010】

本明細書で使用する「エックス線画像」という用語は、可視Ｘ線画像（例えば、ビデオ画面上に表示される）又はエックス線画像のデジタル表現（例えば、Ｘ線検出器の画素出力に対応するファイル）を意味する場合がある。本明細書で使用される「治療中Ｘ線画像」という用語は、介入処置または治療処置の治療提供段階中の任意の時点でキャプチャされた画像を指す場合があり、これには放射線源がオンまたはオフのいずれかになっている時間が含まれる場合がある。時折、説明の便宜のために、ＣＴ撮像データ（例えば、コーンビームＣＴ撮像データ）が例示的な撮像モダリティとして本明細書で使用されることがある。しかしながら、エックス線レントゲン写真、ＭＲＩ、ＰＥＴ（陽電子放射断層撮影法）、ＰＥＴ－ＣＴ、ＳＰＥＣＴ、ＳＰＥＣＴ－ＣＴ、ＭＲ－ＰＥＴ、３Ｄ超音波画像などを含むがこれらに限定されない任意のタイプの画像モダリティからのデータもまた、様々な実施態様において使用され得ることが理解されよう。

【0011】

以下の議論から明らかなように別段の記載がない限り、「分割」、「生成」、「登録」、「決定」、「整列」、「位置決め」、「処理」、「計算」、「選択」、「推定」、「検出」、「追跡」などの用語は、コンピュータシステムのレジスタやメモリ内の物理的（例えば、コンピュータシステムのレジスタやメモリ内の物理的（例えば電子的）量として表現されたデータを、コンピュータシステムのメモリやレジスタ、あるいは他の情報記憶装置、伝送装置、表示装置内の物理的量として同様に表現された他のデータに操作および変換する、コンピュータシステム、または同様の電子計算装置の動作およびプロセスを指す場合がある。本明細書で説明する方法の実施形態は、コンピュータソフトウェアを使用して実施することができる。認識された標準に準拠するプログラミング言語で記述されている場合、本方法を実施するように設計された命令シーケンスは、様々なハードウェアプラットフォーム上で実行するため、および様々なオペレーティングシステムとのインタフェース用にコンパイルすることができる。さらに、本フレームワークの実装は、特定のプログラミング言語を参照して記述されていない。様々なプログラミング言語が使用され得ることが理解されるであろう。

【0012】

本明細書で使用する場合、「画像」という用語は、離散的な画像要素（例えば、２Ｄ画像ではピクセル、３Ｄ画像ではボクセル）から構成される多次元データを指す。画像は、例えば、コンピュータ断層撮影法、磁気共鳴画像法、超音波法、又は当業者に公知の他の医用画像システムによって収集された被検体の医用画像であってもよい。画像はまた、例えば、リモートセンシングシステム、電子顕微鏡など、非医療的な文脈から提供されることもある。画像は、Ｒ^３からＲへの関数、またはＲ^３へのマッピングとして考えることができるが、本発明の方法は、そのような画像に限定されるものではなく、任意の次元の画像、例えば、２次元画像または３次元ボリュームに適用することができる。２次元または３次元画像の場合、画像のドメインは、典型的には、２次元または３次元の矩形配列であり、各画素またはボクセルは、２本または３本の互いに直交する軸のセットを参照してアドレス指定することができる。本明細書で使用される「デジタル」及び「デジタル化された」という用語は、適宜、デジタル取得システムを介して、又はアナログ画像からの変換を介して取得されたデジタル又はデジタル化されたフォーマットの画像又はボリュームを指す。

【0013】

従来、２Ｄ撮像及び画像表示に関して使用されてきた画像要素を表す「ピクセル」という用語と、３Ｄ撮像に関してしばしば使用されるボリューム画像要素を表す「ボクセル」という用語は、互換的に使用することができる。３Ｄボリューム画像は、それ自体が2Dセンサアレイ上のピクセルとして得られた画像データから合成され、ある角度からの2D画像として表示されることに留意すべきである。したがって、２Ｄ画像処理および画像解析技術を3Dボリューム画像データに適用することができる。以下の説明では、画素を操作するものとして説明される技術は、表示のために２Ｄ画素データの形で保存され表現される3Dボクセルデータを操作するものとして説明されることもある。同様に、ボクセルデータを操作する技術は、ピクセルを操作するものとして説明することもできる。以下の説明では、「新しい入力画像」、「偽画像」、「出力画像」および「新しい画像」という用語は、互換的に使用することができる。

【0014】

本フレームワークの１つの側面は、生成モデルを訓練することによって、正常か異常かの判定をタスクとする任意の分類器によって検出された異常の説明を提供する。生成モデルは、入力画像に似ているが分類器によって１つ以上の代替クラスに属すると分類された新しい画像を生成するように訓練される。生成モデルは、説明マスク（またはマップ）からノイズを除去するように説明を制約する。生成された説明マスクのノイズのレベルは、有利なことに既存の方法よりも数十倍低く、それによって説明マスクの解釈が容易になる。学習された生成モデルは新しい入力画像x′を生成することができ、この入力画像x′は、分類器が最も高い確率でクラスとみなすものを理解するために使用することができる。これは分類器の偏りを理解するのに非常に有用である（例えば、専門家がt'を見た場合、同じ分類をするだろうか）。これらおよびその他の特徴や利点については、本明細書で詳しく説明する。

【0015】

図１は、例示的なシステム１００を示すブロック図である。システム１００は、本明細書に記載のフレームワークを実施するためのコンピュータシステム１０１を含む。いくつかの実施形態では、コンピュータシステム１０１は、スタンドアロンデバイスとして動作する。他の実施態様では、コンピュータシステム１０１は、撮影装置１０２やワークステーション１０３などの他の機械に（例えば、ネットワークを使用して）接続されてもよい。ネットワーク展開において、コンピュータシステム１０１は、サーバ（例えば、シンクライアントサーバ）、クラウドコンピューティングプラットフォーム、サーバ・クライアントユーザネットワーク環境におけるクライアントユーザマシン、又はピアツーピア（又は分散）ネットワーク環境におけるピアマシンとして動作することができる。

【0016】

いくつかの実施形態では、コンピュータシステム１０１は、入出力インタフェース１２１を介して、1つまたは複数の非一過性のコンピュータ読み取り可能媒体105（例えば、コンピュータストレージまたはメモリ）、表示装置１１０（例えば、モニタ）、および様々な入力装置１１１（例えば、マウスまたはキーボード）に結合されたプロセッサまたは中央処理装置（ＣＰＵ）１０４を備える。コンピュータシステム１０１は、キャッシュ、電源、クロック回路、通信バスなどのサポート回路をさらに含むことができる。追加のデータ記憶装置や印刷装置など、他の様々な周辺装置もコンピュータシステム１０１に接続することができる。

【0017】

本技術は、マイクロ命令コードの一部として、またはオペレーティングシステムを介して実行されるアプリケーションプログラムもしくはソフトウェア製品の一部として、またはそれらの組み合わせとして、ハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、またはそれらの組み合わせの様々な形態で実装することができる。幾つかの実施態様では、本明細書に記載される技法は、非一過性のコンピュータ可読媒体105に接して具現化されるコンピュータ可読プログラムコードとして実施される。特に、本技法は、説明モジュール１０６およびデータベース１０９によって実施することができる。説明モジュール１０６は、トレーニングユニット１０２およびオプティマイザ１０３を含むことができる。

【0018】

非一時的コンピュータ可読媒体１０５は、ランダムアクセスメモリ（ＲＡМ）、読取専用メモリ（ＲＯＭ）、磁気フロッピーディスク、フラッシュメモリ、及び他のタイプのメモリ、又はそれらの組み合わせを含むことができる。コンピュータ読み取り可能なプログラムコードは、ＣＰＵ１０４によって実行され、例えば、撮影装置１０２から取得された医療データを処理する。このように、コンピュータシステム１０１は、コンピュータ読み取り可能なプログラムコードを実行すると特定目的のコンピュータシステムとなる汎用コンピュータシステムである。コンピュータ可読プログラムコードは、特定のプログラミング言語およびその実装に限定されることを意図していない。本明細書に含まれる開示の教示を実施するために、様々なプログラミング言語およびそのコーディングが使用され得ることが理解されよう。

【0019】

データベース（またはデータセット）１０９（例えば、医用画像）の保存には、同一または異なるコンピュータ可読媒体１０５を用いてもよい。このようなデータは、外部記憶装置又は他のメモリに格納することもできる。外部ストレージは、ＣＰＵ１０４によって管理され、ハードディスク、ＲＡＭ、又はリムーバブルメディアなどのメモリ上に存在するデータベース管理システム（ＤＢＭＳ）を使用して実装されてもよい。外部ストレージは、１つまたは複数の追加のコンピュータシステム上に実装されてもよい。例えば、外部ストレージは、別のコンピュータシステム上に存在するデータウェアハウスシステム、クラウドプラットフォーム又はシステム、画像保存通信システム（ＰＡＣＳ）、又は他の病院、医療機関、医療事務所、検査施設、薬局又は他の医療患者記録保存システムを含むことができる。

【0020】

撮影装置１０２は、少なくとも一人の患者に関連する医用画像データ１２０を取得する。このような医用画像データ１２０は処理されてデータベース１０９に格納されることがある。撮影装置１０２は、そのような医用画像データ１２０を取得、収集及び／又は記憶するための放射線学スキャナ（例えば、Ｘ線、ＭＲ又はＣＴスキャナ）及び／又は適切な周辺装置（例えば、キーボード及びディスプレイ装置）であってもよい。

【0021】

ワークステーション１０３は、コンピュータと、キーボードやディスプレイ装置などの適切な周辺機器とを含むことができ、システム１００全体と連動して操作することができる。例えば、ワークステーション１０３は、撮影装置１０２によって取得された医用画像データをワークステーション１０３でレンダリングして表示装置で見ることができるように、撮影装置１０２と直接的又は間接的に通信することができる。ワークステーション１０３は、所定の患者の他の種類の医療データ１２２を提供することもできる。ワークステーション１０３は、医療データ１２２を入力するための入力装置（例えば、キーボード、マウス、タッチスクリーンの音声又は映像認識インタフェース等）を介してユーザ入力を受け取るためのグラフィカルユーザインタフェースを含むことができる。

【0022】

さらに、添付の図に描かれている構成システムコンポーネントおよび方法ステップの一部は、ソフトウェアで実装することができるため、システムコンポーネント（またはプロセスステップ）間の実際の接続は、本フレームワークがプログラムされる方法に応じて異なる可能性があることを理解されたい。本明細書で提供される教示を考慮すれば、関連技術における通常の当業者であれば、本フレームワークのこれらおよび類似の実施形態または構成を想到することができるであろう。

【0023】

図２は、説明マスクを生成する例示的な方法２００を示す。方法２００のステップは、示された順序で実行されてもよいし、異なる順序で実行されてもよいことが理解されるべきである。また、追加のステップ、異なるステップ、または少ないステップを設けてもよい。さらに、方法２００は、図１のシステム１０１、異なるシステム、またはそれらの組み合わせで実施されてもよい。

【0024】

２０２において、訓練入力画像は、高分解能コンピュータ断層撮影法（ＨＲＣＴ）、磁気共鳴（ＭＲ）画像法、コンピュータ断層撮影法（ＣＴ）、ヘリカルＣＴ、エックス線、血管造影法、陽電子放出断層撮影法（ＰＥＴ）、透視法、超音波、単一光子放出コンピュータ断層撮影法（ＳＰＥＣＴ）、またはそれらの組み合わせなどの医用画像技術を使用して、直接的または間接的に取得された医用画像であってよい。訓練入力画像は、1つ又は複数の種類の疾患を評価するための正常画像及び異常画像を含むことができる。例えば、訓練入力画像は、パーキンソン病を評価するためのドーパミントランスポータースキャン（ＤａＴｓｃａｎ）ＳＰＥＣＴ画像の正常及び異常を含むことができる。別の例として、訓練入力画像は、アミロイドーシスを評価するためのアミロイド陽性PET画像及びアミロイド陰性PET画像を含むことができる。異常画像には少なくとも1つの異常（例えば、脳細胞におけるαシヌクレインタンパク質の異常蓄積、アミロイド沈着、病変）が含まれるが、正常画像には異常は含まれない。

【0025】

いくつかの実施形態では、分類器ｆは、訓練入力画像を正常画像または異常画像として分類するように訓練されるバイナリ分類器である。他の実施形態では、分類器ｆは非バイナリ分類器であってもよいことは理解されるべきである。分類器fは入力xを取り、Ｎ個のクラス間の分類確率を表す出力Оを返す。ここで、ｃは最も高い確率をもつクラスである。分類器fは、ニューラルネットワーク、決定木、ランダムフォレスト、およびサポートベクターマシン、共進化ニューラルネットワーク、またはそれらの組み合わせを含むが、これらに限定されない機械学習技術を使用して実装することができる。

【0026】

２０４において、訓練ユニット１０２は、訓練入力画像を用いて生成モデルを訓練し、新たな高品質の偽画像x′を生成する。生成モデルは、訓練入力画像xに似ている（または可能な限り近い）が、分類器によって１つまたは複数の代替クラス（すなわち、それぞれの訓練入力画像とは１つまたは複数の異なるクラス）に属するものとして分類される新たな入力画像x′を生成するように訓練される。生成モデルは、新しいデータインスタンスを生成することができる統計モデルのクラスである。生成モデルは、データ自体の分布を含み、所与の例がどの程度可能性があるかを示す。いくつかの実施形態では、生成モデルは条件付き生成モデルであり、入力画像xは、対応する出力画像x′を生成するために条件付けされる。生成モデルは、例えば、生成モデルとディープニューラルネットワークの組み合わせによって形成されるディープ生成モデルであってもよい。深層生成モデルの例としては、変分オートエンコーダ（ＶＡＥ）、生成逆数ネットワーク（ＧＡＮ）、自己回帰モデルなどが挙げられるが、これらに限定されない。

【0027】

一実施態様では、生成モデルは生成敵対ネットワーク（ＧＡＮ）を含む。生成敵対ネットワーク（ＧＡＮ）は、ミニマックスゲームにおいて互いに競合する２つのニューラルネットワーク－ジェネレータＧおよび識別器Ｄ－を含む機械学習フレームワークである。生成モデルは条件付きＧＡＮであってもよい。条件付きＧＡＮ（ｃＧＡＮ）は、データの条件付き生成モデルを学習し、入力画像xは、学習のために識別器への入力として使用される対応する出力画像x′を生成するように条件付けられる。例えば、Isola, Phillipら, "Image-to-Image Translation with Conditional Adversarial Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)：5967-5976を参照されたい。ジェネレータＧの目的は、本物の入力xと区別できない偽の入力x′を生成することであり、識別器Ｄの目的は、Ｇによって生成された偽の入力から本物の入力を認識することである。ジェネレータＧと識別器Ｄは順番に最適化され、ミニマックスゲームは、理想的には、xの分布を模倣した高品質の新しい入力画像x′を生成するジェネレータＧに収束し、一方で、識別器Ｄは、新しい入力画像x′が本物であるか偽物であるかを推測することはできない。無条件ＧＡＮとは異なり、ｃＧＡＮではＧもＤも入力画像xを観察する。

【0028】

図３は、例示的なｃＧＡＮアーキテクチャ３００を示す。ｃＧＡＮは、ジェネレータ３０２および識別器３０４を含む。ジェネレータ３０２は、入力画像x（３０６）として取り込み、入力画像x（３０６）に可能な限り近いが分類器fによって代替クラスに分類される制約を有する新しい入力画像x′（３０８）を生成するように訓練され得る。例えば、入力画像x（３０６）が分類器によって「異常」に分類された場合、ジェネレータ３０２は、新しい画像x′（３０８）を「正常」画像であり、入力画像x（３０６）に酷似するように生成するように訓練することができる。別の例として、入力画像x（３０６）が分類器によって「正常」と分類された場合、ジェネレータ３０２は、入力画像x（３０６）に酷似した「異常」画像となるように新たな画像x′（３０８）を生成するように訓練されてもよい。識別器３０４は、ジェネレータ３０２によって生成された偽の入力画像x′（３０８）から本物の入力画像（３１０）を認識するように訓練されてもよい。

【0029】

ｃＧＡＮの目的は次のように定式化できる：

ここで、xは観測された入力画像、ｃは最も確率の高いクラス、G(x,c)はGの新しい画像x′、D(x,c)はDの出力、Loss_cGAN(G,D)はＧとＤの損失関数である。Ｇは、損失関数を最大化しようとする敵対的なＤに対して、損失関数Loss_cGAN(G,D)を最小化しようとする。損失関数Loss_cGAN(G,D)は、期待値E_x,c[log D(x,c)]とE_x,c[log(1-D(G(x,c),c)]の和であり、xとｃはそれぞれ可能な画像とクラスからサンプリングされる。

【0030】

他の実施形態では、ｃＧＡＮの目的は以下のように定式化される：

ここで、xは観察された入力画像、ｃは最も高い確率を有するクラス、G(x,c)はGの新しい画像x′、D(x,c)はDの出力、Loss_cGAN(G,D)はG及びDの損失関数、αはパラメータ、L1(G)は観察された入力画像xとGによって生成された新しい画像x′との間の距離である（すなわち、x′＝G(x,c)）である。この場合、Dの仕事は変わらないが、GはDを欺くだけでなく、L1の意味で基底真理出力に近くなるように訓練される。言い換えれば、Gは、入力画像xと異なった（あるいは似ていない）新しい画像x′を生成した場合、ペナルティとなる。

【0031】

さらに他の実施形態では、ｃＧＡＮの目的は以下のように定式化される：

ここで、xは観察された入力画像、ｃは最も高い確率を持つクラス、Ｇ(x,c)はＧの新しい画像x′、Ｄ(x,c)はＤの出力、Loss_cGAN(G,D)はＧとＤの損失関数、αとβはパラメータ、fは分類関数（または分類器）、L1(G)は観察された入力xとGによって生成された新しい画像x′の間の距離（すなわち、x′＝G(x,c)）であり、Ｌは、ジェネレータGが分類器によって不正なクラスに属すると認識された画像を生成した場合に、ジェネレータGにペナルティを与える損失項である。パラメータαおよびβの例示的な値は、例えば、それぞれ0.0002および（0.5, 0.999）である。目的関数（６）において、病気分類器は、損失項Ｌによってジェネレータ３０２にリンクされ、ジェネレータ３０２が、分類器によって正しくないクラスに属するとみなされる新しい画像を生成した場合にペナルティを受けるようになっている。例えば、Gが「異常」入力画像から「正常」画像を生成しようとし、疾患分類器がこの生成された新しい画像を（正常ではなく）「異常」と分類した場合、LはGにペナルティを与えるようにゼロ以外の値が割り当てられる。

【0032】

ｃＧＡＮの訓練は、条件付きオートエンコーダ、条件付き変分オートエンコーダ、および／または他のＧＡＮ変分などの様々な技術を用いて実施されてもよい。さらに、訓練されたｃＧＡＮは、例えば、ＡＤＡＭオプティマイザ－適応勾配降下アルゴリズム（ＡＤＡＭ）を使用して最適化されてもよい。例えば、Kingma, D.P. and Ba, J. (2014), Adam: A Method for Stochastic Optimizationを参照されたい。他のタイプの最適化アルゴリズムを使用してもよい。

【0033】

訓練されたジェネレータGは、分類器が何をクラスｃと見なすかを理解するために使用できる新しい入力画像x′を生成することができる。これは、分類器の偏り（例えば、専門家がx′を見て同じ分類を行うか）を理解するために非常に有用であり、また設計者の観点からは、分類器が適切に訓練され、専門家が病気について知っていることを模倣していることを保証することができる。

【0034】

図２に戻って、２０６において、オプティマイザ１０３は、現在の入力画像xと、現在の入力画像から訓練された生成モデルによって生成された新しい画像x′とに基づいて最適化を実行することによって説明マスクを生成する。現在の入力画像xは、例えば、訓練画像を取得するために使用されたものと同じモダリティ（例えば、ＳＰＥＣＴスキャナ又はＰＥＴスキャナ）を使用して、撮影装置１０２によって患者から取得され得る。次に、説明マスクは、分類器の分類確率を所定値まで低下させるために、現在の入力画像x及び新しい画像x′に基づいて最適化を実行することによって生成される。説明マスクは、分類器の判定を変更するために現在の入力画像xにおいて変更する必要のあるボクセルを表すので、これらのボクセルは分類器による分類を説明する可能性がある。説明マスクの各値はxとx′の間のブレンド係数を表す。

【0035】

図４Ａは、例示的な最適化アーキテクチャ４００を示す。新しい画像x′（４０８）は、観察された入力画像x（４０４）とクラスｃとに基づいて訓練されたｃＧＡＮのＧによって生成される。マスク（４０１）は、新しい入力画像x′（４０８）とブレンドされる入力画像x（４０４）の部分を表す。分類関数ｆ（４０２）は、入力画像x（４０４）とマスク（４０１）によってブレンドされた新しい偽画像x′（４０８）の組み合わせを入力とし、ｃが最も高い確率のクラスであるＮ個のクラス間の分類確率を表す出力Ｏを返す。分類器の出力Ｏに対するマスク（４０１）の勾配は、xとx′のブレンドになるように制約され、その一方でx′はxに類似するように設計されているため、非現実的なノイズ源を制限し、ノイズに対するロバスト性を高めている。

【0036】

最適化は、クラスｃの分類器確率を１／Ｎの確率に減少させる、より小さいＭａｓｋ′を見つけようとする。最適化問題は、以下のように定式化されてもよい：

α（例えば、０．０５）は、説明マスク（４１１）のスパース性を制御するためのスケーリング係数を表し、

は２つの項の要素積を表す。結合入力x"は、現在の入力画像xと前のマスクによってブレンドされた新しい画像x′の和を表す。最適化は、分類器（４０２）のクラスｃの確率を最小化する結合入力x"に対して実行される。従って、構造上、結合入力x"は入力x（４０４）と同じドメインにあり、そのように解釈することができる。

【0037】

最適化は、マスク（４０１）に対する分類器の出力Ｏ（ｃ）の偏導関数を計算することにより、バックプロパゲーションアルゴリズムを使用して実装することができる。例えば、Le Cun Y. (1986), "Learning Process in an Asymmetric Threshold Network"を参照。Disordered Systems and Biological Organization, NATO ASI Series (Series F: Computer and Systems Sciences), vol. 20. Springer, Berlin, Heidelbergに記載されている。最適化は、分類器f(x")(c)が所定の確率（例えば、１／Ｎ）に達すると停止する。これはマスクにノイズが入る可能性があり、１／Ｎがノイズと説明の間の良い妥協点であることがわかったからである。いくつかの実施形態では、バックプロパゲーションは０．１の学習率で最大２００回適用される。

【0038】

本フレームワークは、正常または異常の複数のモードをサポートするように拡張することができる。これは、ジェネレータＧから複数の新しい入力画像x′をサンプリングし、アーキテクチャ４００によって生成された各x′の説明マスクを集約することによって行うことができる。複数の説明マスクは、単一の現在の入力画像xから生成されてもよい。図４Ｂは、複数の説明マスクを生成するための例示的なプロセス４１０を示す。複数の異なる説明マスク４１２は、同じ単一の入力画像x（４１４）を学習済み生成モデルに複数回（例えば、１００回）通して、複数の新しい入力画像x′を生成し、これをアーキテクチャ４００に通して複数の説明マスク４１２を生成することによって生成することができる。複数の異なる説明マスク４１２は、説明のロバスト性を向上させるために任意に集約されてもよい。集約は、例えば、説明マスクを平均化またはクラスタリングすることによって実行することができる。

【0039】

例示的なプロセス４１０に示されるように、クラスタリングは、複数のクラスタ４１６ａ～ｂを生成するために実行されてもよい。２つのクラスタ（クラスタ１及びクラスタ２）のみが示されているが、他の数のクラスタが生成されてもよいことは理解されるべきである。異なるクラスタは、例えば、異なる病変又は他の異常を表すことができる。クラスタリングアルゴリズムは、例えば、ノイズを含むアプリケーションの密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）または他の適切な技術を含むことができる。各クラスタ（例えばクラスタ中心）に対して代表的な説明マスクを選択し、ユーザに提示することができる。クラスタのサイズは、ユーザのために説明マスクを順序付けるか、または説明の重要性を特徴付けるために使用することができる。

【0040】

図２に戻り、２０８において、説明モジュール１０６が説明マスクを提示する。説明マスクは、例えば、ワークステーション１０３に表示されるグラフィカルユーザインタフェースに表示される。説明マスクは、分類器によって生成された分類（例えば、異常分類）の視覚的説明を提供する。説明マスクのノイズのレベルは、有利なことに、既存の方法によって生成されるノイズのレベルよりもはるかに低く、それによって説明マスクの解釈がより分かりやすくなる。さらに、訓練された生成モデルによって生成された新しい入力画像x′もグラフィカルユーザインタフェースに表示することができる。新しい入力画像x′は、分類器が最も高い確率でクラスとみなすものを理解するために使用することができる。

【0041】

このフレームワークは、パーキンソン病の文脈で実装された。ＤａＴｓｃａｎ画像に対して分類器を訓練し、正常画像と異常画像の分類を行った。分類器は１３５６枚の画像を用いて訓練され、１４８枚の画像でテストされ、テストデータで９７％の精度が得られた。

【0042】

図５は、分類器の分類を説明するために、異なる従来のアルゴリズムと本発明のフレームワークを使用して得られた結果の例示的な比較を示す。従来のアルゴリズムには、Ｇｒａｄ－ＣＡＭ、バックプロパゲーション、ガイド付きバックプロパゲーション、および統合勾配アルゴリズムが含まれる。列５０２はランダムに選択された異常入力ＤａＴｓｃａｎ画像を示す。列５０４、５０６、５０８、および５１０は、列５０２の入力画像に基づいて、標準的なアルゴリズムを用いて生成された説明マップを表示する。列５１２は、本フレームワークによって生成された説明マップを表示する。従来の方法によって生成された説明マップは、解釈を困難にする極端なノイズを示す。対照的に、本フレームワークによって生成された説明マップは、ノイズが非常に少ないため、解釈が容易である。

【0043】

図６は、分類器の分類を説明するために、異なる従来のアルゴリズムと本発明のフレームワークを使用して得られた結果の別の例示的な比較を示す。列６０４、６０６、６０８および６１０は、従来のアルゴリズムを用いて列６０２の入力画像に基づいて生成された説明マップを表示する。列６１２は、本フレームワークによって生成された説明マップを表示する。本フレームワークと比較して、従来の方法では、より極端なノイズを示す説明マップが生成され、それによって解釈が困難になっている。

【0044】

図７は、本フレームワークによって生成された結果を示す。列７０２はテストデータからの入力ＤａＴｓｃａｎ画像xを示す。列７０６は、本フレームワークによって生成された説明マスクを示す。列７０４は、入力画像xと説明用マスクとを重ね合わせ、入力画像に対する空間パターンをよりよく視覚化できるようにしたものである。計算されたマスクのパターンは被殻取り込みの非対称性または両側性の減少と極めてよく相関しており、これらのスキャンが異常と分類された理由を合理的に説明している。列７１２は、異常入力画像７０２を入力画像７０２と密接に一致する正常画像に変換する学習済みｃＧＡＮの新しい入力画像x′を示す。最後に、列７１０は、現在の入力画像xとマスクによってブレンドされた新しい画像x′との和を表す結合入力x"を示す。これらの画像x"は入力画像７０２と密接に一致し、分類器の確率を５０％以下に減少させる。

【0045】

図８は、本フレームワークによって生成された追加結果を示す。列802はテストデータからの入力ＤａＴｓｃａｎ画像xを示す。列８０６は、本フレームワークによって生成された説明マスクである。列８０４は、入力画像xを説明マスクと重ね合わせ、入力画像に対する空間パターンをより良く視覚化できるようにしたものである。計算されたマスクのパターンは被殻取り込みの非対称性または両側性の減少と極めてよく相関しており、これらのスキャンが異常と分類された理由を合理的に説明している。縦列８１２は、異常入力画像８０２を入力画像８０２と密接に一致する正常画像に変換する、訓練されたｃＧＡＮの新しい入力画像x′を示す。最後に、列８１０は、現在の入力画像xとマスクによってブレンドされた新しい画像x′の和を表す結合入力x "を示す。これらの画像x"は入力画像８０２と密接に一致し、分類器の確率を５０％以下に減少させる。

【0046】

本フレームワークは、例示的な実施形態を参照して詳細に説明されているが、当業者は、添付の特許請求の範囲に記載される本発明の精神および範囲から逸脱することなく、様々な修正および置換を行うことができることを理解するであろう。例えば、異なる例示的な実施形態の要素および／または特徴を、本開示および添付の特許請求の範囲の範囲内で互いに組み合わせおよび／または互いに置換することができる。

【図1】

【図2】

【図3】

【図4A】

【図4B】

【図5】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2023-12-22

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

説明マスク生成のための操作を実行するために機械によって実行可能な命令のプログラムを実現する１つ又は複数の非一時的なコンピュータ可読媒体であって、
前記操作は、
入力画像と分類器を受信し、
訓練された生成モデルによって、入力画像に似ているが入力画像とは異なるクラスに属するものとして前記分類器によって分類された新しい画像を生成し、
入力画像と新しい画像とに基づいて最適化を実行することによって少なくとも１つの説明マスクを生成し、前記最適化によって前記分類器の分類確率を所定値まで低下させ、
前記説明マスクを提示する
ことを含む、非一時的なコンピュータ可読媒体。

【請求項2】

前記生成モデルが条件的生成有害ネットワーク（ｃＧＡＮ）を含む、請求項１に記載の１つ又は複数の非一時的なコンピュータ可読媒体。

【請求項3】

【請求項4】

【請求項5】

前記分類器は、前記訓練入力画像を正常または異常画像として分類するように訓練された二進分類器を含む、請求項４に記載のシステム。

【請求項6】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて敵対的生成ネットワーク（ＧＡＮ）を訓練することにより深層生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項7】

前記プロセッサは、前記コンピュータ可読プログラムコードを用いて条件付敵対的生成ネットワーク（ｃＧＡＮ）を訓練することにより深層生成モデルを訓練するように動作する、請求項４に記載のシステム。

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

前記所定の値は１／Ｎを含み、Ｎは前記分類器によって決定されたクラスの総数である、請求項１６に記載のシステム。

【請求項18】

【請求項19】

【請求項20】

方法であって、
訓練入力画像と分類器を受信すること、
前記訓練入力画像に似ているが前記分類器によって１つ又は複数の代替クラスに属するとして分類される新しい画像を生成するために、前記訓練入力画像に基づく生成モデルを訓練すること、
現在の入力画像と、前記訓練された生成モデルにより前記現在の入力画像から生成された新しい画像とに基づく最適化を実行することによって少なくとも１つの説明マスクを生成すること、および
前記説明マスクを提示すること、

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版