IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ ユニバーシティ コート オブ ザ ユニバーシティ オブ エジンバラの特許一覧 ▶ 東芝メディカルシステムズ株式会社の特許一覧

<>
  • 特開-画像データ処理装置および方法 図1
  • 特開-画像データ処理装置および方法 図2
  • 特開-画像データ処理装置および方法 図3
  • 特開-画像データ処理装置および方法 図4
  • 特開-画像データ処理装置および方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024155904
(43)【公開日】2024-10-31
(54)【発明の名称】画像データ処理装置および方法
(51)【国際特許分類】
   A61B 5/055 20060101AFI20241024BHJP
   G06T 7/00 20170101ALI20241024BHJP
【FI】
A61B5/055 380
G06T7/00 612
G06T7/00 350C
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024069271
(22)【出願日】2024-04-22
(31)【優先権主張番号】63/497,372
(32)【優先日】2023-04-20
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/626,419
(32)【優先日】2024-04-04
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】501337513
【氏名又は名称】ザ ユニバーシティ コート オブ ザ ユニバーシティ オブ エジンバラ
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】シャオ・リウ
(72)【発明者】
【氏名】ソティリオス・ツァフタリス
(72)【発明者】
【氏名】アリソン・オニール
(72)【発明者】
【氏名】ペドロ・サンチェス
【テーマコード(参考)】
4C096
5L096
【Fターム(参考)】
4C096AB38
4C096AC04
4C096AD14
4C096DC14
4C096DC19
4C096DC33
5L096BA06
5L096BA13
5L096EA03
5L096FA02
5L096HA11
5L096KA04
(57)【要約】
【課題】医用画像セグメンテーションを深層学習モデルに学習させる場合の負担軽減。
【解決手段】医用画像処理装置は、複数の学習用医用画像を記憶するメモリと処理回路を備える。該処理回路は、タスクを実行するために、複数の学習用医用画像を用いて深層学習ネットワークを学習させる。複数の学習用医用画像のそれぞれには、当該学習用医用画像内の、解剖学的物体と、病変と、医療機器とのうち少なくとも一つの物体に関する弱教師アノテーション情報が付加される。深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含む。構成的潜在表現の学習は、弱教師アノテーション情報を用いて構成的潜在表現の学習の弱教師を提供することを含み、該構成的潜在表現を、複数のカーネルにおいて異なるカーネルは異なる物体を表すような表現に近づくように導くものである。該異なる物体は、解剖学的物体と、病変と、医療機器とのうち少なくとも1つを含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
複数の学習用医用画像を記憶するメモリと、
タスクを実行するために、前記複数の学習用医用画像を用いて深層学習ネットワークを学習させる処理回路を備え、
前記複数の学習用医用画像のそれぞれには、当該学習用医用画像内に含まれる、解剖学的物体と、病変と、医療機器とのうち少なくとも一つの物体に関する弱教師アノテーション情報が付加され、
前記深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含み、
前記構成的潜在表現の学習は、前記弱教師アノテーション情報を用いて前記構成的潜在表現の学習における弱教師を提供することを含み、前記構成的潜在表現を、前記複数のカーネルにおいて、異なるカーネルは異なる物体を表すような表現に近づくように導くものであって、前記異なる物体は、解剖学的物体と、病変と、医療機器とのうち少なくとも1つを含む、
医用画像処理装置。
【請求項2】
前記カーネルはvon Mises Fisherカーネルである、
請求項1に記載の医用画像処理装置。
【請求項3】
前記弱教師アノテーション情報は、前記学習用医用画像に少なくとも一つの所定の臓器が含まれているか否かを示す、
請求項1に記載の医用画像処理装置。
【請求項4】
前記少なくとも一つの所定の臓器は心臓を含む、
請求項3に記載の医用画像処理装置。
【請求項5】
前記複数の学習用医用画像のそれぞれにおける前記弱教師アノテーション情報は、当該学習用医用画像に少なくとも一つの所定の臓器の部分構造が含まれているか否かを示す、
請求項3に記載の医用画像処理装置。
【請求項6】
前記複数の学習用医用画像のそれぞれにおける前記弱教師アノテーション情報は、前記少なくとも一つの臓器のボリュームと前記少なくとも一つの臓器の所定の部分構造のボリュームの内の少なくとも一つを含む、
請求項3に記載の医用画像処理装置。
【請求項7】
各学習用医用画像の前記弱教師アノテーション情報は、以下のうちの少なくとも一つを含む、
・前記少なくとも一つの所定の臓器の境界を表す境界情報、
・前記少なくとも一つの所定の臓器の所定の部分構造の境界を表す境界情報、
・前記少なくとも一つの所定の臓器用の境界ボックス、
・前記少なくとも一つの所定の臓器の少なくとも一つの所定の部分構造用の境界ボックス、
請求項3に記載の医用画像処理装置。
【請求項8】
前記弱教師アノテーション情報は、少なくとも一つの病変に関する情報をさらに含む、
請求項1に記載の医用画像処理装置。
【請求項9】
前記弱教師アノテーション情報は、少なくとも一つの医療機器に関する情報をさらに含む、
請求項1に記載の医用画像処理装置。
【請求項10】
前記タスクは、セグメンテーション、位置合わせ、画像変換、回帰のうちの少なくとも一つを含む、
請求項1に記載の医用画像処理装置。
【請求項11】
前記弱教師アノテーション情報に基づいて前記タスクの出力に弱教師を与える、
請求項1に記載の医用画像処理装置。
【請求項12】
前記処理回路は、さらに、少なくとも一つの拡張変換を用いて前記複数の学習用医用画像のうちの少なくとも一部を変換することによって前記学習用医用画像を拡張して、拡張された学習用医用画像を取得し、
前記深層学習ネットワークの学習は、前記学習用医用画像と前記拡張された学習用医用画像を用いることを含む、
請求項1に記載の医用画像処理装置。
【請求項13】
前記少なくとも一つの拡張変換はスケーリングを含む、
請求項12に記載の医用画像処理装置。
【請求項14】
前記処理回路は、さらに、
対象の画像を受信し、
学習済みの前記深層学習ネットワークを用いて、前記対象の画像を、それぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解し、
前記カーネルと活性化を用いて、前記タスクを実行してタスク出力を取得する、
請求項1に記載の医用画像処理装置。
【請求項15】
複数の学習用医用画像を受信すること、および
タスクを実行するために、前記複数の学習用医用画像を用いて深層学習ネットワークを学習させることを備える方法であって、
前記複数の学習用医用画像のそれぞれには、当該学習用医用画像内に含まれる、解剖学的物体、病変、医療機器のうち少なくとも一つの物体に関する弱教師アノテーション情報が付加され、
前記深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含み、
前記構成的潜在表現の学習は、前記弱教師アノテーション情報を用いて前記構成的潜在表現の学習における弱教師を提供することを含み、前記構成的潜在表現を、前記複数のカーネルにおいて、異なるカーネルは異なる物体を表すような表現に近づくように導くものであって、前記異なる物体は、解剖学的物体と、病変と、医療機器とのうち少なくとも1つを含む、
方法。
【請求項16】
学習済み深層学習ネットワークを記憶するためのメモリ、および
対象の画像を受信し、前記学習済み深層学習ネットワークを用いて、前記対象の画像を、それぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解し、前記カーネルと活性化を用いて、前記タスクを実行してタスク出力を取得する、処理回路を備え、
前記構成的潜在表現は、複数の学習用医用画像を受信し、タスクを実行するために該複数の学習用医用画像を用いて深層学習ネットワークを学習させることによって、学習され、
前記複数の学習用医用画像のそれぞれは、当該学習用医用画像内に含まれる、解剖学的物体と、病変と、医療機器とのうち少なくとも一つの物体に関する弱教師アノテーション情報が付加され、
前記深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含み、
前記構成的潜在表現の学習は、前記弱教師アノテーション情報を用いて前記構成的潜在表現の学習における弱教師を提供することを含み、前記構成的潜在表現を、前記複数のカーネルにおいて、異なるカーネルは異なる物体を表すような表現に近づくように導くものであって、前記異なる物体は、解剖学的物体と、病変と、医療機器とのうち、少なくとも1つを含む、
医用画像処理装置。
【請求項17】
前記タスクはセグメンテーションを含み、
前記活性化を用いてセグメンテーションを実行する、
請求項14に記載の医用画像処理装置。
【請求項18】
前記タスクは、セグメンテーション、位置合わせ、画像変換、回帰のうちの少なくとも一つを含む、
請求項14に記載の医用画像処理装置。
【請求項19】
前記処理回路は、さらに、前記活性化を分析することによって前記タスク出力の説明を生成する、
請求項14に記載の医用画像処理装置。
【請求項20】
対象の画像を受信することと、
学習済み深層学習ネットワークを用いて、前記対象の画像を、それぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解することと、
前記カーネルと活性化を用いて、前記タスクを実行してタスク出力を取得することを備える方法であって、
前記構成的潜在表現は、複数の学習用医用画像を受信し、タスクを実行するために該複数の学習用医用画像を用いて深層学習ネットワークを学習させることによって、学習され、
前記学習用医用画像のそれぞれには、当該学習用医用画像内の、解剖学的物体と、病変と、医療機器とのうち少なくとも一つの物体に関する弱教師アノテーション情報が付加され、
前記深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含み、
前記構成的潜在表現の学習は、前記弱教師アノテーション情報を用いて前記構成的潜在表現の学習における弱教師を提供することを含み、前記構成的潜在表現を、前記複数のカーネルにおいて、異なるカーネルは異なる物体を表すような表現に近づくように導くものであって、前記異なる物体は、解剖学的物体と、病変と、医療機器とのうち少なくとも1つを含む、
方法。


【発明の詳細な説明】
【技術分野】
【0001】
本明細書に開示される実施形態は、一般に、画像データ処理装置および方法、例えば、医用画像処理用途に深層学習ネットワークを学習させる方法および装置に関する。
【背景技術】
【0002】
医用画像セグメンテーションは、疾病の診断において重大な役割を果たし得る。精度の高い自動の医用画像セグメンテーションを深層学習モデルに学習させるためには、一般に膨大な量のラベル付きデータが必要になるが、撮像データのセグメンテーションマスクに完全にアノテーションを付加することは非常に計算量が多い。
【0003】
例えば、心臓のMRI(magnetic resonance imaging)データ内の構造物をセグメント化する場合、一人の患者の心臓MRIデータにフルアノテーション(full annotation)を施すには、経験豊富な医師でも通常多くの作業時間(数日もあり得る)を要する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示が解決しようとする課題は、医用画像セグメンテーションを深層学習モデルに学習させる場合に負担を軽減することである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【0005】
第一の態様において、医用画像処理装置は、複数の学習用医用画像を記憶するメモリと処理回路を備える。各学習用医用画像は、それぞれ弱教師アノテーション情報を付加される。該処理回路は、複数の学習用医用画像を用いて深層学習ネットワークにタスクの実行を学習させる。深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含む。
【0006】
弱教師アノテーション情報は、学習用医用画像内の少なくとも一つの物体に関する。該少なくとも一つの物体は、少なくとも一つの解剖学的物体を含み得る。少なくとも一つの解剖学的物体は、少なくとも一つの臓器を含み得る。また、少なくとも一つの解剖学的物体は、少なくとも一つの臓器の部分構造を含み得る。少なくとも一つの物体は、少なくとも一つの病変を含み得る。また、少なくとも一つの物体は、少なくとも一つの医療機器を含み得る。
【0007】
構成的潜在表現の学習は、弱教師アノテーション情報に基づいて、構成的潜在表現の学習の弱教師を提供することを含む。この学習によって、該構成的潜在表現を、異なるカーネルが異なる物体を表すような表現に近づくように導くことができる。異なる物体は少なくとも一つの解剖学的物体を含み得る。また、異なる物体は少なくとも一つの病変を含み得る。異なる物体は少なくとも一つの医療機器を含み得る。
【0008】
カーネルはvon Mises Fisherカーネルであってもよい。
【0009】
カーネルの数は任意である。例えば、複数のカーネルは12個のカーネルから成る。また、複数のカーネルは少なくとも5つのカーネルを含み得る。複数のカーネルは少なくとも10個のカーネルを含み得る。また、複数のカーネルは20個未満のカーネルを含み得る。複数のカーネルは15個未満のカーネルを含み得る。
【0010】
各カーネルの分布の分散は任意である。例えば、各カーネルの分布の分散は30である。各カーネルの分布の分散は10より大きくてもよい。また、各カーネルの分布の分散は20より大きくてもよい。各カーネルの分布の分散は25より大きくてもよい。各カーネルの分布の分散は35未満であってもよい。また、各カーネルの分布の分散は40未満であってもよい。各カーネルの分布の分散は50未満であってもよい。
【0011】
弱教師アノテーション情報は、学習用医用画像に少なくとも一つの所定の臓器が含まれているか否かを示してもよい。該少なくとも一つの所定の臓器は心臓を含んでもよい。
【0012】
各学習用医用画像の弱教師アノテーション情報は、該学習用医用画像に少なくとも一つの所定の臓器の部分構造が含まれているか否かを示してもよい。該少なくとも一つの所定の臓器の部分構造は心臓の左心室を含んでもよい。また、少なくとも一つの所定の臓器の部分構造は心臓の右心室を含んでもよい。少なくとも一つの所定の臓器の部分構造は心臓の心筋を含んでもよい。
【0013】
各学習用医用画像の弱教師アノテーション情報は、少なくとも一つの臓器のボリュームを含み得る。また、各学習用医用画像の弱教師アノテーション情報は、少なくとも一つの臓器の所定の部分構造のボリュームを含み得る。
【0014】
各学習用医用画像の前記弱教師アノテーション情報は、少なくとも一つの所定の臓器の境界を表す境界情報を含み得る。また、各学習用医用画像の弱教師アノテーション情報は、少なくとも一つの所定の臓器の所定の部分構造の境界を表す境界情報を含み得る。各学習用医用画像の前記弱教師アノテーション情報は、少なくとも一つの所定の臓器用の境界ボックスを含み得る。また、各学習用医用画像の前記弱教師アノテーション情報は、少なくとも一つの所定の臓器の少なくとも一つの所定の部分構造用の境界ボックスを含み得る。
【0015】
弱教師アノテーション情報は、少なくとも一つの病変に関する情報をさらに含み得る。また、弱教師アノテーション情報は、少なくとも一つの医療機器に関する情報をさらに含み得る。
【0016】
タスクはセグメンテーションを含み得る。該セグメンテーションは、少なくとも一つの所定の臓器のセグメンテーションを含み得る。また、セグメンテーションは、少なくとも一つの所定の臓器の少なくとも一つの所定の部分構造のセグメンテーションを含み得る。セグメンテーションは、少なくとも一つの病変のセグメンテーションを含み得る。また、セグメンテーションは、少なくとも一つの医療機器のセグメンテーションを含み得る。
【0017】
タスクは位置合わせを含み得る。また、タスクは回帰を含み得る。タスクは画像変換を含み得る。該画像変換は、第1の撮像モダリティの特徴である第1の形式の画像を、第1の撮像モダリティとは異なる第2の撮像モダリティの特徴であって、第1の形式とは異なる第2の形式の画像に変換することを含み得る。
【0018】
弱教師アノテーション情報に基づいて、タスクの出力に弱教師を与えてもよい。
【0019】
深層学習ネットワークは、特徴エンコーダをさらに備えてもよい。また、深層学習ネットワークは、タスクを実行するタスクモジュールをさらに備えてもよい。
【0020】
処理回路は、さらに、拡張学習用医用画像を得るための少なくとも一つの拡張変換を用いて、学習用医用画像の内の少なくとも一部を変換し、複数の学習用医用画像を拡張してもよい。深層学習ネットワークの学習は、該学習用医用画像と拡張された学習用医用画像を用いることを含み得る。
【0021】
少なくとも一つの拡張変換はスケーリングを含んでもよい。
【0022】
処理回路は、さらに、対象の画像を受信し、学習済み深層学習ネットワークを用いて、該対象の画像をそれぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解してもよい。また、処理回路は、カーネルを用いてタスクを実行して、タスク出力を取得してもよい。さらに、処理回路は、活性化を用いてタスクを実行して、タスク出力を取得してもよい。
【0023】
独立して提供され得る他の態様において、方法は、複数の学習用医用画像を受信すること、および該複数の学習用医用画像を用いて深層学習ネットワークにタスクの実行を学習させることを備える。各学習用医用画像は、それぞれ弱教師アノテーション情報を付加される。深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含む。
【0024】
弱教師アノテーション情報は、学習用医用画像内の少なくとも一つの物体に関する。該少なくとも一つの物体は少なくとも一つの解剖学的物体を含み得る。少なくとも一つの物体は少なくとも一つの臓器を含み得る。また、少なくとも一つの物体は少なくとも一つの臓器の部分構造を含み得る。また、少なくとも一つの物体は少なくとも一つの病変を含み得る。また、少なくとも一つの物体は少なくとも一つの医療機器を含み得る。
【0025】
構成的潜在表現の学習は、弱教師アノテーション情報に基づいて、構成的潜在表現の学習の弱教師を提供することを含む。この学習によって、構成的潜在表現を、カーネルの内の異なるカーネルが異なる物体を表すような表現に近づくように導くことが可能である。該異なる物体は少なくとも一つの解剖学的物体を含み得る。また、異なる物体は少なくとも一つの病変を含み得る。また、異なる物体は少なくとも一つの医療機器を含み得る。
【0026】
独立して提供され得る他の態様において、医用画像処理装置は、学習済み深層学習ネットワークを記憶するためのメモリおよび処理回路を備える。該処理回路は、対象の画像を受信し、学習済み深層学習ネットワークを用いて、対象の画像を、それぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解し、該カーネルと活性化を用いて、タスクを実行してタスク出力を取得する。
【0027】
構成的潜在表現は、複数の学習用医用画像を受信し、該複数の学習用医用画像を用いて深層学習ネットワークにタスクの実行を学習させることによって、学習され得る。各学習用医用画像は、当該画像内の少なくとも一つの物体に関する弱教師アノテーション情報を付加される。深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含む。構成的潜在表現の学習は、弱教師アノテーション情報に基づいて、構成的潜在表現の学習の弱教師を提供することによって、構成的潜在表現をカーネルの内の異なるカーネルが異なる物体を表すような表現に近づくように導くことを含む。異なる物体は少なくとも一つの解剖学的物体を含み得る。また、少なくとも一つの解剖学的物体は少なくとも一つの臓器を含み得る。少なくとも一つの解剖学的物体は少なくとも一つの臓器の部分構造を含み得る。異なる物体は少なくとも一つの病変を含み得る。また、異なる物体は少なくとも一つの医療機器を含み得る。
【0028】
タスクはセグメンテーションを含み得る。活性化を用いてセグメンテーションを実行してもよい。
【0029】
タスクは、セグメンテーション、位置合わせ、画像変換、回帰の内の少なくとも一つを含み得る。
【0030】
処理回路は、さらに、活性化を分析することによってタスク出力の説明を生成してもよい。
【0031】
独立して提供され得る他の態様において、方法は、対象の画像を受信すること、学習済み深層学習ネットワークを用いて、該対象の画像を、それぞれの活性化を有する複数のカーネルを含む構成的潜在表現に分解すること、およびカーネルと活性化を用いて、タスクを実行してタスク出力を取得すること、を備える。
【0032】
構成的潜在表現は、複数の学習用医用画像を受信し、該複数の学習用医用画像を用いて深層学習ネットワークにタスクの実行を学習させることによって、学習され得る。各学習用医用画像は、当該画像内の少なくとも一つの物体に関する弱教師アノテーション情報を付加される。深層学習ネットワークの学習は、複数のカーネルを含む構成的潜在表現を学習することを含む。構成的潜在表現の学習は、弱教師アノテーション情報に基づいて、構成的潜在表現の学習の弱教師を提供することによって、構成的潜在表現を異なるカーネルが異なる物体を表すような表現に近づくように導くことを含む。異なる物体は少なくとも一つの解剖学的物体を含み得る。少なくとも一つの解剖学的物体は少なくとも一つの臓器を含み得る。また、少なくとも一つの解剖学的物体は少なくとも一つの臓器の部分構造を含み得る。異なる物体は少なくとも一つの病変を含み得る。また、異なる物体は少なくとも一つの医療機器を含み得る。
【0033】
独立して提供され得る他の態様において、弱教師付き医用画像分析装置は、例えば、von Mises Fisherカーネルを用いた構成的潜在表現を含むネットワークを備える。弱教師を適用して潜在表現を導く。
【0034】
また、該装置は、同変タスクの半教師あり学習に拡張する方法を実行してもよい。
【0035】
ネットワークは、例えば、セグメンテーション、位置合わせ、画像変換等の同変タスクのための教師ありモジュールを含み得る。
【0036】
画像の意味内容に関する弱教師をタスクモジュールの出力に適用してもよい。
【0037】
弱教師は、臓器や臓器の部分構造の有無等でもよい。
【0038】
弱教師は、臓器や臓器の部分構造のボリューム等でもよい。
【0039】
弱教師は、臓器や臓器の部分構造の境界ボックス等でもよい。
【0040】
拡張変換を用いたデータ拡張によってモデルを訓練してもよい。拡張変換において、弱教師の関わりは維持され、例えば、画像のスケーリング等、ラベルは相応に予測可能である(臓器の新たなボリュームおよび新たな範囲は確実に予測可能である)。
【0041】
例えば、病変および医療機器などに対して、他の種類の医用画像の意味的な内容を用いてもよい。
【0042】
一態様または一実施形態の構成は、他の態様または実施形態の構成と適宜組み合わせ可能である。例えば、装置の構成を方法の構成として、または方法の構成を装置の構成として提供可能である。
【図面の簡単な説明】
【0043】
次に、以下の図面に示される複数の実施形態を非限定的な例として説明する。
図1図1は、実施形態に係る装置の概略図である。
図2図2は、公知技術の表現学習を示す概略図である。
図3図3は、実施例に係るセグメンテーションの低データレジームを示す概略図である。
図4図4は、教師なしの医用画像の例について、画像、グラウンドトゥルース・セグメンテーションマスク、活性化チャネルを示す図である。
図5図5は、弱教師付きの医用画像の例について、画像、グラウンドトゥルース・セグメンテーションマスク、活性化チャネルを示す図である。図番のない、文章を含むその他の図は、他の実施形態を提供または説明する。
【発明を実施するための形態】
【0044】
実施形態に係るデータ処理装置20の概要を図1に示す。本実施形態において、データ処理装置20は医用画像データを処理する。他の実施形態において、データ処理装置20は適宜他の画像データを処理してもよい。
【0045】
データ処理装置20は演算装置22を備える。この例では、演算装置22はパーソナルコンピュータ(PC)やワークステーションである。演算装置22は、表示画面26や他の表示装置とコンピュータキーボードおよびマウス等の1つまたは複数の入力装置28に接続される。
【0046】
演算装置22はデータセットをメモリ30から取得する。メモリ30から取得されるデータの少なくとも一部は、例えばスキャナ24によって取得されたデータ等の医用撮像データを含む。医用撮像データは、任意の撮像モダリティの2次元、3次元、または4次元のデータを含む。例えば、スキャナ24は、磁気共鳴(magnetic resonance:MRまたはMRI)スキャナ、コンピュータ断層撮影(computed tomography:CT)スキャナ、コーンビームCTスキャナ、X線スキャナ、超音波スキャナ、ポジトロン放出断層撮影(positron emission tomography:PET)スキャナ、または単光子放出コンピュータ断層撮影(single photon emission computed tomography: SPECT)スキャナを含み得る。
演算装置22は、例えば、メモリ30に代えてまたはメモリ30に加えて、他の1つ以上のデータ記憶部(図示せず)からデータを受信してもよい。例えば、演算装置22は、画像保管通信システム(Picture Archiving and Communication System:PACS)や他の情報システムの一部を構成する、離れた場所にある1つ以上のデータ記憶部(図示せず)から医用画像データを受信してもよい。
【0047】
演算装置22は、データを自動的または半自動的に処理するための処理資源を提供する。演算装置22は処理装置32を備える。処理装置32は、処理回路34とタスク回路36を備える。処理回路34は、深層学習ネットワークを学習させる。タスク回路36は、学習済みの深層学習ネットワークを用いてタスクを実行する。
【0048】
本実施形態において、演算装置22内の各回路34、36は、実施形態に基づく方法を実行させるコンピュータ読み取り可能な指示を含むコンピュータプログラムによって実現される。但し、他の実施形態では、種々の回路を1つ以上の特定用途向け集積回路(application specific integrated circuit:ASIC)またはフィールド・プログラマブル・ゲート・アレイ(field programmable gate array:FPGA)として実現してもよい。
【0049】
また、演算装置22は、PCのハードドライブと他のコンポーネント、すなわちRAM、ROM、データバス、種々のデバイスドライバを含むオペレーティングシステム、およびグラフィックカードを含むハードウェアデバイス等を備える。明瞭性のため、図1はこれらのコンポーネントを示していない。
【0050】
図1のデータ処理装置20は、以下に例示および/または説明されるように複数の方法を実行する。
【0051】
図2は、公知技術の表現学習を示す概略図である。表現学習において、例えば、生成画像58などのデータは、複数の基礎となる生成係数50(例えば、生成画像58の特定の特徴の存在、色、大きさなど)に基づく表現52を用いて生成プロセス56によって生成されると仮定する。該データ(例えば、複数の生成画像58)について、表現学習の目的は、深層学習モデルに対して、生成プロセス56および生成プロセス56に与えられた表現52を識別し、該データを生成することを学習させることである。以下に説明する通り、この手法は医用撮像に適用可能である。
【0052】
構成的表現は以下の式を満たす。
【0053】
Fψ(S○X)=S○Fψ(X)
【0054】
S○は分離演算を示す。Xにおける分離された生成係数の表現が、同じ分離演算によるXの分離された表現と同等な場合、表現S○Fψ(X)は構成的である。例えば、分離演算は物体のマスクによる画像のマスキングである。通常、かかる分離演算の設計にはグラウンドトゥルース生成係数に関する知識が必要である。
【0055】
同変性は以下のように定義される。
Fψ(Mg・X)=Mg・Fψ(X)
Mgは1組の変換を示す。入力Xの変換が出力Fψ(X)を同じように変換するMgが存在する場合、Fψ(X)は同変である。すなわち、構成的同変表現は以下の式を満たすものとして定義される。
【0056】
Fψ(Mg・S○X) = Mg・S○Fψ(X).
【0057】
適切な表現とは構成上同変でなければならない。構成的同変表現の学習のために、まず、画像の特徴を学習可能なカーネル(例えば、von Mises Fisher(vMF)カーネル)に分解する。カーネル毎に活性化チャネルが取得される。カーネルの活性化は空間的な情報を与えるため、下流セグメンテーションに利用可能である。カーネルがより構造的に同変であるほど、セグメンテーション性能は向上する。このような分解は、オクルージョン下での物体検出や医用画像セグメンテーションにおいて、以前から利用されている。
【0058】
例えば、一般に、循環器疾患の診断、治療、管理、予防、予測等に役立照られる心臓画像セグメンテーションタスクの場合、12個のカーネルを用いて分解が行われる。全てのカーネルについて(経験的に選択される)、分布の分散σは30に固定される。その他の制約がない場合、カーネルは構成的に同変ではない場合がある。すなわち、カーネルは人が解釈可能な意味情報と対応しない場合がある。構成的同変性を向上させるため、弱教師の3つの形態を提案する。従って、最小限の教師によってセグメンテーションタスクに関する適切な表現(例えば、画像の特徴)が学習可能となる。最小限の教師は、特にセグメンテーションマスクにフルアノテーションを施す時間と費用の削減等、大幅に性能を向上させる。
【0059】
特定のタスクに対して適切な潜在表現を探し出すことは機械学習の基本である。潜在表現(グラウンドトゥルース生成係数)および下流タスク(グラウンドトゥルース・ラベル)に教師が利用可能な場合、supervised lossを用いてモデルを訓練するのが自然である。但し、実際は、データの全ての生成係数が既知なわけではない。潜在表現または下流タスクの教師が不十分な場合、汎化可能および解釈可能な表現の学習は非常に困難なものとなる。この問題に対処するために、構成的同変を帰納バイアスとして用いて潜在表現を学習する。構成的同変によって、弱教師の下で所望の表現の学習が可能になる。
【0060】
図3は、実施例に係るセグメンテーションの低データレジームの概略を示す。レジームは、セグメンテーションマスクを有するフルアノテーションを施された患者60を用いる。これによって、約20個のラベル付き2次元(2D)画像が供給される。また、約5,000個の「弱ラベル付き」2D画像も供給される。弱ラベル画像のアノテーションは、対象の物体(例えば、境界ボックス)の境界を表す情報を含むが、アノテーションの形式は任意である。この目的は、全ての画像に対し良好な性能を示すセグメンテーションを訓練することにある。この目的を達成するために、異なる弱教師目標が構築される。すなわち、心臓62の有無、左心室(LV)、心筋(MYO)、右心室(RV)の有無、およびLV、MYO、RVのボリューム回帰66等である。但し、目標は、追加的に/代替として他の解剖学的物体(例えば、臓器、臓器の部分構造など)、対象の病変や医療機器の有無および/またはボリュームを含む。弱教師と構成的同変を共に用いて、このセグメンテーションタスク(または追加的に/代替として位置合わせ、画像変換、または回帰タスク)の構成的同変表現を学習させる。
【0061】
図4および5は、構成的同変について弱教師を用いる効果を示す。図4および5は、弱教師あり(図5)と弱教師なし(図4)の2つの例における12個のvMF活性化チャネル70を示す。図4の教師なし設定と比較して、図5の弱教師ありの場合、明らかにより強い構成的同変が見られる。弱教師ありの場合、図5のチャネル1-71とチャネル2-72は心臓との関連がより強い。図5のチャネル3-73は、この特定のタスクに対する教師はないにも拘らず肺の形状を示している。図5のチャネル4-74は、大半が入力画像の背景である。全体的に図4より図5の方が、構成的表現の活性化がより解釈しやすく、各チャネルが相同すなわち構成的同変である。図5に示す弱教師付きレジームについて、モデルに対して肺に関する情報は提供されていないにも拘わらず、一つの構成的表現73が肺を表すことが観察される。
【0062】
弱教師(心臓の有無)ありの心臓セグメンテーションタスクを検討し、最適なカーネル活性化を図5の心臓セグメンテーションとして用いて、得られた結果を以下に示す。
【0063】
【0064】
図3を参照して上述した低データレジームを考慮し、4つのラベル付き被検体A、B、CおよびDに対し異なる弱教師目標を用いて、弱教師目標の有効性を示す以下の結果を得た。
【0065】
【0066】
上記の表に示す通り、弱教師目標を利用しない場合(上記表内の「Dice」欄)、Diceスコアは平均で約46.66であった。心臓の有無に関する弱教師の導入によって(「Dice + 心臓またはなし」)、より良い結果が得られる場合もあった(平均では改善は見られなかったものの)。他の2つの弱教師目標の例では、平均で約6%と7.5%の改善が達成された。
【0067】
本明細書に記載される弱教師付き構成的同変表現学習を、例えば、広範囲のアノテーションがない場合に医用画像セグメンテーション性能を向上させるために用いることができる。
【0068】
弱教師を用いることによって(上述のように)、より構成的に同変な表現が学習され、より適切な心臓画像セグメンテーション結果を実現することができる。これによって、広範囲なアノテーションを必要とすることなく、正確な自動医用画像セグメンテーションが提供される。過去に教示されているとおり(例えば、以下を参照、“Liu, X. et al., 2022. vMFNet: Compositionality Meets Domain-Generalised Segmentation, MICCAI”)、医用画像セグメンテーションタスクの合成カーネルを学習することで、ソースドメインと未知の対象ドメイン間のドメインシフトに対処する。この有益な汎化能力は、本明細書に開示される弱教師付き構成的同変表現によって維持される。
【0069】
また、本明細書に開示される弱教師付き構成的同変表現学習によって、医用画像セグメンテーションモデルの説明可能性を高めることが可能になる。各カーネルの活性化は特定の解剖学的構造の有無に相当する。例えば、あるカーネルが構成上同変であり、特定の解剖学的臓器の情報を有する場合、このカーネルを活性化すれば、臓器等の存在を予測することができる。モデルが正しい結果を正確に予測できない場合、カーネルの活性化について問い合わせを行い、モデル性能を診断し、向上を図ることが可能である。
【0070】
深層学習モデル/ネットワークの訓練に加えて、処理回路(例えば、図1の処理回路34)は、複数の学習用医用画像の内の少なくとも一部を拡張して(例えば、拡大・縮小によって対象の物体の異なるボリュームおよび/または範囲を提示することによって)、拡張された学習用医用画像を生成してもよい。該拡張された学習用医用画像は、深層学習モデル/ネットワークの学習に追加的/代替的に利用可能である。
【0071】
本明細書において特定の回路について説明したが、別の実施形態においては、これらの回路の内の1つ以上の機能は、1つの処理資源や他のコンポーネントによって提供される、または1つの回路によって提供される機能は、2つ以上の処理資源や他のコンポーネントを組み合わせて提供されてもよい。単一の回路の記載には、その回路の機能を実現する複数のコンポーネントが含まれる、これらのコンポーネントが互いに離れているか否かに関わらない。複数の回路の記載には、これらの回路の機能を実現する単一のコンポーネントが含まれる。
【0072】
次に、本発明の一実施形態に係る実験で得られた結果について説明する。この結果は、以下の文献の表IからIVおよび図4から8に示される、“Liu, X., Sanchez, P, Thermos, S., O’Neil, A. Tsaftaris, S. 2023. “Compositionally Equivariant Representation Learning, arXiv:2306.07783” 。ここに援用することによってその全内容を参照する。
【0073】
上記実験では下記のデータセットが用いられた。
【0074】
「マルチセンター、マルチベンダ、およびマルチ疾患心臓画像セグメンテーション(M&Ms)」データセットは、6か所の臨床センターにおいて、4つの異なる磁気共鳴スキャナベンダ(以下、ドメインA、B、C、Dと呼ぶ)を用いてスキャンされた320の被検体から成る。各被検体について、収縮末期および拡張末期のみにアノテーションを付けた。このデータセットのボクセル解像度は、0.85×0.85×10mmから1.45×1.45×9.9mmである。ドメインAは95の被検体を含み、ドメインBは125の被検体を含み、ドメインCとDはそれぞれ50の被検体を含む。
【0075】
「脊髄灰白質セグメンテーション(SCGM)」データセット画像を、異なるMRIシステム(以下、ドメイン1、2、3、4と呼ぶ)を用いて4か所の異なる医療センターから収集した。このデータセットのボクセル解像度は、0.25×0.25×2.5mmから0.5×0.5×5mmである。各ドメインは10個のラベルあり被検体と10個のラベルなし被検体を有する。
【0076】
実験において、半教師あり環境下で、全モデルをAdamオプティマイザを用いて訓練し、学習率1×e-4、バッチサイズ4で50K回の反復学習を行った。M&Msデータセットについて画像を288×288にクロッピングし、SCGMデータセットの画像は144×144にクロッピングした。Fψは、特徴Zを抽出するための最後のアップサンプリングと出力層を含まない2D U-Netエンコーダである。但し、Fψは、ResNet等の他のエンコーダに適宜置き換え可能であり、代替として特徴ベクトルはエンコーダの任意の層から抽出可能である。当業者に理解されるとおり、性能は使用される層に依って変化し得る。全ての設定に関し、U-Netは、ソースドメインからのラベルなしデータを用いてエポック数50で事前学習された。
【0077】
弱教師あり設定において、分類子Tθは、5つのCONV-BN-LeakyReLU層(カーネルサイズ4、ストライドサイズ2、パディングサイズ1)と、特徴を16次元と1次元にダウンサンプリングする(出力用)2つの全結合層を有する。半教師付き設定において、TθおよびRωは同様な構造を持つ。まず、バッチ正規化とReLUを備えるU-Netの2重CONV層(カーネルサイズ3、ストライドサイズ1、パディングサイズ1)によって特徴を処理した。次に、転置畳み込み層、続いてバッチ正規化とReLUの2重CONV層によって特徴をアップサンプリングした。最後に、1×1カーネルを有する出力畳み込み層を用いた。
【0078】
Tθについて、最終層の出力をシグモイド演算によって処理した。vMF分布の分散は30に設定し、カーネルの数は12とした。このカーネル数は、初期の実験で経験上最適の結果をもたらすと判明したため選択されたものである。当業者に理解されるように、異なる医用画像データセットに対するカーネルの最適数は僅かに異なる。全てのモデルは、PyTorchで実現され、NVIDIA 2080 Ti GPUを用いて訓練された。
【0079】
半教師あり設定において、特定の割合の被検体をラベル付きデータとして、残りの被検体をラベルなしデータとして用いた。モデルは、ソースドメインの内の3つにより訓練された。また、4番目のソースドメインを対象のドメインとした。Dice(%表示)およびハウスドルフ距離(Hausdorff Distance:HD)を評価尺度として用いた。
【0080】
生成係数は汎化可能かつ人が理解可能でなければならない。従って、構成的同変性の評価のため、構成的同変表現の活性化の解釈可能性と汎化可能性を考慮した。解釈可能性について、各vMF活性化チャネルがどの程度意味を成すか(すなわち、特定の解剖学的構造に関連する情報を含むか)および各チャネルの相同性の度合いを検討した。また、汎化可能性については、半教師付きドメイン汎化タスクに関するモデル性能を検討した。
【0081】
教師なし設定において、モデルをM&Msデータセットの全てのラベル付きデータを用いてエポック数200で学習させた。この設定の定性的結果は“Liu et al”の図4に開示されている。僅かなクラスタリング誤差があるものの、一部のチャネルは既に意味を持つ、すなわち、特定の解剖学的構造に対応する。
【0082】
弱教師付き設定において、モデルをM&Msデータセットの全てのラベル付きデータを用いてエポック数200で学習させた。この設定の定性的結果は“Liu et al”の図5に開示されている。教師なし設定と比較して、明らかに、より強い構成的同変性が達成されている。全体的に、構成的表現の活性化は解釈可能性がより高くなり、各チャネルの相同性もより高くなる。すなわち、構成的同変性がより高くなる。
【0083】
なお、教師あり並びに弱教師あり双方の設定において、肺に関する情報が与えられていなくても、一つの構成的表現が肺を表すことが観察された。これは、利用可能なラベル付き関連データの量が少ない場合に、学習された表現が肺の位置確認/セグメンテーションに利用可能な状態にあることを意味する。
【0084】
半教師付き設定において、半教師付きドメイン汎化問題について、他の利用可能なモデルに対して該方法をテストした。意味のある結果を得るために、他のデータセットに関する事前学習なしで、全モデルを同一のバックボーン特徴抽出器すなわちUNetと比較した。
【0085】
Liu et al.の表IからIIIには、半教師付きと弱教師付き設定の結果が示されている。弱教師の場合、M&Msデータセット内の320の被検体の収縮末期と拡張末期に対する弱ラベルを構築した。なお、灰白質は通常どのスライスにも見られ、意味のある結果は得られないため、弱教師はSCGMデータには適用していない。
【0086】
学習速度について、vMFWeakは、1つの学習エポック数が約8分というvMFNetと同じ長所を有することが示された。同様にvMFWeakは、DGNetより優れた性能を発揮し、M&Msデータセットの2%と5%の事例に対してそれぞれ3.9%、2.1%(Dice)の改善を示した。vMFNetおよびvMFPesudoと比較して、vMFWeakは、ラベルなしデータの一部、すなわち、収縮末期と拡張末期を活用するだけなので、2%および5%事例について若干性能が劣るが、一定の事例ついては、vMFWeakは弱教師の有効性を示す他のモデルより優れた性能を有する。
【0087】
Liu et al.の図8に示されるように、チャネル1から3はそれぞれLV、RV、MYOに対応する。弱教師の制約に起因して、モデルは、セグメンテーションおよび弱教師タスクと関係のない情報の大半が削除された、よりコンパクトな潜在空間を学習せざるを得ない。全体として、弱教師によって解釈可能性かつ相同性の非常に高い表現を取得することが可能である。
【0088】
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規の方法やシステムは、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
図1
図2
図3
図4
図5