IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特許7170897学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル
<>
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図1
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図2
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図3
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図4
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図5
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図6
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図7
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図8
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図9
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図10
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図11
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図12
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図13
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図14
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図15
  • 特許-学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-04
(45)【発行日】2022-11-14
(54)【発明の名称】学習装置、方法およびプログラム、画像生成装置、方法およびプログラム、並びに画像生成モデル
(51)【国際特許分類】
   A61B 5/055 20060101AFI20221107BHJP
   G06T 7/00 20170101ALI20221107BHJP
【FI】
A61B5/055 380
G06T7/00 350B
【請求項の数】 15
(21)【出願番号】P 2021551419
(86)(22)【出願日】2020-09-30
(86)【国際出願番号】 JP2020037299
(87)【国際公開番号】W WO2021066068
(87)【国際公開日】2021-04-08
【審査請求日】2022-03-08
(31)【優先権主張番号】P 2019179044
(32)【優先日】2019-09-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】工藤 彰
(72)【発明者】
【氏名】北村 嘉郎
【審査官】下村 一石
(56)【参考文献】
【文献】特表2018-505705(JP,A)
【文献】特開2018-192264(JP,A)
【文献】大竹 義人,シリーズ新潮流-The Next Step of Imaging Technology〈Vol.9〉 人工知能で医療は変わるのか 加速する医療分野のAI開発の現在と未来 「5.敵対的生成ネットワーク(GAN)による異種モダリティ画像生成」,INNERVISION,日本,(株)インナービジョン,2018年06月25日,Vol.33,No.7,pp.36-39
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/055
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習装置であって、
前記画像生成モデルは、
前記少なくとも1つの表現形式を有する対象画像の入力により、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを出力する第1ネットワークと、
前記目標情報および前記被写体モデルが入力されると、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
前記目標情報、前記被写体モデルおよび前記潜在変数が入力されると、前記仮想画像を出力する第3ネットワークとを有し、
前記特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および該複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、前記第1ネットワーク、前記第2ネットワークおよび第3ネットワークを学習する学習部を備えた画像生成モデルの学習装置。
【請求項2】
前記第1ネットワークは、前記対象画像に加えて、前記対象画像の表現形式を表す情報の入力により、前記対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを出力する請求項1に記載の学習装置。
【請求項3】
画像が入力されると該画像の特徴を次元圧縮した潜在変数を出力する第4ネットワークをさらに備え、
前記学習部は、
前記教師データに含まれる複数の教師画像のうち、前記特定の表現形式以外の他の表現形式を有する他の教師画像を前記第1ネットワークに入力して、教師被写体モデルを出力させ、
前記特定の教師情報および前記教師被写体モデルを前記第2ネットワークに入力して、前記教師被写体モデルの特徴を前記特定の教師情報に応じて次元圧縮した第1教師潜在変数を出力させ、
前記特定の表現形式を有する特定の教師画像を前記第4ネットワークに入力して、該特定の教師画像の特徴を次元圧縮した第2教師潜在変数を出力させ、
前記第1教師潜在変数と前記第2教師潜在変数との相違を第1損失として用いて、前記第1ネットワークおよび前記第2ネットワークを学習する請求項1または2に記載の学習装置。
【請求項4】
前記学習部は、前記特定の教師情報、前記教師被写体モデルおよび前記第1教師潜在変数を前記第3ネットワークに入力して、前記特定の表現形式を有する教師仮想画像を出力させ、
前記教師仮想画像と前記特定の教師画像との相違を第2損失として用いて、前記第1ネットワーク、前記第2ネットワークおよび前記第3ネットワークを学習する請求項3に記載の学習装置。
【請求項5】
前記目標情報は、画像の種別、造影剤の有無、造影剤有りの場合の造影フェーズ、現在を基準とした前後の時間、前記被写体の性別、および前記被写体の年齢の少なくとも1つを前記表現形式として表す請求項1から4のいずれか1項に記載の学習装置。
【請求項6】
前記対象画像は3次元の医用画像であり、前記表現形式は、CT画像、MRI画像およびPET画像のうちの少なくとも1つの画像の種別を含む請求項1から5のいずれか1項に記載の学習装置。
【請求項7】
前記画像の種別は、MRI画像における、T1強調画像、T2強調画像、拡散強調画像、脂肪抑制画像、FLAIR画像、造影前T1強調画像、造影後T1強調画像、T1強調画像(in phase)、T1強調画像(out phase)およびT2脂肪抑制画像の少なくとも1つを含む請求項6に記載の学習装置。
【請求項8】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成装置であって、
前記少なくとも1つの表現形式を有する対象画像に基づいて、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを導出する被写体モデル導出部と、
前記目標情報および前記被写体モデルに基づいて、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を導出する潜在変数導出部と、
前記目標情報、前記被写体モデルおよび前記潜在変数に基づいて、前記仮想画像を導出する仮想画像導出部とを備えた画像生成装置。
【請求項9】
前記被写体モデル導出部は、前記対象画像に加えて、前記対象画像の表現形式を表す情報にも基づいて、前記対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを導出する請求項8に記載の画像生成装置。
【請求項10】
前記被写体モデル導出部、前記潜在変数導出部および前記仮想画像導出部は、それぞれ請求項1から6のいずれか1項に記載の画像生成モデルの学習装置により学習された第1ネットワーク、第2ネットワークおよび第3ネットワークを有する請求項8または9に記載の画像生成装置。
【請求項11】
請求項1から7のいずれか1項記載の学習装置により学習された画像生成モデル。
【請求項12】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習方法であって、
前記画像生成モデルは、
前記少なくとも1つの表現形式を有する対象画像の入力により、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを出力する第1ネットワークと、
前記目標情報および前記被写体モデルが入力されると、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
前記目標情報、前記被写体モデルおよび前記潜在変数が入力されると、前記仮想画像を出力する第3ネットワークとを有し、
前記特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および該複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、前記第1ネットワーク、前記第2ネットワークおよび第3ネットワークを学習する画像生成モデルの学習方法。
【請求項13】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成方法であって、
前記少なくとも1つの表現形式を有する対象画像に基づいて、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを導出し、
前記目標情報および前記被写体モデルに基づいて、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を導出し、
前記目標情報、前記被写体モデルおよび前記潜在変数に基づいて、前記仮想画像を導出する画像生成方法。
【請求項14】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習方法をコンピュータに実行させる学習プログラムであって、
前記画像生成モデルは、
前記少なくとも1つの表現形式を有する対象画像の入力により、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを出力する第1ネットワークと、
前記目標情報および前記被写体モデルが入力されると、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
前記目標情報、前記被写体モデルおよび前記潜在変数が入力されると、前記仮想画像を出力する第3ネットワークとを有し、
前記特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および該複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、前記第1ネットワーク、前記第2ネットワークおよび第3ネットワークを学習する手順をコンピュータに実行させる学習プログラム。
【請求項15】
特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および該対象画像の目標とされる表現形式を表す目標情報が入力されると、前記対象画像から前記目標とされる表現形式を有する仮想画像を導出する画像生成方法をコンピュータに実行させる画像生成プログラムであって、
前記少なくとも1つの表現形式を有する対象画像に基づいて、該対象画像のそれぞれの特徴量を導出し、該特徴量を合成することにより、前記被写体を表す被写体モデルを導出する手順と、
前記目標情報および前記被写体モデルに基づいて、前記被写体モデルの特徴を前記目標情報に応じて次元圧縮した潜在変数を導出する手順と、
前記目標情報、前記被写体モデルおよび前記潜在変数に基づいて、前記仮想画像を導出する手順とをコンピュータに実行させる画像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習装置、方法およびプログラム、画像生成装置、方法およびプログラム並びに画像生成モデルに関するものである。
【背景技術】
【0002】
医療分野においては、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の各種モダリティの進歩により、より質の高い医用画像を用いての画像診断が可能となってきている。また、近年のAI(Artificial Intelligence)技術の進歩により、機械学習されたニューラルネットワーク等からなる変換モデルを用いて、あるドメインの画像を異なるドメインの画像に変換することも提案されている。例えば、特表2018-535732号公報には、複数のMRI画像およびCT画像のセットを用いて、MRI画像が入力されると仮想CT画像を出力するモデルを生成する手法が提案されている。また、下記の非特許文献1には、CT画像とMRIのT2強調画像とのセットを教師データとして使用して、CT画像が入力されると、MRIのT2強調画像を出力するモデルを生成する手法が提案されている。
【0003】
また、データを作り出す「Generator」(ジェネレータ)と、データを識別する「Discriminator」(ディスクリミネータ)とを交互に学習する敵対的生成ネットワーク(Generative Adversarial Networks:GAN)が提案されている。例えば、下記の非特許文献2には、単一のジェネレータとディスクリミネータとを用いて、マルチモーダルなドメイン変換を実現するネットワークが提案されている。非特許文献2に記載された手法は、ジェネレータの入力に変換対象の画像(例えば人物の顔画像)の各種目標とする表情(例えば、金髪、黒髪、笑顔および怒り顔等)をドメインラベルとして同時に与え、ディスクリミネータにおいては、入力された画像の真偽のみならず、ドメインすなわち表情の判定も行って、ジェネレータおよびディスクリミネータを学習している。
【0004】
また、下記の非特許文献3においては、シーンを複数の視点から撮影した画像を用いて、未知の視点から撮影した画像を生成する手法が提案されている。非特許文献3に記載された手法は、表現ネットワーク(representation network)および生成ネットワーク(generation network)を用意し、表現ネットワークにおいて、あるシーンを複数の視点から撮影した画像から特徴量を抽出し、特徴量から未知の目標とする視点の画像を出力するシーンモデルを生成する。そして生成ネットワークにおいて、シーンモデルおよび未知の目標とする視点に基づいて、未知の視点から見た画像が生成される。
【0005】
非特許文献1:Cheng-Bin Jin, Hakil Kim, Wonmo Jung, Seongsu Joo, Ensik Park, Ahn Young Saem, In Ho Han, Jae Il Lee, Xuenan Cui "Deep CT to MR Synthesis using Paired and Unpaired Data", Sensors 2019.19(10), 2361
非特許文献2:Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo "StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation",arXiv:1711.09020
非特許文献3:S. M. Ali Eslamiら、"Neural scene representation and rendering", DeepMind, 5 New Street Square, London EC4A 3TW, UK.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特表2018-535732号公報および非特許文献1に記載された手法は、モデルを学習する際に使用した表現形式の画像のみしか生成することができない。例えば、特表2018-535732号公報に記載された手法では、MRI画像の入力によりCT画像のみしか生成することができない。また、非特許文献1に記載された手法では、CT画像の入力によりMRIのT2強調画像のみしか生成することができない。また、非特許文献2に記載された手法では、表現形式の変換の際に、入力された画像の表現形式に固有の特徴が失われてしまう可能性がある。また、非特許文献3に記載された手法は、処理がシーン認識に限定されている。
【0007】
本開示は上記事情に鑑みなされたものであり、目標とする表現形式の画像を生成できるようにすることを目的とする。
【課題を解決するための手段】
【0008】
本開示による学習装置は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習装置であって、
画像生成モデルは、
少なくとも1つの表現形式を有する対象画像の入力により、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを出力する第1ネットワークと、
目標情報および被写体モデルが入力されると、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
目標情報、被写体モデルおよび潜在変数が入力されると、仮想画像を出力する第3ネットワークとを有し、
特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、第1ネットワーク、第2ネットワークおよび第3ネットワークを学習する学習部を備える。
【0009】
なお、本開示による学習装置においては、第1ネットワークは、対象画像に加えて、対象画像の表現形式を表す情報の入力により、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを出力するものであってもよい。
【0010】
また、本開示による学習装置においては、画像が入力されると画像の特徴を次元圧縮した潜在変数を出力する第4ネットワークをさらに備え、
学習部は、
教師データに含まれる複数の教師画像のうち、特定の表現形式以外の他の表現形式を有する他の教師画像を第1ネットワークに入力して、教師被写体モデルを出力させ、
特定の教師情報および教師被写体モデルを第2ネットワークに入力して、教師被写体モデルの特徴を特定の教師情報に応じて次元圧縮した第1教師潜在変数を出力させ、
特定の表現形式を有する特定の教師画像を第4ネットワークに入力して、特定の教師画像の特徴を次元圧縮した第2教師潜在変数を出力させ、
第1教師潜在変数と第2教師潜在変数との相違を第1損失として用いて、第1ネットワークおよび第2ネットワークを学習するものであってもよい。
【0011】
また、本開示による学習装置においては、学習部は、特定の教師情報、教師被写体モデルおよび第1教師潜在変数を第3ネットワークに入力して、特定の表現形式を有する教師仮想画像を出力させ、
教師仮想画像と特定の教師画像との相違を第2損失として用いて、第1ネットワーク、第2ネットワークおよび第3ネットワークを学習するものであってもよい。
【0012】
また、本開示による学習装置においては、目標情報は、画像の種別、造影剤の有無、造影剤有りの場合の造影フェーズ、現在を基準とした前後の時間、被写体の性別および被写体の年齢の少なくとも1つを表現形式として表すものであってもよい。
【0013】
また、本開示による学習装置においては、対象画像は3次元の医用画像であり、表現形式は、CT画像、MRI画像およびPET画像のうちの少なくとも1つの画像の種別を含むものであってもよい。
【0014】
この場合、画像の種別は、MRI画像における、T1強調画像、T2強調画像、拡散強調画像、脂肪抑制画像、FLAIR画像、造影前T1強調画像、造影後T1強調画像、T1強調画像(in phase)、T1強調画像(out phase)およびT2脂肪抑制画像の少なくとも1つを含むものであってもよい。
【0015】
本開示による画像生成装置は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成装置であって、
少なくとも1つの表現形式を有する対象画像に基づいて、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを導出する被写体モデル導出部と、
目標情報および被写体モデルに基づいて、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を導出する潜在変数導出部と、
目標情報、被写体モデルおよび潜在変数に基づいて、仮想画像を導出する仮想画像導出部とを備える。
【0016】
なお、本開示による画像生成装置においては、被写体モデル導出部は、対象画像に加えて、対象画像の表現形式を表す情報にも基づいて、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを導出するものであってもよい。
【0017】
また、本開示による画像生成装置においては、被写体モデル導出部、潜在変数導出部および仮想画像導出部は、それぞれ本開示による画像生成モデルの学習装置により学習された第1ネットワーク、第2ネットワークおよび第3ネットワークを有するものであってもよい。
【0018】
本開示による画像生成モデルは、本開示による学習装置により学習されてなる。
【0019】
本開示による学習方法は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習方法であって、
画像生成モデルは、
少なくとも1つの表現形式を有する対象画像の入力により、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを出力する第1ネットワークと、
目標情報および被写体モデルが入力されると、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
目標情報、被写体モデルおよび潜在変数が入力されると、仮想画像を出力する第3ネットワークとを有し、
特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、第1ネットワーク、第2ネットワークおよび第3ネットワークを学習する。
【0020】
本開示による画像生成方法は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成方法であって、
少なくとも1つの表現形式を有する対象画像に基づいて、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを導出し、
目標情報および被写体モデルに基づいて、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を導出し、
目標情報、被写体モデルおよび潜在変数に基づいて、仮想画像を導出する。
【0021】
なお、本開示による画像生成モデルの学習方法および画像生成方法をコンピュータに実行させるためのプログラムとして提供してもよい。
【0022】
本開示による他の学習装置は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成モデルの学習装置であって、
コンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、
画像生成モデルは、
少なくとも1つの表現形式を有する対象画像の入力により、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを出力する第1ネットワークと、
目標情報および被写体モデルが入力されると、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を出力する第2ネットワークと、
目標情報、被写体モデルおよび潜在変数が入力されると、仮想画像を出力する第3ネットワークとを有し、
プロセッサは、特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データに基づいて、第1ネットワーク、第2ネットワークおよび第3ネットワークを学習する処理を実行する。
【0023】
本開示による他の画像生成装置は、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成装置であって、
コンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、
少なくとも1つの表現形式を有する対象画像に基づいて、対象画像のそれぞれの特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを導出し、
目標情報および被写体モデルに基づいて、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を導出し、
目標情報、被写体モデルおよび潜在変数に基づいて、仮想画像を導出する処理を実行する。
【発明の効果】
【0024】
本開示によれば、対象画像から目標とする表現形式を有する仮想画像を生成できる。
【図面の簡単な説明】
【0025】
図1】本開示の実施形態による学習装置および画像生成装置を適用した、診断支援システムの概要を示すハードウェア構成図
図2】本開示の実施形態による画像生成装置の概略構成を示す図
図3】画像生成モデルの構成を示す概略図
図4】被写体モデルの生成を説明するための図
図5】第2ネットワークの構成を示す図
図6】第3ネットワークの構成を示す図
図7】教師データの例を示す図
図8】画像生成モデルの学習の概念図
図9】入力される対象画像の表現形式および出力された仮想画像の表現形式を示す図
図10】教師データの例を示す図
図11】教師データの他の例を示す図
図12】教師データの他の例を示す図
図13】仮想画像の表示画面を示す図
図14】造影フェーズが異なる複数の仮想画像を示す図
図15】本実施形態において行われる学習処理を示すフローチャート
図16】本実施形態において行われる画像生成処理を示すフローチャート
【発明を実施するための形態】
【0026】
以下、図面を参照して本開示の実施形態について説明する。図1は、本開示の実施形態による学習装置および画像生成装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図1に示すように、診断支援システムでは、本実施形態による学習装置および画像生成装置(以下、画像処理装置で代表させる)1、モダリティ2、および画像保管サーバ3が、通信ネットワーク4を経由して通信可能な状態で接続されている。
【0027】
モダリティ2は、被写体である人体の診断対象となる構造物を含む部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT装置、MRI装置、およびPET(Positron Emission Tomography)装置等である。モダリティ2により生成された、複数のスライス画像からなる3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、モダリティ2として、CT装置2AおよびMRI装置2Bを含むものとする。CT装置2AおよびMRI装置2Bは、患者の血管に造影剤を注入して、造影剤の広がりを確認するための造影撮影を行うことが可能であるものとする。また、MRI装置2Bは、T1強調画像およびT2強調画像等の任意の表現形式のMRI画像を生成可能なものとする。
【0028】
ここで、医用画像はCT画像およびMRI画像のように画像の種別が異なると、画像の表現形式が異なる。例えば、画像に含まれる人体の組織が同じであっても、CT画像とMRI画像とでは濃度が異なるものとなる。また、同じMRI画像であっても、T1強調画像とT2強調画像とでは、それぞれ表現形式が異なる。具体的には、T1強調画像では、主に脂肪組織が白く見え、水、液性成分および嚢胞は黒く見え、腫瘍はやや黒く見える。また、T2強調画像では、脂肪組織だけでなく、水、液性成分および嚢胞も白く見える。このため、CT画像、T1強調画像およびT2強調画像はそれぞれ表現形式が異なる画像となる。
【0029】
また、造影剤を使用して撮影を行うことにより取得されたCT画像と、造影を使用しないで撮影を行うことにより取得された非造影のCT画像とでは、造影剤の有無により画像の見え方が異なる。このため、造影剤の有無により画像の表現形式が異なるものとなる。また、造影剤を使用して撮影を行った場合、時間の経過により造影剤の広がり方が変化する。このため、造影剤を注入してからの経過時間(造影フェーズ)に応じて、画像の表現形式が異なるものとなる。また、同一被写体の同一構造部に含まれる病変等の異常部位は、時間の経過により大きさおよび濃度等が変化するため、見え方が異なるものとなる。このため、現在を基準とした前後の時間において、画像の表現形式が異なるものとなる。
【0030】
画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線の通信ネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的にはモダリティ2で生成された医用画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式および通信ネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。また、本実施形態においては、画像保管サーバ3は、後述する複数の教師データも保管して管理している。
【0031】
本実施形態の学習装置を含む画像生成装置1は、1台のコンピュータに、本実施形態の画像生成プログラムおよび学習プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。画像生成プログラムおよび学習プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。または、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。
【0032】
図2は、コンピュータに画像生成プログラムおよび学習プログラムをインストールすることにより実現される画像生成装置の概略構成を示す図である。図2に示すように、画像生成装置1は、標準的なワークステーションの構成として、CPU(Central Processing Unit)11、メモリ12およびストレージ13を備えている。また、画像生成装置1には、液晶ディスプレイ等の表示部14、並びにキーボードおよびマウス等の入力部15が接続されている。
【0033】
ストレージ13はハードディスクドライブ等からなり、通信ネットワーク4を経由して画像保管サーバ3から取得した、仮想画像を生成する対象となる少なくとも1つの対象画像、後述するように画像生成装置を構成するネットワークの学習を行うための教師データ、および処理に必要な情報を含む各種情報が記憶されている。
【0034】
また、メモリ12には、画像生成プログラムおよび学習プログラムが記憶されている。画像生成プログラムは、特定の構造物を含む被写体についての、少なくとも1つの表現形式を有する少なくとも1つの対象画像および対象画像の目標とされる表現形式を表す目標情報が入力されると、対象画像から目標とされる表現形式を有する仮想画像を導出する画像生成処理をCPU11に実行させる。具体的には、画像生成プログラムは、CPU11に実行させる処理として、少なくとも1つの対象画像および目標情報を取得する情報取得処理、少なくとも1つの対象画像から特徴量を導出し、特徴量を合成することにより、被写体を表す被写体モデルを導出する被写体モデル導出処理、目標情報および被写体モデルに基づいて、被写体モデルの特徴を目標情報に応じて次元圧縮した潜在変数を導出する潜在変数導出処理、目標情報、被写体モデルおよび潜在変数に基づいて、目標とされる表現形式を有する仮想画像を導出する仮想画像導出処理、並びに仮想画像を表示部14に表示する表示制御処理を規定する。
【0035】
学習プログラムは、CPU11に実行させる処理として、画像生成装置に含まれる画像生成モデルの学習を行うための教師データを含む各種情報を取得する情報取得処理、および画像生成モデルの学習を行う学習処理を規定する。
【0036】
そして、CPU11が画像生成プログラムおよび学習プログラムに従いこれらの処理を実行することで、コンピュータは、情報取得部20、被写体モデル導出部21、潜在変数導出部22、仮想画像導出部23、表示制御部24および学習部25として機能する。
【0037】
情報取得部20は、通信ネットワーク4に接続されたインターフェース(不図示)を介して、画像保管サーバ3から、少なくとも1つの表現形式を有する少なくとも1つの対象画像Gi(i=1~n)および対象画像Giのそれぞれについての表現形式を表す情報tiを取得する。また、情報取得部20は、入力部15からの入力等により、対象画像Giの目標とされる表現形式を表す目標情報A0を取得する。また、情報取得部20は、特定の構造物を含む被写体についての、互いに異なる表現形式を有する複数の教師画像、および複数の教師画像のそれぞれの表現形式のうちの、特定の表現形式を表す特定の教師情報を含む複数の教師データを取得する。なお、一度の処理において複数の対象画像Giが使用される場合、画像生成装置1に入力される複数の対象画像Giは、同一の患者についての同一の構造物を含む、表現形式が異なる画像である。また、目標情報A0は、生成される仮想画像V0の目標とされる表現形式を表す情報である。目標とされる表現形式は、例えば、画像の種別、造影剤の有無、造影フェーズおよび現在を基準とした前後の時間等の少なくとも1つを用いることができる。
【0038】
ここで、対象画像および教師画像に含まれる被写体の特定の構造物は同一の構造物である。例えば、対象画像に含まれる構造物が肝臓であれば、教師画像に含まれる構造物も肝臓である。以下、特定の構造物は肝臓であるとして説明する。
【0039】
被写体モデル導出部21は、対象画像Giおよび対象画像Giの表現形式を表す情報tiに基づいて特徴量を導出し、特徴量を合成することにより、被写体内の特定の構造物を表す被写体モデルM0を導出する。このため、被写体モデル導出部21は、少なくとも1つの対象画像Giおよび対象画像Giの表現形式を表す情報tiが入力されると、入力された対象画像Giの特徴量を導出し、さらに複数の対象画像Giが入力されて複数の特徴量が導出された場合に、複数の特徴量を合成することにより、被写体を表す被写体モデルM0を出力する第1ネットワーク31を有する。本実施形態においては、被写体は人体であるため、被写体モデルM0は人体モデルということができる。
【0040】
潜在変数導出部22は、目標情報A0および被写体モデルM0に基づいて、被写体モデルM0の特徴を目標情報A0に応じて次元圧縮した潜在変数z1を導出する。このために、潜在変数導出部22は、目標情報A0および被写体モデルM0が入力されると、潜在変数z1を出力する第2ネットワーク32を有する。潜在変数z1については後述する。
【0041】
仮想画像導出部23は、目標情報A0、被写体モデルM0および潜在変数z1に基づいて、目標情報A0により表される目標とされる表現形式を有する仮想画像V0を導出する。このために、仮想画像導出部23は、目標情報A0、被写体モデルM0および潜在変数z1が入力されると、仮想画像V0を導出する第3ネットワーク33を有する。
【0042】
なお、図3においては、第1ネットワーク31、第2ネットワーク32および第3ネットワーク33を、それぞれ被写体モデル導出部21、潜在変数導出部22および仮想画像導出部23に含まれるものとして別々に図示しているが、第1ネットワーク31、第2ネットワーク32および第3ネットワーク33が本開示の画像生成モデルを構成する。
【0043】
図3は、画像生成モデルの構成を示す概略図である。図3に示すように、画像生成モデル30は、第1ネットワーク31、第2ネットワーク32および第3ネットワーク33を有する。第1ネットワーク31は、畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))31Aおよび合成部31Bを有する。CNN31Aは、複数の畳み込み層およびプーリング層が階層的に接続されてなる。畳み込み層は、入力される画像に対して各種カーネルを用いた畳み込み処理を行い、畳み込み処理により得られた特徴量からなる特徴量マップを出力する。カーネルは、n×n画素サイズ(例えばn=3)を有し、各要素に重みが設定されている。具体的には入力された画像のエッジを強調する微分フィルタのような重みが設定されている。畳み込み層は、カーネルの注目画素をずらしながら、入力された画像または前段の処理層から出力された特徴量マップの全体にカーネルを適用する。さらに、畳み込み層は、畳み込みされた値に対して、シグモイド関数等の活性化関数を適用し、特徴量マップを出力する。
【0044】
プーリング層は、畳み込み層が出力した特徴量マップをプーリングすることにより、特徴量マップのデータ量を低減して、データ量が低減された特徴量マップを出力する。
【0045】
なお、後段の処理層は、特徴量マップがアップサンプリングしつつ、特徴量マップを出力する。
【0046】
そして、各処理層において特徴量マップの出力、プーリングおよびアップサンプリングを繰り返すことにより、CNN31Aの最終層からは、入力された対象画像Giの各画素についての特徴量が特徴ベクトルとして出力される。特徴ベクトルは、要素数がn個の1次元のベクトルである。本実施形態においては、第1ネットワーク31に入力された対象画像Giが1つである場合、出力された特徴ベクトルそのものが被写体モデルM0となる。
【0047】
一方、第1ネットワーク31に入力される対象画像Giが2つであった場合、2つの対象画像(第1の対象画像G1および第2の対象画像G2とする)のそれぞれについて出力された特徴ベクトルr1,r2を、合成部31Bが合成することにより、被写体モデルM0を導出する。図4は合成による被写体モデルM0の生成を説明するための図である。図4に示すように、第1および第2の対象画像G1,G2およびこれらの表現形式を表す情報t1,t2が第1ネットワーク31のCNN31Aに入力され、第1の対象画像G1のある画素xにおいて、第1の特徴ベクトルr1(a1,a2…an)が導出され、第2の対象画像G2の画素xに対応する画素において、第2の特徴ベクトルr2(b1,b2…bn)が導出されたとする。
【0048】
合成部31Bは、第1の対象画像G1および第2の対象画像G2の対応する画素間において、第1の特徴ベクトルr1と第2の特徴ベクトルr2との対応する要素同士を加算することにより、被写体モデルM0を導出する。被写体モデルM0は入力された対象画像Giと同一の画素数を有し、各画素に対して合成された特徴ベクトルが割り当てられてなる。なお、加算に代えて、2つの特徴ベクトルr1,r2の対応する要素間の平均値、中央値等の代表値を導出することにより、2つの特徴ベクトルr1,r2を合成してもよい。ここで、図4においては、CNN31Aを2つ並べて記載しているが、第1ネットワーク31に含まれるCNN31Aは1つのみであってもよく、複数であってもよい。CNN31Aが複数ある場合、複数のCNN31Aのそれぞれは同一の学習がなされて構築される。
【0049】
なお、本実施形態においては、対象画像Giが複数使用される場合、複数の対象画像Giは正規化されている。すなわち、各対象画像Giに含まれる被写体のサイズおよび空間的な位置を一致させる位置合わせ処理、並びに細かな構造の差異およびノイズを除去するための平滑化処理等が施されている。
【0050】
第2ネットワーク32は、目標情報A0および被写体モデルM0が入力されると、被写体モデルM0の特徴を、目標情報A0に応じて次元圧縮した第1潜在変数z1を出力する。第2ネットワーク32は、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワークからなるが、第1ネットワーク31のCNN31Aとは異なり、入力された被写体モデルM0の特徴を、目標情報A0に応じて次元圧縮するエンコーダとしての機能を有する。図5は第2ネットワークを説明するための図である。図5に示すように、第2ネットワーク32は、入力層32A、少なくとも1つの中間層32Bおよび出力層32Cからなり、入力層32Aよりも出力層32Cの次元が小さくなっている。
【0051】
そして、第2ネットワーク32は、目標情報A0および被写体モデルM0が入力層32Aに入力されると、目標情報A0により表される目標とされる表現形式を有する仮想画像V0を導出可能なように、被写体モデルM0の特徴を表す情報の情報量を少なくする(圧縮する)処理を行い、出力層32Cから潜在変数z1を出力する。潜在変数z1は、被写体モデルM0の特徴を表すものの、被写体モデルM0よりも次元数が少ない情報からなるものとなる。これにより、第2ネットワーク32からは被写体モデルM0の特徴を、入力された目標情報A0に応じて次元圧縮した潜在変数z1が出力される。
【0052】
第3ネットワーク33は、目標情報A0、被写体モデルM0および潜在変数z1が入力されると、目標情報A0により表される目標とされる表現形式を有する仮想画像V0を出力する。第3ネットワーク33は、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワークからなり、入力された被写体モデルM0および潜在変数z1を再構成することにより仮想画像V0を再構成するデコーダとしての機能を有する。図6は第3ネットワークを説明するための図である。図6に示すように、第3ネットワーク33は、入力層33A、少なくとも1つの中間層33Bおよび出力層33Cからなり、入力層33Aよりも出力層33Cの次元が大きくなっている。
【0053】
そして、第3ネットワーク33は、目標情報A0、被写体モデルM0および潜在変数z1が入力されると、仮想画像V0を再構成する処理を行い、出力層33Cから仮想画像V0を出力する。これにより、第3ネットワーク33からは目標とされる表現形式を有する仮想画像V0が出力される。
【0054】
学習部25は、複数の教師データを用いて、画像生成モデル30を学習する。すなわち、学習部25は、被写体モデル導出部21が有する第1ネットワーク31、潜在変数導出部22が有する第2ネットワーク32、および仮想画像導出部23が有する第3ネットワーク33を学習する。このために、学習部25は、ある表現形式の画像が学習のために入力されると、その表現形式の画像の特徴を次元圧縮した潜在変数z2を出力する第4ネットワーク34を有する。第4ネットワーク34はエンコーダとしての機能を有し、第2ネットワーク32と類似する構成を有する。潜在変数z2は、入力された画像の特徴を表すものの、入力された画像よりも次元数が少ない情報からなるものとなる。
【0055】
本実施形態においては、第4ネットワーク34は、学習時にのみ使用される。このため、本実施形態においては、学習部25が第4ネットワーク34を有するものとするが、これに限定されるものではない。なお、第2ネットワーク32が出力する潜在変数z1を第1潜在変数、第4ネットワーク34が出力する潜在変数z2を第2潜在変数と称するものとする。また、第1潜在変数z1と第2潜在変数z2との次元は同一であるものとする。
【0056】
図7は教師データの例を示す図である。図7に示す教師データ40は、例として3つの教師画像K1~K3を含む。教師画像K1の画像の種別はCT画像、教師画像K2の画像の種別はMRIのT1強調画像、教師画像K3の画像の種別はMRIのT2強調画像ある。また、教師データ40は、教師画像K3についての表現形式を表す教師情報KJを含む。本実施形態においては、教師情報KJはT2強調画像であるため、教師情報KJはT2強調画像種別を表現形式として表すものとなる。なお、教師データ40には、教師画像K1,K2の画像の種別、すなわち表現形式を表す情報を含むものとしてもよい。本実施形態においては、教師データ40には、教師画像K1,K2の画像の種別、すなわち表現形式を表す情報を含むものとする。1つの教師データに含まれる複数の教師画像は、それぞれ異なる表現形式の画像が取得されるように、モダリティ2において同一被写体についての同一部位を撮影することに取得されたものである。例えば、CT画像である教師画像K1はCT置2Aにより取得され、T1強調画像である教師画像K2およびT2強調画像である教師画像K3は、それぞれMRI装置2Bにより取得される。ここで、図7においては、教師画像K1~K3の表現形式の相違を、教師画像K1~K3に異なるハッチングを付与することにより表している。
【0057】
なお、複数の教師画像K1~K3は学習のために正規化されている。すなわち、複数の教師画像K1~K3の空間的な位置を一致させる位置合わせ処理、および細かな構造の差異およびノイズを除去するための平滑化処理等が施されている。
【0058】
図8は、画像生成モデルの学習の概念図である。まず、学習時においては、第1ネットワーク31には、教師データ40に含まれる教師画像が入力される。具体的には、教師情報KJにより表される表現形式を有する教師画像以外の他の教師画像が入力される。例えば、図7に示す教師データ40においては、教師情報KJはT2強調画像の表現形式を表す。このため、教師データ40に含まれる、T2強調画像である教師画像K3以外の、CT画像である教師画像K1およびT1強調画像である教師画像K2が第1ネットワーク31に入力される。なお、教師画像K1,K2の表現形式を表す情報Kt1,Kt2も第1ネットワーク31に入力される。これにより、第1ネットワーク31のCNN31Aからは、教師画像K1についての特徴ベクトルおよび教師画像K2についての特徴ベクトルが出力される。そして合成部31Bにおいて2つの特徴ベクトルが合成されて教師被写体モデルKMが導出される。
【0059】
また、第2ネットワーク32には、図7に示す教師データ40に含まれる教師情報KJおよび第1ネットワーク31から出力された教師被写体モデルKMが入力される。これにより、第2ネットワーク32は、教師被写体モデルKMの特徴を教師情報KJに応じて次元圧縮した第1潜在変数z1である第1教師潜在変数Kz1を出力する。
【0060】
また、第3ネットワーク33には、図7に示す教師データ40に含まれる教師情報KJ、第1ネットワーク31から出力された教師被写体モデルKMおよび第2ネットワーク32から出力された第1教師潜在変数Kz1が入力される。これにより、第3ネットワーク33は、教師情報KJにより表される表現形式を有する、すなわちT2強調画像の表現形式を有する教師仮想画像KV0を出力する。
【0061】
また、第4ネットワーク34には、図7に示す教師データ40に含まれる教師情報KJに対応する表現形式の教師画像K3(ここではT2強調画像)が入力される。これにより、第4ネットワーク34は、教師画像K3の特徴を次元圧縮した第2潜在変数z2である第2教師潜在変数Kz2を出力する。
【0062】
そして、学習部25は、第1の教師潜在変数Kz1と第2の教師潜在変数Kz2との相違を第1損失L1として導出する。そして、第1損失L1を用いて、第1ネットワーク31および第2ネットワーク32を学習する。ここで、第2ネットワーク32から出力される第1教師潜在変数Kz1は、教師情報KJおよび教師被写体モデルKMに基づいて導出される。このため、第1教師潜在変数Kz1は、教師情報KJにより表される表現形式を有する教師画像K3に基づいて第4ネットワーク34から出力された第2教師潜在変数Kz2は異なるものとなるが、第1教師潜在変数Kz1と第2教師潜在変数Kz2との相違が小さいほど、第3ネットワーク33からはより好ましい仮想画像V0を出力することが可能となる。
【0063】
このために、本実施形態においては、学習部25は、第1損失L1を小さくするように、第1ネットワーク31のCNN31Aおよび第2ネットワーク32を学習する。具体的には、CNN31Aに関しては、学習部25は、第1損失L1が予め定められたしきい値Th1以下となるように、CNN31Aを構成する畳み込み層の数、プーリング層の数、畳み込み層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、CNN31Aの学習を行う。また、第2ネットワーク32に関しては、学習部25は、第1損失L1が予め定められたしきい値Th1以下となるように、第2ネットワーク32を構成する畳み込み層の数、プーリング層の数、畳み込み層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、第2ネットワーク32の学習を行う。
【0064】
これにより、第1ネットワーク31は、少なくとも1つの対象画像Giが入力されると、目標とされる表現形式を有する仮想画像V0を導出可能な第1潜在変数z1を、第2ネットワーク32が出力可能な被写体モデルM0を出力するものとなる。また、第2ネットワーク32は、第1ネットワーク31が出力した被写体モデルM0が入力されると、目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な第1潜在変数z1を出力するものとなる。なお、学習部25は、第1損失L1が予め定められたしきい値Th1以下となるように学習を行うことに代えて、予め定められた回数の学習を行うものであってもよい。
【0065】
また、学習部25は、第3ネットワーク33が出力した教師仮想画像KV0と教師情報KJにより表される表現形式を有する教師画像K3との相違を第2損失L2として導出する。そして、第2損失L2を用いて、第1ネットワーク31、第2ネットワーク32および第3ネットワーク33を学習する。ここで、第3ネットワーク33から出力される教師仮想画像KV0は、教師情報KJ、教師被写体モデルKMおよび第1教師潜在変数Kz1に基づいて導出される。このため、教師仮想画像KV0は教師情報KJにより表される表現形式を有する教師画像K3とは異なるものとなるが、教師仮想画像KV0と教師画像K3との相違が小さいほど、第3ネットワーク33からはより好ましい仮想画像V0を出力することが可能となる。
【0066】
このために、本実施形態においては、学習部25は、第2損失Lを小さくするように、第1ネットワーク31のCNN31A、第2ネットワーク32および第3ネットワーク33を学習する。具体的には、CNN31Aに関しては、学習部25は、第2損失L2が予め定められたしきい値Th2以下となるように、CNN31Aを構成する畳み込み層の数、プーリング層の数、畳み込み層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、CNN31Aの学習を行う。なお、CNN31Aは第1損失L1および第2損失L2の双方に基づいて学習されることとなる。
【0067】
また、第2ネットワーク32に関しては、学習部25は、第2損失L2が予め定められたしきい値Th2以下となるように、第2ネットワーク32を構成する畳み込み層の数、プーリング層の数、畳み込み層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、第2ネットワーク32の学習を行う。なお、第2ネットワーク32も第1損失L1および第2損失L2の双方に基づいて学習されることとなる。
【0068】
また、第3ネットワーク33に関しては、学習部25は、第2損失L2が予め定められたしきい値Th2以下となるように、第3ネットワーク33を構成する畳み込み層の数、プーリング層の数、畳み込み層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、第3ネットワーク33の学習を行う。
【0069】
これにより、第1ネットワーク31のCNN31Aは、目標情報A0により表される表現形式を有する仮想画像V0を導出可能な第1潜在変数z1を第2ネットワーク32が出力可能であり、かつ目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な被写体モデルM0を出力するものとなる。また、第2ネットワーク32は、目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な第1潜在変数z1を出力するものとなる。また、第3ネットワーク33は、目標情報A0、第1ネットワーク31が出力した被写体モデルM0、および第2ネットワーク32が出力した第1潜在変数z1が入力されると、目標とされる表現形式を有する仮想画像V0を出力するものとなる。
【0070】
ここで、教師データとして使用する教師画像としては、上述したようにCT置2Aにより取得されたCT画像、並びにMRI装置2Bにより取得されたT1強調画像およびT2強調画像の他、任意の種別の画像を用いることができる。例えば、1つの教師データに含められるMRI画像としては、T1強調画像およびT2強調画像の他、拡散強調画像、脂肪抑制画像、FLAIR画像、造影前T1強調画像、造影後T1強調画像、T1強調画像(in phase)、T1強調画像(out phase)およびT2脂肪抑制画像等、任意の種別のMRI画像を用いることができる。この場合、CT画像およびMRI画像等の画像の種別を表現形式として表す教師情報KJを用いればよい。
【0071】
このような、各種表現形式のCT画像およびMRI画像を教師画像として使用し、CT画像およびMRI画像等の画像の種別を表現形式として表す教師情報KJを使用することにより、任意の表現形式の少なくとも1つの対象画像Giおよび教師情報KJとして使用した表現形式を表す目標情報A0を画像生成装置1に入力すると、目標情報A0により表される表現形式を有する仮想画像V0が生成されるようになる。例えば、対象画像GiがCT画像およびMRIのT1強調画像であり、目標情報A0により表される表現形式がMRIのT2強調画像であった場合、CT画像およびT1強調画像から、MRIのT2強調画像の表現形式の仮想画像V0を生成することができるようになる。
【0072】
図9は入力される対象画像の表現形式および出力された仮想画像の表現形式を示す図である。なお、図9においては、左側の列が入力される対象画像であり、表現形式としての画像の種別が、上から順に造影後T1強調画像、T1強調画像(out phase)、T2強調画像および造影後T1強調画像となっている。また、左側から列目から列目が変換された表現形式の仮想画像V0を示している。表現形式としての画像の種別は、左側列目から順に、それぞれCT画像、造影後T1強調画像、T1非造影画像、T1強調画像(in phase)、T1強調画像(out phase)およびT2脂肪抑制画像である。本実施形態によれば、図9に示すように、各種表現形式の教師データを用いることにより、入力される対象画像Giの表現形式に拘わらず、目標とされる表現形式を有する仮想画像V0が生成されるようになる。
【0073】
また、CT撮影を行う際に、造影剤を使用する場合および造影剤を使用しない場合がある。このため、図10に示すように、造影剤を使用することにより取得されたCT画像K11および造影剤を使用しないで取得されたCT画像K12を、1つの教師データ41に含めることができる。この場合、CT画像における造影剤の有無の表現形式を表す教師情報KJを教師データ41に含めることができる。図10においては、造影剤有りの表現形式を表す教師情報KJを教師データ41に含めている。また、図10においては教師画像K11における造影剤の領域をハッチングで示している。
【0074】
このように、造影剤を使用することにより取得されたCT画像および造影剤を使用しないで取得されたCT画像を教師画像K11,K12として含み、造影剤の有無の表現形式を表す教師情報KJとして含む教師データ41を用いて画像生成モデル30を学習することにより、任意の表現形式の少なくとも1つの対象画像Giおよび造影剤の有無の表現形式を表す目標情報A0を画像生成装置1に入力すると、目標情報A0に応じて、造影されたまたは非造影の表現形式を有する仮想画像V0が生成されるようになる。例えば、対象画像Giが1つの非造影のMRI画像であり、目標情報A0がCTの造影剤有りであった場合、画像生成装置1により、造影剤を使用して撮影を行ったMRI画像の表現形式を有する仮想画像V0を生成することができるようになる。
【0075】
また、造影剤を用いて撮影を行う場合、図11に示すように、造影剤を注入してからの経過時間が異なる複数のCT画像を、教師画像K21~K23として1つの教師データ42に含めてもよい。この場合、CT画像における造影剤を注入してからの経過時間を表す造影フェーズの表現形式を表す教師情報KJを用いればよい。図11においては、造影フェーズとして30秒の表現形式を表す教師情報KJを教師データ42に含めている。また、図11においては、教師画像K21は造影前、教師画像K22の造影フェーズは例えば10秒、教師画像K23の造影フェーズは30秒である。
【0076】
このように、造影剤を注入してからの経過時間が異なるCT画像を教師画像K21~K23として含み、造影フェーズの表現形式を表す教師情報KJを含む教師データ42を用いて画像生成モデル30を学習することにより、任意の表現形式の少なくとも1つの対象画像Giおよび造影フェーズの表現形式を表す目標情報A0を画像生成装置1に入力すると、目標情報A0に応じた造影フェーズの表現形式を有する仮想画像V0が生成されるようになる。例えば、対象画像Giが1つの非造影のMRI画像であり、目標情報A0により表される造影フェーズが30秒であった場合、画像生成装置1により、造影剤を注入してから30秒経過後のMRI画像の表現形式を有する仮想画像V0を生成することができるようになる。
【0077】
また、本実施形態においては、図12に示すように、同一被写体の同一部位について、撮影日時が異なる教師画像K31~K33を含む教師データ43を用いることができる。図12に示す教師データ43は、同一被写体の同一部位について、当日の撮影により取得したCT画像、1年前の撮影により取得したCT画像および3年前に取得したCT画像を、それぞれ教師画像K31~K33として含む。この場合、現在を基準とした前後の時間(例えば1年前、3年前、1年後、3年後等)の表現形式を表す教師情報KJを用いればよい。
【0078】
このような撮影日時が異なる画像を教師画像K31~K33として含み、現在を基準とした前後の時間の表現形式を表す教師情報KJを含む教師データ43を用いて画像生成モデル30を学習することにより、任意の表現形式の少なくとも1つの対象画像Giおよび現在からの前後の時間の表現形式を表す目標情報A0を画像生成装置1に入力すると、目標情報A0に応じた撮影時期の表現形式を有する仮想画像V0が生成されるようになる。例えば、対象画像Giが1つの現在のMRI画像であり、目標情報A0により表される表現形式が3年前であった場合、画像生成装置1により、3年前のMRI画像の表現形式を有する仮想画像V0を生成することができるようになる。
【0079】
なお、教師データとして使用する教師画像としては、単純放射線により取得された2次元放射線画像を用いることも可能である。但し、いずれの教師データも、同一被写体についての同一部位を撮影することにより取得されたものである必要がある。
【0080】
表示制御部24は、仮想画像導出部23が出力した仮想画像V0を表示部14に表示する。図13は仮想画像V0の表示画面を示す図である。なお、ここでは、2つの対象画像G1,G2から1つの仮想画像V0が生成されたものとして説明する。図13に示すように、表示画面50には、2つの対象画像G1,G2および仮想画像V0が表示されている。対象画像G1,G2は、例えばそれぞれCT画像およびT1強調画像であり、仮想画像V0はT2強調画像である。
【0081】
なお、複数の造影フェーズの表現形式を表す目標情報A0を用いることにより、造影剤が広がる状態を表す複数の仮想画像V0を生成することが可能となる。例えば、図14に示すように、30秒、1分および2分という時間の経過に応じて、造影剤が広がる様子を確認できる複数の仮想画像V0を生成することが可能となる。
【0082】
次いで、本実施形態において行われる処理について説明する。図15は本実施形態において行われる学習処理を示すフローチャートである。なお、複数の教師データは画像保管サーバ3から取得されてストレージ13に保存されているものとする。まず、学習部25は1つの教師データ40をストレージ13から取得し(ステップST1)、教師データ40に含まれる、教師情報KJにより表される表現形式の教師画像K3以外の表現形式の他の教師画像K1,K2および教師画像K1,K2の表現形式を表す情報Kt1,Kt2を、第1ネットワーク31に入力する。第1ネットワーク31は、教師画像K1,K2から特徴量を導出し、特徴量を合成することにより教師被写体モデルKMを出力する(ステップST2)。また、学習部25は、教師被写体モデルKMおよび教師情報KJを第2ネットワーク32に入力する。第2ネットワーク32は、教師被写体モデルKMの特徴を教師情報KJに応じて次元圧縮した第1潜在変数z1である第1教師潜在変数Kz1を出力する(ステップST3)。
【0083】
また、学習部25は、教師情報KJにより表される表現形式の教師画像K3を第4ネットワーク34に入力する。第4ネットワーク34は、教師画像K3の特徴を次元圧縮した第2潜在変数z2である第2教師潜在変数Kz2を出力する(ステップST4)。さらに、学習部25は、教師情報KJ、教師被写体モデルKMおよび第1教師潜在変数Kz1を第3ネットワーク33に入力する。第3ネットワーク33は、教師情報KJにより表される表現形式を有する教師仮想画像KV0を出力する(ステップST5)。なお、ステップST4の処理は、ステップST1~ST3およびステップST5の処理のいずれと並列に行ってもよく、いずれの処理と前後してもよい。
【0084】
次いで、学習部25は、第1教師潜在変数Kz1と第2教師潜在変数Kz2との相違を第1損失L1として導出する(ステップST6)。また、学習部25は、教師仮想画像KV0と教師画像K3との相違を第2損失L2として導出する(ステップST7)。そして、学習部25は、第1損失L1および第2損失L2がそれぞれ予め定められたしきい値Th1、Th2以下となったか否かを判断する(損失しきい値以下;ステップST8)。ステップST8が否定されると、学習部25は新たな教師データをストレージ13から取得し(ステップST9)、ステップST1の処理に戻り、新たな教師データを用いてステップST1~ステップST8の処理を繰り返す。ステップST8が肯定されると、学習部25は学習処理を終了する。これにより、画像生成モデル30が構築される。
【0085】
図16は本実施形態において行われる画像生成処理を示すフローチャートである。なお、対象画像Giおよび目標情報A0は、入力部15から入力されたり、画像保管サーバ3から取得されたりして、ストレージ13に保存されているものとする。画像生成処理の開始の指示により、情報取得部20がストレージ13から少なくとも1つの対象画像Giおよび目標情報A0を取得する(ステップST11)。被写体モデル導出部21は、少なくとも1つの対象画像Giおよび対象画像Giの表現形式を表す情報tiを第1ネットワーク31に入力する。第1ネットワーク31は、対象画像Giの特徴量を導出し、特徴量を合成することにより、被写体モデルM0を出力する。これにより、被写体モデル導出部21は、被写体モデルM0を導出する(ステップST12)。
【0086】
また、潜在変数導出部22は、目標情報A0および被写体モデルM0を第2ネットワーク32に入力する。第2ネットワーク32は、目標情報A0および被写体モデルM0が入力されると、被写体モデルM0の特徴を目標情報A0に応じて次元圧縮した第1潜在変数z1を出力する。これにより、潜在変数導出部22は、第1潜在変数z1を導出する(ステップST13)。
【0087】
仮想画像導出部23は、目標情報A0、被写体モデルM0および第1潜在変数z1を第3ネットワーク33に入力する。第3ネットワーク33は、目標情報A0により表される表現形式を有する仮想画像V0を出力する。これにより、仮想画像導出部23は、仮想画像V0を導出する(ステップST14)。そして、表示制御部24が仮想画像V0を表示部14に表示し(ステップST15)、処理を終了する。
【0088】
このように、本実施形態においては、目標情報A0により表される表現形式を有する仮想画像V0を導出可能な第1潜在変数z1を第2ネットワーク32が出力可能であり、かつ目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な被写体モデルM0を出力するものとなるように、被写体モデル導出部21が有する第1ネットワーク31を学習するようにした。また、第1ネットワーク31が出力した被写体モデルM0が入力されると、目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な第1潜在変数z1を出力するものとなるように、潜在変数導出部22が有する第2ネットワーク32を学習するようにした。また、目標情報A0、第1ネットワーク31が出力した被写体モデルM0、および第2ネットワーク32が出力した第1潜在変数z1が入力されると、目標とされる表現形式を有する仮想画像V0を出力するものとなるように、仮想画像導出部23が有する第3ネットワーク33を学習するようにした。
【0089】
これにより、目標情報A0により表される表現形式を有する仮想画像V0を導出可能な第1潜在変数z1を第2ネットワーク32が出力可能であり、かつ目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な被写体モデルM0を出力するものとなるように、被写体モデル導出部21の第1ネットワーク31を構築できる。また、第1ネットワーク31が出力した被写体モデルM0が入力されると、目標とされる表現形式を有する仮想画像V0を第3ネットワーク33が出力可能な第1潜在変数z1を出力するものとなるように、潜在変数導出部22の第2ネットワーク32を構築できる。また、目標情報A0、被写体モデルM0および第1潜在変数z1から、目標情報A0により表される表現形式の仮想画像V0を出力するものとなるように、仮想画像導出部23の第3ネットワーク33を構築できる。
【0090】
したがって、本実施形態による画像生成装置1によれば、少なくとも1つの対象画像Giおよび目標情報A0から、目標情報A0により表される目標とされる表現形式を有する仮想画像V0を導出することができる。
【0091】
ところで、画像の表現形式を他の表現形式に変換すると、元の画像に固有の特徴が損なわれる可能性がある。例えば、対象画像GiがMRI画像である場合において、表現形式をCT画像に変換すると、MRI画像に含まれていた細かな病変等がCT画像において消失してしまう可能性がある。ここで、本実施形態による画像生成装置1に複数の対象画像Giを入力することにより、仮想画像V0を導出する元となる画像の情報を増加させることができる。このため、対象画像Giを複数用いることにより、表現形式を変換することにより情報が損失される可能性を低減することができる。
【0092】
なお、上記実施形態においては、目標情報A0として、画像種別、造影の有無、造影有りの場合の造影フェーズおよび現在を基準とした前後の時間のいずれかを表すものとしているが、これに限定されるものではない。これらのうちの少なくとも1つを表現形式として表す目標情報A0を用いてもよい。また、被写体の性別および被写体の年齢等の表現形式をさらに表す目標情報A0を用いてもよい。この場合、教師データに含まれる教師情報KJとしては、被写体の性別、および被写体の年齢の少なくとも一方をさらに含むものとすればよい。これにより、目標情報A0の情報量を増加させることができるため、より好ましい仮想画像V0を生成することができる。なお、目標情報A0として、被写体の性別または被写体の年齢のみを表現形式として表すものを用いてもよい。
【0093】
なお、上記実施形態においては、第1ネットワーク31を、対象画像Giおよびその表現形式を表す情報tiの入力により、被写体モデルM0を出力するものとしているが、これに限定されるものではない。対象画像Giの入力のみにより、被写体モデルM0を出力するように第1ネットワーク31を構築してもよい。
【0094】
また、上記実施形態においては、被写体モデル導出部21、潜在変数導出部22および仮想画像導出部23が、それぞれ学習部25により学習された第1ネットワーク31、第2ネットワーク32および第3ネットワーク33を有するものとしているが、これに限定されるものではない。例えば、学習により構築されたネットワークではないソフトウェア等により、被写体モデル導出部21、潜在変数導出部22および仮想画像導出部23における処理を実行することも可能である。
【0095】
また、上記実施形態においては、画像生成装置1が学習部25を内包するものとしているが、これに限定されるものではない。学習部25を備えた学習装置を画像生成装置1とは別個に設け、別個に設けられた学習装置により画像生成モデルの学習を行うようにしてもよい。この場合、学習により構築された画像生成モデルは、画像生成装置1にインストールされることとなる。
【0096】
また、上記実施形態においては、特定の構造物を肝臓としているが、これに限定されるものではない。肝臓の他、肺、心臓、腎臓および脳等の構造物を対象画像とすることができる。なお、学習時には対象画像に含まれる特定の構造物を含む教師画像を使用し、特定の構造物を含む対象画像Giに特化した第1ネットワーク31、第2ネットワーク32および第3ネットワーク33が構築されることとなる。
【0097】
また、上記各実施形態において、例えば、情報取得部20、被写体モデル導出部21、潜在変数導出部22、仮想画像導出部23、表示制御部24および学習部25といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0098】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0099】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0100】
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
【符号の説明】
【0101】
1 画像生成装置
2 3次元画像撮影装置
3 画像保管サーバ
4 通信ネットワーク
11 CPU
12 メモリ
13 ストレージ
14 表示部
15 入力部
20 情報取得部
21 被写体モデル導出部
22 潜在変数導出部
23 仮想画像導出部
24 表示制御部
25 学習部
30 画像生成モデル
31 第1ネットワーク
31A CNN
31B 合成部
32 第2ネットワーク
33 第3ネットワーク
34 第4ネットワーク
40~43 教師データ
50 表示画面
A0 目標情報
Gi,G1,G2 対象画像
K1~K3、K11,K12,K21~K23,K31~K33 教師画像
KJ 教師情報
KM 教師被写体モデル
Kt1,Kt2 教師画像の表現形式を表す情報
KV0 教師仮想画像
Kz1 第1教師潜在変数
Kz2 第2教師潜在変数
L1 第1損失
L2 第2損失
ti,t1,t2 対象画像の表現形式を表す情報
z1 第1潜在変数
z2 第2潜在変数
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16