(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-05
(45)【発行日】2025-03-13
(54)【発明の名称】画像検索装置、方法およびプログラム
(51)【国際特許分類】
G06F 16/532 20190101AFI20250306BHJP
G06F 16/56 20190101ALI20250306BHJP
G16H 30/20 20180101ALI20250306BHJP
【FI】
G06F16/532
G06F16/56
G16H30/20
(21)【出願番号】P 2023531470
(86)(22)【出願日】2022-04-26
(86)【国際出願番号】 JP2022018956
(87)【国際公開番号】W WO2023276432
(87)【国際公開日】2023-01-05
【審査請求日】2023-12-11
(31)【優先権主張番号】P 2021107772
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「人工知能技術を活用した革新的ながん創薬システムの開発」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】510097747
【氏名又は名称】国立研究開発法人国立がん研究センター
(73)【特許権者】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】小林 和馬
(72)【発明者】
【氏名】三宅 基隆
(72)【発明者】
【氏名】浜本 隆二
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】特開2011-118543(JP,A)
【文献】特開2008-229161(JP,A)
【文献】特開2017-099907(JP,A)
【文献】特表2009-528595(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備え、
前記プロセッサは、
クエリ画像の元となる、検索を所望する部位を含むクエリベース画像に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、前記所見が付加されたクエリ画像を導出し、
前記付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量を導出し、
前記クエリベース画像における前記部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出し、
所見を含む複数の参照画像であって、前記参照画像のそれぞれに含まれる所見についての画像特徴を表す少なくとも1つの参照所見特徴量、および前記参照画像のそれぞれに含まれる前記所見が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量と対応づけられた複数の参照画像が登録された画像データベースを参照して、前記付加所見特徴量および前記クエリ正常特徴量と前記参照所見特徴量および前記参照正常特徴量との比較に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出し、
前記類似度に基づいて、前記クエリ画像に類似する前記参照画像を類似画像として画像データベースから抽出する画像検索装置。
【請求項2】
前記所見情報は、前記所見の種類に応じた領域を含む請求項1に記載の画像検索装置。
【請求項3】
前記プロセッサは、前記付加された所見を符号化することにより前記付加所見特徴量を導出し、
前記クエリベース画像を符号化することにより前記クエリ正常特徴量を導出する請求項1または2に記載の画像検索装置。
【請求項4】
前記クエリベース画像は、前記検索を所望する部位が正常領域のみからなる標準的な画像である請求項1から3のいずれか1項に記載の画像検索装置。
【請求項5】
前記所見についての代表的な画像特徴を表す少なくとも1つの所見特徴ベクトル、および前記正常領域についての代表的な画像特徴を表す正常特徴ベクトルを記憶するストレージを備え、
前記プロセッサは、前記付加された所見についての画像特徴を表す付加所見特徴ベクトルを導出し、前記付加所見特徴ベクトルを、前記所見特徴ベクトルのうちの、前記付加所見特徴ベクトルとの差分が最小となる所見特徴ベクトルに置換することにより量子化して、前記付加所見特徴量を導出し、
前記クエリベース画像における前記部位に含まれる正常領域についての画像特徴を表すクエリ正常特徴ベクトルを導出し、前記クエリ正常特徴ベクトルを、前記正常特徴ベクトルのうちの、前記クエリ正常特徴ベクトルとの差分が最小となる正常特徴ベクトルに置換することにより量子化して、前記クエリ正常特徴量を導出する請求項4に記載の画像検索装置。
【請求項6】
前記クエリベース画像は所見を含む画像であり、
前記クエリ正常特徴量は、前記クエリベース画像に含まれる前記所見が正常な領域であったとした場合の画像についての画像特徴を表す請求項1から3のいずれか1項に記載の画像検索装置。
【請求項7】
前記所見についての代表的な画像特徴を表す少なくとも1つの所見特徴ベクトル、および含まれる前記所見が正常な領域であったとした場合の画像についての代表的な画像特徴を表す正常特徴ベクトルを記憶するストレージを備え、
前記プロセッサは、前記付加された所見についての画像特徴を表す付加所見特徴ベクトルを導出し、前記付加所見特徴ベクトルを、前記所見特徴ベクトルのうちの、前記付加所見特徴ベクトルとの差分が最小となる所見特徴ベクトルに置換することにより量子化して、前記付加所見特徴量を導出し、
前記クエリベース画像において、前記所見が含まれる領域が正常な領域であったとした場合についての前記クエリベース画像の画像特徴を表すクエリ正常特徴ベクトルを導出し、前記クエリ正常特徴ベクトルを、前記正常特徴ベクトルのうちの、前記クエリ正常特徴ベクトルとの差分が最小となる正常特徴ベクトルに置換することにより量子化して、前記クエリ正常特徴量を導出する請求項6に記載の画像検索装置。
【請求項8】
前記プロセッサは、前記付加された所見が入力されると前記付加所見特徴量を導出するように学習がなされた符号化学習モデルを用いて、前記付加所見特徴量を導出する請求項1から7のいずれか1項に記載の画像検索装置。
【請求項9】
前記プロセッサは、前記クエリベース画像が入力されると前記クエリ正常特徴量を導出するように学習がなされた符号化学習モデルを用いて、前記クエリ正常特徴量を導出する請求項1から8のいずれか1項に記載の画像検索装置。
【請求項10】
前記参照所見特徴量および前記参照正常特徴量は、前記参照画像を符号化することにより導出される請求項1から9のいずれか1項に記載の画像検索装置。
【請求項11】
前記参照所見特徴量および前記参照正常特徴量の組み合わせは、前記参照画像についての画像特徴を表す請求項10に記載の画像検索装置。
【請求項12】
前記参照所見特徴量は、前記参照画像に含まれる所見の異常さについての画像特徴を表す特徴ベクトルを、前記所見の異常さについての代表的な画像特徴を表す少なくとも1つの第1の特徴ベクトルのうちの、前記所見の異常さについての画像特徴との差分が最小となる第1の特徴ベクトルに置換することにより量子化されて導出され、
前記参照正常特徴量は、前記所見が正常な領域であったとした場合の前記参照画像についての画像特徴を表す特徴ベクトルを、前記所見が正常な領域であったとした場合の画像についての代表的な画像特徴を表す少なくとも1つの第2の特徴ベクトルのうちの、前記所見が正常な領域であったとした場合の前記参照画像についての画像特徴との差分が最小となる第2の特徴ベクトルに置換することにより量子化されて導出される請求項10または11に記載の画像検索装置。
【請求項13】
前記参照所見特徴量および前記参照正常特徴量は、前記参照画像が入力されると、前記参照所見特徴量および前記参照正常特徴量を導出するように学習がなされた符号化学習モデルを用いて導出される請求項10から12のいずれか1項に記載の画像検索装置。
【請求項14】
クエリ画像の元となる、検索を所望する部位を含むクエリベース画像に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、前記所見が付加されたクエリ画像を導出し、
前記付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量を導出し、
前記クエリベース画像における前記部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出し、
所見を含む複数の参照画像であって、前記参照画像のそれぞれに含まれる所見についての画像特徴を表す少なくとも1つの参照所見特徴量、および前記参照画像のそれぞれに含まれる前記所見が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量と対応づけられた複数の参照画像が登録された画像データベースを参照して、前記付加所見特徴量および前記クエリ正常特徴量と前記参照所見特徴量および前記参照正常特徴量との比較に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出し、
前記類似度に基づいて、前記クエリ画像に類似する前記参照画像を類似画像として画像データベースから抽出する画像検索方法。
【請求項15】
クエリ画像の元となる、検索を所望する部位を含むクエリベース画像に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、前記所見が付加されたクエリ画像を導出する手順と、
前記付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量を導出する手順と、
前記クエリベース画像における前記部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出する手順と、
所見を含む複数の参照画像であって、前記参照画像のそれぞれに含まれる所見についての画像特徴を表す少なくとも1つの参照所見特徴量、および前記参照画像のそれぞれに含まれる前記所見が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量と対応づけられた複数の参照画像が登録された画像データベースを参照して、前記付加所見特徴量および前記クエリ正常特徴量と前記参照所見特徴量および前記参照正常特徴量との比較に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出する手順と、
前記類似度に基づいて、前記クエリ画像に類似する前記参照画像を類似画像として画像データベースから抽出する手順とをコンピュータに実行させる画像検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像検索装置、方法およびプログラムに関する。
【背景技術】
【0002】
近年、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の医療機器により取得された医用画像を用いることによる診断が行われている。画像を用いた診断を行う際には、診断の対象となる医用画像に含まれる所見についての症例と類似する過去の医用画像を参照することが多い。過去の医用画像は病院等に設けられたPACS(Picture Archiving and Communication Systems)と呼ばれる画像データベースに大量に保存されている。このため、対象となる医用画像に類似する過去の医用画像を検索する手法が提案されている。例えば特開2003-025723号公報においては、検索の元となるクエリ画像から色、テクスチャおよび形状等を特徴量として抽出し、抽出した特徴量と類似する特徴量を有する参照画像を検索する手法が提案されている。また、特開2018-165926号公報においては、畳み込みニューラルネットワークを用いてクエリ画像の特徴量を導出し、導出した特徴量に類似する特徴量を有する参照画像を検索する手法が提案されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
画像を検索するためにはクエリ画像が必要である。しかしながら、所望とされる所見を含むクエリ画像が手元にない場合、検索そのものを行うことができない。また、臨床の現場においては、同一部位に存在する異なる疾患を比較読影したいという要望がある。例えば、脳の特定の解剖学的位置に嚢胞性病変を認め、脳腫瘍または脳膿瘍が疑われる頭部のMRI画像を用いた画像診断を行う場合を想定する。この場合、特定の解剖学的部位に脳腫瘍を含むMRI画像と脳膿瘍を含むMRI画像とをそれぞれデータベースから検索し、疾患毎に固有な特徴を改めて確認した上で、診断対象となる画像に対して最終的な診断を下したいという要望がある。
【0004】
このような場合、画像を検索する医師等のユーザは、データベースに保存された画像を1枚ずつ確認してクエリ画像を探す必要がある。しかしながら、このような作業は大変な労力を要するため、現実的ではない。
【0005】
本開示は上記事情に鑑みなされたものであり、ユーザが所望とする画像を簡易に検索できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本開示による画像検索装置は、少なくとも1つのプロセッサを備え、
プロセッサは、
クエリ画像の元となる、検索を所望する部位を含むクエリベース画像に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、所見が付加されたクエリ画像を導出し、
付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量を導出し、
クエリベース画像における部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出し、
所見を含む複数の参照画像であって、参照画像のそれぞれに含まれる所見についての画像特徴を表す少なくとも1つの参照所見特徴量、および参照画像のそれぞれに含まれる所見が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量と対応づけられた複数の参照画像が登録された画像データベースを参照して、付加所見特徴量およびクエリ正常特徴量と参照所見特徴量および参照正常特徴量との比較に基づいて、クエリ画像と複数の参照画像のそれぞれとの類似度を導出し、
類似度に基づいて、クエリ画像に類似する参照画像を類似画像として画像データベースから抽出する。
【0007】
なお、本開示による画像検索装置においては、所見情報は、所見の種類に応じた領域を含むものであってもよい。
【0008】
また、本開示による画像検索装置においては、プロセッサは、付加された所見を符号化することにより付加所見特徴量を導出し、
クエリベース画像を符号化することによりクエリ正常特徴量を導出するものであってもよい。
【0009】
また、本開示による画像検索装置においては、クエリベース画像は、検索を所望する部位が正常領域のみからなる標準的な画像であってもよい。
【0010】
また、本開示による画像検索装置においては、所見についての代表的な画像特徴を表す少なくとも1つの所見特徴ベクトル、および正常領域についての代表的な画像特徴を表す正常特徴ベクトルを記憶するストレージを備え、
プロセッサは、付加された所見についての画像特徴を表す付加所見特徴ベクトルを導出し、付加所見特徴ベクトルを、所見特徴ベクトルのうちの、付加所見特徴ベクトルとの差分が最小となる所見特徴ベクトルに置換することにより量子化して、付加所見特徴量を導出し、
クエリベース画像における部位に含まれる正常領域についての画像特徴を表すクエリ正常特徴ベクトルを導出し、クエリ正常特徴ベクトルを、正常特徴ベクトルのうちの、クエリ正常特徴ベクトルとの差分が最小となる正常特徴ベクトルに置換することにより量子化して、クエリ正常特徴量を導出するものであってもよい。
【0011】
また、本開示による画像検索装置においては、クエリベース画像は所見を含む画像であり、
クエリ正常特徴量は、クエリベース画像に含まれる所見が正常な領域であったとした場合の画像についての画像特徴を表すものであってもよい。
【0012】
また、本開示による画像検索装置においては、所見についての代表的な画像特徴を表す少なくとも1つの所見特徴ベクトル、および含まれる所見が正常な領域であったとした場合の画像についての代表的な画像特徴を表す正常特徴ベクトルを記憶するストレージを備え、
プロセッサは、付加された所見についての画像特徴を表す付加所見特徴ベクトルを導出し、付加所見特徴ベクトルを、所見特徴ベクトルのうちの、付加所見特徴ベクトルとの差分が最小となる所見特徴ベクトルに置換することにより量子化して、付加所見特徴量を導出し、
クエリベース画像において、所見が含まれる領域が正常な領域であったとした場合についてのクエリベース画像の画像特徴を表すクエリ正常特徴ベクトルを導出し、クエリ正常特徴ベクトルを、正常特徴ベクトルのうちの、クエリ正常特徴ベクトルとの差分が最小となる正常特徴ベクトルに置換することにより量子化して、クエリ正常特徴量を導出するものであってもよい。
【0013】
また、本開示による画像検索装置においては、プロセッサは、付加された所見が入力されると付加所見特徴量を導出するように学習がなされた符号化学習モデルを用いて、付加所見特徴量を導出するものであってもよい。
【0014】
また、本開示による画像検索装置においては、プロセッサは、クエリベース画像が入力されるとクエリ正常特徴量を導出するように学習がなされた符号化学習モデルを用いて、クエリ正常特徴量を導出するものであってもよい。
【0015】
また、本開示による画像検索装置においては、参照所見特徴量および参照正常特徴量は、参照画像を符号化することにより導出されるものであってもよい。
【0016】
また、本開示による画像検索装置においては、参照所見特徴量および参照正常特徴量の組み合わせは、参照画像についての画像特徴を表すものであってもよい。
【0017】
また、本開示による画像検索装置においては、参照所見特徴量は、参照画像に含まれる所見の異常さについての画像特徴を表す特徴ベクトルを、所見の異常さについての代表的な画像特徴を表す少なくとも1つの第1の特徴ベクトルのうちの、所見の異常さについての画像特徴との差分が最小となる第1の特徴ベクトルに置換することにより量子化されて導出され、
参照正常特徴量は、所見が正常な領域であったとした場合の参照画像についての画像特徴を表す特徴ベクトルを、所見が正常な領域であったとした場合の画像についての代表的な画像特徴を表す少なくとも1つの第2の特徴ベクトルのうちの、所見が正常な領域であったとした場合の参照画像についての画像特徴との差分が最小となる第2の特徴ベクトルに置換することにより量子化されて導出されるものであってもよい。
【0018】
また、本開示による画像検索装置においては、参照所見特徴量および参照正常特徴量は、参照画像が入力されると、参照所見特徴量および参照正常特徴量を導出するように学習がなされた符号化学習モデルを用いて導出されるものであってもよい。
【0019】
本開示による画像検索方法は、クエリ画像の元となる、検索を所望する部位を含むクエリベース画像に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、所見が付加されたクエリ画像を導出し、
付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量を導出し、
クエリベース画像における部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出し、
所見を含む複数の参照画像であって、参照画像のそれぞれに含まれる所見についての画像特徴を表す少なくとも1つの参照所見特徴量、および参照画像のそれぞれに含まれる所見が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量と対応づけられた複数の参照画像が登録された画像データベースを参照して、付加所見特徴量およびクエリ正常特徴量と参照所見特徴量および参照正常特徴量との比較に基づいて、クエリ画像と複数の参照画像のそれぞれとの類似度を導出し、
類似度に基づいて、クエリ画像に類似する参照画像を類似画像として画像データベースから抽出する。
【0020】
なお、本開示による画像検索方法をコンピュータに実行させるためのプログラムとして提供してもよい。
【発明の効果】
【0021】
本開示によれば、ユーザが所望とする画像を簡易に検索できる。
【図面の簡単な説明】
【0022】
【
図1】本開示の実施形態による画像検索装置を適用した医療情報システムの概略構成を示す図
【
図2】本実施形態による画像検索装置を含む画像処理システムの概略構成を示す図
【
図3】本実施形態による画像検索装置を含む画像処理システムの機能構成図
【
図6】画像符号化部および画像復号化部が行う処理の概念図
【
図7】画像符号化部および画像復号化部が行う処理の概念図
【
図8】第1の特徴ベクトルへの置換を説明するための図
【
図11】類似画像を検索する際のクエリ画像Q0からの特徴量の導出を説明するための図
【
図14】本実施形態において行われる学習処理を示すフローチャート
【
図15】本実施形態において行われる画像検索処理を示すフローチャート
【
図17】図
16に示すような所見を含むクエリベース画像に対して所見を付加することにより導出されたクエリ画像を示す図
【発明を実施するための形態】
【0023】
以下、図面を参照して本開示の実施形態について説明する。まず、本実施形態による画像検索装置を適用した医療情報システムの構成について説明する。
図1は、医療情報システムの概略構成を示す図である。
図1に示す医療情報システムは、本実施形態による画像検索装置を内包するコンピュータ1、撮影装置2、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
【0024】
コンピュータ1は、本実施形態による画像検索装置を内包するものであり、本実施形態の画像検索プログラムがインストールされている。コンピュータ1は、診断を行う医師が直接操作するワークステーションあるいはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。画像検索プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、あるいはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータ1にダウンロードされ、インストールされる。または、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータ1にインストールされる。
【0025】
撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT(Computed Tomography)装置、MRI(Magnetic Resonance Imaging)装置、およびPET(Positron Emission Tomography)装置等である。撮影装置2により生成された、複数のスライス画像からなる3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、被検体である患者の診断対象部位は脳であり、撮影装置2はMRI装置であり、被検体の脳を含む頭部のMRI画像を3次元画像として生成するものとする。
【0026】
画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。また、画像保管サーバ3には、後述する教師データも記憶されている。
【0027】
なお、本実施形態においては、画像保管サーバ3には、画像データベースDBが保存されている。画像データベースDBには、人体における各種部位についての各種疾患を含む複数の画像が参照画像として登録されている。例えば、脳について脳腫瘍、脳出血および脳梗塞等を含む画像、および肺について肺がん等を含む画像が参照画像として登録されている。画像データベースDBについては後述する。また、本実施形態においては、参照画像も複数のスライス画像からなる3次元画像である。
【0028】
次いで、本実施形態による画像検索装置について説明する。
図2は、本実施形態による画像検索装置を含む画像処理システムのハードウェア構成を説明する。
図2に示すように、本実施形態による画像検索装置10は、CPU(Central Processing Unit)11、不揮発性のストレージ13、および一時記憶領域としてのメモリ16を含む。また、画像検索装置10は、液晶ディスプレイ等のディスプレイ14、キーボードとマウス等の入力デバイス15、およびネットワーク4に接続されるネットワークI/F(InterFace)17を含む。CPU11、ストレージ13、ディスプレイ14、入力デバイス15、メモリ16およびネットワークI/F17は、バス18に接続される。なお、CPU11は、本開示におけるプロセッサの一例である。
【0029】
ストレージ13は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、およびフラッシュメモリ等によって実現される。記憶媒体としてのストレージ13には、画像検索プログラム12が記憶される。CPU11は、ストレージ13から画像検索プログラム12を読み出してからメモリ16に展開し、展開した画像検索プログラム12を実行する。
【0030】
次いで、本実施形態による画像検索装置の機能的な構成を説明する。
図3は、本実施形態による画像検索装置を含む画像処理システムの機能構成図である。
図3に示すように本実施形態による画像検索装置10は、情報取得部20、クエリ画像導出部21、画像符号化部22、画像復号化部23、学習部24、類似度導出部25、抽出部26および表示制御部27を備える。画像符号化部22は、第1の特徴量導出部22A、第2の特徴量導出部22Bおよび第3の特徴量導出部22Cを備える。画像復号化部23は、セグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cを備える。
【0031】
そして、CPU11が画像検索プログラム12を実行することにより、CPU11は、情報取得部20、クエリ画像導出部21、第1の特徴量導出部22A、第2の特徴量導出部22B、第3の特徴量導出部22C、類似度導出部25、抽出部26および表示制御部27として機能する。また、CPU11が不図示の学習プログラムを実行することにより、CPU11は、第1の特徴量導出部22A、第2の特徴量導出部22B、第3の特徴量導出部22C、セグメンテーション部23A、第1の再構成部23B、第2の再構成部23Cおよび学習部24として機能する。
【0032】
情報取得部20は、操作者による入力デバイス15からの指示により、画像保管サーバ3から、後述する検索の対象となるクエリ画像を導出するためのクエリベース画像を取得する。クエリベース画像は、検索を所望する部位を含む。また、情報取得部20は、操作者による入力デバイス15からの指示により、後述するように学習部24が画像符号化部22における符号化学習モデルおよび画像復号化部23における復号化学習モデルを学習するための複数の教師データを画像保管サーバ3から取得する。
【0033】
なお、クエリベース画像および教師データが既にストレージ13に保存されている場合には、情報取得部20は、ストレージ13からクエリベース画像および教師データを取得するようにしてもよい。
【0034】
クエリ画像導出部21は、クエリ画像を導出する。クエリ画像の導出に際しては、まず表示制御部27が、検索画面をディスプレイ14に表示する。
図4は検索画面を示す図である。
図4に示すように、検索画面40は、クエリ画像を導出および表示するための作業領域となる第1の表示領域41、所見を選択するための第2の表示領域42、検索結果を表示する第3の表示領域43、および検索実行ボタン44を含む。
【0035】
第1の表示領域41には、検索を所望する部位を含むクエリベース画像B0が表示される。
図4に示すようにクエリベース画像B0は、例えば、検索を所望する部位が正常領域のみからなる標準的な画像である。本実施形態においては、検索を所望する部位は脳であるため、クエリベース画像B0は標準的な脳画像である。標準的な画像としては、標準的な人体アトラス画像、健常者の代表的な実画像、複数の健常者の実画像を平均した平均画像、人工的に生成された画像等を例として挙げることができる。なお、クエリベース画像B0は元々所見を含むものであってもよいが、所見を含むクエリベース画像B0については後述する。
【0036】
クエリベース画像B0は、不図示の画像取得画面においてユーザが入力デバイス15を用いて指示を行うことにより、情報取得部20が画像保管サーバ3またはストレージ13から取得する。クエリベース画像B0は、例えばMRI画像のような複数のスライス画像からなる3次元画像である。このため、ユーザは、入力デバイス15のマウスホイールを用いて、第1の表示領域41に表示されるスライス画像を順次切り替えて表示することができる。
【0037】
第2の表示領域42には、クエリベース画像B0に付加することができる所見のリストが表示されている。本実施形態においては、所見のリストには、浮腫42A、造影効果42Bおよび壊死42Cの3種類の所見が含まれており、これら3つの所見の種類に応じた領域がクエリベース画像B0に対して付加可能とされている。
図4においては、説明のために浮腫42Aに白色、造影効果42Bに斜めハッチング、壊死42Cに黒色が割り当てられているが、色を割り当てることが好ましい。また、任意の模様を割り当てるようにしてもよい。
【0038】
ユーザは、まず所見を付加するスライス画像を選択する。なお、所見を付加するスライス画像についてもクエリベース画像B0と称する。次いで、ユーザは、第2の表示領域42に表示された所見のリストから、マウスカーソルによりいずれかの所見を選択する。そしてユーザがクエリベース画像B0における所望とする位置に、選択した所見の種類に応じた領域を描画することにより、クエリベース画像B0に所見を付加することができる。また、異なる所見を重ね合わせることにより所見の種類に応じた領域を描画して所見を付加することもできる。
【0039】
図5は所見が付加されたクエリベース画像B0を含む検索画面を示す図である。
図5においては、クエリベース画像B0の左側の領域(右脳の領域)に対して、外側から順に、浮腫、造影効果および壊死の3つの所見の種類に応じた領域が重ね合わせられた所見45が付加されている。所見45が付加されたクエリベース画像B0は検索に用いられることから、クエリ画像Q0となる。なお、本実施形態においては、クエリベース画像B0に対して所見45が付加されてクエリ画像Q0が導出されるが、クエリ画像Q0は、クエリベース画像B0と所見45の領域のみを含む画像(以下、付加所見ラベル画像とする)F0とが重ね合わせられた画像となる。
【0040】
ここで、導出されたクエリ画像Q0は後述するように類似画像検索を行う際に画像符号化部22に入力され、クエリベース画像B0と付加所見ラベル画像F0とが別々に符号化される。以降の説明においては、クエリ画像導出部21が導出したクエリ画像Q0、クエリ画像Q0を構成するクエリベース画像B0および付加所見ラベル画像F0を総称して対象クエリ画像と称するものとする。
【0041】
なお、類似画像検索を行う際には、クエリ画像導出部21が導出したクエリ画像Q0のみならず、異常がある被検体を撮影することにより取得された、元々所見が含まれる画像も参照画像として画像符号化部22に入力されて符号化される。一方、本実施形態においては、参照画像が所見を含まない場合もある。
【0042】
対象クエリ画像の符号化は、画像符号化部22を構成する第2の特徴量導出部22Bおよび第3の特徴量導出部22Cが行う。参照画像の符号化は、画像符号化部22を構成する第1の特徴量導出部22Aおよび第2の特徴量導出部22Bが行う。まず、対象クエリ画像の符号化について説明する。
【0043】
画像符号化部22を構成する第2の特徴量導出部22Bは、対象クエリ画像のうちのクエリベース画像B0を符号化することにより、クエリベース画像B0における部位に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を第2の特徴量として導出する。
【0044】
なお、本実施形態においては、対象クエリ画像のうちのクエリベース画像B0に所見が含まれる場合、画像符号化部22を構成する第2の特徴量導出部22Bは、クエリベース画像B0を符号化することにより、クエリベース画像B0に含まれる所見が正常な領域であった場合の画像についての画像特徴を表す少なくとも1つのクエリ正常特徴量を第2の特徴量として導出する。
【0045】
画像符号化部22を構成する第3の特徴量導出部22Cは、対象クエリ画像のうちの付加所見ラベル画像F0を符号化することにより、クエリベース画像B0に付加された所見の異常さについての画像特徴を表す少なくとも1つの付加所見特徴量を第3の特徴量として導出する。
【0046】
なお、本実施形態においては、対象クエリ画像のうちのクエリ画像Q0に付加所見ラベル画像F0が含まれない場合、第3の特徴量導出部22Cが第3の特徴量として導出する付加所見特徴量は、所見が含まれないことを表す情報となる。
【0047】
このために、第2の特徴量導出部22Bおよび第3の特徴量導出部22Cは、対象クエリ画像が入力されると、第2の特徴量および第3の特徴量をそれぞれ導出するように学習がなされた符号化学習モデルとしてのエンコーダおよび潜在モデル(Latent model)を有する。符号化学習モデルとしてのエンコーダおよび潜在モデルについては後述する。
【0048】
次いで、参照画像の符号化について説明する。画像符号化部22を構成する第1の特徴量導出部22Aは、参照画像を符号化することにより、対象画像に含まれる所見の異常さについての画像特徴を表す少なくとも1つの参照所見特徴量を第1の特徴量として導出する。なお、本実施形態においは、参照画像に所見が含まれない場合がある。このような場合、第1の特徴量導出部22Aが第1の特徴量として導出する参照所見特徴量は、所見が含まれないことを表す情報となる。
【0049】
画像符号化部22を構成する第2の特徴量導出部22Bは、参照画像を符号化することにより、参照画像に含まれる所見が正常な領域であった場合の画像についての画像特徴を表す少なくとも1つの参照正常特徴量を第2の特徴量として導出する。また、参照画像が所見を含まない場合、画像符号化部22を構成する第2の特徴量導出部22Bは、参照画像における部位に含まれる正常領域についての画像特徴を表す少なくとも1つの参照正常特徴量を第2の特徴量として導出する。
【0050】
このために、第1の特徴量導出部22Aおよび第2の特徴量導出部22Bは、参照画像が入力されると、第1の特徴量および第2の特徴量をそれぞれ導出するように学習がなされた符号化学習モデルとしてのエンコーダおよび潜在モデル(Latent model)を有する。また、本実施形態においては、第1の特徴量導出部22Aと第2の特徴量導出部22Bとで共通の符号化学習モデルを有するものとする。符号化学習モデルとしてのエンコーダおよび潜在モデルについては後述する。
【0051】
ここで、対象クエリ画像から第3の特徴量として導出された付加所見特徴量と、参照画像から第1の特徴量として導出された参照所見特徴量とは、いずれも画像に含まれる所見の異常さについての画像特徴を表す。したがって、付加所見特徴量と参照所見特徴量とを比較することによって、対象クエリ画像と参照画像との間で、画像に含まれる所見の異常さについての画像特徴の類似度を導出することができる。
【0052】
一方、対象クエリ画像から第2の特徴量として導出されたクエリ正常特徴量と、参照画像から第2の特徴量として導出された参照正常特徴量とは、いずれも画像に含まれる所見が正常な領域であった場合の画像についての画像特徴を表す。したがって、クエリ正常特徴量と参照正常特徴量を比較することによって、対象クエリ画像と参照画像との間で、画像に含まれる所見が正常な領域であった場合の画像についての画像特徴の類似度を導出することができる。
【0053】
このため、対象クエリ画像から第3の特徴量として導出された付加所見特徴量および第2の特徴量として導出されたクエリ正常特徴量と、参照画像から第1の特徴量として導出された参照所見特徴量および第2の特徴量として導出された参照正常特徴量とを比較することによって、クエリ画像と参照画像との間で、画像に含まれる所見の異常さについての画像特徴および画像に含まれる所見が正常な領域であった場合についての画像特徴が組み合わさった特徴量、すなわち、所望とされる所見が所望とされる正常領域に含まれていた場合の画像としての類似度を導出することができる。
【0054】
一方、符号化学習モデルおよび復号化学習モデルを学習する際に用いられる教師データは、教師画像と教師ラベル画像とからなる。教師ラベル画像とは、教師画像のうちの所見の種類に応じた領域を表したものである。以降の説明においては、画像情報としての、クエリベース画像B0、参照画像および教師画像を総称して対象画像と称するものとする。また、ラベル画像情報としての、付加所見ラベル画像F0、教師ラベル画像および所見ラベル画像V0を対象ラベル画像と称するものとする。
【0055】
なお、本実施形態においては、対象画像は脳を含み、所見は、脳腫瘍、脳梗塞または脳出血等の脳の疾患の種類に応じて定められた領域とする。対象ラベル画像は、対象画像における脳の疾患の種類に応じて定められた領域を表すものとする。
【0056】
ここで、第1の特徴量は、対象画像に含まれる所見の異常さについての画像特徴を表す。すなわち、脳腫瘍、脳梗塞または脳出血等の脳の疾患の種類に応じて定められた領域について、これらを所見として正常組織から識別することを可能にする画像特徴を表す。
【0057】
また、第2の特徴量は、対象画像における所見が正常な領域であったとした場合の画像についての画像特徴を表す。このため、第2の特徴量は、対象画像における所見、すなわち疾患の領域が、疾患が仮に存在しなかったとした場合の領域、とくに脳の正常組織の画像特徴により補間された画像特徴を表すものとなる。したがって、第2の画像特徴は、対象画像における脳がすべて正常組織となった状態における画像の画像特徴を表すものとなる。
【0058】
また、第3の特徴量は、対象ラベル画像によって示された、対象画像における脳の疾患の種類に応じて定められた領域が持つべき画像特徴を表す。
【0059】
また、第1の特徴量および第2の特徴量の組み合わせは、対象画像の画像特徴、とくに疾患の種類に応じて定められた領域を含む脳の画像特徴を表すものであってもよい。この場合、第1の特徴量は、対象画像に含まれる所見の異常さについての画像特徴を表すが、対象画像に含まれる所見が正常な領域であったとした場合の画像特徴との差分を表現する画像特徴を表すものとなる。本実施形態においては、所見は脳の疾患であるため、第1の特徴量は、対象画像における脳がすべて正常組織となった状態における画像の画像特徴との差分を表現する画像特徴を表すものとなる。これにより、異常な領域を所見として含む脳の画像から、疾患の種類に応じて定められた領域の異常さについての画像特徴と、脳がすべて正常組織となった状態における画像の画像特徴とを、分離して獲得することができる。
【0060】
また、本実施形態においては、後述する符号化学習モデルおよび復号化学習モデルの学習によって対象ラベル画像から導出される第3の特徴量は、対象ラベル画像に対応する対象画像から導出される第1の特徴量を近似したものとなる。このために、第3の特徴量および第2の特徴量の組み合わせは、第1の特徴量および第2の特徴量の組み合わせと同様に、対象画像の画像特徴、とくに疾患の種類に応じて定められた領域を含む脳の画像特徴を表すものとなる。この場合、第3の特徴量および第2の特徴量の組み合わせは、対象画像における脳がすべて正常組織となった状態における画像の画像特徴に対して、その画像が所見として含むべき異常な領域を表す画像特徴を付加したものとなる。したがって、第3の特徴量と第2の特徴量とを組み合わせることにより、所望する脳の正常組織に対して、所望する所見を含む画像の画像特徴を合成して獲得することができる。
【0061】
画像復号化部23のセグメンテーション部23Aは、対象画像を入力とした第1の特徴量導出部22Aが導出した第1の特徴量に基づいて、対象画像における所見の異常さについての種類に応じた所見ラベル画像V0を導出する。
【0062】
画像復号化部23の第1の再構成部23Bは、対象画像を入力とした第2の特徴量導出部22Bが導出した第2の特徴量に基づいて、対象画像における所見が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出する。
【0063】
画像復号化部23の第2の再構成部23Cは、対象画像を入力とした第1の特徴量導出部22Aが導出した第1の特徴量および第2の特徴量導出部22Bが導出した第2の特徴量に基づいて、対象画像の画像特徴を再構成した第2の再構成画像を導出する。なお、再構成される対象画像の画像特徴とは、対象画像に含まれる脳以外の背景も含む画像特徴である。
【0064】
このために、セグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cは、第1の特徴量および第2の特徴量が入力されると、所見の異常さについての種類に応じた所見ラベル画像V0を導出し、第1の再構成画像および第2の再構成画像を導出するように学習がなされた、復号化学習モデルとしてのデコーダを有する。
【0065】
図6および
図7は、画像符号化部22および画像復号化部23が行う処理の概念図である。
図6および
図7に示すように、画像符号化部22は、第1の符号化学習モデルであるエンコーダ31および潜在モデル31A、並びに第2の符号化学習モデルであるラベルエンコーダ33および潜在モデル33Aを有する。
【0066】
ここで、第1の符号化学習モデルであるエンコーダ31および潜在モデル31Aは画像情報、すなわち対象画像の入力を受け付け、本実施形態による第1の特徴量導出部22Aおよび第2の特徴量導出部22Bとして機能する。一方、第2の符号化学習モデルであるラベルエンコーダ33および潜在モデル33Aはラベル画像、すなわち対象ラベル画像の入力を受け付け、本実施形態による第3の特徴量導出部22Cとして機能する。
【0067】
また、画像復号化部23は、復号化学習モデルであるデコーダ32A~32Cを有する。デコーダ32A~32Cは、それぞれセグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cとしての機能を有する。なお、
図7に示すデコーダ32Aと
図6に示すデコーダ32Aとは同一であるが、
図7においては説明のために、入力および出力の向きを
図6とは逆に示している。
【0068】
第1の符号化学習モデルとしてのエンコーダ31および潜在モデル31A、並びに復号化学習モデルとしてのデコーダ32A~32Cは、所見を含む脳を被写体とした教師画像および教師画像における脳の疾患の種類に応じて定められた領域に応じた教師ラベル画像の組み合わせを教師データとして使用して、機械学習を行うことにより構築される。エンコーダ31およびデコーダ32A~32Cは、例えば、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))からなる。また、潜在モデル31Aは、VQ-VAE(Vector Quantised-Variational AutoEncoder)の手法を用いて学習される。
【0069】
VQ-VAEは、「Neural Discrete Representation Learning、Aaron van den Oordら、Advances in Neural Information Processing Systems 30 (NIPS)、6306-6315、2017」において提案された手法であり、特徴量抽出器(すなわちエンコーダ)によりエンコードされた入力データの特徴を表す潜在変数を受け取り、受け取った潜在変数を量子化し、量子化された潜在変数を特徴量復号器(すなわちデコーダ)に渡し、元の入力データが正しく再構成されたか否かによって、潜在変数の量子化の過程を学習する手法である。学習については後述する。
【0070】
なお、潜在モデル31Aは、VQ-VAEに代えて、自己符号化器(AutoEncoder)、VAE(Variational AutoEncoder)、GAN(Generative Adversarial Networks)、およびBiGAN(Bidirectional GAN)の手法等、任意の手法を用いて学習することが可能である。
【0071】
エンコーダ31を構成する畳み込みニューラルネットワークは、複数の処理層からなる。各処理層は畳み込み処理層であり、前段の処理層から入力される画像をダウンサンプリングしつつ、各種カーネルを用いた畳み込み処理を行う。カーネルは、予め定められた画素サイズ(例えば3×3)を有し、各要素に重みが設定されている。具体的には前段の入力された画像のエッジを強調する微分フィルタのような重みが設定されている。各処理層は、カーネルの注目画素をずらしながら、入力された画像または前段の処理層から出力された特徴量の全体にカーネルを適用し、特徴マップとして出力する。また、エンコーダ31の処理層は後段ほど特徴マップの解像度が小さくなっている。これにより、エンコーダ31は、入力される対象画像(G0とする)の特徴を、特徴マップの解像度が小さくなるように圧縮(すなわち次元圧縮)することにより符号化して、2つの潜在変数、すなわち第1の潜在変数z1および第2の潜在変数z2を出力する。第1の潜在変数z1は、対象画像G0における所見の異常さについての画像特徴を表し、第2の潜在変数z2は、対象画像G0における所見が正常な領域であったとした場合の画像についての画像特徴を表す。
【0072】
第1および第2の潜在変数z1,z2は、それぞれn×n個のD次元のベクトルからなる。
図6においては、例えばn=4であり、第1および第2の潜在変数z1,z2は、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。なお、第1の潜在変数z1と第2の潜在変数z2とで、ベクトルの次元数およびベクトルの数を異なるものとしてもよい。ここで、第1の潜在変数z1が、所見の異常さについての画像特徴を表す特徴ベクトルに対応する。また、第2の潜在変数z2が、対象画像G0に含まれる所見が正常な領域であったとした場合の画像についての画像特徴を表す特徴ベクトルに対応する。
【0073】
ここで、本実施形態においては、潜在モデル31Aにおいて、第1の潜在変数z1に対して、所見の異常さについての代表的な画像特徴を表す、K個のD次元の第1の特徴ベクトルe1kが予め用意されている。また、潜在モデル31Aにおいて、第2の潜在変数z2に対して、所見が正常な領域であった場合の画像についての代表的な画像特徴を表す、K個のD次元の第2の特徴ベクトルe2kが予め用意されている。なお、第1の特徴ベクトルe1kおよび第2の特徴ベクトルe2kは、ストレージ13に記憶される。また、用意される第1の特徴ベクトルe1kの数と第2の特徴ベクトルe2kの数とを異なるものとしてもよい。用意された第2の特徴ベクトルe2kが正常特徴ベクトルの一例である。
【0074】
画像符号化部22は、潜在モデル31Aにおいて、第1の潜在変数z1に含まれるn×n個のD次元のベクトルのそれぞれを、第1の特徴ベクトルe1kにより置換する。この際、第1の潜在変数z1に含まれるn×n個のD次元のベクトルは、それぞれD次元のベクトル空間において、差が最小となる第1の特徴ベクトルe1kに置換される。
図8は、第1の特徴ベクトルへの置換を説明するための図である。なお、
図8においては、説明を容易なものとするために、潜在変数のベクトルを2次元で示している。また、
図8においては、4つの第1の特徴ベクトルe11~e14が用意されているものとする。
図8に示すように、第1の潜在変数z1に含まれる1つの潜在変数のベクトルz1-1は、ベクトル空間において、第1の特徴ベクトルe12との差が最小となる。このため、ベクトルz1-1は、第1の特徴ベクトルe12と置換される。また、第2の潜在変数z2についても、第1の潜在変数z1と同様に、n×n個のD次元のベクトルのそれぞれが第2の特徴ベクトルe2kのいずれかにより置換される。
【0075】
このように、第1の潜在変数z1に含まれるn×n個のD次元のベクトルのそれぞれを第1の特徴ベクトルe1kと置換することにより、第1の潜在変数z1は、n×n個の予め定められた値を持つ最大K個の潜在変数の組み合わせにより表されるものとなる。したがって、第1の潜在変数zd1は、D次元の潜在空間において量子化されて分布することとなる。
【0076】
また、第2の潜在変数z2に含まれるn×n個のD次元のベクトルのそれぞれを第2の特徴ベクトルe2kと置換することにより、第2の潜在変数z2は、n×n個の予め定められた値を持つ最大K個の潜在変数の組み合わせにより表されるものとなる。したがって、第2の潜在変数zd2は、D次元の潜在空間において量子化されて分布することとなる。
【0077】
量子化された第1および第2の潜在変数として参照符号zd1,zd2を用いる。なお、量子化された第1および第2の潜在変数zd1,zd2も、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。量子化された第1および第2の潜在変数zd1,zd2が、それぞれ第1の特徴量および第2の特徴量に対応する。
【0078】
デコーダ32A~32Cを構成する畳み込みニューラルネットワークは、複数の処理層からなる。各処理層は畳み込み処理層であり、第1および第2の潜在変数zd1,zd2が第1および第2の特徴量として入力されると、前段の処理層から入力される特徴量をアップサンプリングしつつ、各種カーネルを用いた畳み込み処理を行う。各処理層は、カーネルの注目画素をずらしながら、前段の処理層から出力された特徴量からなる特徴マップの全体にカーネルを適用する。また、デコーダ32A~32Cの処理層は後段ほど特徴マップの解像度が大きくなっている。なお、後述するように画像検索装置が類似画像を検索する際には、デコーダ32A~32Cにおいて処理は行われない。しかしながら、ここでは、後述する学習の処理に必要であることから、画像符号化部22により対象画像G0から導出された第1および第2の潜在変数zd1,zd2を用いて、デコーダ32A~32Cにおいて行われる処理を説明する。
【0079】
本実施形態においては、デコーダ32Aには、第1の潜在変数zd1が入力される。デコーダ32Aは、第1の潜在変数zd1に基づいて、エンコーダ31に入力された対象画像G0の所見の異常さの種類に応じた所見ラベル画像V0を導出する。
【0080】
デコーダ32Bには、第2の潜在変数zd2が入力される。デコーダ32Bは、第2の潜在変数zd2に基づいて、エンコーダ31に入力された対象画像G0に含まれる所見が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像V1を導出する。このため、対象画像G0に所見が含まれていても、第1の再構成画像V1には所見が含まれず、その結果、第1の再構成画像V1に含まれる脳は正常組織のみからなるものとなる。
【0081】
デコーダ32Cには、第2の潜在変数zd2が入力される。また、デコーダ32Cの各処理層には、各処理層の解像度に応じたサイズの所見ラベル画像V0が側副的に入力される。具体的には、各処理層の解像度に応じたサイズの所見ラベル画像V0の特徴マップが側副的に入力される。なお、側副的に入力される特徴マップは、デコーダ32Aにおいて、所見ラベル画像V0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより導出してもよい。あるいは、デコーダ32Aが所見ラベル画像V0を導出する過程において導出した、各処理層の解像度に応じたサイズの特徴マップを、デコーダ32Cの各処理層に入力してもよい。以降の説明においては、所見ラベル画像V0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより、デコーダ32Cの各処理層に側副的に入力するものとする。
【0082】
ここで、所見ラベル画像V0および特徴マップは、第1の潜在変数zd1に基づいて導出されるものである。このため、デコーダ32Cは、第1および第2の潜在変数zd1,zd2に基づいて、入力された対象画像G0の画像特徴を再構成した第2の再構成画像V2を導出することとなる。これにより、第2の再構成画像V2は、第2の潜在変数zd2に基づく、第1の再構成画像V1に含まれる正常組織のみからなる脳についての画像特徴に対して、第1の潜在変数zd1に基づく、疾患の種類に応じて定められた領域の異常さについての画像特徴が付加されたものとなる。したがって、第2の再構成画像V2は、入力された対象画像G0の画像特徴を再構成したものとなる。
【0083】
一方、第2の符号化学習モデルとしてのラベルエンコーダ33および潜在モデル33Aは、所見の領域のみを含む所見ラベル画像等を教師データとして使用して、ニューラルネットワークを機械学習することにより構築される。ラベルエンコーダ33および潜在モデル33Aを学習するための教師データについては後述する。ラベルエンコーダ33もエンコーダ31と同様に畳み込みニューラルネットワークからなる。また、潜在モデル33Aは潜在モデル31Aと同様に、VQ-VAEの手法を用いて学習される。
【0084】
本実施形態においては、類似画像を検索する際、ラベルエンコーダ33には、クエリ画像Q0を構成する付加所見ラベル画像F0が入力される。ラベルエンコーダ33は、入力された付加所見ラベル画像F0の特徴を、特徴マップの解像度が小さくなるように圧縮(すなわち次元圧縮)することにより符号化して、第3の潜在変数z3を出力する。第3の潜在変数z3は、付加された所見の異常さについての画像特徴を表す。
【0085】
第3の潜在変数z3は、第1および第2の潜在変数z1,z2と同様に、n×n個のD次元のベクトルからなる。
図7においては、例えばn=4であり、第3の潜在変数z3は、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。なお、第3の潜在変数z3と第1の潜在変数z1とで、ベクトルの次元数およびベクトルの数が一致している必要がある。一方で、第3の潜在変数z3は、第2の潜在変数z2とベクトルの次元数およびベクトルの数を異なるものとしてもよい。ここで、第3の潜在変数z3が、付加された所見についての画像特徴を表す付加所見特徴ベクトルに対応する。
【0086】
また、本実施形態においては、潜在モデル33Aにおいて、第3の潜在変数z3に対して、所見の異常さについての代表的な画像特徴を表す、K個のD次元の第3の特徴ベクトルe3kが予め用意されている。なお、第3の特徴ベクトルe3kも、ストレージ13に記憶される。また、用意される第3の特徴ベクトルe3kは第1の特徴ベクトルe1kと同一であっても異なるものであってもよい。また、用意される第3の特徴ベクトルe3kの数と第1および第2の特徴ベクトルe1k,e2kの数とを異なるものとしてもよい。用意された第3の特徴ベクトルe3kが所見特徴ベクトルの一例である。
【0087】
画像符号化部22は、潜在モデル33Aにおいて、第3の潜在変数z3に含まれるn×n個のD次元のベクトルのそれぞれを、第3の特徴ベクトルe3kにより置換する。この際、第3の潜在変数z3に含まれるn×n個のD次元のベクトルは、第1および第2の潜在変数と同様に、それぞれD次元のベクトル空間において、差が最小となる第3の特徴ベクトルe3kに置換される。このように、第3の潜在変数z3に含まれるn×n個のD次元のベクトルのそれぞれを第3の特徴ベクトルe3kと置換することにより、第3の潜在変数z3は、n×n個の予め定められた値を持つ最大K個の潜在変数の組み合わせにより表されるものとなる。したがって、第3の潜在変数zd3は、D次元の潜在空間において量子化されて分布することとなる。
【0088】
量子化された第3の潜在変数として参照符号zd3を用いる。なお、量子化された第3の潜在変数zd3も、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。付加所見ラベル画像F0について導出された、量子化された第3の潜在変数zd3が付加所見特徴量の一例である。
【0089】
学習部24は、画像符号化部22のエンコーダ31および潜在モデル31A、画像復号化部23のデコーダ32A~32C、並びに画像符号化部22のラベルエンコーダ33および潜在モデル33Aの学習を行う。
図9は、画像符号化部22のエンコーダ31および潜在モデル31A、並びに画像復号化部23のデコーダ32A~32Cの学習に使用する教師データの例を示す図である。
図9に示すように、教師データ35は、腫瘍、梗塞あるいは出血等の所見37を含む脳の教師画像36と、教師画像36における所見の異常さの種類に応じた教師ラベル画像38とを含む。ラベルエンコーダ33および潜在モデル33Aの学習に使用する教師データについては後述する。
【0090】
学習部24は、エンコーダ31に教師画像36を入力し、教師画像36についての第1の潜在変数z1および第2の潜在変数z2を出力させる。なお、以降の説明においては、教師画像36についての第1の潜在変数および第2の潜在変数についても、参照符号としてz1,z2を用いるものとする。
【0091】
次いで、学習部24は、第1の潜在変数z1および第2の潜在変数z2に含まれる潜在変数のベクトルを、潜在モデル31Aにおいて第1および第2の特徴ベクトルによりそれぞれ置換することにより、量子化された第1の潜在変数zd1および第2の潜在変数zd2を取得する。なお、以降の説明においては、教師画像36についての量子化された第1の潜在変数および第2の潜在変数についても、参照符号としてzd1,zd2を用いるものとする。教師画像36についての、量子化された第1の潜在変数zd1および第2の潜在変数zd2が、第1の学習用特徴量および第2の学習用特徴量にそれぞれ対応する。
【0092】
そして、学習部24は、第1の潜在変数zd1をデコーダ32Aに入力して、教師画像36に含まれる所見37の異常さについての種類に応じた学習用所見ラベル画像VT0を導出させる。また、学習部24は、第2の潜在変数zd2をデコーダ32Bに入力して、教師画像36に含まれる所見37が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像VT1を導出させる。さらに、学習部24は、第2の潜在変数zd2をデコーダ32Cに入力し、デコーダ32Cの各処理層に、各処理層の解像度に応じたサイズの学習用所見ラベル画像VT0、具体的には学習用所見ラベル画像VT0の特徴マップを側副的に入力して、教師画像36についての画像特徴を再構成した第2の学習用再構成画像VT2を導出させる。なお、第2の学習用再構成画像VT2の導出に際し、学習用所見ラベル画像VT0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより、デコーダ32Cの各処理層に側副的に入力すればよい。
【0093】
図10はラベルエンコーダ33および潜在モデル33Aの学習に使用する教師データの例を示す図である。
図10に示すように、教師データ39は、教師データ35に含まれる教師ラベル画像38およびデコーダ32Aから出力された学習用所見ラベル画像VT0を含む。ここで、学習用所見ラベル画像VT0がラベルエンコーダ33および潜在モデル33Aの学習に使用される場合には、これを教師用ラベル画像と称するものとする。このため、学習部24は、学習用所見ラベル画像VT0をコピーしたものを、教師用所見ラベル画像として教師データ39に加えるべく、メモリ16に保持する。
図7において、学習用所見ラベル画像VT0をコピーして教師用所見ラベル画像とすることを破線で示している。なお、教師用ラベル画像についても学習用所見ラベル画像と同様の参照符号VT0を用いるものとする。さらに、ラベルエンコーダ33および潜在モデル33Aの学習においては、教師用所見ラベル画像VT0が導出された際にデコーダ32Aに入力されていた第1の潜在変数zd1を、第1の教師用特徴量として用いる。このため、学習部24は、量子化された第1の潜在変数zd1をコピーしたものを、第1の教師用特徴量としてメモリ16に保持する。
図7においては、第1の潜在変数zd1をコピーして第1の教師用特徴量とすることを破線で示している。なお、第1の教師用特徴量についても、参照符号としてzd1を用いるものとする。
【0094】
ラベルエンコーダ33および潜在モデル33Aの学習に使用する教師データ39は、教師データ35に含まれる教師ラベル画像38および教師画像36から導出された教師用所見ラベル画像VT0のいずれか一方のみを含むものであってもよい。しかしながら、ラベルエンコーダ33および潜在モデル33Aの学習に使用する画像の数が多いほど学習を効果的に進めることができるため、教師データ39には、教師データ35に含まれる教師ラベル画像38および教師画像36から導出された教師用所見ラベル画像VT0の双方を含めることが好ましい。
【0095】
学習部24は、ラベルエンコーダ33に教師ラベル画像38を入力し、教師ラベル画像38についての第3の潜在変数z3を出力させる。また、ラベルエンコーダ33に教師用所見ラベル画像VT0を入力し、教師用所見ラベル画像VT0についての第3の潜在変数z3を出力させる。なお、以降の説明においては、教師データ39についての第3の潜在変数についても、参照符号としてz3を用いるものとする。また、ラベルエンコーダ33に教師用所見ラベル画像VT0を入力した場合と教師ラベル画像38を入力した場合とで、行われる学習の処理は同一であるため、ここではラベルエンコーダ33に教師ラベル画像38を入力した場合の処理について説明する。
【0096】
次いで、学習部24は、第3の潜在変数z3に含まれる潜在変数のベクトルを、潜在モデル33Aにおいて第3の特徴ベクトルによりそれぞれ置換することにより、量子化された第3の潜在変数zd3を取得する。なお、以降の説明においては、学習に用いられる第3の潜在変数についても、参照符号としてzd3を用いるものとする。教師データ39について導出された、量子化された第3の潜在変数zd3を第3の学習用特徴量とする。
【0097】
学習部24は、第1の学習用特徴量である第1の潜在変数zd1と予め定められた第1の特徴量の確率分布との差を第1の損失L1として導出する。ここで、予め定められた第1の特徴量の確率分布とは、第1の潜在変数zd1が従うべき確率分布である。VQ-VAEの手法を用いた場合、コードワード損失およびコミットメント損失が、第1の損失L1として導出される。コードワード損失とは、第1の特徴量の確率分布における代表的な局所特徴であるコードワードが取るべき値である。コミットメント損失とは、第1の潜在変数zd1と、第1の潜在変数zd1に最も近いコードワードとの距離である。第1の損失L1によって、予め定められた第1の特徴量の確率分布にしたがった第1の潜在変数zd1が取得されるように、エンコーダ31および潜在モデル31Aが学習される。
【0098】
また、学習部24は、第2の学習用特徴量である第2の潜在変数zd2と予め定められた第2の特徴量の確率分布との差を第2の損失L2として導出する。ここで、予め定められた第2の特徴量の確率分布とは、第2の潜在変数zd2が従うべき確率分布である。VQ-VAEの手法を用いた場合、第1の損失L1と同様に、コードワード損失およびコミットメント損失が、第2の損失L2として導出される。第2の潜在変数zd2に関するコードワード損失とは、第2の特徴量の確率分布における代表的な局所特徴であるコードワードが取るべき値である。第2の潜在変数zd2に関するコミットメント損失とは、第2の潜在変数zd2と、第2の潜在変数zd2に最も近いコードワードとの距離である。第2の損失L2によって、予め定められた第2の特徴量の確率分布にしたがった第2の潜在変数zd2が取得されるように、エンコーダ31および潜在モデル31Aが学習される。
【0099】
また、学習部24は、教師画像36に含まれる所見37の異常さについての種類に応じた教師ラベル画像38と、学習用所見ラベル画像VT0との教師画像に対するセマンティックセグメンテーションとしての差を第3の損失L3として導出する。
【0100】
「セマンティックセグメンテーションとしての差」とは、教師ラベル画像38により表される異常さの種類に応じた領域と、学習用所見ラベル画像VT0により表される異常さの種類に応じた領域との重なりに基づいて定められる指標である。具体的には、教師ラベル画像38の要素数と学習用所見ラベル画像VT0の要素数との和に対する、教師ラベル画像38と学習用所見ラベル画像VT0との共通の要素数×2の値をセマンティックセグメンテーションとしての差、すなわち第3の損失L3として用いることができる。
【0101】
また、学習部24は、教師画像36に含まれる所見37外の領域と第1の学習用再構成画像VT1との差を、第4の損失L4として導出する。具体的には、学習部24は、教師画像36から所見37を除去した領域と、第1の学習用再構成画像VT1との差を第4の損失L4として導出する。
【0102】
また、学習部24は、教師画像36と第2の学習用再構成画像VT2との差を、第5の損失L5として導出する。
【0103】
さらに、学習部24は、第2の学習用特徴量である第2の潜在変数zd2が、教師画像36における所見37が正常な領域であったとした場合の画像特徴を含み、教師画像36における所見37についての画像特徴を含まないように、第2の潜在変数zd2を導出する。具体的には、Wasserstein GAN(Proceedings of the 34th International Conference on Machine Learning, PMLR 70:214-223, 2017.)の手法を用いることによって、所見37を含まない教師画像36から導出された第2の潜在変数zd2の分布をあるべき分布として、所見37を含む教師画像36から導出された第2の潜在変数zd2の分布との差を、第6の損失L6として導出する。
【0104】
Wasserstein GANの手法により、クリティックネットワークと称するニューラルネットワークが、エンコーダ31およびラベルエンコーダ33と同様に畳み込みニューラルネットワークとして構築される。クリティックネットワークは、所見37を含まない複数の教師画像36から導出された複数の第2の潜在変数zd2および所見37を含む複数の教師画像36から導出された複数の第2の潜在変数zd2を入力とする。そして、クリティックネットワークは、所見37を含まない教師画像36から導出された第2の潜在変数zd2の分布と、所見37を含む教師画像36から導出された第2の潜在変数zd2の分布との差を、Wasserstein距離として算出する。このとき、クリティックネットワークが、所見37を含まない教師画像36から導出された第2の潜在変数zd2の分布と、所見37を含む教師画像36から導出された第2の潜在変数zd2の分布とに含まれるすべての点において、単位勾配ノルムを持つように制約項を加えてもよい。
【0105】
また、学習部24は、第3の学習用特徴量である第3の潜在変数zd3と予め定められた第3の特徴量の確率分布との差を第7の損失L7として導出する。
【0106】
ここで、予め定められた第3の特徴量の確率分布とは、第3の潜在変数zd3が従うべき確率分布である。VQ-VAEの手法を用いた場合、第1の損失L1と同様に、コードワード損失およびコミットメント損失が、第7の損失L7として導出される。第3の潜在変数zd3に関するコードワード損失とは、第3の特徴量の確率分布における代表的な局所特徴であるコードワードが取るべき値である。第3の潜在変数zd3に関するコミットメント損失とは、第3の潜在変数zd3と、第3の潜在変数zd3に最も近いコードワードとの距離である。第7の損失L7によって、予め定められた第3の特徴量の確率分布にしたがった第3の潜在変数zd3が取得されるように、ラベルエンコーダ33および潜在モデル33Aが学習される。
【0107】
また、学習部24は、第3の潜在変数zd3と第1の教師用特徴量zd1との差を第8の損失L8として導出する。
【0108】
ここで、エンコーダ31および潜在モデル31Aにより取得された第1の潜在変数zd1が、予め定められた第1の特徴量の確率分布に従うほど、エンコーダ31からは教師画像36に含まれる所見37の異常さを忠実に再現可能な好ましい第1の潜在変数z1を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1を取得することが可能となる。
【0109】
また、エンコーダ31および潜在モデル31Aにより取得された第2の潜在変数zd2が、予め定められた第2の特徴量の確率分布に従うほど、エンコーダ31からは、教師画像36に含まれる所見37が正常な領域であったとした場合の画像を忠実に再現可能な好ましい第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第2の潜在変数zd2を取得することが可能となる。
【0110】
また、デコーダ32Aから出力される学習用所見ラベル画像VT0は、第1の潜在変数zd1に基づいて導出されるため、教師ラベル画像38とは完全には一致しない。また、学習用所見ラベル画像VT0は、教師画像36に含まれる所見37と完全には一致しない。しかしながら、学習用所見ラベル画像VT0と教師ラベル画像38との教師画像36に対するセマンティックセグメンテーションとしての差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第1の潜在変数z1を出力することが可能となる。すなわち、対象画像G0におけるどこが所見であるかを表す情報および所見の異常さについての画像特徴を潜在的に含む第1の潜在変数z1を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1を取得することが可能となる。したがって、エンコーダ31により対象画像G0から所見を抽出しつつ、所見の異常さについての画像特徴を表す第1の潜在変数zd1が導出されることとなる。また、デコーダ32Aからは対象画像に含まれる所見に対応する領域に関して、所見の異常さについての種類に応じた所見ラベル画像V0を出力することが可能となる。
【0111】
また、デコーダ32Bから出力される第1の学習用再構成画像VT1は、第2の潜在変数zd2に基づいて導出されるため、教師画像36に含まれる所見37が正常な領域であったとした場合の画像についての画像特徴とは完全には一致しない。しかしながら、第1の学習用再構成画像VT1と教師画像36における所見37でない領域との差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第2の潜在変数zd2を取得することが可能となる。また、デコーダ32Bからは対象画像G0に含まれる所見が正常な領域であったとした場合の画像についての画像により近い第1の再構成画像V1を出力することが可能となる。
【0112】
また、デコーダ32Cから出力される第2の学習用再構成画像VT2は、第1の潜在変数zd1および第2の潜在変数zd2に基づいて導出されるため、教師画像36とは完全には一致しない。しかしながら、第2の学習用再構成画像VT2と教師画像36との差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第1の潜在変数z1および第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1および量子化された第2の潜在変数zd2を取得することが可能となる。また、デコーダ32Cからは対象画像G0により近い第2の再構成画像V2を出力することが可能となる。
【0113】
また、エンコーダ31および潜在モデル31Aにより取得された第2の潜在変数zd2について、所見37を含まない教師画像36から導出された場合の分布(所見無し分布とする)と、所見37を含む教師画像36から導出された場合の分布(所見有り分布とする)とは、所見37の有無に応じた画像特徴の違いに影響される。このため、所見無し分布と所見有り分布とは完全には一致しない。しかしながら、所見無し分布をあるべき分布とみなすと、所見無し分布と所見有り分布との差が小さくなるほど、所見37を含む教師画像36から導出された第2の潜在変数zd2が、教師画像36に含まれる所見37の画像特徴を含まず、教師画像36に含まれる所見37が正常な領域であったとした場合の画像についての画像特徴のみを含むようになる。これにより、好ましい第2の潜在変数zd2を取得することが可能となる。したがって、エンコーダ31からは、教師画像36に含まれる所見37が正常な領域であったとした場合の画像を忠実に再現可能な好ましい第2の潜在変数z2を出力することが可能となる。
【0114】
また、ラベルエンコーダ33および潜在モデル33Aにより取得された第3の潜在変数zd3が、予め定められた第3の特徴量の確率分布に従うほど、ラベルエンコーダ33および潜在モデル33Aからは、教師ラベル画像38または教師用所見ラベル画像に含まれる所見の異常さを忠実に再現可能な好ましい第3の潜在変数z3を出力することが可能となる。また、潜在モデル33Aによってより好ましい量子化された第3の潜在変数zd3を取得することが可能となる。
【0115】
また、ラベルエンコーダ33および潜在モデル33Aより取得された第3の潜在変数zd3と第1の教師用特徴量zd1との差が小さいほど、ラベルエンコーダ33および潜在モデル33Aから導出された、教師ラベル画像38または教師用所見ラベル画像VT0に含まれる所見の異常さを表す第3の潜在変数z3が、エンコーダ31および潜在モデル31Aから導出された、対象画像G0に含まれる所見の異常さについての画像特徴を表す第1の潜在変数zd1を近似するようになる。したがって、ラベルエンコーダ33および潜在モデル33Aからは、教師ラベル画像38または教師用所見ラベル画像VT0に含まれる所見の異常さに応じた、教師画像36に含まれるべき所見37の画像特徴を表す第1の潜在変数zd1を推定して取得することが可能となる。
【0116】
このため、学習部24は、上述したように導出した第1から第8の損失L1~L8のうちの少なくとも1つに基づいて、エンコーダ31、潜在モデル31A、デコーダ32A~32C、ラベルエンコーダ33および潜在モデル33Aの学習を行う。本実施形態においては、学習部24は、損失L1~L8のすべてが、予め定められた条件を満足するように、エンコーダ31、潜在モデル31A、デコーダ32A~32C、ラベルエンコーダ33および潜在モデル33Aを学習する。すなわち、第1から第6の損失L1~L6の損失が小さくなるように、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cを構成する処理層の数、プーリング層の数、処理層におけるカーネルの係数、カーネルの大きさ、各層間の結合の重み、第1の特徴ベクトルe1kおよび第2の特徴ベクトルe2k等を更新することにより、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cを学習する。また、学習部24は、ラベルエンコーダ33および潜在モデル33Aについては、第7および第8の損失L7,L8が小さくなるように、ラベルエンコーダ33および潜在モデル33Aを構成する処理層の数、プーリング層の数、処理層におけるカーネルの係数、カーネルの大きさ、各層間の結合の重み、第3の特徴ベクトルe3k等を更新することにより、ラベルエンコーダ33および潜在モデル33Aを学習する。
【0117】
なお、本実施形態においては、学習部24は、第1の損失L1が予め定められたしきい値Th1以下となり、第2の損失L2が予め定められたしきい値Th2以下となり、第3の損失L3が予め定められたしきい値Th3以下となり、第4の損失L4が予め定められたしきい値Th4以下となり、第5の損失L5が予め定められたしきい値Th5以下となり、第6の損失L6が予め定められたしきい値Th6以下となり、第7の損失L7が予め定められたしきい値Th7以下となり、第8の損失L8が予め定められたしきい値Th8以下となるように、エンコーダ31、潜在モデル31A、デコーダ32A~32C、ラベルエンコーダ33および潜在モデル33Aを学習する。なお、しきい値を使用する学習に代えて,予め定められた回数の学習を行うようにしてもよく、各損失L1~L8が最小あるいは最大になるように学習を行うようにしてもよい。
【0118】
このように学習部24がエンコーダ31、潜在モデル31A、デコーダ32A~32C、ラベルエンコーダ33および潜在モデル33Aの学習を行うことにより、エンコーダ31は、入力される対象画像G0に含まれる脳の所見の異常さの画像特徴をより適切に表す第1の潜在変数z1を出力するようになる。また、エンコーダ31は、入力される対象画像G0に含まれる脳において、所見が正常な領域であったとした場合の脳の画像特徴をより適切に表す第2の潜在変数z2を出力するようになる。また、潜在モデル31Aは、入力される対象画像G0に含まれる脳の所見の異常さを表す画像特徴をより適切に表す量子化された第1の潜在変数zd1を取得するようになる。また、潜在モデル31Aは、入力される対象画像G0に含まれる脳において、所見が正常な領域であったとした場合の脳の画像特徴をより適切に表す量子化された第2の潜在変数zd2を取得するようになる。
【0119】
また、デコーダ32Aは、量子化された第1の潜在変数zd1が入力されると、対象画像G0に含まれる所見の異常さの種類に応じたセマンティックセグメンテーションをより正確に表す所見ラベル画像V0を出力するようになる。また、デコーダ32Bは、量子化された第2の潜在変数zd2が入力されると、対象画像G0における、所見が仮に正常な領域であった場合の脳の画像特徴を再構成した第1の再構成画像V1を出力するようになる。また、デコーダ32Cは、量子化された第2の潜在変数zd2が入力され、かつ各処理層に所見ラベル画像V0が側副的に入力されると、第2の潜在変数zd2に基づく、第1の再構成画像V1に含まれる正常組織のみからなる脳についての画像特徴に対して、第1の潜在変数zd1に基づく、疾患の種類に応じて定められた領域の異常さについての画像特徴が付加され、その結果、所見を含む脳の画像特徴を再構成した第2の再構成画像V2を出力するようになる。
【0120】
また、ラベルエンコーダ33は、付加所見ラベル画像F0が入力されると、付加所見ラベル画像F0に含まれる脳の所見の異常さの画像特徴をより適切に表す第3の潜在変数z3を出力するようになる。また、潜在モデル33Aは、付加所見ラベル画像F0に含まれる脳の所見の異常さを表す画像特徴をより適切に表す量子化された第3の潜在変数zd3を出力するようになる。さらに、この過程で導出された第3の潜在変数zd3は、付加所見ラベル画像F0に対応する画像に含まれる脳の所見の異常さの画像特徴を表す第1の潜在変数zd1の推定値となる。
【0121】
類似度導出部25は、クエリ画像Q0が導出され、ユーザにより検索画面40の検索実行ボタン44が選択されると、画像保管サーバ3に保管された画像データベースDBに登録された参照画像のうち、クエリ画像導出部21が導出したクエリ画像Q0(すなわち対象画像G0)と類似する類似参照画像を検索すべく、クエリ画像Q0と画像データベースDBに登録されたすべての参照画像との類似度を導出する。ここで、画像データベースDBには、脳の各種症例についての複数の参照画像が登録されている。本実施形態においては、参照画像について、学習済みのエンコーダ31を含む画像符号化部22により、量子化された第1および第2の潜在変数が予め導出されて、参照画像と対応づけられて画像データベースDBに登録されている。参照画像と対応づけられて画像データベースDBに登録された第1および第2の潜在変数を、第1および第2の参照潜在変数と称する。なお、第1の参照潜在変数が参照所見特徴量の一例であり、第2の参照潜在変数が参照正常特徴量の一例である。
【0122】
以下、類似度導出部25における類似度の導出について説明する。本実施形態においては、クエリ画像Q0には、クエリベース画像B0にユーザが付加した所見が含まれる。類似度導出部25は、クエリ画像Q0と参照画像との類似度を導出する。
【0123】
図11は類似画像を検索する際のクエリ画像Q0からの特徴量の導出を説明するための図である。
図11に示すように、本実施形態においては、画像符号化部22のラベルエンコーダ33および潜在モデル33Aにより、クエリ画像Q0を構成する付加所見ラベル画像F0に含まれる所見の異常さについての画像特徴を表す、量子化された第3の潜在変数zd3が付加所見特徴量として導出される。また、画像符号化部22のエンコーダ31および潜在モデル31Aにより、クエリ画像Q0を構成するクエリベース画像B0についての画像特徴を表す、量子化された第2の潜在変数zd2がクエリ正常特徴量として導出される。類似度導出部25は、クエリ画像Q0について導出された第3の潜在変数zd3と参照画像に対応する第1の参照潜在変数との差、およびクエリ画像Q0について導出された第2の潜在変数zd2と参照画像に対応する第2の参照潜在変数との差に基づいて、類似度を導出する。
【0124】
具体的には、類似度導出部25は、下記の式(1)に示すように、潜在変数のベクトル空間において、第3の潜在変数zd3と第1の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vq3(i,j)-Vr1(i,j)}2を導出し、導出したユークリッド距離の総和Σ[√{(Vq3(i,j)-Vr1(i,j)}2]を導出する。また、類似度導出部25は、第2の潜在変数zd2と第2の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vq2(i,j)-Vr2(i,j)}2を導出し,導出したユークリッド距離の総和Σ[√{(Vq2(i,j)-Vr2(i,j)}2]を導出する。そして、類似度導出部25は、2つの総和の和を類似度として導出する。
【0125】
式(1)において、S0は類似度、Vq3(i,j)は、第3の潜在変数zd3におけるマップの位置(i,j)におけるベクトル、Vr1(i,j)は、第1の参照潜在変数におけるマップの位置(i,j)におけるベクトル、Vq2(i,j)は、第2の潜在変数zd2におけるマップの位置(i,j)におけるベクトル、Vr2(i,j)は、第2の参照潜在変数におけるマップの位置(i,j)におけるベクトルをそれぞれ表す。
S0=Σ[√{(Vq3(i,j)-Vr1(i,j)}2]+Σ[√{(Vq2(i,j)-Vr2(i,j)}2] (1)
【0126】
なお、上記式(1)に代えて、下記の式(1a)により、類似度S0を導出してもよい。ここで、concat(a,b)とはベクトルaとベクトルbとを連結する演算である。
S0 = Σ[√{(Vq32(i,j)-Vr12(i,j)}2] (1a)
但し、
Vq32(i,j) = concat(Vq3(i,j),Vq2(i,j))
Vr12(i,j) = concat(Vr1(i,j),Vr2(i,j))
【0127】
なお、類似度S0の導出は、上記手法に限定されるものではない。ユークリッド距離に代えて、マンハッタン距離、ベクトル内積あるいはコサイン類似度等を用いてもよい。
【0128】
抽出部26は、入力された検索条件に応じた類似度S0に基づいて、画像データベースDBからクエリ画像Q0に類似する
類似参照画像を抽出する。抽出部26は、クエリ画像Q0と画像データベースDBに登録されたすべての参照画像との類似度S0に基づいて、クエリ画像Q0に類似する参照画像を類似参照画像として抽出する。具体的には、抽出部26は、類似度S0が大きい順に参照画像をソートして検索結果リストを作成する。
図12は検索結果リストを示す図である。
図12に示すように、検索結果リスト50には、画像データベースDBに登録された参照画像が、類似度S0が大きい順にソートされている。そして、抽出部26は、検索結果リスト50におけるソート順が上位所定数の参照画像を、画像データベースDBから類似参照画像として抽出する。
【0129】
表示制御部27は、抽出部26による抽出結果をディスプレイ14に表示する。
図13は抽出部26による抽出結果である検索結果を含む検索画面を示す図である。
図13に示すように、検索画面40の第3の表示領域43には、クエリ画像Q0と類似する4つの類似参照画像R11~R14が表示されている。
【0130】
次いで、本実施形態において行われる処理について説明する。
図14は本実施形態において行われる学習処理を示すフローチャートである。なお、複数の教師データは画像保管サーバ3から取得されてストレージ13に保存されているものとする。まず、学習部24は、教師画像36および教師ラベル画像38を含む1つの教師データ35をストレージ13から取得し(ステップST1)、教師データ35に含まれる、教師画像36を画像符号化部22のエンコーダ31に入力する。エンコーダ31は、第1の潜在変数z1および第2の潜在変数z2を、それぞれ第1の学習用特徴量および第2の学習用特徴量として導出する。また、学習部24は、教師ラベル画像38を教師データ39として使用し、教師ラベル画像38を画像符号化部22のラベルエンコーダ33に入力する。ラベルエンコーダ33は、第3の潜在変数z3を第3の学習用特徴量として導出する(学習用特徴量導出;ステップST2)。
【0131】
なお、教師用所見ラベル画像VT0を教師データ39として使用する場合、教師用所見ラベル画像VT0からの第3の学習用特徴量の導出および量子化は、後述するステップST4の後に行われる。
【0132】
次いで、学習部24は、第1の潜在変数z1、第2の潜在変数z2および第3の潜在変数z3から、量子化された第1の潜在変数zd1、量子化された第2の潜在変数zd2および量子化された第3の潜在変数zd3を導出する。さらに、学習部24は、量子化された第1の潜在変数zd1をコピーしたものを、第1の教師用特徴量zd1としてメモリ16に保持する(量子化;ステップST3)。
【0133】
そして学習部24は、量子化された第1の潜在変数zd1を画像復号化部23のデコーダ32Aに入力する。これにより、デコーダ32Aは、教師画像36に含まれる所見37の異常さについての種類に応じた学習用所見ラベル画像VT0を導出する。また、教師用所見ラベル画像VT0を教師データ39として使用する場合、学習部24は、学習用所見ラベル画像VT0をコピーしたものを、教師用所見ラベル画像VT0としてメモリ16に保持する。また、学習部24は、量子化された第2の潜在変数zd2を画像復号化部23のデコーダ32Bに入力する。これにより、デコーダ32Bは、教師画像36に含まれる所見が正常な領域であったとした場合の画像を再構成した第1の学習用再構成画像VT1を導出する。また、学習部24は、第2の潜在変数zd2をデコーダ32Cに入力し、さらにデコーダ32Cの各処理層の解像度に応じたサイズの学習用所見ラベル画像VT0を、デコーダ32Cの各処理層に側副的に入力する。これにより、デコーダ32Cは教師画像36の画像特徴を再構成した第2の学習用再構成画像VT2を導出する(学習用画像導出;ステップST4)。
【0134】
続いて、学習部24は、上述したように第1から第8の損失L1~L8を導出する(ステップST5)。
【0135】
そして、学習部24は、第1から第8の損失L1~L8が、予め定められた条件を満足するか否かを判定する(条件判定;ステップST6)。ステップST6が否定されると、学習部24は新たな教師データをストレージ13から取得し(ステップST7)、ステップST2の処理に戻り、新たな教師データを用いてステップST2~ステップST6の処理を繰り返す。ステップST6が肯定されると、学習部24は学習処理を終了する。これにより、画像符号化部22のエンコーダ31、潜在モデル31A、ラベルエンコーダ33および潜在モデル33A、並びに画像復号化部23のデコーダ32A~32Cが構築される。
【0136】
次いで、本実施形態において行われる画像検索処理について説明する。
図15は、本実施形態において行われる画像検索処理のフローチャートである。まず、ユーザからの指示に基づいて、情報取得部20が、検索の対象となるクエリ画像Q0を導出するためのクエリベース画像B0を取得し(ステップST11)、表示制御部27が、クエリベース画像B0を含む検索画面40をディスプレイ14に表示する(ステップST12)。
【0137】
次いで、クエリ画像導出部21が、クエリベース画像B0に対する所見の描画を受け付けることにより、所見が付加されたクエリ画像Q0を導出する(ステップST13)。
【0138】
そして、検索実行ボタン44が選択されることにより検索実行が指示されると(ステップST14;YES)、画像符号化部22が、クエリ画像Q0を構成する付加所見ラベル画像F0についての量子化された第3の潜在変数zd3、およびクエリ画像Q0を構成するクエリベース画像B0についての量子化された第2の潜在変数zd2を、それぞれ付加所見特徴量およびクエリ正常特徴量として導出する(特徴量導出;ステップST15)。そして、類似度導出部25が、付加所見特徴量およびクエリ正常特徴量に基づいて、クエリ画像Q0と画像保管サーバ3の画像データベースDBに登録された参照画像との類似度を導出する(ステップST16)。次いで、抽出部26が、検索条件に応じて、類似度が上位所定数の参照画像を類似参照画像として抽出する(ステップST17)。さらに、表示制御部27が、類似参照画像を検索画面40の第3の表示領域43に表示し(検索結果表示;ステップST18)、処理を終了する。
【0139】
このように、本実施形態においては、クエリベース画像B0に対する、検索を所望する少なくとも1つの所見を表す所見情報の入力を受け付けることにより、所見が付加されたクエリ画像Q0を導出するようにした。また、付加された所見についての画像特徴を表す少なくとも1つの付加所見特徴量、およびクエリベース画像B0における脳に含まれる正常領域についての画像特徴を表す少なくとも1つのクエリ正常特徴量を導出し、付加所見特徴量およびクエリ正常特徴量に基づいて、クエリ画像Q0と画像保管サーバ3に保存された複数の参照画像のそれぞれとの類似度を導出し、類似度に基づいて、クエリ画像Q0に類似する参照画像を類似画像として画像保管サーバ3から抽出するようにした。
【0140】
このため、所望とされる所見を含むクエリ画像Q0が手元にない場合であっても、ユーザは所望とされる所見を含むクエリ画像Q0を導出して、クエリ画像Q0に類似する類似画像を検索することができる。このため、ユーザはクエリ画像Q0をデータベースに保存された画像から探す作業を行う必要がなくなり、その結果、ユーザが所望とする画像を簡易に検索することができる。
【0141】
なお、上記実施形態においては、クエリベース画像B0として、検索を所望する部位が正常領域のみからなる標準的な画像を用いているが、これに限定されるものではない。検索を所望する部位が所見を含む画像をクエリベース画像B0として用いてもよい。
図16は所見を含むクエリベース画像B0の例を示す図である。
図16に示すように、クエリベース画像B0は、例えば左脳に脳梗塞等の所見60を含む。
【0142】
図17は、
図16に示す所見を含むクエリベース画像B0に対して所見を付加することにより導出されたクエリ画像を示す図である。
図17に示すように、クエリ画像Q1は、クエリベース画像B0に含まれている所見60および付加された所見45を含む。なお、クエリ画像Q1は、所見60を含むクエリベース画像B0と、所見45のみを含む付加所見ラベル画像F0とから構成される。このとき、クエリベース画像B0に元々含まれている所見60を表す情報を、デコーダ32Aから導出される所見ラベル情報に置き換えて、これをユーザの操作により所望する所見の種類に応じたより望ましいラベル情報へと修正することにより、付加所見ラベル画像F0を作成してもよい。
【0143】
図17に示すようなクエリ画像Q1を用いて類似画像検索を行う場合、画像符号化部22のラベルエンコーダ33および潜在モデル33Aにより、クエリ画像Q1を構成する付加所見ラベル画像F0に含まれる所見の異常さについての画像特徴を表す第3の潜在変数zd3が導出される。また、画像符号化部22のエンコーダ31および潜在モデル31Aにより、クエリ画像Q1を構成する、所見60を含むクエリベース画像B0についての画像特徴を表す第2の潜在変数zd2が導出される。ここで、第2の潜在変数zd2は、クエリベース画像B0に含まれる所見60が正常な領域であったとした場合のクエリベース画像B0の画像特徴をより適切に表す。
【0144】
このため、本実施形態においては、クエリベース画像B0が所見を含むものであっても、含まれる所見とは異なる位置に異なる所見を含むクエリ画像Q1を導出して、類似画像検索を行うことができる。
【0145】
また、上記実施形態においては、クエリベース画像B0における1カ所にのみ所見のみを付加しているが、これに限定されるものではない。クエリベース画像B0の複数箇所に所見を付加するようにしてもよい。この場合、付加所見ラベル画像F0は、複数箇所に付加された所見の領域を含むものとなる。
【0146】
また、上記実施形態においては、画像符号化部22のエンコーダ31および潜在モデル31A、画像復号化部23のデコーダ32A~32C、並びに画像符号化部22のラベルエンコーダ33および潜在モデル33Aを同時に学習しているが、これに限定されるものではない。まず、画像符号化部22のエンコーダ31および潜在モデル31A、並びに画像復号化部23のデコーダ32A~32Cを学習した後に、画像符号化部22のラベルエンコーダ33および潜在モデル33Aを学習するようにしてもよい。この場合、ラベルエンコーダ33および潜在モデル33Aの学習時には、デコーダ32Aの学習は行われないこととなる。
【0147】
また、上記実施形態においては、画像符号化部22において、ラベルエンコーダ33が導出した第3の潜在変数z3を潜在モデル33Aに入力することによって、量子化された第3の潜在変数zd3を、量子化された第1の潜在変数zd1を近似するものとして取得しているが、これに限定されるものではない。潜在モデル33Aを用意することなく、ラベルエンコーダ33が導出した第3の潜在変数z3を潜在モデル31Aに入力することによって、量子化された第1の潜在変数zd1を直接取得してもよい。この際、学習部24は、第3の潜在変数zd3と第1の教師用特徴量zd1との差を第8の損失L8として導出することに代えて、量子化する前の第3の潜在変数z3と第1の教師用特徴量zd1との差を第8の損失L8として導出してもよい。この場合、学習部24は、第3の学習用特徴量である第3の潜在変数zd3と予め定められた第3の特徴量の確率分布との差を第7の損失L7として導出することなく、第1~第6の損失L1~L6および第8の損失L8のみに基づいて符号化学習モデルおよび復号化学習モデルを学習してもよい。
【0148】
また、上記実施形態においては、符号化学習モデルを学習することにより構築して、第1~第3の潜在変数zd1~zd3を導出しているが、これに限定されるものではない。予め作成された学習済みモデルを用いてもよく、ルールベースで設計された特徴量計算機を用いて第1~第3の潜在変数zd1~zd3を導出してもよい。とくに、第1の潜在変数および第3の潜在変数については、例えば、所見を含む医用画像から所見の領域をセグメンテーションするモデルを学習する際のデータセットを利用して、比較的容易に本実施形態の符号化学習モデルにおけるエンコーダ31の第1の特徴量導出部22Aおよびラベルエンコーダ33を構築することができる。
【0149】
また、上記実施形態においては、クエリベース画像B0としてMRI画像を用いているが、これに限定されるものではない。CT画像、PET画像の他、放射線により被写体を撮影することにより取得された放射線画像、あるいは超音波画像等をクエリベース画像B0として用いることが可能である。
【0150】
また、上記実施形態においては、脳の画像を対象画像として用いているが、対象画像は脳に限定されるものではない。脳の画像の他に、肺、心臓、肝臓、腎臓、および四肢等の人体の任意の部位を含む画像を対象画像とすることができる。この場合、部位に現れる腫瘤、梗塞、癌および骨折等の疾患を所見として含む教師画像および教師ラベル画像を用いて、エンコーダ31、潜在モデル31A、デコーダ32A~32C、ラベルエンコーダ33および潜在モデル33Aの学習を行えばよい。
また、上記実施形態においては、クエリベース画像B0としてMRI画像を用いているが、これに限定されるものではない。CT画像、PET画像の他、放射線により被写体を撮影することにより取得された放射線画像、あるいは超音波画像等をクエリベース画像B0として用いることが可能である。
【0151】
また、第1の特徴量導出部22A、第2の特徴量導出部22Bおよび第3の特徴量導出部22Cのそれぞれについて、別々の符号化学習モデルを使用し、別々の符号化学習モデルにより、第1の特徴量、第2の特徴量および第3の特徴量をそれぞれ導出するようにしてもよい。
【0152】
また、上記実施形態において、例えば、情報取得部20、クエリ画像導出部21、第1の特徴量導出部22A、第2の特徴量導出部22B、第3の特徴量導出部22C、セグメンテーション部23A、第1の再構成部23B、第2の再構成部23C、学習部24、類似度導出部25、抽出部26および表示制御部27といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0153】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0154】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0155】
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
【符号の説明】
【0156】
1 コンピュータ
2 撮影装置
3 画像保管サーバ
4 ネットワーク
10 画像検索装置
11 CPU
12 画像検索プログラム
13 ストレージ
14 ディスプレイ
15 入力デバイス
16 メモリ
17 ネットワークI/F
18 バス
20 情報取得部
21 クエリ画像導出部
22 画像符号化部
22A 第1の特徴量導出部
22B 第2の特徴量導出部
22C 第3の特徴量導出部
23 画像復号化部
23A セグメンテーション部
23B 第1の再構成部
23C 第2の再構成部
24 学習部
25 類似度導出部
26 抽出部
27 表示制御部
31 エンコーダ
31A 潜在モデル
32A~32C デコーダ
33 ラベルエンコーダ
33A 潜在モデル
35 教師データ
36 教師画像
37 所見
38 教師ラベル画像
39 教師データ
40 検索画面
41 第1の表示領域
42 第2の表示領域
42A 浮腫
42B 造影効果
42C 壊死
43 第3の表示領域
44 検索実行ボタン
45 所見
50 検索結果リスト
60 所見
B0 クエリベース画像
F0 付加所見ラベル画像
G0 対象画像
R11~R14 類似参照画像
V0 所見ラベル画像
V1 第1の再構成画像
V2 第2の再構成画像
VT0 学習用付加所見ラベル画像(教師用所見ラベル画像)
VT1 学習用第1の再構成画像
VT2 学習用第2の再構成画像
z1 第1の潜在変数
z2 第2の潜在変数
z3 第3の潜在変数
zd1 量子化された第1の潜在変数(第1の教師用特徴量)
zd2 量子化された第2の潜在変数
zd3 量子化された第3の潜在変数