IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7333132マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム
<>
  • 特許-マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム 図1
  • 特許-マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム 図2
  • 特許-マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-08-16
(45)【発行日】2023-08-24
(54)【発明の名称】マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム
(51)【国際特許分類】
   G16H 10/60 20180101AFI20230817BHJP
【FI】
G16H10/60
【請求項の数】 6
(21)【出願番号】P 2023095104
(22)【出願日】2023-06-08
【審査請求日】2023-06-08
(31)【優先権主張番号】202211047979.9
(32)【優先日】2022-08-30
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】100128347
【弁理士】
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】李 ▲勁▼松
(72)【発明者】
【氏名】胡 佩君
(72)【発明者】
【氏名】田 雨
(72)【発明者】
【氏名】周 天舒
【審査官】今井 悠太
(56)【参考文献】
【文献】特開2006-302113(JP,A)
【文献】中国特許出願公開第103400143(CN,A)
【文献】米国特許出願公開第2009/0028403(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00ー80/00
(57)【特許請求の範囲】
【請求項1】
マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムであって、データ収集モジュールと、映像構造化モジュールと、電子カルテ特徴抽出モジュールと、特徴選別及び融合モジュールと、データ融合モジュールとを含み、
前記データ収集モジュールは、測定対象の予め設定された疾患関連電子カルテデータを収集し、かつその関連する映像データを抽出することに用いられ、
前記映像構造化モジュールは、映像データを構造化処理し、映像特徴を抽出することに用いられ、
前記電子カルテ特徴抽出モジュールは、電子カルテデータに対して関連変数を抽出し、数値化処理した後で電子カルテ特徴とすることに用いられ、
前記特徴選別及び融合モジュールは、映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義することに用いられ、具体的には、マルチビュー特徴マトリックスを取得し、それは、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴データとして見なし、第v個のビューの特徴を
として定義し、dがv番目のビュー特徴の次元であり、v=1,2であり、第v個のビューにおける全ての特徴を
として定義し、それらを接続して総特徴マトリックス
として表現し、監督なし特徴選別問題の目標最適化関数T(X,θ)が以下の通り表現され、
【数1】
ここで、loss(X,W)が損失関数であり、θが最適化関数が最適化する必要があるパラメータを表現し、
が特徴選別マトリックスであり、cがクラスタリングの類別数であり、R(W)が正則項であり、λが調整パラメータであり、
が擬似ラベルマトリックスを表現し、loss(X,W)が以下の通り表現され、
【数2】
ここで、nがサンプル数であり、cがクラスタリングの類別数であり、ノルム

ノルムを表現し、具体的な算出式が
であり、ここで、
がマトリックスAのi行の第j列の元素を表現し、擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成され、
サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定し、具体的に以下の通りであり、
【数3】
ここで、
が各ビュー特徴データの自己表現マトリックスであり、
は長さがnの単位ベクトルを表現し、そして、データ関係を描写する類似図
を構築し、かつ低ランク性を満たし、類似図S成分の個数がクラスタリングの類別数cに等しく、すなわち、Sのラプラシアンマトリックスのランクがn-cに等しく、低ランク性が以下の最適化問題として表現され、
【数4】
ここで、
が類似マトリックスSのラプラシアンマトリックスであり、
が対角マトリックスであり、Trがマトリックスを求めるトレースを表現し、Iは大きさがc×cの単位マトリックスを表現し、よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現され、
【数5】
ここで、tr()がマトリックスのランクを表現し、
がFrobeniusノルムであり、具体的な算出式が
であり、ここで、
がマトリックスAの第i行の第j列の元素を表現し、
データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選別モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得し、特徴選別モデルの目標関数が具体的に以下の通りであり、
【数6】
ここで、
が各ビュー特徴データの自己表現マトリックスであり、Lが第v個のビューに対応するラプラシアンマトリックスであり、
が擬似ラベルマトリックスであり、
が特徴選別マトリックスであり、λ、λ及びλがバランスパラメータであり、
前記データ融合モジュールは、特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得することに用いられる
ことを特徴とするマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【請求項2】
前記データ収集モジュールは、予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を1つの完全なサンプルとして合成する
ことを特徴とする請求項1に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【請求項3】
前記データ収集モジュールで取得された医学映像データは、X線フィルム、CTデータまたはMRIデータである
ことを特徴とする請求項1に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【請求項4】
前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークし、かつ映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行い、最後に前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する
ことを特徴とする請求項1に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【請求項5】
前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、測定対象の人口学情報、病歴、生活習慣及び検査項目情報を含む、予め設定された疾患に関するいくつかの危険要因を特定し、各フィールドの情報を数値化し、そして電子カルテデータを正規化し、電子カルテ特徴を取得する
ことを特徴とする請求項1に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【請求項6】
前記特徴選別及び融合モジュールにおいて、変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、特徴選別マトリックス、擬似ラベルマトリックス及び自己表現マトリックスを反復更新し、具体的な過程は、先ず特徴選別マトリックス及び擬似ラベルマトリックスを一定にし、自己表現マトリックスを更新し、そして特徴選別マトリックス及び自己表現マトリックスを一定にし、擬似ラベルマトリックスを更新し、最後に擬似ラベルマトリックス及び自己表現マトリックスを一定にし、特徴選別マトリックスを更新する
ことを特徴とする請求項1に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医学データ融合分野に関し、特にマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムに関する。
【背景技術】
【0002】
臨床医者が疾患を診断する時、通常、患者の電子カルテデータ及び医学映像データを総合して判断または予測を行う。医学映像は、診断疾患の慣例的な手段であり、X線フィルム、CT、磁気共鳴図像などを含む。映像は、人体内部の病変器官を反映し、映像に基づくコンピュータ支援診断方法は、肺がん、肺結節、肝臓がんなどの疾患の診断に適用されている。電子カルテシステムは、患者の病歴、主訴、検査、人口学などの情報を含み、疾患の選別、診断に対して重要な作用を有する。電子カルテと映像データを組み合わせることで、コンピュータ支援診断正確率を向上することができ、より医者の診断方式に適合する。従来の疾患診断方法は、一般的に、単一ソースデータ、例えば、電子カルテまたは医学映像に基づいて単独で疾患予測モデルを構築し、マルチソース異種医学データの融合はまだ学術研究段階にある。臨床で電子カルテと映像マルチモードデータを組み合わせて疾患予測を行う作業は、少ない。したがって、電子カルテ構造化情報と医学映像非構造化情報を融合する融合方法を研究することは、疾患予測正確率を向上させるのに非常に有意義である。
【0003】
現在、映像と電子カルテデータを融合する方法は、3種に分けられる。第1種の方法は、特徴レベル融合と呼び、電子カルテと映像に対してそれぞれ特徴を抽出した後、&#20004;種の特徴を直接接続して融合し、分類器に入力して予測を行う。第2種の方法は、决策レベル融合と呼び、それぞれ電子カルテと映像を利用して予測して得られた結果に対して、簡単な融合アルゴリズムを利用して2つの予測結果を総合する。第3種の方法は、中間融合と呼び、特徴抽出及び表現段階において、2種のデータを一緒に融合する。後者の二種の方法と比べて、特徴レベル融合の算出及び解釈可能性は優れているが、ほとんどの方法は、抽出された映像特徴及び電子カルテ特徴を直接接続して融合し、異なるソース特徴を統一されたビューにおける特徴として見なすが、二種のデータの特異性及び整合可能性を考慮しておらず、特徴が本来の意味を失う可能性がある。従来のデータ次元低下方法、例えばPCA、RFE,LASSOなどは、いずれもマルチビュー特徴の特徴を考慮していない。
【0004】
自己表現に基づくサブ空間クラスタリング方法は、騒音に対するロバスト性及び完全な理論を有し、常用的な高次元データクラスタリング方法である。データ自己表現とは、データが線形分離可能である場合と仮定すると、データサンプルが同一のサブ空間の他のデータサンプル線形組み合わせによって表現できることを意味する。データ自己表現マトリックスには希薄性表現制限または低ランク表現制限を行うことで、自己表現マトリックスを利用してデータを次元低下することができる。サブ空間クラスタリングを基礎とし、物事に対する異なる角度の理解を複数の特徴描写ビューとして生成し、マルチビューサブ空間クラスタリングを行うことで、各ビューの利点を発揮できる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、従来技術の不足について、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提出し、現在では電子カルテと医学映像データの使用が比較的に独立であり、既存のマルチモード医学データ融合方法が各モードに対して特徴を直接抽出した後、各種類の特徴を直接接続して融合するが、マルチソース異種データの差異性及び各モードデータの内部構造を考慮していないという課題を解決することにある。
【課題を解決するための手段】
【0006】
本発明の目的は、以下の技術的解決手段によって実現される。
【0007】
測定対象の予め設定された疾患関連電子カルテデータを収集し、かつその関連する映像データを抽出するためのデータ収集モジュールと、
映像データを構造化処理し、映像特徴を抽出するための映像構造化モジュールと、
電子カルテデータに対して関連変数を抽出し、数値化処理した後で電子カルテ特徴とするための電子カルテ特徴抽出モジュールと、
映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義し、サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定し、データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選別モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得するための特徴選別及び融合モジュールと、
特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得するためのデータ融合モジュールと、
を含む、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
【0008】
さらに、前記データ収集モジュールは、予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を1つの完全なサンプルとして合成する。
【0009】
さらに、前記データ収集モジュールで取得された医学映像データは、X線フィルム、CTデータまたはMRIデータである。
【0010】
さらに、前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークし、かつ映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行い、最後に前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する。
【0011】
さらに、前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、測定対象の人口学情報、病歴、生活習慣及び検査項目情報を含む予め設定された疾患に関するいくつかの危険要因を特定し、各フィールドの情報を数値化し、そして電子カルテデータを正規化し、電子カルテ特徴を取得する。
【0012】
さらに、前記特徴選別及び融合モジュールにおいてマルチビュー特徴マトリックスを取得することは、具体的に、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴データとして見なし、第v個のビューの特徴を
として定義し、dが第v個のビュー特徴の次元であり(v=1,2)、第v個のビューにおける全ての特徴を
として定義し、それらを接続して総特徴マトリックス
として表現する。
【0013】
さらに、前記特徴選別及び融合モジュールにおいて監督なし特徴選択及び融合モデルを定義し、具体的には、監督なし特徴選別問題の目標最適化関数T(X,θ)が以下の通り表現され、
【数1】
ここで、loss(X,W)が損失関数であり、θは最適化関数が最適化する必要があるパラメータを表現し、
が特徴選別マトリックスであり、cがクラスタリングの類別数であり、R(W)が正則項であり、λが調整パラメータであり、
が擬似ラベルマトリックスを表現し、loss(X,W)が以下の通り表現され、
【数2】
ここで、nがサンプル数であり、cがクラスタリングの類別数であり、ノルム

ノルムを表現し、具体的な算出式が
であり、ここで、
がマトリックスAの第i行の第j列の元素を表現し、擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成される。
【0014】
さらに、前記特徴選別及び融合モジュールにおいてサブ空間クラスタリング方法のデータ自表現性質に基づいて、各マルチビュー特徴データがいずれもサブ空間において自己表現できるように設定し、具体的に以下の通りであり、
【数3】
ここで、
が各ビュー特徴データの自己表現マトリックスであり、
は長さがnの単位ベクトルを表現し、そして、データ関係を描写する類似図
を構築し、かつ低ランク性を満たし、類似図S成分の個数がクラスタリングの類別数cに等しく、すなわち、Sのラプラシアンマトリックスのランクがn-cに等しく、低ランク性が以下の最適化問題として表現され、
【数4】
ここで、
が類似マトリックスSのラプラシアンマトリックスであり、
が対角マトリックスであり、Trがマトリックスを求めるトレースを表現し、Iは大きさがc×cの単位マトリックスを表現し、よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現され、
【数5】
ここで、tr()がマトリックスのランクを表現し、
がFrobeniusノルムであり、具体的な算出式が
であり、ここで、
がマトリックスAの第i行の第j列の元素を表現する。
【0015】
さらに、前記特徴選別及び融合モジュールにおいてデータ次元低下を考慮して、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を以下の通り取得し、
【数6】
ここで、
がビューの特定の自己表現マトリックスであり、Lが第v個のビューに対応するラプラシアンマトリックスであり、
が擬似ラベルマトリックスであり、
が特徴選別マトリックスであり、λ、λ及びλがバランスパラメータである。
【0016】
さらに、前記特徴選別及び融合モジュールにおいて、変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、特徴選別マトリックス、擬似ラベルマトリックス及び自己表現マトリックスを反復更新し、具体的な過程は、先ず特徴選別マトリックス及び擬似ラベルマトリックスを一定にし、自己表現マトリックスを更新し、そして特徴選別マトリックス及び自己表現マトリックスを一定にし、擬似ラベルマトリックスを更新し、最後に擬似ラベルマトリックス及び自己表現マトリックスを一定にし、特徴選別マトリックスを更新する。
【発明の効果】
【0017】
本発明の有益な効果としては、本発明は、従来の映像データ及び電子カルテデータの使用が比較的に独立し、または二者を融合する方式が比較的に簡単で粗雑であるという不足を補い、マルチビューサブ空間クラスタリング思想に基づき、マルチソース異種データをマルチビューサブ空間クラスタリングによって案内される特徴選別モデルによって融合する。本発明は、映像及び電子カルテを、同一対象を描写する異なるビューデータとみなし、各マルチビュー特徴データがそれぞれの空間において自己表現できることを考慮し、すなわち、各マルチビュー特徴データの元の空間構造を保持し、かつモデルに対して低ランク制限を導入すると共に、異なるマルチビュー特徴データのクラスタリング結果が一致であることを保証する。本発明は、柔軟性に優れ、他のマルチモード異種データ、例えば病理図像、心電データなどに適用できる。異なるモードデータの予測モデルと組み合わせて、より臨床診断の習慣に適合し、モデルの予測性能を向上できる。
【図面の簡単な説明】
【0018】
図1】本発明によるマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム構成図である。
図2】本発明によるマルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モデル概略図である。
図3】本発明によるマルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モジュールの実現過程概略図である。
【発明を実施するための形態】
【0019】
以下、図面を参照して本発明の実施形態をさらに詳細に説明する。
【0020】
図1に示すように、本発明は、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提供する。当該システムは、データ収集モジュールと、映像構造化モジュールと、電子カルテ特徴抽出モジュールと、特徴選別及び融合モジュールと、データ融合モジュールとを含む。前記データ収集モジュールは、病院電子カルテシステムから測定対象の予め設定された疾患関連電子カルテ情報を収集し、かつその関連する映像データを抽出するためのものである。前記映像構造化モジュールは、映像データを構造化処理し、高次元映像特徴を抽出するためのものである。前記電子カルテ特徴抽出モジュールは、予め設定された疾患に基づいて、測定対象の電子カルテデータから関連変数を抽出し、数値化処理した後で電子カルテ特徴とするためのものである。前記特徴選別及び融合モジュールは、マルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モデルに基づいて(図2に示す)、映像特徴及び電子カルテ特徴を次元低下及び融合するためのものである。前記データ融合モジュールは、特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得するためのものである。
【0021】
前記データ収集モジュールは、測定対象の電子カルテを取得する。予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を1つの完全なサンプルとして合成する。前記基本情報は、人口学情報、病歴、生活習慣及び検査項目情報を含む。前記診断情報は、当該患者の予め設定された疾患に関する診断結果である。
【0022】
前記データ収集モジュールは、測定対象の医学映像データを取得する。医学映像データは、一般的に、X線フィルム、CTまたはMRIデータである。
【0023】
前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークする。映像マーク方法は、手動描画またはコンピュータアルゴリズム自動描画であってもよく、関心領域は、一般的に疾患患の病変領域または器官や組織全体である。関心領域マーク構造は、二値図像形式で保存され、1が前景を代表し、0が背景を代表する。
【0024】
映像データマーク後で、映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行う必要がある。先ず、原図像及びマーク図像を前処理し、それは、原図像及びマーク図像を解像度1×1×1の大きさに再サンプリングすることと、関心領域に基づいてその囲み領域の矩形枠を算出し、エッジ拡張値を設定し、そして原図像及びマーク図像の矩形枠を取り出すことと、原図像に対してコントラスト調整を行い、先ず図像のHU値を[-100, 240]の間に切り捨て、そして[0,255]の間に離散化することと、を含む。
【0025】
映像及びマークの関心領域に基づいて、高次元映像特徴を算出する。Pyradiomicsツールキットに基づいて一次統計特徴、形状特徴及びテクスチャ特徴(GLCM、GLRLM、NGTDM、GLDM)を算出し、各類特徴が具体的に含む特徴名称は、表1に示され、総計で85個の特徴が算出される。
表1 映像特徴名称
【表1】
【0026】
前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、予め設定された疾患に関するいくつかの危険要因、例えば測定対象の人口学情報、病歴、生活習慣及び検査項目情報(血液検査、心率など)を特定する。各フィールドの情報を数値化し、例えば性別について、男を1に設定し、女を0に設定する。そして、電子カルテデータを正規化し、電子カルテ特徴を取得する。
【0027】
前記特徴選別及び融合モジュールは、映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義し、サブ空間クラスタリング方法のデータ自表現性質に基づいて、各マルチビュー特徴データがいずれもサブ空間において自己表現できるように設定し、マルチビューサブ空間クラスタリングの目標最適化関数を取得し、データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得する。図3に示すように、具体的に以下の通りであり、
前記マルチビュー特徴マトリックスを取得することは、具体的に、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴とみなし、第v個のビューの特徴を
として定義し、x が第n個のデータポイントを表現し、dが第v個のビュー特徴の次元であり、v=1,2である。V個のビューにおける全ての特徴を
として定義することができ、それらを接続して総特徴マトリックス
として表現する。
【0028】
前記監督なし特徴選択及び融合モデルを定義することは、具体的に、監督なし特徴選別問題の目標最適化関数T(X,θ)が以下の通り表現され、
【数1】
ここで、loss(X,W)が損失関数であり、θは最適化関数が最適化する必要があるパラメータを表現し、
が特徴選別マトリックスであり、cがクラスタリングの類別数であり、R(W)が正則項であり、例えば希薄性と低ランク性であり、λが調整パラメータであり、一般的に経験値に設定され、本発明では10に設定される。
が擬似ラベルマトリックスを表現し、loss(X,W)が以下の通り表現されてもよく、
【数2】
ここで、nがサンプル数であり、cがクラスタリングの類別数である。ノルム

ノルムを表現し、具体的な算出式が
であり、ここで、
がマトリックスAの第i行の第j列の元素を表現する。擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成されてもよい。
【0029】
前記サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定することは、具体的に以下の通りであり、
【数3】
ここで、
が各ビュー特徴データの自己表現マトリックスであり、
は長さがnの単位ベクトルを表現する。そして、データ関係を描写する類似図
を構築することができる。かつ低ランク性を満たし、類似図S成分の個数がクラスタリング類別数cに等しく、すなわち、Sのラプラシアンマトリックスのランクがn-cに等しい。低ランク性は以下の最適化問題として表現されてもよく、
【数4】
ここで、
が類似マトリックスSのラプラシアンマトリックスであり、
が対角マトリックスである。Trがマトリックスを求めるトレースを表現し、Iは大きさがc×cの単位マトリックスを表現する。よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現されてもよく、
【数5】
ここで、tr()がマトリックスのランクを表現し、
がFrobeniusノルムであり、具体的な算出式が
であり、ここで、
がマトリックスAの第i行の第j列の元素を表現する。
【0030】
前記データ次元低下を考慮して、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を取得することは、具体的に、選択された特徴が、データ間の類似構造を保持すべきであり、かつ希薄性である。すなわち、特徴選択マトリックスWに希薄性正則化項
を加える。したがって、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数が以下の通り表現されてもよく、
【数6】
ここで、
がビューの特定の自己表現マトリックスであり、Lが第v個のビューに対応するラプラシアンマトリックスであり、他の記号
が擬似ラベルマトリックスであり、
が特徴選別マトリックスであり、λ、λ及びλがバランスパラメータであり、本発明では、それぞれ値を1,10-3,10とする。
【0031】
変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、変数W,F,Zを反復更新する。具体的に以下の通りであり、
自己表現マトリックスZを更新し、W,Fをそのまま一定にし、以下の最適化問題を求め、
【数7】
上記式にラグランジュ乗数
を導入し、以下の通り変換し、
【数8】
が無限大になる傾向がある場合、Xが
に置き換えることができる。したがって、上記式が以下の通り表現されてもよく、
【数9】
上記式は以下の問題に等価することができ、
【数10】
ここで、Pマトリックスにおける第i行の第j列の元素
,fがFの第i行である。そして、交互反復最適化戦略を使用して、上記の問題を解決する。Zの第i行以外の全ての行の数値を一定にして、Zの第i行の値を求め、
【数11】
ここで、Z がZの第i行であり、pがPの第i列であり、
、Zv,iがZの第i個の元素である。上記式は以下の問題に変換されてもよく、
【数12】
ここで、
である。上記式の問題はソフトしきい値方法で求めされてもよく、
【数13】
ここで、Zv,k、rv,k及びpがそれぞれZ、r及びpの第k個の元素を表現し、
が括弧内の値の正の部分を取得することを表現する。Fを更新し、Z、Wをそのまま一定にし、関係しない変数項を除去し、以下の最適化問題を求め、
【数14】
ここで、
が単位マトリックスであり、
はFの元素が全て0以上であることを表現する。等式制約を取り除くために、上記式にペナルティ項
を追加し、問題を以下の通り変換し、
【数15】
ここで、γは値が大きいバランスパラメータであり、本発明でγ=10を採用する。等式制約を取り除くために、ラグランジュ乗数
を導入し、以下の通り取得し、
【数16】
上記式に対してFについて微分をとり、かつその偏微分を
とし、以下の通り取得し、
【数17】
ここで、Qが対角マトリックスであり、第i個の元素が
であり、i:はマトリックスの第i行を採用することを表現する。KKT条件によれば、
である。したがって、以下の通り取得し、
【数18】
そして、Fを正規化し、
を満たさせる。
Wを更新し、Z、Fをそのまま固定する。関係しない変数項を除去し、以下の通り取得し、
【数19】
上記式は以下の問題に等価し、
【数20】
ここで、G及びHが対角マトリックスであり、第i個の元素が
である。ここで、WがWの第i行である。
さらに、以下の通り取得し、
【数21】
最終に、以下の通り取得し、
【数22】
目標関数が収束するまで、W,G,Hを交互に更新する。
【0032】
前記データ融合モジュールは、特徴選別及び融合モジュールで求められた特徴選別マトリックスWに基づき、
を算出し、各特徴の重要性を
に従ってランキングし、選択特徴の個数Nを設定し、上位N個の特徴を最終的に電子カルテと映像データが融合した結果として抽出する。
実施例
【0033】
膵体尾部切除術後の患者に対して、患者の術後の糖尿病のリスクを予測するために、膵体尾部切除患者キューを構築し、統計で212人の患者を有し、7:3の比率でデータを訓練セットとテストセットに分ける。マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを通じて、映像と電子カルテデータとを融合する。具体的な処理過程が下記の通りである。
1.データを収集し、患者の術前強化CT図像と電子カルテ情報を抽出する。
2.映像構造化モジュール。CT図像に対して関心領域、すなわち、膵体術後の残留膵体領域をマークして、映像特徴の抽出された関心領域とする。CT原図像とマーク図像に対して映像再サンプリング、階調値離散化及び映像領域枠選択を行う。先ず、原図像及びマーク図像を前処理し、それは、原図像及びマーク図像を前処理し、原図像及びマーク図像を解像度1×1×1の大きさに再サンプリングすることと、関心領域に基づいてその囲み領域の矩形枠を算出し、エッジ拡張値を10個の画素に設定し、そして原図像及びマーク図像の矩形枠を取り出すことと、原図像に対してコントラスト調整を行い、先ず図像のHU値を[-100, 240]の間に切り捨て、そして[0,255]の間に離散化することと、を含む。前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する。具体的に、先ず、原CT図像に対してウェーブレットフィルタリングを行い、ウェーブレットフィルタリングはhaar、db5、sym7を含む。そして、Pyradiomicsツールキットに基づいて一次統計特徴、形状特徴及びテクスチャ特徴(GLCM、GLRLM、NGTDM、GLDM)を算出する。各ウェーブレットフィルタリング後の図像について、680次元の特徴を取得できるため、ウェーブレットフィルタリング後の3つの図像は、算出により総計で2040個の映像特徴が取得できる。
3.電子カルテ特徴抽出。取得された電子カルテデータを分析し、年齢、性別、飲酒、喫煙、黄疸、体重減少、痛み、膵体切除率、残存膵体体積、腹部脂肪含有量、腹部骨格筋含有量を含む、糖尿病に関連するいくつかの危険要因を特定する。各フィールドの情報を数値化し、例えば性別に対して、男を1に設定し、女を0に設定する。そして、電子カルテ特徴を正規化して、電子カルテの11個の特徴を取得する。
4.特徴選別及び融合。上記取得された映像特徴をXとして記し、臨床特徴をX2として記し、臨床特徴及び映像特徴を正規化する。
を提出されるマルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルに入力し、変数インターリーブ反復アルゴリズムを利用して特徴選別マトリックスWを取得する。映像特徴及び電子カルテ特徴を選別及び融合し、特徴選別マトリックスを取得する。
5.データ融合。特徴選別マトリックス
、dを全ての特徴の次元として算出し、ここで2051である。そして、
の大きさに応じて各特徴の重要性をランキングする。40個の特徴を最終のデータ融合結果として採用する。ここで、36個の映像特及び4つの臨床特徴を含む。映像特徴のdb5、sym7、haarフィルタリング図像からの特徴数は、それぞれ9,8,19である。臨床特徴には、飲酒、筋肉含有量、年齢、残存膵体体積を含む。
6.その後、データ融合で取得された映像及び臨床特徴を利用して、サポートベクターマシンに基づく糖尿病予測モデルを確立する。訓練セットデータを用いて予測モデルを訓練し、テストセットでテストする。テストセットにおける糖尿病予測正確度AUC=0.82である。
【0034】
上記実施例は、本発明を説明するためのものであり、本発明を限定するものではなく、本発明の精神及び特許請求の範囲内で、本発明に対して行われた任意の補正及び変更は、いずれも本発明の保護範囲内に入る。
【要約】      (修正有)
【課題】マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提供する。
【解決手段】システムは、先ず映像を構造化処理して映像特徴を取得し、同時に、電子カルテにおける疾患に関する臨床変数を抽出して臨床特徴を取得し、マルチビューサブ空間クラスタリングによって案内されるマルチモードデータ融合モデルに基づき、映像特徴と臨床特徴を選別及び融合し、各特徴の重要性ランキングを取得し、最後に設定された特徴数に基づき、電子カルテと映像データの融合結果を取得し、電子カルテ情報と映像情報を総合して、関連疾患予測結果の正確性を向上する。各モードのデータがそれぞれの空間において自己を表現できることを保証し、プロック対角構造を保持し、同時に融合データのクラスタリング結果が一致することを保証する。マルチビューサブ空間の相補性原則と一致性原則を利用して、分析結果の一致性を保証する。
【選択図】図1
図1
図2
図3