(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023183367
(43)【公開日】2023-12-27
(54)【発明の名称】時空間的アテンションモデルに基づく多時相CT画像分類システム及び構築方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20231220BHJP
A61B 6/03 20060101ALI20231220BHJP
G06V 10/82 20220101ALI20231220BHJP
G06N 3/042 20230101ALI20231220BHJP
【FI】
G06T7/00 350C
A61B6/03 360T
G06T7/00 612
G06V10/82
G06N3/042
【審査請求】有
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2023007862
(22)【出願日】2023-01-23
(31)【優先権主張番号】202210672853.4
(32)【優先日】2022-06-15
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】朱 聞▲タオ▼
(72)【発明者】
【氏名】呉 元鋒
(72)【発明者】
【氏名】薛 梦凡
(72)【発明者】
【氏名】江 浩東
【テーマコード(参考)】
4C093
5L096
【Fターム(参考)】
4C093AA22
4C093AA24
4C093AA26
4C093DA02
4C093FD03
4C093FF20
4C093FH03
4C093FH09
5L096BA06
5L096BA13
5L096DA01
5L096DA02
5L096GA19
5L096GA30
5L096GA34
5L096HA02
5L096HA11
5L096JA16
5L096JA18
(57)【要約】 (修正有)
【課題】多時相CT画像を組み合わせて処理することにより、計算の冗長性を低減し、分類の効率及び精度を向上させるCT(Computed Tomography)画像分類システム及び構築方法を提供する。
【解決手段】CT画像分類システムは、データ取得ユニットと、第1埋め込み層ネットワークユニットと、空間的アテンションユニットと、第2埋め込み層ネットワークユニットと、時間的アテンションユニットと、分類層ユニットと、を含む。埋め込み層ユニットによって多時相CT画像をベクトル化し、次に空間的アテンションユニットを用いて空間的特徴を抽出し、多時相CT画像の空間的特徴を合わせた後に時間的アテンションユニットに入力して、空間的特徴及び時間的特徴を有するベクトルを得て、分類層ユニットによって分類を行う。
【選択図】
図1
【特許請求の範囲】
【請求項1】
分類される患者のs個の時相のCT画像を取得するためのデータ取得ユニットと、
s個の第1埋め込み層ネットワークを含む第1埋め込み層ネットワークユニットであって、第1埋め込み層ネットワークは、それぞれ、各時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ画像ブロックベクトルに展開し、全ての画像ブロックベクトルとクラスラベルベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得る、第1埋め込み層ネットワークユニットと、
s個の空間的アテンションネットワークを含む空間的アテンションユニットであって、各空間的アテンションネットワークは、L1層の第1マルチヘッドアテンションネットワークMSAと、L1層の第1多層パーセプトロンと、1層の第1正規化層とを含み、L1層の第1マルチヘッドアテンションネットワークMSAとL1層の第1多層パーセプトロンは順にインターリーブ接続され、前記第1マルチヘッドアテンションネットワークMSAは、最終的な空間的アテンション関数を生成し、最終的な空間的アテンション関数と入力ベクトルを加算するものを次の層の第1多層パーセプトロンに対応する入力ベクトルとするために用いられ、前記第1多層パーセプトロンは正規化された入力ベクトルを符号化して前記第1多層パーセプトロンの入力ベクトルと加算し、加算結果を次の層の第1マルチヘッドアテンションネットワークMSAに対応する入力とし、1層目の第1マルチヘッドアテンションネットワークMSAの入力ベクトルは埋め込みベクトルであり、第1正規化層は、最終層の第1多層パーセプトロンの出力するベクトルと前記第1多層パーセプトロンの入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、対応する時相のCT画像の空間的特徴とする、空間的アテンションユニットと、
1つの第2埋め込み層ネットワークを含む第2埋め込み層ネットワークユニットであって、s個の空間的アテンションネットワークの出力するs個の対応する時相のCT画像の空間的特徴を合わせた後にクラスラベルベクトルと合わせて埋め込み層ベクトルを得るための第2埋め込み層ネットワークユニットと、
1つの時間的アテンションネットワークを含む時間的アテンションユニットであって、時間的アテンションネットワークは、L2層の第2マルチヘッドアテンションネットワークMSAと、L2層の第2多層パーセプトロンと、1層の第2正規化層とを含み、L2層の第2マルチヘッドアテンションネットワークMSAとL2層の第2多層パーセプトロンは順にインターリーブ接続され、前記第2マルチヘッドアテンションネットワークMSAは、最終的な時間的アテンション関数を生成し、最終的な時間的アテンション関数と入力ベクトルを加算するものを次の層の第2多層パーセプトロンに対応する入力ベクトルとするために用いられ、前記第2多層パーセプトロンは正規化された入力ベクトルを符号化して前記第2多層パーセプトロンの入力ベクトルと加算し、加算結果を次の層の第2マルチヘッドアテンションネットワークMSAに対応する入力とし、1層目の第2マルチヘッドアテンションネットワークMSAの入力ベクトルは第2埋め込み層ネットワークユニットの出力する埋め込み層ベクトルであり、第2正規化層は、最終層の第2多層パーセプトロンの出力するベクトルと前記第2多層パーセプトロンの入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、空間的特徴及び時間的特徴を有するベクトルを得る、時間的アテンションユニットと、
分類層Wを含む分類層ユニットであって、空間的特徴及び時間的特徴を有するベクトルに基づいて分類結果Probを得るために用いられ、Prob=W(xtime
T)となり、Prob∈RCはクラスの確率分布を表し、Cはクラスの総数を表す、分類層ユニットと、を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システム。
【請求項2】
sは2以上であり、s個の時相のCT画像は、単純スキャン相CT画像と、動脈相CT画像と、門脈相CT画像と、遅発相CT画像との少なくとも2つを含むことを特徴とする請求項1に記載のシステム。
【請求項3】
前記埋め込みベクトルは、
X0=[Xclass;X1
p;X2
p…XN
p]+Xpos であり、
ただし、Xclassはクラスラベルベクトルを表し、Xposは位置ベクトルを表し、Xpは線形化後の画像ブロックベクトルを表し、Nは分割後の画像ブロックの数を表すことを特徴とする請求項1に記載のシステム。
【請求項4】
前記マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q、キーワード行列K及び値行列Vの3つの異なる行列に変換し、クエリ行列Q、キーワード行列K及び値行列Vの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成するために用いられ、
【数1】
ただし、d
kはキーワード行列K中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数であり、
スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な空間的又は時間的アテンション関数を得るために用いられることを特徴とする請求項1に記載のシステム。
【請求項5】
前記第1マルチヘッドアテンションネットワークMSA、第2マルチヘッドアテンションネットワークMSAの入力ベクトルは、
【数2】
であり、
LNは正規化方法を表し、x
lは第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの入力ベクトルを表し、MLP()は対応する第1多層パーセプトロン又は第2多層パーセプトロンの出力を表し、x’
l-1はl-1層目の第1多層パーセプトロン又は第2多層パーセプトロンの入力ベクトルを表すことを特徴とする請求項1に記載のシステム。
【請求項6】
前記第1多層パーセプトロン、第2多層パーセプトロンの入力ベクトルは、
【数3】
であり、
LNは正規化方法を表し、x’
lは第1多層パーセプトロン又は第2多層パーセプトロンの入力ベクトルを表し、MSA()は対応する第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの出力を表し、x
lはl層目の第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの入力ベクトルを表すことを特徴とする請求項1に記載のシステム。
【請求項7】
サンプルを収集してデータセットを構築するステップであって、前記データセットの各サンプルは1人の患者のs個の時相のCT画像を含むステップと、
請求項1~6のいずれか1項に記載の時空間的アテンションモデルに基づく多時相CT画像分類システムを構築し、データセット中の各サンプルをシステムの入力として、システムの出力する分類結果と分類ラベルとの誤差を最小にすることを目標としてトレーニングし、前記時空間的アテンションモデルに基づく多時相CT画像分類システムを得るステップと、を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システムの構築方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医用画像処理技術分野に関し、特に、時空間的アテンションモデルに基づく多時相CT画像分類システム及び構築方法に関する。
【背景技術】
【0002】
CT(Computed Tomography)は、コンピュータ断層撮影であり、精密に平行化されたX線ビーム、γ線、超音波などを用いて、非常に高感度な検出器と共に人体のある部位を次々に断面的にスキャンするものであり、スキャン時間が短く、画像が鮮明であるなどの特徴を有し、治療方法の改良につれて、CT画像スキャンは様々な腫瘍(例えば、肝がん)の診断で普及しており、腫瘍の部位、大きさ及び範囲を素早く見つけることができ、病変部の壊死、出血などの変化の有無を直接観察でき、腫瘍の転移の有無も検出できるため、腫瘍の検出率を高めている。
【0003】
単純CTスキャンは病変を素早く見つけ、さらには一部の疾患を検出できるが、血管奇形、早期がん、転移性腫瘍などの一部の病変は単純CTスキャンでは診断できない。病変の表示率を高め、病巣の範囲と臨床病期を決定するために、造影CTスキャン(Contrast‐Enhanced CT、CECT)が必要となる。例えば脳CT検査の場合、単純CT診断の正確率は82%であり、造影CTスキャンの正確率は92~95%に上がっていることから、造影CTは診断率向上に役立つことが分かる。造影CTスキャンでは一般的に造影剤を静脈注射し、現在一般的な静脈注射方法には2つがあり、1つは人力手押し注射であり、もう1つは高圧注射器を用いた注射である。造影剤を注射すると、造影CTは単純CTより多くの情報を提供することができ、動脈相、門脈相、遅発相の血流を観察できるため、診断には非常に役立つ。異なるサブタイプの腫瘍の治療方法もそれぞれ異なり、現在、多時相造影CTは腫瘍のサブタイプの術前診断で重要なツールとなっている。
【0004】
ディープラーニングの医用画像処理への応用も1つの大きな方向性であり、機械学習にそれを導入することで、その本来の目標である人工知能に一層近づけ、サンプルデータの内在する法則及び表現レベルを学習し、これらの学習プロセスで得られる情報はテキスト、画像、音声などのデータの解釈に大いに役立つ。その最終的な目標は、機械が人間のように分析・学習能力を有し、テキスト、画像、音声などのデータを認識できるようにすることである。ディープラーニングは複雑な機械学習アルゴリズムであり、音声・画像認識で収めている効果は、これまでの関連技術をはるかに超えており、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推薦、個別化技術、及び他の関連分野でいずれも多くの成果を上げている。ディープラーニングは、機械が視聴覚や思考などの人間の活動を模倣するようにし、多くの複雑なパターン認識の難題を解決しており、人工知能の関連技術に大きな進歩をもたらしている。ディープラーニングの発展につれて、畳み込みニューラルネットワークの更新は繰り返され、画像認識の分野でますます多くの応用が実現され、あまりに人力の介入を必要とせず、画像特徴を自動的に抽出でき、学習能力が高いなどの利点が、特にがんの分類や病変の検出などの医用画像分析タスクで競争力の高い性能を示している。
【0005】
しかしながら、悪性腫瘍の判定と診断は依然として困難であり、術前の誤診は治療方針の決定を誤らせる可能性があり、腫瘍イメージングレポートとデータシステムの複雑化に伴い、大規模な実践での実施は難しくなることで、仕事の効率を高めるため、計算による意思決定支援ツールの臨床的ニーズの拡大が必要となり、従来の畳み込みニューラルネットワークはCT画像の局所特徴抽出に一定の優位性があり、病巣の状況を素早く確認することができるが、造影CTの複数の時相(phase)の画像を利用できないため、時間的な情報のつながりが弱まり、情報の利用が不完全になり、最終的な診断結果に影響を与える。
【0006】
中国特許出願CN110443268Aはディープラーニングに基づく肝がんCT画像を良性・悪性に分類する方法を開示しており、当該方法は、既存のResnet34ネットワークモデルを基に設計・改良を行い、患者の肝臓情報の最大のスライスを選んで、データ処理と強調により、モデルに入れて分類を行う。しかしながら、CT画像は3Dであるため、当該方法で抽出された空間的特徴は不完全であり、しかも多時相CT画像の状況が考慮されていないため、患者の複数の時相の病変を効果的に組み合わせて処理することができず、診断結果の正確さと精度は低下している。
【0007】
そこで、上記の課題に対しては、多時相のCTを組み合わせて処理して、分類の精度と速度を高められる方法が必要である。既存の医用画像処理方法及びディープラーニングの発展の現状を踏まえ、アテンションメカニズム及びtransformerによって構成されたエンコーダの使用が考えられ、そのうちアテンションメカニズムは単純スキャン相CT画像と造影CT画像の時間的なつながりを強化することができ、transformerはもともと2017年に自然言語処理(Natural Language Processing、NLP)分野で提案されたモデルであり、2020年に初めて視覚分野で用いられ、NLP類似しており、画像をシリアル化し、画像分類タスクをうまく実行することができ、最終的な分類結果は最適な畳み込みニューラルネットワークにも負けず、また、必要な計算リソースは大幅に低減しており、分類の効率及び正確率を高めている。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、通常のCTスキャン及び造影CTスキャンの時に患者の病巣構造に大きな変化がないことを考慮して、時空間的アテンションモデルに基づく多時相CT画像分類システム及び構築方法を提案し、従来の畳み込みニューラルネットワークに基づいて、多時相CT画像を組み合わせて処理できないという問題を解決する。
【課題を解決するための手段】
【0009】
本発明では、まず専門の医用画像科医師が多時相CT画像をラベル付けし、次に画像の前処理を行って、病巣部分を分割し、画像サイズをモデルの入力に適合するように調整し、データを強調し、埋め込み層を構築し、入力は通常の単純スキャンCT画像及び造影剤注射後の多時相造影CT画像であり、出力は通常の単純スキャンCT画像及び造影剤注射後の多時相造影CT画像の埋め込みベクトルであり、空間的アテンションネットワークを構築し、当該ネットワークモデルの入力は上記のCT画像の埋め込みベクトルであり、通常の単純スキャンCT画像及び造影剤注射後の多時相CT画像の空間的特徴をそれぞれ出力することができ、さらに上記の空間的特徴を組み合わせて、時間的アテンションネットワークを構築し、当該ネットワークモデルの入力は組み合わせられた空間的特徴であり、時間的特徴と空間的特徴を組み合わせたベクトルを出力することができ、さらに分類層を通じて最終的な分類結果を出力し、最後にラベルと計算して損失を得て、トレーニングと最適化を繰り返すことで損失を最小にし、最適な分類モデルを得て、時空間的アテンションモデルに基づく多時相CT画像分類システムとする。
【0010】
本発明で採用される技術的解決手段は、具体的に次のとおりである。
時空間的アテンションモデルに基づく多時相CT画像分類システムであって、
分類される患者のs個の時相のCT画像を取得するためのデータ取得ユニットと、
s個の第1埋め込み層ネットワークを含む第1埋め込み層ネットワークユニットであって、第1埋め込み層ネットワークは、それぞれ、各時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ画像ブロックベクトルに展開し、全ての画像ブロックベクトルとクラスラベルベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得る、第1埋め込み層ネットワークユニットと、
s個の空間的アテンションネットワークを含む空間的アテンションユニットであって、各空間的アテンションネットワークは、L1層の第1マルチヘッドアテンションネットワークMSAと、L1層の第1多層パーセプトロンと、1層の第1正規化層とを含み、L1層の第1マルチヘッドアテンションネットワークMSAとL1層の第1多層パーセプトロンは順にインターリーブ接続され、前記第1マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q1i、キーワード行列K1i及び値行列V1iの3つの異なる行列に変換し、クエリ行列Q1i、キーワード行列K1i及び値行列V1iの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成するために用いられ、i=1,2…は、空間的アテンションユニット中のi番目の自己アテンションモジュールSAを表し、スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な空間的アテンション関数を得るために用いられ、最終的な空間的アテンション関数と入力ベクトルを加算するものを次の層の第1多層パーセプトロンに対応する入力ベクトルとし(当該ネットワークは、マルチヘッドアテンションモジュールにより異なるベクトル間のつながりを互いに比較し、重要な部分を強化することができる)、前記第1多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第1マルチヘッドアテンションネットワークMSAに対応する入力とし、1層目の第1マルチヘッドアテンションネットワークMSAの入力ベクトルは埋め込みベクトルであり、第1正規化層は、最終層の第1多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、対応する時相のCT画像の空間的特徴とする、空間的アテンションユニットと、
1つの第2埋め込み層ネットワークを含む第2埋め込み層ネットワークユニットであって、s個の空間的アテンションネットワークの出力するs個の対応する時相のCT画像の空間的特徴を合わせた後にクラスラベルベクトルと合わせて埋め込み層ベクトルを得るための第2埋め込み層ネットワークユニット、
1つの時間的アテンションネットワークを含む時間的アテンションユニットであって、時間的アテンションネットワークは、L2層の第2マルチヘッドアテンションネットワークMSAと、L2層の第2多層パーセプトロンと、1層の第2正規化層とを含み、L2層の第2マルチヘッドアテンションネットワークMSAとL2層の第2多層パーセプトロンは順にインターリーブ接続され、前記第2マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q2j、キーワード行列K2j及び値行列V2jの3つの異なる行列に変換し、クエリ行列Q2j、キーワード行列K2j及び値行列V2jの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成するために用いられ、スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な時間的アテンション関数を得るために用いられ、j=1,2…は、時間的アテンションユニット中のj番目の自己アテンションモジュールSAを表し、最終的な時間的アテンション関数と入力ベクトルを加算するものを次の層の第2多層パーセプトロンに対応する入力ベクトルとし、前記第2多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第2マルチヘッドアテンションネットワークMSAに対応する入力とし、1層目の第2マルチヘッドアテンションネットワークMSAの入力ベクトルは第2埋め込み層ネットワークユニットの出力する埋め込み層ベクトルであり、第2正規化層は、最終層の第2多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、空間的特徴及び時間的特徴を有するベクトルを得る、時間的アテンションユニットと、
分類層を含む分類層ユニットであって、空間的特徴及び時間的特徴を有するベクトルに基づいて分類結果を得るための分類層ユニットと、を含む。
【0011】
さらに、sは2以上であり、s個の時相のCT画像は、具体的に、単純スキャン相CT画像と、動脈相CT画像と、門脈相CT画像と、遅発相CT画像との少なくとも2つを含む。
【0012】
さらに、前記埋め込みベクトルは、具体的に、
X0=[Xclass;X1
p;X2
p…XN
p]+Xpos であり、
ただし、Xclassはクラスラベルベクトルを表し、Xposは位置ベクトルを表し、Xpは線形化後の画像ブロックベクトルを表し、Nは分割後の画像ブロックの数を表す。
【0013】
さらに、クエリ行列Q
1i、キーワード行列K
1i及び値行列V
1iの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成することは、具体的に、
【数1】
であり、
ただし、d
kはキーワード行列K
1i中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数である。
【0014】
同様に、クエリ行列Q
2j、キーワード行列K
2j及び値行列V
2jの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成することは、具体的に、
【数2】
であり、
ただし、d
kはキーワード行列K
2j中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数である。
【0015】
さらに、前記第1マルチヘッドアテンションネットワークMSA、第2マルチヘッドアテンションネットワークMSAの入力ベクトルは、
【数3】
であり、
LNは正規化方法を表し、x
lは第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの入力ベクトルを表し、MLP()は対応する第1多層パーセプトロン又は第2多層パーセプトロンの出力を表し、x’
l-1はl-1層目の第1多層パーセプトロン又は第2多層パーセプトロンの入力ベクトルを表す。
【0016】
さらに、前記第1多層パーセプトロン、第2多層パーセプトロンの入力ベクトルは、
【数4】
であり、
LNは正規化方法を表し、x’
lは第1多層パーセプトロン又は第2多層パーセプトロンの入力ベクトルを表し、MSA()は対応する第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの出力を表し、x
lはl層目の第1マルチヘッドアテンションネットワークMSA又は第2マルチヘッドアテンションネットワークMSAの入力ベクトルを表す。
【0017】
時空間的アテンションモデルに基づく多時相CT画像分類システムの構築方法であって、
サンプルを収集してデータセットを構築するステップであって、前記データセットの各サンプルは1人の患者のs個の時相のCT画像を含むステップと、
上記時空間的アテンションモデルに基づく多時相CT画像分類システムを構築し、データセット中の各サンプルをシステムの入力として、システムの出力する分類結果と分類ラベルとの誤差を最小にすることを目標としてトレーニングし、前記時空間的アテンションモデルに基づく多時相CT画像分類システムを得るステップと、を含む。
【発明の効果】
【0018】
本発明の有益な効果は次のとおりである。
(1)本発明は、空間的アテンションネットワーク及び時間的アテンションネットワークの2種類のアテンションネットワークを含む、時空間的アテンションモデルに基づく多時相CT画像分類システムを提案する。空間的アテンションネットワークはCT画像の空間的特徴を抽出することができ、時間的アテンションネットワークは異なる時相のCT画像間のつながりを抽出することができ、各時相のCT間のグローバルなアテンションを強化する。
【0019】
(2)本発明は、多時相のCT画像に基づいて診断する必要のある様々な疾患に普遍性を有し、異なる時相の病巣の特徴をより効果的に利用して、時間的なつながりを強化し、従来の畳み込みニューラルネットワークをメインモデルとした設計を捨て、アテンションメカニズムにより、より多くの計算を重要な領域に投入し、注目すべき目標のより多くの詳細情報を得ることができ、これによって他の無用な情報を抑制し、計算の冗長性と遅延を低減し、CT画像の診断をより短時間で実現しやすく、診断の精度を高くし、診断の効果をより安定的にする。
【図面の簡単な説明】
【0020】
【
図1】本発明の時空間的アテンションモデルに基づく多時相CT画像分類システムの構造図である。
【
図2】本発明の時空間的アテンションモデルに基づく多時相CT画像分類システムによる分類のフローチャートである。
【
図3】本発明の時空間的アテンションモデルに基づく肝がんの多時相CT画像分類システムの構築方法のフローチャートである。
【発明を実施するための形態】
【0021】
例示的な実施例をここで詳細に説明し、その例示は添付の図面に示される。以下の説明が図面に言及している場合、特に断りのない限り、異なる図面の同じ番号は、同じ又は類似の要素を示す。以下の例示的な実施例に記載の実施形態は、本発明と一致する全ての実施形態を表すわけではない。それどころか、それらは、添付の特許請求の範囲に詳述されているような、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
【0022】
本発明で使用される用語は、特定の実施例を説明するためのものに過ぎず、本発明を限定するものではない。
【0023】
本発明及び添付の特許請求の範囲で使用される単数形「一種」、「前記」及び「当該」は、文脈が明らかに他の意味を示さない限り、複数形も含むことを意図している。また、本明細書において使用される用語「及び/又は」は、1つ又は複数の関連する列挙された項目の任意の又は全ての可能な組み合わせを指し、包含することを理解されたい。
【0024】
なお、本発明では「第1」、「第2」、「第3」などの用語で様々な情報を説明するかもしれないが、これらの情報はこれらの用語に限定されない。これらの用語は同じタイプの情報を互いに区別するためだけに用いられる。例えば、本発明の範囲から逸脱しない限り、第1情報は第2情報とも呼ばれてもよいし、同様に、第2情報は第1情報と呼ばれてもよい。文脈によって、ここで使用される言葉「もし」は、「…とき」又は「…と」又は「決定に応じて」と解釈されてもよい。
【0025】
本発明の趣旨は、時空間的アテンションモデルに基づく多時相CT画像分類システム及び構築方法を提案することであり、従来の畳み込みニューラルネットワークに基づいて、多時相CT画像を組み合わせて処理できないという問題を解決する。なお、本発明の多時相CT画像は、臨床で通常どおりスキャンするCT画像及び造影剤注射後にスキャンする造影CT画像を含み、通常どおりスキャンするCT画像は単純スキャン相CT画像であり、造影剤注射後にスキャンする造影CT画像は動脈相、門脈相、遅発相のCT画像を含む。
【0026】
本発明の時空間的アテンションモデルに基づく多時相CT画像分類システムは、
図1に示されるとおり、以下を含む。
データ取得ユニットであって、分類される患者のs個の時相のCT画像を取得するために用いられ、
s個の第1埋め込み層ネットワークを含む第1埋め込み層ネットワークユニットであって、第1埋め込み層ネットワークは、それぞれ、各時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ画像ブロックベクトルに展開し、全ての画像ブロックベクトルとクラスラベルベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得るために用いられ、各時相のCT画像のサイズは
【数5】
であり、H、Wは一枚のCT画像の長さ、幅であり、CはCT画像の層数である。分割後の画像ブロックのサイズはP×P×Cであり、Pは分割後の画像ブロックの長さ及び幅であり、各画像ブロックは畳み込み層に通じて画像ブロックベクトルに展開され、埋め込みベクトルX
0として線形投影され、埋め込みベクトルX
0は、
X
0=[X
class;X
1
p;X
2
p…X
N
p]+X
pos,X
p∈R
1×D,X
pos∈R
(1+N)×D (1)
であり、
ただし、X
classはクラスラベルベクトルを表し、X
posは位置ベクトルを表し、X
pは線形化後の画像ブロックベクトルを表し、Nは分割後の画像ブロックの数を表し、N=HW/P
2である。Dは畳み込み層の畳み込みカーネルの数であり、畳み込み層を通過した画像ブロックベクトルと学習可能なクラスラベルベクトルを合わせることで、ラベルベクトル全体の表現情報を集めることができ、さらに学習可能な同次元の位置ベクトルと加算すると、データ情報を強調することができる。
【0027】
前記多時相CT画像分類システムは、s個の空間的アテンションネットワークを含む空間的アテンションユニットも含み、各空間的アテンションネットワークは、L1層の第1マルチヘッドアテンションネットワークMSAと、L1層の第1多層パーセプトロンと、1層の第1正規化層とを含み、L1層の第1マルチヘッドアテンションネットワークMSAとL1層の第1多層パーセプトロンは順にインターリーブ接続され、前記第1マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q1i、キーワード行列K1i及び値行列V1iの3つの異なる行列に変換するために用いられ、具体的には、まず入力ベクトルをクエリベクトルq、キーワードベクトルk及び値ベクトルvの3つの異なるベクトルに変換し、そのうちクエリベクトルqは他のベクトルとマッチングするために用いられ、キーワードベクトルkはマッチングされ、値ベクトルvは抽出される情報を表し、q、k、vの3種類のベクトルは学習可能な行列と入力ベクトルを乗算して得られる。埋め込みベクトルは多次元であることを考慮して、グローバルな視点から表すと、
Q1i=XW1i
Q,K1i=XW1i
K,V1i=XW1i
V (2)
となり、
ただし、W1i
Q、W1i
K、W1i
Vはi番目のトレーニング可能な重み行列を表し、Xは入力ベクトルを表す。
【0028】
クエリ行列Q
1i、キーワード行列K
1i及び値行列V
1iの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成し、具体的には、クエリベクトルqと各キーワードベクトルkのドット積を求め、ドット積をキーワードベクトルkの次元の平方根で割り、softmax層を通じて値ベクトルvと乗算して和を求め、softmax関数は入力値を区間(0,1)にマッピングするために用いられる。入力ベクトル間のアテンション関数の算式は、
【数6】
(3)
であり、
ただし、d
kはキーワード行列K
1i中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数であり、head
1iはi番目の自己アテンションモジュールSAの出力を表す。
【0029】
スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な空間的アテンション関数を得るために用いられ、
MSA()=Concat(head11,…,head1i,…)W1
O (4)
と表され、
MSA()は空間的アテンションネットワークの出力であり、W1
Oはトレーニング可能な重み行列である。
【0030】
当該ネットワークは、マルチヘッドアテンションモジュールにより異なるベクトル間のつながりを互いに比較し、重要な部分を強化することができる。第1マルチヘッドアテンションネットワークMSAを基に第1多層パーセプトロンMLPを使用し、MLPは非線形層としてGelu関数を有する多層パーセプトロンを表し、Gelu関数は、高性能のニューラルネットワーク活性化関数であり、その非線形変化は予想に合致するランダム正則変換方式であるためである。具体的には、最終的な空間的アテンション関数と入力ベクトルを加算するものを次の層の第1多層パーセプトロンに対応する入力ベクトルとし、
【数7】
(5)
LNは正規化方法を表し、x’
lは第1多層パーセプトロンの入力ベクトルを表し、MSA()は第1マルチヘッドアテンションネットワークの出力を表し、x
lはl層目の第1マルチヘッドアテンションネットワークの入力ベクトルを表す。
【0031】
前記第1多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第1マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、
【数8】
(6)
MLP()は第1多層パーセプトロンの出力を表し、x’
l-1はl-1層目の第1多層パーセプトロンの入力ベクトルを表す。
【0032】
1層目の第1マルチヘッドアテンションネットワークMSAの入力ベクトルは埋め込みベクトルであり、即ちx
1=X
0であり、第1正規化層は、最終層の第1多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、対応する時相のCT画像の空間的特徴とするために用いられ、
【数9】
(7)
x
0
Lは全ての符号化層を通過した後のx
Lの第1次元のデータを表し、L=2L1である。
【0033】
単純スキャン相、動脈相、門脈相及び遅発相のCT画像に対して、それぞれ、対応する単純スキャン相、動脈相、門脈相及び遅発相のCT画像の空間的特徴を得る。
1つの第2埋め込み層ネットワークを含む第2埋め込み層ネットワークユニットであって、s個の空間的アテンションネットワークの出力するs個の対応する時相のCT画像の空間的特徴を合わせた後にクラスラベルベクトルと合わせて埋め込み層ベクトルxを得るために用いられ、
x=[Xclass;xspace],xspace∈Rs×D,Xclass∈R1×D (8)
ただし、xspaceは合わせられた空間的特徴を表す。
【0034】
前記多時相CT画像分類システムは、1つの時間的アテンションネットワークを含む時間的アテンションユニットも含み、時間的アテンションネットワークの構造及び機能は空間的アテンションネットワークの構造と同じであり、具体的には、L2層の第2マルチヘッドアテンションネットワークMSAと、L2層の第2多層パーセプトロンと、1層の第2正規化層とを含み、L2層の第2マルチヘッドアテンションネットワークMSAとL2層の第2多層パーセプトロンは順にインターリーブ接続され、前記第2マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、式(2)に従って、正規化された入力ベクトルをクエリ行列Q2j、キーワード行列K2j及び値行列V2jの3つの異なる行列に変換し、クエリ行列Q2j、キーワード行列K2j及び値行列V2jの3つの異なる行列に基づいて、式(3)に従って入力ベクトル中の各ベクトル間のアテンション関数を生成し、jは時間的アテンションユニット中の自己アテンションモジュールSAのインデックスであり、スプライシング層は式(4)に従って各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な時間的アテンション関数を得て、式(5)に従って最終的な時間的アテンション関数と入力ベクトルを加算するものを次の層の第2多層パーセプトロンに対応する入力ベクトルとし、式(6)に従って、前記第2多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第2マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、1層目の第2マルチヘッドアテンションネットワークMSAの入力ベクトルは第2埋め込み層ネットワークユニットの出力する埋め込み層ベクトルであり、第2正規化層は、最終層の第2多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、空間的特徴及び時間的特徴を有するベクトルxtimeを得るために用いられ、
分類層Wを含む分類層ユニットであって、空間的特徴及び時間的特徴を有するベクトルに基づいて分類結果Probを得るために用いられ、
Prob=W(xtime
T) (9)
Prob∈RCはクラスの確率分布を表し、Cはクラスの総数を表す。
【0035】
図2は、本発明の時空間的アテンションモデルに基づく多時相CT画像分類システムによる分類のフローチャートであり、具体的には次のとおりである。
データ取得ユニットにより取得された分類される患者のs個の時相のCT画像を第1埋め込み層ネットワークユニットに入力し、各第1埋め込み層ネットワークは、対応する単一の時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ画像ブロックベクトルに展開し、全ての画像ブロックベクトルとクラスラベルベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得て、
得られた対応する時相のCT画像の埋め込みベクトルを空間的アテンションユニット中の対応する空間的アテンションネットワークに入力して対応する時相のCT画像の空間的特徴を得て、
s個の空間的アテンションネットワークの出力するs個の対応する時相のCT画像の空間的特徴を第2埋め込み層ネットワークユニットに入力し、s個の対応する時相のCT画像の空間的特徴を合わせた後、クラスラベルベクトルと重ねて埋め込み層ベクトルを構成し、
埋め込み層ベクトルを時間的アテンションユニットに入力して、空間的特徴及び時間的特徴を有するベクトルを得て、最後に、得られた空間的特徴及び時間的特徴を有するベクトルを分類層ユニットに入力して、最終的な分類結果が出力される。
【0036】
本発明のシステムは、異なる種類の腫瘍又はサブタイプのCT画像における違いに基づいてCT画像の分類を実現し、さらに、腫瘍の病型/病期の診断上の分類を実現するものである。本発明のシステムは、2種類以上の腫瘍の分類に用いることができ、具体的に、システムの構築方法によって決定される。例えば、肝がんは一般的に原発性及び続発性の2種類に分けられる。原発性肝臓悪性腫瘍は肝臓の上皮又は間葉組織から発生するものであり、続発性(転移性とも呼ばれる)肝がんとは、全身の複数の臓器に由来する悪性腫瘍が肝臓に浸潤するものを指す。一般的には、胃、胆道、膵臓、結腸・直腸、卵巣、子宮、肺、乳腺などの臓器の悪性腫瘍の肝転移が多く見られる。
【0037】
図3に示すのは、本発明の時空間的アテンションモデルに基づく肝がん多時相CT画像分類システムの構築方法のフローチャートであり、当該方法は、具体的には以下を含む。
(1)サンプルを収集してデータセットを構築し、前記データセットの各サンプルは1人の患者のs個の時相の肝がんCT画像を含み、
肝がんCT画像に対して肝細胞がん及び肝内胆管細胞がんの二項分類を例にとると、肝細胞がん(hepatocellular carcinoma、HCC)は死亡率の高い原発性肝がんであり、肝内胆管細胞がん(intrahepatic cholangiocarcinoma、ICC)とは、二次胆管及びその枝の上皮から発生する腺がんを指し、肝細胞がんに次ぐ発生率を有する原発性肝臓悪性腫瘍である。合計400件のサンプルが収集されており、そのうちHCCサンプルは200件、ICCサンプルは200件があり、全てのサンプルのラベル付けは専門の医用画像科医師によって実施され、具体的には次のとおりである。
(1.1)最初に、病院から肝がん患者の単純スキャン相肝臓CT画像及び造影CT画像(動脈相、門脈相、遅発相の肝臓CT画像)を収集し、データスクリーニングにより完全な研究情報を有する患者データを選択し、データマスキング技術により患者個人のプライベートな情報を除去し、患者のプライバシーを保護し、データの機密性を向上させるために役立ち、最終的にHCC及びICC患者から合計400件の肝臓CT画像及び対応する肝機能検査報告を収集し、そのうちHCC患者は200件、ICC患者は200件があり、属するクラスに従ってラベル付けし、HCC患者は1とラベル付けし、ICC患者は0とラベル付けする。
【0038】
(1.2)専門の医用画像科医師は4つの時相の肝臓CT画像中の病巣部分をラベル付けし、分割して、データセットを構築する。
【0039】
さらに、患者の個人差により検査科医師は異なる患者に異なるスキャン回数を設定する可能性があるため、オリジナルのCT画像中のスライス数は異なり、研究の便宜上、各時相のCT画像のサイズ及び数は一律に定義される。本実施例では、各サンプルの肝臓CT画像のサイズを64×128×128×4とし、ここで64は各時相の肝臓CT画像の層数を表し、128、128は各肝臓CT画像の長さ及び幅を表し、4は4つの時相を表し、
さらに、データを強調し、データが不十分な場合に、データからより多くの価値を生み出し、入力はデータの前処理を完了された4時相肝臓CT画像であり、ランダムな回転、ランダムな反転などの操作を行って、データセットのサンプルを補足する。
【0040】
(2)データ取得ユニットと、第1埋め込み層ネットワークユニットと、空間的アテンションユニットと、第2埋め込み層ネットワークユニットと、時間的アテンションユニットと、分類層ユニットとを含む上記時空間的アテンションモデルに基づく多時相CT画像分類システムを構築し、データセット中の各サンプルをシステムの入力として、システムの出力する分類結果と分類ラベルとの誤差を最小にすることを目標としてトレーニングし、バイナリクロスエントロピー損失関数でシステムの出力する分類結果と分類ラベルとの誤差の計算を例にとると、次のとおりに表す。
Loss=-ylog(Prob)-(1-y)log(1-Prob) (10)
ただし、y∈{0,1}であり、0はICC患者を表し、1はHCC患者を表す。
【0041】
確率的勾配降下アルゴリズムを用いてシステム全体を最適化し、目標は最小の誤差損失を見つけて、最終的に最適な分類モデルを得ることである。本実施例では、Adam確率的最適化アルゴリズムを用いて勾配の逆伝播と最適化を行い、学習率は0.0001に設定し、最終的に肝細胞がん及び肝内胆管細胞がんの二項分類を実現する時空間的アテンションモデルに基づく多時相CT画像分類システムを得る。
【0042】
本発明の方法は多時相のCT画像に基づいて診断する必要のある様々な疾患に普遍性を有し、異なる時相の病巣の特徴をより効果的に利用して、時間的なつながりを強化し、従来の畳み込みニューラルネットワークをメインモデルとした設計を捨て、アテンションメカニズムにより、より多くの計算を重要な領域に投入し、注目すべき目標のより多くの詳細情報を得ることができ、これによって他の無用な情報を抑制し、計算の冗長性と遅延を低減し、CT画像の診断をより短時間で実現しやすく、診断の精度を高くし、診断の効果をより安定的にする。
【0043】
なお、本発明に記載されている実施例は、本発明の実施形態に対する限定ではなく、本発明を明瞭に説明するために挙げた例に過ぎない。当業者は、上記の説明を踏まえて他の様々な形式の修正又は変更を行うことができる。ここでは全ての実施形態を挙げる必要はなく、そうすることもできない。本発明の趣旨と原則内の修正、同等な置換、改良など、いずれも本発明の特許請求の範囲に含まれる。本発明で主張する保護範囲は、特許請求の範囲の内容に従うものとし、明細書の発明を実施するための形態などの記載は特許請求の範囲の内容を解釈するために用いてもよい。そこから生まれる自明な変化又は変更は依然として本発明の保護範囲に含まれる。
【手続補正書】
【提出日】2023-08-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
CT画像から空間的特徴および時間的特徴を得て腫瘍の分類を行う、時空間的アテンションモデルに基づく多時相CT画像分類システムであって、
分類される患者のs個の時相のCT画像を取得するためのデータ取得ユニット
であって、sは2以上であり、s個の時相のCT画像は、単純スキャン相CT画像と、造影CTにおける動脈相CT画像と、造影CTにおける門脈相CT画像と、造影CTにおける遅発相CT画像との少なくとも2つを含む、データ取得ユニットと、
s個の第1埋め込み層ネットワークを含む第1埋め込み層ネットワークユニットであって、
前記s個の第1埋め込み層ネットワークは、それぞれ、各時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ
畳み込み層によって展開し、
線形化後の画像ブロックベクトルを得、全ての
前記画像ブロックベクトルとクラス
トークンベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得、
ここで、各時相のCT画像のサイズは、
【数1】
であり、H、Wは一枚のCT画像の長さ、幅であり、CはCT画像の層数であり、分割後の画像ブロックのサイズはP×P×Cであり、Pは分割後の画像ブロックの長さ及び幅であり、前記埋め込みベクトルは、
X
0
=[X
class
;X
1
p
;X
2
p
…X
N
p
]+X
pos
,X
p
∈R
1×D
,X
pos
∈R
(1+N)×D
であり、X
class
はクラストークンベクトルを表し、X
pos
は位置ベクトルを表し、X
p
は線形化後の画像ブロックベクトルを表し、Rは実数全体の集合を表し、Nは分割後の画像ブロックの数を表し、N=HW/P
2
であり、Dは畳み込み層の畳み込みカーネルの数である、第1埋め込み層ネットワークユニットと、
s個の空間的アテンションネットワークを含む空間的アテンションユニットであって、
前記s個の各空間的アテンションネットワークは、L1層の第1マルチヘッドアテンションネットワークMSAと、L1層の第1多層パーセプトロンと、1層の第1正規化層とを含み、
L1は任意の正の整数であり、前記L1層の第1マルチヘッドアテンションネットワークMSAと
前記L1層の第1多層パーセプトロンは順にインターリーブ接続され、
前記第1マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q
1i
、キーワード行列K
1i
及び値行列V
1i
の3つの異なる行列に変換するために用いられ、入力ベクトルをクエリベクトルq、キーワードベクトルk及び値ベクトルvの3つの異なるベクトルに変換し、そのうちクエリベクトルqは他のベクトルとマッチングするために用いられ、キーワードベクトルkはマッチングされ、値ベクトルvは抽出される情報を表し、q、k、vの3種類のベクトルは学習可能な行列と入力ベクトルを乗算して得られ、埋め込みベクトルは多次元であることを考慮して、グローバルな視点から表すと、
Q
1i
=XW
1i
Q
,K
1i
=XW
1i
K
,V
1i
=XW
1i
V
(2)
となり、
ただし、W
1i
Q
、W
1i
K
、W
1i
V
はi番目のトレーニング可能な重み行列を表し、Xは入力ベクトルを表し、
クエリ行列Q
1i
、キーワード行列K
1i
及び値行列V
1i
の3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成し、クエリベクトルqと各キーワードベクトルkのドット積を求め、ドット積をキーワードベクトルkの次元の平方根で割り、softmax層を通じて値ベクトルvと乗算して和を求め、softmax関数は入力値を区間(0,1)にマッピングするために用いられ、入力ベクトル間のアテンション関数の算式(3)は、
【数2】
(3)であり、
ただし、dkはキーワード行列K
1i
中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数であり、head
1i
はi番目の自己アテンションモジュールSAの出力を表し、
スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な空間的アテンション関数を得るために用いられ、スプライシング層は下記式(4)で表され、
MSA()=Concat(head
11
,…,head
1i
,…)W
1
O
(4)
ここで、MSA()は空間的アテンションネットワークの出力であり、W
1
O
はトレーニング可能な重み行列であり、
【数3】
(5)
ここで、LNは正規化方法を表し、x’
l
は第1多層パーセプトロンの入力ベクトルを表し、MSA()は第1マルチヘッドアテンションネットワークの出力を表し、x
l
はl層目の第1マルチヘッドアテンションネットワークの入力ベクトルを表し、
最終的な空間的アテンション関数と入力ベクトルを加算するものを次の層の第1多層パーセプトロンに対応する入力ベクトルとし、
【数4】
(6)
ここで、MLP()は第1多層パーセプトロンの出力を表し、x’
l-1
はl-1層目の第1多層パーセプトロンの入力ベクトルを表し、
前記第1多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第1マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、
1層目の第1マルチヘッドアテンションネットワークMSAの入力ベクトルは埋め込みベクトルであり、第1正規化層は、最終層の第1多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、対応する時相のCT画像の空間的特徴を得る、空間的アテンションユニットと、
1つの第2埋め込み層ネットワークを含む第2埋め込み層ネットワークユニットであって、
前記s個の空間的アテンションネットワーク
から出力するs個の対応する時相のCT画像の空間的特徴を合わせた後にクラス
トークンベクトルと合わせて埋め込み層ベクトル
xを下記式で得る、
x=[X
class
;
xspace
],
xspace
∈R
s×D
,X
class
∈R
1×D
(7)
ただし、x
space
は合わせられた空間的特徴を表す、第2埋め込み層ネットワークユニットと、
1つの時間的アテンションネットワークを含む時間的アテンションユニットであって、
前記時間的アテンションネットワークは、L2層の第2マルチヘッドアテンションネットワークMSAと、L2層の第2多層パーセプトロンと、1層の第2正規化層とを含み、
L2は任意の正の整数であり、L2層の第2マルチヘッドアテンションネットワークMSAとL2層の第2多層パーセプトロンは順にインターリーブ接続され、
前記第2マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、下記式(8)に従って、
Q
2i
=XW
2i
Q
,K
2i
=XW
2i
K
,V
2i
=XW
2i
V
(8)
正規化された入力ベクトルをクエリ行列Q
2j
、キーワード行列K
2j
及び値行列V
2j
の3つの異なる行列に変換し、クエリ行列Q
2j
、キーワード行列K
2j
及び値行列V
2j
の3つの異なる行列に基づいて、下記式(9)に従って、
head
2i
=Attention
2i
(Q
2i
,K
2i
,V
2i
)=Softmax(Q
2i
K
2i
T
/√d
k
)V
2i
(9)
入力ベクトル中の各ベクトル間のアテンション関数を生成し、jは時間的アテンションユニット中の自己アテンションモジュールSAのインデックスであり、スプライシング層は下記式(10)に従って、
MSA()=Concat(head
21
,…,head
2i
,…)W
2
O
(10)
各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な時間的アテンション関数を得て、下記式(11)に従って、
x′
l
=MSA(LN(x
l
))+x
l
, l=1・・・L2 (11)
ここで、LNは正規化方法を表し、x’
l
は第1多層パーセプトロンの入力ベクトルを表し、MSA()は第1マルチヘッドアテンションネットワークの出力を表し、x
l
はl層目の第1マルチヘッドアテンションネットワークの入力ベクトルを表し、
最終的な時間的アテンション関数と入力ベクトルを加算するものを次の層の第2多層パーセプトロンに対応する入力ベクトルとし、下記式(12)に従って、
x
l
=MSA(LN(x´
l-1
))+x′
l-1
, l=2・・・L1 (12)
ここで、MLP()は第1多層パーセプトロンの出力を表し、x’
l-1
はl-1層目の第1多層パーセプトロンの入力ベクトルを表し、
前記第2多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第2マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、1層目の第2マルチヘッドアテンションネットワークMSAの入力ベクトルは第2埋め込み層ネットワークユニットの出力する埋め込み層ベクトルであり、第2正規化層は、最終層の第2多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、空間的特徴及び時間的特徴を有するベクトルx
time
を得る、時間的アテンションユニットと、
分類層Wを含む分類層ユニットであって、空間的特徴及び時間的特徴を有するベクトルに基づいて分類結果Probを
下記式(13)により得るために用いられ、
Prob=W(x
time
T) (13)
x
time
T
は前記空間的特徴及び時間的特徴を有するベクトルであり、Prob∈R
Cはクラスの確率分布を表し、
Rは実数全体の集合を表し、Cはクラスの総数を表す、分類層ユニットと、
を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システム。
【請求項2】
サンプルを収集してデータセットを構築するステップであって、前記データセットの各サンプルは1人の患者のs個の時相のCT画像を含み、sは2以上であり、s個の時相のCT画像は、単純スキャン相CT画像と、造影CTにおける動脈相CT画像と、造影CTにおける門脈相CT画像と、造影CTにおける遅発相CT画像との少なくとも2つを含む、ステップと、
請求項1に記載の時空間的アテンションモデルに基づく多時相CT画像分類システムを構築し、データセット中の各サンプルをシステムの入力として、システムの出力する分類結果と分類ラベルとの誤差を最小にすることを目標としてトレーニングし、前記時空間的アテンションモデルに基づく多時相CT画像分類システムを得るステップと、
を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システムの構築方法。
【手続補正書】
【提出日】2023-12-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
CT画像から空間的特徴および時間的特徴を得て腫瘍の分類を行う、時空間的アテンションモデルに基づく多時相CT画像分類システムであって、
分類される患者のs個の時相のCT画像を取得するためのデータ取得ユニットであって、sは2以上であり、s個の時相のCT画像は、単純スキャン相CT画像と、造影CTにおける動脈相CT画像と、造影CTにおける門脈相CT画像と、造影CTにおける遅発相CT画像との少なくとも2つを含む、データ取得ユニットと、
s個の第1埋め込み層ネットワークを含む第1埋め込み層ネットワークユニットであって、前記s個の第1埋め込み層ネットワークは、それぞれ、各時相のCT画像を複数の画像ブロックに分割し、各画像ブロックをそれぞれ畳み込み層によって展開し、線形化後の画像ブロックベクトルを得、全ての前記画像ブロックベクトルとクラストークンベクトルを合わせた後に同次元の位置ベクトルと加算して対応する時相のCT画像の埋め込みベクトルを得、ここで、各時相のCT画像のサイズは、
【数1】
であり、H、Wは一枚のCT画像の長さ、幅であり、CはCT画像の層数であり、分割後の画像ブロックのサイズはP×P×Cであり、Pは分割後の画像ブロックの長さ及び幅であり、前記埋め込みベクトルは、X
0=[X
class;X
1
p;X
2
p…X
N
p]+X
pos,X
p∈R
1×D,X
pos∈R
(1+N)×Dであり、X
classはクラストークンベクトルを表し、X
posは位置ベクトルを表し、X
pは線形化後の画像ブロックベクトルを表し、Rは実数全体の集合を表し、Nは分割後の画像ブロックの数を表し、N=HW/P
2であり、Dは畳み込み層の畳み込みカーネルの数である、第1埋め込み層ネットワークユニットと、
s個の空間的アテンションネットワークを含む空間的アテンションユニットであって、前記s個の各空間的アテンションネットワークは、L1層の第1マルチヘッドアテンションネットワークMSAと、L1層の第1多層パーセプトロンと、1層の第1正規化層とを含み、L1は任意の正の整数であり、前記L1層の第1マルチヘッドアテンションネットワークMSAと前記L1層の第1多層パーセプトロンは順にインターリーブ接続され、
前記第1マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、正規化された入力ベクトルをクエリ行列Q
1i、キーワード行列K
1i及び値行列V
1iの3つの異なる行列に変換するために用いられ、入力ベクトルをクエリベクトルq、キーワードベクトルk及び値ベクトルvの3つの異なるベクトルに変換し、そのうちクエリベクトルqは他のベクトルとマッチングするために用いられ、キーワードベクトルkはマッチングされ、値ベクトルvは抽出される情報を表し、q、k、vの3種類のベクトルは学習可能な行列と入力ベクトルを乗算して得られ、埋め込みベクトルは多次元であることを考慮して、グローバルな視点から表すと、
Q
1i=XW
1i
Q,K
1i=XW
1i
K,V
1i=XW
1i
V (2)となり、
ただし、W
1i
Q、W
1i
K、W
1i
Vはi番目のトレーニング可能な重み行列を表し、Xは入力ベクトルを表し、
クエリ行列Q
1i、キーワード行列K
1i及び値行列V
1iの3つの異なる行列に基づいて入力ベクトル中の各ベクトル間のアテンション関数を生成し、クエリベクトルqと各キーワードベクトルkのドット積を求め、ドット積をキーワードベクトルkの次元の平方根で割り、softmax層を通じて値ベクトルvと乗算して和を求め、softmax関数は入力値を区間(0,1)にマッピングするために用いられ、入力ベクトル間のアテンション関数の算式(3)は、
【数2】
(3)であり、
ただし、dkはキーワード行列K
1i中の各キーワードベクトルkの次元を表し、softmax()はsoftmax関数であり、head
1iはi番目の自己アテンションモジュールSAの出力を表し、
スプライシング層は、各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な空間的アテンション関数を得るために用いられ、スプライシング層は下記式(4)で表され、
MSA()=Concat(head
11,…,head
1i,…)W
1
O (4)
ここで、MSA()は空間的アテンションネットワークの出力であり、W
1
Oはトレーニング可能な重み行列であり、
【数3】
(5)
ここで、LNは正規化方法を表し、x’
lは第1多層パーセプトロンの入力ベクトルを表し、MSA()は第1マルチヘッドアテンションネットワークの出力を表し、x
lはl層目の第1マルチヘッドアテンションネットワークの入力ベクトルを表し、
最終的な空間的アテンション関数と入力ベクトルを加算するものを次の層の第1多層パーセプトロンに対応する入力ベクトルとし、
【数4】
(6)
ここで、MLP()は第1多層パーセプトロンの出力を表し、x’
l-1はl-1層目の第1多層パーセプトロンの入力ベクトルを表し、
前記第1多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第1マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、
1層目の第1マルチヘッドアテンションネットワークMSAの入力ベクトルは埋め込みベクトルであり、第1正規化層は、最終層の第1多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、対応する時相のCT画像の空間的特徴を得る、空間的アテンションユニットと、
1つの第2埋め込み層ネットワークを含む第2埋め込み層ネットワークユニットであって、前記s個の空間的アテンションネットワークから出力するs個の対応する時相のCT画像の空間的特徴を合わせた後にクラストークンベクトルと合わせて埋め込み層ベクトルxを下記式で得る、x=[X
class;
xspace],
xspace∈R
s×D,X
class∈R
1×D (7)
ただし、x
spaceは合わせられた空間的特徴を表す、第2埋め込み層ネットワークユニットと、
1つの時間的アテンションネットワークを含む時間的アテンションユニットであって、前記時間的アテンションネットワークは、L2層の第2マルチヘッドアテンションネットワークMSAと、L2層の第2多層パーセプトロンと、1層の第2正規化層とを含み、L2は任意の正の整数であり、L2層の第2マルチヘッドアテンションネットワークMSAとL2層の第2多層パーセプトロンは順にインターリーブ接続され、
前記第2マルチヘッドアテンションネットワークMSAは、複数の自己アテンションモジュールSAと、1つのスプライシング層とを含み、自己アテンションモジュールSAは、下記式(8)に従って、
Q
2i=XW
2i
Q,K
2i=XW
2i
K,V
2i=XW
2i
V (8)正規化された入力ベクトルをクエリ行列Q
2j、キーワード行列K
2j及び値行列V
2jの3つの異なる行列に変換し、クエリ行列Q
2j、キーワード行列K
2j及び値行列V
2jの3つの異なる行列に基づいて、下記式(9)に従って、
head
2i=Attention
2i(Q
2i,K
2i,V
2i)=Softmax(Q
2iK
2i
T/√d
k)V
2i (9)入力ベクトル中の各ベクトル間のアテンション関数を生成し、jは時間的アテンションユニット中の自己アテンションモジュールSAのインデックスであり、スプライシング層は下記式(10)に従って、
MSA()=Concat(head
21,…,head
2i,…)W
2
O (10)各自己アテンションモジュールSAの出力するアテンション関数をスプライシングして最終的な時間的アテンション関数を得て、下記式(11)に従って、
x′
l=MSA(LN(x
l))+x
l, l=1・・・L2 (11)
ここで、LNは正規化方法を表し、x’
lは第
2多層パーセプトロンの入力ベクトルを表し、MSA()は第
2マルチヘッドアテンションネットワークの出力を表し、x
lはl層目の第
2マルチヘッドアテンションネットワークの入力ベクトルを表し、
最終的な時間的アテンション関数と入力ベクトルを加算するものを次の層の第2多層パーセプトロンに対応する入力ベクトルとし、下記式(12)に従って、
x
l=M
LP(LN(x´
l-1))+x′
l-1, l=2・・・
L2 (12)
ここで、MLP()は第
2多層パーセプトロンの出力を表し、x’
l-1はl-1層目の第
2多層パーセプトロンの入力ベクトルを表し、
前記第2多層パーセプトロンは正規化された入力ベクトルを符号化してその入力ベクトルと加算し、加算結果を次の層の第2マルチヘッドアテンションネットワークMSAに対応する入力ベクトルとし、1層目の第2マルチヘッドアテンションネットワークMSAの入力ベクトルは第2埋め込み層ネットワークユニットの出力する埋め込み層ベクトルであり、第2正規化層は、最終層の第2多層パーセプトロンの出力するベクトルとその入力ベクトルを加算して得られたベクトルの第1次元ベクトルを正規化し、空間的特徴及び時間的特徴を有するベクトルx
timeを得る、時間的アテンションユニットと、
分類層Wを含む分類層ユニットであって、空間的特徴及び時間的特徴を有するベクトルに基づいて分類結果Probを下記式(13)により得るために用いられ、
Prob=W(x
time
T) (13)
x
time
Tは前記空間的特徴及び時間的特徴を有するベクトルであり、Prob∈R
Cはクラスの確率分布を表し、Rは実数全体の集合を表し、Cはクラスの総数を表す、分類層ユニットと、を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システム。
【請求項2】
サンプルを収集してデータセットを構築するステップであって、前記データセットの各サンプルは1人の患者のs個の時相のCT画像を含み、sは2以上であり、s個の時相のCT画像は、単純スキャン相CT画像と、造影CTにおける動脈相CT画像と、造影CTにおける門脈相CT画像と、造影CTにおける遅発相CT画像との少なくとも2つを含む、ステップと、
請求項1に記載の時空間的アテンションモデルに基づく多時相CT画像分類システムを構築し、データセット中の各サンプルをシステムの入力として、システムの出力する分類結果と分類ラベルとの誤差を最小にすることを目標としてトレーニングし、前記時空間的アテンションモデルに基づく多時相CT画像分類システムを得るステップと、を含むことを特徴とする時空間的アテンションモデルに基づく多時相CT画像分類システムの構築方法。