IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特開2024-143991マルチタスク学習ネットワークにおける画像分割方法及びシステム
<>
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図1
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図2
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図3
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図4
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図5
  • 特開-マルチタスク学習ネットワークにおける画像分割方法及びシステム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024143991
(43)【公開日】2024-10-11
(54)【発明の名称】マルチタスク学習ネットワークにおける画像分割方法及びシステム
(51)【国際特許分類】
   A61B 6/03 20060101AFI20241003BHJP
   G06V 10/82 20220101ALI20241003BHJP
   G06T 7/00 20170101ALI20241003BHJP
   G06T 7/10 20170101ALI20241003BHJP
   G06N 3/0455 20230101ALI20241003BHJP
【FI】
A61B6/03 360J
G06V10/82
G06T7/00 350C
G06T7/10
A61B6/03 360B
G06N3/0455
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023131794
(22)【出願日】2023-08-14
(31)【優先権主張番号】202310315976.7
(32)【優先日】2023-03-29
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】朱 聞▲タオ▼
(72)【発明者】
【氏名】宋 怡然
(72)【発明者】
【氏名】薛 梦凡
(72)【発明者】
【氏名】黄 海亮
【テーマコード(参考)】
4C093
5L096
【Fターム(参考)】
4C093AA22
4C093AA26
4C093CA08
4C093CA17
4C093CA18
4C093CA21
4C093DA03
4C093FF07
4C093FF16
4C093FF42
5L096AA03
5L096AA06
5L096BA06
5L096DA01
5L096DA02
5L096FA02
5L096GA02
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【解決手段】マルチタスクネットワークにおけるアテンションを結合する画像分割方法及びシステムを開示する。第1の分割対象に対する第1の分割タスクをメインタスクとし、第2の分割対象に対する第2の分割タスクを補助タスクとし、第1の分割タスク及び第2の分割タスクを並列に計算し、且つネットワーク内にチャネルアテンションモジュール及び鮮鋭化空間アテンションモジュールを挿入する。チャネルアテンションモジュールは、チャネル特徴情報を強調することができ、鮮鋭化空間アテンションモジュールは、エッジ情報を強調させることができ、当該ネットワークは、異なるタスクを適応的に重み付けし、マルチタスクネットワークを最適化し、最後にトレーニングにより得られた分割モデルは、3次元画像の高速で正確な分割を実現することができる。
【効果】ディープネットワークの第1の分割対象に対する分割能力を向上させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法であって、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るステップを含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、前記マルチタスク学習ネットワークのトレーニング方法は、
トレーニングデータセットを構築するステップであって、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含むステップと、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築するステップであって、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行うステップと、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るステップと、を含む、
ことを特徴とするマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法。
【請求項2】
前記チャネルアテンションモジュールは、順次接続されるプーリング層、第1の2D畳み込み層、1D畳み込み層、第2の2D畳み込み層及び活性化関数層を含み、
ここで、前記プーリング層は、入力画像のグローバル空間情報を取得するために用いられ、前記第1の2D畳み込み層は、前記プーリング層により取得されたグローバル空間情報に対してチャネル数を圧縮するために用いられ、前記1D畳み込み層は、前記第1の2D畳み込み層により出力された、チャネル数が圧縮されたグローバル空間情報に対して畳み込みを行い、チャネル情報のモデリング能力を強化するために用いられ、前記第2の2D畳み込み層は、前記1D畳み込み層の出力に対して畳み込みを行うために用いられ、前記活性化関数層は、前記第2の2D畳み込み層の出力をマッピングして特徴チャネルの重みを得、特徴チャネルの重みに基づいて、前記チャネルアテンションモジュールの入力画像に対して有用な情報を含む特徴を選択的に強調して不要な特徴を抑制し、前記チャネルアテンションモジュールの出力を得るために用いられる、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、
ここで、前記平均プーリング層及び前記最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられる、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記予測された第1の分割画像及び予測された第2の分割画像とラベルとの誤差を最小化することを目標とする目的関数は、
【数1】
であり、ここで、
【数2】
であり、mは、前記マルチタスク学習ネットワークのタスク数であり、第1のデコーダがエンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するメインタスクと、第2のデコーダがエンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得する補助タスクと、を含み、nは、トレーニングサンプルの個数であり、xijは、タスクiのサンプルjの3次元CT画像を示し、yijは、タスクiのサンプルjのラベルであり、l(.,.)は損失関数であり、b=(b,…bは、m個のタスクのオフセット補償を示し、λは正則化パラメータであり、tr(.)は行列の跡であり、Wはタスクiの重みパラメータであり、D行列は半正定値行列である、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記マルチタスク学習ネットワークはさらに識別器を含み、前記識別器は、前記エンコーダ及び前記第1のデコーダで構成される生成器と共に敵対的生成ネットワークモデルを構成し、前記敵対的生成ネットワークモデルは、予測された第1の分割画像と第1のラベルとの損失関数を構築することにより、マルチタスク学習ネットワークのパラメータを最適化するようにトレーニングされる、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記予測された第1の分割画像と第1のラベルとの損失関数は、
前記識別器の損失関数及び前記生成器の損失関数を含み、ここで、前記識別器の損失関数は、前記生成器により出力された予測された第1の分割画像の分布pと第1のラベルの分布prealとの差異を測るEM距離を用い、前記生成器の損失関数はloss=BCE[G(x),Real]-Ex~pz[D(x)]で示され、
ここで、BCE[G(x),Real]は、前記生成器Gにより出力された予測された第1の分割画像G(x)と第1のラベルRealとの間のバイナリ交差エントロピー損失を示し、D(x)は識別器の出力を示し、Eは期待を示し、xは3次元CT画像を示す、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記指定臓器は肺であり、前記第1の分割対象は肺葉であり、前記第2の分割対象は肺実質である、
ことを特徴とする請求項1に記載の方法。
【請求項8】
マルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムであって、
分割すべき3次元CT画像を取得するためのデータ取得モジュールと、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るための分割モジュールと、
前記マルチタスク学習ネットワークをトレーニングするためのトレーニングモジュールと、を含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、
前記トレーニングモジュールは、
トレーニングデータセットを構築し、ここで、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含み、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築し、ここで、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強化し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行い、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るために用いられる
ことを特徴とするマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システム。
【請求項9】
電子機器であって、メモリと、プロセッサと、メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムとを含み、前記プロセッサは、前記コンピュータプログラムを実行するとき、請求項1~7のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を実施する、
ことを特徴とする電子機器。
【請求項10】
コンピュータ実行可能なコマンドを含む記憶媒体であって、前記コンピュータ実行可能なコマンドは、コンピュータプロセッサによって実行されるとき、請求項1~7のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法が実施される、
ことを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医用画像処理の技術分野に関し、より具体的には、特にマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法及びシステムに関する。
【背景技術】
【0002】
肺実質はCT(Computed Tomography)画像上で巨大な低階調(gray scale)連通領域であり、画像分割(Image Segmentation)において、肺実質分割の主流は、閾値を用いて肺実質と胸腔の他の構造を分離し、領域拡張法(region growing)に基づいて連通している左、右肺を取得し、主気管と肺に延びる主気管支とを除去し、さらに実質内の血管、結節などによって形成された穴を充填し、完全な肺組織を得るという方法である。人間の肺は5つの機能領域に分けられ、これらの機能領域は肺葉と呼ばれる。5つの肺葉の各々は、機能的に独立しており、自己の気管支及び脈管系を有する。これらの肺葉の同定は、疾患評価及び治療計画において重要な用途を有する。多くの肺疾患は、肺葉レベルで作用する。肺疾患を肺葉レベルで測定することは、疾患表現型及びその重症度を評価する上で重要な臨床的意義を有する。肺葉分割は、外科的治療計画においてさらなる用途を有する。肺葉の位置、形状及び体積を決定することは、調査及び外科手術を計画する上で非常に重要である。従来の肺葉分割方法は、一般的に肺実質分割を前処理手段として用いることにより、肺葉分割時に肺以外の領域を誤って分割する可能性を低減させるが、このような方法はトレーニングプロセスを複数の段階に分ける必要があり、分割モデルの配備コスト及びネットワークトレーニングの操作の複雑度が増加し、そのため、肺葉分割をメインタスク、肺実質分割を補助タスクとするマルチタスク学習方法を選択し、2つのタスクネットワークを並行してトレーニングさせ、学習ネットワークの最適化を実現するために、マルチタスクの重みを適応的に調整する。ディープラーニングが進むにつれて、研究者は、CT画像における肺葉の自動的な分割を実現するために、ディープラーニングを使用し始めている。畳み込み演算によるニューラルネットワークシステム、すなわち畳み込みニューラルネットワークは、ディープラーニングにおいて最も一般的に用いられる方法の1つである。
【0003】
畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)は、フィードフォワード型のニューラルネットワークであり、そのネットワーク構成の特徴により、画像処理、特に大規模画像処理に優れた性能を有するため、画像認識、物体検出などの適用において、畳み込みニューラルネットワークは大規模に用いられている。畳み込みニューラルネットワークは、他のネットワーク構造に比べて演算量が格段に優れており、広く適用されている。
【0004】
敵対的生成ネットワーク(Generative Adversarial Network、GAN)は、ディープラーニング分野の重要な生成モデルであり、すなわち2つのネットワーク(生成器及び識別器)が同時にトレーニングされ、ミニマックスアルゴリズム(minimax)で競い合う。この対抗方法は、いくつかの従来の生成モデルの実際の適用におけるいくつかの困難を回避し、いくつかの解けない損失関数を対抗学習によって巧みに近似し、画像、ビデオ、自然言語、及び音楽などのデータの生成において広く適用されている。敵対的生成ネットワークに基づくセマンティックセグメンテーション(Semantic segmentation)モデルは、生成された画像と目的分割画像との不一致を利用する上でより良い効率が示される。有効な画像コーデック作業を完了するために、如何に敵対的生成ネットワークの生成器を設計してコンテキスト空間情報をより良く取得するかは、敵対的生成ネットワークに基づくセマンティックセグメンテーションモデルを利用する上で重要なステップである。そのため、マルチタスク学習ネットワークにおける効率的な画像分割方法が求められている。
【発明の概要】
【0005】
本発明の目的は従来技術の不足に対して、マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法及びシステムを提供することである。
【課題を解決するための手段】
【0006】
本発明が採用した技術的解決手段は具体的には次のとおりである。
本発明は、マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を提供し、当該方法は、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るステップを含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、前記マルチタスク学習ネットワークのトレーニング方法は、
トレーニングデータセットを構築するステップであって、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含むステップと、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築するステップであって、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行うステップと、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るステップと、を含む。
【0007】
さらに、前記チャネルアテンションモジュールは、順次接続されるプーリング層、第1の2D畳み込み層、1D畳み込み層、第2の2D畳み込み層及び活性化関数層を含み、ここで、プーリング層は、入力画像のグローバル空間情報を取得するために用いられ、第1の2D畳み込み層は、プーリング層により取得されたグローバル空間情報に対してチャネル数を圧縮するために用いられ、1D畳み込み層は、第1の2D畳み込み層により出力された、チャネル数が圧縮されたグローバル空間情報に対して畳み込みを行い、チャネル情報のモデリング能力を強化するために用いられ、第2の2D畳み込み層は、1D畳み込み層の出力に対して畳み込みを行うために用いられ、活性化関数層は、第2の2D畳み込み層の出力をマッピングして特徴チャネルの重みを得、特徴チャネルの重みに基づいて、前記チャネルアテンションモジュールの入力画像に対して有用な情報を含む特徴を選択的に強調して不要な特徴を抑制し、チャネルアテンションモジュールの出力を得るために用いられる。
【0008】
さらに、前記鮮鋭化空間アテンションモジュールは、平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、平均プーリング層及び最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられる。
【0009】
さらに、前記予測された第1の分割画像及び予測された第2の分割画像とラベルとの誤差を最小化することを目標とする目的関数は、
【数1】
であり、
ここで、
【数2】
であり、mは、前記マルチタスク学習ネットワークのタスク数であり、第1のデコーダがエンコーダにより抽出された特徴をデコードして、予測された第1の分割画像を取得するメインタスクと、第2のデコーダがエンコーダにより抽出された特徴をデコードして、予測された第2の分割画像を取得する補助タスクと、を含み、nは、トレーニングサンプルの個数であり、xijは、タスクiのサンプルjの3次元CT画像を示し、yijは、タスクiのサンプルjのラベルであり、l(.,.)は損失関数であり、b=(b,…bは、m個のタスクのオフセット補償を示し、λは正則化パラメータであり、tr(.)は行列の跡であり、Wはタスクiの重みパラメータであり、D行列は半正定値行列である。
【0010】
さらに、前記マルチタスク学習ネットワークはさらに識別器を含み、前記識別器は、エンコーダ及び第1のデコーダで構成される生成器と共に敵対的生成ネットワークモデルを構成し、前記敵対的生成ネットワークモデルは、予測された第1の分割画像と第1のラベルとの損失関数を構築することにより、マルチタスク学習ネットワークのパラメータを最適化するようにトレーニングされる。
【0011】
さらに、前記予測された第1の分割画像と第1のラベルとの損失関数は、
識別器の損失関数及び生成器の損失関数を含み、ここで、識別器の損失関数は、前記生成器により出力された予測された第1の分割画像の分布pと第1のラベルの分布prealとの差異を測るEM距離を用い、前記生成器の損失関数はloss=BCE[G(x),Real]-Ex~pz[D(x)]で示され、
ここで、BCE[G(x),Real]は、前記生成器Gにより出力された予測された第1の分割画像G(x)と第1のラベルRealとの間のバイナリ交差エントロピー損失を示し、D(x)は識別器の出力を示し、Eは期待を示し、xは3次元CT画像を示す。
【0012】
さらに、前記指定臓器は肺であり、前記第1の分割対象は肺葉であり、前記第2の分割対象は肺実質である。
【0013】
本発明は、マルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムをさらに提供し、当該システムは、
分割すべき3次元CT画像を取得するためのデータ取得モジュールと、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るための分割モジュールと、
前記マルチタスク学習ネットワークをトレーニングするためのトレーニングモジュールと、を含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、
前記トレーニングモジュールは、
トレーニングデータセットを構築し、ここで、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含み、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築し、ここで、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強化し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行い、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るために用いられる。
【0014】
さらに、前記鮮鋭化空間アテンションモジュールは、平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、平均プーリング層及び最大値プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、鮮鋭化フィルタモジュールは、2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、畳み込みカーネルは、鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合するために用いられ、活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して鮮鋭化空間アテンションモジュールの出力を得るために用いられる。
【0015】
本発明は、電子機器をさらに提供し、当該電子機器は、メモリと、プロセッサと、メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムとを含み、前記プロセッサは、前記コンピュータプログラムを実行するとき、前記マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を実施する。
【0016】
本発明は、コンピュータ実行可能なコマンドを含む記憶媒体をさらに提供し、前記コンピュータ実行可能なコマンドは、コンピュータプロセッサによって実行されるとき、前記マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法が実施される。
【発明の効果】
【0017】
本発明の有益な効果は以下のとおりであり、本発明は、マルチタスクネットワークにおけるアテンションを結合する画像分割方法及びシステムを開示する。本発明は、第1の分割対象に対する第1の分割タスクをメインタスクとし、第2の分割対象に対する第2の分割タスクを補助タスクとし、第1の分割タスク及び第2の分割タスクを並列に計算し、且つネットワーク内にチャネルアテンションモジュール及び鮮鋭化空間アテンションモジュールを挿入する。チャネルアテンションモジュールは、チャネル特徴情報を強調することができ、鮮鋭化空間アテンションモジュールは、エッジ情報を強調させることができ、当該ネットワークは、異なるタスクを適応的に重み付けし、マルチタスクネットワークを最適化し、最後にトレーニングにより得られた分割モデルは、3次元画像の高速で正確な分割を実現することができる。本発明は、ニューラルネットワークを効果的に用いてマルチタスクの間の共有特徴を学習することができ、より全面的な特徴を抽出することが期待でき、メインタスク分割ネットワークの性能を強化し、実際に使用する時にディープネットワークの複雑度を増加することなく、ディープネットワークの第1の分割対象に対する分割能力を向上させる。
【図面の簡単な説明】
【0018】
図1】本発明の敵対的生成ネットワーク(GAN)モデルに基づく画像分割ネットワークの構造図である。
図2】U-Net完全畳み込みニューラルネットワークの構造図である。
図3】エンコーダ、第1のデコーダ及び第2のデコーダの接続構造の概略図である。
図4】本発明の鮮鋭化空間アテンションモジュールの構造図である。
図5】本発明のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムの構造図である。
図6】本発明の電子機器の構造図である。
【発明を実施するための形態】
【0019】
以下は図面と具体的な実施例を参照し、本発明により提供されるマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法についてさらに詳細に説明する。本発明の効果及び特徴は、以下の説明から一層明らかになるであろう。なお、図面は、本発明の実施例を便利、明瞭に補助して説明するためにのみ、いずれも非常に簡略化された形態を採用し且ついずれも非正確な割合を使用する。
【0020】
本発明の実施例は、マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を提供し、ここで、アテンション(Attention)とは、生成器ネットワークの空間情報モデリング能力を向上させてより重要なチャネル情報を取得するためのチャネルアテンションモジュールと、エッジ情報を強調させるための鮮鋭化空間アテンションモジュールとを、U-Net内に挿入することである。それにより、有効な画像コーデック作業を達成するために、コンテキスト空間情報をより良く取得することができる。
【0021】
本発明の実施例により提供されるマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法は、端末、サーバなどの一定の計算能力を有するコンピュータ機器で実行されてもよい。当該方法は、分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るステップを含む。ここで、分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、マルチタスク学習ネットワークのトレーニング方法は、以下のステップ1~ステップ3を含む。
【0022】
ステップ1において、トレーニングデータセットを構築する。トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含む。
【0023】
ステップ2において、エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築する。
【0024】
ここで、エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、第1のデコーダは、エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、第2のデコーダは、エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、第1の分割画像は、3次元CT画像における第1の分割対象の領域を示すために用いられ、第2の分割画像は、3次元CT画像における第2の分割対象の領域を示すために用いられ、エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調し、エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行う。
【0025】
ステップ3において、トレーニングデータセットの各サンプルをマルチタスク学習ネットワークの入力とし、予測された第1の分割画像及び予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、マルチタスク学習ネットワーのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得る。
【0026】
当業者が本願の実施例により提供される技術的解決手段をよりよく理解するために、以下、指定臓器が肺で、第1の分割対象が肺葉で、第2の分割対象が肺実質であることを例として本願の実施例により提供される技術的解決手段について詳細に説明する。
【0027】
本願の一実施例では、上記マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法は具体的には、分割すべき3次元CT画像を分割モデルに入力し、予測された肺葉分割画像を得るステップを含む。
【0028】
ここで、前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成される。マルチタスク学習ネットワークは、マルチタスク学習フレームワークの下に構築されたネットワークであり、マルチタスク学習フレームワークは、入力データに基づいて類似及び関連するタスクを一緒に学習することができる。各タスクは、同じ基盤ネットワークを共有し、重みは、全ての機能に最適となるように学習される。胸部3次元CT画像は周辺臓器及び肺領域を含み、キー情報が肺に位置するため、肺葉分割の最初タスクは、肺実質分割である。上記特徴に基づき、本発明により構築されたマルチタスク学習ネットワークにおいて、メインタスクは肺葉分割であり、補助タスクは肺実質分割であり、補助タスクは、肺以外の領域を誤って肺葉領域として扱わないようにすることを目的とする。メインタスクと補助タスクは前後順序がなく、並行されている2つのタスクである。メインタスクと補助タスクは、トレーニングにより全ての機能が最適なモデルとなるように、互いに補完し合う。具体的には、トレーニングプロセスはステップS1~S3を含んでもよい。
【0029】
ステップS1において、トレーニングデータセットを構築し、前記トレーニングデータセットの各サンプルは3次元CT画像と、対応する肺葉ラベル及び肺実質ラベルと、を含む。
【0030】
CT画像は、3次元スキャン画像であり、複数枚の2次元画像の積み重ねで構成されると見られてもよく、ここでの2次元画像をスライスと定義することができる。CT画像において、単一のCTスライスは自然画像におけるグレースケール画像に類似し、シングルチャネル画像に属する。一般的に全てのCT画像における単一のスライスの画像サイズが一致し、例えばいずれも512*512であり、前処理によるトリミングを行う必要がない。異なるCT画像のスライス数に若干の差があるが、実験結果に大きな影響はない。対応する肺葉ラベル及び肺実質ラベルは肺葉マスク及び肺実質マスクである。画像分類データを格納するためのアノテーションファイルを確立し、また、必要に応じて一定の割合でトレーニングセットと検証セットを分けることができる。
【0031】
ステップS2において、エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築し、ここで、前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、第1のデコーダは、エンコーダにより抽出された特徴をデコードして予測された肺葉分割画像を取得するというメインタスクを完了するために用いられ、第2のデコーダは、エンコーダにより抽出された特徴をデコードして予測された肺実質分割画像を取得するという補助タスクを完了するために用いられる。
【0032】
図3に示すのはエンコーダ、第1のデコーダ及び第2のデコーダの接続構造の概略図であり、ここで、第1のデコーダ、第2のデコーダの入力端はいずれもエンコーダの出力端に接続され、エンコーダ及び第1のデコーダ、エンコーダ及び第2のデコーダはいずれもU-Net構造を採用してもよく、すなわち、U-Net完全畳み込みニューラルネットワークをメインタスク、補助タスクの2次元画像分類ネットワークとする。U-Net構造に基づいて、第1、第2のデコーダネットワークは、エンコーダネットワークから取得した表現に基づいて確立され、エンコーダネットワークの転置アーキテクチャを有する。図2に示すのはU-Net完全畳み込みニューラルネットワークの構造図であり、U-Netは圧縮経路(contracting path)及び拡張経路(expansive path)に分けられる。ここで、圧縮経路はエンコーダとし、拡張経路はデコーダとする。選択可能な形態として、図2及び図3に示される圧縮経路(エンコーダ)は4つのダウンサンプリングブロック(down-sampling block)からなり、各blockは複数の有効畳み込み(valid convolution)及び1つの最大プーリング層(Max Pooling Layer)を用い、有効畳み込みは、畳み込み層(Convolution Layer)、バッチ正規化層(Batch Normalization Layer)及びReLu(Rectified Linear Unit)関数からなる。あるblockは2つの有効畳み込みがあり、あるblockは3つの有効畳み込みがあり、毎回ダウンサンプリングした後に特徴マップ(Feature Map)の数は2倍になる。拡張経路(デコーダ)は4つのアップサンプリングブロック(up-sampling block)からなり、各アップサンプリングブロックは最大アンプーリング層(Max Unpooling Layer)及び複数の有効畳み込みを含む。アップサンプリングブロックは、アップサンプリングを開始する前に逆畳み込みによって特徴マップのサイズを2倍にすると共に、その個数を半分(最後のアップサンプリングブロックはわずかに異なる)にし、そして右側拡張経路のアップサンプリングブロックにより出力された特徴マップと対称な左側圧縮経路のダウンサンプリングブロックにより出力された特徴マップとを結合する。左側圧縮経路の特徴マップと右側拡張経路の特徴マップのサイズが異なるため、U-Netは、圧縮経路の特徴マップを拡張経路の特徴マップと同じサイズになるように切り出して正規化を行い(すなわち図2における黒い矢印部分)、これは連結(concatenation)操作と呼ばれる。最後のアップサンプリングブロックは、SoftMax関数を用いて、入力されたCT画像に等しい次元の空間解像度を出力し、チャネル数は分割クラスの数に等しい。補助タスクの最後のアップサンプリングブロックは、肺及び非肺である2つのチャネルからなる。メインタスクの最後のアップサンプリングブロックは、5つの肺葉及び背景である6つのチャネルからなる。
【0033】
本発明の実施例では、エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュール(Channel Attention Module)が挿入されることにより、当該チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調する。畳み込みネットワーク内にアテンション機構(Attention Mechanism)を加えることで、どの情報が重要、どの情報が副次的であるかを分析し、重要情報の重みを高め、副次情報の重みを減らすようにそれらの情報に重みを割り当てる(スコアリングとも呼ばれる)ようにネットワークを導くことができる。SE(Squeeze-and-Excitation)アテンション機構は、チャネル間の依存性をモデリングすることによってネットワークのチャネル情報表現能力を向上させ、ネットワークがグローバル情報を学習することにより有用な情報を含む特徴を選択的に強調して不要な特徴を抑制するように、特徴をチャネルごとに調整することができる。例として、チャネルアテンションモジュールをエンコーダ、デコーダの各ブロック内に挿入することにより、各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調する。選択可能な実施形態として、前記チャネルアテンションモジュールの構造はSE blockと類似し、SE blockの2つの全結合層の中間に1つの1D畳み込み層を追加してチャネル情報に対するモデリング能力を強化し、且つSE blockにおける全結合層を2D畳み込み層に置き替える。すなわち、前記チャネルアテンションモジュールは、順次接続されるプーリング層、第1の2D畳み込み層、1D畳み込み層、第2の2D畳み込み層及び活性化関数層を含む。前記チャネルアテンションモジュールの入力画像の特徴マップXはX∈RN×C×H×Wとして与えられ、ここで、Nはバッチサイズであり、Cはチャネル数であり、H、Wはそれぞれ入力画像の高さ及び幅であり、RN×C×H×WはN×C×H×W次元の実数ベクトル空間を示す。まず、プーリング層を用いてグローバル空間情報を取得し、Xをプーリング層に入力した後の出力Xを得る。
【数3】
【0034】
ここで、i、jは高さ及び幅のインデックスを示し、Avgpool()は平均プーリング操作を示す。そして、Xのチャネル数を圧縮し、畳み込みカーネルが1×1の第1の2D畳み込み層Kを用いてXに対して比例rに応じてチャネル数を圧縮し、且つ要素再配列(Reshape)操作を用いて再整理することにより、Xを第1の2D畳み込み層Kに入力した後の出力Xを得る。
【数4】
【0035】
Reshape()は要素再配列操作を示す。チャネル情報に対するモデリング能力を強化するために、Xを畳み込みカーネルが3の1D畳み込み層Kに送り込み、そしてReshape操作を用いてサイズを復元し、Xを1D畳み込み層Kに入力した後の出力Xを得る。
【数5】
【0036】
を畳み込みカーネルが1×1の第2の2D畳み込み層K及びSigmoid活性化関数層に送り込んで特徴チャネルの重みXを得る。
=δ(K*X),X∈RN×C×1×1
ここで、δはSigmoid関数を示す。
【0037】
最後に上記ステップをモデリングして得られたチャネル間の依存性に対して、有用な情報を含む特徴を選択的に強調して不要な特徴を抑制し、チャネルアテンションモジュールの出力Xを得る。
【数6】
は、否定排他的論理和(Exclusive NOR)演算を示す。
【0038】
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行う。画像処理の分野において、画像鮮鋭化は一般的なエッジ情報の強調方法であり、画像における物体のエッジ詳細を強調するために用いられる。画像の鮮鋭化方法を空間アテンションモジュールに導入すること、すなわち鮮鋭化空間アテンションは、中間特徴マップにおける検出対象のエッジ情報を強調することを目的とする。好ましくは、エンコーダの各ダウンサンプリングブロック内に鮮鋭化空間アテンションモジュールを挿入し、目標物体に対するネットワークの空間位置決め能力を全面的に強化し、検出対象のエッジ情報を強調する。図4に示すのは鮮鋭化空間アテンションモジュールの構造概略図であり、前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、具体的には以下のとおりである。
【0039】
平均プーリング層及び最大プーリング層は前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれ処理抽出して2チャネル特徴マップを得、すなわち、空間次元において十分な特徴情報を取得するために、平均プーリングと最大プーリングを結合する。続いて鮮鋭化フィルタモジュールは、平均プーリングと最大プーリング方法により得られた2チャネル特徴マップに対して画像鮮鋭化処理を行い、このプロセスでは、該2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために、エッジ検出オペレータを導入する必要がある。そして1×2×1×1の畳み込みカーネルを用いて鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合して出力し、1×2×1×1は畳み込みカーネルの数×畳み込みカーネルのチャネル×畳み込みカーネルの幅×畳み込みカーネルの高さを示す。さらにSigmoid関数によって出力境界を制限し、特徴重みを得、空間次元において当該特徴重みと元の特徴マップ(すなわち鮮鋭化空間アテンションモジュールの入力特徴マップ)とを要素ごとに乗算し、特徴エッジの重みを高め、鮮鋭化空間アテンションモジュールにより処理された特徴マップを得る。
【0040】
鮮鋭化空間アテンションモジュールの式は、以下で表される。
【数7】
ここで、M(I)は鮮鋭化空間アテンションモジュールの出力を示し、δはsigmoid活性化関数を示し、Avgpool( )は平均プーリング操作を示し、Maxpool( )は最大プーリング操作を示し、fn×nはフィルタサイズがn×nの鮮鋭化フィルタリング方法を示し、W1×1は1つの畳み込みカーネルが1×2×1×1の畳み込み層を示し、ここで、フィルタのサイズと数は鮮鋭化フィルタリング方法により決定されてもよく、Iは鮮鋭化空間アテンションモジュールの入力を示し、当該モジュールが挿入されたダウンサンプリングブロックの前のダウンサンプリングブロックの出力である。
【0041】
ステップS3において、トレーニングデータセットの各サンプルをマルチタスク学習ネットワークの入力とし、予測された肺葉分割画像及び予測された肺実質分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得る。
【0042】
上記ステップS3により、マルチタスク学習ネットワークは肺葉分割タスク及び肺実質分割タスクを同時に実行することができ、異なるタスク間の重みを適応的に調整し、マルチタスク学習ネットワークのパラメータをトレーニングして最適化し、最終的により高い効果の肺葉分割画像を得ることができる。
【0043】
マルチタスク学習ネットワークは、主に正則化フレームワークに基づいて構築され、その目的関数は、
【数8】
であり、ここで、mは前記マルチタスク学習ネットワークのタスク数であり、nはトレーニングサンプルの個数であり、xijはタスクiのサンプルjの3次元CT画像(初期値)を示し、yijはタスクiのサンプルjのラベルであり、l(.,.)は損失関数であり、b=(b,…bはm個のタスクのオフセット補償を示し、U∈Rd×dはi個のタスクの重みパラメータを含み、パラメータ次元はdであり、||A|| 2,1はL2正則化行列であり、aはタスクiの重みパラメータを示し、Iは単位行列であり、λは正則化パラメータであり、s.t.は「subject to」の略語で、「・・・という制約のもとで」を意味する。示される式の前半部分
【数9】
はi個のタスクの全ての損失を示し、後半部分λ||A|| 2,1はL2正則化を用いて、解の行スパース及び制約行列Uの直交化を確保し、上記式は、
【数10】
で示され、ここで、
【数11】
は前式の前半部分であり、tr(.)は行列の跡であり、W=Uaはタスクiの重みパラメータであり、D≧0はD行列が半正定値行列であることを規定する。共分散行列Dを解くことにより、マルチタスク学習ネットワークのマルチタスク問題をデカップリングし、並列計算の目的を達成し、すなわちマルチタスク学習ネットワークに対する最適化である。
【0044】
さらに、マルチタスク学習ネットワークにおけるメインタスクのトレーニングは、敵対的生成の方式でトレーニングされ、すなわち、マルチタスク学習ネットワークはさらに、識別器を含み、前記識別器はエンコーダ及び第1のデコーダで構成された生成器と共に敵対的生成ネットワークモデルを構成し、予測された肺葉分割画像と肺葉ラベルとの損失関数を構築して前記敵対的生成ネットワークモデルをトレーニングすることで、マルチタスク学習ネットワークのパラメータを最適化する。当該技術的解決手段は、敵対的生成ネットワークモデル、アテンション機構を統合したマルチタスク学習肺葉分割方法であり、エンドツーエンドの分割ネットワークU-Netを用いて敵対的生成ネットワークモデルにおける生成器を構築し、識別器と共に敵対的生成ネットワークモデルを構成してさらに全体性能を向上させる。図1に示すのは本発明の敵対的生成ネットワーク(GAN)モデルに基づく肺葉分割ネットワークの構造図である。まず、敵対的生成ネットワークモデルは主に、生成器G及び識別器Dである2つのネットワークで構成あれ、生成器Gの主旨は1つのノイズを1つの真のサンプルにパッケージングすることであり、識別器Dは、送り込まれたサンプルが真のサンプルであるか偽のサンプルであるかを判断する必要があり、すなわち、共同進行のプロセスである。識別器Dによるサンプルに対する判別能力が上昇し続け、生成器Gの偽造能力も上昇し続ける。敵対的生成ネットワークモデルの最適化はミニマックスのゲームであり、最終的な目的は、生成器の出力が識別器に与えられた時に、真か偽かの判断を困難にし、すなわち識別器Dの判断能力を最大化し、出力が偽であると識別器Dが判断する確率を最小化することである。
【0045】
例として、肺葉分割方法において、まず生成器ネットワークにより肺葉マスクを予測し、さらに識別器により入力サンプルの真偽を判断し、すなわち、入力が真のサンプルからのものか、又は生成器ネットワークからのものかの確率を出力する。識別器ネットワークは入力が真のサンプルであるか否かをよく識別することができる場合、どのような入力がより真のサンプルに類似するかを勾配の方式で説明することができるため、この情報に基づいて生成器ネットワークを調整する。したがって、生成器は、できるだけ自分の出力を真のサンプルに類似させる必要があり、一方、識別器は、真のサンプルでない場合をできるだけ識別する。このように肺葉分割ネットワークの性能を最適化し、精度のより高い肺葉マスクを生成する。また、チャネルアテンションモジュール及び鮮鋭化空間アテンションモジュールとU-Netとの結合は、肺葉分割ネットワークによるチャネル情報に対するモデリング能力を強化すると共に、エッジ情報を強調させ、重要な特徴に対する学習を強調し及び重要でない特徴に対する学習を弱める。さらに、従来の肺葉分割に用いられる多段階方法による分割モデルの配置コスト及びネットワークトレーニングの操作複雑度が高くなるという問題を解決するために、マルチタスク学習を採用することで、一方では、全体ネットワークフレームをより一体化させ、操作の複雑度を低下させる。他方では、分割領域を肺実質領域に特定することができ、肺葉分割時に肺以外の領域を肺葉として誤って分割する可能性を低減させる。
【0046】
本発明では、CT画像は、生成器ネットワークを経由して1枚の予測画像として生成され、さらに、識別器は、生成された予測画像が真の画像であるか否かを判断する。モデルを継続的にトレーニングすることにより、生成器を段階的に最適化して真のラベルにより近い予測画像を生成する。ここで、バイナリ交差エントロピー(Binary Cross-Entropy、BCE)損失を添加することによって生成器Gの損失を修正することができ、当該損失は生成器Gにより生成された予測肺マスクとグランドトゥルース(ground-truth)肺マスクとの間の交差エントロピーを計算する。生成器の損失は以下で表される。
loss=BCE[G(x),Real]-Ex~pz[D(x)]
ここで、pは生成器Gがグランドトゥルースマスク(ground-truth mask)から学習した分布である。BCE[G(x),Real]は生成器Gにより出力された予測画像G(x)と真の画像Realとの間のバイナリ交差エントロピー損失を示し、D(x)は識別器の出力を示し、Eは期待を示す。識別器Dのトレーニング損失については、識別器ネットワークの異なる設計は、異なるトレーニング損失関数を有する可能性がある。WGAN(Wasserstein GAN)に基づいて、識別器は、EM距離(Earth mover’s distance)を選択して、生成された予測肺葉分割画像と真のラベル画像との間の差異を評価し、2つの分布間の距離を最小化することができる。識別器Dのトレーニング損失は、以下で表される。
Loss= Ex~pz[D(G(x))]-Ex~preal[D(x)]
realは真の肺葉ラベルの分布である。
【0047】
元のサンプル画像も付加情報として提供される場合、識別器ネットワークはより正確に評価する可能性がある。
【0048】
上記実施例では、本発明は、操作が簡単なマルチタスク学習ネットワークを構築し、このネットワークは、肺葉分割タスク及び肺実質分割タスクを同時に学習し、タスクの重みを適応的に調整して肺葉分割時に肺以外の領域を誤って分割する可能性を低減し、ネットワーク全体の構造を最適化し、分割効果に優れた分割モデルを取得することができる。本発明は、U-Net内にチャネルアテンションモジュール及び鮮鋭化空間アテンションモジュールを挿入することにより、生成器ネットワークの空間情報モデリング能力を向上させてより重要なチャネル情報を取得し、エッジ情報を強調させることができる。さらに、有効な画像コーデック作業を完了するために、コンテキスト空間情報をより良く取得することができる。本発明は、ニューラルネットワークを効果的に用いてマルチタスクの間の共有特徴を学習することができ、より全面的な特徴を抽出することが期待でき、メインタスク肺葉分割ネットワークの性能を強化し、実際に使用する時にディープネットワークの複雑度を増加することなく、ディープネットワークの肺葉に対する分割能力を向上させる。
【0049】
前述のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法の実施例に対応して、本発明はさらにマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムの実施例を提供する。
【0050】
図5を参照し、本発明の実施例により提供されるマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムは、データ取得モジュールと、分割モジュールと、トレーニングモジュール(図示せず)と、を含む。
データ取得モジュールは、分割すべき3次元CT画像を取得するために用いられ、
分割モジュールは、分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るために用いられ、
トレーニングモジュールは、マルチタスク学習ネットワークをトレーニングするために用いられる。
【0051】
本発明のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムの実施例は、コンピュータなどの機器又は装置のようないずれかのデータ処理能力を備える機器に適用されてもよい。システムの実施例については、基本的に方法の実施例に対応するため、関連する部分は方法の実施例の部分の説明を参照すればよい。以上に説明したシステムの実施例は単に例示的なものであり、そのうち前記分離コンポーネントとして説明したユニットは物理的に分離してもよく又はそうでなくてもよく、ユニットとして表示されたコンポーネントは物理的ユニットであってもよく又はそうでなくてもよく、すなわち1箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際の必要に応じてそのうちの一部又は全部のユニットを選択して本発明の解決手段の目的を実現することができる。当業者は創造的な労働をかけることなく、理解して実施することができる。
【0052】
本発明の実施例はさらに1つ又は複数のプロセッサを含む電子機器を提供し、上記実施例のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を実施するために用いられる。
【0053】
図6に示すのは、本発明の電子機器のハードウェア構造図であり、図6に示すプロセッサ、内部メモリ、ネットワークインタフェース、及び不揮発性メモリ以外に、本発明の機器は通常当該いずれかのデータ処理能力を備える機器の実際の機能に基づき、さらに他のハードウェアを含んでもよく、これについて説明を省略する。
【0054】
本発明の実施例はさらにプログラムが格納されたコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサに実行されると、上記実施例のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法が実施される。
【0055】
前記コンピュータ読み取り可能な記憶媒体は、ハードディスクや内部メモリなど前記いずれかの実施例に記載のいずれかのデータ処理能力を備える機器の内部記憶ユニットであってもよい。前記コンピュータ読み取り可能な記憶媒体は、前記機器に備えられたプラグイン型ハードディスク、スマートメモリカード(SmartMedia(登録商標) Card、SMC)、SDカード、フラッシュメモリカード(Flash Card)などのいずれかのデータ処理能力を備える機器であってもよい。さらに、前記コンピュータ読み取り可能な記憶媒体はさらにいずれかのデータ処理能力を備える機器の内部記憶ユニット及び外部記憶機器を含んでもよい。前記コンピュータ読み取り可能な記憶媒体はコンピュータプログラム及び前記いずれかのデータ処理能力を備える機器に必要な他のプログラム及びデータを記憶するために用いられ、また既に出力され又は出力しようとするデータを一時的に記憶するために用いられてもよい。
【0056】
上記実施例は本発明を限定するものではなく、本発明は上記実施例に限定されるものではなく、本発明の要求に合致すれば、いずれも本発明の保護範囲に属する。
【0057】
本明細書で詳細に説明していない事項は、当業者にとって公知の従来技術である。
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2024-01-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法であって、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るステップを含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、前記マルチタスク学習ネットワークのトレーニング方法は、
トレーニングデータセットを構築するステップであって、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含むステップと、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築するステップであって、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強調し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行うステップと、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るステップと、を含み、
前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、前記平均プーリング層及び前記最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられる、
ことを特徴とするマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法。
【請求項2】
前記チャネルアテンションモジュールは、順次接続されるプーリング層、第1の2D畳み込み層、1D畳み込み層、第2の2D畳み込み層及び活性化関数層を含み、
ここで、前記プーリング層は、入力画像のグローバル空間情報を取得するために用いられ、前記第1の2D畳み込み層は、前記プーリング層により取得されたグローバル空間情報に対してチャネル数を圧縮するために用いられ、前記1D畳み込み層は、前記第1の2D畳み込み層により出力された、チャネル数が圧縮されたグローバル空間情報に対して畳み込みを行い、チャネル情報のモデリング能力を強化するために用いられ、前記第2の2D畳み込み層は、前記1D畳み込み層の出力に対して畳み込みを行うために用いられ、前記活性化関数層は、前記第2の2D畳み込み層の出力をマッピングして特徴チャネルの重みを得、特徴チャネルの重みに基づいて、前記チャネルアテンションモジュールの入力画像に対して有用な情報を含む特徴を選択的に強調して不要な特徴を抑制し、前記チャネルアテンションモジュールの出力を得るために用いられる、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記予測された第1の分割画像及び予測された第2の分割画像とラベルとの誤差を最小化することを目標とする目的関数は、
【数1】
であり、ここで、
【数2】
であり、mは、前記マルチタスク学習ネットワークのタスク数であり、第1のデコーダがエンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するメインタスクと、第2のデコーダがエンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得する補助タスクと、を含み、nは、トレーニングサンプルの個数であり、xijは、タスクiのサンプルjの3次元CT画像を示し、yijは、タスクiのサンプルjのラベルであり、l(.,.)は損失関数であり、b=(b,…bは、m個のタスクのオフセット補償を示し、λは正則化パラメータであり、tr(.)は行列の跡であり、Wはタスクiの重みパラメータであり、D行列は半正定値行列である、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記マルチタスク学習ネットワークはさらに識別器を含み、前記識別器は、前記エンコーダ及び前記第1のデコーダで構成される生成器と共に敵対的生成ネットワークモデルを構成し、前記敵対的生成ネットワークモデルは、予測された第1の分割画像と第1のラベルとの損失関数を構築することにより、マルチタスク学習ネットワークのパラメータを最適化するようにトレーニングされる、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記予測された第1の分割画像と第1のラベルとの損失関数は、
前記識別器の損失関数及び前記生成器の損失関数を含み、ここで、前記識別器の損失関数は、前記生成器により出力された予測された第1の分割画像の分布pと第1のラベルの分布prealとの差異を測るEM距離を用い、前記生成器の損失関数はloss=BCE[G(x),Real]-Ex~pz[D(x)]で示され、
ここで、BCE[G(x),Real]は、前記生成器Gにより出力された予測された第1の分割画像G(x)と第1のラベルRealとの間のバイナリ交差エントロピー損失を示し、D(x)は識別器の出力を示し、Eは期待を示し、xは3次元CT画像を示す、
ことを特徴とする請求項に記載の方法。
【請求項6】
前記指定臓器は肺であり、前記第1の分割対象は肺葉であり、前記第2の分割対象は肺実質である、
ことを特徴とする請求項1に記載の方法。
【請求項7】
マルチタスク学習ネットワークにおけるアテンションを結合する画像分割システムであって、
分割すべき3次元CT画像を取得するためのデータ取得モジュールと、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るための分割モジュールと、
前記マルチタスク学習ネットワークをトレーニングするためのトレーニングモジュールと、を含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークにおけるエンコーダと第1のデコーダとから構成され、
前記トレーニングモジュールは、
トレーニングデータセットを構築し、ここで、前記トレーニングデータセットの各サンプルは、指定臓器を含む3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含み、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築し、ここで、
前記エンコーダは、入力された3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って重要な特徴を強化し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行い、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、前記予測された第1の分割画像及び前記予測された第2の分割画像とラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニングされたマルチタスク学習ネットワークを得るために用いられ
前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、前記平均プーリング層及び前記最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップを1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられる、
ことを特徴とするマルチタスク学習ネットワークにおけるアテンションを結合する画像分割システム。
【請求項8】
電子機器であって、メモリと、プロセッサと、メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムとを含み、前記プロセッサは、前記コンピュータプログラムを実行するとき、請求項1~のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を実施する、
ことを特徴とする電子機器。
【請求項9】
コンピュータ実行可能なコマンドを含む記憶媒体であって、前記コンピュータ実行可能なコマンドは、コンピュータプロセッサによって実行されるとき、請求項1~のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法が実施される、
ことを特徴とする記憶媒体。
【手続補正書】
【提出日】2024-06-27
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチタスク学習ネットワークにおける像分割方法であって、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るステップを含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークから得られ、前記マルチタスク学習ネットワークのトレーニング方法は、
トレーニングデータセットを構築するステップであって、前記トレーニングデータセットの各サンプルは、指定臓器を含むサンプル3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含み、前記第1のラベル及び前記第2のラベルは予め付与されており、前記第1のラベルは、前記サンプル3次元CT画像における画素の分割結果が前記第1の分割対象であることを示すために用いられ、前記第2のラベルは、前記サンプル3次元CT画像における画素の分割結果が前記第2の分割対象であることを示すために用いられる、ステップと、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築するステップであって、
前記エンコーダは、入力された前記サンプル3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記サンプル3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記サンプル3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って前記チャネルアテンションモジュールの入力画像における有用な情報を含む特徴を強調し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行うステップと、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、測された前記第1の分割画像と前記第1のラベルとの誤差、及び測された前記第2の分割画像と前記第2のラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニング済みの前記マルチタスク学習ネットワークを得るステップと、を含み、
前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、前記平均プーリング層及び前記最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記2チャネル特徴マップのうち、一方のチャネルは、前記鮮鋭化空間アテンションモジュールの入力特徴マップが前記平均プーリング層により処理された後に得られる特徴マップであり、他方のチャネルは、前記鮮鋭化空間アテンションモジュールの入力特徴マップが前記最大プーリング層により処理された後に得られる特徴マップであり、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップのチャネル数を減らして1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられ、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算することは、前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとが同じサイズであり、同じ位置の値が直接乗算されることを意味し
ここで、トレーニング済みの前記マルチタスク学習ネットワークからトレーニング済みの前記エンコーダ及び前記第1のデコーダを抽出し、トレーニング済みの前記エンコーダ及び前記第1のデコーダに基づいて前記分割モデルを構築することによって、前記事前トレーニングされたマルチタスク学習ネットワークから前記分割モデルを得る、
ことを特徴とするマルチタスク学習ネットワークにおける像分割方法。
【請求項2】
前記チャネルアテンションモジュールは、順次接続されるプーリング層、第1の2D畳み込み層、1D畳み込み層、第2の2D畳み込み層及び活性化関数層を含み、
ここで、前記プーリング層は、入力画像のグローバル空間情報を取得するために用いられ、前記第1の2D畳み込み層は、前記プーリング層により取得されたグローバル空間情報に対してチャネル数を圧縮するために用いられ、前記1D畳み込み層は、前記第1の2D畳み込み層により出力された、チャネル数が圧縮されたグローバル空間情報に対して畳み込みを行い、チャネル情報のモデリング能力を強化するために用いられ、前記第2の2D畳み込み層は、前記1D畳み込み層の出力に対して畳み込みを行うために用いられ、前記活性化関数層は、前記第2の2D畳み込み層の出力をマッピングして特徴チャネルの重みを得、特徴チャネルの重みに基づいて、前記チャネルアテンションモジュールの入力画像に対して有用な情報を含む特徴を選択的に強調して不要な特徴を抑制し、前記チャネルアテンションモジュールの出力を得るために用いられる、
ことを特徴とする請求項1に記載の方法。
【請求項3】
測された前記第1の分割画像と前記第1のラベルとの誤差、及び予測された前記第2の分割画像と前記第2のラベルとの誤差を最小化することを目標とする目的関数は、
【数1】
であり、ここで、
【数2】
であり、mは、前記マルチタスク学習ネットワークのタスク数であり、前記第1のデコーダが前記エンコーダにより抽出された特徴をデコードして予測された前記第1の分割画像を取得するメインタスクと、前記第2のデコーダが前記エンコーダにより抽出された特徴をデコードして予測された前記第2の分割画像を取得する補助タスクと、を含み、nは、トレーニングサンプルの個数であり、xijは、タスクiのサンプルjの前記サンプル3次元CT画像を示し、yijは、タスクiのサンプルjのラベルであり、l(.,.)は損失関数であり、b=(b,…bは、m個のタスクのオフセット補償を示し、λは正則化パラメータであり、tr(.)は行列の跡であり、Wはタスクiの重みパラメータであり、D行列は半正定値行列である、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記マルチタスク学習ネットワークはさらに識別器を含み、前記識別器は、前記エンコーダ及び前記第1のデコーダで構成される生成器と共に敵対的生成ネットワークモデルを構成し、前記敵対的生成ネットワークモデルは、予測された前記第1の分割画像と前記第1のラベルとの損失関数を構築することにより、マルチタスク学習ネットワークのパラメータを最適化するようにトレーニングされる、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記予測された前記第1の分割画像と前記第1のラベルとの損失関数は、
前記識別器の損失関数及び前記生成器の損失関数を含み、ここで、前記識別器の損失関数は、前記生成器により出力された予測された前記第1の分割画像の分布pと第1のラベルの分布prealとの差異を測るEM距離を用い、前記生成器の損失関数はloss=BCE[G(x),Real]-Ex~pz[D(x)]で示され、
ここで、BCE[G(x),Real]は、前記生成器により出力された予測された前記第1の分割画像G(x)前記第1のラベルRealとの間のバイナリ交差エントロピー損失を示し、D(x)は識別器の出力を示し、Eは期待を示し、xは前記サンプル3次元CT画像を示す、
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記指定臓器は肺であり、前記第1の分割対象は肺葉であり、前記第2の分割対象は肺実質である、
ことを特徴とする請求項1に記載の方法。
【請求項7】
マルチタスク学習ネットワークにおける像分割システムであって、
分割すべき3次元CT画像を取得するためのデータ取得モジュールと、
分割すべき3次元CT画像を分割モデルに入力し、予測された分割画像を得るための分割モジュールと、
前記マルチタスク学習ネットワークをトレーニングするためのトレーニングモジュールと、を含み、
前記分割モデルは、事前トレーニングされたマルチタスク学習ネットワークから得られ
前記トレーニングモジュールは、
トレーニングデータセットを構築し、ここで、前記トレーニングデータセットの各サンプルは、指定臓器を含むサンプル3次元CT画像と、前記指定臓器における第1の分割対象及び第2の分割対象にそれぞれ対応する第1のラベル及び第2のラベルと、を含み、前記第1のラベル及び前記第2のラベルは予め付与されており、前記第1のラベルは、前記サンプル3次元CT画像における画素の分割結果が前記第1の分割対象であることを示すために用いられ、前記第2のラベルは、前記サンプル3次元CT画像における画素の分割結果が前記第2の分割対象であることを示すために用いられ、
エンコーダ、第1のデコーダ及び第2のデコーダを含むマルチタスク学習ネットワークを構築し、ここで、
前記エンコーダは、入力された前記サンプル3次元CT画像に対して特徴抽出を行うために用いられ、前記第1のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第1の分割画像を取得するために用いられ、前記第2のデコーダは、前記エンコーダにより抽出された特徴をデコードして予測された第2の分割画像を取得するために用いられ、前記第1の分割画像は、前記サンプル3次元CT画像における前記第1の分割対象の領域を示すために用いられ、前記第2の分割画像は、前記サンプル3次元CT画像における前記第2の分割対象の領域を示すために用いられ、
前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ、及び/又は、前記第1のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ、前記第2のデコーダの複数のアップサンプリングブロックのうちの少なくとも1つ内にチャネルアテンションモジュールが挿入されることにより、前記チャネルアテンションモジュールを持つ各ブロックは、畳み込み操作前にチャネル情報のモデリングを行って前記チャネルアテンションモジュールの入力画像における有用な情報を含む特徴を強化し、前記エンコーダの複数のダウンサンプリングブロックのうちの少なくとも1つ内に鮮鋭化空間アテンションモジュールが挿入されることにより、前記鮮鋭化空間アテンションモジュールを持つ各ダウンサンプリングブロックは、出力前に出力画像に対して画像鮮鋭化処理を行い、
前記トレーニングデータセットの各サンプルを前記マルチタスク学習ネットワークの入力とし、測された前記第1の分割画像と前記第1のラベルとの誤差、及び測された前記第2の分割画像と前記第2のラベルとの誤差を最小化することを目標としてトレーニングを行い、前記マルチタスク学習ネットワークのパラメータを最適化し、トレーニング済みの前記マルチタスク学習ネットワークを得るために用いられ、
前記鮮鋭化空間アテンションモジュールは平均プーリング層、最大プーリング層、鮮鋭化フィルタモジュール、畳み込みカーネル及び活性化関数層を含み、ここで、前記平均プーリング層及び前記最大プーリング層は、前記鮮鋭化空間アテンションモジュールの入力特徴マップをそれぞれプーリングし、プーリングして得られた特徴マップを連結して2チャネル特徴マップを得るために用いられ、前記2チャネル特徴マップのうち、一方のチャネルは、前記鮮鋭化空間アテンションモジュールの入力特徴マップが前記平均プーリング層により処理された後に得られる特徴マップであり、他方のチャネルは、前記鮮鋭化空間アテンションモジュールの入力特徴マップが前記最大プーリング層により処理された後に得られる特徴マップであり、前記鮮鋭化フィルタモジュールは、前記2チャネル特徴マップに対して画像鮮鋭化処理を行うことにより、前記2チャネル特徴マップの特徴エッジ情報を鮮鋭化するために用いられ、前記畳み込みカーネルは、鮮鋭化された2チャネル特徴マップのチャネル数を減らして1層の特徴マップに併合するために用いられ、前記活性化関数層は、併合された1層の特徴マップをマッピングして特徴重みを得、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算して前記鮮鋭化空間アテンションモジュールの出力を得るために用いられ、空間次元において前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとを要素ごとに乗算することは、前記特徴重みと前記鮮鋭化空間アテンションモジュールの入力特徴マップとが同じサイズであり、同じ位置の値が直接乗算されることを意味し
ここで、前記分割モジュールは、トレーニング済みの前記マルチタスク学習ネットワークからトレーニング済みの前記エンコーダ及び前記第1のデコーダを抽出し、トレーニング済みの前記エンコーダ及び前記第1のデコーダに基づいて前記分割モデルを構築することによって、前記事前トレーニングされたマルチタスク学習ネットワークから前記分割モデルを得る、
ことを特徴とするマルチタスク学習ネットワークにおける像分割システム。
【請求項8】
電子機器であって、メモリと、プロセッサと、メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムとを含み、前記プロセッサは、前記コンピュータプログラムを実行するとき、請求項1~6のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法を実施する、
ことを特徴とする電子機器。
【請求項9】
コンピュータ実行可能なコマンドを含む記憶媒体であって、前記コンピュータ実行可能なコマンドは、コンピュータプロセッサによって実行されるとき、請求項1~6のいずれか一項に記載のマルチタスク学習ネットワークにおけるアテンションを結合する画像分割方法が実施される、
ことを特徴とする記憶媒体。