IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イマゴワークス インコーポレイテッドの特許一覧

特許7557908ディープラーニングを用いたCT画像の顎顔面骨自動分割方法
<>
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図1
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図2
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図3
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図4
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図5
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図6
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図7
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図8
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図9a
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図9b
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図10a
  • 特許-ディープラーニングを用いたCT画像の顎顔面骨自動分割方法 図10b
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-19
(45)【発行日】2024-09-30
(54)【発明の名称】ディープラーニングを用いたCT画像の顎顔面骨自動分割方法
(51)【国際特許分類】
   A61B 6/03 20060101AFI20240920BHJP
   A61B 6/50 20240101ALI20240920BHJP
   G06T 7/00 20170101ALI20240920BHJP
   G06T 7/11 20170101ALI20240920BHJP
【FI】
A61B6/03 560J
A61B6/50 500D
G06T7/00 350C
G06T7/11
【請求項の数】 13
(21)【出願番号】P 2023540085
(86)(22)【出願日】2021-01-07
(65)【公表番号】
(43)【公表日】2024-01-12
(86)【国際出願番号】 KR2021000179
(87)【国際公開番号】W WO2022145557
(87)【国際公開日】2022-07-07
【審査請求日】2023-07-31
(31)【優先権主張番号】10-2020-0188575
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年2月1日に高麗大学 大学院修士論文として公開
(73)【特許権者】
【識別番号】523055651
【氏名又は名称】イマゴワークス インコーポレイテッド
【氏名又は名称原語表記】IMAGOWORKS INC.
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】パク、スンビン
(72)【発明者】
【氏名】シム、ウン ジュン
(72)【発明者】
【氏名】キム、ヨンジュン
【審査官】佐藤 賢斗
(56)【参考文献】
【文献】特表2019-531783(JP,A)
【文献】特開2005-169120(JP,A)
【文献】国際公開第2019/002631(WO,A1)
【文献】韓国公開特許第10-2016-0060574(KR,A)
【文献】国際公開第2020/246996(WO,A1)
【文献】中国特許出願公開第110738661(CN,A)
【文献】Bingjiang Qiu et al.,Automatic segmentation of the mandible from computed tomography scans for 3D virtual surgical planning using the convolutional neural network,Physics in Medicine & Biology,Institute of Physics and Engineering in Medicine,2019年09月05日,Vol. 64, No. 17, Article 175020,pp. 1-13,DOI: 10.1088/1361-6560/ab2c95
(58)【調査した分野】(Int.Cl.,DB名)
A61B 6/00 - 6/58
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
顎顔面骨を含むCT画像の入力CTスライスを受信するステップと、
前記入力CTスライスを同一のレイヤ内で互いに異なる第1の演算及び第2の演算を含むエンコーダと、同一のレイヤ内で互いに異なる第3の演算及び第4の演算を含むデコーダとを含む畳み込みニューラルネットワーク構造を用いて、前記CT画像を、下顎骨、及び前記顎顔面骨から前記下顎骨を除いた顎顔面骨でセグメンテーションするステップと、
前記畳み込みニューラルネットワーク構造の出力である2次元セグメンテーション結果を累積して、3次元セグメンテーション結果に再建するステップと、を含み、
前記エンコーダは、同一のレイヤ内で、前の特性マップを現在の特性マップに合算する第1のスキップ接続を含み、
前記第1のスキップ接続直後の畳み込み演算の結果で特性マップのサイズは、同一であり、チャンネル数は、2倍に増加する、
ディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項2】
前記入力CTスライスは、目標スライスと、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含むことを特徴とする、
請求項1に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項3】
前記2次元セグメンテーション結果は、前記目標スライスのようなサイズを有する3つのチャンネルを含むことを特徴とする、
請求項に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項4】
前記2次元セグメンテーション結果は、空いている空間を表す第1のクラスと、前記顎顔面骨から前記下顎骨を除いた顎顔面骨を表す第2のクラスと、前記下顎骨を表す第3のクラスとを含むことを特徴とする、
請求項3に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項5】
前記第1の演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、
前記第2の演算は、1*1畳み込み演算+Leaky ReLuであることを特徴とする、
請求項1に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項6】
前記第3の演算は、1*1畳み込み演算であり、前記第4の演算は、前記3*3畳み込み演算+Leaky ReLu+Batch normalizationであることを特徴とする、
請求項5に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項7】
前記エンコーダのレイヤは、前記第1の演算を複数個含み、前記第2の演算を1つ含み、
前記エンコーダの前記レイヤ内で前記第1の演算が、前記第2の演算に先立って行われることを特徴とする、
請求項5に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項8】
前記デコーダのレイヤは、前記第3の演算を1つ含み、前記第4の演算を複数含み、
前記デコーダの前記レイヤ内で前記第3の演算が、前記第4の演算に先立って行われることを特徴とする、
請求項6に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項9】
前記デコーダは、同一のレイヤ内で前の特性マップを、現在の特性マップに合算する第2のスキップ接続を含み、
前記スキップ接続直後には、前記デコーダの上位レイヤに移動するアップスケーリング演算が行われることを特徴とする、
請求項に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項10】
前記デコーダは、前記アップスケーリング演算直後、前記エンコーダの同一のレイヤから受信した結合特性マップと、前記アップスケーリングされたアップスケール特性マップとを結合演算することを特徴とする、
請求項に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項11】
前記デコーダの前記結合演算直後の畳み込み演算の結果で前記特性マップのサイズは、同一であり、チャンネル数は、1/2倍に減少することを特徴とする、
請求項1に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項12】
前記畳み込みニューラルネットワーク構造の損失関数は、

であり、
Nは、1バッチ(Batch)内の画素数であり、

は、クラス1である確率マップ、

は、正解の画素値であることを特徴とする、
請求項1に記載のディープラーニングを用いたCT画像の顎顔面骨自動分割方法。
【請求項13】
請求項1乃至1のいずれか一項に記載の方法を、コンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディープラーニングを用いたCT画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関し、より詳しくは、顎顔面骨を含むCT画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる、ディープラーニングを用いたCT画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関する。
【背景技術】
【0002】
頭頸部CT(Computed Tomography)又はCBCT(Cone Beam Computed Tomography)(以下、CTという)において、上顎(Maxilla)と下顎(Mandible)を含む顎顔面骨を分割(segmentation)することは、口腔顎顔面変形、癌切除、下顎骨再建などのための診断と治療計画のための3Dモデルを生成することにおいて、必要な過程である。また、下顎骨を含むOAR(Organs at risk)を分割することは、頭頸部癌に対する放射線治療を計画することに必要な第1段階である。
【0003】
一般に、前記顎顔面骨の分割は、手作業で行われ、これは、実際の臨床において、非常に時間消耗的であり、退屈な作業である。更に、頭頸部CTを正確に分割することは、解剖学的構造の複雑さ、歯科用補綴物によるノイズ(図1)、上顎歯牙と下顎歯牙の区別の困難さ(図2)、低い強度の関節口(図3)、低い対比の軟組織、患者間下顎骨の多様性(図4)、及び患者間上顎骨の多様性(図5)のため、難易度の高い作業である。また、手作業分割は、再現率が低く、実行する者によって差を見せるということで、限界を有している。
【0004】
下顎骨は、顎顔面骨において最も大きく、強く、複雑であり、下顎歯牙と血管、神経多発を持っている。CTにおいて、下顎骨を分割する研究は、既に試みされてきた。
従来の下顎骨分割のための殆どの接近法は、Atlas-based方式やModel-based方式を基にしている。Atlas-based方式は、手作業分割の結果からアトラス(Atlas)を生成し、レジストレーション(Registration)技法を用いて、新たな画像を分割することをいう。アトラスとは、分割のために、対象に対する先行知識(Prior knowledge)を用いることで、1枚又は複数枚の画像から作られた参照画像(Reference image)を意味する。アトラスは、単一対象から作られたDeterministic atlas、及び複数対象から統計的に作られたStatistical atlasなどがある。
【0005】
前記Atlas-based方式が有名であり、体内器官の分割に広く用いられるが、固定されたアトラスを用いるため、解剖学的変動に鋭敏であるという限界がある。また、レジストレーション作業を行うことは、演算量が大きく、時間が多くかかる。Multi-atlasを用いると、解剖学的な変動の問題を多少軽減することができるが、演算効率が落ちるという問題がある。
【0006】
Model-based方式は、初期化と最適化の2段階からなり、Statistical modelやDeformable modelが多く用いられる。Statistical shape modelやStatistical appearance modelは、訓練段階において、目的構造のShapeやAppearanceの変異特徴を多くの訓練用画像で学習し、これを分割しようとする対象に合わせて調節する方式で分割を行う。しかし、このようなStatistical modelを用いたModel-based方式は、一般に、Statistical modelが描くShapeやAppearanceが特定されており、柔軟性が少なく、訓練用データが多数必要であるという不都合がある。
【0007】
また、Deformable modelは、変形可能な表面又は曲線で、内部力又は外部力により変形することがある。ここで、外部力とは、分割対象の特徴と合わせようとする力であり、内部力とは、スムージング(Smoothing)する力をいう。Deformable modelには、代表的に、Parametric deformable modelとGeometric deformable modelがある。しかし、Deformable modelを用いる場合、初期モデルと対象の形態の差が非常に大きい場合は、モデルに非常に大きい変形を加えなければならず、モデルを分離するか合わせるなどのトポロジー(Topology)の変化が難しいということで限界がある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、顎顔面骨を含むCT画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる、ディープラーニングを用いたCT画像の顎顔面骨自動分割方法を提供することである。
【0009】
本発明の他の目的は、前記ディープラーニングを用いたCT画像の顎顔面骨自動分割方法を、コンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体を提供することである。
【課題を解決するための手段】
【0010】
前記した本発明の目的を実現するための一実施形態によるディープラーニングを用いたCT画像の顎顔面骨自動分割方法は、顎顔面骨を含むCT画像の入力CTスライスを受信するステップと、前記入力CTスライスを同一のレイヤ内で互いに異なる第1の演算及び第2の演算を含むエンコーダと、同一のレイヤ内で互いに異なる第3の演算及び第4の演算を含むデコーダとを含む畳み込みニューラルネットワーク構造を用いて、前記CT画像を、下顎骨、及び前記顎顔面骨から前記下顎骨を除いた顎顔面骨でセグメンテーションするステップと、前記畳み込みニューラルネットワーク構造の出力である2次元セグメンテーション結果を累積して、3次元セグメンテーション結果に再建するステップと、を含む。
【0011】
前記入力CTスライスは、目標スライスと、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含む。
前記2次元セグメンテーション結果は、前記目標スライスのようなサイズを有する3つのチャンネルを含む。
【0012】
前記2次元セグメンテーション結果は、空いている空間を表す第1のクラスと、前記顎顔面骨から前記下顎骨を除いた顎顔面骨を表す第2のクラスと、前記下顎骨を表す第3のクラスとを含む。
【0013】
前記第1の演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、前記第2の演算は、1*1畳み込み演算+Leaky ReLuである。
前記第3の演算は、1*1畳み込み演算であり、前記第4の演算は、前記3*3畳み込み演算+Leaky ReLu+Batch normalizationである。
【0014】
前記エンコーダのレイヤは、前記第1の演算を複数個含み、前記第2の演算を1つ含む。前記エンコーダの前記レイヤ内で前記第1の演算が、前記第2の演算に先立って行われる。
【0015】
前記デコーダのレイヤは、前記第3の演算を1つ含み、前記第4の演算を複数含む。前記デコーダの前記レイヤ内で前記第3の演算が、前記第4の演算に先立って行われる。
前記エンコーダは、同一のレイヤ内で、前の特性マップを現在の特性マップに合算する第1のスキップ接続を含む。前記第1のスキップ接続直後の畳み込み演算の結果で特性マップのサイズは、同一であり、チャンネル数は、2倍に増加する。
【0016】
前記デコーダは、同一のレイヤ内で前の特性マップを、現在の特性マップに合算する第2のスキップ接続を含む。前記スキップ接続直後には、前記デコーダの上位レイヤに移動するアップスケーリング演算が行われる。
【0017】
前記デコーダは、前記アップスケーリング演算直後、前記エンコーダの同一のレイヤから受信した結合特性マップと、前記アップスケーリングされたアップスケール特性マップとを結合演算する。
【0018】
前記デコーダの前記結合演算直後の畳み込み演算の結果で前記特性マップのサイズは、同一であり、チャンネル数は、1/2倍に減少する。
前記畳み込みニューラルネットワーク構造の損失関数は、
であり、
ここで、Nは、1バッチ(Batch)内の画素数であり、
は、クラス1である確率マップ、
は、正解の画素値である。
前記ディープラーニングを用いたCT画像の顎顔面骨自動分割方法を、コンピュータで実行させるためのプログラムは、コンピュータで読み取り可能な記録媒体に記録される。
【発明の効果】
【0019】
本発明によるディープラーニングを用いたCT画像の顎顔面骨自動分割方法によると、顎顔面骨を含むCT画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる。そこで、医者の下顎骨及び上顎骨の分割業務に大きく寄与する。
【図面の簡単な説明】
【0020】
図1】CT画像の顎顔面骨の分割が難しい理由のうち、歯科用補綴物によるノイズを示す図である。
図2】CT画像の顎顔面骨の分割が難しい理由のうち、上顎歯牙と下顎歯牙の区別の困難さを示す図である。
図3】CT画像の顎顔面骨の分割が難しい理由のうち、低い強度の関節口を示す図である。
図4】CT画像の顎顔面骨の分割が難しい理由のうち、患者間下顎骨の多様性を示す図である。
図5】CT画像の顎顔面骨の分割が難しい理由のうち、患者間上顎骨の多様性を示す図である。
図6】本実施形態に係るCT画像の顎顔面骨自動分割方法を示す図である。
図7図6における畳み込みニューラルネットワークの構造を示す図である。
図8】本実施形態に係るCT画像の顎顔面骨自動分割の結果を示す図である。
図9a】本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。
図9b】本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。
図10a】本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨を除いた顎顔面骨の分割結果を示す図である。
図10b】本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨を除いた顎顔面骨の分割結果を示す図である。
【発明を実施するための形態】
【0021】
本文に示されている本発明の実施形態に対して、特定の構造的乃至機能的説明は、単に、本発明の実施形態を説明するための目的として例示しており、本発明の実施形態例は、様々な形態で実施することができ、本文で説明された実施形態に限定されることと解析されてはいけない。
【0022】
本発明は、多様な変更を加えることができ、様々な形態を有することができ、特定の実施形態を図面に例示し、本文で詳細に説明しようとする。しかし、これは、本発明を特定の開示形態について限定しようとすることではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物乃至代替物を含むことと理解されなければいけない。
【0023】
第1、第2のなどの用語は、様々な構成要素を説明することに用いられるが、前記構成要素は、前記用語により限定されてはいけない。前記用語は、1つの構成要素を他の構成要素から区別する目的として使われる。例えば、本発明の権利範囲から逸脱しない状態で、第1の構成要素は、第2の構成要素と指し示すことができ、同様に、第2の構成要素も第1の構成要素と指し示すことができる。
【0024】
ある構成要素が他の構成要素に「連結されて」いるか、「接続されて」いるとしたときは、その他の構成要素に直接的に連結又は接続されていることもできるが、中間に他の構成要素が存在することもできると理解すべきである。一方、ある構成要素が他の構成要素に「直接連結されて」いるか、「直接接続されて」いるとしたときは、中間に他の構成要素が存在しないことと理解すべきである。構成要素間の関係を説明する他の表現、すなわち、「~間に」と「直ぐ~間に」、又は「~に隣接する」と「~に直接隣接する」なども同様に解析されるべきである。
【0025】
本出願で使用した用語は、単に、特定の実施形態を説明するために使われており、本発明を限定しようとする意図ではない。単数の表現は、文脈上、明白に異なることを意味しない限り、複数の表現を含む。本出願において、「含む」又は「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、パーツ、又はこれらを組み合わせるものが存在することを指定しようとすることであり、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、パーツ、又はこれらを組み合わせたものの存在又は付加可能性を予め排除しないことと理解すべきである。
【0026】
異なって定義しない限り、技術的や科学的な用語を含めて、ここで使われる全ての用語は、本発明が属する技術分野における通常の知識を有する者にとって、一般に理解されることと同様な意味を有している。一般に使われる辞典に定義されているような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解析されるべきであり、本出願で明白に定義しない限り、理想的又は過度に形式的な意味として解析されない。
【0027】
一方、ある実施形態が異なって具現可能な場合に、特定のブロック内に明記された機能又は動作がフローチャートに明記した手順と異なって起きることもできる。例えば、連続する2つのブロックが、実際には実質的に同時に行われることもでき、関連する機能又は動作によっては、前記ブロックが逆に行われることもできる。
【0028】
以下、添付の図面を参照して、本発明の好適な実施形態をより詳細に説明する。図面上の同一の構成要素に対しては、同一の符号を付し、同一の構成要素に対して重複した説明は、省略する。
【0029】
図6は、本実施形態に係るCT画像の顎顔面骨自動分割方法を示す図である。図7は、図6における畳み込みニューラルネットワークの構造を示す図である。
図6及び図7に示しているように、CT画像の顎顔面骨自動分割方法は、ディープラーニングを用いて自動で、下顎骨と、前記下顎骨を除いた顎顔面骨とを分割することができる。
【0030】
畳み込みニューラルネットワーク(CNN)は、Multi layer perceptronとBackpropagationアルゴリズムを畳み込み(Convolution)演算と結合することと最初提案された。前記畳み込みニューラルネットワークは、コンピュータビジョン分野で活用可能である。前記畳み込みニューラルネットワークは、画像を元々の2D形態に入力されて、特定サイズのフィルターで、画像の部分を順に畳み込み演算して、画像の特徴(Feature)を抽出することができる。
【0031】
図7から見るように、本実施形態の畳み込みニューラルネットワーク構造は、入力から特徴を抽出するContracting pathと、特徴のサイズを拡張するExpanding pathとを含むエンコーダ-デコーダの構造を含む。前記本実施形態の畳み込みニューラルネットワーク構造は、Expanding pathにContracting pathの特徴を結合(Concatenation)することで、プーリング(Pooling)過程で減少するLocalization情報を追加して、性能を高めることができる。前記本実施形態の畳み込みニューラルネットワーク構造では、画素単位のクラス判別が可能である。
【0032】
前記本実施形態の畳み込みニューラルネットワーク構造は、モデルの演算が深くなることで生じる情報消失の問題(Degradation)を解決するためのスキップ接続(Skip connection)を含む。前記スキップ接続は、前演算の特徴を後演算に加えて、次の演算の入力に使用する構造である。このような演算は、たし算演算の追加だけで可能であり、更なる複雑な演算や訓練すべきパラメータ数も増加しない。
【0033】
図6では、前記CT画像において、顎顔面骨を自動3D分割するためのフレームワークを示している。前記本実施形態の畳み込みニューラルネットワーク構造の入力は、複数の連続した2D CTスライスである。前記本実施形態の畳み込みニューラルネットワーク構造の出力は、1つの2D分割結果である。例えば、前記本実施形態の畳み込みニューラルネットワーク構造の入力は、5つの連続した2D CTスライスである。前記入力は、1つの目標スライス(Target slice)と、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含む。例えば、前記入力は、1つの目標スライスと、前記目標スライスに隣接した上部の2つのスライスと、前記目標スライスに隣接した下部の2つのスライスとを含む。これは、隣接スライスの類似性と連結性を活用するための方式である。このような方式で患者に対する多数の2D分割を再建し、最も大きい連結成分(Connected component)を抽出して、3D分割を生成することができる。
【0034】
前記本実施形態のネットワーク構造は、エンコーダ-デコーダ構造で、34個の畳み込み(Convolution)演算で構成されている。多くの畳み込み演算のカーネル(Kernel)のサイズは、3*3であり、活性化関数(Activation function)にLeaky ReLuが用いられ、バッチ正規化(Batch normalization)が行われている。1*1サイズのKernelとLeaky ReLu活性化関数を用いる畳み込み演算は、特性マップ(Feature map)のz軸方向のサイズを拡張することに用いた。
【0035】
エンコード過程において、特性マップが畳み込み演算により抽出され、最大値プーリング(Max pooling)によりダウンサンプリング(Downsampling)される。デコード過程では、畳み込み演算前に、エンコード過程で抽出された数個の特性マップがコピーされて、連結(Concatenation)される。これは、ダウンサンプリングされて、消失する位置(Localization)情報を補うために行われる。特性マップのサイズは、bilinear resizingによるアップサンプリング(Upsampling)により拡張される。本実施形態のネットワーク構造は、Skip connectionの方式を活用して、前の特性マップを後の特性マップに加えて、より深い演算で消失される情報を伝達する。出力分割マップ(Segmentation map)前の最終畳み込み演算は、ソフトマックス関数(Softmax function)で活性化されて、クラス確率マップ(Probabilistic map)を生成する。出力マップは、3つのチャンネル(Channel)で構成されており、それぞれのチャンネルは、特定の画素が下顎骨、顎顔面骨から下顎骨を除いた顎顔面骨、空いている空間のクラスである確率を表す。
【0036】
例えば、図6の出力2Dセグメンテーションにおいて、空いている空間は、class 0であり、顎顔面骨から下顎骨を除いた顎顔面骨は、class 1であり、下顎骨は、class 2である。例えば、図6の出力2Dセグメンテーションにおいて、class 0である確率が最も大きい箇所は、blackで表し、class1である確率が最も大きい箇所は、grayで表し、class 2である確率が最も大きい箇所は、whiteで表す。
【0037】
それぞれの入力CTスライスに対して、出力2Dセグメンテーション結果が出力され、前記出力2Dセグメンテーション結果を累積して、3Dセグメンテーション結果として再建することができる。
【0038】
例えば、前記本実施形態のネットワーク構造の入力である目標スライスのサイズは、前記本実施形態のネットワーク構造の出力である前記出力2Dセグメンテーション結果のサイズと同一である。図6において、前記目標スライスのサイズは、512*512と表され、前記出力2Dセグメンテーション結果のサイズは、512*512と表される。前記出力2Dセグメンテーション結果は、前記class 0、class 1、class 2の3つのチャンネルを有し、各チャンネルのサイズは、512*512である。
【0039】
前記本実施形態のネットワーク構造を詳しくみると、エンコーダの第1のレイヤは、3つの畳み込み演算を含む。エンコーダの第1のレイヤの第1の畳み込み演算は、512*512の入力CTスライス5枚を入力されて、512*512サイズの64チャンネルの第1の特性マップを生成する。エンコーダの第1のレイヤの第2の畳み込み演算は、前記第1の特性マップを入力されて、512*512サイズの64チャンネルの第2の特性マップを生成する。エンコーダの第1のレイヤの第3の畳み込み演算は、前記第2の特性マップを入力されて、512*512サイズの128チャンネルの第3の特性マップを生成する。
【0040】
エンコーダの第1のレイヤの第1の畳み込み演算及び第2の畳み込み演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、エンコーダの第1のレイヤの第3の畳み込み演算は、1*1畳み込み演算+Leaky ReLuである。
【0041】
前記第3の特性マップを2*2最大値プーリングして、256*256サイズの128チャンネルの第4の特性マップを生成する。前記最大値プーリングにより、前記特性マップの大きさは減少することに対し、チャンネル数は、同じく維持される。
【0042】
エンコーダの第2のレイヤは、3つの畳み込み演算を含む。エンコーダの第2のレイヤの第1の畳み込み演算は、前記第4の特性マップを入力されて、256*256サイズの128チャンネルの第5の特性マップを生成する。エンコーダの第2のレイヤの第2の畳み込み演算は、前記第5の特性マップを入力されて、256*256サイズの128チャンネルの第6の特性マップを生成する。スキップ接続により、前記第6の特性マップには、前記第4の特性マップが合算される。エンコーダの第2のレイヤの第3の畳み込み演算は、前記第4の特性マップ及び前記第6の特性マップの和を入力されて、256*256サイズの256チャンネルの第7の特性マップを生成する。
【0043】
エンコーダの第2のレイヤの第1の畳み込み演算及び第2の畳み込み演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、エンコーダの第2のレイヤの第3の畳み込み演算は、1*1畳み込み演算+Leaky ReLuである。
【0044】
このように、前記エンコーダの前記第2のレイヤ内において、第6の特性マップに、前の特性マップである第4の特性マップが合算された後に、前記第3の畳み込み演算に入力されるので、演算が深くなることで生じる情報消失の問題(Degradation)を解決することができる。前記エンコーダの前記第2のレイヤの前記第3の畳み込み演算は、前記第4の特性マップ及び前記第6の特性マップの和を適切に処理するための演算である。
【0045】
前記エンコーダの第5のレイヤは、3つの畳み込み演算を含む。エンコーダの第5のレイヤの第1の畳み込み演算は、前記第18の特性マップを入力されて、32*32サイズの1024チャンネルの第19の特性マップを生成する。エンコーダの第5のレイヤの第2の畳み込み演算は、前記第19の特性マップを入力されて、32*32サイズの1024チャンネルの第20の特性マップを生成する。エンコーダの第5のレイヤの第3の畳み込み演算は、前記第20の特性マップを入力されて、32*32サイズの1024チャンネルの第21の特性マップを生成する。スキップ接続により、前記第21の特性マップには、前記第18の特性マップが合算される。
【0046】
前記第18の特性マップと前記第21の特性マップの和は、アップスケーリングされて、64*64サイズの512チャンネルに変換され、前記アップスケーリングされた64*64サイズの512チャンネルに、前記エンコーダの第4のレイヤから入力される64*64サイズの512チャンネルの第16の特性マップが結合される。前記業スケーリングされた64*64サイズの512チャンネルに、64*64サイズの512チャンネルの第16の特性マップが結合された結果が、第22の特性マップである。
【0047】
デコーダの第4のレイヤは、4つの畳み込み演算を含む。デコーダの第4のレイヤの第1の畳み込み演算は、64*64サイズの1024チャンネルの前記第22の特性マップを入力されて、64*64サイズの512チャンネルの第23の特性マップを生成する。デコーダの第4のレイヤの第2の畳み込み演算は、前記第23の特性マップを入力されて、64*64サイズの512チャンネルの第24の特性マップを生成する。デコーダの第4のレイヤの第3の畳み込み演算は、前記第24の特性マップを入力されて、64*64サイズの512チャンネルの第25の特性マップを生成する。デコーダの第4のレイヤの第4の畳み込み演算は、前記第25の特性マップを入力されて、64*64サイズの512チャンネルの第26の特性マップを生成する。スキップ接続により、前記第26の特性マップには、前記第22の特性マップが合算される。
【0048】
デコーダの第4のレイヤの第1の畳み込み演算は、1*1畳み込み演算であり、デコーダの第4のレイヤの第2の畳み込み演算、第3の畳み込み演算、及び第4の畳み込み演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationである。
【0049】
このように、本実施形態のネットワーク構造は、エンコーダの同一レイヤ内で、前の特性マップを現在の特性マップに合算するスキップ接続を含み、前記スキップ接続直後の畳み込み演算は、1*1畳み込み演算+Leaky ReLuであり、前記スキップ接続直後の畳み込み演算の結果で、前記特性マップのサイズは同一であるが、前記特性マップのチャンネル数は、2倍に大きくなる。
【0050】
このように、本実施形態のネットワーク構造は、デコーダの同一のレイヤ内で、前の特性マップを現在の特性マップに合算するスキップ接続を含み、前記スキップ接続直後には、デコーダの上位レイヤに移動するアップスケーリング演算が行われる。
【0051】
このように、本実施形態のネットワーク構造は、アップスケーリング演算直後に、前記エンコーダの同一のレイヤから受信した特性マップと、前記アップスケーリングされた特性マップとを結合演算することができる。
【0052】
前記デコーダの前記結合演算直後の畳み込み演算は、1*1畳み込み演算であり、前記結合演算直後の畳み込み演算の結果で、前記特性マップのサイズは、同一であるが、前記特性マップのチャンネル数は、1/2倍に小さくなる。
【0053】
本実施形態のネットワーク構造の前記エンコーダは、同一のレイヤ内で互いに異なる第1の演算及び第2の演算を含み、前記第1の演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、第2の演算は、1*1畳み込み演算+Leaky ReLuである。
【0054】
本実施形態のネットワーク構造の前記デコーダは、同一のレイヤ内で互いに異なる第3の演算及び第4の演算を含み、前記第3の演算は、3*3畳み込み演算+Leaky ReLu+Batch normalizationであり、第4の演算は、1*1畳み込み演算である。
【0055】
本実施形態では、Dice係数(Dice coefficient)を基にした損失関数を使用している。Dice係数は、2つの対象の間の重畳程度を測定して、分割の性能を評価するに用いられる指標である。本実施形態の損失関数は、多種クラス分割のために最小化する方向に用いられる。損失関数は、式(1)の通りである。
【0056】
[数式1]
【0057】
ここで、Nは、1バッチ(Batch)内の画素数、
はクラス1である確率マップ、
は、正解の画素値を意味する。最適化のために、損失関数を最小化する方向にモデルを学習させた。学習率(learning rate)は、10-5の値を用いた。
図8は、本実施形態に係るCT画像の顎顔面骨自動分割の結果を示す図である。図9aは、本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。図9bは、本実施形態に係るCT画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。図10aは、本実施形態に係るCT画像の顎顔面骨自動分割の結果から、下顎骨を除いた顎顔面骨の分割結果を示す図である。図10bは、本実施形態に係るCT画像の顎顔面骨自動分割の結果から、下顎骨を除いた顎顔面骨の分割結果を示す図である。
【0058】
図6乃至図10bを参照すると、本実施形態の結果検証のために、CT画像と専門家の手動分割データからなる97個のデータを用いた。それぞれのCT画像は、512*512サイズのスライス187個から371個で構成されている。画素スペイシングは、0.5mmから10mmの範囲であり、厚さは、0.36mmから0.49mmの範囲である。画像前処理は、-1000から2500のHounsfield unitを基準に臨界処理(thresholding)し、0から255の間の値に正規化(Normalization)した。
【0059】
CNNモデルを訓練するために、85個のデータを使用し(訓練用データ)、訓練中の評価(Validation)のために、5つ(訓練中評価用データ)、最終的なモデルの性能評価実験のために7つ(実験用データ)を用いた。訓練中評価用データと実験用データは、訓練用データから完全に分離して、訓練中にモデルに全く露出されなかった。
【0060】
モデルの分割性能を定量的に評価するために、DC(Dice coefficient)、95HD(95% Hausdorff distance)、ASD(Average surface distance)を用いた。
DCは、2つの対象の重畳程度を示す指標である。DCは、式(2)のように定義される。
【0061】
[数式2]
【0062】
GTは、手動分割正解(Ground truth)を意味し、OUTは、モデル出力分割の分類したボクセル(Voxel)の集合を意味する。DCは、0(全く重畳しない)から1(完全に重畳する)の間の値を有する。DCは、1に近いほど、2つの物体の重ね合い程度が大きいということを意味する。
【0063】
95HDは、2つの物体の表面点の間のHDの95%百分率値をいう。95HDは、式(3)のように定義される。
[数式3]
【0064】
最大値ではなく、95%百分率値を用いることは、全体的な分割性能を評価することにおいて、とても小さな不正確な分割部分の外れ値(outlier)が及ぶ影響を減らすためである。
【0065】
ASDは、GTとOUTの間の平均距離を測定する値であり、式(4)のように定義される。
[数式4]
【0066】
d(out、GT)は、OUTの特定点outからGTの点の間の距離のうち、最小値を意味し、d(gt、OUT)は、GTの特定点gtからOUTの点の間の距離のうち、最小値を意味する。
7つの実験用データに対する正解とモデル出力の間のDC、95HD、ASDと、モデルが分割をすることにかかった時間をまとめた結果を、図8に示している。
【0067】
図9aは、下顎骨に対して訓練用データ結果のうち、最も高いDCを有する場合の正解(Ground Truth)及び出力(Output)を3Dレンダリングした結果を示し、図9bは、下顎骨に対して訓練用データ結果のうち、で最も低いDCを有する場合の正解(Ground Truth)及び出力(Output)を3Dレンダリングした結果を示す。ここで、正解と出力の間の距離は、距離マップの形態で現わすことができる。最も高いDCを有する場合、DCは、0.987、95HDは、0mm、ASDは、0.018mmであった。最も低いDCを有する場合、DCは、0.962、95HDは、0.420mm、ASDは、0.041mmであった。
【0068】
図10aは、下顎骨を除いた顎顔面骨に対して、訓練用データ結果のうち、最も高いDCを有する場合の正解(Ground Truth)及び出力(Output)を3Dレンダリングした結果を示し、図10bは、下顎骨を除いた顎顔面骨に対して、訓練用データ結果のうち、最も低いDCを有する場合の正解(Ground Truth)及び出力(Output)を3Dレンダリングした結果を示す。ここで、正解と出力の間の距離は、距離マップの形態で現わす。最も高いDCを有する場合、DCは、0.991、95HDは、0mm、ASDは、0.027mmであった。最も低いDCを有する場合、DCは、0.957、95HDは、0.468mm、ASDは、0.052mmであった。
【0069】
本実施形態は、従来の下顎骨と、下顎骨を除いた顎顔面骨とを分割する方法に比べて、正確度が向上し、所要の時間を極めて減少することができる。本実施形態の場合、上顎骨又は下顎骨の1つだけを分類(classfy)することではなく、上顎骨と下顎骨の2つを同時に分類することができる。通常、CTにおいて、1つのスライスに上顎の歯牙と下顎の歯牙が同時にある場合が多いが、本実施形態では、歯牙の分割だけでなく、上顎と下顎の分類を同時に行って、全体的な分割性能が高くなる。
【0070】
本実施形態によると、顎顔面骨を含むCT画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる。そこで、医者の下顎骨及び上顎骨の分割業務に大いに寄与することができる。
【0071】
本発明の一実施形態によると、前述したディープラーニングを用いたCT画像の顎顔面骨自動分割方法をコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体を提供することができる。前記方法は、コンピュータで実行可能なプログラムで作成可能であり、コンピュータ読取り可能な媒体を用いて、前記プログラムを動作させる汎用デジタルコンピュータで具現可能である。また、前記方法で用いられたデータの構造は、コンピュータ読取り可能な媒体に多数の手段を通じて記録される。前記コンピュータ読取り可能な媒体は、プログラム命令、データファイル、データ構造などを、単独で又は組み合わせて含む。前記媒体に記録されるプログラム命令は、本発明のために特に設計され構成されたものや、コンピュータソフトウェア分野の通常の技術者に公知されて使用可能なものである。コンピュータ読取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、プロブティコルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を格納し実行するように特に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラにより作られるような機械語コードだけでなく、インタプリタなどを用いて、コンピュータにより行える高級言語コードを含む。前記ハードウェア装置は、本発明の動作を行うために、1つ以上のソフトウェアモジュールとして作動するように構成することができる。
【0072】
また、前記ディープラーニングを用いたCT画像の顎顔面骨自動分割方法は、記録媒体に格納されるコンピュータにより実行されるコンピュータプログラム又はアプリケーションの形態にも具現可能である。
【0073】
[産業上の利用可能性]
本発明は、ディープラーニングを用いたCT画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関し、顎顔面骨を含むCT画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができ、下顎骨、及び前記下顎骨を除いた顎顔面骨とを分割することにかかる手間を大きく減らすことができる。
【0074】
前記では、本発明の好適な実施形態を参照して説明したが、当該技術分野における熟練した当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で、本発明を様々に修正及び変更できることを理解するだろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9a
図9b
図10a
図10b