特表2024-501549 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イマゴワークスインコーポレイテッドの特許一覧

特表2024-501549ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9a
9b
10a
10b

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-12

(54)【発明の名称】ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法

(51)【国際特許分類】

A61B 6/03 20060101AFI20240104BHJP

G06T 7/00 20170101ALI20240104BHJP

G06T 7/11 20170101ALI20240104BHJP

【ＦＩ】

A61B6/03 360J

G06T7/00 350C

G06T7/11

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023540085

(86)(22)【出願日】2021-01-07

(85)【翻訳文提出日】2023-07-31

(86)【国際出願番号】 KR2021000179

(87)【国際公開番号】W WO2022145557

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】10-2020-0188575

(32)【優先日】2020-12-30

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和２年２月１日に高麗大学大学院修士論文として公開

(71)【出願人】

【識別番号】523055651

【氏名又は名称】イマゴワークスインコーポレイテッド

【氏名又は名称原語表記】ＩＭＡＧＯＷＯＲＫＳＩＮＣ．

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】パク、スンビン

(72)【発明者】

【氏名】シム、ウンジュン

(72)【発明者】

【氏名】キム、ヨンジュン

【テーマコード（参考）】

4C093

5L096

【Ｆターム（参考）】

4C093AA22

4C093CA15

4C093DA05

4C093FD03

4C093FF16

5L096AA06

5L096AA09

5L096BA06

5L096BA13

5L096EA03

5L096EA11

5L096FA32

5L096FA66

5L096FA69

5L096GA12

5L096GA30

5L096GA51

5L096HA11

5L096KA04

5L096MA07

(57)【要約】

ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法は、顎顔面骨を含むＣＴ画像の入力ＣＴスライスを受信するステップと、前記入力ＣＴスライスを同一のレイヤ内で互いに異なる第１の演算及び第２の演算を含むエンコーダと、同一のレイヤ内で互いに異なる第３の演算及び第４の演算を含むデコーダとを含む畳み込みニューラルネットワーク構造を用いて、前記ＣＴ画像を、下顎骨、及び前記顎顔面骨から前記下顎骨を除いた顎顔面骨でセグメンテーションするステップと、前記畳み込みニューラルネットワーク構造の出力である２次元セグメンテーション結果を累積して、３次元セグメンテーション結果に再建するステップと、を含む。

【特許請求の範囲】

【請求項1】

顎顔面骨を含むＣＴ画像の入力ＣＴスライスを受信するステップと、
前記入力ＣＴスライスを同一のレイヤ内で互いに異なる第１の演算及び第２の演算を含むエンコーダと、同一のレイヤ内で互いに異なる第３の演算及び第４の演算を含むデコーダとを含む畳み込みニューラルネットワーク構造を用いて、前記ＣＴ画像を、下顎骨、及び前記顎顔面骨から前記下顎骨を除いた顎顔面骨でセグメンテーションするステップと、
前記畳み込みニューラルネットワーク構造の出力である２次元セグメンテーション結果を累積して、３次元セグメンテーション結果に再建するステップと、を含む、
ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項2】

前記入力ＣＴスライスは、目標スライスと、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含むことを特徴とする、
請求項１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項3】

前記２次元セグメンテーション結果は、前記目標スライスのようなサイズを有する３つのチャンネルを含むことを特徴とする、
請求項１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項4】

前記２次元セグメンテーション結果は、空いている空間を表す第１のクラスと、前記顎顔面骨から前記下顎骨を除いた顎顔面骨を表す第２のクラスと、前記下顎骨を表す第３のクラスとを含むことを特徴とする、
請求項３に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項5】

前記第１の演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、前記第２の演算は、１＊１畳み込み演算＋Leaky ReLuであることを特徴とする、
請求項１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項6】

前記第３の演算は、１＊１畳み込み演算であり、前記第４の演算は、前記３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであることを特徴とする、
請求項５に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項7】

前記エンコーダのレイヤは、前記第１の演算を複数個含み、前記第２の演算を１つ含み、
前記エンコーダの前記レイヤ内で前記第１の演算が、前記第２の演算に先立って行われることを特徴とする、
請求項５に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項8】

前記デコーダのレイヤは、前記第３の演算を１つ含み、前記第４の演算を複数含み、
前記デコーダの前記レイヤ内で前記第３の演算が、前記第４の演算に先立って行われることを特徴とする、
請求項６に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項9】

前記エンコーダは、同一のレイヤ内で、前の特性マップを現在の特性マップに合算する第１のスキップ接続を含み、
前記第１のスキップ接続直後の畳み込み演算の結果で特性マップのサイズは、同一であり、チャンネル数は、２倍に増加することを特徴とする、
請求項１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項10】

前記デコーダは、同一のレイヤ内で前の特性マップを、現在の特性マップに合算する第２のスキップ接続を含み、
前記スキップ接続直後には、前記デコーダの上位レイヤに移動するアップスケーリング演算が行われることを特徴とする、
請求項９に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項11】

前記デコーダは、前記アップスケーリング演算直後、前記エンコーダの同一のレイヤから受信した結合特性マップと、前記アップスケーリングされたアップスケール特性マップとを結合演算することを特徴とする、
請求項１０に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項12】

前記デコーダの前記結合演算直後の畳み込み演算の結果で前記特性マップのサイズは、同一であり、チャンネル数は、１/２倍に減少することを特徴とする、
請求項１１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項13】

前記畳み込みニューラルネットワーク構造の損失関数は、
であり、

Ｎは、１バッチ（Batch）内の画素数であり、

は、クラス１である確率マップ、

は、正解の画素値であることを特徴とする、
請求項１に記載のディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法。

【請求項14】

請求項１乃至１３のいずれか一項に記載の方法を、コンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関し、より詳しくは、顎顔面骨を含むＣＴ画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる、ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関する。

【背景技術】

【0002】

頭頸部ＣＴ（Computed Tomography）又はＣＢＣＴ（Cone Beam Computed Tomography）（以下、ＣＴという）において、上顎（Maxilla）と下顎（Mandible）を含む顎顔面骨を分割（segmentation）することは、口腔顎顔面変形、癌切除、下顎骨再建などのための診断と治療計画のための３Ｄモデルを生成することにおいて、必要な過程である。また、下顎骨を含むＯＡＲ（Organs at risk）を分割することは、頭頸部癌に対する放射線治療を計画することに必要な第１段階である。

【0003】

一般に、前記顎顔面骨の分割は、手作業で行われ、これは、実際の臨床において、非常に時間消耗的であり、退屈な作業である。更に、頭頸部ＣＴを正確に分割することは、解剖学的構造の複雑さ、歯科用補綴物によるノイズ（図１）、上顎歯牙と下顎歯牙の区別の困難さ（図２）、低い強度の関節口（図３）、低い対比の軟組織、患者間下顎骨の多様性（図４）、及び患者間上顎骨の多様性（図５）のため、難易度の高い作業である。また、手作業分割は、再現率が低く、実行する者によって差を見せるということで、限界を有している。

【0004】

下顎骨は、顎顔面骨において最も大きく、強く、複雑であり、下顎歯牙と血管、神経多発を持っている。ＣＴにおいて、下顎骨を分割する研究は、既に試みされてきた。
従来の下顎骨分割のための殆どの接近法は、Atlas-based方式やModel-based方式を基にしている。Atlas-based方式は、手作業分割の結果からアトラス（Atlas）を生成し、レジストレーション（Registration）技法を用いて、新たな画像を分割することをいう。アトラスとは、分割のために、対象に対する先行知識（Prior knowledge）を用いることで、１枚又は複数枚の画像から作られた参照画像（Reference image）を意味する。アトラスは、単一対象から作られたDeterministic atlas、及び複数対象から統計的に作られたStatistical atlasなどがある。

【0005】

前記Atlas-based方式が有名であり、体内器官の分割に広く用いられるが、固定されたアトラスを用いるため、解剖学的変動に鋭敏であるという限界がある。また、レジストレーション作業を行うことは、演算量が大きく、時間が多くかかる。Multi-atlasを用いると、解剖学的な変動の問題を多少軽減することができるが、演算効率が落ちるという問題がある。

【0006】

Model-based方式は、初期化と最適化の２段階からなり、Statistical modelやDeformable modelが多く用いられる。Statistical shape modelやStatistical appearance modelは、訓練段階において、目的構造のShapeやAppearanceの変異特徴を多くの訓練用画像で学習し、これを分割しようとする対象に合わせて調節する方式で分割を行う。しかし、このようなStatistical modelを用いたModel-based方式は、一般に、Statistical modelが描くShapeやAppearanceが特定されており、柔軟性が少なく、訓練用データが多数必要であるという不都合がある。

【0007】

また、Deformable modelは、変形可能な表面又は曲線で、内部力又は外部力により変形することがある。ここで、外部力とは、分割対象の特徴と合わせようとする力であり、内部力とは、スムージング（Smoothing）する力をいう。Deformable modelには、代表的に、Parametric deformable modelとGeometric deformable modelがある。しかし、Deformable modelを用いる場合、初期モデルと対象の形態の差が非常に大きい場合は、モデルに非常に大きい変形を加えなければならず、モデルを分離するか合わせるなどのトポロジー（Topology）の変化が難しいということで限界がある。

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明の目的は、顎顔面骨を含むＣＴ画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる、ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法を提供することである。

【0009】

本発明の他の目的は、前記ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法を、コンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体を提供することである。

【課題を解決するための手段】

【0010】

前記した本発明の目的を実現するための一実施形態によるディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法は、顎顔面骨を含むＣＴ画像の入力ＣＴスライスを受信するステップと、前記入力ＣＴスライスを同一のレイヤ内で互いに異なる第１の演算及び第２の演算を含むエンコーダと、同一のレイヤ内で互いに異なる第３の演算及び第４の演算を含むデコーダとを含む畳み込みニューラルネットワーク構造を用いて、前記ＣＴ画像を、下顎骨、及び前記顎顔面骨から前記下顎骨を除いた顎顔面骨でセグメンテーションするステップと、前記畳み込みニューラルネットワーク構造の出力である２次元セグメンテーション結果を累積して、３次元セグメンテーション結果に再建するステップと、を含む。

【0011】

前記入力ＣＴスライスは、目標スライスと、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含む。
前記２次元セグメンテーション結果は、前記目標スライスのようなサイズを有する３つのチャンネルを含む。

【0012】

前記２次元セグメンテーション結果は、空いている空間を表す第１のクラスと、前記顎顔面骨から前記下顎骨を除いた顎顔面骨を表す第２のクラスと、前記下顎骨を表す第３のクラスとを含む。

【0013】

前記第１の演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、前記第２の演算は、１＊１畳み込み演算＋Leaky ReLuである。
前記第３の演算は、１＊１畳み込み演算であり、前記第４の演算は、前記３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationである。

【0014】

前記エンコーダのレイヤは、前記第１の演算を複数個含み、前記第２の演算を１つ含む。前記エンコーダの前記レイヤ内で前記第１の演算が、前記第２の演算に先立って行われる。

【0015】

前記デコーダのレイヤは、前記第３の演算を１つ含み、前記第４の演算を複数含む。前記デコーダの前記レイヤ内で前記第３の演算が、前記第４の演算に先立って行われる。
前記エンコーダは、同一のレイヤ内で、前の特性マップを現在の特性マップに合算する第１のスキップ接続を含む。前記第１のスキップ接続直後の畳み込み演算の結果で特性マップのサイズは、同一であり、チャンネル数は、２倍に増加する。

【0016】

前記デコーダは、同一のレイヤ内で前の特性マップを、現在の特性マップに合算する第２のスキップ接続を含む。前記スキップ接続直後には、前記デコーダの上位レイヤに移動するアップスケーリング演算が行われる。

【0017】

前記デコーダは、前記アップスケーリング演算直後、前記エンコーダの同一のレイヤから受信した結合特性マップと、前記アップスケーリングされたアップスケール特性マップとを結合演算する。

【0018】

前記デコーダの前記結合演算直後の畳み込み演算の結果で前記特性マップのサイズは、同一であり、チャンネル数は、１/２倍に減少する。
前記畳み込みニューラルネットワーク構造の損失関数は、

であり、
ここで、Ｎは、１バッチ（Batch）内の画素数であり、

は、クラス１である確率マップ、

は、正解の画素値である。
前記ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法を、コンピュータで実行させるためのプログラムは、コンピュータで読み取り可能な記録媒体に記録される。

【発明の効果】

【0019】

本発明によるディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法によると、顎顔面骨を含むＣＴ画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる。そこで、医者の下顎骨及び上顎骨の分割業務に大きく寄与する。

【図面の簡単な説明】

【0020】

【図1】ＣＴ画像の顎顔面骨の分割が難しい理由のうち、歯科用補綴物によるノイズを示す図である。

【図2】ＣＴ画像の顎顔面骨の分割が難しい理由のうち、上顎歯牙と下顎歯牙の区別の困難さを示す図である。

【図3】ＣＴ画像の顎顔面骨の分割が難しい理由のうち、低い強度の関節口を示す図である。

【図4】ＣＴ画像の顎顔面骨の分割が難しい理由のうち、患者間下顎骨の多様性を示す図である。

【図5】ＣＴ画像の顎顔面骨の分割が難しい理由のうち、患者間上顎骨の多様性を示す図である。

【図6】本実施形態に係るＣＴ画像の顎顔面骨自動分割方法を示す図である。

【図7】図６における畳み込みニューラルネットワークの構造を示す図である。

【図8】本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果を示す図である。

【図9a】本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。

【図9b】本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。

【図10a】本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨を除いた顎顔面骨の分割結果を示す図である。

【図10b】本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨を除いた顎顔面骨の分割結果を示す図である。

【発明を実施するための形態】

【0021】

本文に示されている本発明の実施形態に対して、特定の構造的乃至機能的説明は、単に、本発明の実施形態を説明するための目的として例示しており、本発明の実施形態例は、様々な形態で実施することができ、本文で説明された実施形態に限定されることと解析されてはいけない。

【0022】

本発明は、多様な変更を加えることができ、様々な形態を有することができ、特定の実施形態を図面に例示し、本文で詳細に説明しようとする。しかし、これは、本発明を特定の開示形態について限定しようとすることではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物乃至代替物を含むことと理解されなければいけない。

【0023】

第１、第２のなどの用語は、様々な構成要素を説明することに用いられるが、前記構成要素は、前記用語により限定されてはいけない。前記用語は、１つの構成要素を他の構成要素から区別する目的として使われる。例えば、本発明の権利範囲から逸脱しない状態で、第１の構成要素は、第２の構成要素と指し示すことができ、同様に、第２の構成要素も第１の構成要素と指し示すことができる。

【0024】

ある構成要素が他の構成要素に「連結されて」いるか、「接続されて」いるとしたときは、その他の構成要素に直接的に連結又は接続されていることもできるが、中間に他の構成要素が存在することもできると理解すべきである。一方、ある構成要素が他の構成要素に「直接連結されて」いるか、「直接接続されて」いるとしたときは、中間に他の構成要素が存在しないことと理解すべきである。構成要素間の関係を説明する他の表現、すなわち、「～間に」と「直ぐ～間に」、又は「～に隣接する」と「～に直接隣接する」なども同様に解析されるべきである。

【0025】

本出願で使用した用語は、単に、特定の実施形態を説明するために使われており、本発明を限定しようとする意図ではない。単数の表現は、文脈上、明白に異なることを意味しない限り、複数の表現を含む。本出願において、「含む」又は「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、パーツ、又はこれらを組み合わせるものが存在することを指定しようとすることであり、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、パーツ、又はこれらを組み合わせたものの存在又は付加可能性を予め排除しないことと理解すべきである。

【0026】

異なって定義しない限り、技術的や科学的な用語を含めて、ここで使われる全ての用語は、本発明が属する技術分野における通常の知識を有する者にとって、一般に理解されることと同様な意味を有している。一般に使われる辞典に定義されているような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解析されるべきであり、本出願で明白に定義しない限り、理想的又は過度に形式的な意味として解析されない。

【0027】

一方、ある実施形態が異なって具現可能な場合に、特定のブロック内に明記された機能又は動作がフローチャートに明記した手順と異なって起きることもできる。例えば、連続する２つのブロックが、実際には実質的に同時に行われることもでき、関連する機能又は動作によっては、前記ブロックが逆に行われることもできる。

【0028】

以下、添付の図面を参照して、本発明の好適な実施形態をより詳細に説明する。図面上の同一の構成要素に対しては、同一の符号を付し、同一の構成要素に対して重複した説明は、省略する。

【0029】

図６は、本実施形態に係るＣＴ画像の顎顔面骨自動分割方法を示す図である。図７は、図６における畳み込みニューラルネットワークの構造を示す図である。
図６及び図７に示しているように、ＣＴ画像の顎顔面骨自動分割方法は、ディープラーニングを用いて自動で、下顎骨と、前記下顎骨を除いた顎顔面骨とを分割することができる。

【0030】

畳み込みニューラルネットワーク（CNN）は、Multi layer perceptronとBackpropagationアルゴリズムを畳み込み（Convolution）演算と結合することと最初提案された。前記畳み込みニューラルネットワークは、コンピュータビジョン分野で活用可能である。前記畳み込みニューラルネットワークは、画像を元々の２Ｄ形態に入力されて、特定サイズのフィルターで、画像の部分を順に畳み込み演算して、画像の特徴（Feature）を抽出することができる。

【0031】

図７から見るように、本実施形態の畳み込みニューラルネットワーク構造は、入力から特徴を抽出するContracting pathと、特徴のサイズを拡張するExpanding pathとを含むエンコーダ-デコーダの構造を含む。前記本実施形態の畳み込みニューラルネットワーク構造は、Expanding pathにContracting pathの特徴を結合（Concatenation）することで、プーリング（Pooling）過程で減少するLocalization情報を追加して、性能を高めることができる。前記本実施形態の畳み込みニューラルネットワーク構造では、画素単位のクラス判別が可能である。

【0032】

前記本実施形態の畳み込みニューラルネットワーク構造は、モデルの演算が深くなることで生じる情報消失の問題（Degradation）を解決するためのスキップ接続（Skip connection）を含む。前記スキップ接続は、前演算の特徴を後演算に加えて、次の演算の入力に使用する構造である。このような演算は、たし算演算の追加だけで可能であり、更なる複雑な演算や訓練すべきパラメータ数も増加しない。

【0033】

図６では、前記ＣＴ画像において、顎顔面骨を自動３Ｄ分割するためのフレームワークを示している。前記本実施形態の畳み込みニューラルネットワーク構造の入力は、複数の連続した２ＤＣＴスライスである。前記本実施形態の畳み込みニューラルネットワーク構造の出力は、１つの２Ｄ分割結果である。例えば、前記本実施形態の畳み込みニューラルネットワーク構造の入力は、５つの連続した２ＤＣＴスライスである。前記入力は、１つの目標スライス（Target slice）と、前記目標スライスに隣接した上部スライスと、前記目標スライスに隣接した下部スライスとを含む。例えば、前記入力は、１つの目標スライスと、前記目標スライスに隣接した上部の２つのスライスと、前記目標スライスに隣接した下部の２つのスライスとを含む。これは、隣接スライスの類似性と連結性を活用するための方式である。このような方式で患者に対する多数の２Ｄ分割を再建し、最も大きい連結成分（Connected component）を抽出して、３Ｄ分割を生成することができる。

【0034】

前記本実施形態のネットワーク構造は、エンコーダ-デコーダ構造で、３４個の畳み込み（Convolution）演算で構成されている。多くの畳み込み演算のカーネル（Kernel）のサイズは、３＊３であり、活性化関数（Activation function）にLeaky ReLuが用いられ、バッチ正規化（Batch normalization）が行われている。１＊１サイズのKernelとLeaky ReLu活性化関数を用いる畳み込み演算は、特性マップ（Feature map）のｚ軸方向のサイズを拡張することに用いた。

【0035】

エンコード過程において、特性マップが畳み込み演算により抽出され、最大値プーリング（Max pooling）によりダウンサンプリング（Downsampling）される。デコード過程では、畳み込み演算前に、エンコード過程で抽出された数個の特性マップがコピーされて、連結（Concatenation）される。これは、ダウンサンプリングされて、消失する位置（Localization）情報を補うために行われる。特性マップのサイズは、bilinear resizingによるアップサンプリング（Upsampling）により拡張される。本実施形態のネットワーク構造は、Skip connectionの方式を活用して、前の特性マップを後の特性マップに加えて、より深い演算で消失される情報を伝達する。出力分割マップ（Segmentation map）前の最終畳み込み演算は、ソフトマックス関数（Softmax function）で活性化されて、クラス確率マップ（Probabilistic map）を生成する。出力マップは、３つのチャンネル（Channel）で構成されており、それぞれのチャンネルは、特定の画素が下顎骨、顎顔面骨から下顎骨を除いた顎顔面骨、空いている空間のクラスである確率を表す。

【0036】

例えば、図６の出力２Ｄセグメンテーションにおいて、空いている空間は、class 0であり、顎顔面骨から下顎骨を除いた顎顔面骨は、class 1であり、下顎骨は、class 2である。例えば、図６の出力２Ｄセグメンテーションにおいて、class 0である確率が最も大きい箇所は、blackで表し、class1である確率が最も大きい箇所は、grayで表し、class 2である確率が最も大きい箇所は、whiteで表す。

【0037】

それぞれの入力ＣＴスライスに対して、出力２Ｄセグメンテーション結果が出力され、前記出力２Ｄセグメンテーション結果を累積して、３Ｄセグメンテーション結果として再建することができる。

【0038】

例えば、前記本実施形態のネットワーク構造の入力である目標スライスのサイズは、前記本実施形態のネットワーク構造の出力である前記出力２Ｄセグメンテーション結果のサイズと同一である。図６において、前記目標スライスのサイズは、５１２＊５１２と表され、前記出力２Ｄセグメンテーション結果のサイズは、５１２＊５１２と表される。前記出力２Ｄセグメンテーション結果は、前記class 0、class 1、class 2の３つのチャンネルを有し、各チャンネルのサイズは、５１２＊５１２である。

【0039】

前記本実施形態のネットワーク構造を詳しくみると、エンコーダの第１のレイヤは、３つの畳み込み演算を含む。エンコーダの第１のレイヤの第１の畳み込み演算は、５１２＊５１２の入力ＣＴスライス５枚を入力されて、５１２＊５１２サイズの６４チャンネルの第１の特性マップを生成する。エンコーダの第１のレイヤの第２の畳み込み演算は、前記第１の特性マップを入力されて、５１２＊５１２サイズの６４チャンネルの第２の特性マップを生成する。エンコーダの第１のレイヤの第３の畳み込み演算は、前記第２の特性マップを入力されて、５１２＊５１２サイズの１２８チャンネルの第３の特性マップを生成する。

【0040】

エンコーダの第１のレイヤの第１の畳み込み演算及び第２の畳み込み演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、エンコーダの第１のレイヤの第３の畳み込み演算は、１＊１畳み込み演算＋Leaky ReLuである。

【0041】

前記第３の特性マップを２＊２最大値プーリングして、２５６＊２５６サイズの１２８チャンネルの第４の特性マップを生成する。前記最大値プーリングにより、前記特性マップの大きさは減少することに対し、チャンネル数は、同じく維持される。

【0042】

エンコーダの第２のレイヤは、３つの畳み込み演算を含む。エンコーダの第２のレイヤの第１の畳み込み演算は、前記第４の特性マップを入力されて、２５６＊２５６サイズの１２８チャンネルの第５の特性マップを生成する。エンコーダの第２のレイヤの第２の畳み込み演算は、前記第５の特性マップを入力されて、２５６＊２５６サイズの１２８チャンネルの第６の特性マップを生成する。スキップ接続により、前記第６の特性マップには、前記第４の特性マップが合算される。エンコーダの第２のレイヤの第３の畳み込み演算は、前記第４の特性マップ及び前記第６の特性マップの和を入力されて、２５６＊２５６サイズの２５６チャンネルの第７の特性マップを生成する。

【0043】

エンコーダの第２のレイヤの第１の畳み込み演算及び第２の畳み込み演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、エンコーダの第２のレイヤの第３の畳み込み演算は、１＊１畳み込み演算＋Leaky ReLuである。

【0044】

このように、前記エンコーダの前記第２のレイヤ内において、第６の特性マップに、前の特性マップである第４の特性マップが合算された後に、前記第３の畳み込み演算に入力されるので、演算が深くなることで生じる情報消失の問題（Degradation）を解決することができる。前記エンコーダの前記第２のレイヤの前記第３の畳み込み演算は、前記第４の特性マップ及び前記第６の特性マップの和を適切に処理するための演算である。

【0045】

前記エンコーダの第５のレイヤは、３つの畳み込み演算を含む。エンコーダの第５のレイヤの第１の畳み込み演算は、前記第１８の特性マップを入力されて、３２＊３２サイズの１０２４チャンネルの第１９の特性マップを生成する。エンコーダの第５のレイヤの第２の畳み込み演算は、前記第１９の特性マップを入力されて、３２＊３２サイズの１０２４チャンネルの第２０の特性マップを生成する。エンコーダの第５のレイヤの第３の畳み込み演算は、前記第２０の特性マップを入力されて、３２＊３２サイズの１０２４チャンネルの第２１の特性マップを生成する。スキップ接続により、前記第２１の特性マップには、前記第１８の特性マップが合算される。

【0046】

前記第１８の特性マップと前記第２１の特性マップの和は、アップスケーリングされて、６４＊６４サイズの５１２チャンネルに変換され、前記アップスケーリングされた６４＊６４サイズの５１２チャンネルに、前記エンコーダの第４のレイヤから入力される６４＊６４サイズの５１２チャンネルの第１６の特性マップが結合される。前記業スケーリングされた６４＊６４サイズの５１２チャンネルに、６４＊６４サイズの５１２チャンネルの第１６の特性マップが結合された結果が、第２２の特性マップである。

【0047】

デコーダの第４のレイヤは、４つの畳み込み演算を含む。デコーダの第４のレイヤの第１の畳み込み演算は、６４＊６４サイズの１０２４チャンネルの前記第２２の特性マップを入力されて、６４＊６４サイズの５１２チャンネルの第２３の特性マップを生成する。デコーダの第４のレイヤの第２の畳み込み演算は、前記第２３の特性マップを入力されて、６４＊６４サイズの５１２チャンネルの第２４の特性マップを生成する。デコーダの第４のレイヤの第３の畳み込み演算は、前記第２４の特性マップを入力されて、６４＊６４サイズの５１２チャンネルの第２５の特性マップを生成する。デコーダの第４のレイヤの第４の畳み込み演算は、前記第２５の特性マップを入力されて、６４＊６４サイズの５１２チャンネルの第２６の特性マップを生成する。スキップ接続により、前記第２６の特性マップには、前記第２２の特性マップが合算される。

【0048】

デコーダの第４のレイヤの第１の畳み込み演算は、１＊１畳み込み演算であり、デコーダの第４のレイヤの第２の畳み込み演算、第３の畳み込み演算、及び第４の畳み込み演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationである。

【0049】

このように、本実施形態のネットワーク構造は、エンコーダの同一レイヤ内で、前の特性マップを現在の特性マップに合算するスキップ接続を含み、前記スキップ接続直後の畳み込み演算は、１＊１畳み込み演算＋Leaky ReLuであり、前記スキップ接続直後の畳み込み演算の結果で、前記特性マップのサイズは同一であるが、前記特性マップのチャンネル数は、２倍に大きくなる。

【0050】

このように、本実施形態のネットワーク構造は、デコーダの同一のレイヤ内で、前の特性マップを現在の特性マップに合算するスキップ接続を含み、前記スキップ接続直後には、デコーダの上位レイヤに移動するアップスケーリング演算が行われる。

【0051】

このように、本実施形態のネットワーク構造は、アップスケーリング演算直後に、前記エンコーダの同一のレイヤから受信した特性マップと、前記アップスケーリングされた特性マップとを結合演算することができる。

【0052】

前記デコーダの前記結合演算直後の畳み込み演算は、１＊１畳み込み演算であり、前記結合演算直後の畳み込み演算の結果で、前記特性マップのサイズは、同一であるが、前記特性マップのチャンネル数は、１/２倍に小さくなる。

【0053】

本実施形態のネットワーク構造の前記エンコーダは、同一のレイヤ内で互いに異なる第１の演算及び第２の演算を含み、前記第１の演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、第２の演算は、１＊１畳み込み演算＋Leaky ReLuである。

【0054】

本実施形態のネットワーク構造の前記デコーダは、同一のレイヤ内で互いに異なる第３の演算及び第４の演算を含み、前記第３の演算は、３＊３畳み込み演算＋Leaky ReLu＋Batch normalizationであり、第４の演算は、１＊１畳み込み演算である。

【0055】

本実施形態では、Dice係数（Dice coefficient）を基にした損失関数を使用している。Dice係数は、２つの対象の間の重畳程度を測定して、分割の性能を評価するに用いられる指標である。本実施形態の損失関数は、多種クラス分割のために最小化する方向に用いられる。損失関数は、式（１）の通りである。

【0056】

［数式１］

【0057】

ここで、Ｎは、１バッチ（Batch）内の画素数、

はクラス１である確率マップ、

は、正解の画素値を意味する。最適化のために、損失関数を最小化する方向にモデルを学習させた。学習率（learning rate）は、１０^－５の値を用いた。
図８は、本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果を示す図である。図９aは、本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。図９ｂは、本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果のうち、下顎骨の分割結果を示す図である。図１０ａは、本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果から、下顎骨を除いた顎顔面骨の分割結果を示す図である。図１０ｂは、本実施形態に係るＣＴ画像の顎顔面骨自動分割の結果から、下顎骨を除いた顎顔面骨の分割結果を示す図である。

【0058】

図６乃至図１０ｂを参照すると、本実施形態の結果検証のために、ＣＴ画像と専門家の手動分割データからなる９７個のデータを用いた。それぞれのＣＴ画像は、５１２＊５１２サイズのスライス１８７個から３７１個で構成されている。画素スペイシングは、０.５ｍｍから１０ｍｍの範囲であり、厚さは、０.３６ｍｍから０.４９ｍｍの範囲である。画像前処理は、－１０００から２５００のHounsfield unitを基準に臨界処理（thresholding）し、０から２５５の間の値に正規化（Normalization）した。

【0059】

ＣＮＮモデルを訓練するために、８５個のデータを使用し（訓練用データ）、訓練中の評価（Validation）のために、５つ（訓練中評価用データ）、最終的なモデルの性能評価実験のために７つ（実験用データ）を用いた。訓練中評価用データと実験用データは、訓練用データから完全に分離して、訓練中にモデルに全く露出されなかった。

【0060】

モデルの分割性能を定量的に評価するために、ＤＣ（Dice coefficient）、９５ＨＤ（９５％ Hausdorff distance）、ＡＳＤ（Average surface distance）を用いた。
ＤＣは、２つの対象の重畳程度を示す指標である。ＤＣは、式（２）のように定義される。

【0061】

［数式２］

【0062】

ＧＴは、手動分割正解（Ground truth）を意味し、ＯＵＴは、モデル出力分割の分類したボクセル（Voxel）の集合を意味する。ＤＣは、０（全く重畳しない）から１（完全に重畳する）の間の値を有する。ＤＣは、１に近いほど、２つの物体の重ね合い程度が大きいということを意味する。

【0063】

９５ＨＤは、２つの物体の表面点の間のＨＤの９５％百分率値をいう。９５ＨＤは、式（３）のように定義される。
［数式３］

【0064】

最大値ではなく、９５％百分率値を用いることは、全体的な分割性能を評価することにおいて、とても小さな不正確な分割部分の外れ値（outlier）が及ぶ影響を減らすためである。

【0065】

ＡＳＤは、ＧＴとＯＵＴの間の平均距離を測定する値であり、式（４）のように定義される。
［数式４］

【0066】

d（out、GT）は、OUTの特定点outからGTの点の間の距離のうち、最小値を意味し、d（gt、OUT）は、GTの特定点gtからOUTの点の間の距離のうち、最小値を意味する。
７つの実験用データに対する正解とモデル出力の間のＤＣ、９５ＨＤ、ＡＳＤと、モデルが分割をすることにかかった時間をまとめた結果を、図８に示している。

【0067】

図９ａは、下顎骨に対して訓練用データ結果のうち、最も高いＤＣを有する場合の正解（Ground Truth）及び出力（Output）を３Ｄレンダリングした結果を示し、図９ｂは、下顎骨に対して訓練用データ結果のうち、で最も低いＤＣを有する場合の正解（Ground Truth）及び出力（Output）を３Ｄレンダリングした結果を示す。ここで、正解と出力の間の距離は、距離マップの形態で現わすことができる。最も高いＤＣを有する場合、ＤＣは、０．９８７、９５ＨＤは、０ｍｍ、ＡＳＤは、０．０１８ｍｍであった。最も低いＤＣを有する場合、ＤＣは、０．９６２、９５ＨＤは、０．４２０ｍｍ、ＡＳＤは、０．０４１ｍｍであった。

【0068】

図１０aは、下顎骨を除いた顎顔面骨に対して、訓練用データ結果のうち、最も高いＤＣを有する場合の正解（Ground Truth）及び出力（Output）を３Ｄレンダリングした結果を示し、図１０ｂは、下顎骨を除いた顎顔面骨に対して、訓練用データ結果のうち、最も低いＤＣを有する場合の正解（Ground Truth）及び出力（Output）を３Ｄレンダリングした結果を示す。ここで、正解と出力の間の距離は、距離マップの形態で現わす。最も高いＤＣを有する場合、ＤＣは、０．９９１、９５ＨＤは、０ｍｍ、ＡＳＤは、０．０２７ｍｍであった。最も低いＤＣを有する場合、ＤＣは、０．９５７、９５ＨＤは、０．４６８ｍｍ、ＡＳＤは、０．０５２ｍｍであった。

【0069】

本実施形態は、従来の下顎骨と、下顎骨を除いた顎顔面骨とを分割する方法に比べて、正確度が向上し、所要の時間を極めて減少することができる。本実施形態の場合、上顎骨又は下顎骨の１つだけを分類（classfy）することではなく、上顎骨と下顎骨の２つを同時に分類することができる。通常、ＣＴにおいて、１つのスライスに上顎の歯牙と下顎の歯牙が同時にある場合が多いが、本実施形態では、歯牙の分割だけでなく、上顎と下顎の分類を同時に行って、全体的な分割性能が高くなる。

【0070】

本実施形態によると、顎顔面骨を含むＣＴ画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができる。そこで、医者の下顎骨及び上顎骨の分割業務に大いに寄与することができる。

【0071】

本発明の一実施形態によると、前述したディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法をコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体を提供することができる。前記方法は、コンピュータで実行可能なプログラムで作成可能であり、コンピュータ読取り可能な媒体を用いて、前記プログラムを動作させる汎用デジタルコンピュータで具現可能である。また、前記方法で用いられたデータの構造は、コンピュータ読取り可能な媒体に多数の手段を通じて記録される。前記コンピュータ読取り可能な媒体は、プログラム命令、データファイル、データ構造などを、単独で又は組み合わせて含む。前記媒体に記録されるプログラム命令は、本発明のために特に設計され構成されたものや、コンピュータソフトウェア分野の通常の技術者に公知されて使用可能なものである。コンピュータ読取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、プロブティコルディスクのような磁気-光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を格納し実行するように特に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラにより作られるような機械語コードだけでなく、インタプリタなどを用いて、コンピュータにより行える高級言語コードを含む。前記ハードウェア装置は、本発明の動作を行うために、１つ以上のソフトウェアモジュールとして作動するように構成することができる。

【0072】

また、前記ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法は、記録媒体に格納されるコンピュータにより実行されるコンピュータプログラム又はアプリケーションの形態にも具現可能である。

【0073】

［産業上の利用可能性］
本発明は、ディープラーニングを用いたＣＴ画像の顎顔面骨自動分割方法、及びこれをコンピュータで実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体に関し、顎顔面骨を含むＣＴ画像において、下顎骨と、前記下顎骨を除いた顎顔面骨とを自動で分割することができ、下顎骨、及び前記下顎骨を除いた顎顔面骨とを分割することにかかる手間を大きく減らすことができる。

【0074】

前記では、本発明の好適な実施形態を参照して説明したが、当該技術分野における熟練した当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で、本発明を様々に修正及び変更できることを理解するだろう。

【図1】