(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-07
(54)【発明の名称】ディープラーニングを使用した非ユークリッド3Dデータセットの自動セマンティックセグメンテーション
(51)【国際特許分類】
G06T 7/10 20170101AFI20220131BHJP
G06T 7/00 20170101ALI20220131BHJP
A61C 19/04 20060101ALI20220131BHJP
【FI】
G06T7/10
G06T7/00 350C
A61C19/04 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021534797
(86)(22)【出願日】2019-12-17
(85)【翻訳文提出日】2021-08-13
(86)【国際出願番号】 EP2019085819
(87)【国際公開番号】W WO2020127398
(87)【国際公開日】2020-06-25
(32)【優先日】2018-12-17
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】520005196
【氏名又は名称】プロマトン・ホールディング・ベー・フェー
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】フランク・テオドルス・カタリーナ・クラーセン
(72)【発明者】
【氏名】ダーフィット・アンサーリ・モイン
(72)【発明者】
【氏名】テオ・ケリーチ
(72)【発明者】
【氏名】ファルハード・ガズヴィニアン・ザンジャニ
【テーマコード(参考)】
4C052
5L096
【Fターム(参考)】
4C052NN02
4C052NN03
4C052NN04
4C052NN15
4C052NN16
5L096FA66
5L096FA69
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
本発明は、点群のセマンティックセグメンテーションのためのコンピュータ実装方法に関し、点群を受信するステップであり、点群は、3D空間内のベクトルを表す点を含み、点は、所定のオブジェクト、好ましくは、歯-顎顔面構造の一部を表し、歯-顎顔面構造は、歯を含む歯列を含む、受信するステップと、不均一再サンプリングアルゴリズムを使用して、点群の1つまたは複数のサブセットを決定するステップであり、1つまたは複数のサブセットの各々は、点群の選択された点の所定の空間距離内に配列された第1の数の点と、所定の空間距離よりも大きい空間距離に配列された第2の数の点とを含み、第1の数の点は、選択された点の周りのオブジェクトの1つまたは複数の微細特徴を表し、第2の数の点は、オブジェクトの1つまたは複数のグローバル特徴を表す、決定するステップと、ディープニューラルネットワークDNNの入力に点の1つまたは複数のサブセットの各々を提供するステップであり、ディープニューラルネットワークは、オブジェクトに関連付けられた複数のクラスに従ってDNNの入力に提供される1つまたは複数のサブセットの各々の点をセマンティックにセグメント化するようにトレーニングされる、提供するステップと、DNNの入力に提供されるサブセットの各点について、DNNの出力で多要素ベクトルを受信するステップであり、ベクトルの各要素は、点がオブジェクトの複数のクラスのうちの1つに属する確率を表す、受信するステップとを含む。
【特許請求の範囲】
【請求項1】
点群のセマンティックセグメンテーションのためのコンピュータ実装方法であって、
点群を受信するステップであって、前記点群は、3D空間内のベクトルによって表される点を含み、前記点は、所定のオブジェクト、好ましくは、歯-顎顔面構造の一部を表し、前記歯-顎顔面構造は、歯を含む歯列を含む、ステップと、
不均一再サンプリングアルゴリズムを使用して、前記点群の1つまたは複数のサブセットを決定するステップであって、前記1つまたは複数のサブセットの各々は、前記点群の選択された点の所定の空間距離内に配列された第1の数の点と、前記所定の空間距離よりも大きい空間距離に配列された第2の数の点とを含み、前記第1の数の点は、前記選択された点の周りの前記オブジェクトの1つまたは複数の微細特徴を表し、前記第2の数の点は、前記オブジェクトの1つまたは複数のグローバル特徴を表す、ステップと、
ディープニューラルネットワークDNNの入力に点の1つまたは複数のサブセットの各々を提供するステップであって、前記ディープニューラルネットワークは、前記オブジェクトに関連付けられた複数のクラスに従って前記DNNの前記入力に提供される前記1つまたは複数のサブセットの各々の点をセマンティックにセグメント化するようにトレーニングされる、ステップと、
前記DNNの前記入力に提供される前記サブセットの各点について、前記DNNの出力で多要素ベクトルを受信するステップであって、前記ベクトルの各要素は、前記点が前記オブジェクトの前記複数のクラスのうちの1つに属する確率を表す、ステップと
を含む、方法。
【請求項2】
前記不均一再サンプリングアルゴリズムは、
前記点群から点をランダムに選択するステップと、
前記ランダムに選択された点から前記所定の距離内に位置する前記点群の点をサンプリングすることによって前記第1の数の点を決定し、かつ前記ランダムに選択された点から前記所定の距離よりも大きい距離に位置する前記点群の点をサンプリングすることによって前記第2の数の点を決定するステップと、
前記第1の点と前記第2の点を点のサブセットに結合するステップと
を含む、請求項1に記載の方法。
【請求項3】
前記所定の空間距離は、乱数、好ましくはモンテカルロ技法に基づいて決定される、請求項1または2に記載の方法。
【請求項4】
前記空間距離は重み付けされた距離関数に基づき、好ましくは前記重み付き距離関数は指数関数であり、より好ましくは前記重み付き距離関数は、式
【数1】
に従って半径方向基底カーネル(RBK)Kを定義し、パラメータσは前記カーネルの帯域幅を制御するために使用される場合がある自由パラメータであり、x
iは点iの位置であり、x
foveaは前記ランダムに選択された点の前記位置である、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記DNNは、1つまたは複数の点群を含むトレーニングセットに基づいてトレーニングされ、前記1つまたは複数の点群の各々は、前記所定のオブジェクトを表し、前記1つまたは複数の点群の各点は、ターゲットラベルに関連付けられ、好ましくは、前記DNNの前記トレーニングは、前記不均一再サンプリングアルゴリズムを使用して、前記1つまたは複数の点群のサブセットを決定することと、前記DNNによって予測されるラベルと前記ターゲットラベルとの間の偏差を表す損失関数を最小化することによって、前記DNNの前記パラメータをトレーニングすることとを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記損失関数は重み付き損失関数(L
p)であり、前記損失関数は重み付き距離関数に基づいて各点への重みを定義し、好ましくは前記重み付き距離関数は指数関数に基づき、より好ましくは前記重み付き距離関数は、式
【数2】
に従って半径方向基底カーネル(RBK)Kを定義し、パラメータσは前記カーネルの前記帯域幅を制御するために使用される場合がある自由パラメータであり、x
iは点iの前記位置であり、x
foveaは前記ランダムに選択された点の前記位置である、請求項5に記載の方法。
【請求項7】
前記DNNは、弁別器ネットワークに基づいてトレーニングされ、前記弁別器ネットワークは、ターゲットラベルと、前記DNNによって生成されたラベルとを区別するように構成され、好ましくはフィードバックモジュールは、ターゲットラベルまたは前記DNNによって生成されたラベルを前記弁別器ネットワークの前記入力にランダムに提供し、それに応答して、前記弁別器ネットワークは、前記弁別器の前記入力が、ターゲットラベルに関連付けられているか、前記DNNによって生成されたラベルに関連付けられているかの指示を生成する、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記DNNは、1つもしくは複数の多層パーセプトロン(MLP)ネットワーク、および/またはpointCNNネットワークの1つもしくは複数のχ-Convオペレータ層を含む、請求項1から7のいずれか一項に記載の方法。
【請求項9】
点群をセマンティックにセグメント化するために、ディープニューラルネットワークDNNをトレーニングするためのコンピュータ実装方法であって、
トレーニングデータを受信するコンピュータであって、前記トレーニングデータは、1つまたは複数の点群を含み、前記1つまたは複数の点群の各々は、所定のオブジェクトを表し、前記1つまたは複数の点群の各点は、ターゲットラベルに関連付けられ、好ましくは前記所定のオブジェクトは、歯-顎顔面構造の一部であり、前記歯-顎顔面構造は、歯を含む歯列を含む、コンピュータと、
不均一再サンプリングアルゴリズムを使用して、前記トレーニングデータの前記1つまたは複数の点群のサブセットを決定するステップであって、前記1つまたは複数のサブセットの各々は、ターゲットラベルに関連付けられ、前記1つまたは複数のサブセットの各々は、前記点群の選択された点の所定の空間距離内に配列された第1の数の点と、前記所定の空間距離よりも大きい空間距離に配列された第2の数の点とを含み、前記第1の数の点は、前記選択された点の周りの前記オブジェクトの1つまたは複数の微細特徴を表し、前記第2の数の点は、前記オブジェクトの1つまたは複数のグローバル特徴を表す、ステップと、
前記1つまたは複数のサブセットのうちの1つを前記DNNの入力に提供し、前記DNNの出力から受信し、前記DNNの前記入力に提供される前記サブセットの各点について、前記DNNの前記出力で多要素ベクトルを受信し、前記ベクトルの各要素が、前記点が前記オブジェクトの前記複数のクラスのうちの1つに属する確率を表し、前記DNNによって予測されたラベルと前記ターゲットラベルとの偏差を表す損失関数を最小化することによって、前記DNNの前記パラメータをトレーニングするステップと
を含む、方法。
【請求項10】
前記不均一再サンプリングアルゴリズムは、
前記点群から点をランダムに選択するステップと、
前記ランダムに選択された点から前記所定の距離内に位置する前記点群の点をサンプリングすることによって、前記第1の数の点を決定し、前記ランダムに選択された点から前記所定の距離よりも大きい距離に位置する前記点群の点をサンプリングすることによって、前記第2の数の点を決定するステップと、
前記第1の点と前記第2の点を点のサブセットに結合するステップと
を含む、請求項9に記載の方法。
【請求項11】
前記損失関数は、重み付き損失関数(L
p)であり、前記損失関数は、重み付き距離関数に基づいて各点への重みを定義し、好ましくは、前記重み付き距離関数は、指数関数に基づき、より好ましくは、前記重み付き距離関数は、式
【数3】
に従って半径方向基底カーネル(RBK)Kを定義し、
パラメータσは前記カーネルの前記帯域幅を制御するために使用される場合がある自由パラメータであり、x
iは点iの前記位置であり、x
foveaは前記ランダムに選択された点の前記位置である、請求項9または10に記載の方法。
【請求項12】
前記DNNは弁別器ネットワークに基づいてトレーニングされ、前記弁別器ネットワークは、ターゲットラベルと、前記DNNによって生成されたラベルとを区別するように構成される、請求項9から11のいずれか一項に記載の方法。
【請求項13】
フィードバックモジュールが、ターゲットラベルまたは前記DNNによって生成されたラベルを特徴抽出モジュールにランダムに提供するステップと、
前記特徴抽出モジュールが、前記受信されたターゲットラベルまたは前記DNNによって生成されたラベルに基づいて1つまたは複数の特徴を決定し、前記1つまたは複数の特徴を前記弁別器ネットワークの前記入力に提供するステップと、
応答して、前記弁別器ネットワークが、前記1つまたは複数の特徴がターゲットラベルに関連付けられているか、前記DNNによって生成されたラベルに関連付けられているかの指示を生成するステップと、
前記DNNの前記入力に前記指示を提供するステップと
を含む、請求項12に記載の方法。
【請求項14】
点群をセマンティックにセグメント化するように適合されたコンピュータシステム、好ましくはサーバシステムであって、前記コンピュータシステムは、
コンピュータ可読プログラムコードが具現化されたコンピュータ可読記憶媒体であって、前記プログラムコードが、不均一サンプリングモジュールと、少なくともトレーニングされたディープニューラルネットワークDNNとを含む、コンピュータ可読記憶媒体と、前記コンピュータ可読プログラムコードと、前記コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくはマイクロプロセッサとを含み、前記第1のコンピュータ可読プログラムコードを実行することに応答して、前記プロセッサは、
点群を受信することであって、前記点群は、3D空間内のベクトルによって表される点を含み、前記点は、所定のオブジェクト、好ましくは歯-顎顔面構造の一部を表し、前記歯-顎顔面構造は、歯を含む歯列を含む、受信することと、
不均一再サンプリングアルゴリズムを使用して、前記点群の1つまたは複数のサブセットを決定することであって、前記1つまたは複数のサブセットの各々は、前記点群の選択された点の所定の空間距離内に配列された第1の数の点と、前記所定の空間距離よりも大きい空間距離に配列された第2の数の点とを含み、前記第1の数の点は、前記選択された点の周りの前記オブジェクトの1つまたは複数の微細特徴を表し、前記第2の数の点は、前記オブジェクトの1つまたは複数のグローバル特徴を表す、決定することと、
ディープニューラルネットワークDNNの入力に点の1つまたは複数のサブセットの各々を提供することであって、前記ディープニューラルネットワークは、前記オブジェクトに関連付けられた複数のクラスに従って前記DNNの前記入力に提供される前記1つまたは複数のサブセットの各々の点をセマンティックにセグメント化するようにトレーニングされる、提供することと、
前記DNNの前記入力に提供される前記サブセットの各点について、前記DNNの出力で多要素ベクトルを受信することであって、前記ベクトルの各要素は、前記点が前記オブジェクトの前記複数のクラスのうちの1つに属する確率を表す、受信することと
を含む実行可能な動作を実行するように構成される、コンピュータシステム。
【請求項15】
コンピュータの前記メモリ内で実行されると、請求項1から13のいずれか一項に記載の前記方法ステップを実行するために構成されたソフトウェアコード部分を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディープラーニングを使用した非ユークリッド3Dデータセットの自動セマンティックセグメンテーションに関し、詳細には、限定されないが、ディープラーニングを使用した非ユークリッド3Dデータセットのセマンティックセグメンテーションのためのシステムおよび方法、そのようなディープラーニングニューラルネットワークをトレーニングするための方法、およびそのような方法を使用するためのコンピュータプログラム製品に関する。
【背景技術】
【0002】
口腔外イメージング(たとえば、X線パノラマ、頭蓋計測およびコーンビームコンピュータ断層撮影)および口腔内イメージング(たとえば、レーザまたは構造化光投影スキャナ)のためのデジタル機器の出現は、患者の画像データ、典型的には3D画像データの異なるソースを分析することができ、そこから有用な臨床情報を抽出するコンピュータ支援歯科治療システムを開発するための駆動力であった。そのようなシステムは、たとえばインプラントおよび/または歯科矯正のための1つまたは複数の臨床ワークフローをサポートする場合があり、その結果、システムは、歯科治療計画を決定するか、または歯科治療計画を決定するのを支援することができる。3D CTスキャンは、非常に有用な情報を提供するが、これらのスキャンの解像度は、患者の歯列およびより一般的な歯-顎顔面構造に関する正確で詳細な情報が不可欠であるエリアにおいて、最適な歯科計画に必要とされる精度および詳細を提供することができない。したがって、その場合、口腔内スキャナによって決定された歯および歯肉(歯茎)のスキャンされた表面の高解像度3Dデータ表現などのより正確なデータソースに依存することが望まれる。
【0003】
そのような3Dデータ表現の正確な自動セマンティックセグメンテーションは、歯科治療システムにとって不可欠な特徴であり、たとえば特定の歯冠に属するすべての点にラベリングするなどの各データ点への国際歯科連盟(FDI)規格に基づくラベルの割当てを含む。FDIは、たとえば健康な成人に存在する可能性のあるような各上顎および下顎の16本の歯を参照して、32個のラベルを指定する。したがって、問題は、大きい3Dデータセット内で複数のクラス(たとえば、16または32のクラスと歯肉用のもの)を見つけることを伴う。歯列を表す3Dデータセットに基づいて正確な3D歯科モデルを構築するとき、いくつかの問題が生じる場合がある。1つの問題は、2つの隣接する歯冠(たとえば、2本の臼歯)の外観が非常に類似している歯列(歯列弓上の歯の配列)に関する。したがって、3Dデータセット内の点に正しいラベルを割り当てるには、歯列弓上の1本または複数本の他の歯に対する1本の歯の相対位置などの追加情報が必要である。さらに、歯列における異常(たとえば、1本または複数本の歯がない)および/または形状変形の存在によって、歯列を表す3Dデータの自動セマンティックセグメンテーションは、コンピュータにとって困難なタスクになる。さらなる問題は、(たとえば、スキャン中の咬合のために)部分的に欠けているデータ、汎用座標系の欠如、ノイズの存在、異常値などのデータ取得に関連する。
【0004】
3D X線データなどの口腔外イメージングデータは、典型的には、ユークリッド型フォーマット、たとえば各ボクセルが3Dグリッド内の所定の位置に関連付けられるボクセル表現で提供される。ディープラーニングを使用して、ボクセル化されたCBCTデータに対して、セマンティックセグメンテーション(分類)を実行することができるシステムが、当技術分野では知られている。たとえば、Miki他、“Classification of teeth in cone-beam CT using deep convolutional neural network"、Computers in Biology and Medicine 80 (2017) 24~29頁による論文には、歯の2D CBCT画像を7つの異なる歯型に分類するようにトレーニングされた2Dディープ畳み込みニューラルネットワークシステムが記載される。ボクセル表現は、データセット内の特徴に関するローカル情報とグローバル情報(たとえば、特定のボクセル表現に対するボクセルに関する情報)の両方を提供するので、ボクセル化3Dデータ表現などのユークリッド型3Dデータセットは、トレーニングされたディープニューラルネットワークによる処理に特に適している。
【0005】
しかしながら、口腔内スキャン機器によって生成される3Dデータセット、たとえば点群または表面メッシュは、非ユークリッド型のものである。たとえば、点群表現では、各点は、普遍的ではない3Dデカルト座標系の3Dベクトルによって表されてもよい(すなわち、デカルト座標系は、2つのIOSデータセット間で異なる場合がある)。同様に、表面メッシュ表現では、3つの点が、3D表面メッシュを構築する三角形表面を定義してもよい。三角形表面に関連付けられた法線ベクトルは、3D空間における配向を定義する。点群および表面メッシュなどの非ユークリッドデータセットは、不規則で、置換不変であり、サンプル当たり可変数の点を有する。その理由のために、非ユークリッドデータセット、たとえば生の点群データは、セグメンテーションなど画像分析のための従来のディープラーニングモデル(たとえばCNN)に直接適用することができない。
【0006】
非ユークリッドデータセットを扱うために、様々なアプローチが提案されてきた。たとえば、米国特許第2017/0169562号は、口腔内光学3Dスキャンに基づく自動歯型認識のためのシステムを記載している。各歯冠の3D表面メッシュが生成され、各歯の集約された特徴を決定するために使用される。次いで、これらの特徴は、サポートベクターマシンまたは決定ツリーなど従来の機械学習方法を利用するトレーニング分類器のためのトレーニングデータとして使用される。同様の特徴ベースのアプローチが(Guo他、2015; Fang他、2015)によって作成され、(たとえば、コンピュータグラフィックアルゴリズムに基づく)標準形状特徴のセットが、点群から抽出され、その後、特徴を分類するために、ニューラルネットワーク(たとえば、CNN)が使用される。そのような特徴に基づくアプローチの性能は、ハンドクラフトされた特徴の識別特性に制限される(Qi他、2017)。ボリュメトリックアプローチでは、点群によって表されるオブジェクトは、ボクセル化され、3D CNNに基づいて3Dモデルを形成するために使用される(Wu他、2015; Qi他、2016)。しかしながら、点群の情報をボクセルに空間的に量子化するプロセスは、特に、点群表現の微細な高周波の詳細を正確な予測のために形状曲率で保持する必要があるとき、モデルの性能を制限する。
【0007】
点群ディープラーニングモデルは、生の点群を直接受信し、処理するように構成される。各点は、たとえば3D座標などの何らかの属性、および場合によっては表面の法線、色などのような他の属性を有していてもよい。点群ディープラーニングは、前述のアプローチに関連付けられた、ハンドクラフトされた特徴、量子化誤差、または高い処理要求に関連するいくつかの欠点を呈さない。オブジェクト分類および/またはセグメンテーションタスクのためのディープニューラルネットワーク(DNN)による点群分析に関するいくつかの研究が発表される。PointNet (Qi他、Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4、2017.)およびDeepSets (Ravanbakhsh他 Deep learning with sets and point clouds. arXiv preprint arXiv:1611.04500、2016)は、いわゆる多層パーセプトロン(MLP)ネットワークに基づくディープニューラルネットワークである。これらのMLPネットワークの性能は、上記のデータの不規則性および置換不変性を処理するための技法に基づいて、LeおよびDuan.(Pointgrid: A deep network for 3d shape understanding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition、9204~9214頁、2018)によって改善される。加えて、ニューラルネットワークの入力に提供される点の数を固定するために、再サンプリング技法が使用された。そのようなアプローチは、多くの用途に適しているが、微細な高解像度の詳細を表す点群を分類する(たとえば、歯と歯肉の境界線に近い点を分類する)ことには適していない。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】米国特許第2017/0169562号
【非特許文献】
【0009】
【非特許文献1】Miki他、“Classification of teeth in cone-beam CT using deep convolutional neural network"、Computers in Biology and Medicine 80 (2017) 24~29頁
【非特許文献2】PointNet (Qi他、Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4、2017.)
【非特許文献3】DeepSets (Ravanbakhsh他 Deep learning with sets and point clouds. arXiv preprint arXiv:1611.04500、2016)
【非特許文献4】LeおよびDuan.(Pointgrid: A deep network for 3d shape understanding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition、9204~9214頁、2018)
【非特許文献5】Li他 PointCNN: convolution on χ-transformed points、arXiv:1801.07791v5 2018年11月5日(Neural Information Processing Systems (NIPS) 2018で公開予定)
【発明の概要】
【発明が解決しようとする課題】
【0010】
上記の問題は、ディープラーニングに基づく大きい高解像度点群の正確なセマンティックセグメンテーションを非常に困難にする。したがって、当技術分野では、ディープラーニングを使用して、非ユークリッド3Dデータセット、たとえば点群のセマンティックセグメンテーションのための改善された方法が必要とされる。
【課題を解決するための手段】
【0011】
当業者によって了解されるように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として具現化されてもよい。したがって、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または、本明細書ですべて一般的に「回路」、「モジュール」、または「システム」と呼ばれる場合があるソフトウェアおよびハードウェアの態様を組み合わせた実施形態の形態をとってもよい。本開示で説明される機能は、コンピュータのマイクロプロセッサによって実行されるアルゴリズムとして実装されてもよい。さらに、本発明の態様は、コンピュータ可読プログラムコードが、たとえばその上に具現化された、たとえば記憶された、1つまたは複数のコンピュータ可読媒体に具現化されたコンピュータプログラム製品の形態をとってもよい。
【0012】
1つまたは複数のコンピュータ可読媒体の任意の組合せが利用されてもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、たとえば限定はしないが、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、あるいは前述の任意の適切な組合せであってもよい。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)には、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または前述の任意の適切な組合せがある。本明細書の文脈では、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、または記憶することができる任意の有形媒体であってもよい。
【0013】
コンピュータ可読信号媒体は、たとえばベースバンドで、または搬送波の一部として、コンピュータ可読プログラムコードが具現化された伝搬データ信号を含んでもよい。そのような伝搬信号は、限定はしないが、電磁、光学、またはそれらの任意の適切な組合せを含む、様々な形態のうちの任意のものでもよい。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを通信、伝搬、またはトランスポートすることができる任意のコンピュータ可読媒体であってもよい。
【0014】
コンピュータ可読媒体上に具現化されるプログラムコードは、限定はしないが、ワイヤレス、ワイヤライン、光ファイバ、ケーブル、RFなどのまたは前述の任意の適切な組合せを含む、任意の適切な媒体を使用して送信されてもよい。本発明の態様のための動作を実行するためのコンピュータプログラムコードは、Java(商標)、Scala、C++、Pythonなどの機能またはオブジェクト指向プログラミング言語、ならびに''C''プログラミング言語または同様のプログラミング言語など従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれてもよい。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、および部分的にリモートコンピュータ上で、または完全にリモートコンピュータ、サーバ、もしくは仮想化サーバ上で実行してもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または外部コンピュータに接続されてもよい(たとえば、インターネットサービスプロバイダを使用してインターネットを介して)。
【0015】
本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して、本発明の態様を以下に説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図のブロックの組合せは、コンピュータプログラム命令によって実装できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータのプロセッサ、他のプログラマブルデータ処理装置、または他のデバイスを介して実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/行為を実装するための手段を作成するように、機械を生成するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサ、特に、マイクロプロセッサもしくは中央処理装置(CPU)、またはグラフィックス処理ユニット(GPU)に提供されてもよい。
【0016】
これらのコンピュータプログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスに、特定の方法で機能するように指示することができるコンピュータ可読媒体に記憶されてもよく、その結果、コンピュータ可読媒体に記憶された命令は、フローチャートおよび/またはブロック図のブロックで指定された機能/行為を実装する命令を含む製造品を生成する。
【0017】
コンピュータプログラム命令はまた、コンピュータまたは他のプログラマブル装置上で実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/行為を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成するために、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップが実行されるように、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされてもよい。
【0018】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表してもよい。また、いくつかの代替的な実装形態では、ブロック内に示された機能は、図に示された順序とは異なる順序で発生してもよいことに留意されたい。たとえば、連続的に示される2つのブロックは、実際には、実質的に同時に実行されてもよく、または、ブロックは、関与する機能に応じて、時には逆の順序で実行されてもよい。また、ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図のブロックの組合せは、指定された機能または行為を実行する専用ハードウェアベースのシステム、または専用ハードウェアとコンピュータ命令との組合せによって実装できることに留意されたい。
【0019】
第1の態様では、本発明は、点群のセマンティックセグメンテーションのためのコンピュータ実装方法に関し、方法は、点群を受信するステップであり、点群は、3D空間内のベクトルを表す点を含み、点は、所定のオブジェクトを表す、受信するステップと、不均一再サンプリングアルゴリズム(non-uniform resampling algorithm)を使用して、点群の1つまたは複数のサブセットを決定するステップであり、1つまたは複数のサブセットの各々は、点群の選択された点の所定の空間距離内に密に配列された第1の数の点と、所定の空間距離よりも大きい空間距離に疎に配列された第2の数の点とを含み、第1の数の点は、選択された点の周りのオブジェクトの1つまたは複数の微細特徴を表し、第2の数の点は、オブジェクトの1つまたは複数のグローバル特徴を表す、決定するステップと、ディープニューラルネットワークDNNの入力に点の1つまたは複数のサブセットの各々を提供するステップであり、ディープニューラルネットワークは、オブジェクトに関連付けられた複数のクラスに従ってDNNの入力に提供される1つまたは複数のサブセットの各々の点をセマンティックにセグメント化するようにトレーニングされる、提供するステップと、DNNの入力に提供されるサブセットの各点について、DNNの出力で多要素ベクトルを受信するステップであり、ベクトルの各要素は、点がオブジェクトの複数のクラスのうちの1つに属する確率を表す、受信するステップとを含む。
【0020】
一実施形態では、第1の数の点は、第2の数の点よりも大きい。
【0021】
点群は、典型的には、ニューラルネットワークによって一度に処理することができる量よりも多くの点を含む。点群内のすべての点の完全なセグメンテーションを取得するために、点群は、点の複数のサブセットにサンプリングされてもよい。これらのサブセットは、個々にセグメント化され、それらの結果として生じるセグメンテーションを、完全な点群セグメンテーションを形成するために組み合わせることができる。サブセットへの分割により、点群内のグローバル特徴に関するコンテキスト情報が失われる。
【0022】
この問題に対処するために、不均一再サンプリングを使用して、点群からの点のサブセットを再サンプリングし、次いでサブセットを、セグメンテーションモジュールのディープニューラルネットワークの入力に直接供給することができる。不均一再サンプリングは、点群セットのサイズに対処するために必要とされる。さらに、データの不規則性、置換不変性、および異なる点群セットの可変数の点に対処するために必要とされる。不均一再サンプリングアルゴリズムは、局所的に密な、およびグローバルに疎な点のサブセットを生成する。このようにして、点のサブセットは、局所的で微細な詳細とグローバル形状構造の両方を伴う、異なるレベルの空間解像度を含む固定サイズの再サンプリングされた点群を定義する。これらの微細な詳細およびグローバル形状情報は、ディープニューラルネットワークをトレーニングするために使用されてもよい。不均一再サンプリングは、局所的で微細な詳細とグローバル形状構造の両方を伴う、異なるレベルの空間解像度を含む固定サイズの再サンプリングされた点群上のネットワークの、たとえば3D点群IOSのセマンティックセグメンテーションに対するディープラーニングアプローチのトレーニングおよび展開を容易にする可能性がある。一実施形態では、オブジェクトは、歯-顎顔面構造の一部であってもよく、歯-顎顔面構造は、歯を含む歯列を含む。本発明は、不規則な高解像度点群表現のセマンティックセグメンテーションに使用されてもよい。
【0023】
一実施形態では、不均一再サンプリングアルゴリズムは、点群から点をランダムに選択することと、ランダムに選択された点から所定の距離内に位置する点群の点を密にサンプリングすることによって、第1の数の点を決定し、ランダムに選択された点から所定の距離よりも大きい距離に位置する点群の点を疎にサンプリングすることによって、第2の数の点を決定することと、第1の点と第2の点を点のサブセットに結合することとを含んでもよい。
【0024】
一実施形態では、所定の空間距離は、乱数、好ましくはモンテカルロ技法に基づいて決定されてもよい。
【0025】
一実施形態では、空間距離は、重み付き距離メトリックに基づいてもよい。一実施形態では、重み付き距離メトリックは、指数関数に基づいてもよい。さらなる実施形態では、重み付き距離メトリックは、次の式に従って半径方向基底カーネル(radial basis kernel:RBK)Kを定義してもよい。
【0026】
【0027】
ここで、パラメータσはカーネルの帯域幅を制御するために使用される場合がある自由パラメータであり、xiは点iの位置であり、xfoveaはランダムに選択された点の位置である。
【0028】
一実施形態では、DNNは、1つまたは複数の点群を含むトレーニングセットに基づいてトレーニングされ、1つまたは複数の点群の各々は、所定のオブジェクトを表し、1つまたは複数の点群の各点は、ターゲットラベルに関連付けられ、好ましくは、DNNのトレーニングは、不均一再サンプリングアルゴリズムを使用して、1つまたは複数の点群のサブセットを決定することと、DNNによって予測されるラベルとターゲットラベルとの間の偏差を表す損失関数を最小化することによって、DNNのパラメータをトレーニングすることとを含む。
【0029】
一実施形態では、損失関数は、重み付き損失関数(Lp)でもよく、損失関数は、距離メトリックに基づいて各点に対する重みを定義する。一実施形態では、重み付き距離メトリックは、指数関数に基づいてもよく、より好ましくは、重み付き距離メトリックは、次の式に従って半径方向基底カーネル(RBK)Kを定義する。
【0030】
【0031】
ここで、パラメータσはカーネルの帯域幅を制御するために使用される場合がある自由パラメータであり、xiは点iの位置であり、xfoveaはランダムに選択された点の位置である。
【0032】
一実施形態では、DNNは弁別器ネットワークに基づいてトレーニングされてもよく、弁別器ネットワークは、ターゲットラベルと、DNNによって生成されたラベルとの間、またはターゲットラベルに関連付けられた少なくとも1つの特徴と、DNNによって生成されたラベルに関連付けられた少なくとも1つの特徴との間を区別するように構成される。インスタンス(たとえば、歯)間の相対的な幾何学的構造が定式化されていないので、点群のセマンティックセグメンテーションのための点ごとのクロスエントロピー損失は、不良設定問題である。したがって、通常、重い後処理段階(たとえば、関係モデリングのために構築されたグラフの反復エネルギー最小化)が適用される。敵対的設定における弁別器として二次(ディープニューラル)ネットワークをトレーニングし、歯列弓上の歯に割り当てられたラベルの非現実的な配列にペナルティを課すことによって、結果が大幅に改善される場合がある。実験は、0.94のIOUスコアを達成することによって、ベースラインネットワークの性能が向上し、最新技術の性能を上回ることを示す。
【0033】
一実施形態では、フィードバックモジュールは、ターゲットラベルまたはDNNによって生成されたラベルを弁別器ネットワークの入力にランダムに提供し、それに応答して、弁別器ネットワークは、弁別器の入力がターゲットラベルに関連付けられているか、またはDNNによって生成されたラベルに関連付けられているかの指示を生成する。
【0034】
さらなる態様では、本発明は、点群をセマンティックにセグメント化するために、ディープニューラルネットワークDNNをトレーニングするためのコンピュータ実装方法に関していてもよく、方法は、トレーニングデータを受信するステップであり、トレーニングデータは、1つまたは複数の点群を含み、1つまたは複数の点群の各々は、所定のオブジェクトを表し、1つまたは複数の点群の各点は、ターゲットラベルに関連付けられ、好ましくは、所定のオブジェクトは、歯-顎顔面構造の一部であり、歯-顎顔面構造は、歯を含む歯列を含む、受信するステップと、不均一再サンプリングアルゴリズムを使用して、トレーニングデータの1つまたは複数の点群のサブセットを決定するステップであり、1つまたは複数のサブセットの各々は、ターゲットラベルに関連付けられ、1つまたは複数のサブセットの各々は、点群の選択された点の所定の空間距離内に密に配列された第1の数の点と、所定の空間距離よりも大きい空間距離に疎に配列された第2の数の点とを含み、第1の数の点は、選択された点の周りのオブジェクトの1つまたは複数の微細特徴を表し、第2の数の点は、オブジェクトの1つまたは複数のグローバル特徴を表す、決定するステップと、1つまたは複数のサブセットのうちの1つをDNNの入力に提供し、DNNの出力から受信し、DNNの入力に提供されるサブセットの各点について、DNNの出力で多要素ベクトルを受信し、ベクトルの各要素が、点がオブジェクトの複数のクラスのうちの1つに属する確率を表し、DNNによって予測されたラベルとターゲットラベルとの偏差を表す損失関数を最小化することによって、DNNのパラメータをトレーニングするステップとを含む。
【0035】
一実施形態では、不均一再サンプリングアルゴリズムは、点群から点をランダムに選択することと、ランダムに選択された点から所定の距離内に位置する点群の点を密にサンプリングすることによって、第1の数の点を決定し、ランダムに選択された点から所定の距離よりも大きい距離に位置する点群の点を疎にサンプリングすることによって、第2の数の点を決定することと、第1の点と第2の点を点のサブセットに結合することとを含んでもよい。
【0036】
一実施形態では、損失関数は重み付き損失関数(Lp)でもよく、損失関数は距離メトリックに基づいて各点への重みを定義し、好ましくは、重み付き距離メトリックは指数関数に基づき、より好ましくは、重み付き距離メトリックは次の式に従って半径方向基底カーネル(RBK)Kを定義する。
【0037】
【0038】
ここで、パラメータσはカーネルの帯域幅を制御するために使用される場合がある自由パラメータであり、xiは点iの位置であり、xfoveaはランダムに選択された点の位置である。
【0039】
一実施形態では、DNNは弁別器ネットワークに基づいてトレーニングされてもよく、弁別器ネットワークは、ターゲットラベルと、DNNによって生成されたラベルとの間、またはターゲットラベルに関連付けられた少なくとも1つの特徴と、DNNによって生成されたラベルに関連付けられた少なくとも1つの特徴との間を区別するように構成される。
【0040】
一実施形態では、方法は、フィードバックモジュールが、ターゲットラベルまたはDNNによって生成されたラベルを特徴抽出モジュールにランダムに提供するステップと、特徴抽出モジュールが、受信されたターゲットラベルまたはDNNによって生成されたラベルに基づいて、1つまたは複数の特徴を決定し、1つまたは複数の特徴を弁別器ネットワークの入力に提供するステップと、応答して、弁別器ネットワークが、1つまたは複数の特徴がターゲットラベルに関連付けられているか、DNNによって生成されたラベルに関連付けられているかの指示を生成するステップと、DNNの入力に指示を提供するステップとを含んでもよい。
【0041】
点ごとの分類損失に加えて、敵対的設定においてDNNをトレーニングするために、敵対的損失が使用されてもよい。このようにして、セグメンテーションネットワークは、ラベリング空間の現実的なレイアウトを学習し、高レベルのセマンティクスを伴い、歯列弓上の歯ラベルの有効な配列を保持することによって、点の分類を改善する権限を与えられる。
【0042】
さらなる態様では、本発明は、点群をセマンティックにセグメント化するように適合されたコンピュータシステム、好ましくはサーバシステムに関していてもよく、コンピュータシステムは、コンピュータ可読プログラムコードが具現化されたコンピュータ可読記憶媒体であり、プログラムコードが、不均一サンプリングモジュールと、少なくともトレーニングされたディープニューラルネットワークDNNとを含む、コンピュータ可読記憶媒体と、コンピュータ可読プログラムコードと、コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくはマイクロプロセッサとを含み、第1のコンピュータ可読プログラムコードを実行することに応答して、プロセッサは、点群を受信することであり、点群は、3D空間内のベクトルを表す点を含み、点は、所定のオブジェクト、好ましくは、歯-顎顔面構造の一部を表し、歯-顎顔面構造は、歯を含む歯列を含む、受信することと、不均一再サンプリングアルゴリズムを使用して、点群の1つまたは複数のサブセットを決定することであり、1つまたは複数のサブセットの各々は、点群の選択された点の所定の空間距離内に密に配列された第1の数の点と、所定の空間距離よりも大きい空間距離に疎に配列された第2の数の点とを含み、第1の数の点は、選択された点の周りのオブジェクトの1つまたは複数の微細特徴を表し、第2の数の点は、オブジェクトの1つまたは複数のグローバル特徴を表す、決定することと、ディープニューラルネットワークDNNの入力に点の1つまたは複数のサブセットの各々を提供することであり、ディープニューラルネットワークは、オブジェクトに関連付けられた複数のクラスに従ってDNNの入力に提供される1つまたは複数のサブセットの各々の点をセマンティックにセグメント化するようにトレーニングされる、提供することと、DNNの入力に提供されるサブセットの各点について、DNNの出力で多要素ベクトルを受信することであり、ベクトルの各要素は、点がオブジェクトの複数のクラスのうちの1つに属する確率を表す、受信することとを含む実行可能な動作を実行するように構成される。
【0043】
またさらなる態様では、本発明は、点群をセマンティックにセグメント化するためにディープニューラルネットワークDNNをトレーニングするように適合されたコンピュータシステム、好ましくはサーバシステムに関していてもよく、コンピュータシステムは、コンピュータ可読プログラムコードが具現化されたコンピュータ可読記憶媒体であり、プログラムコードが、不均一サンプリングモジュールと、少なくともトレーニングされたディープニューラルネットワークDNNとを含む、コンピュータ可読記憶媒体と、コンピュータ可読プログラムコードと、コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくはマイクロプロセッサとを含み、第1のコンピュータ可読プログラムコードを実行することに応答して、プロセッサは、トレーニングデータを受信することであり、トレーニングデータは、1つまたは複数の点群を含み、1つまたは複数の点群の各々は、所定のオブジェクトを表し、1つまたは複数の点群の各点は、ターゲットラベルに関連付けられ、好ましくは、所定のオブジェクトは、歯-顎顔面構造の一部であり、歯-顎顔面構造は、歯を含む歯列を含む、受信することと、不均一再サンプリングアルゴリズムを使用して、トレーニングデータの1つまたは複数の点群のサブセットを決定することであり、1つまたは複数のサブセットの各々は、ターゲットラベルに関連付けられ、1つまたは複数のサブセットの各々は、点群の選択された点の所定の空間距離内に密に配列された第1の数の点と、所定の空間距離よりも大きい空間距離に疎に配列された第2の数の点とを含み、第1の数の点は、選択された点の周りのオブジェクトの1つまたは複数の微細特徴を表し、第2の数の点は、オブジェクトの1つまたは複数のグローバル特徴を表す、決定することと、1つまたは複数のサブセットのうちの1つをDNNの入力に提供し、DNNの出力から受信し、DNNの入力に提供されるサブセットの各点について、DNNの出力で多要素ベクトルを受信し、ベクトルの各要素が、点がオブジェクトの複数のクラスのうちの1つに属する確率を表し、DNNによって予測されるラベルとターゲットラベルとの間の偏差を表す損失関数を最小化することによって、DNNのパラメータをトレーニングすることとを含む実行可能な動作を実行するように構成される。
【0044】
一実施形態では、上述のDNNは、1つもしくは複数の多層パーセプトロン(MLP)ネットワーク、および/またはpointCNNネットワークの1つもしくは複数のχ-Convオペレータ層を含んでもよい。さらなる実施形態では、上述の弁別器ネットワークは、1つまたは複数の多層パーセプトロン(MLP)ネットワークを含んでもよい。ディープニューラルネットワークは、「生の」点群データを直接処理するように構成されてもよい。一実施形態では、ディープニューラルネットワークは、多層パーセプトロン(MLP)ネットワークを含んでもよい。さらなる実施形態では、ディープニューラルネットワークは、Li他 PointCNN: convolution on χ-transformed points、arXiv:1801.07791v5 2018年11月5日(Neural Information Processing Systems (NIPS) 2018で公開予定)による論文に記載されるように、pointCNNネットワークとして構成されてもよい。一実施形態では、pointCNNネットワークは、歯列を表すIOSデータの正確なセマンティックセグメンテーションを提供する弁別器ネットワークを使用して敵対的設定でトレーニングされてもよい。
【0045】
本発明は、IOS点群から導出された点群からの個々の歯および歯肉のセマンティックセグメンテーションのためのエンドツーエンドディープラーニングフレームワークに関する。不均一再サンプリング技法を導入することによって、モデルは、IOSのグローバルな粗い構造とともに局所的な微細な詳細を学習する、利用可能な最高の空間解像度でトレーニングされ、展開されてもよい。
【0046】
また、本発明は、コンピュータのメモリ内で実行されると、上述の方法のいずれかを実行するように構成されたソフトウェアコード部分を含むコンピュータプログラム製品に関する場合もある。
【0047】
本発明は、本発明による実施形態を概略的に示す添付の図面を参照してさらに説明される。本発明は、これらの特定の実施形態に何ら限定されるものではないことが理解されよう。
【図面の簡単な説明】
【0048】
【
図1A】本発明の一実施形態によるシステムを示す図である。
【
図1B】本発明の一実施形態によるシステムを示す図である。
【
図2】本発明の一実施形態による、点群の不均一なサンプルを決定するための方法の流れ図である。
【
図3】本発明の一実施形態による、不均一再サンプリング方法を示す図である。
【
図4】本発明の一実施形態による、ディープニューラルネットワークをトレーニングする方法を示す図である。
【
図5】本発明の一実施形態において利用される場合があるサンプリングの含意を示す図である。
【
図6】本発明の一実施形態による、3D歯-顎顔面構造の分類およびセグメンテーションのためのコンピュータシステムを概略的に示す図である。
【
図7】本発明の一実施形態において利用される場合がある、セグメンテーションのためのニューラルネットワークアーキテクチャを示す図である。
【
図8】本発明の一実施形態において利用される場合がある弁別器ネットワークを示す図である。
【
図9】本発明の一実施形態によるシステムによるセグメント化された点群データの例を示す図である。
【
図10】精度を示す目的で、セグメント化された点群データの例を示す図である。
【
図11】本開示で説明される方法およびソフトウェア製品を実行するために使用される場合がある例示的なデータコンピューティングシステムを示すブロック図である。
【発明を実施するための形態】
【0049】
本開示では、非ユークリッド3Dデータセットの正確なセマンティックセグメンテーションのために1つまたは複数のディープニューラルネットワーク(DNN)を使用するコンピュータシステムおよびコンピュータ実装方法の実施形態について記載される。ここで、非ユークリッド3Dデータセットは、オブジェクトの3D表現を定義するデータセットを指し、データセットは、点の集合を含み、各点は、汎用ではない3Dデカルト座標系(すなわち、デカルト座標系は、2つのIOSデータセット間で異なることが可能である)におけるベクトルによって表されてもよい。そのような非ユークリッド3Dデータセットの例には、点群および3D表面メッシュがある。ここで、3D表面メッシュは、3D空間における表面メッシュを集合的に記述する三角形表面を定義する点を含む。三角形表面に関連付けられた法線ベクトルは、3D空間における配向を定義する。ボクセル表現などのユークリッド3Dデータセットとは対照的に、点群および表面メッシュ表現などの非ユークリッドデータセットは、不規則で、置換不変であり、サンプル当たり可変数の点を有していてもよく、ここでのサンプルは、表面の表現を意味することを意図し、点の数は、同じ表面を記録(サンプリング)する複数のインスタンスにわたって可変である。本出願では、点群という用語は、3D空間内のベクトルを定義する点に基づいて、3D空間内のオブジェクトを表すための任意の非ユークリッド3Dデータセットを指すために使用される。
【0050】
本発明によるコンピュータシステムは、点群の不均一なサンプル(元の点群のサブセット)を生成するための少なくとも不均一再サンプリングモジュールを含んでもよく、各サンプル(サブセット)は、一定の数の点を有し、不均一再サンプリングは、点群の特定の点の周りの密な局所情報と、点群によって表される、たとえば歯列などのオブジェクトのグローバル形状に関連付けられた疎なグローバル情報とを含む。さらに、本発明によるコンピュータシステムは、少なくとも、その入力において点群データの再サンプリングされたサブセットを受信し、トレーニングセットのラベルに従って、再サンプリングされたサブセットの各点にラベル付けするようにトレーニングされるディープニューラルネットワークを含むセグメンテーションモジュールを含んでもよい。ディープニューラルネットワークは、「生の」点群データを直接処理するように構成されてもよい。一実施形態では、ディープニューラルネットワークは、多層パーセプトロン(MLP)ネットワークを含んでもよい。さらなる実施形態では、ディープニューラルネットワークは、Li他 PointCNN: convolution on χ-transformed points、 arXiv:1801.07791v5 2018年11月5日(Neural Information Processing Systems (NIPS) 2018で公開予定)による論文に記載されるように、pointCNNネットワークとして構成されてもよい。一実施形態では、pointCNNネットワークは、歯列を表すIOSデータの正確なセマンティックセグメンテーションを提供する弁別器ネットワークを使用して敵対的設定でトレーニングされてもよい。そのようなネットワークの例は、
図7および
図8を参照してより詳細に説明される。3D点群のラベル付けされたトレーニングデータの不均一に再サンプリングされたサブセットは、歯列を表すIOS点群データセットなどの高解像度点群データセットを正確にセグメント化することができる、トレーニングされたセグメンテーションディープニューラルネットワークをもたらす可能性がある。コンピュータシステム、不均一再サンプリングモジュール、セグメンテーションモジュール、およびセグメンテーションモジュールのニューラルネットワークのトレーニングについて、以下でより詳細に説明する。
【0051】
図1Aおよび
図1Bは、本発明の一実施形態によるシステムを示す。特に、
図1Aおよび
図1Bは、非ユークリッド3Dデータセット、たとえば点群および/または3D表面メッシュの自動セマンティックセグメンテーションのためのシステム100を示す。このシステムは、メモリ103に接続された1つまたは複数の処理ユニット101を含む1つまたは複数のコンピュータ上に実装されてもよい。システムは、1つまたは複数の非ユークリッド3Dデータセット(の一部)を入力として受信し、トレーニングされたモデルに従ってデータを処理するようにトレーニングされる可能性のある3Dディープニューラルネットワークを含む、複数のモジュールを実行するように構成されてもよい。システムは、1つまたは複数の記憶ユニット、たとえばデータベースを含む、データ記憶および検索システム、たとえばデータベースシステムなどに接続されたスタンドアロンシステム(たとえば、サーバシステムまたはクラウドアプリケーションなどのネットワークアプリケーション)として実装されてもよい。
図1Aおよび
図1Bに示すように、システムは、不均一再サンプリングモジュール104と、不均一再サンプリングモジュールによって生成された、再サンプリングされたデータ、たとえば不均一再サンプリングされた点群または3D表面メッシュデータを(一時的に)記憶するためのストレージ106(たとえば、バッファまたはキャッシュ)と、再サンプリングされたデータのセマンティックセグメンテーションのためのディープニューラルネットワーク(DNN)を含むセグメンテーションモジュール108とを含んでもよい。
【0052】
点群は、典型的には、ニューラルネットワークによって一度に処理することができる量よりも多くの点を含む。点群内のすべての点の完全なセグメンテーションを取得するために、点群は、点の複数のサブセットにサンプリングされてもよい。これらのサブセットは、個々にセグメント化され、それらの結果として生じるセグメンテーションを、完全な点群セグメンテーションを形成するために組み合わせることができる。サブセットへの分割により、点群内のグローバル特徴に関するコンテキスト情報が失われる場合がある。
【0053】
この問題に対処するために、不均一再サンプリングモジュールは、点群から点のサブセットを再サンプリングするように構成され、点のサブセットは、セグメンテーションモジュールのディープニューラルネットワークの入力に直接供給することができるサイズのものである。不均一再サンプリングは、点群のサイズ、データの不規則性、置換不変性、および異なる点群の可変数の点に対処するために必要とされる。不均一再サンプリングアルゴリズムは、局所的に密な、およびグローバルに疎な点のサブセットを生成するように構成されてもよい。このようにして、点のサブセットは、局所的で微細な詳細とグローバル形状構造の両方を伴う、異なるレベルの空間解像度を含む固定サイズの再サンプリングされた点群を定義してもよい。これらの微細な詳細およびグローバル形状情報は、ディープニューラルネットワークをトレーニングするために使用されてもよい。不均一再サンプリングは、
図2および
図3を参照して以下により詳細に説明される。
【0054】
システムは、トレーニングモーダスおよび推論モーダスを含んでもよい。
図1Aは、トレーニングモーダスにおけるシステムを示す。このモーダスでは、システムは、ラベル付けされた点群トレーニングデータ102を使用して、セグメンテーションモジュールのDNNをトレーニングするように構成される。ディープニューラルネットワークがトレーニングされると、システムの推論モーダスを使用して、トレーニングされた3Dモデルを、
図1Bに示すような新しい点群データに適用してもよい。
【0055】
図1Aに示すように、トレーニングモーダスでは、いわゆる弁別器ネットワーク110、すなわち二次ディープニューラルネットワークを使用して、セグメンテーションモジュール108のディープニューラルネットワーク(生成器ネットワーク)のトレーニングを支援してもよい。このようにして、トレーニングされたニューラルネットワークは、セグメンテーションモジュールの入力に提供される再サンプリングされた点群データ106からラベル114を正確に予測することができる。トレーニングデータ102は、複数の点群データセットを含んでもよく、各セットは歯列を表す。そのようなデータは、高解像度点群データを生成することができる口腔内スキャナ(IOS)によって生成されてもよい。トレーニングデータの各点群データセットの点は、歯のクラス、いわゆるターゲットラベルに基づいてラベル付けされてもよい。たとえば、ターゲットラベルは、健康な成人の歯列の場合、各上顎および下顎の16本の歯を指す32個のラベルを定義する国際歯科連盟(FDI)規格に基づいてもよい。
【0056】
トレーニングデータは、ランダム3D回転、置換、および/または各点の位置への人工的ノイズ(ジッタ)の追加を含む様々な動作によって増補されてもよい。さらに、インスタンスドロップアウトをデータセットに適用してもよい。ここでのそのようなインスタンスのドロップアウトは、トレーニングデータの各バッチにおいて、すべての点、または特定の歯に属する点の少なくともかなりの部分を点群からランダムに除去することを意味することを意図している。増強は、ディープニューラルネットワークが、トレーニングセットに欠けており、トレーニングセット内で発生しないラベルを学習するのを助ける場合がある。一実施形態では、前処理ステップを点群データセットに適用して、データが正規化されるようにしてもよく、より具体的には、点セット内でデータが平均近似0および単位分散(可能な限り1に近づく標準偏差)を有するように、点を表すベクトルの正規化。
【0057】
したがって、セグメンテーションモジュール108のDNNは、点群データセット内の各点について、適切なクラス(たとえば、16または32のクラスに歯肉用のものを加えたもの)を予測するようにトレーニングされる。トレーニングデータは、モデル(ニューラルネットワークのたとえば重みなどのネットワークパラメータによって表される)を多数回繰り返し更新するために使用される。既知の確率的勾配降下最適化方法を使用して、ニューラルネットワークの出力と正しいラベルとの間の誤差を低減することによって、DNNのネットワークパラメータの最も有益な値を学習するようにしてもよい。誤り率が減少するのを停止すると、ネットワークのトレーニングフェーズは完了したものとみなされる場合がある。所定の損失関数を使用して、確率的勾配降下最適化方法で使用される誤差を決定してもよい。
【0058】
トレーニング中、生成器ネットワーク(セグメンテーションモジュールのDNN)は、点群トレーニングデータの不均一なサブサンプルを受信してもよい。加えて、生成器ネットワークは、弁別器ネットワーク110からフィードバックを受信してもよい。弁別器ネットワークの主なタスクは、それが入力として受信する予測ラベルが、その出力から生成器ネットワークによって生成されたラベルであるか、トレーニングデータの一部であるターゲットラベルであるかを区別することである。したがって、その場合、ターゲットラベルは、生成器ネットワークをトレーニングするためのグランドトゥルースとして使用される。弁別器は、それが与えた出力が正しかったかどうか、すなわち、弁別器が指示したように、点ラベルが実際に「予測された」ものであったか「実際の」ものであったかのフィードバックを受信する。この情報は、生成器と弁別器の両方が所与のフィードバックから学習するので、生成器ネットワークが不均一なサブサンプルの点のラベリングを効果的に学習するのを助ける。
【0059】
弁別器ネットワークは、ターゲットラベルと生成器ネットワークによって予測されるラベルとを区別するように構成される。トレーニング中、フィードバックモジュール112は、ターゲットラベルまたは生成器ネットワークの出力ラベルのいずれかを弁別器ネットワークに(ランダムに)提示する。これに応答して、弁別器ネットワークは、弁別器の入力が、生成器ネットワークによって生成された「実際の」ラベルに関連付けられているか、予測ラベルに関連付けられているかの指示を生成する。次いで、弁別器ネットワークは、それが受信する情報が実際のものであるか、または訂正されたものであるかを示す「スコア」を生成する。たとえば、一実施形態では、弁別器は、ゼロと1との間の出力を有していてもよく、''1''は、情報がターゲットラベルに関連することを示し、''0''は、情報が生成器ネットワークによって予測されるラベルに関連付けられていることを示してもよい。トレーニング中に、生成器ネットワークが、弁別器がターゲットラベルと区別することができる予測ラベルを生成した場合、これは、予測ラベルが十分に「現実的」ではないというシステムの信号となる。したがって、このようにして、生成器ネットワークは、トレーニングデータのターゲットラベルに類似する予測ラベルを生成するように刺激される。
【0060】
生成器ネットワークによって生成される予測がより現実的であるほど、弁別器が両者を区別することがより困難になる。したがって、両者を区別する弁別器の能力は、生成器によって生成されるラベルの品質の尺度である。この情報は、バックプロパゲーションを介して、弁別器ならびに生成器ネットワークにフィードバックされてもよい。このようにして、生成器は、再サンプリングされたサブセットの点を異なる歯科クラスにセマンティックに分類するための正確なラベルを生成するようにトレーニングされる。バックプロパゲーション方法で使用される損失関数は、セグメンテーションネットワークがラベリング空間の現実的なレイアウトを学習することを可能にし、高レベルのセマンティクスを伴い、歯列弓上の歯ラベルの有効な配列を保持することによって、点の分類を改善するための、点ごとの分類損失および敵対的損失を含んでもよい。システムのトレーニングモーダスおよび損失関数は、
図4および
図5を参照して以下により詳細に説明される。
【0061】
推論モーダスでは、システムは、新しい点群データ120、たとえば歯列を表すIOS点群を不均一再サンプリングモジュール104の入力に提供するように構成される。再サンプリングされたデータ、たとえば再サンプリングされた点群データセット106(入力に提供された点群の不均一に再サンプリングされたサブセットを表す)は、セグメンテーションモジュール108の入力に提供されてもよく、トレーニングされたディープニューラルネットワークは、点のサブセットの各点についてのラベルを予測する。ラベリングプロセスは、入力点群のすべての点がトレーニングされたニューラルネットワークによってラベル付けされるまで、点群の異なるサブセットに適用されてもよい。システムの干渉プロセスおよび例示的なセグメンテーション出力は、
図6および
図9を参照して以下に説明される。
【0062】
すでに簡単に上述したように、IOS点群の点のすべてまたは少なくともかなりの部分に基づくディープラーニングモデルをトレーニングすることは、大型の高解像度点群データセットの性質に関連する問題を導入する可能性がある。たとえば、異なるIOSデータセットの点の数はかなり異なる可能性がある(たとえば、100,000点~500,000点またはそれよりも大きい)という事実のために、原則として、ランキングが変動する行列を処理する必要がある。加えて、ハードウェア制限は、処理可能な点群のサイズに対する最大値を必要とする場合がある。そのような問題は、大型の画像データセットでは一般的なパッチ分類技法を使用して解決される可能性がある。この技法は、点群を再サンプリングし、各サブセットの各データ点を分類することによって、いくつかのパッチ(大きいデータセットの局所サブセット)を決定することに依存する。しかしながら、抽出されたパッチ(点群の局所サブセット)は、点群が表すオブジェクトのグローバル構造に関する十分な情報を提供しないので、そのような技法の使用は、分類結果を低下させる可能性がある。
【0063】
したがって、高解像度点群の従来の均一な再サンプリングは、その最高の利用可能な解像度での点群の正確な分析をもたらさない。高周波成分(Chen他, 2018; Huang他, 2013)または局所指向性密度(Skrodzki他, 2018)を保持するために、様々な不均一再サンプリング方法が提案される。しかしながら、ディープニューラルネットワークの性能に対するそのようなデータ抽象化方法(すなわち、最も関連する情報を保持しながらデータを削減すること)の有効性は明らかではない。さらに、そのようなアプローチは、その目的関数に関してネットワーク自体によってそのような抽象化レベルを実行させることによって、生データに直接適用されるエンドツーエンド学習スキームを設計することには適していない。そのようなネットワークによって生成される所望の結果に直接基づいて、関連する抽象化を推論できることが有益であると考えられる場合がある。
【0064】
上述の問題を解決するために、モンテカルロサンプリング技法に基づく不均一再サンプリング方法が使用されてもよい。以下でより詳細に説明するように、そのようなモンテカルロサンプリング技法は、高解像度点群に不均一再サンプリング方法を適用することを可能にし、その結果、そのようなデータを処理することができるディープニューラルネットワークを効率的にトレーニングするための局所的に密な、およびグローバルに疎な点のサブセットが得られる。点群は、N個の点を有する行列X=[x1,x2,...,xN]として表されてもよく、各点は、D個の属性に関連付けられてもよく、xi∈RDおよび点群X∈RN×Dである。ここで、3D幾何学的点ではD=3である。さらに、Kによって示される半径方向基底カーネル関数(RBF)が定義されてもよく、RBFは、ランダムに選択された点上に配置されてもよい。この点は、中心窩と呼ばれる場合があり、xfovea∈Xである。次いで、中心窩に対する幾何学的類似性(空間距離)は、重み付き距離メトリックに基づいて決定されてもよい。一実施形態では、RBFカーネルは、以下のように定義されてもよい。
【0065】
【0066】
ここで、パラメータσは、カーネルの帯域幅(コンパクトさ)を制御するために使用される場合がある自由パラメータである。再サンプリングによって、中心窩の周りの密なサンプリングおよび中心窩からさらに離れた位置についての疎なサンプリングが達成され得るように、M1点を有するXからのサブセットYが選択される場合がある(M1<N)。モンテカルロサンプリングに基づいて、セットXから点xiをランダムに(置換して)選択することによって、条件K(xi,xfovea)>rδが満たされる場合にのみ、選択された点がサブセットYに挿入されるようにしてもよい。条件が満たされない場合、点は拒否される。変数rδは、適用可能なモンテカルロ技法によって定義されるような単位区間内の均一分布から選択される乱数であってもよい。この再サンプリングプロセスは、M1-1個の一意の点が受け入れられるまで継続してもよい。Table 1(表1)は、不均一再サンプリングアルゴリズムの一例を示す。
【0067】
【0068】
このアルゴリズムは、点群Xから不均一なサンプルYを決定するために使用されてもよい。
図2は、本発明の一実施形態による、M個の点を含む不均一なサンプルYを決定するためのブロックスキームを示す。アルゴリズムは、コード部分を含むメモリと、コード部分を実行するためのプロセッサとを含むモジュールとして実装されてもよい。
図2に示されるように、第1のステップ202において、モジュールの入力は、点群または3D表面メッシュなどの非ユークリッドデータセットXから構成されてもよい。さらなるステップ203では、非ユークリッドデータセットXからの点(中心窩と呼ばれる)がランダムに選択されてもよい。中心窩点は、その第1の部材としてセットYに追加される。次いで、204において、セットXからの別の点(x
iと呼ばれる)がランダムに選択され、式1に関して説明したように、RBFカーネルに従って中心窩と比較されてもよい。RBFカーネルの値は、205で、0および1の範囲内の均一分布から引き出されたランダム値と比較されてもよい。カーネル値がランダム値よりも大きい場合、選択された点がセットYに加えられ、そうでない場合、それが拒否されてもよい。この手順は、206でセットYがM個の点を有するまで継続してもよい。そのようなRBFカーネルの帯域幅に応じて、再サンプリングされたデータのコンパクトさは変わる場合がある。たとえば、(正規化された点群の分散である)1よりも著しく小さい値を有する帯域幅が選択される場合、再サンプリングは非常にコンパクトであり、したがって局所パッチを生成する場合がある。逆に、1の値よりも著しく大きい帯域幅が選択された場合、不均一再サンプリングは、均一再サンプリングに非常に近似する場合がある。この意味で、パッチ抽出および均一再サンプリングは、そのような不均一再サンプリングアルゴリズムの2つの特別な場合と考えてもよい。
【0069】
図3は、本発明の一実施形態による、不均一再サンプリングを使用した点群の再サンプリングを示す。この図に示されるように、80,000点を含む歯列の高解像度IOS点群302表現は、不均一再サンプリングスキーム304、たとえば
図2を参照して説明されるような不均一再サンプリングスキームに基づいて再サンプリングされてもよい。再サンプリングは、30,000点の第1の再サンプリングされたサブセット306をもたらす場合があり、再サンプリングは、たとえば選択された点308に基づいていた。この視覚化の目的のために、この図はまた、均一再サンプリング310を点群に適用することによって取得される可能性がある30,000点の第2の再サンプリングされたサブセット312を示す。第1および第2の再サンプリングされたサブセットを比較するとき、第1の再サンプリングされたサブセットは、異なるレベルの粒度、すなわち、中心窩の位置で歯列の部分に関する高解像度局所情報を提供する中心窩の周りの点の比較的密な領域と、歯列に関するグローバル情報を提供する中心窩から離れた点の比較的疎な領域とを含む。複数の中心窩についての不均一再サンプリングに基づく再サンプリングされたサブセットは、歯列の詳細な局所的特徴とグローバルな特徴の両方を学習するために、ディープニューラルネットワークをトレーニングするために使用されてもよい。
【0070】
上述の再サンプリングスキームは、他の非ユークリッド3Dデータセット、たとえば3D表面メッシュに適用されてもよいことに留意されたい。一例として、表面を構成する面が定義される場合、そのような面は、最も代表的な点(たとえば、そのような面を記述するすべての点の平均位置における点)によって表されてもよい。効果的には、これは、記載された方法が適用される場合がある代表的な点のセットまで面のセットを低減する。
【0071】
図4は、本発明の一実施形態による、ディープニューラルネットワークをトレーニングする方法を示す。特に、この図は、この例示的な実施形態の場合、本発明の一実施形態による歯-顎顔面3D画像データの分類およびセグメンテーションのためのディープニューラルネットワークのトレーニングの流れ図を示す。図に示されるように、弁別器3Dディープラーニングニューラルネットワーク420は、
図6を参照して説明されるような点群データのセマンティックセグメンテーションのために使用されるセグメンテーションモジュール422のセグメンテーション3Dディープラーニングニューラルネットワークのトレーニング品質を改善する目的で、敵対的トレーニング設定において使用されてもよい。
【0072】
トレーニング手順のために、トレーニングデータは、歯-顎顔面構造の3D光学スキャニングデータからセマンティックセグメンテーションを自動的に実行することができるように、3Dディープラーニングニューラルネットワークをトレーニングするために使用される。コンピュータは、光学スキャニングデータに基づいて、歯-顎顔面構造の3D表面メッシュから、点群および/または表面法線、すなわち3D空間における座標値に関連付けられた要素を抽出してもよい。トレーニングデータ402内のすべての3D画像データに対して、対応するグランドトゥルースクラスラベル410が、歯科専門家によって決定され得るように、3D画像データ内の各点に対して割り当てられる。
【0073】
トレーニング中、単一の歯-顎顔面構造404に属するラベル付けされた3D画像データが、ラベル付けされた歯-顎顔面3D画像データ402のトレーニングデータスタックからランダムに選択されてもよい。次いで、点x
fovea406は、404で表される点群からランダムに選択されてもよく、M個の要素のセットは、(
図2に関して詳細に説明されるように)不均一再サンプリングスキーム408に従って、点x
foveaに基づいて選択されてもよい。次いで、このM個の要素のセットを、それらのグランドトゥルースラベル410とともに特徴抽出器418に直接フィードフォワードするか、または、ラベルの予測414を出力するセマンティックセグメンテーション3Dディープラーニングニューラルネットワーク422の入力に供給することができる。グランドトゥルースが選択されるか、予測ラベルが(セレクタ416を介して)選択されるかは、各トレーニング反復において等しい可能性で決定されてもよい。M個の要素のセットおよびそれらの(グランドトゥルースまたは予測された)ラベルは、次いで特徴抽出器418に供給され、特徴抽出器418は、それらのラベルに基づいて要素をグループ化し、要素の各グループから特徴を外挿する。これらの特徴は、たとえば各クラス(同じラベルを有する要素のグループ)の平均および分散、特に、3D空間における各クラス(同じラベルを有する要素のグループ)の位置の平均および分散値を含んでもよい。特定のクラスの特徴、たとえば歯肉は、所望の性能への有害な寄与のために、計算から省略されてもよい。
【0074】
すべてのクラスについてのすべての特徴のセットは、次いで弁別器ネットワーク420への入力として供給されてもよい。そのような弁別器ネットワークの機能は、入力特徴がグランドトゥルース(ターゲットラベル)に関連付けられているか、セグメンテーションネットワークによって予測されたラベル414に関連付けられているかを決定することであってもよい。その後、弁別器性能からのフィードバック(損失)を使用して、弁別器ネットワーク420とセグメンテーションモジュール422のセグメンテーションネットワークの両方を改善する。たとえば、弁別器ネットワークが、その分類タスクに失敗したことについての負のフィードバックを受信した場合、セグメンテーションネットワークは、等しい量の、しかし正のフィードバックを受信する場合がある。
【0075】
入力された不均一再サンプリングされたデータ内の各点について従来の等しく重み付けされた損失を計算することによって、セグメンテーションネットワークをトレーニングすることは、効率的ではない。再サンプリングされた点セットは、様々なレベルの粒度を含むので、密な領域および疎な領域についての出力誤差に等しくペナルティを課すことは、疎な点の誤差が比較的等しく増加するので、モデルが、データ内の細かい詳細内容を捕捉するようにその畳み込みカーネルを最適に適応させることを妨げる。
【0076】
この効果は
図5に示されており、ここでは、ラベル分類の確実性が、等しく重み付けされた損失関数を用いてネットワークによって予測され、各点について提示される。暗い色で示される点502は、トレーニングされたディープニューラルネットワークに従ってラベル予測が不確定であった点である。予想されるように、(画像の上部側の)低いサンプリングレートを有する疎な領域は、疎な領域におけるデータの欠如により、モデルが密な領域において実行するのと同じくらい正確に実行することが困難になるので、分類の確実性が低くなる(すなわち、トレーニングされたネットワークによってしばしば誤って分類される)。学習アルゴリズムの性能を最適化するために、(グローバルな歯列弓構造を含む)疎な点の保持と、IOSデータにおける微細曲率の利用との間で、たとえばパラメータ調整によって、トレードオフが見出される必要がある場合がある。そのために、一実施形態では、各点に重みが適用されてもよい。この重みは、上記の式(1)によって定義されるように、RBFカーネルの距離メトリックに基づいて計算されてもよい。
【0077】
Sの伝達関数およびそのパラメータθSを用いてセグメンテーションネットワークの出力ソフトマックス層で計算され得る点iの事後確率ベクトル(Pi)を仮定することによって、各点iの重み付き損失値(Lp)は、以下の式によって定式化される場合がある。
【0078】
【0079】
ここで、yiは3D座標においてxiを有する点iについてのワンホット符号化されたターゲットラベルを表し、ここで、Lはラベルの数を示し、Mは再サンプリングされた点の数を示す。本出願の実験では、L=17およびM=3・104の数である。
【0080】
従来の点ごとのクロスエントロピー損失関数を適用することによってのみセグメンテーションネットワークをトレーニングすることは、重要な欠点を有する。点群内の各点のラベルは、隣接する点のラベルに高い依存性を有する。たとえば、ある点が切歯に属する場合、その隣接する点は、同じまたは別の切歯、犬歯、または歯肉にのみ属することができるが、確実に臼歯に属することはできない。そのような強い構造的制約はデータに存在するが、式(2)に基づいて最適化問題が定式化されるときには無視される。セマンティックセグメンテーションは、本質的に、ピクセルベースの(点ごとの)分類問題ではないので、式(2)に基づく最適化問題の定式化は、したがって、不適切である。
【0081】
この問題に対処するために、弁別器ネットワークを使用して、セグメンテーションネットワークによって生成されたラベルと(実際の)ターゲットラベルとを弁別してもよい。加えて、トレーニングの安定性を高めるために、埋め込み損失(弁別器ネットワークにおける隠れ層の特徴間の距離)が提案される。さらに、入力空間(すなわち、点群および関連するラベル)に直接基づいて弁別器ネットワークをトレーニングし、時間および処理量の多いトレーニングスキームを必要とする予測出力に基づいて埋め込み損失を定義する代わりに、1つまたは複数の統計パラメータを、特徴抽出器によって予測されるおよび実際のラベルに基づいて計算してもよい。これらのパラメータは、弁別器ネットワークを迅速かつ効率的にトレーニングするために使用されてもよい。
【0082】
統計パラメータは、セグメンテーションネットワークまたはグランドトゥルースラベルによって与えられるように、同じラベルを有するすべての点(またはその少なくともかなりの部分)の座標の平均および分散を含んでもよい。これらのパラメータは、以下のように表されてもよい。
【0083】
【0084】
ここで、記号「||」は、垂直ベクトル連結(スタッキング)演算を示し、Lは、データ内のラベルの数を示す。スタッキングされた特徴セット
【0085】
【0086】
は、予測ラベル(pij)に従って、3D空間における歯列における歯の中心位置およびそれらの分散(すなわち、それらのソフト境界ボックス)のソフトな計算を表してもよい。統計的平均および分散は、歯に属するものなどのL-1クラスについてのみ計算されてもよい。式(3)のpij値をグランドトゥルースラベル(yi)のワンホット符号化値で置き換えることによって、(u)によって示される
【0087】
【0088】
の対応する特徴セットが取得されてもよい。点群に存在しないラベルについては、ゼロのベクトルが挿入されてもよい。特徴セット(u)は、ラベル付けされたデータの現実的な統計的測定値を表す。
【0089】
図6は、本発明の一実施形態による、3D歯-顎顔面構造の分類およびセグメンテーションのためのコンピュータシステムを概略的に示す。特に、コンピュータシステムは、602で歯-顎顔面構造の3D画像データを受信するように構成されてもよい。この構造は、歯肉および個々の歯冠構造を含んでもよい。3D画像データは、点群および/または表面法線、すなわち3D空間内の座標値に関連付けられた要素を含んでもよい。好ましくは、3D画像データは、所定のフォーマット、たとえば三角形メッシュフォーマットまたはその派生物によるIOS画像データを含んでもよい。コンピュータシステムは、3D画像データを点群に前処理するためのプリプロセッサを含んでもよい。
【0090】
その後、予測サイクルが開始されてもよく、これは、点群のすべての要素に少なくとも1つの予測ラベルが割り当てられるまで継続し、ラベル付けされていない要素がまだある場合、606で、1つのランダムなラベル付けされていない要素x
foveaが選択され、
図2に関して説明したように、608で、不均一再サンプリングに従って、x
foveaの周囲からM個の要素のセットが取り出される。606と608の組合せは、不均一再サンプリングモジュール611と考えられてもよい。M個の要素のセットは、第1の3Dディープラーニングニューラルネットワーク610の入力に供給され、第1の3Dディープラーニングニューラルネットワーク610は、セマンティックセグメンテーション、すなわち、612で、(
図4に関して説明されるように)各可能なクラスに属するM個の要素ごとのラベル確率を生成するようにトレーニングされる。点群のすべての要素に少なくとも1つの予測ラベルが割り当てられている場合、614で、点群の各要素についてすべてのラベル確率の平均を取り、616で、各要素について最も確率の高いクラスを選択して、ラベル付きデータが取得されてもよい。
【0091】
図1および
図4に示すシステムは、少なくとも2つのディープラーニングネットワーク、すなわち、セグメンテーションネットワークおよび弁別器ネットワークを含んでもよい。セグメンテーションネットワークは、点群の異なる点間の空間的相関を考慮に入れて、点群を分析することができる任意のディープラーニングネットワークアーキテクチャに基づいてもよい。一実施形態では、セマンティックセグメンテーションネットワークは、PointCNNモデルに基づいてもよい。
【0092】
そのようなディープニューラルネットワークの概略図を
図7Aおよび
図7Bに示す。
図7Aに示されるように、PointCNNモデル702は、従来の畳み込み演算子によって入力点およびそれらの対応する特徴を処理する前に、入力点およびそれらの対応する特徴を重み付けし、置換するχ-Conv演算子704
1~9のスタックに基づく。χ-Conv演算子の構造を
図7Bにより詳細に示す。χ-Conv演算子は、パラメータN、c、K、およびDによって制御されてもよく、Nは、セグメンテーションモジュールの入力に供給される再サンプリングされた点群の点の数を定義する。各χ-Conv演算子の視野は、固定セットのK最近傍(KNN)点709を含む。加えて、χ-Conv演算子は、2つのMLPネットワーク710、712を含んでもよい。これら2つのMLPネットワークは、K個の入力点の座標についてのK×Kのχ変換を学習する。χ-Conv演算の結果は、KNN点特徴の点の代表的なセットへの集約および投影であり、その後、典型的な畳み込みがそれらに適用される。
【0093】
図7に示すPointCNNモデルは、点群で表されるデータから局所相関を学習することができる。加えて、PointCNNモデルは、点群についての他のディープラーニングモデルと比較して、かなり少ない量の学習パラメータを有する。これは、小さなデータセット上で重度のオーバーフィッティングを起こしにくいので、本発明者らのケーススタディにとって有益である。セグメンテーションネットワークへの入力は、再サンプリングされた点であってもよく、その出力は、各点についての多要素ベクトルであり、ベクトルの各要素は、クラス確率を表す。たとえば、一実施形態では、マルチベクトル要素は、16個の歯クラスおよび歯肉を表す17個の要素を含んでもよい。弁別器ネットワークは、特徴セットuを
【0094】
【0095】
から弁別することを目的とする。一実施形態では、弁別器ネットワークは、深い畳み込みニューラルネットワークとして構成されてもよい。
【0096】
弁別器ネットワークの一例を
図8に示す。この図に示すように、ネットワークは、2つのカスケード接続された部分802、804を含んでもよい。第1の部分802は、入力された96要素ベクトルに適用されるアフィン変換を推定する。第2の部分804は、MLPネットワーク、この例では3層MLPネットワークを含み、このMLPネットワークは、変換された入力ベクトルを、その出力ノードにおけるシグモイドアクティブ化関数によってスカラー値にマッピングする。ネットワークは、ネットワークが(u)に適用される場合、その出力においてスカラー1を生成するようにトレーニングされてもよく、一方、ネットワークが
【0097】
【0098】
に適用される場合、スカラー0が生成されてもよい。
【0099】
弁別器ネットワークDおよびセグメンテーションネットワークSをトレーニングするための敵対的設定では、パラメータθDを有するネットワークDの弁別器損失(LD)およびネットワークSの敵対的損失は、以下の式によって定義されてもよい。
【0100】
【0101】
したがって、セグメンテーションネットワークの全損失は、式(2)によって定義される損失Lpおよび式(5)によって定義されるLAdvの寄与である。2つの損失項の間の寄与重み(λ)に対するハイパーパラメータ同調を回避するために、適応損失重み付けが使用されてもよい。λ=[λ1、λ2]を単位値のベクトルで初期化した後、正則化項R(λ)は、以下の式によって定義されるように、セグメンテーションネットワーク(S)の全損失関数に加算されてもよい。
【0102】
【0103】
セグメンテーションネットワークが上述の方法でトレーニングされると、システムは、上述の
図1Bを参照して説明したように、その推論モードで構成されてもよい。セグメンテーションネットワークは、不均一な再サンプリングされたデータに対してトレーニングされ、したがって、全点群のラベルを予測するために、
図2および
図3を参照して上述したように、不均一再サンプリングアルゴリズムに基づいて、点のいくつかのサブセットを形成する必要がある。点群内のすべての点の予測は、サブセットの各々について予測ラベルを集約することによって取得される場合がある。アルゴリズムの擬似コードをTable 2(表2)に示す。
【0104】
【0105】
実験を行って、システムの性能を試験した。トレーニングデータは、60人の成人被験者からの歯列の120回の光学スキャンを含み、各々が1つの上顎スキャンおよび1つの下顎スキャンを含む。データセットは、健康な歯列からのスキャンと、被験者間の異なるタイプの異常とを含む。IOSデータは、3Shape d500光学スキャナ(3Shape AS、Copenhagen、Denmark)を使用して生成された。平均して、各IOS点群は、180,000点(100,000から310,000の間で変化する)を含む。すべての光学スキャンメッシュを手動でセグメント化し、それらのそれぞれの点を、歯科専門家によって32+1クラスの1つに分類し、Meshmixer 3.4(Autodesk Inc、San Rafael CA、USA)を用いて1人の歯科専門家(DAM)によって再検討し、調整した。歯のカテゴリーのラベル付けは、国際的な歯のナンバリング規格、国際歯科連盟(FDI)に従って行われた。各光学スキャンのセグメンテーションは、平均して約45分かかり、これは、人間にとっては非常に手間のかかる作業であることを示す。
【0106】
モデルの性能は、5倍交差検証によって評価され、結果は、intersection over union(IoU)としても知られる平均Jaccard Indexによって比較される。IoUに加えて、マルチクラスセグメンテーション問題の精度およびリコールが報告される。精度およびリコールを計算するために、各クラスは、バイナリ問題として個別に(1対すべて)扱い、最終的に平均スコアが報告される。実験を3つの部分に分けた。(1)IOSセグメンテーションに関する他の2つの最先端のディープラーニングモデルと比較して、PointCNNネットワークの性能をベンチマークすること。これらのモデルは、PointNet(Qi他、2017)およびPointGrid(LeおよびDuan、2018)を含む、(2)不均一再サンプリングを適用した場合の影響と、単純な均一再サンプリングを使用した場合の影響を評価する。公正な比較のために、再サンプリングされた点の数は等しく保たれる(M=30,000)、(3)敵対的損失を伴う有効性を評価する。
【0107】
すべてのモデルは、1000エポックの確率的勾配降下およびアダム学習適応技法によってトレーニングされる。初期学習率は5e-3に等しく、20K回の反復ごとに0.9倍減少する。点群は、(式(1)においてσを0.4に調整することによって)単位分散を有するように正規化される。
【0108】
【0109】
Table 3(表3)は、異なる実験設定下で取得された結果を示す。モデルによって生成されたIOS点群の予測ラベルの例が
図9~
図11に示される。Table 3(表3)からわかるように、PointCNNは、単純な均一サンプリングが使用されるとき、2つの他の最先端のモデルよりも良好に機能する。これは、主に、PointCNN内のχ-Conv演算子が、点群内の点の空間相関情報を使用することができるためである。加えて、PointCNNは、比較的少数のパラメータを使用し、その結果、システムは、オーバーフィッティングしにくい。PointGridは、あらかじめ定義されたグリッド内の点群の点をサンプリングし、畳み込み演算子を使用してラベルを予測する。しかしながら、この場合、その性能は、空間量子化グリッドの空間解像度に限定される。さらに、PointNetモデルは、点群内の点間の空間的相関を無視する。Table 3(表3)のPointCNNに関する結果は、不均一なサンプリングおよび/または敵対的損失を使用することの有効性を示す。両方の技法は、PointCNNの性能を個別に改善する。不均一サンプリングと敵対的損失との組合せは、最高の性能を提供する。システムの精度は、
図8~
図11に示すセマンティックにセグメント化されたIOS点群データによって示される。
【0110】
図9は、3D歯-顎顔面画像データ、より具体的には、本発明の一実施形態によって予測されるようにラベル付けされた口腔内スキャンから導出される可能性のあるデータ、より具体的には、トレーニング中に、
図4および
図8に関して説明されるような弁別器ネットワークを組み込む一実施形態を示す。すべての4つの歯-顎顔面画像は、ホールドアウトされたサンプル(トレーニング中に使用されないサンプル)である。これらの視覚化の目的のために、メッシュを表す点群に適用されたようなラベリングが、口腔内スキャンの表面メッシュの代表的な面に逆に適用された。詳細なセクション902~908は、特に、歯の間、および歯と歯肉との間の境界などの困難と考えられる場合があるエリアにおける、セグメンテーションの精度を示す。
【0111】
図10Aは、弁別器ネットワークのサポートなしでトレーニングされたセグメンテーションネットワークによって予測されるようにラベル付けされた3D歯-顎顔面画像データの例を示す。強調表示された円1002に示されるように、そのような弁別器なしでトレーニングされたセグメンテーションネットワークは、3つの歯にまたがる4つの異なる歯オブジェクトのラベルを不正確に予測した。比較のために、
図10Bでは、同じ歯-顎顔面3D画像データがグランドトゥルースラベリングとともに示される。
図4および
図8に関して説明したような弁別器を使用するトレーニングを利用した
図9に関して見られるような結果は、特に境界領域1004において、グランドトゥルースラベルと比較すると、非常に正確であると考えられてもよい。
【0112】
図11は、本開示で説明される例示的なデータ処理システムを示すブロック図である。データ処理システム1100は、システムバス1106を介してメモリ要素1104に結合された少なくとも1つのプロセッサ1102を含んでもよい。したがって、データ処理システムは、メモリ要素1104内にプログラムコードを記憶してもよい。さらに、プロセッサ1102は、システムバス1106を介してメモリ要素1104からアクセスされたプログラムコードを実行してもよい。一態様では、データ処理システムは、プログラムコードを記憶および/または実行するのに適したコンピュータとして実装されてもよい。しかしながら、データ処理システム1100は、本明細書内で説明される機能を実行することができるプロセッサおよびメモリを含む任意のシステムの形態で実装されてもよいことを了解されたい。
【0113】
メモリ要素1104は、たとえばローカルメモリ1108および1つまたは複数の大容量記憶デバイス1110などの1つまたは複数の物理メモリデバイスを含んでもよい。ローカルメモリは、プログラムコードの実際の実行中に一般に使用されるランダムアクセスメモリまたは他の非持続性メモリデバイスを指す場合がある。大容量記憶デバイスは、ハードドライブまたは他の永続的なデータ記憶デバイスとして実装されてもよい。処理システム1100は、実行中に大容量記憶デバイス1110からプログラムコードを検索しなければならない回数を低減するために、少なくともいくつかのプログラムコードの一時記憶を提供する1つまたは複数のキャッシュメモリ(図示せず)も含んでもよい。
【0114】
入力デバイス1112および出力デバイス1114として示される入力/出力(I/O)デバイスは、オプションとして、データ処理システムに結合され得る。入力デバイスの例には、限定はしないが、たとえばキーボード、マウスなどのポインティングデバイスなどがある場合がある。出力デバイスの例には、限定はしないが、たとえばモニタまたはディスプレイ、スピーカなどがある場合がある。入力デバイスおよび/または出力デバイスは、直接または介在するI/Oコントローラを介してデータ処理システムに結合されてもよい。ネットワークアダプタ1116はまた、データ処理システムに結合されて、介在するプライベートネットワークまたはパブリックネットワークを介して、他のシステム、コンピュータシステム、リモートネットワークデバイス、および/またはリモート記憶デバイスに結合されることを可能にする場合がある。ネットワークアダプタは、前記システム、デバイス、および/またはネットワークによって前記データに送信されるデータを受信するためのデータレシーバと、前記システム、デバイス、および/またはネットワークにデータを送信するためのデータトランスミッタとを含んでもよい。モデム、ケーブルモデム、およびEthernetカードは、データ処理システム1100とともに使用される場合がある異なるタイプのネットワークアダプタの例である。
【0115】
図11に描かれているように、メモリ要素1104は、アプリケーション1118を記憶してもよい。データ処理システム1100は、アプリケーションの実行を容易にすることができるオペレーティングシステム(図示せず)をさらに実行する場合があることを理解されたい。アプリケーションは、実行可能なプログラムコードの形態で実装され、データ処理システム1100によって、たとえばプロセッサ1102によって実行することができる。アプリケーションの実行に応答して、データ処理システムは、本明細書でさらに詳細に説明される1つまたは複数の動作を実行するように構成されてもよい。一態様では、たとえばデータ処理システム1100は、クライアントデータ処理システムを表してもよい。その場合、アプリケーション1118は、実行されると、「クライアント」を参照して本明細書で説明する様々な機能を実行するようにデータ処理システム1100を構成するクライアントアプリケーションを表してもよい。クライアントの例は、限定はしないが、パーソナルコンピュータ、ポータブルコンピュータ、携帯電話などを含むことができる。別の態様では、データ処理システムは、サーバを表してもよい。たとえば、データ処理システムは、(HTTP)サーバを表してもよく、その場合、アプリケーション1118は、実行されると、(HTTP)サーバ動作を実行するようにデータ処理システムを構成してもよい。別の態様では、データ処理システムは、本明細書で言及されるモジュール、ユニット、または機能を表してもよい。
【0116】
本明細書で使用される用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定することを意図するものではない。本明細書で使用されるように、単数形''a''、''an''、および''the''は文脈が他に明確に示さない限り、複数形も含むことを意図する。「含む」および/または「含んでいる」という用語は、本明細書で使用される際、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を特定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素および/またはそのグループの存在または追加を排除するものではないことをさらに理解されよう。
【0117】
以下の特許請求の範囲におけるすべての手段またはステッププラス機能要素の対応する構造、材料、行為、および均等物は、具体的に特許請求されるような他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、または行為を含むことが意図される。本発明の説明は、例示および説明の目的で提示されてきたが、網羅的であることも、開示された形態の本発明に限定されることも意図されていない。当業者には、本発明の範囲および趣旨から逸脱することなく、多くの修正および変形が明らかであろう。実施形態は、本発明の原理および実際の用途を最も良く説明するために、また、当業者が、企図される特定の使用に適した様々な修正を伴う様々な実施形態について本発明を理解することを可能にするために、選択され、説明された。
【符号の説明】
【0118】
100 システム
101 処理ユニット
102 ラベル付けされた点群トレーニングデータ
103 メモリ
104 不均一再サンプリングモジュール
106 再サンプリングされた点群データセット
106 ストレージ
108 セグメンテーションモジュール
110 弁別器ネットワーク
112 フィードバックモジュール
114 ラベル
120 点群データ
302 高解像度IOS点群
304 不均一再サンプリングスキーム
306 第1の再サンプリングされたサブセット
308 選択された点
310 均一再サンプリング
312 第2の再サンプリングされたサブセット
402 トレーニングデータ
404 単一の歯-顎顔面構造
406 点xfovea
408 不均一再サンプリングスキーム
410 グランドトゥルースクラスラベル
414 ラベルの予測
416 セレクタ
418 特徴抽出器
420 弁別器3Dディープラーニングニューラルネットワーク
422 セグメンテーションモジュール
610 第1の3Dディープラーニングニューラルネットワーク
611 不均一再サンプリングモジュール
702 PointCNNモデル
709 K最近傍(KNN)点
710 MLPネットワーク
712 MLPネットワーク
802 カスケード接続された部分
804 カスケード接続された部分
1002 強調表示された円
1004 境界領域
1100 データ処理システム
1102 プロセッサ
1104 メモリ要素
1106 システムバス
1108 ローカルメモリ
1110 大容量記憶デバイス
1112 入力デバイス
1114 出力デバイス
1116 ネットワークアダプタ
1118 アプリケーション
【国際調査報告】