(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-24
(54)【発明の名称】表面認識
(51)【国際特許分類】
G06T 7/00 20170101AFI20220817BHJP
G06V 10/58 20220101ALI20220817BHJP
G06V 10/82 20220101ALI20220817BHJP
【FI】
G06T7/00 612
G06T7/00 350C
G06V10/58
G06V10/82
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021575232
(86)(22)【出願日】2020-06-17
(85)【翻訳文提出日】2022-02-17
(86)【国際出願番号】 EP2020066824
(87)【国際公開番号】W WO2020254443
(87)【国際公開日】2020-12-24
(32)【優先日】2019-06-19
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】519087413
【氏名又は名称】シグネチャー ロボット リミテッド
【住所又は居所原語表記】37,Burnaby Gardens,London, W4 3DR,UK
(74)【代理人】
【識別番号】100105795
【氏名又は名称】名塚 聡
(74)【代理人】
【識別番号】100105131
【氏名又は名称】井上 満
(74)【代理人】
【識別番号】100154184
【氏名又は名称】生富 成一
(72)【発明者】
【氏名】ローズ、ステファン ジョージ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA06
5L096BA13
5L096CA17
5L096EA35
5L096FA06
5L096HA11
(57)【要約】
本開示は、レーザービームが表面に衝突したときに生じるような光のスポットの画像を用いて、表面物質の分類に機械学習を適用することに関する。驚くべきことに、表面に衝突した光ビームから生じるそのようなスポット画像を用いて訓練された分類器は、一見すると表面タイプについてより多くの情報を含んでいるように見える、より均一に照らされた大きなシーンと比較して、これらの画像では微細な表面の詳細が欠如しているにもかかわらず、優れた分類結果を達成する。本開示に従って訓練された分類器は、多くの周知の分類器アーキテクチャを用いて、生体組織の分類精度が90%を大幅に超えることを達成した。本開示はさらに、分類結果を用いて、分類された表面タイプのマップを生成し、これを、表面に投射されたスポットのパターンから再構成された分類された表面部分を備える表面の3次元モデルと組み合わせることを開示する。
【特許請求の範囲】
【請求項1】
表面の表面部分を表面タイプの予め定義されたセットの1つとして分類するためのコンピュータ実装分類器を訓練する方法であって、前記分類器は、表面部分の入力画像を入力として取り、前記予め定義されたセットの表面タイプを示す出力を生成する、方法であって、
表面部分の入力画像のデータセットを取得することであって、各入力画像は、光源によって生成され、それぞれの表面部分に衝突した光のビームによって生じる前記それぞれの表面部分上のスポットの画像を備え、前記データセットは、各入力画像を対応する表面タイプに関連付ける、ことと、
前記データセットを用いて前記分類器を訓練することと、を備える、方法。
【請求項2】
請求項1記載の方法であって、前記データセットを取得することは、異なる表面タイプの複数の表面部分に光ビームを照射すること、前記表面部分の各々について入力画像を取得すること、および各入力画像を前記対応する表面タイプに関連付けること、を備える、方法。
【請求項3】
表面部分を表面タイプの予め定義されたセットの1つとして分類する方法であって、前記分類器は、表面部分の入力画像を入力として取り、前記予め定義されたセットの表面タイプを示す出力を生成する、方法であって、
光源によって生成され、前記表面部分に衝突した光のビームによって生じる前記表面部分上のスポットの入力画像を取得することと、
前記入力画像を分類器への入力として提供することであって、前記分類器は、請求項1または2に記載の方法を用いて訓練されたものである、ことと、
前記入力画像に応じて前記分類器の出力を取得することと、
前記出力に基づいて前記表面部分の表面タイプを決定することと、を備える、方法。
【請求項4】
請求項3記載の方法であって、前記画像を取得することは、前記表面部分に光ビームを照射すること、および前記入力画像を取得することを備える、方法。
【請求項5】
請求項1ないし4のいずれか一項に記載の方法であって、前記入力画像を取得することは、キャプチャされた画像内の前記スポットを検出すること、および前記スポットおよび前記スポットの周囲の境界線を備える前記キャプチャされた画像のクロップされた画像を抽出すること、を備える、方法。
【請求項6】
請求項1ないし5のいずれか一項に記載の方法であって、前記入力画像は、前記スポットに対応し、ピクセル値の上位10パーセンタイルに入るピクセル値を有する画像ピクセルの少なくとも4分の1を備える、方法。
【請求項7】
請求項3ないし6のいずれか一項に記載の方法であって、
複数の入力画像を取得することであって、各入力画像は、光源によって生成され、それぞれの表面部分に衝突したそれぞれの光のビームによって生じる前記表面のそれぞれの表面部分上のスポットに対応する、ことと、
各入力画像を分類器に入力として提供することであって、前記分類器は、請求項1または請求項2に記載の方法を用いて訓練されたものである、ことと、
各入力画像に応じて前記分類器の出力を取得することと、
各出力に基づいて前記それぞれの表面部分の表面タイプを決定することと、を備える、方法。
【請求項8】
請求項7記載の方法であって、前記入力画像を取得することは、キャプチャされた画像の各スポットを検出すること、および前記スポットおよび前記スポットの周囲の境界線を備える前記キャプチャされた画像のそれぞれのクロップされた画像を抽出すること、を備える、方法。
【請求項9】
請求項7または8に記載の方法であって、表示デバイス上の表示のために前記表面の画像を変更して前記表面部分の各々について前記対応する決定された表面タイプを前記表示された画像の中に視覚的に示すことを含む、方法。
【請求項10】
請求項7ないし9のいずれか一項に記載の方法であって、前記それぞれのビームは、所定のパターンに従って前記表面上に投射され、
前記表面上の前記スポットのパターンを分析して前記表面の3次元形状を決定すること、を備える、方法。
【請求項11】
請求項10記載の方法は、前記表面部分の各々について前記決定された表面タイプを視覚的に示す前記表面の前記3次元形状のビューをレンダリングすること、を備える、方法。
【請求項12】
請求項1ないし11のいずれか一項に記載の方法であって、前記予め定義された表面タイプのセットは、生体組織表面を備える、方法。
【請求項13】
請求項1ないし12のいずれか一項に記載の方法であって、前記予め定義された表面タイプのセットは、筋肉、脂肪、骨、および皮膚表面の前記表面タイプの1つまたはより多くを備える、方法。
【請求項14】
請求項1ないし13のいずれか一項に記載の方法であって、前記予め定義された表面タイプのセットは、金属表面を備える、方法。
【請求項15】
請求項1に従属する先行する請求項のいずれか一項に記載の方法を用いて訓練されたコンピュータ実装分類器。
【請求項16】
請求項1ないし15のいずれか一項に記載の方法またはコンピュータ実装分類器であって、前記分類器は、人工ニューラルネットワークである、方法またはコンピュータ実装分類器。
【請求項17】
請求項16記載の方法またはコンピュータ実装分類器であって、前記人工ニューラルネットワークは、畳み込みニューラルネットワークである、方法またはコンピュータ実装分類器。
【請求項18】
請求項17記載の方法またはコンピュータ実装分類器であって、前記畳み込みニューラルネットワークは、googLeNet、Alexnet、densenet101、またはVGG-16の1つである、方法またはコンピュータ実装分類器。
【請求項19】
請求項1ないし18のいずれか一項に記載の方法またはコンピュータ実装分類器であって、前記分類器は、前記ビームを生成するために使用される光源と前記表面との間の距離、および/または前記画像をキャプチャするために使用される画像キャプチャデバイスと前記表面との間の距離を示す1つまたはより多くの値をさらなる入力として取る、方法またはコンピュータ実装分類器。
【請求項20】
コンピューティングデバイス上で実行されると、請求項1ないし19のいずれか一項に記載の方法または分類器を実装するコード化された命令を備える1つまたはより多くのコンピュータ可読媒体。
【請求項21】
表面部分を表面タイプの予め定義されたセットの1つとして分類するためのシステムであって、
1つまたはより多くの光ビームを生成するための光源と、
前記1つまたはより多くの光ビームが表面に衝突して生じるそれぞれのスポットの画像をキャプチャするための画像キャプチャデバイスと、
前記画像キャプチャデバイスに連結され、かつ請求項3または請求項3に従属する請求項4ないし14および16ないし19のいずれか一項に記載の方法を実装するように構成されたプロセッサと、を備えるシステム。
【請求項22】
請求項1ないし21のいずれか一項に記載の方法、分類器、1つまたはより多くのコンピュータ可読媒体またはシステムであって、前記光が、400~60nmの範囲、好ましくは850nmまたは近赤外スペクトルの波長を有する、方法、分類器、1つまたはより多くのコンピュータ可読媒体またはシステム。
【請求項23】
請求項1ないし22のいずれか一項に記載の方法、分類器、1つまたはより多くコンピュータ可読媒体またはシステムであって、ビーム径が前記表面で3mm未満である、方法、分類器、1つまたはより多くコンピュータ可読媒体またはシステム。
【請求項24】
請求項1ないし23のいずれか一項に記載の方法、分類器、1つまたはより多くコンピュータ可読媒体またはシステムであって、前記光源が、コヒーレントな光を放出するように構成されている、方法、分類器、1つまたはより多くコンピュータ可読媒体またはシステム。
【請求項25】
請求項24に記載の方法、分類器、1つまたはより多くのコンピュータ可読媒体またはシステムであって、前記光源は、レーザーまたは発光ダイオードを備える、方法、分類器、1つまたはより多くのコンピュータ可読媒体またはシステム。
【請求項26】
請求項1ないし25のいずれか一項に記載の方法、分類器、1つまたはより多くのコンピュータ可読媒体またはシステムであって、前記光源は、例えば、回折格子、ホログラム、空間光変調器、またはステアラブルミラーなど、ビームのパターンを生成する光学素子を備える、方法、分類器、1つまたはより多くコンピュータ可読媒体またはシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習を用いて表面を分類する分野に関するもので、限定するものではないが特に生体組織に適用される。
【背景技術】
【0002】
多くの場面で、表面または表面を構成する表面部分の構造、組成または物質、つまり表面タイプを特定することが望まれる。このことが有益であろう一つの適用例は、コンピュータ支援整形外科手術であり、ここでは、生体組織(および手術器具)の表面タイプを識別し、画像化された表面をそれに応じてセグメント化する能力が、よりインテリジェントで適応性の高い手術デバイスにつながり得る。ただし、もちろん、表面タイプの識別は、多くの技術分野に対してより広く適用できることは理解されるであろう。シーン分析に基づく生体組織の認識に特に適合させた最先端の深層学習アプローチは、約80%の認識精度を達成している。C. Zhao, L. Sun, and R. Stolkin, "A
fully end-to-end deep learning approach for real-time simultaneous 3D
reconstruction and material recognition," 2017 18th
Int.Conf.Adv.Robot.ICAR 2017, pp.75-82, 2017を参照のこと。
【発明の概要】
【0003】
概説すると、本開示は、レーザービームが表面に衝突することによって生じるような光のスポットの画像を用いた表面物質の分類への機械学習の適用に関するものである。驚くべきことに、表面に衝突した光ビームによって生じるようなスポット画像を用いて訓練された分類器は、優れた分類結果を達成した。これは、一見すると表面タイプに関するより多くの情報を含んでいるように見える、より均一に照射された、より大きなシーンと比較して、これらの画像では表面の細かい詳細が不足しているにもかかわらずである。本開示に従って訓練された分類器は、多くの良く知られた分類器アーキテクチャを使用して、生体組織の分類精度が90%を大幅に上回っている。いかなる限定をも示唆するものではないが、表面タイプの識別を可能にする特徴は、問題の表面の散乱特性およびビームが反射される方法の性質(拡散、またはいくつかのケースではスペキュラ)に起因すると考えられる。
【0004】
本開示のいくつかの態様では、表面の表面部分を表面タイプの予め定義されたセットの1つとして分類するためのコンピュータ実装分類器を訓練する方法が開示される。分類器は、表面部分の入力画像を入力として取り、予め定義されたセットの表面タイプを示す出力を生成する。本方法は、表面部分の入力画像のデータセットを取得することを備える。各入力画像は、光源によって生成され、それぞれの表面部分に衝突する光のビームから生じる、それぞれの表面部分上のスポットの画像を備える。データセットは、各入力画像を、対応する表面タイプと関連付ける。本方法は、データセットを用いて分類器を訓練することをさらに備える。
【0005】
表面タイプの予め定義されたセットは、生体組織表面を備えることができ、例えば、筋肉、脂肪、骨および皮膚の表面タイプのうち、1つまたはより多くの表面タイプがある。表面タイプは、追加的または代替的に、金属表面を備えていてもよい。本願で開示されている方法は、他の表面タイプにも同様に適用できることが理解されよう。
【0006】
データセットの取得は、異なる表面タイプの複数の表面部分に光ビームを照射し、表面部分の各々について入力画像を取得し、各入力画像を対応する表面タイプに関連付けることを備えていてもよい。あるいは、データセットは事前に用意されていてもよく、データセットの取得は、データリポジトリまたはその他の適切なコンピュータメモリからデータセットを引き出すことを備える。
【0007】
入力画像の取得は、キャプチャされた画像内のスポットを検出すること、およびスポットとスポットの周囲の境界線を備えるキャプチャされた画像のクロップされた画像を抽出することを備えてもよい。スポットは、例えば、局所的な強度の最大値を検出し、最大値の割合としての閾値を用いてそれぞれのスポット領域を特定し、例えば、各々の最大値の90%よりも明るく、閾値を超えるピクセルをスポット領域の一部として指定するなど、強度の閾値処理を用いて検出してもよい。クロップされた画像を抽出することは、スポット領域を備えるクロップされた領域を定義することを備えてもよく、最大値またはスポット領域を中心にしてもよい。クロップされた領域は、例えば、分類器の入力サイズ/入力数に対応するような、予め定義されたサイズまたはピクセル数であってもよい。或いは、クロップされた領域は、スポット領域に基づいて決定され、周囲にマージンを持つスポット領域を含むようにしてもよい。後者の場合、クロップされた画像を抽出することは、分類器の入力に対応する入力サイズ(例えばピクセル数)にクロップされた画像をリサイズまたはスケーリングすることを備えてもよい。入力画像は、周囲の領域に比べて明るい、相対的に明るいスポットと、周囲の領域とを備えていてもよい。例えば、入力画像は、スポットに対応する少なくとも4分の1の画像ピクセルを備えていてもよく、その少なくとも4分の1の画像ピクセルは、入力画像のピクセル値の上位10パーセンタイルに含まれるピクセル値を有していてもよい。特に明るいスポットの場合には、3分の1以上のピクセル値が上位10パーセンタイルに入っている場合もある。
【0008】
分類器の訓練は、データセットの入力画像を分類器の入力として提供することと、画像に応じて分類器の出力を取得することと、分類器の出力を各入力画像についての対応する表面タイプと比較して、出力と対応する表面タイプとの間のミスマッチを示すエラー指標を計算することと、エラー指標を低減するために分類器のパラメータを更新することとを備えることができる。分類器の訓練には、任意の適切な訓練方法を用いることができ、例えば、勾配降下法を用いてパラメータを調整することができる。
【0009】
多くの適切なコンピュータ分類器が当業者には知られており、本開示は特定の分類器に限定されるものではない。適切な分類器には、人工ニューラルネットワーク、特に畳み込みニューラルネットワークが含まれる。限定ではなく説明のために、人工ニューラルネットワークおよび畳み込みニューラルネットワークの例を以下に説明する。
【0010】
人工ニューラルネットワーク(ANN)は、ネットワークユニット(またはニューロン)を層状に配置した分類器で、典型的には、入力層と出力層との間に1つまたはより多くの隠れ層がある。各層は隣接する層に結合されている。全結合ネットワークでは、ある層の各ネットワークユニットは、隣接する層の各ユニットに結合されている。各ネットワークユニットは、入力の加重和を、活性化関数、典型的には整流線形関数またはシグモイドなどの非線形関数、に通すことによって入力を処理し、次の層のユニットに供給される出力を生成する。加重和の重みは、典型的には、訓練されるパラメータである。入力層に入力を与え、ネットワークのパラメータを適合させて所望の出力を得ることによって、例えば、所与の入力についての正しい分類に対応するユニットの出力値を増大させることによって、人工ニューラルネットワークを分類器として訓練することができる。パラメータの適合には、典型的には、バックプロパゲーションを用いた勾配降下法など、適切な最適化手法を用いることができる。
【0011】
畳み込みニューラルネットワーク(CNN)は、グレースケール画像用のネットワークユニットの2次元アレイ、RGB画像用の3次元アレイまたは3層の2次元アレイなど、多次元アレイとして配置された入力層と、典型的にはサイズが異なる、および/または異なるストライドを使用するフィルタを入力層と畳み込む効果を持つ1つまたはより多くの畳み込み層とを備える。フィルタのパラメータは、典型的には、所与のフィルタに関与する各ユニットで共有されるネットワークの重みとして学習される。典型的なネットワークアーキテクチャは、また、例えばプーリング層または整流線形層(ReLU層)から選択され、典型的には幾つかの層の深い配置で積層される、1つまたはより多くの畳み込み層を持つ、1つまたはより多くの非線形層の配置を含む。これらの層からの出力は、例えば、全結合、例えば非線形の層、または全結合、例えば非線形の層のスタック、またはプーリング層などの分類層に供給される。分類層は出力層に供給し、出力層の各ユニットは、対応する分類結果の確率または尤度のスコアを示す。CNNは、所与の入力に対して、正しい分類結果に対応する正しい出力ユニットが高い値を持つ出力を生成するように、言い換えれば、正しい分類に対応するユニットの出力を増大させるように訓練が設計される。CNNアーキテクチャの多くの例が当技術分野でよく知られており、例えば、googLeNet、Alexnet、densenet101またはVGG-16などがあり、これらのすべてが本開示の実施に使用できる。
【0012】
さらなる態様では、上述のような分類器を用いて、表面部分を表面タイプの予め定義されたセットの1つとして分類する方法が開示される。本方法は、上述のように表面部分上のスポットの入力画像を取得することと、上述のように訓練された分類器への入力として入力画像を提供することとを備える。本方法は、入力画像に応じて分類器の出力を得ることと、出力に基づいて表面部分の表面タイプを決定することとをさらに含む。
【0013】
本方法は、複数の入力画像を取得することであって、各入力画像は、表面に衝突するビームによるスポットに対応し、表面のそれぞれの表面部分について上述のように取得される、ことと、各入力画像を、上述のように訓練された分類器への入力として提供することと、各入力画像に応じて分類器の出力を取得することと、各出力に基づいて、それぞれの表面部分の表面タイプを決定することと、を備えていてもよい。本方法は、表示デバイスに表示するために表面の画像を変更して、表面部分の各々について対応する決定された表面タイプを表示された画像に視覚的に示すことをさらに備えていてもよい。本方法は、結果として得られた画像を表示し、および/または記憶することを備えていてもよい。
【0014】
それぞれのビームは、所定のパターンに従って表面上に投射されてもよく、本方法は、表面上のスポットのパターンを分析して、表面の3次元形状を決定することを備えていてもよい。本方法は、表面の3次元形状のビューをレンダリングして、表面部分の各々について、決定された表面タイプを視覚的に示すことを備えていてもよい。スポットの投射パターンを用いて、深さおよび/または表面の3次元形状を決定することはよく知られており、それを行うための多くの技術が存在する。そのような技術は、Xbox(登録商標)Kinect(登録商標)入力システム、Apple(登録商標)のFaceID(登録商標)、および一般的に3次元スキャナにおいて実装されている。例えば、以下を参照されたい。M. J. Landau, B. Y. Choo, and P. A. Beling,
“Simulating Kinect Infrared and Depth Images,” IEEE Trans. Cybern., vol. 46,
no. 12, pp. 3018-3031, 2016; M. Bleyer, C. Rhemann, and C. Rother, “PatchMatch
Stereo - Stereo Matching with Slanted Support Windows,” in Proceedings of the
British Machine Vision Conference 2011, 2011, no. 1, pp. 14.1-14.11; A. Geiger,
M. Roser, and R. Urtasun, “Efficient large-scale stereo matching,” Lect. Notes
Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 6492 LNCS, no. PART 1, pp. 25-38, 2011; H. Hirschm, “SGM:
Stereo Processing by Semi-Global Matching.pdf,” Tpami, pp. 1-14, 2007; I. Ernst
et al., “Mutual Information Based Semi-Global Stereo Matching on the GPU,”
Lecture notes in computer science., vol. 5358. Berlin , pp. 33-239, 2008; A.
Hosni, C. Rhemann, M. Bleyer, C. Rother, and M. Gelautz, “Fast cost-volume
filtering for visual correspondence and beyond,” IEEE Trans. Pattern Anal.
Mach. Intell., vol. 35, no. 2, pp. 504-511, 2013; M. H. Ju and H. B. Kang, “Constant
time stereo matching,” IMVIP 2009 - 2009 Int. Mach. Vis. Image Process. Conf.,
pp. 13-17, 2009; and S. O. Escolano et al., “HyperDepth: Learning Depth from
Structured Light without Matching,” 2016 IEEE Conf. Comput. Vis. Pattern
Recognit., pp. 5441-5450, 2016。これらすべてを参照して本開示に組み込む。また、以下を参照されたい。2019年5月15日18:11に編集された、構造化光3Dスキャナに関するWikipediaの記事https://en.wikipedia.org/w/index.php?title=Structured-light_3D_scanner&oldid=897239088。これを本開示に参照して組み込む。3次元形状は、表示ビューを生成するために、または他の用途のために、例えば、ロボット手術において、表面または表面の一部のロボット動作を制御するロボットコントローラへの入力として使用されてもよい。
【0015】
本開示の態様は、上述のように訓練された、例えば人工ニューラルネットワーク、または、より具体的には畳み込みニューラルネットワークなどの、コンピュータ実装分類器に及ぶ。分類器は、ここに記載された方法またはその他において、ビームを生成するために使用される光源と表面との間の距離、および/または、画像をキャプチャするために使用される画像キャプチャデバイスと表面との間の距離を示す1つまたはより多くの値を、さらなる入力として取ることができる。本開示の態様はさらに、コンピューティングデバイス上で実行されると、上述した方法または分類器を実装するコード化された命令を備える1つまたはより多くの有形コンピュータ可読媒体にも及ぶ。
【0016】
本開示のさらなる態様では、表面部分を表面タイプの予め定義されたセットの1つとして分類するシステムが開示される。本システムは、1つまたはより多くの光ビームを生成するための光源と、表面に衝突する1つまたはより多くの光ビームによって生じるそれぞれのスポットの画像をキャプチャするための、例えばカメラまたはCCD(電荷結合素子)センサなどの画像キャプチャデバイスと、画像キャプチャデバイスに結合され、上述の方法を実施するように構成されたプロセッサとを備える。システムは、上述のような1つまたはより多くのコンピュータ可読媒体を備えていてもよい。
【0017】
ここに記載されたシステムおよび方法において、光は、400~60nmの範囲、好ましくは850nmまたは近赤外スペクトルの波長または波長帯域を有していてもよく、ビーム径は、表面において3mm未満であってもよい。光源はそれに応じて構成されてもよい。光源は、例えば、関連する波長およびビームサイズのコヒーレントな光を放出するように構成されていてもよい。光源は、レーザーまたは発光ダイオード(LED)で構成されていてもよい。光源は、ビームのパターンを形成するための適切な構成を備えていてもよい。例えば、光源は、回折格子、ホログラム、空間光変調器(SLM:Liquid
Crystal on Silicon SLMなど)、またはステアラブルミラーなど、ビームのパターンを生成するための光学素子を備えていてもよい。
【0018】
システムは、追加の画像を例えば別の角度からキャプチャするように構成された1つまたはより多くのさらなる画像キャプチャデバイスを含んでいてもよく、これは、表面の形状が深さ方向に強調されている場合に一部の構成で発生する可能性のあるオクルージョンに対処するのに有利であり得る。画像キャプチャデバイスからの画像は、入力画像が抽出され得る合成画像を形成するためにマージされてもよいし、または、各画像キャプチャデバイスからのそれぞれの画像は、分類器に入力のそれぞれのセットを提供するために別々に処理されてもよく、入力の各々のセットに対応する分類結果は、例えば、両方のセットで表される各表面部分についてセット間の出力値を平均化するか、または両方のセットで表される各表面部分についてセットにわたる最大出力値を選ぶことによって、マージされ得る。
【0019】
次に、具体的な実施形態を、説明のためにのみ例示し、添付の図面を参照して説明する。
【図面の簡単な説明】
【0020】
【
図1A】
図1Aは、表面部分を分類するためのシステムを示している。
【
図1B】
図1Bは、表面部分を分類するためのシステムを示している。
【
図2A】
図2Aは、表面部分に衝突するレーザービームによって生じるスポットの強度画像を示している。
【
図2B】
図2Bは、深さ検知のために複数の表面スポットを生成するためのビームパターンを示している。
【
図2C】
図2Cは、深さ検知のために複数の表面スポットを生成するためのビームパターンを示している。
【
図3】
図3は、シーンビューの表示を示す材料を生成するためのワークフローを示している。
【
図4】
図4は、表面タイプ分類器を訓練するためのプロセスを示している。
【
図5】
図5は、表面部分を分類するためのプロセスを示している。
【
図6】
図6は、複数の表面部分を分類するためのプロセスを示している。
【
図7】
図7は、
図6のプロセスと3次元シーン再構成を組み合わせたプロセスを示している。
【
図8】
図8は、皮膚、筋肉、脂肪および骨の表面部分についてのスポット画像を示している。
【
図9】
図9は、開示された方法を実装できるコンピュータシステムを示している。
【発明を実施するための形態】
【0021】
図1Aおよび1Bを参照すると、表面部分を分類するためのシステムは、例えば、回折格子、ホログラム、SLMなどの光学素子106に結合されたレーザー104を備えた光源102を備えており、レーザー104からのビームを、表面108に衝突したときに表面108上に光のスポットを生じさせるビームのパターンに分割する。単一のそのようなスポットが
図2Aに図示され、平坦な表面上のそれぞれのビームパターンから生じるスポットの疑似ランダムおよび規則的なパターンが
図2Bおよび2Cに図示されている。いくつかの実施形態では、レーザー以外の他の光源、例えば、LEDまたはレーザーダイオードを使用する。放出される光の波長は、例えば、スペクトルの赤または赤外部分であってもよく、または上述したものであり、ビーム径は3mm以下であってもよい(コリメートされたビーム以外でパターンが生成される場合、例えば、ホログラムを使用して表面上にパターンを生成する場合、3mm以下の対応するスポットサイズを、表面または表面と一致する想像上の平坦な表面上に定義することができる)。カメラなどの画像キャプチャデバイス110は、表面108上のスポットのパターンの画像をキャプチャするように構成されている。画像キャプチャデバイスとは異なる角度から画像をキャプチャすることによって潜在的なオクルージョンに対処するために、オプションの第2の(またはさらなる)画像キャプチャデバイス110’が含まれてもよい。
【0022】
カメラコントローラ112は、画像キャプチャデバイス110(および該当する場合は110’)に結合され、画像キャプチャを制御し、キャプチャされた画像を受信する。光源コントローラ114は、レーザー104と、該当する場合には光学素子106とに結合され、表面108に照射されるビームパターンを制御する。中央プロセッサ116およびメモリ118は、データバス120によってカメラおよび光源コントローラ112、114に結合され、パターン生成および画像キャプチャを調整し、キャプチャされた画像を前処理して、各スポットを含む表面部分の画像を生成する。機械学習エンジン122もデータバス120に接続されており、例えばANNまたはCNNなどの分類器を実装し、前処理されたスポット画像を入力として取り、表面分類を出力する。さらに、いくつかの実施形態では、ステレオエンジン124がデータバス120に接続され、表面108の画像を処理して表面の3次元形状を推論する。中央プロセッサは、表面分類と、該当する場合には3次元表面形状とを使用して、表示インターフェース(図示せず)を介して表示デバイス(図示せず)に表示するための出力画像を生成するように構成されている。他のインターフェース、例えば、ユーザーインターフェース(タッチスクリーン、キーボードなど)およびネットワークインターフェースのような、他の入力または出力のためのインターフェースも図示されていない。
【0023】
表面および対応するコンポーネントのステレオ再構成はオプションであり、複数のスポットのパターンの投射もオプションであり、いくつかの実施形態では単一のスポットが投射されるだけなので、光学素子106は必要ないかもしれないことが理解されるであろう。ビームパターンを生成するための代替的な構成も同様に可能である。さらに、説明した機能は、任意の適切な方法で分散させることができることが理解されるであろう。例えば、すべての計算は、中央プロセッサ116によって行われてもよく、またはそれ自体が分散されてもよい(メモリ118もそうであるかもしれない)。機能は、任意の適切な方法で、中央プロセッサ116と、例えばエンジン122、124または他の任意のコプロセッサとの間で分散されてもよい。同様に、記載されたすべての計算は、システムを適切に適合させて、専用サーバーまたはAWS(登録商標)などのサービス上のクラウドで同様にリモートで実行されてもよい。
【0024】
図3を参照して概要を説明すると、表面タイプマップまたは注釈画像を生成するための一般的な枠組みは、スポットのパターンを表面108、図示の例では手術部位、に投射することを備える。スポットのクロップされた画像302が抽出され、分類器304に渡されて、クロップされた各画像302について表面タイプラベル306が生成される。次に、クロップされた画像内のスポットの既知の位置および表面タイプラベル306を使用して、各スポットについての対応する表面タイプを示す表面タイプマップ308を生成する。次に、マップは、いくつかの実施形態では、表示のために表面108の画像に重ねられてもよく、またはマップは、例えばロボット手術システムなどのロボットシステムの制御に使用されてもよい。いずれの場合も、いくつかの実施形態では、構造化光または関連技術を用いてスポットのパターンから表面108の3次元モデルが推論され、表示用のビューの生成またはロボット手術システムなどのロボットシステムの制御のために、スポットおよび対応する表面タイプラベルがこのモデル内に配置されてもよい。ロボット手術システムは、この技術の適用例に過ぎず、表面タイプが制御に関連する可能性のある他のロボットシステムの制御に使用してもよいことが理解されるであろう。
【0025】
図4を参照すると、CNNなどの分類器を訓練するプロセスは、分類されるべき表面部分を、例えば上述のように、明るい集中光源で照射して402、各表面部分に少なくとも1つの明るいスポットを生成することを備える。照射は、例えば、上述のように光学素子にレーザービームを通過させることにより、複数の明るいスポットを同時に形成する並列的なものであってもよいし、例えば、単一のレーザー光源を移動させることにより、表面部分に次々とスポットを形成する逐次的なものであってもよいし、並列的(スポットパターン)と逐次的な照射の組み合わせであってもよい。各スポットの画像、例えばグレースケール画像または強度画像は、画像キャプチャを用いてキャプチャされる404。例えば、カラー画像をキャプチャしてから、強度画像に変換してもよい。複数のスポットが単一の画像にキャプチャされてもよいし、各画像が単一のスポットを含んでいてもよい。画像を前処理して406、例えば輝度ピークの周りの輝度閾値を用いて、明るいスポットを分離するためにキャプチャされた画像をセグメント化し、セグメント化されたスポットの周りで画像をクロップする。必要に応じて、前処理406は、例えば分類器304などの分類器への入力として適したサイズにクロップされた画像のサイズを変更することを備えていてもよい。クロップされた画像は、例えば、各クロップされた画像のシーン・コンテキストを手動で検査することにより、例えば、皮膚、骨、筋肉、脂肪、金属などの表面タイプラベルの予め定義されたセットの1つとして、さらにラベル付けされる408。クロップされた画像とそれに対応するラベルは、CNNなどの分類器の訓練410に使用されるデータセットを形成する。訓練(学習)は、上述したように分類エラーが満足のいくレベルに達するまでの回数のエポックで行ってもよいし、または、例えばエポック間のエラーの変化を低減することによって判断されるように、分類器が収束するまで行ってもよいし、または、分類器を固定のエポック数で訓練してもよい。データセットの一部は、訓練が成功したことを確認するために、分類器の評価のためのテストデータセットとして保存されるかも知れない。訓練(学習)が完了すると、分類器、例えばアーキテクチャのハイパーパラメータおよび調整済みのパラメータのセットが、将来使用するために保存される412。調整されたパラメータは、ANNまたはCNN分類器のネットワーク重みであってもよい。
【0026】
訓練された分類器が使用可能な状態で保存されると、
図5を参照すると、表面部分の分類は、
図4を参照して上述したように、表面部分上の明るいスポットの画像を照明し402、キャプチャし404、前処理406するプロセスを備える。次に、クロップされた画像は、表面タイプを予め定義された表面タイプの1つとして分類するために、学習(訓練)済み分類器に適用され502、表面タイプを示す出力が生成される504。例えば、分類器として使用されるCNNの場合、出力を生成することは、CNNの出力ユニットの活性化にアクセスし、最も高い活性化を有する出力ユニットを選択し、対応する表面タイプを表面部分について推論された表面タイプラベルとして出力することを含んでもよい。
【0027】
図6を参照すると、表面タイプの空間マップの生成は、ビームのパターンで表面を照射して602、スポットのパターンを形成することを備え、パターンは、そのパターンの一回照射で形成してもよいし、逐次的なビームの照射でパターンを形成してもよい。結果として得られたスポットのパターンは、画像キャプチャデバイスでキャプチャされ604、個々のスポットが分離され606、結果として得られたクロップされた画像は、例えば上述のように前処理される608。次に、前処理された画像は、上述のように分類される610。
【0028】
スポットを分離すること606は、基準フレーム内の分離された各スポットの座標(例えば、明るさのピークまたはクロップされた画像内の基準点に関する座標)を決定することを含む。基準フレームは、例えば、画像キャプチャデバイスに固定されていてもよく、変換は、撮像された表面に対する画像キャプチャデバイスの配置の知識から得られてもよい。撮像された各スポットに対応する表面部分は、上述したように分類され610、各スポット/表面部分についての分類結果は、各スポット/表面部分のそれぞれの表面タイプをマップ内のそれぞれの決定された座標と関連付けることによって、表面タイプマップに組み込まれる612。
【0029】
マップは、例えば、手術ロボットなどのロボットの自動制御に使用されてもよいし、例えば、各表面タイプを対応する視覚的なラベルに関連付け、結果として得られた視覚的なマップを表面の画像上にオーバーレイするなどして表示されてもよい。表面の画像上へのマップのオーバーレイは、表面と画像キャプチャデバイスとの間の既知の座標変換に基づいていてもよいし、上述のようにマップの座標がすでに画像キャプチャデバイスの基準フレームに入っていてもよい。スポットは赤外光によって生成されてもよく、その場合、画像の中で人間の観察者には見えず、カラーコードまたは他のシンボルによって追加の視覚的な混乱を招くことなく、表面のラベルを直接重ね合わせることができる。代わりに、可視光パターンについての可視スポットは、画像内に保持されるか、または画像処理によって除去され得る。
【0030】
上述したように、いくつかの実施形態では、複数の画像キャプチャデバイス、例えば画像キャプチャデバイス110に加えて第2の画像キャプチャデバイス110’が、表面の画像をキャプチャするために使用され、例えば1つの画像キャプチャデバイスビューにおける表面の部分のオクルージョンの可能性に対処する。これらの実施形態では、
図6の参照符号604’~610’で示されるように、第2またはさらなる画像キャプチャデバイスによってキャプチャされた1つまたは複数の画像について、ステップ604~610が繰り返される。両方の画像キャプチャデバイスについての結果(ステップ606および606’で決定された位置、およびステップ610および610’についての分類結果)は、次にステップ612で組み込まれる。具体的には、一方の画像キャプチャデバイスがオクルージョン領域をキャプチャできなかった場合、マップの対応する領域は、他方の画像キャプチャデバイスによってキャプチャされた画像に基づいて得られた分類を使用してラベル付けされ、その逆も同様である。両方の画像キャプチャデバイスが同じスポットの画像をキャプチャした領域(どちらの画像キャプチャデバイスのビューもオクルージョンされていない領域)については、2つの画像のそれぞれのスポットについて、例えば、出力された活性化または分類確率を平均することによって、または、同じスポットの画像を組み合わせたすべての分類結果の中で、最も高い活性化または分類確率を有する分類結果を選ぶことによって、分類結果を組み合わせる。
【0031】
図6を参照して上述したような表面部分の登録された分類は、次に
図7を参照して説明するように、表面タイプがラベル付けされた表面の3次元モデルを提供するために、構造化光技術などのステレオ技術と組み合わせることができる。このような3次元表面再構成を備えた実施形態は、上述したものと同じステップに、例えば表面の各ピクセルについて、または画像内のスポットのパターンに基づいて識別された各スポットについて、深さを計算するステップ702を追加したものである。結果として得られた深さ情報は、ステップ612から得られた表面タイプマップと結合され704、例えば、分類されたスポットごとに識別された座標を中心とするカラーコード化されたセルまたは四面体を有する適切なメッシュに基づいて、表面タイプでラベル付けされた画像化された表面の3次元モデルに関して、再構成されたシーンを形成する。深度は、実際のカメラまたは想定されるカメラまでの距離として、または、表面から離れて延びる方向、例えば、表面がそれに沿って延びる平面に対応する平面に垂直である、表面に垂直な方向に沿った位置として定義することができる。
【0032】
具体的な例として、上述のシステムおよび方法を用いて得られた画像を用いて、既知の多数のCNNアーキテクチャを訓練した。クラスIIの赤色レーザー(650±10nm、<1mW)を用いて、死体から得られた骨、皮膚、脂肪、および筋肉の4つ異なる組織にスポットを照射した。1280×720ピクセルのCMOSカメラを用いて、レーザーが照射された各組織タイプの画像を1000枚キャプチャした。画像は、カメラおよびレーザーからの距離を変えて、死体の複数の領域からキャプチャされ、その結果、スポットサイズに幅がある。全1280×720ピクセルの画像をクロップして、画像内の局所的な最大値に基づいて強度/グレースケールの輝度閾値を用いてレーザースポット周辺のピクセルを分離し、画像は、レーザースポットの全周囲をキャプチャするように適切にスケーリングしてクロップされた領域を有しており、クロップされた画像は、使用されたCNNアーキテクチャの入力に合わせてバイキュービック補間により224×224ピクセルにリサイズし、その結果、
図3に示すような画像が得られ、その例が、各組織タイプについて
図8に示されている。分類器として、MATLAB(登録商標)Deep
Learning Toolbox(MATLAB R2018b, Mathworks Inc.)が提供されている事前学習(訓練)済みのgoogLeNetを使用した。最後の2つの層(全結合層および出力層)は、4つの可能な分類結果を反映して修正されており、これらの各層は1×1×4層になるように適合されている(この場合、ユニットの数は一般的に分類クラスの数に対応する)。
【0033】
ネットワークの重みは、特に畳み込み層に有用な適合フィルタを提供するDeep Learning Toolboxで利用可能な事前学習(訓練)された重みで初期化され、非ゼロ学習率が全ネットワークについて使用されて、畳み込み層内を含むすべての重みが訓練(学習)中に適合された。ネットワークは、各組織タイプの画像(合計2000枚)の半分を用いて100エポックについて訓練(学習)され、残りの画像は、学習(訓練)済みネットワークの認識精度をテストするために確保された。
【0034】
認識精度は、皮膚(99.2%)、骨(97.8%)、筋肉(97.0%)、脂肪(93.4%)と、ほとんどが90%台後半で、偽陽性率は0.8%、2.2%、97.0%、および6.6%、偽陰性率は2.2%、1.2%、5.5%、および3.7%であった。平均認識精度は96.9%であった。同様に、他のCNNアーキテクチャ、具体的にはAlexnet、Denenet101、VGG-16を、MATLAB(登録商標)Deep Learning Toolboxを再び用いて、上述のように出力層を適宜適合させたところ、有望な結果が得られた。これらのアーキテクチャの平均認識精度は、同じ訓練データおよびテストデータに対して、95%、93%、および92%と評価された。注目すべきは、本開示で使用されたデータセットは、大規模なテストデータセットで優れた汎用性を提供し、ボックスからのネットワークアーキテクチャを使用して高い正解認識率を実現していることであり、当業者であれば、使用された分類器の特定の性質とは関係なく、選択された画像タイプが表面タイプに関する輝度構造において高い情報コンテントを持っていることが、高い認識率の原因であると理解するであろう。
【0035】
図9は、コンピューティングデバイス900の1つの実装のブロック図を示しており、このブロック図内では、本明細書で説明した方法論のいずれか1つまたはより多くのコンピューティングデバイスに実行させるための一連の命令が実行され得る。代替の実装では、コンピューティングデバイスは、ローカルエリアネットワーク(LAN)、イントラネット、エクストラネット、またはインターネット内の他のマシンに接続(例えば、ネットワーク化)されてもよい。コンピューティングデバイスは、クライアントサーバーネットワーク環境におけるサーバーまたはクライアントマシンの能力で動作してもよいし、ピアツーピア(または分散)ネットワーク環境におけるピアマシンとして動作してもよい。コンピューティングデバイスは、パーソナルコンピューター(PC)、タブレットコンピューター、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブアプライアンス、サーバー、ネットワークルーター、スイッチまたはブリッジ、またはそのマシンによって取られるアクションを指定する命令セット(シーケンシャルまたはそれ以外)を実行することができる任意のマシンであってもよい。さらに、単一のコンピューティングデバイスのみを図示しているが、「コンピューティングデバイス」という用語は、本明細書で説明した方法論のいずれか1つまたはより多くを実行するための一つ(または複数)の命令セットを個別にまたは共同で実行する機械(コンピュータなど)の集合体も含むものとする。
【0036】
例示のコンピューティングデバイス900は、処理デバイス902、メインメモリ904(例えば、リードオンリーメモリ(ROM)、フラッシュメモリ、シンクロナスDRAM(SDRAM)またはラムバスDRAM(RDRAM)などのダイナミック・ランダム・アクセス・メモリ(DRAM)など)、スタティックメモリ906(例えば、フラッシュメモリ、スタティック・ランダム・アクセス・メモリ(SRAM)など)、および二次メモリ(例えば、データ記憶デバイス918)を含み、これらはバス930を介して相互に通信する。
【0037】
処理デバイス902は、マイクロプロセッサ、中央処理装置などの1つまたはより多くの汎用プロセッサを表す。より詳細には、処理デバイス902は、CISC(Complex Instruction Set Computing)マイクロプロセッサ、RISC(Reduced Instruction Set Computing)マイクロプロセッサ、VLIW(Very Long Instruction Word)マイクロプロセッサ、他の命令セットを実装するプロセッサ、または命令セットの組み合わせを実装するプロセッサであってもよい。また、処理デバイス902は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、ネットワークプロセッサなどの1つまたはより多くの特殊用途の処理デバイスであってもよい。処理デバイス902は、本明細書で説明した動作またはステップを実行するための処理ロジック(命令922)を実行するように構成されている。
【0038】
コンピューティングデバイス900は、さらに、ネットワークインターフェースデバイス908を含んでもよい。また、コンピューティングデバイス900は、ビデオ表示デバイス910(例えば、液晶ディスプレー(LCD)または陰極線管(CRT))、英数字入力デバイス912(例えば、キーボードまたはタッチスクリーン)、カーソル制御デバイス914(例えば、マウスまたはタッチスクリーン)、およびオーディオデバイス916(例えば、スピーカ)を含んでもよい。
【0039】
データ記憶デバイス918は、本明細書に記載された方法論または機能のいずれか1つまたはより多くを具現化する1つまたはより多くの命令セット922が格納された1つまたはより多くの機械可読記憶媒体(または、より具体的には1つまたはより多くの非一時的コンピュータ可読記憶媒体)928を含んでもよい。また、命令922は、コンピュータシステム900によるその実行中に、完全にまたは少なくとも部分的に、メインメモリ904内および/または処理デバイス902内に存在してもよく、メインメモリ904および処理デバイス902もコンピュータ可読記憶媒体を構成する。
【0040】
上述の様々な方法は、コンピュータプログラムによって実施されてもよい。コンピュータプログラムは、上述した様々な方法のうちの1つまたはより多くの機能を実行するようにコンピュータに指示するように構成されたコンピュータコードを含んでもよい。コンピュータプログラムおよび/またはそのような方法を実行するためのコードは、1つまたはより多くのコンピュータ可読媒体またはより一般的にはコンピュータプログラム製品で、コンピュータなどの装置に提供されてもよい。コンピュータ可読媒体は、一時的なものであっても、非一時的なものであってもよい。1つまたはより多くのコンピュータ可読媒体は、例えば、電子的、磁気的、光学的、電磁的、赤外線的、または半導体システム、または、例えば、インターネットを介してコードをダウンロードするための、データ伝送のための伝搬媒体であり得る。あるいは、1つまたはより多くのコンピュータ可読媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、およびCD-ROM、CD-R/W、DVDなどの光ディスクなど、1つまたはより多くの物理的コンピュータ可読媒体の形態をとりうる。
【0041】
ここに記載されているモジュール、コンポーネント、その他の特徴は、個別のコンポーネントとして実装することも、ASICS、FPGA、DSPまたは類似のデバイスなどのハードウェアコンポーネントの機能に統合することもできる。
【0042】
「ハードウェアコンポーネント」とは、特定の動作を行うことができる有形の(例えば、非一時的な)物理的コンポーネント(例えば、1つまたはより多くのプロセッサのセット)であり、特定の物理的な方法で構成または配置され得る。ハードウェアコンポーネントは、特定の動作を実行するように恒久的に構成された専用の回路または論理を含んでいてもよい。ハードウェアコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)またはASICなどの特殊用途のプロセッサであってもよいし、それを含んでいてもよい。また、ハードウェアコンポーネントには、特定の動作を行うようにソフトウェアによって一時的に構成されたプログラマブルな論理または回路が含まれる得る。
【0043】
したがって、「ハードウェアコンポーネント」という言葉は、物理的に構築され、永久的に構成され(例えば、ハードワイヤード)、または一時的に構成され(例えば、プログラム化)、ここに記載された特定の方法で動作したり、特定の動作を実行したりする有形の実体を包含すると理解されるべきである。
【0044】
また、モジュールおよびコンポーネントは、ハードウェアデバイス内のファームウェアまたは機能回路として実装することができる。さらに、モジュールおよびコンポーネントは、ハードウェアデバイスおよびソフトウェアコンポーネントの任意の組み合わせで実装することができ、またはソフトウェア(例えば、機械可読媒体または伝送媒体に格納され、または他の方法で具現化されたコード)のみで実装することもできる。
【0045】
特に断らない限り、以下の説明から明らかなように、本明細書全体において、「受信」、「決定」、「比較」、「可能化」、「維持」、「識別」、「取得」、「取る」、「分類」、「訓練」、「関連付ける」、「提供」、「検出」、「分析」、「レンダリング」または類似の用語を用いた議論は、コンピュータシステムのレジスタおよびメモリ内の物理的(電子的)量として表現されたデータを、コンピュータシステムのメモリまたはレジスタなどの情報記憶装置、送信装置、または表示デバイス内の物理的量として同様に表現された他のデータに操作および変換する、コンピュータシステム、または同様の電子コンピューティングデバイスの動作およびプロセスを指すものと理解されたい。
【0046】
上記の説明は、例示を目的としたものであり、制限的なものではないことを理解されたい。他の多くの実装は、上記の説明を読んで理解すると、当業者に明らかになるだろう。本開示は、特定の実施形態を参照して説明してきたが、本開示は、説明した実施形態に限定されるものではなく、添付の請求の範囲の精神および範囲内で修正および変更を加えて実施することができることが認識されるであろう。したがって、本明細書および図面は、制限的な意味ではなく、例示的な意味で捉えられるべきである。したがって、本開示の範囲は、添付の特許請求の範囲を参照して、さらにそのような特許請求の範囲が権利を有する均等なすべての範囲も参照して決定されるべきである。
【国際調査報告】