IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴァイケリアス サージカル インコーポレーテッドの特許一覧

特表2023-512563外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法
<>
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図1
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図2
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図3
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図4
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図5
  • 特表-外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-27
(54)【発明の名称】外科用ロボットシステムにおける生体内の深さ知覚を決定するためのシステムおよび方法
(51)【国際特許分類】
   A61B 34/30 20160101AFI20230317BHJP
   G06T 7/593 20170101ALI20230317BHJP
【FI】
A61B34/30
G06T7/593
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022547862
(86)(22)【出願日】2021-02-08
(85)【翻訳文提出日】2022-08-04
(86)【国際出願番号】 US2021016999
(87)【国際公開番号】W WO2021159048
(87)【国際公開日】2021-08-12
(31)【優先権主張番号】62/971,097
(32)【優先日】2020-02-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522311657
【氏名又は名称】ヴァイケリアス サージカル インコーポレーテッド
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】サンティーニ,ファブリツィオ
(72)【発明者】
【氏名】カリファ,サミー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096BA05
5L096CA05
5L096DA01
5L096FA66
5L096HA11
(57)【要約】
外科用ロボットシステムにおける画像データから深度マップを生成するためのシステムおよび方法であって、画像データを生成するための第1および第2カメラを有するカメラアセンブリを有するロボットサブシステムを用いるシステムおよび方法。システムおよび方法は画像データに基づいて複数の深度マップを生成し、次いで、複数の深度マップを、それに関連付けられた距離データを有する単一の複合深度マップに変換する。次いで、システムおよび方法は、単一の複合深度マップ内の距離データに基づいてカメラアセンブリを制御することができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像データを生成するための第1および第2カメラを有するカメラアセンブリを有するロボットサブシステム、
コンピューティングユニット、
を備え、
前記コンピューティングユニットは、
前記画像データを処理するためのプロセッサ、
前記ロボットサブシステムを制御するための制御ユニット、
前記第1および第2カメラによって生成された前記画像データを受信し、前記画像データに基づいて、複数の深度マップを生成し、前記複数の深度マップを、関連する距離データを有する単一の複合深度マップに変換するための深度知覚サブシステム、
を有する、
外科用ロボットシステム。
【請求項2】
前記ロボットサブシステムはさらに、
複数のロボットアームと、前記複数のロボットアームおよび前記カメラアセンブリの移動を制御するためのモータユニットとを備える、
請求項1記載の外科用ロボットシステム。
【請求項3】
前記制御ユニットは、前記単一の複合深度マップに関連付けられた前記距離データを使用して、前記カメラアセンブリまたは前記ロボットアームのうちの1つを制御する、請求項2記載の外科用ロボットシステム。
【請求項4】
前記深度知覚サブシステムはさらに、
前記複数の深度マップを受信し、前記深度マップを前記単一の複合深度マップに変換するための深度マップ変換ユニットを備える、
請求項1記載の外科用ロボットシステム。
【請求項5】
前記深度マップ変換ユニットは、領域畳み込みニューラルネットワーク(R-CNN)技法を使用して前記単一の複合深度マップを生成する、請求項4記載の外科用ロボットシステム。
【請求項6】
前記第1および第2カメラはそれぞれ、
光学データを受信し、それに応答して前記画像データを生成する画像センサ、
前記光学データを前記画像センサ上に合焦させるために前記画像センサと光学的に結合された1つまたは複数のレンズ要素を有するレンズおよび光学システム、
前記1つまたは複数のレンズ要素を自動的に調整し、オートフォーカスデータを生成する、前記レンズおよび光学システムに関連付けられたオートフォーカス機構、
を備える、
請求項1記載の外科用ロボットシステム。
【請求項7】
前記深度知覚サブシステムは、
前記第1カメラから前記オートフォーカスデータを受信し、前記オートフォーカスデータを第1オートフォーカス深度マップに変換するための第1オートフォーカス変換ユニット、
前記第2カメラから前記オートフォーカスデータを受信し、前記オートフォーカスデータを第2オートフォーカス深度マップに変換するための第2オートフォーカス変換ユニット、
を備える、
請求項6記載の外科用ロボットシステム。
【請求項8】
前記深度知覚サブシステムはさらに、
前記第1カメラから画像データを受信し、前記画像データを第1視差深度マップに変換するための第1視差変換ユニット、
前記第2カメラから画像データを受信し、前記画像データを第2視差深度マップに変換するための第2視差変換ユニット、
を備える、
請求項7記載の外科用ロボットシステム。
【請求項9】
前記深度知覚サブシステムはさらに、
前記第1カメラからの画像データおよび前記第2カメラからの画像データを受信し、それに応答して視差深度マップを生成するための視差変換ユニットを備える、
請求項8記載の外科用ロボットシステム。
【請求項10】
前記深度知覚サブシステムは、
前記第1カメラから前記オートフォーカスデータを受信し、前記オートフォーカスデータを第1オートフォーカス深度マップに変換するための第1オートフォーカス変換ユニット、
前記第2カメラから前記オートフォーカスデータを受信し、前記オートフォーカスデータを第2オートフォーカス深度マップに変換するための第2オートフォーカス変換ユニット、
前記第1カメラから画像データを受信し、前記画像データを第1視差深度マップに変換するための第1視差変換ユニット、
前記第2カメラから画像データを受信し、前記画像データを第2視差深度マップに変換するための第2視差変換ユニット、
前記第1カメラから画像データを受信し、前記第2カメラから画像データを受信し、それに応答して視差深度マップを生成するための視差変換ユニット、
のうちの1つまたは複数を備える、
請求項6記載の外科用ロボットシステム。
【請求項11】
前記第1および第2視差ユニットの各々は、前記画像データ内の第1および第2連続画像を取得し、前記第1画像の各部分が前記第2画像に対して移動する量を測定するように構成される、請求項10記載の外科用ロボットシステム。
【請求項12】
前記第1および第2カメラの各々は位置データを生成し、前記第1および第2視差変換ユニットの各々は、
各前記カメラから前記画像データを受信し、前記画像データを複数のセグメントに分割し、前記複数のセグメントに応答して、シフトされた画像データを生成する分離ユニット、
各前記カメラから前記位置データを受信し、前記カメラの前記位置を示すカメラ移動データをそれに応答して生成する移動決定ユニット、
前記画像データおよび前記カメラ移動データを受信し、前記画像データおよび前記カメラ移動データを各前記視差深度マップに変換する距離変換ユニット、
を備える、
請求項11記載の外科用ロボットシステム。
【請求項13】
前記距離変換ユニットは、領域畳み込みニューラルネットワーク(R-CNN)技法を使用して、各前記視差深度マップを生成する、請求項12記載の外科用ロボットシステム。
【請求項14】
前記視差変換ユニットは、前記第1カメラから受信された前記画像データ内の画像と前記第2カメラから受信された前記画像データ内の画像との間の視差を分析する、請求項10記載の外科用ロボットシステム。
【請求項15】
前記第1および第2カメラからの前記画像間の前記視差は、層状局所畳み込みニューラルネットワーク(R-CNN)技法を使用して決定される、請求項14記載の外科用ロボットシステム。
【請求項16】
前記深度知覚サブシステムはさらに、
前記第1オートフォーカス深度マップ、前記第2オートフォーカス深度マップ、前記第1視差深度マップ、前記第2視差深度マップ、および前記視差深度マップを受信し、受信深度マップを形成し、前記受信深度マップを前記単一の複合深度マップに変換する深度マップ変換ユニットを備える、
請求項10記載の外科用ロボットシステム。
【請求項17】
前記深度マップ変換ユニットは、領域畳み込みニューラルネットワーク(R-CNN)ベースのエンコーダ-デコーダアーキテクチャを使用して、前記単一の複合深度マップを生成する、請求項16記載の外科用ロボットシステム。
【請求項18】
各前記受信深度マップにおける各点はそれに関連する距離値を有し、前記深度マップ変換ユニットは、
前記受信深度マップを受信し、前記受信深度マップを前記単一の複合深度マップに変換するための深度マップ生成ユニット、
前記受信深度マップから、前記単一の複合深度マップの各々の点に関連する前記距離値の各々に関連する信頼値を生成するための信頼値生成ユニット、
を備え、
前記信頼値は、前記単一の複合深度マップに関連する前記距離値における信頼度を示す、
請求項17記載の外科用ロボットシステム。
【請求項19】
外科用ロボットシステムにおいて画像データから深度マップを生成する方法であって、
画像データを生成するための第1および第2カメラを有するカメラアセンブリを有するロボットサブシステムを提供するステップ、
前記第1および第2カメラからの画像データに基づいて、複数の深度マップを生成するステップ、
前記複数の深度マップを、それに関連する距離データを有する単一の複合深度マップに変換するステップ、
前記単一の複合深度マップにおける前記距離データに基づいて前記カメラアセンブリを制御するステップ、
を有する方法。
【請求項20】
前記ロボットサブシステムは、複数のロボットアームと、前記複数のロボットアームおよび前記カメラアセンブリの動きを制御するためのモータユニットとをさらに備え、
前記方法はさらに、前記単一の複合深度マップ内の前記距離データに基づいて前記ロボットアームを制御するステップを有する、
請求項19記載の方法。
【請求項21】
前記第1および第2カメラの各々は、
光学データを受信し、それに応答して前記画像データを生成するための画像センサ、
前記光学データを前記画像センサ上に合焦させるために前記画像センサと光学的に結合された1つまたは複数のレンズ要素を有するレンズおよび光学システム、
前記1つまたは複数のレンズ要素を自動的に調整し、オートフォーカスデータを生成するための、前記レンズおよび光学システムに関連するオートフォーカス機構、
を備える、
請求項19記載の方法。
【請求項22】
前記方法はさらに、
前記第1カメラからの前記オートフォーカスデータを第1オートフォーカス深度マップに変換するステップ、
前記第2カメラからの前記オートフォーカスデータを第2オートフォーカス深度マップに変換するステップ、
を有する、請求項21記載の方法。
【請求項23】
前記方法はさらに、
前記第1カメラからの前記画像データを第1視差深度マップに変換するステップ、
前記第2カメラからの前記画像データを第2視差深度マップに変換するステップ、
を有する、請求項22記載の方法。
【請求項24】
前記方法はさらに、前記第1カメラからの前記画像データおよび前記第2カメラからの前記画像データから視差深度マップを生成するステップを有する、請求項23記載の方法。
【請求項25】
前記方法はさらに、
前記第1カメラからの前記オートフォーカスデータを第1オートフォーカス深度マップに変換するステップ、
前記第2カメラからの前記オートフォーカスデータを第2オートフォーカス深度マップに変換するステップ、
前記第1カメラからの前記画像データを第1視差深度マップに変換するステップ、
前記第2カメラからの前記画像データを第2視差深度マップに変換するステップ、
前記第1カメラからの前記画像データおよび前記第2カメラからの前記画像データから視差深度マップを生成するステップ、
のうちの1つまたは複数を有する、請求項21記載の方法。
【請求項26】
前記第1カメラからの前記画像データを第1視差深度マップに変換するステップは、
前記画像データ内の第1および第2連続画像を取得するステップ、
前記第1画像の各部分が前記第2画像に対して移動する量を測定するステップ、
を有する、請求項25記載の方法。
【請求項27】
前記第2カメラからの前記画像データを第2視差深度マップに変換するステップは、
前記画像データ内の第1および第2連続画像を取得するステップ、
前記第1画像の各部分が前記第2画像に対して移動する量を測定するステップ、
を有する、請求項26記載の方法。
【請求項28】
前記第1カメラは位置データを生成し、 前記方法はさらに、
前記第1カメラからの前記画像データを複数のセグメントに分割し、前記複数のセグメントに応答して、シフトされた画像データを生成するステップ、
前記位置データに応答して、前記カメラの位置を示す前記第1カメラ移動データから、生成するステップ、
前記画像データおよび前記カメラ移動データを、前記第1視差深度マップに変換するステップ、
を有する、請求項25記載の方法。
【請求項29】
前記第2カメラは位置データを生成し、 前記方法はさらに、
前記第2カメラからの前記画像データを複数のセグメントに分割し、前記複数のセグメントに応答して、シフトされた画像データを生成するステップ、
前記位置データに応答して、前記カメラの位置を示す前記第2カメラ移動データから、生成するステップ、
前記画像データおよび前記カメラ移動データを、前記第2視差深度マップに変換するステップ、
を有する、請求項28記載の方法。
【請求項30】
前記第1カメラからの前記画像データおよび前記第2カメラからの前記画像データから前記視差深度マップを生成するステップは、前記第1カメラから受信された前記画像データ内の画像と前記第2カメラから受信された前記画像データ内の画像との間の前記視差を分析するステップをさらに有する、請求項25記載の方法。
【請求項31】
前記方法はさらに、
前記第1オートフォーカス深度マップ、前記第2オートフォーカス深度マップ、前記第1視差深度マップ、前記第2視差深度マップ、および前記視差深度マップを受信し、受信深度マップを形成するステップ、
前記受信深度マップを前記単一の複合深度マップに変換するステップ、
を有する、請求項25記載の方法。
【請求項32】
各前記受信深度マップにおける各点はそれに関連する距離値を有し、前記方法はさらに、
前記受信された深度マップから、前記単一の複合深度マップの各々の点に関連する前記距離値の各々に関連する信頼値を生成するステップを有し、
前記信頼値は、前記単一の複合深度マップに関連する前記距離値における信頼度を示す、
請求項31記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願>
本発明は、2020年2月6日に出願された米国仮特許出願第62/971,097号(発明の名称:DEPTH PERCEPTION IN VIVO)の優先権を主張し、その内容は参照により本明細書に組み込まれる。
【0002】
本発明は外科用ロボットシステムに関し、より具体的には、カメラアセンブリを使用する外科用ロボットシステムに関する。
【背景技術】
【0003】
低侵襲手術(MIS)は、外科医が大きな切開を通して手で手術する開腹手術と比較した場合、患者のアウトカムに対して有益であることが証明されている。患者の回復時間、感染のリスク、将来のヘルニア発生率を著しく減少させ、より多くの外来手術を実施することを可能にするからである。
【0004】
手動およびロボットMISシステムの出現にもかかわらず、手術の複雑さならびに現在のMISソリューションの一般的な制限があるゆえに、開腹手術は多くの適応症に対する標準的な処置方法であり続けている。これらの制限には、MISに熟達するために必要とされる訓練および練習の量、ならびに1つの挿入位置からの腹部アクセスが制限されている点、が含まれる。
【0005】
Virtual Reality Surgical Deviceと題する米国特許第10,285,765号、Virtual Reality Wrist Assemblyと題する米国特許公開公報第2019/0142531号、およびVirtual Reality Surgical Camera Systemと題する米国特許公開公報第2019/0076199号は、発展した外科手術システムを開示しており、1つのMIS切開で腹部の任意箇所へ到達できる。自然なインターフェースおよびポーズ可能な視点により、機器固有の訓練が最小限である手術システムを作り出すことができる。外科医はロボットがあたかも自分の手と目であるかのように操作し、高品質の製造およびより低いシステム当たりのコストと組み合わさって、外科医が患者に対して高品質ケアを提供することに集中することを可能にする。
【0006】
従来のMISシステムの最大の問題の1つは、オペレータの視野外で負傷が発生する可能性があることである。手術ステージの詳細な3次元(3D)マップを生成することは、システムが衝突を積極的に防止し、外科医がロボットアームなどのロボット構成要素のための最適な手術経路を計画するのを助けることを可能にする。
【0007】
さらに、深さデータは、安全かつ効率的な方法で患者内部のナビゲーションおよび外科的処置を実行しながら、人間の組織と密接に相互作用することができる自律的な外科用ロボットの使用を可能にする。基本的な外科的処置を実行することができる知的で自律的な外科的システムは、患者の内部の詳細な3次元知識を必要とする。したがって、深さについての知識は、この目標に対する基盤となるものである。
【0008】
前述の刊行物に開示されたロボット手術システムは、小型化されたロボットと拡張現実とを融合する。いくつかの実施形態において、システムは、2つの8自由度(DOF)ロボットアームに加えて、単一の切開部を通して挿入され、患者の腹腔内に広げられる、立体カメラアセンブリまたはヘッドを備える。外科医はロボットヘッドおよび仮想現実ヘッドセットを介して完全な手術状態を視覚化しながら、2つの6軸ハンドヘルドコントローラを用いてロボットアームを制御する。
【0009】
このシステムの独特のアーキテクチャは、他のいかなる外科的方法またはシステムによっても実現されない機会および能力を提供するが、外科医は患者の内部の視覚的フィードバックのみを利用することができる。脳は、様々な低レベルおよび高レベルソースを自然に使用して、信頼性が高くロバストな距離推定を得る。これは、人間が環境と相互作用するために、深さサインに大きく依存するからである。ロボットヘッドを通してこれらのサインをアクセス可能にすることは、外科医の能力を高め、はるかに豊かで効果的な経験を生み出す。
【0010】
しかしながら、利用可能な従来のおよび商業的に拡張された現実および仮想現実システムは、正確な視覚的表現およびフィードバックを保証するのに十分な深さ情報を外科医に対して提供することができない。
【発明の概要】
【0011】
本発明は、複数の深度マップを生成し、次いで、深度マップを単一の深度マップに結合またはマージする深度知覚サブシステムを使用する、外科用ロボットシステムを対象とする。深度知覚サブシステムはまた、単一の複合深度マップ内の距離データに関連付けられた一連の信頼値を生成する。信頼値は、深度マップの選択された点または部分に関連する距離データが正しいまたは正確であるという信頼度または尤度の指標である。深度知覚サブシステムは、カメラアセンブリのカメラに関連する深度マップを生成する。具体的には、深度知覚サブシステムは、カメラのオートフォーカス機構に関連する深度マップ、各カメラに関連する視差データ、および各カメラからの画像データ間の視差を生成する。次いで、深度知覚サブシステムは、深度マップのすべてを処理して、組み合わされた単一の深度マップを生成する。深度マップデータおよび信頼値は、ロボットサブシステムの1つまたは複数の構成要素を移動させるためにシステムによって使用することができる。
【0012】
本発明は、以下を備える外科用ロボットシステムを対象とする:画像データを生成するための第1および第2カメラを有するカメラアセンブリを有するロボットサブシステム;以下を有するコンピューティングユニット:画像データを処理するためのプロセッサ;ロボットサブシステムを制御するための制御ユニット;第1および第2カメラによって生成された画像データを受信し、画像データに基づいて、複数の深度マップを生成し、次いで、複数の深度マップを、関連する距離データを有する単一の複合深度マップに変換する深度知覚サブシステム。ロボットサブシステムは、複数のロボットアームと、複数のロボットアームおよびカメラアセンブリの移動を制御するためのモータユニットとをさらに備える。制御ユニットはカメラアセンブリおよびロボットアームのうちの1つを制御するために、単一の組み合わされた深度マップに関連付けられた距離データを使用する。深度知覚サブシステムは、複数の深度マップを受信し、次いで、深度マップを単一の複合深度マップに変換するための深度マップ変換ユニットをさらに備える。深度マップ変換ユニットは、領域畳み込みニューラルネットワーク(R-CNN)技法を使用して単一の複合深度マップを生成する。
【0013】
さらに、第1および第2カメラの各々は、光学データを受信しそれに応答して画像データを生成するための画像センサと、光学データを画像センサ上に合焦させるために画像センサと光学的に結合された1つまたは複数のレンズ要素を有するレンズおよび光学システムと、1つまたは複数のレンズ要素を自動的に調整し、オートフォーカスデータを生成するための、レンズおよび光学システムに関連するオートフォーカス機構とを備える。
【0014】
本発明の深度知覚サブシステムは、以下の任意の組み合わせを含む:第1カメラからオートフォーカスデータを受信し、オートフォーカスデータを第1オートフォーカス深度マップに変換するための第1オートフォーカス変換ユニット;第2カメラからオートフォーカスデータを受信し、オートフォーカスデータを第2オートフォーカス深度マップに変換するための第2オートフォーカス変換ユニット;第1カメラから画像データを受信し、画像データを第1視差深度マップに変換するための第1視差変換ユニット;第2カメラから画像データを受信し、画像データを第2視差深度マップに変換するための第2視差変換ユニット;第1カメラと第2カメラから画像データを受信し、それに応じて視差深度マップを生成する、視差変換ユニット。
【0015】
第1および第2視差ユニットは、画像データ内の第1および第2連続画像を取得し、次いで、第1画像の各部分が第2画像に対して移動する量を測定するように構成することができる。さらに、第1および第2視差変換ユニットの各々は、以下を有することができる:それぞれのカメラから画像データを受信し、画像データを複数のセグメントに分割し、次いで、複数のセグメントに応答して、シフトされた画像データを生成する分離ユニット;それぞれのカメラから位置データを受信し、次いで、それに応答して、カメラの位置を示すカメラ移動データを生成する移動決定ユニット;画像データおよびカメラ移動データを受信し、次いで、画像データおよびカメラ移動データをそれぞれの視差深度マップに変換する距離変換ユニット。距離変換ユニットは、領域畳み込みニューラルネットワーク(R-CNN)技法を使用して、それぞれの視差深度マップを生成する。また、視差変換ユニットは、第1カメラから受信した画像データの画像と、第2カメラから受信した画像データの画像との間の視差を解析する。
【0016】
深度知覚サブシステムは、第1オートフォーカス深度マップと、第2オートフォーカス深度マップと、第1視差深度マップと、第2視差深度マップと、視差深度マップとを受信し、受信深度マップを形成し、次いで、受信深度マップを単一の複合深度マップに変換するための深度マップ変換ユニットをさらに備える。また、深度マップ変換ユニットは、受信深度マップを受信した後、受信深度マップを単一の複合深度マップに変換する深度マップ生成ユニットと、受信深度マップから単一の複合深度マップの各点に関連付けられた距離値のそれぞれに関連付けられた信頼値を生成する信頼値生成ユニットと、を有する。信頼値は、単一の組み合わされた深度マップに関連する距離値の信頼度を示す。
【0017】
本発明はまた、外科用ロボットシステムにおいて画像データから深度マップを生成するための方法に関する。同方法は以下を有する:画像データを生成するための第1および第2カメラを有するカメラアセンブリを有するロボットサブシステムを提供するステップ;第1および第2カメラからの画像データに基づいて、複数の深度マップを生成するステップ;複数の深度マップを、それに関連する距離データを有する単一の複合深度マップに変換するステップ;単一の複合深度マップにおける距離データに基づいてカメラアセンブリを制御するステップ。
【0018】
本方法はまた、以下のうちの1つまたは複数、またはそれらの任意の組み合わせを含む:第1カメラからのオートフォーカスデータを第1オートフォーカス深度マップに変換するステップ;第2カメラからのオートフォーカスデータを第2オートフォーカス深度マップに変換するステップ;第1カメラからの画像データを第1視差深度マップに変換するステップ;第2カメラからの画像データを第2視差深度マップに変換するステップ;第1カメラからの画像データおよび第2カメラからの画像データから視差深度マップを生成するステップ。
【0019】
本方法はまた、第1オートフォーカス深度マップと、第2オートフォーカス深度マップと、第1視差深度マップと、第2視差深度マップと、視差深度マップとを受信するステップ、受信深度マップを形成するステップ、次いで、受信深度マップを単一の複合深度マップに変換するステップを含む。さらに本方法は、受信深度マップから、単一の複合深度マップの各点に関連する距離値の各々に関連する信頼値を生成することを含む。信頼値は、単一の組み合わされた深度マップに関連する距離値の信頼度を示す。
【図面の簡単な説明】
【0020】
本発明のこれらおよび他の特徴および利点は、添付の図面と併せて以下の詳細な説明を参照することによって、より完全に理解されよう。図面において、同様の参照番号は異なる図面を通して同様の要素を指す。図面は本発明の原理を示し、一定の縮尺ではないが、相対的な寸法を示す。
図1】本発明での使用に適した外科用ロボットシステムの概略ブロック図である。
図2】本発明の教示による深度知覚サブシステムの概略図である。
図3】本発明の深度知覚サブシステムの視差変換ユニットの概略ブロック図である。
図4】本発明の教示による深度知覚サブシステムの深度マップ変換ユニットの概略ブロック図である。
図5】本発明の教示による、深度知覚サブシステムの深度マップ変換ユニットによって採用される処理技法の例示的概略図である。
図6】本発明の教示による例示的な深度マップの図である。
【発明を実施するための形態】
【0021】
以下の説明では、開示される主題の完全な理解を提供するために、本発明のシステムおよび方法、ならびにシステムおよび方法が動作し得る環境に関して、多数の具体的な詳細が述べられる。しかしながら、開示される主題はそのような特定の詳細なしに実施されてもよく、当技術分野で周知の特定の特徴は開示される主題の複雑さを回避するために詳細に説明されないことが、当業者には明らかであろう。加えて、以下に提供される任意の実施例は単なる例示であり、限定的に解釈されるべきではなく、本発明の教示を実施するために他のシステム、装置、および/または方法を使用することができ、本発明の範囲内であるとみなされることが、本発明者によって企図されることが理解される。
【0022】
本発明のシステムおよび方法は、仮想現実手術の一部として使用される1つまたは複数の外科用ロボットシステムとともに使用するように設計することができるが、本発明のシステムは例えば、ロボット手術システム、ストレートスティック型手術システム、および腹腔鏡システムを含む、任意のタイプの手術システムとともに使用することができる。加えて、本発明のシステムは、デバイスまたは装置を制御しながら、ユーザが多数の情報へのアクセスを必要とする、他の非外科的システムにおいて使用することができる。
【0023】
本明細書に開示されるシステムおよび方法は例えば、米国特許第10,285,765号およびPCT特許出願第PCT/US20/39203号に開示されるロボット手術デバイスおよび関連システム、および/または、米国特許出願公開第2019/0076199号に開示されるカメラシステムに組み込まれ、利用することができる。前述の出願および刊行物のすべての内容および教示は、参照により本明細書に組み込まれる。本発明の一部を形成する手術ロボットシステムは、ユーザワークステーションと、ロボットサポートシステム(RSS)と、モータユニットと、1つまたは複数のロボットアームおよび1つまたは複数のカメラアセンブリを含む埋め込み型手術ロボットとを含む手術システムと、を備えることができる。埋め込み型ロボットアームおよびカメラアセンブリは、単一の支持軸ロボットシステムの一部を形成することができ、または分割アームアーキテクチャロボットシステムの一部を形成することができる。
【0024】
ロボットアームは、ユーザの肩、肘、手首、および指に対応する動きに関連する部分または領域を有することができる。例えば、ロボット肘は人間の肘の位置および向きに従うことができ、ロボット手首は人間の手首の位置および向きに従うことができる。ロボットアームはまた、例えば、ユーザが人差し指と親指とをつまむときの人差し指など、ユーザの1つまたは複数の指の動きに追従する端部エフェクタで終端するような、関連する端部領域を有することができる。ロボットのアームがユーザのアームの動きに追従する間、ロボットの肩は所定の位置に固定される。1実施形態において、ユーザの腕の位置および向きから、ユーザの胴の位置および向きが差し引かれる。この減算により、ユーザは、ロボットアームを動かすことなく胴体を動かすことができる。ロボットアームは手術部位のすべての領域に到達するように構成することができ、異なる構成および狭い空間で動作することができる。
【0025】
本発明は、複数の深度マップを生成し、次いで、深度マップを単一の複合深度マップに結合またはマージする、深度知覚サブシステムを採用した外科用ロボットシステムを対象とする。深度知覚サブシステムはまた、単一の複合深度マップ内の距離データに関連する一連の信頼値を生成する。信頼値は、深度マップの選択された点または部分に関連する距離データが正しいまたは正確であるという信頼度または尤度の指標である。深度知覚サブシステムは、カメラアセンブリのカメラに関連する深度マップを生成する。具体的には、深度知覚サブシステムは、カメラのオートフォーカス機構に関連する深度マップ、各カメラに関連する視差データ、および各カメラからの画像データ間の視差を生成する。次いで、深度知覚サブシステムは、深度マップのすべてを処理して、組み合わされた単一の深度マップを生成する。深度マップデータおよび信頼値は、ロボットサブシステムの1つまたは複数の構成要素を移動させるためにシステムによって使用される。
【0026】
図1は、本発明の教示による外科用ロボットシステム10の概略ブロック図の説明である。システム10は、表示装置またはユニット12、仮想現実(VR)計算ユニット14、感知および追跡ユニット16、計算ユニット18、およびロボットサブシステム20を含む。表示ユニット12は、VR計算ユニット14、計算ユニット18、および/またはロボットサブシステム20によって生成された情報、画像、またはビデオを表示するための任意の選択されたタイプのディスプレイとすることができる。表示ユニット12は例えば、HMD(head mounted display)、スクリーンまたはディスプレイ、3D(3D)スクリーン等を含むことができる。表示ユニットはまた、市販のヘッドマウントディスプレイに見られるような、オプションのセンサおよびトラッキングユニット16Aを含むことができる。感知および追跡ユニット16および16Aは、例えば看護師または外科医などのシステムのユーザに結合された1つまたは複数のセンサまたは検出器を含むことができる。センサはユーザの腕に結合することができ、ヘッドマウントディスプレイが使用されない場合、追加のセンサをユーザの頭および/または首領域に結合することもできる。この構成におけるセンサは、感知および追跡ユニット16によって表される。ユーザが頭部装着型ディスプレイを使用する場合、目、頭部および/または首部センサならびに関連する追跡技術はそのデバイス内に組み込むことができ、またはそのデバイス内で使用することができ、したがって、任意選択の感知および追跡ユニット16Aの一部を形成することができる。外科医のアームに連結される感知および追跡ユニット16のセンサは、好ましくは例えば肩領域、肘領域、手首または手の領域、および所望であれば指などのアームの選択された領域に連結することができる。センサは、ユーザの選択された部分の位置を示す位置データを生成する。感知および追跡ユニット16および/または16Aは、ロボットサブシステム20のカメラアセンブリ44およびロボットアーム42を制御するために利用することができる。感知および追跡ユニット16のセンサによって生成された位置データ34は、プロセッサ22による処理のために計算ユニット18に対して搬送される。計算ユニット18は位置データから、外科医の腕の各部分の位置および/または向きを決定または計算し、このデータをロボットサブシステム20に対して伝達することができる。代替の実施形態によれば、感知および追跡ユニット16は、外科医の胴体または任意の他の身体部分に結合されたセンサを使用することができる。さらに、感知および追跡ユニット16はセンサに加えて、例えば、加速度計、ジャイロスコープ、磁力計、および運動プロセッサを有する慣性運動量ユニット(IMU)を使用することができる。磁力計の追加は当該分野において標準的な実践であり、磁向は、垂直軸の周りのセンサドリフトの低減を可能にする。代替実施形態はまた、手袋、外科用スクラブ、または外科用ガウンなどの外科用材料内に配置されたセンサを含む。センサは、再使用可能または使い捨てであってもよい。さらに、センサは、手術室などの部屋内の固定位置など、ユーザの外部に配置することができる。外部センサは、コンピューティングユニットによって処理され、したがってシステム10によって使用される外部データ36を生成することができる。別の実施形態によれば、表示ユニット12が関連する感知および追跡ユニット16Aを使用するヘッドマウントデバイスであるとき、デバイスは、VR計算ユニット14によって受信され処理される、追跡および位置データ34Aを生成する。さらに、感知および追跡ユニット16は、必要に応じてハンドコントローラを含むことができる。
【0027】
ディスプレイがHMDである実施形態において、ディスプレイユニット12は例えば、Oculus Rift、Varjo VR-1、またはHTC Vive Pro Eyeなどの仮想現実ヘッドマウントディスプレイであってもよい。HMDは、ユーザの頭部に結合または装着されるディスプレイと、ディスプレイの焦点を合わせたビューを可能にするレンズと、ディスプレイの位置および向きの追跡を提供するセンサおよび/または追跡システム16Aとをユーザに提供することができる。位置および方位センサシステムは例えば、加速度計、ジャイロスコープ、磁力計、運動プロセッサ、赤外線追跡、視線追跡、コンピュータ視覚、交番磁界の放射および感知、および、位置と方位の少なくとも1つを追跡する任意の他の方法またはそれらの任意の組み合わせを含むことができる。知られているように、HMDは、カメラアセンブリ44から外科医の右眼および左眼に対して画像データを提供することができる。外科医のための仮想現実体験を維持するために、センサシステムは外科医の頭部の位置および向きを追跡し、次いで、データをVRコンピューティングユニット14に対して中継し、必要に応じてコンピューティングユニット18に対して中継することができる。計算ユニット18はユーザの頭部の動きに追従するように、モータユニット40を介してロボットサブシステム20のカメラアセンブリ44のパンおよびチルトをさらに調整することができる。
【0028】
表示ユニット12に関連する場合、センサによって生成されたセンサまたは位置データは、直接的にまたはVR計算ユニット14を介して、計算ユニット18に対して伝達することができる。同様に、例えばユーザの腕および手に関連付けることができる感知および追跡ユニット16からなどの、システム内の他のセンサによって生成された追跡および位置データ34は、コンピューティングユニット18に対して伝達することができる。追跡および位置データ34、34Aはプロセッサ22によって処理することができ、例えば記憶ユニット24に記憶することができる。追跡および位置データ34、34Aは制御ユニット26によって使用することもでき、それに応答して、ロボットサブシステム20の1つまたは複数の部分を制御するための制御信号を生成することができる。ロボットサブシステム20は、ユーザワークステーションと、ロボットサポートシステム(RSS)と、モータユニット40と、1つまたは複数のロボットアーム42および1つまたは複数のカメラアセンブリ44を含む埋め込み型手術ロボットとを含むことができる。埋め込み型ロボットアームおよびカメラアセンブリは、米国特許第10,285,765号に開示され記載されているような単一支持軸ロボットシステムの一部を形成することができ、またはPCT特許出願番号PCT/US20/39203(その内容は参照により本明細書に組み入れられる)に記載され開示されているような分割アームアーキテクチャロボットシステムの一部を形成することができる。
【0029】
制御ユニット26によって生成された制御信号は、ロボットサブシステム20のモータユニット40によって受信することができる。モータユニット40は、ロボットアーム42とカメラアセンブリ44とを別個に駆動するように構成された一連のサーボモータを含むことができる。ロボットアーム42は、関連するセンサによって感知される外科医のアームの縮小された動きまたは動作に従うように制御することができる。ロボットアーム42は、ユーザの肩、肘、手首、および指に関連する動きに関連する部分または領域を有することができる。例えば、ロボット肘は人間の肘の位置および向きに従うことができ、ロボット手首は人間の手首の位置および向きに従うことができる。ロボットアーム42はまた、例えば、ユーザが人差し指と親指とをつまむときの人差し指などのように、ユーザの1つまたは複数の指の動きに従う端部エフェクタで終端するような、関連する端部領域を有することができる。ロボットのアームがユーザのアームの動きに追従する間、ロボットの肩は所定の位置に固定される。1実施形態では、ユーザの腕の位置および向きから、ユーザの胴の位置および向きが差し引かれる。この減算により、ユーザは、ロボットアームを動かすことなく胴体を動かすことができる。
【0030】
ロボットカメラアセンブリ44は例えば、手術または手術部位のライブビデオフィードなどの画像データ48を外科医に対して提供するように構成されるとともに、外科医がカメラアセンブリ44を構成するカメラを作動させ制御することを可能にするように構成される。カメラアセンブリ44は好ましくは1対のカメラを含み、その光軸は手術部位の立体視を提供するように、選択された距離(カメラ間距離として知られる)だけ軸離間される。外科医はヘッドマウントディスプレイの動きを通して、または外科医の頭部に結合されたセンサを介して、またはユーザの頭部または腕の動きを追跡するハンドコントローラまたはセンサを使用することによって、カメラの動きを制御することができ、したがって、外科医は、直観的かつ自然な方法で手術部位の所望のビューを得ることができる。カメラは知られているように、例えばヨー、ピッチ、およびロール方向を含む、複数の方向に移動可能である。立体カメラの構成要素は、自然で快適であると感じるユーザ体験を提供するように構成することができる。いくつかの実施形態において、カメラ間の軸間距離は、ユーザによって知覚される手術部位の深さを調整するように修正することができる。
【0031】
カメラアセンブリ44は、外科医の頭部の動きによって作動される。例えば、手術中に、外科医が現在の視野の上方に位置する物体を見たい場合、外科医は上方向を見て、その結果、ユーザの視点からピッチ軸を中心にして立体カメラが上方に回転される。カメラアセンブリ44によって生成された画像またはビデオデータ48は、表示ユニット12上に表示することができる。ディスプレイユニット12がヘッドマウントディスプレイである場合、ディスプレイは、HMDのヨー、ピッチ、およびロール方向の生の方向データ、ならびにHMDのデカルト空間(x、y、z)内の位置データを取得する内蔵トラッキングおよびセンサシステムを含むことができる。ただし、代替の追跡システムを使用して、HMDの内蔵の追跡システムの代わりに、またはそれに加えて、ディスプレイの補足的な位置および向きの追跡データを提供することができる。本発明での使用に適したカメラアセンブリの例としては、米国特許第10,285,765号および米国特許出願公開第2019/0076199号に開示されているカメラアセンブリが挙げられ、その内容は参照により本明細書に組み込まれる。
【0032】
カメラアセンブリ44によって生成された画像データ48は、仮想現実(VR)計算ユニット14に対して伝達され、VRまたは画像レンダリングユニット30によって処理される。画像データ48は、静止写真または画像データならびにビデオデータを含むことができる。VRレンダリングユニット30は、当技術分野で知られているように、画像データを処理し、次いで、表示ユニット12による表示のために画像データをレンダリングするための適切なハードウェアおよびソフトウェアを含むことができる。さらに、VRレンダリングユニット30は、カメラアセンブリ44から受信した画像データを、カメラアセンブリ内のカメラの位置および向きに関連する情報、ならびに外科医の頭部の位置および向きに関連する情報と組み合わせることができる。この情報により、VRレンダリング部30は、出力映像または映像レンダリング信号を生成し、表示ユニット12に対して送信することができる。すなわち、VRレンダリングユニット30は例えば、外科医によって装着されたHMDなどにおいて、表示ユニットに表示するために、ハンドコントローラの位置および向きの読み取り値、ならびに外科医の頭部位置をレンダリングする。
【0033】
VR計算ユニット14はまた、表示ユニット12内に表示されるVR世界において使用または配置するための1つまたは複数の仮想現実(VR)カメラを生成するための仮想現実(VR)カメラユニット38を含むことができる。VRカメラユニットは仮想世界において1つまたは複数の仮想カメラを生成することができ、仮想カメラは、ヘッドマウントディスプレイのための画像をレンダリングするためにシステム10によって使用することができる。これにより、ヘッドマウントディスプレイを装着しているユーザがキューブマップに見るのと同じビューをVRカメラが常にレンダリングすることを保証する。1実施形態において単一のVRカメラを使用することができ、別の実施形態では別々の左眼および右眼のVRカメラを使用して、ディスプレイ内の別々の左眼および右眼のキューブマップ上にレンダリングし、ステレオビューを提供することができる。VRカメラのFOV設定は、カメラアセンブリ44によって公開されたFOVに対して自己設定することができる。ライブカメラビューまたは画像データのためのコンテキストバックグラウンドを提供することに加えて、キューブマップを使用して、仮想オブジェクトに対する動的反射を生成することができる。この効果は仮想オブジェクト上の反射面がキューブマップから反射をピックアップすることを可能にし、これらのオブジェクトを、それらが実際に現実世界の環境を反映しているかのようにユーザに見せる。
【0034】
ロボットアーム42は例えば、肩領域、肘領域、および腕の手首領域などの人間の腕の異なる部分をエミュレートするように、回転および/またはヒンジ動作のために構築および組み合わせることができる複数の機械的にリンクされた作動セクションまたは部分から構成することができる。ロボットアームのアクチュエータセクションは例えば、妥当な回転限界の範囲内であるが、ケーブル駆動の回転運動を提供するように構成される。アクチュエータセクションは、最小サイズで最大トルクおよび最大速度を提供するように構成される。
【0035】
本発明は、深度知覚関連データ(例えば、距離データおよび/または深度マップデータ)を生成し、ロボットサブシステムに対して提供することに関し、その結果、データは、外科医がサブシステムのロボットアームまたはカメラなどの1つまたは複数の構成要素の移動を制御するのを支援するために使用することができる。深さ知覚関連データは、外科医が手術処置前および手術処置中にロボットが手術部位において安全に実施できる移動量を決定することを可能にするので、重要である。加えて、データは、外科医なしで自動化された動作のために使用することができる。本発明はまた、例えば、レンズ焦点データ、画像データ、画像視差データ、および画像視差関連データを含む複数の異なるデータおよび画像ソースから、3次元(3D)距離マップ、または深度マップを計算または決定するために、ソフトウェアおよびハードウェア(例えば、プロセッサ、メモリ、記憶装置など)を使用することができる。他の実施形態によれば、他のタイプの深度キューを、本発明の深度知覚サブシステム50への入力として使用することができる。
【0036】
本発明は、深度および関連する距離情報を決定または抽出するために、様々なコンピューティング要素およびセンサを使用することができる。深度知覚情報または距離データを抽出するために、本発明のシステムと共に使用することができる様々なハードウェアおよびソフトウェアがある。例えば、構造化光または飛行時間センサなどのハードウェアセンサは、距離を推定するために物理的パラメータの変化を測定する。ソフトウェアセンサは、時間および空間における1つまたは複数の画像内の特定の特徴を分析することによって距離を推測するために使用される。システムは、入力画像または他のタイプのデータを深度関連データに生成または変換するために、視差、エピポーラジオメトリ、Structure from Motion(SfM)、および他の技法を使用することができる。本発明のシステムは単一のキューまたはソースから深度関連情報を抽出することができるが、本発明のシステムは最終的な結合三次元(3D)深度マップを構築するときに、追加の入力またはデータソースを考慮することもできる。本発明の最終的な複合深度マップは本質的に、複数のより低品質の深度マップを、例えば人体の内部など、ノイズ、閉塞、および曖昧さに対してよりロバストな、任意の選択されたシーンの単一の最終的な複合深度マップに結合する。
【0037】
外科用ロボットシステム10の計算ユニット18は例えば図2に示されるように、深度知覚サブシステム50を含むことができる。深度知覚サブシステム50は例えば、カメラアセンブリ44およびロボットアーム42など、ロボットサブシステム20の1つまたは複数の構成要素と相互作用するように構成される。カメラアセンブリ44は例えば、左カメラ44Aおよび右カメラ44Bを含む、一対の立体カメラを含むことができる。左カメラ44Aは例えば、多くの構成要素の中で、1つまたは複数のレンズと、光学または画像情報を受信するための関連する光学要素とを含むレンズおよび光学システム54Aを含むことができる。カメラ44Aはまた、光学データまたは画像データを取り込むための画像センサ58Aと、カメラにオートフォーカス機能を提供するためのオートフォーカス機構62Aとを含むことができる。オートフォーカス機構62Aは、画像センサ58A上に画像を合焦させるために、レンズおよび光学系54A内のレンズなどの光学系と相互作用し、それを自動的に変更または調整する。イメージセンサ表面は、典型的には焦点面に対応することができる。同様に、右カメラ44Bは、1つまたは複数のレンズおよび関連する光学素子を含むレンズおよび光学系54Bを含むことができる。カメラ44Bはまた、光学データまたは画像データを取り込むための画像センサ58Bと、カメラにオートフォーカス機能を提供するためのオートフォーカス機構62Bとを含むことができる。
【0038】
オートフォーカス機能を有するカメラ44A、44Bは、カメラによって直接監視される領域の初期の大まかな深度マップに変換することができる情報を提供することができる。したがって、各カメラ44A、44Bは観察された環境または焦点の合った物体を維持するために、画像センサ58A、58Bからの画像データの入力ストリームを常に監視する。画像データストリーム内の各画像部分について、画像のピクセルのサブセットは、対応する画像センサによって焦点を維持することができる。知られているように、オートフォーカス機構は、オートフォーカスハードウェアおよびソフトウェアによって要求される調整であるエフォート信号を生成することができ、エフォート信号は、光学システムの幾何学的形状を機械的または電気的に変更するために使用することができる制御信号に変換することができる。さらに、所与の画像について、焦点が合っているピクセルの任意のサブセットを制御信号に関連付けることができる。制御信号は、オートフォーカス変換ユニット70A、70Bによって近似深度に変換され、それによって、焦点が合っているピクセルの深度マップを生成することができる。
【0039】
図示する深度知覚サブシステム50は、オートフォーカス機構62Aによって生成されたオートフォーカスデータ64Aを受信するためのオートフォーカス変換ユニット70Aをさらに含むことができる。オートフォーカス変換ユニット70Aはオートフォーカスデータを距離データに変換する役割を果たし、距離データは、深度マップ72Aとして表示されるか、またはその一部を形成する。本明細書で使用される場合、用語「深度マップ」または「距離マップ」は、全体的なシーンにおける選択された視点またはある視点からの1つまたは複数のオブジェクトまたは画像の表面間の距離に関する、またはそれについての情報を含む、画像、画像チャネル、またはマップを含むことが意図される。深度マップはソース画像または画像データから作成することができ、例えばグレースケールなどの任意の選択された色で提示することができ、1つまたは複数の色の変化または色相を含むことができ、各変化または色相は、シーン全体における視点からの画像またはオブジェクトの様々なまたは異なる距離に対応する。同様に、オートフォーカス機構62Bは、オートフォーカス変換ユニット70Bが受信したオートフォーカスデータを生成する。それに応答して、オートフォーカス変換ユニット70Bはオートフォーカスデータを距離データに変換し、距離データは、別個の深度マップ72Bとして表示されるか、またはその一部を形成する。いくつかの実施形態では、異なるピクセルのより詳細な深度マップを生成するために、焦点深度を経時的に意図的に変化させることができる。
【0040】
深度知覚サブシステム50は、画像データを距離データに変換するための視差変換ユニット80Aおよび80Bをさらに含むことができる。具体的には左右のカメラ44A、44Bはそれぞれカメラデータ74A、74Bを生成し、これは例えば、画像データおよびカメラ位置データを含むことができ、それぞれ、視差変換ユニット80A、80Bに対して転送され、それによって受信され、次いでそのデータを、別個の深度マップ76A、76Bの一部を形成することができる距離データに変換する。知られているように、視差効果は通常、自然光学システムおよび人工光学システムの両方に存在し、イメージセンサからより遠くにある物体を、イメージセンサを動かすときにイメージセンサに近い物体よりもゆっくりと動くように見せることができる。いくつかの実施形態において、視差効果の測定は、連続する間隔で撮影された2つの画像について、画像の各部分が前のインターバルにおいてその対応する部分に対してどれだけ移動したかを測定することによって達成される。画像の一部がインターバル間で移動するほど、カメラに近づく。
【0041】
視差変換ユニット80A、80Bの詳細は、例えば図3に示されている。視差変換ユニット80A、80Bは同一であるので、以下では、簡略化、明瞭化のため、視差変換ユニット80Aについてのみ説明する。カメラ44Aによって生成されるカメラデータ74Aは、画像データ74Cおよびカメラ位置データ74Dを含むことができる。カメラ位置データ74Dは、車載センサおよび電子機器によって測定される、または命令された位置に基づく、カメラの垂直および水平位置に対応する。画像データ74Cは、分離ユニット130に対して導入され、受信される。分離ユニット130は、画像データ74Cを複数のパッチまたはセグメントに分割し、次いで、画像データ内の典型的に連続する画像のセットを比較することによって、それに応答して、シフトされた画像データ132を生成する。カメラ44Aによって生成されたカメラ位置データ74Dは、カメラの位置を決定する移動決定ユニット134によって受信され、次いで、カメラ移動データ136を生成する。カメラ移動データ136は、車載センサによって測定された、運動学に基づいて推定された、または単にコマンドに基づいて推定された、カメラの移動量または回転度に関連する。シフトされた画像データ132および移動データ136は次いで、2つのタイプの入力データ132、136を距離データに変換する距離変換ユニットに対して導入され、距離データは別個の深度マップ76Aの形態で表すことができる。画像データから距離データを決定する方法の例は下記に記載されており、その内容は参照により本明細書に組み込まれる:Active estimation of distance in a robotic system that replicates human eye movement, Santini et al, Robotics and Autonomous Systems, August 2006。
【0042】
距離変換ユニット140は例えば、多層領域畳み込みニューラルネットワーク(R-CNN)技術等の公知の処理技術を用いることができる。例えば、1実施形態によれば、ネットワークのための訓練データは、画像データから選択された画像ペアを使用して生成される。さらに分離ユニット130は、画像(例えば、時刻tにおいて撮影された画像)をより小さい画像セグメントにセグメント化することができる。各画像セグメントについて、同じ画像センサからの画像上であるが、異なる時刻(例えば、時刻t+1)におけるものである可能性のある位置が、正規化相互相関技法を使用して計算される。深度知覚サブシステム50は、先行する時間間隔の間に作動される動き、および動きの前後間の画像セグメントの位置差を容易に決定することができるので、画像セグメントに含まれる3D点の距離は、既知の光学的考察および既知の分析的定式化および技術を介して計算または決定することができる。
【0043】
再び図2を参照する。深度知覚サブシステム50は、カメラ44Aから受信された画像データ78Aおよびカメラ44Bから受信された画像データ78Bを距離データに変換する視差変換ユニット90をさらに含み、距離データは、深度マップ92の一部を形成することができる。視差変換ユニット90は、カメラ44A,44Bから受信した画像データの画像間の差分や視差を解析する。具体的には、視差変換ユニット90は各入力画像の同一画像区間を解析し、それらの間の差分を求める。異なる視点からシーンを観察することによって光学システムとカメラ44A、44Bの画像センサによって記録された画像間の差異は、視差情報を距離情報に変換するために、カメラの光学システムの既知の幾何学的形状および配置と併せて使用することができる。1実施形態によれば、左右のカメラ44A、44Bからの画像間の視差は、画像からの全ての画素を同時に考慮し処理する適切に層化された領域畳み込みニューラルネットワーク(R-CNN)を使用して計算される。視差変換ユニット90は例えば、リアルタイム画像フィードから選択された各カメラ44A、44Bからの画像を使用してトレーニングすることができる。あるいは、いくつかの実施形態において、視差は計算式を使用して計算することができる。これらの実施形態では、視差値(d)を以下の式によって深度値(Z)に変換することができる:
Z= R * f / d
fはカメラの焦点距離であり、Tはカメラ間のベースライン距離である。
【0044】
視差変換ユニット90によって生成され、考慮中の入力画像データに対応する深度マップまたは距離データ92は、エピポーラジオメトリを使用することによって生成し、精緻化することができる。例えば、左カメラ44Aによって受信された左画像上の点Aの可能性の高い位置は、右カメラ44Bから受信された右画像上で推定することができる。例えば、点Aのような選択された点の周りの画像の左部分と右部分との間の正規化相互相関が、より正確な位置推定を得るために実行される。次いで、視差および深さ情報が、周知の分析計算式を使用して導出される。視差変換ユニット90によって生成された深度マップは、深度知覚サブシステムの自動化された機能によって容易には検出できないアーチファクトおよび外れ値を除去する手動精緻化プロセスにより、さらに改善することができる。
【0045】
本発明者らは、オートフォーカス変換ユニット70A、70B、視差変換ユニット80A、80B、および視差変換ユニット90によって生成される深度マップ72A、72B、76A、76B、および92は、距離を決定するために別々に使用される場合、本質的に信頼性がないことがあることを認識した。個々の深度マップは、ロボットサブシステム20を適切かつ適切に制御するために必要な画像データおよび関連する位置データのすべてを含まない場合がある。この信頼性の欠如に対処するために、深度知覚サブシステム50は、深度マップ変換ユニット100を使用することができる。深度マップ変換ユニット100は、深度知覚サブシステム50によって生成された深度マップおよび関連する距離データのすべてを受信するように構成され、深度マップを単一の複合深度マップ122に結合またはマージする。深度マップ変換ユニット100はたとえば、領域畳み込みニューラルネットワーク(R-CNN)ベースのエンコーダ-デコーダアーキテクチャを含む、1つまたは複数の異なるタイプの処理技法を使用することができる。
【0046】
深度マップ変換ユニット100の詳細を図3および図4に示す。図3に示すように、深度マップ変換ユニット100は、入力深度マップを結合し、深度マップから単一の結合出力深度マップ122を生成する、深度マップ生成ユニット120を含むことができる。深度マップ変換ユニット100はまた、深度マップ上の各距離もしくは点に関連するか、または深度マップの一部分もしくはセグメントに関連する1つまたは複数の信頼値112を生成するための信頼値生成ユニット110を含む。本明細書で使用するとき、用語「信頼値」または「尤度値」は、所与のパラメータの正確性または真実性を定量化し、その確実性または信頼性を伝える方法を提供する任意の値を含むことを意図する。本実施形態において、値は深度マップに関連付けられた距離値などの距離測定結果または値の信頼度に関連付けられる。値は任意の選択された範囲、好ましくは0~1の範囲で表すことができ、ゼロは最低または最小の信頼レベルまたは値を表し、1は、最高または最大の信頼レベルまたは値を表す。さらに、信頼値は、所与の深さに対する距離または距離範囲として表すことができる。信頼区間は、データの統計分析によって決定することができる。この統計的分析は、複合深度マップの所与の領域内の様々な深度キューからの深度マップからの深度値の広がり、または経時的なそれらの変動を考慮に入れることができる。
【0047】
図5を参照する。深度マップ変換ユニット100は深度マップなどの複数の入力データストリーム116をインポートし、次いで、一連のCNNフィルタまたはステージを使用して深度マップデータを処理する、地域畳み込みニューラルネットワーク(CNN)ベースのエンコーダ-デコーダアーキテクチャ114を使用することができる。CNNフィルタはエンコーダステージまたは一連のCNNフィルタ118Aとして、入力部に配置することができる。この場合、深度マップ上のデータは、最良または最高品質のピクセルまたは画像セグメントとの距離および画像データが小さくなるようにダウンサンプリングされる。次いで、データは一連の配列されたCNNフィルタを使用するCNNフィルタ118Bのデコーダステージにおいてアップサンプリングされ、データは入力側からの他のデータと組み合わされて、単一の組み合わされた深度マップ122などの組み合わされた画像を形成または作成する。エンコーダ-デコーダCNNアーキテクチャ114は入力データから雑音を除去し、これにより、単一の複合深度マップ122などのより正確な出力データを生成するのに役立つ。エンコーダ-デコーダCNNアーキテクチャ114はまた、CNNフィルタ18Cの並列アップサンプリングまたは復号ステージを有することができ、これにより入力データもアップサンプリングされ、付随するノイズが除去される。次いで、データは、Softmax関数124を介して処理され、信頼値112を生成または作成することができる。知られているように、Softmax関数はロジスティック関数の多次元への一般化であり、ネットワークの出力を予測出力クラスにわたる確率分布に正規化するために、ニューラルネットワークの最後の活性化関数として多項ロジスティック回帰において使用することができる。この実施形態では、Softmax関数の出力を使用して、深度マップ内の特定の点についての深度値が正確である確率を計算することができる。エンコーダ-デコーダCNNアーキテクチャ114は、入力深度マップを、単一の組み合わされた深度マップ122内の雑音を最小化または低減する確率的アプローチとマージし、各個々の入力深度マップに含まれるデータよりも良好な、それに関連する真の距離値を推定する。他のいくつかの実施形態において、112,118Aの推定値は、処理中において、72A,72B,76A,76Bおよび92によって生成された任意の信頼性データを考慮することもできる。エンコーダ-デコーダCNNアーキテクチャ114は、入力深度または距離キューまたはマップの1つまたは複数のトレーニングセットにおけるサンプルの予想出力を使用してトレーニングすることができ、結果として生じる深度および尤度マップは、入力深度マップから分析的に計算することができる。例えば、カルマンフィルタ、粒子フィルタなど、当技術分野で知られている、または深度マップを組み合わせる他の方法も利用することができる。
【0048】
上述のように、入力深度マップ内のノイズは、様々な方法で発生する可能性がある。例えば、オートフォーカス機構に関して、焦点距離およびレンズ機構などの物理学および光学学の法則に従って、カメラは測定誤差を不意に増幅し、したがって、推定を無効にする傾向がある。本発明のシステムおよび方法は、他の深度マップと併せて深度マップ72A、72Bを使用して、不要値または異常値の読み取り値を除去する。さらに、視差の計算におけるノイズは一般に、観測された環境の多様さに関連する。画像中の大量の固有特徴は、曖昧さの確率(例えば、このタイプのキューまたは深度マップのノイズ源)を強く低減する。他の入力データソースから独立して考慮されるとき、視差を使用する深度ソースは、曖昧さを解決するための手段を有さない。本発明のシステムは他のどのソースが画像の同じ領域を推定しているかを考慮し、誤りのある、または可能性が低い可能性を破棄することによって、この曖昧さを解決することができる。視差キューまたは深度マップは例えば、作動されたカメラの動きの正確な測定値、および左右の撮像センサ58A、58B間の幾何学的関係の知識など、いくつかのノイズの多いパラメータに依存するので、計算が複雑である。本発明の融合アプローチでは、システム10がこのキューまたは深度マップのノイズの影響を低減し、入力ソースまたは深度マップが個別に考慮されるほどノイズの少ない単一の複合深度マップを生成することができる。
【0049】
図6は、本発明の教示による、深度マップ変換ユニット100によって生成される、複合深度マップ122の例である。図示する深度マップ122は、入力深度マップのすべてを組み合わせることによって形成される。深度マップ122は、シーン内に画像を形成する一連のピクセルを含むシーン144を含む。画像は、視点からの異なる距離または深さを示す様々な色相を有することができる。現在のシーン144はグレースケールで表されるが、他の色を使用することもできる。より明るい色相146は視点に近いシーン144内の画像のピクセルまたはセグメントを表すことができ、より暗い色相148は、視点からより遠い画像のピクセルまたはセグメントを表すことができる。したがって、深度マップ内のピクセルは距離値に関連付けられており、深度マップ生成器は、各距離値に関連付けられた信頼値112を生成することもできる。したがって、深度マップの各点またはピクセルは、深度値と、それに関連する信頼値とを有することができる。信頼値は、システム内に別々に記憶することができる。
【0050】
再び図2を参照する。深度マップ変換ユニット100によって生成された深度マップ122および信頼値112は、制御ユニット26に対して導入される。距離値および信頼値は、ロボットサブシステム20のカメラ44a、44bおよび/またはロボットアーム42の動きを制御するために制御ユニット26によって使用される。信頼値は、外科医が例えばロボットアームを移動する場合、距離測定の前または後にアームが表面に接触しないことの合理的な信頼度を、深度マップ122内に示される距離について提供する。デリケートな外科的処置の場合、深度マップにおいて距離値の信頼性を有することは、外科医がロボットアームおよびカメラに対して送信された指示が正確であるかどうかを知る必要があるので、重要である。深さマップは外科医が誤って手術環境または解剖学的構造に接触することを自動的に警告または防止するために重要であり、したがって、システムが外科医による介入なしに、手術環境を自動的に横断し、解剖学的構成要素と相互作用することを可能にする。さらに、深さ知覚サブシステムは、ロボットサブシステムの制御および/または直接移動を助けるために、「ガイドレール」が手術環境内に仮想的に配置されることを可能にすることができる。同様に、深さマップはその内容が参照により本明細書に組み込まれる国際特許出願第PCT/US2020/059137号に開示または例として開示されるように、手術環境が増強されること、または仮想オブジェクトが環境内により正確に配置されること(例えば、手術部位患者のバイタルの術前走査を重ね合わせることなど)を可能にする。深度マップはまた、解剖学的構造および異常構造を識別するのを助けるために、コンピュータビジョンおよび人工知能と共に使用することができる。さらに、深度マップは外科医が将来の処置を計画するために使用することができる豊富な3次元マップを作成するために、高度な感覚情報(例えば、血管系を詳細にするための複数波長画像)または患者画像(例えば、MRI、CATスキャンなど)と組み合わせて使用することができる。
【0051】
したがって、本発明は、前述の説明から明らかになる目的の中で、上述の目的を効率的に達成することが理解されるであろう。本発明の範囲から逸脱することなく、前述の構成に特定の変更をなすことが可能であるので、前述の説明に含まれるまたは添付の図面に示されているすべての事項は、例示のためのものであり制限的なものではないものとして解釈されることが意図される。
【0052】
特許請求の範囲は、個々に記載された本発明の包括的および特殊な特徴、および言語上の問題として省略される場合がある発明の範囲の記述を、全てカバーするものであることが理解されるであろう。
【0053】
本発明を説明してきたが、新規であり特許証によって保護されることを望むものとして特許請求されているものは特許請求範囲が記載している。
図1
図2
図3
図4
図5
図6
【国際調査報告】