(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024140986
(43)【公開日】2024-10-10
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
A61B 1/00 20060101AFI20241003BHJP
A61B 1/045 20060101ALI20241003BHJP
A61B 6/03 20060101ALN20241003BHJP
【FI】
A61B1/00 V
A61B1/045 614
A61B1/00 553
A61B6/03 377
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2023052390
(22)【出願日】2023-03-28
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】千葉 晴斗
【テーマコード(参考)】
4C093
4C161
【Fターム(参考)】
4C093AA22
4C093AA26
4C093CA23
4C093FF42
4C161AA07
4C161CC06
4C161DD03
4C161HH52
4C161JJ10
4C161SS21
(57)【要約】
【課題】内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置は、少なくとも1つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第1深度画像及び第2深度画像の少なくとも一方を用いる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備え、
前記プロセッサは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
情報処理装置。
【請求項2】
前記プロセッサは、
前記視点差推定処理において、少なくとも前記第1深度画像と、前記第2深度画像と、を用いて、前記視点差を推定する
請求項1に記載の情報処理装置。
【請求項3】
前記プロセッサは、
前記第1深度画像及び前記第2深度画像の少なくとも一方を生成し、
前記視点差推定処理において、少なくとも前記第1深度画像及び前記第2深度画像の少なくとも一方を入力とし、入力された前記第1深度画像及び前記第2深度画像の少なくとも一方を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
請求項1に記載の情報処理装置。
【請求項4】
前記プロセッサは、
前記第1深度画像及び前記第2深度画像を生成し、
前記視点差推定処理において、少なくとも前記第1深度画像及び前記第2深度画像を入力とし、入力された前記第1深度画像及び前記第2深度画像を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
請求項3に記載の情報処理装置。
【請求項5】
前記プロセッサは、
前記実画像を前記仮想画像風の実-仮想変換画像に変換し、
前記視点差推定処理において、前記実-仮想変換画像を前記実画像として用いて、前記視点差を推定する
請求項1に記載の情報処理装置。
【請求項6】
前記プロセッサは、
前記視点差推定処理において、前記実-仮想変換画像と、前記第1深度画像と、前記仮想画像と、前記第2深度画像と、を用いて、前記視点差を推定する
請求項5に記載の情報処理装置。
【請求項7】
前記視点差推定モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第1視点から見た管状構造物の内壁を擬似的に表す第1学習用仮想画像、及び、前記第1視点から前記管状構造物の内壁までの画素ごとの距離を表す第1学習用深度画像の少なくとも一方と、
前記被検体の前記3次元画像に基づいて生成される、前記3次元画像において予め定められた前記第1視点とは異なる第2視点から見た前記管状構造物の内壁を擬似的に表す第2学習用仮想画像、及び、前記第2視点から前記管状構造物の内壁までの画素ごとの距離を表す第2学習用深度画像の少なくとも一方と、
前記第1視点と前記第2視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
請求項3に記載の情報処理装置。
【請求項8】
前記視点差推定モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像、及び、前記学習用実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第3視点から見た前記管状構造物の内壁を擬似的に表す学習用仮想画像、及び、前記第3視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、
前記学習用実画像の視点と前記第3視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
請求項3に記載の情報処理装置。
【請求項9】
前記第1深度画像は、前記実画像の画素値に基づいて生成される
請求項1に記載の情報処理装置。
【請求項10】
前記第1深度画像は、前記実画像を前記仮想画像風に変換した実-仮想変換画像の画素値に基づいて生成される
請求項1に記載の情報処理装置。
【請求項11】
前記第2深度画像は、前記仮想画像の画素値に基づいて生成される
請求項1に記載の情報処理装置。
【請求項12】
前記第2深度画像は、前記3次元画像における前記仮想視点から前記管状構造物の内壁までの距離情報に基づいて生成される
請求項1に記載の情報処理装置。
【請求項13】
前記プロセッサは、
管状構造物の内壁を表す画像を入力とし、入力された画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、前記実画像に基づく前記第1深度画像、及び、前記仮想画像に基づく前記第2深度画像の少なくとも一方を生成する
請求項1に記載の情報処理装置。
【請求項14】
前記深度画像生成モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第4視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、
前記3次元画像における前記第4視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第4視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項13に記載の情報処理装置。
【請求項15】
前記深度画像生成モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第5視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、前記仮想画像を入力とし、入力された前記仮想画像を前記実画像風に変換して出力するよう予め学習された変換モデルを用いて、前記実画像風に変換したものと、
前記3次元画像における前記第5視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第5視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項13に記載の情報処理装置。
【請求項16】
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記被検体の3次元画像における前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項13に記載の情報処理装置。
【請求項17】
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記内視鏡に搭載された測距センサによって得られる、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの距離の実測値に基づいて生成される、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項13に記載の情報処理装置。
【請求項18】
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
処理を含む情報処理方法。
【請求項19】
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、患者の大腸及び気管支等の管状構造物を内視鏡を用いて観察したり、処置したりすることが行われている。内視鏡画像は、CCD(Charge Coupled Device)等の撮像素子により管状構造物内部の色及び質感が鮮明に表現された画像が得られる一方で、管状構造物の内部を2次元の画像に表すものである。このため、内視鏡画像が管状構造物内のどの位置を表しているものかを把握することは困難である。特に、気管支は径が細く視野が狭いため、内視鏡の先端を目的とする位置まで到達させることは困難である。
【0003】
そこで、CT(Computed Tomography)装置及びMRI(Magnetic Resonance Imaging)装置等のモダリティによる断層撮影により取得された3次元画像に基づいて生成される仮想的な内視鏡画像を利用して、管状構造物内の目標とする地点までの経路をナビゲートする各種手法が提案されている。例えば、特許文献1には、3次元画像に基づいて管状構造物の経路を表す経路情報を取得し、3次元画像に基づいて仮想内視鏡画像を経路に沿って多数生成し、仮想内視鏡画像と実内視鏡画像とのマッチングを行うことにより、内視鏡の先端位置を特定する手法が提案されている。
【0004】
また例えば、非特許文献1には、学習モデルを用いて、実内視鏡画像と仮想内視鏡画像との視点差を推定することで、実際の内視鏡の視点、すなわち位置を同定する手法が提案されている。非特許文献1における学習モデルは、実内視鏡画像及び電磁センサにより得る実際の視点の組合せと、仮想内視鏡画像及びその視点の組合せと、それらの視点差と、を学習データとして用いて学習が行われる。また、学習データの補強のために、実内視鏡画像及び電磁センサにより得る実際の視点の組合せに代えて、仮想内視鏡画像を実内視鏡画像風に変換した画像及び3次元画像に基づいて特定されるその視点の組合せを学習データとして用いることも記載されている。
【0005】
また、管状構造物内の目標とする地点までの経路をナビゲートする他の手法として、例えば非特許文献2には、内視鏡カプセルから取得した動画のフレーム間視点差を、推定深度を利用して推定する手法が提案されている。
【0006】
また例えば、非特許文献3には、GAN(Generative Adversarial Network)を用いて大腸内視鏡画像を仮想内視鏡風画像に変換し、仮想内視鏡風画像に基づいて深度推定を行うことが記載されている。非特許文献3においては、ピクセル単位での画像変化量が変換前後で小さくなるように制約が加えられている。
【0007】
また例えば、非特許文献4には、GANを用いて実気管支鏡画像を深度画像に変換し、深度推定を行うことが記載されている。非特許文献4においては、変換された深度画像を気管支鏡画像に再度変換し、元の実気管支鏡画像と一致するように制約を加えることによって、画像内の気管支構造を保存している。また、非特許文献4には、深度画像の正解データを、CTから自動抽出することが記載されている。
【先行技術文献】
【特許文献】
【0008】
【非特許文献】
【0009】
【非特許文献1】Jake Sganga, David Eng, Chauncey Graetzel, David B. Camarillo. "Offsetnet: Deep learning for localization in the lung using rendered images." In Proceedings of IEEE International Conference on Robotics and Automation (ICRA), pp. 5046-5052, 2019.
【非特許文献2】Mehmet Turan, Yasin Almalioglu, Helder Araujo, Ender Konukoglu, Metin Sitti. "Deep EndoVO: A recurrent convolutional neural network (RCNN) based visual odometry approach for endoscopic capsule robots." In Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR), 2017.
【非特許文献3】Faisal Mahmood, Richard Chen, Nicholas J. Durr. "Unsupervised Reverse Domain Adaptation for Synthetic Medical Images via Adversarial Training." In Proceedings of IEEE Transactions on Medical Imaging (Volume: 37, Issue: 12), 2018.
【非特許文献4】Mali Shen, Yun Gu, Ning Liu, Guang-Zhong Yang. "Context-Aware Depth and Pose Estimation for Bronchoscopic Navigation." In Proceedings of IEEE Robotics and Automation Letters (Volume: 4, Issue: 2), 2019.
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、実内視鏡画像には、仮想内視鏡画像には含まれないようなノイズが含まれる場合がある。例えば、内視鏡は管状構造物内に挿入されるものであるため、内視鏡先端のレンズに体液等が付着し、レンズが曇る場合がある。また例えば、断層撮影によっては捉えることができない物体が実内視鏡画像に写る場合もある。また例えば、実際の管状構造物の内壁に生じる光沢及び血管等の精細なテクスチャは、3次元画像に基づいて生成される仮想内視鏡画像では省略される場合がある。
【0011】
実内視鏡画像にノイズが含まれる場合、実内視鏡画像と仮想内視鏡画像との視点差を推定できず、実際の内視鏡の位置を特定できないことがある。すなわち、管状構造物内の目標とする地点までの経路を精度よくナビゲートできない場合がある。
【0012】
また、上記特許文献1及び非特許文献1に記載のように、実内視鏡画像及び仮想内視鏡画像という2次元画像のみを用いた手法では、3次元構造である管状構造物における視点差(すなわち位置)の特定の精度が十分ではない場合がある。
【0013】
本開示は、内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0014】
本開示の第1態様は、情報処理装置であって、少なくとも1つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第1深度画像及び第2深度画像の少なくとも一方を用いる。
【0015】
上記第1の態様において、プロセッサは、視点差推定処理において、少なくとも第1深度画像と、第2深度画像と、を用いて、視点差を推定してもよい。
【0016】
上記第1の態様において、プロセッサは、第1深度画像及び第2深度画像の少なくとも一方を生成し、視点差推定処理において、少なくとも第1深度画像及び第2深度画像の少なくとも一方を入力とし、入力された第1深度画像及び第2深度画像の少なくとも一方を用いて、視点差を出力とするよう予め学習された視点差推定モデルを用いてもよい。
【0017】
上記第1の態様において、プロセッサは、第1深度画像及び第2深度画像を生成し、視点差推定処理において、少なくとも第1深度画像及び第2深度画像を入力とし、入力された第1深度画像及び第2深度画像を用いて、視点差を出力とするよう予め学習された視点差推定モデルを用いてもよい。
【0018】
上記第1の態様において、プロセッサは、実画像を仮想画像風の実-仮想変換画像に変換し、視点差推定処理において、実-仮想変換画像を実画像として用いて、視点差を推定してもよい。
【0019】
上記第1の態様において、プロセッサは、視点差推定処理において、実-仮想変換画像と、第1深度画像と、仮想画像と、第2深度画像と、を用いて、視点差を推定してもよい。
【0020】
上記第1の態様において、視点差推定モデルは、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた第1視点から見た管状構造物の内壁を擬似的に表す第1学習用仮想画像、及び、第1視点から管状構造物の内壁までの画素ごとの距離を表す第1学習用深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた第1視点とは異なる第2視点から見た管状構造物の内壁を擬似的に表す第2学習用仮想画像、及び、第2視点から管状構造物の内壁までの画素ごとの距離を表す第2学習用深度画像の少なくとも一方と、第1視点と第2視点との視点差と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。
【0021】
上記第1の態様において、視点差推定モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像、及び、学習用実画像の視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた第3視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像、及び、第3視点から管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、学習用仮想画像と学習用実画像との視点差と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。
【0022】
上記第1の態様において、第1深度画像は、実画像の画素値に基づいて生成されてもよい。
【0023】
上記第1の態様において、第1深度画像は、実画像を仮想画像風に変換した実-仮想変換画像の画素値に基づいて生成されてもよい。
【0024】
上記第1の態様において、第2深度画像は、仮想画像の画素値に基づいて生成されてもよい。
【0025】
上記第1の態様において、第2深度画像は、3次元画像における仮想視点から管状構造物の内壁までの距離情報に基づいて生成されてもよい。
【0026】
上記第1の態様において、プロセッサは、管状構造物の内壁を表す画像を入力とし、入力された画像の視点から管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、実画像に基づく第1深度画像、及び、仮想画像に基づく第2深度画像の少なくとも一方を生成してもよい。
【0027】
上記第1の態様において、深度画像生成モデルは、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた第4視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、3次元画像における学習用仮想画像の視点から管状構造物の内壁までの距離情報に基づいて生成される、第4視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。
【0028】
上記第1の態様において、深度画像生成モデルは、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた第5視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう予め学習された変換モデルを用いて、実画像風に変換したものと、3次元画像における第5視点から管状構造物の内壁までの距離情報に基づいて生成される、第5視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。
【0029】
上記第1の態様において、深度画像生成モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像と、被検体の3次元画像における学習用実画像が撮影された視点に対応する視点から管状構造物の内壁までの距離情報に基づいて生成される、学習用実画像が撮影された視点に対応する視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。
【0030】
上記第1の態様において、深度画像生成モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像と、内視鏡に搭載された測距センサによって得られる、学習用実画像が撮影された視点から管状構造物の内壁までの距離の実測値に基づいて生成される、学習用実画像が撮影された視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。
【0031】
本開示の第2の態様は、情報処理方法であって、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第1深度画像及び第2深度画像の少なくとも一方を用いる処理を含む。
【0032】
本開示の第3の態様は、情報処理プログラムであって、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第1深度画像及び第2深度画像の少なくとも一方を用いる処理をコンピュータに実行させるためのものである。
【発明の効果】
【0033】
上記態様によれば、本開示の情報処理装置、情報処理方法及び情報処理プログラムは、内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる。
【図面の簡単な説明】
【0034】
【
図1】情報処理システムの概略構成の一例を示す図である。
【
図2】情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図3】情報処理装置の機能的な構成の一例を示すブロック図である。
【
図5】気管支画像における経路の一例を示す図である。
【
図6】視点差推定処理の一例を説明するための図である。
【
図8】ディスプレイに表示される画面の一例を示す図である。
【
図9】変換モデルの学習方法の一例を説明するための図である。
【
図10】変換モデルの学習方法の一例を説明するための図である。
【
図11】変換モデルの学習方法の一例を説明するための図である。
【
図12】深度画像生成モデルの学習方法の一例を説明するための図である。
【
図13】深度画像生成モデルの学習方法の一例を説明するための図である。
【
図14】深度画像生成モデルの学習方法の一例を説明するための図である。
【
図15】視点差推定モデルの学習方法の一例を説明するための図である。
【
図16】実施例1-1に係る視点差推定処理の内容を示す図である。
【
図17】実施例1-2に係る視点差推定処理の内容を示す図である。
【
図18】実施例1-3に係る視点差推定処理の内容を示す図である。
【
図19】実施例1-4に係る視点差推定処理の内容を示す図である。
【
図20】実施例2-1に係る視点差推定処理の内容を示す図である。
【
図21】実施例2-2に係る視点差推定処理の内容を示す図である。
【
図22】実施例2-3に係る視点差推定処理の内容を示す図である。
【
図23】実施例2-4に係る視点差推定処理の内容を示す図である。
【
図24】実施例2-5に係る視点差推定処理の内容を示す図である。
【
図25】実施例3-1に係る視点差推定処理の内容を示す図である。
【
図26】実施例3-2に係る視点差推定処理の内容を示す図である。
【
図27】実施例3-3に係る視点差推定処理の内容を示す図である。
【
図28】実施例4-1に係る視点差推定処理の内容を示す図である。
【
図29】実施例4-2に係る視点差推定処理の内容を示す図である。
【
図30】実施例4-3に係る視点差推定処理の内容を示す図である。
【
図31】実施例4-4に係る視点差推定処理の内容を示す図である。
【
図32】実施例5-1に係る視点差推定処理の内容を示す図である。
【
図33】実施例5-2に係る視点差推定処理の内容を示す図である。
【
図34】実施例5-3に係る視点差推定処理の内容を示す図である。
【
図35】実施例6-1に係る視点差推定処理の内容を示す図である。
【
図36】実施例6-2に係る視点差推定処理の内容を示す図である。
【
図37】情報処理の一例を示すフローチャートである。
【
図38】変換モデル学習処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0035】
以下、図面を参照して本開示の実施形態について説明する。
図1は、本実施形態に係る情報処理装置10を適用した情報処理システムの概略構成図である。
図1に示すように、情報処理システムでは、内視鏡装置3、3次元画像撮影装置4、画像保管サーバ5及び情報処理装置10が、ネットワーク8を経由して通信可能な状態で接続されている。
【0036】
内視鏡装置3は、被検体の管状構造物の内部を撮影する内視鏡スコープ31と、撮影により得られた信号に基づいて管状構造物の内部の画像を生成するプロセッサ装置32等を備える。管状構造物とは、例えば、気管支、大腸及び小腸等である。
【0037】
内視鏡スコープ31は、被検体の管状構造物内に挿入される挿入部が操作部3Aに連続して取り付けられたものである。内視鏡スコープ31は、プロセッサ装置32に着脱可能に接続されたユニバーサルコードを介してプロセッサ装置32に接続されている。操作部3Aは、挿入部の先端3Bが予め定められた角度範囲内で上下方向及び左右方向に湾曲するように動作を指令したり、内視鏡スコープ31の先端に取り付けられた穿刺針を操作して組織のサンプルの採取を行ったりするための各種ボタンを含む。内視鏡スコープ31は、例えば、気管支鏡、大腸内視鏡、小腸内視鏡、腹腔鏡及び胸腔鏡等である。
【0038】
本実施形態では、内視鏡スコープ31は気管支用の軟性鏡であり、被検体の気管支内に挿入される。そして、プロセッサ装置32に設けられた不図示の光源装置から光ファイバーで導かれた光が内視鏡スコープ31の挿入部の先端3Bから照射され、内視鏡スコープ31の撮像光学系により被検体の気管支内の画像が取得される。なお、内視鏡スコープ31の挿入部の先端3Bについて、説明を容易なものとするために、以降の説明においては内視鏡先端3Bと称するものとする。
【0039】
プロセッサ装置32は、内視鏡スコープ31で撮影された撮影信号をデジタル画像信号に変換し、ホワイトバランス調整及びシェーディング補正等のデジタル信号処理によって画質の補正を行い、実画像T0を生成する。すなわち、実画像T0は、被検体の管状構造物(気管支)内に挿入された内視鏡により撮影された、管状構造物の内壁を表す画像である。実画像T0は、例えば30fps等の所定のサンプリングレートにより表されるカラーの動画像であり、動画像の1フレームが実画像T0となる。実画像T0は、例えば、画像保管サーバ5及び情報処理装置10等に順次送信される。
【0040】
3次元画像撮影装置4は、被検体の検査対象部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、内視鏡スコープ31を管状構造物に挿入して管状構造物を撮影する方式以外の方式で撮影するCT装置、MRI装置、PET(Positron Emission Tomography)、及び超音波診断装置等である。この3次元画像撮影装置4により生成された3次元画像は画像保管サーバ5に送信され、保存される。本実施形態では、3次元画像撮影装置4は、気管支を含む胸部を撮影した3次元画像V0を生成する。なお、本実施形態においては、3次元画像撮影装置4はCT装置であるものとするが、これに限定されない。
【0041】
画像保管サーバ5は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置及びデータベース管理用ソフトウェアを備えている。画像保管サーバ5は、ネットワーク8を介して他の装置と通信を行い、画像データ等を送受信する。具体的には、内視鏡装置3で取得された実画像T0、3次元画像撮影装置4で生成された3次元画像V0、及び情報処理装置10で生成された仮想画像K0等の画像データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、実画像T0は動画像である。このため、実画像T0は、画像保管サーバ5を経由することなく、情報処理装置10に送信されることが好ましい。なお、画像データの格納形式やネットワーク8経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。
【0042】
ところで、内視鏡の実画像T0は、管状構造物内部の色及び質感等が鮮明に表現された画像が得られる一方で、管状構造物の内部を2次元の画像に表すものである。このため、実画像T0が管状構造物内のどの位置を表しているものかを把握することは困難である。特に、気管支は径が細く視野が狭いため、内視鏡先端3Bを目的とする位置まで到達させることは困難である。
【0043】
そこで、本実施形態に係る情報処理装置10は、内視鏡装置3によって得られる実画像T0と、3次元画像撮影装置4によって得られる3次元画像V0と、に基づいて、実画像T0が管状構造物内のどの位置を表しているものかを把握できるよう支援する。具体的には、情報処理装置10は、3次元画像V0において仮想的に設定した仮想視点と実画像T0の視点との視点差ΔLを推定する視点差推定処理を行う。以下、本実施形態に係る情報処理装置10の一例について説明する。
【0044】
まず、
図2を参照して、情報処理装置10のハードウェア構成の一例を説明する。
図2に示すように、情報処理装置10は、CPU(Central Processing Unit)21、不揮発性の記憶部22、及び一時記憶領域としてのメモリ23を含む。また、情報処理装置10は、液晶ディスプレイ等のディスプレイ24、タッチパネル、キーボード及びマウス等の操作部25、並びにI/F(InterFace)部26を含む。I/F部26は、内視鏡装置3、3次元画像撮影装置4、画像保管サーバ5及びその他外部装置等との有線又は無線通信を行う。CPU21、記憶部22、メモリ23、ディスプレイ24、操作部25及びI/F部26は、システムバス及びコントロールバス等のバス28を介して相互に各種情報の授受が可能に接続されている。
【0045】
記憶部22は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)及びフラッシュメモリ等の記憶媒体によって実現される。記憶部22には、情報処理装置10における情報処理プログラム27が記憶される。CPU21は、記憶部22から情報処理プログラム27を読み出してからメモリ23に展開し、展開した情報処理プログラム27を実行する。CPU21が本開示のプロセッサの一例である。また、記憶部22には、変換モデルM1、深度画像生成モデルM2及び視点差推定モデルM3が記憶される。情報処理装置10としては、例えば、パーソナルコンピュータ、サーバコンピュータ、スマートフォン、タブレット端末及びウェアラブル端末等を適宜適用できる。
【0046】
次に、
図3を参照して、情報処理装置10の機能的な構成の一例について説明する。
図3に示すように、情報処理装置10は、取得部11、変換部12、生成部13、推定部14、学習部15及び制御部16を含む。CPU21が情報処理プログラム27を実行することにより、CPU21が取得部11、変換部12、生成部13、推定部14、学習部15及び制御部16の各機能部として機能する。
【0047】
取得部11は、内視鏡装置3から、気管支内の所定の視点位置に配置した内視鏡スコープ31によって撮影された実画像T0を取得する。なお、取得部11は、後述の各種処理における処理量を削減するために、実画像T0に対してデータ圧縮処理を施してもよい。例えば、取得部11は、実画像T0に対して、輝度値ベースの白黒化を施してもよい。以下の説明において単に「実画像T0」という場合、データ圧縮処理が施されたものを含む。
【0048】
また、取得部11は、3次元画像撮影装置4によって撮影された被検体の3次元画像V0を取得する。上述したように、3次元画像V0は、例えば、気管支を含む胸部をCT撮影して得られるものであり、複数の断層画像T1~Tm(mは2以上)からなる(
図6参照)。なお、取得部11は、3次元画像V0及び実画像T0が既に記憶部22及び画像保管サーバ5等に記憶されている場合には、3次元画像V0及び実画像T0を当該記憶部22及び画像保管サーバ5等から取得するようにしてもよい。
【0049】
また、取得部11は、3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点P10から見た管状構造物の内壁を擬似的に表す仮想画像K0を取得してもよい。以下、3次元画像V0に基づく仮想画像K0の取得方法について具体的に説明する。
【0050】
(サーフェスレンダリングを用いた方法)
まず、3次元画像V0に基づく仮想画像K0の取得方法の一例として、サーフェスレンダリングを用いた方法について説明する。
図6に点線で図示するように、取得部11は、取得した3次元画像V0から気管支の構造を抽出することにより、3次元の気管支画像B0を生成する。
図4に、3次元の気管支画像B0の一例を示す。
図5に、気管支画像B0に設定された内視鏡の経路40を示す。3次元の気管支画像B0の生成手法としては、例えば特開2010-220742号公報等に記載された手法を適宜適用できる。経路40の情報は、例えば、ユーザが操作部25を用いて入力するものであってもよいし、撮影オーダ等において予め定められたものであってもよい。
【0051】
次に、取得部11は、経路40に沿った予め定められた間隔の各位置を視点に設定する。これらの視点が、本開示の「3次元画像において予め定められた仮想視点」の一例である。
【0052】
また、取得部11は、設定した各視点から内視鏡先端3Bの挿入方向(すなわち気管支の末端に向かう方向)に放射線状に伸ばした複数の視線上の3次元画像V0を、予め定められた投影面に投影する中心投影を行うことにより、投影画像を生成する。この投影画像が、内視鏡先端3Bの位置において撮影を行ったものとして仮想的に生成された仮想画像K0となる。取得部11は、設定した視点ごとに、このような仮想画像K0を生成する。
【0053】
なお、取得部11は、少なくとも経路40に沿った仮想画像K0を生成すればよく、経路40に沿っていない仮想画像K0を生成することももちろんできる。例えば、取得部11は、気管支の略全体の領域における各位置を視点として設定して、各位置における仮想画像K0を生成してもよい。そして、取得部11は、気管支の略全体の領域において生成した仮想画像K0のうち、経路40に沿った一部を選択してもよい。
【0054】
(ボリュームレンダリングを用いた方法)
上記ではサーフェスレンダリングを用いた方法について説明したが、これに代えて例えば公知のボリュームレンダリング手法等を用いて仮想画像K0を生成してもよい。ボリュームレンダリングを用いた手法では、3次元画像V0から特定される画素値及びCT値等に基づいて、3次元画像V0内に設定した任意の仮想視点から見た仮想画像K0を生成できる。この場合、サーフェスレンダリングを用いた方法と異なり、
図6に実線で図示するように、気管支画像B0の生成は不要であり、3次元画像V0から直接的に仮想画像K0を生成できる。
【0055】
なお、何れの方法においても、仮想画像K0の画角(視線の範囲)及び視野の中心(投影方向の中心)は、ユーザによる入力等によって予め設定されているものとする。また、取得部11によって生成された各視点における複数の仮想画像K0は、例えば記憶部22及び画像保管サーバ5等に保存される。なお、本実施形態において、3次元画像はCT画像であるため、仮想画像K0はCT画像を形成するCT値に基づき生成されるモノクロの画像であってもよい。また、仮想画像K0は、当該モノクロの画像を疑似的に着色したものであってもよい。以下、
図9~
図15においては、ボリュームレンダリングを用いた方法によって3次元画像V0から直接的に仮想画像K0を生成する例を図示しているが、これに限らず、
図6と同様に、サーフェスレンダリングを用いた方法によって気管支画像B0を生成してから仮想画像K0を生成してもよい。
【0056】
<視点差推定処理>
図6~
図8を参照して、本実施形態に係る視点差推定処理について説明する。「視点差」とは、3次元画像V0において任意に設定した仮想視点P10と、実画像T0の視点P11(すなわち内視鏡先端3Bの実際の位置)と、の位置ずれ量である。
図7に、説明のため、気管支画像B0上に仮想視点P10と実画像T0の視点P11との視点差ΔLを図示する。なお、
図6に示す視点差推定処理は一例であり、後述の各種実施例のように変形が可能である。
【0057】
図6に示すように、変換部12は、変換モデルM1を用いて、取得部11によって取得された実画像T0を仮想画像風の実-仮想変換画像TK0に変換する。変換モデルM1は、実画像を入力とし、入力された実画像を仮想画像風に変換して出力するよう予め学習された機械学習モデルである。具体的には、変換部12は、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0を得る。
【0058】
この変換処理は、実画像T0に含まれ、仮想画像K0には含まれないようなノイズを除去するために行われる。このようなノイズとしては、例えば、内視鏡先端3Bのレンズに体液等が付着し、レンズが曇ることで生じるもの、断層撮影によっては捉えることができない物体が実画像T0に写ったもの、並びに管状構造物の内壁に生じる光沢及び血管等の精細なテクスチャ等が挙げられる。「仮想画像風」とは、これらの実画像に特有のノイズが除去された表現形式のことであり、所謂CG(Computer Graphics)風の表現形式である。実-仮想変換画像TK0では、実画像T0に含まれるノイズは除去されつつも、実画像T0における管状構造物の構造には変化が無いことが望まれる。
【0059】
生成部13は、深度画像生成モデルM2を用いて、実画像T0の視点P11から管状構造物の内壁までの画素ごとの距離を表す第1深度画像D1を生成する。同様に、生成部13は、深度画像生成モデルM2を用いて、仮想視点P10から管状構造物の内壁までの画素ごとの距離を表す第2深度画像D2を生成する。深度画像生成モデルM2は、管状構造物の内壁を表す画像を入力とし、入力された画像の視点から管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された機械学習モデルである。
【0060】
「深度画像」とは、その画素値が視点位置からの距離を表すものである。例えば、視点位置からの距離が大きいほど画素値を低くする場合、視点位置からの距離が大きいほど画像は暗くなる。深度画像の画素値と距離との相関関係を予め設定しておくことにより、深度画像の画素値に基づいて視点位置からの距離を算出できる。なお、深度画像の画素値が表す「視点位置からの距離」は、具体的には視点位置からの距離そのものに限定されず、視点位置からの距離に対応する各種の値によって表されてもよい。例えば、視点を原点とした視点座標系を設定し、XY平面に深度画像の投影面を設定し、投影面(XY平面)に垂直な方向をZ方向とする。この場合に、「視点位置からの距離」を、視点(原点)からZ軸方向の距離(すなわちZ軸方向の座標)として簡略化して表してもよい。また例えば、「視点位置からの距離」を、深度画像の投影面からの距離として表してもよい。
【0061】
また、深度画像の画素値と距離との相関関係は、視点位置からの距離が大きいほど画素値を低くするという比例関係に限らず、例えば反比例及び対数比例等の関係で定められていてもよい。また例えば、一般的に画素値は8ビットの256階調で0から255の整数により表されることが多いが、これに限らず、深度画像の画素値は、例えば負の数及び小数等の任意の値により表されてもよい。後述する各学習用深度画像についても同様である。
【0062】
具体的には、生成部13は、変換部12によって実画像T0から変換された実-仮想変換画像TK0を深度画像生成モデルM2に入力することによって、実画像T0の視点P11における第1深度画像D1を得る。すなわち、本実施形態における第1深度画像D1は、実画像T0を仮想画像風に変換した実-仮想変換画像TK0の画素値に基づいて生成される画像であるといえる。
【0063】
また、生成部13は、取得部11によって取得された3次元画像V0から生成された、仮想視点P10における仮想画像K0を深度画像生成モデルM2に入力することによって、仮想視点P10における第2深度画像D2を得る。すなわち、本実施形態における第2深度画像D2は、仮想画像K0の画素値に基づいて生成される画像であるといえる。
【0064】
推定部14は、実画像T0の視点P11における実画像T0及び第1深度画像D1の少なくとも一方と、仮想視点P10における仮想画像K0及び第2深度画像D2の少なくとも一方と、を利用して、実画像T0の視点P11と仮想視点P10との視点差ΔLを推定する。なお、視点差ΔLの推定においては、第1深度画像D1及び第2深度画像D2の少なくとも一方が利用される。
【0065】
上述したように、深度画像の画素値に基づいて、視点位置から管状構造物の内壁までの画素ごとの距離を算出できる。したがって、第1深度画像D1及び第2深度画像D2の少なくとも一方を利用することによって、2次元画像である実画像T0及び/又は仮想画像K0のみを用いて視点差ΔLを推定する場合と比較して、3次元構造である管状構造物における視点差ΔLを精度良く推定できるようになる。
【0066】
具体的には、推定部14は、視点差推定モデルM3を用いて、実画像T0の視点P11と仮想視点P10との視点差ΔLを推定する。視点差推定モデルM3は、例えば、少なくとも第1深度画像及び第2深度画像の少なくとも一方を入力とし、入力された第1深度画像及び第2深度画像の少なくとも一方を用いて、視点差を出力とするよう予め学習された機械学習モデルである。
図6の例では、視点差推定モデルM3は、第1深度画像D1及び第2深度画像D2に加えて、実-仮想変換画像TK0及び仮想画像K0も入力としている。入力する画像の種類を増やすほど、視点差推定モデルM3の精度は向上すると考えられるためである。
【0067】
図6の例では、推定部14は、第1深度画像D1、第2深度画像D2、実-仮想変換画像TK0及び仮想画像K0を視点差推定モデルM3に入力することによって、実画像T0の視点P11と仮想視点P10との視点差ΔLを推定する。このように、視点差推定処理においては、実画像T0を直接的に用いるのではなく、間接的に実-仮想変換画像TK0を実画像T0として用いることによって、視点差ΔLを推定してもよい。
【0068】
また、推定部14は、推定した視点差ΔLが小さくなるように、仮想視点P10の位置を修正してもよい。例えば、
図7に示すように、実画像T0の視点P11(すなわち内視鏡先端3Bの実際の位置)に対して、仮想視点P10がΔLだけ気管支の入口側に後退している場合、推定部14は、仮想視点P10をΔLだけ前進させた位置に設定する。このようにして、仮想視点P10と、実画像T0の視点P11と、を略一致させることによって、管状構造物内における内視鏡先端3Bの推定位置Ptを推定できる。
【0069】
なお、視点差ΔLは、位置ずれ量に加えて、姿勢差を含んでいてもよい。例えば、視点差ΔLは、変位ベクトル、角度と距離の組合せ、オイラー角及び回転ベクトル等で表されてもよい。また例えば、視点差ΔLは、仮想視点P10と実画像T0の視点P11の相対姿勢で表されてもよい。
【0070】
図8に、制御部16によってディスプレイ24に表示される画面50の一例を示す。
図8に示すように、制御部16は、気管支画像B0に、推定部14によって推定された内視鏡先端3Bの推定位置Pt、及び内視鏡先端3Bの移動軌跡51を重畳表示してもよい。また、
図8に示すように、制御部16は、推定位置Ptにおける実画像T0に基づく第1の深度画像D1と、推定位置Ptにおける仮想画像K0に基づく第2の深度画像D2と、を表示させる制御を行ってもよい。また、制御部16は、推定位置Ptにおける実画像T0及び仮想画像K0をディスプレイ24に表示させる制御を行ってもよい(不図示)。
【0071】
以上のようにして、視点差推定処理が行われる。なお、上述したように、実画像T0は動画像の1フレームを構成する。したがって、視点差推定処理は、動画像において順次取得される実画像T0のそれぞれについて、繰り返し行われる。
【0072】
<変換モデルM1の学習>
次に、視点差推定処理において用いられる変換モデルM1の学習方法について、複数の方法を挙げて説明する。学習部15は、以下の少なくとも1つの方法を用いて、変換モデルM1の学習を行う。
【0073】
(第1学習方法:GANを用いた学習)
図9に、一例として、敵対的生成ネットワーク(GAN:Generative Adversarial Network)によって得られる変換モデルM1の学習方法の概略図を示す。GANとは、生成器及び識別器を含み、生成器が正解データにできるだけ近い偽物データを生成しようとし、識別器がその偽物データを正しく識別しようとすることによって、互いに学習を進める教師なし学習の一手法である。
【0074】
図9のGANは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像LT0と、3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像LK0と、を含む学習データを用いて学習される。なお、学習用仮想画像LK0の生成元となる3次元画像V0は、学習用実画像LT0の被検体と同一の被検体を撮影して得られるものであってもよいし、学習用実画像LT0の被検体とは異なる被検体を撮影して得られるものであってもよい。すなわち、学習用実画像LT0と学習用仮想画像LK0は、互いに独立した非ペアデータであってもよい。
【0075】
変換モデルM1は、GANにおける生成器に相当し、入力された学習用実画像を、正解データである学習用仮想画像に近い表現形式に変換して出力するニューラルネットワーク等の機械学習モデルである。識別器M1Dは、入力された画像が、正解(真)のデータである学習用仮想画像か、又は、偽のデータである学習用実-仮想変換画像か、を識別するニューラルネットワーク等の機械学習モデルである。
【0076】
学習部15は、学習用実画像LT0を変換モデルM1(生成器)に入力することによって、正解データである学習用仮想画像LK0に近い表現形式の学習用実-仮想変換画像LTK0を生成する。また、学習部15は、変換モデルM1により生成された学習用実-仮想変換画像LTK0と、正解データである学習用仮想画像LK0とのうち何れかを識別器M1Dに入力し、その識別結果を得る。そして、学習部15は、識別器M1Dによる識別結果と、その識別結果が正解か否かの情報とを変換モデルM1(生成器)にフィードバックする。このようにして、変換モデルM1と識別器M1Dとの学習を相互に進める。
【0077】
(第2学習方法:CycleGANを用いた学習)
図10に、他の一例として、CycleGANによって得られる変換モデルM1の学習方法の概略図を示す。CycleGANとは、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を学習することによって、変換元と変換目標のペアデータを用いずとも、精度の良い変換を可能にする方法である。
【0078】
GANを用いた第1学習方法によっても非ペアデータによる学習は可能であるが、GANにおける制約は、仮想画像風になるようにという表現形式に関するものだけである。したがって、変換モデルM1による変換前後で、表現形式は適切に変換されても、画像内の気管支の構造が不適切に変換されてしまうといった不具合が生じる可能性がある。
【0079】
CycleGANを用いた第2学習方法においては、逆変換して得られたデータが元に戻るように制約が与えられる。したがって、表現形式に加えて、気管支の構造までもが類似する擬似的なペアデータを探索しながら変換モデルM1を学習できる。これにより、画像内の気管支の構造が変化しづらい変換モデルM1を生成でき、変換の精度を向上させることができる。
【0080】
図10のCycleGANは、
図9のGANに加えて、仮想画像風の学習用実-仮想変換画像を、実画像風の学習用実-仮想-実変換画像に逆変換する逆変換モデルM1Rを含む。逆変換モデルM1Rは、CycleGANにおける逆方向の生成器に対応するニューラルネットワーク等の機械学習モデルである。
【0081】
学習部15は、変換モデルM1から出力される学習用実-仮想変換画像LTK0を逆変換モデルM1Rに入力することによって、元の入力データである学習用実画像LT0に近い構造及び表現形式の学習用実-仮想-実変換画像LTKT0を生成する。また、学習部15は、元の入力データである学習用実画像LT0と、学習用実-仮想-実変換画像LTKT0と、の類似度を含む損失関数Loss1を用いて、変換モデルM1を学習させる。学習用実画像LT0と学習用実-仮想-実変換画像LTKT0との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。
【0082】
(第3学習方法:深度画像を用いた学習)
図11に、他の一例として、深度画像を用いた変換モデルM1の学習方法の概略図を示す。上述したように、GANを用いた第1学習方法では、表現形式が仮想画像風になるように制約を与えるだけなので、変換モデルM1による変換前後で気管支の構造が変わってしまう等の不適切な変換が行われる可能性がある。そこで、第3学習方法においては、第1学習方法のGANをベースに、変換モデルM1による変換前後の画像の深度画像間の類似度を含む損失関数Loss2を用いて変換モデルM1を学習させることによって、変換の精度を向上させる。
【0083】
具体的には、まず、学習部15は、学習用実画像及び学習用仮想画像の何れか一方を含む入力画像を取得する。ここでの「入力画像」とは、後段の変換モデルへ入力される画像のことを意味する。また、学習部15は、入力された学習用実画像及び学習用仮想画像の何れか一方を他方の画像風に変換するよう学習される変換モデルを用いて、入力画像を、当該入力画像に含まれない画像風の変換画像に変換する。
【0084】
図11の例では、学習部15は、学習用実画像LT0を含む入力画像を取得する。また、学習部15は、学習用実画像を入力とし、入力された学習用実画像を仮想画像風の学習用実-仮想変換画像に変換して出力するよう学習される変換モデルM1を用いて、学習用実画像LT0を、仮想画像風の学習用実-仮想変換画像LTK0に変換する。
【0085】
また、学習部15は、入力画像(学習用実画像LT0)の視点から管状構造物の内壁までの画素ごとの距離を表す入力深度画像Dtを取得する。具体的には、学習部15は、深度画像生成モデルM2に入力画像(学習用実画像LT0)を入力することによって、入力深度画像Dtを生成する。
【0086】
同様に、学習部15は、変換画像(学習用実-仮想変換画像LTK0)の視点から管状構造物の内壁までの画素ごとの距離を表す変換深度画像Dtkを取得する。具体的には、学習部15は、深度画像生成モデルM2に変換画像(学習用実-仮想変換画像LTK0)を入力することによって、変換深度画像Dtkを生成する。
【0087】
学習部15は、変換モデルM1を、入力深度画像Dtと変換深度画像Dtkとの類似度を含む損失関数Loss2を用いて学習させる。すなわち、学習部15は、変換深度画像Dtkが、入力深度画像Dtに近づくように、変換モデルM1を学習させる。入力深度画像Dtと変換深度画像Dtkとの類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の深度(画素値)を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。
【0088】
以上のように、深度画像間の類似度を含む損失関数Loss2を用いた変換モデルM1の学習方法によれば、変換前後の深度画像が近づくように制約を与えることによって、擬似的なペアデータを探索しながら変換モデルM1を学習できる。したがって、画像内の気管支の構造が変化しづらい変換モデルM1を生成でき、変換の精度を向上させることができる。
【0089】
なお、深度画像生成モデルM2は、学習データの用意の容易性の観点から、3次元画像に基づいて生成される仮想画像ベースで学習することが望まれる(詳細は後述)。発明者らは、このような仮想画像ベースで学習された深度画像生成モデルM2に対して実画像を入力することによっても、良好な深度画像を得られることを発見した。そこで本方法では、仮想画像ベースで学習された深度画像生成モデルM2を転用して、学習用実画像LT0の入力深度画像Dtを得ている。このような形態によれば、実画像用に学習された深度画像生成モデルを作成する手間を省くことができる。
【0090】
(第4学習方法:教師あり学習)
第1~第3学習方法では、学習データとして非ペアデータを用いる教師なし学習の方法について説明した。一方で、電磁センサ等により内視鏡先端3Bの管状構造物内の実際の位置を特定し、視点を揃えた実画像と仮想画像とのペアデータを用いることによって、教師あり学習を適用することもできる。この場合、学習部15は、同一の視点であることが特定されている学習用実画像と学習用仮想画像との組合せを含む学習データを用いて、変換モデルM1について教師あり学習を行う。
【0091】
なお、通常、このようなペアデータを大量に用意することは困難である。そこで、学習部15は、第1~第4学習方法を適宜組み合わせて変換モデルM1の学習を行ってもよい。
【0092】
<逆変換モデルM1Rの学習>
これまで、実画像を仮想画像風の実-仮想変換画像に変換する形態について説明したが、本開示の技術は、仮想画像を実画像風の仮想-実変換画像に変換する形態にも適用できる。すなわち、変換モデルM1の学習に係る第1~第4学習方法を転用して、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう学習される逆変換モデルM1Rを生成することも可能である。
【0093】
この逆変換モデルM1Rは、変換モデルM1の学習に係る第1~第4学習方法における、学習用実画像LT0と、学習用仮想画像LK0と、を入れ替えることによって生成できる。すなわち、学習フェーズにおける逆変換モデルM1Rへの入力画像は、学習用仮想画像LK0を含むものとなる。
【0094】
<深度画像生成モデルM2の学習>
次に、視点差推定処理において用いられる深度画像生成モデルM2の学習方法について、複数の方法を挙げて説明する。学習部15は、以下の少なくとも1つの方法を用いて、深度画像生成モデルM2の学習を行う。以下、各学習方法によって得られる深度画像生成モデルM2は、入力が異なる種類のデータとなるため、深度画像生成モデルM2A~M2Cと符号を分けて記載する。
【0095】
(第1学習方法:仮想画像と深度画像を用いた学習)
図12に、一例として、教師あり学習によって得られる深度画像生成モデルM2Aの学習方法の概略図を示す。
図12に示すように、深度画像生成モデルM2Aは、学習用仮想画像LK0と、学習用深度画像LD0と、の組合せ(ペアデータ)を含む学習データを用いて学習される。
【0096】
ここで、学習用仮想画像LK0は、被検体の3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点P4から見た管状構造物の内壁を擬似的に表す画像である。学習用深度画像LD0は、3次元画像V0における仮想視点P4から管状構造物の内壁までの距離情報に基づいて生成される、仮想視点P4から管状構造物の内壁までの画素ごとの距離を表す画像であり、正解データとなる。仮想視点P4が、本開示の第4視点の一例である。
【0097】
距離情報は、例えば、3次元画像V0における仮想視点P4から不透明度(Opacity)が予め定められた値以上となる点までの距離を示す。3次元画像V0において、不透明度(Opacity)が予め定められた値以上となれば、その部分は管状構造物の内壁に相当すると考えられる。また例えば、距離情報は、3次元画像V0に基づいて気管支画像B0を生成してから学習用仮想画像LK0を生成する場合(サーフェスレンダリングによって学習用仮想画像LK0を生成する場合)、仮想視点P4から気管支画像B0のサーフェスまでの距離を示すものであってもよい。
【0098】
深度画像生成モデルM2Aは、入力された学習用仮想画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部15は、学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、正解データである学習用深度画像LD0に近い表現形式の深度画像Dk0を生成する。
【0099】
また、学習部15は、深度画像生成モデルM2Aにより生成された深度画像Dk0と、正解データである学習用深度画像LD0と、の類似度を含む損失関数Loss3を用いて、深度画像生成モデルM2Aを学習させる。深度画像Dk0と学習用深度画像LD0との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。
【0100】
このように、第1学習方法によって得られる深度画像生成モデルM2Aは、学習用のペアデータ(学習用仮想画像LK0及び学習用深度画像LD0)を、3次元画像V0に基づく仮想画像ベースで用意できる。したがって、他の方法と比較して学習用データの用意が容易である。
【0101】
(第2学習方法:仮想-実変換画像と深度画像を用いた学習)
図13に、他の一例として、教師あり学習によって得られる深度画像生成モデルM2Bの学習方法の概略図を示す。
図13に示すように、深度画像生成モデルM2Bは、学習用仮想画像LK0を逆変換モデルM1Rを用いて実画像風に変換した学習用仮想-実変換画像LKT0と、学習用深度画像LD0と、の組合せ(ペアデータ)を含む学習データを用いて学習される。
【0102】
ここで、学習用仮想画像LK0は、被検体の3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点P5から見た管状構造物の内壁を擬似的に表す画像である。逆変換モデルM1Rは、上述したように、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう予め学習された機械学習モデルである。学習用深度画像LD0は、3次元画像V0における仮想視点P5から管状構造物の内壁までの距離情報に基づいて生成される、仮想視点P5から管状構造物の内壁までの画素ごとの距離を表す画像であり、正解データとなる。仮想視点P5が、本開示の第5視点の一例である。距離情報については第1学習方法と同様であるので、説明を省略する。
【0103】
深度画像生成モデルM2Bは、入力された学習用仮想-実変換画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部15は、学習用仮想-実変換画像LKT0を深度画像生成モデルM2Bに入力することによって、正解データである学習用深度画像LD0に近い表現形式の深度画像Dkt0を生成する。
【0104】
また、学習部15は、深度画像生成モデルM2Bにより生成された深度画像Dkt0と、正解データである学習用深度画像LD0と、の類似度を含む損失関数Loss4を用いて、深度画像生成モデルM2Bを学習させる。深度画像Dkt0と学習用深度画像LD0との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。
【0105】
このようにして得られる深度画像生成モデルM2Bは、第1学習方法と比較して、学習用仮想画像LK0を学習用仮想-実変換画像LKT0に変換するという手間が生じる。一方で、運用フェーズにおいては、深度画像生成モデルM2Bへの入力として実画像T0を用いても、精度を保つことができる。
【0106】
(第3学習方法:実画像と深度画像を用いた学習)
図14に、他の一例として、教師あり学習によって得られる深度画像生成モデルM2Cの学習方法の概略図を示す。
図14に示すように、深度画像生成モデルM2Cは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像LT0と、学習用実画像LT0が撮影された視点に対応する視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像LD0と、の組合せ(ペアデータ)を含む学習データを用いて学習される。
【0107】
ここで、学習用深度画像LD0は、被検体の3次元画像V0における学習用実画像LT0が撮影された視点に対応する視点から管状構造物の内壁までの距離情報に基づいて生成され、正解データとなる。3次元画像V0における学習用実画像LT0が撮影された視点に対応する視点、すなわち、管状構造物内の内視鏡先端3Bの実際の位置は、例えば、学習用実画像LT0を撮影する内視鏡先端3Bに設けられた電磁センサ等により特定できる。距離情報については第1学習方法と同様であるので、説明を省略する。
【0108】
深度画像生成モデルM2Cは、入力された学習用実画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部15は、学習用実画像LT0を深度画像生成モデルM2Cに入力することによって、正解データである学習用深度画像LD0に近い表現形式の深度画像Dt0を生成する。
【0109】
また、学習部15は、深度画像生成モデルM2Cにより生成された深度画像Dt0と、正解データである学習用深度画像LD0と、の類似度を含む損失関数Loss5を用いて、深度画像生成モデルM2Cを学習させる。深度画像Dt0と学習用深度画像LD0との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。
【0110】
このようにして得られる深度画像生成モデルM2Cは、学習データとして、3次元画像V0における学習用実画像LT0が撮影された視点に対応する視点、すなわち、管状構造物内の内視鏡先端3Bの実際の位置を特定する必要があるため、学習データの用意が困難である。一方で、運用フェーズにおいては、深度画像生成モデルM2Cへの入力として実画像T0を用いても、より高い精度を保つことができる。
【0111】
(変形例)
第1~第3学習方法においては、学習用深度画像LD0を、3次元画像V0に基づいて導出される距離情報に基づいて生成されるものとして説明したが、これに限らない。学習用深度画像LD0は、例えば、内視鏡先端3B等に搭載された測距センサによって得られる、学習用実画像LT0が撮影された視点から管状構造物の内壁までの距離の実測値に基づいて生成されるものとしてもよい。測距センサとしては、例えば、ToF(Time Of Flight)カメラ等の各種深度センサを用いることができる。
【0112】
測距センサによって得られる実測値に基づく学習用深度画像LD0は、そのデータの用意が困難ではあるが、より正確なものとなる。したがって、各深度画像生成モデルM2A~M2Cの精度を向上させることができる。
【0113】
<視点差推定モデルM3の学習>
次に、
図15を参照して、
図6の視点差推定処理において用いられる視点差推定モデルM3の学習方法について説明する。視点差推定モデルM3は、実画像T0及び実画像T0に基づく第1深度画像D1の少なくとも一方と、仮想画像K0及び仮想画像K0に基づく第2深度画像D2の少なくとも一方と、を利用して、仮想画像K0と実画像T0との視点差ΔLを推定するニューラルネットワーク等の機械学習モデルである。この学習モデルに対する学習データとしては、例えば、仮想画像K0、実画像T0及びそれらの視点差ΔLの正解データを用意することが考えられるが、視点差ΔLが既知の仮想画像K0と実画像T0との組合せを用意することは困難である。
【0114】
そこで、本実施形態に係る視点差推定モデルM3は、3次元画像V0において予め定められた仮想視点P1から見た第1学習用仮想画像、及び、仮想視点P1から管状構造物の内壁までの画素ごとの距離を表す第1学習用深度画像の少なくとも一方と、3次元画像V0において予め定められた仮想視点P1とは異なる仮想視点P2から見た第2学習用仮想画像、及び、仮想視点P2から管状構造物の内壁までの画素ごとの距離を表す第2学習用深度画像の少なくとも一方と、仮想視点P1と仮想視点P2との視点差ΔL0と、の組合せを含む学習データを用いた教師あり学習によって学習される。ここで、第1学習用仮想画像及び第2学習用仮想画像は、それぞれ被検体の3次元画像V0に基づいて生成される。仮想視点P1が、本開示の第1視点の一例である。仮想視点P2が、本開示の第2視点の一例である。
【0115】
例えば、
図15の例における視点差推定モデルM3は、仮想視点P1から見た管状構造物の内壁を擬似的に表す学習用仮想画像LKPと、仮想視点P2から見た管状構造物の内壁を擬似的に表す学習用仮想画像LKQと、仮想視点P1と仮想視点P2との視点差ΔL0と、の組合せを含む学習データを用いた教師あり学習によって学習される。この場合、3次元画像V0における仮想視点P1及びP2は既知となるので、仮想視点P1及びP2の視点差ΔL0も、被検体の3次元画像V0に基づいて生成できる。
【0116】
具体的には、学習部15は、まず、被検体の3次元画像V0に基づいて生成される学習用仮想画像LKPを、深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。すなわち、深度画像DPは、仮想視点P1から管状構造物の内壁までの画素ごとの距離を表す画像である。同様に、学習部15は、被検体の3次元画像V0に基づいて生成される学習用仮想画像LKQを、深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。すなわち、深度画像DQは、仮想視点P2から管状構造物の内壁までの画素ごとの距離を表す画像である。
【0117】
その後、学習部15は、学習用仮想画像LKP及びLKQと、深度画像DP及びDQと、を視点差推定モデルM3に入力することによって、推定視点差ΔLを得る。また、学習部15は、視点差推定モデルM3により推定された推定視点差ΔLと、正解データである仮想視点P1と仮想視点P2との視点差ΔL0と、の類似度を含む損失関数Loss6を用いて、視点差推定モデルM3を学習させる。
【0118】
<実施例>
以上、視点差推定処理の一例について説明したが、本開示の技術はこれに限らず、以下に示す各種実施例も含むものである。以下の実施例は、何れも実画像T0の視点P11と仮想視点P10との視点差ΔLを推定する視点差推定処理を行う点は共通している。一方で、視点差推定処理で用いられる変換モデルM1、逆変換モデルM1R、深度画像生成モデルM2A~M2C、並びに視点差推定モデルM3の組合せ及び内容は異なっている。以下、
図16~
図36を参照して各種実施例について説明する。
図16~
図36において、破線より上側は運用フェーズにおける処理を表し、破線より下側は学習フェーズにおける処理を表す。
【0119】
まず、実施例1-1~1-4について説明する。これらの実施例では、学習フェーズにおいて、2つの学習用仮想画像LKP及びLKQを用いて学習し、運用フェーズにおいて、2つの深度画像D1及びD2に基づいて視点差ΔLを推定する。この場合、正解データが正確であり、かつ用意しやすい利点がある。実施例1-1~1-4における、学習用仮想画像LKPが本開示の第1学習用仮想画像の一例であり、学習用仮想画像LKQが本開示の第2学習用仮想画像の一例である。また、深度画像DPが本開示の第1学習用深度画像の一例であり、深度画像DQが本開示の第2学習用深度画像の一例である。
【0120】
(実施例1-1)
図16に、実施例1-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQを深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。また、学習部15が、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DP及びDQと、を学習データとして、視点差推定モデルM3を学習させる。
【0121】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0122】
(実施例1-2)
図17に、実施例1-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを逆変換モデルM1Rに入力することによって、学習用仮想-実変換画像LKTPを生成する。また、学習部15が、学習用仮想-実変換画像LKTPを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQを深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。また、学習部15が、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DP及びDQと、を学習データとして、視点差推定モデルM3を学習させる。
【0123】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0124】
(実施例1-3)
図18に、実施例1-3に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQを深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。また、学習部15が、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DP及びDQと、学習用仮想画像LKP及びLKQと、を学習データとして、視点差推定モデルM3を学習させる。
【0125】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、実-仮想変換画像TK0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0126】
(実施例1-4)
図19に、実施例1-4に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQを深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。また、学習部15が、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DP及びDQと、学習用仮想画像LKP及びLKQと、を学習データとして、視点差推定モデルM3を学習させる。
【0127】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、実画像T0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0128】
次に、実施例2-1~2-5について説明する。これらの実施例では、学習フェーズにおいて、2つの学習用仮想画像LKP及びLKQを用いて学習し、運用フェーズにおいて、1つの深度画像D1又はD2に基づいて視点差ΔLを推定する。この場合、正解データが正確であり、かつ用意しやすい利点がある。実施例2-1~2-5における、学習用仮想画像LKPが本開示の第1学習用仮想画像の一例であり、学習用仮想画像LKQが本開示の第2学習用仮想画像の一例である。また、深度画像DPが本開示の第1学習用深度画像の一例であり、深度画像DQが本開示の第2学習用深度画像の一例である。
【0129】
(実施例2-1)
図20に、実施例2-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQと、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DPと、を学習データとして、視点差推定モデルM3を学習させる。
【0130】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。推定部14が、第1深度画像D1と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0131】
(実施例2-2)
図21に、実施例2-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P2から見た学習用仮想画像LKQを深度画像生成モデルM2Aに入力することによって、深度画像DQを生成する。また、学習部15が、仮想視点P1から見た学習用仮想画像LKPと、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DQと、を学習データとして、視点差推定モデルM3を学習させる。
【0132】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、実-仮想変換画像TK0と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0133】
(実施例2-3)
図22に、実施例2-3に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを逆変換モデルM1Rに入力することによって、学習用仮想-実変換画像LKTPを生成する。また、学習部15が、学習用仮想-実変換画像LKTPを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像DPを生成する。また、学習部15が、仮想視点P2から見た学習用仮想画像LKQと、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DPと、学習用仮想画像LKQと、を学習データとして、視点差推定モデルM3を学習させる。
【0134】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。すなわち、第1深度画像D1は、実画像T0の画素値に基づいて生成されるものであってもよい。推定部14が、第1深度画像D1と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0135】
(実施例2-4)
図23に、実施例2-4に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、学習用仮想画像LKPと、仮想視点P2から見た学習用仮想画像LKQと、仮想視点P1と仮想視点P2との視点差ΔL0と、深度画像DPと、を学習データとして、視点差推定モデルM3を学習させる。
【0136】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。推定部14が、第1深度画像D1と、実-仮想変換画像TK0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0137】
(実施例2-5)
図24に、実施例2-5に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P1から見た学習用仮想画像LKPを深度画像生成モデルM2Aに入力することによって、深度画像DPを生成する。また、学習部15が、学習用仮想画像LKPと、仮想視点P2から見た学習用仮想画像LKQと、仮想視点P1と仮想視点P2とのの視点差ΔL0と、深度画像DPと、を学習データとして、視点差推定モデルM3を学習させる。
【0138】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。推定部14が、第1深度画像D1と、実画像T0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0139】
次に、実施例3-1~3-3について説明する。これらの実施例では、学習フェーズにおいて、1つの学習用仮想画像LK0と1つの学習用実画像LT0を用いて学習し、運用フェーズにおいて、2つの深度画像D1及びD2に基づいて視点差ΔLを推定する。運用フェーズにおける入力(実画像T0)と同様の学習用実画像LT0で学習を行うことによって、学習データの用意は困難だが、視点差推定の精度が向上する。実施例3-1~3-3における、深度画像Dt0が本開示の学習用深度画像の一例であり、深度画像Dk0が本開示の学習用仮想深度画像の一例である。
【0140】
(実施例3-1)
図25に、実施例3-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LT0を深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dt0を生成する。また、学習部15が、仮想視点P3から見た学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、深度画像Dk0を生成する。また、学習部15が、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dt0及びDk0と、を学習データとして、視点差推定モデルM3を学習させる。
【0141】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0142】
(実施例3-2)
図26に、実施例3-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LT0を深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dt0を生成する。また、学習部15が、仮想視点P3から見た学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、深度画像Dk0を生成する。また、学習部15が、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dt0及びDk0と、学習用実画像LT0と、学習用仮想画像LK0と、を学習データとして、視点差推定モデルM3を学習させる。
【0143】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、実画像T0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0144】
(実施例3-3)
図27に、実施例3-3に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LT0を変換モデルM1に入力することによって、学習用実-仮想変換画像LTK0に変換する。また、学習部15が、学習用実-仮想変換画像LTK0を深度画像生成モデルM2Aに入力することによって、深度画像Dt0を生成する。また、学習部15が、仮想視点P3から見た学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、深度画像Dk0を生成する。また、学習部15が、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dt0及びDk0と、を学習データとして、視点差推定モデルM3を学習させる。
【0145】
本実施例における運用フェーズでは、生成部13が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。また、生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、実画像T0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0146】
次に、実施例4-1~4-4について説明する。これらの実施例では、学習フェーズにおいて、1つの学習用仮想画像LK0と1つの学習用実画像LT0を用いて学習し、運用フェーズにおいて、1つの深度画像D1又はD2に基づいて視点差ΔLを推定する。運用フェーズにおける入力(実画像T0)と同様の学習用実画像LT0で学習を行うことによって、学習データの用意は困難だが、視点差推定の精度が向上する。実施例4-1~4-4における、深度画像Dt0が本開示の学習用深度画像の一例であり、深度画像Dk0が本開示の学習用仮想深度画像の一例である。
【0147】
(実施例4-1)
図28に、実施例4-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P3から見た学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、深度画像Dk0を生成する。また、学習部15が、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dk0と、学習用実画像LT0と、を学習データとして、視点差推定モデルM3を学習させる。
【0148】
本実施例における運用フェーズでは、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第2深度画像D2と、実画像T0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0149】
(実施例4-2)
図29に、実施例4-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LT0を深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dt0を生成する。また、学習部15が、仮想視点P3から見た学習用仮想画像LK0と、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dt0と、を学習データとして、視点差推定モデルM3を学習させる。
【0150】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。推定部14が、第1深度画像D1と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0151】
(実施例4-3)
図30に、実施例4-3に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LT0を変換モデルM1に入力することによって、学習用実-仮想変換画像LTK0に変換する。また、学習部15が、学習用実-仮想変換画像LTK0を深度画像生成モデルM2Aに入力することによって、深度画像Dt0を生成する。また、学習部15が、仮想視点P3から見た学習用仮想画像LK0と、学習用実画像LT0の視点と仮想視点P3との視点差ΔL0と、深度画像Dt0と、を学習データとして、視点差推定モデルM3を学習させる。
【0152】
本実施例における運用フェーズでは、変換部12が、実画像T0を変換モデルM1に入力することによって、実-仮想変換画像TK0に変換する。生成部13が、実-仮想変換画像TK0を深度画像生成モデルM2Aに入力することによって、第1深度画像D1を生成する。推定部14が、第1深度画像D1と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0153】
(実施例4-4)
図31に、実施例4-4に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、仮想視点P3から見た学習用仮想画像LK0を深度画像生成モデルM2Aに入力することによって、深度画像Dk0を生成する。また、学習部15が、学習用実画像LT0の視点と仮想視点P3とのの視点差ΔL0と、深度画像Dk0と、学習用実画像LT0と、を学習データとして、視点差推定モデルM3を学習させる。
【0154】
本実施例における運用フェーズでは、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第2深度画像D2と、実画像T0と、仮想画像K0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0155】
次に、実施例5-1~5-3について説明する。これらの実施例では、学習フェーズにおいて、2つの学習用実画像LTP及びLTQを用いて学習し、運用フェーズにおいて、2つの深度画像D1及びD2に基づいて視点差ΔLを推定する。
【0156】
(実施例5-1)
図32に、実施例5-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LTPを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtpを生成する。また、学習部15が、学習用実画像LTQを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtqを生成する。また、学習部15が、学習用実画像LTP及びLKQの視点差ΔL0と、深度画像Dtp及びDtqと、を学習データとして、視点差推定モデルM3を学習させる。
【0157】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。変換部12が、仮想画像K0を逆変換モデルM1Rに入力することによって、仮想-実変換画像KT0に変換する。また、生成部13が、仮想-実変換画像KT0を深度画像生成モデルM2B又はM2Cに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0158】
(実施例5-2)
図33に、実施例5-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LTPを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtpを生成する。また、学習部15が、学習用実画像LTQを変換モデルM1に入力することによって、学習用実-仮想変換画像LTKQを生成する。また、学習部15が、学習用実-仮想変換画像LTKQを深度画像生成モデルM2Aに入力することによって、深度画像Dtqを生成する。また、学習部15が、学習用実画像LTP及びLKQの視点差ΔL0と、深度画像Dtp及びDtqと、を学習データとして、視点差推定モデルM3を学習させる。
【0159】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。また、生成部13が、仮想画像K0を深度画像生成モデルM2Aに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0160】
(実施例5-3)
図34に、実施例5-3に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LTPを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtpを生成する。また、学習部15が、学習用実画像LTQを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtqを生成する。また、学習部15が、学習用実画像LTP及びLKQの視点差ΔL0と、深度画像Dtp及びDtqと、学習用実画像LTP及びLKQと、を学習データとして、視点差推定モデルM3を学習させる。
【0161】
本実施例における運用フェーズでは、生成部13が、実画像T0を深度画像生成モデルM2B又はM2Cに入力することによって、第1深度画像D1を生成する。変換部12が、仮想画像K0を逆変換モデルM1Rに入力することによって、仮想-実変換画像KT0に変換する。また、生成部13が、仮想-実変換画像KT0を深度画像生成モデルM2B又はM2Cに入力することによって、第2深度画像D2を生成する。推定部14が、第1深度画像D1と、第2深度画像D2と、実画像T0と、仮想-実変換画像KT0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0162】
次に、実施例6-1~6-2について説明する。これらの実施例では、学習フェーズにおいて、2つの学習用実画像LTP及びLTQを用いて学習し、運用フェーズにおいて、1つの深度画像に基づいて視点差ΔLを推定する。
【0163】
(実施例6-1)
図35に、実施例6-1に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LTQを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像LDQを生成する。また、学習部15が、学習用実画像LTP及びLKQの視点差ΔL0と、深度画像LDQと、学習用実画像LTPと、を学習データとして、視点差推定モデルM3を学習させる。
【0164】
本実施例における運用フェーズでは、変換部12が、仮想画像K0を逆変換モデルM1Rに入力することによって、仮想-実変換画像KT0に変換する。また、生成部13が、仮想-実変換画像KT0を深度画像生成モデルM2B又はM2Cに入力することによって、第2深度画像D2を生成する。推定部14が、第2深度画像D2と、実画像T0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0165】
(実施例6-2)
図36に、実施例6-2に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部15が、学習用実画像LTQを深度画像生成モデルM2B又はM2Cに入力することによって、深度画像Dtqを生成する。また、学習部15が、学習用実画像LTP及びLKQの視点差ΔL0と、深度画像Dtqと、学習用実画像LTP及びLTQと、を学習データとして、視点差推定モデルM3を学習させる。
【0166】
本実施例における運用フェーズでは、変換部12が、仮想画像K0を逆変換モデルM1Rに入力することによって、仮想-実変換画像KT0に変換する。また、生成部13が、仮想-実変換画像KT0を深度画像生成モデルM2B又はM2Cに入力することによって、第2深度画像D2を生成する。推定部14が、第2深度画像D2と、実画像T0と、仮想-実変換画像KT0と、を視点差推定モデルM3に入力することによって、視点差ΔLを推定する。
【0167】
以上実施例を挙げて説明したように、本実施形態に係る視点差推定モデルM3は、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像、及び、学習用実画像の視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、被検体の3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点P3から見た管状構造物の内壁を擬似的に表す学習用仮想画像、及び、仮想視点P3から管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、学習用実画像の視点と仮想視点P3との視点差ΔL0と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。仮想視点P3が、本開示の第3視点の一例である。
【0168】
なお、上記実施形態においては、視点差ΔLの推定に用いる仮想画像K0に基づく第2深度画像D2を、深度画像生成モデルM2を用いて、仮想画像K0の画素値に基づいて生成する形態について説明したが、これに限らない。仮想画像K0に基づく第2深度画像は、3次元画像V0における仮想視点P10から管状構造物の内壁までの距離情報に基づいて生成してもよい。このような形態によれば、正確なスケール情報を含むより正確な第2深度画像D2を得ることができる。また、この場合、取得部11による仮想画像K0の生成を省略してもよい。
【0169】
ここで、距離情報は、例えば、3次元画像V0における仮想視点P10から不透明度(Opacity)が予め定められた値以上となる点までの距離を示す。3次元画像V0において、不透明度(Opacity)が予め定められた値以上となれば、その部分は管状構造物の内壁に相当すると考えられる。また例えば、距離情報は、3次元画像V0に基づいて気管支画像B0を生成している場合、仮想視点P10から気管支画像B0のサーフェスまでの距離を示すものであってもよい。
【0170】
次に、
図37を参照して、本実施形態に係る情報処理装置10の作用を説明する。情報処理装置10において、CPU21が情報処理プログラム27を実行することによって、
図37に示す情報処理が実行される。情報処理は、例えば、ユーザにより実行開始の指示があった場合に実行される。なお、
図37に示す情報処理は、
図6を用いて説明した形態例に対応し、上述した各種変形が可能である。
【0171】
ステップS10で、取得部11は、気管支内の所定の視点位置に配置した内視鏡スコープ31によって撮影された実画像T0を取得する。ステップS12で、取得部11は、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点P10から見た管状構造物の内壁を擬似的に表す仮想画像K0を取得する。
【0172】
ステップS14で、変換部12、生成部13及び推定部14は、ステップS10で取得された実画像T0の視点P11と、仮想視点P10と、の視点差ΔLを推定する視点差推定処理を行う。ステップS16で、制御部16は、ステップS14で推定された視点差ΔLに基づいて推定される内視鏡先端3Bの推定位置Ptをディスプレイ24に表示させる制御を行い、本情報処理を終了する。
【0173】
次に、
図38を参照して、本実施形態に係る学習部15による変換モデルM1の学習処理について説明する。情報処理装置10において、CPU21が情報処理プログラム27を実行することによって、
図38に示す変換モデル学習処理が実行される。変換モデル学習処理は、例えば、ユーザにより実行開始の指示があった場合に実行される。なお、
図38に示す変換モデル学習処理は、
図11を用いて説明した形態例に対応し、上述した各種変形が可能である。
【0174】
ステップS30で、学習部15は、内視鏡により撮影された管状構造物の内壁を表す実画像T0、及び、被検体の3次元画像V0に基づいて生成される、3次元画像V0において予め定められた仮想視点P10から見た管状構造物の内壁を擬似的に表す仮想画像K0の何れか一方を含む入力画像を取得する。ステップS32で、学習部15は、ステップS30で取得した入力画像を、当該入力画像に含まれない画像風の変換画像に変換する。
【0175】
ステップS34で、学習部15は、深度画像生成モデルM2を用いて、ステップS30で取得した入力画像の深度画像(入力深度画像)と、ステップS32で変換した変換画像の深度画像(変換深度画像)と、を取得する。ステップS36で、学習部15は、ステップS34で取得した入力深度画像と変換深度画像との類似度を含む損失関数を用いて、変換モデルM1を学習させる。ステップS36が完了すると、本変換モデル学習処理は終了する。
【0176】
以上説明したように、本開示の一態様に係る情報処理装置10は、少なくとも1つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第1深度画像及び第2深度画像の少なくとも一方を用いる。
【0177】
すなわち、本開示の一態様に係る情報処理装置10によれば、少なくとも第1深度画像D1及び第2深度画像D2の何れかを用いて、実画像T0の視点P11と仮想視点P10との視点差ΔLを推定する。したがって、内視鏡の実画像T0の視点P11と仮想的に設定した仮想視点P10との視点差ΔLを精度よく推定できる。
【0178】
また、本開示の一態様に係る情報処理装置10は、少なくとも1つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、被検体の3次元画像に基づいて生成される、3次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像の何れか一方を含む入力画像を取得し、入力された実画像及び仮想画像の何れか一方を他方の画像風に変換するよう学習される変換モデルを用いて、入力画像を、当該入力画像に含まれない画像風の変換画像に変換し、入力画像の視点から管状構造物の内壁までの画素ごとの距離を表す入力深度画像と、変換画像の視点から管状構造物の内壁までの画素ごとの距離を表す変換深度画像と、を取得し、変換モデルを、入力深度画像と変換深度画像との類似度を含む損失関数を用いて学習させる。
【0179】
すなわち、本開示の一態様に係る情報処理装置10によれば、例えば実画像T0を仮想画像風の変換画像に変換するような変換モデルM1について、変換前後で深度画像が変化しないようにするという制約を加えることができる。したがって、変換前後において画像に含まれる気管支の構造等が変化することを防ぎ、精度の良い変換画像を得ることができる。これにより、変換画像を用いて学習される深度画像生成モデルM2及び視点差推定モデルM3等の、内視鏡ナビゲーションに用いられる機械学習モデルに対して、高精度な変換画像を入力することができるので、内視鏡の実画像T0の視点P11と仮想的に設定した仮想視点P10との視点差ΔLを精度よく推定するという効果に寄与できる。
【0180】
また、上記各実施形態において、例えば、取得部11、変換部12、生成部13、推定部14、学習部15及び制御部16といった各種の処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0181】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0182】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System on Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0183】
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)を用いることができる。
【0184】
また、上記実施形態では、情報処理装置10における情報処理プログラム27が記憶部22に予め記憶されている態様を説明したが、これに限定されない。情報処理プログラム27は、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、情報処理プログラム27は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。
【0185】
本開示の技術は、上記実施形態例及び実施例を適宜組み合わせることも可能である。以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。
【0186】
上記実施形態に関し、更に以下の付記を開示する。
[付記項1]
少なくとも1つのプロセッサを備え、
前記プロセッサは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
情報処理装置。
[付記項2]
前記プロセッサは、
前記視点差推定処理において、少なくとも前記第1深度画像と、前記第2深度画像と、を用いて、前記視点差を推定する
付記項1に記載の情報処理装置。
[付記項3]
前記プロセッサは、
前記第1深度画像及び前記第2深度画像の少なくとも一方を生成し、
前記視点差推定処理において、少なくとも前記第1深度画像及び前記第2深度画像の少なくとも一方を入力とし、入力された前記第1深度画像及び前記第2深度画像の少なくとも一方を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
付記項1又は付記項2に記載の情報処理装置。
[付記項4]
前記プロセッサは、
前記第1深度画像及び前記第2深度画像を生成し、
前記視点差推定処理において、少なくとも前記第1深度画像及び前記第2深度画像を入力とし、入力された前記第1深度画像及び前記第2深度画像を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
付記項3に記載の情報処理装置。
[付記項5]
前記プロセッサは、
前記実画像を前記仮想画像風の実-仮想変換画像に変換し、
前記視点差推定処理において、前記実-仮想変換画像を前記実画像として用いて、前記視点差を推定する
付記項1から付記項4の何れか1項に記載の情報処理装置。
[付記項6]
前記プロセッサは、
前記視点差推定処理において、前記実-仮想変換画像と、前記第1深度画像と、前記仮想画像と、前記第2深度画像と、を用いて、前記視点差を推定する
付記項5に記載の情報処理装置。
[付記項7]
前記視点差推定モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第1視点から見た管状構造物の内壁を擬似的に表す第1学習用仮想画像、及び、前記第1視点から前記管状構造物の内壁までの画素ごとの距離を表す第1学習用深度画像の少なくとも一方と、
前記被検体の前記3次元画像に基づいて生成される、前記3次元画像において予め定められた前記第1視点とは異なる第2視点から見た前記管状構造物の内壁を擬似的に表す第2学習用仮想画像、及び、前記第2視点から前記管状構造物の内壁までの画素ごとの距離を表す第2学習用深度画像の少なくとも一方と、
前記第1視点と前記第2視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
付記項3又は付記項4に記載の情報処理装置。
[付記項8]
前記視点差推定モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像、及び、前記学習用実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第3視点から見た前記管状構造物の内壁を擬似的に表す学習用仮想画像、及び、前記第3視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、
前記学習用実画像の視点と前記第3視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
付記項3又は付記項4に記載の情報処理装置。
[付記項9]
前記第1深度画像は、前記実画像の画素値に基づいて生成される
付記項1から付記項8の何れか1項に記載の情報処理装置。
[付記項10]
前記第1深度画像は、前記実画像を前記仮想画像風に変換した実-仮想変換画像の画素値に基づいて生成される
付記項1から付記項8の何れか1項に記載の情報処理装置。
[付記項11]
前記第2深度画像は、前記仮想画像の画素値に基づいて生成される
付記項1から付記項10の何れか1項に記載の情報処理装置。
[付記項12]
前記第2深度画像は、前記3次元画像における前記仮想視点から前記管状構造物の内壁までの距離情報に基づいて生成される
付記項1から付記項10の何れか1項に記載の情報処理装置。
[付記項13]
前記プロセッサは、
管状構造物の内壁を表す画像を入力とし、入力された画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、前記実画像に基づく前記第1深度画像、及び、前記仮想画像に基づく前記第2深度画像の少なくとも一方を生成する
付記項1から付記項12の何れか1項に記載の情報処理装置。
[付記項14]
前記深度画像生成モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第4視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、
前記3次元画像における前記第4視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第4視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項13に記載の情報処理装置。
[付記項15]
前記深度画像生成モデルは、
被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた第5視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、前記仮想画像を入力とし、入力された前記仮想画像を前記実画像風に変換して出力するよう予め学習された変換モデルを用いて、前記実画像風に変換したものと、
前記3次元画像における前記第5視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第5視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項13に記載の情報処理装置。
[付記項16]
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記被検体の3次元画像における前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項13に記載の情報処理装置。
[付記項17]
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記内視鏡に搭載された測距センサによって得られる、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの距離の実測値に基づいて生成される、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項13に記載の情報処理装置。
[付記項18]
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
処理を含む情報処理方法。
[付記項19]
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第1深度画像の少なくとも一方と、
前記被検体の3次元画像に基づいて生成される、前記3次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第2深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第1深度画像及び前記第2深度画像の少なくとも一方を用いる
処理をコンピュータに実行させるための情報処理プログラム。
【符号の説明】
【0187】
3 内視鏡装置
3B 内視鏡先端
3A 操作部
4 3次元画像撮影装置
5 画像保管サーバ
8 ネットワーク
10 情報処理装置
11 取得部
12 変換部
13 生成部
14 推定部
15 学習部
16 制御部
21 CPU
22 記憶部
23 メモリ
24 ディスプレイ
25 入力部
26 ネットワークI/F
27 情報処理プログラム
28 バス
31 内視鏡スコープ
32 プロセッサ装置
40 経路
50 画面
51 移動軌跡
B0 気管支画像
D1 第1深度画像
D2 第2深度画像
DK、Dk0、Dkt0、Dt0、Dtp、Dtq、DP、DQ 深度画像
Dt 入力深度画像
Dtk 変換深度画像
K0 仮想画像
KT0 仮想-実変換画像
LD0 学習用深度画像
LK0、LKP、LKQ 学習用仮想画像
LKT0、LKTP 学習用仮想-実変換画像
LT0、LTP、LTQ 学習用実画像
LTK0、LTKQ 学習用実-仮想変換画像
LTKT0 学習用実-仮想-実変換画像
M1 変換モデル
M1D 識別器
M1R 逆変換モデル
M2、M2A~M2C 深度画像生成モデル
M3 視点差推定モデル
P10 仮想視点
P11 実画像の視点
Pt 推定位置
T0 実画像
T1、T2、Tm 断層画像
TK0 実-仮想変換画像
V0 3次元画像
ΔL 視点差