特開2024-140986 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-140986情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024140986

(43)【公開日】2024-10-10

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

A61B 1/00 20060101AFI20241003BHJP

A61B 1/045 20060101ALI20241003BHJP

A61B 6/03 20060101ALN20241003BHJP

【ＦＩ】

A61B1/00 V

A61B1/045 614

A61B1/00 553

A61B6/03 377

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2023052390

(22)【出願日】2023-03-28

(71)【出願人】

【識別番号】306037311

【氏名又は名称】富士フイルム株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】千葉晴斗

【テーマコード（参考）】

4C093

4C161

【Ｆターム（参考）】

4C093AA22

4C093AA26

4C093CA23

4C093FF42

4C161AA07

4C161CC06

4C161DD03

4C161HH52

4C161JJ10

4C161SS21

(57)【要約】

【課題】内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置は、少なくとも１つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第１深度画像及び第２深度画像の少なくとも一方を用いる。
【選択図】図３

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサを備え、
前記プロセッサは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第１深度画像及び前記第２深度画像の少なくとも一方を用いる
情報処理装置。

【請求項2】

前記プロセッサは、
前記視点差推定処理において、少なくとも前記第１深度画像と、前記第２深度画像と、を用いて、前記視点差を推定する
請求項１に記載の情報処理装置。

【請求項3】

前記プロセッサは、
前記第１深度画像及び前記第２深度画像の少なくとも一方を生成し、
前記視点差推定処理において、少なくとも前記第１深度画像及び前記第２深度画像の少なくとも一方を入力とし、入力された前記第１深度画像及び前記第２深度画像の少なくとも一方を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
請求項１に記載の情報処理装置。

【請求項4】

前記プロセッサは、
前記第１深度画像及び前記第２深度画像を生成し、
前記視点差推定処理において、少なくとも前記第１深度画像及び前記第２深度画像を入力とし、入力された前記第１深度画像及び前記第２深度画像を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
請求項３に記載の情報処理装置。

【請求項5】

前記プロセッサは、
前記実画像を前記仮想画像風の実－仮想変換画像に変換し、
前記視点差推定処理において、前記実－仮想変換画像を前記実画像として用いて、前記視点差を推定する
請求項１に記載の情報処理装置。

【請求項6】

前記プロセッサは、
前記視点差推定処理において、前記実－仮想変換画像と、前記第１深度画像と、前記仮想画像と、前記第２深度画像と、を用いて、前記視点差を推定する
請求項５に記載の情報処理装置。

【請求項7】

前記視点差推定モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第１視点から見た管状構造物の内壁を擬似的に表す第１学習用仮想画像、及び、前記第１視点から前記管状構造物の内壁までの画素ごとの距離を表す第１学習用深度画像の少なくとも一方と、
前記被検体の前記３次元画像に基づいて生成される、前記３次元画像において予め定められた前記第１視点とは異なる第２視点から見た前記管状構造物の内壁を擬似的に表す第２学習用仮想画像、及び、前記第２視点から前記管状構造物の内壁までの画素ごとの距離を表す第２学習用深度画像の少なくとも一方と、
前記第１視点と前記第２視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
請求項３に記載の情報処理装置。

【請求項8】

前記視点差推定モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像、及び、前記学習用実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第３視点から見た前記管状構造物の内壁を擬似的に表す学習用仮想画像、及び、前記第３視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、
前記学習用実画像の視点と前記第３視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
請求項３に記載の情報処理装置。

【請求項9】

前記第１深度画像は、前記実画像の画素値に基づいて生成される
請求項１に記載の情報処理装置。

【請求項10】

前記第１深度画像は、前記実画像を前記仮想画像風に変換した実－仮想変換画像の画素値に基づいて生成される
請求項１に記載の情報処理装置。

【請求項11】

前記第２深度画像は、前記仮想画像の画素値に基づいて生成される
請求項１に記載の情報処理装置。

【請求項12】

前記第２深度画像は、前記３次元画像における前記仮想視点から前記管状構造物の内壁までの距離情報に基づいて生成される
請求項１に記載の情報処理装置。

【請求項13】

前記プロセッサは、
管状構造物の内壁を表す画像を入力とし、入力された画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、前記実画像に基づく前記第１深度画像、及び、前記仮想画像に基づく前記第２深度画像の少なくとも一方を生成する
請求項１に記載の情報処理装置。

【請求項14】

前記深度画像生成モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第４視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、
前記３次元画像における前記第４視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第４視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項１３に記載の情報処理装置。

【請求項15】

前記深度画像生成モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第５視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、前記仮想画像を入力とし、入力された前記仮想画像を前記実画像風に変換して出力するよう予め学習された変換モデルを用いて、前記実画像風に変換したものと、
前記３次元画像における前記第５視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第５視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項１３に記載の情報処理装置。

【請求項16】

前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記被検体の３次元画像における前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項１３に記載の情報処理装置。

【請求項17】

前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記内視鏡に搭載された測距センサによって得られる、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの距離の実測値に基づいて生成される、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
請求項１３に記載の情報処理装置。

【請求項18】

被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第１深度画像及び前記第２深度画像の少なくとも一方を用いる
処理を含む情報処理方法。

【請求項19】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、患者の大腸及び気管支等の管状構造物を内視鏡を用いて観察したり、処置したりすることが行われている。内視鏡画像は、ＣＣＤ（Charge Coupled Device）等の撮像素子により管状構造物内部の色及び質感が鮮明に表現された画像が得られる一方で、管状構造物の内部を２次元の画像に表すものである。このため、内視鏡画像が管状構造物内のどの位置を表しているものかを把握することは困難である。特に、気管支は径が細く視野が狭いため、内視鏡の先端を目的とする位置まで到達させることは困難である。

【0003】

そこで、ＣＴ（Computed Tomography）装置及びＭＲＩ（Magnetic Resonance Imaging）装置等のモダリティによる断層撮影により取得された３次元画像に基づいて生成される仮想的な内視鏡画像を利用して、管状構造物内の目標とする地点までの経路をナビゲートする各種手法が提案されている。例えば、特許文献１には、３次元画像に基づいて管状構造物の経路を表す経路情報を取得し、３次元画像に基づいて仮想内視鏡画像を経路に沿って多数生成し、仮想内視鏡画像と実内視鏡画像とのマッチングを行うことにより、内視鏡の先端位置を特定する手法が提案されている。

【0004】

また例えば、非特許文献１には、学習モデルを用いて、実内視鏡画像と仮想内視鏡画像との視点差を推定することで、実際の内視鏡の視点、すなわち位置を同定する手法が提案されている。非特許文献１における学習モデルは、実内視鏡画像及び電磁センサにより得る実際の視点の組合せと、仮想内視鏡画像及びその視点の組合せと、それらの視点差と、を学習データとして用いて学習が行われる。また、学習データの補強のために、実内視鏡画像及び電磁センサにより得る実際の視点の組合せに代えて、仮想内視鏡画像を実内視鏡画像風に変換した画像及び３次元画像に基づいて特定されるその視点の組合せを学習データとして用いることも記載されている。

【0005】

また、管状構造物内の目標とする地点までの経路をナビゲートする他の手法として、例えば非特許文献２には、内視鏡カプセルから取得した動画のフレーム間視点差を、推定深度を利用して推定する手法が提案されている。

【0006】

また例えば、非特許文献３には、ＧＡＮ（Generative Adversarial Network）を用いて大腸内視鏡画像を仮想内視鏡風画像に変換し、仮想内視鏡風画像に基づいて深度推定を行うことが記載されている。非特許文献３においては、ピクセル単位での画像変化量が変換前後で小さくなるように制約が加えられている。

【0007】

また例えば、非特許文献４には、ＧＡＮを用いて実気管支鏡画像を深度画像に変換し、深度推定を行うことが記載されている。非特許文献４においては、変換された深度画像を気管支鏡画像に再度変換し、元の実気管支鏡画像と一致するように制約を加えることによって、画像内の気管支構造を保存している。また、非特許文献４には、深度画像の正解データを、ＣＴから自動抽出することが記載されている。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特許第５７１８５３７号公報

【非特許文献】

【0009】

【非特許文献1】Jake Sganga, David Eng, Chauncey Graetzel, David B. Camarillo. "Offsetnet: Deep learning for localization in the lung using rendered images." In Proceedings of IEEE International Conference on Robotics and Automation (ICRA), pp. 5046-5052, 2019.

【非特許文献2】Mehmet Turan, Yasin Almalioglu, Helder Araujo, Ender Konukoglu, Metin Sitti. "Deep EndoVO: A recurrent convolutional neural network (RCNN) based visual odometry approach for endoscopic capsule robots." In Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR), 2017.

【非特許文献3】Faisal Mahmood, Richard Chen, Nicholas J. Durr. "Unsupervised Reverse Domain Adaptation for Synthetic Medical Images via Adversarial Training." In Proceedings of IEEE Transactions on Medical Imaging (Volume: 37, Issue: 12), 2018.

【非特許文献4】Mali Shen, Yun Gu, Ning Liu, Guang-Zhong Yang. "Context-Aware Depth and Pose Estimation for Bronchoscopic Navigation." In Proceedings of IEEE Robotics and Automation Letters (Volume: 4, Issue: 2), 2019.

【発明の概要】

【発明が解決しようとする課題】

【0010】

ところで、実内視鏡画像には、仮想内視鏡画像には含まれないようなノイズが含まれる場合がある。例えば、内視鏡は管状構造物内に挿入されるものであるため、内視鏡先端のレンズに体液等が付着し、レンズが曇る場合がある。また例えば、断層撮影によっては捉えることができない物体が実内視鏡画像に写る場合もある。また例えば、実際の管状構造物の内壁に生じる光沢及び血管等の精細なテクスチャは、３次元画像に基づいて生成される仮想内視鏡画像では省略される場合がある。

【0011】

実内視鏡画像にノイズが含まれる場合、実内視鏡画像と仮想内視鏡画像との視点差を推定できず、実際の内視鏡の位置を特定できないことがある。すなわち、管状構造物内の目標とする地点までの経路を精度よくナビゲートできない場合がある。

【0012】

また、上記特許文献１及び非特許文献１に記載のように、実内視鏡画像及び仮想内視鏡画像という２次元画像のみを用いた手法では、３次元構造である管状構造物における視点差（すなわち位置）の特定の精度が十分ではない場合がある。

【0013】

本開示は、内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供する。

【課題を解決するための手段】

【0014】

本開示の第１態様は、情報処理装置であって、少なくとも１つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第１深度画像及び第２深度画像の少なくとも一方を用いる。

【0015】

上記第１の態様において、プロセッサは、視点差推定処理において、少なくとも第１深度画像と、第２深度画像と、を用いて、視点差を推定してもよい。

【0016】

上記第１の態様において、プロセッサは、第１深度画像及び第２深度画像の少なくとも一方を生成し、視点差推定処理において、少なくとも第１深度画像及び第２深度画像の少なくとも一方を入力とし、入力された第１深度画像及び第２深度画像の少なくとも一方を用いて、視点差を出力とするよう予め学習された視点差推定モデルを用いてもよい。

【0017】

上記第１の態様において、プロセッサは、第１深度画像及び第２深度画像を生成し、視点差推定処理において、少なくとも第１深度画像及び第２深度画像を入力とし、入力された第１深度画像及び第２深度画像を用いて、視点差を出力とするよう予め学習された視点差推定モデルを用いてもよい。

【0018】

上記第１の態様において、プロセッサは、実画像を仮想画像風の実－仮想変換画像に変換し、視点差推定処理において、実－仮想変換画像を実画像として用いて、視点差を推定してもよい。

【0019】

上記第１の態様において、プロセッサは、視点差推定処理において、実－仮想変換画像と、第１深度画像と、仮想画像と、第２深度画像と、を用いて、視点差を推定してもよい。

【0020】

上記第１の態様において、視点差推定モデルは、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた第１視点から見た管状構造物の内壁を擬似的に表す第１学習用仮想画像、及び、第１視点から管状構造物の内壁までの画素ごとの距離を表す第１学習用深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた第１視点とは異なる第２視点から見た管状構造物の内壁を擬似的に表す第２学習用仮想画像、及び、第２視点から管状構造物の内壁までの画素ごとの距離を表す第２学習用深度画像の少なくとも一方と、第１視点と第２視点との視点差と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。

【0021】

上記第１の態様において、視点差推定モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像、及び、学習用実画像の視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた第３視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像、及び、第３視点から管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、学習用仮想画像と学習用実画像との視点差と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。

【0022】

上記第１の態様において、第１深度画像は、実画像の画素値に基づいて生成されてもよい。

【0023】

上記第１の態様において、第１深度画像は、実画像を仮想画像風に変換した実－仮想変換画像の画素値に基づいて生成されてもよい。

【0024】

上記第１の態様において、第２深度画像は、仮想画像の画素値に基づいて生成されてもよい。

【0025】

上記第１の態様において、第２深度画像は、３次元画像における仮想視点から管状構造物の内壁までの距離情報に基づいて生成されてもよい。

【0026】

上記第１の態様において、プロセッサは、管状構造物の内壁を表す画像を入力とし、入力された画像の視点から管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、実画像に基づく第１深度画像、及び、仮想画像に基づく第２深度画像の少なくとも一方を生成してもよい。

【0027】

上記第１の態様において、深度画像生成モデルは、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた第４視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、３次元画像における学習用仮想画像の視点から管状構造物の内壁までの距離情報に基づいて生成される、第４視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。

【0028】

上記第１の態様において、深度画像生成モデルは、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた第５視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう予め学習された変換モデルを用いて、実画像風に変換したものと、３次元画像における第５視点から管状構造物の内壁までの距離情報に基づいて生成される、第５視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。

【0029】

上記第１の態様において、深度画像生成モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像と、被検体の３次元画像における学習用実画像が撮影された視点に対応する視点から管状構造物の内壁までの距離情報に基づいて生成される、学習用実画像が撮影された視点に対応する視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。

【0030】

上記第１の態様において、深度画像生成モデルは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像と、内視鏡に搭載された測距センサによって得られる、学習用実画像が撮影された視点から管状構造物の内壁までの距離の実測値に基づいて生成される、学習用実画像が撮影された視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルであってもよい。

【0031】

本開示の第２の態様は、情報処理方法であって、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第１深度画像及び第２深度画像の少なくとも一方を用いる処理を含む。

【0032】

本開示の第３の態様は、情報処理プログラムであって、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第１深度画像及び第２深度画像の少なくとも一方を用いる処理をコンピュータに実行させるためのものである。

【発明の効果】

【0033】

上記態様によれば、本開示の情報処理装置、情報処理方法及び情報処理プログラムは、内視鏡の実画像の視点と仮想的に設定した仮想視点との視点差を精度よく推定できる。

【図面の簡単な説明】

【0034】

【図1】情報処理システムの概略構成の一例を示す図である。

【図2】情報処理装置のハードウェア構成の一例を示すブロック図である。

【図3】情報処理装置の機能的な構成の一例を示すブロック図である。

【図4】気管支画像の一例を示す図である。

【図5】気管支画像における経路の一例を示す図である。

【図6】視点差推定処理の一例を説明するための図である。

【図7】視点差を説明するための図である。

【図8】ディスプレイに表示される画面の一例を示す図である。

【図9】変換モデルの学習方法の一例を説明するための図である。

【図10】変換モデルの学習方法の一例を説明するための図である。

【図11】変換モデルの学習方法の一例を説明するための図である。

【図12】深度画像生成モデルの学習方法の一例を説明するための図である。

【図13】深度画像生成モデルの学習方法の一例を説明するための図である。

【図14】深度画像生成モデルの学習方法の一例を説明するための図である。

【図15】視点差推定モデルの学習方法の一例を説明するための図である。

【図16】実施例１－１に係る視点差推定処理の内容を示す図である。

【図17】実施例１－２に係る視点差推定処理の内容を示す図である。

【図18】実施例１－３に係る視点差推定処理の内容を示す図である。

【図19】実施例１－４に係る視点差推定処理の内容を示す図である。

【図20】実施例２－１に係る視点差推定処理の内容を示す図である。

【図21】実施例２－２に係る視点差推定処理の内容を示す図である。

【図22】実施例２－３に係る視点差推定処理の内容を示す図である。

【図23】実施例２－４に係る視点差推定処理の内容を示す図である。

【図24】実施例２－５に係る視点差推定処理の内容を示す図である。

【図25】実施例３－１に係る視点差推定処理の内容を示す図である。

【図26】実施例３－２に係る視点差推定処理の内容を示す図である。

【図27】実施例３－３に係る視点差推定処理の内容を示す図である。

【図28】実施例４－１に係る視点差推定処理の内容を示す図である。

【図29】実施例４－２に係る視点差推定処理の内容を示す図である。

【図30】実施例４－３に係る視点差推定処理の内容を示す図である。

【図31】実施例４－４に係る視点差推定処理の内容を示す図である。

【図32】実施例５－１に係る視点差推定処理の内容を示す図である。

【図33】実施例５－２に係る視点差推定処理の内容を示す図である。

【図34】実施例５－３に係る視点差推定処理の内容を示す図である。

【図35】実施例６－１に係る視点差推定処理の内容を示す図である。

【図36】実施例６－２に係る視点差推定処理の内容を示す図である。

【図37】情報処理の一例を示すフローチャートである。

【図38】変換モデル学習処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0035】

以下、図面を参照して本開示の実施形態について説明する。図１は、本実施形態に係る情報処理装置１０を適用した情報処理システムの概略構成図である。図１に示すように、情報処理システムでは、内視鏡装置３、３次元画像撮影装置４、画像保管サーバ５及び情報処理装置１０が、ネットワーク８を経由して通信可能な状態で接続されている。

【0036】

内視鏡装置３は、被検体の管状構造物の内部を撮影する内視鏡スコープ３１と、撮影により得られた信号に基づいて管状構造物の内部の画像を生成するプロセッサ装置３２等を備える。管状構造物とは、例えば、気管支、大腸及び小腸等である。

【0037】

内視鏡スコープ３１は、被検体の管状構造物内に挿入される挿入部が操作部３Ａに連続して取り付けられたものである。内視鏡スコープ３１は、プロセッサ装置３２に着脱可能に接続されたユニバーサルコードを介してプロセッサ装置３２に接続されている。操作部３Ａは、挿入部の先端３Ｂが予め定められた角度範囲内で上下方向及び左右方向に湾曲するように動作を指令したり、内視鏡スコープ３１の先端に取り付けられた穿刺針を操作して組織のサンプルの採取を行ったりするための各種ボタンを含む。内視鏡スコープ３１は、例えば、気管支鏡、大腸内視鏡、小腸内視鏡、腹腔鏡及び胸腔鏡等である。

【0038】

本実施形態では、内視鏡スコープ３１は気管支用の軟性鏡であり、被検体の気管支内に挿入される。そして、プロセッサ装置３２に設けられた不図示の光源装置から光ファイバーで導かれた光が内視鏡スコープ３１の挿入部の先端３Ｂから照射され、内視鏡スコープ３１の撮像光学系により被検体の気管支内の画像が取得される。なお、内視鏡スコープ３１の挿入部の先端３Ｂについて、説明を容易なものとするために、以降の説明においては内視鏡先端３Ｂと称するものとする。

【0039】

プロセッサ装置３２は、内視鏡スコープ３１で撮影された撮影信号をデジタル画像信号に変換し、ホワイトバランス調整及びシェーディング補正等のデジタル信号処理によって画質の補正を行い、実画像Ｔ０を生成する。すなわち、実画像Ｔ０は、被検体の管状構造物（気管支）内に挿入された内視鏡により撮影された、管状構造物の内壁を表す画像である。実画像Ｔ０は、例えば３０ｆｐｓ等の所定のサンプリングレートにより表されるカラーの動画像であり、動画像の１フレームが実画像Ｔ０となる。実画像Ｔ０は、例えば、画像保管サーバ５及び情報処理装置１０等に順次送信される。

【0040】

３次元画像撮影装置４は、被検体の検査対象部位を撮影することにより、その部位を表す３次元画像を生成する装置であり、具体的には、内視鏡スコープ３１を管状構造物に挿入して管状構造物を撮影する方式以外の方式で撮影するＣＴ装置、ＭＲＩ装置、ＰＥＴ(Positron Emission Tomography)、及び超音波診断装置等である。この３次元画像撮影装置４により生成された３次元画像は画像保管サーバ５に送信され、保存される。本実施形態では、３次元画像撮影装置４は、気管支を含む胸部を撮影した３次元画像Ｖ０を生成する。なお、本実施形態においては、３次元画像撮影装置４はＣＴ装置であるものとするが、これに限定されない。

【0041】

画像保管サーバ５は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置及びデータベース管理用ソフトウェアを備えている。画像保管サーバ５は、ネットワーク８を介して他の装置と通信を行い、画像データ等を送受信する。具体的には、内視鏡装置３で取得された実画像Ｔ０、３次元画像撮影装置４で生成された３次元画像Ｖ０、及び情報処理装置１０で生成された仮想画像Ｋ０等の画像データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、実画像Ｔ０は動画像である。このため、実画像Ｔ０は、画像保管サーバ５を経由することなく、情報処理装置１０に送信されることが好ましい。なお、画像データの格納形式やネットワーク８経由での各装置間の通信は、ＤＩＣＯＭ（Digital Imaging and Communication in Medicine）等のプロトコルに基づいている。

【0042】

ところで、内視鏡の実画像Ｔ０は、管状構造物内部の色及び質感等が鮮明に表現された画像が得られる一方で、管状構造物の内部を２次元の画像に表すものである。このため、実画像Ｔ０が管状構造物内のどの位置を表しているものかを把握することは困難である。特に、気管支は径が細く視野が狭いため、内視鏡先端３Ｂを目的とする位置まで到達させることは困難である。

【0043】

そこで、本実施形態に係る情報処理装置１０は、内視鏡装置３によって得られる実画像Ｔ０と、３次元画像撮影装置４によって得られる３次元画像Ｖ０と、に基づいて、実画像Ｔ０が管状構造物内のどの位置を表しているものかを把握できるよう支援する。具体的には、情報処理装置１０は、３次元画像Ｖ０において仮想的に設定した仮想視点と実画像Ｔ０の視点との視点差ΔＬを推定する視点差推定処理を行う。以下、本実施形態に係る情報処理装置１０の一例について説明する。

【0044】

まず、図２を参照して、情報処理装置１０のハードウェア構成の一例を説明する。図２に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）２１、不揮発性の記憶部２２、及び一時記憶領域としてのメモリ２３を含む。また、情報処理装置１０は、液晶ディスプレイ等のディスプレイ２４、タッチパネル、キーボード及びマウス等の操作部２５、並びにＩ／Ｆ（InterFace）部２６を含む。Ｉ／Ｆ部２６は、内視鏡装置３、３次元画像撮影装置４、画像保管サーバ５及びその他外部装置等との有線又は無線通信を行う。ＣＰＵ２１、記憶部２２、メモリ２３、ディスプレイ２４、操作部２５及びＩ／Ｆ部２６は、システムバス及びコントロールバス等のバス２８を介して相互に各種情報の授受が可能に接続されている。

【0045】

記憶部２２は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）及びフラッシュメモリ等の記憶媒体によって実現される。記憶部２２には、情報処理装置１０における情報処理プログラム２７が記憶される。ＣＰＵ２１は、記憶部２２から情報処理プログラム２７を読み出してからメモリ２３に展開し、展開した情報処理プログラム２７を実行する。ＣＰＵ２１が本開示のプロセッサの一例である。また、記憶部２２には、変換モデルＭ１、深度画像生成モデルＭ２及び視点差推定モデルＭ３が記憶される。情報処理装置１０としては、例えば、パーソナルコンピュータ、サーバコンピュータ、スマートフォン、タブレット端末及びウェアラブル端末等を適宜適用できる。

【0046】

次に、図３を参照して、情報処理装置１０の機能的な構成の一例について説明する。図３に示すように、情報処理装置１０は、取得部１１、変換部１２、生成部１３、推定部１４、学習部１５及び制御部１６を含む。ＣＰＵ２１が情報処理プログラム２７を実行することにより、ＣＰＵ２１が取得部１１、変換部１２、生成部１３、推定部１４、学習部１５及び制御部１６の各機能部として機能する。

【0047】

取得部１１は、内視鏡装置３から、気管支内の所定の視点位置に配置した内視鏡スコープ３１によって撮影された実画像Ｔ０を取得する。なお、取得部１１は、後述の各種処理における処理量を削減するために、実画像Ｔ０に対してデータ圧縮処理を施してもよい。例えば、取得部１１は、実画像Ｔ０に対して、輝度値ベースの白黒化を施してもよい。以下の説明において単に「実画像Ｔ０」という場合、データ圧縮処理が施されたものを含む。

【0048】

また、取得部１１は、３次元画像撮影装置４によって撮影された被検体の３次元画像Ｖ０を取得する。上述したように、３次元画像Ｖ０は、例えば、気管支を含む胸部をＣＴ撮影して得られるものであり、複数の断層画像Ｔ１～Ｔｍ（ｍは２以上）からなる（図６参照）。なお、取得部１１は、３次元画像Ｖ０及び実画像Ｔ０が既に記憶部２２及び画像保管サーバ５等に記憶されている場合には、３次元画像Ｖ０及び実画像Ｔ０を当該記憶部２２及び画像保管サーバ５等から取得するようにしてもよい。

【0049】

また、取得部１１は、３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点Ｐ１０から見た管状構造物の内壁を擬似的に表す仮想画像Ｋ０を取得してもよい。以下、３次元画像Ｖ０に基づく仮想画像Ｋ０の取得方法について具体的に説明する。

【0050】

（サーフェスレンダリングを用いた方法）
まず、３次元画像Ｖ０に基づく仮想画像Ｋ０の取得方法の一例として、サーフェスレンダリングを用いた方法について説明する。図６に点線で図示するように、取得部１１は、取得した３次元画像Ｖ０から気管支の構造を抽出することにより、３次元の気管支画像Ｂ０を生成する。図４に、３次元の気管支画像Ｂ０の一例を示す。図５に、気管支画像Ｂ０に設定された内視鏡の経路４０を示す。３次元の気管支画像Ｂ０の生成手法としては、例えば特開２０１０－２２０７４２号公報等に記載された手法を適宜適用できる。経路４０の情報は、例えば、ユーザが操作部２５を用いて入力するものであってもよいし、撮影オーダ等において予め定められたものであってもよい。

【0051】

次に、取得部１１は、経路４０に沿った予め定められた間隔の各位置を視点に設定する。これらの視点が、本開示の「３次元画像において予め定められた仮想視点」の一例である。

【0052】

また、取得部１１は、設定した各視点から内視鏡先端３Ｂの挿入方向（すなわち気管支の末端に向かう方向）に放射線状に伸ばした複数の視線上の３次元画像Ｖ０を、予め定められた投影面に投影する中心投影を行うことにより、投影画像を生成する。この投影画像が、内視鏡先端３Ｂの位置において撮影を行ったものとして仮想的に生成された仮想画像Ｋ０となる。取得部１１は、設定した視点ごとに、このような仮想画像Ｋ０を生成する。

【0053】

なお、取得部１１は、少なくとも経路４０に沿った仮想画像Ｋ０を生成すればよく、経路４０に沿っていない仮想画像Ｋ０を生成することももちろんできる。例えば、取得部１１は、気管支の略全体の領域における各位置を視点として設定して、各位置における仮想画像Ｋ０を生成してもよい。そして、取得部１１は、気管支の略全体の領域において生成した仮想画像Ｋ０のうち、経路４０に沿った一部を選択してもよい。

【0054】

（ボリュームレンダリングを用いた方法）
上記ではサーフェスレンダリングを用いた方法について説明したが、これに代えて例えば公知のボリュームレンダリング手法等を用いて仮想画像Ｋ０を生成してもよい。ボリュームレンダリングを用いた手法では、３次元画像Ｖ０から特定される画素値及びＣＴ値等に基づいて、３次元画像Ｖ０内に設定した任意の仮想視点から見た仮想画像Ｋ０を生成できる。この場合、サーフェスレンダリングを用いた方法と異なり、図６に実線で図示するように、気管支画像Ｂ０の生成は不要であり、３次元画像Ｖ０から直接的に仮想画像Ｋ０を生成できる。

【0055】

なお、何れの方法においても、仮想画像Ｋ０の画角（視線の範囲）及び視野の中心（投影方向の中心）は、ユーザによる入力等によって予め設定されているものとする。また、取得部１１によって生成された各視点における複数の仮想画像Ｋ０は、例えば記憶部２２及び画像保管サーバ５等に保存される。なお、本実施形態において、３次元画像はＣＴ画像であるため、仮想画像Ｋ０はＣＴ画像を形成するＣＴ値に基づき生成されるモノクロの画像であってもよい。また、仮想画像Ｋ０は、当該モノクロの画像を疑似的に着色したものであってもよい。以下、図９～図１５においては、ボリュームレンダリングを用いた方法によって３次元画像Ｖ０から直接的に仮想画像Ｋ０を生成する例を図示しているが、これに限らず、図６と同様に、サーフェスレンダリングを用いた方法によって気管支画像Ｂ０を生成してから仮想画像Ｋ０を生成してもよい。

【0056】

＜視点差推定処理＞
図６～図８を参照して、本実施形態に係る視点差推定処理について説明する。「視点差」とは、３次元画像Ｖ０において任意に設定した仮想視点Ｐ１０と、実画像Ｔ０の視点Ｐ１１（すなわち内視鏡先端３Ｂの実際の位置）と、の位置ずれ量である。図７に、説明のため、気管支画像Ｂ０上に仮想視点Ｐ１０と実画像Ｔ０の視点Ｐ１１との視点差ΔＬを図示する。なお、図６に示す視点差推定処理は一例であり、後述の各種実施例のように変形が可能である。

【0057】

図６に示すように、変換部１２は、変換モデルＭ１を用いて、取得部１１によって取得された実画像Ｔ０を仮想画像風の実－仮想変換画像ＴＫ０に変換する。変換モデルＭ１は、実画像を入力とし、入力された実画像を仮想画像風に変換して出力するよう予め学習された機械学習モデルである。具体的には、変換部１２は、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０を得る。

【0058】

この変換処理は、実画像Ｔ０に含まれ、仮想画像Ｋ０には含まれないようなノイズを除去するために行われる。このようなノイズとしては、例えば、内視鏡先端３Ｂのレンズに体液等が付着し、レンズが曇ることで生じるもの、断層撮影によっては捉えることができない物体が実画像Ｔ０に写ったもの、並びに管状構造物の内壁に生じる光沢及び血管等の精細なテクスチャ等が挙げられる。「仮想画像風」とは、これらの実画像に特有のノイズが除去された表現形式のことであり、所謂ＣＧ（Computer Graphics）風の表現形式である。実－仮想変換画像ＴＫ０では、実画像Ｔ０に含まれるノイズは除去されつつも、実画像Ｔ０における管状構造物の構造には変化が無いことが望まれる。

【0059】

生成部１３は、深度画像生成モデルＭ２を用いて、実画像Ｔ０の視点Ｐ１１から管状構造物の内壁までの画素ごとの距離を表す第１深度画像Ｄ１を生成する。同様に、生成部１３は、深度画像生成モデルＭ２を用いて、仮想視点Ｐ１０から管状構造物の内壁までの画素ごとの距離を表す第２深度画像Ｄ２を生成する。深度画像生成モデルＭ２は、管状構造物の内壁を表す画像を入力とし、入力された画像の視点から管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された機械学習モデルである。

【0060】

「深度画像」とは、その画素値が視点位置からの距離を表すものである。例えば、視点位置からの距離が大きいほど画素値を低くする場合、視点位置からの距離が大きいほど画像は暗くなる。深度画像の画素値と距離との相関関係を予め設定しておくことにより、深度画像の画素値に基づいて視点位置からの距離を算出できる。なお、深度画像の画素値が表す「視点位置からの距離」は、具体的には視点位置からの距離そのものに限定されず、視点位置からの距離に対応する各種の値によって表されてもよい。例えば、視点を原点とした視点座標系を設定し、ＸＹ平面に深度画像の投影面を設定し、投影面（ＸＹ平面）に垂直な方向をＺ方向とする。この場合に、「視点位置からの距離」を、視点（原点）からＺ軸方向の距離（すなわちＺ軸方向の座標）として簡略化して表してもよい。また例えば、「視点位置からの距離」を、深度画像の投影面からの距離として表してもよい。

【0061】

また、深度画像の画素値と距離との相関関係は、視点位置からの距離が大きいほど画素値を低くするという比例関係に限らず、例えば反比例及び対数比例等の関係で定められていてもよい。また例えば、一般的に画素値は８ビットの２５６階調で０から２５５の整数により表されることが多いが、これに限らず、深度画像の画素値は、例えば負の数及び小数等の任意の値により表されてもよい。後述する各学習用深度画像についても同様である。

【0062】

具体的には、生成部１３は、変換部１２によって実画像Ｔ０から変換された実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２に入力することによって、実画像Ｔ０の視点Ｐ１１における第１深度画像Ｄ１を得る。すなわち、本実施形態における第１深度画像Ｄ１は、実画像Ｔ０を仮想画像風に変換した実－仮想変換画像ＴＫ０の画素値に基づいて生成される画像であるといえる。

【0063】

また、生成部１３は、取得部１１によって取得された３次元画像Ｖ０から生成された、仮想視点Ｐ１０における仮想画像Ｋ０を深度画像生成モデルＭ２に入力することによって、仮想視点Ｐ１０における第２深度画像Ｄ２を得る。すなわち、本実施形態における第２深度画像Ｄ２は、仮想画像Ｋ０の画素値に基づいて生成される画像であるといえる。

【0064】

推定部１４は、実画像Ｔ０の視点Ｐ１１における実画像Ｔ０及び第１深度画像Ｄ１の少なくとも一方と、仮想視点Ｐ１０における仮想画像Ｋ０及び第２深度画像Ｄ２の少なくとも一方と、を利用して、実画像Ｔ０の視点Ｐ１１と仮想視点Ｐ１０との視点差ΔＬを推定する。なお、視点差ΔＬの推定においては、第１深度画像Ｄ１及び第２深度画像Ｄ２の少なくとも一方が利用される。

【0065】

上述したように、深度画像の画素値に基づいて、視点位置から管状構造物の内壁までの画素ごとの距離を算出できる。したがって、第１深度画像Ｄ１及び第２深度画像Ｄ２の少なくとも一方を利用することによって、２次元画像である実画像Ｔ０及び／又は仮想画像Ｋ０のみを用いて視点差ΔＬを推定する場合と比較して、３次元構造である管状構造物における視点差ΔＬを精度良く推定できるようになる。

【0066】

具体的には、推定部１４は、視点差推定モデルＭ３を用いて、実画像Ｔ０の視点Ｐ１１と仮想視点Ｐ１０との視点差ΔＬを推定する。視点差推定モデルＭ３は、例えば、少なくとも第１深度画像及び第２深度画像の少なくとも一方を入力とし、入力された第１深度画像及び第２深度画像の少なくとも一方を用いて、視点差を出力とするよう予め学習された機械学習モデルである。図６の例では、視点差推定モデルＭ３は、第１深度画像Ｄ１及び第２深度画像Ｄ２に加えて、実－仮想変換画像ＴＫ０及び仮想画像Ｋ０も入力としている。入力する画像の種類を増やすほど、視点差推定モデルＭ３の精度は向上すると考えられるためである。

【0067】

図６の例では、推定部１４は、第１深度画像Ｄ１、第２深度画像Ｄ２、実－仮想変換画像ＴＫ０及び仮想画像Ｋ０を視点差推定モデルＭ３に入力することによって、実画像Ｔ０の視点Ｐ１１と仮想視点Ｐ１０との視点差ΔＬを推定する。このように、視点差推定処理においては、実画像Ｔ０を直接的に用いるのではなく、間接的に実－仮想変換画像ＴＫ０を実画像Ｔ０として用いることによって、視点差ΔＬを推定してもよい。

【0068】

また、推定部１４は、推定した視点差ΔＬが小さくなるように、仮想視点Ｐ１０の位置を修正してもよい。例えば、図７に示すように、実画像Ｔ０の視点Ｐ１１（すなわち内視鏡先端３Ｂの実際の位置）に対して、仮想視点Ｐ１０がΔＬだけ気管支の入口側に後退している場合、推定部１４は、仮想視点Ｐ１０をΔＬだけ前進させた位置に設定する。このようにして、仮想視点Ｐ１０と、実画像Ｔ０の視点Ｐ１１と、を略一致させることによって、管状構造物内における内視鏡先端３Ｂの推定位置Ｐｔを推定できる。

【0069】

なお、視点差ΔＬは、位置ずれ量に加えて、姿勢差を含んでいてもよい。例えば、視点差ΔＬは、変位ベクトル、角度と距離の組合せ、オイラー角及び回転ベクトル等で表されてもよい。また例えば、視点差ΔＬは、仮想視点Ｐ１０と実画像Ｔ０の視点Ｐ１１の相対姿勢で表されてもよい。

【0070】

図８に、制御部１６によってディスプレイ２４に表示される画面５０の一例を示す。図８に示すように、制御部１６は、気管支画像Ｂ０に、推定部１４によって推定された内視鏡先端３Ｂの推定位置Ｐｔ、及び内視鏡先端３Ｂの移動軌跡５１を重畳表示してもよい。また、図８に示すように、制御部１６は、推定位置Ｐｔにおける実画像Ｔ０に基づく第１の深度画像Ｄ１と、推定位置Ｐｔにおける仮想画像Ｋ０に基づく第２の深度画像Ｄ２と、を表示させる制御を行ってもよい。また、制御部１６は、推定位置Ｐｔにおける実画像Ｔ０及び仮想画像Ｋ０をディスプレイ２４に表示させる制御を行ってもよい（不図示）。

【0071】

以上のようにして、視点差推定処理が行われる。なお、上述したように、実画像Ｔ０は動画像の１フレームを構成する。したがって、視点差推定処理は、動画像において順次取得される実画像Ｔ０のそれぞれについて、繰り返し行われる。

【0072】

＜変換モデルＭ１の学習＞
次に、視点差推定処理において用いられる変換モデルＭ１の学習方法について、複数の方法を挙げて説明する。学習部１５は、以下の少なくとも１つの方法を用いて、変換モデルＭ１の学習を行う。

【0073】

（第１学習方法：ＧＡＮを用いた学習）
図９に、一例として、敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Network）によって得られる変換モデルＭ１の学習方法の概略図を示す。ＧＡＮとは、生成器及び識別器を含み、生成器が正解データにできるだけ近い偽物データを生成しようとし、識別器がその偽物データを正しく識別しようとすることによって、互いに学習を進める教師なし学習の一手法である。

【0074】

図９のＧＡＮは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像ＬＴ０と、３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像ＬＫ０と、を含む学習データを用いて学習される。なお、学習用仮想画像ＬＫ０の生成元となる３次元画像Ｖ０は、学習用実画像ＬＴ０の被検体と同一の被検体を撮影して得られるものであってもよいし、学習用実画像ＬＴ０の被検体とは異なる被検体を撮影して得られるものであってもよい。すなわち、学習用実画像ＬＴ０と学習用仮想画像ＬＫ０は、互いに独立した非ペアデータであってもよい。

【0075】

変換モデルＭ１は、ＧＡＮにおける生成器に相当し、入力された学習用実画像を、正解データである学習用仮想画像に近い表現形式に変換して出力するニューラルネットワーク等の機械学習モデルである。識別器Ｍ１Ｄは、入力された画像が、正解（真）のデータである学習用仮想画像か、又は、偽のデータである学習用実－仮想変換画像か、を識別するニューラルネットワーク等の機械学習モデルである。

【0076】

学習部１５は、学習用実画像ＬＴ０を変換モデルＭ１（生成器）に入力することによって、正解データである学習用仮想画像ＬＫ０に近い表現形式の学習用実－仮想変換画像ＬＴＫ０を生成する。また、学習部１５は、変換モデルＭ１により生成された学習用実－仮想変換画像ＬＴＫ０と、正解データである学習用仮想画像ＬＫ０とのうち何れかを識別器Ｍ１Ｄに入力し、その識別結果を得る。そして、学習部１５は、識別器Ｍ１Ｄによる識別結果と、その識別結果が正解か否かの情報とを変換モデルＭ１（生成器）にフィードバックする。このようにして、変換モデルＭ１と識別器Ｍ１Ｄとの学習を相互に進める。

【0077】

（第２学習方法：ＣｙｃｌｅＧＡＮを用いた学習）
図１０に、他の一例として、ＣｙｃｌｅＧＡＮによって得られる変換モデルＭ１の学習方法の概略図を示す。ＣｙｃｌｅＧＡＮとは、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を学習することによって、変換元と変換目標のペアデータを用いずとも、精度の良い変換を可能にする方法である。

【0078】

ＧＡＮを用いた第１学習方法によっても非ペアデータによる学習は可能であるが、ＧＡＮにおける制約は、仮想画像風になるようにという表現形式に関するものだけである。したがって、変換モデルＭ１による変換前後で、表現形式は適切に変換されても、画像内の気管支の構造が不適切に変換されてしまうといった不具合が生じる可能性がある。

【0079】

ＣｙｃｌｅＧＡＮを用いた第２学習方法においては、逆変換して得られたデータが元に戻るように制約が与えられる。したがって、表現形式に加えて、気管支の構造までもが類似する擬似的なペアデータを探索しながら変換モデルＭ１を学習できる。これにより、画像内の気管支の構造が変化しづらい変換モデルＭ１を生成でき、変換の精度を向上させることができる。

【0080】

図１０のＣｙｃｌｅＧＡＮは、図９のＧＡＮに加えて、仮想画像風の学習用実－仮想変換画像を、実画像風の学習用実－仮想－実変換画像に逆変換する逆変換モデルＭ１Ｒを含む。逆変換モデルＭ１Ｒは、ＣｙｃｌｅＧＡＮにおける逆方向の生成器に対応するニューラルネットワーク等の機械学習モデルである。

【0081】

学習部１５は、変換モデルＭ１から出力される学習用実－仮想変換画像ＬＴＫ０を逆変換モデルＭ１Ｒに入力することによって、元の入力データである学習用実画像ＬＴ０に近い構造及び表現形式の学習用実－仮想－実変換画像ＬＴＫＴ０を生成する。また、学習部１５は、元の入力データである学習用実画像ＬＴ０と、学習用実－仮想－実変換画像ＬＴＫＴ０と、の類似度を含む損失関数Ｌｏｓｓ１を用いて、変換モデルＭ１を学習させる。学習用実画像ＬＴ０と学習用実－仮想－実変換画像ＬＴＫＴ０との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。

【0082】

（第３学習方法：深度画像を用いた学習）
図１１に、他の一例として、深度画像を用いた変換モデルＭ１の学習方法の概略図を示す。上述したように、ＧＡＮを用いた第１学習方法では、表現形式が仮想画像風になるように制約を与えるだけなので、変換モデルＭ１による変換前後で気管支の構造が変わってしまう等の不適切な変換が行われる可能性がある。そこで、第３学習方法においては、第１学習方法のＧＡＮをベースに、変換モデルＭ１による変換前後の画像の深度画像間の類似度を含む損失関数Ｌｏｓｓ２を用いて変換モデルＭ１を学習させることによって、変換の精度を向上させる。

【0083】

具体的には、まず、学習部１５は、学習用実画像及び学習用仮想画像の何れか一方を含む入力画像を取得する。ここでの「入力画像」とは、後段の変換モデルへ入力される画像のことを意味する。また、学習部１５は、入力された学習用実画像及び学習用仮想画像の何れか一方を他方の画像風に変換するよう学習される変換モデルを用いて、入力画像を、当該入力画像に含まれない画像風の変換画像に変換する。

【0084】

図１１の例では、学習部１５は、学習用実画像ＬＴ０を含む入力画像を取得する。また、学習部１５は、学習用実画像を入力とし、入力された学習用実画像を仮想画像風の学習用実－仮想変換画像に変換して出力するよう学習される変換モデルＭ１を用いて、学習用実画像ＬＴ０を、仮想画像風の学習用実－仮想変換画像ＬＴＫ０に変換する。

【0085】

また、学習部１５は、入力画像（学習用実画像ＬＴ０）の視点から管状構造物の内壁までの画素ごとの距離を表す入力深度画像Ｄｔを取得する。具体的には、学習部１５は、深度画像生成モデルＭ２に入力画像（学習用実画像ＬＴ０）を入力することによって、入力深度画像Ｄｔを生成する。

【0086】

同様に、学習部１５は、変換画像（学習用実－仮想変換画像ＬＴＫ０）の視点から管状構造物の内壁までの画素ごとの距離を表す変換深度画像Ｄｔｋを取得する。具体的には、学習部１５は、深度画像生成モデルＭ２に変換画像（学習用実－仮想変換画像ＬＴＫ０）を入力することによって、変換深度画像Ｄｔｋを生成する。

【0087】

学習部１５は、変換モデルＭ１を、入力深度画像Ｄｔと変換深度画像Ｄｔｋとの類似度を含む損失関数Ｌｏｓｓ２を用いて学習させる。すなわち、学習部１５は、変換深度画像Ｄｔｋが、入力深度画像Ｄｔに近づくように、変換モデルＭ１を学習させる。入力深度画像Ｄｔと変換深度画像Ｄｔｋとの類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の深度（画素値）を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。

【0088】

以上のように、深度画像間の類似度を含む損失関数Ｌｏｓｓ２を用いた変換モデルＭ１の学習方法によれば、変換前後の深度画像が近づくように制約を与えることによって、擬似的なペアデータを探索しながら変換モデルＭ１を学習できる。したがって、画像内の気管支の構造が変化しづらい変換モデルＭ１を生成でき、変換の精度を向上させることができる。

【0089】

なお、深度画像生成モデルＭ２は、学習データの用意の容易性の観点から、３次元画像に基づいて生成される仮想画像ベースで学習することが望まれる（詳細は後述）。発明者らは、このような仮想画像ベースで学習された深度画像生成モデルＭ２に対して実画像を入力することによっても、良好な深度画像を得られることを発見した。そこで本方法では、仮想画像ベースで学習された深度画像生成モデルＭ２を転用して、学習用実画像ＬＴ０の入力深度画像Ｄｔを得ている。このような形態によれば、実画像用に学習された深度画像生成モデルを作成する手間を省くことができる。

【0090】

（第４学習方法：教師あり学習）
第１～第３学習方法では、学習データとして非ペアデータを用いる教師なし学習の方法について説明した。一方で、電磁センサ等により内視鏡先端３Ｂの管状構造物内の実際の位置を特定し、視点を揃えた実画像と仮想画像とのペアデータを用いることによって、教師あり学習を適用することもできる。この場合、学習部１５は、同一の視点であることが特定されている学習用実画像と学習用仮想画像との組合せを含む学習データを用いて、変換モデルＭ１について教師あり学習を行う。

【0091】

なお、通常、このようなペアデータを大量に用意することは困難である。そこで、学習部１５は、第１～第４学習方法を適宜組み合わせて変換モデルＭ１の学習を行ってもよい。

【0092】

＜逆変換モデルＭ１Ｒの学習＞
これまで、実画像を仮想画像風の実－仮想変換画像に変換する形態について説明したが、本開示の技術は、仮想画像を実画像風の仮想－実変換画像に変換する形態にも適用できる。すなわち、変換モデルＭ１の学習に係る第１～第４学習方法を転用して、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう学習される逆変換モデルＭ１Ｒを生成することも可能である。

【0093】

この逆変換モデルＭ１Ｒは、変換モデルＭ１の学習に係る第１～第４学習方法における、学習用実画像ＬＴ０と、学習用仮想画像ＬＫ０と、を入れ替えることによって生成できる。すなわち、学習フェーズにおける逆変換モデルＭ１Ｒへの入力画像は、学習用仮想画像ＬＫ０を含むものとなる。

【0094】

＜深度画像生成モデルＭ２の学習＞
次に、視点差推定処理において用いられる深度画像生成モデルＭ２の学習方法について、複数の方法を挙げて説明する。学習部１５は、以下の少なくとも１つの方法を用いて、深度画像生成モデルＭ２の学習を行う。以下、各学習方法によって得られる深度画像生成モデルＭ２は、入力が異なる種類のデータとなるため、深度画像生成モデルＭ２Ａ～Ｍ２Ｃと符号を分けて記載する。

【0095】

（第１学習方法：仮想画像と深度画像を用いた学習）
図１２に、一例として、教師あり学習によって得られる深度画像生成モデルＭ２Ａの学習方法の概略図を示す。図１２に示すように、深度画像生成モデルＭ２Ａは、学習用仮想画像ＬＫ０と、学習用深度画像ＬＤ０と、の組合せ（ペアデータ）を含む学習データを用いて学習される。

【0096】

ここで、学習用仮想画像ＬＫ０は、被検体の３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点Ｐ４から見た管状構造物の内壁を擬似的に表す画像である。学習用深度画像ＬＤ０は、３次元画像Ｖ０における仮想視点Ｐ４から管状構造物の内壁までの距離情報に基づいて生成される、仮想視点Ｐ４から管状構造物の内壁までの画素ごとの距離を表す画像であり、正解データとなる。仮想視点Ｐ４が、本開示の第４視点の一例である。

【0097】

距離情報は、例えば、３次元画像Ｖ０における仮想視点Ｐ４から不透明度（Ｏｐａｃｉｔｙ）が予め定められた値以上となる点までの距離を示す。３次元画像Ｖ０において、不透明度（Ｏｐａｃｉｔｙ）が予め定められた値以上となれば、その部分は管状構造物の内壁に相当すると考えられる。また例えば、距離情報は、３次元画像Ｖ０に基づいて気管支画像Ｂ０を生成してから学習用仮想画像ＬＫ０を生成する場合（サーフェスレンダリングによって学習用仮想画像ＬＫ０を生成する場合）、仮想視点Ｐ４から気管支画像Ｂ０のサーフェスまでの距離を示すものであってもよい。

【0098】

深度画像生成モデルＭ２Ａは、入力された学習用仮想画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部１５は、学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、正解データである学習用深度画像ＬＤ０に近い表現形式の深度画像Ｄｋ０を生成する。

【0099】

また、学習部１５は、深度画像生成モデルＭ２Ａにより生成された深度画像Ｄｋ０と、正解データである学習用深度画像ＬＤ０と、の類似度を含む損失関数Ｌｏｓｓ３を用いて、深度画像生成モデルＭ２Ａを学習させる。深度画像Ｄｋ０と学習用深度画像ＬＤ０との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。

【0100】

このように、第１学習方法によって得られる深度画像生成モデルＭ２Ａは、学習用のペアデータ（学習用仮想画像ＬＫ０及び学習用深度画像ＬＤ０）を、３次元画像Ｖ０に基づく仮想画像ベースで用意できる。したがって、他の方法と比較して学習用データの用意が容易である。

【0101】

（第２学習方法：仮想－実変換画像と深度画像を用いた学習）
図１３に、他の一例として、教師あり学習によって得られる深度画像生成モデルＭ２Ｂの学習方法の概略図を示す。図１３に示すように、深度画像生成モデルＭ２Ｂは、学習用仮想画像ＬＫ０を逆変換モデルＭ１Ｒを用いて実画像風に変換した学習用仮想－実変換画像ＬＫＴ０と、学習用深度画像ＬＤ０と、の組合せ（ペアデータ）を含む学習データを用いて学習される。

【0102】

ここで、学習用仮想画像ＬＫ０は、被検体の３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点Ｐ５から見た管状構造物の内壁を擬似的に表す画像である。逆変換モデルＭ１Ｒは、上述したように、仮想画像を入力とし、入力された仮想画像を実画像風に変換して出力するよう予め学習された機械学習モデルである。学習用深度画像ＬＤ０は、３次元画像Ｖ０における仮想視点Ｐ５から管状構造物の内壁までの距離情報に基づいて生成される、仮想視点Ｐ５から管状構造物の内壁までの画素ごとの距離を表す画像であり、正解データとなる。仮想視点Ｐ５が、本開示の第５視点の一例である。距離情報については第１学習方法と同様であるので、説明を省略する。

【0103】

深度画像生成モデルＭ２Ｂは、入力された学習用仮想－実変換画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部１５は、学習用仮想－実変換画像ＬＫＴ０を深度画像生成モデルＭ２Ｂに入力することによって、正解データである学習用深度画像ＬＤ０に近い表現形式の深度画像Ｄｋｔ０を生成する。

【0104】

また、学習部１５は、深度画像生成モデルＭ２Ｂにより生成された深度画像Ｄｋｔ０と、正解データである学習用深度画像ＬＤ０と、の類似度を含む損失関数Ｌｏｓｓ４を用いて、深度画像生成モデルＭ２Ｂを学習させる。深度画像Ｄｋｔ０と学習用深度画像ＬＤ０との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。

【0105】

このようにして得られる深度画像生成モデルＭ２Ｂは、第１学習方法と比較して、学習用仮想画像ＬＫ０を学習用仮想－実変換画像ＬＫＴ０に変換するという手間が生じる。一方で、運用フェーズにおいては、深度画像生成モデルＭ２Ｂへの入力として実画像Ｔ０を用いても、精度を保つことができる。

【0106】

（第３学習方法：実画像と深度画像を用いた学習）
図１４に、他の一例として、教師あり学習によって得られる深度画像生成モデルＭ２Ｃの学習方法の概略図を示す。図１４に示すように、深度画像生成モデルＭ２Ｃは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像ＬＴ０と、学習用実画像ＬＴ０が撮影された視点に対応する視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像ＬＤ０と、の組合せ（ペアデータ）を含む学習データを用いて学習される。

【0107】

ここで、学習用深度画像ＬＤ０は、被検体の３次元画像Ｖ０における学習用実画像ＬＴ０が撮影された視点に対応する視点から管状構造物の内壁までの距離情報に基づいて生成され、正解データとなる。３次元画像Ｖ０における学習用実画像ＬＴ０が撮影された視点に対応する視点、すなわち、管状構造物内の内視鏡先端３Ｂの実際の位置は、例えば、学習用実画像ＬＴ０を撮影する内視鏡先端３Ｂに設けられた電磁センサ等により特定できる。距離情報については第１学習方法と同様であるので、説明を省略する。

【0108】

深度画像生成モデルＭ２Ｃは、入力された学習用実画像を、深度画像に変換して出力するニューラルネットワーク等の機械学習モデルである。学習部１５は、学習用実画像ＬＴ０を深度画像生成モデルＭ２Ｃに入力することによって、正解データである学習用深度画像ＬＤ０に近い表現形式の深度画像Ｄｔ０を生成する。

【0109】

また、学習部１５は、深度画像生成モデルＭ２Ｃにより生成された深度画像Ｄｔ０と、正解データである学習用深度画像ＬＤ０と、の類似度を含む損失関数Ｌｏｓｓ５を用いて、深度画像生成モデルＭ２Ｃを学習させる。深度画像Ｄｔ０と学習用深度画像ＬＤ０との類似度は、例えば、各画像のピクセルごとの二乗誤差、各画像の画素値を正規化した後の二乗誤差、及びコサイン類似度等によって表される。また例えば、画素値そのもの間の類似度に限らず、画素値の逆数及び画素値の対数等間の類似度で表されてもよい。

【0110】

このようにして得られる深度画像生成モデルＭ２Ｃは、学習データとして、３次元画像Ｖ０における学習用実画像ＬＴ０が撮影された視点に対応する視点、すなわち、管状構造物内の内視鏡先端３Ｂの実際の位置を特定する必要があるため、学習データの用意が困難である。一方で、運用フェーズにおいては、深度画像生成モデルＭ２Ｃへの入力として実画像Ｔ０を用いても、より高い精度を保つことができる。

【0111】

（変形例）
第１～第３学習方法においては、学習用深度画像ＬＤ０を、３次元画像Ｖ０に基づいて導出される距離情報に基づいて生成されるものとして説明したが、これに限らない。学習用深度画像ＬＤ０は、例えば、内視鏡先端３Ｂ等に搭載された測距センサによって得られる、学習用実画像ＬＴ０が撮影された視点から管状構造物の内壁までの距離の実測値に基づいて生成されるものとしてもよい。測距センサとしては、例えば、ＴｏＦ（Time Of Flight）カメラ等の各種深度センサを用いることができる。

【0112】

測距センサによって得られる実測値に基づく学習用深度画像ＬＤ０は、そのデータの用意が困難ではあるが、より正確なものとなる。したがって、各深度画像生成モデルＭ２Ａ～Ｍ２Ｃの精度を向上させることができる。

【0113】

＜視点差推定モデルＭ３の学習＞
次に、図１５を参照して、図６の視点差推定処理において用いられる視点差推定モデルＭ３の学習方法について説明する。視点差推定モデルＭ３は、実画像Ｔ０及び実画像Ｔ０に基づく第１深度画像Ｄ１の少なくとも一方と、仮想画像Ｋ０及び仮想画像Ｋ０に基づく第２深度画像Ｄ２の少なくとも一方と、を利用して、仮想画像Ｋ０と実画像Ｔ０との視点差ΔＬを推定するニューラルネットワーク等の機械学習モデルである。この学習モデルに対する学習データとしては、例えば、仮想画像Ｋ０、実画像Ｔ０及びそれらの視点差ΔＬの正解データを用意することが考えられるが、視点差ΔＬが既知の仮想画像Ｋ０と実画像Ｔ０との組合せを用意することは困難である。

【0114】

そこで、本実施形態に係る視点差推定モデルＭ３は、３次元画像Ｖ０において予め定められた仮想視点Ｐ１から見た第１学習用仮想画像、及び、仮想視点Ｐ１から管状構造物の内壁までの画素ごとの距離を表す第１学習用深度画像の少なくとも一方と、３次元画像Ｖ０において予め定められた仮想視点Ｐ１とは異なる仮想視点Ｐ２から見た第２学習用仮想画像、及び、仮想視点Ｐ２から管状構造物の内壁までの画素ごとの距離を表す第２学習用深度画像の少なくとも一方と、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、の組合せを含む学習データを用いた教師あり学習によって学習される。ここで、第１学習用仮想画像及び第２学習用仮想画像は、それぞれ被検体の３次元画像Ｖ０に基づいて生成される。仮想視点Ｐ１が、本開示の第１視点の一例である。仮想視点Ｐ２が、本開示の第２視点の一例である。

【0115】

例えば、図１５の例における視点差推定モデルＭ３は、仮想視点Ｐ１から見た管状構造物の内壁を擬似的に表す学習用仮想画像ＬＫＰと、仮想視点Ｐ２から見た管状構造物の内壁を擬似的に表す学習用仮想画像ＬＫＱと、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、の組合せを含む学習データを用いた教師あり学習によって学習される。この場合、３次元画像Ｖ０における仮想視点Ｐ１及びＰ２は既知となるので、仮想視点Ｐ１及びＰ２の視点差ΔＬ０も、被検体の３次元画像Ｖ０に基づいて生成できる。

【0116】

具体的には、学習部１５は、まず、被検体の３次元画像Ｖ０に基づいて生成される学習用仮想画像ＬＫＰを、深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。すなわち、深度画像ＤＰは、仮想視点Ｐ１から管状構造物の内壁までの画素ごとの距離を表す画像である。同様に、学習部１５は、被検体の３次元画像Ｖ０に基づいて生成される学習用仮想画像ＬＫＱを、深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。すなわち、深度画像ＤＱは、仮想視点Ｐ２から管状構造物の内壁までの画素ごとの距離を表す画像である。

【0117】

その後、学習部１５は、学習用仮想画像ＬＫＰ及びＬＫＱと、深度画像ＤＰ及びＤＱと、を視点差推定モデルＭ３に入力することによって、推定視点差ΔＬを得る。また、学習部１５は、視点差推定モデルＭ３により推定された推定視点差ΔＬと、正解データである仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、の類似度を含む損失関数Ｌｏｓｓ６を用いて、視点差推定モデルＭ３を学習させる。

【0118】

＜実施例＞
以上、視点差推定処理の一例について説明したが、本開示の技術はこれに限らず、以下に示す各種実施例も含むものである。以下の実施例は、何れも実画像Ｔ０の視点Ｐ１１と仮想視点Ｐ１０との視点差ΔＬを推定する視点差推定処理を行う点は共通している。一方で、視点差推定処理で用いられる変換モデルＭ１、逆変換モデルＭ１Ｒ、深度画像生成モデルＭ２Ａ～Ｍ２Ｃ、並びに視点差推定モデルＭ３の組合せ及び内容は異なっている。以下、図１６～図３６を参照して各種実施例について説明する。図１６～図３６において、破線より上側は運用フェーズにおける処理を表し、破線より下側は学習フェーズにおける処理を表す。

【0119】

まず、実施例１－１～１－４について説明する。これらの実施例では、学習フェーズにおいて、２つの学習用仮想画像ＬＫＰ及びＬＫＱを用いて学習し、運用フェーズにおいて、２つの深度画像Ｄ１及びＤ２に基づいて視点差ΔＬを推定する。この場合、正解データが正確であり、かつ用意しやすい利点がある。実施例１－１～１－４における、学習用仮想画像ＬＫＰが本開示の第１学習用仮想画像の一例であり、学習用仮想画像ＬＫＱが本開示の第２学習用仮想画像の一例である。また、深度画像ＤＰが本開示の第１学習用深度画像の一例であり、深度画像ＤＱが本開示の第２学習用深度画像の一例である。

【0120】

（実施例１－１）
図１６に、実施例１－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。また、学習部１５が、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰ及びＤＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0121】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0122】

（実施例１－２）
図１７に、実施例１－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを逆変換モデルＭ１Ｒに入力することによって、学習用仮想－実変換画像ＬＫＴＰを生成する。また、学習部１５が、学習用仮想－実変換画像ＬＫＴＰを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。また、学習部１５が、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰ及びＤＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0123】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0124】

（実施例１－３）
図１８に、実施例１－３に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。また、学習部１５が、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰ及びＤＱと、学習用仮想画像ＬＫＰ及びＬＫＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0125】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、実－仮想変換画像ＴＫ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0126】

（実施例１－４）
図１９に、実施例１－４に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。また、学習部１５が、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰ及びＤＱと、学習用仮想画像ＬＫＰ及びＬＫＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0127】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、実画像Ｔ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0128】

次に、実施例２－１～２－５について説明する。これらの実施例では、学習フェーズにおいて、２つの学習用仮想画像ＬＫＰ及びＬＫＱを用いて学習し、運用フェーズにおいて、１つの深度画像Ｄ１又はＤ２に基づいて視点差ΔＬを推定する。この場合、正解データが正確であり、かつ用意しやすい利点がある。実施例２－１～２－５における、学習用仮想画像ＬＫＰが本開示の第１学習用仮想画像の一例であり、学習用仮想画像ＬＫＱが本開示の第２学習用仮想画像の一例である。また、深度画像ＤＰが本開示の第１学習用深度画像の一例であり、深度画像ＤＱが本開示の第２学習用深度画像の一例である。

【0129】

（実施例２－１）
図２０に、実施例２－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱと、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0130】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。推定部１４が、第１深度画像Ｄ１と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0131】

（実施例２－２）
図２１に、実施例２－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＱを生成する。また、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰと、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0132】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、実－仮想変換画像ＴＫ０と、第２深度画像Ｄ２と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0133】

（実施例２－３）
図２２に、実施例２－３に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを逆変換モデルＭ１Ｒに入力することによって、学習用仮想－実変換画像ＬＫＴＰを生成する。また、学習部１５が、学習用仮想－実変換画像ＬＫＴＰを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱと、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰと、学習用仮想画像ＬＫＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0134】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。すなわち、第１深度画像Ｄ１は、実画像Ｔ０の画素値に基づいて生成されるものであってもよい。推定部１４が、第１深度画像Ｄ１と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0135】

（実施例２－４）
図２３に、実施例２－４に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、学習用仮想画像ＬＫＰと、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱと、仮想視点Ｐ１と仮想視点Ｐ２との視点差ΔＬ０と、深度画像ＤＰと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0136】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。推定部１４が、第１深度画像Ｄ１と、実－仮想変換画像ＴＫ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0137】

（実施例２－５）
図２４に、実施例２－５に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ１から見た学習用仮想画像ＬＫＰを深度画像生成モデルＭ２Ａに入力することによって、深度画像ＤＰを生成する。また、学習部１５が、学習用仮想画像ＬＫＰと、仮想視点Ｐ２から見た学習用仮想画像ＬＫＱと、仮想視点Ｐ１と仮想視点Ｐ２とのの視点差ΔＬ０と、深度画像ＤＰと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0138】

本実施例における運用フェーズでは、変換部１２が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。推定部１４が、第１深度画像Ｄ１と、実画像Ｔ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0139】

次に、実施例３－１～３－３について説明する。これらの実施例では、学習フェーズにおいて、１つの学習用仮想画像ＬＫ０と１つの学習用実画像ＬＴ０を用いて学習し、運用フェーズにおいて、２つの深度画像Ｄ１及びＤ２に基づいて視点差ΔＬを推定する。運用フェーズにおける入力（実画像Ｔ０）と同様の学習用実画像ＬＴ０で学習を行うことによって、学習データの用意は困難だが、視点差推定の精度が向上する。実施例３－１～３－３における、深度画像Ｄｔ０が本開示の学習用深度画像の一例であり、深度画像Ｄｋ０が本開示の学習用仮想深度画像の一例である。

【0140】

（実施例３－１）
図２５に、実施例３－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔ０を生成する。また、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｋ０を生成する。また、学習部１５が、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｔ０及びＤｋ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0141】

【0142】

（実施例３－２）
図２６に、実施例３－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔ０を生成する。また、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｋ０を生成する。また、学習部１５が、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｔ０及びＤｋ０と、学習用実画像ＬＴ０と、学習用仮想画像ＬＫ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0143】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、実画像Ｔ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0144】

（実施例３－３）
図２７に、実施例３－３に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴ０を変換モデルＭ１に入力することによって、学習用実－仮想変換画像ＬＴＫ０に変換する。また、学習部１５が、学習用実－仮想変換画像ＬＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｔ０を生成する。また、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｋ０を生成する。また、学習部１５が、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｔ０及びＤｋ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0145】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を変換モデルＭ１に入力することによって、実－仮想変換画像ＴＫ０に変換する。また、生成部１３が、実－仮想変換画像ＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、第１深度画像Ｄ１を生成する。また、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、実画像Ｔ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0146】

次に、実施例４－１～４－４について説明する。これらの実施例では、学習フェーズにおいて、１つの学習用仮想画像ＬＫ０と１つの学習用実画像ＬＴ０を用いて学習し、運用フェーズにおいて、１つの深度画像Ｄ１又はＤ２に基づいて視点差ΔＬを推定する。運用フェーズにおける入力（実画像Ｔ０）と同様の学習用実画像ＬＴ０で学習を行うことによって、学習データの用意は困難だが、視点差推定の精度が向上する。実施例４－１～４－４における、深度画像Ｄｔ０が本開示の学習用深度画像の一例であり、深度画像Ｄｋ０が本開示の学習用仮想深度画像の一例である。

【0147】

（実施例４－１）
図２８に、実施例４－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｋ０を生成する。また、学習部１５が、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｋ０と、学習用実画像ＬＴ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0148】

本実施例における運用フェーズでは、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第２深度画像Ｄ２と、実画像Ｔ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0149】

（実施例４－２）
図２９に、実施例４－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔ０を生成する。また、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０と、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｔ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0150】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。推定部１４が、第１深度画像Ｄ１と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0151】

（実施例４－３）
図３０に、実施例４－３に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴ０を変換モデルＭ１に入力することによって、学習用実－仮想変換画像ＬＴＫ０に変換する。また、学習部１５が、学習用実－仮想変換画像ＬＴＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｔ０を生成する。また、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０と、学習用実画像ＬＴ０の視点と仮想視点Ｐ３との視点差ΔＬ０と、深度画像Ｄｔ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0152】

【0153】

（実施例４－４）
図３１に、実施例４－４に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、仮想視点Ｐ３から見た学習用仮想画像ＬＫ０を深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｋ０を生成する。また、学習部１５が、学習用実画像ＬＴ０の視点と仮想視点Ｐ３とのの視点差ΔＬ０と、深度画像Ｄｋ０と、学習用実画像ＬＴ０と、を学習データとして、視点差推定モデルＭ３を学習させる。

【0154】

本実施例における運用フェーズでは、生成部１３が、仮想画像Ｋ０を深度画像生成モデルＭ２Ａに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第２深度画像Ｄ２と、実画像Ｔ０と、仮想画像Ｋ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0155】

次に、実施例５－１～５－３について説明する。これらの実施例では、学習フェーズにおいて、２つの学習用実画像ＬＴＰ及びＬＴＱを用いて学習し、運用フェーズにおいて、２つの深度画像Ｄ１及びＤ２に基づいて視点差ΔＬを推定する。

【0156】

（実施例５－１）
図３２に、実施例５－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴＰを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｐを生成する。また、学習部１５が、学習用実画像ＬＴＱを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｑを生成する。また、学習部１５が、学習用実画像ＬＴＰ及びＬＫＱの視点差ΔＬ０と、深度画像Ｄｔｐ及びＤｔｑと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0157】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。変換部１２が、仮想画像Ｋ０を逆変換モデルＭ１Ｒに入力することによって、仮想－実変換画像ＫＴ０に変換する。また、生成部１３が、仮想－実変換画像ＫＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0158】

（実施例５－２）
図３３に、実施例５－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴＰを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｐを生成する。また、学習部１５が、学習用実画像ＬＴＱを変換モデルＭ１に入力することによって、学習用実－仮想変換画像ＬＴＫＱを生成する。また、学習部１５が、学習用実－仮想変換画像ＬＴＫＱを深度画像生成モデルＭ２Ａに入力することによって、深度画像Ｄｔｑを生成する。また、学習部１５が、学習用実画像ＬＴＰ及びＬＫＱの視点差ΔＬ０と、深度画像Ｄｔｐ及びＤｔｑと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0159】

【0160】

（実施例５－３）
図３４に、実施例５－３に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴＰを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｐを生成する。また、学習部１５が、学習用実画像ＬＴＱを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｑを生成する。また、学習部１５が、学習用実画像ＬＴＰ及びＬＫＱの視点差ΔＬ０と、深度画像Ｄｔｐ及びＤｔｑと、学習用実画像ＬＴＰ及びＬＫＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0161】

本実施例における運用フェーズでは、生成部１３が、実画像Ｔ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第１深度画像Ｄ１を生成する。変換部１２が、仮想画像Ｋ０を逆変換モデルＭ１Ｒに入力することによって、仮想－実変換画像ＫＴ０に変換する。また、生成部１３が、仮想－実変換画像ＫＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第１深度画像Ｄ１と、第２深度画像Ｄ２と、実画像Ｔ０と、仮想－実変換画像ＫＴ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0162】

次に、実施例６－１～６－２について説明する。これらの実施例では、学習フェーズにおいて、２つの学習用実画像ＬＴＰ及びＬＴＱを用いて学習し、運用フェーズにおいて、１つの深度画像に基づいて視点差ΔＬを推定する。

【0163】

（実施例６－１）
図３５に、実施例６－１に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴＱを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像ＬＤＱを生成する。また、学習部１５が、学習用実画像ＬＴＰ及びＬＫＱの視点差ΔＬ０と、深度画像ＬＤＱと、学習用実画像ＬＴＰと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0164】

本実施例における運用フェーズでは、変換部１２が、仮想画像Ｋ０を逆変換モデルＭ１Ｒに入力することによって、仮想－実変換画像ＫＴ０に変換する。また、生成部１３が、仮想－実変換画像ＫＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第２深度画像Ｄ２と、実画像Ｔ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0165】

（実施例６－２）
図３６に、実施例６－２に係る視点差推定処理の概要を示す。本実施例における学習フェーズでは、学習部１５が、学習用実画像ＬＴＱを深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、深度画像Ｄｔｑを生成する。また、学習部１５が、学習用実画像ＬＴＰ及びＬＫＱの視点差ΔＬ０と、深度画像Ｄｔｑと、学習用実画像ＬＴＰ及びＬＴＱと、を学習データとして、視点差推定モデルＭ３を学習させる。

【0166】

本実施例における運用フェーズでは、変換部１２が、仮想画像Ｋ０を逆変換モデルＭ１Ｒに入力することによって、仮想－実変換画像ＫＴ０に変換する。また、生成部１３が、仮想－実変換画像ＫＴ０を深度画像生成モデルＭ２Ｂ又はＭ２Ｃに入力することによって、第２深度画像Ｄ２を生成する。推定部１４が、第２深度画像Ｄ２と、実画像Ｔ０と、仮想－実変換画像ＫＴ０と、を視点差推定モデルＭ３に入力することによって、視点差ΔＬを推定する。

【0167】

以上実施例を挙げて説明したように、本実施形態に係る視点差推定モデルＭ３は、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す学習用実画像、及び、学習用実画像の視点から管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、被検体の３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点Ｐ３から見た管状構造物の内壁を擬似的に表す学習用仮想画像、及び、仮想視点Ｐ３から管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、学習用実画像の視点と仮想視点Ｐ３との視点差ΔＬ０と、の組合せを含む学習データを用いた教師あり学習によって学習されたモデルであってもよい。仮想視点Ｐ３が、本開示の第３視点の一例である。

【0168】

なお、上記実施形態においては、視点差ΔＬの推定に用いる仮想画像Ｋ０に基づく第２深度画像Ｄ２を、深度画像生成モデルＭ２を用いて、仮想画像Ｋ０の画素値に基づいて生成する形態について説明したが、これに限らない。仮想画像Ｋ０に基づく第２深度画像は、３次元画像Ｖ０における仮想視点Ｐ１０から管状構造物の内壁までの距離情報に基づいて生成してもよい。このような形態によれば、正確なスケール情報を含むより正確な第２深度画像Ｄ２を得ることができる。また、この場合、取得部１１による仮想画像Ｋ０の生成を省略してもよい。

【0169】

ここで、距離情報は、例えば、３次元画像Ｖ０における仮想視点Ｐ１０から不透明度（Ｏｐａｃｉｔｙ）が予め定められた値以上となる点までの距離を示す。３次元画像Ｖ０において、不透明度（Ｏｐａｃｉｔｙ）が予め定められた値以上となれば、その部分は管状構造物の内壁に相当すると考えられる。また例えば、距離情報は、３次元画像Ｖ０に基づいて気管支画像Ｂ０を生成している場合、仮想視点Ｐ１０から気管支画像Ｂ０のサーフェスまでの距離を示すものであってもよい。

【0170】

次に、図３７を参照して、本実施形態に係る情報処理装置１０の作用を説明する。情報処理装置１０において、ＣＰＵ２１が情報処理プログラム２７を実行することによって、図３７に示す情報処理が実行される。情報処理は、例えば、ユーザにより実行開始の指示があった場合に実行される。なお、図３７に示す情報処理は、図６を用いて説明した形態例に対応し、上述した各種変形が可能である。

【0171】

ステップＳ１０で、取得部１１は、気管支内の所定の視点位置に配置した内視鏡スコープ３１によって撮影された実画像Ｔ０を取得する。ステップＳ１２で、取得部１１は、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点Ｐ１０から見た管状構造物の内壁を擬似的に表す仮想画像Ｋ０を取得する。

【0172】

ステップＳ１４で、変換部１２、生成部１３及び推定部１４は、ステップＳ１０で取得された実画像Ｔ０の視点Ｐ１１と、仮想視点Ｐ１０と、の視点差ΔＬを推定する視点差推定処理を行う。ステップＳ１６で、制御部１６は、ステップＳ１４で推定された視点差ΔＬに基づいて推定される内視鏡先端３Ｂの推定位置Ｐｔをディスプレイ２４に表示させる制御を行い、本情報処理を終了する。

【0173】

次に、図３８を参照して、本実施形態に係る学習部１５による変換モデルＭ１の学習処理について説明する。情報処理装置１０において、ＣＰＵ２１が情報処理プログラム２７を実行することによって、図３８に示す変換モデル学習処理が実行される。変換モデル学習処理は、例えば、ユーザにより実行開始の指示があった場合に実行される。なお、図３８に示す変換モデル学習処理は、図１１を用いて説明した形態例に対応し、上述した各種変形が可能である。

【0174】

ステップＳ３０で、学習部１５は、内視鏡により撮影された管状構造物の内壁を表す実画像Ｔ０、及び、被検体の３次元画像Ｖ０に基づいて生成される、３次元画像Ｖ０において予め定められた仮想視点Ｐ１０から見た管状構造物の内壁を擬似的に表す仮想画像Ｋ０の何れか一方を含む入力画像を取得する。ステップＳ３２で、学習部１５は、ステップＳ３０で取得した入力画像を、当該入力画像に含まれない画像風の変換画像に変換する。

【0175】

ステップＳ３４で、学習部１５は、深度画像生成モデルＭ２を用いて、ステップＳ３０で取得した入力画像の深度画像（入力深度画像）と、ステップＳ３２で変換した変換画像の深度画像（変換深度画像）と、を取得する。ステップＳ３６で、学習部１５は、ステップＳ３４で取得した入力深度画像と変換深度画像との類似度を含む損失関数を用いて、変換モデルＭ１を学習させる。ステップＳ３６が完了すると、本変換モデル学習処理は終了する。

【0176】

以上説明したように、本開示の一態様に係る情報処理装置１０は、少なくとも１つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、実画像の視点から管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像、及び、仮想視点から管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、を利用して、実画像の視点と仮想視点との視点差を推定する視点差推定処理を行い、視点差推定処理において、第１深度画像及び第２深度画像の少なくとも一方を用いる。

【0177】

すなわち、本開示の一態様に係る情報処理装置１０によれば、少なくとも第１深度画像Ｄ１及び第２深度画像Ｄ２の何れかを用いて、実画像Ｔ０の視点Ｐ１１と仮想視点Ｐ１０との視点差ΔＬを推定する。したがって、内視鏡の実画像Ｔ０の視点Ｐ１１と仮想的に設定した仮想視点Ｐ１０との視点差ΔＬを精度よく推定できる。

【0178】

また、本開示の一態様に係る情報処理装置１０は、少なくとも１つのプロセッサを備え、プロセッサは、被検体の管状構造物内に挿入された内視鏡により撮影された管状構造物の内壁を表す実画像、及び、被検体の３次元画像に基づいて生成される、３次元画像において予め定められた仮想視点から見た管状構造物の内壁を擬似的に表す仮想画像の何れか一方を含む入力画像を取得し、入力された実画像及び仮想画像の何れか一方を他方の画像風に変換するよう学習される変換モデルを用いて、入力画像を、当該入力画像に含まれない画像風の変換画像に変換し、入力画像の視点から管状構造物の内壁までの画素ごとの距離を表す入力深度画像と、変換画像の視点から管状構造物の内壁までの画素ごとの距離を表す変換深度画像と、を取得し、変換モデルを、入力深度画像と変換深度画像との類似度を含む損失関数を用いて学習させる。

【0179】

すなわち、本開示の一態様に係る情報処理装置１０によれば、例えば実画像Ｔ０を仮想画像風の変換画像に変換するような変換モデルＭ１について、変換前後で深度画像が変化しないようにするという制約を加えることができる。したがって、変換前後において画像に含まれる気管支の構造等が変化することを防ぎ、精度の良い変換画像を得ることができる。これにより、変換画像を用いて学習される深度画像生成モデルＭ２及び視点差推定モデルＭ３等の、内視鏡ナビゲーションに用いられる機械学習モデルに対して、高精度な変換画像を入力することができるので、内視鏡の実画像Ｔ０の視点Ｐ１１と仮想的に設定した仮想視点Ｐ１０との視点差ΔＬを精度よく推定するという効果に寄与できる。

【0180】

また、上記各実施形態において、例えば、取得部１１、変換部１２、生成部１３、推定部１４、学習部１５及び制御部１６といった各種の処理を実行する処理部（processing unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（processor）を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

【0181】

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせや、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

【0182】

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System on Chip：ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

【0183】

さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）を用いることができる。

【0184】

また、上記実施形態では、情報処理装置１０における情報処理プログラム２７が記憶部２２に予め記憶されている態様を説明したが、これに限定されない。情報処理プログラム２７は、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の記録媒体に記録された形態で提供されてもよい。また、情報処理プログラム２７は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。

【0185】

本開示の技術は、上記実施形態例及び実施例を適宜組み合わせることも可能である。以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。

【0186】

上記実施形態に関し、更に以下の付記を開示する。
［付記項１］
少なくとも１つのプロセッサを備え、
前記プロセッサは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第１深度画像及び前記第２深度画像の少なくとも一方を用いる
情報処理装置。
［付記項２］
前記プロセッサは、
前記視点差推定処理において、少なくとも前記第１深度画像と、前記第２深度画像と、を用いて、前記視点差を推定する
付記項１に記載の情報処理装置。
［付記項３］
前記プロセッサは、
前記第１深度画像及び前記第２深度画像の少なくとも一方を生成し、
前記視点差推定処理において、少なくとも前記第１深度画像及び前記第２深度画像の少なくとも一方を入力とし、入力された前記第１深度画像及び前記第２深度画像の少なくとも一方を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
付記項１又は付記項２に記載の情報処理装置。
［付記項４］
前記プロセッサは、
前記第１深度画像及び前記第２深度画像を生成し、
前記視点差推定処理において、少なくとも前記第１深度画像及び前記第２深度画像を入力とし、入力された前記第１深度画像及び前記第２深度画像を用いて、前記視点差を出力とするよう予め学習された視点差推定モデルを用いる
付記項３に記載の情報処理装置。
［付記項５］
前記プロセッサは、
前記実画像を前記仮想画像風の実－仮想変換画像に変換し、
前記視点差推定処理において、前記実－仮想変換画像を前記実画像として用いて、前記視点差を推定する
付記項１から付記項４の何れか１項に記載の情報処理装置。
［付記項６］
前記プロセッサは、
前記視点差推定処理において、前記実－仮想変換画像と、前記第１深度画像と、前記仮想画像と、前記第２深度画像と、を用いて、前記視点差を推定する
付記項５に記載の情報処理装置。
［付記項７］
前記視点差推定モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第１視点から見た管状構造物の内壁を擬似的に表す第１学習用仮想画像、及び、前記第１視点から前記管状構造物の内壁までの画素ごとの距離を表す第１学習用深度画像の少なくとも一方と、
前記被検体の前記３次元画像に基づいて生成される、前記３次元画像において予め定められた前記第１視点とは異なる第２視点から見た前記管状構造物の内壁を擬似的に表す第２学習用仮想画像、及び、前記第２視点から前記管状構造物の内壁までの画素ごとの距離を表す第２学習用深度画像の少なくとも一方と、
前記第１視点と前記第２視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
付記項３又は付記項４に記載の情報処理装置。
［付記項８］
前記視点差推定モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像、及び、前記学習用実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第３視点から見た前記管状構造物の内壁を擬似的に表す学習用仮想画像、及び、前記第３視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用仮想深度画像の少なくとも一方と、
前記学習用実画像の視点と前記第３視点との視点差と、
の組合せを含む学習データを用いた教師あり学習によって学習されたモデルである
付記項３又は付記項４に記載の情報処理装置。
［付記項９］
前記第１深度画像は、前記実画像の画素値に基づいて生成される
付記項１から付記項８の何れか１項に記載の情報処理装置。
［付記項１０］
前記第１深度画像は、前記実画像を前記仮想画像風に変換した実－仮想変換画像の画素値に基づいて生成される
付記項１から付記項８の何れか１項に記載の情報処理装置。
［付記項１１］
前記第２深度画像は、前記仮想画像の画素値に基づいて生成される
付記項１から付記項１０の何れか１項に記載の情報処理装置。
［付記項１２］
前記第２深度画像は、前記３次元画像における前記仮想視点から前記管状構造物の内壁までの距離情報に基づいて生成される
付記項１から付記項１０の何れか１項に記載の情報処理装置。
［付記項１３］
前記プロセッサは、
管状構造物の内壁を表す画像を入力とし、入力された画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す深度画像を出力とするよう予め学習された深度画像生成モデルを用いて、前記実画像に基づく前記第１深度画像、及び、前記仮想画像に基づく前記第２深度画像の少なくとも一方を生成する
付記項１から付記項１２の何れか１項に記載の情報処理装置。
［付記項１４］
前記深度画像生成モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第４視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像と、
前記３次元画像における前記第４視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第４視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項１３に記載の情報処理装置。
［付記項１５］
前記深度画像生成モデルは、
被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた第５視点から見た管状構造物の内壁を擬似的に表す学習用仮想画像を、前記仮想画像を入力とし、入力された前記仮想画像を前記実画像風に変換して出力するよう予め学習された変換モデルを用いて、前記実画像風に変換したものと、
前記３次元画像における前記第５視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記第５視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項１３に記載の情報処理装置。
［付記項１６］
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記被検体の３次元画像における前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの距離情報に基づいて生成される、前記学習用実画像が撮影された視点に対応する視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項１３に記載の情報処理装置。
［付記項１７］
前記深度画像生成モデルは、
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す学習用実画像と、
前記内視鏡に搭載された測距センサによって得られる、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの距離の実測値に基づいて生成される、前記学習用実画像が撮影された視点から前記管状構造物の内壁までの画素ごとの距離を表す学習用深度画像と、
の組合せを含む学習データを用いた教師あり学習によって予め学習されたモデルである
付記項１３に記載の情報処理装置。
［付記項１８］
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第１深度画像及び前記第２深度画像の少なくとも一方を用いる
処理を含む情報処理方法。
［付記項１９］
被検体の管状構造物内に挿入された内視鏡により撮影された前記管状構造物の内壁を表す実画像、及び、前記実画像の視点から前記管状構造物の内壁までの画素ごとの距離を表す第１深度画像の少なくとも一方と、
前記被検体の３次元画像に基づいて生成される、前記３次元画像において予め定められた仮想視点から見た前記管状構造物の内壁を擬似的に表す仮想画像、及び、前記仮想視点から前記管状構造物の内壁までの画素ごとの距離を表す第２深度画像の少なくとも一方と、
を利用して、前記実画像の視点と前記仮想視点との視点差を推定する視点差推定処理を行い、
前記視点差推定処理において、前記第１深度画像及び前記第２深度画像の少なくとも一方を用いる
処理をコンピュータに実行させるための情報処理プログラム。

【符号の説明】

【0187】

３内視鏡装置
３Ｂ内視鏡先端
３Ａ操作部
４３次元画像撮影装置
５画像保管サーバ
８ネットワーク
１０情報処理装置
１１取得部
１２変換部
１３生成部
１４推定部
１５学習部
１６制御部
２１ＣＰＵ
２２記憶部
２３メモリ
２４ディスプレイ
２５入力部
２６ネットワークＩ／Ｆ
２７情報処理プログラム
２８バス
３１内視鏡スコープ
３２プロセッサ装置
４０経路
５０画面
５１移動軌跡
Ｂ０気管支画像
Ｄ１第１深度画像
Ｄ２第２深度画像
ＤＫ、Ｄｋ０、Ｄｋｔ０、Ｄｔ０、Ｄｔｐ、Ｄｔｑ、ＤＰ、ＤＱ深度画像
Ｄｔ入力深度画像
Ｄｔｋ変換深度画像
Ｋ０仮想画像
ＫＴ０仮想－実変換画像
ＬＤ０学習用深度画像
ＬＫ０、ＬＫＰ、ＬＫＱ学習用仮想画像
ＬＫＴ０、ＬＫＴＰ学習用仮想－実変換画像
ＬＴ０、ＬＴＰ、ＬＴＱ学習用実画像
ＬＴＫ０、ＬＴＫＱ学習用実－仮想変換画像
ＬＴＫＴ０学習用実－仮想－実変換画像
Ｍ１変換モデル
Ｍ１Ｄ識別器
Ｍ１Ｒ逆変換モデル
Ｍ２、Ｍ２Ａ～Ｍ２Ｃ深度画像生成モデル
Ｍ３視点差推定モデル
Ｐ１０仮想視点
Ｐ１１実画像の視点
Ｐｔ推定位置
Ｔ０実画像
Ｔ１、Ｔ２、Ｔｍ断層画像
ＴＫ０実－仮想変換画像
Ｖ０３次元画像
ΔＬ視点差

【図1】