IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

<>
  • 特開-画像学習装置及び画像学習方法 図1
  • 特開-画像学習装置及び画像学習方法 図2
  • 特開-画像学習装置及び画像学習方法 図3
  • 特開-画像学習装置及び画像学習方法 図4
  • 特開-画像学習装置及び画像学習方法 図5
  • 特開-画像学習装置及び画像学習方法 図6
  • 特開-画像学習装置及び画像学習方法 図7
  • 特開-画像学習装置及び画像学習方法 図8
  • 特開-画像学習装置及び画像学習方法 図9
  • 特開-画像学習装置及び画像学習方法 図10
  • 特開-画像学習装置及び画像学習方法 図11
  • 特開-画像学習装置及び画像学習方法 図12
  • 特開-画像学習装置及び画像学習方法 図13
  • 特開-画像学習装置及び画像学習方法 図14
  • 特開-画像学習装置及び画像学習方法 図15
  • 特開-画像学習装置及び画像学習方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024121518
(43)【公開日】2024-09-06
(54)【発明の名称】画像学習装置及び画像学習方法
(51)【国際特許分類】
   A61B 1/045 20060101AFI20240830BHJP
   A61B 1/00 20060101ALI20240830BHJP
   G06T 7/60 20170101ALI20240830BHJP
   G06T 7/00 20170101ALI20240830BHJP
【FI】
A61B1/045 614
A61B1/00 553
G06T7/60 180B
G06T7/00 350B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023028663
(22)【出願日】2023-02-27
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001988
【氏名又は名称】弁理士法人小林国際特許事務所
(72)【発明者】
【氏名】比嘉 勝之
【テーマコード(参考)】
4C161
5L096
【Fターム(参考)】
4C161AA01
4C161AA04
4C161CC06
4C161HH52
4C161LL02
4C161SS21
5L096BA06
5L096CA02
5L096DA02
5L096FA66
5L096FA67
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】観察画像に対する距離推定において、疎な実距離データを正解データとして距離推定を学習できる画像学習装置及び画像学習方法を提供する。
【解決手段】画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得し、観察画像に対して、画像センサの撮影範囲内の複数の箇所のそれぞれについて観察対象までの推定距離を、距離推定パラメータを用いて算出し、撮影範囲内の少なくとも1つの箇所について、観察対象までの距離を測定した実距離と、推定距離との差に基づいて、距離推定パラメータを更新する画像学習装置等による。
【選択図】図8
【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得し、
前記観察画像に対して、前記画像センサの撮影範囲内の複数の箇所のそれぞれについて前記観察対象までの推定距離を、距離推定パラメータを用いて算出し、
前記撮影範囲内の少なくとも1つの箇所について、前記観察対象までの距離を測定した実距離と、前記推定距離との差に基づいて、前記距離推定パラメータを更新する画像学習装置。
【請求項2】
前記プロセッサは、
前記観察画像における一部の箇所に対してのみ前記推定距離を算出する請求項1に記載の画像学習装置。
【請求項3】
前記プロセッサは、
前記実距離を測定した箇所に対して前記推定距離を算出する請求項2に記載の画像学習装置。
【請求項4】
距離推定モデルを有し、
前記プロセッサは、
前記距離推定モデルを用いて、前記距離推定パラメータを用いた前記推定距離の算出、及び前記差に基づいて前記距離推定パラメータを更新する学習を行う請求項1に記載の画像学習装置。
【請求項5】
前記プロセッサは、
時系列に撮影された複数の前記観察画像から、第1観察画像と、前記第1観察画像から一定時間の経過後に撮影された第2観察画像とを取得し、
前記第1観察画像と前記第2観察画像との間における前記画像センサの回転及び移動の変化量であるカメラポーズ変化量を算出し、
前記第1観察画像と、前記カメラポーズ変化量、及び前期推定距離を用いて、前記第1観察画像から前記一定時間の経過後の態様を推定した推定第2画像を再投影し、
前記第2観察画像と、前記推定第2画像との再投影誤差を算出し、
前記再投影誤差を最小化するように前記距離推定パラメータを更新する請求項1に記載の画像学習装置。
【請求項6】
前記プロセッサは、
前記第2観察画像と、前記カメラポーズ変化量、及び前期推定距離を用いて、前記第2観察画像における前記一定時間の経過前の態様を推定した推定第1画像を再投影し、
前記第1観察画像と、前記推定第1画像との再投影誤差を最小化するように前記距離推定パラメータを更新する請求項5に記載の画像学習装置。
【請求項7】
前記プロセッサは、
前記距離推定パラメータを、前記実距離と前記推定距離との差が最小の値又は予め定めた閾値以下となるように更新する請求項1ないし6いずれか1項に記載の画像学習装置。
【請求項8】
前記プロセッサは、
前記実距離と、前記推定距離にスケール係数をかけた値との誤差が最小の値又は閾値以下となる前記スケール係数を算出し、
前記スケール係数を用いて前記距離推定パラメータを更新する請求項5に記載の画像学習装置。
【請求項9】
前記観察対象は消化管であり、前記観察画像は内視鏡画像である請求項1に記載の画像学習装置。
【請求項10】
前記プロセッサは、
レーザーによる距離測定により取得した値を前記実距離に用いる請求項1に記載の画像学習装置。
【請求項11】
画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得するステップと、
前記観察画像に対して、前記画像センサの撮影範囲内の複数の箇所のそれぞれについて前記観察対象までの推定距離を、距離推定パラメータを用いて算出するステップと、
前記撮影範囲内の少なくとも1つの箇所について、前記観察対象までの距離を測定した実距離と、前記推定距離との差に基づいて、前記距離推定パラメータを更新するステップとを有する画像学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像学習装置及び画像学習方法に関する。
【背景技術】
【0002】
環境の3次元構造を取得するために、機械学習手法を用いて画像に基づく距離推定を行うことがある。距離推定を学習する際は、レーザー測定機器等を用いて測定された画像中各ピクセルに対する実距離値を正解データとすることが一般的である。
【0003】
観察画像に対して、実距離の値が画像中の1%未満の領域にしか存在しない等、極めて疎な実距離データ数でしか得られないことがある。比較的疎な実距離データ(30-50%の領域に値が存在、等)を正解とし、教師あり学習を行う例はある。しかし、極めて疎な実距離データを正解とする場合には、同様の方法では学習が進まない可能性がある。
【0004】
特許文献1では、計測用パターンを投影するパターンプロジェクタとカメラとの相対位置情報を校正するキャリブレーションを行うことが記載されている。具体的には、パターン光投影法における、計測対象に投光された計測用パターンの画像に基づいて画像処理を行って、計測対象の3次元形状を求める。特許文献2では、画像補足デバイスから補足された画像で検出した物体の二次元画像データおよび点群データに機械学習アルゴリズムを適用し、三次元境界ボックスについてのパラメータを推定し、座標を定義することが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2017-217215号公報
【特許文献2】特表2020-534617号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1では、計測対象の3次元形状を推定するが、撮影の際に計測用パターン投影し、画像内の格子状に分布する点の距離を取得した状態で3次元形状を求めるため、疎な実距離データから距離推定を行う旨、及びそれらの学習を行う旨の記載はない。特許文献2では、機械学習アルゴリズムを用いた、疎な点群データに対してロバストである3次元境界ボックスの推定を行うが、座標情報や距離情報が極めて少ない状態における3次元座標を推定できる疎な点群データの具体例等の記載はない。特許文献1、2ともに疎な点の定義や基準に関する記載や示唆はなく、上記の点を踏まえ、取得できる実距離値が画像中の1点のみなど、疎な実距離データであっても、画像中の観察対象の距離推定を行う距離推定器の学習が進むことが望ましい。
【0007】
本発明は、観察画像に対する距離推定において、疎な実距離データを正解データとして距離推定を学習できる画像学習装置及び画像学習方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の画像学習装置は、プロセッサを備え、プロセッサは、画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得し、観察画像に対して、画像センサの撮影範囲内の複数の箇所のそれぞれについて観察対象までの推定距離を、距離推定パラメータを用いて算出し、撮影範囲内の少なくとも1つの箇所について、観察対象までの距離を測定した実距離と、推定距離との差に基づいて、距離推定パラメータを更新する。
【0009】
観察画像における一部の箇所に対してのみ推定距離を算出することが好ましい。
【0010】
実距離を測定した箇所に対して推定距離を算出することが好ましい。
【0011】
距離推定モデルを有し、距離推定モデルを用いて、距離推定パラメータを用いた推定距離の算出、及び差に基づいて距離推定パラメータを更新する学習を行うことが好ましい。
【0012】
時系列に撮影された複数の観察画像から、第1観察画像と、第1観察画像から一定時間の経過後に撮影された第2観察画像とを取得し、第1観察画像と第2観察画像との間における画像センサの回転及び移動の変化量であるカメラポーズ変化量を算出し、第1観察画像と、カメラポーズ変化量、及び推定距離を用いて、第1観察画像から一定時間の経過後の態様を推定した推定第2画像を再投影し、第2観察画像と、推定第2画像との再投影誤差を算出し、再投影誤差を最小化するように距離推定パラメータを更新することが好ましい。
【0013】
第2観察画像と、カメラポーズ変化量、及び推定距離を用いて、第2観察画像における一定時間の経過前の態様を推定した推定第1画像を再投影し、第1観察画像と、推定第1画像との再投影誤差を最小化するように距離推定パラメータを更新することが好ましい。
【0014】
距離推定パラメータを、実距離と推定距離との差が最小の値又は予め定めた閾値以下となるように更新することが好ましい。
【0015】
実距離と、推定距離にスケール係数をかけた値との誤差が最小の値又は閾値以下となるスケール係数を算出し、スケール係数を用いて距離推定パラメータを更新することが好ましい。
【0016】
観察対象は消化管であり、観察画像は内視鏡画像であることが好ましい。
【0017】
レーザーによる距離測定により取得した値を実距離に用いることが好ましい。
【0018】
本発明の画像学習方法は、画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得するステップと、観察画像に対して、画像センサの撮影範囲内の複数の箇所のそれぞれについて観察対象までの推定距離を、距離推定パラメータを用いて算出するステップと、撮影範囲内の少なくとも1つの箇所について、観察対象までの距離を測定した実距離と、推定距離との差に基づいて、距離推定パラメータを更新するステップとを有する。
【発明の効果】
【0019】
本発明によれば、観察画像に対する距離推定において、疎な実距離データを正解データとして距離推定を学習できる。
【図面の簡単な説明】
【0020】
図1】画像学習装置の接続機器を示す説明図である。
図2】画像学習装置と接続する内視鏡システムの説明図である。
図3】(A)は屋内撮影カメラを用いて、観察対象の撮影を行う説明図であり、(B)は、屋内撮影画像である観察画像の説明図である。
図4】(A)は内視鏡カメラを用いて、観察対象の撮影を行う説明図であり、(B)は、内視鏡画像である観察画像の説明図である。
図5】画像学習装置の機能を示すブロック図である。
図6】(A)はカメラを用いて、観察対象を撮影した観察画像の説明図であり、(B)は、観察画像における密な実距離データマップの説明図であり、(C)は、観察画像における疎な実距離データマップの説明図である。
図7】疎な実距離データと、対応する観察画像を照合する説明図である。
図8】距離推定器を用いて、観察画像の距離推定を行う説明図である。
図9】比較部に、疎な実距離データと推定距離データを入力し、誤差を示すロスの算出を行う説明図である。
図10】疎な実距離データを用いて、距離推定パラメータの更新により距離推定器33の学習を行う一連の処理のフローチャートである。
図11】第2実施形態における画像学習装置の機能を示すブロック図である。
図12】時系列画像から再投影処理に用いる第1観察画像と第2観察画像の抽出を行う説明図である。
図13】教師無し学習を行った距離推定器による観察画像の距離推定を行う説明図である。
図14】カメラポーズ推定器により、第1観察画像と第2観察画像との間のカメラポーズ変化を推定する説明図である。
図15】推定深度マップ、観察画像、及びカメラポーズ変化量を用いて画像再投影を行う説明図である。
図16】2つの観察画像から2つの推定画像の再投影を行う説明図である。
【発明を実施するための形態】
【0021】
[第1実施形態]
図1は、本発明の実施の形態における画像学習方法を実現する画像学習システム10の構成例を示す図である。画像学習システム10は、画像学習装置11と、距離測定部12aを有するカメラ12と、データベース13と、ディスプレイ14と、ユーザインターフェース(UI)15とを有する。画像学習装置11は、カメラ12と、データベース13と、ディスプレイ14、ユーザインターフェース15と電気的に接続する。画像学習装置11は、距離測定部12aを有するカメラ12から検査で撮影した画像を取得する。
【0022】
カメラ12は、画像センサを有する撮影装置であり、観察対象を撮影して生成した観察画像を、画像学習装置11に送信する。距離測定部12aは、撮影において、レーザー測距などにより観察画像の距離データを取得し、取得した距離データを有する観察画像を画像学習装置に送信する。
【0023】
データベース13は取得した画像を保管し、画像学習装置11とデータの送受信ができる機器であり、USB(Universal Serial Bus)やHDD(Hard Disc Drive)などの記録媒体でも良い。画像学習装置11は、リアルタイムでの画像学習に代えて、撮影終了後に画像学習を行い、距離推定を行うことができる。ユーザインターフェース15は、画像学習装置11への設定入力等を行う入力デバイスであり、キーボードやマウスなどが含まれる。
【0024】
図2に示すように、カメラ12として、観察対象である消化管等を観察し、撮影する内視鏡システム16を画像学習装置11に接続してもよい。内視鏡システム16は、内視鏡16a、光源装置16b、プロセッサ装置16cを備え、内視鏡16aは先端部16dにレーザーなどの測定光を発する距離測定部12aを有する。なお、内視鏡システム16をカメラ12として用いる場合、プロセッサ装置16cと画像学習装置11の機能は同じ装置で実現してもよい。
【0025】
本実施形態では、観察画像全体の測距を行う際に、撮影範囲Rに対して照射密度の低いレーザー測距などの方法を用いて実距離データを収集し、疎な実距離データとして取得する。疎な実距離データとは、例えば、画像全体のピクセルに対して、1%未満、1つの箇所、数箇所など、一部の点にのみ値を持つ実距離データである。実距離データは、実距離値と、実距離値が存在する観察画像中の箇所の情報を少なくとも含む。疎な実距離データは1枚の観察画像において、測定された実距離値が1箇所の場合を含む。
【0026】
図3(A)に示すように、カメラ12が屋内や屋外を撮影する一般的なデジタルカメラである場合は、画像センサによりテーブルと椅子などの特定の物体である観察対象Tを捉えて撮影した画像を取得し、レーザー測定器等である距離測定部12aは、撮影範囲Rの少なくとも1つの箇所に対して測定光Lを照射し、観察対象Tまでの実距離を測定する。また、特定の観察対象Tを捉えずに撮影し、測定する実距離は任意の箇所としてもよい。図3(B)は、撮影範囲Rに対して撮影を行い、取得した屋内撮影画像であり、観察画像40として測定した実距離データと共に画像学習装置11に送信する。
【0027】
図4(A)に示すように、カメラ12として内視鏡システム16を用いる場合は、被検体内に挿入し撮影光学系及び照明光学系を有する先端部16dから消化管内を観察し、画像センサによりポリープなどの観察対象Tを捉えて撮影した画像を取得する。距離測定部12aは、撮影範囲Rの少なくとも1つの箇所に対して測定光Lを照射し、観察対象Tまでの実距離を測定する。また、特定の観察対象Tを捉えず、消化管全体を観察対象として撮影し、測定する実距離は任意の箇所としてもよい。図4(B)は、観察画像40として、撮影範囲Rに対して撮影を行い、取得した内視鏡画像であり、測定した実距離データと共に画像学習装置11に送信する。
【0028】
観察画像40の撮影において、露光期間中にレーザー照射点が移動する場合や、複数のフレームから観察画像40を生成する際に少なくとも1フレームごとにレーザー照射点が移動する場合は、1点の実距離データを取得するレーザー測定であっても、1枚の観察画像40において複数の測定点pを得られる。
【0029】
撮影において特に指定がない場合は、照明光は白色光を使用し、1秒間に60フレーム画像(60fps(frame per second))の映像信号を取得し、撮影時間を記録する。また、映像信号が60fpsの場合は100分の1秒単位で時刻を数えることが好ましい。また、屋内撮影画像及び内視鏡画像の撮影において、観察対象Tに特定の物体を捉えずに、壁面のみを撮影してもよい。
【0030】
図5に示すように、画像学習装置11においては、画像制御用プロセッサによって構成される中央制御部(図示しない)によって、プログラム用メモリ内のプログラムが動作することで、画像取得部20、表示制御部22、入力受信部(図示しない)、学習モデル管理部30の機能が実現される。学習モデル管理部30の機能実現に伴って、実距離照合部32と、距離推定器33と、比較部34と、パラメータ更新部35との機能が実現される。
【0031】
画像取得部20は、カメラ12から撮影した画像などのデータを受信する。取得した画像は学習モデル管理部30に送信する。画像学習や距離推定をリアルタイムでの実施せずに撮影終了後に行う場合等では、データベース13に送信する。表示制御部22は、静止画又は動画をディスプレイ14に表示させる制御を行う。入力受信部は、ユーザインターフェース15と接続する。
【0032】
学習モデル管理部30は、画像取得部20を介してカメラ12又はデータベース13から観察画像及び実距離データを取得する。表示制御部22を介して、後述する推定した距離情報を有する観察画像40をディスプレイ14に表示させる。また、画像学習装置11には、画像処理などの処理に関するプログラムがプログラム用メモリ(図示しない)に格納されている。
【0033】
実距離照合部32は、観察画像40に、距離測定部12aで測定した実距離データを照合する。照合により、観察画像40における実距離値が存在する測定点を検出する。レーザー測距の場合、レーザー照射点が測定点として検出されうる。
【0034】
距離推定器33は、学習済みのモデルであり、入力された学習データによって学習を行うニューラルネットワークからなるコンピュータアルゴリズムを有し、学習内容に応じて入力情報の判別や特定の画像情報の検出を行う。距離推定器33は、入力された画像の任意のピクセルとカメラ12との推定距離の算出に用いる更新可能な距離推定パラメータを有しており、入力された画像に対し、距離推定パラメータを用いて距離推定を行う。
【0035】
距離推定器33における学習は、正解データである実距離データを持つ画像により学習する教師あり学習と、実距離データを持たない画像により学習する教師無し学習がある。距離推定では、どちらか一方又は両方の推定を行うため、距離推定器33は、両方の学習による距離推定パラメータ更新を行うことができる。
【0036】
また、距離推定器33は撮影範囲内の少なくとも1つの箇所について観察対象Tまでの距離を測定した実距離データと、計算した推定距離との差を示すロスの入力をパラメータ更新部35から受け付け、距離推定器33における距離推定パラメータを更新する。実距離データと推定距離の計算した撮影範囲の箇所は、同一であることが好ましい。
【0037】
比較部34は、実距離データの値と、対応する距離推定器33で得られた推定距離の比較を行う。比較により実距離と推定距離の差をロスとして計算する。
【0038】
パラメータ更新部35は、比較部34で計算したロスに基づいて、距離推定器33における距離推定パラメータを、ロスが最小化するように更新する。算出したロスを距離推定器33に送信し、パラメータ更新指示としてもよい。また、最小化ではなく、ロスが予め定めた閾値以下となるように更新してもよい。予め定めた閾値とは、実距離の値に応じて変動する。
【0039】
本実施形態について屋内撮影画像を例に挙げて説明するが、観察画像40は、内視鏡画像、屋内撮影画像、又は屋外撮影画像などのいずれであってもよい。なお、観察画像40が1枚のフレームに対して1点のレーザー照射で実距離測定を行う場合は、1枚の画像に1点の実距離データが得られる。一方、1枚の画像の撮影中におけるレーザー照射において複数の点に対して測定を行う場合や、レーザー照射を行った複数の連続するフレームから1枚の観察画像40を作成した場合は、1枚の観察画像40において複数の箇所の実距離データが取得できる。
【0040】
図6(A)は、屋内撮影画像として、カメラ12により観察対象Tを撮影した、奥行きのある観察画像40である。図6(B)は、観察画像40に関して、3次元測距装置などを併用した場合などに密な実距離データを取得した、理想的な実距離データによって得られる観察画像40の3次元座標を可視化した密な実距離データマップ42である。密な実距離データマップ42は、カメラ12に対する距離の分布を濃淡で表しており、色が淡いほど距離が短く、色が濃いほど距離が遠いことを示している。遮蔽物の無い空間に対する密な実距離データを取得した場合は、空間の形状に合わせてグラデーションが投影されるが、撮影範囲R内に観察対象Tなどを捉えた場合は、その形状が浮かび上がる。
【0041】
図6(C)に示すように、本実施形態におけるレーザー測距やパターン測距などで得られる距離データは、観察画像中に1点や数点、画像全体の1%未満の密度など、疎な実距離データとなる。疎な実距離データを取得した場合に、実距離値が存在する観察画像40の位置である測定点pを可視化したマップである疎な実距離データマップ44が得られる。
【0042】
本実施形態における推定距離の学習の実施態様について説明する。疎な実距離データを用いる学習は、正解データを用いた教師あり学習である。実距離データを正解データとして使用し、距離推定パラメータの更新を行うことができる。観察画像40における、少なくとも1つの実距離値を有する測定点、すなわち観察対象までの距離を測定した箇所に対してのみなど、一部の点に対してのみ推定距離を算出し、ロスの計算及び距離推定器33における距離推定パラメータの更新を行う。
【0043】
図7に示すように、実距離照合部32は、画像取得部20又はデータベース13から取得した観察画像40と、疎な実距離データマップ44が有する実距離データが対応しているか照合する。測定点pは、実距離値を有し、観察画像40に対応するxy座標(ピクセル)で表すことのできる点である。照合により、疎な実距離データ、すなわち測定点p及び測定点pに対応する実距離値の情報を有する観察画像40が得られる。照合では、レーザー照射点の移動等により精度の低い実距離データは、距離推定に用いずに選別してもよい。
【0044】
図8に示すように、疎な実距離データを有する観察画像40を距離推定器33に入力することで、測定点pとカメラ12の間の推定距離を算出できる。推定距離データマップ46を生成する。それぞれの測定点pと同一座標(同一ピクセル)の推定点qと、推定点qからカメラ12までの推定距離を有する推定距離データマップ46が得られる。推定距離データマップ46は、観察画像40に対応し、観察画像40に紐づけてもよい。
【0045】
疎な実距離データを有する観察画像40の距離推定を行うことで、学習において距離推定パラメータ更新に有用である可能性が高い、それぞれの実距離と推定距離のペアを取得できる。なお、疎な実距離データマップ44と、推定距離データマップ46を作成せずに、実距離と推定距離のペアを取得してもよい。測定点pとペアにする推定点qの座標は同一であることが好ましく、推定距離データにおける推定点qは、測定点pの値を用いてもよい。
【0046】
図9に示すように、比較部34に疎な実距離データマップ44と、推定距離データマップ46を入力し、それぞれの対応する実距離と推定距離の比較を行い、損失関数を用いて差異を示す損失(ロス)を算出する。例えば、損失関数の1つとして、二乗誤差の算出を行う。
【0047】
疎な実距離データマップ44が有する、疎な実距離データが存在する測定点pの集合をD(p)とし、推定距離データマップ46が有する、推定距離データが存在する推定点qの集合をD´(q)としてロスの計算を行う。この場合、計算に用いる推定点qは測定点pのペアは一致するものを用いるため、D´(q)はD´(p)として計算できる。同一の被写体に対する複数の観察画像をした画像学習装置11は、ロスの和をもとに学習できる。ロスはL1である場合、比較より得られるロスをLoss(total)とすると、以下の式(1)で計算できる。
【0048】
Loss(total)=ΣL1{D(p),D´(p)} (1)
【0049】
画像学習装置11は、更新した距離推定パラメータを有する距離推定器33を用いて、新たに取得した観察画像40に対する実距離と推定距離のロスを用いた距離推定パラメータの更新を繰り返すことで学習を行う。これにより、観察画像40が有する実距離データが疎であっても、距離推定器33の学習を行うことが切る。
【0050】
なお、距離推定器33における距離推定パラメータの更新は、比較部34で算出した全てのロスに対して、最小化されているか否かを判定し、ロスが最小化されていない場合は、学習を行い、ロスが最小化されている場合は、距離推定パラメータの更新は行わずに学習の終了、又は新たな観察画像40を用いた学習に移ってもよい。また、最小化に代えて、ロスが閾値以下であるか否かの判定を行い、学習を行ってもよい。
【0051】
図10に示すように、疎な実距離データを正解データとして用いる、観察画像の推定距離を算出する距離推定器33に入力するパラメータ更新までの一連の流れを示すフローチャートについて説明する。画像学習装置11は、カメラ12や、カメラ12の機能を有する内視鏡システム等における画像センサにより観察対象Tを捉えた観察画像40と、観察画像40に対して画像センサの撮影範囲内の箇所における実距離値を取得する(ステップST110)。実距離照合部32は、観察画像40と実距離値を照合し、観察画像における測定点pを特定した実距離データを取得する(ステップST120)。距離推定器33は、距離推定パラメータを用いて、観察画像40における画像センサの撮影範囲内の複数の箇所である測定点pとの距離推定を行い、推定距離を取得する(ステップST130)。比較部34は、取得した推定距離と実距離の比較を行い、差を示すロスを算出する(ステップST140)。算出したロスの情報はパラメータ更新部35に送られ、パラメータ更新部35は、距離推定器33に距離推定パラメータをロスが最小化した値又は閾値以下の値となるように更新させる(ステップST150)。パラメータ更新後の学習モデル管理部30は、異なる観察画像40を用いて、学習を継続するか否かを選択(ステップST160)し、学習を継続する場合(ステップST160でY)は、新たな観察画像40を取得(ステップST110)し、学習を繰り返す。学習を継続しない場合(ステップST160でN)は、一連の動作を終了する。
【0052】
[第2実施形態]
第2実施形態では、動画や連続した静止画等である、カメラポーズ変化が生じた時系列画像を用いた教師無し学習を、教師あり学習に加えて実施する。教師無し学習では、時系列画像から任意の時点におけるカメラポーズ変化前後の観察画像を抽出し、少なくとも1つの観察画像に対して再投影した画像を用いて算出した、再投影誤差により学習を行う。動画である場合の時系列画像の受信は撮影終了後のタイミングであるが、画像取得部20は、動画が作成される前である、リアルタイム撮影中に映像信号をフレーム化して取得してもよい。なお、その他の第1実施形態と同様である内容については説明を省略する。
【0053】
図11に示すように、第2実施形態における画像学習装置11では、第1実施形態の画像学習装置11(図2参照)の各機能に加えて、カメラポーズ推定器38と、画像再投影部39の機能を有する。学習モデル管理部30は、動画撮影や連続撮影等が可能なカメラ12、又はデータベース13から時系列画像を取得する。距離推定器33は推定距離を算出する。カメラポーズ推定器38は、入力された複数の観察画像におけるカメラポーズ変化を推定できるカメラポーズ変化量を出力する。画像再投影部39は、カメラポーズ変化前の観察画像、カメラポーズ変化量、及び推定距離を用いてカメラポーズ変化後の観察画像の態様を推定した推定画像を再投影する。
【0054】
図12に示すように、画像取得部20は、時系列画像50から少なくとも2つの観察画像を抽出する。画像取得部20は、画像情報に基づいて抽出する観察画像を決定してもよい。抽出された観察画像は、学習モデル管理部30に送信される。時系列画像50は、内視鏡撮影画像、屋内撮影画像、及び屋外撮影画像等のいずれであってもよい。
【0055】
抽出する観察画像は、カメラポーズ変化が生じた2つの観察画像であり、一方の画像をソース画像、もう一方の画像をターゲット画像とすると、ソース画像、ソース画像の推定距離、及びカメラポーズ変化量をもとにターゲット画像の再投影を行い、推定画像を生成する。生成した推定画像と、ターゲット画像との比較により再投影誤差を算出する。ソース画像とターゲット画像は、時系列画像における連続して撮影された画像であっても良いし、任意の時間が経過した状態の画像であってもい。ソース画像とターゲット画像の撮影時間は、フレームレートに応じた撮影時間の差があり、画像取得部20は、撮影時間の情報を画像情報として取得することが好ましい。また、抽出の際に、一定時間の経過を抽出条件にしてもよい。再投影誤差は、再投影した推定画像における推定距離と、ターゲット画像における推定距離との比較により、推定距離のずれを再投影誤差として算出することが好ましい。また、再投影誤差は、推定画像とターゲット画像における、観察対象の位置や向き、形状のずれも用いてもよいし、推定画像に再投影した測定点pとターゲット画像の測定点pの位置のずれを用いてもよい。
【0056】
時系列画像50から2つの観察画像を抽出した場合、2つの観察画像は、カメラポーズ変化前の観察画像を第1観察画像51、カメラポーズ変化後の観察画像を第2観察画像52とし、第1観察画像51と第2観察画像52のセットを用いて教師無し学習を行う。例えば、第1観察画像51をソース画像とし、第2観察画像52をターゲット画像とする。カメラポーズ変化は、ソース画像からターゲット画像までの画像センサの姿勢の変化であり、算出する推定距離は、ソース画像の推定距離である。なお、カメラポーズ変化量を推定するソース画像とターゲット画像の間では、画像センサは回転又は移動の少なくともいずれかの変化があり、かつ共通の観察対象を撮影している画像を用いる。
【0057】
カメラポーズ推定器38は、学習済みのモデルであり、入力された学習データよって学習を行うニューラルネットワークからなるコンピュータアルゴリズムを有し、時系列画像から取得した複数の観察画像の入力により、2つの観察画像を撮影した時点間におけるカメラポーズ変化量を出力する。カメラポーズ変化量として、カメラポーズ変化前後の時点における観察画像を入力し、画像センサにおける回転と平行移動の変化量を推定する。推定した値をカメラポーズ変化量として出力する。
【0058】
画像再投影部39は、ソース画像と、カメラポーズ推定器38が出力したカメラポーズ変化量と、距離推定器33が出力した推定距離から、ターゲット画像の推定画像を再投影する。すなわち、ソース画像に対し、推定したソース画像からターゲット画像への画像センサの姿勢の変化の情報と、推定距離とを当てはめて、ターゲット画像の態様を推定した推定画像を生成する。なお、推定距離の当てはめは、画像再投影部39が推定距離を取得して行っても良いが、比較部34が画像再投影部39から再投影した推定画像に対応する推定距離を距離推定器33から取得することで行ってもよい。
【0059】
距離推定器33は入力された画像が測定点pに対応する推定点qの距離推定を行う処理と、入力された画像の各ピクセルに対して距離推定を行う処理を切り替える機能を備える。比較部34は、取得したターゲット画像と、推定画像を比較し、画像間誤差を算出する。上記第1実施形態と同様に算出した実距離と推定距離の差を示すロスに(式(1)参照)、再投影誤差を示すロスを加えた、ロスの和を用いて学習を行う。
【0060】
図13に示すように、距離推定器33は、抽出された観察画像の各ピクセルに対する距離推定により、第1観察画像51のスケール無し推定距離情報を可視化した第1推定深度マップ54と、第2観察画像52のスケール無し推定距離情報を可視化した第2推定深度マップ55を取得する。推定深度マップは、カメラ12に対する距離の分布を濃淡で表しており、色が淡いほど距離が短く、色が濃いほど距離が遠いことを示している。スケール無し推定距離の算出であるため、推定深度マップにおける距離の分布は、画像内の相対的な距離を表す。なお、推定深度マップを画像として出力してもよい。
【0061】
スケール無し距離推定では、絶対的なスケール(mm、cm等)で推定距離の算出は困難であるが、観察画像40の撮影時に取得した疎な実距離データと組み合わせることで、推定した深度にスケールを当てはめることができる。
【0062】
図14に示すように、カメラポーズ推定器38によるカメラポーズ変化の推定では、画像取得部20から第1観察画像51と第2観察画像52の入力を受け付け、第1観察画像51と、第2観察画像52との間におけるカメラ12の回転量と、平行移動量をカメラポーズ変化量として算出する。
【0063】
カメラポーズ変化量及び推定距離が得られた場合、ターゲット画像を再投影した推定画像を生成でき、再投影誤差を算出するため、推定画像と、推定画像に対応するターゲット画像のペアを作成する。比較部34におけるターゲット画像と推定画像の比較により再投影誤差が得られ、パラメータ更新部35では再投影誤差を最小化又は閾値以下の値となるように距離推定パラメータを更新する。
【0064】
図15に示すように、第2観察画像52の再投影において、第1観察画像51と、第2推定深度マップ55と、少なくとも回転量及び平行移動量を有するカメラポーズ変化量を画像再投影部39に入力する。画像再投影部39は、第2観察画像52の推定深度と、算出したカメラポーズ変化量に基づいて、第1観察画像51から第2観察画像52を再投影した、推定第2画像52aを生成する。推定第2画像52aは、比較部34に送信される。比較部34は、第2観察画像52と、推定第2画像52aを取得し、比較を行う。比較により再投影誤差をロスとして算出する。
【0065】
図16に示すように、第1観察画像51と第2観察画像52から、ソース画像とターゲット画像を逆にした関係からも再投影を行い、推定第1画像51aと推定第2画像52aを生成して2つの再投影誤差を算出してもよい。本実施形態の第1観察画像51と第2観察画像52を用いた再投影誤差を示すロスの算出において、再投影誤差を算出する。時系列において後に取得された第2観察画像52から、第1観察画像51のスケール無し距離推定を行った第1推定深度マップ54、カメラポーズ推定器38で出力した第2観察画像52から第1観察画像51への回転量、及び平行移動量を少なくとも含むカメラポーズ変化量を算出する。これにより、同じ数の観察画像40を用いる場合、精度の高い距離推定パラメータの更新ができる。
【0066】
パラメータ更新部35は、ロスとして算出した再投影誤差を距離推定器33に伝達することで、教師無し学習に関する距離推定パラメータを更新できる。距離推定パラメータは、再投影誤差を最小化する値又は閾値以下にする値となるように更新する。推定画像を用いた教師無し学習によるロスと、上記第1実施形態の教師あり学習によるロスの算出を並行して行う。最小化の場合は、距離推定器33は、入力されたロスの和が最小化するように距離推定パラメータを更新する学習を行う。また、その場合再投影誤差自体も最小化するように距離推定パラメータを更新することが好ましい。同様に閾値以下の値となるように距離推定パラメータを更新する場合であってもよい。また、時系列画像からはカメラポーズ変化前後である、少なくとも2つの観察画像を抽出するが、3つ以上抽出して、複数の再投影誤差を算出してもよい。
【0067】
第2実施形態は、時系列画像50と、疎な実距離データを有する観察画像40を用いた、教師無し学習と、教師あり学習とを併用して学習を行うことで、疎な実距離データを有する観察画像に対しても、精度の高い距離推定を観察画像全体に対して行うことができる。
【0068】
[第3実施形態]
第3実施形態では、距離推定器33が教師無し学習等を行った学習済みモデルに、疎な実距離データを用いて距離推定パラメータをフィッティングさせる形態である。なお、その他の第1実施形態又は第2実施形態と同様である内容については説明を省略する。
【0069】
教師無し学習では、絶対的なスケールでの距離推定が困難であるため、疎な実距離データを用いてスケール係数Sに関する調整を行う。距離推定パラメータの更新において、第1実施形態では実距離と推定距離の差を、第2実施形態では、観察画像と対応する推定画像の再投影誤差を用いて距離推定器33を学習させる内容であるが、本実施形態では、実距離と推定距離の比較に関して、距離推定パラメータに含まれる距離推定を行う際のスケール係数Sを用いる。
【0070】
比較部34は、疎な実距離データにおける実距離と、疎な実距離に対応する推定点から取得した推定距離にスケール係数Sをかけた値との誤差Eを計算する。パラメータ更新部35は、距離推定器33にスケール係数の値と誤差Eの関係に基づいて、誤差Eが最小化又は閾値以下の値となるスケール係数Sを算出する。距離推定器33は、取得したスケール係数Sを用いて、距離推定パラメータを更新し、学習を行う。
【0071】
誤差Eは、例えば、実距離値の測定点p、疎な実距離データD(p)、推定距離データD‘(p)、スケール係数Sとすると下記の式(2)を用いて求めることができる。特に指定の無い場合、推定点qは対応する測定点pを用いるため、D‘(q)をD‘(p)として用いる。なお、測定点pは疎な実距離値が存在する点の集合を構成する。
【0072】
E=Σ(D(p)-S*D‘(p)) (2)
【0073】
教師無し学習において、十分に学習ができている場合などに、教師あり学習を新たに実施し、実距離データを大量に取得することは手間や時間がかかる場合がある。そのため、本実施形態で用いる疎な実距離データでスケール係数Sを特定させることで、学習におけるユーザの負担や、時間を少なくできる。スケール係数Sを用いた距離推定パラメータの更新は、第1実施形態又は第2実施形態の内容と組み合わせてもよい。
【0074】
本実施形態では、カメラ12が、内視鏡撮影画像、屋内撮影画像、屋外撮影画像を取得した場合に対する距離推定の処理を行う例で画像学習装置11の説明をしたが、本発明はこれに限定されず、超音波画像撮影装置や放射線撮影装置などの医療用装置や、他の撮影装置で取得した画像に対して、距離推定器33の学習を行ってもよい。
【0075】
各実施形態において、中央制御部、入力受信部、画像取得部20、表示制御部22、学習モデル管理部30における実距離照合部32、距離推定器33、比較部34、パラメータ更新部35、カメラポーズ推定器38、及び画像再投影部39といった各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウエア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、各種の処理を実行するために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0076】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合せ(例えば、複数のFPGAや、CPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウエアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0077】
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた形態の電気回路(Circuitry)である。また、記憶部のハードウェア的な構造はHDD(Hard Disc Drive)やSSD(Solid State Drive)等の記憶装置である。また、上記記載から、以下の付記1~11に記載の画像学習装置及び画像学習方法を把握することができる。
【0078】
[付記1]
プロセッサを備え、
前記プロセッサは、
画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得し、
前記観察画像に対して、前記画像センサの撮影範囲内の複数の箇所のそれぞれについて前記観察対象までの推定距離を、距離推定パラメータを用いて算出し、
前記撮影範囲内の少なくとも1つの箇所について、前記観察対象までの距離を測定した実距離と、前記推定距離との差に基づいて、前記距離推定パラメータを更新する画像学習装置。
【0079】
[付記2]
前記プロセッサは、
前記観察画像における一部の箇所に対してのみ前記推定距離を算出する付記1に記載の画像学習装置。
【0080】
[付記3]
前記プロセッサは、
前記実距離を測定した箇所に対して前記推定距離を算出する付記2に記載の画像学習装置。
【0081】
[付記4]
距離推定モデルを有し、
前記プロセッサは、
前記距離推定モデルを用いて、前記距離推定パラメータを用いた前記推定距離の算出、及び前記差に基づいて前記距離推定パラメータを更新する学習を行う付記1ないし3いずれか1つ記載の画像学習装置。
【0082】
[付記5]
前記プロセッサは、
時系列に撮影された複数の前記観察画像から、第1観察画像と、前記第1観察画像から一定時間の経過後に撮影された第2観察画像とを取得し、
前記第1観察画像と前記第2観察画像との間における前記画像センサの回転及び移動の変化量であるカメラポーズ変化量を算出し、
前記第1観察画像と、前記カメラポーズ変化量、及び前期推定距離を用いて、前記第1観察画像から前記一定時間の経過後の態様を推定した推定第2画像を再投影し、
前記第2観察画像と、前記推定第2画像との再投影誤差を算出し、
前記再投影誤差を最小化するように前記距離推定パラメータを更新する付記1ないし4いずれか1つに記載の画像学習装置。
【0083】
[付記6]
前記プロセッサは、
前記第2観察画像と、前記カメラポーズ変化量、及び前期推定距離を用いて、前記第2観察画像における前記一定時間の経過前の態様を推定した推定第1画像を再投影し、
前記第1観察画像と、前記推定第1画像との再投影誤差を最小化するように前記距離推定パラメータを更新する付記5に記載の画像学習装置。
【0084】
[付記7]
前記プロセッサは、
前記距離推定パラメータを、前記実距離と前記推定距離との差が最小の値又は予め定めた閾値以下となるように更新する付記1ないし6いずれか1つに記載の画像学習装置。
【0085】
[付記8]
前記プロセッサは、
前記実距離と、前記推定距離にスケール係数をかけた値との誤差が最小の値又は閾値以下となる前記スケール係数を算出し、
前記スケール係数を用いて前記距離推定パラメータを更新する付記5に記載の画像学習装置。
【0086】
[付記9]
前記観察対象は消化管であり、前記観察画像は内視鏡画像である付記1ないし8いずれか1つに記載の画像学習装置。
【0087】
[付記10]
前記プロセッサは、
レーザーによる距離測定により取得した値を前記実距離に用いる付記1ないし9いずれか1つに記載の画像学習装置。
【0088】
[付記11]
画像センサにより観察対象を撮影した観察画像を少なくとも1つ取得するステップと、
前記観察画像に対して、前記画像センサの撮影範囲内の複数の箇所のそれぞれについて前記観察対象までの推定距離を、距離推定パラメータを用いて算出するステップと、
前記撮影範囲内の少なくとも1つの箇所について、前記観察対象までの距離を測定した実距離と、前記推定距離との差に基づいて、前記距離推定パラメータを更新するステップとを有する画像学習方法。
【符号の説明】
【0089】
10 画像学習システム
11 画像学習装置
12 カメラ
12a 距離測定部
13 データベース
14 ディスプレイ
15 ユーザインターフェース
16 内視鏡システム
16a 内視鏡
16b 光源装置
16c プロセッサ装置
16d 先端部
20 画像取得部
22 表示制御部
30 学習モデル管理部
32 実距離取得部
33 距離推定器
34 比較部
35 パラメータ更新部
38 カメラポーズ推定器
39 画像再投影部
40 観察画像
42 密な実距離データマップ
44 疎な実距離データマップ
46 推定距離データマップ
50 時系列画像
51 第1観察画像
51a 推定第1画像
52 第2観察画像
52a 推定第2画像
54 第1推定深度マップ
55 第2推定深度マップ
L 測定光
p 測定点
q 推定点
R 撮影範囲
T 観察対象
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16