(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-31
(45)【発行日】2024-02-08
(54)【発明の名称】画像処理システム、内視鏡システム、画像処理システムの作動方法及びプログラム
(51)【国際特許分類】
A61B 1/045 20060101AFI20240201BHJP
A61B 1/00 20060101ALI20240201BHJP
【FI】
A61B1/045 614
A61B1/045 618
A61B1/00 513
(21)【出願番号】P 2021569655
(86)(22)【出願日】2020-01-09
(86)【国際出願番号】 JP2020000375
(87)【国際公開番号】W WO2021140600
(87)【国際公開日】2021-07-15
【審査請求日】2022-06-29
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】100104710
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】白谷 文行
【審査官】▲高▼ 芳徳
(56)【参考文献】
【文献】国際公開第2018/105063(WO,A1)
【文献】国際公開第2020/003991(WO,A1)
【文献】国際公開第2019/138773(WO,A1)
【文献】特開2012-115554(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 1/00 - 1/32
G02B 23/24 - 23/26
(57)【特許請求の範囲】
【請求項1】
処理対象画像を取得する画像取得部と、
前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、
を含み、
前記処理部は、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、
前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含み前記注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、
前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の統合処理を行い、
前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の前記統合処理を行い、
前記第1注目領域検出器は、
前記第1観察方法で撮影された複数の第1学習用画像と、前記第1学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第2注目領域検出器は、
前記第2観察方法で撮影された複数の第2学習用画像と、前記第2学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データ
と、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データとを含む、
ことを特徴とする画像処理システム。
【請求項2】
請求項1において、
前記処理部は、
前記第1注目領域検出器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第1スコアを出力する処理と、前記第2注目領域検出器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第2スコアを出力する処理の少なくとも一方を行い、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第3スコアを出力する処理を行い、
前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1スコア及び前記第3スコアを統合することによって第4スコアを求め、前記第4スコアに基づく前記検出結果を出力し、
前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2スコア及び前記第3スコアを統合することによって第5スコアを求め、前記第5スコアに基づく前記検出結果を出力する、
ことを特徴とする画像処理システム。
【請求項3】
請求項1において、
前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
前記第1観察方法は、通常光を照明光とする観察方法であり、
前記第2観察方法は、特殊光を前記照明光とする観察方法である、
ことを特徴とする画像処理システム。
【請求項4】
請求項1において、
前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
前記第1観察方法は、通常光を照明光とする観察方法であり、
前記第2観察方法は、被写体に対して色素散布が行われた観察方法である、
ことを特徴とする画像処理システム。
【請求項5】
請求項1において、
前記第2注目領域検出器は、
前記第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第2観察方法において撮像された画像を含む第2画像群を用いてファインチューニングされることによって学習された前記学習済モデルである、
ことを特徴とする画像処理システム。
【請求項6】
請求項
1において、
前記観察方法分類器は、
前記第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第1観察方法において撮像された画像及び前記第2観察方法において撮像された画像を含む第3画像群を用いてファインチューニングされることによって学習された前記学習済モデルである、
ことを特徴とする画像処理システム。
【請求項7】
請求項1において、
前記観察方法分類器、前記第1注目領域検出器及び前記第2注目領域検出器の少なくとも1つは、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなることを特徴とする画像処理システム。
【請求項8】
請求項1において、
前記第1注目領域検出器及び前記第2注目領域検出器は、
前記注目領域の有無、前記注目領域の位置、前記注目領域の大きさ、前記注目領域の形状のうちの少なくとも1つを検出することを特徴とする画像処理システム。
【請求項9】
生体内画像を撮像する撮像部と、
前記生体内画像を処理対象画像として取得する画像取得部と、
前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、
を含み、
前記処理部は、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、
前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含み前記注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、
前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の統合処理を行い、
前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の前記統合処理を行い、
前記第1注目領域検出器は、
前記第1観察方法で撮影された複数の第1学習用画像と、前記第1学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第2注目領域検出器は、
前記第2観察方法で撮影された複数の第2学習用画像と、前記第2学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データ
と、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データとを含む、
ことを特徴とする内視鏡システム。
【請求項10】
画像取得部と処理部とを含む画像処理システムの作動方法であって、
前記画像取得部は、処理対象画像を取得し、
前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、
前記処理部は、前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含み注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記処理部は、前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記第1注目領域検出器は、
前記第1観察方法で撮影された複数の第1学習用画像と、前記第1学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第2注目領域検出器は、
前記第2観察方法で撮影された複数の第2学習用画像と、前記第2学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データ
と、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データとを含む、
ことを特徴とする画像処理システムの作動方法。
【請求項11】
処理対象画像を取得し、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、
前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含み注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行う、
ステップをコンピュータに実行させ、
前記第1注目領域検出器は、
前記第1観察方法で撮影された複数の第1学習用画像と、前記第1学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第2注目領域検出器は、
前記第2観察方法で撮影された複数の第2学習用画像と、前記第2学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データ
と、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データとを含む、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、内視鏡システム、画像処理システムの作動方法及びプログラム等に関する。
【背景技術】
【0002】
生体内画像を対象とした画像処理を行うことによって、医師による診断をサポートする手法が広く知られている。特に、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。また、画像認識の精度を向上させるための手法も種々開示されている。
【0003】
例えば特許文献1では、異常陰影候補の判定に、既に、正常画像か異常画像かの分類がなされている複数の画像の特徴量と新規入力画像の特徴量の比較判定を用いることにより、判定精度の向上を図ろうとしている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
医師が内視鏡を用いた診断を行う際、複数の観察方法を切り替えて利用する場合がある。第1観察方法において撮像された画像に基づいて生成された注目領域検出器を用いる場合、第1観察方法において撮像された画像を対象とした検出精度に比べて、異なる第2観察方法において撮像された画像を対象とした検出精度が低下してしまう。
【0006】
特許文献1では、学習時及び検出処理時における画像の観察方法が考慮されておらず、当該観察方法に応じて特徴量の抽出や比較判定の仕方を変更するといった手法は開示されていない。このため、予め分類がなされている複数の画像とは観察方法が異なる画像が入力された際には、判定精度が悪化する。
【0007】
本開示のいくつかの態様によれば、複数の観察方法において撮像された画像を対象とする場合にも、精度の高い検出処理を実行できる画像処理システム、内視鏡システム及び画像処理方法等を提供できる。
【課題を解決するための手段】
【0008】
本開示の一態様は、処理対象画像を取得する画像取得部と、前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、を含み、前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記処理部は、前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力し、前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力する画像処理システムに関係する。
【0009】
本開示の他の態様は、生体内画像を撮像する撮像部と、前記生体内画像を処理対象画像として取得する画像取得部と、前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、を含み、前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記処理部は、前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力し、前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力する内視鏡システムに関係する。
【0010】
本開示のさらに他の態様は、処理対象画像を取得し、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、前記観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記選択処理において前記第1注目領域検出器が選択された場合に、前記第1注目領域検出器に基づいて、前記第1観察方法に分類された前記処理対象画像から注目領域を検出した検出結果を出力し、前記選択処理において前記第2注目領域検出器が選択された場合に、前記第2注目領域検出器に基づいて、前記第2観察方法に分類された前記処理対象画像から前記注目領域を検出した検出結果を出力する画像処理方法に関係する。
【図面の簡単な説明】
【0011】
【
図1】画像処理システムを含むシステムの概略構成例。
【
図5】
図5(A)、
図5(B)はニューラルネットワークの構成例。
【
図6】
図6(A)は注目領域検出器の入力と出力を説明する図、
図6(B)は観察方法分類器の入力と出力を説明する図。
【
図8】第1の実施形態における画像処理システムの構成例。
【
図9】第1の実施形態における検出処理を説明するフローチャート。
【
図10】検出一体型観察方法分類器であるニューラルネットワークの構成例。
【
図11】第2の実施形態における画像処理システムの構成例。
【
図12】第2の実施形態における検出処理を説明するフローチャート。
【
図13】第3の実施形態における学習装置の構成例。
【
図14】第4の実施形態における学習装置の構成例。
【発明を実施するための形態】
【0012】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0013】
1.概要
医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、具体的には撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。
【0014】
通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば390~445nmに対応する狭帯域光と、530~550nmに対応する狭帯域光を用いたNBI(Narrow Band Imaging)が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。
【0015】
上述したように、医師による診断をサポートする目的で、ディープラーニング等の機械学習によって検出器を作成し、当該検出器を注目領域の検出に応用する試みがなされている。なお、本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。以下、注目領域が病変、又はポリープである例について主に説明する。
【0016】
内視鏡検査中には、医師が照明光を通常光と特殊光との間で切り替える、体内組織に色素を散布する等、被写体を撮像する観察方法が変化する。この観察方法変化に起因して、病変検出に適した検出器のパラメータが変化する。例えば、通常光画像のみを用いて学習させた検出器では、通常光画像に比較して特殊光画像の病変検出の精度が芳しくない結果になると考えられる。そのため、内視鏡検査中に観察方法が変化する場合にも、病変の検出精度を良好に保つ手法が求められている。
【0017】
しかし特許文献1等の従来手法においては、どのような画像を訓練データとして用いることによって検出器を生成するか、又、複数の検出器を生成した場合、当該複数の検出器をどのように組み合わせて検出処理を実行するか、について開示がなかった。
【0018】
本実施形態の手法においては、第1観察方法において撮像された画像に基づいて生成された第1注目領域検出器と、第2観察方法において撮像された画像に基づいて生成された第2注目領域検出器に基づいて注目領域の検出処理を行う。その際、観察方法分類部に基づいて処理対象画像の観察方法を推定し、推定結果に基づいて、検出処理に用いる検出器を選択する。このようにすれば、処理対象画像の観察方法が種々変化する場合であっても、当該処理対象画像を対象とした検出処理を精度よく行うことが可能になる。
【0019】
以下、まず
図1~
図4を用いて本実施形態に係る画像処理システム200を含むシステムの概略構成を説明する。その後、第1~第4の実施形態において、具体的な手法や処理の流れについて説明する。
【0020】
図1は、画像処理システム200を含むシステムの構成例である。システムは、学習装置100と、画像処理システム200と、内視鏡システム300を含む。ただしシステムは
図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
【0021】
学習装置100は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム300は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム200は、生体内画像を処理対象画像として取得する。そして画像処理システム200は、学習装置100が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の検出処理を行う。内視鏡システム300は、検出結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。
【0022】
学習装置100、画像処理システム200、内視鏡システム300は、例えばそれぞれが別体として設けられてもよい。学習装置100及び画像処理システム200は、それぞれが例えばPC(Personal Computer)やサーバシステム等の情報処理装置である。なお学習装置100は、複数の装置による分散処理によって実現されてもよい。例えば学習装置100は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム200も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム300は、例えば
図4を用いて後述するように、挿入部310と、システム制御装置330と、表示部340とを含む装置である。ただし、システム制御装置330の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置330の一部又は全部は、クラウドコンピューティングによって実現される。
【0023】
また、画像処理システム200及び学習装置100の一方が他方を含んでもよい。この場合、画像処理システム200(学習装置100)は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理の両方を実行するシステムである。また画像処理システム200及び内視鏡システム300の一方が、他方を含んでもよい。例えば、内視鏡システム300のシステム制御装置330が画像処理システム200を含む。この場合、システム制御装置330は、内視鏡システム300の各部の制御と、学習済モデルに従った検出処理の両方を実行する。或いは、学習装置100、画像処理システム200、システム制御装置330の全てを含むシステムが実現されてもよい。例えば、1又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理と、内視鏡システム300の各部の制御と、を実行してもよい。以上のように、
図1に示すシステムの具体的な構成は種々の変形実施が可能である。
【0024】
図2は、学習装置100の構成例である。学習装置100は、画像取得部110と、学習部120を含む。画像取得部110は、学習用画像を取得する。画像取得部110は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部120は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。
【0025】
学習部120は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
【0026】
また学習部120は、下記のプロセッサにより実現されてもよい。学習装置100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部120の各部の機能が処理として実現されることになる。学習部120の各部とは、例えば
図7、
図13、
図14を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0027】
図3は、画像処理システム200の構成例である。画像処理システム200は、画像取得部210と、処理部220と、記憶部230を含む。
【0028】
画像取得部210は、内視鏡システム300の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部210は、内視鏡システム300からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。
【0029】
処理部220は、学習済モデルに従って動作することによって、処理対象画像における注目領域の検出処理を行う。また処理部220は、学習済モデルの検出結果に基づいて、出力する情報を決定する。処理部220は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。
【0030】
また処理部220は、下記のプロセッサにより実現されてもよい。画像処理システム200は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部230であってもよいし、異なるメモリであってもよい。プロセッサは、GPU等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部220の各部の機能が処理として実現される。処理部220の各部とは、例えば
図8及び
図11を用いて後述する各部である。
【0031】
記憶部230は、処理部220等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部230は、画像取得部210が取得した処理対象画像を記憶する。また記憶部230は、学習装置100によって生成された学習済モデルの情報を記憶する。
【0032】
図4は、内視鏡システム300の構成例である。内視鏡システム300は、挿入部310と、外部I/F部320と、システム制御装置330と、表示部340と、光源装置350を含む。
【0033】
挿入部310は、その先端側が体内へ挿入される部分である。挿入部310は、対物光学系311、撮像素子312、アクチュエータ313、照明レンズ314、ライトガイド315、AF(Auto Focus)開始/終了ボタン316を含む。
【0034】
ライトガイド315は、光源352からの照明光を、挿入部310の先端まで導光する。照明レンズ314は、ライトガイド315によって導光された照明光を被写体に照射する。対物光学系311は、被写体から反射した反射光を、被写体像として結像する。対物光学系311は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ313は、AF制御部336からの指示に基づいて、フォーカスレンズを駆動する。なお、AFは必須ではなく、内視鏡システム300はAF制御部336を含まない構成であってもよい。
【0035】
撮像素子312は、対物光学系311を経由した被写体からの光を受光する。撮像素子312はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
【0036】
AF開始/終了ボタン316は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部320は、内視鏡システム300に対するユーザからの入力を行うためのインターフェースである。外部I/F部320は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
【0037】
システム制御装置330は、画像処理やシステム全体の制御を行う。システム制御装置330は、A/D変換部331、前処理部332、検出処理部333、後処理部334、システム制御部335、AF制御部336、記憶部337を含む。
【0038】
A/D変換部331は、撮像素子312から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部332に順次出力する。前処理部332は、A/D変換部331から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部333、AF制御部336に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
【0039】
検出処理部333は、例えば前処理部332から取得した補正処理後の画像を、内視鏡システム300の外部に設けられる画像処理システム200に送信する処理を行う。内視鏡システム300は不図示の通信部を含み、検出処理部333は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム200に送信するための通信インターフェースである。また検出処理部333は、通信部の通信制御を行うことによって、画像処理システム200から検出結果を受信する処理を行う。
【0040】
或いは、システム制御装置330は、画像処理システム200を含んでもよい。この場合、A/D変換部331が、画像取得部210に対応する。記憶部337が、記憶部230に対応する。前処理部332、検出処理部333、後処理部334等が、処理部220に対応する。この場合、検出処理部333は、記憶部337に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の検出処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部333は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、検出結果を出力する。
【0041】
後処理部334は、検出処理部333における検出結果に基づく後処理を行い、後処理後の画像を表示部340に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部334は、前処理部332から出力された画像に対して、検出処理部333において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。
【0042】
システム制御部335は、撮像素子312、AF開始/終了ボタン316、外部I/F部320、AF制御部336と互いに接続され、各部を制御する。具体的には、システム制御部335は、各種制御信号の入出力を行う。AF制御部336は、前処理部332から順次出力される画像を用いてAF制御を行う。
【0043】
表示部340は、後処理部334から出力される画像を順次表示する。表示部340は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。光源装置350は、照明光を発光する光源352を含む。光源352は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源352は他の光源であってもよく、発光方式は限定されない。
【0044】
なお、光源装置350は、通常光と特殊光を照射可能である。例えば光源装置350は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置350は、赤色LED、緑色LED、青色LED、緑色狭帯域光LED、青色狭帯域光LED等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置350は、赤色LED、緑色LED、青色LEDを点灯させることによって通常光を照射し、緑色狭帯域光LED、青色狭帯域光LEDを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。
【0045】
2.第1の実施形態
以下では、第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明する。ただし、第2観察方法は色素散布観察であってもよい。即ち、以下の説明において、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。
【0046】
まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明する。即ち、以下で説明する第1注目領域検出器、第2注目領域検出器及び観察方法分類器は、例えばニューラルネットワークを用いた学習済モデルである。ただし、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
【0047】
図5(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。
図5(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は
図5(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
【0048】
図5(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
【0049】
ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置100は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置100の学習部120は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
【0050】
またニューラルネットワークは例えばCNN(Convolutional Neural Network)であってもよい。
図5(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。
図5(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、
図5(A)を用いて上述した各層の演算に対応する。なお、
図5(B)では記載を省略しているが、CNNでは活性化関数による演算処理も行われる。CNNは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のCNNは、公知のRPN等(Region Proposal Network)を利用できる。
【0051】
CNNを用いる場合も、処理の手順は
図5(A)と同様である。即ち、学習装置100は、訓練データのうちの入力データをCNNに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
【0052】
次に、本実施形態における機械学習について説明する。画像処理システム200が実行する注目領域の検出処理とは、具体的には注目領域の有無、位置、大きさ、形状のうち少なくとも1つを検出する処理である。
【0053】
例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の4つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。
【0054】
図7は、第1の実施形態における学習装置100の構成例である。学習装置100の学習部120は、観察方法別学習部121と、観察方法分類学習部122を含む。観察方法別学習部121は、画像取得部110から画像群A1を取得し、当該画像群A1に基づく機械学習を行うことによって、第1注目領域検出器を生成する。また観察方法別学習部121は、画像取得部110から画像群A2を取得し、当該画像群A2に基づく機械学習を行うことによって、第2注目領域検出器を生成する。即ち、観察方法別学習部121は、異なる複数の画像群に基づいて、複数の学習済モデルを生成する。
【0055】
観察方法別学習部121において実行される学習処理は、通常光画像と特殊光画像のいずれか一方に特化した学習済モデルを生成するための学習処理である。即ち、画像群A1は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する情報である検出データが付与された学習用画像を含む。画像群A1は、特殊光画像に対して検出データが付与された学習用画像を含まない、又は、含むとしてもその枚数が通常光画像に比べて十分少ない。
【0056】
例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。例えば画像群A1に含まれる学習用画像は、通常光画像中のポリープ領域を矩形枠で囲み、当該矩形枠に「ポリープ」というラベルが付加され、それ以外の領域に「正常」というラベルが付加されたデータであってもよい。なお検出枠は矩形枠に限定されず、ポリープ領域付近を囲むものであれば、楕円形状の枠等でもよい。
【0057】
画像群A2は、特殊光画像に対して、検出データが付与された学習用画像を含む。画像群A2は、通常光画像に対して検出データが付与された学習用画像を含まない、又は、含むとしてもその枚数が特殊光画像に比べて十分少ない。検出データは画像群A1と同様であり、マスクデータであってもよいし、検出枠を特定する情報であってもよい。
【0058】
図6(A)は、第1注目領域検出器及び第2注目領域検出器の入力及び出力を説明する図である。第1注目領域検出器及び第2注目領域検出器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、検出結果を表す情報を出力する。観察方法別学習部121は、画像が入力される入力層と、中間層と、検出結果を出力する出力層を含むモデルの機械学習を行う。例えば第1注目領域検出器及び第2注目領域検出器は、それぞれRPN(Region Proposal Network)、Faster R-CNN、YOLO(You only Look Once)等の物体検出用CNNである。
【0059】
具体的には、観察方法別学習部121は、画像群A1に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部121は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が1枚の学習用画像に基づく処理であり、観察方法別学習部121は、上記処理を繰り返すことによって第1注目領域検出器の重み付け係数を学習する。なお、重み付け係数の更新は1枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。
【0060】
同様に観察方法別学習部121は、画像群A2に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部121は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法別学習部121は、上記処理を繰り返すことによって第2注目領域検出器の重み付け係数を学習する。
【0061】
画像群A3は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、例えば通常光画像又は特殊光画像のいずれかを表すラベルである。
【0062】
図6(B)は、観察方法分類器の入力と出力を説明する図である。観察方法分類器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、観察方法分類結果を表す情報を出力する。
【0063】
観察方法分類学習部122は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。観察方法分類器は、例えば、VGG16やResNet等の画像分類用CNNである。観察方法分類学習部122は、画像群A3に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部121は、出力層の出力と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法分類学習部122は、上記処理を繰り返すことによって観察方法分類器の重み付け係数を学習する。
【0064】
なお、観察方法分類器における出力層の出力は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。例えば観察方法分類器の出力層が公知のソフトマックス層である場合、出力層は合計が1となる2つの確率データを出力する。正解データであるラベルが通常光画像である場合、通常光画像である確率データが1であり、特殊光画像である確率データが0であるデータを正解データとして誤差関数が求められる。観察方法分類器は、観察方法分類結果である観察方法分類ラベルと、当該観察方法分類ラベルの確からしさを表す観察方法分類スコアを出力可能である。観察方法分類ラベルとは、確率データが最大となる観察方法を表すラベルであり、例えば通常光観察と特殊光観察のいずれかを表すラベルである。観察方法分類スコアとは、観察方法分類ラベルに対応する確率データである。
図6(B)においては観察方法分類スコアは省略されている。
【0065】
図8は、第1の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、観察方法分類部221と、選択部222と、検出処理部223と、出力処理部224を含む。観察方法分類部221は、観察方法分類器に基づく観察方法分類処理を行う。選択部222は、観察方法分類処理の結果に基づいて注目領域検出器を選択する。検出処理部223は、第1注目領域検出器と第2注目領域検出器の少なくとも一方を用いた検出処理を行う。出力処理部224は、検出結果に基づいて出力処理を行う。
【0066】
図9は、第1の実施形態における画像処理システム200の処理を説明するフローチャートである。まずステップS101において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
【0067】
ステップS102において、観察方法分類部221は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部221は、画像取得部210が取得した処理対象画像を観察方法分類器に入力することによって、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。観察方法分類部221は、2つの確率データの大小関係に基づいて、観察方法分類処理を行う。
【0068】
ステップS103において、選択部222は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部222は第1注目領域検出器を選択する。処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部222は第2注目領域検出器を選択する。選択部222は、選択結果を検出処理部223に送信する。
【0069】
選択部222が第1注目領域検出器を選択した場合、ステップS104において、検出処理部223は、第1注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部223は、処理対象画像を第1注目領域検出器に入力することによって、処理対象画像中の所定数の検出枠に関する情報と、当該検出枠に対応付けられた検出スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。
【0070】
選択部222が第2注目領域検出器を選択した場合、ステップS105において、検出処理部223は、第2注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部223は、処理対象画像を第2注目領域検出器に入力することによって、検出枠と検出スコアを取得する。
【0071】
ステップS106において、出力処理部224は、ステップS104又はS105において取得された検出結果を出力する。例えば出力処理部224は、検出スコアと所与の検出閾値を比較する処理を行う。所与の検出枠の検出スコアが検出閾値未満である場合、当該検出枠に関する情報は信頼性が低いため出力対象から除外される。
【0072】
ステップS106における処理は、例えば画像処理システム200が内視鏡システム300に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部340に表示する処理である。また画像処理システム200と内視鏡システム300が別体として設けられる場合、上記処理は、例えば表示画像の内視鏡システム300への送信処理である。或いは上記処理は、検出枠を表す情報を内視鏡システム300へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム300において実行される。
【0073】
以上のように、本実施形態に係る画像処理システム200は、処理対象画像を取得する画像取得部210と、処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部220を含む。
図8、及び
図9のステップS102、S103に示したように、処理部220は、観察方法分類器に基づいて、処理対象画像が撮像されたときの被写体の観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理と、観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。なお第1の実施形態においては、複数の観察方法は、第1観察方法と第2観察方法の2つである。複数の注目領域検出器は、第1注目領域検出器及び第2注目領域検出器の2つである。よって処理部220は、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を第1観察方法又は第2観察方法に分類する観察方法分類処理と、観察方法分類器の分類結果に基づいて、第1注目領域検出器又は第2注目領域検出器を選択する選択処理を行う。ただし、第3の実施形態において後述するように、観察方法は3つ以上であってもよい。また注目領域検出器についても3つ以上であってもよい。特に、後述するCNN_AB等のように、観察方法混合型の注目領域検出器を用いる場合、注目領域検出器の数が観察方法よりも多くてもよいし、1回の選択処理によって選択される注目領域検出器が2以上であってもよい。
【0074】
処理部220は、選択処理において第1注目領域検出器が選択された場合に、第1注目領域検出器に基づいて、第1観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また処理部220は、選択処理において第2注目領域検出器が選択された場合に、第2注目領域検出器に基づいて、第2観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。
【0075】
本実施形態の手法においては、異なる観察方法が想定される場合に、各観察方法に適した注目領域検出器が作成されている。その上で、処理対象画像が撮像されたときの観察方法の分類結果に基づいて、適切な注目領域検出器を選択することによって、処理対象画像の観察方法によらず、精度の高い検出処理を行うことが可能になる。なお、以上の説明においては、第1注目領域検出器を用いた検出処理と第2注目領域検出器を用いた検出処理のいずれか一方が行われる例を示したが、処理の流れはこれに限定されない。例えば検出処理部223は、第1注目領域検出器を用いた検出処理と第2注目領域検出器を用いた検出処理の両方を行っておき、観察方法分類結果に基づいて、いずれか一方の検出結果を出力処理部224に送信するように構成されてもよい。
【0076】
なお、観察方法分類器、第1注目領域検出器、第2注目領域検出器のそれぞれに基づく処理は、学習済モデルからの指示に従って処理部220が動作することによって実現される。学習済モデルに従った処理部220における演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、
図5(A)の各ノードにおいて実行される積和演算や、CNNの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部220の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部230に記憶され、処理部220は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現され、記憶部230はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがFPGA等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部230は、例えばFPGAの内蔵メモリである。
【0077】
また本実施形態における処理対象画像は、内視鏡撮像装置によって撮像された生体内画像である。ここで、内視鏡撮像装置とは、内視鏡システム300に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子312に対応する。
【0078】
そして第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、特殊光を照明光とする観察方法である。このようにすれば、照明光が通常光と特殊光の間で切り替えられることによって観察方法が変化する場合であっても、当該変化に起因する検出精度の低下を抑制できる。
【0079】
また第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、被写体に対して色素散布が行われた観察方法であってもよい。このようにすれば、被写体に色材を散布することによって観察方法が変化する場合であっても、当該変化に起因する検出精度の低下を抑制できる。
【0080】
特殊光観察及び色素散布観察は、通常光観察に比べて特定の被写体の視認性を向上させることが可能になるため、通常光観察と併用する利点が大きい。本実施形態の手法によれば、特殊光観察や色素散布観察によってユーザに視認性の高い画像を提示することと、注目領域検出器による検出精度を維持することの両立が可能になる。
【0081】
また第1注目領域検出器は、第1観察方法で撮影された複数の第1学習用画像と、第1学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルである。また第2注目領域検出器は、第2観察方法で撮影された複数の第2学習用画像と、第2学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データに基づく機械学習によって取得された学習済モデルである。
【0082】
このようにすれば、学習段階において用いられる学習用画像の観察方法と、推論段階において入力となる処理対象画像の観察方法とを揃えることが可能になる。そのため、第1観察方法において撮像された画像を対象とした検出処理に好適な学習済モデルを、第1注目領域検出器として用いることが可能になる。同様に、第2観察方法において撮像された画像を対象とした検出処理に好適な学習済モデルを、第2注目領域検出器として用いることが可能になる。
【0083】
また本実施形態の観察方法分類器、第1注目領域検出器及び第2注目領域検出器の少なくとも1つは、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなってもよい。例えば、観察方法分類器、第1注目領域検出器及び第2注目領域検出器の全てがCNNであってもよい。このようにすれば、画像を入力とする検出処理を効率的に、且つ高い精度で実行することが可能になる。なお、観察方法分類器、第1注目領域検出器及び第2注目領域検出器の一部がCNN以外の構成であってもよい。またCNNは必須の構成ではなく、観察方法分類器、第1注目領域検出器及び第2注目領域検出器の全てがCNN以外の構成であることも妨げられない。
【0084】
また本実施形態の手法は、内視鏡システム300に適用可能である。内視鏡システム300は、生体内画像を撮像する撮像部と、生体内画像を処理対象画像として取得する画像取得部と、処理対象画像に対する処理を行う処理部と、を含む。上述したように、この場合の撮像部は、例えば撮像素子312である。画像取得部は、例えばA/D変換部331である。処理部は、例えば前処理部332、検出処理部333、後処理部334等である。なお、画像取得部が、A/D変換部331と前処理部332に対応すると考えることも可能であり、具体的な構成は種々の変形実施が可能である。
【0085】
内視鏡システム300の処理部は、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理と、観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。処理部は、選択処理において第1注目領域検出器が選択された場合に、第1注目領域検出器に基づいて、第1観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また処理部は、選択処理において第2注目領域検出器が選択された場合に、第2注目領域検出器に基づいて、第2観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。
【0086】
このようにすれば、生体内画像を撮像する内視鏡システム300において、当該生体内画像を対象とした検出処理を、観察方法によらず精度よく実行できる。検出結果を表示部340等において医師に提示することによって、医師の診断等を適切にサポートすることが可能になる。
【0087】
また、本実施形態の画像処理システム200が行う処理は、画像処理方法として実現されてもよい。本実施形態の画像処理方法は、処理対象画像を取得し、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を、第1観察方法及び第2観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理を行い、観察方法分類器の分類結果に基づいて、第1注目領域検出器及び第2注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。さらに画像処理方法は、選択処理において第1注目領域検出器が選択された場合に、第1注目領域検出器に基づいて、第1観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また、選択処理において第2注目領域検出器が選択された場合に、第2注目領域検出器に基づいて、第2観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。
【0088】
3.第2の実施形態
第1の実施形態においては、観察方法分類器が観察方法分類処理のみを実行する例について説明した。ただし、観察方法分類器は、観察方法分類処理に加えて、注目領域の検出処理を実行してもよい。なお、第2の実施形態においても、第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明するが、第2観察方法は色素散布観察であってもよい。
【0089】
学習装置100の構成は
図7と同様であり、学習部120は、第1注目領域検出器及び第2注目領域検出器を生成する観察方法別学習部121と、観察方法分類器を生成する観察方法分類学習部122を含む。ただし、本実施形態では、観察方法分類器の構成、及び観察方法分類器を生成するための機械学習に用いられる画像群が異なる。なお、以下では、第1の実施形態の観察方法分類器と区別するために、第2の実施形態の観察方法分類器を検出一体型観察方法分類器とも表記する。
【0090】
検出一体型観察方法分類器としては、例えば、注目領域検出用CNNと観察方法分類用CNNが、畳み込み、プーリング、非線形活性化処理を繰り返しながら特徴を抽出する特徴抽出層を共有し、そこから検出結果の出力と、観察方法分類結果の出力に分かれる構成が用いられる。
【0091】
図10は、第2の実施形態における観察方法分類器のニューラルネットワークの構成を示す図である。
図10に示すように、検出一体型観察方法分類器であるCNNは、特徴量抽出層と、検出層と、観察方法分類層と、を含む。
図10における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、CNNの構成は
図10に限定されず、種々の変形実施が可能である。
【0092】
特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。観察方法分類層は、特徴量抽出層から出力された特徴量を入力とし、観察方法分類結果を表す情報を出力する。学習装置100は、特徴量抽出層、検出層、観察方法分類層の各層における重み付け係数を決定する学習処理を実行する。
【0093】
本実施形態の観察方法分類学習部122は、通常光画像に対して検出データ及び観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群に基づいて学習処理を行うことによって、検出一体型観察方法分類器を生成する。
【0094】
具体的には、観察方法分類学習部122は、
図10に示すニューラルネットワークにおいて、画像群に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部122は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えば観察方法分類学習部122は、検出層の出力と検出データの間の誤差と、観察方法分類層の出力と観察方法データの間の誤差と、の重み付け和を誤差関数として求める。即ち検出一体型観察方法分類器の学習においては、
図10に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、観察方法分類層における重み付け係数、の全てが学習対象となる。
【0095】
図11は、第2の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、検出分類部225と、選択部222と、検出処理部223と、統合処理部226と、出力処理部224を含む。検出分類部225は、学習装置100によって生成された検出一体型観察方法分類器に基づいて、検出結果と観察方法分類結果を出力する。選択部222及び検出処理部223については、第1の実施形態と同様である。統合処理部226は、検出分類部225による検出結果と、検出処理部223による検出結果の統合処理を行う。出力処理部224は、統合処理結果に基づいて出力処理を行う。
【0096】
図12は、第2の実施形態における画像処理システム200の処理を説明するフローチャートである。まずステップS201において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
【0097】
ステップS202、S203において、検出分類部225は、画像取得部210が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。ステップS202、S203の処理において、検出分類部225は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。具体的には、検出分類部225は、ステップS202の処理において、検出枠と検出スコアを取得する。また検出分類部225は、ステップS203の処理において、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。検出分類部225は、2つの確率データの大小関係に基づいて、観察方法分類処理を行う。
【0098】
ステップS204~S206の処理は、
図9のステップS103~S105と同様である。即ち、ステップS204において、選択部222は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部222は第1注目領域検出器を選択し、処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部222は第2注目領域検出器を選択する。
【0099】
選択部222が第1注目領域検出器を選択した場合、ステップS205において、検出処理部223は、第1注目領域検出器を用いて注目領域の検出処理を行うことによって、検出結果を取得する。また選択部222が第2注目領域検出器を選択した場合、ステップS206において、検出処理部223は、第2注目領域検出器を用いて注目領域の検出処理を行うことによって検出結果を取得する。
【0100】
ステップS205の処理後、ステップS207において、統合処理部226は、検出一体型観察方法分類器による検出結果と、第1注目領域検出器による検出結果の統合処理を行う。同じ注目領域の検出結果であっても、検出一体型観察方法分類器によって出力される検出枠の位置や大きさ等と、第1注目領域検出器によって出力される検出枠の位置や大きさ等が一致するとは限らない。その際、検出一体型観察方法分類器による検出結果と第1注目領域検出器による検出結果を両方出力してしまうと、1つの注目領域に対して異なる複数の情報が表示されることになりユーザを混乱させてしまう。
【0101】
よって統合処理部226は、検出一体型観察方法分類器によって検出された検出枠と、第1注目領域検出器によって検出された検出枠が、同一の注目領域に対応する領域であるかを判定する。例えば、統合処理部226は検出枠どうしの重なり度合いを表すIOU(Intersection Over Union)を算出し、IOUが閾値以上である場合に、2つの検出枠が同一の注目領域に対応すると判定する。IOUについては公知であるため詳細な説明は省略する。またIOUの閾値は例えば0.5程度であるが、具体的な数値は種々の変形実施が可能である。
【0102】
2つの検出枠が同じ注目領域に対応すると判定された場合、統合処理部226は、検出スコアの高い検出枠を注目領域に対応する検出枠として選択してもよいし、2つの検出枠に基づいて新たな検出枠を設定してもよい。また、統合処理部226は、検出枠に対応付けられる検出スコアとして、2つの検出スコアのうちの高い方を選択してもよいし、2つの検出スコアの重み付け和等を用いてもよい。
【0103】
一方、ステップS206の処理後、ステップS208において、統合処理部226は、検出一体型観察方法分類器による検出結果と、第2注目領域検出器による検出結果の統合処理を行う。統合処理の流れについてはステップS207と同様である。
【0104】
ステップS206又はステップS208の統合処理の結果として、1つの注目領域について1つの検出結果が取得される。即ち、統合処理の出力は、処理対象画像中の注目領域の数に応じた数の検出枠と、各検出枠における検出スコアを表す情報である。よって出力処理部224は、第1の実施形態と同様の出力処理を行う。
【0105】
以上のように、本実施形態における画像処理システム200の処理部220は、観察方法分類器に基づいて、処理対象画像から注目領域を検出する処理を行う。
【0106】
このようにすれば、観察方法分類器が、注目領域の検出器を兼ねることが可能になる。観察方法分類器は、観察方法分類を実行するために、第1観察方法において撮像された学習用画像と、第2観察方法において撮像された学習用画像の両方を含む。例えば、検出一体型観察方法分類器は、通常光画像と特殊光画像の両方を学習用画像として含む。結果として、検出一体型観察方法分類器は、処理対象画像が通常光画像である場合と特殊光画像である場合のいずれにも適用可能な汎用性の高い検出処理を実行できる。即ち本実施形態の手法によれば、効率的な構成によって、精度の高い検出結果を取得することが可能になる。
【0107】
また処理部220は、選択処理において第1注目領域検出器が選択された場合に、第1注目領域検出器に基づく注目領域の検出結果と、観察方法分類器に基づく注目領域の検出結果の統合処理を行う。また処理部220は、選択処理において第2注目領域検出器が選択された場合に、第2注目領域検出器に基づく注目領域の検出結果と、観察方法分類器に基づく注目領域の検出結果の統合処理を行う。
【0108】
統合処理とは、例えば上述したように、2つの検出枠に基づいて注目領域に対応する検出枠を決定する処理、及び、2つの検出スコアに基づいて検出枠に対応付けられる検出スコアを決定する処理である。ただし、本実施形態の統合処理は、2つの検出結果に基づいて1つの注目領域について1つの検出結果を決定する処理であればよく、具体的な処理内容や検出結果として出力される情報の形式については種々の変形実施が可能である。
【0109】
このように、複数の検出結果を統合することによって、より精度の高い検出結果を取得することが可能となる。例えば、2つの観察方法のデータバランスが悪い場合には、第1観察方法に特化した学習が行われた第1注目領域検出器、又は、第2観察方法に特化した学習が行われた第2注目領域検出器が相対的に精度が高い。一方、2つの観察方法のデータバランスが良い場合には、第1観察方法と第2観察方法の両方で撮像された画像を含む検出一体型観察方法分類器が相対的に精度が高い。データバランスとは、学習に用いる画像群における画像枚数の比率を表す。
【0110】
観察方法のデータバランスは、データ収集元となる内視鏡システムの稼働状況や、正解データの付与状況等、種々の要因によって変化する。また収集を継続的に行う場合、データバランスが時間経過とともに変化していくことも想定される。学習装置100において、データバランスの調整を行ったり、データバランスに応じて学習処理を変更することは可能であるが、学習処理の負荷が大きくなってしまう。また、学習段階におけるデータバランスを考慮して、画像処理システム200における推論処理を変更することも可能であるが、データバランスに関する情報を取得したり、当該データバランスに応じて処理を分岐させる必要があり、負荷が大きい。その点、上記のように統合処理を行うことによって、処理負荷を増大させることなく、データバランスによらず相補的に高精度な結果を提示することが可能となる。
【0111】
また処理部220は、第1注目領域検出器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第1スコアを出力する処理と、第2注目領域検出器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第2スコアを出力する処理の少なくとも一方を行う。また処理部220は、観察方法分類器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第3スコアを出力する処理を行う。そして処理部220は、第1スコア及び第3スコアを統合して第4スコアを出力する処理、及び、第2スコア及び第3スコアを統合して第5スコアを出力する処理の少なくとも一方を行う。
【0112】
ここで第1スコアとは、第1注目領域検出器から出力される検出スコアである。第2スコアとは第2注目領域検出器から出力される検出スコアである。第3スコアとは、検出一体型観察方法分類器から出力される検出スコアである。第4スコアとは、上述したように、第1スコアと第3スコアのいずれか大きい方であってもよいし、重み付け和であってもよいし、第1スコアと第3スコアに基づいて求められる他の情報であってもよい。第5スコアとは、第2スコアと第3スコアのいずれか大きい方であってもよいし、重み付け和であってもよいし、第2スコアと第3スコアに基づいて求められる他の情報であってもよい。
【0113】
そして処理部220は、選択処理において第1注目領域検出器が選択された場合に、第4スコアに基づく検出結果を出力し、選択処理において第2注目領域検出器が選択された場合に、第5スコアに基づく検出結果を出力する。
【0114】
このように本実施形態の統合処理は、スコアを用いた統合処理であってもよい。このようにすれば、注目領域検出器からの出力と検出一体型観察方法分類器からの出力を適切に、且つ、容易に統合することが可能になる。
【0115】
また観察方法分類器は、第1観察方法又は第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルである。ここでの正解データは、学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データと、学習用画像が第1観察方法と第2観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む。観察方法が3つ以上である場合、観察方法分類器は、複数の観察方法の各観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルである。観察方法データは、学習済モデルが複数の観察方法のいずれで撮像された画像であるかを表すデータである。
【0116】
このようにすれば、検出結果と観察方法分類結果の両方を出力可能な観察方法分類器を適切に生成することが可能になる。結果として、本実施形態の観察方法分類器は、観察方法分類処理を実行可能であり、且つ、観察方法によらない汎用的な検出処理を実行可能になる。
【0117】
4.第3の実施形態
以上では、通常光観察及び特殊光観察を例にとって、2つの観察方法を対象として処理を行う例を示した。しかし本実施形態における観察方法は3つ以上であってもよい。第3の実施形態では、観察方法が通常光観察と、特殊光観察と、色素散布観察の3つを含む例について説明する。
【0118】
図13は、第3の実施形態における学習装置100の構成例である。学習装置100の学習部120は、観察方法別学習部121と、観察方法分類学習部122と、観察方法混合学習部123を含む。ただし、学習装置100は
図13の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。例えば観察方法混合学習部123が省略されてもよい。
【0119】
観察方法別学習部121において実行される学習処理は、いずれかの観察方法に特化した学習済モデルを生成するための学習処理である。観察方法別学習部121は、画像取得部110から画像群B1を取得し、当該画像群B1に基づく機械学習を行うことによって、第1注目領域検出器を生成する。また観察方法別学習部121は、画像取得部110から画像群B2を取得し、当該画像群B2に基づく機械学習を行うことによって、第2注目領域検出器を生成する。また観察方法別学習部121は、画像取得部110から画像群B3を取得し、当該画像群B3に基づく機械学習を行うことによって、第3注目領域検出器を生成する。
【0120】
画像群B1は、
図7の画像群A1と同様であり、通常光画像に対して検出データが付与された学習用画像を含む。第1注目領域検出器は、通常光画像に適した検出器である。以下、通常光画像に適した検出器をCNN_Aと表記する。
【0121】
画像群B2は、
図7の画像群A2と同様であり、特殊光画像に対して検出データが付与された学習用画像を含む。第2注目領域検出器は、特殊光画像に適した検出器である。以下、通常光画像に適した検出器をCNN_Bと表記する。
【0122】
画像群B3は、色素散布画像に対して検出データが付与された学習用画像を含む。第3注目領域検出器は、色素散布画像に適した検出器である。以下、色素散布画像に適した検出器をCNN_Cと表記する。
【0123】
観察方法分類学習部122は、例えば第2の実施形態と同様に、検出一体型観察方法分類器を生成するための学習処理を行う。検出一体型観察方法分類器の構成は、例えば
図10と同様である。ただし、本実施形態においては観察方法が3つ以上であるため、観察方法分類層は、処理対象画像が当該3つ以上の観察方法のいずれで撮像されたかを表す観察方法分類結果を出力する。
【0124】
画像群B7は、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像と、色素散布画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、学習用画像が通常光画像、特殊光画像、色素散布画像のいずれかであるかを表すラベルである。
【0125】
観察方法混合学習部123は、2以上の観察方法に適した注目領域検出器を生成するための学習処理を行う。ただし上記の例においては、検出一体型観察方法分類器が、全ての観察方法に適した注目領域検出器を兼ねる。そのため、観察方法混合学習部123は、通常光画像及び特殊光画像に適した注目領域検出器と、特殊光画像及び色素散布画像に適した注目領域検出器と、色素散布画像及び通常光画像に適した注目領域検出器の3つを生成する。以下、通常光画像及び特殊光画像に適した注目領域検出器をCNN_ABと表記する。特殊光画像及び色素散布画像に適した注目領域検出器をCNN_BCと表記する。色素散布画像及び通常光画像に適した注目領域検出器をCNN_CAと表記する。
【0126】
即ち、
図13における画像群B4は、通常光画像に対して検出データが付与された学習用画像と、特殊光画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部123は、画像群B4に基づく機械学習を行うことによって、CNN_ABを生成する。
【0127】
画像群B5は、特殊光画像に対して検出データが付与された学習用画像と、色素散布画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部123は、画像群B5に基づく機械学習を行うことによって、CNN_BCを生成する。
【0128】
画像群B6は、色素散布画像に対して検出データが付与された学習用画像と、通常光画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部123は、画像群B6に基づく機械学習を行うことによって、CNN_CAを生成する。
【0129】
第3の実施形態における画像処理システム200の構成は、
図11と同様である。画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
【0130】
検出分類部225は、画像取得部210が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。検出分類部225は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。本実施形態における観察方法分類結果は、処理対象画像の観察方法が、3つ以上の観察方法のいずれであるかを特定する情報である。
【0131】
選択部222は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部222は、学習用画像として通常光画像が用いられた注目領域検出器を選択する。具体的には、選択部222は、CNN_A、CNN_AB、CNN_CAの3つを選択する処理を行う。同様に、処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部222は、CNN_B、CNN_AB、CNN_BCの3つを選択する処理を行う。処理対象画像が色素散布画像であるという観察方法分類結果が取得された場合、選択部222は、CNN_C、CNN_BC、CNN_CAの3つを選択する処理を行う。
【0132】
検出処理部223は、選択部222によって選択された3つの注目領域検出器を用いて注目領域の検出処理を行うことによって検出結果を取得する。即ち本実施形態では、検出処理部223は3通りの検出結果を統合処理部226に出力する。
【0133】
統合処理部226は、検出一体型観察方法分類器によって検出分類部225が出力した検出結果と、検出処理部223が出力した3つの検出結果の統合処理を行う。統合対象が4つに増えるが、具体的な統合処理の流れは第2の実施形態と同様である。即ち、統合処理部226は、検出枠の重なり度合いに基づいて、複数の検出枠が同一の注目領域に対応するか否かを判定する。同一の注目領域に対応すると判定された場合、統合処理部226は、統合後の検出枠を決定する処理、及び、当該検出枠に対応付けられる検出スコアを決定する処理を行う。
【0134】
以上のように、本開示の手法は、観察方法が3つ以上の場合にも拡張可能である。複数の検出結果を統合することによって、より精度の高い検出結果を提示することが可能となる。
【0135】
また、本開示における観察方法は通常光観察、特殊光観察、色素散布観察の3つに限定されない。例えば本実施形態の観察方法は、挿入部から水を放出する送水操作が行われている状態で撮像を行う観察方法である送水観察、挿入部から気体を放出する送気操作が行われている状態で撮像を行う観察方法である送気観察、泡が付着した状態の被写体を撮像する観察方法である泡観察、残渣が付着した状態の被写体を撮像する観察方法である残渣観察、等を含んでもよい。観察方法の組み合わせは柔軟に変更可能であり、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察のうちの2以上を任意に組み合わせ可能である。また上記以外の観察方法が用いられてもよい。
【0136】
5.第4の実施形態
例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。しかし、特殊光画像は、通常光画像に比べて取得される枚数が少ない。そのため、特殊光画像を用いた機械学習において訓練データが不足することによって、検出精度が低下するおそれがある。例えば特殊光画像を用いて学習した第2注目領域検出器を用いた検出精度が、通常光画像を用いて学習した第1注目領域検出器に比べて低下してしまう。
【0137】
訓練データの不足に対して、プレトレーニングとファインチューニングを行う手法が知られている。しかし従来手法においては、特殊光画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、従来手法は、特殊光画像を対象とした検出処理の精度を向上させる手法を開示していない。
【0138】
よって本実施形態においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像を含む画像群を用いてファインチューニングを行うことによって第2注目領域検出器を生成する。このようにすれば、特殊光画像を検出処理の対象とする場合であっても、検出精度を高くすることが可能になる。
【0139】
また、以下では第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明するが、第2観察方法は色素散布観察であってもよい。また第2観察方法は、訓練データの不足によって検出精度が低下するおそれがある他の観察方法に拡張可能である。例えば第2観察方法は、上述した送気観察、送水観察、泡観察、残渣観察等であってもよい。
【0140】
図14は、本実施形態の学習装置100の構成例である。学習部120は、観察方法別学習部121と、観察方法分類学習部122と、プレトレーニング部124を含む。また観察方法別学習部121は、通常光学習部1211と、特殊光ファインチューニング部1212を含む。
【0141】
通常光学習部1211は、画像取得部110から画像群C1を取得し、当該画像群C1に基づく機械学習を行うことによって、第1注目領域検出器を生成する。画像群C1は、画像群A1、B1と同様に、通常光画像に対して検出データが付与された学習用画像を含む。通常光学習部1211における学習は、例えばプレトレーニングとファインチューニングに区分されないフルトレーニングである。
【0142】
プレトレーニング部124は、画像群C2を用いたプレトレーニングを行う。画像群C2は、通常光画像に対して検出データが付与された学習用画像を含む。上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能である。なお画像群C2は、画像群C1とは学習用画像が重複しない画像群であってもよいし、画像群C1と一部又は全部の学習用画像が重複する画像群であってもよい。
【0143】
特殊光ファインチューニング部1212は、豊富に取得することが難しい特殊光画像を用いた学習処理を行う。即ち、画像群C3は、特殊光画像に対して検出データが付与された学習用画像を複数含む画像群である。特殊光ファインチューニング部1212は、プレトレーニングによって取得された重み付け係数を初期値として、画像群C3を用いた学習処理を実行することによって、特殊光画像に適した第2注目領域検出器を生成する。
【0144】
またプレトレーニング部124は、検出一体型観察方法分類器のプレトレーニングを実行してもよい。例えばプレトレーニング部124は、通常光画像に対して検出データが付与された学習用画像を含む画像群を用いて、検出タスク向けに検出一体型観察方法分類器をプレトレーニングする。検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、
図10における特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。即ち、検出一体型観察方法分類器のプレトレーニングにおいては、観察方法分類層の重み付け係数は学習対象ではない。
【0145】
観察方法分類学習部122は、プレトレーニングによって取得された重み付け係数を初期値として、画像群C4を用いたファインチューニングを実行することによって、検出一体型観察方法分類器を生成する。画像群C4は、第2の実施形態や第3の実施形態と同様に、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群である。即ち、ファインチューニングにおいては、特徴量抽出層、検出層、観察方法分類層の全ての重み付け係数が学習対象となる。
【0146】
第1注目領域検出器、第2注目領域検出器及び検出一体型観察方法分類器の生成後の処理は、第2の実施形態と同様である。また、第4の実施形態の手法と、第3の実施形態の手法が組み合わせられてもよい。即ち、通常光観察を含む3つ以上の観察方法を用いる場合において、通常光画像を用いたプレトレーニングと、撮像枚数が不足する観察方法における撮像画像を用いたファインチューニングとを組み合わせることが可能である。
【0147】
以上のように、本実施形態の第2注目領域検出器は、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、プレトレーニング後に、第2観察方法において撮像された画像を含む第2画像群を用いてファインチューニングされることによって学習された学習済モデルである。なお、第1観察方法は撮像画像を大量に取得することが容易な観察方法であることが好ましく、具体的には通常光観察である。第2観察方法は、訓練データの不足が発生しやすい観察方法であり、上述したように通常光観察であってもよいし、色素散布観察であってもよいし、他の観察方法であってもよい。
【0148】
本実施形態の手法によれば、学習用画像の枚数不足を補うために、機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、検出処理の精度向上が可能になる。
【0149】
また観察方法分類器は、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、プレトレーニング後に、第1観察方法において撮像された画像及び第2観察方法において撮像された画像を含む第3画像群を用いてファインチューニングされることによって学習された学習済モデルであってもよい。観察方法が3つ以上である場合、第3画像群は、複数の観察方法の各観察方法で撮像された学習用画像を含む。
【0150】
第1画像群は、
図14のC2に対応し、例えば通常光画像に対して検出データが付与された学習用画像を含む画像群である。なお、第2注目領域検出器のプレトレーニングに用いる画像群と、検出一体型観察方法分類器のプレトレーニングに用いる画像群は異なる画像群であってもよい。即ち、第1画像群は、画像群C2とは異なり、且つ、通常光画像に対して検出データが付与された学習用画像を含む画像群であってもよい。第3画像群は、
図14のC4に対応し、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。
【0151】
このようにすれば、検出一体型観察方法分類器における検出処理の精度向上が可能になる。なお以上では、第2注目領域検出器と検出一体型観察方法分類器の両方の生成において、プレトレーニングとファインチューニングが実行される例について説明した。しかし本実施形態の手法はこれに限定されない。例えば第2注目領域検出器と検出一体型観察方法分類器の一方の生成がフルトレーニングによって行われてもよい。また第3の実施形態と組み合わせる場合、第2注目領域検出器以外の注目領域検出器、例えばCNN_AB、CNN_BC、CNN_CAの生成において、プレトレーニングとファインチューニングが用いられてもよい。
【0152】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0153】
100…学習装置、110…画像取得部、120…学習部、121…観察方法別学習部、1211…通常光学習部、1212…特殊光ファインチューニング部、122…観察方法分類学習部、123…観察方法混合学習部、124…プレトレーニング部、200…画像処理システム、210…画像取得部、220…処理部、221…観察方法分類部、222…選択部、223…検出処理部、224…出力処理部、225…検出分類部、226…統合処理部、230…記憶部、300…内視鏡システム、310…挿入部、311…対物光学系、312…撮像素子、313…アクチュエータ、314…照明レンズ、315…ライトガイド、316…AF開始/終了ボタン、320…外部I/F部、330…システム制御装置、331…A/D変換部、332…前処理部、333…検出処理部、334…後処理部、335…システム制御部、336…制御部、337…記憶部、340…表示部、350…光源装置、352…光源