特許7429715 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オリンパス株式会社の特許一覧

特許7429715画像処理システム、内視鏡システム、画像処理システムの作動方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-31

(45)【発行日】2024-02-08

(54)【発明の名称】画像処理システム、内視鏡システム、画像処理システムの作動方法及びプログラム

(51)【国際特許分類】

A61B 1/045 20060101AFI20240201BHJP

A61B 1/00 20060101ALI20240201BHJP

【ＦＩ】

A61B1/045 614

A61B1/045 618

A61B1/00 513

【請求項の数】 11

(21)【出願番号】P 2021569655

(86)(22)【出願日】2020-01-09

(86)【国際出願番号】 JP2020000375

(87)【国際公開番号】W WO2021140600

(87)【国際公開日】2021-07-15

【審査請求日】2022-06-29

(73)【特許権者】

【識別番号】000000376

【氏名又は名称】オリンパス株式会社

(74)【代理人】

【識別番号】100104710

【弁理士】

【氏名又は名称】竹腰昇

(74)【代理人】

【識別番号】100124682

【弁理士】

【氏名又は名称】黒田泰

(74)【代理人】

【識別番号】100090479

【弁理士】

【氏名又は名称】井上一

(74)【代理人】

【識別番号】100166523

【弁理士】

【氏名又は名称】西河宏晃

(72)【発明者】

【氏名】白谷文行

【審査官】▲高▼ 芳徳

(56)【参考文献】

【文献】国際公開第２０１８／１０５０６３（ＷＯ，Ａ１）

【文献】国際公開第２０２０／００３９９１（ＷＯ，Ａ１）

【文献】国際公開第２０１９／１３８７７３（ＷＯ，Ａ１）

【文献】特開２０１２－１１５５５４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ１／００－１／３２

Ｇ０２Ｂ２３／２４－２３／２６

(57)【特許請求の範囲】

【請求項1】

処理対象画像を取得する画像取得部と、
前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、
を含み、
前記処理部は、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、
前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含み前記注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、
前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の統合処理を行い、
前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の前記統合処理を行い、
前記第１注目領域検出器は、
前記第１観察方法で撮影された複数の第１学習用画像と、前記第１学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第２注目領域検出器は、
前記第２観察方法で撮影された複数の第２学習用画像と、前記第２学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データとを含む、
ことを特徴とする画像処理システム。

【請求項2】

請求項１において、
前記処理部は、
前記第１注目領域検出器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第１スコアを出力する処理と、前記第２注目領域検出器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第２スコアを出力する処理の少なくとも一方を行い、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域として検出された領域の前記注目領域らしさを表す第３スコアを出力する処理を行い、
前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１スコア及び前記第３スコアを統合することによって第４スコアを求め、前記第４スコアに基づく前記検出結果を出力し、
前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２スコア及び前記第３スコアを統合することによって第５スコアを求め、前記第５スコアに基づく前記検出結果を出力する、
ことを特徴とする画像処理システム。

【請求項3】

請求項１において、
前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
前記第１観察方法は、通常光を照明光とする観察方法であり、
前記第２観察方法は、特殊光を前記照明光とする観察方法である、
ことを特徴とする画像処理システム。

【請求項4】

請求項１において、
前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
前記第１観察方法は、通常光を照明光とする観察方法であり、
前記第２観察方法は、被写体に対して色素散布が行われた観察方法である、
ことを特徴とする画像処理システム。

【請求項5】

請求項１において、
前記第２注目領域検出器は、
前記第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第２観察方法において撮像された画像を含む第２画像群を用いてファインチューニングされることによって学習された前記学習済モデルである、
ことを特徴とする画像処理システム。

【請求項6】

請求項１において、
前記観察方法分類器は、
前記第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第１観察方法において撮像された画像及び前記第２観察方法において撮像された画像を含む第３画像群を用いてファインチューニングされることによって学習された前記学習済モデルである、
ことを特徴とする画像処理システム。

【請求項7】

請求項１において、
前記観察方法分類器、前記第１注目領域検出器及び前記第２注目領域検出器の少なくとも１つは、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなることを特徴とする画像処理システム。

【請求項8】

請求項１において、
前記第１注目領域検出器及び前記第２注目領域検出器は、
前記注目領域の有無、前記注目領域の位置、前記注目領域の大きさ、前記注目領域の形状のうちの少なくとも１つを検出することを特徴とする画像処理システム。

【請求項9】

生体内画像を撮像する撮像部と、
前記生体内画像を処理対象画像として取得する画像取得部と、
前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、
を含み、
前記処理部は、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、
前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含み前記注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、
前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の統合処理を行い、
前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から検出した前記注目領域の前記検出結果と、前記観察方法分類器に基づく前記注目領域の前記検出結果と、の前記統合処理を行い、
前記第１注目領域検出器は、
前記第１観察方法で撮影された複数の第１学習用画像と、前記第１学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第２注目領域検出器は、
前記第２観察方法で撮影された複数の第２学習用画像と、前記第２学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データとを含む、
ことを特徴とする内視鏡システム。

【請求項10】

画像取得部と処理部とを含む画像処理システムの作動方法であって、
前記画像取得部は、処理対象画像を取得し、
前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、
前記処理部は、前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含み注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記処理部は、前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記処理部は、前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記処理部は、前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記第１注目領域検出器は、
前記第１観察方法で撮影された複数の第１学習用画像と、前記第１学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第２注目領域検出器は、
前記第２観察方法で撮影された複数の第２学習用画像と、前記第２学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データとを含む、
ことを特徴とする画像処理システムの作動方法。

【請求項11】

処理対象画像を取得し、
観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、
前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含み注目領域を検出する複数の注目領域検出器のうちの、いずれかの前記注目領域検出器を選択する選択処理を行い、
前記観察方法分類器に基づいて、前記処理対象画像から前記注目領域を検出する処理を行い、
前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行い、
前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から検出した前記注目領域の検出結果と、前記観察方法分類器に基づく前記注目領域の検出結果と、の統合処理を行う、
ステップをコンピュータに実行させ、
前記第１注目領域検出器は、
前記第１観察方法で撮影された複数の第１学習用画像と、前記第１学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記第２注目領域検出器は、
前記第２観察方法で撮影された複数の第２学習用画像と、前記第２学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルであり、
前記観察方法分類器は、前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルであり、
前記正解データは、
前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データとを含む、
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理システム、内視鏡システム、画像処理システムの作動方法及びプログラム等に関する。

【背景技術】

【0002】

生体内画像を対象とした画像処理を行うことによって、医師による診断をサポートする手法が広く知られている。特に、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。また、画像認識の精度を向上させるための手法も種々開示されている。

【0003】

例えば特許文献１では、異常陰影候補の判定に、既に、正常画像か異常画像かの分類がなされている複数の画像の特徴量と新規入力画像の特徴量の比較判定を用いることにより、判定精度の向上を図ろうとしている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００４－３５１１００号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

医師が内視鏡を用いた診断を行う際、複数の観察方法を切り替えて利用する場合がある。第１観察方法において撮像された画像に基づいて生成された注目領域検出器を用いる場合、第１観察方法において撮像された画像を対象とした検出精度に比べて、異なる第２観察方法において撮像された画像を対象とした検出精度が低下してしまう。

【0006】

特許文献１では、学習時及び検出処理時における画像の観察方法が考慮されておらず、当該観察方法に応じて特徴量の抽出や比較判定の仕方を変更するといった手法は開示されていない。このため、予め分類がなされている複数の画像とは観察方法が異なる画像が入力された際には、判定精度が悪化する。

【0007】

本開示のいくつかの態様によれば、複数の観察方法において撮像された画像を対象とする場合にも、精度の高い検出処理を実行できる画像処理システム、内視鏡システム及び画像処理方法等を提供できる。

【課題を解決するための手段】

【0008】

本開示の一態様は、処理対象画像を取得する画像取得部と、前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、を含み、前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記処理部は、前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力し、前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力する画像処理システムに関係する。

【0009】

本開示の他の態様は、生体内画像を撮像する撮像部と、前記生体内画像を処理対象画像として取得する画像取得部と、前記処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部と、を含み、前記処理部は、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理と、前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記処理部は、前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力し、前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から前記注目領域を検出した前記検出結果を出力する内視鏡システムに関係する。

【0010】

本開示のさらに他の態様は、処理対象画像を取得し、観察方法分類器に基づいて、前記処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの前記観察方法に分類する分類処理を行い、前記観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの前記注目領域検出器を選択する選択処理を行い、前記選択処理において前記第１注目領域検出器が選択された場合に、前記第１注目領域検出器に基づいて、前記第１観察方法に分類された前記処理対象画像から注目領域を検出した検出結果を出力し、前記選択処理において前記第２注目領域検出器が選択された場合に、前記第２注目領域検出器に基づいて、前記第２観察方法に分類された前記処理対象画像から前記注目領域を検出した検出結果を出力する画像処理方法に関係する。

【図面の簡単な説明】

【0011】

【図1】画像処理システムを含むシステムの概略構成例。

【図2】学習装置の構成例。

【図3】画像処理システムの構成例。

【図4】内視鏡システムの構成例。

【図5】図５（Ａ）、図５（Ｂ）はニューラルネットワークの構成例。

【図6】図６（Ａ）は注目領域検出器の入力と出力を説明する図、図６（Ｂ）は観察方法分類器の入力と出力を説明する図。

【図7】第１の実施形態における学習装置の構成例。

【図8】第１の実施形態における画像処理システムの構成例。

【図9】第１の実施形態における検出処理を説明するフローチャート。

【図10】検出一体型観察方法分類器であるニューラルネットワークの構成例。

【図11】第２の実施形態における画像処理システムの構成例。

【図12】第２の実施形態における検出処理を説明するフローチャート。

【図13】第３の実施形態における学習装置の構成例。

【図14】第４の実施形態における学習装置の構成例。

【発明を実施するための形態】

【0012】

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

【0013】

１．概要
医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、具体的には撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。

【0014】

通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば３９０～４４５ｎｍに対応する狭帯域光と、５３０～５５０ｎｍに対応する狭帯域光を用いたＮＢＩ（Narrow Band Imaging）が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。

【0015】

上述したように、医師による診断をサポートする目的で、ディープラーニング等の機械学習によって検出器を作成し、当該検出器を注目領域の検出に応用する試みがなされている。なお、本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。以下、注目領域が病変、又はポリープである例について主に説明する。

【0016】

内視鏡検査中には、医師が照明光を通常光と特殊光との間で切り替える、体内組織に色素を散布する等、被写体を撮像する観察方法が変化する。この観察方法変化に起因して、病変検出に適した検出器のパラメータが変化する。例えば、通常光画像のみを用いて学習させた検出器では、通常光画像に比較して特殊光画像の病変検出の精度が芳しくない結果になると考えられる。そのため、内視鏡検査中に観察方法が変化する場合にも、病変の検出精度を良好に保つ手法が求められている。

【0017】

しかし特許文献１等の従来手法においては、どのような画像を訓練データとして用いることによって検出器を生成するか、又、複数の検出器を生成した場合、当該複数の検出器をどのように組み合わせて検出処理を実行するか、について開示がなかった。

【0018】

本実施形態の手法においては、第１観察方法において撮像された画像に基づいて生成された第１注目領域検出器と、第２観察方法において撮像された画像に基づいて生成された第２注目領域検出器に基づいて注目領域の検出処理を行う。その際、観察方法分類部に基づいて処理対象画像の観察方法を推定し、推定結果に基づいて、検出処理に用いる検出器を選択する。このようにすれば、処理対象画像の観察方法が種々変化する場合であっても、当該処理対象画像を対象とした検出処理を精度よく行うことが可能になる。

【0019】

以下、まず図１～図４を用いて本実施形態に係る画像処理システム２００を含むシステムの概略構成を説明する。その後、第１～第４の実施形態において、具体的な手法や処理の流れについて説明する。

【0020】

図１は、画像処理システム２００を含むシステムの構成例である。システムは、学習装置１００と、画像処理システム２００と、内視鏡システム３００を含む。ただしシステムは図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。

【0021】

学習装置１００は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム３００は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム２００は、生体内画像を処理対象画像として取得する。そして画像処理システム２００は、学習装置１００が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の検出処理を行う。内視鏡システム３００は、検出結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。

【0022】

学習装置１００、画像処理システム２００、内視鏡システム３００は、例えばそれぞれが別体として設けられてもよい。学習装置１００及び画像処理システム２００は、それぞれが例えばＰＣ（Personal Computer）やサーバシステム等の情報処理装置である。なお学習装置１００は、複数の装置による分散処理によって実現されてもよい。例えば学習装置１００は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム２００も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム３００は、例えば図４を用いて後述するように、挿入部３１０と、システム制御装置３３０と、表示部３４０とを含む装置である。ただし、システム制御装置３３０の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置３３０の一部又は全部は、クラウドコンピューティングによって実現される。

【0023】

また、画像処理システム２００及び学習装置１００の一方が他方を含んでもよい。この場合、画像処理システム２００（学習装置１００）は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理の両方を実行するシステムである。また画像処理システム２００及び内視鏡システム３００の一方が、他方を含んでもよい。例えば、内視鏡システム３００のシステム制御装置３３０が画像処理システム２００を含む。この場合、システム制御装置３３０は、内視鏡システム３００の各部の制御と、学習済モデルに従った検出処理の両方を実行する。或いは、学習装置１００、画像処理システム２００、システム制御装置３３０の全てを含むシステムが実現されてもよい。例えば、１又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理と、内視鏡システム３００の各部の制御と、を実行してもよい。以上のように、図１に示すシステムの具体的な構成は種々の変形実施が可能である。

【0024】

図２は、学習装置１００の構成例である。学習装置１００は、画像取得部１１０と、学習部１２０を含む。画像取得部１１０は、学習用画像を取得する。画像取得部１１０は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部１２０は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。

【0025】

学習部１２０は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

【0026】

また学習部１２０は、下記のプロセッサにより実現されてもよい。学習装置１００は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリであってもよいし、レジスタであってもよいし、ＨＤＤ（Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部１２０の各部の機能が処理として実現されることになる。学習部１２０の各部とは、例えば図７、図１３、図１４を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

【0027】

図３は、画像処理システム２００の構成例である。画像処理システム２００は、画像取得部２１０と、処理部２２０と、記憶部２３０を含む。

【0028】

画像取得部２１０は、内視鏡システム３００の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部２１０は、内視鏡システム３００からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。

【0029】

処理部２２０は、学習済モデルに従って動作することによって、処理対象画像における注目領域の検出処理を行う。また処理部２２０は、学習済モデルの検出結果に基づいて、出力する情報を決定する。処理部２２０は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。

【0030】

また処理部２２０は、下記のプロセッサにより実現されてもよい。画像処理システム２００は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部２３０であってもよいし、異なるメモリであってもよい。プロセッサは、ＧＰＵ等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部２２０の各部の機能が処理として実現される。処理部２２０の各部とは、例えば図８及び図１１を用いて後述する各部である。

【0031】

記憶部２３０は、処理部２２０等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部２３０は、画像取得部２１０が取得した処理対象画像を記憶する。また記憶部２３０は、学習装置１００によって生成された学習済モデルの情報を記憶する。

【0032】

図４は、内視鏡システム３００の構成例である。内視鏡システム３００は、挿入部３１０と、外部Ｉ／Ｆ部３２０と、システム制御装置３３０と、表示部３４０と、光源装置３５０を含む。

【0033】

挿入部３１０は、その先端側が体内へ挿入される部分である。挿入部３１０は、対物光学系３１１、撮像素子３１２、アクチュエータ３１３、照明レンズ３１４、ライトガイド３１５、ＡＦ（Auto Focus）開始／終了ボタン３１６を含む。

【0034】

ライトガイド３１５は、光源３５２からの照明光を、挿入部３１０の先端まで導光する。照明レンズ３１４は、ライトガイド３１５によって導光された照明光を被写体に照射する。対物光学系３１１は、被写体から反射した反射光を、被写体像として結像する。対物光学系３１１は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ３１３は、ＡＦ制御部３３６からの指示に基づいて、フォーカスレンズを駆動する。なお、ＡＦは必須ではなく、内視鏡システム３００はＡＦ制御部３３６を含まない構成であってもよい。

【0035】

撮像素子３１２は、対物光学系３１１を経由した被写体からの光を受光する。撮像素子３１２はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。

【0036】

ＡＦ開始／終了ボタン３１６は、ユーザがＡＦの開始／終了を操作するための操作インターフェースである。外部Ｉ／Ｆ部３２０は、内視鏡システム３００に対するユーザからの入力を行うためのインターフェースである。外部Ｉ／Ｆ部３２０は、例えばＡＦ制御モードの設定ボタン、ＡＦ領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。

【0037】

システム制御装置３３０は、画像処理やシステム全体の制御を行う。システム制御装置３３０は、Ａ／Ｄ変換部３３１、前処理部３３２、検出処理部３３３、後処理部３３４、システム制御部３３５、ＡＦ制御部３３６、記憶部３３７を含む。

【0038】

Ａ／Ｄ変換部３３１は、撮像素子３１２から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部３３２に順次出力する。前処理部３３２は、Ａ／Ｄ変換部３３１から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部３３３、ＡＦ制御部３３６に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。

【0039】

検出処理部３３３は、例えば前処理部３３２から取得した補正処理後の画像を、内視鏡システム３００の外部に設けられる画像処理システム２００に送信する処理を行う。内視鏡システム３００は不図示の通信部を含み、検出処理部３３３は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム２００に送信するための通信インターフェースである。また検出処理部３３３は、通信部の通信制御を行うことによって、画像処理システム２００から検出結果を受信する処理を行う。

【0040】

或いは、システム制御装置３３０は、画像処理システム２００を含んでもよい。この場合、Ａ／Ｄ変換部３３１が、画像取得部２１０に対応する。記憶部３３７が、記憶部２３０に対応する。前処理部３３２、検出処理部３３３、後処理部３３４等が、処理部２２０に対応する。この場合、検出処理部３３３は、記憶部３３７に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の検出処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部３３３は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、検出結果を出力する。

【0041】

後処理部３３４は、検出処理部３３３における検出結果に基づく後処理を行い、後処理後の画像を表示部３４０に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部３３４は、前処理部３３２から出力された画像に対して、検出処理部３３３において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。

【0042】

システム制御部３３５は、撮像素子３１２、ＡＦ開始／終了ボタン３１６、外部Ｉ／Ｆ部３２０、ＡＦ制御部３３６と互いに接続され、各部を制御する。具体的には、システム制御部３３５は、各種制御信号の入出力を行う。ＡＦ制御部３３６は、前処理部３３２から順次出力される画像を用いてＡＦ制御を行う。

【0043】

表示部３４０は、後処理部３３４から出力される画像を順次表示する。表示部３４０は、例えば液晶ディスプレイやＥＬ（Electro-Luminescence）ディスプレイ等である。光源装置３５０は、照明光を発光する光源３５２を含む。光源３５２は、キセノン光源であってもよいし、ＬＥＤであってもよいし、レーザー光源であってもよい。また光源３５２は他の光源であってもよく、発光方式は限定されない。

【0044】

なお、光源装置３５０は、通常光と特殊光を照射可能である。例えば光源装置３５０は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤ、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤ等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤを点灯させることによって通常光を照射し、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。

【0045】

２．第１の実施形態
以下では、第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明する。ただし、第２観察方法は色素散布観察であってもよい。即ち、以下の説明において、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。

【0046】

まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明する。即ち、以下で説明する第１注目領域検出器、第２注目領域検出器及び観察方法分類器は、例えばニューラルネットワークを用いた学習済モデルである。ただし、本実施形態の手法はこれに限定されない。本実施形態においては、例えばＳＶＭ（support vector machine）等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやＳＶＭ等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。

【0047】

図５（Ａ）は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図５（Ａ）においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノード（ニューロン）の数は図５（Ａ）の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には４層以上である。

【0048】

図５（Ａ）に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やＲｅＬＵ関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。

【0049】

ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置１００は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置１００の学習部１２０は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。

【0050】

またニューラルネットワークは例えばＣＮＮ（Convolutional Neural Network）であってもよい。図５（Ｂ）は、ＣＮＮを説明する模式図である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図５（Ｂ）に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図５（Ａ）を用いて上述した各層の演算に対応する。なお、図５（Ｂ）では記載を省略しているが、ＣＮＮでは活性化関数による演算処理も行われる。ＣＮＮは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のＣＮＮは、公知のＲＰＮ等（Region Proposal Network）を利用できる。

【0051】

ＣＮＮを用いる場合も、処理の手順は図５（Ａ）と同様である。即ち、学習装置１００は、訓練データのうちの入力データをＣＮＮに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。ＣＮＮの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。

【0052】

次に、本実施形態における機械学習について説明する。画像処理システム２００が実行する注目領域の検出処理とは、具体的には注目領域の有無、位置、大きさ、形状のうち少なくとも１つを検出する処理である。

【0053】

例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の４つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。

【0054】

図７は、第１の実施形態における学習装置１００の構成例である。学習装置１００の学習部１２０は、観察方法別学習部１２１と、観察方法分類学習部１２２を含む。観察方法別学習部１２１は、画像取得部１１０から画像群Ａ１を取得し、当該画像群Ａ１に基づく機械学習を行うことによって、第１注目領域検出器を生成する。また観察方法別学習部１２１は、画像取得部１１０から画像群Ａ２を取得し、当該画像群Ａ２に基づく機械学習を行うことによって、第２注目領域検出器を生成する。即ち、観察方法別学習部１２１は、異なる複数の画像群に基づいて、複数の学習済モデルを生成する。

【0055】

観察方法別学習部１２１において実行される学習処理は、通常光画像と特殊光画像のいずれか一方に特化した学習済モデルを生成するための学習処理である。即ち、画像群Ａ１は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する情報である検出データが付与された学習用画像を含む。画像群Ａ１は、特殊光画像に対して検出データが付与された学習用画像を含まない、又は、含むとしてもその枚数が通常光画像に比べて十分少ない。

【0056】

例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。例えば画像群Ａ１に含まれる学習用画像は、通常光画像中のポリープ領域を矩形枠で囲み、当該矩形枠に「ポリープ」というラベルが付加され、それ以外の領域に「正常」というラベルが付加されたデータであってもよい。なお検出枠は矩形枠に限定されず、ポリープ領域付近を囲むものであれば、楕円形状の枠等でもよい。

【0057】

画像群Ａ２は、特殊光画像に対して、検出データが付与された学習用画像を含む。画像群Ａ２は、通常光画像に対して検出データが付与された学習用画像を含まない、又は、含むとしてもその枚数が特殊光画像に比べて十分少ない。検出データは画像群Ａ１と同様であり、マスクデータであってもよいし、検出枠を特定する情報であってもよい。

【0058】

図６（Ａ）は、第１注目領域検出器及び第２注目領域検出器の入力及び出力を説明する図である。第１注目領域検出器及び第２注目領域検出器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、検出結果を表す情報を出力する。観察方法別学習部１２１は、画像が入力される入力層と、中間層と、検出結果を出力する出力層を含むモデルの機械学習を行う。例えば第１注目領域検出器及び第２注目領域検出器は、それぞれＲＰＮ（Region Proposal Network）、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ（You only Look Once）等の物体検出用ＣＮＮである。

【0059】

具体的には、観察方法別学習部１２１は、画像群Ａ１に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部１２１は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が１枚の学習用画像に基づく処理であり、観察方法別学習部１２１は、上記処理を繰り返すことによって第１注目領域検出器の重み付け係数を学習する。なお、重み付け係数の更新は１枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。

【0060】

同様に観察方法別学習部１２１は、画像群Ａ２に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部１２１は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法別学習部１２１は、上記処理を繰り返すことによって第２注目領域検出器の重み付け係数を学習する。

【0061】

画像群Ａ３は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、例えば通常光画像又は特殊光画像のいずれかを表すラベルである。

【0062】

図６（Ｂ）は、観察方法分類器の入力と出力を説明する図である。観察方法分類器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、観察方法分類結果を表す情報を出力する。

【0063】

観察方法分類学習部１２２は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。観察方法分類器は、例えば、ＶＧＧ１６やＲｅｓＮｅｔ等の画像分類用ＣＮＮである。観察方法分類学習部１２２は、画像群Ａ３に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法別学習部１２１は、出力層の出力と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法分類学習部１２２は、上記処理を繰り返すことによって観察方法分類器の重み付け係数を学習する。

【0064】

なお、観察方法分類器における出力層の出力は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。例えば観察方法分類器の出力層が公知のソフトマックス層である場合、出力層は合計が１となる２つの確率データを出力する。正解データであるラベルが通常光画像である場合、通常光画像である確率データが１であり、特殊光画像である確率データが０であるデータを正解データとして誤差関数が求められる。観察方法分類器は、観察方法分類結果である観察方法分類ラベルと、当該観察方法分類ラベルの確からしさを表す観察方法分類スコアを出力可能である。観察方法分類ラベルとは、確率データが最大となる観察方法を表すラベルであり、例えば通常光観察と特殊光観察のいずれかを表すラベルである。観察方法分類スコアとは、観察方法分類ラベルに対応する確率データである。図６（Ｂ）においては観察方法分類スコアは省略されている。

【0065】

図８は、第１の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、観察方法分類部２２１と、選択部２２２と、検出処理部２２３と、出力処理部２２４を含む。観察方法分類部２２１は、観察方法分類器に基づく観察方法分類処理を行う。選択部２２２は、観察方法分類処理の結果に基づいて注目領域検出器を選択する。検出処理部２２３は、第１注目領域検出器と第２注目領域検出器の少なくとも一方を用いた検出処理を行う。出力処理部２２４は、検出結果に基づいて出力処理を行う。

【0066】

図９は、第１の実施形態における画像処理システム２００の処理を説明するフローチャートである。まずステップＳ１０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

【0067】

ステップＳ１０２において、観察方法分類部２２１は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部２２１は、画像取得部２１０が取得した処理対象画像を観察方法分類器に入力することによって、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。観察方法分類部２２１は、２つの確率データの大小関係に基づいて、観察方法分類処理を行う。

【0068】

ステップＳ１０３において、選択部２２２は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部２２２は第１注目領域検出器を選択する。処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部２２２は第２注目領域検出器を選択する。選択部２２２は、選択結果を検出処理部２２３に送信する。

【0069】

選択部２２２が第１注目領域検出器を選択した場合、ステップＳ１０４において、検出処理部２２３は、第１注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部２２３は、処理対象画像を第１注目領域検出器に入力することによって、処理対象画像中の所定数の検出枠に関する情報と、当該検出枠に対応付けられた検出スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。

【0070】

選択部２２２が第２注目領域検出器を選択した場合、ステップＳ１０５において、検出処理部２２３は、第２注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部２２３は、処理対象画像を第２注目領域検出器に入力することによって、検出枠と検出スコアを取得する。

【0071】

ステップＳ１０６において、出力処理部２２４は、ステップＳ１０４又はＳ１０５において取得された検出結果を出力する。例えば出力処理部２２４は、検出スコアと所与の検出閾値を比較する処理を行う。所与の検出枠の検出スコアが検出閾値未満である場合、当該検出枠に関する情報は信頼性が低いため出力対象から除外される。

【0072】

ステップＳ１０６における処理は、例えば画像処理システム２００が内視鏡システム３００に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部３４０に表示する処理である。また画像処理システム２００と内視鏡システム３００が別体として設けられる場合、上記処理は、例えば表示画像の内視鏡システム３００への送信処理である。或いは上記処理は、検出枠を表す情報を内視鏡システム３００へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム３００において実行される。

【0073】

以上のように、本実施形態に係る画像処理システム２００は、処理対象画像を取得する画像取得部２１０と、処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部２２０を含む。図８、及び図９のステップＳ１０２、Ｓ１０３に示したように、処理部２２０は、観察方法分類器に基づいて、処理対象画像が撮像されたときの被写体の観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理と、観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。なお第１の実施形態においては、複数の観察方法は、第１観察方法と第２観察方法の２つである。複数の注目領域検出器は、第１注目領域検出器及び第２注目領域検出器の２つである。よって処理部２２０は、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を第１観察方法又は第２観察方法に分類する観察方法分類処理と、観察方法分類器の分類結果に基づいて、第１注目領域検出器又は第２注目領域検出器を選択する選択処理を行う。ただし、第３の実施形態において後述するように、観察方法は３つ以上であってもよい。また注目領域検出器についても３つ以上であってもよい。特に、後述するＣＮＮ＿ＡＢ等のように、観察方法混合型の注目領域検出器を用いる場合、注目領域検出器の数が観察方法よりも多くてもよいし、１回の選択処理によって選択される注目領域検出器が２以上であってもよい。

【0074】

処理部２２０は、選択処理において第１注目領域検出器が選択された場合に、第１注目領域検出器に基づいて、第１観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また処理部２２０は、選択処理において第２注目領域検出器が選択された場合に、第２注目領域検出器に基づいて、第２観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。

【0075】

本実施形態の手法においては、異なる観察方法が想定される場合に、各観察方法に適した注目領域検出器が作成されている。その上で、処理対象画像が撮像されたときの観察方法の分類結果に基づいて、適切な注目領域検出器を選択することによって、処理対象画像の観察方法によらず、精度の高い検出処理を行うことが可能になる。なお、以上の説明においては、第１注目領域検出器を用いた検出処理と第２注目領域検出器を用いた検出処理のいずれか一方が行われる例を示したが、処理の流れはこれに限定されない。例えば検出処理部２２３は、第１注目領域検出器を用いた検出処理と第２注目領域検出器を用いた検出処理の両方を行っておき、観察方法分類結果に基づいて、いずれか一方の検出結果を出力処理部２２４に送信するように構成されてもよい。

【0076】

なお、観察方法分類器、第１注目領域検出器、第２注目領域検出器のそれぞれに基づく処理は、学習済モデルからの指示に従って処理部２２０が動作することによって実現される。学習済モデルに従った処理部２２０における演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図５（Ａ）の各ノードにおいて実行される積和演算や、ＣＮＮの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、ＦＰＧＡ等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部２２０の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部２３０に記憶され、処理部２２０は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはＦＰＧＡ等によって実現され、記憶部２３０はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがＦＰＧＡ等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部２３０は、例えばＦＰＧＡの内蔵メモリである。

【0077】

また本実施形態における処理対象画像は、内視鏡撮像装置によって撮像された生体内画像である。ここで、内視鏡撮像装置とは、内視鏡システム３００に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子３１２に対応する。

【0078】

そして第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、特殊光を照明光とする観察方法である。このようにすれば、照明光が通常光と特殊光の間で切り替えられることによって観察方法が変化する場合であっても、当該変化に起因する検出精度の低下を抑制できる。

【0079】

また第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、被写体に対して色素散布が行われた観察方法であってもよい。このようにすれば、被写体に色材を散布することによって観察方法が変化する場合であっても、当該変化に起因する検出精度の低下を抑制できる。

【0080】

特殊光観察及び色素散布観察は、通常光観察に比べて特定の被写体の視認性を向上させることが可能になるため、通常光観察と併用する利点が大きい。本実施形態の手法によれば、特殊光観察や色素散布観察によってユーザに視認性の高い画像を提示することと、注目領域検出器による検出精度を維持することの両立が可能になる。

【0081】

また第１注目領域検出器は、第１観察方法で撮影された複数の第１学習用画像と、第１学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルである。また第２注目領域検出器は、第２観察方法で撮影された複数の第２学習用画像と、第２学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データに基づく機械学習によって取得された学習済モデルである。

【0082】

このようにすれば、学習段階において用いられる学習用画像の観察方法と、推論段階において入力となる処理対象画像の観察方法とを揃えることが可能になる。そのため、第１観察方法において撮像された画像を対象とした検出処理に好適な学習済モデルを、第１注目領域検出器として用いることが可能になる。同様に、第２観察方法において撮像された画像を対象とした検出処理に好適な学習済モデルを、第２注目領域検出器として用いることが可能になる。

【0083】

また本実施形態の観察方法分類器、第１注目領域検出器及び第２注目領域検出器の少なくとも１つは、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなってもよい。例えば、観察方法分類器、第１注目領域検出器及び第２注目領域検出器の全てがＣＮＮであってもよい。このようにすれば、画像を入力とする検出処理を効率的に、且つ高い精度で実行することが可能になる。なお、観察方法分類器、第１注目領域検出器及び第２注目領域検出器の一部がＣＮＮ以外の構成であってもよい。またＣＮＮは必須の構成ではなく、観察方法分類器、第１注目領域検出器及び第２注目領域検出器の全てがＣＮＮ以外の構成であることも妨げられない。

【0084】

また本実施形態の手法は、内視鏡システム３００に適用可能である。内視鏡システム３００は、生体内画像を撮像する撮像部と、生体内画像を処理対象画像として取得する画像取得部と、処理対象画像に対する処理を行う処理部と、を含む。上述したように、この場合の撮像部は、例えば撮像素子３１２である。画像取得部は、例えばＡ／Ｄ変換部３３１である。処理部は、例えば前処理部３３２、検出処理部３３３、後処理部３３４等である。なお、画像取得部が、Ａ／Ｄ変換部３３１と前処理部３３２に対応すると考えることも可能であり、具体的な構成は種々の変形実施が可能である。

【0085】

内視鏡システム３００の処理部は、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理と、観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。処理部は、選択処理において第１注目領域検出器が選択された場合に、第１注目領域検出器に基づいて、第１観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また処理部は、選択処理において第２注目領域検出器が選択された場合に、第２注目領域検出器に基づいて、第２観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。

【0086】

このようにすれば、生体内画像を撮像する内視鏡システム３００において、当該生体内画像を対象とした検出処理を、観察方法によらず精度よく実行できる。検出結果を表示部３４０等において医師に提示することによって、医師の診断等を適切にサポートすることが可能になる。

【0087】

また、本実施形態の画像処理システム２００が行う処理は、画像処理方法として実現されてもよい。本実施形態の画像処理方法は、処理対象画像を取得し、観察方法分類器に基づいて、処理対象画像が撮像されたときの観察方法を、第１観察方法及び第２観察方法を含む複数の観察方法のうちのいずれかの観察方法に分類する分類処理を行い、観察方法分類器の分類結果に基づいて、第１注目領域検出器及び第２注目領域検出器を含む複数の注目領域検出器のうちのいずれかの注目領域検出器を選択する選択処理を行う。さらに画像処理方法は、選択処理において第１注目領域検出器が選択された場合に、第１注目領域検出器に基づいて、第１観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。また、選択処理において第２注目領域検出器が選択された場合に、第２注目領域検出器に基づいて、第２観察方法に分類された処理対象画像から注目領域を検出した検出結果を出力する。

【0088】

３．第２の実施形態
第１の実施形態においては、観察方法分類器が観察方法分類処理のみを実行する例について説明した。ただし、観察方法分類器は、観察方法分類処理に加えて、注目領域の検出処理を実行してもよい。なお、第２の実施形態においても、第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明するが、第２観察方法は色素散布観察であってもよい。

【0089】

学習装置１００の構成は図７と同様であり、学習部１２０は、第１注目領域検出器及び第２注目領域検出器を生成する観察方法別学習部１２１と、観察方法分類器を生成する観察方法分類学習部１２２を含む。ただし、本実施形態では、観察方法分類器の構成、及び観察方法分類器を生成するための機械学習に用いられる画像群が異なる。なお、以下では、第１の実施形態の観察方法分類器と区別するために、第２の実施形態の観察方法分類器を検出一体型観察方法分類器とも表記する。

【0090】

検出一体型観察方法分類器としては、例えば、注目領域検出用ＣＮＮと観察方法分類用ＣＮＮが、畳み込み、プーリング、非線形活性化処理を繰り返しながら特徴を抽出する特徴抽出層を共有し、そこから検出結果の出力と、観察方法分類結果の出力に分かれる構成が用いられる。

【0091】

図１０は、第２の実施形態における観察方法分類器のニューラルネットワークの構成を示す図である。図１０に示すように、検出一体型観察方法分類器であるＣＮＮは、特徴量抽出層と、検出層と、観察方法分類層と、を含む。図１０における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、ＣＮＮの構成は図１０に限定されず、種々の変形実施が可能である。

【0092】

特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。観察方法分類層は、特徴量抽出層から出力された特徴量を入力とし、観察方法分類結果を表す情報を出力する。学習装置１００は、特徴量抽出層、検出層、観察方法分類層の各層における重み付け係数を決定する学習処理を実行する。

【0093】

本実施形態の観察方法分類学習部１２２は、通常光画像に対して検出データ及び観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群に基づいて学習処理を行うことによって、検出一体型観察方法分類器を生成する。

【0094】

具体的には、観察方法分類学習部１２２は、図１０に示すニューラルネットワークにおいて、画像群に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部１２２は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えば観察方法分類学習部１２２は、検出層の出力と検出データの間の誤差と、観察方法分類層の出力と観察方法データの間の誤差と、の重み付け和を誤差関数として求める。即ち検出一体型観察方法分類器の学習においては、図１０に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、観察方法分類層における重み付け係数、の全てが学習対象となる。

【0095】

図１１は、第２の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、検出分類部２２５と、選択部２２２と、検出処理部２２３と、統合処理部２２６と、出力処理部２２４を含む。検出分類部２２５は、学習装置１００によって生成された検出一体型観察方法分類器に基づいて、検出結果と観察方法分類結果を出力する。選択部２２２及び検出処理部２２３については、第１の実施形態と同様である。統合処理部２２６は、検出分類部２２５による検出結果と、検出処理部２２３による検出結果の統合処理を行う。出力処理部２２４は、統合処理結果に基づいて出力処理を行う。

【0096】

図１２は、第２の実施形態における画像処理システム２００の処理を説明するフローチャートである。まずステップＳ２０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

【0097】

ステップＳ２０２、Ｓ２０３において、検出分類部２２５は、画像取得部２１０が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。ステップＳ２０２、Ｓ２０３の処理において、検出分類部２２５は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。具体的には、検出分類部２２５は、ステップＳ２０２の処理において、検出枠と検出スコアを取得する。また検出分類部２２５は、ステップＳ２０３の処理において、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。検出分類部２２５は、２つの確率データの大小関係に基づいて、観察方法分類処理を行う。

【0098】

ステップＳ２０４～Ｓ２０６の処理は、図９のステップＳ１０３～Ｓ１０５と同様である。即ち、ステップＳ２０４において、選択部２２２は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部２２２は第１注目領域検出器を選択し、処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部２２２は第２注目領域検出器を選択する。

【0099】

選択部２２２が第１注目領域検出器を選択した場合、ステップＳ２０５において、検出処理部２２３は、第１注目領域検出器を用いて注目領域の検出処理を行うことによって、検出結果を取得する。また選択部２２２が第２注目領域検出器を選択した場合、ステップＳ２０６において、検出処理部２２３は、第２注目領域検出器を用いて注目領域の検出処理を行うことによって検出結果を取得する。

【0100】

ステップＳ２０５の処理後、ステップＳ２０７において、統合処理部２２６は、検出一体型観察方法分類器による検出結果と、第１注目領域検出器による検出結果の統合処理を行う。同じ注目領域の検出結果であっても、検出一体型観察方法分類器によって出力される検出枠の位置や大きさ等と、第１注目領域検出器によって出力される検出枠の位置や大きさ等が一致するとは限らない。その際、検出一体型観察方法分類器による検出結果と第１注目領域検出器による検出結果を両方出力してしまうと、１つの注目領域に対して異なる複数の情報が表示されることになりユーザを混乱させてしまう。

【0101】

よって統合処理部２２６は、検出一体型観察方法分類器によって検出された検出枠と、第１注目領域検出器によって検出された検出枠が、同一の注目領域に対応する領域であるかを判定する。例えば、統合処理部２２６は検出枠どうしの重なり度合いを表すＩＯＵ（Intersection Over Union）を算出し、ＩＯＵが閾値以上である場合に、２つの検出枠が同一の注目領域に対応すると判定する。ＩＯＵについては公知であるため詳細な説明は省略する。またＩＯＵの閾値は例えば０．５程度であるが、具体的な数値は種々の変形実施が可能である。

【0102】

２つの検出枠が同じ注目領域に対応すると判定された場合、統合処理部２２６は、検出スコアの高い検出枠を注目領域に対応する検出枠として選択してもよいし、２つの検出枠に基づいて新たな検出枠を設定してもよい。また、統合処理部２２６は、検出枠に対応付けられる検出スコアとして、２つの検出スコアのうちの高い方を選択してもよいし、２つの検出スコアの重み付け和等を用いてもよい。

【0103】

一方、ステップＳ２０６の処理後、ステップＳ２０８において、統合処理部２２６は、検出一体型観察方法分類器による検出結果と、第２注目領域検出器による検出結果の統合処理を行う。統合処理の流れについてはステップＳ２０７と同様である。

【0104】

ステップＳ２０６又はステップＳ２０８の統合処理の結果として、１つの注目領域について１つの検出結果が取得される。即ち、統合処理の出力は、処理対象画像中の注目領域の数に応じた数の検出枠と、各検出枠における検出スコアを表す情報である。よって出力処理部２２４は、第１の実施形態と同様の出力処理を行う。

【0105】

以上のように、本実施形態における画像処理システム２００の処理部２２０は、観察方法分類器に基づいて、処理対象画像から注目領域を検出する処理を行う。

【0106】

このようにすれば、観察方法分類器が、注目領域の検出器を兼ねることが可能になる。観察方法分類器は、観察方法分類を実行するために、第１観察方法において撮像された学習用画像と、第２観察方法において撮像された学習用画像の両方を含む。例えば、検出一体型観察方法分類器は、通常光画像と特殊光画像の両方を学習用画像として含む。結果として、検出一体型観察方法分類器は、処理対象画像が通常光画像である場合と特殊光画像である場合のいずれにも適用可能な汎用性の高い検出処理を実行できる。即ち本実施形態の手法によれば、効率的な構成によって、精度の高い検出結果を取得することが可能になる。

【0107】

また処理部２２０は、選択処理において第１注目領域検出器が選択された場合に、第１注目領域検出器に基づく注目領域の検出結果と、観察方法分類器に基づく注目領域の検出結果の統合処理を行う。また処理部２２０は、選択処理において第２注目領域検出器が選択された場合に、第２注目領域検出器に基づく注目領域の検出結果と、観察方法分類器に基づく注目領域の検出結果の統合処理を行う。

【0108】

統合処理とは、例えば上述したように、２つの検出枠に基づいて注目領域に対応する検出枠を決定する処理、及び、２つの検出スコアに基づいて検出枠に対応付けられる検出スコアを決定する処理である。ただし、本実施形態の統合処理は、２つの検出結果に基づいて１つの注目領域について１つの検出結果を決定する処理であればよく、具体的な処理内容や検出結果として出力される情報の形式については種々の変形実施が可能である。

【0109】

このように、複数の検出結果を統合することによって、より精度の高い検出結果を取得することが可能となる。例えば、２つの観察方法のデータバランスが悪い場合には、第１観察方法に特化した学習が行われた第１注目領域検出器、又は、第２観察方法に特化した学習が行われた第２注目領域検出器が相対的に精度が高い。一方、２つの観察方法のデータバランスが良い場合には、第１観察方法と第２観察方法の両方で撮像された画像を含む検出一体型観察方法分類器が相対的に精度が高い。データバランスとは、学習に用いる画像群における画像枚数の比率を表す。

【0110】

観察方法のデータバランスは、データ収集元となる内視鏡システムの稼働状況や、正解データの付与状況等、種々の要因によって変化する。また収集を継続的に行う場合、データバランスが時間経過とともに変化していくことも想定される。学習装置１００において、データバランスの調整を行ったり、データバランスに応じて学習処理を変更することは可能であるが、学習処理の負荷が大きくなってしまう。また、学習段階におけるデータバランスを考慮して、画像処理システム２００における推論処理を変更することも可能であるが、データバランスに関する情報を取得したり、当該データバランスに応じて処理を分岐させる必要があり、負荷が大きい。その点、上記のように統合処理を行うことによって、処理負荷を増大させることなく、データバランスによらず相補的に高精度な結果を提示することが可能となる。

【0111】

また処理部２２０は、第１注目領域検出器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第１スコアを出力する処理と、第２注目領域検出器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第２スコアを出力する処理の少なくとも一方を行う。また処理部２２０は、観察方法分類器に基づいて、処理対象画像から注目領域として検出された領域の注目領域らしさを表す第３スコアを出力する処理を行う。そして処理部２２０は、第１スコア及び第３スコアを統合して第４スコアを出力する処理、及び、第２スコア及び第３スコアを統合して第５スコアを出力する処理の少なくとも一方を行う。

【0112】

ここで第１スコアとは、第１注目領域検出器から出力される検出スコアである。第２スコアとは第２注目領域検出器から出力される検出スコアである。第３スコアとは、検出一体型観察方法分類器から出力される検出スコアである。第４スコアとは、上述したように、第１スコアと第３スコアのいずれか大きい方であってもよいし、重み付け和であってもよいし、第１スコアと第３スコアに基づいて求められる他の情報であってもよい。第５スコアとは、第２スコアと第３スコアのいずれか大きい方であってもよいし、重み付け和であってもよいし、第２スコアと第３スコアに基づいて求められる他の情報であってもよい。

【0113】

そして処理部２２０は、選択処理において第１注目領域検出器が選択された場合に、第４スコアに基づく検出結果を出力し、選択処理において第２注目領域検出器が選択された場合に、第５スコアに基づく検出結果を出力する。

【0114】

このように本実施形態の統合処理は、スコアを用いた統合処理であってもよい。このようにすれば、注目領域検出器からの出力と検出一体型観察方法分類器からの出力を適切に、且つ、容易に統合することが可能になる。

【0115】

また観察方法分類器は、第１観察方法又は第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルである。ここでの正解データは、学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データと、学習用画像が第１観察方法と第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む。観察方法が３つ以上である場合、観察方法分類器は、複数の観察方法の各観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得された学習済モデルである。観察方法データは、学習済モデルが複数の観察方法のいずれで撮像された画像であるかを表すデータである。

【0116】

このようにすれば、検出結果と観察方法分類結果の両方を出力可能な観察方法分類器を適切に生成することが可能になる。結果として、本実施形態の観察方法分類器は、観察方法分類処理を実行可能であり、且つ、観察方法によらない汎用的な検出処理を実行可能になる。

【0117】

４．第３の実施形態
以上では、通常光観察及び特殊光観察を例にとって、２つの観察方法を対象として処理を行う例を示した。しかし本実施形態における観察方法は３つ以上であってもよい。第３の実施形態では、観察方法が通常光観察と、特殊光観察と、色素散布観察の３つを含む例について説明する。

【0118】

図１３は、第３の実施形態における学習装置１００の構成例である。学習装置１００の学習部１２０は、観察方法別学習部１２１と、観察方法分類学習部１２２と、観察方法混合学習部１２３を含む。ただし、学習装置１００は図１３の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。例えば観察方法混合学習部１２３が省略されてもよい。

【0119】

観察方法別学習部１２１において実行される学習処理は、いずれかの観察方法に特化した学習済モデルを生成するための学習処理である。観察方法別学習部１２１は、画像取得部１１０から画像群Ｂ１を取得し、当該画像群Ｂ１に基づく機械学習を行うことによって、第１注目領域検出器を生成する。また観察方法別学習部１２１は、画像取得部１１０から画像群Ｂ２を取得し、当該画像群Ｂ２に基づく機械学習を行うことによって、第２注目領域検出器を生成する。また観察方法別学習部１２１は、画像取得部１１０から画像群Ｂ３を取得し、当該画像群Ｂ３に基づく機械学習を行うことによって、第３注目領域検出器を生成する。

【0120】

画像群Ｂ１は、図７の画像群Ａ１と同様であり、通常光画像に対して検出データが付与された学習用画像を含む。第１注目領域検出器は、通常光画像に適した検出器である。以下、通常光画像に適した検出器をＣＮＮ＿Ａと表記する。

【0121】

画像群Ｂ２は、図７の画像群Ａ２と同様であり、特殊光画像に対して検出データが付与された学習用画像を含む。第２注目領域検出器は、特殊光画像に適した検出器である。以下、通常光画像に適した検出器をＣＮＮ＿Ｂと表記する。

【0122】

画像群Ｂ３は、色素散布画像に対して検出データが付与された学習用画像を含む。第３注目領域検出器は、色素散布画像に適した検出器である。以下、色素散布画像に適した検出器をＣＮＮ＿Ｃと表記する。

【0123】

観察方法分類学習部１２２は、例えば第２の実施形態と同様に、検出一体型観察方法分類器を生成するための学習処理を行う。検出一体型観察方法分類器の構成は、例えば図１０と同様である。ただし、本実施形態においては観察方法が３つ以上であるため、観察方法分類層は、処理対象画像が当該３つ以上の観察方法のいずれで撮像されたかを表す観察方法分類結果を出力する。

【0124】

画像群Ｂ７は、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像と、色素散布画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、学習用画像が通常光画像、特殊光画像、色素散布画像のいずれかであるかを表すラベルである。

【0125】

観察方法混合学習部１２３は、２以上の観察方法に適した注目領域検出器を生成するための学習処理を行う。ただし上記の例においては、検出一体型観察方法分類器が、全ての観察方法に適した注目領域検出器を兼ねる。そのため、観察方法混合学習部１２３は、通常光画像及び特殊光画像に適した注目領域検出器と、特殊光画像及び色素散布画像に適した注目領域検出器と、色素散布画像及び通常光画像に適した注目領域検出器の３つを生成する。以下、通常光画像及び特殊光画像に適した注目領域検出器をＣＮＮ＿ＡＢと表記する。特殊光画像及び色素散布画像に適した注目領域検出器をＣＮＮ＿ＢＣと表記する。色素散布画像及び通常光画像に適した注目領域検出器をＣＮＮ＿ＣＡと表記する。

【0126】

即ち、図１３における画像群Ｂ４は、通常光画像に対して検出データが付与された学習用画像と、特殊光画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部１２３は、画像群Ｂ４に基づく機械学習を行うことによって、ＣＮＮ＿ＡＢを生成する。

【0127】

画像群Ｂ５は、特殊光画像に対して検出データが付与された学習用画像と、色素散布画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部１２３は、画像群Ｂ５に基づく機械学習を行うことによって、ＣＮＮ＿ＢＣを生成する。

【0128】

画像群Ｂ６は、色素散布画像に対して検出データが付与された学習用画像と、通常光画像に対して検出データが付与された学習用画像を含む。観察方法混合学習部１２３は、画像群Ｂ６に基づく機械学習を行うことによって、ＣＮＮ＿ＣＡを生成する。

【0129】

第３の実施形態における画像処理システム２００の構成は、図１１と同様である。画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

【0130】

検出分類部２２５は、画像取得部２１０が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。検出分類部２２５は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。本実施形態における観察方法分類結果は、処理対象画像の観察方法が、３つ以上の観察方法のいずれであるかを特定する情報である。

【0131】

選択部２２２は、観察方法分類結果に基づいて注目領域検出器を選択する。処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、選択部２２２は、学習用画像として通常光画像が用いられた注目領域検出器を選択する。具体的には、選択部２２２は、ＣＮＮ＿Ａ、ＣＮＮ＿ＡＢ、ＣＮＮ＿ＣＡの３つを選択する処理を行う。同様に、処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、選択部２２２は、ＣＮＮ＿Ｂ、ＣＮＮ＿ＡＢ、ＣＮＮ＿ＢＣの３つを選択する処理を行う。処理対象画像が色素散布画像であるという観察方法分類結果が取得された場合、選択部２２２は、ＣＮＮ＿Ｃ、ＣＮＮ＿ＢＣ、ＣＮＮ＿ＣＡの３つを選択する処理を行う。

【0132】

検出処理部２２３は、選択部２２２によって選択された３つの注目領域検出器を用いて注目領域の検出処理を行うことによって検出結果を取得する。即ち本実施形態では、検出処理部２２３は３通りの検出結果を統合処理部２２６に出力する。

【0133】

統合処理部２２６は、検出一体型観察方法分類器によって検出分類部２２５が出力した検出結果と、検出処理部２２３が出力した３つの検出結果の統合処理を行う。統合対象が４つに増えるが、具体的な統合処理の流れは第２の実施形態と同様である。即ち、統合処理部２２６は、検出枠の重なり度合いに基づいて、複数の検出枠が同一の注目領域に対応するか否かを判定する。同一の注目領域に対応すると判定された場合、統合処理部２２６は、統合後の検出枠を決定する処理、及び、当該検出枠に対応付けられる検出スコアを決定する処理を行う。

【0134】

以上のように、本開示の手法は、観察方法が３つ以上の場合にも拡張可能である。複数の検出結果を統合することによって、より精度の高い検出結果を提示することが可能となる。

【0135】

また、本開示における観察方法は通常光観察、特殊光観察、色素散布観察の３つに限定されない。例えば本実施形態の観察方法は、挿入部から水を放出する送水操作が行われている状態で撮像を行う観察方法である送水観察、挿入部から気体を放出する送気操作が行われている状態で撮像を行う観察方法である送気観察、泡が付着した状態の被写体を撮像する観察方法である泡観察、残渣が付着した状態の被写体を撮像する観察方法である残渣観察、等を含んでもよい。観察方法の組み合わせは柔軟に変更可能であり、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察のうちの２以上を任意に組み合わせ可能である。また上記以外の観察方法が用いられてもよい。

【0136】

５．第４の実施形態
例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。しかし、特殊光画像は、通常光画像に比べて取得される枚数が少ない。そのため、特殊光画像を用いた機械学習において訓練データが不足することによって、検出精度が低下するおそれがある。例えば特殊光画像を用いて学習した第２注目領域検出器を用いた検出精度が、通常光画像を用いて学習した第１注目領域検出器に比べて低下してしまう。

【0137】

訓練データの不足に対して、プレトレーニングとファインチューニングを行う手法が知られている。しかし従来手法においては、特殊光画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、従来手法は、特殊光画像を対象とした検出処理の精度を向上させる手法を開示していない。

【0138】

よって本実施形態においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像を含む画像群を用いてファインチューニングを行うことによって第２注目領域検出器を生成する。このようにすれば、特殊光画像を検出処理の対象とする場合であっても、検出精度を高くすることが可能になる。

【0139】

また、以下では第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明するが、第２観察方法は色素散布観察であってもよい。また第２観察方法は、訓練データの不足によって検出精度が低下するおそれがある他の観察方法に拡張可能である。例えば第２観察方法は、上述した送気観察、送水観察、泡観察、残渣観察等であってもよい。

【0140】

図１４は、本実施形態の学習装置１００の構成例である。学習部１２０は、観察方法別学習部１２１と、観察方法分類学習部１２２と、プレトレーニング部１２４を含む。また観察方法別学習部１２１は、通常光学習部１２１１と、特殊光ファインチューニング部１２１２を含む。

【0141】

通常光学習部１２１１は、画像取得部１１０から画像群Ｃ１を取得し、当該画像群Ｃ１に基づく機械学習を行うことによって、第１注目領域検出器を生成する。画像群Ｃ１は、画像群Ａ１、Ｂ１と同様に、通常光画像に対して検出データが付与された学習用画像を含む。通常光学習部１２１１における学習は、例えばプレトレーニングとファインチューニングに区分されないフルトレーニングである。

【0142】

プレトレーニング部１２４は、画像群Ｃ２を用いたプレトレーニングを行う。画像群Ｃ２は、通常光画像に対して検出データが付与された学習用画像を含む。上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能である。なお画像群Ｃ２は、画像群Ｃ１とは学習用画像が重複しない画像群であってもよいし、画像群Ｃ１と一部又は全部の学習用画像が重複する画像群であってもよい。

【0143】

特殊光ファインチューニング部１２１２は、豊富に取得することが難しい特殊光画像を用いた学習処理を行う。即ち、画像群Ｃ３は、特殊光画像に対して検出データが付与された学習用画像を複数含む画像群である。特殊光ファインチューニング部１２１２は、プレトレーニングによって取得された重み付け係数を初期値として、画像群Ｃ３を用いた学習処理を実行することによって、特殊光画像に適した第２注目領域検出器を生成する。

【0144】

またプレトレーニング部１２４は、検出一体型観察方法分類器のプレトレーニングを実行してもよい。例えばプレトレーニング部１２４は、通常光画像に対して検出データが付与された学習用画像を含む画像群を用いて、検出タスク向けに検出一体型観察方法分類器をプレトレーニングする。検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、図１０における特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。即ち、検出一体型観察方法分類器のプレトレーニングにおいては、観察方法分類層の重み付け係数は学習対象ではない。

【0145】

観察方法分類学習部１２２は、プレトレーニングによって取得された重み付け係数を初期値として、画像群Ｃ４を用いたファインチューニングを実行することによって、検出一体型観察方法分類器を生成する。画像群Ｃ４は、第２の実施形態や第３の実施形態と同様に、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群である。即ち、ファインチューニングにおいては、特徴量抽出層、検出層、観察方法分類層の全ての重み付け係数が学習対象となる。

【0146】

第１注目領域検出器、第２注目領域検出器及び検出一体型観察方法分類器の生成後の処理は、第２の実施形態と同様である。また、第４の実施形態の手法と、第３の実施形態の手法が組み合わせられてもよい。即ち、通常光観察を含む３つ以上の観察方法を用いる場合において、通常光画像を用いたプレトレーニングと、撮像枚数が不足する観察方法における撮像画像を用いたファインチューニングとを組み合わせることが可能である。

【0147】

以上のように、本実施形態の第２注目領域検出器は、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、プレトレーニング後に、第２観察方法において撮像された画像を含む第２画像群を用いてファインチューニングされることによって学習された学習済モデルである。なお、第１観察方法は撮像画像を大量に取得することが容易な観察方法であることが好ましく、具体的には通常光観察である。第２観察方法は、訓練データの不足が発生しやすい観察方法であり、上述したように通常光観察であってもよいし、色素散布観察であってもよいし、他の観察方法であってもよい。

【0148】

本実施形態の手法によれば、学習用画像の枚数不足を補うために、機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、検出処理の精度向上が可能になる。

【0149】

また観察方法分類器は、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、プレトレーニング後に、第１観察方法において撮像された画像及び第２観察方法において撮像された画像を含む第３画像群を用いてファインチューニングされることによって学習された学習済モデルであってもよい。観察方法が３つ以上である場合、第３画像群は、複数の観察方法の各観察方法で撮像された学習用画像を含む。

【0150】

第１画像群は、図１４のＣ２に対応し、例えば通常光画像に対して検出データが付与された学習用画像を含む画像群である。なお、第２注目領域検出器のプレトレーニングに用いる画像群と、検出一体型観察方法分類器のプレトレーニングに用いる画像群は異なる画像群であってもよい。即ち、第１画像群は、画像群Ｃ２とは異なり、且つ、通常光画像に対して検出データが付与された学習用画像を含む画像群であってもよい。第３画像群は、図１４のＣ４に対応し、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。

【0151】

このようにすれば、検出一体型観察方法分類器における検出処理の精度向上が可能になる。なお以上では、第２注目領域検出器と検出一体型観察方法分類器の両方の生成において、プレトレーニングとファインチューニングが実行される例について説明した。しかし本実施形態の手法はこれに限定されない。例えば第２注目領域検出器と検出一体型観察方法分類器の一方の生成がフルトレーニングによって行われてもよい。また第３の実施形態と組み合わせる場合、第２注目領域検出器以外の注目領域検出器、例えばＣＮＮ＿ＡＢ、ＣＮＮ＿ＢＣ、ＣＮＮ＿ＣＡの生成において、プレトレーニングとファインチューニングが用いられてもよい。

【0152】

なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

【符号の説明】

【0153】

１００…学習装置、１１０…画像取得部、１２０…学習部、１２１…観察方法別学習部、１２１１…通常光学習部、１２１２…特殊光ファインチューニング部、１２２…観察方法分類学習部、１２３…観察方法混合学習部、１２４…プレトレーニング部、２００…画像処理システム、２１０…画像取得部、２２０…処理部、２２１…観察方法分類部、２２２…選択部、２２３…検出処理部、２２４…出力処理部、２２５…検出分類部、２２６…統合処理部、２３０…記憶部、３００…内視鏡システム、３１０…挿入部、３１１…対物光学系、３１２…撮像素子、３１３…アクチュエータ、３１４…照明レンズ、３１５…ライトガイド、３１６…ＡＦ開始／終了ボタン、３２０…外部Ｉ／Ｆ部、３３０…システム制御装置、３３１…Ａ／Ｄ変換部、３３２…前処理部、３３３…検出処理部、３３４…後処理部、３３５…システム制御部、３３６…制御部、３３７…記憶部、３４０…表示部、３５０…光源装置、３５２…光源

【図1】