(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-12
(45)【発行日】2022-07-21
(54)【発明の名称】画像処理システム、学習済みモデル及び画像処理方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220713BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020566354
(86)(22)【出願日】2019-01-15
(86)【国際出願番号】 JP2019000831
(87)【国際公開番号】W WO2020148797
(87)【国際公開日】2020-07-23
【審査請求日】2021-02-09
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】100104710
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】安藤 淳
【審査官】間野 裕一
(56)【参考文献】
【文献】中国特許出願公開第106570515(CN,A)
【文献】榎堀 優 他,Data Augmentationを用いた少数寝姿体圧データからの高精度姿勢識別DNN構築,情報処理学会研究報告 高齢社会デザイン(ASD),情報処理学会,2017年08月17日,Vol.2017-ASD-9,No.11,第1-8頁,[online],[2017年 8月17日検索],インターネット <https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=183099&file_id=1&file_no=1>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
学習画像セット及び参照画像セットを記憶する記憶部と、
画像拡張に用いられる拡張パラメータを決定する処理を行う処理部と、
を含み、
前記処理部は、
前記学習画像セットに含まれる画像に対して、前記拡張パラメータの候補である候補拡張パラメータによって決定される前記画像拡張を適用することによって拡張画像セットを生成し、
前記拡張画像セットに基づいて、認識対象の特徴の統計量である拡張特徴統計量を算出し、
前記参照画像セットに基づいて、前記認識対象の特徴の統計量である参照特徴統計量を算出し、
前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて、前記拡張パラメータを決定する、
ことを特徴とする画像処理システム。
【請求項2】
請求項1に記載の画像処理システムにおいて、
前記参照画像セットは、前記認識対象が出現したフレームから所定の時間が経過するまでのフレームの画像を含むことを特徴とする画像処理システム。
【請求項3】
請求項2に記載の画像処理システムにおいて、
前記参照画像セットは、管状の構造物の内部を撮像した画像であることを特徴とする画像処理システム。
【請求項4】
請求項1乃至3のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記学習画像セットに含まれる画像に対して、パラメータ値の異なる複数の前記候補拡張パラメータによって決定される前記画像拡張を適用することによって、複数の前記拡張画像セットを生成し、
複数の前記拡張画像セットに基づいて、複数の前記拡張特徴統計量を算出し、
複数の前記拡張特徴統計量のうち、前記参照特徴統計量との前記類似度が最も高い前記拡張特徴統計量を特定し、
前記パラメータ値の異なる複数の前記候補拡張パラメータのうち、特定された前記拡張特徴統計量に対応する前記候補拡張パラメータを、前記画像拡張に用いられる前記拡張パラメータとして決定することを特徴とする画像処理システム。
【請求項5】
請求項1乃至3のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記学習画像セットに含まれる画像に対して、所与のパラメータ値の前記候補拡張パラメータによって決定される前記画像拡張を適用することによって、前記拡張画像セットを生成し、
前記拡張画像セットに基づいて、前記拡張特徴統計量を算出し、
前記拡張特徴統計量と前記参照特徴統計量との前記類似度が高いと判定されたときに、前記所与のパラメータ値の前記候補拡張パラメータを、前記画像拡張に用いられる前記拡張パラメータとして決定し、
前記拡張特徴統計量と前記参照特徴統計量との前記類似度が低いと判定されたときに、前記パラメータ値の更新処理を行うことを特徴とする画像処理システム。
【請求項6】
請求項1乃至5のいずれか一項に記載の画像処理システムにおいて、
前記参照画像セットに含まれる画像における前記認識対象は、画像周縁部に位置する注目被写体であることを特徴とする画像処理システム。
【請求項7】
請求項1乃至6のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記学習画像セットに含まれる画像に対して、画像リサイズ処理を含む前記画像拡張を適用することによって前記拡張画像セットを生成し、
前記処理部は、
前記拡張特徴統計量と前記参照特徴統計量との前記類似度に基づいて、前記画像リサイズ処理における画像縮小度合いの限界を表す画像リサイズ率の下限を決定する処理を行うことを特徴とする画像処理システム。
【請求項8】
請求項1乃至6のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記学習画像セットに含まれる画像に対して、明度補正処理を含む前記画像拡張を適用することによって前記拡張画像セットを生成し、
前記処理部は、
前記拡張特徴統計量と前記参照特徴統計量との前記類似度に基づいて、前記明度補正処理における明度の低下度合いの限界を表す明度補正の下限を決定する処理を行うことを特徴とする画像処理システム。
【請求項9】
請求項1乃至6のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記学習画像セットに含まれる画像に対して、平滑化処理を含む前記画像拡張を適用することによって前記拡張画像セットを生成し、
前記処理部は、
前記拡張特徴統計量と前記参照特徴統計量との前記類似度に基づいて、前記平滑化処理の強度の上限を決定する処理を行うことを特徴とする画像処理システム。
【請求項10】
請求項1乃至9のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記認識対象の特徴として、前記認識対象のサイズ、前記認識対象の明るさ、及び前記認識対象のボケ量の少なくとも1つを用いることを特徴とする画像処理システム。
【請求項11】
請求項1乃至10のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
前記認識対象の特徴の統計量として、前記認識対象の特徴の頻度分布、前記認識対象の特徴の平均値、前記認識対象の特徴の分散、前記認識対象の特徴の最大値、前記認識対象の特徴の最小値、及び、前記認識対象の特徴の高次モーメントの少なくとも1つを用いることを特徴とする画像処理システム。
【請求項12】
請求項1乃至11のいずれか一項に記載の画像処理システムにおいて、
前記処理部は、
決定された前記拡張パラメータを用いて生成された前記拡張画像セットに基づいて機械学習を行うことによって、適用画像から前記認識対象を検出する処理を行う学習済みモデルを生成することを特徴とする画像処理システム。
【請求項13】
適用画像を取得する画像取得部と、
学習済みモデルを記憶する記憶部と、
前記適用画像に対して、前記学習済みモデルに基づく処理を行うことによって、認識対象の検出処理を行う処理部と、
を含み、
前記学習済みモデルは、
学習画像セットに対して、拡張パラメータによって決定される画像拡張を適用することにより生成された拡張画像セットを用いて、学習されており、
前記拡張パラメータは、前記拡張画像セットにおける前記認識対象の特徴が、前記適用画像の取得環境に対応する環境において取得された画像の集合である参照画像セットにおける前記認識対象の特徴に近づくように決定されたパラメータであることを特徴とする画像処理システム。
【請求項14】
請求項13に記載の画像処理システムにおいて、
前記学習済みモデルは、
前記学習画像セットに含まれる画像に対して、前記拡張パラメータの候補である候補拡張パラメータによって決定される前記画像拡張を適用することにより前記拡張画像セットを生成し、前記拡張画像セットから、前記認識対象の特徴の統計量である拡張特徴統計量を算出し、前記参照画像セットから、前記認識対象の特徴の統計量である参照特徴統計量を算出し、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて前記拡張パラメータを決定し、決定した前記拡張パラメータによって生成された前記拡張画像セットを用いて、学習されている、
ことを特徴とする画像処理システム。
【請求項15】
請求項13又は14に記載の画像処理システムにおいて、
前記適用画像は、生体内を撮像した生体内画像であり、
前記認識対象は、前記生体内画像に撮像される注目被写体であることを特徴とする画像処理システム。
【請求項16】
体内への挿入部とシステム制御装置とを含む内視鏡装置に用いられる学習済モデルであって、
前記学習済モデルは、
学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成し、前記拡張画像セットから、
認識対象の特徴の統計量である拡張特徴統計量を算出し、参照画像セットから、前記認識対象の特徴の統計量である参照特徴統計量を算出し、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて前記拡張パラメータを決定し、決定した前記拡張パラメータによって生成された前記拡張画像セット
と、前記認識対象の位置を特定する情報とのデータセットとに基づいて、学習されて
おり、
前記システム制御装置が、前記挿入部の撮像素子により前記体内を撮像した撮像画像を取得し、前記システム制御装置の記憶部が、前記学習済モデルを記憶し、前記システム制御装置の検出部が、前記記憶部に記憶される前記学習済モデルに従って動作することによって、前記学習済モデルに入力された前記撮像画像から、前記認識対象の画像上での前記位置を特定する検出処理を行うことを特徴とする学習済モデル。
【請求項17】
記憶部と、処理部とを含む画像処理システムにおける画像処理方法であって、
前記処理部が、前記記憶部に記憶される学習画像セットを取得する、学習画像セット取得ステップと、
前記処理部が、前記学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成する、拡張画像セット生成ステップと、
前記処理部が、前記拡張画像セットから、認識対象の特徴の統計量である拡張特徴統計量を算出する、拡張特徴統計量算出ステップと、
前記処理部が、前記記憶部に記憶される参照画像セットを取得する、参照画像セット取得ステップと、
前記処理部が、前記参照画像セットから、前記認識対象の特徴の統計量である参照特徴統計量を算出する、参照特徴統計量算出ステップと、
前記処理部が、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて前記拡張パラメータを決定する、拡張パラメータ決定ステップと、
を含むことを特徴とする画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、学習済みモデル及び画像処理方法等に関する。
【背景技術】
【0002】
従来、機械学習を用いて画像から認識対象の検出処理を行う手法が知られている。また、学習済みモデルを生成する学習処理において、学習データに対して画像拡張を行うことによって、精度を向上させる手法も知られている。例えば特許文献1には、学習画像に対して画像補正パラメータを用いた補正処理を行うことによって、追加画像を生成する手法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
所与の特徴を有する認識対象を検出する重要性が高いにも関わらず、学習画像セットには当該特徴を有する認識対象を含む画像が十分な数だけ含まれていない場合がある。特徴は種々考えられるが、例えば画像における認識対象のサイズである。この場合、上述した画像拡張を適用することによって、所望の特徴を有する認識対象を含む画像の枚数、割合を増やすことが有効である。
【0005】
しかし、画像拡張に用いられる拡張パラメータを適切に決定することは容易でない。特許文献1は、画像取得元であるデバイスの情報に基づいて補正パラメータを設定する手法を開示するのみであり、補正パラメータを用いて生成された追加画像における認識対象が、所望の特徴を有するとは限らない。
【0006】
本開示のいくつかの態様によれば、画像拡張に用いる拡張パラメータを適切に決定可能な画像処理システム、学習済みモデル及び画像処理方法等を提供できる。
【課題を解決するための手段】
【0007】
本開示の一態様は、学習画像セット及び参照画像セットを記憶する記憶部と、画像拡張に用いられる拡張パラメータを決定する処理を行う処理部と、を含み、前記処理部は、前記学習画像セットに含まれる画像に対して、前記拡張パラメータの候補である候補拡張パラメータによって決定される前記画像拡張を適用することによって拡張画像セットを生成し、前記拡張画像セットに基づいて、認識対象の特徴の統計量である拡張特徴統計量を算出し、前記参照画像セットに基づいて、前記認識対象の特徴の統計量である参照特徴統計量を算出し、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて、前記拡張パラメータを決定する画像処理システムに関係する。
【0008】
本開示の他の態様は、適用画像を取得する画像取得部と、学習済みモデルを記憶する記憶部と、前記適用画像に対して、前記学習済みモデルに基づく処理を行うことによって、認識対象の検出処理を行う処理部と、を含み、前記学習済みモデルは、学習画像セットに対して、拡張パラメータによって決定される画像拡張を適用することにより生成された拡張画像セットを用いて、学習されており、前記拡張パラメータは、前記拡張画像セットにおける前記認識対象の特徴が、前記適用画像の取得環境に対応する環境において取得された画像の集合である参照画像セットにおける前記認識対象の特徴に近づくように決定されたパラメータである画像処理システムに関係する。
【0009】
本開示のさらに他の態様は、適用画像を入力として受け付け、前記適用画像から認識対象を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成し、前記拡張画像セットから、前記認識対象の特徴の統計量である拡張特徴統計量を算出し、参照画像セットから、前記認識対象の特徴の統計量である参照特徴統計量を算出し、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて前記拡張パラメータを決定し、決定した前記拡張パラメータによって生成された前記拡張画像セットを用いて、学習されている学習済みモデルに関係する。
【0010】
本開示のさらに他の態様は、学習画像セットを取得する、学習画像セット取得ステップと、前記学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成する、拡張画像セット生成ステップと、前記拡張画像セットから、認識対象の特徴の統計量である拡張特徴統計量を算出する、拡張特徴統計量算出ステップと、参照画像セットを取得する、参照画像セット取得ステップと、前記参照画像セットから、前記認識対象の特徴の統計量である参照特徴統計量を算出する、参照特徴統計量算出ステップと、前記拡張特徴統計量と前記参照特徴統計量との類似度に基づいて前記拡張パラメータを決定する、拡張パラメータ決定ステップと、を含む画像処理方法に関係する。
【図面の簡単な説明】
【0011】
【
図1】
図1(A)、
図1(B)は学習画像セットに含まれる画像の例。
【
図2】
図2(A)、
図2(B)は拡張画像セットに含まれる画像の例。
【
図3】
図3(A)、
図3(B)は参照画像セットに含まれる画像の例。
【
図5】本実施形態の処理を説明するフローチャート。
【
図8】
図8(A)、
図8(B)は学習済みモデルの一例であるニューラルネットワークを説明する図。
【
図9】本実施形態の処理を説明する他のフローチャート。
【
図10】認識対象の検出処理を行う画像処理システムの構成例。
【
図11】画像処理システムを含む内視鏡装置の構成例。
【発明を実施するための形態】
【0012】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが必須構成要件であるとは限らない。
【0013】
1.本実施形態の手法
近年、機械学習を用いて物体検出を行う手法が広く知られている。例えば検出装置は、機械学習によって生成された学習済みモデルを用いて、画像から認識対象を検出する処理を実行する。例えば検出装置は内視鏡装置であり、内視鏡を用いた検査及び診断支援において、ポリープ等の認識対象の検出が行われる。この場合、ポリープが含まれる学習画像セットに基づいて、学習済みモデルを生成する学習処理が実行される。
【0014】
ポリープが画面内に出現した場合、できるだけ速やかに検出することが重要である。なぜなら、内視鏡画像をはじめとする管状の構造物の内部を撮影した画像内の認識対象は、一度フレーム内に出現した後に内視鏡の操作や内部構造物の変動によってすぐにフレームアウトしてしまうことがあるためである。速やかなポリープ検出が可能であれば、見逃しを抑制することが可能である。また、出現からある程度の時間が経過しても画面内に存在しているポリープは、ユーザによる発見、観察が比較的容易である。ここでのユーザは、例えば医師である。ポリープ検出はユーザによる検査等の支援を行うものであり、ユーザが自ら発見可能なポリープを検出するだけでは支援効果が高いとは言えない。即ち、ユーザが認識していないポリープの存在を報知するという観点からも、速やかなポリープ検出が重要といえる。
【0015】
ポリープを検出する学習済みモデルの作成においては、ポリープを含む画像の集合である学習画像セットを用いて学習が行われる。ここでの学習は、具体的には教師あり学習であり、学習画像セットに含まれる各画像は、ポリープの位置を特定するための情報と対応づけられている。ポリープの位置を特定するための情報とは、例えばポリープ領域に含まれる画素に第1の値が割り当てられ、ポリープ領域に含まれない画素に第1の値とは異なる第2の値が割り当てられたマスクデータである。
【0016】
図1(A)、
図1(B)は、学習画像セットに含まれる画像の例である。学習画像セットとして取得される画像は、管状(管腔状)の被写体の内部を撮像した画像である。管腔状の被写体とは、例えば消化器官であり、より具体的には大腸である。例えば、
図1(A)は、撮像光学系の光軸が管腔の長手方向に沿った状態で撮像された画像を表す。
図1(B)は、撮像光学系が管腔の壁面に正対した状態で撮像された画像を表す。
図1(A)、
図1(B)において、A1及びA2が大腸の内壁に対応する領域であり、B1及びB2がポリープ領域である。
【0017】
学習画像セットは、例えば内視鏡を用いた症例画像から、ポリープを撮像された画像を抽出することによって取得される。そのため、学習画像セットに含まれる画像は、鮮明に撮像され、観察に適した態様のポリープを含む画像の割合が高い。具体的には、
図1(A)及び
図1(B)に例示したように、ポリープは比較的大きく、明るく、コントラストの高い状態で撮像される傾向にある。それに対して、検出の重要性が高い出現直後のポリープは、画像の周縁部に位置し、不鮮明に撮像される蓋然性が高い。具体的には、出現直後のポリープは、
図1(A)や
図1(B)に比べた場合、小さく、暗く、ぼけている。
【0018】
学習画像セットは、取得可能な画像の枚数が多く、種類も豊富であるという利点がある。具体的には、それぞれ光源や撮像素子等の特性が異なる多様な撮像装置を用いて、多数の被験者を対象として、種々の部位を撮像することによって撮像される画像を、学習画像セットとして用いることが可能である。しかし学習画像セットにおけるポリープの特徴が、所望の環境におけるポリープの特徴と相違するため、学習画像セットをそのまま学習に用いた場合、検出精度の向上が難しいおそれがある。
【0019】
これに対して、学習画像セットに画像拡張(Data Augmentation)を適用することによって、拡張画像セットを生成する手法が広く知られている。
図2(A)、
図2(B)は、拡張画像セットに含まれる画像の例である。例えば、
図2(A)は、
図1(A)の画像に対して、サイズを縮小する画像リサイズ処理が行われた画像である。
図2(B)は、
図1(B)の画像に対して、明度を低下させる明度補正処理が行われた画像である。
図2(A)、
図2(B)において、A3及びA4が大腸の内壁に対応する領域であり、B3及びB4がポリープ領域である。このようにすれば、拡張画像セットは、学習画像セットに比べてポリープが不鮮明に撮像された画像の割合が増加した画像セットとなる。すなわち、画像拡張によってサイズ、明るさ、ボケ量といったポリープの特徴を調整することが可能である。
【0020】
しかし、画像拡張においては、適切な拡張パラメータの設定が難しいという課題がある。例えば、サイズの縮小度合いが足りなければ、サイズの小さいポリープの検出精度が十分高くならない。一方、サイズの縮小度合いが過剰であれば、実環境では想定されないほどに小さいポリープを含む画像を学習対象とするおそれがあり、かえって検出精度を低下させるおそれがある。特許文献1の手法は、画像取得元のデバイス特性に基づいてパラメータを決定する手法であり、本実施形態で想定するケースに適用しても、適切にパラメータを決定することは難しい。
【0021】
以上の点を考慮し、本実施形態においては参照画像セットを利用する。ここで参照画像セットとは、認識対象の検出処理を行う環境と同様の環境において取得された画像の集合である。より具体的には、参照画像セットとは、ポリープが画面内に出現してから所定時間以内のフレームの画像を含む画像セットである。
【0022】
図3(A)、
図3(B)は、参照画像セットに含まれる画像の例である。
図3(A)、
図3(B)において、A5及びA6が大腸の内壁に対応する領域であり、B5及びB6がポリープ領域である。参照画像セットに含まれる画像は、ポリープが不鮮明に撮像された画像が多い。例えば、
図3(A)は、ポリープのサイズが
図1(A)や
図1(B)に比べて小さい画像である。
図3(B)は、ポリープの境界部分が不明瞭に撮像されており、
図1(A)や
図1(B)に比べてボケ量が大きい画像である。参照画像セットは、ポリープの統計的な特徴が実環境に適合しているという利点がある。
【0023】
ただし、学習画像セットの説明において上述したように、ポリープ画像として収集可能な画像は、ポリープが鮮明に撮像された画像が多い。そのため、参照画像セットに含まれる画像の枚数や種類は学習画像セットに比べて少なく、参照画像セットを機械学習の入力として使用した場合、検出精度を高くすることは容易でない。
【0024】
そこで本実施形態においては、参照画像セットを拡張パラメータの決定に用いる。本実施形態にかかる画像処理システム10は、
図4に示すように、学習画像セット及び参照画像セットを記憶する記憶部20と、画像拡張に用いられる拡張パラメータを決定する処理を行う処理部30を含む。そして処理部30は、学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することによって拡張画像セットを生成する。処理部30は、拡張画像セットに基づいて、認識対象の特徴の統計量である拡張特徴統計量を算出する。同様に処理部30は、参照画像セットに基づいて、認識対象の特徴の統計量である参照特徴統計量を算出する。そして処理部30は、拡張特徴統計量と参照特徴統計量との類似度に基づいて、拡張パラメータを決定する。なお、認識対象の特徴とは、サイズ、明るさ、ボケ量等である。また、拡張画像セット及び参照画像セットには複数の画像が含まれ、各画像について1又は複数の認識対象が含まれる。つまり、拡張画像セットにおける認識対象の特徴とは1つの値ではなく、認識対象の数だけの値の集合となる。参照画像セットについても同様である。特徴統計量とは、特徴を表す複数の値に基づいて求められる統計量である。特徴統計量を用いることによって、拡張画像セットにおける認識対象の特徴と、参照画像セットにおける認識対象の特徴を、適切に比較することが可能になる。
【0025】
このように本実施形態の手法においては、候補拡張パラメータを用いて暫定的な拡張画像セットを作成した上で、拡張画像セットと参照画像セットとの特徴統計量を比較する。換言すれば、処理部30は、候補拡張パラメータを用いた候補拡張画像セットの生成、候補拡張画像セットに基づく候補拡張特徴統計量の算出、及び、候補拡張特徴統計量と参照特徴統計量の比較、を行う。処理部30は、画像拡張を用いて生成した拡張画像セットに含まれる認識対象の特徴統計量が、参照画像セットに含まれる認識対象の特徴統計量に近づくように、画像拡張に用いる拡張パラメータを決定する。具体的な処理は、
図5及び
図9を用いて後述するように、種々の手法が考えられる。このようにすれば、認識対象の検出処理を行う環境を想定した、適切な拡張パラメータの設定が可能になる。また適切な拡張パラメータによって生成された拡張画像セットを用いて画像認識処理の学習を行うことによって、認識性能の向上が可能である。
【0026】
ここで、参照画像セットは、認識対象が出現したフレームから所定の時間が経過するまでのフレームの画像を含む。所定の時間は望ましくは10秒程度であり、さらに望ましくは1秒~数秒である。ただし所定の時間は種々の変形実施が可能である。また、参照画像セットは、所定の時間が経過するまでのすべてのフレームの画像を含んでもよい。所定の時間をt秒、撮像のフレームレートを毎秒fフレームとした場合、参照画像セットは、1回のポリープの出現あたり、t×fに相当する枚数の画像を含む。ただし参照画像セットは、所定の時間が経過するまでのフレームの画像の一部を抽出した画像セットであってもよい。
【0027】
このようにすれば、出現直後の認識対象の特徴を適切に反映した画像群を、参照画像セットとして用いることが可能になる。また、認識対象が出現したフレームを1つ特定することによって、最大t×f枚の画像が参照画像セットに追加される。参照画像セットに含める画像を1つ1つ特定する必要がないため、参照画像セットの作成負担を軽減することが可能である。
【0028】
また、参照画像セットは、管状の構造物の内部を撮像した画像であってもよい。管状の構造物は、上述したように消化器官であってもよいが、これには限定されない。例えば管状の構造物は、工業用のパイプ等であってもよい。このような参照画像セットを用いて拡張パラメータを決定することによって、管状の構造物の内部に位置する認識対象の検出精度を向上させることが可能になる。特に管状の構造物の場合、撮像部と被写体の相対的な動きによって認識対象がフレームアウトする蓋然性が、平面的な構造物に比べて高い。認識対象の検出精度を向上させることによって、認識対象の見逃しを抑制することが可能になる。
【0029】
また、参照画像セットに含まれる画像における認識対象は、画像周縁部に位置する注目被写体であってもよい。このような参照画像セットを用いて拡張パラメータを決定することによって、画像周辺部に撮像された注目被写体の検出精度を向上させることが可能になる。そのため、出現直後の注目被写体の検出精度向上、注目被写体の見逃し抑制等が可能になる。
【0030】
なお、参照画像セットの生成手法や、参照画像セットに含まれる画像における認識対象の特徴、被写体等は、上記に限定されず種々の変形実施が可能である。例えば、夜間において所与の認識対象を検出する必要性があるが、学習画像セットとして取得可能な画像は昼間の画像が支配的である場合を考える。この場合、学習画像セットに対して、明度が低下する画像が多くなるような画像拡張を適用することによって拡張画像セットを生成する。その際、夜間に取得された画像を参照画像セットとした上で、当該参照画像セットに基づいて、拡張パラメータが決定される。このようにすれば、拡張画像セットには、夜間に撮影した場合と同様に、明度の低い認識対象が多く含まれることになり、夜間における認識対象の検出精度向上が可能になる。
【0031】
以下、認識対象が管状の生体器官内部に発生するポリープであり、当該ポリープが出現したフレームから所定の時間が経過するまでのフレームの画像を含む参照画像セットを用いる例について説明する。ただし上述したとおり、本実施形態の手法はこれに限定されない。本実施形態の手法は、拡張画像セットにおける認識対象の特徴が参照画像セットにおける認識対象の特徴に近づくように拡張パラメータが決定され、且つ、参照画像セットが実際の検出環境における認識対象の特徴を反映した画像セットである、という条件に適合する種々の手法に拡張可能である。
【0032】
2.システム構成例
図4に示した画像処理システム10の構成について詳細に説明する。画像処理システム10は、記憶部20と、処理部30を含む。
【0033】
処理部30は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
【0034】
また処理部30は、下記のプロセッサにより実現されてもよい。本実施形態の画像処理システム10は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置(HDD:Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部30の各部の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0035】
記憶部20は、データやプログラムなどの各種の情報を記憶する。処理部30は例えば記憶部20をワーク領域として動作する。記憶部20は、半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。
【0036】
図4に示したように、処理部30は、学習画像セット入力部31、拡張画像セット生成部32、拡張特徴統計量算出部33、参照画像セット入力部34、参照特徴統計量算出部35、拡張パラメータ決定部36、学習部37を含む。ただし、画像処理システム10、及び処理部30は
図4の構成に限定されず、これらの一部の構成要素の省略、他の構成要素の追加等の種々の変形実施が可能である。
【0037】
学習画像セット入力部31は、学習画像セットの入力を受け付ける。学習画像セット入力部31は、例えば記憶部20からデータを読み出すためのインターフェースである。或いは、学習画像セット入力部31は、ネットワークを介した外部装置からの学習画像セットの受信、及び受信した学習画像セットの記憶部20への書き込みを実行する通信インターフェースであってもよい。
【0038】
拡張画像セット生成部32は、学習画像セットに含まれる各画像に対して、拡張パラメータによって定められる画像拡張を適用することにより拡張画像セットを生成する。なお、ここで生成される拡張画像セットは、学習部37における学習処理に用いられることが確定しているものではなく、拡張パラメータ決定部36の処理によっては破棄される場合もある。即ち、ここでの拡張パラメータは、厳密には候補拡張パラメータである。
【0039】
拡張特徴統計量算出部33は、拡張画像セットから、認識対象の特徴の統計量である拡張特徴統計量を算出する。認識対象の特徴は例えばサイズ、明度、ボケ量等である。統計量は、頻度分布等である。特徴統計量の詳細については後述する。
【0040】
参照画像セット入力部34は、参照画像セットの入力を受け付ける。参照画像セット入力部34は、学習画像セット入力部31と同様に、種々のインターフェースによって実現できる。参照特徴統計量算出部35は、参照画像セットから、認識対象の特徴の統計量である参照特徴統計量を算出する。参照特徴統計量の算出処理は、拡張特徴統計量の算出処理と同様である。
【0041】
拡張パラメータ決定部36は、拡張特徴統計量と参照特徴統計量との類似度に基づいて拡張パラメータを決定する。学習部37は、決定された拡張パラメータに対応する拡張画像セットを用いて、画像認識処理の学習を行う。
【0042】
なお
図4においては、画像処理システム10が学習部37を含む例を示した。換言すれば、処理部30は、決定された拡張パラメータを用いて生成された拡張画像セットに基づいて機械学習を行うことによって、適用画像から認識対象を検出する処理を行う学習済みモデルを生成する。適用画像とは、認識対象を検出する処理の適用対象となる画像であり、検出装置(推論装置、認識装置)における入力画像である。
【0043】
このようにすれば、学習に用いる拡張画像セットの生成と、当該拡張画像セットを用いた学習とを、同じ画像処理システム10において実行できる。例えば、拡張パラメータの決定と学習処理とを、1つの電子機器において実行することが可能である。ただし、画像処理システム10が複数の装置によって構成され、拡張画像セットの生成と、学習処理とが異なる装置で実行されてもよい。また、拡張画像セットの生成と、学習の少なくとも一方の処理が、複数の装置による分散処理によって実現されてもよい。
【0044】
3.処理の詳細
図5は、本実施形態の処理を説明するフローチャートである。この処理が開始されると、まず学習画像セット入力部31は、学習画像セットの入力を受け付ける(ステップS101)。次に、拡張画像セット生成部32は、学習画像セットに対して画像拡張を適用することによって、拡張画像セットを生成する(ステップS102)。
【0045】
拡張画像セット生成部32は、画像拡張として、画像リサイズ処理、明度補正処理、平滑化処理を行う。その場合、拡張パラメータは画像リサイズ率の上限下限、明度補正の上限下限、平滑化処理の上限下限となる。なお、ここでは画像リサイズ率の上限を画像が大きい側の限界、下限を画像が小さい側の限界とする。明度補正の上限を明度が高い側の限界、下限を明度が低い側の限界とする。平滑化処理の上限を平滑化度合いが大きい側の限界、下限を平滑化度合いが小さい側の限界とする。ただし、画像リサイズ処理、明度補正処理、平滑化処理の全てが必須の処理ではなく、一部の処理を省略してもよい。また画像拡張に、回転等の他の処理が追加されてもよい。
【0046】
例えば、画像リサイズ率が、上限と下限の間においてNA通りの値を設定可能であるとする。例えば、画像リサイズ率の下限が0.7倍、上限が1.2倍であり、リサイズ率を0.1倍間隔で設定可能である場合、NA=6である。同様に、明度補正におけるパラメータ値が上限と下限の間においてNB通りの値を設定可能であり、平滑化処理におけるパラメータ値が上限と下限の間においてNC通りの値を設定可能であるとする。この場合、学習画像セットに含まれる1枚の画像に対して画像拡張を行うことによって、最大NA×NB×NC枚の画像を生成可能である。換言すれば、拡張画像セット生成部32は、拡張画像セットとして、学習画像セットに含まれる画像枚数のNA×NB×NC倍の枚数の画像を含む画像セットを生成可能である。ただし、拡張画像セットに含まれる画像枚数が過剰に多い場合、学習処理の負荷が大きくなってしまう。よって拡張画像セット生成部32は、NA×NB×NC通りの全ての場合について画像拡張を行うのではなく、そのうちの一部の画像拡張を行うことによって、拡張画像セットに含まれる画像枚数を抑制してもよい。
【0047】
明度補正処理は、例えばガンマ補正処理である。拡張画像セット生成部32は、下式(1)に基づいて、RGBの画素値をHSV色空間に変換する。Hは色相(Hue)、Sは彩度(Saturation)、Vは明度(Value)である。下式(1)におけるR,G,Bは赤緑青の画素値を表す。またMaxはRGBの画素値のうちの最大値を表し、MinはRGBの画素値のうちの最小値を表す。次に拡張画像セット生成部32は、下式(2)に基づいて、明度Vに対するガンマ補正処理を行う。V’はガンマ補正処理後の明度を表す。γ=1の場合に元の明度が維持され、γが大きいほど明度が低下し、γが小さいほど明度が増加する。拡張パラメータは、具体的にはγの値の上限及び下限である。ガンマ補正処理後に、下式(3)に基づいて、RGBの画素値への再変換が行われる。下式(3)におけるR’,G’,B’は再変換後の赤緑青の画素値を表す。floor(x)は、x以下の最大の整数を表す。
【数1】
【数2】
【数3】
【0048】
平滑化処理は、例えば平滑化フィルタを用いたフィルタ処理である。平滑化フィルタは、例えば平滑化度合いが可変のフィルタであり、平滑化処理におけるパラメータ値の上限下限とは当該平滑化フィルタにおける平滑化度合いの上限下限である。平滑化度合いとは、例えばガウシアンフィルタにおけるσの値であり、σが大きいほど平滑化度合いが大きくなる。平滑化フィルタ及び当該フィルタの平滑化度合いを決定するパラメータは種々知られており、本実施形態ではそれらを広く適用可能である。或いは、平滑化フィルタは、例えば平滑化度合いが固定のフィルタであり、平滑化処理におけるパラメータ値の上限下限とは当該平滑化フィルタの適用回数の上限下限であってもよい。この場合、適用回数が少ないほど平滑化度合いが小さい。例えば、σが固定のガウシアンフィルタを何回適用させるかによって、平滑化度合いの調整が可能である。
【0049】
図5のステップS102において、拡張画像セット生成部32は、パラメータ値の異なる複数の拡張パラメータに基づいて、複数の拡張画像セットを生成する。ここでの拡張パラメータは、候補拡張パラメータである。例えば第1の拡張パラメータと第2の拡張パラメータとは、画像リサイズ率の上限、画像リサイズ率の下限、明度補正の上限、明度補正の下限、平滑化処理の上限、平滑化処理の下限、のうちの少なくとも1つが異なる。
【0050】
ポリープを検出する例であれば、画像拡張はポリープが小さく、暗く、ぼけて撮像された画像を増やすために行われるものである。そのため、ポリープを小さくする限界、暗くする限界、ボケ量を増加させる限界を、適切に決定することが重要である。即ち、第1の拡張パラメータと第2の拡張パラメータとは、画像リサイズ率の下限、明度補正の下限、平滑化処理の上限のうちの少なくとも1つが異なる。換言すれば、画像リサイズ率の上限、明度補正の上限、平滑化処理の下限については固定としてもよい。
【0051】
例えば、画像リサイズ率の上限が1.2倍で固定であり、画像リサイズ率の下限の候補として、0.5倍、0.6倍、0.7倍の3つが想定される例を考える。この場合、拡張画像セット生成部32は、画像リサイズ率の範囲が0.5倍~1.2倍である第1の拡張パラメータを用いた画像拡張と、画像リサイズ率の範囲が0.6倍~1.2倍である第2の拡張パラメータを用いた画像拡張と、画像リサイズ率の範囲が0.7倍~1.2倍である第3の拡張パラメータを用いた画像拡張と、を行うことによって、第1~第3の拡張画像セットを生成する。明度補正処理及び平滑化処理についても同様であり、拡張画像セット生成部32は、パラメータ値が異なる複数の拡張パラメータを用いた画像拡張を行うことによって、複数の拡張画像セットを生成する。
【0052】
拡張特徴統計量算出部33は、異なる複数の拡張画像セットから、認識対象の特徴の統計量である拡張特徴統計量をそれぞれ算出する(ステップS103)。処理部30は、認識対象の特徴として、認識対象のサイズ、認識対象の明るさ、及び認識対象のボケ量の少なくとも1つを用いる。このようにすれば、適切な特徴に基づいて、拡張パラメータを決定することが可能になる。ポリープの例であれば、学習画像セットにおけるポリープのサイズ、明るさ、ボケ量が、検出段階における実際の環境と異なる点が問題となっていた。その点、サイズ、明るさ、ボケ量を特徴として用いて拡張パラメータを決定することによって、拡張画像セットにおけるポリープのサイズ、明るさ、ボケ量を検出環境に近づけることが可能になる。即ち、学習済みモデルに基づく検出処理の精度が向上する。
【0053】
認識対象のサイズとは、具体的には認識対象の画素数である。認識対象の明るさは、例えば上式(1)における明度Vを用いて求められる。例えば、1つの認識対象が複数の画素に対応する場合、各画素についてVを求め、求めた複数のVの値の平均値を、当該認識対象の明るさとする。認識対象のボケ量とは、例えばコントラスト値である。例えば拡張特徴統計量算出部33は、拡張画像セットに含まれる画像の各画素に対してバンドパスフィルタを適用し、その出力値を累積することによってコントラスト値を算出する。また、コントラスト値の算出はバンドパスフィルタを用いるものに限定されず、公知の手法を広く適用可能である。
【0054】
拡張画像セットは多くの画像を含み、認識対象も多数含まれる。そのため、拡張画像セットから算出される認識対象のサイズは、1つの値ではなく多数の値の集合となる。拡張画像セットにおける認識対象の特徴を適切に把握するためには、当該多数の値の全体的な傾向を用いることが有用である。認識対象の明るさやボケ量についても同様である。
【0055】
そのため、処理部30は、認識対象の特徴の統計量として、認識対象の特徴の頻度分布、平均値、分散、最大値、最小値、及び、高次モーメントの少なくとも1つを用いる。頻度分布は、例えば
図6や
図7を用いて後述するように、特徴を値に応じて複数の区間(bin)に分割した場合における、各区間に属する認識対象の数を表す情報である。平均値は単純平均であってもよいし、加重平均やトリム平均等であってもよい。最大値、最小値についても、単純な最大、最小に限定されず、平均値に対して極端に値が異なる情報を除外した上で最大、最小を求めてもよい。なお平均値は1次のモーメントであり、分散は平均値まわりの2次のモーメントである。3次以上のモーメントについても広く知られており、ここでの高次モーメントは当該3次以上のモーメントを広く含むことが可能である。
【0056】
統計量を用いることによって、拡張画像セットにおける認識対象の特徴を適切に表現することが可能になる。また、統計量を用いることによって、参照画像セットにおける認識対象の特徴との比較も容易になる。拡張特徴統計量算出部33は、複数の拡張画像セットのそれぞれについて拡張特徴統計量を求めることによって、複数の拡張特徴統計量を算出する。
【0057】
参照画像セット入力部34は、参照画像セットの入力を受け付ける(ステップS104)。参照画像セットは、例えば内視鏡画像のような管状の構造物の内部を撮影した動画において、認識対象が出現したフレームから所定の時間が経過するまでのフレームのみで構成される。そのため、画像周縁部に小さく暗くぼけた状態で存在する認識対象が多く含まれる。
【0058】
参照特徴統計量算出部35は、参照画像セットから、認識対象の特徴の統計量である参照特徴統計量を算出する(ステップS105)。認識対象の特徴、認識対象の特徴の統計量にはステップS103と同じものを用いる。
【0059】
なお、
図5においては、ステップS104がステップS101~S103の後に実行される例を示したがこれには限定されない。ステップS101~S103の処理と、ステップS104及びS105の処理は、独立に実行可能であり、例えば並列に処理が行われてもよい。
【0060】
次に、拡張パラメータ決定部36は、異なる複数の拡張特徴統計量の中で、参照特徴統計量との類似度が最も高い拡張特徴統計量に対応する拡張パラメータを、画像認識処理の学習に用いる拡張パラメータとして決定する(ステップS106)。即ち拡張パラメータ決定部36は、ステップS102において拡張画像セットの生成に用いた複数の候補拡張パラメータのうち、最適と判定される候補拡張パラメータを、学習処理に使用する拡張パラメータとして採用する処理を行う。
【0061】
図6は、認識対象のサイズに関する拡張特徴統計量と参照特徴統計量の比較に基づいて、画像リサイズ率の下限である拡張パラメータを決定する処理を説明する図である。
図6の横軸は認識対象のサイズであり、ここでは画像サイズに対する比率を示している。
図6は、各画像セットについて、サイズ比率が0~0.5%の認識対象の数、サイズ比率が0~1.0%の認識対象の数、サイズ比率が0~1.5%の認識対象の数、サイズ比率が0~2.0%の認識対象の数、サイズ比率が0~100%の認識対象の数、の5つの値を求め、当該5つの値をつないで折れ線グラフを描いた例である。即ち、
図6の縦軸は、画像セットに含まれる認識対象の数の累計である。なお、グラフの類似度を判定するため、各グラフの縦軸のスケールをそろえることが望ましい。例えば拡張パラメータ決定部36は、各画像セットについて処理対象とする認識対象の総数を統一する、或いは各画像セットについて認識対象の総数に基づいて正規化処理を行う。
【0062】
図6のC1は、学習画像セットの特徴統計量を表すグラフである。なお、C1は説明の便宜上表示しているものであり、処理部30は学習画像セットの特徴統計量を算出しなくてもよい。学習画像セットに含まれるポリープは大きいものが多いため、0.5%以下~2.0%以下の4つの区間において、認識対象の数が少ない傾向にある。
【0063】
図6のC2、C3、C4は、それぞれリサイズ率の下限が0.7倍、0.6倍、0.5倍である拡張パラメータによって生成された拡張画像セットの拡張特徴統計量を表すグラフである。いずれも、リサイズ率の下限が1.0倍を下回るため、サイズ比率が2.0%以下の認識対象の数が、学習画像セットに比べて多くなる。そのため、C1に比べてC2~C4のグラフは上方向に位置する。また、リサイズ率の下限が小さいほど、小さいポリープが増加する蓋然性が高いため、縦軸の上方向に沿って、C2、C3、C4の順にグラフが並ぶ。
【0064】
ここで、参照画像セットの参照特徴統計量を表すグラフがC5であったとする。この場合、C2~C4のなかで、C3のグラフが最もC5と近いと判定される。即ち、画像リサイズ率の下限が0.6倍のときに、拡張画像セットの特徴の頻度分布と、参照画像セットの特徴の頻度分布が最も近くなる。よって拡張パラメータ決定部36は、画像リサイズ率の下限を0.6倍と決定する。
【0065】
なお、最も頻度分布が近い拡張画像セットを特定するための具体的な処理は種々考えられる。例えば、拡張パラメータ決定部36は、
図6のように、横軸に認識対象の特徴の大きさで分割したbinをとり、縦軸に認識対象の数をとった頻度分布を拡張特徴量と参照特徴量のそれぞれで作成する。そして拡張パラメータ決定部36は、2つの頻度分布の各binでの差分絶対値を、全てのbinについて合計する。拡張パラメータ決定部36は、合計値が小さいほど、拡張特徴統計量と参照特徴統計量との類似度が高いと判定する。或いは、拡張パラメータ決定部36は、合計値の逆数を類似度として算出し、当該類似度の値が大きいものを選択する処理を行ってもよい。
【0066】
以上のように、処理部30は、学習画像セットに含まれる画像に対して、画像リサイズ処理を含む画像拡張を適用することによって拡張画像セットを生成する。そして処理部30は、拡張特徴統計量と参照特徴統計量との類似度に基づいて、画像リサイズ率の下限を決定する処理を行う。画像リサイズ率の下限とは、画像リサイズ処理における画像縮小度合いの限界を表す。このようにすれば、認識対象を縮小するための拡張パラメータを適切に決定できるため、相対的に小さい認識対象の検出精度向上が可能になる。
【0067】
図7は、認識対象の明るさに関する拡張特徴統計量と参照特徴統計量の比較に基づいて、明度補正の下限である拡張パラメータを決定する処理を説明する図である。
図7の横軸は認識対象の明るさであり、ここでは明度を20ずつの区間に区分している。なお、
図7は明度が0~255の範囲であり、そのうちの一部について表示している。
図7の縦軸は、画像セットに含まれる認識対象の数である。なお、
図7の区間を0~20、0~40等に変更する、即ち
図7の縦軸を認識対象の数の累計としてもよく、頻度分布の具体的な形式は種々の変形実施が可能である。
【0068】
図7のD1は、学習画像セットの特徴統計量を表すグラフである。学習画像セットに含まれるポリープは明るいものが多いため、明度が80以下の範囲において、認識対象の数が少ない傾向にある。
【0069】
図7のD2は、ガンマ補正処理におけるγの上限が1.2である拡張パラメータによって生成された拡張画像セットの拡張特徴統計量を表すグラフである。D3はγの上限が1.3の場合に対応し、D4はγの上限が1.4の場合に対応する。いずれも、γの上限は1より大きいため、暗い認識対象の数が、学習画像セットに比べて多くなる。そのため明度が80以下の範囲において、D2~D4のグラフはD1に比べて上方向に位置する。
【0070】
D5は、参照画像セットの参照特徴統計量を表すグラフである。この場合、D2~D4のなかで、D3のグラフが最もD5と近い。即ち、γの上限が1.3のときに、拡張画像セットの特徴の頻度分布と、参照画像セットの特徴の頻度分布が最も近くなる。よって拡張パラメータ決定部36は、明度補正における下限、即ちγの上限を1.3と決定する。
【0071】
以上のように、処理部30は、学習画像セットに含まれる画像に対して、明度補正処理を含む画像拡張を適用することによって拡張画像セットを生成する。そして処理部30は、拡張特徴統計量と参照特徴統計量との類似度に基づいて、明度補正の下限を決定する処理を行う。明度補正の下限とは、明度補正処理における明度の低下度合いの限界を表す。このようにすれば、認識対象を暗くするための拡張パラメータを適切に決定できるため、相対的に暗く撮像される認識対象の検出精度向上が可能になる。
【0072】
また、以上では
図6及び
図7を用いてサイズ及び明るさについて説明したが、ボケ量についても同様に考えることが可能である。処理部30は、学習画像セットに含まれる画像に対して、平滑化処理を含む画像拡張を適用することによって拡張画像セットを生成する。そして処理部30は、拡張特徴統計量と参照特徴統計量との類似度に基づいて、平滑化処理の強度の上限を決定する処理を行う。このようにすれば、認識対象のボケ度合いを高くするための拡張パラメータを適切に決定できるため、相対的にぼけた状態で撮像される認識対象の検出精度向上が可能になる。ボケ度合いとは、具体的にはコントラスト値の大小によって表される。
【0073】
また以上では、1つの特徴に基づいて1つの特徴統計量を算出する例を示した。しかし拡張パラメータ決定部36における処理はこれに限定されない。例えば、サイズと明るさ、明るさとボケ量のように複数の認識対象の特徴を並べたベクトルから統計量を算出し、拡張特徴統計量と参照特徴統計量との類似度を計算してもよい。このように複数の特徴の相関も考慮することによって、より参照画像セットに類似した拡張画像セットの生成が可能になる。
【0074】
上述したように参照画像セットは、認識対象が出現したフレームから所定の時間が経過するまでのフレームのみで構成されるため、大量に用意することが難しい。本実施形態の手法によれば、参照画像セットと類似した認識対象の特徴分布をもつ拡張画像セットを、学習画像セットに基づいて構築することができる。学習画像セットは、出現フレームとの関係に制約がなく、狭義には全フレームから抽出した画像を含むことが可能である。
【0075】
拡張パラメータ決定後の処理について、
図5のフローチャートに戻って説明を行う。次に、学習部37は、ステップS106の処理において決定された拡張パラメータに対応する拡張画像セットを用いて、画像認識処理の学習を行う(ステップS107)。学習画像セットに含まれる各画像は、認識対象の位置を特定する情報と対応づけられている。そのため、拡張画像セットに含まれる各画像についても、認識対象の位置を特定する情報との対応づけが可能である。学習部37は、拡張画像セットと、認識対象の位置を特定する情報とのデータセットに基づいて、学習を行う。なお本実施形態の手法は、適切な拡張パラメータを決定するものであり、当該拡張パラメータに基づいて生成された拡張画像セットを用いた学習手法は任意である。例えばSVM(support vector machine)等の広く知られた学習処理を用いることが可能である。
【0076】
ただし、画像拡張はニューラルネットワークとの組み合わせにおいて有用であることが広く知られている。
図8(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。
図8(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は
図8(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習(ディープラーニング)を用いることが望ましい。ここでの多層とは、狭義には4層以上である。
【0077】
図8(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み(バイアスを含む)を決定する処理である。学習には誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。
【0078】
より具体的には、学習部37は、画像認識処理に畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いてもよい。
図8(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。
図8(B)に示す例は、畳み込み層及びプーリング層による演算を2回行った後、畳み込み層による演算を行うことによって出力を求めるネットワークである。なお、全結合層による演算を行うことによって出力を求めてもよい。全結合層とは、所与の層のノードに対して前の層の全てのノードが結像される場合の演算処理を行う層であり、
図8(A)を用いて上述した各層の演算に対応する。なお、
図8(B)では活性化関数による演算処理を省略している。また、畳み込み層を3層以上にする等、CNNの具体的な構成は種々の変形実施が可能である。CNNの畳み込み層における重みは、フィルタのパラメータである。即ち、CNNにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。CNNを含むニューラルネットワークについては広く知られた手法であるため、これ以上の詳細な説明は省略する。
【0079】
以上のように、処理部30は、学習画像セットに含まれる画像に対して、パラメータ値の異なる複数の候補拡張パラメータによって決定される画像拡張を適用することによって、複数の拡張画像セットを生成する。そして処理部30は、複数の拡張画像セットに基づいて、複数の拡張特徴統計量を算出した後、当該複数の拡張特徴統計量のうち、参照特徴統計量との類似度が最も高い拡張特徴統計量を特定する。そして処理部30は、パラメータ値の異なる複数の候補拡張パラメータのうち、特定された拡張特徴統計量に対応する候補拡張パラメータを、画像拡張に用いる拡張パラメータとして決定する。
【0080】
このようにすれば、拡張パラメータの候補が複数存在する場合に、各候補拡張パラメータについて実際に拡張画像セットを生成した上で、参照画像セットとの類似度を判定することが可能になる。そのため、複数の候補拡張パラメータのうちのいずれが最適な拡張パラメータであるかを、適切に判定することが可能になる。
【0081】
なお本実施形態の手法は、学習部37の学習によって取得される学習済みモデルに適用できる。本実施形態にかかる学習済みモデルは、適用画像を入力として受け付け、適用画像から認識対象を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルである。学習済みモデルは、学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成し、拡張画像セットから認識対象の特徴の統計量である拡張特徴統計量を算出し、参照画像セットから認識対象の特徴の統計量である参照特徴統計量を算出し、拡張特徴統計量と参照特徴統計量との類似度に基づいて拡張パラメータを決定し、決定した拡張パラメータによって生成された拡張画像セットを用いて、学習されている。
【0082】
ここで学習済みモデルは、例えばニューラルネットワークに対応するモデルであってもよい。即ち、学習済みモデルは、適用画像を入力として受け付ける入力層と、入力層からの出力に基づいて演算処理を行う中間層と、中間層からの出力に基づいて適用画像における認識対象の検出結果を出力する出力層と、を含むニューラルネットワークである。そして上記手法に基づく拡張パラメータによって生成された拡張画像セットを用いて学習処理を行うことによって、ニューラルネットワークにおける重みが決定される。
【0083】
また本実施形態の手法は、
図5又は後述する
図9に示す各ステップを実行する画像処理方法に適用できる。画像処理方法は、学習画像セット取得ステップ、拡張画像セット生成ステップ、拡張特徴統計量算出ステップ、参照画像セット取得ステップ、参照特徴統計量算出ステップ、拡張パラメータ決定ステップ、を含む。学習画像セット取得ステップは、学習画像セットを取得するステップである。拡張画像セット生成ステップは、学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成するステップである。拡張特徴統計量算出ステップは、拡張画像セットから、認識対象の特徴の統計量である拡張特徴統計量を算出するステップである。参照画像セット取得ステップは、参照画像セットを取得するステップである。参照特徴統計量算出ステップは、参照画像セットから、認識対象の特徴の統計量である参照特徴統計量を算出するステップである。拡張パラメータ決定ステップは、拡張特徴統計量と参照特徴統計量との類似度に基づいて拡張パラメータを決定するステップである。
【0084】
4.変形例
図5を用いて上述した例においては、処理部30は、あらかじめ複数の拡張画像セットを生成しておき、参照画像セットを用いてそのうちの1つの拡張画像セットを選択する処理を行う。この処理は、例えば候補となり得る全ての拡張パラメータについて、拡張画像セットの生成、及び、拡張特徴統計量と参照特徴統計量の比較が可能であるため、最適な拡張パラメータの選択が容易であるという利点がある。一方、上記の処理は多数の拡張画像セットを生成する必要があり、処理負荷が大きく、メモリ容量を圧迫する恐れもある。
【0085】
図9は、処理部30における他の処理を説明するフローチャートである。学習画像セットの入力受付(ステップS201)、参照画像セットの入力受付(ステップS202)、参照特徴統計量の算出(ステップS203)については、
図5のステップS101、S104、S105と同様である。
【0086】
拡張画像セット生成部32は、拡張パラメータを所与の値によって初期化する(ステップS204)。換言すれば、拡張画像セット生成部32は、複数の候補拡張パラメータのうちのいずれかの候補拡張パラメータを選択し、当該候補拡張パラメータのパラメータ値を初期値とする処理を行う。そして拡張画像セット生成部32は、初期化後の拡張パラメータを用いた画像拡張を学習画像セットに適用することによって、拡張画像セットを生成する(ステップS205)。ステップS205の処理において、拡張パラメータの候補数に比べて少ない数、狭義には1つの拡張画像セットが生成される。
【0087】
次に拡張特徴統計量算出部33は、ステップS205において生成された拡張画像セットに基づいて、拡張特徴統計量を算出する(ステップS206)。拡張パラメータ決定部36は、ステップS203の処理において算出された参照特徴統計量と、ステップS206の処理において算出された拡張特徴統計量を比較する(ステップS207)。
【0088】
拡張パラメータ決定部36は、参照特徴統計量と拡張特徴統計量の差が所与の閾値未満であるか否かを判定する(ステップS208)。特徴統計量の差とは、例えば
図6又は
図7の各区間における差分絶対値の和である。ステップS208の処理は、参照特徴統計量と拡張特徴統計量の類似度が低いか否かの判定と考えてもよい。
【0089】
差が閾値以上である場合(ステップS208でNo)、拡張画像セットにおける認識対象の特徴は、参照画像セットにおける認識対象の特徴と乖離しているため、当該拡張画像セットは学習に適していないと判定される。よって拡張パラメータ決定部36は、拡張パラメータの更新処理を行う(ステップS209)。拡張パラメータが画像リサイズ率の下限である場合、拡張パラメータ決定部36は、当該下限の値を1段階変化させる。
図6の例であれば、1段階の変化とは、画像リサイズ率の0.1だけの増加又は減少である。
図6及び
図7を用いて上述したように、拡張パラメータを変化させたときの特徴統計量の変化方向は既知である。つまりステップS207の比較処理において、拡張特徴統計量と参照特徴統計量の大小関係についても判定しておくことによって、拡張パラメータの適切な変化方向を決定可能である。なお、拡張パラメータの更新処理とは、複数の候補拡張パラメータのうちの他の候補拡張パラメータを選択する処理と言い換えてもよい。
【0090】
拡張パラメータの更新処理後、更新後の拡張パラメータに基づいて、拡張画像セットの生成(ステップS205)、拡張特徴統計量の算出(ステップS206)、参照特徴統計量との比較(ステップS207)、特徴統計量の差の判定(ステップS208)が行われる。即ち、ステップS208においてYesと判定されるまで、拡張パラメータの更新処理が繰り返される。
【0091】
差が閾値未満である場合(ステップS208でYes)、拡張画像セットにおける認識対象の特徴は、参照画像セットにおける認識対象の特徴に十分近いと考えられる。よって学習部37は、最新のステップS205において生成された拡張画像セットを用いて、画像認識処理の学習を行う(ステップS210)。
【0092】
以上のように、処理部30は、学習画像セットに含まれる画像に対して、所与のパラメータ値の候補拡張パラメータによって決定される画像拡張を適用することによって、拡張画像セットを生成する。処理部30は、拡張画像セットに基づいて、拡張特徴統計量を算出する。そして処理部30は、拡張特徴統計量と参照特徴統計量との類似度が高いと判定されたときに、所与のパラメータ値の候補拡張パラメータを、画像拡張に用いられる拡張パラメータとして決定する。一方、拡張特徴統計量と参照特徴統計量との類似度が低いと判定されたときに、パラメータ値の更新処理を行う。類似度の高低を判定する処理は、具体的にはステップS208に示したとおり、所与の閾値との比較処理である。
【0093】
このようにすれば、拡張画像セットを一度に多数生成する必要がないため、効率的に適切な拡張パラメータを探索することが可能になる。
【0094】
5.検出装置である画像処理システム
また、以上では適切な拡張パラメータに基づく拡張画像セットの生成処理、及び、当該拡張画像セットに基づく学習処理を行う画像処理システム10について説明した。換言すれば、以上で説明した画像処理システム10は、学習段階で用いられる学習装置に対応するシステムである。ただし、本実施形態の手法は、学習結果に基づいて認識対象の検出処理を行う画像処理システム10に適用できる。この場合の画像処理システム10は、検出装置に対応するシステムである。
【0095】
図10は、画像処理システム10の他の構成例である。画像処理システム10は、画像取得部40と、記憶部50と、処理部60を含む。画像取得部40は、適用画像を取得する。記憶部50は、学習済みモデルを記憶する。学習済みモデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。処理部60は、適用画像に対して、学習済みモデルに基づく処理を行うことによって、認識対象の検出処理を行う。換言すれば、処理部60は、記憶部50に記憶された学習済みモデルからの指令に従って、入力である適用画像から認識対象の検出結果を出力するよう動作する。処理部60は、処理部30と同様に、種々のハードウェア、プロセッサにより実現される。記憶部50は、記憶部20と同様に、半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。なお処理部60は、学習済みモデルに基づく処理を行うための専用ハードウェアを含んでもよい。ニューラルネットワークを用いる例であれば、処理部60は、畳み込み演算におけるフィルタ処理や、全結合層における積和演算処理を行う回路装置を含んでもよい。回路装置は、例えばFPGA(field-programmable gate array)等により実現できる。この場合、記憶部50は、学習済みモデルとして重みを表すパラメータを記憶し、当該重みに従って上記回路装置を含む処理部60が動作することによって、認識対象の検出処理が行われる。或いは、記憶部50は、フィルタ処理や積和演算処理を行うためのプログラムと、上記重みの両方を学習済みモデルとして記憶してもよい。このように、処理部60が、記憶部50に記憶された学習済みモデルからの指令に従って動作するための具体的な構成には、種々の変形実施が可能である。
【0096】
また、検出装置に対応する画像処理システム10は、1つの装置であってもよいし、複数の装置を含んでもよい。例えば、PC等の端末装置と、サーバーシステムとが連携して動作することによって、画像処理システム10が実現されてもよい。また、記憶部50はROMであってもよいしRAMであってもよい。具体的には、記憶部50に書き込まれた学習済みモデルは、書き換え不可であってもよいし、書き換え可能であってもよい。書き換え可能である場合、例えば、学習済みモデルの情報はサーバーシステムに集約されており、画像処理システム10の記憶部50は、サーバーシステムから取得した学習済みモデルを記憶する。この場合、学習済みモデルをサーバーシステム側で管理できるため、更新処理等が容易になる。
【0097】
ここで記憶部50が記憶する学習済みモデルは、学習画像セットに対して、拡張パラメータによって決定される画像拡張を適用することにより生成された拡張画像セットを用いて、学習されている。拡張パラメータは、拡張画像セットにおける認識対象の特徴が、適用画像の取得環境に対応する環境において取得された画像の集合である参照画像セットにおける認識対象の特徴に近づくように決定されたパラメータである。
【0098】
より具体的には、学習済みモデルは、
図5又は
図9を用いた上述した各ステップを実行することによって学習されるモデルである。ここでの各ステップとは、学習画像セットに含まれる画像に対して、拡張パラメータの候補である候補拡張パラメータによって決定される画像拡張を適用することにより拡張画像セットを生成するステップ、拡張画像セットから認識対象の特徴の統計量である拡張特徴統計量を算出するステップ、参照画像セットから認識対象の特徴の統計量である参照特徴統計量を算出するステップ、拡張特徴統計量と参照特徴統計量との類似度に基づいて拡張パラメータを決定するステップ、及び、決定された拡張パラメータによって生成された拡張画像セットを用いて学習を行うステップ、を含む。
【0099】
このようにすれば、認識対象の特徴が参照画像セットに近い拡張画像セットによって学習された学習済みモデルを用いて、認識対象の検出処理を実行することが可能になる。検出環境と同様の環境を想定した学習が行われているため、認識対象を高い精度で検出することが可能になる。より具体的には、出現直後の認識対象を高い精度で検出できる。
【0100】
また、本実施形態の画像処理システム10が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。ここでのプログラムとは、学習済みモデルを含む。情報記憶装置は、例えば光ディスク、メモリーカード、HDD、或いは半導体メモリなどによって実現できる。処理部60は、情報記憶装置に格納されるプログラムに基づいて認識対象の検出処理を含む種々の処理を行う。即ち情報記憶装置は、画像処理システム10としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。プログラムは、画像処理システム10における処理、特に処理部60における処理をコンピュータに実行させるためのプログラムである。
【0101】
なお適用画像は、生体内を撮像した生体内画像であり、認識対象は、生体内画像に撮像される注目被写体であってもよい。注目被写体とは、ユーザにとって観察の優先順位が他の被写体よりも相対的に高い被写体であり、例えば、ユーザが医者であり治療を希望した場合、粘膜部や病変部である。上述したように注目被写体はポリープであってもよい。また、他の例として、医者が観察したいと欲した対象が泡や便であれば、注目被写体は、その泡や便になる。ユーザが注目すべき対象は、その観察目的によって異なるが、いずれにしても、その観察に際し、ユーザにとって観察の優先順位が他の被写体よりも相対的に高い被写体が注目被写体となる。このようにすれば、生体内画像の観察において、認識対象である注目被写体の検出精度を高くすることが可能になる。この場合、画像処理システム10は、生体内画像を撮像する内視鏡装置であってもよい。
【0102】
図11は、内視鏡装置12の構成例である。内視鏡装置12は、挿入部100と、外部I/F部200と、システム制御装置300と、表示部400と、光源装置500を含む。
【0103】
挿入部100は、体内へ挿入される部分である。挿入部100は、対物光学系110、撮像素子120、アクチュエータ130、照明レンズ140、ライトガイド150、AF(Auto Focus)開始/終了ボタン160を含む。
【0104】
ライトガイド150は、光源520からの照明光を、挿入部100の先端まで導光する。照明レンズ140は、ライトガイド150によって導光された照明光を被写体に照射する。対物光学系110は、被写体から反射した反射光を、被写体像として結像する。対物光学系110は、フォーカスレンズ111を含み、フォーカスレンズ111の位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ130は、AF制御部360からの指示に基づいて、フォーカスレンズ111を駆動する。なお、AFは必須ではなく、内視鏡装置12はAF制御部360を含まない構成であってもよい。
【0105】
撮像素子120は、対物光学系110を経由した被写体からの光を受光する。撮像素子120はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンダ及びイエローの各色フィルタを含むフィルタである。
【0106】
AF開始/終了ボタン160は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部200は、内視鏡装置12に対するユーザからの入力を行うためのインターフェースである。外部I/F部200は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
【0107】
システム制御装置300は、画像処理やシステム全体の制御を行う。システム制御装置300は、A/D変換部310、前処理部320、検出部330、後処理部340、システム制御部350、AF制御部360、記憶部370を含む。システム制御装置300は、
図10の画像処理システム10を含む。A/D変換部310が、
図10の画像取得部40に対応する。記憶部370が、
図10の記憶部50に対応する。前処理部320、検出部330、後処理部340等が、
図10の処理部60に対応する。
【0108】
A/D変換部310は、撮像素子120から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部320に順次出力する。前処理部320は、A/D変換部310から順次出力される撮像画像に対して、各種補正処理を行い、検出部330、AF制御部360に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
【0109】
検出部330は、記憶部370に記憶される学習済みモデルに従って動作することによって、適用画像である撮像画像から認識対象の検出処理を行う。学習済みモデルがニューラルネットワークである場合、検出部330は、入力である適用画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、認識対象の検出結果を出力する。なお、認識対象の検出においては、認識対象の有無の判定だけでなく、画像上での位置の特定も重要である。位置を含めた物体検出の手法は種々知られている。例えば検出部330は、あらかじめ適用画像から複数の領域候補を抽出し、各領域候補に対して分類処理を行うことによって、認識対象を検出してもよい。また、適用画像からの複数の領域候補の抽出と各領域候補に対する分類処理を1つのニューラルネットワークで同時に行うことで、認識対象を検出してもよい。或いは、ニューラルネットワークは、適用画像の各画素に対してクラス分類を行うように学習されていてもよい。この場合、出力層は、画像の各画素について、認識対象であるか否かの分類結果を出力する。
【0110】
後処理部340は、検出部330における検出処理結果に基づく後処理を行い、後処理後の画像を表示部400に出力する。ここでの後処理は、適用画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。
【0111】
システム制御部350は、撮像素子120、AF開始/終了ボタン160、外部I/F部200、AF制御部360と互いに接続され、各部を制御する。具体的には、システム制御部350は、各種制御信号の入出力を行う。AF制御部360は、前処理部320から順次出力される適用画像を用いてAF制御を行う。
【0112】
表示部400は、後処理部340から出力される画像を順次表示する。表示部400は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。光源装置500は、照明光を発光する光源520を含む。光源520は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源520は他の光源であってもよく、発光方式は限定されない。
【0113】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また画像処理システム、内視鏡装置の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0114】
10…画像処理システム、12…内視鏡装置、20…記憶部、30…処理部、31…学習画像セット入力部、32…拡張画像セット生成部、33…拡張特徴統計量算出部、34…参照画像セット入力部、35…参照特徴統計量算出部、36…拡張パラメータ決定部、37…学習部、40…画像取得部、50…記憶部、60…処理部、100…挿入部、110…対物光学系、111…フォーカスレンズ、120…撮像素子、130…アクチュエータ、140…照明レンズ、150…ライトガイド、160…AF開始/終了ボタン、200…外部I/F部、300…システム制御装置、310…A/D変換部、320…前処理部、330…検出部、340…後処理部、350…システム制御部、360…AF制御部、370…記憶部、400…表示部、500…光源装置、520…光源