(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-15
(54)【発明の名称】機械学習モデルの出力を使用して視覚的証拠に基づいて映像信号内の被写体を検出するための装置、方法、およびコンピュータ可読記憶媒体
(51)【国際特許分類】
G06V 10/82 20220101AFI20230208BHJP
G06T 7/00 20170101ALI20230208BHJP
A61B 1/045 20060101ALI20230208BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 614
A61B1/045 614
A61B1/045 618
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022535945
(86)(22)【出願日】2020-11-26
(85)【翻訳文提出日】2022-08-01
(86)【国際出願番号】 IB2020061174
(87)【国際公開番号】W WO2021116810
(87)【国際公開日】2021-06-17
(31)【優先権主張番号】102019134253.8
(32)【優先日】2019-12-13
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】000113263
【氏名又は名称】HOYA株式会社
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】エッゲルト,クリスチャン
【テーマコード(参考)】
4C161
5L096
【Fターム(参考)】
4C161CC06
4C161SS21
4C161WW02
5L096AA06
5L096BA06
5L096BA13
5L096CA04
5L096DA01
5L096EA06
5L096EA39
5L096FA32
5L096FA69
5L096GA30
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】
【解決手段】機械学習モデルから出力された映像信号の映像フレーム内の検出(S305)を関連付けて、検出チェーンを生成する(S307)。検出チェーンにおける検出の位置、検出の信頼値、および検出のロケーションに基づいて、映像信号における検出の表示が引き起こされる(S309)。
【特許請求の範囲】
【請求項1】
方法が、
映像信号の連続する映像フレームのシリーズの、機械学習モデルに入力された、少なくとも1つの現在の映像フレームのための前記機械学習モデルから出力された1つまたは複数の現在の検出を取得するステップであって、前記1つまたは複数の現在の検出のうちの現在の検出は、前記現在の検出が前記機械学習モデルによって検出されるべき検出対象を含む確率を示す信頼値と、前記少なくとも1つの現在の映像フレーム内の前記検出対象のロケーションとを含む、ステップと、
前記機械学習モデルから出力された検出を関連付けることによって検出チェーンを生成するステップであって、前記1つまたは複数の現在の検出のうちの現在の検出は、前記少なくとも1つの現在の映像フレームに先行し、前記機械学習モデルに入力された、前記シリーズの少なくとも1つの先行する映像フレームについて前記機械学習モデルから取得された1つまたは複数の先行検出のうちの先行検出に関連付けられ、前記1つまたは複数の先行検出のうちの先行検出は、前記先行検出が前記検出対象を含む確率を示す信頼値と、前記少なくとも1つの先行する映像フレーム内の前記検出対象のロケーションと、を含み、前記現在の検出は、前記現在の検出および先行検出の前記ロケーションに基づいて前記先行検出に関連付けられる、ステップと、
前記検出チェーンにおける前記現在の検出の位置、前記現在の検出の前記信頼値、および前記現在の検出の前記ロケーションに基づいて、前記映像信号における前記少なくとも1つの現在の検出の表示を引き起こすステップと、
を含み、
前記少なくとも1つの現在の映像フレームとして前記シリーズ内の少なくとも1つの次の映像フレームのために、前記取得するステップ、前記生成するステップ、および前記表示を引き起こすステップが繰り返される、
方法。
【請求項2】
前記現在の検出および前記先行検出の前記ロケーションの重複が所定の条件を満たす場合、前記現在の検出および前記先行検出が前記同じ検出チェーンに属するように、前記現在の検出は前記先行検出に関連付けられる、請求項1に記載の方法。
【請求項3】
前記現在の検出が前記検出チェーンのN+M個の検出に属する場合に前記現在の検出の表示が引き起こされ、NおよびMは1以上の正の整数であり、Nは前記検出チェーンのN個の時間的に最初の検出を示し、前記現在の検出が前記検出チェーンの前記N個の時間的に最初の検出に属する場合には前記現在の検出の表示は引き起こされない、請求項1または2に記載の方法。
【請求項4】
前記現在の検出の前記信頼値が第1の閾値以上である場合に、前記現在の検出の表示が引き起こされる、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記現在の検出の前記信頼値が第1の閾値よりも小さい第2の閾値以上である場合、および前記現在の検出と同じ検出チェーンに属する前記先行検出の前記信頼値が前記第1の閾値以上である場合に、前記現在の検出の表示が引き起こされる、請求項4に記載の方法。
【請求項6】
前記検出チェーンの前記検出のロケーションにわたって平滑化を実行するステップ
をさらに含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記映像信号が、検査プロセス中に内視鏡によって取り込まれる、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記検出対象がポリープである、請求項1から7のいずれか一項に記載の方法。
【請求項9】
コンピュータによって実行されると、請求項1から8のいずれか一項に記載の方法を前記コンピュータに実行させるプログラムを記憶するコンピュータ可読非一時的記憶媒体。
【請求項10】
少なくとも1つのプロセッサおよびコンピュータプログラムコードを含む少なくとも1つのメモリを備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記装置に、
映像信号の連続する映像フレームのシリーズの、機械学習モデルに入力された、少なくとも1つの現在の映像フレームのための前記機械学習モデルから出力された1つまたは複数の現在の検出を取得するステップであって、前記1つまたは複数の現在の検出のうちの現在の検出は、前記現在の検出が前記機械学習モデルによって検出されるべき検出対象を含む確率を示す信頼値と、前記少なくとも1つの現在の映像フレーム内の前記検出対象のロケーションとを含む、ステップと、
前記機械学習モデルから出力された検出を関連付けることによって検出チェーンを生成するステップであって、前記1つまたは複数の現在の検出のうちの現在の検出は、前記少なくとも1つの現在の映像フレームに先行し、前記機械学習モデルに入力された、前記シリーズの少なくとも1つの先行する映像フレームについて前記機械学習モデルから取得された1つまたは複数の先行検出のうちの先行検出に関連付けられ、前記1つまたは複数の先行検出のうちの先行検出は、前記先行検出が前記検出対象を含む確率を示す信頼値と、前記少なくとも1つの先行する映像フレーム内の前記検出対象のロケーションと、を含み、前記現在の検出は、前記現在の検出および先行検出の前記ロケーションに基づいて前記先行検出に関連付けられる、ステップと、
前記検出チェーンにおける前記現在の検出の位置、前記現在の検出の前記信頼値、および前記現在の検出の前記ロケーションに基づいて、前記映像信号における前記少なくとも1つの現在の検出の表示を引き起こすステップと、
前記少なくとも1つの現在の映像フレームとして前記シリーズ内の少なくとも1つの次の映像フレームのために、前記取得するステップ、前記生成するステップ、および前記表示を引き起こすステップを繰り返すステップと、
を少なくとも実行させるように構成される、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルの出力を使用して視覚的証拠に基づいて映像信号内の被写体を検出するための装置、方法、およびコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
従来の機械学習は、画像内の検出対象に関する特徴をクラスラベルにマッピングする決定関数を見つけるのに役立つことができる。機械学習アルゴリズムは、教師データ上の誤りを最小限に抑えるために決定関数が修正される訓練フェーズを経なければならない。訓練フェーズが完了した後、決定関数は固定され、以前に見られなかったデータを予測するために使用される。
【0003】
検出対象に関連する適切な特徴(例えば、色分布、勾配ヒストグラムなど)を機械学習アルゴリズムに与えるために、適切な特徴を自動的に発見できる技術である深層学習が採用されている。
【0004】
深層学習は、通常、深層畳み込みニューラルネットワークを利用する。従来のニューラルネットワークと比較して、第1の層は畳み込み演算に置き換えられている。これにより、畳み込みニューラルネットワークは、特徴を抽出することができる画像フィルタを学習することができる。フィルタ係数はここで決定関数の一部であるため、訓練プロセスは特徴抽出も最適化することができる。したがって、畳み込みニューラルネットワークは、有用な特徴を自動的に発見することができる。
【0005】
分類と被写体クラス検出とを区別する必要がある。分類のために、入力は画像であり、出力はクラスラベルである。したがって、分類は、「この画像にはポリープなどの検出対象が含まれていますか?(はい/いいえ)」という質問に答えることができる。対照的に、被写体クラス検出は、クラスラベルだけでなく、バウンディングボックスの形態の被写体のロケーションも提供する。多くの異なる画像パッチに適用される分類器としての被写体検出器を考えることが可能である。
【0006】
被写体検出のための周知の手法は、W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C-Y.Fu,A.C.Berg:‘‘SSD:Single Shot MultiBox Detector’’,European Conference on Computer Vision 2016によって開示されているシングルショットマルチボックス検出器(SSD)である。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C-Y.Fu,A.C.Berg:‘‘SSD:Single Shot MultiBox Detector’’,European Conference on Computer Vision 2016
【発明の概要】
【発明が解決しようとする課題】
【0008】
SSDの基本原理は、いわゆるアンカーボックスの仮想グリッドを画像にわたって配置することである。あらゆるロケーションに、異なるスケールおよびアスペクト比を有する複数のアンカーボックスが存在する。検出対象、例えばポリープを検出する場合、質問は「このアンカーボックスにはポリープなどの検出対象が含まれていますか(はい/いいえ)?」である。したがって、アンカーボックスごとに2つの出力ニューロンを有するニューラルネットワークが必要とされる。2つの出力ニューロンのどちらがより強く活性化されるかに応じて、アンカーボックスは正または負に分類される。
【0009】
SSDなどの検出器は、静止画像上の被写体検出のためのフレームワークを提供する。
【0010】
本発明の目的は、機械学習モデルからの出力に基づいて、映像信号における時間的に一貫した検出を達成することができる被写体検出および表示機構を提供することである。
【0011】
この目的は、添付の特許請求の範囲によって定義されるような装置、方法、およびコンピュータ可読記憶媒体によって解決される。
【0012】
本発明の一態様によれば、装置が提供され、装置は、映像信号の連続する映像フレームのシリーズの、機械学習モデルに入力された、少なくとも1つの現在の映像フレームのための機械学習モデルから出力された1つまたは複数の現在の検出を取得する手段であって、1つまたは複数の現在の検出のうちの現在の検出は、現在の検出が機械学習モデルによって検出されるべき検出対象を含む確率を示す信頼値と、少なくとも1つの現在の映像フレーム内の検出対象のロケーションとを含む、手段と、機械学習モデルから出力された検出を関連付けることによって検出チェーンを生成する手段であって、1つまたは複数の現在の検出のうちの現在の検出は、少なくとも1つの現在の映像フレームに先行し、機械学習モデルに入力された、シリーズの少なくとも1つの先行する映像フレームについて機械学習モデルから取得された1つまたは複数の先行検出のうちの先行検出に関連付けられ、1つまたは複数の先行検出のうちの先行検出は、先行検出が検出対象を含む確率を示す信頼値と、少なくとも1つの先行する映像フレーム内の検出対象のロケーションと、を含み、現在の検出は、現在の検出および先行検出のロケーションに基づいて先行検出に関連付けられる、手段と、検出チェーンにおける現在の検出の位置、現在の検出の信頼値、および現在の検出のロケーションに基づいて、映像信号における少なくとも1つの現在の検出の表示を引き起こす手段と、少なくとも1つの現在の映像フレームとしてシリーズ内の少なくとも1つの次の映像フレームのために、取得すること、生成すること、および表示を引き起こすことを繰り返す手段と、を含む。
【0013】
本発明の一実施形態によれば、現在の検出および先行検出のロケーションの重複が所定の条件を満たす場合、現在の検出および先行検出が同じ検出チェーンに属するように、現在の検出は先行検出に関連付けられる。
【0014】
本発明の一実施形態によれば、現在の検出が検出チェーンのN+M個の検出に属する場合に現在の検出の表示が引き起こされ、NおよびMは1以上の正の整数であり、Nは検出チェーンのN個の時間的に最初の検出を示し、現在の検出が検出チェーンのN個の時間的に最初の検出に属する場合には現在の検出の表示は引き起こされない。
【0015】
本発明の一実施形態によれば、現在の検出の信頼値が第1の閾値以上である場合に、現在の検出の表示が引き起こされる。
【0016】
本発明の一実施形態によれば、現在の検出の信頼値が第1の閾値よりも小さい第2の閾値以上である場合、および現在の検出と同じ検出チェーンに属する先行検出の信頼値が第1の閾値以上である場合に、現在の検出の表示が引き起こされる。
【0017】
本発明の一実施形態によれば、装置は、検出チェーンの検出のロケーションにわたって平滑化を実行するための手段をさらに備える。
【0018】
本発明の一実施形態によれば、映像信号は、検査プロセス中に内視鏡によって取り込まれる。
【0019】
本発明の一実施形態によれば、検出対象はポリープである。
【0020】
本発明の一実施形態によれば、機械学習モデルの出力を使用して、映像信号の映像フレーム内の視覚的証拠に基づいて、映像信号内の時間的に一貫した検出を達成する被写体検出および表示機構が提供される。
【0021】
例示的な実施態様によれば、被写体検出および表示機構は、機械学習モデルの出力を使用することによって動画の映像信号を処理し、被写体検出および表示機構は、機械学習モデルを訓練する負荷を抑制しながら、後述するように、スプリアス検出、ロスト検出、および不安定なローカリゼーションなどのアーチファクトを抑制することができる。
【0022】
本発明の一実施形態によれば、機械学習モデルの出力を使用して動画の映像信号内の被写体検出を実行するためにヒューリスティック手法が採用され、それによって検出の品質を視覚的に改善する。
【発明の効果】
【0023】
本発明によれば、例えば、結腸鏡検査スクリーニングなどの内視鏡検査を行う際に、ポリープの外観と一致する組織を含む関連する画像領域に注意を集中させるように医師を支援することができる。
【0024】
以下、添付の図面を参照して、本発明をその実施形態によって説明する。
【図面の簡単な説明】
【0025】
【
図1】本発明の一実施形態による、検出を検出チェーンにグループ化するために使用されるインターセクションオーバーユニオン(IoU:Intersection over Union)基準を示す概略図である。
【
図2】本発明の一実施形態による、映像信号内で被写体検出を実行する「理想的な」解決策および被写体検出を実行するヒューリスティック手法を概略的に示す図である。
【
図3】本発明の一実施形態による被写体検出および表示プロセスを示すフローチャートである。
【
図4】本発明の実施形態の例が実施可能な制御ユニットの構成を示す概略ブロック図である。
【
図5】本発明の一実施形態による被写体検出および表示プロセスにおいてフリッカ抑制を適用した場合のPR曲線を示す図である。
【
図6】本発明の一実施形態による被写体検出および表示プロセスにおいて適用されるヒステリシス閾値処理を示す図である。
【
図7】本発明の一実施形態による被写体検出および表示プロセスにおいてヒステリシス閾値処理を適用した場合のPR曲線を示す図である。
【発明を実施するための形態】
【0026】
本発明によれば、機械学習モデルの出力が使用される。機械学習モデルは、機械学習モデルに入力される映像信号の映像フレームごとに1つまたは複数の検出を出力する。例えば、映像信号は、検査プロセス中に内視鏡によって取り込まれる。
【0027】
特に、機械学習モデルは、各検出の信頼値およびロケーションを出力する。信頼値は、検出が機械学習モデルによって検出されるべき検出対象を含む確率を示し、ロケーションは映像フレーム内の検出対象の領域を示す。例えば、検出対象はポリープである。
【0028】
例えば、機械学習モデルとしては、上述したようなアンカーボックスごとに2つの出力ニューロンを有するニューラルネットワークが採用される。2つの出力ニューロンのどちらがより強く活性化されるかに応じて、アンカーボックスは正または負に分類される。検出対象のロケーションは、アンカーボックスのロケーションに基づく。2つのニューロンからの出力が信頼値を形成する。
【0029】
機械学習モデルは、被写体検出のための教師データ、すなわち、例えば境界ボックスの形態の画像および注釈付き被写体を含むポリープなどの検出対象の検出のための教師データを使用して訓練されている。
【0030】
機械学習モデルのデータセットおよびフィルタリング技術の性能改善を客観的に評価するために、標準的なメトリックが被写体検出のタスクに使用される。使用される関連メトリックは、精度、リコール、および平均精度(AP)である。精度は、機械学習モデルによって返された検出の総数と比較した、正しく検出されたインスタンスの割合として定義される。リコールは、検出すべきインスタンスの総数と比較した、正しく検出されたインスタンスの割合として定義される。
【0031】
したがって、精度およびリコールを形式的に次のように定義することができる。
【0032】
精度=TP/(TP+FP)リコール=TP/(TP+FN)
【0033】
式中、TPは真陽性(正しい検出)の数を表し、FPは偽陽性(誤った検出)の数を表し、FNは偽陰性(見逃された検出)の数を表す。
【0034】
検出を「真」または「偽」として分類するためには、ローカリゼーションの品質を測定する必要がある。ローカリゼーション品質を測定するために、インターセクションオーバーユニオン(IoU)基準が採用される。
【0035】
IoU(A,B)=|A∩B|/|A∪B|
【0036】
完全なローカリゼーションの場合にのみ、インターセクションオーバーユニオンは1になる。過小検出および過剰検出の両方にペナルティが課されている。検出と注釈との間のIoUが0.5以上である場合、検出は正しいと分類される。
図1は、不十分なローカリゼーション、最小許容ローカリゼーション、および完全なローカリゼーションの例を示している。
【0037】
精度およびリコールは、アルゴリズムの性能を評価するための有用なツールであるが、重大な欠点を抱えている。分類器は、画像領域がポリープなどの検出対象を含む確率を測定する信頼値を出力する。検出を表示するかどうかの最終決定のために、閾値を適用する必要がある。しかしながら、精度およびリコールの値は、この閾値に依存する。例えば、閾値を増加させることによって、リコールを犠牲にして精度を高めることが常に可能である。
【0038】
したがって、後述する
図5および
図7において、精度(P)およびリコール(R)は、精度リコール曲線をプロットするために、すべての可能な閾値にわたって評価される。曲線下面積は、平均精度(AP)と呼ばれ、異なる分類器が一般にどの程度良好に機能するかの指標として機能する。この値を、異なる分類器を互いに比較するために使用することができる。
【0039】
以下では、本発明で出力が使用される機械学習モデルは、映像信号の映像フレームに基づいて検出を生成するときに良好な性能を達成するように訓練されていると仮定する。しかしながら、過去の映像フレームからの情報は、性能をさらに向上させることができる可能性がある。
【0040】
現在の映像フレームのみに基づいて検出を生成すると、以下のアーチファクトが発生する可能性がある:
【0041】
-スプリアス検出:映像信号の単一の画像フレームに対して出現し、映像信号の次のフレームでは消失する傾向がある偽陽性。
-ロスト検出:機械学習モデルが検出対象、例えばポリープを検出した場合、検出は通常、映像信号の複数の連続フレームにわたって非常に安定している。しかしながら、時々、検出の信頼度が検出閾値を一時的に下回り、検出が点滅する可能性がある。
-不安定なローカリゼーション:機械学習モデルは、各検出をローカライズするために境界ボックスを推定する。入力画像がわずかに変化すると、ローカリゼーションも同様に変化する。しかしながら、この変化は、ユーザにとって滑らかに見えない場合がある。
【0042】
過去の映像フレームを考慮することができる検出器は、これらのアーチファクトを低減する良好な機会を有することができる。しかしながら、そのような検出器を訓練するには、データセットとして映像シーケンスを収集する必要がある。これは、医師が映像信号内のすべての単一フレームにラベル付けする必要があるため、医師に大きな負担をかけることになる。
【0043】
映像シーケンスを使用して機械学習モデルを訓練することを回避するために、本発明によれば、検出の品質を視覚的に改善するためのヒューリスティック解決策が採用される。この目的のために、上述のアーチファクトに対処するフィルタリングヒューリスティックが導入される。
図2は、「理想的な」解決策および本発明による解決策を概略的に示す図である。
【0044】
「理想的な」解決策を
図2の左側に示す。例えば、深層畳み込みニューラルネットワーク(DCNN)の長短期記憶(LSTM)アーキテクチャは、複数の映像フレームを入力として取り込み、複数のフレームにわたる視覚的証拠に基づいて検出を出力する。
【0045】
本発明による解決策を
図2の右側に示す。予測は、ヒューリスティックによってフィルタリングされた個々のフレームに基づく。
【0046】
両方の解決策の違いは、真のマルチフレーム検出器が複数の映像フレームからの視覚的証拠に依存できることである。本発明によるヒューリスティック解決策は、検出を生成するために現在のフレームの視覚的証拠に依存する。上述したように、検出は、ロケーションおよび信頼値を含む。したがって、ヒューリスティックはこれらの値で動作することができる。
【0047】
本発明の一実施形態によれば、フィルタヒューリスティックが適用される前に、検出は複数の映像フレームにわたって互いに関連付けられる。本発明の一実施形態によれば、検出は、一般に、連続する映像フレームにわたって速く移動する傾向がなく、検出のロケーションは、検出を互いに関連付けるために使用されると仮定される。一実施例によれば、前述のインターセクションオーバーユニオン基準は、検出を互いに関連付けるために使用される。例えば、IoU≧0.3の連続する映像フレームにおける検出は、同じ検出チェーンの一部であると見なされる。IoU<0.3の連続検出は、異なる検出チェーンの一部であると考えられる。以下で説明するフィルタリング段階は、それぞれこれらの検出チェーンに対して動作する。
【0048】
フィルタリング段階を説明する前に、本発明の一実施形態による被写体検出および表示のプロセスを示す
図3を参照する。
【0049】
図3のステップS305において、機械学習モデルに入力された少なくとも1つの現在の映像フレームに対する1つまたは複数の現在の検出が、機械学習モデルからの出力として取得される。少なくとも1つの現在の映像フレームは、映像信号の連続した映像フレームのシリーズに属する。例示的な実施態様によれば、映像信号は、映像信号を取り込む内視鏡装置から取り込まれる。例えば、映像信号は動画を含む。
【0050】
1つまたは複数の現在の検出のうちの現在の検出は、現在の検出が機械学習モデルによって検出されるべき検出対象を含む確率を示す信頼値と、少なくとも1つの現在の映像フレーム内の検出対象のロケーションとを含む。ステップS305において、少なくとも1つの現在の映像フレームに対する1つまたは複数の現在の検出が取得される。
【0051】
ステップS307では、機械学習モデルから出力された検出を関連付けて検出チェーンを生成する。1つまたは複数の現在の検出のうちの現在の検出は、少なくとも1つの現在の映像フレームに先行し、機械学習モデルに入力された、シリーズの少なくとも1つの先行する映像フレームについて機械学習モデルから取得された1つまたは複数の先行検出のうちの先行検出に関連付けられる。1つまたは複数の先行検出のうちの先行検出は、先行検出が検出対象を含む確率を示す信頼値と、少なくとも1つの先行する映像フレーム内の検出対象のロケーションとを含む。本発明の一実施形態によれば、現在の検出は、現在の検出および先行検出のロケーションに基づいて先行検出に関連付けられる。代替の実施形態によれば、または加えて、現在の検出は、連続する映像フレーム内の検出の速度および向きのうちの少なくとも1つに基づいて先行検出に関連付けられる。
【0052】
ステップS309において、検出チェーンにおける現在の検出の位置、現在の検出の信頼値、および現在の検出のロケーションに基づいて、映像信号における少なくとも1つの現在の検出の表示が引き起こされる。
【0053】
ステップS311では、終了条件が満たされているか否かをチェックする。終了条件が満たされた場合、プロセスは終了する。終了条件が満たされない場合、プロセスはステップS305に戻り、シリーズ内の少なくとも1つの次の映像フレームを少なくとも1つの現在の映像フレームとして処理する。
【0054】
例えば、終了条件は、シリーズ内に次の映像フレームがない場合に満たされる。
【0055】
例示的な実施態様によれば、ステップS307において、現在の検出および先行検出のロケーションの重複が所定の条件、例えばIoU≧0.3を満たす場合、現在の検出および先行検出が同じ検出チェーンに属するように、現在の検出は先行検出に関連付けられる。
【0056】
さらに、例示的な実施態様によれば、ステップS309において、現在の検出の信頼値が第1の閾値以上である場合に現在の検出の表示が引き起こされる。
【0057】
次に、本発明の実施形態の例を実施可能な制御ユニット40を示す
図4を参照する。例えば、制御ユニット40は、
図3の被写体検出および表示プロセスを実施する。
【0058】
制御ユニット40は、処理リソース(例えば、処理回路)41、メモリリソース(例えば、メモリ回路)42、およびインターフェース(例えば、インターフェース回路)43を備え、これらはリンク(例えば、バス、有線接続、無線接続など)44を介して接続される。
【0059】
例示的な実施態様によれば、メモリリソース42は、処理リソース41によって実行されると、本発明の少なくともいくつかの実施形態に従って制御ユニット40を動作させるプログラムを記憶する。
【0060】
一般に、本発明の例示的な実施形態は、メモリリソース42に記憶され、処理リソース41によって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアおよび/またはファームウェアとハードウェアとの組み合わせによって実施され得る。
【0061】
以下では、上記のようにして得られた検出チェーンに対して動作するフィルタリング段階について説明する。
【0062】
フィルタリング段階1:フリッカ抑制
フリッカ抑制は、スプリアス検出の問題に対処するように設計されている。スプリアス検出は数フレームの間しか現れず、その後再び消えるので、この問題を緩和する解決策は、画像内の検出の最初の発生を抑制することである。例えば、検出対象、例えばポリープが同じロケーションの複数の後続の映像フレームで独立して検出された場合にのみ、そのロケーションに対応する検出がS309で表示される。
【0063】
このようなフリッカ抑制を実現するには、2つの異なる方法がある。1つの方法は、検出の最初のN個の発生を常に抑制する事前知識のない抑制である。別の方法は、検出がN+1番目のフレームで消失した場合にのみ検出の最初のN回の発生を抑制する事前知識のある抑制である。
【0064】
両方のバージョンは、被写体検出および表示機構の精度を高める効果を有する。しかしながら、検出は意図的に抑制されるため、リコールが損なわれることになる。このリコールの減少は、事前知識のないフリッカ抑制が用いられる場合、事前知識のあるフリッカ抑制が用いられる場合よりも大きくなる。しかしながら、検出を表示するか否かの知識が得られるまで、N+1フレームの遅延がある。このようなレイテンシは通常許容できないため、事前知識なしでフリッカ抑制を使用することが好ましい。
【0065】
図3の被写体検出および表示プロセスの例示的な実施態様によれば、ステップS309において、現在の検出が検出チェーンのN+M個の検出に属する場合に現在の検出の表示が引き起こされ、NおよびMは1以上の正の整数であり、Nは検出チェーンのN個の時間的に最初の検出を示す。さらに、現在の検出が検出チェーンのN個の時間的に最初の検出に属する場合、現在の検出の表示は引き起こされない。
【0066】
図5では、(1)元のデータセット(すなわち、
図3の被写体検出および表示プロセスでは、フリッカ抑制を適用しない)、(2)
図3の被写体検出および表示プロセスにおいて適用された事前知識なし(wof)のフリッカ抑制ありのデータセット、(3)
図3の被写体検出および表示プロセスにおいて適用された事前知識あり(wf)のフリッカ抑制ありのデータセットについて、可能なすべての閾値について精度とリコールを評価して、精度リコール(PR)曲線をプロットしている。
【0067】
上述したように、曲線下面積は、平均精度(AP)と呼ばれ、
図3の被写体検出および表示プロセスが、(1)フリッカ抑制なし、(2)事前知識なしのフリッカ抑制あり、(3)事前知識ありのフリッカ抑制ありで、どれだけうまく機能するかの指標となる。
【0068】
図5は、事前知識の有無によるフリッカ抑制の効果を示している。検出器の(例えば、機械学習モデルの)特性の高精度部分の精度が改善される一方で、達成可能な最大リコールが低減される。事前知識ありのフリッカ抑制が採用される場合、両方の効果はあまり顕著ではない。精度の向上はユーザに非常に見えやすいが、リコールの低下は、ほとんどの適用シナリオでは、検出器(例えば、機械学習モデル)がPR曲線の高精度領域にその動作点を有するためではない。
【0069】
事前知識なしにフリッカ抑制を適用することは、リコールがより強く低減されることを意味するが、このロストリコールは、ユーザにはほとんど気付かれない。ポリープが視野に入った後のいくつかの欠落検出は、画像全体に現れてすぐに消える偽陽性よりもはるかに目立たない。
【0070】
フィルタリング段階2:ヒステリシス
時々、逆のフリッカリング検出が発生する:検出は、単一のフレームで短時間失われ、次のフレームで再び迅速に検出される。例えば、これは、モーションブラーが発生したときに起こり得る。
【0071】
これらのロスト検出に対抗するために、
図6に示すようにヒステリシス閾値処理が導入される。
【0072】
ヒステリシス閾値処理は、2つの閾値、すなわち、高閾値(
図6では「高」と記載)と呼ばれる第1の閾値および低閾値(
図6では「低」と記載)と呼ばれる第2の閾値を使用する。最初に、検出の信頼値は、表示されるために高閾値を超えなければならない。言い換えれば、最初に、同様のロケーションで信頼性の高い複数のフレーム(例えば、
図6に示すように経時的に)で検出された場合に検出が表示される。検出が数フレームにわたって同様のロケーションに表示された場合、検出は高閾値を下回っても表示されることが可能である。検出が低閾値を下回ると、それ以上表示されなくなる。
図6では、信頼値を「スコア」として示している。
【0073】
例示的な実施態様によれば、
図3のステップS309では、現在の検出の信頼値が第1の閾値よりも小さい第2の閾値以上である場合、および現在の検出と同じ検出チェーンに属する先行検出の信頼値が第1の閾値以上である場合に、現在の検出の表示が引き起こされる。
【0074】
図7は、
図3の被写体検出および表示プロセスにおけるヒステリシス閾値処理の適用の典型的な効果を示している。所与の精度では、リコールを改善することができる。精度の潜在的な低下は実際には観察できない。
【0075】
なお、
図5および
図7に示すPR曲線は、異なるデータセットに基づいて得られている。
【0076】
ヒステリシス閾値処理により、より多くのポリープが検出されるので、リコールを増加させることができる。潜在的には、これらの検出の一部が誤っていることが判明する可能性があるため、精度の低下をもたらす可能性もある。しかしながら、ニューラルネットワークは、一般に、ポリープが実際に存在するときには高い信頼値を割り当て、ポリープが存在しないときには非常に低い信頼値を割り当てるのに非常に優れているので、そのような問題に遭遇したことはない。そのような場合、ネットワークの信頼値は一般に、低い閾値を超えることさえない。
【0077】
フィルタリング段階3:ロケーション平滑化
フィルタリング状態3では、検出のロケーションにわたる平滑化が実行される。
【0078】
例示的な実施態様によれば、
図3のステップS309において、少なくとも1つの現在の検出の表示が引き起こされると、そのロケーションは、現在の検出が属する検出チェーンの検出のロケーションに基づいて平滑化され、検出は現在の検出に先行する。
【0079】
例えば、平滑化は、検出の座標の加重平均を実行することによって行われる。これにより、ローカリゼーションが元の状態よりも安定しているように見える。あるいは、平滑化は、例えば、映像信号内の検出のロケーションにカルマンフィルタを適用することによって、より複雑なフィルタリング構造を使用して実行され得る。
【0080】
効果
ヒューリスティックフィルタリング段階1から3を適用する上記の手法の複合効果は、6000個の画像の大規模なテストデータセットで評価されている。平均して、ヒューリスティックフィルタリングなしと比較して、偽陽性検出の62%の減少が観察された。同様に、偽陰性の16%の増加が観察された。ここでも、偽陽性の減少は非常に目に見えるが、偽陰性の減少はほとんど目に見えないことに留意されたい。ポリープが視野に入ったときに検出されない数フレームは、偽陰性として技術的に測定される。しかしながら、人間のユーザには、これはほとんど見えない。しかしながら、映像全体に現れる偽陽性は、ユーザにとって非常に顕著である。
【0081】
この時点で、偽陰性の16%の増加は、結腸鏡検査中にさらに16%のポリープが見逃されることを意味しないことにも留意されたい。これは、ポリープが存在するが検出されない映像フレームが16%増加することを意味する。しかしながら、典型的には、同じポリープを描写する多くの映像フレームがある。ネットワークがポリープの検出に優れている場合、特定のポリープが検出される少なくとも1つの映像フレームに遭遇することは事実上確実である。実際には、ヒューリスティックフィルタリングは、少なくとも1回検出されるポリープの数に影響を与えない。
【0082】
上記の被写体検出および表示機構は、結腸鏡検査中にリアルタイムでポリープを確実に検出することができる。
【0083】
3段階ヒューリスティックフィルタリング手法は、映像信号のフレームにわたって、すなわち経時的に検出をフィルタリングすることを可能にする。したがって、被写体検出および表示機構は映像フレーム、例えば単一の映像フレーム上で動作するが、個々の検出はより安定して見える。このヒューリスティックフィルタリングは、結果を視覚的に改善し、訓練中に映像データ(および対応する注釈)を必要とせずに時間的に一貫した検出を可能にする。
【0084】
上記の説明は本発明を例示するものであり、本発明を限定するものと解釈されるべきではないことを理解されたい。添付の特許請求の範囲によって定義される本発明の真の趣旨および範囲から逸脱することなく、当業者は様々な修正および応用を想到し得る。
【国際調査報告】