(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024013122
(43)【公開日】2024-01-31
(54)【発明の名称】機械学習方法および画像処理装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240124BHJP
G06V 10/82 20220101ALI20240124BHJP
G06N 3/08 20230101ALI20240124BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/08
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022115074
(22)【出願日】2022-07-19
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 2021年11月10日~13日にオンライン開催した第24回情報論的学習理論ワークショップ(IBIS2021)において、動画を用いて発表した。 また、2021年9月12日にコーネル大学(Cornell University、アメリカ合衆国)が提供するプレプリントサーバにて発明を公開した(https://arxiv.org/abs/2109.05493)。
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人科学技術振興機構事業の研究領域「計測技術と高度情報処理の融合によるインテリジェント計測・解析手法の開発と応用」における研究題目「学習型動態モーフィングによる神経間シグナル伝達特性の解明」に係る委託事業、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100149711
【弁理士】
【氏名又は名称】服部 耕市
(72)【発明者】
【氏名】徳永 旭将
(72)【発明者】
【氏名】片渕 凌也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA03
5L096BA06
5L096FA17
5L096FA19
5L096HA11
5L096KA04
(57)【要約】
【課題】多数の異常画像を準備できない場合であっても異常検知性能を向上させる。
【解決手段】検査用画像を入力すると所定の出力が得られるように教師あり学習される異常検出CNNへレイヤーごとに外部注視メカニズムを導入する介在CNNで構成される機械学習方法である。検査用画像の異常に関する特徴を異常度マップ抽出器CNNの教師なし学習によって事前に取得しておき(ステップS1)、異常に関する特徴を介在CNNの教師あり学習に用いてアテンション・マップを生成し、当該アテンション・マップを異常検出CNNの抽象度が同じ中間層の出力に統合しながら異常検出CNNの教師あり学習を行うようにする(ステップS2)。
【選択図】
図1
【特許請求の範囲】
【請求項1】
検査用画像を入力すると所定の出力が得られるように教師あり学習される異常検出畳み込みニューラルネットワークへレイヤーごとに外部注視メカニズムを導入する介在畳み込みニューラルネットワークで構成される機械学習方法であって、
前記検査用画像の異常に関する特徴を異常度マップ抽出器畳み込みニューラルネットワークの教師なし学習によって事前に取得しておき、
前記異常に関する特徴を前記介在畳み込みニューラルネットワークの教師あり学習に用いてアテンション・マップを生成し、当該アテンション・マップを前記異常検出畳み込みニューラルネットワークの抽象度が同じ中間層の出力に統合しながら前記異常検出畳み込みニューラルネットワークの教師あり学習を行うことを特徴とする機械学習方法。
【請求項2】
前記介在畳み込みニューラルネットワークには前記異常に関する特徴が入力され、
前記異常検出畳み込みニューラルネットワークと前記介在畳み込みニューラルネットワークは同一のロス関数が最小になるように機械学習されることを特徴とする請求項1記載の機械学習方法。
【請求項3】
前記介在畳み込みニューラルネットワークには前記異常検出畳み込みニューラルネットワークの中間層からの出力が入力され、
前記介在畳み込みニューラルネットワークはその出力が前記異常に関する特徴に一致するように機械学習されることを特徴とする請求項1記載の機械学習方法。
【請求項4】
前記異常に関する特徴は、前記検査用画像を入力すると前記異常に関する特徴を出力するように教師なし学習された前記異常度マップ抽出器畳み込みニューラルネットワークからの出力であることを特徴とする請求項1記載の機械学習方法。
【請求項5】
前記異常検出畳み込みニューラルネットワークの中間層の出力を前記介在畳み込みニューラルネットワークの抽象度が同じ中間層の出力に統合しながら前記介在畳み込みニューラルネットワークの教師あり学習を行うことを特徴とする請求項1記載の機械学習方法。
【請求項6】
前記異常検出畳み込みニューラルネットワークは既存の学習済みの畳み込みニューラルネットワークであり、前記異常検出畳み込みニューラルネットワークの機械学習は転移学習であることを特徴とする請求項1記載の機械学習方法。
【請求項7】
請求項1から6のいずれかに記載の異常検出畳み込みニューラルネットワークを学習済みモデルとして備えることを特徴とする画像処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理に使用される畳み込みニューラルネットワーク(以下、CNNという)の機械学習方法、および機械学習されたCNNを備える画像処理装置に関する。
【背景技術】
【0002】
異常検出は、ディープラーニングが苦手とする代表的なタスクである。近年、画像の異常検出技術に対して畳み込みニューラルネットワーク(CNN)に立脚した技術が数多く提案されている。一般に、CNNの性能を引き出すには大規模な訓練データの準備、あるいは類似ドメインで十分な性能を実現している学習済みCNNが必要であるが、実問題では正常画像と同等数の異常画像を準備できないケースや、活用できる学習済みCNNが存在しないこともある。その為、異常検知は大規模データの機械学習に立脚した手法が本質的に苦手とするタスクである。
なお、CNNの機械学習方法として、例えば下記の特許文献がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像からの異常検知において、CNNの訓練のために十分な量の異常画像を収集することが困難であることが多く、限られた枚数の異常画像では、教師あり学習・教師なし学習共に、異常検知性能を向上させることが困難であった。
そこで、本発明は、多数の異常画像を準備できない場合であっても異常検知性能を向上させることが可能な機械学習方法および当該機械学習方法によって教師あり学習された学習済みモデルを備える画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
正常画像の教師なし学習で得られた異常度マップを教師あり学習に活用できれば、これまでに述べた教師なし・教師ありに立脚する従来の異常検知技術の限界を克服できると考えられる。そのため、自己注視とは異なる外部駆動型の視覚注視機構を確立する。
【0006】
即ち、本発明の機械学習方法は、検査用画像を入力すると所定の出力が得られるように教師あり学習される異常検出畳み込みニューラルネットワークへレイヤーごとに外部注視メカニズムを導入する介在畳み込みニューラルネットワークで構成される機械学習方法であって、検査用画像の異常に関する特徴を異常度マップ抽出器畳み込みニューラルネットワークの教師なし学習によって事前に取得しておき、異常に関する特徴を介在畳み込みニューラルネットワークの教師あり学習に用いてアテンション・マップを生成し、当該アテンション・マップを異常検出畳み込みニューラルネットワークの抽象度が同じ中間層の出力に統合しながら異常検出畳み込みニューラルネットワークの教師あり学習を行うものである。
【0007】
ここで、介在畳み込みニューラルネットワークには異常に関する特徴が入力され、異常検出畳み込みニューラルネットワークと介在畳み込みニューラルネットワークは同一のロス関数が最小になるように機械学習されるようにしても良い。
【0008】
また、介在畳み込みニューラルネットワークには異常検出畳み込みニューラルネットワークの中間層からの出力が入力され、介在畳み込みニューラルネットワークはその出力が異常に関する特徴に一致するように機械学習されるようにしても良い。
【0009】
また、異常に関する特徴は、検査用画像を入力すると異常に関する特徴を出力するように教師なし学習された異常度マップ抽出器畳み込みニューラルネットワークからの出力としても良い。
【0010】
また、異常検出畳み込みニューラルネットワークの中間層の出力を介在畳み込みニューラルネットワークの抽象度が同じ中間層の出力に統合しながら介在畳み込みニューラルネットワークの教師あり学習を行うようにしても良い。
【0011】
また、異常検出畳み込みニューラルネットワークは既存の学習済みの畳み込みニューラルネットワークであり、異常検出畳み込みニューラルネットワークの機械学習は転移学習であっても良い。
【0012】
さらに、上記の異常検出畳み込みニューラルネットワークを学習済みモデルとして備える画像処理装置としても良い。
【発明の効果】
【0013】
本発明によれば、変形のように色に現れない異常を含めて、現状社会に存在する様々な異常に関する網羅的な検出を、大量の異常画像を収集や新規モデルの開発を行わずとも実現することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の機械学習方法の処理の手順を示すフローチャートである。
【
図2】異常検出CNN、異常度マップ抽出器CNN及び介在CNNの関係を示す概念図である。
【
図3】異常度マップ抽出器CNNの教師なし学習の一例を示す概念図である。
【
図4】異常検出CNN及び介在CNNの教師あり学習の一例を示す概念図である。
【
図6】本発明の画像処理装置の一例を示す概念図である。
【
図7】異常度マップ抽出器CNNの教師なし学習の他の例を示す概念図である。
【
図8】異常検出CNN、異常度マップ抽出器CNN及び介在CNNの他の関係を示す概念図である。
【
図9】異常検出CNNの中間層出力が、介在CNNからの注視マップによってどのような影響を受けるかを可視化した例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明に係る機械学習方法の実施形態の一例について、図面を参照しながら説明する。
図1に、本発明に係る畳み込みニューラルネットワークの機械学習方法を示す。機械学習方法は、検査用画像を入力すると所定の出力が得られるように教師あり学習される異常検出畳み込みニューラルネットワーク(以下、異常検出CNNという)へレイヤーごとに外部注視メカニズム(外部注視機構)を導入する介在畳み込みニューラルネットワークで構成される機械学習方法であって、検査用画像の異常に関する特徴(異常度マップ)を異常度マップ抽出器畳み込みニューラルネットワーク(以下、異常度マップ抽出器CNNという)の教師なし学習によって事前に取得しておき(ステップS1)、異常度マップを介在畳み込みニューラルネットワーク(以下、介在CNNという)の教師あり学習に用いてアテンション・マップを生成し、当該アテンション・マップを異常検出CNNの抽象度が同じ中間層の出力に統合しながら異常検出CNNを教師あり学習する(ステップS2)ものである。
【0016】
図2に、異常検出CNN11、異常度マップ抽出器CNN12及び介在CNN13の関係を示す。異常度マップ抽出器CNN12は、検査用画像14を入力すると異常度マップ(異常に関する特徴)15を出力するように予め教師なし学習されている。この異常度マップ15が介在CNN13に供給される。
【0017】
図3に、異常度マップ抽出器CNN(Unsupervised Reconstruction Network)12の教師なし学習の一例を示す。例えば、異常検出CNN11によって実現しようとする画像処理装置の用途が、検査用画像の色の異常を重要視するものである場合には、異常度マップ抽出器CNN12は色異常を重要視した異常度マップ15を作成する。例えば、異常度マップ抽出器CNN12は入力されたカラー画像を白黒画像に変換した後、着色してカラー画像を再現する。そして、再現されたカラー画像を入力されたカラー画像と対応する1ピクセル毎に比較し、色の差をヒートマップ化して異常度マップ15を作成する。異常度マップ抽出器CNN12は再現されたカラー画像が入力された元のカラー画像に近づく(一致する)ように、多数の正常画像(訓練データ)を使用して教師なし学習されている。
【0018】
図4に、異常検出CNN(Anomaly Detection Network:ADN)11及び介在CNN(Color Anomaly Attention Network:CAAN)13の教師あり学習の一例を示す。異常検出CNN11は、検査用画像14が入力されるとその検査用画像14に写っている検査対象物の異常を検出・識別するように教師あり学習されるもので、所定の出力として例えば異常があるか否かを確率で示す確率スコアを出力する。また、介在CNN13は、異常度マップ15が入力されると再構成した異常度マップ15が出力されるように教師あり学習されるものである。異常検出CNN11と介在CNN13は同一のロス関数が最小になるように機械学習される。異常検出CNN11と介在CNN13は中間層の層数が同一であり、対応する層の出力は抽象度が等しくなっている。
図4の例では、異常検出CNN11の中間層(AND Block 1~AND Block 6)と介在CNN13の中間層(CAAN Block 1~CAAN Block 6)は6層で構成されているが、これに限るものではない。
【0019】
異常検出CNN11の中間層と介在CNN13の中間層の間には、外部注視機構(外部注視メカニズム)16が設けられている。本実施形態では、中間層の全ての層の間に外部注視機構16がそれぞれ設けられている。ただし、外部注視機構16を中間層の一部の層の間にのみ設けるようにしても良く、この場合、一箇所にのみ設けても良いし複数箇所に設けても良い。異常検出CNN11が学習済みモデルとなったときの検出・識別性能が良好になるように外部注視機構16の設置位置と設置数を決定する。
【0020】
図5に外部注視機構(Layer-wise External Attention Mechanism)16の概念を示す。外部注視機構16は、介在CNN13の中間層の出力から異常領域を強調したアテンション・マップ17を生成し、異常検出CNN11の抽象度が同じ中間層の出力に統合する。例えば、介在CNN13の中間層の出力(複数のチャネルの出力)に対してプーリング処理を行って1枚の特徴量に統合し、シグモイド関数で処理してアテンション・マップ17を生成する。このアテンション・マップ17は異常検出CNN11の抽象度が同じ出力に統合され、次の層の入力となる。次の層ではこの入力を畳み込み処理する。
【0021】
次に、異常検出CNN11の教師あり学習について具体的に説明する。
異常検出CNN11の教師あり学習を行う前に、処理対象画像が入力されると異常度マップ15を出力するように教師なし学習された学習済みモデルである異常度マップ抽出器CNN12に検査用画像14を入力し、異常度マップ15を取得する(
図1のステップS1)。この異常度マップ15は異常検出CNN11の教師あり学習における当該異常検出CNN11が注目すべき領域を表現していると考えられる。
【0022】
次に、異常検出CNN11を教師あり学習し、検査用画像14を入力すると当該検査用画像14に写っている検査対象物の異常を検知する(異常があるか否かを判別する)学習済みモデルを生成する(
図1のステップS2)。このとき、介在CNN13に予め取得した異常度マップ15を入力して当該介在CNN13の教師あり学習も同時に行い、外部注視機構16によってアテンション・マップ17を生成し、異常検出CNN11の抽象度が同じ層の出力に統合しながら、異常検出CNN11を教師あり学習する。異常検出CNN11と介在CNN13の教師あり学習は同一のロス関数が最小になるように行われる。
【0023】
このように、教師なし学習で得られる異常度マップ15から生成される異常領域を強調したアテンション・マップ17を用いて、異常検出CNN11の中間層に注視機構を適用することで、異常検出CNN11の教師あり学習において入力画像の異常部分を強調することができる。
【0024】
教師あり学習されて学習済みモデルとなった異常検出CNN11は、画像処理装置の学習済みモデルとして使用される。
図6に、異常検出CNN11を学習済みモデルとして備える画像処理装置19を示す。
【0025】
なお、上述の実施形態は本発明を実施する際の好適な形態の一例であるがこれに限るものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
例えば、上述の説明では、検査用画像14に写っている検査対象物の異常を検出する異常検出CNN11を例にしていたが、異常検出CNN11の用途としては異常検出には限らない。例えば、検査用画像14に写っている検査対象物の識別・判別・クラス分けであっても良く、その他でも良い。
【0026】
(変形例1)
上述の説明では、異常度マップ抽出器CNN12の教師なし学習について、異常検出CNN11によって実現しようとする画像処理装置の用途が、検査用画像14の色の異常を重要視するものであったが、これに限るものではない。例えば、異常検出CNN11によって実現しようとする画像処理装置の用途が、検査用画像に写っている検査対象物の形状や周期性(以下、形状等という)の異常を重要視するものである場合には、異常度マップ抽出器CNN12は検査用画像に写っている検査対象物の形状等の異常を重要視した異常度マップ15を作成する。例えば、
図7に示すように、異常度マップ抽出器CNN12は入力画像に基づきその一部を欠損させた欠損画像を生成した後、欠損部分を補完して補間画像を生成する。そして、生成された補間画像を入力画像と対応する1ピクセル毎に比較し、輝度値の差をヒートマップ化して異常度マップ15を作成する。異常度マップ抽出器CNN12は生成した補間画像が元の入力画像に近づく(一致する)ように、多数の正常画像を使用して教師なし学習されている。
【0027】
(変形例2)
介在CNN13をモジュールとして、異常検出CNN11に組み込んでも良い。この例を
図8に示す。この例における介在CNN13は、異常検出CNN11の中間層(AND Block)からの出力が入力されると異常度マップ18が出力されるように教師あり学習されるもので、出力された異常度マップ18が異常度マップ抽出器CNN12によって生成された異常度マップ15に近づく(一致する)ように機械学習される。
【0028】
異常検出CNN11の中間層と介在CNN13の中間層の間には、外部注視機構16が設けられている。この例では、中間層の一部の層の間、より具体的には1箇所にのみ外部注視機構16が設けられている。ただし、中間層の全ての層の間に外部注視機構16をそれぞれ設けても良い。異常検出CNN11が学習済みモデルとなったときの検出・識別性能が良好になるように外部注視機構16の設置位置と設置数を決定する。
【0029】
(変形例3)
上述の説明では、外部注視機構16によって介在CNN13の中間層からの出力に基づいてアテンション・マップ17を生成し、当該アテンション・マップ17を異常検出CNN11の抽象度が同じ中間層の出力に統合しながら異常検出CNN11を教師あり学習していたが、これに加えて、異常検出CNN11の中間層の出力を介在CNN13の抽象度が同じ中間層の出力に統合しながら介在CNN13を教師あり学習させても良い。
【0030】
(変形例4)
上述の説明では、新たに異常検出CNN11を教師あり学習する場合を例にしていたが、既存の学習済みモデルの転移学習に適用しても良い。即ち、既存の学習済みモデルとしての異常検出CNN11を再学習する際、異常度マップ15を異常度マップ抽出器CNN12の教師なし学習によって事前に取得しておき(
図1のステップS1)、この異常度マップ15を介在CNN13の教師あり学習に用いてアテンション・マップ17を生成し、このアテンション・マップ17を異常検出CNN11の抽象度が同じ中間層の出力に統合する(
図1のステップS2)ようにしても良い。
【実施例0031】
稀なパターンの検出は、ディープラーニングが苦手とする代表的なタスクである。データに含まれる不規則で稀なパターンを自動同定する技術は、一般に異常検出と呼ばれる。近年、画像を用いた異常検出に対して、畳み込みニューラルネットワーク(CNN)に立脚した技術が数多く提案されている。一般に、CNNの分類性能を引き出すには大規模な訓練データの準備、あるいは、類似ドメインで十分な性能を実現できる学習済みCNNが必要である。しかしながら、実問題では正常画像と同等数の異常画像を準備できないケースや、活用できる学習済みCNNが存在しないことも多い。このように、異常検出は大規模データの機械学習に立脚した手法が本質的に苦手なタスクであるため、実際の異常検出の現場では問題の性質に応じた様々な試行錯誤が求められる。近年、物体認識分野で、判断に必要な情報を選択的に抽出する人間の視覚注視をCNNの学習に取り入れた、自己注視という技術が盛んに研究されている。本発明では、教師なし学習によって得られた異常に関する知見を異常検出に用いるCNNに取り込むための注視機構:外部駆動型の視覚注視機構を提案する。それにより、既存の画像認識CNNによる異常検出性能を、大幅に増強させる手段を確立する。
【0032】
(1-1)学術的背景:画像からの異常検出技術
画像からの異常検出は、工業製品の品質管理では外観検査AIとも呼ばれ、医療画像診断(e.g.、 Rezvantalab et al. 2018; Cao et al. 2018)、植物の健康管理(e.g.、 Ferentinos 2018)、自然災害の検知(e.g.、 Natarajan et al. 2019)、建築物の保守管理(e.g.、Mohan and Poobal 2018)など、多様な実問題に関係する。現在では、画像認識におけるディープラーニングの躍進に伴い、大規模な画像セットの機械学習に立脚したデータ駆動的な異常画像検出技術が盛んに研究されている。それらは、教師あり学習、教師なし学習、それらを組み合わせた手法に大別することができるが、異常を含む画像は基本的に収集が困難であることから、限られた枚数の異常画像からでも画像に含まれる異常領域を捉えることができる検出器を構築することが、普遍的な課題といえる。
【0033】
上記のうち、教師あり学習に基づく典型的な例は、CNNを用いて正常画像と異常画像を分類する方法である(e.g.、 Hughes and Salathe 2016; Minhas and Zelek 2019)。CNNの訓練には大量の教師データが必要である。しかし異常検知問題では、十分な量の異常画像を収集することが困難であることも多い。そこで類似した問題で訓練したCNNを転移学習で活用する技術も提案されているが(Minhas and Zelek 2019)、常にそのようなモデルが存在するとは限らない。
【0034】
教師なし学習に基づく方法では、正常画像の再構成過程をCNNに学習させることで、再構成精度が低い領域を”異常度マップ”として定量化することが多い。通常、CNNは細部を再構成することが苦手だが、近年では敵対的生成ネットワーク(GAN)を導入することで、従来よりも緻密な再構成が可能になった。それを利用し、微かな異常も検出できる汎用的な画像異常検出法:AnoGANが提案された(Schlegl et al. 2017; Zetati et al. 2018; Akcay et al. 2018)。これに対し発明者らは、植物の病変や製品の傷など異常には変色を伴う事例が多いことに着目し、色に特化した異常度マップをGANによる教師なし再構成で抽出する手法を提案した(Katafuchi and Tokunaga、 2021)。AnoGANによる異常検出は潜在空間での探索を伴うため計算効率が悪い。上記提案手法は、注目する異常のタイプを予め決めておく事で、潜在空間での探索なしでも高精度な異常検出ができることを示した。以上のような、正常画像の教師なし再構成に基づく異常度マップの算出は、CNNの訓練に異常画像を必要としないため、異常検出で広く用いられる。しかし、異常画像が訓練過程にまったく用いないため、区別する特徴や識別境界をデータから決めることができない。従って、異常度マップから正常・異常を判断する閾値を、ユーザの経験や専門知識に基づいて試行錯誤的に決めなくてはならない。
【0035】
(1-2)学術的背景:画像認識のための視覚注視機構
CNNに基づく教師あり画像認識では、検出したい物体の位置に対応する中間層のノードが、高い応答を返すようパラメータを調整する。ところが、現代のCNNには数百‐数億次元のパラメータがあり、重要なノードが十分に見出されるとは限らない。そこで、中間層出力を学習で再起的に用いることで、重要なノードを見出す過程を加速する仕組みが考案された(e.g.、 Hu et al. 2020; Wang et al. 2017; Woo et al. 2018; Lee 2019; Wang et al. 2020; Yang et al. 2021)。これは、視覚注視機構と呼ばれ、判断に必要な情報を選択的に抽出する人間の視覚系の仕組みを模したものと言える(e.g.、 Reynolds and Chelazzi 2004; Golomb and Turk-Browne 2011)。Attention Branch Network(ABN)では、CNNの注視領域(以下、注視マップ)を可視化し、ユーザが適宜修正を加えることで、画像認識の性能と解釈性の両方を向上できることを示した(Fukui et al. 2019)。これらの技術は、中間層出力の再起処理に基づくことから、自己注視と呼ばれる。自己注視は、あくまで学習効率を向上させることが主目的であり、不足する情報を補う効果は期待できない。従って、限られた異常画像しか準備できない状況に対し、本質的な打開策にはならないと考えられる。
【0036】
(1-3)
正常画像の教師なし学習で得られた異常度マップを教師あり学習に活用できれば、これまでに述べた教師なし、あるいは教師あり学習のみに立脚した従来の異常検出技術の限界を克服できるのではないかと考えた。そこで、本発明ではその実証のため、自己注視とは異なる、外部駆動型の視覚注視機構を確立する。
【0037】
(2-1)
CNNに基づく既存の画像認識モデルに対し、統一的手段で異常検出性能を大きく増強できる仕組みを確立する。それにより、大量の異常画像の準備や新規モデルの開発なしに、迅速に現場に導入できる外観検査AIの基盤を築く。正常画像の教師なし学習により得られた異常度マップは、小さな異常に関する情報も表現された具体度の高いものである。一方、CNNでは、低次の局所的特徴から高次の大域的特徴に至るまで、階層的な抽象度で特徴が表現される。従って、異常度マップをそのまま中間層に注視機構として取り込むと、多くの中間層で抽象度が合致しない。その場合、注目すべき物体の位置精度の劣化や、中間層の表現が過剰に疎になることで発生するdying ReLU問題(Lu 2020)など、様々な弊害が生じる。さらに、CNNは複数チャンネルから構成されており、多様な特徴を抽出できるようになっている。ところが、学習の初期段階で具体度の高い異常度マップを取り込むと、多くのチャンネルで類似したフィルタが構築されてしまい、汎用性が失われてしまう虞がある。従って、外部からの情報を注視機構として取り込むには、中間層の情報表現と学習の進捗状況の2つに応じて、取り込む情報の抽象度を適切に調整する仕組みが必要である。
【0038】
そこで本発明では、
図2に示すように異常検出用のCNN(異常検出CNN11)とは別に異常度マップの橋渡し役となる介在CNN(介在CNN13)を導入する。介在CNNは異常の有無を最終的に判断する異常検出CNNと同様の階層構造をもち、教師なし学習で得られた異常度マップを入力として、異常検出の教師あり学習を行う。この介在CNNの中間層の出力を、“注視マップ”として異常検出CNNの各中間層の出力と統合する。この介在CNNが、教師なし学習器と教師あり学習の橋渡し役として機能する注視機構を、本発明では自己注視と区別するために外部駆動型の注視機構と呼ぶことにする。この外部駆動型注視機構のアイディアに基づき、限られた異常画像しか準備できない状況でも、既存のCNNの異常検出性能を増強させることができる統一的手段を確立する。
【0039】
(2-2)
自然言語処理や画像認識で一般に用いられる自己注視ではなく、別のCNNから得られた特徴を活用することを目標とした新しい視覚注視機構の確立を目指す。特に、”コーチ役”となる介在CNNはユニークな発想であり、異常検出の枠を超えて、ディープラーニングが苦手としてきた限られた訓練データからの認識問題に対し、新たな地平を開拓するものである。
【0040】
(3-1)
X線画像からの肺の病変検出に対し、病変領域を事前にセグメンテーションしたバイナリ画像をCNNの入力として用いることで、元画像をそのまま用いるよりも異常領域の位置特定精度が向上するという報告がある(Li et al. 2021)。これは、異常の位置情報が異常検出に特に重要であることを示唆している。また、前述したABNでは、ユーザが注視マップに修正を加えることで物体認識精度を向上させることができることが示された。これらのことから、上記で提案した正常画像の教師なし再構成によって得られた異常度マップも、異常検出CNNに事前知識として活用できれば、CNNの異常検出能力を増強させることができるという着想に至った。
【0041】
(3-2)
通常の画像認識・物体認識・異常検出の研究では、性能評価のために整理された様々な分野のベンチマークデータセットに対し、既存技術を上回る性能(state-of-the-art:SoTA)を目指すものが多い。一方、異常検出の困難性は現場によって多様である。従って、SoTAモデルを適用するだけでは、現場の問題の癖に対応できず必要な性能を実現できないこともある。ここで問題となるのが、汎用的な目的で開発されたモデルは、目的に応じて拡張することを基本的に想定しておらず、改良を加えるための指針が存在しないということである。また、その業界でまったく実績のない異常検出モデルを導入する場合には、安全性評価のための様々な付加的コストが生じる。
【0042】
それに対し本研究は、既存の画像認識モデルの異常検出性能を引き上げる汎用的な原理の確立に焦点を当てている。
図2に記載した異常度マップ抽出器に対し、上記提案では正常画像の色の再構成を学習させた。ところが、異常度マップ抽出器は、色以外にも変形、欠損など、検出したい異常の特性に応じた再構成過程を学習させることができる。目的に合った異常度マップを注視機構に用いることで、検出したい異常に特化した検出能力を既存CNNに付与することができる。このように本発明は、汎用性に優れたモデルを提案するのではなく、既存モデルを柔軟に拡張するための技術である点が、他の研究との相違点である。
【0043】
(5)
プロトタイプの実装と初期的な評価試験を行った。異常検出用CNNには、ResNet18、ResNet50、VGG16、VGG19の4つを採用した。介在CNNには、MobileNetV3-small(Howard et al. 2019)とResNetを採用した。異常度マップは、色の異常を反映したものを用いた。データセットは、網膜画像:DR2(Pires et al. 2016)、植物:PlantVillage(Hughes and Salathe 2016)、工業製品:MVTec(Bergmann et al. 2019)、雲(Srinivas 2020)を用いた。異常検出CNNの訓練に用いる異常画像は50~100枚とした。注視機構を導入する場所は各実験では1箇所とし、どの中間層ブロックに導入するかを変えながら性能(F1スコア)評価を行った。その結果、およそ3/4程度のケースにおいて、注視機構の導入により、異常検出CNNのF1スコアが向上することを確認した。中には、F1スコアが0.425から0.948と、2倍以上高いスコアに改善した例もあった。
【0044】
定量的評価に加え、異常検出CNNの中間層出力が、注視機構によってどのように変化するかについて評価を行った。
図9に、網膜画像に対し、異常検出CNNの中間層出力が、介在CNNからの注視マップによってどのような影響を受けるか、可視化した例を示す。この結果から、介在CNNから与えた注視マップにより、CNNの中間層出力が、病変がある領域により高い出力が集中するよう修正されていることが見て取れる。