(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-01-21
(45)【発行日】2022-01-31
(54)【発明の名称】画像分類方法及び機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20220124BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021124754
(22)【出願日】2021-07-29
【審査請求日】2021-07-29
(31)【優先権主張番号】202011058357.7
(32)【優先日】2020-09-30
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521063410
【氏名又は名称】中国人民解放軍国防科技大学
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】蒋 杰
(72)【発明者】
【氏名】楊 君燕
(72)【発明者】
【氏名】許 輝
(72)【発明者】
【氏名】孫 家豪
(72)【発明者】
【氏名】劉 陽
(72)【発明者】
【氏名】康 来
(72)【発明者】
【氏名】魏 迎梅
(72)【発明者】
【氏名】謝 毓湘
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2020-071862(JP,A)
【文献】中国特許出願公開第111291670(CN,A)
【文献】中国特許出願公開第111723748(CN,A)
【文献】特開2021-022256(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00- 3/12
G06N 7/08-99/00
G06T 7/00- 7/90
(57)【特許請求の範囲】
【請求項1】
画像分類方法であって、
残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成することと、
注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成することと、
前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練することと、
画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類することとを含み、
上述の前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含み、
上述の前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含み、
前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成する、ことを特徴とする画像分類方法。
【請求項2】
前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、
前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
画像分類機器であって、
残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成する主幹モジュールと、
注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成する重みモジュールと、
前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練する生成モジュールと、
画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類する分類モジュールとを含み、
前記主幹モジュールが前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含み、
前記重みモジュールが前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含み、
前記重みモジュールは、前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成する、ことを特徴とする画像分類機器。
【請求項4】
前記重みモジュールが、チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、
前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む、ことを特徴とする請求項3に記載の機器。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書の1つ又は複数の実施例は、画像認識の技術分野に関し、特に、画像分類方法及び機器に関する。
【背景技術】
【0002】
社会の情報化の度合いが増加するにつれて、画像は、徐々にテキストに取って代わり、人間による情報の伝達及び保存用の重要な媒体になってきた。画像に含まれる情報の無秩序化及び膨大な量は、画像情報の処理に大きな挑戦をもたらしている。如何にして画像を効果的に分類し、我々が必要とする有用な情報を抽出するかは、コンピュータビジョン分野において、注目を集める課題になっている。
【0003】
しかし、社会の発展に伴い、画像のデータ量は指数的に増加し、画像の応用範囲が拡大され続けており、従来技術における画像分類のネットワーク構造及びアルゴリズムは、様々な種類、様々な性質及び無秩序の画像データを完璧かつ効率的に分類するという要件を満たすにはほど遠く、従来の画像分類方式の効率及び正確率は、改善の余地がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
これに鑑みて、本明細書の1つ又は複数の実施例の目的は、画像分類の効率及び正確率が低いという問題を解決するための画像分類方法及び機器を提案することにある。
【課題を解決するための手段】
【0005】
上記目的に基づいて、本明細書の1つ又は複数の実施例は、画像分類方法であって、
残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成することと、
注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成することと、
前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練することと、
画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類することを含む、画像分類方法を提供している。
【0006】
いくつかの実施形態において、上述の前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含む。
【0007】
いくつかの実施形態において、前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成する。
【0008】
いくつかの実施形態において、前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、
前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む。
【0009】
いくつかの実施形態において、上述の前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含む。
【0010】
同一構想に基づいて、本明細書の1つ又は複数の実施例は、画像分類機器であって、
残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成する主幹モジュールと、
注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成する重みモジュールと、
前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練する生成モジュールと、
画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類する分類モジュールとを含む、画像分類機器を更に提供している。
【0011】
いくつかの実施形態において、前記重みモジュールが前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含む。
【0012】
いくつかの実施形態において、前記重みモジュールは、チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成する。
【0013】
いくつかの実施形態において、前記重みモジュールが、チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、
前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む。
【0014】
いくつかの実施形態において、前記主幹モジュールが前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含む。
【発明の効果】
【0015】
以上の記載から分かるように、本明細書の1つ又は複数の実施例による画像分類方法及び機器は、残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成することと、注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成することと、前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練することと、画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類することを含む。本明細書の1つ又は複数の実施例は、注意力モデルに残差メカニズムを取り入れて、パラメータを増やすことなく注意力メカニズム内部のコンテキスト情報を結合させ、画像分類タスクにとって興味のある特徴がより正確に抽出されるように注意力モデルを支援することで、画像分類の効率及び正確率を向上させた。そして、本技術案によって改良された注意力メカニズムモデルの訓練時間は、本来の約半分に短縮され、訓練効率が大幅に向上される。
【図面の簡単な説明】
【0016】
本明細書の1つ又は複数の実施例又は従来技術における技術案をより明確に説明するために、以下、実施例又は従来技術の説明に使用する必要のある図面を簡単に紹介するが、明らかなことに、以下に説明する図面は、本明細書の1つ又は複数の実施例に過ぎず、当業者にとっては、創造的労働を払わずに、これらの図面から他の図面を得ることもできる。
【
図1】
図1は本明細書の1つ又は複数の実施例による画像分類方法のフロー模式図である。
【
図2】
図2は、本明細書の1つ又は複数の実施例による残差ネットワークモデルの応用原理模式図である。
【
図3】
図3は、本明細書の1つ又は複数の実施例による穴付き残差ネットワーク主幹の残差ブロックの模式図である。
【
図4】
図4は、本明細書の1つ又は複数の実施例による注意力メカニズムモデルの構造模式図である。
【
図5】
図5は、本明細書の1つ又は複数の実施例による残差注意力メカニズムモデル(Dilated-CBAM)の構造模式図である。
【
図6】
図6は、本明細書の1つ又は複数の実施例による残差チャンネル注意力モジュールの構造模式図である。
【
図7】
図7は、本明細書の1つ又は複数の実施例による別の残差チャンネル注意力モジュールの構造模式図である。
【
図8】
図8は、本明細書の1つ又は複数の実施例による画像分類機器の構造模式図である。
【発明を実施するための形態】
【0017】
本明細書の目的、技術案及び利点をより明確にするために、以下、具体的な実施例と併せて図面を参照し、本明細書を更に詳しく説明する。
【0018】
説明すべきなのは、特に定義しない限り、本明細書の実施例に使用される技術用語又は科学用語は、当業者が理解できる通常の意味を有する。本開示に使用される「第一」、「第二」及び類似する用語は、いかなる順序、数量又は重要性を示すものではなく、異なる構成要素を区別するためのものに過ぎない。「含む」又は「包含」等の類似する用語は、当該用語の前に記載された素子、部材や方法ステップが、当該用語の後に挙げられる素子、部材や方法ステップ、及びそれらの同等物を含むが、他の素子、部材や方法ステップを排除しないことを意味する。「接続」や「繋がる」等の類似する用語は、物理的又は機械的接続に限定されず、直接又は間接を問わずに電気的接続を含んでもよい。「上」、「下」、「左」、「右」等は、相対位置関係を示すだけであり、説明対象の絶対位置が変わると、当該相対位置関係も対応して変化する可能性がある。
【0019】
背景技術部分に記載されているように、画像分類とは、具体的に、コンピュータが、関連アルゴリズムの補助の下で、入力データを用いて画像の種類を判別することであり、研究ターゲット検出タスクや画像分割タスク等の重要な基礎として、比較的高い学術研究及び科学技術的な応用価値を持っており、コンピュータビジョン分野での研究作業のほとんどは、画像分類タスクに関連している。ディープラーニングの飛躍により、画像分類技術は、ハードウェアレベル及びソフトウェアレベルの両方にて顕著に向上されており、既存のビッグデータセットの多くでは、人間の目の画像識別能力を超える水準に達しており、画像分類及び関連するコンピュータビジョン分野の研究に注目し始める研究者もますます増えている。
【0020】
コンピュータビジョンにおける人気のある研究方向として、画像物体分類は、セキュリティ防御分野の映像インテリジェント分析、歩行者検出、顔認識、交通監視分野の逆行検出、車両カウント、交通シーン物体認識、ナンバープレート検出及び認識、物流管理統計分野の物体認識カウント、商品認識分類、製品品質評価、及び、アルバムインテリジェント分析分野のピクチャコンテンツに基づく画像検索、アルバム自動クラスタリング、人物体像検出、物体像検出等を含め、多くの分野で幅広く応用されている。
【0021】
しかしながら、画像データ量の増加や応用範囲の継続的な拡大に伴い、既存のネットワーク構造及びアルゴリズムは、様々な種類、様々な性質及び無秩序の画像データを完璧かつ効率的に分類するという要件を満たすにはほど遠い。したがって、研究者達は、画像分類の効率及び正確率を向上させるために、畳み込みニューラルネットワークアーキテクチャを更に検討及び改良していく必要がある。
【0022】
上記実情に鑑みて、注意力モデルに残差メカニズムを取り入れ、注意力モデルにて残差エッジを利用して、注意力モジュール内の同等なマッピングを実行し、パラメータを増やすことなく注意力メカニズム内部のコンテキスト情報を結合させ、画像分類タスクにとって興味のある特徴がより正確に抽出されるように注意力モデルを支援することで、画像分類の効率及び正確率を向上させた。そして、本技術案によって改良された注意力メカニズムモデルの訓練時間は、本来の約半分に短縮され、訓練効率が大幅に向上される。
【0023】
本明細書の一実施例に係る画像分類方法のフロー模式図である
図1を参照して、当該画像分類方法は、
図1に示すように、具体的に以下のステップ101~104を含む。
【0024】
ステップ101は、残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成することである。
【0025】
になり、即ち、元エッジ(図中のエッジ)に対しては、残差エッジに入力された特徴図内の情報が精緻化されて残差ネットワーク効果が最適化されるように、標準畳み込みの畳み込み層を構築することになる。ここで、標準畳み込みとは、一般的な畳み込みであり、数学上で通俗的に言えば、入力行列と畳み込みカーネル(畳み込みカーネも行列である)とが、対応する要素を乗算して合計を求めたものであるため、1回の畳み込みの結果出力は1つの数値となり、最後に入力された入力行列全体を遍歴すると、最終的に1つの結果行列が得られる。一般的な畳み込みの2次元畳み込みカーネルとしては、3*3の畳み込みカーネルが最もよくあるが、ネットワークの設計に応じて、5*5又は7*7のものを設計してもよい。
【0026】
次に、穴付き畳み込みとは、膨張畳み込みとも呼ばれる拡張畳み込み(Dilated Convolution)であり、標準の畳み込みカーネルに穴を注入することで、モデルの受容野(reception field)を増加させるものである。一般的な畳み込みに比べて、拡張畳み込みは、拡張率パラメータを増加させており、拡張率とは、畳み込みカーネルの点の間の間隔の数を指す。拡張率が一般的な畳み込み内に設定されていると仮定すると、その拡張率の値は1となり、畳み込みカーネルの点同士が隣接していることを示すが、穴付き畳み込みでは、拡張率は、1でなく、例えば、拡張率が2の場合、畳み込みカーネルの点の間が1画素離間していることを示し、即ち、拡張率が2の穴付き畳み込みの3*3畳み込みカーネルと、標準畳み込みの5*5畳み込みカーネルとは、同じ受容野を有する。残差ネットワークの場合、前期に得られた入力画像の特徴図によって抽出されるのは、一般に画像の輪郭情報となるが、穴付き畳み込みの場合、それによってもたらされた、受容野を拡大するという特性によれば、初期特徴図の有用な情報をより好適にスクリーニングすることが可能であり、初期に抽出された画像輪郭、縁の特徴図、及び、後期に抽出された画像細部情報の特徴図を結合させて、画像情報をより好適に纏めて統括することができるため、ネットワーク画像分類の効果が向上される。
【0027】
【0028】
ステップ102は、注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成することである。
【0029】
本ステップの目的としては、注意力メカニズムモデルにおけるチャンネル注意力モジュール及び空間注意力モジュールを残差ネットワークモデルの重み層として設定することである。ここで、注意力メカニズムモデル(CBAM、Convolutional Block Attention Module)は、
図4に示すように、空間(spatial)とチャンネル(channel)とを結合させた注意力メカニズムモジュールであり、丸印内の「×」は、行列の要素毎(element-wise)のドット積操作を表す。本具体的な実施例は、CBAMモデルにおけるチャンネル注意力メカニズムを用いて、チャンネルに対して最大プーリング操作及び平均プーリング操作を行うことで、得られた特徴図を多層パーセプトロン(shared MLP)に入力し、得られた2つの特徴図に対して要素毎の加算操作を使用し、sigmoid活性化関数によって、畳み込み層から出力された特徴図を非線形化し、チャンネル注意力の表現能力を拡大することができるため、より効果的なチャンネルの重みが得られる。
【0030】
具体的な実施例において、チャンネル注意力モジュール及び空間注意力モジュールに基づいているため、重み層は、2つ生成され、穴付き残差ネットワーク主幹に設定されるものとなる。その設定方式としては、2つのモジュールをそのまま重み層として取り出してもよいし、モジュールを取り出した後に、モジュールを更に調整することで重み層を形成してもよく、例えば、チャンネル注意力モジュールに対しては、標準畳み込みの残差エッジとチャンネル注意力モジュールとの行列加算処理によって、対応する重み層を生成してもよいし、前のステップと同様な穴付き残差エッジとの行列加算を行うことで、対応する重み層を生成してもよい。次に、チャンネル注意力重み層については、生成された2つの重み層が並列関係とされてもよいし、直列関係とされてもよい。直列関係では、先となる重み層として、チャンネル注意力重み層とされてよいし、空間注意力重み層とされてもよい。
【0031】
ステップ103は、前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練することである。
【0032】
本ステップの目的としては、生成された主幹と重み層とを結合させて、残差注意力メカニズムモデルを生成して訓練することである。ここで、具体的な実施例における残差注意力メカニズムモデル(Dilated-CBAM)の構造模式図である
図5に示すように、丸印内の「×」は、行列の要素毎のドット積操作を表し、丸印内の「+」は、行列加算の要素毎の操作を表す。そして、Dilated-CBAMモデルに対しては、画像分類のモデル訓練が行われる。
【0033】
具体的な応用シーンでは、Dilated-CBAMモデルの画像分類効果を検証し、更にCifar-10データセット(画像データセットの1つであり、CIFAR-100と同様にラベル付きのデータセットであり、より大きな規模とされる8千万枚のスモールピクチャに由来するデータセット)の訓練セットを訓練して最適化されたDilated-CBAMモデルを利用するために、表1に示すように、Cifar-10データセットのテストセットによって、訓練して得られたネットワーク及び重みによる同じ性質の画像データの分類の正確率及び収束能力を検証した。ここで、Train accは、Cifar-10データセット訓練セットでのモデルによる分類の成功率を表し、Test accは、Cifar-10データセットのテストセットでのモデルによる分類の成功率を表し、EPOCHは、モデル期間又は周期を表し、1つの完全なデータセットがニューラルネットワークを1回通過してから1回戻るまでの過程は、1回のepochと呼ばれる。その中でのモデルは、順次に、それぞれ18層の残差ネットワークモデル(ResNet-18)と、既存のCBAMモデルと、CBAMモデル埋め込み型穴付き畳み込み実験モデルと、チャンネル注意力モジュールがCBAMモデルにおける元チャンネル注意力モジュールとされるDilated-CBAMモデルフレームワークと、チャンネル注意力モジュールが、チャンネル注意力モジュールと残差ネットワークエッジとを結合させた残差チャンネル注意力モジュールとされるDilated-CBAMモデルフレームワークと、チャンネル注意力モジュールが、チャンネル注意力モジュールと穴付き残差ネットワークエッジとを結合させた穴付き残差チャンネル注意力モジュールとされるDilated-CBAMモデルフレームワークと、穴付き残差ネットワーク主幹における穴付き畳み込みがグループ畳み込み(groups conv)に置き換えられたDilated-CBAMモデルフレームワークと、ELU活性化関数が埋め込まれたDilated-CBAMモデルフレームワークと、SELU活性化関数が埋め込まれたDilated-CBAMモデルフレームワークとになる。Dilated-CBAMモデルについては、その中のチャンネル注意力モジュールが、チャンネル注意力モジュールと残差ネットワークエッジとを結合させた残差チャンネル注意力モジュールである場合(即ち、表中の5行目のデータ)、訓練セットでの分類の正確率が98.7%に達し、テストセットでの分類の正確率が93.5%に達している一方、その収束速度がわずか10周期になっていることが分かる。
【0034】
【0035】
ステップ104は、画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類することである。
【0036】
本ステップの目的としては、認識すべき画像を訓練済みの残差注意力メカニズムモデルに入力し、残差注意力メカニズムモデルによって画像を認識して分類することである。ここで、画像データは、例えばビデオカメラやカメラ等の外部機器によって得られたものであってもよいし、ユーザが外部ネットワークを介して得たものであってもよく、更に、システム又はサーバ自身のデータベースに保存されたもの等であってもよい。
【0037】
認識された分類結果については、保存、提示又は再加工の形で認識分類結果が処理されてもよく、ここでの分類結果は、単一の画像が具体的に属するタイプ、又は、複数枚の画像間の分類処理結果であってもよい。様々な応用シーン及び実施ニーズに応じて、具体的に認識分類結果の出力方式を柔軟に選択可能である。
【0038】
例えば、単一の機器上で本実施例に係る方法が実行される応用シーンの場合は、認識分類結果を、そのまま現在機器の表示部品(ディスプレイやプロジェクタ等)に表示させるように出力して、現在機器の操作者が表示部品から認識分類結果の内容を直接視認できるようにすることが可能である。
【0039】
別の例として、複数の機器で構成されるシステム上で本実施例に係る方法が実行される応用シーンの場合は、認識分類結果を、任意のデータ通信方式(有線接続、NFC、ブルートゥース(登録商標)、wifi、セルラモバイルネットワーク等)を介してシステム内の他の受信側としての所定機器に送信し、認識分類結果を受信した所定機器がそれに対して後続処理を行えるようにすることが可能である。選択的に、当該所定機器は、所定のサーバであってもよく、サーバは、通常、クラウドに設定されるものであり、データの処理及び保存センタとして、認識分類結果を保存及び配信可能であり、ここで、配信の受信側は端末機器であり、当該端末機器の所有者又は操作者は、現在のユーザ、画像を所有する機構又は個人、画像の提示に関連する組織、個人やウェブサイト等であり得る。
【0040】
更なる例として、複数の機器で構成されるシステム上で本実施例に係る方法が実行される応用シーンの場合は、認識分類結果を、任意のデータ通信方式を介してそのまま所定の端末機器に送信することが可能であり、端末機器は、前の段落に列挙された1つ又は複数であり得る。
【0041】
本明細書の1つ又は複数の実施例を適用することによって提供される画像分類方法は、残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成することと、注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成することと、前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練することと、画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類することとを含む。本明細書の1つ又は複数の実施例は、注意力モデルに残差メカニズムを取り入れて、パラメータを増やすことなく注意力メカニズム内部のコンテキスト情報を結合させ、画像分類タスクにとって興味のある特徴がより正確に抽出されるように注意力モデルを支援することで、画像分類の効率及び正確率を向上させた。そして、本技術案によって改良された注意力メカニズムモデルの訓練時間は、本来の約半分に短縮され、訓練効率が大幅に向上される。
【0042】
説明すべきなのは、本明細書の1つ又は複数の実施例に係る方法は、単一の機器、例えば1台のコンピュータ又はサーバ等によって実行されてもよい。本実施例に係る方法は、分散式シーンに適用されて、複数台の機器間の協働によって完成されてもよい。このような分散型シーンの場合、これらの複数台の機器のうち、1台の機器が、本明細書の1つ又は複数の実施例に係る方法内の何れか1つ又は複数のステップのみを実行し、これらの複数台の機器間がインタラクションを行って前記の方法を完成させてもよい。
【0043】
上記では、本明細書の特定の実施例について説明したが、他の実施例も、添付の特許請求の範囲内に含まれる。一部の場合、特許請求の範囲に記載の動作又はステップは、実施例とは異なる順序で実行されることも可能であり、且つ所望の結果が達成できる。また、図面に記載の手順は、所望の結果を得るために、示されている特定の順序や連続順序を必ずしも必要とするとは限らない。いくつかの実装形態では、マルチタスク処理及び並行処理も可能であるか、或いは有利であり得る。
【0044】
本明細書の選択的な実施例において、画像認識の効果を最良にするために、上述の前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含む。
【0045】
ここで、直列に順次配列するとは、
図5に示す構造模式図におけるチャンネル注意力モジュールと空間注意力モジュールとの配列方式となる。具体的な応用シーンでは、特徴図が先ずチャンネル注意力モジュールによって処理され、処理結果が空間注意力モジュールに入力されて処理され、次に、出力結果と残差エッジとの行列加算が行われる。なお、チャンネル注意力モジュールと空間注意力モジュールとの配列方式としては、チャンネル注意力モジュールよりも、空間注意力モジュールが先となるように直列してもよいし、両モジュールが並列する等であってもよい。
【0046】
本明細書の選択的な実施例において、受容野にマルチスケールのコンテキスト情報を抽出させることで、画像の領域をより正確に重み付けするためには、前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成するようにしており、ここでの残差ネットワークエッジは、現在の既存残差ネットワークにおける残差エッジとなる。
【0047】
図6に示すように、具体的な実施例において、Dilated-CBAMモデルの基礎チャンネル注意力モジュールは、CBAMモデルを模倣し、平均プーリング及び最大プーリングを通じてチャンネルのグローバル特徴を抽出し、得られた特徴図をそれぞれ多層パーセプトロンに入力して、異なるチャンネル間の関係を計算し、チャンネル重み行列を出力し、次に、残差ネットワークモデルにおける残差エッジチャンネル重み行列の行列加算操作を行う。
図6では、丸印内の「+」は、行列加算の要素毎の操作を表し、丸印内の「S」字状曲線は、例えばSigmoid等の活性化関数を表す。
【0048】
具体的な応用シーンでは、画像は、数値行列の形で保存及び計算され、1つのチャンネルは1つの行列に対応し、空間注意力モジュールは、各々のチャンネルに対応する行列上で効果が出るようにしている。数学的観点から分析すれば、同じ行列内には、コンテキスト情報の連結問題が存在しないため、空間注意力モジュールでは、Dilated-CBAMモデルに残差メカニズムが適用されない。即ち、Dilated-CBAMモデルにおける空間注意力モジュールとしては、現在のCBAMモデルにおける空間注意力モジュールをそのまま流用している。
【0049】
本明細書の選択的な実施例において、画像特徴抽出中の画像サイズの変化を統合し、画像のサイズを再拡大することで、残差エッジでの特徴図と、チャンネル注意力モジュールから出力された特徴図との行列加算の要素毎の操作がより適合的に行われるようにするために、前記チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む。
【0050】
図7は、
図6に逆畳み込み操作を加えたものを示す。図中の一重丸は、逆畳み込み(deconvolution)操作を表す。本具体的な応用シーンでは、加算が必要とされる行列をより適合させ、正確度を向上させるために、逆畳み込み操作を行っているが、他の応用シーンでは、必ずしも逆畳み込みを行う必要がない。
【0051】
本明細書の選択的な実施例において、画像の輪郭をより正確に抽出し、計算速度及び収束速度を高めるために、上述の前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含む。
【0052】
【0053】
同じ構想に基づいて、本明細書の1つ又は複数の実施例は、
図8に示すように、
残差ネットワークモデルを確立し、前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えて、穴付き残差ネットワーク主幹を生成する主幹モジュール801と、
注意力メカニズムモデルのチャンネル注意力モジュール及び空間注意力モジュールに基づいて、前記残差ネットワークモデルの重み層を生成する重みモジュール802と、
前記穴付き残差ネットワーク主幹と前記重み層とで構成される残差注意力メカニズムモデルを生成し、前記残差注意力メカニズムモデルを訓練する生成モジュール803と、
画像データを前記残差注意力メカニズムモデルに入力し、前記画像データを認識して分類する分類モジュール804とを含む、画像分類機器を更に提供している。
【0054】
1つの選択的な実施例として、前記重みモジュール802が前記残差ネットワークモデルの重み層を生成することは、
前記チャンネル注意力モジュール及び前記空間注意力モジュールに基づいて、チャンネル注意力重み層及び空間注意力重み層を生成し、前記チャンネル注意力重み層と前記空間注意力重み層とを直列に順次配列することを含む。
【0055】
1つの選択的な実施例として、前記重みモジュール802は、チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行って、前記チャンネル注意力重み層を生成する。
【0056】
1つの選択的な実施例として、前記重みモジュール802が、チャンネル注意力モジュールと残差ネットワークエッジとの行列加算を行う前には、
前記チャンネル注意力モジュールに対して逆畳み込み操作を行うことを更に含む。
【0057】
1つの選択的な実施例として、前記主幹モジュール801が前記残差ネットワークモデルの元エッジにおける標準畳み込みを穴付き畳み込みに置き換えることは、
前記元エッジにおける標準畳み込みを穴付き畳み込み直列バッチ正規化用の直列線形整流活性化関数の畳み込み層に置き換えることを含む。
【0058】
説明の便宜上、以上の機器の説明時に機能を様々なモジュールに分けて個別に説明している。勿論、本明細書の1つ又は複数の実施例の実施時には、各モジュールの機能を同じ1つ又は複数のソフトウェア及び/又はハードウェアに実装してもよい。
【0059】
上記実施例に係る機器は、前述実施例における該当する方法を実現するためのものであり、かつ該当する方法の実施例の有益な効果を奏するが、ここで繰り返して説明しない。
【0060】
当業者であれば理解すべきなのは、以上の如何なる実施例による議論も、単に例示的なものであり、本開示の範囲(請求項を含む)がこれらの例に限定されることを意味するものではない。本開示の思想に基づいて、以上の実施例又は異なる実施例における技術的特徴は、互いに組み合わせられてもよく、ステップは、任意の順序で実現されてもよく、更に、上記のような本明細書の1つ又は複数の実施例は、様々な態様による他の変形も多く存在するが、簡潔のため、これらの変形について詳しく記載されていない。
【0061】
更に、説明及び議論を簡素化するとともに、本明細書の1つ又は複数の実施例を理解し難くしないために、提供される図面には、集積回路(IC)チップ及び他の部品との公知の電源/グランド接続が示されてもよいし、示されなくてもよい。なお、本明細書の1つ又は複数の実施例が理解され難くなるのを回避するために、機器は、ブロック図の形で示されてもよく、そして、これは、以下の事実も考慮に入れており、即ち、これらのブロック図に係る機器の実施形態の細部は、本明細書の1つ又は複数の実施例を実施しようとするプラットフォームに大きく依存している(即ち、これらの細部は、完全に当業者の理解範囲内にあるべきである)。本開示の例示的な実施例に対する説明のために具体的な細部(例えば回路)が記載されている場合、当業者にとって明らかなことに、これらの具体的な細部がない場合や、これらの具体的な細部が変化した場合であっても、本明細書の1つ又は複数の実施例を実施することができる。したがって、これらの記載は、制限的なものではなく、説明的なものと見なされるべきである。
【0062】
本開示の具体的な実施例を元に本開示を説明したが、上記の説明によれば、これらの実施例の置換、修正や変形の多くは、当業者とって明らかなものである。例えば、他のメモリアーキテクチャ(例えば、動的RAM(DRAM))であっても、議論された実施例を適用可能である。
【0063】
本明細書の1つ又は複数の実施例は、添付の特許請求の範囲の広い範囲内に含まれるこれらの置換、修正や変形の全てをカバーすることを意図している。したがって、本明細書の1つ又は複数の実施例の精神及び原則内でなされた如何なる省略、修正、同等な置換、改良等は、全て本開示の保護範囲内に含まれるものとする。
【要約】 (修正有)
【課題】画像データを認識して分類する画像分類方法及び機器を提供する。
【解決手段】方法は、注意力モデルに残差メカニズムを取り入れて、パラメータを増やすことなく注意力メカニズム内部のコンテキスト情報を結合させ、画像分類タスクにとって興味のある特徴がより正確に抽出されるように注意力モデルを支援することで、画像データを残差注意力メカニズムモデルに入力し、画像データを認識、分類した際の画像分類の効率及び正確率を向上させる。
【選択図】
図1