特許7380915 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7380915情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14A
14B
15A
15B
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-07

(45)【発行日】2023-11-15

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231108BHJP

【ＦＩ】

G06T7/00 350C

【請求項の数】 10

(21)【出願番号】P 2022573477

(86)(22)【出願日】2020-06-05

(65)【公表番号】

(43)【公表日】2023-06-27

(86)【国際出願番号】 JP2020022405

(87)【国際公開番号】W WO2021245942

(87)【国際公開日】2021-12-09

【審査請求日】2022-11-29

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】ソンバトシリサリター

【審査官】山田辰美

(56)【参考文献】

【文献】特開２０２０－６４３３３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０３７９５８９（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成するマスキング演算手段と、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成する畳み込み演算手段と、
を備える情報処理装置。

【請求項2】

前記入力特徴マップを前記マスクチャネルと前記特徴チャネルとに分割し、それらを前記マスキング演算手段に送るスプリッタ手段をさらに備える、
請求項１に記載の情報処理装置。

【請求項3】

前記出力特徴マップを処理する処理レイヤをさらに備える、
請求項１又は２に記載の情報処理装置。

【請求項4】

画像データを使用して前記入力特徴マップを生成する生成レイヤをさらに備える、
請求項１から３のいずれか１項に記載の情報処理装置。

【請求項5】

前記畳み込み演算手段は、
前記出力特徴マップのマスクチャネルを生成するためのマスクチャネルの１または複数のカーネルと、前記出力特徴マップの特徴チャネルを生成するための特徴チャネルの１または複数のカーネルと、を含む前記畳み込みカーネルのストレージとして動作する畳み込みカーネル記憶手段と、
前記畳み込みカーネル記憶手段内の前記カーネルとの畳み込みを、前記マスクされた特徴チャネルにわたって実行する畳み込み手段と、を有する
請求項１から４のいずれか１項に記載の情報処理装置。

【請求項6】

前記出力特徴マップは画像の予測である、
請求項１から５のいずれか１項に記載の情報処理装置。

【請求項7】

前記画像の予測およびgroundtruthデータからタスク損失を計算するタスク損失計算手段と、
前記出力特徴マップのマスクチャネルと前記画像のgroundtruthマスクからマスク損失を計算するマスク損失計算手段と、
前記タスク損失と前記マスク損失から総損失を計算する総損失計算手段と、をさらに備える、
請求項６に記載の情報処理装置。

【請求項8】

groundtruth BBoxデータからgroundtruthマスクを生成するマスク生成手段をさらに備え、
前記マスク損失計算手段は、前記生成されたgroundtruthマスクと前記出力特徴マップの前記マスクチャネルから前記マスク損失を計算する、
請求項７に記載の情報処理装置。

【請求項9】

入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成すること、
を備える情報処理方法。

【請求項10】

入力特徴マップにおいてマスクチャネルを使用して、前記入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、
前記マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成すること、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法および非一時的なコンピュータ可読媒体に関する。

【背景技術】

【0002】

畳み込みニューラルネットワーク（ＣＮＮ）は、分類やオブジェクト検出などのいくつかのコンピュータビジョンタスクに対して優れた結果を提供する。そのため、普及がなされ、顔認識や監視システムなどの画像認識や動画解析の分野で、現実のアプリケーションに導入されている。

【0003】

ＣＮＮにおいて最も計算集約的な部分は畳み込みレイヤである。畳み込みは入力画像と特徴マップ（feature map）のすべてのピクセルに対して行われるため、画像の背景領域のような一部の計算は冗長となる。

【0004】

非特許文献１（ＮＰＬ１）は、レイヤの各ピクセルに対する停止スコア（halting score）を計算することにより、ＣＮＮの推論処理を加速するための適応的計算時間法を開示している。この停止スコアは、計算から省略できる冗長ピクセルを示す。

【先行技術文献】

【非特許文献】

【0005】

【文献】Figurnov et al., "Spatially Adaptive Computation Time for Residual Networks", CVPR2017, 2017

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、非特許文献１で開示された方法には２つの問題がある。（１）停止スコアは、余分な行列乗算またはＣＮＮ内の畳み込みレイヤで計算されるものであり、計算集約的で、関数呼び出しのオーバーヘッドを消費する。（２）複雑な詳細を有する背景領域は省略できない。

【0007】

本開示の目的は、ＣＮＮにおける冗長な計算を削減することができる情報処理装置、情報処理方法、及び非一時的なコンピュータ可読媒体を提供することである。

【課題を解決するための手段】

【0008】

第１の例の態様では、情報処理装置は、入力特徴マップにおいてマスクチャネルを使用して、入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成するマスキング演算手段と、マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成する畳み込み演算手段を備える。

【0009】

第２の例の態様では、情報処理方法は、入力特徴マップにおいてマスクチャネルを使用して、入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成することを備える。

【0010】

第３の例の態様は、入力特徴マップにおいてマスクチャネルを使用して、入力特徴マップにおける特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成することと、マスクされた特徴チャネルと畳み込みカーネルの間で畳み込み演算を実行し、出力特徴マップを生成することをコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体である。

【発明の効果】

【0011】

本開示によれば、ＣＮＮにおける冗長な計算を削減することができる情報処理装置、情報処理方法、及び非一時的なコンピュータ可読媒体を提供することができる。

【図面の簡単な説明】

【0012】

【図1】図１は、本開示の実施の形態１の構成を示す構成図である。

【図2】図２は、本開示の実施の形態２の構成を示す構成図である。

【図3】図３は、ＲＧＭ－ＣＮＮの特徴マップの構成を示す図である。

【図4】図４は、本開示の実施の形態２の畳み込み演算子の構成を示す構成図である。

【図5】図５は、実施の形態２の動作フローを示すフロー図である。

【図6】図６は、本開示の実施の形態２の入力特徴マップのチャネルを分割する動作を示す図である。

【図7】図７は、本開示の実施の形態２のマスクチャネルによる特徴チャネルをマスキングする動作を示す図である。

【図8】図８は、本開示の実施の形態２の畳み込み演算を示す図である。

【図9A】図９Ａは、本開示の実施の形態３の動作を示す図である。

【図9B】図９Ｂは、本開示の実施の形態３の動作を示す図である。

【図10】図１０は、実施の形態３の動作フローを示すフロー図である。

【図11】図１１は、本開示の実施の形態４の構成を示す構成図である。

【図12】図１２は、実施の形態４の動作フローを示すフロー図である。

【図13】図１３は、関連技術の動作フローを示す構成図である。

【図14A】図１４Ａは、関連技術の動作を示す図である。

【図14B】図１４Ｂは、関連技術の動作を示す図である。

【図15A】図１５Ａは、ＣＮＮ推論システムの構成を示すブロック図である。

【図15B】図１５Ｂは、ＣＮＮ推論システムの構成を示すブロック図である。

【図16】図１６は、各実施形態にかかる情報処理装置の構成図である。

【発明を実施するための形態】

【0013】

（畳み込みレイヤ処理の概要）
本開示による実施形態を説明する前に、畳み込みレイヤにおける計算の概要を、図１３から１５Ｂを参照して説明する。

【0014】

一般に、図１３に示すように、アプリケーションはＣＮＮ推論システム１００を配備する。入力画像ＩＭは、シングルまたはマルチチャネルの画像データである。まず、前処理手段１０１によって入力画像ＩＭが前処理される。前処理手段１０１は、画像のサイズ変更、ピクセル値の正規化、画像のクロップ、背景の減算などを行うことができる。その後、順伝播手段１０２は、前処理された画像を伝播して、推論処理を行うＣＮＮを通じて結果を生成する。最後に、後処理手段１０３は、順伝播の結果に対して後処理を行い、システム１００の出力として予測（Prediction）ＰＲを生成する。後処理には、non-maximal suppressionなどが含まれるが、含まれるものはこれに限定されない。予測ＰＲは、システム１００の画像認識または動画解析の回答を示す。予測ＰＲはシステム１００のタスクに依存する。例えば、分類タスクの予測ＰＲは、入力画像内のオブジェクトのクラスであり、オブジェクト検出タスクの予測ＰＲは、バウンディングボックス（BBox：各オブジェクトを囲むボックス）と、入力画像内の１または複数のオブジェクトのクラスなどである。

【0015】

ＣＮＮ推論システム１００は、１または複数の畳み込みレイヤで構成される。図１４Ａ及び１４Ｂは、ＣＮＮの順伝播手段１０２の概要を示す。画像ＩＭは、ＣＮＮの入力レイヤに供給される。順伝播は、画像全体を分析して、画像内のオブジェクトを検出および／または分類する。まず、第１の畳み込みレイヤ２０１は、特徴チャネル（feature channel）と呼ばれる画像ＩＭの特徴を表す、１または複数の中間特徴マップ（intermediate feature map）ＩＦＭ１を生成する。第２から第Ｍの畳み込みレイヤは、中間特徴マップＩＦＭ２～ＩＦＭ４を生成するために、第１の畳み込みレイヤ２０１と同様の方法で動作する。また、精度を向上させるために、サブサンプリング（プーリング）レイヤ、バッチ正規化レイヤ、非線形活性化関数レイヤ、完全接続レイヤなど、他の種類のレイヤを含めることもできる。

【0016】

図１５Ａを参照すると、畳み込みレイヤ３００は、入力特徴マップ（input feature map：ＩＦＭ）に対して畳み込み演算子３０１による畳み込みを実行し、出力特徴マップ（ＯＦＭ）を生成する。図１５Ｂを参照すると、畳み込み演算子３０１は、特徴を生成するための特徴チャネルの１または複数のカーネルを格納する畳み込みカーネルストレージ３０２と、畳み込みを行うコンボリュータ（convolutor）３０３を含む。

【0017】

ＣＮＮは優れた結果を提供するが、ＣＮＮは計算集約型であるため、ＣＮＮでの計算がシステムのボトルネックを生ずるという問題がある。図１３において、システム１００のボトルネックは手段１０２である。アプリケーションが進展するにつれて、ネットワークはより深くなって膨大な量の計算に関与するため、リアルタイムで処理することは困難になる。

【0018】

ＣＮＮの最も計算集約的な部分は畳み込みレイヤである。畳み込みは、入力画像と特徴マップの全てのピクセルに対して行われる。言い換えると、畳み込みレイヤには大量の積和（ＭＡＣ）演算が含まれる。そのため、画像の背景領域など、一部の計算が冗長になる。

【0019】

非特許文献１は、ＭＡＣ演算を省略しようとする方法を開示しているが、前述のように、以下の問題を有する：（１）停止スコアは、余分な行列乗算またはＣＮＮ内の畳み込みレイヤで計算されるものであり、計算集約的で、関数呼び出しのオーバーヘッドを消費する。（２）複雑な詳細を有する背景領域は省略できない。問題（１）に関しては、この方法は決定を計算するために、分離した完全接続または畳み込みレイヤを必要とするため、計算のオーバーヘッドだけでなく、特定のアクセラレータでの関数呼び出しのオーバーヘッドももたらす。問題（２）については、コスト関数はオブジェクト自体よりもオブジェクトのテクスチャの解析に重点を置いているため、複雑な詳細を有する背景領域を省略することができない。

【0020】

“Combining Background Subtraction and Convolutional Neural Network for Anomaly Detection in Pumping-Unit Surveillance”, Yu et al., Algorithms 2019, 2019は、背景のＣＮＮ計算を除去するために、ＣＮＮでオブジェクトのクラスを予測する前に、背景の減算と前景オブジェクト抽出を適用する方法を開示している。しかしながら、この方法には２つの問題がある。（１）動的な背景には適していない；（２）オブジェクトが重複している場合、重複領域は複数回計算されるため冗長になる。（１）については、この方法が動的背景に適していない理由は、背景の減算が静的背景に対してのみ有効であるためである。

【0021】

米国特許出願公開番号US2019/0304102 A1および米国特許出願公開番号US2019/0311202 A1は、前のフレームのＢＢｏｘを有するフレームの計算を抑制する方法を開示している。しかしながら、これらの方法は高速な動的オブジェクトでは問題になる可能性があり、前のフレームから生成されたマスクはオブジェクトの動きを捉えることができない。

【0022】

“SkipNet:Learning Dynamic Routing in Convolutional Networks”, Wang et al., ECCV 2018, 2018及び“BlockDrop: Dynamic Inference Paths in Residual Networks” Wu et al., CVPR 2018, 2018は、ネットワーク、別名SkipNetのゲーティングネットワークとBlockDropのポリシーモデルを開示し、各入力データの推論フェーズ中に、どの残余ネットワーク（ResNet）の残余ブロックを省略できるかを決定する。しかし、これらのネットワークには３つの問題がある。（１）余分なＣＮＮまたは余分な行列乗算または畳み込みレイヤのいずれかを必要とする；（２）残余ブロックのあるResNet Family-ＣＮＮに限られる；（３）残余ブロック全体をスキップすることは、オブジェクト検出などの一部のタスクでは、粒度が粗すぎる。

【0023】

米国特許出願公開番号US2020/0012904 A1は、セマンティックセグメンテーションのためのマスクの損失関数を開示する。しかしながら、この方法における用語「マスク」は、画像のピクセルによるオブジェクトの分類を意味するものであり、この方法は、ＣＮＮ内のピクセルを計算するか省略するかの決定には焦点を当てていない。

【0024】

以下、添付図面を参照して、本開示の実施形態を詳細に説明する。これらの実施形態は、ＣＮＮを配備するシステムおよび装置に適用できる。本開示は、画像分類やオブジェクト検出などのアプリケーションに適用できる。しかしながら、本開示のアプリケーションは分類およびオブジェクト検出に限定されず、ＣＮＮが使用される他のアプリケーションも含む。

【0025】

（実施の形態１）
まず、実施の形態１にかかる情報処理装置１を、図１を参照して説明する。

【0026】

本開示の実施の形態１である図１を参照すると、情報処理装置１は、マスキング演算子（マスキング演算手段）２と畳み込み演算子（畳み込み演算手段）３を含む。情報処理装置１は、ＣＮＮに使用することができる。

【0027】

マスキング演算子２は、入力特徴マップのマスクチャネル（mask channel）を使用して、入力特徴マップの特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成する。畳み込み演算子３は、マスクされた特徴チャネルと畳み込みカーネルとの間で畳み込み演算を行い、出力特徴マップを生成する。

【0028】

図１に示された構成は、情報処理装置１に搭載されたソフトウェアやハードウェアで行うことができる。入力特徴マップと出力特徴マップは、情報処理装置１の内部または外部に格納されることができる。

【0029】

（効果の説明）
次に、本実施形態の効果について説明する。前述のように、マスキング演算子２は入力特徴マップのマスクチャネルを使用して、入力特徴マップの特徴チャネルのピクセルをマスクし、マスクされた特徴チャネルを生成する。マスクされた特徴チャネルは、畳み込み演算に使用される。したがって、マスクされた特徴チャネルの冗長領域はマスクされるため、それらのピクセルに関する計算は省略される。これはＣＮＮにおける冗長な計算を減らすのに役立つ。

【0030】

（実施の形態２）
まず、添付図面を参照して、本開示の実施の形態２を以下で説明する。

【0031】

（構成の説明）
本開示の実施の形態２を示す図２を参照すると、Region-Masked（ＲＧＭ）畳み込みレイヤ１０は、スプリッタ１１、マスキング演算子１２および畳み込み演算子１３を含む。この実施形態は、推論処理のための順伝播の構成と動作を説明する。ＲＧＭ畳み込みレイヤ１０は、汎用プロセッサシステム、又はGraphic Processing Unit（ＧＰＵ）、Application-Specific Integrated Circuit（ＡＳＩＣ）、Application-Specific Instruction set Processor（ＡＳＩＰ）のような特定の回路、およびField Programmable Gate Array（ＦＰＧＡ）のような再構成可能デバイスを使用するために実装することができるが、使用するものはこれらに限定されない。

【0032】

ＲＧＭ畳み込みレイヤ１０は、その入力特徴マップの１または複数のマスクチャネルを使用することで冗長な計算を省略し、次のレイヤの入力として使用されるマスクチャネルと特徴チャネルを含む１または複数の特徴マップを生成する。ＲＧＭ畳み込みレイヤ１０の入力と出力は、それぞれマルチチャネル入力特徴マップＭ１と出力特徴マップＭ２である。入力特徴マップＭ１は、データの任意の種類の多次元テンソルとすることができる。

【0033】

特徴マップには、図３に示すように、１または複数のマスクチャネルＭＣ１と、１または複数の特徴チャネルＭＦ１が含まれる。マスクチャネルＭＣ１は、畳み込み計算から省略できるピクセルを示すためのものである。図３では、このマスク領域（masked region）はハッチング領域として示され、非マスク領域（unmasked region）は非ハッチング領域として示されている。特徴チャネルＭＦ１は特徴値を表す。

【0034】

図２に示された構成は、情報処理装置またはシステムに搭載されたソフトウェアやハードウェアで行うことができる。入力特徴マップＭ１と出力特徴マップＭ２は、情報処理装置またはシステム内の一時的または固定の記憶装置に格納することができる。しかしながら、入力特徴マップＭ１を情報処理装置またはシステムの外部に代わりに配置し、情報処理装置またはシステムは、出力特徴マップＭ２を他の情報処理装置またはシステムに送信することもできる。ＲＧＭ畳み込みレイヤ１０は、ソフトウェアとハードウェアの協同によって構成することができる。

【0035】

ＲＧＭ畳み込みレイヤ１０は、入力特徴マップ内のチャネルを使用して、畳み込みレイヤの空間的に冗長な計算を省略し、出力特徴マップを生成することができる。この出力特徴マップには、次のレイヤの計算を省略するために使用できるマスクチャネルと特徴チャネルが含まれている。
上記の手段は、概して以下のように動作する。
スプリッタ１１は、入力特徴マップＭ１を、マスクチャネルＭＣ１と特徴チャネルＭＦ１に分割する。
マスキング演算子１２は、マスクチャネルＭＣ１を使用して、特徴チャネルＭＦ１のピクセルをマスクし、マスクされた特徴チャネルを生成する。
畳み込み演算子１３は、マスクされた特徴チャネルとＲＧＭ畳み込みレイヤのカーネルとの間で畳み込み演算を実行して、出力特徴マップＭ２を生成する。

【0036】

図４を参照すると、畳み込み演算子１３は、畳み込みカーネルストレージ１４とコンボリュータ１５を含む。この実施形態の図４および他の図は、各ＲＧＭ畳み込みレイヤに対して１つだけのマスクチャネルがある場合しか示していないが、各ＲＧＭ畳み込みレイヤに対して複数のマスクチャネルがあってもよい。この手段は次のように動作する。

【0037】

畳み込みカーネルストレージ１４は、ＲＧＭ畳み込みレイヤのカーネル（畳み込みカーネル）のストレージとして動作する。カーネルには、出力特徴マップＭ２のマスクチャネルを生成するためのマスクチャネルの１または複数のカーネルと、出力特徴マップＭ２の特徴チャネルを生成するための特徴チャネルの１または複数のカーネルが含まれる。畳み込みカーネルストレージ１４は、レジスタ、Static Random-Access Memory（ＳＲＡＭ）、Dynamic Random-Access Memory（ＤＲＡＭ）などを使用するバッファとして実装されるが、使用されるのはこれらに限定されない。

【0038】

コンボリュータ１５は、マスクされた特徴チャネルにわたって、畳み込みカーネルストレージ１４内のカーネルと畳み込みを実行する。マスクされたピクセルは畳み込み計算から省略できるため、計算回数を減らすことができる。

【0039】

（動作の説明）
次に、図５のフローチャートを参照して、本実施形態の概略的な動作を説明する。

【0040】

まず、スプリッタ１１は、図６に示すように、入力特徴マップＭ１を取得し（図５のステップＳ１）、入力特徴マップＭ１をマスクチャネルＭＣ１と特徴チャネルＭＦ１に分割する（図５のステップＳ２）。そして、スプリッタ１１はこれらのチャネルをマスキング演算子１２に送信する。

【0041】

次に、マスキング演算子１２は、マスクチャネルＭＣ１の値に従って、特徴チャネルＭＦ１の値に対してマスキング動作を行う（図５のステップＳ３）。たとえば、マスクチャネルＭＣ１のピクセルの値がしきい値未満の場合、マスクチャネルＭＣ１のピクセルの位置と同じ位置にある特徴チャネルＭＦ１のピクセルの値は冗長と見なされ、抑制される（例えば、値を０にする、など。）。別の例では、マスクチャネルの１つのピクセルは、特徴チャネルの領域（その特徴チャネル内の複数のピクセル）をマスクするために用いられることができる。図７は、マスキング動作を示す。図７のマスクチャネルＭＣ１のハッチング領域はマスク領域であり、計算を省略できる特徴チャネルのピクセルの位置に対応しているが、図７のマスクチャネルＭＦ１の非ハッチング領域は非マスク領域である。このマスクは特徴チャネルＭＦ１に適用され、このステップの出力はマスクされた特徴チャネルになる。マスクされた特徴チャネルのマスク領域は冗長であってマスクされ、それらのピクセルに関連する計算は省略される。たとえば、それらのピクセルは背景領域である。非マスク領域は、計算が意味のあるものと見なされるピクセルを示し、これらのピクセルの値は特徴チャネルの値と同じである。複数のマスクチャネルＭＣ１がある場合、マスキング演算子１２は、'AND'、'OR'、'SUM'演算をこれらのマスクチャネルＭＣ１と併せて使用するが、マスクチャネルＭＣ１と併せて使用されるのはこれに限定されない。

【0042】

最後に、畳み込み演算子１３は、図８に示すように、マスクされた特徴チャネルと畳み込み演算子１３内の畳み込みカーネル（フィルタまたは重みとしても知られる）との間で畳み込み演算を実行する（図５のステップＳ４）。畳み込みカーネルは、マスクチャネルのカーネルと特徴チャネルのカーネルを含む。このステップでは、出力特徴マップＭ２が生成される。マスクされた特徴チャネルとマスクチャネルのカーネル間の畳み込みによって、出力特徴マップＭ２のマスクチャネルＭＣ２が生成される。出力特徴マップＭ２のマスクチャネルＭＣ２は、このプロセスで計算された新しいマスク領域を有する。出力特徴マップＭ２のこの新しいマスク領域は、図８に示される。さらに、出力特徴マップＭ２のマスクチャネルＭＣ２は、入力特徴マップＭ１のマスクチャネルＭＣ１のものよりも小さい、新しい非マスク領域を有する。この新しい非マスク領域も、図８に示される。さらに、畳み込み演算子１３は、マスクされた特徴チャネルと特徴チャネルのカーネルとの間の畳み込み演算によって、出力特徴マップＭ２の特徴チャネルＭＦ２を生成する。

【0043】

マスクされた特徴チャネルと特徴チャネルのカーネル間の畳み込みにより、出力特徴マップＭ２の特徴チャネルが生成される。マスクされた入力特徴マップのマスク領域に関連する畳み込みは、出力特徴マップＭ２のマスクチャネルと出力特徴マップＭ２の特徴チャネルの両方に対して省略されるため、その領域に対応する出力特徴マップＭ２は、値「０」、または、マスクチャネルＭＣ１内のマスク領域の領域と同じ領域内にある入力特徴マップＭ１の値で埋められるが、埋められる値は、これに限定されない。出力特徴マップＭ２のこの埋められた領域は、図８でマスク領域として示されている。複数のマスクチャネルＭＣ１がある場合、各マスクチャネルは、マスクチャネルのそれぞれのカーネルによって生成される。

【0044】

（効果の説明）
次に、本実施形態の効果について説明する。前述のように、マスキング演算子１２は、入力特徴マップＭ１のマスクチャネルＭＣ１を使用して、入力特徴マップＭ１の特徴チャネルＭＦ１のピクセルをマスクし、畳み込み演算に使用されるマスクされた特徴チャネルを生成する。したがって、マスクされた特徴チャネルの冗長領域はマスクされるため、それらのピクセルに関する計算は省略される。これはＣＮＮにおける冗長な計算を減らすのに役立つ。

【0045】

前述のように、非特許文献１で開示された方法には２つの問題がある。（１）停止スコアは、余分な行列乗算またはＣＮＮ内の畳み込みレイヤで計算されるものであり、計算集約的で、関数呼び出しのオーバーヘッドを消費する。（２）複雑な詳細を有する背景領域は省略できない。しかしながら、本実施形態は、ＲＧＭ畳み込みレイヤ１０が入力特徴マップＭ１を使用することで冗長な演算を省略し、畳み込みカーネルがマスクチャネルＭＣ１に対するマスクチャネルのカーネルを含むように構成されている。したがって、関数呼び出しのオーバーヘッドが発生する余分な行列乗算や畳み込みレイヤ無しで、畳み込みのＭＡＣ演算を省略することが可能である。また、削減する計算を決定するためのオーバーヘッドも小さくなる。ＲＧＭ畳み込みレイヤは、ＶＧＧ、ＲｅｓＮｅｔなどのすべてのＣＮＮに適用できる。これにより計算数を減らすことができるが、結果のピクセルレベルをなおも細粒度または中粒度にすることができる。さらに、本開示は、入力特徴マップ内での決定を伴うレイヤのＭＡＣ演算を省略し、次のレイヤの決定は、レイヤ内で計算される。

【0046】

さらに、計算を省略する決定は、分離したレイヤではなく、ＲＧＭ畳み込みレイヤ内で計算される。そのため、上記の演算により、計算オーバーヘッドの数または規模を下げることができる。

【0047】

また、この実施形態では、各画像（フレーム）を解析し、各画像（フレーム）に対して個別に決定を生成するように構成されているため、動的な背景を省略することができる。

【0048】

（実施の形態３）
次に、本開示の実施の形態３は、Region-Masked CNN（ＲＧＭ－ＣＮＮ）と呼ばれるＣＮＮにおける１または複数のＲＧＭ畳み込みレイヤの使用法を示す。このＲＧＭ－ＣＮＮは、図１３の手段によって処理されるＣＮＮの代わりに使用される。添付図面を参照することにより、これが説明される。

【0049】

（構成の説明）
図９Ａ及び９Ｂを参照すると、ＲＧＭ－ＣＮＮは、１または複数のＲＧＭ畳み込みレイヤを含む。各ＲＧＭ畳み込みレイヤは、その入力データを処理する処理レイヤとして機能する。入力画像ＩＭは、シングルまたはマルチチャネルの画像データである。人間Ｈ１と円柱Ｃ１という２つのオブジェクトがこの画像内にあると仮定すると、順伝播によって、オブジェクトの位置とクラスだけでなく、背景などといった、省略可能な冗長な計算も解析される。

【0050】

入力画像ＩＭはマスクチャネルを有さないため、第１のＲＧＭ畳み込みレイヤ２１（前の処理レイヤ；生成レイヤ）は、入力画像ＩＭから、１つの特徴マップＭ１がマスクチャネルＭＣ１、その他が特徴チャネルＭＦ１２～ＭＦ１ｍである、１または複数の特徴マップＭ１を生成する。特徴マップＭ１は、実施の形態２における入力特徴マップＭ１に対応する。マスクチャネルＭＣ１はマスク領域と非マスク領域を有し、それぞれ図９Ａにハッチング領域と非ハッチング領域として示されている。

【0051】

第２のＲＧＭ畳み込みレイヤ２２は、冗長ピクセルの位置を示すマスクチャネルＭＣ１を使用して、特徴チャネルＭＦ１２からＭＦ１ｍの計算を省略する。第２のＲＧＭ畳み込みレイヤ２２は、実施の形態２におけるＲＧＭ畳み込みレイヤ１０に対応する。

【0052】

図９Ａは、マスクチャネルが特徴チャネルに与える影響を示しており、マスク領域は計算が省略されるピクセルを示している。次に、第２のＲＧＭ畳み込みレイヤ２２は、マスクされた特徴チャネルＭＦ１２～ＭＦ１ｍから、特徴マップの１つがマスクチャネルＭＣ２で、その他が特徴チャネルＭＦ２２～ＭＦ２ｎである、１または複数の特徴マップＭ２を生成する。マスクチャネルＭＣ２は、新しい非マスク領域Ｈ２、Ｃ２および新しいマスク領域を有し、これらは、それぞれ図９Ａの非ハッチング領域およびハッチング領域として示されている。新しい非マスク領域Ｈ２、Ｃ２は、それぞれ、入力画像ＩＭの人間Ｈ１と円柱Ｃ１の領域に対応し、これらの新しい非マスク領域Ｈ２、Ｃ２は、マスクチャネルＭＣ１の非マスク領域よりも小さい。マスクチャネルＭＣ２は冗長ピクセルの位置を示し、特徴チャネルＭＦ２２からＭＦ２ｎの計算を省略する。

【0053】

次のＲＧＭ畳み込みレイヤは、ＲＧＭ－ＣＮＮを通して、第２のＲＧＭ畳み込みレイヤ２２と同様の方法で動作する。最後に、最後の（第ｍの）ＲＧＭ畳み込みレイヤ２３（次の処理レイヤ）は、マスクされた特徴マップＭ３から特徴チャネルのみで構成される１または複数の特徴マップＦＭを生成する。特徴マップＦＭは、入力画像ＩＭの予測または予測自体を生成するための、他の後続のレイヤへの入力特徴マップと解釈することができる。

【0054】

さらに、図９Ａおよび９Ｂに示される構成は、以下のように変更できる。ＲＧＭ－ＣＮＮは、畳み込みレイヤ、プーリングレイヤ、バッチ正規化レイヤ、非線形活性化レイヤ、完全接続レイヤなど、上記以外のレイヤを含んでもよい。入力画像は、ユーザの定義または背景の減算など、上記以外の方法による前処理手段で生成されたマスクチャネルを含んでもよい。

【0055】

（動作の説明）
次に、図１０のフローチャートを参照して、本実施形態の概略動作を詳述する。
最初に、ＲＧＭ－ＣＮＮの順伝播は、ＲＧＭ－ＣＮＮの入力レイヤに画像を供給することによって開始される（図１０のステップＳ１１）。そして、順伝播処理は、次のレイヤに進む（図１０のステップＳ１２）。処理は各レイヤの種類に依存しており（図１０のステップＳ１３）、レイヤごとに処理が進む。レイヤがＲＧＭ畳み込みレイヤであれば、実施の形態２に従ってレイヤの順伝播が進む。レイヤが畳み込みレイヤ、バッチ正規化レイヤなどの別の種類のレイヤである場合、順伝播はレイヤの種類に応じて進行する。最後に、図１０のステップＳ１２～Ｓ１４を、ＲＧＭ－ＣＮＮ処理の最後のレイヤまで繰り返す（図１０のステップＳ１４）。

【0056】

さらに、図１０のフローチャートのこれらの前述のステップは、パイプライン方式で処理することができる。

【0057】

（効果の説明）
前述のように、ＲＧＭ畳み込みレイヤは、入力特徴マップ内のチャネルを使用して、畳み込みレイヤの空間的に冗長な計算を省略し、次のレイヤと特徴チャネルの計算を省略するために使用できるマスクチャネルを含む出力特徴マップを生成する。

【0058】

（実施の形態４）
特徴マップのマスクチャネルを使用した計算を効果的に省略するには、マスクチャネルのカーネルを適切にトレーニングし、特徴マップの特徴チャネルの冗長または意味のある領域を学習する必要がある。実施の形態４では、ＲＧＭ－ＣＮＮをトレーニングするシステムの例を説明する。

【0059】

（構成の説明）
図１１を参照して、本開示の実施の形態４を以下に説明する。ＲＧＭ－ＣＮＮトレーニングシステム３０は、ＲＧＭ－ＣＮＮプロパゲータ３１、タスク損失計算器３２、マスク生成器３３、マスク損失計算器３４、及び総損失計算器３５を含む。ＲＧＭ－ＣＮＮプロパゲータ３１は、実施の形態３で開示したＲＧＭ－ＣＮＮを含み、トレーニング方向計算手段および重み更新手段として機能する。ＲＧＭ－ＣＮＮトレーニングシステム３０は、汎用プロセッサシステム、又はGraphic Processing Unit（ＧＰＵ）、Application-Specific Integrated Circuit（ＡＳＩＣ）及びApplication-Specific Instruction set Processor（ＡＳＩＰ）のような特定の回路、およびField Programmable Gate Array（ＦＰＧＡ）のような再構成可能デバイスを使用して実装できるが、使用するものはこれに限定されない。

【0060】

ＲＧＭ－ＣＮＮトレーニングシステム３０は、ＲＧＭ－ＣＮＮ内のレイヤのパラメータをトレーニングする。ＲＧＭ－ＣＮＮ内のＲＧＭ畳み込みレイヤに対して、このシステムは、マスクのカーネルと特徴チャネルをトレーニングする。入力ＤＡは、１または複数の画像とgroundtruthを含むデータセットである。groundtruthは、各画像の正確な予測データを意味する。これは、BBox、および／または画像内の各オブジェクトのクラス、各オブジェクトのピクセル単位のクラスなどであり得る。出力ＭＯは、レイヤのシーケンスとＲＧＭ－ＣＮＮのパラメータの値（カーネルなど）を含むＲＧＭ－ＣＮＮモデルである。

【0061】

ＲＧＭ－ＣＮＮトレーニングシステム３０は、マスクのカーネルとＲＧＭ畳み込みレイヤの特徴チャネルをトレーニングできるため、マスクチャネルを使用して特徴マップの冗長領域を省略できる。

【0062】

図１１に示された構成は、情報処理装置またはシステムに搭載されたソフトウェアやハードウェアで行うことができる。データセットＤＡおよびＲＧＭ－ＣＮＮモデルＭＯは、情報処理装置またはシステム内の一時的または固定の記憶装置に格納することができる。しかしながら、データセットＤＡを情報処理装置またはシステムの外部に代わりに配置し、情報処理装置またはシステムは、ＲＧＭ－ＣＮＮモデルＭＯを他の情報処理装置またはシステムに送信することもできる。ＲＧＭ－ＣＮＮトレーニングシステム３０は、ソフトウェアとハードウェアの協同によって構成することができる。

【0063】

上記の手段は、概略、以下のように動作する。
ＲＧＭ－ＣＮＮプロパゲータ３１は、順伝播、トレーニング方向の計算、および重みの更新を実行する。
タスク損失計算器３２は、予測とgroundtruthからタスク損失を計算する。
マスク生成器３３は、groundtruth BBoxからgroundtruthマスクを生成する。
マスク損失計算器３４は、生成されたgroundtruthマスクと、順伝播からの特徴マップのマスクチャネルからマスク損失を計算する。
総損失計算器３５は、タスク損失とトレーニング方向の計算に使用されるマスク損失からＲＧＭ－ＣＮＮの総損失を計算する。

【0064】

（動作の説明）
次に、図１２のフローチャートを参照して、本実施形態の一般的な動作を説明する。

【0065】

まず、ＲＧＭ－ＣＮＮプロパゲータ３１は、データセットＤＡからデータのバッチ（１または複数の画像/フレーム）を取得し（図１２のステップＳ２１）、その画像データをＲＧＭ－ＣＮＮの入力として用いて、順伝播を行う（図１２のステップＳ２２）。順伝播は、実施の形態３で説明したように進められ、タスク損失計算器３２に予測を出力する。例えば、オブジェクト検出タスクの予測には、入力画像内のオブジェクトのBBoxとクラスが含まれる。典型的な順伝播の結果である予測に加えて、ＲＧＭ－ＣＮＮの順伝播プロセスはまた、中間ＲＧＭ畳み込みレイヤの特徴マップのマスクチャネルをマスク損失計算器３４にもたらす。特徴マップは、実施の形態１または２における出力特徴マップに対応する。

【0066】

次に、マスク生成器３３は、データセットＤＡからgroundtruth BBoxデータを取得し、画像のgroundtruthマスクを１または複数生成する（図１２のステップＳ２３）。各groundtruthマスクのサイズは、ＲＧＭ畳み込みレイヤの特徴マップのサイズに対応している。groundtruth BBoxはマスクのサイズに合わせてスケーリングされ、入力画像の変換に合わせてフリップされる。groundtruth BBox内のgroundtruthマスクのピクセルは、計算に意味があると見なされるため、「計算」を示す値、たとえば値１でマークされる。逆に、groundtruth BBoxの外側のgroundtruthマスクのピクセルは、計算には冗長と見なされるため、「省略」を示す値、たとえば値０でマークされる。このステップにより、マスク損失計算器３４にgroundtruthマスクがもたらされる。

【0067】

また、ステップＳ２２とＳ２３の手順を同時に行うことができる。さらに、ＲＧＭ－ＣＮＮプロパゲータ３１が順伝播を行う前に（ステップＳ２２）、マスク生成器３３は、データセットＤＡからgroundtruth BBoxデータを取得し、groundtruthマスクを生成してもよい（ステップＳ２３）。

【0068】

そして、タスク損失計算器３２は、タスク損失を計算する（図１２のステップＳ２４）。たとえば、オブジェクト検出のタスク損失は、groundtruth BBox/Classesと予測のBBox/Classesから計算される典型的な損失である。オブジェクト検出損失の例としては、focal loss、ssd lossなどがあり、focal lossは、"Focal Loss for Dense Object Detection"、 Lin et al., CCV 2017, 2017に示されている。ssd lossは、"SSD: Single Shot MultiBox Detector", Liu et al., ECCV 2016に示されている。

【0069】

ＲＧＭ畳み込みレイヤに対して、マスク損失計算器３４は、順伝播中にＲＧＭ－ＣＮＮから生成される特徴マップのマスクチャネルをgroundtruthマスクと比較することによって、マスク損失を計算する（図１２のステップＳ２５）。たとえば、マスク損失関数は、平均二乗誤差関数などの要素ごとの値の比較でもよいが、これに限定されない。

【0070】

また、ステップＳ２４とＳ２５の手順を同時に行うことができる。さらに、タスク損失計算器３２がタスク損失を計算する前に（ステップＳ２４）、マスク損失計算器３４がマスク損失を計算してもよい（ステップＳ２５）。

【0071】

さらに、総損失計算器３５は、タスク損失とマスク損失から総損失を計算する（図１２のステップＳ２６）。たとえば、次の式で示される係数を使用して、タスク損失とマスク損失の合計から総損失が計算できる。
L=αL_T+βL_M
L、L_T、L_Mは、それぞれ総損失、タスク損失およびマスク損失である。αとβは、図１２のステップＳ２７で総損失を最適化するために各損失の重みを指定する係数値である。

【0072】

最後に、ＲＧＭ－ＣＮＮプロパゲータ３１はトレーニング方向（勾配）を計算する（図１２のステップＳ２７）。トレーニング方向の計算は、トレーニングアルゴリズムによって決まる。たとえば、トレーニングアルゴリズムが勾配降下ファミリー（gradient descent family）の場合、トレーニング方向の計算では、総損失からの逆伝播（勾配計算）が実行される。トレーニングアルゴリズムは、ニュートン法、共役勾配法などでもよい。図１２のステップＳ２８において、ＲＧＭ－ＣＮＮプロパゲータ３１は、トレーニング方向に応じて重み更新を行う。トレーニングが終了すると（図１２のステップＳ２９）、ＲＧＭ－ＣＮＮプロパゲータ３１はＲＧＭ－ＣＮＮモデルＭＯを出力として与える。それ以外の場合は、図１２のステップＳ２１からトレーニングが継続される。

【0073】

（効果の説明）
次に、本実施形態の効果について説明する。
本実施形態は、システム３０がオブジェクトのgroundtruth BBoxを使用してマスクチャネルのカーネルをトレーニングするように構成されているため、複雑な詳細を有する背景の計算を省略することができる。

【0074】

本開示は、ＲＧＭ畳み込みレイヤをトレーニングし、groundtruth BBoxのオブジェクトの位置を使用して、省略するピクセルを決定する。推論処理の間、ＲＧＭ畳み込みレイヤは、前述のオブジェクトベースのトレーニングに従って、ピクセルを統計的に省略する。つまり、計算を省略する決定のためのトレーニングは、groundtruth BBoxのオブジェクトの位置に基づく。

【0075】

次に、上記の複数の実施形態で説明した情報処理装置の構成例を、図１６を参照して以下に説明する。

【0076】

図１６は、情報処理装置の構成例を示すブロック図である。情報処理装置９１は、図１６に示すように、プロセッサ９２とメモリ９３を備えている。

【0077】

プロセッサ９２は、上記の実施形態のシーケンス図やフローチャートを参照して説明した情報処理装置９１により実行される処理を、メモリ９３からソフトウェア（コンピュータプログラム）をロードして実行することにより実行する。プロセッサ９２は、例えば、マイクロプロセッサ、ＭＰＵ（Micro Processing Unit）またはＣＰＵ（Central Processing Unit）であってもよい。プロセッサ９２は、複数のプロセッサを含んでもよい。

【0078】

メモリ９３は、揮発性メモリと不揮発性メモリの組み合わせによって形成される。メモリ９３は、プロセッサ９２から離れて配置されたストレージを含んでもよい。この場合、プロセッサ９２は、Ｉ／Ｏインターフェイス（不図示）を介してメモリ９３にアクセスしてもよい。

【0079】

図１６に示した例では、メモリ９３は、ソフトウェアモジュールのグループを格納するために使用される。プロセッサ９２は、メモリ９３からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明した情報処理装置によって行われる処理を行うことができる。

【0080】

図１６を参照して以上で説明したように、上記の実施形態の情報処理装置に含まれる各プロセッサは、命令群を含む１または複数のプログラムを実行して、図面を参照して上述されたアルゴリズムをコンピュータに実行させる。

【0081】

また、情報処理装置９１は、ネットワークインタフェースを有してもよい。ネットワークインタフェースは、通信システムを構成する他のネットワークノード装置との通信に使用される。ネットワークインタフェースは、例えば、ＩＥＥＥ８０２．３シリーズに準拠したネットワークインタフェースカード（ＮＩＣ）を含んでもよい。情報処理装置９１は、ネットワークインタフェースを用いて、入力特徴マップを受信してもよいし、出力特徴マップを送信してもよい。

【0082】

上記の例では、任意の種類の非一時的なコンピュータ可読媒体を使用することで、プログラムが格納され、コンピュータに提供されることができる。非一時的なコンピュータ可読媒体には、任意の種類の有形記憶媒体が含まれる。非一時的なコンピュータ可読媒体の例には、磁気記憶媒体（フロッピーディスク、磁気テープ、ハードディスクドライブなどといったもの）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（compact disc read only memory）、ＣＤ－Ｒ（compact disc recordable）、ＣＤ－Ｒ／Ｗ（compact disc rewritable）、及び半導体メモリ（マスクＲＯＭ、ＰＲＯＭ（programmable ROM）、ＥＰＲＯＭ（erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory）などといったもの）が含まれる。プログラムは、任意の種類の一時的なコンピュータ可読媒体を使用してコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号及び電磁波を含む。一時的なコンピュータ可読媒体は、有線通信回線（例えば電線、光ファイバー）または無線通信回線を介してコンピュータにプログラムを提供することができる。

【0083】

なお、本開示は、上記の実施形態に限定されるものではなく、本開示の趣旨及び範囲を逸脱することなしに適宜変更することができる。

【符号の説明】

【0084】

１情報処理装置
２マスキング演算子
３畳み込み演算子
１０ Region-Masked（ＲＧＭ）畳み込みレイヤ
１１スプリッタ
１２マスキング演算子
１３畳み込み演算子
１４畳み込みカーネルストレージ
１５コンボリュータ
２１第１のＲＧＭ畳み込みレイヤ
２２第２のＲＧＭ畳み込みレイヤ
２３第ｍのＲＧＭ畳み込みレイヤ
３０ＲＧＭ－ＣＮＮトレーニングシステム
３１ＲＧＭ－ＣＮＮプロパゲータ
３２タスク損失計算器
３３マスク生成器
３４マスク損失計算器
３５総損失計算器
９１情報処理装置
９２プロセッサ
９３メモリ

【図1】