特許6998968 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック　インテレクチュアル　プロパティ　コーポレーション　オブ　アメリカの特許一覧

特許6998968ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2021-12-23

(45)【発行日】2022-01-18

(54)【発明の名称】ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム

(51)【国際特許分類】

G06N 3/08 20060101AFI20220111BHJP

【ＦＩ】

G06N3/08

G06N3/08 140

【請求項の数】 7

(21)【出願番号】P 2019549546

(86)(22)【出願日】2018-08-30

(65)【公表番号】

(43)【公表日】2020-11-12

(86)【国際出願番号】 US2018048867

(87)【国際公開番号】W WO2019050771

(87)【国際公開日】2019-03-14

【審査請求日】2021-03-10

(31)【優先権主張番号】62/554,224

(32)【優先日】2017-09-05

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】514136668

【氏名又は名称】パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ

【氏名又は名称原語表記】ＰａｎａｓｏｎｉｃＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙＣｏｒｐｏｒａｔｉｏｎｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】グドフスキーデニスエー

(72)【発明者】

【氏名】リザジオ・ルカ

【審査官】北川純次

(56)【参考文献】

【文献】特開平０８－１５３０８１（ＪＰ，Ａ）

【文献】特開２０１３－０２０６３８（ＪＰ，Ａ）

【文献】特開平０２－２３８７２１（ＪＰ，Ａ）

【文献】特開２０１５－５２８３２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／０８

(57)【特許請求の範囲】

【請求項1】

ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、
前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、
前記圧縮特徴マップをメモリに書き込み、
前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、
再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する
ディープニューラルネットワーク実行方法。

【請求項2】

前記非線形次元削減レイヤは、１又は連続する複数の投影畳み込みレイヤであり、
前記再構築レイヤは、１又は連続する複数の再構築畳み込みレイヤである
請求項１に記載のディープニューラルネットワーク実行方法。

【請求項3】

請求項１又は２に記載の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習方法であって、
前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、
生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、
恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する
ディープニューラルネットワーク学習方法。

【請求項4】

ディープニューラルネットワークによる推論を実行する、プロセッサを備える装置であって、
前記プロセッサは、
浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、
前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、
前記圧縮特徴マップをメモリに書き込み、
前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、
再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する
ディープニューラルネットワーク実行装置。

【請求項5】

請求項１又は２に記載の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習を実行する、プロセッサを備える装置であって、
前記プロセッサは、
前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、
生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、
恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する
ディープニューラルネットワーク学習装置。

【請求項6】

請求項１に記載のディープニューラルネットワーク実行方法をコンピュータに実行させるためのプログラム。

【請求項7】

請求項３に記載のディープニューラルネットワーク学習方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はディープニューラルネットワークの実行方法等に関する。

【背景技術】

【0002】

画像分類、物体検出などを含むコンピュータビジョンの応用分野では、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、以下ではＤＮＮと表記する）が、優れた成績を挙げて魅力的な選択とされつつある。しかしながら、ＤＮＮに必要なメモリ使用量及び計算量の大きさは、低消費電力が望まれる実行環境では過剰な負荷となり得る。

【0003】

このような処理負荷を抑える試みとして提案又は示唆されている手法には、中間特徴マップをメモリに書き出さずに複数のレイヤを融合的に計算をするレイヤフュージョン、量子化した特徴マップの値の非線形次元削減レイヤでの圧縮が挙げられる（非特許文献１及び２参照）。

【先行技術文献】

【非特許文献】

【0004】

【文献】M. Alwani, H. Chen, M. Ferdman, and P. A. Milder; Fused-layer CNN accelerators; MICRO; pages 1-12; October 2016

【文献】F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer; Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5MB model size; arXiv preprint arXiv:1602.07360, 2016

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記の手法で得られるＤＮＮの処理負荷の抑制の程度は小さく、精度の低下も懸念される。また、処理速度の改善が十分とはいえない。

【0006】

本開示は、精度の低下を抑えながら、低負荷かつ高速な処理が可能な実行方法、実行装置等を提供する。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本開示の一形態に係るＤＮＮの実行方法は、ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、前記圧縮特徴マップをメモリに書き込み、前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する。

【0008】

なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、方法、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

【発明の効果】

【0009】

本開示のＤＮＮの実行方法等によれば、精度の低下を抑えながら、低負荷かつ高速な処理が可能である。

【図面の簡単な説明】

【0010】

【図1】図１は、実施の形態に係る推論時のＤＮＮの実行方法を説明するためのモデル図である。

【図2】図２は、上記の推論時におけるフォワードパスのモデル図である。

【図3】図３は、上記の実行方法に対応するバックプロパゲーションにおけるバックワードパスのモデル図である。

【図4】図４は、実施例１における、SqueezeNetに上記の実行方法を適用して行ったImageNetでの推論精度の評価結果を示す図である。

【図5】図５は、実施例１における、MobileNetV2に上記の実行方法を適用して行ったImageNetでの推論精度の評価結果を示す図である。

【図6】図６は、実施例２における、SSD512に上記の実行方法を適用して行ったVOC2007での推論精度の評価結果を示す図である。

【図7】図７は、実施例２におけるSSD512でのメモリ使用量を示す図である。

【図8】図８は、上記の方法を実行する情報処理装置のハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0011】

本開示の一形態に係るＤＮＮの実行方法では、ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、前記圧縮特徴マップをメモリに書き込み、前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する。

【0012】

これにより、従来に比べて、少ないメモリ使用量でＤＮＮを実行することができ、メモリバンド幅が削減されるため処理が高速化される。

【0013】

ここで、例えば前記非線形次元削減レイヤは、１又は連続する複数の投影畳み込みレイヤであり、前記再構築レイヤは、１又は連続する複数の再構築畳み込みレイヤであってもよい。

【0014】

また、上記の実行方法を用いて実行されたＤＮＮのバックプロパゲーションによる学習方法では、前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する。

【0015】

推論においてバイナリ表現化の処理が加わったことに対応して、学習でもバイナリレベルの処理を含めることが可能になる。したがって、従来に比べて少ないメモリ使用量の実行及び処理が高速化される。

【0016】

【0017】

以下、実施の形態について、図面を参照しながら具体的に説明する。

【0018】

なお、以下で説明する実施の形態は、包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは一例であり、本開示に係る発明を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については任意の構成要素として説明される。

【0019】

（実施の形態）
［ＤＮＮ］
まず、一般的なＤＮＮについて説明する。

【0020】

ＤＮＮで一般に用いられる第ｌ畳み込み層に入力される特徴マップＸ^ｌ－１は、入力チャンネルの個数を

【数1】

、高さをＨ、幅をＷとして、（式１）のように表すことができる。

【数2】

は実数全体を示す。

【0021】

【数3】

【0022】

入力されたＸ^ｌ－１は、出力チャンネルの個数をＣ、フィルタのカーネルの高さ及び幅をそれぞれＨ_ｆ、Ｗ_ｆとして、（式２）で表す重みテンソルＷ^ｌで畳み込まれる。

【0023】

【数4】

【0024】

なお、（式３）で表されるバイアスベクトルｂが畳み込み演算の結果に加算される。

【0025】

【数5】

【0026】

いったんＣ個の全チャンネルの演算が実行されれば、要素ごとの非線形関数が畳み込み演算の結果に適用されている。そして、（式４）で表される出力テンソルＸ^ｌのＣ番目のチャンネルが、（式５）に示す計算式を用いて算出される。

【0027】

【数6】

【0028】

【数7】

【0029】

なお、（式５）における＊は、畳み込み演算を示す。また、ｇ（）は、何らかの非線形関数を示し、例えば全てのアクティベーションが非負となるようなｇ（ｘ）＝ｍａｘ（０，ｘ）のように定義される正規化線形関数（ＲｅＬＵ）である。

【0030】

ここまで、以下の説明で用いる図面に含まれる表記の理解のために適宜参照されたい。

【0031】

［ＤＮＮの実行方法］
次に、本実施の形態に係る、推論時のＤＮＮの実行方法を説明する。図１は、実施の形態に係るＤＮＮによる実行方法を説明するためのモデル図である。理解されやすいよう、図中の（ａ）に従来の方法を示し、対比的に（ｂ）に示す本実施の形態に係る方法を説明する。

【0032】

（ａ）及び（ｂ）に示す各モデルは、左から右に進む多段の畳み込みレイヤを含むニューラルネットワークを模式的に示す。なお、表示を簡潔にするために、いずれでもバイアスの記載は省略している。

【0033】

まず、（ａ）に示される従来の方法では、Ｎ個の連続するレイヤでの演算は、中間特徴マップＸ^{ｌ－Ｎ＋１}からＸ^ｌ－１をメモリに書き出すことなく、「融合（Ｆｕｓｉｏｎ）」的に実行して（ステップＳ１００）、特徴マップＸ^ｌを得る。この融合的な演算は、特徴マップ全体よりもはるかに小さいメモリバッファを用いてチャンネル単位で実行可能である。

【0034】

次に、特徴マップＸ^ｌは、非線形関数ｑ（）を用いて量子化される（ステップＳ１１０）。量子化前の特徴マップＸ^ｌは実数の集合

【数8】

の要素であるが、量子化後の特徴マップ

【数9】

は整数上の有限体の集合

【数10】

の要素である。ただし、この量子化のステップで、近似の不完全さのために精度が落ちることがある。量子化の後のネットワークアーキテクチャはここまでと変わることなく、準最適なビット幅分解能が得られる程度まで特徴マップが圧縮される。

【0035】

次に、追加的な畳み込みレイヤを用いて非線形次元削減が実行される（ステップＳ１２０）。ここでは、（式６）で表されるマッピングが（式７）で表される投影重みＰ^ｌを用いて実行される。

【0036】

【数11】

【0037】

【数12】

【0038】

なお、（式６）及び（式７）における

【数13】

は、出力チャンネルの次元数であり、Ｃより小さい。ここでは、メモリバッファで保持される必要があるのは、圧縮特徴マップ

【数14】

のみである（ステップＳ１３０）。

【0039】

以降、ここまでとは逆の手順を辿るように、圧縮特徴マップ

【数15】

は、重みＲ^ｌを用いてより高次元のテンソルに逆投影される（ステップＳ１４０）。最後に、逆量子化関数ｑ^－１（）を用いた逆変換（ステップＳ１５０）を実行して、実数の集合の要素である特徴マップＸ^ｌ＋１を得る。

【0040】

次に、（ｂ）に示される本実施の形態に係るＤＮＮの実行方法を説明する。この方法は、中間特徴マップをバイナリベクトルを用いて表現するための変換を含む点が従来の方法と異なる。この変換について先に説明しておく。

【0041】

まず、実数の集合の要素である特徴マップＸ^ｌから取り出されるスカラｘがあるとする。この場合、スカラ対スカラのマッピング又は非線形関数ｑ（ｘ）で表すと、従来の量子化は（式８）で表される。

【0042】

【数16】

【0043】

なお、

【数17】

は、量子化されたスカラを、

【数18】

は、固定小数点表現のための有限体ＧＦ（２^Ｂ）を、Ｂはビット数を示す。

【0044】

ここで、本実施の形態においては、（式９）のように定義される線形二値化関数ｂ（）による新たな

【数19】

の表現形式を導入する。

【0045】

【数20】

【0046】

ここで、

【数21】

は、ビット単位のＡＮＤ演算を示す。また、ベクトルｂは［２^０，２^１，．．．，２^Ｂ－１］^Ｔであり、

【数22】

は有限体ＧＦ（２）である。

【0047】

また、線形二値化関数ｂ（）の逆関数は、（式１０）のように表される。

【0048】

【数23】

【0049】

（式９）及び（式１０）は、高濃度の有限体上のスカラと、要素が２個の有限体上のベクトルとの間での相互に線形変換が可能であることを示す。

【0050】

このような展開に基づく特徴マップの圧縮を含む本実施の形態に係るＤＮＮの実行方法を、図１の（ｂ）に沿って以下に説明する。

【0051】

特徴マップＸ^ｌを得るレイヤまでは（ａ）のＳ１００までと共通であり（ステップＳ２００）、その手前までは説明及び図示を省略する。

【0052】

次のレイヤでは、アクティベーションである特徴マップＸ^ｌを量子化して特徴マップ

【数24】

を得る（ステップＳ２１０）。さらに次のレイヤでは、特徴マップ

【数25】

に（式９）の変換を適用する（ステップＳ２１５）。この変換の成果物である特徴マップ

【数26】

は、（式１１）のように表される。

【0053】

【数27】

【0054】

このようにバイナリ表現化された特徴マップ

【数28】

を、以下ではバイナリ中間特徴マップともいう。

【0055】

また、実装の便宜上、（式１１）の新たに加わったビットの次元は、チャンネルの次元に連結される結果、バイナリ中間特徴マップ

【数29】

は（式１２）のようになる。

【0056】

【数30】

【0057】

なお、ステップＳ２１０及びＳ２１５における処理を実行するレイヤで構成されるモジュールは、本実施の形態における第一変換モジュールの例である。

【0058】

このバイナリ中間特徴マップ

【数31】

に、投影重み

【数32】

の単一の非線形次元削減レイヤ又は投影重み

【数33】

の連続する複数の非線形次元削減レイヤを適用することで、バイナリ中間特徴マップ

【数34】

の、有限体ＧＦ（２）上のバイナリベクトルでの圧縮表現（以下、圧縮特徴マップ

【数35】

ともいう）が得られる（ステップＳ２２０）。

【0059】

推論処理中にメモリで保持される必要があるのは、集合

【数36】

の要素である圧縮特徴マップ

【数37】

のみとなる（ステップＳ２３０）。非圧縮特徴マップは、例えば連続的なチャンネル単位等の小さいバッファでの処理が可能なためメモリでの保持は不要である。

【0060】

その後、畳み込みレイヤ

【数38】

による処理の次のレイヤで、上述の圧縮が元に戻されたバイナリ中間特徴マップが再構築される（ステップＳ２４０）。再構築されたバイナリ中間特徴マップは、さらに次のレイヤに入力されると、逆関数ｂ^－１（）である（式１０）によってバイナリ表現化が解除されて（ステップＳ２４５）整数の要素の集合の要素である中間特徴マップに変換され、さらに逆量子化関数ｑ^－１（）が適用されて実数の集合の要素である特徴マップに変換される（ステップＳ２５０）。

【0061】

なお、ステップＳ２４５及びＳ２５０における処理を実行するレイヤで構成されるモジュールは、本実施の形態における第二変換モジュールの例である。

【0062】

以上が本実施の形態に係るＤＮＮの実行方法である。この方法でのメモリ使用量、精度等に関する性能評価は、後述の実施例で従来の方法と比較しながら紹介する。

【0063】

［ＤＮＮの学習方法］
次に、上記の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習方法について説明する。図２は、上記の実行方法での推論時におけるフォワードパスのモデル図である。また、図３は、上記の実行方法に対応するバックプロパゲーションにおけるバックワードパスのモデル図である。図２の推論パスは（式９）に、図３の推論パスは（式１０）に対応する。

【0064】

本実施の形態に係るＤＮＮの実行方法で新たに導入された関数ｂ^－１（）は、ＲｅＬＵと類似の硬判定をするゲートとして表すことができる。関数ｂ^－１（）の勾配は、（式１３）を用いて求めることができる。

【0065】

【数39】

【0066】

最終的に、関数ｂ（）の勾配は、（式１４）を用いて算出した勾配ベクトルのスケーリング合計である。

【0067】

【数40】

【0068】

なお、（式１４）における

【数41】

は、

【数42】

の中の非ゼロ要素の個数を示す勾配スケーリング係数である。実用上は、スケーリング係数は統計的情報に基づいて一回のみ算出し、勾配の正規化のための静的なハイパーパラメータとして用いられる。

【0069】

本実施の形態に係るニューラルネットワークの目的は、学習を行って最小の

【数43】

のみを保持するところにあるため、Ｐ^ｌ及びＲ^ｌの初期値の選択は重要である。これらの重みテンソルを、非圧縮特徴マップの圧縮特徴マップへのマッピング、及びその逆も行う恒等関数を用いて初期化することで、学習に適した開始点を得ることができる。また、何らかの分布から抽出したノイズを用いた初期化も可能である。

【実施例1】

【0070】

[概要]
実施の形態で述べたバイナリ表現化を行うレイヤ及び量子化を行うレイヤを、ベースとなる浮動小数点ネットワークアーキテクチャとしてSqueezeNet V1.1及びMobilenet V2を用いて実行した。

【0071】

［SqueezeNet V1.1の場合］
本実施例では、「squeeze」レイヤの中で空間次元の最も高い方から選択した「fire2/squeeze」レイヤ及び「fire3/squeeze」レイヤを圧縮した。ネットワークへの入力の解像度は２２７×２２７であり、重みはすべて浮動小数点数であった。

【0072】

量子化及び圧縮済みのモデルに対し、ImageNet(ILSVRC2012)の訓練データセットでの１０２４のサイズを単位とするミニバッチ学習を１０万回のイテレーション、さらに２万回のイテレーションごとに、１ｅ^－３／１０から始まる段階的な学習率で確率的勾配降下法のソルバーによる再学習を実行した。このような大型のミニバッチが当初のモデルによって使用されたが、量子化及び圧縮済みのモデルが勾配を予測するのにも役立った。圧縮モデルは８ビットの量子化済みモデルから繰り返し導出して再学習した。図４は、ImageNetの評価データセットからの５万件の画像に対する推論精度の評価結果を示す。各欄のうち、最も左はモデルの型（fp32：単精度浮動小数点数、uint8：符号なし８ビット整数、等）を示し、右へ順に、重みのデータサイズ、アクティベーションである特徴マップのデータサイズ、最高スコアの回答（top-1）の正答率、上位５位までのスコアの回答(top-5)の正答率を示す表である。正答率でカッコの外の数字は再学習あり、カッコ内の数字は再学習なしでの結果を示す。

【0073】

この評価結果によれば、畳み込みにサイズが１×１のカーネルを用いたバイナリ表現化ありの場合では、バイナリ表現化をしない場合と比較して重みは微増したものの、同じ型のモデルでも精度が向上した（top-1、６ビットで１．０％、４ビットで２．４％）。また、畳み込みに３×３のカーネルをストライド２で用いた場合では、６ビットの型で重みのサイズが約４７％の増加を示した。これにより、特徴マップの空間次元が、局所的な空間的量子化の冗長性を利用して削減された。そしてアクティベーションとしての特徴マップのサイズはバイナリ表現化をしない場合と比較して４分の１に減少し、その一方で正答率は、fp32の場合との比較でtop-1の８ビットで４．３％、６ビットで４．６％落ちた。

【0074】

［MobileNetV2の場合］
「conv2_1/linear」特徴マップを圧縮した。この特徴マップは他の特徴マップより３倍以上サイズが大きいものであった。訓練に関するハイパーパラメータは上記のSqueezeNetの場合のものと共通である。イテレーション数は５万回で、学習率は比例変化させた。また、「conv2_1/linear」の後にＲｅＬＵレイヤを追加して圧縮方法の現状の実装に適合させた。これにより、「conv2_1/linear」特徴マップは、当初は符号付き整数を含み、変更後には符号なし整数を含む。なお、バッチ正規化層によって訓練処理が不安定になることがあったため、正規化パラメータ及びスケーリングパラメータは固定して畳み込み層の重み及びバイアスにマージした。このようにして変更されたモデルに対し、当初のものから再学習を行った。図５は、MobileNetV2を用いたImageNetでの推論精度の評価結果の表である。各欄の項目の内容は図４の表とほぼ共通である。ただし、「量子化あり、バイナリ表現化なし」で用いたモデルの型は、上述の符号付き整数を含むもの（int9：符号付き９ビット整数等）である。

【0075】

ＲｅＬＵが追加されていない量子化ありの場合では、再学習後のtop-1の正答率で、fp32と比較して、９ビット及び７ビットでそれぞれ０．３％上昇し、５ビットで０．３％低下した。なお、MobileNetV2での量子化ありの場合には、９ビットと５ビットでの正答率の差が０．６ポイントと、ビット幅を下げても精度の悪化がわずかであった。一方、ＲｅＬＵを追加した量子化ありの場合では、この表に示されるケースで最も高い精度を示した。

【0076】

畳み込みにサイズ１×１のカーネルを用いたバイナリ表現化ありの場合では、バイナリ表現化なしの従来の方法とほぼ同等の成績を得た。また、畳み込みに２×２のカーネルをストライド２で用いた場合では、特徴マップはさらにその半分のサイズに圧縮され、正答率は約４．５％の低下、重みのサイズは約５％の増加を示した。

【0077】

なお、表には含まれないが、物体検知について、畳み込みに２×２のカーネルをストライド２で用いた場合と、３×３のカーネルをストライド２で用いた場合とで比較した結果、前者の方が精度及びデータサイズの点で良好な成績を挙げた。

【実施例2】

【0078】

［概要］
本実施例では、Pascal VOCのデータセットを利用して物体検知を実施し、その精度評価をした。より具体的には、VOC2007の４９５２点の画像と、VOC2007及びVOC2012を併せた１６５５１点の画像からなる訓練データセットとを用いた。また、上記実施の形態における方法の実行には、SSD（Single Shot Detector）512モデルを用い、特徴抽出には、本来のVGG-16に変えて、ImageNetで事前訓練をしたSqueezeNetを用いた。これにより、パラメータの個数は4分の１に、全体推論時間は３分の１に減らすことができた。

【0079】

また、VOCの元画像を５１２×５１２の解像度にリサイズした。ImageNetでの実施例と同様に、浮動小数点数、量子化のみ、圧縮まであり、の複数種類のモデルを用意して比較した。融合的演算を実行すれば、空間次元の高さゆえに全特徴マップメモリの８０％を超える割合を占める「fire2/squeeze」レイヤ及び「fire3/squeeze」レイヤに、量子化及び圧縮を適用した。深さ次元の線形的な増加に比べると、空間次元の減少は、最大プーリング層があるために、通常は二次元的である。圧縮モデルは８ビットの量子化済みモデルから導出し、いずれも２５６のサイズを単位とするミニバッチ学習を１万回のイテレーション、さらに２５００回のイテレーションごとに、１ｅ^－３／１０から始まる段階的な学習率で確率的勾配降下法のソルバーによる再学習を実行した。

【0080】

［結果］
図６は、本実施例における推論精度の評価結果の表を示す。各欄は左から、モデルの型、重みのデータサイズ、アクティベーションである特徴マップのデータサイズ、ｍＡＰ（mean Average Precision）を示す。

【0081】

量子化あり、バイナリ表現化なしのモデル（再学習あり）では、浮動小数点数のモデルに比べてｍＡＰが８ビットで０．０４％、６ビットで約０．５％、４ビットで約２．２％、２ビットで約１２．３％下回った。なお、カッコ内の数値は、再学習なしの場合の参考値である。

【0082】

畳み込みにサイズが１×１のカーネルを用いたバイナリ表現化ありの場合、ｍＡＰはバイナリ表現化なしのモデルに比べて６ビットで約０．５％上回り、４ビットで約０．５％下回った。

【0083】

また、畳み込みに３×３のカーネルをストライド２で用いた場合、また、畳み込みに２×２のカーネルをストライド２で用いた場合では、後者の方がパラメータも計算量も少ない上に、より１％近く高いｍＡＰを示した。

【0084】

［メモリ使用量］
図７は、上記のSSDモデルでのメモリ使用量をまとめた表である。なお、ここでは、全アクティベーションのメモリ使用量の８０％以上を占める最も大きい特徴マップのみを計測の対象とした。

【0085】

入力フレームは別途保持されると想定して、融合的演算のみでも特徴マップのサイズは１９分の１に圧縮された。

【0086】

また、融合的演算と量子化とを実行する固定小数点モデルでは、８ビットの場合でその約４分の１、４ビットの場合で約８分の１まで圧縮された。

【0087】

さらに、上記実施の形態に係るバイナリ表現化を含む方法（カーネルサイズ：２×２、ストライド：２）を適用すると、上記の４ビットの場合からさらに半分のサイズにまで圧縮されたものの、ｍＡＰの低下は１．５％に留まった。

【0088】

また、特徴抽出のために必要なメモリ使用量は、全体で二桁削減された。

【0089】

［総括］
上記の様に、本開示におけるＤＮＮの実行方法では、複数のレイヤの融合的演算及び量子化を含む従来のＤＮＮの方法に、ＧＦ（２）上で推論及び学習を行う技術を加えて実行する。ＧＦ（２）のバイナリ表現を用いることで、特徴マップを、ＤＮＮに埋め込まれたオートエンコーダ的なレイヤを用いてより高次な空間で圧縮することができる。この圧縮－伸長レイヤは従来の畳み込みレイヤにビット単位の演算を加えて用いることで実装することができる。より正確には、本開示に係る方法は、有限体の濃度と引き換えにベクトル空間の次元性を得ることで、特徴をバイナリレベルで学習することを可能にするものである。本開示の推論のための圧縮の手法は、ＧＰＵ（Graphics Processing Unit）、ＣＰＵ（Central Processing Unit）、その他個別に設計されるアクセラレータにも適用することができる。また、バイナリを扱う既存のニューラルネットワークの適用範囲を、物体検知などの新たな応用分野に拡大して精度の高い成果を得ることが期待される。

【0090】

［他の実施形態］
以上、一つまたは複数の態様に係るＤＮＮの実行方法及び学習方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも、これらの態様のひとつとして含まれてもよい。

【0091】

また、本開示ではＤＮＮの実施方法及び学習方法として実施形態を説明したが、本発明は、各レイヤによる処理を実行する機能的な構成要素を備えるＤＮＮの実行装置又は学習装置としても実現可能である。これらのような装置は、例えば上記の方法を実行するプロセッサ及び上記の非圧縮特徴マップを格納するためのメモリを備える、１台以上の情報処理装置で実現される。図８は、この実施の形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

【0092】

図８に示すように、情報処理装置１００は、ＣＰＵ１０１（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、メインメモリ１０２と、ストレージ１０３と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１０４と、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０５とを備える。これらの構成要素はバスに接続され、相互にデータをやり取りすることができる。

【0093】

ＣＰＵ１０１は、ストレージ１０３等に記憶された制御プログラム及び、例えば上記のＤＮＮの実行方法を実現するためのプログラムを実行するプロセッサである。

【0094】

メインメモリ１０２は、ＣＰＵ１０１が上記の各プログラムを実行するためのワークエリアとして用いられる揮発性の記憶領域である。

【0095】

ストレージ１０３は、上記の各プログラム等を保持する不揮発性の記憶領域である。

【0096】

通信Ｉ／Ｆ１０４は、通信ネットワーク（図示なし）を介して外部の機器と通信する通信インタフェースである。例えばＤＮＮの実行装置が複数台の情報処理装置１００で実現される場合は、情報処理装置１００間のデータのやり取りが、通信Ｉ／Ｆ１０４によって通信ネットワークを介して行われる。通信Ｉ／Ｆ１０４は、例えば、有線ＬＡＮインタフェースである。なお、通信Ｉ／Ｆ１０４は、無線ＬＡＮインタフェースであってもよい。また、通信Ｉ／Ｆ１０４は、ＬＡＮインタフェースに限らずに、通信ネットワークとの通信接続を確立できる通信インタフェースであればどのような通信インタフェースであってもよい。

【0097】

ＧＰＵ１０５は、例えば上記のＤＮＮの学習方法を実現するためのプログラムを実行するプロセッサである。

【0098】

また本発明は、プロセッサ及びメモリを備える情報処理装置に、上記の実施の形態に係るＤＮＮの実施方法又は学習方法を実行させるためのプログラムとして、また、このようなプログラムを保持する非一時的な記録媒体としても実現可能である。

【産業上の利用可能性】

【0099】

本開示は、画像分類、物体検出などのコンピュータビジョンの分野に利用可能である。

【符号の説明】

【0100】

１００情報処理装置
１０１ＣＰＵ
１０２メインメモリ
１０３ストレージ
１０４通信Ｉ／Ｆ
１０５ＧＰＵ

【図1】