IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特許6998968ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム
<>
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図1
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図2
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図3
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図4
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図5
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図6
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図7
  • 特許-ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-23
(45)【発行日】2022-01-18
(54)【発明の名称】ディープニューラルネットワークの実行方法、実行装置、学習方法、学習装置及びプログラム
(51)【国際特許分類】
   G06N 3/08 20060101AFI20220111BHJP
【FI】
G06N3/08
G06N3/08 140
【請求項の数】 7
(21)【出願番号】P 2019549546
(86)(22)【出願日】2018-08-30
(65)【公表番号】
(43)【公表日】2020-11-12
(86)【国際出願番号】 US2018048867
(87)【国際公開番号】W WO2019050771
(87)【国際公開日】2019-03-14
【審査請求日】2021-03-10
(31)【優先権主張番号】62/554,224
(32)【優先日】2017-09-05
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【弁理士】
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【弁理士】
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】グドフスキー デニス エー
(72)【発明者】
【氏名】リザジオ・ルカ
【審査官】北川 純次
(56)【参考文献】
【文献】特開平08-153081(JP,A)
【文献】特開2013-020638(JP,A)
【文献】特開平02-238721(JP,A)
【文献】特開2015-52832(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02-3/08
(57)【特許請求の範囲】
【請求項1】
ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、
前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、
前記圧縮特徴マップをメモリに書き込み、
前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、
再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する
ディープニューラルネットワーク実行方法。
【請求項2】
前記非線形次元削減レイヤは、1又は連続する複数の投影畳み込みレイヤであり、
前記再構築レイヤは、1又は連続する複数の再構築畳み込みレイヤである
請求項1に記載のディープニューラルネットワーク実行方法。
【請求項3】
請求項1又は2に記載の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習方法であって、
前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、
生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、
恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する
ディープニューラルネットワーク学習方法。
【請求項4】
ディープニューラルネットワークによる推論を実行する、プロセッサを備える装置であって、
前記プロセッサは、
浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、
前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、
前記圧縮特徴マップをメモリに書き込み、
前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、
再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する
ディープニューラルネットワーク実行装置。
【請求項5】
請求項1又は2に記載の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習を実行する、プロセッサを備える装置であって、
前記プロセッサは、
前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、
生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、
恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する
ディープニューラルネットワーク学習装置。
【請求項6】
請求項1に記載のディープニューラルネットワーク実行方法をコンピュータに実行させるためのプログラム。
【請求項7】
請求項3に記載のディープニューラルネットワーク学習方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はディープニューラルネットワークの実行方法等に関する。
【背景技術】
【0002】
画像分類、物体検出などを含むコンピュータビジョンの応用分野では、ディープニューラルネットワーク(Deep Neural Networks、以下ではDNNと表記する)が、優れた成績を挙げて魅力的な選択とされつつある。しかしながら、DNNに必要なメモリ使用量及び計算量の大きさは、低消費電力が望まれる実行環境では過剰な負荷となり得る。
【0003】
このような処理負荷を抑える試みとして提案又は示唆されている手法には、中間特徴マップをメモリに書き出さずに複数のレイヤを融合的に計算をするレイヤフュージョン、量子化した特徴マップの値の非線形次元削減レイヤでの圧縮が挙げられる(非特許文献1及び2参照)。
【先行技術文献】
【非特許文献】
【0004】
【文献】M. Alwani, H. Chen, M. Ferdman, and P. A. Milder; Fused-layer CNN accelerators; MICRO; pages 1-12; October 2016
【文献】F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer; Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5MB model size; arXiv preprint arXiv:1602.07360, 2016
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の手法で得られるDNNの処理負荷の抑制の程度は小さく、精度の低下も懸念される。また、処理速度の改善が十分とはいえない。
【0006】
本開示は、精度の低下を抑えながら、低負荷かつ高速な処理が可能な実行方法、実行装置等を提供する。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本開示の一形態に係るDNNの実行方法は、ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、前記圧縮特徴マップをメモリに書き込み、前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する。
【0008】
なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、方法、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0009】
本開示のDNNの実行方法等によれば、精度の低下を抑えながら、低負荷かつ高速な処理が可能である。
【図面の簡単な説明】
【0010】
図1図1は、実施の形態に係る推論時のDNNの実行方法を説明するためのモデル図である。
図2図2は、上記の推論時におけるフォワードパスのモデル図である。
図3図3は、上記の実行方法に対応するバックプロパゲーションにおけるバックワードパスのモデル図である。
図4図4は、実施例1における、SqueezeNetに上記の実行方法を適用して行ったImageNetでの推論精度の評価結果を示す図である。
図5図5は、実施例1における、MobileNetV2に上記の実行方法を適用して行ったImageNetでの推論精度の評価結果を示す図である。
図6図6は、実施例2における、SSD512に上記の実行方法を適用して行ったVOC2007での推論精度の評価結果を示す図である。
図7図7は、実施例2におけるSSD512でのメモリ使用量を示す図である。
図8図8は、上記の方法を実行する情報処理装置のハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0011】
本開示の一形態に係るDNNの実行方法では、ディープニューラルネットワークによる推論において、浮動小数点又は固定小数点で表現される中間特徴マップを、第一変換モジュールを用いてバイナリベクトルに変換することでバイナリ表現化したバイナリ中間特徴マップを取得し、前記バイナリ中間特徴マップを、非線形次元削減レイヤで圧縮することで圧縮特徴マップを生成し、前記圧縮特徴マップをメモリに書き込み、前記メモリから読み出した前記圧縮特徴マップを、前記非線形次元削減レイヤに対応する再構築レイヤで伸長することで前記バイナリ中間特徴マップを再構築し、再構築された前記バイナリ中間特徴マップを、第二変換モジュールを用いて浮動小数点又は固定小数点で表現される中間特徴マップに変換する。
【0012】
これにより、従来に比べて、少ないメモリ使用量でDNNを実行することができ、メモリバンド幅が削減されるため処理が高速化される。
【0013】
ここで、例えば前記非線形次元削減レイヤは、1又は連続する複数の投影畳み込みレイヤであり、前記再構築レイヤは、1又は連続する複数の再構築畳み込みレイヤであってもよい。
【0014】
また、上記の実行方法を用いて実行されたDNNのバックプロパゲーションによる学習方法では、前記第一変換モジュール及び前記第二変換モジュールの分析導関数を前記ディープニューラルネットワークが含むレイヤのうち後段レイヤの勾配に適用することで先段レイヤの勾配を生成し、生成された前記先段レイヤの勾配に基づいて重みとバイアスを更新し、恒等写像関数に基づいて前記非線形次元削減レイヤの重み及び前記再構築レイヤの重みを初期化する。
【0015】
推論においてバイナリ表現化の処理が加わったことに対応して、学習でもバイナリレベルの処理を含めることが可能になる。したがって、従来に比べて少ないメモリ使用量の実行及び処理が高速化される。
【0016】
なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、方法、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
【0017】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0018】
なお、以下で説明する実施の形態は、包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは一例であり、本開示に係る発明を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については任意の構成要素として説明される。
【0019】
(実施の形態)
[DNN]
まず、一般的なDNNについて説明する。
【0020】
DNNで一般に用いられる第l畳み込み層に入力される特徴マップXl-1は、入力チャンネルの個数を
【数1】
、高さをH、幅をWとして、(式1)のように表すことができる。
【数2】
は実数全体を示す。
【0021】
【数3】
【0022】
入力されたXl-1は、出力チャンネルの個数をC、フィルタのカーネルの高さ及び幅をそれぞれH、Wとして、(式2)で表す重みテンソルWで畳み込まれる。
【0023】
【数4】
【0024】
なお、(式3)で表されるバイアスベクトルbが畳み込み演算の結果に加算される。
【0025】
【数5】
【0026】
いったんC個の全チャンネルの演算が実行されれば、要素ごとの非線形関数が畳み込み演算の結果に適用されている。そして、(式4)で表される出力テンソルXのC番目のチャンネルが、(式5)に示す計算式を用いて算出される。
【0027】
【数6】
【0028】
【数7】
【0029】
なお、(式5)における*は、畳み込み演算を示す。また、g()は、何らかの非線形関数を示し、例えば全てのアクティベーションが非負となるようなg(x)=max(0,x)のように定義される正規化線形関数(ReLU)である。
【0030】
ここまで、以下の説明で用いる図面に含まれる表記の理解のために適宜参照されたい。
【0031】
[DNNの実行方法]
次に、本実施の形態に係る、推論時のDNNの実行方法を説明する。図1は、実施の形態に係るDNNによる実行方法を説明するためのモデル図である。理解されやすいよう、図中の(a)に従来の方法を示し、対比的に(b)に示す本実施の形態に係る方法を説明する。
【0032】
(a)及び(b)に示す各モデルは、左から右に進む多段の畳み込みレイヤを含むニューラルネットワークを模式的に示す。なお、表示を簡潔にするために、いずれでもバイアスの記載は省略している。
【0033】
まず、(a)に示される従来の方法では、N個の連続するレイヤでの演算は、中間特徴マップXl-N+1からXl-1をメモリに書き出すことなく、「融合(Fusion)」的に実行して(ステップS100)、特徴マップXを得る。この融合的な演算は、特徴マップ全体よりもはるかに小さいメモリバッファを用いてチャンネル単位で実行可能である。
【0034】
次に、特徴マップXは、非線形関数q()を用いて量子化される(ステップS110)。量子化前の特徴マップXは実数の集合
【数8】
の要素であるが、量子化後の特徴マップ
【数9】
は整数上の有限体の集合
【数10】
の要素である。ただし、この量子化のステップで、近似の不完全さのために精度が落ちることがある。量子化の後のネットワークアーキテクチャはここまでと変わることなく、準最適なビット幅分解能が得られる程度まで特徴マップが圧縮される。
【0035】
次に、追加的な畳み込みレイヤを用いて非線形次元削減が実行される(ステップS120)。ここでは、(式6)で表されるマッピングが(式7)で表される投影重みPを用いて実行される。
【0036】
【数11】
【0037】
【数12】
【0038】
なお、(式6)及び(式7)における
【数13】
は、出力チャンネルの次元数であり、Cより小さい。ここでは、メモリバッファで保持される必要があるのは、圧縮特徴マップ
【数14】
のみである(ステップS130)。
【0039】
以降、ここまでとは逆の手順を辿るように、圧縮特徴マップ
【数15】
は、重みRを用いてより高次元のテンソルに逆投影される(ステップS140)。最後に、逆量子化関数q-1()を用いた逆変換(ステップS150)を実行して、実数の集合の要素である特徴マップXl+1を得る。
【0040】
次に、(b)に示される本実施の形態に係るDNNの実行方法を説明する。この方法は、中間特徴マップをバイナリベクトルを用いて表現するための変換を含む点が従来の方法と異なる。この変換について先に説明しておく。
【0041】
まず、実数の集合の要素である特徴マップXから取り出されるスカラxがあるとする。この場合、スカラ対スカラのマッピング又は非線形関数q(x)で表すと、従来の量子化は(式8)で表される。
【0042】
【数16】
【0043】
なお、
【数17】
は、量子化されたスカラを、
【数18】
は、固定小数点表現のための有限体GF(2)を、Bはビット数を示す。
【0044】
ここで、本実施の形態においては、(式9)のように定義される線形二値化関数b()による新たな
【数19】
の表現形式を導入する。
【0045】
【数20】
【0046】
ここで、
【数21】
は、ビット単位のAND演算を示す。また、ベクトルbは[2,2,...,2B-1であり、
【数22】
は有限体GF(2)である。
【0047】
また、線形二値化関数b()の逆関数は、(式10)のように表される。
【0048】
【数23】
【0049】
(式9)及び(式10)は、高濃度の有限体上のスカラと、要素が2個の有限体上のベクトルとの間での相互に線形変換が可能であることを示す。
【0050】
このような展開に基づく特徴マップの圧縮を含む本実施の形態に係るDNNの実行方法を、図1の(b)に沿って以下に説明する。
【0051】
特徴マップXを得るレイヤまでは(a)のS100までと共通であり(ステップS200)、その手前までは説明及び図示を省略する。
【0052】
次のレイヤでは、アクティベーションである特徴マップXを量子化して特徴マップ
【数24】
を得る(ステップS210)。さらに次のレイヤでは、特徴マップ
【数25】
に(式9)の変換を適用する(ステップS215)。この変換の成果物である特徴マップ
【数26】
は、(式11)のように表される。
【0053】
【数27】
【0054】
このようにバイナリ表現化された特徴マップ
【数28】
を、以下ではバイナリ中間特徴マップともいう。
【0055】
また、実装の便宜上、(式11)の新たに加わったビットの次元は、チャンネルの次元に連結される結果、バイナリ中間特徴マップ
【数29】
は(式12)のようになる。
【0056】
【数30】
【0057】
なお、ステップS210及びS215における処理を実行するレイヤで構成されるモジュールは、本実施の形態における第一変換モジュールの例である。
【0058】
このバイナリ中間特徴マップ
【数31】
に、投影重み
【数32】
の単一の非線形次元削減レイヤ又は投影重み
【数33】
の連続する複数の非線形次元削減レイヤを適用することで、バイナリ中間特徴マップ
【数34】
の、有限体GF(2)上のバイナリベクトルでの圧縮表現(以下、圧縮特徴マップ
【数35】
ともいう)が得られる(ステップS220)。
【0059】
推論処理中にメモリで保持される必要があるのは、集合
【数36】
の要素である圧縮特徴マップ
【数37】
のみとなる(ステップS230)。非圧縮特徴マップは、例えば連続的なチャンネル単位等の小さいバッファでの処理が可能なためメモリでの保持は不要である。
【0060】
その後、畳み込みレイヤ
【数38】
による処理の次のレイヤで、上述の圧縮が元に戻されたバイナリ中間特徴マップが再構築される(ステップS240)。再構築されたバイナリ中間特徴マップは、さらに次のレイヤに入力されると、逆関数b-1()である(式10)によってバイナリ表現化が解除されて(ステップS245)整数の要素の集合の要素である中間特徴マップに変換され、さらに逆量子化関数q-1()が適用されて実数の集合の要素である特徴マップに変換される(ステップS250)。
【0061】
なお、ステップS245及びS250における処理を実行するレイヤで構成されるモジュールは、本実施の形態における第二変換モジュールの例である。
【0062】
以上が本実施の形態に係るDNNの実行方法である。この方法でのメモリ使用量、精度等に関する性能評価は、後述の実施例で従来の方法と比較しながら紹介する。
【0063】
[DNNの学習方法]
次に、上記の方法を用いて実行されたディープニューラルネットワークのバックプロパゲーションによる学習方法について説明する。図2は、上記の実行方法での推論時におけるフォワードパスのモデル図である。また、図3は、上記の実行方法に対応するバックプロパゲーションにおけるバックワードパスのモデル図である。図2の推論パスは(式9)に、図3の推論パスは(式10)に対応する。
【0064】
本実施の形態に係るDNNの実行方法で新たに導入された関数b-1()は、ReLUと類似の硬判定をするゲートとして表すことができる。関数b-1()の勾配は、(式13)を用いて求めることができる。
【0065】
【数39】
【0066】
最終的に、関数b()の勾配は、(式14)を用いて算出した勾配ベクトルのスケーリング合計である。
【0067】
【数40】
【0068】
なお、(式14)における
【数41】
は、
【数42】
の中の非ゼロ要素の個数を示す勾配スケーリング係数である。実用上は、スケーリング係数は統計的情報に基づいて一回のみ算出し、勾配の正規化のための静的なハイパーパラメータとして用いられる。
【0069】
本実施の形態に係るニューラルネットワークの目的は、学習を行って最小の
【数43】
のみを保持するところにあるため、P及びRの初期値の選択は重要である。これらの重みテンソルを、非圧縮特徴マップの圧縮特徴マップへのマッピング、及びその逆も行う恒等関数を用いて初期化することで、学習に適した開始点を得ることができる。また、何らかの分布から抽出したノイズを用いた初期化も可能である。
【実施例1】
【0070】
[概要]
実施の形態で述べたバイナリ表現化を行うレイヤ及び量子化を行うレイヤを、ベースとなる浮動小数点ネットワークアーキテクチャとしてSqueezeNet V1.1及びMobilenet V2を用いて実行した。
【0071】
[SqueezeNet V1.1の場合]
本実施例では、「squeeze」レイヤの中で空間次元の最も高い方から選択した「fire2/squeeze」レイヤ及び「fire3/squeeze」レイヤを圧縮した。ネットワークへの入力の解像度は227×227であり、重みはすべて浮動小数点数であった。
【0072】
量子化及び圧縮済みのモデルに対し、ImageNet(ILSVRC2012)の訓練データセットでの1024のサイズを単位とするミニバッチ学習を10万回のイテレーション、さらに2万回のイテレーションごとに、1e-3/10から始まる段階的な学習率で確率的勾配降下法のソルバーによる再学習を実行した。このような大型のミニバッチが当初のモデルによって使用されたが、量子化及び圧縮済みのモデルが勾配を予測するのにも役立った。圧縮モデルは8ビットの量子化済みモデルから繰り返し導出して再学習した。図4は、ImageNetの評価データセットからの5万件の画像に対する推論精度の評価結果を示す。各欄のうち、最も左はモデルの型(fp32:単精度浮動小数点数、uint8:符号なし8ビット整数、等)を示し、右へ順に、重みのデータサイズ、アクティベーションである特徴マップのデータサイズ、最高スコアの回答(top-1)の正答率、上位5位までのスコアの回答(top-5)の正答率を示す表である。正答率でカッコの外の数字は再学習あり、カッコ内の数字は再学習なしでの結果を示す。
【0073】
この評価結果によれば、畳み込みにサイズが1×1のカーネルを用いたバイナリ表現化ありの場合では、バイナリ表現化をしない場合と比較して重みは微増したものの、同じ型のモデルでも精度が向上した(top-1、6ビットで1.0%、4ビットで2.4%)。また、畳み込みに3×3のカーネルをストライド2で用いた場合では、6ビットの型で重みのサイズが約47%の増加を示した。これにより、特徴マップの空間次元が、局所的な空間的量子化の冗長性を利用して削減された。そしてアクティベーションとしての特徴マップのサイズはバイナリ表現化をしない場合と比較して4分の1に減少し、その一方で正答率は、fp32の場合との比較でtop-1の8ビットで4.3%、6ビットで4.6%落ちた。
【0074】
[MobileNetV2の場合]
「conv2_1/linear」特徴マップを圧縮した。この特徴マップは他の特徴マップより3倍以上サイズが大きいものであった。訓練に関するハイパーパラメータは上記のSqueezeNetの場合のものと共通である。イテレーション数は5万回で、学習率は比例変化させた。また、「conv2_1/linear」の後にReLUレイヤを追加して圧縮方法の現状の実装に適合させた。これにより、「conv2_1/linear」特徴マップは、当初は符号付き整数を含み、変更後には符号なし整数を含む。なお、バッチ正規化層によって訓練処理が不安定になることがあったため、正規化パラメータ及びスケーリングパラメータは固定して畳み込み層の重み及びバイアスにマージした。このようにして変更されたモデルに対し、当初のものから再学習を行った。図5は、MobileNetV2を用いたImageNetでの推論精度の評価結果の表である。各欄の項目の内容は図4の表とほぼ共通である。ただし、「量子化あり、バイナリ表現化なし」で用いたモデルの型は、上述の符号付き整数を含むもの(int9:符号付き9ビット整数等)である。
【0075】
ReLUが追加されていない量子化ありの場合では、再学習後のtop-1の正答率で、fp32と比較して、9ビット及び7ビットでそれぞれ0.3%上昇し、5ビットで0.3%低下した。なお、MobileNetV2での量子化ありの場合には、9ビットと5ビットでの正答率の差が0.6ポイントと、ビット幅を下げても精度の悪化がわずかであった。一方、ReLUを追加した量子化ありの場合では、この表に示されるケースで最も高い精度を示した。
【0076】
畳み込みにサイズ1×1のカーネルを用いたバイナリ表現化ありの場合では、バイナリ表現化なしの従来の方法とほぼ同等の成績を得た。また、畳み込みに2×2のカーネルをストライド2で用いた場合では、特徴マップはさらにその半分のサイズに圧縮され、正答率は約4.5%の低下、重みのサイズは約5%の増加を示した。
【0077】
なお、表には含まれないが、物体検知について、畳み込みに2×2のカーネルをストライド2で用いた場合と、3×3のカーネルをストライド2で用いた場合とで比較した結果、前者の方が精度及びデータサイズの点で良好な成績を挙げた。
【実施例2】
【0078】
[概要]
本実施例では、Pascal VOCのデータセットを利用して物体検知を実施し、その精度評価をした。より具体的には、VOC2007の4952点の画像と、VOC2007及びVOC2012を併せた16551点の画像からなる訓練データセットとを用いた。また、上記実施の形態における方法の実行には、SSD(Single Shot Detector)512モデルを用い、特徴抽出には、本来のVGG-16に変えて、ImageNetで事前訓練をしたSqueezeNetを用いた。これにより、パラメータの個数は4分の1に、全体推論時間は3分の1に減らすことができた。
【0079】
また、VOCの元画像を512×512の解像度にリサイズした。ImageNetでの実施例と同様に、浮動小数点数、量子化のみ、圧縮まであり、の複数種類のモデルを用意して比較した。融合的演算を実行すれば、空間次元の高さゆえに全特徴マップメモリの80%を超える割合を占める「fire2/squeeze」レイヤ及び「fire3/squeeze」レイヤに、量子化及び圧縮を適用した。深さ次元の線形的な増加に比べると、空間次元の減少は、最大プーリング層があるために、通常は二次元的である。圧縮モデルは8ビットの量子化済みモデルから導出し、いずれも256のサイズを単位とするミニバッチ学習を1万回のイテレーション、さらに2500回のイテレーションごとに、1e-3/10から始まる段階的な学習率で確率的勾配降下法のソルバーによる再学習を実行した。
【0080】
[結果]
図6は、本実施例における推論精度の評価結果の表を示す。各欄は左から、モデルの型、重みのデータサイズ、アクティベーションである特徴マップのデータサイズ、mAP(mean Average Precision)を示す。
【0081】
量子化あり、バイナリ表現化なしのモデル(再学習あり)では、浮動小数点数のモデルに比べてmAPが8ビットで0.04%、6ビットで約0.5%、4ビットで約2.2%、2ビットで約12.3%下回った。なお、カッコ内の数値は、再学習なしの場合の参考値である。
【0082】
畳み込みにサイズが1×1のカーネルを用いたバイナリ表現化ありの場合、mAPはバイナリ表現化なしのモデルに比べて6ビットで約0.5%上回り、4ビットで約0.5%下回った。
【0083】
また、畳み込みに3×3のカーネルをストライド2で用いた場合、また、畳み込みに2×2のカーネルをストライド2で用いた場合では、後者の方がパラメータも計算量も少ない上に、より1%近く高いmAPを示した。
【0084】
[メモリ使用量]
図7は、上記のSSDモデルでのメモリ使用量をまとめた表である。なお、ここでは、全アクティベーションのメモリ使用量の80%以上を占める最も大きい特徴マップのみを計測の対象とした。
【0085】
入力フレームは別途保持されると想定して、融合的演算のみでも特徴マップのサイズは19分の1に圧縮された。
【0086】
また、融合的演算と量子化とを実行する固定小数点モデルでは、8ビットの場合でその約4分の1、4ビットの場合で約8分の1まで圧縮された。
【0087】
さらに、上記実施の形態に係るバイナリ表現化を含む方法(カーネルサイズ:2×2、ストライド:2)を適用すると、上記の4ビットの場合からさらに半分のサイズにまで圧縮されたものの、mAPの低下は1.5%に留まった。
【0088】
また、特徴抽出のために必要なメモリ使用量は、全体で二桁削減された。
【0089】
[総括]
上記の様に、本開示におけるDNNの実行方法では、複数のレイヤの融合的演算及び量子化を含む従来のDNNの方法に、GF(2)上で推論及び学習を行う技術を加えて実行する。GF(2)のバイナリ表現を用いることで、特徴マップを、DNNに埋め込まれたオートエンコーダ的なレイヤを用いてより高次な空間で圧縮することができる。この圧縮-伸長レイヤは従来の畳み込みレイヤにビット単位の演算を加えて用いることで実装することができる。より正確には、本開示に係る方法は、有限体の濃度と引き換えにベクトル空間の次元性を得ることで、特徴をバイナリレベルで学習することを可能にするものである。本開示の推論のための圧縮の手法は、GPU(Graphics Processing Unit)、CPU(Central Processing Unit)、その他個別に設計されるアクセラレータにも適用することができる。また、バイナリを扱う既存のニューラルネットワークの適用範囲を、物体検知などの新たな応用分野に拡大して精度の高い成果を得ることが期待される。
【0090】
[他の実施形態]
以上、一つまたは複数の態様に係るDNNの実行方法及び学習方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも、これらの態様のひとつとして含まれてもよい。
【0091】
また、本開示ではDNNの実施方法及び学習方法として実施形態を説明したが、本発明は、各レイヤによる処理を実行する機能的な構成要素を備えるDNNの実行装置又は学習装置としても実現可能である。これらのような装置は、例えば上記の方法を実行するプロセッサ及び上記の非圧縮特徴マップを格納するためのメモリを備える、1台以上の情報処理装置で実現される。図8は、この実施の形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
【0092】
図8に示すように、情報処理装置100は、CPU101(Central Processing Unit)と、メインメモリ102と、ストレージ103と、通信I/F(Interface)104と、GPU(Graphics Processing Unit)105とを備える。これらの構成要素はバスに接続され、相互にデータをやり取りすることができる。
【0093】
CPU101は、ストレージ103等に記憶された制御プログラム及び、例えば上記のDNNの実行方法を実現するためのプログラムを実行するプロセッサである。
【0094】
メインメモリ102は、CPU101が上記の各プログラムを実行するためのワークエリアとして用いられる揮発性の記憶領域である。
【0095】
ストレージ103は、上記の各プログラム等を保持する不揮発性の記憶領域である。
【0096】
通信I/F104は、通信ネットワーク(図示なし)を介して外部の機器と通信する通信インタフェースである。例えばDNNの実行装置が複数台の情報処理装置100で実現される場合は、情報処理装置100間のデータのやり取りが、通信I/F104によって通信ネットワークを介して行われる。通信I/F104は、例えば、有線LANインタフェースである。なお、通信I/F104は、無線LANインタフェースであってもよい。また、通信I/F104は、LANインタフェースに限らずに、通信ネットワークとの通信接続を確立できる通信インタフェースであればどのような通信インタフェースであってもよい。
【0097】
GPU105は、例えば上記のDNNの学習方法を実現するためのプログラムを実行するプロセッサである。
【0098】
また本発明は、プロセッサ及びメモリを備える情報処理装置に、上記の実施の形態に係るDNNの実施方法又は学習方法を実行させるためのプログラムとして、また、このようなプログラムを保持する非一時的な記録媒体としても実現可能である。
【産業上の利用可能性】
【0099】
本開示は、画像分類、物体検出などのコンピュータビジョンの分野に利用可能である。
【符号の説明】
【0100】
100 情報処理装置
101 CPU
102 メインメモリ
103 ストレージ
104 通信I/F
105 GPU
図1
図2
図3
図4
図5
図6
図7
図8