特許7562265 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 三星電子株式会社の特許一覧

特許7562265ニューラルネットワークのコンボルーション演算を処理する方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5A
5B
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-27

(45)【発行日】2024-10-07

(54)【発明の名称】ニューラルネットワークのコンボルーション演算を処理する方法及び装置

(51)【国際特許分類】

G06F 17/10 20060101AFI20240930BHJP

G06N 3/06 20060101ALI20240930BHJP

【ＦＩ】

G06F17/10 A

G06N3/06

【請求項の数】 11

(21)【出願番号】P 2020015497

(22)【出願日】2020-01-31

(65)【公開番号】P2020126651

(43)【公開日】2020-08-20

【審査請求日】2022-12-27

(31)【優先権主張番号】62/799,190

(32)【優先日】2019-01-31

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】10-2019-0038606

(32)【優先日】2019-04-02

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】李世煥

【審査官】坂東博司

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０２５３６３６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０００４７０１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／００４２９２３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１０

Ｇ０６Ｎ３／０６

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワーク装置において、
少なくとも１つのプログラムが保存されたメモリと、
前記少なくとも１つのプログラムを行うことで、入力フィーチャーマップ(input feature map)とカーネル(kernel)との間のコンボルーション演算を処理するプロセッサと、
を含み、
前記プロセッサは、
（ｉ）前記入力フィーチャーマップの形状及び（ｉｉ）前記入力フィーチャーマップ内でゼロ値を有するピクセルの比率又は前記カーネル内でゼロ値を有するウェイトの比率が既設定の値以上であることの１つに基づいて、並列化された演算それぞれに共通して共有される共有オペランド(shared operand)を、前記入力フィーチャーマップを構成する複数のピクセル値のうちの１つのピクセル値および前記カーネルを構成するウェイト値のうちの１つのウェイト値のうちのいずれか１つとして決定するコントローラと、
前記決定された共有オペランドと、前記入力フィーチャーマップ又は前記カーネルからのそれぞれのオペランドとに基づいて前記並列化された演算を行うプロセッシングユニットと、を含み、
並列の前記プロセッシングユニットは、
前記コントローラが前記共有オペランドを前記入力フィーチャーマップの前記１つのピクセル値として決定することに応答して、前記入力フィーチャーマップの前記１つのピクセル値と前記カーネルのそれぞれのウェイト値とのそれぞれの演算を並列的に行い、或いは
複数の前記プロセッシングユニットは、
前記コントローラが前記共有オペランドを前記カーネルの前記１つのウェイト値として決定することに応答して、前記カーネルの前記１つのウェイト値と前記入力フィーチャーマップのそれぞれのピクセル値とのそれぞれの演算を並列的に行う、ニューラルネットワーク装置。

【請求項2】

（１）前記コントローラは、
前記共有オペランドを、前記入力フィーチャーマップを構成する複数のピクセル値のうちの第１ピクセル値及び第２ピクセル値として決定し、且つ
前記プロセッシングユニットは、
前記入力フィーチャーマップの第１ピクセル値と前記カーネルのウェイト値とのそれぞれの演算を並列的に行う第１プロセッシングユニットと、
前記入力フィーチャーマップの第２ピクセル値と前記カーネルのウェイト値とのそれぞれの演算を並列的に行う第２プロセッシングユニットと、を含む、或いは
（２）前記コントローラは、
前記共有オペランドを、前記カーネルを構成する複数のウェイト値のうちの第１ウェイト値及び第２ウェイト値として決定し、且つ
前記プロセッシングユニットは、
前記カーネルの第１ウェイト値と前記入力フィーチャーマップのピクセル値とのそれぞれの演算を並列的に行う第１プロセッシングユニットと、
前記カーネルの第２ウェイト値と前記入力フィーチャーマップのピクセル値とのそれぞれの演算を並列的に行う第２プロセッシングユニットを含む、請求項１に記載のニューラルネットワーク装置。

【請求項3】

前記コントローラは、
第１レイヤの入力フィーチャーマップの特徴及び前記第１レイヤのカーネルの特徴のうち少なくとも１つに基づいて、前記第１レイヤの共有オペランドを、前記第１レイヤの入力フィーチャーマップのピクセル値および前記第１レイヤのカーネルのウェイト値のうちのいずれか１つとして決定し、
第２レイヤの入力フィーチャーマップの特徴及び前記第２レイヤのカーネルの特徴のうち少なくとも１つに基づいて、前記第２レイヤの共有オペランドを、前記第２レイヤの入力フィーチャーマップのピクセル値および前記第２レイヤのカーネルのウェイト値のうちのいずれか１つとして決定する、請求項１に記載のニューラルネットワーク装置。

【請求項4】

前記共有オペランドを共通して共有するプロセッシングユニット数は、
前記入力フィーチャーマップの入力チャネルのピクセル数と同一であるか、前記カーネルの出力チャネル数と同一である、請求項１に記載のニューラルネットワーク装置。

【請求項5】

前記プロセッサは、
３次元のサイズを有する入力フィーチャーマップと４次元のサイズを有するカーネルとの間の３次元コンボルーション演算を行う、請求項１に記載のニューラルネットワーク装置。

【請求項6】

前記プロセッシングユニットは、
前記共有オペランドがゼロである場合に、前記並列化された演算を省略(skip)する、請求項１に記載のニューラルネットワーク装置。

【請求項7】

（１）前記プロセッシングユニットは、
前記入力フィーチャーマップの第１ピクセル値がゼロである場合に、前記第１ピクセル値と前記カーネルの第１ウェイト値との並列化された演算を省略し、及び
前記入力フィーチャーマップの第２ピクセル値と前記カーネルの第２ウェイト値との演算を行う、或いは
（２）前記プロセッシングユニットは、
前記カーネルの第１ウェイト値がゼロである場合に、前記第１ウェイト値と前記入力フィーチャーマップの第１ピクセル値との並列化された演算を省略し、及び
前記カーネルの第２ウェイト値と前記入力フィーチャーマップの第２ピクセル値との並列化された演算を行う、請求項１に記載のニューラルネットワーク装置。

【請求項8】

ニューラルネットワークのコンボルーション演算を処理する方法において、
コントローラが、（ｉ）入力フィーチャーマップの形状及び（ｉｉ）前記入力フィーチャーマップ内でゼロ値を有するピクセルの比率又はカーネル内でゼロ値を有するウェイトの比率が既設定の値以上であることの１つに基づいて、並列化された演算それぞれに共通して共有される共有オペランドを、前記入力フィーチャーマップを構成する複数のピクセル値のうちの１つのピクセル値および前記カーネルを構成するウェイト値のうちの１つのウェイト値のうちのいずれか１つとして決定する段階と、
プロセッシングユニットが、前記決定された共有オペランドと、前記入力フィーチャーマップ又は前記カーネルからのそれぞれのオペランドとに基づいて前記並列化された演算を行う段階と、を含み、
前記演算を行う段階は、
前記決定する段階において、前記コントローラが前記共有オペランドを前記入力フィーチャーマップの前記１つのピクセル値として決定することに応答して、並列の前記プロセッシングユニットが前記入力フィーチャーマップの前記１つのピクセル値と前記カーネルのそれぞれのウェイト値とのそれぞれの演算を並列的に行い、或いは
前記演算を行う段階は、
前記決定する段階において、前記コントローラが前記共有オペランドを前記カーネルの前記１つのウェイト値として決定することに応答して、複数の前記プロセッシングユニットが前記カーネルの前記１つのウェイト値と前記入力フィーチャーマップのそれぞれのピクセル値とのそれぞれの演算を並列的に行う、方法。

【請求項9】

前記演算を行う段階は、
前記共有オペランドがゼロである場合に、前記並列化された演算を省略する段階を含む、請求項８に記載の方法。

【請求項10】

（１）前記演算を行う段階は、
前記入力フィーチャーマップの第１ピクセル値がゼロである場合に、前記第１ピクセル値と前記カーネルの第１ウェイト値との並列化された演算を省略し、及び
前記入力フィーチャーマップの第２ピクセル値と前記カーネルの第２ウェイト値との演算を行う、或いは
（２）前記演算を行う段階は、
前記カーネルの第１ウェイト値がゼロである場合に、前記第１ウェイト値と前記入力フィーチャーマップの第１ピクセル値との並列化された演算を省略し、及び
前記カーネルの第２ウェイト値と前記入力フィーチャーマップの第２ピクセル値との並列化された演算を行う、請求項８に記載の方法。

【請求項11】

請求項８ないし１０のうちいずれか１項に記載の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークのコンボルーション（convolution）演算を処理する方法及び装置に関する。

【背景技術】

【0002】

ニューラルネットワーク(neural network)は、生物学的脳をモデリングしたコンピュータ科学的アーキテクチャ(computational architecture)を参照する。最近、ニューラルネットワーク技術の発展につれて、多様な種類の電子システムにおいてニューラルネットワーク装置を使用して入力データを分析し、有効な情報を抽出している。

【0003】

ニューラルネットワーク装置は、入力データに対する多量の演算を行う。かようなニューラルネットワーク演算を効率よく処理することができる技術が研究されている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、ニューラルネットワークのコンボルーション演算を処理する方法及び装置を提供するところにある。

【0005】

本実施例が解決しようとする技術的課題は、前記のような技術的課題に限定されず、下記実施例からさらに他の技術的課題が類推される。

【課題を解決するための手段】

【0006】

一側面によって、ニューラルネットワーク装置は、少なくとも１つのプログラムが保存されたメモリと、少なくとも１つのプログラムを行うことで、入力フィーチャーマップ(input featuremap)とカーネル(kernal)との間のコンボルーション演算を処理するプロセッサを含み、プロセッサは、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、並列化された演算それぞれに共通して共有される共有オペランド(shared operand)を、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定するコントローラと、決定された共有オペランドに基づいて並列化された演算を行うプロセッシングユニットと、を含んでもよい。

【0007】

他の側面によって、ニューラルネットワークのコンボルーション演算を処理する方法は、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、並列化された演算それぞれに共通して共有される共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する段階と、決定された共有オペランドに基づいて並列化された演算を行う段階と、を含んでもよい。

【0008】

さらに他の側面によって、ニューラルネットワークのコンボルーション演算を処理する方法を具現化するためのプログラムが記録されたコンピュータで読み取り可能な記録媒体が提供される。

【発明の効果】

【0009】

本実施例によれば、コンボルーション演算のための並列化された演算に共有される共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定可能であるところ、コンボルーション演算の並列性(parallelism)をさらに効果的に具現化することができる。

【0010】

また、本実施例によれば、３次元のサイズを有する入力フィーチャーマップと４次元のサイズを有するカーネルとの間の３次元コンボルーション演算を行うにあたり、入力フィーチャーマップとカーネルとの次元が互いに異なるにしても、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つを共有オペランドに決定して並列化された演算を実行可能なハードウェア構造を具現化することができる。

【0011】

また、本実施例によれば、プロセッシングユニットの共有オペランドに係わるゼロ如何、またはプロセッシングユニットの残りの全てのオペランドに対するゼロ如何を通じてゼロスキッピングを具現化するところ、ゼロスキッピングのための単純化されたハードウェア構造を具現化することができる。

【図面の簡単な説明】

【0012】

【図1】一実施例によるニューラルネットワークのアーキテクチャを説明するための図面である。

【図2A】ニューラルネットワークのコンボルーション演算の例示を説明するための図面である。

【図2B】ニューラルネットワークのコンボルーション演算の例示を説明するための図面である。

【図3】一実施例によるニューラルネットワーク装置のハードウェア構成を示すブロック図である。

【図4】コントローラ及びプロセッシングユニットの具体的な実施例を示す図面である。

【図5A】プロセッシングユニットが共有オペランドに基づいて並列化された演算を行う実施例を示す図面である。

【図5B】プロセッシングユニットが共有オペランドに基づいて並列化された演算を行う実施例を示す図面である。

【図6】コントローラが入力フィーチャーマップの形状に基づいて共有オペランドを決定する実施例を示す図面である。

【図7】プロセッシングユニットが共有オペランドである入力フィーチャーマップのピクセル値に基づいて並列化された演算を行う実施例を示す図面である。

【図8】プロセッシングユニットが共有オペランドである入力フィーチャーマップのピクセル値に基づいて並列化された演算を行う実施例を示す図面である。

【図9】プロセッシングユニットが共有オペランドであるカーネルのウェイト値に基づいて並列化された演算を行う実施例を示す図面である。

【図10】プロセッシングユニットが共有オペランドであるカーネルのウェイト値に基づいて並列化された演算を行う実施例を示す図面である。

【図11】プロセッシングユニットがゼロである共有オペランドに基づいてゼロスキッピングを行う一実施例を示す図面である。

【図12】プロセッシングユニットがゼロである共有オペランドに基づいてゼロスキッピングを行う他の実施例を示す図面である。

【図13】一実施例によって、ニューラルネットワーク装置の動作方法を説明するための図面である。

【発明を実施するための形態】

【0013】

実施例で使用される用語は、主に現在広く使用されている一般の用語を選択しているが、これは、当業者の意図または判例、新たな技術の出現などによって異なる。また、特定の場合は、出願人が任意に選定した用語もあり、その場合に、該当する説明部分において詳細にその意味を記載する。したがって、明細書で使用される用語は、単なる用語の名称ではない、その用語が有する意味と明細書全般にわたる内容に基づいて定義されねばならない。

【0014】

明細書全体においてある部分がある構成要素を「含む」とするとき、これは、特に反対となる記載がない限り、他の構成要素を除外するものではなく、他の構成要素をさらに含むことができるということを意味する。また、明細書に記載の「…部」、「…モジュール」などの用語は、少なくとも１つの機能や動作を処理する単位を意味し、これは、ハードウェアまたはソフトウェアとして具現化されるか、ハードウェアとソフトウェアとの組み合わせで具現化される。

【0015】

本実施例は、ニューラルネットワークのコンボルーション演算を処理する方法及び装置に係わるものであって、以下の実施例が属する技術分野において、通常の知識を有する者に広く知られている事項については、詳細な説明を省略する。

【0016】

図１は、一実施例によるニューラルネットワークのアーキテクチャを説明するための図面である。図１を参考にすれば、ニューラルネットワーク１は、ディープニューラルネットワーク(Deep Neural Network, DNN)またはｎ階層ニューラルネットワーク(n-layers neural networks)のアーキテクチャであってもよい。ＤＮＮまたはｎ階層ニューラルネットワークは、コンボルーションニューラルネットワーク(Convolutional Neural Networks,CNN)、リカレントニューラルネットワーク(Recurrent Neural Networks,RNN)、 Deep Belief Networks, Restricted Boltzman Machinesなどに該当する。例えば、ニューラルネットワーク１は、コンボルーションニューラルネットワーク（ＣＮＮ）として具現化されるが、その限りではない。図１では、ニューラルネットワーク１の例示に該当するコンボルーションニューラルネットワークにおいて一部のコンボルーションレイヤが示されるが、コンボルーションニューラルネットワークは、示されたコンボルーションレイヤ以外にも、プーリングレイヤ(pooling layer)、フリコネクティッド(fully connected)レイヤなどをさらに含むことができる。

【0017】

ニューラルネットワーク１は、入力イメージ、フィーチャーマップ(feature maps)及び出力を含む複数のレイヤを有するアーキテクチャとして具現化される。ニューラルネットワーク１において入力イメージは、カーネル(kernel)と呼ばれるフィルターとのコンボルーション演算が行われ、その結果、フィーチャーマップが出力される。この際に、生成された出力フィーチャーマップは、入力フィーチャーマップとして再びカーネルとのコンボルーション演算が行われ、新たなフィーチャーマップが出力される。かようなコンボルーション演算が繰り返して行われた結果、最終的には、ニューラルネットワーク１を通じて入力イメージの特徴に係わる認識結果が出力される。

【0018】

例えば、図１のニューラルネットワーク１に２４×２４ピクセルサイズのイメージが入力された場合に、入力イメージは、カーネルとのコンボルーション演算を通じて２０×２０ピクセルサイズを有する４チャネルのフィーチャーマップとして出力される。以後でも、２０×２０フィーチャーマップは、カーネルとの繰り返し的なコンボルーション演算を通じてサイズが縮小しつつ、最終的には、１×１ピクセルサイズの特徴が出力される。ニューラルネットワーク１は、多くのレイヤでコンボルーション演算及びサブサンプリング（またはプーリング）演算を繰り返して行うことで、入力イメージからイメージ全体を代表することができる強靭な特徴をフィルタリングして出力し、出力された最終特徴を通じて入力イメージの認識結果を導出することができる。

【0019】

図２Ａ及び図２Ｂは、ニューラルネットワークのコンボルーション演算の例示を説明するための図面である。

【0020】

図２Ａの例示において、入力フィーチャーマップ２１０は、６×６ピクセルサイズであり、カーネル２２０は、３×３ピクセルサイズである、出力フィーチャーマップ２３０は、４×４ピクセルサイズであると仮定するが、これに制限されず、ニューラルネットワークは、多様なサイズのフィーチャーマップ及びカーネルとして具現化される。また、入力フィーチャーマップ２１０、カーネル２２０及び出力フィーチャーマップ２３０に定義された値は、いずれも例示的な値に過ぎず、本実施例は、その限りではない。

【0021】

カーネル２２０は、入力フィーチャーマップ２１０で３×３ピクセルサイズの領域（またはタイル）単位にスライディングしつつコンボルーション演算を行う。コンボルーション演算は、入力フィーチャーマップ２１０のある領域の各ピクセル値とカーネル２２０の対応位置の各エレメントのウェイト(weight)との間の乗算を行い、得た値をいずれも合算して、出力フィーチャーマップ２３０の各ピクセル値を求める演算を意味する。具体的に、カーネル２２０は、入力フィーチャーマップ２１０の第１領域２１１とコンボルーション演算を行う。すなわち、第１領域２１１の各ピクセル値１、２、３、４、５、６、７、８、９は、それぞれカーネル２２０の各エレメントのウェイト－１、－３、＋４、＋７、－２、－１、－５、＋３、＋１とそれぞれ乗算し、その結果として、－１、－６、１２、２８、－１０、－６、－３５、２４、９を得る。次いで、得た値－１、－６、１２、２８、－１０、－６、－３５、２４、９をいずれも加算した結果である１５が計算され、出力フィーチャーマップ２３０の１行１列のピクセル値２３１は、１５と決定される。ここで、出力フィーチャーマップ２３０の１行１列のピクセル値２３１は、第１領域２１１に対応する。同様の方式で、入力フィーチャーマップ２１０の第２領域２１２とカーネル２２０とのコンボルーション演算が行われることで、出力フィーチャーマップ２３０の１行２列のピクセル値２３２である４が決定される。最終的に、入力フィーチャーマップ２１０の最後のウィンドウである第１６領域２１３とカーネル２２０とのコンボルーション演算が行われることで、出力フィーチャーマップ２３０の４行４列のピクセル値２３３である１１が決定される。

【0022】

一方、図２Ａでは、２次元コンボルーション演算について説明したが、コンボルーション演算は、複数のチャネルの入力フィーチャーマップ、カーネル、出力フィーチャーマップが存在する３次元コンボルーション演算にも該当する。これについては、図２Ｂを参考にして説明する。

【0023】

図２Ｂを参考にすれば、入力フィーチャーマップ２０１は、３次元のサイズを有し、Ｘ個の入力チャネルが存在し、各入力チャネルの２次元入力フィーチャーマップは、Ｈ行Ｗ列のサイズを有する（Ｘ、Ｗ、Ｈは、自然数）。カーネル２０２は、４次元のサイズを有し、Ｒ行Ｓ列のサイズを有する２次元のカーネルがＸ個の入力チャネル及びＹ個の出力チャネルほど存在する（Ｒ、Ｓ、Ｙは、自然数）。言い換えれば、カーネル２０２は、入力フィーチャーマップ２０１の入力チャネル数Ｘ及び出力フィーチャーマップ２０３の出力チャネル数Ｙに対応する個数のチャネルを有し、各チャネルの２次元カーネルは、Ｒ行Ｓ列のサイズを有してもよい。出力フィーチャーマップ２０３は、３次元入力フィーチャーマップ２０１と４次元カーネル２０２との３次元コンボルーション演算を通じて生成され、３次元コンボルーション演算結果によって、Ｙ個のチャネルが存在する。

【0024】

１つの２次元入力フィーチャーマップと１つの２次元カーネルとのコンボルーション演算を通じて、出力フィーチャーマップが生成される過程は、前記図２Ａの説明と同一であり、図２Ａで説明した２次元コンボルーション演算が、Ｘ個の入力チャネルの入力フィーチャーマップ２０１と、Ｘ個の入力チャネル及びＹ個の出力チャネルのカーネル２０２との間で繰り返して行われることにより、Ｙ個の出力チャネルの出力フィーチャーマップ２０３が生成される。

【0025】

図３は、一実施例によるニューラルネットワーク装置のハードウェア構成を示すブロック図である。

【0026】

ニューラルネットワーク装置１００は、ＰＣ(personal computer)、サーバ装置、モバイル装置、埋め込み型装置などの多種の装置として具現化され、具体例として、ニューラルネットワークを用いた音声認識、映像認識、映像分類などを行うスマートフォン、タブレット装置、ＡＲ(Augmented Reality)装置、ＩｏＴ(Internet of Things)装置、自律走行自動車、ロボティックス、医療機器などに該当するが、その限りではない。さらに、ニューラルネットワーク装置１００は、上のような装置に搭載される専用ハードウェア加速器(HW accelerator)に該当し、ニューラルネットワーク装置１００は、ニューラルネットワーク駆動のための専用モジュールであるＮＰＵ(neural processing unit)、ＴＰＵ(Tensor Processing Unit)、Neural Engineのようなハードウェア加速器でもあるが、その限りではない。

【0027】

図３を参考にすれば、ニューラルネットワーク装置１００は、プロセッサ１１０及びメモリ１２０を含む。図３に示されたニューラルネットワーク装置１００には、本実施例に係わる構成要素のみが示されている。したがって、ニューラルネットワーク装置１００には、図３に示された構成要素以外に他の汎用的な構成要素がさらに含まれるということは、当業者に自明である。

【0028】

プロセッサ１１０は、ニューラルネットワーク装置１００でニューラルネットワークを駆動するための全般的な機能を制御する役割を担う。例えば、プロセッサ１１０は、ニューラルネットワーク装置１００内のメモリ１２０に保存されたプログラムを行うことで、ニューラルネットワーク装置１００を全般的に制御する。プロセッサ１１０は、ニューラルネットワーク装置１００内に備えられたCPU(central processing unit)、 GPU(graphics processing unit)、AP(application processor)などとして具現化されるが、その限りではない。

【0029】

メモリ１２０は、ニューラルネットワーク装置１００内で処理される各種データを保存するハードウェアであって、ニューラルネットワーク装置１００で処理されたデータ及び処理されるデータを保存することができる。また、メモリ１２０は、ニューラルネットワーク装置１００によって駆動されるアプリケーション、ドライバなどを保存することができる。メモリ１２０は、DRAM(dynamic random access memory), SRAM(static random access memory)のような RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM、ブルーレイ、または他の光学ディスクストレージ、HDD(hard disk drive)、 SSD(solid state drive)、またはフラッシュメモリを含んでもよい。

【0030】

プロセッサ１１０は、メモリ１２０からニューラルネットワークデータ、例えば、イメージデータ、フィーチャーマップデータ、カーネルデータなどを読み出し／書き込み(read/write)し、読み出し／書き込みされたデータを用いてニューラルネットワークを実行する。ニューラルネットワークが実行されるとき、プロセッサ１１０は内部に備えられたコンボルーション演算のためのプロセッシングユニットを駆動させ、出力フィーチャーマップに係わるデータを生成するための入力フィーチャーマップとカーネルとのコンボルーション演算を繰り返して行う。この際に、入力フィーチャーマップのチャネル数、カーネルのチャネル数、入力フィーチャーマップのサイズ、カーネルのサイズ、値の精度(precision)などの多様なファクターに依存してコンボルーション演算の演算量が決定される。

【0031】

プロセッサ１１０は、メモリ１２０から入力フィーチャーマップ及びカーネルを得て、入力フィーチャーマップとカーネルとの間のコンボルーション演算を処理することができる。プロセッサ１１０は、コンボルーション演算を処理するためにプロセッシングユニット１１２を含んでもよい。プロセッシングユニット１１２それぞれは並列的にコンボルーション演算を処理することができ、プロセッシングユニット１１２それぞれは、コンボルーション演算のためのロジック回路を含んでもよい。具体的に、プロセッシングユニット１１２それぞれは、乗算器(multiplier)、加算器(adder)及び累算器(accumulator)の組み合わせで具現化された演算器を含んでもよい。また、乗算器は、多数のサブ乗算器の組み合わせで具現化され、また加算器も多数のサブ加算器の組み合わせで具現化される。

【0032】

プロセッサ１１０は、コンボルーション演算を処理するためにキャッシュ(cache)機能を担当するオンチップ(on-chip)メモリ、及び入力フィーチャーマップのピクセル値、またはカーネルのウェイト値のような多様なオペランドをディスパッチするためのディスパッチャー(dispatcher)をさらに含んでもよい。具体的に、ディスパッチャーは、メモリ１２０に保存されている入力フィーチャーマップのピクセル値、カーネルのウェイト値などのデータからプロセッシングユニットが行う演算に必要なピクセル値及びウェイト値などのオペランドをオンチップメモリにディスパッチする。次いで、ディスパッチャーは、オンチップメモリにディスパッチされたオペランドをコンボルーション演算のためにプロセッシングユニットに再びディスパッチする。

【0033】

プロセッサ１１０は、プロセッシングユニット１１２が処理するオペランドを決定するコントローラ１１４を含んでもよい。コントローラ１１４は、入力フィーチャーマップとカーネルとのコンボルーション演算時に、プロセッシングユニット１１２が行う並列化された演算それぞれに共通して共有される共有オペランド(shared operand)を、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。コントローラ１１４は、一例によって、第１入力フィーチャーマップと第１カーネルとのコンボルーション演算時に、共有オペランドを第１入力フィーチャーマップのピクセル値として決定し、他の例によって、第２入力フィーチャーマップと第２カーネルとのコンボルーション演算時に、共有オペランドを第２カーネルのウェイト値として決定する。

【0034】

コントローラ１１４は、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。具体的に、コントローラ１１４は、入力フィーチャーマップ内でゼロ値を有するピクセルの比率、カーネル内でゼロ値を有するウェイトの比率、及び入力フィーチャーマップの形状のうち少なくとも１つに基づいて、共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。一例によって、コントローラ１１４は、入力フィーチャーマップ内でゼロ値を有するピクセルの比率が既設定の閾値以上である場合に、共有オペランドを入力フィーチャーマップのピクセル値として決定する。コントローラ１１４は、以前レイヤの入力フィーチャーマップ内でゼロ値を有するピクセルの比率を考慮し、現在レイヤの入力フィーチャーマップ内でゼロ値を有するピクセルの比率を決定する。他の例によって、コントローラ１１４は、カーネル内でゼロ値を有するウェイトの比率が既設定の閾値以上である場合に、共有オペランドをカーネルのウェイト値として決定する。さらに他の例によって、コントローラ１１４は、入力フィーチャーマップの入力チャネル数が多いか、及び各入力チャネルの２次元入力フィーチャーマップのサイズが小さい場合に、共有オペランドを入力フィーチャーマップのピクセル値として決定することができる。

【0035】

コントローラ１１４は、ニューラルネットワークのレイヤごとに共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。例えば、第１レイヤの入力フィーチャーマップと第１レイヤのカーネルとのコンボルーション演算時に、コントローラ１１４は、第１レイヤの共有オペランドを第１レイヤの入力フィーチャーマップのピクセル値として決定する。また、第２レイヤの入力フィーチャーマップと第２レイヤのカーネルとのコンボルーション演算時に、コントローラ１１４は、第２レイヤの共有オペランドを第２レイヤのカーネルのウェイト値として決定する。言い換えれば、コントローラ１１４は、レイヤが変更される度に、共有オペランドを入力フィーチャーマップのピクセル値からカーネルのウェイトに変更するか、共有オペランドをカーネルのウェイトから入力フィーチャーマップのピクセル値に変更する。

【0036】

プロセッシングユニット１１２は、コントローラ１１４によって決定された共有オペランドに基づいて並列化された演算を行う。一例として、第１入力フィーチャーマップのピクセル値が共有オペランドとして決定される場合に、プロセッシングユニット１１２は、オペランド対(operand pair)のうち１つとして、共通して第１入力フィーチャーマップのピクセル値をオペランドとして入力され、オペランド対のうちの残りの１つとして、第１カーネルの互いに異なるウェイト値を入力される。他の例として、第１カーネルのウェイト値が共有オペランドとして決定される場合に、プロセッシングユニット１１２は、オペランド対のうち１つとして、共通して第１カーネルのウェイト値をオペランドとして入力され、オペランド対のうちの他の１つとして、第１入力フィーチャーマップの互いに異なるピクセル値を入力される。したがって、プロセッシングユニット１１２は、共有オペランドを共通して入力されて並列化された演算を行うので、スカラーベクトル(scalar-vector)乗算を具現化する。プロセッシングユニット１１２は、並列化された演算を行って出力値を出力し、出力値は、出力フィーチャーマップに累算される。

【0037】

ニューラルネットワーク装置１００は、共有オペランドをプロセッシングユニット１１２それぞれで共有するように制御することができるので、プロセッシングユニット１１２それぞれに対する同じ制御が可能なので、ハードウェア構造を単純化し、ハードウェアコストを節減することができる。また、ニューラルネットワーク装置１００は、プロセッシングユニット１１２の共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定可能であるところ、コンボルーション演算の並列性(parallelism)をさらに効果的に用いるための側面で共有オペランドを選択する。一例によって、ニューラルネットワーク装置１００は、ゼロスキッピング(zero skipping)をより効果的に具現化するための側面で、共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。具体的な実施例は、図１１及び図１２に基づいて後述する。他の例によって、ニューラルネットワーク装置１００は、一レイヤの入力フィーチャーマップの形状によって、プロセッシングユニット１１２の並列化された演算をさらに効果的に具現化するための共有オペランドを選択する。具体的な実施例は、図６に基づいて後述する。

【0038】

また、ニューラルネットワーク装置１００は、３次元のサイズを有する入力フィーチャーマップと４次元のサイズを有するカーネルとの間の３次元コンボルーション演算を行うにあたり、入力フィーチャーマップとカーネルとの次元が互いに違っても、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つを共有オペランドに決定して並列化された演算を行うハードウェア構造を具現化することができる。

【0039】

図４は、コントローラ及びプロセッシングユニットの具体的な実施例を示す。

【0040】

コントローラ１１４は、メモリ１２０から入力フィーチャーマップ及びカーネルを得る。コントローラ１１４は、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、プロセッシングユニット１１２が共通して共有する共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。

【0041】

コントローラ１１４は、入力フィーチャーマップのピクセル値及びカーネルのウェイト値がプロセッシングユニット１１２に入力されるように制御することができ、特に、既定の共有オペランドがプロセッシングユニット１１２それぞれに共通して入力されるように制御する。一例によって、入力フィーチャーマップのピクセル値が共有オペランドとして決定される場合に、コントローラ１１４は、入力フィーチャーマップのピクセル値がプロセッシングユニット１１２それぞれに入力されるように制御し、カーネルの互いに異なるウェイト値それぞれが互いに異なるプロセッシングユニットに入力されるように制御する。言い換えれば、コントローラ１１４は、カーネルの互いに異なるウェイト値それぞれがオペランド１ないしオペランドｎとして互いに異なるプロセッシングユニットに入力されるように制御する。他の例によって、カーネルのウェイト値が共有オペランドとして決定される場合に、コントローラ１１４は、カーネルのウェイト値がプロセッシングユニット１１２それぞれに入力されるように制御し、入力フィーチャーマップの互いに異なるピクセル値それぞれが互いに異なるプロセッシングユニットに入力されるように制御する。言い換えれば、コントローラ１１４は、入力フィーチャーマップの互いに異なるピクセル値それぞれがオペランド１ないしオペランドｎとして互いに異なるプロセッシングユニットに入力されるように制御する。コントローラ１１４の制御によって、プロセッサ１１０のディスパッチャーは、共有オペランドを含むオペランド対をプロセッシングユニット１１２それぞれにディスパッチする。

【0042】

プロセッシングユニット１１２それぞれは、乗算器、加算器及び累算器の組み合わせで具現化されるところ、入力されるオペランド対に対する乗算及び加算演算を通じて出力値（出力１ないし出力ｎ）を出力し、出力値（出力１ないし出力ｎ）は、出力フィーチャーマップに累算される。また、プロセッシングユニット１１２それぞれは共有オペランドと互いに異なるオペランドとの演算を行うところ、プロセッシングユニット１１２は、スカラー（共有オペランド）とベクトル（オペランド１、オペランド２，．．．，オペランドｎ）との乗算演算を具現化する１Xｎハードウェア構造を具現化することができる。

【0043】

図５Ａ及び図５Ｂは、プロセッシングユニットが共有オペランドに基づいて並列化された演算を行う実施例を示す。

【0044】

図５Ａにおいて、コントローラ１１４は、カーネルの第１ウェイト値ｗ＿１をプロセッシングユニット１１２の共有オペランドとして決定する。次いで、コントローラ１１４は、第１ウェイト値ｗ＿１が１６個のプロセッシングユニット１１２それぞれに入力されるように制御し、入力フィーチャーマップの１６個のピクセル値ＩＦＭ１～ＩＦＭ１６それぞれが１６個のプロセッシングユニット１１２それぞれに入力されるように制御する。例えば、図５Ａで示された１６個のピクセル値ＩＦＭ１～ＩＦＭ１６は、入力フィーチャーマップＩＦＭの第１入力チャネルに該当するピクセル値であってもよい。１６個のプロセッシングユニット１１２それぞれは、入力されるオペランド対に対する演算を行い、１６個の出力値を出力し、１６個の出力値は、出力フィーチャーマップＯＦＭに累算される。

【0045】

図５Ｂにおいて、コントローラ１１４は、入力フィーチャーマップの第１ピクセル値ＩＦＭ１をプロセッシングユニット１１２の共有オペランドとして決定する。次いで、コントローラ１１４は、第１ピクセル値ＩＦＭ１がプロセッシングユニット１１２それぞれに入力されるように制御し、カーネルの１６個のウェイト値ｗ＿１～ｗ＿１６それぞれが１６個のプロセッシングユニット１１２それぞれに入力されるように制御する。例えば、カーネルの１６個のウェイト値ｗ＿１～ｗ＿１６は、カーネルの１６個の出力各チャネルのウェイト値であってもよい。１６個のプロセッシングユニット１１２それぞれは、入力されるオペランド対に対する演算を行い、１６個の出力値を出力し、１６個の出力値は、出力フィーチャーマップＯＦＭに累算される。

【0046】

図５Ａ及び図５Ｂでは、入力フィーチャーマップの１つの入力チャネルのピクセル数、カーネルの出力チャネル数、及びプロセッシングユニット１１２の個数がいずれも１６個と同一であると示されているが、これは一例示に過ぎず、それにより限定的に解釈されない。

【0047】

図６は、コントローラが入力フィーチャーマップの形状に基づいて共有オペランドを決定する実施例を示す。

【0048】

コントローラ１１４は、入力フィーチャーマップの形状に基づいてプロセッシングユニット１１２の共有オペランドを決定する。例えば、コントローラ１１４は、入力フィーチャーマップの入力チャネル数、または各入力チャネルの２次元入力フィーチャーマップのサイズを考慮して、プロセッシングユニット１１２の共有オペランドを決定する。

【0049】

一例によって、コントローラ１１４は、入力フィーチャーマップ６１０のチャネル数が少ないと判断され、入力フィーチャーマップ６１０の１チャネルの２次元入力フィーチャーマップが大きいと判断される場合に、プロセッシングユニット１１２の共有オペランドをカーネルのウェイト値として決定する傾向性を有してもよい。言い換えれば、入力フィーチャーマップ６１０の幅値（Ｗ×Ｈ）が大きく、深さ値（ｃ）が小さいと判断される場合に、プロセッシングユニット１１２の共有オペランドをカーネルのウェイト値として決定する傾向性を有してもよい。入力フィーチャーマップ６１０の幅値（Ｗ×Ｈ）が大きく、深さ値（ｃ）が小さいほど、カーネルのウェイト値を再使用(reuse)してコンボルーション演算を行うことがプロセッシングユニット１１２の並列化された演算をさらに効果的に具現化するので、コントローラ１１４は、カーネルのウェイト値を共有オペランドとして決定する。例えば、コントローラ１１４は、入力フィーチャーマップ６１０の幅値（Ｗ×Ｈ）が既設定の閾値よりも大きいか、深さ値（ｃ）が既設定の閾値よりも小さいと判断される場合に、プロセッシングユニット１１２の共有オペランドをカーネルのウェイト値として決定する。

【0050】

コントローラ１１４は、入力フィーチャーマップ６１０の入力チャネル数が多いと判断され、入力フィーチャーマップ６１０の１チャネルの２次元入力フィーチャーマップのサイズが小さいと判断される場合に、プロセッシングユニット１１２の共有オペランドを入力フィーチャーマップのピクセル値として決定する傾向性を有してもよい。言い換えれば、コントローラ１１４は、入力フィーチャーマップ６２０の幅値（Ｗ×Ｈ）が小さく、深さ値（ｃ）が大きいと判断される場合に、プロセッシングユニット１１２の共有オペランドを入力フィーチャーマップのピクセル値として決定する傾向性を有してもよい。入力フィーチャーマップ６１０の幅値（Ｗ×Ｈ）が小さく、深さ値（ｃ）が大きいほど、入力フィーチャーマップのピクセル値を再使用してコンボルーション演算を行うことがプロセッシングユニット１１２の並列化された演算をさらに効果的に具現できるので、コントローラ１１４は、入力フィーチャーマップのピクセル値を共有オペランドとして決定することができる。例えば、コントローラ１１４は、入力フィーチャーマップ６２０の幅値（Ｗ×Ｈ）が既設定の閾値よりも小さいか、深さ値（ｃ）が既設定の閾値よりも大きいと判断される場合に、プロセッシングユニット１１２の共有オペランドを入力フィーチャーマップのピクセル値として決定する。

【0051】

ニューラルネットワークのレイヤに対するコンボルーション演算が順次に進められることにより、ニューラルネットワークの前半レイヤの入力フィーチャーマップは、図６の入力フィーチャーマップ６１０と類似した形状を有し、ニューラルネットワークの後半レイヤの入力フィーチャーマップは、図６の入力フィーチャーマップ６２０と類似した形状を有してもよい。したがって、コントローラ１１４は、ニューラルネットワークの前半レイヤにおいて、プロセッシングユニット１１２の共有オペランドをカーネルのウェイト値として決定し、ニューラルネットワークの後半レイヤにおいて、プロセッシングユニット１１２の共有オペランドを入力フィーチャーマップのピクセル値として決定する。

【0052】

図７は、プロセッシングユニットが共有オペランドである入力フィーチャーマップのピクセル値に基づいて並列化された演算を行う実施例を示す。

【0053】

コントローラ１１４は、共有オペランドを入力フィーチャーマップＩＦＭのピクセル値として決定する。したがって、コントローラ１１４は、入力フィーチャーマップＩＦＭのピクセル値がプロセッシングユニット１１２それぞれに共通して入力されるように制御することができる。

【0054】

具体的に、コントローラ１１４は、入力フィーチャーマップＩＦＭの第１ピクセル値ＩＦＭ１を共有オペランドとしてプロセッシングユニット１１２それぞれに入力されるように制御し、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれがプロセッシングユニット１１２それぞれに入力されるように制御する。第１ピクセル値ＩＦＭ１は、入力フィーチャーマップＩＦＭの第０入力チャネルの（０，０）位置に該当するピクセル値であり、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれは、カーネルのｍ個の出力チャネルそれぞれで第０入力チャネルの（０，０）位置に該当するウェイト値であってもよい。

【0055】

プロセッシングユニット１１２のうち、第１プロセッシングユニットは、第１ピクセル値ＩＦＭ１とウェイト値ｗ＿１との乗算及び加算演算を行い、出力値Ｏ_０（０，０）を出力し、プロセッシングユニット１１２のうち第ｍプロセッシングユニットは、第１ピクセル値ＩＦＭ１とウェイト値ｗ＿ｍとの間の乗算及び加算演算を行い、出力値Ｏ_ｍ－１（０，０）を出力する。言い換えれば、プロセッシングユニット１１２は、スカラーとベクトルとの乗算演算であって、第１ピクセル値ＩＦＭ１とウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍとの乗算演算を行い、出力値Ｏ_０（０，０）、Ｏ_１（０，０），．．．，Ｏ_ｍ－１（０，０）を出力する。また、出力値Ｏ_０（０，０）、Ｏ_１（０，０），．．．，Ｏ_ｍ－１（０，０）それぞれは、出力フィーチャーマップＯＦＭの第０出力チャネルないし第ｍ－１出力チャネルそれぞれに累算される。

【0056】

同様に、コントローラ１１４は、入力フィーチャーマップＩＦＭの他のピクセル値を共有オペランドとして、プロセッシングユニット１１２それぞれに入力されるように制御し、カーネルの他のウェイト値それぞれがプロセッシングユニット１１２それぞれに入力されるように制御する。次いで、プロセッシングユニット１１２は、入力フィーチャーマップＩＦＭの他のピクセル値とカーネルの他のウェイト値との乗算演算を行い、出力値を出力し、出力値は、出力フィーチャーマップＯＦＭに累算される。

【0057】

図８は、プロセッシングユニットが共有オペランドである入力フィーチャーマップのピクセル値に基づいて並列化された演算を行う実施例を示す。

【0058】

コントローラ１１４は、共有オペランドを入力フィーチャーマップＩＦＭの第１ピクセル値ＩＦＭ１、第２ピクセル値ＩＦＭ２、第３ピクセル値ＩＦＭ３、及び第４ピクセル値ＩＦＭ４であると決定する。第１ピクセル値ＩＦＭ１、第２ピクセル値ＩＦＭ２、第３ピクセル値ＩＦＭ３、及び第４ピクセル値ＩＦＭ４は、入力フィーチャーマップＩＦＭの第０入力チャネルの（０，０）、（０，１）、（１，０）、及び（１，１）位置に該当するピクセル値であってもよい。コントローラ１１４は、第１ピクセル値ＩＦＭ１を共有オペランドとしてプロセッシングユニット１１２のうち第１プロセッシングユニット１７１それぞれに入力されるように制御し、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれが第１プロセッシングユニット１７１それぞれに入力されるように制御する。同様に、コントローラ１１４は、第２ピクセル値ＩＦＭ２を共有オペランドとしてプロセッシングユニット１１２のうち第２プロセッシングユニット１７２それぞれに入力されるように制御し、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれが第２プロセッシングユニット１７２それぞれに入力されるように制御する。同様に、コントローラ１１４は、第３ピクセル値ＩＦＭ３を共有オペランドとしてプロセッシングユニット１１２のうち第３プロセッシングユニット１７３それぞれに入力されるように制御し、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれが第３プロセッシングユニット１７３それぞれに入力されるように制御する。同様に、コントローラ１１４は、第４ピクセル値ＩＦＭ４を共有オペランドとしてプロセッシングユニット１１２のうち第４プロセッシングユニット１７４それぞれに入力されるように制御し、カーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍそれぞれが第４プロセッシングユニット１７４それぞれに入力されるように制御する。例えば、コントローラ１１４は、バッファ（ＩＦＭＢｕｆｆｅｒ（０，０）ないしＩＦＭＢｕｆｆｅｒ（１，１））から第１ピクセル値ＩＦＭ１ないし第４ピクセル値ＩＦＭ１それぞれが第１プロセッシングユニット１７１ないし第４プロセッシングユニット１７４それぞれに入力されるように制御し、バッファ(Weight Buffer)からウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍが第１プロセッシングユニット１７１ないし第４プロセッシングユニット１７４それぞれに入力されるように制御することができる。

【0059】

第１プロセッシングユニット１７１は、第１ピクセル値ＩＦＭ１とウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍとの乗算演算を行い、出力値Ｏ_０（０，０）、Ｏ_１（０，０），．．．，Ｏ_ｍ－１（０，０）を出力する。また、第２プロセッシングユニット１７２は、第２ピクセル値ＩＦＭ２とウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍとの乗算演算を行い、出力値Ｏ_０（０，１）、Ｏ_１（０，１），．．．，Ｏ_ｍ－１（０，１）を出力する。また、第３プロセッシングユニット１７３は、第３ピクセル値ＩＦＭ３とウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍとの乗算演算を行い、出力値Ｏ_０（１，０）、Ｏ_１（１，０），．．．，Ｏ_ｍ－１（１，０）を出力する。また、第４プロセッシングユニット１７４は、第４ピクセル値ＩＦＭ４とウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍとの乗算演算を行い、出力値Ｏ_０（１，１）、Ｏ_１（１，１），．．．，Ｏ_ｍ－１（１，１）を出力する。したがって、第１プロセッシングユニット１７１ないし第４プロセッシングユニット１７４によって出力された出力値Ｏ_{０～ｍ－１}（０，０）、Ｏ_{０～ｍ－１}（０，１）、Ｏ_{０～ｍ－１}（１，０）、Ｏ_{０～ｍ－１}（１，１）は、出力フィーチャーマップＯＦＭに累算される。

【0060】

図７及び図８で示されたＨ×Ｗのサイズを有し、ｎ個の入力チャネルで構成された入力フィーチャーマップＩＦＭ、Ｔｉ×Ｔ_ｒのサイズを有し、ｎ個の入力チャネル及びｍ個の出力チャネルで構成されたカーネル、及びＴ_ｒ×Ｔ_ｃのサイズを有し、ｍ個の出力チャネルで構成された出力フィーチャーマップＯＦＭの各数値は、一例示に過ぎず、これに限定して解釈されない。また、図７及び図８において示された入力フィーチャーマップＩＦＭの第１ピクセル値ないし第４ピクセル値の位置、及びカーネルのウェイト値ｗ＿１、ｗ＿２，．．．，ｗ＿ｍの位置は、一例示に過ぎず、これに限定して解釈されない。

【0061】

図９は、プロセッシングユニットが共有オペランドであるカーネルのウェイト値に基づいて並列化された演算を行う実施例を示す。

【0062】

コントローラ１１４は、共有オペランドをカーネルのウェイト値として決定する。したがって、コントローラ１１４は、カーネル（Ｋｅｒｎａｌ）のウェイト値がプロセッシングユニット１１２それぞれに共通して入力されるように制御することができる。
具体的に、コントローラ１１４は、カーネルの第１ウェイト値ｗ＿１を共有オペランドとしてプロセッシングユニット１１２それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭのピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４それぞれがプロセッシングユニット１１２それぞれに入力されるように制御する。カーネルの第１ウェイト値ｗ＿１は、カーネルの第０出力チャネル及び第０入力チャネルの（０，０）位置に該当するウェイト値であってもよい。第１ピクセル値ＩＦＭ１、第２ピクセル値ＩＦＭ２、第３ピクセル値ＩＦＭ３、及び第４ピクセル値ＩＦＭ４は、入力フィーチャーマップＩＦＭの第０入力チャネルの（０，０）、（０，１）、（１，０）、及び（１，１）位置に該当するピクセル値であってもよい。

【0063】

プロセッシングユニット１１２のうち第１プロセッシングユニットは、第１ウェイト値ｗ＿１と第１ピクセル値ＩＦＭ１との乗算及び加算演算を行い、出力値Ｏ_０（０，０）を出力する。同様に、プロセッシングユニット１１２のうち第２プロセッシングユニットないし第４プロセッシングユニットは、第１ウェイト値ｗ＿１と第２ピクセル値ＩＦＭ２との乗算及び加算演算、第１ウェイト値ｗ＿１と第３ピクセル値ＩＦＭ３との乗算及び加算演算、及び第１ウェイト値ｗ＿１と第４ピクセル値ＩＦＭ４との乗算及び加算演算を行い、出力値Ｏ_０（０，１）、出力値Ｏ_０（１，０）、及び出力値Ｏ_０（１，１）を出力する。言い換えれば、プロセッシングユニット１１２は、スカラーとベクトルとの乗算演算であって、第１ウェイト値ｗ＿１とピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４との乗算演算を行い、出力値Ｏ_０（０，０）、Ｏ_０（０，１）、Ｏ_０（１，０）、Ｏ_０（１，１）を出力する。また、出力値Ｏ_０（０，０）、Ｏ_０（０，１）、Ｏ_０（１，０）、Ｏ_０（１，１）それぞれは、出力フィーチャーマップＯＦＭに累算される。

【0064】

同様に、コントローラ１１４は、カーネルの他のウェイト値を共有オペランドとしてプロセッシングユニット１１２それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭの他のピクセル値それぞれがプロセッシングユニット１１２それぞれに入力されるように制御することができる。次いで、プロセッシングユニット１１２は、カーネルの他のウェイト値と入力フィーチャーマップの他のピクセル値との乗算演算を行い、出力値を出力し、出力値は、出力フィーチャーマップＯＦＭに累算される。

【0065】

図１０は、プロセッシングユニットが共有オペランドであるカーネルのウェイト値に基づいて並列化された演算を行う実施例を示す。

【0066】

コントローラ１１４は、共有オペランドをカーネルの第１ウェイト値ｗ＿１、第２ウェイト値ｗ＿２、第３ウェイト値ｗ＿３、及び第４ウェイト値ｗ＿４であると決定する。第１ウェイト値ｗ＿１、第２ウェイト値ｗ＿２、第３ウェイト値ｗ＿３、及び第４ウェイト値ｗ＿４は、第０出力チャネルないし第３出力チャネルそれぞれに対応する第０入力チャネルの（０，０）位置に該当するウェイト値であってもよい。コントローラ１１４は、第１ウェイト値ｗ＿１を共有オペランドとしてプロセッシングユニット１１２のうち第１プロセッシングユニット１９１それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭのピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４それぞれが第１プロセッシングユニット１９１それぞれに入力されるように制御することができる。同様に、コントローラ１１４は、第２ウェイト値ｗ＿２を共有オペランドとしてプロセッシングユニット１１２のうち第２プロセッシングユニット１９２それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭのピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４それぞれが第２プロセッシングユニット１９２それぞれに入力されるように制御することができる。同様に、コントローラ１１４は、第３ウェイト値ｗ＿３を共有オペランドとしてプロセッシングユニット１１２のうち第３プロセッシングユニット１９３それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭのピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４それぞれが第３プロセッシングユニット１９３それぞれに入力されるように制御することができる。同様に、コントローラ１１４は、第４ウェイト値ｗ＿４を共有オペランドとしてプロセッシングユニット１１２のうち第４プロセッシングユニット１９４それぞれに入力されるように制御し、入力フィーチャーマップＩＦＭのピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４それぞれが第４プロセッシングユニット１９４それぞれに入力されるように制御することができる。

【0067】

第１プロセッシングユニット１９１は、第１ウェイト値ｗ＿１とピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４との乗算演算を行い、出力値Ｏ_０（０，０）、Ｏ_０（０，１）、Ｏ_０（１，０）、Ｏ_０（１，１）を出力する。また、第２プロセッシングユニット１９２は、第２ウェイト値ｗ＿２とピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４との乗算演算を行い、出力値Ｏ１（０，０）、Ｏ１（０，１）、Ｏ１（１，０）、Ｏ１（１，１）を出力する。また、第３プロセッシングユニット１９３は、第３ウェイト値ｗ＿３とピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４との乗算演算を行い、出力値Ｏ_２（０，０）、Ｏ_２（０，１）、Ｏ_２（１，０）、Ｏ_２（１，１）を出力する。また、第４プロセッシングユニット１９４は、第４ウェイト値ｗ＿４とピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、ＩＦＭ４との乗算演算を行い、出力値Ｏ_３（０，０）、Ｏ_３（０，１）、Ｏ_３（１，０）、Ｏ_３（１，１）を出力する。したがって、第１プロセッシングユニット１９１ないし第４プロセッシングユニット１９４によって出力された出力値Ｏ_０（０～１、０～１）、Ｏ_１（０～１、０～１）、Ｏ_２（０～１、０～１）、Ｏ_３（０～１、０～１）は、出力フィーチャーマップＯＦＭに累算される。

【0068】

図８及び図９で示されたＨ×Ｗのサイズを有し、ｎ個の入力チャネルで構成された入力フィーチャーマップＩＦＭ、Ｔｉ×Ｔ_ｒのサイズを有し、ｎ個の入力チャネル及びｍ個の出力チャネルで構成されたカーネル（Ｋｅｒｎａｌ）、及びＴ_ｒ×Ｔ_ｃのサイズを有し、ｍ個の出力チャネルで構成された出力フィーチャーマップＯＦＭの各数値は、一例示に過ぎず、これに限定して解釈されない。また、図８及び図９で示された第１ウェイト値ｗ＿１ないし第４ウェイト値ｗ＿４の位置及びピクセル値ＩＦＭ１、ＩＦＭ２、ＩＦＭ３、またはＩＦＭ４の位置は、一例示に過ぎず、これに限定して解釈されない。

【0069】

再び図３を参照すれば、プロセッシングユニット１１２は、コントローラ１１４によって決定された共有オペランドに基づいて並列化された演算を行う。この際に、共有オペランドがゼロである場合に、プロセッシングユニット１１２は、並列化された演算を省略(skip)しうる。言い換えれば、プロセッシングユニット１１２は、共有オペランドに基づいたゼロスキッピング(zero skipping)を具現化することができる。

【0070】

コントローラ１１４は、入力フィーチャーマップのピクセル値を共有オペランドと決定する。一例によって、第１ピクセル値がゼロである場合に、プロセッシングユニット１１２は、第１ピクセル値とカーネルの第１ウェイト値との並列化された演算を省略する。したがって、プロセッシングユニット１１２は、ゼロである第１ピクセル値の代わりに、非ゼロ(non-zero)である第２ピクセル値とカーネルの第２ウェイト値との並列化された演算を行う。他の例によって、カーネルの第１ウェイト値がいずれもゼロである場合に、プロセッシングユニット１１２は、第１ピクセル値とカーネルの第１ウェイト値との並列化された演算を省略し、第２ピクセル値とカーネルの第２ウェイト値との並列化された演算を行うことができる。
コントローラ１１４は、カーネルのウェイト値を共有オペランドと決定する。一例によって、第１ウェイト値がゼロである場合に、プロセッシングユニット１１２は、第１ウェイト値と入力フィーチャーマップの第１ピクセル値との並列化された演算を省略する。したがって、プロセッシングユニット１１２は、ゼロである第１ウェイト値の代わりに、非ゼロである第２ウェイト値と第２ピクセル値との並列化された演算を行う。他の例によって、入力フィーチャーマップの第１ピクセル値がいずれもゼロである場合に、プロセッシングユニット１１２は、第１ウェイト値と第１ピクセル値との並列化された演算を省略し、第２ウェイト値と第２ピクセル値との並列化された演算を行うことができる。

【0071】

ニューラルネットワーク装置１００は、プロセッシングユニット１１２の共有オペランドに対するゼロ如何、またはプロセッシングユニット１１２の残りの全てのオペランドに対するゼロ如何を通じてゼロスキッピングを具現化するところ、ゼロスキッピングのための単純化されたハードウェア構造を具現化することができる。

【0072】

図１１は、プロセッシングユニットがゼロである共有オペランドに基づいてゼロスキッピングを行う一実施例を示す。

【0073】

プロセッシングユニット１１２は、（Ｎ－１）番目のサイクル(cycle)において、共有オペランドである入力フィーチャーマップＩＦＭの第１ピクセル値ＩＦＭ１に基づいて並列化された演算を行い、出力値を出力する。具体的に、プロセッシングユニット１１２は、入力フィーチャーマップＩＦＭの第０入力チャネルの（０，０）に位置した第１ピクセル値ＩＦＭ１と、カーネル(Kernal)の第０出力チャネルないし第ｍ－１出力チャネルそれぞれに対応する第０入力チャネルの（０，０）に位置したウェイト値との並列化された演算を行い、出力値を出力する。かような出力値それぞれは、出力フィーチャーマップＯＦＭの第０出力チャネルないし第ｍ－１出力各チャネルの（０，０）位置であるＯ０～ｍ－１（０，０）に累算される。

【0074】

次いで、プロセッシングユニット１１２は、Ｎ番目のサイクルで、入力フィーチャーマップＩＦＭの第２ピクセル値ＩＦＭ２に基づいて並列化された演算を行う。但し、第２ピクセル値ＩＦＭ２がゼロである場合に、プロセッシングユニット１１２は、第２ピクセル値ＩＦＭ２とウェイト値との並列化された演算を省略することができる。具体的に、プロセッシングユニット１１２は、入力フィーチャーマップＩＦＭの第１入力チャネルの（０，０）に位置した第２ピクセル値ＩＦＭ２と、カーネルの第０出力チャネルないし第ｍ－１出力チャネルそれぞれに対応する第１入力チャネルの（０，０）に位置したウェイト値との並列化された演算を省略することができる。

【0075】

次いで、プロセッシングユニット１１２は、Ｎ番目のサイクルで、入力フィーチャーマップＩＦＭの第３ピクセル値ＩＦＭ３に基づいて並列化された演算を行い、出力値を出力する。具体的に、プロセッシングユニット１１２は、入力フィーチャーマップＩＦＭの第２入力チャネルの（０，０）に位置した第３ピクセル値ＩＦＭ３と、カーネルの第０出力チャネルないし第ｍ－１出力チャネルそれぞれに対応する第２入力チャネルの（０，０）に位置したウェイト値との並列化された演算を行い、出力値を出力する。かような出力値それぞれは、出力フィーチャーマップＯＦＭの第０出力チャネルないし第ｍ－１出力チャネルそれぞれの（０，０）位置であるＯ_{０～ｍ－１}（０，０）に累算される。

【0076】

結果として、第２ピクセル値ＩＦＭ２がゼロである場合に、プロセッシングユニット１１２は、第１ピクセル値ＩＦＭ１に次いで、第３ピクセル値ＩＦＭ３に基づいて並列化された演算を行い、第１ピクセル値ＩＦＭ１に基づいた出力値を累算する位置及び第３ピクセル値ＩＦＭ３に基づいた出力値を累算する位置がいずれも出力フィーチャーマップＯＦＭの同じ位置にもなる。したがって、ニューラルネットワーク装置１００は、ゼロスキッピングを通じてコンボルーション演算の演算量及び演算時間を短縮しつつも、出力値が累算される位置を同一に保持するので、ニューラルネットワークのコンボルーション演算を効率よく処理することができる。

【0077】

図１２は、プロセッシングユニットがゼロである共有オペランドに基づいてゼロスキッピングを行う他の実施例を示す。

【0078】

プロセッシングユニット１１２は、（Ｎ－１）番目サイクル(cycle)で、共有オペランドであるカーネル(Kernal)の第１ウェイト値ｗ＿１に基づいて並列化された演算を行い、出力値を出力する。具体的に、プロセッシングユニット１１２は、カーネルの第０出力チャネル及び第０入力チャネルの（０，０）に位置した第１ウェイト値ｗ＿１と、入力フィーチャーマップＩＦＭの第０入力チャネルの（０～１、０～１）に位置したピクセル値との並列化された演算を行い、出力値を出力する。かような出力値それぞれは、出力フィーチャーマップＯＦＭの第０出力チャネルの（０～１、０～１）であるＯ_０（０～１、０～１）に累算される。

【0079】

次いで、プロセッシングユニット１１２は、Ｎ番目サイクルで、カーネルの第２ウェイト値ｗ＿２に基づいて並列化された演算を行う。但し、第２ウェイト値ｗ＿２がゼロである場合に、プロセッシングユニット１１２は、第２ウェイト値ｗ＿２とピクセル値との並列化された演算を省略する。具体的に、プロセッシングユニット１１２は、カーネルの第０出力チャネル及び第１入力チャネルの（０，０）に位置した第２ウェイト値ｗ＿２と、入力フィーチャーマップＩＦＭの第１入力チャネルの（０～１、０～１）に位置したピクセル値との並列化された演算を省略する。

【0080】

次いで、プロセッシングユニット１１２は、Ｎ番目サイクルで、カーネルの第３ウェイト値ｗ＿３に基づいて並列化された演算を行い、出力値を出力する。具体的に、プロセッシングユニット１１２は、カーネルの第０出力チャネル及び第２入力チャネルの（０，０）に位置した第３ウェイト値ｗ＿３と、入力フィーチャーマップＩＦＭの第２入力チャネルの（０～１、０～１）に位置したピクセル値との並列化された演算を行い、出力値を出力する。かような出力値それぞれは、出力フィーチャーマップＯＦＭの第０出力チャネルの（０～１、０～１）であるＯ_０（０～１、０～１）に累算される。

【0081】

結果として、第２ウェイト値ｗ＿２がゼロである場合に、プロセッシングユニット１１２は、第１ウェイト値ｗ＿１に次いで、第３ウェイト値ｗ＿３に基づいて並列化された演算を行い、第１ウェイト値ｗ＿１に基づいた出力値を累算する位置及び第３ウェイト値ｗ＿３に基づいた出力値を累算する位置がいずれも出力フィーチャーマップＯＦＭの同じ位置にもなる。したがって、ニューラルネットワーク装置１００は、ゼロスキッピングを通じてコンボルーション演算の演算量及び演算時間を短縮しつつも、出力値が累算される位置を同一に保持するので、ニューラルネットワークのコンボルーション演算を効率よく処理することができる。

【0082】

図１３は、一実施例によって、ニューラルネットワーク装置の動作方法を説明するための図面である。図１３に示された方法は、図３ないし図１２のニューラルネットワーク装置１００の各構成要素によって行われ、重複する説明については省略する。

【0083】

段階１３１０において、ニューラルネットワーク装置１００は、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、並列化された演算それぞれに共通して共有される共有オペランド(shared operand)を、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。ニューラルネットワーク装置１００は、一例によって、第１入力フィーチャーマップと第１カーネルとのコンボルーション演算時に、共有オペランドを第１入力フィーチャーマップのピクセル値として決定し、他の例によって、第２入力フィーチャーマップと第２カーネルとのコンボルーション演算時に、共有オペランドを第２カーネルのウェイト値として決定する。

【0084】

ニューラルネットワーク装置１００は、入力フィーチャーマップの特徴及びカーネルの特徴のうち少なくとも１つに基づいて、共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。具体的に、ニューラルネットワーク装置１００は、入力フィーチャーマップ内でゼロ値を有するピクセルの比率、カーネル内でゼロ値を有するウェイトの比率、及び入力フィーチャーマップの形状のうち少なくとも１つに基づいて、共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。

【0085】

ニューラルネットワーク装置１００は、ニューラルネットワークのレイヤごとに共有オペランドを、入力フィーチャーマップのピクセル値およびカーネルのウェイト値のうちのいずれか１つとして決定する。例えば、第１レイヤの入力フィーチャーマップと第１レイヤのカーネルとのコンボルーション演算時に、ニューラルネットワーク装置１００は、第１レイヤの共有オペランドを第１レイヤの入力フィーチャーマップのピクセル値として決定する。また、第２レイヤの入力フィーチャーマップと第２レイヤのカーネルとのコンボルーション演算時に、ニューラルネットワーク装置１００は、第２レイヤの共有オペランドを第２レイヤのカーネルのウェイト値として決定する。

【0086】

段階１３２０において、ニューラルネットワーク装置１００は、共有オペランドに基づいて並列化された演算を行う。一例として、第１入力フィーチャーマップのピクセル値が共有オペランドとして決定される場合に、ニューラルネットワーク装置１００は、第１入力フィーチャーマップのピクセル値と第１カーネルのウェイト値との並列化された演算を行う。他の例で、第１カーネルのウェイト値が共有オペランドとして決定される場合に、ニューラルネットワーク装置１００は、第１カーネルのウェイト値と第１入力フィーチャーマップのピクセル値との並列化された演算を行う。ニューラルネットワーク装置１００は、並列化された演算を通じて出力された出力値を出力フィーチャーマップに累算する。

【0087】

ニューラルネットワーク装置１００は、既定の共有オペランドがゼロである場合に、並列化された演算を省略(skip)することができる。一例によって、第１ピクセル値がゼロである場合に、ニューラルネットワーク装置１００は、第１ピクセル値とカーネルの第１ウェイト値との並列化された演算を省略する。したがって、ニューラルネットワーク装置１００は、ゼロである第１ピクセル値の代わりに、非ゼロ(non-zero)である第２ピクセル値とカーネルの第２ウェイト値との並列化された演算を行う。他の例によって、第１ウェイト値がゼロである場合に、ニューラルネットワーク装置１００は、第１ウェイト値と入力フィーチャーマップの第１ピクセル値との並列化された演算を省略する。したがって、ニューラルネットワーク装置１００は、ゼロである第１ウェイト値の代わりに、非ゼロである第２ウェイト値と第２ピクセル値との並列化された演算を行う。

【0088】

一方、前述した方法は、コンピュータで実行されるプログラムで作成可能であり、コンピュータで読み取り可能な記録媒体を用いて前記プログラムを動作させる汎用デジタルコンピュータで具現化される。また、前述した方法で使用されたデータの構造は、コンピュータで読み取り可能な記録媒体に多くの手段を通じて記録される。前記コンピュータで読み取り可能な記録媒体は、マグネチック記録媒体（例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ、ＵＳＢ、フロッピーディスク、ハードディスクなど）、光学的記録媒体（例えば、ＣＤ－ＲＯＭ、ＤＶＤなど）のような記録媒体を含む。

【0089】

本実施例に係わる技術分野で通常の知識を有する者は、前記記載の本質的な特性から脱しない範囲で変形された形態として具現化される可能性があるということを理解できるであろう。したがって、開示された方法は、限定的な観点ではなく、説明的な観点で考慮されねばならず、権利範囲は、前述した説明ではなく、特許請求の範囲に示しており、それと同等な範囲内にある全ての相違点を含むものと解釈されねばならない。

【符号の説明】

【0090】

１００ニューラルネットワーク装置
１１０プロセッサ
１１４コントローラ
１１２プロセッシングユニット
１２０メモリ
１７１第１プロセッシングユニット
１７２第２プロセッシングユニット
１７３第３プロセッシングユニット
１７４第４プロセッシングユニット
１９１第１プロセッシングユニット
１９２第２プロセッシングユニット
１９３第３プロセッシングユニット
１９４第４プロセッシングユニット
２０１入力フィーチャーマップ
２０２カーネル
２０３、２３０出力フィーチャーマップ
２１０入力フィーチャーマップ
２２０カーネル
２１１第１領域
２１２第２領域
２１３第１６領域
２３０出力フィーチャーマップ
２３１ピクセル値
２３２ピクセル値

【図1】