特開2022-141064 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ オムロン株式会社の特許一覧

特開2022-141064処理装置、処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022141064

(43)【公開日】2022-09-29

(54)【発明の名称】処理装置、処理方法、およびプログラム

(51)【国際特許分類】

G06F 17/10 20060101AFI20220921BHJP

G06F 12/02 20060101ALI20220921BHJP

G06N 3/063 20060101ALI20220921BHJP

【ＦＩ】

G06F17/10 A

G06F12/02 510A

G06N3/063

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021041201

(22)【出願日】2021-03-15

(71)【出願人】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】特許業務法人秀和特許事務所

(72)【発明者】

【氏名】澤田龍樹

【テーマコード（参考）】

5B056

5B160

【Ｆターム（参考）】

5B056BB26

5B160AA12

5B160AB13

(57)【要約】

【課題】畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現する。
【解決手段】各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置は、前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する配置手段と、前記配置データをプロセッサにより読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理手段と、を有し、前記複数の領域のそれぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数の整数倍に対応する大きさであって、前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する。
【選択図】図３

【特許請求の範囲】

【請求項1】

各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置であって、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する配置手段と、
前記配置データをプロセッサにより読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理手段と、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とする処理装置。

【請求項2】

前記配置手段は、前記複数の領域のデータをメインメモリ上で列方向に連結して前記配置データとして配置する、
ことを特徴とする請求項１に記載の処理装置。

【請求項3】

前記配置手段は、前記配置データを配置する場合に、前記複数の領域のうち隣接する２つの領域の間に前記フィルタのデータを有する行を配置する、
ことを特徴とする請求項２に記載の処理装置。

【請求項4】

前記複数の領域のそれぞれは、さらに、前記フィルタのサイズから１を引いた数の行だけ他の領域の行と重複したデータを有する、
ことを特徴とする請求項１から３のいずれか１項に記載の処理装置。

【請求項5】

前記配置データの各行の先頭のメモリアドレスは、前記プロセッサが一括で読み出せるメモリアドレスの数の整数倍のメモリアドレスである、
ことを特徴とする請求項１から４のいずれか１項に記載の処理装置。

【請求項6】

前記入力データは、複数のチャンネルに渡るデータであり、
前記配置手段は、前記複数の領域に対して列、行、チャンネルの順で優先順序を決定し、前記複数の領域のデータを前記優先順序に従いメインメモリ上で列方向に連結して前記配置データとして配置する、
ことを特徴とする請求項１から５のいずれか１項に記載の処理装置。

【請求項7】

前記処理手段は、前記畳み込み処理を行う場合には、
前記フィルタのサイズ分の数の行のデータブロックであって、前記配置データにおいて列方向に連続する第１の複数の行のデータブロックを前記配置データから読み出してレジスタに格納し、
前記第１の複数の行の各行のデータブロックに対して、行方向へのシフトする処理およびフィルタの１つのセルの値を乗算する処理を行う、
ことを特徴とする請求項１から６のいずれか１項に記載の処理装置。

【請求項8】

前記処理手段は、前記畳み込み処理を行う場合には、
前記第１の複数の行の各行のデータブロックを１セル分だけ行方向にシフトしたデータブロックから、前記第１の複数の行の各行のデータブロックを前記フィルタのサイズから１引いた数のセル分だけ行方向にシフトしたデータブロックまでのそれぞれのデータブロックと、前記第１の複数の行の各行のデータブロックとを取得し、
取得したデータブロックのそれぞれに対して、前記第１の複数の行のうちの当該データブロックが対応する行と当該データブロックをシフトした量とに対応する前記フィルタのセルが示す値を乗算することにより、第２の複数の行のデータブロックを取得し、
前記第２の複数の行の各行のデータブロックにおける対応する位置のセルの値同士を合計する、
ことを特徴とする請求項７に記載の処理装置。

【請求項9】

各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置のプロセッサが実行する処理方法であって、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する配置ステップと、
前記配置データをプロセッサにより読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理ステップと、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とする処理方法。

【請求項10】

各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置のプロセッサが処理方法を実行するためのプログラムであって、
前記処理方法は、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する配置ステップと、
前記配置データをプロセッサにより読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理ステップと、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、畳み込みニューラルネットワークに用いる処理装置、処理方法、およびプログラムに関する。

【背景技術】

【0002】

従来、機械学習の分野において、畳み込みニューラルネットワーク（ＣＮＮ；Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）と呼ばれるモデルを用いて、画像や動画の認識が行われている。例えば、画像の認識では、畳み込み層とプーリング層を使って入力画像を変換しながら、データ量を徐々に小さくしていき、最終的に各カテゴリの確率の値を出力する。

【0003】

ここで、ＣＮＮの畳み込み層では、入力データにおけるそれぞれの局所領域（例えば、３×３のセルの領域）に対して、フィルタをかけ合わせること（フィルタ処理；畳み込み処理）が行われる。畳み込み処理では、入力データの同じセルのデータが何度も（例えばフィルタのセル（係数）の数と同じ回数）メインメモリ（ＲＡＭ）から読み出される可能性がある。しかも、１つの畳み込み層において、数十から数百のフィルタが用いられる。このため、メインメモリからのデータ読み出しの回数が極めて多く、これがＣＮＮの処理の高速化を阻むボトルネックとなっていた。

【0004】

特許文献１では、ＣＮＮの畳み込み層の効率的実装のために、複数のチャンネルに渡っている入力データを並び替えることが行われている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０１８／０６７６０３号

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、特許文献１では、入力データを単純に分割して並び替えているだけなので、例えば、元の入力データにおいて分割の境目に位置するセルでは、並び替え後には隣接関係が大きく変化してしまう。このため、元の入力データにおいて分割の境目に位置するセルに対してフィルタ処理を行う場合には、並び替えた後のデータの様々な位置のセルを参照する必要がある。このため、メインメモリからレジスタへの並び替え後のデータの読み出し処理などに多くの処理数を要し、効率的な畳み込み層の処理が実現できなかった。

【0007】

そこで、本発明は、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために本発明は、以下の構成を採用する。

【0009】

すなわち、本発明の一側面に係る処理装置は、各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置であって、前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する配置手段と、前記配置データをプロセッサにより読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理手段と、を有し、前記複数の領域のそ
れぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数の整数倍に対応する大きさであって、前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有することを特徴とする処理装置である。

【0010】

このように、複数の領域のそれぞれの行方向の大きさが、プロセッサが一括で読み出し可能なセルの数（ワードサイズ）の整数倍であることによれば、一括で所定数のセルからデータを読み出せるプロセッサが、対象の領域から所定数未満のセルのデータしか読み出さないことを防げる。つまり、プロセッサの読み出し能力を最大限に活用できる。また、配置データには重畳領域が存在するため、フィルタ処理の対象のセルの周囲に、当該フィルタ処理に必要な他のセルが集まっている状態になる。このため、プロセッサは、メインメモリからの読み出し回数を低減しながら、畳み込み層のフィルタ処理を実行可能である。従って、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。なお、ここで、フィルタのサイズとは、ｎセル×ｎセルのフィルタであれば、ｎセル分の大きさである。

【0011】

上記処理装置において、前記配置手段は、前記複数の領域のデータをメインメモリ上で列方向に連結（接続）して前記配置データとして配置してもよい。これによれば、複数の領域のうちの１つの領域に、当該領域に関するフィルタ処理を実行するために必要なセル（データ）が集約される。このため、プロセッサは、メインメモリからの読み出し回数を低減しながら、畳み込み層のフィルタ処理を実行可能である。従って、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。

【0012】

上記処理装置において、前記配置手段は、前記配置データを配置する場合に、前記複数の領域のうち隣接する２つの領域の間に前記フィルタのデータを有する行を配置してもよい。これによれば、例えば、チャンネル数分のフィルタのデータを常に、プロセッサにおける複数のレジスタが格納しておく必要がなくなるため、レジスタをより効果的にフィルタ処理に用いることが可能になる。

【0013】

上記処理装置において、前記複数の領域のそれぞれは、さらに、前記フィルタのサイズから１を引いた数の行だけ他の領域の行と重複したデータを有していてもよい。行が重複していることによれば、フィルタ処理を実行する場合に、複数の領域のうちの他の領域を参照せずにフィルタ処理を実行することができる。このため、配置データにおいて一度読み出した行を再度読み出すことなく、畳み込み層の処理ができるため、畳み込み層の処理が効率化できる。

【0014】

上記処理装置において、前記配置データの各行の先頭のメモリアドレスは、前記プロセッサが一括で読み出せるメモリアドレスの数の整数倍のメモリアドレスであってもよい。これによれば、配置データの各行の先頭のメモリアドレスを、メインメモリのメモリブロックの先頭のメモリアドレスに合わせることができる。このため、不要なメモリブロックにアクセスすることを抑制できるため、プロセッサのメインメモリからの読み出し処理が効率化する。

【0015】

上記処理装置において、前記入力データは、複数のチャンネルに渡るデータであり、前記配置手段は、前記複数の領域に対して列、行、チャンネルの順で優先順序を決定し、前記複数の領域のデータを前記優先順序に従いメインメモリ上で列方向に連結して前記配置データとして配置してもよい。このような配置によれば、フィルタ処理を行う場合に、同じ列かつ同じ行でチャンネルのみが異なる領域に対して、連続的に処理を実行することができる。このため、１つのチャンネルに対して実行したフィルタ処理の結果を中間結果としてレジスタに格納させている間に、他のレジスタを用いて他のチャンネルのフィルタ処理を実行できる。つまり、１つのチャンネルの中間結果をメインメモリに読み書きする処
理の発生を抑制できるので、全てのチャンネルについての中間結果を合計する必要のある畳み込み層の処理を効率的に実行できる。

【0016】

上記処理装置において、前記処理手段は、前記畳み込み処理を行う場合には、前記フィルタのサイズ分の数の行のデータブロックであって、前記配置データにおいて列方向に連続する第１の複数の行のデータブロックを前記配置データから読み出してレジスタに格納し、前記第１の複数の行の各行のデータブロックに対して、行方向へのシフトする処理およびフィルタの１つのセルの値を乗算する処理を行ってもよい。これによれば、１つのデータブロックが有する複数のデータに対して一括で演算処理を適用することができるので、結果的に、複数の局所領域に対して一括でフィルタ処理を実行することができる。このため、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。

【0017】

上記処理装置において、前記処理手段は、前記畳み込み処理を行う場合には、前記第１の複数の行の各行のデータブロックを１セル分だけ行方向にシフトしたデータブロックから、前記第１の複数の行の各行のデータブロックを前記フィルタのサイズから１引いた数のセル分だけ行方向にシフトしたデータブロックまでのそれぞれのデータブロックと前記第１の複数の行の各行のデータブロックとを取得し、取得したデータブロックのそれぞれに対して、前記第１の複数の行のうちの当該データブロックが対応する行と当該データブロックをシフトした量とに対応する前記フィルタのセルが示す値を乗算することにより、第２の複数の行のデータブロックを取得し、前記第２の複数の行の各行のデータブロックにおける対応する位置のセルの値同士を合計してもよい。

【0018】

本発明は、上記手段の少なくとも一部を有する装置として捉えてもよいし、電子機器や制御システム、情報処理システム、情報処理装置、処理システム、データ配置装置として捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む制御方法、処理方法、配置方法して捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体（記憶媒体）として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合せて本発明を構成することができる。

【発明の効果】

【0019】

本発明によれば、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。

【図面の簡単な説明】

【0020】

【図1】図１Ａは処理装置の簡易的な構成図であり、図１Ｂはプロセッサの内部構成図である。

【図2】図２は、畳み込み層の処理を説明する図である。

【図3】図３は、データ配置処理のフローチャートである。

【図4】図４Ａは入力データを表す図であり、図４Ｂは配置データを表す図である。

【図5】図５は、選択領域の優先順序を説明する図である。

【図6】図６は、データ配置処理を行わない場合のフィルタ処理を説明する図である。

【図7】図７は、フィルタ処理を説明する図である。

【発明を実施するための形態】

【0021】

以下、本発明を実施するための実施形態について図面を用いて記載する。

【0022】

まず、畳み込みニューラルネットワーク（ＣＮＮ）について説明する。ＣＮＮは、畳み込み層とプーリング層を含む。画像などの入力データは、畳み込み層とプーリング層とに
おける処理のセットが繰り返し実行されることによって、データ量が減少していく。そして、最終的には、例えば、当該画像が所定の物体（例えば、人、顔、犬などの動物）である確率の値が出力データとして出力される。

【0023】

畳み込み層では、例えば、図２に示すように、画像の各画素のＲ，Ｇ，Ｂのそれぞれチャンネルについて、画素値を２次元状に示したマトリクスが入力データとして入力される。そして、畳み込み層では、入力画像の各チャンネルの局所領域２０１～２０３（例えば、３×３の領域）に対して、カーネルと呼ばれるフィルタ２１１～２１３をかけ合わせる（適用する）。このように、一般的には、チャンネルの数、またはそれ以上の数だけ、入力データに適用するためのフィルタが必要になる。その後、局所領域２０１にフィルタ２１１をかけた値と、局所領域２０２にフィルタ２１２をかけた値と、局所領域２０３にフィルタ２１３をかけた値とを、合計することによって当該局所領域（当該局所領域の中心のセル）に対応する出力２２０（出力値Ｖ２２）を得る。ここで、例えば、局所領域２０１にフィルタ２１１をかけた結果は、局所領域２０１とフィルタ２１１とにおける３×３の領域の対応する位置の数値同士を乗算した結果を合計する処理によって、式１に示す値のように算出できる。なお、以下では、入力データ（局所領域）に基づき出力２２０を有するような出力データを生成する処理を「畳み込み処理」と呼ぶ。また、「畳み込み処理」の一部の処理であって、局所領域に対してフィルタをかけ合わせる処理を、「フィルタ処理」と呼ぶ。

【数1】

【0024】

プーリング層では、畳み込み層で処理された後のマトリクスについて、局所領域ごとに、情報を処理して出力する。例えば、２×２の領域における最大値や平均値などが、その局所領域に対応する出力値として出力される。

【0025】

＜適用例＞
以下では、各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理（フィルタ処理）を行う処理装置１について説明する。処理装置１は、入力データから複数の領域（選択領域）を選択して、複数の選択領域のデータを連結しメインメモリ上の連続したアドレスに配置データとして配置する。そして、処理装置１は、配置データをプロセッサにより読み出して、畳み込み処理を行う。このとき、処理装置１は、複数の選択領域のそれぞれの行方向の大きさを、プロセッサが一括で読み出し可能なセルの数（ワードサイズ）の整数倍に対応する大きさにする。また、処理装置１は、複数の選択領域のそれぞれが、フィルタサイズから１を引いた数の列だけ他の選択領域の列と重畳したデータ（重畳領域）を有するように、複数の選択領域を選択する。

【0026】

複数の選択領域のそれぞれの行方向の大きさがワードサイズの整数倍であることによれば、一括で所定数のセルからデータを読み出せるプロセッサが、対象の選択領域から所定数未満のセルのデータしか読み出さないことを防げる。つまり、プロセッサの読み出し能力を最大限に活用できる。また、配置データには重畳領域が存在するため、フィルタ処理の対象のセルの周囲に、当該フィルタ処理に必要な他のセルが集まっている状態になる。このため、プロセッサは、メインメモリからの読み出し回数を低減しながら、畳み込み処理を実行可能である。従って、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。

【0027】

＜実施形態１＞
以下では、図１Ａ、図１Ｂを参照して、実施形態１に係る処理装置１の構成について説明する。図１Ａは、処理装置１の簡易的な構成図である。処理装置１は、ＰＣ、サーバ、スマートフォンなどの任意の処理装置（処理端末）であってよい。処理装置１は、プロセッサ１０、記憶装置２０、入出力装置３０、バス４０を有する。

【0028】

プロセッサ１０（ＣＰＵ；中央処理装置）は、処理装置１における各構成（装置）を制御する。例えば、入出力装置３０に対して入力されたユーザ指示に従って、記憶装置２０に記憶されたデータを用いた制御をする。プロセッサ１０は、複数のレジスタ１１（一般的には、１６個または３２個のレジスタ１１）を有する。

【0029】

複数のレジスタ１１のそれぞれは、データを一時的に格納する記憶回路である。複数のレジスタ１１のそれぞれは、記憶装置２０（メインメモリ２１）よりも高速にデータの読み書きをすることができる。このため、プロセッサ１０は、複数のレジスタ１１にデータを一時的に格納しながら、各種の処理を実行する。なお、複数のレジスタ１１は、演算などの用途が特定された複数の専用レジスタと、用途が特定されていない複数の汎用レジスタを有する。複数のレジスタ１１のそれぞれは、例えば、１６ｂｉｔのデータを８セット格納することができる。このため、例えば、複数のレジスタ１１のそれぞれは、入力データの８つのセルのデータを一括で格納することもできる。

【0030】

記憶装置２０は、プロセッサ１０が処理を行うためのデータを記憶（記録）する。記憶装置２０は、ハードディスク、ＲＡＭ（メインメモリ２１；ＲａｎｄｏｍＡｃｃｅｓｓ
Ｍｅｍｏｒｙ）、データを非一時的に記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）を含む。ＲＯＭは、例えば、ＯＳ（ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍ）のバイオスや、プロセッサ１０が動作するためのプログラムを記憶する。

【0031】

メインメモリ２１は、入力データやフィルタなどのデータを一時的に記憶する。メインメモリ２１では、１ビットの情報を記憶するメモリセルが２次元状（行方向および列方向）に広がっている。なお、メインメモリ２１は処理装置１から取り外し可能であってもよく、この場合には、処理装置１をメモリ制御装置として捉えることができる。なお、上述のように、フィルタは、入力データのチャンネルの数（またはそれ以上の数）だけ必要であるので、メインメモリ２１には入力データのチャンネル分のフィルタのデータが記憶される。

【0032】

また、メインメモリ２１は、所定のブロック（以下、メモリブロックと称する）単位でデータを記憶する。このため、例えば、１つのメモリブロックのサイズが４Ｂｙｔｅである場合には、各メモリブロックの先頭のメモリアドレスは、４Ｂｙｔｅの整数倍になる。一方で、プロセッサ１０は、ワード（プロセッサ１０が一括して読み出し可能なセルの数またはビット数）単位で、メインメモリ２１からデータを一括で読み出すことができる。このため、プロセッサ１０が読み出し要求するデータが、メインメモリ２１における２つのメモリブロックに渡っている場合には、プロセッサ１０は２回のメモリアクセスをする必要がある。従って、プロセッサ１０がメインメモリ２１にアクセスする場合には、アクセスの対象となるメモリブロックの数を少なくすることが、高速なメモリアクセスを実現する。なお、プロセッサ１０は、１行における複数のセルから一括でデータを読み出すことはできるが、１列における複数のセルから一括でデータを読み出すことはできない。

【0033】

入出力装置３０は、ユーザの指示（操作）を受け付ける入力装置と、プロセッサ１０による処理後のデータを出力する出力装置を有する。入力装置は、例えば、マウス、キーボード、タッチパネル、ボタン、ダイヤル、マイク（音声入力装置）、姿勢検知装置（ジャ
イロセンサ）、温度センサなどを含む。出力装置は、例えば、ディスプレイ（表示装置）、スピーカー（音声出力装置）、プリンタなどを含む。

【0034】

バス４０は、プロセッサ１０と記憶装置２０と入出力装置３０との間の通信を行うための経路である。プロセッサ１０は、バス４０を介して、記憶装置２０からデータを取得して、当該データを用いて処理を実行し、処理後のデータを記憶装置２０に記憶させることができる。

【0035】

（プロセッサの内部構成）
続いて、図１Ｂを参照して、プロセッサ１０の内部構成を説明する。図１Ｂは、入力データの再配置や畳み込み処理（フィルタ処理）などに用いられるプロセッサ１０の内部構成図である。プロセッサ１０は、取得部１０１、配置部１０２、処理部１０３を有する。これらの構成は、専用のロジック回路により実現されてもよいし、プロセッサ１０がプログラムを実行することによりソフトウエア的に実現されてもよい。

【0036】

取得部１０１は、ＣＮＮの入力データ（図２参照）をメインメモリ２１やプーリング層から取得する。ここで、例えば、入力データは、複数のチャンネル（例えば、それぞれがＲＢＧのいずれかの画素値を示すチャンネルＲ、チャンネルＢ、チャンネルＢ）に渡るデータを有する。各チャンネルにおいて、１つ１つがデータを有するセルが２次元状に広がっている。なお、入力データは、複数のチャンネルを有している必要はなく、単一のチャンネルのみを有していてもよい。

【0037】

配置部１０２は、入力データにおいて、所定の大きさの複数の領域を選択領域として選択する。また、配置部１０２は、選択領域のデータを所定の順序（優先順序）で連結（接続）するように配置していき、配置データとしてメインメモリ２１に記憶させる。これによって、入力データを並び変えた配置データがメインメモリ２１に記憶される。そして、処理部１０３は、メインメモリ２１に記憶された配置データをレジスタ１１に読み出して、畳み込み層における畳み込み処理（フィルタ処理）を実行する。

【0038】

［データ配置処理］
以下では、上述したデータ配置処理の詳細な処理を図３のフローチャートを用いて説明する。図３のフローチャートの処理は、プロセッサ１０がＲＯＭに記憶されたプログラムを実行することによって実現する。

【0039】

ステップＳ１００１では、取得部１０１は、ＣＮＮの畳み込み層に用いられる入力データを取得する。

【0040】

ステップＳ１００２では、配置部１０２は、入力データから複数の領域を選択領域として選択する。ここでは、複数の選択領域のそれぞれの行方向の大きさが、上述のワード（プロセッサ１０が一括で読み出し可能なセルの数）のサイズの整数倍であるように、配置部１０２は、複数の選択領域を選択する。また、複数の選択領域のそれぞれが、フィルタのサイズから１を引いた数の列だけ他の選択領域の列と重複したデータを有するように、配置部１０２は、複数の選択領域を選択する。ここで、フィルタのサイズとは、３×３のセルを有するフィルタであれば、３セル分の大きさである。なお、複数の選択領域のそれぞれが、フィルタのサイズから１を引いた数の行だけ他の選択領域の行と重複したデータを有していてもよい。

【0041】

ステップＳ１００３では、配置部１０２は、選択した全ての選択領域から、配置する順序を表す優先順序を決定する。具体的には、配置部１０２は、列、行、チャンネルの順で、全ての選択領域における優先順序を決定する。

【0042】

例えば、配置部１０２が、図４Ａに示すような選択領域ＣＨ＿Ｒ１１，ＣＨ＿Ｒ２１，ＣＨ＿Ｒ３１，ＣＨ＿Ｇ１１，ＣＨ＿Ｇ２１，ＣＨ＿Ｇ３１，ＣＨ＿Ｂ１１，ＣＨ＿Ｂ２１，ＣＨ＿Ｂ３１を、入力データから選択したと仮定する。この場合には、チャンネルよりも行が優先されるため、配置部１０２は、選択領域ＣＨ＿Ｒ１１，ＣＨ＿Ｇ１１，ＣＨ＿Ｂ１１，ＣＨ＿Ｒ２１，ＣＨ＿Ｇ２１，ＣＨ＿Ｂ２１，ＣＨ＿Ｒ３１，ＣＨ＿Ｇ３１，ＣＨ＿Ｂ３１の順を優先順序として決定する（図４Ｂ参照）。

【0043】

また、例えば、図５に示すような選択領域ＣＨ＿Ｒ１１，ＣＨ＿Ｒ１２，ＣＨ＿Ｒ１３，ＣＨ＿Ｒ２１，ＣＨ＿Ｒ２２，ＣＨ＿Ｒ２３，ＣＨ＿Ｒ３１，ＣＨ＿Ｒ３２，ＣＨ＿Ｒ３３を、入力データから選択したと仮定する。この場合には、行よりも列が優先されるため、配置部１０２は、選択領域ＣＨ＿Ｒ１１，ＣＨ＿Ｒ２１，ＣＨ＿Ｒ３１，ＣＨ＿Ｒ１２，ＣＨ＿Ｒ２２，ＣＨ＿Ｒ３２，ＣＨ＿Ｒ１３，ＣＨ＿Ｒ２３，ＣＨ＿Ｒ３３の順を優先順序として決定する。

【0044】

ステップＳ１００４では、配置部１０２は、優先順序に従って、選択領域のデータを連結して配置データを生成する。例えば、配置部１０２は、図４Ａに示すように、入力データから選択領域を選択していた場合には、選択領域ＣＨ＿Ｒ１１を先頭に、選択領域ＣＨ＿Ｇ１１，ＣＨ＿Ｂ１１，ＣＨ＿Ｒ２１と優先順序に従って列方向に連結するように配置していく。配置部１０２は、このように選択した複数の選択領域を配置することによって、配置データを生成する。

【0045】

ステップＳ１００５では、配置部１０２は、配置データをメインメモリ２１に記憶させる。なお、配置部１０２は、配置データの各行の先頭のメモリアドレスが、プロセッサ１０が一括で読み出せるメモリアドレスの数（個数）の整数倍のメモリアドレスであるように、配置データを配置するとよい。ここで、プロセッサ１０が一括で読み出せるメモリアドレスの数（個数）は一般的にメインメモリ２１の１つのメモリブロックが含むメモリアドレスの数と同等または整数倍である。このため、配置データの各行の先頭のメモリアドレスを、メインメモリ２１のメモリブロックの先頭のメモリアドレスに一致させることができる。従って、メインメモリ２１のワードサイズ分のセルからプロセッサ１０がデータを一括で読み出す場合に、読み出しの対象のメモリブロックの数を少なくできるため、メモリアクセスを行う回数を少なくできる。

【0046】

本実施形態のように、複数の選択領域それぞれの行方向の大きさがワードのサイズの整数倍であれば、プロセッサ１０が１つの選択領域の１つの行を読み出す場合に、選択領域からワードサイズずつ読み出して、ワードサイズずつの読み出しから余ったセルのみ読み出すといった処理が不要になる。従って、プロセッサ１０によるメインメモリの不要な読み出しを減らすことができるので、畳み込み層での処理が効率化する。

【0047】

なお、上述のようにプロセッサ１０は、１行に並んだ複数のセルから一括でデータを読み出すことはできるが、１列に並んだ複数のセルから一括でデータを読み出すことはできない。従って、複数の選択領域それぞれの列方向の大きさは、フィルタサイズよりも大きければ任意の大きさであってもよい。ここで、レジスタ１１の数が十分に多い場合には、複数の選択領域それぞれの列方向の大きさを大きくすることで、フィルタ処理の対象の選択領域の切り替わりを少なくできる。このため、レジスタ１１へのデータの読み込みおよびレジスタ１１のデータの解放の処理を少なくできる。一方で、レジスタ１１の数が少ない場合には、複数の選択領域それぞれの列方向の大きさを小さくすることで、１つの選択領域に対するフィルタ処理の算出結果（中間結果）をレジスタ１１に格納しておくだけの余裕ができる。このため、結果的に中間結果をメインメモリ２１に一時的に書き込み、その後、中間結果をメインメモリ２１から読み出すという処理の発生を抑制できる。従って
、プロセッサ１０は、複数の選択領域それぞれの列方向の大きさを、レジスタ１１の個数などに基づき、決定するとよい。また、プロセッサ１０は、複数の選択領域それぞれの列方向の大きさを実験的に様々な大きさにして畳み込み層の処理を行って、結果として最も早く処理が可能なものを最終的な複数の選択領域それぞれの列方向の大きさとしてもよい。

【0048】

また、本実施形態では、複数の選択領域のそれぞれが、フィルタのサイズから１を引いた数の列だけ他の選択領域の列と重複したデータを有する。なお、複数の選択領域のそれぞれが、フィルタのサイズから１を引いた数の行だけ他の選択領域の行と重複したデータを有していてもよい。ここで、選択領域間でデータが重複させずに、例えば、選択領域の端のセルについてフィルタ処理を行う場合、入力データにおける当該端のセルの周囲のセルのデータも用いる必要がある。このため、このような場合には、プロセッサ１０は、他の選択領域（メインメモリ２１の他のメモリブロック）から当該周囲のセルのデータを読み出す必要がある。一方、本実施形態のようにデータが重複していれば、その重複部分のセルのデータを用いて、フィルタ処理を実行できるため、他の選択領域のセルからプロセッサ１０がデータを読み出す必要がなくなる。よって、プロセッサ１０によるメインメモリ２１の不要な読み出しを減らすことができるので、畳み込み処理（畳み込み層での処理）が効率化する。

【0049】

［優先順序に従って配置することの効果］
また、以下では、列、行、チャンネルの順で、全ての選択領域における優先順序を決定して、当該優先順序に従って選択領域を配置することの効果を説明する。

【0050】

（優先順序に従って配置しない場合）
まず、優先順序に従って配置しない場合のプロセッサ１０がメインメモリ２１からデータを読み出す際の処理の一例を説明する。データ配置処理を行わない場合、図４Ａに示すような、複数のチャンネルに渡っている入力データに対して畳み込み層における処理が行われる。そして、この場合には、プロセッサ１０は、例えば、チャンネルＲの先頭行の先頭列のデータから順に、複数のレジスタ１１に格納していき、レジスタ１１に格納されたデータに基づきフィルタ処理を実行する。ここで、例えば、フィルタのサイズが３×３であった場合、図６に示すように、左上から順に、３行のワードサイズのブロックＢＬＫ１～ＢＬＫ３（データブロック）をレジスタ１１に格納する。これによって、プロセッサ１０は、３つのブロックとフィルタを用いた計算により、フィルタ処理による出力値が計算できる。その後、プロセッサ１０は、ブロックＢＬＫ１～ＢＬＫ３の次の列（右方向）に移動して、３つのブロックＢＬＫ４～ＢＬＫ６をレジスタ１１に格納して、フィルタと掛け合わせて出力値を計算する。なお、例えば、ブロックＢＬＫ１～ＢＬＫ３とブロックＢＬＫ４～ＢＬＫ６とに跨る局所領域に対してフィルタ処理を行う場合には、プロセッサ１０は、ブロックＢＬＫ１～ＢＬＫ６の６つをレジスタ１１に格納して、これらのブロックのデータを用いてフィルタ処理を行う。つまり、１つの局所領域に対してフィルタ処理を行う場合に、取得したブロックのデータを格納しておくために、６個（フィルタサイズの２倍）のレジスタが必要になることがある。

【0051】

そして、このような処理を繰り返して、先頭の３行のデータを用いたフィルタ処理が終了すると、２行目～４行目のデータに対して同様の処理を行う。このとき、複数のレジスタ１１の数にも限りがあるので、初期のフィルタ処理に用いたブロックについてのデータは、複数のレジスタ１１から破棄されてしまう。これによれば、プロセッサ１０は、３行目のブロックＢＬＫ３のセルを中心とする局所領域についてフィルタ処理を実行しようとする場合に、再度、ブロックＢＬＫ２，ＢＬＫ３を読み出す必要がある。このため、本実施形態の優先順序に従って配置しない場合には、１つのセルのデータが、フィルタのサイズの数だけ複数のメインメモリ２１から読み出される可能性がある。

【0052】

（優先順序に従って配置する場合）
続いて、本実施形態に係るデータ配置処理を行う場合のプロセッサ１０がメインメモリ２１からデータを読み出す際の処理を説明する。本実施形態では、図４Ａに示す入力データを、図４Ｂに示すような配置データに配置し直して、当該配置データを用いてプロセッサ１０は、フィルタ処理を実行する。

【0053】

ここで、例えば、各選択領域の行の大きさがワードサイズと同じであると仮定する。この場合、プロセッサ１０は、配置データを１行ずつ列方向に連続で（行順で）読み出して、レジスタ１１にそれぞれ格納していく。そして、そのレジスタ１１に格納されたデータを用いてフィルタ処理を実行する。なお、各選択領域は、列方向および行方向に、フィルタサイズから１を引いた分の行および列だけ他の選択領域と重複したデータを有するとする。この場合には、プロセッサ１０は、配置データを行順に読み出せば、過去に配置データから読み出した行を再度読み出して、フィルタ処理に用いるということを行わなくてよい。つまり、プロセッサ１０によるレジスタ１１への読み出し処理を連続的にする（単純化する）ことができる。

【0054】

そして、図２を用いて説明したように、複数のチャンネルそれぞれに対してフィルタ処理をした結果（中間結果）を合計することによって、畳み込み層の出力値は算出される。これに対応すべく、配置データでは、複数のチャンネルにおいて対応する位置（対応する列および行）の選択領域が連続して連結されるように配置されている。これによれば、プロセッサ１０は、例えば、チャンネルＲの選択領域、これに対応するチャンネルＧの選択領域、チャンネルＢの選択領域を連続してフィルタ処理することができる。このため、チャンネルＲの選択領域に対してフィルタ処理した結果をレジスタ１１に保持した状態で、チャンネルＧの選択領域、チャンネルＢの選択領域をフィルタ処理できる可能性が向上する。従って、例えば、プロセッサ１０が、チャンネルＲの選択領域に対してフィルタ処理した結果をメインメモリ２１に記憶し、チャンネルＧ，Ｂ選択領域をフィルタ処理し終わった後に、メインメモリ２１からチャンネルＲの選択領域に対してフィルタ処理した結果を読み出すという処理が不要になる。よって、畳み込み層における処理が効率化できる。

【0055】

［本実施形態に係るフィルタ処理について］
ここで、図７を参照して、本実施形態に係るフィルタ処理について具体的に説明する。以下では、選択領域の列方向に連続する、３行のブロック７１０，７２０，７３０（３行のデータブロック）とフィルタ７５０を用いて、ブロック７２０に含まれる複数のセル（Ｒ２２～Ｒ２７の値を有するセル）それぞれを中心とする局所領域に対するフィルタ処理について説明する。なお、ブロック７１０，７２０，７３０のそれぞれは、ワードサイズと同一の８つのセルを有しており、レジスタ１１に一時的に格納されるものとする。また、フィルタ７５０のサイズは、３セル分のサイズである（３セル×３セルである）とする。

【0056】

まず、プロセッサ１０の処理部１０３は、ブロック７１０から、ブロック７１０、ブロック７１０を左方向（行方向）に１セル分シフトしたブロック７１１、ブロック７１０を左方向に２セル分シフトしたブロック７１２を取得する。つまり、処理部１０３は、対象のブロックから、フィルタサイズから１を引いた値のセル分だけ対象のブロックを左にシフトしたブロックまでのそれぞれを取得する。そして、処理部１０３は、ブロック７１０の各セルの値にフィルタ７５０の１行１列目のセルの値ａを一括に乗算したブロック７１５を取得する。同様に、処理部１０３は、ブロック７１１の各セルの値にフィルタ７５０の１行２列目のセルの値ｂを一括に乗算したブロック７１６を取得し、ブロック７１０の各セルの値にフィルタ７５０の１行３列目のセルの値を一括に乗算したブロック７１７を取得する。つまり、３行のブロックのうち１行目に対応するブロック７１０～７１２には
、フィルタ７５０の１行目のセルの値を乗算する。このとき、ブロック７１０～７１２のそれぞれについて、フィルタにおける、当該ブロックのシフトの量に応じた列（位置）のセルの値をブロック７１０～７１２に乗算する。

【0057】

このような処理を、ブロック７２０，７３０についても同様に行うことにより、処理部１０３は、図７に示す、ブロック７２０，７３０をシフトした、ブロック７２０～７２２，７３０～７３２を取得する。また、処理部１０３は、ブロック７２０～７２２，７３０～７３２のそれぞれに、フィルタ７５０のうちの対応するセルの値（３つのブロック７１０，７２０，７３０のうち対象のブロックが対応するブロック（行）、および対象のブロックのシフト量に、対応するセルの値）を乗算することによって、ブロック７２５，７２６，７２７，７３５，７３６，７３７を取得する。

【0058】

そして、処理部１０３は、ブロック７１５～７１７，７２５～７２７，７３５～７３７の同じ位置（列）のセルの値を合計することによって、Ｒ２２～Ｒ２７を有するセルを中心とする局所領域についての出力値ｖ２２～ｖ２７を算出できる。

【0059】

なお、出力値ｖ２２～ｖ２７を算出するにあたっては、上述の算出順序である必要はなく、最適化された算出順序であってよい。例えば、処理部１０３は、ブロック７１５～ブロック７１７の同一の位置のセルの値を合計した後にその値を１つのレジスタ１１に格納し、ブロック７２０に基づき、ブロック７２０～ブロック７２３を取得し、さらにブロック７２５～７２７を取得する順序で処理を行ってもよい。これによれば、ブロック７１５～ブロック７１７の値を格納していた３つのレジスタ１１のうち少なくとも一部は、格納しているデータを解放（破棄）できる。このため、少ないレジスタ１１の数で、フィルタ処理が可能になる。

【0060】

このようにフィルタ処理が行われることによれば、複数のセル（本実施形態では６つのセル）について一括でフィルタ処理を実行することができる。このため、１つ１つのセルについて、フィルタ処理を実行する場合よりも、大幅に処理数を減少させることができる。なお、このような一括の処理は、例えば、単一の命令で複数のデータに対して同じ処理を行うことができるＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａ）と呼ばれる処理方式を用いることで実現できる。

【0061】

そして、本実施形態では、メインメモリの配置データにおいて、複数の選択領域のそれぞれの行方向の大きさは、プロセッサが一括で読み出し可能なセルの数（ワードサイズ）の整数倍に対応する大きさである。これによれば、一括で所定数のセルからデータを読み出せるプロセッサが、選択領域から所定数未満のセルのデータしか読み出さないことを防げる。つまり、プロセッサの読み出し能力を最大限に活用できる。

【0062】

さらに、複数の選択領域のそれぞれは、フィルタのサイズから１を引いた数の列（および行）だけ他の選択領域の列（および行）と重複したデータを有する。これによれば、フィルタ処理の対象のセルの周囲に、当該フィルタ処理に必要な他のセルが集まっている状態になる。このため、メインメモリからの不要な読み出しを行う必要性が低減できるので、プロセッサは、メインメモリからの読み出し回数を低減しながら、畳み込み層のフィルタ処理を実行可能である。

【0063】

従って、畳み込みニューラルネットワークの畳み込み層の処理を効率的に実現できる。

【0064】

なお、ステップＳ１００４において、配置部１０２は、２つの選択領域のデータを連結する場合に、当該２つの選択領域の間にフィルタのデータを差し込んでもよい。つまり、配置データにおいて、配置部１０２は、隣接する２つの選択領域の間に、フィルタのデー
タを有する行が配置されていてもよい。このとき、２つの選択領域のうちフィルタよりも後に連結される選択領域に対して当該フィルタを用いたフィルタ処理を実行するために、当該選択領域に対応するフィルタのデータが差し込まれる。これによれば、例えば、チャンネル数分のフィルタのデータを常に、複数のレジスタ１１が格納しておく必要がなくなるため、レジスタ１１をより効果的にフィルタ処理に用いることが可能になる。

【0065】

なお、実施形態に記載された事項のみによって特許請求の範囲の記載の解釈が限定されるものではない。特許請求の範囲の記載の解釈には、出願時の技術常識を考慮した、発明の課題が解決できることを当業者が認識できるように記載された範囲も含む。

【0066】

（付記１）
各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置（１）であって、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ（２１）上の連続したアドレスに配置データとして配置する配置手段（１０２）と、
前記配置データをプロセッサ（１０）により読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理手段（１０３）と、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサ（１０）が一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とする処理装置（１）。

【0067】

（付記２）
各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置（１）のプロセッサ（１０）が実行する処理方法であって、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ（２１）上の連続したアドレスに配置データとして配置する配置ステップ（Ｓ１００５）と、
前記配置データをプロセッサ（１０）により読み出して、前記配置データに対してフィルタを用いた畳み込み処理を行う処理ステップと、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサ（１０）が一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とする処理方法。

【0068】

（付記３）
各セルにデータを有する２次元データである入力データであって、畳み込みニューラルネットワークの畳み込み層の入力データに対する畳み込み処理を行う処理装置（１）のプロセッサ（１０）が処理方法を実行するためのプログラムであって、
前記処理方法は、
前記入力データから複数の領域を選択して、前記複数の領域のデータを連結しメインメモリ（２１）上の連続したアドレスに配置データとして配置する配置ステップ（Ｓ１００５）と、
前記配置データをプロセッサ（１０）により読み出して、前記配置データに対してフィ
ルタを用いた畳み込み処理を行う処理ステップと、
を有し、
前記複数の領域のそれぞれの行方向の大きさは、プロセッサ（１０）が一括で読み出し可能なセルの数の整数倍に対応する大きさであって、
前記複数の領域のそれぞれは、前記フィルタのサイズから１を引いた数の列だけ他の領域の列と重複したデータを有する、
ことを特徴とするプログラム。

【符号の説明】

【0069】

１：処理装置、１０：プロセッサ、１１：レジスタ、
２０：記憶装置、２１：メインメモリ、３０：入出力装置、４０：バス、
１０１：取得部、１０２：配置部、１０３：処理部

【図1】