特開2024-172950 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2024-172950演算装置、演算方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024172950

(43)【公開日】2024-12-12

(54)【発明の名称】演算装置、演算方法

(51)【国際特許分類】

G06N 3/08 20230101AFI20241205BHJP

【ＦＩ】

G06N3/08

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023091032

(22)【出願日】2023-06-01

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】美馬和大

(72)【発明者】

【氏名】吉永幹

(57)【要約】

【課題】ニューラルネットワークの演算とオンライン学習とを並列に実行可能な技術を提供すること。
【解決手段】ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する（第１処理）。第１特徴と、オンライン学習において更新対象となる第２係数と、を用いてニューラルネットワークの演算を行って第２特徴を取得する。第２係数と過去に取得した第２特徴とを用いてオンライン学習を行うことで該第２係数を更新する。第１処理と更新とは並列に実行される。
【選択図】図５

【特許請求の範囲】

【請求項1】

ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理手段と、
前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理手段と、
前記第２係数と、前記第２処理手段が過去に取得した第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新する更新手段と
を備え、
前記第１処理手段による処理と前記更新手段による処理とは並列に実行される
ことを特徴とする演算装置。

【請求項2】

前記第１処理手段は、フレームと前記第１係数とを用いて該フレームの第１特徴を取得し、
前記第２処理手段は、前記フレームの第１特徴と、前記第２係数と、を用いて前記フレームの第２特徴を取得する
ことを特徴とする請求項１に記載の演算装置。

【請求項3】

前記第１処理手段は、第２フレームの第１特徴を取得し、
前記更新手段は、前記第２係数と、前記第２フレームよりも過去に入力された第１フレームの第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新し、
前記第２処理手段は、前記第２フレームの第１特徴と、前記更新手段により更新された第２係数と、を用いて前記第２フレームの第２特徴を取得する
ことを特徴とする請求項２に記載の演算装置。

【請求項4】

さらに、
前記第１係数を保持する第１メモリと、
前記第２係数を保持する第２メモリと
を備え、
前記第１処理手段は、前記第１特徴を前記第１メモリに格納し、
前記第２処理手段は、前記第２特徴を前記第２メモリに格納する
ことを特徴とする請求項１に記載の演算装置。

【請求項5】

さらに、
前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理手段を備えることを特徴とする請求項１に記載の演算装置。

【請求項6】

ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理手段と、
前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理手段と、
前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理手段と、
前記第２係数と前記第１特徴とに基づいて前記オンライン学習を行うことで該第２係数を更新する更新手段と
を備え、
前記第３処理手段による処理と前記更新手段による処理とは並列に実行される
ことを特徴とする演算装置。

【請求項7】

前記更新手段は、
前記第２係数と前記第１特徴とを用いて前記第２処理手段による演算と等価の演算を行って得られる特徴と、該第２係数と、を用いて該第２係数を更新する
ことを特徴とする請求項６に記載の演算装置。

【請求項8】

前記演算装置は組み込み機器であることを特徴とする請求項１に記載の演算装置。

【請求項9】

演算装置による演算方法であって、
前記演算装置の第１処理手段が、ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理工程と、
前記演算装置の第２処理手段が、前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理工程と、
前記演算装置の更新手段が、前記第２係数と、前記第２処理工程で過去に取得した第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新する更新工程と
を備え、
前記第１処理工程と前記更新工程とは並列に実行される
ことを特徴とする演算方法。

【請求項10】

演算装置による演算方法であって、
前記演算装置の第１処理手段が、ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理工程と、
前記演算装置の第２処理手段が、前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理工程と、
前記演算装置の第３処理手段が、前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理工程と、
前記演算装置の更新手段が、前記第２係数と前記第１特徴とに基づいて前記オンライン学習を行うことで該第２係数を更新する更新工程と
を備え、
前記第３処理工程と前記更新工程とは並列に実行される
ことを特徴とする演算方法。

【請求項11】

コンピュータを、請求項１ないし８のいずれか１項に記載の演算装置の各手段として機能させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークの演算とオンライン学習を実行するための技術に関する。

【背景技術】

【0002】

画像中の物体を検出する手法として、ニューラルネットワークを用いた物体検出処理がある。また、動画像において、ある時刻の画像（フレーム）中の検出された物体を、以降その物体が動画像中に存在する間検出し続ける技術である、物体追跡を必要とするシステムがある。検出された追跡対象の物体は、同じ種類の物体でも撮影環境や、物体そのものにより特徴が少しずつ異なる。特徴の差異が物体追跡の精度低下を招く場合がある。

【0003】

物体追跡の精度向上のために、オンライン学習が用いられる。非特許文献１では、ニューラルネットワークを用いた物体追跡の手法が開示されている。オンライン学習は、ニューラルネットワークによる推論結果を用いて、その重み係数の一部を更新する処理である。

【0004】

一方、デジタルカメラなどの組み込み撮像機器は、限られた演算性能とメモリ容量で必要とされる処理を実現しなければならない。特許文献１に開示の演算装置は、畳み込み演算部とＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によってニューラルネットワーク演算とその後の後処理を効率的に実行している。これに加えて、オンライン学習処理を加えた場合においても、ニューラルネットワーク演算の性能低下を抑制しつつオンライン学習処理を実行できる演算装置が要望される。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開2021-9566号公報

【非特許文献】

【0006】

【非特許文献1】“Discriminative and Robust Online Learning for Siamese Visual Tracking”, J. Zhou et al., Vol 34 No 07: AAAI-20 Technical Tracks 7（2020）

【発明の概要】

【発明が解決しようとする課題】

【0007】

オンライン学習では、ニューラルネットワークの重み係数を更新するために推論結果を利用する。したがって、オンライン学習では、推論の結果を取得後、該結果を利用してニューラルネットワークの重み係数の更新処理を実行しなければならない。この場合、１フレームあたりの処理時間は、推論時間とオンライン学習の処理時間の総和となる。オンライン学習を適用することで、適用しない場合と比較して１フレームあたりの処理時間が増加し、物体追跡のフレームレートが悪化する。よって、処理時間の増大を抑制しつつ推論とオンライン学習を実行可能な演算技術が望まれる。本発明は、ニューラルネットワークの演算とオンライン学習とを並列に実行可能な技術を提供する。

【課題を解決するための手段】

【0008】

本発明の一様態は、ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理手段と、前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理手段と、前記第２係数と、前記第２処理手段が過去に取得した第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新する更新手段とを備え、前記第１処理手段による処理と前記更新手段による処理とは並列に実行されることを特徴とする。

【発明の効果】

【0009】

本発明によれば、ニューラルネットワークの演算とオンライン学習とを並列に実行可能な技術を提供することができる。

【図面の簡単な説明】

【0010】

【図1】ニューラルネットワークの演算とオンライン学習の概要を示すブロック図。

【図2】ニューラルネットワークタスクとオンライン学習タスクを実行するための従来の演算装置の構成例を示すブロック図。

【図3】ニューラルネットワークタスクおよびオンライン学習タスクを実行する場合におけるＣＰＵ２０３およびＣＮＮ処理部２０１のそれぞれの動作の一例を示す図。

【図4】演算装置の構成例を示すブロック図。

【図5】ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成を示すブロック図。

【図6】メモリ４０２およびメモリ４０６に格納するデータを示す図。

【図7】演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクを説明するための図。

【図8】ＣＰＵ４０３の動作を示すフローチャート。

【図9】ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成を示すブロック図。

【図10】メモリ４０２およびメモリ４０６に格納するデータを示す図。

【図11】演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクを説明するための図。

【図12】ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成を示すブロック図。

【図13】メモリ４０２およびメモリ４０６に格納するデータを示す図。

【図14】演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクを説明するための図。

【図15】ＣＰＵ４０３の動作を示すフローチャート。

【発明を実施するための形態】

【0011】

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0012】

［第１の実施形態］
本実施形態の要点を明確にするために、一般的な演算装置によるニューラルネットワークの演算とオンライン学習の実行方法について説明し、その後、本実施形態について説明する。

【0013】

ニューラルネットワークの演算とオンライン学習の概要を図１のブロック図に示す。ニューラルネットワークタスク１０２では、画像１０１と、ニューラルネットワークの係数１０４と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って特徴１０３を生成する、または係数１０４と前回のニューラルネットワーク演算で生成された特徴１０３とを用いてニューラルネットワーク演算を行って新たな特徴１０３を生成する。ニューラルネットワークには、たとえば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、以下ＣＮＮと称する）などの階層型ニューラルネットワークを適用することができる。

【0014】

一方、オンライン学習タスク１０５では、ニューラルネットワークタスク１０２で生成された特徴１０３の一部１０６を用いて、その特徴の生成に利用した係数１０４の一部１０７を更新する。

【0015】

オンライン学習タスク１０５では、ニューラルネットワークタスク１０２が参照する係数１０４と、該ニューラルネットワークタスク１０２によって生成される特徴１０３と、を利用する。然るに、オンライン学習タスク１０５は、ニューラルネットワークタスク１０２の完了後に実行する必要がある。

【0016】

ニューラルネットワークタスクとオンライン学習タスクを実行するための従来の演算装置の構成例について、図２のブロック図を用いて説明する。メモリ２０２には、ニューラルネットワークタスクやオンライン学習タスクで用いられる画像、係数、特徴が格納される。

【0017】

ＣＮＮ処理部２０１は、メモリ２０２から画像と係数を読み出し、該読み出した画像と係数とを用いた畳み込み演算を行うことで特徴を生成し、該生成した特徴をメモリ２０２に格納する。

【0018】

ＣＰＵ２０３は、メモリ２０２から学習対象の係数とそれに関連する特徴とを読み出し、該読み出した係数および特徴を用いてオンライン学習を実行することで該係数を更新し、該更新した係数をメモリ２０２に格納する。

【0019】

メモリ２０２は同時に１つのアクセス要求を受け付けるシングルポートメモリである。メモリ２０２へのアクセスは、不図示の選択機能によりＣＮＮ処理部２０１またはＣＰＵ２０３のアクセス要求を選択してメモリ２０２へ伝達される。

【0020】

ＣＰＵ２０３は、ＣＮＮ処理部２０１の動作開始を示す開始信号２０４をＣＮＮ処理部２０１へ通知する。開始信号２０４は、不図示のシステムバスに接続されている開始制御レジスタにＣＰＵ２０３から開始を示す値を書き込むことで発生させる。ＣＮＮ処理部２０１は、該開始信号２０４の通知を受けるとニューラルネットワークタスク１０２を実行する。ＣＮＮ処理部２０１は、ニューラルネットワークタスク１０２が完了すると、該ニューラルネットワークタスク１０２が完了したことを示す割り込み信号２０５をＣＰＵ２０３へ通知する。

【0021】

ＣＰＵ２０３は、割り込み信号２０５の通知を受けるとオンライン学習タスク１０５を実行する。そしてＣＰＵ２０３は、オンライン学習タスク１０５が完了すると、上記の開始信号２０４をＣＮＮ処理部２０１へ通知する。

【0022】

このように、割り込み信号２０５と開始信号２０４によって、ＣＰＵ２０３とＣＮＮ処理部２０１との間で処理タイミングの協調制御を行う。次に、このような従来の演算装置におけるＣＮＮ処理部２０１およびＣＰＵ２０３のそれぞれの実行タイミング、メモリ２０２へのアクセスに相当するメモリ活性状態について、図３を用いて説明する。

【0023】

図３は、フレーム１、該フレーム１に後続するフレーム２、のそれぞれ対してニューラルネットワークタスクおよびオンライン学習タスクを実行する場合におけるＣＰＵ２０３およびＣＮＮ処理部２０１のそれぞれの動作の一例を示している。フレーム１およびフレーム２のいずれに対しても、同様のニューラルネットワークタスクおよびオンライン学習タスクを実行する。

【0024】

ＣＰＵ２０３はＣＮＮ処理部２０１に対して、該ＣＮＮ処理部２０１の動作開始を示す開始信号２０４を通知する。ＣＮＮ処理部２０１は、開始信号２０４を検出すると、フレーム１のニューラルネットワークタスク１０２の実行を開始する。ニューラルネットワークタスク１０２実行中のメモリ活性状態３０８は、ニューラルネットワークタスク１０２の実行に必要な画像１０１（フレーム１）および係数１０４のメモリ２０２からの読み出し、ニューラルネットワークタスク１０２の実行により生成される特徴１０３のメモリ２０２への書き込み、を含む。ニューラルネットワークタスク１０２が完了すると、ＣＮＮ処理部２０１はＣＰＵ２０３に対して割り込み信号２０５を通知する。ＣＰＵ２０３は、割り込み信号２０５を検出すると、フレーム１のオンライン学習タスク１０５の実行を開始する。オンライン学習タスク１０５実行中のメモリ活性状態３０９は、オンライン学習タスク１０５の実行に必要な一部１０６及び一部１０７のメモリ２０２からの読み出し、オンライン学習タスク１０５により更新した一部１０７のメモリ２０２への書き込み、を含む。オンライン学習タスク１０５が完了すると、ＣＰＵ２０３はＣＮＮ処理部２０１に対して開始信号を通知する。ＣＮＮ処理部２０１は、該開始信号を検出すると、フレーム２のニューラルネットワークタスク１０２の実行を開始する。フレーム２のニューラルネットワークタスク１０２では、フレーム１のオンライン学習タスク１０５で更新された係数を用いる。

【0025】

ニューラルネットワークタスクに利用する係数をオンライン学習によって更新することで、推論精度の向上が期待できる。しかしながら、ニューラルネットワークタスクの実行後にオンライン学習タスクを実行する図３の方式の場合、１フレームあたりの処理時間がオンライン学習の処理時間分増加し、フレームレートの低下を招くおそれがある。

【0026】

フレームレート低下を抑制するために、演算装置の動作周波数を高くすることが考えられる。しかし、演算装置の動作周波数を高くすると、消費電力を増大させることになり、その場合、バッテリ駆動の組み込み機器（撮像機器など）の場合、稼働時間の低下が懸念される。

【0027】

本実施形態では、ニューラルネットワークタスクとオンライン学習タスクを部分的に重複させて並列に実行することで、１フレームあたりの処理時間を抑制する。しかし、ここまでに説明した一般的な演算装置を用いてニューラルネットワークタスクとオンライン学習タスクを部分的に重複させて並列に実行する場合、次に示す課題が生じる。まず、メモリ２０２に対して、ニューラルネットワークタスクを処理するＣＮＮ処理部２０１からのアクセスとオンライン学習タスクを実行するＣＰＵ２０３からのアクセスとが同時に発生することがある。メモリ２０２はシングルポート構成のため、調停機能によって一方のアクセスを処理し、他方のアクセスを待機させる必要がある。この待機時間が生じることによって、ＣＮＮ処理部２０１とＣＰＵ２０３による並列実行を妨げることがある。これを解決する方法の一つとして、メモリ２０２をシングルポートからＣＮＮ処理部２０１とＣＰＵ２０３それぞれの専用のアクセスポートを持つデュアルポートメモリにすることが考えられる。これにより、ＣＮＮ処理部２０１とＣＰＵ２０３がメモリ２０２に同時にアクセスすることができるため、同時アクセスによる待機時間を抑制することができる。しかしながら、オンライン学習タスクでは、同一フレームのニューラルネットワークタスクにより得られる特徴をメモリ２０２から読み出し、係数の更新を行う必要がある。このようにＣＮＮ処理部２０１とＣＰＵ２０３のように複数の処理部で共有するデータには、データアクセスの排他制御を行う必要がある。この排他制御には、ＣＰＵ２０３により実行されるソフトウェアや専用のハードウェアによる管理がなされることがあり、排他制御にはＣＰＵ２０３の処理負荷やハードウェアリソース増加のおそれが考えられる。

【0028】

ここまでの説明のとおり、一般的な演算装置を利用してニューラルネットワークタスクとオンライン学習タスクとを逐次実行することは可能であるが、並列実行は困難である。ニューラルネットワークタスクとオンライン学習タスクとを並列実行するためには、メモリアクセス競合を抑制するためのメモリ構成、データ配置およびオンライン学習タスクの実行タイミングの制御方法を工夫する必要がある。

【0029】

本実施形態に係る演算装置の構成例について、図４のブロック図を用いて説明する。ＣＮＮ処理部４０１は、メモリ４０２およびメモリ４０６の両方にアクセス（データの読み書き）可能であり、メモリ４０２やメモリ４０６に格納されているデータを用いてニューラルネットワークタスクを実行する。

【0030】

ＣＰＵ４０３は、メモリ４０２にはアクセス（データの読み書き）できず、メモリ４０６にアクセス（データの読み書き）可能であり、メモリ４０６に格納されているデータを用いてオンライン学習タスクを実行する。

【0031】

ＣＰＵ４０３はＣＮＮ処理部４０１に対して、該ＣＮＮ処理部４０１の動作開始を示す開始信号４０４を通知する。開始信号４０４は、不図示のシステムバスに接続されている開始制御レジスタにＣＰＵ４０３から開始を示す値を書き込むことで発生させる。ＣＮＮ処理部４０１は、開始信号４０４を検出すると、ニューラルネットワークタスクの実行を開始する。ニューラルネットワークタスクが完了すると、ＣＮＮ処理部４０１はＣＰＵ４０３に対して割り込み信号４０５を通知する。このようにして、割り込み信号４０５と開始信号４０４によって、ＣＰＵ４０３とＣＮＮ処理部４０１との間で処理タイミングの協調制御を行う。

【0032】

メモリ４０２は、ＣＮＮ処理部４０１が占有できるメモリであり、メモリ４０６はＣＮＮ処理部４０１とＣＰＵ４０３が共有するメモリである。メモリ４０２およびメモリ４０６は、１つのアクセス要求（メモリ内のデータを読み出す読み出し要求／メモリにデータを書き込む書き込み要求）を受け付けるシングルポートメモリである。メモリ４０６へのアクセスは、不図示の選択機能によりＣＮＮ処理部４０１またはＣＰＵ４０３からのアクセス要求を選択してメモリ４０６へ伝達される。

【0033】

次に、ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成について、図５のブロック図を用いて説明する。本実施形態では、ＣＮＮ処理部４０１が実行するニューラルネットワークタスクは、オフライン層タスク５０２、オンライン層タスク５０６、の２つのタスクに分けられており、この順で実行される。

【0034】

オフライン層タスク５０２は、ニューラルネットワークタスクの中で「オンライン学習タスク５０５によって更新されないニューラルネットワークの係数を利用するニューラルネットワークタスク」であり、静的ネットワーク演算タスクである。この場合、オフライン層タスク５０２では、画像５０１と、オンライン学習タスク５０５によって更新されないニューラルネットワークの第１係数５０４と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って第１特徴５０３を生成する。

【0035】

オンライン層タスク５０６は、ニューラルネットワークタスクの中で「オンライン学習タスク５０５によって更新されるニューラルネットワークの係数（更新対象）を利用するニューラルネットワークタスク」であり、動的ネットワーク演算タスクである。この場合、オンライン層タスク５０６では、オフライン層タスク５０２で生成された第１特徴５０３と、オンライン学習タスク５０５によって更新されるニューラルネットワークの第２係数５０８と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って第２特徴５０７を生成する。

【0036】

一方、ＣＰＵ４０３はオンライン学習タスク５０５を実行する。オンライン層タスク５０６では、ＣＰＵ４０３は、ＣＮＮ処理部４０１がニューラルネットワークタスク（オフライン層タスク５０２およびオンライン層タスク５０６）を実行することで生成された第２特徴５０７を利用して第２係数５０８を更新する。

【0037】

ニューラルネットワークタスクをオフライン層タスクとオンライン層タスクに分割することは、以下に示す２つの優位点がある。第１に、オンライン学習タスクに関連する係数および特徴と、それ以外の係数および特徴に明示的に分割する。これにより、以降で述べる、メモリにおけるデータ配置方法によって、ニューラルネットワークタスクとオンライン学習タスクを一部並列に動作させるときのメモリアクセス競合を抑制することができる。

【0038】

第２に、ニューラルネットワークタスクを分割することで、オンライン学習タスクによる係数更新と、更新される係数を利用するニューラルネットワーク演算と、が同時に実行されることがないように容易に管理できることである。

【0039】

ＣＰＵ４０３によるオンライン学習タスクを、ＣＮＮ処理部４０１によるオフライン層タスク実行中に処理すると、ＣＮＮ処理部４０１によるニューラルネットワークタスクとＣＰＵ４０３によるオンライン学習タスクとを、メモリアクセス競合による性能低下を抑制しつつ並列に実行させることが可能となる。

【0040】

次に、上記のメモリ４０２およびメモリ４０６に格納するデータについて、図６を用いて説明する。メモリ４０６は、ＣＮＮ処理部４０１とＣＰＵ４０３の両方からアクセス可能なメモリであるため、メモリ４０６には、ニューラルネットワークタスクとオンライン学習タスクとで共有するデータ（第２係数５０８、第２特徴５０７）が格納される。

【0041】

一方、メモリ４０２は、ＣＮＮ処理部４０１が占有できるメモリであるため、メモリ４０２には、ＣＮＮ処理部４０１のみが利用するデータ（画像５０１、第１係数５０４、第１特徴５０３）が格納される。

【0042】

このような構成における、本実施形態に係る演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクについて、図７を用いて説明する。図７（ａ）には、１枚目の入力画像である第１フレームに対する処理期間（第１フレーム期間７０１）におけるＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況を示している。

【0043】

図７（ａ）に示す如く、第１フレームが入力されたタイミングなど、第１フレームに対する処理を開始するタイミングにおいて、ＣＰＵ４０３はＣＮＮ処理部４０１に対して開始信号４０４を通知する。

【0044】

ＣＮＮ処理部４０１は、該開始信号４０４を検出すると、オフライン層タスク５０２を実行する。オフライン層タスク５０２の実行において、ＣＮＮ処理部４０１は先ず、メモリ４０２から画像５０１（第１フレーム）および第１係数５０４を読み出す。そしてＣＮＮ処理部４０１は、該読み出した第１フレームおよび第１係数５０４を用いてニューラルネットワーク演算を行って第１フレームの第１特徴５０３を生成し、該第１フレームの第１特徴５０３をメモリ４０２に格納する。メモリ４０２の活性状態７０７は、メモリ４０２からの第１フレームおよび第１係数５０４の読み出し、メモリ４０２への第１特徴５０３の格納、のためのメモリ４０２へのアクセスの期間を示している。

【0045】

ＣＮＮ処理部４０１は、オフライン層タスク５０２が完了すると、続いてオンライン層タスク５０６を実行する。オンライン層タスク５０６の実行において、ＣＮＮ処理部４０１は先ず、オフライン層タスク５０２によってメモリ４０２に格納された第１フレームの第１特徴５０３を該メモリ４０２から読み出すと共に、メモリ４０６に保持されている第２係数５０８を該メモリ４０６から読み出す。そしてＣＮＮ処理部４０１は、第１フレームの第１特徴５０３および第２係数５０８を用いてニューラルネットワーク演算を行って第１フレームの第２特徴５０７を生成し、該第１フレームの第２特徴５０７をメモリ４０６に格納する。メモリ４０２の活性状態７０８は、メモリ４０２からの第１特徴５０３の読み出しのためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態７０９は、メモリ４０６からの第２係数５０８の読み出し、メモリ４０６への第２特徴５０７の格納、のためのメモリ４０６へのアクセスの期間を示している。ＣＮＮ処理部４０１は、オンライン層タスク５０６が完了すると、ＣＰＵ４０３に対して割り込み信号４０５を通知する。

【0046】

図７（ｂ）は、図７（ａ）で示した第１フレームに対するニューラルネットワークタスクの後、該第１フレームに後続する第２フレームに対する処理期間（第２フレーム期間７１１）におけるＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況を示している。

【0047】

ＣＰＵ４０３は、上記の割り込み信号４０５をＣＮＮ処理部４０１から受けると、オンライン学習タスク５０５を実行する。この時点でメモリ４０６には、第２係数５０８、第１フレーム（過去のフレーム）の第２特徴５０７、が格納されている。よってオンライン学習タスク１０５の実行において、ＣＰＵ４０３は、メモリ４０６から第２係数５０８と第１フレームの第２特徴５０７とを読み出し、該第１フレームの第２特徴５０７を用いて該第２係数５０８を更新する。そしてＣＰＵ４０３は、メモリ４０６に格納されている第２係数に対し、該更新した第２係数５０８を上書きして格納する。

【0048】

また、ＣＰＵ４０３は、上記の割り込み信号４０５をＣＮＮ処理部４０１から受けると、ＣＮＮ処理部４０１に対して開始信号４０４を通知する。ＣＮＮ処理部４０１は、ＣＰＵ４０３からの該開始信号４０４を検出すると、オフライン層タスク５０２を実行する。オフライン層タスク５０２の実行において、ＣＮＮ処理部４０１は、メモリ４０２から画像５０１（第２フレーム）および第１係数５０４を読み出す。そしてＣＮＮ処理部４０１は、該読み出した第２フレームおよび第１係数５０４を用いてニューラルネットワーク演算を行って第２フレームの第１特徴５０３を生成し、該第２フレームの第１特徴５０３をメモリ４０２に格納する。

【0049】

つまり、本実施形態では、ＣＰＵ４０３によるオンライン学習タスク５０５と、ＣＮＮ処理部４０１によるオフライン層タスク５０２と、が並列に実行される。メモリ４０２の活性状態７１７は、メモリ４０２からの第２フレームおよび第１係数５０４の読み出し、メモリ４０２への第１特徴５０３の格納、のためのメモリ４０２へのアクセスの期間を示している。

【0050】

メモリ４０６の活性状態７２０は、メモリ４０６からの第２係数５０８および第１フレームの第２特徴５０７の読み出し、メモリ４０６への第２係数の格納、のためのメモリ４０６へのアクセスの期間を示している。

【0051】

ＣＮＮ処理部４０１は、オフライン層タスク５０２が完了すると、続いてオンライン層タスク５０６を実行する。オンライン層タスク５０６の実行において、ＣＮＮ処理部４０１は、オフライン層タスク５０２にてメモリ４０２に格納された第２フレームの第１特徴５０３を該メモリ４０２から読み出すと共に、オンライン学習タスク５０５によって更新された第２係数５０８をメモリ４０６から読み出す。そしてＣＮＮ処理部４０１は、該読み出した第１特徴５０３および第２係数５０８を用いてニューラルネットワーク演算を行って第２フレームの第２特徴５０７を生成し、該第２フレームの第２特徴５０７をメモリ４０６に格納する。

【0052】

メモリ４０２の活性状態７１８は、メモリ４０２からの第１特徴５０３の読み出しのためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態７１９は、メモリ４０６からの第２係数５０８の読み出し、メモリ４０６への第２フレームの第２特徴５０７の格納、のためのメモリ４０６へのアクセスの期間を示している。ＣＮＮ処理部４０１はオンライン層タスク５０６が完了すると、ＣＰＵ４０３に対して割り込み信号４０５を通知する。

【0053】

このように、ＣＮＮ処理部４０１によるオフライン層タスクとＣＰＵ４０３によるオンライン学習タスクが並列に動作している期間では、ＣＮＮ処理部４０１はメモリ４０２にアクセスしており、ＣＰＵ４０３はメモリ４０６にアクセスしている。そのため、ＣＮＮ処理部４０１とＣＰＵ４０３のメモリアクセス競合が抑制され、ＣＮＮ処理部４０１のメモリアクセス待ちによる性能低下を抑制しつつ、ＣＰＵ４０３がオンライン学習タスクを並列に実行可能になる。

【0054】

ＣＰＵ４０３の動作について、図８のフローチャートに従って説明する。先ずは、ＣＰＵ４０３のメイン処理の処理ステップであるステップＳ８０１について、図８（ａ）のフローチャートに従って説明する。

【0055】

ステップＳ８０２では、ＣＰＵ４０３は、フレームの開始条件が満たされたか否かを判断する。たとえば、ＣＰＵ４０３は、ニューラルネットワークタスクの対象となる画像（フレーム）がメモリ４０２に格納された場合に、「フレームの開始条件」が満たされた、と判断しても良い。

【0056】

このような判断の結果、フレームの開始条件が満たされた場合には、処理はステップＳ８０３に進み、フレームの開始条件が満たされていない場合には、処理はステップＳ８０２で待機する。

【0057】

ステップＳ８０３では、ＣＰＵ４０３は、ＣＮＮ処理部４０１に対して動作の開始を指示するべく、該ＣＮＮ処理部４０１に対して開始信号を通知する。開始信号を検出したＣＮＮ処理部４０１は上記の通り、オフライン層タスクおよびオンライン層タスクを実行する。

【0058】

ステップＳ８０４では、ＣＰＵ４０３は、現在処理対象としている画像が１フレーム目の画像であるか否かを判断する。この判断の結果、現在処理対象としている画像が１フレーム目の画像である場合には、処理はステップＳ８０７に進み、現在処理対象としている画像が２フレーム目以降の画像である場合には、処理はステップＳ８０５に進む。

【0059】

ステップＳ８０５では、ＣＰＵ４０３は、ＣＮＮ処理部４０１からの割り込み信号を検出したか否かを判断する。この判断の結果、ＣＮＮ処理部４０１からの割り込み信号を検出した場合には、処理はステップＳ８０６に進み、ＣＮＮ処理部４０１からの割り込み信号を検出していない場合には、処理はステップＳ８０５で待機する。

【0060】

ステップＳ８０６では、ＣＰＵ４０３は、オンライン学習タスクを実行する。ステップＳ８０６の詳細については後述する。ステップＳ８０７では、ＣＰＵ４０３は、メイン処理の終了条件が満たされたか否かを判断する。たとえば、ＣＰＵ４０３は、演算装置を搭載する上位システムからの終了指示がある場合、メイン処理の終了条件が満たされたと判断する。

【0061】

このような判断の結果、メイン処理の終了条件が満たされた場合には、ステップＳ８０１の処理は終了し、メイン処理の終了条件が満たされていない場合には、処理はステップＳ８０２に進む。

【0062】

次に、上記のステップＳ８０６における処理の詳細について、図８（ｂ）のフローチャートに従って説明する。ステップＳ８０６２では、ＣＰＵ４０３は、メモリ４０６から第２係数５０８と第２特徴５０７とを読み出す。そしてステップＳ８０６３では、ＣＰＵ４０３は、第２特徴５０７を用いて第２係数５０８を更新する。より詳しくは、ＣＰＵ４０３は、検出対象の検出位置の第２特徴５０７がより活性化し、未検出位置の第２特徴５０７がより非活性化するように第２係数５０８を更新する。検出対象の検出位置と未検出位置は、第２特徴５０７のうち予め定められた閾値を超えるものを検出位置、閾値以下のものを未検出位置と定めたり、ＣＮＮ処理部４０１や他の演算装置から取得した検出位置を用いてもよい。そしてステップＳ８０６４では、ＣＰＵ４０３は、メモリ４０６に格納されている第２係数５０８に対し、該更新した第２係数５０８を上書きして格納する。

【0063】

なお、本実施形態において第２フレームとして説明した画像は、３フレーム目以降の画像であっても良く、その場合、第２フレームに係る処理の説明において「第１フレーム」は「第２フレームの直前に入力されたフレーム」とすれば良い。

【0064】

［第２の実施形態］
本実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。第１の実施形態では、オンライン層タスクで生成される特徴は、ＣＮＮ処理部で参照されるニューラルネットワークタスクの構成とはなっていない。本実施形態では、オンライン層タスクで生成される特徴が、直後の新たなオフライン層タスクで参照される場合のニューラルネットワークタスクとオンライン学習タスクの並列実行について説明する。先ず、ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成について、図９のブロック図を用いて説明する。

【0065】

ＣＮＮ処理部４０１が実行するニューラルネットワークタスクは、オフライン層タスク９０２、オンライン層タスク９０６、オフライン層タスク９１１、の３つのタスクに分けられており、この順で実行される。

【0066】

オフライン層タスク９０２はオフライン層タスク５０２と同様のタスクである。オフライン層タスク９０２では、画像９０１と、オンライン学習タスク９０５によって更新されないニューラルネットワークの第１係数９０４と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って第１特徴９０３を生成する。

【0067】

オンライン層タスク９０６はオンライン層タスク５０６と同様のタスクである。オンライン層タスク９０６では、オフライン層タスク９０２で生成された第１特徴９０３と、オンライン学習タスク９０５によって更新されるニューラルネットワークの第２係数９０８と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って第２特徴９０７を生成する。

【0068】

オフライン層タスク９１１は、第２特徴９０７と、ニューラルネットワークの第３係数９１０と、を用いて該ニューラルネットワークの演算（ニューラルネットワーク演算）を行って第３特徴９０９を生成する。

【0069】

一方、ＣＰＵ４０３はオンライン学習タスク９０５を実行する。これによりＣＰＵ４０３は、ＣＮＮ処理部４０１により生成された第２特徴９０７を利用して第２係数９０８を更新する。更新された第２係数９０８は、ＣＮＮ処理部４０１が次のフレームについてニューラルネットワーク演算を行う際に利用される。

【0070】

このようなタスク構成において、第２特徴９０７はＣＮＮ処理部４０１とＣＰＵ４０３の双方から参照される。この場合でも、ＣＮＮ処理部４０１がニューラルネットワークタスクを実行中にＣＰＵ４０３がオンライン学習タスクを並列実行可能であることを示す。

【0071】

次に、メモリ４０２およびメモリ４０６に格納するデータについて、図１０を用いて説明する。メモリ４０６には第１の実施形態と同様、ニューラルネットワークタスクとオンライン学習タスクで共有するデータ（第２係数９０８、第２特徴９０７）が格納される。一方、メモリ４０２には、ＣＮＮ処理部４０１のみが利用するデータ（画像９０１、第１係数９０４、第１特徴９０３、第３係数９１０、第３特徴９０９）が格納される。

【0072】

このような構成における、本実施形態に係る演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクについて、図１１を用いて説明する。図１１には、第１フレームに対する処理期間（第１フレーム期間１１０１）におけるＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況、第２フレームに対する処理期間（第２フレーム期間１１２１）におけるＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況を示している。

【0073】

第１フレームが入力されたタイミングなど、第１フレームに対する処理を開始するタイミングにおいて、ＣＰＵ４０３はＣＮＮ処理部４０１に対して開始信号４０４を通知する。

【0074】

ＣＮＮ処理部４０１は、該開始信号４０４を検出すると、オフライン層タスク９０２を実行する。オフライン層タスク９０２の実行において、ＣＮＮ処理部４０１は先ず、メモリ４０２から画像９０１（第１フレーム）および第１係数９０４を読み出す。そしてＣＮＮ処理部４０１は、該第１フレームおよび第１係数９０４を用いてニューラルネットワーク演算を行って第１フレームの第１特徴９０３を生成し、該第１フレームの第１特徴９０３をメモリ４０２に格納する。メモリ４０２の活性状態１１０７は、メモリ４０２からの第１フレームおよび第１係数９０４の読み出し、メモリ４０２への第１フレームの第１特徴９０３の格納、のためのメモリ４０２へのアクセスの期間を示している。

【0075】

ＣＮＮ処理部４０１は、オフライン層タスク９０２が完了すると、続いてオンライン層タスク９０６を実行する。オンライン層タスク９０６の実行において、ＣＮＮ処理部４０１は、オフライン層タスク９０２にてメモリ４０２に格納された第１フレームの第１特徴９０３を該メモリ４０２から読み出すと共に、メモリ４０６から第２係数９０８を読み出す。そしてＣＮＮ処理部４０１は、該第１特徴９０３および第２係数９０８を用いてニューラルネットワーク演算を行って第１フレームの第２特徴９０７を生成し、該第１フレームの第２特徴９０７をメモリ４０６に格納する。メモリ４０２の活性状態１１０８は、メモリ４０２からの第１特徴９０３の読み出しのためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１１０９は、メモリ４０６からの第２係数９０８の読み出し、メモリ４０６への第１フレームの第２特徴９０７の格納、のためのメモリ４０６へのアクセスの期間を示している。

【0076】

ＣＮＮ処理部４０１は、オンライン層タスク９０６が完了すると、オフライン層タスク９１１を実行する。オフライン層タスク９１１の実行において、ＣＮＮ処理部４０１は、メモリ４０６から第１フレームの第２特徴９０７を読み出すと共に、メモリ４０２から第３係数９１０を読み出す。そしてＣＮＮ処理部４０１は、該第１フレームの第２特徴９０７および第３係数９１０を用いてニューラルネットワーク演算を行って第１フレームの第３特徴９０９を生成し、該第１フレームの第３特徴９０９をメモリ４０２に格納する。メモリ４０２の活性状態１１１０は、メモリ４０２からの第３係数９１０の読み出し、メモリ４０２への第３特徴９０９の格納、のためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１１１１は、メモリ４０６からの第１フレームの第２特徴９０７の読み出しのためのメモリ４０６へのアクセスの期間を示している。ＣＮＮ処理部４０１は、オフライン層タスク９１１が完了すると、ＣＰＵ４０３に対して割り込み信号４０５を通知する。

【0077】

ＣＰＵ４０３は、上記の割り込み信号４０５をＣＮＮ処理部４０１から受けると、オンライン学習タスク１１３３を実行する。この時点でメモリ４０６には、第２係数９０８、第１フレームの第２特徴９０７、が格納されている。よってオンライン学習タスク１１３３の実行において、ＣＰＵ４０３は、メモリ４０６から第２係数９０８と第１フレームの第２特徴９０７とを読み出し、該第１フレームの第２特徴９０７を用いて該第２係数９０８を更新する。そしてＣＰＵ４０３は、メモリ４０６に格納されている第２係数に対し、該更新した第２係数９０８を上書きして格納する。

【0078】

また、ＣＰＵ４０３は、上記の割り込み信号４０５をＣＮＮ処理部４０１から受けると、ＣＮＮ処理部４０１に対して開始信号４０４を通知する。ＣＮＮ処理部４０１はＣＰＵ４０３からの該開始信号４０４を検出すると、オフライン層タスク９０２を実行する。オフライン層タスク９０２は上記のオフライン層タスク５０２と同様のタスクであり、オフライン層タスク９０２の実行によりＣＮＮ処理部４０１は、第２フレームの第１特徴９０３を生成し、該第２フレームの第１特徴９０３をメモリ４０２に格納する。つまり、本実施形態では、ＣＰＵ４０３によるオンライン学習タスク１１３３と、ＣＮＮ処理部４０１によるオフライン層タスク９０２と、が並列に実行される。

【0079】

メモリ４０２の活性状態１１２７は、メモリ４０２からの第２フレームおよび第１係数９０４の読み出し、メモリ４０２への第１特徴９０３の格納、のためのメモリ４０２へのアクセスの期間を示している。

【0080】

メモリ４０６の活性状態１１３２は、メモリ４０６からの第２係数９０８および第１フレームの第２特徴９０７の読み出し、メモリ４０６への第２係数９０８の格納、のためのメモリ４０６へのアクセスの期間を示している。

【0081】

ＣＮＮ処理部４０１は、オフライン層タスク９０２が完了すると、続いてオンライン層タスク９０６を実行する。オンライン層タスク９０６の実行において、ＣＮＮ処理部４０１は、オフライン層タスク９０２にてメモリ４０２に格納された第１特徴９０３を該メモリ４０２から読み出すと共に、オンライン学習タスク１１３３によって更新された第２係数９０８をメモリ４０６から読み出す。そしてＣＮＮ処理部４０１は、該読み出した第１特徴９０３および第２係数９０８を用いてニューラルネットワーク演算を行って第２フレームの第２特徴９０７を生成し、該第２フレームの第２特徴９０７をメモリ４０６に格納する。

【0082】

メモリ４０２の活性状態１１２８は、メモリ４０２からの第１特徴９０３の読み出しのためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１１２９は、メモリ４０６からの第２係数９０８の読み出し、メモリ４０６への第２フレームの第２特徴９０７の格納、のためのメモリ４０６へのアクセスの期間を示している。

【0083】

ＣＮＮ処理部４０１は、オンライン層タスク９０６が完了すると、続いてオフライン層タスク９１１を実行する。オフライン層タスク９１１の実行において、ＣＮＮ処理部４０１は、オンライン層タスク９０６にてメモリ４０６に格納された第２特徴９０７を該メモリ４０６から読み出すと共に、第３係数９１０をメモリ４０２から読み出す。そしてＣＮＮ処理部４０１は、該読み出した第２特徴９０７および第３係数９１０を用いてニューラルネットワーク演算を行って第２フレームの第３特徴９０９を生成し、該第２フレームの第３特徴９０９をメモリ４０２に格納する。

【0084】

メモリ４０２の活性状態１１３０は、メモリ４０２からの第３係数９１０の読み出し、メモリ４０２への第３特徴９０９の格納、のためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１１３１は、メモリ４０６からの第２特徴９０７の読み出しのためのメモリ４０６へのアクセスの期間を示している。ＣＮＮ処理部４０１はオフライン層タスク９１１が完了すると、ＣＰＵ４０３に対して割り込み信号４０５を通知する。

【0085】

オフライン層タスク９０２とオンライン学習タスク１１３３が並列に実行されている期間においてＣＮＮ処理部４０１はメモリ４０２にアクセスし、ＣＰＵ４０３はメモリ４０６にアクセスしている。そのためＣＮＮ処理部４０１とＣＰＵ４０３のメモリアクセス競合が抑制され、ＣＮＮ処理部４０１のメモリアクセス待ちによる性能低下を抑制しつつ、ＣＰＵ４０３がオンライン学習タスクを並列に実行することが可能になる。

【0086】

本実施形態では、オンライン層タスクが２つのオフライン層タスクの間に位置するニューラルネットワークタスクと、オンライン学習タスクと、が並列実行可能であることを示した。

【0087】

［第３の実施形態］
本実施形態では、第２の実施形態との差分について説明し、以下で特に触れない限りは、第２の実施形態と同様であるものとする。本実施形態では、第２の実施形態とは異なるオフライン層タスクの実行中にオンライン学習タスクを実行するケースについて説明する。

【0088】

第２の実施形態では、オンライン層タスク９０６で利用する第２係数の更新は、オフライン層タスク９０２と並列に実行されるオンライン学習タスク１１３３の実行によって行われる。

【0089】

これに対し、本実施形態では、図１１の例では、オンライン層タスク９０６で利用する第２係数の更新を、オフライン層タスク９１１と並列に実行されるオンライン学習タスクの実行によって行う。

【0090】

オンライン学習タスクをオフライン層タスクと並列に実行するためには、オフライン層タスクとオンライン学習タスクの双方が利用する第２特徴のアクセス競合を解消しなければならない。本実施形態に係る、ＣＮＮ処理部４０１およびＣＰＵ４０３により実行される処理構成について、図１２のブロック図を用いて説明する。

【0091】

ＣＮＮ処理部４０１が実行するニューラルネットワークタスクは、オフライン層タスク１２０２、オンライン層タスク１２０６、オフライン層タスク１２１５に分かれており、この順で実行される。

【0092】

一方、ＣＰＵ４０３はオンライン学習タスク１２１１を実行する。これによりＣＰＵ４０３は、ＣＮＮ処理部４０１により生成された第１特徴１２０３を利用して第２係数９０８を更新する。オンライン学習タスク１２１１は、畳み込み演算１２１２とオンライン学習１２１３とを含む。

【0093】

畳み込み演算１２１２では、第１特徴１２０３と第２係数１２０８とを用いてオンライン層タスク１２０６と等価の処理を行って第２特徴１２１４を取得する。オンライン学習１２１３では、第２係数１２０８と第２特徴１２１４とを用いて、第２の実施形態に係るオンライン学習タスクと同様の処理を行って、該第２係数１２０８を更新する。

【0094】

本実施形態では、ＣＮＮ処理部４０１とＣＰＵ４０３の双方で利用するデータを、それぞれの処理部で生成することによってメモリアクセスの競合を抑制し、その結果、ニューラルネットワークタスクとオンライン学習タスクとを並列に実行可能にする。

【0095】

次に、メモリ４０２およびメモリ４０６に格納するデータについて、図１３を用いて説明する。メモリ４０６には、ニューラルネットワークタスクとオンライン学習タスクで共有するデータ（第２係数１２０８、第１特徴１２０３）が格納される。一方、メモリ４０２には、ＣＮＮ処理部４０１のみが利用するデータ（画像１２０１、第１係数１２０４、第２特徴１２０７、第３係数１２１０、第３特徴１２０９）が格納される。

【0096】

このような構成における、本実施形態に係る演算装置により実行されるニューラルネットワークタスクおよびオンライン学習タスクについて、図１４を用いて説明する。図１４には、第１フレームに対する処理期間（第１フレーム期間１４０１）におけるＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況を示している。なお、本実施形態では、ＣＮＮ処理部４０１、ＣＰＵ４０３、メモリ４０２、メモリ４０６、の動作状況は、第１フレームに後続する各フレームにおいても同様である。

【0097】

【0098】

ＣＮＮ処理部４０１は該開始信号４０４を検出すると、オフライン層タスク１２０２を実行する。オフライン層タスク１２０２の実行において、ＣＮＮ処理部４０１は先ず、メモリ４０２から、画像１２０１（第１フレーム）と、オンライン学習タスク１２１１によって更新されないニューラルネットワークの第１係数１２０４と、を読み出す。そしてＣＮＮ処理部４０１は、該第１フレームおよび第１係数１２０４を用いてニューラルネットワーク演算を行って第１フレームの第１特徴１２０３を生成し、該第１フレームの第１特徴１２０３をメモリ４０６に格納する。メモリ４０２の活性状態１４０７は、メモリ４０２からの第１フレームおよび第１係数１２０４の読み出しのためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１４０８は、メモリ４０６への第１特徴１２０３の格納のためのメモリ４０６へのアクセスの期間を示している。

【0099】

ＣＮＮ処理部４０１は、オフライン層タスク１２０２が完了すると、続いてオンライン層タスク１２０６を実行する。オンライン層タスク１２０６の実行にてＣＮＮ処理部４０１は、オフライン層タスク１２０２にてメモリ４０６に格納された第１フレームの第１特徴１２０３、オンライン学習タスク１２１１によって更新される第２係数１２０８、をメモリ４０６から読み出す。そしてＣＮＮ処理部４０１は、該第１フレームの第１特徴１２０３および第２係数１２０８を用いてニューラルネットワーク演算を行って第１フレームの第２特徴１２０７を生成し、該第２特徴１２０７をメモリ４０２に格納する。メモリ４０２の活性状態１４１０は、メモリ４０２への第２特徴１２０７の格納のためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１４０９は、メモリ４０６からの第１特徴１２０３および第２係数１２０８の読み出しのためのメモリ４０６へのアクセスの期間を示している。

【0100】

ＣＮＮ処理部４０１は、オンライン層タスク１２０６が完了すると、割り込み信号４０５をＣＰＵ４０３に対して通知する。割り込み信号４０５を検出したＣＰＵ４０３はオンライン学習タスク１２１１を実行する。オンライン学習タスク１２１１の実行においてＣＰＵ４０３は、メモリ４０６から第２係数１２０８、第１フレームの第１特徴１２０３、を読み出す。そしてＣＰＵ４０３は、第１フレームの第１特徴１２０３と第２係数１２０８とを用いてオンライン層タスク１２０６と等価の処理を行って第２特徴１２１４を取得する。そしてＣＰＵ４０３は、第２係数１２０８と第２特徴１２１４とを用いて、第２の実施形態に係るオンライン学習タスクと同様の処理を行って、該第２係数１２０８を更新する。そしてＣＰＵ４０３は、メモリ４０６に格納されている第２係数１２０８に対し、該更新した第２係数１２０８を上書きして格納する。

【0101】

また、ＣＮＮ処理部４０１は、オンライン層タスク１２０６が完了すると、オフライン層タスク１２１５を実行する。オフライン層タスク１２１５の実行において、ＣＮＮ処理部４０１は、メモリ４０２から第１フレームの第２特徴１２０７を読み出すと共に、メモリ４０２から第３係数１２１０を読み出す。そしてＣＮＮ処理部４０１は、該第１フレームの第２特徴１２０７および第３係数１２１０を用いてニューラルネットワーク演算を行って第１フレームの第３特徴１２０９を生成し、該第１フレームの第３特徴１２０９をメモリ４０２に格納する。メモリ４０２の活性状態１４１１は、メモリ４０２からの第２特徴１２０７および第３係数１２１０の読み出し、メモリ４０２への第３特徴１２０９の格納、のためのメモリ４０２へのアクセスの期間を示している。メモリ４０６の活性状態１４１２は、メモリ４０６からの第２係数１２０８および第１特徴１２０３の読み出し、メモリ４０６への第２係数１２０８の格納、のためのメモリ４０６へのアクセスの期間を示している。ＣＮＮ処理部４０１はオフライン層タスク１２１５が完了すると、ＣＰＵ４０３に対して割り込み信号４０５を通知する。つまり、本実施形態では、ＣＰＵ４０３によるオンライン学習タスク１２１１と、ＣＮＮ処理部４０１によるオフライン層タスク１２１５と、が並列に実行される。

【0102】

オフライン層タスク１２１５とオンライン学習タスク１２１１が並列に実行されている期間において、ＣＮＮ処理部４０１はメモリ４０２にアクセスし、ＣＰＵ４０３はメモリ４０６にアクセスしている。そのためＣＮＮ処理部４０１とＣＰＵ４０３のメモリアクセス競合が抑制され、ＣＮＮ処理部４０１のメモリアクセス待ちによる性能低下を抑制しつつ、ＣＰＵ４０３がオンライン学習タスクを並列に実行することが可能になる。

【0103】

本実施形態では、オンライン学習タスクと、該オンライン学習タスクと並列に動作するニューラルネットワークタスクと、の双方で利用するデータが存在する場合でも、ＣＰＵで該データを別途生成することでメモリアクセス競合を抑制して並列実行を可能にすることが示された。

【0104】

ＣＰＵ４０３の動作について、図１５のフローチャートに従って説明する。先ずは、ＣＰＵ４０３のメイン処理の処理ステップであるステップＳ１５０１について、図１５（ａ）のフローチャートに従って説明する。

【0105】

ステップＳ１５０２では、ＣＰＵ４０３は、上記のステップＳ８０２と同様にして、フレームの開始条件が満たされたか否かを判断する。このような判断の結果、フレームの開始条件が満たされた場合には、処理はステップＳ１５０３に進み、フレームの開始条件が満たされていない場合には、処理はステップＳ１５０２で待機する。

【0106】

ステップＳ１５０３では、ＣＰＵ４０３は、ＣＮＮ処理部４０１に対して動作の開始を指示するべく、該ＣＮＮ処理部４０１に対して開始信号を通知する。開始信号を検出したＣＮＮ処理部４０１は上記の通り、オフライン層タスクおよびオンライン層タスクを実行する。

【0107】

ステップＳ１５０４では、ＣＰＵ４０３は、ＣＮＮ処理部４０１からの割り込み信号を検出したか否かを判断する。この判断の結果、ＣＮＮ処理部４０１からの割り込み信号を検出した場合には、処理はステップＳ１５０５に進み、ＣＮＮ処理部４０１からの割り込み信号を検出していない場合には、処理はステップＳ１５０４で待機する。

【0108】

ステップＳ１５０５では、ＣＰＵ４０３は、オンライン学習タスクを実行する。ステップＳ１５０５の詳細については後述する。ステップＳ１５０６では、ＣＰＵ４０３は、上記のステップＳ８０７と同様にして、メイン処理の終了条件が満たされたか否かを判断する。このような判断の結果、メイン処理の終了条件が満たされた場合には、ステップＳ１５０１の処理は終了し、メイン処理の終了条件が満たされていない場合には、処理はステップＳ１５０２に進む。

【0109】

次に、上記のステップＳ１５０５における処理の詳細について、図１５（ｂ）のフローチャートに従って説明する。ステップＳ１５０５２では、ＣＰＵ４０３は、メモリ４０６に格納されている第１特徴１２０３のうち、検出対象の検出位置の第１特徴１２０３と、検出対象の未検出位置の第１特徴１２０３と、を読み出す。そしてステップＳ１５０５３では、ＣＰＵ４０３は、第２係数１２０８をメモリ４０６から読み出す。

【0110】

ステップＳ１５０５４では、ＣＰＵ４０３は、第１特徴１２０３と第２係数１２０８とを用いてオンライン層タスク１２０６と等価の処理を行って第２特徴１２１４（検出対象の検出位置の特徴出力と未検出位置の特徴出力）を取得する。

【0111】

ステップＳ１５０５５では、ＣＰＵ４０３は、第２係数１２０８と第２特徴１２１４とを用いて、第２の実施形態に係るオンライン学習タスクと同様の処理を行って、該第２係数１２０８を更新する。ＣＰＵ４０３は、検出対象の検出位置の第２特徴１２１４がより活性化し、未検出位置の第２特徴１２１４がより非活性化するように第２係数１２０８を更新する。

【0112】

ステップＳ１５０５６では、ＣＰＵ４０３は、第２係数１２０８の更新回数が閾値以上となったか否かを判断する。閾値は予め定められた値であっても良いし、動的に決定した値であっても良い。

【0113】

この判断の結果、第２係数１２０８の更新回数が閾値以上となった場合には、処理はステップＳ１５０５７に進み、第２係数１２０８の更新回数が閾値未満である場合には、処理はステップＳ１５０５４に進む。ステップＳ１５０５７では、ＣＰＵ４０３は、メモリ４０６に格納されている第２係数１２０８に対し、上記の処理で更新した第２係数１２０８を上書きして格納する。

【0114】

［第４の実施形態］
オンライン層タスクが複数ある形態でも、上記の実施形態と同様に、オンライン層タスクで利用するデータをメモリ４０６に格納することで、ニューラルネットワーク演算とオンライン学習とを並列に実行することができる。

【0115】

また、上記の実施形態では、ＣＮＮによる認識処理を例に取り説明したが、これに限らず、様々な認識アルゴリズムを用いてもよい。例えば、ＣＮＮ以外のマルチレイヤパーセプトロンやトランスフォーマー等による認識アルゴリズムを用いても良い。また、上記の実施形態は、エコーステートネットワークやエクストリームラーニングマシンなどのランダムネットワークの最終層に対しての学習にも適用可能である。

【0116】

また、メモリ４０２やメモリ４０６を、複数のメモリで構成しても良い。たとえば、画像、係数、特徴をそれぞれ独立したメモリに格納してそれぞれのメモリに並列にアクセスするようにしても良い。

【0117】

また、上記の実施形態では、畳み込み演算をハードウェアで処理する場合について説明した。しかし、畳み込み演算をＣＰＵ／ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）／ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサがコンピュータプログラムを実行することで実現させても良い。

【0118】

また、上記の実施形態において説明した演算装置は、入力された画像を処理して出力する装置（デジタルカメラ、スマートフォン、タブレット端末装置などの装置）に組み込まれる組み込み機器であっても良い。上記の如く、上記の実施形態において説明した演算装置は、ニューラルネットワーク演算とオンライン学習とを並列実行することで、上記の従来技術と比べてフレームごとに要する処理時間の短縮を可能にする。よって、上記の実施形態において説明した演算装置によれば、フレームレート低下を抑制するために演算装置の動作周波数を高くする必要はない。

【0119】

上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の取得方法／送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

【0120】

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

【0121】

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0122】

本明細書の発明は、以下の演算装置、演算方法、コンピュータプログラムを含む。
（項目１）
ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理手段と、
前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理手段と、
前記第２係数と、前記第２処理手段が過去に取得した第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新する更新手段と
を備え、
前記第１処理手段による処理と前記更新手段による処理とは並列に実行される
ことを特徴とする演算装置。
（項目２）
前記第１処理手段は、フレームと前記第１係数とを用いて該フレームの第１特徴を取得し、
前記第２処理手段は、前記フレームの第１特徴と、前記第２係数と、を用いて前記フレームの第２特徴を取得する
ことを特徴とする項目１に記載の演算装置。
（項目３）
前記第１処理手段は、第２フレームの第１特徴を取得し、
前記更新手段は、前記第２係数と、前記第２フレームよりも過去に入力された第１フレームの第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新し、
前記第２処理手段は、前記第２フレームの第１特徴と、前記更新手段により更新された第２係数と、を用いて前記第２フレームの第２特徴を取得する
ことを特徴とする項目２に記載の演算装置。
（項目４）
さらに、
前記第１係数を保持する第１メモリと、
前記第２係数を保持する第２メモリと
を備え、
前記第１処理手段は、前記第１特徴を前記第１メモリに格納し、
前記第２処理手段は、前記第２特徴を前記第２メモリに格納する
ことを特徴とする項目１ないし３のいずれか１項目に記載の演算装置。
（項目５）
さらに、
前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理手段を備えることを特徴とする項目１ないし４のいずれか１項目に記載の演算装置。
（項目６）
ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理手段と、
前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理手段と、
前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理手段と、
前記第２係数と前記第１特徴とに基づいて前記オンライン学習を行うことで該第２係数を更新する更新手段と
を備え、
前記第３処理手段による処理と前記更新手段による処理とは並列に実行される
ことを特徴とする演算装置。
（項目７）
前記更新手段は、
前記第２係数と前記第１特徴とを用いて前記第２処理手段による演算と等価の演算を行って得られる特徴と、該第２係数と、を用いて該第２係数を更新する
ことを特徴とする項目６に記載の演算装置。
（項目８）
前記演算装置は組み込み機器であることを特徴とする項目１ないし７のいずれか１項目に記載の演算装置。
（項目９）
演算装置による演算方法であって、
前記演算装置の第１処理手段が、ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理工程と、
前記演算装置の第２処理手段が、前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理工程と、
前記演算装置の更新手段が、前記第２係数と、前記第２処理工程で過去に取得した第２特徴と、を用いて前記オンライン学習を行うことで該第２係数を更新する更新工程と
を備え、
前記第１処理工程と前記更新工程とは並列に実行される
ことを特徴とする演算方法。
（項目１０）
演算装置による演算方法であって、
前記演算装置の第１処理手段が、ニューラルネットワークのオンライン学習において更新対象ではない第１係数を用いて、該ニューラルネットワークの演算を行って第１特徴を取得する第１処理工程と、
前記演算装置の第２処理手段が、前記第１特徴と、前記オンライン学習において更新対象となる第２係数と、を用いて前記ニューラルネットワークの演算を行って第２特徴を取得する第２処理工程と、
前記演算装置の第３処理手段が、前記第２特徴と、前記ニューラルネットワークにおける第３係数と、を用いて前記ニューラルネットワークの演算を行って第３特徴を取得する第３処理工程と、
前記演算装置の更新手段が、前記第２係数と前記第１特徴とに基づいて前記オンライン学習を行うことで該第２係数を更新する更新工程と
を備え、
前記第３処理工程と前記更新工程とは並列に実行される
ことを特徴とする演算方法。
（項目１１）
コンピュータを、項目１ないし８のいずれか１項目に記載の演算装置の各手段として機能させるためのコンピュータプログラム。

【0123】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0124】

５０１：画像５０２：オフライン層タスク５０３：第１特徴５０４：第１係数５０５：オンライン学習タスク５０６：オンライン層タスク５０７：第２特徴５０８：第２係数

【図1】