特許6973651 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6973651演算最適化装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6973651

(24)【登録日】2021年11月8日

(45)【発行日】2021年12月1日

(54)【発明の名称】演算最適化装置、方法およびプログラム

(51)【国際特許分類】

G06N 3/063 20060101AFI20211118BHJP

【ＦＩ】

G06N3/063

【請求項の数】9

【全頁数】25

(21)【出願番号】特願2020-537921(P2020-537921)

(86)(22)【出願日】2018年8月21日

(86)【国際出願番号】JP2018030769

(87)【国際公開番号】WO2020039493

(87)【国際公開日】20200227

【審査請求日】2020年10月20日

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】鷹野芙美代

(72)【発明者】

【氏名】竹中崇

(72)【発明者】

【氏名】柴田誠也

(72)【発明者】

【氏名】井上浩明

【審査官】松崎孝大

(56)【参考文献】

【文献】特開２０１８−１０６１８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００４６８９４（ＵＳ，Ａ１）

【文献】 LIN, Darryl D. et al.，Fixed Point Quantization of Deep Convolutional Networks，[オンライン]，2016年06月02日，[検索日 2021.09.30], インターネット: <URL: https://arxiv.org/abs/1511.06393>

【文献】 LAI, Liangzhen et al.，Deep Convolutional Neural Network Inference with Floating-point Weights and Fixed-point Activations，[オンライン]，2017年03月08日，[検索日 2021.09.30], インターネット: <URL: https://arxiv.org/abs/1703.03073>

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｎ３／０６３

(57)【特許請求の範囲】

【請求項1】

１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、前記第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得する説明変数値取得手段と、
前記所定の説明変数で表される目的関数の値を、適用パターン毎に計算する目的関数計算手段と、
目的関数の値が最小となる適用パターンを決定する適用パターン決定手段とを備える
ことを特徴とする演算最適化装置。

【請求項2】

目的関数は、少なくとも、判別モデルを用いた演算の処理速度、および、演算結果の正確さを所定の説明変数として表される
請求項１に記載の演算最適化装置。

【請求項3】

目的関数は、第１の演算回路と第２の演算回路との間で授受されるデータ量を所定の説明変数として表される
請求項２に記載の演算最適化装置。

【請求項4】

目的関数は、判別モデルを用いた演算を行う回路の回路規模を所定の説明変数として表される
請求項２または請求項３に記載の演算最適化装置。

【請求項5】

目的関数は、判別モデルを用いた演算での消費電力を所定の説明変数として表される
請求項２から請求項４のうちのいずれか１項に記載の演算最適化装置。

【請求項6】

説明変数値取得手段は、所定の説明変数の値を実測により取得する
請求項１から請求項５のうちのいずれか１項に記載の演算最適化装置。

【請求項7】

説明変数値取得手段は、所定の説明変数の値をシミュレーションにより取得する
請求項１から請求項５のうちのいずれか１項に記載の演算最適化装置。

【請求項8】

１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、前記第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得し、
前記所定の説明変数で表される目的関数の値を、適用パターン毎に計算し、
目的関数の値が最小となる適用パターンを決定する
ことを特徴とする演算最適化方法。

【請求項9】

コンピュータに、
１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、前記第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得する説明変数値取得処理、
前記所定の説明変数で表される目的関数の値を、適用パターン毎に計算する目的関数計算処理、および、
目的関数の値が最小となる適用パターンを決定する適用パターン決定処理
を実行させるための演算最適化プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、例えば、ニューラルネットワーク等の判別モデルを用いた演算を最適化する演算最適化装置、演算最適化方法および演算最適化プログラムに関する。

【背景技術】

【0002】

与えられたデータに対する推論を、モデルを用いることによって行う場合がある。このようなモデルは、判別モデルと呼ばれる。例えば、画像データが与えられ、その画像データと、判別モデルとによって、その画像データが表わしている物（画像に写っている物）を推論する場合がある。

【0003】

判別モデルの例として、ニューラルネットワークが知られている。ニューラルネットワークでは、複数の層が結合されたモデルであり、それぞれの層は、１つ以上のユニット（ニューロン）で構成されている。ニューラルネットワークを用いて推論処理を行う場合、入力データを入力層に入力し、入力層側から出力層側に順方向に演算を行うことによって、入力データに関する推論結果が得られる。

【0004】

ニューラルネットワークは、深層学習によって学習される。

【0005】

ニューラルネットワークを用いた演算を行うためのツールが、例えば、非特許文献１に記載されている。

【0006】

ニューラルネットワークを用いた演算を行うための既存のツールには、ニューラルネットワークの全ての層の演算精度を一律に変えることができるものがある。例えば、ニューラルネットワークの全ての層の演算を、浮動小数点演算に設定したり、整数演算に設定したりすることができるツールがある。また、そのような設定は、ユーザ（人間）が行う。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】“NVIDIA TensorRT”、［online］、NVIDIA Corporation、［平成３０年７月３日検索］、インターネット<URL: https://developer.nvidia.com/tensorrt>

【発明の概要】

【発明が解決しようとする課題】

【0008】

前述のように、ニューラルネットワークを用いた演算を行うための既存のツールには、ニューラルネットワークの全ての層の演算精度を一律に変えることができるものがある。しかし、そのようなツールでは、個々の層の演算精度をそれぞれ個別に設定することができない。そのため、ニューラルネットワークを用いた演算を最適化することが困難であった。

【0009】

例えば、ニューラルネットワークの全ての層の演算を浮動小数点演算に設定した場合には、高精度で演算を行えるが、消費電力等に関する効率は低下する。逆に、ニューラルネットワークの全ての層の演算を整数演算に設定した場合には、消費電力等に関する効率は向上するが、演算精度は低下する。

【0010】

また、既存のツールでは、ニューラルネットワーク全体の演算精度を、浮動小数点演算にするか、整数演算にするかを、ユーザが判断しなければならなかった。

【0011】

そこで、本発明は、判別モデルを用いた演算を最適化できるように、判別モデルの各層における演算精度を自動的に定めることができる演算最適化装置、演算最適化方法および演算最適化プログラムを提供することを目的とする。

【課題を解決するための手段】

【0012】

本発明による演算最適化装置は、１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得する説明変数値取得手段と、所定の説明変数で表される目的関数の値を、適用パターン毎に計算する目的関数計算手段と、目的関数の値が最小となる適用パターンを決定する適用パターン決定手段とを備えることを特徴とする。

【0013】

また、本発明による演算最適化方法は、１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得し、所定の説明変数で表される目的関数の値を、適用パターン毎に計算し、目的関数の値が最小となる適用パターンを決定することを特徴とする。

【0014】

また、本発明による演算最適化プログラムは、コンピュータに、１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルを用いた演算で、第１の演算精度で演算を行う第１の演算回路をどの層に適用し、第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得する説明変数値取得処理、所定の説明変数で表される目的関数の値を、適用パターン毎に計算する目的関数計算処理、および、目的関数の値が最小となる適用パターンを決定する適用パターン決定処理を実行させることを特徴とする。

【発明の効果】

【0015】

本発明によれば、判別モデルを用いた演算を最適化できるように、判別モデルの各層における演算精度を自動的に定めることができる。

【図面の簡単な説明】

【0016】

【図1】ニューラルネットワークを用いた推論処理を示す模式図である。

【図2】１つのユニットに着目したときの当該ユニットの入出力および他のユニットとの結合の例を示す説明図である。

【図3】ニューラルネットワークの各層のうち、一部の層の演算を低精度で実行し、残りの層の演算を高精度で実行する処理装置の例を示す模式図である。

【図4】低精度演算回路の一例を示す概略構成図である。

【図5】ＭＡＣの構成例を示すブロック図である。

【図6】ニューラルネットワークを用いた推論処理の処理経過の例を示すフローチャートである。

【図7】本発明の演算最適化装置の構成例を示すブロック図である。

【図8】適用パターンの例を示す模式図である。

【図9】処理装置を備える演算最適化装置の構成例を示すブロック図である。

【図10】設計情報記憶部を備える演算最適化装置の構成例を示すブロック図である。

【図11】本発明の実施形態の演算最適化装置の処理経過の例を示すフローチャートである。

【図12】本発明の実施形態またはその変形例に係るコンピュータの構成例を示す概略ブロック図である。

【図13】本発明の演算最適化装置の概要を示すブロック図である。

【発明を実施するための形態】

【0017】

本発明の演算最適化装置は、１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデルにおける各層の演算精度を決定する。このような判別モデルの例として、ニューラルネットワークがある。以下の説明では、判別モデルがニューラルネットワークである場合を例にして説明する。ただし、判別モデルは、ニューラルネットワークに限定されるわけではない。

【0018】

また、以下の説明では、ニューラルネットワークを用いた処理として、与えられた入力データが示す内容を推論する処理を例にして説明する。例えば、画像データが与えられ、その画像データと、ニューラルネットワークとによって、その画像データが表わしている物（画像に写っている物）を推論する処理を例にして説明する。

【0019】

ただし、ニューラルネットワークを用いた処理は、上記の推論処理に限定されず、例えば、ニューラルネットワークの各層のパラメタ更新処理等もある。後述の実施形態では、本発明の演算最適化装置が、推論処理を行う場合におけるニューラルネットワークの各層の演算精度を決定する場合を例にして説明するが、上記のパラメタ更新処理等の他の処理も本発明に適用可能である。

【0020】

図１は、ニューラルネットワークを用いた推論処理を示す模式図である。図１において、ニューラルネットワークにおけるニューロンに相当するユニット５１が楕円で表されている。各層には、１つ以上のユニットが存在する。また、線分５２（図中のユニット間を結ぶ線）は、ユニット間結合を表わす。また、矢印５３（図中の右向きの太線矢印）は、推論処理を模式的に表している。なお、図１では、各ユニット５１への入力が前段の層のユニットの出力となるフィードフォワード型のニューラルネットワークの例を示しているが、各ユニット５１への入力はこれに限られない。例えば、時系列情報を保持している場合には、リカレント型のニューラルネットワークのように、各ユニット５１への入力に、前の時刻における前段の層のユニットの出力を含めることも可能である。なお、そのような場合も、推論処理の方向は、入力層から出力層への向かう方向（順方向）であるとみなされる。このように入力層から所定の順番で行われる推論処理は「順伝搬」とも呼ばれる。以下の説明では、入力層を第０層と記し、出力層を第ｎ層と記す。

【0021】

図２は、１つのユニット５１に着目したときの当該ユニット５１の入出力および他のユニットとの結合の例を示す説明図である。図２（ａ）は、１つのユニット５１の入出力の例を示し、図２（ｂ）は、２層に並べられたユニット５１の間の結合の例を示す。図２（ａ）に示すように、１つのユニット５１に対して４つの入力（ｘ_１〜ｘ_４）と１つの出力（ｚ）があった場合に、当該ユニット５１の動作は、例えば、式（１Ａ）のように表される。ここで、ｆ（）は活性化関数を表わしている。

【0022】

ｚ＝ｆ（ｕ）・・・（１Ａ）
ただし、ｕ＝ａ＋ｗ_１ｘ_１＋ｗ_２ｘ_２＋ｗ_３ｘ_３＋ｗ_４ｘ_４・・・（１Ｂ）

【0023】

式（１Ｂ）において、ａは切片、ｗ_１〜ｗ_４は各入力（ｘ_１〜ｘ_４）に対応した重み等のパラメタを表す。

【0024】

一方、図２（ｂ）に示すように、２層に並べられた層間で各ユニット５１が結合されている場合、後段の層に着目すると、当該層（２層のうちの後段の層）内の各ユニットへの入力（それぞれｘ_１〜ｘ_４）に対する各ユニット５１の出力（ｚ_１〜ｚ_４）は、例えば、次のように表される。なお、ｉは同一層内のユニットの識別子（本例ではｉ＝１〜３）である。

【0025】

ｚ_ｉ＝ｆ（ｕ_ｉ）・・・（２Ａ）
ただし、ｕ_ｉ＝ａ＋ｗ_ｉ，１ｘ_１＋ｗ_ｉ，２ｘ_２＋ｗ_ｉ，３ｘ_３＋ｗ_ｉ，４ｘ_４
・・・（２Ｂ）

【0026】

以下では、式（２Ｂ）を単純化して、ｕ_ｉ＝Σｗ_ｉ，ｋ＊ｘ_ｋと記す場合がある。なお、切片ａは省略した。なお、切片ａを値１の定数項の係数（パラメタの１つ）とみなすことも可能である。ここで、ｋは、当該層における各ユニット５１への入力の識別子を表わす。より具体的には、ｋは、その入力を行う他のユニットの識別子を表わしているということもできる。このとき当該層における各ユニット５１への入力が前段の層の各ユニットの出力のみである場合には、上記の簡略式を、ｕ_ｉ^（Ｌ）＝Σｗ_ｉ，ｋ^（Ｌ）＊ｘ_ｋ^{（Ｌ−１）}と記すことも可能である。なお、Ｌは層の識別子を表わす。これらの式において、ｗ_ｉ，ｋが、当該層（第Ｌ層）における各ユニットｉのパラメタに相当する。このパラメタは、より具体的には、各ユニットｉと他のユニットｋとの結合（ユニット間結合）の重みに相当する。以下では、ユニットを特に区別せず、ユニットの出力値を決める関数（活性化関数）を簡略化して、ｚ＝Σｗ＊ｘと記す場合がある。

【0027】

上記の例において、ある層の各ユニット５１について、入力ｘから出力ｚを求める演算が、その層における推論処理に相当する。

【0028】

本発明の実施形態を説明する前に、ニューラルネットワークの各層のうち、一部の層の演算を低精度で実行し、残りの層の演算を高精度で実行する処理装置の例について説明する。図３は、上記の処理装置の例を示す模式図である。処理装置１８は、例えば、低精度演算回路５と、高精度演算回路６と、第１メモリ７と、第２メモリ８と、第３メモリ９とを備える。低精度演算回路５、高精度演算回路６、第１メモリ７、第２メモリ８および第３メモリ９は、例えば、バス１０を介して接続される。

【0029】

低精度演算回路５は、推論処理において、ニューラルネットワークの各層のうち、一部の層の演算を第１の演算精度で実行する。

【0030】

第１メモリ７は、低精度演算回路５が演算を実行する際に使用するメモリであり、低精度演算回路５は、第１メモリ７に適宜アクセスしながら、演算を実行する。

【0031】

高精度演算回路６は、推論処理において、ニューラルネットワークの各層のうち、残りの層の演算を、第１の演算精度よりも高い第２の演算精度で実行する。

【0032】

第２メモリ８は、高精度演算回路６が演算を実行する際に使用するメモリであり、高精度演算回路６は、第２メモリ８に適宜アクセスしながら、演算を実行する。

【0033】

なお、第１メモリ７および第２メモリ８は、異なるメモリで実現されも、単一のメモリで実現されていてもよい。第１メモリ７および第２メモリ８が単一のメモリで実現される場合には、その単一のメモリが、低精度演算回路５のアクセス領域と、高精度演算回路６のアクセス領域とに分けられていればよい。

【0034】

また、第３メモリ９は、低精度演算回路５と高精度演算回路６がデータを授受する際に用いられるデータ授受用メモリである。なお、第３メモリ９が設けられていなくてもよい。すなわち、低精度演算回路５と高精度演算回路６が、第３メモリ９（データ授受用メモリ）を介さずに、通信によってデータを授受してもよい。

【0035】

高精度演算回路６の演算精度（第２の演算精度）は、低精度演算回路５の演算精度（第１の演算精度）よりも高い。なお、演算に用いる数値データの値域の広さ・細かさの尺度（より具体的には、演算回路におけるビット幅および小数点の取り扱い等で定まる数値データの値域の広さ・細かさの尺度）を、「精度」または「演算精度」と呼ぶ。

【0036】

以下、低精度演算回路５の演算精度が８ビットの整数演算であり、高精度演算回路６の演算精度が３２ビットの浮動小数点演算である場合を例にして説明する。ただし、低精度演算回路５の演算精度および高精度演算回路６の演算精度は、この例に限定されず、高精度演算回路６の演算精度が、低精度演算回路５の演算精度よりも高ければよい。

【0037】

低精度演算回路５および高精度演算回路６は、例えば、ＧＰＵ（Graphics Processing Unit）に実装される。

【0038】

図４は、低精度演算回路５の一例を示す概略構成図である。図４に例示するように、低精度演算回路５は、例えば、複数のＭＡＣ（Multiplier-Accumulator）２２１を並列に接続した構成であってもよい。

【0039】

同様に、高精度演算回路６も、図４に例示するように、複数のＭＡＣを並列に接続した構成であってもよい。ただし、低精度演算回路５に設けられるＭＡＣ２２１の演算精度よりも、高精度演算回路６に設けられるＭＡＣの演算精度の方が高い。

【0040】

ＭＡＣは、低精度演算回路５や高精度演算回路６に設けられる演算器の一例である。

【0041】

図５は、ＭＡＣ２２１の構成例を示すブロック図である。ＭＡＣ２２１は、乗算器２３４と、加算器２３５と、３つの入力を保持する記憶素子２３１〜２３３と、１つの出力を保持する記憶素子２３６とを備えていてもよい。図５に例示するＭＡＣ２２１は、３つの変数ａ，ｗ，ｘを受け取ると、１つの出力変数ｚ＝ａ＋ｗ＊ｘを計算する演算回路である。本例において、ｚがユニットの出力に相当し、ａ，ｗがパラメタに相当し、ｘがユニットの入力に相当する。ＭＡＣ２２１は、３つの変数ｗ，ｘ，ａをそれぞれ、記憶素子２３１，２３２，２３３を介して受け取る。計算されたｚは、記憶素子２３６を介して外部に送られる。このような構成において、ＭＡＣ２２１の演算精度は、乗算器２３４や加算器２３５のビット幅および小数点の取り扱い（浮動小数点か固定小数点か等）により決定される。例えば、低精度演算回路５に設けられるＭＡＣ２２１では、乗算器２３４および加算器２３５による演算が、低精度演算回路５の演算精度（例えば、８ビットの整数演算）に対応していればよい。

【0042】

高精度演算回路６に設けられるＭＡＣも、図５に示す構成と同様に表すことができる。ただし、高精度演算回路６に設けられるＭＡＣでは、乗算器２３４および加算器２３５による演算が、高精度演算回路６の演算精度（例えば、３２ビットの浮動小数点演算）に対応する。

【0043】

なお、低精度演算回路５および高精度演算回路６の構成は、図４に例示する構成に限定されない。図４に示す構成とは異なる構成によって、低精度演算回路５および高精度演算回路６が実現されていてもよい。例えば、低精度演算回路５および高精度演算回路６は、ＭＡＣ以外の演算器を備える構成であってもよい。

【0044】

図６は、ニューラルネットワークを用いた推論処理の処理経過の例を示すフローチャートである。

【0045】

低精度演算回路５に入力データが与えられると（ステップＳ１１１）、低精度演算回路５は、ニューラルネットワークの第１層から第（ｋ−１）層までの順伝搬を、第１の演算精度で行う（ステップＳ１１２）。すなわち、低精度演算回路５は、第１層から第（ｋ−１）層までの各層に含まれる各ユニットの出力を計算する推論演算を、第１の演算精度で実行する。

【0046】

次に、低精度演算回路５は、ステップＳ１１２の演算結果を第３メモリ９に保存する（ステップＳ１１３）。具体的には、低精度演算回路５は、第（ｋ−１）層の各ユニットからの出力を、第３メモリ９に保存する。

【0047】

次に、低精度演算回路５は、高精度演算回路６は、ステップＳ１１２の演算結果（第（ｋ−１）層の各ユニットからの出力）を、第３メモリ９から読み出す（ステップＳ１１４）。

【0048】

ステップＳ１１３，Ｓ１１４において、低精度演算回路５および高精度演算回路６は、データ（ステップＳ１１２の演算結果。具体的には、第（ｋ−１）層の各ユニットからの出力。）を、第３メモリ９を介して、授受していることになる。

【0049】

なお、低精度演算回路５および高精度演算回路６は、第３メモリ９を介さずに、通信によって直接、データを授受してもよい。

【0050】

ステップＳ１１４の後、高精度演算回路６は、ニューラルネットワークの第ｋ層から第ｎ層までの順伝搬を、第２の演算精度で行う（ステップＳ１１５）。すなわち、高精度演算回路６は、第ｋ層から第ｎ層までの各層に含まれる各ユニットの出力を計算する推論演算を、第２の計算精度で実行する。

【0051】

なお、図６に示す処理経過において、ニューラルネットワークの入力層を第０層とし、第ｎ層が出力層であるものとする。また、上記の第（ｋ−１）層は、入力層（第０層）よりも後段でかつ出力層（第ｎ層）よりも前段の中間層であるものとする。すなわち、ｋは、０＜ｋ−１＜ｎを満たす整数であるものとする。

【0052】

ステップＳ１１５で得られる第ｎ層のユニットの出力が、推論結果を表わしているということができる。

【0053】

以下、本発明の実施形態を図面を参照して説明する。

【0054】

本実施形態では、本発明の演算最適化装置が、ニューラルネットワークにおける各層の演算精度を決定する場合を例にして説明する。また、前述のように、ニューラルネットワークを用いた処理として、与えられた入力データが示す内容を推論する処理を例にして説明する。例えば、画像データが与えられ、その画像データと、ニューラルネットワークとによって、その画像データが表わしている物（画像に写っている物）を推論する処理を例にして説明する。ただし、本発明は、ニューラルネットワークを用いた他の処理にも適用可能である。

【0055】

図７は、本発明の演算最適化装置の構成例を示すブロック図である。本発明の演算最適化装置は、判別モデル記憶部２１と、データ記憶部２２と、説明変数値取得部２３と、目的関数記憶部２４と、目的関数計算部２５と、計算結果記憶部２６と、適用パターン決定部２７とを備える。

【0056】

判別モデル記憶部２１は、判別モデルとして、ニューラルネットワークを記憶する記憶装置である。

【0057】

データ記憶部２２は、ニューラルネットワークを用いた推論処理の対象なるデータ（例えば、画像に写っている物を推論対象とする画像データ）を記憶する記憶装置である。データ記憶部２２は、推論対象となるデータを複数個（Ｎ個とする。）、記憶し、個々のデータに対応する推論結果の正解データも記憶する。例えば、データ記憶部２２は、Ｎ個の画像データと、個々の画像データに対応する正解データ（実際に画像に写っている物を示すデータ）とを記憶する。

【0058】

目的関数記憶部２４は、所定の説明変数（以下、単に説明変数と記す。）で表される目的関数を記憶する。目的関数を表わす式は、予め定められる。本実施形態では、少なくとも、ニューラルネットワークを用いた推論処理における「推論精度」と「処理速度」とを、上記の説明変数として用いるものとする。以下の説明では、説明を簡単にするために、まず、「推論精度」と「処理速度」とを説明変数とする場合について説明する。目的関数が、「推論精度」および「処理速度」に加え、さらに他の説明変数によって表されてもよいが、この場合については、後述する。

【0059】

ここで、「推論精度」とは、推論処理の演算結果（換言すれば、推論結果）の正確さである。

【0060】

目的関数記憶部２４は、目的関数として、例えば、以下の式（３）で表される関数を記憶する。

【0061】

目的関数＝「推論精度」×α＋「処理速度」×β ・・・（３）

【0062】

「推論精度」および「処理速度」は、説明変数である。αは、「推論精度」の係数であり、βは、「処理速度」の係数である。αおよびβの値は、予め決定されている。本実施形態では、αおよびβがいずれも、正の値として定められている場合を例にして説明する。

【0063】

説明変数値取得部２３は、目的関数記憶部２４に記憶されている目的関数において用いられている説明変数の値を取得する。本例では、ニューラルネットワークを用いた推論処理における「推論精度」および「処理速度」の値を取得する。

【0064】

また、説明変数値取得部２３は、予め、複数種類の適用パターンを記憶している。適用パターンとは、判別モデル（本実施形態では、ニューラルネットワーク）を用いた演算で、低精度演算回路５（図３参照）をニューラルネットワークのどの層に適用し、高精度演算回路６（図３参照）をニューラルネットワークのどの層に適用するのかを定めた情報である。なお、本実施形態では、第１層以降に低精度演算回路５を適用し、いずれかの層と層の間で、層に適用する回路を低精度演算回路５から高精度演算回路６に切り替えてもよいものとする。ただし、説明を簡単にするために、その切り替えは最大で１回である場合を例にして説明する。また、第１層以降の全ての層に高精度演算回路６を適用してもよいものとする。

【0065】

従って、本実施形態では、第１層から第ｐ層までに低精度演算回路５を適用し、第ｐ＋１層から第ｑ層までに高精度演算回路６を適用し、第ｑ＋１層から第ｎ層（出力層）までに再び低精度演算回路５を適用するようなケースは、適用パターンから除外する。ただし、本発明において、このようなケースを適用パターンに含めてもよい。

【0066】

図８は、適用パターンの例を示す模式図である。図８に示す各矩形は、ニューラルネットワークの各層を表わしている。

【0067】

図８に示す適用パターン１は、第１層から第ｎ層までの全ての層に低精度演算回路５を適用することを定めている。換言すれば、適用パターン１は、第１層から第ｎ層までの全ての層の演算を低精度演算回路５が実行することを定めている。

【0068】

図８に示す適用パターン２は、第１層から第ｎ−１層までの各層に低精度演算回路５を適用し、第ｎ層に高精度演算回路６を適用することを定めている。換言すれば、適用パターン２は、第１層から第ｎ−１層までの各層の演算を低精度演算回路５が実行し、第ｎ層の演算を高精度演算回路６が実行することを定めている。

【0069】

図８に示す適用パターン３は、第１層から第ｎ−２層までの各層に低精度演算回路５を適用し、第ｎ−１層および第ｎ層に高精度演算回路６を適用することを定めている。

【0070】

図８に示す適用パターンＸ−１は、第１層に低精度演算回路５を適用し、第２層から第ｎ層までの各層に高精度演算回路６を適用することを定めている。換言すれば、適用パターンＸ−１は、第１層の演算を低精度演算回路５が実行し、第２層から第ｎ層までの各層の演算を高精度演算回路６が実行することを定めている。

【0071】

図８に示す適用パターンＸは、第１層から第ｎ層までの全ての層に高精度演算回路６を適用することを定めている。換言すれば、適用パターンＸは、第１層から第ｎ層までの全ての層の演算を高精度演算回路６が実行することを定めている。

【0072】

図８に例示するような種々の適用パターンは、予め決定されていて、説明変数値取得部２３は、個々の適用パターンを予め記憶している。そして、説明変数値取得部２３は、個々の適用パターン毎に、説明変数「推論精度」の値、および、説明変数「処理速度」の値を取得する。

【0073】

適用パターンが異なれば、説明変数（本例では、「推論精度」および「処理速度」）の値も異なる。

【0074】

説明変数値取得部２３が説明変数（本例では、「推論精度」および「処理速度」）の値を取得する態様として、２つの態様がある。第１の態様は、説明変数値取得部２３が、実際に存在する処理装置１８（図３参照）に推論処理を実行させ、実測により「推論精度」および「処理速度」の値を取得する態様である。第２の態様は、説明変数値取得部２３がシミュレーションによって「推論精度」および「処理速度」の値を取得する態様である。すなわち、第１の態様は、説明変数の値を実測により取得する態様であり、第２の態様は、説明変数の値をシミュレーションにより取得する態様である。

【0075】

説明変数値取得部２３が実測により説明変数の値を取得する場合、演算最適化装置は、図９に示すように、処理装置１８を備えていてもよい。処理装置１８の構成や動作は、図３等を参照して既に説明しているので、ここでは説明を省略する。

【0076】

また、処理装置１８がまだ設計段階であり、まだ実際に処理装置１８が存在していない場合もあり得る。その場合には、図１０に示すように、演算最適化装置は、設計情報記憶部１９を備えていてもよい。設計情報記憶部１９は、処理装置１８の設計情報を記憶する記憶装置である。設計情報の例として、処理装置１８内の低精度演算回路５に設けられる演算器（例えば、ＭＡＣ）の数や、処理装置１８内の高精度演算回路６に設けられる演算器（例えば、ＭＡＣ）の数等が挙げられる。ただし、設計情報は、これらの例に限定されない。説明変数値取得部２３は、設計情報記憶部１９に記憶された設計情報に基づいて、説明変数の値をシミュレーションにより取得すればよい。

【0077】

まず、説明変数値取得部２３が実測により説明変数の値を取得する場合の動作について説明する。ここでは、図９に示すように、演算最適化装置が、処理装置１８を備えている場合を例にして説明する。

【0078】

説明変数値取得部２３が「処理速度」の値を実測によって取得する動作を説明する。説明変数値取得部２３は、処理装置１８に対して適用パターンを指定する。そして、説明変数値取得部２３は、判別モデル記憶部２１に記憶されているニューラルネットワークと、データ記憶部２２に記憶されているデータとを、処理装置１８に入力し、処理装置１８に推論処理を実行させ、処理装置１８がそのデータに対する推論処理を行う際の処理速度を計測すればよい。この結果、説明変数値取得部２３は、処理速度の値を取得する。また、このとき、処理装置１８は、指定された適用パターンに応じた動作で、推論処理を実行する。

【0079】

処理速度は、例えば、１つのデータに対する推論処理時間（換言すれば、１秒当たりに処理可能なデータ数の逆数）である。あるいは、説明変数値取得部２３は、処理速度の値として、例えば、レイテンシまたはスループットの値を取得してもよい。この点は、シミュレーションによって処理速度の値を取得する場合においても同様である。

【0080】

なお、説明変数値取得部２３は、１つのデータに関して、処理装置１８に推論処理を実行させることで、処理速度の値を取得することができる。

【0081】

説明変数値取得部２３は、指定する適用パターンを順次、変更し、適用パターン毎に、実測によって処理速度の値を取得する。

【0082】

説明変数値取得部２３が「推論精度」の値を実測によって取得する動作を説明する。推論精度の値を実測によって取得する場合、説明変数値取得部２３は、例えば、以下のように動作すればよい。説明変数値取得部２３は、処理装置１８に対して適用パターンを指定する。そして、説明変数値取得部２３は、判別モデル記憶部２１に記憶されているニューラルネットワークを処理装置１８に入力する。また、説明変数値取得部２３は、データ記憶部２２に記憶されている複数個（Ｎ個とする。）のデータをそれぞれ、処理装置１８に入力し、個々のデータ毎に、処理装置１８に推論結果を導出させる。すなわち、説明変数値取得部２３は、処理装置１８にＮ回の推論処理を実行させる。このとき、処理装置１８は、指定された適用パターンに応じた動作で、推論処理を実行する。この結果、Ｎ個の推論結果が得られる。説明変数値取得部２３は、データ記憶部２２に記憶されている正解データと、それぞれの推論結果とを照合し、Ｎ回の推論処理回数に対する、正解データが得られた推論処理回数の割合を算出し、さらにその割合の逆数を算出する。その割合の逆数が、推論精度の値に該当する。なお、説明変数値取得部２３が推論精度の値を実測によって取得する動作は、上記の例に限定されない。

【0083】

説明変数値取得部２３は、指定する適用パターンを順次、変更し、適用パターン毎に、実測によって、推論精度の値を取得する。

【0084】

次に、説明変数値取得部２３がシミュレーションにより説明変数の値を取得する場合の動作について説明する。ここでは、図１０に示すように、演算最適化装置が、設計情報記憶部１９を備えている場合を例にして説明する。本例では、処理装置１８内の低精度演算回路５（図３参照）に設けられる演算器（例えば、ＭＡＣ）の数や、処理装置１８内の高精度演算回路６（図３参照）に設けられる演算器（例えば、ＭＡＣ）の数が、設計情報として設計情報記憶部１９に記憶されているものとする。

【0085】

説明変数値取得部２３が「処理速度」の値をシミュレーションによって取得する動作を説明する。本例では、説明変数値取得部２３は、例えば、「処理速度」の値を求めるための関数（以下、処理速度関数と記す。）を予め保持する。処理速度関数は、予め定められている。処理速度関数は、例えば、低精度演算回路５に設けられる演算器の数、高精度演算回路６に設けられる演算器の数、低精度演算回路５が第１メモリ７にアクセスする場合のメモリアクセス量（メモリアクセス回数）、高精度演算回路６が第２メモリ８にアクセスする場合のメモリアクセス量（メモリアクセス回数）、および、低精度演算回路５と高精度演算回路６との間で授受されるデータ量（以下、データ授受量と記す場合がある。）を変数とする。以下、処理速度関数が、上記の各変数で表される場合を例にして説明する。ただし、処理速度関数で用いられる変数は、上記の例に限定されない。

【0086】

なお、データ授受量は、例えば、授受されるデータの個数と、データ１個当たりのバイト数との積によって表される。この場合の単位は、例えば、バイトである。

【0087】

説明変数値取得部２３は、上記の各変数の値を処理速度関数に代入することによって、処理速度の値を計算すればよい。ここで、変数のうち、低精度演算回路５に設けられる演算器の数、高精度演算回路６に設けられる演算器の数は、設計情報で定められた値を用いればよい。低精度演算回路５が第１メモリ７にアクセスする場合のメモリアクセス量（メモリアクセス回数）、高精度演算回路６が第２メモリ８にアクセスする場合のメモリアクセス量（メモリアクセス回数）、および、低精度演算回路５と高精度演算回路６との間のデータ授受量に関しては、説明変数値取得部２３が適用パターンを選択し、設計情報記憶部１９に記憶された設計情報から定まる処理装置１８の動作であって選択した適用パターンに応じた動作を模擬することによって、導出すればよい。説明変数値取得部２３は、上記の演算器の数や、選択した適用パターンに基づいて導出したメモリアクセス量、低精度演算回路５と高精度演算回路６との間のデータ授受量を、処理速度関数に代入することによって、処理速度の値を計算すればよい。この結果、説明変数値取得部２３は、シミュレーションに基づいて、処理速度の値を取得することができる。

【0088】

説明変数値取得部２３は、選択する適用パターンを順次、変更し、適用パターン毎に、シミュレーションに基づく処理速度の値を計算する。

【0089】

説明変数値取得部２３が「推論精度」の値をシミュレーションによって取得する動作を説明する。推論精度の値をシミュレーションによって取得する場合、説明変数値取得部２３は、例えば、以下のように動作すればよい。説明変数値取得部２３は、適用パターンを選択する。そして、説明変数値取得部２３は、データ記憶部２２に記憶されている複数個（本例では、Ｎ個）のデータ毎に、設計情報から定まる処理装置１８の動作であって選択した適用パターンに応じた動作を模擬することによって、データに対する推論結果を導出する。この結果、Ｎ個の推論結果が得られる。説明変数値取得部２３は、推論結果の数（Ｎ個）に対する、正解データと一致する推論結果の数の割合を算出し、さらにその割合の逆数を算出する。その割合の逆数が、推論精度の値に該当する。なお、説明変数値取得部２３が推論精度の値をシミュレーションによって取得する動作は、上記の例に限定されない。

【0090】

説明変数値取得部２３は、指定する適用パターンを順次、変更し、適用パターン毎に、シミュレーションによって、推論精度の値を取得する。

【0091】

本発明では、説明変数値取得部２３は、説明変数の値を、実測によって取得してもよく、あるいは、シミュレーションによって取得してもよい。いずれの場合であっても、説明変数値取得部２３は、適用パターン毎に説明変数（本例では、「推論精度」および「処理速度」）の値を取得する。

【0092】

なお、上記の例のように、１つのデータに対する推論処理時間（換言すれば、１秒当たりに処理可能なデータ数の逆数）で処理速度を表わす場合、処理速度を示す値が小さい方が好ましい。同様に、Ｎ回の推論処理回数に対する、正解データが得られた推論処理回数の割合の逆数（換言すれば、推論結果の数（Ｎ個）に対する、正解データと一致する推論結果の数の割合の逆数）によって推論精度を表わす場合にも、推論精度を示す値が小さいほど好ましい。

【0093】

目的関数計算部２５は、説明変数値取得部２３が適用パターン毎に算出した説明変数（本例では、「推論精度」および「処理速度」）の値を、目的関数を表わす式（本例では、前述の式（３））に代入することによって、目的関数の値を計算する。目的関数計算部２５は、目的関数の値を計算する処理を、適用パターン毎に行う。

【0094】

計算結果記憶部２６は、適用パターン毎に計算された目的関数の値を記憶する記憶装置である。目的関数計算部２５は、適用パターン毎に目的関数の値を計算し、適用パターン毎の目的関数の値を、計算結果記憶部２６に記憶させる。

【0095】

前述のように、本例では、処理速度を示す値が小さい方が好ましく、同様に、推論精度を示す値が小さいほど好ましい。従って、式(３）に例示するように表される目的関数の値が小さいほど好ましい。従って、目的関数の値が最小となる適用パターンが最も好ましい適用パターン（すなわち、最適な適用パターン）であると言える。

【0096】

適用パターン決定部２７は、計算結果記憶部２６に記憶された適用パターン毎の目的関数の値を参照し、目的関数の値が最小となる適用パターンを決定する。前述のように、目的関数の値が最小となる適用パターンは、最適な適用パターンである。

【0097】

ここで、適用パターンは、判別モデル（本実施形態では、ニューラルネットワーク）を用いた演算で、低精度演算回路５（図３参照）をニューラルネットワークのどの層に適用し、高精度演算回路６（図３参照）をニューラルネットワークのどの層に適用するのかを定めた情報である。従って、適用パターンが決定されることで、ニューラルネットワークを用いた演算を最適化することができる。そして、ニューラルネットワークの個々の層に、低精度演算回路５および高精度演算回路６のどちらを適用するのかが決定されるので、ニューラルネットワークの各層の演算精度を、第１の演算精度（例えば、低精度演算回路５による８ビットの整数演算）とするのか、第２の演算精度（例えば、高精度演算回路６による３２ビットの浮動小数点演算）とするのかを決定することができる。

【0098】

説明変数値取得部２３、目的関数計算部２５および適用パターン決定部２７は、例えば、演算最適化プログラムに従って動作するコンピュータのＣＰＵ（Central Processing Unit ）によって実現される。この場合、ＣＰＵが、プログラム記憶装置等のプログラム記録媒体から演算最適化プログラムを読み込む。そして、ＣＰＵは、その演算最適化プログラムに従って、説明変数値取得部２３、目的関数計算部２５および適用パターン決定部２７として動作すればよい。

【0099】

次に、本発明の実施形態の処理経過の例を説明する。図１１は、本発明の実施形態の演算最適化装置の処理経過の例を示すフローチャートである。なお、ここでは、目的関数記憶部２４が前述の式（３）で表される目的関数を記憶し、説明変数値取得部２３が説明変数の値として、「推論精度」の値および「処理速度」の値を取得する場合を例にして説明する。また、既に説明した事項については、適宜、説明を省略する。

【0100】

まず、説明変数値取得部２３は、予め記憶している複数の適用パターンの中から、未選択の適用パターンを１つ選択する（ステップＳ１）。

【0101】

次に、説明変数値取得部２３は、ステップＳ１で選択した適用パターンのもとでの推論処理の動作における説明変数の値を取得する（ステップＳ２）。本例では、説明変数値取得部２３は、ステップＳ１で選択した適用パターンのもとでの動作における、「推論精度」の値、および、「処理速度」の値をそれぞれ取得する。

【0102】

説明変数値取得部２３は、実測によって説明変数の値を取得してもよく、あるいは、シミュレーションによって説明変数の値を取得してもよい。実測により「推論精度」の値や「処理速度」の値を取得する動作や、シミュレーションにより「推論精度」の値や「処理速度」の値を取得する動作については、既に説明したので、ここでは説明を省略する。

【0103】

ステップＳ２の後、目的関数計算部２５は、選択された適用パターンに関してステップＳ２で取得された説明変数の値（本例では、「推論精度」の値、および、「処理速度」の値）を、目的関数を表わす式（本例では、前述の式（３））に代入することによって、目的関数の値を計算する（ステップＳ３）。そして、目的関数計算部２５は、ステップＳ１で選択された適用パターンと、目的関数の値とを対応付けて、計算結果記憶部２６に記憶させる。

【0104】

次に、説明変数値取得部２３は、予め記憶している全ての適用パターンがステップＳ１で選択済みになっているか否かを判定する（ステップＳ４）。

【0105】

未選択の適用パターンが存在する場合には（ステップＳ４のＮｏ）、演算最適化装置は、ステップＳ１以降の処理を繰り返す。

【0106】

全ての適用パターンが選択済みとなっている場合には（ステップＳ４のＹｅｓ）、適用パターン決定部２７は、計算結果記憶部２６に記憶された適用パターン毎の目的関数の値を参照し、目的関数の値が最小となる適用パターンを決定する（ステップＳ５）。ステップＳ５で処理を終了する。

【0107】

既に説明したように、適用パターンが決定されることで、ニューラルネットワークを用いた演算を最適化することができる。そして、ニューラルネットワークの個々の層に、低精度演算回路５および高精度演算回路６のどちらを適用するのかが決定されるので、ニューラルネットワークの各層の演算精度を、第１の演算精度（例えば、低精度演算回路５による８ビットの整数演算）とするのか、第２の演算精度（例えば、高精度演算回路６による３２ビットの浮動小数点演算）とするのかを決定することができる。

【0108】

また、本実施形態では、上記のステップＳ１〜Ｓ５の処理によって、適用パターンを決定するので、自動的に適用パターンを決定することができる。従って、ニューラルネットワークの各層の演算精度を、第１の演算精度とするのか、第２の演算精度とするのかを自動的に決定することができる。

【0109】

次に、本発明の実施形態の変形例として、目的関数を、「推論精度」および「処理速度」に加えさらに他の説明変数によって表した場合を説明する。なお、以下に示す変形例の説明では、既に説明した事項については、適宜、説明を省略する。

【0110】

目的関数は、「推論精度」および「処理速度」に加えて、さらに、「低精度演算回路５と高精度演算回路６との間で授受されるデータ量」も説明変数として、表されてもよい。以下、「低精度演算回路５と高精度演算回路６との間で授受されるデータ量」を、単に、データ授受量と記す。既に説明したように、データ授受量は、例えば、授受されるデータの個数と、データ１個当たりのバイト数との積によって表される。

【0111】

本例では、目的関数記憶部２４は、目的関数として、例えば、以下の式（４）で表される関数を記憶すればよい。

【0112】

目的関数＝「推論精度」×α＋「処理速度」×β＋「データ授受量」×γ
・・・（４）

【0113】

γは、「データ授受量」の係数であり、予め決定されている。本例では、γが正の値として定められている場合を例にして説明する。

【0114】

本変形例では、説明変数値取得部２３は、「推論精度」および「処理速度」の他に、「データ授受量」の値も適用パターン毎に取得する。

【0115】

説明変数値取得部２３が「データ授受量」の値を実測によって取得する動作を説明する。説明変数値取得部２３は、処理装置１８に対して適用パターンを指定する。そして、説明変数値取得部２３は、判別モデル記憶部２１に記憶されているニューラルネットワークと、データ記憶部２２に記憶されているデータとを、処理装置１８に入力し、処理装置１８に推論処理を実行させ、処理装置１８がそのデータに対する推論処理を行う際のデータ授受量を計測すればよい、この結果、説明変数値取得部２３は、データ授受量の値を取得する。また、このとき、処理装置１８は、指定された適用パターンに応じた動作で、推論処理を実行する。なお、説明変数値取得部２３は、１つのデータに関して、処理装置１８に推論処理を実行させることで、データ授受量の値を取得することができる。

【0116】

説明変数値取得部２３は、指定する適用パターンを順次、変更し、適用パターン毎に、実測によってデータ授受量の値を取得する。

【0117】

説明変数値取得部２３が「データ授受量」の値をシミュレーションによって取得する動作を説明する。説明変数値取得部２３は、適用パターンを選択し、設計情報記憶部１９に記憶された設計情報から定まる処理装置１８の動作であって選択した適用パターンに応じた動作を模擬することによって、データ授受量の値を導出すればよい。なお、説明変数値取得部２３は、１つのデータに関して、処理装置１８の動作を模擬することで、データ授受量の値を導出することができる。

【0118】

説明変数値取得部２３は、選択する適用パターンを順次、変更し、適用パターン毎に、シミュレーションによってデータ授受量の値を導出する。

【0119】

本変形例では、目的関数計算部２５は、「推論精度」の値、「処理速度」の値、および、「データ授受量」の値を式（４）に代入することによって、適用パターン毎に目的関数の値を計算すればよい。

【0120】

その他の点に関しては、上記の実施形態と同様である。

【0121】

本変形例によれば、「データ授受量」も加味して、ニューラルネットワークの各層の演算精度を、第１の演算精度とするのか、第２の演算精度とするのかを決定することができる。

【0122】

また、目的関数は、「推論精度」および「処理速度」に加えて、さらに、「処理装置１８の回路規模（以下、単に回路規模と記す。）」を説明変数として、表されてもよい。

【0123】

本例では、目的関数記憶部２４は、目的関数として、例えば、以下の式（５）で表される関数を記憶すればよい。

【0124】

目的関数＝「推論精度」×α＋「処理速度」×β＋「回路規模」×δ
・・・（５）

【0125】

δは、「回路規模」の係数であり、予め決定されている。本例では、δが正の値として定められている場合を例にして説明する。

【0126】

以下の説明では、低精度演算回路５に含まれる演算器（例えば、ＭＡＣ）、および、高精度演算回路６に含まれる演算器（例えば、ＭＡＣ）の個数を、低精度演算回路５に含まれる演算器、または、高精度演算回路６に含まれる演算器を基準として表した値を、「回路規模」とする場合を例にして説明する。本例では、低精度演算回路５に含まれる演算器を基準とするものとして説明する。低精度演算回路５に含まれる演算器を基準とする場合、高精度演算回路６に含まれる演算器の個数を、低精度演算回路５に含まれる演算器の何個分に相当するかという値に変換して表わす。また、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器何個分に相当するかは、高精度演算回路６に含まれる１個の演算器の占有面積が、低精度演算回路５に含まれる演算器何個分の占有面積に相当するかによって求めればよい。以下、説明を簡単にするために、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器Ｊ個分に相当するものとして説明する。

【0127】

本変形例では、説明変数値取得部２３は、「推論精度」および「処理速度」の他に、「回路規模」の値も取得する。

【0128】

説明変数値取得部２３が「回路規模」の値を実測によって取得する動作を説明する。処理装置１８が存在する場合には、その処理装置１８内の低精度演算回路５に含まれる演算器の個数、高精度演算回路６に含まれる演算器の個数、および、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器何個分に相当するかという情報は、既知の情報である。説明変数値取得部２３は、例えば、この既知の情報を、予め記憶しているものとする。また、説明を簡単にするために、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器Ｊ個分に相当するものとして説明する。

【0129】

この場合、説明変数値取得部２３は、以下に示す式（６）の計算によって、「回路規模」の値を計算すればよい。

【0130】

回路規模＝「低精度演算回路５に含まれる演算器の個数」＋
「高精度演算回路６に含まれる演算器の個数」×Ｊ
・・・（６）

【0131】

なお、上記の例では、回路規模の値は、適用パターンに依存しないので、説明変数値取得部２３は、回路規模の値を、各適用パターンで共通の値として算出してよい。

【0132】

説明変数値取得部２３が「回路規模」の値をシミュレーションによって取得する動作を説明する。この場合、設計情報記憶部１９（図１０参照）が記憶する設計情報に、低精度演算回路５に含まれる演算器の個数の設計値、高精度演算回路６に含まれる演算器の個数の設計値、および、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器何個分に相当するかという設計値を含めておけばよい。本例においても、高精度演算回路６に含まれる１個の演算器が、低精度演算回路５に含まれる演算器Ｊ個分に相当するものとして説明する。

【0133】

この場合、説明変数値取得部２３は、以下に示す式（７）の計算によって、「回路規模」の値を計算すればよい。

【0134】

回路規模＝「低精度演算回路５に含まれる演算器の個数の設計値」＋
「高精度演算回路６に含まれる演算器の個数の設計値」×Ｊ
・・・（７）

【0135】

【0136】

また、シミュレーションによって「回路規模」の値を取得する場合、説明変数値取得部２３は、演算器の個数を低精度演算回路５に含まれる演算器等を基準として表した値とは異なる値で求めてもよい。例えば、説明変数値取得部２３は、「回路規模」の値を求めるための関数（以下、回路規模関数と記す。）によって、回路規模の値を計算してもよい。この場合、説明変数値取得部２３は、回路規模関数を予め保持する。また、回路規模関数は、予め定められている。回路規模関数は、例えば、低精度演算回路５に設けられる演算器の数、高精度演算回路６に設けられる演算器の数、低精度演算回路５がアクセスする第１メモリ７（図３参照）のメモリサイズ、高精度演算回路６がアクセスする第２メモリ８（図３参照）のメモリサイズ、および、データ授受量（低精度演算回路５と高精度演算回路６との間で授受されるデータ量）を変数とする。以下、回路規模関数が、上記の各変数で表される場合を例にして説明する。ただし、回路規模関数で用いられる変数は、上記の例に限定されない。第１メモリ７のメモリサイズ、および、第２メモリ８のメモリサイズは、設計情報として設計情報記憶部１９に記憶させておけばよい。

【0137】

説明変数値取得部２３は、上記の各変数の値を回路規模関数に代入することによって、回路規模の値を計算すればよい。ここで、変数のうち、低精度演算回路５に設けられる演算器の数、高精度演算回路６に設けられる演算器の数、第１メモリ７のメモリサイズ、および、第２メモリ８のメモリサイズは、設計情報で定められた値を用いればよい。データ授受量に関しては、説明変数値取得部２３が適用パターンを選択し、設計情報記憶部１９に記憶された設計情報から定まる処理装置１８の動作であって選択した適用パターンに応じた動作を模擬することによって、導出すればよい。説明変数値取得部２３は、上記の演算器の数やメモリサイズ、および、選択した適用パターンに基づいて導出したデータ授受量を回路規模関数に代入することによって、回路規模の値を計算すればよい。また、この場合、説明変数値取得部２３は、選択する適用パターンを順次、変更し、適用パターン毎に、シミュレーションに基づく回路規模の値を計算する。

【0138】

本変形例では、目的関数計算部２５は、「推論精度」の値、「処理速度」の値、および、「回路規模」の値を式（５）に代入することによって、適用パターン毎に目的関数の値を計算すればよい。

【0139】

その他の点に関しては、上記の実施形態と同様である。

【0140】

本変形例によれば、「回路規模」も加味して、ニューラルネットワークの各層の演算精度を、第１の演算精度とするのか、第２の演算精度とするのかを決定することができる。

【0141】

また、目的関数は、「推論精度」および「処理速度」に加えて、さらに、「処理装置１８の消費電力（以下、単に消費電力と記す。）」を説明変数として、表されてもよい。

【0142】

本例では、目的関数記憶部２４は、目的関数として、例えば、以下の式（８）で表される関数を記憶すればよい。

【0143】

目的関数＝「推論精度」×α＋「処理速度」×β＋「消費電力」×ε
・・・（８）

【0144】

εは、「消費電力」の係数であり、予め決定されている。本例では、εが正の値として定められている場合を例にして説明する。

【0145】

本変形例では、説明変数値取得部２３は、「推論精度」および「処理速度」の他に、「消費電力」の値も適用パターン毎に取得する。

【0146】

説明変数値取得部２３が「消費電力」の値を実測によって取得する動作を説明する。説明変数値取得部２３は、処理装置１８に対して適用パターンを指定する。そして、説明変数値取得部２３は、判別モデル記憶部２１に記憶されているニューラルネットワークと、データ記憶部２２に記憶されているデータとを、処理装置１８に入力し、処理装置１８に推論処理を実行させ、処理装置１８がそのデータに対する推論処理を行う際の消費電力を計測すればよい。この結果、説明変数値取得部２３は、消費電力の値を取得する。また、このとき、処理装置１８は、指定された適用パターンに応じた動作で、推論処理を実行する。なお、説明変数値取得部２３は、１つのデータに関して、処理装置１８に推論処理を実行させることで、消費電力の値を取得することができる。

【0147】

説明変数値取得部２３は、指定する適用パターンを順次、変更し、適用パターン毎に、実測によって消費電力の値を取得する。

【0148】

説明変数値取得部２３が「消費電力」の値をシミュレーションによって取得する動作を説明する。「消費電力」の値をシミュレーションによって導出する場合、設計段階で定められている、消費電力値導出に必要なデータを、設計情報記憶部１９に記憶される設計情報に含めておく。説明変数値取得部２３は、適用パターンを選択し、設計情報記憶部１９に記憶された設計情報から定まる処理装置１８の動作であって選択した適用パターンに応じた動作を模擬することによって、消費電力の値を導出すればよい。なお、説明変数値取得部２３は、１つのデータに関して、処理装置１８の動作を模擬することで、消費電力の値を導出することができる。

【0149】

説明変数値取得部２３は、選択する適用パターンを順次、変更し、適用パターン毎に、シミュレーションによって消費電力の値を導出する。

【0150】

本変形例では、目的関数計算部２５は、「推論精度」の値、「処理速度」の値、および、「消費電力」の値を式（８）に代入することによって、適用パターン毎に目的関数の値を計算すればよい。

【0151】

その他の点に関しては、上記の実施形態と同様である。

【0152】

本変形例によれば、「消費電力」も加味して、ニューラルネットワークの各層の演算精度を、第１の演算精度とするのか、第２の演算精度とするのかを決定することができる。

【0153】

上記の各変形例では、目的関数が、「推論精度」および「処理速度」に加えて、さらに、「データ授受量」、「回路規模」および「消費電力」のいずれかを説明変数として表される場合を説明した。目的関数は、「推論精度」および「処理速度」に加えて、さらに、「データ授受量」、「回路規模」および「消費電力」のうちの任意の１つ以上の説明変数によって表されていてもよい。

【0154】

目的関数が、「推論精度」、「処理速度」、「データ授受量」、「回路規模」および「消費電力」を説明変数として表されていてもよい。この場合、目的関数記憶部２４は、目的関数として、例えば、以下の式（９）で表される関数を記憶すればよい。

【0155】

目的関数＝「推論精度」×α＋「処理速度」×β＋「データ授受量」×γ
＋「回路規模」×δ＋「消費電力」×ε
・・・（９）

【0156】

この場合、説明変数値取得部２３は、実測により、または、シミュレーションにより、各説明変数（「推論精度」、「処理速度」、「データ授受量」、「回路規模」および「消費電力」）の値を、適用パターン毎に取得すればよい。

【0157】

また、目的関数計算部２５は、説明変数値取得部２３によって取得された各説明変数の値を式（９）に代入することによって、適用パターン毎に目的関数の値を計算すればよい。

【0158】

この場合、「データ授受量」、「回路規模」および「消費電力」も加味して、ニューラルネットワークの各層の演算精度を、第１の演算精度とするのか、第２の演算精度とするのかを決定することができる。

【0159】

なお、式（９）において、「データ授受量」×γの項が含まれていなくてもよい。この場合、説明変数値取得部２３は、「データ授受量」の値を取得しなくてよい。

【0160】

また、式（９）において、「回路規模」×δの項が含まれていなくてもよい。この場合、説明変数値取得部２３は、「回路規模」の値を取得しなくてよい。

【0161】

また、式（９）において、「消費電力」×εの項が設けられていなくてもよい。この場合、説明変数値取得部２３は、「消費電力」の値を取得しなくてよい。

【0162】

図１２は、本発明の実施形態またはその変形例に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４とを備える。

【0163】

本発明の演算最適化装置は、コンピュータ１０００に実装される。演算最適化装置の動作は、演算最適化プログラムの形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、その演算最適化プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、その演算最適化プログラムに従って、上記の実施形態やその変形例で説明した処理を実行する。

【0164】

補助記憶装置１００３は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００がそのプログラムを主記憶装置１００２に展開し、上記の処理を実行してもよい。

【0165】

また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。

【0166】

また、各構成要素の一部または全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

【0167】

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

【0168】

次に、本発明の概要について説明する。図１３は、本発明の演算最適化装置の概要を示すブロック図である。本発明の演算最適化装置は、説明変数値取得手段７３と、目的関数計算手段７５と、適用パターン決定手段７７とを備える。

【0169】

説明変数値取得手段７３（例えば、説明変数値取得部２３）は、１つ以上のユニットでそれぞれ構成された複数の層が結合された判別モデル（例えば、ニューラルネットワーク）を用いた演算で、第１の演算精度で演算を行う第１の演算回路（例えば、低精度演算回路５）をどの層に適用し、第１の演算精度よりも高い第２の演算精度で演算を行う第２の演算回路（例えば、高精度演算回路６）をどの層に適用するかを定めた情報である適用パターン毎に、所定の説明変数の値を取得する。

【0170】

目的関数計算手段７５（例えば、目的関数計算部２５）は、所定の説明変数で表される目的関数の値を、適用パターン毎に計算する。

【0171】

適用パターン決定手段７７(例えば、適用パターン決定部２７）は、目的関数の値が最小となる適用パターンを決定する。

【0172】

そのような構成によって、判別モデルを用いた演算を最適化できるように、判別モデルの各層における演算精度を自動的に定めることができる。

【0173】

目的関数は、少なくとも、判別モデルを用いた演算の処理速度、および、演算結果の正確さを所定の説明変数として表されていてもよい。

【0174】

目的関数は、第１の演算回路と第２の演算回路との間で授受されるデータ量を所定の説明変数として表されていてもよい。

【0175】

目的関数は、判別モデルを用いた演算を行う回路の回路規模を所定の説明変数として表されていてもよい。