特許7323219 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣソリューションイノベータ株式会社の特許一覧

特許7323219構造最適化装置、構造最適化方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-31

(45)【発行日】2023-08-08

(54)【発明の名称】構造最適化装置、構造最適化方法、及びプログラム

(51)【国際特許分類】

G06N 3/082 20230101AFI20230801BHJP

G06N 3/0499 20230101ALI20230801BHJP

【ＦＩ】

G06N3/082

G06N3/0499

【請求項の数】 9

(21)【出願番号】P 2021562709

(86)(22)【出願日】2020-12-03

(86)【国際出願番号】 JP2020044994

(87)【国際公開番号】W WO2021112166

(87)【国際公開日】2021-06-10

【審査請求日】2022-05-06

(31)【優先権主張番号】P 2019218605

(32)【優先日】2019-12-03

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000232092

【氏名又は名称】ＮＥＣソリューションイノベータ株式会社

(74)【代理人】

【識別番号】110002044

【氏名又は名称】弁理士法人ブライタス

(72)【発明者】

【氏名】中島昇

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２０１９－１８５２７５（ＪＰ，Ａ）

【文献】特開平１１－１２０１５８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／００９５７９５（ＵＳ，Ａ１）

【文献】前田孝泰, ほか，時空間同期の取れた２人協調動作生成，情報処理学会研究報告コンピュータビジョンとイメージメディア（ＣＶＩＭ），日本，情報処理学会，2019年05月30日，Vol.2019-CVIM-217, No31

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０４９９

Ｇ０６Ｎ３／０８

Ｇ０６Ｎ３／０８２

(57)【特許請求の範囲】

【請求項1】

構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成手段と、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層に対応する第一の寄与度が、あらかじめ設定された第一の閾値より小さい場合、前記中間層の中から、前記第一の閾値より小さい第一の中間層を選択し、選択した前記第一の中間層が有するニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された第二の閾値以上のニューロンがある場合、当該第一の中間層を選択対象から除外する、選択手段と、
選択した前記第一の中間層を削除する、削除手段と、
を有することを特徴とする構造最適化装置。

【請求項2】

請求項１に記載の構造最適化装置であって、
前記選択手段は、更に、選択した前記第一の中間層が有する前記ニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された前記第二の閾値より小さいニューロンを選択し、
前記削除手段は、更に、選択した前記第一の中間層から、選択した前記ニューロンを削除する、
ことを特徴とする構造最適化装置。

【請求項3】

請求項１又は２に記載の構造最適化装置であって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とする構造最適化装置。

【請求項4】

コンピュータが、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成し、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層に対応する第一の寄与度が、あらかじめ設定された第一の閾値より小さい場合、前記中間層の中から、前記第一の閾値より小さい第一の中間層を選択し、選択した前記第一の中間層が有するニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された第二の閾値以上のニューロンがある場合、当該第一の中間層を選択対象から除外し、
選択した前記第一の中間層を削除する、
ことを特徴とする構造最適化方法。

【請求項5】

請求項４に記載の構造最適化方法であって、
前記選択において、更に、選択した前記第一の中間層が有する前記ニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された前記第二の閾値より小さいニューロンを選択し、
前記削除において、更に、選択した前記第一の中間層から、選択した前記ニューロンを削除する、
ことを特徴とする構造最適化方法。

【請求項6】

請求項４又は５に記載の構造最適化方法であって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とする構造最適化方法。

【請求項7】

コンピュータに、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成し、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層に対応する第一の寄与度が、あらかじめ設定された第一の閾値より小さい場合、前記中間層の中から、前記第一の閾値より小さい第一の中間層を選択し、選択した前記第一の中間層が有するニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された第二の閾値以上のニューロンがある場合、当該第一の中間層を選択対象から除外し、
選択した前記第一の中間層を削除する、
処理を実行させる命令を含むプログラム。

【請求項8】

請求項７に記載のプログラムであって、
前記選択において、更に、選択した前記第一の中間層が有する前記ニューロンの中に、前記ニューロンに対応する第二の寄与度が、あらかじめ設定された前記第二の閾値より小さいニューロンを選択し、
前記削除において、更に、選択した前記第一の中間層から、選択した前記ニューロンを削除する
ことを特徴とするプログラム。

【請求項9】

請求項７又は８に記載のプログラムであって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、構造化ネットワークを最適化する構造最適化装置、構造最適化方法に関し、更には、これらを実現するためのプログラムに関する。

【背景技術】

【0002】

ディープラーニング、ニューラルネットワークなどの機械学習において用いられる構造化ネットワークは、構造化ネットワークを構成する中間層（Intermediate Layer）の数が増加すると、演算器の計算量も増加する。そのため、演算器が識別・分類などの処理結果を出力するまでに長時間を要する。なお、演算器は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphical Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）などである。

【0003】

そこで、演算器の計算量を削減するための技術として、中間層が有するニューロン（例えば、パーセプトロン、シグモイドニューロン、ノードなどの人工ニューロン）をプルーニング（剪定）する、構造化ネットワーク剪定アルゴリズムなどが知られている。ニューロンは、入力値と重みとを用いて乗算及び和算を実行するユニットである。

【0004】

なお、関連する技術として非特許文献１には、構造化ネットワーク剪定アルゴリズムに対する考察について記載されている。構造化ネットワーク剪定アルゴリズムとは、アイドリングニューロンを検出し、検出したアイドリングニューロンを剪定することにより、演算器の計算量を削減する技術である。なお、アイドリングニューロンとは、識別・分類などの処理に対する寄与度が低いニューロンのことである。

【先行技術文献】

【非特許文献】

【0005】

【文献】Zhuang Liu, Mingjie Sun2，Tinghui Zhou, Gao Huang, Trevor Darrell，“RETHINKING THE VALUE OF NETWORK PRUNING”，28 Sep 2018 (modified: 06 Mar 2019)，ICLR 2019 Conference

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上述した構造化ネットワーク剪定アルゴリズムは、中間層のニューロンを剪定するアルゴリズムではあるが、中間層を剪定するアルゴリズムではない。すなわち、構造化ネットワークにおいて、識別・分類などの処理に対する寄与度が低い中間層を削減するアルゴリズムではない。

【0007】

また、上述した構造化ネットワーク剪定アルゴリズムは、ニューロンを剪定するため、識別・分類などの処理精度が低下することがある。

【0008】

本発明の目的の一例は、構造化ネットワークを最適化して演算器の計算量を削減する構
造最適化装置、構造最適化方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0009】

上記目的を達成するため、本発明の一側面における構造最適化装置は、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成部と、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択部と、
選択された前記中間層を削除する、削除部と、
を有することを特徴とする。

【0010】

また、上記目的を達成するため、本発明の一側面における構造最適化方法は、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成ステップと、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択ステップと、
選択された前記中間層を削除する、削除ステップと、
を有することを特徴とする。

【0011】

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成ステップと、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択ステップと、
選択された前記中間層を削除する、削除ステップと、
を実行させることを特徴とする。

【発明の効果】

【0012】

以上のように本発明によれば、構造化ネットワークを最適化して演算器の計算量を削減することができる。

【図面の簡単な説明】

【0013】

【図1】図１は、構造最適化装置の一例を示す図である。

【図2】図２は、学習モデルの一例を示す図である。

【図3】図３は、残差ネットワークの説明をするための図である。

【図4】図４は、構造最適化装置を有するシステムの一例を示す図である。

【図5】図５は、残差ネットワークの一例を示す図である。

【図6】図６は、残差ネットワークの一例を示す図である。

【図7】図７は、構造化ネットワークから中間層を削除した一例を示す図である。

【図8】図８は、構造化ネットワークから中間層を削除した一例を示す図である。

【図9】図９は、ニューロンとコネクションとの接続の一例を示す図である。

【図10】図１０は、構造最適化装置を有するシステムの動作の一例を示す図である。

【図11】図１１は、変形例１におけるシステムの動作の一例を示す図である。

【図12】図１２は、変形例２におけるシステムの動作の一例を示す図である。

【図13】図１３は、構造最適化装置を実現するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0014】

（実施の形態）
以下、本発明の実施の形態について、図１から図１３を参照しながら説明する。

【0015】

［装置構成］
最初に、図１を用いて、本実施の形態における構造最適化装置１の構成について説明する。図１は、構造最適化装置の一例を示す図である。

【0016】

図１に示す構造最適化装置１は、構造化ネットワークを最適化して演算器の計算量を削減する装置である。構造最適化装置１は、例えば、ＣＰＵ、又はＧＰＵ、又はＦＰＧＡなどのプログラマブルなデバイス、又はそれらを一つ以上有する演算器を有する情報処理装置である。また、図１に示すように、構造最適化装置１は、生成部２と、選択部３と、削除部４とを有する。

【0017】

このうち、生成部２は、構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する。選択部３は、構造化ネットワークを用いて実行される処理に対する中間層の寄与度（第一の寄与度）に応じて中間層を選択する。削除部４は、選択した中間層を削除する。

【0018】

構造化ネットワークは、ニューロンを有する入力層、出力層、中間層を有する、機械学習により生成される学習モデルである。図２は、学習モデルの一例を示す図である。図２の例は、入力された画像を用いて、画像に撮像された自動車、自転車、バイク、歩行者を識別・分類するモデルである。

【0019】

また、図２の構造化ネットワークにおいて、対象とする層のニューロンそれぞれは、対象とする層の次段に設けられた層の一部又は全部のニューロンと、重み付されたコネクション（Connection：接続線）により接続されている。

【0020】

中間層をショートカットする残差ネットワークについて説明する。図３は、中間層をショートカットする残差ネットワークの説明をするための図である。

【0021】

図３のＡに示す構造化ネットワークを、図３のＢに示す構造化ネットワークに変換する場合、すなわちｐ層をショートカットする残差ネットワークを生成する場合、コネクションＣ３、Ｃ４、Ｃ５、加算器ＡＤＤを用いてｐ層をショートカットする。

【0022】

図３において、ｐ－１層、ｐ層、ｐ＋１層は中間層である。ｐ－１層、ｐ層、ｐ＋１層それぞれは、ｎ個のニューロンを有する。ただし、層ごとに、ニューロンの個数が異なってもよい。

【0023】

ｐ－１層は、出力値としてｘ（ｘ１，ｘ２，……，ｘｎ）を出力し、ｐ層は、出力値としてｙ（ｙ１，ｙ２，……，ｙｎ）を出力する。

【0024】

コネクションＣ１は、ｐ－１層のニューロンの出力それぞれと、ｐ層のニューロンすべての入力とを接続する、複数のコネクションを有する。コネクションＣ１が有する複数のコネクションそれぞれには、重みが付けられている。

【0025】

また、図３の例では、コネクションＣ１が有する複数のコネクションはｎ×ｎ個存在するので、重みもｎ×ｎ個存在する。なお、以降において、コネクションＣ１のｎ×ｎ個の重みをｗ１と呼ぶことがある。

【0026】

コネクションＣ２は、ｐ層のニューロンの出力それぞれと、ｐ＋１層のニューロンすべての入力とを接続する、複数のコネクションを有する。コネクションＣ２が有する複数のコネクションそれぞれには、重みが付けられている。

【0027】

また、図３の例では、コネクションＣ２が有する複数のコネクションはｎ×ｎ個存在するので、重みもｎ×ｎ個存在する。なお、以降において、コネクションＣ２のｎ×ｎ個の重みをｗ２と呼ぶことがある。

【0028】

コネクションＣ３は、ｐ－１層のニューロンの出力それぞれと、加算器ＡＤＤの入力すべてとを接続する、複数のコネクションを有する。コネクションＣ３が有する複数のコネクションそれぞれには、重みが付けられている。

【0029】

また、図３の例では、コネクションＣ３が有する複数のコネクションはｎ×ｎ個存在するので、重みもｎ×ｎ個存在する。なお、以降において、コネクションＣ３のｎ×ｎ個の重みをｗ３と呼ぶことがある。ここで、重みｗ３については、ｐ－１層の出力値ｘを恒等変換する値でもよいし、又は出力値ｘを定数倍する値でもよい。

【0030】

コネクションＣ４は、ｐ層のニューロンの出力それぞれと、加算器ＡＤＤの入力すべてとを接続する、複数のコネクションを有する。コネクションＣ４が有する複数のコネクションそれぞれは、ｐ層の出力値ｙを恒等変換する重みが付けられている。

【0031】

加算器ＡＤＤは、コネクションＣ３から取得したｐ－１層の出力値ｘ及び重みｗ３により決定された値（ｎ個の要素）と、コネクションＣ４から取得したｐ層の出力値ｙ（ｎ個の要素）とを足し合わせ、出力値ｚ（ｚ１，ｚ２，……，ｚｎ）を算出する。

【0032】

コネクションＣ５は、加算器ＡＤＤの出力それぞれと、ｐ＋１層のニューロンすべての入力とを接続する、複数のコネクションを有する。コネクションＣ５が有する複数のコネクションそれぞれには、重みが付けられている。なお、上述したｎは１以上の整数である。

【0033】

また、図３では説明を簡単にするためにショートカットする中間層を一つとしたが、中間層をショートカットする残差ネットワークを、構造化ネットワークに複数設けてもよい。

【0034】

中間層の寄与度は、対象とする中間層のニューロンと、対象とする中間層の前段に設けられた中間層とを接続するために用いるコネクションの重みを用いて決定する。図３のＢにおいて、ｐ層の寄与度を算出する場合には、コネクションＣ１の重みｗ１を用いて、中間層の寄与度を算出する。例えば、コネクションＣ１が有する複数のコネクションに付けられた重みを合計して合計値を算出し、算出した合計値を寄与度とする。

【0035】

中間層の選択は、例えば、寄与度が、あらかじめ決定した閾値（第一の閾値）以上であるか否かを判定し、判定結果に応じて削除対象とする中間層を選択する。

【0036】

このように、本実施の形態においては、構造化ネットワークに、中間層をショートカットする残差ネットワークを生成した後、構造化ネットワークを用いて実行される処理に対して寄与度が低い中間層を削除するので、構造化ネットワークを最適化できる。したがって、演算器の計算量を削減できる。

【0037】

また、本実施の形態においては、上述したように構造化ネットワークに残差ネットワークを設けて最適化することで、識別・分類などの処理精度の低下を抑止できる。一般的に、構造化ネットワークにおいて、中間層、ニューロンの数の減少は、識別・分類する処理精度の低下につながるが、寄与度が高い中間層は削除しないので、識別・分類などの処理精度の低下を抑止できる。

【0038】

図２の例であれば、自動車を撮像した画像を入力層に入力した場合に、出力層において画像に撮像された被写体が自動車であると識別・分類するために重要な中間層は、処理に対する寄与度が高いとして削除しない。

【0039】

さらに、本実施の形態においては、上述したように構造化ネットワークを最適化することで、プログラムを小さくできるので、演算器、メモリなどの規模を小さくできる。その結果、機器を小型化することができる。

【0040】

［システム構成］
続いて、図４を用いて、本実施の形態における構造最適化装置１の構成をより具体的に説明する。図４は、構造最適化装置を有するシステムの一例を示す図である。

【0041】

図４に示すように、本実施の形態におけるシステムは、構造最適化装置１に加えて、学習装置２０、入力装置２１、記憶装置２２を有する。記憶装置２２は、学習モデル２３を記憶している。

【0042】

学習装置２０は、学習データに基づいて、学習モデル２３を生成する。具体的には、学習装置２０は、まず、入力装置２１から複数の学習データを取得する。続いて、学習装置２０は、取得した学習データを用いて、学習モデル２３（構造化ネットワーク）を生成する。続いて、学習装置２０は、生成した学習モデル２３を、記憶装置２２に記憶する。なお、学習装置２０は、例えば、サーバコンピュータなどの情報処理装置が考えられる。

【0043】

入力装置２１は、学習装置２０に学習をさせるために用いる学習データを、学習装置２０に入力する装置である。なお、入力装置２１は、例えば、パーソナルコンピュータなどの情報処理装置が考えられる。

【0044】

記憶装置２２は、学習装置２０が生成した学習モデル２３を記憶する。また、記憶装置２２は、構造最適化装置１を用いて、構造化ネットワークを最適化した学習モデル２３を記憶する。なお、記憶装置２２は、学習装置２０内に設けてもよい。又は、構造最適化装置１内に設けてもよい。

【0045】

構造最適化装置について説明する。
生成部２は、学習モデル２３が有する構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する。具体的には、生成部２は、まず、残差ネットワークを生成する対象となる中間層を選択する。生成部２は、例えば、一部又は全部の中間層を選択する。

【0046】

続いて、生成部２は、選択した中間層に対して残差ネットワークを生成する。残差ネットワークは、例えば、図３のＢに示したように、対象とする中間層がｐ層である場合、コネクションＣ３（第一のコネクション）、Ｃ４（第二のコネクション）、Ｃ５（第三のコネクション）、加算器ＡＤＤを生成し、それらを用いて残差ネットワークを生成する。

【0047】

生成部２は、コネクションＣ３の一方をｐ－１層の出力に接続し、他方を加算器ＡＤＤの一方の入力に接続する。また、生成部２は、コネクションＣ４の一方をｐ層の出力に接続し、他方を加算器ＡＤＤの他方の入力に接続する。また、生成部２は、コネクションＣ５の一方を加算器ＡＤＤの出力に接続し、他方をｐ＋１層の入力に接続する。

【0048】

さらに、残差ネットワークが有するコネクションＣ３には、重みｗ３として入力値ｘを恒等変換する重みを付けてもよいし、定数倍する重みを付けてもよい。

【0049】

なお、残差ネットワークは、図５に示すように、中間層ごとに残差ネットワークを設けてもよいし、図６に示すように、複数の中間層をショートカットするような残差ネットワークを設けてもよい。図５、図６は、残差ネットワークの一例を示す図である。

【0050】

選択部３は、構造化ネットワークを用いて実行される処理に対する中間層の寄与度（第一の寄与度）に応じて、削除対象となる中間層を選択する。具体的には、選択部３は、まず、対象とする中間層の入力に接続されているコネクションの重みを取得する。

【0051】

続いて、選択部３は、取得した重みを合計して、その合計値を寄与度とする。図３のＢにおいては、ｐ層の寄与度を算出する場合、コネクションＣ１の重みｗ１を用いて、中間層の寄与度を算出する。例えば、コネクションＣ１が有するコネクションそれぞれの重みを合計して合計値を算出し、算出した合計値を寄与度とする。

【0052】

続いて、選択部３は、寄与度が、あらかじめ決定した閾値（第一の閾値）以上であるか否かを判定し、判定結果に応じて中間層を選択する。閾値は、例えば、実験、シミュレータなどを用いて求めることが考えられる。

【0053】

寄与度があらかじめ決定した閾値以上である場合、選択部３は、対象とする中間層が、構造化ネットワークを用いて実行される処理に対して寄与度が高いと判定する。また、選択部３は、寄与度が閾値より小さい場合、選択部３は、対象とする中間層が、構造化ネットワークを用いて実行される処理に対して寄与度が低いと判定する。

【0054】

削除部４は、選択部３を用いて選択した中間層を削除する。具体的には、削除部４は、まず、寄与度が閾値より小さい中間層を表す情報を取得する。続いて、削除部４は、寄与度が閾値より小さい中間層を削除する。

【0055】

図７、図８を用いて中間層の削除について説明する。図７、図８は、構造化ネットワークから中間層を削除した一例を示す図である。

【0056】

例えば、図５に示すような残差ネットワークが設けられ、ｐ層の寄与度が閾値より小さい場合、削除部４はｐ層を削除する。そうすると、図５に示した構造化ネットワークは、図７に示すような構成になる。

【0057】

すなわち、加算器ＡＤＤ２へのコネクションＣ４２からの入力がなくなるので、図８に示すような、加算器ＡＤＤ１の出力それぞれが、ｐ＋１層の入力すべてに接続された構成になる。

【0058】

［変形例１］
変形例１について説明する。選択した中間層の処理に対する寄与度（第一の寄与度）が低くても、選択した中間層のニューロンの中には、削除すると処理の精度を低下させてしまうような、処理に対して寄与度（第二の寄与度）が高いニューロンが含まれている場合がある。

【0059】

そこで、変形例１においては、選択した中間層に、寄与度の高いニューロンが含まれている場合、その中間層を削除しないようにするために、上述した選択部３に、更に機能を追加する。

【0060】

すなわち、選択部３は、選択した中間層が有するニューロンの処理に対する寄与度（第二の寄与度）に応じて、中間層を選択する。

【0061】

このように、変形例１においては、削除対象として選択した中間層に、寄与度の高いニューロンが含まれている場合には、選択した中間層を削除対象から除外するので、処理精度の低下を抑止できる。

【0062】

変形例１について具体的に説明する。
図９は、ニューロンとコネクションとの接続の一例を示す図である。選択部３は、まず、対象とする中間層であるｐ層のニューロンごとに、接続されているコネクションの重みを取得する。続いて、選択部３は、取得したｐ層のニューロンごとに重みを合計し、その合計値を寄与度とする。

【0063】

図９における、ｐ層のニューロンＮｐ１の寄与度は、ｗ１１、ｗ２１、ｗ３１の合計を算出して求める。また、ｐ層のニューロンＮｐ２の寄与度は、ｗ１２、ｗ２２、ｗ３２の合計を算出して求める。さらに、ｐ層のニューロンＮｐ３の寄与度は、ｗ１３、ｗ２３、ｗ３３の合計を算出して求める。

【0064】

続いて、選択部３は、ｐ層のニューロンごとの寄与度が、あらかじめ決定した閾値（第二の閾値）以上であるか否かを判定する。閾値は、例えば、実験、シミュレータなどを用いて求めることが考えられる。

【0065】

続いて、ニューロンの寄与度があらかじめ決定した閾値以上である場合、選択部３は、構造化ネットワークを用いて実行される処理に対して、このニューロンの寄与度は高いと判定し、ｐ層を削除対象から除外する。

【0066】

対して、選択部３は、ｐ層のニューロンの寄与度がすべて閾値より小さい場合、対象とする中間層は、構造化ネットワークを用いて実行される処理に対して寄与度が低いと判定し、ｐ層を削除対象として選択する。続いて、削除部４は、選択部３により選択された中間層を削除する。

【0067】

寄与度の計算方法の別の一例として、下記のようにしてもよい。ｐ層に属する全ニューロンについて、一つずつ、出力値を微小量変動させたときに出力層での推論がどの程度影響を受けるかを計測し、その大きさを寄与度とすることが考えられる。具体的には、正解付きのデータを入力し、通常の方法で出力値を得る。これに対して、注目するｐ層のニューロンの一つの出力値を既定の微小量δだけ増減させたときに、該当する出力値の変化量の絶対値を寄与度とすることが考えられる。ｐ層ニューロンの出力を±δして、出力の差の絶対値を寄与度としてもよい。

【0068】

このように、変形例１においては、選択した中間層に、寄与度の高いニューロンが含まれている場合、その中間層を削除しないようにするので、処理精度の低下を抑止できる。

【0069】

［変形例２］
変形例２について説明する。選択した中間層の処理に対する寄与度（第一の寄与度）が低くても、選択した中間層のニューロンの中には、削除することで処理の精度を低下させてしまうような、処理に対して寄与度（第二の寄与度）が高いニューロンが含まれている場合がある。

【0070】

そこで、変形例２においては、選択した中間層に、寄与度の高いニューロンが含まれている場合、その中間層を削除しないで、寄与度の低いニューロンだけを削除する。

【0071】

変形例２においては、選択部３は、選択した中間層が有するニューロンの処理に対する寄与度（第二の寄与度）に応じて、ニューロンを選択する。削除部４は、選択したニューロンを削除する。

【0072】

このように、変形例２においては、選択した中間層に、寄与度の高いニューロンが含まれている場合、その中間層を削除せず、寄与度の低いニューロンだけを削除するので、処理精度の低下を抑止できる。

【0073】

変形例２について具体的に説明する。
選択部３は、まず、対象とする中間層であるｐ層のニューロンごとに、接続されているコネクションの重みを取得する。続いて、選択部３は、取得したｐ層のニューロンごとに、重みを合計して、その合計値を寄与度とする。

【0074】

続いて、選択部３は、ｐ層のニューロンごとの寄与度が、あらかじめ決定した閾値（第二の閾値）以上であるか否かを判定し、判定結果に応じて、ｐ層のニューロンを選択する。

【0075】

続いて、寄与度が、あらかじめ決定した閾値以上のニューロンである場合、選択部３は、構造化ネットワークを用いて実行される処理に対して、このニューロンの寄与度が高いと判定し、ニューロンを削除対象から除外する。

【0076】

対して、選択部３は、ｐ層のニューロンの寄与度が閾値より小さい場合、構造化ネットワークを用いて実行される処理に対して寄与度が低いとニューロンと判定し、寄与度の低いニューロンを削除対象として選択する。続いて、削除部４は、選択部３により選択されたニューロンを削除する。

【0077】

【0078】

［装置動作］
次に、本発明の実施の形態における構造最適化装置の動作について図１０を用いて説明する。図１０は、構造最適化装置を有するシステムの動作の一例を示す図である。以下の説明においては、適宜図１から図９を参照する。また、本実施の形態では、構造最適化装置を動作させることによって、構造最適化方法が実施される。よって、本実施の形態における構造最適化方法の説明は、以下の構造最適化装置の動作説明に代える。

【0079】

図１０に示すように、最初に、学習データに基づいて、学習モデル２３を生成する（ステップＡ１）。具体的には、ステップＡ１において、学習装置２０は、まず、入力装置２１から複数の学習データを取得する。

【0080】

続いて、ステップＡ１において、学習装置２０は、取得した学習データを用いて、学習モデル２３（構造化ネットワーク）を生成する。続いて、ステップＡ１において、学習装置２０は、生成した学習モデル２３を、記憶装置２２に記憶する。

【0081】

次に、生成部２は、学習モデル２３が有する構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する（ステップＡ２）。具体的には、ステップＡ２において、生成部２は、まず、残差ネットワークを生成する対象となる中間層を選択する。例えば、生成部２は、一部又は全部の中間層を選択する。

【0082】

続いて、ステップＡ２において、生成部２は、選択した中間層に対して残差ネットワークを生成する。残差ネットワークは、例えば、図３のＢに示したように、対象とする中間層がｐ層である場合、コネクションＣ３（第一のコネクション）、Ｃ４（第二のコネクション）、Ｃ５（第三のコネクション）、加算器ＡＤＤを生成し、それらを用いて残差ネットワークを生成する。

【0083】

次に、選択部３は、構造化ネットワークを用いて実行される処理に対する、中間層ごとに寄与度（第一の寄与度）を算出する（ステップＡ３）。具体的には、ステップＡ３において、選択部３は、まず、対象とする中間層の入力に接続されているコネクションの重みを取得する。

【0084】

続いて、ステップＡ３において、選択部３は、取得した重みを合計して、その合計値を寄与度とする。図３のＢにおいては、ｐ層の寄与度を算出する場合、コネクションＣ１の重みｗ１を用いて、中間層の寄与度を算出する。例えば、コネクションＣ１が有するコネクションそれぞれの重みを合計して合計値を算出し、算出した合計値を寄与度とする。

【0085】

次に、選択部３は、算出した寄与度に応じて、削除対象となる中間層を選択する（ステップＡ４）。具体的には、ステップＡ４において、選択部３は、寄与度が、あらかじめ決定した閾値（第一の閾値）以上であるか否かを判定し、判定結果に応じて中間層を選択する。

【0086】

例えば、ステップＡ４において、選択部３は、寄与度があらかじめ決定した閾値以上である場合、対象とする中間層が、構造化ネットワークを用いて実行される処理に対して寄与度が高いと判定する。また、選択部３は、寄与度が閾値より小さい場合、選択部３は、対象とする中間層が、構造化ネットワークを用いて実行される処理に対して寄与度が低いと判定する。

【0087】

次に、削除部４は、選択部３を用いて選択した中間層を削除する（ステップＡ５）。具体的には、ステップＡ５において、削除部４は、まず、寄与度が閾値より小さい中間層を表す情報を取得する。続いて、ステップＡ５において、削除部４は、寄与度が閾値より小さい中間層を削除する。

【0088】

［変形例１］
変形例１の動作について図１１を用いて説明する。図１１は、変形例１におけるシステムの動作の一例を示す図である。

【0089】

図１１に示すように、最初に、ステップＡ１からステップＡ４の処理を行う。ステップＡ１からＡ４の処理についてはすでに説明をしたので説明を省略する。

【0090】

次に、選択部３は、選択した中間層ごとに、中間層が有するニューロンそれぞれの寄与度（第二の寄与度）を算出する（ステップＢ１）。具体的には、ステップＢ１において、選択部３は、まず、対象とする中間層のニューロンごとに、接続されているコネクションの重みを取得する。続いて、選択部３は、ニューロンごとに重みを合計し、その合計値を寄与度とする。

【0091】

次に、選択部３は、算出したニューロンごとの寄与度に応じて、削除対象となる中間層を選択する（ステップＢ２）。具体的には、ステップＢ２において、選択部３は、選択した中間層のニューロンごとに、寄与度が、あらかじめ決定した閾値（第二の閾値）以上であるか否かを判定する。

【0092】

続いて、ステップＢ２において、寄与度が、あらかじめ決定した閾値以上のニューロンが選択した中間層にある場合、選択部３は、構造化ネットワークを用いて実行される処理に対して、このニューロンの寄与度は高いと判定し、選択した中間層を削除対象から除外する。

【0093】

対して、ステップＢ２において、選択部３は、選択した中間層のニューロンの寄与度がすべて閾値より小さい場合、対象とする中間層は、構造化ネットワークを用いて実行される処理に対して寄与度が低いと判定し、対象とする中間層を削除対象として選択する。

【0094】

続いて、削除部４は、選択部３により削除対象として選択された中間層を削除する（ステップＢ３）。

【0095】

【0096】

［変形例２］
変形例２の動作について図１２を用いて説明する。図１２は、変形例２におけるシステムの動作の一例を示す図である。

【0097】

図１２に示すように、最初に、ステップＡ１からステップＡ４、ステップＢ１の処理を行う。ステップＡ１からＡ４、ステップＢ１の処理についてはすでに説明をしたので説明を省略する。

【0098】

次に、選択部３は、算出したニューロンごとの寄与度に応じて、削除対象となるニューロンを選択する（ステップＣ１）。具体的には、ステップＣ１において、選択部３は、選択した中間層のニューロンごとに、寄与度が、あらかじめ決定した閾値（第二の閾値）以上であるか否かを判定する。

【0099】

続いて、ステップＣ１において、寄与度が、あらかじめ決定した閾値以上のニューロンがある場合、選択部３は、構造化ネットワークを用いて実行される処理に対して、このニューロンの寄与度は高いと判定し、選択した中間層を削除対象から除外する。

【0100】

対して、ステップＣ１において、選択部３は、選択したニューロンの寄与度が閾値より小さい場合、対象とするニューロンは、構造化ネットワークを用いて実行される処理に対して寄与度が低いと判定し、対象とするニューロンを削除対象として選択する。

【0101】

続いて、削除部４は、選択部３により削除対象として選択されたニューロンを削除する（ステップＣ２）。

【0102】

【0103】

［本実施の形態の効果］
以上のように本実施の形態によれば、構造化ネットワークに、中間層をショートカットする残差ネットワークを生成した後、構造化ネットワークを用いて実行される処理に対して寄与度が低い中間層を削除するので、構造化ネットワークを最適化できる。したがって、演算器の計算量を削減できる。

【0104】

【0105】

図２の例であれば、自動車を撮像した画像を入力層に入力した場合に、出力層において画像に撮像された被写体が自動車であると識別・分類するために必要な中間層は、処理に対する寄与度が高いとして削除しない。

【0106】

【0107】

［プログラム］
本発明の実施の形態におけるプログラムは、コンピュータに、図１０に示すステップＡ１からＡ５、又は図１１に示すステップＡ１からＡ４、ステップＢ１からＢ３、又は図１２に示すステップＡ１からＡ４、ステップＢ１、ステップＣ１、Ｃ２、又はそれら二つ以上を実行させるプログラムであればよい。

【0108】

このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における構造最適化装置と構造最適化方法とを実現することができる。この場合、コンピュータのプロセッサは、生成部２、選択部３、削除部４として機能し、処理を行なう。

【0109】

また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、生成部２、選択部３、削除部４のいずれかとして機能してもよい。

【0110】

［物理構成］
ここで、実施の形態、変形例１、２におけるプログラムを実行することによって、構造最適化装置を実現するコンピュータについて図１３を用いて説明する。図１３は、本発明の実施の形態における構造最適化装置を実現するコンピュータの一例を示すブロック図である。

【0111】

図１３に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

【0112】

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。

【0113】

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

【0114】

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

【0115】

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）などの磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

【0116】

［付記］
以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する（付記１）から（付記１２）により表現することができるが、以下の記載に限定されるものではない。

【0117】

（付記１）
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成部と、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択部と、
選択された前記中間層を削除する、削除部と、
を有することを特徴とする構造最適化装置。

【0118】

（付記２）
付記１に記載の構造最適化装置であって、
前記選択部は、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記中間層を選択する
ことを特徴とする構造最適化装置。

【0119】

（付記３）
付記１又は２に記載の構造最適化装置であって、
前記選択部は、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記ニューロンを選択し、
前記削除部は、更に、選択された前記ニューロンを削除する
ことを特徴とする構造最適化装置。

【0120】

（付記４）
付記１から３のいずれか一つに記載の構造最適化装置であって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とする構造最適化装置。

【0121】

（付記５）
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成ステップと、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択ステップと、
選択された前記中間層を削除する、削除ステップと、
を有することを特徴とする構造最適化方法。

【0122】

（付記６）
付記５に記載の構造最適化方法であって、
前記選択ステップにおいて、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記中間層を選択する
ことを特徴とする構造最適化方法。

【0123】

（付記７）
付記５又は６に記載の構造最適化方法であって、
前記選択ステップにおいて、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記ニューロンを選択し、
前記削除ステップにおいて、更に、選択された前記ニューロンを削除する
ことを特徴とする構造最適化方法。

【0124】

（付記８）
付記５から７のいずれか一つに記載の構造最適化方法であって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とする構造最適化方法。

【0125】

（付記９）
コンピュータに、
構造化ネットワークに、一つ以上の中間層をショートカットする残差ネットワークを生成する、生成ステップと、
前記構造化ネットワークを用いて実行される処理に対する、前記中間層の第一の寄与度に応じて、中間層を選択する、選択ステップと、
選択された前記中間層を削除する、削除ステップと、
を実行させる命令を含むプログラム。

【0126】

（付記１０）
付記９に記載のプログラムであって、
前記選択ステップにおいて、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記中間層を選択する
ことを特徴とするプログラム。

【0127】

（付記１１）
付記９又は１０に記載のプログラムであって、
前記選択ステップにおいて、更に、選択した前記中間層が有するニューロンの前記処理に対する、第二の寄与度に応じて、前記ニューロンを選択し、
前記削除ステップにおいて、更に、選択された前記ニューロンを削除する
ことを特徴とするプログラム。

【0128】

（付記１２）
付記９から１１のいずれか一つに記載のプログラムであって、
前記残差ネットワークが有するコネクションは入力値を定数倍する重みを有する
ことを特徴とするプログラム。

【0129】

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【0130】

この出願は、２０１９年１２月３日に出願された日本出願特願２０１９－２１８６０５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

【産業上の利用可能性】

【0131】

以上のように本発明によれば、構造化ネットワークを最適化して演算器の計算量を削減することができる。本発明は、構造化ネットワークの最適化が必要な分野において有用である。

【符号の説明】

【0132】

１構造最適化装置
２生成部
３選択部
４削除部
２０学習装置
２１入力装置
２２記憶装置
２３学習モデル
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

【図1】