特開2023-41579 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 延世大学校　産学協力団の特許一覧

特開2023-41579人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023041579

(43)【公開日】2023-03-24

(54)【発明の名称】人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法

(51)【国際特許分類】

G06N 3/04 20230101AFI20230316BHJP

G06N 3/063 20230101ALI20230316BHJP

【ＦＩ】

G06N3/04

G06N3/063

【審査請求】有

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2021207609

(22)【出願日】2021-12-21

(31)【優先権主張番号】10-2021-0121891

(32)【優先日】2021-09-13

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】514274672

【氏名又は名称】延世大学校産学協力団

【氏名又は名称原語表記】ＹＯＮＳＥＩＵＮＩＶＥＲＳＩＴＹ，ＵＮＩＶＥＲＳＩＴＹ－ＩＮＤＵＳＴＲＹＦＯＵＮＤＡＴＩＯＮ（ＵＩＦ）

【住所又は居所原語表記】５０，ＹＯＮＳＥＩ－ＲＯ，ＳＥＯＤＡＥＭＵＮ－ＧＵ，ＳＥＯＵＬ０３７２２，ＲＥＰＵＢＬＩＣＯＦＫＯＲＥＡ

(74)【代理人】

【識別番号】110000051

【氏名又は名称】弁理士法人共生国際特許事務所

(72)【発明者】

【氏名】イ，ジンホ

(72)【発明者】

【氏名】キム，ヨンソク

(72)【発明者】

【氏名】チョイ，カンヒョン

(72)【発明者】

【氏名】ホン，ドクキ

(57)【要約】（修正有）

【課題】特定時間内に探索空間を効率的に探索しつつ、人工ニューラルネットワークの正確度とハードウェアメトリックとの間の均衡を合わせる最適地点を探す人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法を提供する。
【解決手段】人工ニューラルネットワークと演算加速器構造の統合探索装置は、ニューラルネットワークアーキテクチャを決定するＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）モジュールと、決定されたニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定し、決定された加速器アーキテクチャに関するハードウェアメトリックを予測するＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュールとを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

ニューラルネットワークアーキテクチャを決定するＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）モジュールと、
前記決定されたニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定し、前記決定された加速器アーキテクチャに関するハードウェアメトリックを予測するＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュールと、を備えることを特徴とする人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項2】

前記ＮＡＳモジュールは、複数の候補ニューラルネットワークアーキテクチャを同時に評価して前記ニューラルネットワークアーキテクチャを選別し、交差－エントロピー損失（Ｌｏｓｓ_ＣＥ）を算出することを特徴とする請求項１に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項3】

前記ＤＡＮＣＥ評価モジュールは、
事前学習を介して構築され、前記決定されたニューラルネットワークアーキテクチャによる最適のハードウェアを前記加速器アーキテクチャとして探索し、前記加速器アーキテクチャに関するＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）アレイ構成（ＰＥｘ、ＰＥｙ）、レジスタファイル（ＲＦ）構成、及びデータフロー（ＤＦ）構成のうちの少なくとも１つを決定するハードウェア生成ネットワークと、
前記加速器アーキテクチャに関する構成を基に前記ハードウェアメトリックを予測する費用推定ネットワークと、を含むことを特徴とする請求項１に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項4】

前記ハードウェア生成ネットワークは、ネットワークアーキテクチャスペース内でランダムネットワークを生成し、前記ランダムネットワークのうちの１つを前記最適のハードウェアとして決定することを特徴とする請求項３に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項5】

前記ハードウェア生成ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用する多階層パーセプトロンで構成して前記ランダムネットワークを探索することを特徴とする請求項４に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項6】

前記ハードウェア生成ネットワークは、前記多階層パーセプトロンのうちの最後をＧｕｍｂｅｌ－Ｓｏｆｔｍａｘで連結して、出力値を前記費用推定ネットワークの入力値としてフィーチャフォーワーディングする方式により前記出力値を前記入力値に近接させることを特徴とする請求項５に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項7】

前記費用推定ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用し、バッチ正規化を各階層に適用した多階層リグレッションで構成することを特徴とする請求項３に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項8】

前記費用推定ネットワークは、前記多階層リグレッションを介してレイテンシ、面積、及びエネルギー消費量を決定して前記ハードウェアメトリックを予測することを特徴とする請求項７に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項9】

前記費用推定ネットワークは、前記レイテンシ、面積、及びエネルギー消費量に関するリニア組み合わせ又はプロダクトを算出して前記ハードウェアメトリックを予測することを特徴とする請求項８に記載の人工ニューラルネットワークと演算加速器構造の統合探索装置。

【請求項10】

ニューラルネットワークアーキテクチャを決定するＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）モジュールを実行するＮＡＳモジュール実行ステップと、
前記決定されたニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定し、前記決定された加速器アーキテクチャに関するハードウェアメトリックを予測するＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュールを実行するＤＡＮＣＥ評価モジュール実行ステップと、を有することを特徴とする人工ニューラルネットワークと演算加速器構造の統合探索方法。

【請求項11】

前記ＤＡＮＣＥ評価モジュール実行ステップは、
事前学習を介して構築され、前記決定されたニューラルネットワークアーキテクチャによる最適のハードウェアを前記加速器アーキテクチャとして探索し、前記加速器アーキテクチャに関するＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）アレイ構成（ＰＥｘ、ＰＥｙ）、レジスタファイル（ＲＦ）構成、及びデータフロー（ＤＦ）構成のうちの少なくとも１つを決定するハードウェア生成ネットワークを実行するハードウェア生成ネットワーク実行ステップと、
前記加速器アーキテクチャに関する構成を基に前記ハードウェアメトリックを予測する費用推定ネットワークを実行する費用推定ネットワーク実行ステップと、を含むことを特徴とする請求項１０に記載の人工ニューラルネットワークと演算加速器構造の統合探索方法。

【請求項12】

前記ハードウェア生成ネットワーク実行ステップは、ネットワークアーキテクチャスペース内でランダムネットワークを生成し、前記ランダムネットワークのうちの１つを前記最適のハードウェアとして決定するステップを含むことを特徴とする請求項１１に記載の人工ニューラルネットワークと演算加速器構造の統合探索方法。

【請求項13】

前記ハードウェア生成ネットワーク実行ステップは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用する多階層パーセプトロンで構成して前記ランダムネットワークを探索するステップを含むことを特徴とする請求項１２に記載の人工ニューラルネットワークと演算加速器構造の統合探索方法。

【請求項14】

前記費用推定ネットワーク実行ステップは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用し、バッチ正規化を各階層に適用した多階層リグレッションで構成するステップを含むことを特徴とする請求項１１に記載の人工ニューラルネットワークと演算加速器構造の統合探索方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人工ニューラルネットワークと専用ハードウェア加速器の統合探索技術に関し、より詳細には、特定時間内に探索空間を効率的に探索しつつ、人工ニューラルネットワークの正確度とハードウェアメトリックとの間の均衡を合わせる最適地点を探すことが可能な人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法に関する。

【背景技術】

【0002】

数十年に亘った研究者達の努力の末に、ＤＮＮ（ディープニューラルネットワーク）は、もうイメージ分類及びボードゲームプレイのような様々な応用領域で人間に近い性能を見せている。しかしながら、このような成功は、爆発的なコンピューティング集約（ｃｏｍｐｕｔｅｉｎｔｅｎｓｉｔｙ）によるものであって、これにより、長いＧＰＵ学習時間と多くのハードウェア費用が求められている。

【0003】

ＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）は、このような問題を解決するためのアプローチ方式に該当する。過去には、人間の設計努力を減らし、最新の正確度を達成することを目標として始まったが、最近では、遅延時間（ｌａｔｅｎｃｙ）などのハードウェア関連費用が考慮されている。

【0004】

問題を解決する更に他の方法は、特殊ハードウェア（時々、「加速器」という）を使用することである。ＤＮＮ実行に特化された加速器を活用する場合、優れた遅延時間及び／又は費用が達成される。例えば、ＧｏｏｇｌｅＴＰＵは、ＡｌｐｈａＧｏ、データセンタ、及びクラウドサービスの処理を加速化するために配布されている。専用加速器を設計することは、遅延時間だけでなく、エネルギー消費及び面積のようなその他のハードウェア費用メトリックを最適化するための更に他の大規模設計の問題を発生させることになる。

【0005】

しかし、ネットワークアーキテクチャと加速器とは、相互独立的でなく、一方を集中的に最適化すると、時々他方に悪影響を及ぼすことがある。例えば、一般的に使用される分離可能なコンボリューションは、一般的に低い演算要求量のために、優れた遅延時間を達成する。しかし、ＧｏｏｇｌｅのＴＰＵのような一部類型の加速器は、並列処理のために多数の出力チャネルを活用するように設計される。このため、ＴＰＵで実行される分離可能なコンボリューションは、演算回数が少ないにも拘らず、一般コンボリューション演算に比べて遅延時間が長くなることがある。これと同様に、ネットワークを考慮せずに加速器のみ最適化する場合、時々最善でない次善策が選択される。

【0006】

これに関し、ハードウェア加速器とネットワークアーキテクチャとの統合探索は、所望の応用性能（即ち、正確度）と合理的な費用（遅延時間、面積、及びエネルギー消費）を達成する際に極めて重要である。既存の統合探索技法は、典型的に強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＲＬ）技法を使用している。

【0007】

当該技法等は、先ず、ネットワークと加速器対とを生成し、当該対は、正確度のためにネットワークを学習し、ハードウェア費用メトリックを測定することにより評価される。評価後、補償関数が計算され、当該補償に基づいて新しいデザイン対が生成される。このような手順の明白な問題は、大変な検索時間が必要であるということである。ＲＬ基盤のＮＡＳ技術と同様に、生成されたネットワークは、正確性評価のために完全に訓練される必要がある。また、加速器評価は、無視できない時間と資源が掛かる場合が多いことがある。従って、探索には過度な時間が必要であり、依然として高品質のソリューションを取得し難いという問題点が存在する。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】韓国公開特許第１０－２０１９－０１０１６７７号公報

【発明の概要】

【発明が解決しようとする課題】

【0009】

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、特定時間内に探索空間を効率的に探索しつつ、人工ニューラルネットワークの正確度とハードウェアメトリックとの間の均衡を合わせる最適地点を探す人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法を提供することにある。

【課題を解決するための手段】

【0010】

上記目的を達成するためになされた本発明の一態様による人工ニューラルネットワークと演算加速器構造の統合探索装置は、ニューラルネットワークアーキテクチャを決定するＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）モジュールと、前記決定されたニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定し、前記決定された加速器アーキテクチャに関するハードウェアメトリックを予測するＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュールと、を備える。

【0011】

前記ＮＡＳモジュールは、複数の候補ニューラルネットワークアーキテクチャを同時に評価して前記ニューラルネットワークアーキテクチャを選別し、交差－エントロピー損失（Ｌｏｓｓ_ＣＥ）を算出し得る。

【0012】

前記ＤＡＮＣＥ評価モジュールは、事前学習を介して構築され、前記決定されたニューラルネットワークアーキテクチャによる最適のハードウェアを前記加速器アーキテクチャとして探索し、前記加速器アーキテクチャに関するＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）アレイ構成（ＰＥｘ、ＰＥｙ）、レジスタファイル（ＲＦ：ＲｅｇｉｓｔｅｒＦｉｌｅ）構成、及びデータフロー（ＤＦ：ｄａｔａｆｌｏｗ）構成のうちの少なくとも１つを決定するハードウェア生成ネットワーク（Ｈａｒｄｗａｒｅｇｅｎｅｒａｔｉｏｎｎｅｔｗｏｒｋ）と、前記加速器アーキテクチャに関する構成を基に前記ハードウェアメトリックを予測する費用推定ネットワーク（Ｃｏｓｔｅｓｔｉｍａｔｉｏｎｎｅｔｗｏｒｋ）と、を含み得る。

【0013】

前記ハードウェア生成ネットワークは、ネットワークアーキテクチャスペース内でランダムネットワークを生成し、前記ランダムネットワークのうちの１つを前記最適のハードウェアとして決定し得る。

【0014】

前記ハードウェア生成ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用する多階層パーセプトロンで構成して前記ランダムネットワークを探索し得る。

【0015】

前記ハードウェア生成ネットワークは、前記多階層パーセプトロンのうちの最後をＧｕｍｂｅｌ－Ｓｏｆｔｍａｘで連結して、出力値を前記費用推定ネットワークの入力値としてフィーチャフォーワーディングする方式により前記出力値を前記入力値に近接させ得る。

【0016】

前記費用推定ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用し、バッチ正規化を各階層に適用した多階層リグレッション（ｒｅｇｒｅｓｓｉｏｎ）で構成し得る。

【0017】

前記費用推定ネットワークは、前記多階層リグレッションを介してレイテンシ、面積、及びエネルギー消費量を決定して前記ハードウェアメトリックを予測し得る。

【0018】

前記費用推定ネットワークは、前記レイテンシ、面積、及びエネルギー消費量に関するリニア組み合わせ（ｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ）又はプロダクト（ｐｒｏｄｕｃｔ）を算出して前記ハードウェアメトリックを予測し得る。

【0019】

上記目的を達成するためになされた本発明の一態様による人工ニューラルネットワークと演算加速器構造の統合探索方法は、ニューラルネットワークアーキテクチャを決定するＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）モジュールを実行するＮＡＳモジュール実行ステップと、前記決定されたニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定し、前記決定された加速器アーキテクチャに関するハードウェアメトリックを予測するＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュールを実行するＤＡＮＣＥ評価モジュール実行ステップと、を有する。

【0020】

前記ＤＡＮＣＥ評価モジュール実行ステップは、事前学習を介して構築され、前記決定されたニューラルネットワークアーキテクチャによる最適のハードウェアを前記加速器アーキテクチャとして探索し、前記加速器アーキテクチャに関するＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）アレイ構成（ＰＥｘ、ＰＥｙ）、レジスタファイル（ＲＦ：ＲｅｇｉｓｔｅｒＦｉｌｅ）構成、及びデータフロー（ＤＦ：ｄａｔａｆｌｏｗ）構成のうちの少なくとも１つを決定するハードウェア生成ネットワーク（Ｈａｒｄｗａｒｅｇｅｎｅｒａｔｉｏｎｎｅｔｗｏｒｋ）を実行するハードウェア生成ネットワーク実行ステップと、前記加速器アーキテクチャに関する構成を基に前記ハードウェアメトリックを予測する費用推定ネットワーク（Ｃｏｓｔｅｓｔｉｍａｔｉｏｎｎｅｔｗｏｒｋ）を実行する費用推定ネットワーク実行ステップと、を含み得る。

【0021】

前記ハードウェア生成ネットワーク実行ステップは、ネットワークアーキテクチャスペース内でランダムネットワークを生成し、前記ランダムネットワークのうちの１つを前記最適のハードウェアとして決定するステップを含み得る。

【0022】

前記ハードウェア生成ネットワーク実行ステップは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用する多階層パーセプトロンで構成して前記ランダムネットワークを探索するステップを含み得る。

【0023】

前記費用推定ネットワーク実行ステップは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用し、バッチ正規化を各階層に適用した多階層リグレッション（ｒｅｇｒｅｓｓｉｏｎ）で構成するステップを含み得る。

【発明の効果】

【0024】

開示された技術は、次の効果を有する。但し、特定の実施形態が次の効果を全て含むべきであるとか、次の効果だけを含むべきであるという意味ではないため、開示された技術の権利範囲は、これによって制限されるものと理解してはならない。

【0025】

本発明による人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法によれば、特定時間内に探索空間を効率的に探索しつつ、人工ニューラルネットワークの正確度とハードウェアメトリックとの間の均衡を合わせる最適地点を探すことができる。

【0026】

本発明による人工ニューラルネットワークと演算加速器構造の統合探索装置及び方法によれば、傾斜下降法を使用して探索を進むことにより、全体探索空間を代表する人工ニューラルネットワークを一度訓練することで探索を完了することができ、非常に速い探索が可能であり、微分可能な方式であって、遅延時間やエネルギー消費量のような直接的なハードウェアメトリックを最適化することができる。

【図面の簡単な説明】

【0027】

【図1】本発明による統合探索装置の機能的構成を説明する図である。

【図2】本発明による人工ニューラルネットワークと演算加速器構造の統合方法の一実施形態を説明するフローチャートである。

【図3】コンボリューション階層で７個の次元とＣＮＮ実行を説明する図である。

【図4】コンボリューション階層で７個の次元とＣＮＮ実行を説明する図である。

【図5】ＤＮＮ加速器の一実施形態を説明する図である。

【図6】ＲＬ基盤の統合探索過程を説明する図である。

【図7】本発明による人工ニューラルネットワークと演算加速器構造の統合探索方法を説明する図である。

【図8】本発明による評価ネットワークアーキテクチャを説明する図である。

【図9】本発明による実験結果を説明する図である。

【図10】本発明による探索ネットワークと加速器デザインの実施形態を説明する図である。

【図11】本発明による探索ネットワークと加速器デザインの実施形態を説明する図である。

【発明を実施するための形態】

【0028】

本発明は、下記の研究課題をもって支援を受けて出願された。
〔この発明を支援した国家研究開発事業〕
〔課題固有番号〕１７１１１２６０８２
〔課題番号〕２０２０－０－０１３６１－００２
〔省庁名〕科学技術情報通信部
〔課題管理（専門）機関名〕情報通信企画評価院
〔研究事業名〕情報通信放送革新人材養成（Ｒ＆Ｄ）
〔研究課題名〕人工知能大学院支援（延世大学校）
〔寄与率〕１／２
〔課題実行機関名〕延世大学校産学協力団
〔研究期間〕２０２１．０１．０１～２０２１．１２．３１
〔この発明を支援した国家研究開発事業〕
〔課題固有番号〕１７１１１３４５５５
〔課題番号〕２０２１－０－００８５３－００１
〔省庁名〕科学技術情報通信部
〔課題管理（専門）機関名〕情報通信企画評価院
〔研究事業名〕新概念ＰＩＭ半導体の先導技術の開発（Ｒ＆Ｄ）
〔研究課題名〕ＰＩＭ活用のためのＳＷプラットフォーム開発
〔寄与率〕１／２
〔課題実行機関名〕延世大学校産学協力団
〔研究期間〕２０２１．０１．０１～２０２１．１２．３１

【0029】

本発明に関する説明は、構造的又は機能的説明のための実施形態に過ぎないため、本発明の権利範囲は、本明細書に説明する実施形態によって制限されるものと解釈してはならない。即ち、実施形態は、様々な変更が可能であり、種々の形態を有することができるため、本発明の権利範囲は、技術的思想を実現できる均等物等を含むものと理解しなければならない。また、本発明において提示する目的又は効果は、特定の実施形態がこれを全部含むべきであるとか、そのような効果だけを含むべきであるという意味ではないため、本発明の権利範囲は、これによって制限されるものと理解してはならない。

【0030】

一方、本出願において述べる用語の意味は、次のように理解されるべきである。

【0031】

「第１」、「第２」などの用語は、１つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって権利範囲が限定されてはならない。例えば、第１構成要素は第２構成要素と命名され、同様に、第２構成要素も第１構成要素と命名され得る。

【0032】

ある構成要素が他の構成要素に「連結されて」いると言及する場合には、その他の構成要素に直接連結され得るが、中間に他の構成要素が存在することもできると理解されるべきである。それに対し、ある構成要素が他の構成要素に「直接連結されて」いると言及する場合には、中間に他の構成要素が存在しないものと理解されるべきである。一方、構成要素等間の関係を説明する他の表現、即ち「～間に」と「すぐ～間に」、又は「～に隣り合う」と「～に直接隣り合う」なども同様に解釈されなければならない。

【0033】

単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含むものと理解されなければならず、「含む」又は「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものが存在することを指定しようとするものであり、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものなどの存在又は付加可能性を予め排除しないものと理解されなければならない。

【0034】

各ステップにおいて、識別符号（例えば、ａ、ｂ、ｃなど）は、説明の便宜のために使用されるものであって、識別符号は、各ステップの順序を説明するものでなく、各ステップは、文脈上明白に特定順序を記載しない限り、明記された順序と異なるように起こり得る。即ち、各ステップは、明記された順序と同様に起こり、実質的に同時に行われ、反対の順序通りに行われ得る。

【0035】

本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現され、コンピュータ読み取り可能な記録媒体は、コンピューティングシステムによって読み取られるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例では、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピューティングシステムに分散されて、分散方式でコンピュータ読み取り可能なコードが格納され、実行され得る。

【0036】

ここで使用されるあらゆる用語は、異なるように定義されない限り、本発明の属する分野における通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致するものと解釈されなければならず、本明細書において明白に定義しない限り、理想的であるか又は過度に形式的な意味を有するものと解釈されない。

【0037】

図１は、本発明による統合探索装置の機能的構成を説明する図である。

【0038】

図１に示すように、統合探索装置１００は、全体探索空間を代表する人工ニューラルネットワークを一度訓練することで探索を完了して非常に速い探索が可能なようにし、微分可能な方式であって、遅延時間やエネルギー消費量のような直接的なハードウェアメトリックを最適化する。このための構成として、統合探索装置１００は、ＮＡＳ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅ）モジュール１１０及びＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒａｎｄＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）評価モジュール１３０を含んで実現される。

【0039】

ＮＡＳモジュール１１０は、ニューラルネットワークアーキテクチャを決定する動作を行い、ＤＡＮＣＥ評価モジュール１３０は、ＮＡＳモジュール１１０により決定されたニューラルネットワークアーキテクチャに対応する加速器アーキテクチャを決定し、当該加速器アーキテクチャに関するハードウェアメトリックを予測する動作を行う。

【0040】

より具体的に、ＮＡＳモジュール１１０は、複数の候補ニューラルネットワークアーキテクチャを同時に評価してニューラルネットワークアーキテクチャを選別し、これに関する交差－エントロピー損失（Ｌｏｓｓ_ＣＥ）を算出する。

【0041】

一実施形態において、ＤＡＮＣＥ評価モジュール１３０は、事前学習を介して構築され、２つのネットワークを含んで構成される。即ち、ＤＡＮＣＥ評価モジュール１３０は、ハードウェア生成ネットワーク（Ｈａｒｄｗａｒｅｇｅｎｅｒａｔｉｏｎｎｅｔｗｏｒｋ）と費用推定ネットワーク（Ｃｏｓｔｅｓｔｉｍａｔｉｏｎｎｅｔｗｏｒｋ）とを含む。

【0042】

先ず、ハードウェア生成ネットワークは、ＮＡＳモジュール１１０により決定されたニューラルネットワークアーキテクチャによる最適のハードウェアを加速器アーキテクチャとして探索し、加速器アーキテクチャに関するＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）アレイ構成（ＰＥｘ、ＰＥｙ）、レジスタファイル（ＲＦ：ＲｅｇｉｓｔｅｒＦｉｌｅ）構成、及びデータフロー構成のうちの少なくとも１つを決定する動作を行う。即ち、ハードウェア生成ネットワークは、最適のハードウェアアーキテクチャを探索するために事前学習がなされ、最適のハードウェアアーキテクチャに関する最適の構成をパラメータとして生成する。例えば、ハードウェア生成ネットワークは、出力として最適のハードウェアアーキテクチャに関するＰＥアレイのフィーチャ（ＰＥｘ、ＰＥｙ）とレジスタファイルＲＦ、データフローＤＦなどを生成する。

【0043】

一実施形態において、ハードウェア生成ネットワークは、ネットワークアーキテクチャスペース内でランダムネットワークを生成し、ランダムネットワークのうちの１つを最適のハードウェアとして決定する。即ち、ハードウェア生成ネットワークは、ランダムネットワークを入力として受信し、評価器ネットワークを学習するための正解（ｇｒｏｕｎｄ－ｔｒｕｔｈ）として使用される出力を生成する。

【0044】

一実施形態において、ハードウェア生成ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用する多階層パーセプトロン（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）で構成してランダムネットワークを探索する。例えば、図８のように、ハードウェア生成ネットワーク１３１は、５階層パーセプトロンで構成される。

【0045】

一実施形態において、ハードウェア生成ネットワーク１３１は、多階層パーセプトロンのうちの最後をＧｕｍｂｅｌ－Ｓｏｆｔｍａｘで連結して出力値を費用推定ネットワーク１３３の入力値としてフィーチャフォーワーディングする方式によって出力値を入力値に近接させる。例えば、図８のように、ハードウェア生成ネットワーク１３１は、５階層パーセプトロンの最後にＧｕｍｂｅｌ－Ｓｏｆｔｍａｘを適用し、その出力を費用推定ネットワーク１３３の入力として連結するように実現される。ここで、Ｇｕｍｂｅｌ－ｓｏｆｔｍａｘは、セットで単一要素を確率的にサンプリングする方法を学習するソフトマックス関数に該当する。

【0046】

また、費用推定ネットワークは、加速器アーキテクチャに関する構成を基にハードウェアメトリックを予測する動作を行う。一実施形態において、費用推定ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数として使用し、バッチ正規化を各階層に適用した多階層リグレッション（ｒｅｇｒｅｓｓｉｏｎ）で構成する。例えば、費用推定ネットワーク１３３は、図８のように、５階層リグレッションで構成される。このとき、費用推定ネットワーク１３３は、階層間に残余連結（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を含む。

【0047】

一実施形態において、費用推定ネットワークは、多階層リグレッションを介してレイテンシ（ｌａｔｅｎｃｙ）、面積（ａｒｅａ）、及びエネルギー消費量（ｅｎｅｒｇｙｃｏｎｓｕｍｐｔｉｏｎ）を決定してハードウェアメトリックを予測する。このとき、費用推定過程で評価ソフトウェアを介して生成された正解（ｇｒｏｕｎｄｔｒｕｔｈ）が使用される。

【0048】

一実施形態において、費用推定ネットワークは、レイテンシ、面積、及びエネルギー消費量に関するリニア組み合わせ又はプロダクト（ｃｏｍｂｉｎａｔｉｏｎａｎｄｐｒｏｄｕｃｔ）を算出してハードウェアメトリックを予測する。即ち、費用推定ネットワークは、費用関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）を用いてハードウェアメトリックを予測し、費用関数は、レイテンシ、面積、及びエネルギー消費量に関するリニア組み合わせで定義されるか、又はレイテンシ、面積、及びエネルギー消費量間のプロダクト（ｃｏｍｂｉｎａｔｉｏｎａｎｄｐｒｏｄｕｃｔ）で定義される。

【0049】

図２は、本発明による人工ニューラルネットワークと演算加速器構造の統合探索方法の一実施形態を説明するフローチャートである。

【0050】

図２に示すように、統合探索装置１００は、ＮＡＳモジュール１１０を介してニューラルネットワークアーキテクチャを決定する（ステップＳ２１０）。統合探索装置１００は、ＤＡＮＣＥ評価モジュール１３０を介してニューラルネットワークアーキテクチャによる加速器アーキテクチャを決定する（ステップＳ２３０）。統合探索装置１００は、ＤＡＮＣＥ評価モジュール１３０を介して加速器アーキテクチャに関するハードウェアメトリックを予測する（ステップＳ２５０）。

【0051】

以下、図３～図１１を参照して本発明による人工ニューラルネットワークと演算加速器構造の統合探索方法をより具体的に説明する。

【0052】

神経アーキテクチャ検索（ＮＡＳ：ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）は、増加するネットワークのサイズと、これに相応する手動的な設計努力に対応するために、ＤＮＮアーキテクチャの設計を自動化する。神経アーキテクチャ検索において、初期には、ネットワーク生成のために強化学習ＲＬ又は進化アルゴリズムＥＡが採択されてきた。

【0053】

但し、このようなアルゴリズムなどの場合、検索費用が非常に高いことがあり、全ての候補等に要求される全体学習（ｆｕｌｌｔｒａｉｎｉｎｇ）のため、最大数千個のＧＰＵ日（ＧＰＵ－ｄａｙｓ）が掛かる。本発明による微分可能な（ｄｉｆｆｅｒｅｎｔｉａｂｌｅ）神経アーキテクチャ検索は、このような費用を緩和する方法としてスーパーグラフ（ｓｕｐｅｒｇｒａｐｈ）を作り、その中で経路を探す。即ち、微分可能な神経アーキテクチャ検索は、何倍も短い時間内に最先端性能のネットワークを探することができる。

【0054】

ＤＮＮ用ハードウェア加速器（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒ）は、最近、ＣＮＮ（コンボリューショナルニューラルネットワーク）で最も一般的な演算である多重ＭＡＣ（Ｍｕｌｔｉｐｌｙ－Ａｃｃｕｍｕｌａｔｅ）演算を並列的に実行することに重点をおいている。図５は、オンチップメモリ（ｏｎ－ｃｈｉｐｍｅｍｏｒｙ）、多くのＰＥ（ＰｒｏｃｅｓｓｉｎｇＥｌｅｍｅｎｔ）、及びこれらの間の相互連結を含むアイリス（Ｅｙｅｒｉｓｓ）に類似するＤＮＮ加速器の一実施形態を図示している。バックボーン加速器設計を使用しても、ＰＥの個数、データフロー（ｄａｔａｆｌｏｗ）、レジスタファイルサイズなどのような多くの属性が依然として設計される必要がある。

【0055】

一般に、ＤＮＮ階層（ｌａｙｅｒ）は、種々の次元のコンピューティング演算を含む。例えば、コンボリューション階層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）は、図３のように、７個のコンピューティング演算階層を含む。即ち、コンボリューション階層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）は、活性化入力（ｉｎｐｕｔａｃｔｉｖａｔｉｏｎ）のＨ、Ｗ、Ｃに関する３個の階層、加重値（ｗｅｉｇｈｔ）Ｒ、Ｓ、Ｋに関する３個の階層、及びバッチ（ｂａｔｃｈ）のＮに関する１つの階層を含む。従って、図４のように、７段階の重なったループに公式化される。加速器において、このようなループをマッピングし、順序を指定することを時々データフロー（ｄａｔａｆｌｏｗ）と呼び、多くの加速器は、一部データをなるべく長い間ローカルメモリ上に維持することに重点をおいた様々なデータフローを提供する。

【0056】

加速器設計において、各選択がＤＮＮ遅延時間にどのような影響を及ぼすかを分析することは、シミュレータ（ｓｉｍｕｌａｔｏｒ）又は分析評価道具（ａｎａｌｙｔｉｃａｌｅｖａｌｕａｔｉｏｎｔｏｏｌ）により行われる。本発明による統合探索方法は、ＤＡＮＣＥフレームワーク上で評価ネットワーク（ｅｖａｌｕａｔｉｏｎｎｅｔｗｏｒｋ）を学習するための最先端加速器評価ツールチェーンとしてアクセラジー（Ａｃｃｅｌｅｒｇｙ）に結合されたタイムループ（Ｔｉｍｅｌｏｏｐ）を活用する。

【0057】

ネットワークアーキテクチャと加速器設計を統合探索する方法において、既存の方法は、問題を公式化する比較的簡単な方法のため、強化学習ＲＬを制御機（ｃｏｎｔｒｏｌｌｅｒ）として使用する。しかし、当該方法は、全て強化学習基盤のＮＡＳアルゴリズムで発生する同じ検索費用の問題をそのまま含む。

【0058】

これに対し、本発明による方法は、最高の正確度を有するネットワークと加速器デザインを生成しながら探索費用を大幅に減らすことができる共同探索の問題に関する微分可能なＮＡＳのアイデアを適用する。ＥＤＤ（ＥｆｆｉｃｉｅｎｔＤｉｆｆｅｒｅｎｔｉａｂｌｅＤＮＮ）という既存の方法は、共同探索の問題に対する微分可能な方法を提供する。しかし、当該方法は、いくつかの重要な制限事項を有する。ＥＤＤは、ネットワークの総フロップ（ｔｏｔａｌｆｌｏｐｓ）を計算リソース（ｃｏｍｐｕｔａｔｉｏｎｒｅｓｏｕｒｃｅ）の量に分けたことを遅延時間（ｌａｔｅｎｃｙ）にモデリングする。結果的に、ネットワークアーキテクチャと加速器設計との間の真の関係は、統合検索（ｃｏ－ｓｅａｒｃｈ）で考慮されない。これは、理論的にデータフローやレジスタファイルサイズのようないくつの重要な特徴に対する検索を許容しない。また、ＥＤＤの主な焦点は、各階層に対して様々な量子化（ｑｕａｎｔｉｚａｔｉｏｎ）を使用することである。従って、ＥＤＤは、各階層に対する（共有可能な）専用ハードウェアが存在し、一般的な加速器とは相違があるという仮定を含む。

【0059】

図６に示すように、ＲＬ基盤の統合探索が行われる方法を図示する。一般的なＮＡＳアルゴリズムの構成要素、及び統合探索のために追加された構成要素を含む。１番目に、ネットワークアーキテクチャ及びハードウェア加速器の検索空間がコントローラ（Ｃｏｎｔｒｏｌｌｅｒ）に提供される。その後、コントローラは、提供されていた検索空間（即ち、ネットワークアーキテクチャ及びハードウェア加速器）に対する候補デザインを生成する。生成された候補は、正確度を得るためにネットワークで学習が行われ、ネットワークを実行する指定されたハードウェアに対する費用メトリックを分析する評価者（Ｅｖａｌｕａｔｏｒ）に伝達される。当該方法は、統合探索の目的にはよく符合する一方、ＲＬ基盤のＮＡＳアルゴリズムの同じ問題である学習費用（ｔｈｅｔｒａｉｎｉｎｇｃｏｓｔ）を含む。即ち、当該方法は、生成される各候補者に対して費用が多く掛かる学習が必要である。また、当該方法において、最適のハードウェア設計を探す動作も候補別に行われる間、相当な時間が掛かる。結果的に、当該方法の検索動作は、多くのＧＰＵ時間（ＧＰＵ－ｈｏｕｒｓ）のため、困難を経験する。

【0060】

図７に示すように、本発明による統合探索装置１００で実行される統合探索方法を図示する。即ち、本発明による統合探索方法は、ＤＡＮＣＥ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＡｃｃｅｌｅｒａｔｏｒ／ＮｅｔｗｏｒｋＣｏ－Ｅｘｐｌｏｒａｔｉｏｎ）という微分可能な統合探索方法に該当する。図７の左側部分は、他の微分可能なＮＡＳアルゴリズムに類似するネットワーク検索モジュール（即ち、図１のＮＡＳモジュール１１０に対応する）に該当し、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使用してスーパーネットワーク（ｓｕｐｅｒ－ｎｅｔｗｏｒｋ）内の経路を探すことにより、最終的に検索されるネットワークを生成する。一方、ネットワーク検索モジュールには、他の微分可能なＮＡＳアルゴリズムが全て適用されることは勿論である。

【0061】

図７の右側部分は、ネットワーク検索モジュールから取得したアーキテクチャパラメータを用いて最適のハードウェア加速器設計（ｏｐｔｉｍａｌｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎ）を検索し、費用メトリック（ｃｏｓｔｍｅｔｒｉｃｓ）を評価する微分可能な評価器（ｄｉｆｆｅｒｅｎｔｉａｂｌｅｅｖａｌｕａｔｏｒ）（即ち、図１のＤＡＮＣＥ評価モジュール１３０に対応する）に該当する。評価器は、事前学習されたニューラルネットワークで実現され、検索中に固定（ｆｒｏｚｅｎ）され、当該ハードウェアアーキテクチャをハードウェア費用メトリックに連結する過程で使用される。損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）は、次の数式１のように表され、正確度（ａｃｃｕｒａｃｙ）と費用メトリック（ｃｏｓｔｍｅｔｒｉｃｓ）とが共に考慮される。

【0062】

【数1】

ここで、λ_１及びλ_２は、項（ｔｅｒｍｓ）間のトレードオフ（ｔｒａｄｅ－ｏｆｆ）を調整するハイパーパラメータ（ｈｙｐｅｒｐａｒａｍｅｔｅｒ）である。Ｌｏｓｓ_ＣＥは、交差－エントロピー損失（ｃｒｏｓｓ－ｅｎｔｒｏｐｙ）であり、｜｜ｗ｜｜は、加重値減少項（ｗｅｉｇｈｔｄｅｃａｙｔｅｒｍ）である。また、Ｃｏｓｔ_ＨＷは、評価器ネットワーク（ｅｖａｌｕａｔｏｒｎｅｔｗｏｒｋ）の出力値から計算されるハードウェア加速器の費用関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）である。例えば、費用関数は、遅延時間（ｌａｔｅｎｃｙ）、面積（ａｒｅａ）、及びエネルギー消費（ｅｎｅｒｇｙｃｏｎｓｕｍｐｔｉｏｎ）に関する線形組み合わせ（ｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ）に該当するか、又はＥＤＡＰ（Ｅｎｅｒｇｙ－ｄｅｌａｙ－ａｒｅａｐｒｏｄｕｃｔ、エネルギー遅延面積積）に該当する。

【0063】

本来の（微分不可能な）費用評価ソフトウェアは、ハードウェア生成道具（ｈａｒｄｗａｒｅｇｅｎｅｒａｔｉｏｎｔｏｏｌ）と費用推定道具（ｃｏｓｔｅｓｔｉｍａｔｉｏｎｔｏｏｌ）とで構成される。ハードウェア生成道具は、ネットワークアーキテクチャ（ｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅ）を入力として使用し、ハードウェア加速器設計（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎ）を出力として生成する。本発明による統合探索方法は、ハードウェア加速器設計（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎ）の検索空間（ｓｅａｒｃｈｓｐａｃｅ）として、データフロー（ｄａｔａｆｌｏｗ）、Ｘ及びＹ次元に対するＰＥの個数、レジスタファイルサイズ（ｒｅｇｉｓｔｅｒｆｉｌｅｓｉｚｅ）を使用する。その後、費用推定道具は、ハードウェア加速器（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒ）とネットワークアーキテクチャ（ｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅ）とを使用して費用メトリック（ｃｏｓｔｍｅｔｒｉｃｓ）を出力として生成する。一般的に、ハードウェア生成道具は、費用推定道具を含む外部ループで実現される。即ち、ハードウェア生成道具は、完全探索（Ｅｘｈａｕｓｔｉｖｅｓｅａｒｃｈ）又は分岐限定（ｂｒａｎｃｈ－ａｎｄ－ｂｏｕｎｄ）アルゴリズムのような正確なアルゴリズムを使用することにより、ハードウェア検索空間Ｈ内で与えられたネットワークアーキテクチャＡに対する最適のソリューションを出力として生成する。

【0064】

一実施形態において、本発明による統合探索方法は、費用推定過程で遅延時間（ｌａｔｅｎｃｙ）に対するタイムループ（Ｔｉｍｅｌｏｏｐ）、及びエネルギー／面積に対するアクセラジー（Ａｃｃｅｌｅｒｇｙ）を使用する。このとき、タイムループ（Ｔｉｍｅｌｏｏｐ）とアクセラジー（Ａｃｃｅｌｅｒｇｙ）とは、最先端費用推定ツールチェーン（ｃｏｓｔｅｓｔｉｍａｔｉｏｎｔｏｏｌｃｈａｉｎ）に該当する。本発明による統合探索方法は、費用推定道具を利用して固有のハードウェア生成道具を設計する。本発明による統合探索方法は、ネットワークアーキテクチャ空間（ｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅｓｐａｃｅ）Ａ上で入力として任意のネットワーク（ｒａｎｄｏｍｎｅｔｗｏｒｋ）を生成し、当該ツールチェーンの出力は、評価器ネットワーク（ｅｖａｌｕａｔｏｒｎｅｔｗｏｒｋ）の構成要素を学習するための正解（ｇｒｏｕｎｄ－ｔｒｕｔｈ）として使用される。

【0065】

本発明による評価器ネットワークは、ハードウェア生成ネットワークと費用推定ネットワークとの２つのモジュールで構成される。図８を参照して、本発明による評価器ネットワークアーキテクチャを図示する。ハードウェア生成ネットワークは、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）として使用する５－階層パーセプトロン（ｆｉｖｅ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）にモデリングされる。ハードウェア生成ネットワークは、費用推定ネットワークの正確度を高め、探索中のネットワークに対する傾き経路（ｇｒａｄｉｅｎｔｐａｔｈ）を設定するために、階層間に残余連結（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）が適用される。

【0066】

費用推定ネットワークは、残余連結がある５－階層回帰（ｆｉｖｅ－ｌａｙｅｒｒｅｇｒｅｓｓｉｏｎ）にモデリングされる。費用推定ネットワークは、ＲｅＬＵを活性化関数として含み、全ての階層にバッチ正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）が適用される。費用推定ネットワークは、評価ソフトウェア（ｅｖａｌｕａｔｉｏｎｓｏｆｔｗａｒｅ）で生成された正解（ｇｒｏｕｎｄｔｒｕｔｈ）に基づいて、関心のある３つの費用メトリック（即ち、遅延時間、面積、及びエネルギー消費）を出力として生成する。例えば、評価ソフトウェアには、タイムループ（Ｔｉｍｅｌｏｏｐ）及びアクセラジー（Ａｃｃｅｌｅｒｇｙ）が含まれる。本発明は、各評価器ネットワークを学習させるために、ＭＳＲＥ（ＭｅａｎＳｑｕａｒｅｄＲｅｌａｔｉｖｅＥｒｒｏｒ）損失を使用して、次の数式２のように表される。

【0067】

【数2】

ここで、ｙ_ｉは、タイムループ（Ｔｉｍｅｌｏｏｐ）＋アクセラジー（Ａｃｃｅｌｅｒｇｙ）の結果で生成された各メトリックに対するハードウェア費用関数（Ｃｏｓｔ_ＨＷ）であり、

は、ネットワーク出力を使用して計算された同じ費用関数である。一般的なＭＳＥ損失を使用することもできるが、この場合、高い値を有するメトリックに不適切な加重値を付与するという問題が生じる。例えば、検索空間内で出力される遅延時間値は、各階層当たり、８ｎｓから１００ｎｓ以上までの範囲を有する。ＭＳＥ損失を使用する場合、８ｎｓ遅延時間のうちの１０ｎｓエラー（ｅｒｒｏｒ）と、１００ｎｓ遅延時間のうちの１０ｎｓエラーとを同様に見なして、遅延時間が長い状況等をより正確にモデリングするのに不当な利益を与える。即ち、遅延時間が短い加速器を探すという条件下では、ＭＳＲＥ損失がより望ましい。

【0068】

評価器アーキテクチャにおいて、ＨＷ（ｈａｒｄｗａｒｅ）費用メトリックを出力する費用推定ネットワークは、最適のハードウェアを探し、メトリックを推定する２つの機能を内部的にモデリングすべきことを意味する。独立型ネットワークは、相当高い正確度を見せるが、ハードウェア生成ネットワークの出力でフィーチャ伝達経路（ｆｅａｔｕｒｅｆｏｒｗａｒｄｉｎｇｐａｔｈ）を追加することにより遅延時間を更に改善させることができる。即ち、ハードウェア生成ネットワークの結果は、費用推定ネットワークに対する入力としてネットワークアーキテクチャに連結される。例えば、ハードウェア生成ネットワークの最後の階層としてＧｕｍｂｅｌｓｏｆｔｍａｘを使用する場合、ハードウェア生成の出力値を費用推定ネットワークの入力に最大限近接させる。

【0069】

応用（ａｐｐｌｉｃａｔｉｏｎ）の分類正確度を最適化することと比較して、費用メトリックに対する最適化は、傾斜下降法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）において相対的により容易な作業に該当する。例えば、殆どの階層を０に選択すると、全ての遅延時間、領域、及びエネルギー消費が速く最適化される。ネットワークアーキテクチャがこのようなソリューションに制限される場合、最高の正確度を最適化するために必要な場合にも、より重要なアーキテクチャを探し難いことがある。このような効果を緩和するために、ハイパーパラメータウォーミングアップスケジューリング（ｈｙｐｅｒｐａｒａｍｅｔｅｒｗａｒｍｉｎｇ－ｕｐｓｃｈｅｄｕｌｉｎｇ）が使用される。ハイパーパラメータウォーミングアップスケジューリングは、最初のいくつのエポック（ｅｐｏｃｈ）に対して上記数式１のλ_２を小さい値で使用し、ネットワークアーキテクチャが高い正確度のために、特定ステップに到達してから、後で所望の値にλ_２を増加させる。

【0070】

基本的に、ハードウェア費用関数は、３つのハードウェア費用メトリックに関する線形組み合わせを上記数式１の費用関数Ｃｏｓｔ_ＨＷとして使用して、次の数式３のように表される

【0071】

【数3】

【0072】

λ_Ｅ、λ_Ｌ、及びλ_Ａを制御することにより、各費用メトリック間の均衡を測定する方法に対する条件が設定される。このようなハイパーパラメータのスケール（ｓｃａｌｅ）をマッチングさせるために、各費用に対してｍＪ、ｍｓ、及びμｍ^２単位が使用される。

【0073】

或いは、ハードウェア費用関数は、全てのメトリック間の費用関数として使用することができ、次の数式４のように表される。

【0074】

【数4】

ここで、ＥＤＡＰは、ハードウェアを評価するのに使用される共通メトリック（例えば、ｅｎｅｒｇｙ－ｄｅｌａｙ－ａｒｅａｐｒｏｄｕｃｔ）に該当する。この場合、追加的なハイパーパラメータがなく、単位が存在しないという点で利点を有する。

【0075】

以下、本発明に関する実験結果を説明する。

【0076】

本発明による統合探索方法（即ち、ＤＡＮＣＥ）に対してＣＩＦＡＲ－１０及びＩｍａｇｅＮｅｔ（ＩＬＳＶＲＣ２０１２）データセットを基にいくつかの実験が行われる。全てのアルゴリズムは、ＰｙＴｏｒｃｈで実現され、４個のＲＴＸ２０８０ＴｉＧＰＵで実行される。

【0077】

≪検索空間（Ｓｅａｒｃｈｓｐａｃｅ）≫
ハードウェア加速器検索空間（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｓｅａｒｃｈｓｐａｃｅ）であるＨの場合、最新加速器アイリス（Ｅｙｅｒｉｓｓ）がバックボーンとして使用される。設計パラメータとしてＰＥの個数、ＲＦサイズ、及びデータフロー（Ｄａｔａｆｌｏｗ）が使用される。２次元ＰＥ配列の場合、次元毎に変数ＰＥ_Ｘ及びＰＥ_Ｙが別途に割り当てられる。ここで、各値の範囲は、８から２４である。設定において、ＰＥ_Ｘが大きいほど、階層がより多くのチャネルを有し、ＰＥ_Ｙが大きいほど、並列処理のために、より大きいフィーチャマップが使用される。ＰＥ当たり、ＲＦサイズは、４から６４の間の値を有する。データフロー（Ｄａｔａｆｌｏｗ）の場合、既存のハードウェア加速器（即ち、ＷＳ：ＷｅｉｇｈｔＳｔａｔｉｏｎａｒｙ、ＯＳ：ＯｕｔｐｕｔＳｔａｔｉｏｎａｒｙ、ＲＳ：ＲｏｗＳｔａｔｉｏｎａｒｙ）で３個のデータフローが選択される。オフチップメモリに対して約１２８ＧＢ／ｓのＨＢＭメモリが設定される。評価器ネットワーク上で、各変数は、ハードウェア生成ネットワークと費用推定ネットワークとの間の段階的連結（ｃａｓｃａｄｅｄｃｏｎｎｅｃｔｉｏｎ）を単純化するために、ワン－ホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）に公式化される。

【0078】

ネットワークアーキテクチャ検索空間（ｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈｓｐａｃｅ）であるＡの場合、バックボーンネットワークアーキテクチャとしてＰｒｏｘｙｌｅｓｓＮＡＳが使用される。ネットワークには、１３個の階層があり、３個の階層毎にチャネル数が増加する。

【0079】

中間に配置された９個の階層の各々には、スキップした連結（ｓｋｉｐｃｏｎｎｅｃｔｉｏｎ）の他にも、ＭＢＣｏｎｖ３Ｘ３＿ｅｘｐａｎｄ３、ＭＢＣｏｎｖ３Ｘ３＿ｅｘｐａｎｄ６、ＭＢＣｏｎｖ５Ｘ５＿ｅｘｐａｎｄ３、ＭＢＣｏｎｖ５Ｘ５＿ｅｘｐａｎｄ６、ＭＢＣｏｎｖ７Ｘ７＿ｅｘｐａｎｄ３、ＭＢＣｏｎｖ７Ｘ７＿ｅｘｐａｎｄ６、及びＺｅｒｏの７つの候補演算が含まれる。Ｚｅｒｏが選択された場合、スキップした連結のみ含まれ、階層は、ネットワークで効果的に消える。アーキテクチャパラメータは、２進化された方法（ｂｉｎａｒｉｚｅｄｍｅｔｈｏｄ）（例えば、ＰｒｏｘｙｌｅｓｓＮＡＳ）を介して学習される。

【0080】

≪評価器ネットワーク結果（ＥｖａｌｕａｔｏｒｎｅｔｗｏｒｋＲｅｓｕｌｔｓ）≫
１）費用推定ネットワーク（Ｃｏｓｔｅｓｔｉｍａｔｉｏｎｎｅｔｗｏｒｋ）：次の表１は、評価器ネットワークの構成要素に対する実験結果に該当する。

【0081】

【表1】

【0082】

費用推定ネットワークとハードウェア生成ネットワークとは、正解（ｇｒｏｕｎｄｔｒｕｔｈ）値を基に独立的に学習され、その後、相互組み合わせられる。費用推定ネットワークの各階層は、２５６の幅を有し、当該ネットワークは、２００Ｅｐｏｃｈに対して学習率が０．０００１であるＡｄａｍオプティマイザ（ｏｐｔｉｍｉｚｅｒ）を用いて学習される。バッチサイズ（ｂａｔｃｈｓｉｚｅ）は、２５６が適用される。費用推定ネットワークは、検索空間でタイムループ（Ｔｉｍｅｌｏｏｐ）＋アクセラジー（Ａｃｃｅｌｅｒｇｙ）で生成された１８０万ケースに対して学習され、４５万ケースに対して検証される。その結果、３つの費用メトリックが全て９９％以上の正確度を見せる点において、十分に正確であることを表す。また、フィーチャ伝達（ｆｅａｔｕｒｅｆｏｒｗａｒｄｉｎｇ）は、正確度を平均４．３％ｐ向上させるものとして観察される。

【0083】

２）ハードウェア生成ネットワーク（ｈａｒｄｗａｒｅｇｅｎｅｒａｔｉｏｎｎｅｔｗｏｒｋ）：ハードウェア生成ネットワークの場合、階層幅（ｌａｙｅｒｗｉｄｔｈ）は、１２８に設定される。損失関数は、一般的なＣＥ損失（ＣＥｌｏｓｓ）が使用され、Ｌｏｓｓ_{ＣＥ＿ＨＷ}のように表現される。ハードウェア生成ネットワークは、２００エポック（Ｅｐｏｃｈ）に対してバッチサイズが１２８であるＳＧＤを使用して学習される。学習率は、０．００１から始め、５０Ｅｐｏｃｈ毎に０．１倍ずつ減少される。また、検索空間で５０，０００個のネットワークケースが生成され、有効性検査（ｖａｌｉｄａｔｉｏｎ）のために、１０，０００個のケースが使用される。全てのハードウェア加速器設計パラメータ（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎｐａｒａｍｅｔｅｒ）でハードウェア生成ネットワークの正確度が略９９％に表れる点において、十分に正確であるということを確認することができる。即ち、ハードウェア生成ネットワークは、正確且つ微分可能なだけでなく、本来生成ツールチェーンよりも一層速く動作する。同じ機能を有するハードウェア生成ネットワークの推論時間（ｉｎｆｅｒｅｎｃｅｔｉｍｅ）は、単一ＧＰＵで約０．５ｍｓが掛かるのに対し、生成道具は、２個のＩｎｔｅｌＸｅｏｎＳｉｌｖｅｒ－４２１４ＣＰＵ等の２４コアで４８スレッドを使用して約１１２秒が掛かる。

【0084】

３）終端間評価器ネットワーク結果（Ｅｎｄ－ｔｏ－ｅｎｄＥｖａｌｕａｔｏｒｎｅｔｗｏｒｋＲｅｓｕｌｔｓ）：ハードウェア生成ネットワーク及び費用推定ネットワーク間の組み合わせで全体評価器ネットワークがテストされる。中間値がワン－ホットベクトルでなくても、Ｇｕｍｂｅｌｓｏｆｔｍａｘは、これをよく近似させ、費用メトリックに対して依然として約９９％の正確度を維持する。

【0085】

≪統合探索結果（Ｃｏ－ｅｘｐｌｏｒａｔｉｏｎＲｅｓｕｌｔｓ）≫
１）ＣＩＦＡＲ－１０に対する実験結果：１番目のベースライン（ｂａｓｅｌｉｎｅ）に対し、ＰｒｏｘｙｌｅｓｓＮＡＳを使用して検索を行い、完全探索（Ｅｘｈａｕｓｔｉｖｅ－ｓｅａｒｃｈ）道具を使用して検索されたネットワークでハードウェア生成が行われる。これは、実際に行われる典型的な分離設計を表す。２５６のバッチサイズを有する１２０エポック（Ｅｐｏｃｈ）に対して検索が行われたことに対し、４０エポックに対してウォーミングアップが行われる。学習率０．０２５、加重値減少０．００００４（λ_１）、ラベル平滑化（ｓｍｏｏｔｈｉｎｇ）０．１、及びモメンタム（ｍｏｍｅｎｔｕｍ）０．９のコサインスケジューリングを使用する検索には、ＮｅｓｔｅｒｏｖモメンタムがあるＳＧＤオプティマイザが使用される。検索後、最終ネットワークは、３００エポックの間、始めから学習される。学習のためのハイパーパラメータは、学習率が０．００８であり、加重値減衰係数（ｗｅｉｇｈｔｄｅｃａｙｆａｃｔｏｒ）が０．００１であるという点を除けば、同一である。また、２番目のベースラインとしてＥＤＤを使用する。データフロー及びレジスタファイルに対するハードウェアパラメータにはＥＤＤを適用できないため、ＰＥの個数だけを基準に統合探索を行い、残りのパラメータに対しては、事後検索（ｐｏｓｔｓｅａｒｃｈ）が行われる。ＥＤＤで発生する問題は、分類損失（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）に遅延時間損失（ｌａｔｅｎｃｙｌｏｓｓ）をかける損失関数を使用するということであり、次の数式５のように表される。

【0086】

【数5】

【0087】

ここで、λ_２は、２つの項の間の加重値を調整しない。これにより、遅延時間を速く最適化するのにネットワークがあまりにも多く縮小されるという深刻な問題が発生する。その結果、ソリューションは、非常に低いハードウェア費用を提供するが、許容されない正確度を提供する。従って、当該問題を緩和するために、上記数式１のように損失関数を変更する実験が行われ、ＥＤＤ＋ＰｒｏｐｏｓｅｄＬｏｓｓｆｕｎｃ．と表される。

【0088】

ＤＡＮＣＥを使用して、費用関数を基に統合探索が行われる。Ｃｏｓｔ_{ＨＷ＿ｌｉｎｅａｒ}に対して、ｌａｔｅｎｃｙ－ｏｒｉｅｎｔｅｄ、ｅｎｅｒｇｙ－ｏｒｉｅｎｔｅｄ、及びｂａｌａｎｃｅｄという３つの費用関数が設定される。残りのハイパーパラメータは、全てベースラインと同一に設定される。検索後学習（ａｆｔｅｒ－ｓｅａｒｃｈｔｒａｉｎｉｎｇ）と同様に、最適のハードウェア加速器設計（ｏｐｔｉｍａｌｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎ）を取得するために、検索後１回の正確なハードウェア生成が行われる。

【0089】

全般的に、ＤＡＮＣＥは、ベースラインよりも優れたネットワーク加速器設計を取得することができる。比較のために、１つは高い正確度（－Ａ）を有するものと、他の１つは効率的なハードウェア設計（－Ｂ）に該当する２つの設計が使用される。高精密設計（－Ａ）の場合、ＤＡＮＣＥは、ベースラインと略同一の正確度を達成する（ペナルティなし）。効率的なハードウェア設計（－Ｂ）の場合、１～２％の正確度減少以内で最高の費用関数を有する設計を選択することができる。ＤＡＮＣＥが効率的な統合探索を行って、最大１０倍更に良いＥＤＡＰ又は３倍更に良い遅延時間を達成することができる。遅延時間指向（ｌａｔｅｎｃｙ－ｏｒｉｅｎｔｅｄ）費用関数を使用すると、遅延時間は、他の関数達よりもずっと低い値になるのに対し、エネルギー指向（ｅｎｅｒｇｙ－ｏｒｉｅｎｔｅｄ）費用関数は、他の２つの関数よりも更に良いエネルギー消費を達成する。結果的に、ＤＡＮＣＥを用いる場合、関心のあるソリューションを取得するために、費用ハイパーパラメータを調整することができることを意味する。

【0090】

図９に示すように、ＤＡＮＣＥが単純にハードウェア費用として正確性を犠牲にするのではなく、ベースライン等と比較して圧倒的なソリューションを検索するということを意味する。図９において、ベースライン（Ｂａｓｅｌｉｎｅ）とＤＡＮＣＥとで探した設計のＥＤＡＰ－誤差関係を図示する。ここで、２つの軸に対して全て低いほど、より良いことになる。正確度とＣｏｓｔ_ＨＷとの間の他の均衡を達成するために、上記数式１で様々なλ_２に対して検索が行われる。ベースラインとＤＡＮＣＥとは、全て正確度指向（ａｃｃｕｒａｃｙ－ｏｒｉｅｎｔｅｄ）ハイパーパラメータ設定により類似する正確度に到達するが、ＤＡＮＣＥは、より一層良いトレードオフ（ｔｒａｄｅ－ｏｆｆ）を提供し、フロップペナルティ（Ｆｌｏｐｓｐｅｎａｌｔｙ）があるベースラインよりも優れた費用メトリックを提供する。また、ＤＡＮＣＥは、ＥＤＤと比較して類似する正確度下で２倍以上の優れたＥＤＡＰ性能を提供することができる。これは、ＥＤＤがネットワーク－ハードウェア関係をモデリングせずに、特に高い正確度でソリューションに対する効率的な設計対を探すことができないためである。図９に示したＥＤＤの場合、本来のＥＤＤの正確度があまりにも低いため、本発明によって修正された損失関数を使用している。

【0091】

２）ＩｍａｇｅＮｅｔに対する実験結果：次の表２は、ＩｍａｇｅＮｅｔデータセットに対するＤＡＮＣＥの性能を図示している。

【0092】

【表2】

【0093】

別途のハードウェア検索を有するベースラインは、７１．１２％の正確度を提供するが、ハードウェア費用が多く掛かることがある。フロップペナルティ（ＦｌｏｐｓＰｅｎａｌｔｙ）又はＥＤＤを適用する場合には、効率的なソリューションを探せないことがある。ＤＡＮＣＥは、良いトレードオフポイント（ｔｒａｄｅ－ｏｆｆｐｏｉｎｔ）を発見し、最大３倍のＥＤＡＰ利点と共に、わずかの正確度減少だけでより一層良い費用メトリックを提供することができる。

【0094】

≪ＤＡＮＣＥにより探索されたネットワーク及び加速器設計（ＮｅｔｗｏｒｋａｎｄａｃｃｅｌｅｒａｔｏｒｄｅｓｉｇｎｓｅａｒｃｈｅｄｂｙＤＡＮＣＥ）≫

【0095】

図１０及び図１１に示すように、ネットワークアーキテクチャと加速器設計とに関する２つの集合を図示する。加速器設計と共に、ネットワークアーキテクチャを探す方法に対する有用な洞察力を見せるため、遅延時間指向費用関数（ｌａｔｅｎｃｙ－ｏｒｉｅｎｔｅｄｃｏｓｔｆｕｎｃｔｉｏｎ）とエネルギー指向費用関数（ｅｎｅｒｇｙ－ｏｒｉｅｎｔｅｄｃｏｓｔｆｕｎｃｔｉｏｎ）とで生成された２つの費用効率的な設計（－Ｂ）を適用する。図１０及び図１１において、ボールド体（ｂｏｌｄｃｈａｒａｃｔｅｒ）で表される値は、ＤＡＮＣＥとして検索される設計パラメータに該当する。

【0096】

遅延時間指向ネットワーク（ｌａｔｅｎｃｙ－ｏｒｉｅｎｔｅｄｎｅｔｗｏｒｋ）（図１０）は、エネルギー指向ネットワーク（ｅｎｅｒｇｙ－ｏｒｉｅｎｔｅｄｎｅｔｗｏｒｋ）に比べてカーネルサイズが相対的に小さい（例えば、７×７ＭＢＣｏｎｖの代わりに、３×３ＭＢＣｏｎｖ）。それに対して、遅延時間指向ネットワークは、より大きい拡張割合によって、更に多くのチャネルを含む。データフローに関係なく、加速器は、チャネル水準の並列処理（ｃｈｎｎｅｌ－ｌｅｖｅｌｐａｒａｌｌｅｌｉｓｍ）をよく活用するため、更に多くのチャネルがあれば、同時に活性化されるＰＥの個数を増やすのに役に立ち、遅延時間が減る。このようなネットワークで低い遅延時間を達成するために検索された加速器は、速度を加速化する相対的に更に大きいＰＥ配列（ａｒｒａｙ）を含む。最後に、選択されたＷＳ（ＷｅｉｇｈｔＳｔａｔｉｏｎａｒｙ）データフローは、一般的に低い遅延時間を達成するのに良いものと知られている。

【0097】

エネルギー指向ネットワーク（ｅｎｅｒｇｙ－ｏｒｉｅｎｔｅｄｎｅｔｗｏｒｋ）（図１１）は、より小さいチャネル幅と共に、相対的に更に大きいカーネルサイズ（７×７ＭＢＣｏｎｖ）を含む。カーネルサイズが大きいほどＰＥ使用率が低くなり、遅延時間が増える場合が多いにも拘らず、使用しないＰＥの個数が多いとして高いエネルギーに大きく寄与することはない。即ち、動的エネルギー消費は、主にＭＡＣ演算及びデータアクセスの個数に依存する。それに対し、チャネル幅（ｃｈａｎｎｅｌｗｉｄｔｈ）が小さいほど、入力／出力活性化のためのアクセス数が減るため、時々エネルギー消費が低くなる。小さいカーネル／広い幅の同じＭＡＣ演算を有する階層と大きいカーネル／狭い幅の階層とを比較すると、前者は高いＰＥ活用率によって遅延時間がより良く、後者は低いデータアクセスによってエネルギー消費がより良い。エネルギー指向費用関数に対する加速器は、時々良いエネルギー効率を表すものとして知られたＲＳデータフローを有するものとして検索されてきた。ＰＥアレイは、エネルギー消費を減らすために小さい。深さ方向コンボリューション（ｄｅｐｔｈ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）には、１つの出力チャネルのみがあるため、ＰＥ_Ｙは、特に小さく、低いエネルギーに対してＰＥ_Ｙを減らすことがＰＥ_Ｘを減らすことよりも更に有利である。各ＰＥは、遅延時間指向設計に比べてより大きいＲＦを有する。なぜなら、ＲＦが大きいほど、ＧＢ（ＧｌｏｂａｌＢｕｆｆｅｒ）に対するアクセスが減り、エネルギー消費が少ないためである。

【0098】

≪ＤＡＮＣＥと既存の統合探索アルゴリズムとの比較（ＣｏｍｐａｒｉｓｏｎｏｆＤＡＮＣＥｗｉｔｈＥｘｉｓｔｉｎｇＣｏ－ｅｘｐｌｏｒａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ）≫

【0099】

次の表３は、ＤＡＮＣＥを他の加速器／ネットワーク統合探索アルゴリズム（即ち、Ａｌｇ．［１０］～［１４］及び［１７］）と比較した結果に該当する。

【0100】

【表3】

【0101】

環境が全て異なるため（例えば、ＡＳＩＣｖｓＦＰＧＡ、他の技術ノード、他のＮＡＳバックボーン等）、測定された値を直接比較することができない。また、正確度さえも基本的なＮＡＳアルゴリズムに依存するため、直接比較することができない。しかし、その差が大きい場合、方法の検索能力（ｓｅａｒｃｈｉｎｇｃａｐａｂｉｌｉｔｙ）を暗示することができるため、概略的な比較のために正確度と検索費用とをまとめることができる。

【0102】

殆どの統合探索アルゴリズムは、強化学習を活用し、探索過程で多くの候補を学習させるべき問題を有する。結果的に、それらのうちの多数は、正確度が低い次善のネットワークアーキテクチャのみを出力する。

【0103】

検索時間は、更にＤＡＮＣＥの長所を表し、ＲＬ基盤の作業に比べて一層速い。アルゴリズム［１３］の場合、差は小さいが、これは、バックボーンアーキテクチャが、モデルサイズが小さく、手動で微細調整されたアーキテクチャを基盤とするためである。「候補（ｃａｎｄｉｄａｔｅｓ）」項目（ｃｏｌｕｍｎ）は、このような場合を考慮して検索費用を公正に比較しようという試みに該当する。即ち、検索する間、各アルゴリズムが学習すべき候補の個数に該当する。ＲＬ基盤の統合探索アルゴリズムは、学習のために数百から数千個の候補が必要であるが、ＤＡＮＣＥは、唯１つの候補のみを使用する。アルゴリズム［１７］は、微分可能であり、同じＮＡＳバックボーンで再加工した場合、類似する正確度と検索費用とを提供する。しかし、アルゴリズム［１７］は、ネットワーク－ハードウェア関係を反映できないため、その結果、統合探索ソリューションは、ＤＡＮＣＥよりも最も低い品質を提供する。

【0104】

本発明による統合探索方法であるＤＡＮＣＥは、高い正確度と低い費用メトリックとを全て目標とするハードウェア加速器とネットワークアーキテクチャとを共に探索する新しい微分可能な方法に該当する。本発明による統合探索方法は、非常に低い検索費用で正確度を損傷させずに、効率的なハードウェア設計を得るために、ニューラルネットワーク基盤のハードウェア評価器をモデリングすることができる。本発明による統合探索方法は、ビデオ又は自然語（ｎａｔｕｒａｌｌａｎｇｕａｇｅ）処理のような未来の多くの分野で統合探索問題（ｃｏ－ｅｘｐｌｏｒａｔｉｏｎｐｒｏｂｌｅｍ）に対する費用を減らすことができる。

【0105】

以上、本発明の実施形態について図面を参照しながら詳細に説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の技術的思想から逸脱しない範囲内で多様に変更実施することが可能である。

【符号の説明】

【0106】

１００統合探索装置
１１０ＮＡＳモジュール
１３０ＤＡＮＣＥ評価モジュール
１３１ハードウェア生成ネットワーク
１３３費用推定ネットワーク

【図1】