特表2023-532744 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 中科寒武紀科技股▲分▼有限公司の特許一覧

特表2023-532744ニューラルネットワークモデルを実行するデータ処理装置、方法及び関連製品

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-07-31

(54)【発明の名称】ニューラルネットワークモデルを実行するデータ処理装置、方法及び関連製品

(51)【国際特許分類】

G06N 3/0464 20230101AFI20230724BHJP

【ＦＩ】

G06N3/0464

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022581659

(86)(22)【出願日】2021-12-30

(85)【翻訳文提出日】2022-12-28

(86)【国際出願番号】 CN2021143160

(87)【国際公開番号】W WO2022143916

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】202011631707.4

(32)【優先日】2020-12-31

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】202011624955.6

(32)【優先日】2020-12-31

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】202011631736.0

(32)【優先日】2020-12-31

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520426003

【氏名又は名称】中科寒武紀科技股▲分▼有限公司

【氏名又は名称原語表記】ＣＡＭＢＲＩＣＯＮＴＥＣＨＮＯＬＯＧＩＥＳＣＯＲＰＯＲＡＴＩＯＮＬＩＭＩＴＥＤ

【住所又は居所原語表記】Ｒｏｏｍ１６０１，１６／Ｆ，ＢｌｏｃｋＤ，ＺｈｉｚｈｅｎＢｕｉｌｄｉｎｇ，Ｎｏ．７，ＺｈｉｃｈｕｎＲｏａｄ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔＢｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100146374

【弁理士】

【氏名又は名称】有馬百子

(72)【発明者】

【氏名】林暁東

(72)【発明者】

【氏名】湯正剛

(72)【発明者】

【氏名】焦帥

(72)【発明者】

【氏名】羅海▲ショウ▼

(72)【発明者】

【氏名】張雄

(57)【要約】

本開示は、ニューラルネットワークモデルを実行するためのデータ処理装置、方法及び関連製品を開示した。このデータ処理装置は、計算装置として組み合わせ処理装置に含まれてもよく、この組み合わせ処理装置は、インターフェース装置と、他の処理装置とをさらに含んでもよい。この計算装置と他の処理装置とはインタラクションを行い、ユーザによって指定される計算操作を共同で完了する。組み合わせ処理装置は、記憶装置をさらに含んでもよく、この記憶装置はそれぞれ計算装置と他の処理装置とに接続され、この計算装置と他の処理装置のデータを記憶するために用いられる。本開示の方案は、多次元アレイの畳み込み演算に対して最適化を行うことによって、演算処理効率を向上させた。
【選択図】図２

【特許請求の範囲】

【請求項1】

ニューラルネットワークモデルを実行するためのデータ処理装置であって、
前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを記憶するためのものとして配置される記憶回路であって、前記折り畳みフィルタは、元のフィルタに対して次元折り畳みを行うことで得られるものであり、ここで、前記次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む記憶回路と、
入力特徴マップに対して前記次元折り畳みを行うことで、折り畳み特徴マップを得て、及び
前記折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行することで、出力特徴マップを得るためのものとして配置される処理回路とを含む、データ処理装置。

【請求項2】

前記元のフィルタの入力チャンネル次元サイズは、第一の閾値Ａ１を超えず、前記折り畳みフィルタの入力チャンネル次元サイズは、第二の閾値Ａｃｉに等しく、ここで、第一の閾値Ａ１は、第二の閾値Ａｃｉよりも小さい、請求項１に記載のデータ処理装置。

【請求項3】

前記処理回路は、
折り畳み待ち多次元データの入力チャンネル次元サイズＣｉと前記第二の閾値Ａｃｉに基づき、総折り畳み倍数Ｎ_{ｔｏｔａｌ}を決定することと、
前記総折り畳み倍数Ｎ_{ｔｏｔａｌ}を幅次元折り畳み倍数Ｎｗと高さ次元折り畳み倍数Ｎｈに分割することと、
Ｎｗ、Ｎｈ及び折り畳み待ち多次元データの幅次元サイズと高さ次元サイズに基づき、折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定することと、
Ｎｗ、Ｎｈ及び畳み込み演算の元の畳み込みステップ長に基づき、前記畳み込み演算の折り畳み後の畳み込みステップ長を決定することとの方式に応じて、前記次元折り畳みを実行するためのものとして配置される、請求項２に記載のデータ処理装置。

【請求項4】

前記処理回路はさらに、
Ｎ_{ｔｏｔａｌ}＝Ａｃｉ／Ｃｉａに応じて総折り畳み倍数Ｎ_{ｔｏｔａｌ}を決定するためのものとして配置され、ここで、Ｃｉａは、Ｃｉが最も近いＡｃｉ／２^ｎにアラインされる値であり、ｎは、自然数である、請求項３に記載のデータ処理装置。

【請求項5】

前記処理回路はさらに、
幅次元に優先的に分割すること、
幅次元と高さ次元に平均に分割すること、
折り畳み倍数アラインによる補完量が最小となるように分割すること、又は
幅次元での畳み込みステップ長がこの幅次元の折り畳み倍数で割り切れるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記総折り畳み倍数Ｎ_{ｔｏｔａｌ}を分割するためのものとして配置される、請求項３又は４に記載のデータ処理装置。

【請求項6】

前記処理回路はさらに、
ｋ_ｗ’＝ｋ_ｗａ／Ｎｗ（７）
ｋ_ｈ’＝ｋ_ｈａ／Ｎｈ（８）
に応じて折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定するためのものとして配置され、
ここで、ｋ_ｗ’、ｋ_ｈ’はそれぞれ折り畳み後の多次元データの幅次元サイズと高さ次元サイズであり、ｋ_ｗａは、折り畳み待ち多次元データの幅次元サイズｋ_ｗが最も近い幅次元折り畳み倍数Ｎｗにアラインされる値であり、ｋ_ｈａは、折り畳み待ち多次元データの高さ次元サイズｋ_ｈが最も近い高さ次元折り畳み倍数Ｎｈにアラインされる値である、請求項３から５のいずれか１項に記載のデータ処理装置。

【請求項7】

前記処理回路はさらに、

に応じて折り畳み後の多次元データの畳み込みステップ長を決定するためのものとして配置され、
ここで、Ｓ_ｘ、Ｓ_ｙはそれぞれ畳み込み演算の元の幅次元の畳み込みステップ長と高さ次元の畳み込みステップ長であり、Ｓ_ｘ’、Ｓ_ｙ’はそれぞれ畳み込み演算の折り畳み後の幅次元の畳み込みステップ長と高さ次元の畳み込みステップ長である、請求項３から６のいずれか１項に記載のデータ処理装置。

【請求項8】

前記第二の閾値Ａｃｉは、命令アライン要求に基づいて決定されるものであり、そして前記第一の閾値Ａ１≦Ａｃｉ／２である、請求項３から７のいずれか１項に記載のデータ処理装置。

【請求項9】

前記処理回路はさらに、
次元再構築によって幅次元での前記次元折り畳みを実現し、及び／又は
次元転置によって高さ次元での前記次元折り畳みを実現するためのものとして配置される、請求項１から８のいずれか１項に記載のデータ処理装置。

【請求項10】

前記元のフィルタの出力チャンネル次元サイズは、前記折り畳みフィルタの出力チャンネル次元サイズに等しい、請求項１から９のいずれか１項に記載のデータ処理装置。

【請求項11】

前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである、請求項１から１０のいずれか１項に記載のデータ処理装置。

【請求項12】

請求項１から１１のいずれか１項に記載のデータ処理装置を含む、ことを特徴とするチップ。

【請求項13】

請求項１２に記載のチップを含む、ことを特徴とするボードカード。

【請求項14】

記憶回路と処理回路とを含むデータ処理装置によって実施されるニューラルネットワークモデルを実行するための方法であって、
前記処理回路が、入力特徴マップに対して次元折り畳みを行うことで、折り畳み特徴マップを得ることと、
前記処理回路が、前記記憶回路に記憶されている前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行することで、出力特徴マップを得ることとを含み、
ここで、前記折り畳みフィルタは、元のフィルタに対して前記次元折り畳みを行うことで得られるものであり、そして前記次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む、方法。

【請求項15】

前記元のフィルタの入力チャンネル次元サイズは、第一の閾値Ａ１を超えず、前記折り畳みフィルタの入力チャンネル次元サイズは、第二の閾値Ａｃｉに等しく、ここで、第一の閾値Ａ１は、第二の閾値Ａｃｉよりも小さい、請求項１４に記載の方法。

【請求項16】

前記処理回路が、
折り畳み待ち多次元データの入力チャンネル次元サイズＣｉと前記第二の閾値Ａｃｉに基づき、総折り畳み倍数Ｎ_{ｔｏｔａｌ}を決定することと、
前記総折り畳み倍数Ｎ_{ｔｏｔａｌ}を幅次元折り畳み倍数Ｎｗと高さ次元折り畳み倍数Ｎｈに分割することと、
Ｎｗ、Ｎｈ及び折り畳み待ち多次元データの幅次元サイズと高さ次元サイズに基づき、折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定することと、
Ｎｗ、Ｎｈ及び畳み込み演算の元の畳み込みステップ長に基づき、前記畳み込み演算の折り畳み後の畳み込みステップ長を決定することとの方式に応じて、前記次元折り畳みを実行することをさらに含む、請求項１５に記載の方法。

【請求項17】

前記処理回路がさらに、
Ｎ_{ｔｏｔａｌ}＝Ａｃｉ／Ｃｉａに応じて総折り畳み倍数Ｎ_{ｔｏｔａｌ}を決定することをさらに含み、ここで、Ｃｉａは、Ｃｉが最も近いＡｃｉ／２^ｎにアラインされる値であり、ｎは、自然数である、請求項１６に記載の方法。

【請求項18】

前記処理回路が、
幅次元に優先的に分割すること、
幅次元と高さ次元に平均に分割すること、
折り畳み倍数アラインによる補完量が最小となるように分割すること、又は
幅次元での畳み込みステップ長がこの幅次元の折り畳み倍数で割り切れるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記総折り畳み倍数Ｎ_{ｔｏｔａｌ}を分割することをさらに含む、請求項１６又は１７に記載の方法。

【請求項19】

前記処理回路が、
ｋ_ｗ’＝ｋ_ｗａ／Ｎｗ（７）
ｋ_ｈ’＝ｋ_ｈａ／Ｎｈ（８）
に応じて折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定することをさらに含み、
ここで、ｋ_ｗ’、ｋ_ｈ’はそれぞれ折り畳み後の多次元データの幅次元サイズと高さ次元サイズであり、ｋ_ｗａは、折り畳み待ち多次元データの幅次元サイズｋ_ｗが最も近い幅次元折り畳み倍数Ｎｗにアラインされる値であり、ｋ_ｈａは、折り畳み待ち多次元データの高さ次元サイズｋ_ｈが最も近い高さ次元折り畳み倍数Ｎｈにアラインされる値である、請求項１６から１８のいずれか１項に記載の方法。

【請求項20】

前記処理回路が、

に応じて折り畳み後の多次元データの畳み込みステップ長を決定することをさらに含み、
ここで、Ｓ_ｘ、Ｓ_ｙはそれぞれ畳み込み演算の元の幅次元の畳み込みステップ長と高さ次元の畳み込みステップ長であり、Ｓ_ｘ’、Ｓ_ｙ’はそれぞれ畳み込み演算の折り畳み後の幅次元の畳み込みステップ長と高さ次元の畳み込みステップ長である、請求項１６から１９のいずれか１項に記載の方法。

【請求項21】

前記第二の閾値Ａｃｉは、命令アライン要求に基づいて決定されるものであり、そして前記第一の閾値Ａ１≦Ａｃｉ／２である、請求項１６から２０のいずれか１項に記載の方法。

【請求項22】

前記処理回路が次元再構築によって幅次元での前記次元折り畳みを実現し、及び／又は
前記処理回路が次元転置によって高さ次元での前記次元折り畳みを実現することをさらに含む、請求項１４から２１のいずれか１項に記載の方法。

【請求項23】

前記元のフィルタの出力チャンネル次元サイズは、前記折り畳みフィルタの出力チャンネル次元サイズに等しい、請求項１４から２２のいずれか１項に記載の方法。

【請求項24】

前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである、請求項１４から２３のいずれか１項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本出願は、２０２０年１２月３１日に出願され、出願番号が２０２０１１６３１７３６０であり、名称が「ニューラルネットワークモデルを実行するデータ処理装置、方法及び関連製品」であり、２０２０年１２月３１日に出願され、出願番号が２０２０１１６３１７０７４であり、名称が「ニューラルネットワークモデルを実行するデータ処理装置、方法及び関連製品」であり、２０２０年１２月３１日に出願され、出願番号が２０２０１１６２４９５５６であり、名称が「ニューラルネットワークモデルを実行するデータ処理装置、方法及び関連製品」である中国特許出願の優先権を主張している。

【0002】

本開示は、一般的には、データ処理分野に関する。より具体的には、本開示は、ニューラルネットワークモデルを実行するためのデータ処理装置、データ処理方法、チップとボードカードに関する。

【背景技術】

【0003】

現在では、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）は、既に機械学習における重要な分岐となっており、人工知能（ＡＩ）の発展にも大いに寄与している。深層学習のコア技術であるディープニューラルネットワーク（ＤＮＮ）は多くの業界において広く応用されている。

【0004】

畳み込み層は、ニューラルネットワークモデルにおける一般的な隠れ層の一つであり、それは、畳み込み演算によって入力データに対して特徴抽出を行う。ニューラルネットワークモデルには、大量の畳み込み演算が含まれ、畳み込み演算の計算性能は、ニューラルネットワークモデル全体の計算性能に極めて大きい影響を及ぼす。畳み込み演算において、畳み込み層のフィルタの各次元に対し、命令アラインの要求が存在するだけでなく、ハードウェア（例えば、並列演算器）アラインの要求も存在する。そのため、ニューラルネットワークモデルの実行の計算性能を向上させるために、畳み込み演算を最適化する必要がある。

【発明の概要】

【0005】

以上に言及された一つ又は複数の技術課題を少なくとも解決するために、本開示は、複数の態様において、ニューラルネットワークモデルを実行するためのデータ処理方案を提案し、それは、畳み込み層のフィルタに対して変換を行うことで、畳み込み演算の計算性能を効果的に向上させることができる。本開示の実施例のニューラルネットワークモデルは、様々な分野、例えば、画像処理、音声処理、テキスト処理などに応用可能であり、これらの処理は、例えば、識別と分類を含んでもよいが、それらに限らない。

【0006】

第一の態様では、本開示は、ニューラルネットワークモデルを実行するためのデータ処理装置を提供し、この装置は、前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを記憶するためのものとして配置される記憶回路であって、前記折り畳みフィルタは、元のフィルタに対して次元折り畳みを行うことで得られるものであり、ここで、前記次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む記憶回路と、入力特徴マップに対して前記次元折り畳みを行うことで、折り畳み特徴マップを得て、及び前記折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行することで、出力特徴マップを得るためのものとして配置される処理回路とを含む。

【0007】

第二の態様では、本開示は、前記第一の態様のいずれか一つの実施例のデータ処理装置を含むチップを提供する。

【0008】

第三の態様では、本開示は、前記第二の態様のいずれか一つの実施例のチップを含むボードカードを提供する。

【0009】

第四の態様では、本開示は、記憶回路と処理回路とを含むデータ処理装置によって実施されるニューラルネットワークモデルを実行するための方法を提供し、前記方法は、前記処理回路が、入力特徴マップに対して次元折り畳みを行うことで、折り畳み特徴マップを得ることと、前記処理回路が、前記記憶回路に記憶されている前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行することで、出力特徴マップを得ることとを含み、ここで、前記折り畳みフィルタは、元のフィルタに対して前記次元折り畳みを行うことで得られるものであり、そして前記次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む。

【0010】

以上に提供されるデータ処理装置、チップ、ボードカード及びデータ処理装置によって実施されるデータ処理方法によって、本開示の方案は、折り畳みフィルタにより畳み込み演算を最適化する。本開示の実施例は、特に、元のフィルタの出力チャンネル次元サイズと入力チャンネル次元サイズがいずれも比較的に小さい場合に適用される。通常の畳み込み演算において、フィルタの出力チャンネル次元が比較的に小さい時、並列演算ユニット数のアラインの制限により、比較的に大きいリソース浪費を引き起こす。フィルタの入力チャンネル次元が比較的に小さい時、人工知能チップ命令セットのベクトル化アラインの制限により、比較的に多い冗長計算を引き起こす。一方では、本開示の実施例は、元のフィルタに対して第一の次元折り畳みを行うことで、畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを一つの折り畳みフィルタに合成することによって出力チャンネル次元を拡張することができ、それにより利用可能な並列演算ユニットを十分に利用することができる。他方では、本開示の実施例は、フィルタに対して第二の次元折り畳みを行うことで、畳み込みカーネルの幅次元及び／又は高さ次元のデータを入力チャンネル次元に折り畳んで命令アライン要求を満たすことができ、冗長計算を可能な限り減少させることができる。上記二つの方面をさらに併用してもよく、それにより演算リソースの浪費を最も効果的に回避し、ハードウェアアクセラレーション時の畳み込み演算の計算性能を向上させることができる。

【図面の簡単な説明】

【0011】

図面を参照しながら以下の詳細な記述を読むことで、本開示の例示的な実施形態の上記及び他の目的、特徴と利点は理解しやすくなる。図面において、制限的ではなく、例示的な形態で本開示のいくつかの実施形態を示しており、そして同じ又は対応する記号は、同じ又は対応する部分を表す。

【図1】本開示の実施例のボードカードの構造図を示す。

【図2】本開示の実施例の集積回路装置の構造図を示す。

【図3】本開示の実施例のシングルコア計算装置の内部構造概略図を示す。

【図4】本開示の実施例のマルチコア計算装置の内部構造概略図を示す。

【図5】本開示の実施例のプロセッサコアの内部構造概略図を示す。

【図6】本開示の実施例を応用できる例示的な畳み込み演算の例を示す。

【図7】本開示の実施例の第一の次元折り畳みの例示的な原理図を示す。

【図8】本開示の実施例によるより詳細な第一の次元折り畳みの概略図を示す。

【図9】本開示の実施例による第一の次元折り畳み前後の計算プロセスの例示的な比較図を示す。

【図10】本開示の実施例による次元転置の例示的な概略図を示す。

【図11】本開示の実施例の第二の次元折り畳みの例示的な原理図を示す。

【図12】本開示の実施例によるより詳細な第二の次元折り畳みの概略図を示す。

【図13】本開示の実施例による畳み込みカーネルに対する折り畳み倍数補完の概略図を概略的に示す。

【図14】本開示の実施例による畳み込みステップ長による有効倍数への影響の概略図を概略的に示す。

【図15】本開示の実施例を実施できるデータ処理装置の概略的構造図を例示的に示す。

【図16】本開示の実施例によるデータ処理方法の例示的なフローチャートを示す。

【発明を実施するための形態】

【0012】

以下は、本開示の実施例における図面を結び付けながら、本開示の実施例における技術案を明瞭且つ完全に記述する。明らかに、記述された実施例は、本開示の一部の実施例であり、全部の実施例ではない。本開示における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本開示の保護範囲に属する。

【0013】

理解すべきこととして、本開示の特許請求の範囲、明細書及び図面において使用され得る用語である「第一」、「第二」と「第三」などは、異なる対象を区別するためのものであり、特定の順序を記述するためのものではない。本開示の明細書と特許請求の範囲において使用される用語である「含む」と「包含」は、記述された特徴、全体、ステップ、操作、要素及び／又はアセンブリの存在を示すが、一つ又は複数の他の特徴、全体、ステップ、操作、要素、アセンブリ及び／又はそれらの集合の存在又は追加を除外しない。

【0014】

さらに理解すべきこととして、ここで本開示の明細書において使用される用語は、特定の実施例を説明することのみを目的としており、本開示を限定することを意図するものではない。本開示の明細書と特許請求の範囲において使用されているように、文脈が他の状況を明確に示さない限り、単数形「一」、「一つ」及び「この」は複数形を含むことを意図している。またさらに理解すべきこととして、本開示の明細書と特許請求の範囲において使用される用語である「及び／又は」は、関連してリストされた項目のうちの一つ又は複数の任意の組み合わせ及びすべての可能な組み合わせを指し、そしてこれらの組み合わせを含む。

【0015】

本明細書及び特許請求の範囲において使用されているように、用語である「もし」は、文脈に応じて、「…時」又は「…すると」又は「決定に応答して」又は「検出に応答して」と解釈することができる。同様に、「決定される場合」又は「［記述された条件又はイベント］が検出される場合」というフレーズは、文脈に応じて、「決定されると」又は「決定に応答して」又は「［記述された条件又はイベント］が検出されると」又は「［記述された条件又はイベント］の検出に応答して」を意味すると解釈することができる。

【0016】

以下では、図面を結び付けながら、本開示の具体的な実施の形態を詳細に記述する。

【0017】

図１は、本開示の実施例のボードカード１０の構造概略図を示す。図１に示すように、ボードカード１０は、チップ１０１を含み、それは、システムレベルチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳｏＣ）であり、又はシステムオンチップと呼ばれ、一つ又は複数の組み合わせ処理装置が集積されており、組み合わせ処理装置は、人工知能演算ユニットであり、各類の深層学習と機械学習アルゴリズムをサポートし、コンピュータビジョン、音声、自然言語処理、データマイニングなどの分野の複雑なシナリオでのインテリジェント処理需要を満たすために用いられる。特に、深層学習技術のクラウドインテリジェント分野での応用が多く、クラウドインテリジェント応用の一つの顕著な特徴は、入力データ量が大きく、プラットフォームの記憶能力と計算能力に対する要求が非常に高いことであり、この実施例のボードカード１０はクラウドインテリジェント応用に適しており、膨大なオフチップ記憶、オンチップ記憶と強い計算能力を有する。

【0018】

チップ１０１は、外部向けインターフェース装置１０２を介して外部機器１０３と接続される。外部機器１０３は、例えば、サーバ、コンピュータ、ウェブカメラ、ディスプレイ、マウス、キーボード、ネットワークカード又はｗｉｆｉインターフェースなどである。処理すべきデータは、外部機器１０３によって外部向けインターフェース装置１０２を介してチップ１０１に伝達することができる。チップ１０１の計算結果は、外部向けインターフェース装置１０２を介して外部機器１０３に送り返すことができる。異なる応用シナリオに応じて、外部向けインターフェース装置１０２は、異なるインターフェース形式、例えば、ＰＣＩｅインターフェースなどを有してもよい。

【0019】

ボードカード１０は、データを記憶するための記憶デバイス１０４をさらに含み、それは、一つ又は複数の記憶ユニット１０５を含む。記憶デバイス１０４は、バスを介して制御素子１０６とチップ１０１との接続とデータ伝送を行う。ボードカード１０における制御素子１０６は、チップ１０１の状態を調整制御するためのものとして配置される。このために、一つの応用シナリオにおいて、制御素子１０６は、マイクロコントローラーユニット（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）を含んでもよい。

【0020】

図２は、この実施例のチップ１０１における組み合わせ処理装置の構造図を示す。図２に示すように、組み合わせ処理装置２０は、計算装置２０１と、インターフェース装置２０２と、処理装置２０３と、ＤＲＡＭ２０４とを含む。

【0021】

計算装置２０１は、ユーザによって指定される操作を実行するように配置され、主に、シングルコアインテリジェントプロセッサ又はマルチコアインテリジェントプロセッサとして実現され、深層学習又は機械学習の計算を実行するために用いられ、それは、インターフェース装置２０２を介して処理装置２０３とインタラクションを行い、ユーザによって指定される操作を共同で完了することができる。

【0022】

インターフェース装置２０２は、計算装置２０１と処理装置２０３との間で、データと制御命令を伝送するために用いられる。例えば、計算装置２０１は、インターフェース装置２０２を介して処理装置２０３から入力データを取得し、計算装置２０１のオンチップ記憶装置に書き込むことができる。さらに、計算装置２０１は、インターフェース装置２０２を介して処理装置２０３から制御命令を取得し、計算装置２０１のオンチップ制御バッファに書き込むことができる。代替的又は選択的に、インターフェース装置２０２は、計算装置２０１の記憶装置におけるデータを読み取って処理装置２０３に伝送してもよい。

【0023】

処理装置２０３は、汎用の処理装置として、基本的な制御を実行し、データの転送、計算装置２０１のオン及び／又はオフなどを含むが、それらに限らない。実現方式の違いによって、処理装置２０３は、中央プロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、グラフィックスプロセッサ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＧＰＵ）又は他の汎用及び／又は専用プロセッサのうちの一つ又は複数のタイプのプロセッサであってもよく、これらのプロセッサは、デジタルシグナルプロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、ＤＳＰ）、専用集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアアセンブリなどを含むが、それらに限らない。そして、その数は、実際の需要に応じて決定されてもよい。前述したように、本開示の計算装置２０１のみについて、それは、シングルコア構造又はホモジニアスマルチコア構造を有するとみなされてもよい。しかしながら、計算装置２０１と処理装置２０３を整合して共同で考慮する時、両者は、ヘテロジニアスマルチコア構造を形成するとみなされる。

【0024】

ＤＲＡＭ２０４は、処理すべきデータを記憶するためのものであり、ＤＤＲメモリであり、サイズが一般的に１６Ｇ以上であり、計算装置２０１及び／又は処理装置２０３のデータを保存するために用いられる。

【0025】

図３は、計算装置２０１がシングルコアである場合の内部構造概略図を示す。シングルコア計算装置３０１は、コンピュータビジョン、音声、自然言語、データマイニングなどの入力データを処理するために用いられ、シングルコア計算装置３０１は、制御モジュール３１、演算モジュール３２及び記憶モジュール３３という三つのモジュールを含む。

【0026】

制御モジュール３１は、深層学習のタスクを完了するために、演算モジュール３２と記憶モジュール３３の作動を協調して制御するために用いられ、それは、命令フェッチユニット（ｉｎｓｔｒｕｃｔｉｏｎｆｅｔｃｈｕｎｉｔ、ＩＦＵ）３１１と、命令復号化ユニット（ｉｎｓｔｒｕｃｔｉｏｎｄｅｃｏｄｅｕｎｉｔ、ＩＤＵ）３１２とを含む。命令フェッチユニット３１１は、処理装置２０３からの命令を取得するために用いられ、命令復号化ユニット３１２は、取得した命令を復号化し、復号化結果を制御情報として演算モジュール３２と記憶モジュール３３に送信する。

【0027】

演算モジュール３２は、ベクトル演算ユニット３２１と、行列演算ユニット３２２とを含む。ベクトル演算ユニット３２１は、ベクトル演算を実行するために用いられ、ベクトルの乗算、加算、非線形変換などの複雑な演算をサポートすることができ、行列演算ユニット３２２は、深層学習アルゴリズムのコア計算、即ち行列乗算及び畳み込みを担う。

【0028】

記憶モジュール３３は、関連データを記憶又は転送するために用いられ、ニューロン記憶ユニット（ｎｅｕｒｏｎＲＡＭ、ＮＲＡＭ）３３１と、パラメータ記憶ユニット（ｗｅｉｇｈｔＲＡＭ、ＷＲＡＭ）３３２と、ダイレクトメモリアクセスモジュール（ｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ、ＤＭＡ）３３３とを含む。ＮＲＡＭ３３１は、入力ニューロン、出力ニューロンと計算後の中間結果を記憶するために用いられ、ＷＲＡＭ３３２は、深層学習ネットワークの畳み込みカーネル、即ち、重み値を記憶するために用いられ、ＤＭＡ３３３は、バス３４を介してＤＲＡＭ２０４に接続され、シングルコア計算装置３０１とＤＲＡＭ２０４との間のデータ転送を担う。

【0029】

図４は、計算装置２０１がマルチコアである場合の内部構造概略図を示す。マルチコア計算装置４１は、階層化構造設計を採用し、コア計算装置４１は、一つのシステムオンチップとして、少なくとも一つのクラスタ（ｃｌｕｓｔｅｒ）を含み、各クラスタはさらに、複数のプロセッサコアを含み、換言すれば、マルチコア計算装置４１は、システムオンチップ－クラスタ－プロセッサコアの階層で構成される。

【0030】

システムオンチップの階層から見れば、図４に示すように、マルチコア計算装置４１は、外部記憶コントローラ４０１、外付け通信モジュール４０２、オンチップインターコネクトモジュール４０３、同期モジュール４０４及び複数のクラスタ４０５を含む。

【0031】

外部記憶コントローラ４０１は、複数であってもよく、図面において２つが例示的に示されており、それは、プロセッサコアから発信されるアクセス要求に応答し、外部記憶機器、例えば図２におけるＤＲＡＭ２０４にアクセスすることによって、オフチップからデータを読み取るか又はデータを書き込むために用いられる。外付け通信モジュール４０２は、インターフェース装置２０２によって処理装置２０３からの制御信号を受信し、計算装置２０１を起動してタスクを実行するために用いられる。オンチップインターコネクトモジュール４０３は、外部記憶コントローラ４０１、外付け通信モジュール４０２及び複数のクラスタ４０５を接続し、各モジュールの間でデータと制御信号を伝送するために用いられる。同期モジュール４０４は、グローバル同期バリアコントローラ（ｇｌｏｂａｌｂａｒｒｉｅｒｃｏｎｔｒｏｌｌｅｒ、ＧＢＣ）であり、各クラスタの作動進度を協調し、情報の同期を確保するために用いられる。複数のクラスタ４０５は、マルチコア計算装置４１の計算コアであり、図面において４つが例示的に示されており、ハードウェアの発展に伴い、本開示のマルチコア計算装置４１は、８個、１６個、６４個、ひいてはより多くのクラスタ４０５をさらに含んでもよい。クラスタ４０５は、深層学習アルゴリズムを効率的に実行するために用いられる。

【0032】

クラスタの階層から見れば、図４に示すように、各クラスタ４０５は、複数のプロセッサコア（ＩＰＵｃｏｒｅ）４０６及び一つの記憶コア（ＭＥＭｃｏｒｅ）４０７を含む。

【0033】

プロセッサコア４０６は、図面において４つが例示的に示されており、本開示は、プロセッサコア４０６の数を制限しない。その内部アーキテクチャは、図５に示すとおりである。各プロセッサコア４０６は、図３のシングルコア計算装置３０１に類似しており、同様に、制御モジュール５１、演算モジュール５２及び記憶モジュール５３という三つのモジュールを含む。制御モジュール５１、演算モジュール５２及び記憶モジュール５３の効用及び構造は、制御モジュール３１、演算モジュール３２及び記憶モジュール３３とほぼ同じであり、これ以上説明しない。特に説明すべきこととして、記憶モジュール５３は、入力／出力ダイレクトメモリアクセスモジュール（ｉｎｐｕｔ／ｏｕｔｐｕｔｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ、ＩＯＤＭＡ）５３３と、転送ダイレクトメモリアクセスモジュール（ｍｏｖｅｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ、ＭＶＤＭＡ）５３４とを含む。ＩＯＤＭＡ５３３は、ブロードキャストバス４０９によってＮＲＡＭ５３１／ＷＲＡＭ５３２とＤＲＡＭ２０４とのメモリアクセスを制御し、ＭＶＤＭＡ５３４は、ＮＲＡＭ５３１／ＷＲＡＭ５３２と記憶ユニット（ＳＲＡＭ）４０８とのメモリアクセスを制御するために用いられる。

【0034】

図４に戻り、記憶コア４０７は、主に、記憶と通信、即ち、プロセッサコア４０６間の共有データ又は中間結果の記憶、及びクラスタ４０５とＤＲＡＭ２０４との間の通信、クラスタ４０５間の相互通信、プロセッサコア４０６間の相互通信の実行などに用いられる。他の実施例では、記憶コア４０７は、スカラー演算の能力を有し、スカラー演算を実行するために用いられる。

【0035】

記憶コア４０７は、ＳＲＡＭ４０８と、ブロードキャストバス４０９、クラスタダイレクトメモリアクセスモジュール（ｃｌｕｓｔｅｒｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ、ＣＤＭＡ）４１０と、グローバルダイレクトメモリアクセスモジュール（ｇｌｏｂａｌｄｉｒｅｃｔｍｅｍｏｒｙａｃｃｅｓｓ、ＧＤＭＡ）４１１とを含む。ＳＲＡＭ４０８は、高性能データ中継局の役割を果たし、同一のクラスタ４０５内に異なるプロセッサコア４０６の間で多重化されるデータがプロセッサコア４０６によってそれぞれＤＲＡＭ２０４から得られる必要がなく、ＳＲＡＭ４０８によってプロセッサコア４０６間で中継され、記憶コア４０７は、多重化されるデータをＳＲＡＭ４０８から複数のプロセッサコア４０６に迅速に配信すればよく、それによりコア間の通信効率を向上させ、オンチップオフチップの入力／出力アクセスを大いに減少させる。

【0036】

ブロードキャストバス４０９、ＣＤＭＡ４１０及びＧＤＭＡ４１１はそれぞれプロセッサコア４０６間の通信、クラスタ４０５間の通信及びクラスタ４０５とＤＲＡＭ２０４とのデータ伝送を実行するために用いられる。以下ではそれぞれ説明する。

【0037】

ブロードキャストバス４０９は、クラスタ４０５内の各プロセッサコア４０６間の高速通信を完了するために用いられ、この実施例のブロードキャストバス４０９によってサポートされるコア間通信方式は、ユニキャスト、マルチキャストとブロードキャストを含む。ユニキャストは、ポイントツーポイント（例えば、単一のプロセッサコアから単一のプロセッサコアへ）のデータ伝送を指し、マルチキャストは、データをＳＲＡＭ４０８から特定のいくつかのプロセッサコア４０６に伝送する通信方式であるが、ブロードキャストは、データをＳＲＡＭ４０８から全てのプロセッサコア４０６に伝送する通信方式であり、マルチキャストの一つの特例に属する。

【0038】

ＣＤＭＡ４１０は、同一の計算装置２０１内の異なるクラスタ４０５間のＳＲＡＭ４０８のメモリアクセスを制御するために用いられる。

【0039】

ＧＤＭＡ４１１は、外部記憶コントローラ４０１と協同し、クラスタ４０５のＳＲＡＭ４０８からＤＲＡＭ２０４へのメモリアクセスを制御し、又はデータをＤＲＡＭ２０４からＳＲＡＭ４０８に読み取るために用いられる。前述から分かるように、ＤＲＡＭ２０４とＮＲＡＭ４３１又はＷＲＡＭ４３２との間の通信は、２つのルートを経由して実現されてもよい。一番目のルートは、ＩＯＤＡＭ４３３によってＤＲＡＭ２０４とＮＲＡＭ４３１又はＷＲＡＭ４３２を直接に関連付けることであり、二番目のルートは、まずＧＤＭＡ４１１を経由してデータをＤＲＡＭ２０４とＳＲＡＭ４０８との間で伝送させ、さらにＭＶＤＭＡ５３４によってデータをＳＲＡＭ４０８とＮＲＡＭ４３１又はＷＲＡＭ４３２との間で伝送させることである。一見すると、二番目のルートは、より多くの素子が関与することを必要とし、データストリームが比較的に長いが、実際に一部の実施例では、二番目のルートの帯域幅が一番目のルートよりもはるかに大きいため、ＤＲＡＭ２０４とＮＲＡＭ４３１又はＷＲＡＭ４３２との間の通信は、二番目のルートによればより効率的である。本開示の実施例は、自体のハードウェア条件に基づいてデータ伝送ルートを選択してもよい。

【0040】

他の実施例では、ＧＤＭＡ４１１の機能とＩＯＤＭＡ５３３の機能は、同一の部品に整合されてもよい。本開示では、記述の便宜上、ＧＤＭＡ４１１とＩＯＤＭＡ５３３を異なる部品とみなし、当業者にとって、実現される機能及び達成する技術効果が本開示と類似すれば、本開示の保護範囲に属する。さらに、ＧＤＭＡ４１１の機能、ＩＯＤＭＡ５３３の機能、ＣＤＭＡ４１０の機能、ＭＶＤＭＡ５３４の機能は、同一の部品によって実現されてもよい。

【0041】

ニューラルネットワークモデルは、一般的には、入力層、畳み込み層、活性化関数、プーリング層、全結合層などを含み、少なければ数層を有し、多い場合には百層を有し、層ごとに一つの演算子を実行し、例えば、畳み込み層は、畳み込み演算子を実行し、何層あれば何個の演算子を実行する必要がある。

【0042】

ニューラルネットワークモデルの訓練は、ニューラルネットワークモデルによって計算される結果が、実際の結果に可能な限り近くなるように、入力訓練サンプルによって各層のパラメータを調整することである。ニューラルネットワークモデルの訓練は、フォーワードプロパゲーションとバックワードプロパゲーションとを含み、フォーワードプロパゲーションは、従来のモデルに基づき、入力訓練サンプルをニューラルネットワークモデルの各層により計算し、入力される特徴マップを抽象特徴として逐次的に抽出することであり、バックワードプロパゲーションは、フォーワードプロパゲーション結果と実際の値に基づいて計算される損失関数に基づき、勾配降下法を採用して、チェーン法則によって各パラメータに対する損失関数の偏微分関数を計算し、パラメータを更新することである。さらに、更新されたパラメータを利用して訓練を行い、このように複数回繰り返し、最終的にフォーワードプロパゲーションの計算結果を期待通りにする。訓練されたニューラルネットワークモデルを使用して実際の環境の入力に対してフォーワード演算を行い、設定タスクを完了することは、ニューラルネットワークモデルの推理と呼ばれる。

【0043】

本開示の実施例は、前述したハードウェア環境に基づき、ニューラルネットワークモデルを実行するためのデータ処理方案を提供し、より具体的には、ニューラルネットワークモデルにおける畳み込み演算を最適化する方案を提供する。

【0044】

図６は、本開示の実施例を応用できる例示的な畳み込み演算の例を示す。図示されるように、ニューラルネットワークモデルにおける畳み込み層は、入力特徴マップに対してフィルタを応用して畳み込み処理を行うことによって、特徴抽出を行うことができる。

【0045】

図面においてサイズが６×６×３である入力特徴マップが例示的に示されており、それは、３つのサイズ６×６の特徴マップ（即ち、６×６×３の三次元行列）を表すことができ、それぞれ三つの異なる特徴を表す。この例では、特徴マップの幅Ｗは６であり、高さＨも６である。入力特徴マップの数は、入力チャンネル数Ｃｉと呼ばれてもよい。例えば、図面における例では、３つの特徴マップが入力されており、３つの特徴チャンネルとも呼ばれる。

【0046】

図面においてサイズが２×３×３×３であるフィルタがさらに例示的に示されており、それは、２つのサイズ３×３×３の畳み込みカーネル（即ち、２つの３×３×３の三次元行列）を表すことができ、各畳み込みカーネルはまた、３つの異なるサイズ３×３の畳み込みカーネルを有し、入力される３つの異なる特徴マップに対応する。立体畳み込みカーネルの数は出力チャンネル数Ｃｏと呼ばれてもよく、この例では２である。各立体畳み込みカーネルにおいて、二次元畳み込みカーネルの数は、入力チャンネル数Ｃｉと呼ばれてもよく、それは、入力特徴マップのチャンネル数と一致する。各二次元畳み込みカーネルは、該当する幅Ｋｗと高さＫｈを有し、この例では、ＫｗとＫｈはいずれも３である。

【0047】

入力特徴マップとフィルタの畳み込み結果は、２つのサイズ４×４の特徴マップを出力する。ここで、入力特徴マップと上方の立体畳み込みカーネルの畳み込み結果により上方の１つの４×４の出力特徴マップを得て、入力特徴マップと下方の立体畳み込みカーネルの畳み込み結果により下方の１つの４×４の出力特徴マップを得る。出力特徴マップにおける各位置での値は、各入力特徴マップの対応するブロックと対応する畳み込みカーネルに対して二次元畳み込み演算を行った後に加算を行うことで得られる。例えば、図面において、上方の出力特徴マップにおける（０，０）位置の値について、入力特徴マップにおける黒色立方体で囲まれたブロックと上方の立体畳み込みカーネルに対して二次元畳み込み演算を行うことで３つの値を得て、さらに加算を行うことで最終値を得ることを示している。他の位置の出力を得るために、入力特徴マップ上で畳み込みカーネルの位置を移動してもよい。図面における例では、畳み込みステップ長（Ｓｘ，Ｓｙ）は（１，１）であり、横方向（幅方向）を右に、又は縦方向（高さ方向）を下に１マス移動した後に畳み込み演算を行うと、それぞれ上方の出力特徴マップにおける（０，１）又は（１，０）位置の値を得ることができる。

【0048】

以上の記述から分かるように、ニューラルネットワークの一つの畳み込み層において、計Ｈ×Ｗ×Ｃｉ個の情報を含む一組の入力特徴マップがあり、ここで、ＨとＷはそれぞれ入力特徴マップの高さと幅であり、Ｃｉは、入力特徴マップの数であり、入力チャンネル数とも呼ばれる。畳み込み層は、Ｃｉ×Ｃｏ個のサイズＫｈ×Ｋｗの畳み込みカーネルを有し、ここで、Ｃｉは、入力チャンネル数であり、Ｃｏは、出力特徴マップの数（又は出力チャンネル数）であり、ＫｈとＫｗはそれぞれ畳み込みカーネルの高さと幅である。出力特徴マップは、Ｈｏ×Ｗｏ×Ｃｏ個の情報を含み、ここで、ＨｏとＷｏはそれぞれ出力特徴マップの高さと幅であり、Ｃｏは、出力チャンネル数である。なお、畳み込み演算において、畳み込みステップ長（Ｓｘ，Ｓｙ）にも関わり、畳み込みステップ長の大きさは、出力特徴マップのサイズに影響を及ぼす。

【0049】

本開示の実施例では、関わる多次元データの次元は、（Ｎ，Ｈ，Ｗ，Ｃ）又は（Ｃｏ，Ｈ，Ｗ，Ｃｉ）で表され、それは、メモリにおけるデータの記憶順番を代表する。理解できるように、多次元データが複数の次元を有するが、メモリのレイアウトが常に一次元のものであるため、多次元データとメモリにおける記憶順番との間に対応関係が存在する。多次元データは、一般的には、連続する記憶スペースに割り当てられ、即ち、多次元データに対して一次元展開を行い、順番に応じてメモリに記憶することができる。例えば、本開示の実施例では、低次元（ここで、Ｃｉは、最低次元である）が優先的であるという方式で、順次記憶を行う。隣接する次元は、多次元データの次元情報表現において互いに隣りあう次元を指し、例えば、ＷとＣｉは隣接し、隣接する次元は、連続する次元と呼ばれてもよい。

【0050】

ニューラルネットワークモデルの計算を速くするために、一般的には複数の演算ユニットを採用して並行演算を行う。例えば、図３における演算モジュール３２又は図５における演算モジュール５２は、複数の畳み込み専用計算ユニット（又は畳み込みユニットと呼ばれる）を含んでもよく、各畳み込みユニットで例えば完全な（Ｈ，Ｗ，Ｃｉ）次元の計算を行うことができる。換言すれば、Ｃｏ個の（Ｈ，Ｗ，Ｃｉ）次元の計算をＣｏ個の畳み込みユニットに分布して並行計算を行うことによって、計算速度を向上させることができる。一般的には、畳み込みユニットの数は、決まったものであり、Ｃｏ次元のサイズが比較的に小さいと、アイドル畳み込みユニットが存在し、計算リソースを十分に利用できない。いくつかの場合には、統一的にスケジューリングを行うことを容易にするために、Ｃｏ次元のサイズを畳み込みユニットの数にアラインすることを要求する可能性がある。しかしながら、Ｃｏ次元が比較的に小さい時、このようなアライン制限は、無効計算を導入し、大量のリソース浪費を引き起こす。

【0051】

他方では、メモリアクセス速度を向上させ、メモリアクセス帯域幅を十分に利用するために、人工知能チップ命令セットは、一般的には、ベクトル化アラインを行う必要がある。人工知能チップの設計は、一般的には、Ｃｉ次元を最低次元とし、即ち、上記ＮＨＷＣ放置順番に従う。そのため、命令のアライン要求は、Ｃｉ次元のサイズが、指定数値、例えば、命令アライン値Ａｃｉにアラインされることを必要とし、それにより、この命令アライン値Ａｃｉを単位として数のアクセスを行う。しかしながら、Ｃｉ次元が比較的に小さい時、このようなアライン制限は、大量の冗長計算を引き起こし、リソース浪費を引き起こす。

【0052】

これに鑑み、本開示の実施例は、前述したハードウェア環境に基づき、ニューラルネットワークモデルを実行するためのデータ処理方案を提供する。第一の態様では、本開示の実施例は、第一の次元折り畳み方案を提供し、それは、畳み込み層におけるＣｏ次元に対して最適化を行い、上記ハードウェアアライン制限を満たすことができるとともに、リソース浪費を低減させる。第二の態様では、本開示の実施例は、第二の次元折り畳み方案を提供し、それは、畳み込み層におけるＣｉ次元に対して最適化を行い、上記命令アライン制限を満たすことができるとともに、リソース浪費を低減させる。上記の二つの態様は単独で実施されてもよく、組み合わせられて実施されてもよい。組み合わせられて実施される場合、上記二つの態様は、互いに補完することができ、それにより計算性能の最適化を最大限実現することができる。以下では、これらの二つの態様をそれぞれ説明する。

【0053】

図７は、一つの具体的な例により本開示の実施例の第一の次元折り畳み方案の例示的な原理図を示す。畳み込み演算を実行するための畳み込みユニットの数がＡｃｏであるとする。異なるハードウェア設計によれば、Ａｃｏは、異なる数値、例えば、３２、６４、１２８などであってもよい。以下の例では、Ａｃｏ＝６４を例として説明する。ハードウェアのアライン要求によれば、フィルタのＣｏ次元をＡｃｏにアラインし、即ち６４にアラインする必要がある。

【0054】

図面において、左側に畳み込み層の元のフィルタが示されているが、それは、例えば４×３×３×４で表され、即ち、その出力チャンネル数Ｃｏは４であり、入力チャンネル数Ｃｉは４であり、各畳み込みカーネルサイズは３×３である。なお、元のフィルタの畳み込みステップ長は、（Ｓｘ，Ｓｙ）＝（１，１）である。図面から分かるように、元のフィルタのＣｏ次元は、ハードウェアのアライン要求（６４）よりもはるかに小さい。通常の処理方式に応じて、６４にアラインするためにＣｏ次元をゼロパディングする。４から６４にアラインするために、非常に多い冗長計算を追加する必要があり、リソースの浪費を引き起こす。

【0055】

図面において、右側に本開示の実施例による折り畳み後の第一の折り畳みフィルタが示されており、それは、例えば６４×６×６×４で表され、即ち、その出力チャンネル数Ｃｏ’は６４であり、入力チャンネル数は元のフィルタと同じであり、依然として４であり、各畳み込みカーネルサイズは６×６である。なお、第一の折り畳みフィルタの畳み込みステップ長は、（Ｓｘ’，Ｓｙ’）＝（４，４）に変わる。これから分かるように、第一の折り畳みフィルタの出力チャンネル数は、すでにハードウェアのアライン要求（６４）にアラインしているため、この時、畳み込みユニットを十分に利用して演算処理を行うことができる。

【0056】

上記第一の次元折り畳み処理において、第一の折り畳みフィルタは、元のフィルタに対して畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成したものである。上記第一の次元折り畳み処理は、以下の考慮に基づくものである。元の計算方式に従うと、単回の計算がいくつかの畳み込みユニットを浪費するため、次回の計算、次々回の計算などを単回の計算に移してもよく、それにより畳み込みユニットを十分に利用することができる。他の点から見れば、本開示の実施例の第一の次元折り畳み方案は、複数回の畳み込みステップ長シフトに対応する計算（又は、複数の時間上の計算）を一回の畳み込みステップ長（又は一つの時間）に折り畳むことに相当する。

【0057】

二次元畳み込みにおいて、畳み込みステップ長は、畳み込みカーネル幅方向での横方向畳み込みステップ長Ｓｘと、畳み込みカーネル高さ方向での縦方向畳み込みステップ長Ｓｙとを含む。いずれか一つの方向において畳み込みステップ長を一回シフトすることで、一回の計算を得ることができ、この一回の計算は、一つのフィルタに対応する。このフィルタは、元のフィルタに対して畳み込みステップ長を一回シフトすることで得られるものであり、その後に他の類似して生成されるフィルタと合成されるために、その畳み込みカーネルの幅と高さは、畳み込みステップ長に基づいて相応に拡張される必要があり、ここで拡張フィルタと呼ばれる。

【0058】

元のフィルタに対して畳み込みカーネル幅方向において横方向畳み込みステップ長をNw1-1回シフトし、畳み込みカーネル高さ方向において縦方向畳み込みステップ長をNh1-1回シフトするとすると、N_total1個の拡張フィルタを得ることができ、ここで、N_total1=Nw1×Nh1であり、Nw1とNh1は、自然数である。これらN_total1個の拡張フィルタは、出力チャンネルＣｏ次元で一つの折り畳みフィルタに合成されることができ、ここで第一の折り畳みフィルタと呼ばれる。

【0059】

依然として図７における例を例にし、元のフィルタのＣｏは４であり、ハードウェアアライン要求に基づいて、６４にアラインされる必要があり、そのため、一つの第一の折り畳みフィルタを合成するために６４÷４＝１６個の拡張フィルタを必要とする。

【0060】

図８は、本開示の実施例によるより詳細な第一の次元折り畳みの概略図を示す。図面において前述した例に必要な１６個の拡張フィルタが示されている。図面における濃色部分は、元のフィルタの畳み込みカーネルを示している。図面から分かるように、これら１６個の拡張フィルタは、幅方向においてＳｘを３回シフトし、高さ方向においてＳｙを３回シフトすることで得られたものである。即ち、幅方向において４倍となり、高さ方向においても４倍となり、これにより、計１６個の拡張フィルタを得る。

【0061】

これら１６個の拡張フィルタを出力チャンネルＣｏ次元において一つの第一の折り畳みフィルタに合成するために、それらの形状を調整する必要がある。図示されるように、元のフィルタが占有する濃色部分以外の領域に対してゼロパディングを行ってもよく、それにより１６個の拡張フィルタの幅と高さを一致させる。各拡張フィルタ（６×６の畳み込みカーネル）による畳み込み計算の値は、元のフィルタ（３×３の畳み込みカーネル）による畳み込み計算の値と同じである。

【0062】

次に、上記１６個の（４，６，６，４）の拡張フィルタを出力チャンネルＣｏ次元において一つの（１６＊４，６，６，４）の第一の折り畳みフィルタに折り畳むことができる。この時、第一の折り畳みフィルタの出力チャンネルＣｏ’＝１６＊４＝６４であり、即ち、畳み込みユニットの数に等しく、それによりハードウェアアライン要求に合致し、畳み込みユニットを十分に利用するという目的を実現できる。

【0063】

図８の折り畳みプロセスから分かるように、第一の折り畳みフィルタの出力チャンネル数が、元のフィルタの出力チャンネル数に対して数倍増加するため、本開示の実施例の折り畳み方案は特に、元のフィルタの出力チャンネル数Ｃｏが比較的に小さい場合に適し、例えば、Ｃｏは、第一の閾値Ａ１を超えず、第一の閾値Ａ１は、第二の閾値Ａｃｏ（即ち、ハードウェアアライン要求）よりも小さい。いくつかの実施例では、第一の閾値Ａ１≦Ａｃｏ／２である。実践結果によれば、Ｃｏが小さいほど、従来のアルゴリズムに比べて、潜在力が大きくなることが明らかになる。

【0064】

図８の折り畳みプロセスからさらに分かるように、元のフィルタの各パラメータ及びハードウェアアライン要求に基づき、第一の折り畳みフィルタの各パラメータを決定することができる。

【0065】

まず、元のフィルタの出力チャンネル数Ｃｏとハードウェアアライン要求Ａｃｏに基づき、第一の総折り畳み倍数N_total1を決定することができる。

【0066】

いくつかの実施例では、以下に応じて総折り畳み倍数Ｎを決定してもよく、
N_total1=Aco/Coa （１－１）
ここで、Coaは、Ｃｏが最も近いAco/2ⁿにアラインされる値であり、ｎは、自然数である。

【0067】

前述したように、本開示の実施例は、数倍の折り畳みにより、Ｃｏを指定数値Acoにアラインする。AcoがＣｏの２^ｎ倍である場合、両者を直接に除算することで、折り畳みの総倍数を得ることができる。例えば、前述した例において、Ｃｏ＝４であるため、N_total1＝６４／４＝１６倍である。AcoがＣｏの２^ｎ倍ではない場合、まず、Ｃｏを最も近いAco/2ⁿの値にアラインする必要がある。例えば、Acoが６４であれば、Aco/2ⁿは、３２、１６、８、４と２を含み、Ｃｏは、これらの数値のうちの最も近い値にアラインされる必要がある。例えば、Ｃｏ＝３であれば、４にアラインする必要があり、Ｃｏ＝５であれば、８にアラインする必要があるなど。アラインした後に、Acoを除去することで、第一の総折り畳み倍数N_total1を得ることができる。

【0068】

次に、第一の総折り畳み倍数N_total1を決定した後に、それを畳み込みカーネル幅方向での第一の幅次元折り畳み倍数Nw1と畳み込みカーネル高さ方向での第一の高さ次元折り畳み倍数Nh1に分割することができる。異なる優位性を実現するために、様々な異なるルールに応じて倍数分割を行ってもよい。

【0069】

一つの実施例では、折り畳み倍数を畳み込みカーネル幅方向に優先的に分割してもよい。その後に説明されるように、第一の次元折り畳みを行った後のフィルタを利用して畳み込み演算を行うことで得られるものは、中間結果であり、最終結果を得るために、それに対して次元逆折り畳み又は次元再配列を行う必要もある。第一の次元折り畳みが畳み込みカーネル幅方向に発生した時、次元再配列は非常に簡単であり、中間結果の次元表現の調整をのみ必要とし、又は次元再構築と呼び、いかなる他の処理を必要としない。そのため、折り畳み倍数を畳み込みカーネル幅方向に優先的に分割することで、後続の処理を簡略化することができる。例えば、上記例において、第一の総折り畳み倍数１６は、幅１６倍と高さ１倍に分割してもよく、それにより後続の結果処理を簡略化することができる。この時、第一の折り畳みフィルタの畳み込みカーネルサイズは、３×１８である。別の実現では、上記例における第一の総折り畳み倍数１６を幅８倍と高さ２倍に分割し、この時、第一の折り畳みフィルタの畳み込みカーネルサイズは、４×１０である。これから分かるように、異なる分割方式は、第一の折り畳みフィルタの畳み込みカーネルサイズに影響を及ぼす。

【0070】

別の実施例では、折り畳み倍数を畳み込みステップ長がより小さい方向に優先的に分割してもよい。以上の折り畳みプロセスから分かるように、第一の折り畳みフィルタの畳み込みカーネルサイズは、元のフィルタの畳み込みステップ長に関わり、畳み込みステップ長が大きいほど、第一の折り畳みフィルタの畳み込みカーネルの膨張が大きくなる。そのため、折り畳み倍数を畳み込みステップ長がより小さい方向に優先的に分割することで、畳み込みカーネルの膨張の減少に有利であり、それにより演算量を低減させる。例を挙げると、元のフィルタの畳み込みカーネルが３×３であり、（Ｓｘ，Ｓｙ）＝（１，３）であり、第一の総折り畳み倍数１６が幅１６倍と高さ１倍に分割され得るとすると、第一の折り畳みフィルタの畳み込みカーネルサイズは、３×１８である。第一の総折り畳み倍数１６が幅８倍と高さ２倍に分割されると、この時、第一の折り畳みフィルタの畳み込みカーネルサイズは、６×１０である。第一の総折り畳み倍数１６が幅４倍と高さ４倍に分割されると、第一の折り畳みフィルタの畳み込みカーネルサイズは、１２×６である。

【0071】

また一つの実施例では、折り畳み倍数を畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割してもよい。例えば、以上の、図７と図８を参照した例において、第一の総折り畳み倍数１６を幅４倍と高さ４倍に平均に分割する。

【0072】

さらなる一つの実施例では、第一の折り畳みフィルタの畳み込みカーネルサイズが最小になるように折り畳み倍数を分割してもよく、それにより追加した冗長計算を最大限減少することができる。

【0073】

上記様々なルールに基づき、いくつかの実施例では、以下の方式に応じて第一の総折り畳み倍数N_total1を分割してもよい。

【0074】

【0075】

畳み込みカーネル幅方向での第一の幅次元折り畳み倍数Nw1と高さ方向での第一の高さ次元折り畳み倍数Nh1を決定した後に、Nw1、Nh1及び元のフィルタの畳み込みステップ長に基づき、第一の折り畳みフィルタの畳み込みステップ長を決定し、そしてNw1、Nh1及び元のフィルタの畳み込みカーネルと畳み込みステップ長に基づき、第一の折り畳みフィルタの畳み込みカーネルサイズを決定することができる。

【0076】

いくつかの実施例では、以下に応じて折り畳みフィルタの畳み込みステップ長を決定してもよく、

【0077】

いくつかの実施例では、以下に応じて第一の折り畳みフィルタの畳み込みカーネルサイズを決定してもよく、

【0078】

これにより、以上では、どのようにハードウェアアライン要求に応じて第一の折り畳みフィルタの各パラメータを設計するかを説明した。

【0079】

図９は、本開示の実施例による第一の次元折り畳み前後の計算プロセスの例示的な比較図を示す。

【0080】

以上の第一の次元折り畳みプロセスから分かるように、第一の折り畳みフィルタの入力チャンネル次元が元のフィルタの入力チャンネル次元と一致するため、入力特徴マップに対して何ら処理を行う必要もなく、第一の折り畳みフィルタと直接に畳み込み演算を行うことができる。

【0081】

図示されるように、入力特徴マップが（１，１６，１６，４）であり、即ち、４個の１６×１６の特徴マップであるとする。図面において、上方に、元のフィルタ（４，３，３，４）、畳み込みステップ長（Ｓｘ，Ｓｙ）＝（１，１）を採用して畳み込み演算を行った後に得られる結果が示されており、出力特徴マップは、（１，１４，１４，４）であり、即ち、４個の１４×１４の特徴マップであり、図面において濃色ブロックで表される領域である。当業者であれば理解できるように、図示の明確化のために、Ｃｉ次元でのデータは示されておらず、数値によってのみ示されている。

【0082】

これに対し、図面において、下方に、第一の折り畳みフィルタ（６４，６，６，４）、畳み込みステップ長（Ｓｘ’，Ｓｙ’）＝（４，４）を採用して畳み込み演算を行った後に得られた結果が示されており、出力特徴マップは、（１，４，４，６４）であり、即ち、６４個の４×４の特徴マップである。

【0083】

図面における比較から分かるように、各拡張フィルタ（６×６の畳み込みカーネル）による畳み込み計算の値と元のフィルタ（３×３の畳み込みカーネル）による畳み込み計算の値が同じであるが、複数回の畳み込みステップ長演算を一回にするため、データ値の位置は変わり、あるいは、データ値は次元において再配列される。第一の折り畳みフィルタが入力特徴マップに対して畳み込み演算を実行することで得られる中間結果を再び次元再配列し、即ち次元逆折り畳みすることで、最終的な出力特徴マップを得てもよく、それにより元のフィルタの演算結果と完全に一致する。中間結果の次元は例えば（Ｎ，ｃｅｉｌ（Ｈｏ／Ｎｈ１），ｃｅｉｌ（Ｗｏ／Ｎｗ１），Ｎｈ１＊Ｎｗ１＊Ｃｏａ）で表されてもよく、ここで、ｃｅｉｌ（）は、切り上げ関数を表し、Ｃｏａは、Ｃｏが最も近いＡｃｏ／２^ｎにアラインされる値である。例えば、図面における例について、Ｃｏａ＝Ｃｏ＝４であり、Ｎｈ１＝Ｎｗ１＝４であり、ｃｅｉｌ（Ｈｏ／Ｎｈ１）＝ｃｅｉｌ（１４／４）＝４であり、ｃｅｉｌ（Ｗｏ／Ｎｗ１）＝ｃｅｉｌ（１４／４）＝４である。フィルタの第一の次元折り畳みにより畳み込みカーネルの膨張と畳み込みステップ長の増大を引き起こし、そして入力特徴マップのサイズによって決まるため、折り畳み後の畳み込み演算においていくつかの冗長計算が存在する可能性がある。中間結果を次元再配列した後に、これらの冗長計算は、実際に必要な結果の最外側、具体的には最右側と最下側に現れる。例えば、図面における例について、中間結果（１，４，４，６４）を次元再配列した後に、（１，１６，１６，４）を得ることができ、それは、元の結果（１，１４，１４，４）に比べていくつかの冗長領域、例えば図面における逆「Ｌ」字状の白いブロック領域で表される領域を多く有する。この時、これらの冗長領域を除去すればよい。

【0084】

以上の説明から分かるように、第一の次元折り畳みは、畳み込みカーネルの幅方向及び／又は高さ方向に分布してもよい。異なる方向での折り畳みが、異なる次元再配列結果を及ぼすため、異なる処理方式を必要とする。以下の説明において、簡潔化のために、表現の点では、上記の冗長領域を考慮していない。しかしながら、当業者であれば本明細書の説明に基づいて理解できるように、冗長領域が存在する場合についても、以下の説明を参照して次元再配列を行った後に冗長除去を行えばよい。

【0085】

一つの実施例では、第一の次元折り畳みの時に畳み込みカーネル幅Ｗ方向での折り畳みのみを行う場合、即ち、拡張フィルタが、元のフィルタが畳み込みカーネル幅Ｗ方向でシフトすることで得られる拡張フィルタのみを含む場合、中間結果に対して直接に次元再構築を行うことで、出力特徴マップを得ることができる。

【0086】

以上に言及した本開示の実施例では、関わる多次元データの次元は、（Ｃｏ，Ｈ，Ｗ，Ｃｉ）で表され、即ち、メモリにおけるデータの記憶順番は、Ｃｏ、Ｈ、Ｗ、Ｃｉであり、即ち、Ｃｉ次元を最低次元とする。当業者であればさらに理解できるように、多次元データにおける隣接する次元の分割と統合は、この多次元データの各データ要素のメモリにおける位置に影響を及ぼさない。

【0087】

本開示の実施例では、畳み込み演算の特性に基づき、ＷとＣｉ次元が、隣接する次元又は連続する次元であるため、Ｗ方向の折り畳みのみが行われていれば、この時、中間結果（Ｎ，Ｈｏ，Ｗｏ／Ｎｗ，Ｎｗ＊Ｃｏ）を直接に（Ｎ，Ｈｏ，Ｗｏ，Ｃｏ）とみなしてもよい。即ち、ＷとＣｉ次元を（Ｗｏ／Ｎｗ，Ｎｗ＊Ｃｏ）から（Ｗｏ，Ｃｏ）に再構築してもよい。このような再構築は、中間結果の各データ要素のメモリにおける記憶位置に影響を及ぼさない。

【0088】

別の実施例では、第一の次元折り畳みの時に畳み込みカーネル高さＨ方向での折り畳みのみを行う場合、即ち、拡張フィルタが、元のフィルタが畳み込みカーネル高さＨ方向でシフトすることで得られる拡張フィルタのみを含む場合、出力特徴マップを得るために、中間結果に対して次元転置を行う必要がある。次元転置は、多次元データの各データ要素のメモリにおける位置を変える。

【0089】

具体的には、中間結果（Ｎ，Ｈｏ／Ｎｈ，Ｗｏ，Ｎｈ＊Ｃｏ）のＣｏ次元での（Ｃｏ，（Ｎｈ－１）＊Ｃｏ］の特徴をＨ次元に転置することによって、（Ｎ，Ｈｏ，Ｗｏ，Ｃｏ）を得ることができる。

【0090】

図１０は、本開示の実施例による次元転置の例示的な概略図を示す。

【0091】

図１０に示すように、Ｎｈ１＝４であり、即ち、左側の中間結果は、Ｃｏ次元で、それぞれＣｏ０、Ｃｏ１、Ｃｏ２とＣｏ３である４倍のＨ方向における特徴を含むとする。この時、Ｃｏ次元でＣｏ０特徴を保持し、残りのＣｏ１、Ｃｏ２とＣｏ３特徴を次元転置によってＨ次元に移し、これは、右側の最終結果に示すとおりである。

【0092】

また一つの実施例では、第一の次元折り畳みの時に畳み込みカーネル幅Ｗ方向と高さＨ方向での折り畳みを同時に行う場合、即ち、拡張フィルタが、元のフィルタが畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタを含むだけでなく、元のフィルタが畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタも含む場合、前述した二つの実施例を組み合わせて中間結果を処理してもよい。

【0093】

一つの実現では、出力特徴マップを得るために、まず、中間結果に対して次元再構築を行い、さらに次元転置を行ってもよい。具体的には、まず、中間結果（Ｎ，Ｈｏ／Ｎｈ，Ｗｏ／Ｎｗ，Ｎｈ＊Ｎｗ＊Ｃｏ）を（Ｎ，Ｈｏ／Ｎｈ，Ｗｏ，Ｎｈ＊Ｃｏ）とみなし、即ち、Ｃｏ次元でのＷ方向から折り畳まれる特徴をＷ方向での特徴とみなしてもよい。次に、それに対して次元転置操作を行い、Ｃｏ次元での（Ｃｏ，（Ｎｈ－１）＊Ｃｏ］特徴を高さＨ次元に転置することによって、（Ｎ，Ｈｏ，Ｗｏ，Ｃｏ）を得る。

【0094】

別の実現では、出力特徴マップを得るために、まず、中間結果に対して次元転置を行い、さらに次元再構築を行ってもよい。

【0095】

具体的には、まず、中間結果（Ｎ，Ｈｏ／Ｎｈ，Ｗｏ／Ｎｗ，Ｎｈ＊Ｎｗ＊Ｃｏ）に対して次元転置操作を行ってもよい。例えば、依然として図１０を参照すると、まず、Ｃｏ次元でのＣｏ１、Ｃｏ２とＣｏ３を次元転置によってＨ次元に移すが、ここで、Ｃｏ０＝Ｃｏ１＝Ｃｏ２＝Ｃｏ３＝Ｎｗ＊Ｃｏである。次元転置後に、中間結果は、（Ｎ，Ｈｏ，Ｗｏ／Ｎｗ，Ｎｗ＊Ｃｏ）に変わる。そして、さらに各Ｃｏ０、Ｃｏ１、Ｃｏ２とＣｏ３をＮｗ個のＣｏとみなすことによって、（Ｎ，Ｈｏ，Ｗｏ，Ｃｏ）を得る。

【0096】

以上では、本開示の実施例による第一の次元折り畳みによってフィルタを調整する方案を説明した。いくつかの実施例では、この第一の折り畳みフィルタは、オフラインで生成されてもよい。例えば、ニューラルネットワークモデルを利用して推理を行うプロセスにおいて、推理プロセスを行うために、予め配置される、オフラインで生成される第一の折り畳みフィルタと入力特徴マップを利用して畳み込み演算を行ってもよい。別のいくつかの実施例では、この第一の折り畳みフィルタは、オンラインで生成されてもよい。例えば、ニューラルネットワークモデルに対して訓練を行うプロセスにおいて、訓練プロセスを行うために、オンラインで畳み込み層のフィルタに対して折り畳みを行い、そして訓練データと畳み込み演算を実行してもよい。

【0097】

どのプロセスにおいて本開示の実施例の第一の折り畳みフィルタを利用するかに関わらず、第一の次元折り畳みによってＣｉ次元アラインを実現することで、畳み込み演算の計算量を大幅に最適化することができる。以下では、畳み込み計算量の点について、本開示の実施例の第一の次元折り畳み方案と従来の畳み込み演算の性能を比較する。

【0098】

Ｐで畳み込み計算量を表し、Ａ_ｃｉでＣｉアライン後の値を表し、Ａ_ｃｏでＣｏアライン後の値を表すと、

である。

【0099】

ＮＨＷＣ次元放置順番を採用するハードウェアについて、Ｃｉ次元が最低次元であり、且つベクトル命令アラインの要求によれば、Ａ_ｃｉにアラインされることが多いため、Ａ_ｃｉは、ベクトル命令アラインの要求に対するものであり、人工知能計算加速ハードウェアは一般的には複数の並行した高性能の畳み込み計算ユニットを有するため、Ａ_ｃｏは、畳み込みカーネルＣｏ次元アラインの要求に対するものであり、その値は、高性能並行計算ユニットの数である。

【0100】

最適化前に、従来の畳み込み演算の計算量は、以下のとおりである。

【0101】

【0102】

本開示の実施例の第一の次元折り畳み方案を採用して最適化を行った後に、畳み込み演算の計算量は、以下のとおりである。

【0103】

第一の次元折り畳みを行った後の性能の最適化率は、以下のとおりである。

【0104】

【0105】

以上の図７－図８を参照して説明した例を例として、
最適化前に、P_before1＝１＊６４＊６４＊ｈｏ＊ｗｏ＊３＊３（Ｓｘ，Ｓｙ＝１，１）であり、
最適化後に、P_after1＝１＊６４＊６４＊（ｈｏ／４）＊（ｗｏ／４）＊６＊６（Ｓｘ，Ｓｙ＝４，４）
＝１＊６４＊６４＊ｈｏ＊ｗｏ＊３＊３＊（１／４）である。

【0106】

減少した畳み込み計算ユニットの畳み込み計算量は７５％である。

【0107】

以上の計算量の比較から分かるように、本開示の実施例による第一の折り畳みフィルタ方案は、畳み込みユニットの計算量を効果的に節約することができ、それにより畳み込み演算の計算性能を向上させる。

【0108】

上記第一の次元折り畳み方案は、フィルタの出力チャンネル次元を調整するために、例えば、フィルタの出力チャンネル次元が比較的に小さい場合に、単独で実施してもよい。しかしながら、第一の次元折り畳み方案は、フィルタの入力チャンネル次元を変えない。本開示の第二の次元折り畳み方案では、フィルタの入力チャンネル次元を調整することができる。第二の次元折り畳み方案は、単独で実施してもよく（例えば、フィルタの入力チャンネル次元が比較的に小さい場合）、第一の次元折り畳み方案の上で組み合わせて実施してもよい（例えば、フィルタの入力チャンネル次元と出力チャンネル次元がいずれも比較的に小さい場合）。以下では、本開示の実施例の第二の次元折り畳み方案を説明し、当業者であれば理解できるように、第二の次元折り畳み方案は、元のフィルタに基づいて実行されてもよく、元のフィルタに対して第一の次元折り畳みを行った後に得られる第一の折り畳みフィルタに基づいて実行されてもよい。そのため、文脈によれば、明細書に言及した折り畳み待ちフィルタは、元のフィルタであってもよく、第一の折り畳みフィルタであってもよい。

【0109】

図１１は、一つの具体的な例により本開示の実施例の第二の次元折り畳み方案の例示的な原理図を示す。命令アライン要求のアライン値がＡｃｉであるとする。異なる命令セット設計によれば、Ａｃｉは、異なる数値、例えば、３２、６４、１２８などであってもよい。以下の例では、Ａｃｉ＝６４を例として説明する。命令のアライン要求によれば、フィルタのＣｉ次元をＡｃｉにアラインし、即ち６４にアラインする必要がある。

【0110】

図面において、左側に畳み込み層の折り畳み待ちフィルタが示されているが、それは、例えば６４×４×４×４で表され、即ち、その出力チャンネル数Ｃｏは６４であり、入力チャンネル数Ｃｉは４であり、各畳み込みカーネルサイズは４×４である。図面から分かるように、折り畳み待ちフィルタのＣｉ次元は、命令のアライン要求（６４）よりもはるかに小さい。通常の処理方式に応じて、６４にアラインするためにＣｉ次元をゼロパディングする。４から６４にアラインするために、非常に多い冗長計算を追加する必要があり、リソースの浪費を引き起こす。

【0111】

図面において、右側に本開示の実施例による第二の次元折り畳みを実行した後の第二の折り畳みフィルタが示されており、それは、例えば６４×１×１×６４で表され、即ち、その入力チャンネル数Ｃｏ’は６４であり、出力チャンネル数は折り畳み待ちフィルタと同じであり、いずれも６４であり、各畳み込みカーネルサイズは１×１である。これから分かるように、畳み込みカーネル幅次元と高さ次元でのデータがすでに入力チャンネル次元に移しているため、第二の折り畳みフィルタの入力チャンネル数がすでに命令のアライン要求（６４）にアラインしており、この時、Ｃｉ次元アラインを行うために追加的なゼロ充填を必要としないため、この前のゼロパディングによる冗長計算を回避する。

【0112】

上記第二の次元折り畳み処理において、第二の折り畳みフィルタは、折り畳み待ちフィルタに対して第二の次元折り畳み処理を行うことで得られるものである。上記第二の次元折り畳み処理は、以下の考慮に基づくものである。元の計算方式に従うと、ゼロパディングによってＣｉアラインを実現することによって、冗長計算を生じ、計算リソースの浪費を引き起こす。他の次元のデータをＣｉ次元に移し、Ｃｉ次元を命令アライン値まで埋めれば、計算リソースの浪費を可能な限り回避し、計算効率を向上させることができる。

【0113】

図１２は、本開示の実施例によるより詳細な第二の次元折り畳みの概略図を示す。図面に図１１の例における折り畳み待ちフィルタ（６４，４，４，４）の第二の次元折り畳みプロセスが示されている。折り畳み待ちフィルタのＣｉが４であり、命令アライン要求によれば、６４にアラインされる必要があるため、N_total2 ＝６４÷４＝１６倍の折り畳みを必要とする。図面における例では、第二の総折り畳み倍数１６を畳み込みカーネル幅方向での第二の幅次元折り畳み倍数Nw2（図面において４倍折り畳みである）と畳み込みカーネル高さ方向での第二の高さ次元折り畳み倍数Nh2（図面において４倍折り畳みである）に割り当てる。

【0114】

図示されるように、好ましくは、まず、幅Ｗ次元の折り畳みを行ってもよい。図面において、１２０１は、単一層Ｗ次元データが四つの折り又は四つのセグメントに分けられてもよく、そして順番に応じて入力チャンネルＣｉ次元に配列されることを示す。折り畳み待ちフィルタ１２００がＷ次元で完全に折り畳まれた後に、１２１０に示す中間フィルタを得ることができ、その次元は、（６４，４，１，１６）で表されてもよい。

【0115】

次に、中間フィルタ１２１０の上で、高さＨ次元の折り畳みを行うことができる。図示されるように、Ｈ次元でも４倍折り畳みを行う。中間フィルタ１２１０のＨ次元データを四つの折り又は四つのセグメントに分け、そして順番に応じて入力チャンネルＣｉ次元に配列する。この折り畳みプロセスにおいて、Ｈ次元では、この四つのセグメントのうちの各セグメントはそれぞれ、この前に単一層Ｗ次元で折り畳みを行うことで得られたデータに対応する。Ｈ次元で完全に折り畳まれた後に、１２２０に示す第二の折り畳みフィルタを得ることができ、その次元は、（６４，１，１，６４）で表されてもよい。第二の折り畳みフィルタの入力チャンネルＣｉ次元は６４であり、命令のアライン要求を満たす。

【0116】

以上では、まず幅Ｗ次元折り畳みを行い、さらにＨ次元折り畳みを行う折り畳み方式を説明した。当業者であれば理解できるように、まずＨ次元の折り畳みを行い、そしてＷ次元の折り畳みを行ってもよい。Ｈ次元がＣｉ次元に隣接していないため、まずＷ次元の折り畳みを行うことに比べて、追加的な処理、例えばデータ転置操作を必要とする。

【0117】

以上の第二の次元折り畳みプロセスから分かるように、第二の折り畳みフィルタの入力チャンネルＣｉ次元が変わったため、それに応じて、入力特徴マップも同じタイプの第二の次元折り畳みを必要とする。入力特徴マップとフィルタに対して同様な倍率の折り畳みを行ったため、第二の次元折り畳みの入力特徴マップと第二の折り畳みフィルタに対して畳み込み演算を行った後の出力は、両者が折り畳まれる前の畳み込み演算出力と同じであり、出力結果に対して何らの処理を行う必要がない。

【0118】

さらに、図１２の第二の次元折り畳みプロセスから分かるように、第二の折り畳みフィルタの入力チャンネル数が、折り畳み待ちフィルタの入力チャンネル数に対して数倍増加するため、本開示の実施例の第二の次元折り畳み方案は特に、フィルタの入力チャンネル数Ｃｉが比較的に小さい場合に適し、例えば、Ｃｉは、第三の閾値Ａ２を超えず、第三の閾値Ａ２は、命令アライン値Ａｃｉよりも小さい。いくつかの実施例では、第三の閾値Ａ２≦Ａｃｉ／２である。実践結果によれば、Ｃｉが小さいほど、従来のアルゴリズムに比べて、潜在力が大きくなることが明らかになる。

【0119】

図１２の第二の次元折り畳みプロセスからさらに分かるように、折り畳み待ちフィルタの各パラメータ及び命令アライン要求に基づき、第二の折り畳みフィルタの各パラメータを決定することができる。

【0120】

まず、折り畳み待ちフィルタの入力チャンネル数Ｃｉと命令アライン値Ａｃｉに基づき、第二の総折り畳み倍数N_total2を決定してもよい。

【0121】

いくつかの実施例では、以下に応じて第二の総折り畳み倍数N_total2を決定してもよく、
N_total2=Aci/Cia （２－１）
ここで、Ciaは、Ｃｉが最も近いAci/2ⁿにアラインされる値であり、ｎは、自然数である。

【0122】

前述したように、本開示の実施例は、数倍の折り畳みにより、Ｃｉを指定アライン値Ａｃｉにアラインする。ＡｃｉがＣｉの２^ｎ倍である場合、両者を直接に除算することで、必要な第二の次元折り畳みの総倍数を得ることができる。例えば、前述した例において、Ｃｉ＝４であるため、Ｎ_{ｔｏｔａｌ２}＝６４／４＝１６倍である。ＡｃｉがＣｉの２^ｎ倍ではない場合、まず、Ｃｉを最も近いＡｃｉ／２^ｎの値にアラインする必要がある。例えば、Ａｃｉが６４であれば、Ａｃｉ／２^ｎは、３２、１６、８、４と２を含み、Ｃｉは、これらの数値のうちの最も近い値にアラインされる必要がある。例えば、Ｃｉ＝３であれば、４にアラインする必要があり、Ｃｉ＝５であれば、８にアラインする必要があるなど。アラインした後に、Ａｃｉを除去することで、第二の総折り畳み倍数Ｎ_{ｔｏｔａｌ２}を得ることができる。

【0123】

次に、第二の総折り畳み倍数N_total2を決定した後に、以上の考慮に応じて、それを畳み込みカーネル幅方向での第二の幅次元折り畳み倍数Nw2と畳み込みカーネル高さ方向での第二の高さ次元折り畳み倍数Nh2に分割することができる。異なる優位性を実現するために、様々な異なるルールに応じて倍数分割を行ってもよい。

【0124】

一つの実施例では、折り畳み倍数を畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割してもよい。例えば、以上の、図１１と図１２を参照した例において、第二の総折り畳み倍数１６を幅４倍と高さ４倍に平均に分割する。

【0125】

別の実施例では、折り畳み倍数を畳み込みカーネル幅Ｗ方向に優先的に分割してもよい。以上に言及したデータ放置順番ＮＨＷＣのように、ＷとＣｉ次元は連続するものであるため、Ｗ次元での折り畳みの実現は比較的に簡単であり、フィルタの次元表現の調整のみを必要とし、又は次元再構築と呼び、いかなる他の処理を必要としない。そのため、折り畳み倍数を畳み込みカーネル幅Ｗ方向に優先に分割することによって、処理を簡略化する。

【0126】

第二の総折り畳み倍数の分割は、さらに以下の二つの要因による影響を受ける。

【0127】

一方では、折り畳み待ちフィルタの畳み込みカーネルサイズによって決まり、畳み込みカーネルの各次元（ＫｗとＫｈ）の数値が、所望の倍率の折り畳みを実現するために不十分であると、他の措置を講じる必要がある。

【0128】

例えば、上記例において、幅Ｗ方向を優先的にするという原則に従うと、第二の総折り畳み倍数１６は、幅１６倍と高さ１倍に分割されてもよい。しかしながら、折り畳み待ちフィルタの畳み込みカーネル幅Ｋｗがただ４であり、四つの折りを最大限サポートするため、折り畳み倍数の割り当てを調整する必要がある。例えば、幅Ｗ次元に対する分割倍数を減少してもよく、例えば、幅４倍と高さ４倍に分割する。

【0129】

また例えば、畳み込みカーネル幅次元及び／又は畳み込みカーネル高さ次元で２^ｎ折り畳みを行うことができず、例えば、Ｋｗ又はＫｈが奇数であり、２で割り切れられない場合、二つの折りへの折り畳みを行うことができず、４で割り切れられない場合、四つの折りへの折り畳みを行うことができない。この時、畳み込みカーネルに対して折り畳みを行うために、折り畳み倍数に基づいて補完を行う必要がある。

【0130】

図１３は、本開示の実施例による畳み込みカーネルに対する折り畳み倍数補完の概略図を概略的に示す。図面における例では、折り畳み待ちフィルタの畳み込みカーネルサイズが３×３であるとするが、幅Ｗ次元と高さＨ次元についていずれも四つの折りへの折り畳みを必要とし、この時、ＷとＨ方向をいずれも４の倍数に補完する必要がある。

【0131】

図１３は、ＨとＷ方向の補完について分解して示す。折り畳み待ちの単一層畳み込みカーネル１３０１がＷ方向において３であり、四つの折りへの折り畳みを行うために、４に補完する必要があり、１３１１に示すように、ここで、白いブロックは、補完ブロックを代表する。同様に、Ｈ方向において、折り畳み待ちの単一層畳み込みカーネル１３０１がＨ方向において３であり、四つの折りへの折り畳みを行うために、４に補完する必要があり、１３１２に示すように、ここで、白いブロックは、補完ブロックを代表する。ＨとＷ方向に対して補完を同時に行う時、折り畳み待ち畳み込みカーネル１３００から最終的補完を行った後に、畳み込みカーネル１３１０を得ることができ、その畳み込みカーネルサイズは、４×４に変わり、幅と高さはいずれも四つの折りへの折り畳みを行うことができる。

【0132】

図１３から分かるように、畳み込みカーネルに対する補完操作により、無効数値が導入され、それによって無効な冗長計算を及ぼす。

【0133】

そのため、いくつかの実施例では、折り畳みを実現するために、折り畳み倍数アラインによる補完量が可能な限り小さくなるように第二の総折り畳み倍数を分割してもよい。例えば、折り畳み待ち畳み込みカーネルサイズが１×６であり、第二の総折り畳み倍数が１６であるとすると、Ｈ方向４倍とＷ方向４倍に分割すれば、折り畳み待ち畳み込みカーネルを４×８に補完する必要があり、層ごとに２６個のゼロパディング値が追加され、Ｈ方向２倍とＷ方向８倍に分割すれば、折り畳み待ち畳み込みカーネルを２×８に補完すればよく、層ごとに１０個のゼロパディング値が追加され、Ｈ方向１倍とＷ方向１６倍に分割すれば、折り畳み待ち畳み込みカーネルを１×１６に補完する必要があり、層ごとにも１０個のゼロパディング値が追加される。同じ補完量の場合には、好ましくは、折り畳み倍率をＷ方向に割り当ててもよく、例えば、Ｈ方向１倍とＷ方向１６倍への分割を選択する。

【0134】

他方では、本開示の実施例の第二の次元折り畳み方案の実際の有効倍数はさらに畳み込みステップ長に関わる。畳み込みステップ長が対応する折り畳み倍数で割り切れられない場合、畳み込みカーネルの折り畳み方式が変わらないが、入力特徴マップの折り畳みに重ねが存在すため、畳み込み演算において一定の冗長計算が存在する。

【0135】

図１４は、本開示の実施例による畳み込みステップ長による有効倍数への影響の概略図を概略的に示す。図面において、Ｈ方向を例として、入力特徴マップに重ね領域が含まれる折り畳み方式を示している。図示されるように、Ｈ方向の畳み込みステップ長Ｓｙ＝４である場合、α、βを連続する二つのデータとしてＨ方向の四つの折りへの折り畳みを行うと、重ね領域が存在しない。しかしながら、Ｈ方向の畳み込みステップ長Ｓｙ＝２である場合、γ、δを連続する二つのデータとしてＨ方向の四つの折りへの折り畳みを行うと、重ね領域が存在する。この重ね領域の大きさは、この方向の折り畳み倍数からこの方向の畳み込みステップ長を減算したものである。

【0136】

この時、ＨとＷ方向の折り畳み倍数を柔軟に配置することができる。例えば、折り畳み倍数をより高い次元に優先的に割り当て、低次元での冗長計算を可能な限り回避する。例えば、ＮＨＷＣデータ放置順番について、Ｈ次元がＷ次元よりも高く、Ｓｘ＝２であり、Ｓｙ＝２であり、N_total2＝１６であれば、Ｗ次元での二つの折りとＨ次元での八つの折りに割り当ててもよく、このように、重ね領域による冗長計算はいずれもＨ次元に分布する。この時、これらの冗長計算を実行する場合、Ｈ次元がより高いため、各回の演算の時に読み取られるべきデータもより多くなり、それにより、データアクセスＩＯ効率の向上に有利である。

【0137】

要するに、本開示の実施例では、冗長計算の発生を可能な限り回避し、計算効率の向上を最大化するために、以上に説明した様々なルールに基づき、Ｈ次元とＷ次元の折り畳み倍数を柔軟に配置してもよい。

【0138】

いくつかの実施例では、以下に応じて第二の総折り畳み倍数を分割してもよい。Ｗ方向の折り畳み倍数を優先的に決定し、例えば、平均化の方式に応じて第二の総折り畳み倍数N_total2を分割し、Ｗ方向の折り畳み倍数Ｎｗ２を決定してもよい。

【0139】

【0140】

次に、Ｗ方向でのサイズ及び畳み込みステップ長を該当して決定してもよい。

【0141】

必要に応じて、まず、折り畳み待ちフィルタの畳み込みカーネル幅ｋ_ｗ’をＷ方向の折り畳み倍数Ｎｗ２の倍数にアラインし、ｋ_ｗａと表記してもよい。そして、第二の次元折り畳みの後の畳み込みカーネルＷ次元のサイズｋ_ｗ’’を計算する。

【0142】

【0143】

次に、以下に応じて第二の折り畳みフィルタのＷ方向の畳み込みステップ長S_x’’を決定してもよい。

【0144】

【0145】

【0146】

この時、折り畳み倍数の調整を行ってもよい。例えば、Ｗ方向で重ね領域がないことを保持しながら、最大有効折り畳み倍率２を実現し、残りの必要な折り畳み倍率をいずれもＨ方向に割り当ててもよい。これにより、以下に応じてＷ方向の有効折り畳み倍率に基づき、Ｈ方向の折り畳み倍率を計算することができる。

【0147】

【0148】

以上の例では、Nh2=16/2=8であるため、Ｈ方向の折り畳み倍率は８倍である。

【0149】

この時、Ｗ方向の折り畳み倍率を該当して更新してもよい。

【0150】

【0151】

上記例において、Nw2=16/8=2であり、即ち、その最大有効折り畳み倍率に等しい。このような折り畳み倍率割り当て方式によれば、Ｗ方向において重ね領域が存在せず、Ｈ方向において比較的に多い重ねが存在する。

【0152】

Ｗ方向とＨ方向の第二の折り畳み倍数Nw2、Nh2を決定した後に、各次元での、次元サイズ、畳み込みステップ長などを含む残りのパラメータを該当して計算することができる。

【0153】

【0154】

【0155】

【0156】

S_x''
次に、以下に応じて第二の折り畳みフィルタのＷ方向の畳み込みステップ長Ｓ_ｘ’’とＨ方向の畳み込みステップ長Ｓ_ｙ’’を決定してもよい。

【0157】

【0158】

【0159】

以上では、どのように命令アライン要求に応じて第二の折り畳みフィルタの各パラメータを設計するかを説明した。

【0160】

以上では、本開示の実施例による第二の次元折り畳みによってフィルタを調整する方案を説明した。いくつかの実施例では、この第二の折り畳みフィルタは、オフラインで生成されてもよい。例えば、ニューラルネットワークモデルを利用して推理を行うプロセスにおいて、推理プロセスを行うために、予め配置される、オフラインで生成される第二の折り畳みフィルタとオンラインで同様な第二の次元折り畳みが行われる入力特徴マップを利用して畳み込み演算を行ってもよい。別のいくつかの実施例では、この第二の折り畳みフィルタは、オンラインで生成されてもよい。例えば、ニューラルネットワークモデルに対して訓練を行うプロセスにおいて、訓練プロセスを行うために、オンラインで畳み込み層のフィルタに対して第二の次元折り畳みを行うと共に、オンラインで訓練データに対して同様な第二の次元折り畳みを行い、そして両者に対して畳み込み演算を実行してもよい。

【0161】

どのプロセスにおいて本開示の実施例の第二の折り畳みフィルタを利用するかに関わらず、第二の次元折り畳みによってＣｉ次元アラインを実現することで、畳み込み演算の計算量を大幅に最適化することができる。以下では、畳み込み計算量の点について、本開示の実施例の方案と従来の畳み込み演算の性能を比較する。

【0162】

【0163】

ＮＨＷＣ次元放置順番を採用するハードウェアについて、Ｃｉ次元が最低次元であり、且つベクトル命令アラインの要求によれば、Ａｃｉにアラインされることが多いため、Ａｃｉは、ベクトル命令アラインの要求に対するものであり、人工知能計算加速ハードウェアは一般的には複数の並行した高性能の畳み込み計算ユニットを有するため、Ａｃoは、畳み込みカーネルＣｏ次元アラインの要求に対するものであり、その値は、高性能並行計算ユニットの数である。

【0164】

最適化前に、従来の畳み込み演算の計算量は、以下のとおりである。

【0165】

本開示の実施例の第二の次元折り畳み方案を採用して最適化を行った後に、畳み込み演算の計算量は、以下のとおりである。

【0166】

【0167】

第二の次元折り畳みを行った後の性能の最適化率は、以下のとおりである。

【0168】

【0169】

以上の図１１－図１２を参照して説明した例を例として、
最適化前に、P_before2＝１＊６４＊６４＊ｈｏ＊ｗｏ＊４＊４（Ｓｘ，Ｓｙ＝４，４）であり、
最適化後に、P_after2＝１＊６４＊６４＊ｈｏ＊ｗｏ＊１＊１（Ｓｘ’，Ｓｙ’＝１，１）
＝１＊６４＊６４＊ｈｏ＊ｗｏ＊４＊４＊（１／１６）である。

【0170】

減少した畳み込み計算ユニットの畳み込み計算量は９３．７５％である。

【0171】

理解できるように、図１１－図１２の例では、望ましい場合に第二の次元折り畳み処理を行い、即ち、畳み込みステップ長が折り畳みの要求を完全に満たし、畳み込みカーネルのサイズと入力特徴マップのサイズに対して折り畳み倍数アラインを行う必要がない場合を示す。実際の場合には、具体的なパラメータの数値によって決まり、実際の最適化率は、上記ピーク最適化率９３．７５％よりも低い。

【0172】

以上の計算量の比較から分かるように、本開示の実施例による第二の折り畳みフィルタ方案は、畳み込みユニットの計算量を効果的に節約することができ、それにより畳み込み演算の計算性能を向上させる。

【0173】

以上では、本開示の実施例による第一の次元折り畳みと第二の次元折り畳みをそれぞれ説明した。以上の記述から分かるように、第一の次元折り畳みを単独で実施する時、得られる第一の折り畳みフィルタの畳み込みカーネルは膨張し、特に、折り畳み前の畳み込みステップ長が比較的に大きい時、非常に大きく膨張し、そして畳み込みステップ長も膨張し、これにより一定の冗長計算を引き起こし、そしてフィルタをロードするアクセス時間の増加を引き起こす。これに対し、第二の次元折り畳みを単独で実施する時、得られる第二の折り畳みフィルタの畳み込みカーネルは縮小し、そして畳み込みステップ長も縮小する。そのため、第一の次元折り畳みと第二の次元折り畳みを組み合わせて実施することで、第一の次元折り畳みによる畳み込みカーネル膨張を減少させることができ、それによりフィルタをロードするメモリアクセス量を減少させる。

【0174】

他方では、第二の次元折り畳みを単独で実施する時、その有効な折り畳み倍数は、畳み込みステップ長によって決まる。畳み込みステップ長が小さすぎると、折り畳み後の入力特徴マップと畳み込み演算を実行する場合、重複計算が存在し、折り畳みによる利得を減少させる。以上の分析によれば、第一の次元折り畳みが畳み込みカーネルと畳み込みステップ長を拡大し、そして第一の次元折り畳みの後の畳み込みステップ長が必ず偶数であることが明らかになる。そのため、第一の次元折り畳みと第二の次元折り畳みを組み合わせて実施することで、第二の次元折り畳みの有効倍数を増やすことができ、そして畳み込みステップ長が奇数である時に畳み込みカーネルの折り畳み方式を変える必要があることが発生せず、それにより第二の次元折り畳みの最適化効果を最大化することができる。

【0175】

上記分析に基づき、第一の次元折り畳みと第二の次元折り畳みを組み合わせて実施し、それぞれの欠点を互いに補い合って最大化された最適化効果を達成することができる。

【0176】

一つの実施例では、まず、第一の次元折り畳みを優先的に行い、これにより拡大した畳み込みカーネルと畳み込みステップ長を得て、そして第一の次元折り畳みの上で、さらに第二の次元折り畳みを行い、この時、畳み込みカーネルと畳み込みステップ長は減少する。これにより、入力チャンネル次元の命令アライン要求と出力チャンネル次元のハードウェアアライン要求を満たす場合に、フィルタをロードするＩＯ量を増加させることなく、折り畳みプロセスにおいて発生する冗長計算を相殺し、計算性能の向上を最大化することができる。

【0177】

例えば、元のフィルタが（４，３，３，４）であり、畳み込みステップ長が（１，１）であるとする。以上の説明を参照すると、第一の次元折り畳み（ここで、Nw1=Nh1=4である）を行った後に、得られる第一の折り畳みフィルタは（６４，６，６，４）であり、畳み込みステップ長は（４，４）である。次に、第一の折り畳みフィルタに対して第二の次元折り畳み（ここで、Nw2=Nh2=4である）を応用することで得られる第二の折り畳みフィルタは（６４，２，２，６４）であり、畳み込みステップ長は（１，１）である。元のフィルタに比べて、第二の折り畳みフィルタの入力チャンネル次元と出力チャンネル次元はいずれもそれぞれのアライン値（ここで６４である）にアラインされており、そして畳み込みカーネルのサイズは、膨張することがなく、逆に２×２に減少し、畳み込みステップ長も膨張することがなく、この例では（１，１）である。

【0178】

別の実施例では、まず、第二の次元折り畳みを行い、さらに第一の次元折り畳みを行ってもよい。しかしながら、このように実施の形態は、第一の次元折り畳みによる畳み込みカーネル膨張と畳み込みステップ長拡大を十分に利用できないため、性能の最適化に不利である。

【0179】

まず第一の次元折り畳みを行い、さらに第二の次元折り畳みを行う場合、畳み込み計算量の点で、得られる性能最適化率は、以下のように計算されてもよい。

【0180】

【0181】

以上による元のフィルタが（４，３，３，４）であり、畳み込みステップ長が（１，１）であるものに対して第一の次元折り畳みと第二の次元折り畳みを行う例を例として、その性能最適化率は、以下のとおりである。

【0182】

【0183】

本開示の実施例は、ニューラルネットワークモデルを実行するためのデータ処理装置、及びこのデータ処理装置によって実施されるニューラルネットワークモデルを実行するための方法をさらに提供する。

【0184】

図１５は、本開示の実施例を実施できるデータ処理装置の概略的構造図を例示的に示す。図１５に示すように、データ処理装置１５００は、処理回路１５１０と、記憶回路１５２０とを含む。

【0185】

処理回路１５１０は、データ処理装置１５００における、制御、復号化、演算などを含むがそれらに限らない様々な機能の処理を担う。処理回路１５１０は、例えば、図３における制御モジュール３１及び／又は演算モジュール３２を含んでもよい。

【0186】

いくつかの実施例では、処理回路１５１０は、入力特徴マップに対して第二の次元折り畳みを行うことで、折り畳み特徴マップを得て、本開示の実施例の折り畳みフィルタを利用して折り畳み特徴マップに対して畳み込み演算を実行し、中間結果を得て、そして中間結果に対して次元逆折り畳みを行うことで、出力特徴マップを得るためのものとして配置されてもよい。

【0187】

記憶回路１５２０は、関連データを記憶又は転送するために用いられてもよく、それは、例えば、図３又は図５に示す様々なＲＡＭであってもよく、又はオンチップバッファと呼ばれる。いくつかの実施例では、記憶回路１５２０は、ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを記憶するためのものとして配置されてもよい。この折り畳みフィルタは、元のフィルタに対して第一の次元折り畳みと第二の次元折り畳みを行うことで生成されるものである。第一の次元折り畳みは、畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成することを含む。第二の次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む。例えば、幅次元でのデータ再配列又は次元折り畳みについて、処理回路１５１０は、次元再構築によって実現してもよい。高さ次元でのデータ再配列又は次元折り畳みについて、処理回路１５１０は、次元転置によって実現してもよい。

【0188】

いくつかの実施例では、データ処理装置１５００は、ニューラルネットワークモデルの訓練プロセスを実行するためのものとして配置されてもよい。この時、処理回路１５１０は、訓練時に、オンラインでニューラルネットワークモデルの畳み込み層のフィルタに対して本開示の実施例の第一と第二の次元折り畳み処理を行い、そして訓練データに対して本開示の実施例の第二の次元折り畳み処理を行うように配置されてもよい。そして得られる折り畳みフィルタを利用して折り畳み後の訓練データに対して畳み込み演算を実行し、訓練プロセスを行う。処理回路１５１０によって実行される具体的な折り畳み処理プロセスは、前記の説明を参照してもよく、ここでこれ以上説明しない。

【0189】

別のいくつかの実施例では、データ処理装置１５００は、ニューラルネットワークモデルの推理プロセスを実行するためのものとして配置されてもよい。この時、処理回路１５１０は、推理プロセスを行うために、まず、入力ニューロンに対して第二の次元折り畳み処理を行い、そして記憶回路１５２０に記憶されている折り畳みフィルタを直接に利用して折り畳み後の入力ニューロンに対して畳み込み演算を行うように配置されてもよい。入力ニューロンに対する第二の次元折り畳み方式は、記憶されている折り畳みフィルタが経た第二の次元折り畳み方式と一致する。

【0190】

最終的な出力特徴マップを得るために、折り畳みフィルタを利用して畳み込み演算を実行することで得られる中間結果に対して一定の次元再配列処理を行う必要がある。具体的な再配列処理操作は、前記の説明を参照してもよく、ここでこれ以上説明しない。

【0191】

図１６は、本開示の実施例によるデータ処理方法の例示的なフローチャートを示す。

【0192】

図示されるように、データ処理方法は、処理回路１６００が入力特徴マップに対して第二の次元折り畳みを行うことで、折り畳み特徴マップを得るステップ１６１０を含む。

【0193】

次に、ステップ１６２０において、処理回路が記憶回路に記憶されている折り畳みフィルタを利用して折り畳み特徴マップに対して畳み込み演算を実行することで、中間結果を得る。この折り畳みフィルタは、元のフィルタに対して第一の次元折り畳みと第二の次元折り畳みを行うことで生成されるものである。第一の次元折り畳みは、畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成することを含む。第二の次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む。

【0194】

最後に、ステップ１６３０において、処理回路が中間結果に対して次元逆折り畳みを行うことで、出力特徴マップを得る。

【0195】

当業者であれば理解できるように、前記の図面を結び付けて説明した本開示の実施例のフィルタ折り畳み方法、中間結果の次元再配列などの処理は同様に図１５のデータ処理装置と図１６のデータ処理方法に適用可能であるため、繰り返して説明しない。

【0196】

本開示は、前記の図面を結び付けて説明したいずれか一つの実施例のデータ処理装置を含んでもよいチップをさらに提供する。さらに、本開示は、ボードカードをさらに提供し、このボードカードは、前述したチップを含んでもよい。

【0197】

異なる応用シナリオに応じて、本開示の電子機器又は装置は、サーバ、クラウドサーバ、サーバクラスタ、データ処理装置、ロボット、コンピュータ、プリンタ、スキャナ、タブレットパソコン、スマート端末、ＰＣ機器、モノのインターネット端末、移動端末、携帯電話、ドライブレコーダ、ナビゲーション装置、センサ、ウェブカメラ、カメラ、ビデオカメラ、プロジェクタ、ウォッチ、イヤホン、モバイルストレージ、ウェアラブルデバイス、視覚端末、自動運転端末、交通手段、家電製品、及び／又は医療機器を含んでもよい。前記交通手段は、飛行機、汽船及び／又は車両を含み、前記家電製品は、テレビ、エアコン、電子レンジ、冷蔵庫、炊飯器、加湿器、洗濯機、電灯、ガステーブル、レンジフードを含み、前記医療機器は、核磁気共鳴装置、Ｂスキャン装置及び／又は心電計を含む。本開示の電子機器又は装置は、さらにインターネット、モノのインターネット、データセンタ、エネルギー、交通、公衆管理、製造、教育、電力網、電気通信、金融、小売、工場、医療などの分野に応用されてもよい。さらに、本開示の電子機器又は装置は、クラウド、エッジ、端末などの、人工知能、ビッグデータ、及び／又はクラウドコンピューティングに関連する応用シナリオに用いられてもよい。一つ又は複数の実施例では、本開示の方案による計算能力の高い電子機器又は装置は、クラウド機器（例えばクラウドサーバ）に応用することができるが、消費電力の低い電子機器又は装置は、端末機器及び／又はエッジ機器（例えばスマートフォン又はウェブカメラ）に応用することができる。一つ又は複数の実施例では、クラウド機器のハードウェア情報と端末機器及び／又はエッジ機器のハードウェア情報は、互いに互換性があり、それによって端末機器及び／又はエッジ機器のハードウェア情報に基づいて、クラウド機器のハードウェアリソースから適切なハードウェアリソースをマッチングして端末機器及び／又はエッジ機器のハードウェアリソースをシミュレートすることができ、それによって端末とクラウドとの一体化又はクラウドとエッジと端末との一体化の統一した管理、スケジューリングと協同作動を完成させる。

【0198】

説明すべきこととして、簡潔のために、本開示では、いくつかの方法及びその実施例を一連の動作及びその組み合わせとして記述しているが、当業者であれば理解できるように、本開示の方案は、説明した動作の順番に限定されるものではない。そのため、本開示の開示又は教示に基づき、当業者であれば理解できるように、そのうちのいくつかのステップは、他の順番で実行されてもよく、又は同時に実行されてもよい。さらに、当業者であれば理解できるように、本開示に記述された実施例は、選択的な実施例としてみなすことができ、即ちそれに係る動作又はモジュールは、本開示の一つ又は複数の方案の実現にとっては、必ずしも必要ではない。また、方案の違いによって、本開示における、いくつかの実施例に対する説明に、それぞれ異なる重点がある。これに鑑み、当業者であれば理解できるように、本開示のある実施例に詳細に説明されていない部分は、他の実施例の関連記述を参照すればよい。

【0199】

具体的に実現する面において、本開示の開示及び教示に基づき、当業者であれば理解できるように、本開示に開示されたいくつかの実施例は、本明細書に開示されていない他の方式によって実現されてもよい。例えば、以上に記載の電子機器又は装置の実施例における各ユニットについては、本明細書では、論理機能を考慮した上でそれを区分しているが、実際に実現する際に、他の区分方式があってもよい。また例えば、複数のユニット又はアセンブリを結合し、又は他のシステムに集積し、又はユニット又はアセンブリにおけるいくつかの特徴又は機能を選択的に使用不可にしてもよい。異なるユニット又はアセンブリ同士の接続関係については、以上で図面を結び付けながら討論した接続は、ユニット又はアセンブリ同士の直接又は間接的な結合であってもよい。いくつかのシナリオでは、前述の直接又は間接的な結合は、インターフェースを利用する通信接続に関し、ここで通信インターフェースは、電気的、光学的、音響学的、磁気的又は他の形式の信号伝送をサポートすることができる。

【0200】

本開示において、分離された部品として説明されるユニットは、物理的に分離されてもよく、又は物理的に分離されなくてもよく、ユニットとして示される部品は、物理的なユニットであってもよく、又は物理的なユニットでなくてもよい。前述の部品又はユニットは、同一の場所に位置してもよく、又は複数のネットワークユニットに分布してもよい。また、実際の必要に応じて、そのうちの一部又は全部のユニットを選択して、本開示の実施例に記載の方案の目的を実現することができる。また、いくつかのシナリオでは、本開示の実施例における複数のユニットは、一つのユニットに集積されてもよく、又は各ユニットは、物理的に単独に存在してもよい。

【0201】

いくつかの実現シナリオでは、上記集積されたユニットは、ソフトウェアプログラムモジュールの形式を採用して実現されてもよい。ソフトウェアプログラムモジュールの形式で実現され、且つ独立した製品として販売又は使用される場合、前記集積されたユニットは、コンピュータ可読メモリに記憶されてもよい。これに基づき、本開示の方案がソフトウェア製品（例えばコンピュータ可読記憶媒体）の形式で表される場合、このソフトウェア製品は、メモリに記憶されてもよく、それは、コンピュータ機器（例えばパソコン、サーバ又はネットワーク機器など）に本開示の実施例に記載の方法の一部又は全部のステップを実行させるための若干の命令を含む。前述のメモリは、Ｕディスク、フラッシュディスク、リードオンリーメモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、モバイルハードディスク、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる様々な媒体を含んでもよいが、それらに限らない。

【0202】

別のいくつかの実現シナリオでは、上記集積されたユニットは、ハードウェアの形式で実現されてもよく、即ち具体的なハードウェア回路であり、それは、デジタル回路及び／又はアナログ回路などを含んでもよい。回路のハードウェア構造の物理的な実現は、物理的デバイスを含んでもよいが、それに限らず、物理的デバイスは、トランジスタ又はメモリスタなどのデバイスを含んでもよいが、それらに限らない。これに鑑み、本明細書に記載の様々な装置（例えば計算装置又は他の処理装置）は、適切なハードウェアプロセッサ、例えばＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰとＡＳＩＣなどによって実現されてもよい。さらに、前述の前記記憶ユニット又は記憶装置は、任意の適切な記憶媒体（磁気記憶媒体又は光磁気記憶媒体などを含む）であってもよく、それは例えば、抵抗変化型メモリ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）、補強ダイナミックランダムアクセスメモリ（ＥｎｈａｎｃｅｄＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＥＤＲＡＭ）、高帯域幅メモリ（ＨｉｇｈＢａｎｄｗｉｄｔｈＭｅｍｏｒｙ、ＨＢＭ）、ハイブリッドメモリキューブ（ＨｙｂｒｉｄＭｅｍｏｒｙＣｕｂｅ、ＨＭＣ）、ＲＯＭとＲＡＭなどであってもよい。

【0203】

以下の条項により、前述の内容をより良く理解することができる。

【0204】

２０２０１１６２４９５５６条項Ａ１、ニューラルネットワークモデルを実行するためのデータ処理装置であって、
前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを記憶するためのものとして配置される記憶回路であって、前記折り畳みフィルタは、元のフィルタに対して第一の次元折り畳みと第二の次元折り畳みを行うことで得られるものであり、ここで、前記第一の次元折り畳みは、畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成することを含み、前記第二の次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含む記憶回路と、
入力特徴マップに対して前記第二の次元折り畳みを行うことで、折り畳み特徴マップを得て、
前記折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行し、中間結果を得て、及び
前記中間結果に対して次元逆折り畳みを行うことで、出力特徴マップを得るためのものとして配置される処理回路とを含む。

【0205】

条項Ａ２、条項Ａ１に記載のデータ処理装置であって、前記折り畳みフィルタは、まず前記元のフィルタに対して第一の次元折り畳みを行って第一の折り畳みフィルタを得て、さらに前記第一の折り畳みフィルタに対して第二の次元折り畳みを行うことで生成されるものである。

【0206】

条項Ａ３、条項Ａ２に記載のデータ処理装置であって、前記処理回路は、
前記元のフィルタに対して畳み込みカーネル幅方向において横方向畳み込みステップ長をNw1-1回シフトし、及び／又は畳み込みカーネル高さ方向において縦方向畳み込みステップ長をNh1-1回シフトし、N_total1個の拡張フィルタを得ることであって、ここで、N_total1=Nw1×Nh1であり、Nw1とNh1は、自然数であることと、
前記N_total1個の拡張フィルタを出力チャンネル次元において前記第一の折り畳みフィルタに合成することとに応じて、前記第一の次元折り畳みを実行するためのものとして配置される。

【0207】

条項Ａ４、条項Ａ３に記載のデータ処理装置であって、前記元のフィルタの出力チャンネル次元サイズは、第一の閾値Ａ１を超えず、前記第一の折り畳みフィルタの出力チャンネル次元サイズは、第二の閾値Ａｃｏに等しく、ここで、第一の閾値Ａ１は、第二の閾値Ａｃｏよりも小さい。

【0208】

条項Ａ５、条項Ａ４に記載のデータ処理装置であって、前記処理回路はさらに、
元のフィルタの出力チャンネル数Ｃｏと前記第二の閾値Ａｃｏに基づき、第一の総折り畳み倍数N_total1を決定し、
前記第一の総折り畳み倍数N_total1を第一の幅次元折り畳み倍数Nw1と第一の高さ次元折り畳み倍数Nh1に分割し、
Nw1、Nh1及び元のフィルタの畳み込みステップ長に基づき、前記第一の折り畳みフィルタの畳み込みステップ長を決定し、及び
Nw1、Nh1及び元のフィルタの畳み込みカーネルと畳み込みステップ長に基づき、前記第一の折り畳みフィルタの畳み込みカーネルサイズを決定するために用いられる。

【0209】

条項Ａ６、条項Ａ５に記載のデータ処理装置であって、前記処理回路はさらに、
N_total1=Aco/Coaに応じて第一の総折り畳み倍数N_total1を決定するためのものとして配置され、ここで、Coaは、Ｃｏが最も近いAco/2ⁿにアラインされる値であり、ｎは、自然数である。

【0210】

条項Ａ７、条項Ａ５又はＡ６に記載のデータ処理装置であって、前記処理回路はさらに、
畳み込みカーネル幅方向に優先的に分割すること、
畳み込みステップ長がより小さい方向に優先的に分割すること、
畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割すること、又は
前記第一の折り畳みフィルタの畳み込みカーネルサイズが最小となるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記第一の総折り畳み倍数Ｎ_{ｔｏｔａｌ１}を分割するためのものとして配置されてもよい。

【0211】

条項Ａ８、条項Ａ５からＡ７のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0212】

条項Ａ９、条項Ａ５からＡ８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0213】

条項Ａ１０、条項Ａ４からＡ９のいずれか１項に記載のデータ処理装置であって、前記第二の閾値Ａｃｏは、前記処理回路における畳み込み演算ユニットの数に基づいて決定され、そして前記第一の閾値Ａ１≦Ａｃｏ／２である。

【0214】

条項Ａ１１、条項Ａ１からＡ１０のいずれか１項に記載のデータ処理装置であって、前記元のフィルタの入力チャンネル次元サイズは、第三の閾値Ａ２を超えず、前記折り畳みフィルタの入力チャンネル次元サイズは、第四の閾値Ａｃｉに等しく、ここで、第三の閾値Ａ２は、第四の閾値Ａｃｉよりも小さい。

【0215】

条項Ａ１２、条項Ａ１１に記載のデータ処理装置であって、前記処理回路は、
折り畳み待ち多次元データの入力チャンネル次元サイズＣｉと前記第四の閾値Ａｃｉに基づき、第二の総折り畳み倍数Ｎ_{ｔｏｔａｌ２}を決定することと、
前記第二の総折り畳み倍数Ｎ_{ｔｏｔａｌ２}を第二の幅次元折り畳み倍数Ｎｗ２と第二の高さ次元折り畳み倍数Ｎｈ２に分割することと、
Ｎｗ２、Ｎｈ２及び折り畳み待ち多次元データの幅次元サイズと高さ次元サイズに基づき、折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定することと、
Ｎｗ２、Ｎｈ２及び畳み込み演算の元の畳み込みステップ長に基づき、前記畳み込み演算の折り畳み後の畳み込みステップ長を決定することとの方式に応じて、前記第二の次元折り畳みを実行するためのものとして配置される。

【0216】

条項Ａ１３、条項Ａ１２に記載のデータ処理装置であって、前記処理回路はさらに、
Ｎ_{ｔｏｔａｌ２}＝Ａｃｉ／Ｃｉａに応じて第二の総折り畳み倍数Ｎ_{ｔｏｔａｌ２}を決定するためのものとして配置され、ここで、Ｃｉａは、Ｃｉが最も近いＡｃｉ／２^ｎにアラインされる値であり、ｎは、自然数である。

【0217】

条項Ａ１４、条項Ａ１２又はＡ１３に記載のデータ処理装置であって、前記処理回路はさらに、
幅次元に優先的に分割すること、
幅次元と高さ次元に平均に分割すること、
折り畳み倍数アラインによる補完量が最小となるように分割すること、又は
前記第一の折り畳みフィルタに基づく幅次元での畳み込みステップ長がこの幅次元の折り畳み倍数で割り切れるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記第二の総折り畳み倍数Ｎ_{ｔｏｔａｌ２}を分割するためのものとして配置される。

【0218】

条項Ａ１５、条項Ａ１２からＡ１４のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0219】

条項Ａ１６、条項Ａ１２からＡ１５のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0220】

条項Ａ１７、条項Ａ１２からＡ１６のいずれか１項に記載のデータ処理装置であって、前記折り畳み待ち多次元データは、前記第一の折り畳みフィルタ及び／又は前記入力特徴マップである。

【0221】

条項Ａ１８、条項Ａ１１からＡ１７のいずれか１項に記載のデータ処理装置であって、前記第四の閾値Ａｃｉは、命令アライン要求に基づいて決定されるものであり、そして前記第三の閾値Ａ２≦Ａｃｉ／２である。

【0222】

条項Ａ１９、条項Ａ１からＡ１８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタのみを含む場合、前記中間結果に対して次元再構築を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得るためのものとして配置される。

【0223】

条項Ａ２０、条項Ａ１からＡ１８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタを含む場合、前記中間結果に対して次元転置を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得るためのものとして配置される。

【0224】

条項Ａ２１、条項Ａ１からＡ１８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタを含むだけでなく、畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタも含む場合、前記中間結果に対して次元再構築と次元転置を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得るためのものとして配置される。

【0225】

条項Ａ２２、条項Ａ２０又はＡ２１に記載のデータ処理装置であって、前記処理回路はさらに、
前記中間結果の出力チャンネル次元での特徴を高さ次元に転置するためのものとして配置される。

【0226】

条項Ａ２３、条項Ａ１からＡ２２のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
次元再構築によって幅次元での前記第二の次元折り畳みを実現し、及び／又は
次元転置によって高さ次元での前記第二の次元折り畳みを実現するためのものとして配置される。

【0227】

条項Ａ２４、条項Ａ１からＡ２３のいずれか１項に記載のデータ処理装置であって、
前記元のフィルタの入力チャンネル次元サイズは、前記第一の折り畳みフィルタの入力チャンネル次元サイズに等しく、
前記第一の折り畳みフィルタの出力チャンネル次元サイズは、前記折り畳みフィルタの出力チャンネル次元サイズに等しい。

【0228】

条項Ａ２５、条項Ａ１からＡ２４のいずれか１項に記載のデータ処理装置であって、前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである。

【0229】

条項Ａ２６、チップであって、条項Ａ１からＡ２５のいずれか１項に記載のデータ処理装置を含むことを特徴とする。

【0230】

条項Ａ２７、ボードカードであって、条項Ａ２６に記載のチップを含むことを特徴とする。

【0231】

条項Ａ２８、記憶回路と処理回路とを含むデータ処理装置によって実施されるニューラルネットワークモデルを実行するための方法であって、
前記記憶回路に前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタが記憶されており、前記折り畳みフィルタは、元のフィルタに対して第一の次元折り畳みと第二の次元折り畳みを行うことで得られるものであり、ここで、前記第一の次元折り畳みは、畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成することを含み、前記第二の次元折り畳みは、幅次元及び／又は高さ次元のデータを入力チャンネル次元に再配列することを含み、
前記方法は、
前記処理回路が入力特徴マップに対して前記第二の次元折り畳みを行うことで、折り畳み特徴マップを得ることと、
前記処理回路が、前記記憶回路に記憶されている前記折り畳みフィルタを利用して前記折り畳み特徴マップに対して畳み込み演算を実行することで、中間結果を得ることと、
前記処理回路が前記中間結果に対して次元逆折り畳みを行うことで、出力特徴マップを得ることとを含む。

【0232】

条項Ａ２９、条項２８に記載の方法であって、前記折り畳みフィルタは、まず前記元のフィルタに対して第一の次元折り畳みを行って第一の折り畳みフィルタを得て、さらに前記第一の折り畳みフィルタに対して第二の次元折り畳みを行うことで生成されるものである。

【0233】

条項Ａ３０、条項Ａ２９に記載の方法であって、
前記処理回路が、
前記元のフィルタに対して畳み込みカーネル幅方向において横方向畳み込みステップ長をＮｗ１－１回シフトし、及び／又は畳み込みカーネル高さ方向において縦方向畳み込みステップ長をＮｈ１－１回シフトし、Ｎ_{ｔｏｔａｌ１}個の拡張フィルタを得ることであって、ここで、Ｎ_{ｔｏｔａｌ１}＝Ｎｗ１×Ｎｈ１であり、Ｎｗ１とＮｈ１は、自然数であることと、
前記Ｎ_{ｔｏｔａｌ１}個の拡張フィルタを出力チャンネル次元において前記第一の折り畳みフィルタに合成することとに応じて、前記第一の次元折り畳みを実行することをさらに含む。

【0234】

条項Ａ３１、条項Ａ３０に記載の方法であって、前記元のフィルタの出力チャンネル次元サイズは、第一の閾値Ａ１を超えず、前記第一の折り畳みフィルタの出力チャンネル次元サイズは、第四の閾値Ａｃｏに等しく、ここで、第一の閾値Ａ１は、第四の閾値Ａｃｏよりも小さい。

【0235】

条項Ａ３２、条項Ａ３１に記載の方法であって、
前記処理回路が、元のフィルタの出力チャンネル数Ｃｏと前記第二の閾値Ａｃｏに基づき、第一の総折り畳み倍数Ｎ_{ｔｏｔａｌ１}を決定することと、
前記第一の総折り畳み倍数Ｎ_{ｔｏｔａｌ１}を第一の幅次元折り畳み倍数Ｎｗ１と第一の高さ次元折り畳み倍数Ｎｈ１に分割することと、
Ｎｗ１、Ｎｈ１及び元のフィルタの畳み込みステップ長に基づき、前記第一の折り畳みフィルタの畳み込みステップ長を決定することと、
Ｎｗ１、Ｎｈ１及び元のフィルタの畳み込みカーネルと畳み込みステップ長に基づき、前記第一の折り畳みフィルタの畳み込みカーネルサイズを決定することとをさらに含む。

【0236】

条項Ａ３３、条項Ａ３２に記載の方法であって、
前記処理回路が、
Ｎ_{ｔｏｔａｌ１}＝Ａｃｏ／Ｃｏａに応じて第一の総折り畳み倍数Ｎ_{ｔｏｔａｌ１}を決定することをさらに含み、ここで、Ｃｏａは、Ｃｏが最も近いＡｃｏ／２^ｎにアラインされる値であり、ｎは、自然数である。

【0237】

条項Ａ３４、条項Ａ３２からＡ３３のいずれか１項に記載の方法であって、
前記処理回路が、
畳み込みカーネル幅方向に優先的に分割すること、
畳み込みステップ長がより小さい方向に優先的に分割すること、
畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割すること、又は
前記第一の折り畳みフィルタの畳み込みカーネルサイズが最小となるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記第一の総折り畳み倍数Ｎ_{ｔｏｔａｌ１}を分割することをさらに含む。

【0238】

条項Ａ３５、条項Ａ３２からＡ３４のいずれか１項に記載の方法であって、
前記処理回路が、

【0239】

条項Ａ３６、条項Ａ３２からＡ３５のいずれか１項に記載の方法であって、
前記処理回路が、

【0240】

条項Ａ３７、条項Ａ３１からＡ３６のいずれか１項に記載の方法であって、前記第二の閾値Ａｃｏは、前記処理回路における畳み込み演算ユニットの数に基づいて決定され、そして前記第一の閾値Ａ１≦Ａｃｏ／２である。

【0241】

条項Ａ３８、条項Ａ２８からＡ３７のいずれか１項に記載の方法であって、前記元のフィルタの入力チャンネル次元サイズは、第三の閾値Ａ２を超えず、前記折り畳みフィルタの入力チャンネル次元サイズは、第四の閾値Ａｃｉに等しく、ここで、第三の閾値Ａ２は、第四の閾値Ａｃｉよりも小さい。

【0242】

条項Ａ３９、条項Ａ３８に記載の方法であって、
前記処理回路が、
折り畳み待ち多次元データの入力チャンネル次元サイズＣｉと前記第四の閾値Ａｃｉに基づき、第二の総折り畳み倍数N_total2を決定することと、
前記第二の総折り畳み倍数N_total2を第二の幅次元折り畳み倍数Nw2と第二の高さ次元折り畳み倍数Nh2に分割することと、
Nw2、Nh2及び折り畳み待ち多次元データの幅次元サイズと高さ次元サイズに基づき、折り畳み後の多次元データの幅次元サイズと高さ次元サイズを決定することと、
Nw2、Nh2及び畳み込み演算の元の畳み込みステップ長に基づき、前記畳み込み演算の折り畳み後の畳み込みステップ長を決定することとの方式に応じて、前記第二の次元折り畳みを実行することをさらに含む。

【0243】

条項Ａ４０、条項Ａ３９に記載の方法であって、
前記処理回路が、
N_total2=Aci/Ciaに応じて第二の総折り畳み倍数N_total2を決定することをさらに含み、ここで、Ciaは、Ｃｉが最も近いAci/2ⁿにアラインされる値であり、ｎは、自然数である。

【0244】

条項Ａ４１、条項Ａ３９からＡ４０のいずれか１項に記載の方法であって、
前記処理回路が、
幅次元に優先的に分割すること、
幅次元と高さ次元に平均に分割すること、
折り畳み倍数アラインによる補完量が最小となるように分割すること、又は
前記第一の折り畳みフィルタに基づく幅次元での畳み込みステップ長がこの幅次元の折り畳み倍数で割り切れるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記第二の総折り畳み倍数N_total2を分割することをさらに含む。

【0245】

条項Ａ４２、条項Ａ３９からＡ４１のいずれか１項に記載の方法であって、
前記処理回路が、

【0246】

条項Ａ４３、条項Ａ３９からＡ４２のいずれか１項に記載の方法であって、
前記処理回路が、

【0247】

条項Ａ４４、条項Ａ３９からＡ４３のいずれか１項に記載の方法であって、前記折り畳み待ち多次元データは、前記第一の折り畳みフィルタ及び／又は前記入力特徴マップである。

【0248】

条項Ａ４５、条項Ａ３８からＡ４４のいずれか１項に記載の方法であって、前記第四の閾値Ａｃｉは、命令アライン要求に基づいて決定されるものであり、そして前記第三の閾値Ａ２≦Ａｃｉ／２である。

【0249】

条項Ａ４６、条項Ａ２８からＡ４５のいずれか１項に記載の方法であって、前記中間結果に対して次元逆折り畳みを行うことは、
前記拡張フィルタが、畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタのみを含む場合、前記中間結果に対して次元再構築を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得ることを含む。

【0250】

条項Ａ４７、条項Ａ２８からＡ４５のいずれか１項に記載の方法であって、前記中間結果に対して次元逆折り畳みを行うことは、
前記拡張フィルタが、畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタを含む場合、前記中間結果に対して次元転置を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得ることを含む。

【0251】

条項Ａ４８、条項Ａ２８からＡ４５のいずれか１項に記載の方法であって、前記中間結果に対して次元逆折り畳みを行うことは、
前記拡張フィルタが、畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタを含むだけでなく、畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタも含む場合、前記中間結果に対して次元再構築と次元転置を行うことで、前記次元逆折り畳みを実現し、出力特徴マップを得ることを含む。

【0252】

条項Ａ４９、条項Ａ４７又はＡ４８に記載の方法であって、前記中間結果に対して次元転置を行うことは、
前記中間結果の出力チャンネル次元での特徴を高さ次元に転置することを含む。

【0253】

条項Ａ５０、条項Ａ２８からＡ４９のいずれか１項に記載の方法であって、
前記処理回路が次元再構築によって幅次元での前記第二の次元折り畳みを実現し、及び／又は
次元転置によって高さ次元での前記第二の次元折り畳みを実現することをさらに含む。

【0254】

条項Ａ５１、条項Ａ２８からＡ５０のいずれか１項に記載の方法であって、
前記元のフィルタの入力チャンネル次元サイズは、前記第一の折り畳みフィルタの入力チャンネル次元サイズに等しく、
前記第一の折り畳みフィルタの出力チャンネル次元サイズは、前記折り畳みフィルタの出力チャンネル次元サイズに等しい。

【0255】

条項Ａ５２、条項Ａ２８からＡ５１のいずれか１項に記載の方法であって、前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである。

【0256】

２０２０１１６３１７３６０条項Ｂ１、ニューラルネットワークモデルを実行するためのデータ処理装置であって、
前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを記憶するためのものとして配置される記憶回路であって、前記折り畳みフィルタは、元のフィルタに対して畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成したものである記憶回路と、
前記折り畳みフィルタを利用して入力特徴マップに対して畳み込み演算を実行し、中間結果を得て、及び
前記中間結果に対して次元再配列を行うことで、出力特徴マップを得るためのものとして配置される処理回路とを含む。

【0257】

条項Ｂ２、条項Ｂ１に記載のデータ処理装置であって、前記折り畳みフィルタは、前記処理回路によって、
前記元のフィルタに対して畳み込みカーネル幅方向において横方向畳み込みステップ長をＮｗ－１回シフトし、及び／又は畳み込みカーネル高さ方向において縦方向畳み込みステップ長をＮｈ－１回シフトし、Ｎ個の拡張フィルタを得ることであって、ここで、Ｎ＝Ｎｗ×Ｎｈであり、ＮｗとＮｈは、自然数であることと、
前記Ｎ個の拡張フィルタを出力チャンネル次元において一つの折り畳みフィルタに合成することとに応じて生成される。

【0258】

条項Ｂ３、条項Ｂ２に記載のデータ処理装置であって、前記元のフィルタの出力チャンネル数は、第一の閾値Ｔｈ１を超えず、前記折り畳みフィルタの出力チャンネル数は、第二の閾値Ｔｈ２に等しく、ここで、第一の閾値Ｔｈ１は、第二の閾値Ｔｈ２よりも小さい。

【0259】

条項Ｂ４、条項Ｂ３に記載のデータ処理装置であって、前記処理回路はさらに、
元のフィルタの出力チャンネル数Ｃｏと前記第二の閾値Ｔｈ２に基づき、総折り畳み倍数Ｎを決定し、
前記総折り畳み倍数Ｎを畳み込みカーネル幅方向折り畳み倍数Ｎｗと畳み込みカーネル高さ方向折り畳み倍数Ｎｈに分割し、
Ｎｗ、Ｎｈ及び元のフィルタの畳み込みステップ長に基づき、前記折り畳みフィルタの畳み込みステップ長を決定し、及び
Ｎｗ、Ｎｈ及び元のフィルタの畳み込みカーネルと畳み込みステップ長に基づき、前記折り畳みフィルタの畳み込みカーネルサイズを決定するために用いられ、前記畳み込みカーネルサイズは、前記拡張フィルタの畳み込みカーネルサイズに対応する。

【0260】

条項Ｂ５、条項Ｂ４に記載のデータ処理装置であって、前記処理回路はさらに、
Ｎ＝Ｔｈ２／Ｃａに応じて総折り畳み倍数Ｎを決定するためのものとして配置され、ここで、Ｃａは、Ｃｏが最も近いＴｈ２／２^ｎにアラインされる値であり、ｎは、自然数である。

【0261】

条項Ｂ６、条項Ｂ４又はＢ５に記載のデータ処理装置であって、前記処理回路はさらに、
畳み込みカーネル幅方向に優先的に分割すること、
畳み込みステップ長がより小さい方向に優先的に分割すること、
畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割すること、又は
前記折り畳みフィルタの畳み込みカーネルサイズが最小となるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記総折り畳み倍数Ｎを分割するためのものとして配置される。

【0262】

条項Ｂ７、条項Ｂ４からＢ６のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0263】

条項Ｂ８、条項Ｂ４からＢ７のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、

【0264】

条項Ｂ９、条項Ｂ１からＢ８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタのみを含む場合、前記中間結果に対して次元再構築を行うことで、出力特徴マップを得るためのものとして配置される。

【0265】

条項Ｂ１０、条項Ｂ１からＢ８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタを含む場合、前記中間結果に対して次元転置を行うことで、出力特徴マップを得るためのものとして配置される。

【0266】

条項Ｂ１１、条項Ｂ１からＢ８のいずれか１項に記載のデータ処理装置であって、前記処理回路はさらに、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタを含むだけでなく、前記元のフィルタが畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタも含む場合、前記中間結果に対して次元再構築と次元転置を行うことで、出力特徴マップを得るためのものとして配置される。

【0267】

条項Ｂ１２、条項Ｂ１０又はＢ１１に記載のデータ処理装置であって、前記処理回路はさらに、
前記中間結果の出力チャンネル次元での特徴を高さ次元に転置するためのものとして配置される。

【0268】

条項Ｂ１３、条項Ｂ３からＢ１２のいずれか１項に記載のデータ処理装置であって、前記第二の閾値Ｔｈ２は、前記処理回路における畳み込み演算ユニットの数に基づいて決定され、そして前記第一の閾値Ｔｈ１≦Ｔｈ２／２である。

【0269】

条項Ｂ１４、条項Ｂ１からＢ１３のいずれか１項に記載のデータ処理装置であって、前記元のフィルタの入力チャンネル数は、前記折り畳みフィルタの入力チャンネル数に等しい。

【0270】

条項Ｂ１５、条項Ｂ１からＢ１４のいずれか１項に記載のデータ処理装置であって、前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである。

【0271】

条項Ｂ１６、チップであって、条項Ｂ１からＢ１５のいずれか１項に記載のデータ処理装置を含むことを特徴とする。

【0272】

条項Ｂ１７、ボードカードであって、条項Ｂ１６に記載のチップを含むことを特徴とする。

【0273】

条項Ｂ１８、記憶回路と処理回路とを含むデータ処理装置によって実施されるニューラルネットワークモデルを実行するための方法であって、
前記処理回路が、前記記憶回路に記憶されている前記ニューラルネットワークモデルの畳み込み層の折り畳みフィルタを利用して入力特徴マップに対して畳み込み演算を実行することで、中間結果を得ることであって、前記折り畳みフィルタは、元のフィルタに対して畳み込みステップ長を複数回シフトした後に得られる複数の拡張フィルタを合成したものであることと、
前記処理回路が、前記中間結果に対して次元再配列を行うことで、出力特徴マップを得ることとを含む。

【0274】

条項Ｂ１９、条項Ｂ１８に記載の方法であって、前記折り畳みフィルタは、前記処理回路によって、
前記元のフィルタに対して畳み込みカーネル幅方向において横方向畳み込みステップ長をＮｗ－１回シフトし、及び／又は畳み込みカーネル高さ方向において縦方向畳み込みステップ長をＮｈ－１回シフトし、Ｎ個の拡張フィルタを得ることであって、ここで、Ｎ＝Ｎｗ×Ｎｈであり、ここで、ＮｗとＮｈは、自然数であることと、
前記Ｎ個の拡張フィルタを出力チャンネル次元において一つの折り畳みフィルタに合成することとに応じて生成される。

【0275】

条項Ｂ２０、条項Ｂ１９に記載の方法であって、前記元のフィルタの出力チャンネル数は、第一の閾値Ｔｈ１を超えず、前記折り畳みフィルタの出力チャンネル数は、第二の閾値Ｔｈ２に等しく、ここで、第一の閾値Ｔｈ１は、第二の閾値Ｔｈ２よりも小さい。

【0276】

条項Ｂ２１、条項Ｂ２０に記載の方法であって、
前記処理回路が、元のフィルタの出力チャンネル数Ｃｏと前記第二の閾値Ｔｈ２に基づき、総折り畳み倍数Ｎを決定することと、
前記総折り畳み倍数Ｎを畳み込みカーネル幅方向折り畳み倍数Ｎｗと畳み込みカーネル高さ方向折り畳み倍数Ｎｈに分割することと、
Ｎｗ、Ｎｈ及び元のフィルタの畳み込みステップ長に基づき、前記折り畳みフィルタの畳み込みステップ長を決定することと、
Ｎｗ、Ｎｈ及び元のフィルタの畳み込みカーネルと畳み込みステップ長に基づき、前記折り畳みフィルタの畳み込みカーネルサイズを決定ことであって、前記畳み込みカーネルサイズは、前記拡張フィルタの畳み込みカーネルサイズに対応することとをさらに含む。

【0277】

条項Ｂ２２、条項Ｂ２１に記載の方法であって、
前記処理回路が、
Ｎ＝Ｔｈ２／Ｃａに応じて総折り畳み倍数Ｎを決定することをさらに含み、ここで、Ｃａは、Ｃｏが最も近いＴｈ２／２^ｎにアラインされる値であり、ｎは、自然数である。

【0278】

条項Ｂ２３、条項Ｂ２１からＢ２２のいずれか１項に記載の方法であって、
前記処理回路が、
畳み込みカーネル幅方向に優先的に分割すること、
畳み込みステップ長がより小さい方向に優先的に分割すること、
畳み込みカーネル幅方向と畳み込みカーネル高さ方向に平均に分割すること、又は
前記折り畳みフィルタの畳み込みカーネルサイズが最小となるように分割することのうちのいずれか一つのルール又はルールの組み合わせに応じて、前記総折り畳み倍数Ｎを分割することをさらに含む。

【0279】

条項Ｂ２４、条項Ｂ２１からＢ２３のいずれか１項に記載の方法であって、
前記処理回路が、

【0280】

条項Ｂ２５、条項Ｂ２１からＢ２４のいずれか１項に記載の方法であって、
前記処理回路が、

【0281】

条項Ｂ２６、条項Ｂ１８からＢ２５のいずれか１項に記載の方法であって、前記中間結果に対して次元再配列を行うことは、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタのみを含む場合、前記中間結果に対して次元再構築を行うことで、出力特徴マップを得ることを含む。

【0282】

条項Ｂ２７、条項Ｂ１８からＢ２５のいずれか１項に記載の方法であって、前記中間結果に対して次元再配列を行うことは、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタを含む場合、前記中間結果に対して次元転置を行うことで、出力特徴マップを得ることを含む。

【0283】

条項Ｂ２８、条項Ｂ１８からＢ２５のいずれか１項に記載の方法であって、前記中間結果に対して次元再配列を行うことは、
前記拡張フィルタが、前記元のフィルタが畳み込みカーネル幅方向でシフトすることで得られる拡張フィルタを含むだけでなく、前記元のフィルタが畳み込みカーネル高さ方向でシフトすることで得られる拡張フィルタも含む場合、前記中間結果に対して次元再構築と次元転置を行うことで、出力特徴マップを得ることを含む。

【0284】

条項Ｂ２９、条項Ｂ２７又はＢ２８に記載の方法であって、前記中間結果に対して次元転置を行うことは、
前記中間結果の出力チャンネル次元での特徴を高さ次元に転置することを含む。

【0285】

条項Ｂ３０、条項Ｂ２０からＢ２９のいずれか１項に記載の方法であって、前記第二の閾値Ｔｈ２は、前記処理回路における畳み込み演算ユニットの数に基づいて決定され、そして前記第一の閾値Ｔｈ１≦Ｔｈ２／２である。

【0286】

条項Ｂ３１、条項Ｂ１８からＢ３０のいずれか１項に記載の方法であって、前記元のフィルタの入力チャンネル数は、前記折り畳みフィルタの入力チャンネル数に等しい。

【0287】

条項Ｂ３２、条項Ｂ１８からＢ３１のいずれか１項に記載の方法であって、前記折り畳みフィルタは、オフラインで生成されるものであるか又はオンラインで生成されるものである。

【0288】

本明細書において本開示の複数の実施例を示して説明したが、当業者にとって明らかなように、これらの実施例は、ただ例示的な方式で提供されるものにすぎない。当業者であれば、本開示の思想と精神から逸脱することなく、様々な修正、変更及び代替的な形態を想到しうる。理解すべきこととして、本開示を実践する過程において、本明細書に記述された本開示の実施例の様々な代替案を採用してもよい。添付された特許請求の範囲は、本開示の保護範囲を限定することを意図し、そのため、これらの請求項の範囲内の同等又は代替案をカバーする。

【図1】