(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-28
(54)【発明の名称】データ処理方法および装置、電子機器ならびに記憶媒体
(51)【国際特許分類】
G06N 3/04 20060101AFI20220218BHJP
【FI】
G06N3/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021537055
(86)(22)【出願日】2019-04-22
(85)【翻訳文提出日】2021-06-23
(86)【国際出願番号】 CN2019083642
(87)【国際公開番号】W WO2020172979
(87)【国際公開日】2020-09-03
(31)【優先権主張番号】201910139050.0
(32)【優先日】2019-02-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100211395
【氏名又は名称】鈴木 裕貴
(72)【発明者】
【氏名】ルオ ピン
(72)【発明者】
【氏名】ウー リンイン
(72)【発明者】
【氏名】ペン チャンリン
(72)【発明者】
【氏名】チャン ルイマオ
(72)【発明者】
【氏名】レン チアミン
(72)【発明者】
【氏名】シャオ ウェンチィ
(57)【要約】
本開示はデータ処理方法および装置、電子機器ならびに記憶媒体に関し、前記方法は、入力データをニューラルネットワークモデルに入力し、ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得すること(S100)と、ニューラルネットワークモデルの変換パラメータに応じて、特徴データに適合する正規化方式を決定すること(S200)と、決定された正規化方式に従って特徴データを正規化処理し、正規化後の特徴データを得ること(S300)と、を含み、変換パラメータは特徴データの統計量の統計範囲を調整するためのものであり、統計範囲は正規化方式を表すためのものである。本開示の実施例は人的介入を伴わずにニューラルネットワークモデルの正規化層毎に適合する正規化方式を自律的に学習して得るという目的を達成できる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得することと、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであることを特徴とする、データ処理方法。
【請求項2】
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得ることと、をさらに含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得ることと、
置換行列を用いて前記二値化ベクトルの要素を置換して、二値化ゲーティングベクトルを生成することと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得ることと、を含むことを特徴とする、請求項2に記載の方法。
【請求項4】
前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数であることを特徴とする、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークにおける変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することは、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定することと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整することと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整することと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定することと、を含むことを特徴とする、請求項4に記載の方法。
【請求項6】
前記第一範囲は、前記特徴データの各サンプル特徴データの各チャネル毎の範囲であることを特徴とする、請求項4に記載の方法。
【請求項7】
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記第一範囲に従って、前記特徴データの統計量を取得することと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含むことを特徴とする、請求項5に記載の方法。
【請求項8】
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得ることと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得ることと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含むことを特徴とする、請求項7に記載の方法。
【請求項9】
前記変換パラメータは、各要素の値が0または1である二値化行列を含むことを特徴とする、請求項1に記載の方法。
【請求項10】
前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じであることを特徴とする、請求項2に記載の方法。
【請求項11】
前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列であることを特徴とする、請求項3に記載の方法。
【請求項12】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得ることを、さらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有することを特徴とする、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練することは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得ることと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得ることと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整することと、を含むことを特徴とする、請求項12に記載の方法。
【請求項14】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得するためのデータ入力モジュールと、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定するための方式決定モジュールと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理モジュールと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであることを特徴とする、データ処理装置。
【請求項15】
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得するためのサブ行列取得モジュールと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得るための変換パラメータ取得モジュールと、をさらに含むことを特徴とする、請求項14に記載の装置。
【請求項16】
前記サブ行列取得モジュールは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得るためのパラメータ処理サブモジュールと、
置換行列を用いて前記二値化ベクトルの要素を置換して、二値化ゲーティングベクトルを生成するための要素置換サブモジュールと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得るためのサブ行列取得サブモジュールと、を含むことを特徴とする、請求項15に記載の装置。
【請求項17】
前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数であることを特徴とする、請求項14から16のいずれか一項に記載の装置。
【請求項18】
前記方式決定モジュールは、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定するための第一決定サブモジュールと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整するための第一調整サブモジュールと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整するための第二調整サブモジュールと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定するための方式決定サブモジュールと、を含むことを特徴とする、請求項17に記載の装置。
【請求項19】
前記第一範囲は、前記特徴データの各サンプル特徴データの各チャネル毎の範囲であることを特徴とする、請求項18に記載の装置。
【請求項20】
前記正規化処理モジュールは、
前記第一範囲に従って、前記特徴データの統計量を取得するための統計量取得サブモジュールと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理サブモジュールと、を含むことを特徴とする、請求項18に記載の装置。
【請求項21】
前記正規化処理サブモジュールは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得るための第一パラメータ取得ユニットと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得るための第二パラメータ取得ユニットと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るためのデータ処理ユニットと、を含むことを特徴とする、請求項20に記載の装置。
【請求項22】
前記変換パラメータは、各要素の値が0または1である二値化行列を含むことを特徴とする、請求項14に記載の装置。
【請求項23】
前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じであることを特徴とする、請求項15に記載の装置。
【請求項24】
前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列であることを特徴とする、請求項16に記載の装置。
【請求項25】
前記データ入力モジュールが入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得るためのモデル訓練モジュールを、さらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有することを特徴とする、請求項14から24のいずれか一項に記載の装置。
【請求項26】
前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
前記モデル訓練モジュールは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得るための特徴抽出サブモジュールと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得るための予測特徴データ取得サブモジュールと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得るためのネットワーク損失取得サブモジュールと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整するための変換パラメータ調整サブモジュールと、を含むことを特徴とする、請求項25に記載の装置。
【請求項27】
プロセッサと、
プロセッサにより実行可能な指令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項1から13のいずれか一項に記載の方法を実行するように構成されることを特徴とする、電子機器。
【請求項28】
コンピュータプログラム指令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム指令はプロセッサにより実行されると、請求項1から13のいずれか一項に記載の方法を実現させることを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は2019年2月25日に中国特許局へ提出された、出願番号201910139050.0、出願の名称「データ処理方法および装置、電子機器ならびに記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
【技術分野】
【0002】
本発明は、コンピュータビジョンの技術分野に関し、特にデータ処理方法および装置、電子機器ならびに記憶媒体に関する。
【背景技術】
【0003】
自然言語処理、音声認識、コンピュータビジョンなどの挑戦的なタスクにおいて、様々な正規化技術は深層学習に不可欠なモジュールとなっている。正規化技術とは、ニューラルネットワークをより容易に収束可能にするように、ニューラルネットワークにおける入力データを正規化処理し、データを平均値0、標準偏差1の分布または範囲0~1の分布にすることをいう。
【発明の概要】
【0004】
本開示はデータ処理方法および装置、電子機器ならびに記憶媒体を提供する。
【0005】
本開示の一態様によれば、
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得することと、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであるデータ処理方法が提供される。
【0006】
可能な一実施形態では、
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得ることと、をさらに含む。
【0007】
可能な一実施形態では、前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得ることと、
置換行列を用いて前記二値化ベクトルの要素を置換して二値化ゲーティングベクトルを生成することと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得ることと、を含む。
【0008】
可能な一実施形態では、前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数である。
【0009】
可能な一実施形態では、前記ニューラルネットワークにおける変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することは、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定することと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整することと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整することと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定することと、を含む。
【0010】
可能な一実施形態では、前記第一範囲は前記特徴データの各サンプル特徴データの各チャネル毎の範囲である。
【0011】
可能な一実施形態では、決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記第一範囲に従って、前記特徴データの統計量を取得することと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含む。
【0012】
可能な一実施形態では、前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得ることと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得ることと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含む。
【0013】
可能な一実施形態では、前記変換パラメータは、各要素の値が0または1である二値化行列を含む。
【0014】
可能な一実施形態では、前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じである。
【0015】
可能な一実施形態では、前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列である。
【0016】
可能な一実施形態では、入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得ること、をさらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有する。
【0017】
可能な一実施形態では、前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練することは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得ることと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得ることと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整することと、を含む。
【0018】
本開示の一態様によれば、
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得するためのデータ入力モジュール と、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定するための方式決定モジュールと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理モジュールと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであるデータ処理装置がさらに提供される。
【0019】
可能な一実施形態では、
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得するためのサブ行列取得モジュールと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得るための変換パラメータ取得モジュールと、をさらに含む。
【0020】
可能な一実施形態では、前記サブ行列取得モジュールは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得るためのパラメータ処理サブモジュールと、
置換行列を用いて前記二値化ベクトルの要素を置換して二値化ゲーティングベクトルを生成するための要素置換サブモジュールと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得るためのサブ行列取得サブモジュールと、を含む。
【0021】
可能な一実施形態では、前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数である。
【0022】
可能な一実施形態では、前記方式決定モジュールは、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定するための第一決定サブモジュールと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整するための第一調整サブモジュールと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整するための第二調整サブモジュールと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定するための方式決定サブモジュールと、を含む。
【0023】
可能な一実施形態では、前記第一範囲は前記特徴データの各サンプル特徴データの各チャネル毎の範囲である。
【0024】
可能な一実施形態では、前記正規化処理モジュールは、
前記第一範囲に従って、前記特徴データの統計量を取得するための統計量取得サブモジュールと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理サブモジュールと、を含む。
【0025】
可能な一実施形態では、前記正規化処理サブモジュールは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得るための第一パラメータ取得ユニットと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得るための第二パラメータ取得ユニットと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るためのデータ処理ユニットと、を含む。
【0026】
可能な一実施形態では、前記変換パラメータは、各要素の値が0または1である二値化行列を含む。
【0027】
可能な一実施形態では、前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じである。
【0028】
可能な一実施形態では、前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列である。
【0029】
可能な一実施形態では、
前記データ入力モジュールが入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得るためのモデル訓練モジュールを、さらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有する。
【0030】
可能な一実施形態では、前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
前記モデル訓練モジュールは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得るための特徴抽出サブモジュールと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得るための予測特徴データ取得サブモジュールと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得るためのネットワーク損失取得サブモジュールと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整するための変換パラメータ調整サブモジュールと、を含む。
【0031】
本開示の一態様によれば、
プロセッサと、
プロセッサにより実行可能な指令を記憶するためのメモリと、を含み、
前記プロセッサは、上記のいずれかに記載の方法を実行するように構成される電子機器がさらに提供される。
【0032】
本開示の一態様によれば、コンピュータプログラム指令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム指令はプロセッサにより実行されると、上記のいずれかに記載の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。
【0033】
本開示の実施例では、特徴データを取得した後、ニューラルネットワークモデルにおける変換パラメータに応じて、特徴データに適合する正規化方式を決定し、さらに決定された正規化方式に従って特徴データを正規化処理することで、人的介入を伴わずにニューラルネットワークモデルの正規化層毎に適合する正規化方式を自律的に学習して得るという目的を達成し、それにより、特徴データを正規化処理する時に、より柔軟性を持たせ、その結果、データ正規化処理の適性を効果的に向上させる。
【0034】
以上の一般的な説明および以下の詳細な説明は解釈するための例示的なものにすぎず、本開示を制限するものではないことを理解されたい。
【0035】
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および態様は明瞭になる。
【図面の簡単な説明】
【0036】
ここの図面は明細書に組み込まれて本明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術方案を説明するために用いられる。
【
図1】
図1a~
図1cは、本開示の実施例に係るデータ処理方法において統計量の統計範囲によって正規化方式を表す模式図を示す。
【
図2】
図2は、本開示の実施例に係るデータ処理方法のフローチャートを示す。
【
図3】
図3a~
図3dは、本開示の実施例に係るデータ処理方法における変換パラメータの異なる表明方式の模式図を示す。
【
図4】
図4は、本開示の実施例に係るデータ処理装置のブロック図を示す。
【
図5】
図5は、本開示の実施例に係る電子機器のブロック図を示す。
【
図6】
図6は、本開示の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0037】
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の素子を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
【0038】
ここで、「例示的な」という専用の言葉は、「例、実例または例示として用いられる」ことを意味する。ここで「例示的」として説明されるいかなる実施例は、他の実施例より好適または有利であると解釈される必要がない。
【0039】
本明細書の用語の「および/または」は、関連対象の関連関係を記述するためのものに過ぎず、三つの関係が存在可能であることを示し、例えば、Aおよび/またはBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという三つの場合を示してもよい。また、本明細書の用語の「少なくとも一種」は多種のうちのいずれか一種、または多種のうちの少なくとも二種の任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも一種を含むということは、A、BおよびCから構成される集合から選択されるいずれか一つまたは複数の要素を含むことを示してもよい。
【0040】
また、本開示をよりよく説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に対する既知の方法、手段、素子および回路に対して詳細な説明を省略する。
【0041】
まず、説明すべきは、本開示のデータ処理方法はニューラルネットワークモデルにおける特徴データ(例えば、特徴マップ)を正規化処理する技術方案である点である。ここで、ニューラルネットワークモデルの正規化層において、特徴データを正規化処理する時、異なる正規化方式は統計量(平均値および分散であり得る)の異なる統計範囲に応じて特徴付けてもよい。
【0042】
例を挙げれば、
図1aから
図1cは統計量の異なる統計範囲が異なる正規化方式を表す模式図を示す。
図1aから
図1cを参照すると、特徴データがニューラルネットワークモデルにおける一つの4次元の隠れ層特徴マップである場合、
である。ここで、Fは特徴データであり、Rは特徴データの次元である。Nは該データバッチ内のサンプル量を表し、Cは特徴データのチャネル数を表し、HおよびWはそれぞれ特徴データの一つのチャネルの高さおよび幅を表す。
【0043】
該特徴データを正規化処理する時、まず該特徴データF上で統計量平均値μおよび分散σ
2を計算して、正規化操作を行ってから同じ次元の特徴データF^を出力する必要があり、関連技術では、下式(1)で表してもよい。
【数1】
【0044】
【0045】
【0046】
【0047】
【0048】
図2は本開示の実施例に係るデータ処理方法のフローチャートを示す。
図2を参照すると、本開示のデータ処理方法は以下を含んでもよい。
【0049】
ステップS100、入力データをニューラルネットワークモデルに入力し、ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する。ここで、指摘しておきたいのは、ニューラルネットワークモデルは畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)または長期短期記憶ネットワーク(LSTM)、または画像分類(ImageNet)、目標検出と分割(COCO)、映像認識(Kinetics)、画像スタイル化および筆跡生成などの様々なビジョンタスクを実現するニューラルネットワークであってもよいということである。
【0050】
同時に、当業者であれば、入力データは少なくとも一つのサンプルデータを含み得ることが理解される。例えば、入力データは複数の画像を含んでもよいし、一つの画像を含んでもよい。入力データをニューラルネットワークモデルに入力する時、ニューラルネットワークモデルによって入力データ内の各サンプルデータに対して対応する処理を行う。また、ニューラルネットワークモデルにおけるネットワーク層は畳み込み層であってもよく、畳み込み層によって入力データに対して特徴抽出を行い、対応する特徴データを取得する。ここで、入力データが複数のサンプルデータを含む場合、対応する特徴データは対応して複数のサンプル特徴データを含む。
【0051】
ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得した後、ニューラルネットワークモデルの変換パラメータに応じて、特徴データに適合する正規化方式を決定するステップS200を実行できる。ここで、変換パラメータは特徴データの統計量の統計範囲を調整するためのものであり、統計量の統計範囲は正規化方式を表すためのものである。なお、説明すべきは、変換パラメータはニューラルネットワークモデルにおける学習可能なパラメータである点である。即ち、ニューラルネットワークモデルの訓練プロセスにおいて、異なる入力データに基づいて異なる値の変換パラメータを学習および訓練して得ることができる。こうして、変換パラメータで異なる値を学習したことによって、統計量の統計範囲に対する異なる調整を実現し、それにより異なる入力データについて異なる正規化方式を採用するという目的を達成する。
【0052】
適合する正規化方式を決定した後、決定された正規化方式に従って特徴データを正規化処理し、正規化後の特徴データを得るステップS300を実行できる。
【0053】
こうして、本開示のデータ処理方法は、特徴データを取得した後、ニューラルネットワークモデルにおける変換パラメータに応じて、特徴データに適合する正規化方式を決定し、さらに決定された正規化方式に従って特徴データを正規化処理することで、人的介入を伴わずにニューラルネットワークモデルの正規化層毎に適合する正規化方式を学習して得るという目的を達成し、それにより、特徴データを正規化処理する時に、より柔軟性を持たせ、その結果、データ正規化処理の適性を効果的に向上させる。
【0054】
可能な一実施形態では、変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含んでもよい。そのうち、第一変換パラメータおよび第二変換パラメータは統計量のうちの平均値の統計範囲を調整するためのものであり、第三変換パラメータおよび第四変換パラメータは統計量のうちの標準偏差の統計範囲を調整するためのものである。また、第一変換パラメータの次元および第三変換パラメータの次元はいずれも特徴データのバッチサイズ次元に基づくものであり、第二変換パラメータの次元および第四変換パラメータの次元はいずれも特徴データのチャネル次元に基づくものである。ここで、当業者であれば、バッチサイズ次元は特徴データを含むデータバッチのデータ数N(即ち、特徴データのサンプル特徴データの数量)であり、チャネル次元は前記特徴データのチャネル数Cであることが理解される。
【0055】
それに応じて、変換パラメータが第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含む場合、可能な一実施形態では、ニューラルネットワークにおける変換パラメータに応じて、特徴データに適合する正規化方式を決定することは以下のステップによって実現してもよい。
【0056】
まず、特徴データの統計量の統計範囲を第一範囲として決定する。ここで、説明すべきは、可能な一実施形態では、第一範囲は特徴データの各サンプル特徴データの各チャネル毎の範囲(即ち、上述したインスタンス正規化INにおける統計量の統計範囲)であってもよいし、他の正規化方式における統計量の統計範囲であってもよい点である。
【0057】
続いて、第一変換パラメータおよび第二変換パラメータに応じて、平均値の統計範囲を第一範囲から第二範囲に調整する。ここで、指摘しておきたいのは、第二範囲は第一変換パラメータおよび第二変換パラメータの値によって決定される点である。異なる値は、異なる統計範囲を特徴付ける。そして第三変換パラメータおよび第四変換パラメータに応じて、標準偏差の統計範囲を第一範囲から第三範囲に調整する。同様に、第三範囲は第三変換パラメータおよび第四変換パラメータの値によって決定され、異なる値は異なる統計範囲を特徴付ける。
【0058】
さらに、第二範囲および第三範囲に基づき、正規化方式を決定する。
【0059】
例を挙げれば、以上の説明から、本開示のデータ処理方法における正規化処理方式は以下のように定義してもよい。
【数2】
ここで、Fは正規化前の特徴データを表し、F^は正規化後の特徴データを表し、Uは第一変換パラメータであり、Vは第二変換パラメータである。U′は第三変換パラメータであり、V′は第四変換パラメータである。
【0060】
可能な一実施形態では、統計量(平均値μおよび標準偏差σ)の統計範囲はインスタンス正規化INにおける統計範囲を採用してもよく、即ち特徴データの各サンプル特徴データの各チャネル上で統計量を個別に計算してもよく、次元はいずれもN×Cとする。説明すべきは、以上の説明から、統計量の統計範囲は上述した他の正規化方式における統計範囲を採用してもよい点である。ここでは具体的に限定しない。
【0061】
こうして、第一変換パラメータと、第二変換パラメータと、平均値との乗積演算によって統計量のうちの平均値の統計範囲に対する調整を実現し、第三変換パラメータと、第四変換パラメータと、標準偏差との乗積演算によって標準偏差の統計範囲に対する調整を実現し、それにより正規化方式の適応を達成し、調整方式が簡単で、実現しやすい。
【0062】
【0063】
上述した第一変換パラメータの次元、第二変換パラメータの次元、第三変換パラメータの次元および第四変換パラメータの次元からわかるように、U,U′はバッチサイズN次元で学習される統計方式を表し、V,V′はチャネルC次元で学習される統計方式を表し、U=U′、V=V′は平均値μおよび標準偏差σについてそれぞれ同じ統計方式を学習することを表し、U≠U′、V≠V′は平均値μおよび標準偏差σについてそれぞれ異なる統計方式を学習することを表す。こうして、異なるU、U′、V、V′は異なる正規化方法を表すようになる。
【0064】
例を挙げれば、
図3aから
図3cを参照すると、U=U′、V=V′、μ=μ
IN、σ=σ
INの場合、UもVも
図3aに示すような単位行列Iであるとき、本開示のデータ処理方法では、正規化方式は各N次元および各C次元で統計量を個別に計算するINを表し、このとき、
【数3】
である。Uは要素が全て1の行列1でありかつVは単位行列Iであるとき、本開示のデータ処理方法では、正規化方式は各C次元の統計量をN次元で平均するBNを表し、このとき、
【数4】
である。Uは単位行列IでありかつVは要素が全て1の行列1であるとき、本開示のデータ処理方法では、正規化方式は各N次元の統計量をC次元で平均するLNを表し、このとき、
【数5】
である。Uは単位行列IでありかつVは
図3bまたは
図3cに類似するブロック対角行列であるとき、本開示のデータ処理方法では、正規化方式はN次元で統計量を個別に計算するがC次元で統計量をグループ別に計算するGNを表す。例えば、Vは
図3bに示すブロック対角行列であるとき、グループ数は4とし、Vは
図3cに示すブロック対角行列であるとき、グループ数は2とする。GNではグループ数が一定であることとは異なり、本開示のデータ処理方法では、正規化方式におけるグループ数が任意に学習可能である。
Uは要素が全て1の行列1でありかつVは要素が全て1の行列1であるとき、本開示のデータ処理方法では、正規化方式はNおよびC次元で統計量を同時に平均する「BLN」を表し、即ち平均値も分散も(N,H,W,C)に一意の値
【数6】
である。UもVも任意のブロック対角行列であるとき、本開示のデータ処理方法では、正規化方式はC次元で統計量をグループ別に計算するとともに、N次元もグループ別に統計量を計算することを表す。つまり、本開示のデータ処理方法では、正規化方式は1バッチ内のサンプル量について適切なバッチサイズを学習して統計量を評価することができる。
【0065】
指摘しておきたいのは、上記実施例において、U=U′、V=V′であるため、第一変換パラメータUおよび第二変換パラメータVに基づいて平均値の統計範囲を調整して決定された第二範囲と、第三変換パラメータU′および第四変換パラメータV′に基づいて標準偏差の統計範囲を調整して決定された第三範囲は同じである点である。当業者であれば、U≠U′、V≠V′の場合、得られた第二範囲と第三範囲は異なり、その結果、正規化方式をより多様に拡張可能なことが理解される。加えて、U≠U′、V=V′およびU=U′、V≠V′などの複数の場合を含んでもよく、ここでは一々列挙しない。
【0066】
以上からわかるように、本開示のデータ処理方法における特徴データの正規化処理方式は、関連技術において統計範囲の正規化技術を人為的に設計することと異なり、本開示のデータ処理方法は現在データに適合する正規化方式を自律的に学習することができる。
【0067】
即ち、本開示のデータ処理方法では、異なる行列で変換パラメータの異なる値を特徴付け(即ち、変換パラメータを異なる行列で表す)、それによって特徴データの統計量を初期範囲(即ち、第一範囲、例えば、INにおける統計範囲)から異なる統計範囲に移行し、それにより、データに依存する根元的な正規化操作を自律的に学習して得ることとなり、その結果、本開示のデータ処理方法は、関連技術における全ての正規化技術を表現できるのみならず、より広範囲の正規化方法を拡張させることもできるようになり、従来の正規化技術に比べて表現能力がより豊富になる。
【0068】
上記で定義された式(2)によれば、可能な一実施形態では、決定された正規化方式に従って特徴データを正規化処理し、正規化後の特徴データを得る場合には、以下を含んでもよい。
【0069】
まず、第一範囲に従って、特徴データの統計量を取得する。即ち、第一範囲がインスタンス正規化方式において定義された統計範囲である場合、インスタンス正規化における統計範囲に従って、下式(3)によって特徴データの平均値を算出してから、算出された平均値によって、下式(4)に従って特徴データの標準偏差を算出し、それにより統計量を得る。
【数8】
【0070】
統計量、第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータに基づき、特徴データを正規化処理し、正規化後の特徴データを得る。
【0071】
そのうち、可能な一実施形態では、統計量、第一変換パラメータおよび第二変換パラメータに基づき、特徴データを正規化処理し、正規化後の特徴データを得る場合には、以下のステップによって実現してもよい。
【0072】
まず、平均値、第一変換パラメータおよび第二変換パラメータに基づき、第一正規化パラメータを得る。即ち、平均値μと、第一変換パラメータUと、第二変換パラメータVとの乗積演算(即ち、ドット積演算<UμV>)を行い、第一正規化パラメータ(<UμV>)を得る。同時に、標準偏差、第三変換パラメータおよび第四変換パラメータに基づき、第二正規化パラメータを得る。即ち、標準偏差σと、第三変換パラメータU′と、第四変換パラメータV′との乗積演算(ドット積演算<U′σV′>)を行い、第二正規化パラメータ(<U′σV′>)を得る。
【0073】
最後に、特徴データ、第一正規化パラメータおよび第二正規化パラメータに基づき、特徴データを正規化処理し、正規化後の特徴データを得る。即ち、式(2)に従って演算処理を行い、正規化後の特徴データを得る。
【0074】
また、指摘しておきたいのは、本開示のデータ処理方法では、式(2)によって特徴データを正規化処理する時、式(2)示す正規化方式をニューラルネットワークモデルの各畳み込み層に応用した後、ニューラルネットワークモデルの各層の特徴データについてそれぞれ独立した正規化操作方式を自律的に学習して得ることができる。ここで、式(2)によって特徴データを正規化処理する時、各層の正規化操作方式ではいずれも、第一変換パラメータU、第二変換パラメータV、第三変換パラメータU′、第四変換パラメータV′の4つの学習すべき二値化対角ブロック行列がある。本開示のデータ処理方法における計算量およびパラメータ量をさらに低減し、パラメータの最適化プロセスを微分可能なエンドツーエンド方式に変換するために、複数のサブ行列の内積を計算して二値化対角ブロック行列のそれぞれを構築してもよい。
【0075】
つまり、可能な一実施形態では、変換パラメータは複数のサブ行列で合成してもよい。複数のサブ行列はニューラルネットワークモデルにおいて学習可能なゲーティングパラメータを設定することで実現してもよい。即ち、本開示のデータ処理方法では、さらに、ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することを含んでもよい。さらに複数のサブ行列の内積を計算して、変換パラメータを得る。
【0076】
ここで、説明すべきは、内積の計算はkronecker積の計算であってもよい点である。kronecker積の計算を採用して行列分解方法を設計することで、N×N次元の行列U、U′およびC×C次元の行列V、V′をネットワーク最適化プロセスにおいて許容可能な、計算量が少ないパラメータに分解する。
【0077】
例えば、第二変換パラメータVを例にし、kronecker積の計算を具体的に説明する。ここで、第二変換パラメータVは一連のサブ行列V
iで表現し、下式(5)で表すようにしてもよい。
【数9】
【0078】
ここで、各サブ行列V
iの次元はC
i×C
iであり、C
i<CかつC
1×C
2×・・・×C
i=Cであり、
はkronecker積の計算を表し、二つの任意の大きさの行列間演算であり、以下のように定義される。
【数10】
【0079】
こうして、上記ステップによって複数のサブ行列Viを得た後、式(5)に従って対応する第二変換パラメータを演算して得ることができる。
【0080】
複数のサブ行列V
iの内積を計算して第二変換パラメータを得ることにより、第二変換パラメータVは連続値を有する一連のサブ行列V
iに分解可能になり、これらのサブ行列V
iは二値制約を気にすることなく一般的なオプティマイザによって学習することができる。つまり、C×C次元の大行列Vの学習が一連のサブ行列V
iの学習に変えられ、パラメータ量もそれに伴いC
2からΣs
iC
i
2に低減される。例えば、Vが
図3bに示す8×8行列である場合、Vは三つの2×2のサブ行列V
iに分解してkronecker積の計算を行うことができる。即ち、以下のとおりである。
【数11】
このとき、パラメータ量は8
2=64から3×2
2=12に低減される。
【0081】
こうして、複数のサブ行列を用いて大行列形式の変換パラメータを合成することにより、C*C次元の大行列形式の第二変換パラメータVという変換パラメータの学習が一連のサブ行列の学習に変えられ、パラメータ量もそれに伴いC2からΣiCi
2に低減される。ここで、当業者であれば、第一変換パラメータU、第三変換パラメータU′および第四変換パラメータV′も同様に上記方式で得ることができることが理解され、ここでは説明を省略する。
【0082】
以上からわかるように、複数のサブ行列で第一変換パラメータおよび第二変換パラメータをそれぞれ合成することにより、パラメータ量が効果的に低減され、本開示のデータ処理方法がより実現しやすくなる。
【0083】
ここで、説明すべきは、式(5)中、f(・)は各サブ行列Vi上での要素レベルの変換を表す点である。こうして、可能な一実施形態では、f(a)は符号関数としてもよく、即ち、関数f(a)=sing(a)、かつa≧0,sing(a)=1;a<0,sing(a)=0の場合、二値行列Vは連続値を有する一連のサブ行列に分解可能になり、これらのサブ行列は二値制約を気にすることなく一般的なオプティマイザによって学習することができ、こうしてC×C次元の大行列Vの学習が一連のサブ行列Viの学習に変えられる。しかしながら、上記手法を採用する場合、sing関数によって行列内の要素を変換することにより構築された変換パラメータは必ずしもブロック対角行列の構造であることを保証できず、その結果、統計量の統計範囲が順調に調整できなくなることがある。
【0084】
そこで、可能な一実施形態では、ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに基づいて対応する複数のサブ行列を取得する場合には、以下のステップによって実現してもよい。
【0085】
まず、符号関数signを用いてゲーティングパラメータを処理し、二値化ベクトルを得る。
【0086】
さらに、置換行列を用いて二値化ベクトルの要素を置換して二値化ゲーティングベクトルを生成する。
【0087】
最後に、二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数のサブ行列を得る。ここで、指摘しておきたいのは、第一基礎行列および第二基礎行列はいずれも定数行列である点である。そのうち、第一基礎行列は要素が全て1の行列であってもよく、例えば、第一基礎行列は2*2で要素が全て1の行列であってもよい。第二基礎行列は単位行列であってもよく、例えば、第二基礎行列は2*2の単位行列または2*3の単位行列であってもよい。
【0088】
例を挙げれば、以上の説明から、変換パラメータは第一変換パラメータU、第二変換パラメータV、第三変換パラメータU′および第四変換パラメータV′を含んでもよい。ただし、第一変換パラメータU、第二変換パラメータV、第三変換パラメータU′および第四変換パラメータV′の取得方式は同じまたは類似の原理に基づくものであるので、説明の便宜上、以下に第二変換パラメータVを例にし、複数のサブ行列で変換パラメータを合成するプロセスをより詳しく説明する。
【0089】
指摘しておきたいのは、ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータがg
~で示してもよい点である。可能な一実施形態では、ゲーティングパラメータg
~は連続値ベクトルであってもよく、該ベクトル内の連続値の数は取得されたサブ行列の数と同じである。
【数12】
【0090】
式(6)および式(7)を参照すると、f(・)は二値化ゲーティング関数であり、サブ行列Viを再パラメータ化するために用いられる。式(7)中、1は2×2で要素が全て1の行列であり、Iは2×2の単位行列であり、任意のgi
→も、0または1のいずれかである一つの二値化ゲーティングであり、g→は複数のgi
→を含むベクトルである。
【0091】
上記方式で変換パラメータを取得するプロセスにおいて、まず、式(7)を参照しながら、ゲーティングパラメータg~をsignによってgを生成する。ここで、sign(a)は符号関数であり、a≧0の場合、sign(a)=1であり、a<0の場合、sign(a)=0である。こうして、符号関数sign(a)を用いてゲーティングパラメータを処理した後、得られた二値化ベクトルgは0または1の二つの値のみを有するベクトルとなる。
【0092】
そして、引き続いて式(7)を参照しながら、置換行列Pを用いて二値化ベクトルの要素を置換して二値化ゲーティングベクトルを生成する。即ち、Pは、g内の要素を置換してg
→内の二値化ゲーティングベクトルを生成する一定の置換行列を表す。ここで、説明すべきは、Pは二値化ゲーティングベクトルg
→内の0、1の順序を、0が常に1の前にあるように、即ち単位行列Iが常に要素が全て1の行列1の前にあり、かつ表現されるサブ行列V
iをブロック対角行列とするように、制御するという役割を果たす点である。例えば、g=[1,1,0]の場合、g
→=Pg=[0,1,1]となり、このとき、
は、
図3cに示すブロック対角行列を表現することができる。
【0093】
置換行列を用いて二値化ベクトルの要素を置換して対応する二値化ゲーティングベクトルg→を生成した後、式(6)によって、二値化ゲーティングベクトル、第一基礎行列1および第二基礎行列Iに基づいて式(6)に従って演算を行い、対応する複数のサブ行列Viを得ることができる。複数のサブ行列Viを得た後、式(5)によって複数のサブ行列Viの内積を計算し、それにより対応する第二変換パラメータVを得ることができる。
【0094】
ここで、さらに指摘しておきたいのは、第一基礎行列および第二基礎行列の次元は上記実施例で設定された次元に限定されない点である。つまり、第一基礎行列および第二基礎行列の次元は実際の状況に応じて任意に選択してもよい。例えば、第一基礎行列は2
*2で要素が全て1の行列1であり、第二基礎行列は2
*3の単位行列であり(即ち、A=[1,1,0;0,1,1])、ここで、Aは第二基礎行列を特徴付ける。こうして、
は、
図3dに示す重なり合った部分を有するブロック対角行列を表現することができる。
【0095】
こうして、異なる次元を有する定数行列(即ち、第一基礎行列および第二基礎行列)を使用することにより、異なるサブ行列が生成可能になり、その結果、本開示のデータ処理方法における正規化方式は異なるチャネル数を有する正規化層に対応可能になり、本開示の方法における正規化方式の拡張可能性もそれに伴いさらに向上する。
【0096】
同時に、ニューラルネットワークモデルに学習可能なゲーティングパラメータg~を設定することにより、複数のサブ行列の学習がゲーティングパラメータg~の学習に変えられ、その結果、本開示のデータ処理方法では、特徴データを正規化する時、正規化におけるパラメータ量がΣiCi
2からi個だけのパラメータに低減され(例えば、ニューラルネットワークモデルにおける一つの隠れ層のチャネル数Cは1024であり、C*C次元の第二変換パラメータVに関しては、そのパラメータ量は10個のパラメータに低減可能である)、正規化におけるパラメータ量もこれに伴いさらに低減され、本開示のデータ処理方法の実現および適用がより容易になる。
【0097】
本開示のデータ処理方法における、特徴データを正規化する具体的な操作方式をより明確に説明するために、以下に一実施例により本開示のデータ処理方法における正規化の具体的な演算を説明する。
【0098】
ここで、指摘しておきたいのは、本実施例において、第一変換パラメータUと第三変換パラメータU′は同じであり、第二変換パラメータVと第四変換パラメータV′は同じであるため、第三変換パラメータU′および第四変換パラメータV′が得られた時、第一変換パラメータUが対応する第一ゲーティングパラメータg~Uおよび第二変換パラメータVが対応する第二ゲーティングパラメータg~Vを直接使用して実現することができるということである。
【0099】
こうして、ニューラルネットワークモデルのある正規化層に、第一変換パラメータUに対応する第一ゲーティングパラメータg~U、および第二変換パラメータVに対応する第二ゲーティングパラメータg~Vがそれぞれ設定されるようになる。同時に、該正規化層には縮小パラメータγおよび変位パラメータβも設定されている。縮小パラメータγも変位パラメータβも正規化式(即ち、式(2))に用いられる。
【0100】
【0101】
正規化プロセスにおける演算は、
【数13】
を含み、
第一変換パラメータUおよび第二変換パラメータVは式(5)、式(6)および式(7)によって計算して得られ、該実施例では、特徴データを正規化時に最終的に下式(8)を使用する。
【数14】
【0102】
ここで、当業者であれば、第一変換パラメータUと第三変換パラメータU′が異なり、第二変換パラメータVと第四変換パラメータV′も異なる場合、ニューラルネットワークモデルに設定されたゲーティングパラメータg~は第一ゲーティングパラメータg~U、第二ゲーティングパラメータg~V、第三ゲーティングパラメータg~U′および第四ゲーティングパラメータg~V′を含まなければならないことが理解される。
【0103】
こうして、ゲーティングパラメータg~を用いてニューラルネットワークモデルにおける変換パラメータを取得することにより、変換パラメータの学習がゲーティングパラメータg~の学習に変えられる。式(6)および式(7)によってサブ行列Viを一連の要素が全て1の行列1および単位行列Iで表現することにより、式(5)中のサブ行列Viの学習が再パラメータ化されて連続値ベクトルg~の学習に変えられ、同時に大行列形式の変換パラメータ、例えば第二変換パラメータVのパラメータ量がΣiCi
2からi個だけのパラメータに低減され、それによりKronecker(クロネッカー積)演算を使用してパラメータ分解および再パラメータ化を提供するという目的が達成され、その結果、本開示のデータ処理方法におけるN×N次元の大行列形式の第一変換パラメータUおよびC×C次元の大行列形式の第二変換パラメータVがそれぞれlog2Cおよびlog2Nだけのパラメータ量に低減され、微分可能なエンドツーエンド訓練方式で、本開示のデータ処理方法の計算量が少なくなり、パラメータ量が少なくなり、その実現および適用がより容易になる。
【0104】
また、さらに説明すべきは、本開示のデータ処理方法では、ニューラルネットワークモデルに対する訓練プロセスを含んでもよい点である。即ち、入力データをニューラルネットワークモデルに入力し、ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、
サンプルデータセットに基づいてニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得ることを、さらに含んでもよい。ここで、サンプルデータセット内の各入力データはラベル付け情報を有する。
【0105】
そのうち、可能な一実施形態では、ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含む。サンプルデータセットに基づいてニューラルネットワークモデルを訓練する時、まず、ネットワーク層によって、サンプルデータセット内の各入力データに対して特徴抽出を行い、対応する各予測特徴データを得る。続いて、正規化層によって、各予測特徴データを正規化処理し、正規化後の予測特徴データを得る。さらに、各予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得て、ネットワーク損失に基づき、正規化層の変換パラメータを調整する。
【0106】
例えば、ニューラルネットワークモデルを訓練する場合、入力(Input)は、訓練データセット{(xi,yi)}P
i=1、ネットワーク層における一連のネットワークパラメータΘ(例えば、重み値)、正規化層の一連のゲーティングパラメータФ(例えば、第一ゲーティングパラメータおよび第二ゲーティングパラメータ)、および縮小パラメータと変位パラメータψ={γl、βl}L
l=1を含む。出力(Output)は、訓練後のニューラルネットワークモデル(各ネットワーク層および各正規化層などを含む)である。
【0107】
ここで、指摘しておきたいのは、該実施例において、第一変換パラメータUと第三変換パラメータU′は同じであり、第二変換パラメータVと第四変換パラメータV′も同じであるため、正規化層の一連のゲーティングパラメータФは第一ゲーティングパラメータおよび第二ゲーティングパラメータのみを設定してもよい点である。
【0108】
そのうち、訓練回数t=1toTである。毎回の訓練プロセスにおいて、上記入力における各パラメータによって、順方向伝播方式に基づいて前述の正規化の演算プロセスに従って正規化層を訓練し、予測特徴データを得る。そして、得られた予測特徴データおよびラベル付け情報に基づいて、逆方向伝播方式に基づいて対応するネットワーク損失を取得し、さらに取得されたネットワーク損失に基づいて入力における各パラメータ、即ちФt、Θtおよびψtを更新する。
【0109】
数回の訓練後、ニューラルネットワークモデルのテストプロセスを実行できる。本開示のデータ処理方法では、主に正規化層に対してテストする。ただし、テストする前に、各正規化層の多バッチ訓練による統計量平均を計算し、続いて計算して得られた統計量平均によって対応する正規化層をテストする必要がある。即ち、各正規化層の多バッチ訓練プロセスにおいて得られた統計量(平均値μおよび標準偏差σ)の平均
【数15】
のとおりである。
【0110】
各正規化層の統計量の平均を計算して得られた後、各正規化層をテストできる。ただし、テストプロセスにおいて、各正規化層について下式(9)によって計算してもよい。
【数17】
は正規化層の数を特徴付ける。
【0111】
こうして、上記プロセスによってニューラルネットワークモデルを訓練することにより、最終的に訓練して得られたニューラルネットワークモデルにおける正規化層中のパラメータは第一ゲーティングパラメータ、第二ゲーティングパラメータ、縮小パラメータおよび変位パラメータになる。ただし、異なる訓練データセットによって訓練して得られたニューラルネットワークモデルにおいて、正規化層の第一ゲーティングパラメータと第二ゲーティングパラメータの値は異なる。これにより、本開示のデータ処理方法における正規化方式をニューラルネットワークモデルに組み込んだ後、ニューラルネットワークモデルは様々なビジョンタスクに適用可能になる。即ち、ニューラルネットワークモデルを訓練し、本開示のデータ処理方法をニューラルネットワークモデルに組み込むことで、本開示のデータ処理方法によって分類、検出、認識および分割などの様々なビジョンタスクにおいて効果が優れたモデルを得て
、関連タスクの結果を予測し、または未訓練のニューラルネットワークモデル(予備訓練モデル)を他のビジョンタスクに移行し、パラメータ(例えば、正規化層のゲーティングパラメータ)の微調整により、他のビジョンタスクの性能をさらに向上させることができる。
【0112】
なお、本開示で言及された上記各方法の実施例は、原理や論理に違反しない限り、相互に組み合わせて、組み合わせ後の実施例を形成可能なことが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
【0113】
同時に、具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスへのなんらの制限にもならず、各ステップの具体的な実行順序はその機能および可能な内在的論理に依存することが当業者に理解される。
【0114】
また、本開示はデータ処理装置、電子機器、コンピュータ可読記憶媒体、およびプログラムをさらに提供し、上記はいずれも本開示が提供する任意のデータ処理方法の実現に用いることができ、対応する技術方案および説明は方法部分の対応する記載を参照すればよく、ここでは説明を省略する。
【0115】
図4は本開示の実施例に係るデータ処理装置100のブロック図を示し、
図4に示すように、前記データ処理装置100は、
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得するためのデータ入力モジュール110と、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定するための方式決定モジュール120と、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理モジュール130と、を含み、
ここで、前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものである。
【0116】
可能な一実施形態では、
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得するためのサブ行列取得モジュールと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得るための変換パラメータ取得モジュールと、をさらに含む。
【0117】
可能な一実施形態では、前記サブ行列取得モジュールは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得るためのパラメータ処理サブモジュールと、
置換行列を用いて前記二値化ベクトルの要素を置換して二値化ゲーティングベクトルを生成するための要素置換サブモジュールと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得るためのサブ行列取得サブモジュールと、を含む。
【0118】
可能な一実施形態では、前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数である。
【0119】
可能な一実施形態では、前記方式決定モジュール120は、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定するための第一決定サブモジュールと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整するための第一調整サブモジュールと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整するための第二調整サブモジュールと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定するための方式決定サブモジュールと、を含む。
【0120】
可能な一実施形態では、前記第一範囲は前記特徴データの各サンプル特徴データの各チャネル毎の範囲である。
【0121】
可能な一実施形態では、前記正規化処理モジュール130は、
前記第一範囲に従って、前記特徴データの統計量を取得するための統計量取得サブモジュールと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理サブモジュールと、を含む。
【0122】
可能な一実施形態では、前記正規化処理サブモジュールは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得るための第一パラメータ取得ユニットと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得るための第二パラメータ取得ユニットと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得るためのデータ処理ユニットと、を含む。
【0123】
可能な一実施形態では、前記変換パラメータは、各要素の値が0または1である二値化行列を含む。
【0124】
可能な一実施形態では、前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じである。
【0125】
可能な一実施形態では、前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列である。
【0126】
可能な一実施形態では、
前記データ入力モジュールが入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得るためのモデル訓練モジュールを、さらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有する。
【0127】
可能な一実施形態では、前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
前記モデル訓練モジュールは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得るための特徴抽出サブモジュールと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得るための予測特徴データ取得サブモジュールと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得るためのネットワーク損失取得サブモジュールと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整するための変換パラメータ調整サブモジュールと、を含む。
【0128】
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能またはモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
【0129】
本開示の実施例は、コンピュータプログラム指令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム指令はプロセッサにより実行されると、上記方法を実現させるコンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は非揮発性コンピュータ可読記憶媒体であってもよい。
【0130】
本開示の実施例は、上記方法を実行するように構成されるプロセッサと、プロセッサにより実行可能な指令を記憶するためのメモリと、を含む電子機器をさらに提供する。
【0131】
電子機器は端末、サーバまたは他の形態の機器として提供されてもよい。
【0132】
図5は一例示的実施例により示された電子機器800のブロック図である。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット機器、医療機器、フィットネス器具、携帯情報端末などであってもよい。
【0133】
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
【0134】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで指令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
【0135】
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において動作するためのあらゆるアプリケーションプログラムまたは方法の指令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
【0136】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
【0137】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
【0138】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するための一つスピーカーを含む。
【0139】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
【0140】
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800の一つコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
【0141】
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
【0142】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現し、上記方法を実行するために用いることができる。
【0143】
例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム指令を含むメモリ804が提供され、上記コンピュータプログラム指令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
【0144】
図6は一例示的実施例より示された電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供できる。
図6を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な指令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの指令に対応する一つまたは一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は指令を実行し、それによって上記方法を実行するように構成される。
【0145】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された一つの電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された一つの有線または無線ネットワークインタフェース1950、および一つの入出力(I/O)インタフェース1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0146】
例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム指令を含むメモリ1932が提供され、上記コンピュータプログラム指令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
【0147】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム指令がロードされているコンピュータ可読記憶媒体を含むことができる。
【0148】
コンピュータ可読記憶媒体は指令実行機器により使用される指令を保存および記憶可能な有形機器であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば指令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0149】
ここで記述したコンピュータ可読プログラム指令はコンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム指令を受信し、該コンピュータ可読プログラム指令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶する。
【0150】
本開示の動作を実行するためのコンピュータプログラム指令はアセンブラ指令、指令セットアーキテクチャ(ISA)指令、機械指令、機械関連指令、マイクロコード、ファームウェア指令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム指令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム指令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム指令を実行し、それにより本開示の各態様を実現できるようになる。
【0151】
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム指令によって実現できることを理解すべきである。
【0152】
これらのコンピュータ可読プログラム指令は、機械を製造するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの指令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム指令は、コンピュータ可読記憶媒体に記憶し、これらの指令によってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、指令が記憶されるコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する指令を含む一つの製品を備える。
【0153】
コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される指令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0154】
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは指令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは指令の一部分は指定された論理機能を実現するための一つ以上の実行可能指令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは基本的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ指令との組み合わせによって実現してもよいことに注意すべきである。
【0155】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【手続補正書】
【提出日】2021-06-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得することと、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであることを特徴とする、データ処理方法。
【請求項2】
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することと、
複数の前記サブ行列の内積を計算して、前記変換パラメータを得ることと、をさらに含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークモデルに設定された学習可能なゲーティングパラメータに応じて、複数のサブ行列を取得することは、
前記ゲーティングパラメータを符号関数で処理して、二値化ベクトルを得ることと、
置換行列を用いて前記二値化ベクトルの要素を置換して、二値化ゲーティングベクトルを生成することと、
前記二値化ゲーティングベクトル、第一基礎行列および第二基礎行列に基づき、複数の前記サブ行列を得ることと、を含むことを特徴とする、請求項2に記載の方法。
【請求項4】
前記変換パラメータは第一変換パラメータ、第二変換パラメータ、第三変換パラメータおよび第四変換パラメータを含み、
前記第一変換パラメータの次元および前記第三変換パラメータの次元は前記特徴データのバッチサイズ次元に基づくものであり、前記第二変換パラメータの次元および前記第四変換パラメータの次元は前記特徴データのチャネル次元に基づくものであり、
前記バッチサイズ次元は前記特徴データを含むデータバッチのデータ数であり、前記チャネル次元は前記特徴データのチャネル数であることを特徴とする、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークにおける変換パラメータに応じて、前記特徴データに適合する正規化方式を決定することは、
平均値および標準偏差を含む、前記特徴データの統計量の統計範囲を第一範囲として決定することと、
前記第一変換パラメータおよび前記第二変換パラメータに応じて、前記平均値の統計範囲を前記第一範囲から第二範囲に調整することと、
前記第三変換パラメータおよび前記第四変換パラメータに応じて、前記標準偏差の統計範囲を前記第一範囲から第三範囲に調整することと、
前記第二範囲および前記第三範囲に基づき、前記正規化方式を決定することと、を含むことを特徴とする、請求項4に記載の方法。
【請求項6】
前記第一範囲は、前記特徴データの各サンプル特徴データの各チャネル毎の範囲であることを特徴とする、請求項4に記載の方法。
【請求項7】
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記第一範囲に従って、前記特徴データの統計量を取得することと、
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含むことを特徴とする、請求項5に記載の方法。
【請求項8】
前記統計量、前記第一変換パラメータ、前記第二変換パラメータ、前記第三変換パラメータおよび前記第四変換パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることは、
前記平均値、前記第一変換パラメータおよび前記第二変換パラメータに基づき、第一正規化パラメータを得ることと、
前記標準偏差、前記第三変換パラメータおよび前記第四変換パラメータに基づき、第二正規化パラメータを得ることと、
前記特徴データ、前記第一正規化パラメータおよび前記第二正規化パラメータに基づき、前記特徴データを正規化処理し、正規化後の特徴データを得ることと、を含むことを特徴とする、請求項7に記載の方法。
【請求項9】
前記変換パラメータは、各要素の値が0または1である二値化行列を含むことを特徴とする、請求項1に記載の方法。
【請求項10】
前記ゲーティングパラメータは連続値ベクトルであり、
前記ゲーティングパラメータの値の数は前記サブ行列の数と同じであることを特徴とする、請求項2に記載の方法。
【請求項11】
前記第一基礎行列は要素が全て1の行列であり、第二基礎行列は単位行列であることを特徴とする、請求項3に記載の方法。
【請求項12】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得する前に、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを得ることを、さらに含み、
前記サンプルデータセット内の各入力データはラベル付け情報を有することを特徴とする、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記ニューラルネットワークモデルは少なくとも一つのネットワーク層および少なくとも一つの正規化層を含み、
サンプルデータセットに基づいて前記ニューラルネットワークモデルを訓練することは、
前記ネットワーク層によって、前記サンプルデータセット内の各入力データに対して特徴抽出を行い、各予測特徴データを得ることと、
前記正規化層によって、各前記予測特徴データを正規化処理し、正規化後の予測特徴データを得ることと、
各前記予測特徴データおよびラベル付け情報に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づき、前記正規化層の前記変換パラメータを調整することと、を含むことを特徴とする、請求項12に記載の方法。
【請求項14】
入力データをニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルにおけるネットワーク層から現在出力されている特徴データを取得するためのデータ入力モジュールと、
前記ニューラルネットワークモデルの変換パラメータに応じて、前記特徴データに適合する正規化方式を決定するための方式決定モジュールと、
決定された前記正規化方式に従って前記特徴データを正規化処理し、正規化後の特徴データを得るための正規化処理モジュールと、を含み、
前記変換パラメータは前記特徴データの統計量の統計範囲を調整するためのものであり、前記統計範囲は正規化方式を表すためのものであることを特徴とする、データ処理装置。
【請求項15】
コンピュータプログラム指令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム指令はプロセッサにより実行されると、請求項1から13のいずれか一項に記載の方法を実現させることを特徴とする、コンピュータ可読記憶媒体。
【国際調査報告】