(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022104911
(43)【公開日】2022-07-12
(54)【発明の名称】エンベッディング正規化方法およびこれを利用した電子装置
(51)【国際特許分類】
G06N 3/08 20060101AFI20220705BHJP
【FI】
G06N3/08
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021214670
(22)【出願日】2021-12-28
(31)【優先権主張番号】10-2020-0188326
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0158515
(32)【優先日】2021-11-17
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】519130063
【氏名又は名称】ハイパーコネクト インコーポレイテッド
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】サンギル アン
(72)【発明者】
【氏名】ジュン ヨン イ
(72)【発明者】
【氏名】ボム ス キム
(72)【発明者】
【氏名】ブ ル チャン
(57)【要約】
【課題】エンベッディング正規化方法およびこれを利用した電子装置は、クリック率予測を容易に行うことができる。
【解決手段】
本開示の多様な実施形態に係る電子装置で使用者のクリック率(click through rate)を予測するためのニューラルネットワークモデルをトレーニングする方法は、フィーチャー別線形変換パラメータ(feature-wise linear transformation parameter)に基づいて前記エンベッディングベクトルを正規化する段階;正規化されたエンベッディングベクトルをニューラルネットワークレイヤに入力する段階を含み、前記フィーチャー別線形変換パラメータは、前記エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
電子装置で使用者のクリック率(click through rate、CTR)を予測するためのニューラルネットワークモデルをトレーニングする方法において、
フィーチャーベクトル(feature vector)に含まれたフィーチャー(feature)をエンベッディングベクトル(embedding vector)にマッピング(mapping)する段階と、
フィーチャー別線形変換パラメータ(feature-wise linear transformation parameter)に基づいて前記エンベッディングベクトルを正規化する段階と、
前記正規化されたエンベッディングベクトルをニューラルネットワークレイヤに入力する段階と、を含み、
前記フィーチャー別線形変換パラメータは、
正規化過程で前記エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義された、方法。
【請求項2】
前記正規化する段階は、
前記エンベッディングベクトルの成分の平均(mean)を計算する段階と、
前記エンベッディングベクトルの成分の分散(variance)を計算する段階と、
前記平均、前記分散および前記フィーチャー別線形変換パラメータに基づいて前記エンベッディングベクトルを正規化する段階を含む、請求項1に記載の方法。
【請求項3】
前記フィーチャー別線形変換パラメータは、
スケールパラメータ(scale parameter)およびシフトパラメータ(shift parameter)を含む、請求項1に記載の方法。
【請求項4】
前記スケールパラメータおよび前記シフトパラメータはそれぞれ、
前記エンベッディングベクトルと同一の次元のベクトルであり、すべての成分が同一の値である、請求項3に記載の方法。
【請求項5】
前記スケールパラメータおよび前記シフトパラメータは、
スカラー値である、請求項3に記載の方法。
【請求項6】
前記正規化する段階は、
下記の数学式1の演算を遂行する段階であり、
下記の数学式1で、e
xは前記エンベッディングベクトルであり、dは前記エンベッディングベクトルの次元であり、μ
xは前記エンベッディングベクトルのすべての成分の平均であり、σ
x
2は前記エンベッディングベクトルのすべての成分の分散であり、(e
x)
kは前記エンベッディングベクトルe
xのk番目の成分であり、
および
は前記フィーチャー別線形変換パラメータである、請求項1に記載の方法。
[数学式1]
【数1】
【請求項7】
ハードウェアと結合されて請求項1に記載された方法を実行させるためにコンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラム。
【請求項8】
少なくとも一つの電子装置によって具現された使用者のクリック率(click through rate、CTR)を予測するためのニューラルネットワークシステムであって、前記ニューラルネットワークシステムは、エンベッディングレイヤ、正規化レイヤおよびニューラルネットワークレイヤを含み、
前記エンベッディングレイヤは、フィーチャーベクトル(feature vector)に含まれたフィーチャー(feature)をエンベッディングベクトル(embedding vector)にマッピング(mapping)し、
前記正規化レイヤは、フィーチャー別線形変換パラメータ(feature-wise linear transformation parameter)に基づいて前記エンベッディングベクトルを正規化し、
前記ニューラルネットワークレイヤは、正規化されたエンベッディングベクトルに基づいてニューラルネットワーク演算を遂行し、
前記フィーチャー別線形変換パラメータは、
正規化過程で前記エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義された、ニューラルネットワークシステム。
【請求項9】
前記正規化レイヤは、
前記エンベッディングベクトルの成分の平均(mean)を計算し、
前記エンベッディングベクトルの成分の分散(variance)を計算し、
前記平均、前記分散および前記フィーチャー別線形変換パラメータに基づいて前記エンベッディングベクトルを正規化する、請求項8に記載のニューラルネットワークシステム。
【請求項10】
前記フィーチャー別線形変換パラメータは、
スケールパラメータ(scale parameter)およびシフトパラメータ(shift parameter)を含む、請求項8に記載のニューラルネットワークシステム。
【請求項11】
前記スケールパラメータおよび前記シフトパラメータはそれぞれ、
前記エンベッディングベクトルと同一の次元のベクトルであり、すべての成分が同一の値である、請求項10に記載のニューラルネットワークシステム。
【請求項12】
前記スケールパラメータおよび前記シフトパラメータは、
スカラー値である、請求項10に記載のニューラルネットワークシステム。
【請求項13】
前記正規化レイヤは、
下記の数学式2の演算を遂行し、
下記の数学式2で、e
xは前記エンベッディングベクトルであり、dは前記エンベッディングベクトルの次元であり、μ
xは前記エンベッディングベクトルのすべての成分の平均であり、σ
x
2は前記エンベッディングベクトルのすべての成分の分散であり、(e
x)
kは前記エンベッディングベクトルe
xのk番目の成分であり、
および
は前記フィーチャー別線形変換パラメータである、請求項8に記載のニューラルネットワークシステム。
[数学式2]
【数2】
【発明の詳細な説明】
【技術分野】
【0001】
本開示の多様な実施形態はエンベッディング正規化方法およびこれを利用した電子装置に関する。より具体的には、フィーチャーベクトルの重要度を保存しつつ、ニューラルネットワークモデルをトレーニングする方法に関する。
【背景技術】
【0002】
人工知能(artificial intelligence、AI)は多様な産業分野で活用されている。人間の思考と類似する方式で動作する人工知能は、標本となる対象が接近しようとする物体のフィーチャー(feature)を抽出するのに活用され得る。
【0003】
最近ニューラルネットワークモデルを通じて特定の物体に対する主要な関心事を確認する研究が進行されている。特定の物体に対する関心事が確認されるのであれば、該当関心事を通じてニューラルネットワークモデルで連結しようとする目的地に容易に誘導することができる。関心事に対する分析はニューラルネットワークモデルのトレーニングで多様な段階を制御して向上し得、主な関心事に対して重要度を高く策定して抽出する方式が活用され得る。
【発明の概要】
【発明が解決しようとする課題】
【0004】
特定の対象に対するフィーチャーベクトル間の学習相互作用はクリック率予測の根本的な解決課題であり得る。1次および2次フィーチャー相互作用を同時に考慮するFMは、クリック率予測の遂行において最も代表的なモデルであり得る。1次構成相互作用は個別構成自体における相互作用を意味し得、2次構成相互作用は構成間の対(pair-wise)の相互作用を意味し得る。例えば、AFMは構成相互作用の重要性を自動で捕らえるためにアテンションメカニズム(attention mechanism)を活用することができる。最近ではディープニューラルネットワークを通じての高次元の構成相互作用をモデリングするために、NFM、Wide&Deep、DeepFM、xDeeoFM、PNN、Autolnt、およびAFNが活用されている。
【0005】
最近では、クリック率予測の遂行に正規化(normalization)方式を適用しようとする多様な試みがある。NFM、AFN、およびAutoFISはバッチ正規化(batch normalization、BN)方式を活用してディープニューラルネットワークの構成要素トレーニングを安定的に遂行できる。PNNとMINAの場合は、クリック率予測モデルをトレーニングするためにレイヤ正規化(layer normalization、LN)方式を活用している。
【0006】
正規化方式を適用したクリック率予測モデルは、フィーチャーエンベッディングの重要度を保存せず、ディープニューラルネットワーク構成要素のトレーニング安定性のみを考慮している。すなわち、バッチ正規化とレイヤ正規化は個別の構成に対して正規化を遂行する時、同一の次元で一定のパラメータを活用して重要度に対する加重値を反映できない。正規化された値を通じての結果値が重要度を反映できないのであれば、クリック率の予測は正確度が低くなり得る問題がある。
【課題を解決するための手段】
【0007】
本開示の多様な実施形態に係る電子装置で使用者のクリック率(click through rate)を予測するためのニューラルネットワークモデルをトレーニングする方法は、フィーチャー別線形変換パラメータ(feature-wise linear transformation parameter)に基づいて前記エンベッディングベクトルを正規化する段階;正規化されたエンベッディングベクトルをニューラルネットワークレイヤに入力する段階を含み、前記フィーチャー別線形変換パラメータは、前記エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義される。
【0008】
前記正規化する段階は、前記エンベッディングベクトルの成分の平均を計算する段階;前記エンベッディングベクトルの成分の分散を計算する段階;および前記平均、前記分散および前記フィーチャー別線形変換パラメータに基づいて前記エンベッディングベクトルを正規化する段階を含むことができる。
【0009】
前記スケールパラメータおよび前記シフトパラメータはそれぞれ、前記エンベッディングベクトルと同一の次元のベクトルであり、すべての成分が同一の値であり得る。
【0010】
前記スケールパラメータおよび前記シフトパラメータは、スカラー値であり得る。
【0011】
本開示の多様な実施形態に少なくとも一つの電子装置によって具現された使用者のクリック率(click through rate)を予測するためのニューラルネットワークシステムは、エンベッディングレイヤ、正規化レイヤおよびニューラルネットワークレイヤを含み、前記エンベッディングレイヤは、フィーチャーベクトル(feature vector)に含まれたフィーチャー(feature)をエンベッディングベクトル(embedding vector)にマッピングし、前記正規化レイヤは、フィーチャー別線形変換パラメータ(feature-wise linear transformation parameter)に基づいて前記エンベッディングベクトルを正規化し、前記ニューラルネットワークレイヤは、正規化されたエンベッディングベクトルに基づいてニューラルネットワーク演算を遂行し、前記フィーチャー別線形変換パラメータは、前記エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義される。
【0012】
前記正規化レイヤは、前記エンベッディングベクトルの成分の平均を計算し、前記エンベッディングベクトルの成分の分散を計算し、前記平均、前記分散および前記フィーチャー別線形変換パラメータに基づいて前記エンベッディングベクトルを正規化することができる。
【0013】
前記フィーチャー別線形変換パラメータは、スケールパラメータ(scale parameter)およびシフトパラメータ(shift parameter)を含むことができる。
【0014】
前記スケールパラメータおよび前記シフトパラメータはそれぞれ、前記エンベッディングベクトルと同一の次元のベクトルであり、すべての成分が同一の値であり得る。
【0015】
前記スケールパラメータおよび前記シフトパラメータは、スカラー値であり得る。
【発明の効果】
【0016】
本開示の多様な実施形態に係るエンベッディング正規化方法は、このような限界を克服するために研究されている分散専用レイヤ正規化(variance-only layer normalization、VO-LN)とは異なってフィーチャーベクトルに対する加重値を反映できるパラメータに基づいて演算することができる。エンベッディング正規化によって演算されたパラメータに基づいて正規化値は多様なニューラルネットワークのモデルクラス(例:ディープ(deep)ニューラルネットワーク、浅い(shallow)ニューラルネットワーク)で広く活用され得、重要度に対する加重値を反映することができる。
【0017】
本開示の多様な実施形態に係るエンベッディング正規化方法によると、電子装置はフィーチャーベクトルの重要度を保存してクリック率予測モデルの性能を向上させることができる。バッチ正規化またはレイヤ正規化などの方式はフィーチャーエンベッディングの標準を過度に均等化(equalization)し、潜在的にモデルの性能(performance)を損傷させ得る恐れがあるが、本開示のエンベッディング正規化方法は個別フィーチャーエンベッディングの標準(norm)を明示的にモデリングすることによって、個別構成に対する重要度の分布(distribution)および収束(convergence)を速やかに遂行してクリック率の正確度を高めることができる。
【図面の簡単な説明】
【0018】
【
図1】本開示の多様な実施形態に係る電子装置の構成を示した概略的なブロック図である。
【
図2】本開示の多様な実施形態に係るエンベッディング正規化方法の概略的なフローチャートである。
【
図3】本開示の多様な実施形態に係るエンベッディング正規化レイヤを含むニューラルネットワークトレーニングモデルの構造を概略的に示した図面である。
【
図4】本開示の多様な実施形態に係るフィーチャーベクトルに対するエンベッディング正規化遂行に関連した例示図である。
【
図5】本開示の多様な実施形態に係るフィーチャーベクトルのエンベッディング正規化遂行の構造を概略的に示した図面である。
【
図6】
図4のエンベッディング正規化過程の遂行による正規化された値に関する具体的な例示図である。
【発明を実施するための形態】
【0019】
実施形態で使われる用語は、本開示での機能を考慮しつつ、できる限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新しい技術の出現などにより変わり得る。また、特定の場合には出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されなければならない。
【0020】
明細書全体において、或る部分が何らかの構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。また、明細書に記載された「…部」、「…モジュール」等の用語は少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアまたはソフトウェアで具現されたりハードウェアとソフトウェアの結合で具現され得る。
【0021】
明細書全体で記載された「a、b、およびcのうち少なくとも一つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、cすべて」を包括することができる。
【0022】
以下で言及される「端末」はネットワークを通じてサーバーや他端末に接続できるコンピュータや携帯用端末で具現され得る。ここで、コンピュータは例えば、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)等を含み、携帯用端末は例えば、携帯性と移動性が保証される無線通信装置であって、IMT(International Mobile Telecommunication)、CDMA(Code Division Multiple Access)、W-CDMA(W-Code Division Multiple Access)、LTE(Long Term Evolution)等の通信基盤端末、スマートフォン、タブレットPCなどのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができる。
【0023】
以下では、添付した図面を参照して本開示の実施形態について、本開示が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本開示は多様な異なる形態で具現され得、ここで説明する実施形態に限定されない。
以下、本発明の実施形態を添付された図面を参照して詳細に説明する。
【0024】
実施形態の説明において、本発明が属する技術分野に広く知られており、本発明に直接的に関わらない技術内容については説明を省略する。これは不要な説明を省略することによって本発明の要旨を曖昧にせずさらに明確に伝達するためである。
【0025】
同様の理由により、添付図面において一部の構成要素は誇張または省略されたり概略的に図示された。また、各構成要素の大きさは実際の大きさを全的に反映するものではない。各図面で同一または対応する構成要素には同一の参照番号を付与した。
【0026】
本発明の利点および特徴、そしてそれらを達成する方法は、添付される図面と共に詳細に後述されている実施形態を参照すると明確となるであろう。しかし、本発明は以下で開示される実施形態に限定されるものではなく互いに異なる多様な形態で具現され得、ただし、本実施形態は本発明の開示を完全なものとし、本発明が属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によって定義されるのみである。明細書全体に亘って同一の参照符号は同一の構成要素を指称する。
【0027】
この時、処理フローチャートの各ブロックとフローチャートの組み合わせは、コンピュータプログラムインストラクションによって遂行され得ることが理解できるであろう。これらコンピュータプログラムインストラクションは汎用コンピュータ、特殊用コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサに搭載され得るため、コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサを通じて遂行されるそのインストラクションがフローチャートブロック(ら)で説明された機能を遂行する手段を生成することになる。これらコンピュータプログラムインストラクションは特定の方式で機能を具現するために、コンピュータまたはその他プログラム可能なデータプロセッシング装備を指向できるコンピュータ利用可能またはコンピュータ読み取り可能メモリに保存されることも可能であるため、そのコンピュータ利用可能またはコンピュータ読み取り可能メモリに保存されたインストラクションは、フローチャートブロック(ら)で説明された機能を遂行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータプログラムインストラクションはコンピュータまたはその他プログラム可能なデータプロセッシング装備上に搭載されることも可能であるため、コンピュータまたはその他プログラム可能なデータプロセッシング装備上で一連の動作段階が遂行されてコンピュータで実行されるプロセスを生成してコンピュータまたはその他プログラム可能なデータプロセッシング装備を遂行するインストラクションは、フローチャートブロック(ら)で説明された機能を遂行するための段階を提供することも可能である。
【0028】
また、各ブロックは特定された論理的機能(ら)を実行するための一つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部を示すことができる。また、いくつかの代替実行例においてはブロックで言及された機能が順序を外れて発生することも可能であることに注目されたい。例えば、連続して図示されている二つのブロックは事実上実質的に同時に遂行されてもよく、またはそのブロックが時々該当する機能により逆順で遂行されてもよい。
【0029】
人工知能(artificial intelligence、AI)は人間のように思考し学習し判断する一連の論理アルゴリズムを通じて、人間の知能を真似て動作するコンピュータプログラムの一種であり得る。いわゆる人工知能は、人間の神経系に似たニューラルネットワーク(neural network)を通じて人間の脳に対応するプロセッサで複雑な演算を処理することができる。本明細書ではディープラーニング(deep learning)に含まれ得るマシンラーニング(machine learning)および異なる学習を通じて特徴(feature)を正規化しモデリング(modeling)する過程を説明する。本明細書内ではマシンラーニングと機械学習の用語が混用されて使われ得る。
【0030】
ニューラルネットワークは人間の神経系の基礎単位となるニューロンの動作原理とニューロン間の連結関係をモデリングしたネットワークを意味し得る。ニューラルネットワークは個別ノード(node)またはプロセッシング要素(processing element)をレイヤ(layer)の形態で連結したデータ処理システムであり得る。ニューラルネットワークは複数のレイヤを含むことができ、それぞれのレイヤは複数のニューロンを含むことができる。また、ニューラルネットワークはニューロン間にデータを伝達できる神経刺激体に対応するシナプスを含むことができる。本明細書内ではレイヤと階層の用語が混用されて使われ得る。
【0031】
具体的には、ニューラルネットワークは人工のニューロンが反復的な学習を通じてシナプスの結合強度を変化させて与えられた問題または変数が発生した問題に対する解決能力を有するデータ処理モデルを全般的に意味し得る。本明細書内ではニューラルネットワークと人工ニューラルネットワークの用語が混用されて使われ得る。
【0032】
ニューラルネットワークはトレーニングデータ(training data)を利用してトレーニングすることができる。具体的には、トレーニングは入力データを分類(classification)、回帰分析(regression)、群集(clustering)するなどの目的を達成するために、特徴データを利用してニューラルネットワークのパラメータを決定する過程を含むことができる。より具体的には、パラメータを決定する要素として加重値(weight)または偏向(bias)があり得る。
【0033】
ニューラルネットワークは入力データをトレーニングしてパターンにより分類または群集化することができ、トレーニングされたニューラルネットワークは学習モデル(trained model)と指称され得る。具体的には、トレーニングの方式は教師あり学習、教師なし学習、半教師あり学習(semi-supervised learning)、強化学習(reinforced learning)に区分され得る。より具体的には、教師あり学習はトレーニングデータから関数を類推するためのマシンラーニングの一方式であり得る。マシンラーニングを通じて類推された関数のうち、連続した結果値を出力するものは回帰分析であり得、入力データのクラス(class)を予測して結果値を出力するものが分類(classification)であり得る。
【0034】
教師あり学習ではトレーニングデータに対するラベル(label)が与えられ得、ラベルはニューラルネットワークが推論しなければならない有意味な結果値を含むことができる。具体的には、ニューラルネットワークが推論しなければならない結果値はラベリングデータ(labeling data)であり得る。より具体的には、トレーニングデータとトレーニングデータに対応するラベリングデータは一つのトレーニングセットで構成され得、ニューラルネットワークはトレーニングセットの形態で入力値と結果値を獲得することができる。
【0035】
トレーニングデータは複数のフィーチャーベクトル(feature vector)を含むことができ、ニューラルネットワークはトレーニングデータを推論して個別のフィーチャーベクトルにラベルを付けてラベリングデータを結果値として出力することができる。ニューラルネットワークはトレーニングデータとラベリングデータを通じて各データの関連関係に対する関数を類推することができる。また、ニューラルネットワークで類推された関数に対するフィードバックを通じて個別ベクトルに対するパラメータが最適化され得る。
【0036】
図1は、本開示の多様な実施形態に係る電子装置の構成を示した概略的なブロック図である。
【0037】
電子装置はニューラルネットワークを含む装置を含むことができる。電子装置はトレーニングデータを利用してマシンラーニングを遂行できる装置であり、ニューラルネットワークで構成されたモデルを利用して学習を遂行できる装置を含むことができる。例えば、電子装置はデータマイニング、データ分析、知能型意思決定、およびマシンラーニングアルゴリズムのために利用されるデータを受信、分類、保存、および出力するように構成され得る。
【0038】
電子装置はニューラルネットワークをトレーニングするための多様な装置を含むことができる。例えば、電子装置は複数のサーバーセット、クラウドサーバー、またはこれらの組み合わせで具現され得る。具体的には、電子装置は分散処理を通じてデータ分析またはトレーニングで結果値を獲得することができる。
【0039】
図1を参照すると、電子装置はプロセッサ110、入出力インターフェース(I/O interface)120、およびメモリ130を構成要素として含むことができる。
図1に図示された電子装置の構成要素はこれに限定されるものではなく、追加または置換され得る。
【0040】
プロセッサ110はデータ分析およびマシンラーニングアルゴリズムを通じて電子装置の動作を制御または予測することができる。プロセッサ110はデータを要請、検索、受信、または活用することができ、トレーニングを通じて学習した好ましい動作を実行するように電子装置を制御することができる。
【0041】
プロセッサ110はユーザーの入力または自然語入力に基づいて入力値に対する結果値を導き出し感知するように構成され得る。プロセッサ110はプロセッシングおよび保存のためのデータを収集するように構成され得る。データの収集はセンサを通じてデータを感知したり、メモリ130に保存されたデータを抽出したり、入出力インターフェース120を通じて外部装置からデータを受信することを含むことができる。
【0042】
プロセッサ110は電子装置の動作ヒストリーをデータ化してメモリ130に保存することができる。プロセッサ110は保存された動作ヒストリーデータおよびトレーニングされたモデルに基づいて、特定の動作を遂行するための最上の結果値を獲得することができる。
【0043】
プロセッサ110は特定の動作が遂行される場合、データ分析およびマシンラーニングアルゴリズムを通じて特定の動作の実行によるヒストリーを分析することができる。具体的には、プロセッサ110は分析したヒストリーに基づいて以前にトレーニングしたデータのアップデートを遂行できる。すなわち、プロセッサ110はアップデートされたデータに基づいてデータ分析およびマシンラーニングアルゴリズムの正確性を向上させることができる。
【0044】
入出力インターフェース120は電子装置のメモリ130に保存されたデータまたはプロセッサ110により処理されたデータを他の装置に伝送したり、他の装置から電子装置にデータを受信する機能を遂行することができる。
【0045】
プロセッサ110はトレーニングデータまたはトレーニングデータセットを利用してニューラルネットワークをトレーニング(例えば、学習)させることができる。例えば、プロセッサ110は獲得した入力値を前処理したデータを通じてニューラルネットワークをトレーニングさせることができる。他の例として、プロセッサ110はメモリ130に保存された前処理データを通じてニューラルネットワークをトレーニングさせることができる。具体的には、プロセッサ110は多様なトレーニング方式を利用してニューラルネットワークを繰り返しトレーニングさせることによって、ニューラルネットワークの最適化モデルおよび最適化に活用されるパラメータを決定することができる。
【0046】
メモリ130はプロセッサ110またはニューラルネットワークでトレーニングされたモデルを保存することができる。例えば、メモリ130はトレーニングされたモデルまたはトレーニング中のモデルを区分して保存することができる。具体的には、メモリ130はニューラルネットワークがトレーニングされる過程のモデルを保存してトレーニングヒストリーによるトレーニングされたモデルを保存することができる。また、メモリ130はトレーニングされたモデルがアップデートされたモデルを保存することができる。
【0047】
メモリ130は入力値である入力データ、モデルトレーニングのためのトレーニングデータ、モデルトレーニングヒストリーデータなどを保存することができる。メモリ130に保存された入力データは、モデルトレーニングに適合に加工されたデータと加工されていないローデータ(raw data)であり得る。
【0048】
実施形態によりプロセッサ110によって学習されるニューラルネットワークモデルの正規化(normalization)は、バッチ正規化(batch normalization、BN)の方式、レイヤ正規化(layer normalization、LN)の方式またはこれを活用した方式であり得る。正規化はパラメータを利用してデータを加工する過程を含むことができ、本明細書では個別データの特性に対応する個別のフィーチャーベクトル(feature vector)を分散、平均、パラメータ(例えば、第1パラメータまたは第2パラメータ)を通じて正規化する過程を説明する。特に、本明細書で説明する正規化はエンベッディング正規化(embedding normalization、EN)と指称され得る。
【0049】
実施形態により正規化はさらに迅速にフィーチャーベクトルから特性を抽出できる結果値を導き出すことができ、特に、クリック率(click through rate、CTR)を予測するモデルをトレーニングさせるのに活用され得る。クリック率はユーザーが関心を持っている構成に対してクリックがなされ得る確率を意味し得、クリック率の予測はバッチ正規化やレイヤ正規化のような既存の正規化方式による場合、正確度が劣り得る。エンベッディング正規化は、ニューラルネットワークモデルを安定的にトレーニングさせるだけでなく、クリック率の予測正確度を高めることができる。より具体的には、実施例のモデルは学習過程で各構成の重要度を維持しながらもモデルの学習速度を高めることができ、反復学習による安全性を高めることができる。また、本開示は学習過程で構成の重要度を保存することによって、ディープラーニングモデルだけでなくFM、FFMのようにNeural Componentがないクリック率予測モデルにおいても性能の向上をもたらし得る。
【0050】
図2は、本開示の多様な実施形態に係るエンベッディング正規化方法の概略的なフローチャートである。
【0051】
S210で電子装置は第1トレーニングデータを受信することができる。トレーニングデータはフィーチャーベクトル(feature vector)を含むことができる。フィーチャーベクトル(feature vector)はそれぞれのフィーチャー(feature)を含むことができる 。電子装置はニューラルネットワークモデルをトレーニングさせるための入力データでフィーチャーベクトルを獲得することができる。フィーチャーはユーザーに対する要素およびアイテムに対する要素などを含むことができる。一例として、フィーチャーはユーザーに対する要素はユーザーの年齢、性別、プラットホーム接続時刻、プラットホーム内クリックログ、およびプラットホーム利用ヒストリーなどを示すことができる。プラットホームはユーザーが接続したオンラインプラットホームであり得る。他の例として、アイテムに対する要素はプラットホーム内コンテンツの種類、コンテンツの構成、およびコンテンツの配置領域などを含むことができる。コンテンツはプラットホーム内に掲示された掲示物であり得る。例えば、フィーチャーベクトルはx={x1、x2、x3、…、xi、…、xn}(nは自然数)であり得、フィーチャーベクトルのそれぞれの成分(x1~xn)はそれぞれのフィーチャーであり得る。
【0052】
実施形態により、電子装置は個別のフィーチャーをエンベッディングベクトル(embedding vector)にマッピング(mapping)することができる。マッピングはそれぞれのフィーチャーに対するエンベッディングの遂行を意味し得る。マッピングされたエンベッディングベクトルはそれぞれのフィーチャーに対応してe1、e2、e3、e4、…、enなどにマッピングされ得る。例えば、電子装置はフィーチャーベクトルxに含まれたそれぞれのフィーチャー(x1~xn)をエンベッディングルックアップ(embedding lookup)してそれぞれ対応するエンベッディングベクトル(e1~en)にマッピングすることができる。この時、それぞれのエンベッディングベクトル(e1~en)はd(dは自然数)次元のベクトルであり得る。
【0053】
多様な実施形態によると、電子装置はフィーチャーベクトルの第1成分を第1エンベッディングベクトルにマッピングすることができ、電子装置はフィーチャーベクトルの第2成分を第2エンベッディングベクトルにマッピングすることができる。すなわち、エンベッディングされたフィーチャーベクトルに含まれたn個のフィーチャーは、それぞれ第1エンベッディングベクトル~第nエンベッディングベクトルにマッピングされ得る。フィーチャーベクトルの各フィーチャー(例えば、i番目の成分)をマッピングしたエンベッディングベクトルは第iエンベッディングベクトルと指称され得る。
【0054】
エンベッディングベクトルは学習されるパラメータ(learnable parameter)であり得る。エンベッディングベクトルはニューラルネットワークモデルの学習が進行されるにつれて、ニューラルネットワークモデルが意図された目的を遂行できるように学習され得る。
【0055】
S220で電子装置はフィーチャーベクトルをエンベッディングしてエンベッディングマトリクス(embedding matrix)を獲得することができる。電子装置はフィーチャーベクトルをエンベッディングして入力マトリクスを生成することができる。例えば、入力マトリクスはバッチサイズ(batch size)に該当する個数のフィーチャーベクトルをエンベッディングした結果を含むことができる。すなわち、フィーチャーベクトルがn次元であり、エンベッディングベクトルがd次元であり、バッチサイズがbである場合、入力マトリクスはb*n*dの大きさであり得る。
【0056】
S230で電子装置はエンベッディングマトリクスに基づいてエンベッディングベクトルを正規化することができる。電子装置はフィーチャーベクトルに対するエンベッディングを通じて、エンベッディングベクトルで構成されたエンベッディングマトリクスEを出力することができる。エンベッディングマトリクスは入力マトリクスであり得る。
【0057】
実施形態により、エンベッディングベクトルに正規化(normalization)が遂行され得る。電子装置はそれぞれのエンベッディングベクトルの重要度(例えば、大きさ(norm))が保存されるように正規化を遂行できる。従来の場合、正規化によって各エンベッディングベクトルの大きさ(norm)が均等化(equalize)される傾向があるため加重値消失(gradient vanishing)または加重値爆発(gradient exploding)のような問題が発生する可能性があるが、本開示の電子装置はこのような問題発生を防止することができる。
【0058】
実施形態によると、電子装置は線形変換パラメータに基づいてエンベッディングベクトルに正規化を遂行できる。線形変換パラメータ(linear transformation parameter)はスケールパラメータ(scale parameter)およびシフトパラメータ(shift parameter)を含むことができる。スケールパラメータおよびシフトパラメータは、それぞれエンベッディングベクトルと同一の次元のベクトルで表現され得る。また、スケールパラメータおよびシフトパラメータはそれぞれすべての成分が同一の値であり得る。すなわち、電子装置は正規化を遂行する時、エンベッディングベクトルのそれぞれの成分に同一の値のスケールパラメータおよびシフトパラメータを適用することができる。
【0059】
実施形態によると、エンベッディング正規化は個別エンベッディングベクトルのすべての成分を基準として同一の次元に対応する同一の値のスケールパラメータおよびシフトパラメータを適用することができる。すなわち、電子装置はエンベッディングベクトルの同一のインデックスに対するすべての成分に適用される線形変換パラメータ値を同一に適用することができる。これはレイヤ正規化による時、次元別パラメータ(demension-wise parameter)が設定されることとの差異点であり得る。
【0060】
実施形態により、本開示のエンベッディング正規化は一つのエンベッディングベクトルのすべての成分に同一のスケールパラメータ値およびシフトパラメータ値が適用されるように線形変換パラメータを定義することによって、エンベッディングベクトルの重要度が保存されるように正規化を遂行できる。すなわち、電子装置はそれぞれのエンベッディングベクトルに対して、フィーチャー別線形変換パラメータ(feature-wise linear transformation parameters)に基づいて正規化を遂行できる。フィーチャー別線形変換パラメータはスケールパラメータおよびシフトパラメータを含むことができる。電子装置はエンベッディングベクトルのすべての成分に同一のスカラー値で定義されたスケールパラメータおよびシフトパラメータに基づいて正規化を遂行できる。
【0061】
図3は、本開示の多様な実施形態に係るエンベッディング正規化レイヤを含むニューラルネットワークモデルの構造を概略的に示した図面である。
図3には、フィーチャーベクトル310がニューラルネットワークモデルの入力されて結果値が出力される過程が図示される。
【0062】
ニューラルネットワークシステムは、シーケンスのうち最も低いレイヤから最も高いレイヤまでのシーケンスで配列された多数のニューラルネットワークレイヤを含むことができる。ニューラルネットワークシステムは、ニューラルネットワーク入力をシーケンスの各レイヤを通じてプロセッシングすることによって、ニューラルネットワーク入力からニューラルネットワーク出力を生成することができる。
【0063】
実施形態により、ニューラルネットワークシステムは入力データを受信し、入力データに対する点数を生成することができる。例えば、ニューラルネットワークシステムの入力データがコンテンツから抽出された特徴に対応するフィーチャーである場合、ニューラルネットワークシステムはオブジェクトカテゴリーそれぞれに対する点数を出力することができる。それぞれに対する点数はコンテンツがカテゴリーに含まれるオブジェクトの構成を含む選択可能性を示すことができる。他の例として、ニューラルネットワークシステムに対する入力データが特定プラットホーム内の記事に対するイメージのフィーチャーである場合、ニューラルネットワークシステムは特定プラットホーム内の記事に対するイメージが選択される可能性を示す点数であり得る。
【0064】
実施形態により、ニューラルネットワークモデルはフィーチャーベクトル310を入力データとして、エンベッディングレイヤ320、正規化レイヤ330、およびニューラルネットワークレイヤ340を通じて結果値を出力することができる。この場合、フィーチャーベクトル310は
図3には図示されていない低いレイヤ(lower layer)の出力であってもよく、ニューラルネットワークレイヤ340は複数のニューラルネットワークレイヤを含むことができる。
【0065】
エンベッディングレイヤ320はフィーチャーベクトル310に対するエンベッディングを遂行できる。エンベッディングレイヤ320はフィーチャーベクトル310に含まれたそれぞれのフィーチャーをエンベッディングベクトルにマッピングし、エンベッディングベクトルを含む入力マトリクスを生成することができる。エンベッディングレイヤ320のエンベッディング動作は、
図2のS220で説明したエンベッディング動作と同一に遂行され得る。正規化レイヤ330は入力マトリクスに含まれたエンベッディングベクトルに対する正規化を遂行できる。実施形態によると、正規化は下記の数学式(1)によってなされ得る。
【0066】
【0067】
前記数学式(1)で、e
xはフィーチャーベクトル310に含まれたフィーチャーxに対応するエンベッディングベクトルを示し、
はフィーチャーxに対応する正規化されたエンベッディング(normalized embedding)であり得る。
は成分別積演算(element-wise multiplication operation)を意味し得る。εは相対的に小さいスカラー値であり、正規化が遂行される間、オーバーフロー(overflow)を防止するために分散に加えられ得る。
【0068】
前記数学式(1)で、μxとσx
2はエンベッディングベクトルexの成分に対する平均(mean)と分散(variance)であり得る。μxおよびσx
2はそれぞれ数学式(2)~数学式(5)のように計算され得る。数学式(2)~数学式(5)で、(ex)kはエンベッディングベクトルexのk番目の成分を示し、dはエンベッディングベクトルexの次元(すなわち、成分の個数)を示す。
【0069】
【0070】
【0071】
【0072】
【0073】
数学式(1)で、γ
xとβ
xは線形変換パラメータ(linear transform parameter)であり得る。γ
xとβ
xはそれぞれスケールパラメータ(scale parameter)およびシフトパラメータ(shift parameter)であり得る。γ
xとβ
xはそれぞれ下記の数学式(6)および数学式(7)のように設定され得、γ
xとβ
xは学習されるパラメータ(learnable parameter)であり得る。すなわち、学習されるパラメータγ
xとβ
xそれぞれは、エンベッディングベクトルと同一の次元のベクトルであり、すべての成分がそれぞれ
および
である学習されるパラメータであり得る。
【0074】
【0075】
【0076】
実施形態によると、電子装置は数学式(1)~数学式(7)を参照して説明した正規化レイヤ330の正規化動作を、数学式(8)のように表現された方式で遂行できる。
【0077】
【0078】
数学式(8)で、e
xはエンベッディングベクトルであり、dはエンベッディングベクトルの次元であり、μ
xはエンベッディングベクトルのすべての成分の平均であり、σ
x
2はエンベッディングベクトルのすべての成分の分散であり、(e
x)
kはエンベッディングベクトルe
xのk番目の成分であり、
および
はフィーチャー別線形変換パラメータであり得る。
【0079】
フィーチャー別線形変換パラメータ
および
は学習されるパラメータ(learnable parameter)であり得る。フィーチャー別線形変換パラメータ
および
はそれぞれスカラー値であり得る。フィーチャー別線形変換パラメータは正規化過程で、エンベッディングベクトルのすべての成分に対して同一の値が適用されるように定義され得る。また、電子装置はエンベッディングベクトルの成分に対する平均、分散、およびフィーチャー別線形変換パラメータを基盤としてエンベッディングベクトルに対する正規化を遂行できる。
【0080】
一実施形態によると、エンベッディング正規化を通じて正規化されたエンベッディングベクトルはエンベッディングベクトル間の大きさ(norm)の差が相対的に大きくてもよい。具体的には、エンベッディング正規化によって正規化されたエンベッディングベクトルは対応するフィーチャーベクトルによって大きさ(norm)の差が大きく示されて区別され得る。これに伴い、エンベッディング正規化によって正規化されたエンベッディングベクトルはフィーチャーベクトルが有する異なる重要度を容易に把握できるようにすることができる。
【0081】
実施形態に係る電子装置は、モデルアーキテクチャー(model architecture)やトレーニングプロセスの追加の変更がなくても、フィーチャーに対するエンベッディングと共にエンベッディング正規化を活用することができる。具体的には、エンベッディング正規化は与えられたフィーチャーを表現するためにフィーチャーエンベッディングを使うすべての種類のクリック率予測モデルに統合され得、それだけ高い適用汎用性を有する。
【0082】
多様な実施形態によると、電子装置はエンベッディングレイヤ320および正規化レイヤ330を通じてエンベッディング正規化されたエンベッディングベクトルをニューラルネットワークレイヤ320の入力として、ニューラルネットワークモデルをトレーニングさせることができる。これに伴い、電子装置はフィーチャーベクトル310に対する結果値を出力として獲得することができる。
【0083】
図4は、本開示の多様な実施形態に係るフィーチャーベクトルに対するエンベッディング正規化遂行に関連した例示図である。
【0084】
多様な実施形態によると、電子装置はカーディナリティ(cardinality)と希少性(sparsity)が非常に高い機能を活用してクリック率予測を遂行できる。カーディナリティは一つのリレーションを構成するタプル(tuple)の個数を意味し得、特定のデータ集合のユニーク(unique)な値の個数を意味し得る。例えば、データが「性別」と関連した集合であれば、「性別」に対するカーディナリティは「男性」と「女性」の区別によって2に定められ得る。具体的には、データ集合内の与えられたリストと関係のある属性値をタプルといい、そのタプルの個数がカーディナリティに対応し得る。フィーチャーベクトルの成分がニューラルネットワークモデルのクリック率予測に異なって寄与できるため、電子装置はフィーチャーベクトルの重要度を明確に区別する機能の遂行が必要となり得る。フィーチャーベクトルに対するエンベッディング正規化の結果値は自然に対応するフィーチャーベクトルの重要度を暗示することができる。
【0085】
図4を参照すると、電子装置はエンベッディングベクトル410を同一成分のインデックス(i)単位にして入力として獲得することができる。例えば、電子装置はフィーチャーx
1、x
2、x
3、およびx
4にそれぞれ対応するエンベッディングベクトル410(e
1、e
2、e
3、およびe
4)を個別インデックスである第1インデックス、第2インデックス、第3インデックス、および第4インデックスにより入力として獲得することができる。すなわち、電子装置はフィーチャーベクトルに対するリレーションを確認してカーディナリティと希少性を活用することができる。電子装置は個別のエンベッディングベクトル410の成分ごとにエンベッディング正規化を遂行時にフィーチャー別線形変換パラメータ(feature-wise linear transformation parameters)を利用することによって、エンベッディングベクトル410のそれぞれの重要度を明確に区別することができる。
【0086】
多様な実施形態によると、電子装置はエンベッディングベクトル410の成分の平均420、分散430、およびパラメータ440を通じてエンベッディングベクトル410に対するエンベッディング正規化を遂行できる。パラメータ440はフィーチャー別線形パラメータ(feature-wise linear parameter)であって、エンベッディングベクトル410に正規化が遂行されるとき、フィーチャー別に一つのエンベッディングベクトル410のすべての成分に対して同一の値が利用されるように設定され得る。
【0087】
実施形態によると、パラメータ440は第1パラメータ441および第2パラメータ442を含むことができる。ここで、第1パラメータ441はスケールパラメータ(scale parameter)に対応し得、第2パラメータ442はシフトパラメータ(shift parameter)に対応し得る。第1パラメータ441および第2パラメータ442はそれぞれエンベッディングベクトル410と同一の次元のベクトルであり、すべての成分が同一の値であり得る。これに伴い、電子装置はエンベッディングベクトル410が同一のインデックスである場合、同一のインデックスのすべての成分に対して同一のパラメータ値を適用して正規化を遂行できる。
【0088】
一実施形態によると、電子装置は代表的な推薦システムモデルであるFM(factorization machine)を通じてクリック率予測を遂行できる。特に、電子装置が本開示のエンベッディング正規化を活用してFMで作った予測は、下記の数学式(9)のように導き出され得る。
【0089】
【0090】
前記数学式(9)で、w
0は全域偏向(global bias)を意味し、w
xiはi番目のフィーチャーベクトルの成分であるx
iの1次相互作用をモデリングするための加重値であり得る。
および
はx
iおよびx
jに対応する正規化されたエンベッディング(normalized embedding)であり得る。
【0091】
実施形態によりクリックラベルyと関係がなく、yに対する有用なシグナルを含まないフィーチャーx’を仮定することができる。例えば、x’はyの予測に重要でないこともあり得るため、正規化された値の内積項がすべてのフィーチャーベクトルに対して0であり得る。すなわち、重要度の低いフィーチャーベクトルに対しては内積が0に対応し得る。もし、重要度の低いフィーチャーベクトルに対して内積を0として演算しないことになると、電子装置のニューラルネットワークモデルのトレーニングの遂行でノイズが発生し得る。
【0092】
実施形態によると、電子装置はフィーチャーベクトルに対するエンベッディング正規化を通じて正規化されたエンベッディングベクトルと正規化されたエンベッディングベクトルで構成されるエンベッディングマトリクスを導き出すことができる。電子装置はエンベッディングベクトル410に対する別途の制約条件(例:内積が0となる条件)を満たすために、直交する他の成分を確認する過程を経ることもある。このような制約条件は、他の構成に対するエンベッディングが直交するd-1次元のみを活用するようにして、エンベッディング空間の有効次元(effective dimension)を減らしモデル容量(model capacity)を損傷(harm)させ得る。
【0093】
既存の正規化方式は互いに異なるフィーチャーベクトルの成分別重要度を均等化する副作用が存在し得る。本開示の電子装置はバッチ正規化またはレイヤ正規化の長所を取りつつ、重要度の明確な判断のために個別のフィーチャーベクトルの意味を明確に保存できるように、フィーチャー別線形変換パラメータをすべての成分に対して同一の値で適用してエンベッディング正規化を遂行できる。
【0094】
図5は、本開示の多様な実施形態に係るフィーチャーベクトルのエンベッディング正規化遂行の構造を概略的に示した図面である。
【0095】
多様な実施形態によると、電子装置はトレーニングデータに含まれたフィーチャーベクトルをエンベッディングしたエンベッディングベクトルで構成されるエンベッディングマトリクスを通じて、ニューラルネットワークモデルをトレーニングさせることができる。
【0096】
電子装置はニューラルネットワークモデルを通じてのトレーニングで、正規化レイヤ520を利用してエンベッディングマトリクスに対する正規化を遂行できる。トレーニングデータに対するエンベッディングマトリクスを正規化して得ることになる結果値は正規化された値で表現され得る。正規化された値は正規化レイヤ520でパラメータ510(例:
図4のパラメータ440)を適用して獲得され得る。電子装置がニューラルネットワークをトレーニングさせるために正規化レイヤ520で適用したパラメータ510はガンマ(例:
図4の第1パラメータ441)とベータ(例:
図4のパラメータ442)に対応し得る。また、パラメータ510と正規化された値に基づいて生成された新しいパラメータ530は、新しいガンマと新しいベータ値に対応し得る。電子装置は新しいパラメータ530を他のトレーニングデータに適用してエンベッディング正規化を遂行できる。多様な実施形態によると、電子装置はニューラルネットワークモデルでのトレーニング時、逆伝播を通じて新しいパラメータ530を獲得することができる。
【0097】
一実施形態によると、電子装置はエンベッディングベクトルのすべての成分に同一のパラメータを適用して加重値を反映することができる。例えば、フィーチャーベクトルのうちユーザーの関心度が高いためクリックにつながって選択が予想される、重要度が高いフィーチャーベクトルに対しては加重値が高く決定され得る。すなわち、エンベッディング正規化で、エンベッディングベクトルのすべての成分に適用されるパラメータは反復的なトレーニングによって決定され得る。電子装置はニューラルネットワークモデルを繰り返しトレーニングさせてエンベッディングマトリクスに適用される正規化パラメータ(例:
図4のパラメータ440)を最適化することができる。
【0098】
図6は、
図4のエンベッディング正規化過程の遂行による正規化された値に関する具体的な例示図である。
図6を参照すると、
図4のエンベッディング正規化方法とともに、バッチ正規化方式とレイヤ正規化方式を通じての正規化された値の結果を比較することができる。
【0099】
実施形態によると、本開示のエンベッディング正規化方法は、フィーチャーを潜在空間(latent space)上のエンベッディングベクトルでマッピング(mapping)するエンベッディングテクニックと共に使われ得る。例えば、与えられた入力データであるxに対して、電子装置はフィーチャーベクトルxをエンベッディングしてエンベッディングベクトルeで構成された入力マトリクス(input matrix)Eを生成することができる。例えば、フィーチャーベクトルxはフィーチャーx1、x2、x3、およびx4をそれぞれの成分として含むことができる。
【0100】
図6の最右側のグラフを参照すると、バッチ正規化(a)またはレイヤ正規化(b)によって正規化された値は個別成分に対する加重値を反映できないため、重要度の差を示すことができない。反面、
図6のエンベッディング正規化(c)方法によって正規化された値は、個別成分に対する加重値を反映してe
1およびe
3で十分な重要度を把握できるようにする。エンベッディング正規化方法は、同一の入力データに対してバッチ正規化またはレイヤ正規化より速い学習速度で高い正確度の結果値を獲得することができ、これは
図6でのように他の正規化方式での正確度の側面で比較される。
【0101】
図6を参照すると、電子装置はエンベッディング正規化レイヤで第1エンベッディングベクトルに含まれたすべての次元の成分に対して、第1インデックスによる第1パラメータおよび第2パラメータに基づいて第1正規化値を生成することができる。例えば、第1エンベッディングベクトルe
1はx
1がマッピングされたエンベッディングベクトルであり、第1エンベッディングベクトルは1.0、-1.3、-0.4をそれぞれの次元にそれぞれの成分として含むことができる。ここで、1.0は第1エンベッディングベクトルの1次元の成分に対応し、-1.3は2次元の成分に対応し、-0.4は3次元の成分に対応し得る。
【0102】
実施形態によると、電子装置は第1エンベッディングベクトルおよび第2エンベッディングベクトルの成分の平均および分散をそれぞれ演算することができる。
図6を参照すると、電子装置はx
1がマッピングされたエンベッディングベクトルであるe
1の成分に対する平均および分散を演算することができる。エンベッディング正規化の平均および分散は個別のエンベッディングベクトルの成分により演算され、個別のエンベッディングベクトルのすべての次元に対する平均および分散に対応する。例えば、
図6のエンベッディング正規化で、第1エンベッディングベクトルの成分に対する平均と分散は-0.2と0.9で演算される。
【0103】
実施形態によると、第1パラメータおよび第2パラメータはエンベッディングベクトルと同一の次元のベクトルであり、すべての成分が同一の値を有することができる。
図6を参照すると、第1パラメータであるガンマの第1インデックスに対応する値は2.5である。また、第2パラメータであるベータの第1インデックスに対応する値は-1.2である。電子装置は、エンベッディング正規化の遂行時、個別エンベッディングベクトルの成分インデックス(例:第1エンベッディングベクトルの成分インデックスは1であり、第2エンベッディングベクトルの成分インデックスは2である。)に対応する第1パラメータ第2パラメータを個別エンベッディングベクトルのすべての次元の成分に同一の値で適用することができる。
【0104】
一方、本明細書と図面には本発明の好ましい実施形態について開示し、たとえ特定用語が使われたが、これは単に本発明の技術内容を容易に説明し発明の理解を助けるための一般的な意味で使われたものであり、本発明の範囲を限定しようとするものではない。ここに開示された実施形態の他にも本発明の技術的思想に基づいた他の変形例が実施可能であることは本発明が属する技術分野で通常の知識を有する者に自明なものである。
【0105】
前述した実施形態に係る電子装置または端末は、プロセッサ、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザーインターフェース装置などを含むことができる。ソフトウェアモジュールまたはアルゴリズムで具現される方法は前記プロセッサ上で実行可能なコンピュータ読み取り可能なコードまたはプログラム命令であり、コンピュータ読み取り可能な記録媒体上に保存され得る。ここで、コンピュータ読み取り可能な記録媒体としては、マグネチック保存媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ディーブイディー(DVD:Digital Versatile Disc))等がある。コンピュータ読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散されて分散方式でコンピュータ読み取り可能なコードが保存され実行され得る。媒体はコンピュータによって読み取り可能であり、メモリに保存され、プロセッサで実行され得る。
【0106】
本実施形態は機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは特定の機能を実行する多様な個数のハードウェアまたは/およびソフトウェア構成で具現され得る。例えば、実施形態は一つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。また、本実施形態は電子的な環境設定、信号処理、および/またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的で物理的な構成として限定されるものではない。前記用語はプロセッサなどと連係してソフトウェアの一連の処理(routines)の意味を含むことができる。
【0107】
前述した実施形態は一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。