(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-01
(45)【発行日】2022-07-11
(54)【発明の名称】ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器
(51)【国際特許分類】
G06N 3/04 20060101AFI20220704BHJP
【FI】
G06N3/04
(21)【出願番号】P 2020551812
(86)(22)【出願日】2019-08-12
(86)【国際出願番号】 CN2019100212
(87)【国際公開番号】W WO2020048292
(87)【国際公開日】2020-03-12
【審査請求日】2020-09-25
(31)【優先権主張番号】201811027795.X
(32)【優先日】2018-09-04
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲塗▼ 兆▲鵬▼
(72)【発明者】
【氏名】▲楊▼ 宝嵩
(72)【発明者】
【氏名】▲張▼ 潼
【審査官】久保 光宏
(56)【参考文献】
【文献】Ashish Vaswani, et al.,"Attention Is All You Need",Proceedings of 31st Conference on Neural Information Processing Systems (NIPS 2017),[online],2017年,Pages 1-11,[令和3年11月10日検索], インターネット, <URL: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf>.
【文献】西田 京介(外1名),「深層学習におけるアテンション技術の最新動向」,電子情報通信学会誌,日本,一般社団法人 電子情報通信学会,2018年06月01日,Vol.101, No.6,第591~596頁,ISSN: 0913-5693.
【文献】Shang Gao, et al.,"Hierarchical Convolutional Attention Networks for Text Classification",Proceedings of the 3rd Workshop on Representation Learning for NLP,[online],2018年07月20日,Pages 11-23,[令和3年11月13日検索], インターネット, <URL: https://aclanthology.org/W18-3002/>,<DOI: 10.18653/v1/W18-3002>.
(58)【調査した分野】(Int.Cl.,DB名)
G06N3/00-99/00
G06F40/00-40/58
CSDB(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器が実行するニューラルネットワークのネットワーク表示生成方法であって、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するステップと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するステップと、
前記要求ベクトルシーケンスに基づいて局所強化行列を構築するステップと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するステップと、を含む方法。
【請求項2】
前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定するステップと、
前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップとを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップと、
前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定する前記ステップは、
前記入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換して、前記要素に対応する第1のスカラーを取得するステップと、
非線形変換関数により、前記第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得するステップと、
前記第2のスカラーを、前記要素に対応する局所強化範囲の中心点とするステップと、
を含むことを特徴とする請求項2又は3に記載の方法。
【請求項5】
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する前記ステップは、
前記入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第3のスカラーを取得するステップと、
非線形変換関数により、前記第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得するステップと、
前記第4のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとするステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項6】
前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定する前記ステップは、
前記キーベクトルシーケンスにおける各キーベクトルを取得するステップと、
各前記キーベクトルの平均値を算出するステップと、
前記平均値に対して線形変換を行って、第5のスカラーを取得するステップと、
非線形変換関数により、前記第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得するステップと、
前記第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップとを含むことを特徴とする請求項3に記載の方法。
【請求項7】
前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する前記ステップは、
前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とするステップと、
平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップとを含み、
前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する前記ステップは、
入力シーケンスにおける各前記要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップを含み、2つずつの要素間の強弱関連は、以下の式により算出し、
【数1】
なお、Gijが前記入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Piの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値を示し、Piがi番目の要素に対応する局所強化範囲の中心点を示し、Diがi番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項2又は3に記載の方法。
【請求項8】
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得する前記ステップは、
前記局所強化行列に基づいて前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得するステップと、
前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するステップとを含むことを特徴とする請求項1~3のいずれか一項に記載の方法。
【請求項9】
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップは、
前記ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割するステップと、
複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップとを含み、
前記方法は、
各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをさらに含むことを特徴とする請求項1~3のいずれか一項に記載の方法。
【請求項10】
前記方法は、
入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するステップをさらに含むことを特徴とする請求項1~3のいずれか一項に記載の方法。
【請求項11】
ニューラルネットワークのネットワーク表示生成装置であって、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含むことを特徴とする装置。
【請求項12】
前記局所強化行列構築モジュールは、さらに、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項11に記載の装置。
【請求項13】
前記局所強化行列構築モジュールは、さらに、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項11に記載の装置。
【請求項14】
前記局所強化行列構築モジュールは、さらに、
前記入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換し、前記要素に対応する第1のスカラーを取得し、非線形変換関数により、前記第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、前記第2のスカラーを、前記要素に対応する局所強化範囲の中心点とすることを特徴とする請求項12又は13に記載の装置。
【請求項15】
前記局所強化行列構築モジュールは、さらに、
前記入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第3のスカラーを取得し、非線形変換関数により、前記第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、前記第4のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとすることを特徴とする請求項12に記載の装置。
【請求項16】
前記局所強化行列構築モジュールは、さらに、
前記キーベクトルシーケンスにおける各キーベクトルを取得し、各前記キーベクトルの平均値を算出し、前記平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、前記第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、前記第6のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを特徴とする請求項13に記載の装置。
【請求項17】
前記局所強化行列構築モジュールは、さらに、
前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とし、平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各前記要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、2つずつの要素間の強弱関連は以下の式により算出し、
【数2】
なお、Gijが前記入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Piの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Piがi番目の要素に対応する局所強化範囲の中心点を示し、Diがi番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項12又は13に記載の装置。
【請求項18】
前記アテンション重み分布決定モジュールは、さらに、
前記局所強化行列に基づいて、前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得することを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項19】
前記線形変換モジュールは、さらに、
前記ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、
前記装置は、
各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含むことを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項20】
前記装置は、
入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して
、前記線形変換モジュール、前記ロジック類似度算出モジュール、前記局所強化行列構築モジュール、前記アテンション重み分布決定モジュール、及び前記融合モジュールによる一連の処理を適用することを繰り返し、ループ停止条件に達した場合に最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含むことを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項21】
コンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1~10のいずれか一項に記載の方法のステップを前記プロセッサに実行させる媒体。
【請求項22】
コンピュータ機器であって、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1~10のいずれか一項に記載の方法のステップを前記プロセッサに実行させるコンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2018年09月04日に中国専利局に提出した、出願番号が201811027795.Xであって、発明の名称が「ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器」である中国特許出願の優先権を主張し、本願で、その全ての内容を援用するものとする。
【0002】
本出願は、コンピュータ技術の分野に関し、特に、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器に関する。
【背景技術】
【0003】
アテンションメカニズム(Attention Mechanism)は、ニューラルネットワークにおけるエンコーダとデコーダの隠れ状態間の依存関係に対してモデルを確立する方法であり、アテンションメカニズムは、深層学習に基づく自然言語処理(NLP、Natural Language Processing)の各タスクに広く適用される。
【0004】
SAN(Self-Attention Network、自己注意ネットワーク)は、自己注意メカニズムに基づくニューラルネットワークモデルであり、アテンションモデルの一種に属し、入力シーケンスにおける各要素ペアに対して1つのアテンション重みを算出することができ、長距離の依存関係をキャプチャでき、各要素に対応するネットワーク表示は各要素間の距離の影響を受けることはない。ただし、SANは、入力シーケンス内の各要素を完全に考慮するため、各要素と全ての要素の間のアテンション重みを算出する必要があり、これは、重みの分布をある程度分散させ、要素間の関連をさらに弱める。
【発明の概要】
【課題を解決するための手段】
【0005】
これに鑑みて、従来の自己注意ニューラルネットワークが各要素と全ての要素との間のアテンション重みを考慮することによる要素間の関連を弱める技術的問題を解決するために、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器を提供する必要がある。
【0006】
一局面によれば、コンピュータ機器に使用されるニューラルネットワークのネットワーク表示生成方法を提供し、前記方法は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出し、
前記要求ベクトルシーケンスに基づいて局所強化行列を構築し、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得し、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得することを含む。
【0007】
他の局面によれば、ニューラルネットワークのネットワーク表示生成装置を提供し、前記装置は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含む。
【0008】
さらに他の局面によれば、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。
【0009】
さらなる局面によれば、コンピュータ機器を提供し、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。
【0010】
上記のニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【図面の簡単な説明】
【0011】
【
図1】一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。
【
図2】一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。
【
図3】一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。
【
図4】一実施例におけるガウス分布を使用してSANアテンション重み分布を修正するシステムアーキテクチャ図である。
【
図5】一実施例における要求ベクトルシーケンスに基づいて局所強化行列を構築する流れ模式図である。
【
図6】一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。
【
図7】一実施例における要求ベクトルシーケンス、キーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。
【
図8】一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。
【
図9】一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。
【
図10】一実施例におけるニューラルネットワークのネットワーク表示生成装置の構成ブロック図である。
【
図11】一実施例におけるコンピュータ機器の構成ブロック図である。
【発明を実施するための形態】
【0012】
本願の目的、技術案及び利点をより明確にするために、以下に図面及び実施例に基づいて本願を更に詳しく説明する。ここで説明する具体的な実施例は本願を解釈するためのものであり、本願を制限するためのものではないと理解される。
【0013】
図1は、一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。
図1を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークのネットワーク表示生成システムに適用される。当該ニューラルネットワークのネットワーク表示生成システムは、端末110及びコンピュータ機器120を含む。端末110及びコンピュータ機器120は、ブルートゥース(登録商標)、ユニバーサルシリアルバス(USB)又はネットワークを介して接続される。端末110は、処理対象の入力シーケンスをコンピュータ装置120に送信することができ、リアルタイムで送信してもよいし、非リアルタイムで送信してもよく、コンピュータ機器120は、入力シーケンスを受信し、入力シーケンスを変換した後、対応するネットワーク表示シーケンスを出力する。端末110は、デスクトップ端末又はモバイル端末であってもよく、モバイル端末は、携帯電話、タブレット、ノートブックなどのうちの少なくとも1つであってもよい。コンピュータ機器120は、独立したサーバ又は端末であってもよく、又は複数のサーバからなるサーバクラスタであってもよく、又はクラウドサーバ、クラウドデータベース、クラウドストレージ、CDNなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0014】
なお、上記の適用環境は単なる例であり、幾つかの実施例において、コンピュータ機器120は、端末110介さず入力シーケンスを直接取得することができる。例えば、コンピュータ機器が携帯電話である場合に、携帯電話は入力シーケンス(例えば、インスタントテキストメッセージにおける各ワードで形成されるシーケンス)を直接取得した後に、携帯電話に配置されたニューラルネットワークのネットワーク表示生成装置により、入力シーケンスを変換し、入力シーケンスに対応するネットワーク表示シーケンスを出力することができる。
【0015】
図2に示すように、一実施例において、ニューラルネットワークのネットワーク表示生成方法を提供する。本実施例は、主に、この方法を上記の
図1におけるコンピュータ機器120に適用することを例にとって説明する。
図2を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、以下のステップを含むことができる。
【0016】
S202において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
【0017】
なお、入力シーケンスは、変換して相応するネットワーク表示シーケンスを取得するためのシーケンスである。入力シーケンスには、1セットの順序付け要素を含み、I個の要素の入力シーケンスを含むことを例にとって、入力シーケンスは
【数1】
で示すことができ、入力シーケンスの長さはIであり、且つIは正の整数である。
【0018】
入力シーケンスを翻訳する必要があるシナリオにおいて、入力シーケンスは翻訳対象テキストに対応するワードシーケンスであってもよく、入力シーケンスにおける各要素はワードシーケンスにおける各ワードである。翻訳対象テキストが中国語のテキストであると、ワードシーケンスは翻訳対象テキストに対してワード分割を行った後に、得られた各単語を語順に従って並べることで形成されたシーケンスであってもよく、翻訳対象テキストが英語テキストであると、ワードシーケンスは各ワードを語順に従って並べることで形成されたシーケンスであってもよい。例えば、翻訳対象テキストは「Bush held a talk with Sharon」であり、相応する入力シーケンスXは{Bush,held,a,talk,with,Sharon}となる。
【0019】
ソース側のベクトル表示シーケンスは、入力シーケンスにおける各要素の相応するソース側のベクトル表示からなるシーケンスである。ソース側のベクトル表示シーケンスにおける各ベクトル表示は入力シーケンスにおける各要素と1対1で対応しており、ソース側のベクトル表示シーケンスは
【数2】
で示すことができる。z
i
【0020】
なお、コンピュータ機器は、入力シーケンスにおける各要素を固定長のベクトル(即ち、Word Embedding、ワード埋め込み)に変換することができる。一実施例において、ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークモデルに適用されると、コンピュータ機器は、ニューラルネットワークモデルの第1の層により入力シーケンスにおける各要素を相応するベクトルに変換でき、例えば、入力シーケンスにおけるi番目の要素xiを、1つのd次元の列ベクトルであるziに変換し、次に、入力シーケンスにおける各要素に対応するベクトルを組み合わせることで、入力シーケンスに対応するソース側のベクトル表示シーケンス、即ち、I個のd次元の列ベクトルからなるベクトルシーケンスを取得し、dは正の整数である。もちろん、コンピュータ機器は、他の装置から送信された入力シーケンスに対応するソース側のベクトル表示シーケンスを受信することもできる。zi及び以下で説明する列ベクトルはともに行ベクトルであってもよく、本明細書で算出プロセスを容易に説明するために、列ベクトルを使用して説明する。
【0021】
S204において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。
【0022】
なお、線形変換は1つのベクトル空間に属するベクトルを別のベクトル空間にマッピングしてもよく、ベクトル空間は同じ次元の複数のベクトルによって形成される集合である。一実施例において、コンピュータ機器は3つの異なる学習可能なパラメータ行列により、ソース側のベクトル表示シーケンスに対して線形変換を行うことにより、ソース側のベクトル表示シーケンスをそれぞれ3つの異なるベクトル空間にマッピングし、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することができる。
【0023】
一実施例において、ニューラルネットワークのネットワーク表示生成方法は、SAN(自己注意ニューラルネットワーク)に基づくモデルに適用されると、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスは、いずれもソース側の入力シーケンスに対応するソース側のベクトル表示シーケンスにより線形変換を行うことで得られる。他の実施例において、ニューラルネットワークのネットワーク表示生成方法はEncoder-Decoder(エンコーダ-デコーダ器)構造を含むニューラルネットワークモデルに適用されると、キーベクトルシーケンス及び値ベクトルシーケンスは、エンコーダが入力シーケンスに対応するソース側のベクトル表示シーケンスを符号化することで得られ、即ち、キーベクトルシーケンス及び値ベクトルシーケンスはエンコーダの出力であり、要求ベクトルシーケンスはデコーダの入力であり、例えば、ターゲット側のベクトル表示シーケンスであってもよく、ターゲット側のベクトル表示シーケンスはデコーダによって出力された出力シーケンスにおける各要素に対応するベクトル表示であってもよい。
【0024】
一実施例において、コンピュータ機器は以下の式により、3つの異なる学習可能パラメータ行列WQ、WK、及びWVによりソース側のベクトル表示シーケンスZに対して線形変換を行って、要求ベクトルシーケンスQ、キーベクトルシーケンスK及び値ベクトルシーケンスVを取得する。
【0025】
【0026】
その中、入力シーケンス
【数4】
はI個の要素を含み、ソース側のベクトル表示シーケンス
【数5】
における各要素はd次元の列ベクトルであり、即ち、ZはI個のd次元の列ベクトルからなるベクトルシーケンスであり、I×dの行列と記し、学習可能パラメータ行列W
Q、W
K及びW
Vはd×dの行列であり、要求ベクトルシーケンスQ、キーベクトルシーケンス及びK値ベクトルシーケンスVはI×dの行列である。
【0027】
S206において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
【0028】
なお、ロジック類似度は、入力シーケンスにおける各要素と当該入力シーケンスにおける他の要素との間の類似性を測定するために用いられる。各要素に対応するネットワーク表示を生成する場合に、当該類似性に基づいて入力シーケンスにおける他の要素に対応する値ベクトルに、相応するアテンション重みを割り当てることにより、出力の各要素に対応するネットワーク表示が当該要素と他の要素との間の関連を考慮するようにし、生成のネットワーク表示が各要素の特徴をより正確に表現し、より豊富な情報を含むようにする。
【0029】
一実施例において、ニューラルネットワークのネットワーク表示生成方法は、Encoder-Decoder(エンコーダ-デコーダ)構造を含むニューラルネットワークモデルに適用されると、要求ベクトルシーケンスはターゲット側のベクトル表示シーケンスであり、算出して得られたロジック類似度はターゲット側のベクトル表示シーケンスと入力シーケンスに対応するキーベクトルシーケンスとの類似性を示し、当該類似性に基づいて入力シーケンスに対応する値ベクトルシーケンスに、相応するアテンション重みを割り当てることにより、ソース側から出力される各要素のネットワーク表示が、ターゲット側が入力したターゲット側のベクトル表示シーケンスの影響を考慮できるようにする。
【0030】
一実施例において、コンピュータ機器は、コサイン類似性式により要求ベクトルシーケンスQとキーベクトルシーケンスKとの間のロジック類似度行列Eを算出することができ、即ち、
【数6】
であり、
その中、K
TはキーベクトルシーケンスKの転置行列を示し、dは入力シーケンスにおける各要素x
iがソース側のベクトル表示z
iに変換される次元であり、dはx
iに対応するネットワーク表示の次元でもあり、ネットワーク隠れ状態ベクトルの次元でもあり、内積を減少し、算出速度を低減するために、上記の公式において
【数7】
を除算する。
【0031】
以下、ロジック類似度行列Eの算出プロセスについて説明する。
【数8】
であり、q
i、k
iはd次元の列ベクトルであり、それぞれ、ソース側のベクトル表示z
iに対応する要求ベクトル及びキーベクトルであり、ロジック類似度行列
【数9】
において、e
iの各要素はソース側のベクトル表示z
iに対応する要求ベクトルq
iと、入力シーケンスにおける全ての要素に対応するキーベクトル
【数10】
との間のロジック類似度であり、e
iはEのi番目の列の要素であり、e
iはI次元の列ベクトルであり、算出公式は
【数11】
であり、e
iはi番目の要素x
iと入力シーケンスにおける全ての要素
【数12】
からなるIセットの要素ペアにおける2つの要素との間の関連を示唆する。ロジック類似度行列EはI×Iの行列であり、ロジック類似度行列Eは、
【数13】
である。
【0032】
S208において、要求ベクトルシーケンスに基づいて、局所強化行列を構築する。
【0033】
その中、局所強化行列における列ベクトルの各要素は、入力シーケンスにおける2つずつの要素間の強弱関連を代表する。入力シーケンスにおける各要素に対応するネットワーク表示を生成する場合に、局所強化行列により、入力シーケンスにおける他の要素のうち現在の要素との関連が強い要素の当該ネットワーク表示に対する影響を強化することにより、現在の要素との関連が弱い要素の当該ネットワーク表示に対する影響を相対的に弱めることができる。局所強化行列は、現在の要素のネットワーク表示に対する他の要素の影響を考慮する場合に、考慮の範囲は入力シーケンスにおける全ての要素ではなく、局所要素に制限されるようにし、このようにすれば、アテンション重みを割り当てる場合に、アテンション重みは局所要素に割り当てられる傾向があり、局所要素におけるある要素に対応する値ベクトルに割り当てられるアテンション重みの大きさは、当該要素と現在の要素との間の強弱関連に関し、つまり、現在の要素との関連が強い要素に対応する値ベクトルに、より大きいアテンション重みが割り当てられる。
【0034】
入力シーケンスである「Bush held a talk with Sharon」を例にとって説明し、SANモデルにおいて、要素「Bush」に対応するネットワーク表示を出力する場合に、入力シーケンスにおける全ての要素「Bush」、「held」、「a」、「talk」、「with」及び「Sharon」のそれぞれに対応する値ベクトルを完全に考慮し、全ての要素のそれぞれに対応する値ベクトルに、相応するアテンション重みを割り当て、アテンション重みの分布がある程度分散され、「Bush」と隣接要素との間の関連をさらに弱める。
【0035】
本実施例におけるニューラルネットワークのネットワーク表示生成方法によれば、「Bush」に対応するネットワーク表示を出力する場合に、局所強化範囲においてアテンション重み割り当てるようにすることができる。「Bush」に対応するネットワーク表示を出力する場合に、要素「Bush」と要素「held」との間の関連が強いと、「held」に対応する値ベクトルに、高いアテンション重みを割り当て、「held」と同様に、「Bush」に対応する局所強化範囲に属する局所要素における「a talk」も注意されるため、高いアテンション重みが割り当てられ、このように、短句である「held a talk」における各ワードに対応する情報(値ベクトル)はキャプチャされ、「Bush」に関連付けられ、出力の「Bush」のネットワーク表示は局所情報を表現できるだけでなく、距離が遠い要素との間の依存関係を保留することもできる。
【0036】
よって、コンピュータ機器は各要素に対応するネットワーク表示を生成する場合に、現在の要素に対応する局所強化範囲を決定する必要があり、現在の要素に対応するアテンション重みの割り当ては当該局所強化範囲内に制限される。
【0037】
一実施例において、局所強化範囲は、局所強化範囲の中心点及び局所強化範囲のウィンドウサイズとの2つの変数に基づいて決定でき、中心点とは現在の要素のネットワーク表示を生成する場合に最も高いアテンション重みが割り当てられる要素の、入力シーケンスにおける位置を指し、ウィンドウサイズとは、局所強化範囲の長さを指し、アテンション重みが幾つかの要素に割り当てられるかを決定し、中心点を中心とし、ウィンドウサイズをスパンとする要素は局所強化範囲である。各要素に対応する局所強化範囲は各要素自体に関連し、各要素に対応し、特定の範囲に固定されないため、生成される各要素のネットワーク表示は豊富なコンテキスト情報を柔軟にキャプチャできる。
【0038】
一実施例において、コンピュータ機器は、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定することができ、当該ステップは、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定したガウス分布に基づいて局所強化範囲を決定し、コンピュータ機器は、決定された局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができ、なお、2つずつの要素間の強弱関連は、以下の式により、算出して得られる。
【0039】
【0040】
その中、Gijは入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Piの間の強弱関連を示し、Gijは局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Piはi番目の要素に対応する局所強化範囲の中心点を示し、Diはi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
【0041】
式(2)から分かるように、局所強化行列GはI×Iの行列であり、I個の列ベクトルを含み、各列ベクトルの次元はIである。局所強化行列Gのi番目の列のベクトルにおける各要素の値は入力シーケンスにおけるi番目の要素に対応する局所強化範囲に基づいて決定され、公式(2)は中心点Piに対して対称な関数であり、分子は入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pi間の距離を代表し、距離が近いほど、Gijが大きくなり、j番目の要素とi番目の要素との関連が強いことを意味し、逆に、距離が遠いほど、Gijが小さくなり、j番目の要素とi番目の要素との関連が弱いことを意味する。つまり、i番目の要素に対応するネットワーク表示を生成する場合に、アテンション重みは中心点Piに近い要素間で集中的に割り当てられる。
【0042】
なお、ガウス分布変形による式(2)を採用してGijを算出することは単なる例であり、幾つかの実施例において、局所強化範囲に対応する中心点及びウィンドウサイズを決定した後に、中心点を期待値とし、ウィンドウサイズを分散をとし、他の期待値及び分散を有する分布によりGijの値を算出することにより、局所強化行列G、例えば、ポアソン分布や二項分布などを取得することができる。
【0043】
S210において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
【0044】
ロジック類似度は、入力シーケンスにおける各要素ペアの2つの要素の類似性を表し、局所強化行列は、入力シーケンスにおける各要素ペアの2つの要素の強弱関連を表し、両方の組み合わせは、局所強化アテンション重み分布の算出に使用できる。
【0045】
一実施例において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することは、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することを含むことができる。
【0046】
なお、コンピュータ機器は、入力シーケンスにおける各要素ペアの2つの要素のロジック類似度及び強弱関連を取得した後に、強弱関連によりロジック類似度を修正し、局所的に強化されたロジック類似度を取得することができる。一実施例において、全ての要素のそれぞれに対応するロジック類似度を含んだロジック類似度行列Eと、全ての要素ペアのそれぞれに対応する強弱関連を含んだ局所強化行列Gと加算して、ロジック類似度行列を修正し(オフセットとも呼ばれる)、修正後のロジック類似度行列におけるロジック類似度ベクトルに対して正規化処理を行うことにより、局所的に強化されたアテンション重み分布を取得する。
【0047】
修正後のロジック類似度行列E′におけるロジック類似度ベクトルに対して正規化処理を行うことは、列ベクトルei’ごとに正規化処理を行うことであり、即ち、列ベクトルei’における各要素の値範囲はいずれも(0,1)の間にあり、且つ、全ての要素の和は1である。列ベクトルei’を正規化することにより、その中の最大の値が強調表示され、最大値よりもはるかに低い他のコンポーネントを抑制することができ、入力シーケンスにおけるi番目の要素に対応する局所的に強化されたアテンション重み分布を取得することができる。
【0048】
一実施例において、局所的に強化されたアテンション重み分布Aは、以下の式により、算出することができる。
【0049】
【0050】
その中、softmax関数は正規化処理関数であり、Aは入力シーケンスにおける各要素に対応するアテンション重み分布を含む行列であり、
【数16】
であり、AはI個のI次元の列ベクトルを含み、Aにおけるi番目の要素α
iは入力シーケンスにおけるi番目の要素x
iに対応するアテンション重み分布を代表する。
【0051】
S212において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
【0052】
なお、ネットワーク表示シーケンスは複数のネットワーク表示(ベクトル表示)からなるシーケンスである。本実施例において、入力シーケンスをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの隠れ層におけるモデルパラメータの線形変換又は非線形変換により、当該入力シーケンスに対応するネットワーク表示シーケンスを出力する。
【0053】
なお、現在の要素x
iに対応するネットワーク表示を出力する場合に、コンピュータ機器は局所的に強化されたアテンション重み分布行列から当該要素に対応するアテンション重み分布α
iを取得し、当該要素に対応するアテンション重み分布α
iにおける各要素を重み係り数とし、値ベクトルシーケンスにおける値ベクトルを重み付けて和を求めることで、現在の要素x
iに対応するネットワーク表示O
iを取得し、入力シーケンスに対応するネットワーク表示シーケンスOは複数のネットワーク表示からなり、例えば、
【数17】
である。
【0054】
入力シーケンスに対応するネットワーク表示シーケンスOにおけるi番目の要素Oiは、以下の式により、算出することができる。
【0055】
【0056】
α
ijは定数であり、v
jはd次元の列ベクトルであり、O
iもd次元の列ベクトルであるので、即ち、
入力シーケンスにおけるi番目の要素x
iに対応するアテンション重み分布が
【数19】
である場合に、入力シーケンスに対応するK値ベクトルシーケンスは
【数20】
となり、x
iに対応するネットワーク表示O
iは、以下の式により、算出することができる。
【0057】
【0058】
現在の要素に対応するアテンション重み分布は、元のロジック類似度に基づいて修正された局所的に強化されたアテンション重み分布であるので、重み付けて和を求める場合に入力シーケンスにおける全ての要素に対応する値ベクトルを完全に考慮せず、局所強化範囲に属する要素に対応する値ベクトルを主に考慮し、このように、出力される現在の要素のネットワーク表示は現在の要素に関連する局所情報を含む。
【0059】
なお、本出願で使用される「要素」という用語は、本明細書でベクトル(列ベクトル又は行列ベクトルを含む)の基本的な構成単位を説明し、例えば、「入力シーケンスにおける要素」とは入力シーケンスにおける各入力を指し、「行列における要素」とは、行列を構成する各列ベクトルを指し、「列ベクトルにおける要素」とは列ベクトルにおける各数値を指し、即ち、「要素」とは、シーケンス、ベクトル又は行列を構成する基本的な構成単位を指す。
【0060】
図3は、一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。
図3を参照して、入力シーケンスXに対応するベクトル化表示Zを取得した後に、Zは3つの異なる学習可能なパラメータ行列により要求ベクトルシーケンスQ、キーベクトルシーケンスK及び値ベクトルシーケンスVに線形変換され、次に、ドット積演算により各キー値ペアの間のロジック類似度を算出して、ロジック類似度行列Eを取得し、Q又はKに基づいて局所強化行列Gを構築し、GによりEを修正して局所的に強化されたロジック類似度行列E’を取得し、次に、softmax関数によりE’に対して正規化処理を行って、局所的に強化されたアテンション重み分布行列Aを取得し、最後に、Aと値ベクトルシーケンスVとに対してドット積演算を行って、ネットワーク表示シーケンスOを出力する。
【0061】
図4は、一実施例におけるガウス分布を使用してSANアテンション重み分布を修正するシステムアーキテクチャ図である。入力シーケンスが「Bush held a talk with Sharon」、且つ現在の要素が「Bush」である例をとって説明し、
図4の左側において、元のSANを利用して基本的なモデルを構築し、各要素ペア(入力シーケンスにおける2つずつの要素からなる)の間のロジック類似度を取得し、当該ロジック類似度に基づいて算出した「Bush」に対応するアテンション重み分布は全ての単語を考慮し、「held」に割り当てられたアテンション重みは最も高く(バーの高さはアテンション重みの大きさを代表する)、残りの単語に割り当てられたアテンション重みは低い。
図4の中央を参照し、ガウス分布を利用して算出した現在の要素「Bush」に対応する局所強化範囲の中心点の位置はほぼ4に等しく、入力シーケンスにおけるワード「talk」に対応し、局所強化範囲のウィンドウサイズはほぼ3に等しく、つまり、現在の要素「Bush」に対応する局所強化範囲はワード「talk」を中心とする3つのワードに対応する位置であり、決定された局所強化範囲に基づいて局所強化行列を算出し、局所強化行列により
図4の左側で得られたロジック類似度を修正し、修正後のアテンション重みの割り当ては、この3つのワードに集中し、「talk」に割り当てられたアテンション重みは最も高い。
図4の左側及び
図4の中央を組み合わせて、
図4の右側で修正された現在の要素「Bush」に対応するアテンション重み分布を取得し、即ち、連語「held a talk」に大部分のアテンション重みが割り当てられ、「Bush」に対応するネットワーク表示を算出する場合に、「held a talk」の3つのワードのそれぞれに対応する値ベクトルを主に考慮し、このようにすれば、「held a talk」の情報はキャプチャされ、「Bush」に関連付けられる。
【0062】
上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、さらに局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【0063】
図5に示すように、一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、以下のステップを含むことができる。
【0064】
S502において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定する。
【0065】
なお、入力シーケンスにおける各要素に対応する局所強化範囲は、各要素に対応する中心点及びウィンドウサイズによって決定され、各要素に対応する中心点は各要素に対応する要求ベクトルに依存するので、要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。
【0066】
一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することは、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第1のスカラーを取得し、非線形変換関数により、当該第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、当該要素に対応する局所強化範囲の中心点とすることを含むことができる。
【0067】
なお、コンピュータ機器は、ステップS204にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。入力シーケンスにおけるi番目の要素x
iを例にとって、それに対応する局所強化範囲の中心点は以下ステップにより得ることができる。
1)コンピュータ機器は、第1のフィードフォワードニューラルネットワークにより、i番目の要素に対応する要求ベクトルq
iを1つの隠れ状態にマッピングし、
【数22】
によりそれに対して線形変換を行って、入力シーケンスにおけるi番目の要素に対応する第1のスカラーp
iを取得し、第1のスカラーp
iは実数空間に属する1つの数値であり、且つp
iの算出式は、
【数23】
である。
【0068】
その中、
【数24】
は第1のフィードフォワードニューラルネットワークにおける一部であり、tanhは活性化関数であり、q
iは入力シーケンスにおけるi番目の要素に対応する要求ベクトルであり、
【数25】
とW
Pとはトレーニング可能な線形変換行列であり、
【数26】
はU
Pの転置行列であり、U
Pは1つのd次元の列ベクトルであり、
【数27】
は1つのd次元の行ベクトルであり、このように、フィードフォワードニューラルネットワークから出力される高次元のベクトルマッピングを1つのスカラーとすることができる。本出願で使用されるフィードフォワードニューラルネットワークはベクトルを隠れ状態にマッピングし、当該フィードフォワードニューラルネットワークによるベクトルのマッピング方法を制限せず、当該フィードフォワードニューラルネットワークは、他のニューラルネットワークモデル、例えば、長期短期記憶(Long Short-Term Memory、LSTM)モデル及びそのバリエーション、ゲーテッドユニット(Gated Unit) 及びそのバリエーション、又は単純な線形変換などに置き換えることができる。
【0069】
2)コンピュータ機器は、非線形変換関数により、第1のスカラーpiを1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)である中心点位置Piを取得して、Piはi番目の要素に対応する局所強化範囲の中心点であり、Piは入力シーケンスの長さIに比例し、以下の式により、Pi算出して得ることができる。
【0070】
【0071】
その中、sigmoidは非線形変換関数であり、piを1つのレンジが(0,1)であるスカラーに変換でき、ここ及び以下でsigmoidを利用してスカラーを変化する方式は、他の任意の実数を(0,1)の間にマッピングする方法に置き換えてもよく、本出願では、それを制限しない。
【0072】
コンピュータ機器は、算出したPiを、入力シーケンスにおけるi番目の要素xiに対応する局所強化範囲の中心点とし、例えば、入力シーケンスの長さIが10であり、算出したPiは5に等しく、xiに対応する局所強化範囲の中心点は入力シーケンスにおける5番目の要素であり、xiに対応するネットワーク表示を生成する場合に、入力シーケンスにおける5番目の要素の値ベクトルに割り当てられるアテンション重みが最も高い。
【0073】
コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を取得するまで、上記のステップを繰り返すことができる。
【0074】
S504において、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する。
【0075】
ウィンドウサイズを柔軟に予測するために、要素ごとに、相応するウィンドウサイズを予測することができる。このようにして、コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定することができ、即ち、各要求ベクトルは1つのウィンドウサイズに対応する。
【0076】
一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することは、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第3のスカラーを取得し、非線形変換関数により、当該第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを当該要素に対応する局所強化範囲のウィンドウサイズとすることを含むことができる。
【0077】
なお、コンピュータ機器は、ステップS204にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することができる。入力シーケンスにおけるi番目の要素xiを例にとって、それに対応する局所強化範囲のウィンドウサイズは、以下のステップにより得られる。
【0078】
1)コンピュータ機器は、第2のフィードフォワードニューラルネットワークにより、i番目の要素に対応する要求ベクトルq
iを1つの隠れ状態にマッピングし、
【数29】
によりそれに対して線形変換を行って、入力シーケンスにおけるi番目の要素に対応する第3のスカラーz
iを取得し、第3のスカラーz
iは実数空間に属する1つの数値であり、且つz
iの算出式は、
【数30】
である。
【0079】
その中、
【数31】
は第2のフィードフォワードニューラルネットワークの一部であり、tanhは活性化関数であり、q
iは入力シーケンスにおけるi番目の要素に対応する要求ベクトルであり、W
Pは、以上の中心点隠れ状態を算出するために使用されるものと同じパラメータ行列であり、
【数32】
はトレーニング可能な線形変換行列であり、
【数33】
はUDの転置行列であり、UDは1つのd次元の列ベクトルであり、
【数34】
は1つのd次元の行ベクトルであり、このようにして、フィードフォワードニューラルネットワークから出力される高次元のベクトルを1つのスカラーにマッピングすることができる。
【0080】
2)コンピュータ機器は、非線形変換関数により、第3のスカラーziを、1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)であるウィンドウサイズDiを取得し、Diはi番目の要素に対応する局所強化範囲のウィンドウサイズであり、Diは入力シーケンスの長さIに比例し、以下の式により、Diを算出できる。
【0081】
【0082】
その中、sigmoidは非線形変換関数であり、ziを、1つのレンジが(0,1)であるスカラーに変換する。
【0083】
コンピュータ機器は、算出したZiを、入力シーケンスにおけるi番目の要素xiに対応する局所強化範囲のウィンドウサイズとし、例えば、入力シーケンスの長さIは10であり、算出したZiは7に等しく、xiに対応する局所強化範囲のウィンドウサイズは、中心点を中心とする7つの要素であり、xiに対応するネットワーク表示を生成する場合に、アテンション重みはこの7つの要素において集中して割り当てられる。
【0084】
コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲のウィンドウサイズを取得するまで、前述のステップを繰り返すことができる。
【0085】
S506において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。
【0086】
ステップS502及びステップS504から分かるように、入力シーケンスにおける各要素に対応する要求ベクトルが異なるため、各要素に対応する中心点、ウィンドウサイズも異なり、各要素に対応する局所強化範囲も異なり、各要素自体の特性に従って局所強化範囲を選択し、より柔軟である。
【0087】
S508において、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
【0088】
なお、コンピュータ機器は、決定された局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、その中、2つずつの要素間の強弱関連は、以下の式により、算出することができる。
【0089】
【0090】
Gijは局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値である。
【0091】
図6は、一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。
図6を参照して、まず、フィードフォワードニューラルネットワークにより要求ベクトルシーケンスを隠れ状態にマッピングし、次に、線形変換により隠れ状態を1つの実数空間のスカラーにマッピングし、次に、非線形変換関数sigmoidにより、当該スカラーを、1つのレンジが(0,1)であるスカラーに変換し、入力シーケンスの長さIを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定し、局所強化範囲に基づいて局所強化行列を算出する。
【0092】
上記の実施形態では、入力シーケンスにおける各要素に対応する要求ベクトルを変換することにより、各要素に対して、相応する局所強化範囲を柔軟に決定し、入力シーケンスに対して1つの局所強化範囲を固定することなく、入力シーケンスにおける長距離要素の間の依存関係を効果的に改善できる。
【0093】
一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができる。
【0094】
本実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲を決定する方式は以上と同じであり、ここで再度説明しない。ウィンドウサイズについて、グローバルコンテキスト情報を考慮して、入力シーケンスにおける全ての要素に対応する局所強化範囲のウィンドウサイズは、1つの統一されたウィンドウサイズによって決定され、ウィンドウサイズを決定する場合に、入力シーケンスにおける全ての要素の情報を融合する必要がある。
【0095】
一実施例において、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することは、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを含むことができる。
【0096】
なお、コンピュータ機器は、ステップS204にて得られたキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することができ、つまり、各要素に対応する局所強化範囲のウィンドウサイズは同じであり、当該統一されたウィンドウサイズは以下のステップにより得られる。
【0097】
1)コンピュータ機器は、入力シーケンスに対応するキーベクトルシーケンスKを取得し、キーベクトルシーケンスKにおける全てのキーベクトルの平均値
【数37】
を算出する。
【0098】
【0099】
2)コンピュータ機器は、得られた平均値
【数39】
に対して線形変換を行って、1つの実数空間の第5のスカラーzを生成する。
【0100】
【0101】
その中、
【数41】
は以上のウィンドウサイズ隠れ状態を算出するために使用されるものと同じパラメータであり、W
Dはトレーニング可能な線形変換行列である。
【0102】
3)コンピュータ機器は、非線形変換関数により、第5のスカラーzを、1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)であるウィンドウサイズDを取得し、Dは、統一された局所強化範囲のウィンドウサイズであり、且つDは入力シーケンスの長さIに比例し、以下の式により、Dを算出することができる。
【0103】
【0104】
その中、sigmoidは非線形変換関数であり、zを、1つのレンジが(0,1)であるスカラーに変換する。
【0105】
各要素に対応する局所強化範囲のウィンドウサイズは同じであるが、各要素に対応する中心点が、相応する要求ベクトルに従って算出されるため、各要素に対応する局所強化範囲は異なる。コンピュータ機器は、決定された局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、なお、2つずつの要素間の強弱関連は、以下の式により、算出することができる。
【0106】
【0107】
Gijは、局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値である。
【0108】
図7は、一実施例における要求ベクトルシーケンス及びキーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。
図7を参照して、それぞれ、フィードフォワードニューラルネットワークにより、要求ベクトルシーケンスを隠れ状態にマッピングし、平均プーリングによりキーベクトルシーケンスに対して平均値を求め、それぞれ線形変換により、隠れ状態を、1つの実数空間のスカラーにマッピングし、平均値を1つの実数空間のスカラーにマッピングし、次に、非線形変換関数sigmoidにより、取得されたスカラーを、それぞれ、1つのレンジが(0,1)であるスカラーに変換し、当該スカラーと入力シーケンスの長さIとを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定する。
【0109】
上記の実施例において、入力シーケンスに対応するキーベクトルシーケンスを変換することにより、当該キーベクトルシーケンスは入力シーケンスにおける全ての要素に対応する特徴ベクトル(キーベクトル)を含むので、決定される統一されたウィンドウサイズは全てのコンテキスト情報を考慮しており、当該統一されたウィンドウサイズに基づいて決定された各要素に対応する局所強化範囲は、豊富なコンテキスト情報をキャプチャすることができる。
【0110】
一実施例において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得することは、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することを含むことができ、当該方法は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得することを含む。
【0111】
なお、スタックマルチヘッド(Stacked Multi-Head)ニューラルネットワークを採用して、入力シーケンスに対応するソース側のベクトル表示シーケンスを処理することができ、ソース側のベクトル表示シーケンスに対して分割処理を行って、複数セットの(マルチヘッドとも呼ばれる)低次元のソース側のベクトル表示サブシーケンス取得することができる。例えば、ソース側のベクトル表示シーケンスは5つの要素を含み、各要素は512次元の列ベクトルであり、それを8つの部分に分割し、つまり、8つの5×64のソース側のベクトル表示サブシーケンスを取得する。それぞれ、この8つのソース側のベクトル表示サブシーケンスを入力ベクトルとして、異なるサブ空間を介して変換し、8つの5×64のネットワーク表示サブシーケンスを出力し、この8つのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、1つの5×512次元のネットワーク表示シーケンスを出力する。
【0112】
例を挙げて説明し、スタックマルチヘッドニューラルネットワークはHセットのサブ空間を含み、まず、入力シーケンス
【数44】
がソース側のベクトル表示シーケンス
【数45】
に変換される。
【数46】
が分割された後に、H個のソース側のベクトル表示サブシーケンスを取得する。次に、それぞれ、各サブ空間において、ソース側のベクトル表示サブシーケンスを変換し、第h(h=1、2、…、H)のサブ空間において変換することを例にとって説明し、第hのサブ空間において、相応する学習可能なパラメータ行列
【数47】
により
【数48】
に対して線形変換を行って、相応する要求ベクトルシーケンスQ
h、キーベクトルシーケンスK
h及び値ベクトルシーケンスV
hを取得し、この第Hのサブ空間において、各サブ空間で使用されるこれらの学習可能なパラメータ行列は異なり、各サブ空間において異なる特徴ベクトルを取得するようにし、さらに、異なるサブ空間は異なる局所情報に注目できる。
【0113】
次に、第hのサブ空間において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度
【数49】
を算出する。次に、要求ベクトルシーケンスQ
h又はキーベクトルシーケンスK
hに基づいて第hのサブ空間に対応する局所強化行列G
hを構築し、局所強化行列G
hにおいて、各要素G
hi,hjの算出式は
【数50】
であり、当該算出式は、Q
hに基づいてi番目の要素に対応する局所強化範囲の中心点P
hiを決定し、Q
h又はK
hに基づいて、i番目の要素に対応する局所強化範囲のウィンドウサイズD
hiを決定し、G
hi,hjは局所強化行列G
hにおけるi番目の列のベクトルのj番目の要素の値であり、G
hi,hjは第hのサブ空間で表現される入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点P
hiの間の強弱関連を示す。
【0114】
次に、第hのサブ空間において、softmax非線形変換を適用して、ロジック類似度をアテンション重み分布に変換し、局所強化行列G
hによりロジック類似度を修正して、アテンション重み分布
【数51】
を取得し、続いて、第hのサブ空間において、
【数52】
により入力シーケンスに対応する出力表示シーケンスO
hを算出して得る。最後に、各サブ空間の出力表示シーケンスO
hをスプライシングして、また1回の線形変換を行って最終的な出力ベクトル
【数53】
を取得する。
【0115】
一実施例において、当該方法は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力する。
【0116】
なお、ニューラルネットワークは複数の層計算を積み重ねることができ、1層のニューラルネットワークでもスタックマルチヘッドのニューラルネットワークでも、複数の層を繰り返して計算することができる。各層の計算で、前の層の出力を次の層の入力として、現在の層の出力即ち現在の層のネットワーク表示シーケンスを取得するまで、線形変換を行って、対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップを繰り返して実行する。効率及び性能を考慮して、繰り返しの回数は6回であってもよく、各層のニューラルネットワークのネットワークパラメータは異なり、6回繰り返するプロセスは、実際に、各層のネットワークパラメータにより、元の入力シーケンスのソース側のベクトル表示シーケンスを6回更新するプロセスである。
【0117】
例えば、スタックマルチヘッドニューラルネットワークにおいて、第1の層の出力はOL1であり、第2の層の計算で、OL1を入力として、第2の層のネットワークパラメータによりOL1を変換し、第2の層の出力OL2…を出力し、繰り返し回数に達するまで繰り返し、6回繰り返した出力を最終的な出力とし、即ち、OL6を入力シーケンスに対応するネットワーク表示シーケンスとする。
【0118】
図8は、一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。
図8を参照して、層ごとに、入力は同じであり、いずれも前の層の出力であり、次に、入力を複数のサブ入力に分割し、複数のサブ空間(複数のヘッドとも呼ばれる)のそれぞれのネットワークパラメータによりサブ入力に対して同じ変換を行って、各サブ空間の出力を取得し、最後に、この複数の出力をスプライシングした後に、現在の層の出力を取得し、現在の層の出力は次の層の入力であり、複数回繰り返すことにより、最後の層の出力を最終的な出力とする。
【0119】
一実施例において、入力シーケンスは翻訳対象となるテキストシーケンスであり、出力されるネットワーク表示シーケンスは翻訳後のテキストにおける各ワードに対応する特徴ベクトルであり得るため、出力されたネットワーク表示シーケンスに基づいて翻訳後のセンテンスを決定することができる。本出願の各実施例は、長い短句及び長いセンテンスの翻訳で、翻訳品質が大幅に改善される。
【0120】
図9に示すように、一実施例におけるニューラルネットワークのネットワーク表示方法の流れ模式図であり、以下のステップを含む。
【0121】
S902において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
【0122】
S904において、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割する。
【0123】
S906において、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得する。
【0124】
S908において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
【0125】
S910において、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第1のスカラーを取得する。
【0126】
S912において、非線形変換関数により、当該第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得する。
【0127】
S914において、第2のスカラーを当該要素に対応する局所強化範囲の中心点とする。
【0128】
S9162において、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第3のスカラーを取得する。
【0129】
S9164において、非線形変換関数により、当該第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得する。
【0130】
S9166において、第4のスカラーを、当該要素に対応する局所強化範囲のウィンドウサイズとする。
【0131】
S9161において、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出する。
【0132】
S9163において、平均値に対して線形変換を行って、第5のスカラーを取得する。
【0133】
S9165において、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得する。
【0134】
S9167において、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとする。
【0135】
S918において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。
【0136】
S920において、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
【0137】
S922において、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得する。
【0138】
S924において、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
【0139】
S926において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
【0140】
S928において、ソース側のベクトル表示サブシーケンスに対応する複数セットのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得する。
【0141】
S930において、出力のネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ステップS904に戻り、最終的なネットワーク表示シーケンスを取得するまで繰り返す。
【0142】
上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【0143】
図9のフローチャートにおける各ステップは、矢印で示したように順に実行されるが、これらのステップは、必ずしも矢印で示した順序に基づいて順に実行されるわけではない。本明細書で明確に説明しない限り、これらのステップの実行順序が制限されず、これらのステップが他の順序で実行されてもよい。そして、
図9における少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズが必ずしも同じ時刻に実行されるわけではなく、異なる時刻に実行されてもよく、これらのサブステップ又はステップの実行順序が必ずしも順に行われるわけではなく、他のステップ又は他のステップのサブステップ又はステップの少なくとも一部と順番又は交互に実行されてもよい。
【0144】
一実施例において、
図10に示すように、ニューラルネットワークのネットワーク表示生成装置1000を提供し、当該装置は取得モジュール1002、線形変換モジュール1004、ロジック類似度算出モジュール1006、局所強化行列構築モジュール1008、アテンション重み分布決定モジュール1010及び融合モジュール1012を含む。
取得モジュール1002は、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
【0145】
線形変換モジュール1004は、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。
【0146】
ロジック類似度算出モジュール1006は、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
【0147】
局所強化行列構築モジュール1008は、要求ベクトルシーケンスに基づいて局所強化行列を構築する。
【0148】
アテンション重み分布決定モジュール1010は、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
【0149】
融合モジュール1012は、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
【0150】
一実施例において、局所強化行列構築モジュール1008は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
【0151】
一実施例において、局所強化行列構築モジュール1008は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
【0152】
一実施例において、局所強化行列構築モジュール1008は、さらに、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルを変換し、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とする。
【0153】
一実施例において、局所強化行列構築モジュール1008は、さらに、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとする。
【0154】
一実施例において、局所強化行列構築モジュール1008は、さらに、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとする。
【0155】
一実施例において、局所強化行列構築モジュール1008は、さらに、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、2つずつの要素間の強弱関連は以下の式により算出し、
【数54】
G
ijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点P
iの間の強弱関連を示し、G
ijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、P
iがi番目の要素に対応する局所強化範囲の中心点を示し、D
iがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
【0156】
一実施例において、アテンション重み分布決定モジュール1010は、さらに、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
【0157】
一実施例において、線形変換モジュール1004は、さらに、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、当該装置は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含む。
【0158】
一実施例において、当該装置1000は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含む。
【0159】
上記のニューラルネットワークのネットワーク表示生成装置1000によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【0160】
図11は、一実施例におけるコンピュータ機器120の内部構成図を示す。
図11に示すように、当該コンピュータ機器はシステムバスにより接続されるプロセッサ、メモリ、ネットワークインターフェースを含む。なお、メモリは不揮発性記憶媒体及び内部メモリを含む。当該コンピュータ機器の非揮発性記憶媒体にオペレーティングシステムが記憶され、コンピュータプログラムがさらに記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実現させることができる。当該内部メモリにコンピュータプログラムが記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実行させることができる。
【0161】
当業者であれば、
図11に示す構造は本願に関連する構造の一部のブロック図であって、本願が用いられるコンピュータ機器を制限するためのものではなく、具体的なコンピュータ機器は図より多い又は少ない部材を含むか、又はいくつかの部材を組み合わせ、又は異なる部材配置を有してもよいと理解される。
【0162】
一実施例において、本出願で提供されるニューラルネットワークのネットワーク表示生成装置1000は、コンピュータプログラムの形式として実現でき、コンピュータプログラムは、
図11に示すコンピュータ機器で実行される。コンピュータ機器のメモリには、当該ニューラルネットワークのネットワーク表示生成装置1000を構成する各プログラムモジュール、例えば、
図10に示す取得モジュール1002、線形変換モジュール1004、ロジック類似度算出モジュール1006、局所強化行列構築モジュール1008、アテンション重み分布決定モジュール1010及び融合モジュール1012を記憶することができる。各プログラムモジュールからなるコンピュータプログラムは、本明細書で説明された本出願の各実施例のニューラルネットワークのネットワーク表示生成方法におけるステップをプロセッサに実行させる。
【0163】
例えば、
図11に示すコンピュータ機器は、
図10に示すニューラルネットワークのネットワーク表示生成装置における取得モジュール1002によりステップS202を実行することができる。コンピュータ機器は線形変換モジュール1004によりステップS204を実行することができる。コンピュータ機器はロジック類似度算出モジュール1006によりステップS206を実行することができる。コンピュータ機器は局所強化行列構築モジュール1008によりステップS208を実行することができる。コンピュータ機器はアテンション重み分布決定モジュール1010によりステップS210を実行することができる。コンピュータ機器は融合モジュール1012によりステップS212を実行することができる。
【0164】
一実施例において、コンピュータ機器を提供し、メモリ及びプロセッサを含み、メモリにコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップをプロセッサに実行させる。
【0165】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つごとの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
【0166】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
【0167】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。
【0168】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
【0169】
一実施例において、コンピュータプログラムがプロセッサによってキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
【0170】
一実施例において、コンピュータプログラムがプロセッサによって中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、なお、2つずつの要素間の強弱関連は、以下の式により、算出する。
【0171】
【0172】
Gijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Piの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Piがi番目の要素に対応する局所強化範囲の中心点を示し、Diがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
【0173】
一実施例において、コンピュータプログラムがプロセッサによってロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップをプロセッサに実行させる。
【0174】
一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをプロセッサにさらに実行させる。
【0175】
一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続けて、ループ停止条件に達する場合最終的なネットワーク表示シーケンスを出力するステップをプロセッサにさらに実行させる。
【0176】
上記のコンピュータ機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【0177】
一実施例において、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合することで、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップを、プロセッサに実行させる。
【0178】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
【0179】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
【0180】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。
【0181】
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、各要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
【0182】
一実施例において、コンピュータプログラムがプロセッサによってキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
【0183】
一実施例において、コンピュータプログラムがプロセッサによって、中心点、ウィンドウサイズに従って各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、2つずつの要素間の強弱関連は、以下の式により、算出する。
【0184】
【0185】
Gijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Piの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Piがi番目の要素に対応する局所強化範囲の中心点を示し、Diがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
【0186】
一実施例において、コンピュータプログラムがプロセッサによって、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップを、プロセッサ実行させる。
【0187】
一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップを、プロセッサにさらに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップを、プロセッサにさらに実行させる。
【0188】
一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、さらに、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り、ループ停止条件に達するまで実行を続けて最終的なネットワーク表示シーケンスを出力するステップを、プロセッサにさらに実行させる。
【0189】
上記のコンピュータ読み取り可能な記憶媒体によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
【0190】
当業者は、上記実施例の方法における全部又は一部のプロセスはコンピュータ読み取り可能な命令が関連するハードウェアを命令することで実現されてもよく、前記プログラムが不揮発性コンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムは実行される場合、上記各方法の実施例の流れを含んでもよいと理解される。本願に係る各実施例に使用されるメモリ、記憶、データベース又は他の媒体のいかなる引用はいずれも不揮発性メモリ及び/又は揮発性メモリを含んでもよい。不揮発性メモリは読み出し専用メモリ(ROM)、プログラム可能ROM(PROM)、消去可能プログラム可能ROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)又はフラッシュメモリを含んでもよい。揮発性メモリはランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。制限的ではなく、説明として、RAMは多くの形式で得られ、例えばスタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトラムバスダイナミックRAM(DRDRAM)及びラムバスダイナミックRAM(RDRAM)等が挙げられる。
【0191】
以上の実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上記実施例の各技術的特徴の全ての可能な組み合わせを説明しないが、これらの技術的特徴の組み合わせは矛盾しない限り、いずれも本明細書に記載する範囲に含まれるべきである。
【0192】
以上の実施例は本願のいくつかの実施形態を説明し、その説明は具体的且つ詳細であるが、本発明の保護範囲を制限するためのものではない。ただし、本願の構想を逸脱せずに、更に変形や改良を行うことができ、これらの変形や改良はいずれも本願の保護範囲に属すべきである。従って、本願の保護範囲は添付の特許請求の範囲に準じるべきである。
【符号の説明】
【0193】
1000 ニューラルネットワークのネットワーク表示生成装置
1002 取得モジュール
1004 線形変換モジュール
1006 ロジック類似度算出モジュール
1008 局所強化行列構築モジュール
1010 アテンション重み分布決定モジュール
1012 融合モジュール