特許7098190 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特許7098190ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-07-01

(45)【発行日】2022-07-11

(54)【発明の名称】ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器

(51)【国際特許分類】

G06N 3/04 20060101AFI20220704BHJP

【ＦＩ】

G06N3/04

【請求項の数】 22

(21)【出願番号】P 2020551812

(86)(22)【出願日】2019-08-12

(65)【公表番号】

(43)【公表日】2021-07-15

(86)【国際出願番号】 CN2019100212

(87)【国際公開番号】W WO2020048292

(87)【国際公開日】2020-03-12

【審査請求日】2020-09-25

(31)【優先権主張番号】201811027795.X

(32)【優先日】2018-09-04

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】▲塗▼ 兆▲鵬▼

(72)【発明者】

【氏名】▲楊▼ 宝嵩

(72)【発明者】

【氏名】▲張▼ 潼

【審査官】久保光宏

(56)【参考文献】

【文献】Ashish Vaswani, et al.，"Attention Is All You Need"，Proceedings of 31st Conference on Neural Information Processing Systems (NIPS 2017)，[online]，2017年，Pages 1-11，[令和3年11月10日検索], インターネット, <URL: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf>.

【文献】西田京介（外１名），「深層学習におけるアテンション技術の最新動向」，電子情報通信学会誌，日本，一般社団法人電子情報通信学会，2018年06月01日，Vol.101, No.6，第５９１～５９６頁，ISSN: 0913-5693.

【文献】Shang Gao, et al.，"Hierarchical Convolutional Attention Networks for Text Classification"，Proceedings of the 3rd Workshop on Representation Learning for NLP，[online]，2018年07月20日，Pages 11-23，[令和3年11月13日検索], インターネット, <URL: https://aclanthology.org/W18-3002/>，<DOI: 10.18653/v1/W18-3002>.

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ４０／００－４０／５８

ＣＳＤＢ（日本国特許庁）

ＩＥＥＥＸｐｌｏｒｅ（ＩＥＥＥ）

(57)【特許請求の範囲】

【請求項1】

コンピュータ機器が実行するニューラルネットワークのネットワーク表示生成方法であって、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するステップと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するステップと、
前記要求ベクトルシーケンスに基づいて局所強化行列を構築するステップと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するステップと、を含む方法。

【請求項2】

前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定するステップと、
前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
前記局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップとを含むことを特徴とする請求項１に記載の方法。

【請求項3】

前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップと、
前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
前記局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップと、を含むことを特徴とする請求項１に記載の方法。

【請求項4】

前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定する前記ステップは、
前記入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換して、前記要素に対応する第１のスカラーを取得するステップと、
非線形変換関数により、前記第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得するステップと、
前記第２のスカラーを、前記要素に対応する局所強化範囲の中心点とするステップと、
を含むことを特徴とする請求項２又は３に記載の方法。

【請求項5】

前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する前記ステップは、
前記入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第３のスカラーを取得するステップと、
非線形変換関数により、前記第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得するステップと、
前記第４のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとするステップと、を含むことを特徴とする請求項２に記載の方法。

【請求項6】

前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定する前記ステップは、
前記キーベクトルシーケンスにおける各キーベクトルを取得するステップと、
各前記キーベクトルの平均値を算出するステップと、
前記平均値に対して線形変換を行って、第５のスカラーを取得するステップと、
非線形変換関数により、前記第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得するステップと、
前記第６のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップとを含むことを特徴とする請求項３に記載の方法。

【請求項7】

前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する前記ステップは、
前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とするステップと、
平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップとを含み、
前記局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得する前記ステップは、
入力シーケンスにおける各前記要素の順序に従って、２つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップを含み、２つずつの要素間の強弱関連は、以下の式により算出し、

【数1】

なお、Ｇｉｊが前記入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐｉの間の強弱関連を示し、Ｇｉｊが局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値を示し、Ｐｉがｉ番目の要素に対応する局所強化範囲の中心点を示し、Ｄｉがｉ番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項２又は３に記載の方法。

【請求項8】

前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得する前記ステップは、
前記局所強化行列に基づいて前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得するステップと、
前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するステップとを含むことを特徴とする請求項１～３のいずれか一項に記載の方法。

【請求項9】

前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップは、
前記ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割するステップと、
複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップとを含み、
前記方法は、
各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをさらに含むことを特徴とする請求項１～３のいずれか一項に記載の方法。

【請求項10】

前記方法は、
入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するステップをさらに含むことを特徴とする請求項１～３のいずれか一項に記載の方法。

【請求項11】

ニューラルネットワークのネットワーク表示生成装置であって、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含むことを特徴とする装置。

【請求項12】

前記局所強化行列構築モジュールは、さらに、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項１１に記載の装置。

【請求項13】

前記局所強化行列構築モジュールは、さらに、
前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項１１に記載の装置。

【請求項14】

前記局所強化行列構築モジュールは、さらに、
前記入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換し、前記要素に対応する第１のスカラーを取得し、非線形変換関数により、前記第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得し、前記第２のスカラーを、前記要素に対応する局所強化範囲の中心点とすることを特徴とする請求項１２又は１３に記載の装置。

【請求項15】

前記局所強化行列構築モジュールは、さらに、
前記入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第３のスカラーを取得し、非線形変換関数により、前記第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得し、前記第４のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとすることを特徴とする請求項１２に記載の装置。

【請求項16】

前記局所強化行列構築モジュールは、さらに、
前記キーベクトルシーケンスにおける各キーベクトルを取得し、各前記キーベクトルの平均値を算出し、前記平均値に対して線形変換を行って、第５のスカラーを取得し、非線形変換関数により、前記第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得し、前記第６のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを特徴とする請求項１３に記載の装置。

【請求項17】

前記局所強化行列構築モジュールは、さらに、
前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とし、平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各前記要素の順序に従って、２つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、２つずつの要素間の強弱関連は以下の式により算出し、

【数2】

なお、Ｇｉｊが前記入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐｉの間の強弱関連を示し、Ｇｉｊが局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値であり、Ｐｉがｉ番目の要素に対応する局所強化範囲の中心点を示し、Ｄｉがｉ番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項１２又は１３に記載の装置。

【請求項18】

前記アテンション重み分布決定モジュールは、さらに、
前記局所強化行列に基づいて、前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得することを特徴とする請求項１１～１３のいずれか一項に記載の装置。

【請求項19】

前記線形変換モジュールは、さらに、
前記ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、
前記装置は、
各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含むことを特徴とする請求項１１～１３のいずれか一項に記載の装置。

【請求項20】

前記装置は、
入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して、前記線形変換モジュール、前記ロジック類似度算出モジュール、前記局所強化行列構築モジュール、前記アテンション重み分布決定モジュール、及び前記融合モジュールによる一連の処理を適用することを繰り返し、ループ停止条件に達した場合に最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含むことを特徴とする請求項１１～１３のいずれか一項に記載の装置。

【請求項21】

コンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１～１０のいずれか一項に記載の方法のステップを前記プロセッサに実行させる媒体。

【請求項22】

コンピュータ機器であって、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１～１０のいずれか一項に記載の方法のステップを前記プロセッサに実行させるコンピュータ機器。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０１８年０９月０４日に中国専利局に提出した、出願番号が２０１８１１０２７７９５.Ｘであって、発明の名称が「ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器」である中国特許出願の優先権を主張し、本願で、その全ての内容を援用するものとする。

【0002】

本出願は、コンピュータ技術の分野に関し、特に、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器に関する。

【背景技術】

【0003】

アテンションメカニズム（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）は、ニューラルネットワークにおけるエンコーダとデコーダの隠れ状態間の依存関係に対してモデルを確立する方法であり、アテンションメカニズムは、深層学習に基づく自然言語処理（ＮＬＰ、ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）の各タスクに広く適用される。

【0004】

ＳＡＮ（Ｓｅｌｆ-ＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ、自己注意ネットワーク）は、自己注意メカニズムに基づくニューラルネットワークモデルであり、アテンションモデルの一種に属し、入力シーケンスにおける各要素ペアに対して１つのアテンション重みを算出することができ、長距離の依存関係をキャプチャでき、各要素に対応するネットワーク表示は各要素間の距離の影響を受けることはない。ただし、ＳＡＮは、入力シーケンス内の各要素を完全に考慮するため、各要素と全ての要素の間のアテンション重みを算出する必要があり、これは、重みの分布をある程度分散させ、要素間の関連をさらに弱める。

【発明の概要】

【課題を解決するための手段】

【0005】

これに鑑みて、従来の自己注意ニューラルネットワークが各要素と全ての要素との間のアテンション重みを考慮することによる要素間の関連を弱める技術的問題を解決するために、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器を提供する必要がある。

【0006】

一局面によれば、コンピュータ機器に使用されるニューラルネットワークのネットワーク表示生成方法を提供し、前記方法は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出し、
前記要求ベクトルシーケンスに基づいて局所強化行列を構築し、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得し、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得することを含む。

【0007】

他の局面によれば、ニューラルネットワークのネットワーク表示生成装置を提供し、前記装置は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含む。

【0008】

さらに他の局面によれば、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。

【0009】

さらなる局面によれば、コンピュータ機器を提供し、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。

【0010】

上記のニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【図面の簡単な説明】

【0011】

【図1】一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。

【図2】一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。

【図3】一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。

【図4】一実施例におけるガウス分布を使用してＳＡＮアテンション重み分布を修正するシステムアーキテクチャ図である。

【図5】一実施例における要求ベクトルシーケンスに基づいて局所強化行列を構築する流れ模式図である。

【図6】一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。

【図7】一実施例における要求ベクトルシーケンス、キーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。

【図8】一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。

【図9】一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。

【図10】一実施例におけるニューラルネットワークのネットワーク表示生成装置の構成ブロック図である。

【図11】一実施例におけるコンピュータ機器の構成ブロック図である。

【発明を実施するための形態】

【0012】

本願の目的、技術案及び利点をより明確にするために、以下に図面及び実施例に基づいて本願を更に詳しく説明する。ここで説明する具体的な実施例は本願を解釈するためのものであり、本願を制限するためのものではないと理解される。

【0013】

図１は、一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。図１を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークのネットワーク表示生成システムに適用される。当該ニューラルネットワークのネットワーク表示生成システムは、端末１１０及びコンピュータ機器１２０を含む。端末１１０及びコンピュータ機器１２０は、ブルートゥース（登録商標）、ユニバーサルシリアルバス（ＵＳＢ）又はネットワークを介して接続される。端末１１０は、処理対象の入力シーケンスをコンピュータ装置１２０に送信することができ、リアルタイムで送信してもよいし、非リアルタイムで送信してもよく、コンピュータ機器１２０は、入力シーケンスを受信し、入力シーケンスを変換した後、対応するネットワーク表示シーケンスを出力する。端末１１０は、デスクトップ端末又はモバイル端末であってもよく、モバイル端末は、携帯電話、タブレット、ノートブックなどのうちの少なくとも１つであってもよい。コンピュータ機器１２０は、独立したサーバ又は端末であってもよく、又は複数のサーバからなるサーバクラスタであってもよく、又はクラウドサーバ、クラウドデータベース、クラウドストレージ、ＣＤＮなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

【0014】

なお、上記の適用環境は単なる例であり、幾つかの実施例において、コンピュータ機器１２０は、端末１１０介さず入力シーケンスを直接取得することができる。例えば、コンピュータ機器が携帯電話である場合に、携帯電話は入力シーケンス（例えば、インスタントテキストメッセージにおける各ワードで形成されるシーケンス）を直接取得した後に、携帯電話に配置されたニューラルネットワークのネットワーク表示生成装置により、入力シーケンスを変換し、入力シーケンスに対応するネットワーク表示シーケンスを出力することができる。

【0015】

図２に示すように、一実施例において、ニューラルネットワークのネットワーク表示生成方法を提供する。本実施例は、主に、この方法を上記の図１におけるコンピュータ機器１２０に適用することを例にとって説明する。図２を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、以下のステップを含むことができる。

【0016】

Ｓ２０２において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。

【0017】

なお、入力シーケンスは、変換して相応するネットワーク表示シーケンスを取得するためのシーケンスである。入力シーケンスには、１セットの順序付け要素を含み、Ｉ個の要素の入力シーケンスを含むことを例にとって、入力シーケンスは

【数1】

で示すことができ、入力シーケンスの長さはＩであり、且つＩは正の整数である。

【0018】

入力シーケンスを翻訳する必要があるシナリオにおいて、入力シーケンスは翻訳対象テキストに対応するワードシーケンスであってもよく、入力シーケンスにおける各要素はワードシーケンスにおける各ワードである。翻訳対象テキストが中国語のテキストであると、ワードシーケンスは翻訳対象テキストに対してワード分割を行った後に、得られた各単語を語順に従って並べることで形成されたシーケンスであってもよく、翻訳対象テキストが英語テキストであると、ワードシーケンスは各ワードを語順に従って並べることで形成されたシーケンスであってもよい。例えば、翻訳対象テキストは「ＢｕｓｈｈｅｌｄａｔａｌｋｗｉｔｈＳｈａｒｏｎ」であり、相応する入力シーケンスＸは{Ｂｕｓｈ,ｈｅｌｄ,ａ,ｔａｌｋ,ｗｉｔｈ,Ｓｈａｒｏｎ}となる。

【0019】

ソース側のベクトル表示シーケンスは、入力シーケンスにおける各要素の相応するソース側のベクトル表示からなるシーケンスである。ソース側のベクトル表示シーケンスにおける各ベクトル表示は入力シーケンスにおける各要素と１対１で対応しており、ソース側のベクトル表示シーケンスは

【数2】

で示すことができる。ｚ_ｉ

【0020】

なお、コンピュータ機器は、入力シーケンスにおける各要素を固定長のベクトル（即ち、ＷｏｒｄＥｍｂｅｄｄｉｎｇ、ワード埋め込み）に変換することができる。一実施例において、ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークモデルに適用されると、コンピュータ機器は、ニューラルネットワークモデルの第１の層により入力シーケンスにおける各要素を相応するベクトルに変換でき、例えば、入力シーケンスにおけるｉ番目の要素ｘ_ｉを、１つのｄ次元の列ベクトルであるｚ_ｉに変換し、次に、入力シーケンスにおける各要素に対応するベクトルを組み合わせることで、入力シーケンスに対応するソース側のベクトル表示シーケンス、即ち、Ｉ個のｄ次元の列ベクトルからなるベクトルシーケンスを取得し、ｄは正の整数である。もちろん、コンピュータ機器は、他の装置から送信された入力シーケンスに対応するソース側のベクトル表示シーケンスを受信することもできる。ｚ_ｉ及び以下で説明する列ベクトルはともに行ベクトルであってもよく、本明細書で算出プロセスを容易に説明するために、列ベクトルを使用して説明する。

【0021】

Ｓ２０４において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。

【0022】

なお、線形変換は１つのベクトル空間に属するベクトルを別のベクトル空間にマッピングしてもよく、ベクトル空間は同じ次元の複数のベクトルによって形成される集合である。一実施例において、コンピュータ機器は３つの異なる学習可能なパラメータ行列により、ソース側のベクトル表示シーケンスに対して線形変換を行うことにより、ソース側のベクトル表示シーケンスをそれぞれ３つの異なるベクトル空間にマッピングし、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することができる。

【0023】

一実施例において、ニューラルネットワークのネットワーク表示生成方法は、ＳＡＮ（自己注意ニューラルネットワーク）に基づくモデルに適用されると、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスは、いずれもソース側の入力シーケンスに対応するソース側のベクトル表示シーケンスにより線形変換を行うことで得られる。他の実施例において、ニューラルネットワークのネットワーク表示生成方法はＥｎｃｏｄｅｒ-Ｄｅｃｏｄｅｒ（エンコーダ-デコーダ器）構造を含むニューラルネットワークモデルに適用されると、キーベクトルシーケンス及び値ベクトルシーケンスは、エンコーダが入力シーケンスに対応するソース側のベクトル表示シーケンスを符号化することで得られ、即ち、キーベクトルシーケンス及び値ベクトルシーケンスはエンコーダの出力であり、要求ベクトルシーケンスはデコーダの入力であり、例えば、ターゲット側のベクトル表示シーケンスであってもよく、ターゲット側のベクトル表示シーケンスはデコーダによって出力された出力シーケンスにおける各要素に対応するベクトル表示であってもよい。

【0024】

一実施例において、コンピュータ機器は以下の式により、３つの異なる学習可能パラメータ行列Ｗ^Ｑ、Ｗ^Ｋ、及びＷ^Ｖによりソース側のベクトル表示シーケンスＺに対して線形変換を行って、要求ベクトルシーケンスＱ、キーベクトルシーケンスＫ及び値ベクトルシーケンスＶを取得する。

【0025】

【数3】

【0026】

その中、入力シーケンス

【数4】

はＩ個の要素を含み、ソース側のベクトル表示シーケンス

【数5】

における各要素はｄ次元の列ベクトルであり、即ち、ＺはＩ個のｄ次元の列ベクトルからなるベクトルシーケンスであり、Ｉ×ｄの行列と記し、学習可能パラメータ行列Ｗ^Ｑ、Ｗ^Ｋ及びＷ^Ｖはｄ×ｄの行列であり、要求ベクトルシーケンスＱ、キーベクトルシーケンス及びＫ値ベクトルシーケンスＶはＩ×ｄの行列である。

【0027】

Ｓ２０６において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。

【0028】

なお、ロジック類似度は、入力シーケンスにおける各要素と当該入力シーケンスにおける他の要素との間の類似性を測定するために用いられる。各要素に対応するネットワーク表示を生成する場合に、当該類似性に基づいて入力シーケンスにおける他の要素に対応する値ベクトルに、相応するアテンション重みを割り当てることにより、出力の各要素に対応するネットワーク表示が当該要素と他の要素との間の関連を考慮するようにし、生成のネットワーク表示が各要素の特徴をより正確に表現し、より豊富な情報を含むようにする。

【0029】

一実施例において、ニューラルネットワークのネットワーク表示生成方法は、Ｅｎｃｏｄｅｒ-Ｄｅｃｏｄｅｒ（エンコーダ-デコーダ）構造を含むニューラルネットワークモデルに適用されると、要求ベクトルシーケンスはターゲット側のベクトル表示シーケンスであり、算出して得られたロジック類似度はターゲット側のベクトル表示シーケンスと入力シーケンスに対応するキーベクトルシーケンスとの類似性を示し、当該類似性に基づいて入力シーケンスに対応する値ベクトルシーケンスに、相応するアテンション重みを割り当てることにより、ソース側から出力される各要素のネットワーク表示が、ターゲット側が入力したターゲット側のベクトル表示シーケンスの影響を考慮できるようにする。

【0030】

一実施例において、コンピュータ機器は、コサイン類似性式により要求ベクトルシーケンスＱとキーベクトルシーケンスＫとの間のロジック類似度行列Ｅを算出することができ、即ち、

【数6】

であり、
その中、Ｋ^ＴはキーベクトルシーケンスＫの転置行列を示し、ｄは入力シーケンスにおける各要素ｘ_ｉがソース側のベクトル表示ｚ_ｉに変換される次元であり、ｄはｘ_ｉに対応するネットワーク表示の次元でもあり、ネットワーク隠れ状態ベクトルの次元でもあり、内積を減少し、算出速度を低減するために、上記の公式において

【数7】

を除算する。

【0031】

以下、ロジック類似度行列Ｅの算出プロセスについて説明する。

【数8】

であり、ｑ_ｉ、ｋ_ｉはｄ次元の列ベクトルであり、それぞれ、ソース側のベクトル表示ｚ_ｉに対応する要求ベクトル及びキーベクトルであり、ロジック類似度行列

【数9】

において、ｅ_ｉの各要素はソース側のベクトル表示ｚ_ｉに対応する要求ベクトルｑ_ｉと、入力シーケンスにおける全ての要素に対応するキーベクトル

【数10】

との間のロジック類似度であり、ｅ_ｉはＥのｉ番目の列の要素であり、ｅ_ｉはＩ次元の列ベクトルであり、算出公式は

【数11】

であり、ｅ_ｉはｉ番目の要素ｘ_ｉと入力シーケンスにおける全ての要素

【数12】

からなるＩセットの要素ペアにおける２つの要素との間の関連を示唆する。ロジック類似度行列ＥはＩ×Ｉの行列であり、ロジック類似度行列Ｅは、

【数13】

である。

【0032】

Ｓ２０８において、要求ベクトルシーケンスに基づいて、局所強化行列を構築する。

【0033】

その中、局所強化行列における列ベクトルの各要素は、入力シーケンスにおける２つずつの要素間の強弱関連を代表する。入力シーケンスにおける各要素に対応するネットワーク表示を生成する場合に、局所強化行列により、入力シーケンスにおける他の要素のうち現在の要素との関連が強い要素の当該ネットワーク表示に対する影響を強化することにより、現在の要素との関連が弱い要素の当該ネットワーク表示に対する影響を相対的に弱めることができる。局所強化行列は、現在の要素のネットワーク表示に対する他の要素の影響を考慮する場合に、考慮の範囲は入力シーケンスにおける全ての要素ではなく、局所要素に制限されるようにし、このようにすれば、アテンション重みを割り当てる場合に、アテンション重みは局所要素に割り当てられる傾向があり、局所要素におけるある要素に対応する値ベクトルに割り当てられるアテンション重みの大きさは、当該要素と現在の要素との間の強弱関連に関し、つまり、現在の要素との関連が強い要素に対応する値ベクトルに、より大きいアテンション重みが割り当てられる。

【0034】

入力シーケンスである「ＢｕｓｈｈｅｌｄａｔａｌｋｗｉｔｈＳｈａｒｏｎ」を例にとって説明し、ＳＡＮモデルにおいて、要素「Ｂｕｓｈ」に対応するネットワーク表示を出力する場合に、入力シーケンスにおける全ての要素「Ｂｕｓｈ」、「ｈｅｌｄ」、「ａ」、「ｔａｌｋ」、「ｗｉｔｈ」及び「Ｓｈａｒｏｎ」のそれぞれに対応する値ベクトルを完全に考慮し、全ての要素のそれぞれに対応する値ベクトルに、相応するアテンション重みを割り当て、アテンション重みの分布がある程度分散され、「Ｂｕｓｈ」と隣接要素との間の関連をさらに弱める。

【0035】

本実施例におけるニューラルネットワークのネットワーク表示生成方法によれば、「Ｂｕｓｈ」に対応するネットワーク表示を出力する場合に、局所強化範囲においてアテンション重み割り当てるようにすることができる。「Ｂｕｓｈ」に対応するネットワーク表示を出力する場合に、要素「Ｂｕｓｈ」と要素「ｈｅｌｄ」との間の関連が強いと、「ｈｅｌｄ」に対応する値ベクトルに、高いアテンション重みを割り当て、「ｈｅｌｄ」と同様に、「Ｂｕｓｈ」に対応する局所強化範囲に属する局所要素における「ａｔａｌｋ」も注意されるため、高いアテンション重みが割り当てられ、このように、短句である「ｈｅｌｄａｔａｌｋ」における各ワードに対応する情報（値ベクトル）はキャプチャされ、「Ｂｕｓｈ」に関連付けられ、出力の「Ｂｕｓｈ」のネットワーク表示は局所情報を表現できるだけでなく、距離が遠い要素との間の依存関係を保留することもできる。

【0036】

よって、コンピュータ機器は各要素に対応するネットワーク表示を生成する場合に、現在の要素に対応する局所強化範囲を決定する必要があり、現在の要素に対応するアテンション重みの割り当ては当該局所強化範囲内に制限される。

【0037】

一実施例において、局所強化範囲は、局所強化範囲の中心点及び局所強化範囲のウィンドウサイズとの２つの変数に基づいて決定でき、中心点とは現在の要素のネットワーク表示を生成する場合に最も高いアテンション重みが割り当てられる要素の、入力シーケンスにおける位置を指し、ウィンドウサイズとは、局所強化範囲の長さを指し、アテンション重みが幾つかの要素に割り当てられるかを決定し、中心点を中心とし、ウィンドウサイズをスパンとする要素は局所強化範囲である。各要素に対応する局所強化範囲は各要素自体に関連し、各要素に対応し、特定の範囲に固定されないため、生成される各要素のネットワーク表示は豊富なコンテキスト情報を柔軟にキャプチャできる。

【0038】

一実施例において、コンピュータ機器は、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定することができ、当該ステップは、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定したガウス分布に基づいて局所強化範囲を決定し、コンピュータ機器は、決定された局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができ、なお、２つずつの要素間の強弱関連は、以下の式により、算出して得られる。

【0039】

【数14】

【0040】

その中、Ｇ_ｉｊは入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐ_ｉの間の強弱関連を示し、Ｇ_ｉｊは局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値であり、Ｐ_ｉはｉ番目の要素に対応する局所強化範囲の中心点を示し、Ｄ_ｉはｉ番目の要素に対応する局所強化範囲のウィンドウサイズを示す。

【0041】

式（２）から分かるように、局所強化行列ＧはＩ×Ｉの行列であり、Ｉ個の列ベクトルを含み、各列ベクトルの次元はＩである。局所強化行列Ｇのｉ番目の列のベクトルにおける各要素の値は入力シーケンスにおけるｉ番目の要素に対応する局所強化範囲に基づいて決定され、公式（２）は中心点Ｐ_ｉに対して対称な関数であり、分子は入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐ_ｉ間の距離を代表し、距離が近いほど、Ｇ_ｉｊが大きくなり、ｊ番目の要素とｉ番目の要素との関連が強いことを意味し、逆に、距離が遠いほど、Ｇ_ｉｊが小さくなり、ｊ番目の要素とｉ番目の要素との関連が弱いことを意味する。つまり、ｉ番目の要素に対応するネットワーク表示を生成する場合に、アテンション重みは中心点Ｐ_ｉに近い要素間で集中的に割り当てられる。

【0042】

なお、ガウス分布変形による式（２）を採用してＧ_ｉｊを算出することは単なる例であり、幾つかの実施例において、局所強化範囲に対応する中心点及びウィンドウサイズを決定した後に、中心点を期待値とし、ウィンドウサイズを分散をとし、他の期待値及び分散を有する分布によりＧ_ｉｊの値を算出することにより、局所強化行列Ｇ、例えば、ポアソン分布や二項分布などを取得することができる。

【0043】

Ｓ２１０において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。

【0044】

ロジック類似度は、入力シーケンスにおける各要素ペアの２つの要素の類似性を表し、局所強化行列は、入力シーケンスにおける各要素ペアの２つの要素の強弱関連を表し、両方の組み合わせは、局所強化アテンション重み分布の算出に使用できる。

【0045】

一実施例において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することは、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することを含むことができる。

【0046】

なお、コンピュータ機器は、入力シーケンスにおける各要素ペアの２つの要素のロジック類似度及び強弱関連を取得した後に、強弱関連によりロジック類似度を修正し、局所的に強化されたロジック類似度を取得することができる。一実施例において、全ての要素のそれぞれに対応するロジック類似度を含んだロジック類似度行列Ｅと、全ての要素ペアのそれぞれに対応する強弱関連を含んだ局所強化行列Ｇと加算して、ロジック類似度行列を修正し（オフセットとも呼ばれる）、修正後のロジック類似度行列におけるロジック類似度ベクトルに対して正規化処理を行うことにより、局所的に強化されたアテンション重み分布を取得する。

【0047】

修正後のロジック類似度行列Ｅ′におけるロジック類似度ベクトルに対して正規化処理を行うことは、列ベクトルｅ_i’ごとに正規化処理を行うことであり、即ち、列ベクトルｅ_i’における各要素の値範囲はいずれも（０,１）の間にあり、且つ、全ての要素の和は１である。列ベクトルｅ_i’を正規化することにより、その中の最大の値が強調表示され、最大値よりもはるかに低い他のコンポーネントを抑制することができ、入力シーケンスにおけるｉ番目の要素に対応する局所的に強化されたアテンション重み分布を取得することができる。

【0048】

一実施例において、局所的に強化されたアテンション重み分布Ａは、以下の式により、算出することができる。

【0049】

【数15】

【0050】

その中、ｓｏｆｔｍａｘ関数は正規化処理関数であり、Ａは入力シーケンスにおける各要素に対応するアテンション重み分布を含む行列であり、

【数16】

であり、ＡはＩ個のＩ次元の列ベクトルを含み、Ａにおけるｉ番目の要素α_ｉは入力シーケンスにおけるｉ番目の要素ｘ_ｉに対応するアテンション重み分布を代表する。

【0051】

Ｓ２１２において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。

【0052】

なお、ネットワーク表示シーケンスは複数のネットワーク表示（ベクトル表示）からなるシーケンスである。本実施例において、入力シーケンスをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの隠れ層におけるモデルパラメータの線形変換又は非線形変換により、当該入力シーケンスに対応するネットワーク表示シーケンスを出力する。

【0053】

なお、現在の要素ｘ_ｉに対応するネットワーク表示を出力する場合に、コンピュータ機器は局所的に強化されたアテンション重み分布行列から当該要素に対応するアテンション重み分布α_ｉを取得し、当該要素に対応するアテンション重み分布α_ｉにおける各要素を重み係り数とし、値ベクトルシーケンスにおける値ベクトルを重み付けて和を求めることで、現在の要素ｘ_ｉに対応するネットワーク表示Ｏ_ｉを取得し、入力シーケンスに対応するネットワーク表示シーケンスＯは複数のネットワーク表示からなり、例えば、

【数17】

である。

【0054】

入力シーケンスに対応するネットワーク表示シーケンスＯにおけるｉ番目の要素Ｏ_ｉは、以下の式により、算出することができる。

【0055】

【数18】

【0056】

α_ｉｊは定数であり、ｖ_ｊはｄ次元の列ベクトルであり、Ｏ_ｉもｄ次元の列ベクトルであるので、即ち、
入力シーケンスにおけるｉ番目の要素ｘ_ｉに対応するアテンション重み分布が

【数19】

である場合に、入力シーケンスに対応するＫ値ベクトルシーケンスは

【数20】

となり、ｘ_ｉに対応するネットワーク表示Ｏ_ｉは、以下の式により、算出することができる。

【0057】

【数21】

【0058】

現在の要素に対応するアテンション重み分布は、元のロジック類似度に基づいて修正された局所的に強化されたアテンション重み分布であるので、重み付けて和を求める場合に入力シーケンスにおける全ての要素に対応する値ベクトルを完全に考慮せず、局所強化範囲に属する要素に対応する値ベクトルを主に考慮し、このように、出力される現在の要素のネットワーク表示は現在の要素に関連する局所情報を含む。

【0059】

なお、本出願で使用される「要素」という用語は、本明細書でベクトル（列ベクトル又は行列ベクトルを含む）の基本的な構成単位を説明し、例えば、「入力シーケンスにおける要素」とは入力シーケンスにおける各入力を指し、「行列における要素」とは、行列を構成する各列ベクトルを指し、「列ベクトルにおける要素」とは列ベクトルにおける各数値を指し、即ち、「要素」とは、シーケンス、ベクトル又は行列を構成する基本的な構成単位を指す。

【0060】

図３は、一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。図３を参照して、入力シーケンスＸに対応するベクトル化表示Ｚを取得した後に、Ｚは３つの異なる学習可能なパラメータ行列により要求ベクトルシーケンスＱ、キーベクトルシーケンスＫ及び値ベクトルシーケンスＶに線形変換され、次に、ドット積演算により各キー値ペアの間のロジック類似度を算出して、ロジック類似度行列Ｅを取得し、Ｑ又はＫに基づいて局所強化行列Ｇを構築し、ＧによりＥを修正して局所的に強化されたロジック類似度行列Ｅ’を取得し、次に、ｓｏｆｔｍａｘ関数によりＥ’に対して正規化処理を行って、局所的に強化されたアテンション重み分布行列Ａを取得し、最後に、Ａと値ベクトルシーケンスＶとに対してドット積演算を行って、ネットワーク表示シーケンスＯを出力する。

【0061】

図４は、一実施例におけるガウス分布を使用してＳＡＮアテンション重み分布を修正するシステムアーキテクチャ図である。入力シーケンスが「ＢｕｓｈｈｅｌｄａｔａｌｋｗｉｔｈＳｈａｒｏｎ」、且つ現在の要素が「Ｂｕｓｈ」である例をとって説明し、図４の左側において、元のＳＡＮを利用して基本的なモデルを構築し、各要素ペア（入力シーケンスにおける２つずつの要素からなる）の間のロジック類似度を取得し、当該ロジック類似度に基づいて算出した「Ｂｕｓｈ」に対応するアテンション重み分布は全ての単語を考慮し、「ｈｅｌｄ」に割り当てられたアテンション重みは最も高く（バーの高さはアテンション重みの大きさを代表する）、残りの単語に割り当てられたアテンション重みは低い。図４の中央を参照し、ガウス分布を利用して算出した現在の要素「Ｂｕｓｈ」に対応する局所強化範囲の中心点の位置はほぼ４に等しく、入力シーケンスにおけるワード「ｔａｌｋ」に対応し、局所強化範囲のウィンドウサイズはほぼ３に等しく、つまり、現在の要素「Ｂｕｓｈ」に対応する局所強化範囲はワード「ｔａｌｋ」を中心とする３つのワードに対応する位置であり、決定された局所強化範囲に基づいて局所強化行列を算出し、局所強化行列により図４の左側で得られたロジック類似度を修正し、修正後のアテンション重みの割り当ては、この３つのワードに集中し、「ｔａｌｋ」に割り当てられたアテンション重みは最も高い。図４の左側及び図４の中央を組み合わせて、図４の右側で修正された現在の要素「Ｂｕｓｈ」に対応するアテンション重み分布を取得し、即ち、連語「ｈｅｌｄａｔａｌｋ」に大部分のアテンション重みが割り当てられ、「Ｂｕｓｈ」に対応するネットワーク表示を算出する場合に、「ｈｅｌｄａｔａｌｋ」の３つのワードのそれぞれに対応する値ベクトルを主に考慮し、このようにすれば、「ｈｅｌｄａｔａｌｋ」の情報はキャプチャされ、「Ｂｕｓｈ」に関連付けられる。

【0062】

上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、さらに局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【0063】

図５に示すように、一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、以下のステップを含むことができる。

【0064】

Ｓ５０２において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定する。

【0065】

なお、入力シーケンスにおける各要素に対応する局所強化範囲は、各要素に対応する中心点及びウィンドウサイズによって決定され、各要素に対応する中心点は各要素に対応する要求ベクトルに依存するので、要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。

【0066】

一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することは、入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第１のスカラーを取得し、非線形変換関数により、当該第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得し、第２のスカラーを、当該要素に対応する局所強化範囲の中心点とすることを含むことができる。

【0067】

なお、コンピュータ機器は、ステップＳ２０４にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。入力シーケンスにおけるｉ番目の要素ｘ_ｉを例にとって、それに対応する局所強化範囲の中心点は以下ステップにより得ることができる。
１）コンピュータ機器は、第１のフィードフォワードニューラルネットワークにより、ｉ番目の要素に対応する要求ベクトルｑ_ｉを１つの隠れ状態にマッピングし、

【数22】

によりそれに対して線形変換を行って、入力シーケンスにおけるｉ番目の要素に対応する第１のスカラーｐ_ｉを取得し、第１のスカラーｐ_ｉは実数空間に属する１つの数値であり、且つｐ_ｉの算出式は、

【数23】

_である。

【0068】

その中、

【数24】

は第１のフィードフォワードニューラルネットワークにおける一部であり、ｔａｎｈは活性化関数であり、ｑ_ｉは入力シーケンスにおけるｉ番目の要素に対応する要求ベクトルであり、

【数25】

とＷ_Ｐとはトレーニング可能な線形変換行列であり、

【数26】

はＵ_Ｐの転置行列であり、Ｕ_Ｐは１つのｄ次元の列ベクトルであり、

【数27】

は１つのｄ次元の行ベクトルであり、このように、フィードフォワードニューラルネットワークから出力される高次元のベクトルマッピングを１つのスカラーとすることができる。本出願で使用されるフィードフォワードニューラルネットワークはベクトルを隠れ状態にマッピングし、当該フィードフォワードニューラルネットワークによるベクトルのマッピング方法を制限せず、当該フィードフォワードニューラルネットワークは、他のニューラルネットワークモデル、例えば、長期短期記憶（ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）モデル及びそのバリエーション、ゲーテッドユニット（ＧａｔｅｄＵｎｉｔ）及びそのバリエーション、又は単純な線形変換などに置き換えることができる。

【0069】

２）コンピュータ機器は、非線形変換関数により、第１のスカラーｐ_ｉを１つのレンジが（０,１）であるスカラーに変換し、次に、入力シーケンスの長さＩを乗算して、１つのレンジが（０,Ｉ）である中心点位置Ｐ_ｉを取得して、Ｐ_ｉはｉ番目の要素に対応する局所強化範囲の中心点であり、Ｐ_ｉは入力シーケンスの長さＩに比例し、以下の式により、Ｐ_ｉ算出して得ることができる。

【0070】

【数28】

【0071】

その中、ｓｉｇｍｏｉｄは非線形変換関数であり、ｐ_ｉを１つのレンジが（０,１）であるスカラーに変換でき、ここ及び以下でｓｉｇｍｏｉｄを利用してスカラーを変化する方式は、他の任意の実数を（０,１）の間にマッピングする方法に置き換えてもよく、本出願では、それを制限しない。

【0072】

コンピュータ機器は、算出したＰ_ｉを、入力シーケンスにおけるｉ番目の要素ｘ_ｉに対応する局所強化範囲の中心点とし、例えば、入力シーケンスの長さＩが１０であり、算出したＰ_ｉは５に等しく、ｘ_ｉに対応する局所強化範囲の中心点は入力シーケンスにおける５番目の要素であり、ｘ_ｉに対応するネットワーク表示を生成する場合に、入力シーケンスにおける５番目の要素の値ベクトルに割り当てられるアテンション重みが最も高い。

【0073】

コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を取得するまで、上記のステップを繰り返すことができる。

【0074】

Ｓ５０４において、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する。

【0075】

ウィンドウサイズを柔軟に予測するために、要素ごとに、相応するウィンドウサイズを予測することができる。このようにして、コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定することができ、即ち、各要求ベクトルは１つのウィンドウサイズに対応する。

【0076】

一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することは、入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第３のスカラーを取得し、非線形変換関数により、当該第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得し、第４のスカラーを当該要素に対応する局所強化範囲のウィンドウサイズとすることを含むことができる。

【0077】

なお、コンピュータ機器は、ステップＳ２０４にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することができる。入力シーケンスにおけるｉ番目の要素ｘ_ｉを例にとって、それに対応する局所強化範囲のウィンドウサイズは、以下のステップにより得られる。

【0078】

１）コンピュータ機器は、第２のフィードフォワードニューラルネットワークにより、ｉ番目の要素に対応する要求ベクトルｑ_ｉを１つの隠れ状態にマッピングし、

【数29】

によりそれに対して線形変換を行って、入力シーケンスにおけるｉ番目の要素に対応する第３のスカラーｚ_ｉを取得し、第３のスカラーｚ_ｉは実数空間に属する１つの数値であり、且つｚ_ｉの算出式は、

【数30】

_である。

【0079】

その中、

【数31】

は第２のフィードフォワードニューラルネットワークの一部であり、ｔａｎｈは活性化関数であり、ｑ_ｉは入力シーケンスにおけるｉ番目の要素に対応する要求ベクトルであり、Ｗ_Ｐは、以上の中心点隠れ状態を算出するために使用されるものと同じパラメータ行列であり、

【数32】

はトレーニング可能な線形変換行列であり、

【数33】

はＵＤの転置行列であり、ＵＤは１つのｄ次元の列ベクトルであり、

【数34】

は１つのｄ次元の行ベクトルであり、このようにして、フィードフォワードニューラルネットワークから出力される高次元のベクトルを１つのスカラーにマッピングすることができる。

【0080】

２）コンピュータ機器は、非線形変換関数により、第３のスカラーｚ_ｉを、１つのレンジが（０,１）であるスカラーに変換し、次に、入力シーケンスの長さＩを乗算して、１つのレンジが（０,Ｉ）であるウィンドウサイズＤ_ｉを取得し、Ｄ_ｉはｉ番目の要素に対応する局所強化範囲のウィンドウサイズであり、Ｄ_ｉは入力シーケンスの長さＩに比例し、以下の式により、Ｄ_ｉを算出できる。

【0081】

【数35】

【0082】

その中、ｓｉｇｍｏｉｄは非線形変換関数であり、ｚ_ｉを、１つのレンジが（０,１）であるスカラーに変換する。

【0083】

コンピュータ機器は、算出したＺ_ｉを、入力シーケンスにおけるｉ番目の要素ｘ_ｉに対応する局所強化範囲のウィンドウサイズとし、例えば、入力シーケンスの長さＩは１０であり、算出したＺ_ｉは７に等しく、ｘ_ｉに対応する局所強化範囲のウィンドウサイズは、中心点を中心とする７つの要素であり、ｘ_ｉに対応するネットワーク表示を生成する場合に、アテンション重みはこの７つの要素において集中して割り当てられる。

【0084】

コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲のウィンドウサイズを取得するまで、前述のステップを繰り返すことができる。

【0085】

Ｓ５０６において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。

【0086】

ステップＳ５０２及びステップＳ５０４から分かるように、入力シーケンスにおける各要素に対応する要求ベクトルが異なるため、各要素に対応する中心点、ウィンドウサイズも異なり、各要素に対応する局所強化範囲も異なり、各要素自体の特性に従って局所強化範囲を選択し、より柔軟である。

【0087】

Ｓ５０８において、局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得する。

【0088】

なお、コンピュータ機器は、決定された局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、その中、２つずつの要素間の強弱関連は、以下の式により、算出することができる。

【0089】

【数36】

【0090】

Ｇ_ｉｊは局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値である。

【0091】

図６は、一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。図６を参照して、まず、フィードフォワードニューラルネットワークにより要求ベクトルシーケンスを隠れ状態にマッピングし、次に、線形変換により隠れ状態を１つの実数空間のスカラーにマッピングし、次に、非線形変換関数ｓｉｇｍｏｉｄにより、当該スカラーを、１つのレンジが（０,１）であるスカラーに変換し、入力シーケンスの長さＩを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定し、局所強化範囲に基づいて局所強化行列を算出する。

【0092】

上記の実施形態では、入力シーケンスにおける各要素に対応する要求ベクトルを変換することにより、各要素に対して、相応する局所強化範囲を柔軟に決定し、入力シーケンスに対して１つの局所強化範囲を固定することなく、入力シーケンスにおける長距離要素の間の依存関係を効果的に改善できる。

【0093】

一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができる。

【0094】

本実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲を決定する方式は以上と同じであり、ここで再度説明しない。ウィンドウサイズについて、グローバルコンテキスト情報を考慮して、入力シーケンスにおける全ての要素に対応する局所強化範囲のウィンドウサイズは、１つの統一されたウィンドウサイズによって決定され、ウィンドウサイズを決定する場合に、入力シーケンスにおける全ての要素の情報を融合する必要がある。

【0095】

一実施例において、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することは、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第５のスカラーを取得し、非線形変換関数により、第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得し、第６のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを含むことができる。

【0096】

なお、コンピュータ機器は、ステップＳ２０４にて得られたキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することができ、つまり、各要素に対応する局所強化範囲のウィンドウサイズは同じであり、当該統一されたウィンドウサイズは以下のステップにより得られる。

【0097】

１）コンピュータ機器は、入力シーケンスに対応するキーベクトルシーケンスＫを取得し、キーベクトルシーケンスＫにおける全てのキーベクトルの平均値

【数37】

を算出する。

【0098】

【数38】

【0099】

２）コンピュータ機器は、得られた平均値

【数39】

に対して線形変換を行って、１つの実数空間の第５のスカラーｚを生成する。

【0100】

【数40】

【0101】

その中、

【数41】

は以上のウィンドウサイズ隠れ状態を算出するために使用されるものと同じパラメータであり、Ｗ_Ｄはトレーニング可能な線形変換行列である。

【0102】

３）コンピュータ機器は、非線形変換関数により、第５のスカラーｚを、１つのレンジが（０,１）であるスカラーに変換し、次に、入力シーケンスの長さＩを乗算して、１つのレンジが（０,Ｉ）であるウィンドウサイズＤを取得し、Ｄは、統一された局所強化範囲のウィンドウサイズであり、且つＤは入力シーケンスの長さＩに比例し、以下の式により、Ｄを算出することができる。

【0103】

【数42】

【0104】

その中、ｓｉｇｍｏｉｄは非線形変換関数であり、ｚを、１つのレンジが（０,１）であるスカラーに変換する。

【0105】

各要素に対応する局所強化範囲のウィンドウサイズは同じであるが、各要素に対応する中心点が、相応する要求ベクトルに従って算出されるため、各要素に対応する局所強化範囲は異なる。コンピュータ機器は、決定された局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、なお、２つずつの要素間の強弱関連は、以下の式により、算出することができる。

【0106】

【数43】

【0107】

Ｇ_ｉｊは、局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値である。

【0108】

図７は、一実施例における要求ベクトルシーケンス及びキーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。図７を参照して、それぞれ、フィードフォワードニューラルネットワークにより、要求ベクトルシーケンスを隠れ状態にマッピングし、平均プーリングによりキーベクトルシーケンスに対して平均値を求め、それぞれ線形変換により、隠れ状態を、１つの実数空間のスカラーにマッピングし、平均値を１つの実数空間のスカラーにマッピングし、次に、非線形変換関数ｓｉｇｍｏｉｄにより、取得されたスカラーを、それぞれ、１つのレンジが（０,１）であるスカラーに変換し、当該スカラーと入力シーケンスの長さＩとを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定する。

【0109】

上記の実施例において、入力シーケンスに対応するキーベクトルシーケンスを変換することにより、当該キーベクトルシーケンスは入力シーケンスにおける全ての要素に対応する特徴ベクトル（キーベクトル）を含むので、決定される統一されたウィンドウサイズは全てのコンテキスト情報を考慮しており、当該統一されたウィンドウサイズに基づいて決定された各要素に対応する局所強化範囲は、豊富なコンテキスト情報をキャプチャすることができる。

【0110】

一実施例において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得することは、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することを含むことができ、当該方法は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得することを含む。

【0111】

なお、スタックマルチヘッド（ＳｔａｃｋｅｄＭｕｌｔｉ-Ｈｅａｄ）ニューラルネットワークを採用して、入力シーケンスに対応するソース側のベクトル表示シーケンスを処理することができ、ソース側のベクトル表示シーケンスに対して分割処理を行って、複数セットの（マルチヘッドとも呼ばれる）低次元のソース側のベクトル表示サブシーケンス取得することができる。例えば、ソース側のベクトル表示シーケンスは５つの要素を含み、各要素は５１２次元の列ベクトルであり、それを８つの部分に分割し、つまり、８つの５×６４のソース側のベクトル表示サブシーケンスを取得する。それぞれ、この８つのソース側のベクトル表示サブシーケンスを入力ベクトルとして、異なるサブ空間を介して変換し、８つの５×６４のネットワーク表示サブシーケンスを出力し、この８つのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、１つの５×５１２次元のネットワーク表示シーケンスを出力する。

【0112】

例を挙げて説明し、スタックマルチヘッドニューラルネットワークはＨセットのサブ空間を含み、まず、入力シーケンス

【数44】

がソース側のベクトル表示シーケンス

【数45】

に変換される。

【数46】

が分割された後に、Ｈ個のソース側のベクトル表示サブシーケンスを取得する。次に、それぞれ、各サブ空間において、ソース側のベクトル表示サブシーケンスを変換し、第ｈ（ｈ＝１、２、…、Ｈ）のサブ空間において変換することを例にとって説明し、第ｈのサブ空間において、相応する学習可能なパラメータ行列

【数47】

により

【数48】

に対して線形変換を行って、相応する要求ベクトルシーケンスＱ_ｈ、キーベクトルシーケンスＫ_ｈ及び値ベクトルシーケンスＶ_ｈを取得し、この第Ｈのサブ空間において、各サブ空間で使用されるこれらの学習可能なパラメータ行列は異なり、各サブ空間において異なる特徴ベクトルを取得するようにし、さらに、異なるサブ空間は異なる局所情報に注目できる。

【0113】

次に、第ｈのサブ空間において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度

【数49】

を算出する。次に、要求ベクトルシーケンスＱ_ｈ又はキーベクトルシーケンスＫ_ｈに基づいて第ｈのサブ空間に対応する局所強化行列Ｇ_ｈを構築し、局所強化行列Ｇ_ｈにおいて、各要素Ｇ_{ｈｉ,ｈｊ}の算出式は

【数50】

であり、当該算出式は、Ｑ_ｈに基づいてｉ番目の要素に対応する局所強化範囲の中心点Ｐ_ｈｉを決定し、Ｑ_ｈ又はＫ_ｈに基づいて、ｉ番目の要素に対応する局所強化範囲のウィンドウサイズＤ_ｈｉを決定し、Ｇ_{ｈｉ,ｈｊ}は局所強化行列Ｇ_ｈにおけるｉ番目の列のベクトルのｊ番目の要素の値であり、Ｇ_{ｈｉ,ｈｊ}は第ｈのサブ空間で表現される入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐ_ｈｉの間の強弱関連を示す。

【0114】

次に、第ｈのサブ空間において、ｓｏｆｔｍａｘ非線形変換を適用して、ロジック類似度をアテンション重み分布に変換し、局所強化行列Ｇ_ｈによりロジック類似度を修正して、アテンション重み分布

【数51】

を取得し、続いて、第ｈのサブ空間において、

【数52】

により入力シーケンスに対応する出力表示シーケンスＯ_ｈを算出して得る。最後に、各サブ空間の出力表示シーケンスＯ_ｈをスプライシングして、また１回の線形変換を行って最終的な出力ベクトル

【数53】

を取得する。

【0115】

一実施例において、当該方法は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力する。

【0116】

なお、ニューラルネットワークは複数の層計算を積み重ねることができ、１層のニューラルネットワークでもスタックマルチヘッドのニューラルネットワークでも、複数の層を繰り返して計算することができる。各層の計算で、前の層の出力を次の層の入力として、現在の層の出力即ち現在の層のネットワーク表示シーケンスを取得するまで、線形変換を行って、対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップを繰り返して実行する。効率及び性能を考慮して、繰り返しの回数は６回であってもよく、各層のニューラルネットワークのネットワークパラメータは異なり、６回繰り返するプロセスは、実際に、各層のネットワークパラメータにより、元の入力シーケンスのソース側のベクトル表示シーケンスを６回更新するプロセスである。

【0117】

例えば、スタックマルチヘッドニューラルネットワークにおいて、第１の層の出力はＯ^Ｌ１であり、第２の層の計算で、Ｏ^Ｌ１を入力として、第２の層のネットワークパラメータによりＯ^Ｌ１を変換し、第２の層の出力Ｏ^Ｌ２…を出力し、繰り返し回数に達するまで繰り返し、６回繰り返した出力を最終的な出力とし、即ち、Ｏ^Ｌ６を入力シーケンスに対応するネットワーク表示シーケンスとする。

【0118】

図８は、一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。図８を参照して、層ごとに、入力は同じであり、いずれも前の層の出力であり、次に、入力を複数のサブ入力に分割し、複数のサブ空間（複数のヘッドとも呼ばれる）のそれぞれのネットワークパラメータによりサブ入力に対して同じ変換を行って、各サブ空間の出力を取得し、最後に、この複数の出力をスプライシングした後に、現在の層の出力を取得し、現在の層の出力は次の層の入力であり、複数回繰り返すことにより、最後の層の出力を最終的な出力とする。

【0119】

一実施例において、入力シーケンスは翻訳対象となるテキストシーケンスであり、出力されるネットワーク表示シーケンスは翻訳後のテキストにおける各ワードに対応する特徴ベクトルであり得るため、出力されたネットワーク表示シーケンスに基づいて翻訳後のセンテンスを決定することができる。本出願の各実施例は、長い短句及び長いセンテンスの翻訳で、翻訳品質が大幅に改善される。

【0120】

図９に示すように、一実施例におけるニューラルネットワークのネットワーク表示方法の流れ模式図であり、以下のステップを含む。

【0121】

Ｓ９０２において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。

【0122】

Ｓ９０４において、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割する。

【0123】

Ｓ９０６において、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得する。

【0124】

Ｓ９０８において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。

【0125】

Ｓ９１０において、入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第１のスカラーを取得する。

【0126】

Ｓ９１２において、非線形変換関数により、当該第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得する。

【0127】

Ｓ９１４において、第２のスカラーを当該要素に対応する局所強化範囲の中心点とする。

【0128】

Ｓ９１６２において、入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第３のスカラーを取得する。

【0129】

Ｓ９１６４において、非線形変換関数により、当該第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得する。

【0130】

Ｓ９１６６において、第４のスカラーを、当該要素に対応する局所強化範囲のウィンドウサイズとする。

【0131】

Ｓ９１６１において、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出する。

【0132】

Ｓ９１６３において、平均値に対して線形変換を行って、第５のスカラーを取得する。

【0133】

Ｓ９１６５において、非線形変換関数により、第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得する。

【0134】

Ｓ９１６７において、第６のスカラーを、統一された局所強化範囲のウィンドウサイズとする。

【0135】

Ｓ９１８において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。

【0136】

Ｓ９２０において、局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得する。

【0137】

Ｓ９２２において、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得する。

【0138】

Ｓ９２４において、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。

【0139】

Ｓ９２６において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。

【0140】

Ｓ９２８において、ソース側のベクトル表示サブシーケンスに対応する複数セットのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得する。

【0141】

Ｓ９３０において、出力のネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ステップＳ９０４に戻り、最終的なネットワーク表示シーケンスを取得するまで繰り返す。

【0142】

上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【0143】

図９のフローチャートにおける各ステップは、矢印で示したように順に実行されるが、これらのステップは、必ずしも矢印で示した順序に基づいて順に実行されるわけではない。本明細書で明確に説明しない限り、これらのステップの実行順序が制限されず、これらのステップが他の順序で実行されてもよい。そして、図９における少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズが必ずしも同じ時刻に実行されるわけではなく、異なる時刻に実行されてもよく、これらのサブステップ又はステップの実行順序が必ずしも順に行われるわけではなく、他のステップ又は他のステップのサブステップ又はステップの少なくとも一部と順番又は交互に実行されてもよい。

【0144】

一実施例において、図１０に示すように、ニューラルネットワークのネットワーク表示生成装置１０００を提供し、当該装置は取得モジュール１００２、線形変換モジュール１００４、ロジック類似度算出モジュール１００６、局所強化行列構築モジュール１００８、アテンション重み分布決定モジュール１０１０及び融合モジュール１０１２を含む。
取得モジュール１００２は、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。

【0145】

線形変換モジュール１００４は、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。

【0146】

ロジック類似度算出モジュール１００６は、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。

【0147】

局所強化行列構築モジュール１００８は、要求ベクトルシーケンスに基づいて局所強化行列を構築する。

【0148】

アテンション重み分布決定モジュール１０１０は、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。

【0149】

融合モジュール１０１２は、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。

【0150】

一実施例において、局所強化行列構築モジュール１００８は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得する。

【0151】

一実施例において、局所強化行列構築モジュール１００８は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、２つずつの要素間の強弱関連を算出して、局所強化行列を取得する。

【0152】

一実施例において、局所強化行列構築モジュール１００８は、さらに、入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルを変換し、要素に対応する第１のスカラーを取得し、非線形変換関数により、第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得し、第２のスカラーを、要素に対応する局所強化範囲の中心点とする。

【0153】

一実施例において、局所強化行列構築モジュール１００８は、さらに、入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第３のスカラーを取得し、非線形変換関数により、第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得し、第４のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとする。

【0154】

一実施例において、局所強化行列構築モジュール１００８は、さらに、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第５のスカラーを取得し、非線形変換関数により、第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得し、第６のスカラーを、統一された局所強化範囲のウィンドウサイズとする。

【0155】

一実施例において、局所強化行列構築モジュール１００８は、さらに、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各要素の順序に従って、２つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、２つずつの要素間の強弱関連は以下の式により算出し、

【数54】

Ｇ_ｉｊが入力シーケンスにおけるｊ番目の要素とｉ番目の要素に対応する中心点Ｐ_ｉの間の強弱関連を示し、Ｇ_ｉｊが局所強化行列Ｇにおけるｉ番目の列のベクトルのｊ番目の要素の値であり、Ｐ_ｉがｉ番目の要素に対応する局所強化範囲の中心点を示し、Ｄ_ｉがｉ番目の要素に対応する局所強化範囲のウィンドウサイズを示す。

【0156】

一実施例において、アテンション重み分布決定モジュール１０１０は、さらに、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。

【0157】

一実施例において、線形変換モジュール１００４は、さらに、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、当該装置は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含む。

【0158】

一実施例において、当該装置１０００は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含む。

【0159】

上記のニューラルネットワークのネットワーク表示生成装置１０００によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【0160】

図１１は、一実施例におけるコンピュータ機器１２０の内部構成図を示す。図１１に示すように、当該コンピュータ機器はシステムバスにより接続されるプロセッサ、メモリ、ネットワークインターフェースを含む。なお、メモリは不揮発性記憶媒体及び内部メモリを含む。当該コンピュータ機器の非揮発性記憶媒体にオペレーティングシステムが記憶され、コンピュータプログラムがさらに記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実現させることができる。当該内部メモリにコンピュータプログラムが記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実行させることができる。

【0161】

当業者であれば、図１１に示す構造は本願に関連する構造の一部のブロック図であって、本願が用いられるコンピュータ機器を制限するためのものではなく、具体的なコンピュータ機器は図より多い又は少ない部材を含むか、又はいくつかの部材を組み合わせ、又は異なる部材配置を有してもよいと理解される。

【0162】

一実施例において、本出願で提供されるニューラルネットワークのネットワーク表示生成装置１０００は、コンピュータプログラムの形式として実現でき、コンピュータプログラムは、図１１に示すコンピュータ機器で実行される。コンピュータ機器のメモリには、当該ニューラルネットワークのネットワーク表示生成装置１０００を構成する各プログラムモジュール、例えば、図１０に示す取得モジュール１００２、線形変換モジュール１００４、ロジック類似度算出モジュール１００６、局所強化行列構築モジュール１００８、アテンション重み分布決定モジュール１０１０及び融合モジュール１０１２を記憶することができる。各プログラムモジュールからなるコンピュータプログラムは、本明細書で説明された本出願の各実施例のニューラルネットワークのネットワーク表示生成方法におけるステップをプロセッサに実行させる。

【0163】

例えば、図１１に示すコンピュータ機器は、図１０に示すニューラルネットワークのネットワーク表示生成装置における取得モジュール１００２によりステップＳ２０２を実行することができる。コンピュータ機器は線形変換モジュール１００４によりステップＳ２０４を実行することができる。コンピュータ機器はロジック類似度算出モジュール１００６によりステップＳ２０６を実行することができる。コンピュータ機器は局所強化行列構築モジュール１００８によりステップＳ２０８を実行することができる。コンピュータ機器はアテンション重み分布決定モジュール１０１０によりステップＳ２１０を実行することができる。コンピュータ機器は融合モジュール１０１２によりステップＳ２１２を実行することができる。

【0164】

一実施例において、コンピュータ機器を提供し、メモリ及びプロセッサを含み、メモリにコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップをプロセッサに実行させる。

【0165】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて２つごとの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。

【0166】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。

【0167】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第１のスカラーを取得し、非線形変換関数により、第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得し、第２のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。

【0168】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第３のスカラーを取得し、非線形変換関数により、第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得し、第４のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。

【0169】

一実施例において、コンピュータプログラムがプロセッサによってキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第５のスカラーを取得し、非線形変換関数により、第５のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第６のスカラーを取得し、第６のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。

【0170】

一実施例において、コンピュータプログラムがプロセッサによって中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、２つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、なお、２つずつの要素間の強弱関連は、以下の式により、算出する。

【0171】

【数55】

【0172】

【0173】

一実施例において、コンピュータプログラムがプロセッサによってロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップをプロセッサに実行させる。

【0174】

一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをプロセッサにさらに実行させる。

【0175】

一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続けて、ループ停止条件に達する場合最終的なネットワーク表示シーケンスを出力するステップをプロセッサにさらに実行させる。

【0176】

上記のコンピュータ機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【0177】

一実施例において、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合することで、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップを、プロセッサに実行させる。

【0178】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。

【0179】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。

【0180】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第１のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第１のスカラーを取得し、非線形変換関数により、第１のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第２のスカラーを取得し、第２のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。

【0181】

一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第２のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、各要素に対応する第３のスカラーを取得し、非線形変換関数により、第３のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第４のスカラーを取得し、第４のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。

【0182】

【0183】

一実施例において、コンピュータプログラムがプロセッサによって、中心点、ウィンドウサイズに従って各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて２つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、２つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、２つずつの要素間の強弱関連は、以下の式により、算出する。

【0184】

【数56】

【0185】

【0186】

一実施例において、コンピュータプログラムがプロセッサによって、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップを、プロセッサ実行させる。

【0187】

一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップを、プロセッサにさらに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップを、プロセッサにさらに実行させる。

【0188】

一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、さらに、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り、ループ停止条件に達するまで実行を続けて最終的なネットワーク表示シーケンスを出力するステップを、プロセッサにさらに実行させる。

【0189】

上記のコンピュータ読み取り可能な記憶媒体によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

【0190】

当業者は、上記実施例の方法における全部又は一部のプロセスはコンピュータ読み取り可能な命令が関連するハードウェアを命令することで実現されてもよく、前記プログラムが不揮発性コンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムは実行される場合、上記各方法の実施例の流れを含んでもよいと理解される。本願に係る各実施例に使用されるメモリ、記憶、データベース又は他の媒体のいかなる引用はいずれも不揮発性メモリ及び／又は揮発性メモリを含んでもよい。不揮発性メモリは読み出し専用メモリ（ＲＯＭ）、プログラム可能ＲＯＭ（ＰＲＯＭ）、消去可能プログラム可能ＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラム可能ＲＯＭ（ＥＥＰＲＯＭ）又はフラッシュメモリを含んでもよい。揮発性メモリはランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含んでもよい。制限的ではなく、説明として、ＲＡＭは多くの形式で得られ、例えばスタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ラムバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトラムバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）及びラムバスダイナミックＲＡＭ（ＲＤＲＡＭ）等が挙げられる。

【0191】

以上の実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上記実施例の各技術的特徴の全ての可能な組み合わせを説明しないが、これらの技術的特徴の組み合わせは矛盾しない限り、いずれも本明細書に記載する範囲に含まれるべきである。

【0192】

以上の実施例は本願のいくつかの実施形態を説明し、その説明は具体的且つ詳細であるが、本発明の保護範囲を制限するためのものではない。ただし、本願の構想を逸脱せずに、更に変形や改良を行うことができ、これらの変形や改良はいずれも本願の保護範囲に属すべきである。従って、本願の保護範囲は添付の特許請求の範囲に準じるべきである。

【符号の説明】

【0193】

1000 ニューラルネットワークのネットワーク表示生成装置
1002 取得モジュール
1004 線形変換モジュール
1006 ロジック類似度算出モジュール
1008 局所強化行列構築モジュール
1010 アテンション重み分布決定モジュール
1012 融合モジュール

【図1】