特許7418780 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許7418780推論器、推論方法および推論プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-12

(45)【発行日】2024-01-22

(54)【発明の名称】推論器、推論方法および推論プログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20240115BHJP

G06N 3/0455 20230101ALI20240115BHJP

【ＦＩ】

G06F40/44

G06N3/0455

【請求項の数】 3

(21)【出願番号】P 2019133107

(22)【出願日】2019-07-18

(65)【公開番号】P2021018545

(43)【公開日】2021-02-15

【審査請求日】2022-06-07

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和元年度、総務省、グローバルコミュニケーション計画の推進－多言語音声翻訳技術の研究開発及び社会実証－産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】チェンケハイ

(72)【発明者】

【氏名】ワンルイ

(72)【発明者】

【氏名】内山将夫

(72)【発明者】

【氏名】隅田英一郎

【審査官】成瀬博之

(56)【参考文献】

【文献】Ning Dai 他３名，Style Transformer: Unpaired Text Style Transfer witheout Disentangled Latent Representation[online]，2019年06月21日，[2020年08月28日検索]，インターネット＜URL：https://arxiv.org/pdf/1905.05621v2.pdf＞

【文献】瓦祐希他2名，ニューラル機械翻訳における事前並び替えの影響分析，言語処理学会第２５回年次大会発表論文集[online]，日本，言語処理学会，2019年03月04日，1455-1458頁

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｎ３／０２－３／０４９９

Ｇ１０Ｌ１５／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器であって、
前記入力シーケンスから中間シーケンスを出力するエンコーダと、
前記エンコーダから出力される中間シーケンスおよび先に出力された出力シーケンスに基づいて前記出力シーケンスを出力するデコーダとを備え、
前記エンコーダおよび前記デコーダの少なくとも一方は、
第１のシーケンスに含まれる各トークンの値を示す情報と各トークンが前記第１のシーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して、中間センテンス表現を生成する第１の生成部を備え、前記学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークは、共通のテンソルに基づく、検索対象を示すクエリと被検索対象を示すキーおよび対応する値を示すバリューとの組を用いた学習により生成されており、前記エンコーダにおいては、前記入力シーケンスが前記第１のシーケンスとして取り扱われ、前記デコーダにおいては、前記先に出力された出力シーケンスが前記第１のシーケンスとして取り扱われ、
前記第１のセンテンス表現と前記中間センテンス表現との線形結合を入力とする活性化関数に従って位置ペナルティベクトルを決定し、当該決定された位置ペナルティベクトルを前記第１の位置情報に乗じることで第２の位置情報を生成するとともに、前記第２の位置情報と前記中間センテンス表現とを加算した結果を層正則化することで、隠れ状態表現を生成する第２の生成部と、
前記中間センテンス表現を位置シフトした結果と前記隠れ状態表現とを加算した結果を層正則化することで、第２のセンテンス表現を生成する第３の生成部とを備え、前記エンコーダにおいては、前記第２のセンテンス表現に基づいて前記中間シーケンスが生成され、前記デコーダにおいては、前記第２のセンテンス表現に基づいて前記出力シーケンスが生成される、推論器。

【請求項2】

学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法であって、前記学習済ニューラルネットワークは、前記入力シーケンスから中間シーケンスを出力するエンコーダと、前記エンコーダから出力される中間シーケンスおよび先に出力された出力シーケンスに基づいて前記出力シーケンスを出力するデコーダとを備え、
第１のシーケンスに含まれる各トークンの値を示す情報と各トークンが前記第１のシーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して、中間センテンス表現を生成するステップを備え、前記学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークは、共通のテンソルに基づく、検索対象を示すクエリと被検索対象を示すキーおよび対応する値を示すバリューとの組を用いた学習により生成されており、前記エンコーダにおいては、前記入力シーケンスが前記第１のシーケンスとして取り扱われ、前記デコーダにおいては、前記先に出力された出力シーケンスが前記第１のシーケンスとして取り扱われ、
前記第１のセンテンス表現と前記中間センテンス表現との線形結合を入力とする活性化関数に従って位置ペナルティベクトルを決定し、当該決定された位置ペナルティベクトルを前記第１の位置情報に乗じることで第２の位置情報を生成するとともに、前記第２の位置情報および前記中間センテンス表現とを加算した結果を層正則化することで、隠れ状態表現を生成するステップと、
前記中間センテンス表現を位置シフトした結果と前記隠れ状態表現とを加算した結果を層正則化することで、第２のセンテンス表現を生成するステップとを備え、前記エンコーダにおいては、前記第２のセンテンス表現に基づいて前記中間シーケンスが生成され、前記デコーダにおいては、前記第２のセンテンス表現に基づいて前記出力シーケンスが生成される、推論方法。

【請求項3】

コンピュータに請求項２に記載の推論方法を実行させるための推論プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、１または複数のトークンを含む入力シーケンスに対応する出力シーケンスを出力する推論器、推論方法および推論プログラムに関する。

【背景技術】

【0002】

自然言語処理の技術分野においては、Ａｔｔｅｎｔｉｏｎベースの様々なモデルが提案されている。このようなＡｔｔｅｎｔｉｏｎベースのモデルの一例として、機械翻訳などに適用可能なＴｒａｎｓｆｏｒｍｅｒと呼ばれるモデルが注目されている（非特許文献１）。

【0003】

Ｔｒａｎｓｆｏｒｍｅｒは、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワーク（ＳＡＮ）を用いることで高い性能を有している。Ｔｒａｎｓｆｏｒｍｅｒは、センテンス内の単語間の語順依存性を明示的にエンコードする位置エンコーディング（positional encoding）メカニズム（非特許文献２など参照）を用いて、順序付けされた位置埋め込み（positional embedding）シーケンスを生成する。Ｔｒａｎｓｆｏｒｍｅｒにおいては、翻訳を予測するためのセンテンス表現を学習するために、ＳＡＮが並列処理（multi-head）に学習されるとともに、ＳＡＮは多層的（multi-layer）に構成されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," in CoRR abs/1706.03762, 2017.

【文献】Jonas Gehring, Michael Auli, David Grangier, and Yann Dauphin, "A convolutional encoder model for neural machine translation," In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 123-135, Vancouver, Canada. Association for Computational Linguistics, 2017.

【文献】Michel Galley and Christopher D. Manning, "A simple and effective hierarchical phrase reordering model," In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 848-856, Honolulu, Hawaii. Association for Computational Linguistics, 2008.

【文献】Isao Goto, Masao Utiyama, and Eiichiro Sumita, "Post-ordering by parsing with itg for japanese-english statistical machine translation, ACM Transactions on Asian Language Information Processing, 12(4):17:1-17:22, 2013.

【文献】Ilya Sutskever, Oriol Vinyals, and Quoc V Le, "Sequence to sequence learning with neural networks," In Advances in neural information processing systems, pages 3104-3112. Curran Associates, Inc, 2014.

【文献】Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "Neural machine translation by jointly learning to align and translate," In Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015.

【文献】Jinchao Zhang, Mingxuan Wang, Qun Liu, and Jie Zhou, "Incorporating word reordering knowledge into attention-based neural machine translation," In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1524-1534, Vancouver, Canada. Association for Computational Linguistics, 2017.

【文献】Toshiaki Nakazawa, Manabu Yaguchi, Kiyotaka Uchimoto, Masao Utiyama, Eiichiro Sumita, Sadao Kurohashi, and Hitoshi Isahara, "ASPEC: Asian scientific paper excerpt corpus," In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), pages 2204-2208, Portoroz, Slovenia. European Language Resources Association (ELRA), 2016.

【文献】Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean, "Google’sneural machine translation system: Bridging the gap between human and machine translation,", CoRR, abs/1609.08144, 2016.

【文献】Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin, "Convolutional sequence to sequence learning," In Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings of Machine Learning Research, pages 1243-1252, International Convention Centre, Sydney, Australia. PMLR, 2017.

【文献】Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani, "Self-attention with relative position representations," In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 464-468, New Orleans, Louisiana. Association for Computational Linguistics, 2018.

【文献】Fandong Meng and Jinchao Zhang, "DTMT: A novel deep transition architecture for neural machine translation," CoRR, abs/1812.07807, 2018.

【文献】Xiang Kong, Zhaopeng Tu, Shuming Shi, Eduard H. Hovy, and Tong Zhang, "Neural machine translation with adequacy-oriented learning," CoRR, abs/1811.08541, 2018.

【文献】Yang Zhao, Jiajun Zhang, Zhongjun He, Chengqing Zong, and HuaWu, "Addressing troublesome words in neural machine translation," In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 391-400, Brussels, Belgium. Association for Computational Linguistics, 2018a.

【発明の概要】

【発明が解決しようとする課題】

【0005】

Ｔｒａｎｓｆｏｒｍｅｒにおいて、位置埋め込みは、単語（word）間の順序関係を順次エンコーディングすることに着目するのみである。しかしながら、人間による現実の発話を考慮すると、文脈や状況に応じて発話される単語の順序は変化し得る。このような発話される単語の順序の変化についてなんら考慮されていない。

【0006】

本発明は、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上させることを目的とする。

【課題を解決するための手段】

【0007】

ある実施の形態によれば、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器が提供される。推論器は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成する第１の生成部と、第１のセンテンス表現および中間センテンス表現に基づいて、第１の位置情報を修正することで第２の位置情報を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成する第２の生成部と、中間センテンス表現および隠れ状態表現に基づいて、第２のセンテンス表現を生成する第３の生成部とを含む。

【0008】

第２の生成部は、第１のセンテンス表現と中間センテンス表現との線形結合を入力とする活性化関数に従って係数ベクトルを生成し、生成した係数ベクトルを第１の位置情報に乗じることで第２の位置情報を生成するようにしてもよい。

【0009】

推論器は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報を出力する位置情報出力部をさらに含んでいてもよい。

【0010】

第１の生成部は、第１のセンテンス表現を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して中間センテンス表現を生成するようにしてもよい。

【0011】

推論器は、入力シーケンスから中間シーケンスを出力するエンコーダと、エンコーダから出力される中間表現のシーケンスおよび出力された出力シーケンスに基づいて出力シーケンスを出力するデコーダとを含んでいてもよい。エンコーダおよびデコーダの少なくとも一方は、第１の生成部、第２の生成部および第３の生成部を含む学習済ブロックを含んでいてもよい。

【0012】

複数の学習済ブロックがスタックされていてもよい。
別の実施の形態によれば、学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法が提供される。推論方法は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成するステップと、第１のセンテンス表現および中間センテンス表現に基づいて、第１の位置情報を修正することで第２の位置情報を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成するステップと、中間センテンス表現および隠れ状態表現に基づいて、第２のセンテンス表現を生成するステップとを含む。

【0013】

さらに別の実施の形態によれば、コンピュータに上記の推論方法を実行させるための推論プログラムが提供される。

【発明の効果】

【0014】

本発明によれば、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上できる。

【図面の簡単な説明】

【0015】

【図1】本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒの一例を示す模式図である。

【図2】本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒを示す模式図である。

【図3】本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒにおける処理概要を説明するための模式図である。

【図4】本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒを含む推論器を実現するハードウェア構成の一例を示す模式図である。

【図5】英語－ドイツ間における並び替え情報の影響を示すグラフである。

【図6】中国語－英語間における並び替え情報の影響を示すグラフである。

【図7】日本語－英語間における並び替え情報の影響を示すグラフである。

【発明を実施するための形態】

【0016】

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

【0017】

［Ａ．関連技術］
本発明の関連技術として、一般的なＴｒａｎｓｆｏｒｍｅｒについて説明する。

【0018】

図１は、本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００の一例を示す模式図である。図１を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１００は、学習済モデルであり、ニュートラルネットワークの一形態に相当する。

【0019】

Ｔｒａｎｓｆｏｒｍｅｒ１００は、スタックされたＮ層分のエンコーダブロック２０とＭ層分のデコーダブロック４０とを含む。エンコーダブロック２０およびデコーダブロック４０は、学習済ブロックに相当する。スタックされたＮ層分のエンコーダブロック２０をまとめてエンコーダ２００とも称す。スタックされたＭ層分のデコーダブロック４０をまとめてデコーダ４００とも称す。

【0020】

エンコーダ２００は、入力シーケンスから中間シーケンスを出力する。デコーダ４０は、エンコーダ２０から出力される中間表現のシーケンスおよび先に出力された出力シーケンスに基づいて出力シーケンスを出力する。

【0021】

エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち先頭層）には、入力埋め込み（Input Embedding）層４、位置埋め込み層（Positional Embedding）層６および加算器８により生成される入力トークン列が入力される。エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち最終層）は、算出結果として、中間センテンス表現を出力する。

【0022】

入力埋め込み層４は、センテンスなどの入力シーケンス（Inputs）２を、所定単位（例えば、単語（word）など）の単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。例えば、入力シーケンス２は、翻訳元の言語のセンテンス（ソースセンテンス）に相当する。その結果、入力埋め込み層４は、単語埋め込み（word embedding）として、所定次元のベクトルをトークンの数だけ含むシーケンスを出力する。

【0023】

位置埋め込み層６は、各トークンが入力シーケンス２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional embedding）を出力する。

【0024】

加算器８は、入力埋め込み層４からのシーケンスに、位置埋め込み層６からの位置埋め込みを付加する。その結果、加算器８は、センテンス内に含まれる各トークンの値（例えば、単語）を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値（入力シーケンス２内の相対的または絶対的な位置）を付加した入力トークン列（ベクトル）を出力する。

【0025】

エンコーダブロック２０の各々は、ＭＨＡ（Multi-head Attention）層２２と、フィードフォワード（Feed Forward）層２６と、加算・正則化（Add & Norm）層２４，２８とを含む。

【0026】

ＭＨＡ層２２は、入力トークン列（ベクトル）についてＡｔｔｅｎｔｉｏｎを算出する。Ａｔｔｅｎｔｉｏｎは、クエリに対してメモリから必要な情報を抽出する処理を意味する。ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎは、クエリおよびメモリ（キーおよびバリュー）が共通のテンソルを使用するＡｔｔｅｎｔｉｏｎを意味する。

【0027】

ＭＨＡ層２２は、並列配置された複数のｓｅｌｆ－Ａｔｔｅｎｔｉｏｎを含む。ＭＨＡ層２２は、クエリおよびメモリ（キーおよびバリュー）をｓｅｌｆ－Ａｔｔｅｎｔｉｏｎの数で分割し、各分割しクエリおよびメモリ（キーおよびバリュー）を処理し、その処理結果を結合する。すなわち、ＭＨＡ層２２においては、Ａｔｔｅｎｔｉｏｎを算出する処理が並列化されている。

【0028】

加算・正則化層２４は、入力トークン列（ベクトル）にＭＨＡ層２２から出力されるベクトルを加算した上で、任意の手法で正則化（normalize）する。

【0029】

フィードフォワード層２６は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。

【0030】

加算・正則化層２８は、加算・正則化層２４から出力されるベクトルに、フィードフォワード層２６から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0031】

デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち先頭層）には、出力埋め込み（Output Embedding）層１４、位置埋め込み層（Positional Embedding）層１６および加算器１８により生成される出力トークン列が入力される。デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち最終層）は、算出結果として、出力シーケンスを出力する。

【0032】

出力埋め込み層１４は、既出力シーケンス（前回の出力シーケンスに対して時刻を一致させるためにシフトされたもの）（Outputs(Shifted right)）１２を、所定単位の単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。その結果、出力埋め込み層１４は、出力埋め込み（output embedding）として、所定次元のベクトルをトークンの数だけ含むトークン列を出力する。

【0033】

位置埋め込み層１６は、各トークンが既出力シーケンス１２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional embedding）を出力する。

【0034】

加算器１８は、出力埋め込み層１４からのトークン列に、位置埋め込み層１６からの位置埋め込みを付加する。その結果、加算器１８は、センテンス内に含まれる各トークンの値を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値（既出力シーケンス１２内の相対的または絶対的な位置）を付加した出力トークン列（ベクトル）を出力する。

【0035】

デコーダブロック４０の各々は、ＭＭＨＡ（Masked Multi-head Attention）層４２と、ＭＨＡ（Multi-head Attention）層４６と、フィードフォワード（Feed Forward）層５０と、加算・正則化（Add & Norm）層４４，４８，５２とを含む。すなわち、デコーダブロック４０は、エンコーダブロック２０と類似した構成となっているが、ＭＭＨＡ層４２および加算・正則化層４４を含んでいる点が異なっている。

【0036】

ＭＭＨＡ層４２は、先に算出されたベクトルのうち存在し得ないベクトルに対してマスク処理を実行する。

【0037】

加算・正則化層４４は、出力トークン列（ベクトル）にＭＭＨＡ層４２から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0038】

ＭＨＡ層４６は、エンコーダブロック２０の加算・正則化層２８から出力される中間センテンス表現、および、加算・正則化層４４から出力されるベクトルについて、Ａｔｔｅｎｔｉｏｎを算出する。ＭＨＡ層４６の基本的な処理は、ＭＨＡ層２２と同様である。

【0039】

加算・正則化層４８は、加算・正則化層４４から出力されるベクトルに、ＭＨＡ層４６から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0040】

フィードフォワード層５０は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。

【0041】

加算・正則化層５２は、ＭＨＡ層４６から出力されるベクトルに、フィードフォワード層５０から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0042】

Ｔｒａｎｓｆｏｒｍｅｒ１００は、出力層として、線形結合（Linear）層６０およびソフトマックス（Softmax）層６２を含む。線形結合層６０は、エンコーダ２００の出力側（すなわち、Ｍ層分のデコーダブロック４０のうち最終層）に配置され、デコーダ４００からの出力シーケンスを線形結合する。

【0043】

ソフトマックス層６２は、線形結合層６０から出力されるベクトルをソフトマックス関数で算出した結果を出力シーケンス６４として決定する。出力シーケンス６４は、入力シーケンス２（ソースセンテンス）に対応する翻訳先のセンテンス（ターゲットセンテンス）の確率を示す。

【0044】

［Ｂ．課題および解決手段］
次に、本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００に対する課題および解決手段について概略する。

【0045】

フレーズベース統計機械学習（ＰＢＳＭＴ）において、並び替えモデル（recording model）は、翻訳性能を向上させるために重要な役割を果たす。特に、並び替えモデルは、中国語－英語間翻訳、および、日本語－英語間翻訳といった、語順が大きく異なる言語間の翻訳に有効である（非特許文献３および非特許文献４など参照）。従来のＰＢＳＭＴでは、二言語間のパラレルセンテンスペアから大規模な並び替えルールを学習することで、並び替えモデルを生成する。このような並び替えモデルは、オリジナルの単語の合理的な翻訳順序を保証するために、翻訳デコーディング処理に組み込まれることも多い。

【0046】

このようなＰＢＳＭＴについての明示的な並び替えモデルに対して、ＲＮＮベースのニューラル機械翻訳（ＮＭＴ）をセンテンス内の単語間の語順依存性を黙示的にエンコードするニューラルネットワークに基づかせることで、流ちょうな翻訳を実現することが報告されている（非特許文献５および非特許文献６など参照）。

【0047】

さらに、固定サイズのウィンドウ内における位置ベースのＡｔｔｅｎｎｔｉｏｎを、コンテンツベースのＡｔｔｅｎｎｔｉｏｎに追加することで、ＲＮＮベースのＮＭＴに対して顕著に性能を向上できることが報告されている（非特許文献７参照）。これは、単語の並び替え情報は、ＮＭＴに対しても有効であることを意味する。

【0048】

上述したように、単語の並び替え情報は、翻訳タスクに有効であると考えられるものの、図１に示すようなＴｒａｎｓｆｏｒｍｅｒ１００においては、センテンス内における並び替え情報については何ら明示的に考慮されていない。また、ＮＭＴにおける並び替えによる問題は、非特許文献７に示される以上には深く研究されていない。

【0049】

本願発明者らは、Ｔｒａｎｓｆｏｒｍｅｒ１００などの位置埋め込み（positional embedding）を利用するＮＭＴにおいて、単語の並び替え情報を考慮しないことで潜在的に性能を低下させているという新たに課題を見出した。

【0050】

そこで、本願発明者らは、Ｔｒａｎｓｆｏｒｍｅｒ１００などの位置埋め込み（positional embedding）を利用するＮＭＴにおいて、並び替え情報を付加することで、性能を高めるという新たな解決手段に想到した。

【0051】

以下、このような新たな解決手段を実現するための実施の形態について説明する。
［Ｃ．本実施の形態に従うニューラルネットワーク］
本実施の形態に従うニューラルネットワークの一例として、図１に示すＴｒａｎｓｆｏｒｍｅｒ１００に並び替え情報を付加するための構成を有するＴｒａｎｓｆｏｒｍｅｒ１００Ａについて説明する。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａは、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器に相当する。但し、本発明の技術的範囲は、Ｔｒａｎｓｆｏｒｍｅｒに限定されるものではなく、位置埋め込み（positional embedding）を用いるニューラルネットワークの全般に適用可能である。

【0052】

図２は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを示す模式図である。図２に示すＴｒａｎｓｆｏｒｍｅｒ１００Ａは、図１に示すＴｒａｎｓｆｏｒｍｅｒ１００に比較して、並び替え埋め込み（Reordering Embedding）層３４および加算器３６をさらに含むエンコーダブロック２０Ａ、および、並び替え埋め込み層５４および加算器５６をさらに含むデコーダブロック４０Ａを含む。なお、後述するように、並び替え埋め込み層は、エンコーダブロックおよびデコーダブロックのいずれか一方に配置されていればよく、エンコーダブロックおよびデコーダブロックの両方に配置されている必要はない。

【0053】

本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、単語の並び替え情報をモデル内部で発生することによって、入力された入力シーケンス２内の単語順序の変更に対応した推論結果を生成する。

【0054】

図３は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおける処理概要を説明するための模式図である。図３（ａ）～（ｃ）を参照しつつ、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおける数学的な処理の詳細について説明する。

【0055】

（ｃ１：位置エンコーディング（positional encoding）メカニズム）
まず、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａにおける位置エンコーディングメカニズムについて説明する。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、センテンス内の単語間の語順依存性をエンコードする。例えば、長さＪのソースセンテンスの単語埋め込みＸ＝｛ｘ_１，・・・，ｘ_Ｊ｝を仮定すると、位置埋め込みシーケンスは、以下の（１）式に従って、単語毎の位置に基づいて算出される。

【0056】

【数1】

【0057】

ここで、ｊはセンテンス内の単語位置を示す位置インデックスであり、ｉは位置インデックスの次元数を示す。したがって、オリジナル位置埋め込みＰＥは、以下の（２）式のように算出される。

【0058】

【数2】

【0059】

ｐｅ_ｊの各々は、対応する単語埋め込みｘ_Ｊに付加され、結合された埋め込みｖ_ｊは、以下の（３）式のように示される。

【0060】

【数3】

【0061】

最終的に、結合された埋め込みｖ_ｊのシーケンス｛ｖ_１，・・・，ｖ_Ｊ｝は、初期センテンス表現Ｈ^０となる。その後、センテンス表現Ｈ^０は、センテンス表現を学習するためにＭＨＡ（Multi-head Attention）層へ入力される。

【0062】

このように、位置埋め込み層６および位置埋め込み層１６は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報（オリジナル位置埋め込みＰＥ）を出力する位置情報出力部に相当する。

【0063】

（ｃ２：ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズム）
次に、ＭＨＡ層におけるｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズムについて説明する。ＭＨＡ層では、複数のｓｅｌｆ－Ａｔｔｅｎｔｉｏｎが並列配置されており、以下の説明は、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎのうち１つに着目するものである。

【0064】

ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズムは、１つ前のセクションにおいて取得されたセンテンス表現Ｈ^０についてセンテンス表現を学習するために用いられる。通常、Ｔｒａｎｓｆｏｒｍｅｒメカニズムにおいては、同一構成のエンコーダブロック２０（あるいは、デコーダブロック４０）がＮ個スタックされた構成が用いられる。エンコーダブロック２０（あるいは、デコーダブロック４０）の各々は、２つのサブ層を有している。すなわち、１つのサブ層がｓｅｌｆ－Ａｔｔｅｎｔｉｏｎであり、もう１つのサブ層が位置順に全結合されたフィードフォワードネットワークである。これらのサブ層の間は残差結合されており、その結果が正則化される。

【0065】

最終的に、センテンス表現を学習するスタックは、以下の（４）式のように表現できる。

【0066】

【数4】

【0067】

ここで、ＳｅｌｆＡｔｔ^ｎ（・）、ＬＮ（・）、ＦＦＮ^ｎ（・）は、Ｎ個のエンコーダブロック２０（あるいは、デコーダブロック４０）の各々における、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎのネットワーク、層正則化、フォードフォワードネットワークにそれぞれ対応する。また、［・・・］_ＮはＮ層分のスタックを意味する。Ｔｒａｎｓｆｏｒｍｅｒのエンコーダ２００およびデコーダ４００において、ｎ番目の層（エンコーダブロック２０またはデコーダブロック４０）のＳｅｌｆＡｔｔ^ｎ（・）は、前段である（ｎ－１）番目の層（エンコーダブロック２０またはデコーダブロック４０）の出力Ｈ^ｎ－１について、以下の（５）式に従って、Ａｔｔｅｎｎｔｉｏｎを算出する。

【0068】

【数5】

【0069】

ここで、｛Ｑ，Ｋ，Ｖ｝は、クエリ、キー、バリューをそれぞれ意味する。入力された中間センテンス表現Ｈ^ｎ－１を変換して｛Ｑ，Ｋ，Ｖ｝が生成される。ｄ_ｋは、クエリおよびキーの次元数を示す。最終的には、Ｎ番目の層からのセンテンス表現Ｈ^ＮがＴｒａｎｓｆｏｒｍｅｒからセンテンス表現（推論結果）として出力される。

【0070】

このように、エンコーダブロック２０のＭＨＡ層２２およびデコーダブロック４０のＭＭＨＡ層４２は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）に基づいて、中間センテンス表現（中間センテンス表現Ｈ^ｎ）を生成する第１の生成部に相当する。第１のセンテンス表現は、入力シーケンスに含まれる各トークンの値を示す情報（単語埋め込みｘ_Ｊ）と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報（オリジナル位置埋め込みＰＥ）とを有している。

【0071】

本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、エンコーダブロック２０のＭＨＡ層２２およびデコーダブロック４０のＭＭＨＡ層４２は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して中間センテンス表現（中間センテンス表現Ｈ^ｎ）を生成する。

【0072】

（ｃ３：並び替え埋め込み（Reordering Embedding））
次に、並び替え埋め込み層３４および加算器３６、あるいは、並び替え埋め込み層５４および加算器５６によって実現される並び替え情報の抽出および付加に関する処理について説明する。

【0073】

並び替え情報を抽出するために、本実施の形態においては、所与の単語およびその単語を含むセンテンスのグローバルコンテキストに基づいて、位置ペナルティベクトルを学習する。位置ペナルティベクトルは、所与の単語の位置埋め込みに対してペナルティを与えることで、新たな並び替え埋め込みを生成するために用いられる。最終的に、これらの並び替え埋め込みは、中間センテンス表現に付加されて、実質的に単語の並び替えを実現する。このような並び替え埋め込みを付加する処理は、以下の３ステップにより実現できる。

【0074】

（ｉ）位置ペナルティベクトル

【0075】

【数6】

【0076】

図３（ａ）に示すように、オリジナル位置埋め込みＰＥおよび単語埋め込みＸをｓｅｌｆ－Ａｔｔｅｎｔｉｏｎに適用することで、中間センテンス表現を生成でき、さらに、図３（ｂ）に示すように、生成された中間センテンス表現から位置ペナルティベクトルＰＰ^ｎを算出できる。

【0077】

（ｉｉ）並び替え埋め込み
位置ペナルティベクトルＰＰ^ｎは、以下の（７）式に従って、オリジナル位置埋め込みＰＥに対してペナルティを与えるために用いられる。

【0078】

【数7】

【0079】

ここで、位置埋め込みＰＥの各要素は、ゼロから１までの確率が乗じられるので、ＲＥ^ｎは並び替え埋め込み（Reordering Embedding）と称される。図３（ｃ）に示すように、位置ペナルティベクトルＰＰ^ｎをオリジナル位置埋め込みＰＥに適用することで、並び替え埋め込みＲＥ^ｎを生成できる。

【0080】

（ｉｉｉ）並び替えの実現

【0081】

【数8】

【0082】

ここで、ＬＮは層正則化を意味する。その結果、並び替えが意識された（reordering-aware）センテンス隠れ状態Ｃ^ｎが取得できる。

【0083】

このように、エンコーダブロック２０の並び替え埋め込み層３４およびデコーダブロック４０の並び替え埋め込み層５４は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）および中間センテンス表現に基づいて、第１の位置情報（オリジナル位置埋め込みＰＥ）を修正することで第２の位置情報（並び替え埋め込みＲＥ^ｎ）を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現（センテンス隠れ状態Ｃ^ｎ）を生成する第２の生成部に相当する。

【0084】

上述の（６）式に示したように、並び替え埋め込み層３４および並び替え埋め込み層５４は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）と中間センテンス表現との線形結合を入力とする活性化関数（例えば、ｓｉｇｍｏｉｄ関数）に従って係数ベクトル（位置ペナルティベクトルＰＰ^ｎ）を生成し、生成した係数ベクトルを第１の位置情報（オリジナル位置埋め込みＰＥ）に乗じることで第２の位置情報（並び替え埋め込みＲＥ^ｎ）を生成する。

【0085】

（ｃ４：並び替え埋め込みを伴うｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワーク（ＳＡＮ））
センテンスのオリジナル位置埋め込みは、Ｔｒａｎｓｆｏｒｍｅｒが単語間の語順依存性が再帰的に取得されてしまうことを防止するために用いられる。これによって、スタックされたＳＡＮがセンテンス表現を完全に並列に学習することを保証する。学習済ＲＥ^ｎは、センテンスのオリジナル位置埋め込みと類似している。そのため、学習済ＲＥ^ｎについても、既存のＳＡＮを用いて容易にスタックして、機械翻訳についての並び替えが意識されたセンテンス表現を出力できる。上述の（４）式に従うと、並び替え埋め込みを用いてＳＡＮをスタックすると、以下の（９）式のようになる。

【0086】

【数9】

【0087】

ここで、Ｈ^０は、上述したように初期センテンス表現である。最終的に、機械翻訳についての並び替えが意識されたセンテンス表現Ｈ^Ｎが出力される。

【0088】

このように、エンコーダブロック２０のフィードフォワード層２６およびデコーダブロック４０のフィードフォワード層５０は、中間センテンス表現および隠れ状態表現（センテンス隠れ状態Ｃ^ｎ）に基づいて、第２のセンテンス表現（センテンス表現Ｈ^ｎ）を生成する第３の生成部に相当する。

【0089】

［Ｄ．ハードウェア構成］
次に、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するためのハードウェア構成の一例について説明する。

【0090】

図４は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するハードウェア構成の一例を示す模式図である。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａは、典型的には、コンピュータの一例である情報処理装置５００を用いて実現される。

【0091】

図４を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを実現する情報処理装置５００は、主要なハードウェアコンポーネントとして、ＣＰＵ（central processing unit）５０２と、ＧＰＵ（graphics processing unit）５０４と、主メモリ５０６と、ディスプレイ５０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）５１０と、二次記憶装置５１２と、入力デバイス５２２と、光学ドライブ５２４とを含む。これらのコンポーネントは、内部バス５２８を介して互いに接続される。

【0092】

ＣＰＵ５０２および／またはＧＰＵ５０４は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａの実現に必要な処理を実行するプロセッサである。ＣＰＵ５０２およびＧＰＵ５０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

【0093】

主メモリ５０６は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（dynamic random access memory）やＳＲＡＭ（static random access memory）などの揮発性メモリデバイスなどで構成される。

【0094】

ディスプレイ５０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid crystal display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

【0095】

ネットワークインターフェイス５１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス５１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local area network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

【0096】

入力デバイス５２２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス５２２は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。

【0097】

光学ドライブ５２４は、ＣＤ－ＲＯＭ（compact disc read only memory）、ＤＶＤ（digital versatile disc）などの光学ディスク５２６に格納されている情報を読出して、内部バス５２８を介して他のコンポーネントへ出力する。光学ディスク５２６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ５２４が光学ディスク５２６からプログラムを読み出して、二次記憶装置５１２などにインストールすることで、コンピュータが情報処理装置５００として機能するようになる。したがって、本発明の主題は、二次記憶装置５１２などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク５２６などの記録媒体でもあり得る。

【0098】

図４には、非一過的な記録媒体の一例として、光学ディスク５２６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical disk）などの光磁気記録媒体を用いてもよい。

【0099】

二次記憶装置５１２は、コンピュータを情報処理装置５００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid state drive）などの不揮発性記憶装置で構成される。

【0100】

より具体的には、二次記憶装置５１２は、図示しないＯＳ（operating system）の他、学習処理を実現するための学習プログラム５１４と、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａの構造を定義するモデル定義データ５１６と、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａ（学習済モデル）を規定する複数のパラメータからなるパラメータセット５１８と、推論プログラム５２０と、トレーニングデータセット９０とを格納している。

【0101】

学習プログラム５１４は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）により実行されることで、パラメータセット５１８を決定するための学習処理を実現する。すなわち、学習プログラム５１４は、コンピュータにＴｒａｎｓｆｏｒｍｅｒ１００Ａを学習させるための学習方法を実行させる。

【0102】

モデル定義データ５１６は、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。パラメータセット５１８は、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを構成する各コンポーネントについてのパラメータを含む。パラメータセット５１８に含まれる各パラメータは、学習プログラム５１４の実行により最適化される。トレーニングデータセット９０は、図４に示すようなデータの組み合わせからなる。

【0103】

推論プログラム５２０は、モデル定義データ５１６およびパラメータセット５１８に基づいて、Ｔｒａｎｓｆｏｒｍｅｒ１００ＡおよびＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現する。さらに、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを用いた推論処理を実行する。

【0104】

プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

【0105】

また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

【0106】

図４には、単一のコンピュータを用いて情報処理装置５００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するようにしてもよい。

【0107】

プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application specific integrated circuit）やＦＰＧＡ（field-programmable gate array）などを用いて実現してもよい。

【0108】

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置５００を実現できるであろう。

【0109】

説明の便宜上、同一の情報処理装置５００を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。

【0110】

［Ｅ．学習処理および推論処理］
本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａについての学習処理および推論処理は、本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００についての学習処理および推論処理と同様である。そのため、学習処理および推論処理の全体処理手順については、ここでは詳細には説明しない。

【0111】

［Ｆ．性能評価］
次に、本実施の形態に従う並び替え埋め込み（Reordering Embedding）を含むニューラルネットワークの性能評価の一例を示す。

【0112】

（ｆ１：評価条件）
評価実験としては、（１）英語－ドイツ間、（２）中国語－英語間、（３）日本語－英語間の３種類について行った。

【0113】

（１）英語－ドイツ間については、ＷＭＴ１４データセットに含まれる４４３万個の二言語間のセンテンスペア（ＣｏｍｍｏｎＣｒａｗｌ，ＮｅｗｓＣｏｍｍｅｎｔａｒｙ，Ｅｕｒｏｐａｒｌｖ７．を含む）をトレーニングデータに用いた。ｎｅｗｓｔｅｓｔ２０１３データセットおよびｎｅｗｓｔｅｓｔ２０１４データセットを評価データおよびテストデータとして用いた。

【0114】

（２）中国語－英語間については、ＬＤＣコーパス（ＬＤＣ２００２Ｅ１８，ＬＤＣ２００３Ｅ０７，ＬＤＣ２００３Ｅ１４，ＬＤＣ２００４Ｔ０７のＨａｎｓａｒｄの部分，ＬＤＣ２００５Ｔ０６）に含まれる１２８万個の二言語間のセンテンスペア（ＣｏｍｍｏｎＣｒａｗｌ，ＮｅｗｓＣｏｍｍｅｎｔａｒｙ，Ｅｕｒｏｐａｒｌｖ７．を含む）をトレーニングデータに用いた。ｎｅｗｓｔｅｓｔ２０１３データセットおよびｎｅｗｓｔｅｓｔ２０１４データセットを評価データおよびテストデータとして用いた。ＭＴ０６およびＭＴ０２／ＭＴ０３／ＭＴ０４／ＭＴ０５／ＭＴ０８データセットを評価データおよびテストデータとして用いた。

【0115】

（３）日本語－英語間については、ＡＳＰＥＣコーパス（非特許文献８参照）に含まれる２００万個の二言語間のセンテンスペアをトレーニングデータに用いた。１７９０個のセンテンスペアを評価データとして用いるとともに、１８１２個のセンテンスペアをテストデータとして用いた。

【0116】

（ｆ２：英語－ドイツ間）
ベースラインとしては、ＧＮＭＴ（非特許文献９参照）、ＣＯＮＶＳ２Ｓ（非特許文献１０参照）および従来Ｔｒａｎｓｆｏｒｍｅｒ（非特許文献１参照）の３種類を採用した。

【0117】

また、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、エンコーダ側のみに並び替え埋め込み層を配置した構成（表中の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」）、デコーダ側のみに並び替え埋め込み層を配置した構成（表中の「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」）、エンコーダ側およびデコーダ側の両方に並び替え埋め込み層を配置した構成（表中の「＋Ｂｏｔｈ＿ＲＥｓ」）についてそれぞれ評価した。

【0118】

また、従来Ｔｒａｎｓｆｏｒｍｅｒに採用されている位置埋め込み層に代えて、学習済の位置埋め込み層を採用した構成（表中の「＋ＡｄｄｉｔｉｏｎａｌＰＥｓ」）、および、従来Ｔｒａｎｓｆｏｒｍｅｒに採用されている位置埋め込み層が採用するセンテンス内の絶対位置ではなく相対位置を採用した構成（表中の「＋ＲｅｌａｔｉｖｅＰＥｓ」）（非特許文献１１参照）についてもそれぞれ評価した。

【0119】

なお、従来Ｔｒａｎｓｆｏｒｍｅｒおよび本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、通常（base）および大型（big）の２種類について評価を行った。それぞれのモデルパラメータは以下のＴａｂｌｅ１の通りである。

【0120】

【表1】

【0121】

Ｔａｂｌｅ１において、Ｎはエンコーダ２００の層数、Ｍはデコーダ４００の層数、ｄ_{ｍｏｄｅｌ}は入力層および出力層の次元数、ｄ_ｆｆはフィードフォワード層の次元数、ＨはＭＨＡ層の並列数、Ｐ_ｄｒｏｐはドロップアウトパラメータ、ｅ_ｌｓはＬａｂｅｌＳｍｏｏｔｈｉｎｇ（過学習抑制）のパラメータをそれぞれ示す。また、バッチサイズは４０９６×４個のトークンとした。

【0122】

各構成についての評価結果を以下のＴａｂｌｅ２に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

【0123】

【表2】

【0124】

Ｔａｂｌｅ２において、「＃Ｓｐｐｅｄ１」および「＃Ｓｐｅｅｄ２」は、トレーニング速度（トレーニングに要する時間）およびデコーディング速度（推論処理に要する時間）をそれぞれ示す。「＃Ｐａｒａｍｓ」はモデルパラメータの総数を示す。

【0125】

表中に示す数値の後に付随する「＋」あるいは「＋＋」は、ベースラインに比較して顕著な性能向上を示した結果を意味する（なお。「＋」の数が多い方が性能向上の度合いが高い）。

【0126】

Ｔａｂｌｅ２の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。

【0127】

また、「Ｔｒａｎｓｆｏｒｍｅｒ（ｂａｓｅ）」の「＋Ｂｏｔｈ＿ＲＥｓ」の性能を「Ｔｒａｎｓｆｏｒｍｅｒ（ｂｉｇ）」（並び替え埋め込み層が存在しない）の性能と比較すると、パラメータサイズを増加させるのではなく、エンコーダ側およびデコーダ側にそれぞれ並び替え埋め込み層を配置することが性能向上には有効であることが示されている。

【0128】

（ｆ３：中国語－英語間）
ベースラインとしては、従来Ｔｒａｎｓｆｏｒｍｅｒ（非特許文献１参照）、ＲＮＮｓｅａｒｃｈ＋Ｄｉｓｔｏｒｔｉｏｎ（非特許文献７参照）、２種類のＤＴＭＴ（非特許文献１２参照）、ＲＮＮベースのＮＭＴ（非特許文献１３参照）、ＲＮＮベースのＮＭＴにＭＥＭを追加した構成（非特許文献１４参照）の６種類を採用した。

【0129】

また、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、上記の（１）英語－ドイツ間と同様である。

【0130】

各構成についての評価結果を以下のＴａｂｌｅ３に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

【0131】

【表3】

【0132】

Ｔａｂｌｅ３の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。

【0133】

【0134】

このように、言語にかかわらず、並び替え埋め込み層を採用することで、性能を向上できることが示される。

【0135】

（ｆ４：日本語－英語間）
本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、上記の（１）英語－ドイツ間および（２）中国語－英語間において採用した構成に加えて、ソース側（翻訳元）の単語順序をターゲット側（翻訳先）の単語順序に近づけるように、前処理を行う構成（表中の「＋Ｐｒｅ－Ｒｅｏｒｄｉｎｇ」）を採用した。

【0136】

各構成についての評価結果を以下のＴａｂｌｅ４に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

【0137】

【表4】

【0138】

Ｔａｂｌｅ４においても、「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。

【0139】

Ｔａｂｌｅ４において、「＋Ｐｒｅ－Ｒｅｏｒｄｉｎｇ」の構成は、ベースラインに比較して性能が劣化していることが分かる。これは、ソース側（翻訳元）の単語順序をターゲット側（翻訳先）の単語順序に近づけるように前処理を行うことで、ソース側に含まれていた単語間の関連性が薄まることが要因であると推定される。

【0140】

（ｆ５：並び替え情報の影響）
次に、並び替え情報を採用することによる性能への影響について示す。

【0141】

図５は、英語－ドイツ間における並び替え情報の影響を示すグラフである。図６は、中国語－英語間における並び替え情報の影響を示すグラフである。図７は、日本語－英語間における並び替え情報の影響を示すグラフである。

【0142】

図５～図７には、テストデータに含まれるソースセンテンス内でランダムに単語の順序を入れ替えてデコーディングを行った結果を示す。すなわち、誤った語順のソースセンテンスを入力した場合の推論結果を評価したものである。図５～図７に示されるグラフの横軸は、１つのソースセンテンス内でランダムに単語の順序を入れ替えた割合を示す。

【0143】

本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒにおいて採用されている並び替え埋め込みは、単語間の順序に関する情報を補間するものであり、入力されるセンテンス内の単語の順序に誤りがあっても、正しい順序に対応する推論結果を出力し得る。

【0144】

図５～図７に示すように、ソースセンテンス内の単語のうち４０％程度に順序の誤りがあっても、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒは、その誤りの影響を抑制して、正しい推論結果を出力できると言える。

【0145】

［Ｇ．変形例］
上述の説明においては、位置埋め込み（positional embedding）を利用するニューラルネットワーク（学習済モデル）の典型例として、Ｔｒａｎｓｆｏｒｍｅｒを例示したが、これに限られず、任意のニューラルネットワーク（学習済モデル）に適用可能である。

【0146】

例えば、ＣＮＮ（convolutional neural network）ベースのニューラル翻訳などにも同様に適用可能である。さらに、翻訳タスクに限らず、入力シーケンス内のトークンの位置情報を利用するニューラルネットワーク（学習済モデル）であれば、同様に、本発明の技術思想を適用可能である。

【0147】

［Ｈ．まとめ］
本実施の形態に従う学習処理によれば、Ｔｒａｎｓｆｏｒｍｅｒなどの、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す位置埋め込みを利用するニューラルネットワークの性能を高めることができる。

【0148】

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0149】

２入力シーケンス、４入力埋め込み層、８，１８，３６，５６加算器、６位置埋め込み層、１４出力埋め込み層、２０，２０Ａエンコーダブロック、２２，４６ＭＨＡ層、２４，２８，４４，４８，５２加算・正則化層、２６，５０フィードフォワード層、４０，４０Ａデコーダブロック、４２ＭＭＨＡ層、６０線形結合層、６２ソフトマックス層、６４出力シーケンス、９０トレーニングデータセット、１００，１００ＡＴｒａｎｓｆｏｒｍｅｒ、２００エンコーダ、４００デコーダ、５００情報処理装置、５０２ＣＰＵ、５０４ＧＰＵ、５０６主メモリ、５０８ディスプレイ、５１０ネットワークインターフェイス、５１２二次記憶装置、５１４学習プログラム、５１６モデル定義データ、５１８パラメータセット、５２０推論プログラム、５２２入力デバイス、５２４光学ドライブ、５２６光学ディスク、５２８内部バス。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版