(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-15
(54)【発明の名称】Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法
(51)【国際特許分類】
G06F 40/44 20200101AFI20221208BHJP
G06F 40/295 20200101ALI20221208BHJP
【FI】
G06F40/44
G06F40/295
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021528844
(86)(22)【出願日】2020-12-14
(85)【翻訳文提出日】2021-05-19
(86)【国際出願番号】 CN2020136009
(87)【国際公開番号】W WO2022057116
(87)【国際公開日】2022-03-24
(31)【優先権主張番号】202010967634.X
(32)【優先日】2020-09-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521216625
【氏名又は名称】南京文図景信息科技有限公司
【氏名又は名称原語表記】NANJING WENTUJING INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】3F, Building 12, No. 2, Lingxian Road, Xianlin, Qixia Distric Nanjing, Jiangsu 210000, China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】張 雪英
(72)【発明者】
【氏名】趙 文強
(72)【発明者】
【氏名】呉 恪涵
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA01
5B091AA03
5B091AB06
5B091BA11
5B091EA01
(57)【要約】
本発明は、Transformerのモデルに基づいて、多言語による地名を中国語に翻訳する方法を開示しており、その言語の範囲には、英語、フランス語及びドイツ語が含まれる。地名言語知識ベースに基づいて、中国語に翻訳するべき地名の言語特徴を参照し、入力された中国語に翻訳するべき地名の言語を見分け、言語により、地名の語根抽出規則ベースにおける対応する地名の語根抽出規則を選択し、中国語に翻訳するべき地名の語根を抽出する。抽出された地名の語根のテキストを、文字符号嵌入モデルにより、文字符号ベクトルに転換する。英語、フランス語及びドイツ語による地名の語根と、対応する中国語による地名の語根の翻訳の言語材料とにより訓練して微細調整されたTransformerのモデルは、中国語に翻訳するべき地名の語根の文字符号ベクトルを入力し、語根に対する中国語の翻訳結果を最後に取得する。本発明が提供している中国語に翻訳された英語、フランス語及びドイツ語による地名の語根の結果は、いずれも、読み取りに優しく、中国語で読む習慣に合致しており、複数の言語による地名の語根を中国語に翻訳するニーズをある程度で満たし、良い柔軟性及び汎用性が存在している。
【特許請求の範囲】
【請求項1】
外国語による当初の地名の言語材料、及び、対応する中国語への翻訳の言語材料を前処理するステップ1と、
収集・整理されてきた各言語による地名と言語特徴とにより取得された規則からなる地名言語規則知識ベースに基づいて、外国語による地名の言語特徴を参照しながら、入力された外国語による地名の言語を識別するステップ2と、
識別された外国語による地名の言語情報に基づいて、地名語根抽出ベースから、言語に対応する地名の語根抽出規則を選択し、外国語による地名の語根部分を抽出し、中国語による地名の語根の抽出規則を用いて、中国語への翻訳において対応する地名の語根の部分を抽出するステップ3と、
外国語による地名及び対応する中国語への翻訳の語根テキストを文字符号の集合に転換し、ワンホットエンコーディングと、浅層フィードフォワードネットワークにより構築される文字符号嵌入モデルとを用いて、外国語による文字符号及び中国語による文字符号に対応する各文字符号ベクトルを取得するステップ4と、
Transformerのモデルを訓練して微細調整し、BLEUのスコアを基に、語彙嵌入層出力次元、エンコーダー層数、自己注意機構の数、フィードフォワードネットワーク出力次元、バッチ処理の数、予め訓練の回数及び正則化のドロップアウトの確率という七つのハイパーパラメータの取りうる値を調整することにより、Transformerのモデルがテスト集合の翻訳結果に対して、最高のBLEUのスコアを取得できるようにする、ステップ5と、
ステップ1、ステップ2及びステップ3に従って、中国語に翻訳するべき地名の語根の部分を抽出し、抽出した結果を文字符号ベクトルに転換して、訓練して微細調整されたTransformerのモデルに入力し、対応する語根を中国語に翻訳した結果を出力するステップ6と、を含む、
ことを特徴とする、Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項2】
前記前処理には、地名における特殊な文字符号を除去する処理、外国語による地名の略語の部分を補充する処理、外国語による地名を集中的に小文字化する処理、及び、発音を符号に代替する処理、が含まれている、
ことを特徴とする、請求項1に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項3】
特殊な文字符号ベース、略語-非省略語の写像ベース、及び、発音を符号に切り換える写像ベースを構築し、上記の知識ベースを基に、地名文字の符号列をトラバースする形態により、前記地名における特殊な文字符号を除去する処理、外国語による地名の略語の部分を補充する処理、及び、外国語による地名を集中的に小文字化する処理を実現する、
ことを特徴とする、請求項2に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項4】
帰納・総括により、英語、フランス語及びドイツ語による地名において、現れる頻度が高く、三つの言語を明確に区別できる単語を取得して、基礎地名言語規則知識ベースを構築する、
ことを特徴とする、請求項1に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項5】
前記基礎地名言語規則知識ベースに基づいて、第三者の知識ベースに帰納されている英語、フランス語及びドイツ語による常用の人名又は地名を参照して一層に補充し、地名言語規則知識ベースを構築して、地名への言語識別を補助する、
ことを特徴とする、請求項4に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項6】
前記地名の語根を抽出することは、地名の通名、及び、地名において変わり役割を果たす語彙を除去することを含み、つまり、一つの地名除去語彙ベースを構築し、帰納して整理された外国語及び中国語による地名について常用の通名語彙及び変わり役割を果たす語彙をそれに記憶し、前処理された外国語及び中国語による地名を語彙分割処理してから、各語彙分割結果を、索引により、地名除去語彙ベースに対比して、マッチングできない語彙分割結果のみを残すことにより、外国語及び中国語による地名の語根を取得する、
ことを特徴とする、請求項1に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項7】
ステップ6において、前記抽出の結果を文字符号ベクトルに転換することは、浅層フィードフォワードネットワークを構築し、ワンホットエンコーディングにより表される地名の語根文字符号を、文字符号ベクトルに転換することにより行われる、
ことを特徴とする、請求項1に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項8】
前記Transformerのモデルを微細調整することは、変数を制御する方法により、対照試験を設置し、語彙嵌入層出力次元、エンコーダー層数、自己注意機構数、フィードフォワードネットワーク出力次元、バッチ処理の数、予め訓練の回数及び正則化のドロップアウトの確率という七つのハイパーパラメータにおける局所的に最適な取りうる値を特定することにより行われる、
ことを特徴とする、請求項1に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項9】
他のハイパーパラメータがそのまま変わらないように固定するが、上記の七つのハイパーパラメータにおける一つのハイパーパラメータの取りうる値が変わるようにすることにより、モデルの訓練を経て、当該ハイパーパラメータについて異なる取りうる値のモデルにおけるテスト集合のBLEUスコアを評価して、当該ハイパーパラメータについて、取りうる値の範囲内における最適な取りうる値を判定する、
ことを特徴とする、請求項8に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【請求項10】
前記Transformerのモデルは、訓練回数が50000以上である
ことを特徴とする、請求項9に記載のTransformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳の分野に関し、特に、Transformerのディープラーニングモデルに基づいて、英語、フランス語及びドイツ語による地名の語根を中国語に翻訳する方法に関する。
【背景技術】
【0002】
地名は、不可欠な基礎地理情報及び社会共通情報として、様々な社会情報が関連づけられている大事な橋であって、国家や社会の管理、経済の発展、文化の建築、国防や外交などの場面において、重要な役割を果たしているものである。経済が行き来する過程では、数多くの外国語による地名が現れるのに伴い、外国語による地名を適正に翻訳する方法が望ましい。
【0003】
近年では、ニューラルによる機械翻訳という分野の研究が早く発展されており、統計による機械翻訳よりも、翻訳の品質が著しく高まる。ニューラル機械翻訳は、通常に、エンコーダー-デコーダというフレームワークにより、自然言語間にエンドツーエンドの翻訳が実現される。一方、Transformerのモデルは、数多くのニューラル機械翻訳のモデルにおいて、優れたものである。Transformerのモデルは、他のニューラル機械翻訳モデルとの一番明確な区別が、モデルが注意力の機構に全く依頼しており、従来のニューラル機械翻訳モデルに採用されている循環ニューラルネットワーク及び畳み込みニューラルネットワークが捨てられたということにある。これは、Transformerのモデルが、勾配消失及び勾配爆発の問題を大きい程度で緩和しており、モデルにおける並行計算の能力が高まり、モデルを訓練することにかかる時間を短くすることができた。
【0004】
現在、グーグル社、マイクロソフト社及びバイドゥ社などをはじめとするハイテック会社は、対応する翻訳製品が相次いで、評価がよいが、これらの翻訳製品により外国語による地名を翻訳する時に、誤りとなってしまい、意訳や音訳が用いられてしまうなどの問題も存在している。この場合には、外国語による地名が、ある形容詞の語彙又は特殊な名詞に翻訳されてしまい、さらに、中国語への翻訳結果に語順が混乱しているという問題が現れ、ひいては、翻訳の結果が中国語の使用習慣に合致していないことになる。従って、如何して、外国語による地名を、適正に、かつ、効果的に翻訳できる翻訳方法を実現するかということは、現在に、早く解決するべき問題である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、従来の翻訳システムにより外国語による地名を中国語に翻訳する際において現れる制限や不足に対して、Transformerのモデルに基づいて、多言語による地名の語根を中国語に翻訳する方法を提供しており、効率が高く、英語、フランス語及びドイツ語による地名を中国語に翻訳する適切な結果を取得することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記の問題を解決するために、以下のステップにより実現される。
ステップ1は、まず、外国語による当初の地名の言語材料、及び、対応する中国語への翻訳の言語材料を前処理する。
ステップ2は、次に、収集・整理されてきた各言語による地名と言語特徴とにより取得された規則からなる地名言語規則知識ベースに基づいて、外国語による地名の言語特徴を参照しながら、入力された外国語による地名の言語を識別する。
ステップ3は、識別された外国語による地名の言語情報に基づいて、地名語根抽出ベースから、言語に対応する地名の語根抽出規則を選択し、外国語による地名の語根部分を抽出し、中国語による地名の語根の抽出規則を用いて、中国語への翻訳において対応する地名の語根の部分を抽出する。
ステップ4は、外国語による地名及び対応する中国語への翻訳の語根テキストを文字符号の集合に転換し、ワンホットエンコーディングと、浅層フィードフォワードネットワークにより構築される文字符号嵌入モデルとを用いて、外国語による文字符号及び中国語による文字符号に対応する各文字符号ベクトルを取得する。
ステップ5は、Transformerのモデルを訓練して微細調整し、BLEU(Bilingual Evaluation Understudy、 バイリンガル評価アンダースタディスコア)スコアを基に、語彙嵌入層出力次元、エンコーダー層数、自己注意機構の数、フィードフォワードネットワーク出力次元、バッチ処理の数、予め訓練の回数及び正則化のドロップアウトの確率という七つのハイパーパラメータの取りうる値を調整することにより、Transformerのモデルがテスト集合の翻訳結果に対して、最高のBLEUのスコアを取得できるようにする。
ステップ6は、ステップ2及びステップ3に従って、中国語に翻訳するべき地名の語根の部分を抽出し、抽出した結果を文字符号ベクトルに転換して、訓練して微細調整されたTransformerのモデルに入力し、対応する語根を中国語に翻訳した結果を出力する。
【0007】
好ましくは、前記前処理には、地名における特殊な文字符号を除去する処理、外国語による地名の略語の部分を補充する処理、外国語による地名を集中的に小文字化する処理、及び、発音を符号に代替する処理、が含まれている。
【0008】
前記地名特殊な文字符号を除去する処理、外国語による地名の略語の部分を補充する処理、及び、外国語による地名を集中的に小文字化する処理を実現するためには、特殊な文字符号ベース、略語-非省略語の写像ベース、及び、発音符号切換えの写像ベースを構築して、上記の知識ベースを基にして、地名文字符号列をトラバースすることが必要となる。
【0009】
好ましくは、本発明に、帰納・総括により、英語、フランス語及びドイツ語による地名において、現れる頻度が高く、三つの言語を明確に区別できる単語を取得して、基礎地名言語規則知識ベースを構築する。
【0010】
好ましくは、本発明に、前記基礎地名言語規則知識ベースに基づいて、第三者の知識ベースに帰納されている英語、フランス語及びドイツ語による常用の人名又は地名を参照して一層に補充し、地名言語規則知識ベースを構築して、地名への言語識別を補助する。
【0011】
前記地名の語根を抽出することは、地名の通名、及び、地名において変わり役割を果たす語彙を除去することを含み、つまり、一つの地名除去語彙ベースを構築し、帰納して整理された外国語及び中国語による地名について常用の通名語彙及び変わり役割を果たす語彙をそれに記憶し、前処理された外国語及び中国語による地名に語彙分割処理を行ってから、各語彙分割結果を、索引により、地名除去語彙ベースに対比を行い、マッチングできない語彙分割結果のみを残すことにより、外国語及び中国語による地名の語根を取得する。
【0012】
上記のステップ6において、前記抽出結果を文字符号ベクトルに転換することは、浅層フィードフォワードネットワークを構築し、ワンホットエンコーディングにより表される地名の語根文字符号を、文字符号ベクトルに転換することにより行われる。
【0013】
前記Transformerのモデルを微細調整することは、変数を制御する方法により、対照試験を設置し、語彙嵌入層出力次元、エンコーダー層数、自己注意機構数、フィードフォワードネットワーク出力次元、バッチ処理の数、予め訓練の回数及び正則化のドロップアウトの確率という七つのハイパーパラメータにおける局所的に最適な取りうる値を特定することにより行われる。
【0014】
他のハイパーパラメータがそのまま変わらないように固定するが、上記の七つのハイパーパラメータにおける一つのハイパーパラメータの取りうる値が変わるようにすることにより、モデルの訓練を経て、当該ハイパーパラメータについて異なる取りうる値のモデルにおけるテスト集合のBLEUスコアを評価して、当該ハイパーパラメータについて、取りうる値の範囲内における最適な取りうる値を判定する。
【0015】
好ましくは、上記のモデルは、その訓練回数が50000以上である。
【発明の効果】
【0016】
本発明は、従来技術に比べると、以下のような有益な技術的効果を有している。
1、本発明は、外国語による地名の語根と中国語による地名の語根との間にエンドツーエンドの翻訳が注目されており、知識ベースに基づく方法により、外国語による地名及び中国語による地名から地名の語根を抽出すると共に、文字符号嵌入モデルにより、外国語による地名及び中国語による地名の語根についての抽出結果をさらに、文字符号の集合に転換し、特殊な文字符号の集合を、Transformerのモデルに入力し、コンテキストに対する地名序列の依頼が拡充されていることから、より良い地名の語根の翻訳結果を取得することができる。
2、本発明は、係る外国語特徴、及び、対応する言語による地名特徴と人名特徴を帰納し整理して、上記した特徴を対応する規則に転換して、地名言語規則知識ベースを構築する。構築された地名言語規則知識ベースにより、入力された外国語による地名の言語を識別することにより、人工に対する依頼を抑えることができる。
3、本発明は、係る外国語による地名における各組み合わせの部分を帰納し整理しながら、各項目を分類し、その現れる規律を規則に転換し、地名の語根抽出規則ベースを構築する。構築された地名の語根抽出規則ベースにより、入力された外国語による地名における語根の部分を抽出することにより、地名の語根を翻訳する効率が著しく高まる。
【図面の簡単な説明】
【0017】
【
図1】本発明における外国語による地名の語根中国語に翻訳する方法のフローチャートである。
【
図2】本発明における語根文字符号ベクトル取得するフローチャートである。
【
図3】本発明におけるTransformerのモデルの構造図である。
【
図4】本発明におけるTransformerのモデルにおけるマルチヘッド注意機構が計算するフローチャートである。
【発明を実施するための形態】
【0018】
以下には、図面を参照しながら、本発明における具体的な実施例を詳しく説明する。Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法には、以下のステップが含まれている。
【0019】
(1)外国語による当初の地名の言語材料、及び、対応する中国語への翻訳の言語材料を前処理して、外国語による地名の言語材料における特殊な文字符号を除去する。特殊な文字符号を除去した外国語による地名については、さらに、略語の部分に、規則に従って補充を行うことが必要である。補充された外国語による地名の言語材料については、小文字化する処理及び発音を符号に代替する処理することが必要である。
1)特殊な文字符号ベースを構築して文字符号列をマッチングする方法により、外国語による地名言語材料において、エンコードの転換やデータのクレンジングが完全でないなどのことで存在している「#$./-」などの特殊な文字符号を除去する。
2)外国語による地名における略語については、略語対応規則に従って地名言語材料に存在している略語を非省略語に転換する。
3)外国語による地名の言語材料を集中的に小文字化する処理、及び発音を符号に切換える処理を行い、例えば「New York」と「new york」、「cafe」と「cafe」は、共に、同じ地名を指していることから、小文字化する処理、及び、発音を符号に切り換える語彙ベースに基づく文字符号切換え方法により、外国語による地名の言語材料のフォーマットが統一するようにする。
【0020】
(2)帰納・総括により取得された地名言語識別知識ベースには、知識ベースにおける構築された単語とソース言語との間の「キー-値」という関連づけに基づいて、入力された地名の言語を識別する。
【0021】
(3)中国語に翻訳するべき地名の言語情報に基づいて、言語と対応する地名の語根抽出規則及び中国語による地名の語根抽出規則を選択し、前処理された外国語による地名言語材料及び中国語への翻訳の言語材料における語根を抽出する。語根抽出規則には、地名の専用名抽出規則、及び、地名の通名と変わり役割を果たす語彙とを除去する規則という二つの部分が含まれている。入力された地名においては、除去すべき又は残すべき部分を特定する。
【0022】
(3)地名の語根を抽出する結果により、外国語による地名の語根及び中国語による地名の語根を、対応する文字符号の集合に転換しながら、外国語による地名の語根及び中国語による地名の語根のそれぞれについて、文字符号ベクトルを構築する。ただし、その対応する文字符号ベクトルは、それぞれ、Vei、Vciとされる。
【0023】
(4)Transformerを訓練して微細調整するモデルは、外国語による地名の語根を中国語に翻訳するモデルであり、訓練言語材料は、表1に示されている。モデルを訓練することに必要なデータは、外国語による地名の語根と、対応する中国語による地名の語根とのデータセットについて7:2:1という比例に従って、訓練集合、検証集合及びテスト集合に分かれて組み合わせられたものである。訓練集合は、モデルを訓練する時に必要なデータである。検証集合は、モデルが所定の回数だけ訓練された後に、モデルの性能を判断するデータ集合であり、モデルが過剰適合又は過少適合の状態にあるかどうかを効果的に提示することができる。テスト集合は、モデル訓練が要求を満たしているかどうかを判断するデータ集合である。Transformerのモデルを正式的に訓練する過程では、一つのパラメータ(例えば、注意機構数)を変化させる一方、他のパラメータの取りうる値をそのまま固定する形態に従って、パラメータが異なる取りうる値である場合を観察して、モデルが同じデータ集合において訓練して試験されたBLEUスコアを比較することにより、当該パラメータにおける局所的に最適な取りうる値を判定する。本方法では、エンコーダー/デコーダ層数、注意機構数、語彙嵌入層出力次元、フィードフォワードネットワーク出力次元、バッチ処理の大きさ、予め訓練の回数、及び、正則化のドロップアウトの確率を含む7つのハイパーパラメータを微細調整している。
【0024】
そのうち、LayerNormは、正則化の操作であり、残差接続及び正則化操作を経たZ1、Z2、…、Znをフィードフォワードネットワークの入力とする。フィードフォワードネットワーク出力次元は、フィードフォワードネットワーク出力次元により制御されるものである。フィードフォワードネットワークの出力については、残差接続及び正則化操作をもう一回だけ行うことが必要であり、それから次のエンコード層に入力可能である。今回の残差接続及び正則化操作では、フィードフォワードネットワークの出力に、一回目の残差接続及び正則化操作を経たZ1、Z2、…、Znに加算することが必要である。そして、各エンコード層に行われる操作は、いずれも、上記した操作と一致しており、エンコード層の数量がエンコーダー/デコーダ層数に制御される。
【0025】
エンコーダーにおける操作は、デコーダのほうと概ね同じであるが、その相違点が、デコーダの入力が中国語による地名の語根の文字符号集合の文字符号ベクトルであり、また、各デコード層は、エンコード層に対して、エンコーダー-デコーダ注意機構が追加されており、デコーダから出力された行列と、エンコード層において取得されたマルチヘッド注意機構からの出力とが結合され、入力及び出力に潜在的な特徴が融合されるということにある。
【0026】
Transformerのモデルは、フィードフォワードネットワーク層及びsoftmax層を構築して、エンコーダーの出力を操作する。そのうち、フィードフォワードネットワーク層は、エンコーダーの出力を、辞典次元と同じのベクトルとして写像し、softmax層は、写像を経たベクトルを、確率に転換すると共に、最大の確率と対応する文字符号を出力とし、モデルからの最後の出力が、各出力文字符号からなるものである。
【0027】
Transformerの内部構造に関連するハイパーパラメータ以外には、微細調整を行う過程において、バッチ処理の大きさ、予め訓練の回数及び正則化のドロップアウトの確率という三つのハイパーパラメータも考えられている。バッチ処理の大きさは、訓練データがバッチデータに分けられるデータ量を左右し、予め訓練の回数は、正式的な訓練を行う前にモデルを予め訓練しておく回数を左右し、正則化のドロップアウトの確率は、モデルを訓練する過程に、あらゆるニューロンにおける未更新のパラメータニューロンの占める比例を左右する。
【0028】
図1に示されるように、地理モデルネットワークサービスの動態的組み合わせ方法は、主に、以下の三つの部分からなる。
1.規則に基づく地名の語根を抽出する。
2.地名の語根を文字符号ベクトルにより表現する。
3.Transformerのモデルを訓練して微細調整する。
英語による地名である「Hazardville Fire Department」、及び、対応する中国語への翻訳である
を例として、外国語による地名の語根を中国語に翻訳する流れを詳しく説明する。
【0029】
(1)地名のソースデータへの前処理
まず、英語による地名である「Hazardville Fire Department」と、中国語への翻訳である「哈扎徳維尓消防局」とを、地名の翻訳対として結合する。次に、「Hazardville Fire Department」という地名に、特殊な文字符号が存在していないため、英語による地名を小文字化する処理を経て、「hazardville fire department」に転換する。
【0030】
(2)規則に基づく地名の語根の抽出
地名ソースデータを前処理した結果である「hazardville fire department」と、対応する中国語への翻訳である「哈扎徳維尓消防局」とを、地名の語根データ抽出モジュールへの入力とする。地名の語根データ抽出モジュールは、まず、地名分割規則に従って地名の語根の部分を抽出する。本例では、地名を入力して抽出された地名の語根は、「hazardville」及び「哈扎徳維尓」である。地名分割規則は、英語及び中国語による地名の特性を分析してなされたものである。そのうち、英語による地名の分割規則については、地名における接頭辞の語彙、地名における接尾辞の語彙及び地名における特殊な単語をフィルタリングする。
表1に示すように、地名における接頭辞の語彙には、主に、方位の語彙が含まれており、地名における接尾辞の語彙には、主に、自然環境の通名、行政区画の通名及び興味のあるポイントの通名という三つの分類が含まれている。地名における特殊な単語は、是在地名において、語順に対して、起承転結という役割を果たす単語からなる集合である。また、中国語による地名分割規則については、
表2に示すように、地名における接頭辞の語彙及び地名における接尾辞の語彙をフィルタリングする。中国語による地名における接頭辞の語彙及び地名における接尾辞の語彙に含まれている内容は、英語による地名における接頭辞の語彙及び地名における接尾辞の語彙と類似している。
【0031】
【0032】
【0033】
(3)地名の語根のベクトル化
地名の語根のデータに基づいて結果を抽出することは、まず、地名の語根データを、文字符号の集合に転換し、次に、オープンソースであるPyTorchにおけるword-embedding層により構築された浅層ニューラルネットワークにより、形式が文字符号の地名データを、コンピューターに読み取り可能なベクトルの形式に転換する。「hazardville」については、浅層ニューラルネットワークによるベクトル化する流れが
図2に示されている。
【0034】
(4)Transformerのモデルへの訓練・微細調整
Transformerのモデルを訓練して微細調整することに必要な言語材料について具体的な例は、例えば表3に示される。
Transformerのモデルを実際に訓練して微細調整する過程では、注意機構数を微細調整することを例に、変数を制御する方法に厳しく従って、モデルにおける他のパラメータをそのまま固定して、それぞれ、注意機構数を8、32、128、256とするように設置し、50000回だけ訓練を行ってから、テスト集合における各モデルのBLEUスコアを評価する。従って、注意機構数が256である場合には、値が局所的に最適であると考えられる。具体的な試験結果が表4に示されている。
【0035】
Transformerのモデルには、入力次元、フィードフォワード層出力次元、エンコード層数及びバッチ処理数等を含む他の六つのパラメータについて、それらの局所的に最適な値を取得する方法が上記の方法と同じである。
【0036】
そのうち、LayerNormが正則化の操作であり、残差接続及び正則化の操作を経たZ1、Z2、…、Znは、フィードフォワードネットワークへの入力である。ソース言語と目標言語との間における潜在的な写像関係をモデリングする。フィードフォワードネットワークの出力については、次のエンコード層又はデコード層に入力するために、一回だけの残差接続及び正則化の操作を行うことが必要である。今回の残差接続及び正則化操作では、フィードフォワードネットワークの出力に、一回目の残差接続及び正則化の操作を行ったZ1、Z2、…、Znを加算することが必要である。マルチヘッド注意機構は、その具体的な計算の流れが
図4に示されている。
【0037】
デコーダでは、その操作がエンコーダーのほうと概ね同じであるが、その相違点が、各デコード層は、エンコード層に対して、エンコーダー-デコーダ注意機構が追加されており、エンコーダーから出力された行列及びデコード層において取得されたマルチヘッド注意機構からの出力が結合され、入力及び出力に潜在的な特徴が融合されるということにある。
【0038】
Transformerのモデルは、フィードフォワードネットワーク層及びsoftmax層を構築して、デコーダの出力を操作する。そのうち、フィードフォワードネットワーク層は、デコーダの出力を、辞典次元と同じのベクトルとして写像し、softmax層は、写像を経たベクトルを、確率に転換すると共に、最大の確率と対応する文字符号を出力として、モデルからの最後の出力が、各出力文字符号からなるものである。本例では、モデルが最後に出力したのは、「哈扎徳維尓」である。
【0039】
以上に説明したのは、本発明における具体的な実施形態に過ぎず、本発明による保護範囲がこれに限定されていない。当業者にとっては、本発明に開示されている技術範囲において想到可能な変形又は置換がいずれも、本発明による範囲に含まれる。
【国際調査報告】