(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-27
(45)【発行日】2025-01-14
(54)【発明の名称】語義目録の整列による単語と定義との間の意味論的連結
(51)【国際特許分類】
G06F 40/30 20200101AFI20250106BHJP
【FI】
G06F40/30
(21)【出願番号】P 2023538139
(86)(22)【出願日】2022-08-24
(86)【国際出願番号】 US2022041308
(87)【国際公開番号】W WO2023069189
(87)【国際公開日】2023-04-27
【審査請求日】2023-06-21
(32)【優先日】2021-10-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ウェンリン・ヤオ
(72)【発明者】
【氏名】シャオマン・パン
(72)【発明者】
【氏名】リフェン・ジン
(72)【発明者】
【氏名】ジアンシュ・チェン
(72)【発明者】
【氏名】ディアン・ユ
(72)【発明者】
【氏名】ドン・ユ
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2005/0080613(US,A1)
【文献】米国特許出願公開第2009/0204386(US,A1)
【文献】米国特許第10073843(US,B1)
【文献】米国特許出願公開第2020/0257712(US,A1)
【文献】米国特許出願公開第2017/0083484(US,A1)
【文献】特開2019-125343(JP,A)
【文献】米国特許出願公開第2019/0220749(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
語義を予測する方法であって、前記方法は、
コンピュータによって実行される、以下の、
2つ以上の語義目録を用いて1つ以上の整列された目録を生成するステップであって、
第1の語義目録から語句注解を収集するステップと、
第2の語義目録から語句注解を収集するステップと、
前記第1の語義目録と前記第2の語義目録との間の最良マッチングを決定するステップであって、前記第1の語義目録と前記第2の語義目録との間の前記最良マッチングを決定することは、
前記第1の語義目録と前記第2の語義目録との共通の単語毎に、前記第1の語義目録からの各語句注解と、前記第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアを決定することと、
前記第1の語義目録からの前記各語句注解を、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々にマッピングするマッチング関数を決定することであって、前記マッチング関数は、前記第1の語義目録からの前記各語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアの合計を最大にするように構成される、前記マッチング関数を決定することと
を含む、ステップと、
前記第1の語義目録からの語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々とを、前記第1の語義目録からの前記語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアが閾値を超えるとの決定に基づいてペアにすることによって肯定的語句注解ペアを生成するステップと、
前記第1の語義目録からの語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々とを、前記第1の語義目録からの前記語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアが前記閾値未満であるとの決定に基づいてペアにすることによって否定的語句注解ペアを生成するステップと
を含む、1つ以上の語義目録を用いて1つ以上の整列された目録を生成するステップと、
文脈文の単語を取得するステップと、
意味等価性認識器モデルを用いて、前記文脈文の前記単語と、前記1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との間の意味類似度を示す1つ以上の意味等価性スコアを決定するステップと、
前記決定された1つ以上の意味等価性スコアに基づいて前記文脈文の前記単語の正しい語義を予測するステップと
を含む方法。
【請求項2】
前記第1の語義目録からの前記各語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアを決定することは、
予め訓練された二次モデルに基づいて1つ以上の文埋め込みを決定することと、
前記第1の語義目録からの前記各語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間のコサイン類似度を前記1つ以上の文埋め込みに基づいて決定することと
を含む、請求項
1に記載の方法。
【請求項3】
前記予め訓練された二次モデルは、トランスフォーマーによる文双方向エンコーダ表現(Sentence Bidirectional Encoder Representations from Transformers, SBERT)モデルを含む、請求項
2に記載の方法。
【請求項4】
前記意味等価性認識器モデルを用いて、前記文脈文の前記単語と、前記1つ以上の整列された目録の前記1つ以上の関連付けられた語句注解の前記各々との間の前記意味類似度を示す前記1つ以上の意味等価性スコアを決定する前記ステップは、
前記文脈文の前記単語を前記意味等価性認識器モデルに入力するステップと、
前記1つ以上の整列された目録を前記意味等価性認識器モデルに入力するステップと、
前記文脈文の前記単語に関連付けられた前記1つ以上の整列された目録から1つ以上の語句注解を特定するステップと、
前記特定された1つ以上の語句注解の各々について確率スコアを生成するために、前記特定された1つ以上の語句注解に訓練済み語句注解分類器を適用するステップと
を含む、請求項1に記載の方法。
【請求項5】
前記訓練済み語句注解分類器は拡張訓練データを用いて訓練され、前記拡張訓練データは、前記1つ以上の整列された目録と、特定の語義目録に関連付けられた組み込み訓練データとの組み合わせである、請求項
4に記載の方法。
【請求項6】
前記訓練済み語句注解分類器は、前記1つ以上の整列された目録を用いて訓練され、前記訓練済み語句注解分類器は、新たな分野の特定の語義目録に関連付けられた組み込み訓練データを用いてファインチューニングされる、請求項
4に記載の方法。
【請求項7】
前記1つ以上の語義目録は言語の語彙的データセットである、請求項1に記載の方法。
【請求項8】
前記決定された1つ以上の意味等価性スコアに基づいて前記文脈文の前記単語の前記正しい語義を予測する前記ステップは、最大の意味等価性スコアに関連付けられた結果語句注解を選択するステップを含む、請求項1に記載の方法。
【請求項9】
語義を予測する装置であって、前記装置は、
プログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記プログラムコードを読み込んで前記プログラムコードによって命令されるものを動作させるように構成された少なくとも1つのプロセッサと
を備え、前記プログラムコードは、
前記少なくとも1つのプロセッサに、
1つ以上の語義目録を用いて1つ以上の整列された目録を生成させるように構成された第1の生成コードであって
、
前記少なくとも1つのプロセッサに、第1の語義目録から語句注解を収集させるように構成された第1の収集コードと、
前記少なくとも1つのプロセッサに、第2の語義目録から語句注解を収集させるように構成された第2の収集コードと、
前記少なくとも1つのプロセッサに、前記第1の語義目録と前記第2の語義目録との間の最良マッチングを決定させるように構成された第2の決定コードであって、前記第2の決定コードは、
前記少なくとも1つのプロセッサに、前記第1の語義目録と前記第2の語義目録との共通の単語毎に、前記第1の語義目録からの各語句注解と、前記第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアを決定させるように構成された第3の決定コードと、
前記少なくとも1つのプロセッサに、前記第1の語義目録からの前記各語句注解を、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々にマッピングするマッチング関数を決定させるように構成された第4の決定コードであって、前記マッチング関数は、前記第1の語義目録からの前記各語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアの合計を最大にするように構成された、第4の決定コードと
をさらに含む、第2の決定コードと、
前記少なくとも1つのプロセッサに、前記第1の語義目録からの語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々とを、前記第1の語義目録からの前記語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアが閾値を超えるとの決定に基づいてペアにすることによって肯定的語句注解ペアを生成させるように構成された第2の生成コードと、
前記少なくとも1つのプロセッサに、前記第1の語義目録からの語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々とを、前記第1の語義目録からの前記語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間の前記文逐語的類似度スコアが前記閾値未満であるとの決定に基づいてペアにすることによって否定的語句注解ペアを生成させるように構成された第3の生成コードと、を含む、第1の生成コードと、
前記少なくとも1つのプロセッサに、文脈文の単語を取得させるように構成された第1の取得コードと、
前記少なくとも1つのプロセッサに、意味等価性認識器モデルを用いて、前記文脈文の前記単語と、前記1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との間の意味類似度を示す1つ以上の意味等価性スコアを決定させるように構成された第1の決定コードと、
前記少なくとも1つのプロセッサに、前記決定された1つ以上の意味等価性スコアに基づいて前記文脈文の前記単語の正しい語義を予測させるように構成された第1の予測コードと
を含む、装置。
【請求項10】
前記第3の決定コードは、
前記少なくとも1つのプロセッサに、予め訓練された二次モデルに基づいて1つ以上の文埋め込みを決定させるように構成された第5の決定コードと、
前記少なくとも1つのプロセッサに、前記第1の語義目録からの前記各語句注解と、前記第2の語義目録からの前記1つ以上の関連付けられた語句注解の前記各々との間のコサイン類似度を前記1つ以上の文埋め込みに基づいて決定させるように構成された第6の決定コードと
をさらに含む、請求項
9に記載の装置。
【請求項11】
前記第1の決定コードは、
前記少なくとも1つのプロセッサに、前記文脈文の前記単語を前記意味等価性認識器モデルに入力させるように構成された第1の入力コードと、
前記少なくとも1つのプロセッサに、前記1つ以上の整列された目録を前記意味等価性認識器モデルに入力させるように構成された第2の入力コードと、
前記少なくとも1つのプロセッサに、前記文脈文の前記単語に関連付けられた前記1つ以上の整列された目録から1つ以上の語句注解を特定させるように構成された第1の特定コードと、
前記少なくとも1つのプロセッサに、前記特定された1つ以上の語句注解の各々について確率スコアを生成するために、前記特定された1つ以上の語句注解に訓練済み語句注解分類器を適用させるように構成された第1の適用コードと
をさらに含む、請求項
9に記載の装置。
【請求項12】
前記訓練済み語句注解分類器は拡張訓練データを用いて訓練され、前記拡張訓練データは、前記1つ以上の整列された目録と、特定の語義目録に関連付けられた組み込み訓練データとの組み合わせである、請求項
11に記載の装置。
【請求項13】
前記訓練済み語句注解分類器は、前記1つ以上の整列された目録を用いて訓練され、前記訓練済み語句注解分類器は、新たな分野の特定の語義目録に関連付けられた組み込み訓練データを用いてファインチューニングされる、請求項
12に記載の装置。
【請求項14】
前記1つ以上の語義目録は言語の語彙的データセットである、請求項
9に記載の装置。
【請求項15】
前記第1の予測コードは、前記少なくとも1つのプロセッサに、最大の意味等価性スコアに関連付けられた結果語句注解を選択させるように構成された第1の選択コードをさらに含む、請求項
9に記載の装置。
【請求項16】
1つ以上のプロセッサに請求項1から
8のいずれか一項に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は2021年10月22日に米国特許商標庁に出願された米国出願第17/508,417号の優先権を主張する。本米国出願の全体が参照により本明細書に援用される。
【0002】
本開示の実施形態は、自然言語処理(NLP)の分野を対象とし、特に、文中又は表現中での単語の使用上の単語の正確な意味を自動的に理解することを目的とする語義曖昧性解消(Word Sense Disambiguation:WSD)の分野を対象とする。
【背景技術】
【0003】
単語は文脈が異なると複数の意味を持つ場合があるので、ある意味で人間の言語は曖昧である。WSDは、単語の使用(通常文脈文)上の単語の正確な意味を自動的に特定することを目的とする。文脈中での単語の正しい意味の特定は自然言語処理における機械翻訳、情報抽出やその他タスクなどの多くの下流のタスクに必須である。
【0004】
本開示によって解決される課題の1つは、稀な語義に関する訓練データが限られるために、このような稀な語義の正しい意味を予測しようとするときに教師ありモデルが直面する困難である。ほとんどのモデルでは既定の語義目録による訓練に基づいて単語の意味を予測するので、出現しなかったり、たいへんたまにしか出現しなかったりする稀な単語は単語の意味を予測するときは通常は無視される。
【0005】
多くの解決手法には、タスク別のデータセット上の大量のテキストデータを用いて言語モデルにおいてファインチューニングすることが含まれる。しかし、このような解決手法ではしばしば訓練されたモデルの適用性が制限され、大きな問題が生じる。第1に、訓練データに不十分なサンプルが存在するので、稀なzero-shotによる語義を予測するときにモデルのパフォーマンスが著しく低下する。別の問題は、モデルに対してタスク別にファインチューニングすると、多くの場合にモデルが目録に依存するようになることであり、最良の定義(form既定の1つの語義目録(たとえばWordNet))をモデルによって選択することしかできず、より包括的に選択することができない。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示によって1つ以上の技術的課題に対処する。稀な語義の意味を正しく予測する問題、すなわちデータスパースネス問題に対処し、1つの既定の目録と無関係になるモデルを一般化するために、本開示では、語句注解(gloss)と、異なる語義目録からの同じ意味とを揃えて、豊富な語彙的知識を収集する語句注解整列アルゴリズムを提案する。モデルを訓練したりモデルにおいてファインチューニングしたりして、このような整列された目録を用いて文脈中での単語とその語句注解の1つとの意味等価性を特定することにより、頻出する語義と稀な語義との両方で予測を改善しつつ、データスパースネス問題と一般化問題とに対処する。
【0007】
本開示の実施形態では、語義を予測する方法及び装置が提供される。
【0008】
本開示の一態様によれば、語義を予測する方法は、1つ以上の整列された目録を生成するステップであって、1つ以上の整列された目録は1つ以上の語義目録を用いて生成される、ステップと、文脈文の単語を取得するステップと、意味等価性認識器モデルを用いて、文脈文の単語と、1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との間の意味類似度を示す1つ以上の意味等価性スコアを決定するステップと、決定された1つ以上の意味等価性スコアに基づいて文脈文の単語の正しい語義を予測するステップとを含む。
【0009】
本開示の態様によれば、1つ以上の整列された目録を生成するステップは、第1の語義目録から語句注解を収集するステップと、第2の語義目録から語句注解を収集するステップと、第1の語義目録と第2の語義目録との間の最良マッチングを決定するステップであって、第1の語義目録と第2の語義目録との間の最良マッチングを決定することは、第1の語義目録と第2の語義目録との共通の単語毎に、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアを決定することと、第1の語義目録からの各語句注解を、第2の語義目録からの1つ以上の関連付けられた語句注解の各々にマッピングするマッチング関数を決定することであって、マッチング関数は、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアの合計を最大にするように構成された、前記マッチング関数を決定することとを含む、ステップとを含む。
【0010】
本開示の態様によれば、1つ以上の整列された目録を生成するステップは、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々とを、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアが閾値を超えるとの決定に基づいてペアにすることによって肯定的語句注解ペアを生成するステップと、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々とを、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアが閾値未満であるとの決定に基づいてペアにすることによって否定的語句注解ペアを生成するステップとをさらに含む。
【0011】
本開示の態様によれば、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアを決定するステップは、予め訓練された二次モデルに基づいて1つ以上の文埋め込みを決定するステップと、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間のコサイン類似度を1つ以上の文埋め込みに基づいて決定するステップとを含む。
【0012】
本開示の態様によれば、予め訓練された二次モデルは、トランスフォーマーによる文双方向エンコーダ表現(Sentence Bidirectional Encoder Representations from Transformers, SBERT)モデルを含む。
【0013】
本開示の態様によれば、意味等価性認識器モデルを用いて、文脈文の単語と、1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との間の意味類似度を示す1つ以上の意味等価性スコアを決定するステップは、文脈文の単語を意味等価性認識器モデルに入力するステップと、1つ以上の整列された目録を意味等価性認識器モデルに入力するステップと、文脈文の単語に関連付けられた1つ以上の整列された目録から1つ以上の語句注解を特定するステップと、特定された1つ以上の語句注解の各々について確率スコアを生成するために、特定された1つ以上の語句注解に訓練済み語句注解分類器を適用するステップとを含む。
【0014】
本開示の態様によれば、訓練済み語句注解分類器は、拡張訓練データを用いて訓練され、拡張訓練データは、1つ以上の整列された目録と、特定の語義目録に関連付けられた組み込み訓練データとの組み合わせである。
【0015】
本開示の態様によれば、訓練済み語句注解分類器は、1つ以上の整列された目録を用いて訓練され、訓練済み語句注解分類器は、新たな分野の特定の語義目録に関連付けられた組み込み訓練データを用いてファインチューニングされる。
【0016】
本開示の態様によれば、1つ以上の語義目録は言語の語彙的データセットである。
【0017】
本開示の態様によれば、決定された1つ以上の意味等価性スコアに基づいて文脈文の単語の正しい語義を予測するステップは、最大の意味等価性スコアに関連付けられた結果語句注解を選択するステップを含む。
【0018】
開示されている保護対象のさらなる特徴、性質及び様々な効果が以下の詳細な説明及び添付の図面からより明らかになる。
【図面の簡単な説明】
【0019】
【
図1】本開示の実施形態による語義予測モデルの簡略ブロック図である。
【
図2】本開示の実施形態による整列された語句注解目録の生成についての簡略図である。
【
図3】本開示の実施形態による語義予測モデルの簡略図である。
【
図4】本開示の実施形態による語義予測モデルの簡略フローチャートである。
【
図5】本開示の実施形態による語義予測モデルの簡略フローチャートである。
【
図6】本開示の実施形態による語義予測モデルの簡略フローチャートである。
【
図7】本開示の実施形態による語義予測モデルの簡略フローチャートである。
【発明を実施するための形態】
【0020】
以下で説明されている提案された特徴を個別に用いても、いかなる順序で組み合せてもよい。さらに、実施形態を処理回路(たとえば、1つ以上のプロセッサや1つ以上の集積回路)によって実現してもよい。一例では、非一時的コンピュータ可読媒体に記憶されているプログラムを1つ以上のプロセッサが実行する。
【0021】
図1は実施形態による語義予測モデル100の簡略図である。語義予測モデル100は文脈文の単語と語句注解とが意味論的に等価であるか否かを予測することができる。したがって、語義予測モデル100は文脈文における語義の意味を予測する。
【0022】
動作110の語義目録の語句注解整列では、複数の語義目録全体からの語句注解の最良マッピング整列又は最良マッチング整列をもたらすように複数の語義目録の整列を行なうことができる。複数の語義目録からの語彙的情報と文脈的情報とを活用するために、語句注解整列、すなわち目録の整列は、マッチング関数に含まれるマッピングの文逐語的類似度(sentence textual similarity)が最大になるように、語義目録の1つからの共通の単語の語句注解の、語義目録のうちの別の語義目録の語句注解へのマッピングを含む最良マッチング関数を含むことができる。
【0023】
動作120では、語句注解のペアを生成することができ、語句注解のペアは、各々、語義目録の1つからの共通の単語の語句注解の、語義目録のうちの別の語義目録の語句注解へのマッピングを含むことができる。いくつかの実施形態では、語句注解のペアが整列される場合があるマッピング、すなわち、ペア中の語句注解の両方の文逐語的類似度が高くなり得るマッピングに語句注解の肯定的ペアのラベルを付すことができる。いくつかの実施形態では、語句注解のペアが整列されない場合があるマッピング、すなわち、ペア中の語句注解の両方の文逐語的類似度が低くなり得るマッピングに語句注解の否定的ペアのラベルを付すことができる。いくつかの実施形態では、文逐語的類似度が閾値を超えるペアのみによって教師及び訓練の品質が改善されるとみなすことができる。いくつかの実施形態では、語句注解のペアを、各語義目録中の語句注解を個別に用いて生成することができる。したがって、いくつかの実施形態では、語義目録の単語毎に、語句注解の肯定的ペアを得るのに例文を用いて語句注解文のペアを生成することができる。同様に、いくつかの実施形態では、語義目録の単語毎に、語句注解の否定的ペアを生成するのに別の関連しない単語用の例文を用いて語句注解文のペアを生成することができる。
【0024】
140では、語義が決定されることになる単語を含む文脈文を取得することができる。130及び135では、訓練データを用いてモデルを訓練するのにトランスフォーマー(transformer)を用いることができる。いくつかの実施形態では、トランスフォーマーを予め訓練し、文脈文に適用して確率を生成することができる。160では、生成された確率を用いて文脈文中の単語の正しい意味を予測することができる。
【0025】
例として、2つのWSDデータセットを用いる語義予測モデル100の評価を考える。1つはall-words WSDによる評価に注目したものであり、もう1つは、データスパースネス問題がある場合の一般語義目録における語義予測モデル100のパフォーマンスを理解するためにlow-shotによる評価に重点を置いたFew Shot Examples of Word Senses(FEWS)である。
【0026】
all-words WSD及びFEWSデータセットにはWordNet 3.0を用いて注釈が付される。本出願では、訓練に用いられる特定のデータセットからの組み込み訓練データから生成される語句注解の肯定的ペア及び否定的ペアを生成することができる。本出願では、語句注解に豊富な語彙知識を付与する1つ以上の辞書を用いて整列された目録を生成することもできる。整列された目録の生成は1つ以上の辞書からの語句注解の肯定的ペア及び否定的ペアの生成を含むことができる。
【0027】
いくつかの実施形態では、整列された目録からの語句注解のペアと、特定のデータセットからの組み込み訓練データからの語句注解のペアとを兼ね備える拡張訓練データを用いて語義予測モデル100のトランスフォーマー(130,135)を訓練することができる。拡張モデル(SemEq-Base)の訓練は拡張訓練データのみを用いて行なうことができる。
【0028】
いくつかの実施形態では、まず、整列された目録からの語句注解のペアのみを含む訓練データを用いて語義予測モデル100のトランスフォーマー(130,135)を訓練することができる。整列された目録からの語句注解のペアのみを用いることにより、文脈文の単語と語句注解とが意味論的に等価であるのか、いずれかの特定の語義目録と無関係ではないのかのいずれであるのかを決定することができる一般モデル(SemEq-Large-General)を生成することができる。いくつかの実施形態では、さらに、この一般モデルを特定の語義目録についての組み込み訓練データで訓練したりファインチューニングしたりして専門モデル(SemEq-Large-Expert)を作成する。専門モデルは新たな分野に良く適応することができ、優れたパフォーマンスを実現することができる。
【0029】
【0030】
表1に示されているように、専門モデル(SemEq-Large-Expert)(16行目)はSE07、SE2、SE3及びSE13においてWordNet synsetグラフ情報を用いない以前の最良モデルであるAdaptBERT(9行目)よりも一貫して優れており、「全体」では1.2%高いF1を達成している。専門モデル(SemEq-Large-Expert)ではAdaptBERTよりも名詞、動詞、形容詞及び副詞を含む全種類の単語の曖昧性解消もより良好に行なわれる。このことは、語句注解整列と転移学習とを用いた複数の語義目録の活用の効果を示す。専門モデル(SemEq-Large-Expert)は特別なWordNetグラフ知識をさらに用いるEWISER(10行目)と比較する場合に0.6%だけより正確である。したがって、整列された目録から導出される語彙的知識で予め訓練することにより、語義予測モデルによってより容易に一般化を行なうことができ、単語の正しい語義を特定するための文脈記述の単語と語句注解文との意味等価性をより良く獲得することができる。
【0031】
【0032】
表2はFEWSデータセットについての結果を示す。BEMSemCor(4行目)は同様の転移学習モデルであるが、BEM(3行目)がFEWSのみで訓練するのに対してFEWSで訓練する前にSemCorでファインチューニングされる。2つ目の欄は、語句注解整列を用いた複数の語義目録でFEWS訓練セットを拡張すること(6行目)により、zero-shot学習のパフォーマンスがdevセットでは1.6%、testセットでは2.4%だけ大幅に向上することを示している(5行目と比較)。FEWSデータセットに対して転移学習法が採用される場合、testセットにおける最後のSemEq-Large-Expert(10行目)モデルのパフォーマンスはfew-shotによる語義で82.3%まで向上し、zero-shotによる語義で72.2%まで向上し、これは、すべてのベースラインモデルよりも大幅に優れている。
【0033】
図2は整列された語義目録の簡略概略
図200である。整列された語義目録(単に整列された目録とも称する)は複数の語義目録全体(204~209)からの語句注解(210,211,212)の最良マッピング整列又は最良マッチング整列を含むことができる。
【0034】
語義目録(204~209)は語義毎にその用法により複数の例文を提供する辞書であってもよく、特定の語義に対する文脈文を受け取る手段として用いることができる。例として、コリンズ辞典やウェブスター辞典のような辞書を用いることで、英語の語彙的知識の巨大なデータベースを提供してもよい。語義目録(204~209)の各々は限られた個数の文脈中の特定の単語の複数の例又は語句注解を有することができる。したがって、異なる語義目録(204~209)からの単語の語義の語句注解が同じ意味の異なる表現である場合がある。同じ語義に対する複数の語義目録からの並立する語句注解の整列を行なうことで、特に稀なたまにしか用いられない語義について、モデルによって取得される語彙的知識を大幅に増やすことができる。
【0035】
この豊富な語彙的情報及び文脈的情報を活用するために、語句注解整列、すなわち目録の整列は、マッチング関数に含まれるマッピングの文逐語的類似度が最大になるように、語義目録の1つからの共通の単語の語句注解の、語義目録のうちの別の語義目録の語句注解へのマッピング(214,216)を含む最良マッチング関数(220)を含むことができる。
【0036】
いくつかの実施形態では、最良マッチング関数(220)を最適化セットアップを用いて決定することができる。いくつかの実施形態では、最適化セットアップは、エッジの重みの合計を最大にする重み付き2部グラフにおいて最良マッチングを見つけることを目的とする最大重み付き2部マッチング(Maximum Weighted Bipartite matching)であってもよい。例として、
図2では、最良マッチング関数(220)によって語句注解のマッピング(214,216)が重み付きエッジとして扱われてもよく、最良マッチング関数(220)は語句注解のマッピングの重みを最大にする関数を表わしてもよい。いくつかの実施形態では、マッチング関数(220)は、第1の語義目録(204~209)からの共通の単語の各語句注解と、第2の語義目録(204~209)からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度の合計を最大にするように構成されてもよい。
【0037】
目録の整列のための最良マッチング関数を取得する最大重み付き2部マッチング最適化のセットアップの例は以下のようなものであってもよい。本願では2つの単語セットS1及びS2を語義目録204及び語義目録205からそれぞれ取得すると考える。各単語セットは定義文すなわち語句注解(210,211,212)のリストからなる。最良マッチング関数(220)f:S1→S2を決定するために、報酬関数r:S1×S2→Rを最大にすることができる。いくつかの実施形態では、2つの語句注解の間の類似度を計量するのに報酬関数として文レベル逐語的類似度又は文逐語的類似度を用いることができる。いくつかの実施形態では、2つの語句注解の間の文レベル逐語的類似度の計量又は決定を行なうために、予め訓練された二次モデルを用いることができる。予め訓練された二次モデルは意味類似度(Semantic Textual Similarity:STS)タスクと言い換え検出タスクを実行することができるいかなる先行技術のモデルであってもよい。いくつかの実施形態では、トランスフォーマーによる文双方向エンコーダ表現(Sentence Bidirectional Encoder Representations from Transformers, SBERT)モデルを用いることができる。
【0038】
いくつかの実施形態では、語句注解間の文逐語的類似度の決定は予め訓練された二次モデルに基づいて1つ以上の文埋め込みを決定することを含むことができる。いくつかの実施形態では、語句注解間の文逐語的類似度の決定は語句注解間の文逐語的類似度に基づいて語句注解のコサイン類似度を決定することを含むことができる。例として、いくつかの実施形態では、予め訓練された二次モデル(たとえばSBERT)を単語セットS1及びS2に適用して、文埋め込みを取得し、コサイン類似度を報酬関数として計算してもよい。
【0039】
いくつかの実施形態では、最大重み付き2部マッチング最適化を線形計画法を用いて解くことができる。例として、線形計画法に基づく最大重み付き2部マッチング最適化の解法は以下のようなものであってもよい。
【0040】
重みw
ijがS1の第iの語句注解とS2の第jの語句注解との間の文逐語的類似度を表わすと考える。語義目録204及び205の整列は以下の線形整数計画法問題(linear integer programming problem)を解くことを含むといえる。
【数1】
【0041】
いくつかの実施形態では、S1及びS2は語義目録(204~209)のいずれかを含むことができる。いくつかの実施形態では、S1及びS2は全語義目録(204~209)のうちの2つの組み合わせを含むことができ、目録の整列は語義目録(204~209)の、すべての組み合わせの整列を含むことができる。したがって、目録の整列によって語義目録(204~209)のすべてにわたる語句注解のマッピングを実現することができる。
【0042】
図3は本開示の実施形態による、語義を予測する意味等価性認識器モデル(300)の例である。意味等価性認識器モデル(300)は文脈文の単語と語句注解とが意味論的に等価であるか否かを予測することができる。したがって、意味等価性認識器モデル(300)は文脈文の語義の意味を予測する。
【0043】
語句注解整列された目録(整列された目録とも称する)(310)は語句注解のマッピング(214,216)と最良マッチング関数(220)とを含むことができる。語句注解例(320)は整列された目録からの語句注解のマッピング(214,216)を含むことができる。意味等価性認識器モデル(300)を用いて単語の語義を予測することができるが、文脈文はこのような単語を含む文を含むことができる。
【0044】
実施形態によれば、意味等価性認識器モデル(300)は、意味等価性認識器モデル(300)を訓練する、すなわちトランスフォーマー(330,335)を訓練するための入力として語句注解整列された目録(310)から語句注解例(320)を受け取ることができる。いくつかの実施形態では、語句注解整列された目録(310)からの語句注解例(320)が肯定的語句注解のペアである場合があり、語句注解のペアは整列されている。いくつかの実施形態では、語句注解整列された目録(310)からの語句注解例(320)が否定的語句注解のペアである場合があり、語句注解のペアは整列されていない。
【0045】
いくつかの実施形態によれば、意味等価性認識器モデル(300)は文脈中での単語といずれかの関連付けられた語句注解との意味等価性を予測する1つ以上のトランスフォーマー(330,335)を含むことができる。トランスフォーマー(330,335)は、入力シーケンスのいずれかの位置に用いられる文脈を用いるシーケンスからの語句注解例(320)中の語句注解などの入力データの処理を扱うことができるエンコーダ及びデコーダを含むディープラーニングモデルであってもよい。いくつかの実施形態では、トランスフォーマー(330,335)のものはエンコーダのみを含むのに限られてもよい。いくつかの実施形態では、トランスフォーマー(330,335)を語句注解例(320)のみを用いて訓練してもよい。
【0046】
いくつかの実施形態では、トランスフォーマー(330,335)(広義に考えれば、意味等価性認識器モデル(300))を拡張訓練データを用いて訓練することができる。拡張訓練データの場合、語句注解のマッピング(214,216)にWSDデータセット(315)のような特定の語義目録の組み込み訓練データを組み合せることができる。したがって、拡張訓練データを用いれば、整列された目録と、WSDデータセット(315)のような特定の語義目録の組み込み訓練データとの両方を同時に用いて意味等価性認識器モデル(300)を訓練することができる。
【0047】
いくつかの実施形態では、意味等価性認識器モデル(300)が、文脈文の単語と語句注解とが意味論的に等価であるか否かを決定することができる一般モデルになることができるように、トランスフォーマー(330,335)をまず語句注解のマッピング(214,216)を用いて訓練する。しかし、このようなモデルは一般用であり、分野に特有の単語については適切に意味を予測しない場合がある。したがって、トランスフォーマー(330,335)、(広義に考えれば、意味等価性認識器モデル(300))をさらに訓練したり、最初の訓練済みモデルの出力をWSDデータセット(315)のような特定の語義目録に関連付けられた追加の層に接続することによってモデルにおいてファインチューニングしたりすることができる。これにより、WSDデータセット(315)のような特定の語義目録の分野の専門手段である意味等価性認識器モデル(300)が生成される。いくつかの実施形態では、訓練済みモデルにおいてファインチューニングするのに用いられる特定の語義目録は整列された目録に用いられる語義目録とは異なる分野のものであってもよい。
【0048】
訓練されると、入力語句注解例(320)及び文脈文(325)の意味表現などの入力の密な表現を含むことができるトランスフォーマー出力(340,345)をトランスフォーマー(330,335)によって決定することができる。意味等価性認識器モデル(300)が文脈文(325)に適用されると、文脈文の単語に意味論的に等価である意味を持つ1つ以上の語句注解についての1つ以上の出力確率(360)が意味等価性認識器モデル(300)によって生成される。文脈文の単語に対して、予測された語義として、確率が最大である語句注解を意味等価性認識器モデル(300)によって選択することができる。
【0049】
図4は本開示の実施形態による、語義予測モデルに用いられる方法400の典型的なフローチャートである。
【0050】
410では、1つ以上の語義目録を用いて整列された目録を生成する。語句注解整列された目録(310)は、1つ以上の語義目録全体からの語句注解の最良マッピング整列又は最良マッチング整列を含むことができる。いくつかの実施形態では、語義目録は語義毎にその用法により複数の例文を提供する辞書であってもよく、特定の語義に対する文脈文を受け取る手段として用いることができる。語義目録の各々は限られた個数の文脈中の特定の単語の複数の例又は語句注解を有することができる。したがって、異なる語義目録からの単語の語義の語句注解が同じ意味の異なる表現である場合がある。同じ語義に対する複数の語義目録からの並立する語句注解の整列を行なうことで、特に稀なたまにしか用いられない語義について、モデルによって取得される語彙的知識を大幅に増やすことができる。
【0051】
420では、文脈文の単語を取得することができる。文脈文の単語は、モデルによって予測することができる意味又は語義を持つ単語であるといえる。いくつかの実施形態では、文脈文全体を取得することができる。
【0052】
430では、1つ以上の意味等価性スコアを決定することができ、1つ以上の意味等価性スコアは、意味等価性認識器モデルを用いて、文脈文の単語と、1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との間の意味類似度を示す。例として、文脈文の単語と、1つ以上の整列された目録の1つ以上の関連付けられた語句注解の各々との意味類似度を示す出力確率スコアを意味等価性認識器モデル(300)によって生成してもよい。
【0053】
440では、決定された1つ以上の意味等価性スコアに文脈文の単語の正しい意味の予測が基づくことができる。いくつかの実施形態では、決定された1つ以上の意味等価性スコアに基づく文脈文の単語の正しい意味の予測は最大の意味等価性スコアに関連付けられた結果語句注解を選択することを含むことができる。例として、意味等価性認識器モデル(300)によって生成される出力確率からの最大の確率を持つ語句注解を、文脈文の単語の予測された正しい意味として選択してもよい。
【0054】
図5は本開示の実施形態による、語義予測モデルに用いられる方法500の典型的なフローチャートであり、プロセス500は1つ以上の整列された目録を生成するプロセスの例を示す。
【0055】
510では、第1の語義目録から語句注解を収集することができる。例として、510では、辞書のような語義目録(204~209)から語句注解を収集してもよい。
【0056】
520では、第2の語義目録から語句注解を収集することができる。例として、520では、辞書のような語義目録(204~209)から語句注解を収集してもよい。いくつかの実施形態では、第1の語義目録と第2の語義目録とが異なってもよい。
【0057】
530では、第1の語義目録と第2の語義目録との間の最良マッチングを決定することができる。例として、語義目録の1つからの共通の単語の語句注解の、語義目録のうちの別の語義目録の語句注解へのマッピング(214,216)を示すように最良マッチング関数(220)を生成してもよい。いくつかの実施形態では、マッチング関数のマッピングを、文逐語的類似度を最大にする関数として生成することができる。
【0058】
540では、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアを第1の語義目録と第2の語義目録との共通の単語毎に決定することができる。いくつかの実施形態では、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアの決定は予め訓練された二次モデルに基づいて1つ以上の文埋め込みを決定することを含むことができる。いくつかの実施形態では、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアの決定は1つ以上の文埋め込みに基づいて第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間のコサイン類似度を決定することを含むことができる。
【0059】
550では、マッチング関数を決定することができる。マッピング関数は、第1の語義目録からの各語句注解を、第2の語義目録からの1つ以上の関連付けられた語句注解の各々にマッピングすることができ、第1の語義目録からの各語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアの合計を最大にするようにマッチング関数を構成することができる。例として、第1の語義目録(204)からの各語句注解と、第2の語義目録(205)からの1つ以上の関連付けられた語句注解の各々との間の合計文逐語的類似度スコアを最大にするように最良マッチング関数(220)を構成してもよい。他の例として、合計の文逐語的類似度スコアを最大にするようなマッピングを生成するように最良マッチング関数(220)を構成してもよい。
【0060】
560では、肯定的語句注解ペアを生成することができる。いくつかの実施形態では、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアが閾値を超えるとの決定に基づいて、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々とをペアにすることによって肯定的語句注解ペアを生成することができる。
【0061】
570では、否定的語句注解ペアを生成することができる。いくつかの実施形態では、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々との間の文逐語的類似度スコアが閾値未満であるとの決定に基づいて、第1の語義目録からの語句注解と、第2の語義目録からの1つ以上の関連付けられた語句注解の各々とをペアにすることによって否定的語句注解ペアが生成される。
【0062】
図6は本開示の実施形態による、語義予測モデルに用いられる方法600の典型的なフローチャートである。プロセス600は意味類似度を示す意味等価性スコアを決定する典型的なプロセスを示す。
【0063】
610では、文脈文を意味等価性認識器モデルに入力することができる。620では、整列された目録からの語句注解のペアを意味等価性認識器モデルに入力することができる。例として、語句注解整列された目録(310)からの語句注解のすべての肯定的ペア及び否定的ペアと、語義が予測されることになる単語を含む文脈文とを意味等価性認識器モデル(300)に入力してもよい。
【0064】
630では、文脈文の単語に関連付けられた1つ以上の整列された目録から1つ以上の語句注解を特定することができる。いくつかの実施形態では、予測されることになる意味又は語義を持つ単語(文脈文)に関連付けられた語句注解が特定される。
【0065】
640では、特定された1つ以上の語句注解の各々について確率スコアを650で生成するために、特定された1つ以上の語句注解に訓練済み語句注解分類器を適用することができる。
【0066】
いくつかの実施形態では、645で、語句注解分類器を拡張訓練データを用いて訓練することができ、拡張訓練データは、1つ以上の整列された目録と、特定の語義目録に関連付けられた組み込み訓練データとの組み合わせであってもよい。例として、拡張訓練データを用いて意味等価性認識器モデル(300)を訓練してもよい。拡張訓練データの場合、語句注解のマッピング(214,216)にWSDデータセット(315)のような特定の語義目録の組み込み訓練データを組み合せることができる。したがって、拡張訓練データを用いれば、整列された目録と、WSDデータセット(315)のような特定の語義目録の組み込み訓練データとの両方を同時に用いて意味等価性認識器モデル(300)を訓練することができる。
【0067】
図7は本開示の実施形態による、語義予測モデルに用いられる方法700の典型的なフローチャートである。プロセス700は意味類似度を示す意味等価性スコアを決定する典型的なプロセスを示す。
【0068】
710では、文脈文を意味等価性認識器モデルに入力することができる。720では、整列された目録からの語句注解のペアを意味等価性認識器モデルに入力することができる。例として、語句注解整列された目録(310)からの語句注解のすべての肯定的ペア及び否定的ペアと、語義が予測されることになる単語を含む文脈文とを意味等価性認識器モデル(300)に入力してもよい。
【0069】
730では、文脈文の単語に関連付けられた1つ以上の整列された目録から1つ以上の語句注解を特定することができる。いくつかの実施形態では、予測されることになる意味又は語義を持つ単語(文脈文)に関連付けられた語句注解が特定される。
【0070】
740では、特定された1つ以上の語句注解の各々について確率スコアを750で生成するために、特定された1つ以上の語句注解に訓練済み語句注解分類器を適用することができる。
【0071】
いくつかの実施形態では、744で、訓練済み語句注解分類器を、1つ以上の整列された目録を用いて訓練することができる。いくつかの実施形態では、746で、訓練済み語句注解分類器において、新たな分野の特定の語義目録に関連付けられた組み込み訓練データを用いてファインチューニングすることができる。例として、意味等価性認識器モデル(300)が、文脈文の単語と語句注解とが意味論的に等価であるか否かを決定することができる一般モデルになることができるように、意味等価性認識器モデル(300)をまず語句注解のマッピング(214,216)を用いて訓練することができる。いくつかの実施形態では、意味等価性認識器モデル(300)をさらに訓練したり、最初の訓練済みモデルの出力をWSDデータセット(315)のような特定の語義目録に関連付けられた追加の層に接続することによって意味等価性認識器モデル(300)にさらにファインチューニングしたりすることができる。これにより、WSDデータセット(315)のような特定の語義目録の分野の専門手段である意味等価性認識器モデル(300)を生成することができる。いくつかの実施形態では、訓練済みモデルにおいてファインチューニングするのに用いられる特定の語義目録は整列された目録に用いられる語義目録とは異なる分野のものであってもよい。
【0072】
図4~
図7はプロセス400,500,600及び700のブロックの例を示しているが、実施形態では、プロセス400,500,600及び700は追加ブロック、より少数のブロック、異なるブロックや、
図4~
図7に示されているものとは異なるように配置されたブロックを含むことができる。実施形態では、必要に応じて、プロセス400,500,600及び700の任意のブロックをいかなる総数や順序で組み合せたり配置したりしてもよい。実施形態では、プロセス400,500,600及び700のブロックの2つ以上を並列に実行してもよい。
【0073】
上記の技術については、コンピュータ可読命令を用い、1つ以上のコンピュータ可読媒体に物理的に記憶されるコンピュータソフトウェアとして実現したり、特別に構成された1つ以上のハードウェアプロセッサによって実現したりすることができる。たとえば、
図10は様々な実施形態を実現するのに適するコンピュータシステム1000を示す。
【0074】
コンピュータソフトウェアについては、アセンブリ、コンパイル、リンクや同様のメカニズムにしたがって、コンピュータの中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)などによって、直接実行されたり、解釈、マイクロコード実行などを通じて実行されたりすることが可能である命令を含むコードを作成することができる任意の適切なマシンコードやコンピュータ言語を用いてコーディングすることができる。
【0075】
命令はたとえば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネット・デバイスなどを含む様々なタイプのコンピュータ又はその構成要素で実行することができる。
【0076】
本開示ではいくつかの典型的な実施形態を説明してきたが、変形例、置換例及び様々な代替均等例が存在し、これらは本開示の範囲に含まれる。したがって、当業者であれば、本出願で明示的に示されていたり説明されていたりしなくても、本開示の原理を実施し、したがってその精神及び範囲内にある多数のシステム及び方法を想起することができることが分かる。
【符号の説明】
【0077】
100 語義予測モデル
200 簡略概略図
204 語義目録
205 語義目録
206 語義目録
207 語義目録
208 語義目録
209 語義目録
210 語句注解
211 語句注解
212 語句注解
214 マッピング
216 マッピング
220 マッチング関数
300 意味等価性認識器モデル
310 語句注解整列された目録
315 語義曖昧性解消(WSD)データセット
320 語句注解例
325 文脈文
330 トランスフォーマー
335 トランスフォーマー
340 トランスフォーマー出力
345 トランスフォーマー出力
360 出力確率
1000 コンピュータシステム
S1 単語セット
S2 単語セット