IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハーの特許一覧

特表2024-526485セマンティックテキスト類似度検索のための方法およびシステム
<>
  • 特表-セマンティックテキスト類似度検索のための方法およびシステム 図1
  • 特表-セマンティックテキスト類似度検索のための方法およびシステム 図2
  • 特表-セマンティックテキスト類似度検索のための方法およびシステム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】セマンティックテキスト類似度検索のための方法およびシステム
(51)【国際特許分類】
   G06F 16/34 20190101AFI20240711BHJP
【FI】
G06F16/34
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023537384
(86)(22)【出願日】2021-10-05
(85)【翻訳文提出日】2023-06-19
(86)【国際出願番号】 EP2021077454
(87)【国際公開番号】W WO2023284991
(87)【国際公開日】2023-01-19
(31)【優先権主張番号】21185576.2
(32)【優先日】2021-07-14
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】517451940
【氏名又は名称】エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ナ・ゴン
(72)【発明者】
【氏名】カロリン・ローレンス
(72)【発明者】
【氏名】ティモ・シュティラー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
本発明は、ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行するコンピュータ実施方法に関する。この方法は、ターゲットドキュメントからターゲットのテキストデータを選択するステップと、エンティティ抽出器(106)によって、ターゲットのテキストデータの各テキストシーケンスに関する名称エンティティを識別して分類するステップと、各選択されたターゲットのテキストデータについて識別された名称エンティティのテキスト埋め込みを生成するために、埋め込みステージ(110)によってセマンティックテキスト類似度モデル(114)を生成し、セマンティックテキスト類似度モデル(114)を使用するステップと、ターゲットドキュメント埋め込みを生成するために、テキスト埋め込みをターゲットのテキストデータの構造的特徴とアグリゲートするステップと、類似度推定器(122)によって、ソースドキュメント埋め込みのすべてに対して、ターゲットドキュメント埋め込みの類似度を測定することにより、類似のドキュメントを検索するステップと、説明可能性ジェネレータ(128)によって、ターゲットドキュメントとソースドキュメントのうちいずれかとの間の類似度に関する説明情報を計算するステップとを含む。
【特許請求の範囲】
【請求項1】
ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行するコンピュータ実施方法であって、
前記ターゲットドキュメントからターゲットのテキストデータを選択するステップと、
エンティティ抽出器(106)によって、前記ターゲットのテキストデータの各テキストシーケンスに関する名称エンティティを識別して分類するステップと、
各選択されたターゲットのテキストデータについて前記識別された名称エンティティのテキスト埋め込みを生成するために、埋め込みステージ(110)によってセマンティックテキスト類似度モデル(114)を生成し、前記セマンティックテキスト類似度モデル(114)を使用するステップと、
ターゲットドキュメント埋め込みを生成するために、前記テキスト埋め込みを前記ターゲットのテキストデータの構造的特徴とアグリゲートするステップと、
類似度推定器(122)によって、ソースドキュメント埋め込みのすべてに対して、前記ターゲットドキュメント埋め込みの類似度を測定することにより、類似のドキュメントを検索するステップと、
説明可能性ジェネレータ(128)によって、前記ターゲットドキュメントと前記ソースドキュメントのうちいずれかとの間の類似度に関する説明情報を計算するステップと
を含む、方法。
【請求項2】
前記ソースドキュメントのセットから、前記ターゲットドキュメントに類似であると判定されたドキュメントを前記説明情報とともに出力するステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記類似度推定器(122)によって、センテンスレベルの埋め込みと前記識別された名称エンティティの前記埋め込みとの両方を包含しているテキスト符号化を基に、前記ターゲットドキュメントと前記ソースドキュメントのうちいずれかとの間の類似度を評価するステップをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記エンティティ抽出器(106)が、前記ソースドキュメントのセットからの、ラベルを付けられかつ命名されたエンティティを基にトレーニングされた言語モデルを使用する、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記エンティティ抽出器(106)が、ラベルが付いたデータに対して事前トレーニングされた言語モデルを使用する、請求項4に記載の方法。
【請求項6】
前記ソースドキュメントのセットからドキュメントを出力する前記ステップが、事前に定義された数kの最も類似のドキュメント、または事前に定義された閾値を超える類似度を有するすべてのドキュメントを出力するステップを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
初期のプレゼンテーションモジュール(112)によって、ドキュメントから選択されたテキスト特徴および前記ドキュメントの前記識別された名称エンティティを所与として、前記テキストシーケンス内の用語およびそれらの位置ならびに前記識別された名称エンティティのエンティティクラスを考慮に入れることにより、前記ドキュメントの前記テキストシーケンスを初期の数値埋め込みへと初期化するステップをさらに含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記セマンティックテキスト類似度モデル(114)によって、前記初期のプレゼンテーションモジュール(112)からの前記初期の数値埋め込みを所与として、ドキュメントの前記テキストシーケンスのテキストトークンを、前記テキストシーケンスのセマンティック意味を表す数値埋め込みに変換するステップであって、前記テキストトークンが前記テキストシーケンスの個々の単語またはサブワード部分のいずれかである、ステップをさらに含む、請求項7に記載の方法。
【請求項9】
前記セマンティックテキスト類似度モデル(114)が、テキストシーケンス対の前記類似度を予測するように学習タスクを用いてトレーニングされた、ニューラルネットワークベースの言語モデルである、請求項8に記載の方法。
【請求項10】
各ドキュメントについて前記テキスト埋め込みを生成するために、エンティティプール方策(116)によって、前記セマンティックテキスト類似度モデル(114)の出力を前記識別された名称エンティティとともに符号化するステップをさらに含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記エンティティプール方策(116)が、前記セマンティックテキスト類似度モデル(114)のトークン埋め込み(208)をセンテンス埋め込み(210)へと符号化するセンテンスアグリゲータ(206)を備え、前記トークン埋め込み(208)が多次元行列であり、各行が、それぞれのテキストシーケンスにおける1つのトークンの単語埋め込みを表す、請求項10に記載の方法。
【請求項12】
前記エンティティプール方策(116)がエンティティアグリゲータ(214)を備え、前記エンティティアグリゲータが、前記トークン埋め込み(208)および前記識別された名称エンティティの前記エンティティクラスを所与として、各名称エンティティについて、それぞれの名称エンティティに属するすべてのトークン埋め込み(208)をアグリゲートすることにより、エンティティタイプの数に等しい行長さを有する2次元行列としてエンティティ埋め込み(216)を生成する、請求項10または11に記載の方法。
【請求項13】
前記センテンス埋め込み(210)および前記エンティティ埋め込み(216)が、埋め込み長さを圧縮するために、場合により、プール層(218、220)を通して調べた後に、テキストアグリゲータ(226)によって1次元のテキスト埋め込みに統合される、請求項12に記載の方法。
【請求項14】
説明可能性ジェネレータ(128)によって、前記ターゲットドキュメント埋め込みおよび類似のドキュメント埋め込みの各々を区分に分割するステップと、
各対の区分の間の類似度を推定し、各区分について類似度スコアを計算するステップと、
前記類似度スコアを基に、前記ターゲットドキュメントと前記ソースドキュメントのうちいずれかとの間の類似度に関する説明情報を計算するステップと
をさらに含む、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記ドキュメントが、履歴書および職務要件のドキュメントを含み、前記名称エンティティが肩書および重要なスキルを含む情報項目に関し、または
前記ドキュメントが、生物医学研究論文を含み、前記名称エンティティが疾病および治療薬剤を含む情報項目に関し、または
前記ドキュメントが、事件検知報告を含み、前記名称エンティティが、事故に包含される車両の数/タイプ、場所および怪我人を含む情報項目に関し、または
前記ドキュメントが、都市サービスセンタにおける市民のフィードバックを含み、前記名称エンティティが問題のタイプ、場所および日付を含む情報項目に関する、請求項1から14のいずれか一項に記載の方法。
【請求項16】
1つまたは複数のプロセッサを備えるシステムであって、前記プロセッサが、単独で、または組合せにおいて、ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行する方法を実行するように構成されており、前記方法が、
前記ターゲットドキュメントからターゲットのテキストデータを選択することと、
前記ターゲットのテキストデータの各テキストシーケンスについて名称エンティティを識別して分類することと、
各選択されたターゲットのテキストデータについて前記識別された名称エンティティの前記テキスト埋め込みを生成するために、セマンティックテキスト類似度モデル(114)を生成して、前記セマンティックテキスト類似度モデル(114)を使用することと、
前記ターゲットドキュメント埋め込みを生成するために、前記テキスト埋め込みを前記ターゲットのテキストデータの構造的特徴とアグリゲートすることと、
前記ソースドキュメント埋め込みのすべてに対して、前記ターゲットドキュメント埋め込みの前記類似度を測定することにより、類似のドキュメントを検索することと、
前記ターゲットドキュメントと前記ソースドキュメントのうちいずれかとの間の類似度に関する説明情報を計算することと
を含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行するシステムおよびコンピュータ実施方法に関する。
【背景技術】
【0002】
セマンティックテキスト類似度は、2つのテキスト部分(たとえばドキュメント、パラグラフおよび用語)の類似の程度を測定する。既存の方法は、テキストのトークンまたはセンテンス符号化を基にテキスト類似度を判定する。しかしながら、人は、2つのテキストが類似であるかどうかを判断する場合、センテンスにおけるテキストの全体的なセマンティック意味以外に、通常は、位置や構成など、ある特定の重要な用語が一致するかどうかに、より的を絞る。他方では、AIシステムが類似のドキュメントを検出したとき、大抵の場合、使用者は、結論を生成したやり方やその理由を理解できない。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】N. ReimersおよびI. Gurevych、"Sentence-BERT: Sentence Embedding using Siamese BERT-Networks"、EMNLP、2019年
【非特許文献2】Changyu Miao、Zhen Cao、Yik-Cheung Tam、"Keyword-Attentive Deep Semantic Matching"、arXiv preprint arXiv:2003.11516、2020年
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、本発明の目的は、冒頭で説明されたタイプの方法およびシステムを、類似のドキュメントが高度に効率的かつ客観的なやり方で識別され、同時に、その結果が使用者に理解され得るように、改善してさらに発展させることである。
【課題を解決するための手段】
【0005】
本発明によれば、前述の目的は、ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行するコンピュータ実施方法によって達成され、この方法は、ターゲットドキュメントからターゲットのテキストデータを選択するステップと、エンティティ抽出器によって、ターゲットのテキストデータの各テキストシーケンスに関する名称エンティティを識別して分類するステップと、各ドキュメントについて識別された名称エンティティのテキスト埋め込みを生成するために、埋め込みステージによってセマンティックテキスト類似度モデルを生成し、セマンティックテキスト類似度モデルを使用するステップと、ターゲットドキュメント埋め込みを生成するために、テキスト埋め込みを、ターゲットのテキストデータの構造的特徴とアグリゲートするステップと、類似度推定器によって、ソースドキュメント埋め込みのすべてに対して、ターゲットドキュメント埋め込みの類似度を測定することにより、類似のドキュメントを検索するステップと、説明可能性ジェネレータによって、ターゲットドキュメントとソースドキュメントのうちいずれかとの間の類似度に関する説明情報を計算するステップとを含む。
【0006】
ドキュメントは、テキスト特徴および構造化された特徴を含有してよい。本発明に関する「ドキュメント」という用語は、ドキュメント、音声ファイル、入力データ、レポート、電子メール、出版物、無料のテキストフィードバックまたは同種のものを含み、これらに限定されない形式の情報と定義される。同様に、本明細書で使用される「テキストデータ」という用語は、ドキュメントから選択されたある特定の部分を表し、たとえば個々のセクション、1つまたは複数のセンテンス、または一連の単語を含むが、これらに限定されるわけではない。
【0007】
本発明によれば、2つのテキストが類似かどうかを判断するためには、テキスト内容の全体的なセマンティック意味以外に、大抵の場合、キーワードのマッチングも重要であることが最初に認識されている。本発明の実施形態は、類似度測定にとって重要な、興味深いエンティティも利用することによって、一般に使用されている現在のトークンベースまたはセンテンスベースのセマンティック類似検索を強化し、各類似度マッチについて対応する説明を提供する。より具体的には、本発明の実施形態は、エンティティ符号化モジュールを用いて、重要なエンティティを識別してセマンティックテキスト符号化を拡張することにより、前述の問題に対処するものである。なおまた、実施形態によれば、システムは、任意の2つのテキストが、特定のエンティティの類似度に関して、類似の程度を説明する証拠を提供するように構成される。
【0008】
本発明の実施形態による重要な態様には、異なるエンティティタイプに優先順位を付けることにより、ある特定の条件または規格を基に類似度を定義する能力がある。たとえば、定義されたエンティティタイプおよびエンティティ優先度は、たとえばユーザによって指定されたエンティティタイプの優先度リストの形態で与えられてよい。異なるエンティティタイプに優先順位を付けるエンティティプール機構を使用することにより、ドキュメントの間の使用事例に特有の類似度および/またはエンティティ依存の類似度が判定されてよい。
【0009】
本発明の一実施形態によれば、システムは、ソースドキュメントのセットから、ターゲットドキュメントに類似であると判定されたそれらのドキュメントを、説明情報とともに出力するように構成されてよい。本発明の一実施形態によれば、類似検索は、テキスト特徴情報と名称エンティティ情報との両方を利用するので、情報のうち1つのみに依拠するシステムと比較して、よりよく実行する。これは、単に、両方の部分が、ドキュメント間の類似度を計算するために重大な情報を符号化するからである。両方の部分に依拠し、またエンティティラベルを元のテキストトークンとアグリゲートすることによって、コンテキストがもたらされ、すなわち単語埋め込みがセマンティック意味を符号化する。こうすることによって、別々のエンティティタイプを有する2つの等しい単語が同一の埋め込みを有するものの、実際には別々の意味を有する(たとえば、ジャガーは自動車の意味および動物の意味を有する)シナリオが対処されるので、性能が向上する。
【0010】
一実施形態によれば、本発明は、テキスト特徴情報と追加の名称エンティティ情報との両方を利用することによってテキストデータの単語埋め込みを計算する方法/システムを提供するものである。具体的には、名称エンティティは以下のように使用されてよい。
a.システムは、エンティティラベルを元のテキストトークンおよびトークン位置とアグリゲートして、セマンティックテキスト類似度モデルのための単語埋め込みを初期化してよい。よって、セマンティック学習プロセスは、重要なエンティティを終始考慮に入れる。
b.エンティティプール方策は、セマンティックテキスト類似度モデルによって生成されたトークン埋め込みを基に、トークン埋め込みから重要なエンティティの埋め込みを抽出して、抽出されたエンティティの埋め込みをセンテンス埋め込みとアグリゲートすること(すなわちトークン埋め込みの合計)により、テキストデータの最終的な単語埋め込みを生成してよい。
【0011】
一実施形態によれば、本発明は、ドキュメント対のドキュメントが、互いにどの程度類似しているかを説明する証拠をもたらす方法/システムを提供する。エンティティプール方策から利益を受けて、各重要なエンティティが、対応するエンティティ埋め込みを有する。システムは、エンティティ埋め込みを基に、両方のドキュメントにおいて特定のエンティティの類似度を測定することにより、エンティティレベルの説明を提供することができる。たとえば、興味深い各エンティティタイプについて、テキスト類似度に関するエンティティベースの説明が、2つのドキュメントの類似の程度といったリストの形態で提供されてよい。
【0012】
本発明の教示を有利なやり方で設計してさらに発展させるための、いくつかのやり方がある。この目的のために、一方では従属請求項が参照され、他方では、例として図によって示される本発明の好ましい実施形態の以下の説明が参照される。図の助けを借りた本発明の好ましい実施形態の説明に関連して、本教示の好ましい実施形態およびさらなる発展が全体的に説明される。
【図面の簡単な説明】
【0013】
図1】本発明の一実施形態による、エンティティベースのプールセマンティックテキスト類似度検索システムを示す概略図である。
図2】本発明の一実施形態によるエンティティプール方策を示す概略図である。
図3】本発明の一実施形態による、エンティティベースのプールセマンティックテキスト類似度検索システムにおいて使用される説明可能性ジェネレータを示す概略図である。
【発明を実施するための形態】
【0014】
セマンティックテキスト類似度(STS)は、2つのテキスト部分(たとえばドキュメント、パラグラフおよび用語)の類似の程度を測定する。多くの事例において、2つのテキストが類似か否かを判断するために、テキスト内容の全体的なセマンティック意味以外に、ある特定のキーワードのマッチングも重要なことがある。本発明の実施形態は、類似度測定にとって重要な、興味深いエンティティを利用することによって、現行の従来技術の手法に従って一般に使用されているトークンベースまたはセンテンスベースのセマンティック類似検索を強化し、各類似度マッチについて対応する説明を提供する。
【0015】
図1は、本発明の一実施形態による、エンティティベースのプールセマンティックテキスト類似度検索システム100を概略的に示す。より具体的には、図1は、エンティティベースのプールセマンティックテキスト類似度検索システム100が、所与のドキュメントのセットから類似のドキュメントを検知するやり方の包括的プロシージャを示す。図示の実施形態による詳細なプロセスは以下の通りである。
【0016】
S1に示されるように、プロセスは、最初に、システム100に、(分析されるターゲットドキュメントとして)入力ドキュメントdを与えるエージェント102によって起動される。エージェント102は、たとえばデータを収集/転送するシステムまたは使用者であり得る。入力ドキュメントdは、1)構造化データと非構造化(テキスト)データとの両方、または2)非構造化(テキスト)データのみ、を含有することができる。
【0017】
入力ドキュメントdが構造化データと非構造化データとの両方を含有する場合には、プロセスはテキスト特徴選択モジュール104に進む。より具体的には、入力ドキュメントdは、ドキュメントdがエージェント102から受け取られた後、テキスト特徴と非テキスト特徴とを弁別するために、特徴選択プロシージャを実行するように構成されたテキスト特徴選択モジュール104に転送される。S2およびS3にそれぞれ示されるように、モジュール104は、次の自然言語処理ステージにテキスト特徴のみを転送するように構成されてよく、自然言語処理ステージは、以下で詳細に説明されるように、エンティティ抽出器106および初期のプレゼンテーションモジュール112を含む。本発明の一実施形態によれば、非テキスト(構造)特徴は、たとえばユーザ選択に依拠して、S4に示されるように特徴アグリゲータ120に転送されるようになっていてもよい。
【0018】
本発明の一実施形態によれば、システムは、テキスト特徴を所与として、各テキストシーケンスに関する任意の重要なエンティティを識別してテキストから抽出するように構成されたエンティティ抽出器106を備える。重要なエンティティ(本明細書では、名称エンティティまたは単にエンティティもしくはエンティティタイプと表されることもある)は、エージェント102にとって各テキスト入力について興味深いそれらのエンティティを指す。たとえば、エンティティ抽出器106は、ニューラルネットワークベースの言語モデルの形態で実施され得る。本発明の実施形態によれば、このモデルは、S5に示されるように、ドメイン外データセット108aに対して事前トレーニングされ、ドメイン特定データセット108bに対して微調整されるようになっていてもよい。このエンティティ識別は、教師あり学習作業として実現されてよく、したがって、エージェント102にとって興味深いと考えられるエンティティは、ドメイン特定データセット108bにおいてラベルを付けられる。エンティティ抽出器106は、教師ありデータセット108bから学習した後に、生成された確率的予測を基に、各テキストシーケンスについてエンティティを分類してよい。識別されて分類されたエンティティは、S7に示されるように、埋め込みステージ110に転送されてよい。
【0019】
次のステップにおいて、埋め込みステージ110は、エンティティ抽出器106によって先に識別されたエンティティを用いて単語埋め込みを計算してよい。図示の実施形態によれば、埋め込みステージ110は、初期のプレゼンテーションモジュール112、セマンティックテキスト類似度モデル114およびエンティティプール方策116を含む複数のサブプロセスを備えてよい。
【0020】
一実施形態によれば、初期のプレゼンテーションモジュール112は、入力として、テキスト特徴選択モジュール104からの未処理のテキスト特徴と、エンティティ抽出器106からの識別されたエンティティとを受け取るように構成されてよい。初期のプレゼンテーションモジュール112は、受け取られたテキストシーケンスを、用語と、それらの位置ならびに追加のエンティティクラスとの2つの自然要素を考慮に入れることによって、初期の数値埋め込みへと初期化する。追加のエンティティクラスは、事前に定義されてよく、またはユーザ選択に依拠して選択されてもよい。
【0021】
次いで、初期の数値埋め込みは、セマンティックテキスト類似度(STS)モデル114に転送される。本発明の一実施形態によれば、STSモデル114は、テキストトークンを、テキストのセマンティック意味を表す数値埋め込みに変換するように構成されてよい。トークンは、テキストシーケンスの個々の単語またはサブワード部分のいずれかである。STSモデル114は、エンティティ抽出器106と同様に、ニューラルネットワークベースの言語モデルの形態でも実施され得る。特に、このモデル114は、学習タスクを用いて、任意のテキストシーケンス対の類似度を予測するようにトレーニングされてよい。モデル114は、トレーニングの後に、テキストシーケンスのトークンレベルの単語埋め込みを生成するように使用されてよい。
【0022】
次いで、トークンレベル単語埋め込みは、エンティティ抽出器106から抽出されたエンティティを考慮に入れるように構成され得るエンティティプール方策116によってさらに処理されてよい。一般に、エンティティプール方策116は、各ドキュメントに関するテキスト埋め込みを生成するための入力の符号化を担ってよい。詳細な作動プロシージャは、図2に関連して以下で説明される。
【0023】
トレーニングに関して、上記で説明された埋め込みステージ110の3つのサブ部分は、エンドツーエンドのやり方で、関連するドメイン外データセット118aおよびドメイン特定データセット118bに対して一緒に事前トレーニングされて微調整され得る。あるいは、エンティティプール方策116は、いかなるトレーニングまたは微調整もなく、ドキュメントレベルテキスト埋め込みを直接符号化するようにも使用され得る。
【0024】
本発明の実施形態によれば、次に、テキスト特徴および非テキスト特徴がアグリゲートされてよい。この目的のために、埋め込みステージ110によって判定されたテキスト埋め込みが特徴アグリゲータ120に転送されてよい。その上、入力ドキュメントdが非テキスト(構造)特徴を含有している場合には、これらの特徴はまた、S4に示されるように、特徴アグリゲータ120に転送されるようになっていてもよい。特徴アグリゲータ120は、最終的なドキュメント埋め込みd*を生成するために、これら2つの入力を基に、連結または任意の他の適切な操作を使用することなどにより、テキスト埋め込みと構造特徴との両方を統合するように構成されてよい。結果として、最終的なドキュメント埋め込みd*は、構造化情報および非構造化情報を含有する。有効な構造化情報がない場合には、特徴アグリゲータ120は、最終的なドキュメント埋め込みを生成するため、または埋め込みステージ110から受け取った非構造化情報の埋め込みを単純に順送りするための、単なる変換になり得る。
【0025】
本発明の実施形態によれば、次に、類似度推定器122によってドキュメント類似度が推定されてよい。この目的のために、類似度推定器122は、ドキュメント埋め込みd*を所与として、可能性のあるドキュメントS*のセット124における類似のドキュメントを検索するように構成されてよい。一実施形態によれば、このタスクは、ドキュメント埋め込みd*とすべてのソースドキュメント埋め込みS*との間の類似度を測定し、それによって、類似のドキュメント<S*, d*>のセット126を生成することによって実行されてよい。ソースドキュメント埋め込みS*は、上記で説明されたドキュメントd*と同様に、ソースドキュメントSを基に符号化される(すなわち、テキスト特徴選択、エンティティ識別、単語埋め込みおよび特徴アグリゲーションのステップを含む)ことに注意することが重要である。本発明の一実施形態によれば、類似度推定器122は、特徴アグリゲータ120によって出力された埋め込みに対して動作し、それに基づいて類似のドキュメントを識別するように構成されてよい。たとえば、類似度推定器122は教師なしクラスタ化アルゴリズムであり得る。具体的には、類似度推定器122は、各ソースドキュメントに類似度スコアを割り当ててよい。設定に依拠して、類似度推定器122の出力は、たとえば、上位k番目までの(kは設定可能なパラメータである)最も類似のドキュメント、または上記ソースドキュメントのすべての、選択された類似度スコアまたは閾値であり得る。あるいは、ソースドキュメントは、それらのデータベースの内部で、それらの類似度スコアに応じて、単にランク付けされ得る。
【0026】
本発明の一実施形態によれば、結果は、説明可能性ジェネレータ128によって説明されてよい。この状況では、類似のドキュメント<S*, d*>の検出後に、説明可能性ジェネレータ128は、何故それらのドキュメントがシステムによってそれぞれの入力ドキュメントdに類似であると考えられたのか、説明130を提供する(すなわち、理由について説明する)ように構成されているようになっていてもよい。このプロシージャの詳細は、図3に関連して以下で説明される。
【0027】
システム100が類似のドキュメント<S*, d*>および対応する説明130を検出した後に、これらの情報がエージェント120に送信され、プロセスは終了する。
【0028】
図2は、本発明の一実施形態によるエンティティプール方策200を概略的に示す。たとえば、エンティティプール方策200は、図1に関連して説明された、エンティティベースのプールセマンティックテキスト類似度検索システム100のエンティティプール方策116として働いてよい。より具体的には、図2は、エンティティプール方策200が、たとえば図1のシステムのセマンティック類似度モデル114といったセマンティック類似度モデルの出力をエンティティ情報に関連して符号化し、各ドキュメントについて最終的なテキスト埋め込みを生成するやり方の詳細な作動プロセスを示すものである。一般に、エンティティプール方策200は、以下で詳細に説明されるように、1)センテンスレベルにおける一般的なセマンティック理解と、2)エンティティレベルにおける特定の重要な用語との、両方を利用することによってテキストのテキスト埋め込みを計算する。図2に示されるように、エンティティプール方策200は、エンティティプール方策200に対する入力として働く、たとえば図1のシステムのエンティティ抽出器106といったエンティティ抽出器202の出力および、たとえば図1のシステムのセマンティックテキスト類似度モデル114といったセマンティックテキスト類似度モデル204の出力によって起動されてよい。
【0029】
図2に使用されている記号は以下の通りである。
ti:トークン
wt:各トークンの重み
tli:各トークンのエンティティラベル
we:各エンティティの重み
s:センテンス埋め込み
ei:エンティティ埋め込み
s':プールされたセンテンス埋め込み
e'i:プールされたエンティティ埋め込み
d:ドキュメント埋め込み
【0030】
エンティティプール方策200の第1のステップとして、センテンス埋め込みが生成される。この目的のために、エンティティプール方策200は、セマンティックテキスト類似度モデル204のトークン埋め込み208をセンテンス埋め込み210へと符号化するように構成されたセンテンスアグリゲータ206を含んでよい。トークン埋め込み208は多次元行列であり、各行が、それぞれのシーケンスにおける1つのトークンの単語埋め込みを表す。センテンス埋め込み210は、1次元の行列/ベクトルを有する同一のシーケンスを表し、トークン埋め込み208内のすべての情報を圧縮する。
【0031】
本発明の一実施形態によれば、センテンスアグリゲータ206は、1つの1次元の行列/ベクトルに多次元の単語埋め込みをプールするニューラルネットワークでよい。あるいは、トークンアグリゲーション208は、トークン重みWtを設定して加重和を計算することによって重み付けされ得る。トークン重みWtは、(図1に関連して上記で説明されたように)埋め込みステージ110によって実行される埋め込みプロシージャとともに学習され得る。あるいは、トークン重みWtは、たとえばドメインエキスパートによって定義されてもよい。
【0032】
従来技術によれば、ニューラルネットワークとともに上記で説明された、センテンス埋め込み生成のインスタンス化は、セマンティックテキスト類似度検索のためのセンテンスベースの埋め込みのために一般に使用される方法である。これに加えて、本発明の実施形態は、追加のエンティティ情報を包含することにより、このセンテンス埋め込みをさらに拡張するものである。
【0033】
エンティティプール方策200の第2のステップとして、エンティティ埋め込みが抽出される。この目的のために、トークン埋め込み208は、エンティティ抽出器202によって識別されたエンティティクラス212とともに、場合により任意選択のトークン重みWtおよびエンティティ重みWeとともに、エンティティアグリゲータ214に転送される。エンティティクラス212はベクトルによって表され、各要素が1つのトークンに関するエンティティタイプを示す。任意選択のWeは、各エンティティタイプの重みを定義する。トークン重みWtと同様に、エンティティ重みWeも、(図1に関連して上記で説明されたように)埋め込みステージ110によって実行される埋め込みプロシージャとともに学習され得、またはドメインエキスパートによって定義され得る。
【0034】
本発明の一実施形態によれば、エンティティアグリゲータ214は、興味深いエンティティクラス212の埋め込みを抽出するように構成されてよく、興味深いエンティティクラス212は、216に示されるように、前もって、トークン埋め込み208から、各エンティティタイプについて、このエンティティタイプ212に属するすべてのトークン埋め込みを手作業でアグリゲートすることによって定義され得る。結果として、エンティティ埋め込み216は2次元の行列になり、その行長さはエンティティタイプの数に等しい。
【0035】
上記で説明されたように、センテンスアグリゲータ206からセンテンス埋め込み210を得て、エンティティアグリゲータ214からエンティティ埋め込み216を得た後に、センテンス埋め込みおよびエンティティ埋め込みの長さをさらに圧縮するために、2つの追加のプール層218、220がそれぞれ適用され得る。圧縮されたベッディングは、それぞれ222および224に示されている。この圧縮は、ユーザ選択に依拠する任意選択のステップである。
【0036】
次のステップで、テキスト埋め込みをアグリゲートするために、プールされたセンテンス埋め込み222とプールされたエンティティ埋め込み224との両方がテキストアグリゲータ226に対する入力として与えられてもよい。プール層218、220が使用されない場合には、プール層以前に生成されたセンテンス埋め込み210およびエンティティ埋め込み216が、テキストアグリゲータ226に対する入力として直接使用され得る。テキストアグリゲータ226は、2つの入力を1次元のテキスト埋め込み228に統合するように構成されてよい。当業者には理解されるように、アグリゲーション方法に関して、たとえば個々の埋め込みの連結などの多くの可能性がある。
【0037】
テキスト埋め込み228が一旦生成されると、エンティティプール方策200のプロセスは終了する。
【0038】
図3は、本発明の一実施形態による説明可能性ジェネレータ300を概略的に示す。たとえば、説明可能性ジェネレータ300は、図1に関連して説明された、エンティティベースのプールセマンティックテキスト類似度検索システム100の説明可能性ジェネレータ128として働いてよい。この状況では、一実施形態によれば、説明可能性ジェネレータ300は、ユーザによって設定され、類似のドキュメント<S*, d*>のセット126が一旦検出されると、起動されて実行される。
【0039】
説明可能性ジェネレータ300によって実行される重要なプロセスはドキュメント埋め込みのセグメント化である。一実施形態によれば、ターゲットのドキュメント埋め込みd*と、各対応する類似のドキュメント埋め込みd2*とに関して、以下のプロセスが実行されてよい。
【0040】
対<d1*, d2*>は、説明可能性ジェネレータ300に与えられ、d1*は(302に示されるように)d*に等しく、d2*は(304に示されるように)S*に属する。入力d1*に関して、第1のセグメンタ306は、ドキュメント埋め込み(すなわち、センテンス埋め込み210、各単一のエンティティ埋め込み216(すなわちそれぞれの行列の各行)および各構文特徴)を基に、(310に示されるように)埋め込みを区分seg1に分割する。同様に、入力d2*は、(312に示されるように)第2のセグメンタ308によって区分seg2に分割される。
【0041】
次のステップにおいて、セグメントレベルの類似度が推定されてよい。一実施形態によれば、(310に示される)seg1および(312に示される)seg2を所与として、各区分の間の類似度がペアワイズで推定される。たとえば、特定のエンティティタイプeiの類似度スコア(SimScore)は、d1およびd2におけるエンティティeの2つの埋め込みの間のコサイン類似度を計算することによって計算され得る。理想的には、類似度計算は、(図1に関連して説明されたように)類似度推定器122によって使用される計算と同一であるべきである。このステップの後に、各区分310、312がSimScore314を得る。
【0042】
次のステップにおいて、結果が解釈される。より具体的には、インタープリタ316は、SimScore314を基に、最終的な説明318(図1に表された説明130に対応する)を構築してよい。説明は、ドキュメント対が互いに類似である度合いと、この結論に最も寄与する区分/構成要素とに関する情報を含有してよい。一旦、説明318が生成されると、説明可能性ジェネレータ300の処理は終了してよい。
【0043】
要約すると、本発明は、一実施形態によれば、以下のステップ/構成要素を備える、ターゲットドキュメントとソースドキュメントのセットとの間のセマンティックテキスト類似度検索を実行する方法およびシステムを提供する。
【0044】
A.以下のことを含む、新規システムのセットアップ
1)名称エンティティと類似度ラベル/類似度との両方を有するドメイン特定データセットを用意する。
2)(類似のドキュメントをもたらす)ソースドキュメントを用意する。ソースドキュメントは、エンティティ抽出器およびセマンティックテキスト類似度モデルをトレーニングするためのデータセットとして働くこともある。
3)エンティティ抽出器のインスタンスを生成する(たとえば、ニューラルネットワークベースのエンティティ抽出器をトレーニングする)。エンティティ抽出器は、未知のドキュメントから重要なエンティティを識別するために所与のドキュメントから重要なエンティティのパターンを探索する。
4)セマンティックテキスト類似度モデルのインスタンスを生成する(たとえば、ニューラルネットワーク化されたSTSモデルをトレーニングする)。このモデルは、未知のドキュメントのテキスト埋め込みを生成するために所与のドキュメント対の間の類似度を予測する。
5)エンティティプール方策を実行する。すなわち、センテンスアグリゲーション方法、エンティティアグリゲーション方法およびテキストアグリゲーション方法をそれぞれ判断する。
6)ソースドキュメントから類似のドキュメントを検索して、類似のドキュメントを返すやり方(閾値ベースの、上位k番目までのランキング)を判断するための類似度推定器のインスタンスを生成する。
7)将来の類似度検索のために準備される、ソースドキュメントのドキュメント埋め込みを計算する。
8)説明可能性ジェネレータのインスタンスを生成する。
【0045】
B.分析するべき新規のドキュメント(ターゲットドキュメント)が与えられたとき
1)システムにドキュメントを入力する。
2)返された類似のドキュメントおよび任意選択の説明を収集して出力する。
【0046】
本発明は多くの色々な用途において使用され得るが、以下で、4つの別々の使用事例が、例としてより詳細に説明される。詳細には、本発明は、使用者にAI予測が提供される多くの用途において使用され得る。たとえば、本発明は、公衆サービス、公衆安全、またはバイオ医学の分野などの、セマンティックテキスト類似度(STS)検索が使用され得るあらゆる事例において使用され得る。通常のSTSシステムに対する2つの差別化要因は、エンティティおよび説明態様であり、すなわち、システムは、1)重要なエンティティを基に、テキストデータを符号化して、2)特定のエンティティの詳細な類似度を提供することにより、システムにより2つのテキストが類似であると考えられる理由を説明する。説明/明白さは、公衆安全のような多くの分野における現実的な用途向けに重要な要因である。
【0047】
これらの使用事例のうち第1のものによれば、本発明の実施形態は、交通事故に関して、再現された事件の検知に関連して適用されてよい。一般に、再現された事件の検知は、警察のシステムが、類似の事件タイプを検索して類似の事故の処置を参照することにより、交通事故に対して素早く対処するのを支援することを目指すものである。これによって時間およびリソースを節約し、ディスパッチングの効果を改善する。本発明の実施形態は、テキストの事件レポートおよび興味深いエンティティを所与として、類似の事件を自動的に検知することができるシステムを提供するものである。そのために、エンティティ抽出器は、最初に、テキストから、事故に包含される車両の数/タイプ、場所や怪我人などの重要なエンティティを抽出してよい。セマンティックテキスト類似度モデルは、レポートのトークンレベルの埋め込みを計算してよい。次いで、エンティティプール方策は、抽出されたエンティティを考慮に入れることにより、すべてのトークン埋め込みを1次元のレポート埋め込みにアグリゲートしてよい。構造化特徴が利用可能であるなら、レポート埋め込みは、単に構造化特徴を連結することによって強化され得る。類似度推定器は、(強化された)レポート埋め込みを基に、入力された事件の、記録されたすべての事件に対する類似度を評価することにより、類似の事件を返してよい。結果として、システムによって検出された類似の事故の反応を参照することにより、関連したディスパッチングシステムは、たとえばデジタル速度標識、電子的ロードブロッカおよび(たとえば事故現場の写真/ビデオをできるだけ早く撮るための)カメラといった、あらゆる遠隔操作の路上装置を素早く調節することができる。
【0048】
第2の例示的な使用事例によれば、本発明の実施形態は、たとえば新規採用のためのデジタル人的資源アシスタントに関連して適用されてよい。この状況では、就職斡旋所のケースワーカーは、求職者を適切な就職口にマッチングさせるために、毎日、大量の履歴書および職務要件を読む必要があることが注目され得る。この、大量の読取り作業の負荷がケースワーカーを疲弊させる。この状況は、全世界の新型コロナウィルス感染症の汎流行に由来する失業の増加のために、最近はさらに悪化している。
【0049】
本発明の実施形態によるシステムは、履歴書、職務要件および興味のあるエンティティタイプを所与として、職務マッチング処理を自動化することができる。システムは、最初に、以下のように、各テキスト職務要件を職務埋め込みに変換してよく、各履歴書を履歴書埋め込みに変換してよい。
1)エンティティ抽出器は、肩書および重要なスキルなどの重要なエンティティを分類するように構成されてよい。
2)セマンティックテキスト類似度モデルは、トークンレベルにおいてテキストの埋め込みを生成してよい。
3)次いで、エンティティプール方策は、抽出されたエンティティを基にトークン埋め込みをアグリゲートすることにより、最終的な埋め込みを生成してよい。
【0050】
類似度推定器は、職務埋め込みおよび履歴書埋め込みを基に、履歴書と職務要件との間の距離を測定してよい。説明可能性ジェネレータは、各職務と履歴書との対が、特定のエンティティに関して、どの程度類似かまたは異なるかについての詳細を説明することができる。結果として、マッチした履歴書が、情報処理能力のあるルーティングシステムに対する入力として使用され得、次いで、情報処理能力のあるルーティングシステムが、求職者に対して、現在の求職状態(まだ職探し中か、または既に内定を得たか)、好ましい職務の傾向などの基本情報を検査するとともに雇用者の予備知識を紹介するために、初期の電話面接を自動的に行う。なおまた、情報処理能力のあるルーティングシステムは、それぞれの志願者に、何らかの関連教材またはパンフレットを自動的に郵送するように構成されてよい。
【0051】
第3の例示的な使用事例によれば、本発明の実施形態は、たとえば補強証拠を伴うドキュメントを自動的に検出することにより、薬剤生産に関して適用されてよい。この状況では、新規の生物医学研究論文が毎日発表されることが注目され得る。新規刊行物の数は、人が読むことができる刊行物の数をたやすく上回ってしまう。このことは、全世界の新型コロナウィルス感染症の汎流行中の刊行物にも当てはまり、同時に、生物医学研究者にとって、科学的発見が発表されたとき、科学的発見をできるだけ迅速に進歩させるために、新規の知見を迅速に分類して理解できることが、さらに重大である。
【0052】
たとえば、本発明の実施形態による方法は、新型コロナウィルス感染症に対する治療薬剤としてレムデシビルを提案するドキュメントを所与として、対応する説明を伴ってこのエンティティに言及する他のドキュメントも迅速に識別することができる。そのために、エンティティ抽出器は、最初に、使ってみたい、治療薬剤などのすべてのエンティティタイプを識別するように構成されてよい。セマンティックテキスト類似度モデルは、各ドキュメントについてトークンレベルの埋め込みを計算してよい。次いで、エンティティプール方策は、識別されたエンティティタイプを基に、トークン埋め込みからエンティティ埋め込みを抽出してよい。次いで、類似度推定器は、各ドキュメントのエンティティ埋め込みを所与として、すべてのドキュメントを走査し、興味深い別々のエンティティに関して、各ドキュメント対の類似の程度を計算する場合がある。次いで、検出された類似のドキュメントを基に、どの治療法がうまくいくか分かる。結果として、この結論は、情報処理能力のある薬生産システムによって、より有効であると識別された薬を増産して生産計画を自動的に調節するために使用され得る。
【0053】
第4の例示的な使用事例によれば、本発明の実施形態はデジタル都市保守システムに関連して適用されてよい。一般に、デジタル都市保守システムは、市民のフィードバックを基に、都市インフラストラクチャおよび都市サービスの持続性を支援することを目指すものである。たとえば、市民は、都市サービスセンタにフリーテキストフィードバックを郵送して、都市中心地における新インフラストラクチャの損害または街路の汚物を報告することができる。この状況では、本発明の実施形態によるシステムは、再現されたフィードバックを検知することにより、情報処理能力のある都市システムが適切な反応を採用するのを支援してよい。本発明の実施形態によるシステムは、最初にエンティティ抽出器を使用して、市民のフィードバックを所与として、問題のタイプ、場所および日付など、テキストの中のインポートエンティティを識別してよい。次いで、類似度セマンティックモデルおよびエンティティプール方策は、元のテキストおよびエンティティを基に、フィードバック埋め込みを計算してよい。システムは、何らかの新規の入来フィードバックの埋め込みを、既に提出されていたフィードバックのすべてと比較することにより、再現されたレポートを検出することができる。結果として、出力は、情報処理能力のある都市システムが特定の問題に対して自動的に対処するための入力として使用され得る。たとえば、市民が、再現された損害レポート(すなわち以前に報告された損害に関連したレポート)を入力した場合には、システムは、基本的に「報告された損害は既に修理中です」というメッセージを市民に示すように構成されてよい。そうでなければ、情報処理能力のある都市システムは、損害を修復するための保守作業を自動的に手配してよく、または汚物を掃除するために掃除ロボットを送ってもよい。加えて、問題レポートが、ある特定の時間および/または場所で再現される場合には、システムは、そのような問題を自動的に予期して、(たとえば、これまでに、その時間にその場所で度重なる破壊行為の報告があったので、金曜夜に抑止力として)たとえば特定の場所に点検ドローンを送ることによって予防対策を講じることができる。
【0054】
本発明の実施形態による手法は、現況技術と比較して、以下の利点のうち少なくともいくつかを有する。
【0055】
一般的な現況技術の手法は、慣習的に、2つのテキストのトークンレベルまたはセンテンスレベルの埋め込みを基に2つのテキストの間の類似度を測定することにより、セマンティックテキスト類似度(STS)タスクを扱うものである。一般的には、大抵の場合、実際の語の問題では最終的な類似度判断を左右する重要なエンティティのマッチングが、同手法では考慮に入れられない。対照的に、本発明の実施形態による手法は、センテンスレベルの埋め込みと重要なエンティティの埋め込みとの両方を包含するテキスト符号化を基に、類似度を評価する。その上、本発明の実施形態が提供するシステムは、調査中の2つのテキストがエンティティレベルで互いにどの程度類似であるかを説明する証拠を提供することができる。
【0056】
たとえば、性能向上に関して、本発明によるシステムは、N. ReimersおよびI. Gurevych、"Sentence-BERT: Sentence Embedding using Siamese BERT-Networks"、EMNLP、2019年、に記述されているセンテンス変換器の構造に基づいて実施することにより、検証済である。
【0057】
結果は下のTable 1(表1)に示されている。最上位は、モデルが検出した最も類似した候補が、実際の類似のドキュメントであるかどうかを評価するものであり、上位5番目までは、モデルが、先頭から5番目までの最も類似した候補の中のすべての類似のドキュメントを検出したかどうかを評価するものであり、上位10番目までは、モデルが、先頭から10番目までの最も類似した候補の中のすべての類似のドキュメントを検出したかどうかを評価するものである。本発明によるシステムは、一般に、Table 1(表1)から確認されるように、現況技術の方法よりも優れた性能を示す。特に、最上位のスコアについては、約30%というすばらしい改善を示す。
【0058】
【表1】
【0059】
本発明の実施形態による手法は、Changyu Miao、Zhen Cao、Yik-Cheung Tam、"Keyword-Attentive Deep Semantic Matching"、arXiv preprint arXiv:2003.11516、2020年、に記述されている解決策と比較して、以下の利点のうち少なくともいくつかを有する。
【0060】
引用された、C. Miaoらによる方法は、テキスト類似度マッチングを改善するためにエンティティ情報も利用している。この手法はエンティティベースの言語モデルを使用し、これは、2つのドキュメントの間の類似度を直接予測するものであり、モデルは予測のためにペアワイズテキスト入力が必要であることを意味する。しかしながら、これの準備には、新規のクエリドキュメントが来るたびにソースドキュメントを再び符号化する必要があるので、その後の計算上のオーバヘッドが大きくなる。対照的に、本発明の実施形態による方法は、前もってソースドキュメントをテキスト埋め込みに符号化する。したがって、新規のクエリドキュメントが来たときは、新規のクエリドキュメントの埋め込みのみを計算すればよい。そこで、新規のドキュメントをすべてのソースドキュメントと比較するために、高速の類似度計算が適用され得る。
【0061】
なおまた、引用されたC. Miaoらによる方法が弁別するのは「キーワード」または「非キーワード」のみであるが、本発明によるシステムは特定のタイプの種々のエンティティを識別するように構成される。したがって、本発明によるシステムは、種々のエンティティに重み付けする動作が可能であり、システムの、現実の問題に対する適用可能性がより高くなる。結果的に、本発明の状況では、エンティティタイプ情報を使用して組み合わせる方法は異なったものになる。なおまた、本発明によるシステムは、引用されたC. Miaoらによる方法では不可能な、エンティティベースの説明を提供することができる。
【0062】
本明細書で説明された本発明の多くの修正形態および他の実施形態が、前述の説明および関連する図面に示された教示の利益を有する、本発明に関係する技術分野の当業者には思い浮かぶであろう。したがって、本発明は、開示された特定の実施形態に限定されるものではなく、修正形態および他の実施形態は、添付の特許請求の範囲に含まれるように意図されていることを理解されたい。本明細書には特定の用語が採用されているが、一般的かつ説明的な意味においてのみ使用されており、限定するためのものではない。
【符号の説明】
【0063】
100 エンティティベースのプールセマンティックテキスト類似度検索システム
102 エージェント
104 テキスト特徴選択モジュール
106 エンティティ抽出器
108a ドメイン外データセット
108b ドメイン特定データセット、教師ありデータセット
110 埋め込みステージ
112 初期のプレゼンテーションモジュール
114 セマンティックテキスト類似度(STS)モデル
116 エンティティプール方策
118a ドメイン外データセット
118b ドメイン特定データセット
120 特徴アグリゲータ
122 類似度推定器
124 可能性のあるドキュメントS*のセット
126 類似のドキュメント<S*, d*>のセット
128 説明可能性ジェネレータ
130 説明
200 エンティティプール方策
202 エンティティ抽出器
204 セマンティックテキスト類似度モデル
206 センテンスアグリゲータ
208 トークン埋め込み
210 センテンス埋め込み
212 エンティティクラス
214 エンティティアグリゲータ
216 エンティティ埋め込み
218 追加のプール層
220 追加のプール層
222 圧縮されたベッディング
224 圧縮されたベッディング
226 テキストアグリゲータ
228 1次元のテキスト埋め込み
300 説明可能性ジェネレータ
306 第1のセグメンタ
308 第2のセグメンタ
314 SimScore
316 インタープリタ
318 説明
図1
図2
図3
【国際調査報告】