(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-28
(45)【発行日】2024-12-06
(54)【発明の名称】自然言語表現変形の生成
(51)【国際特許分類】
G06F 40/295 20200101AFI20241129BHJP
G06F 40/30 20200101ALI20241129BHJP
G06F 16/90 20190101ALI20241129BHJP
【FI】
G06F40/295
G06F40/30
G06F16/90 100
(21)【出願番号】P 2022520904
(86)(22)【出願日】2020-10-15
(86)【国際出願番号】 IB2020059710
(87)【国際公開番号】W WO2021084364
(87)【国際公開日】2021-05-06
【審査請求日】2023-03-24
(32)【優先日】2019-10-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】リュウ、トン
(72)【発明者】
【氏名】イン、クン ヤン
(72)【発明者】
【氏名】ユァン、ツォン、ファン
(72)【発明者】
【氏名】リー、フー
(72)【発明者】
【氏名】チャン、ユアン
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2006-252380(JP,A)
【文献】米国特許出願公開第2018/0060297(US,A1)
【文献】特表2019-525272(JP,A)
【文献】米国特許出願公開第2006/0206472(US,A1)
【文献】米国特許出願公開第2017/0364520(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-958
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
自然言語表現変形を生成するためのコンピュータ実施方法であって、
1つまたは複数のプロセッサによって、自然言語でのソース表現についての構造化表現を、前記ソース表現内のソース・キー・エンティティを所定のシンボルで置換することにより判断することと、
前記1つまたは複数のプロセッサによって、テンプレート構造化表現のセットから少なくとも1つのテンプレート構造化表現を、前記構造化表現と前記セット内のそれぞれのテンプレート構造化表現との間のそれぞれの類似度に基づいて選択することであって、前記テンプレート構造化表現のセットのそれぞれが、キー・エンティティを表すための前記所定のシンボルを含む、前記選択することと、
前記1つまたは複数のプロセッサによって、前記ソース表現についての少なくとも1つの変形表現を、選択された前記少なくとも1つのテンプレート構造化表現内の前記所定のシンボルを前記ソース・キー・エンティティで置換することにより生成することと、
前記1つまたは複数のプロセッサによって、第1の閾値類似度よりも高い、前記構造化表現との類似度を有するテンプレート構造化表現の数を判断することと、
判断された前記数が閾値数よりも小さいことに応答して、1つまたは複数のプロセッサによって、所定のコーパスから、第2の類似度閾値よりも高い、前記ソース表現との類似度を有する前記自然言語での少なくとも1つの生表現を取得することであって、前記少なくとも1つの生表現が、前記ソース・キー・エンティティを含む、前記取得することと、
前記1つまたは複数のプロセッサによって、前記少なくとも1つの生表現に基づいて少なくとも1つのさらなるテンプレート構造化表現を生成することと、
を含む、方法。
【請求項2】
前記少なくとも1つのテンプレート構造化表現を選択することが、
前記1つまたは複数のプロセッサによって、前記それぞれの類似度を
前記第1の閾値類似度と比較することと、
前記構造化表現と前記セット内の前記それぞれのテンプレート構造化表現のうちの少なくとも1つとの間の前記それぞれの類似度のうちの類似度が
前記第1の閾値類似度を超えることに応答して、1つまたは複数のプロセッサによって、前記少なくとも1つのテンプレート構造化表現を選択することと、
を含む、請求項1に記載の方法。
【請求項3】
複数の生表現が取得され、前記少なくとも1つのさらなるテンプレート構造化表現を生成することが、
前記1つまたは複数のプロセッサによって、前記複数の生表現を生表現の複数のグループにクラスタリングすることであって、前記複数のグループのそれぞれが、前記複数の生表現のうちの少なくとも1つを含む、前記クラスタリングすることと、
前記1つまたは複数のプロセッサによって、前記生表現の複数のグループからそれぞれの生表現を選択することと、
前記1つまたは複数のプロセッサによって、複数のさらなるテンプレート構造化表現を、選択された前記生表現内の前記ソース・キー・エンティティを前記所定のシンボルで置換することにより生成することと、
を含む、請求項
1に記載の方法。
【請求項4】
前記1つまたは複数のプロセッサによって、前記選択された生表現のうちの少なくとも1つを前記ソース表現についての少なくとも1つの変形表現として提供することをさらに含む、請求項
3に記載の方法。
【請求項5】
前記それぞれの類似度が、前記構造化表現と前記セット内の前記それぞれのテンプレート構造化表現との間の構造類似度に少なくとも一部基づく、請求項1に記載の方法。
【請求項6】
前記1つまたは複数のプロセッサによって、エンティティ認識のための訓練済み機械学習モデルに基づいて、前記ソース表現から前記ソース・キー・エンティティを識別することをさらに含む、請求項1に記載の方法。
【請求項7】
システムであって、
処理ユニットと、
前記処理ユニットに連結され、かつ命令を記憶するメモリであって、前記処理ユニットによって実行されると、前記命令が、
自然言語でのソース表現についての構造化表現を、前記ソース表現内のソース・キー・エンティティを所定のシンボルで置換することにより判断することと、
テンプレート構造化表現のセットから少なくとも1つのテンプレート構造化表現を、前記構造化表現と前記セット内のそれぞれのテンプレート構造化表現との間のそれぞれの類似度に基づいて選択することであって、前記テンプレート構造化表現のセットのそれぞれが、キー・エンティティを表すための前記所定のシンボルを含む、前記選択することと、
前記ソース表現についての少なくとも1つの変形表現を、選択された前記少なくとも1つのテンプレート構造化表現内の前記所定のシンボルを前記ソース・キー・エンティティで置換することにより生成することと、
第1の閾値類似度よりも高い、前記構造化表現との類似度を有するテンプレート構造化表現の数を判断することと、
判断された前記数が閾値数よりも小さいことに応答して、所定のコーパスから、第2の類似度閾値よりも高い、前記ソース表現との類似度を有する前記自然言語での少なくとも1つの生表現を取得することであって、前記少なくとも1つの生表現が、前記ソース・キー・エンティティを含む、前記取得することと、
前記少なくとも1つの生表現に基づいて少なくとも1つのさらなるテンプレート構造化表現を生成することと、
を含む動作を実行する、前記メモリと、
を備える、システム。
【請求項8】
前記少なくとも1つのテンプレート構造化表現を選択することが、
前記それぞれの類似度を
前記第1の閾値類似度と比較することと、
前記構造化表現と前記セット内の前記それぞれのテンプレート構造化表現のうちの少なくとも1つとの間の前記それぞれの類似度のうちの類似度が
前記第1の閾値類似度を超えることに応答して、前記少なくとも1つのテンプレート構造化表現を選択することと、
を含む、請求項
7に記載のシステム。
【請求項9】
複数の生表現が取得され、前記少なくとも1つのさらなるテンプレート構造化表現を生成することが、
前記複数の生表現を生表現の複数のグループにクラスタリングすることであって、前記複数のグループのそれぞれが、前記複数の生表現のうちの少なくとも1つを含む、前記クラスタリングすることと、
前記生表現の複数のグループからそれぞれの生表現を選択することと、
複数のさらなるテンプレート構造化表現を、選択された前記生表現内の前記ソース・キー・エンティティを前記所定のシンボルで置換することにより生成することと、
を含む、請求項
7に記載のシステム。
【請求項10】
前記動作が、前記選択された生表現のうちの少なくとも1つを前記ソース表現についての少なくとも1つの変形表現として提供することをさらに含む、請求項
9に記載のシステム。
【請求項11】
前記それぞれの類似度が、前記構造化表現と前記セット内の前記それぞれのテンプレート構造化表現との間の構造類似度に少なくとも一部基づく、請求項
7に記載のシステム。
【請求項12】
前記動作が、エンティティ認識のための訓練済み機械学習モデルに基づいて、前記ソース表現から前記ソース・キー・エンティティを識別することをさらに含む、請求項
7に記載のシステム。
【請求項13】
コンピュータに、請求項1乃至
6のいずれか1項に記載の方法を実行させる、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理技術に関し、より具体的には、自然言語表現変形の生成に関する。
【背景技術】
【0002】
技術の発展と共に、自然言語処理の使用は、多岐にわたる用途を包含するように拡張されてきており、用途の例としては文章生成が挙げられ、文章生成は、ヒューマン・コンピュータ間対話、質問応答、意図認識、レポート作成、自動技術文書化、命令カスタマイズ化、アイテムおよびイベント記述、チュートリアル、ならびにストーリーを可能にするために使用され得る。機械学習モデルまたは深層学習モデルは、自然言語処理タスクを改善するために幅広く使用される。
【発明の概要】
【0003】
本発明の一実施形態によれば、コンピュータ実施方法が提供される。方法によれば、構造化表現は、自然言語でのソース表現について、ソース表現内のソース・キー・エンティティを所定のシンボルで置換することにより判断される。少なくとも1つのテンプレート構造化表現は、構造化表現とセット内のそれぞれのテンプレート構造化表現との間のそれぞれの類似度に基づいて、テンプレート構造化表現のセットから選択される。テンプレート構造化表現のセットのそれぞれが、キー・エンティティを表すための所定のシンボルを含む。少なくとも1つの変形表現が、ソース表現について、選択された少なくとも1つのテンプレート構造化表現内の所定のシンボルをソース・キー・エンティティで置換することによって生成される。
【0004】
本発明のさらなる実施形態によれば、システムが提供される。システムは、処理ユニットと、処理ユニットに連結され、かつ命令を記憶するメモリと、を含む。命令は、処理ユニットによって実行されると、本発明の実施形態による方法の動作を実行する。
【0005】
本発明のさらなる実施形態によれば、非一時的機械可読媒体上に有形に記憶され、かつ機械実行可能命令を含む、コンピュータ・プログラム製品が提供される。命令は、デバイス上で実行されると、本発明の実施形態による方法の動作をデバイスに実行させる。
【0006】
添付図面における本開示のいくつかの実施形態のより詳細な説明を通して、本開示の上記のおよび他の目的、特徴、および利点が、より明らかとなるであろう。同一の参照は、概して本開示の実施形態における同一の構成要素を指す。
【図面の簡単な説明】
【0007】
【
図1】本発明の実施形態による、クラウド・コンピューティング・ノードを示す図である。
【
図2】本発明の実施形態による、クラウド・コンピューティング環境を示す図である。
【
図3】本発明の実施形態による、抽象モデル・レイヤを示す図である。
【
図4】本発明の実施形態による、自然言語表現変形を生成するための例としてのシステムのブロック図である。
【
図5】本発明の実施形態による、
図4のシステム内のエンティティ認識モジュールの例のブロック図である。
【
図6】本発明の別の実施形態による、自然言語表現変形を生成するための例としてのシステムのブロック図である。
【
図7】本発明の実施形態による、
図6のシステム内のテンプレート追加モジュールの例のブロック図である。
【
図8】本発明の実施形態による、例としての方法のフローチャートである。
【発明を実施するための形態】
【0008】
いくつかの実施形態は、添付図面を参照してより詳細に説明される。添付図面において、本開示の実施形態が例示されている。しかしながら、本開示は、様々な方式で実施されてもよく、したがって、本明細書で開示される実施形態に限定されると解釈されるべきではない。
【0009】
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙される教示の実施態様は、クラウド・コンピューティング環境に限定されないと理解されたい。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他の種類のコンピューティング環境と併せて実施されることが可能である。
【0010】
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの配置モデルを含み得る。
【0011】
特性は、以下の通りである。
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。
幅広いネットワーク・アクセス:ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通してアクセスされる。
リソースの共用:プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者は、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より抽象度の高いレベル(例えば、国、州、またはデータセンタ)において場所を指定することが可能であり得るという点において、位置独立の意味がある。
スピーディな拡張性:ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
サービスが計測可能であること:クラウド・システムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ・アカウント)に適したある抽象度レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。
【0012】
サービス・モデルは、以下の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティでさえも含む、基礎となるクラウド・インフラを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上にデプロイすることである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラを管理または制御しないが、デプロイされたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。
サービスとしてのインフラ(IaaS):消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイおよび実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
【0013】
配置モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理されてもよく、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、組織または第三者によって管理されてもよく、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0014】
クラウド・コンピューティング環境は、ステートレス、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
【0015】
ここで
図1を参照すると、クラウド・コンピューティング・ノードの例の概略が示されている。クラウド・コンピューティング・ノード10は、適当なクラウド・コンピューティング・ノードの単なる一例であり、本明細書で説明される本発明の実施形態の使用または機能性の範囲に関するいかなる限定も示唆するように意図されない。それにかかわらず、クラウド・コンピューティング・ノード10は、実施されること、または上記で述べた機能性のいずれかを実行すること、あるいはその両方が可能である。
【0016】
クラウド・コンピューティング・ノード10には、コンピュータ・システム/サーバ12または通信デバイスなどのポータブル電子デバイスが存在し、それらは、多数の他の汎用または専用コンピューティング・システム環境または構成を用いて動作可能である。コンピュータ・システム/サーバ12を用いた使用に適当であり得る周知のコンピューティング・システム、環境、または構成、あるいはそれらの組み合わせの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式またはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサベース・システム、セット・トップ・ボックス、プログラマブル家電、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記システムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境などを含むが、これらに限定されない。
【0017】
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行されている、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的状況において説明され得る。概して、プログラム・モジュールは、特定のタスクを実行し、または特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含み得る。コンピュータ・システム/サーバ12は、通信ネットワークを通してリンクされたリモート処理デバイスによってタスクが実行される、分散型クラウド・コンピューティング環境において実施され得る。分散型クラウド・コンピューティング環境では、プログラム・モジュールが、メモリ記憶デバイスを含むローカルおよびリモート両方のコンピュータ・システム記憶媒体内に位置し得る。
【0018】
図1に示されるように、クラウド・コンピューティング・ノード10内のコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム/サーバ12のコンポーネントは、1つまたは複数のプロセッサまたは処理ユニット16、システム・メモリ28、およびシステム・メモリ28を含む様々なシステム・コンポーネントをプロセッサ16に連結するバス18を含み得るが、これらに限定されない。
【0019】
バス18は、メモリ・バスまたはメモリ・コントローラ、周辺バス、高速グラフィック・ポート、および多様なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、複数種類のバス構造のいずれかの1つまたは複数を表す。限定ではなく例として、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ(ISA)・バス、マイクロ・チャネル・アーキテクチャ(MCA)・バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)・ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)・バスを含む。
【0020】
コンピュータ・システム/サーバ12は、典型的には多様なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム/サーバ12によってアクセス可能な任意の利用可能な媒体であってもよく、それは、揮発性媒体および不揮発性媒体の両方、リムーバブル媒体および非リムーバブル媒体の両方を含む。
【0021】
システム・メモリ28は、コンピュータ・システム可読媒体を、ランダム・アクセス・メモリ(RAM)30またはキャッシュ・メモリ32あるいはその両方などの揮発性メモリの形態で含み得る。コンピュータ・システム/サーバ12は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ・システム記憶媒体をさらに含み得る。単なる例として、記憶システム34は、非リムーバブル不揮発性磁気媒体(図示せず、かつ典型的には「ハード・ドライブ」と呼ばれる)からの読み出しおよび書き込みのために提供され得る。図示されないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピー(R)・ディスク」)からの読み出しおよび書き込みのための磁気ディスク・ドライブ、ならびにCD-ROM、DVD-ROM、または他の光学媒体などのリムーバブル不揮発性光ディスクからの読み出しまたは書き込みのための光学ディスク・ドライブが、提供されてもよい。このような事例では、それぞれが、1つまたは複数のデータ媒体インターフェースによってバス18に接続され得る。さらに図示され、後述されるように、メモリ28は、本発明の実施形態の機能を実行するように構成されるプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含み得る。
【0022】
プログラム・モジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40は、限定ではなく例として、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、メモリ28に記憶され得る。オペレーティング・システム、1つもしくは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データのそれぞれ、またはそれらの何らかの組み合わせは、ネットワーキング環境の実施態様を含み得る。プログラム・モジュール42は、概して、本明細書に説明される本発明の実施形態の機能または手法あるいはその両方を実行する。
【0023】
コンピュータ・システム/サーバ12は、また、キーボード、ポインティング・デバイス、ディスプレイ24などの1つもしくは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1つもしくは複数のデバイス、またはコンピュータ・システム/サーバ12が1つもしくは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデムなど)、あるいはそれらの組み合わせと通信し得る。このような通信は、入力/出力(I/O)インターフェース22を介して発生し得る。さらに、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用ワイド・エリア・ネットワーク(WAN)、または公衆ネットワーク(例えば、インターネット)、あるいはそれらの組み合わせなどの1つまたは複数のネットワークと通信し得る。図示されるように、ネットワーク・アダプタ20は、バス18を介してコンピュータ・システム/サーバ12の他のコンポーネントと通信する。図示されないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネント、あるいはその両方が、コンピュータ・システム/サーバ12と併せて使用され得ると理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ記憶システムなどを含むが、これらに限定されない。
【0024】
ここで
図2を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示されるように、クラウド・コンピューティング環境50は、クラウド消費者によって使用されるローカル・コンピューティング・デバイス、例えば、携帯情報端末(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組み合わせが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信し得る。それらは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、1つまたは複数のネットワーク内で物理的または仮想的にグループ化され得る(図示せず)。これによって、クラウド・コンピューティング環境50が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。
図2に示されるコンピューティング・デバイス54A~Nの種類は、単なる例示であるように意図され、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意の種類のネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て(例えば、ウェブ・ブラウザを用いて)、任意の種類のコンピュータ化デバイスと通信し得ると理解されたい。
【0025】
ここで
図3を参照すると、クラウド・コンピューティング環境50(
図2)によって提供される機能抽象レイヤのセットが示されている。
図3に示されるコンポーネント、レイヤ、および機能は、単なる例示であるように意図され、本発明の実施形態はそれらに限定されないと、予め理解されたい。図示されるように、以下のレイヤおよび対応する機能が提供される。
【0026】
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0027】
仮想化レイヤ70は、仮想エンティティの以下の例、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る、抽象レイヤを提供する。
【0028】
1つの例では、管理レイヤ80は、後述する機能を提供し得る。リソース供給81は、クラウド・コンピューティング環境内でタスクを実行するために使用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定82は、リソースが、クラウド・コンピューティング環境内で利用され、これらのリソースの消費に対して課金または請求されるときに、コスト追跡を提供する。1つの例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクのための本人確認を提供する。ユーザ・ポータル83は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
【0029】
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想クラスルーム教育配信93、データ解析処理94、トランザクション処理95、ならびに自然言語表現変形の生成96を含む。自然言語表現変形の生成96の機能性は、本開示の以下の実施形態において説明される。
【0030】
モデルを訓練またはテストする際に、いくつかの意味的に等価な文章または表現が必要であり得る。例えば、意図は、様々な自然言語表現で表され得るため、多数の意図の変形が、概して、意図認識モデルを構築するために必須のものである。例えば、「胃炎の処置方法」の意図は、「胃炎が処置しなければならないのはどんな秘方ですか?」、「私は胃炎にかかりました、どうしますか」、「胃炎はどのように処置しますか」、「胃炎の治療方法」などの異なる変形を用いて表され得る。モデル構築に使用される変形が多いほど、モデルはより正確になる。
【0031】
したがって、自然言語処理アプリケーションにおいて自然言語表現についての変形を生成する必要がある。従来の解決策では、表現について十分な変形を手動により準備する必要がある。しかしながら、高品質の変形を収集することは、労働集約型であり、時間がかかり、誤りが起こり易い活動である。よって、変形を生成するための自動メカニズムを提供することが望ましい。
【0032】
本発明の実施形態によれば、自然言語表現変形の自動生成のための解決策が提供される。この解決策において、ソース表現のキー・エンティティは、構造化表現を取得するために所定のシンボルによって置換される。1つまたは複数のテンプレート構造化表現が、準備され、選択のために利用可能であり、テンプレート構造化表現のそれぞれがキー・エンティティを表すための同一の所定のシンボルを含む。1つまたは複数のテンプレート構造化表現が、ソース表現の構造化表現に類似する、例えば閾値類似度よりも高い類似度を有する場合に、1つまたは複数のテンプレート構造化表現は、ソース表現についての変形を生成するために選択される。具体的には、ソース表現についての変形が、1つまたは複数の選択されたテンプレート構造化表現内の所定のシンボルをソース表現内のキー・エンティティで置換することによって生成される。この解決策を通して、いくつかの変形が自動的に取得され得る。それによって、手動による準備と比較して改善された効率性および正確性を実現する。
【0033】
本発明の実施形態が、添付図面を参照して説明される。まず
図4に対して参照が行われ、
図4は、本発明の実施形態による、自然言語表現変形を生成するための例としてのシステム400のブロック図を示す。システム400は、ソース表現のための1つまたは複数の変形表現を生成することにおける複数の段階を実施するための複数のモジュールを含む。
【0034】
図4に示されるシステム400のモジュールは、1つまたは複数のソフトウェア・エンジン、コンポーネントなどとして実施されてもよく、それが、特定のモジュールに帰属する機能性を実施するためのロジックで構成されると理解されたい。各モジュールは、1つまたは複数のそのようなソフトウェア・エンジン、コンポーネントなどを用いて実施され得る。ソフトウェア・エンジン、コンポーネントなどは、1つまたは複数のコンピューティング・システムまたはデバイスの1つまたは複数のプロセッサ上で実行され、1つまたは複数のコンピューティング・システム上の1つまたは複数のストレージ・デバイス、メモリなどに記憶されるデータに対して使用または動作する。
【0035】
いくつかの実施形態において、システム400の異なるモジュールは、単一モジュールとして実施されてもよく、システム400の単一モジュールが、1つより多くのモジュールとして分離されてもよい。いくつかの実施形態において、1つまたは複数のさらなるモジュールが、システム400に含まれ得る。
図4に示され、後述される表現は、単に例示の目的で特定の実施例として提供されると理解されたい。本発明の実施形態は、任意の他の自然言語表現を処理するために適用され得る。
【0036】
図示されるように、システム400は、自然言語でのソース表現402を取得し、ソース表現402内のキー・エンティティ412(「ソース・キー・エンティティ」と呼ばれる)を識別/認識するように構成されるエンティティ認識モジュール410を含む。ソース表現402は、任意の自然言語の形態であってもよく、1つまたは複数の単語、文字、または他の言語単位から構成されてもよい。表現402は、文章、語句、テキスト文字列などであってもよい。処理されるソース表現402に対して長さおよび特定の内容についての制限はない。本開示においてソース表現402についての1つまたは複数の変形を生成することが予期されるため、ソース表現402は、シード表現または単にシードとも呼ばれ得る。示される実施例において、ソース表現402は、英語の語句「胃炎の基本症状(Basic symptoms of gastritis)」である。
【0037】
ソース・キー・エンティティ412は、ソース表現402に含まれる1つまたは複数の単語、文字、または他の言語単位を用いて表され得る。表現の中のキー・エンティティは、表現の意図についてのコア・エンティティであってもよく、コア・エンティティは、ソース表現の中のフィールドにおける専門用語、名前付きエンティティ、または任意の他の重要な単語/文字であってもよい。ソース・キー・エンティティ412は、ソース表現402の中のキー・エンティティである。示される実施例において、ソース・キー・エンティティ「胃炎」412は、例としてのソース表現402から認識される。いくつかの実施形態において、1つより多くのソース・キー・エンティティ412は、ソース表現402から認識され得る。様々なエンティティ認識技術は、ソース・キー・エンティティ412を識別するために適用され得る。キー・エンティティ認識のためのいくつかの例としての実施形態は、
図5を参照して以下で詳細に説明される。
【0038】
ソース・キー・エンティティ412およびソース表現402は、システム400に含まれる構造化構築モジュール420に提供される。構造化構築モジュール420は、ソース表現402の中のソース・キー・エンティティ412を所定のシンボルで置換することによって、ソース表現402を構造化表現422に変更するように構成される。例示のためだけに、所定のシンボルが、
図4の実施例では「EN」であり、そのとき、ソース表現402は、構造化表現422「ENの基本症状」であるように修正され得る。所定のシンボルは、他の構造化表現を構築するためにも使用される任意の共通シンボルであってもよい。潜在的な混乱を避けるために、所定のシンボルが、自然言語の表現においてめったに発生しない場合もある、テキスト・シンボル、コンピュータ・シンボル、略称、または任意の他の種類の表現、あるいはそれらの組み合わせとして選択され得る。キー・エンティティを置換するためのシンボルについて特定の制限はない。
【0039】
1つより多くのソース・キー・エンティティ412がソース表現402から認識される実施形態において、同一の所定のシンボルは、(例えば、それらのキー・エンティティが協調関係にある場合に)それらのソース・キー・エンティティを置換するために使用されてもよく、または異なる所定のシンボルは、異なるソース・キー・エンティティを置換するために使用されてもよい。
【0040】
システム400は、また、構造化表現422に類似の1つまたは複数の利用可能なテンプレート構造化表現が存在するかどうかを判断し、ソース表現402についての変形を生成するための類似のテンプレート構造化表現を選択するように構成される、テンプレート認識モジュール430を含む。テンプレート構造化表現のセットは、テンプレート認識モジュール430にアクセス可能なテンプレート・データベース405に記憶され得る。テンプレート構造化表現のセットは、テンプレート構造化表現のライブラリとも呼ばれ得る。テンプレート構造化表現は、様々なソースまたはコーパスから収集されてもよく、その中に含まれる1つまたは複数のキー・エンティティを表すための所定のシンボル(「EN」など)をそれぞれ含むように処理されてもよい。
【0041】
自然言語において、様々な表現を構築するために使用され得る比較的固定された文章構造が存在するが、それらの表現に含まれる特定のキー・エンティティは異なり得る。所定の意味のないシンボルを用いてキー・エンティティを無視するために、利用可能な自然言語表現を事前処理することによって、表現の構造が、異なる形態の表現を生成するためのテンプレートとして使用され得る。例えば、ウェブ・ページ、データベース、辞書、または他のソース、あるいはそれらの組み合わせから検索することによって、「慢性咽頭炎の症状は何ですか」、「インフルエンザの兆候は何ですか」、「炎症性腸疾患の基本症状は何ですか」などのいくつかの利用可能な表現が発見される。テンプレート構造化表現は、「慢性咽頭炎」、「インフルエンザ」、および「炎症性腸疾患」などのそれらの表現の中のキー・エンティティを「EN」などの所定のシンボルで置換することによって取得され得る。
【0042】
構造化表現422についての類似のテンプレート構造化表現を見つけるために、テンプレート認識モジュール430は、構造化表現422とテンプレート・データベース405に記憶されるそれぞれのテンプレート構造化表現との間のそれぞれの類似度を判断する。2つの構造化表現の間の類似度は、構造化表現に含まれる所定のシンボルが同一であると見なされ得ることを除いて、通常の文章/表現の間の類似度を測定するために使用される様々な方法で判断され得る。いくつかの実施形態において、構造化表現422とテンプレート構造化表現との間の構造類似度が考慮される。それらの表現の構造は、その中に含まれるキー・エンティティを同一シンボルと置換した後、より明白になる。いくつかの実施形態において、構造化表現422およびテンプレート構造化表現に含まれるキー単語/語句の意味は、また、類似の構造化表現が同一または類似のキー単語/語句を必ず含むようにすると考えられ得る。
【0043】
テンプレート認識モジュール430は、計算されたそれぞれの類似度を閾値類似度(説明の便宜上、「第1の閾値類似度」と呼ばれる)と比較し得る。第1の閾値類似度は、最終的な変形に対する実際の要件に従って設定され得る。類似度の1つまたは複数が第1の閾値類似度を超える場合、対応するテンプレート構造化表現は、ソース表現402についての変形を生成するために選択され得る。
図4の実施例において、図示されるように、N個のテンプレート構造化表現が、テンプレート構造化表現432-1「ENの症状は何ですか」、テンプレート構造化表現432-2「ENの兆候は何ですか」、およびテンプレート構造化表現432-N「ENの基本症状は何ですか」を少なくとも含む、テンプレート・データベース405から選択される。構造化表現422に類似の選択されたテンプレート構造化表現431-1、432-2、...、432-Nは、まとめて、または個別に、テンプレート構造化表現432と呼ばれ得る。
【0044】
いくつかの実施形態において、計算遅延をさらに減少させるために、テンプレート・データベース405に記憶されるテンプレート構造化表現は、まず、1つまたは複数の類似のテンプレート構造化表現をそれぞれ含む、複数のグループに分類され、またはクラスタリングされ得る。k平均アルゴリズム、k平均++アルゴリズム、密度ベースのクラスタリング方法などの任意のクラスタリングまたは分類方法は、テンプレート構造化表現を分類するために適用可能であってもよい。
【0045】
ソース表現402の構造化表現422を受信すると、テンプレート認識モジュール430は、構造化表現422と各グループのテンプレート構造化表現のうちの1つ(クラスタ重心におけるものなど)との間の疎な類似度を計算し、構造化表現422(上位Kグループ、Kは1以上)とのより高い類似度を有する1つまたは複数のグループを選択し得る。このようにして、非類似テンプレート構造化表現の大部分が、計算消費量を減少させるためにフィルタリング除去され得る。テンプレート認識モジュール430は、さらに、構造化表現422と選択されたグループに含まれる各テンプレート構造化表現との間の微細な類似度を計算し得る。微細な類似度は、次いで、構造化表現422についての類似テンプレート構造化表現432を選択するために、第1の閾値類似度と比較され得る。
【0046】
類似のテンプレート構造化表現432は、システム400に含まれる変形生成モジュール440に提供される。変形生成モジュール440は、少なくとも1つのテンプレート構造化表現432内の所定のシンボルをソース・キー・エンティティ412で置換することによって、ソース表現402についての1つまたは複数の変形表現を生成するように構成される。実施例として、所定のシンボル「EN」をソース表現402から判断されるソース・キー・エンティティ「胃炎」412で置換することによって、テンプレート構造化表現432-1~432-Nは、変形表現442-1「胃炎の症状は何ですか」、変形表現442-2「胃炎の兆候は何ですか」、変形表現442-N「胃炎の基本症状は何ですか」であるように変更される。それらは、まとめて、または個別に変形表現442と呼ばれる。構造化表現は類似であり、ソース表現402についての正確なソース・キー・エンティティは、類似のテンプレート構造化表現に埋め込まれるため、生成された変形表現442は、ソース表現402と実質的に同一の意図を有してもよく、ソース表現402と意味的に等価または類似であってもよい。
【0047】
テンプレート構造化表現は、ソース表現402の同一の自然言語であり得ることを理解されたい。テンプレート構造化表現とは異なる自然言語でいくつかのソース表現についての変形を生成することが予期される場合、ソース表現は、まず、例えば言語翻訳モデルによってその言語の表現に翻訳されてもよい。最後の変形は、ソース表現の言語に逆翻訳されてもよい。
【0048】
図5は、本発明の実施形態による、システム400のエンティティ認識モジュール410の実施例のブロック図を示す。この実施例において、エンティティ認識モジュール410は、ソース・キー・エンティティ412をソース表現402から識別するために訓練済み機械学習モデルを適用する。
【0049】
エンティティ認識において、ソース表現402はトークンに変換され得る。各トークンは、共にグループ化される文字の連続シーケンスであり、それは、部分語、単語、句読点、またはコンマ、ハイフン、スラッシュ、もしくはアポストロフィなどの(これらに限定されないが)スピーチの一部であってもよい。いくつかの実施形態において、各トークンは、表現内の最小単位であってもよい。例えば、ソース表現402「胃炎の基本症状」は、各単語がトークンである場合に「基本」、「症状」、「の」、「胃炎」であるようにトークン化され得る。
【0050】
エンティティ認識モジュール410は、ソース表現402またはソース表現402のトークンを、それぞれの埋め込み512でベクトル化するための埋め込み生成器510を含み、各埋め込みがある次数のベクトルを含む。ベクトル化または埋め込みは、自然言語処理において共通に使用される。表現の埋め込みを取得するために使用され得る様々な利用可能な方法が存在する。実施例において、埋め込み生成器510は、ある範囲内(例えば、-1~1)の数値をソース表現402の各トークンにランダムに割り当て得る。他の埋め込みも実行可能であってもよいと理解されたい。
【0051】
ソース表現402の埋め込み512は、ソース・キー・エンティティ412を認識するように、エンティティ認識のための機械学習モデル520に対する入力として提供される。機械学習モデル520は、訓練データセットを用いて予め訓練される。機械学習モデル520は、エンティティ認識のための任意の種類の機械学習モデルまたは深層学習モデルであってもよく、そのいくつかの例が、双方向長短期記憶(Bi-LSTM)モデル、条件付き確率場(CRF)モデル、Bi-LSTM-CRFモデル、および任意の他の種類のモデルまたはニューラル・ネットワークを含んでもよい。それらのモデルは自然言語処理に幅広く使用され、それらの動作原理は当業者に既知である。
【0052】
機械学習モデル520は、特定分野のアプリケーションのためのエンティティ認識のために、この特定分野に関連する訓練データセットを用いることによって訓練されてもよく、または異なる分野のアプリケーションのための汎用キー・エンティティ認識モデルとして、それらの全ての分野に関連する訓練データセットを用いることによって訓練されてもよい。訓練済み機械学習モデル520を用いることによって、より効率的かつ正確なやり方でソース・キー・エンティティ412を識別することが可能である。
【0053】
ソース表現402のエンティティ認識が説明されているが、同一または類似の認識方法が、テンプレート・データベース405内のテンプレート構造化表現を準備するときにキー・エンティティを認識するために適用され得る。
【0054】
上述の実施形態において、第1の閾値類似度より高い類似度を有する1つまたは複数のテンプレート構造化表現432が、ソース表現402についての変形表現を生成するためにテンプレート・データベース405から選択され得る。場合によっては、テンプレート・データベース405内に、第1の閾値類似度より高い類似度を有するテンプレート構造化表現432が存在しないか、または少数が存在することがある。十分な変形表現を提供するために、いくつかの実施形態において、システム400は、この場合、より多くのテンプレート構造化表現をテンプレート・データベース405内に追加するように構成され得る。
図6は、そのような実施形態においてシステム400の実施例のブロック図を示す。明確化のために、処理の異なる段階における例としての表現が、
図6には示されていない。
【0055】
図示されるように、システム400は、テンプレート追加モジュール610をさらに含む。テンプレート追加モジュール610は、ソース表現402に基づいて1つまたは複数のさらなるテンプレート構造化表現612を検索し、次いで、将来の使用のために1つまたは複数のさらなるテンプレート構造化表現612をテンプレート・データベース405内に追加するように構成される。テンプレート構造化表現は、本、辞書601、インターネット602などを含む、任意の所定のコーパスから発見され得る。テンプレート構造化表現の追加を動的にトリガすることによって、テンプレート・データベース405は、システム400の使用時に要求に応じて充実され得る。
【0056】
構造化表現422についての類似のテンプレート構造化表現(第1の閾値類似度よりも高い、構造化表現422との類似度を有するもの)の数が閾値数より少ないと判断される場合、テンプレート追加モジュール610が、テンプレート認識モジュール430によってトリガされ得る。閾値数は、構成可能であってもよく、ソース表現402についての変形表現の数に対する最低要件を示す値として設定され得る。例えば、類似のテンプレート構造化表現が存在しないか、または構造化表現422についてほんのわずかのテンプレート構造化表現が存在する場合、テンプレート追加モジュール610は、ソース表現402に基づいてより多くのテンプレート構造化表現612を発見および追加するようにトリガされ得る。
【0057】
図7は、
図6のシステム内のテンプレート追加モジュール610の実施例のブロック図を示す。テンプレート追加モジュール610は、ソース表現402に類似の表現を、1つまたは複数のコーパス601、602から検索するための検索エンジン710を含む。検索を実行する際に、検索エンジン710は、ソース表現402とコーパスに含まれる表現との間の意味的類似度を計算し得る。検索エンジン710は、同一自然言語での1つまたは複数の生表現をソース表現402として取得し得る。それらの生表現は、ソース表現402との比較的高い類似度を有し、通常少なくともソース・キー・エンティティ412(上記実施例内の単語「胃炎」)を含む。
【0058】
いくつかの実施例として、検索エンジン710によって取得される生表現は、表現712-1「胃炎の症状は何ですか」、表現712-2「胃炎の兆候は何ですか」、表現712-3「胃炎になったときの症状は何ですか」、および表現712-M「胃炎の基本症状は何ですか」を含み得る。生表現712-1、712-2、712-3、...、712-Mは、まとめて、または個別に生表現712と呼ばれ得る。
【0059】
テンプレート構造化表現612は、それらの生表現712から判断され得る。いくつかの実施形態において、コーパス601、602のスケールが大きいとき、大量の類似の生表現が取得されてもよく、そのいくつかはわずかな差異のみを有し得る。記憶消費量を減少させ、ソース表現について多過ぎる冗長な変形を生成することを避けるために、いくつかの実施形態において、いくつかの生表現が、テンプレート構造化表現を構築するためにフィルタリング除去され得る。
【0060】
具体的には、テンプレート追加モジュール610は、生表現712を生表現の複数のグループにクラスタリングし、次いでクラスタリング結果に基づいて生表現を選択するように構成されるクラスタリング・ベース選択モジュール720を含む。複数のグループのそれぞれが、生表現712のうちの少なくとも1つを含む。k平均アルゴリズム、k平均++アルゴリズム、密度ベースのクラスタリング方法などの任意のクラスタリングまたは分類方法が、クラスタリングに適用可能であり得る。クラスタリングの間、生表現は、類似度の計算を可能にするためにベクトルに変換され得る。クラスタリング・ベース選択モジュール720は、生表現の複数のグループからそれぞれの生表現を選択し得る。1つの生表現が、グループの中心または重心におけるものなどの、グループのそれぞれから選択され得る。例えば、生表現712-1、712-2、および712-Mが選択され、一方、生表現712-3などの他の類似の生表現は、破棄される。
【0061】
次いで、クラスタリング・ベース選択モジュール720は、複数のさらなるテンプレート構造化表現を、選択された生表現712内のソース・キー・エンティティ412を所定のシンボルで置換することにより生成する。実施例として、テンプレート構造化表現は、テンプレート構造化表現612-1「ENの症状は何ですか」、テンプレート構造化表現612-2「ENの兆候は何ですか」、テンプレート構造化表現612-N「ENの基本症状は何ですか」を含む。テンプレート認識モジュール430がデータベースに対してテンプレート検索を実行するときに、それらのテンプレート構造化表現612はテンプレート・データベース405に含まれないと推測されることに留意されたい。
【0062】
いくつかの実施形態において、テンプレート追加モジュール610によって、さらに、生表現712のうちの1つまたは複数、特にテンプレート構造化表現612を生成するために選択されるそれらの生表現が、ソース表現402についての少なくとも1つの変形表現として提供され得る。したがって、テンプレート・データベース405がより多くのテンプレートを含むだけではなく、ソース表現402についてのより多くの変形が、将来の使用のために提供され得る。
【0063】
図8は、本開示の実施形態による、例としての方法800のフローチャートを示す。方法800は、
図4に示されるように、システム400において実施され得る。例示のため、方法800は、
図4を参照して説明される。
【0064】
ブロック810において、システム400は、自然言語でのソース表現についての構造化表現を、ソース表現内のソース・キー・エンティティを所定のシンボルで置換することによって判断する。ブロック820において、システム400は、少なくとも1つのテンプレート構造化表現を、構造化表現とセット内のそれぞれのテンプレート構造化表現との間のそれぞれの類似度に基づいて、テンプレート構造化表現のセットから選択する。各テンプレート構造化表現が、キー・エンティティを表すための所定のシンボルを含む。ブロック830において、システム400は、ソース表現についての少なくとも1つの変形表現を、少なくとも1つのテンプレート構造化表現内の所定のシンボルをソース・キー・エンティティで置換することによって生成する。
【0065】
いくつかの実施形態において、少なくとも1つのテンプレート構造化表現を選択することが、それぞれの類似度を第1の閾値類似度と比較することと、構造化表現とセット内のそれぞれのテンプレート構造化表現のうちの少なくとも1つとの間のそれぞれの類似度のうちの類似度が第1の閾値類似度を超えることに応答して、少なくとも1つのテンプレート構造化表現を選択することと、を含む。
【0066】
いくつかの実施形態において、方法800は、第1の閾値類似度よりも高い、構造化表現との類似度を有するテンプレート構造化表現の数を判断することと、判断された数が閾値数よりも小さいことに応答して、所定のコーパスから、第2の類似度閾値よりも高い、ソース表現との類似度を有する自然言語での少なくとも1つの生表現を取得することであって、少なくとも1つの表現が、ソース・キー・エンティティを含む、取得することと、少なくとも1つの生表現に基づいて少なくとも1つのさらなるテンプレート構造化表現を生成することと、をさらに含む。
【0067】
いくつかの実施形態において、複数の生表現が取得され、少なくとも1つのさらなるテンプレート構造化表現を生成することが、複数の生表現を生表現の複数のグループにクラスタリングすることであって、複数のグループのそれぞれが、複数の生表現のうちの少なくとも1つを含む、クラスタリングすることと、生表現の複数のグループからそれぞれの生表現を選択することと、複数のさらなるテンプレート構造化表現を、選択された生表現内のソース・キー・エンティティを所定のシンボルで置換することにより生成することと、を含む。
【0068】
いくつかの実施形態において、方法800は、選択された生表現のうちの少なくとも1つをソース表現についての少なくとも1つの変形表現として提供することをさらに含む。
【0069】
いくつかの実施形態において、それぞれの類似度が、構造化表現とセット内のそれぞれのテンプレート構造化表現との間の構造類似度に少なくとも一部基づく。
【0070】
いくつかの実施形態において、方法800は、エンティティ認識のための訓練済み機械学習モデルに基づいて、ソース表現からソース・キー・エンティティを識別することをさらに含む。
【0071】
本発明は、任意の可能な統合の技術的詳細レベルにおけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
【0072】
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶し得る有形デバイスであってもよい。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチカードまたは命令をその上に記録させる溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組み合わせを含む。本明細書で用いられるコンピュータ可読記憶媒体は、本来、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を通って送信される電気信号などの、一過性信号であると解釈されるべきではない。
【0073】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体の記憶用にコンピュータ可読プログラム命令を転送する。
【0074】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、またはSmalltalk(R)、C++などのオブジェクト指向プログラム言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを通してユーザのコンピュータに接続されてもよく、または、接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通して)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。
【0075】
本発明の態様は、発明の実施形態による、方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組み合わせが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。
【0076】
コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する手段を生成するように、これらのコンピュータ可読プログラム命令は、コンピュータ、または機械を製造するための他のプログラマブル・データ処理装置のプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方式で機能するように指示し得る、コンピュータ可読記憶媒体に記憶されてもよい。
【0077】
コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させてコンピュータ実施プロセスを生み出すために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされてもよい。
【0078】
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施態様のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替実施態様において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される2つのブロックが、実際には、同時に、実質的に同時に、部分的もしくは全体的に時間的に重複して実行されて、1つのステップとして実現されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。
【0079】
本発明の様々な実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示される実施形態に限定することを意図するものではない。多くの修正および変形が、説明された実施形態の範囲および思想から逸脱することなく当業者には明らかであろう。本明細書で使用される専門用語は、実施形態の原理、実際の用途、もしくは市場で見出される技術に対する技術的改善を最もよく説明するため、または本明細書で開示される実施形態を他の当業者が理解可能にするために、選択された。