特許第6643555号(P6643555)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許6643555曖昧なエンティティワードに基づくテキスト処理方法及び装置
<>
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000003
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000004
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000005
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000006
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000007
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000008
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000009
  • 特許6643555-曖昧なエンティティワードに基づくテキスト処理方法及び装置 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6643555
(24)【登録日】2020年1月9日
(45)【発行日】2020年2月12日
(54)【発明の名称】曖昧なエンティティワードに基づくテキスト処理方法及び装置
(51)【国際特許分類】
   G06F 16/35 20190101AFI20200130BHJP
   G06F 40/295 20200101ALI20200130BHJP
   G06N 3/08 20060101ALI20200130BHJP
【FI】
   G06F16/35
   G06F17/27 685
   G06N3/08 180
【請求項の数】11
【全頁数】24
(21)【出願番号】特願2018-201850(P2018-201850)
(22)【出願日】2018年10月26日
(65)【公開番号】特開2019-125343(P2019-125343A)
(43)【公開日】2019年7月25日
【審査請求日】2018年10月26日
(31)【優先権主張番号】201810044364.8
(32)【優先日】2018年1月17日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【弁理士】
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】フェン, シファン
(72)【発明者】
【氏名】ル, チャオ
(72)【発明者】
【氏名】シュ, ヨン
(72)【発明者】
【氏名】リ, イン
【審査官】 後藤 彰
(56)【参考文献】
【文献】 特開2002−230021(JP,A)
【文献】 米国特許出願公開第2007/0106657(US,A1)
【文献】 米国特許出願公開第2016/0189047(US,A1)
【文献】 国際公開第2016/210203(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/35
G06F 17/27
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
曖昧なエンティティワードに基づくテキスト処理方法であって、
取得モジュールが、曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得するステップであって、前記少なくとも二つの候補エンティティが、異なる意味を有するステップと、
生成モジュールが、訓練されたワードベクトルモデルに基づいて、前記コンテキストの意味ベクトルを生成するステップと、
前記生成モジュールが、訓練された教師なしニューラルネットワークモデルに基づいて、前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成するステップであって、前記教師なしニューラルネットワークモデルは、既に学習により、各エンティティのテキストの意味、及び各エンティティ間の関係を取得しているステップと、
第1の決定モジュールが、前記コンテキストの意味ベクトル及び前記少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、前記コンテキストと各候補エンティティとの間の類似度を決定するステップと、
第1の処理モジュールが、前記コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、前記曖昧性を解消しようとするテキストが前記コンテキストにおいて表現する目標エンティティを決定するステップと、を含むことを特徴とする、曖昧なエンティティワードに基づくテキスト処理方法。
【請求項2】
前記訓練された教師なしニューラルネットワークモデルに基づいて、前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成するステップの前に、
第3の訓練モジュールが、訓練された教師ありニューラルネットワークモデルを採用して、予め設定された知識ベースにおける各エンティティの第2のエンティティベクトルを生成するステップであって、前記教師ありニューラルネットワークモデルは、既に学習により、各エンティティの意味を取得しているステップと、
前記第3の訓練モジュールが、前記知識ベースにおける各エンティティの第2のエンティティベクトルに基づいて、前記教師なしニューラルネットワークモデルにより出力された各エンティティの第1のエンティティベクトルを初期化するステップと、
前記第3の訓練モジュールが、エンティティ間の関連関係に基づいて、初期化された教師なしニューラルネットワークモデルを訓練するステップと、をさらに含むことを特徴とする、請求項1に記載のテキスト処理方法。
【請求項3】
前記訓練された教師ありニューラルネットワークモデルを採用して、前記知識ベースにおける各エンティティの第2のエンティティベクトルを生成するステップの前に、
第2の訓練モジュールが、知識ベースにおける各エンティティの属性、及び各エンティティの紹介情報から抽出したキーワードに基づいて、訓練サンプルの正例を生成するステップと、
前記第2の訓練モジュールが、前記知識ベースにおける各エンティティの全部のテキスト説明情報に基づいて、訓練サンプルの負例を生成するステップと、
前記第2の訓練モジュールが、前記訓練サンプルに基づいて、教師ありニューラルネットワークモデルを訓練するステップであって、前記教師ありニューラルネットワークモデルは、訓練サンプルにおける各テキストの意味ベクトルを入力するための第1の層と、第1の層に入力されたテキストが説明するエンティティを予測するための第2の層と、を含み、前記第2の層のパラメータは、第2のエンティティベクトルを生成するために用いられるステップと、
前記教師ありニューラルネットワークモデルにおいて、第1の層に入力された訓練サンプルにおけるテキストが、第2の層により出力されるエンティティを説明する場合、前記第2の訓練モジュールが、前記教師ありニューラルネットワークモデルの訓練が完了したと決定するステップと、をさらに含むことを特徴とする、請求項2に記載のテキスト処理方法。
【請求項4】
前記知識ベースにおける各エンティティの全部のテキスト説明情報に基づいて、訓練サンプルの負例を生成するステップは、
前記第2の訓練モジュールが、前記知識ベースにおける各エンティティの全部のテキスト説明情報に対して、単語分割処理を行った後、単語分割により取得された各見出し語の単語頻度を統計するステップと、
前記第2の訓練モジュールが、各見出し語の単語頻度に基づいて、各見出し語をネガティブサンプリングして、前記訓練サンプルの負例を取得するステップと、を含むことを特徴とする、請求項3に記載のテキスト処理方法。
【請求項5】
前記エンティティ間の関係に基づいて、初期化された教師なしニューラルネットワークモデルを訓練するステップは、
前記第3の訓練モジュールが、知識ベースにおける関連関係が存在する各エンティティに基づいて、及び/又は検索ログにおける共起関係が存在するエンティティに基づいて、初期化された教師なしニューラルネットワークモデルを訓練するステップと、
前記第3の訓練モジュールが、前記教師なしニューラルネットワークモデルにより出力される第1のエンティティベクトルの間の距離が、前記エンティティ間の関係の密接程度に対応する場合、教師なしニューラルネットワークモデルの訓練が完了するステップと、を含むことを特徴とする、請求項2に記載のテキスト処理方法。
【請求項6】
前記訓練されたワードベクトルモデルにより、前記コンテキストの意味ベクトルを生成するステップの前に、
第1の訓練モジュールが、異なる適用場面に対して、対応する訓練コーパスをそれぞれ生成するステップと、
前記第1の訓練モジュールが、各適用場面に適するワードベクトルモデルを取得するように、各適用場面に対応する訓練コーパスを採用してワードベクトルモデルを訓練するステップと、をさらに含むことを特徴とする、請求項1〜5のいずれかに記載のテキスト処理方法。
【請求項7】
前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成するステップの後、
第2の決定モジュールが、前記少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、異なる候補エンティティ間の類似度を決定するステップと、
第2の処理モジュールが、異なる候補エンティティ間の類似度に基づいて、エンティティ関係のマイニング又はエンティティ推薦を行うステップと、を含むことを特徴とする、請求項1〜5のいずれかに記載のテキスト処理方法。
【請求項8】
曖昧なエンティティワードに基づくテキスト処理装置であって、
曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する取得モジュールであって、前記少なくとも二つの候補エンティティが、異なる意味を有する取得モジュールと、
訓練されたワードベクトルモデルに基づいて、前記コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルに基づいて、前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成する生成モジュールであって、前記教師なしニューラルネットワークモデルは、既に学習により、各エンティティのテキストの意味、及び各エンティティ間の関係を取得している生成モジュールと、
前記コンテキストの意味ベクトル及び前記少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、前記コンテキストと各候補エンティティとの間の類似度を決定する第1の決定モジュールと、
前記コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、前記曖昧性を解消しようとするテキストが前記コンテキストにおいて表現する目標エンティティを決定する第1の処理モジュールと、を含むことを特徴とする、曖昧なエンティティワードに基づくテキスト処理装置。
【請求項9】
コンピュータ機器であって、
メモリと、プロセッサーと、メモリに記憶されプロセッサーで実行可能なコンピュータプログラムとを含み、前記プロセッサーが前記プログラムを実行する場合、請求項1〜7のいずれかに記載の曖昧なエンティティワードに基づくテキスト処理方法が実現されることを特徴とする、コンピュータ機器。
【請求項10】
コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサーにより実行される場合、請求項1〜7のいずれかに記載の曖昧なエンティティワードに基づくテキスト処理方法が実現されることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラムにおける指令がプロセッサーにより実行される場合、請求項1〜7のいずれかに記載の曖昧なエンティティワードに基づくテキスト処理方法が実行されることを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理技術分野に関し、特に曖昧なエンティティワードに基づくテキスト処理方法及び装置に関する。
【背景技術】
【0002】
モバイルインターネットの普及に伴って、マイクロブログや掲示板及び各主要なニュースサイトなどは、人々の生活を大いに便利にするが、これらのプラットフォームにおけるデータのほとんどは、非構造化又は半構造化の形式で存在しているため、これらの知識ベースにおけるデータには、大量の曖昧なエンティティワードが存在する。曖昧なエンティティワードに対して曖昧性の解消処理を行うことにより、当該エンティティワードが異なるコンテキストにおいて、どの事物を指すかを識別することができ、後続の具体的な適用を便利にする。
【0003】
しかし、関連技術において、一つの方法は、既存の知識ベースのデータを利用して、テキストの重複度及び関連度を計算し、曖昧性を解消することができる。もう一つの方法は、既存の知識ベースのデータを利用して、教師なし又は半教師ありのモデル訓練をして、意味に基づいて曖昧なエンティティワードに対して曖昧性を解消する。しかし、この二つの方法は、曖昧性解消の効果が比較的悪い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、関連技術における一つの技術的課題を少なくともある程度で解決することを目的とする。
【0005】
そのため、本発明の一つ目の目的は、曖昧なエンティティワードに基づくテキスト処理方法を提供することである。当該方法において、訓練が完了された教師なしニューラルネットワークモデル(Unsupervised neural network model)は既に学習により、各エンティティのテキストの意味と各エンティティ間の関係を取得しており、教師なしニューラルネットワークモデルにより候補エンティティを処理して、第1のエンティティベクトルを生成し、これにより第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティ間の関係とを含むようにする。従って、エンティティ情報の説明をさらに完備し、また、第1のエンティティベクトルとコンテキストの意味ベクトルとの類似度を計算して、目標エンティティを決定するので、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。
【0006】
本発明の二つ目の目的は、曖昧なエンティティワードに基づくテキスト処理装置を提供することである。
【0007】
本発明の三つ目の目的は、コンピュータ機器を提供することである。
【0008】
本発明の四つ目の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。
【0009】
本発明の五つ目の目的は、コンピュータプログラム製品を提供することである。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明の第1態様の実施例は、曖昧なエンティティワードに基づくテキスト処理方法を提供する。前記曖昧なエンティティワードに基づくテキスト処理方法は、
取得モジュールが、曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得するステップであって、前記少なくとも二つの候補エンティティが、異なる意味を有するステップと、
生成モジュールが、訓練されたワードベクトルモデルに基づいて、前記コンテキストの意味ベクトルを生成するステップと、
前記生成モジュールが、訓練された教師なしニューラルネットワークモデルに基づいて、前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成するステップであって、前記教師なしニューラルネットワークモデルは、既に学習により、各エンティティのテキストの意味、及び各エンティティ間の関係を取得しているステップと、
第1の決定モジュールが、前記コンテキストの意味ベクトル及び前記少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、前記コンテキストと各候補エンティティとの間の類似度を決定するステップと、
第1の処理モジュールが、前記コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、前記曖昧性を解消しようとするテキストが前記コンテキストにおいて表現する目標エンティティを決定するステップと、を含む。
【0011】
本発明の実施例の曖昧なエンティティワードに基づくテキスト処理方法において、曖昧性を解消しようとするテキストのコンテキスト、及び曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得し、訓練されたワードベクトルモデルによりコンテキストから、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成し、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算し、当該類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、第1のエンティティベクトルと、曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標テキストを決定することにより、曖昧性を解消しようとするテキストの曖昧性解消の正確度及び効率を向上させる。関連技術において、各エンティティのテキストの意味、及び各エンティティ間の関係を同時に取得することができないため、知識ベースにおけるエンティティ曖昧性解消の正確度が比較的低いという問題を解決する。
【0012】
上記目的を達成するために、本発明の第2態様の実施例は、曖昧なエンティティワードに基づくテキスト処理装置を提供する。前記曖昧なエンティティワードに基づくテキスト処理装置は、
曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する取得モジュールであって、前記少なくとも二つの候補エンティティが、異なる意味を有する取得モジュールと、
訓練されたワードベクトルモデルに基づいて、前記コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより、前記少なくとも二つの候補エンティティの第1のエンティティベクトルを生成する生成モジュールであって、前記教師なしニューラルネットワークモデルは、既に学習により、各エンティティのテキストの意味、及び各エンティティ間の関係を取得している生成モジュールと、
前記コンテキストの意味ベクトル及び前記少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、前記コンテキストと各候補エンティティとの間の類似度を決定する第1の決定モジュールと、
前記コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、前記曖昧性を解消しようとするテキストが前記コンテキストにおいて表現する目標エンティティを決定する第1の処理モジュールと、を含む。
【0013】
本発明の実施例の曖昧なエンティティワードに基づくテキスト処理装置において、取得モジュールは、曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得し、生成モジュールは、訓練されたワードベクトルモデルによりコンテキストから、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成する。第1の決定モジュールは、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算し、第1の処理モジュールは、当該類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、エンティティ情報の説明をさらに完備する。さらに、第1のエンティティベクトルと曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標テキストを決定することにより、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。関連技術において、各エンティティのテキストの意味、及び各エンティティ間の関係を同時に取得することができず、エンティティ情報の説明が完備しないため、知識ベースにおけるエンティティ曖昧性解消の正確度が比較的低いという問題を解決する。
【0014】
上記目的を達成するために、本発明の第3態様の実施例は、コンピュータ機器を提供する。前記コンピュータ機器は、メモリと、プロセッサーと、メモリに記憶されプロセッサーで実行可能なコンピュータプログラムとを含み、前記プロセッサーが前記プログラムを実行する場合、第1態様に記載のような曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【0015】
上記目的を達成するために、本発明の第4態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。当該プログラムがプロセッサーにより実行される場合、第1態様に記載のような曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【0016】
上記目的を実現するために、本発明の第5態様の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムにおける指令がプロセッサーにより実行される場合、第1態様に記載のような曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【発明の効果】
【0017】
本発明の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本発明の実践により理解される。
【図面の簡単な説明】
【0018】
本発明の上記及び/又は付加的な態様及び利点は、以下、図面を参照する上での実施例についての説明において、明らかになり、理解しやすくなる。
【0019】
図1】本発明の実施例により提供される曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。
図2】本発明の実施例により提供される他の曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。
図3A】本発明の実施例により提供されるもう一つの曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。
図3B】本発明の実施例により提供される百度知識ベースに基づく各モデル間の戦略ブロック図である。
図4】本発明の実施例により提供されるもう一つの曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。
図5】本発明の実施例により提供される曖昧なエンティティワードに基づくテキスト処理装置の構造概略図である。
図6】本発明の実施例により提供される他の曖昧なエンティティワードに基づくテキスト処理装置の構造概略図である。
図7】本出願の実施形態を実現するための例示的なコンピュータ機器を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施例を詳細に説明する。前記実施例における例が図面に示され、同一又は類似する符号は、常に同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本発明を説明するためだけに用いられ、本発明を限定するものと理解してはならない。
【0021】
以下、図面を参照して本発明の実施例の曖昧なエンティティワードに基づくテキスト処理方法及び装置について説明する。
【0022】
図1は、本発明の実施例により提供される曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。
【0023】
図1に示すように、当該方法は、以下のようなステップを含む。
【0024】
ステップ101:曖昧性を解消しようとするテキストのコンテキスト、及び曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する。
【0025】
具体的には、知識ベースから、曖昧性を解消しようとするテキストを含むテキスト集合を取得し、単語分割アルゴリズムを採用してテキスト集合を処理する。可能な実施形態として、中国語の単語分割システム(ictclas)アルゴリズムを採用して、テキスト集合に対して品詞タグ付け及び単語分割を行い、その後、ストップワードテーブルによりストップワードを除去し、複数の文字又は単語を取得して、一つのエンティティ集合を構成し、曖昧性を解消しようとするテキストを中心に、固定のウィンドウにおける一つの単語を、当該曖昧性を解消しようとするテキストのコンテキストとして取り出し、当該曖昧性を解消しようとするテキストのコンテキストを行列A=[w …w]と表する。Nが、曖昧性を解消しようとするテキストのコンテキストの長さである。知識ベースを検索して、曖昧性を解消しようとするテキストが表現するエンティティと、知識ベースにおけるテキストが表現するエンティティとを比較し、同じである場合、知識ベースの中で表現されるエンティティを、曖昧性を解消しようとするテキストが表現する候補エンティティとする。候補エンティティの数が少なくとも二つであり、二つの候補エンティティが異なる意味を有する。例えば、候補エンティティは、それぞれ携帯電話を表現するアップルと、果物を表現するアップルとの二つがあり、二つの候補エンティティは、いずれもアップルであるが、二つのエンティティの意味が異なる。本願において、エンティティワードは実物の名称を表示し、エンティティは実物を表示する。
【0026】
ステップ102:訓練されたワードベクトルモデル(Word Embedding model)により、コンテキストの意味ベクトルを生成する。
【0027】
具体的には、曖昧性を解消しようとするテキストのコンテキストを、訓練されたワードベクトルモデルに入力する。訓練されたワードベクトルモデルには、知識ベースに対応するすべてのエンティティの意味ベクトルテーブルが既に生成されるために、テーブルをルックアップすれば、曖昧性を解消しようとするテキストのコンテキストにおける各ワードに対応する意味ベクトルを取得することができる。可能な実施形態として、本実施例におけるワードベクトルモデルは、ワードベクトル(word2vec)モデルであってもよく、word2vecモデルにより単語を実数値のベクトルとして表現する。例えば、スターは、ワードベクトルで[0.792,−0.177,−0.107,0.109,−0.542,・・・]と表すことができる。
【0028】
なお、ワードベクトルモデルについての解説及び説明は、下記実施例において詳しく説明される。
【0029】
ステップ103:訓練された教師なしニューラルネットワークモデルに基づいて、少なくとも二つの候補エンティティの第1のエンティティベクトルを生成する。
【0030】
具体的には、少なくとも二つの候補エンティティを訓練が完了した教師なしニューラルネットワークモデルに入力して、それぞれ二つの候補エンティティに対応するベクトルを生成する。本実施例には、教師なしニューラルネットワークモデルと、教師ありニューラルネットワークモデル(Supervised neural network model)とがあるため、便宜上区別するために、教師なしニューラルネットワークモデルが生成するベクトルを第1のエンティティベクトルといい、教師ありニューラルネットワークモデルが生成するベクトルを第2のエンティティベクトルという。
【0031】
なお、訓練された教師なしニューラルネットワークモデルは、各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得している。その原因は、教師なしニューラルネットワークは、エンティティとエンティティとの間の関係を利用して、エンティティの潜在的な意味情報を説明するためのものであるが、教師なしニューラルネットワークモデルは、教師ありニューラルネットワークモデルが生成したデータを基に、さらに訓練して取得されるものであり、教師ありニューラルネットワークモデルは、エンティティの関連の主要情報を利用して、エンティティのテキストの意味情報を説明することができる。したがって、教師ありニューラルネットワークモデルが生成するエンティティテキストの意味データを利用して、教師なしニューラルネットワークモデルを訓練することができる。これにより、教師なしニューラルネットワークモデルは、各エンティティのテキストの意味、及び各エンティティ間の関係を学習して取得することができ、エンティティ情報の説明をさらに完備する。後続する実施例では、教師ありニューラルネットワークと、教師なしニューラルネットワークとの生成及び訓練のプロセスについて詳しく説明する。
【0032】
ステップ104:コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を決定する。
【0033】
具体的には、コンテキストと各候補エンティティとの間の類似度を計算する前に、取得されるコンテキストの意味ベクトルを教師なしニューラルネットワークモデルに入力する必要がある。教師なしニューラルネットワークモデルは、入力層、隠れ層及び出力層である三つの層を含み、コンテキストの意味ベクトルを教師なしニューラルネットワークモデルの入力層に入力し、当該モデルの出力層のウェイトをコンテキストに対応する第1のエンティティベクトルとし、コンテキストに対応する第1のエンティティベクトル及び各候補エンティティの第1のエンティティベクトルに基づいて、類似度を計算する。可能な実施形態として、活性化層(Logistic Regression)モデル、即ち、教師なしニューラルネットワークモデルの出力層を訓練し、直接に計算して取得する。
【0034】
なお、コンテキストの意味ベクトルを教師なしニューラルネットワークモデルに入力して、コンテキストに対応する第1のエンティティベクトルを取得することにより、コンテキストに対応する第1のエンティティベクトルと、候補エンティティに対応する第1のエンティティベクトルとが、同じベクトル空間に存在し、類似度の計算を便利にする。
【0035】
ステップ105:コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。
【0036】
具体的には、計算によりコンテキストと各候補エンティティとの間の類似度を取得し、コンテキストとの類似度が最も高い候補エンティティを決定し、当該候補エンティティを、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティとし、即ち、曖昧性を解消しようとするテキストの本来の意味を復元させ、エンティティの曖昧性を解消する。
【0037】
本実施例の曖昧なエンティティワードに基づくテキスト処理方法において、曖昧性を解消しようとするテキストのコンテキスト、及び曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得し、コンテキストから、訓練されたワードベクトルモデルによりコンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成し、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算し、少なくとも二つの候補エンティティの中から、当該類似度に基づいて、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、エンティティ情報の完備な説明を実現する。また、第1のエンティティベクトルと、曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。関連技術において、各エンティティのテキストの意味、及び各エンティティ間の関係を同時に取得することができないため、知識ベースにおけるエンティティ曖昧性解消の正確度が比較的低いという問題を解決する。
【0038】
ワードベクトルモデルを採用してコンテキストの意味ベクトルを生成する前に、まず、適用場面に応じて、ワードベクトルモデルを訓練して、適用場面に適合するワードベクトルモデルを取得する必要があるため、本実施例は、このプロセスについて説明する。
【0039】
そのため、本発明は、他の可能な曖昧なエンティティワードに基づくテキスト処理方法を提供する。図2は、本発明の実施例により提供される他の曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートであり、ワードベクトルモデルを生成するプロセスをさらに明確に説明する。図2に示すように、前の実施例に基づいて、当該方法は、ステップ102の前に、ステップ201とステップ202とを含んでもよい。
【0040】
ステップ201:異なる適用場面に対して、対応する訓練コーパスをそれぞれ生成する。
【0041】
具体的には、異なる適用場面に応じて異なる訓練コーパスを採用する。例えば、検索アプリケーションにおいて、検索ログを利用して対応する訓練コーパスを構築する必要がある。ウェブページテキスト理解アプリケーションにおいて、ウェブページを利用して訓練コーパスを構築する必要がある。可能な実施形態として、本実施例は、百度のユーザー検索ログ、及び百度の知識ベースデータに基づいて、異なる適用場面に応じて対応する訓練コーパスを生成する。百度のユーザー検索ログ及び百度の知識ベースデータに基づいたので、データ量が比較的大きく、訓練コーパスが比較的豊富であり、訓練の効果を向上させることができる。
【0042】
ステップ202:各適用場面に適するワードベクトルモデルを取得するように、各適用場面に対応する訓練コーパスを採用してワードベクトルモデルを訓練する。
【0043】
具体的には、適用場面に応じて対応する訓練コーパスを決定した後、訓練コーパスに対して単語分割処理を行う。可能な実施形態として、中国語単語分割システム(ictclas)の単語分割アルゴリズムを採用して、訓練コーパスにおける複数のドキュメントに対して、単語分割処理を行い、ストップワードテーブルを利用して、ストップワードを除去することにより、複数の文字及び単語の断片を取得する。各断片は、一つの見出し語(term)であり、即ち、各termが一つの単語又は一つの文字を代表する。各termがスペースで区切られ、例えば、区別の便宜上、異なる断片をナンバリングして、term1、term2、term3、term4、term5……のように表示してもよい。
【0044】
さらに、ワードベクトルモデルを採用して訓練を行う可能な一実施形態として、ワードベクトルモデルは、word2vecモデルであってもよい。当該モデルは、単語を実数値ベクトルとして表現する効率的なアルゴリズムモデルであり、ディープラーニングの思想を利用して、訓練により、テキスト内容の処理をK
次元ベクトル空間におけるベクトルに簡素化し、さらに、ベクトル間の演算により、ベクトル空間上の類似度を取得することができる。ベクトル空間上の類似度は、テキストの意味上の類似度を表すために用いることができる。本実施例において、具体的には、word2vecモデルにおけるskipgram方式を採用することができ、適用場面に対応する訓練コーパスを訓練して、異なる適用場面に対応する単語の意味ベクトルテーブルを取得することにより、各適用場面に適するワードベクトルモデルを取得する。
【0045】
本実施例の曖昧なエンティティワードに基づくテキスト処理方法において、適用場面に応じてワードベクトルモデルを訓練して、各適用場面に適するワードベクトルモデルを取得することで、異なる適用場面に対応して曖昧性解消処理を行う必要がある場合、曖昧性を解消しようとするテキストに対応するコンテキストを処理することができる。例えば、テーブルルックアップにより、コンテキストに対応する意味ベクトルを生成するとともに、曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティに対して、各エンティティのテキストの意味及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティの第1のエンティティベクトルを生成して、エンティティ情報の説明をさらに完備する。さらに、コンテキストの意味ベクトル及び候補エンティティの第1のエンティティベクトルに基づいて、類似度を計算し、類似度の計算結果に基づいて、候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定して、曖昧性解消の正確度を比較的高くする。同時に、ワードベクトルモデルに対する訓練は、最大の中国語知識ベースに基づくものであり、同名異義の多義的なエンティティの曖昧性解消に対して効果的である。
【0046】
上記実施例において、候補エンティティが訓練された教師なしニューラルネットワークモデルに入力され、第1のエンティティベクトルを取得する。教師なしニューラルネットワークモデルの訓練プロセスでは、教師ありニューラルネットワークモデルにより出力されるデータが必要とされているため、次いで、実施例により教師ありニューラルネットワークモデルの生成及び訓練のプロセス、並びに教師ありニューラルネットワークモデルの訓練が完了した後、教師なしニューラルネットワークモデルを訓練するプロセスを解説し、説明する。
【0047】
上記実施例に基づいて、本発明は、曖昧なエンティティワードに基づくテキスト処理方法の可能な実施形態をさらに提供する。図3Aは、本発明の実施例により提供される他の曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートである。図3Aに示すように、ステップ103の前に、ステップ301〜ステップ306を含んでもよい。
【0048】
ステップ301:教師ありニューラルネットワークモデルの訓練サンプルの正例及び負例を生成する。
【0049】
訓練サンプルの正例の生成方法について、具体的には、知識ベースにおける各エンティティは、いずれも関連の属性及び属性値を有し、同時に、各エンティティに対応する当該エンティティの紹介情報を有し、知識ベースにおける各エンティティの属性、及び各エンティティの紹介情報から抽出したキーワードに基づいて、訓練サンプルの正例を生成する。例えば、エンティティが「アンディ・ラウ」である場合、彼は多くの属性を有し、例えば、アンディ・ラウが妻の属性、娘の属性を有し、妻の属性値はキャロル・チューであり、娘の属性値はハンナであり、関連の属性が多くあるので、ここでは、いちいち列挙しない。
【0050】
アンディ・ラウについて、さらに、関連の紹介情報があり、例えば、アンディ・ラウは、1961年9月27日、香港に生まれ、俳優、歌手、プロデューサー、作詞家であり、代表作は、『神▲雕▼剣侠』、『インファナル・アフェア』、『SHOCK WAVEショック ウェイブ
爆弾処理班』などがある。当該紹介情報により、エンティティ「アンディ・ラウ」のキーワードを抽出することができ、例えば、俳優、歌手、作品『インファナル・アフェア』などである。
【0051】
したがって、キャロル・チュー、ハンナ、俳優、歌手、作品『インファナル・アフェア』などをエンティティアンディ・ラウの訓練サンプルの正例とすることができる。
【0052】
訓練サンプルの負例の生成方法について、具体的には、知識ベースにおける各エンティティの全部のテキスト説明情報に対して、単語分割処理を行った後、単語分割により取得された各見出し語に対して単語頻度を統計して、各見出し語の単語頻度に基づいて、各見出し語をネガティブサンプリングして、訓練サンプルの負例を取得する。発明人は、実際のテストにおいて、ネガティブサンプリングを完全にランダムすることで決定された負例を採用する方が、単語頻度によりネガティブサンプリングすることで決定された負例を採用するより、訓練の効果がよく、モデル訓練の速度及びモデル訓練の効果を向上させる。
【0053】
例えば、下表1に示すように、各見出し語及び各見出し語の出現頻度により、見出し語及び見出し語頻度の表を生成し、単語頻度の高低順で排列する。
【表1】
【0054】
可能な実施形態として、表1の見出し語及び見出し語頻度の表に基づいて、頻度によりネガティブサンプリングを行い、ネガティブサンプリングの結果で決定される見出し語を訓練のネガティブサンプルとする。ランダムのネガティブサンプリングと比較すると、当該方式は、モデル訓練の効果がよりよい。
【0055】
ステップ302:訓練サンプルに基づいて、教師ありニューラルネットワークモデルを訓練する。
【0056】
教師ありニューラルネットワークモデルは、訓練サンプルにおける各テキストの意味ベクトルを入力するための第1の層と、第1の層に入力されたテキストが説明するエンティティを予測するための第2の層とを含み、可能な実施形態として、文書ベクトル(Doc2vec)の技術を採用して当該2層を接続し、訓練することができる。具体的には、教師ありニューラルネットワークモデルの入力、即ち、第1の層の入力は、訓練サンプルにおける各テキストの意味ベクトルであり、即ち、訓練サンプルに対応するエンティティのテキストを、図2に対応する実施例におけるワードベクトルモデルに入力して、当該エンティティに対応するテキストの意味ベクトルを生成し、当該テキストの意味ベクトルを教師ありニューラルネットワークモデルの第1の層に入力し、その後、第2の層により、第1の層に入力されたテキストが説明するエンティティを予測する。
【0057】
ステップ303:教師ありニューラルネットワークモデルにおいて、第1の層に入力された訓練サンプルにおけるテキストが、第2の層により出力されるエンティティを説明する場合、教師ありニューラルネットワークモデルの訓練が完了したと決定する。
【0058】
具体的には、教師ありニューラルネットワークモデルにおいて、第1の層に入力された訓練サンプルにおけるテキストが、第2の層により出力されるエンティティを説明する場合、第2の層のパラメータが、第1の層に入力された訓練サンプルのテキストが説明するエンティティを正確に予測するために利用可能であり、当該パラメータの訓練が効果的であることが表明され、第2の層のパラメータを決定するとともに、教師ありニューラルネットワークモデルの訓練が完了したと決定する。教師ありニューラルネットワークモデルの2層の設置方法では、教師ありニューラルネットワークモデルが、訓練を完了した後、各エンティティの意味を既に学習して取得しており、テキストとエンティティとの間の対応関係を決定する。
【0059】
ステップ304:訓練された教師ありニューラルネットワークモデルを採用して、知識ベースにおける各エンティティの第2のエンティティベクトルを生成する。
【0060】
具体的には、訓練された教師ありニューラルネットワークモデルは、第2の層のパラメータを決定し、知識ベースにおける各エンティティを訓練された教師ありニューラルネットワークモデルに入力し、第2の層のパラメータを利用して、知識ベースにおける各エンティティに対応する第2のエンティティベクトルを生成することができる。
【0061】
ステップ305:知識ベースにおける各エンティティの第2のエンティティベクトルに基づいて、教師なしニューラルネットワークモデルにより出力された各エンティティの第1のエンティティベクトルを初期化する。
【0062】
具体的には、教師なしニューラルネットワークモデルへの入力が、知識ベースにおける各エンティティであり、各エンティティが、訓練されていない教師なしニューラルネットワークモデルに入力された後、各エンティティに対応する第1のエンティティベクトルが生成される。当該第1のエンティティベクトルは、ランダムに生成される乱数列であり、当該各エンティティの第1のエンティティベクトルは、後続の訓練プロセスにおいて、絶えず更新する必要があり、最終的に、目標要件に合致する第1のエンティティベクトルを取得する。教師ありニューラルネットワークモデルにより出力される知識ベースにおける各エンティティの第2のエンティティベクトルを、教師なしニューラルネットワークモデルに入力して、教師なしニューラルネットワークモデルにより出力された各エンティティの第1のエンティティベクトルを初期化し、即ち、教師なしニューラルネットワークモデルの出力を各エンティティの第2のエンティティベクトルに換えて、教師なしニューラルネットワークモデルを訓練する場合の反復回数を低減し、訓練の速度及び訓練の効果を向上させることができる。同時に、第2のエンティティベクトルは、テキストとエンティティとの間の関係を既に学習しており、教師なしニューラルネットワークモデルに再度入力して、訓練を行い、さらに、教師なしニューラルネットワークモデルによりエンティティとエンティティとの間の関係を学習して取得することができる。したがって、最終的には、テキストとエンティティとの間の関係と、エンティティとエンティティとの間の関係とを含む第1のエンティティベクトルを出力することができる。
【0063】
ステップ306:エンティティ間の関連関係に基づいて、初期化された教師なしニューラルネットワークモデルを訓練する。
【0064】
具体的には、知識ベースにおける関連関係が存在する各エンティティに基づいて、及び/又は検索ログにおける共起関係が存在するエンティティに基づいて、初期化された教師なしニューラルネットワークモデルを訓練し、教師なしニューラルネットワークモデルにより出力される第1のエンティティベクトルの間の距離が、エンティティ間の関係の密接程度に対応する場合、教師なしニューラルネットワークモデルの訓練が完了する。
【0065】
上記プロセスをさらに説明するために、図3Bは、本発明の実施例により提供される百度知識ベースに基づく各モデル間の戦略ブロック図である。図3Bに示すように、ワードベクトルモデルは、百度のユーザー検索ログ及び百度知識ベースのデータに基づいて、見出し語ベクトルを生成する。教師ありニューラルネットワークモデルは、百度知識ベースのデータに基づいて訓練サンプルを生成し、訓練サンプルから、ワードベクトルモデルにより訓練サンプルに対応するワードベクトルを生成し、訓練サンプルのワードベクトルを教師ありニューラルネットワークモデルに入力して、各エンティティの意味を既に学習したエンティティ意味ベクトル、即ち、各エンティティの第2のエンティティベクトルを生成する。
【0066】
さらに、教師ありニューラルネットワークモデルは、生成される第2のエンティティベクトルを教師なしニューラルネットワークモデルに入力して、教師なしニューラルネットワークモデルの第1のエンティティベクトルを初期化し、その後、訓練により各エンティティ意味及び各エンティティ間の関係を既に学習した第1のエンティティベクトルを生成し、エンティティ情報に対する完備の説明を実現し、曖昧性解消処理の正確度を向上させる。
【0067】
本実施例の曖昧なエンティティワードに基づくテキスト処理方法において、教師ありニューラルネットワークモデルを訓練することにより、教師ありニューラルネットワークモデルが各エンティティの意味を学習し、さらに、教師ありニューラルネットワークモデルにより生成された各エンティティの第2のエンティティベクトルで、教師なしニューラルネットワークモデルを初期化して、教師なしニューラルネットワークモデルが学習して、各エンティティのテキストの意味及び各エンティティ間の関係を取得することができるようにし、データをより十分に利用し、エンティティの情報を完全に説明する。教師なしニューラルネットワークモデルにより候補エンティティを処理して、第1のエンティティベクトルを生成し、さらに、第1のエンティティベクトルと、曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算し、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。
【0068】
上記実施例に基づいて、本発明の実施例は、可能な曖昧なエンティティワードに基づくテキスト処理方法をさらに提供する。図4は、本発明の実施例により提供されるもう一つの曖昧なエンティティワードに基づくテキスト処理方法の概略フローチャートであり、図4に示すように、ステップ103の後に、ステップ401と、ステップ402とをさらに含んでもよい。
【0069】
ステップ401:少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、異なる候補エンティティ間の類似度を決定する。
【0070】
可能な実施形態として、少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、余弦距離アルゴリズムを採用して、任意の二つの候補エンティティの第1のエンティティベクトルの間の類似度を計算することができる。
【0071】
ステップ402:異なる候補エンティティ間の類似度に基づいて、エンティティ関係のマイニング又はエンティティ推薦を行う。
【0072】
具体的には、計算により、異なる候補エンティティ間の類似度を取得する。可能な実施形態として、類似度と予め設置された閾値とを比較して、類似度の値が閾値を超える場合、それに対応する二つの異なる候補エンティティの間には、エンティティ関係が存在すると考えられ、ナレッジボールトにエンティティのリンク関係を追加し、当該リンク関係は、エンティティ推薦に用いることができる。例えば、検索の適用場面において、ユーザーが一つのエンティティを検索する場合、関連のもう一つのエンティティを推薦することができ、検索の効率を向上させる。
【0073】
本実施例の曖昧なエンティティワードに基づくテキスト処理方法において、曖昧性を解消しようとするテキストのコンテキスト、及び曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得し、訓練されたワードベクトルモデルによりコンテキストから、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成し、コンテキストの意味ベクトル、及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算し、当該類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、さらに、第1のエンティティベクトルと、曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストの曖昧性解消の正確度及び効率を向上させ、同時に、生成される第1のエンティティベクトルに基づいて、異なる候補エンティティ間の類似度を計算する。エンティティ関係のマイニング及びエンティティ推薦に用いることができ、エンティティのリンク関係を増加させる。
【0074】
上記実施例を実現するために、本発明は、曖昧なエンティティワードに基づくテキスト処理装置をさらに提供する。
【0075】
図5は、本発明の実施例により提供される曖昧なエンティティワードに基づくテキスト処理装置の構造概略図である。
【0076】
図5に示すように、当該装置は、取得モジュール61と、生成モジュール62と、第1の決定モジュール63と、第1の処理モジュール64と、を含む。
【0077】
取得モジュール61は、曖昧性を解消しようとするテキストのコンテキスト、及び曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する。少なくとも二つの候補エンティティは、異なる意味を有する。
【0078】
生成モジュール62は、訓練されたワードベクトルモデルに基づいて、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルに基づいて、少なくとも二つの候補エンティティの第1のエンティティベクトルを生成する。教師なしニューラルネットワークモデルは、既に学習により、各エンティティのテキストの意味、及び各エンティティ間の関係を取得している。
【0079】
第1の決定モジュール63は、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を決定する。
【0080】
第1の処理モジュール64は、コンテキストと各候補エンティティとの間の類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。
なお、上記方法実施例についての解説及び説明は、当該実施例の装置にも適し、ここでは、詳しく説明しない。
【0081】
本実施例の曖昧なエンティティワードに基づくテキスト処理装置において、取得モジュールは、曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する。生成モジュールは、訓練されたワードベクトルモデルによりコンテキストから、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成する。第1の決定モジュールは、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算して、第1の処理モジュールは、当該類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、さらに、第1のエンティティベクトルと曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標テキストを決定することにより、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。関連技術において、各エンティティのテキストの意味、及び各エンティティ間の関係を同時に取得することができず、エンティティ情報の説明が完備しないため、エンティティ曖昧性解消の正確度が比較的低いという問題を解決する。
【0082】
上記実施例に基づいて、本発明の実施例は、曖昧なエンティティワードに基づくテキスト処理装置の可能な実施形態をさらに提供する。図6は、本発明の実施例により提供されるもう一つの曖昧なエンティティワードに基づくテキスト処理装置の構造概略図であり、図6に示すように、前の実施例を基に、該装置は、第1の訓練モジュール65と、第2の訓練モジュール66と、第3の訓練モジュール67と、第2の決定モジュール68と、第2の処理モジュール69と、をさらに含む。
【0083】
第1の訓練モジュール65は、異なる適用場面に対して、対応する訓練コーパスをそれぞれ生成し、各適用場面に適するワードベクトルモデルを取得するように、各適用場面に対応する訓練コーパスを採用してワードベクトルモデルを訓練する。
【0084】
第2の訓練モジュール66は、知識ベースにおける各エンティティの属性、及び各エンティティの紹介情報から抽出したキーワードに基づいて、訓練サンプルの正例を生成し、知識ベースにおける各エンティティの全部のテキスト説明情報に基づいて、訓練サンプルの負例を生成し、訓練サンプルに基づいて、教師ありニューラルネットワークモデルを訓練する。教師ありニューラルネットワークモデルは、訓練サンプルにおける各テキストの意味ベクトルを入力するための第1の層と、第1の層に入力されたテキストが説明するエンティティを予測するための第2の層と、を含み、第2の層のパラメータは、第2のエンティティベクトルを生成するために用いられる。教師ありニューラルネットワークモデルにおいて、第1の層に入力された訓練サンプルにおけるテキストが第2の層により出力されるエンティティを説明する場合、教師ありニューラルネットワークモデルの訓練が完了したと決定する。
【0085】
可能な実施形態として、第2の訓練モジュール66は、さらに、知識ベースにおける各エンティティの全部のテキスト説明情報に対して、単語分割処理を行った後、単語分割により取得された各見出し語の単語頻度を統計し、各見出し語の単語頻度に基づいて、各見出し語をネガティブサンプリングして、訓練サンプルの負例を取得することができる。
【0086】
第3の訓練モジュール67は、訓練された教師ありニューラルネットワークモデルを採用して、知識ベースにおける各エンティティの第2のエンティティベクトルを生成する。教師ありニューラルネットワークモデルは、既に学習により、各エンティティの意味を取得しており、知識ベースにおける各エンティティの第2のエンティティベクトルに基づいて、教師なしニューラルネットワークモデルにより出力された各エンティティの第1のエンティティベクトルを初期化して、エンティティ間の関連関係に基づいて、初期化された教師なしニューラルネットワークモデルを訓練する。
【0087】
可能な実施形態として、第3の訓練モジュール67は、さらに、知識ベースにおける関連関係が存在する各エンティティに基づいて、及び/又は検索ログにおける共起関係が存在するエンティティに基づいて、初期化された教師なしニューラルネットワークモデルを訓練することができる。教師なしニューラルネットワークモデルにより出力される第1のエンティティベクトルの間の距離が、エンティティ間の関係の密接程度に対応する場合、教師なしニューラルネットワークモデルの訓練が完了する。
【0088】
第2の決定モジュール68は、少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、異なる候補エンティティ間の類似度を決定する。
【0089】
第2の処理モジュール69は、異なる候補エンティティ間の類似度に基づいて、エンティティ関係のマイニング又はエンティティ推薦を行う。
【0090】
なお、上記方法実施例についての解説及び説明は、当該実施例の装置にも適し、ここでは、詳しく説明しない。
【0091】
本実施例の曖昧なエンティティワードに基づくテキスト処理装置において、取得モジュールは、曖昧性を解消しようとするテキストのコンテキスト、及び前記曖昧性を解消しようとするテキストが表現する少なくとも二つの候補エンティティを取得する。生成モジュールは、訓練されたワードベクトルモデルによりコンテキストから、コンテキストの意味ベクトルを生成し、訓練された教師なしニューラルネットワークモデルにより少なくとも二つの候補エンティティから、第1のエンティティベクトルを生成する。第1の決定モジュールは、コンテキストの意味ベクトル及び少なくとも二つの候補エンティティの第1のエンティティベクトルに基づいて、コンテキストと各候補エンティティとの間の類似度を計算し、第1の処理モジュールは、当該類似度に基づいて、少なくとも二つの候補エンティティの中から、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標エンティティを決定する。各エンティティのテキストの意味、及び各エンティティ間の関係を既に学習して取得した教師なしニューラルネットワークモデルにより、候補エンティティを処理して、第1のエンティティベクトルを生成する。候補エンティティの第1のエンティティベクトルも、候補エンティティのテキストの意味と、各エンティティとの間の関係とを含み、さらに、第1のエンティティベクトルと曖昧性を解消しようとするテキストのコンテキストの意味ベクトルとの類似度を計算して、曖昧性を解消しようとするテキストがコンテキストにおいて表現する目標テキストを決定することにより、曖昧性を解消しようとするテキストの曖昧性解消の正確度を向上させる。関連技術において、各エンティティのテキストの意味、及び各エンティティ間の関係を同時に取得することができず、エンティティ情報の説明が完備しないため、エンティティ曖昧性解消の正確度が比較的低いという問題を解決する。
【0092】
上記実施例を実現するために、本発明は、メモリと、プロセッサーと、メモリに記憶され、プロセッサーで実行可能なコンピュータプログラムとを含むコンピュータ機器をさらに提供する。前記プロセッサーが前記プログラムを実行する場合、上記方法実施例に記載の曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【0093】
上記実施例を実現するために、本発明は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。当該プログラムがプロセッサーにより実行される場合、上記方法実施例に記載の曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【0094】
上記実施例を実現するために、本発明は、コンピュータプログラム製品をさらに提供する。前記コンピュータプログラム製品における指令がプロセッサーにより実行される場合、上記方法実施例に記載の曖昧なエンティティワードに基づくテキスト処理方法が実現される。
【0095】
図7は、本出願の実施形態を実現するための例示的なコンピュータ機器を示すブロック図である。図7に示されるコンピュータ機器12は、単なる一つの例であり、本出願の実施例の機能及び使用範囲に何らの制限をもたらしてはならない。
【0096】
図7に示すように、コンピュータ機器12は、汎用コンピューティングデバイスの形態で示されてもよい。コンピュータ機器12のコンポーネントとしては、限定されないが、一つ又は複数のプロセッサ又は処理ユニット16と、システムメモリ28と、異なるシステムコンポーネント(システムメモリ28と処理ユニット16とを含む)を接続するバス18と、を含む。
【0097】
バス18は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうち任意のバス構造を使用するローカルバスを含む、複数種のバス構造のうち一つ又は複数のものを表す。限定するわけではないが、例として、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、以下ISAと略する)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture、以下MCAと略する)バス、エンハンストISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、以下VESAと略する)ローカルバス、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection、以下PCIと略する)バスを含む。
【0098】
コンピュータ機器12は、典型的には、多様なコンピュータシステム可読媒体を備える。これらの媒体は、コンピュータ機器12がアクセスできる任意の入手可能な媒体であってもよく、揮発性媒体及び不揮発性媒体と、リムーバブル媒体及びノンリムーバブル媒体とを含む。
【0099】
システムメモリ28は、ランダムアクセスメモリ(Random Access Memory、RAM)30及び/又はキャッシュメモリ32などの揮発性メモリの形態を取るコンピュータシステム可読媒体を含んでもよい。コンピュータ機器12は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。例示だけであるが、ストレージシステム34は、ノンリムーバブル、不揮発性磁気媒体(図7に示されていないが、通常「ハードドライブ」と称される)に対して読み出し及び書き込みをするために用いることができる。図7に示されていないが、リムーバブル、不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル、不揮発性光学ディスク(例えば、シーディーロム(Compact Disc Read Only Memory、以下「CD−ROM」と略する)、ディーブイディーロム(Digital Video Disc Read Only Memory、以下「DVD−ROM」と略する)又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。そのような場合、各ドライブは、一つ又は複数のデータメディアインターフェイスによりバス18に接続することがきる。メモリ28は、本出願の各実施例に記載の機能を実行するように構成されているプログラムモジュールのセット(例えば、少なくとも一つ)を有する少なくとも一つのプログラム製品を含んでもよい。
【0100】
プログラムモジュール42のセット(少なくとも一つ)を有するプログラム/ユーティリティ40は、例えば、メモリ28に記憶されてもよく、限定されないが、このようなプログラムモジュール42は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、プログラムデータを含み、これらの例のそれぞれ又は何らかの組み合わせには、ネットワーキング環境の実装が含まれてもよい。プログラムモジュール42は、通常本出願に記載の実施例における機能及び/又は方法を実行する。
【0101】
コンピュータ機器12は、一つ又は複数の外部デバイス14(例えば、キーボードやポインティングデバイス、ディスプレイ24など)と通信してよいし、ユーザがコンピュータ機器12とインタラクションすることを可能にする一つ又は複数のデバイスと通信してもよく、及び/又はコンピュータ機器12が一つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信する。そのような通信は、入力/出力(I/O)インターフェイス22を介して行うことができる。また、コンピュータ機器12は、ネットワークアダプタ20を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、以下「LAN」と略する)、ワイドエリアネットワーク(Wide Area Network、以下「WAN」と略する)、及び/又はパブリックネットワーク、例えば、インターネット)と通信できる。図に示すように、ネットワークアダプタ20は、バス18を介して、コンピュータ機器12の他のモジュールと通信する。なお、図示されていないが、他のハードウェア及び/又はソフトウェアモジュールをコンピュータ機器12と組み合わせて使用することができ、例として、限定されていないが、マイクロコードやデバイスドライバ、冗長化処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、データアーカイバルストレージシステムなどを含む。
【0102】
処理ユニット16は、システムメモリ28に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、上記実施例において言及される方法を行う。
【0103】
本発明の説明において、「一つの実施例」、「一部の実施例」、「例」、「具体的な例」或いは「一部の例」などの用語を参考した説明とは、当該実施例或いは例に合わせて説明された具体的な特徴、構成、材料或いは特性が、本発明の少なくとも一つの実施例或いは例に含まれることを意味する。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施例或いは例を指すことではない。また、説明された具体的な特徴、構成、材料或いは特性は、いずれか一つ或いは複数の実施例又は例において適切に結合することができる。なお、互いに矛盾しない限り、当業者は、本明細書に説明された異なる実施例又は例、及び異なる実施例又は例の特徴を結合し、組み合わせることができる。
【0104】
なお、「第1」、「第2」の用語は、単に目的を説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはならない。よって、「第1」、「第2」と限定されている特徴は少なくとも一つの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、二つ以上、例えば、二つ、三つなどを意味する。
【0105】
フローチャート、又はここでもう一つの方式により説明されるいかなるプロセス又は方法の説明は、特定のロジック機能又はプロセスのステップを実現するための一つ又はそれ以上の実行可能な命令のコードを含むモジュール、セグメント又は部分と理解されてもよい。また、本発明の好ましい実施形態の範囲は、もう一つの実現方式が含まれており、例示された、又は議論された順序に従わなくてもよく、言及された機能が実質的に同時に、又は逆の順序に応じて機能を実行することを含む。本発明の実施例が属する技術分野の当業者は、これを理解すべきである。
【0106】
フローチャートに示され、又は、ここでもう一つの方式により説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の一定のシーケンスリストと考えられてもよく、コマンド実行システム、装置又は機器(例えば、コンピュータに基づくシステム、プロセッサを含むシステム、又は命令実行システム、装置又は機器からコマンドを取り出して、実行可能な他のシステム)が使用するように、又はこれらのコマンド実行システム、装置又は機器を組み合わせて使用するように、いかなるコンピュータ読み取り可能な媒体において具現化されてもよい。本明細書の場合、「コンピュータ読み取り可能な媒体」とは、コマンド実行システム、装置又は機器が使用するように、又はこれらのコマンド実行システム、装置又は機器と組み合わせて使用するように、プログラムを含む、記憶し、通信し、伝播し、又は伝送することができるいかなる装置であってもよい。コンピュータ読み取り可能な媒体のより具体的な例(非網羅的なリスト)としては、一つ又は複数の配線を有する電気に接続され部(IPM過電流保護回路)、ポータブルコンピュータディスクボックス(磁気デバイス)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去・書き込み可能なランダムアクセスメモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及びポータブルシディロム(CDROM)を含む。また、コンピュータ読み取り可能な媒体は、上記プログラムが印刷される用紙又は他の適切な媒体であってもよい。なぜならば、例えば、用紙や他の媒体を光学スキャンし、引き続き編集し、デコードし、又は必要に応じて他の適切な方式により処理して、電子的な方法で上記プログラムを取得した後、それをコンピュータのメモリに記憶することができる。
【0107】
なお、本発明の実施形態の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現できる。上記実施形態では、複数のステップ又は方法は、メモリに記憶され、且つ適切なコマンド実行システムにより実行されるソフトウェア又はファームウェアにより実現することができる。例えば、ハードウェアにより実現される場合は、もう一つの実施形態と同じく、本分野の以下の公知技術のうち何れか一つ又はこれらの組み合わせにより実現することができる。データ信号のロジック機能を実現するための論理ゲート回路を備えたディスクリート論理回路、適切な組み合わせ論理ゲート回路を備えた専用集積回路、プログラム可能なゲートアレイ(PGA)、フィールドプログラム可能なゲートアレイ(FPGA)などである。
【0108】
当業者は、上記実施形態に係る方法に含まれている全部又は一部のステップが、プログラムにより関連するハードウェアを指令することにより完了できることを理解できる。前記プログラムは、コンピュータ読み取り可能な媒体に記憶されてもよく、当該プログラムは実行時に、方法の実施例における一つのステップ又はその組み合わせを含む。
【0109】
また、本発明の各実施例に係る各機能ユニットは、一つの処理モジュールに集積されてもよく、各ユニットが物理的に独立して存在してもよく、二つ又は二つ以上のユニットが一つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式により実現されてもよく、ソフトウェアの機能モジュールの形式により実現されてもよい。上記集積されたモジュールがソフトウェアの機能モジュールの形式により実現され、独立の製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶することもできる。
【0110】
以上説明した記憶媒体は、リードオンリーメモリ、磁気ディスク又は光学ディスクなどであってもよい。以上、本発明の実施形態を示して説明したが、なお、上記実施形態は、例示的なものであり、本発明を限定するものと理解してはならない。当業者は、本発明の範囲内で上記実施形態に対して変更、修正、取り替え及び変形を行うことができる。
図1
図2
図3A
図3B
図4
図5
図6
図7