IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ブイブイ エーピーエスの特許一覧

特表2023-528985フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム
<>
  • 特表-フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム 図1
  • 特表-フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム 図2
  • 特表-フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム 図3
  • 特表-フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-06
(54)【発明の名称】フィードバックループを備えた大規模非構造化データを検索するコンピュータ実装方法およびそのためのデータ処理装置またはシステム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230629BHJP
   G06F 16/33 20190101ALI20230629BHJP
【FI】
G06F16/35
G06F16/33
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022576103
(86)(22)【出願日】2021-06-09
(85)【翻訳文提出日】2023-02-06
(86)【国際出願番号】 EP2021065459
(87)【国際公開番号】W WO2021250094
(87)【国際公開日】2021-12-16
(31)【優先権主張番号】PA202070362
(32)【優先日】2020-06-09
(33)【優先権主張国・地域又は機関】DK
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
(71)【出願人】
【識別番号】522478639
【氏名又は名称】ブイブイ エーピーエス
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【弁理士】
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【弁理士】
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】ポールセン,デニス ジュール
(72)【発明者】
【氏名】ラヴェツ,クリスチャン
(72)【発明者】
【氏名】カボーサノス,ゲオルギオス
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
本発明は、クラスタ化データ(106)を検索するコンピュータ実装方法(およびそのためのシステム)に関し、クラスタ化データ(106)は多次元特徴空間を表し、方法は、予め定められた数の数的特徴値を含むクエリー特徴ベクトル(202)を表すデータを取得するステップ、クエリー特徴ベクトル(202)をクラスタ化データ(106)に投影して、クエリー特徴ベクトル(202)の予め定められた次元範囲内であると判断されたいくつかの潜在的な一致(203)を取得するステップ、潜在的な一致(203)の各々に対する1つ以上のスコア値を表すデータを決定するステップ、決定された1つ以上のスコア値に応答して、クエリー特徴ベクトル(202)を更新または再較正し、変更されたクエリー特徴ベクトルを生じるステップ、変更されたクエリー特徴ベクトルをクラスタ化データ(106)に投影し、それに応答していくつかの潜在的な一致(203)を取得するステップ、ならびに、1つ以上のスコア値を表すデータを決定すること、クエリー特徴ベクトル(202)を更新または再較正すること、および変更されたクエリー特徴ベクトルをクラスタ化データ(106)に投影し、それに応答していくつかの潜在的な一致(203)を取得すること、を行うステップを繰り返し、潜在的な一致(203)の取得された数が1つ以上の予め定められた基準に従って満足がいくと、次いで満足のいく潜在的な一致(203)を検索結果(206)として提供することを行うステップを含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
クラスタ化データ(106)を検索するコンピュータ実装方法であって、前記クラスタ化データ(106)は多次元特徴空間を表し、前記方法は、
-予め定められた数の数的特徴値を含むクエリー特徴ベクトル(202)を表すデータを取得するステップと、
-前記クエリー特徴ベクトル(202)を前記クラスタ化データ(106)に投影して、前記クエリー特徴ベクトル(202)の予め定められた次元範囲内であると判断されたいくつかの潜在的な一致(203)を取得するステップと、
-前記潜在的な一致(203)の各々に対する1つ以上のスコア値を表すデータを決定するステップと、
-前記決定された1つ以上のスコア値に応答して、前記クエリー特徴ベクトル(202)を更新または再較正し、変更されたクエリー特徴ベクトルを生じるステップと、
-前記変更されたクエリー特徴ベクトルを前記クラスタ化データ(106)に投影し、それに応答していくつかの潜在的な一致(203)を取得するステップと、
-o1つ以上のスコア値を表すデータを決定するステップ、
o前記クエリー特徴ベクトル(202)を更新または再較正するステップ、および
o前記変更されたクエリー特徴ベクトルを前記クラスタ化データ(106)に投影し、それに応答していくつかの潜在的な一致(203)を取得するステップ
を繰り返すことと、
-前記取得されたいくつかの潜在的な一致(203)が1つ以上の予め定められた基準に従って満足がいくと、前記満足のいく潜在的な一致(203)を検索結果(206)として提供するステップと
を含む、コンピュータ実装方法。
【請求項2】
クエリー特徴ベクトル(202)を表すデータを取得する前記ステップは、
-ユーザークエリー(201)を自由形式テキストフォーマットで取得することと、
-コンピュータ実装された自然言語処理を使用し、かつ/前記ユーザークエリー(201)に関して辞書データ構造を使用する特徴ハッシングを実行することにより前記ユーザークエリー(201)を前記クエリー特徴ベクトル(202)に変換し、それによりそれぞれのテキストデータエントリをそれぞれの特徴ベクトルに変換することであって、各特徴ベクトルは、各数値が前記特徴ベクトルの特定の特徴を表すいくつかの数値を含むことと
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
1つ以上のスコア値を表すデータを決定する前記ステップは、
-前記潜在的な一致(203)を事前に訓練されたコンピュータ実装畳み込みニューラルネットワークに対する入力として提供することであって、前記事前に訓練されたコンピュータ実装畳み込みニューラルネットワークは、前記提供された潜在的な一致(203)に応答して前記1つ以上の値を出力すること
を含む、請求項1または請求項2に記載のコンピュータ実装方法。
【請求項4】
前記クエリー特徴ベクトル(202)の更新または再較正は、コンピュータ実装強化学習、例えば、畳み込みニューラルネットワークを利用するQ学習または深層Q学習の実装、ならびに前記クエリー特徴ベクトル(202)の特徴に対して1つ以上の再較正値を導出するための1つ以上のスコアリングおよび/またはフィードバック値、ならびに導出された1つ以上の再較正値に基づき前記クエリー特徴ベクトル(202)を更新することを含む、請求項1~請求項3のいずれか1項に記載のコンピュータ実装方法。
【請求項5】
前記クラスタ化データ(106)は、データベース構造(103、105)内にテキストデータエントリとして収集(101)および格納された大量の非構造化データ情報源(102)に基づいて生成されており、前記クラスタ化データ(106)の前記生成は、
-前記データベース構造(103、105)のテキストデータエントリに関して辞書データ構造を使用する特徴ハッシングを実行し、それによりそれぞれのテキストデータエントリをそれぞれの特徴ベクトルに変換することであって、各特徴ベクトルは、各数値が前記特徴ベクトルの特定の特徴を表す、いくつかの数値を含むこと
を含む、請求項1~請求項4のいずれか1項に記載のコンピュータ実装方法。
【請求項6】
多次元特徴空間を表す前記クラスタ化データ(106)は、相関ルール学習を実装するコンピュータ実装された教師なし学習を使用して作成される、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記方法は、前記データベース構造(103、105)の1つ以上のテキストデータエントリの欠損しているか、または不完全なデータもしくは情報を予測するために、既存の構造化データに関して事前に訓練された1つ以上のコンピュータ実装ニューラルネットワークを使用することを含むデータ強化ステップ(104)を含む、請求項5または請求項6に記載のコンピュータ実装方法。
【請求項8】
収集されたテキストデータエントリは自動的に、前記データベース構造(103、105)内に格納される前または後に、ターゲット言語に翻訳される、請求項5~請求項7のいずれか1項に記載のコンピュータ実装方法。
【請求項9】
コンピュータシステムまたは装置が、請求項1~請求項8のいずれか1項に記載の前記方法を実行するように適合される、コンピュータシステムまたは装置(100)。
【請求項10】
その上に命令が格納されていて、前記命令は、コンピュータシステムまたは装置によって実行される場合に、前記コンピュータシステムまたは装置に請求項1~請求項8のいずれか1項に記載の前記方法を実行させる、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般に、フィードバックループおよび関連態様を備えた、大規模非構造化データを検索するコンピュータ実装方法に関する。追加として、本発明は一般に、コンピュータ実装方法(複数可)の態様および実施形態を実装する電子データ処理装置またはシステムに関する。
【背景技術】
【0002】
例えば、インターネットから取得された、非構造化データに関して多量を検索することは、依然として、ストレージ要件、データ品質、データの適切な編成、および検索精度/品質などの、多くの課題を提示する。
【0003】
検索結果の改善された品質を有する大規模非構造化データを検索するコンピュータ実装方法(およびコンピュータ実装方法を実行するためのシステムまたは装置)を提供することは有用であろう。
【0004】
低減されたストレージ要件をもつ大規模非構造化データを検索するコンピュータ実装方法(および対応するシステムまたは装置)を有することも有益であろう。
【発明の概要】
【発明が解決しようとする課題】
【0005】
大量の非構造化データを検索するコンピュータ実装方法(および対応するシステムまたは装置)を提供することが目的である。
【課題を解決するための手段】
【0006】
本発明の第1の態様が請求項1で定義される。
【0007】
第1の態様によれば、これらの目的の1つ以上が、クラスタ化データを検索するコンピュータ実装方法によって少なくともある程度達成され、クラスタ化データは多次元特徴空間を表し、本方法は;
-予め定められた数の数的特徴値を含むクエリー特徴ベクトルを表すデータを取得するステップと、
-クエリー特徴ベクトルをクラスタ化データに投影し、クエリー特徴ベクトルの予め定められた次元範囲内であると判断されたいくつかの潜在的な一致を取得するステップと、
-潜在的な一致の各々に対する1つ以上のスコア値を表すデータを決定するステップと、
-決定された1つ以上のスコア値に応答して、クエリー特徴ベクトルを更新または再較正して、変更されたクエリー特徴ベクトルを生じるステップと、
-変更されたクエリー特徴ベクトルをクラスタ化データに投影し、それに応答していくつかの潜在的な一致を取得するステップと、
-o1つ以上のスコア値を表すデータを決定するステップ、
oクエリー特徴ベクトルを更新または再較正するステップ、および
o変更されたクエリー特徴ベクトルをクラスタ化データに投影し、それに応答していくつかの潜在的な一致を取得するステップ
を繰り返すことと、
-取得されたいくつかの潜在的な一致が1つ以上の予め定められた基準に従って満足がいくと、満足のいく潜在的な一致を検索結果として提供するステップと
を含む。
【0008】
このようにして、大量のクラスタ化データの効率的な検索が容易に提供される。クラスタ化データは好ましくは、大量の非構造化データから導出され、それにより大量の非構造化データの検索を可能にする。クラスタ化データは、複数のクラスタに従って配列されたデータを含む。検索(すなわち、クエリー特徴ベクトル)を反復して改善および/または更新することにより、ますます良い結果を取得することが可能である。それは、例えば、クラスタ化データ106の各クラスタから少なくとも1つの検索結果を選択することにより、「予期しない」検索結果を見つけるためにも使用され得、それは1つ以上のスコア値(すなわち、フィードバック)と共に、クエリー特徴ベクトルの更新または再較正が反復検索を(かかる検索結果が正のフィードバックまたは負のフィードバックを受信/スコアするかに従って後続のクエリー特徴ベクトルを調整することにより)新しい方向に押し進め得る。これは、たとえ、元のクエリー特徴ベクトルが投影された場所から遠く離れたクラスタであっても、異なるクラスタからの検索結果候補となり得る。いくつかの更なる実施形態では、それぞれの反復は、元々投影されたクエリー特徴ベクトルからの距離(複数可)を増大させてますます多くのクラスタから潜在的な一致を得る。これは、スコアリング/再較正が全体的な正のフィードバック/スコアリングを提供する限り、かつ全体的な負のフィードバック/スコアリングが始まるまで継続し、その後(それらがあった場所からの)距離(複数可)が再度狭められ、それは、元のクエリー特徴ベクトルが投影された場所とは異なる(多次元空間の)位置内にあり得る可能性が高い。多次元空間のそれぞれの次元の値またはあり得るレベルは、同じである必要はなく、多くの場合、同じではないことに留意されたい。単純な例として、次元は、例えば、約25または200の可能な値またはレベルを有し得、他方、別のものは10.000または100.000以上でさえ有し得る。
【0009】
潜在的な一致の各々に対する1つ以上のスコア値は、自動的に導出され得、かつ/または人間ベースの入力に基づいて導出され得る。
【0010】
いくつかの実施形態では、クエリー特徴ベクトルを表すデータを取得するステップは、
-ユーザークエリーを自由形式テキストフォーマットで取得すること、および
-コンピュータ実装された自然言語処理を使用し、かつ/ユーザークエリーに関して辞書データ構造を使用する特徴ハッシングを実行することによりユーザークエリーをクエリー特徴ベクトルに変換し、それによりそれぞれのテキストデータエントリをそれぞれの特徴ベクトルに変換することであって、各特徴ベクトルは、各数値が特徴ベクトルの特定の特徴を表すいくつかの数値を含むこと、を含む。
【0011】
いくつかの実施形態では、1つ以上のスコア値を表すデータを決定するステップは、
-潜在的な一致を、事前に訓練されたコンピュータ実装畳み込みニューラルネットワークに対する入力として提供することであって、事前に訓練されたコンピュータ実装畳み込みニューラルネットワークは、提供された潜在的な一致に応答して1つ以上のスコア値を出力すること、を含む。
【0012】
いくつかの実施形態では、クエリー特徴ベクトルの更新または再較正は、コンピュータ実装強化学習(例えば、畳み込みニューラルネットワークを利用するQ学習または深層Q学習の実装)ならびにクエリー特徴ベクトルの特徴に対して1つ以上の再較正値を導出するための1つ以上のスコアリングおよび/またはフィードバック値、ならびに導出された1つ以上の再較正値に基づきクエリー特徴ベクトルを更新することを含む。
【0013】
いくつかの実施形態では、クラスタ化データは、データベース構造内にテキストデータエントリとして収集および格納された大量の非構造化データ情報源に基づいて生成されており、クラスタ化データの生成は、
-データベース構造のテキストデータエントリに関して辞書データ構造を使用する特徴ハッシングを実行し、それによりそれぞれのテキストデータエントリをそれぞれの特徴ベクトルに変換することを含み、各特徴ベクトルは、各数値が特徴ベクトルの特定の特徴を表す、いくつかの数値を含む。
【0014】
いくつかの実施形態では、多次元特徴空間を表すクラスタ化データは、相関ルール学習を実装するコンピュータ実装された教師なし学習を使用して作成される。
【0015】
いくつかの実施形態では、本方法は、データベース構造の1つ以上のテキストデータエントリの欠損しているか、または不完全なデータもしくは情報を予測するために、既存の構造化データに関して事前に訓練された1つ以上のコンピュータ実装ニューラルネットワークを使用することを含むデータ強化ステップを含む。
【0016】
いくつかの実施形態では、収集されたテキストデータエントリは、データベース構造内に格納される前または後に、自動的にターゲット言語に翻訳される。
【0017】
本発明の別の態様によれば、コンピュータシステムまたは装置が提供され、コンピュータシステムまたは装置は、本明細書で開示される方法(複数可)およびその実施形態を実行するように適合される。
【0018】
本発明のさらに別の態様によれば、その上に命令が格納されている、非一時的コンピュータ可読媒体であって、命令は、コンピュータシステムまたは装置によって実行される場合に、コンピュータシステムまたは装置に本明細書で開示される方法(複数可)およびその実施形態を実行させる。
【0019】
定義
全ての見出しおよび小見出しは本明細書では便宜のみのために使用され、本発明をいかなる方法によっても制限すると解釈されるべきではない。
【0020】
本明細書で提供される任意および全ての例、または例示的用語は、本発明をより良く解説することを意図しているに過ぎず、別にクレームされていない限り、本発明の範囲に制限を課さない。本明細書における用語は、どのクレームされていない要素も本発明の実施にとって不可欠であると示していると解釈されるべきでない。
【0021】
本発明は、適用法令によって認められるとおり本明細書に添付されているクレームに列挙されている主題の全ての修正および等価物を含む。
【図面の簡単な説明】
【0022】
図1】本明細書で開示されるいくつかの実施形態に従い、複数のデータ情報源からのデータ収集のブロック図を、後続のデータ強化およびデータクラスタリングと共に、概略的に例示する。
図2】本明細書で開示される第1の態様に従い、検索の実施形態のブロック図を概略的に例示する。
図3】1つの例示的な実施形態に従い、多次元特徴空間を表す作成されたクラスタ化データの一例の可視化を概略的に例示する。
図4】本明細書で開示される方法(複数可)の様々な実施形態を実装する電子データ処理装置またはシステムの実施形態のブロック図を概略的に例示する。
【発明を実施するための形態】
【0023】
本明細書で開示されるコンピュータ実装方法の様々な態様および実施形態を実装するコンピュータ実装方法およびコンピュータシステムまたは装置の様々な態様および実施形態がここで図面を参照して説明される。
【0024】
「上方」および「下方」、「右」および「左」、「水平」および「垂直」、「時計回り」および「反時計回り」または同様のものは、以下の表現で使用されるとき/場合、これらは典型的には添付の図面を参照し、必ずしも使用の実際の状況ではない。示される図は概略的な表現であり、その理由のため、異なる構造の構成およびそれらの相対寸法は例示的な目的のみに役立つことを意図する。
【0025】
異なる構成要素のいくつかは本発明の単一の実施形態に関連してのみ開示されるが、さらなる説明なしで他の実施形態に含まれることが意図される。
【0026】
図1は、本明細書で開示されるいくつかの実施形態に従い、複数のデータ情報源からのデータ収集のブロック図を、後続のデータ強化およびデータクラスタリングと共に概略的に例示する。
【0027】
概略的に例示されているのは、例えば、使用または実装に応じて特定の文脈内で、インターネットなどのネットワークからアクセス可能な、多数および大量のデータ情報源102である。データ情報源102の少なくとも一部は、1つ以上の(典型的にはいくつかの)公開(および/または非公開)データベース内に格納され得る。加えて、情報源102の少なくとも一部はウェブサイト、ウェブページ、もしくは同様のものまたはその中のコンテンツである。好ましくは、データ情報源102は同じ文脈または領域内の1つ以上のトピックに関連する。一例として、データ情報源102は、例えば、スタートアップ企業のデータベース、スタートアップイベントに関する情報などであり得、例えば、企業名、原産国、所在地、技術領域(複数可)、セクター(複数可)、製品のタイプ(複数可)、関与する主要人物、従業員数、創立年、最後の資金調達量および期間、資金調達サイクル、様々なプラットフォーム上でのソーシャルメディア活動、投資家のプロフィール情報、創立者のプロフィール、トレンドスコア(例えば、クランチベースランクまたはスコア)、ウェブサイトトラフィック、ウェブサイトコンテンツ、タグ、連絡先の詳細、データ情報源の最後の活動(それは、例えば、更新されているか)など:の1つ以上などの、スタートアップ企業に関する情報に関連する。代替として、データ情報源102は、使用および用途に応じて他のデータまたは情報に関連し得る。
【0028】
かかる大量のデータ情報源102は、たとえデータ情報源の一部が個々に編成/構造化されている(例えば、公的にアクセス可能なデータベース内など)可能性があっても、現在の文脈では全体的な意味で非構造化および/または少なくとも異なって構造化されている。これは、かかる未編成のデータ情報源102内/間で、高品質および/または高速検索の実行、正確な検索結果の取得、最新の結果の取得など、に関して多くの課題を提示する。具体的には、未編成データ情報源102の少なくとも一部(典型的には多くまたはほとんど)が多かれ少なかれ継続的に更新される場合、新しいデータ情報源が追加されて、既存のデータ情報源は除去されるか、または古くなる等。データ情報源102は、例えば、少なくとも予め定められた期間以上の間、非アクティブになり得る。課題は、例えば、適切な処理、例えば、データ情報源102もしくはそのデータの優先順位の変更、または様々なデータが新規/別のデータ情報源102から利用可能になり得、既存のデータが更新もしくは上書きされるべきか否かを判断する必要があることでもある。
【0029】
さらに例示されているのは、非構造化データ情報源102の(または少なくとも大部分もしくはかなりの部分)から、好ましくは自動的に、関連データにアクセスおよびデータマイニングおよび収集を行う(例えば、本明細書で開示されるような電子データ処理装置またはシステムの)データコレクタ要素および/または(例えば、本明細書で開示されるようなコンピュータ実装方法の)データ収集ステップ101である。取り出された/収集されたデータは、1つ以上の第1のデータベース構造(以後、同様に第1のデータベースとだけ呼ばれる)103内に、少なくともいくつかの実施形態では、テキストデータとして収集される。
【0030】
いくつかの実施形態では、データコレクタまたはデータ収集ステップ101は、大量のデータ情報源102(の少なくとも一部)を継続的に、もしくは断続的にチェック、クロール、またはマイニングして、更新された情報、新しい関連情報、古い情報などをチェックする。
【0031】
本明細書で開示される第1の態様の実施形態によれば、1つ以上のタイプのデータ強化104が、第1のデータベース103の収集されたデータに関して、またはそれに対して実行される。データ強化104は、例えば、本明細書で開示される電子データ処理装置もしくはシステムのデータ強化要素および/またはコンピュータ実装方法のステップによって実行され得る。
【0032】
いくつかの実施形態では、収集されたデータは自動的に、例えば、機械翻訳を使用して、このましくは1つのターゲット言語に翻訳される。ターゲット言語に翻訳できる異なる言語の数は、例えば、100を超える言語および方言を含む。ターゲット言語は好ましくは英語であるが、別でもよい。翻訳は、相同のデータまたは少なくともより相同のデータ(言語に関して)が第1のデータベース103内で取得されるのを確実にし、さらに基本的に全ての地理的領域から関連データの包含を可能にして、英語情報(コンテンツおよび例えば、検索候補)に対する偏向を回避する。代替実施形態では、翻訳は、データ収集101の一部として実行され得る。
【0033】
いくつかの実施形態では、データ強化104は、1つ以上のニューラルネットワークまたは同様のものを利用して、セクター、原産国、企業ステージ、資金調達ステージ、創立年などの、欠損しているか、または不完全なデータもしくは情報を予測することを含む。追加として、データ強化104は、1つ以上のニューラルネットワークまたは同様のもの(または代替として他のニューラルネットワーク)を使用して、データの統一および標準化も行う。予測ならびに/または統一および標準化は好ましくは、検索されるデータ集合においても構造的に固守されるいくつかのデータグループ全体、カテゴリ、またはクラスに対して行われる。
【0034】
1つ以上のニューラルネットワークは、例えば、既存の構造化データに関して(予め)訓練されて予測の質を高め、それによりデータの質を高める。少なくともいくつかの実施形態では、ニューラルネットワークは、教師あり学習、ならびにデータ/物体認識および予測に特に適した順伝播型ニューラルネットワークである。
【0035】
予測された完全および/または追加情報が第1のデータベース103または他の場所に格納される。
【0036】
かかる1つ以上のニューラルネットワークの使用に対する代替は、例えば、回帰または分類アルゴリズムを含む。これらはもっと単純であるが、比較的少量のデータ入力に対して最もうまく機能する。しかし、これらと比較して、かかる1つ以上のニューラルネットワークは典型的には、より柔軟で、信頼性があり、動的である(それらは、例えば、新しい情報源102が生じ、かつ/または考慮に入れられる場合、継続して訓練され得る)。
【0037】
好都合に、欠損しているか、または不完全なデータもしくは情報の予測は、単一のターゲット言語に翻訳された後に行われて、それに伴う予測および計算作業を大幅に簡略化する。
【0038】
データが第1のデータベース103内にテキストとして格納されるいくつかの実施形態では(テキストデータはマイニングおよび収集がより簡単である)、データ強化104は、第1のデータベース103のテキストデータを予め定められた数値データフォーマットに変換する変換を含む。変換は典型的には、データのサイズを少なくとも1桁であるが、典型的には、数桁だけ圧縮し、従ってストレージ要件を大幅に削減し、かつ/または、大量のデータに対してさえ検索速度または他のタイプのデータ処理の速度も向上させる。好ましい実施形態では、第1のデータベース103内に格納されたテキストベースのデータは削除されない(データを再度収集/構築せざるを得ない状況を回避するため)が、圧縮されたデータ表現(変換の結果生じる)は後続のデータ処理で使用されて、それにより計算処理労力を大幅に削減する。
【0039】
いくつかの実施形態では、変換は、コンピュータ実装された機械学習を変換の一部として使用する。いくつかのさらにもっと特定の実施形態では、機械学習は、テキストデータを予め定められた数値データフォーマットに変換するために使用される辞書データ構造および特徴ハッシングを伴い、数値データフォーマットは特徴ベクトルのフォーマットである。特徴ベクトルは、複数の、例えば、30または約30の数値(辞書データ構造および特徴ハッシングの適用によって取得される)を含み、各数値は特徴ベクトルの特定の特徴に対する。特徴ハッシングは、特徴をベクトル化する、すなわち、任意の特徴をベクトルまたはマトリックスデータ構造内のインデックスまたは値にする、高速でストレージ効率の良い方法である。辞書データ構造は継続して改善されるか、または更新されて品質が高まり得る。特徴ハッシングもデータ量を大幅に削減する。加えて、特徴ハッシングはデータを統一するのにも役立つ。
【0040】
非常に単純な例(9つだけの数値を持つ)として、第1のデータベース103のテキストデータの2つのエントリは、例えば、#1「An AI platform that optimise the trading and financing of SME′s」および#2「A blockchain empowered platform for trading of cryptocurrency」であり得、辞書データ構造は、例えば、用語(インデックス):「AI」(1)、「platform」(2)、「optimise」(3)、「trading」(4)、「financing」(5)、「SME」(6)、「blockchain」(7)、「empower」(8)、「cryptocurrency」(9)に従った用語およびインデックスデータを含み得る。この例では、予め定められた数値データフォーマットの結果として生じる値(すなわち、それぞれの特徴ベクトル)は、値(1,1,1,1,1,1,0,0,0)(#1に対して)および(0,1,0,1,1,0,1,0,1)(#2に対して)を持つであろう。これは(テキストデータを表すために使用されるデータの量を削減することに加えて)、例えば、インデックス2(「platform」)、4(「trading」)、および5(「financing」)を持つ用語に対して2つのテキスト記述の間に存在する類似性も容易に識別するか、または示す。本発明人は、例えば、100,000を超える関連語および特定の文脈(スタートアップデータおよび情報)に対する適切なインデックスを含む辞書データ構造を実現している。
【0041】
圧縮に加えて、数値(すなわち、特徴ベクトルの値)は、異なる言葉で表されたテキストパッセージを表すデータを統一する適切な方法としても機能する。異なる特徴ベクトル間の値における類似性(すなわち、それぞれのインデックスにおいて値が同じ場合(例えば、2つの特徴ベクトルの両方がインデックス3に「1」または「0」を持つ等)は、例えば、クラスタ(以下をさらに参照)内で類似の特徴ベクトルをグループ化するために使用できる。
【0042】
結果として、1つの(少なくとも1つの)特徴ベクトルまたは特徴マトリックス(以後、同様に特徴ベクトルとだけ呼ばれる)が、少なくともいくつかの実施形態では、効率的に検索可能なデータベースに構築されている各潜在的な検索結果エントリまたは項目に対して作成される(図2も参照)。
【0043】
いくつかの実施形態では、多次元特徴空間を表すデータが作成されて、第1のデータベース103のデータに基づき導出された特徴ベクトルから収集された(および好ましくは強化されたデータ)データの検索可能なエントリまたは項目を表す。多次元特徴空間を表すデータは、本明細書で開示される電子データ処理装置もしくはシステムのデータ処理要素および/またはコンピュータ実装方法100のデータ処理ステップによって作成または取得される。いくつかの実施形態では、多次元特徴空間を表すデータは、適切なコンピュータ実装された機械学習、例えば、教師なし学習を使用して作成される。いくつかのさらなる実施形態では、多次元特徴空間を表すデータはコンピュータ実装された教師なし学習を使用して作成されて、多次元特徴空間を表すデータがクラスタ化データ106として作成されるように、相関ルール学習を実装する。クラスタ化データ106は、例えば、1つ以上の第2のデータベース構造105(以後、同等に第2のデータベースとだけ呼ばれる)内に格納され得る。コンピュータ実装された相関ルール学習は、データのサブセットを処理することによってある全体的なカテゴリまたはクラスを予測もしくは推定して、何が最も可能性の高い結果であるかを判断するために使用される。代替として、他のコンピュータ実装された分類方法、例えば、回帰、デシジョンツリー(例えば、ブーストまたはランダムフォレスト)、または同様のものが、相関ルール学習の代わりに使用される。しかし、これらは典型的には、大量のデータに対して、相関ルール学習ほど柔軟で使用が効率的ではないが、ある使用および実施態様に対して、それらは依然として十分であり得る。
【0044】
作成された多次元空間のデータは、収集されたデータ(またはむしろその適切な検索可能データ表現)の非常にストレージ効率が良い格納方法を提供して、元のテキストフォーマットにおける対応する情報よりも遥かに少ないストレージ空間しか必要としない。もっと効率的な(ストレージ容量に関して)検索可能データ表現は、遥かに高速でずっと効率的なデータ処理も提供し、それにより高速な検索は極めて大量のデータ(例えば、数十万ものクラスタ化エントリをもつ)の検索を可能にする。
【0045】
このようにして、(特徴間で)類似性をもつデータエントリが多次元空間(例えば、1つの例示的な実施形態に従って多次元特徴空間を表す作成されたクラスタ化データの一例の視覚化を例示している図3を参照)内で近づく、クラスタ化検索可能データエントリが作成される。データエントリの数は、例えば、数十万であり得、例えば、スタートアップ企業に関連し得る。
【0046】
データ強化104の少なくとも一部は、例えば、第1のデータベース103内への情報格納の前および/または情報格納の一部としても実行できる。
【0047】
少なくともいくつかの実施形態では、第1のデータベース103は一時的なデータベースである。いくつかの実施形態では、第1および第2のデータベース103、105は、同じデータベース構造の異なる部分、例えば、(本明細書で開示される第1のデータベース103に対応する)第1の部分および(本明細書で開示される第2のデータベース105に対応する)第2の部分、であり得る。
【0048】
図2は、本明細書で開示される第1の態様に従った検索の実施形態のブロック図を概略的に例示する。
【0049】
例示されているのは、本明細書で開示される(電子データ処理装置またはシステムの)データ処理要素および/または(コンピュータ実装方法の)データ処理ステップ100である。いくつかの実施形態では、データ処理要素および/またはデータ処理ステップ100は、図1で100と指定されたものに対応する。代替として、それは異なる要素および/またはステップであり得る。
【0050】
いくつかの実施形態では、データ処理要素および/またはデータ処理ステップ100は、以下で説明されるようなクラスタ化データ106を処理する。クラスタ化データ106は、例えば、第2のデータベース(例えば、図1における105を参照)内に格納され得る。好ましい実施形態では、クラスタ化データ106は、図1に関連して説明されるような、および/または本明細書の他の場所で開示されるような、一実施形態によって生成されている。好ましくは、クラスタ化データ106は、収集された(および例えば、強化されたデータ)データ(例えば、図1を参照)の検索可能なエントリまたは項目を表す、特徴ベクトルの多次元特徴空間を表すデータである。
【0051】
さらに概略的に例示されているのは、ユーザークエリー201であり、任意の適切な方法で、例えば、クライアントまたはユーザー装置上の適切な(グラフィカル)ユーザーインタフェースを介して、取得されたいくつかの検索関連用語および/またはパラメータを含む。要素またはステップ202で、ユーザークエリー201は、クラスタ化データ106の間での検索に適したクエリー特徴ベクトル202に、翻訳、変換、および/または較正される。いくつかの実施形態では、ユーザークエリー201は、自由形式テキストフォーマットで提供されて、例えば、または好ましくは、自然言語処理を使用して、自由形式テキスト入力に基づき(およびそれを表す)導出されたいくつかの特徴値を含む多次元クエリー特徴ベクトルに変換される。特徴ベクトルは典型的には、クラスタ化データ106によって表されるように特徴空間のそれと同じ次元および構造を有する(または少なくともそれと互換性がある)。ユーザークエリー201の特徴クエリーベクトル201への変換は同様であり(または少なくとも同じ要素/機能の一部を含む)、(多かれ少なかれ)図1に関連して説明されるような、例えば、辞書データ構造およびコンピュータ実装された特徴ハッシングを使用して、収集されたデータ源をクラスタ化データ(多次元特徴空間を表す)に変換するのと同じ方法で行われて、テキストデータ(ユーザークエリー201)を予め定められた数値データフォーマットを有するクエリー特徴ベクトル202に変換し得る。
【0052】
単純な例として、ユーザークエリー201は、例えば、「Identify platforms that work within the financial sector to support SME‘s and their trading activities」であり得る。上の例からの辞書データ構造および特徴ハッシングを使用すると、結果として生じるクエリー特徴ベクトル202は(1,0,1,1,1,1,0,0,0)であろう。
【0053】
クエリー特徴ベクトル202は次いで、クラスタ化データ106によって表される多次元特徴空間に投影され、それによりクエリー特徴ベクトル202の予め定められた多次元範囲内(すなわち、ごく近接内)のクラスタ化データ106のいくつかのデータエントリが、図面内で潜在的な一致203として参照される検索結果として識別されて取り出されるか、または取得され得る。追加または代替として、ある指定された数(例えば、10、20、または25)の検索結果だけが、その結果最も近いある指定された数の結果であるので、検索結果として識別されて取り出されるか、または取得される。検索結果は、例えば、投影された特徴ベクトル202に最も近いクラスタ化データ106の、例えば、10のエントリを返す:に従い、または、例えば、予め定められた多次元範囲(範囲値は異なる次元に対して異なり得る)により投影された特徴ベクトル202内であるクラスタ化データ106の全てのエントリを返す:に従って提供され得る。
【0054】
クラスタ化データ106内の検索は、複数のユーザークエリー201(およびそれにより複数のクエリー特徴ベクトル201)および各々に対する最も近接した一致を伴い得ることに留意されたい。
【0055】
クラスタ化データ106およびいくつかの投影されたクエリー特徴ベクトル202の例に関して図3を参照してください。図3は、多次元特徴空間を表す作成されたクラスタ化データ406の一例の可視化を概略的に例示して、いくつかのクラスタ(きわめて概略的に示されて、ここでは一例として5つのクラスタ)401′、401″、401″′、401″″、および401″″、ならびに5つの異なるクエリー特徴ベクトル202(それぞれ5つの異なるユーザークエリー201に対して)の適用または投影の結果である(十字形によって)示された多次元特徴空間内の5つの投影を例示している。
【0056】
各適用または投影されたクエリー特徴ベクトル202(十字形によって表される)は、ユーザークエリー201に対する「理想的な」検索結果を表しており、「最も近い」検索結果候補を決定するために使用される。
【0057】
いくつかの実施形態では、潜在的な一致203は、特定の検索の各ユーザークエリー201に応答して検索結果206として直接使用される(すなわち、投影された特徴ベクトル202の(各々の)いくつかの最も近い候補が検索結果206である)。
【0058】
しかし、代替の好ましい実施形態では、本明細書で開示される第1の態様によれば、潜在的な一致203は、反復検索改善プロセスにおいてフィードバックとして使用され、反復検索改善プロセスは、検索品質をさらにもっと改善する。
【0059】
かかる好ましい実施形態によれば、スコアリング/再較正要素またはステップ204は、潜在的な一致203(それは次いで中間検索結果として見られ得る)を受信して、クエリーベクトル202を潜在的な一致203に基づいて自動的に更新または調整し、スコアリングおよび/またはフィードバックの出力または結果も(スコアリング/再較正要素またはステップ204により)潜在的な一致203に基づいて行われる。スコアリング/再較正要素またはステップ204によるスコアリングおよび/またはフィードバックは、人間ベースの入力を、例えば、いくつかの検索結果候補(すなわち、潜在的な一致203)の提示および最も適した候補(複数可)に対する投票または他の負および正のフィードバックの受信の形で、伴い得る。
【0060】
クエリー特徴ベクトルの更新または調整は、スコアリングおよび/またはフィードバックと共に、投影されたクエリー特徴ベクトルと潜在的な一致との間でどのベクトル値が異なっているかに基づき得る。
【0061】
非常に単純化した例として、投影されたクエリー特徴ベクトル202を(1,0,1,1,1,1,0,0,0)と考えると、潜在的な一致203は(1,0,1,1,1,1,0,0,1)によって表される。自動スコアリングおよび/またはフィードバック(それは人間ベースの入力を含むこともあれば、含まないこともある)が潜在的な一致203(1,0,1,1,1,1,0,0,1)に関して正である場合、潜在的な一致203に類似していない投影されたクエリー特徴ベクトル202の部分(複数可)/値(複数可)は、(正にスコアされた)潜在的な一致203の値に向かって変更または調整される(再較正される)。例を継続すると、クエリー特徴ベクトル202は(次の反復のために)(1,0,1,1,1,1,0,0,1)に再較正され得る、すなわち、最後の部分/値を(正にスコアされた)潜在的な一致203の最後の部分/値のそれになるように変える。既に述べたように、これは非常に単純化し過ぎた例である。典型的には、複数の潜在的な一致203があり、目標は、クエリー特徴ベクトルの関連部分/値のみを調整して、負にスコアされた潜在的な一致203と類似していないが、(正にスコアされた)複数の潜在的な一致203の可能な限り多くと、最大限に、または少なくとも改善された一致を達成することである。
【0062】
いくつかの実施形態では、スコアリング/再較正要素またはステップ204は、コンピュータ実装された機械学習を含む。いくつかのさらなる実施形態では、スコアリング/再較正要素またはステップ204は、コンピュータ実装された強化学習の形での機械学習を含み、例えば、畳み込みニューラルネットワークを利用したQ学習または深層Q学習の実装およびスコアリング/再較正要素またはステップ204からクエリー特徴ベクトル202への矢印によって示されているようにクエリー特徴ベクトル202を更新するために使用されるクエリー特徴ベクトルの特徴に対する1つ以上の再較正値を導出するための1つ以上のスコアリングおよび/またはフィードバック値を含む。本質的には、より正確な更新されたクエリー特徴ベクトルが提供され、それは次いでクラスタ化データ106によって表される多次元特徴空間に投影され得る。
【0063】
導出された候補/潜在的な一致203に関する人間ベースの入力および/またはフィードバックは、例えば、畳み込みニューラルネットワークを(さらに)訓練または最適化するために使用され得、畳み込みニューラルネットワークは次いで、(さらなる)訓練または最適化に従ってクエリー特徴ベクトル202を調整する。
【0064】
これ(要素/ステップ202、100、203、204)は、好ましくは、導出された潜在的な一致203が1つ以上の基準に従って満足のいくまで、数回、反復され得る。
【0065】
少なくともいくつかの実施形態では、スコアリング/再較正要素またはステップ204は人間のフィードバックを含む。
【0066】
いくつかのさらなる実施形態では、潜在的な一致203は、クラスタ化データ106の各クラスタからの少なくとも1つの検索結果を含むか、またはさらに含み、それは、スコアリングまたはフィードバックを提供するためにスコアリング/再較正要素またはステップ204のデータ処理に含まれる。各クラスタからの少なくとも1つの検索結果は、クエリー特徴ベクトル202の予め定められた次元範囲内の各クラスタからの検索結果または単にクエリー特徴ベクトル202に最も近い検索結果(1つ以上)のグループである。クラスタ化データ106の各クラスタから少なくとも1つの検索結果を選択することは、潜在的な一致に対する創造的要素または寄与を「模倣する(mimic)」か、または導入し、それはスコアリング/再較正要素またはステップ204と一緒に反復検索を新しい方向に(かかる検索結果が正または負のフィードバックを受信/スコアするかどうかに従って後続のクエリー特徴ベクトルを調整することにより)押し進め得る。これは、元のクエリー特徴ベクトルが投影された場所から、遠く離れたクラスタでさえ、異なるクラスタからの検索結果候補となり得る。いくつかの実施形態では、202、203、および204の異なる反復は、ますます多くのクラスタから潜在的な一致203を取得するために元々投影されたクエリー特徴ベクトルからの距離(複数可)が増すであろう。これは、スコアリング/再較正要素またはステップ204が全体的な正のフィードバック/スコアリングを提供する限り、かつ全体的な負のフィードバック/スコアリングが始まるまで継続し、その後(それらがあった場所からの)距離(複数可)が再度狭められ、それは、元のクエリー特徴ベクトルが投影された場所とは異なる(多次元空間の)位置内にあり得る可能性が高い。
【0067】
一旦、潜在的な一致203が十分であると考えられると、潜在的な一致203は検索結果206になる。
【0068】
いくつかの実施形態では、満足のいく潜在的な一致203は、検索結果206になる前に潜在的な一致203を向上させる、検索結果改善要素またはステップ205に転送される。
【0069】
いくつかの実施形態では(および、検索結果206からクエリー特徴ベクトル202へのハッシュ化矢印によって示されるように)、検索結果206は、将来の類似または関連検索のための訓練および/またはアライメント(alignment)のために使用される。検索からの結果は、選好が何であったか、および前述の全てのステップに基づきそれらをどのように見つけるかに対する最も「正確な」入力であるので、これは高品質の訓練および/またはアライメントを提供する。
【0070】
図3は、1つの例示的な実施形態に従い、多次元特徴空間を表す作成されたクラスタ化データの一例の可視化を概略的に例示する。
【0071】
図3に例示されているのは、多数の検索可能なエントリまたは項目のグラフ300であり、各ドットは、それぞれの特徴ベクトルの特定の値によって与えられた単一のエントリまたは項目を表す。さらに例示されているのは、いくつかのクラスタ(ここでは例として5つ)401′、401″、401″′、401″″、および401″″である。各ドットの色値/強度は、所与のドット(すなわち、所与の特徴ベクトル)が属するクラスタを指定する。明確にするために追加として、各クラスタは、クラスタの目安を提供するために、不完全な境界および不完全な重なり合いをもつそれぞれの円または組み合わされた円によって全体的な方法でも示されている。図示例では、多次元特徴空間は30次元であり、特徴ベクトルは各々30の特徴値を含む。
【0072】
追加として(十字形によって)例示されているのは、本明細書で開示されるようにクエリー特徴ベクトル(例えば、図2の202を参照)の適用結果である5つの検索結果または潜在的な候補である。
【0073】
特徴ベクトルのクラスタは、図1に関連して説明されるように生成されている。
【0074】
図4は、本明細書で開示される方法(複数可)の様々な実施形態を実装する電子データ処理装置またはシステムの実施形態のブロック図を概略的に例示する。
【0075】
図示されているのは、1つ以上の通信および/またはデータバス501を介して電子メモリおよび/または電子ストレージ503に接続された1つ以上の処理ユニット502、コンピュータネットワーク、インターネット、および/または同様のもの509を介して通信するための1つ以上の信号送信機および受信機通信要素504(例えば、セルラー、ブルートゥース、WiFi等の通信要素を含む群から選択された1つ以上)、任意選択のディスプレイ508、ならびに1つ以上の任意選択の(例えば、グラフィカルおよび/または物理的)ユーザーインタフェース要素507を含む電子データ処理システムまたは装置100の表現である。
【0076】
電子データ処理装置またはシステム100は、例えば、PC、ラップトップ、コンピュータ、サーバー、スマートフォン、タブレット等のような、例えば、適切にプログラムされた計算装置にでき、機能要素を含み、かつ/または本明細書で開示されるコンピュータ実装方法(複数可)のステップおよびその実施形態ならびにその変形を実行または遂行するように特別にプログラムされる。
【0077】
いくつかの好ましい実施形態が前述で示されているが、本発明はこれらに制限されないことが強調されるべきであるが、添付のクレームにおいて定義される主題に含まれる他の方法で具現化され得る。
【0078】
クレームにおいていくつかの特徴を列挙する場合、これらの特徴の一部または全部は、1つの同じ要素、構成要素、アイテムまたは同様のものによって具現化され得る。ある手段が相互に異なる従属クレーム内で列挙されるか、または異なる実施形態内で説明されるという単なる事実は、これらの手段の組合せは都合よく使用できないことを示していない。
【0079】
用語「含む/含むこと」は本明細書で使用される場合、述べられた特徴、要素、ステップまたは構成要素の存在を指定するために必要とされるが、1つ以上の他の特徴、要素、ステップ、構成要素、またはそのグループの存在もしくは追加を除外しないことが強調されるべきである。
図1
図2
図3
図4
【国際調査報告】