(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-16
(45)【発行日】2023-06-26
(54)【発明の名称】テキストコレクションの要素を分析するための方法及び装置、デジタルデータ内において情報を検索するための方法及び装置
(51)【国際特許分類】
G06F 40/30 20200101AFI20230619BHJP
G06F 40/216 20200101ALI20230619BHJP
G06F 16/332 20190101ALI20230619BHJP
【FI】
G06F40/30
G06F40/216
G06F16/332
(21)【出願番号】P 2021557181
(86)(22)【出願日】2020-03-25
(86)【国際出願番号】 EP2020058253
(87)【国際公開番号】W WO2020193591
(87)【国際公開日】2020-10-01
【審査請求日】2021-09-24
(31)【優先権主張番号】102019204222.8
(32)【優先日】2019-03-27
(33)【優先権主張国・地域又は機関】DE
(31)【優先権主張番号】102019215270.8
(32)【優先日】2019-10-02
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】アンナ コンスタンツェ ヘティ
【審査官】木村 大吾
(56)【参考文献】
【文献】米国特許出願公開第2018/0052849(US,A1)
【文献】特開2018-045658(JP,A)
【文献】特開2014-215625(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
第1のテキストコレクション(K1)の要素(E)を分析するための装置(200)を用いて、前記第1のテキストコレクション(K1)の
前記要素(E)を分析するための方法であって、
前記装置(200)が、第1のテキストコレクション(K1)を用意するステップ(102)と、
前記装置(200)が、前記第1のテキストコレクション(K1)とは異なる第2のテキストコレクション(K2)を用意するステップ(104)と、
前記装置(200)が、前記第1のテキストコレクション(K1)に関連する第1のベクトル空間を特徴付ける第1のベクトル空間モデル(M1)を決定するステップ(106)と、
前記装置(200)が、前記第2のテキストコレクション(K2)に関連する第2のベクトル空間を特徴付ける第2のベクトル空間モデル(M2)を決定するステップ(108)と、
前記装置(200)が、前記第2のベクトル空間から前記第1のベクトル空間への写像(T)に基づいて、修正された第2のベクトル空間モデル(M2’)を決定するステップ(110)と、
前記装置(200)が、前記第1のテキストコレクション(K1)の少なくとも1つの要素(E)を、前記第1のベクトル空間モデル(M1)のうちの
、少なくとも1つの
前記要素(E)に対応する第1の単語ベクトル(WV1)と、前記修正された第2のベクトル空間モデル(M2’)のうちの
、少なくとも1つの
前記要素(E)に対応する第2の単語ベクトル(WV2)とに基づいて分析するステップ(120)と、
を含
み、
前記分析するステップ(120)は、前記装置(200)が、前記第1の単語ベクトル(WV1)と前記第2の単語ベクトル(WV2)との間のベクトル距離を求めることにより、第1の変数(G1)を決定することを含み、
前記第1の変数(G1)は、前記第2のテキストコレクション(K2)から、前記第1のテキストコレクション(K1)に関連するドメインへの、少なくとも1つの前記要素(E)の意味シフト(BV)を特徴付けるものである、
方法。
【請求項2】
前記第2のテキストコレクション(K2)は一般言語を表し、前記第1のテキストコレクション(K1)に関連するドメインは、専門言語である、
請求項1に記載の方法。
【請求項3】
前記装置(200)が分析するステップ(120)は、
前記装置(200)が、前記第1の単語ベクトル(WV1)と前記第2の単語ベクトル(WV2)との間のコサイン距離又はユークリッド距離を
求めることを含む、
請求項1又は2のいずれか一項に記載の方法。
【請求項4】
前記第1のテキストコレクション(K1)は、主題特有及び/又は専門分野特有のテキストコレクションであり、及び/又は、
前記第2のテキストコレクション(K2)は、非主題特有及び/又は非専門分野特有のテキストコレクショ
ンである、
請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記装置(200)が、前記第1のテキストコレクション(K1)を用意するステップ(102)、及び/又は、
前記装置(200)が、前記第2のテキストコレクション(K2)を用意するステップ(104)は、
a)
前記装置(200)が、コンピュータ内及び/又はコンピュータネットワーク内においてテキスト及び/又は単語を収集すること、及び/又は、
b)
前記装置(200)が、デジタルの又はデジタル化された本からテキスト及び/又は単語を収集すること
を含む、
請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記装置(200)が、2つの前記テキストコレクション(K1,K2)のうちの一方にのみ存在する、前記テキストコレクション(K1,K2)の要素の単語ベクトル
を破棄する、請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
前記装置(200)が、前記第1のテキストコレクション(K1)
の少なくとも1つの
前記要素(E)
を、術語抽出方法(TE)によって決定
する、
請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
前記装置(200)が、前記第1のテキストコレクション(K1)の一部を前記第2のテキストコレクション(K2)に導入する及び/又はその逆を行うステップ(104a)
をさらに含む、
請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
前記方法は、
a)
前記装置(200)が、前記意味シフト(BV)に基づいてバイアスベクトルを決定すること
と、
b)
前記装置(200)が、前記バイアスベクトルに基づいて
、現在のPageRank値を決定すること
と
をさらに含む、
請求項1乃至8のいずれか一項に記載の方法。
【請求項10】
第1のテキストコレクション(K1)の要素(E)を分析するための装置(200)であって、
当該装置は、以下のステップ、即ち、
第1のテキストコレクション(K1)を用意するステップ(102)と、
前記第1のテキストコレクション(K1)とは異なる第2のテキストコレクション(K2)を用意するステップ(104)と、
前記第1のテキストコレクション(K1)に関連する第1のベクトル空間を特徴付ける第1のベクトル空間モデル(M1)を決定するステップ(106)と、
前記第2のテキストコレクション(K2)に関連する第2のベクトル空間を特徴付ける第2のベクトル空間モデル(M2)を決定するステップ(108)と、
前記第2のベクトル空間から前記第1のベクトル空間への写像(T)に基づいて、修正された第2のベクトル空間モデル(M2’)を決定するステップ(110)と、
前記第1のテキストコレクション(K1)の少なくとも1つの要素(E)を、前記第1のベクトル空間モデル(M1)のうちの
、少なくとも1つの
前記要素(E)に対応する第1の単語ベクトル(WV1)と、前記修正された第2のベクトル空間モデル(M2’)のうちの
、少なくとも1つの
前記要素(E)に対応する第2の単語ベクトル(WV2)とに基づいて分析するステップ(120)と、
を実施するように構成されて
おり、
前記分析するステップ(120)は、前記装置(200)が、前記第1の単語ベクトル(WV1)と前記第2の単語ベクトル(WV2)との間のベクトル距離を求めることにより、第1の変数(G1)を決定することを含み、
前記第1の変数(G1)は、前記第2のテキストコレクション(K2)から、前記第1のテキストコレクション(K1)に関連するドメインへの、少なくとも1つの前記要素(E)の意味シフト(BV)を特徴付けるものである、
装置(200)。
【請求項11】
請求項2乃至
9のいずれか一項に記載の方法を実施するように構成されている、
請求項10に記載の装置(200)。
【請求項12】
コンピュータ内及び/又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法であって、
前記コンピュータ又は前記コンピュータネットワークにはプロセッサが設けられており、
前記プロセッサが、前記コンピュータネットワーク内の前記デジタルデータの集合内において前記情報を検索するための1つ又は複数の開始点を特徴付けるシード情報(SI)を用意するステップ(10)と、
前記プロセッサが、前記シード情報(SI)に基づいて、前記コンピュータネットワーク内において情報を検索するステップ(12)と、
を含み、
前記シード情報(SI)を用意するステップ(10)のために、請求項1乃至
9のいずれか一項に記載の方法が使用される、
方法。
【請求項13】
前記プロセッサが、前記シード情報(SI)を用意するステップ(10)は、
前記プロセッサが、前記検索のための第1の個数の用語を規定するステップ(10a)と、
前記プロセッサが、前記第1の変数(G1)に基づいて、前記検索のための前記第1の個数の用語の意味シフト(BV)を決定するステップ(10b)と、
前記プロセッサが、前記第1の個数の用語のうち、所定の第1の閾値を下回っている意味シフト(BV)を有する用語を、前記検索するステップ(12)のためのシード情報(SI)として使用するステップ(10c)と、
を含む、請求項12に記載の方法。
【請求項14】
コンピュータ内及び/又はコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法であって、
前記コンピュータ、前記コンピュータネットワーク及び前記データベースのうちの少なくとも1つには、プロセッサが設けられており、
前記プロセッサが、検索用語(Q)を受信するステップ(20)と、
前記プロセッサが、前記第2のテキストコレクション(K2)に関する前記検索用語(Q)の、請求項1乃至
9のいずれか一項に記載の方法によって決定された意味シフト(BV)に基づいて、前記検索用語を評価するステップ(22)と、
前記プロセッサが、前記評価するステップ(22)に応じて、前記検索用語(Q)を使用して前記検索を実施するステップ(24)又は前記検索用語(Q)を拒否するステップ(26)と、
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
従来技術
本開示は、第1のテキストコレクションの要素を分析するための方法に関する。
【0002】
本開示は、第1のテキストコレクションの要素を分析するための装置に関する。
【0003】
本開示はさらに、デジタルデータ内において情報を検索するための方法及び装置に関する。
【背景技術】
【0004】
テキスト分析のための装置に基づく、特にコンピュータ実装されたシステムは、術語抽出及びキーワード抽出のために、規則に基づいた及び/又は統計的な方法を使用する。テキスト分析のために、ハイブリッド方法及び機械学習方法も使用される。
【発明の概要】
【発明が解決しようとする課題】
【0005】
術語抽出は、特に、辞書構築、シソーラス構築及びオントロジ構築、並びに、データベース内における情報検索、テキスト分類及びテキストクラスタリングにおいて使用される。術語抽出の典型的な問題は、多義の用語、いわゆる準技術術語の分類である。そのような用語は、専門言語と一般言語との間に位置する。例えば、“Absperren”という用語は、「何かに鍵をかけて閉める」という意味における日常言語的な意味と、手工業における特別な意味、即ち、「表面を封止する」という意味とを有する。意味変化の種類は、同音異義語(完全に別個の意味)から多義語(意味は依然として類似)、さらには専門言語における狭義化まで、種々異なり得る。
【課題を解決するための手段】
【0006】
発明の開示
好ましい実施形態は、第1のテキストコレクション(コーパス)の要素を分析するための方法であって、第1のテキストコレクションを用意するステップと、第1のテキストコレクションとは異なる第2のテキストコレクションを用意するステップと、第1のテキストコレクションに関連する第1のベクトル空間を特徴付ける第1のベクトル空間モデルを決定するステップと、第2のテキストコレクションに関連する第2のベクトル空間を特徴付ける第2のベクトル空間モデルを決定するステップと、第2のベクトル空間から第1のベクトル空間への写像に基づいて、修正された第2のベクトル空間モデルを決定するステップと、第1のテキストコレクションの少なくとも1つの要素を、第1のベクトル空間モデルのうちの、少なくとも1つの要素に対応する第1の単語ベクトルと、修正された第2のベクトル空間モデルのうちの、少なくとも1つの要素に対応する第2の単語ベクトルとに基づいて分析するステップと、を含む方法に関する。これによって、有利には、第1のテキストコレクションの少なくとも1つの要素、例えば用語又は単語の、意味又は意味のシフト(「意味シフト」)に関する情報を、効率的に決定することが可能となる。
【0007】
さらなる好ましい実施形態においては、第1のベクトル空間モデル及び/又は第2のベクトル空間モデルを形成するために、2013年のTomas Mikolov他著の“Distributed representations of words and phrases and their compositionality”,Advances in Neural Information Processing Systems,第3111-3119頁,Curran Associates, Inc.によるWord2Vec CBOW(continuous bag of words)モデルが使用される。例えば、ここで取得される単語ベクトルは、約200次元を有し得る。従って、ベクトル空間モデルによれば、テキストコレクションの単語を、前述のベクトル空間の対応するベクトルによって表すことが可能となる。この場合、ベクトルの類似性は、意味の類似性を表す。特に好ましくは、第1のベクトル空間と第2のベクトル空間とが同数の次元を有する。
【0008】
さらなる好ましい実施形態においては、第1のベクトル空間モデル及び/又は第2のベクトル空間モデルを形成するために、BojanowskiらによるfastTextモデルが使用され、例えば、2012年のP. Bojanowski*,E. Grave*,A. Joulin,T. Mikolov著の“Enriching Word Vectors with Subword Information”を参照されたい。
【0009】
さらなる好ましい実施形態においては、第2のベクトル空間から第1のベクトル空間への写像に基づいて、修正された第2のベクトル空間モデルを決定するステップは、(1964年のSchoenemannによる)直交プロクラステス問題を解くことによって実施される。ここでは、行列A,Bのための最適な行列W*を計算することができ、なお、行列A,Bは、例えば、第1のベクトル空間及び第2のベクトル空間に対応する。最適な行列W*は、B間のユークリッド距離の2乗の合計を最小化し、辞書エントリD
ijのためのBi*W及びAj*への写像は、
【数1】
を最小化し、ここで、Dは、バイナリ行列としての辞書の表現であり、従って、w
i∈V
bの場合には、D
ij=1である。さらなる好ましい実施形態においては、これは、特異値分解を使用することにより、W*=UV
T、ただし、B
TDA=uΣV
T、のように解くことができ、次いで、B=AW*のように、BをAへと写像/整列することができる。これによって、有利には、2つのベクトル空間の単語ベクトル同士を比較することが可能となる。
【0010】
さらなる好ましい実施形態においては、分析するステップは、第1の単語ベクトルと第2の単語ベクトルとの間のベクトル距離を特徴付ける第1の変数を決定することを含み、特に、第1の変数は、一般言語を表す第2のテキストコレクションから、第1のテキストコレクションに関連するドメインへの、例えば専門言語への、少なくとも1つの要素の意味シフトを特徴付けるものである。前述のベクトル距離又は第1の変数は、有利には、意味シフトを特徴付けるものであり、特に、意味シフトの尺度、即ち、意味シフトの程度についての定量的ステートメントも可能である。これにより、例えば第1のテキストコレクションの要素のさらにより正確な分析が可能となる。
【0011】
さらなる好ましい実施形態においては、分析するステップは、第1の単語ベクトルと第2の単語ベクトルとの間のコサイン距離又はユークリッド距離を形成することを含む。
【0012】
さらなる好ましい実施形態においては、第1のテキストコレクション又は第1のコーパスは、主題特有及び/又は専門分野特有のテキストコレクションであり、第2のテキストコレクション又は第2のコーパスは、非主題特有及び/又は非専門分野特有のテキストコレクション、特に一般言語のテキストコレクションである。
【0013】
例えば、専門分野特有のコーパスは、ドメインに関して特有であるテキストのみを含む。一般言語のコーパスは、ドメインとの特有の対応付けを有していないテキスト又はテキストのコレクションを指す。例えば、インタネット上の料理フォーラムの総てのテキストは、専門分野特有のコーパスである。例えば、Wikipediaの総てのエントリは、一般言語のコーパスである。
【0014】
さらなる好ましい実施形態においては、第1のテキストコレクションを用意するステップ、及び/又は、第2のテキストコレクションを用意するステップは、a)特にWebサイトのクロール、例えばフォーカスドクロールにより、コンピュータ内若しくはコンピュータネットワーク内及び/又はデータベース内においてテキスト及び/又は単語を収集すること、及び/又は、b)デジタルの又はデジタル化された本からテキスト及び/又は単語を収集することを有する。
【0015】
さらなる好ましい実施形態においては、2つのテキストコレクションの一方にのみ存在する、テキストコレクションの要素の単語ベクトルが破棄される。これにより、メモリ必要量を低減することができる。
【0016】
さらなる好ましい実施形態においては、第1のテキストコレクションの少なくとも1つの要素は、術語抽出方法によって決定される。さらなる好ましい実施形態においては、例えば前述の術語抽出方法によって、第1のテキストコレクションの複数の要素を決定することもでき、例えば、さらなる好ましい実施形態によれば、これらの要素が、例えば、可能性のある意味シフトに関して分析される。さらなる好ましい実施形態においては、当該方法は、第1のテキストコレクションの一部を第2のテキストコレクションに導入する及び/又はその逆を行うステップをさらに有する。第1のテキストコレクションの一部を第2のテキストコレクションに導入する及び/又はその逆を行うステップは、例えば、第2のテキストコレクションを用意するステップの後又は最中に実施可能である。さらなる好ましい実施形態においては、導入するステップは、第1のテキストコレクションの一部を第2のテキストコレクションと混合することと同義である。さらなる好ましい実施形態においては、導入するステップ又は混合することは、以下の効果を有し得る。即ち、専門用語/術語がドメイン特有になればなるほど、これらの専門用語/術語は、より限定された文脈において現れることとなる(例えば、調理方法としての「ブランチング処理(blanchieren)」という単語は、主に「食塩水(Salzwasser)」と共に現れるが、その一方で、「クッキー(Plaetzchen)」という単語は、「焼き菓子のレシピ(Backrezepten)」においても、その他の文脈においても、例えば、クリスマスとの関連においても出現する)。即ち、さらなる好ましい実施形態によれば、(例えば、一般言語及びドメイン特有の)それぞれのテキストコレクション上において単語ベクトルを形成する場合に、非常にドメイン特有である術語の単語ベクトル同士を、比較的類似させることができる。なぜなら、一般言語のコーパス(テキストコレクション)内に、ドメイン特有のコーパスからの、さらに互いに非常に類似したテキストだけが現れるからである。より一般言語の用語又は多義の用語の場合には、文脈がより多様であり、さらなる好ましい実施形態によれば、これによって、ベクトルがより強く発散する。
【0017】
さらなる好ましい実施形態は、一般言語を表す第2のテキストコレクションから、第1のテキストコレクションに関連するドメインへの、例えば専門言語への、第1のテキストコレクションの少なくとも1つの要素の意味シフトを決定するための、特に、第2のテキストコレクションから、第1のテキストコレクションに関連するドメインへの、第1のテキストコレクションの少なくとも1つの要素の意味シフトの強さを決定するための、実施形態による方法の使用に関する。
【0018】
さらなる好ましい実施形態においては、当該方法は、特に術語抽出方法のために、意味シフトに基づいてバイアスベクトルを決定することをさらに含む。これによって、有利には、バイアスベクトルの精確な初期化が可能となり、アルゴリズムの収束を加速させることができる。さらなる実施形態によれば、バイアスベクトルは、「テレポーテーションベクトル」又は「パーソナライゼーションベクトル」と称されることもある。
【0019】
さらなる好ましい実施形態においては、当該方法は、意味シフトに基づいて、特にバイアスベクトルに基づいて、現在のPageRank値を決定することをさらに含む。
【0020】
特定の専門領域についての術語を異種のテキストデータコレクション内において発見するための1つの手段は、Personalized PageRankアルゴリズムを使用することである。グラフ内のノードは、テキスト内の単語によって表され、エッジは、枠内におけるそれらの単語の共通の出現率又は類似性等によって表される(特に、Milhacea and Tarau, 2004;De Groc et al., 2011;Khan et al., 2016;Zhang et al., 2017を参照のこと)。PageRankアルゴリズムは、
PR’=d*A*PR+(1-d)*v
のように形式化可能であり、ここで、PRは、変数|V|のベクトルであり、この場合、それぞれの値が1つの単語に帰属している。PR’は、現在のPageRankであり、PRは、以前のステップからのPageRankであり、dは、減衰係数であり、Aは、遷移行列であり、vは、既に上述したバイアスベクトルであって、それぞれのノード(それぞれの単語)ごとに、そのノードの方向においてどの程度強く計算に影響を与えるべきかを決定する値を含むバイアスベクトルである。
【0021】
さらなる好ましい実施形態によれば、術語抽出時に、いくつかのシード術語の方向において計算に影響を与えることが有用であり得る。即ち、該当する単語wiがシード単語の集合内に含まれている場合には、vi=1であり、そうでない場合には、vi=0である。
【0022】
さらなる好ましい実施形態においては、前述のバイアスベクトルviを、好ましい実施形態によって決定された意味シフトに基づいて決定することができ、これにより、バイアス値の正確な計算が可能となり、アルゴリズムの収束が加速される。
【0023】
さらなる好ましい実施形態においては、前述のバイアスベクトルviを、例えば、以下のように決定することができ、即ち、xiが単語wiに帰属する意味シフト(“meaning shift値”)である場合にはvi=1-xiであり、そうでない場合にはvi=0であるように決定することができる。
【0024】
さらなる好ましい実施形態は、第1のテキストコレクションの要素を分析するための装置であって、当該装置は、以下のステップ、即ち、第1のテキストコレクションを用意するステップと、第1のテキストコレクションとは異なる第2のテキストコレクションを用意するステップと、第1のテキストコレクションに関連する第1のベクトル空間を特徴付ける第1のベクトル空間モデルを決定するステップと、第2のテキストコレクションに関連する第2のベクトル空間を特徴付ける第2のベクトル空間モデルを決定するステップと、第2のベクトル空間から第1のベクトル空間への写像に基づいて、修正された第2のベクトル空間モデルを決定するステップと、第1のテキストコレクションの少なくとも1つの要素を、第1のベクトル空間モデルのうちの、少なくとも1つの要素に対応する第1の単語ベクトルと、修正された第2のベクトル空間モデルのうちの、少なくとも1つの要素に対応する第2の単語ベクトルとに基づいて分析するステップと、を実施するように構成されている装置に関する。
【0025】
さらなる好ましい実施形態においては、当該装置は、実施形態による方法を実施するように構成されている。
【0026】
さらなる好ましい実施形態においては、当該装置は、少なくとも1つの計算装置と、コンピュータプログラムを少なくとも一時的に記憶するための、計算装置に割り当てられたメモリ装置とを有し、コンピュータプログラムは、特に装置の動作を制御するように、特に好ましい実施形態による方法を実施するように構成されている。さらなる好ましい実施形態においては、計算装置は、以下の要素のうちの少なくとも1つ、即ち、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、プログラマブルロジックモジュール(例えば、FPGA、フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、ハードウェア回路のうちの少なくとも1つの要素を有する。さらなる好ましい実施形態においては、これらの要素同士を組み合わせることも考えられ、また、同様に、少なくとも相当数のコンポーネントを、例えば、コンピュータネットワークの複数の異なる要素上に分散配置することも考えられる。さらなる好ましい実施形態においては、メモリ装置は、以下の要素のうちの少なくとも1つ、即ち、揮発性メモリ、特に作業メモリ(RAM)、不揮発性メモリ、特にフラッシュEEPROMのうちの少なくとも1つを有する。好ましくは、コンピュータプログラムは、不揮発性メモリ内に格納されている。さらなる好ましい実施形態においては、実施形態による方法を実施するために使用することができるデータも、少なくとも一時的にメモリ装置内に格納することができる。データは、例えば、以下の要素のうちの少なくとも1つ、即ち、第1のテキストコレクション又は第1のテキストコレクションの一部、第2のテキストコレクション又は第2のテキストコレクションの一部、第1のベクトル空間モデル及び/又は第2のベクトル空間モデル及び/又は修正された第2のベクトル空間モデルを特徴付けるデータ、第2のベクトル空間から第1のベクトル空間への写像を特徴付ける、特に変換行列の形態のデータ、第1のベクトル空間及び/又は第2のベクトル空間の1つ又は複数の単語ベクトルを特徴付けるデータ、第1の変数、及び/又は、さらなる好ましい実施形態によって決定された、特に数値変数の形態の意味シフトのうちの少なくとも1つを有し得る。
【0027】
さらなる好ましい実施形態は、特にコンピュータ内及び/又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法であって、特にコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための1つ又は複数の開始点を特徴付けるシード情報を用意するステップと、シード情報に基づいて、コンピュータネットワーク内において情報を検索するステップと、を含み、シード情報を用意するステップのために、実施形態による方法が使用される方法に関する。これにより、特に意味のある、例えば、特定のドメインにとって特有の又は一義的なシード情報を規定することが可能となり、これにより、検索するステップの効率が高められる。このようにして、同一のコンピューティングリソースを使用して、より大量のデジタルデータを検索又は評価することが可能となり、主題に関連したデータ、特にテキストデータを、従来のアプローチの場合よりも少ない計算コストでクロールすることが可能となる。特に、さらなる好ましい実施形態においては、効率的なフォーカスクローラを実装するために、上述の検索方法を使用することができる。
【0028】
さらなる好ましい実施形態においては、シード情報は、例えば、インタネットアドレス(URL)であり得、及び/又は、少なくとも1つの検索エンジン及び/又はデータベースと共に使用するための検索単語であり得る。
【0029】
さらなる好ましい実施形態においては、シード情報を用意するステップは、検索のための第1の個数の用語を規定するステップ(例えばユーザインタフェースを介してユーザによって、及び/又は、例えば構成データに基づいて自動的に)と、第1の変数に基づいて、検索のための第1の個数の用語の意味シフトを決定するステップと、第1の個数の用語のうち、所定の第1の閾値を下回っている意味シフトを有する用語を、検索するステップのためのシード情報として使用するステップと、を含む。これによって、有利には、シード情報のために特に特有の用語が使用されることが保証される。
【0030】
さらなる好ましい実施形態は、特にコンピュータ内及び/又はコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法であって、検索用語を受信するステップと、特に第2のテキストコレクションに関する検索用語の、実施形態による方法によって決定された意味シフトに基づいて、検索用語を評価するステップと、評価するステップに応じて、検索用語を使用して検索を実施するステップ又は検索用語を拒否するステップと、を含む方法に関する。これによって、有利には、特に特定のドメインに関して十分に正確な又は特有の検索用語が使用される場合に、狙いを定めて検索を実施することが可能となり、他方では、さほど特有でない検索用語についての検索プロセスを回避することができ、これによって、計算リソース及びエネルギが節約される。
【0031】
本発明のさらなる特徴、使用可能性及び利点は、以下の図面に示されている本発明の実施例についての以下の説明から明らかになる。説明又は図示されている総ての特徴は、単独で又は任意の組合せにより、特許請求の範囲又はそれらの引用にどのように要約されているかに関係なく、また、明細書又は図面におけるそれらの文言又は表現に関係なく、本発明の対象を形成する。
【図面の簡単な説明】
【0032】
【
図1】好ましい実施形態による方法の簡略化された概略フロー図である。
【
図2】さらなる好ましい実施形態による簡略化された概略ブロック図である。
【
図3】さらなる好ましい実施形態による装置の簡略化された概略ブロック図である。
【
図4】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。
【
図5】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。
【
図6】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。
【
図7】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。
【発明を実施するための形態】
【0033】
図1は、好ましい実施形態による方法の簡略化された概略フロー図を示している。当該方法は、第1のテキストコレクション(「コーパス」)K1の要素E(
図2のブロック図も参照のこと)を分析するために使用可能であって、かつ、以下のステップ、即ち、第1のテキストコレクションK1(
図2)を用意するステップ102(
図1)と、第1のテキストコレクションK1とは異なる第2のテキストコレクションK2を用意するステップ104(
図1)と、テキストコレクションK1に関連する第1のベクトル空間を特徴付ける第1のベクトル空間モデルM1を決定するステップ106と、第2のテキストコレクションK2に関連する第2のベクトル空間を特徴付ける第2のベクトル空間モデルM2を決定するステップ108と、例えば変換行列Tを用いた、第2のベクトル空間から第1のベクトル空間への写像に基づいて、修正された第2のベクトル空間モデルM2’を決定するステップ110と、第1のテキストコレクションK1の少なくとも1つの要素Eを、第1のベクトル空間モデルM1のうちの、少なくとも1つの要素Eに対応する第1の単語ベクトルWV1と、修正された第2のベクトル空間モデルM2’のうちの、少なくとも1つの要素Eに対応する第2の単語ベクトルWV2とに基づいて分析するステップ120と、を含む。分析するステップ120は、
図2においてはブロック矢印A1によっても示されている。これによって、有利には、第1のテキストコレクションK1の少なくとも1つの要素E、例えば用語又は単語の、意味又は意味のシフトBV(「意味シフト」)に関する情報を、効率的に決定することが可能となる。
【0034】
さらなる好ましい実施形態においては、ステップ102,104,106,108とは異なる順序、例えば、102,106,104,108の順序などを選択するものとしてもよい。
【0035】
さらなる好ましい実施形態においては、第1のベクトル空間モデルM1及び/又は第2のベクトル空間モデルM2を形成するために、2013年のTomas Mikolov他著の“Distributed representations of words and phrases and their compositionality”,Advances in Neural Information Processing Systems”,第3111-3119頁,Curran Associates, Inc.によるWord2Vec CBOWモデルが使用される。例えば、ここで取得される単語ベクトルWV1,WV2,・・・は、約200次元を有し得る。特に好ましくは、第1のベクトル空間と第2のベクトル空間とが同数の次元を有する。
【0036】
さらなる好ましい実施形態においては、第1のベクトル空間モデル及び/又は第2のベクトル空間モデルを形成するために、BojanowskiらによるfastTextモデルが使用され、例えば、2012年のP. Bojanowski*,E. Grave*,A. Joulin,T. Mikolov著の“Enriching Word Vectors with Subword Information”を参照されたい。
【0037】
さらなる好ましい実施形態においては、分析するステップ120(
図1)は、第1の単語ベクトルWV1と第2の単語ベクトルWV2との間のベクトル距離を特徴付ける第1の変数G1(
図2)を決定することを含み、特に、第1の変数G1は、一般言語を表す第2のテキストコレクションK2から、第1のテキストコレクションK1に関連するドメインへの、例えば専門言語への、少なくとも1つの要素Eの意味シフトBVを特徴付けるものである。前述のベクトル距離又は第1の変数G1は、有利には、意味シフトBVを特徴付けるものであり、特に、意味シフトBVの尺度、即ち、意味シフトBVの程度についての定量的ステートメントも可能である。
【0038】
さらなる好ましい実施形態においては、分析するステップ120は、第1の単語ベクトルWV1と第2の単語ベクトルWV2との間のコサイン距離又はユークリッド距離又は他の距離を形成することを有する。
【0039】
さらなる好ましい実施形態においては、両方のテキストコレクションにおいて、目的の単語に対して近隣にある単語の共通集合を形成することが企図されている。意味シフトが小さければ小さいほど、共通集合も小さくなる。
【0040】
さらなる好ましい実施形態においては、第1のテキストコレクションK1は、主題特有及び/又は専門分野特有のテキストコレクションであり、第2のテキストコレクションK2は、非主題特有及び/又は非専門分野特有のテキストコレクション、特に一般言語のテキストコレクションである。
【0041】
さらなる好ましい実施形態においては、第1のテキストコレクションK1を用意するステップ102(
図1)、及び/又は、第2のテキストコレクションK2を用意するステップ104は、a)特にWebサイトのクロール、例えばフォーカスドクロールにより、コンピュータネットワーク内及び/又はデータベース内においてテキスト及び/又は単語を収集すること、及び/又は、b)デジタルの又はデジタル化された本からテキスト及び/又は単語を収集することを含む。
【0042】
さらなる好ましい実施形態においては、専門言語のテキストコレクションK1は、例えば、データベース、及び/又は、プライベート及び/又はパブリックのコンピュータネットワーク(例えば、インタネット)のような1つ又は複数のソースから、複数の専門分野テキストを、狙いを定めて収集することによって形成可能である(例えば、主題特有のウェブサイト、専門書、専門出版物)。
【0043】
さらなる好ましい実施形態においては、一般言語のテキストコレクションK2は、例えば、データベース(例えば、新聞テキスト)、及び/又は、プライベート及び/又はパブリックのコンピュータネットワーク(例えば、インタネット)のような1つ又は複数のソースから、複数のテキストをランダムに収集することによって形成可能である。
【0044】
さらなる好ましい実施形態においては、2つのテキストコレクションの一方にのみ存在する、テキストコレクションK1,K2の要素の単語ベクトルが破棄される。これにより、メモリ必要量を低減することができる。さらなる好ましい実施形態においては、このことを、例えば、分析するステップ120において実施するものとしてもよいし、又は、それより前に実施するものとしてもよい。
【0045】
さらなる好ましい実施形態においては、第1のテキストコレクションK1の少なくとも1つの要素Eは、術語抽出方法TEによって決定される。さらなる好ましい実施形態においては、例えば前述の術語抽出方法TEによって、第1のテキストコレクションK1の複数の要素E(例えば、総ての専門語句)を決定することもでき、例えば、さらなる好ましい実施形態によれば、これらの要素Eが、例えば、可能性のある意味シフトに関して分析される。
【0046】
さらなる好ましい実施形態においては、(例えば、ステップ102,104,106,108,110によって)モデルM1,M1’が既に存在する場合には、第1のテキストコレクションK1の(さらなる)要素についての第1の変数G1又は意味シフトBVを、例えば以下のステップ、即ち、さらなる要素Eを選択又は規定するステップと、両方のモデルM1,M2’の、さらなる要素Eに関連する単語ベクトルに基づいて、第1の変数G1を決定するステップとによって決定することができる。即ち、さらなる好ましい実施形態においては、(さらなる)要素Eのための変数G1,BVを決定するたびにステップ102,104,106,108,110を繰り返す必要がない。むしろ、さらなる好ましい実施形態においては、さらなる要素Eに関連する単語ベクトルを決定して、例えば、それらの単語ベクトル同士の距離を評価すれば十分である。
【0047】
さらなる好ましい実施形態においては、当該方法(
図1及び
図2を参照のこと)は、第1のテキストコレクションK1の一部を第2のテキストコレクションK2に導入する及び/又はその逆を行うステップ104aをさらに有する。第1のテキストコレクションK1の一部を第2のテキストコレクションK2に導入する及び/又はその逆を行うステップ104aは、例えば、第2のテキストコレクションK2を用意するステップ104(
図1)の後又は最中に実施可能である。
図2においては、導入するステップは、破線の矢印104aによって例示的にシンボル化されている。さらなる好ましい実施形態においては、導入するステップ104aは、第1のテキストコレクションK1の一部を第2のテキストコレクションK2と混合することと同義である。さらなる好ましい実施形態においては、導入するステップ104a又は混合することは、以下の効果を有し得る。即ち、専門用語/術語がドメイン特有になればなるほど、これらの専門用語/術語は、より限定された文脈において現れることとなる(例えば、調理方法としての「ブランチング処理(blanchieren)」という単語は、主に「食塩水(Salzwasser)」と共に現れるが、その一方で、「クッキー(Plaetzchen)」という単語は、「焼き菓子のレシピ(Backrezepten)」においても、その他の文脈においても、例えば、クリスマスとの関連においても出現する)。即ち、さらなる好ましい実施形態によれば、(例えば、一般言語及びドメイン特有の)それぞれのテキストコレクション上において単語ベクトルを形成する場合に、非常にドメイン特有である術語の単語ベクトル同士を、比較的類似させることができる。なぜなら、一般言語のコーパス(テキストコレクション)内に、ドメイン特有のコーパスからの、さらに互いに非常に類似したテキストだけが現れるからである。より一般言語の用語又は多義の用語の場合には、文脈がより多様であり、さらなる好ましい実施形態によれば、これによって、ベクトルがより強く発散する。好ましい実施形態による方法は、これによって、より高感度になる。
【0048】
さらなる好ましい実施形態においては、2つのベクトル空間モデルM1,M2を決定するステップ106,108(
図1)の代わりに、両方のテキストコレクション(コーパス)K1,K2にわたる1つのベクトル空間を共に決定することができ、特に以下のステップ、即ち、意味シフトが計算されるべき目的の単語を、それぞれのコーパスにおける2つの異なる記号、例えば、一般言語のコーパスにおける<word>_1と、専門分野のコーパスにおける<word>_2とによって事前に置き換えるステップを実施することが可能である。
【0049】
さらなる好ましい実施形態においては、2つのベクトル空間モデルM1,M2を決定するステップ106,108(
図1)の代わりに、X個の近隣の単語の範囲枠内において、それぞれのコーパス内のそれぞれの文ごとに目的の単語の近隣の単語を保存することを実施することができる。
【0050】
さらなる好ましい実施形態は、例えば一般言語を表す第2のテキストコレクションK2から、第1のテキストコレクションK1に関連するドメインへの、例えば専門言語への、第1のテキストコレクションK1の少なくとも1つの要素Eの意味シフトBVを決定するための、特に、第2のテキストコレクションK2から、第1のテキストコレクションK1に関連するドメインへの、第1のテキストコレクションK1の少なくとも1つの要素Eの意味シフトの強さを決定するための、実施形態による方法の使用に関する。
【0051】
さらなる好ましい実施形態においては、当該方法は、特に術語抽出方法TE(
図1)のために、意味シフトBVに基づいてバイアスベクトルを決定することをさらに含む。これによって、有利には、バイアスベクトルの精確な初期化が可能となり、アルゴリズムの収束を加速させることができる。
【0052】
さらなる好ましい実施形態においては、当該方法は、意味シフトBVに基づいて、特にバイアスベクトルに基づいて、現在のPageRank値を決定することをさらに含む。さらなる好ましい実施形態においては、前述のバイアスベクトルviを、例えば、以下のように決定することができ、即ち、xiが単語wiに帰属する意味シフト(“meaning shift値”)である場合にはvi=1-xiであり、そうでない場合にはvi=0であるように決定することができる。
【0053】
特定の専門領域についての術語を異種のテキストデータコレクション内において発見するための1つの手段は、Personalized PageRankアルゴリズムを使用することである。グラフ内のノードは、テキスト内の単語によって表され、エッジは、枠内におけるそれらの単語の共通の出現率又は類似性等によって表される(特に、Milhacea and Tarau, 2004;De Groc et al., 2011;Khan et al., 2016;Zhang et al., 2017を参照のこと)。PageRankアルゴリズムは、
PR’=d*A*PR+(1-d)*v
のように形式化可能であり、ここで、PRは、変数|V|のベクトルであり、この場合、それぞれの値が1つの単語に帰属している。PR’は、現在のPageRankであり、PRは、以前のステップからのPageRankであり、dは、減衰係数であり、Aは、遷移行列であり、vは、既に上述したバイアスベクトルであって、それぞれのノード(それぞれの単語)ごとに、そのノードの方向においてどの程度強く計算に影響を与えるべきかを決定する値を含むバイアスベクトルである。
【0054】
さらなる好ましい実施形態によれば、術語抽出時に、いくつかのシード術語の方向において計算に影響を与えることが有用であり得る。即ち、該当する単語wiがシード単語の集合内に含まれている場合にはvi=1であり、そうでない場合にはvi=0である。
【0055】
さらなる好ましい実施形態においては、前述のバイアスベクトルviを、好ましい実施形態によって決定された意味シフトBVに基づいて決定することができ、これにより、バイアス値の正確な計算が可能となり、アルゴリズムの収束が加速される。即ち、既知のPageRankアルゴリズムを、好ましい実施形態によって改善することができる。このことは、
図7に概略的に示されている。ステップ30は、
図1、
図2を参照して例示的に上述した好ましい実施形態による方法を用いて意味シフトBVを決定するステップを概略的に表す。
図7のステップ32は、事前にステップ30において決定された意味シフトBVに基づいてバイアスベクトルviを決定するステップを概略的に表す。
【0056】
好ましい実施形態は、例えば、特定の専門領域を特徴付ける単語又は単語のグループの自動的な発見である自動術語抽出(ATE)のために利用可能である。術語抽出は、特に、辞書構築、シソーラス構築及びオントロジ構築、並びに、データベース内における情報検索、テキスト分類及びテキストクラスタリングにおいて使用される。
【0057】
好ましい実施形態によって決定又は初期化されたバイアスベクトルviを用いて、例えば、術語抽出方法TE(
図1)を加速させることができ、これによって、例えば、計算容量が節約される。さらに、例えば、システムが間違ったパスを辿った場合に、抽出のエラーを回避することが可能となる。さらに、以下の用途が改善される:
・キーワード抽出:より一義的なキーワードを提供することが可能となる、
・用語集及びオントロジの自動構築が高速化される。
【0058】
実施形態による原理は、術語抽出の領域と、キーワード抽出(Keyword Extraction)のような、術語抽出に関係する領域とを改善することができる。好ましい実施形態によれば、例えば、ドメイン特有の専門術語を、特に異種のテキスト集合内において、より迅速に発見することが可能となる。
【0059】
実施形態による原理は、例示的に上述したPersonalized PageRankアルゴリズムとは別のアルゴリズムを改善することもできる。このためには、改善された当該方法が、実施形態によるバイアスベクトルを利用して例えば遷移確率に影響を与えることが有用であり、これによって、改善された当該方法は、より迅速に収束することが可能となる。実施形態による原理を使用することによって、一義的な(多義ではない)術語用語が主に発見され、特に、一義的な(多義ではない)術語用語のみが発見され、シードとして利用されるようになる。これにより、当該方法は、多義の単語から間違った方向に逸脱することがなくなる。
【0060】
さらなる好ましい実施形態は、第1のテキストコレクションの要素を分析するための装置200(
図3を参照のこと)に関し、当該装置200は、実施形態による方法を実施するように構成されている(例えば、
図1のフロー図を参照のこと)。
【0061】
図3は、さらなる好ましい実施形態による装置200の簡略化された概略ブロック図を示している。装置200は、少なくとも1つの計算装置202と、コンピュータプログラムPRGを少なくとも一時的に記憶するための、計算装置202に対応付けられたメモリ装置204とを有し、コンピュータプログラムPRGは、特に装置200の動作を制御するように、特に好ましい実施形態による方法を実施するように構成されている。
【0062】
さらなる好ましい実施形態においては、計算装置202は、以下の要素のうちの少なくとも1つ、即ち、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、プログラマブルロジックモジュール(例えば、FPGA、フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、ハードウェア回路のうちの少なくとも1つの要素を有する。さらなる好ましい実施形態においては、これらの要素同士を組み合わせることも考えられ、また、同様に、少なくとも相当数のコンポーネントを、例えば、コンピュータネットワークの複数の異なる要素上に分散配置することも考えられる。
【0063】
さらなる好ましい実施形態においては、メモリ装置204は、以下の要素のうちの少なくとも1つ、即ち、揮発性メモリ204a、特に作業メモリ(RAM)、不揮発性メモリ204b、特にフラッシュEEPROMのうちの少なくとも1つを有する。好ましくは、コンピュータプログラムPRGは、不揮発性メモリ204b内に格納されている。さらなる好ましい実施形態においては、実施形態による方法を実施するために使用することができるデータDATも、少なくとも一時的にメモリ装置204内に格納することができる。データDATは、例えば、以下の要素のうちの少なくとも1つ、即ち、第1のテキストコレクションK1又は第1のテキストコレクションK1の一部、第2のテキストコレクションK2又は第2のテキストコレクションK2の一部、第1のベクトル空間モデルM1及び/又は第2のベクトル空間モデルM2及び/又は修正された第2のベクトル空間モデルM2’を特徴付けるデータ、第2のベクトル空間から第1のベクトル空間への写像を特徴付ける、特に変換行列Tの形態のデータ、第1のベクトル空間及び/又は第2のベクトル空間の1つ又は複数の単語ベクトルWV1,WV2を特徴付けるデータ、第1の変数G1、及び/又は、さらなる好ましい実施形態によって決定された、特に数値変数の形態の意味シフトBVのうちの少なくとも1つを有し得る。
【0064】
さらなる好ましい実施形態は、特にコンピュータ内及び/又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法(
図4を参照のこと)であって、当該方法は、以下のステップ、即ち、特にコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための1つ又は複数の開始点を特徴付けるシード情報を用意するステップ10と、シード情報SIに基づいて、コンピュータネットワーク内において情報を検索するステップ12とを含み、シード情報SIを用意するステップのために、実施形態による方法、例えば、例示的に上述した
図1のシーケンスが使用される方法に関する。これによって、特に意味のある、例えば、特定のドメインにとって特有の又は一義的なシード情報SIを規定することが可能となり、これによって、検索するステップ12(
図4)の効率が高められる。このようにして、同一のコンピューティングリソースを使用して、より大量のデジタルデータを検索又は評価することが可能となり、主題に関連したデータ、特にテキストデータを、従来のアプローチの場合よりも少ない計算コストによりクロールすることが可能となる。特に、さらなる好ましい実施形態においては、効率的なフォーカスクローラを実装するために、上述の検索方法を使用することができる。
【0065】
さらなる好ましい実施形態においては、シード情報SIは、例えば、インタネットアドレス(URL)であり得、及び/又は、少なくとも1つの検索エンジン及び/又はデータベースと共に使用するための検索単語であり得る。
【0066】
さらなる好ましい実施形態においては、シード情報SIを用意するステップ10(
図5を参照のこと)は、検索のための第1の個数の用語を規定するステップ10a(例えば、任意選択的なユーザインタフェース206(
図3)を介してユーザによって、及び/又は、例えば、例えば少なくとも一時的にメモリ装置204に格納することもできる構成データに基づいて自動的に)と、第1の変数G1(
図2)に基づいて、検索のための第1の個数の用語の意味シフトBVを決定するステップ10b(
図5)と、第1の個数の用語のうち、所定の第1の閾値を下回っている意味シフトBVを有する用語を、検索するステップ12(
図4)のためのシード情報SIとして使用するステップ10c(
図5)と、を含む。これによって、有利には、シード情報SIのために特に特有の用語が使用されることが保証される。
【0067】
例えば、さらなる好ましい実施形態においては、第1の個数の用語のうちのそれぞれの用語に対して
図1によるシーケンスを実施して、それらの用語Eのそれぞれの意味シフトBVを決定することができる。例えば、所定の第1の閾値を下回っている意味シフトBVを有する用語を、計画された検索するステップ12のために十分に特有であるとみなすことができ、これらの十分に特有な用語を使用して検索を実施することができる。例えば、第1の個数の用語のうちの残余の用語は、十分に特有であるとは見なされないので、それら用語について検索は実施されない。
【0068】
さらなる好ましい実施形態においては、
図3の装置200は、特にコンピュータプログラムPRGの制御下において、
図4、
図5による方法を実施するように(も)構成されている。
【0069】
さらなる好ましい実施形態は、特にコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法(
図6を参照のこと)であって、当該方法は、以下のステップ、即ち、(例えば、ユーザインタフェース206(
図3)を介して)検索用語Qを受信するステップ20と、第2のテキストコレクションK2に関する検索用語の、実施形態による方法によって(例えば、
図1のシーケンス又はシーケンスの一部によって)決定された意味シフトに基づいて、検索用語Qを評価するステップ22と、評価するステップ22に応じて、検索用語を使用して検索を実施するステップ24又は検索用語を拒否するステップ26と、を含む方法に関する。これによって、有利には、特に特定のドメインに関して十分に正確な又は特有の検索用語が使用される場合に、狙いを定めて検索を実施することが可能となり、他方では、さほど特有でない検索用語についての検索プロセスを回避することができ、これによって、計算リソース及びエネルギが節約される。
【0070】
さらなる好ましい実施形態においては、
図3の装置200は、特にコンピュータプログラムPRGの制御下において、
図6による方法を実施するように(も)構成されている。
【0071】
以下においては、さらなる有利な態様及び実施形態が説明されており、これらの態様及び実施形態は、個別に単独で、又は、例示的に上述した実施形態との組合せにより、組み合わせることが可能である。
【0072】
さらなる好ましい実施形態においては、専門言語に関する潜在的な術語に対して、意味変化の程度の数値評価を用いることにより、例えば第1の変数G1(
図2)を使用することにより、例えば、以下のような、新規の用途への対処及び旧来の用途の改善が可能となる:
・キーワード抽出:より一義的なキーワードが提供される、
・用語集の自動構築、
・(例えば、素人による)専門言語の用法の学習を支援する学習システム、
・術語学における用語の(専門言語に対する帰属性の強さ、中心度による)より良好な分類、
・術語学における用語の難易度のより良好な分類(特有性)、
・フォーカスクロール:専門領域をより一義的に定義するより良好なシード単語(一般言語に関する意味変化を有しないシード単語)を選択することができる。
【0073】
さらなる好ましい実施形態においては、純粋な一般言語の用語、即ち、第2のテキストコレクションK2の要素と比較して、多義の用語を術語学においてどのように分類すべきかという問題を解決することができる。従来の方法は、これまで依然として多義性を扱うことが不可能であったので、このことは特に有利である。
【0074】
さらなる好ましい実施形態において可能となる術語の特徴付けは、有利には、例えば素人が専門術語を学習する際など、その後の用途のためにも有用であり得る。専門言語における既知の用語の意味変化は、状況によっては素人には認識されず、そのため学習システムは、このような意味変化を特別に取り扱うことが要求される。
【0075】
さらなる好ましい実施形態によれば、術語抽出と、キーワード抽出(Keyword Extraction)のような、術語抽出に関連する領域とを改善することも可能となる。これまでの従来技術は、特に、一般言語から専門言語への用語Eの意味シフトBVの強さを検出することを含まない。さらなる好ましい実施形態によれば、意味シフトBVの程度は、例えば、一般言語(テキストコレクションK2)におけるx個の意味を起点として、専門言語(テキストコレクションK1)におけるy個の意味に至るまで数値的に決定される。
【0076】
さらなる好ましい実施形態によれば、特に、言語内の意味の頻度分布を考慮することも可能となる。
【0077】
さらなる好ましい実施形態によれば、ある用語Eが専門分野特有の意味を有することを認識することが可能となる。さらなる好ましい実施形態によれば、場合により、用語Eの総ての意味及び利用の頻度にわたって用語の理解に矛盾が存在するかどうかを認識することも可能となる。従って、さらなる好ましい実施形態によれば、尺度BVは、例えば、素人が用語Eを専門言語で利用するという特定の期待行動も反映する。例えば、ある用語Eが一般言語K2において既に多義である場合には、以前から一義的な用語の場合よりも、意味シフトBVが発生することが期待される(特に、非ゼロの値によって、例えば、該当する単語ベクトルWV1,WV2のベクトル距離によって)。一般言語における意味と専門言語における意味とがさほど大きく相違しない場合には、素人が意味変化を即座に認識しない可能性がより高くなる。
【0078】
さらなる好ましい実施形態は、支援、テキスト分類(コレクション内のテキストの分類、ドメインの帰属性、例えば、技術専門家又は素人のようなユーザグループに関する関連性)、デジタル辞書及びシソーラスの領域における、実施形態による方法(
図1の例示的なシーケンスを参照のこと)の使用に関する。