特許7297920 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧

特許7297920テキストコレクションの要素を分析するための方法及び装置、デジタルデータ内において情報を検索するための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-16

(45)【発行日】2023-06-26

(54)【発明の名称】テキストコレクションの要素を分析するための方法及び装置、デジタルデータ内において情報を検索するための方法及び装置

(51)【国際特許分類】

G06F 40/30 20200101AFI20230619BHJP

G06F 40/216 20200101ALI20230619BHJP

G06F 16/332 20190101ALI20230619BHJP

【ＦＩ】

G06F40/30

G06F40/216

G06F16/332

【請求項の数】 14

(21)【出願番号】P 2021557181

(86)(22)【出願日】2020-03-25

(65)【公表番号】

(43)【公表日】2022-05-25

(86)【国際出願番号】 EP2020058253

(87)【国際公開番号】W WO2020193591

(87)【国際公開日】2020-10-01

【審査請求日】2021-09-24

(31)【優先権主張番号】102019204222.8

(32)【優先日】2019-03-27

(33)【優先権主張国・地域又は機関】DE

(31)【優先権主張番号】102019215270.8

(32)【優先日】2019-10-02

(33)【優先権主張国・地域又は機関】DE

(73)【特許権者】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】アンナコンスタンツェヘティ

【審査官】木村大吾

(56)【参考文献】

【文献】米国特許出願公開第２０１８／００５２８４９（ＵＳ，Ａ１）

【文献】特開２０１８－０４５６５８（ＪＰ，Ａ）

【文献】特開２０１４－２１５６２５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

第１のテキストコレクション（Ｋ１）の要素（Ｅ）を分析するための装置（２００）を用いて、前記第１のテキストコレクション（Ｋ１）の前記要素（Ｅ）を分析するための方法であって、
前記装置（２００）が、第１のテキストコレクション（Ｋ１）を用意するステップ（１０２）と、
前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）とは異なる第２のテキストコレクション（Ｋ２）を用意するステップ（１０４）と、
前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）に関連する第１のベクトル空間を特徴付ける第１のベクトル空間モデル（Ｍ１）を決定するステップ（１０６）と、
前記装置（２００）が、前記第２のテキストコレクション（Ｋ２）に関連する第２のベクトル空間を特徴付ける第２のベクトル空間モデル（Ｍ２）を決定するステップ（１０８）と、
前記装置（２００）が、前記第２のベクトル空間から前記第１のベクトル空間への写像（Ｔ）に基づいて、修正された第２のベクトル空間モデル（Ｍ２’）を決定するステップ（１１０）と、
前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）の少なくとも１つの要素（Ｅ）を、前記第１のベクトル空間モデル（Ｍ１）のうちの、少なくとも１つの前記要素（Ｅ）に対応する第１の単語ベクトル（ＷＶ１）と、前記修正された第２のベクトル空間モデル（Ｍ２’）のうちの、少なくとも１つの前記要素（Ｅ）に対応する第２の単語ベクトル（ＷＶ２）とに基づいて分析するステップ（１２０）と、
を含み、
前記分析するステップ（１２０）は、前記装置（２００）が、前記第１の単語ベクトル（ＷＶ１）と前記第２の単語ベクトル（ＷＶ２）との間のベクトル距離を求めることにより、第１の変数（Ｇ１）を決定することを含み、
前記第１の変数（Ｇ１）は、前記第２のテキストコレクション（Ｋ２）から、前記第１のテキストコレクション（Ｋ１）に関連するドメインへの、少なくとも１つの前記要素（Ｅ）の意味シフト（ＢＶ）を特徴付けるものである、
方法。

【請求項2】

前記第２のテキストコレクション（Ｋ２）は一般言語を表し、前記第１のテキストコレクション（Ｋ１）に関連するドメインは、専門言語である、
請求項１に記載の方法。

【請求項3】

前記装置（２００）が分析するステップ（１２０）は、前記装置（２００）が、前記第１の単語ベクトル（ＷＶ１）と前記第２の単語ベクトル（ＷＶ２）との間のコサイン距離又はユークリッド距離を求めることを含む、
請求項１又は２のいずれか一項に記載の方法。

【請求項4】

前記第１のテキストコレクション（Ｋ１）は、主題特有及び／又は専門分野特有のテキストコレクションであり、及び／又は、
前記第２のテキストコレクション（Ｋ２）は、非主題特有及び／又は非専門分野特有のテキストコレクションである、
請求項１乃至３のいずれか一項に記載の方法。

【請求項5】

前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）を用意するステップ（１０２）、及び／又は、前記装置（２００）が、前記第２のテキストコレクション（Ｋ２）を用意するステップ（１０４）は、
ａ）前記装置（２００）が、コンピュータ内及び／又はコンピュータネットワーク内においてテキスト及び／又は単語を収集すること、及び／又は、
ｂ）前記装置（２００）が、デジタルの又はデジタル化された本からテキスト及び／又は単語を収集すること
を含む、
請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記装置（２００）が、２つの前記テキストコレクション（Ｋ１，Ｋ２）のうちの一方にのみ存在する、前記テキストコレクション（Ｋ１，Ｋ２）の要素の単語ベクトルを破棄する、請求項１乃至５のいずれか一項に記載の方法。

【請求項7】

前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）の少なくとも１つの前記要素（Ｅ）を、術語抽出方法（ＴＥ）によって決定する、
請求項１乃至６のいずれか一項に記載の方法。

【請求項8】

前記装置（２００）が、前記第１のテキストコレクション（Ｋ１）の一部を前記第２のテキストコレクション（Ｋ２）に導入する及び／又はその逆を行うステップ（１０４ａ）
をさらに含む、
請求項１乃至７のいずれか一項に記載の方法。

【請求項9】

前記方法は、
ａ）前記装置（２００）が、前記意味シフト（ＢＶ）に基づいてバイアスベクトルを決定することと、
ｂ）前記装置（２００）が、前記バイアスベクトルに基づいて、現在のPageRank値を決定することと
をさらに含む、請求項１乃至８のいずれか一項に記載の方法。

【請求項10】

第１のテキストコレクション（Ｋ１）の要素（Ｅ）を分析するための装置（２００）であって、
当該装置は、以下のステップ、即ち、
第１のテキストコレクション（Ｋ１）を用意するステップ（１０２）と、
前記第１のテキストコレクション（Ｋ１）とは異なる第２のテキストコレクション（Ｋ２）を用意するステップ（１０４）と、
前記第１のテキストコレクション（Ｋ１）に関連する第１のベクトル空間を特徴付ける第１のベクトル空間モデル（Ｍ１）を決定するステップ（１０６）と、
前記第２のテキストコレクション（Ｋ２）に関連する第２のベクトル空間を特徴付ける第２のベクトル空間モデル（Ｍ２）を決定するステップ（１０８）と、
前記第２のベクトル空間から前記第１のベクトル空間への写像（Ｔ）に基づいて、修正された第２のベクトル空間モデル（Ｍ２’）を決定するステップ（１１０）と、
前記第１のテキストコレクション（Ｋ１）の少なくとも１つの要素（Ｅ）を、前記第１のベクトル空間モデル（Ｍ１）のうちの、少なくとも１つの前記要素（Ｅ）に対応する第１の単語ベクトル（ＷＶ１）と、前記修正された第２のベクトル空間モデル（Ｍ２’）のうちの、少なくとも１つの前記要素（Ｅ）に対応する第２の単語ベクトル（ＷＶ２）とに基づいて分析するステップ（１２０）と、
を実施するように構成されており、
前記分析するステップ（１２０）は、前記装置（２００）が、前記第１の単語ベクトル（ＷＶ１）と前記第２の単語ベクトル（ＷＶ２）との間のベクトル距離を求めることにより、第１の変数（Ｇ１）を決定することを含み、
前記第１の変数（Ｇ１）は、前記第２のテキストコレクション（Ｋ２）から、前記第１のテキストコレクション（Ｋ１）に関連するドメインへの、少なくとも１つの前記要素（Ｅ）の意味シフト（ＢＶ）を特徴付けるものである、
装置（２００）。

【請求項11】

請求項２乃至９のいずれか一項に記載の方法を実施するように構成されている、
請求項１０に記載の装置（２００）。

【請求項12】

コンピュータ内及び／又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法であって、前記コンピュータ又は前記コンピュータネットワークにはプロセッサが設けられており、
前記プロセッサが、前記コンピュータネットワーク内の前記デジタルデータの集合内において前記情報を検索するための１つ又は複数の開始点を特徴付けるシード情報（ＳＩ）を用意するステップ（１０）と、
前記プロセッサが、前記シード情報（ＳＩ）に基づいて、前記コンピュータネットワーク内において情報を検索するステップ（１２）と、
を含み、
前記シード情報（ＳＩ）を用意するステップ（１０）のために、請求項１乃至９のいずれか一項に記載の方法が使用される、
方法。

【請求項13】

前記プロセッサが、前記シード情報（ＳＩ）を用意するステップ（１０）は、
前記プロセッサが、前記検索のための第１の個数の用語を規定するステップ（１０ａ）と、
前記プロセッサが、前記第１の変数（Ｇ１）に基づいて、前記検索のための前記第１の個数の用語の意味シフト（ＢＶ）を決定するステップ（１０ｂ）と、
前記プロセッサが、前記第１の個数の用語のうち、所定の第１の閾値を下回っている意味シフト（ＢＶ）を有する用語を、前記検索するステップ（１２）のためのシード情報（ＳＩ）として使用するステップ（１０ｃ）と、
を含む、請求項１２に記載の方法。

【請求項14】

コンピュータ内及び／又はコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法であって、前記コンピュータ、前記コンピュータネットワーク及び前記データベースのうちの少なくとも１つには、プロセッサが設けられており、
前記プロセッサが、検索用語（Ｑ）を受信するステップ（２０）と、
前記プロセッサが、前記第２のテキストコレクション（Ｋ２）に関する前記検索用語（Ｑ）の、請求項１乃至９のいずれか一項に記載の方法によって決定された意味シフト（ＢＶ）に基づいて、前記検索用語を評価するステップ（２２）と、
前記プロセッサが、前記評価するステップ（２２）に応じて、前記検索用語（Ｑ）を使用して前記検索を実施するステップ（２４）又は前記検索用語（Ｑ）を拒否するステップ（２６）と、
を含む方法。

【発明の詳細な説明】

【技術分野】

【0001】

従来技術
本開示は、第１のテキストコレクションの要素を分析するための方法に関する。

【0002】

本開示は、第１のテキストコレクションの要素を分析するための装置に関する。

【0003】

本開示はさらに、デジタルデータ内において情報を検索するための方法及び装置に関する。

【背景技術】

【0004】

テキスト分析のための装置に基づく、特にコンピュータ実装されたシステムは、術語抽出及びキーワード抽出のために、規則に基づいた及び／又は統計的な方法を使用する。テキスト分析のために、ハイブリッド方法及び機械学習方法も使用される。

【発明の概要】

【発明が解決しようとする課題】

【0005】

術語抽出は、特に、辞書構築、シソーラス構築及びオントロジ構築、並びに、データベース内における情報検索、テキスト分類及びテキストクラスタリングにおいて使用される。術語抽出の典型的な問題は、多義の用語、いわゆる準技術術語の分類である。そのような用語は、専門言語と一般言語との間に位置する。例えば、“Absperren”という用語は、「何かに鍵をかけて閉める」という意味における日常言語的な意味と、手工業における特別な意味、即ち、「表面を封止する」という意味とを有する。意味変化の種類は、同音異義語（完全に別個の意味）から多義語（意味は依然として類似）、さらには専門言語における狭義化まで、種々異なり得る。

【課題を解決するための手段】

【0006】

発明の開示
好ましい実施形態は、第１のテキストコレクション（コーパス）の要素を分析するための方法であって、第１のテキストコレクションを用意するステップと、第１のテキストコレクションとは異なる第２のテキストコレクションを用意するステップと、第１のテキストコレクションに関連する第１のベクトル空間を特徴付ける第１のベクトル空間モデルを決定するステップと、第２のテキストコレクションに関連する第２のベクトル空間を特徴付ける第２のベクトル空間モデルを決定するステップと、第２のベクトル空間から第１のベクトル空間への写像に基づいて、修正された第２のベクトル空間モデルを決定するステップと、第１のテキストコレクションの少なくとも１つの要素を、第１のベクトル空間モデルのうちの、少なくとも１つの要素に対応する第１の単語ベクトルと、修正された第２のベクトル空間モデルのうちの、少なくとも１つの要素に対応する第２の単語ベクトルとに基づいて分析するステップと、を含む方法に関する。これによって、有利には、第１のテキストコレクションの少なくとも１つの要素、例えば用語又は単語の、意味又は意味のシフト（「意味シフト」）に関する情報を、効率的に決定することが可能となる。

【0007】

さらなる好ましい実施形態においては、第１のベクトル空間モデル及び／又は第２のベクトル空間モデルを形成するために、2013年のTomas Mikolov他著の“Distributed representations of words and phrases and their compositionality”，Advances in Neural Information Processing Systems，第3111-3119頁，Curran Associates, Inc.によるWord2Vec CBOW（continuous bag of words）モデルが使用される。例えば、ここで取得される単語ベクトルは、約２００次元を有し得る。従って、ベクトル空間モデルによれば、テキストコレクションの単語を、前述のベクトル空間の対応するベクトルによって表すことが可能となる。この場合、ベクトルの類似性は、意味の類似性を表す。特に好ましくは、第１のベクトル空間と第２のベクトル空間とが同数の次元を有する。

【0008】

さらなる好ましい実施形態においては、第１のベクトル空間モデル及び／又は第２のベクトル空間モデルを形成するために、BojanowskiらによるfastTextモデルが使用され、例えば、2012年のP. Bojanowski*，E. Grave*，A. Joulin，T. Mikolov著の“Enriching Word Vectors with Subword Information”を参照されたい。

【0009】

さらなる好ましい実施形態においては、第２のベクトル空間から第１のベクトル空間への写像に基づいて、修正された第２のベクトル空間モデルを決定するステップは、（1964年のSchoenemannによる）直交プロクラステス問題を解くことによって実施される。ここでは、行列Ａ，Ｂのための最適な行列Ｗ＊を計算することができ、なお、行列Ａ，Ｂは、例えば、第１のベクトル空間及び第２のベクトル空間に対応する。最適な行列Ｗ＊は、Ｂ間のユークリッド距離の２乗の合計を最小化し、辞書エントリＤ_ｉｊのためのＢｉ＊Ｗ及びＡｊ＊への写像は、

【数1】

を最小化し、ここで、Ｄは、バイナリ行列としての辞書の表現であり、従って、ｗ_ｉ∈Ｖ_ｂの場合には、Ｄ_ｉｊ＝１である。さらなる好ましい実施形態においては、これは、特異値分解を使用することにより、Ｗ＊＝ＵＶ^Ｔ、ただし、Ｂ^ＴＤＡ＝ｕΣＶ^Ｔ、のように解くことができ、次いで、Ｂ＝ＡＷ＊のように、ＢをＡへと写像／整列することができる。これによって、有利には、２つのベクトル空間の単語ベクトル同士を比較することが可能となる。

【0010】

さらなる好ましい実施形態においては、分析するステップは、第１の単語ベクトルと第２の単語ベクトルとの間のベクトル距離を特徴付ける第１の変数を決定することを含み、特に、第１の変数は、一般言語を表す第２のテキストコレクションから、第１のテキストコレクションに関連するドメインへの、例えば専門言語への、少なくとも１つの要素の意味シフトを特徴付けるものである。前述のベクトル距離又は第１の変数は、有利には、意味シフトを特徴付けるものであり、特に、意味シフトの尺度、即ち、意味シフトの程度についての定量的ステートメントも可能である。これにより、例えば第１のテキストコレクションの要素のさらにより正確な分析が可能となる。

【0011】

さらなる好ましい実施形態においては、分析するステップは、第１の単語ベクトルと第２の単語ベクトルとの間のコサイン距離又はユークリッド距離を形成することを含む。

【0012】

さらなる好ましい実施形態においては、第１のテキストコレクション又は第１のコーパスは、主題特有及び／又は専門分野特有のテキストコレクションであり、第２のテキストコレクション又は第２のコーパスは、非主題特有及び／又は非専門分野特有のテキストコレクション、特に一般言語のテキストコレクションである。

【0013】

例えば、専門分野特有のコーパスは、ドメインに関して特有であるテキストのみを含む。一般言語のコーパスは、ドメインとの特有の対応付けを有していないテキスト又はテキストのコレクションを指す。例えば、インタネット上の料理フォーラムの総てのテキストは、専門分野特有のコーパスである。例えば、Wikipediaの総てのエントリは、一般言語のコーパスである。

【0014】

さらなる好ましい実施形態においては、第１のテキストコレクションを用意するステップ、及び／又は、第２のテキストコレクションを用意するステップは、ａ）特にＷｅｂサイトのクロール、例えばフォーカスドクロールにより、コンピュータ内若しくはコンピュータネットワーク内及び／又はデータベース内においてテキスト及び／又は単語を収集すること、及び／又は、ｂ）デジタルの又はデジタル化された本からテキスト及び／又は単語を収集することを有する。

【0015】

さらなる好ましい実施形態においては、２つのテキストコレクションの一方にのみ存在する、テキストコレクションの要素の単語ベクトルが破棄される。これにより、メモリ必要量を低減することができる。

【0016】

さらなる好ましい実施形態においては、第１のテキストコレクションの少なくとも１つの要素は、術語抽出方法によって決定される。さらなる好ましい実施形態においては、例えば前述の術語抽出方法によって、第１のテキストコレクションの複数の要素を決定することもでき、例えば、さらなる好ましい実施形態によれば、これらの要素が、例えば、可能性のある意味シフトに関して分析される。さらなる好ましい実施形態においては、当該方法は、第１のテキストコレクションの一部を第２のテキストコレクションに導入する及び／又はその逆を行うステップをさらに有する。第１のテキストコレクションの一部を第２のテキストコレクションに導入する及び／又はその逆を行うステップは、例えば、第２のテキストコレクションを用意するステップの後又は最中に実施可能である。さらなる好ましい実施形態においては、導入するステップは、第１のテキストコレクションの一部を第２のテキストコレクションと混合することと同義である。さらなる好ましい実施形態においては、導入するステップ又は混合することは、以下の効果を有し得る。即ち、専門用語／術語がドメイン特有になればなるほど、これらの専門用語／術語は、より限定された文脈において現れることとなる（例えば、調理方法としての「ブランチング処理（blanchieren）」という単語は、主に「食塩水（Salzwasser）」と共に現れるが、その一方で、「クッキー（Plaetzchen）」という単語は、「焼き菓子のレシピ（Backrezepten）」においても、その他の文脈においても、例えば、クリスマスとの関連においても出現する）。即ち、さらなる好ましい実施形態によれば、（例えば、一般言語及びドメイン特有の）それぞれのテキストコレクション上において単語ベクトルを形成する場合に、非常にドメイン特有である術語の単語ベクトル同士を、比較的類似させることができる。なぜなら、一般言語のコーパス（テキストコレクション）内に、ドメイン特有のコーパスからの、さらに互いに非常に類似したテキストだけが現れるからである。より一般言語の用語又は多義の用語の場合には、文脈がより多様であり、さらなる好ましい実施形態によれば、これによって、ベクトルがより強く発散する。

【0017】

さらなる好ましい実施形態は、一般言語を表す第２のテキストコレクションから、第１のテキストコレクションに関連するドメインへの、例えば専門言語への、第１のテキストコレクションの少なくとも１つの要素の意味シフトを決定するための、特に、第２のテキストコレクションから、第１のテキストコレクションに関連するドメインへの、第１のテキストコレクションの少なくとも１つの要素の意味シフトの強さを決定するための、実施形態による方法の使用に関する。

【0018】

さらなる好ましい実施形態においては、当該方法は、特に術語抽出方法のために、意味シフトに基づいてバイアスベクトルを決定することをさらに含む。これによって、有利には、バイアスベクトルの精確な初期化が可能となり、アルゴリズムの収束を加速させることができる。さらなる実施形態によれば、バイアスベクトルは、「テレポーテーションベクトル」又は「パーソナライゼーションベクトル」と称されることもある。

【0019】

さらなる好ましい実施形態においては、当該方法は、意味シフトに基づいて、特にバイアスベクトルに基づいて、現在のPageRank値を決定することをさらに含む。

【0020】

特定の専門領域についての術語を異種のテキストデータコレクション内において発見するための１つの手段は、Personalized PageRankアルゴリズムを使用することである。グラフ内のノードは、テキスト内の単語によって表され、エッジは、枠内におけるそれらの単語の共通の出現率又は類似性等によって表される（特に、Milhacea and Tarau, 2004；De Groc et al., 2011；Khan et al., 2016；Zhang et al., 2017を参照のこと）。PageRankアルゴリズムは、
ＰＲ’＝ｄ＊Ａ＊ＰＲ＋（１－ｄ）＊ｖ
のように形式化可能であり、ここで、ＰＲは、変数｜Ｖ｜のベクトルであり、この場合、それぞれの値が１つの単語に帰属している。ＰＲ’は、現在のPageRankであり、ＰＲは、以前のステップからのPageRankであり、ｄは、減衰係数であり、Ａは、遷移行列であり、ｖは、既に上述したバイアスベクトルであって、それぞれのノード（それぞれの単語）ごとに、そのノードの方向においてどの程度強く計算に影響を与えるべきかを決定する値を含むバイアスベクトルである。

【0021】

さらなる好ましい実施形態によれば、術語抽出時に、いくつかのシード術語の方向において計算に影響を与えることが有用であり得る。即ち、該当する単語ｗｉがシード単語の集合内に含まれている場合には、ｖｉ＝１であり、そうでない場合には、ｖｉ＝０である。

【0022】

さらなる好ましい実施形態においては、前述のバイアスベクトルｖｉを、好ましい実施形態によって決定された意味シフトに基づいて決定することができ、これにより、バイアス値の正確な計算が可能となり、アルゴリズムの収束が加速される。

【0023】

さらなる好ましい実施形態においては、前述のバイアスベクトルｖｉを、例えば、以下のように決定することができ、即ち、ｘｉが単語ｗｉに帰属する意味シフト（“meaning shift値”）である場合にはｖｉ＝１－ｘｉであり、そうでない場合にはｖｉ＝０であるように決定することができる。

【0024】

さらなる好ましい実施形態は、第１のテキストコレクションの要素を分析するための装置であって、当該装置は、以下のステップ、即ち、第１のテキストコレクションを用意するステップと、第１のテキストコレクションとは異なる第２のテキストコレクションを用意するステップと、第１のテキストコレクションに関連する第１のベクトル空間を特徴付ける第１のベクトル空間モデルを決定するステップと、第２のテキストコレクションに関連する第２のベクトル空間を特徴付ける第２のベクトル空間モデルを決定するステップと、第２のベクトル空間から第１のベクトル空間への写像に基づいて、修正された第２のベクトル空間モデルを決定するステップと、第１のテキストコレクションの少なくとも１つの要素を、第１のベクトル空間モデルのうちの、少なくとも１つの要素に対応する第１の単語ベクトルと、修正された第２のベクトル空間モデルのうちの、少なくとも１つの要素に対応する第２の単語ベクトルとに基づいて分析するステップと、を実施するように構成されている装置に関する。

【0025】

さらなる好ましい実施形態においては、当該装置は、実施形態による方法を実施するように構成されている。

【0026】

さらなる好ましい実施形態においては、当該装置は、少なくとも１つの計算装置と、コンピュータプログラムを少なくとも一時的に記憶するための、計算装置に割り当てられたメモリ装置とを有し、コンピュータプログラムは、特に装置の動作を制御するように、特に好ましい実施形態による方法を実施するように構成されている。さらなる好ましい実施形態においては、計算装置は、以下の要素のうちの少なくとも１つ、即ち、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルロジックモジュール（例えば、ＦＰＧＡ、フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、ハードウェア回路のうちの少なくとも１つの要素を有する。さらなる好ましい実施形態においては、これらの要素同士を組み合わせることも考えられ、また、同様に、少なくとも相当数のコンポーネントを、例えば、コンピュータネットワークの複数の異なる要素上に分散配置することも考えられる。さらなる好ましい実施形態においては、メモリ装置は、以下の要素のうちの少なくとも１つ、即ち、揮発性メモリ、特に作業メモリ（ＲＡＭ）、不揮発性メモリ、特にフラッシュＥＥＰＲＯＭのうちの少なくとも１つを有する。好ましくは、コンピュータプログラムは、不揮発性メモリ内に格納されている。さらなる好ましい実施形態においては、実施形態による方法を実施するために使用することができるデータも、少なくとも一時的にメモリ装置内に格納することができる。データは、例えば、以下の要素のうちの少なくとも１つ、即ち、第１のテキストコレクション又は第１のテキストコレクションの一部、第２のテキストコレクション又は第２のテキストコレクションの一部、第１のベクトル空間モデル及び／又は第２のベクトル空間モデル及び／又は修正された第２のベクトル空間モデルを特徴付けるデータ、第２のベクトル空間から第１のベクトル空間への写像を特徴付ける、特に変換行列の形態のデータ、第１のベクトル空間及び／又は第２のベクトル空間の１つ又は複数の単語ベクトルを特徴付けるデータ、第１の変数、及び／又は、さらなる好ましい実施形態によって決定された、特に数値変数の形態の意味シフトのうちの少なくとも１つを有し得る。

【0027】

さらなる好ましい実施形態は、特にコンピュータ内及び／又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法であって、特にコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための１つ又は複数の開始点を特徴付けるシード情報を用意するステップと、シード情報に基づいて、コンピュータネットワーク内において情報を検索するステップと、を含み、シード情報を用意するステップのために、実施形態による方法が使用される方法に関する。これにより、特に意味のある、例えば、特定のドメインにとって特有の又は一義的なシード情報を規定することが可能となり、これにより、検索するステップの効率が高められる。このようにして、同一のコンピューティングリソースを使用して、より大量のデジタルデータを検索又は評価することが可能となり、主題に関連したデータ、特にテキストデータを、従来のアプローチの場合よりも少ない計算コストでクロールすることが可能となる。特に、さらなる好ましい実施形態においては、効率的なフォーカスクローラを実装するために、上述の検索方法を使用することができる。

【0028】

さらなる好ましい実施形態においては、シード情報は、例えば、インタネットアドレス（ＵＲＬ）であり得、及び／又は、少なくとも１つの検索エンジン及び／又はデータベースと共に使用するための検索単語であり得る。

【0029】

さらなる好ましい実施形態においては、シード情報を用意するステップは、検索のための第１の個数の用語を規定するステップ（例えばユーザインタフェースを介してユーザによって、及び／又は、例えば構成データに基づいて自動的に）と、第１の変数に基づいて、検索のための第１の個数の用語の意味シフトを決定するステップと、第１の個数の用語のうち、所定の第１の閾値を下回っている意味シフトを有する用語を、検索するステップのためのシード情報として使用するステップと、を含む。これによって、有利には、シード情報のために特に特有の用語が使用されることが保証される。

【0030】

さらなる好ましい実施形態は、特にコンピュータ内及び／又はコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法であって、検索用語を受信するステップと、特に第２のテキストコレクションに関する検索用語の、実施形態による方法によって決定された意味シフトに基づいて、検索用語を評価するステップと、評価するステップに応じて、検索用語を使用して検索を実施するステップ又は検索用語を拒否するステップと、を含む方法に関する。これによって、有利には、特に特定のドメインに関して十分に正確な又は特有の検索用語が使用される場合に、狙いを定めて検索を実施することが可能となり、他方では、さほど特有でない検索用語についての検索プロセスを回避することができ、これによって、計算リソース及びエネルギが節約される。

【0031】

本発明のさらなる特徴、使用可能性及び利点は、以下の図面に示されている本発明の実施例についての以下の説明から明らかになる。説明又は図示されている総ての特徴は、単独で又は任意の組合せにより、特許請求の範囲又はそれらの引用にどのように要約されているかに関係なく、また、明細書又は図面におけるそれらの文言又は表現に関係なく、本発明の対象を形成する。

【図面の簡単な説明】

【0032】

【図1】好ましい実施形態による方法の簡略化された概略フロー図である。

【図2】さらなる好ましい実施形態による簡略化された概略ブロック図である。

【図3】さらなる好ましい実施形態による装置の簡略化された概略ブロック図である。

【図4】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。

【図5】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。

【図6】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。

【図7】さらなる好ましい実施形態による方法の簡略化された概略フロー図である。

【発明を実施するための形態】

【0033】

図１は、好ましい実施形態による方法の簡略化された概略フロー図を示している。当該方法は、第１のテキストコレクション（「コーパス」）Ｋ１の要素Ｅ（図２のブロック図も参照のこと）を分析するために使用可能であって、かつ、以下のステップ、即ち、第１のテキストコレクションＫ１（図２）を用意するステップ１０２（図１）と、第１のテキストコレクションＫ１とは異なる第２のテキストコレクションＫ２を用意するステップ１０４（図１）と、テキストコレクションＫ１に関連する第１のベクトル空間を特徴付ける第１のベクトル空間モデルＭ１を決定するステップ１０６と、第２のテキストコレクションＫ２に関連する第２のベクトル空間を特徴付ける第２のベクトル空間モデルＭ２を決定するステップ１０８と、例えば変換行列Ｔを用いた、第２のベクトル空間から第１のベクトル空間への写像に基づいて、修正された第２のベクトル空間モデルＭ２’を決定するステップ１１０と、第１のテキストコレクションＫ１の少なくとも１つの要素Ｅを、第１のベクトル空間モデルＭ１のうちの、少なくとも１つの要素Ｅに対応する第１の単語ベクトルＷＶ１と、修正された第２のベクトル空間モデルＭ２’のうちの、少なくとも１つの要素Ｅに対応する第２の単語ベクトルＷＶ２とに基づいて分析するステップ１２０と、を含む。分析するステップ１２０は、図２においてはブロック矢印Ａ１によっても示されている。これによって、有利には、第１のテキストコレクションＫ１の少なくとも１つの要素Ｅ、例えば用語又は単語の、意味又は意味のシフトＢＶ（「意味シフト」）に関する情報を、効率的に決定することが可能となる。

【0034】

さらなる好ましい実施形態においては、ステップ１０２，１０４，１０６，１０８とは異なる順序、例えば、１０２，１０６，１０４，１０８の順序などを選択するものとしてもよい。

【0035】

さらなる好ましい実施形態においては、第１のベクトル空間モデルＭ１及び／又は第２のベクトル空間モデルＭ２を形成するために、2013年のTomas Mikolov他著の“Distributed representations of words and phrases and their compositionality”，Advances in Neural Information Processing Systems”，第3111-3119頁，Curran Associates, Inc.によるWord2Vec CBOWモデルが使用される。例えば、ここで取得される単語ベクトルＷＶ１，ＷＶ２，・・・は、約２００次元を有し得る。特に好ましくは、第１のベクトル空間と第２のベクトル空間とが同数の次元を有する。

【0036】

【0037】

さらなる好ましい実施形態においては、分析するステップ１２０（図１）は、第１の単語ベクトルＷＶ１と第２の単語ベクトルＷＶ２との間のベクトル距離を特徴付ける第１の変数Ｇ１（図２）を決定することを含み、特に、第１の変数Ｇ１は、一般言語を表す第２のテキストコレクションＫ２から、第１のテキストコレクションＫ１に関連するドメインへの、例えば専門言語への、少なくとも１つの要素Ｅの意味シフトＢＶを特徴付けるものである。前述のベクトル距離又は第１の変数Ｇ１は、有利には、意味シフトＢＶを特徴付けるものであり、特に、意味シフトＢＶの尺度、即ち、意味シフトＢＶの程度についての定量的ステートメントも可能である。

【0038】

さらなる好ましい実施形態においては、分析するステップ１２０は、第１の単語ベクトルＷＶ１と第２の単語ベクトルＷＶ２との間のコサイン距離又はユークリッド距離又は他の距離を形成することを有する。

【0039】

さらなる好ましい実施形態においては、両方のテキストコレクションにおいて、目的の単語に対して近隣にある単語の共通集合を形成することが企図されている。意味シフトが小さければ小さいほど、共通集合も小さくなる。

【0040】

さらなる好ましい実施形態においては、第１のテキストコレクションＫ１は、主題特有及び／又は専門分野特有のテキストコレクションであり、第２のテキストコレクションＫ２は、非主題特有及び／又は非専門分野特有のテキストコレクション、特に一般言語のテキストコレクションである。

【0041】

さらなる好ましい実施形態においては、第１のテキストコレクションＫ１を用意するステップ１０２（図１）、及び／又は、第２のテキストコレクションＫ２を用意するステップ１０４は、ａ）特にＷｅｂサイトのクロール、例えばフォーカスドクロールにより、コンピュータネットワーク内及び／又はデータベース内においてテキスト及び／又は単語を収集すること、及び／又は、ｂ）デジタルの又はデジタル化された本からテキスト及び／又は単語を収集することを含む。

【0042】

さらなる好ましい実施形態においては、専門言語のテキストコレクションＫ１は、例えば、データベース、及び／又は、プライベート及び／又はパブリックのコンピュータネットワーク（例えば、インタネット）のような１つ又は複数のソースから、複数の専門分野テキストを、狙いを定めて収集することによって形成可能である（例えば、主題特有のウェブサイト、専門書、専門出版物）。

【0043】

さらなる好ましい実施形態においては、一般言語のテキストコレクションＫ２は、例えば、データベース（例えば、新聞テキスト）、及び／又は、プライベート及び／又はパブリックのコンピュータネットワーク（例えば、インタネット）のような１つ又は複数のソースから、複数のテキストをランダムに収集することによって形成可能である。

【0044】

さらなる好ましい実施形態においては、２つのテキストコレクションの一方にのみ存在する、テキストコレクションＫ１，Ｋ２の要素の単語ベクトルが破棄される。これにより、メモリ必要量を低減することができる。さらなる好ましい実施形態においては、このことを、例えば、分析するステップ１２０において実施するものとしてもよいし、又は、それより前に実施するものとしてもよい。

【0045】

さらなる好ましい実施形態においては、第１のテキストコレクションＫ１の少なくとも１つの要素Ｅは、術語抽出方法ＴＥによって決定される。さらなる好ましい実施形態においては、例えば前述の術語抽出方法ＴＥによって、第１のテキストコレクションＫ１の複数の要素Ｅ（例えば、総ての専門語句）を決定することもでき、例えば、さらなる好ましい実施形態によれば、これらの要素Ｅが、例えば、可能性のある意味シフトに関して分析される。

【0046】

さらなる好ましい実施形態においては、（例えば、ステップ１０２，１０４，１０６，１０８，１１０によって）モデルＭ１，Ｍ１’が既に存在する場合には、第１のテキストコレクションＫ１の（さらなる）要素についての第１の変数Ｇ１又は意味シフトＢＶを、例えば以下のステップ、即ち、さらなる要素Ｅを選択又は規定するステップと、両方のモデルＭ１，Ｍ２’の、さらなる要素Ｅに関連する単語ベクトルに基づいて、第１の変数Ｇ１を決定するステップとによって決定することができる。即ち、さらなる好ましい実施形態においては、（さらなる）要素Ｅのための変数Ｇ１，ＢＶを決定するたびにステップ１０２，１０４，１０６，１０８，１１０を繰り返す必要がない。むしろ、さらなる好ましい実施形態においては、さらなる要素Ｅに関連する単語ベクトルを決定して、例えば、それらの単語ベクトル同士の距離を評価すれば十分である。

【0047】

さらなる好ましい実施形態においては、当該方法（図１及び図２を参照のこと）は、第１のテキストコレクションＫ１の一部を第２のテキストコレクションＫ２に導入する及び／又はその逆を行うステップ１０４ａをさらに有する。第１のテキストコレクションＫ１の一部を第２のテキストコレクションＫ２に導入する及び／又はその逆を行うステップ１０４ａは、例えば、第２のテキストコレクションＫ２を用意するステップ１０４（図１）の後又は最中に実施可能である。図２においては、導入するステップは、破線の矢印１０４ａによって例示的にシンボル化されている。さらなる好ましい実施形態においては、導入するステップ１０４ａは、第１のテキストコレクションＫ１の一部を第２のテキストコレクションＫ２と混合することと同義である。さらなる好ましい実施形態においては、導入するステップ１０４ａ又は混合することは、以下の効果を有し得る。即ち、専門用語／術語がドメイン特有になればなるほど、これらの専門用語／術語は、より限定された文脈において現れることとなる（例えば、調理方法としての「ブランチング処理（blanchieren）」という単語は、主に「食塩水（Salzwasser）」と共に現れるが、その一方で、「クッキー（Plaetzchen）」という単語は、「焼き菓子のレシピ（Backrezepten）」においても、その他の文脈においても、例えば、クリスマスとの関連においても出現する）。即ち、さらなる好ましい実施形態によれば、（例えば、一般言語及びドメイン特有の）それぞれのテキストコレクション上において単語ベクトルを形成する場合に、非常にドメイン特有である術語の単語ベクトル同士を、比較的類似させることができる。なぜなら、一般言語のコーパス（テキストコレクション）内に、ドメイン特有のコーパスからの、さらに互いに非常に類似したテキストだけが現れるからである。より一般言語の用語又は多義の用語の場合には、文脈がより多様であり、さらなる好ましい実施形態によれば、これによって、ベクトルがより強く発散する。好ましい実施形態による方法は、これによって、より高感度になる。

【0048】

さらなる好ましい実施形態においては、２つのベクトル空間モデルＭ１，Ｍ２を決定するステップ１０６，１０８（図１）の代わりに、両方のテキストコレクション（コーパス）Ｋ１，Ｋ２にわたる１つのベクトル空間を共に決定することができ、特に以下のステップ、即ち、意味シフトが計算されるべき目的の単語を、それぞれのコーパスにおける２つの異なる記号、例えば、一般言語のコーパスにおける＜ｗｏｒｄ＞＿１と、専門分野のコーパスにおける＜ｗｏｒｄ＞＿２とによって事前に置き換えるステップを実施することが可能である。

【0049】

さらなる好ましい実施形態においては、２つのベクトル空間モデルＭ１，Ｍ２を決定するステップ１０６，１０８（図１）の代わりに、Ｘ個の近隣の単語の範囲枠内において、それぞれのコーパス内のそれぞれの文ごとに目的の単語の近隣の単語を保存することを実施することができる。

【0050】

さらなる好ましい実施形態は、例えば一般言語を表す第２のテキストコレクションＫ２から、第１のテキストコレクションＫ１に関連するドメインへの、例えば専門言語への、第１のテキストコレクションＫ１の少なくとも１つの要素Ｅの意味シフトＢＶを決定するための、特に、第２のテキストコレクションＫ２から、第１のテキストコレクションＫ１に関連するドメインへの、第１のテキストコレクションＫ１の少なくとも１つの要素Ｅの意味シフトの強さを決定するための、実施形態による方法の使用に関する。

【0051】

さらなる好ましい実施形態においては、当該方法は、特に術語抽出方法ＴＥ（図１）のために、意味シフトＢＶに基づいてバイアスベクトルを決定することをさらに含む。これによって、有利には、バイアスベクトルの精確な初期化が可能となり、アルゴリズムの収束を加速させることができる。

【0052】

さらなる好ましい実施形態においては、当該方法は、意味シフトＢＶに基づいて、特にバイアスベクトルに基づいて、現在のPageRank値を決定することをさらに含む。さらなる好ましい実施形態においては、前述のバイアスベクトルｖｉを、例えば、以下のように決定することができ、即ち、ｘｉが単語ｗｉに帰属する意味シフト（“meaning shift値”）である場合にはｖｉ＝１－ｘｉであり、そうでない場合にはｖｉ＝０であるように決定することができる。

【0053】

【0054】

さらなる好ましい実施形態によれば、術語抽出時に、いくつかのシード術語の方向において計算に影響を与えることが有用であり得る。即ち、該当する単語ｗｉがシード単語の集合内に含まれている場合にはｖｉ＝１であり、そうでない場合にはｖｉ＝０である。

【0055】

さらなる好ましい実施形態においては、前述のバイアスベクトルｖｉを、好ましい実施形態によって決定された意味シフトＢＶに基づいて決定することができ、これにより、バイアス値の正確な計算が可能となり、アルゴリズムの収束が加速される。即ち、既知のPageRankアルゴリズムを、好ましい実施形態によって改善することができる。このことは、図７に概略的に示されている。ステップ３０は、図１、図２を参照して例示的に上述した好ましい実施形態による方法を用いて意味シフトＢＶを決定するステップを概略的に表す。図７のステップ３２は、事前にステップ３０において決定された意味シフトＢＶに基づいてバイアスベクトルｖｉを決定するステップを概略的に表す。

【0056】

好ましい実施形態は、例えば、特定の専門領域を特徴付ける単語又は単語のグループの自動的な発見である自動術語抽出（ＡＴＥ）のために利用可能である。術語抽出は、特に、辞書構築、シソーラス構築及びオントロジ構築、並びに、データベース内における情報検索、テキスト分類及びテキストクラスタリングにおいて使用される。

【0057】

好ましい実施形態によって決定又は初期化されたバイアスベクトルｖｉを用いて、例えば、術語抽出方法ＴＥ（図１）を加速させることができ、これによって、例えば、計算容量が節約される。さらに、例えば、システムが間違ったパスを辿った場合に、抽出のエラーを回避することが可能となる。さらに、以下の用途が改善される：
・キーワード抽出：より一義的なキーワードを提供することが可能となる、
・用語集及びオントロジの自動構築が高速化される。

【0058】

実施形態による原理は、術語抽出の領域と、キーワード抽出（Keyword Extraction）のような、術語抽出に関係する領域とを改善することができる。好ましい実施形態によれば、例えば、ドメイン特有の専門術語を、特に異種のテキスト集合内において、より迅速に発見することが可能となる。

【0059】

実施形態による原理は、例示的に上述したPersonalized PageRankアルゴリズムとは別のアルゴリズムを改善することもできる。このためには、改善された当該方法が、実施形態によるバイアスベクトルを利用して例えば遷移確率に影響を与えることが有用であり、これによって、改善された当該方法は、より迅速に収束することが可能となる。実施形態による原理を使用することによって、一義的な（多義ではない）術語用語が主に発見され、特に、一義的な（多義ではない）術語用語のみが発見され、シードとして利用されるようになる。これにより、当該方法は、多義の単語から間違った方向に逸脱することがなくなる。

【0060】

さらなる好ましい実施形態は、第１のテキストコレクションの要素を分析するための装置２００（図３を参照のこと）に関し、当該装置２００は、実施形態による方法を実施するように構成されている（例えば、図１のフロー図を参照のこと）。

【0061】

図３は、さらなる好ましい実施形態による装置２００の簡略化された概略ブロック図を示している。装置２００は、少なくとも１つの計算装置２０２と、コンピュータプログラムＰＲＧを少なくとも一時的に記憶するための、計算装置２０２に対応付けられたメモリ装置２０４とを有し、コンピュータプログラムＰＲＧは、特に装置２００の動作を制御するように、特に好ましい実施形態による方法を実施するように構成されている。

【0062】

さらなる好ましい実施形態においては、計算装置２０２は、以下の要素のうちの少なくとも１つ、即ち、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルロジックモジュール（例えば、ＦＰＧＡ、フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、ハードウェア回路のうちの少なくとも１つの要素を有する。さらなる好ましい実施形態においては、これらの要素同士を組み合わせることも考えられ、また、同様に、少なくとも相当数のコンポーネントを、例えば、コンピュータネットワークの複数の異なる要素上に分散配置することも考えられる。

【0063】

さらなる好ましい実施形態においては、メモリ装置２０４は、以下の要素のうちの少なくとも１つ、即ち、揮発性メモリ２０４ａ、特に作業メモリ（ＲＡＭ）、不揮発性メモリ２０４ｂ、特にフラッシュＥＥＰＲＯＭのうちの少なくとも１つを有する。好ましくは、コンピュータプログラムＰＲＧは、不揮発性メモリ２０４ｂ内に格納されている。さらなる好ましい実施形態においては、実施形態による方法を実施するために使用することができるデータＤＡＴも、少なくとも一時的にメモリ装置２０４内に格納することができる。データＤＡＴは、例えば、以下の要素のうちの少なくとも１つ、即ち、第１のテキストコレクションＫ１又は第１のテキストコレクションＫ１の一部、第２のテキストコレクションＫ２又は第２のテキストコレクションＫ２の一部、第１のベクトル空間モデルＭ１及び／又は第２のベクトル空間モデルＭ２及び／又は修正された第２のベクトル空間モデルＭ２’を特徴付けるデータ、第２のベクトル空間から第１のベクトル空間への写像を特徴付ける、特に変換行列Ｔの形態のデータ、第１のベクトル空間及び／又は第２のベクトル空間の１つ又は複数の単語ベクトルＷＶ１，ＷＶ２を特徴付けるデータ、第１の変数Ｇ１、及び／又は、さらなる好ましい実施形態によって決定された、特に数値変数の形態の意味シフトＢＶのうちの少なくとも１つを有し得る。

【0064】

さらなる好ましい実施形態は、特にコンピュータ内及び／又はコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための方法（図４を参照のこと）であって、当該方法は、以下のステップ、即ち、特にコンピュータネットワーク内のデジタルデータの集合内において情報を検索するための１つ又は複数の開始点を特徴付けるシード情報を用意するステップ１０と、シード情報ＳＩに基づいて、コンピュータネットワーク内において情報を検索するステップ１２とを含み、シード情報ＳＩを用意するステップのために、実施形態による方法、例えば、例示的に上述した図１のシーケンスが使用される方法に関する。これによって、特に意味のある、例えば、特定のドメインにとって特有の又は一義的なシード情報ＳＩを規定することが可能となり、これによって、検索するステップ１２（図４）の効率が高められる。このようにして、同一のコンピューティングリソースを使用して、より大量のデジタルデータを検索又は評価することが可能となり、主題に関連したデータ、特にテキストデータを、従来のアプローチの場合よりも少ない計算コストによりクロールすることが可能となる。特に、さらなる好ましい実施形態においては、効率的なフォーカスクローラを実装するために、上述の検索方法を使用することができる。

【0065】

さらなる好ましい実施形態においては、シード情報ＳＩは、例えば、インタネットアドレス（ＵＲＬ）であり得、及び／又は、少なくとも１つの検索エンジン及び／又はデータベースと共に使用するための検索単語であり得る。

【0066】

さらなる好ましい実施形態においては、シード情報ＳＩを用意するステップ１０（図５を参照のこと）は、検索のための第１の個数の用語を規定するステップ１０ａ（例えば、任意選択的なユーザインタフェース２０６（図３）を介してユーザによって、及び／又は、例えば、例えば少なくとも一時的にメモリ装置２０４に格納することもできる構成データに基づいて自動的に）と、第１の変数Ｇ１（図２）に基づいて、検索のための第１の個数の用語の意味シフトＢＶを決定するステップ１０ｂ（図５）と、第１の個数の用語のうち、所定の第１の閾値を下回っている意味シフトＢＶを有する用語を、検索するステップ１２（図４）のためのシード情報ＳＩとして使用するステップ１０ｃ（図５）と、を含む。これによって、有利には、シード情報ＳＩのために特に特有の用語が使用されることが保証される。

【0067】

例えば、さらなる好ましい実施形態においては、第１の個数の用語のうちのそれぞれの用語に対して図１によるシーケンスを実施して、それらの用語Ｅのそれぞれの意味シフトＢＶを決定することができる。例えば、所定の第１の閾値を下回っている意味シフトＢＶを有する用語を、計画された検索するステップ１２のために十分に特有であるとみなすことができ、これらの十分に特有な用語を使用して検索を実施することができる。例えば、第１の個数の用語のうちの残余の用語は、十分に特有であるとは見なされないので、それら用語について検索は実施されない。

【0068】

さらなる好ましい実施形態においては、図３の装置２００は、特にコンピュータプログラムＰＲＧの制御下において、図４、図５による方法を実施するように（も）構成されている。

【0069】

さらなる好ましい実施形態は、特にコンピュータネットワーク内又はデータベース内のデジタルデータの集合内において情報を検索するための方法（図６を参照のこと）であって、当該方法は、以下のステップ、即ち、（例えば、ユーザインタフェース２０６（図３）を介して）検索用語Ｑを受信するステップ２０と、第２のテキストコレクションＫ２に関する検索用語の、実施形態による方法によって（例えば、図１のシーケンス又はシーケンスの一部によって）決定された意味シフトに基づいて、検索用語Ｑを評価するステップ２２と、評価するステップ２２に応じて、検索用語を使用して検索を実施するステップ２４又は検索用語を拒否するステップ２６と、を含む方法に関する。これによって、有利には、特に特定のドメインに関して十分に正確な又は特有の検索用語が使用される場合に、狙いを定めて検索を実施することが可能となり、他方では、さほど特有でない検索用語についての検索プロセスを回避することができ、これによって、計算リソース及びエネルギが節約される。

【0070】

さらなる好ましい実施形態においては、図３の装置２００は、特にコンピュータプログラムＰＲＧの制御下において、図６による方法を実施するように（も）構成されている。

【0071】

以下においては、さらなる有利な態様及び実施形態が説明されており、これらの態様及び実施形態は、個別に単独で、又は、例示的に上述した実施形態との組合せにより、組み合わせることが可能である。

【0072】

さらなる好ましい実施形態においては、専門言語に関する潜在的な術語に対して、意味変化の程度の数値評価を用いることにより、例えば第１の変数Ｇ１（図２）を使用することにより、例えば、以下のような、新規の用途への対処及び旧来の用途の改善が可能となる：
・キーワード抽出：より一義的なキーワードが提供される、
・用語集の自動構築、
・（例えば、素人による）専門言語の用法の学習を支援する学習システム、
・術語学における用語の（専門言語に対する帰属性の強さ、中心度による）より良好な分類、
・術語学における用語の難易度のより良好な分類（特有性）、
・フォーカスクロール：専門領域をより一義的に定義するより良好なシード単語（一般言語に関する意味変化を有しないシード単語）を選択することができる。

【0073】

さらなる好ましい実施形態においては、純粋な一般言語の用語、即ち、第２のテキストコレクションＫ２の要素と比較して、多義の用語を術語学においてどのように分類すべきかという問題を解決することができる。従来の方法は、これまで依然として多義性を扱うことが不可能であったので、このことは特に有利である。

【0074】

さらなる好ましい実施形態において可能となる術語の特徴付けは、有利には、例えば素人が専門術語を学習する際など、その後の用途のためにも有用であり得る。専門言語における既知の用語の意味変化は、状況によっては素人には認識されず、そのため学習システムは、このような意味変化を特別に取り扱うことが要求される。

【0075】

さらなる好ましい実施形態によれば、術語抽出と、キーワード抽出（Keyword Extraction）のような、術語抽出に関連する領域とを改善することも可能となる。これまでの従来技術は、特に、一般言語から専門言語への用語Ｅの意味シフトＢＶの強さを検出することを含まない。さらなる好ましい実施形態によれば、意味シフトＢＶの程度は、例えば、一般言語（テキストコレクションＫ２）におけるｘ個の意味を起点として、専門言語（テキストコレクションＫ１）におけるｙ個の意味に至るまで数値的に決定される。

【0076】

さらなる好ましい実施形態によれば、特に、言語内の意味の頻度分布を考慮することも可能となる。

【0077】

さらなる好ましい実施形態によれば、ある用語Ｅが専門分野特有の意味を有することを認識することが可能となる。さらなる好ましい実施形態によれば、場合により、用語Ｅの総ての意味及び利用の頻度にわたって用語の理解に矛盾が存在するかどうかを認識することも可能となる。従って、さらなる好ましい実施形態によれば、尺度ＢＶは、例えば、素人が用語Ｅを専門言語で利用するという特定の期待行動も反映する。例えば、ある用語Ｅが一般言語Ｋ２において既に多義である場合には、以前から一義的な用語の場合よりも、意味シフトＢＶが発生することが期待される（特に、非ゼロの値によって、例えば、該当する単語ベクトルＷＶ１，ＷＶ２のベクトル距離によって）。一般言語における意味と専門言語における意味とがさほど大きく相違しない場合には、素人が意味変化を即座に認識しない可能性がより高くなる。

【0078】

さらなる好ましい実施形態は、支援、テキスト分類（コレクション内のテキストの分類、ドメインの帰属性、例えば、技術専門家又は素人のようなユーザグループに関する関連性）、デジタル辞書及びシソーラスの領域における、実施形態による方法（図１の例示的なシーケンスを参照のこと）の使用に関する。

【図1】