【文献】
原口 誠,オントロジーから決まる自己同一性を用いた事例概念の多重分類理論,第56回 人工知能基本問題研究会資料,日本,社団法人人工知能学会,2004年 7月25日,p.07−12
【文献】
市瀬 龍太郎,分類をみつめなおす,情報の科学と技術,日本,社団法人情報科学技術協会,2008年 2月 1日,第58巻,第2号,p.78−83
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
意味ネットワークは、概念を表す頂点と概念間の意味関係を表す辺からなる有向グラフである。意味ネットワークの構築とは、それらのグラフを作成するプロセスである。意味グラフの作成において、1つの鍵となるものは、概念定義および概念関係である。本発明はその問題に対処するものである。
【0003】
意味ネットワークは本質的に知識表現として見ることが可能である。知識表現は知識をモデル化し、記憶する1つの方法であり、コンピュータ上で実現されるプログラムが、その知識を使用、または処理することができるものである。本発明の文脈では、知識表現は、特に、コンピュータ処理の観点から見た、規則に基づく自然言語のモデル化として見ることも可能である。知識表現の本質的価値は累積的である性質であり、したがって、ある特定のモデル内においてコンピュータ手段が捉えた、またはエンコードした知識量と共に増大する。
【0004】
制限されない知識表現に付随する1つの問題は、現状のシステムが拡張に対して著しい限界を課し得る事である。これが知識表現を作成するのが困難である1つの理由である。さらに、知識表現の技術上の複雑性と精密性はそれらの使用と普及を制限し得る知的、また時間的制約を課し得る。さらに、既存システムは一般的に文書および非構造化テキストなどの既存形態からの知識表現の分析、および検索を目的としている。これらの検索および分析システムによると、抽出される知識量は必然的に既存形態により捉えられた知識量へと制限される。それらの形態はそれらの文書から導出し得る新しい知識の全ての可能性を含まない場合もある。
【0005】
これらの問題の一例として、現行のアプローチに特有である、以下の応用例について考えて頂きたい。それは、1つ、またはそれ以上の製品に対する顧客の疑問に対応するための、一連の文書を備えるプロダクトサポート知識ベースを顧客に対して利用可能にさせることである。文書はそれら文書の主題を微細で機械可読な詳細で表すために、発行者によって、意味データによって注釈が付けられる。これら文書は検索ツールを介し、利用可能とされ、顧客の質問に最も関連した文書を供給する。
【0006】
この応用例における問題点は、システムによりカプセル化された知識の幅が、その知識ベース内に含まれる文書(それらの概念定義および概念関係の明示的意味表現を通して表された)により制限されることである。しかし人は、自らが読む文書から新しい知識を生み出すことができる。上記例を続けると、顧客は、自分たちの持つ必要と関連した文書を読むことにより、この既存の知識から、自身の問題への非常に具体的な解決法を推定することができ、そのプロセスにおいて新しい知識を生み出すことができる。残念ながら、コンピュータ上で実現されるシステムで、この概念的推定プロセスを反映させる技術的解決法は未だ存在しない。発行者は彼らが処理する知識を述べることしかできず、顧客が必要とし得る、または推論し得る全ての知識をカプセル化した知識表現のシステムを提供することはできない。
【0007】
したがって、新しい概念および概念関係を設定することについての大きな意義とそれに関連するビジネス上の価値は、それらの障害を超えて知識表現の拡張と増加を新しい応用分野へと押し出すためのオートメーション化にある。既存の応用と新規の応用との違いを見極める1つの目安は、既存の応用では「これら文書に何の知識が含まれているか?」となるのに対し、新規の応用では「どのような知識を次に生成することができるか?」となることである。そうした知識生成の応用を達成する上での、技術上の障害の中には、概念および概念関係を定義し、また捉える新しいメカニズムの提供が含まれる。
【発明を実施するための形態】
【0015】
Visual BasicおよびWindows(登録商標)は、Microsoft Corporationの米国および他国での登録商標である。Linux(登録商標)は、Linus
Torvaldsの米国および他国での登録商標である。
【0016】
本明細書において、概念定義および概念関係の統合を提供するための手段を提供する方法、システム、およびコンピュータプログラムが開示される。これらの本発明の態様は木構造の性質と概念の本質的定義をモデル化する意味表現を生かすように利用する。したがって、新しい概念および概念関係を、歴史に基づく、もしくは既存の知識表現に制約されない形で生成することができる。したがって、本発明の幾つかの実施形態は、新しく創造的で、ユーザ主導の、意味表現とネットワーク構築(グラフ)の表現を提供する。それにより、ただ単に歴史的知識を抽出するだけでなく、前向きの知識を統合する能力が得られる。
【0017】
このアプローチの実用性は、ブレインストーミングセッションの一部又は全体、創作における支援において、既存知識から新しい概念を見出すことによって洞察を発展させること、膨大な文書コーパスから報道的調査を形作ること、および一般に、テキストベースの言語データのコーパスから新しい洞察を発展させることを含み得る、一方向に向けられた研究調査を含み得る。本発明の実施形態は、1つ領域のデータから、仮想概念定義および仮想概念定義間の関係(例えば、仮想概念定義の階層構造)を生成する。幾つかの実施形態において、仮想概念定義およびそれらの関係は、上記の活動において支援するため、ユーザに提供することができる。他の実施形態では、仮想概念定義およびそれらの関係は、それらの定義を用いて、文書の自動生成を支援、またはそのような文書の手作業による生成を助ける、文書処理・生成ソフトウェアに提供することができる。
【0018】
幾つかの実施形態において、アクティブ概念は認識(人および、またはソフトウェア)エージェントにより入力もしくは取得され、特定の知識領域を表すデータから関連した実在概念定義が抽出される。それらの抽出された定義はアクティブ概念定義のコンテクスト内における属性集合の一貫性についてコンピュータ分析される。属性集合は、次に、それらの抽出された実在概念定義から選択され、概念統合プロセスはその選択された属性集合を基にして仮想概念定義を導出する。これらの導出された仮想概念定義は次に、階層構造に組み立てられる。抽出された実在概念定義の残りは、導出した仮想概念定義の階層構造に対してコンピュータ分析され、なんらかの仮想概念が導出できる場合、そのプロセスが繰り返される。本発明の文脈で例示される意味解析プロトコルは、形式概念解析とファセット分類統合である。加えて、属性共起および相対近接性などの属性の選択に影響を与える様々なオーバーレイが組み込まれる。さらに、仮想概念の導出における様々な数値的制限もまた組み込まれる。
【0019】
概念定義および概念関係を提供する1つの方法は、既存文書からの概念定義の抽出である。しかし、この方法は、すでに文書内にエンコードされているものに制限される場合があり、新しい概念統合を提供しない。したがって、抽出された意味表現は、それに続く、新しい概念関係および概念定義の統合を生成するデータ変換プロセスの基礎としてのみの役割を果たし得る。
【0020】
例えば、概念の抽出は米国特許出願第11/540,628号(公開番号第US2007−0078889
A1号)を参考にすることで理解することができる。この出願において、Hoskinsonは、既存文書からの概念の抽出法を提供する。情報抽出手段がテキストを抽出し、次にキーワードをその抽出されたテキストから抽出する。それらのキーワードは、テキストを単語の配列に、様々な句読記号および空白文字を単語の分離記号として用いて分割し、それによって配列内の各要素が単語となる。続いて、そのプロセスは、数字、2文字より短い単語、またはストップワード(例えば、そして(and)、冠詞(an, the, a)など)を単語配列から除外することにより、キーワードインデックスを生成する。残りの単語は全てキーワードインデックスに含まれる。一度キーワードインデックスが生成されると、キーワードインデックス内の単語で、少なくとも閾値回数出現したものはインデックス内に保持され、閾値回数より少ない出現回数のものはインデックスから除去される。このキーワードインデックスはさらにテキスト内の主要な句を特定することもできる。それらの主要句は、本開示で言及される概念と同等なものとみなし得る。主要句に前後関係を提供する、キーワードと関連した一連の主要句は、本開示で言及する既存概念定義と同等なものとみなし得る。
【0021】
Hoskinsonは、主要句をキーワードインデックスおよび文書のテキストを用いて特定することを以下のように説明している。まず、文書テキストが分析され、句境界と関連する句読記号が波形符号に置き換えられる。次に、文字配列が、文書を空白文字によって分けられた文字列に解析することによって生成される。配列内の各要素は単語か句境界符号(例えば波形符号)かのいずれかである。次に、プロセスは文字配列全体を数え上げ、各要素がキーワードインデックスに現れるキーワードであるかを判定する。もし、要素がキーワードでなければ、それは句境界符号(例えば波形符号)に置き換えられる。次にそれらの配列要素は1つの文字列に連結され、各文字列は句境界により境界が示される。次いで、各文字列が1つの単語か、または句かを判定する。句である場合、それは主要句と見なされ、主要句辞書に追加される。
【0022】
上記の文書からの概念抽出法は、概念抽出の一例として理解すべきである。多くの別法を用いることができ、本発明はこの方法、もしくは別の特定の方法の使用に限定されるものではない。
【0023】
さらに、データの1つの領域もしくはコーパスからから抽出された既存概念定義は様々な属性集合(異なる属性の組み合わせ)の一貫性の尺度として使用することができる。アクティブ概念である入力は、人、もしくは機械ベースのエキスパートシステムなどの認識エージェントにより入力され、1つの領域内のアクティブ概念のコンテクストを網羅する既存概念および概念関係を得るために、データ分析もしくは意味処理プロトコルを通して処理される。既存概念は実在概念定義としても知られており、アクティブ概念を取り巻く仮想概念とそれらに続く関係を構築する基盤を提供する。
図1は、認識もしくは入力エージェントが意味分析と抽出を介して領域データ集合とやり取りする、従来の技術状況を表している。対照的に、本明細書で開示されるプロセスの少なくともいくつかは、
図2に示されるように、領域データ内の既存定義に基づいて、新しい概念定義を構築するための、既存の領域資源の抽出と木構造統合の使用を介する、ユーザインターフェース経由の認識(人など)エージェント、もしくは入力エージェントの対話を意図する。その入力、もしくは認識エージェントはさらに、神経回路網的もしくは進化的コンピュータ技術などのコンピュータ処理であり得る。木構造統合は特定のコンテクストに限定される概念および概念関係のグラフを生成することができる。
【0024】
木構造統合を実現するのに使用することができ得る1つの意味処理プロトコルは、形式概念解析である。形式概念解析は、オブジェクトの集合およびそれらの特性(属性)から、1つの領域内の概念集合およびそれらの概念の間の関係の形式表現を自動的に導出する1つの原理に基づいた方法として見ることができる。木構造統合を実現するのに使用され得る他の意味処理プロトコルは、形式概念解析、ファセット分類統合、および意味推論を用いる概念推論である。これら全てのアプローチは従来の技術において用いることができる。
【0025】
用語の解説
領域:領域とは、文書コーパス、ウェブサイト、またはデータベースなどの情報の本体である。
属性:オブジェクトの特性。
属性集合の一貫性:属性集合の一貫性とは、概念属性の、それを概念定義構造内の1集合とした場合の、論理的一貫性の尺度である。
内容ノード:、ファイル、文書、文書の一部、画像、もしくは格納された文字列などの、分類に従うオブジェクトにより構成される。
階層構造:広義語および狭義語の配置構造。広義語はオブジェクトとして、狭義語は属性として見ることができる。
木構造:木は有向のクラスおよびサブクラス備えた階層構造であるが、視野を狭めるために、属性のサブセットのみを用いる。組織図は木構造の一例として見ることができる。階層関係は、仕事の役割または責任の観点からのみ有効である。個人のすべての属性を考慮すると、だれも階層的に関係するものはいなくなるであろう。
概念定義:機械可読な形で構造的に定義される概念の意味表現が概念定義として知られている。そのような表現の1つは、概念を、概念属性などの、さらに基本的構成要素の観点から構造化する。概念定義は、概念を親、属性を子として、それ自体の階層構造を有する。属性は、次に、それ自体の属性集合を以て、概念として扱われ得る。概念は、特定の内容ノードと関連付けられ得る。
概念統合:概念統合は新しい(仮想)概念および概念相互間の関係を生成することである。
信頼勾配:勾配は、順序付けられた値の範囲を指し、信頼は、1つの属性集合が他よりも一貫的である確率を評価するためのアルゴリズムで使用される基準として参照され得る。したがって、「信頼勾配」という熟語は、一組の属性集合内で信頼レベルの下げることと上げること、および、全般的なものから具体的なものまでの、それぞれの個々の属性の数により属性集合内での信頼測定基準の規則的な上げ下げとすることができ得る。信頼は多数の属性の特性を用いて較正することができる。頻繁に用いられる2つの特性は、選択された属性間の相対近接性と、1つの概念定義集合内における2つの属性の共起である。別の可能な信頼の尺度は、共起に相対近似をオーバーレイすることを含む。
ファセット分類統合:ファセット分類統合は、異なるクラスまたはファセットからの属性を使用し概念を定義することを可能とする。ファセット分類は、情報は多次元の性質を持ち、幾通りにも分類できる、という原則を組み込んだものである。情報領域の対象は、ファセットに細分して、この次元性を表すことができる。領域の属性は、ファセット階層構造においてに関連する。次いで、領域中の内容は、それらの属性に基づいて、識別され分類される。ファセット分類統合の「統合」は、オブジェクトに属性を割り当てて、実在概念を定義することを指す。
【0026】
開示されたシステムと方法の一態様によれば、1つの領域における関連した実在(既存)概念定義を用いて、既存の関連した実在概念定義から仮想概念定義を導出することによる、概念および概念間の階層的関係の統合が示される。仮想概念定義の導出は、形式概念解析(FCA)およびファセット分類などの従来技術で知られている多数の意味処理プロトコルを活用して行われる。
【0027】
図3、4を参照すると、アクティブ概念(AC)が認識エージェントから入力、または取得され、関連する実在概念定義が1つの領域から抽出される。抽出された概念は、AC定義内におけるそれらの属性集合の一貫性について分析される。属性集合は、抽出された実在概念定義から選択され、概念統合プロセスは、選択された属性集合に基づいて、仮想概念定義を導出する。これらの仮想概念定義は、次に階層構造へと組み立てられる。抽出された実在概念定義の残りは、次に、導出された仮想概念定義の階層構造に対して分析され、もし何らかの実在概念定義を用いて更なる仮想概念定義を構築することができる場合、そのプロセスが繰り返される。
図3で示される全体的な木構造統合の初期部分は、
図4で示されるステージングと分析の段階として見ることができることに留意されたい。全体のプロセスにおける統合段階は、例えば、
図5のプロセスを含むように見ることができる。
【0028】
図7は、
図3から5に示されるプロセスが実現され得るコンピュータシステムの図である。
図7では、抽出された領域情報から木構造を統合するシステムは、入力情報を入力領域から受けることができ、また、システムユーザインターフェース、および/または外部コンピュータプロセスを介して、認識エージェント(例えば、人間のユーザ)から、入力アクティブ概念定義を受けることができる。抽出された領域情報から木構造を統合するシステムは、少なくとも、1つのハードウェアプロセッサ(例えば、少なくとも、1つの物理メモリと連結した中央処理装置(CPU))を備える。システムは、入力領域、および認識エージェント/コンピュータプロセスから情報を受けるための、出入力インターフェース(表示無し)を備えてもよい。認識エージェントおよび/または、コンピュータプロセスが、アクティブ概念定義を、木構造を統合するシステムへ提供すると、木構造を統合するシステムは、
図3から5に示されるプロセス例の、残りのステップを実行することができる。
形式概念解析
更なる態様では、アクティブ概念の入力に応答して、仮想概念定義を導出する1つの方法は、形式概念解析(FCA)によるものである。もし、実在概念定義RαとRβが、概念定義内の属性の一貫性の尺度を提供する信頼勾配の順に順序付けられた属性集合と共に以下のように与えられるとすると:
Rα={K1、K3.K2}
Rβ={Kl、K3}、
Rβ→Rαの階層構造を得る。同等に、以下のような実在概念定義の集合RγとRδ:
Rγ={Kl、K2、K3、K4}
および
Rδ=(Kl、K3、K5、K6}
では、
これらの概念間には階層構造は存在しない。RγとRδから階層構造を構築するには、FCAを用いて、仮想概念定義をRγとRδから導出して、階層関係のための基準が満たされるようにする必要がある。
よって、以下により示される、入力エージェント、または認識エージェントからのアクティブ概念(AC)の入力から開始する:
R={Kl}。
Rを識別して、既存実在概念定義であるRγとRδが抽出され、それにより、それらの既存概念定義が、整合性を保証する信頼勾配を有することができる。ここでRγとRδは、以下のように表される:
Rγ={K1、K2、K3、K4}
および
Rδ={K1.K3、K5、K6}。
属性は、アクティブ概念を含む概念定義内で出現するので、仮想概念定義内のアクティブ概念と他の属性は、相互間に文脈関係があると仮定され、属性が異なる概念定義にわたってアクティブ概念と共起すればするほど、前記文脈関係の強さは、より強いものであることになる。もし、形式概念解析により、仮想概念定義の集合Vγを形成し、Vγが、属性の出現回数に基づき得る、組み込まれた信頼勾配を持つことが可能であれば:
Vγ={K1、K3}、
また、同様に、以下のようにVδを構築することが可能であれば:
Vδ={K1、K3、K4}、
Vγ→Vδという階層関係をその間で有する、2つの仮想概念定義であるVγとVδが生成されたこととなり、一方、それぞれは、個々、共有する属性により、実在概念定義集合であるRγおよびRδとの属性レベルでの関係を有する。
組み込まれた信頼勾配を有する仮想概念定義を構築する形式概念解析の例
領域入力:(コンピュータ、ノート型パソコン、デスクトップ、サーバー、ソフトウェア、オペレーティングシステム、ソフトウエアアプリケーション、CPU、電卓、アルゴリズム、コンピュータ言語、ユーザインターフェース、機械語)
領域は、以下の実在概念定義を、それらが組み込まれた信頼勾配を有するように、複合の属性と共に含むとする:
R1:{コンピュータ、中央処理装置、ノート型パソコン、デスクトップ、電卓}
R2:{コンピュータ、サーバー、ソフトウェア、オペレーティングシステム、ソフトウエアアプリケーション、アルゴリズム、コンピュータ言語}
R3:{コンピュータ、機械語、ソフトウェア、アルゴリズム}
R4:{ソフトウェア、ユーザインターフェース、ソフトウエアアプリケーション}
AC={ソフトウェア}。
何が属性「ソフトウェア」と共起しているか:
コンピュータ:3回
アルゴリズム:2回
ソフトウエアアプリケーション:2回
ノート型パソコン:1回
デスクトップ:1回
サーバー:1回
オペレーティングシステム:1回
機械語:1回
ユーザインターフェース:1回
CPU:1回
電卓:1回
コンピュータ言語:1回。
どの属性が、属性「ソフトウェア」と、最も多い回数で共起しているかを見出すために計数すると、「コンピュータ」が「ソフトウェア」と共起する最も回数の多い属性であることが分かる。したがって、Vl:{ソフトウェア、コンピュータ}が生成される。
この時点で、木構造は以下のようになる:
アクティブ概念(AC):{ソフトウェア}
│
+-Vl:{ソフトウェア、コンピュータ}
│
+-V2:{ソフトウェア、ソフトウエアアプリケーション}
│
+-V3:{ソフトウェア、アルゴリズム}。
再帰的に継続すると、実在概念定義内で、何が「ソフトウェア」および「コンピュータ」と共起するかを決定することができる。ここで以下が見出される:
ノート型パソコン:1
デスクトップ:1
サーバー:1
オペレーティングシステム:1
ソフトウエアアプリケーション:1
CPU:1
電卓:1
アルゴリズム:2
コンピュータ言語:1
機械語:1。
よって、木構造は以下のようになる:
アクティブ概念(AC):{ソフトウェア}
│
+-V1:{ソフトウェア、コンピュータ}
││
│+-V4:{ソフトウェア、コンピュータ、アルゴリズム}
│
+-V2:{ソフトウェア、ソフトウエアアプリケーション}
│
+-V3:{ソフトウェア、アルゴリズム}
この結果において、V1とV4は階層構造にあり、R1、R2、R3、およびR4から導出されている。より多数の、更なる属性を有する実在概念定義については、さらに多くの階層的構造と関係を明らかにすることが可能である。もし、所与アクティブ概念において、システムが仮想概念定義を導出するのに十分な数の実在概念定義を戻さない場合、この目的を達成するため、いかなる数の領域も検索することができる。十分な数は、導出された仮想概念内で選択可能な深さの階層構造を生成するために必要なドメインの最小数、または追加的に、少なくとも選択可能な数の1つの領域から導出可能である仮想概念定義の階層構造を生成するのを要求するものであるとすることができる。さらに、階層構造の最大の深さと、導出した階層構造の選択可能な最大数が、統合プロセスを完了させるものとなり得る。
【0029】
概念定義を形成するために、1つの信頼の尺度として、1つの追加基準、すなわち、相対的な近接性をオーバーレイすることにより、形式概念解析を用いて実在概念定義から導出した仮想概念を変えることができる。相対近接性は、概念定義の属性集合内における、1つの属性の、別の属性からの物理的分離として言及することができる。上の例では、R2内において、属性「ソフトウェア」は「コンピュータ」と「ソフトウエアアプリケーション」から一属性離れているのに対し、「ソフトウェア」は「アルゴリズム」から2属性離れている。しかし、R3においては、「ソフトウェア」は「アルゴリズム」と隣接、すなわち、ゼロの属性だけ「アルゴリズム」から離れている。よって、ゼロが、既存領域情報からの「ソフトウェア」と「アルゴリズム」に対するデフォルト相対近接性と考えることができる。もし、相対近接性に、より大きい重みが付加され、上の例にオーバーレイされた場合、高い信頼基準を有する仮想概念が、木構造において最初に来ることになる。例えば、この場合のV1は以下のようになるであろう:
V1{ソフトウェア、アルゴリズム}。
なぜなら、「ソフトウェア」は「アルゴリズム」からゼロ属性離れているのに対し、「ソフトウェア」は「コンピュータ」から一属性分離れている。よって、「コンピュータ」が3度も「ソフトウェア」と共起するにもかかわらず、「アルゴリズム」が優先される。このようにして、もしも相対近接性の重みが、焦点を1つの属性からさらに高い相対近接性を有する別の属性へと移動させた場合、全ての仮想概念が変化する。さらに、相対的な分離が属性間で同じである場合、より高い共起数が、より高い信頼尺度を導出した仮想概念定義に与える。共起数よりも、相対近接性へより大きい重みを付加する背景にある論理は、相対近接性が、概念定義内の一貫性という点から階級を付けられた集合である既存実在概念定義で直接的に観察可能であることにある。
【0030】
上の例のR1からR4の集合は関連した集合である。もし、実在概念定義が関連しない集合である場合、すなわち、実在概念定義の属性が何一つ重複しない場合、データ変換は以下のようになる。
関連しない実在概念定義集合を以下のようにする:
R5:{1、2、3、4、5}
R6:{6、7、8、9、10}。
もし、アクティブ概念が以下である場合:
アクティブ概念(AC){2、8}、
仮想概念定義を発生させるために、形式概念解析を適用すると、{2、1}、{2、3}、{2、4}、{2、5}、{8、6}、{8、7}、{8、9}および{8、10}が得られる。さらに、相対近接性をオーバーレイすると、そのリストを{2、1}、{2、3}、{8、7}および{8、9}に、短縮させる。これらの関連し合わない実在概念定義は、それぞれが対象となるアクティブ概念の関連部分を表す、分離した仮想概念定義の区分(もしくは系統)を生じさせる。この分析は実在概念定義内の属性リストがすべて用いられるのに必要な回数だけ反復される。仮想概念定義の導出は、上で詳述したように共起数と相対近接度で測られる信頼度により制限される。ここで、所望の範囲の結果を得るために、これらの重み付け尺度を微調整すること、すなわち、結果として得られる仮想概念定義の大きさを拡張または縮小するために、相対近接性の尺度を変えることができることに留意されたい。
ファセット分類統合
この開示の更なる態様において、更なる態様では、アクティブ概念の入力に応答して、仮想概念定義を導出する1つの方法を、領域内に存在するファセットと属性に基づく、ファセット分類統合(FCS)をもちいて実現することができる。
図6はその良い例である。
領域入力:(コンピュータ、ノート型パソコン、デスクトップ、サーバー、ソフトウェア、Windows(登録商標)、Linux(登録商標)、オペレーティングシステム、ソフトウエアアプリケーション、CPU、電卓、アルゴリズム、コンピュータ言語、ユーザインターフェース、機械語、C、ビジュアルベーシック(登録商標)、C++、HTML)
この例では、領域は、FCSによって構築された以下のようなファセットを、複合属性と共に含み、それにより、分類構造に従った、組み込み信頼勾配を有する。
F11:{コンピュータ、サーバー}
F12:{コンピュータ、電卓}
F13:{コンピュータ、ノート型パソコン}
F14:{コンピュータ、デスクトップ}
F211:{ソフトウェア、オペレーティングシステム、Windows(登録商標)}
F212:{ソフトウェア、オペレーティングシステム、Linux(登録商標)}
F221:{ソフトウェア、ソフトウエアアプリケーション、ユーザインターフェース}
F222:{ソフトウェア、ソフトウエアアプリケーション、アルゴリズム}
F231 1:{ソフトウェア、コンピュータ言語、C、C++}
F232:{ソフトウェア、コンピュータ言語、機械語}
F233:{ソフトウェア、コンピュータ言語、ビジュアルベーシック}
F234:{ソフトウェア、コンピュータ言語、HTML}
この例において、上で列挙しているファセット属性集合と索引番号(例、F233)は、ファセット属性階層構造内の固有のパスを指し、全ての上位の前の属性から受け継いでいるいかなる属性をも含む。固有のパスとは、
図6のインデックスパスを指す。左から、最初の位置のインデックス1はコンピュータを指し、最初の位置のインデックス2はソフトウェアを指す。次に移ると、次のインデックス番号は1つ下のレベルの受け継がれた属性を意味しており、3番目のインデックス番号はさらに下の属性を意味する。
図6では、インデックスパスは、1つの属性項目に対して1つのみのパスを保証する。実在ファセット属性集合に基づく概念定義を以下のとおりとする:
IBM PC:{デスクトップ、Windows(登録商標)}
ThinkPad:{ノート型パソコン、Linux(登録商標)}
Webpage:{サーバー、HTML、ユーザインターフェース}
Browser:{デスクトップ、オペレーティングシステム、ソフトウエアアプリケーション、コンピュータ言語}
Web電卓:{サーバー、HTML、ソフトウエアアプリケーション}
計算:{電卓、機械語}
もし、アクティブ概念が以下のように入力された場合:
アクティブ概念(AC):{オペレーティングシステム、コンピュータ言語}、
仮想概念定義は、ファセット分類統合制限、および相対近接性(ゼロと1つの分離)でのオーバーレイを用いて、所与の実在概念から導出されることができる。仮想概念定義の導出において、ファセット分類統合の規則は、1つの属性階層構造において、親属性を子属性に置き換えることを可能にする。これらのファセット分類統合置換の規則の実施は、統合を行う際に、任意選択可能とすることができる。置換規則は下記の例に適用される。結果は次の通りである:
V1:{オペレーティングシステム、ソフトウエアアプリケーション、コンピュータ言語}
V2:{ソフトウエアアプリケーション、コンピュータ言語}
V3:{ソフトウエアアプリケーション、HTML}
V4:{ソフトウエアアプリケーション、C}
V5:{ソフトウエアアプリケーション、C++}
V6:{ソフトウエアアプリケーション、ビジュアルベーシック}
V7:{デスクトップ、オペレーティングシステム、ソフトウエアアプリケーション}
V8:{デスクトップ、オペレーティングシステム、ソフトウエアアプリケーション、コンピュータ言語}
V9:{サーバー、HTML}
V10:{サーバー、HTML、ソフトウエアアプリケーション}
V11:{サーバー、HTML、ユーザインターフェース}
V12:{デスクトップ、Windows(登録商標)}
V13:{ノート型パソコン、Linux(登録商標)}
V14:{デスクトップ、Linux(登録商標)}
V15:{ノート型パソコン、Windows(登録商標)}
V16:{電卓、機械語}
この結果では、多数の仮想概念定義が階層構造に配置されていることに留意されたい。どのような場合でも、導出した概念定義の信頼は、既存領域内に存在するため変化せず、それは、仮想定義を導出する間、ファセット分類統合の継承パスは、厳密に考慮さ。もし、領域ファセット属性集合が上記の例よりも深い場合、相対近接性を1より大きく設定することが出来る。より深い構造での更なる仮想定義導出が可能となる。導出される仮想概念定義、またその中に存在する属性の最小数と最大数は、ファセット分類統合において選択可能である。
【0031】
さらに、仮想概念定義導出への制限は、如何なる形態の意味処理においても、信頼勾配、もしくは、(それらに限定されないが)全ての概念が、少なくとも1つの実在概念の可能性のある先祖になるようにすること、もしくは同じ子孫を有するいかなる概念も、その親としないことなどの、追加的な性質を表す側面に基づくようにすることもできる。
【0032】
もし、実在概念定義として定義される領域オブジェクトが、それらのグループが、特定のファセット属性集合のみから属性を取得しており、他の実在概念定義の集団が(関連しない実在概念定義を有する)別のファセット属性集合から属性を取得している場合、アクティブ概念は、最初の実在概念定義について処理され、それから他の分離したグループを1つずつ、全ての実在概念定義の非同一グループが用いられてしまうまで。それらについて処理される。完了上限は常に、複数の特性、もしくはアクティブ概念が実在概念定義に対して処理されることを制限する恣意の数値に基づいて選択することができる。
【0033】
統合プロセスの、別の興味深い結果は、単純で広範囲な概念であり、抽出された実在的定義においては容易に得られない、「ビン」がある。ビンは一般的に、他の複数の概念を、全体が、形式概念の解析の考察におけるV1:{ソフトウェア、コンピュータ}などの、複数の実在概念から導出された、1つもしくはそれ以上の共通の(共有)属性に基づいてグループ化する概念である。
【0034】
本発明の全ての態様において、概念統合と、木構造分類の独自の組み合わせは、焦点を当てているアクティブ概念のコンテクストで抽出される既存の実在概念定義と比較して、さらに多大の、構造的に削減された仮想概念定義およびそれらの関係を提供する。これが木構造統合の原則目標である。
【0035】
本発明の上記実施例は、多数の方法により実現可能である。例えば、それらの実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせをしようすることにより実現し得る。ソフトウェアにおいて実現される場合、ソフトウェアコードは1つプロセッサ、あるいはプロセッサの集合上で、実行することができ、そのコードは、1つのコンピュータにおいて、あるいは複数のコンピュータの間で分散して提供され得る。上記の機能を実行するいかなる要素、または要素の集合は、1つ、もしくはそれ以上の上記機能を制御するコントローラと考えられることを理解されたい。その1つ、もしくはそれ以上のコントローラを、多く方法で、たとえは、専用のハードウェア、もしくはマイクロコードまたは、ソフトウェアを使用して上記の機能を実行可能にプログラムされた凡用ハードウェア(例:1つ、もしくはそれ以上のプロセッサ)によって実現することができる。
【0036】
この点において、本発明の実施形態の1つの実現形態は、プロセッサ上で実行されると、上記の本発明の実施形態の機能を実行するコンピュータプログラム(すなわち複数の命令)でコードされている、少なくとも1つのコンピュータ可読の記憶媒体(例えば、コンピュータメモリ、フロッピー(登録商標)ディスク、コンパクトディスク、テープ、および/または物理記憶媒体)を備えることを理解されたい。そのコンピュータ可読媒体は輸送可能であり、よって、そこに記憶されているプログラムを、いかなるコンピュータシステム資源にもロードして、本明細書に記載する本発明の態様を実現することができる。さらに、実行されたときに上記の機能を実行するコンピュータプログラムへの言及は、ホストコンピュータ上で実行されるアプリケーションプログラムに制限されるものではないことを理解されたい。むしろ、コンピュータプログラムという用語はここでは、プロセッサを、本発明の上記態様を実現するためにプログラムするために、用いることのできる、いかなるコンピュータコード(例:ソフトウェア、マイクロコード)にも言及するように、総称的に用いられている。
【0037】
コンピュータ可読媒体でプロセスが実現されている本発明の幾つかの実施形態によれば、コンピュータによって実現されるプロセスは、その実行中、入力を上記記載の方法により、手動で(例えば、ユーザにより)受け取る。
【0038】
本発明の幾つかの実施形態を詳細に記載したが、当業者は、種々の修正および改良を容易に思いつくであろう。それらの修正および改良は、本発明の精神および範囲内であることが意図される。したがって、前述の説明は例に過ぎず、限定することを意図するものではない。本発明は、以下の請求項およびその同等物によってのみ限定される。