【文献】
広木 守雄,シソーラスの研究(2),JOURNAL OF LIBRARY AND INFORMATION SCIENCE,日本,愛知淑徳大学,1990年 3月31日,第5巻,p.37−48
(58)【調査した分野】(Int.Cl.,DB名)
前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの用語頻度を評価することを有する、請求項4に記載の方法。
前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの用語−文献頻度を評価することを有する、請求項4に記載の方法。
前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの逆文献頻度を評価することを有する、請求項4に記載の方法。
前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、Docs(L1及びL2)/NumDocsなる式に従って用語−文献頻度を評価することを有し、ただし、
前記要素概念関係は、第1の要素概念と第2の要素概念とに関係し、
L1は、前記第1の要素概念に関連付けられる第1のラベルを表し、
L2は、前記第2の要素概念に関連付けられる第2のラベルを表し、
Docs(L1及びL2)は、前記第1のラベルと前記第2のラベルとを含んだ、前記参照データの少なくとも一部内の文献の数を表し、且つ
NumDocsは、前記参照データの前記少なくとも一部内の文献の数を表す、
請求項5に記載の方法。
NumDocsは、前記第1のラベル及び前記第2のラベルのうちの少なくとも一方を含んだ前記参照データの前記少なくとも一部内の文献の数を表す、請求項9に記載の方法。
前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、検索エンジンを用いて、前記要素コンポーネントに関連付けられる前記1つ以上のラベルを含んだ文献について前記参照データを検索することを有する、請求項1に記載の方法。
前記セマンティックコヒーレンスを評価するステップは、前記要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を評価することを有する、請求項13に記載の方法。
【発明を実施するための形態】
【0028】
I. アトミック知識表現モデル(AKRM)
上述のように、従来の方法によって作り出される知識表現(KR)データ構造は、特定の分野又は文脈に関してモデル化される特定の人間の知識(ヒューマンナレッジ)の組(セット)を符号化して表現する。KRは典型的に人間の開発者によって構築されて完成形態で機械メモリ内にプログラムされるので、従来のKRは、当初に人間ユーザによってプログラムされるときに用いられたヒューマンナレッジの小集合(サブセット)のみを含む。
【0029】
例えば、KRは、“犬は哺乳類である”という知識記述を符号化することができ、それはまた、例えば“哺乳類はその子供を養うために母乳を作り出す”など、哺乳類である動物に関する記述又は主張を表現し得る。このような事実の組合せは、適切な論理的あるいは意味的なルールと組み合わされるとき、広範囲の人間の論理的思考を支援することができ、例えば“犬はその子供を養うために母乳を作り出す”など、KR内に事実として当初は植え付けられていなかった明確な様々な推論を作り出す。このような推論を通じてのKRデータ構造の表現は、例えば(上述のような)推論/論理的思考、情報検索、データマイニング及びその他の形態の解析などの多様な知識ベースの活動及びタスクを支援するために使用され得る。
【0030】
しかしながら、上述のように、KRの構築及び符号化を行う方法は、これまで、アクセスのための完成したKR構造の手動入力、及び例えばコンピュータなどの機械による使用に制限されてきた。上述の例を続けると、KR設計者としての役割を果たす人物は“犬はその子供を養うために母乳を作り出す”という事実がどうして正しいのかを暗黙のうちに理解することがあるが、それを真実にするために適用しなければならない特性(このケースでは、例えば他動性及び継承などの特性)は、これまで、KRの明示的な部分ではない。換言すれば、従来において、新たな知識の創造を導き得る潜在するルールの組はKRの部分として符号化されておらず、むしろ、人間の設計者によってシステム該からKRの構成内に適用されている。
【0031】
これまで認識されていなかった従来手法の帰結は、機械により使用のためにKR内に知識を表現することはできるが、KR自体を機械によって作り出すことはできない、というものである。機械での使用のために、人間が知識のドメインをモデル化することが強いられている。残念ながら、ヒューマンナレッジは極めて広範であり且つ多くの場合に主観的なものであるので、全ての知識ドメインをモデル化することは技術的に実現可能でない。
【0032】
さらに、多くの知識がデータとして明確に符号化されなければならないので、得られるデータ構造は、知識のドメインが成長するにつれて、すぐに圧倒的に大きいものになってしまう。従来のKRは、その潜在する理論又は訓練を、知識表現モデルを構築するデータの部分として知識創造に用いて符号化されないので、得られるデータ構造は非常に複雑で扱いにくいものになり得る。換言すれば、知識表現を機械によって作り出すことができないので、知識表現はこれまで、明示的なデータとして提供されるか、あるいは論理的あるいは統計的な手段によって推定又は帰納されるかしなければならなかった。
【0033】
故に、知識表現を構築するための従来手法は、データサイズの増大に伴うスケーリングの困難性、複雑で大きいデータ構造を扱う困難性、分野の専門家への依存性、大規模なデータ記憶・処理に伴う高コスト性、インテグレーション及び相互運用性(インターオペラビリティ)に関する難題、及び高い労働コスト、を含む数多くの問題をもたらし得る。
【0034】
大きくて複雑なデータ構造:従来において知識構造を符号化しているデータ構造は、構築及び維持管理が複雑である。比較的単純な分野の機械読み取り可能知識(例えば、犬及び哺乳類に関する単純な記述)であっても、対応する自然言語より何桁も大きい量のデータを発生させ得る。
【0035】
分野の専門家への依存性:従来のKRデータ構造の創造においては、KRの訓練を導く潜在理論を人間が表現しなければならない。これは、このような生きたデータ資産の作成に殆どの人及び全ての機械を締め出す時間のかかる活動である。結果として、これまで、殆どのヒューマンナレッジは暗示的なままであり、コンピューティングの範囲外であった。
【0036】
使用前に作り出されるデータ:知識はこれまで、或る特定使用でそれが呼び出される時の以前に、データとしてモデル化されているが、その知識が必要とされない場合、これは高価で且つ潜在的に無駄である。従って、知識が機械によって適宜に作り出され得るのであれば、それはデータの作成及び記憶の要求を大いに低減することができる。
【0037】
大規模なデータ及び処理コスト:従来のKRシステムは、新たな事実を作成するサービス又はクエリに回答するサービスにおいて、非常に大きいデータ構造上で推論しなければならない。このような負担のかかる大きさは、従来KRシステムにおいて重大な難問を表すが、潜在するデータ構造を作成するために、従来の使用前データ手法ではなく、より一層ジャストインタイムの手法を用いることによって負担が低減され得る。
【0038】
インテグレーション及び相互運用性の難題:主観的で曖昧なサブジェクトを扱うときなど、様々なKRが異なるモデルの下で作成されて異なるように表現されるとき、意味論的相互運用性(2つの異なるKRが知識を共有できること)は大いに困難な問題である。複数の異なるKRの間では、しばしば、正確に推論する精度及び能力が失われる。これに関し、どのようにして知識が作成されたかに関する潜在理論がKRの部分として含められているならば、複数の異なるKR間での知識の調整が、扱いやすい問題になり得る。
【0039】
高い労働コスト:KRデータ構造の手動での構造化は労働集約的な処理となり得る。従って、手動構造化技術は、サイズ的に既に膨大であり且つ更に増大し続けている情報のコーパスを取り扱うのに不十分である。
【0040】
従って、本開示に従った一部の実施形態は、知識表現を作成する処理を自動化するための知識作成ルールを符号化するシステムを提供する。一部の実施形態は、知識表現の作成を支援するため、且つ/或いはそれらの意味的な一貫性(セマンティックコヒーレンス)を検査するために確率的手法を使用する。一部の実施形態は、知識表現に対する新たな合成手法を、該手法から得られるデータ構造の作成及び管理を行うコンピューティングシステムと結合する。一部の実施形態において、それぞれ第1及び第2のラベルを有する第1及び第2の概念のセマンティックコヒーレンスの推定が、基準となる文書のコーパス内での第1及び第2のラベルの共起(同時出現)の頻度を計算することによって取得され得る。
【0041】
ドメイン内の全ての知識を明確なデータとしてモデル化するのでなく、一部の実施形態は、より少量のデータセットを為す‘アトミック’すなわち‘要素的’なデータを、潜在的な知識作成を符号化する生成的なルールの組(セット)と結合する。それらのルールは、一部の実施形態において、新たな知識を作成してそれを明示的にデータとして表現することが必要あるいは所望されるときにシステムによって適用され得る。上述の議論から認識されるように、このような技術の利益は、少なくとも一部の状況において、システム内のデータの量が実質的に削減されるとともに、機械ベースでの新たな知識の作成(合成)の能力及び適用が実現されることであり得る。しかしながら、認識されるように、本発明に係る全ての実施形態が従来手法にて特定される全ての問題を解決するわけではなく、一部の実施形態はそれらの問題のうちの何れかを解決しないこともある。一部の実施形態はまた、ここに記載される以外の問題を解決することもある。また、全ての実施形態がここに説明される利益の全て又は何れかを提供するわけではなく、一部の実施形態は記載される以外の利益を提供することもある。
【0042】
一部の実施形態はまた、例えばタクソノミ、オントロジー及びファセット分類などの複合的な知識表現が、単にデータレベルにおいてのみでなく、意味論的なレベルで相互運用する(意味付けの相互運用性)ための技術を提供する。
【0043】
一部の実施形態で提供されて数多くの新応用分野及び既存応用分野で適用され得るその他の利益には、より単純且つ経済的なデータ構造によって提供される知識表現の作成及び適用の双方におけるコスト低減、新たな知識を作成可能なこと、ジャストインタイムな必要に応じた知識により提供される一層スケーラブルなシステム、並びに、ユーザ及びデータ利用者からの入力変数としての“文脈”のサポートが含まれる。知識表現データ構造を作成するためにジャストインタイムを基本にして合成及び解析の知識処理ルールを適用するという本開示に係る一部の実施形態の動的な性質は、或る分野全体の知識を前もって解析してモデル化する従来手法より、経済的利益をもたらし得る。
【0044】
潜在する知識作成のルールセットをKR内に組み込むことにより、システム内のデータの量が削減され、より経済的なデータ管理システムが提供され得るとともに、知識管理に関する完全に新しい用途が提供され得る。故に、一部の実施形態において、必要でない限りデータが作成されないようにしてデータ拡張の負担を軽減することによって、KRシステムの作成及び維持管理のコストが削減され得る。作成されると、複合的な知識をモデル化するデータ構造は、一部の実施形態において、目の前の作業に関連するデータを含むという点で、従来システムにおいてよりかなり小さいものである。これは、ひいては、これらの知識モデル上で作動する例えば推論エンジン又はデータマイニングツールなどの下流アプリケーションのコストを低減し得る。
【0045】
本開示に係る一部の実施形態の合成的な計算された手法はまた、知識表現及びデータ管理における完全に新しい能力を支援する。一部の実施形態は、“可能性”に関して、すなわち既存データから完全に新しい知識の表現を作成することに関して、改善された支援を提供し得る。例えば、このような可能性の能力は、例えば教育、ジャーナリズム及び芸術などの創作活動に有用であり得る。
【0046】
ここに記載される様々な発明態様は、1つ以上のコンピュータ及び/又は装置によって実装されることができ、それらの各々が、複合的知識表現の解析及び合成にアトミック知識表現モデルを使用するための、ここに記載の動作の何れかを行うようにプログラムされ得る1つ以上のプロセッサを有し得る。例えば、
図11は、本開示に係る様々な発明態様が実装され得る例示的なコンピュータ1100を模式的に示している。コンピュータ1100は、プロセッサ又は処理ユニット1101と、揮発性メモリ及び/又は不揮発性メモリを含み得るメモリ1102とを含んでいる。メモリ1102は、プロセッサ1101上で実行されるときにここに記載の発明技術をコンピュータに実行させるコンピュータ読み取り可能命令を格納し得る。ここに記載の発明態様を実装するための技術、例えば、ここに記載の方法及びデータ構造を実現するようにコンピュータをプログラムすることは、当業者の技能の範囲内であると考えられる。
【0047】
図1は、本発明の一部の実施形態に従った複合的な知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(atomic knowledge representation model;AKRM)を実現する一部の実施形態で使用され得る例示的なシステム100を示している。例示的なシステム100において、AKRMは、コンピュータ読み取り可能なデータとして符号化されて、1つ以上の有形の持続的なコンピュータ読み取り可能記憶媒体に格納され得る。例えば、AKRMは、要素的な知識表現データ構造及び複合的な知識表現データ構造の双方を支援するように設計されたデータスキーマを用いて、以下に例を示す不揮発性コンピュータメモリ内のデータセット110に格納され得る。
【0048】
一部の実施形態において、AKRMは、1つ以上の要素的データ構造120と1つ以上の知識処理ルール130とを含み得る。一部の実施形態において、ルール130は、システム100により、1つ以上の複合的KRを分解(解析)して要素的データ構造120を生成するために使用され得る。例えば、システム100は、1つ以上のコンピュータプロセッサと1つ以上のコンピュータメモリハードウェアコンポーネントとを含むことができ、該メモリは、該1つ以上のプロセッサによって実行されるときにシステム100の該1つ以上のプロセッサに、1つ以上の複合的KRの解析においてルール130を使用させてAKRMの要素的データ構造120を生成させるコンピュータ実行可能命令でエンコードされ得る。メモリはまた、ルール130を用いて要素的データ構造120から新たな複合的KRを合成するように1つ以上のプロセッサをプログラムする命令でエンコードされてもよい。一部の実施形態において、コンピュータメモリは、実行されるときに1つ以上のプロセッサにここに記載の機能のうちの何れかを実行させるコンピュータ実行可能命令でエンコードされた1つ以上の有形の持続的なコンピュータ読み取り可能記憶媒体として実装されてもよい。
【0049】
従前の知識表現システムと異なり、本発明の一部の実施形態に係る例えばシステム100などのシステムは、データとして符号化された知識表現モデルを作成するために、データ構造と知識処理ルールとを組み合わせ得る。一部の実施形態において、ルールは、知識として(例えば、特定の分野内の知識の境界又は制約を記述するルール又は公理として)符号化されずに、新たな知識を表現するデータ構造を作成するための建設的ルール及び分解的ルールとして符号化されてもよい。元のKRによって与えられる明示的な概念の論理的帰結である暗示的な事実を生成するための“推論ルール”に加えて、一部の実施形態において、知識表現モデルは、元のKRデータ構造からは暗示されない新たな知識を作り出すために適用され得る“知識処理ルール”を有するように符号化されてもよい。
【0050】
例えば、“メアリーは人である”及び“全ての人は人間である”という2つの明示的な知識記述から始めるに、先の2つの記述の論理的帰結である“メアリーは人間である”という暗示の知識記述を決定するために、推論ルールが使用され得る。本発明の一部の実施形態に係る異なる一例において、“メアリーはボブの友人である”及び“ボブはチャーリーの友人である”という2つの明示的な知識記述から始めるに、友人関係の意味をモデル化する典型的な知識処理ルールが適用されて、“メアリーはチャーリーの友人である”という新たな知識記述が決定され得る。特に、このような知識処理ルールの適用は、必ずしも元の入力KRで与えられる明示的な知識の論理的帰結ではない新たな知識をもたらし得る。上述のように、概念と概念間の関係とを符号化するデータ構造に関連付けて(論理的推論ではなく、あるいはそれに加えて)記憶された知識処理ルールを含んだ、本発明の一部の実施形態に従った知識表現モデルは、可能性ある新しい非暗示的な知識がどのように作成且つ/或いは分解され得るかという枠組みをモデル化し得る。
【0051】
このように知識の合成に焦点を当てることは、例えばシステム100などのシステムを新たな応用分野に展開させ得る。既存のシステムは、(既存の事実及び根拠の正確な結論によって洞察が収集される)演繹的な論理的思考に焦点を当てているが、本発明の一部の実施形態に係るシステムは、(新たな知識の確率的な予測を支援するために既存の事実が用いられる)帰納的な論理的思考及びその他の種類の論理立てをサポートし得る。
【0052】
本発明に係る一部の実施形態において、例えばシステム100などのシステムは概して、概念意味論、符号化の意味原素(セマンティックプリミティブ)(例えば、“アトミック”又は“要素的”な概念)、及び、より複合的な知識を作成するためにアトミック構造がどのように結合され得るかをガイドするルール(指針)、の枠組みに基づき得る。しかしながら、認識されるように、本発明の態様は知識表現の特定の理論、モデル又は実践に限定されるものではなく、本発明の実施形態に係るシステムは数多くのそのような枠組み内で機能し得る。一部の実施形態において、例えばシステム100などのシステムは、これらの枠組みをモデル化する広範な方法及び技術(例えば、ソフトウェアアプリケーション又はコンポーネントとして実装される)とインタフェースするように設計され得る。例えば、解析エンジン150などのインタフェース接続される解析コンポーネントが、入力の複合的KR160を要素的データ構造120へと分解してもよい。例えば合成エンジン170などの合成コンポーネントが、要素的データ構造120を用いて、出力の新たな複合的KR190を構築し得る。
【0053】
合成エンジン170は、当該分野で知られた技術又はその他の好適技術を用いて出力KR190を提供し得る。例えば、出力KR190は、コンピュータ読み取り可能媒体に格納される表形式又は図形形式のデータ構造として提供され得る。それに代えて、あるいは加えて、出力KR190はモニタ上又はその他の好適インタフェース上に表示されてもよい。
【0054】
一部の実施形態において、解析エンジン150は、例えばシステム100の1つ以上のプロセッサによる適切なコンピュータ読み取り可能命令の実行を介して、知識処理ルール130のうちの1つ以上を適用することによって入力KR160を解析し、入力KR160のデータ構造をより要素的な構成に分解し得る。一部の実施形態において、AKRM110の要素的データ構造120内に含まれる最も要素的な構成は、入力データ構造を分類するために用いられる情報担持容量を集合的に提供する情報及び情報関係の複数の基本構築ブロックの最小の組(セット)を表し得る。入力KR160は、ユーザ又はシステム100とインタラクトするソフトウェアアプリケーションからの直接入力も含め、如何なる好適なソースから取得されてもよい。一部の実施形態において、入力KR160は、例えばリレーショナルデータベースシステム又はグラフベースのデータベースシステムなどの様々なデータベース技術とのインタフェースによって取得されてもよい。認識されるように、本発明の態様はこの点で限定されるものではないので、入力KR160は如何なる方法で如何なる形態で取得されてもよい。
【0055】
例えば、
図2Aは、例えばシステム100を使用するユーザ又はソフトウェアアプリケーションによって、解析エンジン150に入力され得る小さい複合的KR200(この例において、タクソノミ)を例示している。複合的KR200は、様々な階層関係によって結び付けられた一組の概念を含んでいる。例えば、“動物”というラベルを付された概念210は、親−子関係にて、“ペット”というラベルを付された概念22と“山岳動物”というラベルを付された概念230とに結び付けられている。階層の各レベルにおいて、概念エンティティは、より複合的なセマンティックを作成するように結合され、あるいは場合により一層要素的なセマンティックに分解され得る意味のユニットを表す。例えば、“山岳動物”の複合的な意味は、“山岳”という概念と“動物”という概念とを有し得る。
【0056】
一部の実施形態において、システム100は、例えば解析エンジン150により、例えば複合的KR200などの複合的KRを分解して、該複合的KRの複合的な複数の概念を有する複数の要素的な概念のうちの少なくとも一部を見出し得る。例えば、
図2Bは、複合的KR200の解析及び分解から得られ得る要素的データ構造300を例示している。要素的データ構造300において、“山岳動物”というラベルを付された複合概念230は、より要素的な概念である“山岳”235と“動物”240とを含むことが見出されている。この例において、“山岳”及び“動物”は、“山岳動物”というラベルが付された、より複合的な概念より要素的な(すなわち、“より低階層”又はより低い複合性の)概念を表す。何故なら、“山岳”及び“動物”なる概念は、“山岳動物”というラベルを付された概念を作り出すように結合されることができるからである。同様に、“家庭犬”というラベルを付された複合概念250は、より要素的な概念である“家庭”255と“犬”260とを含むことが見出され、“シャム猫”というラベルを付された複合概念270は、より要素的な概念である“シャム”275と“猫”280とを含むことが見出されている。また、新たに発見された要素概念の各々は、それを含む複合概念から継承された概念関係を有する。故に、“家庭”、“犬”、“シャム”及び“猫”は“ペット”の子であり、“山岳”及び“動物”(概念240)は“動物”(概念210)の子であり、“山岳”及び“動物”(概念240)はともに、“ライオン”というラベルが付された概念290及び“ヤギ”というラベルが付された概念295の双方の親である。
【0057】
なお、ラベル“動物”は要素的データ構造300において概念210及び概念240の双方に帰属しているが、これら2つの概念はなおも、知識表現階層内で異なるように作用する異なる抽象的意味を表し得る。一部の実施形態において、“ラベル”又は“記号”は、概念及び関係に関する人間読み取り可能且つ/或いは機械読み取り可能な用語又はラベルを提供するため、及び様々な記号ベースの処理方法(例えばテキスト解析など)の基礎を提供するために、概念を要約するよう結合され得る。ラベルは、人間及び/又は機械に認識可能な知識表現エンティティを提供することができ、ソースドメインの固有の語彙から取得され得る。故に、各概念要素に割り当てられるラベルはその分野で提示される言語及び用語から引き出され得るので、ラベル自体はそれを用いて名付けられる抽象的な概念及び概念関係を十分に記述しないことがあり、それら抽象エンティティはヒューマンナレッジにて理解されるものである。
【0058】
同様に、一部の実施形態において、知識表現モデルでの抽象概念と、それらの概念を用いて記述あるいは分類されるオブジェクトとの間の差が認識されるべきである。オブジェクトは、現実の物理世界、又は概念によって記述されることが可能な仮想世界における如何なるアイテムともし得る(例えば、オブジェクトの例は文書、ウェブページ、人などである)。例えば、現実世界の或る人物は“ボブ”というラベルの概念によって概要内で表現され得る。記述、分類あるいは解析されるドメインにおける情報は、仮想的あるいは物理的なオブジェクト、プロセス、及びそのような情報間の関係に関し得る。一部の典型的な実施形態において、ここに記載される複合的KRは、ウェブページ内にあるコンテンツの分類に使用され得る。一部の実施形態におけるその他の種類のドメインは、文書収納庫、楽曲推薦システム、ソフトウェアコード収納庫、ワークフロー及びビジネスプロセスのモデルなどを含み得る。
【0059】
一部の実施形態において、分類されるドメインのオブジェクトはコンテンツノードと称され得る。コンテンツノードは、知識表現モデルを用いて分類、記述、解析などを受けることが可能な何らかのオブジェクトからなり得る。例えば、コンテンツノードは、ファイル、文書、(注釈のような)文書の塊、画像、又は格納された文字列とし得る。コンテンツノードは物理オブジェクト又は仮想オブジェクトを参照し得る。一部の実施形態において、コンテンツノードは、それを介してコンテンツノードを検索することができるアドレス指定可能な(すなわち、位置特定可能な)情報を提供するコンテンツコンテナに収容され得る。例えば、URLを介してアドレス指定可能なウェブページのコンテンツコンテナは、テキスト及び画像の形態の多数のコンテンツノードを収容し得る。コンテンツノードには、意味(例えば、そのコンテンツノードの説明、目的、使用法又は意図など)を要約する概念が付随され得る。例えば、現実世界のコンテンツノードの特徴が、知識の概要表現の概念によって記述され得る。
【0060】
概念は、他のエンティティに対する関係を介して抽象化の複合レベルの観点から定められ、また、より基本的な他の知識表現エンティティ(例えば、キーワード及び形態素)の観点から構造的に定められ得る。そのような構造をここでは概念定義と呼ぶ。一部の実施形態において、より複合的な概念を作り出す要素的な概念間の結合を意味する内在(例えば、要素的データ構造300における“山岳”、“動物”及び“山岳動物”の間の関係)と、複合関係間の結合を意味する外在という、2つの基本的な種類の概念関係によって、概念同士が関連付けられ得る。外在関係は、例えば等価、階層(例えば、“動物”と“ペット”との間の関係)及び連合などの概念の対の間の特徴を記述し得る。また、一部の実施形態において、外在及び内在の概念関係それら自体も概念の種類として記述されてもよく、それらはより複合的な関係に分類され得る。例えば、“と結婚している”という連合関係は、“結婚している”及び“と”という関係概念を有し得る。
【0061】
一部の実施形態において、システム100に要素的データ構造120として格納されるAKRMデータモデルの編成全体がファセットデータ構造として符号化され、概念エンティティ同士が、階層(外在関係)内で明示的に関連付けられるとともに、複合概念(内在関係)を作り出すように組に結合される。また、これらの外在関係及び内在関係自体が、上述のように、概念を用いて分類されてもよい。しかしながら、認識されるように、本発明の態様はこの点で限定されるものではなく、好適な如何なる種類の知識表現モデル、又は好適な如何なる種類の概念関係を含んだ理論的構図が、AKRMを表現することに使用されてもよい。
【0062】
例示のため、
図3は、本発明の一部の実施形態に従ったシステム100のデータセット110にて使用され得る例示的なデータスキーマ350を示している。このようなデータスキーマは、例えばオントロジー及びタクソノミなどの複合的な知識表現データ構造(複合的KR)と、複合的KRがそれへと分解されるアトミック知識表現データ構造(例えば、要素的データ構造120)との双方を符号化することができるように設計され得る。スキーマ350において、概念は、多対多関係を用いて、より複合的な種類(hasタイプ)を構成するように結合され得る。斯くして、モデル内のコアの概念エンティティが、そのデータによってモデル化されている複合的な知識表現の性質に応じて、多様な単純さ又は複雑さを表現し得る。多対多関係を用いて記号、ルール及びオブジェクトをこれらの概念に結合することにより、このスキーマは、広範囲の知識表現をモデル化するデータを管理し得る。
【0063】
図3に示すスキーマ350において、長方形のボックスは、例えば、データベース内でメインオブジェクトとして符号化され得る現実世界のオブジェクト、概要概念、概念を参照する人間及び/又は機械が読み取り可能な記号、並びに、知識表現内の概念に適用するルールといった、複数のエンティティセットを表している。実線の接続は各々、2つのエンティティセット間の関係を表しており、菱形内に関係の種類が表されている。“N”は、ここでは多対多関係である関係の関与濃度を示しており、各エンティティの組の多数のエンティティが、その関係に関与する他方のエンティティセットの或るエンティティとの関係に関与し得ること、そして、その逆もまた然りであること、を指し示している。対照的に、菱形の両側に“1”なるラベルが付される関係は一対一関係を表し、片側に“1”が付され、他方側に“N”が付される関係は、第1の種類の1つのエンティティが第2の種類の多数のエンティティとその関係に関与し得るが、第2の種類の各エンティティは第1の種類の1つのエンティティのみとその関係に関与しうるという一対多関係を表す。
【0064】
一部の実施形態において、知識表現のデータ構造は、好適なデータベース及び/又はその他のデータ符号化技術を用いて、1つ以上のデータベーステーブルにて、スキーマ350に従って符号化され得る。例えば、一部の実施形態において、KRデータ構造のデータセットは、各行が一対の概念間の関係を表すテーブルのコンピュータ読み取り可能表現として構築され得る。例えば、データテーブルの一例は、“概念1”属性、“概念2”属性、“関係”属性及び“種類”属性を含む4つの属性の列を有し、“概念1は概念2に或る種類(例えば、外在又は内在)の関係概念で関係する”として、テーブルの各行で3方向の関係をモデル化し得る。例えば、{概念1:“ハンマー”;概念2:“釘”;関係:“道具”;種類:“外在”}という属性(列のエントリー)を有するそのようなテーブルの行は、“ハンマー”は“釘”に“道具”として関係し、関係は“外在”である、という関係を表現し得る。多くの典型的なデータ構造において、各概念は、データテーブルの1つ又は複数の行に現れることができ、例えば、複数の行に現れて複数の他の概念との関係を表現し得る。さらに、或る特定の概念の対が、例えばこの概念対が2つ以上の種類の関係によって関連付けられる場合に、2つ以上の行に現れることができる。しかしながら、認識されるように、以上の説明は単なる例であり、データ構造は好適な如何なる手法で実装且つ/或いは符号化されて格納されてもよく、本発明の態様はこの点で限定されるものではない。
【0065】
一部の実施形態において、ルールベースのプログラミングを支援するよう、AKRM内のエンティティ(例えば、概念及び概念関係)の各々に様々なメタデータが関連付けられ得る。例えば、多くのルールはソートされた概念の組を必要とするので、このスキーマに、概念関係(内在又は外在)内の概念の優先度が付与され得る。ここでは単にデータモデルの提示を簡略化するために、これらの詳細は省略することとする。
【0066】
図3の典型的なデータスキーマは比較的単純であるが、知識表現の構築及び分解のための機械実行(例えば、コンピュータ実行)処理ルールと結合されるとき、データスキーマは非常に広範囲の複合知識を管理することができるようになり得る(様々な例にて後述する)。その利益には、実時間知識エンジニアリングによるデータ経済の改善及び大きい知識表現データ構造へと複合性を構築する必要性の低減が含まれる。また、知識表現データ構造の範囲が縮小されるので、例えば推理、解析、データマイニング及び検索などの統合的な知識エンジニアリングプロセスにも有利な効果を有し得る。
【0067】
図1に戻るに、一部の実施形態において、知識処理ルール130は、符号化されてシステム100内、例えばデータセット110内、に格納されることができ、また、入力KR160及び/又は要素的データ構造120内の概念と結合され得る。ルールは、或る具体的な概念が与えられたとき、システム100の1つ以上のプロセッサによるプログラミングコードの実行によってルールが適用されて、要素的データ構造120から新たなセマンティックエンティティ(概念及び関係)を生成するように、且つ/或いは要素的データ構造120内に含める要素エンティティへと入力KR160を分解するように、概念に結合され得る。そのようなルールの例については更に詳細に後述する。
【0068】
ルール130は、例えば、システム100の開発者によって、且つ/或いは個人の知識処理ニーズ又は嗜好に従ってシステム100のエンドユーザによって、入力ルール140としてデータセット110に導入され得る。認識されるように、入力ルール140は好適な如何なる時に好適な如何なるソースから取得されてもよく、AKRMの部分として格納されたルール130は、システム100の稼働前又は稼働中に、好適な如何なるユーザによって好適な如何なる時に更新且つ/或いは変更されてもよく、システム100とインタラクトする異なるユーザ又はアプリケーションに対して異なる格納ルール130が維持管理されてもよく、本発明の態様はこれらの点で限定されるものではない。また、一部の実施形態において、入力KR160の解析に対して、出力KR190の合成に対してとは異なる格納ルール130のサブセットが適用されてもよく、他の実施形態においては、同じルール130が解析及び合成の双方の処理に適用され、且つ格納ルール130の異なるサブセットが異なる種類の知識表現に適用されてもよい。
【0069】
ルール130は、KRの解析及び合成において概念に適用されるとき、例えばシステム100などのシステムに構築・分解ロジックを提供し得る。どのように知識が作成(合成)あるいは分解(解析)されるかの方法が、ルール130のセットに符号化され得る。ルール130は、対称的(解析及び合成の双方で単一のルールが作用する)あるいは非対称的(各々のルールが合成又は解析の一方でのみ作用するように設計される)に作用するよう設計され得る。一部の実施形態において、ルール130は、知識モデルの概念データ構造内のエンティティとして符号化されずに、概念データ構造上の生成能力にて動作する知識表現モデル内のルールとして符号化されてもよい。一部の実施形態において、ルール130は、データとして符号化されて、ルールを含むAKRMの機械読み取り可能エンコーディング内に例えば要素的データ構造120などの知識表現データ構造とともに格納され得る。ルール130は、ルールエンジンソフトウェアコンポーネントを用いて適用されてもよく、これは例えば、システム100内に含まれるかシステム100によってアクセス可能であるかの1つ以上の有形の持続的なコンピュータ読み取り可能記憶媒体内にエンコードされたプログラミング命令によって実装され、該プログラミング命令がシステム100の1つ以上のプロセッサによって実行されて該ルールエンジンを提供する。
【0070】
解析エンジン150及び合成エンジン170は、セマンティック解析及び合成の様々な方法のうちの何れかを用いて、知識表現データ構造の構築及び分解を支援することができ、本発明の態様はこの点で限定されるものではない。入力された複合的KRを分解する際にルール130の適用とともに解析エンジン150によって使用され得る解析手法の例は、テキスト解析、エンティティ及び情報の抽出、情報検索、データマイニング、分類、統計クラスタリング、言語解析、ファセット解析、自然言語処理、及びセマンティック知識ベース(例えば、レキシコン、オントロジーなど)を含む。複合的KRを構築する際にルール130の適用とともに合成エンジン170によって使用され得る合成手法の例は、形式概念解析、ファセット分類合成、セマンティック合成及び動的タクソノミ、並びに2011年12月30日に出願された米国特許出願第13/340792号、及び/又は2011年12月30日に出願された米国特許出願第13/340820号に記載されている様々な図形処理を含む。なお、これらの文献の全体をここに援用する。
【0071】
認識されるように、複合的KRの解析及び合成の例示的な手法は、個別に動作する解析エンジン150及び合成エンジン170によって実行されてもよいし、且つ/或いはこれらのエンジン及び/又はシステム100とインタフェース接続され得る好適な外部ソフトウェアアプリケーションとともに動作する解析エンジン150及び合成エンジン170によって実行されてもよい。そのような外部ソフトウェアアプリケーションは、システム100のその他のコンポーネントと同じ物理的装置又は装置セット内に実装されてもよく、あるいは、そのようなソフトウェアアプリケーションの一部又は全体が他の別個の装置と通信して分散的に実装されてもよく、本発明の態様はこの点で限定されるものではない。
【0072】
図4は、入力された複合的KR160を分解する際に解析エンジン150によって使用され得る意味解析の例示的な一手法400を示している。認識されるように、
図4に示す手法は単なる一例であり、上述のように数多くの他の解析手法も可能であり、本発明の態様はこの点で限定されるものではない。例示の手法400は、ソースデータ構造内に明示的に提示されたテキスト概念ラベルを有するソース概念410の抽出で開始する。ソースデータ構造から、複数のソース概念410が、ソースデータ構造内で明示的に見つかり得るソース概念410間のソース概念関係とともに抽出され得る。
【0073】
ソース概念410の概念ラベル内で、一連のキーワード輪郭部が特定され得る。概念ラベルから、キーワードの共通の構造的テキスト輪郭部(例えば、括弧、引用符、及びカンマなど)に基づいて、予備キーワード範囲が構造解析され得る。再び共通の単語輪郭部(例えば、スペース及び文法記号など)を用いて、予備キーワード範囲から単語全体が構造解析され得る。そして、構造解析された候補キーワードが妥当であることを確実にするため、単語独立のチェックが実行され得る。一部の実施形態において、単語独立のチェックは、以下では“語幹解釈(ステミング)”と称する単語語幹(又は語根)マッチングに基づき得る。検証後、或る単語が、他の単語を有する1つの概念ラベル内に存在し、且つ該他の単語を有しない関連した概念ラベル内に存在する場合、その単語はキーワードを描出するものであり得る。
【0074】
斯くしてキーワードラベルの予備セットが生成されると、全ての予備キーワードラベルが集合にて検査されて、単一の概念ラベル内の2つ以上の妥当なキーワードラベルを提示する複合キーワードが特定され得る。例えば、“バスケットボール”は、単一の概念ラベル内に“バスケット”と“ボール”というキーワードラベルを包含する複合キーワードであり得る。一部の実施形態において、帰納法を用いて、複合キーワードの組が、ソースデータによってサポートされる最も要素的なキーワードの組へと徹底的に分割され得る。この候補キーワード抽出、検証及び分割のプロセスは、更なるアトミックキーワードが発見されなくなるまで、且つ/或いはソースデータによってサポートされる最も要素的なキーワードの組が特定されるまで繰り返され得る。
【0075】
一部の実施形態において、整理統合(コンソリデーション)の最終の方法ラウンドを用いて、ドメイン全体でキーワードラベルの曖昧さが除去され得る。このような曖昧性除去は、複数のエンティティが同じラベルを共有するときに現れる曖昧さを解消するために用いられ得る。一部の実施形態において、曖昧性除去は、複数のキーワードを、同じラベルを共有する単一構造のエンティティに整理統合することによって実現され得る。その結果は、それが得られたソース概念に各々が含まれる複数のキーワード概念の組となり得る。例えば、ソース概念410は、その概念ラベルから構造解析されたキーワード420、440及び460に分解され、キーワード420、440及び460がソース概念410の概念定義を構成し得る。例えば、
図2Bの要素的データ構造300の例において、“家庭”というラベルを付された、より要素的な概念255が、“家庭犬”というラベルを付された、より複合的な概念250から、その概念ラベルから構文解析されたキーワードとして分解され得る。
【0076】
一部の実施形態において、キーワード概念を含む概念定義は、更なる分解を介して、それらの構造内に、より深く且つより基本的なレベルの抽象化として、形態素概念エンティティを含むように拡張され得る。一部の実施形態において、形態素は、より複合的な概念及びそれらの関係の要素的で単純化できない属性を表現し得る。抽象化の形態素レベルにおいて、属性の多くは、概念として人間の分類者に認識可能でないことがある。しかしながら、ドメイン全体にまたがる関係データ構造へと結合されるとき、形態素は、一部の実施形態において、より複合的な概念の意味論的な意味を、より少ない情報を用いて担持することができ得る。
【0077】
一部の実施形態において、形態素抽出の手法は、上述のキーワード抽出の手法と共通の要素を有し得る。形態素候補を特定するための基準として用いるためにパターンが定められ得る。それらのパターンは、語幹解釈のためのパラメータを構築し得るものであり、単語の全体及び単語の部分のマッチングのためのパターンを含み得る。キーワード抽出と同様に、ソース概念関係の組が形態素パターンマッチングのための文脈を提供する。これらのパターンは、キーワードが生じるソース概念関係の組内のキーワードのプール(集まり)に対して適用され得る。語幹解釈パターンに基づく共有語幹の組が特定され得る。この共有語幹の組は、各キーワードに関する候補形態素語幹の組を有し得る。
【0078】
一部の実施形態において、各キーワードの候補形態素語幹同士が、それらが相互に一貫性を有することを確実にするために比較され得る。同じキーワード及びそのキーワードが生じたソース概念関係セットの文脈内にある語幹同士は、重なり合う語幹を有すると仮定される。また、それら重なり合う語幹の交わり部から得られる要素的な語幹は、妥当な形態素を特定するために使用されるパラメータ内にとどまると仮定し得る。このような検証は、過度な形態素分割を制約し、文脈的に意味がある根本レベルの抽象化を提供し得る。一部の実施形態において、一貫性のない候補形態素語幹はキーワードセットから除去され得る、形態素候補を特定するためのこのパターンマッチングのプロセスは、全ての一貫性ない候補が除去されるまで繰り返され得る。
【0079】
一部の実施形態において、可能性ある語幹のグループを調べることにより、各キーワードに対して1つ以上の形態素輪郭部が特定され得る。形態素は各キーワードレベル内の輪郭部の位置に基づいて抽出され得る。そして、抽出された形態素をそれが得られたキーワードに関連付ける(すなわち、マッピング)することによって、キーワード概念輪郭部が構築され得る。例えば、形態素概念425及び430はキーワード概念420の概念輪郭部内に含まれ、形態素概念445及び450はキーワード概念440の概念輪郭部内に含まれ、形態素概念465及び470はキーワード概念460の概念輪郭部内に含まれ得る。故に、元のソース概念410は、AKRMの要素的データ構造に含めるため、意味解析を通じてキーワード概念のレベルに分解され、さらに、最も要素的なレベルの形態素概念まで分解され得る。
【0080】
しかしながら、認識されるように、要素的データ構造の生成には好適な如何なるレベルの抽象化が用いられてもよく、キーワード又は形態素に重点を置かない手法を含む好適な如何なる解析手法が用いられてもよく、本発明の態様はこの点で限定されるものではない。一部の実施形態において、より複合的なKRの解析及び/又は合成に使用されるAKRMに含まれる要素的データ構造は、要素的データ構造を生じさせるように分解され且つ/或いは要素的データ構造から合成される複合的KRに含まれる概念及び関係より要素的な概念及び関係を含み且つそれらを符号化し得る。例えば、複合的KRに符号化される複合概念の抽象的な意味は、AKRMの要素的データ構造に符号化される要素概念の抽象的な意味の組合せによって形成され得る。
【0081】
一部の実施形態において、中心にされるAKRMの部分として要素的データ構造内に格納される概念は、より複合的な概念から例えばキーワードなどの単語全体のレベルまで分解されたものとし得る。
図2Bの例は、単語全体を符号化するそのような要素的データ構造を例示している。一部の実施形態において、要素的データ構造内の概念は、単語の一部を表現する一層要素的なレベルまで分解されたものとし得る。一部の実施形態において、要素的データ構造内の概念は、意味論的意味をなおも担持し得る最小の言語単位である形態素によって表現される一層要素的な意味レベルまで分解されたものとし得る。例えば、単語全体の概念“シャム(Siamese)”は、自由形態素を表す“Siam”と接辞を表す“−ese”という2つの形態素概念を作り出すように分解され得る。一部の実施形態において、AKRMの要素的データ構造は、1つの特定の要素レベルにある概念のみを含んでいてもよく、例えば、要素的データ構造は一部の実施形態において、全面的に形態素概念で形成され、あるいは全面的に単語概念で形成され得る。他の実施形態において、要素的データ構造は、様々な異なる要素レベルの概念(例えば、形態素概念、キーワード概念、及び/又はその他の要素レベルのその他の概念を含む)を含むことができ、ただし、要素的データ構造内の概念の少なくとも一部は、これら概念がそれから分解された入力KR内の複合概念及び/又はこれら概念がその他の要素概念と組み合わさって作り出す出力KR内の複合概念より要素的である。認識されるように、複合的KRをより要素的なデータ構造へと分解することには、言語学及び意味論以外のパラダイムに関係する基礎を含めて、好適な如何なる基礎が用いられてもよく、本発明の態様はこの点で限定されるものではない。
【0082】
図1に戻るに、データ消費者195は、システム100の一人以上の人間ユーザ、及び/又はシステム100と相互作用する1つ以上の機械実行ソフトウェアアプリケーションを表し得る。一部の実施形態において、データ消費者195は、様々な形態のデータを介して、システム100からの出力を要求且つ/或いは受信し得る。例えば、データ消費者195は、要素的データ構造120を生成且つ/或いは更新する要素的な概念及び概念関係へと分解される複合的KR160をシステム100に入力し得る。データ消費者195(同一あるいは異なるデータ消費者)はまた、要素的データ構造120の一部又は全てへの知識処理ルール130のうちの1つ以上の適用によって合成された、システム100からの出力複合的KR190を受信し得る。
【0083】
例示のシステム100の一部の実施形態において、1つ以上のデータ消費者195に関連する文脈180(又は“コンテキスト情報”180)が合成エンジン170に提供される。コンテキスト情報は、データ消費者195がどのような情報を探索しているか、且つ/或いは関心を有しているか、を特定するために使用され得る情報を有し得る。コンテキスト情報はまた、データ消費者に情報を提供するために後に使用され得るデータ消費者のモデルを展開するために使用され得る情報を有していてもよい。このように、コンテキスト情報は、以下に限られないが、利用可能な情報源及び/又はデータ消費者によって直接提供される好適な情報から収集され得るような、データ消費者に関係する好適な情報を含み得る。
【0084】
一部の実施形態において、データ消費者に関係する情報は、そのデータ消費者についての好適な如何なる情報であってもよい。例えば、データ消費者に関係する情報は、そのデータ消費者に関する人口学的情報(例えば、性別、年齢層、教育レベルなど)、経歴情報、雇用情報、家族情報、人間関係情報、嗜好情報、興味情報、経済的情報、地理位置情報などを有し得る。他の一例として、データ消費者に関係する情報は、そのデータ消費者のインターネット閲覧履歴の詳細を有していてもよい。そのような情報は、そのデータ消費者が閲覧した可能性ある1つ以上のウェブサイトのリスト、閲覧の時間、及び/又は閲覧を行った場所(すなわち、地理的位置)を有し得る。データ消費者の閲覧履歴は更に、そのデータ消費者が検索した情報と、以下に限られないが検索への応答としてそのデータ消費者が取得した検索結果を含む関連閲覧情報とを有していてもよい。一部の実施形態において、データ消費者に関係する情報は、ユーザによって選択されたハイパーリンクの記録を有し得る。
【0085】
他の一例として、データ消費者に関係する情報は、そのデータ消費者のコンピューティング装置上のユーザインタフェースを介して、あるいはそのデータ消費者が閲覧した可能性ある1つ以上のウェブサイト上で、そのデータ消費者が提供した情報を有し得る。例えば、データ消費者に関係する情報は、例えばソーシャルネットワークウェブサイト、求人ウェブサイト、ブログ、ディスカッションスレッドなどのウェブサイト上の、そのデータ消費者に関連付けられる情報を有していてもよい。そのような情報は、以下に限られないが、ウェブサイト上のそのデータ消費者のプロフィール、そのデータ消費者のプロフィールに対応するマルチメディア関連情報(例えば、画像、ビデオなど)、並びに、ウェブサイト上でそのデータ消費者によって入力されたその他の情報を含み得る。一部の実施形態において、例示のシステム1800は、ウェブサイト又はソーシャルネットワークプラットホームをスクラップ(切り抜き)することによってプロフィール情報を取得し得る。更なる他の一例として、データ消費者に関係する情報は、2009年8月9日に出願された米国特許出願第12/555293号に記載されているような消費者インタラクション情報を有していてもよい。なお、この文献の全体をここに援用する。
【0086】
一部の実施形態において、データ消費者に関係する情報は地理空間情報を有していてもよい。例えば、地理空間情報は、そのデータ消費者及び/又はそのデータ消費者のコンピューティング装置の現在位置(例えば、データ消費者の家、データ消費者のホームタウンの図書館、データ消費者の仕事場、データ消費者が旅行した場所、及び/又はデータ消費者のインターネットIPアドレスによって決定されるデータ消費者の装置の地理的位置、等々)を有し得る。地理空間情報は、データ消費者のコンピューティング装置の位置についての情報と、データ消費者のコンピューティング装置がその位置もしくはその付近にあったときにデータ消費者が検索あるいは閲覧していたコンテンツと、の間の関連付けを含んでいてもよい。一部の実施形態において、データ消費者に関係する情報は時間的な情報を含んでいてもよい。例えば、時間的情報は、データ消費者がコンピューティング装置上でクエリ又は特定のコンテンツの視聴を行っていた時間を有し得る。その時間は、例えば、年、季節、月、週、日、時(hour)、分、秒などの好適な如何なるスケールで特定されてもよい。
【0087】
それに加えて、あるいは代えて、1つ以上のデータ消費者に関連するコンテキスト情報は、そのデータ消費者によって提供される情報を有していてもよい。そのような情報は、そのデータ消費者がどのような情報に関心を有するかを指し示す好適な如何なる情報であってもよい。例えば、コンテキスト情報は、データ消費者によって検索エンジン(例えば、インターネット検索エンジン、企業イントラネットなどの特定のドメインを検索するように適応された検索エンジン)に入力された1つ以上の検索クエリ入力を有し得る。他の一例として、コンテキスト情報は、データ消費者によって指定された、データ消費者が関心を有し得る情報の種類を指し示す1つ以上のもの(インジケータ)を有し得る。データ消費者は該インジケータを数多くの手法のうちの何れかで提供し得る。データ消費者は、嗜好を指し示すものをタイプ入力するか話すかすることができ、ウェブサイト又はアプリケーションによって提供される1つ以上の選択肢を選択し(例えば、ドロップダウンメニューからアイテムを選択する、ボックスをチェックするなど)、ウェブサイト上若しくはアプリケーション内で、且つ/或いはその他の好適な手法で、データ消費者が関心あるコンテンツの一部をハイライトあるいはその他の方法で選択し得る。例えば、データ消費者は、ウェブサイト上で1つ以上の選択肢を選択して、特定の1つ以上のトピックに関する最新ニュース、1つ以上の種類の製品に関する広告、多数の種類のウェブサイト、ニュースレター、電子メールダイジェストなどのうちの何れかの更新に関する情報を受信する望みを指し示し得る。
【0088】
コンテキスト情報は、多様な取り得る手法のうちの何れかで取得され得る。例えば、一部の実施形態において、コンテキスト情報は、データ消費者のクライアントコンピュータから1つ以上のサーバコンピュータに提供され得る。すなわち、例えば、データ消費者は、アプリケーションプログラムを実行するクライアントコンピュータを操作し得る。該アプリケーションプログラムは、サーバコンピュータにコンテキスト情報(例えば、データ消費者によってアプリケーションプログラムに入力された検索クエリ)を送信し得る。故に、サーバは、クライアント上で実行されているアプリケーションプログラムからコンテキスト情報を受信し得る。
【0089】
アプリケーションプログラムは、直接的あるいは間接的に情報の送信及び受信を行うことが可能な多様な種類のアプリケーションプログラムのうちの何れであってもよい。例えば、一部の実施形態において、アプリケーションプログラムは、インターネット若しくはWWWのブラウザ、インスタントメッセージクライアント、又はその他の好適なアプリケーションとし得る。
【0090】
コンテキスト情報は、クライアントからサーバへ直接的に送信される必要はない。例えば、一部の実施形態において、データ消費者の検索クエリはネットワークを介してサーバに送信され得る。ネットワークは、例えばLAN、WAN、インターネット、又は複数のネットワークの組合せなど、好適な如何なる種類のネットワークであってもよい。
【0091】
認識されるように、データ消費者のクライアントコンピュータからコンテキスト情報を受信することは本発明の態様を限定するものではなく、コンテキスト情報はその他の好適手法で取得されてもよい。例えば、コンテキスト情報は、要求することにより能動的に、且つ/或いは受信することにより受動的に、1つ以上のデータ消費者に関連するコンテキスト情報を有するソースから、あるいはそれへのアクセスにより取得され得る。
【0092】
一部の実施形態において、データ消費者195は合成及び/又は解析の処理を導くためにコンテキスト180を提供し得る。例えば、出力KRの要求とともに特定のコンテキスト180を入力することにより、データ消費者195は、要求した情報又はデータ消費者によって実行されている現在タスクに関する適切な特徴を有する出力KR190を生成するようにシステム100を導き得る。例えば、データ消費者195が要求する特定の概念又はデータ消費者195が関連情報を受信することを望む特定の概念にマッピング可能な検索語として、特定のコンテキスト180がデータ消費者195によって入力され得る。一部の実施形態において、合成エンジン170は例えば、要素的データ構造120のうちのコンテキスト180に対応する概念に概念的に関係する(すなわち、該データ構造に接続される)部分のみにルール130を適用し得る。他の一例において、入力コンテキスト180は、データ消費者により出力KR190が従うことが望まれる例えばタクソノミなどの特定種類の知識表現モデルを指し示し得る。従って、合成エンジン170の実施形態は、ルール130の組のうち、要素的データ構造120からタクソノミを合成するのに適したルールのみを適用し得る。
【0093】
認識されるように、入力コンテキスト180は、出力KR190の合成に適用する如何なる数の要求及び/又は制限を含んでいてもよく、また、入力コンテキスト180の構成要素は、好適な如何なる形態のデータ又はプログラミング言語で符号化された好適な如何なる種類のものであってもよく、本発明の態様はこの点で限定されるものではない。好適な入力コンテキストの例は、以下に限られないが、例えば自然言語処理(NLP)技術によって仲介される自由なテキストクエリ及び申し出、並びに、様々なWeb2.0システムと調和する例えば用語若しくはタグの組などの構造的な入力を含む。一部の実施形態において、特定のコンテキスト180に従った出力KR190を生成することは、データ消費者とのますます流動的で動的な知識交換を可能にし得る。しかしながら、認識されるように、入力コンテキスト180は必ずしも必要でなく、システム100は一部の実施形態において入力コンテキストを必要とせずに出力KR190を作成してもよく、本発明の態様はこの点で限定されるものではない。
【0094】
データ消費者195はまた、システム100に、好適な如何なる種類の入力KR160を、好適な如何なるデータ符号化言語及び/又はプログラミング言語を用いて、好適な如何なる形態で提供してもよく、本発明の態様はこの点で限定されるものではない。入力KRの好適な形態の例は、以下に限られないが、やはり様々な形態のNLP及びテキスト解析とともに使用される半構造化された、あるいは構造化されていない文書、並びに、例えばタクソノミ、管理語、ファセット分類及びオントロジーなどの構造化された知識表現を含む。
【0095】
本開示に係る一部の実施形態において、AKRMを用いる複合的KRの解析及び合成nための例えばシステム100などのシステムは、1つ以上のクライアント装置、機械及び/又はコンピュータとのネットワーク通信を有する分散コンピューティングシステムのサーバ側に実装され得る。
図5は、システム100がKRデータ構造のサーバ側変換エンジンとして稼働し得る、そのような分散コンピューティング環境500を例示している。この変換エンジン(例えば、1つ以上のプログラムされたプロセッサ)は、入力として、例えばクライアント510の人間ユーザ又はソフトウェアアプリケーションの動作を介して、クライアント510によって1つ以上のドメインから提供される1つ以上のソース複合的KRデータ構造520を使用し得る。一部の実施形態において、入力の複合的KR520は、システム100が実装されているコンピューティングシステムに例えばインターネット550などのネットワーク上でウェブサービス(又は、API若しくはその他の分散チャネル)を介して配信され得る1つ以上のXMLファイル530に符号化され得る。同様に、システム100は、要求された出力KRをXMLファイル540として、様々なクライアント510にネットワークを介して返し得る。しかしながら、認識されるように、データはサーバシステム100とクライアントシステム510との間で好適な如何なる手法及び形態で通信されてもよく、本発明の態様はこの点で限定されるものではない。
【0096】
このモード及び/又はその他のモードの配信及び分散化を介して、一部の実施形態において、広範囲の開発者及び/又は出版業者は、解析エンジン150及び合成エンジン170を用いて複合的KRデータ構造の分解及び作成を行い得る。典型的な用途は、以下に限られないが、ウェブサイト、知識ベース、電子商取引ストア、検索サービス、クライアントソフトウェア、管理情報システム、分析論などを含む。
【0097】
一部の実施形態において、このような分散システムの1つの利点は、個人用ドメインのデータと、ドメインを処理するためにシステムによって使用される共有データとの明確な分離であり得る。データ分離は、例えばサービス型ソフトウェア(Software-as-a-Service;SaaS)モデルなどのホスト化された処理モデルを容易にすることができ、それにより、サードパーティがドメインオーナーに変換エンジンサービスを提供し得る。ドメインオーナーの特定ドメインデータは、共有データ(例えば、AKRMデータセット110)及びその他のドメインオーナーの個人データから分離可能であるので、SaaSプラットホームによって安全に扱われ得る。他の例では、特定ドメインデータは、共有データから物理的に除去されて、ドメインオーナーによって扱われてもよい。一部の実施形態において、ドメインオーナーは、固有の知識を危険にさらす必要なく、ユーザのコミュニティ全体の共有知識(例えば、AKRM)を構築し得る。
【0098】
以上の説明から認識されるように、本開示に係る一部の実施形態は、元の複合的知識表現を解析して該複合的KRを分解し、且つアトミック知識表現モデルの要素的データ構造を生成あるいは更新する技術に関する。
図6は、1つのそのような技術を例示的なプロセス600として示している。プロセス600はステップ610で開始し、そこで、例えばシステム100などの解析/合成システムによって、例えばデータ消費者から、入力複合的KRが受信され得る。
【0099】
ステップ620にて、入力複合的KRを1つ以上の要素概念及び/又は1つ以上の要素概念関係へと分解するため、AKRMの一部としてシステム100内に符号化された1つ以上の知識処理ルールが適用され得る。様々な種類の入力KRに適用可能な知識処理ルールの例は以下に提示される。しかしながら、認識されるように、本発明の態様は、特定の例に係る知識処理ルールに限定されるものではなく、アトミック知識表現モデルに関連付けて符号化される好適な如何なるルールが使用されてもよい。上述のように、そのようなルールは、解析システムの開発者及び/又は解析システムの一人以上のエンドユーザによって適切な如何なる時に提供されてもよい。
【0100】
ステップ630にて、ステップ620で発見且つ/或いは取得された要素概念及び/又は要素概念関係のうちの1つ以上が、システムのAKRMの一部として符号化されて格納された要素的データ構造に含められ得る。一部の実施形態において、単一の入力複合的KRから取得された要素概念及び関係の一部又は全てが、AKRMの新たな要素的データ構造を追加するように使用され得る。一部の実施形態において、格納済みの要素的データ構造が既に存在しているとき、後続の入力KRから発見された新たな要素概念及び/又は関係は、この格納済みの要素的データ構造に含められて、集権的なAKRMを更新且つ/或いは拡張してもよい。一部の実施形態において、プロセス600は引き続き、最初までループを戻り、新たな入力KRが利用可能になるときに、格納済みの要素的データ構造を更に更新し、且つ/或いは新たな要素的データ構造を生成し得る。他の実施形態において、プロセス600は、該プロセスの一回の通行若しくは別の所定回数の通行の後に、あるいは格納された要素的データ構造が所定の大きさ若しくは複雑さに達した後に、あるいはその他の好適な停止基準が満たされた後に終了し得る。
【0101】
以上の説明から認識されるように、本開示に係る更なる一部の実施形態は、アトミック知識表現モデルを用いて複合的知識表現を生成(合成)する技術に関する。
図7は、そのような技術を例示的なプロセス700として示している。プロセス700はステップ710で開始し、そこで、例えば人間ユーザ又はソフトウェアアプリケーションなどのデータ消費者から、入力コンテキストが受信され得る。上述のように、このコンテキストは、テキストのクエリ若しくは要求、1つ以上の検索語、1つ以上のアクティブ概念の識別子などを含み得る。また、コンテキストは、特定形態の複合的KRの要求を指し示し得る。一部の実施形態において、しかしながら、複合的KRの要求は、該複合的KRに含められるべき概念及び/又は概念関係を限定する更なるコンテキストなしで受信されてもよく、本発明の態様はこの点で限定されるものではない。また、一部の実施形態において、コンテキストの受信は、明示的な要求の必要なしで、コンテキストを伴う複合的KRの要求として解釈されてもよい。
【0102】
ステップ720にて、入力された要求及び/又はコンテキストに応答して、AKRM内に符号化された1つ以上の適切な知識処理ルールがAKRMの要素的データ構造に適用されて、要素的データ構造に明示的に符号化されていない1つ以上の更なる概念及び/又は概念関係が合成され得る。様々な種類の出力KRを合成することに適用可能な知識処理ルールの例は以下に提示される。上述のように、一部の実施形態において、ルールは、同じ知識処理ルールを用いて複合的KRの解析及び合成の双方を達成するように、双方向的に適用されてもよく、他の実施形態において、一組のルールが解析に適用され、且つ異なる一組のルールが合成に適用されてもよい。しかしながら、認識されるように、本発明の態様は、特定の例に係る知識処理ルールに限定されるものではなく、アトミック知識表現モデルに関連付けて符号化される好適な如何なるルールが使用されてもよい。上述のように、そのようなルールは、解析システムの開発者及び/又は解析システムの一人以上のエンドユーザによって適切な如何なる時に提供されてもよい。
【0103】
一部の実施形態において、受信された入力要求及び/又はコンテキストに従って適切なルールが要素的データ構造の適切な部分に適用され得る。例えば、入力された要求が特定種類の複合的KRが出力されることを要求している場合、一部の実施形態において、AKRM内に符号化されたルールのうち、その種類の複合的KRを合成することに適用されるルールのみが、要素的データ構造に適用され得る。一部の実施形態において、複合的KRの具体的な種類が指定されていない場合、例えばタクソノミなどのデフォルト種類の複合的KRが合成される、あるいはランダム種類の複合的KRが選択される、等々とし得る。一部の実施形態において、入力コンテキストが関心ある1つ以上の特定のアクティブ概念を指定している場合、例えば、要素的データ構造のうちそれらのアクティブ概念に関係する(すなわち、概念関係を介して接続されている)部分のみが選択され、それらの部分にルールが適用されて新たな複合的KRが合成され得る。一部の実施形態において、出力される複合的KRの大きさ及び/又は複雑さについての所定の制限が、例えば、含まれる概念の数、要素的データ構造内でのアクティブ概念と選択された関連概念との間の階層的距離、得られる出力複合的KRの符号化されたデータサイズ、処理要件などを条件にして、例えば合成システムの開発者又はエンドユーザによって設定され得る。
【0104】
ステップ730にて、ステップ720で合成された更なる概念及び関係と要素的データ構造の選択された適部とから新たな複合的KRが合成され、受信した入力にて指し示される指定のKRの種類に従って符号化され得る。ステップ740にて、得られた合成された複合的KRが、それから要求を受信したデータ消費者に提供され得る。上述のように、これは、例えば、提供された複合的KRをソフトウェアユーザインタフェースにより閲覧且つ/或いは利用し得るソフトウェアアプリケーション又は人間ユーザとし得る。そして、プロセス700は、新たな知識を符号化する新たに合成された複合的KRの提供により終了し得る。
【0105】
一部の実施形態において、“アクティブ概念”は複合的KRの合成中に使用され得るものである。一態様において、アクティブ概念は、データ消費者に関するコンテキスト情報の少なくとも一部に対応する要素概念とし得る。一部の実施形態において、アクティブ概念はコンテキスト情報の一部として提供され得る。一部の実施形態において、アクティブ概念はコンテキスト情報から抽出されてもよい。
【0106】
コンテキスト情報からアクティブ概念を抽出することは、合成処理に関係するコンテキスト情報の部分を特定することを有し得る。例えば、データ消費者が情報を検索するとき、コンテキスト情報の関連部分は、ユーザの検索クエリ、及び/又はデータ消費者が探している情報の検索に有用であり得る更なる情報(例えば、データ消費者の現在位置、データ消費者の閲覧履歴など)を有し得る。他の一例として、データ消費者に1つ以上の広告を提示するとき、コンテキスト情報の関連部分は、データ消費者が関心を持っているかのしれない1つ以上の製品を指し示す情報を有し得る。他の一例として、データ消費者にニュース記事(又は、その他の好適種類のコンテンツ)を提供するとき、コンテキスト情報の関連部分は、データ消費者の興味を指し示す情報を有し得る。コンテキスト情報の関連部分は好適な如何なる手法で特定されてもよく、コンテキスト情報の関連部分が特定される手法は本発明の態様を限定するものではない。認識されるように、一部の例では、コンテキスト情報の関連部分はコンテキスト情報のサブセットを有し得るが、他の実施形態においては、関連部分はコンテキスト情報の全てを有していてもよく、本発明の態様はこの点で限定されるものではない。
【0107】
コンテキスト情報の関連部分は、数多くの手法のうちの何れで表現されてもよい。例えば、一部の実施形態において、コンテキスト情報の関連部分は1つ以上の英数字列によって表現され得る。英数字列は、好適な如何なる数の文字(スペースを含む)、単語、数字、及び/又は数多くのその他の記号のうちの何れかを含んでいてもよい。英数字列は、例えば、ユーザ検索クエリ、及び/又はデータ消費者がどのような情報に関心を持っている可能性があるかを指し示す好適情報を表現し得る。しかし、認識されるように、コンテキスト情報及び/又はその一部を表現することには、数多くのその他のデータ構造の何れかが用いられてもよい。
【0108】
一部の実施形態において、コンテキスト情報の関連部分に対応するアクティブ概念は、要素的データ構造内で特定されてもよい。要素的データ構造内でのアクティブ概念の特定は、好適な如何なる手法で為されてもよい。一部の実施形態において、コンテキスト情報の関連部分が概念識別子と比較され得る。例えば、コンテキスト情報の関連部分が英数字列によって表現されるとき、その英数字列が、概念を特定する文字列(“概念ラベル”と称するときもある)と比較されて、これらの文字列が一致するか否かが決定され得る。一致は、文字列間の正確な一致であってもよいし、特定組の単語(例えば“and”、“the”、“of”などの単語)を除く全ての単語が一致する実質的に正確な一致であってもよい。また、一部の実施形態において、文字列内での単語の順序は無視されてもよい。例えば、文字列“The Board of Directors”は、概念ラベル“Board Directors”及び概念ラベル“Directors Board”と一致すると決定されてもよい。
【0109】
一部の実施形態において、コンテキスト情報の関連部分に対応するアクティブ概念が要素的データ構造内で特定されない場合、アクティブ概念を生成してもよい。一部の実施形態において、生成されたアクティブ概念は要素的データ構造に追加され得る。
【0110】
図12−17については以下にて詳細に説明する。
図18は、本発明の一部の実施形態に従った複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態にて使用され得る例示的なシステム1800を示している。例示のシステム1800において、例えば解析エンジン150などの解析部(すなわち、入力データを分解あるいはその他の方法で解析し、解析結果をAKRMデータセット110内に格納するように構成されたコンポーネント)は、1つ以上のプロセッサ上で実行されるソフトウェアとして、ハードウェアとして、あるいはソフトウェアとハードウェアとの組合せとして実装され得る。同様に、例えば合成エンジン170などの合成部(すなわち、AKRMデータセット110からの複合的知識表現を合成するように構成されたコンポーネント)は、1つ以上のプロセッサ上で実行されるソフトウェアとして、ハードウェアとして、あるいはソフトウェアとハードウェアとの組合せとして実装され得る。
【0111】
一部の実施形態において、複数の解析部が互いに同じ場所に配置され得る(例えば、同一のコンピュータ読み取り可能媒体に格納され、あるいは同一のプロセッサ上で実行される)。一部の実施形態において、複数の解析部が互いから遠隔に配置されてもよい(例えば、複数の遠隔サービスとして提供され、あるいはネットワークによって接続された複数の遠隔配置コンピュータ上で実行される)。同様に、複数の合成部が、互いに同じ場所に配置されてもよいし、互いから遠隔に配置されてもよい。解析部及び合成部は“ユニット”又は“エンジン”としても参照され得る。
【0112】
上述のように、一部の実施形態において、要素的データ構造は要素概念と要素概念関係とを有し得る。一部の実施形態において、或る要素概念関係は、単方向であってもよく、また、2つの要素概念の間の関係を記述し得る。すなわち、或る要素概念関係は、要素概念Aが要素概念Bに或る特定の関係を有することを表すが、要素概念Bは要素概念Aに同じ関係を有することを表さないものとし得る。一部の実施形態において、要素概念関係は、例えば包摂型又は定義型などの型(タイプ)を割り当てられ得る。
【0113】
包摂関係は、2つの概念間に、それらの概念のうちの一方が他方の概念の一種、一分野又は一クラスであるときに存在し得る。例えば、概念“生物学”と“科学”との間には、生物学は科学の一分野であるので、包摂関係が存在し得る。表記A→Bは概念AとBとの間の包摂関係を表し得る。より正確には、表記A→Bは、概念Bが概念Aを包含すること、すなわち(等価的に)、概念Aが概念Bの一種であることを表し得る。包摂関係はまた、“包含”関係、“is−a”関係、又は“ハイポニミ”としても参照され得る。
【0114】
定義関係は、2つの概念間に、それらの概念のうちの一方が他方の概念を少なくとも部分的に定義し得るときに存在し得る。例えば、概念“リンゴ”と“皮”との間には、リンゴは皮を有し得るので、定義関係が存在し得る。他の一例として、概念“リンゴ”と“丸い”との間には、リンゴは丸いことがあるので、定義関係が存在し得る。表記A―●Bは概念AとBとの間の定義関係を表し得る。より正確には、表記A―●Bは、概念Bが概念Aを定義すること、すなわち(等価的に)、概念Aが概念Bによって定義されることを表し得る。定義関係はまた、“defined−by”関係としても参照され得る。
【0115】
一部の実施形態において、定義関係は、或る概念とその概念の構成要素との間にのみ存在し得る。例えば、一部の実施形態において、概念“アップルパイ”と概念“アップル”又は概念“パイ”との間には、概念“アップル”及び“パイ”は概念“アップルパイ”の構成要素であるので、定義関係が存在し得る。一部の実施形態において、概念Xに関連付けられるラベルを概念Yに関連付けられるラベルが有する場合にのみ、概念Xは概念Yの構成要素であるとし得る。
【0116】
II. 擬似コード
以下の擬似コードのセクションは、上述の方法の更なる例示としての役割を果たし得る。
【0117】
KnowledgeCreation(KR
in,RULES
in,CONTEXT,ANALYSIS,SYNTHESIS)
Input:
− CONTEXT:ユーザ/アプリケーションコンテキスト(例えば、要求、アクティブ概念、ドメイン制約)
− KR
in:知識表現(例えば、タクソノミ)
− RULES:関連する知識処理ルール
− ANALYSIS:解析イベントをイネーブルにするフラグ
− SYNTHESIS:合成イベントをイネーブルにするフラグ
Output:
− AKRMに格納される概念及び関係
− ユーザ/アプリケーションに提示する複合的KR
out
Procedure:
C
a=AKRM.C /*AKRM内で定義される概念定義のセット(組)*/
R
a=AKRM.R /*AKRM内で定義される概念関係のセット*/
C={} /*新たな概念定義のセット*/
R={} /*新たな関係のセット*/
KR
out=C+R /*複合的知識表現*/
/*更なるルールを適用し得る限り解析タスクを実行し続ける*/
Whenever (ANALYSIS) do {
RULESからの解析ルールをKR
in+C
a+R
aに適用
C
a=C
a∪{生成されたアトミック概念のセット}
R
a=R
a∪{生成された関係のセット}
適用し得るルールがもうない場合、ANALYSISをfalseに設定
}
/*更なるルールを適用し得る限り合成タスクを実行し続ける*/
Whenever(SYNTHESIS} do {
RULESからの合成ルールをC
a+C+R
a+R+CONTEXTに適用
C=C∪{生成された複合概念のセット}
R=R∪{生成された複合関係のセット}
適用し得るルールがもうない場合、SYNTHESISをfalseに設定
/*場合により、生成されたKRのサブセットを素材化*/
If (十分なサポート又はユーザ要求)
C
a=C
a∪C and R
a=R
a∪R
}
/*生成された複合的なKRをユーザ/アプリケーションに提示*/
複合的なKR
out=C+Rを(ユーザ/アプリケーションに)出力。
【0118】
以上の説明から認識されるように、本開示に係る一部の実施形態は、アトミック知識表現モデルを用いて知識表現同士の間の意味論的相互運用性を支援する技術に関する。上述のように、要素的データ構造を格納した共有の集中化されたAKRMを維持管理することは、一部の実施形態において、入力される複数の異なる複合的KR(一部の例において、異なる種類、又は異なる知識表現モデル)が、全ての種類の複合的KRと意味論的に互換性のある単一の共有の要素的データ構造の生成及び/又は更新に使用される要素的な概念及び/又は概念関係に分解される、ことを可能にし得る。また、要素的データ構造への分解と、その後の、新たな複合的KRへの合成とにより、一部の実施形態において、或る1つの種類の入力KRが同じソースデータに基づいて異なる種類の出力KRに変換され得る。
【0119】
以下の擬似コードは、ここに記載のようにAKRMの下で複数の異なるKRを統合して、意味論的相互運用性の利益を提供する方法の更なる例示としての役割を果たし得る。
【0120】
Input:
− KR
1,KR
2,・・・,KR
n /*n個の取り得る異なるKR*/
− RULES
1,RULES
2,・・・,RULES
n /*関連する知識処理ルール*/
− ユーザ/アプリケーションコンテキスト
Output:
− AKRMに格納される概念及び関係
− ユーザ/アプリケーションに提示する複合的KR
out
Procedure:
C
a=AKRM.C /*AKRM内で定義される概念定義のセット(組)*/
R
a=AKRM.R /*AKRM内で定義される概念関係のセット*/
C={} /*新たな概念定義のセット*/
R={} /*新たな関係のセット*/
KR
out=C+R /*複合的知識表現*/
/*入力KRを解析してAKRMに入力*/
for (i:l to n){
RULES
iからの全ての可能な解析ルールをKR
i+C
a+R
aに適用
C
a=C
a∪{生成されたアトミック概念のセット}
R
a=R
a∪{生成された関係のセット}
}
/*新たな知識を合成*/
RULES
iからの可能な合成ルールをC
a+C+R
a+Rに適用
C=C∪{生成された複合概念のセット}
R=R∪{生成された複合関係のセット}
/*場合により、生成されたKRのサブセットを素材化*/
C
a=C
a∪C and R
a=R
a∪R。
【0121】
図8は、5個の例示的な種類の複合的知識表現(すなわち、タクソノミ、シノニムリング、シソーラス、ファセット分類、及びオントロジー)の解析及び/又は合成において、本開示に係る一部の実施形態で使用され得る6個の例示的な知識処理ルールを例示する表である。しかしながら、上述のように、認識されるべきことには、これらの例は単に例示目的で提供されるものであり、本発明の態様は特定のルールセットやKRの種類若しくはモデルに限定されるものではない。また、一部の実施形態において、解析/合成システムは、例えば該システムのエンドユーザによって後の時点で更なるルールで拡張され且つ/或いはルールの変更及び/又は削除によって更新されることが可能な、知識処理ルールの初期セットで(例えば、該システムの開発者によって)種付けされてもよい。異なるエンドユーザ又はアプリケーションのために、例えばユーザアカウントにて、異なる種類のKRに適用可能な異なるルールセットも格納され得る。また、一部の実施形態において、特定のKRに関する要求に対処するために、複数の知識処理ルールが再利用されて新らしいように組み合わされてもよい。
【0122】
図8に与えられる例示的なKR種類に関する特定の例を参照して、以下、
図8に提示される例示的なルールについて説明する。認識されるように、上述の一般化された複数の方法のうちの何れもが、含まれる入力、出力及び知識処理ルールを異ならせて、以下の例の何れにも適用され得る。また、認識されるように、知識作成理論の数多くの異なる態様がここに記載の例示的なルールを介してモデル化され得るが、様々なその他の種類のルールも可能である。以下の例は、知識表現データ構造のトポロジーによって大いに突き動かされる。ルールのその他の基礎は、とりわけ、言語学的な形態論及び構文、音韻論、メタファー、象徴化、及び知覚を含み得る。
【0123】
一部の実施形態において、例えば
図8に与えられる例示的なルールなどの知識処理ルールの組をアトミック知識表現モデル内に符号化することは、例えば
図8に表されるものなどのサポートされるKR種類の組内の複合的KRを解析且つ/或いは合成することを可能にし得る。
図8の例において、“×”印は、例示の6個のルールの組のうちのどのルールが例示の5個のKR種類の組のうちのどのKR種類に適用されるかを示している。これらの例において、各ルールは、それが適用される種類の複合的KRの解析又は合成に双方向に適用され得る。例えば、入力シソーラスKRを考えると、
図8は、入力シソーラスを要素的データ構造内に含めるべき要素的な概念及び概念関係へと分解するために、ルール1、2、3及び4が入力シソーラスに適用され得ることを明らかにしている。他の一例において、ルール1、2及び3を要素的データ構造に適用することは、出力シノニムリングKRをもたらす。適切な複合的KRの解析及び/又は合成を実行するためのこれらの例示のルールの各々の使用について、以下、例を参照して説明する。
【0124】
タクソノミルール
以下の入力/出力及び知識処理ルールは、概念の階層分類としてタクソノミの機能を提供する。
【0125】
入力/出力:
概念Cのセット
階層関係(非巡回)のセット
R={r(c
i,c
j):c
i,c
j∈C and c
i Is−a c
j}
定義1(コヒーレント概念):2つの概念は、Tは予め選定された閾値であるとして距離メトリックMに従って、M(c
i,c
j)<Tの場合にコヒーレントである(一貫性を有する)と見なされる。取り得るメトリックの例は、入力コーパスにおける該2つの概念の共起(同時出現)の頻度、又はタクソノミ階層に適用されるツリー距離関数を含む。
【0126】
ルール1(コヒーレント概念合成):新たな概念c={C
i,C
j}を作成する。Cは、c
i及びc
jが定義1に関してコヒーレントであるとき且つそのときに限り、c
i及びc
jを有する(comprised of)といわれる。
【0127】
ルール2(階層関係合成):c
1={c
11,c
12,…,c
1n}はn個の概念c
11からc
1nからなる概念であるとする。同様に、c
2={c
21,c
22,…,c
2m}はm個の概念c
21からc
2mからなる概念であるとする。各c
1iに関して概念c
2jに対して関係r(c
1i,c
2j)が存在するとき且つそのときに限り、新たな階層関係r(c
1,c
2)を作成する。
【0128】
なお、例示のルール(例えば、ルール1及びルール2)の各々の“〜であるとき且つそのときに限り(if−and−only−if)”の部分は、そのルールの双方向の解析/合成の性質を反映している。例えば、解析は“であるとき(if)”部分を執行する(その条件を満たすようにAKRM内に明示的な階層関係が提示されることを強いる)ことになる。一方、合成は“そのときに限り(only−if)”部分を発見する(その条件が適用される場合に階層関係を発見する)ことになる。
【0129】
入力タクソノミ200を解析してそれをより要素的なデータ構造300に分解するためのこれら例示ルールの適用の一例は、
図2A及び2Bに与えられている。この例において、複合概念230、250及び270が分解され、ルール1の適用を介して、より要素的な新たな概念235、240、255、260、275及び280が生成され、ルール2の適用を介して、それらの関係が生成されている。また、(例えば)外部コーパスを証拠として用いて、ルール1の適用を介して、新たな複合概念:{家庭,ライオン}、{山岳,犬}、{山岳,猫}、{家庭,ヤギ}、{家庭,ペット}、{家庭,猫}が合成されてもよい。合成におけるルール2の適用は、新たな概念関係を生成し得る。例えば、“動物”と“犬”との間に階層関係が存在し、且つ“動物”と“山岳”との間に階層関係が存在するので、“動物”と“山岳犬”との間に新たな階層関係が合成されてもよい。
【0130】
シノニムリングルール
以下の入力/出力及び知識処理ルールは、用語間若しくは概念間の意味の近接性によって、あるいは論理的な、真理値を保存する用語の内部代替性によって定義されるシノニムリングの機能を提供する。
【0131】
入力/出力:
概念Cのセット(場合により、“を有する(comprised of)”関係を有する)
シノニム(同義語)のリスト:Synonym(c
i,c
j)
定義2(意味類似性):c
1={c
11,c
12,…,c
1n}はn個の概念c
11からc
1nからなる概念であるとする。同様に、c
2={c
21,c
22,…,c
2m}はm個の概念c
21からc
2mからなる概念であるとする。類似性関数SであるS(c
1,c
2)は2つの概念間の意味類似性を記述する。関数の一例は:
【0133】
定義3(概念の交わり):c
1={c
11,c
12,…,c
1n}はn個の概念c
11からc
1nからなる概念であるとする。同様に、c
2={c
21,c
22,…,c
2m}はm個の概念c
21からc
2mからなる概念であるとする。
【0134】
【数2】
ルール3(シノニム概念合成):c
1={c
11,c
12,…,c
1n}及びc
2={c
21,c
22,…,c
2m}は定義2に従った2つのシノニム概念であるとする。T
synonymは“synonym”:
【0135】
【数3】
の宣言を保証する意味類似性の閾値であるとして、S(c
1,c
2)>T
synonymであるとき且つそのときに限り、概念c
3=c
1∩c
2と階層関係r(c
1,c
3)及びr(c
2,c
3)とが存在する。
【0136】
シノニムリングの一例は以下の通りである:
ペット:家庭動物:家庭用獣類:猫
ルール3に従った解析は、4つ全ての概念が“飼い動物”の子である階層関係を取得し得る。ルール1に従った解析は:
家、家庭、家庭用、動物、獣類、哺乳類
という新たな概念を取得し得る。
【0137】
ルール2に従った解析は、“家庭”及び“家庭用”が“家”の子であり、且つ“ペット”、“哺乳類”、“獣類”及び“猫”が“動物”の子である階層を見出し得る。これらの階層関係は、より単純な概念が抽出された複合概念同士の間の関係に基づいて作成され得る。従って、ルール3の適用を介して:
猫:ペット:哺乳類:獣類
家庭:家庭用
という新たなシノニムリングが合成され得る。
【0138】
シソーラスルール
以下の入力/出力及び知識処理ルールは、上述のKRの機能と連合関係(関連語)とを含むシソーラスの機能を提供する。
【0139】
入力/出力:
概念Cのセット(場合により、“comprised of”関係を有する)
連合関係のリスト:例えば、Synonym(c
i,c
j)、RelatedTerm(c
i,c
j)
階層関係(非巡回)のセット
R={r(c
i,c
j):c
i,c
j∈C and c
i NT c
j}
ルール1(コヒーレント概念合成)がシソーラスに適用される。
【0140】
ルール2(階層関係合成)がシソーラスに適用される。
【0141】
ルール4(連合関係合成):c
1={c
11,c
12,…,c
1n}及びc
2={c
21,c
22,…,c
2m}は連合関係ARに従った2つの関連概念であるとする。T
ARはこれら2つの概念間の“AR”関係:
【0142】
【数4】
の宣言を保証する意味類似性の閾値であるとして、S(c
1,c
2)>T
ARであるとき且つそのときに限り、概念c
3=c
1∩c
2、c
4={AR}と3つの階層関係r(c
1,c
3)、r(c
2,c
3)及びr(c
4,c
3)とが存在する。
【0143】
なお、T
ARは、意味類似性が要求されず且つc
3を介した連合がその関係を捕捉するのに十分である場合にゼロに設定されてもよい。
【0144】
シソーラスの一例は、{猫,食事}は{魚、餌}に関連するという連合関係を含み得る。ルール1に従った解析は:
猫,食事,魚,餌
という新たな概念を取得し得る。
【0145】
提示される階層関係における適切なパターンを与えられると、ルール4の適用を介して、例えば、“猫”は“魚”に関連し、“食事”は“餌”に関連するという新たな連合関係が合成され得る。先と同様に、連合関係は、より単純な概念が抽出された複合概念同士の間の関係に基づいて作成され得る。
【0146】
ファセット分類ルール
以下の入力/出力及び知識処理ルールは、概念としてのファセット及びファセット属性と、クラス階層に編成される概念のカテゴリーとしてのファセットとを含むファセット分類の機能を提供する。また、以下の例は、相互に排他的なファセット階層(直立/モノ階層、単一継承として制約されるファセット属性)の機能、及び概念セットとして分類されるオブジェクト(又はノード)へのファセット属性の割り当ての機能を付与する。さらに、ファセットはファセット階層内のルートノードとしてトポロジー的に特定される。
【0147】
入力/出力:
ファセット階層(ルートファセットごとの値ノードの階層)
ファセット値に関するラベル付きの用語/概念
定義4(相互に排他的なファセット階層):何れの概念も、各ファセット階層から1つ且つ唯一のノードラベル/値/属性を選ぶことによって分類されることができる。すなわち、何れのファセット階層内のノードを表す概念の意味も重なり合わない。
【0148】
ルール1、2及び4がファセット分類に適用される。
【0149】
ルール5(ファセット属性割り当て):或るファセット階層内の各ノード/値/属性は或る概念cに対応する。C
iが何れかのファセット階層内の唯一の親c
jの子として現れ、且つファセット階層内の任意の2つの概念c
1、c
2についてc
1∩c
2={}であるとき且つそのときに限り、関係r(c
i,c
j)が存在する。
【0150】
ルール6(ラベル付き概念割り当て):ファセット分類内のラベル付きの用語の各々は、或る概念c
i={ci
1,c
i2,…,c
in}に対応する。ただし、c
ijは、ルール5に従ったラベル概念である。
【0151】
入力ファセット分類の一例は以下の通りである:
ファセット:家畜化
− 家畜化された
− 野生
ファセット:種
− 動物
− イヌ科
− 犬
− ネコ科
− 猫
− ライオン
− 霊長類
− チンパンジー
ファセット:生息環境
− 自然
− 山岳
− ジャングル
− 砂漠
− サバンナ
− 海洋
− 人造
− 都市
− 農場
ファセット:地域
− 世界
− アフリカ
− アジア
− ヨーロッパ
− アメリカ
− 北アメリカ
− アメリカ合衆国
− カナダ
− 南アメリカ
ファセット属性/ノード/値の割り当てを有するオブジェクト
“家庭犬”{北アメリカ,家畜化された,犬}
“マウンテンライオン”{アメリカ,野生,猫,山岳}
“シャム猫”{世界,家畜化された,猫}
“家庭犬”{北アメリカ,家畜化された,犬}
“ライオン”{アフリカ,野生,ライオン,サバンナ}。
【0152】
上述の例に示されるように、ルール2及び5に従った解析は、入力ファセット分類を、(例えば、ファセット解析又は統計クラスタリングの手法を用いて)より広い階層に分解するために使用され得る。
【0153】
ファセット:“ペット” /*合成ラベル*/
−“一般ペット” /*クラスター{家畜化された,動物}から取得される*/
−“珍ペット” /*クラスター{野生,動物}から取得される*/。
【0154】
“犬”及び“猫”はともに“動物”である(ファセット階層“動物”から取得される)ので、“家畜化された,犬”、“家畜化された,猫”などのセット内で、明白なコヒーレントで、新たな概念である“家畜化された,動物”が見出され得る。
【0155】
同様に、ファセット属性/ノード/値の割り当てを有する新たなオブジェクトが、ルール1及び6に従って作成され得る。例えば、上述の概念合成のルールを用いて、例えば“ライオンペット”{人造,ライオン,家畜化された}などの新たな概念も合成され得る。これは現実には存在しないかもしれないが、入力KR内で証言される考え得る新たな知識として正当化され、後にデータとの(例えば)ユーザインタラクションを介して評価され得る。
【0156】
オントロジールール
ルール1、2、4、5及び6が適用されて、概念としてのファセット及びファセット属性と、クラス階層に編成される概念のカテゴリーとしてのファセットとを含むオントロジーの機能が提供される。
【0157】
複合関係の例、共生(Cohabitate;COH):
野生猫←COH→ライオン
家庭犬←COH→家庭猫
を考える。
【0158】
COH関係を解析することにより、COH関係は、よりアトミックな関係及び概念へと分解され得る。アトミックな構図:
野生猫,ライオン,家庭犬,家庭猫,共生
は可能性あるものである。
【0159】
上述の知識作成のルールは、例えばc1 Relation c2といった、よりリッチな関係を表現するように、複合的に適用可能であり得る。ただし、Relationは一般的な連合関係である。連合関係(双方向)である複合関係の場合、その関係内で対にされている概念間の意味の交わり特性が利用され得る。階層的(単方向)である複合関係の場合、その関係内で対にされている概念間の意味の包摂特性が利用され得る。合成された複合関係に関して得られるラベルは、例えば“C1及びC2は共通にC3を有するので関連する”といった従来の提示に適合し得る。
【0160】
ルール1(コヒーレント概念合成)及びルール4(連合関係合成)を適用することによって、よりアトミックな概念:
野生,猫,犬,家庭,共生,野生共生,家庭共生,“野生共生”は共生である,“家庭共生”は共生である
がもたらされ得る。
【0161】
合成は、コヒーレントが見出される場合、概念及び関係:
“野生犬”は{野生,犬,野生共生}を有する
を構築し得る。
【0162】
故に、より高次な関係:
野生犬←COH→ライオン
野生犬←COH→野生猫
が推論され得る。
【0163】
ここで、“野生犬”、及び“ライオン”は“野生猫”であるなる関係はどちらも、新たに合成された構図である。
【0164】
フリーテキスト(自然言語)の例
以下は、例えば自然言語処理、エンティティ抽出及び統計クラスタリングなどの手法を用いて構造化セマンティック表現へと変換され得る自然言語テキストの一例である。変換後、そのデータを処理するために、上述の例示的なルールが適用され得る。
【0165】
他のネコ科動物から区別するために飼い猫又は家庭猫としても知られる猫(ヤマネコ)は、その交友性と害獣及び家庭害虫を狩猟するその能力とに関して人間に高く評価されている小型の肉食哺乳類である。猫は、少なくとも9500年にわたって人間と付き合っており、現在、世界で最も人気のあるペットである。人間との親密な付き合いにより、居間や猫は地球上のほぼどこでも見受けられる。
【0166】
この自然言語テキストから、
図9に示す構造化された知識表現が取得され得る。この知識表現は、次のように、例示の各知識表現種類の下で上述のルールを用いて処理され得る:
タクソノミ:C1 is−a C5(階層)
シノニムリング:C1:C2:C3
シソーラス:C1はC4と付き合っている
オントロジー:C1はC6を狩猟し、C1はC7上で見受けられる。
【0167】
この例に合成を適用すると、更なる構造化データが取得され得る。例えば、ルール1(コヒーレント概念合成)を適用すると、更なる概念:
C8:家庭
C9:家
が取得され得る。
【0168】
そして、例えばルール3(シノニム概念合成)の適用により、新たな関係:
C8::C9(“家庭”は“家”の同義語である)
が合成され得る。
【0169】
意味論的相互運用性の例
以下の例は、1つのKRでの入力が出力として異なるKRに変換される意味論的相互運用性を示すものである。以下に記載の例示の処理は、例えば、意味論的相互運用性の処理に関して上述した擬似コードの一般的なデータフローに従って実行され得る。
【0170】
入力(入力KRはシソーラスであり、::は“の同義語”を表し、|−は、より狭いことを表す)
フィンチ::スズメ::アメリカゴガラ
鳥::キツツキ::フィンチ
キツツキ
|− ズアカキツツキ
|− セグロキツツキ
スズメ
|− ゴールデンクラウンドスパロウ
色
|− 赤
|− 黒
|− 金
生体構造
|− 背部
|− 頭部
|− 頭頂部
上述の入力KRから解析され得る要素的データ構造を
図10に例示する。
図10において、実線の矢印は“is−a”関係を表し、破線の矢印は“comprised−of”関係を表す。
【0171】
出力(出力KRは概念“ズアカキツツキ”のファセット階層である)
ファセット
ファセット1:鳥の種類
− キツツキ
− フィンチ
− アメリカゴガラ
− スズメ
ファセット2:彩色
− 赤
− 黒
− 金
ファセット3:命名生体構造
− 頭部
− とさか
− 背部
ラベル付け
“ズアカキツツキ”は{鳥の種類:キツツキ,彩色:赤,命名生体構造:頭部}である。
【0172】
なお、上述の例において、AKRM表現内のアトミックセマンティックは、各KRにまたがる意味の交わり(意味論的相互運用性)を探索するために使用され得る。例えば、アトミック概念“とさか”及び“頭部”は、先に解体された概念である“スズメ”及び“キツツキ”にまたがる意味の接続を提供し得る。
【0173】
III. 確率的解析処理
例えば要素的データ構造などの知識表現(KR)のユーザは、該KR内の概念及び/又は関係についての情報(例えば、該KR内の1つの概念の該KR内の他の1つの概念に対する関連性、又は当該ユーザが興味を示している概念に対する該KR内の概念の関連性)を突き止めることを望むことがある。例えば、或る個人が国際サッカーの歴史における得点王に関する情報に興味があることがある。その個人は、サッカーに関する情報を収容しているKRシステムに、例えば“これまでの得点王”などのクエリを投稿し得る。そのクエリに基づき、KRシステムは、そのクエリに関連するKRにおけるアクティブ概念を特定あるいは生成し得る。そして、KRシステムは、アクティブ概念に関連するKR内の更なる概念を特定し得る。アクティブ概念に関連する概念の数は非常に大きくなり得るので、KRシステムは、より関連する概念をあまり関連しない概念から区別し、或る一定数の、より関連する概念に関する情報をユーザに返そうと努め得る。
【0174】
一部の実施形態において、例えば
図18の例示的なKRシステム1800などのKRシステムは、KRをグラフ(又はネットワーク)としてモデル化し、そのグラフに関連付けられる様々なパラメータを用いて1つの概念の他の概念に対する関連性を評価し得る。一部の実施形態において、グラフのノードはKRの概念に対応し、グラフの辺(エッジ)は概念間の関係に対応し得る。一部の実施形態において、グラフは有向とし得る。とはいえ、一部の実施形態において、辺の一部又は全てが無向であってもよい。一部の実施形態において、システム1800は、第1の概念の第2の概念に対する関連性を、第1の概念から第2の概念までの最短の経路長、平均経路長、又は経路の数として評価し得る。一部の実施形態において、システム1800は、第1の概念の第2の概念に対する関連性を、最短経路長、平均経路長、及び/又は経路の数の関数として評価し得る。とはいえ、システム1800の実施形態はこの点で限定されるものではない。システム1800は、第1の概念の第2の概念に対する関連性を、如何なるフローアルゴリズム、ルーティング(経路選択)アルゴリズム、又はグラフ内の2つのノード間の関係を評価するのに好適な当該分野で知られるようなその他の適切なグラフアルゴリズムを用いて評価してもよい。しかしながら、一部のケースにおいて、上述の関連性評価技術はKR内の概念及び関係に関する不確実さを考慮しないことがあるので、上述の技術は、アクティブ概念に一層関連する概念とアクティブ概念にあまり関連しない概念とを正確に区別できないことがある。一部のケースにおいて、従来のKRシステムは、例えば手動KR構築技術などの従来のKR構築技術がそのような不確実性を特定あるいは定量化しないために、そのような不確実性を考慮することができない。例えば、従来技術は、第2の概念に対する第1の概念の関連例の強さを評価するのではなく、単に第1の概念が第2の概念に関連するか否かを決定するに過ぎないことがある。他の一例として、従来技術は、関係が存在する確率を見積もるのではなく、単に2つの概念が関連し合うかを決定するに過ぎないことがある。
【0175】
図19Aは、本発明の一部の実施形態に従った、複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態で使用され得る例示的なシステム1900を示している。一部の実施形態において、統計エンジン1902が、要素的データ構造1906内の要素概念及び/又は要素概念関係に関する確率を推定し得る。一部の実施形態において、統計エンジン1902は、要素的データ構造1906を統計的なグラフとしてモデル化し、この統計的な図形的モデルのノード及び辺がそれぞれ要素的データ構造1906の要素概念及び要素概念関係に対応するようにしてもよい。一部の実施形態において、要素的データ構造1906の要素コンポーネントに関する確率は、統計的な図形モデルの、対応する図形コンポーネント(すなわち、ノード又は辺)に割り当てられ得る。一部の実施形態において、統計エンジン1902は、要素的データ構造1906の第1の要素概念の要素的データ構造1906の第2の要素概念に対する関連性を推定するために、且つ/或いは、データ消費者195、コンテキスト情報180又はアクティブ概念に対する要素的データ構造1906の要素概念の関連性を推定するために、この図形モデルに統計的推論技術を適用してもよい。一部の実施形態において、例示のシステム1900は、これらの推定結果を用いて、データ消費者195、コンテキスト情報180又はアクティブ概念に一層関連する概念を、それらにあまり関連しない概念から区別し得る。
【0176】
一部の実施形態において、要素コンポーネントに関する確率は、その要素コンポーネントの関連性の見積もりを表し得る。一部の実施形態において、第1の要素概念と第2の要素概念との間の要素概念関係に関する確率は、第2の要素概念に対する第1の要素概念の関連性、及び/又は第1の要素概念に対する第2の要素概念の関連性、の見積もりを表し得る。一部の実施形態において、要素概念に関する確率は、データ消費者195、そのデータ消費者195に関連するコンテキスト情報180、及び/又はコンテキスト情報180から抽出されたアクティブ概念に対する該要素概念の関連性の見積もりを表し得る。一部の実施形態において、概念に関する確率は、該概念のラベルが参照データ1904内で出現する頻度を表し得る。一部の実施形態において、概念に関する確率は、データ消費者195によって割り当てられるか、あるいは参照データ1904に基づいて統計エンジン1902によって決定されるかし得る該概念の重要度を表し得る。
【0177】
一部の実施形態において、統計エンジン1902は、第1の要素概念と第2の要素概念との間の要素概念関係の関連性を、第1の要素概念に関連付けられるラベル、及び/又は第2の要素概念に関連付けられるラベルの、参照データ1904内での発生頻度を計算することによって推定し得る。一部の実施形態において、計算される頻度は、用語頻度、用語−文献頻度、又は逆文献頻度とし得る。例えば、統計エンジン1902は、第1の概念と第2の概念との間の関係に関する確率を、それぞれ第1及び第2の概念に関連付けられる第1及び第2のラベルを含んでいる参照データ1904内の文書の割合を計算することによって見積もり得る。用語頻度、用語−文書頻度、及び逆文献頻度を計算する方法については附録にて後述する。一部の実施形態において、概念に関連付けられる記号又はラベルの外部データ1904内での発生頻度を決定するために、検索エンジンが使用され得る。一部の実施形態において、概念の用語−文書頻度は、その概念のラベルに関する検索エンジンヒット数に一致し得る。それに加えて、あるいは代えて、統計エンジン1902の実施形態は、当該分野で知られた技術又はその他の好適技術を用いて要素概念関係の関連性を推定してもよい。
【0178】
一部の実施形態において、統計エンジン1902は、データ消費者195又はコンテキスト情報180に対する概念の関連性を、該概念に関連付けられるラベル及び/又はアクティブ概念に関連付けられるラベルの、参照データ1904内での発生頻度を計算することによって推定し得る。一部の実施形態において、アクティブ概念は、データ消費者195によって、コンテキスト情報180の部分として提供され得る。一部の実施形態において、アクティブ概念は、当該分野で知られた技術又はその他の好適技術を用いて、コンテキスト情報180から抽出されてもよい。例えば、アクティブ概念は、2011年12月30日に出願された米国特許出願第13/162069号に開示されている技術を用いて抽出され得る。なお、この文献の全体をここに援用する。一部の実施形態において、アクティブ概念は、データ消費者195に関連付けられるデータ消費者モデルから抽出されてもよい。
【0179】
一部の実施形態において、統計エンジン1902は、概念がデータ消費者195に関係するか(例えば、推定関連度が1)無関係であるか(例えば、推定関連度が0)の何れであるかを推定し得る。一部の実施形態において、概念をデータ消費者195に関係する、あるいは無関係であるとして扱うことは、特定ユーザ向けのユーザ特定要素的データ構造の構築を容易化し得る。それは、例示のシステム1900が、データ消費者が殆ど或いは全く関心のない概念を特定し、それらの概念をユーザ特定要素的データ構造から除去することが可能になることによる。
【0180】
例示のシステム1900の一部の実施形態において、統計エンジン1902は、統計的推論技術を適用して、要素的データ構造1906に関連付けられる統計的な図形モデル内の2つ以上のノードの同時(ジョイント)確率分布を計算し得る。一部の実施形態において、統計的推論技術は、概念間の関係についての推測的仮定を考慮に入れてもよい。例えば、特定の概念が関係し合わないことが知られていたり、あるいは、一部の概念が強く関係し合うことが知られていたりすることがある。一部の実施形態において、例示のシステム1900は、要素的データ構造1906内の概念間の関係についてのクエリに回答するために、あるいはコンテキスト情報180に関連する出力KR190を合成するために、統計的な図形モデルの2つ以上のノードの同時確率分布を使用し得る。一部の実施形態において、統計エンジン1902は、統計的な図形モデルに関する適切な周辺事後確率を計算することによって、2つの概念が関係し合う程度、意味論的にコヒーレントである程度、又は互いに関連する程度を見積もり得る。統計エンジン1902によって適用される統計的推論技術は、当該分野で知られた技術又はその他の好適技術とし得る。
【0181】
例示のシステム1900の一部の実施形態において、参照データ1904は、例えば文書及び非構造化テキストなどの知識表現と、例えば画像及び音声などの非テキストデータ源とを含んでいてもよい。一部の実施形態において、参照データ1904内の文書は、フレーズ、文(センテンス)、複数の文、段落、及び/又は複数の段落を有し得る。参照データ1904は、1つ又は複数の、そのような知識表現のコーパスを含んでいてもよい。一部の実施形態において、参照データ1904は、解析ユニット150によって分解される入力KR160とは異なる。
【0182】
図19Aは、要素的データ構造1906に関連付けられるデータを格納するコンピュータ読み取り可能データ構造が、要素的データ構造1906に関連付けられる統計的な図形モデルに関するデータをも格納し得る例示的なシステム1900を示している。例えば、要素的データ構造1906は、要素概念及び要素概念関係がそれぞれノードデータ構造及びエッジ(辺)データ構造として符号化されたグラフとして表現され得る。一部の実施形態において、要素的データ構造1906に関連付けられるノード及びエッジのデータ構造はまた、統計的な図形モデルとも関連付けられ得る。一部の実施形態において、要素的データ構造1906の要素コンポーネントに関する関連性も、ノード又はエッジのデータ構造に格納され得る。換言すれば、一部の実施形態において、統計的な図形モデルの符号化は、単純に、要素的データ構造1906又はその一部の符号化であってもよい。
【0183】
対照的に、
図19Bは、統計的な図形モデル1908の少なくとも一部が要素的データ構造120の符号化とは別に符号化される例示的なシステム1900を示している。一部の実施形態において、要素的データ構造120は、概念及び関係がそれぞれノード及びエッジのデータ構造として符号化されたグラフとして表現され得る。とはいえ、一部の実施形態において、要素的データ構造120は、概念及び関係がテーブル(表)のエントリとして符号化されたテーブルとして表現されてもよい。例示のシステム1900の実施形態はこの点で限定されるものではない。一部の実施形態において、要素的データ構造120の要素コンポーネントに関する関連性が、統計的な図形モデル1908に関連付けられる別個のデータ構造における確率として符号化されてもよい。
【0184】
一部の実施形態において、統計的図形モデル1908は、要素的データ構造120の概念及び関係に対応するノード及びエッジを有する。一部の実施形態において、統計的図形モデル1908は更に、要素的データ構造120の概念及び関係に対応しないノード及び/又はエッジを有していてもよい。従って、一部の実施形態において、統計的図形モデル1908は、グラフデータ構造として符号化され得る。グラフデータ構造は、統計的図形モデル1908のノード及びエッジに関するデータを有し得る。一部の実施形態において、符号化されたデータは、要素的データ構造120の概念及び関係に対応するデータを含み得る。一部の実施形態において、符号化されたデータは更に、その他の概念及び/又は関係に対応するデータを有し得る。一部の実施形態において、符号化されたデータは、統計的図形モデル1908のノード及びエッジに関連付けられる関連性の値に対応する確率を含んでいてもよい。
【0185】
一部の実施形態において、統計エンジン1902は、統計的図形モデル1908に関連付けられる確率に基づいて要素的データ構造120を変更し得る。例えば、統計的図形モデル1908が要素的データ構造120の2つの概念に対応する2つのノード間のエッジを含み、且つ該エッジに割り当てられた確率が第1の関係閾値を上回る場合、統計エンジン1902は、該エッジに対応する関係を要素的データ構造120に追加し、且つ該エッジの確率に対応する関連性を該関係に割り当ててもよい。同様に、統計的図形モデル1908が或るエッジを含み、且つ該エッジに割り当てられた確率が第2の関係閾値より低い場合、統計エンジン1902は、該エッジに対応する関係を要素的データ構造120から除去してもよい。
【0186】
一部の実施形態において、統計的図形モデル1908の或るノードに関連付けられる確率が第1の概念閾値を上回る場合、統計エンジン1902は、該ノードに対応する概念を要素的データ構造120に追加し、且つ該ノードの確率に対応する関連性を該概念に割り当ててもよい。同様に、統計的図形モデル1908が或るノードを含み、且つ該ノードに割り当てられた確率が第2の概念閾値より低い場合、統計エンジン1902は、該ノードに対応する概念を要素的データ構造120から除去してもよい。
【0187】
図12は、従来のKR構築技術に従って構築され且つグラフとして表現されたKRの一例を通じて、従来のKRの限界を例示している。
図12のグラフは、例えば“家”、“消防車”及び“警報”などの概念を表す一組の頂点と、例えば概念“消防車”と“トラック”との間の包摂関係などの、概念間の関係を表す一組の辺(エッジ)とを有している。
図12のグラフはKR内の概念及び関係に関する不確実性を説明しないので、このグラフのユーザは、例えば概念“電話”又は概念“警報”が概念“家”に大きく関連しているかを決定することに困難を有し得る。
【0188】
図14は、KRに関連付けられる例示的な統計的図形モデルを示している。このモデルのノードは、
図12のグラフに示された概念に対応している。図示されたモデルは有向グラフであり、双方向のエッジが各端部に矢印を有する直線を用いて示されている。各ノード及び各エッジに確率が関連付けられている。概念“消防車”の概念“警報”に対する関連性を決定するため、統計エンジン1902は
図14の図形モデルに統計的推論技術を適用し得る。好適な統計的推論技術については附録にて説明する。
【0189】
一部の実施形態において、例示のシステム1900の統計的図形モデルは、要素的データ構造に関連付けられるセマンティックネットワークを有し得る。セマンティックネットワークのノード及びエッジは要素的データ構造の概念及び関係に対応する。一部の実施形態において、統計エンジン1902は、セマンティックネットワークを用いて、要素的データ構造に関するセマンティックコヒーレンスを検査し得る。一部の実施形態において、要素的データ構造のセマンティックコヒーレンスを検査することは、要素的データ構造内の2つ以上の概念のセマンティックコヒーレンスを計算することを有し得る。一部の実施形態において、要素的データ構造内の2つ以上の概念のセマンティックコヒーレンスを計算することは、統計的図形モデルのノードに付随する確率を用いて、該2つ以上の概念に対応するノードに関する同時確率を計算することを有し得る。
【0190】
図36は、要素的データ構造の構成要素に関する不確実性を説明するように要素的データ構造を変更する例示的な方法を示している。例示の方法のステップ3602にて、要素コンポーネントに関する関連性が推定され得る。ステップ3602において、要素コンポーネントに関する関連性を推定することは、該要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を評価することを有する。
【0191】
一部の実施形態において、ステップ3602で推定される関連性は、第1の要素概念の第2の要素概念に対する関連性とし得る。一部の実施形態において、第1及び第2の要素概念が要素的データ構造に含まれている場合、その関連性はこれら2つの概念間の関係に関連付けられ得る。一部の実施形態において、第1の要素概念は要素的データ構造に含まれているが、第2の要素概念は含まれていない場合、その関連性は第1の要素概念に関連付けられ得る。一部の実施形態において、関連性は、要素的データ構造の第1の要素概念の、データ消費者、コンテキスト情報、データ消費者モデル又はアクティブ概念に対する関連性であってもよい。
【0192】
一部の実施形態において、要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度は、用語頻度、用語−文献頻度、及び/又は逆文献頻度とし得る。一部の実施形態において、要素コンポーネントに関連付けられるラベルの発生頻度を評価することは、検索エンジンを用いて、そのラベルを含む文書を特定することを有し得る。
【0193】
例示の方法のステップ3604にて、計算された関連性を、該要素コンポーネントに関するデータ内に格納するように、要素的データ構造が変更され得る。とはいえ、一部の実施形態において、関連性に対応する確率は、要素的データ構造に対応する統計的図形モデルのノードに関するデータ内に格納されてもよい。
【0194】
図37は、要素的データ構造の構成要素に関する確率を格納するように、要素的データ構造に関連付けられる図形モデルを変更する例示的な方法を示している。例示の方法のステップ3702にて、要素的データ構造に関連付けられる図形モデルが取得され得る。一部の実施形態において、図形モデルは、それぞれ要素的データ構造の概念及び関係に対応するノード及びエッジを用いて作成され得る。一部の実施形態において、ノードに関するデータは、対応する概念のセマンティックコヒーレンスに対応する確率を含み得る。一部の実施形態において、エッジに関するデータは、対応する関係のセマンティックコヒーレンスに対応する確率を含み得る。
【0195】
例示の方法のステップ3704にて、要素コンポーネントのセマンティックコヒーレンスが評価され得る。一部の実施形態において、この要素コンポーネントは要素的データ構造に含まれたものとし得る。とはいえ、一部の実施形態において、この要素コンポーネントは要素的データ構造の一部でなくてもよい。一部の実施形態において、要素コンポーネントのセマンティックコヒーレンスは、該要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を計算することによって評価され得る。一部の実施形態において、計算される頻度は、用語頻度、用語−文献頻度、及び/又は逆文献頻度とし得る。一部の実施形態において、2つ以上の要素コンポーネントに対応する図形コンポーネント(ノード及び/又はエッジ)の同時確率を計算することによって、2つ以上の要素コンポーネントのセマンティックコヒーレンスが評価されてもよい。
【0196】
例示の方法のステップ3706にて、該要素コンポーネントのセマンティックコヒーレンスに対応する確率を図形モデルの図形コンポーネントに割り当てることによって、図形モデルが変更され得る。一部の実施形態において、この図形コンポーネントは、要素的データ構造内の何れの要素コンポーネントにも対応しないものであってもよい。一部の実施形態において、そのような図形コンポーネントは、候補の概念又は関係のセマンティックコヒーレンスを決定するために使用され得る。候補概念のセマンティックコヒーレンスが第1セマンティックコヒーレンス閾値を上回る場合、該候補概念が要素的データ構造に追加されてもよい。候補関係のセマンティックコヒーレンスが第2セマンティックコヒーレンス閾値を上回る場合、該候補関係が要素的データ構造に追加されてもよい。同様に、或る要素的データ構造の或るコンポーネントに関するセマンティックコヒーレンスがセマンティックコヒーレンス閾値より低い場合、該コンポーネントが該要素的データ構造から除去されてもよい。
【0197】
上述の技術は、多様な手法のうちの何れで実装されてもよい。一部の実施形態において、上述の技術はソフトウェアにて実装され得る。例えば、少なくとも1つのプロセッサと少なくとも1つの有形メモリとを有するコンピュータ又はその他の装置が、上述の技術を実行するソフトウェア命令を格納・実行し得る。これに関連し、少なくとも1つのプロセッサによって実行されるときに上述の技術を実行させるコンピュータ実行可能命令が、少なくとも1つの持続的な有形コンピュータ読み取り可能媒体に格納され得る。
【0198】
IV. ユーザモデルの解析処理
図20は、本発明の一部の実施形態に従った、複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態で使用され得る例示的なシステム2000を示している。一部の実施形態において、例示のシステム2000は、フィードバックエンジン2002を介した複合的適応フィードバックループを実装し得る。一部の実施形態において、フィードバックループは、AKRMデータセット110内の1つ以上の要素的データ構造の維持管理及び品質向上を支援し得る。一部の実施形態において、フィードバックループは、曖昧性除去(すなわち、AKRMの曖昧性の検出及び解消)、クラウドソーシング(すなわち、母集団に関するデータを解析し、母集団の閾値部分に関する新たな概念及び/又は関係を含むようにAKRMを変更すること)、及び/又はテイラリング(すなわち、ユーザ特定データを解析し、異なるユーザに異なる要素的データ構造を維持管理すること)を支援し得る。
【0199】
例示のシステム2000において、解析部1802がフィードバックエンジン2002を含み得る。フィードバックエンジン2002は、入力として、データ消費者モデル2004を受信し得る。フィードバックエンジン2002は、出力として、選択されたデータ消費者モデル2004又はその一部を提供し得る。解析エンジン150が、入力として、フィードバックエンジン2002によって提供される上記選択されたデータ消費者モデル2004又はその一部を受信し得る。
【0200】
一部の実施形態において、データ消費者モデル2004に関するデータは、
図3のデータスキーマ350又はその他の好適データ構造を用いて符号化され得る。データ消費者モデル2004に対応するデータ構造はコンピュータ読み取り可能媒体に格納され得る。
【0201】
一部の実施形態において、データ消費者モデル2004(又は“ユーザモデル”2004)は、1つ以上の情報源から取得されたデータを有し得る。例えば、ユーザモデル2004は、合成エンジン170によって提供される1つ以上の出力KR190を有し得る。一部の実施形態において、ユーザモデル2004は、出力KR190とのデータ消費者195のインタラクションから得られたデータを有し得る。出力KR190とのデータ消費者195の典型的なインタラクションは、合成エンジン170により提示される複数の出力KRからの、データ消費者195による1つ以上の出力KR190の選択、ハイライト当て若しくは詳述、又は、1つの出力KR190の特定の観点若しくは部分のデータ消費者195による選択、ハイライト当て若しくは詳述を含み得る。とはいえ、ユーザモデル2004は、出力KR190とのデータ消費者195の如何なるインタラクションから得られたデータを有していてもよい。例示のシステム2000の実施形態はこの点で限定されるものではない。後述するように、出力KR190とのデータ消費者195のインタラクションから得られたデータの解析は、解析部1802の実施形態がAKRMの曖昧性を解消することを可能にし得る。
【0202】
一部の実施形態において、ユーザモデル2004は、コンテキスト情報180、又はコンテキスト情報180に関連するデータを有し得る。上述のように、コンテキスト情報180は、テキストのクエリ若しくは要求、1つ以上の検索語、1つ以上のアクティブ概念の識別子などを含み得る。後述するように、コンテキスト情報180に関連するデータの解析は、解析部1802の実施形態がユーザ又はユーザグループに合わせて要素的データ構造を調整(テイラリング)することを可能にし得る。
【0203】
一部の実施形態において、1つのデータ消費者モデル2004が1つのデータ消費者195に対応し得る。一部の実施形態において、或るデータ消費者195に対応するデータ消費者モデル2004は、例示のシステム2000との該データ消費者のセッションの継続時間にわたって存続し得る。データ消費者モデル2004の一部の実施形態は、複数のセッションにまたがって存続してもよい。セッションは、データ消費者が例示のシステム2000にログインあるいは接続するときに開始し、データ消費者が例示のシステム2000からログアウトあるいは切断するときに終了し得る。とはいえ、セッションの範囲は、従来技術又は好適技術を用いて決定され得る。実施形態はこの点で限定されるものではない。
【0204】
一部の実施形態において、ユーザモデル2004を解析部1802にフィードバックすることにより、例示のシステム2000は、解析部1802をして、ユーザモデル2004に含まれるデータに基づいて要素的データ構造120を変更させ得る。このような変更は、要素概念を要素的データ構造に追加すること、要素概念を除去すること、2つ以上の要素概念を単一の要素概念へと帰着させること、1つの要素概念を2つ以上の要素概念へと分割すること、2つの要素概念の間に要素概念関係を追加すること、及び/又は要素概念関係を除去することを含み得る。また、解析部1802がどのレベルまで要素的データ構造を分解するかは、ユーザモデル2004に含まれる概念及び/又は関係に依存し得る。一部の実施形態において、解析部1802がそこまで要素的データ構造120を分解するレベルは、単語内レベル、又は、例えばフレーズやそれより大きい言語片などの単語間レベルとし得る。
【0205】
一態様において、解析部1802は、ユーザモデル2004に含まれるデータに基づき、要素的データ構造120の曖昧性を解消し得る。一部の実施形態において、解析部1802は、コンテキスト情報180に含まれるデータに基づき、要素的データ構造120の曖昧性を解消し得る。例えば、ユーザモデル2004は、データ消費者195が合成部1852に与えたクエリデータ又はアクティブ概念を含んだコンテキスト情報180を含み得る。ユーザモデル2004は更に、そのクエリデータ又はアクティブ概念に応答して合成部1852がデータ消費者195に複数の出力KR190を提供したことを指し示すデータを含むことができる。ユーザモデル2004は更に、データ消費者195が出力KR190のうちの1つを選択したことを指し示すデータを含むことができる。このデータに基づき、解析部1802は、コンテキスト情報180に関連する概念と選択された出力KR190に関連する概念との間の1つ以上の関係を解明し、該1つ以上の関係を要素的データ構造120に追加し得る。このような1つ以上の関係の追加は、要素的データ構造内の曖昧性を解消し、それにより、ユーザ供給コンテキスト情報180に応答して合成部1852によって合成される出力KRの関連性を増大させ得る。
【0206】
第2の態様において、例示のシステム2000は、フィードバックループを用いて、特定のデータ消費者又はデータ消費者グループ195に合わせて要素的データ構造を調整(テイラリング)し得る。一部の実施形態において、解析部1802は、ユーザ特定要素的データ構造を、対応するユーザモデル2004に含まれるデータに基づいて変更することによって、テイラリングを実行し得る。一部の実施形態において、合成部1852は、コンテキスト情報180に関連付けられるデータ消費者195に特に関連する出力KRを合成するために、ユーザ特定要素的データ構造を当てにし得る。
【0207】
例えば、第1のデータ消費者195に対応する第1のユーザモデル2004は、野球に関連するデータを含み得る。第1のユーザモデル2004に基づき、解析部1802は、第1のデータ消費者195に対応する第1のユーザ特定要素的データ構造120を、野球に関連する概念及び関係を含むように変更し得る。第1のデータ消費者195がコンテキスト情報180の一部として概念“バット(bat)”を与えるとき、合成部1852は、(例えば)有翼コウモリ(winged−bats)に関連する出力KRではなく、野球バット(baseball bats)に関連する出力KRを提供し得る。
【0208】
この例を続けるに、第2のデータ消費者195に対応する第2のユーザモデル2004は、自然に関連するデータを含み得る。第2のユーザモデル2004に基づき、解析部1802は、第2のデータ消費者195に対応する第2のユーザ特定要素的データ構造120を、自然に関連する概念及び関係を含むように変更し得る。第2のデータ消費者195がコンテキスト情報180の一部として概念“バット”を与えるとき、合成部1852は、(例えば)野球バットに関連する出力KRではなく、有翼コウモリに関連する出力KRを提供し得る。
【0209】
一部の実施形態において、ユーザ特定要素的データ構造は、特定のデータ消費者又はデータ消費者グループ195に対応する少なくとも1つのユーザモデル2004を用いて構築される要素的データ構造とし得る。一部の実施形態において、ユーザ特定要素的データ構造は、他の要素的データ構造120とは独立に符号化され、あるいは、他の要素的データ構造120への1つ以上の変更として符号化され得る。
【0210】
第3の態様において、解析部1802は要素的データ構造120をクラウドソーシングし得る。クラウドソーシングは、情報を検証し、疑い、あるいは発見するために、母集団(クラウド)に関するデータを当てにすることによって情報を突き止めるプロセスを意味し得る。一部の実施形態において、解析部1802は、ユーザモデル2004上で例えば数学処理又は統計処理などの処理を実行して、母集団における概念又は関係の流行を推定し得る。一部の実施形態において、母集団は全てのデータ消費者を有し得る。一部の実施形態において、母集団は、例えば共通の興味又は属性を有するデータ消費者の集団など、データ消費者のグループを有していてもよい。一部の実施形態において、複数のユーザモデル2004のうち、母集団の統計サンプルを表すサブセットが、合成部1852からフィードバックされ得る。母集団の閾値部分に関連する概念又は関係を特定すると、解析部1802の実施形態は、該概念又は関係を含むように要素的データ構造120を変更し得る。一部の実施形態において、クラウドソーシングされた要素的データ構造は、クラウドに関連する概念及び関係の集合がクラウドの個々のメンバーとは関連しないものであるとしても、そのような概念及び関係の集合を含み得る。
【0211】
一部の実施形態において、解析部1802によって実行される処理は、複数のユーザモデル2004のうち或る概念又は関係を含む部分(数又は割合)を計算することを有し得る。一部の実施形態において、フィードバックエンジン2002によって実行される処理は、母集団メンバーのうち該概念又は関係に関連する部分(数又は割合)を推定することを有し得る。一部の実施形態において、計算あるいは推定された部分が閾値を上回る場合、フィードバックエンジン2002は、該概念又は関係を含んだ知識表現を解析エンジン150に与え得る。この閾値は固定であってもよいし、設定可能であってもよい。
【0212】
例えば、複数のユーザモデルのうちの閾値部分が概念“バット”と概念“野球”との間の第1の関係の兆候を含む場合、フィードバックエンジン2002は、概念“バット”と概念“野球”との間の関係を含んだ知識表現を解析エンジン150に与えることができ、解析エンジンは、知識処理ルール130を適用して、第1の関係を含むように要素的データ構造120を変更し得る。
【0213】
要素的データ構造が既に概念“野球”及び“バット”を含んでいるが、これらの概念間の関係を含んでいない場合、“バット”と“野球”との間の第1の関係を含むように要素的データ構造を変更することは、第1の関係を要素的データ構造に追加することを有し得る。
図26は、このような状況を例示している。
図26において、関係2650が要素的データ構造2600に追加される。関係2650は、要素的データ構造2600内に既に存在していた野球2612及びバット2624という2つ概念に関係するものである。
【0214】
要素的データ構造が概念“野球”を含んでいるが“バット”を含んでいない場合、“バット”と“野球”との間の第1の関係を含むように要素的データ構造を変更することは、概念“バット”と第1の関係とを要素的データ構造に追加することを有し得る。
図27は、このような状況を例示している。
図27において、概念“バット”2724及び関係2750が要素的データ構造2700に追加される。関係2750は、新たな概念“バット”2724と既存の概念“野球”2612とに関係するものである。
【0215】
一部の実施形態において、クラウドソーシングされた知識表現への解析エンジン150による知識処理ルール130の適用は、第1の概念と第2の概念とを融合させる(すなわち、2つの概念を単一の概念へと帰着させる)ことをもたらし得る。第1及び第2の概念は、第1及び第2のラベルに関連付けられ得る。一部の実施形態において、第1及び第2のラベルは相等しいことがある。一部の実施形態において、(融合処理後の)単一の概念に関連する関係は、(融合処理前の)第1及び第2の概念に関連する関係の和集合を有し得る。例えば、要素的データ構造120は、概念“木製”に関係する第1の概念“バット”と、概念“スイング”に関係する第2の概念“バット”とを含み得る。これら第1及び第2の概念は、“木製”及び“スイング”の双方に関係する単一の概念“バット”に融合され得る。
【0216】
図28A及び28Bは、第1の概念“バット”2822と第2の概念“バット”2824とを、融合された概念“バット”2924へと帰着させる一例を示している。
図28Aにおいて、例示的な要素的データ構造2800は、第1の概念“バット”2822と第2の概念“バット”2824とに関係する概念“野球”2612を含んでいる。第1の概念“バット”2822は概念“木製”2832にも関係し、第2の概念“バット”2824は概念“スイング”2834にも関係している。
図28Bは、2つの“バット”概念が融合概念“バット”2924へと帰着された後の例示的な要素的データ構造2800を示している。
図28Bにおいて、融合概念“バット”2924は、概念“野球”2612、“木製”2832、及び“スイング”2834に関係している。
【0217】
このような概念帰着処理は、一部の手法によれば、例えばデータ消費者モデル2004などの、フィードバックエンジン2002によって提供されるデータに応答して行われ得る。
図28A及び28Bの例を続けるに、データ消費者モデル2004は、3つの概念“バット”、“スイング”及び“木製”を含み得る。これらの概念は、例えばデータ消費者モデル2004が概念“木製バット”及び“スイング”を含んでいる状況などにおいて、他の概念の構成要素であり得る。他の例では、これら3つの概念の各々は、データ消費者モデル2004内で独立に共起し得る。データ消費者モデル2004内でのこれら3つの概念の共起は、概念“バット”2822が、それが“スイング”2834に関係するよう、及び概念“バット”2824が、それが“木製”に関係するよう、1つのエンティティ“バット”2924として表現され得ることを示唆し得る。
【0218】
一部の態様によれば、フィードバックエンジン2002は、別々のデータ消費者モデル2004のうちの閾値数が、2つの概念が単一の概念として表現され得ることの兆候を提供するときに、このような概念帰着を開始し得る。更なる他の態様において、概念帰着は、ユーザ特定要素的データ構造内で行われてもよい。例えば、融合された概念は、2つの概念が単一の概念として表現され得ることの兆候を提供したデータ消費者195に関連付けられるユーザ特定要素的データ構造に格納され得る。
【0219】
図24は、フィードバックに基づいて要素的データ構造を変更する例示的な方法を示している。例示の方法のステップ2402にて、1つ以上のデータ消費者モデル(ユーザモデル)が知識表現システムの出力から知識表現システムの入力にフィードバックされる。一部の実施形態において、該ユーザモデルは、この知識表現システムに関連する一人以上のデータ消費者195に対応し得る。一部の実施形態において、ユーザモデルをフィードバックすることは、知識表現システムの解析部1802にユーザモデルを送ることを有し得る。一部の実施形態において、解析部は解析エンジン150及び/又はフィードバックエンジン2002を含み得る。一部の実施形態において、ユーザモデルをフィードバックすることは、ユーザモデルを直接的に解析エンジン150に送ることを有していてもよい。一部の実施形態において、ユーザモデルをフィードバックすることは、ユーザモデルをフィードバックエンジン2002に送ること(すなわち、ユーザモデルをフィードバックエンジン2002に該エンジン2002への入力として供給すること)を有していてもよい。一部の実施形態において、フィードバックエンジン2002は、ユーザモデルの少なくとも一部を解析エンジン150に送ってもよい(すなわち、ユーザモデルを解析エンジン150に該エンジン150への入力として供給してもよい)。一部の実施形態において、ユーザモデルの該一部は、1つのユーザモデルの一部を有していてもよい。
【0220】
例示の方法のステップ2404にて、知識表現システムによってフィードバックされたユーザモデル(又は、ユーザモデルの一部)に知識処理ルールが適用される。一部の実施形態において、適用されるルールは知識処理ルール130とし得る。一部の実施形態において、入力KR160に適用されるのと同じ知識処理ルールがユーザモデルに適用され得る。一部の実施形態において、入力KRに適用されない知識処理ルールがユーザモデルに適用されてもよい。知識処理ルールをユーザモデルに適用することにより、解析部1802はユーザモデルを要素コンポーネントへと分解し得る。一部の実施形態において、要素コンポーネントは要素概念及び/又は要素概念関係を有し得る。
【0221】
例示の方法のステップ2406にて、解析エンジン150によって提供された要素コンポーネントの表現を含むように、要素的データ構造120が変更され得る。このような変更は、要素概念を要素的データ構造に追加すること、要素概念を除去すること、2つ以上の要素概念を単一の要素概念へと帰着させること、1つの要素概念を2つ以上の要素概念へと分割すること、2つの要素概念の間に要素概念関係を追加すること、及び/又は要素概念関係を除去することを含み得る。
【0222】
図25は、要素的データ構造をクラウドソーシングする例示的な方法を示している。ステップ2402、2404及び2406については、上述のステップ2402、2404及び2406の実施形態の説明を参照し得る。例示の方法のステップ2512にて、解析部1802は、母集団のどれだけの部分が、ステップ2404で提供された要素コンポーネントに関連するかを評価し得る。一部の実施形態において、母集団は複数のデータ消費者195とすることができ、合成部1852からフィードバックされるユーザモデル2004は、複数のデータ消費者に関するユーザモデル2004の統計サンプルを有し得る。一部の実施形態において、母集団は、或る属性又は興味を共有するデータ消費者195のグループとすることができ、合成部1852からフィードバックされるユーザモデル2004は、そのようなユーザ消費者195のグループに関するユーザモデル2004の統計サンプルを有し得る。
【0223】
例示の方法のステップ2514にて、解析部1802は、評価した上記要素コンポーネントに関連する母集団の部分が、クラウドソーシング閾値を超えているかを決定し得る。一部の実施形態において、該部分は、複数のデータ消費者195のうちの割合として表され得る。一部の実施形態において、該部分は、データ消費者195の量として表されてもよい。
【0224】
図25の例示の方法のステップ2406において、上記要素コンポーネントに関連する母集団の部分がクラウドソーシング閾値を超えているので、上記要素コンポーネントに関連するデータを含むように要素的データ構造120が変更される。例示の方法のステップ2516においては、上記要素コンポーネントに関連する母集団の部分がクラウドソーシング閾値を超えていないので、上記要素コンポーネントに関連するデータを含むように要素的データ構造120が変更されることは行われない。
【0225】
図29は、要素的データ構造をテイラリングする例示的な方法を示している。例示の方法のステップ2902にて、知識表現システムの出力から知識表現システムの入力にデータ消費者モデルがフィードバックされる。一部の実施形態において、このデータ消費者モデルは一人のデータ消費者に関連する。例示の方法のステップ2904にて、知識処理ルールが適用されて、データ消費者モデルが要素コンポーネントへと分解される。
【0226】
例示の方法のステップ2906にて、該データ消費者に関連する要素的データ構造が選択される。一部の実施形態において、AKRMデータセット110は複数の要素的データ構造を有し得る。一部の実施形態において、一部の要素的データ構造は全てのデータ消費者に関連し得る。一部の実施形態において、一部の要素的データ構造はデータ消費者のグループに関連し得る。一部の実施形態において、一部の要素的データ構造は個々のデータ消費者に関連し得る。要素的データ構造とデータ消費者との間の関連性は、当該分野で知られた技術又はその他の好適技術を用いて追跡され得る。同様に、或るデータ消費者に関連する要素的データ構造の選択は、当該分野で知られた技術又はその他の好適技術を用いて実行され得る。実施形態はこの点で限定されるものではない。
【0227】
例示の方法のステップ2908にて、選択された要素的データ構造が、ステップ2904で提供された要素コンポーネントに関連するデータを含むように変更され得る。
【0228】
V. 推論的解析処理
手動作成される知識表現(KR)において、一部の概念及び関係は省略されたり、少なく示されたりすることがある。例えば、生物学に関する手動作成KRは、生物学は科学の一分野であっても、概念“生物学”と概念“科学”との間の関係を明示的に指し示さないことがある。このような関係が省かれ得るのは、例えば、KRを手動作成する個人が、このような関係は自明であると見なすことがあるためである。特定の概念又は関係を省略したり過少表示したりする手動作成KRの自動分解は、関連する省略又は過少表示を有するアトミック知識表現モデル(AKRM)を生み出し得る。
【0229】
自然言語コミュニケーションは、概念又は関係に関連するデータを暗示的に(言外で)伝えることがある。コミュニケーションの言外意味に関連する概念及び関係は、推論的解析技術によって検出可能になることがある。自然言語コミュニケーションに対して、要素概念及び要素概念関係を解明するために、推論的解析技術が適用され得る。一部の実施形態において、推論的解析技術によって解明される要素的な概念及び関係は、知識表現を分解する技術によって解明される要素的な概念及び関係を増補あるいは補完し得る。とはいえ、実施形態はこの点で限定されるものではない。
【0230】
図21は、本発明の一部の実施形態に従った、複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態で使用され得る例示的なシステム2100を示している。一部の実施形態において、例示のシステム2100は、推論エンジン2102により、推論的解析技術を実装し得る。一部の実施形態において、推論エンジン2102は、1つ以上のプロセッサによって実行されるソフトウェアとして、ハードウェアとして、あるいはソフトウェアとハードウェアとの組み合わせとして実装され得る。一部の実施形態において、推論エンジン2102は、概念及び関係を解明するために、且つ/或いは概念及び関係に関する確率を推定するために、参照データ1904及び/又は要素的データ構造120に推論ルール(又は、“言外意味のルール”)を適用し得る。
【0231】
一部の実施形態において、参照データ1904は自然言語文書を有し得る。自然言語文書は、テキストベースの文書、音声(オーディオ)記録、又は視聴覚(オーディオビジュアル)記録を含み得る。一部の実施形態において、自然言語文書は、基準となる1つ以上のコーパス内で収集され得る。一部の実施形態において、自然言語文書は、文及び/又は段落に編成される単語を含み得る。一部の実施形態において、自然言語文書は1つ以上のコンピュータ読み取り可能媒体上のデータとして符号化され得る。
【0232】
一部の実施形態において、推論エンジン2102は、参照データ1904に言語学的推論ルールを適用することによって要素コンポーネントを特定し得る。一部の実施形態において、言語学的推論ルールは言語パターンと抽出ルールとを有し得る。一部の実施形態において、参照データ1904に言語学的推論ルールを適用することは、言語パターンに合致する言葉に関して参照データ1904を検索することと、そのような言葉の検出を受け、抽出ルールを適用して、検出された言葉から要素コンポーネントを抽出することとを有し得る。
【0233】
一部の実施形態において、言語パターンは、1つ以上の言語要素と該言語要素に関連する1つ以上の制約との記述を有し得る。言語要素は、単語、フレーズ、又はその他の言語学的単位とし得る。言語パターン内の要素は、完全あるいは部分的に制約され得る。例えば、要素の品詞などの要素の1つ以上の属性(例えば、要素の品詞など)は指定されるが、要素のその他の属性(例えば、要素のスペルなど)は指定されないことがある。他の一例として、言語パターンは、指定の順序で現れるように1つ以上の要素を制約したり、単に同じ文章内で現れるように1つ以上の要素を制約したりすることがある。言語パターンは、当該分野で知られた技術又はその他の好適技術を用いて表現され得る。当業者が認識するように、検索のパターン、テンプレート又は文字列を表現するためにASCII文字を使用する技術が、言語パターンを表現するために使用されてもよい。とはいえ、実施形態はこの点で限定されるものではない。
【0234】
単純な例示として、以下のテキストは言語パターンを表現し得る:シーケンス(要素1.名詞,要素2.単語(“is a”),要素3.名詞)。この例示パターンは3つの要素を含んでいる。第1の要素である要素1は名詞であるように制約されている。第2の要素である要素2は“is a”という単語を含むように制約されている。第3の要素である要素3は、名詞であるように制約されている。この例示パターンは、これらの要素が特定のシーケンス(順序)で検出されなければならないという制約を課している。故に、“生物学 is a 科学)”という文の断片を含んだ参照データ1904の部分は、名詞“生物学”、単語“is a”及び名詞“科学”を順に含んでいるので、この例示パターンに合致することになる。
【0235】
第2の例示として、以下のテキストは言語パターンを表現し得る:センテンス(要素1.名詞,要素2.名詞)。この例示パターンは2つの要素を含んでいる。第1の要素である要素1は名詞であるように制約されている。第2の要素である要素2も、名詞であるように制約されている。この例示パターンは更に、これらの要素が同じセンテンス(文)内で検出されなければならないという制約を課している。故に、名詞“生物学”及び“科学”を有する文を含んだ参照データ1904の部分は、この例示パターンに合致することになる。
【0236】
一部の実施形態において、抽出ルールは、言語パターンに合致する参照データの部分に基づいて要素コンポーネントを構築するための命令を有し得る。一部の実施形態において、抽出ルールは、要素概念、要素概念関係、又は要素概念と関係、を有する要素コンポーネントの構築を規定し得る。一部の実施形態において、抽出ルールは、例えば要素概念のラベル又は要素概念関係の種類などの、要素コンポーネントの属性を設定するための命令を有し得る。抽出ルールは、当該分野で知られた技術又はその他の好適技術を用いて表現され得る。
【0237】
例えば、上述の第1の例示的な言語パターン(シーケンス(要素1.名詞,要素2.単語(“is a”),要素3.名詞))に抽出ルールが関連付けられ得る。関連付けられる抽出ルールは、この言語パターンに合致するテキストの検出時に要素概念関係が構築されるべきであることを指定し得る。この抽出ルールは、関係の種類が包摂であること、すなわち、要素3が要素1を包含することを指定し得る。
【0238】
一部の実施形態において、推論エンジン2102は、要素的データ構造120に要素推論ルールを適用することによって要素コンポーネントを特定し得る。要素推論ルールは、要素的データ構造120に関連するデータから要素コンポーネントを推論するためのルールを有し得る。
【0239】
一部の実施形態において、要素推論ルールは、2つの要素概念間の包摂関係を、それら2つの要素概念に関連する特性概念を比較することによって検出するためのルールを有し得る。一部の実施形態において、概念A
1は概念Aを定義するというように概念AとA
1とが定義関係を有する場合、概念A
1は概念Aの特性概念であるとし得る。一部の実施形態において、要素推論ルールは、概念Aの各特性概念A
iが概念Bの特性概念B
jでもあるか、あるいは概念Bの特性概念B
jを包摂するかする場合に、概念Aは概念Bを包摂すると指定し得る。
【0240】
例えば、
図30は、概念A(3002)及び概念B(3010)を示している。
図30が示すように、概念Aは2つの特性概念A
1(3004)及びA
2(3006)を有し、概念Bは3つの特性概念B
1(3012)、B
2(3014)及びB
3(3016)を有する。上述の要素推論ルールによれば、(1)概念A
1がB
1、B
2又はB
3のうちの1つを包摂し(あるいは、同じであり)、且つ(2)概念A
2がB
1、B
2又はB
3のうちの1つを包摂する(あるいは、同じである)場合、概念Aは概念Bを包摂する。
【0241】
図31は、上述の要素推論ルールを更に例証している。
図31の例において、概念“フルーツ”3102は、3つの特性概念“植物”3104、“皮”3106及び“種”3108を有している。この例において、概念“リンゴ”3110は、4つの特性概念“木”3112、“皮”3114、“種”3116及び“丸い”3118を有している。上述の要素推論ルールによれば、概念“フルーツ”は概念“リンゴ”を包摂する(あるいは、等価的に、“リンゴ”は“フルーツ”である)。何故なら、“フルーツ”3102の特性概念のうちの2つ(“皮”3106及び“種”3108)は、“リンゴ”3110の特性概念(それぞれ、“皮”3114及び“種”3116)と同じであり、“フルーツ”3102の第3の特性概念(“植物”3104)は、“リンゴ”3110の特性概念である“木”3112を包摂するからである。とはいえ、一部の実施形態において、定義関係は、或る概念と、その概念の構成要素との間のみに存在してもよい。
【0242】
一部の実施形態において、推論エンジン2102は、要素的データ構造120に要素推論ルールを適用することによって、要素コンポーネントに関連する確率を推定し得る。一部の実施形態において、要素推論ルールは、2つの概念AとBとの間の包摂関係の確率を、A及びBの特性概念(それぞれ、A
i及びB
j)に関連する確率に基づいて推定するためのルールを有し得る。例えば、要素推論ルールは、要素概念AとBとの間の包摂関係の確率を:
Pr(概念Aが概念Bを包摂する)
=Pr(オブジェクトがAのインスタンスである|それがBのインスタンスである)
【0243】
【数5】
のように見積もり得る。ただし、mは概念Aの特性概念A
iの個数であり、Prは確率を表し、B
j(i)は、A
iとBの残りの特性概念とが独立であるようなBの特性概念である。
【0244】
特性概念B
j(i)は、当該分野で知られる統計パラメータ推定技術又はその他の好適技術を用いて特定され得る。実施形態はこの点で限定されるものではない。一部の実施形態において、最大事後確率又は最小平均二乗誤差推定量が使用され得る。一部の実施形態において、適切な損失関数を最小化することによって得られる推定量が用いられてもよい。一部の実施形態において、特性概念B
j(i)は、最尤推定手法:
【0245】
【数6】
によって特定され得る。ただし、B
kは概念Bの特性概念であり、Pr(A
i|B
k)は、例えば上述の統計エンジン1902に関する統計的図形モデルなどの、要素的データ構造120内の要素概念及び関係に関連する確率のモデルに基づいて計算され得る。とはいえ、Pr(A
i|B
k)は、例えば最大事後誤差推定量、最小平均二乗誤差推定量、その他の統計パラメータ推定技術などの当該分野で知られる技術、又はその他の好適技術を用いて計算されてもよい。実施形態はこの点で限定されるものではない。
【0246】
一態様において、或る要素概念関係に関連する確率が閾値を上回る場合、その要素概念関係が要素的データ構造に追加され得る。この閾値は、ユーザの確実性に関する嗜好及び誤差に対する嫌悪に基づいて調整されてもよい。他の一態様において、推論エンジン2102によって計算された確率は、統計エンジン1902と共有されて、要素的データ構造の統計的図形モデルに統合されてもよい。
【0247】
一部の実施形態において、複数の言語学的推論ルール及び複数の要素推論ルールは個別に使用され得る。すなわち、一部の実施形態において、第1の言語学的推論ルール又は要素推論ルールによって特定された要素コンポーネントは、該第1のルールを適用することによって得られた推論を裏付けるために第2の言語学的推論ルール又は要素推論ルールを適用することなしで、要素的データ構造に追加され得る。
【0248】
一部の実施形態において、複数の言語学的推論ルール及び複数の要素推論ルールは連帯して使用され得る。すなわち、一部の実施形態において、第1の言語学的推論ルール又は要素推論ルールによって特定された要素コンポーネントは、該第1のルールを適用することによって得られた推論が第2の言語学的推論ルール又は要素推論ルールの適用によって裏付けられるまで要素的データ構造に追加されないとし得る。
【0249】
一部の実施形態において、推論的ルールは、トリガーイベントの発生に応答して、参照データ1904又は要素的データ構造120に適用され得る。一部の実施形態において、トリガーイベントは、要素的データ構造120の要素コンポーネントに関与する解析活動又は合成活動に関連する事象とし得る。一部の実施形態において、新たな要素概念又は新たな要素概念関係を要素的データ構造120に追加することがトリガーイベントであってもよい。それに加えて、あるいは代えて、要素コンポーネントをデータ構造120から除去することがトリガーイベントであってもよい。それに代えて、あるいは加えて、出力KR190の合成中にデータ構造120の要素コンポーネントを使用することがトリガーイベントであってもよい。
【0250】
例えば、解析エンジン150などの解析部1802が要素概念を要素的データ構造120に追加するとき、推論エンジン2102は要素推論ルールを要素的データ構造120に適用して、この新たな要素概念とその他の要素概念との間の関係を推論し得る。それに代えて、あるいは加えて、推論エンジン2102は、要素推論ルールを適用して、この新たな要素概念に関係する概念とその他の要素概念との間の関係を推論してもよい。それに代えて、あるいは加えて、推論エンジン2102は、言語学的推論ルールを参照データ1904に適用して、この新たな要素概念とその他の要素概念との間の関係を推論してもよい。それに代えて、あるいは加えて、推論エンジン2102は、言語学的推論ルールを参照データ1904に適用して、この新たな要素概念に関係する概念とその他の要素概念との間の関係を推論してもよい。
【0251】
一部の実施形態において、トリガーイベントは、要素的データ構造120の要素コンポーネントに関連するコンテキスト情報180を取得することに関連する事象とし得る。例えば、アクティブ概念を含んだコンテキスト情報180を合成エンジン170が受信するとき、推論エンジン2102は、推論ルールを適用して、該アクティブ概念に関係する要素概念を推論し得る。
【0252】
一部の実施形態において、言語学的推論ルールは、トリガーイベントに応答してではなく適用され得る。例えば、言語学的推論ルールは、要素的データ構造120を監督あるいはリファインするために、継続的あるいは周期的に適用され得る。
【0253】
図32は、推論に基づいて要素的データ構造を変更する例示的な方法を示している。例示の方法のステップ3202にて、第1の解析ルールが適用されて、知識表現が要素コンポーネントへと分解される。例示の方法のステップ3204にて、第1の解析ルールを適用することによって得られた要素コンポーネントが要素的データ構造に追加される。
【0254】
例示の方法のステップ3206にて、要素的データ構造に関連する候補データが推論される。一部の実施形態において、候補データは、例えば要素概念及び/又は要素概念関係などの要素コンポーネントを有する。一部の実施形態において、候補データは、要素概念又は要素概念関係に関連する確率を有する。この確率は、要素的データ構造内に既に存在する要素コンポーネントに関連するものであってもよいし、該データ構造内に存在しない要素コンポーネントに関連するものであってもよい。
【0255】
ステップ3206において、候補データを推論するステップは、或る言語パターンに対応する言葉を参照データ内で検出することを有する。一部の実施形態において、言語パターンは、該言語パターンに関連するデータを格納するコンピュータ読み取り可能なデータ構造として符号化される。一部の実施形態において、言語パターンは、1つ以上の言語要素の記述を有する。一部の実施形態において、言語要素の記述は、単一の所定の単語又はフレーズがその指定を満足し得るように、その言語要素を完全に指定し得る。一部の実施形態において、言語要素の記述は、複数の単語又はフレーズがその指定を満足し得るように、その言語要素を部分的に指定し得る。一部の実施形態において、言語パターンは更に、上記言語要素に関連する1つ以上の制約を有する。一部の実施形態において、或る制約は、2つ以上の言語要素に全体的あるいは部分的な順序を課し得る。例えば、該制約は、言語要素のうちの2つ以上が順に現れることを要求し得る。一部の実施形態において、或る制約は、2つ以上の言語要素に近接性の制約を課し得る。例えば、該制約は、言語要素のうちの2つ以上が互いに指定の単語数内、同じ文内、又は同じ段落内で現れることを要求し得る。
【0256】
ステップ3206で、一部の実施形態において、所定の言語パターンに対応する言葉を検出することは、第1の単語又はフレーズと、それに続く包摂表現と、それに続く第2の単語又はフレーズとを検出することを有する。一部の実施形態において、第1の単語又はフレーズは第1の要素概念に関連する。一部の実施形態において、第1の単語又はフレーズは第1の要素概念のラベルである。一部の実施形態において、第2の単語又はフレーズは第2の要素概念に関連する。一部の実施形態において、第2の単語又はフレーズは第2の要素概念のラベルである。一部の実施形態において、この包摂表現は、包摂関係を表す単語又はフレーズを有する。一部の実施形態において、この包摂表現は“である(is a)”、“である(is an)”、“の一種である(is a type of)”、“の一分野である(is a field of)”、又はこれら列挙した表現の意味と同様若しくは同義の意味を有するその他の表現を有する。
【0257】
ステップ3206で、一部の実施形態において、所定の言語パターンに対応する言葉を検出することは、第1の単語又はフレーズと、それに続く定義表現と、それに続く第2の単語又はフレーズとを検出することを有する。一部の実施形態において、この定義表現は、定義関係を表す単語又はフレーズを有する。一部の実施形態において、この定義表現は“を有する(has a)”、“を有する(has an)”、“によって特徴付けられる(is characterized by)”、“を含む(includes a)”、“を含む(includes an)”、又は同様若しくは同義の意味を有するその他の表現を有する。
【0258】
ステップ3206で、一部の実施形態において、候補データを推論するステップは更に、上記言語パターンに関連する抽出ルールを適用して、検出された言葉に関連するデータを取得することを有する。一部の実施形態において、候補データは、取得されたデータを有する。
【0259】
例示の方法のステップ3208にて、候補データと、要素的データ構造に関連するデータとを組み合わせるように、要素的データ構造が変更される。一部の実施形態において、要素的データ構造に候補データが追加される。一部の実施形態において、候補データに基づいて、要素的データ構造に要素コンポーネントが追加され、あるいは要素的データ構造から要素コンポーネントが除去される。一部の実施形態において、要素的データ構造の要素コンポーネントの属性として候補データが割り当てられる。
【0260】
一部の実施形態において、
図32の例示方法は更に、要素的データ構造に関連する第2の候補データを推論することを有する。
図33は、第2の候補データを推論する例示的な方法を示している。例示の方法のステップ3302にて、要素的データ構造内で第1の要素概念が特定される。一部の実施形態において、
図33の方法のステップ3302で特定される第1の要素概念は、
図32の方法のステップ3206で検出される第1の単語又はフレーズに関連する。例示の方法のステップ3304にて、要素的データ構造内で第2の要素概念が特定される。一部の実施形態において、
図33の方法のステップ3304で特定される第2の要素概念は、
図32の方法のステップ3206で検出される第2の単語又はフレーズに関連する。とはいえ、
図33のステップ3302及び3304で特定される第1及び第2の要素概念は如何なる要素概念であってもよい。一部の実施形態において、第1の要素概念は、1つ以上の第1の特性概念によって定義され得る。一部の実施形態において、第2の要素概念は、1つ以上の第2の特性概念によって定義され得る。
【0261】
例示の方法のステップ3306にて、第2の特性概念の各々が、第1の特性概念でもある、あるいは1つの第1の特性概念を包摂している、ことが決定される。一部の実施形態において、この決定は、第2の要素概念が第1の要素概念を包摂しているとの推論を生じさせる。
【0262】
図34は、推論に基づいて要素的データ構造を変更する例示的な別の方法を示している。例示の方法のステップ3202及び3204については上述されている。例示の方法のステップ3406にて、要素概念関係に関連する候補確率が推論される。一部の実施形態において、該要素概念関係は、第1の要素概念と第2の要素概念との間の関係を表現し得る。一部の実施形態において、該要素概念関係は、例えば包摂型又は定義型などのタイプを有し得る。一部の実施形態において、候補確率は、指定されたタイプの関係が第1の要素概念と第2の要素概念との間に存在する確率の見積もりを有し得る。
【0263】
例示の方法のステップ3406において、候補確率を推論することは、要素的データ構造に要素推論ルールを適用することを有する。
図35は、要素的データ構造に要素推論ルールを適用する例示的な方法を示している。例示の方法のステップ3502にて、要素的データ構造内で第1の要素概念が特定される。一部の実施形態において、
図35の方法のステップ3502で特定される第1の要素概念は、
図34の方法のステップ3406での候補確率に関連する要素概念関係に関連する第1の要素概念である。例示の方法のステップ3504にて、要素的データ構造内で第2の要素概念が特定される。一部の実施形態において、
図35の方法のステップ3504で特定される第2の要素概念は、
図34の方法のステップ3406での候補確率に関連する要素概念関係に関連する第2の要素概念である。一部の実施形態において、第1及び第2の要素概念は、それぞれ、1つ以上の第1及び第2の特性概念によって定義され得る。
【0264】
例示の方法のステップ3506にて、第2の特性概念の各々が、第1の特性概念でもある、あるいは1つの第1の特性概念を包摂している、ことの確率を計算することによって、候補確率が見積もられ得る。
【0265】
推論に基づいてデータ構造を変更する更なる他の一手法において、参照データ又は要素的データ構造の少なくとも一方に1つ以上の推論的解析ルールを適用することによって、要素的データ構造に関連する候補データが推論され得る。推論される候補データは、要素コンポーネント、要素コンポーネントに関連する確率、又はこれらの双方を有し得る。上記1つ以上の推論的解析ルールは、言語学的推論ルール、要素推論ルール、又はこれらの双方を有し得る。また、この例示的な方法において、要素的データ構造は、候補データを要素的データ構造に組み込むことによって変更され得る。候補データを要素的データ構造に組み込むことは、候補データを要素的データ構造に追加すること、候補データに基づいて要素コンポーネントを要素的データ構造から除去すること、候補データを要素的データ構造に関連するデータと組み合わせること、等々を有し得る。
【0266】
VI. 嗜好表現
上述のように、例えば
図18のシステム1800などの例示のシステムにおいて、合成エンジン170の実施形態は、要素的データ構造120に知識処理ルール130を適用することによって出力知識表現を合成し得る。また、上述のように、合成エンジン170の実施形態は、データ消費者195に関連するコンテキスト情報180を提供され得る。一部の実施形態において、コンテキスト情報180は、例えば、テキストのクエリ若しくは要求、1つ以上の検索語、1つ以上のアクティブ概念の識別子、特定の形態の出力KR190の要求などを含み得る。一部の実施形態において、コンテキスト情報180の受信は、明示的な要求の必要なく、コンテストを伴う出力KRの要求として解釈され得る。
【0267】
一部の実施形態において、入力された要求及び/又はコンテキスト情報180に応答して、合成エンジン170は、AKRMデータセット110内に符号化された1つ以上の適切な知識処理ルール130を要素的データ構造120に適用して、要素的データ構造120内に明示的に符号化されていない1つ以上の更なる概念及び/又は概念関係を合成し得る。一部の実施形態において、合成エンジン170は、受信した入力要求及び/又はコンテキスト情報180に従って、要素的データ構造120の適切な部分に適切な知識処理ルール130を適用し得る。例えば、コンテキスト情報180が、出力されるべき複合的KRの具体的な種類を指定する場合、一部の実施形態において、その種類の複合的KRを合成することに適用される知識処理ルール130のみが要素的データ構造120に適用され得る。一部の実施形態において、複合的KRの具体的な種類が指定されていない場合、合成エンジン170は、例えばタクソノミなどのデフォルトの種類の複合的KR、又はランダムに選択した種類の複合的KRを合成し得る。一部の実施形態において、コンテキスト情報180が関心ある1つ以上の特定のアクティブ概念を指定している場合、合成エンジン170は例えば、要素的データ構造120のうちそれらのアクティブ概念に関係する(すなわち、概念関係を介して接続されている)部分のみを選択し、それら選択した部分に知識処理ルール130を適用して出力KRを合成し得る。一部の実施形態において、出力される複合的KRの大きさ及び/又は複雑さについての所定の制限が、例えば、含まれる概念の数、要素的データ構造内でのアクティブ概念と選択された関連概念との間の階層的距離、得られる出力複合的KRの符号化されたデータサイズ、処理要件、関連性などを条件にして、例えばシステム1800の開発者によって設定され得る。
【0268】
一部の実施形態において、出力KRは、受信された入力内で指し示される指定のKR
種類に従って符号化され得る。一部の実施形態において、出力KRはデータ消費者195に提供され得る。上述のように、データ消費者195は、例えば、出力KRをソフトウェアユーザインタフェースにより閲覧且つ/或いは利用し得るソフトウェアアプリケーション又は人間ユーザとし得る。
【0269】
一部の実施形態において、データ消費者195は、合成処理を導くためにコンテキスト180を提供し得る。例えば、出力KR190の要求とともにコンテキスト情報180を入力することにより、データ消費者は、コンテキスト情報180に関連する出力KR190を生成するように例示のシステム1800を導き得る。例えば、コンテキスト情報180は、データ消費者195にとって関心ある概念にマッピング可能な検索語を含み得る。一部の実施形態において、合成エンジン170は例えば、要素的データ構造120のうち、コンテキスト情報180に関連する概念に一層大きく関係する部分に、知識処理ルールを適用し得る。
【0270】
図38は、本発明の一部の実施形態に従った、複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態で使用され得る例示的なシステム3800を示している。一部の実施形態において、コンテキスト情報180は嗜好情報を有し得る。一部の実施形態において、嗜好情報は嗜好モデルを有し得る。一部の実施形態において、合成エンジン170は、KRを合成してKRをデータ消費者に提示するとき、嗜好情報及び/又は嗜好モデルを当てにし得る。
【0271】
例示のシステム3800の一部の実施形態は嗜好エンジン3802を含み得る。一部の実施形態において、合成部1852が嗜好エンジン3802を有し得る。一部の実施形態において、嗜好エンジン3802は、嗜好情報を含んだコンテキスト情報180を受信し得る。一部の実施形態において、該嗜好情報が嗜好モデルを有し得る。一部の実施形態において、嗜好エンジン3802が嗜好情報に基づいて嗜好モデルを作成してもよい。一部の実施形態において、嗜好エンジン3802は嗜好情報及び/又は嗜好モデルを合成エンジン170に提供し得る。一部の実施形態において、合成エンジン170は、嗜好エンジン3802によって提供された嗜好情報及び/又は嗜好モデルを頼りに、データ消費者195の嗜好に従った複合的KRの合成を導き得る。一部の実施形態において、嗜好エンジン3802が、嗜好情報及び/又は嗜好モデルを頼りに、データ消費者195の嗜好に従った、複合的KR内の概念の提示及び出力KRの提示を導き得る。
【0272】
一部の実施形態において、嗜好エンジン3802は、アクティブ概念又は要素的データ構造内の要素概念に、データ消費者195に対する該概念の関連性を表す重み又は確率を割り当て得る。嗜好エンジン3802は、概念に割り当てられる重みを、コンテキスト情報180、及び/又は嗜好情報、及び/又は嗜好モデルに基づいて計算し得る。
【0273】
嗜好エンジン3802の態様及び実施形態例は、2011年6月20日に出願された米国仮出願第61/498899号に記載されている。なお、この文献の全体をここに援用する。嗜好エンジン3802の一部の実施形態は、例えばアイテム群の中且つ/或いはそれらアイテム群の属性の中での、様々な種類のユーザ嗜好をデータ消費者195が指定することを可能にし得る。
【0274】
一部の実施形態において、嗜好エンジンは、データ消費者195の嗜好に従った複合的KRの合成を支援するため、嗜好情報及び/又は嗜好モデルを合成エンジン170に提供し得る。一部の実施形態において、嗜好モデルは、重み付けられた概念を有し得る。一部の実施形態において、嗜好モデル内の重み付けられた概念は、要素的データ構造120内の概念に対応し得る。
【0275】
一部の実施形態において、嗜好モデルは合成プロセスに様々に影響を及ぼし得る。例えば、一部の実施形態において、合成エンジン170は、より重く重み付けられている嗜好モデル内の概念(“より好まれる”概念)に関連する概念をより多く合成し、嗜好モデルのあまり重く重み付けられていない概念(“あまり好まれない”概念)をより少なく合成し得る。合成エンジン170は、多様な手法で、概念に関連する合成の度合いを制御し得る。一部の実施形態において、合成エンジン170は、より好まれる概念に関して、より多くの知識処理ルールを適用してもよい。一部の実施形態において、合成エンジン170は、より好まれる概念に関して知識処理ルールを適用するときに、あまり厳しくない閾値を使用してもよい。例えば、合成エンジン170は、関連性ルール、コヒーレンスルール、連合関係ルール、又はシノニムルールを適用するときに、より低い、関連性閾値、コヒーレンス閾値、意味類似性閾値、又は同義閾値を使用し得る。
【0276】
また、一部の実施形態において、合成エンジン170は、より好まれる概念に関する合成を、あまり好まれない概念に関する合成よりも時間的に優先し得る。例えば、合成エンジン170は、あまり好まれない概念に関する概念を合成する前に、より好まれる概念に関する概念を合成し得る。合成エンジン170が最大でも或る一定の最大数の概念を生成するように構成される場合、このように合成に時間的な優先順位を付けることは、あまり好まれない概念に関する合成が、より好まれる概念に関する合成を犠牲にしてまで行わるようなことがないことを保証する。一部の実施形態において、合成エンジン170は、より好まれる概念に関する合成を最初に完了しても上記一定の最大数の概念が生成されない場合にのみ、あまり好まれない概念に関する合成を開始し得る。
【0277】
同様に、合成エンジン170は、より好まれる概念に関する合成処理に、より多くの処理資源及び/又は処理時間を充て、その一方で、あまり好まれない概念に関する合成処理に、より少ない処理資源及び/又は処理時間を充ててもよい。
【0278】
それに加えて、あるいは代えて、嗜好エンジン3802の一部の実施形態は、嗜好情報及び/又は嗜好モデルを当てにして、データ消費者195の嗜好に従った出力KRの概念の提示を導き得る。一部の実施形態において、嗜好情報は、データ消費者195の嗜好に従ったアイテム又は概念のランキングを作成するために使用され得る一般的嗜好モデルを含んでいてもよい。嗜好エンジン3802は、そのようなランキング情報を用いて、出力KR190内の概念に順序付けを与え得る。
【0279】
換言すれば、一部の実施形態において、出力KR190はデータ消費者195に、例えばグラフなど、ランク順でない形式で提示され得る。他の実施形態において、出力KR190はデータ消費者195に、例えば嗜好情報に基づいてランキングが割り振られたリストなど、ランク順形式で提示され得る。
【0280】
上述の技術は、多様な手法のうちの何れで実装されてもよい。一部の実施形態において、上述の技術は、1つ以上のプロセッサ上で実行されるソフトウェアにて実装され得る。例えば、少なくとも1つのプロセッサと少なくとも1つの有形メモリとを有するコンピュータ又はその他の装置が、上述の処理を実行するソフトウェア命令を格納・実行し得る。これに関連し、少なくとも1つのプロセッサによって実行されるときに上述の処理を実行させるコンピュータ実行可能命令が、少なくとも1つの持続的な有形コンピュータ読み取り可能媒体に格納され得る。
【0281】
VII. 例示システム
図22及び23は、それぞれ、本発明の一部の実施形態に従った、複合的知識表現(KR)の解析及び合成に関与されるアトミック知識表現モデル(AKRM)を実現する一部の実施形態で使用され得る例示的なシステム2200及び2300を示している。例示システム2200は、推論エンジン2102、統計エンジン1902、フィードバックエンジン2002、及び嗜好エンジン3802を有している。
【0282】
図22に示される様々なエンジンは、協働して、複合的KRの解析及び/又は合成を実行する。例えば、ウェブページなどのドキュメント、又はデータ消費者195によって閲覧あるいは使用されるその他のデジタルコンテンツが、データ消費者モデル2004に含められ得る。フィードバックエンジン2002が、そのようなドキュメント又はその他のデジタルコンテンツを参照データ1904に追加し得る。推論エンジン2102が、そのようなドキュメント内の概念の間の包摂関係を検出し得る。統計エンジン1902が、そのようなドキュメントを用いて、概念同士の関連性を推定し得る。他の一例として、推論エンジン2102が、要素的データ構造120内の2つの概念間に或る関係が存在することを推論し得る。統計エンジン1902が、その関係に関する関連性を評価し得る。それに加えて、あるいは代えて、推論エンジン2102が、統計エンジン1902によって作成された統計的図形モデルに要素推論ルールを適用し得る。ここに開示される様々なエンジンによる協働的あるいは相補的な更なる機能も、当業者に明らかになるものであり、本開示の範囲内にある。
【0283】
図23の例示システム2300は更に、推論エンジン2102及び/又は統計エンジン1902が解析処理及び/又は合成処理に参画し得ることを例証している。
【0284】
図22及び23に示されるように、参照データ1904は、要素的データ構造120のコンポーネントに関する関連性の値を推定するため、及び/又は解析エンジン150によって検出されない概念及び関係を検出するために使用され得る。例えば、解析エンジン150による入力KR160への知識処理ルール130の適用は、2つの概念間に関係が存在しないこと、又は第1の概念の第2の概念に対する関連性が低いことを示唆することがある。その一方で、参照データ1904への統計的推論法及び推論的解析ルールの適用が、それら2つの概念間に関係が存在すること、又は第1の概念の第2の概念に対する関連性が高いことを示唆することがある。多重のデータソースの解析は、関係及び概念の一層正確な検出と、それらの関係及び概念に関する関連性の値の一層正確な計算とをもたらし得るという意味で、推論エンジン2102及び/又は統計エンジン1902から得られた結果は、解析エンジン150から得られた結果を補完し得る。一部の実施形態において、例示のシステムは、参照データ1904(又は入力KR160)の一部を評価して、該データ(又はKR)の解析が要素的データ構造120の品質を高めそうか否かを決定し得る。
【0285】
VIII. 附録:AKRMの確率モデル
1. 動機
一部の実施形態において、AKRM(アトミック知識表現モデル)は、有向グラフG
0=<V
0,E
0>によって表現される要素的データ構造を有し得る。ただし、V
0は、概念のセットを表す頂点セットである。E
0は、有向エッジ(辺)セットであり、V
0内の2つの概念(順序事項)間の関係(それらがE
0内の1つのエッジによって接続される場合)を表す。AKRM内に巡回(サイクル)が存在してもよい。一部の実施形態において、AKRMはDAG(directed acyclic graph;有向非巡回グラフ)ではないとし得る。AKRM内のエッジには‘である(is−a)’及び‘によって定義される(is defined by’という2つの取り得るタイプの関係が存在し得る。AKRM内の各頂点はアトミック概念とし得る。
【0286】
図12は、単純なAKRMの一実施形態を示している。
【0287】
図12においては、エッジタイプ‘is−a’のみがマークされている。その他のエッジは、タイプ‘is defined by’を有する。‘消防車’は‘警報’にどれだけ関連する?という質問を考える。この質問がAKRMに対するクエリを生じさせ得る。このような質問に回答するため、AKRMから得られる有向グラフ上で確率モデルの一般解を解き得る。一部の実施形態において、確率モデルは統計的な図形モデルとし得る。なお、このモデルは、AKRMによって動機付けられ得るが、AKRMとは独立であり得る。
【0288】
2. 確率モデル−PAKRM
便宜上、AKRMの確率モデルをPAKRMで示す。このモデルを築き上げることは3つのステップを有し得る。第1は、AKRMから双方向有向グラフを構築することである。第2は、グラフの各ノード及び各エッジに関係するイベントを定め、且つ関係するベース確率を見積もることである。第3は、ベース確率を用いて、任意の2つのノードに関する同時確率を計算することである。これらのステップについては、モデルを概説した後に紹介する。
【0289】
2.1. モデルの概説
専門用語やモデルを得るための技術を紹介する前に、概説のために、PAKRMのフレームワーク(骨組み)を
図15に示す。なお、このフレームワークの詳細な説明は以下のサブセクションにて行う。
【0291】
対象範囲:例えそれらの間にエッジが存在しない(すなわち、関係が存在しない)場合であっても、AKRM内の任意の2つの概念の関連性を測定する。
【0292】
一貫性:統計的な推論により、このモデルは、概念の関連性に関する一般的な質問に回答することができる(すなわち、全ての回答が同一モデルに由来し得る)。
【0293】
効率:各クエリ時間中にオリジナルの知識ベース(すなわち、コーパス)をチェックする必要がない。
【0294】
2つの概念の意味論的関係を測定することには、文献的に、既に幾つかの手法が存在している[6,4,15,3]。概念の類似性指標を定義する上での試みにより、様々な仮定及び機構に基づく手法がもたらされる。そのような手法の選択はその場的である。
【0295】
PAKRMは図形モデルである。ベイジアン(Bayesien)ネットワーク[1,2]及びマルコフ(Markov)ネットワーク[11]という2つのタイプの図形モデルが存在する。ベイジアンネットワークはDAG(有向非巡回グラフ)上に構築され、マルコフネットワークは無向グラフ上に構築される。AKRMのグラフはDAG又は無向グラフの何れでもないことがあるので、これら2つの典型的な図形モデルの手法はAKRMには適さないものとなり得る。
【0296】
PAKRMは、AKRMから得られる双方向有向グラフ上に構築され得る。このグラフは、概念グラフ(conceptual graph;CG)でもないものとなり得る。縮小CG(概念ノードセットを有するが関係ノードセットを有しない)と見なされ得るものの、CG上での概念類似性又はその他の取り組み[13]はあまり関連がない。セマンティックネットワークも、概念類似性を測定するために構築され得る。セマンティックネットワークによる一部の取り組みは、ツリー状構造と何らかの情報理論とを当てにしている[12]。通常、それらは確率的アプローチではない。
【0297】
確率モデルは、或る文献及びクエリに関連する条件付き確率によって複数の文献をランク付ける文献検索の場で使用されることがある[5,17]。そのような確率モデルは、概念間のグローバル関係ではなくコーパスに頼るものであり得る。グローバル関係によって概念間の関連性を測定するPAKRMを提案する。これは、文献検索の手法と密に関係するものではない。
【0298】
2.2. グラフの構築
一部の実施形態において、AKRMに対するクエリに関して有向グラフG=<V,E>上に確率モデルを築き上げる。グラフGは以下のようにAKRMから取得され得る。頂点セットVはAKRMからの全ての概念の組である。AKRM内の例えばC
1及びC
2といった2つの概念の間に関係(‘is−a’又は“is defined by”を問わず)が存在する場合、一方がC
1で始まってC
2を指し、他方がC
2で始まってC
1を指す2つの有向エッジをエッジセットE内に有する。E内の各エッジeに関し、eがC
1で始まってC
2を指す場合、C
1とC
2との間にAKRMから或る関係が存在する。エッジセットEの以上の説明が暗示することには、G内のEの例えばeといった各有向エッジに関し、eがC
1で始まってC
2を指す場合、E内にC
2で始まってC
1を指すエッジが存在するとともに、C
1とC
2との間でAKRM内に或る関係が存在する。
図16は、
図12の単純なAKRMから得られるグラフの一例を示している。なお、エッジのそれぞれの端部の2つの矢印は、2つの関連ノードの間の2つの有向エッジを表している。
【0299】
一部の実施形態において、PAKRMがグラフG上に築き上げられ、故に、AKRMに対するクエリは、モデルに対する質問に転写され得る。この確率モデルは、グラフ上に構築されるので、該グラフに関連するイベントに関係し得る。1つのイベントに対し、それからの複数の結果が存在し、故に、そのイベントが起こった場合にどの結果を見ることになるかは不確実である。結果の不確実性は確率によって測られ得る。
【0300】
2.3. ベース確率の推定
AKRMは例えばコーパスなどの何らかの知識ベースから構築され得るので、その知識ベースが置き換えられると、大きく異なるAKRMを有することになり得る。これは、AKRMに関係する不確実性を意味する。真であるが未知のKRモデルが存在する場合、AKRMは、そのモデルの1つの推定結果であり、そのコーパスである1つのサンプルによって推定されたものであり得る。
図13に示すように、或るコーパスから構築されるAKRMは、多数のコーパス全体を表現する真のAKRMの1つの推定結果となり得る。
【0301】
1つのコーパスから真のモデルを推定する推定関数はなく、また、複数のコーパスの分布は不明であり得るので、或る特定のコーパスから構築されるAKRMに関する不確実性に焦点を当てる。AKRMからのグラフGは頂点とエッジとによって画成される。AKRMからの不確実性を捕捉するため、各ノードに1つのイベントを割り当て、各エッジに1つのイベントを割り当て得る。そのようなイベントの定め方は唯一ではない。AKRMはユーザクエリに使用され得るので、ユーザに関してイベントを定め得る。これらのイベントに関する推定結果がモデルのピース(断片)を形成する。便宜上、コーパスに関する幾つかの定義を導入する。
【0302】
コーパスR={R
1,R
2,・・・,R
NR}は一組の文献/RDFとし得る。C
iは、R
iに含まれる全ての概念の集まりとし得る。一部の実施形態において、概念は単語又は単語シーケンスであり、故に、それらは文献内で連続して現れる。
【0303】
Cは全てのC
iからの概念の集まりであり、SCは全てのC
iからの概念のセットであるとし得る。なお、Cは繰り返しとなる概念を有し得るが、SCはそうではない。NRはコーパス内の文献の総数とし得る。C内の概念の総数はN
Cとし得る。さらに、C
t1,t2={C
i|t
1∈c
it
2∈C
i, i=1,2,・・・,N
C}は、各々が概念t
1及びt
2の双方を含むような全ての概念集まりのセットであり、C
t1={C
i|t
1∈c
i, i=1,2,・・・,N
C}は、各々が概念t
1を含むような全ての概念集まりのセットであるとする。|C
t1,t2|をセットC
t1,t2のサイズ(要素数)とする。
【0304】
2.3.1. ノード
概念Aを表すノードについて、一般ユーザがAに関心を見出すかを検査するイベントを定め得る。Aに関するこのイベントは、ユーザが関心を見出す、及びユーザが関心を見出さない、という2つの取り得る結果を有し得る。更なる情報がない場合、関連する確率(すなわち、ユーザがAに関心を見出す確率)を理解するための何らかの既存手法を考えることになる。それらの手法は、‘頻度’によって評価されることが可能な別のイベントを頼りにする。ここでは、そのようなイベントを‘参照’イベントと呼ぶ。
【0305】
コーパスを‘一袋の単語’又は‘一袋の概念’と見なすと[8]、コーパスから1つの単語/概念をランダムに取り出すことは1つのイベントである。このイベントの結果は、そのコーパス内の何れかの単語/概念になり得る。或る特定のコーパス内でAがBより頻繁に現れる場合、特定の単語/概念Aを得る可能性はBより高いということは理に適っている。故に、或る特定のコーパス内の単語/概念の頻度は、上記イベントの結果が特定の単語/概念である確率の妥当な見積もりであり得る。実際には、そのような頻度は確率の最尤推定値(maximum likelihood estimate;MLE)である[14]。
【0306】
特定の情報がないと、或る特定のコーパスからAを取り出す確率がより高い場合、ユーザは概念Aにより多くの関心を見出すと考えられる。これが意味することには、ユーザがAに関心を見出す確率を推定するための主要な因子として、Aの‘頻度’を使用し得る。
【0307】
ユーザが概念t
iに関心を見出す確率を表すものとして、Pr(user ^indetifies t
i)を用いることにする。或るノードに関する‘参照’イベントのMLEを使用すると:
【0308】
【数7】
という、Pr(user ^indetifies t
i)の単純な推定値が得られる。右辺の分子は、‘C内で概念tiが現れる回数’である。この推定値は、コーパス内での用語頻度(tf)を使用する[7,9]。代替的な推定値は逆文献頻度(idf)を含む[5,16,10]。先ず、該コーパスに対する概念tの関連性(relevance)を測定する関数を:
【0312】
2.3.2. ノードからのエッジの選択
1つの有向エッジは1つのスタートノードと1つのエンドノードとによって決定され得る。例えばAとするスタートノードを知っているのみでは、Aから始まる複数のエッジが存在する場合、G内の1つのエッジを一意に決定することができない。ユーザの関心の観点で、Aがユーザが関心を見出す概念である場合、ユーザが別の概念にも関心を見出すかを調べるため、ユーザは、先ず、例えばBとする概念を選択あるいは意図し、次いで、自身がBにも関心を見出すかを決定し得る。この関連イベントは、‘ユーザがAに関心を見出す場合にユーザは概念Bを意図する’とし得る。ユーザがAに関心を見出した場合にユーザが意図する候補概念のセットは全て、Aの子ノードであり得る。Aの子ノードとは、Aから始まる有向エッジが指すノードである。
【0313】
上述のように、ユーザが既に或る概念t
iに関心を見出したとき、ユーザが意図する候補概念は全て、t
iの子ノードであり得る。このときt
jがt
iの子ノードであるかの関連確率を、
【0314】
【数11】
によって表す。これらの子ノードを特定する更なる手段がない場合、各候補が意図されたものである可能性は相等しいと見なすことになる。全部でm個の子ノードt
jが存在する場合、
【0315】
【数12】
である。この推定値はユーザの意図についての他の情報がないことに基づく。この部分はt
iの子ノードの数に関してt
iの周りの密度を考慮する。例えば、t
iが唯一の子ノードt
jを有する場合、
【0316】
【数13】
が得られる。t
iが2つ以上の子ノードを有する場合には、t
iからその子ノードへの、より多くの選択を有するので、
【0318】
2.3.3. エッジ
Gのノードにイベントを定めた手法と同様に、ユーザの関心に関して1つのエッジに1つのイベントを定め得る。
【0319】
ノードAから始まってBを指すエッジeが存在する場合、対応するイベントは、ユーザが既にAに関心を見出し且つBを意図している場合に、AKRM内の関係を介して、ユーザがBに関心を見出すかの検査とし得る。このイベントには、関心を見出すか否かの2つの結果が存在し得る。このイベントには依存性が含まれ、Bに関心を見出すことはAに依存する。
【0320】
ノードに関連する確率を推定するために使用した方法に従って、概念を取り出すイベントを‘参照’イベントとして使用し得る。エッジに関して、‘参照’イベントは、コーパスから取り出され且つ概念Aを有する複数の‘袋’の壺から、概念Bを有する概念の‘袋’を取り出すことであるとし得る。1つの‘袋’が1つの文献と見なされ得る。これが意味することには、エッジに関連する確率を推定するための主要な因子として文献頻度を使用し得る。
【0321】
t
i→t
jを、t
iとt
jとの間のAKRM内の関係を介してユーザが概念t
jに関心を見出すイベントとする。なお、2つの概念の間でAKRM内に2つ以上の関係が存在することがある。イベントt
i→t
jは、ユーザが先ず概念t
iに関心を見出した後にt
iからt
jへのG内の有向エッジを介してユーザが概念t
jに関心を見出すことをt
iが暗示することを特定する。ユーザがt
iに関心を見出し且つt
jに関心を見出す確率:
【0322】
【数15】
に関心がある。上述の説明に従って、この確率は、文献頻度によって、
【0323】
【数16】
と見積もられ得る。ただし、|C
ti,tj|はt
i及びt
jを含むコーパス内の文献の数を表し、|C
ti|も同様である。
【0324】
動機に戻るに、このモデルの目的は、例えば、概念‘消防車’は‘警報’にどれだけ関連する?などの、AKRMに対するクエリに回答することとし得る。2つの概念の共起の確率を測ることは、このようなクエリに回答するための良好な手段であり得る。これは、ユーザが‘消防車’及び‘警報’に関心を見出す同時確率Pr(user identifies ‘消防車’ and ‘警報’)をもたらす。
【0325】
我々は既に、この同時確率を見積もるための2つのピースを有している。
【0326】
2.4. 同時確率の計算
t
i及びt
kはGからの2つのノードであるとする。一部の実施形態において、Pr(user identifies t
i and t
k)を見積もるために、幾つかの仮定を行う。
【0327】
2.4.1. 幾つかの仮定
便宜上、ユーザがt
iからt
kへの全てのパス(経路)を介してt
kに関心を見出すイベントを、
【0328】
【数17】
を用いて表す。単純化のため、Pr(user identifies t
i and t
k)を、Pr(t
i∩t
k)を用いて表す。パスは、最後のエッジを除くエッジのエンドノードがその直後に続くエッジのスタートノードであるようにされた、有向エッジのリストを意味する。これはまた、ある順序を有した、ユーザが関心を見出す概念のシーケンスを意味する。故に、パスを形成するには、ユーザは先ず該シーケンスの最初の概念に関心を見出し、次いで、2番目の概念に、意図するだけでなく、関心をも見出す、等々しなければならない。
【0329】
パスに関する確率を機能させ且つ対応する計算を可能にするため、以下の5つの基本的な仮定を行う。
【0330】
1.2つのノード間のG内のパスは全て、互いに対するそれらの関連性に寄与するが、その他のパスは関連しない。これは、
【0333】
【数19】
3.パスは互いに排他的である。
【0334】
4.1つのパス内のエッジは互いに独立である。
【0336】
【数20】
というMarkov的な仮定。
【0337】
2.4.2. 同時確率
確率不毛仮定1の総合ルールにより、
【0340】
【数22】
は、第1項を解いた場合に、然るべく解くことができる。単純化のため、確率の式から用語‘user’を省略する。仮定2により、
【0342】
式(2)において、Pr(identifies t
i)は、セクション2.3.1における手法によって見積もられ得る。式(2)内の条件付き確率:
【0343】
【数24】
は、ユーザがt
iに関心を見出した場合にユーザがどれだけt
kに関心があるかを説明し得る。この確率を見積もるため、仮定3により、
【0344】
【数25】
が得られる。ただし、t
i1,j1はt
iの子ノードであり、m
iは|child(t
i)|である。式(3)内のPr(intends t
i1,j1|identifies t
i)は、セクション2.3.2で紹介した方法によって見積もられ得る。式(3)にこの確率を含めることは、
【0345】
【数26】
の見積もりが1より大きくならないことを保証し、仮定3を妥当なものにする。
【0346】
式(3)内の総和(Σ)の第1の部分については、仮定4により、
【0348】
Pr(ti→t
i1,j1|identifies t
i and intends t
i1,j1)はm¥、セクション2.3.3で紹介した方法によって見積もられ得る。仮定5により、
【0349】
【数28】
となる。式(5)の右辺の確率は、式(3)の左辺と同様の形態を有しており、式(3)と同様にして見積もられ得る。これは、
【0350】
【数29】
を解くための再帰計算を与える。
【0351】
式(3)、(4)及び(5)を合わせると、
【0352】
【数30】
が得られる。式(6)をもう1ステップ展開すると、
【0354】
【数32】
である。なお、式(7)の第2の総和が実在するかは、
【0355】
【数33】
である制約Aに依存し得る。
【0357】
【数34】
という一般形態が与えられる。ただし、
【0358】
【数35】
は対応する総和に関する制約であり、故に、この総和及びそれに従属する後続の如何なる総和も、
【0359】
【数36】
である場合にのみ存在する。
【0360】
図17は、概念AからBへのパス(経路)を例示している。一部の実施形態において、これらのパスは、先ずAの全ての子ノードに至り、その後、Aの子ノードの各々(Cとする)に関して、Cの全ての子ノードに至り、等々と続く。各パスは、Bに至るか、あるいはそれ以上進まないか、の何れかによって終了し得る。
【0361】
確率モデルPAKRMは、同時確率が定められた後に完成する。‘消防車(firetruck)’は‘警報(alarm)’にどれだけ関連する?という質問に対し、‘関連性’の意味に関する条件に従って複数の解を有し得る。関連性の程度が共起の程度によって測られる場合には、Pr(‘firetruck’∩‘alarm’)を使用し、関連性の程度が、ユーザが‘alarm’に関心を見出すことを条件として測られる場合には、Pr(‘firetruck’∩‘alarm’|user identifies ‘alarm’)を使用し得る。関連性の程度が、ユーザが‘alarm’から‘firetruck’へのGの全てのパスを解して‘firetruck’に関心を見出すことに依存する場合には、
【0362】
【数37】
を使用し、関連性の程度がパスに依存し且つユーザが‘alarm’に関心を見出す条件が与えられる場合には、
【0364】
2.5. 計算コストの低減
再帰アルゴリズムは式(8)を計算するのに適している。これはまた、高い計算コストを示す。コストを低減するため、
【0365】
【数39】
に、更なる制約、すなわち、
【0367】
このthの値は、AKRM上での実験から学習され得る。p及びthの値を制御することで、式(8)の計算コストが調整され得る。双方向有向グラフGには巡回が存在し得るので、巡回を自動的に断つために、p及びthに基づく可能な停止基準を用いられ得る(なお、pは各パスにおける最大ステップである)。巡回を取り扱う代替的な一手法は、可能なパスで探索しながら現在パス内のノードを記憶しておき、現在パスが巡回を有するときに探索を停止させるものである。
【0368】
2.6. 更なる用途
このモデルに可能な更なる用途に関心がある。
【0369】
2.6.1. 融合による新たなノード
一部の実施形態において、t
iとt
jとを組み合わせることによって構築される新たなノードt
ijが、Pr(t
i∩t
j)が閾値τに従って高い場合にAKRMに追加され得る。τの値は、AKRM上での実験から学習され得る。t
ijが追加される場合、によってPr(t
ij)を割り当て得る。t
ijをt
i及びt
jそれぞれに接続するように、2つの有向エッジも追加され得る。明らかなように、Pr(t
ij→t
i|identifies t
ij and intends t
i)=Pr(t
ij→t
j|identifies t
ij and intends t
j)=1である(なお、確率により、Pr(t
j|t
i∩t
j)=Pr(t
j|t
i∩t
j)=1である)。しかしながら、Pr(t
i→t
ij|identifies t
i and intends t
ij)及びPr(t
j→t
ij|identifies t
j and intends t
ij)を計算することは、幾らかの検討を要する。1つの選択肢は、Pr(t
i→t
ij|identifies t
i and intends t
ij)として、t
iに開始点を有するエッジに関する確率の平均を用いることである。確率Pr(t
j→t
ij|identifies t
j and intends t
ij)はそれに従って見積もることができる。
【0370】
2.6.2. 近傍
この確率モデルにより、AKRMのノードtの近傍が、該近傍内の各ノードt’に対しPr(t’|t)>aを有するように見出され得る。さらに、そのような近傍をN
a(t)によって表す。明らかなように、N
a(t)={t’∈V|Pr(t’|t)>a}である。N
a(t)は、条件付き確率の閾値の観点で該概念に密な関係を有する全ての概念のセットを表し得る。この近傍は、ユーザのクエリからのアクティブ概念に関連する概念を検索するときに有用であり得る。tの近傍を計算する代替的な一手法は、Pr(t’|t)の代わりに、
【0372】
2.6.3. その他の用途
この確率モデルは、例えば、ユーザが或るアクティブ概念に関心の見出したときに、一組の概念のユーザの関心をランク付けするなど、ランキングを行う良い理由を与え得る。このモデルはまた、概念間の類似性を測る手法を提供し得る。これらの類似性は、概念のクラスタリング及び視覚化などを行うために使用され得る。
【0373】
3. アルゴリズム
一部の実施形態において、このモデルを築き上げるために、3つの確率セットが見積もられる。このモデルに基づき、或るノードの統計的な近傍を計算することができる。この近傍は、合成を行うときに有用となり得る。また、これらのアルゴリズムで使用される閾値の値を得る方法が提案される。
【0374】
3.1. ノード確率
AKRMの全ての概念のセットをVとする。コーパスからの一袋の単語をCとする。CはVの概念のみを含み、且つ或る概念がC内で現れる回数が、それがコーパス内で現れる回数であるようにされる。アルゴリズム1が、V内の各概念tについてPr(user identifies t)を計算する。少なくとも3つのオプションが利用可能である。
【0375】
アルゴリズム1:各概念の確立を見積もる
入力:コーパス、AKRMから得られるグラフG=<V,E>
出力:ノードの確率
(オプション1)
(1)C内で全ての概念が現れる回数の和をN
Cとする。
(2)V内の各概念tに対し、
【0376】
【数42】
とする。なお、右辺の分子には、“C内で概念t
iが現れる回数”と記載されている。
【0377】
(オプション2)
(1)C内で全ての概念が現れる回数の和をN
Cとする。
(2)totRelev=0と設定する。
(3)V内の各概念tに対し、
関連性Relevance(t)=
(C内でtが現れる回数/Nc)(−log(tを有する文献の数/コーパス内の文献の総数)),
totRelev=totRelev+Relevance(t)
とする。
(4)V内の各概念tに対し、
【0379】
(オプション3)
(1)totRelev=0と設定する。
(3)V内の各概念tに対し、
関連性Relevance(t)=
(tを有する文献の数/コーパス内の文献の総数)(−log(tを有する文献の数/コーパス内の文献の総数)),
totRelev=totRelev+Relevance(t)
とする。
(4)V内の各概念tに対し、
【0381】
アルゴリズム1のこれら3つのオプションの各々の計算複雑度は、N
Cの計算を除いて、O(N)である。第1のオプションは最尤推定である。第2のオプションはコーパス幅のtf−idfである。第3のオプションは、文献頻度のみを用いることによって第2のオプションを簡略化するものであり、必ずしもN
Cを知る必要がない。
【0382】
3.2. エッジ確率
各有向エッジに関する確率は、アルゴリズム2によって見積もられ得る。
【0383】
アルゴリズム2:
入力:コーパス、AKRMから得られるグラフG=<V,E>
出力:エッジの確率
(1)Gを以下によって双方向有向グラフに変形:
a.E内の全てのエッジeに関し、eがノードAをノードBに接続すると仮定し、BをAに接続するエッジが存在するかを検査、
b.そのようなエッジが存在しない場合、eがBをAに接続するようにエッジeをEに追加、
c.この双方向有向グラフをG
bと表示する、
(2)G
b内の各エッジeに対し、
eがノードt
iをノードt
jに接続すると仮定し、
【0384】
【数45】
を計算。なお、右辺には、“t
i及びt
jの双方を有する文献の数/t
iを有する文献の数”と記載されている。計算複雑度は、E内のエッジの数に依存する。最悪の場合はO(N
2)であるが、AKRMのエッジは非常に疎らであるので、これは滅多に起こらない。
【0385】
3.3. 2つのノードの同時確率
2つのノードt
i及びt
kの同時確率は、
【0386】
【数46】
から計算され得る。これら2つの条件付き確率を計算するために、以下のアルゴリズムによって記述される再帰関数を使用し得る。
【0387】
アルゴリズム3:leadsto(C
1,C
2,G
b,pathsofar,pathprob,th)
入力パラメータ:
a.C
1はパスのスタートノードであり、C
2はパスのエンドノードである
b.双方向有向グラフG
b(アルゴリズム2のステップ(1)参照)
c.pathsofarは、これまでのパス内のノードを記録する
d.pathprobは、これまでのパスに関する確率である
e.thは、pathprobがそれより小さい場合に現在パスを切除する値である
出力:C
1がC
2につながる確率であり、この確率は、
【0388】
【数47】
と記述される。
(1)C
1の全ての子ノードを取得し、それらをChildren(C
1)と表す
(2)Childrennew(C
1)=Children(C
1)−pathsofarとする
(3)m=|Children(C
1)|、すなわち、C
1の子の数とする
(4)mn=|Childrennew(C
1)|、すなわち、pathso far内にはないC
1の子の数とする
(5)val=0とする
(6)mn=0がTRUEである場合、valを戻して終了
(7)probchoose=1/mとする
(8)Childrennew(C
1)内の各ノードC
1jに対し、
a.
【0389】
【数48】
とする(アルゴリズム2参照)
b.Stepprob=probchoose×probedgeとする
c.Curpathprob=pathprob×stepprobとする
d.Curpathprob>thである場合、
i.C
1j=C
2がTRUEである場合、val=val+stepprob
ii.そうでない場合、curpathsofar=pathsofar+{C
1j}、且つ
val=val stepprob×leadsto(C
1j,C
2,G
b,curpathsofar,curpathprob,th)
(9)valを戻して終了。
【0390】
以上のアルゴリズムは縦型(深さ優先)探索に基づく。同時確率は、以下のアルゴリズムで記述される関数によって計算されてもよい。
【0391】
アルゴリズム4:joint(C
1,C
2,G
b,th)
入力パラメータ:
a.C
1及びC
2は同時確率に関するノードの対である
b.双方向有向グラフG
b(アルゴリズム2のステップ(1)参照)
c.thは、関連する確率がそれより小さい場合に現在パスを切除する値である
出力:C
1及びC
2の同時確率であり、この確率はPr(C
1∩C
2)と記述される。
(1)pathsofar={C
1}とする
(2)pathprob=1とする
(3)v
1=leadsto(C
1,C
2,G
b,pathsofar,pathprob,th)を計算する
(4)pathsofar={C
2}とする
(5)v
2=leadsto(C
2,C
1,G
b,pathsofar,pathprob,th)を計算する
(6)
【0392】
【数49】
とする(アルゴリズム1参照)
(7)
【0394】
3.4. 統計的近傍
一部の実施形態において、以下のアルゴリズムは、依存性(条件付き確率)の観点でアクティブ概念/ノードの近傍を築き上げる方法を規定する。
【0395】
アルゴリズム5:
入力:それに対して近傍を見出すアクティブ概念
出力:該アクティブ概念の近傍としての概念のセット
(1)C
1をアクティブ概念とする
(2)G
bを双方向有向グラフとする(アルゴリズム2のステップ(1)参照)
(3)thを近傍の閾値とする
(4)Sを、それらの間で探索すべき候補概念のセットとする
(5)Neighbour(C
1)をエンプティセットに設定する
(6)
【0396】
【数51】
を取得する(アルゴリズム1参照)
(7)S内の各概念C
2に対し、
a.
【0397】
【数52】
を取得(アルゴリズム4参照)
b.
【0399】
【数54】
である場合に、C
2をセットNeighbour(C
1)に追加
(8)セットNeighbour(C
1)をC
1の近傍として採用。
【0400】
代替的な一アルゴリズムは、C
1の近傍を計算するために、Pr(C
2|C
1)の代わりに、
【0401】
【数55】
を使用し得る。これは、アルゴリズム3からの関数‘leadsto’によって見積もられ得る。
【0402】
3.5. 閾値の値
これらの閾値はアルゴリズム3、4及び5で使用される。それらには2つの種類が存在し得る。第1は、‘leads to’の確率を計算するときにパスを切除するための閾値である。第2は、アクティブ概念の近傍を決定するときに使用され得る。(恐らくは、合成を行うときにユーザのために一時的に)2つの概念を融合することによって新たなノードが追加されるかを決定するために使用される第3の閾値が存在してもよい。さらに、これらの閾値を設定する方法が提案される。
【0403】
3.5.1 パスを切除するための閾値
AKRMの双方向有向グラフ内のノードの子ノードの平均数をmとし得る(この平均は、先ずノードのうちのサンプルを取り、それらの子ノードの数の平均を取ることによって計算され得る)。エッジに関する平均確率をp
0とし得る(この平均は、先ずエッジのうちのサンプルを取り、それらのエッジに関する確率の平均を取ることによって計算され得る)。なお、エッジに関する確率とは、アルゴリズム2によって計算される確率である。
【0404】
我々がパスを有することを望むエッジの平均数をγとする。グラフを探索するときのパスの平均長はγによって制限され得る。閾値を(p
0/m)
γとし得る。
【0405】
この閾値はまた、関数‘leadsto’の平均あるいは期待計算コストがO(m
γ)であることを意味する。なお、この閾値は、全てのパスの長さを、γを超えないように制限するものではなく、全ての探索パスの平均長がγであるといったものである。或るパスの第1の部分が、より大きい確率に関係する場合、そのパスは、γより長くされることに関して、より大きいチャンスを有する。
【0406】
関数‘leadsto’に関するパスの探索は局所的(例えば、候補ノードの中、すなわち、AKRMからのサブセット)であり得るので、その局所領域内の一対のノード間の非巡回パスの平均長は大きくない。この平均値をLと仮定すると、この場合の期待計算コストはO(m
min(γ,L))となる。
【0407】
3.5.2 近傍の閾値
この閾値は以下のアルゴリズムによって設定されることができる。
【0408】
アルゴリズム6:
(1)アクティブ概念のサンプルSCをとる
(2)SPをエンプティセットとする
(3)SC内の各概念cに対し、
a.Sをcの候補概念のセットとする
b.S内の各概念c’に対し、
i.
【0409】
【数56】
を計算する(アルゴリズム5のステップ7b参照)
ii.これをSPに追加する
(4)SP内の要素の1−α変位値を閾値としてとる(0<α<1)。
【0410】
この閾値によって見出される近傍は、該近傍内の全ての概念が、対応するアクティブ概念が与えられたときの確率に関して全ての候補のうちの上からα*100パーセントの間にあることを意味する。
【0411】
以下は、N要素を有する有限のセットから変位量を推定する方法である。
(1)該セットを最低から最高まで順序付ける
(2)0≦k≦100として、インデックスi=round(Nk/100)を取る
(3)k/100変位量が、順序付けられたセットのi番目の要素であると推定される。
【0412】
3.5.3. 2つの概念を融合するときの閾値
近傍の閾値を設定するとき(アルゴリズム6参照)と同様の方策を使用することができる。その考えは以下の通りである。先ず、概念のうちのサンプルを取り、次いでサンプル内の各概念対の同時確率(アルゴリズム4参照)を計算する。閾値を設定するために、全ての同時確率のセットの変位量を用いることができる。
【0413】
4. 2つの単純な例
このモデルがどのように機能するかを理解するために、2つの単純な例を示す。第1の例は、
図12に示したものに相当するAKRMを架空のコーパスとともに使用する。第2の例のコーパスは、段落をドキュメントとして見なして1つの記事から生成される。対応するAKRMを構築するための関係は、その記事から手動で取得される。
【0414】
4.1. 例1
この例を築き上げるため、先ず、6個のドキュメントを含む単純なコーパスを構築する。各ドキュメントは‘一袋の概念’によって表される。なお、この例では、各概念は単語である。そして、
図12に示した8個のエッジを有する単純なAKRMに相当するものを使用する。
【0415】
以下が、単純なコーパスである。
1.‘house’,‘house’,‘water’,‘house’,‘phine’,‘alarm’,‘lights’
2.‘firehouse’,‘firetruck’,‘fire’,‘house’,‘phone’,‘alarm’,‘firetruck’,‘water’
3.‘truck’,‘water’,‘truck’,‘firetruck’
4.‘firetruck’,‘firehouse’,‘house’,‘water’,‘truck’
5.‘electro’,‘water’,‘house’,‘garage’,‘alarm’,‘lights’,‘phone’,‘truck’
6.‘vehicle’,‘truck’,‘phone’
我々のモデルを築き上げるため、先ず、上記単純なAKRMを双方向有向グラフへと変換し、次いで、上記単純なコーパスから全てのノードに関する確率及び全てのエッジの各向きに関する確率を計算する。
図14はその結果を示している。なお、各ノードの内部の値はそのノードに関する確率である。各エッジに2つの値が存在し、各値は、それに近い方の矢印の向きに関する確率を表している。
【0416】
‘firetruck(消防車)’の‘alarm(警報)’に対する関連性に関心がある場合、つまり、ユーザが既に‘firetruck(消防車)’に関心を見出したことを所与としてユーザが‘alarm(警報)’にどれくらい関心を見出すかに関心がある場合、先ず、
【0417】
【数57】
を見積もる。この単純な例において、‘消防車’から‘警報’まで2つのパスが存在している。第1のパスは‘消防車’→‘水’→‘家’→‘警報’である。我々のモデルによれば、このパスに関する確率は、1/4×1×1/2×0.8×1/4×0.75である。第2のパスは‘消防車’→‘消防署’→‘家’→‘警報’である。これに関する確率は、1/4×0.67×1/2×1×1/4×0.75である。これらを足し合わせると、見積もられた確率は0.034である。同様に、
【0418】
【数58】
は0.1375であると見積もられる。さらに、条件付き確率:
【0419】
【数59】
が0.14であると見積もられる。この条件付き確率は、ユーザが既に‘fire truck(消防車)’に関心を見出したことを所与として、ユーザが‘alarm(警報)’にどれくらい関心を見出すかを説明するものである。このAKRM内には少ないノードしか存在しないので、このケースでは閾値(セクション3.5参照)は計算していない。
【0420】
4.2. 例2
消防車についてのWikipedia記事から、11個の段落を、この例でのコーパスを形成する11個のドキュメントとして収集した。なお、その記事では元々は用語“fire engine”が論じられている。便宜上、“fire engine”は“fire truck”と違わないと見なし、コーパス内の全箇所で“fire engine”を“fire truck”で置換する。さらに、AKRMを構築するために40個の関係を生成する。
図18は、各ノード及びエッジの各向きについて計算された確率を有する双方向有向グラフを示している。
【0421】
この記事において、“warining”は音声及び映像の警報を指し示している。第1の例と同様に、このケースにおける“firetruck”と“warning”との関連性に興味がある。
【0424】
【数61】
が得られる。上記コーパス及びAKRMから、“warning”を特定した後に“firetruck”を特定する可能性は、“firetruck”を特定した後に“warning”を特定する可能性より低いと思われる。これらの値の更なる意味を知るため、
【0425】
【数62】
を計算した。“traffic(トラフィック)”内で“firetruck”を特定する可能性が更に低いことは妥当であると思われる。
【0428】
【数64】
とを得た。閾値(セクション3.5参照)を用いて、これらの値が有意であるかを検査する。計算により、AKRM内の全てのノード対からの同時確率の88%及び90%変位量は、それぞれ、0.009及び0.012である。同様に、全てのノード対からの条件付き確率の88%及び90%変位量は、それぞれ、0.203及び0.301である。故に、“firetruck”及び“warning”に関して以上にて計算した同時確率及び条件付き確率は何れも、全ての可能な対のうちの上位12%以内である。これは、比較的高い関連性の、ある程度の証拠を示すものである。
【0429】
参考文献
[1]I.Ben-Gal,“Bayesian networks,Encyclopedia of Statistics in Quality & Relialibility”,2007
[2]J.M.Bernardo,M.J.Bayarri,J.O.Berger,A.P.Dawid,D.Heckerman,A.F.M.Smith,M.West(eds,David M.Blei,Michael I.Jordan,Andrew Y.Ng.),“Hierarchical bayesian models for applications in information retrieval”, BAYESIAN STATISTICS 7,pp.25-43,2003
[3]D.Bollegala,Y.Matsuo,M.Ishizuka,“Measuring semantic similarity between words using web search engines”, Proceedings of 16th international conference on World Wide Web,pp.757-766,2007
[4]E.Gabrilovich,S.Markovitch,“Computing semantic relatedness using wikipedia-based explicit semantic analysis”,Proceedings of 20th International Joint Conference on Artificial Intelligence,pp.1606-1611,2007
[5]D.Hiemstra,“A probabilistic justification for using tf-idf term weighting in information retrieval”,International Journal on Digital Libraries,3(2):131-139,2000
[6]J.Jiang,D.Conrath,“Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference Research on Computational Linguistics”,1997
[7]K.S.Jones,“A statistical interpretation of term specificity and its application in retrieval”,Journal of Documentation,60(5):493-502,2004
[8]D.Lewis,“Naive (bayes) at forty: The independence assumption in information retrieval”,Lecture Notes in Computer Science,1398:4-15,1998
[9]D.Metzler,W.Croft,“A markov random field model for term dependencies”,Proceedings of SIGIR 2005,pp.472-479, 2005
[10]S.Robertson,“Understanding inverse document frequency: On theoretical arguments for idf”,Journal of Documentation,60(5):503-520,2004
[11]H.Rue,L.Held,“Gaussian Markov Random Fields: Theory and Applications”,volume 104 of Monographs on Statistics and Applied Probability,Chapman Sz Hall,London,2005
[12]N.Seco,T.Veale,J.Hayes,“An intrinsic information content metric for semantic similarity in wordnet”,Proceedings of 16th European Conference on Artificial Intelligence,pp.1089-1090,2004
[13]W.Song,X.Du,M.Munro,“A conceptual graph approach to semantic similarity computation method for e-service discovery”,International Journal on Knowledge Engineering and Data Mining,1(1):50-68,2010
[14]E.Terra,C.Clarke,“Frequency estimates for statistical word similarity measures”,Proceedings of 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,pp.165-172,2003
[15]H.Wang,F.Azuaje,O.Bodenreider,J.Dopazo,“Gene expression correlation and gene ontology-based similarity: An assessment of quantitative relationships”,Proceedings of IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology,pp.25-31,2004
[16]H.C.Wu,W.P.Luk,K.F.Wong,K.L.Kwok,“Interpreting tf-idf term weights as making relevance decisions”,ACM Transations on Information Systems,26(3),2008
[17]C.Zhai,“Statistical language models for information retrieval − a critical review”,Foundations and Trends in Information Retrieval,2(3):137-213,2008
VIII. 付記
以上の説明及び例から認識されるように、本発明の態様は、知識表現における非常に喫緊且つチャレンジングな適用領域(ブレインストーミング及び認知強化のためのツールを含む)のうちの一部に関係し、動的且つ緊急な知識を支援し、様々な複合的知識表現の共通の意味論的語彙への変換によって意味論的相互運用性を提供し得る。
【0430】
ここに記載の様々な発明態様は、複合的知識表現の解析及び合成にアトミック知識表現モデルを使用するための上述の動作のうちの何れかを行うようにプログラムされ得る1つ以上のプロセッサを各々が有する1つ以上のコンピュータ及び/又は装置とともに使用され得る。例えば、サーバ及びクライアントの双方のコンピューティングシステムが、上述のように1つ以上のコンピュータとして実現され得る。
図11は、本開示に係る様々な発明態様が実装され得る例示的なコンピュータ1100を模式的に示している。コンピュータ1100は、プロセッサ又は処理ユニット1101と、揮発性メモリ及び/又は不揮発性メモリを含み得るメモリ1102とを含んでいる。コンピュータ1100はまた、システムメモリ1102に加えて、ストレージ1105(例えば、1つ以上のディスクドライブ)を含み得る。
【0431】
メモリ1102及び/又はストレージ1105は、ここに記載の機能のうちの何れかを実行するように処理ユニット1101をプログラムする1つ以上のコンピュータ実行可能命令を格納し得る。ストレージ1105はまた、必要に応じて、1つ以上の必要なデータセットを格納し得る。例えば、サーバシステム100を実装するために使用されるコンピュータは、一部の実施形態において、AKRMデータセット110をストレージ1105内に格納し得る。他の例では、このようなデータセットは、サーバシステム100を実装するために使用されるコンピュータとは別に実装されてもよい。
【0432】
ここでのコンピュータへの言及は、プログラムされたプロセッサを有する如何なる装置をも含み得るものであり、例えば、ラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、又は、プログラムされたプロセッサを含んだ、一般にはコンピュータと見なされないこともある数多くの装置(例えば、PDA、MP3プレイヤ、携帯電話、無線式ヘッドフォンなど)の何れかを含む。
【0433】
例示のコンピュータ1100は、例えば
図11に示された装置1106及び1107などの、1つ以上の入力装置及び/又は出力装置を有し得る。これらの装置は、とりわけ、ユーザインタフェースを提供するために使用され得る。ユーザインタフェースを提供するために使用されることが可能な出力装置の例は、出力の視覚提示のためのプリンタ又は表示スクリーン、又は出力の聴覚提示のためのその他の音声生成装置を含む。ユーザインタフェースのために使用されることが可能な入力装置の例は、キーボード、例えばマウスなどのポインティング装置、タッチパッド、及び離散化タブレットを含む。他の一例として、コンピュータは入力情報を、音声認識により、あるいはその他の可聴形式にて受信してもよい。
【0434】
図11に示すように、コンピュータ1100はまた、様々なネットワーク(例えば、ネットワーク1120)を介した通信を可能にするため、1つ以上のネットワークインタフェース(例えば、ネットワークインタフェース1110)を有し得る。ネットワークの例は、例えば企業ネットワーク又はインターネットなどの、ローカルエリアネットワーク又はワイドエリアネットワークを含む。このようなネットワークは、好適な如何なる技術に基づくものであってもよく、好適な如何なるプロトコルに従って動作するものであってもよく、また、無線ネットワーク、有線ネットワーク又は光ファイバネットワークを含んでいてもよい。
【0435】
斯くして本発明の少なくとも1つの実施形態の幾つかの態様を説明したが、認識されるように、様々な改変、変更及び改良が当業者に容易に浮かぶことになる。そのような改変、変更及び改良は、本開示の一部であり、本発明の精神及び範囲の中にあることが意図されるものである。従って、以上の説明及び図面は単なる例示である。
【0436】
本発明の上述の実施形態は、数多くある手法のうちの何れかで実装されることができる。例えば、これらの実施形態は、ハードウェア、ソフトウェア、又はこれらの組合せを用いて実装され得る。ソフトウェアで実装されるとき、そのソフトウェアコードが、好適な1つのプロセッサ又は複数プロセッサ(単一のコンピュータ内に配設されていてもよいし、複数のコンピュータ間に分散されていてもよい)の集合上で実行され得る。このようなプロセッサは、集積回路コンポーネント内に1つ以上のプロセッサを備えた集積回路として実装され得る。とはいえ、プロセッサは、好適な如何なる形態の回路を用いて実装されてもよい。
【0437】
また、認識されるように、コンピュータは、例えばラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ又はタブレットコンピュータなど、数多くある形態のうちの何れで具現化されてもよい。また、コンピュータは、一般にはコンピュータと見なされないが好適な処理能力を有する装置(携帯情報端末(PDA)、スマートフォン、又はその他の好適な可搬式あるいは固定式の電子装置を含む)にて具現化されてもよい。
【0438】
また、コンピュータは、1つ以上の入出力装置を有し得る。これらの装置は、とりわけ、ユーザインタフェースを提供するために使用され得る。ユーザインタフェースを提供するために使用されることが可能な出力装置の例は、出力の視覚提示のためのプリンタ又は表示スクリーン、又は出力の聴覚提示のためのその他の音声生成装置を含む。ユーザインタフェースのために使用されることが可能な入力装置の例は、キーボード、例えばマウスなどのポインティング装置、タッチパッド、及び離散化タブレットを含む。他の一例として、コンピュータは入力情報を、音声認識により、あるいはその他の可聴形式にて受信してもよい。
【0439】
このような複数のコンピュータは、例えば企業ネットワーク又はインターネットなど、ローカルエリアネットワーク又はワイドエリアネットワークを含む何らかの好適な形態の1つ以上のネットワークによって相互接続され得る。このようなネットワークは、好適な如何なる技術に基づくものであってもよく、好適な如何なるプロトコルに従って動作するものであってもよく、また、無線ネットワーク、有線ネットワーク又は光ファイバネットワークを含んでいてもよい。
【0440】
また、ここに概説された様々な方法又はプロセスは、多様なオペレーティングシステム又はプラットホームのうちの何れかを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。また、そのようなソフトウェアは、数多くの好適なプログラミング言語及び/又はプログラムツール若しくはスクリプトツールのうちの何れを用いて記述されてもよく、また、フレームワーク又は仮想マシン上で実行される実行可能な機械語又は中間コードとしてコンパイルされることができる。
【0441】
これに関し、本発明は、1つ以上のコンピュータ又はその他のプロセッサ上で実行されるときに上述の本発明の様々な実施形態を実現する方法を実行する1つ以上のプログラムがエンコードされた、有形で持続的な、1つ以上のコンピュータ読み取り可能記憶媒体(例えば、コンピュータメモリ、1つ以上のフロッピー(登録商標)ディスク、コンパクトディスク(CD)、光ディスク、デジタルビデオディスク(DVD)、磁気テープ、フラッシュメモリ、フィールド・プログラマブル・ゲート・アレイ(FPGA)若しくはその他の半導体デバイスの回路構成、又はその他の持続的な有形コンピュータ読み取り可能記憶媒体)として具現化されてもよい。該1つ以上のコンピュータ読み取り可能記憶媒体は輸送可能なものにすることができ、故に、それに格納された1つ以上のプログラムを1つ以上の異なるコンピュータ又はその他のプロセッサにロードして、上述の本発明の様々な態様を実現することができる。ここでは、用語“持続的なコンピュータ読み取り可能記憶媒体”は、製造物(すなわち、製造品)又は機械であると考えられることが可能なコンピュータ読み取り可能媒体のみを包含するものとして使用される。
【0442】
用語“プログラム”又は“ソフトウェア”は、ここでは、上述の本発明の様々な態様を実行するようにコンピュータ又はその他のプロセッサをプログラムするために使用されることが可能な、如何なる種類のコンピュータコード又はコンピュータ実行可能命令のセットをも意味するよう、包括的な意味で使用される。また、認識されるように、この実施形態の一態様によれば、実行されるときに本発明に係る方法を実行する1つ以上のコンピュータプログラムは、必ずしも単一のコンピュータ又はプロセッサ上に存在する必要はなく、本発明の様々な態様を実行するように多数の異なるコンピュータ又はプロセッサ間にモジュール的に分散されてもよい。pコンピュータ実行可能命令は、例えばプログラムモジュールなど、1つ以上のコンピュータ又はその他の装置によって実行される数多くの形態を取り得る。一般に、プログラムモジュールは、特定のタスクを実行したり特定の抽象的なデータ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。典型的に、プログラムモジュールの機能は、様々な実施形態において、望ましく結合あるいは分散され得る。
【0443】
また、データ構造は、好適な如何なる形態でコンピュータ読み取り可能媒体に格納されてもよい。説明を単純にするため、データ構造はそのデータ構造内の位置によって関係付けられる複数のフィールドを有するように示され得る。そのような関係は、同様に、コンピュータ読み取り可能媒体内の位置を有するこれらフィールドに、フィールド間の関係を伝達するストレージを割り当てることによって達成され得る。しかしながら、データ構造のフィールド内の情報間の関係を構築することには、ポインタ、タグ、又はデータ要素間の関係を定めるその他の機構の使用によるものを含め、好適な如何なる機構が用いられてもよい。
【0444】
本発明の様々な態様は、単独で、組み合わせて、あるいは上述実施形態では詳述されていない多様な構成で使用されることができ、故に、以上の記載にて説明されるか図面に示されるかした構成要素の詳細及び構成への適用に限定されるものではない。例えば、1つの実施形態で説明された態様が、その他の実施形態で説明された態様と何らかの手法で組み合わされてもよい。
【0445】
また、本発明は方法(ここではその一例を提示した)として具現化されてもよい。方法の部分として実行されるステップ群は、どのように好適に順序付けられてもよい。従って、ステップ群が例示とは異なる順序で実行される実施形態が構成されてもよい。それには、例示の実施形態では順次のステップ群として示されたものを同時に実行するものも含まれ得る。
【0446】
請求項中でクレーム要素を修飾する例えば“第1”、“第2”、“第3”などの序数用語の使用は、それ自体、何らかの優先順位、順位、1つのクレーム要素の別のクレーム要素に対する順番、又は方法のステップ群が実行される順序を含意するものではなく、単に、特定の名称を有する1つのクレーム要素を(序数用語の使用を除いて)同じ名称を有する別の要素から区別してこれらのクレーム要素を区別するためのラベルとして使用されているに過ぎない。
【0447】
ここで定義されて使用される全ての定義は、辞書での定義、援用した文献における定義、及び/又は定義された用語の通常の意味を掌握するものとして理解されるべきである。
【0448】
不定冠詞“a”及び“an”は、ここでは、別のことが明示されない限り、“少なくとも1つ”を意味すると理解されるべきである。
【0449】
1つ以上の要素を含んだリストを参照しての“少なくとも1つ”というフレーズの使用は、ここでは、その要素リスト内の要素のうちの1つ以上から選択される少なくとも1つを意味するものとして理解されるべきであり、必ずしもその要素リスト内に具体的に列挙された全ての要素各々を少なくとも1つ含むわけではなく、また、その要素リスト内の複数の要素の組合せを排除するわけでもない。この定義はまた、“少なくとも1つ”というフレーズが参照する要素リスト内に具体的に特定された要素以外の要素が、具体的に特定された要素に関係していようと無関係であろうと、場合によって存在し得ることを許すものである。故に、非限定的な一例として、“A及びBのうちの少なくとも1つ”(又は、等価的に、“A又はBのうちの少なくとも1つ”、“A及び/又はBのうちの少なくとも1つ”)は:一実施形態において、Bが存在せずに(場合により、B以外の要素を含む)、場合により2つ以上である少なくとも1つのA;他の一実施形態において、Aが存在せずに(場合により、A以外の要素を含む)、場合により2つ以上である少なくとも1つのB;更なる他の一実施形態において、場合により2つ以上である少なくとも1つのA、及び場合により2つ以上である少なくとも1つのB(及び、場合によりその他の要素を含む);などを意味することができる。
【0450】
“及び/又は”(又は、“且つ/或いは”)というフレーズは、そのように結合された要素のうちの“何れか又は双方”、すなわち、或る場合には結合して存在し、他の場合には分離して存在する要素、を意味すると理解されるべきである。“及び/又は”を用いて列挙された複数の要素は、同じように、すなわち、そのように結合された要素のうちの“1つ以上”として解釈されるべきである。“及び/又は”節によって具体的に特定された要素以外の要素が、具体的に特定された要素に関係していようと無関係であろうと、場合により存在し得る。故に、非限定的な一例として、“A及び/又はB”への言及は、例えば“有する”などの非限定語とともに使用されるとき:一実施形態において、Aのみ(場合により、B以外の要素を含む);他の一実施形態において、Bのみ(場合により、A以外の要素を含む);更なる他の一実施形態において、A及びBの双方(場合により、その他の要素を含む);などを意味することができる。
【0451】
“又は”(又は、“若しくは”、“或いは”)は、ここでは、上で定義した“及び/又は”と同じ意味を有すると理解されるべきである。例えば、リスト内で複数のアイテムを区切るとき、“又は”及び“及び/又は”は包含的であるとして、すなわち、複数の要素又はリストにされた要素のうちの、1つだけでなく、2つ以上をも含み、場合により、リストにない更なる要素をも含む、として解釈されるべきである。
【0452】
また、ここで使用される言葉の使用法及び専門用語は、説明を目的としたものであり、限定的なものと見なされるべきでない。“含み”、“有する”、“持つ”、“含有する”、“伴う”、及びこれらの変形の使用は、ここでは、その後に列挙されるアイテム及びそれに均等なもの、並びに更なるアイテムを包含することを意味する。
【0453】
本発明の幾つかの実施形態を詳細に説明したが、様々な変更及び改良が当業者に容易に浮かぶことになる。そのような変更及び改良は、本発明の精神及び範囲の中にあることが意図されるものである。従って、以上の説明は単なる例示であり、限定を意図したものではない。
(1) 知識表現システムのコンピュータ読み取り可能な要素的データ構造を変更する方法であって、
前記知識表現システムの出力から前記知識表現システムの入力に1つ以上のデータ消費者モデルをフィードバックするステップであり、前記1つ以上のデータ消費者モデルはそれぞれの前記知識表現システムの一人以上のデータ消費者に対応し、前記1つ以上のデータ消費者モデルは第1のデータ消費者モデルを含み、前記一人以上のデータ消費者は第1のデータ消費者を含む、ステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上のルールを適用して、前記1つ以上のデータ消費者モデルを、第1の要素コンポーネントを含む少なくとも1つの要素コンポーネントへと分解するステップと、
前記第1の要素コンポーネントに関連するデータを含むように前記要素的データ構造を変更するステップと
を有し、
前記1つ以上のデータ消費者モデルは、前記1つ以上のデータ消費者モデルに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化され、且つ
前記少なくとも1つの要素コンポーネントは、前記少なくとも1つの要素コンポーネントに関連するデータを格納する少なくとも1つのコンピュータ読み取り可能データ構造として符号化される、
方法。
(2) 前記第1のデータ消費者モデルは、前記第1のデータ消費者に関連するコンテキスト情報を有する、上記(1)に記載の方法。
(3) 前記第1のデータ消費者モデルは、前記第1のデータ消費者に関連するコンテキスト情報に応答して前記知識表現システムによって前記第1のデータ消費者に提供された1つ以上の知識表現を有する、上記(1)に記載の方法。
(4) 前記第1のデータ消費者モデルは、前記第1のデータ消費者に提供された前記1つ以上の知識表現との前記第1のデータ消費者のインタラクションに対応するインタラクションデータを有する、上記(3)に記載の方法。
(5) 前記第1のデータ消費者の前記インタラクションは、前記第1のデータ消費者に提供された前記1つ以上の知識表現の中から前記第1のデータ消費者が第1の知識表現を選択したことを有する、上記(4)に記載の方法。
(6) 前記第1のデータ消費者の前記インタラクションは、前記第1のデータ消費者に提供された前記1つ以上の知識表現の中から前記第1のデータ消費者が第1の知識表現の一部を選択したことを有する、上記(4)に記載の方法。
(7) 前記第1のデータ消費者モデルは、前記第1のデータ消費者に関連する、クエリ情報、人口学的情報、経歴情報、雇用情報、家族情報、嗜好情報、興味情報、経済的情報、地理位置情報、閲覧履歴情報、ウェブサイトプロフィール情報、又はソーシャルネットワーキングプロフィール情報、のうちの少なくとも1つを有する、上記(1)に記載の方法。
(8) 前記第1のデータ消費者は個人である、上記(1)に記載の方法。
(9) 前記第1のデータ消費者はソフトウェアモジュールである、上記(1)に記載の方法。
(10) 前記第1の要素コンポーネントに関連する前記データを含むように前記要素的データ構造を変更するステップは、前記第1の要素コンポーネントに関連する前記データを前記要素的データ構造に追加することを有する、上記(1)に記載の方法。
(11) 前記第1の要素コンポーネントは、第1の要素概念、第1の要素概念関係、又は第1の要素概念と第1の要素概念関係、のうちの少なくとも1つを有する、上記(1)に記載の方法。
(12) 第1の要素概念に関連するデータと第2の要素概念に関連するデータとを融合して、融合された要素概念に関連するデータを形成することによって、該第1の要素概念と該第2の要素概念との要素概念帰着を実行するステップ、を更に有する上記(1)に記載の方法。
(13) 知識表現システムのコンピュータ読み取り可能な要素的データ構造を変更する方法であって、
前記知識表現システムの出力から前記知識表現システムの入力に1つ以上のデータ消費者モデルをフィードバックするステップであり、前記1つ以上のデータ消費者モデルはそれぞれの前記知識表現システムの一人以上のデータ消費者に対応し、前記1つ以上のデータ消費者モデルは第1のデータ消費者モデルを含み、前記一人以上のデータ消費者は第1のデータ消費者を含む、ステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上のルールを適用して、前記1つ以上のデータ消費者モデルを、第1の要素コンポーネントを含む少なくとも1つの要素コンポーネントへと分解するステップと、
前記第1の要素コンポーネントが母集団の一部と関連するかを評価するステップであり、該一部は閾値部分を超えるステップと、
前記一部が前記閾値部分を超える場合に、前記第1の要素コンポーネントに関連するデータを含むように前記要素的データ構造を変更するステップと
を有し、
前記1つ以上のデータ消費者モデルは、前記1つ以上のデータ消費者モデルに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化され、且つ
前記少なくとも1つの要素コンポーネントは、前記少なくとも1つの要素コンポーネントに関連するデータを格納する少なくとも1つのコンピュータ読み取り可能データ構造として符号化される、
方法。
(14) 知識表現システムの1つ以上のコンピュータ読み取り可能要素的データ構造を変更する方法であって、
前記知識表現システムの出力から前記知識表現システムの入力に1つ以上のデータ消費者モデルをフィードバックするステップであり、前記1つ以上のデータ消費者モデルはそれぞれの前記知識表現システムの一人以上のデータ消費者に対応する、ステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上のルールを適用して、前記1つ以上のデータ消費者モデルのうちの第1のデータ消費者モデルを少なくとも1つの要素コンポーネントへと分解するステップであり、前記第1のデータ消費者モデルは前記一人以上のデータ消費者のうちの第1のデータ消費者に対応する、ステップと、
前記1つ以上のコンピュータ読み取り可能要素的データ構造のうちの1つの要素的データ構造を選択するステップであり、選択された要素的データ構造は前記第1のデータ消費者に対応する、ステップと、
前記少なくとも1つの要素コンポーネントのうちの第1の要素コンポーネントに関連するデータを含むように、前記選択された要素的データ構造を変更するステップと、
を有する方法。
(15) 前記1つ以上のデータ消費者モデルのうちの第2のデータ消費者モデルは、前記一人以上のデータ消費者のうちの第2のデータ消費者に対応し、
前記1つ以上のコンピュータ読み取り可能要素的データ構造のうちの第2の要素的データ構造は、前記選択された要素的データ構造とは異なり、且つ
前記選択された要素的データ構造と前記第2の要素的データ構造との間の相違は、前記第1のデータ消費者モデルと前記第2のデータ消費者モデルとの間の相違に対応する、
上記(14)に記載の方法。
(16) コンピュータ読み取り可能な要素的データ構造を変更する知識表現装置であって、
当該知識表現装置の出力から当該知識表現装置の入力に1つ以上のデータ消費者モデルを送るように構成されたフィードバックエンジンであり、前記1つ以上のデータ消費者モデルはそれぞれの前記知識表現装置の一人以上のデータ消費者に対応し、前記1つ以上のデータ消費者モデルは第1のデータ消費者モデルを含み、前記一人以上のデータ消費者は第1のデータ消費者を含む、フィードバックエンジンと、
解析エンジンであり、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上のルールを適用して、前記1つ以上のデータ消費者モデルを、第1の要素コンポーネントを含む少なくとも1つの要素コンポーネントへと分解し、且つ
前記第1の要素コンポーネントに関連するデータを含むように前記要素的データ構造を変更する
ように構成された解析エンジンと
を有し、
前記1つ以上のデータ消費者モデルは、前記1つ以上のデータ消費者モデルに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化され、且つ
前記少なくとも1つの要素コンポーネントは、前記少なくとも1つの要素コンポーネントに関連するデータを格納する少なくとも1つのコンピュータ読み取り可能データ構造として符号化される、
知識表現装置。
(17) コンピュータ読み取り可能な要素的データ構造を変更する方法であって、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、前記要素的データ構造の要素コンポーネントに関する関連性を推定するステップであり、前記要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を評価することを有するステップと、
前記要素的データ構造を変更するステップであり、前記要素コンポーネントに関連するデータ内に前記関連性を格納することを有するステップと
を有し、
前記要素コンポーネントは、前記要素コンポーネントに関連する前記データを格納するコンピュータ読み取り可能データ構造として符号化される、
方法。
(18) 当該方法は更に、格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上のルールを適用して、知識表現を、前記要素コンポーネントを含む1つ以上の要素コンポーネントへと分解するステップを有し、前記要素的データ構造を変更するステップは更に、前記1つ以上の要素コンポーネントに関連するデータを前記要素的データ構造に追加することを有する、上記(17)に記載の方法。
(19) 前記1つ以上のラベルの前記発生頻度を評価することは、参照データに関する統計を得ることを有する、上記(17)に記載の方法。
(20) 前記要素的データ構造の前記要素コンポーネントに関する前記関連性は、前記要素的データ構造の要素概念に関する概念関連性を有し、且つ
前記要素コンポーネントに関連付けられる前記1つ以上のラベルは、前記要素概念に関連付けられるラベルを有する、
上記(17)に記載の方法。
(21) 前記要素的データ構造の前記要素コンポーネントに関する前記関連性は、前記要素的データ構造の要素概念関係に関する関係関連性を有する、上記(17)に記載の方法。
(22) 前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの用語頻度を評価することを有する、上記(20)に記載の方法。
(23) 前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの用語−文献頻度を評価することを有する、上記(20)に記載の方法。
(24) 前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、前記参照データの少なくとも一部内での前記ラベルの逆文献頻度を評価することを有する、上記(20)に記載の方法。
(25) 前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、Docs(L1及びL2)/NumDocsなる式に従って用語−文献頻度を評価することを有し、ただし、
前記要素概念関係は、第1の要素概念と第2の要素概念と2関係し、
L1は、前記第1の要素概念に関連付けられる第1のラベルを表し、
L2は、前記第2の要素概念に関連付けられる第2のラベルを表し、
Docs(L1及びL2)は、前記第1のラベルと前記第2のラベルとを含んだ、前記参照データの少なくとも一部内の文献の数を表し、且つ
NumDocsは、前記参照データの前記少なくとも一部内の文献の数を表す、
上記(21)に記載の方法。
(26) 文献は、文、複数の文、段落、又は複数の段落、のうちの少なくとも1つからなる、上記(25)に記載の方法。
(27)
NumDocsは、前記第1のラベル及び前記第2のラベルのうちの少なくとも一方を含んだ前記参照データの前記少なくとも一部内の文献の数を表す、上記(25)に記載の方法。
(28) 前記要素コンポーネントに関連付けられる前記1つ以上のラベルの前記参照データ内での前記発生頻度を評価することは、検索エンジンを用いて、前記要素コンポーネントに関連付けられる前記1つ以上のラベルを含んだ文献について前記参照データを検索することを有する、上記(17)に記載の方法。
(29) 要素的データ構造に関連付けられるコンピュータ読み取り可能な図形モデルを変更する方法であって、前記要素的データ構造は1つ以上の要素コンポーネントを有し、前記1つ以上の要素コンポーネントは1つ以上の要素概念と1つ以上の要素概念関係とを有し、当該方法は、
前記要素的データ構造に関連付けられる前記図形モデルを取得するステップであり、前記図形モデルは1つ以上の図形コンポーネントを有し、前記1つ以上の図形コンポーネントは、
前記要素的データ構造の前記1つ以上の要素概念に対応する1つ以上のノードと、
前記1つ以上のノードに付随する1つ以上のエッジであり、前記要素的データ構造の前記1つ以上の要素概念関係に対応する1つ以上のエッジと
を有する、取得するステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、要素コンポーネントのセマンティックコヒーレンスを評価するステップと、
前記セマンティックコヒーレンスに対応する確率を前記図形モデルの図形コンポーネントに割り当てることによって、前記図形モデルを変更するステップと
を有し、
前記1つ以上の要素コンポーネントは、前記1つ以上の要素コンポーネントに関連するデータを格納する1つ以上のそれぞれのコンピュータ読み取り可能データ構造として符号化され、
前記1つ以上の図形コンポーネントは、前記1つ以上の図形コンポーネントに関連するデータを格納する1つ以上のそれぞれのコンピュータ読み取り可能データ構造として符号化され、
前記要素コンポーネントは、前記要素コンポーネントに関連するデータを格納するコンピュータ読み取り可能データ構造として符号化され、且つ
前記図形コンポーネントは、前記図形コンポーネントに関連するデータを格納するコンピュータ読み取り可能データ構造として符号化される、
方法。
(30) 前記セマンティックコヒーレンスを評価するステップは、前記要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を評価することを有する、上記(29)に記載の方法。
(31) 前記要素コンポーネントは要素概念関係を有し、該要素概念関係は、第1の要素概念と第2の要素概念とに関係し、且つ
前記要素コンポーネントの前記セマンティックコヒーレンスを評価するステップは、前記第1の要素概念と前記第2の要素概念とに関する同時確率を計算することを有する、
上記(29)に記載の方法。
(32) 当該方法は更に、前記要素的データ構造を変更するステップを有し、
前記要素コンポーネントは要素概念関係を有し、該要素概念関係は、前記1つ以上の要素概念のうちの第1の要素概念と第2の要素概念との間にあり、
前記1つ以上のラベルは、前記第1の要素概念に関連付けられる第1のラベルと、前記第2の要素概念に関連付けられる第2のラベルとを有し、
前記図形コンポーネントは前記図形モデルのエッジを有し、該エッジは該要素概念関係に対応し、且つ
前記要素的データ構造を変更するステップは、前記セマンティックコヒーレンスが閾値を上回る場合に該要素概念関係を前記要素的データ構造に追加することを有する、
上記(29)に記載の方法。
(33) 当該方法は更に、前記要素的データ構造を変更するステップを有し、
前記要素コンポーネントは要素概念関係を有し、該要素概念関係は、前記1つ以上の要素概念のうちの第1の要素概念と第2の要素概念との間にあり、
前記1つ以上のラベルは、前記第1の要素概念に関連付けられる第1のラベルと、前記第2の要素概念に関連付けられる第2のラベルとを有し、
前記図形コンポーネントは前記図形モデルのエッジを有し、該エッジは該要素概念関係に対応し、
前記要素的データ構造は該要素概念関係を有し、且つ
前記要素的データ構造を変更するステップは、該要素概念関係の前記セマンティックコヒーレンスが閾値より低い場合に該要素概念関係を前記要素的データ構造から除去することを有する、
上記(29)に記載の方法。
(34) 当該方法は更に、前記要素的データ構造を変更するステップを有し、
前記要素コンポーネントは要素概念を有し、
前記1つ以上のラベルは、該要素概念に関連付けられる第1のラベルを有し、
前記図形コンポーネントは前記図形モデルのノードを有し、該ノードは該要素概念に対応し、且つ
前記要素的データ構造を変更するステップは、前記セマンティックコヒーレンスが閾値を上回る場合に該要素概念を前記要素的データ構造に追加することを有する、
上記(29)に記載の方法。
(35) 当該方法は更に、前記要素的データ構造を変更するステップを有し、
前記要素コンポーネントは要素概念を有し、
前記1つ以上のラベルは、該要素概念に関連付けられる第1のラベルを有し、
前記図形コンポーネントは前記図形モデルのノードを有し、該ノードは該要素概念に対応し、
前記要素的データ構造は該要素概念を有し、且つ
前記要素的データ構造を変更するステップは、該要素概念の前記セマンティックコヒーレンスが閾値より低い場合に該要素概念を前記要素的データ構造から除去することを有する、
上記(29)に記載の方法。
(36) コンピュータ読み取り可能な要素的データ構造を変更する知識表現装置であって、
確率ユニットであり、
前記要素的データ構造の要素コンポーネントに関する確率を推定し、該確率の推定は、前記要素コンポーネントに関連付けられる1つ以上のラベルの、参照データ内での発生頻度を評価することを有し、
前記要素コンポーネントに関連するデータ内に前記確率を格納して、前記要素的データ構造を変更する
ように構成された確率ユニット、
を有し、
前記要素コンポーネントは、前記要素コンポーネントに関連する前記データを格納するコンピュータ読み取り可能データ構造として符号化される、
知識表現装置。
(37) 知識表現システムのコンピュータ読み取り可能な要素的データ構造を変更する方法であって、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上の第1の解析ルールを適用して、知識表現を1つ以上の要素コンポーネントへと分解するステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、前記1つ以上の要素コンポーネントに関連するデータを前記要素的データ構造に追加するステップと、
前記要素的データ構造に関連する候補データを推論するステップであり、格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、所定の言語パターンに対応する言葉を参照データ内で検出することを有するステップと、
前記候補データと前記1つ以上の要素コンポーネントに関連するデータとを組み合わせるように前記要素的データ構造を変更するステップと、
を有し、
前記1つ以上の要素コンポーネントは、前記1つ以上の要素コンポーネントに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化され、且つ
前記参照データは、前記参照データに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化される、
方法。
(38) 前記候補データは、第2の要素概念が第1の要素概念を包摂することを指し示す第1の要素概念関係を有する、上記(37)に記載の方法。
(39) 前記所定の言語パターンに対応する前記言葉を検出することは、前記第1の要素概念に関連付けられる第1のラベルと、それに続く包摂表現と、それに続く前記第2の要素概念に関連付けられる第2のラベルとを、前記参照データ内で検出することを有し、前記包摂表現が、前記第2の要素概念が前記第1の要素概念を包摂することを示す、上記(38)に記載の方法。
(40) 前記包摂表現は、1つ以上の所定の単語、又は1つ以上の所定の記号、のうちの少なくとも一方を有する、上記(39)に記載の方法。
(41) 前記包摂表現は、“である”、“の一分野である”、又は“の一種である”のうちの少なくとも1つを有する、上記(39)に記載の方法。
(42) 前記所定の言語パターンに対応する前記言葉を前記参照データ内で検出することは、前記第1の要素概念に関連付けられる第1のラベルと前記第2の要素概念に関連付けられる第2のラベルとを前記参照データ内で検出することを有し、前記第1のラベルと前記第2のラベルとの近接性が近接性閾値内にある、上記(38)に記載の方法。
(43)
前記近接性閾値は、単語の数、文の数、又は段落の数、のうちの少なくとも1つである、上記(42)に記載の方法。
(44) 前記候補データは、第2の要素概念が第1の要素概念を定義することを指し示す第1の要素概念関係を有する、上記(37)に記載の方法。
(45) 前記所定の言語パターンに対応する前記言葉を前記参照データ内で検出することは、前記第1の要素概念に関連付けられる第1のラベルと、それに続く定義表現と、それに続く前記第2の要素概念に関連付けられる第2のラベルとを、前記参照データ内で検出することを有し、前記定義表現が、前記第1の要素概念が前記第2の要素概念によって定義されることを示す、上記(44)に記載の方法。
(46) 当該方法は更に、前記要素的データ構造に関連する第2の候補データを推論するステップを有し、該第2の候補データを推論するステップは、
前記要素的データ構造内で、1つ以上の第1の特性概念によって定義される第1の要素概念を特定し、
前記要素的データ構造内で、1つ以上の第2の特性概念によって定義される第2の要素概念を特定し、且つ
前記1つ以上の第2の特性概念内の各特性概念が、前記1つ以上の第1の特性概念内にあるか、前記1つ以上の第1の特性概念内の1つの特性概念を包摂するか、であることを決定する
ことを有する、上記(37)に記載の方法。
(47) 前記要素的データ構造は、前記第1の要素概念及び前記第2の要素概念を有し、且つ
前記候補データと前記1つ以上の要素コンポーネントに関連するデータとを組み合わせるように前記要素的データ構造を変更するステップは、前記第1の要素概念関係を前記要素的データ構造に追加することを有する、
上記(38)に記載の方法。
(48) 前記候補データは、第2の要素概念が第1の要素概念を包摂しないことを指し示す、上記(37)に記載の方法。
(49) 前記要素的データ構造は、前記第1の要素概念と前記第2の要素概念との間の要素概念関係を有し、該要素概念関係は、前記第2の要素概念が前記第1の要素概念を包摂することを指し示し、且つ
前記候補データと前記1つ以上の要素コンポーネントに関連するデータとを組み合わせるように前記要素的データ構造を変更するステップは、該要素概念関係を前記要素的データ構造から除去すること、又は該要素概念関係に関連する確率を低下させること、のうちの一方を有する、
上記(48)に記載の方法。
(50) 知識表現システムのコンピュータ読み取り可能な要素的データ構造を変更する方法であって、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上の第1の解析ルールを適用して、知識表現を1つ以上の要素コンポーネントへと分解するステップと、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、前記1つ以上の要素コンポーネントに関連するデータを前記要素的データ構造に追加するステップと、
或る要素概念関係の候補確率を推論するステップであり、格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上の要素推論ルールを前記要素的データ構造に適用することを有するステップと、
前記候補確率と前記1つ以上の要素コンポーネントに関連するデータとを組み合わせるように前記要素的データ構造を変更するステップと、
を有し、
前記1つ以上の要素コンポーネントは、前記1つ以上の要素コンポーネントに関連するデータを格納する1つ以上のコンピュータ読み取り可能データ構造として符号化される、
方法。
(51) 前記要素概念関係は、第2の要素概念が第1の要素概念を包摂することを指し示す、上記(50)に記載の方法。
(52) 前記1つ以上の要素推論ルールを前記要素的データ構造に適用することは、
前記要素的データ構造内で、第1の特性概念を含む1つ以上の第1の特性概念によって定義される第1の要素概念を特定し、
前記要素的データ構造内で、第2の特性概念を含む1つ以上の第2の特性概念によって定義される第2の要素概念を特定し、且つ
前記候補確率として、前記1つ以上の第2の特性概念内の各特性概念が、前記1つ以上の第1の特性概念内にあるか、前記1つ以上の第1の特性概念内の1つの特性概念を包摂するか、である確率を計算すること
を有する、上記(51)に記載の方法。
(53) 前記要素概念関係は、第2の要素概念が第1の要素概念を定義することを指し示す、上記(50)に記載の方法。
(54) 前記1つ以上の要素推論ルールは、前記第1の特性概念又は前記第2の特性概念のうちの少なくとも一方に関連するコンテキスト情報をユーザから受信したことに応答して、前記要素的データ構造に適用される、上記(51)に記載の方法。
(55) 前記1つ以上の要素推論ルールは、前記第1の特性概念又は前記第2の特性概念のうちの少なくとも一方に関連付けられるラベルが参照データ内で閾値レートを上回るレートで出現することを指し示すデータを得たことに応答して、前記要素的データ構造に適用される、上記(51)に記載の方法。
(56) 前記要素的データ構造は、前記要素概念関係と、前記要素概念関係に関連する確率とを有し、且つ
前記候補確率と前記1つ以上の要素コンポーネントに関連するデータとを組み合わせるように前記要素的データ構造を変更するステップは、前記要素概念関係に関連する前記確率を、前記候補確率、前記候補確率と前記要素概念関係に関連する前記確率との平均、又は前記候補確率と前記要素概念関係に関連する前記確率との関数、のうちの1つで置換することを有する、
上記(50)に記載の方法。
(57) コンピュータ読み取り可能な要素的データ構造を変更する知識表現装置であって、
推論ユニットであり、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、参照データ又は前記要素的データ構造のうちの少なくとも一方に1つ以上の推論的解析ルールを適用することによって、前記要素的データ構造に関連する候補データを推論し、且つ
前記候補データを前記要素的データ構造に組み入れることによって前記要素的データ構造を変更する
ように構成された推論ユニット、
を有する装置。
(58) 当該装置は更に解析ユニットを有し、該解析ユニットは、
格納されたプログラム命令を実行する少なくとも1つのプロセッサにより、1つ以上の第1の解析ルールを適用して、知識表現を1つ以上の要素コンポーネントへと分解し、且つ
前記1つ以上の要素コンポーネントに関連するデータを前記要素的データ構造に追加する
ように構成される、上記(57)に記載の装置。