(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024159522
(43)【公開日】2024-11-08
(54)【発明の名称】情報処理方法および装置
(51)【国際特許分類】
G06F 16/28 20190101AFI20241031BHJP
【FI】
G06F16/28
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024043380
(22)【出願日】2024-03-19
(31)【優先権主張番号】202310467096.1
(32)【優先日】2023-04-26
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ウェイ ツォンジエ
(72)【発明者】
【氏名】フェン ルー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA07
5B175CA09
5B175HB03
5B175KA12
(57)【要約】 (修正有)
【解決手段】情報処理方法は、1つまたは複数のメディア内容から複数の処理すべきイベントを決定することを含む。複数の処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有する。方法はまた、事柄グラフを構築するための既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定することを含む。追加イベント集合中の追加イベントは既存イベント集合中の既存イベントと異なる。方法はさらに、追加イベント集合に基づいて、事柄グラフを更新することを含む。
【効果】事柄グラフの漸進的な更新が実現され、事柄グラフの構築効率が向上する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
1つまたは複数のメディア内容から複数の処理すべきイベントを決定し、前記複数の処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有すること、
事柄グラフを構築するための既存イベント集合に基づいて、前記複数の処理すべきイベントから追加イベント集合を決定し、前記追加イベント集合中の追加イベントは前記既存イベント集合中の既存イベントと異なること、
前記追加イベント集合に基づいて、前記事柄グラフを更新すること、を含む、情報処理方法。
【請求項2】
前記追加イベント集合を決定することは、
前記複数の処理すべきイベント中の所与イベントに対して、前記所与イベントを記述するテキストと前記既存イベント集合中の各个既存イベントを記述するテキスト間の対応の一致度を決定すること、および
前記対応の一致度がすべて閾値一致度未満であるに応答して、前記所与イベントを追加イベントとして識別すること、を含む、請求項1に記載の方法。
【請求項3】
前記所与イベントを追加イベントとして識別することは、
前記所与イベントに関連する情報を記憶するために、前記事柄グラフのための文書型データベースに前記所与イベントに対応するアイテムを追加すること、および
前記アイテム中の追加イベントフィールドを追加イベントを示す所定値に設定すること、を含む、請求項2に記載の方法。
【請求項4】
前記事柄グラフの前記更新に応答して、前記所与イベントを追加イベントとして識別することをキャンセルする、請求項2に記載の方法。
【請求項5】
前記所与イベントを記述するテキストと第1既存イベントを記述するテキスト間の前記一致度が前記閾値一致度を超えることに応答して、前記文書型データベースの前記第1既存イベントに対応するアイテムに前記1つまたは複数のメディア内容中の目標メディア内容に関連する情報を記憶することをさらに含み、前記所与イベントが前記目標メディア内容かれ決定される、請求項3に記載の方法。
【請求項6】
前記事柄グラフを更新することは、
前記追加イベント集合中の第1追加イベントに対して、前記第1追加イベントを記述するテキスト中の第1テキスト要素を決定すること、
キー値型データベースに記憶され前記第1テキスト要素に対応する要素出現頻度情報を更新すること、
前記既存イベント集合中の第2既存イベントを決定し、前記第2既存イベントを記述するテキストは前記第1テキスト要素を含むこと、および
更新された前記要素出現頻度情報に基づいて、前記事柄グラフで前記第2既存イベントと第3既存イベント間のイベント関係の相関度を更新すること、を含む、請求項1に記載の方法。
【請求項7】
前記相関度を更新することは、
前記既存イベント集合または前記追加イベント集合中の前記第1追加イベントとイベント関係を有する第1イベント、および前記第1イベントを記述するテキスト中の第2テキスト要素を決定すること、
前記キー値型データベースに記憶され、前記第1テキスト要素が前記第2テキスト要素に関連して出現するのを示す要素対出現頻度情報を更新すること、および
前記第3既存イベントを記述するテキストが前記第2テキスト要素を含むことに応答して、さらに更新された前記要素対出現頻度情報に基づいて前記相関度を更新すること、を含む、請求項6に記載の方法。
【請求項8】
前記追加イベント集合中の第2追加イベントに対して、前記第2追加イベントと前記追加イベント集合または前記既存イベント集合中の第2イベントとの類似度を決定すること、および
前記類似度が閾値類似度を超えることに応答して、前記事柄グラフのための文書型データベースに前記第2追加イベントと前記第2イベント間の類似関係の指示を記憶すること、をさらに含む、請求項1に記載の方法。
【請求項9】
前記事柄グラフを更新することは、
前記第2追加イベントと、前記第2追加イベントと類似関係を有する少なくとも前記第2イベントを要約するための抽象イベントを決定すること、
前記事柄グラフで前記第2追加イベントおよび前記第2イベントを前記抽象イベントに対応付けること、および
前記事柄グラフの視覚的表現に、前記抽象イベントを表すノードを追加すること、を含む、請求項8に記載の方法。
【請求項10】
少なくとも1つの処理回路を含み、前記少なくとも1つの処理回路は請求項1~9のいずれか1項に記載の方法を実行するように構成される、電子装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の例示的な実施例は、一般にコンピュータの分野に関し、特に情報処理方法および装置に関する。
【背景技術】
【0002】
ネットワーク技術およびマルチメディア技術の発展に伴い、ニュースの数は日々指数関数的に増加している。ニュースからイベントを抽出し、事柄グラフを使用して異なるイベント間の関係を表現することができる。ニュースの数が日々増加するにつれて、抽出されるイベントの数も増加する。したがって、事柄グラフを適宜に更新する必要がある。新しいニュースを取得するたびに、新しく取得されたニュースを過去ニュースとともに使用して事柄グラフを一から構築するのでは、事柄グラフの構築効率が非常に低い。事柄グラフの構築は複雑なプロセスである。構築に関与するデータ量の増加に伴い、事柄グラフの構築難易度も大幅に向上する。したがって、事柄グラフを効率的に構築するための解決策が期待されている。
【発明の概要】
【0003】
本開示の第1態様では、情報処理方法を提供する。該方法は、1つまたは複数のメディア内容から複数の処理すべきイベントを決定し、複数の処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有すること、事柄グラフを構築するための既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定し、追加イベント集合中の追加イベントは既存イベント集合中の既存イベントと異なること、および追加イベント集合に基づいて、事柄グラフを更新すること、を含む。
【0004】
本開示の第2態様では、電子装置を提供する。該電子装置は、少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、1つまたは複数のメディア内容から複数の処理すべきイベントを決定し、複数の処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有し、事柄グラフを構築するための既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定し、追加イベント集合中の追加イベントは既存イベント集合中の既存イベントと異なり、追加イベント集合に基づいて、事柄グラフを更新するように構成される。
【0005】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、複数の処理すべきイベント中の所与イベントに対して、所与イベントを記述するテキストと既存イベント集合中の各个既存イベントを記述するテキスト間の対応の一致度を決定し、対応の一致度がすべて閾値一致度よりも小さいことに応答して、所与イベントを追加イベントとして識別するように構成される。
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、所与イベントに関連する情報を記憶するために、事柄グラフのための文書型データベースに所与イベントに対応するアイテムを追加し、アイテム中の追加イベントフィールドを追加イベントを示す所定値に設定するように構成される。
【0006】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、事柄グラフの更新に応答して、所与イベントを追加イベントとして識別することをキャンセルするように構成される。
【0007】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、所与イベントを記述するテキストと第1既存イベントを記述するテキスト間の一致度が閾値一致度を超えることに応答して、文書型データベースと第1既存イベントに対応するアイテムに1つまたは複数のメディア内容中の目標メディア内容に関連する情報を記憶するように構成され、所与イベントは目標メディア内容から決定される。
【0008】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、追加イベント集合中の第1追加イベントに対して、第1追加イベントを記述するテキスト中の第1テキスト要素を決定し、キー値型データベースに記憶され第1テキスト要素に対応する要素出現頻度情報を更新し、既存イベント集合中の第2既存イベントを決定し、第2既存イベントを記述するテキストは第1テキスト要素を含み、更新された要素出現頻度情報に基づいて、事柄グラフで第2既存イベントと第3既存イベント間のイベント関係の相関度を更新する。
【0009】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、既存イベント集合または追加イベント集合中の第1追加イベントとイベント関係を有する第1イベントおよび第1イベントを記述するテキスト中の第2テキスト要素を決定し、キー値型データベースに記憶され、第1テキスト要素が第2テキスト要素に関連して出現するのを指示する要素対出現頻度情報を更新し、第3既存イベントを記述するテキストが第2テキスト要素を含むことに応答して、さらに更新された要素対出現頻度情報に基づいて相関度を更新するように構成される。
【0010】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、追加イベント集合中の第2追加イベントに対して、第2追加イベントと追加イベント集合または既存イベント集合中の第2イベントの類似度を決定し、類似度が閾値類似度を超えることに応答して、事柄グラフのための文書型データベースに第2追加イベントと第2イベント間の類似関係の指示を記憶する。
【0011】
第2態様のいくつかの実施例では、少なくとも1つの処理回路はさらに、第2追加イベントと、第2追加イベントと類似関係を有する少なくとも第2イベントの抽象イベントとを要約し、事柄グラフで第2追加イベントおよび第2イベントを抽象イベントに対応付け、事柄グラフの視覚的表現に抽象イベントを表現するノードを追加するように構成される。
【0012】
本開示の第3態様では、電子装置を提供する。該装置は、少なくとも1つの処理ユニット、および少なくとも1つのメモリを含み、少なくとも1つのメモリは少なくとも1つの処理ユニットに結合され、少なくとも1つの処理ユニットによって実行される指令を記憶するように構成される。指令が少なくとも1つの処理ユニットによって実行されると装置が第1態様の方法を実行する。
【0013】
本開示の第4態様では、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、コンピュータプログラムがプロセッサによって実行されると第1態様の方法を実現する。
【0014】
なお、本発明の概要の項に記載された内容は、本開示の実施例のキー特徴または重要な特徴を限定するものではなく、本開示の範囲を限定するものもではない。本開示の他の特徴は以下の説明によってより容易に理解され得ることを理解されたい。
【図面の簡単な説明】
【0015】
添付図面と併せて、以下の詳細な説明を参照することにより、本開示の各実施例の上記および他の特徴、利点及態様はより明らかになるであろう。添付図面では、同一または類似の符号は同一または類似の要素を示す。
【0016】
【
図1】本開示の実施例が実現され得る例示的環境を示す概略図である。
【
図2】本開示のいくつかの実施例による情報処理の例示的なアーキテクチャを示す概略図である。
【
図3】本開示のいくつかの実施例によるイベント処理フローを示す概略図である。
【
図4】本開示のいくつかの実施例による事柄グラフの漸進的な構築のランタイムを示す概略図である。
【
図5】本開示のいくつかの実施例による情報処理のプロセスを示すフローチャートである。
【
図6】本開示を実施する複数の実施例の電子装置を示すブロック図である。
【発明を実施するための形態】
【0017】
以下、添付図面を参照しながら本開示の実施例をより詳細に説明する。添付図面に本開示のいくつかの実施例が示されているが、本開示は様々な形態で実施され得、ここでの実施例に限定されなく、これらの実施例は、本開示をより徹底的かつ完全に理解するために使用されることを理解されたい。本開示の添付図面および実施例は例示的な目的でのみ使用され、本開示の保護範囲を限定することを意図するものではないことを理解されたい。
【0018】
なお、本明細書で提供されるあらゆるセクション/サブセクションのタイトルは限定的なものではないことに留意されたい。本明細書全体を通じて様々な実施例が記載されており、任意の実施例は任意のセクション/サブセクションに含まれ得る。さらに、任意セクション/サブセクションに記載された実施例は、任意の形態で同一セクション/サブセクションおよび/または異なるセクション/サブセクションに記載された任意の他の実施例と組み合わせることができる。
【0019】
本開示の実施例の説明において、用語「含む」および類似の用語は広義的な包含として理解されたく、すなわち、「含むが、これに限定されない」。「基づく」という用語は「少なくとも部分的に基づく」を意味する。「一実施例」または「該実施例」とは「少なくとも1つの実施例」を意味する。「いくつかの実施例」とは「少なくともいくつかの実施例」を意味する。以下に、明確的および暗示的な定義を含み得る。
【0020】
本明細書で使用される「回路」の用語はハードウェア回路および/またはハードウェア回路とソフトウエアの組み合わせを意味する。例えば、回路は、アナログおよび/またはデジタルハードウェア回路とソフトウエア/ファームウェアの組み合わせであってもよい。別の例として、回路は、ソフトウエアを含むハードウェアプロセッサの任意の部分であってもよく、ハードウェアプロセッサは(複数の)デジタル信号プロセッサ、ソフトウエアおよび(複数の)メモリを含み、それらは協働して装置が動作し、各種の機能を実行する。別の例では、回路はハードウェア回路および/またはプロセッサ、例えばマイクロプロセッサまたはマイクロプロセッサの一部であってもよく、操作のためのソフトウエア/ファームウェアを必要とするが、操作する必要がない場合ソフトウエアがなくてもよい。本明細書で使用される用語「回路」は、ハードウェア回路またはプロセッサのみ、またはハードウェア回路またはプロセッサの一部およびその(またはそれらの)付随ソフトウエアおよび/またはファームウェアの実装も含み得る。
【0021】
本明細書で使用される用語「イベント」とは、参加者が参加する何らかの行動または状況の発生、または客観的な状態の変化を指す。イベントを記述するテキストは複数の単語を含んでもよく、イベントの発生やイベントのある組成部分を記述するために使用される。形式的に、イベントの要因はイベントのトリガワードや種類、イベントの主要参加者、イベントの発生時間や場所などを含んでもよい。
【0022】
本明細書で使用される用語「漸進的な更新」とは、更新時、変更されたデータのみが更新され、変更されていない、または更新されたデータは繰り返し更新されないことを意味する。これにより、更新操作時間が節約され、効率が向上する。
【0023】
本明細書で使用される用語「テキスト」とは、任意長さの言語を意味する。一例として、テキストは1つまたは複数の単語、フレーズ、文の一部、文などを意味する。
【0024】
用語「類似イベント対」とは、記述テキストが異なるが同じ意味を表現するイベントを指す。例えば、イベント「価格上昇」とイベント「価格上がり」は類似イベント対である。
【0025】
本明細書で使用される用語「単語」は、任意の適切な粒度をゆうすることができる。例えば、ある言語では、「単語」は1つ以上の単語を含んでもよい。別の言語では、「単語」は1つ以上の文字からなる1つの単語であってもよい。
【0026】
例示的環境
図1は、本開示の実施例が実装され得る例示的環境100の概略図である。環境100では、電子装置120は、1つまたは複数のメディア内容110-1、110-2、……、110-Nを取得し、それらは統一または単独でメディア内容110とも呼ばれ、Nは1以上の整数である。電子装置120はメディア内容110に基づいて事柄グラフ130を構築することができる。
【0027】
環境100では、電子装置120は、端末装置を含む任意のコンピューティング能力を有する装置であってもよい。端末装置は、任意のモバイル端末、固定端末またはポータブル端末であってもよく、携帯電話、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、メディアコンピュータ、マルチメディアコンピュータ、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/カムカメラ、ロケータデバイス、テレビジョン受信機、ラジオ放送受信機、電子書籍デバイス、ゲームデバイスまたはそれらの任意の組み合わせ、それらのデバイスを含む付属品および周辺機器またはそれらの任意の組み合わせを含む。
【0028】
メディア内容110は、情報を提供できる任意の適切な内容であってもよい。例えば、メディア内容110は、テキスト、画像、オーディオ、ビデオまたはその組み合わせなどの形式のニュースレポートであってもよい。メディア内容110は、任意のセクタ、業界、または分野におけるニュースレポート、例えば金融セクタのニュースであってもよい。メディア内容110は、各種プラットフォーム(例えばニュースプラットフォーム)から取得されたメディア内容であってもよく、記憶されたメディア内容であってもよい。テキスト形式のメディア内容120の場合、電子装置120はテキストから事柄グラフ130を構築するための情報を直接抽出することができる。画像、ビデオ、オーディオなどの形式のメディア内容110の場合、電子装置120は任意の既存のまたは将来開発される技術を使用して、画像、オーディオまたはビデオから事柄グラフ130を構築するための情報を抽出してもよい。例えば、電子装置120は画像識別または音声識別技術に基づいて、画像、ビデオまたはオーディオフォーマットから関連情報を直接抽出してもよい。
【0029】
事柄グラフは、イベント間進化法則やパターンを記述する事柄論理知識ベースである。事柄グラフは、イベントや異なるイベント間のイベント関係を表現するために使用される。例えば、事柄グラフは、論理有向グラフを使用してイベントとイベント関係を表現することができる。このような論理有向グラフはイベントをノードとして、イベント関係を有向エッジとする。事柄グラフの構築は複雑な過程である。例えば、構築過程は、イベント抽出、関係抽出、イベント汎化、関係強度計算、知識記憶などのステップを含み得る。
【0030】
本明細書では、イベント関係は関連関係または単に関係とも呼ばれる。このようなイベント関係は因果関係、条件関係、反転関係、順序関係、上下位関係、構成関係、同時関係、類似関係などを含んでもよい。一例として、因果関係とは、前のイベント(原因)の発生が後のイベント(結果)の発生につながる関係である。条件関係とは前のイベントが後のイベントの発生条件であることを指す。反転関係とはあるイベントが別のイベントと対立する関係を指し、例えばあるイベントが遅く発生するが、別のイベントが早く発生する。順序関係とは前のイベントと後のイベントが時間的に連続して発生することを指す。上下位関係とは、あるイベントが別のイベントの上位イベントまたは下位イベントであることを指し、名詞上下位および動詞上下位がある。例えば、イベント「食品価格上昇」とイベント「野菜価格上昇」が名詞上下位関係を構成し、イベント「殺害」とイベント「暗殺」は動詞上下位関係を構成する。構成関係とはあるイベントが別のイベントの組成部分であることを指す。同時関係とはあるイベントが別のイベントと同時に発生することを指す。類似関係とはあるイベントがある程度別のイベントと類似し、例えば類似度計算を通じて類似関係を確立することを指す。以上のイベント関係は単なる例示であり、本開示の範囲を限定するものではない。
【0031】
なお、環境100の構造および機能は例示のみを目的として記載されており、本開示の範囲の限定を意味するものではないことを理解されたい。
【0032】
先に簡単に述べたように、事柄グラフの構築は、ステップが煩雑で中間結果が多い過程である。いくつかのシナリオでは、事柄グラフに高い時間枠要件が存在する。例えば、因果関係に基づく金融事柄グラフは、金融イベント間の因果関係伝達連鎖を示し、金融リスクイベントの事前予測に利用することができる。金融リスクイベントの予測には、時間的感度が非常に重要である。事柄グラフを使用して金融リスク予測を行う場合、事柄グラフに適時に時間的感度の高い金融イベントを組み込んでこそ、リスクイベントをより合理的かつ正確に予測することができる。したがって、時間的感度の高い事柄グラフを構築することが重要な意義を持っている。
【0033】
他方では、ニュースなどのメディア内容の数が急速に増加している。グラフを構築するプロセスを漸進的に行うことができなければ、グラフが更新される度に、新しい情報を過去情報と共に使用して事柄グラフを再構築するために、一から始めなければならない。グラフ規模が大きくなるにつれて、グラフの更新時間もますます長くなる。これは、イベントグラフの非常に低い構築効率につながる可能性がある。
【0034】
これを鑑み、事柄グラフを漸進的に更新する必要がある。事柄グラフをいかに効率的かつ漸進的に更新することは、重要な課題である。
【0035】
このため、本開示の実施例は、情報処理用の解決策を提供する。該解決策では、1つまたは複数のメディア内容から複数の処理すべきイベントを決定し、これらの処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有する。事柄グラフを構築するための既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定する。追加イベント集合中の追加イベントは既存イベント集合中の既存イベントと異なる。すなわち、これらの処理すべきイベントから既存イベントを濾過し、現在の事柄グラフでは考慮されていない追加イベントをスクリーニングする。そして追加イベント集合に基づいて、事柄グラフを更新する。
【0036】
したがって、既存イベントとは異なる追加イベントに基づいて事柄グラフを更新する。このように、追加イベントのみで事柄グラフを更新することができ、事柄グラフの漸進的な更新が実現される。これにより、事柄グラフの構築効率が向上する。
【0037】
事柄グラフの更新アーキテクチャ
図2は、本開示のいくつかの実施例による情報処理の例示的なアーキテクチャ200の概略図である。アーキテクチャ200はメディア内容取得モジュール211、前処理モジュール212、イベント抽出モジュール213、イベント識別モジュール214、相関度漸進的計算モジュール215、類似度漸進的モジュール216、イベント汎化モジュール217、相関度計算モジュール218、および事柄グラフ記憶モジュール219を含む。アーキテクチャ200は、データ記憶構造220、前処理データ記憶ベース221、関連イベント記憶ベース222、文書型データベース223、キー値型データベース224、抽象イベント対記憶ベース225、および事柄グラフ記憶ベース226をさらに含んでもよい。アーキテクチャ200中のこれらのモジュールは電子装置120に実装されてもよい。
【0038】
いくつかの実施例では、1つまたは複数のメディア内容110から複数のイベント(複数の処理すべきイベントとも呼ばれる)を決定してもよい。これらの処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有し、すなわち関連関係を有する。関連関係を有するイベント対は順序、因果、条件、上下位などの論理関係を有する2つのイベントの組み合わせであってもよい。
【0039】
以下、アーキテクチャ200中のメディア内容取得モジュール211、前処理モジュール212、およびイベント抽出モジュール213に関連して決定処理すべきイベントの例を説明する。
【0040】
メディア内容取得モジュール211は、1つまたは複数のメディア内容110を取得するように構成される。例えば、メディア内容取得モジュール211は、各種プラットフォーム(例えば、ニュースプラットフォーム)からメディア内容110を取得してもよく、任意の記憶媒体から記憶されたメディア内容110を取得してもよい。
【0041】
いくつかの実施例では、メディア内容取得モジュール211は、クローラ技術を使用してプラットフォームからメディア内容110を取得してもよい。メディア内容取得モジュール211は、メディア内容(例えば、ニュースデータ)の時間的感度を維持するために、プラットフォームからメディア内容を定期的または任意の時間に取得してもよく、プラットフォームからメディア内容をリアルタイムで取得してもよい。
【0042】
前処理モジュール212は、メディア内容取得モジュール211によって取得されたメディア内容110を前処理するように構成される。例えば、ニュースの先読みの前処理は、セグメント化、節分割、特殊な句読点の処理、単語分割、語彙ラベリングまたは他の前処理方法を含むが、これらに限定されない。前処理が完了した後、前処理モジュール212は、メディア内容110の前処理によって得られた結果を前処理データ記憶ベース221に保存することができる。
【0043】
イベント抽出モジュール213は、前処理後のメディア内容をイベント抽出するように構成される。抽出されたイベントは処理すべきイベントである。例えば、前処理後のメディア内容から関連関係を有するイベント対を抽出してもよい。イベント抽出モジュール213は、前処理後のメディア内容から順序、因果、条件、および/または上下位などの論理関係を有するイベント対を抽出してもよい。
【0044】
いくつかの実施例では、イベント抽出モジュール213は深層学習モデルを使用して前処理後のメディア内容から関連関係を有するイベント対を抽出してもよい。深層学習モデルは、関連関係を有するイベント対でラベル付けされたコーパスを使用して訓練されてもよい。任意の適切なアルゴリズムの深層学習モデルを採用することができる。例えば、BERTモデル、双方向長期短期記憶ネットワーク(BiLSTM)または条件付きランダムフィールド(CRF)モデルのいずれかを採用してもよい。別の例として、BERT_BiLSTM_CRFモデルを採用してもよい。
【0045】
いくつかの実施例では、イベント抽出モジュール213は、抽出された関連関係を有するイベント対を関連イベント記憶ベース222に記憶してもよい。
【0046】
図3を参照して、決定処理すべきイベントの一例を説明する。
図3は、本開示のいくつかの実施例によるイベント処理フロー300の概略図である。
図3に示すように、メディア内容301は、「原油価格の上昇は、会社の道路輸送事業コストの上昇をもたらし、会社は、市場の状況などを考慮して対応する価格戦略を速やかに策定する」である。メディア内容301の前処理およびイベント抽出によって、メディア内容301から関連関係を有するイベント対、すなわち、「原油価格上昇」イベント311および「会社の道路輸送事業コストの上昇」イベント312を抽出することができる。「原油価格上昇」は、「会社の道路輸送事業コストの上昇」という結果の原因であるので、ここでは「原油価格上昇」と「会社の道路輸送事業コストの上昇」の2つのイベントは関連関係を有するイベント対であり、具体てきには、両者は因果関係を有するイベント対である。
【0047】
引き続き
図2を参照する。イベント識別モジュール214は、事柄グラフ130を構築する既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定する。追加イベント集合中の追加イベントは既存イベント集合中の既存イベントとは異なり、追加イベントとも呼ばれる。
【0048】
既存イベント集合は、事柄グラフを構築するために既に使用された既存イベントの集合を指す。すなわち、既存イベントはすでに事柄グラフに具現化されている。例えば、既存イベントは事柄グラフを構築するための以前メディア内容から抽出されたイベントであってもよい。対照的に、追加イベントは事柄グラフを構築するためにまだ使用されていないイベント、例えば、新たに取得されたメディア内容から抽出されたイベントを指す。
【0049】
イベント識別モジュール214は、処理すべきイベント中の追加イベントを識別するために、任意の適切な方法を用いて、処理すべきイベントと既存イベントを比較することができる。いくつかの実施例では、複数の処理すべきイベント中の任意の処理すべきイベント(所与イベントとも呼ばれる)について、イベント識別モジュール214は、該所与イベントを記述するテキストと既存イベント集合中の各既存イベントを記述するテキスト間の対応の一致度を決定してもよい。対応の一致度がすべて閾値一致度未満である場合、所与イベントを追加イベントとして識別してもよい。
【0050】
いくつかの実施例では、一致度は、所与イベントを記述するテキストと各既存イベントを記述するテキストに含まれる文字列を比較することによって決定される。例えば、所与イベントを記述するテキストと既存イベント集合中のある既存イベントを記述するテキストに含まれる同じ文字の数が閾値数以上である場合(または両者が全く同じ文字列を含む場合)、所与イベントのテキストと該既存イベントのテキストの一致度が高いと判定する。これは、該所与イベントが事柄グラフにとって追加イベントではないことを意味する。所与イベントを記述するテキストと既存イベント集合中の各既存イベントを記述するテキスト間に含まれる同じ文字の数がすべて閾値数未満である場合(または該所与イベントと任意の既存イベントは全く同じ文字を含まない場合)、該所与イベントのテキストと既存イベント集合中のすべての既存イベントのテキストの一致度が低いと判定する。これは、該所与イベントは事柄グラフにとって追加イベントであることを意味する。
【0051】
いくつかの実施例では、イベント識別モジュール214は、抽出された各イベント(すなわち、各処理すべきイベント)に一意の識別子(ID)を割り当ててもよい。該IDは、各イベント(処理すべきイベント、既存イベントを含む)の一意の識別子であってもよい。イベント識別モジュール214は、追加イベントの情報を事柄グラフのための文書型データベース223に記憶してもよい。文書型データベース223は、MongoDBデータベース、他の文書型データベースを含むが、これらに限定されない。
【0052】
文書型データベース223は、イベントに関する情報を記憶するためのアイテムを含む。各アイテムは、対応するイベントの情報を記憶するために使用され、割り当てられたイベントIDはアイテムのインデックスとして使用されてもよい。アイテムは、対応イベントが追加イベントであるかどうかを識別するためのフィールドを含んでもよく、追加イベントフィールドとも呼ばれる。事柄グラフの構築過程中、イベントの属性が多く、関連するデータフォーマットが複雑であるため、本開示では、データの追加、削除、変更、およびチェックに便利であり、事柄グラフの漸進的な構築に寄与するために、データ保存方式として文書型データベース223を採用する。
【0053】
いくつかの実施例では、ある所与イベントが追加イベントとして識別される場合、イベント識別モジュール214は文書型データベース223に該所与イベントに対応するアイテムを追加してもよい。イベント識別モジュール214は、該アイテム中の追加イベントフィールドを、所与イベントが追加イベントであることを示す所定値に設定してもよい。一例として、対応のイベントを追加イベントとして識別するために、アイテムにフィールド「new」を追加してもよい。
【0054】
事柄グラフの更新の各ラウンドまたはバッチの後、イベント識別モジュール214は、追加イベントの識別をキャンセルしてもよい。例えば、イベント識別モジュール214は、該ラウンドの更新における追加イベントのアイテムの追加イベントフィールドを、それが既存イベントであることを示す値に修正してもよく、またはアイテムから追加イベントフィールドを削除してもよい。
【0055】
いくつかの実施例では、所与イベントを記述するテキストと既存イベント集合中のある既存イベント(第1既存イベントとも呼ばれる)を記述するテキスト間の一致度が閾値一致度を超える場合、該所与イベントが追加イベントではなく、該既存イベントであることを意味する。この場合、文書型データベース223の該既存イベントに対応するアイテムに目標メディア内容に関連する情報を記憶してもよい。該所与イベントは目標メディア内容から決定される。言い換えれば、該所与イベントの抽出で使用されるメディア内容を、該既存イベントの別のソースとして、該既存イベントに対応するアイテムに記憶してもよい。
【0056】
追加イベントが識別された後、次に追加イベント集合に基づいて、事柄グラフを更新し、事柄グラフの漸進的な更新を実現する。事柄グラフの漸進的な更新により、元の静的な事柄グラフを動的に更新な事柄グラフに変換し、メディア内容を事柄グラフにリアルタイムで構築することが可能である。
【0057】
事柄グラフは、イベント、異なるイベント間の関連関係、関連関係の相関度などの様々ンな情報を含む。事柄グラフの漸進的な更新は、1つまたは複数の情報の漸進的な更新を含んでもよい。
【0058】
関連関係の相関度は、関連するイベント対がどの程度またはどのような可能性でその関連関係を有するかを示す。例えば、因果関係の因果強度は、原因イベントが結果イベントを引き起こす可能性がどの程度高いかを示す。いくつかの実施例では、相関度は漸進的に更新されてもよい。そのため、
図2に示すように、アーキテクチャ200は、追加イベント集合中の追加イベントを使用して、イベント間の関連関係の相関度を更新するように構成された相関度漸進的計算モジュール215をさらに含んでもよい。
【0059】
任意の適切なアルゴリズムで相関度を計算することができる。いくつかの実施例では、イベントを記述するテキスト中の単語の出現頻度(単語頻度とも呼ばれる)および単語ペアの出現頻度(単語ペア共頻度数とも呼ばれる)に基づいて相関度を計算してもよい。以下、因果関係を例にして、相関度の計算を説明する。因果関係の場合、相関度は因果強度とも呼ばれる。
【0060】
一例として、イベントAは別のイベントBを発生させることがある。したがって、イベントAは原因イベントと呼ばれ、イベントBは結果イベントと呼ばれる。因果関係連鎖において、因果強度は原因イベントが結果イベントの発生につながる確率を反映する。例えば、因果イベント対(A,B)において、必要性因果関係とは結果イベントBが起こるために原因イベントAが存在しなければならないことを意味し、充足性因果関係とは結果イベントBをもたらすために原因イベントAがすべて必要であることを意味する。因果強度の計算では、まず原因イベントA中の単語
【数1】
と結果イベントB中の単語
【数2】
の単語ペア間の単語ペア因果強度を計算し、次に単語ペア間の単語ペア強度を組み合わせて因果イベント間の因果強度を求める。
【0061】
以下、単語ペアとイベント対因果強度計算の一例を説明する。まず、必要性と充足性の観点から単語ペア
【数3】
間の因果強度をモデル化する:
【数4】
【0062】
ここで、
【数5】
は必要性の観点から
【数6】
間の因果強度をモデル化し、
【数7】
は充足性の観点から
【数8】
間の因果強度をモデル化し、
【数9】
は事後確率を示し、
【数10】
はペナルティ係数を示し、ペナルティ係数の値は0~1間である。
【0063】
ここで、単語
【数11】
発生確率
【数12】
単語
【数13】
発生確率
【数14】
および単語
【数15】
と単語
【数16】
同時発生確率
【数17】
(すなわち、単語ペアの出現頻度)は以下の式で計算でき:
【数18】
【0064】
ここで、
【数19】
は、コーパス中の原因イベントに単語
【数20】
が、結果イベントに単語
【数21】
が出現する統計的に得られた確率であり、
【数22】
はコーパスに出現するすべての単語の集合であり、MとNは、計算結果が確率の性質を満たすために正規化係数である。ここでのコーパスは各種プラットフォームまたは記憶媒体から取得された自然言語に関連する情報であってもよく、特にコーパスは事柄グラフを構築するためのメディア内容の集合であってもよい。
【0065】
その結果、単語ペア
【数23】
の因果強度
【数24】
の計算方式は以下のとおりであり:
【数25】
【0066】
ここで、
【数26】
は係数を示す。次に、2つのイベントAとB中のすべての単語ペアの因果強度の組み合わせにより、次式に従ってイベントAとBの因果強度を計算し:
【数27】
【0067】
【0068】
以上、因果強度を例にして相関度の決定を説明した。相関度の計算において、比較的多くの中間結果、例えば原因単語の頻度情報、結果単語の頻度情報、関連単語ペアの頻度情報、関連単語ペアの必要因果分数、関連単語ペアの充分因果分数、および結果単語ペアの因果分数などが生成される。これらの中間結果は、頻繁に読み書きする必要がある。
【0069】
そのため、いくつかの実施例では、キー値型データベース224を利用して相関度計算の中間結果を記憶することができる。キー値型データベース224は例えばRedisキャッシュデータベースであってもよく、他のキー値型データベースであってもよい。頻繁に読み書きする必要のあるデータをRedisキャッシュデータベースなどに記憶することで、データの読み書き効率を向上させることができ、これにより、事柄グラフの構築効率が向上する。さらに、事柄グラフの構築過程で存在し得るメモリフルという問題を容易に解決することができる。
【0070】
このような実施例では、相関度漸進的計算モジュール215は事柄グラフ中の相関度を漸進的に更新する。追加イベント集合中の任意の追加イベント(第1追加イベントとも呼ばれる)に対して、相関度漸進的計算モジュール215は該追加イベントを記述するテキスト中の各テキスト要素(第1テキスト要素とも呼ばれ、例えば、単語)を決定し、キー値型データベース224に記憶され該テキスト要素に対応する要素出現頻度情報を対応的に更新することができる。相関度漸進的計算モジュール215はさらに既存イベント集合中の該テキスト要素を含む既存イベント(第2既存イベントとも呼ばれる)を決定し、すなわち該既存イベントを記述するテキストは該テキスト要素を含む。相関度漸進的計算モジュール215はさらに該テキスト要素の更新された要素出現頻度情報に基づいて、事柄グラフで該既存イベントと1つまたは複数の他の既存イベント(第3既存イベントとも呼ばれる)間のイベント関係の相関度を更新することができる。
【0071】
一例として、現在ラウンドの更新において追加イベント「場所A豪雨」が特定され、単語「豪雨」の出現頻度が増加することを意味する。したがって、キー値型データベースにおいて単語「豪雨」の出現頻度情報が更新される。既存イベント「場所B豪雨」がある場合、単語「豪雨」も含まれる。単語「豪雨」の出現頻度が変更されたので、既存イベント「場所B豪雨」とそれと関連関係を有する他の既存イベント間の相関度も更新される。
【0072】
いくつかの実施例では、追加イベントの出現も、要素対出現頻度情報(例えば、単語ペア出現頻度情報)の更新を引き起こす可能性がある。したがって、相関度は、更新された要素対出現頻度情報に基づいてさらに更新されてもよい。具体的に、相関度漸進的計算モジュール215は既存イベント集合または追加イベント集合中のある追加イベント(例えば、上記の第1追加イベント)と関連関係を有するイベント(第1イベントまたは関連イベントとも呼ばれる)および該関連イベントを記述するテキスト中のテキスト要素(第2テキスト要素とも呼ばれる)を決定してもよい。これは、第1テキスト要素と第2テキスト要素からなる要素対の出現頻度が増加することを意味する。したがって、相関度漸進的計算モジュール215h、キー値型データベース224に記憶され第1テキスト要素が第2テキスト要素に関連して出現する要素対出現頻度情報、例えば単語ペア出現頻度情報を更新する。第3既存イベントを記述するテキストが第2テキスト要素も含む場合、さらに更新された要素対出現頻度情報に基づいて第2既存イベントと第3既存イベント間の相関度を更新する。
【0073】
一例として、現在ラウンドの更新において第1追加イベントが「場所A豪雨」、第1テキスト要素が「豪雨」であると仮定する。第1追加イベントに関連する関連イベントは「場所A洪水」であり、第1イベントのテキスト中の第2テキスト要素は「洪水」である。次に、「豪雨」-「洪水」の要素対の出現頻度情報を更新する必要がある。もし、「洪水」を含む第3既存イベントは「場所B洪水」であると、さらに「豪雨」-「洪水」の要素対の出現頻度情報に基づいて第2既存イベント「場所B豪雨」と第3既存イベント「場所B洪水」間の相関度を更新する。
【0074】
このような実施例では、事柄グラフの各ラウンドの更新において、追加イベント標識にのみ基づき追加イベントを検索し、これらの追加イベントを用いて単語頻度および因果単語ペア頻度を更新する。同時に、キー値型データベースを選択して頻度情報を保存し、テキスト要素の頻度情報、テキスト要素対の頻度情報をキー値型データベースに保存する。頻度情報を更新する際に効率的な読み書きが可能となり、相関度の計算効率が大幅に向上する。
【0075】
以上、相関度の漸進的計算を説明した。いくつかの実施例では、イベント間の類似度は漸進的に計算されてもよい。
図2に示すように、アーキテクチャ200は、追加イベント集合中の追加イベントが類似イベントを有するかどうかを決定するように構成された類似度漸進的計算モジュール216をさらに含んでもよい。追加イベント集合中の任意の追加イベント(第2追加イベントとも呼ばれる)について、類似度漸進的計算モジュール216は第2追加イベントと追加イベント集合または既存イベント集合中の任意イベント(第2イベントとも呼ばれる)の類似度を決定してもよい。該類似度が閾値類似度を超えると、第2追加イベントと第2イベント間の類似関係の指示を文書型データベース223に記憶する。
【0076】
第2追加イベントと第2イベントの類似度が閾値類似度を超えると、第2追加イベントと第2イベントの類似度が高いことを意味するので、第2追加イベントと第2イベントは類似イベント対と呼ばれてもよい。類似イベント対の情報は文書型データベース223に記憶されてもよい。例えば、イベント1は、イベント2、イベント3およびイベント4の3つの類似イベントを含む場合、これらの4つのイベントの類似関係の指示、すなわちイベント間の類似関係を記憶することができる。例示的な記憶フォーマットは{event_id:1,sim_events: [2,3,4]}であってもよく、イベント1の類似イベントがイベント2、イベント3およびイベント4を含むことを示すために使用される。
【0077】
本開示の実施例では任意の適切な類似度計算方式を使用することができる。一例として、ジャカード(Jaccard)類似度、ピアソン(Pearson)相関係数、ユークリッド距離類似度、余弦類似度などを採用することができる。もちろん、類似度計算に使用できる他の方法を採用してもよい。
【0078】
事柄グラフの各ラウンドの更新において、追加イベントの識別により追加イベントが決定され得る。事柄グラフ中の既存イベントの数がa、今回のラウンドの追加イベントの数がbであると仮定する。今回のラウンドの前に、任意の2つの既存イベント間の類似度が既に計算された。今回のラウンドの更新において、b個の追加イベント中の2つのイベント間の類似度およびa個の既存イベントとb個の追加イベントの2個組み合わせ間の類似度だけを計算すればよい。したがって、今回のラウンドの更新において事柄グラフに必要な類似度計算回数
【数28】
は
【数29】
であり得る。これに対して、漸進的な更新方式を使用して事柄グラフを更新しない場合、a個の既存イベントの2個の組み合わせ間の類似度を計算する必要がある。この場合、事柄グラフの構築に必要な類似度計算回数
【数30】
は
【数31】
として表すことができる。このことから、本開示のように事柄グラフを構築すると計算効率が高い。
【0079】
いくつかの実施例では、今回のラウンドの事柄グラフ更新に必要な類似度計算については、事柄グラフの更新効率をさらに高めるために、マルチプロセスまたはマルチスレッドの並列性が使用され得る。
【0080】
イベント汎化モジュール217は、抽象イベントを得るために、イベントの事柄論理抽象を行うように構成される。例えば、1つのイベントが2以上の類似イベントを有する場合、その発生が一般的な性質を有すると考えられ、それを汎用化することができる。なお、抽象イベントと比較すると、メディア内容から抽出されたイベントは具体イベントとも呼ばれる。
【0081】
イベント汎化モジュール217は、イベント類似度の計算結果に基づいて汎化を実行してもよい。各ラウンドの漸進的な更新において、イベントに類似イベントが追加されると、該イベントおよびその類似イベントによって汎化された抽象イベントは更新される可能性がある。例えば、上記の第2追加イベントおよびその1つまたは複数の類似イベント(第2イベントとも呼ばれる)について、イベント汎化モジュール217は、第2追加イベントおよびその類似イベントを要約するために使用される抽象イベントを決定してもよい。さらに、イベント汎化モジュール217は、事柄グラフで第2追加イベントおよびその類似イベントを該抽象イベントに対応付けることができる(例えば、マッピングする)。イベント汎化モジュール217は、さらに事柄グラフの視覚的表現に該抽象イベントを示すノードを追加してもよい。
【0082】
一例として、また限定を意図することなく、イベント汎化の例示的な過程を説明する。例えば、まずこれらの類似イベントを記述するテキストに対して単語分割および単語性質標識を行い、次に単語性質に応じて無意義単語を削除することができる。例えば、単語性質が感嘆詞の単語を無意義単語として指定する。その後テキスト中の共通単語を抽出して組み合わせることにより汎化イベントを得ることができる。共通単語が1つしかない場合、イベントを記述するテキスト中のコア単語がオブジェクトであるかどうかを判定する。コア単語が該共通単語であり、コア単語がオブジェクトではない場合、該共通単語を汎化イベントとして使用し、すなわち該共通単語は抽象イベントを記述するテキストとして使用され得る。ここでのコア単語はイベント中の一部の意味を捉える単語であってもよい。
【0083】
相関度計算モジュール218は、抽象イベント間の相関度を計算するように構成される。抽象イベント間の相関度の計算は、前述した2つのイベントAとB間の相関度の計算と同様であるため、ここで繰り返さない。
【0084】
いくつかの実施例では、イベント汎化モジュール217によって得られた汎化結果および相関度計算モジュール218によって得られた抽象イベントの相関度の結果は、抽象イベント対記憶ベース225に記憶されてもよい。
【0085】
事柄グラフ記憶モジュール219は、視覚化グラフを形成するために、前述した計算結果をノード、エッジおよび属性の形で事柄グラフ記憶ベース226に記憶するように構成される。例えば、イベントはノードの形で事柄グラフ記憶ベース226に記憶されてもよく、関連関係はエッジの形で事柄グラフ記憶ベース226に記憶されてもよく、相関度はエッジの属性の形で事柄グラフ記憶ベース226に記憶されてもよい。いくつかの実施例では、事柄グラフ記憶ベース226は、Neo4jグラフデータベースなどのグラフデータベースであってもよく、他のグラフデータベースであってもよい。本開示の実施例はこの点で限定されない。
【0086】
以上、
図2を参照して事柄グラフの漸進的な更新の例示的なアーキテクチャを説明した。以下、
図3の具体的な例を参照してイベント処理フロー300を説明する。
【0087】
引き続き
図3を参照すると、イベント抽出モジュール213は、メディア内容301から因果関係を有するイベント311およびイベント312を抽出することができる。本例では、イベント311は原因イベント「原油価格上昇」であり、イベント312が結果イベント「会社の道路輸送事業コストの上昇」である。相関度漸進的計算モジュール215により、イベント311とイベント312の相関度を計算し、イベント311とイベント312の相関度が0.25であると計算した。
【0088】
類似度漸進的計算モジュール216は、イベント311とイベント312に対してそれぞれイベント類似度計算を行う。イベント311の類似イベント321、およびイベント312の類似イベント322を決定することができる。本例では、類似イベント321は「天然ガス価格上昇」、「小麦価格上昇」名を含み、類似イベント322は「生活費上昇」、「小麦粉製造コスト上昇」などを含む。
【0089】
イベント汎化モジュール217はイベント311およびその類似イベント321に対してイベント汎化を行って、抽象イベント331を決定する。イベント汎化モジュール217はイベント312およびその類似イベント322に対してイベント汎化を行い、抽象イベント332を決定する。本例では、抽象イベント331は「価格上昇」であり、抽象イベント332は「コスト上昇」である。
【0090】
相関度計算モジュール218は、抽象イベント331と抽象イベント332の抽象イベント相関度を計算する。したがって、抽象イベント331と抽象イベント332間の相関度が0.55と計算した。したがって、事柄グラフの漸進的な更新が実現される。なお、
図3に記載のイベントおよび相関度の具体的な数は単なる例示であり、本開示の範囲を限定するものではないことを理解されたい。
【0091】
本開示の解決は、事柄グラフを漸進的に更新することにより追加イベントを元の事柄グラフに更新することによって、効率的な事柄グラフの漸進的構築を達成するだけでなく、事柄グラフのリアルタイム更新も達成することができる。
【0092】
上記した漸進的な更新解決策は、他のタイプのグラフを構築するために使用されてもよい。いくつかの実施例では、知識グラフを漸進的に更新してもよく、知識グラフでは、各ノードはエンティティを示す。この場合、「イベント」を説明した上記の実施例は「エンティティ」に適用されてもよい。例えば、新たに取得されまたは新たに抽出されたエンティティから知識グラフ中の既存エンティティと異なる1つまたは複数の追加エンティティまたは追加エンティティを決定し、次にこれらの追加エンティティを用いて知識グラフを更新してもよい。いくつかの実施例では、因果グラフを漸進的に更新してもよく、因果グラフでは、各ノードは要素(例えば、原因要素または結果要素)を示す。この場合、「イベント」を説明した上記の実施例は「要素」に適用されてもよい。例えば、新たに取得されまたは新たに抽出された要素から因果グラフ中の既存要素と異なる1つまたは複数の追加要素または追加要素を決定し、次にこれらの追加要素を用いて因果グラフを更新してもよい。
【0093】
表1は、本解決策の漸進的構築方式を使用した結果、漸進的構築方式を使用しない結果の比較を示している。なお、表1は因果関係を有する因果事柄グラフを例にして説明することを理解されたい。
【表1】
【0094】
表1から分かるように、1日目(1d)から12日目(12d)まで、事柄グラフの構築結果を指示する一連の指標はすべて、具体イベント一致率、因果イベント対一致率、類似イベント対一致率、抽象イベント一致率、抽象因果イベント対一致率、および具体-抽象イベント映射関係一致率などの一致の構築結果を示している。このことから分かるように、本開示の漸進的構築方法を用いて構築された事柄グラフは、漸進的構築方法を用いずに生成された結果は完全に同じであり、これは、本開示が提出した漸進的構築方法は正しいである。
【0095】
表2は本開示による漸進的構築方法を用いて事柄グラフを構築する場合の時間かかり状況を示す。
【表2】
【0096】
表3は、増強構築を用いずに事柄グラフを構築する場合の時間かかりの状況を示す。
【表3】
【0097】
表2および表3では因果関係を有する因果事柄グラフを例にして説明する。表2および表3の比較から分かるように、本開示の解決策を採用すると、時間の経過と伴い、イベント類似度計算および合計時間の消費を大幅に削減し、事柄グラフの構築効率が向上する。このことから分かるように、漸進的改善により、グラフ規模が大きくなるにつれて、漸進的構築の効率利点がますます明白になる。
【0098】
図4は、本開示のいくつかの実施例による事柄グラフの漸進的な構築のランタイムの概略図である。
図4に示すように、事柄グラフ構築の累積時間は、累積されたメディア内容の数に対して線形変化する。各ラウンドに取得されたメディア内容について事柄グラフを再構築する必要があり、事柄グラフ構築の累積時間がメディア内容数の増加に伴って指数関数的に推移する。このことから分かるように、漸進的構築方法により、同じサンプル量を使用して事柄グラフを更新するとき、消費時間が既存事柄グラフの増加に伴って増加することがなく、事柄グラフの更新効率が大幅に向上する。
【0099】
例示過程
図5は、本開示のいくつかの実施例による情報処理の過程500のフローチャートである。過程500は電子装置120によって実施され得る。検討を容易にするために、
図1を参照して過程500を説明する。
【0100】
ブロック510では、電子装置120は1つまたは複数のメディア内容から複数の処理すべきイベントを決定し、複数の処理すべきイベントのうちの少なくとも2つの処理すべきイベントはイベント関係を有する。
【0101】
ブロック520では、電子装置120は事柄グラフを構築するための既存イベント集合に基づいて、複数の処理すべきイベントから追加イベント集合を決定する。追加イベント集合中の追加イベントは既存イベント集合中の既存イベントと異なる。
【0102】
いくつかの実施例では、追加イベント集合を決定するために、電子装置120は複数の処理すべきイベント中の所与イベントに対して、所与イベントを記述するテキストと既存イベント集合中の各既存イベントを記述するテキスト間の対応の一致度を決定し、対応の一致度がすべて閾値一致度未満であることに応答して、所与イベントを追加イベントとして識別する。
【0103】
いくつかの実施例では、所与イベントを追加イベントとして識別するために、電子装置120は、事柄グラフのための文書型データベースに所与イベントに対応するアイテムを追加し、所与イベントに関連する情報を記憶し、アイテム中の追加イベントフィールドを追加イベントを示す所定値に設定する。
【0104】
いくつかの実施例では、過程500は、電子装置120は所与イベントを記述するテキストと第1既存イベントを記述するテキスト間の一致度が閾値一致度を超えることに応答して、文書型データベースと第1既存イベントに対応するアイテムに1つまたは複数のメディア内容中の目標メディア内容に関連する情報を記憶することをさらに含んでもよく、所与イベントは目標メディア内容から決定される。
【0105】
ブロック530では、電子装置120は追加イベント集合に基づいて、事柄グラフを更新する。
【0106】
いくつかの実施例では、過程500は、電子装置120は事柄グラフの更新に応答して、所与イベントを追加イベントとして識別することをキャンセルすることをさらにキャンセルすることをさらに含んでもよい。
【0107】
いくつかの実施例では、事柄グラフを更新するために、電子装置120は、追加イベント集合中の第1追加イベントに対して、第1追加イベントを記述するテキスト中の第1テキスト要素を決定すること、キー値型データベースに記憶され第1テキスト要素に対応する要素出現頻度情報を更新すること、既存イベント集合中の第2既存イベントを決定し、第2既存イベントを記述するテキストは第1テキスト要素を含むこと、および更新された要素出現頻度情報に基づいて、事柄グラフで第2既存イベントと第3既存イベント間のイベント関係の相関度を更新すること、をさらに含んでもよい。
【0108】
いくつかの実施例では、相関度を更新するために、電子装置120は、既存イベント集合または追加イベント集合中の第1追加イベントとイベント関係を有する第1イベントおよび第1イベントを記述するテキスト中の第2テキスト要素を決定し、キー値型データベースに記憶され第1テキスト要素が第2テキスト要素に関連して出現するのを指示する要素対出現頻度情報を更新し、第3既存イベントを記述するテキストが第2テキスト要素を含むこと応答して、さらに更新された要素対出現頻度情報に基づいて相関度を更新する。
【0109】
いくつかの実施例では、過程500は、電子装置120は追加イベント集合中の第2追加イベントに対して、第2追加イベントと追加イベント集合または既存イベント集合中の第2イベントの類似度を決定すること、類似度が閾値類似度を超えることに応答して、事柄グラフのための文書型データベースに第2追加イベントと第2イベント間の類似関係の指示を記憶すること、をさらに含んでもよい。
【0110】
いくつかの実施例では、事柄グラフを更新するために、電子装置120は、第2追加イベントと、第2追加イベントと類似関係を有する少なくとも第2イベントを要約するための抽象イベントを決定し、事柄グラフでは第2追加イベントおよび第2イベントを抽象イベントに対応付け、事柄グラフの視覚的表現に抽象イベントを表現するノードを追加する。
【0111】
例示装置
図6は、本開示を実施可能な1つまたは複数の実施例の電子装置600のブロック図である。なお、
図6に示す電子装置600は単なる例示であり、本明細書に記載の実施例の機能および範囲を何らか限定するものではないことを理解されたい。
図6に示す電子装置600は
図1の電子装置120を実現するために使用されてもよい。
【0112】
図6に示すように、電子装置600は汎用電子装置の形態である。電子装置600の構成要素は、1つまたは複数のプロセッサまたは処理ユニット610、メモリ620、記憶装置630、1つまたは複数の通信ユニット640、1つまたは複数の入力装置650および1つまたは複数の出力装置660を含むが、これらに限定されない。処理ユニット610は実際または仮想プロセッサであってもよく、メモリ620に記憶されたプログラムに従って各種処理を実行する。マルチプロセッサシステムでは、複数の処理ユニットはコンピュータ実行可能指令を並列に実行して、電子装置600の並列処理能力を高める。
【0113】
電子装置600は通常複数のコンピュータ記憶媒体を含む。このような媒体は、電子装置600がアクセス可能な任意に入手可能な媒体であり得、揮発性および不揮発性媒体、取り外し可能および取り外し不可能な媒体を含むが、これらに限定されない。メモリ620は揮発性メモリ(例えばレジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュメモリ)またはそれらの組み合わせであってもよい。記憶装置630は、取り外し可能または取り外し不可能な媒体であってもよく、機器可読媒体、例えばフラッシュメモリドライブ、磁気ディスクまたは任意の他の媒体であってもよく、情報および/またはデータ(例えば訓練用の訓練データ)を記憶して電子装置600内でアクセス可能である。
【0114】
電子装置600は、別の取り外し可能/取り外し不可能な、揮発性/不揮発性記憶媒体をさらに含んでもよい。
図6には図示されていないが、取り外し可能な不揮発性磁気ディスク(例えば「フロッピーディスク」)から読み取りまたは書き込み可能な磁気ディスクドライブ、および取り外し可能な不揮発性光ディスクから読み取りまたは書き込み可能な光ディスクドライブが提供されてもよい。これらの形態では、各ドライブは1つまたは複数のデータ媒体インタフェースを介してバス(図示せず)に接続される。メモリ620は、1つまたは複数のプログラムモジュールを有するコンピュータプログラム製品625を含んでもよく、これらのプログラムモジュールは、本開示の各種実施例の各種方法または動作を実行するように構成される。
【0115】
通信ユニット640は通信媒体を介して他の電子装置と通信することができる。さらに、電子装置600の構成要素の機能は単一の計算クラスタまたは複数のコンピューティングマシンとして実装され得、これらのコンピューティングマシンは通信接続を介して通信することができる。したがって、電子装置600は、1つまたは複数の他のサーバー、ネットワークパーソナルコンピュータ(PC)または別のネットワークノードの論理接続を介してネットワーク化環境で動作することができる。
【0116】
入力装置650は、1つまたは複数の入力装置、例えばマウス、キーボード、トラッキングボールなどであってもよい。出力装置660は、1つまたは複数の出力装置、例えばディスプレイ、スピーカ、プリンターなどであってもよい。電子装置600は、必要に応じて、通信ユニット640を介して記憶装置、表示装置などの1つまたは複数の外部装置(図示せず)、ユーザと電子装置600の相互作用のための1つまたは複数の装置、または電子装置600と1つまたは複数の他の電子装置との通信のための任意装置(例えば、ネットワークカード、モデムなど)と通信してもよい。このような通信は入力/出力(I/O)インタフェース(図示せず)を介して実行されてもよい。
【0117】
本開示の例示的な実施態様によれば、コンピュータ可読記憶媒体を提供し、コンピュータ実行可能指令が記憶され、コンピュータ実行可能指令がプロセッサによって実行されると上記した方法が実施される。本開示の例示的な実施態様によれば、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品は非一時的なコンピュータ可読媒体に有形に記憶され、コンピュータ実行可能指令を含み、コンピュータ実行可能指令がプロセッサによって実行されると上記した方法が実施される。
【0118】
ここで、本開示に従って実施される方法、装置、デバイスおよびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して本開示の各態様を説明する。なお、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図中の各ブロックの組み合わせは、すべてコンピュータ可読プログラム指令によって実施され得る。
【0119】
これらのコンピュータ可読プログラム指令は汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置の処理ユニットに提供されて機器を製造し、これらの指令がコンピュータまたは他のプログラマブルデータ処理装置の処理ユニットによって実行されると、フローチャートおよび/またはブロック図中の1つまたは複数のブロックで指定された機能/動作の装置を実現する。これらのコンピュータ可読プログラム指令をコンピュータ可読記憶媒体に記憶してもよく、これらの指令によりコンピュータ、プログラマブルデータ処理装置および/または他の装置が特定の方法で動作し、指令が記憶されたコンピュータ可読媒体は、フローチャートおよび/またはブロック図中の1つまたは複数のブロックで指定された機能/動作を実現するための様々な指令を有する製造品を含む。
【0120】
コンピュータ可読プログラム指令がコンピュータ、他のプログラマブルデータ処理装置、または他の装置にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の装置で一連の操作ステップが実行され、コンピュータの実装過程を生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の装置で実行される指令は、フローチャートおよび/またはブロック図中の1つまたは複数のブロックで指定された機能/動作を実現する。
【0121】
添付図面におけるフローチャートおよびブロック図は、本開示の複数の態様に従って実施され得るシステム、方法およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を示す。この点で、フローチャートまたはブロック図中の各ブロックはモジュール、プログラムセグメントまたは指令の一部を示し、モジュール、プログラムセグメントまたは指令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能指令を含む。いくつかの代替可能な態様では、ブロックに付けられた機能は添付図面に示す順序と異なる順序で発生することもある。例えば、連続的な2つのブロックは実質的に並列に実行され、かかる機能によって、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャート中の各ブロック、およびブロック図および/またはフローチャート中のブロックの組み合わせは、指定された機能または動作を実行する専用ハードウェアに基づくシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよい。
【0122】
以上、本開示の各態様を説明したが、上記説明は例示的なものであり、網羅的なものではなく、開示された各態様に限定されない。説明された各態様の範囲および精神から逸脱しない限り、多くの修正および変更が当業者には明らかであろう。本明細書で使用される用語の選択は、各態様の原理、実際応用または市場における技術の改良を最もよく説明するため、または当業者が本明細書で開示された各実施態様を理解できるように選択される。
【外国語明細書】