(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-01
(45)【発行日】2022-07-11
(54)【発明の名称】ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体
(51)【国際特許分類】
G06N 5/02 20060101AFI20220704BHJP
【FI】
G06N5/02
(21)【出願番号】P 2021049223
(22)【出願日】2021-03-23
【審査請求日】2021-03-23
(31)【優先権主張番号】202010238498.0
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ヤン, シュァンクァン
(72)【発明者】
【氏名】チャン, ヤン
(72)【発明者】
【氏名】リュウ, チャン
(72)【発明者】
【氏名】シー, イー
【審査官】川▲崎▼ 博章
(56)【参考文献】
【文献】中国特許出願公開第110457403(CN,A)
【文献】国際公開第2020/039871(WO,A1)
【文献】特開2008-203964(JP,A)
【文献】特開2003-162533(JP,A)
【文献】国際公開第2020/051249(WO,A1)
【文献】特開平08-249338(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 5/02
(57)【特許請求の範囲】
【請求項1】
接続関係を有する複数のノードを含む初期ナレッジグラフを取得するステップと、
前記初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット
マップ要素を決定するステップであって、前記ターゲット
マップ要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含むステップと、
前記複数のターゲット
マップ要素をマージして、ナレッジグラフを生成するステップと、を含
み
前記複数のターゲットマップ要素をマージして、ナレッジグラフを生成するステップの後に、
前記ナレッジグラフから、接続されたエッジの数が設定値を超えるスーパーノードを決定するステップと、
前記スーパーノードに接続されたエッジの属性情報に基づいて、前記スーパーノードに接続されたエッジを複数のエッジ集合に分割するステップと、
前
記エッジ集合の数に応じて、前記スーパーノードを対応する数のノードに分割し、各エッジ集合におけるエッジを、分割された各ノードに接続するステップと、
を含む、ナレッジグラフの生成方法。
【請求項2】
前記初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット
マップ要素を決定するステップは、
前記ターゲット
マップ要素がターゲットノードを含む場合、前記初期ナレッジグラフから、いずれか2つのノードの属性情報の値の差が設定範囲にある複数のターゲットノードを決定するステップと、
前記ターゲット
マップ要素がターゲットエッジを含む場合、前記初期ナレッジグラフから、2つのノード間の、属性情報の種類が同じである複数のターゲットエッジを決定するステップと、を含
む、請求項1に記載の方法。
【請求項3】
初期ナレッジグラフを取得するステップは、
初期ナレッジグラフを構築するための複数種類の複数枚のサブグラフ、及び複数枚のサブグラフにおけるノードの情報及びエッジの属性情報を取得するステップと、
前記ノードの情報に基づいて、複数枚のサブグラフにおける同じノードをマージして、中間ナレッジグラフを得るステップと、
前記エッジの属性情報に基づいて、前記中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、前記初期ナレッジグラフを得るステップと、を含
む、請求項1
または2に記載の方法。
【請求項4】
前記エッジの属性情報に基づいて、前記中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、前記初期ナレッジグラフを得るステップは、
前記エッジのターゲット属性情報に基づいて、前記中間ナレッジグラフにおける同一のノードに接続され、かつ前記ターゲット属性情報の値の差が設定範囲にあるエッジをマージして、前記ナレッジグラフを得るステップを含み、
前記ターゲット属性情報は、時間属性情報及び空間属性情報の少なくとも1つを含
む、請求項
3に記載の方法。
【請求項5】
前記エッジの属性情報に基づいて、前記中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、前記初期ナレッジグラフを得るステップの後に、
前記初期ナレッジグラフには孤立したサブグラフが存在する場合、各前記孤立したサブグラフにおいて関連関係を有するノードを検索し、関連関係を有するノードを仮想ノードを介して接続するステップをさらに含
む、請求項
3に記載の方法。
【請求項6】
各前記孤立したサブグラフにおいて関連関係を有するノードを検索するステップは、
各前記孤立したサブグラフにおける各ノードのターゲット属性情報を取得するステップであって、前記ターゲット属性情報は、時間属性情報及び空間属性情報の少なくとも1つを含むステップと、
前記各ノードのターゲット属性情報に基づいて、異なる孤立したサブグラフにおける前記ターゲット属性情報の値の差が設定範囲にあるノードを、関連関係を有するノードとするステップとを含み、又は、
各前記孤立したサブグラフにおいて関連関係を有するノードを検索するステップは、
各前記孤立したサブグラフにおいてアイデンティティ共通情報を有するノードを取得するステップであって、前記共通情報は、同じアイデンティティ情報を含むステップを含
む、請求項
5に記載の方法。
【請求項7】
請求項1から
6のいずれか1項に記載の方法で生成されるナレッジグラフに基づく関係マイニング方法であって、
前記ナレッジグラフ及びマイニング対象動的関係を取得するステップと、
前記動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定するステップと、
前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するステップと、
前記始点ノードから前記ナレッジグラフをトラバースし、トラバースされたノードを前記スクリーニング条件に基づいてスクリーニングして、前記動的関係を有するノードを得るステップと、を含
む、ナレッジグラフに基づく関係マイニング方法。
【請求項8】
前記マイニング対象属性情報は、第1種類のマイニング対象属性情報と、第2種類のマイニング対象属性情報とを含み、
前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するステップの前に、
前記ナレッジグラフから抽象化可能なノードを検索するステップであって、前記抽象化可能なノードは、前記第1種類のマイニング対象属性情報を有し、前記抽象化可能なノードに接続されたエッジは、前記第2種類のマイニング対象属性情報を有するステップと、
前記抽象化可能なノード及び前記抽象化可能なノードに接続されたエッジを、前記マイニング対象属性情報を有するノードとして抽象化するステップと、
を含む
、請求項
7に記載の方法。
【請求項9】
前記スクリーニング条件は、ワンステップトラバーススクリーニング条件と、ツーステップトラバーススクリーニング条件とを含み、
前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するステップは、
マイニング対象属性情報を有するノードを始点ノードとして決定し、前記マイニング対象ノードを前記ワンステップトラバーススクリーニング条件として決定し、前記マイニング対象属性情報を前記ツーステップトラバーススクリーニング条件として決定するステップ、又は、
第1種類のマイニング対象属性情報を有するノードを始点ノードとして決定し、第2種類のマイニング対象属性情報及び前記マイニング対象ノードを前記ワンステップトラバーススクリーニング条件として決定し、前記マイニング対象属性情報を前記ツーステップトラバーススクリーニング条件として決定するステップであって、前記マイニング対象属性情報は、前記第1種類のマイニング対象属性情報と、前記第2種類のマイニング対象属性情報とを含むステップを含
む、請求項
7に記載の方法。
【請求項10】
前記スクリーニング条件は、ワンステップトラバーススクリーニング条件と、ツーステップトラバーススクリーニング条件とを含み、
前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するステップは、
前記マイニング対象ノードを始点ノードとして決定し、前記マイニング対象属性情報を前記ワンステップトラバーススクリーニング条件として決定し、前記マイニング対象ノードを前記ツーステップトラバーススクリーニング条件として決定するステップを含
む、請求項
7に記載の方法。
【請求項11】
前記始点ノードから前記ナレッジグラフをトラバースし、トラバースされたノードを前記スクリーニング条件に基づいてスクリーニングして、前記動的関係を有するノードを得るステップは、
前記始点ノードから、前記ナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得るステップと、
前記ワンステップトラバースされたノードを前記ワンステップトラバーススクリーニング条件に基づいてスクリーニングして、候補ノードを得るステップと、
前記候補ノードから、前記ナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得るステップと、
前記ツーステップトラバースされたノードを前記ツーステップトラバーススクリーニング条件に基づいてスクリーニングして、前記動的関係を有するノードを得るステップと、を含
む、請求項
9又は
10に記載の方法。
【請求項12】
前記マイニング対象ノードは、人物のアイデンティティを特徴付けるノードを含み、前記マイニング対象属性情報は、時間属性情報と空間属性情報とを含
む、請求項
7に記載の方法。
【請求項13】
接続関係を有する複数のノードを含む初期ナレッジグラフを取得するように構成される取得モジュールと、
前記初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット
マップ要素を決定するように構成される決定モジュールであって、前記ターゲット
マップ要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含む決定モジュールと、
前記複数のターゲット
マップ要素をマージして、ナレッジグラフを生成するように構成される生成モジュールと、
前記ナレッジグラフから、接続されたエッジの数が設定値を超えるスーパーノードを決定し、前記スーパーノードに接続されたエッジの属性情報に基づいて、
前記スーパーノードに接続されたエッジを複数のエッジ集合に分け、前記エッジ集合の数に応じて、前記スーパーノードを対応する数のノードに分割し、各エッジ集合におけるエッジを、分割された各ノードに接続するように構成される分割モジュールと、
を含
む、ナレッジグラフの生成装置。
【請求項14】
ナレッジグラフに基づく関係マイニング装置であって、
前記ナレッジグラフが、請求項13に記載の装置によって生成され、前記ナレッジグラフに基づく関係マイニング装置が、
ナレッジグラフ及びマイニング対象動的関係を取得するように構成される取得モジュールと、
前記動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定するように構成される第1の決定モジュールと、
前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するように構成される第2の決定モジュールと、
前記始点ノードから前記ナレッジグラフをトラバースし、トラバースされたノードを前記スクリーニング条件に基づいてスクリーニングして、前記動的関係を有するノードを得るように構成されるトラバース及びスクリーニングモジュールと、を含
む、ナレッジグラフに基づく関係マイニング装置。
【請求項15】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から
6のいずれか1項に記載のナレッジグラフの生成方法、又は請求項
7から
12のいずれか1項に記載のナレッジグラフに基づく関係マイニング方法を実行可能であ
る電子機器。
【請求項16】
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、請求項1から
6のいずれか1項に記載のナレッジグラフの生成方法、又は請求項
7から
12のいずれか1項に記載のナレッジグラフに基づく関係マイニング方法
をコンピュータに実行させ
る、非一時的なコンピュータ可読記憶媒体。
【請求項17】
請求項1から
6のいずれか1項に記載のナレッジグラフの生成方法、又は請求項
7から
12のいずれか1項に記載のナレッジグラフに基づく関係マイニング方法
をコンピュータに実行させ
るコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータ技術に関し、特に、ナレッジグラフの技術分野に関する。
【背景技術】
【0002】
ナレッジグラフ(Knowledge Graph)は、図書情報分野では、ナレッジドメイン可視化又はナレッジ領域マッピング地図とも呼ばれ、ナレッジの発展プロセスと構造関係を示す一連の様々な異なる図形であり、ナレッジリソース及びそのキャリアを、可視化技術を用いて記述し、ナレッジ及びそれらの相互関係をマイニング、分析、構築、描画及び表示する。
【0003】
社交関係ナレッジグラフを例とすると、グラフにおけるノードは人を表し、ノード間のエッジは人と人との関係を表す。金融ナレッジグラフを例とすると、グラフにおけるノードはアカウントを表し、ノード間のエッジはアカウントとアカウントとの間の振り込み関係を表す。従来のナレッジグラフは、表現能力が不足であるため、関係マイニングなどの業務シーンに適用された場合には、効果的な役割を果たしにくい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願の実施例は、ナレッジグラフの生成方法、関係マイニング方法、装置、機器及び媒体を提供する。
【課題を解決するための手段】
【0005】
第1の態様では、本願の実施例は、接続関係を有する複数のノードを含む初期ナレッジグラフを取得するステップと、前記初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定するステップであって、前記ターゲット地図要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含むステップと、前記複数のターゲット地図要素をマージして、ナレッジグラフを生成するステップと、を含むナレッジグラフの生成方法を提供する。
【0006】
第2の態様では、本願の実施例は、ナレッジグラフに基づく関係マイニング方法であって、前記ナレッジグラフは、いずれか1項に記載のナレッジグラフの生成方法で生成され、前記ナレッジグラフに基づく関係マイニング方法は、前記ナレッジグラフ及びマイニング対象動的関係を取得するステップと、前記動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定するステップと、前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するステップと、前記始点ノードから前記ナレッジグラフをトラバースし、トラバースされたノードを前記スクリーニング条件に基づいてスクリーニングして、前記動的関係を有するノードを得るステップと、を含むナレッジグラフに基づく関係マイニング方法を提供する。
【0007】
第3の態様では、本願の実施例は、接続関係を有する複数のノードを含む初期ナレッジグラフを取得するように構成される取得モジュールと、前記初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定するように構成される決定モジュールであって、前記ターゲット地図要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含む決定モジュールと、前記複数のターゲット地図要素をマージして、ナレッジグラフを生成するように構成される生成モジュールと、を含むナレッジグラフの生成装置を提供する。
【0008】
第4の態様では、本願の実施例は、前記ナレッジグラフ及びマイニング対象動的関係を取得するように構成される取得モジュールと、前記動的関係に基づいてマイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定するように構成される第1の決定モジュールと、前記マイニング対象情報に基づいて、前記ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するように構成される第2の決定モジュールと、前記始点ノードから前記ナレッジグラフをトラバースし、トラバースされたノードを前記スクリーニング条件に基づいてスクリーニングして前記動的関係を有するノードを得るように構成されるトラバース及びスクリーニングモジュールと、を含むナレッジグラフに基づく関係マイニング装置を提供する。
【0009】
第5の態様では、本願の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含む電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されて、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサがいずれかの実施例に記載のナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法を実行可能である電子機器を提供する。
【0010】
第6の態様では、本願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、いずれかの実施例に記載のナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法を前記コンピュータに実行させる非一時的なコンピュータ可読記憶媒体を提供する。
第7の態様では、本願の実施例は、いずれかの実施例に記載のナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法をコンピュータに実行させるコンピュータプログラムを提供する。
【発明の効果】
【0011】
本願の技術により、ナレッジグラフの表現能力を向上させ、ナレッジグラフを関係マイニングなどの業務シーンに適用する場合に効果的な役割を果たすことができる。
【0012】
なお、この部分に記載されている内容は、本開示の実施例の肝心かつ重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明を通じて容易に理解される。
【図面の簡単な説明】
【0013】
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
【
図1】本願の実施例に係る第1種類のナレッジグラフの生成方法を示すフローチャートである。
【
図2a】本願の実施例に係る第2種類のナレッジグラフの生成方法を示すフローチャートである。
【
図2b】本願の実施例に係る初期ナレッジグラフの構造概略図である。
【
図2c】本願の実施例に係る初期ナレッジグラフのエッジをマージする構造概略図である。
【
図2d】本願の実施例に係るエッジをマージしたナレッジグラフに対してノードをマージする構造概略図である。
【
図2e】本願の実施例に係るスーパーノードの構造概略図である。
【
図2f】本願の実施例に係る分割されたノードの概略図である。
【
図3a】本願の実施例に係る第3種類のナレッジグラフの生成方法を示すフローチャートである。
【
図3b】本願の実施例に係るサブグラフの概略図である。
【
図3c】本願の実施例に係る複数枚のサブグラフを時空間座標系内に投影した概略図である。
【
図3d】本願の実施例に係る時空間座標系における複数枚のサブグラフにおける同じノードの概略図である。
【
図3e】本願の実施例に係る初期ナレッジグラフを示す構造概略図である。
【
図3f】本願の実施例に係る仮想ノードを新たに追加して基地局ノードとカメラノードを接続する概略図である。
【
図3g】本願の実施例に係る時空間座標系において仮想ノードを新たに追加して孤立したサブグラフを接続する概略図である。
【
図3h】本願の実施例に係る初期ナレッジグラフの構築アーキテクチャ図である。
【
図4】本願の実施例に係る第1種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートである。
【
図5a】本願の実施例に係る第2種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートである。
【
図5b】本願の実施例に係る抽象化可能なノードとエッジを抽象化する概略図である。
【
図6】本願の実施例に係る第3種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートである。
【
図7】本願の実施例に係る第4種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートである。
【
図8】本願の実施例に係るナレッジグラフの生成装置を示す構成図である。
【
図9】本願の実施例に係るナレッジグラフに基づく関係マイニング装置を示す構成図である。
【
図10】本願の実施例に係るナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法を実現するための電子機器を示すブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本願の例示的な実施例を説明する。理解を容易にするため、その中には本願の実施例の様々な詳細事項が含まれているが、それらは単なる例示である。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、明確かつ簡潔のため、以下の説明では、周知の機能及び構造の説明を省略する。
【0015】
図1は、本願の実施例に係る第1種類のナレッジグラフの生成方法を示すフローチャートであり、本実施例が、初期ナレッジグラフを再処理する場合に適用される。該方法は、ナレッジグラフの生成装置によって実行されてもよく、該装置は、ソフトウェア及び/又はハードウェアの形態で実現可能であり、かつ電子機器に集積することができる。選択可能には、該電子機器は端末又はサーバでもよい。
図1に示すように、本実施例に係るナレッジグラフの生成方法は、以下のステップS110~ステップS130を含むことができる。
【0016】
S110、接続関係を有する複数のノードを含む初期ナレッジグラフを取得する。
【0017】
初期ナレッジグラフは、従来の技術で提供される任意のナレッジグラフでもよいし、データソースを用いて構築されたナレッジグラフでもよい。初期ナレッジグラフは、接続関係を有する複数のノードを含む。ノードは、エンティティを表し、ノード間のエッジは、関係を表し、エンティティ及び関係は、いずれも属性情報を有する。
【0018】
選択可能には、初期ナレッジグラフのいずれか2つのノード間には、いずれも直接的又は間接的な接続関係を有しており、孤立したサブグラフが存在しない。即ち、初期ナレッジグラフが連結グラフであるため、ナレッジグラフを適用する後続の過程において、非連結グラフによる情報の欠落が回避される。
【0019】
S120、初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定する。
【0020】
具体的には、属性情報は、属性情報の値と属性情報の種類とを含み、設定された属性情報要件は、属性情報の値及び属性情報の種類の少なくとも1つに対する要件を含む。ターゲット地図要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含む。具体的には、初期ナレッジグラフの各ノード及び各エッジをトラバースし、設定された属性情報要件を満たす複数のノード、又は複数のエッジ、又は複数のノード及び複数のエッジ、例えば時間属性及び空間属性(以下、「時空間属性」という)を有するノードを検索する。説明と区別を容易にするため、設定された属性情報要件を満たすノードとエッジをそれぞれターゲットノード、ターゲットエッジと呼ぶ。
【0021】
S130、複数のターゲット地図要素をマージして、ナレッジグラフを生成する。
【0022】
一実施形態では、複数のターゲットノードを1つの点にマージし、マージされた点が複数のターゲットノードの属性情報を残し、同時に、複数のターゲットノードにそれぞれ接続されたエッジが、該マージされたノードに接続される。
【0023】
別の実施形態では、複数のターゲットエッジを1つのエッジにマージし、マージされたエッジが複数のエッジの属性情報を残す。選択可能には、異なるターゲットエッジに接続されるノードが異なると、異なるノードをマージし、マージされた点は、異なるノードの属性情報を残す。
【0024】
さらに別の実施形態では、複数のターゲットノードを1つの点にマージすると共に、複数のターゲットエッジを1つのエッジにマージするが、詳細については、以上の内容を参照し、ここでは説明を省略する。
【0025】
本実施例では、初期ナレッジグラフで設定された属性情報要件を満たす複数のターゲットノード及び複数のターゲットエッジの少なくとも1つをそれぞれマージすることにより、ノード及びエッジがより多くの属性情報を表現でき、ナレッジグラフの表現能力を向上させることができるとともに、グラフの構造を小さくすることができる。このため、ナレッジグラフを動的関係マイニングなどの業務シーンに適用する際に、分析プロセスを簡略化し、計算量を削減し、計算効率を向上させることができる。
【0026】
図2aは、本願の実施例に係る第2種類のナレッジグラフの生成方法を示すフローチャートであり、本実施例は、上記実施例に基づいてさらに最適化する。
【0027】
選択可能には、「初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定する」動作を、「ターゲット地図要素がターゲットノードを含む場合、初期ナレッジグラフから、いずれか2つのノードの属性情報の値の差が設定範囲にある複数のターゲットノードを決定し、ターゲット地図要素がターゲットエッジを含む場合、初期ナレッジグラフから、2つのノード間の、属性情報の種類が同じである複数のターゲットエッジを決定する」動作に最適化することにより、設定された属性情報要件を限定する。
【0028】
さらに、「複数のターゲット地図要素をマージして、ナレッジグラフを生成する」動作の後に「ナレッジグラフから、接続されたエッジの数が設定値を超えるスーパーノードを決定し、スーパーノードに接続されたエッジの属性情報に基づいて、スーパーノードに接続されたエッジを複数のエッジ集合に分割し、エッジ集合の数に応じて、スーパーノードを対応する数のノードに分割し、各エッジ集合におけるエッジを分割された各ノードに接続する」動作を追加することで、スーパーノードの出現を回避する。
【0029】
図2aに係るナレッジグラフの生成方法は、以下のステップS210~ステップS260を含む。
【0030】
S210、接続関係を有する複数のノードを含む初期ナレッジグラフを取得する。
【0031】
図2bは、本願の実施例に係る初期ナレッジグラフの構造概略図であり、当該図に2種類のノードが含まれ、それぞれPとsによって区別され、同じ種類の各ノードはP又はsよりも後の数字で区別される。ノード間の連結線は、ノード間の関係を表し、連結線上のt1~t6は、時間属性の異なる値、つまり、異なる時間を表す。
【0032】
S220、ターゲット地図要素がターゲットノードを含む場合、初期ナレッジグラフから、いずれか2つのノードの属性情報の値の差が設定範囲にある複数のターゲットノードを決定し、ターゲット地図要素がターゲットエッジを含む場合、初期ナレッジグラフから、2つのノード間の、属性情報の種類が同じである複数のターゲットエッジを決定する。
【0033】
設定範囲は自ら設定可能であり、属性情報の種類によっては設定範囲も異なる。例えば、属性情報の種類が時間であれば、時間の差の設定範囲は1分間内、2分間内などである。例えば、属性情報の種類が空間であれば、空間の差の設定範囲は、100平方メートル内などである。
図2bでは、s1及びs2がターゲットノードであり、s3及びs4がターゲットノードであり、s5及びs7がターゲットノードであり、s6及びs7がターゲットノードである。
【0034】
図2bでは、s1とP1との間の3つのエッジの属性情報の種類が時間であると、該3つのエッジがターゲットエッジであり、同様に、P1とs2との間の2つのエッジがターゲットエッジであり、s3とP2との間の2つのエッジがターゲットエッジであり、P2とs5との間の2つのエッジがターゲットエッジであり、s7とP3との間の2つのエッジがターゲットエッジである。
【0035】
S230、複数のターゲット地図要素をマージして、ナレッジグラフを生成する。
【0036】
選択可能には、ターゲットノード及びターゲットエッジのそれぞれをマージする場合、まず複数のターゲットノードをマージし、次に、複数のターゲットエッジをマージしてもよいし、まず複数のターゲットエッジをマージし、次に、複数のターゲットノードをマージしてもよい。
【0037】
まず、複数のターゲットエッジをマージすることを例として、
図2cは、本願の実施例に係る初期ナレッジグラフのエッジをマージする構造概略図である。
図2cでは、
図2bにおけるターゲットエッジをマージする。ターゲットエッジは、S220に記載される。マージされたエッジは、各ターゲットエッジの属性情報を隣接テーブルに記憶する。隣接テーブルのフォーマットは、K(V)であり、Kはマージされたエッジの識別子である。T+数字のフォーマットで表し、Vは、各ターゲットエッジの属性情報である。具体的な隣接テーブルは、
図2cに示される。
【0038】
図2dは、本願の実施例に係るエッジをマージしたナレッジグラフのノードをマージする構造概略図である。
図2dでは、
図2cにおけるターゲットノードをマージし、ターゲットノードは、S220に記載される。各ターゲットノードにそれぞれ接続されたエッジも、マージされたノードに接続されるようになる。なお、ターゲットノードがマージされた後、2つのノード間の、属性情報の種類が同じである複数のターゲットエッジが再度現れると、複数のターゲットエッジをマージし続ける必要がある。このようにすることで、ターゲットノードとターゲットエッジが交互にマージされ、ナレッジグラフの十分な圧縮が保証される。具体的には、ターゲットノードs1とs2をマージしてS1を得て、S1とP1との間に破線で表される2つのターゲットエッジが存在し、その後、これら2つのターゲットエッジをマージして、太い実線で表される1つのエッジを得る。マージされたノードは、各ターゲットノードに接続されたエッジの属性情報を隣接テーブルに記憶する。隣接テーブルのフォーマットは、KVであり、Kは、マージされたエッジの識別子であり、ST+数字のフォーマットで表し、Vは、各ターゲットノードの識別子及び各ターゲットノードに接続されたエッジの属性情報である。具体的な隣接テーブルは、
図2dに示すとおりである。
【0039】
一つの応用シーンでは、同一の行動ホットスポット(WIFI)機器が同一の人の多数の情報を収集した場合、この人とこのWIFI機器との間の多数のエッジ情報を形成する可能性があるので、これらのエッジを同一のエッジにマージし、エッジの属性にこの人とこのWIFI機器との接続時間などの属性情報を記録することで、多数のエッジの存在を回避し、ナレッジグラフの規模を圧縮することができる。
【0040】
別の応用シーンでは、ある店舗において、多数のWIFI機器があり、各WIFI機器に接続する人が多い場合、多数のノードとエッジとが存在する。該店舗における全てのWIFI機器を、同一のノードにマージすることができる。このように、後続の分析に影響を与えることなく、解析フローを簡略化することができ、ナレッジグラフ全体の規模をさらに圧縮することができる。
【0041】
S240、ナレッジグラフから、接続されたエッジの数が設定値を超えるスーパーノードを決定する。
【0042】
ターゲット地図要素をマージした後に、多数のエッジが接続されたスーパーノードが現れる可能性がある。スーパーノードを分析する際に、ロングテール現象及びタイムアウト現象が発生する。
【0043】
設定値は、100、500など、自ら設定してもよい。ナレッジグラフにおける各ノードに接続されたエッジの数を算出し、設定値を超える数に対応するノードをスーパーノードと呼ぶ。
図2eは、本願の実施例に係るスーパーノードの構造概略図である。該スーパーノードは、Snで表され、9つのエッジ及び7つのノードに接続されており、エッジの属性情報が隣接テーブルに記憶される。簡略化のため、隣接テーブルは、K、即ちエッジの識別子のみを示しており、ST+数字のフォーマットで表される。STは、時空間属性情報を表し、数字は、属性情報の値を表す。
【0044】
S250、スーパーノードに接続されたエッジの属性情報に基づいて、スーパーノードに接続されたエッジを複数のエッジ集合に分割する。
【0045】
具体的には、接続されたエッジの属性情報の種類又は属性情報の値に基づいて、スーパーノードを分割する。例えば、属性情報の種類が同じエッジを1つのエッジ集合に分割したり、属性情報の値が同じ設定範囲にあるエッジを1つのエッジ集合に分割したりする。例えば、同じ設定範囲が8時~12時、12時~15時を含むとすると、時間が8時~12時にあるエッジを1つのエッジ集合に分割し、時間が12時~15時にあるエッジを1つのエッジ集合に分割する。
【0046】
S260、エッジ集合の数に応じて、スーパーノードを対応する数のノードに分割し、各エッジ集合におけるエッジを分割された各ノードに接続する。
【0047】
図2fは、本願の実施例に係る分割されたノードの概略図である。時空間属性情報の値が同じであるエッジを1つのエッジ集合に分割し、つまり、属性情報の値がST1、ST2及びST3のエッジを3つのエッジ集合にそれぞれ分割する。さらに、スーパーノードを3つのノードに分割し、エッジの時空間属性情報の値に従って、分割されたノード識別子を決定して区別する。
図2fでは、分割された3つのノード識別子がそれぞれS1T1、S2T2及びS3T3であることを示す。次に、属性情報の値がST1のエッジ集合をS1T1ノードに接続し、属性情報の値がST2のエッジ集合をS2T2ノードに接続し、属性情報の値がST3のエッジ集合をS3T3ノードに接続する。
【0048】
本実施例は、スーパーノードを分割することで多数のエッジを各ノードに割り当て、アクセスの適時性を向上させ、ロングテール現象及びタイムアウト現象を回避する。
【0049】
本実施例では、属性情報の値の差が設定範囲にあるノード、及び2つのノード間の属性情報の種類が同じエッジをマージするので、ナレッジグラフを動的関係マイニングなどの業務シーンに適用する際に、属性情報の値の差が設定範囲にあるノード、及び2つのノード間の属性情報の種類が同じであるエッジを一括して取得することができ、動作の簡略化に役立つ。また、本実施例に係るマージ方法は、実際の応用シーンにさらに適するので、関連しないノード又はエッジのマージが回避される。
【0050】
図3aは、本願の実施例に係る第3種類のナレッジグラフの生成方法を示すフローチャートである。本実施例は、上記実施例に基づいてさらに最適化したものである。
【0051】
選択可能には、「初期ナレッジグラフを取得する」動作を、「初期ナレッジグラフを生成するための複数種類の複数枚のサブグラフ、及び複数枚のサブグラフにおけるノードの情報及びエッジの属性情報を取得し、ノードの情報に基づいて、複数枚のサブグラフにおける同じノードをマージして、中間ナレッジグラフを得、エッジの属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、初期ナレッジグラフを得る」動作に最適化し、初期ナレッジグラフの生成方法を提供する。
【0052】
図3aに係るナレッジグラフの生成方法は、以下のステップS310~ステップS350を含む。
【0053】
S310、初期ナレッジグラフを構築するための複数種類の複数枚のサブグラフ、及び複数枚のサブグラフにおけるノードの情報及びエッジの属性情報を取得する。
【0054】
S320、ノードの情報に基づいて、複数枚のサブグラフにおける同じノードをマージして、中間ナレッジグラフを得る。
【0055】
同一のノードは、異なる種類のサブグラフに現れる。例えば、あるユーザによって抽象化されたノードが社会的関係サブグラフ及びアカウント関係サブグラフに現れる場合、その同一のノードをマージする。しかしながら、異なる種類のサブグラフでは、この同一のノードに接続されたエッジを残しておく必要がある。
【0056】
複数枚のサブグラフの各ノードをトラバースし、いずれか2枚のサブグラフにおける同じノードをマージして、1つのナレッジグラフを得て、中間ナレッジグラフと呼ぶ。中間ナレッジグラフには、同じノードが存在しないが、複数枚のサブグラフにおける異なるノードが統合され、かつ、全てのエッジが残される。
【0057】
S330、エッジの属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、初期ナレッジグラフを得る。
【0058】
同一のノードに接続された各エッジをトラバースして、該各エッジの属性情報を取得する。設定された関連付け条件を満たすエッジをマージする。それに応じて、マージされた2つのエッジに対応する他の2つのノードをもマージする必要がある。実際の動作では、他の2つのノードを1つのノードで表すことができるが、このの2つのノードの情報及び属性情報を残す。
【0059】
選択可能には、設定された関連付け条件は、時間属性情報又は空間属性情報が近く、振り込み額属性情報が近く、属性情報が機密であるか否かということを含むが、それらに限定されない。
【0060】
属性情報が機密であるか否かを例とし、いずれも機密である2つのエッジをマージして、ナレッジグラフを得る。中間ナレッジグラフでは、ノード5がノード6に接続されていると仮定し、ユーザAがユーザBに振り込み、対応するエッジの属性情報が匿名振り込みであると示す。ノード5がノード7に接続されていると、ユーザAがユーザCに電話し、対応するエッジの属性情報が電話番号表示しないと示す。このように、ノード5に接続された2つのエッジの属性情報がいずれも機密であることが分かるため、これら2つのエッジをマージする。それに応じ、ノード6とノード7ともマージし、マージされたノードは、ユーザBとユーザCの情報を同時に表す。
【0061】
エッジのターゲット属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、ターゲット属性情報の値の差が設定範囲にあるエッジをマージして、ナレッジグラフを得る。ターゲット属性情報は、時間属性情報及び空間属性情報の少なくとも1つを含む。設定範囲は、実際の状況に応じて柔軟に設定することができ、時間の差は、10分間又は30分間でもよく、空間の差は、10m又は50mでもよい。ノード8がノード9に接続されていると仮定すると、カメラAにより顔1が撮影され、対応するエッジの属性情報がちょうど10時、中心大通りであると示す。ノード8がノード10に接続されていると仮定すると、カメラAにより顔2が撮影され、対応するエッジの属性情報が10時5分、中心大通りであると示す。このように、ノード8に接続されている2つのエッジの時間属性情報が近く、空間属性情報が同じであることが分かるため、これら2つのエッジをマージする。それに応じ、ノード9とノード10ともマージし、マージされたノードは、顔1と顔2の情報を同時に表す。
【0062】
さらに、本実施例では、各サブグラフの各々は1種類に対応する。
図3bは、5枚のサブグラフを示し、それぞれ社会的関係サブグラフ、アカウント関係サブグラフ、行動関係サブグラフ、社交関係サブグラフ及びアイデンティティ関係サブグラフである。各サブグラフにおいて、ノードは、エンティティから抽象化されたものであり、エッジは、エンティティ間の関係から抽象化されたものである。例えば、あるノードは、ユーザのアイデンティティ又は該ユーザに関連付けられた人、事情、場所、及び物などの情報を示す。エッジは、該ユーザと他のユーザとの関係を示す。
【0063】
各サブグラフにおけるノードの情報は、ノードの唯一の識別子であり、ノードの名称で表すことができる。エッジの属性情報は、エッジの時間属性情報、空間属性情報、メンバーシップ属性情報、グレード属性情報などを含むが、これらに限定されない。一具体例では、携帯電話についてある基地局によって対応する情報が記録される場合、1セットのノードエッジ関係として、「ノード1:携帯電話1、ノード2:基地局、ノード1とノード2との間のエッジ:携帯電話が基地局に接続される、エッジの属性情報:時間、周波数」が記録される。他の具体例では、あるアカウントから他のアカウントに振り込む場合、1組のノードエッジ関係として、「ノード3:アカウントA、ノード4:アカウント番号B、ノード1とノード2との間のエッジ:振り込み、エッジの属性情報:振り込み時間、振り込み金額、振り込みの方向など」が記録される。
【0064】
実際の動作では、
図3cに示すように、複数枚のサブグラフを時空間座標系内に投影する。勿論、時間属性情報又は空間属性情報がない関係もあり、該関係の両端のノードの時間属性情報又は空間属性情報を関係の時間属性情報又は空間属性情報として利用することができる。これは、関係をより良く特徴付け、近い属性の関係をマージすることでナレッジグラフを構築するためである。
【0065】
同一の時空間座標系に特徴付けられる複数枚のサブグラフを用いて、同じノードをマージすることができる。
図3dでは、点線で一部の同じノードを示す。
【0066】
次に、全てのサブグラフを同一のレイヤ平面に投影する。該レイヤ平面に時空間属性がフィッティングされ、当然に、同一のノードに接続された時間属性情報又は空間属性情報が近いエッジが自動的にマージされるため、
図3eに示すように、1つの相対的に完全なナレッジグラフを構築することができる。これを初期ナレッジグラフと呼ぶ。
図3eでは、IMSIは、国際モバイル加入者識別番号(International Mobile Subscriber Identification Number)と呼ばれ、移動ユーザを区別する識別子である。IMEI(International Mobile Equipment Identity)は、国際モバイル装置識別番号の略称である。
【0067】
S340、初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定する。
【0068】
S360、複数のターゲット地図要素をマージして、ナレッジグラフを生成する。
【0069】
本願の実施例は、複数種類のサブグラフにおける同じノードをマージすることにより、複数種類のサブグラフのマージを実現し、複数種類の情報を初歩的に統合することができる。さらに、同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージすることにより、複数種類の情報の十分な統合を実現し、深いレベルの情報を効果的にマイニングし、情報の欠落及び重要な証拠チェーンの中断を回避し、ナレッジグラフを動的関係マイニングなどの業務シーンに適用する場合に、有効な作用を発揮することができる。
【0070】
選択可能には、S330の後に、初期ナレッジグラフには孤立したサブグラフが存在する場合、各孤立したサブグラフにおける関連関係を有するノードを検索し、かつ関連関係を有するノードを、仮想ノードを介して接続するステップをさらに含む。孤立したサブグラフの間のノードは、直接的に接続されていないものであるので、どのノード間に内部の関連関係があるのかをマイニングして、これらのノードを接続する必要がある。孤立したサブグラフを関連付けることにより、完全に連結されたナレッジグラフを形成し、任意のノード間の到達可能性を保証し、情報の統合をさらに実現することができる。
【0071】
各孤立したサブグラフにおける関連関係を有するノードを検索することは、以下の2種類の選択可能な実施形態を含む。
【0072】
第1の選択可能な実施形態では、各孤立したサブグラフにおける各ノードのターゲット属性情報を取得し、各ノードのターゲット属性情報に基づいて、異なる孤立したサブグラフにおけるターゲット属性情報の値の差が設定範囲にあるノードを、関連関係を有するノードとする。ターゲット属性情報は、時間属性情報及び空間属性情報の少なくとも1つを含む。いくつかのノードは、時間属性情報又は空間属性情報を持たない可能性がありこの場合、それに接続されたエッジの時間属性情報又は空間属性情報を該ノードの時間属性情報又は空間属性情報とする。設定範囲は、上記と同様に、実際の状況に応じて柔軟に設定することができる。
【0073】
第2の選択可能な実施形態では、各孤立したサブグラフにおける共通情報を有するノードを取得する。共通情報は、同じアイデンティティ情報を含む。例えば、顔プローブサブグラフには、接続されたカメラ1ノードと、撮影した顔ノードとが含まれ、ナンバープレートプローブサブグラフには、接続されたカメラ2ノードと、撮影したナンバープレートノードとが含まれる。通信サブグラフには、接続された携帯電話番号1ノード及び携帯電話番号2ノードが含まれる。同一のレイヤ平面に投影した後、これら3つのサブグラフは、いずれも孤立したサブグラフになる。あるルートを通じて、顔、ナンバープレート及び携帯電話番号1がいずれも特定の身分証明書番号に関連付けられ、顔ノード、ナンバープレートノード及び携帯電話番号1ノードをそれぞれ仮想ノードに接続し、顔とナンバープレートと携帯電話番号との関係が連結され、3つのサブグラフも連結される。選択可能には、共通情報には、いずれもある機関又はグループに所属し、いずれも同じ法人を有するような同じ所属情報又は同じ法人情報がさらに含まれてもよい。本実施例では、共通情報が具体的に限定されない。
【0074】
第1の選択可能な実施形態及び第2の選択可能な実施形態は、択一的に実行されてもよいし、全部実行されてもよい。全部実行される場合、2種類の選択可能な実施形態の実行順序は限定されない。択一的に実行される場合、2種類の選択可能な実施形態の実行可能性に応じて、適切なステップを選択することができる。例えば、各孤立したサブグラフにおける共通情報のノードを有さない場合に、第1の選択可能な実施形態の実行を試みてもよい。
【0075】
さらに、関連関係を有するノードが検索された後、関連関係を有するノードを、仮想ノードを介して接続する。
【0076】
図3fに示すように、基地局プローブサブグラフには、接続された基地局ノードとそれが検出した携帯電話の物理アドレスノードとが含まれる。顔プローブサブグラフには、接続されたカメラノードと、撮影した顔ノードとが含まれる。同一のレイヤ平面に投影された後、孤立したサブグラフが存在する。検索により、基地局ノードとカメラノードとの時間属性情報が近く、空間属性情報も近いことがわかるので、基地局ノードとカメラノードとは、関連関係を有するノードとなる。
【0077】
図3fに示すように、基地局ノードとカメラノードとが接続された後に、対応する携帯電話の物理アドレスノードと顔ノードとも接続される。それにより、携帯電話の物理アドレスと顔との間の深いレベルの関係がマイニングされる。
【0078】
図3gに示すように、同一のレイヤ平面に投影された後、孤立したサブグラフは、仮想ノードを介して連結される。仮想ノードは、三角印で表されている。
【0079】
本実施例は、異なる孤立したサブグラフにおける時間属性情報及び空間属性情報のうち少なくとも1つが近いノードをマージすることで、時空間が近いノードを利用して、異なる孤立したサブグラフを連結し、孤立したサブグラフ間の、時空間が近い情報を十分にマイニングし、新たな関連関係を構築し、深いレベルのデータマイニングを実現することができる。さらに、異なる孤立したサブグラフにおける共通情報を有するノードを接続することで、共通情報を利用して、異なる孤立したサブグラフを連結し、共通情報の十分なマイニングを実現することができる。
【0080】
選択可能には、ナレッジグラフを構築するための複数種類の複数枚のサブグラフを取得することは、複数種類のエンティティ情報とエンティティ間の直接関係を取得することと、各種類のエンティティ情報をノードとして抽象化し、エンティティ間の直接関係をエッジとして抽象化し、対応する種類のサブグラフを構築することと、対応する種類のサブグラフにおける関連関係を有するノードをマージするか、又は接続してサブグラフの内部のノードと関係との統合及び関連付けを実現することと、を含む。
【0081】
実際の社会シーンでは、対象間の関係記述方式は様々である。構造化データ、非構造化データ、半構造化データを含み、テキスト、ビデオ、オーディオ、画像など様々なマルチモーダルデータを含む可能性もあり、関係については人と人の関係だけでなく、人と物、物と物など複数の次元を含む。全ての関係を抽象化し、エンティティ情報、エンティティ情報間の直接関係及び属性情報という3つの次元として抽象化し、この3つの次元を、それぞれ、ノード、エッジ、及びノードとエッジの属性情報に対応付けさせる。同時に、様々な構造化、非構造化、及び半構造化のマルチソース異種マルチモーダルデータから、対応するエンティティ情報、関係、及び属性情報を抽出するために、以下の方法を提供する。
【0082】
図3hは、本願の実施例に係る初期ナレッジグラフの構築アーキテクチャ図である。
図3hを参照し、まず、マルチソース異種アクセスデータのソース側解析を行う。解析方法は、構造化解析、半構造化解析、オーディオ解析、ビデオ解析、及びピクチャ解析を含む。そして、解析されたデータを用いて、ソース側のモデリングに基づいて、4WH(Who、When、Where、及びWhatを含む)、及びHowの方式を構築する。ソース側のモデリング方法は、ルールエンジン、エンティティ-属性-行動-関係(Entity-Property-Action-Relation,EPAR)モデリング及び自然言語処理(NLP、Natural Language Processing)プラットフォームモデリングを含み、これにより、対応するエンティティ情報及び属性情報を抽出する。
【0083】
次に、解析されたデータから、予め処理、ルールベースにおけるルールテンプレート、依存関係分析、関係統合、及び主語-述語-目的語(Subject-Predication-Object、SPO)三要素関係抽出などの技術を使いて対応する関係を抽出する。関係に対してSPO統合及び重複排除などを行うことで、関係を抽出する。
図3hにおいて、抽出された関係は、固定関係と、一回限りの関係と、継続的な関係とを含む。
【0084】
次に、4WHとHowに対してデータのクリーニング、理解、及び抽出を行い、ナレッジグラフにアクセスし、ナレッジグラフにおけるノードとノードの属性情報として抽象化する。抽出された関係は、ノード間のエッジとエッジの属性情報として抽象化される。その後、ナレッジグラフに孤立したサブグラフが存在する場合、各サブグラフにおける関連関係を有するノード(即ち、関連ノード)を検索し、関連ノードを、仮想ノードを介して接続する。仮想ノードと区別するために、抽象化されたノードをエンティティノードと呼ぶ。さらに、関連ノードとエッジの属性情報とを組み合わせて、関連ノードと関連ノードのエッジの属性情報とを関連付けさせ、関連ノードの属性情報とエッジの属性情報とを有するノードとして抽象化する。
【0085】
ナレッジグラフにおけるノードとエッジとして抽象化する場合、まず、各種類のサブグラフとして抽象化する。具体的には、各種類のエンティティ情報をノードとして抽象化し、エンティティ間の直接関係をエッジとして抽象化し、対応する種類のサブグラフを構築し、対応する種類のサブグラフにおける関連関係を有するノードをマージするか、又は接続して、サブグラフの内部のノードと関係との統合及び関連付けを実現する。
【0086】
エンティティ間の直接関係とは、データソースから直接的に得られる関係を指し、推論及び分析する必要がない。例えば、カメラによってナンバープレートが撮影される場合には、カメラとナンバープレートとが直接関係を有する。例えば、ユーザが物品を購入する場合には、ユーザと物品とが直接関係を有する。
【0087】
一例では、全ての携帯電話に係る記録に基づいて、1つのサブグラフを構築し、生体特徴に係るエンティティに基づいて、他のサブグラフを構築し、車両に係るエンティティに基づいて、他のサブグラフを構築し、アカウント番号に係るエンティティに基づいて、他のサブグラフを構築し、身分証明書に係るエンティティに基づいて、さらに他のサブグラフを構築する。
【0088】
ここで関連関係を有するノードは、直接関係を有しておらず、直接接続されていない。本ステップでは、直接接続されていないノードを接続するか又はマージする。例えば、ノード11とノード12とが親戚関係であり、ノード12とノード13とが親戚関係である場合には、ノード11とノード13も親戚関係であり、ノード11とノード13とを接続して、複数のノードの関連付けを実現する。例えば、ある人が2つの携帯電話番号を有しており、各携帯電話番号ノードがそれぞれの通話行動を有する場合、2つの携帯電話番号ノードを1つにマージして、ノードの統合を実現することができ、それに応じて、2つの携帯電話番号の通話行動が連結され、関係の連結が実現される。
【0089】
このようにすることで、同一のサブグラフ内の全ての関係が十分に統合され、その後の情報の紛失、例えば、ある携帯電話番号の紛失、又はノード11とノード12との関係の紛失によって重要な証拠チェーンが中断して異常分析結果を得ることが回避される。
【0090】
ノードがマージされたノードである場合、元のノードの情報と属性情報を残すべきであり、エッジが、関連関係を有するノードを接続することで得られたものである場合、関連関係を有する該ノードの属性情報をエッジの属性情報とする。
【0091】
次に、ノードの情報に基づいて、複数枚のサブグラフにおける同じノードをマージして、中間ナレッジグラフを得、エッジの属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、初期ナレッジグラフを得る。最後に、ストレージサポートサービス、即ち、グラフデータベース(Graph-DB)又はキャッシュサービスを採用して、初期ナレッジグラフを記憶する。
【0092】
図4は、本願の実施例に係る第1種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートであり、本実施例は、上記各実施例に係るナレッジグラフに対して動的関係マイニングを行う場合に適用される。該方法は、ナレッジグラフに基づく関係マイニング装置によって実行されてもよく、該装置は、ソフトウェア及び/又はハードウェアの形態で実現可能で、かつ電子機器に集積することができる。選択可能には、該電子機器は端末又はサーバでもよい。
図4に示すように、本実施例に係るナレッジグラフに基づく関係マイニング方法は、以下のステップS410~ステップS440を含むことができる。
【0093】
S410、ナレッジグラフ及びマイニング対象動的関係を取得する。
【0094】
本実施例におけるナレッジグラフは、上記いずれかの実施例に係るナレッジグラフであり、該ナレッジグラフにおける設定された属性要件を満たすノード及びエッジの少なくとも1つがそれぞれマージされる。選択可能には、該ナレッジグラフは、連結グラフであり、その中には孤立したサブグラフが存在しない。
【0095】
動的関係は、時間、空間、エンティティなどの情報によっては動的に変化する関係、例えば、関連検索、ライン拡張分析、ノード属性判断、エッジ属性判断、関連分析、関連推論、グループマイニング、即席解析、同車関係、同行関係、時空間衝突関係などである。
【0096】
S420、動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定する。
【0097】
従来の技術では、一般的に監視カメラとWIFI装置などを用いて動的関係をマイニングする。本実施例では、ナレッジグラフに基づいて、動的関係マイニングの問題をグラフトラバースの問題に変換する。これに基づいて、まず、動的関係におけるエンティティに基づいてノードの情報を決定し、動的関係における関係に基づいて属性情報を決定する。説明及び区別を容易にするために、動的関係に基づいて決定されるノード及び属性情報を、それぞれマイニング対象ノード及びマイニング対象属性情報と呼ぶ。マイニング対象属性情報を、ノードの属性情報又はエッジの属性情報とする。
【0098】
例えば、動的関係が同車関係である場合、マイニング対象ノードが人物ノードと車両ノードとを含み、マイニング対象属性情報が時間属性情報と空間属性情報とを含むことが決定される。
【0099】
S430、マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定する。
【0100】
S440、始点ノードからナレッジグラフをトラバースし、トラバースされたノードをスクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得る。
【0101】
始点ノードは、ナレッジグラフにおけるいずれかのノードであり、例えば、スーパーノードを分割したノード、マージされたノード、仮想ノードなど。始点ノードは、マイニング対象ノード又はマイニング対象属性情報を有するノードでもよい。始点ノードからナレッジグラフをトラバースし、トラバースされたノードを得る。本実施例では、トラバース方法が限定されず、深さ優先トラバース又は幅優先トラバースでもよい。本実施例では、トラバースステップの数も限定されず、1、2又は3などでもよい。トラバースされたノードは、最後のステップでトラバースされたノードでもよいし、各ステップでトラバースされたノードでもよいし、始点ノードと、各ステップでトラバースされたノードとを含んでもよい。
【0102】
なお、ナレッジグラフのトラバースは、木のトラバースに類似し、トラバースとは、少なくとも、グラフにおける全てのノードの情報を訪問し、即ち、順次に各ノードを1回訪問し、かつ1回だけ訪問することを意味する。
【0103】
スクリーニング条件は、トラバースされたノードをスクリーニングする条件であり、スクリーニングされたノードをマイニング対象情報に一致させ、例えばスクリーニングされたノードがマイニング対象ノードであり、スクリーニングされたノードがマイニング対象属性情報を有し、スクリーニングされたノードのトラバース経路がマイニング対象属性情報を有する。該トラバース経路は、スクリーニングされたノードと始点ノードとを直接接続するエッジ、又は間接接続する複数のエッジを含む。
【0104】
本実施例では、動的関係に基づいてマイニング対象情報を決定し、ノード及びエッジの少なくとも1つをマージしたナレッジグラフに基づいて、動的関係マイニングの問題をグラフトラバースの問題に変換し、マイニング対象情報に基づいてナレッジグラフにおける始点ノード及びスクリーニング条件を決定し、始点ノードからナレッジグラフをトラバースすることにより、マージされたナレッジグラフから始点ノードを正確に見つけてトラバースし、トラバースされたノードをスクリーニング条件に基づいてスクリーニングする。ナレッジグラフが予めマージされたため、ノード及びエッジは、より多くの属性情報を表現することができ、グラフの構造が十分に小さいため、始点ノードからトラバースし、トラバースされたノードをスクリーニングすることによって、動的関係を有するノードを見つけることができ、全てのノードを処理する必要がなく、オンラインナレッジグラフの動的関係マイニングに適用可能であり、分析プロセスが簡単で、計算量が少なく、応答時間が短い。
【0105】
図5aは、本願の実施例に係る第2種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートであり、本実施例では、上記実施例に基づいてさらに最適化する。
【0106】
選択可能には、「マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定する」動作の前に、「ナレッジグラフから抽象化可能なノードを検索し、抽象化可能なノードは、第1種類のマイニング対象属性情報を有し、かつ抽象化可能なノードに接続されたエッジが第2種類のマイニング対象属性情報を有し、抽象化可能なノード及び抽象化可能なノードに接続されたエッジを、マイニング対象属性情報を有するノードとして抽象化する」動作を追加して、ノード及びエッジの統合を行う。
【0107】
図5aに係るナレッジグラフに基づく関係マイニング方法は、以下のステップS510~ステップS560を含む。
【0108】
S510、ナレッジグラフ及びマイニング対象動的関係を取得する。
【0109】
S520、動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定する。
【0110】
S530、ナレッジグラフから抽象化可能なノードを検索し、抽象化可能なノードは、第1種類のマイニング対象属性情報を有し、かつ抽象化可能なノードに接続されたエッジは、第2種類のマイニング対象属性情報を有する。
【0111】
マイニング対象属性情報は、第1種類のマイニング対象属性情報及び第2種類のマイニング対象属性情報を含む。例えば、第1種類のマイニング対象属性情報は時間属性情報であり、第2種類のマイニング対象属性情報は空間属性情報である。説明の便宜上、第1種類のマイニング対象属性情報を有し、かつ接続されたエッジが第2種類のマイニング対象属性情報を有するノードを抽象化可能なノードと呼ぶ。抽象化可能なノードに接続されるエッジは1つのエッジでもよいし、2つのエッジでもよい。
【0112】
S540、抽象化可能なノード及び抽象化可能なノードに接続されたエッジを、マイニング対象属性情報を有するノードとして抽象化する。
【0113】
図5bは、本願の実施例に係る抽象化可能なノード及びエッジを抽象化する概略図である。
図5bでは、抽象化可能なノードが仮想ノードであり、三角形で示されており、空間属性情報を有し、それをノードP1とノードP2に接続されたエッジが時間属性情報を有し、それぞれt1とt2とすると、
図5bに示すように、仮想ノード及びt1属性情報を有するエッジをノードTS1として抽象化し、仮想ノード及びt2属性情報を有するエッジをノードTS2として抽象化する。
【0114】
選択可能には、抽象化可能なノードに接続されたノードを、抽象化されたノードに再度接続する。例えば、
図5bでは、仮想ノードに接続されたノードP1及びノードP2をノードTS1及びノードTS2に再度接続し、接続関係が変化しないことを確保する。
【0115】
S550、マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定する。
【0116】
S560、始点ノードからナレッジグラフをトラバースし、トラバースされたノードをスクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得る。
【0117】
本実施例では、マイニング対象属性情報がノード及びノードに接続されたエッジにそれぞれ分布している場合、ノード及びエッジを抽象化することにより、抽象化されたノードが完全なマイニング対象属性情報を有する。したがって、動的関係をマイニングする過程では、エッジに注意する必要がなく、ノードのみに注意すればよいので、動的関係のマイニング効率を向上させることができる。
【0118】
図6は、本願の実施例に係る第3種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートであり、本実施例では、上記実施例に基づいてさらに最適化する。
【0119】
選択可能には、「マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定する」動作を、「マイニング対象属性情報を有するノードを始点ノードとして決定し、マイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定し、又は、第1種類のマイニング対象属性情報を有するノードを始点ノードとして決定し、第2種類のマイニング対象属性情報及びマイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定し、ここで、マイニング対象属性情報は、第1種類のマイニング対象属性情報及び第2種類のマイニング対象属性情報を含む」動作に細分化する。
【0120】
図6に係るナレッジグラフに基づく関係マイニング方法は、以下のステップS610~ステップS650を含む。
【0121】
S610、ナレッジグラフ及びマイニング対象動的関係を取得する。
【0122】
S620、動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定する。
【0123】
S630、ナレッジグラフにはマイニング対象属性情報を有するノードが存在するか否かを判断し、存在すれば、S641に進み、存在しなければ、S642に進む。
【0124】
選択可能には、マイニング対象属性情報の種類は、少なくとも1種類である。これに基づいて、マイニング対象属性情報の種類が1種類である場合、ナレッジグラフには該マイニング対象属性情報が存在するか否かを判断する。存在すれば、S641を実行し、存在しなければ、今回の動作を終了する。
【0125】
マイニング対象属性情報の種類が2種類以上である場合、ナレッジグラフには全ての種類のマイニング対象属性情報が存在するか否かを判断し、存在すれば、S641を実行し、存在しなければ、S642を実行する。
【0126】
S641では、マイニング対象属性情報を有するノードを始点ノードとして決定し、マイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定する。次にS650を実行する。
【0127】
第1種類の応用シーンでは、動的関係は、時空間衝突関係であり、具体的には、2つ以上の時空間ポイントが与えられ、これらの時空間ポイントに同時に現れる人物をマイニングする。マイニング対象ノードは、顔ノード、携帯電話ノード、車両ノードなど、人物のアイデンティティを特徴付けるノードを含み、マイニング対象属性情報は、各時空間ポイントにそれぞれ対応する時間属性情報及び空間属性情報を含む。
【0128】
具体的には、1つの時空間ポイントに対応する時間属性情報と空間属性情報とを有するノードを始点ノードとして決定し、人物のアイデンティティ情報を特徴付けるノードをワンステップトラバーススクリーニング条件として決定し、他の時空間ポイントに対応する時間属性情報及び空間属性情報をツーステップトラバーススクリーニング条件として決定する。
【0129】
選択可能には、始点ノードは、ナレッジグラフにおける元のノードでもよいし、上記実施例における抽象化されたノードでもよい。
【0130】
S642、第1種類のマイニング対象属性情報を有するノードを始点ノードとして決定し、第2種類のマイニング対象属性情報及びマイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定する。マイニング対象属性情報は、第1種類のマイニング対象属性情報と、第2種類のマイニング対象属性情報とを含む。次に、S650を実行する。
【0131】
第2種類の応用シーンでは、動的関係は、時空間衝突関係である。具体的には、2つ以上の時空間ポイントが与えられ、これらの時空間ポイントに同時に現れる人物をマイニングする。マイニング対象ノードは、顔ノード、携帯電話ノード、車両ノードなど、人物のアイデンティティを特徴付けるノードを含み、マイニング対象属性情報は、各時空間ポイントにそれぞれ対応する時間属性情報及び空間属性情報を含む。
【0132】
具体的には、1つの時空間ポイントに対応する空間属性情報を有するノードを始点ノードとして決定し、該時空間ポイントに対応する時間属性情報と、人物のアイデンティティ情報を特徴付けるノードとをワンステップトラバーススクリーニング条件として決定し、他の時空間ポイントに対応する時間属性情報及び空間属性情報をツーステップトラバーススクリーニング条件として決定する。
【0133】
S650、始点ノードからナレッジグラフをトラバースし、トラバースされたノードをワンステップトラバーススクリーニング条件及びツーステップトラバーススクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得る。
【0134】
選択可能には、始点ノードからナレッジグラフに対してツーステップトラバースを行った後に、ワンステップトラバーススクリーニング条件に基づいて、ワンステップトラバースされたノードをスクリーニングし、スクリーニングされたノードのワンステップトラバース後のノードを得、その後、ツーステップトラバーススクリーニング条件に基づいて、スクリーニングされたノードのワンステップトラバース後のノードを再度スクリーニングして、動的関係を有するノードを得る。
【0135】
選択可能には、トラバースするノード数を減らし、スクリーニング効率を向上させるために、トラバースが終了するたびにトラバース後のノードをスクリーニングする。具体的には、始点ノードからナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバーススクリーニング条件に基づいて、ワンステップトラバースされたノードをスクリーニングして、候補ノードを得、候補ノードから、ナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得、ツーステップトラバーススクリーニング条件に基づいて、ツーステップトラバースされたノードをスクリーニングして、動的関係を有するノードを得る。
【0136】
上記第1種類の応用シーンについて、1つの時空間ポイントに対応する時間属性情報と空間属性情報とを有するノードから、ナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバースされたノードから人物のアイデンティティ情報を特徴付けるノードをスクリーニングし、人物のアイデンティティ情報を特徴付けるノード(即ち候補ノード)から、ナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得、ツーステップトラバースされたノードから、他の時空間ポイントに対応する時間属性情報と空間属性情報とを有するノードをスクリーニングし、始点ノード及び最終的にスクリーニングされたノードにそれぞれ接続された、人物のアイデンティティ情報を特徴付けるノードを得る。これにより、時空間-人-時空間のツーステップトラバース、及びスクリーニングによって、これらの時空間ポイントに同時に現れる人物を得る。
【0137】
上記第2種類の応用シーンでは、1つの時空間ポイントに対応する空間属性情報を有するノードから、ナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバースされたノードから、人物のアイデンティティ情報を特徴付け、かつトラバース経路が該時空間ポイントに対応する時間属性情報を有するノードをスクリーニングし、前述したスクリーニングされたノード(即ち、候補ノード)から、ナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得、ツーステップトラバースされたノードから、他の時空間ポイントに対応する時間属性情報と空間属性情報とを有するノードをスクリーニングするか、又は、ツーステップトラバースされたノードから、他の時空間ポイントに対応する空間属性情報を有し、かつ、候補ノードとの間のトラバース経路が他の時空間ポイントに対応する時間属性情報を有するノードをスクリーニングし、始点ノード及び最終的にスクリーニングされたノードにそれぞれ接続された、人物のアイデンティティ情報を特徴付けるノードを得る。これにより、時空間-人-時空間のツーステップトラバース及びスクリーニングによって、これらの時空間ポイントに同時に現れる人物を得る。
【0138】
本実施例に係る始点ノード及びスクリーニング条件の決定方法は、マイニング対象属性情報に関連付けられたマイニング対象ノードのマイニングに適用され、マイニング対象属性情報が時間属性情報及び空間属性情報を含み、マイニング対象ノードが人物のアイデンティティを特徴付けるノードである場合、時空間衝突関係のマイニングに適用することができる。ナレッジグラフが予めマージされたものであるため、ノードとエッジは、より多くの属性情報を表現することができる。グラフの構造が十分に小さいため、ツーステップトラバースすればよく、計算量を大幅に低減することができる。マイニング対象属性情報が変化しても、更新されたノードをタイムリーにフィードバックし、リアルタイム分析をサポートすることができる。
【0139】
図7は、本願の実施例に係る第4種類のナレッジグラフに基づく関係マイニング方法を示すフローチャートである。本実施例では、上記実施例に基づいてさらに最適化する。
【0140】
選択可能には、「マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定する」動作を、「マイニング対象ノードを始点ノードとして決定し、マイニング対象属性情報をワンステップトラバーススクリーニング条件として決定し、マイニング対象ノードをツーステップトラバーススクリーニング条件として決定する」動作に細分化する。
【0141】
図7に係るナレッジグラフに基づく関係マイニング方法は、以下のステップS710~ステップS740を含む。
【0142】
S710、ナレッジグラフ及びマイニング対象動的関係を取得する。
【0143】
S720、動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定する。
【0144】
S730、マイニング対象ノードを始点ノードとして決定し、マイニング対象属性情報をワンステップトラバーススクリーニング条件として決定し、マイニング対象ノードをツーステップトラバーススクリーニング条件として決定する。
【0145】
一つの応用シーンでは、動的関係は同行関係であり、具体的には、1人の人物が与えられ、該人物に同行する他の人物をマイニングする。マイニング対象ノードは、顔ノード、携帯電話ノード、車両ノードなど、人物のアイデンティティを特徴付けるノードを含み、マイニング対象属性情報は、時間属性情報及び空間属性情報を含む。本実施例では、時間属性情報及び空間属性情報の種類のみが限定され、その値が限定されない。
【0146】
具体的には、与えられた該人物のアイデンティティを特徴付けるノードを始点ノードとして決定し、時間属性情報及び空間属性情報をワンステップトラバーススクリーニング条件として決定し、人物のアイデンティティを特徴付けるノードをツーステップトラバーススクリーニング条件として決定する。
【0147】
S740、始点ノードからナレッジグラフをトラバースし、トラバースされたノードをワンステップトラバーススクリーニング条件及びツーステップトラバーススクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得る。
【0148】
選択可能には、始点ノードからナレッジグラフに対してツーステップトラバースを行った後に、ワンステップトラバーススクリーニング条件に基づいて、ワンステップトラバースされたノードをスクリーニングして、スクリーニングされたノードのワンステップトラバースされたノードを得、その後、ツーステップトラバーススクリーニング条件に基づいて、スクリーニングされたノードのワンステップトラバースされたノードを再度スクリーニングして、動的関係を有するノードを得る。
【0149】
選択可能には、トラバースされるノード数を減らし、スクリーニング効率を向上させるために、トラバースが終了するたびにトラバースされたノードをスクリーニングする。具体的には、始点ノードからナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバーススクリーニング条件に基づいて、ワンステップトラバースされたノードをスクリーニングして、候補ノードを得、候補ノードから、ナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得、ツーステップトラバーススクリーニング条件に基づいて、ツーステップトラバースされたノードをスクリーニングして、動的関係を有するノードを得る。
【0150】
上記応用シーンでは、与えられた該人物のアイデンティティを特徴付けるノードから、ナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバースされたノードから時間属性と空間属性を有するノードをスクリーニングし、前述したスクリーニングされたノード(即ち候補ノード)からナレッジグラフをワンステップトラバースして、ツーステップトラバースされたノードを得、ツーステップトラバースされたノードから人物のアイデンティティを特徴付けるノードをスクリーニングして、時間属性と空間属性とを有するノードにそれぞれ接続された、人物のアイデンティティ情報を特徴付けるノードを得る。これにより、人-時空間-人のツーステップトラバース及びスクリーニングによって、与えられた人物に同行する他の人物を得る。
【0151】
具体的には、ツーステップトラバースされたノードがスクリーニングされた後、スクリーニングされたノードを、接続されたノードの時間属性と空間属性とに応じて集約し、即ち、所定の人物と共に現れる時空間ポイントに応じて他の人物を集約し、所定の人物と共に2つ以上の時空間ポイントに現れる他の人物を同行として決定する。
【0152】
選択可能には、時間属性及び空間属性を有するノードは、ナレッジグラフにおける元のノードでもよいし、上記実施例において抽象化されたノードでもよい。
【0153】
本実施例に係る始点ノード及びスクリーニング条件の決定方法は、マイニング対象属性情報に同時に関連付けられた2つ以上のマイニング対象ノードのマイニングに適用され、マイニング対象属性情報が時間属性情報及び空間属性情報を含み、マイニング対象ノードが人物のアイデンティティを特徴付けるノードである場合、同行関係のマイニングに適用することができる。ナレッジグラフが予めマージされるため、ノードとエッジは、より多くの属性情報を表現することができる。グラフの構造が十分に小さいため、ツーステップトラバースすればよく、計算量を大幅に低減することができる。マイニング対象属性情報が変化しても、更新されたノードをタイムリーにフィードバックし、リアルタイム分析をサポートすることができる。
【0154】
図8は、本願の実施例に係るナレッジグラフの生成装置の構成図であり、本願の実施例は、初期ナレッジグラフを再処理する場合に適用され、該装置は、ソフトウェア及び/又はハードウェアの形態で実現され、具体的には、一定のデータ演算能力を備えた電子機器に配置される。
【0155】
図8に示すナレッジグラフの生成装置800は、接続関係を有する複数のノードを含む初期ナレッジグラフを取得するように構成される取得モジュール801と、初期ナレッジグラフから、設定された属性情報要件を満たす複数のターゲット地図要素を決定するように構成される決定モジュール802であって、ターゲット地図要素は、ターゲットノード及びターゲットエッジの少なくとも1つを含む決定モジュール802と、複数のターゲット地図要素をマージして、ナレッジグラフを生成するように構成される生成モジュール803と、を含む。
【0156】
本実施例では、初期ナレッジグラフにおける設定された属性情報要件を満たす複数のターゲットノード及び複数のターゲットエッジの少なくとも1つをそれぞれマージすることにより、ノードとエッジがより多くの属性情報を表現でき、ナレッジグラフの表現能力を向上させ、グラフの構造を小さくすることができる。また、ナレッジグラフを動的関係マイニングなどの業務シーンに適用する際に、分析プロセスを簡略化し、計算量を削減し、計算効率を向上させることができる。
【0157】
選択可能には、決定モジュール802は、具体的には、ターゲット地図要素がターゲットノードを含む場合、初期ナレッジグラフから、いずれか2つのノードの属性情報の値の差が設定範囲にある複数のターゲットノードを決定し、ターゲット地図要素がターゲットエッジを含む場合、初期ナレッジグラフから、2つのノード間の、属性情報の種類が同じである複数のターゲットエッジを決定するように構成される。
【0158】
選択可能には、該装置は、ナレッジグラフから、接続されたエッジの数が設定値を超えるスーパーノードを決定し、スーパーノードに接続されたエッジの属性情報に基づいて、スーパーノードに接続されたエッジを複数のエッジ集合に分割し、エッジ集合の数に応じて、スーパーノードを対応する数のノードに分割し、各エッジ集合におけるエッジを、分割された各ノードに接続するように構成される分割モジュールをさらに含む。
【0159】
選択可能には、取得モジュール801は、初期ナレッジグラフを構築するための複数種類の複数枚のサブグラフ、及び複数枚のサブグラフにおけるノードの情報及びエッジの属性情報を取得するように構成される取得ユニットと、ノードの情報に基づいて、複数枚のサブグラフにおける同じノードをマージして、中間ナレッジグラフを得るように構成される第1のマージユニットと、エッジの属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、かつ設定された関連付け条件を満たすエッジをマージして、初期ナレッジグラフを得るように構成される第2のマージと、を含む。
【0160】
選択可能には、第2のマージユニットは、具体的には、エッジのターゲット属性情報に基づいて、中間ナレッジグラフにおける同一のノードに接続され、かつターゲット属性情報の値の差が設定範囲にあるエッジをマージして、初期ナレッジグラフを得るように構成され、前記ターゲット属性情報時間属性情報と空間属性情報とを含む。
【0161】
選択可能には、該装置は、初期ナレッジグラフには孤立したサブグラフが存在する場合、各孤立したサブグラフにおける関連関係を有するノードを検索し、関連関係を有するノードを、仮想ノードを介して接続するように構成される接続モジュールをさらに含む。
【0162】
選択可能には、接続モジュールは、各孤立したサブグラフにおける関連関係を有するノードを検索するとき、具体的には、各孤立したサブグラフにおける各ノードのターゲット属性情報を取得し、各ノードのターゲット属性情報に基づいて、異なる孤立したサブグラフにおけるターゲット属性情報の値の差が設定範囲にあるノードを、関連関係を有するノードとし、又は、各孤立したサブグラフにおける共通情報を有するノードを取得するように構成され、前記ターゲット属性情報は、時間属性情報及び空間属性情報の少なくとも1つを含み、前記共通情報は、同じアイデンティティ情報を含む。
【0163】
本実施例は、上記いずれかの実施例に係るナレッジグラフの生成方法を実行することができ、対応する技術的効果も奏する。
【0164】
図9は、本願の実施例に係るナレッジグラフに基づく関係マイニング装置の構成図であり、本願の実施例は、上記各実施例に係るナレッジグラフの動的関係マイニングを行う場合に適用され、該装置は、ソフトウェア及び/又はハードウェアの形態で実現され、具体的には、一定のデータ演算能力を備えた電子機器に配置される。
【0165】
図9に示すナレッジグラフに基づく関係マイニング装置900は、ナレッジグラフ及びマイニング対象動的関係を取得するように構成される取得モジュール901と、動的関係に基づいて、マイニング対象ノードとマイニング対象属性情報とを含むマイニング対象情報を決定するように構成される第1の決定モジュール902と、マイニング対象情報に基づいて、ナレッジグラフにおける始点ノード及びスクリーニング条件を決定するように構成される第2の決定モジュール903と、始点ノードからナレッジグラフをトラバースし、トラバースされたノードをスクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得るように構成されるトラバース及びスクリーニングモジュール904と、を含む。
【0166】
本実施例では、動的関係に基づいてマイニング対象情報を決定することにより、ノード及びエッジの少なくとも1つをマージしたナレッジグラフに基づいて、動的関係マイニングの問題をグラフトラバースの問題に変換し、マイニング対象情報に基づいてナレッジグラフにおける始点ノード及びスクリーニング条件を決定し、始点ノードからナレッジグラフをトラバースすることにより、マージされたナレッジグラフにおいて始点ノードを正確に見つけてトラバースし、トラバースされたノードをスクリーニング条件に基づいてスクリーニングする。ナレッジグラフが予めマージされたため、ノード及びエッジは、より多くの属性情報を表現することができ、また、グラフの構造が十分に小さいため、始点ノードからトラバースし、トラバースされたノードをスクリーニングすることによって、動的関係を有するノードを見つけることができる。全てのノードを処理する必要がないので、オンラインナレッジグラフの動的関係マイニングに適用可能であり、分析プロセスが簡単で、計算量が少なく、応答時間が短い。
【0167】
選択可能には、マイニング対象属性情報は、第1種類のマイニング対象属性情報と、第2種類のマイニング対象属性情報とを含み、該装置は、ナレッジグラフから抽象化可能なノードを検索し、抽象化可能なノードは、第1種類のマイニング対象属性情報を有し、抽象化可能なノードに接続されたエッジは、第2種類のマイニング対象属性情報を有し、抽象化可能なノード及び抽象化可能なノードに接続されたエッジを、マイニング対象属性情報を有するノードとして抽象化するように構成される抽象化モジュールをさらに含む。
【0168】
選択可能には、スクリーニング条件は、ワンステップトラバーススクリーニング条件と、ツーステップトラバーススクリーニング条件とを含み、第2の決定モジュール903は、具体的には、マイニング対象属性情報を有するノードを始点ノードとして決定し、マイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定し、又は、第1種類のマイニング対象属性情報を有するノードを始点ノードとして決定し、第2種類のマイニング対象属性情報及びマイニング対象ノードをワンステップトラバーススクリーニング条件として決定し、マイニング対象属性情報をツーステップトラバーススクリーニング条件として決定するように構成され、マイニング対象属性情報は、第1種類のマイニング対象属性情報及び第2種類のマイニング対象属性情報を含む。
【0169】
選択可能には、スクリーニング条件は、ワンステップトラバーススクリーニング条件と、ツーステップトラバーススクリーニング条件とを含み、第2の決定モジュール903は、具体的には、マイニング対象ノードを始点ノードとして決定し、マイニング対象属性情報をワンステップトラバーススクリーニング条件として決定し、マイニング対象ノードをツーステップトラバーススクリーニング条件として決定するように構成される。
【0170】
選択可能には、トラバース及びスクリーニングモジュール904は、具体的には、始点ノードからナレッジグラフをワンステップトラバースして、ワンステップトラバースされたノードを得、ワンステップトラバースされたノードをワンステップトラバーススクリーニング条件に基づいてスクリーニングし、候補ノードを得、候補ノードから、ナレッジグラフをワンステップトラバースし、ツーステップトラバースされたノードを得、ツーステップトラバースされたノードをツーステップトラバーススクリーニング条件に基づいてスクリーニングして、動的関係を有するノードを得るように構成される。
【0171】
選択可能には、マイニング対象ノードは、人物のアイデンティティを特徴付けるノードを含み、マイニング対象属性情報は、時間属性情報及び空間属性情報を含む。
【0172】
本実施例は、上記いずれかの実施例に係るナレッジグラフに基づく関係マイニング方法を実行することができ、対応する技術的効果も奏する。
【0173】
本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。
【0174】
図10に示すように、本願の実施例に係るナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法を実施するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表す。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本願の実現を制限することを意図しない。
【0175】
図10に示すように、該電子機器は、1つ又は複数のプロセッサ1001と、メモリ1002と、高速インタフェース及び低速インタフェースを含む各コンポーネントを接続するためのインタフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、該命令は、外部入力/出力装置(例えば、インタフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施方式では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。
図10では、1つのプロセッサ1001を例とする。
【0176】
メモリ1002は、本願により提供される非一時的なコンピュータ可読記憶媒体である。メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、少なくとも1つのプロセッサが本願により提供されるナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法が行される。本願の非一時的なコンピュータ可読記憶媒体には、本願により提供されるナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
【0177】
メモリ1002は、非一時的なコンピュータ可読記憶媒体として、本願の実施例におけるナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法に対応するプログラム命令/モジュール(例えば、
図8に示す取得モジュール801、決定モジュール802、及び生成モジュール803、
図9に示す取得モジュール901、第1の決定モジュール902、第2の決定モジュール903、及びトラバース及びスクリーニングモジュール904)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ1001は、メモリ1002に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例におけるナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法を実現する。
【0178】
メモリ1002は、ストレージプログラムエリアとストレージデータエリアとを含み、ストレージプログラムエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶し、ストレージデータエリアは、ナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法の電子機器の使用によって作成されたデータなどを記憶する。メモリ1002は、高速ランダムアクセスメモリを含み、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリをさらに含む。いくつかの実施例では、メモリ1002は、プロセッサ1001から遠隔に設定されたメモリを選択的に含み、これらの遠隔メモリは、ネットワークを介してナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法の電子機器に接続される。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
【0179】
ナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法の電子機器は、入力装置1003と出力装置1004とをさらに含む。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式を介して接続することができ、
図10では、バスを介して接続することを例とする。
【0180】
入力装置1003は、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置であり、入力された数字又は文字情報を受信し、ナレッジグラフの生成方法又はナレッジグラフに基づく関係マイニング方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成する。出力装置1004は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含む。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンでもよい。
【0181】
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈される。該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサでもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を該ストレージシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
【0182】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用される、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0183】
ユーザとのインタラクションを提供するため、コンピュータ上で、ここで説明されているシステム及び技術を実施することができる。該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)でもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0184】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、該グラフィカルユーザインタフェース又は該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、ブロックチェーンネットワークと、インターネットとを含む。
【0185】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れているので、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
【0186】
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0187】
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。