(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-13
(45)【発行日】2022-09-22
(54)【発明の名称】ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体
(51)【国際特許分類】
G06F 16/33 20190101AFI20220914BHJP
G06Q 50/18 20120101ALI20220914BHJP
【FI】
G06F16/33
G06Q50/18
(21)【出願番号】P 2021512261
(86)(22)【出願日】2020-05-29
(86)【国際出願番号】 CN2020093421
(87)【国際公開番号】W WO2021139074
(87)【国際公開日】2021-07-15
【審査請求日】2021-03-02
(31)【優先権主張番号】202010017590.4
(32)【優先日】2020-01-08
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】チャン シュエチェン
(72)【発明者】
【氏名】リュウ ジアウェイ
(72)【発明者】
【氏名】ユイ シューミン
(72)【発明者】
【氏名】チェン チェン
(72)【発明者】
【氏名】リー クア
(72)【発明者】
【氏名】ワン ウェイ
【審査官】松尾 真人
(56)【参考文献】
【文献】中国特許出願公開第110059193(CN,A)
【文献】中国特許出願公開第110033851(CN,A)
【文献】中国特許出願公開第108009299(CN,A)
【文献】米国特許出願公開第2014/0180934(US,A1)
【文献】中国特許出願公開第110209825(CN,A)
【文献】中国特許出願公開第110309268(CN,A)
【文献】原田 実,意味グラフのマッチングによる事故問い合わせ文からの判例検索システムJCare,自然言語処理,日本,言語処理学会,2002年04月10日,第9巻 第2号,pp.3~22
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが、第1の構築ユニットと、サンプリングユニットと、第1の取得ユニットと、第2の構築ユニットと、第2の取得ユニットと、算出ユニットと、順序付けユニットとして動作し、
前記第1の構築ユニットが、予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記サンプリングユニットが、前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
前記第1の取得ユニットが、複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
前記第2の構築ユニットが、ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記第2の取得ユニットが、前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記算出ユニットが、前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記順序付けユニットが、前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含む、ナレッジグラフに基づく事件検索方法。
【請求項2】
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップは、
前記ノード集合データの各ノードを出発点として、前記出発点の次のノードの重み値を取得するステップと、
前記重み値を分析してランダムウォークステップ数を設定し、前記出発点が所在する分岐のノード数を分析してウォーク閾値ステップ数を設定するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数より小さいと判断された場合、前記ランダムウォークステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数以上であると判断された場合、前記ウォーク閾値ステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、を含む、請求項1に記載のナレッジグラフに基づく事件検索方法。
【請求項3】
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練するステップは、
全結合層、複数の結合層、及び正規化Softmax分類器を含む前記モデルにより、複数の前記シーケンスデータに基づいてハフマンツリーを作成するステップと、
全結合層により前記ハフマンツリー中の各単語を分析して、複数の予め設定された長さのワンホットone-hotベクトルを取得するステップと、
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得するステップと、
前記Softmax分類器により前記列ベクトルデータを処理して、単語埋め込みベクトルデータを取得するステップと、を含む、請求項2に記載のナレッジグラフに基づく事件検索方法。
【請求項4】
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得した後、前記Softmax分類器により前記列ベクトルデータを処理する前に、前記方法は、
前記第1の取得ユニットが、前記列ベクトルデータを規則的なフレームシーケンス情報に符号化し、前記規則的なフレームシーケンス情報に対して、タイミング時間長が前記規則的なフレームシーケンス情報の送信往復時間より長いタイマーを含むタイマーを設定するステップと、
前記第1の取得ユニットが、自動再送要求ARQプロトコルと、前記列ベクトルデータの送信ルールを含むスライディングウィンドウプロトコルとを設定し、ウィンドウサイズが最大送信フレーム数であるスライドウィンドウを含む、前記Softmax分類器の結合層に結合された送信スライディングウィンドウを設定し、前記Softmax分類器の受信スライディングウィンドウを設定するステップと、
前記第1の取得ユニットが、前記ARQプロトコル、前記スライディングウィンドウプロトコル、前記送信スライディングウィンドウ及び前記受信スライディングウィンドウにより、前記規則的なフレームシーケンス情報を前記Softmax分類器に伝送し、かつ前記Softmax分類器により、結合された結合層に情報フィードバックを行うステップと、をさらに含む、請求項3に記載のナレッジグラフに基づく事件検索方法。
【請求項5】
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の第1の類似度及び第2の類似度を算出するステップは、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報と前記ターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出するステップと、
第1の予め設定された重み比率に基づいて、前記事実要素類似度、前記争点類似度及び前記証拠類似度の重み付け平均値を算出して、前記事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、前記争点関連類似度、前記証拠関連類似度及び前記事実要素関連類似度の重み付け平均値を算出して、前記事件情報の第2の類似度を取得するステップと、を含む、請求項1に記載のナレッジグラフに基づく事件検索方法。
【請求項6】
前記第1の類似度と前記第2の類似度とを加算して、ターゲット類似度を取得するステップは、
類似度が第1の予め設定された閾値より大きい第1の類似度を認識し取得し、かつ類似度が第2の予め設定された閾値より大きい第2の類似度を認識し取得するステップと、
第3の予め設定された重み比率に応じて、取得された第1の類似度の重み付け平均値を算出して、ターゲットの第1の類似度を取得し、かつ第4の予め設定された重み比率に応じて、取得された第2の類似度の重み付け平均値を算出して、ターゲットの第2の類似度を取得するステップと、
前記ターゲットの第1の類似度と前記ターゲットの第2の類似度とを加算して、ターゲット類似度を取得するステップと、を含む、請求項5に記載のナレッジグラフに基づく事件検索方法。
【請求項7】
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップは、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けするステップと、
順序付け範囲と類似度範囲のいずれか一つを少なくとも含む、ユーザが入力した事件出力条件を受信し、前記事件出力条件に基づいて対象事件情報を決定するステップと、
前記対象事件情報を統計分析し、可視化グラフとテキスト情報を生成して出力するステップと、を含む、請求項1~6のいずれか一項に記載のナレッジグラフに基づく事件検索方法。
【請求項8】
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築する第1の構築ユニットと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するサンプリングユニットと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得する第1の取得ユニットと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する第2の構築ユニットと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する第2の取得ユニットと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得する算出ユニットと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力する順序付けユニットと、を含む、ナレッジグラフに基づく事件検索装置。
【請求項9】
メモリと、プロセッサと、前記メモリに記憶されて前記プロセッサ上で実行可能で、前記プロセッサによって実行されると、ナレッジグラフに基づく事件検索方法を実現するコンピュータプログラムと、を含むナレッジグラフに基づく事件検索機器であって、
前記方法は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含む、ナレッジグラフに基づく事件検索機器。
【請求項10】
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップは、
前記ノード集合データの各ノードを出発点として、前記出発点の次のノードの重み値を取得するステップと、
前記重み値を分析してランダムウォークステップ数を設定し、前記出発点が所在する分岐のノード数を分析してウォーク閾値ステップ数を設定するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数より小さいと判断された場合、前記ランダムウォークステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数以上であると判断された場合、前記ウォーク閾値ステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、を含む、請求項9に記載のナレッジグラフに基づく事件検索機器。
【請求項11】
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練するステップは、
全結合層、複数の結合層、及び正規化Softmax分類器を含む前記モデルにより、複数の前記シーケンスデータに基づいてハフマンツリーを作成するステップと、
全結合層により前記ハフマンツリー中の各単語を分析して、複数の予め設定された長さのワンホットone-hotベクトルを取得するステップと、
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得するステップと、
前記Softmax分類器により前記列ベクトルデータを処理して、単語埋め込みベクトルデータを取得するステップと、を含む、請求項10に記載のナレッジグラフに基づく事件検索機器。
【請求項12】
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得した後、前記Softmax分類器により前記列ベクトルデータを処理する前に、前記方法は、
前記列ベクトルデータを規則的なフレームシーケンス情報に符号化し、前記規則的なフレームシーケンス情報に対して、タイミング時間長が前記規則的なフレームシーケンス情報の送信往復時間より長いタイマーを含むタイマーを設定するステップと、
自動再送要求ARQプロトコルと、前記列ベクトルデータの送信ルールを含むスライディングウィンドウプロトコルとを設定し、ウィンドウサイズが最大送信フレーム数であるスライドウィンドウを含む、前記Softmax分類器の結合層に結合された送信スライディングウィンドウを設定し、前記Softmax分類器の受信スライディングウィンドウを設定するステップと、
前記ARQプロトコル、前記スライディングウィンドウプロトコル、前記送信スライディングウィンドウ及び前記受信スライディングウィンドウにより、前記規則的なフレームシーケンス情報を前記Softmax分類器に伝送し、かつ前記Softmax分類器により、結合された結合層に情報フィードバックを行うステップと、をさらに含む、請求項11に記載のナレッジグラフに基づく事件検索機器。
【請求項13】
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の第1の類似度及び第2の類似度を算出するステップは、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報と前記ターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出するステップと、
第1の予め設定された重み比率に基づいて、前記事実要素類似度、前記争点類似度及び前記証拠類似度の重み付け平均値を算出して、前記事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、前記争点関連類似度、前記証拠関連類似度及び前記事実要素関連類似度の重み付け平均値を算出して、前記事件情報の第2の類似度を取得するステップと、を含む、請求項9に記載のナレッジグラフに基づく事件検索機器。
【請求項14】
前記第1の類似度と前記第2の類似度とを加算して、ターゲット類似度を取得するステップは、
類似度が第1の予め設定された閾値より大きい第1の類似度を認識し取得し、かつ類似度が第2の予め設定された閾値より大きい第2の類似度を認識し取得するステップと、
第3の予め設定された重み比率に応じて、取得された第1の類似度の重み付け平均値を算出して、ターゲットの第1の類似度を取得し、かつ第4の予め設定された重み比率に応じて、取得された第2の類似度の重み付け平均値を算出して、ターゲットの第2の類似度を取得するステップと、
前記ターゲットの第1の類似度と前記ターゲットの第2の類似度とを加算して、ターゲット類似度を取得するステップと、を含む、請求項13に記載のナレッジグラフに基づく事件検索機器。
【請求項15】
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップは、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けするステップと、
順序付け範囲と類似度範囲のいずれかを少なくとも含む、ユーザが入力した事件出力条件を受信し、前記事件出力条件に基づいて対象事件情報を決定するステップと、
前記対象事件情報を統計分析し、可視化グラフとテキスト情報を生成して出力するステップと、を含む、請求項9~14のいずれか一項に記載のナレッジグラフに基づく事件検索機器。
【請求項16】
コンピュータ上で実行されると、ナレッジグラフに基づく事件検索方法をコンピュータに実行させる命令を含むコンピュータ読み取り可能な記憶媒体であって、
前記方法は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含む、コンピュータ読み取り可能な記憶媒体。
【請求項17】
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップは、
前記ノード集合データの各ノードを出発点として、前記出発点の次のノードの重み値を取得するステップと、
前記重み値を分析してランダムウォークステップ数を設定し、前記出発点が所在する分岐のノード数を分析してウォーク閾値ステップ数を設定するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数より小さいと判断された場合、前記ランダムウォークステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、
前記ランダムウォークステップ数が前記ウォーク閾値ステップ数以上であると判断された場合、前記ウォーク閾値ステップ数に従って、前記出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成して、複数のシーケンスデータを取得するステップと、を含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項18】
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練するステップは、
全結合層、複数の結合層、及び正規化Softmax分類器を含む前記モデルにより、複数の前記シーケンスデータに基づいてハフマンツリーを作成するステップと、
全結合層により前記ハフマンツリー中の各単語を分析して、複数の予め設定された長さのワンホットone-hotベクトルを取得するステップと、
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得するステップと、
前記Softmax分類器により前記列ベクトルデータを処理して、単語埋め込みベクトルデータを取得するステップと、を含む、請求項17に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
複数の前記結合層により、複数の前記予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得した後、前記Softmax分類器により前記列ベクトルデータを処理する前に、前記方法は、
前記列ベクトルデータを規則的なフレームシーケンス情報に符号化し、前記規則的なフレームシーケンス情報に対して、タイミング時間長が前記規則的なフレームシーケンス情報の送信往復時間より長いタイマーを含むタイマーを設定するステップと、
自動再送要求ARQプロトコルと、前記列ベクトルデータの送信ルールを含むスライディングウィンドウプロトコルとを設定し、ウィンドウサイズが最大送信フレーム数であるスライドウィンドウを含む、前記Softmax分類器の結合層に結合された送信スライディングウィンドウを設定し、前記Softmax分類器の受信スライディングウィンドウを設定するステップと、
前記ARQプロトコル、前記スライディングウィンドウプロトコル、前記送信スライディングウィンドウ及び前記受信スライディングウィンドウにより、前記規則的なフレームシーケンス情報を前記Softmax分類器に伝送し、かつ前記Softmax分類器により、結合された結合層に情報フィードバックを行うステップと、をさらに含む、請求項18に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の第1の類似度及び第2の類似度を算出するステップは、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報と前記ターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出するステップと、
第1の予め設定された重み比率に基づいて、前記事実要素類似度、前記争点類似度及び前記証拠類似度の重み付け平均値を算出して、前記事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、前記争点関連類似度、前記証拠関連類似度及び前記事実要素関連類似度の重み付け平均値を算出して、前記事件情報の第2の類似度を取得するステップと、を含む、請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年1月8日に中国専利局に提出された、出願番号が202010017590.4で、発明の名称が「ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本願に組み込まれるものとする。
【0002】
本願は、ビッグデータの分野におけるナレッジグラフの分野に関し、特に、ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体に関する。
【背景技術】
【0003】
類似事件の検索方式は、事件の関連情報に基づいて過去事件を検索し、最も類似する事件を見つける事件情報の取得方式であり、得られた事件情報は、法官の判決や訴訟事件の関係者に参考を提供することができる。現在採用されている類似事件の検索方式は、裁判文書中の関連フィールドを検索することのみに基づいて裁判文書を全文検索し、裁判文書における司法裁判の関連知識との明確な対応関係がなく、司法裁判の「キー事実」の複雑な論理がキーワードで記述しにくく、異なる文書での争点、訴因及び訴訟上の請求等の関連情報の表記方式が一致しない影響因子を処理しないため、検索の正確性及び専門性について高い効果を達成することができない。
【0004】
現在の類似事件の検索は、ユーザが入力した照会内容を受信することにより、前記照会内容を分析して前記照会内容の第1のキー情報を取得し、前記第1のキー情報に基づいて、作成された裁判ナレッジグラフから第2のキー情報を取得し、前記第2のキー情報によりデータベースで検索して、前記第2のキー情報に関連する判例テキストを取得し、前記判例テキストを順序付けし、順序付けされた判例テキストを予め設定された推薦条件に従って推薦出力する。発明者らは、裁判ナレッジグラフが、裁判文書の内容のみに基づいて構築されたナレッジグラフであるため、検索される参照対象が比較的単一であり、取得された判例テキストはあまり参考にならず、検索回数と検索方式を増加させてしまうので、事件検索システムのユーザビリティが低くなってしまうことを見出した。
【発明の概要】
【0005】
本願は、法律事件ナレッジグラフの構築、法律事件ナレッジグラフの検索、ランダムウォークサンプリング及びコサイン類似度算出などのステップにより、法律事件ナレッジグラフと検索すべきナレッジグラフの事件情報が記述上、関連性、専門性、及び全面性がより高くなるようにするとともにシステムが高い拡張可能性と高い操作性を備えるようにして、検索の速度と正確性を向上させ、ユーザによるシステムの操作回数を減少させて事件検索システムのユーザビリティを向上させるためのナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体を提供する。
【0006】
本願の実施例の第1の態様によれば、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含むナレッジグラフに基づく事件検索方法を提供する。
【0007】
本願の実施例の第2の態様によれば、上記第1の態様に係るナレッジグラフに基づく事件検索方法を実現する機能を有するナレッジグラフに基づく事件検索装置を提供する。前記機能は、ハードウェアによって実現されてもよく、ハードウェアによって対応するソフトウェアを実行して実現されてもよい。ハードウェア又はソフトウェアは、上記機能に対応する1つ以上のモジュールを含み,前記ユニットは、ソフトウェア及び/又はハードウェアであってよい。
【0008】
前記装置は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築する第1の構築ユニットと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するサンプリングユニットと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得する第1の取得ユニットと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する第2の構築ユニットと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する第2の取得ユニットと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得する算出ユニットと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力する順序付けユニットと、を含む。
【0009】
本願の実施例の第3の態様によれば、メモリと、プロセッサと、前記メモリに記憶されて前記プロセッサ上で実行可能で、前記プロセッサによって実行されると、ナレッジグラフに基づく事件検索方法を実現するコンピュータプログラムと、を含むナレッジグラフに基づく事件検索機器であって、前記方法は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含むナレッジグラフに基づく事件検索機器を提供する。
【0010】
本願の実施例の第4の態様によれば、コンピュータ上で実行されると、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフを分析してノード集合データを構築するステップと、
前記ノード集合データの各ノードを出発点として、前記ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップと、
複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得するステップと、
ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築するステップと、
前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、前記検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得するステップと、
前記第1の単語埋め込みベクトルデータ及び前記第2の単語埋め込みベクトルデータに基づいて、前記事件情報の内容記述上の類似度を示す第1の類似度及び前記事件情報の論理的関係上の類似度を示す第2の類似度を算出し、前記事件情報の前記第1の類似度及び前記第2の類似度を加算して、ターゲット類似度を取得するステップと、
前記ターゲット類似度の値が高い順に前記事件情報を順序付けし、順序付けされた事件情報を出力するステップと、を含むナレッジグラフに基づく事件検索方法をコンピュータに実行させる命令を含むコンピュータ読み取り可能な記憶媒体を提供する。
【0011】
本願の実施例に係る発明は、従来技術と比較して、テキスト情報に基づいて法律事件ナレッジグラフを構築し、前記法律事件ナレッジグラフに基づいて構築されたノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得し、複数の前記シーケンスデータに基づいて単語変換ベクトルアルゴリズムにより前記モデルを訓練して、更新されたターゲットモデルを取得し、ターゲットテキスト情報を取得し、前記ターゲットモデルにより前記ターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築し、前記検索すべきナレッジグラフに基づいて前記法律事件ナレッジグラフで検索して、前記検索すべきナレッジグラフに関連した事件情報を取得し、前記事件情報の第1の類似度と第2の類似度に基づいて、出力される事件情報を取得する。本願の実施例によれば、法律事件ナレッジグラフと検索すべきナレッジグラフの事件情報が記述上、関連性、専門性、及び全面性がよりより高くなるとともに、システムが高い拡張可能性と高い操作性を備えているので、検索の速度と正確性が向上し、ユーザによるシステムの操作回数が減少して事件検索システムのユーザビリティが向上する。
【図面の簡単な説明】
【0012】
【
図1】本願の実施例におけるナレッジグラフに基づく事件検索方法の一実施例の概略図である。
【
図2】本願の実施例における構築された法律事件ナレッジグラフの概略図である。
【
図3】本願の実施例におけるターゲット類似度を取得するために比較された検索すべきナレッジグラフの概略図である。
【
図4】本願の実施例におけるターゲット類似度を取得するために比較された法律事件ナレッジグラフの概略図である。
【
図5】本願の実施例におけるナレッジグラフに基づく事件検索方法の別の実施例の概略図である。
【
図6】本願の実施例におけるナレッジグラフに基づく事件検索装置の一実施例の概略図である。
【
図7】本願の実施例におけるナレッジグラフに基づく事件検索装置の別の実施例の概略図である。
【
図8】本願の実施例におけるナレッジグラフに基づく事件検索機器の一実施例の概略図である。
【発明を実施するための形態】
【0013】
本願の実施例に係るナレッジグラフに基づく事件検索方法のフローチャートである
図1を参照しながら、以下、本願に係る、コンピュータ機器により実行されるナレッジグラフに基づく事件検索方法を例示して説明する。コンピュータ機器は、サーバ又は端末であってもよく、
図8に示す装置80がアプリケーション又はエクセキュティブプログラムである場合、端末は
図8に示す装置80が実装された端末であり、本願は、実行主体のタイプを限定するものではない。該方法は、具体的には、ステップ101~107を含む。
【0014】
ステップ101では、予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する。
【0015】
サーバは、予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する。
【0016】
具体的には、サーバは、テキスト情報を分析してテキスト情報中のノイズをクリアし、不一致を訂正し、テキスト情報をデータ統合し、テキスト情報を複数のデータソースから1つの一致したデータに統合して記憶し、テキスト情報に対して集約、冗長特徴の削除とクラスタリングの処理を行い、テキスト情報に対してデータ変換処理を行って、テキスト情報を小さい区間と機械が認識可能な表現式とに圧縮し、テキスト情報に対して単語分割処理を行い、分割された単語を特徴抽出して特徴情報を取得し、予め設定された畳み込みニューラルネットワーク言語モデルを呼び出して、自然言語処理(Natural Language Processing、NLP)アルゴリズムにより、特徴情報を属性、属性に対応する内容及び属性間の関係を含むナレッジグラフの構造化データとして解釈し、属性、属性に対応する内容及び属性間の関係に基づいて、
図2に示すように、法律事件ナレッジグラフを作成する。法律事件ナレッジグラフを分析し、原告情報と、原告の訴訟上の請求情報と、争点と、事実要素と、小要素と、法条と、原告が提供した証拠情報と、前の関連関係とに基づいて、法律事件ナレッジグラフを分割して再組み合わせて、法律事件ナレッジグラフのノードデータをツリー構造のノード集合データに構築する。
図2の内容は、参考例に過ぎず、その内容の正確性と実際の操作の有無は考慮しない。
【0017】
ステップ102では、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得する。
【0018】
サーバは、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得する。
【0019】
具体的には、法律事件ナレッジグラフをディープウォーク(Deepwalk)アルゴリズムモデルに深度入力して監視なしの予備訓練を行う。反復回数n、ステップ幅m、変数データp、及び毎回ランダムに生成されるベクトルの数qを設定し、ランダムウォーク回数kを初期化し、ノード集合データの各ノードを出発点とし、出発点の下流ノード集合の重み値でノード集合データをmステップランダムウォークし、k回ランダムウォークし、mステップランダムウォークした場合に、現在のノードには下流結合点がないと、該ノードでランダムウォークを停止し、そして、変数データpと、毎回ランダムに生成されるベクトルの数qとに基づいて1本ずつのシーケンスデータを生成し、n回反復操作し、一連のランダムウォーク操作が完了すると、シーケンスデータの最適値を算出し、最適値を取得できなければ、改めてステップ幅を設定し、最適値が取得されるまでノード集合データをランダムウォークサンプリングする。目的関数の反数の最小値を算出することにより最適値を算出することができ、試験関数は、
【数1】
であり、ここで、xとyはランダムウォーク停止時に所在するノードの座標を示し、はグローバル最大値の値範囲を示し、eは制御精度を示す。
【0020】
ステップ103では、複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する。
【0021】
サーバは、複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する。
【0022】
具体的には、単語変換ベクトルword2vecアルゴリズムにより複数のシーケンスデータを分析して、モデルを訓練し、モデルを更新する。入力層により複数のシーケンスデータ中の単語をベクトルの表現形式に変換して単語ベクトルを取得し、隠れ層により入力層から出力された単語ベクトルの累積和を算出して総ベクトルを取得し、総ベクトルが出力層のハフマンツリーの各非リーフノードに結合され、意味的関係と文脈関係に基づいて総ベクトルに対してハフマンツリーを構築し、エネルギー関数によりハフマンツリーに対して確率算出を行うことができる。
【0023】
ステップ104では、ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する。
【0024】
サーバは、ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する。
【0025】
具体的には、サーバは、ターゲットテキスト情報を分析してテキスト情報中のノイズをクリアし、不一致を訂正し、ターゲットテキスト情報をデータ統合し、ターゲットテキスト情報を複数のデータソースから1つの一致したデータに統合して記憶し、ターゲットテキスト情報に対して集約、冗長特徴の削除とクラスタリングの処理を行い、ターゲットテキスト情報に対してデータ変換処理を行い、ターゲットテキスト情報を小さい区間と機械が認識可能な表現式とに圧縮し、ターゲットテキスト情報に対して単語分割処理を行い、分割された単語を特徴抽出して特徴情報を取得し、予め設定された畳み込みニューラルネットワーク言語モデルを呼び出して、NLPアルゴリズムにより、特徴情報を属性、属性に対応する内容及び属性間の関係を含むナレッジグラフの構造化データとして解釈し、属性、属性に対応する内容及び属性間の関係に基づいて、検索すべきナレッジグラフを作成する。
【0026】
ステップ105では、法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する。
【0027】
サーバは、法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する。
【0028】
具体的には、検索すべきナレッジグラフに対して特徴抽出を行い、特徴情報間のつながりを分析して、訴因情報と事件タイプ情報を含む関連特徴情報を取得し、関連特徴情報に基づいて法律事件ナレッジグラフをトラバースし、同じ及び/又は類似する事件情報と事件情報に対応する第1の単語埋め込みベクトルデータと、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータとを取得する。第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータにより、検索すべきナレッジグラフのノードと法律事件ナレッジグラフのノードの間の関係の類似度及び内容の類似度を算出することに役立つ。
【0029】
ステップ106では、第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報の内容記述上の類似度を示す第1の類似度及び第2の類似度を算出し、事件情報の第1の類似度及び第2の類似度を加算して、ターゲット類似度を取得する。
【0030】
サーバは、第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報の内容記述上の第1の類似度及び論理的関係上の第2の類似度を算出し、第1の類似度及び第2の類似度を加算してターゲット類似度を取得する。
【0031】
具体的には、第1の単語埋め込みベクトルデータと第2の単語埋め込みベクトルデータとの間の内容記述上の類似度を算出して、事件情報の第1の類似度を取得し、第1の単語埋め込みベクトルデータと第2のワード埋め込みベクトルデータとの間の論理的関係上の類似度を算出して、事件情報の第2の類似度を取得し、第1の類似度と第2の類似度の和の値をターゲット類似度とする。
【0032】
法律事件ナレッジグラフにおける複数のノードに対応する類似度を加算した値を、法律事件ナレッジグラフに対応する法律事件とユーザにより入力された検索すべき事件との類似度とすることにより、検索の正確性を向上させる。例えば、
図3及び
図4に示すように、
図3は、検索すべきナレッジグラフであり、
図4は、法律事件ナレッジグラフであり、
図4におけるノード6、ノード8、ノード9及びノード10のそれぞれに対応する第2の類似度の和の値が
図3におけるノード6、ノード8、ノード9及びノード10のそれぞれに対応する類似度の和の値に最も近ければ、
図4におけるノード7は、
図3におけるノード7に最も類似する。
【0033】
上記の例示的な内容、
図3の内容、及び
図4の内容は、説明及び参考のみに用いられ、その内容の正確性と実際の操作の有無は考慮しない。
【0034】
ステップ107では、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する。
【0035】
サーバは、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する。
【0036】
具体的には、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を取得し、順序付けされた事件を解釈説明する。解釈説明される内容は、事件情報と入力されたテキスト情報との類似度、事件情報の判決意見と事件情報の証拠抽出方向などを含む。事件情報と解釈説明をテキスト情報として生成し、事件情報における各部分の類似度を統計分析して可視化グラフを生成する。ユーザが入力した事件情報出力条件を受信すると、事件情報出力条件を満たす事件情報のテキストと可視化グラフを出力する。事件出力条件は、事件情報の順序付け範囲又は事件の類似度範囲を含むが、これらに限定されない。
【0037】
図5を参照すると、本願の実施例におけるナレッジグラフに基づく事件検索方法の別の実施例は、ステップ501~511を含む。
【0038】
ステップ501では、予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する。
【0039】
サーバは、予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する。
【0040】
具体的には、サーバは、テキスト情報を分析してテキスト情報中のノイズをクリアし、不一致を訂正し、テキスト情報をデータ統合し、テキスト情報を複数のデータソースから1つの一致したデータに統合して記憶し、テキスト情報に対して集約、冗長特徴の削除とクラスタリングの処理を行い、テキスト情報に対してデータ変換処理を行い、テキスト情報を小さい区間と機械が認識可能な表現式とに圧縮し、テキスト情報に対して単語分割処理を行い、分割された単語を特徴抽出して特徴情報を取得し、予め設定された畳み込みニューラルネットワーク言語モデルを呼び出して、自然言語処理(Natural Language Processing、NLP)アルゴリズムにより、特徴情報を属性、属性に対応する内容及び属性間の関係を含むナレッジグラフの構造化データとして解釈し、属性、属性に対応する内容及び属性間の関係に基づいて、
図2に示すように、法律事件ナレッジグラフを作成する。法律事件ナレッジグラフを分析し、原告情報と、原告の訴訟上の請求情報と、争点と、事実要素と、小要素と、法条と、原告が提供した証拠情報と、前の関連関係とに基づいて、法律事件ナレッジグラフを分割して再組み合わせて、法律事件ナレッジグラフのノードデータをツリー構造のノード集合データに構築する。
図2の内容は、参考例に過ぎず、その内容の正確性と実際の操作の有無は考慮しない。
【0041】
選択的に、予め設定されたモデルによりテキスト情報を分析して法律事件ナレッジグラフを構築するステップは、具体的には、各法律事件照会及び/又は管理プラットフォームのデータをリンクするブロックチェーン構成ネットワークを作成し、ブロックチェーン構成ネットワークに記憶されたテキスト情報を取得するステップと、テキスト情報に対して字句解析、構文解析及び意味解析を行って、構造化データを取得し、構造化データをマークアップ言語データに変換するステップと、マークアップ言語データを実体的に抽出して、法律事件に係る人名、組織/機構名、地理的位置、イベント/日付、文字値、及び金額値を含む実体情報を取得し、マークアップ言語データに対して関係抽出を行って、事実要素、人物、証拠、争点、及び法条のうちの少なくとも両者の関係を含む関係情報を取得し、マークアップ言語データに対して属性抽出を行って属性情報を取得するステップと、実体情報、関係情報及び属性情報に対して情報融合処理を行って、融合処理情報を取得し、融合処理情報に基づいてデータモデルを構築して法律事件ナレッジグラフを取得し、法律事件ナレッジグラフをブロックチェーン構成ネットワークの関連データベース管理システムMySQLデータベースに記憶するステップと、を含む。ブロックチェーン構成ネットワークにより複数のプラットフォームの履歴データとリアルタイムデータを取得し、法律事件ナレッジグラフにロバストな構築基礎を提供し、ブロックチェーン構成ネットワークの低コスト、高効率及びデータ記憶安全などの特性に合わせて、その法律事件ナレッジグラフの構築を迅速かつ正確にする。
【0042】
ステップ502では、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得する。
【0043】
サーバは、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得する。
【0044】
具体的には、法律事件ナレッジグラフをディープウォークアルゴリズムモデルに深度入力して監視なしの予備訓練を行う。反復回数n、ステップ幅m、変数データp、及び毎回ランダムに生成されたベクトルの数qを設定し、ランダムウォーク回数kを初期化し、ノード集合データの各ノードを出発点とし、出発点の下流ノード集合の重み値でノード集合データをmステップランダムウォークし、k回ランダムウォークし、mステップランダムウォークした場合に、現在のノードに下流結合点がないと、該ノードでランダムウォークを停止し、そして、変数データpと、毎回ランダムに生成されたベクトルの数qとに基づいて1つずつのシーケンスデータを生成し、n回反復操作し、一連のランダムウォーク操作が完了すると、1つずつのシーケンスデータの最適値を算出し、最適値を取得できなければ、改めてステップ幅を設定し、最適値が取得されるまでノード集合データをランダムウォークサンプリングする。目的関数の反数の最小値を算出することにより最適値を算出することができ、試験関数は、
【数2】
であり、ここで、xとyはランダムウォーク停止時に所在するノードの座標を示し、τはグローバル最大値の値範囲を示し、eは制御精度を示す。
【0045】
選択的に、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップは、具体的には、ノード集合データの各ノードを出発点として、出発点の次のノードの重み値を取得するステップと、重み値を分析してランダムウォークステップ数を設定し、出発点が所在する分岐のノード数を分析してウォーク閾値ステップ数を設定するステップと、ランダムウォークステップ数がウォーク閾値ステップ数より小さいと判断された場合、ランダムウォークステップ数に従って、出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成し、複数のシーケンスデータを取得するステップと、ランダムウォークステップ数がウォーク閾値ステップ数以上であると判断された場合、ウォーク閾値ステップ数に従って、出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成し、複数のシーケンスデータを取得するステップと、を含む。
【0046】
選択的に、ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するステップは、具体的には、ノード集合データの各ノードを出発点として、出発点以外の下流ノードの重み値を取得し、重み値に基づいて現在の反復回数を決定するステップと、現在の反復回数に基づいて、予め設定された経路長に応じてノード集合データをランダムウォークするステップと、現在の反復回数が予め設定された反復制御回数より小さいことが検出されると、区間[-1、1]の間の多次元ベクトルと多次元ベクトルの多変数関数をランダムに生成するステップと、多変数関数の関数値を算出し、関数値が第1の予め設定された閾値に達したこと、及び、予め設定された経路長がノード集合データへのランダムウォークを停止するための制御精度より小さいことを検出すれば、ノード集合データをランダムウォークすることを停止し、かつノード集合データにおいてランダムウォークする際に生成されるシーケンスデータを取得するステップと、関数値が第1の予め設定された閾値に達していないこと、及び、予め設定された経路長が制御精度以上であることを検出すれば、ランダムウォークの走行ステップ幅を予め設定された経路長の半分に設定し、設定されたランダムウォークの走行ステップ幅に従って、関数値が第1の予め設定された閾値に達し、かつ予め設定された経路長が制御精度より小さくなるまで、ノード集合データを改めてランダムウォークし、かつノード集合データにおいてランダムウォークする際に生成されるシーケンスデータを取得するステップと、を含む。
【0047】
ステップ503では、複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する。
【0048】
サーバは、複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する。
【0049】
具体的には、単語変換ベクトルword2vecアルゴリズムにより複数のシーケンスデータを分析して、モデルを訓練し、モデルを更新する。入力層により複数のシーケンスデータ中の単語をベクトルの表現形式に変換して単語ベクトルを取得し、隠れ層により入力層から出力された単語ベクトルの累積和を算出して総ベクトルを取得し、総ベクトルが出力層のハフマンツリーの各非リーフノードに結合され、意味的関係と文脈関係に基づいて総ベクトルに対してハフマンツリーを構築し、エネルギー関数によりハフマンツリーに対して確率算出を行うことができる。
【0050】
選択的に、複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練するステップは、具体的には、全結合層、複数の結合層、及び正規化Softmax分類器を含むモデルにより、複数のシーケンスデータに基づいてハフマンツリーを作成するステップと、全結合層によりハフマンツリー中の各単語を分析して、複数の予め設定された長さのワンホット(one-hot)ベクトルを取得するステップと、複数の結合層により、複数の予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得するステップと、Softmax分類器により列ベクトルデータを処理して、単語埋め込みベクトルデータを取得するステップと、を含む。
【0051】
選択的に、単語埋め込みベクトルデータを取得した後に、上記方法は、HashTable[MaxSize]関数によりタイプを設定するステップと、単語埋め込みベクトルデータのキーワード及びキーワードシーケンスを取得し、アドレス取得関数によりハッシュテーブルにおいてキーワードを索引や、削除、挿入した記録情報を抽出するステップであって、アドレス取得関数が、
【数3】
であり、ここでkeyはキーワードであり、mはハッシュテーブル長さであり、iは単語埋め込みベクトルデータの増分シーケンスであり、pは予め設定された素数であるステップと、タイプと記録情報に基づいてハッシュテーブルを作成し、ハッシュテーブルを初期化し、ハッシュテーブルにキーワードシーケンスを挿入し、ハッシュテーブルの平均索引長を設定するステップとをさらに含む。単語埋め込みベクトルデータ中のキーコード値をハッシュテーブルの1つの位置にマッピングすることによりレコードにアクセスして、履歴事件の情報を記憶し事件検索の効率を向上させることに役立つ。
【0052】
選択的に、Softmax分類器により列ベクトルデータを処理する前に、方法は、列ベクトルデータを規則的なフレームシーケンス情報に符号化し、規則的なフレームシーケンス情報に対して、タイミング時間長が規則的なフレームシーケンス情報の送信往復時間より長いタイマーを含むタイマーを設定するステップと、自動再送要求ARQプロトコルと、列ベクトルデータの送信ルールを含むスライディングウィンドウプロトコルとを設定し、ウィンドウサイズが最大送信フレーム数であるスライドウィンドウを含む、Softmax分類器の結合層に結合された送信スライディングウィンドウを設定し、Softmax分類器の受信スライディングウィンドウを設定するステップと、ARQプロトコル、スライディングウィンドウプロトコル、送信スライディングウィンドウ及び受信スライディングウィンドウにより、規則的なフレームシーケンス情報をSoftmax分類器に伝送し、かつSoftmax分類器により、結合された結合層に情報フィードバックを行うステップと、をさらに含む。スライディングウィンドウにより上記列ベクトルデータの伝送を制御して、データの渋滞と欠損を回避するとともに、履歴列ベクトルデータと現在の列ベクトルデータとを分離するため、現在の列ベクトルデータへの処理速度が履歴列ベクトルデータの増加により緩やかになることなく、事件検索システムによるデータの処理効率を向上させる。データ伝送量を制御することにより、システムのキャッシュの負担を軽減して伝送効率を向上させる。
【0053】
ステップ504では、ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する。
【0054】
サーバは、ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する。
【0055】
具体的には、サーバは、ターゲットテキスト情報を分析してテキスト情報中のノイズをクリアし、不一致を訂正し、ターゲットテキスト情報をデータ統合し、ターゲットテキスト情報を複数のデータソースから1つの一致したデータに統合して記憶し、ターゲットテキスト情報に対して集約、冗長特徴の削除とクラスタリングの処理を行い、ターゲットテキスト情報に対してデータ変換処理を行い、ターゲットテキスト情報を小さい区間と機械が認識可能な表現式とに圧縮し、ターゲットテキスト情報に対して単語分割処理を行い、分割された単語を特徴抽出して特徴情報を取得し、予め設定された畳み込みニューラルネットワーク言語モデルを呼び出して、NLPアルゴリズムにより、特徴情報を属性、属性に対応する内容及び属性間の関係を含むナレッジグラフの構造化データとして解釈し、属性、属性に対応する内容及び属性間の関係に基づいて、検索すべきナレッジグラフを作成する。
【0056】
ステップ505では、法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する。
【0057】
サーバは、法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する。
【0058】
具体的には、検索すべきナレッジグラフに対して特徴抽出を行い、特徴情報間のつながりを分析して、訴因情報と事件タイプ情報を含む関連特徴情報を取得し、関連特徴情報に基づいて法律事件ナレッジグラフをトラバースし、同じ及び/又は類似する事件情報と事件情報に対応する第1の単語埋め込みベクトルデータと、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータとを取得する。第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータにより、検索すべきナレッジグラフのノードと法律事件ナレッジグラフのノードの間の関係の類似度及び内容の類似度を算出することに役立つ。
【0059】
ステップ506では、第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報とターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出する。
【0060】
サーバは、第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報とターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出する。
【0061】
具体的には、争点、証拠及び事実要素の第1の単語埋め込みベクトルデータをそれぞれ取得し、また、争点、証拠及び事実要素の第2の単語埋め込みベクトルデータをそれぞれ取得し、争点の第1の単語埋め込みベクトルデータと争点の第2の単語埋め込みベクトルデータとの類似度を算出して、争点類似度を取得し、証拠の第1の単語埋め込みベクトルデータと証拠の第2の単語埋め込みベクトルデータとの類似度を算出して、証拠類似度を取得し、事実要素の第1の単語埋め込みベクトルデータと事実要素の第2の単語埋め込みベクトルデータとの類似度を算出して、事実要素類似度を取得する。第1の単語埋め込みベクトルデータと第2の単語埋め込みベクトルデータとの争点関連類似度、証拠関連類似度及び事実要素関連類似度をそれぞれ算出し、それぞれ事件情報とターゲットテキスト情報との間の争点関連類似度、証拠関連類似度及び事実要素関連類似度を取得する。
【0062】
ステップ507では、第1の予め設定された重み比率に基づいて、事実要素類似度、争点類似度及び証拠類似度の重み付け平均値を算出して、事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、争点関連類似度、証拠関連類似度及び事実要素関連類似度の重み付け平均値を算出して、事件情報の第2の類似度を取得する。
【0063】
サーバは、第1の予め設定された重み比率に基づいて、事実要素類似度、争点類似度及び証拠類似度の重み付け平均値を算出して、事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、争点関連類似度、証拠関連類似度及び事実要素関連類似度の重み付け平均値を算出して、事件情報の第2の類似度を取得する。
【0064】
具体的には、予め設定された重みに基づいて第1の単語埋め込みベクトルデータと第2の単語埋め込みベクトルデータとの類似度重み付け平均値を算出して第1の類似度を取得し、予め設定された重みの設定方式は、争点、証拠、及び事実要素の重みを順次減らして設定する。例えば、争点、証拠及び事実要素の重みがそれぞれ40%、35%、25%であり、争点に関し、算出された類似度が0.5であり、証拠に関し、算出された類似度が0.2であり、事実要素に関し、算出された類似度が0.3である場合、第1の類似度=0.4*0.5+0.35*0.2+0.25*0.3=1.55である。予め設定された重みに基づいて第1の単語埋め込みベクトルデータと第2の単語埋め込みベクトルデータとの類似度重み付け平均値を算出して、第1の類似度を取得し、ここで、予め設定された重みの設定方式は、争点、証拠、及び事実要素の重みを順次減らして設定する。
【0065】
ステップ508では、類似度が第1の予め設定された閾値より大きい第1の類似度を認識し取得し、かつ類似度が第2の予め設定された閾値より大きい第2の類似度を認識し取得する。
【0066】
サーバは、類似度が第1の予め設定された閾値より大きい第1の類似度を認識し取得し、かつ類似度が第2の予め設定された閾値より大きい第2の類似度を認識し取得する。
【0067】
具体的には、第1の類似度の類似度が第1の予め設定された閾値より大きいか否かを判断し、類似度が第1の予め設定された閾値より大きい第1の類似度を選別し、第2の類似度の類似度が第2の予め設定された閾値より大きいか否かを判断し、類似度が第2の予め設定された閾値より大きい第2の類似度を選別する。第1の類似度と第2の類似度を選別して後続の算出動作を減らすことにより、データ分析の品質及び正確性を確保するだけでなく、動作効率を向上させることができる。
【0068】
ステップ509では、第3の予め設定された重み比率に応じて、取得された第1の類似度の重み付け平均値を算出して、ターゲットの第1の類似度を取得し、かつ第4の予め設定された重み比率に応じて、取得された第2の類似度の重み付け平均値を算出して、ターゲットの第2の類似度を取得する。
【0069】
サーバは、第3の予め設定された重み比率に応じて、取得された第1の類似度の重み付け平均値を算出して、ターゲットの第1の類似度を取得し、かつ第4の予め設定された重み比率に応じて、取得された第2の類似度の重み付け平均値を算出して、ターゲットの第2の類似度を取得する。
【0070】
具体的には、類似度が第1の予め設定された閾値より大きい第1の類似度について、第3の予め設定された重み比率に応じて、重み付け平均値を算出して、総類似度、すなわちターゲットの第1の類似度を取得する。類似度が第2の予め設定された閾値より大きい第2の類似度について、第4の予め設定された重み比率に応じて、重み付け平均値を算出して、総類似度、すなわちターゲットの第2の類似度を取得する。第3の予め設定された重みは、類似度が第1の予め設定された閾値より大きい第1の類似度の類似度範囲値に基づいて、重みを設定することができ、例えば、類似度が第1の予め設定された閾値より大きい第1の類似度が0.2、0.35、0.15、0.55、0.5、0.27、0.87、0.9であれば、第1の類似度0.15、0.2、0.27の重みを0.32と設定し、第1の類似度0.35、0.5、0.55の重みを0.3と設定し、第1の類似度0.87、0.9の重みを0.38と設定することができ、同様に第4の予め設定された重みを取得することができる。上記例示的な内容は、説明及び参考のみに用いられ、その内容の正確性と実際の操作の有無は考慮しない。
【0071】
ステップ510では、ターゲットの第1の類似度とターゲットの第2の類似度とを加算して、ターゲット類似度を取得する。
【0072】
サーバは、ターゲットの第1の類似度とターゲットの第2の類似度とを加算して、ターゲット類似度を取得する。法律事件ナレッジグラフにおける複数のノードに対応する類似度を加算した値を、法律事件ナレッジグラフに対応する法律事件とユーザにより入力された検索すべき事件との類似度とすることにより、検索の正確性を向上させる。
【0073】
ステップ511では、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する。
【0074】
サーバは、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する。
【0075】
ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力することは、具体的には、ターゲット類似度の値が高い順に事件情報を順序付けするステップと、順序付け範囲と類似度範囲のいずれか一つを少なくとも含む、ユーザが入力した事件出力条件を受信し、事件出力条件に基づいて対象事件情報を決定するステップと、対象事件情報を統計分析し、可視化グラフとテキスト情報を生成して出力するステップと、を含む。ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を取得し、順序付けされた事件を解釈説明する、解釈説明される内容は、事件情報と入力されたテキスト情報との類似度、事件情報の判決意見と事件情報の証拠抽出方向などを含む。事件情報と解釈説明をテキスト情報として生成し、事件情報における各部分の類似度を統計分析して可視化グラフを生成する。ユーザが入力した事件情報出力条件を受信すると、事件情報出力条件を満たす事件情報のテキストと可視化グラフを出力する。事件出力条件は、事件情報の順序付け範囲又は事件の類似度範囲を含むが、これらに限定されない。
【0076】
以上、本願の実施例におけるナレッジグラフに基づく事件検索方法について説明した。以下、本願の実施例におけるナレッジグラフに基づく事件検索装置について説明する。
図6を参照すると、本願の実施例におけるナレッジグラフに基づく事件検索装置の一実施例は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する第1の構築ユニット601と、
ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するサンプリングユニット602と、
複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する第1の取得ユニット603と、
ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する第2の構築ユニット604と、
法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する第2の取得ユニット605と、
第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報の内容記述上の類似度を示す第1の類似度及び事件情報の論理的関係上の類似度を示す第2の類似度を算出し、事件情報の第1の類似度及び第2の類似度を加算して、ターゲット類似度を取得する算出ユニット606と、
ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する順序付けユニット607と、を含む。
【0077】
図7を参照すると、本願の実施例におけるナレッジグラフに基づく事件検索装置の別の実施例は、
予め設定されたモデルにより、履歴及び/又はリアルタイムな原告の訴訟上の請求情報、被告の主張情報、原告が提供した証拠情報、被告が提供した証拠情報及び履歴法律事件情報を含むテキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築する第1の構築ユニット601と、
ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するサンプリングユニット602と、
複数のシーケンスデータに基づいて単語変換ベクトルアルゴリズムによりモデルを訓練して、更新されたターゲットモデルを取得する第1の取得ユニット603と、
ターゲットテキスト情報を取得し、ターゲットモデルによりターゲットテキスト情報を分析し、検索すべきナレッジグラフを構築する第2の構築ユニット604と、
法律事件ナレッジグラフで検索して、検索すべきナレッジグラフに関連した事件情報及び第1の単語埋め込みベクトルデータを取得し、検索すべきナレッジグラフの第2の単語埋め込みベクトルデータを取得する第2の取得ユニット605と、
第1の単語埋め込みベクトルデータ及び第2の単語埋め込みベクトルデータに基づいて、事件情報とターゲットテキスト情報との間の事実要素類似度、争点類似度、証拠類似度、争点関連類似度、証拠関連類似度及び事実要素関連類似度を算出する第1の算出ユニット606と、
第1の予め設定された重み比率に基づいて、事実要素類似度、争点類似度及び証拠類似度の重み付け平均値を算出して、事件情報の第1の類似度を取得し、かつ第2の予め設定された重み比率に基づいて、争点関連類似度、証拠関連類似度及び事実要素関連類似度の重み付け平均値を算出して、事件情報の第2の類似度を取得する第2の算出ユニット607と、
類似度が第1の予め設定された閾値より大きい第1の類似度を認識し取得し、かつ類似度が第2の予め設定された閾値より大きい第2の類似度を認識し取得する第3の取得ユニット608と、
第3の予め設定された重み比率に応じて、取得された第1の類似度の重み付け平均値を算出して、ターゲットの第1の類似度を取得し、かつ第4の予め設定された重み比率に応じて、取得された第2の類似度の重み付け平均値を算出して、ターゲットの第2の類似度を取得する第3の算出ユニット609と、
ターゲットの第1の類似度とターゲットの第2の類似度とを加算して、ターゲット類似度を取得する第4の算出ユニット610と、
ターゲット類似度の値が高い順に事件情報を順序付けし、順序付けされた事件情報を出力する順序付けユニット611と、を含む。
【0078】
選択的に、第1の構築ユニット601は、具体的には、各法律事件照会及び/又は管理プラットフォームのデータをリンクするブロックチェーン構成ネットワークを作成し、ブロックチェーン構成ネットワークに記憶されたテキスト情報を取得し、テキスト情報に対して字句解析、構文解析及び意味解析を行って、構造化データを取得し、構造化データをマークアップ言語データに変換し、マークアップ言語データを実体的に抽出して、法律事件に係る人名、組織/機構名、地理的位置、イベント/日付、文字値、及び金額値を含む実体情報を取得し、マークアップ言語データに対して関係抽出を行って、事実要素、人物、証拠、争点、及び法条のうちの少なくとも両者の関係を含む関係情報を取得し、マークアップ言語データに対して属性抽出を行って属性情報を取得し、実体情報、関係情報及び属性情報に対して情報融合処理を行って、融合処理情報を取得し、融合処理情報に基づいてデータモデルを構築して法律事件ナレッジグラフを取得し、法律事件ナレッジグラフをブロックチェーン構成ネットワークの関連データベース管理システムMySQLデータベースに記憶する。
【0079】
選択的に、サンプリングユニット602は、具体的には、ノード集合データの各ノードを出発点として、出発点の次のノードの重み値を取得し、重み値を分析してランダムウォークステップ数を設定し、出発点が所在する分岐のノード数を分析してウォーク閾値ステップ数を設定し、ランダムウォークステップ数がウォーク閾値ステップ数より小さいと判断された場合、ランダムウォークステップ数に従って、出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成し、複数のシーケンスデータを取得し、ランダムウォークステップ数がウォーク閾値ステップ数以上であると判断された場合、ウォーク閾値ステップ数に従って、出発点の次のノードに結合されたノードに沿ってウォークし、ランダムウォークシーケンスデータを生成し、複数のシーケンスデータを取得する。
【0080】
選択的に、サンプリングユニット602はさらに、具体的には、ノード集合データの各ノードを出発点として、出発点以外の下流ノードの重み値を取得し、重み値に基づいて現在の反復回数を決定し、現在の反復回数に基づいて、予め設定された経路長に応じてノード集合データをランダムウォークし、現在の反復回数が予め設定された反復制御回数より小さいことが検出されると、区間[-1、1]の間の多次元ベクトルと多次元ベクトルの多変数関数をランダムに生成し、多変数関数の関数値を算出し、関数値が第1の予め設定された閾値に達したこと、及び、予め設定された経路長がノード集合データへのランダムウォークを停止するための制御精度より小さいことを検出すれば、ノード集合データをランダムウォークすることを停止し、かつノード集合データにおいてランダムウォークする際に生成されるシーケンスデータを取得し、関数値が第1の予め設定された閾値に達していないこと、及び、予め設定された経路長が制御精度以上であることを検出すれば、ランダムウォークの走行ステップ幅を予め設定された経路長の半分に設定し、設定されたランダムウォークの走行ステップ幅に従って、関数値が第1の予め設定された閾値に達し、かつ予め設定された経路長が制御精度より小さくなるまで、ノード集合データを改めてランダムウォークし、かつノード集合データにおいてランダムウォークする際に生成されるシーケンスデータを取得する。
【0081】
選択的に、第1の取得ユニット603は、具体的には、全結合層、複数の結合層、及び正規化Softmax分類器を含むモデルにより、複数のシーケンスデータに基づいてハフマンツリーを作成し、全結合層によりハフマンツリー中の各単語を分析して、複数の予め設定された長さのone-hotベクトルを取得し、複数の結合層により、複数の予め設定された長さのone-hotベクトルに対して勾配反復処理を行って、列ベクトルデータを取得し、Softmax分類器により列ベクトルデータを処理し、単語埋め込みベクトルデータを取得する。
【0082】
選択的に、第1の取得ユニット603はさらに、具体的には、HashTable[MaxSize]関数によりタイプを設定し、単語埋め込みベクトルデータのキーワード及びキーワードシーケンスを取得し、アドレス取得関数によりハッシュテーブルにおいてキーワードを索引や、削除、挿入した記録情報を抽出し、ここで、アドレス取得関数は、
【数4】
であり、keyはキーワードであり、mはハッシュテーブル長さであり、iは単語埋め込みベクトルデータの増分シーケンスであり、pは予め設定された素数であり、タイプと記録情報に基づいてハッシュテーブルを作成し、ハッシュテーブルを初期化し、ハッシュテーブルにキーワードシーケンスを挿入し、ハッシュテーブルの平均索引長を設定する。
【0083】
選択的に、第1の取得ユニット603はさらに、具体的には、列ベクトルデータを規則的なフレームシーケンス情報に符号化し、規則的なフレームシーケンス情報に対して、タイミング時間長が規則的なフレームシーケンス情報の送信往復時間より長いタイマーを含むタイマーを設定し、自動再送要求ARQプロトコルと、列ベクトルデータの送信ルールを含むスライディングウィンドウプロトコルとを設定し、ウィンドウサイズが最大送信フレーム数であるスライドウィンドウを含む、Softmax分類器の結合層に結合された送信スライディングウィンドウを設定し、Softmax分類器の受信スライディングウィンドウを設定し、ARQプロトコル、スライディングウィンドウプロトコル、送信スライディングウィンドウ及び受信スライディングウィンドウにより、規則的なフレームシーケンス情報をSoftmax分類器に伝送し、かつSoftmax分類器により、結合された結合層に情報フィードバックを行う。
【0084】
選択的に、順序付けユニット611は、具体的には、ターゲット類似度の値が高い順に事件情報を順序付けし、順序付け範囲と類似度範囲のいずれかを少なくとも含む、ユーザが入力した事件出力条件を受信し、事件出力条件に基づいて対象事件情報を決定し、対象事件情報を統計分析し、可視化グラフとテキスト情報を生成して出力する。
【0085】
以上の
図6~
図7は、モジュール化機能エンティティの角度から本願の実施例におけるナレッジグラフに基づく事件検索装置を詳細に説明した。以下、ハードウェア処理の角度から本願の実施例におけるナレッジグラフに基づく事件検索機器を詳細に説明する。
【0086】
図8は、本願の実施例に係るナレッジグラフに基づく事件検索機器の概略構成図であり、該ナレッジグラフに基づく事件検索機器800は、コンフィグレーション又は性能によって大きく異なってもよく、1つ以上のプロセッサ(central processing units、CPU)801(例えば、1つ以上のプロセッサ)と、メモリ809と、アプリケーションプログラム807又はデータ806を記憶する1つ以上の記憶媒体808(例えば、1つ以上の大容量記憶装置)と、を含んでよい。メモリ809及び記憶媒体808は、一時的記憶装置でもよく永続的記憶装置でもよい。記憶媒体808に記憶されたプログラムは、それぞれがチェックイン管理装置に対する一連の命令操作を含む1つ以上のモジュール(図示せず)を含んでよい。さらに、プロセッサ801は、記憶媒体808と通信して、記憶媒体808における一連の命令操作をナレッジグラフに基づく事件検索機器800で実行するように構成されてよい。
【0087】
ナレッジグラフに基づく事件検索機器800は、1つ以上の電源802、1つ以上の有線又は無線ネットワークインタフェース803、1つ以上の入出力インタフェース804、及び/又は1つ以上のオペレーティングシステム805、例えば、Windows Server、Mac OS X、Unix、Linux(登録商標)、FreeBSDなどをさらに含んでよい。当業者が理解できるように、
図8に示すナレッジグラフに基づく事件検索機器の構成は、ナレッジグラフに基づく事件検索機器を限定するものではない。プロセッサ801は、上記実施例における第1の構築ユニット601、サンプリングユニット602、第1の取得ユニット603、第2の構築ユニット604、第2の取得ユニット605、第1の算出ユニット606、第2の算出ユニット607、第3の取得ユニット608、第3の算出ユニット609、第4の算出ユニット610、及び順序付けユニット611の機能を実行することができる。
【0088】
以下、
図8を参照しながらナレッジグラフに基づく事件検索機器の各構成部材を具体的に説明する。
【0089】
プロセッサ801は、ナレッジグラフに基づく事件検索機器の制御センターであり、ナレッジグラフに基づく事件検索方法に従って処理することができる。プロセッサ801は、様々なインタフェースと回線によりナレッジグラフに基づく事件検索機器全体の各部分に結合され、メモリ809に記憶されているソフトウェアプログラム及び/又はモジュールを動作させるか又は実行し、メモリ809に記憶されたデータを呼び出すことにより、ナレッジグラフに基づく事件検索機器の様々な機能とデータ処理を実行して、事件検索システムのユーザビリティを向上させる機能を実現する。記憶媒体808とメモリ809は、いずれもデータを記憶するキャリアであり、本願の実施例では、記憶媒体808は、記憶容量が小さいが、速度が速い内部メモリであってよく、メモリ809は、記憶容量が大きいが、記憶速度が遅い外部メモリであってよい。
【0090】
メモリ809は、ソフトウェアプログラム及びモジュールを記憶してよく、プロセッサ801は、メモリ809に記憶されているソフトウェアプログラム及びモジュールを実行することにより、ナレッジグラフに基づく事件検索機器800の様々な機能アプリケーション及びデータ処理を実行する。メモリ809は、主に、オペレーティングシステム、少なくとも1つの機能(予め設定されたモデルにより、テキスト情報を分析して法律事件ナレッジグラフを構築し、法律事件ナレッジグラフを分析してノード集合データを構築するなど)に必要なアプリケーションプログラムなどを記憶することができるプログラム記憶領域と、チェックイン管理装置の使用(ノード集合データの各ノードを出発点として、ノード集合データをランダムウォークサンプリングして、複数のシーケンスデータを取得するなど)に応じて作成されたデータなどを記憶することができるデータ記憶領域と、を含んでよい。また、メモリ809は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス又は、他の不揮発性固体メモリ素子などの不揮発性メモリを含んでもよい。本願の実施例に係るナレッジグラフに基づく事件検索方法のプログラムと受信したデータフローがメモリに記憶され、使用する必要がある場合には、プロセッサ801は、メモリ809から呼び出す。
【0091】
コンピュータに上記コンピュータプログラム命令をロードし実行するときに、本願の実施例に記載のフロー又は機能を全て又は部分的に生成する。上記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。上記コンピュータ命令は、不揮発性であっても揮発性であってもよいコンピュータ読み取り可能な記憶媒体に記憶されてもよく、一方のコンピュータ読み取り可能な記憶媒体から他のコンピュータ読み取り可能な記憶媒体に伝送されてもよい。