(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-19
(45)【発行日】2024-01-29
(54)【発明の名称】データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体
(51)【国際特許分類】
G06F 16/35 20190101AFI20240122BHJP
【FI】
G06F16/35
(21)【出願番号】P 2023514827
(86)(22)【出願日】2021-11-03
(86)【国際出願番号】 CN2021128330
(87)【国際公開番号】W WO2022105601
(87)【国際公開日】2022-05-27
【審査請求日】2023-02-28
(31)【優先権主張番号】202011292917.5
(32)【優先日】2020-11-18
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】523073389
【氏名又は名称】エバオテック コーポレーション
(74)【代理人】
【識別番号】110001416
【氏名又は名称】弁理士法人信栄事務所
(72)【発明者】
【氏名】モー,ユアンウー
(72)【発明者】
【氏名】スレービン,ケン
(72)【発明者】
【氏名】ツァイ,チュンカン
(72)【発明者】
【氏名】フォン,チエ
(72)【発明者】
【氏名】ワン,チンロン
(72)【発明者】
【氏名】シオン,ホイ
【審査官】原 秀人
(56)【参考文献】
【文献】特開2005-202850(JP,A)
【文献】特表2019-528512(JP,A)
【文献】中国特許出願公開第105468605(CN,A)
【文献】寺田 学 外,Pythonによるあたらしいデータ分析の教科書,初版,日本,株式会社翔泳社,2018年11月15日,pp. 148-169
【文献】吉岡 真治 外,データサイエンス入門シリーズ データサイエンスのためのデータベース,日本,株式会社講談社,2020年04月16日,p. 113
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
データクラスタリング方法であって、
履歴クラスタデータを解析して
、前記履歴クラスタデータの各部分の性質に基づいて
前記履歴クラスタデータをクラスタ原子に分解
するステップと、
前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、
ここで、前記履歴クラスタデータおよびターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、前記履歴クラスタデータは広告宣伝テキスト、法律文書、合意文書、プログラムコード、および保険財テク契約書のオリジナル製品を含む再組織化可能なクラスタ原子を有するアプリケーションデータであり、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、
前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法。
【請求項2】
前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項1に記載の方法。
【請求項3】
前記探索はさらにコーパスマッチングに基づいて行われる請求項2に記載の方法。
【請求項4】
前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項1に記載の方法。
【請求項5】
前記探索はグラフ検索方法に基づいて行われる請求項4に記載の方法。
【請求項6】
前記クラスタ原子には階層関係が存在し、
上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び
前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼって、前記上位クラスタ原子を前記候補クラスタ原子とすることが可能である請求項4に記載の方法。
【請求項7】
前記クラスタ属性は、対象、種類、地区、性別、年齢、期間を含む請求項1に記載の方法。
【請求項8】
もし引用された候補クラスタ原子の間は相容れないと、提示情報が生成される請求項1に記載の方法。
【請求項9】
データクラスタリングシステムであって、
履歴クラスタデータを解析して
、前記履歴クラスタデータの各部分の性質に基づいて
前記履歴クラスタデータをクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、
ここで、前記履歴クラスタデータおよびターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、前記履歴クラスタデータは広告宣伝テキスト、法律文書、合意文書、プログラムコード、および保険財テク契約書のオリジナル製品を含む再組織化可能なクラスタ原子を有するアプリケーションデータであり、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、
前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、
前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本願はデータ加工分野に関し、特に、データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に関する。
【背景技術】
【0002】
例えばコーパスデータに基づいて行われるテキストは、多くの場合、履歴テキストにおける内容を採用することができ、もし新しいテキストを作る度に新たにコーパスを作成して構築すると、効率が非常に低い。又、現にあるコーパスデータは一般的にいずれも比較的長時間の検査を経て、その安定性、正確性が比較的高い。もしテキストを改めて作成すると、おそらく語義上の手抜かりを避けることは困難になる。
【0003】
通常、履歴テキスト中のコーパスデータは規則によって配列又は組織化されたものであり、かつこれらのコーパスデータの間にも語義属性上の関連が存在しているので、これらのコーパスデータを材料として新しいテキストの要求によって新しいテキストを作成するのは考慮可能な方向である。
【発明の概要】
【0004】
本願の実施例はデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体を提供し、データ記憶方法及びシステムは履歴クラスタデータをクラスタ原子にばらばらにして記憶するのに用いられ、データクラスタリング方法及びシステムは、さらにクラスタ原子に基づいて要求に適合した新クラスタデータを作ることによって、クラスタデータの効率を向上させ、データをクラスタリングする時のミス発生確率を低減させることができる。
【0005】
本願の一態様によれば、データクラスタリング方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法を提供する。
【0006】
本願のいくつかの実施例では、好ましくは、前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である。
【0007】
本願のいくつかの実施例では、好ましくは、前記探索はさらにコーパスマッチングに基づいて行われる。
【0008】
本願のいくつかの実施例では、好ましくは、前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される。
【0009】
本願のいくつかの実施例では、好ましくは、前記探索はグラフ検索方法に基づいて行われる。
【0010】
本願のいくつかの実施例では、好ましくは、前記クラスタ原子には階層関係が存在し、上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることが可能で、前記上位クラスタ原子を前記候補クラスタ原子とする。
【0011】
本願のいくつかの実施例では、好ましくは、前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む。
【0012】
本願のいくつかの実施例では、好ましくは、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。
【0013】
本願の一態様によれば、データ記憶方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、を含むデータ記憶方法を提供する。
【0014】
本願のいくつかの実施例では、好ましくは、前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である。
【0015】
本願のいくつかの実施例では、好ましくは、前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される。
【0016】
本願のいくつかの実施例では、好ましくは、前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む。
【0017】
本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体において、前記指令がプロセッサーにより実行された場合、前記プロセッサーに上記のいずれか1つの方法を実行させることを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。
【0018】
本願の他の態様によれば、データクラスタリングシステムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステムを提供する。
【0019】
本願の他の態様によれば、データ記憶システムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置される記憶ユニットと、を備えるデータ記憶システムを提供する。
【図面の簡単な説明】
【0020】
本出願の前記内容ならびにその他の目的および利点は、図面を参照した以下の詳細な説明からより完全に明らかになる。なお、同一又は類似の要素は同一の符号で表される。
【0021】
【
図1】
図1は本願の一実施例によるデータクラスタリング原理を示す概略図である。
【
図2】
図2は本願の一実施例によるデータクラスタリング方法を示す図である。
【
図3】
図3は本願の一実施例によるデータ記憶方法を示す図である。
【
図4】
図4は本願の一実施例によるデータクラスタリングシステムを示す図である。
【
図5】
図5は本願の一実施例によるデータ記憶システムを示す図である。
【発明を実施するための形態】
【0022】
簡潔化及び説明のために、この文章は主にその例示的な実施例を参照して本願の原理を記述する。しかし、当業者は同一の原理をあらゆる類型のデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に等価的に用いることができると共に、その中でこれらの同一又は類似の原理を実施することができ、如何なるこのような変更が本願の要旨と範囲を逸脱しないことを容易に認識する。
【0023】
本願の一態様によれば、データクラスタリング方法を提供する。
図2に示すように、データクラスタリング方法20は、以下のステップを含む。ステップS201では、履歴クラスタデータを解析してその各部分の性質をクラスタ原子に分解し、クラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。ステップS202では、クラスタ原子の性質に基づいて、クラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。ステップS203では、クラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成し、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。ステップS204では、候補クラスタ原子を引用してターゲットクラスタデータを形成する。
【0024】
本願における履歴クラスタデータ、ターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、例えば、両者のいずれも広告宣伝テキスト、法律文書、合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよいし、プログラムコード等の再組織化可能なクラスタ原子のアプリケーションデータであってもよいし、さらに保険財テク契約書のオリジナル製品(製品によって最終的な契約書を形成してもよい)を構築するためのものであってもよい。
【0025】
本願中の履歴クラスタデータ、ターゲットクラスタデータのいずれもクラスタ原子を含み、文脈において、クラスタ原子は履歴クラスタデータ、ターゲットクラスタデータのうち、さらに細分割することができない最小構成単位であってもよく、さらに細分割することはクラスタリングにおいて無意味であり、又、クラスタ原子は若干の最小構成単位の集合であってもよい。クラスタ原子はそれぞれその性質を有し、これらのそれぞれ性質を有するクラスタ原子は履歴クラスタデータを構成した。例えば、合意文書は条項、標的、責任等を含んでもよい。「条項」部分、「標的」部分、「責任」部分はクラスタ原子としてもよいと共に、これらのクラスタ原子の性質は条項、標的、責任であってもよい。さらに、例えば、プログラムコードにとって、クラスタ原子は特定の機能を実現する関数であってもよく、これらの関数の機能は関数の性質を構成した。
【0026】
本願のデータクラスタリング方法20は、ステップS201で履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。
図1に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いてもよい。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータへの分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の例示では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義識別によって「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。
【0027】
図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ102は4つの「段落」(クラスタ原子)1021、1022、1023及び1024を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ103は5つの「段落」(クラスタ原子)1031、1032、1033、1034及び1035を含み、かつそれぞれ対応の「性質」を有する。これでわかるように、履歴クラスタデータは構造上において異なる種類と数の「段落」を含み得る。従って、構造化の形(例えば、テーブル)でこれらの履歴クラスタデータに対して索引を作成するのに適合しない。
【0028】
履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子の関連付け及び再組織化を容易にすることができる。
【0029】
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012は属性A、B及びCに関連付けられ、クラスタ原子1013は属性AとBに関連付けられる。履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023は属性AとDに関連付けられ、クラスタ原子1024は属性A、D及びEに関連付けられる。履歴クラスタデータ103に基づいて区分されたクラスタ原子1031は属性Aに関連付けられ、クラスタ原子1032は属性AとDに関連付けられ、クラスタ原子1033は属性AとFに関連付けられ、クラスタ原子1034は属性AとGに関連付けられ、クラスタ原子1035は属性A、D及びGに関連付けられる。
【0030】
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はこれらに関連付けられてもよく、さらに後続の技術的課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性は、クラスタ原子を選択する根拠とすることができ、これによって無闇な選択による効率の低下を避けた。
【0031】
本願のデータクラスタリング方法20は、ステップS202でクラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。
図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。
【0032】
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における 「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
【0033】
本願のデータクラスタリング方法20は、ステップS203でクラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成する。探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。本願のいくつかの実施例では、探索はグラフ検索方法に基づいて行われる。例えば、
図1に示すようなターゲットクラスタデータ105を構築しようとし、かつターゲットクラスタデータ105がターゲットクラスタ属性Aを有し、ターゲットクラスタデータ105を構成する5つの「段落」を4つの階層に分け、それぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール104から関連付けられたクラスタ属性がAであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には
図1に示される関連が存在するため、4つの階層の「段落」に対する探索は一回又は数回(4回未満)の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。
【0034】
本願のデータクラスタリング方法20は、ステップS204で候補クラスタ原子を引用してターゲットクラスタデータを形成する。ステップS203により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ105を構築することができる。
図1に示すように、ターゲットクラスタデータ105は5つの「段落」、4つの階層を含み、かつ5つの「段落」がそれぞれ上記の「性質」甲(1011)、乙(1022)、丙(1023)、丁(1024)、戊(1035)を有する。
【0035】
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
【0036】
本願のいくつかの実施例では、探索はさらにコーパスマッチングに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることをが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。
【0037】
本願のいくつかの実施例では、クラスタ原子には階層関係が存在し、その中で、上位クラスタ原子を候補クラスタ原子としたと共に、その下位クラスタ原子も候補クラスタ原子とし、候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることができ、上位クラスタ原子を候補クラスタ原子とする。さらに
図1を参照し、その中で、例えば、上文のいずれか1種の探索ステップによりクラスタ原子1022を候補クラスタ原子とすることができ、この時、クラスタ原子1022の下位クラスタ原子1023と1024を候補クラスタ原子とすることもできる。また、クラスタ原子1022の上位クラスタ原子1021を候補クラスタ原子とすることもできる。この方式で、候補クラスタ原子に対する拡充をさらに実現することができ、その中から要求に最も適合した候補クラスタ原子を規模的に引用してターゲットクラスタデータを構成し易い。
【0038】
本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、2つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子1012とクラスタ原子1022は性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子1012とクラスタ原子1022が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ105は、1つの特定性質に適合する段落のみを必要とするため、クラスタ原子1012、1022を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子1012、1022の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の1つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。
【0039】
本願の一態様によれば、データ記憶方法を提供する。
図3に示すように、データクラスタリング方法30は以下のステップを含んでいる。ステップS301では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。ステップS302では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールにはクラスタ原子の非構造化関係が含まれる。
【0040】
ステップS301では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。
図1に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。
図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、かつそれぞれ対応の「性質」を有する。
【0041】
履歴クラスタデータを分解してなったクラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承、又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
【0042】
図1に示すように、履歴クラスタデータ101は属性A、B及びCを備え、履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012が属性A、B及びCに関連付けられ、クラスタ原子1013が属性A及びBに関連付けられる。
【0043】
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承、又はこれらのクラスタ属性に関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
【0044】
ステップS302では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。
図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。
【0045】
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
【0046】
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
【0047】
本願の他の態様によれば、データクラスタリングシステムを提供する。
図4に示すように、データクラスタリングシステム40は解析ユニット401と、プール化ユニット402と、探索ユニット403と組立ユニット404とを備える。その中で、解析ユニット401は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される。
図1に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現でき、かつ分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、かつ「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。
図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、それぞれ対応の「性質」を有する。
【0048】
解析ユニット401は履歴クラスタデータに基づいて分解してなったクラスタ原子をその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けることができる。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
【0049】
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。解析ユニット401は履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012を属性A、B及びCに関連付け、クラスタ原子1013を属性AとBに関連付けることができ、履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023を属性AとDに関連付け、クラスタ原子1024を属性A、D及びEに関連付けることができ、履歴クラスタデータ103に基づいて区分されたクラスタ原子1031を属性Aに関連付け、クラスタ原子1032を属性AとDに関連付け、クラスタ原子1033を属性AとFに関連付け、クラスタ原子1034を属性AとGに関連付け、クラスタ原子1035を属性A、D及びGに関連付けることができる。
【0050】
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
【0051】
プール化ユニット402は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。
図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。
【0052】
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
【0053】
探索ユニット403は前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される。例えば、
図1に示すようなターゲットクラスタデータ105を構築しようとし、かつターゲットクラスタデータ105がターゲットクラスタ属性Aを有し、ターゲットクラスタデータ105を構成する5つの「段落」を4つの階層に分け、かつそれぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール104から関連付けられたクラスタ属性がAであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には
図1に示される関連が存在するため、4つの階層の「段落」に対する探索は一回又は数回(4回未満)の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。
【0054】
組立ユニット404は前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される。探索ユニット403により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ105を構築することができる。
図1に示すように、ターゲットクラスタデータ105は5つの「段落」、4つの階層を含み、かつ5つの「段落」がそれぞれ上記の「性質」甲、乙、丙、丁、戊を有する。
【0055】
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
【0056】
本願のいくつかの実施例では、探索はコーパスマッチングにさらに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。
【0057】
本願のいくつかの実施例では、クラスタ原子には階層関係が存在し、その中で、上位クラスタ原子を候補クラスタ原子としたと共に、その下位クラスタ原子も候補クラスタ原子とし、候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることができ、上位クラスタ原子を候補クラスタ原子とする。さらに
図1を参照し、その中で、例えば、上文のいずれか1種の探索ステップによりクラスタ原子1022を候補クラスタ原子とすることができ、この時、クラスタ原子1022の下位クラスタ原子1023と1024を候補クラスタ原子とすることもできる。また、クラスタ原子1022の上位クラスタ原子1021を候補クラスタ原子とすることもできる。この方式で、候補クラスタ原子に対する拡充をさらに実現することができ、その中から要求に最も適合した候補クラスタ原子を規模的に引用してターゲットクラスタデータを構成し易い。
【0058】
本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、2つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子1012とクラスタ原子1022性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子1012とクラスタ原子1022が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ105が1つの特定性質に適合する段落のみを必要とするため、クラスタ原子1012、1022を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子1012、1022の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の1つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。
【0059】
本願の他の態様によれば、データ記憶システムを提供する。
図5に示すように、データ記憶システム50は解析ユニット501及び記憶ユニット502を備える。その中で、解析ユニット501は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される。
図1に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析できると共に、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。
図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、かつそれぞれ対応の「性質」を有する。
【0060】
履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付ける。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
【0061】
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012が属性A、B及びCに関連付けられ、クラスタ原子1013が属性AとBに関連付けられる。履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023が属性AとDに関連付けられ、クラスタ原子1024が属性A、D及びEに関連付けられる。履歴クラスタデータ103に基づいて区分されたクラスタ原子1031が属性Aに関連付けられ、クラスタ原子1032が属性AとDに関連付けられ、クラスタ原子1033が属性AとFに関連付けられ、クラスタ原子1034が属性AとGに関連付けられ、クラスタ原子1035が属性A、D及びGに関連付けられる。
【0062】
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよく、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
【0063】
記憶ユニット502は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。
図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。
【0064】
図1を参照し、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶することで、異なるデータソース(例えば、101、102及び103)に適応可能になりし、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
【0065】
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
【0066】
本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体を提供し、前記指令がプロセッサーにより実行される時、前記プロセッサーに上記のいずれか1つの方法を実行させる。本願で言われるコンピュータ読み取り可能な媒体は各種類型のコンピュータ記憶媒体を含み、汎用又は専用のコンピュータがアクセス可能な如何なる使用可能な媒体であってもよい。例えば、コンピュータ読み取り可能な媒体はRAM、ROM、EPROM、E2PROM、レジスター、ハードディスク、リムーバブルディスク、CD-ROM又はその他の光ディスクメモリ、磁気ディスクメモリ或いはその他の磁気記憶装置、又は指令やデータ構造形式を有する所望のプログラムコードユニットを携帯・記憶するために用いられて汎用又は特定用途のコンピュータ、又は汎用又は特定用途のプロセッサーでアクセス可能な如何なるその他の一時的又は非一時的な媒体であってもよい。本文に使用されるディスクは、通常、磁性的にデータを複製し、光ディスクはレーザーを用いて光学的にデータを複製する。上記の組合せもコンピュータ読み取り可能な媒体の保護範囲内に含まれるべきである。例示的な記憶媒体をプロセッサーに結合させ、該プロセッサーが該記憶媒体から情報を読み出すようにすること及び該記憶媒体に情報を書き込むようにすることができる。代替案において、記憶媒体はプロセッサーに統合されてもよい。プロセッサーと記憶媒体はASICに常駐してもよい。ASICはユーザ端末に常駐してもよい。代替案において、プロセッサーと記憶媒体はディスクリートコンポーネントとしてユーザ端末に常駐してもよい。
【0067】
以上はただ本願の具体的な実施形態だけであるが、本願の保護範囲はこれに限らない。当業者は本願に開示された技術範囲に基づいてその他の実行可能な変更または置換を想到することができ、これらの変更または置換のいずれも本願の保護範囲内に含まれる。コンフリクトしない場合には、本願の実施形態及び実施形態中の特徴をさらに互いに組み合わせることも可能である。本願の保護範囲は特許請求の範囲の記載に準ずる。