特許第6405370号(P6405370)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 小米科技有限▲責▼任公司の特許一覧

特許6405370情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体
<>
  • 特許6405370-情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体 図000002
  • 特許6405370-情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体 図000003
  • 特許6405370-情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体 図000004
  • 特許6405370-情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6405370
(24)【登録日】2018年9月21日
(45)【発行日】2018年10月17日
(54)【発明の名称】情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体
(51)【国際特許分類】
   G06F 17/30 20060101AFI20181004BHJP
【FI】
   G06F17/30 210D
   G06F17/30 220Z
   G06F17/30 120A
【請求項の数】31
【全頁数】33
(21)【出願番号】特願2016-516607(P2016-516607)
(86)(22)【出願日】2015年12月29日
(65)【公表番号】特表2018-503145(P2018-503145A)
(43)【公表日】2018年2月1日
(86)【国際出願番号】CN2015099400
(87)【国際公開番号】WO2017084179
(87)【国際公開日】20170526
【審査請求日】2016年3月23日
(31)【優先権主張番号】201510791533.0
(32)【優先日】2015年11月17日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】513224180
【氏名又は名称】小米科技有限責任公司
【氏名又は名称原語表記】Xiaomi Inc.
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】汪 平仄
(72)【発明者】
【氏名】▲張▼ 涛
(72)【発明者】
【氏名】▲陳▼ 志▲軍▼
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2015−036891(JP,A)
【文献】 特開2015−179399(JP,A)
【文献】 特開2015−172880(JP,A)
【文献】 特開2015−138343(JP,A)
【文献】 特開平9−223129(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20 − 17/30
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
情報テンプレートをマイニングするサーバに用いられる方法であって、
複数のモデリング情報を含むモデリング情報集合を取得するステップと、
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得るステップと、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップと、を含み、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップは、
前記複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得るステップと、
前記複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得るステップと、
前記複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップと、を含むことを特徴とする情報テンプレートをマイニングする方法。
【請求項2】
前記モデリング情報集合を取得するステップは、
複数の処理対象情報を取得し、各処理対象情報は少なくとも発送側標識を含むステップと、
前記複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有するステップと、
何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得するステップと、
前記第1プリセット数量の処理対象情報を前記モデリング情報集合に構成するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得るステップは、
何れか一つのモデリング情報に対して、前記モデリング情報の受信側標識により、前記モデリング情報の地域標識を取得するステップと、
前記モデリング情報の受信側標識を暗号化し、前記モデリング情報の第1特徴コードを得るステップと、
前記モデリング情報に含まれる数値情報の種類により、前記モデリング情報における数値情報を暗号化し、前記モデリング情報の第2特徴コードを得るステップと、
前記モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得る前記ステップは、
前記複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化グループにおける暗号化情報は同一の地域標識、第1特徴コード、及び第2特徴コードを含むステップと、
何れか一つの第1目標暗号化情報グループにおける暗号化情報に対し、受信時間が遅いから早い順にソートするステップと、
前記第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、前記第1目標暗号化情報グループにおける残りの暗号化情報を削除し、一つの第1併合情報を得るステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得る前記ステップは、
複数の第1併合情報から、複数の第2目標暗号化グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有するステップと、
何れか一つの第2目標暗号化情報グループに対して、前記第2目標暗号化情報グループにおける第1併合情報の数量及び前記第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得するステップと、
前記第2目標暗号化情報グループの地域標識、前記第2目標暗号化情報グループにおける第1併合情報の数量、前記第2目標暗号化情報グループの第2特徴コード、及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を一つの第2併合情報に構成するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップは、
前記複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有するステップと、
何れか一つの第3目標暗号化情報グループに対して、前記第3目標暗号化情報グループにおいて何れか一つの第2併合情報に併合された第1併合情報の数量を取得し、前記第2併合情報に併合された第1併合情報の数量が第1閾値よりも大きい場合、前記第2併合情報が対応する情報内容、前記第2併合情報に併合された第1併合情報の数量、及び前記第3目標暗号化情報グループの最も遅い受信時間を一つのエントリーに構成するステップと、
前記第3目標暗号化情報グループにおいて同一の情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、前記情報テンプレートが適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報の数量の和であり、前記情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間であるステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項7】
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得た後、更に、
各情報テンプレートに対して被覆率検証を行うステップと、
検証結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項8】
前記各情報テンプレートに対して被覆率検証を行うステップは、
テスト情報集合を取得し、前記テスト情報集合は複数のテスト情報を含むステップと、
前記複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得るステップと、
前記複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うステップと、を含むことを特徴とする請求項7に記載の方法。
【請求項9】
テスト情報集合を取得する前記ステップは、
前記処理対象情報の発送側標識が対応する情報集合における残りの処理対象情報から、第2プリセット数量の処理対象情報を取得し、前記テスト情報集合を得るステップとを含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得る前記ステップは、
前記複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得るステップと、
前記複数のテスト暗号化情報において第3併合条件を満たすテスト暗号化情報をそれぞれ併合し、複数の第3併合情報を得るステップと、
前記複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有するステップと、を含むことを特徴とする請求項8に記載の方法。
【請求項11】
前記複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得る前記ステップは、
何れか一つのテスト情報に対して、前記テスト情報の受信側標識により、前記テスト情報の地域標識を取得するステップと、
前記テスト情報の受信側標識を暗号化し、前記テスト情報の第1特徴コードを得るステップと、
前記テスト情報の地域標識、第1特徴コード、及び前記テスト情報の情報内容を一つのテスト暗号化情報に構成するステップと、を含むことを特徴とする請求項10に記載の方法。
【請求項12】
前記複数のテスト暗号化情報を併合し、複数の第3併合情報を得る前記ステップは、
前記複数のテスト暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有するステップと、
何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得するステップと、
前記第2テスト情報グループにおける地域標識、前記第2テスト情報グループにおけるテスト暗号化情報の数量、及び前記第2テスト情報グループの情報内容を一つのテスト併合情報に構成するステップと、を含むことを特徴とする請求項10に記載の方法。
【請求項13】
前記複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行う前記ステップは、
何れか一つの情報テンプレートに対して、各第1テスト情報グループと前記情報テンプレートとがマッチングする情報の数量を取得するステップと、
前記情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、前記マッチングする情報の数量と前記第1テスト情報グループに含まれるテスト情報の数量との比率を取得するステップと、を含むことを特徴とする請求項8に記載の方法。
【請求項14】
検証結果により、前記少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定する前記ステップは、
前記マッチングする情報の数量と前記第1テスト情報グループに含まれるテスト情報の数量との比率がプリセット範囲内である場合、前記情報テンプレートを実際の情報テンプレートにするステップを含むことを特徴とする請求項13に記載の方法。
【請求項15】
情報テンプレートをマイニングする装置であって、
複数のモデリング情報を含むモデリング情報集合を取得することに用いられる、取得モジュールと、
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得ることに用いられる、暗号化モジュールと、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得ることに用いられる、クラスタリングモジュールと、を備え、
前記クラスタリングモジュールは、前記複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を取得し;前記複数の第1併合情報において、第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を取得し;前記複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを取得することに用いられることを特徴とする情報テンプレートをマイニングする装置。
【請求項16】
前記取得モジュールは、複数の処理対象情報を取得し、各処理対象情報は少なくとも発送側標識を含み;前記複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有し;何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得し;前記第1プリセット数量の処理対象情報を前記モデリング情報集合に構成することに用いられる、ことを特徴とする請求項15に記載の装置。
【請求項17】
前記暗号化モジュールは、何れか一つのモデリング情報に対して、前記モデリング情報の受信側標識により、前記モデリング情報の地域標識を取得し;前記モデリング情報の受信側標識を暗号化し、前記モデリング情報の第1特徴コードを取得し;前記モデリング情報に含まれる数値情報の種類により、前記モデリング情報における数値情報を暗号化し、前記モデリング情報の第2特徴コードを取得し;前記モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成することに用いられることを特徴とする請求項15に記載の装置。
【請求項18】
前記クラスタリングモジュールは、前記複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化情報グループにおける暗号化情報は同一の地域標識、第1特徴コード、及び第2特徴コードを有し;何れか一つの第1目標暗号化情報グループにおける暗号化情報に対して、受信時間が遅いから早い順にソートし;前記第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、前記第1目標暗号化情報グループにおける残りの暗号化情報を削除し、一つの第1併合情報を得ることに更に用いられる、ことを特徴とする請求項15に記載の装置。
【請求項19】
前記クラスタリングモジュールは、前記複数の第1併合情報から、複数の第2目標暗号化情報グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有し;何れか一つの第2目標暗号化情報グループに対して、前記第2目標暗号化情報グループにおける第1併合情報の数量及び前記第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得し;前記第2目標暗号化情報グループの地域標識、前記第2目標暗号化情報グループにおける第1併合情報の数量、前記第2目標暗号化情報グループの第2特徴コード、及び前記第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を一つの第2併合情報に構成することに更に用いられることを特徴とする請求項15に記載の装置。
【請求項20】
前記クラスタリングモジュールは、前記複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有し;何れか一つの第3目標暗号化情報グループに対し、前記第3目標暗号化情報グループにおける何れか一つの第2併合情報に併合された第1併合情報の数量を取得し、前記第2併合情報に併合された第1併合情報の数量が第1閾値よりも大きい場合、前記第2併合情報が対応する情報内容、前記第2併合情報に併合された第1併合情報の数量、及び前記第3目標暗号化情報グループの最も遅い受信時間を一つのエントリーに構成し;前記第3目標暗号化情報において同一の情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、前記情報テンプレートが適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報の数量の和であり、前記情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間である、ことに更に用いられることを特徴とする請求項15に記載の装置。
【請求項21】
前記装置は、
各情報テンプレートに対して被覆率検証を行うことに用いられる、検証モジュールと、
検証結果により、前記少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定することに用いられる、確定モジュールと、を更に備えることを特徴とする請求項16に記載の装置。
【請求項22】
前記検証モジュールは、テスト情報集合を取得し、前記テスト情報集合は複数のテスト情報を含み;前記複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを取得し;前記複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うことに用いられることを特徴とする請求項21に記載の装置。
【請求項23】
前記検証モジュールは、前記処理対象情報の発送側標識が対応する情報集合における残りの処理対象情報から、第2プリセット数量の処理対象情報を取得し、前記テスト情報集合を得ることに用いられることを特徴とする請求項22に記載の装置。
【請求項24】
前記検証モジュールは、前記複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を取得し;前記複数のテスト暗号化情報において第3併合条件を満たすテスト暗号化情報をそれぞれ併合し、複数の第3併合情報を取得し;前記複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有することに用いられることを特徴とする請求項22に記載の装置。
【請求項25】
前記検証モジュールは、何れか一つのテスト情報に対して、前記テスト情報の受信側標識により、前記テスト情報の地域標識を取得し;前記テスト情報の受信側標識を暗号化し、前記テスト情報の第1特徴コードを取得し;前記テスト情報の地域標識、第1特徴コード、及び前記テスト情報の情報内容を一つのテスト暗号化情報に構成することに用いられることを特徴とする請求項22に記載の装置。
【請求項26】
前記検証モジュールは、前記複数のテスト暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有し;何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得し;前記第2テスト情報グループの地域標識、前記第2テスト情報グループにおけるテスト暗号化情報の数量、前記第2テスト情報グループの情報内容を一つのテスト併合情報に構成することに用いられることを特徴とする請求項24に記載の装置。
【請求項27】
前記検証モジュールは、何れか一つの情報テンプレートに対して、各第1テスト情報グループと前記情報テンプレートとがマッチングする情報の数量を取得し;前記情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、前記マッチングする情報の数量と前記第1テスト情報グループに含まれるテスト情報の数量との比率を取得することに用いられることを特徴とする請求項22に記載の装置。
【請求項28】
前記確定モジュールは、前記マッチングする情報の数量と前記第1テスト情報グループに含まれるテスト情報の数量との比率がプリセット範囲内である場合、前記情報テンプレートを実際の情報テンプレートにすることに用いられることを特徴とする請求項27に記載の装置。
【請求項29】
情報テンプレートをマイニングする装置であって、
プロセッサと、
プロセッサが実行できる命令を保存するメモリと、を備え、
前記プロセッサは、
複数のモデリング情報を含むモデリング情報集合を取得し、
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を取得し、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得るように構成され、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得ることは、
前記複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得ることと、
前記複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得ることと、
前記複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得ることと、を含む情報テンプレートをマイニングする装置。
【請求項30】
プログラムであって、
プロセッサ−に実行されることにより、請求項1〜14のいずれか1項に記載の情報テンプレートをマイニングするサーバに用いられる方法を実現し、コンピュータ可読記録媒体に記録されている、ことを特徴とするプログラム。
【請求項31】
記録媒体であって、
請求項30に記載のプログラムが記録されていることを特徴とするコンピュータ可読記録媒体。
【発明の詳細な説明】
【相互参照】
【0001】
本発明は、出願番号が201510791533.0であり、出願日が2015年11月17日である中国特許出願に基づき優先権を主張し、当該中国特許出願の全ての内容を本願に援用する。
【技術分野】
【0002】
本発明は、情報技術分野に関し、特に情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体に関する。
【背景技術】
【0003】
現代生活において、ユーザは、毎日大量の通知類の情報を受信し、通常、これらの情報は、ショートメッセージ、メール、インスタントメッセージ等で発送される。これらの大量の情報を調べたところ、これらの情報は通常類似するテキストフレームを有することを発見し、これらのテキストフレームに基づきマイニングした情報テンプレートは、ユーザ体験の向上や自然言語の処理技術の促進等の点で非常に重要な意味を有する。
【0004】
頻繁配列マイニングは、現在情報テンプレートマイニングにおいて常用の方法であり、当該方法は、予め設定した閾値により、大容量の情報から情報テンプレートをマイニングする。実際の応用において、ある情報の出現頻度が予め設定した閾値よりも高い場合、当該情報を情報テンプレートにする。
【発明の概要】
【0005】
本発明は情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体を提供する。
【0006】
本発明の実施例の第1の態様によれば、情報テンプレートをマイニングする方法であって、
複数のモデリング情報を含むモデリング情報集合を取得するステップと、
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得るステップと、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップと、を含む。
【0007】
本発明の実施例の第2の態様によれば、情報テンプレートをマイニングする装置であって、
複数のモデリング情報を含むモデリング情報集合を取得することに用いられる、取得モジュールと、
前記複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得ることに用いられる、暗号化モジュールと、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得ることに用いられる、クラスタリングモジュールと、を備える。
【0008】
本発明の実施例の第3態様によれば、情報テンプレートをマイニングする装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶することに用いられるメモリと、
を備え、
前記プロセッサは、
複数のモデリング情報を含むモデリング情報集合を取得し、
複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を取得し、
前記複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得る、ように構成される。
本発明の第4の態様によれば、プログラムであって、
プロセッサ−に実行されることにより、上記の情報テンプレートをマイニングする方法を実現する、コンピュータ可読記録媒体に記録されたプログラムである。
本発明の第5の態様によれば、記録媒体であって、
上記プログラムが記録されたコンピュータ可読記録媒体である。
【0009】
本発明の実施例に係る技術案によれば、下記の有益な効果を含むことができる。
複数のモデリング情報を学習することにより、情報テンプレートをマイニングすると共に、テンプレートをマイニングする過程において、モデリング情報に含まれる数値情報を暗号化し、マイニングられたテンプレートがユーザのプライバシーを漏洩することを防止し、これによって、より科学的な情報テンプレートのマイニング方法を提供する。
【0010】
以上の一般的な記述と、以下の詳細の記述は、ただ例示的な説明に過ぎず、本発明を限定するものではないことを理解すべきである。
【図面の簡単な説明】
【0011】
ここの図面は、明細書に組み入れて本明細書の一部を構成し、本発明に該当する実施例を例示するとともに、明細書とともに本発明の原理を解釈することに用いられる。
図1】例示的な一実施例に係る一つの情報テンプレートをマイニングする方法を示すフローチャートである。
図2】例示的な一実施例に係る一つの情報テンプレートをマイニングする方法を示すフローチャートである。
図3】例示的な一実施例に係る一つの情報テンプレートをマイニングする装置を示す概略構成図である。
図4】例示的な一実施例に係る一つの情報テンプレートをマイニングする装置を示すブロック図である。
【発明を実施するための形態】
【0012】
ここで、図面に示される例示的な実施例について詳細に説明する。以下、図面に関連して説明する際に、特別な説明がない限り、異なる図面での同一符号は、同一または類似な要素を示す。以下の例示的な実施例で記載する実施形態は、本発明に一致する全ての実施形態を代表するわけではない。かえって、それらは、添付される特許請求の範囲で詳細に記載される本発明の一部の態様に一致する装置、及び方法の例に過ぎない。
【0013】
図1は例示的な一実施例に係る一つの情報テンプレートをマイニングする方法を示すフローチャートであり、図1に示すように、情報テンプレートをマイニングする方法は、サーバに用いられ、以下のステップを含む。
ステップ101において、複数のモデリング情報を含むモデリング情報集合を取得する。
ステップ102において、複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得る。
ステップ103において、複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得る。
【0014】
本発明の実施例に係る方法は、複数のモデリング情報を学習することにより、情報テンプレートをマイニングすると共に、テンプレートをマイニングする過程において、モデリング情報に含まれる数値情報を暗号化し、マイニングられたテンプレートがユーザのプライバシーを漏洩することを防止し、これによって、より科学的な情報テンプレートのマイニング方法を提供する。
【0015】
本発明に係る他の一つの実施例において、モデリング情報集合を取得するステップは、
複数の処理対象情報を取得し、各処理対象情報は少なくとも発送側標識を含むステップと、
複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有するステップと、
何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得するステップと、
第1プリセット数量の処理対象情報をモデリング情報集合に構成するステップと、を含む。
【0016】
本発明に係る他の一つの実施例において、複数のモデリング情報に含まれる数値情報を暗号化し、複数の暗号化情報を得るステップは、
何れか一つのモデリング情報に対して、モデリング情報の受信側標識により、モデリング情報の地域標識を取得するステップと、
モデリング情報の受信側標識を暗号化し、モデリング情報の第1特徴コードを得るステップと、
モデリング情報に含まれる数値情報の種類により、モデリング情報における数値情報を暗号化し、モデリング情報の第2特徴コードを得るステップと、
モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成するステップと、を含む。
【0017】
本発明に係る他の一つの実施例において、複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップは、
複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得るステップと、
複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得るステップと、
複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップと、を含む。
【0018】
本発明に係る他の一つの実施例において、複数の暗号化情報において第1併合情報を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得るステップは、
複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化情報グループにおける暗号化情報は同一の地域標識、第1特徴コード、及び第2特徴コードを有するステップと、
何れか一つの第1目標暗号化情報グループにおける暗号化情報に対して、受信時間が遅いから早い順にソートする(順序付ける)ステップと、
第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、且つ第1目標暗号化情報グループにおける残りの暗号化情報を削除し、一つの第1併合情報を得るステップと、を含む。
【0019】
本発明に係る他の一つの実施例において、複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得るステップは、
複数の第1併合情報から、複数の第2目標暗号化情報グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有するステップと、
何れか一つの第2目標暗号化情報グループに対して、第2目標暗号化情報グループにおける第1併合情報の数量及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得するステップと、
第2目標暗号化情報グループの地域標識、第2目標情報グループにおける第1併合情報の数量、第2目標暗号化情報グループにおける第2特徴コード、及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を、一つの第2併合情報に構成するステップと、を含む。
【0020】
本発明に係る他の一つの実施例において、複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップは、
複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有するステップと、
何れか一つの第3目標暗号化情報グループに対して、第3目標暗号化情報グループにおいて、何れか一つの第2併合情報に併合された第1併合情報の数量を取得し、第2併合情報に併合された第1併合情報の数量が第1閾値よりも大きい場合、第2併合情報が対応する情報内容、第2併合情報に併合された第1併合情報の数量、及び第3目標暗号化情報グループの最も遅い受信時間を、一つエントリーに構成するステップと、
第3目標暗号化情報グループにおいて同じ情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、情報テンプレートが適用する暗号化情報の数量は、複数のエントリーに併合される暗号化情報の数量の和であり、情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間であるステップと、を含む。
【0021】
本発明に係る他の一つの実施例において、複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得た後、更に、
各情報テンプレートに対して被覆率検証を行うステップと、
検証の結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するステップと、を含む。
【0022】
本発明に係る他の一つの実施例において、各情報テンプレートに対して被覆率検証を行うステップは、
テスト情報集合を取得し、テスト情報集合は複数のテスト情報を含むステップと、
複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得るステップと、
複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うステップと、を含む。
【0023】
本発明に係る他の一つの実施例において、テスト情報集合を取得するステップは、
処理対象情報の発送側標識が対応する情報集合において残りの処理対象情報から、第2プリセット数量の処理対象情報を取得し、テスト情報集合を得るステップを含む。
【0024】
本発明に係る他の一つの実施例において、複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得るステップは、
複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得るステップと、
複数のテスト暗号化情報において第3併合条件を満たすテスト暗号化情報をそれぞれ併合し、複数の第3併合情報を得るステップと、
複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有するステップと、を含む。
【0025】
本発明に係る他の一つの実施例において、複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得るステップは、
何れか一つのテスト情報に対して、テスト情報の受信側標識により、テスト情報の地域標識を取得するステップと、
テスト情報の受信側標識を暗号化し、テスト情報の第一特徴コードを得るステップと、
テスト情報の地域標識、第1特徴コード、及びテスト情報の情報内容を一つのテスト暗号化情報に構成するステップと、を含む。
【0026】
本発明に係る他の一つの実施例において、複数のテスト暗号化情報を併合し、複数の第3併合情報を得るステップは、
複数のテスト暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有するステップと、
何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得するステップと、
第2テスト情報グループの地域標識、第2テスト情報グループにおけるテスト暗号化情報の数量、及び第2テスト情報グループの情報内容を、一つのテスト併合情報に構成するステップと、を含む。
【0027】
本発明に係る他の一つの実施例において、複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うステップは、
何れか一つの情報テンプレートに対して、各第1テスト情報グループと情報テンプレートとがマッチングする情報の数量を取得するステップと、
情報テンプレートが何れか一つの第1テスト情報グループとマッチングする情報の数量が第2閾値よりも大きい場合、マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率を取得するステップと、を含む。
【0028】
本発明に係る他の一つの実施例において、検証の結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するステップは、
マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率がプリセット範囲内である場合、情報テンプレートを実際の情報テンプレートにするステップを含む。
【0029】
上述の全ての選択可能の技術案は、任意の組み合わせによって、本発明に係る任意の実施例を形成することができ、ここで説明を省略する。
【0030】
図2は例示的な一実施例に係る一つの情報テンプレートをマイニングする方法を示すフローチャートであり、図2に示すように、情報テンプレートをマイニングする方法はサーバに用いられ、以下のステップを含む。
【0031】
ステップ201において、サーバはモデリング情報集合を取得し、当該モデリング情報集合は複数のモデリング情報を含む。
【0032】
現代生活において、ユーザはサービスプロバイダから送信した通知類の情報を毎日受信し、これらの情報は、ショートメッセージ、メール、インスタントメッセージ等で発送される。通常、これらの情報を発送する場合、統一の情報テンプレートを採用し、相応するサービスプロバイダからユーザの関連情報を充填した後、自動的に各ユーザに発送することができる。これらの情報を研究することにより、これらの情報が応用する情報テンプレートをマイニングすることができる。これらの情報テンプレートは、ユーザがサービスプロバイダの最新の動態を把握し、体験効果を高めることを支援できるだけでなく、自然言語の処理技術の発展を促進することができる。
【0033】
なお、異なる種類の情報に関わるサービスプロバイダは異なり、異なるサービスプロバイダのサーバが発送した情報内容は通常異なるので、テンプレートを更にターゲット的にマイニングし、マイニングされた情報テンプレートの正確性を高めるために、本実施例に係る方法は情報テンプレートをマイニングする場合、同一の種類の情報を収集する必要があり、更に、当該種類の情報から情報テンプレートをマイニングする。
【0034】
例えば、サーバは、移動、聯通、電信等のサービスプロバイダのサーバがユーザに発送した各種のショートメッセージを、収集することにより、収集されたショートメッセージから情報テンプレートをマイニングすることができる。異なる即時応用サーバがユーザに発送した即時情報を収集することにより、収集された即時情報から情報テンプレートをマイニングすることもできる。更に、異なるメールサーバがユーザに発送した通知メールを収集することにより、収集された通知メールから情報テンプレートをマイニングすること等もできる。
【0035】
収集された処理対象情報の数量が多いので、収集された全ての処理対象情報により情報テンプレートをマイニングする場合、情報テンプレートのマイニング速度は遅くなり、このため、サーバは収集された処理対象情報により、モデリング情報集合を取得することができる。当該モデリング情報集合において、複数のモデリング情報を含み、当該モデリング情報は情報テンプレートのマイニングに用いられる処理対象情報である。例えば、サーバはモデリング情報集合を取得する場合、以下のステップ2011〜2014を採用することができる。
【0036】
2011、サーバは複数の処理対象情報を取得し、各処理対象情報は少なくとも発送側標識を含む。
【0037】
サーバは複数の処理対象情報を取得する場合、各サービスプロバイダのサーバから複数のユーザに発送する情報を収集することができ、更に収集された情報を、取得された複数の処理対象情報にする。一つの実施例において、各処理対象情報は、少なくとも発送側標識、受信側標識、情報受信時間等を含んでも良い。処理対象情報がショートメッセージである場合、各処理対象情報に含まれる発送側標識は発送先番号であるはずであり、受信側標識は受信先番号であるはずである。処理対象情報がメールである場合、各処理対象情報に含まれる発送側標識はメールサーバが対応するメールボックスであるはずであり、受信側標識はユーザのメールボックスであるはずである。処理対象情報が即時情報である場合、各処理対象情報に含まれる発送側標識は即時応用サーバが対応する即時通信号であるはずであり、受信側標識はユーザの即時通信号等であるはずである。
【0038】
通常、サーバが収集した処理対象情報は、各サービスプロバイダが異なる時間においてユーザに発送したものであることもあり、これらの情報において、一部の情報は時間が比較的に早いので、ユーザにとって特に意味がないこともあり、当然ながら、これらの情報に基づいてマイニングされた情報テンプレートは、あるべき価値を失う。従って、マイニングされた情報テンプレートは実効性を有することを確保するように、サーバは複数の処理対象情報を取得した後、指定時間を予め設定することができ、当該指定に従って時間を設定し、複数の処理対象情報に対して一次選別を行うことにより、受信時間が当該指定時間よりも遅い処理対象情報を保存し、且つ受信時間が当該指定時間よりも早い処理対象情報を削除する。
【0039】
2012、サーバは複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有する。
【0040】
サーバは発送側標識により、同一の発送側標識を有する処理対象情報を一つの情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有する。複数の処理対象情報を区分することにより、各情報集合は発送側標識と1対1に対応する。例えば、発送側標識が10086である処理対象情報を情報集合Aに区分し、発送側標識が10011である処理対象情報を情報集合B等に区分することができる。
【0041】
2013、サーバは、何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得する。
【0042】
本実施例において、情報集合と発送側標識とは1対1に対応し、何れか一つの発送側標識により、サーバは相応する情報集合を取得することができる。各情報集合において大量の処理対象情報を含み、全ての処理対象情報により情報テンプレートのマイニングを行う場合、操作の複雑度が高くなる。従って、情報テンプレートのマイニング速度を高めるために、本実施例に係る方法は、取得された情報集合から、一部の処理対象情報を選択して、一つのモデリング情報集合を構成することができる。第1プリセット数量の処理対象情報を選択することを例とし、当該第1プリセット数量は1000条、2000条、3000条等であることができ、本実施例は第1プリセット数量を具体的に限定しない。
【0043】
2014、サーバは第1プリセット数量の処理対象情報をモデリング情報集合に構成する。
【0044】
取得された第1プリセット数量の処理対象情報に基づき、サーバは当該第1プリセット数量の処理対象をモデリング情報集合に構成することができる。
【0045】
なお、説明すべきなのは、本実施例では多種類の処理対象情報に関するので、多種類の処理対象情報を容易に区分するために、本実施例は処理対象情報の異なる用途により、処理対象情報をモデリング情報及び測定情報に区分することができる。その中、モデリング情報は主に情報テンプレートをマイニングすることに用いられ、テスト情報は主にマイニングされた情報テンプレートを検証することに用いられる。
【0046】
ステップ202において、サーバは複数のモデリング情報に含まれるそれぞれの数値情報を暗号化し、複数の暗号化情報を得る。
【0047】
通常、ユーザが受信した情報には、プライバシー情報、例えば、名前、携帯電話番号、生年月日、銀行カードの番号、メンバーカードの番号、消費金額、認証コード、伝票番号等がよく含まれる。本実施例において、名前は文字型プライバシー情報であり、携帯電話番号、生年月日、銀行カードの番号、メンバーカードの番号、消費金額、認証コード、伝票番号等は数値型プライバシー情報であり、「数値情報」と略称する。
【0048】
文字型プライバシー情報はユーザにとって区分的なものであり、異なる文字型プライバシー情報は異なるユーザにとって、通常異なり又は完全に同一ではない。区分的ではない文字型情報、例えば、ショートメッセージにおいてよく現れる文字である「尊敬するお客様」等に対して、当該情報により、ユーザの識別情報を推測できないので、当該情報はプライバシー情報ではない。区分的な文字型情報、例えば、張三、李四等に対して、これらの情報により、ユーザの身分等の関連情報を推測することができる。従って、ユーザのプライバシーを漏洩することを防止するために、サーバは適合なワイルドカードを選択し、これらの情報を置き換えることができる。
【0049】
ユーザのプライバシーをよりよく保護するために、モデリング情報に含まれる数値情報に対して、サーバは暗号化アルゴリズムによりこれらの情報を暗号化することができ、複数の暗号化情報を得る。具体的な過程は、以下のステップ2021〜2024を採用することができる。
【0050】
2021、サーバは何れか一つのモデリング情報に対して、モデリング情報の受信側標識により、モデリング情報の地域標識を取得する。
【0051】
通常、異なる領域特長に対して、異なるサービスプロバイダは異なる位置地域において使用する情報テンプレートは異なる。受信側標識は異なるユーザの存在する位置領域を位置決めることができるので、当該モデリング情報の受信側標識により、サーバはモデリング情報の地域標識を取得することができる。本実施例において、地域標識を「place」で表示することができ、かつ、異なる地域位置が対応する地域標識placeも異なり、例えば、北京の地域標識は「beijing」であり、上海の地域標識は「shanghai」である。
【0052】
2022、サーバはモデリング情報の受信側標識を暗号化し、モデリング情報の第1特徴コードを取得する。
【0053】
サーバは当該モデリング情報の受信側標識を暗号化する場合、プリセットした暗号化アルゴリズムを採用して暗号化することができ、当該プリセットした暗号化アルゴリズムはサーバにより確定される。プリセットした暗号化アルゴリズムを採用し、当該モデリング情報の受信側標識を暗号化することにより、当該モデリング情報の受信側標識が対応する暗号文を得ることができ、当該暗号文は第1特徴コードと称される。本実施例において、第1特徴コードをciphertextで表示でき、異なる受信側標識のciphertextは異なり、例えば、受信側標識123456のciphertextはaであり、受信側標識258369のciphertextはb等である。
【0054】
なお、注意すべきなのは、プリセットした暗号化アルゴリズムを採用し、異なる受信側標識を暗号化し、得られた第1特徴コードも異なり、かつ、各受信側標識が対応する第1特徴コードは唯一であり、即ち、受信側標識は第1特徴コードと1対1に対応する。
【0055】
2023、サーバはモデリング情報に含まれる数値情報の種類により、モデリング情報における数値情報を暗号化し、モデリング情報の第2特徴コードを得る。
【0056】
本実施例において、異なる種類の数値情報が対応する暗号文も異なり、例えば、数値情報の種類が電話番号である場合、数値情報が対応する暗号文は「Phone Number」であっても良い。数値情報の種類が日付である場合、当該数値情報が対応する暗号文は「Time」であっても良い。第2情報の種類が数字である場合、当該数値情報が対応する暗号文は「Number」であっても良い。
【0057】
サーバはモデリング情報に含まれる数値情報を暗号化する場合、当該数値情報の種類が対応する暗号文を採用し、モデリング情報において相応する数値情報を置き換えることにより、モデリング情報の第2特徴コードを得る。本実施例において、第2特徴コードをcontentNewで表示することができる。
【0058】
例えば、当該モデリング情報の数値情報の種類が電話番号10086である場合、電話番号が対応する第2特徴コードである「Phone Number」を用いて10086を置き換え、当該モデリング情報の第2特徴コードである「Phone Number」を得る。
【0059】
2024、サーバはモデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成する。
【0060】
サーバは当該モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成する。本実施例において、受信時間を「datetime」で表示でも良い。この時、暗号化情報を「place、ciphertext、contentNew、datetime」で表示できる4元グループ情報である。
【0061】
なお、説明すべきなのは、上述のモデリング情報集合において何れか一つのモデリング情報を暗号化することを例とし、実際の応用において、他のモデリング情報を暗号化する過程は当該モデリング情報を暗号化する過程と同じであり、具体的には上述の当該モデリング情報を暗号化する過程を参照し、ここで説明を省略する。
【0062】
サーバが複数のモデリング情報に含まれる数値情報を暗号化する過程を直観的に現れるために、以下、ショートメッセージ1、ショートメッセージ2、ショートメッセージ3を例として詳しく説明する。
【0063】
例えば、ショートメッセージ1:[銀行]尊敬する劉飛様、2014年08月21日付で最後の四桁が0102である原の携帯電話番号を0988の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。
【0064】
ショートメッセージ2:[銀行]尊敬する張傑様、2014年07月13日付で最後の四桁が0209である原の携帯電話番号を0898の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。
【0065】
ショートメッセージ3:[銀行]尊敬する王長江様、2014年08月07日付で最後の四桁が0109である原の携帯電話番号を1234の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。
【0066】
ショートメッセージ1、ショートメッセージ2、及びショートメッセージ3において、時間、携帯電話番号等のユーザのプライバシー情報に関わるため、ユーザのプライバシーを保護するために、本実施例に係る方法を採用し、これらのショートメッセージにおける数値情報を暗号化し、暗号化した後、以下の暗号化情報を得る。
【0067】
暗号化情報1:[銀行]尊敬する劉飛様、「Time」付で最後の四桁が「Number」である原の携帯電話番号を「Number」の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、「Phone Number」までご連絡ください。
【0068】
暗号化情報2:[銀行]尊敬する張傑様、「Time」付で最後の四桁が「Number」である原の携帯電話番号を「Number」の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、「Phone Number」までご連絡ください。
【0069】
暗号化情報3:[銀行]尊敬する王長江様、「Time」付で最後の四桁が「Number」である原の携帯電話番号を「Number」である携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、「Phone Number」までご連絡ください。
【0070】
また、暗号化情報を容易に管理するために、サーバは複数の暗号化情報を暗号化情報集合に構成することができる。暗号化情報集合をcorpuslで表示することができ、当該corpuslにおいて、複数の「place、ciphertext、contentNew、datetime」で表示される4元グループの暗号化情報を含む。
【0071】
ステップ203において、サーバは複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得る。
【0072】
情報テンプレートのマイニング過程の複雑度を低減し、情報テンプレートのマイニング効率を高めるために、得られた複数の暗号化情報を基づき、サーバは複数の暗号化情報をクラスタリングすることができ、少なくとも一つの情報テンプレートを得る。
【0073】
本実施例において、サーバが複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得る過程は、以下のステップ2031〜2033を参照することができる。
【0074】
2031、サーバは、複数の暗号化情報において、第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を取得する。
【0075】
その中、第1併合条件は同一の地域標識、第1特徴コード、第2特徴コード等を有することである。
【0076】
例えば、サーバは、複数の暗号化情報において、第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を取得することは、以下のステップ20311〜20313を参照することができる。
【0077】
20311、サーバは、複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化情報グループにおける暗号化情報は、同一の地域標識、第1特徴コード、及び第2特徴コードを有する。
【0078】
各暗号化情報の何れも地域標識、第1特徴コード、第2特徴コード、及び受信時間によって構成される4元グループ情報で表示できるので、サーバは各暗号化情報の4元グループ表示形式により、同一の地域標識、第1特徴コード、及び第2特徴コードを有する暗号化情報を取得し、更に、同一の地域標識、第1特徴コード、及び第2特徴コードを有する暗号化情報を第1目標暗号化情報グループに構成する。
【0079】
例えば、サーバは複数の暗号化情報を取得し、その中、暗号化情報1は「beijing、a、Number、2015/06/01 12:00:00」であることができ、暗号化情報2は「beijing、a、Number、2015/01/04 07:00:00」であることができ、暗号化情報3は「beijing、a、Number、2015/02/01 08:30」であることができ、暗号化情報4は「tianjin、c、PhoneNumber、2015/04/04 10:15:00」であることができ、暗号化情報5は「tianjin、c、PhoneNumber、2015/07/14 10:15:00」であることができ、暗号化情報6は「tianjin、c、PhoneNumber、2015/07/12 06:20:00」であることができる。本実施例において、サーバは地域標識がbeijingであり、第1特徴コードがaであり、第2特徴コードがNumberである暗号化情報1、暗号化情報2、暗号化情報3を一つの第1目標暗号化情報グループに構成する。サーバは地域標識がtianjinであり、第1特徴コードがbであり、第2特徴コードがPhoneNumberである暗号化情報4、暗号化情報5、及び暗号化情報6を他の一つの第1目標暗号化情報グループに組成する。
【0080】
20132、何れか一つの第1目標暗号化情報グループにおける暗号化情報に対して、サーバは受信時間が遅いから早い順にソートする。
何れか一つの第1目標暗号化グループにおける暗号化情報を例とし、サーバは受信時間が遅いから早い順に、当該第1目標暗号化情報グループにおける暗号化情報をソートしても良い。
【0081】
以上の例において、暗号化情報1、暗号化情報2、及び暗号化情報3によって構成される第1目標暗号化情報グループを例とし、サーバは受信時間が遅いから早い順にソートし、暗号化情報1、暗号化情報2、暗号化情報3を得ることができる。
【0082】
20313、サーバは第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、第1目標暗号化情報グループにおける残りの暗号化情報を削除し、一つの第1併合情報を得る。
【0083】
通常、同一の地域標識、第1標識コード、及び第2標識コードを有する情報は、サービスプロバイダのサーバが同一のユーザに発送した、同一の情報内容を有する通知情報であり、これらの情報は発送過程において、サーバの故障により複数回繰り返し送信される。情報テンプレートをマイニングする場合、情報テンプレートのマイニングの計算量を縮減するために、サーバは第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、第1目標暗号化情報グループにおける残りの暗号化情報を削除することができる。当該受信時間が最も遅い暗号化情報は第1併合情報である。
【0084】
例えば、第1目標暗号化情報グループにおける暗号化情報1は「beijing、a、Number、2015/06/01/12:00:00」であり、暗号化情報2は「beijing、a、Number、2015/01/04/07:00:00」であり、暗号化情報3は「beijing、a、Number、2015/04/04/10:15:00」であり、サーバは暗号化情報1を保存し、かつ、暗号化情報2及び暗号化情報3を削除することができる。
【0085】
2032、サーバは複数の第1併合情報において、第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を取得する。
【0086】
第1実施例において、第2併合条件は同一の地域標識及び第2特徴コード等を有することである。
【0087】
例えば、サーバは複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得る場合、以下のステップ20321〜30323を採用することができる。
【0088】
20321、サーバは複数の第1併合情報において、複数の第2目標暗号化情報グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有する。
【0089】
各第1併合情報の何れも地域標識、第1特徴コード、第2特徴コード、及び受信時間によって組成される4元グループで表示できるので、サーバは各第1併合情報の4元グループの標識形式により、同一の地域標識、第2特徴コードを有する第1併合情報を取得することができ、更に、同一の地域標識、第2特徴コードを有する第1併合情報を第2目標暗号化情報グループに構成する。
【0090】
例えば、サーバは複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合することにより、複数の第1併合情報を取得し、その中、第1併合情報1は「shanghai、c、Number、2015/07/03/ 10:00:00」であり、第1併合情報2は「shanghai、a、Number、2015/01/08/ 07:00:00」であり、第1併合情報3は「beijing、b、PhoneNumber、2015/02/05/ 08:30:12」であり、第1併合情報4は「shanghai、b、PhoneNumber、2014/07/18/ 09:00:02」であり、第1併合情報5は「beijing、b、PhoneNumber、2015/05/04/ 10:20:00」であり、第1併合情報6は「tianjin、c、PhoneNumber、2015/07/12/ 06:20:00」である。サーバは地域標識がshanghaiであり、第2特徴コードがNumberである第1併合情報1、第1併合情報2を一つの第2目標暗号化情報グループに構成し、地域標識がbeijingであり、第2特徴コードがPhoneNumberである第1併合情報3、第1併合情報5を一つの第2目標暗号化情報グループに構成する。
【0091】
20322、何れかの第2目標暗号化情報グループに対して、サーバは第2目標暗号化情報グループにおける第1併合情報の数量及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得する。
【0092】
本実施例において、第2目標暗号化情報グループにおける第1併合情報の数量は2、3等であることができ、本実施例は第2目標暗号化情報グループにおける第1併合情報の数量に対して具体的に限定しない。本実施例において、第2目標暗号化情報グループにおける第1併合情報の数量はc1で表示することができる。
【0093】
本実施例において、サーバは更に受信時間が遅いから早い順に、当該第2目標暗号化情報グループにおける第1併合情報をソートし、かつ、ソートの結果により、当該第2暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得する。本実施例において、第2暗号化情報グループにおける第1併合情報の最も遅い受信時間をlatestdatetime1で表示することができる。
【0094】
上述の第1併合情報3、第1併合情報5によって構成される第2目標暗号化情報グループを例とし、サーバが取得できる当該第2目標暗号化情報グループにおける第1併合情報の数量は2である。第1併合情報3の受信時間は「2015/02/05/ 08:30:12」であり、第1併合情報5の受信時間は「2015/05/04/ 10:20:00」であるので、サーバが取得できる当該第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間は2015/05/04 10:20:00である。
【0095】
20323、サーバは、第2目標暗号化情報グループの地域標識、第2目標暗号化情報グループにおける第1併合情報の数量、第2目標暗号化情報グループにおける第1併合情報の数量、第2目標暗号化情報グループにおける第2特徴コード、及び第2目標暗号化情報グループにおける第2併合情報の最も遅い受信時間を一つの第2併合情報に構成する。
【0096】
一つの実施例において、各第2併合情報は、一つの「place、c1、contentNew、latestdatetime1」で表示される4元グループ情報である。
【0097】
なお、説明すべきなのは、上述の一つの第2目標暗号化情報グループにおける複数の第1併合情報を併合することを例として説明されたものであって、他の第2目標暗号化情報グループにおける複数の第1併合情報を併合する過程は、上述の何れか一つの第2目標暗号化情報グループにおける多数の第1併合情報を併合する過程を参照することができ、ここで説明を省略する。
【0098】
複数の第2併合情報を管理するために、サーバは更に複数の第2併合情報を一つの集合corpus2に構成する。
【0099】
2033、サーバは複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得る。
【0100】
上述の過程により、モデリング情報グループにおける複数のモデリング情報を複数の第2併合情報に既に併合したものの、併合した後に得られた第2併合情報の数量は依然として比較的に多く、かつ、これらの第2併合情報における一部の第2併合情報は依然として同一の特徴を有するので、サーバは複数の第2併合情報をクラスタリングすることにより、少なくとも一つの情報テンプレートを得ることができる。
【0101】
本発明に係る他の一つの実施例において、サーバは複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得る場合、以下のステップ20331〜20333を採用することができる。
【0102】
20331、サーバは複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有する。
【0103】
通常、異なる地域特徴により、通常サーバのサービスプロバイダがユーザに発送する情報内容は異なり、当然ながら、異なる情報内容により、サーバがマイニングした情報テンプレートも異なる。従って、情報テンプレートを更にターゲット的にマイニングするために、サーバは第2併合情報の地域標識により、複数の第2併合情報を複数の第3目標暗号化情報グループに区分することができ、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有する。
【0104】
具体的に実施する場合、サーバはcorpus2に含まれる第2併合情報の地域標識により、集合corpus2をn個の交差しないサブ集合、例えば、corpus2(place)、corpus2(place)、corpus2(place)、…、corpus2(place)に区分することができる。何れか一つのcorpus2(place)に対して、当該corpus2(place)における各第2併合情報が対応する地域標識は何れもplaceであり、且つ当該corpus2(place)における各第2併合情報は、一つの「count、countentNew、datetime」で表示できる3元グループ情報である。
【0105】
20332、何れか一つの第3目標暗号化情報グループに対して、サーバは、第3目標暗号化情報グループにおいて何れか一つの第2併合情報に併合された暗号化情報の数量を取得し、第2併合情報に併合された暗号化情報の数量は第1閾値によりも大きい場合、第2併合情報が対応する情報内容、第2併合情報に併合された暗号化情報の数量、第2併合情報の最も遅い受信時間を一つのエントリーに構成する。
【0106】
マイニングされた情報テンプレートの正確性を保証するために、何れか一つの第3目標暗号化情報グループに対して、サーバは第1閾値を予め設定することができ、当該第1閾値ば10、20、30等であることができ、更に、頻繁サブ配列マイニングの方法を基づき、当該目標暗号化情報グループから情報テンプレートをマイニングする。当該過程において、サーバは当該第3目標暗号化情報グループにおける何れか一つの第2併合情報に併合された暗号化情報の数量と地域閾値とを比べることができ、当該第2併合情報に併合された暗号化情報の数量が第1閾値よりも大きい場合、当該第2併合情報が対応する情報内容、第2併合情報の暗号化情報の数量、及び第3目標暗号化情報グループの最も遅い時間を一つのエントリーに構成し、当該エントリーは「pat、c2、lastestDatetime2」を用いることができ、その中、patは情報内容であり、c2は第2併合情報に併合された情報の数量であり、lastestDatetime2は第2併合情報の最も遅い受信時間である。
【0107】
20333、サーバは第3目標暗号化情報グループにおいて同一の情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、情報テンプレートに適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報の数量の和であり、情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間である。
【0108】
サーバは当該第3目標暗号化情報グループにおいて同一の情報内容を有する複数のエントリーを併合し、一つのテンプレート情報を取得し、当該情報テンプレートに適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報数量の和であり、情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間である。
【0109】
なお、注意すべきなのは、上述の何れか一つの第3目標暗号化情報をクラスタリングして、一つの情報テンプレートを得ることを例として説明されたものであって、他の第3目標暗号化情報グループをクラスタリングして情報テンプレートを得る過程に対して、上述のステップ2033を参照することができ、本実施例は省略する。
【0110】
上述のステップ201〜203により分かるように、本発明の実施例に係る情報テンプレートのマイニング過程は、実質的に中間テンプレートを抽象化し、その中の人の名前、地名等の文字型のプライバシー情報、及び銀行カード番号、携帯電話番号等の数値情報を覆う過程である。上記のステップ2024におけるショートメッセージ1、ショートメッセージ2、及びショートメッセージ3に対して情報テンプレートのマイニングを行うことを例とし、本発明の実施例に係る方法を採用し、以下の情報テンプレートを得ることができる。
【0111】
[銀行]尊敬する「*」様、「Time」付で最後の四桁が「Number」である原の携帯電話番号を「Number」の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、「Phone Number」までご連絡ください。
【0112】
ステップ204において、サーバは各情報テンプレートに対して被覆率検証を行う。
【0113】
通常、上述の情報テンプレートのマイニング過程により、ユーザのプライバシー情報をテンプレートにおいて完全にシールドされることを既に保証することができるが、プログラムのbugの原因で、情報テンプレートがユーザのプライバシー情報を完全にシールドしないことを防ぐために、本実施例に係る方法は更にマイニングされた全ての情報テンプレートに対して被覆率検証を行う。その中、被覆率検証とは、情報テンプレートが測定情報集合における被覆の割合であって、即ち、マッチング情報の数量が全ての情報において占める割合を計算することとである。
【0114】
各情報テンプレートの3元グループである「pat、c2、latestDatetime2」に対して、理論的に、各情報テンプレートが対応するcorpus2(place)において処理対象情報の最小被覆率はcであり、corpus2(place)に含まれる処理対象情報がNであることに設定する場合、patがcorpus2(place)における被覆率rate=c/Nである。
【0115】
通常、マイニングされた情報テンプレートpatの他の情報集合における被覆率の期待値もrateであるはずであり、一般的に、当該期待値はεの波動があるはずであり、即ち、当該情報テンプレートpatが他の情報集合における被覆率の期待は[rate−ε,rate+ε]の範囲であるあずである。被覆率が[0,rate−ε)の範囲であるpatに対して、被覆率がより小さいので、相応する情報テンプレートから削除されることができる。被覆数の閾値mを所定し、被覆数がmよりも小さいpatに対して、対応する情報テンプレートから削除されるはずであり、これにより、実際の情報テンプレートの被覆率の何れも[rate−ε,1]範囲であり、かつ一定の絶対被覆数量を有する。
【0116】
なお、説明すべきなのは、情報テンプレートのマイニング過程は処理対象情報から情報テンプレートをまとめる過程であり、被覆率検証はテンプレートを用いてテスト情報をマッチングする過程であり、両者は二つの相反する過程であり、マイニングされた情報テンプレートにおいてユーザのプライバシー情報を含まないことを、正負量の両方向から保証することができる。更に、被覆率検証過程とテンプレートマイニング過程に使用された情報集合は交差しておらず、何れも原初の情報集合からランダムに抽出されたものであり、この二組の類似する分布を有する異なる情報集合を用いて、更に、マイニングされた情報テンプレートにおいてユーザのプライバシーを含まないことを保証する。
【0117】
例示的に、サーバは各情報テンプレートに対して被覆率検証を行う場合、以下のステップ2041〜2043を採用することができる。
【0118】
2041、サーバはテスト情報集合を取得し、当該情報集合は複数のテスト情報を含む。
【0119】
検証結果の正確性を高めるために、サーバは処理対象情報の発送側標識が対応する情報集合における残りの処理対象情報から、第2プリセット数量の処理対象情報を取得し、第2プリセット数量の処理対象情報をテスト情報集合に構成する。その中、第2プリセット数量は100、200、300等であることができ、本実施例は第2プリセット数量を具体的に限定しない。
【0120】
2042、サーバは複数のテスト情報に対してそれぞれ処理し、複数の第1テスト情報グループを得る。
【0121】
サーバは複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得る場合、以下のステップ20421〜20423を採用することができる。
【0122】
20421、サーバは複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得る。
【0123】
サーバは複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得る場合、以下のステップ204211〜204213を採用することができる。
【0124】
204211、何れか一つのテスト情報に対して、サーバはテスト情報の受信側標識により、テスト情報の地域標識を取得する。
【0125】
通常、異なる領域特徴に対して、異なるサービスプロバイダは異なる位置地域において使用する情報テンプレートは異なる。受信側標識は異なるユーザが存在する位置地域を位置付けることができるので、当該テスト情報の受信側標識により、サーバはテスト情報の地域標識を取得することができる。本実施例において地域をplaceで表示することができ、かつ、異なる地域位置が対応する地域標識placeも異なる。例えば、北京の地域標識は「beijing」であり、上海の地域標識は「shanghai」である。
【0126】
204212、サーバはテスト情報の受信側標識を暗号化し、テスト情報の第1特徴コードを得る。
【0127】
サーバはテスト情報の受信側標識を暗号化する時、プリセットした暗号化アルゴリズムを採用して暗号化することができ、当該プリセットした暗号化アルゴリズムはサーバにより確定されることができる。プリセットした暗号化アルゴリズムを採用して当該テスト情報の受信側標識を暗号化することにより、当該テスト情報の受信側標識が対応する暗号文を得ることができ、当該暗号文は第1特徴コードと称される。本実施例において、当該第1特徴コードもciphertextで表示することができ、異なる受信側標識のciphertextは異なり、例えば、受信側標識123456のciphertextはaであり、受信側標識258369のciphertextはc等である。
【0128】
なお、注意すべきなのは、プリセットした暗号化アルゴリズムを採用して異なる受信側標識を暗号化して、得られた第1特徴コードは異なり、かつ、各受信側標識が対応する第1特徴コードも唯一であり、即ち、受信側標識は第1特徴コードと1対1に対応する。
【0129】
20413、サーバはテスト情報の地域標識、第1特徴コード、及びテスト情報の情報内容を一つのテスト暗号化情報に構成する。
【0130】
サーバはテスト情報の地域標識、第1特徴コード、テスト情報の情報内容を一つの暗号化情報に構成する。本実施例において、テスト情報の情報内容をcontentで表示することができる。この時、テスト暗号化情報は一つの「place、ciphertext、content」で表示できる3元グループ情報である。
【0131】
なお、説明すべきなのは、上述のテスト情報集合において何れか一つのテスト情報を暗号化することを例とし、実際的な応用において、他のテスト情報を暗号化する過程は当該テスト情報の暗号化過程と同一であり、具体的には上述のテスト情報を暗号化する過程を参照し、ここで説明を省略する。
【0132】
20422、サーバは複数のテスト暗号化情報において第3併合条件を満たすテスト暗号化情報をそれぞれ併合し、複数の第3併合情報を得る。
【0133】
具体的に実施する場合、サーバは複数のテスト暗号化情報を併合し、複数の第3併合情報を取得し、以下のステップ204221〜204223を採用することができる。
【0134】
204221、サーバは複数の暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有する。
【0135】
各テスト暗号化情報の何れも、地域標識、第1特徴コード、及びテスト情報の情報内容で構成される3元グループ情報で表示できるので、サーバは各テスト暗号化情報の3元グループの表現形式により、同一の地域標識及び情報内容を有するテスト暗号化情報を取得し、同一の地域標識及び情報内容を有する暗号化情報を第2テスト情報グループに構成することができる。
【0136】
例えば、サーバは複数のテスト暗号化情報を取得し、その中、テスト暗号化情報1は「beijing、a、content1」であり、テスト暗号化情報2は「beijing、b、content1」であり、テスト暗号化情報3は「beijing、c、content1」であり、テスト暗号化情報4は「tianjin、d、content2」であり、テスト暗号化情報5は「tianjin、c、content2」である。サーバは地域標識がbeijingであり、情報内容がcontent1であるテスト暗号化情報1、テスト暗号化情報2、テスト暗号化情報3を一つの第2テスト情報グループに構成し、地域標識がtianjinであり、情報内容がcontent2である暗号化情報4、暗号化情報5を他の一つの第2テスト情報グループに構成する。
【0137】
204222、サーバは何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得する。
【0138】
その中、第2テスト情報グループにおけるテスト暗号化情報の数量は2、3等であることができ、本実施例は第2テスト情報グループにおけるテスト暗号化情報の数量を具体的に限定しない。本実施において、第2テスト情報グループにおけるテスト暗号化情報の数量をc3で表示することができる。
【0139】
204223、サーバは、第2テスト情報グループの地域標識、第2テスト情報グループにおけるテスト暗号化情報の数量、第2テスト情報グループの情報内容を一つのテスト併合情報に構成する。
【0140】
その中、各第2併合情報は、一つは「place、c3、content」で表示できる情報である。
【0141】
上述は何れか一つの第2テスト情報グループにおけるテスト暗号化情報を併合することを例として説明されたものであって、他の第2テスト情報グループにおけるテスト暗号化情報を併合する過程は、上述の何れか一つの第2テスト情報グループにおけるテスト暗号化情報を併合する過程を参照することができ、ここで説明を省略する。
【0142】
複数のテスト併合情報を容易に管理するために、サーバは複数のテスト併合情報を一つの集合corpus3に構成する。
【0143】
20423、サーバは複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有する。
【0144】
通常、異なる地域特徴により、通常サービスプロバイダのサーバがユーザに発送した情報内容は異なり、当然ながら、異なる情報内容により、サーバが検証できる情報テンプレートも異なる。従って、情報テンプレートを更にターゲット的に検証するために、サーバは複数の第3併合情報を複数の第1テスト情報グループに区分することができ、かつ、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有する。具体的に実施する場合、サーバは、corpus3に含まれる第2併合情報の地域標識により、集合corpus3をn個の交差しないサブ集合、例えば、validate corpus3(place)、validate corpus3(place)、validate corpus3(place)、…、validate corpus3(place)に区分することができる。何れか一つのvalidate corpus3(place)に対して、当該validate corpus3(place)において各第3併合情報が対応する地域標識の何れもplaceであり、かつ、validate corpus3(place)における各第3併合情報は一つの「place、c4、content」で表示できる3元グループ情報である。その中、c4は各第1テスト情報グループに含まれる第3併合情報の数量である。
【0145】
2043、サーバは、複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行う。
【0146】
サーバは複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行う場合、以下のステップ20431〜20432を採用することができる。
【0147】
20431、何れか一つの情報テンプレートに対して、サーバは第1テスト情報グループと情報テンプレートとがマッチングする各情報の数量を取得する。
【0148】
マイニングされた何れか一つの情報テンプレートを例とし、サーバは、当該情報テンプレートを複数の第1テスト情報グループにおける各第1テスト情報グループとマッチングし、具体的にマッチングする場合、当該情報テンプレートのテンプレート内容を各第1テスト情報に含まれる各第3併合情報の情報内容をマッチングすることができ、当該情報テンプレートにおけるテンプレート内容が何れか一つの第1テスト情報に含まれる何れか一つの第3併合情報の情報内容と完全に同一である、又は類似度が特定の数値よりも大きい場合、当該情報テンプレートは何れか一つの第1テスト情報に含まれる何れか一つの第3併合情報をマッチングすることを確認する。当該方式を採用してマッチングを行うことにより、情報テンプレートと複数の第1テスト情報グループにおける各第1テスト情報グループとがマッチングする情報の数量を取得することができる。
【0149】
上述の過程において、理解を容易にするために、以下、一つの情報テンプレートと一つの第1テスト情報グループとをマッチングすることを例として、詳しく説明する。
【0150】
例えば、マイニングされた情報テンプレートは「[銀行]尊敬する「*」様、「Time」付で最後の四桁が「Number」である原の携帯電話番号を「Number」の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、「PhoneNumber」までご連絡ください。」第1テスト情報グループに含まれるテスト情報はそれぞれショートメッセージ1、ショートメッセージ2、ショートメッセージ3、ショートメッセージ4、ショートメッセージ5であり、その中、ショートメッセージ1は、「[銀行]尊敬する劉飛様、2014年08月21日付で最後の四桁が0102である原の携帯電話番号を0988の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。」である。ショートメッセージ2は、「[銀行]尊敬する張傑様、2014年07月13日付で最後の四桁が0209である原の携帯電話番号を0898の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。」である。ショートメッセージ3は、「[銀行]尊敬する王長江様、2014年08月07日付で最後の四桁が0109である原の携帯電話番号を1234の携帯電話番号に変更したので、新しい携帯電話番号を用いて電子銀行業務を取り扱ってください。ご質問がございましたら、95580までご連絡ください。」である。ショートメッセージ4は、「尊敬するお客様、システム上予約した最初の三桁が186であり、最後の四桁が1234である携帯電話で電話する場合、身分証明証の番号又はカード番号の入力をスキップすることができ、煩雑を防止し、簡単に暮らせよう」である。ショートメッセージ5は、「尊敬するお客様、ご注文番号1042389122である注文は既に出荷され、配送中であり、しばらくお待ちください。本ショッピングモールは注文が無効であることを理由として、銀行カード情報を提供して返金手続きを行う旨を主動的に要求しないため、詐欺にご注意ください」である。当該情報テンプレートと当該第1テスト情報グループにおける5つのショートメッセージとをマッチングする場合、ショートメッセージ1、ショートメッセージ2、ショートメッセージ3は当該情報テンプレートとマッチングし、ショートメッセージ4、ショートメッセージ5は当該情報テンプレートとマッチングしないことを分かる。
【0151】
20432、情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、サーバはマッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率を取得する。
【0152】
その中、第2閾値は3、5、8等であることができ、本実施例は第2閾値の大きさを具体的に限定しない。当該情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、サーバはマッチングする数量と第1テスト情報グループに含まれるテスト情報の数量との比率を更に取得する。例えば、情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量がtであり、第1テスト情報グループに含まれるテスト情報の数量はoである場合、マッチングする数量と第1テスト情報グループに含まれるテスト情報の数量との比率=t/oを取得することができる。
【0153】
例えば、サーバは情報テンプレートを何れか一つの第1テスト情報グループとマッチングする場合、当該情報テンプレートと当該第1テスト情報グループとがマッチングする情報の数量は100であり、第2閾値を120に設定する場合、サーバは、マッチングする情報の数量と当該第1テスト情報グループに含まれるテスト情報の数量との比率は100/120=83.3%であることを取得することができる。
【0154】
ステップ205において、サーバは検証結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定する。
【0155】
上述のステップ204に記載の方法を採用してマイニングされた何れか一つの情報テンプレートを検証する場合、マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率がプリセット範囲内である場合、情報テンプレートを実際の情報テンプレートにすることができる。その中、プリセット範囲は[50%,100%]、[70%,100%]等であることができ、本実施例はプリセット範囲を具体的に限定しない。
【0156】
なお、ユーザプライバシー情報の100%を確保するために、サーバは情報テンプレートに対して被覆率検証を行った後、検証し得られた実際の情報テンプレートを審査確認係に提供し、審査確認係により人工的審査を行い、審査に合格した後、審査に合格した情報テンプレートを相応する技術者に提供して使用する。
【0157】
本発明の実施例に係る方法は、複数のモデリング情報を学習することにより、情報テンプレートをマイニングすると共に、テンプレートをマイニングする過程において、モデリング情報に含まれる数値情報を暗号化し、マイニングされたモジュールがユーザのプライバシーを漏洩することを防止し、これによって、より科学的な情報テンプレートのマイニング方法を提供する。
【0158】
図3は例示的な一実施例に係る一つの情報テンプレートをマイニングする装置を示す概略構成図である。図3を参照し、当該装置は、取得モジュール301、暗号化モジュール302、及びクラスタリングモジュール303を備える。
【0159】
当該取得モジュール301は、モデリング情報集合を取得し、モデリング情報集合は複数のモデリング情報を含むように構成される。
当該暗号化モジュール302は、複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を取得するように構成される。
当該クラスタリングモジュール303は、複数の暗号化情報をクラスタリングして、少なくとも一つの情報テンプレートを得るように構成される。
【0160】
本発明の他の一つの実施例において、当該取得モジュール301は、複数の処理対象情報を取得し、各処理対象情報は少なくとも発送側標識を含み;複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有し;何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得し;第1プリセット数量の処理対象情報をモジュール情報集合に構成するように構成される。
【0161】
本発明の他の一つの実施例において、当該暗号化モジュール302は、何れか一つのモデリング情報に対して、モデリング情報の受信側標識により、モデリング情報の地域標識を取得し、モデリング情報の受信側標識を暗号化し、モデリング情報の第1特徴コードを取得し;モデリング情報に含まれる数値情報の種類により、モデリング情報における数値情報を暗号化して、モデリング情報の第2特徴コードを取得し;モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成するように構成される。
【0162】
本発明の他の一つの実施例において、当該クラスタリングモジュール303は、複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を取得し;複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を取得し;複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るように構成される。
【0163】
本発明の他の一つの実施例において、当該クラスタリングモジュール303は、複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化情報グループにおける暗号化情報は同一の地域標識、第1特徴コード、及び第2特徴コードを有し;何れか一つの第1目標暗号化情報グループにおける暗号化情報を、受信時間が遅い早い順にソートし;第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、第1目標暗号化情報グループにおける残りの暗号化情報を削除して、一つの第1併合情報を得るように構成される。
【0164】
本発明の他の一つの実施例において、当該クラスタリングモジュール303は、複数の第1併合情報から、複数の第2目標暗号化情報グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有し;何れか一つの第2目標暗号化情報グループに対して、第2目標暗号化情報グループにおける第1併合情報の数量及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得し;第2目標暗号化情報グループの地域標識、第2目標暗号化情報グループにおける第1併合情報の数量、第2目標暗号化情報グループの第2特徴コード、及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を一つの第2併合情報に構成するように構成される。
【0165】
本発明の他の一つの実施例において、当該クラスタリングモジュール303は、複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有し;何れか一つの第3目標暗号化情報グループに対して、第3目標暗号化情報グループにおいて何れか一つの第2併合情報に併合された第1併合情報の数量を取得し、第2併合情報に併合された第1併合情報の数量が第1閾値よりも大きい場合、第2併合情報が対応する情報内容、第2併合情報に併合された第1併合情報の数量、第3目標暗号化情報グループの最も遅い受信時間を一つのエントリーに構成し;第3目標暗号化情報グループにおいて同一の情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、情報テンプレートが適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報の数量の和であり、情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間であるように構成される。
【0166】
本発明の他の一つの実施例において、当該装置は、検証モジュール及び確定モジュールを更に備える。
【0167】
当該検証モジュールは、各情報テンプレートに対して被覆率検証を行うように構成され、
当該確定モジュールは、検証結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するように構成される。
【0168】
本発明の他の一つの実施例において、当該検証モジュールは、テスト情報集合を取得し、テスト情報集合は複数のテスト情報を含み;複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを取得し;複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うように構成される。
【0169】
本発明の他の一つの実施例において、当該検証モジュールは、処理対象情報の発送側標識が対応する情報集合における残りの処理対象情報から、第2プリセット数量の処理対象情報を取得して、テスト情報集合を得るように構成される。
【0170】
本発明の他の一つの実施例において、当該検証モジュールは、複数のテスト情報を暗号化処理して、複数のテスト暗号化情報を取得し;複数のテスト暗号化情報において、第3併合条件を満たすテスト暗号化情報をそれぞれ併合し、複数の第3併合情報を取得し;複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有するように構成される。
【0171】
本発明の他の一つの実施例において、当該検証モジュールは、何れか一つのテスト情報に対して、テスト情報の受信側標識により、テスト情報の地域標識を取得し;テスト情報の受信側標識を暗号化し、テスト情報の第1特徴コードを取得し;テスト情報の地域標識、第1特徴コード、及びテスト情報の情報内容を一つのテスト暗号化情報に構成するように構成される。
【0172】
本発明の他の一つの実施例において、当該検証モジュールは、複数のテスト暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有し;何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得し;第2テスト情報グループの地域標識、第2テスト情報グループにおけるテスト暗号化の数量、及び第2テスト情報グループの情報内容を一つのテスト併合情報に構成するように構成される。
【0173】
本発明の他の一つの実施例において、当該検証モジュールは、何れか一つの情報テンプレートに対し、各第1テスト情報グループと情報テンプレートとがマッチングする情報の数量を取得し;情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率を取得するように構成される。
【0174】
本発明の他の一つの実施例において、当該確定モジュールは、マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率がプリセット範囲内である場合、情報テンプレートを実際の情報テンプレートにするように構成される。
【0175】
本発明の実施例に係る装置は、複数のテンプレート情報を学習することにより、情報テンプレートをマイニングすると共に、テンプレートをマイニングする過程において、モデリング情報に含まれた数値情報を暗号化し、マイニングされたテンプレートがユーザのプライバシーを漏洩することを防止し、これによって、より科学的な情報テンプレートマイニング方法を提供する。
【0176】
上述の実施例に係る装置について、各モジュールが操作を実行する具体的な方式が既に当該方法に関する実施例において説明され、ここで説明を省略する。
【0177】
図4は例示的な一実施例に係る一つの情報テンプレートをマイニングする装置400を示すブロック図である。例えば、装置400はサーバとして提供されることができる。図4を参照し、装置400は、一つ又は複数のプロセッサを有する処理モジュール422、及び処理モジュール422により実行できる命令、例えばアプリケーションプログラムを保存することに用いられる、メモリ432で代表されるメモリリソースを備える。メモリ432に保存されたアプリケーションプログラムは一つ又は複数のモジュールを含むことができ、各モジュールは一つのグループの命令に対応する。なお、処理モジュール422は命令を実行するように構成され、これによって、上述の情報テンプレートをマイニングする方法を実行する。
【0178】
モデリング情報集合を取得し、モデリング情報集合は複数のテンプレート情報を含み、
複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を取得し、
複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得る。
【0179】
本発明の他の一つの実施例において、モデリング情報集合を取得するステップは、
複数の処理対象情報を取得し、各処理対象情報が少なくとも発送側標識を含むステップと、
複数の処理対象情報を異なる情報集合に区分し、各情報集合における処理対象情報は同一の発送側標識を有するステップと、
何れか一つの処理対象情報の発送側標識により、対応する情報集合から、第1プリセット数量の処理対象情報を取得するステップと、
第1プリセット数量の処理対象情報をモデリング情報集合に構成されるステップと、を含む。
【0180】
本発明の他の一つの実施例において、複数のモデリング情報に含まれる数値情報をそれぞれ暗号化し、複数の暗号化情報を得るステップは、
何れか一つのモデリング情報に対して、モデリング情報の受信側標識により、モデリング情報の地域標識を取得するステップと、
モデリング情報の受信側標識を暗号化し、モデリング情報の第1特徴コードを得るステップと、
モデリング情報に含まれる数値情報の類別により、モデリング情報における数値情報を暗号化し、モデリング情報の第2特徴コードを得るステップと、
モデリング情報の地域標識、第1特徴コード、第2特徴コード、及び受信時間を一つの暗号化情報に構成するステップと、を含む。
【0181】
本発明の他の一つの実施例において、複数の暗号化情報をクラスタリングし、少なくとも一つの受信モジュールを得るステップは、
複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得るステップと、
複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得るステップと、
複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップと、を含む。
【0182】
本発明の他の一つの実施例において、複数の暗号化情報において第1併合条件を満たす暗号化情報をそれぞれ併合し、複数の第1併合情報を得るステップは、
複数の暗号化情報から、複数の第1目標暗号化情報グループを取得し、各第1目標暗号化情報グループにおける暗号化情報は同一の地域標識、第1特徴コード、及び第2特徴コードを有するステップと、
何れか一つの第1目標暗号化情報グループにおける暗号化情報に対し、受信時間が遅い早い順にソートするステップと、
第1目標暗号化情報グループにおいて受信時間が最も遅い暗号化情報を保存し、かつ、第1目標暗号化情報グループにおける残りの暗号化情報を削除し、一つの第1併合情報を得るステップと、を含む。
【0183】
本発明の他の一つの実施例において、複数の第1併合情報において第2併合条件を満たす暗号化情報をそれぞれ併合し、複数の第2併合情報を得るステップは、
複数の第1併合情報から、複数の第2目標暗号化情報グループを取得し、各第2目標暗号化情報グループにおける第1併合情報は同一の地域標識及び第2特徴コードを有するステップと、
何れか一つの第2目標暗号化情報グループに対して、第2目標暗号化情報グループにおける第1併合情報の数量及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を取得するステップと、
第2目標暗号化情報グループの地域標識、第2目標情報グループにおける第1併合情報の数量、第2目標暗号化情報グループの第2特徴コード、及び第2目標暗号化情報グループにおける第1併合情報の最も遅い受信時間を一つの第2併合情報に構成するステップと、を含む。
【0184】
本発明の他の一つの実施例において、複数の第2併合情報をクラスタリングし、少なくとも一つの情報テンプレートを得るステップは、
複数の第2併合情報を複数の第3目標暗号化情報グループに区分し、各第3目標暗号化情報グループにおける第2併合情報は同一の地域標識を有するステップと、
何れか一つの第3目標暗号化グループに対し、第3目標暗号化情報グループにおいて何れか一つの第2併合情報に併合された第1併合情報の数量を取得し、第2併合情報に併合された第1併合情報の数量は第1閾値によりも大きい場合、第2併合情報が対応する情報内容、第2併合情報に併合された第1併合情報の数量、第3目標暗号化情報グループの最も遅い受信時間を一つのエントリーに構成するっステップと、
第3目標暗号化情報グループにおいて同一の情報内容を有する複数のエントリーを併合し、一つの情報テンプレートを取得し、情報テンプレートが適用する暗号化情報の数量は複数のエントリーに併合された暗号化情報数量の和であり、情報テンプレートの受信時間は複数のエントリーの最も遅い受信時間であるステップと、を含む。
【0185】
本発明の他の一つの実施例において、複数の暗号化情報をクラスタリングし、少なくとも一つの情報テンプレートを得た後、更に、
各情報テンプレートに対して被覆率検証を行うステップと、
検証結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するステップと、を含む。
【0186】
本発明の他の一つの実施例において、各情報テンプレートに対して被覆率検証を行うステップは、
テスト情報集合を取得し、テスト情報集合は複数のテスト情報を含むステップと、
複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得るステップと、
複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うステップと、を含む。
【0187】
本発明の他の一つの実施例において、テスト情報集合を取得するステップは、
処理対象情報の発送側標識が対応する情報集合における残りの処理対象情報から、第2プリセット数量の処理対象情報を取得し、テスト情報集合を得るステップを含む。
【0188】
本発明の他の一つの実施例において、複数のテスト情報をそれぞれ処理し、複数の第1テスト情報グループを得るステップは、
複数のテスト情報を暗号化し、複数のテスト暗号化情報を得るステップと、
複数のテスト情報において第3併合条件を満たす測定暗号化情報をそれぞれ併合し、複数の第3併合情報を得るステップと、
複数の第3併合情報を複数の第1テスト情報グループに区分し、各第1テスト情報グループにおける第3併合情報は同一の地域標識を有するステップと、を含む。
【0189】
本発明の他の一つの実施例において、複数のテスト情報を暗号化処理し、複数のテスト暗号化情報を得るステップは、
何れか一つのテスト情報に対して、テスト情報の受信側標識により、テスト情報の地域標識を取得するステップと、
テスト情報の受信側標識を暗号化し、テスト情報の第1特徴コードを得るステップと、
テスト情報の地域標識、第1特徴コード、及びテスト情報の情報内容を一つのテスト暗号化情報に構成するステップと、を含む。
【0190】
本発明の他の一つの実施例において、複数のテスト暗号化情報を併合し、複数の第3併合情報を得るステップは、
複数のテスト暗号化情報から、複数の第2テスト情報グループを取得し、各第2テスト情報グループにおけるテスト暗号化情報は同一の地域標識及び情報内容を有するステップと、
何れか一つの第2テスト情報グループにおけるテスト暗号化情報の数量を取得するステップと、
第2テスト情報グループの地域標識、第2テスト情報グループにおけるテスト暗号化情報の数量、及び第2テスト情報グループの情報内容を一つのテスト併合情報に構成するステップと、を含む。
【0191】
本発明の他の一つの実施例において、複数の第1テスト情報グループにより、各情報テンプレートに対して被覆率検証を行うステップは、
何れか一つの情報テンプレートに対して、各第1テスト情報グループと情報テンプレートとがマッチングする情報の数量を取得するステップと、
情報テンプレートと何れか一つの第1テスト情報グループとがマッチングする情報の数量が第2閾値よりも大きい場合、マッチングする情報数量と第1テスト情報グループに含まれるテスト情報数量の比率を取得するステップと、を含む。
【0192】
本発明の他の一つの実施例において、検証結果により、少なくとも一つの情報テンプレートから、実際の情報テンプレートを確定するステップは、
マッチングする情報の数量と第1テスト情報グループに含まれるテスト情報の数量との比率はプリセット範囲内である場合、情報テンプレートを実際の情報テンプレートにするステップを含む。
【0193】
装置400は、装置400の電源管理を実行するように構成される一つの電源モジュール426、装置400をネットワークに接続するように構成される一つの有線又は無線ネットワークインターフェース450、及び一つの入出力(I/O)インタフェース458を更に含むことができる。装置400は、メモリ432に保存されるオペレーションシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似なものにに基づいて操作することができる。
【0194】
本発明の実施例に係る装置は、複数のモデリング情報を学習することにより、情報テンプレートをマイニングすると共に、テンプレートをマイニングする過程において、モデリング情報に含まれる数値情報を暗号化し、マイニングられたテンプレートがユーザのプライバシーを漏洩することを防止し、これによって、より科学的な情報テンプレートマイニング方法を提供する。
【0195】
当業者は、明細書に対する理解、及び明細書に記載された発明に対する実施を通じて、本発明の他の実施形態を容易に得ることができる。本発明は、本発明に対する任意の変形、用途、または適応的な変化を含み、このような変形、用途、または適応的な変化は、本発明の一般的な原理に従い、本発明では開示していない本技術分野の公知の知識、または通常の技術手段を含む。明細書と実施例は、ただ例示的なものであって、本発明の本当の範囲と主旨は、以下の特許請求の範囲によって示される。
【0196】
なお、本発明は、上記で記述し、図面で図示した特定の構成に限定されず、その範囲を離脱しない状況で、様様な修正と変更を実現できる。本発明の範囲は、添付される特許請求の範囲のみにより限定される。
図1
図2
図3
図4