特許第6660319号(P6660319)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許6660319-分類装置、分類方法及び分類プログラム 図000002
  • 特許6660319-分類装置、分類方法及び分類プログラム 図000003
  • 特許6660319-分類装置、分類方法及び分類プログラム 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6660319
(24)【登録日】2020年2月12日
(45)【発行日】2020年3月11日
(54)【発明の名称】分類装置、分類方法及び分類プログラム
(51)【国際特許分類】
   G09C 1/00 20060101AFI20200227BHJP
【FI】
   G09C1/00 650Z
【請求項の数】4
【全頁数】8
(21)【出願番号】特願2017-18878(P2017-18878)
(22)【出願日】2017年2月3日
(65)【公開番号】特開2018-124513(P2018-124513A)
(43)【公開日】2018年8月9日
【審査請求日】2019年1月21日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】ローマン モハンマド シャーリア
(72)【発明者】
【氏名】オニバン バス
(72)【発明者】
【氏名】清本 晋作
【審査官】 行田 悦資
(56)【参考文献】
【文献】 特開2010−237653(JP,A)
【文献】 特開2016−224905(JP,A)
【文献】 特開2013−101332(JP,A)
【文献】 特開2013−097351(JP,A)
【文献】 佐久間淳ほか,プライバシ保護データマイニング,人工知能学会誌,日本,社団法人人工知能学会,2009年 3月 1日,第24巻, 第2号,p.283−294
(58)【調査した分野】(Int.Cl.,DB名)
G09C 1/00
(57)【特許請求の範囲】
【請求項1】
複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信部と、
前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算部と、
前記演算の結果を前記複数のパーティに送信する第1送信部と、
前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信部と、
前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリング部と、
前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信部と、を備える分類装置。
【請求項2】
前記演算部は、前記ユークリッド距離の2乗と、前記所定の距離の2乗と、の差分値の暗号データを算出し、
前記第2受信部は、前記差分値に基づく前記大小関係の判定値を受信する請求項1に記載の分類装置。
【請求項3】
複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信ステップと、
前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算ステップと、
前記演算の結果を前記複数のパーティに送信する第1送信ステップと、
前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信ステップと、
前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリングステップと、
前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信ステップと、をコンピュータが実行する分類方法。
【請求項4】
複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信ステップと、
前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算ステップと、
前記演算の結果を前記複数のパーティに送信する第1送信ステップと、
前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信ステップと、
前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリングステップと、
前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信ステップと、をコンピュータに実行させるための分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、秘匿されたデータを分類する分類装置、分類方法及び分類プログラムに関する。
【背景技術】
【0002】
従来、DBSCAN(Density−Based Spatial Clustering of Applications with Noise)と呼ばれるクラスタリング手法が利用されている。
個人情報又は機密情報を所有するユーザは、DBSCANを使用して、一方の当事者のデータを他の当事者に明らかにすることなく、統合されたデータセットから意味のある情報を抽出したい場合がある。非特許文献1及び2では、プライバシを保護して2者のデータをクラスタリングする分散型DBSCANのプロトコルが提案されている。
また、非特許文献3では、秘匿された複数パーティのデータの、準同型暗号による演算方式が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】J. Liu, L. Xiong, J. Luo, and J. Z. Huang, “Privacy preserving distributed DBSCAN clustering,” Trans. Data Privacy, vol. 6, no. 1, pp. 69−85, 2013.
【非特許文献2】K. A. Kumar and C. P. Rangan, “Privacy preserving dbscan algorithm for clustering,” in International Conference on Advanced Data Mining and Applications. Springer, 2007, pp. 57−68.
【非特許文献3】A. Lopez−Alt, E. Tromer, and V. Vaikuntanathan, “Cloud−assisted multiparty computation from fully homomorphic encryption.” IACR Cryptology ePrint Archive, vol. 2011.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のDBSCANのプロトコルは、3者以上のマルチパーティを効率的に扱うことができなかった。
【0005】
本発明は、複数の当事者が秘匿データを他の当事者と共有することなく、クラスタリングするための分類装置、分類方法及び分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る分類装置は、複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信部と、前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算部と、前記演算の結果を前記複数のパーティに送信する第1送信部と、前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信部と、前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリング部と、前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信部と、を備える。
【0007】
前記演算部は、前記ユークリッド距離の2乗と、前記所定の距離の2乗と、の差分値の暗号データを算出し、前記第2受信部は、前記差分値に基づく前記大小関係の判定値を受信してもよい。
【0008】
本発明に係る分類方法は、複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信ステップと、前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算ステップと、前記演算の結果を前記複数のパーティに送信する第1送信ステップと、前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信ステップと、前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリングステップと、前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信ステップと、をコンピュータが実行する。
【0009】
本発明に係る分類プログラムは、複数のパーティから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する第1受信ステップと、前記データ間のユークリッド距離と所定の距離との大小関係を求める演算を、暗号化された状態で行う演算ステップと、前記演算の結果を前記複数のパーティに送信する第1送信ステップと、前記演算の結果を各パーティの秘密鍵を用いたマルチパーティ計算により復号した値により得られた前記大小関係の判定値を受信する第2受信ステップと、前記判定値に基づいて、前記複数のデータを分類したクラスタを生成するクラスタリングステップと、前記クラスタの情報を前記公開鍵により暗号化し、前記複数のパーティに送信する第2送信ステップと、をコンピュータに実行させる。
【発明の効果】
【0010】
本発明によれば、複数の当事者が秘匿データを他の当事者と共有することなく、クラスタリングできる。
【図面の簡単な説明】
【0011】
図1】実施形態に係る分類システムの構成を示す図である。
図2】実施形態に係るサーバの機能構成を示す図である。
図3】実施形態に係る分類方法を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る分類システム100の構成を示す図である。
分類システム100は、秘匿対象データを保有する複数(N)パーティそれぞれの端末P(1≦i≦N)と、分類装置としてのサーバSとを備え、互いにネットワークで通信接続されている。
【0013】
端末Pは、後述のMultiparty Computation(マルチパーティ計算)により協働することによって、データの暗号化及び復号を行える。端末Pは、それぞれが保有するデータセットを互いに、さらには第三者のサーバSにも明らかにすることなく、クラスタリングの演算結果を取得する。
サーバSは、端末Pから準同型暗号による秘匿データを受信し、後述のDBSCANによってクラスタリングの演算を行う。
【0014】
まず、分類システム100で利用される要素技術について説明する。
[Multiparty Computation(MPC)]
MPCのプロトコルでは、キー準同型の公開鍵暗号方式により、各ユーザの公開鍵pk、・・・、pkから結合公開鍵pと、各ユーザの秘密鍵sk、・・・、skから結合秘密鍵skとが生成される。各ユーザは、それぞれの所有データを結合公開鍵pkで暗号化できる。このプロトコルは、t(<N)人のユーザの秘密鍵sk(1≦i≦t)を用いて暗号データが復号される。
【0015】
[準同型暗号]
完全準同型の暗号方式は、メッセージ空間M内の要素m、mについて、以下の2つの特性を持つ。
decrypt(encrypt(m)+encrypt(m))=m+m
decrypt(encrypt(m)×encrypt(m))=m×m
なお、演算「+」及び「×」は、要素ごとの加算及び乗算である。
【0016】
[DBSCAN]
定義1:密度到達可能(density−reachable)
あるオブジェクト(データ点)pから特定の半径ε内に最小個数MinPts以上のデータ点を含む場合、半径ε内のデータ点pi+1はデータ点pから直接密度到達可能である。
直接密度到達可能なデータ点p、・・・、pの有限列がある場合、p=q、p=qとすると、データ点pはデータ点qから密度到達可能である。
【0017】
定義2:密度接続(density−connected)
データ点p及びデータ点qの両方がデータ点oから密度到達可能であるようなデータ点oがある場合、データ点pとデータ点qとは、密度接続な関係にある。
【0018】
定義3:クラスタ
Dをデータ点の集合とする。クラスタCは、以下の条件を満たすDの空でない部分集合である。
・クラスタCは、全データ集合Dに含まれる全データ点に対して、密度到達可能なデータ点の極大集合である(極大性)。
・クラスタC内の全データ点は、相互に密度接続の関連にある(接続性)。
【0019】
定義4:ノイズ
ノイズは、クラスタCに属さない集合D内のデータ点の集合である。
【0020】
ここで、あるデータ点pから半径εの範囲内にMinPts以上のデータ点がある場合、このデータ点pはコアポイントと呼ばれる。コアポイントは、クラスタの内部にある。境界ポイントは、コアポイントの近傍にあるが、半径εの範囲内のデータ点がMinPtsよりも少ない。ノイズポイントは、コアポイント又は境界ポイントではない任意のポイントである。
【0021】
次に、分類システム100によるクラスタリング手法を説明する。
図2は、本実施形態に係るサーバSの機能構成を示す図である。
サーバSは、第1受信部11と、演算部12と、第1送信部13と、第2受信部14と、クラスタリング部15と、第2送信部16とを備える。
【0022】
第1受信部11は、複数のパーティの端末Pから、完全準同型の暗号方式により公開鍵で暗号化された複数のデータを受信する。
【0023】
演算部12は、データ間のユークリッド距離distと所定の距離(前述の半径ε)との大小関係を求める演算を、暗号化された状態で行う。具体的には、演算部12は、distの2乗と、εの2乗との差分値の暗号データを算出する。
【0024】
第1送信部13は、演算部12による演算の結果を複数のパーティの端末Pに送信する。
演算結果を受信した端末Pは、演算の結果を各パーティの秘密鍵を用いたMPCにより復号し、復号結果である差分値から、distとεとの大小関係を判定する。
【0025】
第2受信部14は、端末Pから、distとεとの大小関係の判定値を受信する。
例えば、第2受信部14は、dist≦εの場合に「1」を、dist>εの場合に「0」を受信する。
【0026】
クラスタリング部15は、第2受信部14が受信した判定値に基づいて、DBSCANにより複数のデータを分類したクラスタを生成する。
【0027】
第2送信部16は、クラスタの情報を公開鍵により暗号化し、複数のパーティの端末Pに送信する。
端末Pは、受信したデータをMPCにより復号し、クラスタリングの結果を取得する。
【0028】
図3は、本実施形態に係る分類方法を示すフローチャートである。
ステップS1において、各パーティの端末Pは、データxを暗号化し(c=Encpk(x))、暗号化データcを生成する。
ステップS2において、端末Pは、暗号化データcをサーバSに送信する。
【0029】
ステップS3において、サーバSは、暗号化データcをデータ点pとして選択し、pと別のデータ点p’との間の暗号化されたユークリッド距離distを、次のように計算する。
dist=(Encpk(p)−Encpk(p’))
=Encpk(p)−2Encpk(p)Encpk(p’)+Encpk(p’)
さらに、サーバSは、distとεとを比較する演算として、次の計算を行う。
=Encpk(dist)+Encpk(−ε
=Encpk(dist−ε
【0030】
ステップS4において、サーバSは、暗号化データdを複数の端末Pに送信する。
ステップS5において、複数の端末Pは、MPCにより協働してdを復号し、distとεとの大小関係を判定する。
【0031】
ステップS6において、端末Pのいずれかは、ステップS5の判定結果を平文でサーバSに送信する。具体的には、例えば、dist≦εの場合に「1」が、dist>εの場合に「0」が送信される。
【0032】
ステップS7において、サーバSは、データ点pからDBSCANのプロトコルに従い、ε及びMinPtsに関して密度到達可能な全ての点を取得する。
このとき、pがコアポイントであれば、クラスタが形成される。
【0033】
ステップS8において、サーバSは、全てのデータ点を処理したか否かを判定する。この判定がYESの場合、処理はステップS9に移り、判定がNOの場合、処理はステップS3に戻り、次のデータ点が選択される。
【0034】
ステップS9において、サーバSは、形成されたクラスタの情報を公開鍵により暗号化する。
ステップS10において、サーバSは、暗号化したクラスタの情報を複数パーティの端末Pに送信する。
ステップS11において、複数の端末Pは、ステップS9で受信した暗号データをMPCにより協働して復号し、クラスタの情報を取得する。
【0035】
本実施形態によれば、分類システム100において、複数のパーティは、完全準同型の暗号方式により、データセットを互いに共有することなく、さらに、サーバSにも知られることなく、DBSCANによるクラスタリングの計算をサーバSに実行させる。このとき、サーバSは、データ間のユークリッド距離と所定の距離との大小関係を、暗号化されたまま演算するが、複数パーティによるMPCにより結果のみを取得する。
具体的には、サーバSは、大小関係を2乗の差分として計算することにより、加算及び乗算のみで結果を得ることができるので、完全準同型の暗号方式により、暗号化されたまま演算できる。
【0036】
このように、分類システム100は、高負荷な演算をサーバSにアウトソースすることで、複数パーティの端末Pの処理負荷を低減させつつも、サーバSに対してデータセットを公開することなく、安全にクラスタリングを実行できる。
【0037】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0038】
分類システム100による分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0039】
P 端末
S サーバ
11 第1受信部
12 演算部
13 第1送信部
14 第2受信部
15 クラスタリング部
16 第2送信部
100 分類システム
図1
図2
図3