IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-情報処理装置及び情報処理方法 図1
  • 特許-情報処理装置及び情報処理方法 図2
  • 特許-情報処理装置及び情報処理方法 図3
  • 特許-情報処理装置及び情報処理方法 図4
  • 特許-情報処理装置及び情報処理方法 図5
  • 特許-情報処理装置及び情報処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-22
(45)【発行日】2024-05-30
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
   G06F 21/62 20130101AFI20240523BHJP
【FI】
G06F21/62 354
【請求項の数】 12
(21)【出願番号】P 2023202916
(22)【出願日】2023-11-30
【審査請求日】2023-11-30
【早期審査対象出願】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】披田野 清良
(72)【発明者】
【氏名】黒川 茂莉
(72)【発明者】
【氏名】山口 求
(72)【発明者】
【氏名】浅川 善則
(72)【発明者】
【氏名】宮嵜 仁志
【審査官】吉田 歩
(56)【参考文献】
【文献】国際公開第2016/203752(WO,A1)
【文献】特表2023-543716(JP,A)
【文献】特開2021-056921(JP,A)
【文献】特開2018-010424(JP,A)
【文献】特開2021-117679(JP,A)
【文献】国際公開第2008/102754(WO,A1)
【文献】米国特許出願公開第2017/0169253(US,A1)
【文献】ZetaSQL Query syntax,2023年11月10日,<URL https://github.com/google/zetasql/blob/master/docs/query-syntax.md>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成する第1生成部と、
前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する第2生成部と、
前記第1生成部が生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、前記第2生成部が生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信する送信部と、
前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するデータ群取得部と、
前記データ群取得部が取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記データ群取得部が取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成する統合部と、
を有する情報処理装置。
【請求項2】
前記第1レコードは、n1個の属性それぞれに対応する複数の第1データを含み、
前記第2レコードは、n2個の属性それぞれに対応する複数の第2データを含み、
前記統合データ群に含まれる複数のデータは、プライバシーの強度を示すパラメータをεとするε-局所型差分プライバシーを満たしており、
前記第1生成部は、前記n1個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与された前記n1個の属性それぞれの第1データがε1-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε1はε1=ε/(n1+n2)である)を満たすようにノイズを付与する前記第1ノイズ付与クエリを生成し、
前記第2生成部は、前記n2個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与された前記n2個の属性それぞれの第2データがε2-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータε2はε2=ε/(n1+n2)である)を満たすようにノイズを付与する前記第2ノイズ付与クエリを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記データ識別情報に関連付けられているデータ群はk個(ただし、kは3以上の整数)存在し、
第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して前記統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、前記第kデータ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する第k生成部をさらに有し、
前記第kデータ群に含まれる第kレコードは、nk個の属性それぞれに対応する複数の第kデータを含み、
前記第k生成部は、前記nk個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与された前記nk個の属性それぞれの第kデータがεk-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεkはεk=ε/(n1+n2+・・・+nk)である)を満たすようにノイズを付与する前記第kノイズ付与クエリを生成する、
請求項2に記載の情報処理装置。
【請求項4】
前記第1装置から前記第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに、前記第2装置から前記第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得し、取得した前記第1項目情報に基づいて前記第1データに対応する属性の個数である前記n1を特定し、取得した前記第2項目情報に基づいて前記第2データに対応する属性の個数である前記n2を特定し、特定した属性の個数である前記n1及び前記n2に基づいて、ノイズが付与された後の前記第1データ及び前記第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε1及び第2パラメータε2を決定する決定部を有する、
請求項2に記載の情報処理装置。
【請求項5】
前記第1ノイズ付与クエリ及び前記第2ノイズ付与クエリの少なくともいずれかは、ノイズが付与されるデータ群に含まれる複数の属性それぞれに対応する複数のデータのうち、少なくとも一つの属性に対応するデータが取り得る値の数を減少させ、当該データが取り得る値の数を減少させた後に、当該複数のデータそれぞれに前記ノイズを付与するクエリである、
請求項1に記載の情報処理装置。
【請求項6】
前記第1生成部は、前記変換後の第1データ群に含まれる前記第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる前記第1データと入れ替えることにより前記変換後の第1データ群を更新するクエリである第1更新クエリを生成し、
前記第2生成部は、前記変換後の第2データ群に含まれる前記第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる前記第2データと入れ替えることにより前記変換後の第2データ群を更新するクエリである第2更新クエリを生成し、
前記送信部は、前記第1生成部が生成した前記第1更新クエリを前記第1装置に送信し、前記第2生成部が生成した前記第2更新クエリを前記第2装置に送信する、
請求項1に記載の情報処理装置。
【請求項7】
前記統合データ群に含まれるレコードに含まれるデータを、第3の割合で他のレコードに含まれるデータと入れ替えることにより前記統合データ群を更新する更新部を有する、
請求項1に記載の情報処理装置。
【請求項8】
前記第1生成部は、前記第1データ群に含まれる複数の前記データ識別情報それぞれに、ランダムデータを付加してから前記所定の方法により不可逆変換する前記第1不可逆変換クエリを生成し、
前記第2生成部は、前記第2データ群に含まれる複数の前記データ識別情報それぞれに、当該データ識別情報に対応する、前記第1データ群に含まれるデータ識別情報に付加されたランダムデータと同一のランダムデータを付加してから前記所定の方法により不可逆変換する前記第2不可逆変換クエリを生成する、
請求項1に記載の情報処理装置。
【請求項9】
前記統合部は、前記統合データ群をさらに加工して統計データを生成し、当該統計データに対して前記ノイズの付与に用いられる前記所定の確率を用いて前記ノイズを除去するよう補正を行う、
請求項1に記載の情報処理装置。
【請求項10】
前記第1データ群及び前記第2データ群には、新たに追加されたレコードを特定するために用いることができる特定用データが含まれており、
前記第1生成部は、前記第1不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第1レコードに対して前記ノイズを付与する前記第1ノイズ付与クエリを生成し、
前記第2生成部は、前記第2不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第2レコードに対して前記ノイズを付与する前記第2ノイズ付与クエリを生成する、
請求項1に記載の情報処理装置。
【請求項11】
前記統合部は、前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合し、前記データ識別情報を除外して、前記統合データ群を生成する、
請求項1に記載の情報処理装置。
【請求項12】
情報処理装置が実行する、
データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成するステップと、
前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成するステップと、
生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信するステップと、
前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するステップと、
取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成するステップと、
を有する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
従来、複数の事業者からユーザに関する情報であるユーザ情報を収集し、データ分析を行うことが実施されている。この場合、ユーザのプライバシーを保護するために、複数の事業者から収集したユーザ情報の少なくとも一部を匿名化することが行われている。例えば、特許文献1には、複数のユーザ情報を結合するための結合キーとなるデータに対して不可逆変換等を行い、変換後の結合キーを用いて複数の事業者それぞれに対応するユーザの個人情報を結合し、結合後のデータに対して追加的に匿名化処理を行うシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2021-117679号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、複数の事業者それぞれからユーザ情報を収集してから匿名化処理を行うため、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出してしまうおそれがある。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る情報処理装置は、データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成する第1生成部と、前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する第2生成部と、前記第1生成部が生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、前記第2生成部が生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信する送信部と、前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するデータ群取得部と、前記データ群取得部が取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記データ群取得部が取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成する統合部と、を有する。
【0007】
前記第1レコードは、n個の属性それぞれに対応する複数の第1データを含み、前記第2レコードは、n個の属性それぞれに対応する複数の第2データを含み、前記統合データ群に含まれる複数のデータは、プライバシーの強度を示すパラメータをεとするε-局所型差分プライバシーを満たしており、前記第1生成部は、前記n個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与された前記n個の属性それぞれの第1データがε-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεはε=ε/(n+n)である)を満たすようにノイズを付与する前記第1ノイズ付与クエリを生成し、前記第2生成部は、前記n個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与された前記n個の属性それぞれの第2データがε-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεはε=ε/(n+n)である)を満たすようにノイズを付与する前記第2ノイズ付与クエリを生成してもよい。
【0008】
前記データ識別情報に関連付けられているデータ群はk個(ただし、kは3以上の整数)存在し、第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して前記統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、前記第kデータ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する第k生成部をさらに有し、前記第kデータ群に含まれる第kレコードは、n個の属性それぞれに対応する複数の第kデータを含み、前記第k生成部は、前記n個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与された前記n個の属性それぞれの第kデータがε-局所型差分プライバシー(ただし、プライバシーの強度を示すパラメータεはε=ε/(n+n+・・・+n)である)を満たすようにノイズを付与する前記第kノイズ付与クエリを生成してもよい。
【0009】
前記情報処理装置は、前記第1装置から前記第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに、前記第2装置から前記第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得し、取得した前記第1項目情報に基づいて前記第1データに対応する属性の個数である前記nを特定し、取得した前記第2項目情報に基づいて前記第2データに対応する属性の個数である前記nを特定し、特定した属性の個数である前記n及び前記nに基づいて、ノイズが付与された後の前記第1データ及び前記第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε及び第2パラメータεを決定する決定部を有してもよい。
【0010】
前記第1生成部及び前記第2生成部の少なくともいずれかは、データ群に含まれる複数の属性それぞれに対応する複数のデータのうち、少なくとも一つの属性に対応するデータが取り得る値の数を減少させ、当該データが取り得る値の数を減少させた後に、複数のデータそれぞれに前記ノイズを付与する前記ノイズ付与クエリを生成してもよい。
【0011】
前記第1生成部は、前記変換後の第1データ群に含まれる前記第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる前記第1データと入れ替えることにより前記変換後の第1データ群を更新するクエリである第1更新クエリを生成し、前記第2生成部は、前記変換後の第2データ群に含まれる前記第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる前記第2データと入れ替えることにより前記変換後の第2データ群を更新するクエリである第2更新クエリを生成し、前記送信部は、前記第1生成部が生成した前記第1更新クエリを前記第1装置に送信し、前記第2生成部が生成した前記第2更新クエリを前記第2装置に送信してもよい。
【0012】
前記情報処理装置は、前記統合データ群に含まれるレコードに含まれるデータを、第3の割合で他のレコードに含まれるデータと入れ替えることにより前記統合データ群を更新する更新部を有してもよい。
【0013】
前記第1生成部は、前記第1データ群に含まれる複数の前記データ識別情報それぞれに、ランダムデータを付加してから前記所定の方法により不可逆変換する前記第1不可逆変換クエリを生成し、前記第2生成部は、前記第2データ群に含まれる複数の前記データ識別情報それぞれに、当該データ識別情報に対応する、前記第1データ群に含まれるデータ識別情報に付加されたランダムデータと同一のランダムデータを付加してから前記所定の方法により不可逆変換する前記第2不可逆変換クエリを生成してもよい。
【0014】
前記統合部は、前記統合データ群をさらに加工して統計データを生成し、当該統計データに対して前記ノイズの付与に用いられる前記所定の確率を用いて前記ノイズを除去するよう補正を行ってもよい。
【0015】
前記第1データ群及び前記第2データ群には、新たに追加されたレコードを特定するために用いることができる特定用データが含まれており、前記第1生成部は、前記第1不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第1レコードに対して前記ノイズを付与する前記第1ノイズ付与クエリを生成し、前記第2生成部は、前記第2不可逆変換クエリを再生成する場合、前記特定用データに基づいて新たに追加された第2レコードに対して前記ノイズを付与する前記第2ノイズ付与クエリを生成してもよい。
【0016】
前記統合部は、前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合し、前記データ識別情報を除外して、前記統合データ群を生成してもよい。
【0017】
本発明の第2の態様に係る情報処理方法は、情報処理装置が実行する、データを識別するためのデータ識別情報と第1データとを関連付けた複数の第1レコードを含む第1データ群と、前記データ識別情報と第2データとを関連付けた複数の第2レコードを含む第2データ群とのうちの前記第1データ群に含まれる複数の前記第1データそれぞれに、前記第1データ群と前記第2データ群とを統合して統合データ群とした場合における、前記統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第1ノイズ付与クエリと、前記第1データ群に含まれる複数の前記データ識別情報を所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成するステップと、前記第2データ群に含まれる複数の前記第2データそれぞれに、前記統合データ群に含まれる複数のデータに対して前記所定の確率でノイズが付与されているようにノイズを付与するクエリである第2ノイズ付与クエリと、前記第2データ群に含まれる複数の前記データ識別情報を前記所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成するステップと、生成した前記第1ノイズ付与クエリと前記第1不可逆変換クエリとを前記第1データ群の提供元に対応する第1装置に送信するとともに、生成した前記第2ノイズ付与クエリと前記第2不可逆変換クエリとを前記第2データ群の提供元に対応する第2装置に送信するステップと、前記第1不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、前記第2不可逆変換クエリに基づいて変換された前記データ識別情報と、前記第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得するステップと、取得した前記変換後の第1データ群に含まれる複数の第1レコードそれぞれの前記データ識別情報と、取得した前記変換後の第2データ群に含まれる複数の第2レコードそれぞれの前記データ識別情報とに基づいて、前記変換後の第1データ群と前記変換後の第2データ群とを統合した前記統合データ群を生成するステップと、を有する。
【発明の効果】
【0018】
本発明によれば、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができるという効果を奏する。
【図面の簡単な説明】
【0019】
図1】情報処理システムの概要を説明する図である。
図2】情報処理装置の機能構成を示す図である。
図3】第1データ群と第2データ群との一例を示す図である。
図4】変換後の第1データ群と変換後の第2データ群との一例を示す図である。
図5】統合データ群の一例を示す図である。
図6】情報処理装置が統合データ群を生成するまでの処理の流れを示すシーケンス図である。
【発明を実施するための形態】
【0020】
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明する図である。情報処理システムSは、情報処理装置1と、第1データ群を管理する第1装置2と、第2データ群を管理する第2装置3とを有し、第1データ群及び第2データ群に含まれるユーザ情報の匿名化を行ったうえで第1データ群と第2データ群とを統合した統合データ群を生成するシステムである。
【0021】
情報処理装置1は、例えばデータを集約し、集約後のデータを提供するサービスを提供する集約事業者により運用されており、第1装置2及び第2装置3等の外部装置と、インターネットや携帯電話回線等の通信ネットワーク(不図示)を介して通信可能に接続されている。
【0022】
第1装置2は、例えば第1の事業者により運用されており、データを識別するためのデータ識別情報としてのデータIDと第1データとを関連付けた複数の第1レコードを含む第1データ群を管理している。第2装置3は、例えば第2の事業者により運用されており、第1データ群に含まれているデータIDと共通のデータIDと、第2データとを関連付けた複数の第2レコードを含む第2データ群を管理している。
【0023】
情報処理装置1は、第1データ群に含まれる複数の第1データそれぞれにノイズを付与する第1ノイズ付与クエリと、第1データ群に含まれる複数のデータIDを所定の方法により不可逆変換するクエリである第1不可逆変換クエリとを生成する。第1ノイズ付与クエリは、例えば、第1データ群に含まれる複数の第1データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。クエリは、例えば、リレーショナルデータベース管理システムにおいて実行可能なSQL(Structured Query Language)文であるものとする。
【0024】
情報処理装置1は、第2データ群に含まれる複数の第2データそれぞれにノイズを付与する第2ノイズ付与クエリと、第2データ群に含まれる複数のデータIDを所定の方法により不可逆変換するクエリである第2不可逆変換クエリとを生成する。第2ノイズ付与クエリは、第1ノイズ付与クエリと同様に、第2データ群に含まれる複数の第2データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。
【0025】
情報処理装置1は、生成した第1ノイズ付与クエリと、第1不可逆変換クエリとを第1装置2に送信するとともに、生成した第2ノイズ付与クエリと、第2不可逆変換クエリとを第2装置3に送信する。
【0026】
第1装置2は、情報処理装置1から受信した第1ノイズ付与クエリと、第1不可逆変換クエリとを実行し、第1不可逆変換クエリに基づいて変換されたデータIDと、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群を生成する。第1装置2は、生成した変換後の第1データ群を情報処理装置1に送信する。
【0027】
第2装置3は、情報処理装置1から受信した第2ノイズ付与クエリと、第2不可逆変換クエリとを実行し、第2不可逆変換クエリに基づいて変換されたデータIDと、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群を生成する。第2装置3は、生成した変換後の第2データ群を情報処理装置1に送信する。
【0028】
このように、第1装置2及び第2装置3それぞれにおいて、データ群の匿名化処理を行ったうえでデータ群を情報処理装置1に送信することができるので、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができる。
【0029】
情報処理装置1は、第1装置2から受信した変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータIDと、第2装置3から受信した変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する。
【0030】
このようにして統合された統合データ群に含まれる複数のデータには、所定の確率でノイズが付与されることとなる。また、データIDは、不可逆変換クエリにより変換されることから、変換後のデータIDに基づいて個人を特定するのが困難となる。これにより、情報処理装置1は、統合データに含まれるユーザ情報のプライバシーを確保することができる。
【0031】
[情報処理装置1の機能構成]
続いて、情報処理装置1の機能構成について説明する。図2は、情報処理装置1の機能構成を示す図である。
【0032】
図2に示すように、情報処理装置1は、通信部11と、記憶部12と、制御部13とを有する。
通信部11は、第1装置2及び第2装置3等と通信ネットワークを介してデータを送受信するための通信インターフェースである。
【0033】
記憶部12は、各種のデータを記憶する記憶媒体であり、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク、SSD(Solid State Drive)、及びフラッシュメモリ等を有する。記憶部12は、制御部13が実行するプログラムを記憶する。記憶部12は、制御部13を、決定部131、生成部132、送信部133、データ群取得部134及び統合部135として機能させるプログラムを記憶する。
【0034】
制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されたプログラムを実行することにより、決定部131、生成部132、送信部133、データ群取得部134及び統合部135として機能する。
【0035】
以下、制御部13が有する機能について説明するにあたり、第1データ群と、第2データ群とについて説明する。図3は、第1データ群と第2データ群との一例を示す図である。図3において、(A)は第1データ群を示しており、(B)は第2データ群を示している。
【0036】
第1データ群は、第1の事業者が管理するデータ群であり、第1装置2に設けられたデータベース、又は第1装置2がアクセス可能なサーバに設けられたデータベースに格納されている。図3に示すように、第1データ群は、データを識別するためのデータ識別情報としてのデータIDと、n個の属性それぞれに対応する複数の第1データとを関連付けた複数の第1レコードを含んでいる。データIDは、例えば、第1の事業者と第2事業者とがユーザに対して付与している共通のユーザIDである。
【0037】
図3に示す例では、第1データ群は、第1の事業者が運営する店舗における売上とユーザの年齢とを関連付けたデータ群であり、複数の属性それぞれに対応する「年齢」、「商品カテゴリ食料品」、「商品カテゴリ日用品」、「購入ランキング」という項目の第1データが含まれている。第1データ群は、1つのテーブル、又は複数のテーブルを連結することにより生成されたテーブルを示すものとするが、これに限らず、一以上のテーブルを参照するビューであってもよい。
【0038】
第2データ群は、第2の事業者が管理するデータ群であり、第2装置3に設けられたデータベース、又は第2装置3がアクセス可能なサーバに設けられたデータベースに格納されている。図3に示すように、第2データ群は、データを識別するためのデータ識別情報としてのデータIDと、n個の属性それぞれに対応する複数の第2データとを関連付けた複数の第2レコードを含んでいる。図3に示す例では、第2データ群は、ユーザの年齢と、施設への訪問履歴とを関連付けたデータ群であり、複数の属性それぞれに対応する「性別」、「訪問場所スーパー」、「訪問場所公園」という項目の第2データが含まれている。第2データ群は、1つのテーブル、又は複数のテーブルを連結することにより生成されたテーブルを示すものとするが、これに限らず、一以上のテーブルを参照するビューであってもよい。
【0039】
第1データ群と、第2データ群とには、同一のユーザの情報が含まれており、第1データ群と第2データ群とにおいて、同一のユーザのデータIDは共通であるものとする。これにより、データIDをキーとして第1データ群に含まれる第1レコードと第2データ群に含まれる第2レコードとを連結することができる。
【0040】
続いて、制御部13が有する機能について説明する。
決定部131は、第1データ群と第2データ群とを統合した統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されるように、第1データ群にノイズが付与される確率と、第2データ群にノイズが付与される確率とを決定する。
【0041】
決定部131は、ノイズが付与された後の第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε及び第2パラメータεを決定する。
【0042】
決定部131が第1パラメータε及び第2パラメータεを決定するにあたり、局所型差分プライバシーについて説明する。まず、あるデータ群における任意のデータペアをx1、x2とする。そして、データxに対し、ランダムでノイズを付与する関数をR(x)とし、その出力をyとした場合に、以下の式(1)が成立するとき、関数Rは局所型差分プライバシーを満たすと定義される。
【0043】
【数1】
【0044】
ここで、Pr[]は、確率変数である。また、eは自然対数であり、εはプライバシーの強度を示すパラメータである。また、εはプライバシーの強度がεである局所型差分プライバシーをε-局所型差分プライバシーという。
【0045】
ε-局所型差分プライバシーが満たされるようなデータの加工例としては、以下に示す加工例が挙げられる。例えば、データxがk個の値を取り得るものとした場合、以下の式(2)に基づいて、データxの入力に対して、データyが出力される。
【0046】
【数2】
【0047】
決定部131は、第1装置2から第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに、第2装置3から第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得する。項目情報は、第1レコードに含まれる複数の項目のうち、統合データに含める項目を示す情報である。図3に示す例では、決定部131は、「年齢」、「商品カテゴリ食料品」、「商品カテゴリ日用品」、「購入ランキング」という4つの項目を示す第1項目情報を取得する。また、決定部131は、「性別」、「訪問場所スーパー」、「訪問場所公園」という3つの項目を示す第1項目情報を取得する。
【0048】
決定部131は、取得した第1項目情報に基づいて第1データに対応する属性の個数であるnを特定し、取得した第2項目情報に基づいて第2データに対応する属性の個数であるnを特定する。第1データに対応する属性の個数であるnと、第2データに対応する属性の個数であるnとの和は、統合データ群に含まれる属性の個数である。決定部131は、特定した属性の個数であるn及びnに基づいて、ノイズが付与された後の複数の属性それぞれの第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε及び第2パラメータεを決定する。例えば、決定部131は、以下の式(3)に示すように、複数の属性それぞれのデータが、(ε/n+n)-局所型差分プライバシーが適用されるように、第1パラメータε及び第2パラメータεを決定する。
【0049】
【数3】
【0050】
これにより、(ε/n+n)-局所型差分プライバシーが適用された、n+nの属性のデータを集約した統合データ群は、ε-局所型差分プライバシーが満たされることとなる。
【0051】
生成部132は、第1生成部として機能し、第1ノイズ付与クエリを生成する。第1ノイズ付与クエリは、第1データ群に含まれる複数の第1データそれぞれに、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。所定の確率は、ε-局所型差分プライバシーが満たされる確率であり、プライバシーの強度を示すパラメータεにより決定されるものとする。例えば、所定の確率は、式(2)を用いて算出される。式(2)に示されるように、εが小さいほど、高い確率でデータxが他の値に変換される。
【0052】
例えば、生成部132は、第1項目情報が示すn個の属性それぞれの第1データにノイズが付与された場合に、ノイズが付与されたn個の属性それぞれの第1データがε-局所型差分プライバシーを満たすようにノイズを付与する第1ノイズ付与クエリを生成する。ここで、εは、決定部131が決定した第1パラメータである。
【0053】
また、生成部132は、第1データ群に含まれる複数のデータ識別情報としてのデータIDを所定の方法により不可逆変換するクエリである第1不可逆変換クエリを生成する。所定の方法は、例えば、ハッシュ関数を用いてデータIDを不可逆変換する方法であるが、これに限らず、不可逆変換可能な方法であれば他の方法を用いてもよい。
【0054】
また、生成部132は、第2生成部として機能し、第2ノイズ付与クエリを生成する。第2ノイズ付与クエリは、第2データ群に含まれる複数の第2データそれぞれに、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである。例えば、生成部132は、第2項目情報が示すn個の属性それぞれの第2データにノイズが付与された場合に、ノイズが付与されたn個の属性それぞれの第2データがε-局所型差分プライバシーを満たすようにノイズを付与する第2ノイズ付与クエリを生成する。ここで、εは、決定部131が決定した第2パラメータである。
【0055】
また、生成部132は、第2データ群に含まれる複数のデータIDを、第1不可逆変換クエリと同様に所定の方法により不可逆変換するクエリである第2不可逆変換クエリを生成する。
【0056】
なお、生成部132は、第1データ群及び第2データ群に含まれる複数の属性それぞれに対応する複数のデータのうち、少なくとも一つの属性に対応するデータが取り得る値の数を減少させ、当該データが取り得る値の数を減少させた後に、複数のデータそれぞれにノイズを付与するノイズ付与クエリを生成してもよい。例えば、生成部132は、属性が「年齢」のデータが、複数のユーザそれぞれの実年齢を示している場合に、当該データについて、「10代」、「20代」といったように年代を示すデータに変更することにより、当該データが取り得る値を減少させる処理を含むノイズ付与クエリを生成する。このようにすることで、ユーザのプライバシーを高めることができる。
【0057】
また、生成部132は、第1データ群に含まれる複数のデータIDそれぞれに、ランダムデータを付加してから所定の方法により不可逆変換する第1不可逆変換クエリを生成し、第2データ群に含まれる複数のデータIDそれぞれに、当該データIDに対応する、第1データ群に含まれるデータIDに付加されたランダムデータと同一のランダムデータを付加してから所定の方法により不可逆変換する第2不可逆変換クエリを生成してもよい。このようにすることで、情報処理装置1は、変換後のデータIDを変換前のデータIDに復号されるリスクを低減することができる。
【0058】
また、生成部132は、変換後の第1データ群に含まれる第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる第1データと入れ替えることにより変換後の第1データ群を更新するクエリである第1更新クエリを生成してもよい。また、生成部132は、変換後の第2データ群に含まれる第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる第2データと入れ替えることにより変換後の第2データ群を更新するクエリである第2更新クエリを生成してもよい。
【0059】
ここで、第1の割合及び第2の割合は同じであってもよいし、異なっていてもよい。また、第1の割合及び第2の割合は、データが取り得る値の数によって変化させてもよい。例えば、データが取り得る値の数が多い場合には、当該データが入れ替えられる割合を高くするようにしてもよい。
【0060】
また、後述の統合部135により、統合データ群が生成された後、第1データ群及び第2のデータ群のそれぞれに対して新たにレコードが追加され、新たなレコードを追加した統合データ群の生成が要求されることがある。全ての第1データ群と、全ての第2データ群とに対して、ノイズの付与が複数回繰り返されると、同一のデータ群に対応する複数のバリエーションのデータ群が生成される。この場合、複数のバリエーションのデータ群を分析することにより、匿名化が行われる前のデータ群の内容を推測しやすくなり、ユーザの識別性が上がる等のプライバシーリスクが増大するという問題が発生する。これに対し、生成部132は、新たに追加されたレコードのみに対してノイズを付与するノイズ付与クエリを生成してもよい。
【0061】
この場合、第1データ群及び第2データ群には、新たに追加されたレコードを特定するために用いることができる特定用データが含まれている。特定用データは、例えば、日付を示す日付データや、レコードが統合データに含まれているか否かを示すフラグである。そして、生成部132は、第1不可逆変換クエリを再生成する場合、特定用データに基づいて、新たに追加された第1レコードに対してノイズを付与する第1ノイズ付与クエリを生成し、第2不可逆変換クエリを再生成する場合、特定用データに基づいて新たに追加された第2レコードに対してノイズを付与する第2ノイズ付与クエリを生成する。このようにすることで、情報処理装置1は、統合データ群を提供する場合にプライバシーリスクの増大を抑制することができる。
【0062】
送信部133は、生成部132が生成した第1ノイズ付与クエリと第1不可逆変換クエリとを、第1データ群の提供元に対応する第1装置2に送信する。また、送信部133は、生成部132が生成した第2ノイズ付与クエリと第2不可逆変換クエリとを、第2データ群の提供元に対応する第2装置3に送信する。送信部133は、例えば、予め情報処理装置1と第1装置2との間に設けられた第1のクラウドサービスで提供されるインターネットVPN(Virtual private network)を介して、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信する。同様に、送信部133は、例えば、予め情報処理装置1と第2装置3との間に設けられた第2のVPNを介して、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する。
【0063】
また、送信部133は、生成部132により、第1更新クエリと第2更新クエリとが生成された場合には、第1更新クエリを第1装置2に送信するとともに、第2更新クエリを第2装置3に送信する。
【0064】
第1装置2は、情報処理装置1から受信したクエリを実行することにより、第1不可逆変換クエリに基づいてデータIDから変換されたデータ識別情報としての変換後のデータIDと、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群を生成する。第1装置2は、例えば、情報処理装置1から、第1更新クエリを受信した場合には、第1ノイズ付与クエリに基づいて複数の第1データにノイズを付与する前に第1更新クエリを実行する。その後、第1装置2は、例えば第1のVPNを介して、変換後の第1データ群を情報処理装置1に送信する。なお、第1装置2とは異なる装置が、変換後の第1データ群を情報処理装置1に送信してもよい。
【0065】
第2装置3は、情報処理装置1から受信した第2ノイズ付与クエリと第2不可逆変換クエリとを実行することにより、第2不可逆変換クエリに基づいてデータIDから変換されたデータ識別情報としての変換後のデータIDと、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群を生成する。第2装置3は、例えば、情報処理装置1から、第2更新クエリを受信した場合には、第2ノイズ付与クエリに基づいて複数の第2データにノイズを付与する前に第2更新クエリを実行する。その後、第2装置3は、例えば第2のVPNを介して、変換後の第2データ群を情報処理装置1に送信する。なお、第2装置3とは異なる装置が、変換後の第2データ群を情報処理装置1に送信してもよい。
【0066】
データ群取得部134は、変換後の第1データ群と、変換後の第2データ群とを取得する。例えば、データ群取得部134は、第1装置2から送信された変換後の第1データ群を受信し、第2装置3から送信された変換後の第2データ群を受信することにより、変換後の第1データ群と、変換後の第2データ群とを取得する。
【0067】
図4は、変換後の第1データ群と変換後の第2データ群との一例を示す図である。図4において、(A)は変換後の第1データ群を示しており、(B)は変換後の第2データ群を示している。また、図4において、第1データ群と第2データ群とに含まれている同じデータIDが、同じ文字列に変換されていることが確認できる。また、図4において、太枠のセルで囲まれたデータが変換されていることが確認できる。
【0068】
統合部135は、データ群取得部134が取得した変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータID(変換後のデータID)と、データ群取得部134が取得した変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータID(変換後のデータID)とに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する。具体的には、統合部135は、変換後のデータIDをキーとして、第1データ群と第2データ群とを結合することにより、統合データ群を生成する。図5は、統合データ群の一例を示す図である。図5に示すように、第1データ群と第2データ群との双方に含まれている変換後のデータIDに関連付けられている第1データと第2データとが関連付けられていることが確認できる。
【0069】
統合部135は、変換後のデータIDと、変換後の第1データ群と、変換後の第2データ群とを含む統合データ群を生成したが、これに限らない。統合部135は、変換後の第1データ群に含まれる複数の第1レコードそれぞれのデータIDと、変換後の第2データ群に含まれる複数の第2レコードそれぞれのデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合し、データIDを除外して、統合データ群を生成してもよい。このようにすることで、統合データにはデータIDが含まれなくなるので、データIDに基づいて、統合データから、第1レコード及び第2レコードを復元されるリスクを低減することができる。
【0070】
また、統合部135は、生成した統合データ群をさらに加工して統計データを生成してもよい。そして、統合部135は、生成した統計データに対してノイズの付与に用いられる所定の確率を用いてノイズを除去するよう補正を行うようにしてもよい。例えば、統合部135は、統合データを用いて統計値を計算する際に、第1データ群及び第2データ群に付与されたノイズの影響を排除するために、プライバシー強度のパラメータε、ε及びεの値の少なくともいずれかを用いて統計的に統計値を補正する。
【0071】
例えば、統合データに含まれる、ある属性のデータにノイズを付与する際の遷移行列をPとし、遷移行列Pに含まれる要素をpi,jとする。pi,jは、ある属性の値iが値jにランダムに遷移する確率を示しており、例えば、上述した式(2)のxをi、yをjと置き換えた式を用いて決定される。統合部135は、統合データを加工して得られる、ある属性の分布Q=(q,…,qを、遷移行列Pと、以下の式(4)とを用いて分布Q’に補正する。
【0072】
【数4】
【0073】
ここで、ある属性のデータが第1データ群に含まれる場合には、式(2)に含まれるεに対し、第1パラメータε1が適用され、ある属性のデータが第2データ群に含まれる場合には、式(2)に含まれるεに対し、第2パラメータε2が適用されて遷移行列Pが構成される。また、εのみ分かる場合には、式(3)を用いて第1パラメータε1及び第2パラメータεを導出し、同様に遷移行列Pが構成されるものとする。このようにすることで、情報処理装置1は、ノイズが付与される前の第1データ群及び第2データ群に対応する確率が高い統計データを生成することができる。
【0074】
なお、統合部135により統合された統合データ群は、送信部133により、第1装置2及び第2装置3に送信されてもよい。このようにすることで、第1事業者において、第2事業者が収集した第2データに基づいてデータ分析を行うことができるとともに、第2事業者において、第1事業者が収集した第1データに基づいてデータ分析を行うことができる。
【0075】
[動作シーケンス]
続いて、情報処理装置1に係る処理の流れについて説明する。図6は、情報処理装置1が統合データ群を生成するまでの処理の流れを示すシーケンス図である。
【0076】
まず、決定部131は、第1装置2から第1レコードを構成する複数の属性それぞれに対応する項目を示す第1項目情報を取得するとともに(S1)、第2装置3から第2レコードを構成する複数の属性それぞれに対応する項目を示す第2項目情報を取得する(S2)。
【0077】
続いて、決定部131は、取得した第1項目情報と、取得した第2項目情報とに基づいて、データに対応する属性の数を特定する(S3)。具体的には、決定部131は、第1データに対応する属性の個数nと、第2データに対応する属性の個数nとを特定する。そして、決定部131は、特定した属性の個数n、nに基づいて、ノイズが付与された後の複数の属性それぞれの第1データ及び第2データが満たす局所型差分プライバシーにおけるプライバシーの強度を示す第1パラメータε及び第2パラメータεを決定する(S4)。
【0078】
続いて、生成部132は、第1ノイズ付与クエリ、第2ノイズ付与クエリ、第1不可逆変換クエリ及び第2不可逆変換クエリを生成する(S5)。生成部132は、取得した第1項目情報と、決定部131が決定した第1パラメータεとに基づいて、第1ノイズ付与クエリを生成し、取得した第2項目情報と、決定部131が決定した第2パラメータεとに基づいて、第2ノイズ付与クエリを生成する。また、生成部132は、第1データに含まれるデータIDを不可逆変換する第1不可逆変換クエリ、及び、第2データに含まれるデータIDを不可逆変換する第2不可逆変換クエリを生成する。
【0079】
続いて、送信部133は、第1ノイズ付与クエリ及び第1不可逆変換クエリを第1装置2に送信し(S6)、第2ノイズ付与クエリ及び第2不可逆変換クエリを第2装置3に送信する(S7)。
【0080】
第1装置2は、情報処理装置1から受信したクエリを実行することにより変換後の第1データ群を生成する(S8)。第2装置3は、情報処理装置1から受信したクエリを実行することにより変換後の第2データ群を生成する(S9)。第1装置2は、変換後の第1データ群を情報処理装置1に送信し(S10)、第2装置3は、変換後の第2データ群を情報処理装置1に送信する(S11)。データ群取得部134は、第1装置2から送信された変換後の第1データ群を受信し、第2装置3から送信された変換後の第2データ群を受信する。
【0081】
統合部135は、データ群取得部134が受信した変換後の第1データ群に含まれる複数の第1レコードそれぞれの変換後のデータIDと、データ群取得部134が取得した変換後の第2データ群に含まれる複数の第2レコードそれぞれの変換後のデータIDとに基づいて、変換後の第1データ群と変換後の第2データ群とを統合した統合データ群を生成する(S12)。
【0082】
[変形例1]
上述の実施の形態において、情報処理装置1は、第1データ群と第2データ群とに対応して、2つのノイズ付与クエリ及び2つの不可逆変換クエリを生成したが、これに限らない。情報処理装置1は、3つ以上のデータ群に対応して、ノイズ付与クエリ及び不可逆変換クエリを生成してもよい。
【0083】
例えば、データ識別情報としてのデータIDに関連付けられているデータ群がk個(ただし、kは3以上の整数)存在し、第kデータ群に含まれる第kレコードは、n個の属性それぞれに対応する複数の第kデータを含んでいるものとする。
【0084】
この場合、生成部132は、第k生成部として機能し、第kデータ群に含まれる複数の第kデータそれぞれに、k個のデータ群を統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているようにノイズを付与するクエリである第kノイズ付与クエリと、第kデータ群に含まれる複数のデータ識別情報を所定の方法により不可逆変換するクエリである第k不可逆変換クエリとを生成する。そして、生成部132は、n個の属性それぞれの第kデータにノイズが付与された場合に、ノイズが付与されたn個の属性それぞれの第kデータがε-局所型差分プライバシーを満たすようにノイズを付与する第kノイズ付与クエリを生成する。ただし、プライバシーの強度を示すパラメータεはε=ε/(n+n+・・・+n)である。
【0085】
また、生成部132は、第kデータ群に含まれる複数のユーザを所定の方法により不可逆変換するクエリである第k不可逆変換クエリを生成する。送信部133は、生成された第kノイズ付与クエリと、第k不可逆変換クエリとを第k装置に送信する。
【0086】
データ群取得部134は、第k装置から、変換後の第kデータ群を取得し、統合部135は、データ群取得部134が取得した変換後の第kデータ群に含まれる複数の第kレコードそれぞれのデータ識別情報に基づいて、k個のデータ群を結合することにより、統合データ群を生成する。このようにすることで、情報処理装置1は、データ群が3つ以上存在する場合にも、ε-局所型差分プライバシーを満たす統合データを生成することができる。
【0087】
[変形例2]
上述の実施の形態では、生成部132が、変換後の第1データ群に含まれる第1レコードに含まれる第1データを、他の第1レコードに含まれる第1データと入れ替える第1更新クエリと、変換後の第2データ群に含まれる第2レコードに含まれる第2データを、他の第2レコードに含まれる第2データと入れ替える第2更新クエリとを生成し、第1装置2が第1更新クエリを実行し、第2装置3が第2更新クエリを実行したが、これに限らない。情報処理装置1が、データの入れ替えを実行してもよい。
【0088】
この場合、制御部13は、統合データ群に含まれるレコードに含まれるデータを、第3の割合で他のレコードに含まれるデータと入れ替えることにより統合データ群を更新する更新部を有する。例えば、更新部は、統合データ群に含まれるレコードに含まれる複数の項目それぞれに対応するデータのうちの一部のデータを、第3の割合で他のレコードに含まれている、当該一部のデータと同じ項目のデータと入れ替えることにより、統合データ群を更新する。
【0089】
また、更新部は、データ群取得部134が取得した変換後の第1データ群に含まれる第1レコードに含まれる第1データを、第1の割合で他の第1レコードに含まれる第1データと入れ替えることにより変換後の第1データ群を更新するとともに、データ群取得部134が取得した変換後の第2データ群に含まれる第2レコードに含まれる第2データを、第2の割合で他の第2レコードに含まれる第2データと入れ替えることにより変換後の第2データ群を更新してもよい。例えば、更新部は、生成部132により生成された第1更新クエリ及び第2更新クエリを実行することにより、変換後の第1データ群及び変換後の第2データ群を更新する。そして、統合部135が、更新された第1データ群と、更新された第2データ群とを統合することにより統合データを生成する。このようにすることで、情報処理装置1は、第1装置2及び第2装置3におけるデータ群の変換に係る負荷を軽減することができる。
【0090】
[情報処理装置1による効果]
以上説明したように、本実施の形態に係る情報処理装置1は、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているように第1データ群にノイズを付与する第1ノイズ付与クエリと、第2データ群にノイズを付与する第2ノイズ付与クエリと、第1データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第1不可逆変換クエリと、第2データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第2不可逆変換クエリとを生成し、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信し、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する。そして、情報処理装置1は、第1不可逆変換クエリに基づいて変換されたデータ識別情報と、第1ノイズ付与クエリに基づいてノイズが付与された複数の第1データとを関連付けた複数の第1レコードを含む変換後の第1データ群と、第2不可逆変換クエリに基づいて変換されたデータ識別情報と、第2ノイズ付与クエリに基づいてノイズが付与された複数の第2データとを関連付けた複数の第2レコードを含む変換後の第2データ群とを取得し、これらのデータ群に含まれるデータ識別情報に基づいて、これらのデータ群を統合し、前記データ識別情報を除外して、統合データ群を生成する。このようにすることで、情報処理装置1は、ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しないようにすることができる。
【0091】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0092】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0093】
1 情報処理装置
2 第1装置
3 第2装置
11 通信部
12 記憶部
13 制御部
131 決定部
132 生成部
133 送信部
134 データ群取得部
135 統合部
S 情報処理システム
【要約】      (修正有)
【課題】ユーザ情報を収集する過程で、匿名化処理が行われていないユーザ情報が流出しない情報処理装置及び情報処理方法を提供する。
【解決手段】情報処理装置1は、第1データ群と第2データ群とを統合して統合データ群とした場合における、統合データ群に含まれる複数のデータに対して所定の確率でノイズが付与されているように第1データ群にノイズを付与する第1ノイズ付与クエリと、第2データ群にノイズを付与する第2ノイズ付与クエリと、第1データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第1不可逆変換クエリと、第2データ群に含まれる複数のデータ識別情報を不可逆変換するクエリである第2不可逆変換クエリとを生成する生成部132と、第1ノイズ付与クエリと第1不可逆変換クエリとを第1装置2に送信し、第2ノイズ付与クエリと第2不可逆変換クエリとを第2装置3に送信する送信部133と、を有する。
【選択図】図2
図1
図2
図3
図4
図5
図6