特許7374796 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 新日鉄住金ソリューションズ株式会社の特許一覧

特許7374796情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-27

(45)【発行日】2023-11-07

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06F 21/62 20130101AFI20231030BHJP

【ＦＩ】

G06F21/62 354

【請求項の数】 12

(21)【出願番号】P 2020019980

(22)【出願日】2020-02-07

(65)【公開番号】P2021125129

(43)【公開日】2021-08-30

【審査請求日】2023-01-27

(73)【特許権者】

【識別番号】000191076

【氏名又は名称】日鉄ソリューションズ株式会社

(74)【代理人】

【識別番号】110000660

【氏名又は名称】ＫｎｏｗｌｅｄｇｅＰａｒｔｎｅｒｓ弁理士法人

(72)【発明者】

【氏名】中川拓麻

(72)【発明者】

【氏名】波多野卓磨

(72)【発明者】

【氏名】大坪正典

【審査官】宮司卓佳

(56)【参考文献】

【文献】国際公開第２０１３／０８８６８１（ＷＯ，Ａ１）

【文献】特開２０１６－１４８９９３（ＪＰ，Ａ）

【文献】特開２０１８－１５６４２７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／３２２３０９（ＵＳ，Ａ１）

【文献】特開２０１６－１１０３９９（ＪＰ，Ａ）

【文献】米国特許出願公開第２００３／２０８４５７（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／６２

(57)【特許請求の範囲】

【請求項1】

マスタデータに対応付けられた履歴データをｋ-匿名化する情報処理装置であって、
マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成部と、
２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替部と、
前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工部と、
前記加工による有用性損失を評価する評価部と、
前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定部と、
前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定部と
を備えた情報処理装置。

【請求項2】

前記グループ作成部は、前記マスタレコードに対応付けられた前記履歴レコードの予め定められた属性に基づいて、前記グループ化を行う、請求項１に記載の情報処理装置。

【請求項3】

前記グループ作成部は、前記マスタレコードに対応付けられた前記履歴レコードの数に基づいて、前記マスタレコードのグループ化を行う、請求項２に記載の情報処理装置。

【請求項4】

前記マスタレコードを予め定められた属性順にソートするソート部をさらに備え、
前記グループ作成部は、ソート順に前記マスタレコードをグループ化することで複数のグループのグループ配列を作成し、
前記入替部は、前記グループ配列において隣接する２つのグループ間において、前記マスタレコードの入れ替えを行う、請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項5】

前記入替部は、前記グループ配列から前記隣接する２つのグループをランダムに選択し、選択した２つのグループ間で、前記マスタレコードの入れ替えを行う、請求項４に記載の情報処理装置。

【請求項6】

前記マスタレコードを予め定められた属性順にソートするソート部をさらに備え、
前記グループ作成部は、ソート順に前記マスタレコードをグループ化することで複数のグループのグループ配列を作成し、
前記入替部は、前記グループ配列から、より近いグループほど選択率が高くなるように調整された確率に従い２つのグループを選択し、選択した２つのグループ間で、前記マスタレコードの入れ替えを行う、請求項１乃至３の何れか１項に記載の情報処理装置。

【請求項7】

前記許否決定部は、前記入れ替え後に、前記入れ替え前に比べて前記有用性損失の程度が小さくなった場合には、前記入れ替えを許可し、前記入れ替え後に、前記入れ替え前に比べて前記有用性損失の程度が大きくなった場合には、所定の確率に従い、前記入れ替えの許否を決定し、
前記入替部は、前記入れ替えが許可された場合には、さらに前記入れ替えを行い、前記入れ替えが許可されなかった場合には、前記入れ替え前の状態に戻した上で、前回の入れ替えと異なる入れ替えを行う、請求項１乃至６の何れか１項に記載の情報処理装置。

【請求項8】

前記加工部は、前記グループ内に３以上のマスタレコードが含まれる場合に、前記３以上のマスタレコードのうち２つのマスタレコードそれぞれに対応付けられた前記履歴レコードに対し匿名化のための前記加工を行い、さらに前記加工後の前記履歴レコードと、前記２つのマスタレコードと異なるマスタレコードに対応付けられた前記履歴レコードとに対し匿名化のための前記加工を行う処理を繰り返すことで、前記グループに含まれる前記３以上のマスタレコードそれぞれに対応付けられた前記履歴レコードに対し匿名化のための加工を行う、請求項１乃至７の何れか１項に記載の情報処理装置。

【請求項9】

前記加工部は、前記３以上のマスタレコードに対応付けられた前記履歴レコードの数に基づいて、前記履歴レコードに対し匿名化のための前記加工を行う処理の順序を決定し、決定した順序で前記加工を行う処理を繰り返す、請求項８に記載の情報処理装置。

【請求項10】

前記加工部は、ハンガリアン法に基づいて、前記２つのマスタレコードそれぞれに対応付けられた前記履歴レコードの加工を行う請求項８又は９に記載の情報処理装置。

【請求項11】

マスタデータに対応付けられた履歴データをｋ-匿名化する情報処理装置が実行する情報処理方法であって、
マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成ステップと、
２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替ステップと、
前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工ステップと、
前記加工による有用性損失を評価する評価ステップと、
前記入れ替えの前後における前記評価ステップにおける評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定ステップと、
前記入れ替えの前後における前記評価ステップにおける評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定ステップと
を含む情報処理方法。

【請求項12】

マスタデータに対応付けられた履歴データをｋ-匿名化するコンピュータを、
マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成部と、
２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替部と、
前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工部と、
前記加工による有用性損失を評価する評価部と、
前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定部と、
前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定部と
して機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及びプログラム

【背景技術】

【0002】

複数のレコードを、同じ属性値を持つデータがｋ件以上存在するように変換することで匿名化を行うｋ－匿名化という手法が知られている。ＥＣ（ｅｌｅｃｔｒｏｎｉｃｃｏｍｍｅｒｃｅ）サイト等では、図７に示すように、店舗情報や顧客情報が記録されたマスタデータ７１０と、購入履歴情報が記録されたトランザクションデータ７２０とが分けてデータ管理されることが多い。マスタデータにおいては、１ユーザのデータは１レコードに記録されるため、クラスタリングが比較的容易である。一方で、トランザクションデータにおいては、１ユーザに対し、複数のレコードが紐づいており、クラスタリングが困難である。しかしながら、マスタデータについて匿名化を行ったとしても、トランザクションデータから購入者を特定される可能性が残るため、トランザクションデータについても匿名化することが求められている。

【0003】

マスタデータについては、例えば、特許文献１に、ｋ－匿名化のために互いに類似性の高い多変量データを同一のクラスターに分類し、同一のクラスターに属するサンプルを代表サンプルに集約する技術が開示されている。また、トランザクションデータの匿名化の技術としては、非特許文献１が挙げられる。非特許文献１には、一属性のみの履歴データに対し、ｋ－匿名化を緩和した基準であるｋ^ｍ－匿名性に基づいて匿名化を行う技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１３－２３９１１８号公報

【非特許文献】

【0005】

【文献】Poulis, Giorgos, et al. "Apriori-based algorithms for km-anonymizing trajectory data" Transactions on Data Privacy 7(2), 2014.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、非特許文献１の技術においては、単一属性しかもたない履歴データが対象であり、データ形式が単純なものにしか適用できないという問題があった。また、非特許文献１の技術は、ｋ－匿名化の条件を緩和した安全性基準に基づくものであり、厳密なｋ-匿名化を行うことができないという問題があった。

【0007】

本発明は、このような問題点に鑑みなされたもので、複数の属性を有する履歴データに対し、ｋ－匿名化を行う技術を提供することを目的とする。

【課題を解決するための手段】

【0008】

上記の目的を達成するため、本発明の情報処理装置は、マスタデータに対応付けられた履歴データをｋ-匿名化する情報処理装置であって、マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成部と、２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替部と、前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工部と、前記加工による有用性損失を評価する評価部と、前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定部と、前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定部とを備えた。

【0009】

また、本発明の他の形態は、マスタデータに対応付けられた履歴データをｋ-匿名化する情報処理装置が実行する情報処理方法であって、マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成ステップと、２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替ステップと、前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工ステップと、前記加工による有用性損失を評価する評価ステップと、前記入れ替えの前後における前記評価ステップにおける評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定ステップと、前記入れ替えの前後における前記評価ステップにおける評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定ステップとを含む。

【0010】

また、本発明の他の形態は、マスタデータに対応付けられた履歴データをｋ-匿名化するコンピュータを、マスタデータのｋ個以上のマスタレコードをグループ化することで、複数のグループを作成するグループ作成部と、２以上のグループそれぞれに含まれる前記マスタレコードを入れ替える入替部と、前記マスタレコードそれぞれに対応付けられた、前記履歴データの履歴レコードに対し、前記マスタレコードが含まれるグループ内における匿名化のための加工を行い、さらに、前記入れ替えが行われた場合に、前記入れ替えが行われたグループの前記マスタレコードに対応付けられた前記履歴レコードに対し、前記加工を行う加工部と、前記加工による有用性損失を評価する評価部と、前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、前記入れ替えの許否を決定する許否決定部と、前記入れ替えの前後における前記評価部による評価結果の変化に基づいて、ｋ－匿名化におけるグループ分けを決定するグループ決定部として機能させるためのプログラムである。

【発明の効果】

【0011】

本発明によれば、複数の属性を有する履歴データに対し、ｋ－匿名化を行うことができる。

【図面の簡単な説明】

【0012】

【図1】情報処理装置の構成を示すブロック図である。

【図2】マスタデータ及びトランザクションデータの一例を示す図である。

【図3】情報処理を示すフローチャートである。

【図4】グループ作成処理及び入れ替え処理の説明図である。

【図5】加工処理の説明図である。

【図6】加工結果の一例を示す図である。

【図7】従来技術の説明図である。

【発明を実施するための形態】

【0013】

ここでは、下記の順序に従って本発明の実施の形態について説明する。
（１）情報処理装置の構成：
（２）情報処理：
（３）付記：

【0014】

（１）情報処理装置の構成：
図１は、情報処理装置１０の全体構成図である。情報処理装置１０は、ＣＰＵ、ＲＡＭ、ＲＯＭ等を備える制御部１２０と、記録媒体１３０と、表示部１４０とを備えている。制御部１２０は、記録媒体１３０やＲＯＭに記憶された種々のプログラムを実行することにより、情報処理装置１０の全体を制御する。記録媒体１３０は、各種データやプログラムを記憶している。表示部１４０は、各種データを表示する。

【0015】

記録媒体１３０には、マスタデータ１３１と、トランザクションデータ１３２と、が記憶されている。図２は、マスタデータ１３１及びトランザクションデータ１３２のデータ構成の一例を示す図である。マスタデータ１３１は、複数のレコードを含む。各レコードは、１人の顧客に対応した顧客情報である。顧客情報は、顧客ＩＤ、顧客の性別、住所などを含む。顧客ＩＤは、顧客の識別情報である。すなわち、顧客ＩＤは、マスタデータの識別情報である。なお、マスタデータには、これ以外にも年齢など顧客に関する他の情報が含まれてもよい。以下、マスタデータ１３１のレコードをマスタレコードと称する。

【0016】

トランザクションデータ１３２は、各顧客の購入履歴を示す履歴データである。トランザクションデータ１３２は、複数のレコードを含む。各レコードは、１回の購入情報に相当する。購入情報は、顧客ＩＤと、購入された商品と、数量とを含む。このように、トランザクションデータ１３２には、複数の属性に係る情報が含まれている。なお、購入情報は、さらに購入店、購入時間など、他の属性に係る情報を含んでもよい。以下、トランザクションデータ１３２に含まれるレコードを履歴レコードと称する。

【0017】

制御部１２０は、マスタデータに対応付けられたトランザクションデータに対し、ｋ－匿名化を行う。トランザクションデータにおいては、１人の顧客に対する複数のレコードが存在し、また１人の顧客に対応付けられたレコードの数は一律ではない。制御部１２０は、このようなトランザクションデータに対するｋ－匿名化を行う。さらに、制御部１２０は、焼きなまし法を用いて、ｋ－匿名化のためのｋ人以上のグループを決定する。焼きなまし法とは、複雑な最適化問題について、大域的最適解に近い解を探索するための汎用的な乱択アルゴリズムである。本実施形態においては、焼きなまし法において、以下のように各要素を定義する。

状態：顧客のグループ分け
状態の更新方法：隣り合うグループ間の顧客の入れ替え
状態の評価方法：履歴レコードの加工による有用性損失

【0018】

制御部１２０は、以下に示す手順により、グループ分けを行う。

１）初期状態からスタートする。
２）状態の有用性損失スコアを求める。
３）状態の更新を行い、再度有用性損失コアを求める。
４）有用性損失スコアが改善していれば更新を許可し、有用性損失スコアが改善していない場合には、確率に従い更新の許否を決定する。

【0019】

制御部１２０は、このような処理を実現するための機能構成として、図１に示すように、ソート部１２１、グループ作成部１２２、入替部１２３、加工部１２４、評価部１２５、許否決定部１２６、グループ決定部１２７及び出力処理部１２８を備えている。ソート部１２１、グループ作成部１２２、入替部１２３、加工部１２４、評価部１２５、許否決定部１２６、グループ決定部１２７及び出力処理部１２８は、ＣＰＵが情報処理プログラムを実行することにより実現される。以下、各機能構成の概略を説明する。

【0020】

制御部１２０は、ソート部１２１の機能により、マスタデータ１３１のマスタレコードをソートする。制御部１２０は、グループ作成部１２２の機能により、顧客ＩＤをグループ化することで、複数のグループを作成する。具体的には、制御部１２０は、ソート部１２１の機能により配列された顧客ＩＤの先頭から順にｋ個以上の顧客ＩＤを１つのグループとするグループ配列を作成する。なお、ｋの値は、管理者等により決定され、ＲＯＭや記録媒体１３０等に予め記憶されているものとする。ここで作成されたグループ配列が焼きなまし法における初期状態となる。制御部１２０は、入替部１２３の機能により、グループ間における顧客ＩＤの入れ替えを行う。本処理は、状態の更新に対応する。

【0021】

制御部１２０は、加工部１２４の機能により、同一グループに含まれる複数の顧客ＩＤに対応付けられた履歴レコード群が同一となるような、匿名化のための加工を行う。ここで、履歴レコード群とは、同一の顧客ＩＤを含む履歴レコードの集合である。すなわち、履歴レコード群には、顧客ＩＤが等しい、１又は２以上の履歴レコードが含まれる。例えば、図２に示すトランザクションデータにおいては、顧客ＩＤ１０１を含む履歴レコードが４つ存在する。したがって、顧客ＩＤ１０１の履歴レコード群には、顧客ＩＤ１０１を含む４つの履歴レコードが含まれる。

【0022】

制御部１２０は、評価部１２５の機能により、加工後のグループの有用性損失スコアを求める。有用性損失スコアとは、履歴データ群の加工により失われた有用性の評価値、すなわち有用性損失の評価値である。すなわち、損失の程度が大きいほど、有用性損失スコアは大きくなる。制御部１２０は、許否決定部１２６の機能により、有用性損失スコアに基づいて、顧客ＩＤの入れ替えの許否を決定する。制御部１２０は、グループ決定部１２７の機能により、有用性損失スコアに基づいて、ｋ－匿名化に用いる顧客ＩＤのグループ分けを決定する。制御部１２０は、出力処理部１２８の機能により、グループ決定部１２７により得られたｋ－匿名化における加工結果を表示部１４０に表示するよう制御する。

【0023】

（２）情報処理：
次に、制御部１２０により実行される情報処理を説明する。図３は、情報処理を示すフローチャートである。制御部１２０は、まずソート部１２１の機能により、トランザクションデータ１３２に含まれる複数の顧客ＩＤを、各顧客ＩＤに対応付けられている履歴レコードのレコード数が昇順になるようにソートする（Ｓ１００）。これにより、図２に示すトランザクションデータ１３２から、図４の上段に示すような顧客ＩＤの配列２００が得られる。配列２００においては、対応付けられている履歴レコードの数が１つのマスタデータの顧客ＩＤ、対応する履歴レコード数が１つの顧客ＩＤ、履歴レコードのレコード数が２つの顧客ＩＤ、…というようにレコード数順に顧客ＩＤが配列されている。本処理は、マスタレコードをマスタレコードに対応付けられた履歴レコードの数に従いソートする処理の一例である。

【0024】

次に、制御部１２０は、グループ作成部１２２の機能により、グループ化を行う（Ｓ１０２）。具体的には、制御部１２０は、ソート後の顧客ＩＤの配列において、先頭から順にｋ個の顧客ＩＤをグループ化することで複数のグループを含んだグループ配列を得る。例えば、ｋ＝３が指定されている場合には、３つの顧客ＩＤを１つのグループとした複数のグループを含んだグループ配列が作成される。例えば、図４の上段に示す顧客ＩＤの配列２００からは、図４の中段に示すように、３つの顧客ＩＤを１つのグループとするグループ配列２１０が得られる。このように、制御部１２０は、レコード数順にソートした上で、顧客ＩＤを先頭から順にグループ化するので、履歴レコードの数に基づいたマスタレコードのグループ化を行うことができる。本処理は、マスタレコードをグループ化することで複数のグループを作成する処理の一例である。

【0025】

図３に戻り、Ｓ１０２の処理の後、制御部１２０は、加工部１２４の機能により、各グループに含まれる顧客ＩＤに対応した履歴レコード群が同一となるように、加工処理を行う（Ｓ１０４）。ここで、加工処理について説明する。加工処理とは、ｋ人のレコードを同一レコードとすることでｋ人を識別できないようにする、すなわち匿名化する処理である。ｋ＝２の場合には、ハンガリアン法により最適なレコードの組み合わせを求めることができる。しかしながら、ｋが３以上の場合には、適切な加工方法がない。そこで、本実施形態においては、制御部１２０はまず、グループ内の顧客ＩＤのうちレコード数の小さい方から２つの顧客ＩＤそれぞれに対応付けられている２つの履歴レコード群を処理対象として選択する。そして、制御部１２０は、この２つの履歴レコード群に対してハンガリアン法による最適マッチングを行う。ここで、マッチングとは、２つの履歴レコード群に対して、その要素間の１対１の対応を定めることである。制御部１２０は、さらに、マッチングの結果対応付けられた履歴レコード同士がそれぞれ区別できなくなるように履歴レコードの加工を行う。このとき、制御部１２０は、履歴レコード群を加工したことによる、データの有用性損失の程度が最小になるような加工を行う。

【0026】

制御部１２０は、さらに、マッチング後の履歴レコード群と、ソート順において次の顧客ＩＤに対応付けられている履歴レコード群と、を処理対象として選択し、２つの履歴レコード群に対してハンガリアン法による最適マッチングを行う。ｋ＝３においては、以上で１つのグループに対する処理が終了する。制御部１２０は、ｋ＝４以上の場合には、以上の処理を、グループ内に含まれるすべての顧客ＩＤに対応する履歴レコード群に対して行うまで繰り返すことで、すべての顧客ＩＤに対応する履歴レコード群の加工を行う。制御部１２０は、以上の処理を、グループ配列に含まれるすべてのグループにおいて行う。

【0027】

図５は、加工処理の説明図である。図５を参照しつつ、顧客１０１、顧客１０３及び顧客１０６のグループを例に、加工処理を具体的に説明する。制御部１２０は、まずレコード数の小さい順に２つのマスタレコード、すなわち顧客ＩＤ１０１及び顧客ＩＤ１０３のマスタレコードに対応付けられた履歴レコード群を処理対象として選択する。そして、制御部１２０は、これら２つの履歴レコード群を加工する。図５の上段は、各顧客ＩＤに対応した履歴レコード群を示している。図５の上段の履歴レコード群は、加工前のものである。図５の中段は、顧客ＩＤ１０１と顧客ＩＤ１０３に対応付けられた履歴レコード群に対する加工が行われた後の履歴レコード群を示している。

【0028】

図５の中段に示すように、顧客ＩＤ１０１の「商品Ａ、数量３」の履歴レコードと、顧客ＩＤ１０３の「商品Ａ、数量４」の履歴レコードは、「商品Ａ、数量［３，４］」のレコードに統合されている。ここで、［ｘ１，ｘ２］は、ｘ１からｘ２の範囲であることを示す。また、顧客ＩＤ１０１の「商品Ｂ，数量５」の履歴レコードと、顧客ＩＤ１０３の「商品Ｂ，数量８」の履歴レコードは、「商品Ｂ，数量［５，８］」のレコードに統合されている。また、顧客ＩＤ１０１の「商品Ｄ，数量６」の履歴レコードと、顧客ＩＤ１０３の「商品Ｃ，数量６」の履歴レコードは、「商品｛Ｃ，Ｄ｝，数量６」のレコードに統合されている。ここで、｛ｙ，ｚ｝は、ｙ又はｚであることを示す。そして、顧客ＩＤ１０３の「商品Ｅ，数量１２」の履歴レコードは削除されている。なお、いずれの履歴レコードを統合し、いずれの履歴レコードを削除するかはハンガリアン法により決定される。ハンガリアン法については後述する。

【0029】

続いて、制御部１２０は、顧客ＩＤ１０３のマスタレコードに対応付けられた、加工後の履歴レコード群と、顧客ＩＤ１０６のマスタレコードに対応付けられた履歴レコード群を処理対象として選択する。そして、制御部１２０は、これら２つの履歴レコード群を加工する。図５の下段は、顧客ＩＤ１０３と顧客ＩＤ１０６に対応付けられた履歴レコード群に対する加工が行われた後の履歴レコード群を示している。

【0030】

図５の下段に示すように、顧客ＩＤ１０３の「商品Ａ，数量［３，４］」の履歴レコードと顧客ＩＤ１０６の「商品Ａ，数量５」の履歴レコードは、「商品Ａ，数量［３，５］」のレコードに統合されている。これに対応し、顧客ＩＤ１０１の「商品Ａ，数量［３，４］」の履歴レコードも「商品Ａ，数量［３，５］」のレコードに統合されている。顧客ＩＤ１０６の「商品Ｂ，数量７」の履歴レコードは、「商品Ｂ，数量［５，８］」のレコードに統合されている。また、顧客ＩＤ１０３の「商品｛Ｃ，Ｄ｝，数量６」の履歴レコードと、顧客ＩＤ１０６の「商品Ｃ，数量３」の履歴レコードは、「商品｛Ｃ，Ｄ｝，数量［３，６］」のレコードに統合されている。これに対応し、顧客ＩＤ１０１の「商品｛Ｃ，Ｄ｝，数量６」の履歴レコードも、「商品｛Ｃ，Ｄ｝，数量［３，６］」のレコードに統合されている。そして、顧客ＩＤ１０６の「商品Ｄ，数量１２」の履歴レコードは削除されている。このように、各グループに含まれる顧客ＩＤに対応した履歴レコードを加工することにより、加工後の履歴データがｋ－匿名性を満たすようになるため、出力データのセキュリティを向上させることができる。

【0031】

なお、本実施形態においては、制御部１２０は、加工として商品及び数量の一般化、レコードの削除の２つの処理のみを行うものとした。ただし、他の例としては、制御部１２０は、複数のレコードの値を代表値に置き換えるといった値の置き換えや、ダミーレコードの追加といった加工を行ってもよい。

【0032】

次に、ハンガリアン法について説明する。ハンガリアン法においては、顧客のペアに対してコスト行列を求める。コスト行列のｉ行ｊ列には、顧客ｘのｉ番目のレコードと、顧客ｙのｊ番目のレコードを加工したときの有用性損失の評価値が入る。ここで、有用性損失の評価値とは、加工による、レコードの有用性の損失の程度を示す指標値である。例えば、商品名が「Ａ」から「Ａ又はＢ」に加工された場合には、レコードの有用性は低くなる。同様に、商品数が「５」から「５～７の間」に加工された場合には、レコードの有用性は低くなる。さらに、商品数が「５」から「５～１０の間」に加工された場合には、「５～７の間」に加工された場合に比べて有用性は低くなる。評価値は、このように、レコードの情報が抽象化される程度が大きいほど大きい値になるような指標値である。

【0033】

こうして作成されたコスト行列に対し、以下の処理を行う。
１）各行の各要素からその行の最小値を引き、各列の各要素からその列の最小値を引く。
２）０を各行各列から１つずつ選ぶことができれば、その組み合わせが最適マッチングである。選ぶことができなければ、ステップ３）へ進む。
３）すべての０をできるだけ少ない数の縦または横の線で覆う。
４）線で消されていないすべての要素から、それらの最小値を引き、線が重なっている要素に加える。ステップ２）へ戻る。
なお、ハンガリアン法によって最適なマッチングが得られることの証明については、以下の文献を参照することができる。
Korte, Bernhard, et al. Combinatiorial optimization. Vol.2. Heidelberg： Springer, 2012.

【0034】

以上のように、加工処理においては、レコード数を合わせるために履歴レコードが削除される。このため、加工におけるデータの有用性の損失を小さくするには、ハンガリアン法を適用する２つの履歴レコード群に含まれる履歴レコードの数をできるだけ近い値にすることが望ましい。そこで、本実施形態においては、制御部１２０は、上述のように、レコード数順に顧客ＩＤをソートした上で、隣接する顧客ＩＤの履歴レコード群に対しハンガリアン法を適用することとした。これにより加工による履歴データ群の有用性損失を小さくすることができる。また、履歴レコードの削除により、外れ値となるような履歴レコードを早い段階で削除することができるため、外れ値となるような履歴レコードに起因して、有用性が無駄に失われるのを防ぐことができる。

【0035】

図３に戻り、Ｓ１０４の処理の後、制御部１２０は、評価部１２５の機能により、有用性評価を行う（Ｓ１０６）。すなわち、制御部１２０は、Ｓ１０４における加工処理による有用性損失スコアを求める。ここで、有用性損失スコアとは、加工により失われたデータの有用性の指標値であり、損失の程度が大きいほど、有用性損失スコアは大きくなる。制御部１２０は、グループ配列に含まれる各グループについて有用性損失スコアを求める。

【0036】

なお、制御部１２０は、予め定められたルールに従い、履歴レコードの有用性損失スコアを求める。例えば、商品の情報に関しては、１つの商品が何個の商品に一般化されるかに応じて有用性損失スコアが算出されるようなルールが予め定められているものとする。より具体的には、一般化後の商品数が大きいほど有用性損失スコアが大きくなるようなルールが予め定められているものとする。また、数量の情報に関しては、一般化後の数量の幅が大きいほど有用性損失スコアが大きくなるようなルールが予め定められているものとする。このように、履歴レコードの属性毎に一般化（抽象化）の程度が大きくなるほど有用性損失スコアが大きくなるようなルールが定められている。制御部１２０は、このようなルールに従い、加工後のグループに含まれる各顧客ＩＤに対応付けられた履歴レコードについて、有用性損失スコアを求める。

【0037】

次に、制御部１２０は、入替部１２３の機能により、顧客ＩＤの入れ替えを行う（Ｓ１０８）。すなわち、制御部１２０は、グループ配列において隣接する２つのグループをランダムに選択する。そして、制御部１２０は、選択した２つのグループそれぞれからランダムに顧客ＩＤを１つ選択し、これらを入れ替える。例えば、図４の中段に示すグループ配列において、顧客ＩＤ「１０８，１１０，１１１」のグループと、顧客ＩＤ「１１５，１１９，１２２」のグループが選択され、各グループから顧客ＩＤ１１０と顧客ＩＤ１１５が選択される。そして、これらの顧客ＩＤの入れ替えが行われる。これにより、図４の下段に示すように、顧客ＩＤ「１０８，１１０，１１１」及び顧客ＩＤ「１１５，１１９，１２２」の２つのグループはそれぞれ顧客ＩＤ「１０８，１１５，１１１」及び顧客ＩＤ「１１０，１１９，１２２」に変更される。

【0038】

このように、入れ替えの対象を隣接するグループに限定することにより、入れ替え対象の顧客ＩＤに対応した履歴レコードのレコード数の差が大きくなり、レコード数の差に起因して有用性損失が大きくなるのを防ぐことができる。一方で、グループの選択、及びグループ内での顧客ＩＤの選択をランダムに行うことにより、最適なグループに到達しやすくなる。

【0039】

図３に戻り、Ｓ１０８の処理の後、制御部１２０は、加工部１２４の機能により、Ｓ１０６における入れ替え後のグループを対象として加工処理を行う（Ｓ１１０）。Ｓ１１０における加工処理は、Ｓ１０４における加工処理と同様である。次に、制御部１２０は、評価部１２５の機能により、Ｓ１１０において加工処理が行われたグループを対象として、有用性損失スコアを求める（Ｓ１１２）。Ｓ１１２における有用性損失スコアを算出する処理は、Ｓ１０６において有用性損失スコアを算出する処理と同様である。

【0040】

次に、制御部１２０は、許否決定部１２６の機能により、Ｓ１０８における顧客ＩＤの入れ替えの許否を決定する（Ｓ１１４）。すなわち、制御部１２０は、Ｓ１０８における入れ替えの前後における入れ替え対象のグループにおける有用性損失スコアを比較する。例えば、図４の中段及び下段に示すように、顧客ＩＤ「１０８，１１０，１１１」及び顧客ＩＤ「１１５，１１９，１２２」の２つのグループがそれぞれ顧客ＩＤ「１０８，１１５，１１１」及び顧客ＩＤ「１１０，１１９，１２２」のグループに変更されたとする。この場合には、入れ替え後の「１０８，１１５，１１１」及び「１１０，１１９，１２２」の２つのグループの有用性損失スコアの合計と、入れ替え前の「１０８，１１０，１１１」及び「１１５，１１９，１２２」の２つのグループの有用性損失スコアの合計とが比較される。

【0041】

そして、制御部１２０は、入れ替え後に有用性損失スコアが小さくなった場合、すなわち有用性が高くなった場合には入れ替えを許可する。一方で、制御部１２０は、入れ替え後に有用性損失スコアが高くなった場合、すなわち有用性が低下した場合には、予め定められた許可確率に従い入れ替えを許可するか否かを決定する。

【0042】

制御部１２０は、（式１）に示す許可の確率Ａに従って、入れ替えの許否を決定する。

Ａ＝ｅｘｐ（－ΔＥ／Ｔ） …（式１）

ここで、Ｔは温度を表すパラメータであり、入れ替えの回数（入替回数）が小さい間は大きい値をとり、入替回数の増加に従い徐々に小さくなる。また、ΔＥは、有用性損失スコアの増加量、すなわち悪化の程度を示す。（式１）の確率Ａに基づいて許否が決定されるので、有用性損失スコアの増加の程度が大きいほど、また入替回数が大きくなるほど入れ替えが許可される可能性が小さくなる。このように、制御部１２０は、有用性が低下した場合には、一律に入れ替えを許可しないのではなく、一定の確率で許可する。したがって、顧客ＩＤの入れ替えの結果が局所最適解に陥るのを防ぐことができる。

【0043】

制御部１２０は、入れ替えを許可しないと決定した場合には（Ｓ１１４でＮ）、顧客ＩＤを入れ替え前の状態に戻す（Ｓ１１６）。入替を許可すると決定した場合（Ｓ１１４でＹ）、及びＳ１１６の処理が行われた後、制御部１２０は、グループ決定部１２７の機能により、Ｓ１０８において行われた入れ替えの回数（入替回数）と閾値を比較する（Ｓ１１８）。ここで、閾値は予め設定されているものとする。制御部１２０は、入替回数が閾値以下の場合には（Ｓ１１８でＮ）、処理をＳ１０８へ進め、再び顧客ＩＤの入れ替えを行う。このように、制御部１２０は、予め定められた閾値に達するまで入れ替えを行い、入れ替えが行われる度に、加工処理を行い、有用性評価を行う。

【0044】

制御部１２０は、入替回数が閾値以上の場合には（Ｓ１１８でＹ）、グループ決定部１２７の機能により、最適に近いグループを決定し、このグループにおける加工結果を取得する。具体的には、制御部１２０は、入れ替えにより得られた複数のグループ配列それぞれの有用性損失スコアを参照し、最も有用性損失スコアの低いグループ配列に含まれる複数のグループを最適に近いグループ分けの結果として決定する。なお、制御部１２０は、各グループ配列に含まれる複数のグループそれぞれの有用性損失スコアの合計を、そのグループ配列の有用性損失スコアとして求めるものとする。そして、制御部１２０は、このグループ配列に対する加工結果をｋ－匿名化の結果として取得する。

【0045】

図６は、加工結果を示す図である。図６の左に示すトランザクションデータ１３２から図６の右に示すような加工データ３００が得られる。なお、加工データ３００においては、顧客ＩＤも変更されている。ただし、顧客ＩＤの変更に際し、顧客の同一性は保たれているものとする。図３に戻り、Ｓ１２０の処理の後、制御部１２０は、出力処理部１２８の機能により、Ｓ１２０において得られた加工データ（加工結果）を表示部１４０に表示させる（Ｓ１２２）。以上で、情報処理が終了する。なお、出力処理部１２８は、外部機器に加工データを出力すればよく、出力先は実施形態に限定されるものではない。他の例としては、出力処理部１２８は、加工データを、ネットワークを介して他の装置に送信してもよい。

【0046】

以上のように、本実施形態の情報処理装置１０は、複数の属性を有するトランザクションデータ（履歴データ）に対しても、ｋ－匿名化を行うことができる。さらに、情報処理装置１０は、レコード数順に配列されたグループ配列を初期状態として処理を行うので、効率よく、かつ有用性損失の少ないｋ－匿名化を実現できる。また、情報処理装置１０は、２つの履歴レコードに対しハンガリアン法を適用することでマッチングを行うという処理を繰り返すことで、ｋが３以上の場合にも、効率よくマッチングを行うことができる。

【0047】

（３）付記：
以上の実施形態は、本発明を実施するための一例であり、他にも種々の実施形態を採用可能である。例えば、情報処理装置１０は、複数の装置（例えば、クライアントとサーバ等）によって実現されるシステムであってもよい。情報処理装置１０を構成するソート部１２１、グループ作成部１２２、入替部１２３、加工部１２４、評価部１２５、許否決定部１２６、グループ決定部１２７及び出力処理部１２８の少なくとも一部が複数の装置に分かれて存在してもよい。

【0048】

本実施形態においては、マスタデータに対応付けられた履歴データとしてトランザクションデータを例に履歴レコードのｋ－匿名化について説明したが、履歴データの種類はトランザクションデータに限定されるものではない。他の例としては、履歴データは、人物のマスタデータに対応付けられた、移動履歴データであってもよい。また、商品をマスタデータとし、顧客データがトランザクションデータに含まれるようなデータ構成に対し、トランザクションデータを加工するような場合にも適用可能である。すなわち、マスタデータは、顧客等の人物に限定されず、例えば商品であってもよい。

【0049】

また、本実施形態においては、制御部１２０は、顧客ＩＤをレコード数の昇順にソートしたが、これに替えてレコード数の降順にソートしてもよい。さらに、制御部１２０は、降順にソートした上で、グループ内の履歴レコードのレコード数を一致させるために履歴レコードを削除するのにかえて、ダミーレコードを追加してもよい。また、他の例としては、制御部１２０は、顧客ＩＤをレコード数の昇順または降順にソートした上で、レコード数を一致させるために履歴レコードの削除と追加の両方を行ってもよい。例えば、制御部１２０は、グループ内で、レコード数順で真ん中（平均値に最も近いレコード数）の顧客ＩＤに対応した履歴レコード群と、これに隣接する顧客ＩＤに対応した履歴レコード群とのマッチングを行う。このとき制御部１２０は、マッチング相手のレコード数が真ん中の履歴レコード群よりも大きい場合には、レコード数を合わせるためにマッチング相手の履歴レコードを削除する。また、制御部１２０は、マッチング相手のレコード数が真ん中の履歴レコード群よりも小さい場合には、レコード数を合わせるためにマッチング相手にダミーレコードを追加する。なお、ダミーレコードには、削除対象の履歴レコードと同一のレコードを用いることができる。

【0050】

また、本実施形態においては、制御部１２０は、レコード数順に顧客ＩＤをソートした上でグループ配列を作成したが、これ以外のルールに従いグループ配列を作成してもよい。例えば、制御部１２０は、履歴レコードのレコード数以外の、予め定められた属性順に、顧客ＩＤをソートしてもよい。この場合、参照される属性は、有用性損失スコアへの寄与度が大きいものが好ましい。有用性損失スコアへの寄与度が大きい属性に基づいてソートすることにより、隣接するグループ間での顧客ＩＤの入れ替えに応じた履歴データ群の加工において、有用性の損失を小さく抑えることができる。例えば、トランザクションデータに替えて、移動履歴のレコードを対象とする場合において、ユーザの居住地域がデータの有用性に大きく影響する場合がある。この場合には、制御部１２０は、ユーザの居住地域に基づいてマスタデータ（ユーザＩＤ）をソートしてもよい。

【0051】

また、本実施形態においては、制御部１２０は、２つの履歴レコード群を加工する際に、統合する履歴レコードを１対１に対応付けたが、ｋ－匿名性を満たすには２つの履歴レコード群が区別できないように加工すればよい。そこで、他の例としては、制御部１２０は、１対多や多対多で履歴レコードを対応付けてもよい。例えば、制御部１２０は、図５において顧客ＩＤ１０３の「商品Ｅ，数量１２」の履歴レコードを削除する代わりに、顧客ＩＤ１０１の「商品Ａ、数量３」の履歴レコード及び顧客ＩＤ１０３の「商品Ａ、数量４」の履歴レコードと合わせて、「商品｛Ａ，Ｅ｝、数量［３，１２］」のレコードに統合してもよい。このように、１対多や多対多で履歴レコードが対応付けられることで、ｋ－匿名性以外の安全性指標を高めたり、有用性を高めたりすることができる場合がある。

【0052】

また、本実施形態においては、有用性損失が大きくなるのを防ぐ観点から、制御部１２０は、レコード数順に配列されたグループ配列において隣接するグループ間において顧客ＩＤの入れ替えを行うこととした。ただし、他の例としては、制御部１２０は、隣接しない２つのグループそれぞれに含まれる顧客ＩＤの入れ替えを行ってもよい。これにより、ランダム性をより高めることができる。また、他の例としては、制御部１２０は、グループ配列の順序に基づき定義されたグループ間の距離に応じて、より近いグループほど選ばれやすくなるように調整された確率（選択率）を用いて２つのグループを選択してもよい。これにより、効率とランダム性を柔軟に調整することができる。また他の例としては、制御部１２０は、２つの顧客ＩＤの入れ替えに限らず、３以上の顧客ＩＤの入れ替えを一度に行ってもよい。また、制御部１２０は、選択されたグループにおいて１つの顧客ＩＤを選択する際にもランダムに選択するのに替えて、所定の規則に従い顧客ＩＤを選択することとしてもよい。

【0053】

また、制御部１２０は、顧客ＩＤのソートを行うことなく、ランダムに、またはトランザクションデータ１３２の並び順に沿って、顧客ＩＤのグループ化を行ってもよい。この場合も、顧客ＩＤの入れ替えにより、有用性損失の少ないグループ分けを行うことができる。

【0054】

本実施形態においては、制御部１２０は、焼きなまし法に従い、顧客ＩＤの入れ替えにより有用性損失スコアが増大した場合には、確率に従い許否を決定することとした。ただし、他の例としては、制御部１２０は、山登り法を用いてグループの探索を行ってもよい。すなわち、制御部１２０は、顧客ＩＤの入れ替えにより有用性損失スコアが増大した場合には、一律に入れ替えを許可しないこととしてもよい。これにより、処理効率を向上させることができる。また、他の例としては、制御部１２０は、タブーサーチを用いてグループの探索を行ってもよい。すなわち、制御部１２０は、複数のレコード配列を同時に探索し、最も結果のよいレコード配列を選ぶという操作を繰り返す。

【0055】

また、本実施形態においては、制御部１２０は、入替回数が閾値に到達するまで入れ替えを繰り返すこととしたが、繰り返しの終了条件はこれに限定されるものではない。他の例としては、制御部１２０は、有用性損失スコアが所定の値以下になるまで入れ替えを繰り返すこととしてもよい。また、他の例としては、制御部１２０は、入れ替えが許可されない回数が一定回数以上になった場合に、入れ替えを終了することとしてもよい。

【0056】

さらに、以上のような装置、プログラム、方法は、単独の装置として実現される場合もあれば、複数の装置で共有の部品を利用して実現される場合もあり、各種の態様を含むものである。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、装置を制御するプログラムの記録媒体としても発明は成立する。むろん、そのプログラムの記録媒体は、磁気記録媒体であってもよいし半導体メモリであってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。

【符号の説明】

【0057】

１０…情報処理装置、１２０…制御部、１２１…ソート部、１２２…グループ作成部、１２３…入替部、１２４…加工部、１２５…評価部、１２６…許否決定部、１２７…グループ決定部、１２８…出力処理部、１３０…記録媒体、１４０…表示部

【図1】