特許5860116 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ニフティ株式会社の特許一覧

特許5860116減少係数算出装置、それを用いた匿名処理装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5860116

(24)【登録日】2015年12月25日

(45)【発行日】2016年2月16日

(54)【発明の名称】減少係数算出装置、それを用いた匿名処理装置、方法及びプログラム

(51)【国際特許分類】

G06F 21/62 20130101AFI20160202BHJP

【ＦＩ】

G06F21/62 354

【請求項の数】9

【全頁数】24

(21)【出願番号】特願2014-202232(P2014-202232)

(22)【出願日】2014年9月30日

(65)【公開番号】特開2016-15110(P2016-15110A)

(43)【公開日】2016年1月28日

【審査請求日】2015年8月24日

(31)【優先権主張番号】特願2014-122899(P2014-122899)

(32)【優先日】2014年6月13日

(33)【優先権主張国】JP

【早期審査対象出願】

(73)【特許権者】

【識別番号】591117192

【氏名又は名称】ニフティ株式会社

(74)【代理人】

【識別番号】100113608

【弁理士】

【氏名又は名称】平川明

(74)【代理人】

【識別番号】100105407

【弁理士】

【氏名又は名称】高田大輔

(72)【発明者】

【氏名】小栗秀暢

【審査官】青木重徳

(56)【参考文献】

【文献】特開２０１４−１０２６４３（ＪＰ，Ａ）

【文献】特開２０１２−１５９９８２（ＪＰ，Ａ）

【文献】国際公開第２０１３／０７２９３０（ＷＯ，Ａ１）

【文献】小栗秀暢、曽根原登，“実サービスのデータを用いたｋ−匿名状態の推移調査と，合理的な匿名状態評価指標の検討”，情報処理学会研究報告コンピュータセキュリティ（ＣＳＥＣ）［ｏｎｌｉｎｅ］，日本，情報処理学会，２０１４年２月２７日，Vol.2014-CSEC-64、No.4，ｐ．１−８

【文献】村本俊祐、上土井陽子、若林真一，“背景知識を用いた推測を困難にしデータ歪曲度を極小化するプライバシー保護手法”，電子情報通信学会第１９回データ工学ワークショップ論文集［ｏｎｌｉｎｅ］，日本，電子情報通信学会データ工学研究専門委員会，２００８年４月７日，ＤＥＷＳ２００８Ｃ１−４，ｐ．１−８

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ２１／６２

(57)【特許請求の範囲】

【請求項1】

個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と、
前記減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備える匿名処理装置。

【請求項2】

個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、前記区分数が異なる複数の前記区分数について前記語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備える匿名処理装置。

【請求項3】

前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項１又は２に記載の匿名処理装置。

【請求項4】

個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記記憶手段に記憶された減少係数と前記匿名化する際の区分数に基づいて、前記個人情報を前記匿名化する際の区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する匿名処理方法。

【請求項5】

個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する匿名処理方法。

【請求項6】

前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項４又は５に記載の匿名処理方法。

【請求項7】

【請求項8】

個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めて記憶手段に記憶するステップと、
匿名化対象の個人情報を受け付けるステップと、
前記記憶手段に記憶された減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータに実行させるための匿名処理プログラム。

【請求項9】

前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めた請求項７又は８に記載の匿名処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、個人情報を匿名化又は多様化するための情報処理技術に関する。

【背景技術】

【0002】

情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、２０代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。

【0003】

また、これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の企業にとっても新商品の開発や安全性の向上などに用いることができ、価値を有することがある。

【0004】

しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。

【0005】

例えば、年齢が記載されている会員リストに２５歳の人が一人だけであると、２５歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、２５歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。

【0006】

そこで、会員リストの年齢の記載を１０歳区切りに抽象化し、２０代が３人のように同じ属性を持つ人が複数人となるようにすれば、３人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がｋ人以上いる状態を、「ｋ−匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。

【0007】

また、匿名化の基準や手法としては、種々のものが提案されており、例えば、ｌ−多様性、Ｐｋ匿名化、t-closeness（非特許文献１参照）が知られている。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０１２−１３３４５１号公報

【特許文献2】特開２０１１−１０８１９５号公報

【特許文献3】特開２０１１−１２８８６２号公報

【特許文献4】特開２０１２−７８９３２号公報

【特許文献5】特開２０１４−１０２６４３号公報

【非特許文献】

【0009】

【非特許文献1】中川裕志著、“プライバシ保護データマイニング”、[平成26年5月23日検索］、インターネット〈URL：http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf〉

【発明の概要】

【発明が解決しようとする課題】

【0010】

図２２は、ユーザがＩＣカードを用いて駅の自動改札を出入りし、乗車料金を決済した場合に、管理サーバ側に記録される履歴データ（フローデータ）の一例を示す図である。図２２の履歴データ９１は、ユーザＩＤや、利用日時、利用駅、利用内容、料金等が対応付けられている。この履歴データ９１は、ユーザＩＤとユーザの姓、年齢、性別を対応付けたユーザ情報９２を参照することで、履歴データの各ユーザが識別できる。

【0011】

この履歴データ９１を他の事業者へ提供する場合、ユーザＩＤとユーザの姓等とを対応付けるユーザ情報９２を削除する、或は参照できないように管理することで、ユーザＩＤから個人を識別できないようにすること（仮名化状態とすること）が考えられる。

【0012】

しかし、仮名化状態の場合、ユーザＩＤから氏名が特定できないとしても、ユーザＩＤと対応付けられた利用駅等の情報が一個人に限定されている場合、即ち、他に利用駅等の情報が一致するユーザがいない場合、利用駅等の情報から再識別できる可能性がある。例えば、ＩＤ＝Ａ００１のユーザが新宿駅、秋葉原駅、人形町を利用していた場合に、同じように駅を利用した人が他にいなければ、ＩＤ＝Ａ００１のユーザの行動を知る人であれば、この履歴データからＩＤ＝Ａ００１のユーザを再識別できる。

【0013】

例えば、ｎ＝４２４７万人のユーザが、ｍ＝９２６２の駅を一様分布で選択した場合に、再識別できる駅の数を式１によって求めると、
ｍＳ＝ｎ・・・（式１）
Ｓ＝２．２３７となり、履歴データに３駅記録されていれば、再識別できることが分かる。

【0014】

このようにデータの項目が駅で、選択肢数（属性種）が９２６２駅と非常に大きい場合、利用履歴に３駅含まれていただけ、即ちデータの項目数（属性数）が３つあるだけで、母数が４２４７万人と非常に大きいデータであっても匿名化できなくなってしまう。

【0015】

また、ＩＣカードの履歴データには、この他にもショッピングの情報が含まれることがあり、購入した商品名や店舗名等の多大な選択肢数となる情報が更に含まれた場合、再識別の可能性が更に高くなる。

【0016】

このため、各項目の値を抽象化して、各項目の値の組み合わせが一個人に限定されないように匿名化することが考えられるが、行動履歴のようなデータは、データ量が非常に多くなり易く、例えば１０万人を超えるような所謂ビッグデータの場合、抽象化を人手で行うのは現実的ではない。

【0017】

また、機械的に抽象化を行うことも考えられるが、機械的に抽象化を行うと、抽象化した結果が例え匿名性を満たしたとしても、有用なデータになるとは限らない。例えば項目の値の組み合わせが一個人に限定されなくなるまで抽象化した結果、利用価値が無くなるほど抽象的な項目の値（語）になってしまった場合、匿名性を満たしても意味が無い。このため機械的に抽象化を行う場合でも抽象化の結果を人が確認し、有用なデータになっていなければ、抽象化する項目を変える等の設定を変更して抽象化の処理をやり直すといった試行の繰り返しになる。

【0018】

しかし、単に試行を繰り返すのは非効率であり、特にビッグデータの場合、抽象化の処理や匿名性を検定する処理に多大な時間がかかってしまうため、充分に試行を行うことが困難であった。

【0019】

そこで本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供する。

【課題を解決するための手段】

【0020】

本発明に係る減少係数算出装置は、
個人情報を匿名化した匿名情報を取得する匿名情報取得部と、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める出現数取得部と、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求める係数算出部と、を備えた。

【0021】

前記減少係数算出装置は、前記減少係数を直線近似式、多項式近似式、指数近似式、又は累乗近似式として求めても良い。

【0022】

本発明に係る匿名処理装置は、
匿名化対象の個人情報を匿名化する際の区分数を取得する区分数取得部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する可能性判定部と、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止する匿名化部と、
を備えた。

【0023】

本発明に係る匿名処理装置は、
匿名化対象の個人情報を受け付ける受付部と、
前記減少係数算出装置によって算出された減少係数を取得する係数取得部と、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める区分数算出部と、
前記区分数で前記個人情報の匿名化を行う匿名化部と、
を備えた。

【0024】

本発明に係る減少係数算出方法は、
個人情報を匿名化した匿名情報を取得するステップと、
匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求めるステップと、
前記区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数を求めるステップと、
をコンピュータが実行する。

【0025】

本発明に係る匿名処理方法は、
匿名化対象の個人情報を匿名化する際の区分数を取得するステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定するステップと、
前記可能性が高い場合に前記個人情報の匿名化を行い、前記可能性が低い場合に前記個人情報の匿名化を中止するステップと、
をコンピュータが実行する。

【0026】

本発明に係る匿名処理方法は、
匿名化対象の個人情報を受け付けるステップと、
前記減少係数算出装置によって算出された減少係数を取得するステップと、
前記減少係数と前記個人情報の全体数に基づいて、前記個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求めるステップと、
前記区分数で前記個人情報の匿名化を行うステップと、
をコンピュータが実行する。

【0027】

また、本発明は、上記方法をコンピュータに実行させるためのプログラムであっても良い。更に、前記プログラムは、コンピュータが読み取り可能な記録媒体に記録されていても良い。

【0028】

ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、８mmテープ、メモリカード等がある。

【0029】

また、コンピュータに固定された記録媒体としてハードディスクやＲＯＭ（リードオンリーメモリ）等がある。

【発明の効果】

【0030】

本発明は、減少係数に基づき、匿名性を満たす可能性が高い区分数で匿名化処理を実行することで、匿名化処理の効率の向上を可能にさせる技術を提供できる。

【図面の簡単な説明】

【0031】

【図1】図１は、匿名化処理の説明図である。

【図2】図２は、多様化処理の説明図である。

【図3】図３は、実施形態における匿名化システムの概略構成図である。

【図4A】図４Ａは、個人情報の一例を示す図である。

【図4B】図４Ｂは、匿名情報の一例を示す図である。

【図5】図５は、区分の説明図である。

【図6】図６は、匿名結果ＤＢに記憶される匿名データの一例を示す図である。

【図7】図７は、匿名処理装置及び減少係数算出装置のハードウェア構成を示す図である。

【図8】図８は、匿名化処理の説明図である。

【図9】図９は、出現数を取得する処理の説明図である。

【図10】図１０は、属性パターンの一例を示す図である。

【図11】図１１は、減少係数算出の処理の説明図である。

【図12】図１２は、減少係数算出の処理の説明図である。

【図13】図１３は、出現頻度を求める処理の説明図である。

【図14】図１４は、減少係数を用いた匿名化処理の説明図である。

【図15】図１５は、減少係数を用いた匿名化処理の説明図である。

【図16】図１６は、図１４の匿名化処理の変形例を示す図である。

【図17】図１７は、減少係数算出の処理の説明図である。

【図18】図１８は、累乗近似式によって近似した例の説明図である。

【図19】図１９は、減少係数を用いた匿名化処理の説明図である。

【図20】図２０は、減少係数を用いた匿名化処理の説明図である。

【図21】図２１は、減少係数算出の処理の説明図である。

【図22】図２２は、ユーザの行動履歴の一例を示す図である。

【発明を実施するための形態】

【0032】

以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。

【0033】

〈実施形態１〉
図１は匿名化処理の説明図、図２は多様化処理の説明図である。図１（Ａ）は、姓、年齢、性別の項目を含む会員情報から姓の項目を削除した例を示す。図１（Ａ）に示すように年齢が記載されている会員情報に１６歳の女性が一人だけであると、１６歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、１６歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。

【0034】

図１（Ｂ）では、会員リストの年齢の記載を抽象化し、０代（１０歳未満）、１０代、２０代のように年代別とした。しかし、この場合でも１０代女性は一人だけであり、図１（Ａ）と同様に個人が特定できてしまい匿名化としては不十分である。

【0035】

そこで、図１（Ｃ）では、更に抽象化し、１０代以下（１９歳以下）と２０代のように年代の区切りを変更した。図１（Ｃ）の場合、１０代以下の女性が２人であり、［１０代以下］及び［女性］という属性が単一では無くなる。このため前述のように１６歳の女性が、この会員であることが分かったとしても、どちらが当該１６歳女性のデータであるかは特定できない。このように同じ属性を持つ人がｋ人以上いる状態を、「k-匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。

【0036】

図２は、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎の利用駅が属する区のデータとした例を示す。抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がｌ種類の可能性を持つよう抽象化することをｌ−多様化と称する。

【0037】

図３は、本実施形態における匿名化システム１０の概略構成図である。匿名化システム１０は、図１に示すように、匿名処理装置１と減少係数算出装置２を有している。

【0038】

匿名処理装置１は、データ受付部１１や、区分数取得部１２、係数取得部１３、可能性判定部１４、匿名化部１５、検定部１６、縦列登録部１７、データ出力部１８、匿名結果ＤＢ（データベース）３１、匿名情報縦列ＤＢ３２を備えている。

【0039】

データ受付部１１は、個人と対応付けられた複数の項目を含む対象データ（個人情報）や、匿名化の条件、匿名化に係る命令等を受け付ける。なお、個人情報や匿名化の条件等の受付は、インターネット等のネットワークを介して受信するものや、記憶媒体から読み出されるもの、キーボード等の入力手段から入力されるものであっても良い。図４は個人情報の一例を示す図である。図４に示す例では、ユーザ毎のＩＤや姓、年齢、性別、購入商品、購入場所等の情報を有している。

【0040】

区分数取得部１２は、匿名化対象の個人情報を匿名化する際の区分数を取得する。区分数は、匿名情報に含まれる属性が取り得る属性値（語）の種類の数、換言すると属性値を同一の属性値毎に区分した場合の区分の数である。図５は、区分の説明図である。例えば、属性が性別の場合に、属性値を男性と女性の２区分とする。また、属性が年齢の場合に
、属性値を未成年、成人、老人の３区分や、２０代以下、３０代、４０代、５０代、６０代以上の５区分、更に０代、１０代、２０代、３０代、４０代、５０代、６０代、７０代、８０代以上の９区分とする。また、属性が住所や購入場所等の地域の場合に、属性値を西日本と東日本の２区分や、北海道、東北、関東、中部、近畿、中国、四国、九州、沖縄の９区分、北海道、青森県、岩手県・・・東京都・・・大阪府といった都道府県の４７区分とする。

【0041】

区分数取得部１２は、例えば、匿名化の処理を指示するオペレータによる入力、過去の履歴から読み出し、対象データの属性を抽象化する語（属性値）として匿名化辞書に登録されている語の計数により区分数を取得する。

【0042】

係数取得部１３は、減少係数算出装置２によって算出された減少係数を取得する。減少係数は、例えば、対象データを匿名化する際、区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合である。

【0043】

可能性判定部１４は、前記減少係数と前記区分数に基づいて、前記個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。

【0044】

匿名化部１５は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード（語）を抽象化したワードに替えることで匿名化を行い、対象データを匿名候補データとする。本実施形態においてワード（語）は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやＩＰアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。本実施形態の匿名化部１５は、前記可能性判定部１４で匿名性を満たす可能性が高いと判定した場合に前記対象データの匿名化を行い、匿名性を満たす可能性が低いと判定した場合には前記対象データの匿名化を中止する。

【0045】

検定部１６は、匿名候補データの一個人と対応する項目の値の組み合わせが、当該匿名候補データ中で単一でないことを条件として検定する。例えば検定部１６は、匿名候補データがｋ−匿名性を満たしているか、ｌ−多様性を満たしているかを検定する。即ち、検定部１６は、匿名候補データのｋ値（最少出現数）が基準値以上で、ｋ−匿名性を満たしているか、匿名候補データのｌ値が基準値以上で、ｌ−多様性を満たしているかを検定する。検定部１６は、この検定の結果、匿名性を満たした匿名候補データを匿名情報として匿名結果ＤＢ３１に記憶させる。

【0046】

図４Ａは、対象データの一例を示す図、図４Ｂは、匿名結果ＤＢ３１に記憶される匿名データの一例を示す図である。図４Ｂに示す匿名データは、図４Ａに示す対象データのうち、ユーザ毎のＩＤを匿名情報用のＩＤに変更し、姓を削除し、年齢、購入商品、購入場所の情報を抽象化している。なお、匿名情報用のＩＤは、対象データのＩＤとは別のＩＤを付しているので、匿名情報用のＩＤから個人を特定できるものでは無い。また、この匿名情報用のＩＤと対象データのＩＤとの対応テーブルを対象データと共に記憶しておき、匿名情報と対象データの対応付けを可能としても良い。

【0047】

縦列登録部１７は、匿名情報を属性毎に分割して、匿名情報縦列ＤＢ３２へ縦列に登録する。図４Ｂの匿名結果ＤＢ３１では、年齢、性別、購入商品、購入場所といったユーザ毎の属性を行方向に連ねて登録しているのに対し、図６の匿名情報縦列ＤＢ３２では、これらの属性を属性毎、及びこれらの属性の組み合わせ毎に別のレコードとして分割し、縦列に登録している。例えば、図４Ａの匿名結果ＤＢ３１では、ＩＤがＸのレコードに「１７才」「男」「新宿」「ラーメン」といった属性が登録されているのに対し、図６の匿名情報縦列ＤＢ３２では、ＩＤがＺ００１のレコードに「１７才」、ＩＤがＺ００４のレコ
ードに「男」、ＩＤがＸ００１のレコードに「新宿」、ＩＤがＹ００１のレコードに「ラーメン」、ＩＤがＹ００８のレコードに「１７才−男」、ＩＤがＶ００３のレコードに「新宿−ラーメン」等のように、それぞれ別のレコードに登録されている。

【0048】

データ出力部１８は、匿名情報縦列ＤＢ３２から匿名化情報を読み出して出力する。ここで、匿名化情報の出力とは、例えば、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。

【0049】

区分数算出部１９は、減少係数と個人情報の全体数に基づいて、個人情報を匿名化した場合の最少出現数の減少量が所定の基準値を超えない区分数を求める。

【0050】

また、減少係数算出装置２は、匿名情報取得部２１や、出現数取得部２２、係数算出部２３、頻出パターンＤＢ３３、減少係数ＤＢ３４を備えている。

【0051】

匿名情報取得部２１は、個人情報を匿名化した匿名情報縦列ＤＢ３２から匿名情報を取得する。

【0052】

出現数取得部２２は、匿名情報を構成する属性がとり得る語の種類毎に区分して区分数を求め、各語の最少出現数を求める、例えば、匿名情報に含まれる語を同一の語毎に区分して区分数を求め、各区分における語の最少出現数を求める。

【0053】

係数算出部２３は、区分数の異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の最少出現数の減少数又は前記減少数の全体数に対する割合を減少係数として求め、減少係数ＤＢ３４に記憶する。

【0054】

図７は匿名処理装置１及び減少係数算出装置２のハードウェア構成を示す図である。匿名処理装置１及び減少係数算出装置２は、ＣＰＵ１０１、メモリ１０２、通信制御部１０３、記憶装置１０４、入出力インタフェース１０５を有する所謂コンピュータである。

【0055】

ＣＰＵ１０１は、メモリ１０２に実行可能に展開されたプログラムを実行する。これにより、匿名処理装置１のＣＰＵ１０１は、前述のデータ受付部１１や、区分数取得部１２、係数取得部１３、可能性判定部１４、匿名化部１５、検定部１６、縦列登録部１７、データ出力部１８の機能を提供する。また、減少係数算出装置２のＣＰＵ１０１は、前述の匿名情報取得部２１や、出現数取得部２２、係数算出部２３の機能を提供する。

【0056】

メモリ１０２は、主記憶装置ということもできる。メモリ１０２は、例えば、ＣＰＵ１０１が実行するプログラムや、通信制御部１０３を介して受信したデータ、記憶装置１０４から読み出したデータ、その他のデータ等を記憶する。

【0057】

通信制御部１０３は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース１０５は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、ＵＳＢメモリを接続するＵＳＢのアダプタ等である。また、着脱可能な記憶媒体は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（Blu-ray(登録商標) Disc）等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置１０４に格納する。

【0058】

記憶装置１０４は、外部記憶装置ということもできる。記憶装置１０４としては、ＳＳ
Ｄ（Solid State Drive）やＨＤＤ等であってもよい。記憶装置１０４は、ドライブ装置
との間で、データを授受する。例えば、記憶装置１０４は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置１０４は、プログラムを読み出し、メモリ１０２に引き渡す。本実施形態では、匿名処理装置１の記憶装置１０４が前述の匿名結果ＤＢ３１、匿名情報縦列ＤＢ３２を格納している。また、減少係数算出装置２の記憶装置１０４が、頻出パターンＤＢ３３、減少係数ＤＢ３４を格納している。

【0059】

次に本実施形態における匿名化システム１０の匿名処理装置１及び減少係数算出装置２がプログラムに従って実行する匿名処理方法及び減少係数算出方法について説明する。図８は、匿名化処理の説明図である。匿名処理装置１は、先ず他のコンピュータ或いは記憶装置から対象データを受け付ける（ステップＳ１０）。本実施形態の匿名処理装置１は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できるようにしている。複数の匿名化アルゴリズムとしては、例えば、医療情報の匿名化に特化したアルゴリズムや、購買履歴等のフローデータの匿名化に特化したアルゴリズム、ファッションや教育、外食産業等の特定の業種に特化したアルゴリズムが挙げられる。また、このアルゴリズムは、匿名化手法だけでなく、匿名化辞書や、前処理手法、フィルタリング手法などを選択可能としても良い。即ち、オペレータは、匿名化の対象データ共に、これらのアルゴリズムを選択する情報を入力する。

【0060】

次に、匿名処理装置１は、選択されたアルゴリズムで対象データを匿名化し（ステップＳ２０）、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プＳ３０)。

【0061】

検定後、匿名処理装置１は、匿名情報を匿名結果ＤＢ３１に蓄積する（ステップＳ４０）。図８において、データパターンＡは、対象データの年齢を５区分で匿名化処理した匿名情報の例であり、検定の結果、１６才、１７才、１８才、２０才の４区分は基準値１０人を超えて匿名性を満たし（図中、○で示す）、１５才以下の１区分は基準値１０人を下回り匿名性を満たしていない（図中、×で示す）。同様に、データパターンＢは、対象データの年齢を３区分で匿名化処理した匿名情報の例であり、データパターンＣは、対象データの年齢を２区分で匿名化処理した匿名情報の例である。

【0062】

そして、匿名処理装置１は、定期的に匿名結果ＤＢ３１から匿名情報を読み取り、匿名情報縦列ＤＢ３２へ縦列に登録する (ステップＳ５０)。図８において、縦列匿名情報８
１は、匿名情報縦列ＤＢ３２に登録される匿名情報の一例を示す図であり、データパターンや、データパターン毎の行番号、属性、存在数、匿名の基準値を対応付けて記憶している。（ステップＳ６０）

【0063】

図９は、出現数を取得する処理の説明図である。減少係数算出装置２は、図９に示すように、先ず匿名情報縦列ＤＢ３２からデータパターン毎に匿名データを取得する(ステッ
プＳ１１０)。

【0064】

次に、減少係数算出装置２は、データパターン毎の区分数や存在数を取得し(ステップ
Ｓ１２０)、存在数が所定値以上の属性値を頻出パターン８２として頻出パターンＤＢ３
３に登録し、属性毎の区分数と最少出現数を属性パターン８３として減少係数ＤＢ３４に登録する(ステップＳ１３０)。なお、属性パターン８３は、図１０に示すように、日時や企業名、利用回数等の情報を更に付加しても良い。

【0065】

そして、減少係数算出装置２は、次のデータパターンがあるか否かを判定し、次のデータパターンがあればステップＳ１１０に戻り、次のデータパターンがなければ終了する(
ステップＳ１４０)。

【0066】

図１１は、減少係数算出の処理の説明図である。減少係数算出装置２は、図１０に示すように、先ず減少係数ＤＢ３４から属性パターン８３を取得する(ステップＳ１５０)。

【0067】

次に減少係数算出装置２は、取得した属性パターン８３のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせに基づいて、区分数を増加させた場合の最少出現数の減少数や前記減少数の全体数に対する割合を減少係数として求め (ステップＳ１６０)、この属性毎の減少係数８４を減少係数ＤＢ３４に記憶させる。

【0068】

図１２に示されるように、全体数が２００００、区分数２のときの最少出現数が１００００、区分数７のときの最少出現数が１０００、区分数１１のときの最少出現数が５００・・・といった区分数及び最少出現数の組み合わせ８５であるとき、この回帰直線８６を求めると、ｙ＝−９５．９０５ｘ＋８７２７．９となる。この回帰直線の傾きから区分数が１増加すると、最少出現数が約９５減少することがわかる。即ち減少定数が９５．９０５である。ここで、全体数が２００００であるので、減少定率は９５．９０５／２００００≒０．４７％である。

【0069】

なお、本実施形態では、属性毎に減少係数を求めたが、これに限らず複数の属性を併合して減少係数を求めても良い。例えば、区分数（属性種）が２の属性と区分数が３の属性とを併合して区分数６として減少係数の算出に用いても良い。また、同一の属性の抽象度を変えて異なる複数の区分数の属性として減少係数の算出に用いても良い。更に、類似した属性に基づいて減少係数を求めた方が精度が高いため、匿名化の際に用いる属性に優先度を付けておき、優先度の高いものから順に所定数の属性を用いて減少係数を求めても良い。また、属性を所定のジャンル（例えば、地域、時期、音楽、ファッション等）に分類しておき、同じジャンルに分類される属性を用いて減少係数を算出しても良い。更に、Ａ社の年齢、Ａ社の購入場所等のように企業名毎のデータに基づいて減少係数を求めても良い。

【0070】

そして、減少係数算出装置２は、次のデータがあるか否かを判定し、次のデータがあればステップＳ１５０に戻り、次のデータがなければ終了する(ステップＳ１８０)。

【0071】

図１３は、出現頻度を求める処理の説明図である。減少係数算出装置２は、図１３に示すように、先ず頻出パターンＤＢ３３から頻出パターン８２を取得する(ステップＳ２１
０)。減少係数算出装置２は、この頻出パターン８２から、属性値毎の存在数の平均や、
全体数に対する存在数の割合（出現率）を統計情報として求め(ステップＳ２２０)、頻出パターンＤＢ３３に登録する(ステップＳ２３０)。

【0072】

そして、減少係数算出装置２は、次のデータがあるか否かを判定し、次のデータがあればステップＳ２１０に戻り、次のデータがなければ終了する(ステップＳ２４０)。

【0073】

図１４は、減少係数を用いた匿名化処理の説明図である。匿名処理装置１は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける（ステップＳ３１０）。このとき例えば男女２区分×年代８区分＝１６区分等のように、オペレータが指定した区分数のリクエストを受ける。なお、図１４には省略したが、前述の図８と同様に匿名処理装置１は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。

【0074】

次に匿名処理装置１は、匿名化する対象データの各属性について減少係数を減少係数ＤＢ３４から取得する(ステップＳ３２０)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。

【0075】

そして、匿名処理装置１は、取得した減少係数と区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性が高いか否かを判定する(ステップＳ３３０)。例えば、減少定率が１０％で、区分数が１６区分であると、１６区分×１０％＝１６０％となり、１００％（基準値）を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が８区分であると、８区分×１０％＝８０％となり、１００％（基準値）を超えないので、匿名性を満たす可能性が高いと判定する。また、減少定数が８で、区分数が１６区分であると、１６区分×８＝１２８となり、全体数１００（基準値）を超えるので、匿名性を満たす可能性が低いと判定する。一方、区分数が８区分であると、８区分×８＝６４となり、１００（基準値）を超えないので、匿名性を満たす可能性が高いと判定する。

【0076】

匿名性を満たす可能性が高いと判定した場合、匿名処理装置１は、選択されたアルゴリズムで対象データを匿名化し（ステップＳ３４０）、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステップＳ３５０)。また、検定後、匿名処理装置１は、匿名情報を匿名結果ＤＢ３１に蓄積する（ステップＳ３６０）。

【0077】

一方、ステップＳ３３０で、匿名性を満たす可能性が低いと判定した場合、匿名処理装置１は、匿名化処理を中止し、処理を終了する(ステップＳ３７０)。

【0078】

このように図１４の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。

【0079】

図１５は、減少係数を用いた匿名化処理の説明図である。匿名処理装置１は、先ず他のコンピュータから対象データを受け付ける（ステップＳ４１０）。なお、図１５には省略したが、前述の図８と同様に匿名処理装置１は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。

【0080】

次に匿名処理装置１は、匿名化する対象データの各属性について減少係数を減少係数ＤＢ３４から取得する(ステップＳ４２０)。また、匿名処理装置１は、匿名化する対象データの各属性について頻出パターンを頻出パターンＤＢ３３から取得する(ステップＳ４３
０)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、
この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。

【0081】

また、匿名処理装置１は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップＳ４４０)。例えば、減少定率が１０％で、全体数が１００である場合、１００×１０％＝１０区分のように区分数を求める。一方、減少定数が１２で、全体数が１００である場合、１００／１２≒８．３となるので、８区分とする。

【0082】

そして、匿名処理装置１は、ステップＳ４３０で取得した頻出パターンに含まれる区分を用い、且つステップＳ４４０で算出した区分数以下で匿名化の処理を行い（ステップＳ４５０）、最少出現数が基準値を超えているか否かによって匿名性の検定を行う(ステッ
プＳ４６０)。また、検定後、匿名処理装置１は、匿名情報を匿名結果ＤＢ３１に蓄積す
る（ステップＳ４７０）。

【0083】

このように図１５の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化
処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。

【0084】

<変形例>
図１６は、図１４の匿名化処理の変形例を示す図である。図１４の処理では、ステップＳ３３０で、匿名性を満たす可能性が低いと判定された場合に、処理を中断したが、図１６の処理では、ステップＳ３３０で、匿名性を満たす可能性が低いと判定された場合に、図１５の処理を実行し(ステップＳ３９０)、減少係数と全体数に基づいた区分数で匿名化を行うものである。なお、その他の構成は、同じであるため、再度の説明は省略する。

【0085】

このように本変形例によれば、ステップＳ３１０でリクエストされた区分数で匿名性を満たす可能性が低い場合でも、減少係数と全体数に基づき匿名性を満たす可能性の高い区分数で匿名化を行うことができるため、匿名化処理の更なる効率化を図ることができる。

【0086】

〈実施形態２〉
前述の実施形態１では、減少係数として直線近似式によって求めた減少定数や減少率を用いたが、これに限定されるものではなく、実施形態２では、減少係数として累乗近似式を用いた例を示す。本実施形態２は、前述の実施形態１と比べて、累乗近似式を用いた構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。

【0087】

本実施形態２において、減少係数算出装置２の係数算出部２３は、区分数が異なる複数の前記区分数及び前記最少出現数の組み合わせに基づいて、前記区分数を増加させた場合の前記最少出現数の減少量を示す減少係数として、累乗近似式を求める。
例えば、係数算出部２３は、区分数を増加させた場合の最少出現数に基づいて、下記の累乗近似式１を求める。なお、累乗近似式１において、ｙは匿名レベル（ｋ値）、ｘは区分数を示す。

【数1】

【0088】

そして、本実施形態２における匿名処理装置１の可能性判定部１４は、累乗近似式１と匿名化を行う区分数に基づいて、個人情報を前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値を超える可能性を判定する。
例えば、可能性判定部１４は、累乗近似式１を以下の式２のように展開して最少出現数を推定し、この最少出現数の推定値ｘが基準値を超えるか否かで可能性を判定する。なお、次の式では、匿名レベルｙをｋとしている。

【数2】

【0089】

なお、ｋ値は０に収束するものではないため、式１に１を加えて式３とし、式３を展開して式４として用いても良い

【数3】

【0090】

図１７は、減少係数算出の処理の説明図である。減少係数算出装置２は、図１０に示すように、先ず減少係数ＤＢ３４から属性パターン８３を取得する(ステップＳ１５０)。

【0091】

次に減少係数算出装置２は、取得した属性パターン８３のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップＳ１６０Ａ)、これらの区分数及び最少出現数に基づいて累乗近似式１を減少係数として求めて、この減少係数を減少係数ＤＢ３４に記憶させる(ステップＳ１７０Ａ)。

【0092】

図１８に示されるように、全体数が２００００、区分数２のときの最少出現数が１００００、区分数７のときの最少出現数が１０００、区分数１１のときの最少出現数が５００・・・といった区分数及び最少出現数の組み合わせ８５であるとき、累乗近似式１を求めると、ｙ＝１１４６５９ｘ^{−１．４１４}となる。この累乗近似式１から各区分の区分数が１増加した場合の最少出現数の減少数がわかる。例えば、この減少数が９５．９０５である場合、全体数が２００００であるので、減少率は９５．９０５／２００００≒０．４７％である。

【0093】

【0094】

図１９は、減少係数を用いた匿名化処理の説明図である。匿名処理装置１は、先ず他のコンピュータから対象データと共に匿名化のリクエストを受け付ける（ステップＳ３１０）。このとき例えば男女２区分×年代８区分＝１６区分等のように、オペレータが指定し
た区分数のリクエストを受ける。なお、図１９には省略したが、前述の図８と同様に匿名処理装置１は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。

【0095】

次に匿名処理装置１は、匿名化する対象データの各属性について減少係数（累乗近似式１）を減少係数ＤＢ３４から取得する(ステップＳ３２０)。なお、減少係数が、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数を取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数を取得する。

【0096】

そして、匿名処理装置１は、取得した減少係数を式２のように展開し、区分数に基づいて、対象データを前記区分数で匿名化した場合の最少出現数の減少量が所定の基準値（ｋ値）を超える可能性が高いか否かを判定する(ステップＳ３３０Ａ)。

【0097】

【0098】

【0099】

このように図１９の処理によれば、匿名性を満たす可能性が低ければ、匿名化処理を行わないので、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。

【0100】

図２０は、減少係数を用いた匿名化処理の説明図である。匿名処理装置１は、先ず他のコンピュータから対象データを受け付ける（ステップＳ４１０）。なお、図２０には省略したが、前述の図８と同様に匿名処理装置１は、複数の匿名化アルゴリズムを有し、オペレータが任意に選択できる。

【0101】

次に匿名処理装置１は、匿名化する対象データの各属性について減少係数（累乗近似式１）を減少係数ＤＢ３４から取得する(ステップＳ４２０)。また、匿名処理装置１は、匿名化する対象データの各属性について頻出パターンを頻出パターンＤＢ３３から取得する(ステップＳ４３０)。なお、減少係数や頻出パターンが、企業名と対応付けて記憶されている場合には、この企業名の一致する減少係数や頻出パターンを取得する。即ち、当該企業が過去に用いた匿名データから求めた減少係数や頻出パターンを取得する。

【0102】

また、匿名処理装置１は、取得した減少係数と対象データの全体数に基づいて、対象データを匿名化した場合に匿名性を満たす可能性が高い区分数を求める(ステップＳ４４０
Ａ)。

【0103】

【0104】

このように図２０の処理によれば、減少係数と対象データの全体数に基づき、匿名化を行った時の減少量が、全体数を超えないように区分数を定めたことにより、無駄に匿名化処理を試行することが無くなり、匿名化処理の効率化が図れる。また、頻出パターンに基づき、頻出する区分を用いて匿名化を行うことで、匿名化処理を行った時の最少出現数が
小さくなりすぎて、匿名性を満たさなくなることが避けられるので、匿名化処理の効率化が図れる。

【0105】

〈実施形態３〉
本実施形態３では、複数の事業者間で匿名情報を比較するために統一した区分数で匿名化を行う例を示している。実施形態３は、前述の実施形態２と比べて、統一した区分数で匿名化を行うための構成が異なり、他の構成は同じであるため、同一の要素は同符号を付す等して再度の説明を省略する。
複数の事業者間でデータを比較する場合、同じ属性で匿名化しなければならないが、互いが所有している個人情報がどのようなものかが分らないため、どの程度の区分数であれば共通の属性で匿名化できるのかが互いに分らなかった。このため無駄に試行を繰り返すことになり、匿名化処理の効率が悪かった。そこで、本実施形態３の減少係数算出装置２は、複数事業者からの匿名情報に基づいて、共通の属性で匿名化が行える可能性が高い区分数を推定して各事業者に通知する。

【0106】

図２１は、減少係数算出の処理の説明図である。減少係数算出装置２は、先ず複数の事業者から匿名情報を取得する(ステップＳ１５０Ｂ)。

【0107】

次に減少係数算出装置２は、取得した属性パターン８３のうち、各属性について、区分数の異なる複数の区分数及び最少出現数の組み合わせを求め(ステップＳ１６０Ｂ)、これらの区分数及び最少出現数に基づいて累乗近似式１を減少係数として求め、この累乗近似式１に基づいて、最少出現数が基準値以上となる区分数の下限値を求めて減少係数ＤＢ３４に記憶させる(ステップＳ１７０Ｂ)。

【0108】

また、減少係数算出装置２は、次のデータがあるか否かを判定し(ステップＳ１８０)、次のデータがあればステップＳ１５０Ｂに戻り、次のデータがなければ、各事業者における区分数の下限値のうち、最も小さい区分数を共通の区分数、即ち共通の属性で匿名化が行える可能性が高い区分数とし(ステップＳ１９０Ｂ)、各事業者の端末に通知する(ステ
ップＳ２００Ｂ)。

【0109】

そして、各事業者が、通知された区分数で前述の匿名化を行うことで、無駄に試行を繰り返すことなく匿名化を行うことができる。
このように本実施形態３によれば、複数事業者からの匿名情報に基づいて、効率良く共通の属性で匿名化を行うことができる。

【0110】

〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、前記実施形態２，３では、減少係数として累乗近似式を用いたが、これに代えて多項近似式や指数近似式等の近似式を用いても良い。

【符号の説明】

【0111】

１匿名処理装置
２減少係数算出装置
１０匿名化システム
１１データ受付部
１２区分数取得部
１３係数取得部
１４可能性判定部
１５匿名化部
１６検定部
１７縦列登録部
１８データ出力部
２１匿名情報取得部
２２出現数取得部
２３係数算出部
３１匿名結果ＤＢ
３２匿名情報縦列ＤＢ
３３頻出パターンＤＢ
３４減少係数ＤＢ

【図1】