(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-28
(45)【発行日】2024-12-06
(54)【発明の名称】データ再識別可能性の減少のためのデータ処理方法
(51)【国際特許分類】
G06Q 10/00 20230101AFI20241129BHJP
G06Q 50/10 20120101ALI20241129BHJP
G06F 21/62 20130101ALI20241129BHJP
【FI】
G06Q10/00
G06Q50/10
G06F21/62 354
【外国語出願】
(21)【出願番号】P 2024016938
(22)【出願日】2024-02-07
【審査請求日】2024-04-03
(31)【優先権主張番号】10-2023-0104332
(32)【優先日】2023-08-09
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 1.学会ポスター発表(発表日2023年2月9日、2023年度韓国通信学会冬季総合学術発表会) 2.学会ウェブ公開(掲載日2023年2月8日、https://pastconf.kics.or.kr/2023w及びhttps://pastconf.kics.or.kr/2023w/program) 3.その他ウェブにて論文公開(掲載日2023年3月24日、https://www.dbpia.co.kr及びhttps://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11227573&nodeId=NODE11227573&medaTypeCode=185005&isPDFSizeAllowed=true&locale=ko&foreignIpYn=N&articleTitle=%EB%8D%B0%EC%9D%B4%ED%84%B0+%EC%9E%AC%EC%8B%9D%EB%B3%84+%EA%B0%80%EB%8A%A5%EC%84%B1+%EA%B0%90%EC%86%8C%EB%A5%BC+%EC%9C%84%ED%95%9C+%ED%96%89+%EB%8B%A8%EC%9C%84+%EB%B0%A9%EB%B2%95%EB%A1%A0+%EC%97%B0%EA%B5%AC&articleTitleEn=A+study+on+the+row-based+method+for+reducing+possibility+of+data+re-identification&language=ko_KR&hasTopBanner=true
(73)【特許権者】
【識別番号】324009176
【氏名又は名称】イージーサーティ インコーポレイテッド
【氏名又は名称原語表記】EASYCERTI INC.
【住所又は居所原語表記】5th Floor, 577, Seolleung-ro, Gangnam-gu, Seoul, 06143 Republic of Korea
(74)【代理人】
【識別番号】100121382
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】イ,カン ウォン
(72)【発明者】
【氏名】ハン,ジュ ヨン
(72)【発明者】
【氏名】ソン,ミン キョン
(72)【発明者】
【氏名】キム,ヨン ホ
(72)【発明者】
【氏名】クウォン,ジョン ヒョン
【審査官】大野 朋也
(56)【参考文献】
【文献】韓国登録特許第10-2379331(KR,B1)
【文献】韓国登録特許第10-2362582(KR,B1)
【文献】特開2020-140423(JP,A)
【文献】特許第7405248(JP,B2)
【文献】特開2013-200659(JP,A)
【文献】特開2020-046920(JP,A)
【文献】特開2020-038635(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
プロセッサーと、前記プロセッサーによって実行可能なインストラクションまたはプログラムを保存するメモリーと、を含むコンピューティング装置で実行されるデータ再識別可能性の減少のためのデータ処理方法であって、
前記コンピューティング装置が処理対象データセットのコラム(column)別に範疇別の頻度数を求めるステップと、
前記コンピューティング装置が前記範疇別の頻度数が予め決められた特異情報の臨界値より小さな範疇を特異情報と判断するステップと、
前記コンピューティング装置が前記処理対象データセットの各行(row)別に特異情報件数を求めるステップであって、前記特異情報件数は、該当行で特異情報と判断されたデータ値の個数であるステップと、
前記コンピューティング装置が前記各行別に求められた特異情報件数によって前記各行別に特異情報処理技法を決めるステップと、
前記コンピューティング装置が前記各行別に決まった特異情報処理技法によって前記処理対象データセットの各行を処理するステップと、
を含むことを特徴とする、データ処理方法。
【請求項2】
前記特異情報処理技法は、
値置き換え、ローカル削除および行削除のうち一つ以上を含み、
前記値置き換えは、特異情報と判断されたデータ値を予め決められた他の値に置き換えることであり、
前記ローカル削除は、特異情報と判断されたデータ値を空値(null)に置き換えることであり、
前記行削除は、行全体を前記処理対象データセットから削除することであることを特徴とする、請求項1に記載のデータ処理方法。
【請求項3】
前記各行別に決まる特異情報処理技法は、
特異情報件数がα以上でβ未満である行の場合、値置き換えと決まり、
特異情報件数がβ以上でγ未満である行の場合、ローカル削除と決まり、
特異情報件数がγ以上である行の場合、行削除と決まり、
ここでα、β、γは正の整数であり、α<β<γであることを特徴とする、請求項2に記載のデータ処理方法。
【請求項4】
前記コンピューティング装置が前記各行別に決まった特異情報処理技法を前記コンピューティング装置の画面に表示して推薦するステップをさらに含むことを特徴とする、請求項3に記載のデータ処理方法。
【請求項5】
前記処理対象データセットの各コラム別に前記特異情報の臨界値を決定することを特徴とする、請求項1に記載のデータ処理方法。
【請求項6】
請求項1~5のいずれか一項に記載のデータ処理方法をコンピューターで実行させるためのプログラムを記録したコンピューターで読み取ることができる記録媒体。
【請求項7】
コンピューティング装置であって、
プロセッサーと、
前記プロセッサーによって実行可能なインストラクションまたはプログラムを保存するメモリーと、を含み、
前記インストラクションまたはプログラムが前記プロセッサーによって実行されると、請求項1~5のいずれか一項のデータ処理方法が実行される、コンピューティング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ再識別可能性の減少のためのデータ処理方法に関する。
【背景技術】
【0002】
仮名処理された個人情報活用に対する関心が高くなるにつれ、仮名情報の再識別可能性に対する問題が台頭している。特に、特定個人に対する識別可能性が非常に高い特異情報に対する処理が必要であるが、これを処理する方法に対する研究は多くなく、統計学や人工知能学習用で活用される異常値探知技法適用は適していない。
【0003】
仮名情報において特異情報とは、希少な姓氏、職業または特定地域の高額給与受給者、高額滞納金額など、他の情報と確実に区分されるか、非正常的に分布を外れた値であって、特定個人の識別可能性が非常に高い情報である。このような特異情報を処理することだけでも仮名情報に対する再識別の危険を下げることができるが、特異情報の判断は、専門家の経験または知識などを活用して主観的に探知して処理される場合が多い。定性的に専門家の判断で探知されるため、人のミスによって特異情報の一部を見ることができないヒューマンエラーなどのような問題が発生する可能性がある。また、病名や医薬品コードなど、一般人が分かり難い情報が多いため、専門家の助けが必須に要求される医療分野のような特定分野では、専門家の助けを受けることができない場合、データ再識別危険にそのまま露出する可能性が非常に高い。
【0004】
一般的なデータ類型は、大きく範疇型データと数値型データに区分される。範疇型データは、性別、血液型、学歴などのようにカテゴリーに分類されるデータで主に文字形態で構成され、数値型データは、年齢、体重、給与など、数字形態で構成されたデータを意味する。範疇型データは、度数分布表、ヒストグラムなどを通じて頻度数を分析して特異情報を判断し、数値型データは、統計分野の異常値探知技法を活用して非正常的に分布を外れた最小値または最大値を判断する。
【0005】
しかし、数値型データの異常値探知方法は、一般的な統計または人工知能学習用データに対する異常値を探知するのに適しているが、最小値または最大値にデータが密集する可能性のある仮名情報における特異情報の判断には適していない。また、2次元テーブル形態で表現される仮名情報で上記のような異常値探知技法をそのまま適用することになれば、行削除、ローカル削除、値置き換えなど、特異情報処理時に無分別なデータ加工によってデータ分析に困難が生じることがある。一般的な人工知能学習用または統計用資料とは異なり、仮名情報では全体データに対して特異情報有無を先に探知し、これを行単位で判断して特異情報に対して柔軟に処理する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする技術的課題は、専門家の介入を無くすか、または最小化するとともにデータ再識別可能性の減少のためのデータの特異情報を処理することができるデータ処理方法を提供することである。
【課題を解決するための手段】
【0007】
上記の技術的課題を解決するための本発明に係るコンピューターで実行されるデータ再識別可能性の減少のためのデータ処理方法は、処理対象データセットのコラム(column)別に範疇別の頻度数を求めるステップと、前記範疇別の頻度数が予め決められた特異情報の臨界値より小さな範疇を特異情報と判断するステップと、前記処理対象データセットの各行(row)別に特異情報件数を求めるステップであって、前記特異情報件数は、該当行で特異情報と判断されたデータ値の個数であるステップと、前記各行別に求められた特異情報件数によって前記各行別に特異情報処理技法を決めるステップと、を含む。
【0008】
前記特異情報処理技法は、値置き換え、ローカル削除および行削除のうち一つ以上を含むことができる。
【0009】
前記値置き換えは、特異情報と判断されたデータ値を予め決められた他の値に置き換えるものであってよい。
【0010】
前記ローカル削除は、特異情報と判断されたデータ値を空値(null)に置き換えたものであってよい。
【0011】
前記行削除は、行全体を前記処理対象データセットから削除するものであってよい。
【0012】
前記特異情報処理技法は、特異情報件数がα以上でβ未満の場合、値置き換えと決まり、特異情報件数がβ以上でγ未満の場合、ローカル削除と決まり、特異情報件数がγ以上である場合、行削除と決まることができる。
【0013】
ここで、α、β、γは正の整数であり、α<β<γであってよい。
【0014】
前記方法は、前記各行別に決まった特異情報処理技法を推薦するステップをさらに含むことができる。
【0015】
前記方法は、前記各行別に決まった特異情報処理技法によって前記処理対象データセットを処理するステップをさらに含むことができる。
【0016】
前記処理対象データセットの各コラム別に前記特異情報の臨界値を決定できる。
【0017】
上記の技術的課題を解決するための本発明の実施例は、前記データ処理方法をコンピューターで実行させるためのプログラムを記録したコンピューターで読み取ることができる記録媒体を含むことができる、
上記の技術的課題を解決するための本発明の実施例によるコンピューティング装置は、プロセッサーと、前記プロセッサーによって実行可能なインストラクションまたはプログラムを保存するメモリーと、を含み、前記インストラクションまたはプログラムが前記プロセッサーによって実行されると、前記データ処理方法を実行できる。
【発明の効果】
【0018】
本発明によれば、専門家の介入を無くすか、または最小化するとともにデータ再識別可能性の減少のためのデータの特異情報を処理することができる効果を有する。
【図面の簡単な説明】
【0019】
【
図1】本発明の一実施例によるコンピューティング装置の構成を概略的に示した図面である。
【
図2】本発明の一実施例によるデータ再識別可能性の減少のためのデータ処理方法を説明するために提供されるフローチャートである。
【
図3】仮名処理されたデータセットの一例を示したものである。
【
図4】
図3に例示したデータセットの各コラムのうちから職業コラムに対して範疇別の頻度数を求めた例を示したものである。
【
図5】本発明の一実施例による範疇別の頻度数によって特異情報を判断する例を示したものである。
【
図6】本発明の一実施例による行別の特異情報件数を求めた例を示した図面である。
【
図7】本発明の一実施例による特異情報処理技法を説明するための図面である。
【
図8】本発明の一実施例による各行別の特異情報処理技法が決まった例を示した図面である。
【発明を実施するための形態】
【0020】
それでは、添付の図面を参考にして本発明の実施例に対して本発明の属する技術分野における通常の知識を有する者が容易に実施することができるように詳しく説明する。
【0021】
本明細書において使用された用語は、実施例を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数型は文句で特に言及しない限り、複数型も含む。明細書において使用される「含む(comprises)」および/または「含み(comprising)」は、言及された構成要素の以外に一つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は、同一の構成要素を指称し、「および/または」は言及された構成要素のそれぞれおよび一つ以上のすべての組み合わせを含む。たとえ「第1」、「第2」などが多様な構成要素を叙述するために使用されるが、これらの構成要素は、これらの用語によって制限されないことは当然である。これらの用語は、単に一つの構成要素を他の構成要素と区別するために使用するものである。よって、以下において言及される第1構成要素は、本発明の技術的思想内で第2構成要素でもあり得ることは当然である。
【0022】
本明細書において、「コンピューティング装置」は、演算処理を遂行してユーザーに結果を提供することができる多様な装置がすべて含まれる。例えば、コンピューティング装置は、デスクトップPC、ノートパソコン(Note Book)コンピューター、サーバーコンピューターだけでなく、スマートフォン(Smart phone)、タブレットPC、セルラーフォン(Cellular phone)、PCSフォン(PCS phone;Personal Communication Service phone)、同期式/非同期式IMT-2000(International Mobile Telecommunication-2000)の移動端末機、ファームPC(Palm Personal Computer)、パーソナルデジタル補助機(PDA;Personal Digital Assistant)なども該当する。
【0023】
図1は、本発明の一実施例によるコンピューティング装置の構成を概略的に示した図面である。
【0024】
図1を参考すれば、コンピューティング装置100は、メモリー110およびプロセッサー120を含むことができる。
【0025】
メモリー110は、少なくとも一つ以上のインストラクション(Instruction)および/またはプログラムを保存することができる。また、メモリー110は、コンピューティング装置100でデータ再識別可能性の減少のためのデータ処理方法と関連した各種作業に利用されるデータを保存することができる。
【0026】
プロセッサー120は、メモリー110に保存されたインストラクションおよび/またはコンピュータープログラムを実行して、コンピューティング装置100でデータ再識別可能性の減少のためのデータ処理方法を実行することができる。
【0027】
図1においては、説明の便宜上、一つのメモリー110およびプロセッサー120を例示しているが、コンピューティング装置100によって一つ以上のメモリー110および一つ以上のプロセッサー120を含むことができる。
【0028】
図2は、本発明の一実施例によるデータ再識別可能性の減少のためのデータ処理方法を説明するために提供されるフローチャートである。
【0029】
図1および
図2を参考すれば、先ず、コンピューティング装置100は、処理対象データセットのコラム別に範疇別の頻度数を求める作業を実行できる(S210)。
【0030】
ここで、処理対象データセットは、氏名・電話番号などの個人を識別することができる情報を削除するか、置き換える(仮名処理)などの方法で識別可能性を下げた個人情報からなる仮名処理されたデータセットであってよい。
【0031】
図3は、仮名処理されたデータセットの一例を示したものである。
【0032】
コンピューティング装置100は、
図3に例示したような処理対象データセットの年齢層、性別、住居地域、職業、連絡先、会員等級などの各コラムに対して範疇別の頻度数を集計することができる。
【0033】
図4は、
図3に例示したデータセットの各コラムのうちから職業コラムに対して、範疇別の頻度数を求めた例を示したものである。
【0034】
具体的に、
図4は、
図3に例示したデータセットの「職業」コラムに対して、「歌手」の頻度数が「11」、「消防官」の頻度数が「45」、・・・、「エンジニア」の頻度数が「4268」、「営業社員」の頻度数が「16201」で集計された例を示している。
【0035】
以後、コンピューティング装置100は、範疇別の頻度数が予め決められた特異情報の臨界値より小さな範疇を特異情報と判断することができる(S220)。
【0036】
図5は、本発明の一実施例による範疇別の頻度数によって特異情報を判断する例を示したものである。
【0037】
図5を参考すれば、例えば、「職業」コラムで「歌手」の頻度数が「11」、「消防官」の頻度数が「45」で特異情報の臨界値「50」より小さいので、「職業」コラムで「歌手」と「消防官」を特異情報と判断することができる。
【0038】
特異情報の臨界値は、ステップ(S220)の以前にユーザーから予め設定されるか、予め決められたデフォルト値を使用できる。また、特異情報の臨界値は、処理対象データセットの各コラム別にそれぞれ設定することも可能である。
【0039】
次に、コンピューティング装置100は、処理対象データセットの各行(row)(レコード)別に特異情報件数を求めることができる(S230)。具体的に、ステップ(S230)で各行別に求められる特異情報件数は、該当行で特異情報と判断されたデータ値の個数である。
【0040】
図6は、本発明の一実施例による行別の特異情報件数を求めた例を示した図面である。
【0041】
図6において、「Outlier」は、特異情報と判断されたデータ値を示す。例えば、
図3および
図4において例示した場合において、「職業」コラムにおいて、「歌手」と「消防官」に該当するデータ値は特異情報と判断された場合であるので、
図6のように、「Outlier」に該当する。
【0042】
図6において、最も右側コラムの「特異情報件数」は、各行に対して集計された特異情報件数を示す。例えば、Index 4に該当する行を見ると、コラム3に「Outlier」が1個あるので、特異情報件数は「1」になる。
【0043】
次に、コンピューティング装置100は、各行(record)別に求められた特異情報件数によって各行(record)別に特異情報処理技法を決めることができる(S240)。
【0044】
特異情報処理技法は、値置き換え、ローカル削除および行削除などがあり得る。ここで、値置き換えは、特異情報と判断されたデータ値を予め決められた他の値に置き換えることを意味する。ローカル削除は、特異情報と判断されたデータ値を空値(null)に置き換えることを意味する。行削除は、行全体を処理対象データセットから削除することを意味する。
【0045】
コンピューティング装置100は、行別に求められた特異情報件数を変数値α、β、γと比較して特異情報処理技法を決めることができる。
【0046】
図7は、本発明の一実施例による特異情報処理技法を説明するための図面である。
【0047】
図7に例示したように、該当行に対して求められた特異情報件数がα未満であれば、何の処理もしなくてよい。そして、該当行に対して求められた特異情報件数がα以上でβ未満の場合、特異情報処理技法を値置き換えと決定できる。一方、該当行に対して求められた特異情報件数がβ以上でγ未満の場合、ローカル削除と決定でき、特異情報件数がγ以上である場合、行削除と決定できる。ここでα、β、γは正の整数であり、α<β<γであることができる。
【0048】
図8は、本発明の一実施例による各行別の特異情報処理技法が決まった例を示した図面である。
【0049】
図8においては、α=1、β=2、γ=3に設定された場合、先立って
図6で各行別に求められた特異情報件数によって処理技法が決まった結果を示している。例えば、Index 4に該当する行は特異情報件数が「1」であるので、処理技法として「値置き換え」が選択されたことが分かる。そして、Index 4に該当する行は、特異情報件数が「4」でγ=3より大きいため、処理技法が「行削除」に選択されたことが分かる。
【0050】
さらに
図2を参考すれば、コンピューティング装置100は、先立って各行別に決まった特異情報処理技法をコンピューター画面に表示する方式などでユーザーに推薦することができる(S250)。
【0051】
ステップ(S250)でコンピューティング装置100が各行別に推薦された特異情報処理技法によって処理対象データセットを処理するか否かをユーザーに確認できるようにすることも可能である。そして、特異情報処理技法が値置き換えである場合、振り替える値をユーザーが選択するか、または振り替える値を決める基準をユーザーが選択するようにコンピューティング装置100を実行できる。例えば、該当コラムで最も頻度数が多い範疇で特異情報を置き換える方式と、特異情報ではないが最も頻度数が少ない範疇で特異情報を置き換える方式のうち一つを選択するようにすることも可能である。もちろん、ここで例示した値置き換え方法の外にも他の方法を提示してユーザーに選択させることも可能である。また、予め決められた基準によってコンピューティング装置100が特異情報を置き換えるデータ値を決め、それによって特異情報を置き換えるようにすることも可能である。
【0052】
最後に、コンピューティング装置100は、各行別に決まった特異情報処理技法によって処理対象データセットを処理することができる(S260)。
【0053】
実施例によって、ステップ(S250)は省略されることもある。この場合、コンピューティング装置100は、ステップ(S240)で各行別に決まった特異情報処理技法によって自動で処理対象データセットを処理することもできる。
【0054】
もちろん、実施例によって各行別に決まった特異情報処理技法を推薦するステップ(S250)まで実行し、特異情報処理技法によって処理対象データセットを処理するステップ(S260)は省略することも可能である。
【0055】
一方、数値型データの場合には、それぞれのデータ値を一つの範疇と見なして、上記で説明した方法を適用することができる。
【0056】
以上において説明された実施例は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素およびソフトウェア構成要素の組み合わせで実現できる。例えば、実施例において説明された装置、方法および構成要素は、例えば、プロセッサー、コントローラ、ALU(arithmetic logic unit)、デジタルシグナルプロセッサー(digital signal processor)、マイクロコンピューター、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサー、またはインストラクション(instruction)を実行して応答することができる他の装置のように、一つ以上の汎用コンピューティング装置または特殊目的コンピューティング装置を利用して実現できる。処理装置は、オペレーティングシステム(OS)および前記オペレーティングシステム上で実行される一つ以上のソフトウェアアプリケーションを実行することができる。また、処理装置は、ソフトウェアの実行に応答して、データをアプローチ、保存、操作、処理および生成することもできる。理解の便宜のために、処理装置は一つが使用されるものと説明された場合もあるが、該当技術分野における通常の知識を有する者は、処理装置が複数個の処理要素(processing element)および/または複数類型の処理要素を含むことができることが分かる。例えば、処理装置は、複数個のプロセッサーまたは一つのプロセッサーおよび一つのコントローラを含むことができる。また、並列プロセッサー(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0057】
ソフトウェアは、コンピュータープログラム(computer program)、コード(code)、インストラクション(instruction)、またはこれらのうちから一つ以上の組み合わせを含むことができ、所望通り動作するように処理装置を構成するか、独立に、または結合して(collectively)処理装置を命令することができる。ソフトウェアおよび/またはデータは、処理装置によって解析されるか、処理装置に命令またはデータを提供するために、ある類型の機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピューター保存媒体または装置に永久的に、または一時的に具体化(embody)できる。ソフトウェアは、ネットワークで連結されたコンピューターシステム上に分散され、分散された方法で保存または実行されることもできる。ソフトウェアおよびデータは、一つ以上のコンピューター読み取り可能な記録媒体に保存されることができる。
【0058】
実施例による方法は、多様なコンピューター手段を通じて実行できるプログラム命令形態で実現されてコンピューター読み取り可能媒体に記録できる。前記コンピューター読み取り可能媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、実施例のために特に設計されて構成されたものであるか、コンピューターソフトウェア当業者に公知になって使用可能なものであってもよい。コンピューター読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体(magnetic media)、CD-ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical media)、およびロム(ROM)、ラム(RAM)、フラッシュメモリーなどのようなプログラム命令を保存し、実行するように特に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーにより作られるもののような機械語コードだけでなく、インタプリタなどを使用してコンピューターによって実行できる高級言語コードを含む。上記のハードウェア装置は、実施例の動作を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成でき、その反対も同様である。
【0059】
以上のように、実施例がたとえ限定された図面によって説明されたとしても、該当技術分野における通常の知識を有する者であれば、前記に基づいて多様な技術的修正および変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されるか、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合または組み合わせられるか、他の構成要素または均等物によって対置されるか、または置き換えるとしても、適切な結果を達成できる。
【要約】
【課題】本発明は、データ再識別可能性の減少のためのデータ処理方法に関する。
【解決手段】本発明に係る方法は、処理対象データセットのコラム別に範疇別の頻度数を求めるステップと、範疇別の頻度数が予め決められた特異情報の臨界値より小さな範疇を特異情報と判断するステップと、処理対象データセットの各行別に特異情報件数を求めるステップであって、特異情報件数は、該当行で特異情報と判断されたデータ値の個数であるステップと、各行別に求められた特異情報件数によって各行別に特異情報処理技法を決めるステップと、を含む。本発明によれば、専門家の介入を無くすか、または最小化するとともにデータ再識別可能性の減少のためのデータの特異情報を処理することができる効果を有する。
【選択図】
図2