IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アンラブ,インコーポレイテッドの特許一覧

特表2024-527682多重フィルタリングを用いた個人情報探知強化方法及び装置
<>
  • 特表-多重フィルタリングを用いた個人情報探知強化方法及び装置 図1
  • 特表-多重フィルタリングを用いた個人情報探知強化方法及び装置 図2
  • 特表-多重フィルタリングを用いた個人情報探知強化方法及び装置 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-26
(54)【発明の名称】多重フィルタリングを用いた個人情報探知強化方法及び装置
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240719BHJP
【FI】
G06N20/00
G06N20/00 130
G06N20/00 160
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023574580
(86)(22)【出願日】2021-12-17
(85)【翻訳文提出日】2023-11-29
(86)【国際出願番号】 KR2021019348
(87)【国際公開番号】W WO2023106498
(87)【国際公開日】2023-06-15
(31)【優先権主張番号】10-2021-0172572
(32)【優先日】2021-12-06
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】512117199
【氏名又は名称】アンラブ,インコーポレイテッド
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】キム クンジン
(72)【発明者】
【氏名】キム キョンミン
(72)【発明者】
【氏名】パク ソンジュ
(57)【要約】
多重フィルタリングを用いた個人情報探知強化方法及び装置が提供される。前記方法は、入力データに対して記録データ及びパターンデータを用いて第1フィルタリングを実行する段階と、既に構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類する段階と、前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行する段階と、前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートする段階と、を含む。
【特許請求の範囲】
【請求項1】
装置によって実行される方法であって、
入力データに対して記録データ及びパターンデータを用いて第1フィルタリングを実行する段階と、
既に構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類する段階と、
前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行する段階と、
前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートする段階と、を含む、多重フィルタリングを用いた個人情報探知強化方法。
【請求項2】
前記第1フィルタリングを実行する段階は、
前記入力データを、前記教師あり学習モデルの予測結果に基づいて、既に収集された前記記録データと比較し、前記入力データが前記記録データに相当するかを判断し、
前記記録データに相当しないデータに対して正規表現式パターン検査を実行し、データ形態に関して、既に保存されたパターンデータののうちで前記入力データの形態に相当するパターンデータが存在するかを判断する、請求項1に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項3】
前記パターンデータが存在する入力データに対して、前記パターンデータに相当するクラスを前記パターンデータが存在する入力データのクラスと決定する段階をさらに含む、請求項2に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項4】
前記クラス分類段階は、前記パターンデータが存在しない入力データを前記教師あり学習モデルに適用して前記パターンデータが存在しない入力データのクラスを分類する、請求項2に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項5】
前記第2フィルタリングを実行する段階は、
前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを実行することにより、前記第1フィルタリングされた入力データに対して分類されたクラスが正確であるかを判断する段階を含む、請求項1に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項6】
前記クラスが正確であるかを判断する段階は、
前記分類されたクラスに対するデータ統計値を基準に、前記第1フィルタリングされた入力データの特徴値が既設定の範囲を外れる場合、前記分類されたクラスが正確でないと判断し、
前記第1フィルタリングされた入力データと前記教師あり学習モデルが学習した複数のクラスのそれぞれのデータとの間の類似度を測定し、前記複数のクラスのうちで前記類似度値が最大のクラスを前記第1フィルタリングされた入力データのクラスとして選択して前記分類されたクラスを補正する、請求項5に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項7】
前記既設定の範囲は、データ特性に基づいて設定され、
前記データ特性は、データの長さ分布、データの文字数分布、及び学習スコア分布を含む、請求項6に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項8】
前記教師あり学習モデルをアップデート段階は、前記補正されたクラス及び前記入力データを前記教師あり学習モデルの学習データとして追加して前記教師あり学習モデルをアップデートする、請求項6に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項9】
前記第2フィルタリングされた結果データに基づいて、既に構築された記録基盤のモデル、既に構築されたパターン基盤のモデル、既に構築された統計基盤のモデル、及び既に構築された教師なし学習モデルをアップデートする段階をさらに含む、請求項1に記載の多重フィルタリングを用いた個人情報探知強化方法。
【請求項10】
コンピュータと結合され、請求項1~9のいずれか一項に記載の方法を実行するためにコンピュータ可読の記録媒体に保存された、プログラム。
【請求項11】
通信部と、
多重フィルタリングを用いた個人情報探知を強化するための少なくとも一つのプロセスを保存しているメモリと、
前記プロセスによって動作するプロセッサと、を含み、
前記プロセッサは、前記プロセスに基づいて、
入力データに対して記録データ及びパターンデータを用いて第1フィルタリングを実行し、
既に構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類し、
前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行し、
前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートする、多重フィルタリングを用いた個人情報探知強化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は多重フィルタリングを用いた個人情報探知強化方法及び装置に関する。
【背景技術】
【0002】
教師あり学習(Supervised Learning)は、正解があるデータを訓練データ(Training Data)として活用して一つの学習モデルを構築するための機械学習(Machine Learning)の一方法である。このように構築された学習モデルは、入力データが入力されると、当該データの特性を分析し、結果データとして当該データのクラスを出力することができる。
【0003】
しかし、教師あり学習の場合、確率に基づく予測であるので、明確に区分することができる入力データに対しても誤予測がなされ得るという問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、多重フィルタリングを用いた個人情報探知強化方法及び装置を提供することである。
【0005】
ただし、本発明が解決しようとする課題は前記のような課題に限定されず、他の課題が存在し得る。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明の一面による多重フィルタリングを用いた個人情報探知強化方法は、入力データに対して記録データ及びパターンデータを用いて第1フィルタリングを実行する段階と、既に構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類する段階と、前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行する段階と、前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートする段階と、を含む。
【0007】
また、前記第1フィルタリングを実行する段階は、前記入力データを、前記教師あり学習モデルの予測結果に基づいて、既に収集された前記記録データと比較し、前記入力データが前記記録データに相当するかを判断し、前記記録データに相当しないデータに対して正規表現式パターン検査を実行し、データ形態に関して、既に保存されたパターンデータののうちで前記入力データの形態に相当するパターンデータが存在するかを判断することができる。
【0008】
また、前記方法は、前記パターンデータが存在する入力データに対して、前記パターンデータに相当するクラスを前記パターンデータが存在する入力データのクラスと決定する段階をさらに含むことができる。
【0009】
また、前記クラス分類段階は、前記パターンデータが存在しない入力データを前記教師あり学習モデルに適用して前記パターンデータが存在しない入力データのクラスを分類することができる。
【0010】
また、前記後処理フィルター適用段階は、前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを実行することにより、前記第1フィルタリングされた入力データに対して分類されたクラスが正確であるかを判断する段階を含むことができる。
【0011】
また、前記クラスが正確であるかを判断する段階は、前記分類されたクラスに対するデータ統計値を基準に、前記第1フィルタリングされた入力データの特徴値が既設定の範囲を外れる場合、前記分類されたクラスが正確でないと判断し、前記第1フィルタリングされた入力データと前記教師あり学習モデルが学習した複数のクラスのそれぞれのデータとの間の類似度を測定し、前記複数のクラスのうちで前記類似度値が最大のクラスを前記第1フィルタリングされた入力データのクラスとして選択して前記分類されたクラスを補正することができる。
【0012】
また、前記既設定の範囲は、データ特性に基づいて設定され、前記データ特性は、データの長さ分布、データの文字数分布、及び学習スコア分布を含むことができる。
【0013】
また、前記教師あり学習モデルをアップデート段階は、前記補正されたクラス及び前記入力データを前記教師あり学習モデルの学習データとして追加して前記教師あり学習モデルをアップデートすることができる。
【0014】
また、前記方法は、前記第2フィルタリングされた結果データに基づいて、既に構築された記録基盤のモデル、既に構築されたパターン基盤のモデル、既に構築された統計基盤のモデル、及び既に構築された教師なし学習モデルをアップデートする段階をさらに含むことができる。
【0015】
前述した課題を解決するための本発明の他の面による多重フィルタリングを用いた個人情報探知強化装置は、通信部と、多重フィルタリングを用いた個人情報探知を強化するための少なくとも一つのプロセスを保存しているメモリと、前記プロセスによって動作するプロセッサと、を含み、前記プロセッサは、前記プロセスに基づいて、入力データに対して記録データ及びパターンデータを用いて第1フィルタリングを実行し、既に構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類し、前記分類されたクラスに基づいて、前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行し、前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートすることができる。
【0016】
その他にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムが記録されるコンピュータ可読の記録媒体をさらに提供することができる。
【0017】
本発明の他の具体的事項は詳細な説明及び添付図面に含まれている。
【発明の効果】
【0018】
上述した本発明によれば、多重フィルターを追加して教師あり学習の誤予測を補うことができる。
【0019】
具体的には、記録に基づく検索フィルターによって、以前に使用者によって選択された値及び明確なパターンを有するデータに対しては誤結果を出力しないことができる。
【0020】
また、教師あり学習によって、確実でないクラスと分類されたデータに対しても教師なし基盤のアルゴリズムに基づくフィルターによって正確度がより高いクラスに補正することができる。
【0021】
本発明の効果は以上で言及した効果に限定されず、言及しなかった他の効果は下記の記載から通常の技術者に明らかに理解可能であろう。
【図面の簡単な説明】
【0022】
図1】本発明による個人情報探知強化装置を説明する図である。
図2】本発明による個人情報探知強化方法のフローチャートである。
図3】本発明による個人情報探知及び探知結果に基づく教師あり学習モデルアップデートの全体プロセスを説明する図である。
【発明を実施するための形態】
【0023】
本発明の利点及び特徴、並びにそれらを達成する方法は添付図面に基づいて詳細に後述する実施例を参照すると明らかになるであろう。しかし、本発明は以下で開示する実施例に限定されるものではなく、様々な多様な形態に具現可能である。ただ、本実施例は本発明の開示が完全になるようにし、本発明が属する技術分野の通常の技術者に本発明の範疇を完全に知らせるために提供するものであり、本発明は特許請求の範囲によってのみ定義される。
【0024】
本明細書で使用する用語は実施例を説明するためのものであり、本発明を限定しようとするものではない。本明細書で、単数型は、文句で特に言及しない限り、複数型も含む。明細書で使用する「含む(comprises)」及び/又は「含んでいる(comprising)」は言及した構成要素の他に、一つ以上の他の構成要素の存在又は追加を排除しない。明細書全般にわたって同じ図面符号は同じ構成要素を示し、「及び/又は」は言及した構成要素のそれぞれ及び一つ以上のすべての組合せを含む。例えば、「第1」、「第2」などを多様な構成要素を敍述するのに使用するが、これらの構成要素はこれらの用語に限定されないというのは言うまでもない。これらの用語は単に一構成要素を他の構成要素と区別するために使用するものである。したがって、以下で言及する第1構成要素は本発明の技術的思想内で第2構成要素でもあり得るというのは言うまでもない。
【0025】
他の定義がない限り、本明細書で使用するすべての用語(技術的及び科学的用語を含み)は本発明が属する技術分野の通常の技術者に共通して理解可能な意味として使用可能であろう。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的に又は過度に解釈されない。
【0026】
以下、添付図面に基づいて本発明の実施例を詳細に説明する。
【0027】
説明に先立ち、本明細書で使用する用語の意味を簡略に説明する。しかし、用語の説明は本明細書の理解を手伝うためのものなので、明示的に本発明を限定する事項として記載しなかった場合、本発明の技術的思想を限定する意味として使うものではないことに気を付けなければならない。
【0028】
本明細書で、「装置」は、演算処理を実行して使用者に結果を提供することができる多様な装置のすべてを含む。例えば、装置はコンピュータ及び移動端末機の形態を有することができる。前記コンピュータは、クライアントから要請を受信して情報処理を実行するサーバーの形態を有することができる。また、コンピュータはシーケンシングを実行するシーケンシング装置が相当し得る。前記移動端末機は、携帯電話、スマートフォン(smart phone)、PDA(personal digital assistants)、PMP(portable multimedia player)、ナビゲーション、ノートブック型PC、スレートPC(slate PC)、タブレットPC(tablet PC)、ウルトラブック(ultrabook)、ウェアラブルデバイス(wearable device、例えば、ウォッチ型端末機(smart watch)、スマートガラス端末機(smart glass)、HMD(head mounted display))などを含むことができる。
【0029】
本明細書で、「教師あり学習モデル」は人工知能を基にする学習モデルであり、多様な人工知能アルゴリズムに基づいて学習できる。例えば、CNN、DNN、RNN、KNN、サポートベクターマシン(SVM)などのように、学習のためのアルゴリズムのいずれも適用可能である。
【0030】
図1は本発明による個人情報探知強化装置を説明する図である。図2は本発明による個人情報探知強化方法のフローチャートである。図3は本発明による個人情報探知及び探知結果に基づく教師あり学習モデルアップデートの全体プロセスを説明する図である。
【0031】
図1を参照すると、本発明の個人情報探知強化装置10(以下、装置という)は、通信部12と、メモリ14と、プロセッサ16と、を含むことができる。ここで、装置10は、図1に示す構成要素よりも少ないか又は多い数の構成要素を含むことができる。
【0032】
通信部12は、外部装置から入力データを受信することができる。ここで、外部装置は個人が使用する移動端末機であり得、企業(会社)が管理するサーバー装置であり得るが、これに限定されるものではない。
【0033】
ここで、入力データは、教師あり学習モデルに適用されて、どの個人情報が含まれたかを予測するために活用されるデータであり、個人情報は、名前、住民登録番号、住所、電話番号などを含むことができる。
【0034】
本発明の装置10の通信部12は、通信網を介して外部装置から入力データを受信することができる。
【0035】
ここで、通信網としては、多様な形態の通信網を用いることができる。例えば、WLAN(Wireless LAN)、ワイファイ(Wi-Fi)、ワイブロ(Wibro)、ワイマックス(Wimax)、HSDPA(High Speed Downlink Packet Access)などの無線通信方式又はイーサネット(Ethernet)、xDSL(ADSL、VDSL)、HFC(Hybrid Fiber Coax)、FTTC(Fiber to The Curb)、FTTH(Fiber To The Home)などの有線通信方式を用いることができる。
【0036】
一方、通信網は先に提示した通信方式に限定されるものではなく、上述した通信方式の他にも、広く知られているか又は今後開発されるすべての形態の通信方式を含むことができる。
【0037】
メモリ14には、多重フィルタリングを用いた個人情報探知を強化するための少なくとも一つのプロセスが保存される。また、メモリ14には既に構築された教師あり学習モデルが保存される。ここで、教師あり学習モデルは、入力データに含まれた個人情報に対するクラスを予測することができる。本発明は、教師あり学習モデルが確率に基づく予測を実行するから誤予測結果を出すことがあるので、多重フィルターを活用して前記教師あり学習モデルの誤予測を補うことができる。
【0038】
プロセッサ16は、装置10を制御するための全般的な機能と、教師あり学習モデルの予測に関連した各種の動作と、前記教師あり学習モデルの誤予測の補完に関連した各種の動作を実行することができる。例えば、プロセッサ16はメモリ14に保存されたプログラム又はプロセスを実行することによって装置10を制御するための全般的な機能と、教師あり学習モデルの予測に関連した各種の動作と、前記教師あり学習モデルの誤予測の補完に関連した各種の動作とを実行することができる。プロセッサ16は、装置10内に備えられたCPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、NPU(Neural Processing Unit)又はAP(Application Processor)などによって具現できるが、これに限定されない。
【0039】
図1を参照すると、プロセッサ16は、第1フィルターモジュール161と、教師あり学習モジュール162と、第2フィルターモジュール163と、を含むことができる。ここで、プロセッサ16は、図1に示す構成要素よりも少ないか又は多い数の構成要素を含むことができる。
【0040】
第1フィルターモジュール161は、入力データを教師あり学習モデルに適用するに先立ち、記録基盤及びパターン基盤の前処理フィルターを適用することにより、当該入力データが以前に予測されたデータであると、教師あり学習モデルに適用せず、以前に予測された結果を当該入力データに対する予測結果として活用することができる。
【0041】
教師あり学習モジュール162は、第1フィルタリングされた入力データ(すなわち、以前に予測されたことがなかったデータ)を教師あり学習モデルに適用して予測を実行することができる。
【0042】
教師あり学習モジュール162は一つ以上のコアで構成されることができ、コンピュータ装置の中央処理装置(CPU:central processing unit)、汎用グラフィック処理装置(GPGPU:general purpose graphics processing unit)、テンソル処理装置(TPU:tensor processing unit)などのデータ分析やディープラーニングのためのプロセッサを含むことができる。教師あり学習モジュール162は、メモリに保存されたコンピュータプログラムを読み取り、本発明の一実施例による多重フィルタリングを用いた個人情報探知強化を実行することができる。本発明の一実施例によって、教師あり学習モジュール162は、神経網の学習のための演算を実行することができる。教師あり学習モジュール162は、ディープラーニング(DL:deep learning)で学習のための入力データの処理、入力データからの特徴抽出、誤差計算、逆伝搬(backpropagation)を用いた神経網の加重値アップデートなどの神経網の学習のための計算を実行することができる。教師あり学習モジュール162のCPU、GPGPU、及びTPUのうちの少なくとも一つがネットワーク関数の学習を処理することができる。例えば、CPU及びGPGPUが一緒にネットワーク関数の学習、及びネットワーク関数を用いたデータ分類を処理することができる。また、本発明の一実施例で、複数のコンピューティング装置のプロセッサを一緒に使用して、ネットワーク関数の学習、及びネットワーク関数を用いたデータ分類を処理することができる。また、本発明の一実施例によるコンピュータ装置で実行されるコンピュータプログラムは、CPU、GPGPU又はTPU実行可能プログラムであり得る。
【0043】
第2フィルターモジュール163は教師なし基盤のアルゴリズムを用いた後処理フィルターを適用して、教師あり学習モデルの予測結果が正確であるかを判断し、不正確な予測結果を補正することができる。
【0044】
このように補正された予測結果は教師あり学習モデルによって学習されることにより、教師あり学習モデルの予測正確度を向上させることができる。
【0045】
以下では、図2及び図3に基づいて、本発明のプロセッサ16が前処理フィルタリング(第1フィルタリング)及び後処理フィルタリング(第2フィルタリング)によって教師あり学習技法を補う方法について詳細に説明する。ここで、プロセッサ16の動作は装置10で実行することができる。
【0046】
図2を参照すると、プロセッサ16は、入力データに対して、記録データ及びパターンデータを用いて第1フィルタリングを実行することができる(S100)。
【0047】
プロセッサ16は、構築された教師あり学習モデルを用いて前記第1フィルタリングされた入力データのクラスを分類することができる(S200)。
【0048】
プロセッサ16は、前記分類されたクラスに基づいて前記第1フィルタリングされた入力データに対して教師なし基盤のアルゴリズムを用いて第2フィルタリングを実行することができる(S300)。
【0049】
プロセッサ16は、前記第2フィルタリングされた結果データに基づいて前記教師あり学習モデルをアップデートすることができる(S400)。
【0050】
上述したように、入力データは個人情報を含んでいるデータであり得る。本発明は教師あり学習モデルによって、入力データに含まれた個人情報がどの種類の個人情報であるかを探知する。この際、教師あり学習モデルの予測が不正確な場合に備えて第1フィルタリング及び第2フィルタリングを実行することにより、入力データに含まれた個人情報の種類を正確に把握することができるようにする。そして、このように第1フィルタリング及び第2フィルタリングによって正確に予測された結果データを学習することにより、前記教師あり学習モデルの性能を改善することができる。
【0051】
段階S100で、プロセッサ16は、前記入力データを記録データ及びパターンデータと比較して第1フィルタリングを実行することができる。
【0052】
ここで、記録データは、教師あり学習モデルの以前予測結果に基づいて既に収集されたデータであり得る。より詳細には、以前に教師あり学習モデルに入力されて予測が実行された入力データのうちで予測結果が正確であったデータのみが記録データとして収集できる。記録データは、入力データ及び当該入力データのクラス(予測結果)がマッピングされて収集できる。パターンデータは、正規表現式によるデータ形態に対して既に保存されたデータであり得る。個人情報は互いに異なる形態を有しているので、それぞれの形態がパターンデータとして予め設定できる。
【0053】
具体的には、プロセッサ16は、既に収集された記録データのうちで入力データと同じデータがあるかを確認し、同じデータがあると、当該データのクラスを入力データのクラスと決定することができる。例えば、入力データが「洪吉童」の場合、記録データのうち「洪吉童」のデータがあり、当該データにマッピングされたクラスが「名前」であると、前記入力データ「洪吉童」のクラスは「名前」と決定することができる。
【0054】
一方、図3に示すように、既に収集された記録データのうちで入力データと同じデータがない場合、プロセッサ16は、当該入力データをパターンデータと比較することができる。
【0055】
具体的には、記録データに相当しないデータに対して正規表現式パターン検査を実行することにより、既に保存されたパターンデータのうちで前記入力データの形態に相当するパターンデータが存在するかを判断することができる。そして、入力データの形態に相当するパターンデータが存在すると、当該データのクラスを入力データのクラスと決定することができる。例えば、入力データが「000000-0000000(住民登録番号の形態)」の場合、正規表現式パターン検査によってパターンデータのうちで「¥d{6}¥-[1-4]¥d{6}」のパターンが存在すれば、前記入力データ「000000-0000000」のクラスは「住民登録番号」と決定し得る。
【0056】
一方、図3に示すように、既に保存されたパターンデータのうちで入力データの形態と同じパターンデータがない場合、プロセッサ16は、当該入力データを教師あり学習モデルに入力することができる。
【0057】
段階S200で、プロセッサ16は、パターンデータが存在しない入力データを前記教師あり学習モデルに適用して、前記パターンデータが存在しない入力データのクラスを分類することができる。
【0058】
すなわち、段階S200でクラス分類が実行されるデータは段階S100で第1フィルタリングされたデータを意味し得る。より詳細には、第1フィルタリングされたデータは前記記録データ及び前記パターンデータに含まれないデータを意味し、段階S200で、前記記録データ及び前記パターンデータに含まれないデータに対してクラスを分類することができる。
【0059】
段階S300で、プロセッサ16は、前記分類されたクラスに対するデータ統計値を基準に、前記第1フィルタリングされた入力データの特徴値が既設定の範囲を外れる場合、前記分類されたクラスが正確ではないと判断することができる。
【0060】
ここで、前記既設定の範囲はデータ特性に基づいて設定することができる。ここで、データ特性は、データの長さ分布、データの文字数分布及び学習スコア分布を含むことができる。しかし、本発明はこれに限定されず、データに合う多様な特性はいずれも適用可能である。
【0061】
実施例によって、既設定の範囲は、データの長さ分布、データの文字数分布及び学習スコア分布のうちの少なくとも一つに基づいて設定することができる。個人情報ごとに全長、含まれたハングル、英語、数字及び特殊文字などの個数、学習結果のcorrect及びincorrectスコアが異なり、その統計値も異なり得る。各個人情報の統計値を基準に範囲を設定し、入力データの特徴値が該当範囲内に含まれるかによって、分類されたクラスが正確であるかを判断することができる。
【0062】
例えば、分類されたクラスが「名前」の場合、名前データが文字数分布、文字数分布及び学習スコア分布で0~1の値うち0.5に分布し、既設定の範囲が±0.1であると、当該入力データの特徴値が0.4~0.6の値である場合にのみ、分類されたクラスが正確であると判断することができる。
【0063】
前記文字数分布、文字数分布及び学習スコア分布のうちの少なくとも一つの分布で、特徴値が既設定の範囲に含まれないと、当該入力データに対して分類されたクラスは正確ではないと判断することができる。
【0064】
このように分類されたクラスが正確でないと判断されると、プロセッサ16は、入力データに対して教師なし基盤のアルゴリズムを適用することができる。
【0065】
具体的には、プロセッサ16は、前記第1フィルタリングされた入力データ及び前記教師あり学習モデルが学習した複数のクラスのそれぞれのデータの間の類似度を測定し、前記複数のクラスのうちで類似度値が最大のクラスを前記第1フィルタリングされた入力データのクラスとして選択して前記分類されたクラスを補正することができる。
【0066】
教師あり学習モデルによって入力データのクラスが「名前」と分類された場合を例として挙げると、プロセッサ16は、当該入力データに対して複数のクラス(例えば、「住所」、「住民登録番号」、「携帯電話番号」など)のそれぞれのデータとの類似度を測定したとき、当該入力データの「携帯電話番号」のデータとの類似度が最も高ければ、当該入力データに対して「名前」と分類されたクラスを「携帯電話番号」に補正することができる。
【0067】
段階S400で、プロセッサ16は、前記補正されたクラス及び前記入力データを前記教師あり学習モデルの学習データとして追加して前記教師あり学習モデルをアップデートすることができる。
【0068】
すなわち、入力データを入力値とし、正解値は教師あり学習モデルの誤予測結果ではない、教師なし基盤のアルゴリズムによって補正されたクラスにして学習することにより、前記教師あり学習モデルをアップデートすることができる。
【0069】
また、入力データ及び当該データに対して補正されたクラスは、前記記録データ、パターンデータ及び教師なし基盤のアルゴリズム関連データにも追加することができる。したがって、以後の記録データ及びパターンデータを用いた前処理フィルタリング及び教師なし基盤のアルゴリズムを用いた後処理フィルタリングの正確度まで高めることができる。
【0070】
実施例によって、本発明は、一つの全プロセス(段階S100~段階S300)が終了した後、教師あり学習モデルのアップデート(段階S400)を実行するとき、前記第2フィルタリングされた結果データに基づいて既に構築された記録基盤のモデル、既に構築されたパターン基盤のモデル、既に構築された統計基盤のモデル、及び既に構築された教師なし学習モデルをアップデートする段階をさらに含むことができる。
【0071】
すなわち、教師あり学習モデルだけでなく、残りの4個のモデルに対しても同じデータをもってアップデートを実行することができる。
【0072】
記録基盤のモデルは、前記プロセス(段階S100~段階S300)の結果値が既存に追加されなかった情報の場合、当該結果値を記録リストに追加することによってアップデートすることができる。
【0073】
パターン基盤のモデルは、前記プロセス(段階S100~段階S300)の結果値が既存に追加されなかったパターンの場合、当該結果値をパターンリストに追加することによってアップデートすることができる。
【0074】
教師あり学習モデルは、上述したように、前記プロセス(段階S100~段階S300)の結果値を正解値として学習することによってアップデートすることができる。
【0075】
統計基盤のモデルは、前記プロセス(段階S100~段階S300)の結果値から統計で要求する特徴(feature)値を抽出して保存することによってアップデートすることができる。
【0076】
教師なし学習モデルは、前記プロセス(段階S100~段階S300)の結果値自体を入力値として学習を実行することによってアップデートすることができる。
【0077】
図2は段階S100~段階S300を順次実行するものとして記載しているが、これは本実施例の技術思想を例示的に説明したものに過ぎず、本実施例が属する技術分野で通常の知識を有する者であれば、本実施例の本質的な特性から逸脱しない範囲内で図2に記載した手順を変更して実行するか、又は段階S100~段階S300を並列に実行するものに多様に修正及び変形して適用することができるので、図2は時系列的手順に限定されるものではない。
【0078】
一方、上述した説明で、段階S100~段階S300は、本発明の具現例によって、追加の段階にさらに分割するか、又はより小さい段階で組み合わせられ得る。また、一部の段階は必要に応じて省略することもでき、段階間の手順を変更することもできる。
【0079】
以上で説明した本発明による多重フィルタリングを用いた個人情報探知強化方法は、ハードウェアであるコンピュータと結合されて実行されるためにプログラム(又はアプリケーション)として具現されてコンピュータ可読の記録媒体に保存され得る。
【0080】
前述したプログラムは、前記コンピュータがプログラムを読み取り、プログラムとして具現された前記方法を実行するために、前記コンピュータのプロセッサ(CPU)が前記コンピュータの装置インターフェースを介して読み込むことができるC、C++、JAVA(登録商標)、Ruby、機械語などのコンピュータ言語でコード化さしたコード(Code)を含むことができる。このようなコードは、前記方法を実行するのに必要な機能を定義した関数などに係わる機能的コード(Functional Code)を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順に実行するのに必要な実行手順に関連した制御コードを含むことができる。また、このようなコードは、前記機能を前記コンピュータのプロセッサが実行するのに必要な追加の情報やメディアが前記コンピュータの内部又は外部メモリのうちのいずれか位置(アドレス番地)で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。また、前記コンピュータのプロセッサが前記機能を実行するために遠隔(Remote)のどの他のコンピュータやサーバーなどと通信する必要がある場合、コードは、前記コンピュータの通信モジュールを用いて遠隔のどの他のコンピュータやサーバーなどとどのように通信すべきか、通信の際、どの情報やメディアを送受信すべきかなどに対する通信関連コードをさらに含むことができる。
【0081】
前記記録媒体は、レジスター、キャッシュ、メモリなどのように短い瞬間にデータを保存する媒体ではなく、半永久的にデータを保存し、機器によって読取り(reading)可能な媒体を意味する。具体的には、前記保存される媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ記憶装置などがあるが、これに限定されない。すなわち、前記プログラムは、前記コンピュータが接続することができる多様なサーバー上の多様な記録媒体又は使用者の前記コンピュータ上の多様な記録媒体に保存できる。また、前記媒体には、ネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータが読めるコードが保存できる。
【0082】
前述した本発明の説明は例示のためのものであり、本発明が属する技術分野の通常の知識を有する者は本発明の技術的思想や必須特徴を変更しなくても他の具体的形態に容易に変形することができるというのが理解可能であろう。したがって、以上で記述した実施例はすべての面で例示的なものであり、限定的なものではないことを理解しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に分散されているものとして説明されている構成要素も結合された形態として実施できる。
【0083】
本発明の範囲は前記詳細な説明よりは後述する特許請求の範囲によって決定され、特許請求の範囲の意味及び範囲並びにその均等概念から導出されるすべての変更又は変形の形態は本発明の範囲に含まれるものと解釈されなければならない。
図1
図2
図3
【国際調査報告】