IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ワールド ヴァーテックス カンパニー リミテッドの特許一覧

特許7643695非定型データから個人情報を探知し露出危険度を測定する方法
<>
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図1
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図2
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図3
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図4
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図5
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図6
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図7
  • 特許-非定型データから個人情報を探知し露出危険度を測定する方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-03
(45)【発行日】2025-03-11
(54)【発明の名称】非定型データから個人情報を探知し露出危険度を測定する方法
(51)【国際特許分類】
   G06F 21/62 20130101AFI20250304BHJP
   G06Q 50/00 20240101ALI20250304BHJP
【FI】
G06F21/62 345
G06Q50/00 300
【請求項の数】 7
(21)【出願番号】P 2023146399
(22)【出願日】2023-09-08
(65)【公開番号】P2024095962
(43)【公開日】2024-07-11
【審査請求日】2023-09-08
(31)【優先権主張番号】10-2022-0189627
(32)【優先日】2022-12-29
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】523345091
【氏名又は名称】ワールド ヴァーテックス カンパニー リミテッド
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】キム、テ ジョン
【審査官】青木 重徳
(56)【参考文献】
【文献】特開2022-126962(JP,A)
【文献】特開平01-240925(JP,A)
【文献】特開2012-083909(JP,A)
【文献】北野 光一 ほか,SNSにおける個人情報の保護に関する研究,情報処理学会第73回(平成23年)全国大会講演論文集(3),日本,一般社団法人 情報処理学会,2011年03月02日,5Y-4,pp. 3-543~3-544
【文献】小山 貴之 ほか,SNS画像投稿時のプライバシー侵害予知サービスの提案,第5回データ工学と情報マネジメントに関するフォーラム (第11回日本データベース学会年次大会) [online],日本,電子情報通信学会データ工学研究専門委員会 ほか,2013年05月31日,F8-4
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
G06Q 50/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
IEEE Xplore
THE ACM DIGITAL LIBRARY
(57)【特許請求の範囲】
【請求項1】
非定型データから個人情報を探知し露出危険度を測定する方法において、
人工知能モデラーによって、予め設定された個人情報探知アルゴリズムに学習データを提供して個人情報探知モデルを構築する第1段階;
前記個人情報探知モデルによって、非定型データの入力を受けて個人情報を探知する第2段階;
リスク分析部によって、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する第3段階;および
前記リスク分析部によって、各群集別に個人情報露出危険度を数値化する第4段階;を含む構成において、
前記第1段階が、
個人情報が含まれたテキストデータを収集して前処理を遂行する学習データ構築段階;
前記予め設定された個人情報探知アルゴリズムを設定して前記個人情報探知モデルを初期セッティングする段階;
前記学習データを前記個人情報探知モデルに提供して学習を遂行するようにする段階;
学習を遂行した前記個人情報探知モデルをテストするモデルテスト段階;
前記モデルテスト段階でテスト結果を分析して前記個人情報探知モデルの複数のパラメータのうち少なくともいずれか一つをチューニングするモデルチューニング段階;および
チューニングされた前記個人情報探知モデルに検証データを提供して探知された個人情報の正確度を評価するモデル検証段階;を含む、前記個人情報探知モデルを構築する段階;を含むと共に、
前記第1段階において、
スピーチアクト情報として少なくとも、特定の情報の獲得を望む場合のスピーチアクトであるQuestionと、特定の情報を伝達しようとする場合のスピーチアクトであるInformと、直前のスピーチアクトがQuestionであるときに特定の情報を伝達しようとする場合のスピーチアクトであるAnswerを含み、
前記人工知能モデラーが前記スピーチアクト情報でInform、Answerの場合に、該当発話に個人情報が含まれる可能性が高いものと判断するように個人情報探知モデルを設定し、
前記第2段階において、
前記非定型データから前記スピーチアクト情報を分析して個人情報を含む可能性を判断する
ことを特徴とする、非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項2】
前記学習データ構築段階は前記収集されたテキストデータから個人情報個体名タギングを遂行し、
前記個人情報が含まれたテキストデータは個人情報または変形された形態の個人情報が含まれたテキストデータであることを特徴とする、請求項に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項3】
前記学習データ構築段階で前記収集されたテキストデータから個人情報個体名タギングを遂行する時、該当個人情報の対象情報を共にラベリングすることを特徴とする、請求項に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項4】
前記リスク分析部によって、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する第3段階は、
個人識別危険度に基づいて前記探知された個人情報を分類する段階;および
個人情報クラス間属性関係を定義する段階;を含むことを特徴とする、請求項1に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項5】
前記個人情報クラス間属性関係は因果関係、包含関係、直間接関係を含むことを特徴とする、請求項に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項6】
前記個人情報露出危険度は点数または等級で算出されることを特徴とする、請求項1に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【請求項7】
前記非定型データは対話形テキストデータであることを特徴とする、請求項1に記載の非定型データから個人情報を探知し露出危険度を測定する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は非定型データから個人情報を探知し露出危険度を測定する方法に関し、より具体的には、機械学習を通じて生成された個人情報探知モデルを利用して個人情報およびそれに対応する対象情報を基盤として個人情報の対象別に群集化し、各群集別に個人情報露出危険度を数値化する方法に関する。
【背景技術】
【0002】
高度化された現代社会において個人情報の重要性は次第に大きくなっており、これに伴い、個人情報を奪取するためのハッキング技術が日増しに精巧になっている。定型データの場合、個人情報が内包されたことが比較的明示的にあらわれるので定型データをハッキングから保護するための予防策を適用しやすい方であるが、非定型データはその中に個人情報が存在するかどうかを判断することが容易ではない。ここで、非定型データは特定のスキーマがないか多様なフォーマットのデータであり得るので特定データの検索が難しいデータであって、カカオトーク、ライン、ネイトオンなどのモバイルメッセンジャーインスタグラム、フェイスブック、ネイバーカフェなどのSNS掲示物およびコメントを含むテキストデータを意味し得る。特に使用者の個人情報侵害に対する敏感度が高くなるにつれて、モバイルメッセンジャーおよびソーシャルメディア掲示物、コメントでは、個人情報の入力時に「ゴング1ゴング-1234-オ6チル8」、「o1o-(1)234-5ユック78」などのように数字の代わりにハングル、英語、特殊文字などで代替するように、多様な形態で変形する事例が急増している。既存の個人情報探知技術は規則基盤の探知が主をなしており、特にテキストの変形、縮約が頻繁なモバイルメッセンジャーおよびソーシャルメディア掲示物、コメントでは個人情報の探知が難しくなっている。
【先行技術文献】
【特許文献】
【0003】
【文献】韓国登録特許第10-1727139号(登録日:2017年04月10日)
【文献】韓国登録特許第10-2196508号(登録日:2020年12月22日)
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は前述した問題点を改善するために案出されたもので、本発明は個体名認識技術を活用して非定型データから個人情報を探知し露出危険度を測定する方法を提供することに課題がある。
【0005】
また、本発明の実施例によると、話者とスピーチアクト情報を共に考慮してより向上した個人情報探知性能を提供することに課題がある。
【0006】
また、本発明の実施例によると、識別された個人情報それぞれが指す対象を考慮して個人情報露出危険の程度を測定する方法を提供することに課題がある。
【課題を解決するための手段】
【0007】
前記のような目的を達成するために、本発明の一実施例による非定型データから個人情報を探知し露出危険度を測定する方法は、人工知能モデラーによって、予め設定された個人情報探知アルゴリズムに学習データを提供して個人情報探知モデルを構築する段階、前記個人情報探知モデルによって、非定型データの入力を受けて個人情報を探知する段階、リスク分析部によって、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する段階および前記リスク分析部によって、各群集別に個人情報露出危険度を数値化する段階を含むことを特徴とする。
【0008】
一実施例によると、前記人工知能モデラーによって、前記個人情報探知モデルを構築する段階は、個人情報が含まれたテキストデータを収集して前処理を遂行する学習データ構築段階、前記予め設定された個人情報探知アルゴリズムを設定して前記個人情報探知モデルを初期セッティングする段階、前記学習データを前記個人情報探知モデルに提供して学習を遂行するようにする段階、学習を遂行した前記個人情報探知モデルをテストするモデルテスト段階、前記モデルテスト段階でテスト結果を分析して前記個人情報探知モデルの複数のパラメータのうち少なくともいずれか一つをチューニングするモデルチューニング段階およびチューニングされた前記個人情報探知モデルに検証データを提供して探知された個人情報の正確度を評価するモデル検証段階を含むことを特徴とする。
【0009】
一実施例によると、前記学習データ構築段階は前記収集されたテキストデータから個人情報個体名タギングを遂行し、前記個人情報が含まれたテキストデータは個人情報または変形された形態の個人情報が含まれたテキストデータであることを特徴とする。
【0010】
一実施例によると、前記学習データ構築段階で前記収集されたテキストデータから個人情報個体名タギングを遂行する時、該当個人情報の対象情報を共にラベリングすることを特徴とする。
【0011】
一実施例によると、前記個人情報探知モデルによって、非定型データの入力を受けて個人情報を探知する段階で前記非定型データからスピーチアクト情報を分析して個人情報を含む可能性を判断することを特徴とする。
【0012】
一実施例によると、前記リスク分析部によって、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する段階は、個人識別危険度に基づいて前記探知された個人情報を分類する段階および個人情報クラス間属性関係を定義する段階を含むことを特徴とする。
【0013】
一実施例によると、前記個人情報クラス間属性関係は因果関係、包含関係および直間接関係のうち少なくとも一つを含むことを特徴とする。
【0014】
一実施例によると、前記個人情報露出危険度は点数または等級で算出されることを特徴とする。
【発明の効果】
【0015】
本発明の一実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法は、個体名認識技術を活用して一般的な形態から外れた変形された形態の個人情報を探知することができる。
【0016】
また、本発明の一実施例は個人識別可能性が低いそれぞれの個人情報の結合を通じて個人情報の対象別に個人情報の露出危険度を算出することができる。
【図面の簡単な説明】
【0017】
図1】本発明の一実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を概略的に示すフローチャートである。
図2】本発明の一実施例に係る個人情報探知モデル構築段階をより具体的に示すフローチャートである。
図3】本発明の一実施例に係る対象別個人情報群集化段階をより具体的に示すフローチャートである。
図4】本発明の一実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を遂行するシステムを概略的に示す図面である。
図5】本発明の一実施例に係るサーバーの構成要素を示すブロック図である。
図6】本発明の一実施例に係る個人情報個体名タギングの例示を示す図面である。
図7】本発明の一実施例に係るスピーチアクト情報の項目と定義を示す図面である。
図8】本発明の一実施例に係る個人情報群集化および個人情報露出危険度を算出する例示を視覚的に示す図面である。
【発明を実施するための形態】
【0018】
前記のような本発明を添付された図面と実施例を通じて詳細に説明することにする。
【0019】
本発明で使われる技術的用語は単に特定の実施例を説明するために使われたものであり、本発明を限定しようとする意図ではないことに留意されたい.また、本発明で使われる技術的用語は、本発明で特に異なる意味で定義されない限り、本発明が属する技術分野で通常の知識を有する者によって一般的に理解される意味で解釈されるべきであり、過度に包括的な意味で解釈されたり、過度に縮小された意味で解釈されてはならない。また、本発明で使われる技術的な用語が本発明の思想を正確に表現できない誤った技術的用語である時には、当業者が正しく理解できる技術的用語で代替されて理解されるべきである。また、本発明で使われる一般的な用語は辞書に定義されているところに沿って、または前後の文脈上によって解釈されるべきであり、過度に縮小された意味で解釈されてはならない。
【0020】
また、本発明で使われる単数の表現は文脈上明白に異なって意味しない限り複数の表現を含む。本発明で、「構成される」または「含む」などの用語は、発明に記載された多様な構成要素、または多様な段階を必ずしもすべて含むものと解釈されてはならず、そのうち一部の構成要素または一部の段階は含まれなくてもよく、または追加的な構成要素または段階をさらに含み得るものと解釈されるべきである。
【0021】
また、本発明で使われる第1、第2等のように序数を含む用語は構成要素の説明に使われ得るが、構成要素は用語によって限定されてはならない。用語は一つの構成要素を他の構成要素から区別する目的でのみ使われる。例えば、本発明の権利範囲を逸脱することなく第1構成要素は第2構成要素と命名され得、同様に第2構成要素も第1構成要素と命名され得る。
【0022】
以下、添付された図面を参照して本発明に係る好ましい実施例を詳細に説明するものの、図面符号にかかわらず同一または類似する構成要素は同じ参照番号を付与しこれに対する重複する説明は省略することにする。
【0023】
また、本発明を説明するにおいて、関連した公知技術に対する具体的な説明が本発明の要旨を曖昧にさせ得る恐れがあると判断される場合はその詳細な説明を省略する。また、添付された図面は本発明の思想を容易に理解できるようにするためのものに過ぎず、添付された図面によって本発明の思想が制限されると解釈されてはならないことに留意されたい。
【0024】
以下の説明で、本発明の「非定型データから個人情報を探知し露出危険度を測定する方法を遂行するシステム」を指す用語は、説明の便宜上「システム」と略式で表記され得る。
【0025】
以下、図面を参照して本発明の実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を詳細に説明する。
【0026】
図1は本発明の一実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を概略的に示すフローチャートであり、図2は本発明の一実施例に係る個人情報探知モデル構築段階(S110)をより具体的に示すフローチャートであり、図3は本発明の一実施例に係る対象別個人情報群集化段階(S130)をより具体的に示すフローチャートであり、図4は本発明の一実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を遂行するシステムを概略的に示す図面であり、図5は本発明の一実施例に係るサーバー100の構成要素を示すブロック図であり、図6は本発明の一実施例に係る個人情報個体名タギングの例示を示す図面であり、図7は本発明の一実施例に係るスピーチアクト情報の項目と定義を示す図面であり、図8は本発明の一実施例に係る個人情報群集化および個人情報露出危険度を算出する例示を視覚的に示す図面である。
【0027】
まず図4を参照すると、本発明の実施例に係るシステムは使用者端末200とサーバー100の形態で具現され得る。
【0028】
使用者端末200は非定型データを提供し、サーバー100から個人情報露出危険度を受信して使用者に表示することができる。ここで非定型データとは、対話形テキストデータを意味する。対話形テキストデータの例としては、メッセンジャーや文字メッセージのテキストデータ、ソーシャルメディアやインターネットカフェの掲示文やコメントなどが挙げられる。
【0029】
モバイルメッセンジャーおよびソーシャルメディア、インターネットカフェ掲示文やコメントでは、個人情報を「ゴング1ゴング-1234-オ6チル8」、「o1o-(1)234-5ユック78」などのように、数字の代わりにハングル、英語、特殊文字などで代替するように、多様な形態で変形する場合が多数含されているので、人工知能モデラー110はこのような変形データも個人情報探知モデル120に学習データとして含んで提供することができる。
【0030】
一実施例によると、非定型データは写真やイメージを含むことができる。メッセンジャーや文字メッセージ、ソーシャルメディア、インターネットカフェの掲示文やコメントで添付された写真やイメージを保存し、該当写真やイメージに対してOCR(OpticalCharacter Recognition)を通じて住民登録証のような身分証や成績証明書、卒業証明書などの個人の身上に関連した書類で認識されるテキストを基盤として個人情報を探知することもできる。
【0031】
使用者端末200はスマートフォン(smartphone)、スマートパッド(smartpad)、タブレットPC(Tablet PC)、PCS(Personal Communication System)、GSM(Global Systemfor Mobile communications)、PDC(Personal Digital Cellular)、PHS(PersonalHandyphone System)、PDA(Personal Digital Assistant)、IMT(International MobileTelecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末などの使用者が携帯可能な無線通信装置および据置型PC、ノートパソコンのような携帯用コンピューティング装置を包括する。
【0032】
サーバー100は使用者端末200と通信して情報やデータを互いにやりとりしながら、個人情報の探知、露出危険度の測定および露出危険度の提供を担当する。このようなサーバー100は、ハードウェア的に通常のウェブサーバー100と同一の構成を有し、ソフトウェア的にはC、C++、Java、Visual Basic、Visual Cなどのような多様な形態の言語を通じて具現されて様々な機能をするプログラムモジュールを含むことができる。また、一般的なサーバー100用ハードウェアにドス(dos)、ウインドウ(window)、リナックス(登録商標)(linux)、ユニックス(unix)、マッキントッシュ(macintosh)、アンドロイド(登録商標)(Android)、アイオーエス(iOS)等の運営体制により多様に提供されているウェブサーバー100プログラムを利用して具現され得る。
【0033】
本実施例に係る使用者端末200およびサーバー100を連結するネットワーク通信の一例としては、移動通信のための技術標準または通信方式(例えば、GSM(Global System for Mobile communication)、CDMA(Code Division Multi Access)、CDMA2000(Code Division Multi Access 2000)、EV-DO(Enhanced Voice-DataOptimized or Enhanced Voice-Data Only)、WCDMA(登録商標)(Wideband CDMA)、HSDPA(HighSpeed Downlink Packet Access)、HSUPA(High Speed Uplink Packet Access)、LTE(Long Term Evolution)、LTE-A(Long Term Evolution-Advanced)、5Gなど)により構築された移動通信網を含むことができるが、特に限定するものではない。また、有線通信網の一例としては、LAN(Local Area Network)、WAN(Wide Area Network)などの閉鎖型ネットワークであり得、インターネットのような開放型ネットワークであることが好ましい.インターネットはTCP/IPプロトコルおよびその上位階層に存在する多様なサービス、すなわちHTTP(HyperText Transfer Protocol)、Telnet、FTP(File Transfer Protocol)、DNS(Domain Name System)、SMTP(Simple Mail Transfer Protocol)、SNMP(SimpleNetwork Management Protocol)、NFS(Network File Service)、NIS(NetworkInformation Service)を提供する全世界的な開放型コンピュータネットワーク構造を意味する。
【0034】
前述した構造により、本発明の実施例に係るシステムは、使用者端末200から非定型データの提供を受けて個人情報を探知し露出危険度を測定して使用者端末200に露出危険度を数値化して提供することができる。
【0035】
図5を参照すると、本発明の実施例に係るサーバー100は人工知能モデラ―110、個人情報探知モデル120およびリスク分析部130を含むことができる。
【0036】
人工知能モデラー110は予め設定された個人情報探知アルゴリズムに学習データを提供して個人情報探知モデル120を構築する。
【0037】
より具体的に人工知能モデラー110が個人情報探知モデル120を構築する過程を説明すると、人工知能モデラー110は、まず個人情報が含まれたテキストデータを収集して前処理を遂行する。このために、人工知能モデラー110はテキストマイニングを通じてテキストデータを収集することができる。
【0038】
この過程で、テキストデータが収集されると、人工知能モデラー110はデータ正規化、データ分離、形態素分析(トークン化)、個体名認識、原形復元、ストップワード除去、単語頻度分析などのデータ前処理を遂行する。
【0039】
データ正規化は表現方法が異なる単語を統合することで、例えば同じ表現であるが誤字が混じっていたりする場合、これを同じ単語として処理することである。「うれっしいです」と「うれしいです」はデータ正規化を通じて同じ単語として処理され得る。
【0040】
データ分離はデータを特性により分離する必要がある場合に進めることができる。
【0041】
形態素分析(トークン化)は一定の意味がある最も小さい言葉の単位に変換することであり、品詞タギングともいう。普通単語を基準とするか、文字または句、文章、段落などを基準としてトークン化することができる。
【0042】
次に、個体名認識は特定の単語を名前を有する個体として認識することをいう。人工知能モデラー110は収集されたテキストデータから個人情報個体名タギングを遂行する。個人情報個体名タギングは収集されたテキストデータの中で個人情報を示すことができるデータに対してタギングをすることであり、個人情報個体名としては、図6から分かるように、名前、ニックネーム/愛称、生年月日、年齢、性別、身長、体重、血液型、宗教、国籍、サークル/同好会、住所、建物名、医療保険番号、住民登録番号、外国人番号、旅券番号、運転免許番号、携帯電話番号、一般電話/FAX番号、カード番号、口座番号、イメールアドレス、車両番号、職場名、部署名、職責/職級、学校名、学年、専攻、ID、URL、IP情報、認識票、勤務部隊などを含むことができ、これに対して、それぞれ個体名タグが英語アルファベットからなる縮約語とアンダーバーなどからなることが分かる。
【0043】
人工知能モデラー110はトランスフォーマー(Transformer)基盤の個体名認識装置を内在して個体名認識を遂行できる。
【0044】
原形復元は形容詞や動詞の表現形を原形に変えたり、語幹や語尾を表現形に変換することであり、例えば「休みたい。」、「休みたい」は「休む」に、「見る」、「見たら」、「見て」は「見-」に変えることができる。
【0045】
ストップワード除去は、て、に、を、はのような助詞や接尾辞を除去する過程である。
【0046】
単語頻度分析はストップワードおよび頻出語の除去の有無を決定したり必要な単語が正しく抽出されたかを確認する。
【0047】
次に、予め設定された個人情報探知アルゴリズムを設定して個人情報探知モデル120を初期セッティングする。
【0048】
ここで、予め設定された個人情報探知アルゴリズムは個人情報探知モデル120に適用され得る人工ニューラルネットワーク学習モデルであり、循環ニューラルネットワーク(RNN、RecurrentNeural Network)モデル、畳み込みニューラルネットワーク(CNN、Convolution Neural Network)、BERT(Bidirectional Encoder Representations from Transformers)のうちいずれか一つであるか一つ以上が組み合わせられたものであり得る。
【0049】
以後、人工知能モデラー110は学習データを個人情報探知モデル120に提供して学習を遂行するようにする。
【0050】
その後、人工知能モデラー110は学習を遂行した個人情報探知モデル120に対してテストを進める。
【0051】
テスト遂行結果が予め設定された正確度に及ばない場合、人工知能モデラー110は個人情報探知モデル120の複数のパラメータのうち少なくともいずれか一つをチューニングすることができる。
【0052】
個人情報探知モデル120は再び学習データを通じて学習を遂行することになる。
【0053】
その後、人工知能モデラー110は複数のパラメータのうち少なくともいずれか一つをチューニングした個人情報探知モデル120を再びテストすることができる。
【0054】
この時、テスト遂行結果が予め設定された正確度を越える場合、人工知能モデラー110は検証データを個人情報探知モデル120に提供して探知された個人情報の正確度を検証する。
【0055】
ここで検証結果が予め設定された正確度に及ばない場合、人工知能モデラー110は検証結果を分析して再び個人情報探知モデル120の複数のパラメータのうち少なくともいずれか一つをチューニングすることができる。
【0056】
個人情報探知モデル120は再び学習データを通じて学習を遂行することになる。
【0057】
検証結果が予め設定された正確度を越える場合、個人情報探知モデル120は実質的な個人情報探知のための準備が完了したと判断され得る。
【0058】
個人情報探知モデル120は非定型データの入力を受けて個人情報を探知する。この時、個人情報探知モデル120は個体名認識技術を活用することができる。
【0059】
リスク分析部130は探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化し、各群集別に個人情報露出危険度を数値化することができる。
【0060】
本発明の実施例に係る非定型データから個人情報を探知し露出危険度を測定する方法を遂行する方法について図1を参照すると、人工知能モデラー110により、予め設定された個人情報探知アルゴリズムに学習データを提供して個人情報探知モデル120を構築する段階(S110)、前記個人情報探知モデル120により、非定型データの入力を受けて個人情報を探知する段階(S120)、リスク分析部130により、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する段階(S130)および前記リスク分析部130により、各群集別に個人情報露出危険度を数値化する段階(S140)を含むことができる。
【0061】
人工知能モデラー110により、予め設定された個人情報探知アルゴリズムに学習データを提供して個人情報探知モデル120を構築する段階(S110)で、人工知能モデラー110はまず個人情報が含まれたテキストデータを収集して前処理を遂行する。このために、人工知能モデラー110はテキストマイニングを通じてテキストデータを収集することができる。この過程で、テキストデータが収集されると、人工知能モデラー110はデータ正規化、データ分離、形態素分析(トークン化)、個体名認識、原形復元、ストップワード除去、単語頻度分析などのデータ前処理を遂行する。データ前処理については図2に対する説明で後述することにする。
【0062】
次に、予め設定された個人情報探知アルゴリズムを設定して個人情報探知モデル120を初期セッティングする。
【0063】
ここで、予め設定された個人情報探知アルゴリズムは個人情報探知モデル120に適用され得る人工ニューラルネットワーク学習モデルであり、循環ニューラルネットワーク(RNN、RecurrentNeural Network)モデル、畳み込みニューラルネットワーク(CNN、Convolution Neural Network)、BERT(Bidirectional Encoder Representations from Transformers)のうちいずれか一つや一つ以上が組み合わせられたものであり得る。
【0064】
前記個人情報探知モデル120により、非定型データの入力を受けて個人情報を探知する段階(S120)で、個人情報探知モデル120は入力された非定型データから個体名認識を通じて個人情報を探知することができる。
【0065】
リスク分析部130により、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する段階(S130)と前記リスク分析部130により、各群集別に個人情報露出危険度を数値化する段階(S140)に対する具体的な説明は図3および図8で後述するようにする。
【0066】
図2を参照して人工知能モデラー110により個人情報探知モデル120を構築する段階(S110)を詳察すると、個人情報が含まれたテキストデータを収集して前処理を遂行する学習データ構築段階(S101)、前記予め設定された個人情報探知アルゴリズムを設定して前記個人情報探知モデル120を初期セッティングする段階(S102)、前記学習データを前記個人情報探知モデル120に提供して学習を遂行するようにする段階(S103)、学習を遂行した前記個人情報探知モデル120をテストするモデルテスト段階(S104)、前記モデルテスト段階(S104)でテスト結果を分析して前記個人情報探知モデル120の複数のパラメータのうち少なくともいずれか一つをチューニングするモデルチューニング段階(S105)およびチューニングされた前記個人情報探知モデル120に検証データを提供して探知された個人情報の正確度を評価するモデル検証段階(S106)を含むことができる。
【0067】
個人情報が含まれたテキストデータを収集して前処理を遂行する学習データ構築段階(S110)で、人工知能モデラー110はまず個人情報が含まれたテキストデータを収集して前処理を遂行する。このために人工知能モデラー110はテキストマイニングを通じてテキストデータを収集することができる。
【0068】
この過程で、テキストデータが収集されると、人工知能モデラー110はデータ正規化、データ分離、形態素分析(トークン化)、個体名認識、原形復元、ストップワード除去、単語頻度分析などのデータ前処理を遂行する。
【0069】
データ正規化は表現方法が異なる単語を統合することであり、例えば同じ表現であるが誤字が混じっていたりする場合、これを同じ単語として処理することである。「うれっしいです」と「うれしいです」はデータ正規化を通じて同じ単語として処理され得る。
【0070】
データ分離はデータを特性により分離する必要がある場合に進めることができる。
【0071】
形態素分析(トークン化)は一定の意味がある最も小さい言葉の単位で変換することであり、品詞タギングともいう。普通単語を基準とするか、文字または句、文章、段落などを基準としてトークン化することができる。
【0072】
次に、個体名認識は特定の単語を名前を有する個体として認識することをいう。人工知能モデラー110は収集されたテキストデータから個人情報個体名タギングを遂行する。個人情報個体名タギングは収集されたテキストデータの中で個人情報を示すことができるデータに対してタギングをすることであり、個人情報個体名としては、図6で分かるように、名前、ニックネーム/愛称、生年月日、年齢、性別、身長、体重、血液型、宗教、国籍、サークル/同好会、住所、建物名、医療保険番号、住民登録番号、外国人番号、旅券番号、運転免許番号、携帯電話番号、一般電話/FAX番号、カード番号、口座番号、イメールアドレス、車両番号、職場名、部署名、職責/職級、学校名、学年、専攻、ID、URL、IP情報、認識票、勤務部隊などを含むことができ、これに対してそれぞれ個体名タグが英語アルファベットからなる縮約語とアンダーバーなどからなることが分かる。
【0073】
人工知能モデラー110はトランスフォーマー(Transformer)基盤の個体名認識装置を内在して個体名認識を遂行できる。
【0074】
原形復元は形容詞や動詞の表現形を原形に変えたり、語幹や語尾を表現形に変換することであり、例えば「休みたい。」、「休みたい」は「休む」に、「見る」、「見たら」、「見て」は「見-」に変えることができる。
【0075】
ストップワード除去は、て、に、を、はのような助詞や接尾辞を除去する過程である。
【0076】
単語頻度分析はストップワードおよび頻出語の除去の有無を決定したり必要な単語が正しく抽出されたかを確認する。
【0077】
前記予め設定された個人情報探知アルゴリズムを設定して前記個人情報探知モデル120を初期セッティングする段階(S102)で、予め設定された個人情報探知アルゴリズムは個人情報探知モデル120に適用され得る人工ニューラルネットワーク学習モデルであり、循環ニューラルネットワーク(RNN、Recurrent Neural Network)モデル、畳み込みニューラルネットワーク(CNN、ConvolutionNeural Network)、BERT(Bidirectional Encoder Representations fromTransformers)のうちいずれか一つであるか一つ以上が組み合わせられたものであり得る。
【0078】
次に、前記学習データを前記個人情報探知モデル120に提供して学習を遂行するようにする段階(S103)が遂行される。
【0079】
学習を遂行した前記個人情報探知モデル120をテストするモデルテスト段階(S104)で、人工知能モデラー110は学習を遂行した個人情報探知モデル120に対してテストを進める。ここで、テスト遂行結果が予め設定された正確度に及ばない場合、人工知能モデラー110は個人情報探知モデル120の複数のパラメータのうち少なくともいずれか一つをチューニングするモデルチューニング段階(S105)に進行することができる。その後個人情報探知モデル120は再び学習データを通じて学習を遂行することになる。
【0080】
以後、再びモデルテスト段階(S104)に戻って複数のパラメータのうち少なくともいずれか一つをチューニングする個人情報探知モデル120を再びテストすることができる。
【0081】
この時、テスト遂行結果が予め設定された正確度を越える場合、次の段階に進行することになる。
【0082】
チューニングされた前記個人情報探知モデル120に検証データを提供して探知された個人情報の正確度を評価するモデル検証段階(S106)で、検証結果が予め設定された正確度に及ばない場合、人工知能モデラー110は検証結果を分析して再び個人情報探知モデル120の複数のパラメータのうち少なくともいずれか一つをチューニングできる。
【0083】
以後、個人情報探知モデル120は再び学習データを通じて学習を遂行することになる。
【0084】
検証結果が予め設定された正確度を越える場合、個人情報探知モデル120は実質的な個人情報探知のための準備が完了したと判断され得る。
【0085】
図3を参照して、前記探知された個人情報とそれに対応する対象情報を基盤として個人情報の対象別に探知された個人情報を群集化する段階(S130)を詳察すると、個人識別危険度に基づいて前記探知された個人情報を分類する段階および個人情報クラス間属性関係を定義する段階を含むことができる。
【0086】
個人識別危険度に基づいて前記探知された個人情報を分類する段階(S131)で、個人識別危険度は各個人情報個体ごとに予めその危険度に該当する点数が設定されていてもよい。
【0087】
個人情報クラス間属性関係を定義する段階(S132)で、個人情報クラス間属性関係は因果関係、包含関係、直/間接関係のうち少なくとも一つを含むことができる。
【0088】
前記リスク分析部によって、各群集別に個人情報露出危険度を数値化する段階(S140)で、図8で分かるように、探知された個人情報の類型別に個人情報露出危険度の点数が予め設定されていることが分かる。図8のように、各群集別に探知された個人情報のうち最も高い点数を該当群集の個人情報露出危険度点数に設定することができる。しかし、これに制限されはせず、各群集別探知された個人情報の個数と、探知された個人情報の組み合わせである人に対する特定可能性を基盤として加重値を付与して点数を算出してもよく、点数区間別に等級化してもよい。
【0089】
図6を参照すると、学習データ構築段階(S101)で前記収集されたテキストデータから個人情報個体名タギングを遂行する例が示されている。
【0090】
個人情報個体名としては、名前、ニックネーム/愛称、生年月日、年齢、性別、身長、体重、血液型、宗教、国籍、サークル/同好会、住所、建物名、医療保険番号、住民登録番号、外国人番号、旅券番号、運転免許番号、携帯電話番号、一般電話/FAX番号、カード番号、口座番号、イメールアドレス、車両番号、職場名、部署名、職責/職級、学校名、学年、専攻、ID、URL、IP情報、認識票、勤務部隊などを含むことができ、これに対してそれぞれ個体名タグが英語アルファベットからなる縮約語とアンダーバーなどからなることが分かる。
【0091】
図7を参照すると、スピーチアクト情報を定義した例示が示されている。
【0092】
ここでスピーチアクトとは、言語行為、すなわち言語を通じてなされる行為であり、1960年代に創始された言語学理論から派生した概念である。スピーチアクトは集団の一構成員が妨害されずに生産した一つの発言が、特定機能または行為として他の構成員に受け入れられる集団相互作用過程と定義され得る。または小グループの談話や対話で各対話のターン(turn)をそれぞれの言語行為、すなわちスピーチアクトと言える。
【0093】
スピーチアクト情報はQuestion、Inform、Answer、Request、Offer、Other、Noneを含むことができる。Questionは話者が聴者から特定情報の獲得を望む場合、Informは話者が聴者にsemantic contentを構成する情報を伝達しようとする場合(情報は正確であると仮定)、話者が聴者に情報を伝達する場合、Answerは話者が聴者にsemantic contentを構成する情報を伝達しようとする場合(情報は正確であると仮定)すなわち、直前発話のスピーチアクトがQuestionである場合、Requestは話者が聴者に、お願いした行動をすることを願う場合、指示行為(命令スピーチアクト)、Offerは話者が聴者が遂行することを望む方式でそのようにすることを望む場合(話者が選択肢を提示する)、口約束行為(約束スピーチアクト)、Otherは前述したスピーチアクトに属さないその他のスピーチアクト、Noneはスピーチアクトがあらわれない発話と定義することができる。
【0094】
したがって、人工知能モデラー110はスピーチアクト情報でInform、Answer、Offerの場合、該当発話に個人情報が含まれる可能性が高いものと判断するように個人情報探知モデル120を設定することができる。また、スピーチアクト情報がOtherであるか、Noneである場合、個人情報が含まれる可能性が低いものと判断するように個人情報探知モデル120を設定することができる。
【0095】
図8を参照すると、二人の間のチャット(対話)データから探知された個人情報とこれを対象別に分類し群集化して数値化する例が示されている。
【0096】
まず、対話内容から小児科医師、皮膚科専門医、ナジュ、国立病院、36歳、歯医者、教会、お兄さんという個人情報が識別され得る。該当個人情報それぞれに対して、その対象を考慮して群集化を遂行すると、群集1は小児科医師、群集2は皮膚科専門医、ナジュ、国立病院、36歳、群集3は歯医者、教会、お兄さんに3つの群集が形成され得る。
【0097】
群集1を詳察すると、小児科医師(職業)については0.2の個人情報露出危険度(個人情報再識別危険度)を示すことが分かる。
【0098】
群集2を詳察すると、皮膚科専門医(職業)、ナジュ国立病院(職場)、36歳(年齢)それぞれに対して0.2、0.6、0.8であり、0.8の個人情報露出危険度(個人情報再識別危険度)を示すことが分かる。
【0099】
群集3を詳察すると、歯医者(職業)、教会(宗教)、お兄さん(性別)それぞれに対して0.2、0.3、0.4であり、0.4の個人情報露出危険度(個人情報再識別危険度)を示すことが分かる。
【0100】
ここで、探知された個人情報の類型別に個人情報露出危険度の点数が予め設定されていることが分かる。職業は0.2、宗教は0.3、性別は0.4、職場は0.6、年齢は0.8に設定されている。
【0101】
また、図8では個人情報露出危険度(個人情報再識別危険度)に対して、各群集別に探知された個人情報のうち最も高い点数を個人情報露出危険度(個人情報再識別危険度)に設定したことが分かる。
【0102】
しかし、これに制限されはせず、各群集別に露出された個人情報の個数と露出された個人情報の組み合わせで、ある人を特定可能な可能性などを考慮して加重値を設定するように構成され得る。
【0103】
例えば、群集2は職業、職場、年齢が露出されているのでどのような人であると特定される可能性が高いと判断することができるため、各点数を足した値に予め設定された加重値、例えば1.5等をかけて個人情報露出危険度を算出することができる.このような例示によると、群集2の個人情報露出危険度は2.4になり得る。
【0104】
このように数値化された個人情報露出危険度は点数でのみ示さず、点数区間別に等級を設定して等級で表示されるようにすることができる。例えば、0から0.3までは露出危険度5等級、0.3から0.5までは露出危険度4等級、0.6から1.0までは露出危険度3等級、1.1から1.5までは露出危険度2等級、1.6以上は露出危険度1等級に設定され得る。
【0105】
以上、本発明に係る好ましい実施例について図示し、また説明した。しかし、本発明は前述した実施例に限定されず、特許請求の範囲で添付する本発明の要旨を逸脱することなく当該発明が属する技術分野で通常の知識を有する者であれば誰でも多様な変形実施が可能であろう。
【符号の説明】
【0106】
100:サーバー
110:人工知能モデラー
120:個人情報探知モデル
130:リスク分析部
200:使用者端末
図1
図2
図3
図4
図5
図6
図7
図8