(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017114
(43)【公開日】2024-02-08
(54)【発明の名称】個人情報匿名化システム
(51)【国際特許分類】
G06F 21/62 20130101AFI20240201BHJP
【FI】
G06F21/62 354
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022119549
(22)【出願日】2022-07-27
(71)【出願人】
【識別番号】522300639
【氏名又は名称】AICRO株式会社
(74)【代理人】
【識別番号】100123858
【弁理士】
【氏名又は名称】磯田 志郎
(72)【発明者】
【氏名】山口 太一
(72)【発明者】
【氏名】西畑 俊樹
(57)【要約】 (修正有)
【課題】機械による自動的な匿名化工程と、人間の目視による検査工程とをシームレスに行うことができる個人情報匿名化システムを提供する。
【解決手段】個人情報匿名化システム1は、記憶手段、匿名化手段及び検査用装置を備える。匿名化手段は、記憶手段から取得した被処理情報に匿名化モデルを適用して匿名化する記載の候補を抽出し、抽出した候補を匿名加工して仮匿名化情報を生成する。検査用装置の画像表示手段は、被処理情報と匿名化手段から取得した仮匿名化情報とを用いて、匿名化手段で抽出した匿名化する記載の候補を認識できるように、仮匿名化情報及び/又は被処理情報を表示する。検査用装置の入力手段は、表示手段に表示された仮匿名化情報及び/又は被処理情報に対し、匿名化する記載の候補の修正を可能とする。匿名化手段は、入力手段による修正があった場合、修正データを匿名化手段に提供し、修正データを用いて匿名化モデルを学習する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
個人情報を含む被処理情報から個人情報を匿名化した匿名化情報を生成するための個人情報匿名化システムであって、
前記被処理情報が記憶された記憶手段と、
前記被処理情報のうち匿名化する記載を抽出する匿名化モデルを含む匿名化手段と、
表示手段及び入力手段を含む検査用装置と、を含み、
前記匿名化手段は、前記記憶手段から取得した前記被処理情報に前記匿名化モデルを適用して匿名化する記載の候補を抽出し、
前記検査用装置は、前記匿名化手段で抽出した前記匿名化する記載の候補を認識できるように、前記被処理情報を前記表示手段に表示し、
前記入力手段は、前記表示手段に表示された前記匿名化する記載の候補を修正可能であり、
前記検査用装置は、前記入力手段による修正があった場合は、修正データを前記匿名化手段に提供し、前記入力手段による修正が無かった場合は、前記匿名化する記載の候補を匿名化する記載として確定し、
前記匿名化手段は、前記修正データを用いて前記匿名化モデルを学習させる、個人情報匿名化システム。
【請求項2】
前記匿名化手段は、前記匿名化する記載の候補に当該記載内容を識別するラベルを付与し、
前記検査用装置は、前記候補に付与された前記ラベルを認識できるように、前記被処理情報を前記表示手段に表示し、
前記入力手段は、前記ラベルを修正可能である、請求項1に記載の個人情報匿名化システム。
【請求項3】
前記匿名化モデルは、匿名化しない記載を蓄積した非匿名化辞書を含み、前記非匿名化辞書に該当する記載を前記匿名化する記載の候補から除外する、請求項1又は2に記載の個人情報匿名化システム。
【請求項4】
前記匿名化手段は、前記被処理情報のうち前記非匿名化辞書に該当する記載に対し、非匿名化辞書に該当する記載であることを示すラベルを付与する、請求項3に記載の個人情報匿名化システム。
【請求項5】
前記匿名化手段は、前記抽出した候補を匿名加工して仮匿名化情報を生成し、
前記検査用装置は、前記匿名化する記載の候補を認識できるように、前記仮匿名化情報を前記表示手段に表示可能であり、
前記入力手段は、前記仮匿名化情報を修正可能である、請求項1又は2に記載の個人情報匿名化システム。
【請求項6】
前記検査用装置は、前記被処理情報と同時に又は切り替え可能に前記仮匿名化情報を前記表示手段に表示する、請求項5に記載の個人情報匿名化システム。
【請求項7】
前記入力手段は、前記匿名化手段による匿名加工を変更可能である、請求項5に記載の個人情報匿名化システム。
【請求項8】
前記匿名化手段は、匿名加工の内容を格納した匿名加工テーブルを含み、前記匿名加工テーブルを変更することにより前記仮匿名化情報を変更する、請求項5に記載の個人情報匿名化システム。
【請求項9】
前記匿名化手段は、匿名化する記載が同一の場合は、同一の文字列に置き換える、請求項5に記載の個人情報匿名化システム。
【請求項10】
複数の検査用装置を含み、
前記複数の検査用装置において、同一の被処理情報に対する検査工程を実施し、
前記複数の検査用装置から出力された同一の被処理情報に対する複数の修正データの差分を判定し、差分が生じた場合は、前記差分を確認可能に表示して再度検査工程を実施する、請求項1又は2に記載の個人情報匿名化システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子カルテ情報などの個人情報を含む被処理情報から個人情報を匿名化した匿名化情報を生成するための個人情報匿名化システムに関し、特に、人間の目視による検査工程を含む個人情報匿名化システムに関する。
【背景技術】
【0002】
近年、様々な医療機関において作成される電子カルテ情報をビッグデータとして蓄積し、統計情報データベースとして、医療分野の研究開発に利用したり、他の医療機関における処置や検査内容を参考情報として利用したりする試みがなされている。しかし、電子カルテ情報に含まれる個人の既往歴、家族歴、内服歴、身体所見、ラボデータ、画像データ、治療方針等の個人の心身の状態に関する情報は、極めて秘匿性の高い情報であり、特定の個人のものであると識別されるとそのプライバシーを侵害するものとなる。プライバシーは、憲法や個人情報保護法によって保護されており、このような医療情報の利用に対しては、医療分野の研究開発に資するための匿名加工医療情報に関する法律が制定され、当該医療情報に含まれる記述等の一部や個人識別符号の全部を削除することで、特定の個人を識別することができず、且つ復元できないように医療情報を加工した「匿名加工医療情報」を作成することが義務付けられている。なお、情報の削除には、復元することのできる規則性を有しない方法により他の記述等に置き換えることを含んでいる。
【0003】
特許文献1には、電子カルテサーバが、複数の医療機関に配置された複数の電子カルテ端末から、患者毎に作成される電子カルテ情報として入力された症状に関する情報と、病名と、対応する処置又は検査とを蓄積して統計情報データベースを構築し、各電子カルテ端末において、電子カルテに入力された症状に応じて、統計情報データベースを検索し、かかる症状に対応付けられた頻度の高い病名、処置、検査などを電子カルテ端末の画面に選択可能に表示する電子カルテシステムが開示されている。特許文献1では、電子カルテ情報における患者の氏名、住所、電話番号などの個人情報は、統計情報データベースにとって不要であり、個人情報保護の観点から、統計情報データベースに登録しないことが好ましいとされている。
【0004】
特許文献2には、医療機関内の複数の部門にそれぞれ設置されるデータ表示用の参照ビューアを備えた複数の情報処理装置と、データウエアハウスを備えた電子カルテシステムと、データ送受信可能に接続された構造化診療データ統合管理データベースサーバコンピュータとを備え、サーバコンピュータは、利用者によって患者IDが登録されると、自動的に匿名化IDを付与し、患者の個人情報は患者IDとともに患者基本情報として、その他の情報は匿名化IDが付与された拡張患者情報としてサーバ記憶部に記録し、構造化診療データ統合管理データベースに蓄積し、各診療科において特定患者の診断・治療を行う場合には、患者IDとともにデータベースに格納された情報を表示し、診療情報を検索する検索画面に切り替えて検索する場合には、匿名化IDによって処理する匿名化医療情報検索支援システムが開示されている。
【0005】
また、ビッグデータは、医療分野以外にも様々な分野において利用され始めている。ビッグデータは、様々な事業に役立つ知見を導出するためのデータであり、出所が多様なデータ群である。ビッグデータは、例えば、各地域における天候、気温、湿度のデータ、オンラインショッピングサイトやブログサイトにおいて蓄積される購入履歴やエントリー履歴、ウェブ上の配信サイトで提供される音楽や動画等のマルチメディアデータ、ソーシャルメディアにおいて参加者が書き込むプロフィールやコメント等のソーシャルメディアデータ、GPS、ICカードやRFIDにおいて検知される、位置、乗車履歴、温度等のセンサーデータ、CRM(Customer Relationship Management)システムにおいて管理されるダイレクトメールのデータや会員カードデータ等カスタマーデータなどがある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2018-81528号公報
【特許文献2】特開2019-133540号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
個人情報の匿名化について、特許文献1では、患者情報テーブルに格納された患者ID、氏名、性別、生年月日、身長、体重、年齢、住所、電話番号などの患者の基本情報のうち、氏名、住所、電話番号などの個人を特定できる情報を含めないことで匿名化している。また、特許文献2では、患者の個人情報は患者IDとともに患者基本情報として記録し、患者の個人情報を匿名化IDに関連付けないことで、匿名化IDとともに記録された拡張患者情報には個人情報を含まないようにしている。
【0008】
しかし、特許文献1及び2では、氏名、住所、電話番号などのように、個人を特定できる情報として認識される特定のデータを項目ごと排除することで匿名化しているが、それ以外のデータに個人を特定できる情報が含まれていた場合には匿名化は不十分である。「匿名加工医療情報」を作成することが義務付けられている医療情報において、氏名、住所、電話番号などの特定のデータを排除しただけでは、残りのデータに個人を特定できる情報が含まれている可能性があり、機械による匿名化では不十分であった。特に、構造化されていない規則性のない自由に記載可能なテキスト情報の中に個人情報が紛れている場合、その抽出は困難であった。
【0009】
特許文献2において、構造化診療データ統合管理データベースには、自由なテキスト形式のデータではなく、構造化された診療データが蓄積されている。データの構造化とは、行と列で表現されるようなデータ形式であり、各々の列には固有の意味があり、その列の値は特定の選択肢から選択されたり、あるいは指定の精度を持つ数値が入力されたりと、固有の規則に基づいて管理されるデータ形式である。このため、特許文献2における入力は、各診療科で記載の仕方が統一され、選択画面から選択して入力することによって表記のゆらぎがないように工夫されていた。しかし、実際の診察において、患者の主訴及び医師の所見は、選択画面から選択できるような情報だけではないことが多く、より正確に情報を記録するため、自由なテキスト形式のデータを入力できる項目は依然として必要とされている。
【0010】
自由なテキスト形式で入力された文章については、入力者によって表現が違っていたり、入力内容が定まっておらず、機械による自動処理には不向きであるため、人間の目視による検査で個人情報が含まれているかを確認し、含まれている場合には個人情報を匿名化する作業を行っていたが、作業量が膨大であり、時間と費用がかかるだけではなく、ヒューマンエラーによる個人情報の看過が生じる可能性があった。複数人による多重検査によって信頼性を高めることはできるが、より時間と費用がかかり、情報の有効利用の妨げとなっていた。このため、現状では、自由なテキスト形式で入力された文章については、個人情報を含んでいることがあるため全て削除されており、重要な情報が利用されていなかった。また、実際に匿名化した情報を提供する場合、機械による自動的な匿名化だけでは信用されず、人間による検査結果を保証として要求されることもあり、これも匿名化情報の有効利用の妨げの一因となっていた。
【0011】
本発明は、前述した問題に鑑みてなされたものであって、機械による自動的な匿名化工程と、人間の目視による検査工程とをシームレスに行うことができる個人情報匿名化システムを提供することを目的とする。さらに、本発明では、再学習することで精度を高めていくことができる個人情報匿名化システム、及び/又は、誤って匿名化することを防ぐことを可能とする個人情報匿名化システムを提供することも目的の一つとする。
【課題を解決するための手段】
【0012】
前述した課題を解決するため、本発明の個人情報匿名化システムは、個人情報を含む被処理情報から個人情報を匿名化した匿名化情報を生成するための個人情報匿名化システムであって、前記被処理情報が記憶された記憶手段と、前記被処理情報のうち匿名化する記載を抽出する匿名化モデルを含む匿名化手段と、表示手段及び入力手段を含む検査用装置と、を含み、前記匿名化手段は、前記記憶手段から取得した前記被処理情報に前記匿名化モデルを適用して匿名化する記載の候補を抽出し、前記検査用装置は、前記匿名化手段で抽出した前記匿名化する記載の候補を認識できるように、前記被処理情報を前記表示手段に表示し、前記入力手段は、前記表示手段に表示された前記匿名化する記載の候補を修正可能であり、前記検査用装置は、前記入力手段による修正があった場合は、修正データを前記匿名化手段に提供し、前記入力手段による修正が無かった場合は、前記匿名化する記載の候補を匿名化する記載として確定し、前記匿名化手段は、前記修正データを用いて前記匿名化モデルを学習させる。
【0013】
さらに、上記個人情報匿名化システムにおいて、前記匿名化手段は、前記匿名化する記載の候補に当該記載内容を識別するラベルを付与し、前記検査用装置は、前記候補に付与された前記ラベルを認識できるように、前記被処理情報を前記表示手段に表示し、前記入力手段は、前記ラベルを修正可能であってもよい。
【0014】
さらに、上記個人情報匿名化システムにおいて、前記匿名化モデルは、匿名化しない記載を蓄積した非匿名化辞書を含み、前記非匿名化辞書に該当する記載を前記匿名化する記載の候補から除外することが好ましい。
【0015】
さらに、上記個人情報匿名化システムにおいて、前記匿名化手段は、前記被処理情報のうち前記非匿名化辞書に該当する記載に対し、非匿名化辞書に該当する記載であることを示すラベルを付与してもよい。
【0016】
さらに、上記個人情報匿名化システムにおいて、前記匿名化手段は、前記抽出した候補を匿名加工して仮匿名化情報を生成し、前記検査用装置は、前記匿名化する記載の候補を認識できるように、前記仮匿名化情報を前記表示手段に表示可能であり、前記入力手段は、前記仮匿名化情報を修正可能であってもよい。
【0017】
さらに、上記個人情報匿名化システムにおいて、前記検査用装置は、前記被処理情報と同時に又は切り替え可能に前記仮匿名化情報を前記表示手段に表示してもよい。
【0018】
さらに、上記個人情報匿名化システムにおいて、前記入力手段は、前記匿名化手段による匿名加工を変更可能であってもよい。
【0019】
さらに、上記個人情報匿名化システムにおいて、前記匿名化手段は、匿名加工の内容を格納した匿名加工テーブルを含み、前記匿名加工テーブルを変更することにより前記仮匿名化情報を変更してもよい。
【0020】
さらに、上記個人情報匿名化システムにおいて、前記匿名化手段は、匿名化する記載が同一の場合は、同一の文字列に置き換えることが好ましい。
【0021】
さらに、上記個人情報匿名化システムにおいて、複数の検査用装置を含み、前記複数の検査用装置において、同一の被処理情報に対する検査工程を実施し、前記複数の検査用装置から出力された同一の被処理情報に対する複数の修正データの差分を判定し、差分が生じた場合は、前記差分を確認可能に表示して再度検査工程を実施してもよい。
【発明の効果】
【0022】
本発明の個人情報匿名化システムは、匿名化手段が、記憶手段から取得した被処理情報に匿名化モデルを適用して匿名化する記載の候補を抽出し、機械による自動的な匿名化工程を実施することができ、検査用装置が、匿名化手段で抽出した匿名化する記載の候補を認識できるように、被処理情報を表示手段に表示し、入力手段が、表示手段に表示された匿名化する記載の候補を修正可能であるから、機械による自動的な匿名化工程と人間の目視による検査工程とを連続的に途切れることなく実施することができる。そして、検査用装置は、人間の検査工程で入力手段による修正があった場合は、修正データを匿名化手段に提供し、入力手段による修正が無かった場合は、仮匿名化情報を匿名化情報として出力し、匿名化手段は、修正データを用いて匿名化モデルを学習させることにより、機械による匿名化の精度を高めることができる。
【0023】
また、匿名化する記載の候補に当該記載内容を識別するラベルを付与し、候補に付与されたラベルを認識できるように、被処理情報を表示手段に表示し、入力手段によってラベルを修正可能とすることにより、人間が検査工程において、被処理情報の中で匿名化候補がラベルの目的で使用されているか否かを判断しやすくなり、機械による誤った匿名化を発見しやすくなるので好ましい。また、ラベルを変更することにより、匿名化候補とするか否か、匿名加工の内容も変更できるので、容易に修正できる。
【0024】
また、匿名化モデルが、匿名化しない記載を蓄積した非匿名化辞書を含み、非匿名化辞書に該当する記載を匿名化する記載の候補から除外することにより、匿名化モデルが機械学習した際に、個人を特定する情報であると認識された記載(例えば人名、地名、電話番号など)又はそれと類似する記載が、別の意味で使用されたことによる誤った匿名化を防止することができ、被処理情報における重要な情報が脱漏することを防止できる。さらに、被処理情報のうち非匿名化辞書に該当する記載に対し、非匿名化辞書に該当する記載であることを示すラベルを付与することにより、検査工程における判断を容易にすることができる。
【0025】
また、匿名化手段が、抽出した候補を匿名加工して仮匿名化情報を生成し、検査用装置において、匿名化する記載の候補を認識できるように、仮匿名化情報を表示手段に表示可能であり、入力手段が、仮匿名化情報を修正可能とすることにより、匿名化する記載の候補だけではなく、匿名加工の内容についても検査及び修正することができる。その他の効果については、発明を実施するための形態において述べる。
【図面の簡単な説明】
【0026】
【
図1】本発明の個人情報匿名化システムの全体構成の一例を示す概略図
【
図2】検査用装置の表示画面の一例であり、(A)は被処理情報を表示した状態であり、(B)は匿名化被処理情報を表示した状態
【
図3】検査用装置の表示画面の一例であり、(A)は修正後の被処理情報を表示した状態であり、(B)は修正後の匿名化被処理情報を表示した状態
【
図4】検査用装置の別の被処理情報を表示した表示画面の一例であり、(A)は修正前の被処理情報を表示した状態であり、(B)は修正後の被処理情報を表示した状態
【
図6】複数の検査用装置を使用した匿名化処理の一例を示すフローチャート
【
図7】匿名化候補抽出処理の一例を示すフローチャート
【
図9】非匿名化ラベルを表示した検査用装置の表示画面の一例
【発明を実施するための形態】
【0027】
[個人情報匿名化システムの概要]
図1は、本発明の個人情報匿名化システム1の全体構成の一例を示す概略図であり、個人情報匿名化システム1は、個人情報を含む被処理情報12から個人情報を匿名化した匿名化情報14を生成するものであり、記憶手段2と、匿名化モデル31を含む匿名化手段3と、表示手段41及び入力手段42を含む検査用装置4と、を含んでいる。さらに、個人情報匿名化システム1は、構造化手段5を備えていてもよい。本発明の個人情報匿名化システム1では、匿名化手段3において機械による自動的な匿名化工程によって匿名化する記載の候補(匿名化候補)が抽出及び/又は仮匿名化情報13が生成され、検査用装置4における検査工程において人間の目視によって匿名化候補及び/又は仮匿名化情報13が検査され、必要に応じて修正され、匿名化情報14が生成される。また、検査工程における修正を含む情報(修正データ43)は、匿名化手段3の匿名化モデル31にフィードバックされて匿名化候補の抽出及び/又は仮匿名化情報の生成に反映させることが好ましい。このように、修正データ43を仮匿名化情報の生成に反映させることにより、人間による検査工程の内容も匿名化候補の抽出に反映されるので精度が向上する。
【0028】
記憶手段2は、個人情報を含む被処理情報12が格納されており、例えば、ストレージサーバとして独立して設けてもよいし、被処理情報12を作成又は蓄積するコンピュータ又はサーバに接続された記憶媒体(例えば、ハードディスク装置、半導体メモリ等)であってもよいし、匿名化手段3、検査用装置4又は構造化手段5に接続された記憶媒体(例えば、ハードディスク装置、半導体メモリ等)であってもよいし、被処理情報12が記憶された持ち運び可能な記憶媒体(例えば、USBメモリ、DVD等)でもよい。また、記憶手段2が一つである必要はなく、複数の記憶手段2に記憶された様々な被処理情報12を処理してもよい。記憶手段2は、ネットワーク(インターネット、内部バス及び外部バスを含む)を介して匿名化手段3、検査用装置4、構造化手段5と接続されていてもよいし、接続されていなくてもよい。接続されていない場合は、記憶手段2から持ち運び可能な記憶媒体(USBメモリ、DVD等)によって匿名化手段3、検査用装置4、構造化手段5に被処理情報を提供してもよい。
【0029】
被処理情報12は、個人情報を含む情報であり、特に、本発明の個人情報匿名化システム1では、構造化されていない自由なテキスト形式で入力されたテキスト情報であっても匿名化することが可能であるため、構造化されていないテキスト情報を含んでいてもよい。被処理情報12としては、例えば、電子カルテ情報、オンラインショッピングサイトやブログサイトにおいて蓄積される購入履歴やエントリー履歴、ウェブ上の配信サイトで提供される音楽や動画等のマルチメディアデータ、ソーシャルメディアにおいて参加者が書き込むプロフィールやコメント等のソーシャルメディアデータ、GPS、ICカードやRFIDにおいて検知される、位置、乗車履歴、温度等のセンサーデータ、CRM(Customer Relationship Management)システムにおいて管理されるダイレクトメールのデータや会員カードデータ等カスタマーデータ等を含む。特に、本発明の個人情報匿名化システム1は、要配慮個人情報を含む被処理情報に対して適用することが好ましく、要配慮個人情報に加えて自由なテキスト形式で入力されたテキスト情報も含んでいる情報、例えば電子カルテ情報の匿名化に適用することが好ましい。要配慮個人情報とは、不当な差別や偏見を生じさせるような機微情報であり、具体的には、人種、信条、社会的身分、病歴、前科、犯罪被害情報、身体・知的・精神障がいがあることや、健康診断結果等を含む情報である。
【0030】
匿名化する記載は、特定の個人を識別できる情報及び個人識別符号を含む情報である個人情報を含み、一つの情報だけで個人情報に該当する情報も、複数の情報の組み合わせで個人情報に該当する情報も含む。例えば、氏名、生年月日、顔写真、骨格情報、指紋、耳紋、虹彩、掌紋(手のひら)、足紋(足の裏)、唇紋、住所、電話番号、メールアドレス、SNSアドレス、マイナンバー、個人を特定する識別番号(ID)等を含む。さらに、少数の候補者に特定される情報も匿名化する記載に含めることが好ましい。例えば、患者数の少ない特殊な病名や処方箋、利用者が少ない特殊な施設への来訪履歴、生産数の少ない特殊な商品の購入履歴等のように単独で該当する情報もあれば、複数の施設やHP(病院、ネット店舗など)への来訪履歴、複数の商品の購入履歴等のように複数の情報の組み合わせによって少数の候補者となるものもある。このため、特殊な病名、処方箋、施設、又は商品を匿名加工したり、来訪履歴や購入履歴が同じ人間と認識できないように匿名加工したりすることが好ましい。
【0031】
匿名化手段3は、匿名化モデル31を含み、記憶手段2から取得した被処理情報12に匿名化モデル31を適用して匿名化する記載の候補(匿名化候補)を抽出し、抽出した候補を匿名加工して仮匿名化情報13を生成する手段である。匿名化手段3は、さらに、必ず匿名化する記載については候補としてではなく所定の匿名加工を実施してもよい。ここで、匿名化候補は、その後の人間による検査工程で問題が無ければ匿名加工が確定し、問題があった場合は変更される記載であり、必ず匿名化する記載は、人間による検査工程を経ずに匿名加工が確定する記載である。必ず匿名化する記載には、例えば、構造化されたデータにおいて、「氏名」、「電話番号」等の個人を特定する情報が入力されるテーブルに入力されたデータなど、個人を特定できる情報が入力されることが確実な特定のデータを含み、人間による検査工程の作業量を減らすために設けることが好ましいが、匿名化候補として処理することもできるため必要不可欠な構成ではない。匿名化手段3は、コンピュータ又はサーバに匿名化プログラムを実行させることにより実現することができ、例えば、匿名化処理を専用に行う匿名化コンピュータ又は匿名化サーバとして独立して設けてもよいし、被処理情報12を作成又は蓄積するコンピュータ又はサーバで実現してもよいし、検査用装置4及び/又は構造化手段5で実現してもよい。
【0032】
また、匿名化手段3は、匿名化対象(匿名化候補及び必ず匿名化する記載)を蓄積した匿名化対象辞書32及び/又は匿名化しない記載を蓄積した非匿名化辞書33を含んでいてもよく、匿名化対象辞書32及び非匿名化辞書33は匿名化モデル31によって実現されてもよい。匿名化手段3は、被処理情報12の匿名化対象を匿名化するものであり、それ以外の記載については匿名化しないため、被処理情報の大半を占める匿名化しない記載を蓄積する非匿名化辞書33を設けることは通常考えない。加えて、仮に、個人を特定する記載以外の記載を誤って匿名化したとしても、匿名化対象である個人を特定する記載が匿名されていれば十分である被処理情報も存在する。しかし、被処理情報はある利用目的のために匿名化されて利用されるものであるから、利用目的との関係で必要とされる情報が誤って匿名化されると、正しい情報の収集ができず、結果として匿名化情報の利用価値が下がることになる。例えば、電子カルテ情報の場合、病名、薬剤名、検査名、レジメン、治療結果等の情報が、治療実績、治療成績等の記録となり、医療分野の研究開発において非常に重要度の高い情報である。特に自由なテキスト形式で入力されたテキスト情報は、入力者によって表記が異なり、例えば、名前であっても、漢字や平仮名だけではなく、カタカナ、アルファベット、イニシャル、略称等の様々な表記が存在し得る。このため、病名、薬剤名、検査名、レジメン、治療結果等の単語の一部又は全部に名前の表記と同一又は類似する文字列が含まれる場合があり、誤って匿名化されることが避けられない。このような事例に対応するため、病名、薬剤名、検査名、レジメン、治療結果等の利用目的との関係で重要度の高い単語の辞書を含む非匿名化辞書33を設け、匿名化すべきでない記載を特定することで、被処理情報12における重要な情報が脱漏することを防止できる。
【0033】
匿名化手段3による匿名加工は、匿名化対象(匿名化候補及び必ず匿名化する記載)を削除してもよいし、その記載を所定の文字列(一文字を含む)に置き換えてもよく、匿名化対象が同一の場合は、同一の文字列に置き換えてもよい。所定の文字列としては、アルファベット、記号、ひらがな、カタカナ、数字等の一つ又は複数を組み合わせた無意味な文字列、例えば、「A」、「XXXX」、「○○」等でもよいし、その情報の持つ属性(性別、年齢、年代、地域、職業、年収等)を含む意味を付加した文字列、例えば、「男性A」、「20代女性B」、「病院C」、「関東地方」等に置換してもよい。匿名化手段3は、匿名加工の内容を格納した匿名加工テーブルを含み、匿名加工テーブルに従って匿名化対象を匿名加工してもよい。匿名加工テーブルには、匿名加工の内容が格納されており、例えば、匿名化対象とその置換文字列との対応が格納される。匿名化手段3は、複数の匿名加工テーブルを有し、匿名加工テーブルを変更することにより匿名加工を変更してもよい。また、検査用装置4の入力手段42で匿名加工の内容を変更可能としてもよく、例えば、入力手段42によって匿名加工テーブルを編集可能としてもよい。匿名化テーブルは、匿名モデル31に含まれていてもよく、匿名加工テーブルの匿名化対象は、匿名化対象辞書32として使用してもよい。
【0034】
匿名化モデル31は、被処理情報12を入力すると、匿名化候補を抽出できるモデルである。匿名化モデル31は、例えば、個人情報についてラベル付けされているサンプルデータを用いて機械学習することにより構築でき、このようにして構築された匿名化モデル31は匿名化対象辞書32としても機能する。さらに、匿名化モデル31は、自然言語処理アルゴリズムを組み込んで、テキスト情報から単語をタグ付けして構造化できるように構成することが好ましく、構造化した結果、個人情報としてタグ付けされた単語を匿名化候補として抽出してもよい。この場合、匿名化モデル31は構造化手段5としても機能する。匿名化モデル31で利用する学習方法アルゴリズムならびにモデルについては特に限定されず、例えば、教師あり学習、教師なし学習、ディープラーニング等のモデルを利用できる。ただし、匿名化モデル31は、別途用意された匿名化対象辞書32に接続可能に構成し、匿名化対象辞書32を参照するように構成されていてもよい。また、匿名化モデル31は、利用目的との関係で重要度の高い単語の辞書を含む匿名化しない記載を蓄積した非匿名化辞書33を設け、非匿名化辞書33を参照して、辞書33に登録されている単語については匿名化対象から除外してもよい。非匿名化辞書33は、ルールベースで辞書を構築する以外にも機械学習によって構築されてもよく、例えば、病名辞典、薬剤名辞典、検査名辞典などを学習させてもよいし、匿名化すべきでない記載についてラベル付けされているサンプルデータを用いて機械学習させてもよい。匿名化手段3は、匿名化対象に当該記載内容を識別するラベルを付与した仮匿名化情報13を生成してもよく、匿名化又は構造化の際に単語に付されたタグを匿名化対象のラベルとして付与してもよい。また、匿名化手段3は、被処理情報のうち非匿名化辞書33に該当する記載に対し、非匿名化辞書に該当する記載であることを示すラベルを付与してもよい。なお、本明細書において、「ラベル」とは、その記載の内容(意味、属性、メタデータ)を識別するものであり、「タグ」とは、その記載の内容(意味、属性、メタデータ)を識別するものとして匿名化モデル3又は構造化手段5によって付与されたものを指す。ラベルとして、例えば、施設名(病院名)、氏名、住所、識別番号、メールアドレス、電話番号等が挙げられる。
【0035】
仮匿名化情報13は、匿名化モデル31によって抽出された匿名化候補を匿名加工した記載を含む情報であり、匿名化候補を匿名加工した記載だけでもよいし、被処理情報12の匿名化対象(匿名化候補及び必ず匿名化する記載)を匿名加工した記載に置き換えた情報(匿名化被処理情報)でもよい。匿名化手段3は、匿名化候補及び/又は仮匿名化情報13を検査用装置4に提供する。仮匿名化情報13に、元の被処理情報12(元の匿名化候補)を含めて検査用装置4に提供してもよい。また、匿名化候補及び/又は仮匿名化情報13には、匿名化対象に付与されたラベルが含まれていてもよい。匿名化候補及び/又は仮匿名化情報13は、検査用装置4に送られて表示手段41に表示され、人間による検査工程に供される。
【0036】
検査用装置4は、人間が仮匿名化情報の検査工程を実施する装置であり、少なくとも表示手段41及び入力手段42を含み、さらに、記憶手段、制御手段及びネットワークインターフェイスを備えていてもよい。検査用装置4としては、コンピュータ、タブレット端末、PDA(Personal Digital Assistant)、多機能携帯電話(スマートフォン、i-phone(登録商標))などを採用することができる。検査用装置4は、匿名化手段3とは別に設けられていてもよいし、検査用装置4において匿名化プログラムを実行させることにより匿名化手段3を兼用してもよい。検査用装置4は、ネットワークを介して複数設けることができ、大量の仮匿名化情報を処理することもでき、さらに一つの仮匿名化情報13を複数人によって並行して検査することもできる。検査用装置4は、匿名化手段3から匿名化候補及び/又は仮匿名化情報13を取得し、また、記憶手段2又は匿名化手段3から被処理情報12を取得し、匿名化手段3で抽出した匿名化候補を認識できるように、仮匿名化情報及び/又は被処理情報を表示手段41に表示する。検査用装置4は、入力手段42による修正があった場合は、修正データ43を匿名化手段3に提供し、入力手段42による修正が無かった場合は、匿名化候補を確定及び/又は仮匿名化情報の匿名加工を確定し、匿名化情報14として出力する。検査用装置4は、人間が目視により匿名化候補を把握して、匿名化することが妥当であるか、また、その匿名加工が妥当であるかを判断するものであるから、UI(ユーザーインターフェース)を整えて判断ミスが生じにくいシステムを構築することが好ましい。表示手段41に匿名化候補を認識しやすく表示することで、匿名化候補の見落としを防ぐことができる。また、匿名化候補のラベルを認識しやすく表示することで、被処理情報において匿名化候補がラベルの目的で使用されているかを判断しやすくなり、機械による誤った匿名化を修正しやすくなるので好ましい。
【0037】
表示手段41は、様々な情報を表示する手段であり、例えば、液晶ディスプレイ(LCD)、有機ELディスプレイ、プロジェクタ等を含む。表示手段41としてタッチパネル式のディスプレイを使用すれば、入力手段42としても使用できる。表示手段41には、匿名化手段3から取得した仮匿名化情報13、及び/又は、記憶手段2又は匿名化手段3から取得した被処理情報12が匿名化候補を認識できるように表示される。例えば、被処理情報12の匿名化対象を匿名加工した記載に置き換えた情報(匿名化被処理情報)を表示して、匿名加工した記載を選択することで匿名化候補を表示してもよい(匿名加工した記載をハイライトしてもよい)。また、匿名化候補をハイライトした被処理情報12を表示して、匿名化候補を選択することで匿名加工した記載を表示してもよい。また、一つの検査装置4に2つの表示手段41を設けたり、表示手段41の画面を2分割したりして、一方に匿名化被処理情報を表示し、他方に被処理情報12を表示して対比することで匿名化候補を認識できるように表示してもよいし、一方に匿名化候補及び/又は匿名加工した記載の一覧を表示し、他方に被処理情報12及び/又は匿名化被処理情報を表示してもよい。匿名化対象をハイライトして表示したり、匿名加工した記載をハイライトして表示することにより、匿名化対象(特に匿名化候補)を把握しやすくなるため、匿名化対象の見逃しを減らすことができる。さらに、表示手段41は、匿名化候補にラベルが付与されている場合、匿名化候補に付与されたラベルを認識できるように、仮匿名化情報及び/又は被処理情報を表示することが好ましい。例えば、ラベルを併記したり、ラベル毎に色を変えて匿名化候補を表示したり、ラベル毎に表示画面を変更して、該当するラベルの匿名化候補のみ識別可能に表示したり、匿名化候補を選択することでラベルを表示したりしてもよい。このように匿名化候補のラベルを認識できるようにすると、文脈から把握できる匿名化候補の用途がラベルと一致するか否かを判断しやすくなり、一致しなかった場合には匿名化候補は妥当ではなく、機械による匿名化のミスであることを発見できる。
【0038】
入力手段42は、表示手段41に表示された仮匿名化情報13及び/又は被処理情報12に対し、匿名化する記載の候補を修正可能な手段であり、例えば、キーボード、ポインティングデバイス(マウス、タッチパッ等)、タッチパネル(タッチスクリーンを含む)、マイク等を含む。入力手段42による匿名化候補の修正は、被処理情報の匿名化対象ではなかった記載を匿名化候補に指定すること、匿名化候補を匿名化対象から外すこと、匿名化候補の匿名加工の内容を変更すること、匿名化候補に付されたラベルを変更すること等を含む。入力手段42によって入力された修正内容は表示手段41に表示され、修正データ43は、匿名化手段3に提供され、匿名化候補の抽出及び/又は仮匿名化情報の生成に反映させる。例えば、他の検査用装置4に修正された匿名化候補及び/又は仮匿名化情報を提供し、再度検査工程を実施してもよいし、修正データ43を用いて匿名化モデル31を再学習してもよいし、匿名化対象辞書32、非匿名化辞書33、及び/又は匿名加工テーブルを更新してもよい。修正が無かった場合は、仮匿名化情報13の匿名化候補及びその匿名加工を確定して、匿名化情報14として出力する。仮匿名化情報13を修正した場合は、修正後の内容を確定して匿名化情報14として出力してもよいし、再度、他の人間又は同一の人間による検査工程を実施してもよい。
【0039】
構造化手段5は、構造化されていないテキスト情報に対し、自然言語処理アルゴリズムを適用し、各単語を抽出してタグ付けし、構造化する手段であり、被処理情報12に構造化されていないテキスト情報が含まれていた場合に設けることが好ましい。構造化手段5は、ラベル付けされているサンプルデータを用いて機械学習することにより構築することができる。構造化手段5は、コンピュータ又はサーバに構造化プログラムを実行させることにより実現することができ、例えば、構造化処理を専用に行う構造化コンピュータ又は構造化サーバとして独立して設けてもよいし、被処理情報12を作成又は蓄積するコンピュータ又はサーバで実現してもよいし、匿名化手段3及び/又は検査用装置4及び/又は構造化手段5で実現してもよい。構造化手段5は、被処理情報12における構造化されていないテキスト情報を構造化した構造化情報15を生成することができ、匿名化手段3に被処理情報12として構造化情報15を提供できる。
【0040】
図2(A)及び(B)は、表示手段41における表示画面の一例である。画面には、被処理情報12及び仮匿名化情報13が表示されるウィンドウ44が配置され、
図2(A)はウィンドウ44に被処理情報12を表示した状態であり、
図2(B)は匿名化被処理情報を表示した状態である。ウィンドウ44の上部に配置されたラベル選択枠45内には、左側から、四角の「表示切替チェック欄」45aと、「施設
1」45b、「氏名
2」45c、「住所
3」45d、「ID
4(識別番号)」45e、「メール
5」45f、「電話
6」45gのラベルボタンとが配置されている。ウィンドウ44に表示された匿名化候補又はその匿名加工された記載には、ハイライト及びラベル名が付されて表示されている。ラベル選択枠45内の表示切替チェック欄45aは、チェックが無い場合は、
図2(A)に示すように、ウィンドウ44に、匿名化候補をハイライトした被処理情報12が表示され、チェックされた場合は、
図2(B)に示すように、ウィンドウ44に、匿名化候補を匿名化処理した匿名化被処理情報が表示される。ラベルボタン45b~45gは、任意のラベルのボタンを選択した状態で文章中の文字列を選択することにより、選択した文字列を当該ラベルが付された匿名化候補として入力できる。なお、ラベル選択枠45において、ラベルに付された数字はショートカットであり、対応する数字を押すことでそのラベルボタンを選択できるように構成されている。ウィンドウ44の下には「〇」の決定ボタン46a及び「×」の取消ボタン46bが配置されている。決定ボタン46aは、表示された被処理情報の検査工程を終了した際に入力するボタンであり、決定ボタン46aを入力すると匿名化候補が確定されて匿名化処理が実行され、修正がある場合には、修正データを匿名化手段3に提供する。取消ボタン46bは、匿名化候補の修正だけでは対応が難しい場合等に検査工程を中止するためのボタンである。
図2(A)では、「施設
1」ボタン45bが選択され、ウィンドウ44には、被処理情報中の匿名化候補及びラベルとして、「佐藤」(氏名)「山田病院」(施設)、「西川会病院」(施設)及び「03-1234-5678」(電話)がハイライトされて表示されている。
図2(B)のウィンドウ44には、匿名化候補を匿名化処理した匿名化被処理情報が表示されており、「佐藤」を「A」に、「山田病院」を「B病院」に、「西川会病院」を「C病院」に、「03-1234-5678」を「03-xxxx-xxxx」に変換している。
【0041】
検査工程における修正は、匿名化すべき記載が匿名化候補となっていなかった場合に匿名化候補として選択すること、匿名化すべき記載の一部のみが匿名化候補となっていた場合に匿名化すべき記載の全部を匿名化候補として選択すること、匿名化すべきでない記載が匿名化候補となっていた場合に匿名化候補から外すこと、匿名化候補のラベルが不適切であった場合に適切なラベルに付け替えることなどがある。例えば、
図2(A)において、「佐藤」が匿名化候補としてハイライトされているが、患者名が「さとうはじめ」であった場合、「佐藤」だけではなく、「佐藤一」までを匿名化候補とする必要がある。この場合、氏名のラベルボタンを選択した状態で「佐藤一」までをカーソル等で選択することで修正することが可能である。また、
図2(A)において、「鈴木医師」という記載も個人名であり、匿名化候補として選択する必要がある。
図3(A)は、修正後の画面であり、氏名のラベルボタンが選択されており、カーソル47によって「鈴木医師」という記載の「鈴木」の部分を選択することにより、匿名化候補とした状態を示している。なお、
図3(A)では、既に「佐藤一」までを匿名化候補となるように修正している。
図3(B)は、
図3(A)の匿名化被処理情報であり、「佐藤一」までを「A」に変換し、「鈴木医師」を「D医師」に変換している。また、匿名化候補から外すために、解除ボタンを設けてもよく、画面のどこかに解除ボタンを常に表示し、匿名化候補を選択後、解除ボタンを選択することで匿名化候補から外してもよいし、匿名化候補をカーソル等で選択した場合にその近傍に解除ボタンを表示し、解除ボタンを選択することで匿名化候補から外してもよい。さらに、匿名化候補のラベルが不適切であった場合は、正しいラベルボタンを選択した状態で、匿名化候補を選択することにより、ラベルを付け替えることもできる。
【0042】
図4には、ウィンドウ44に別の被処理情報を表示した画面を示す。
図4(A)において、「アムロ」という記載に氏名ラベルが付されて匿名化候補とされているが、「アムロジピン」という薬剤名であり、匿名化候補ではない。また、「フェンタニル」という記載も氏名ラベルが付されて匿名化候補とされているが、これも薬剤名であり、匿名化候補ではない。これらの薬剤に関する情報は、電子カルテにおいては収集対象とされており、重要な情報であるから、匿名化候補から外す必要がある。
図4(A)では、カーソル47が「アムロ」を選択することにより、〇の中に×が配置された解除ボタン48がハイライトの左上に表示されている。この解除ボタンを選択することにより、匿名化候補から外すことができる。同様の作業を「フェンタニル」にも実施する。なお、非匿名化辞書を設けることにより、非匿名化辞書に含まれる単語については、匿名化対象から除外することが可能であり、このような誤変換を減らすことができる。さらに、
図4(A)において、「東京都千代田区」という記載は住所であるが、匿名化候補とされていないため、住所ラベル45dを選択した状態で「東京都千代田区」という記載を選択することで、匿名化候補とすることができる。また、「11223344」という記載に電話ラベルが付されているが、idラベルが適切であるため、idラベル45eを選択した状態で数字を選択することでラベルを付け替えることができる。
図4(B)は、修正後の被処理情報を表示した画面である。なお、入力手段による修正作業は一例であり、他の手段、例えば、先に匿名化すべき記載を選択した後に、かかる記載のラベルを選択してもよい。
【0043】
図5は、匿名化処理の一例を示すフローチャートである。匿名化手段3は、被処理情報を取得すると(S51)、匿名化候補を抽出する(S52)。匿名化候補を抽出する際に匿名化対象辞書及び非匿名化辞書を使用してもよい。その後、匿名化手段3は、抽出された匿名化候補を匿名加工し、仮匿名化情報を生成する(S53)。匿名加工する際に、匿名化テーブルを使用してもよい。検査用装置4は、仮匿名化情報を取得すると(S54)、検査用装置4の使用者が仮匿名化情報の検査工程を実施する(S55)。使用者は、匿名化候補及び/又は匿名加工の内容、又はそのラベルを確認し、正しい場合はそのまま確定し、問題があった場合は、匿名化候補の変更、匿名加工の内容の変更、又はラベルの変更等を修正し、修正データを生成する。修正データがある場合(S56のYes)は、匿名化手段3に修正データを提供し、匿名化候補の抽出及び/又は仮匿名化情報の生成に反映させる。例えば、匿名化モデルを再学習したり、匿名加工テーブルを変更したりして、再度生成された仮匿名化情報を検査用装置4に提供し、提供された仮匿名化情報を同一又は別の人間が再度検査工程を実施してもよい。修正データが無い場合(S56のNo)は、確定した仮匿名化情報を匿名化情報として出力する(S57)。なお、修正データがある場合(S56のYes)、修正データを匿名化手段3に提供しつつ、修正された後の仮匿名化情報を匿名化情報として出力してもよい。
【0044】
図6は、複数の検査用装置4A、4B…を使用し、一つの被処理情報を並行して複数の担当A、B…によって検査することでより信頼性を高めた匿名化処理の一例を示すフローチャートである。匿名化手段3での処理は
図5と同様であり、被処理情報を取得すると(S61)、匿名化候補を抽出し(S62)、抽出された匿名化候補を匿名加工し、仮匿名化情報を生成する(S63)。複数の検査用装置4A、4B…は、それぞれ同じ仮匿名化情報を取得し(S64A、S64B)、それぞれの担当A、B…が仮匿名化情報を検査する(S65A、S65B)。各担当A、B…は、それぞれ仮匿名化情報について検査し、問題があれば修正データを生成する(S66A、S66B)。そして、S67において、複数の検査用装置4A、4B…から取得した複数の修正データの差分又は複数の修正後の仮匿名化情報の差分を判定し、差分がある場合(S67のYes)、担当によって異なる修正をしたことから、各検査用装置4A、4B…において差分を確認可能に表示して再度検査工程を実施する(S65A、S65B)。再確認した修正データは再度差分を判定し、差分が無くなり統一の結果が得られるまで確認作業を繰り返す。差分がない場合(S67のNo)、統一された修正データによって修正された仮匿名化情報を匿名化情報として出力する(S68)。また、修正データは、匿名化手段3に提供され、匿名化モデルの再学習に使用される。
図6においては、複数の担当A、B…による検査が実施されるため、より信頼性の高い匿名化情報を得ることができる。差分を検出する手段としては、複数の検査用装置4A、4B…に接続された専用のサーバで実現してもよいし、匿名化手段3及び/又は検査用装置4で実現してもよい。なお、
図5及び
図6では、先に仮匿名化情報を生成し、その後仮匿名化情報を検査しているが、仮匿名化情報を生成する前に、検査用装置4が匿名化候補を取得して検査し、確定した匿名化候補を匿名化手段3が匿名加工してもよい。
【0045】
図7は、非匿名化辞書を設けた場合における匿名化候補抽出処理の一例を示すフローチャートである。匿名化手段3は、被処理情報を取得すると(S71)、被処理情報の中から単語を選択し(S72)、匿名化対象辞書を使用して匿名化対象であるか否かを判定する(S73)。匿名化対象と判定された場合(S73のYes)は、非匿名化辞書を参照して、当該単語が非匿名化辞書に含まれるか否かを判定する(S74)。ここで、当該単語それ自体が非匿名化辞書に含まれる場合(例えば
図4の「フェンタニル」)だけではなく、当該単語が非匿名化辞書に含まれる単語の一部である場合(例えば
図4の「アムロ」と「アムロジピン」)も非匿名化辞書に含まれると判定する。そして、非匿名化辞書に含まれる場合(S74のYes)は、当該単語を匿名化対象から除外し、非匿名化辞書に該当する記載であることを示すラベルを単語に付与する(S75)。非匿名化辞書に含まれていない場合(S74のNo)は、匿名化候補として抽出し、匿名化対象としてのラベルを単語に付与する。匿名化対象ではないと判定された場合(S73のNo)や、S75又はS76において単語にラベルを付与した後は、次の単語がないかを確認し(S77)、次の単語がない場合(S77のYes)は終了し、次の単語がある場合(S77のNo)は、次の単語を選択し(S73)、匿名化対象か判定処理を続ける。なお、非匿名化辞書に該当する記載であることを示すラベルとしては、例えば、病名、薬剤名、検査名、レジメン、治療結果等の情報の分野としてもよい。
【0046】
図8(A)及び(B)は、匿名化加工の加工内容を示す匿名化テーブルの一例である。
図8(A)の匿名化テーブルでは、施設及び氏名ラベルの匿名化対象については、出現順にアルファベットに置換するが、施設を意味する記載(例えば、病院、医院、診療所等)は残存させる加工を行う。住所ラベルの匿名化対象については、市までに加工し、ID及びメールラベルの匿名化対象については削除される。電話ラベルの匿名化対象については、市外局番以外はxに置換する加工を行っている。
図8(B)は、加工方法が異なる他の匿名化テーブルであり、施設ラベルの匿名化対象については、アルファベットの「O」と数字からなる記号に置換され、同一施設は同一記号となるように加工される。氏名ラベルの匿名化対象については、アルファベットの「N」と数字からなる記号に置換され、同一氏名は同一記号となるように加工される。住所、ID、メール及び電話ラベルの匿名化対象については削除される。このような匿名化テーブルによれば、匿名化対象のラベルに応じて加工方法が決定され、匿名化されるので、検査工程においてラベルを付け替えるだけで適切な加工方法を選択できる。また、複数の匿名化テーブルを設けることにより、匿名化テーブルを切り替えるだけで加工方法を変更することができる。匿名化テーブルの内容は、検査用装置の入力手段によって変更可能とされていてもよい。
【実施例0047】
実際の電子カルテ情報を使用して、匿名化モデル(匿名化辞書、非匿名化辞書)を構築した。電子カルテ情報は、患者ごとに作成され、自由なテキスト形式で入力されたテキスト情報を含んでいる。自然言語処理アルゴリズムを用いた構造化手段によって、テキスト情報を構造化し、構造化されたテキスト情報に対し、検査装置を使用して匿名化対象を入力して匿名化対象辞書の教師データとした。また、匿名化すべきでない記載についても、非匿名化対象のラベルを付して入力し、非匿名化辞書の教師データとした。これを繰り返して、匿名化モデル(匿名化辞書、非匿名化辞書)を構築することができた。
【0048】
かかる匿名化モデルを使用して、匿名化候補を抽出した被処理情報の一例を
図2(A)に示し、匿名化候補を匿名化処理した匿名化被処理情報を
図2(B)に示す。検査装置において検査したところ、
図2(A)では「佐藤」が匿名化候補としてハイライトされているが、患者名が「さとうはじめ」であったため、「佐藤一」までを匿名化候補としてカーソルで選択し、氏名のラベルボタンを付した。さらに、
図2(A)の「鈴木医師」という記載についても「鈴木」を匿名化候補としてカーソルで選択し、氏名のラベルボタンを付した。
図3(A)は、修正後の画面であり、「佐藤一」及び「鈴木」の記載が匿名化候補に修正されている。検査装置で入力した修正データについては、匿名化対象辞書の教師データとして匿名化モデルにフィードバックした。
【0049】
かかる匿名化モデルを使用して、匿名化候補を抽出した被処理情報の他の一例を
図4(A)に示す。
図4(A)において、「アムロ」という記載は「アムロジピン」という薬剤名であり、匿名化候補ではなく、「フェンタニル」という記載も氏名ラベルが付されて匿名化候補とされているが、これも薬剤名であり、匿名化候補ではないため、それらを匿名化候補から解除した。さらに、
図4(A)において、「東京都千代田区」という記載は住所であるが、匿名化候補とされていないため、住所ラベル45dを選択した状態で「東京都千代田区」という記載を選択することで、匿名化候補とした。また、「11223344」という記載に電話ラベルが付されているが、idラベルが適切であるため、idラベル45eを選択した状態で数字を選択することでラベルを付け替えた。
図4(B)は、修正後の被処理情報を表示した画面であり、「アムロ」及び「フェンタニル」が匿名化候補から解除され、「東京都千代田区」が住所ラベルの匿名化候補に追加され、「11223344」がidラベルの匿名化候補に変更されている。これらの修正データについても、匿名化対象辞書の教師データとして匿名化モデルにフィードバックした。
【0050】
さらに、
図9では、非匿名化ラベル枠49を表示し、「アムロジピン」及び「フェンタニル」について、匿名化すべきではない記載であることを示す薬剤のラベルを付した。この修正データを匿名化モデルにフィードバックすることで、非匿名化辞書の教師データとして「アムロジピン」及び「フェンタニル」という単語が匿名化すべきではない記載であることを学習させることができる。