(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-03
(45)【発行日】2024-12-11
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
G06Q 10/107 20230101AFI20241204BHJP
G06F 40/279 20200101ALI20241204BHJP
G06F 21/62 20130101ALI20241204BHJP
G06F 13/00 20060101ALI20241204BHJP
【FI】
G06Q10/107
G06F40/279
G06F21/62 345
G06F13/00
(21)【出願番号】P 2020188393
(22)【出願日】2020-11-12
【審査請求日】2023-11-09
(73)【特許権者】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(73)【特許権者】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】田中 靖大
【審査官】宮地 匡人
(56)【参考文献】
【文献】特開2010-072779(JP,A)
【文献】国際公開第2012/095971(WO,A1)
【文献】特開2019-061419(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 40/279
G06F 21/62
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
電子メールからテキストデータを取得する取得手段と、
テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、
電子メールの送信指示を受け付ける受付手段と、
電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付手段により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
を備え、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理システム。
【請求項2】
電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、当該電子メールの送信を保留する送信制御手段と、
を備えることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記選択受付手段は、さらに、前記送信制御手段により送信が保留された電子メールについて、送信を許可するか否かの選択を受け付けることを特徴とする請求項2に記載の情報処理システム。
【請求項4】
前記送信制御手段は、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たすことにより送信が保留された電子メールについて、前記選択受付手段により当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択および送信を許可する旨の選択を受け付けた場合に、当該電子メールを送信するよう制御することを特徴とする請求項3に記載の情報処理システム。
【請求項5】
前記送信制御手段は、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たさない場合、前記選択受付手段による個人情報が含まれるか否かの選択を受け付けることなく、当該電子メールを送信することを特徴とする請求項2乃至4のいずれか1に記載の情報処理システム。
【請求項6】
テキストデータから個人情報形成情報を抽出する抽出手段と
、
前記抽出手段により抽出された個人情報形成情報と、当該個人情報形成情報の抽出元であるテキストデータに対して設定された個人情報が含まれるか否か
の情報と、を対応付けたデータにより、学習済みモデルを生成する生成手段をさらに備えることを特徴とする請求項1
乃至5のいずれか1項に記載の情報処理システム。
【請求項7】
前記生成手段は、前記抽出手段により抽出された個人情報形成情報の種別毎の抽出数と、当該個人情報形成情報の抽出元であるテキストデータに対して設定された個人情報が含まれるか否か
の情報と、を対応付けたデータにより、学習済みモデルを生成することを特徴とする請求項
6に記載の情報処理システム。
【請求項8】
前記
選択受付手段により受け付けた
個人情報が含まれるか否かの選択と、当該
選択を行ったユーザまたはユーザの所属に係る情報とを対応付けて記憶し、
前記生成手段は、前記
選択を行ったユーザまたはユーザの所属ごとに、学習済みモデルを生成することを特徴とする請求項
6または7に記載の情報処理システム。
【請求項9】
前記所定の条件を満たす場合とは、出力手段により出力された個人情報指数が、既定の値以上である場合であることを特徴とする請求項1乃至8のいずれか1項に記載の情報処理システム。
【請求項10】
テキストデータとは、電子メールの本文、および電子メールに添付されたファイルに含まれるテキストの少なくとも1つを含むことを特徴とする請求項1乃至9のいずれか1項に記載の情報処理システム。
【請求項11】
コンピュータを、請求項1乃至
10のいずれか1項に記載の各手段として機能させるためのプログラム。
【請求項12】
情報処理システムの取得手段が、
電子メールからテキストデータを取得する取得工程と、
前記情報処理システムの出力手段が、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力工程と、
前記情報処理システムの受付手段が、電子メールの送信指示を受け付ける受付工程と、
前記情報処理システムの選択受付手段が、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付工程により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付工程と、
を備え、
前記選択受付工程により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理方法。
【請求項13】
テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、を備える装置と通信可能な情報処理装置であって、
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報
が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された
電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
を備えることを特徴とする情報処理装置。
【請求項14】
テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、を備える装置と通信可能な情報処理装置を、
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報
が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された
電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
して機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
個人情報保護法の改正に伴い適用範囲が拡大されたことにより、事業者における情報漏洩時のリスクは高まっており、個人情報漏洩防止対策の重要性は増してきている。
【0003】
個人情報を扱う場合は、個人データの安全管理のために必要な措置を講じる必要があるが、電子化された個人データは複製が容易なため、個人の端末において作業を行った際に複製したファイルが作業後も放置されているなど、管理困難な状態に陥りやすい。
【0004】
更に、電子メールなどによってデータを外部に送信する場合は、誤送信のチェックだけではなく、誤って個人情報を含んだファイルを添付していないかの確認が必要となる。
【0005】
しかしながら、組織において、各個人が管理する端末に保存されているファイルを全て確認したり、電子メールに添付されているファイルを都度開いて確認したりするには膨大なコストが必要となる。
【0006】
膨大な作業コストを抑えながら、組織における個人情報を適切に管理するために、個人情報を含むファイルを高い確度で判断できる技術が望まれている。
【0007】
特許文献1には、個人情報を形成し得る個人情報形成情報を検出し、検出した個人情報形成情報の位置関係から個人情報を特定し、個人情報の文字数や項目数などを計測し、計測値から個人情報を含む度合を示す指標値として示す技術が記載されている。
【先行技術文献】
【特許文献】
【0008】
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1においては、個人情報を含む度合いを示す指標値の算出式を人手で調整する必要があり、適切な指標値を算出するには手間がかかってしまう。
【0010】
そこで、本発明は、より効率的に、高い精度で、個人情報を含む文書を判定できる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明の情報処理システムは、テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータに個人情報が含まれるかを判定する判定手段と、を備えることを特徴とする。
【発明の効果】
【0012】
本発明によれば、より効率的に、高い精度で、個人情報を含む文書の判定が可能となる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態における、個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、個人情報検査装置、Webメールサービス、管理者端末、クライアント端末のハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。
【
図4】本発明の実施形態における、個人情報を学習する処理の一例を示すフローチャートである。
【
図5】本発明の実施形態における、判定知識保存領域の構成の一例を示す図である。
【
図6】本発明の実施形態における、文書に対する特徴ベクトルを生成する処理の一例を示すフローチャートである。
【
図7】本発明の実施形態における、学習データの一例を示す図である。
【
図8】本発明の実施形態における、文書から取得した個人情報形成情報の一例を示す図である。
【
図9】本発明の実施形態における、特徴ベクトルの一例を示す図である。
【
図10】本発明の実施形態における、特徴量保存テーブルの一例を示す図である。
【
図11】本発明の実施形態における、学習の結果獲得した機械学習のモデルの一例を示す図である。
【
図12】本発明の実施形態における、個人情報指数算出処理の一例を示すフローチャートである。
【
図13】本発明の実施形態における、個人情報指数算出式の一例を示す図である。
【
図14】本発明の実施形態における、予測値算出の過程の一例を示す図である。
【
図15】本発明の実施形態における、Webメールサービスにおける電子メールの検査処理の一例を示すフローチャートである。
【
図16】本発明の実施形態における、Webメールサービスにおけるメール編集画面の一例を示す図である。
【
図17】本発明の実施形態における、Webメールサービスにおける送信確認画面の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0015】
図1は、本発明の実施形態における個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。
【0016】
個人情報検査装置100と、Webメールサービス110および管理者端末120はローカルエリアネットワーク130を介して接続される構成となっている。また、Webメールサービス110は、外部ネットワーク140を経由して、クライアント150に接続可能な構成となっている。
【0017】
Webメールサービス110は、一般的な電子メールクライアントの機能、即ち電子メールの編集機能とメールの送受信機能を、クライアント端末150に提供する。
【0018】
また、Webメールサービス110は、クライアント端末150においてユーザがメールの送信または明示的は個人情報の検査を指示すると、個人情報検査装置100に個人情報の有無を判定する処理の実行を要求する。
【0019】
個人情報検査装置100が送信しようとする電子メールに個人情報を含む可能性があると判断した場合、Webメールサービス110は、ユーザに対し個人情報有無の確認と送信可否の判断を促すメッセージを表示し、ユーザの送信可否の判断に基づき送信を制御する。
【0020】
本発明の実施形態においては、個人情報検査装置100は、クライアント端末150に対し、外部ネットワーク140を経由するサービスとして構成してもよいし、Webメールサービス110の機能の一部として構成してもよい。
【0021】
また、クライアント端末150上で動作するメールクライアントプログラムの機能として構成してもよい。
【0022】
図2は、本発明の実施形態における個人情報検査装置100、Webメールサービス110、管理者端末120、クライアント端末150のハードウェア構成の一例を示すブロック図である。
【0023】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0024】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0025】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0026】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0027】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0028】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0029】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0030】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0031】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0032】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0033】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0034】
図3は、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。
【0035】
メール編集処理部311は、クライアント端末150のWebブラウザ320に表示された画面を介して受け付けたユーザからの操作・指示に基づき、電子メールの作成・編集を行う機能を備える。
【0036】
送信制御処理部312は、ユーザから電子メールの送信指示を受け付けると、当該電子メールからテキスト(本文や添付ファイル等)を抽出し、個人情報検査装置100の各処理部による個人情報指数の算出処理を制御する。また、個人情報指数の算出処理の結果に基づき、
図17に示す確認ダイアログを表示したり、ユーザから送信の可否を受け付けることで電子メールの送信処理を制御する機能を備える。
【0037】
送信処理部313は、送信制御処理部312において送信することが決定された電子メールを外部ネットワーク140に送出する機能を備える。
【0038】
個人情報学習処理部301は、管理者端末120からアップロードされた情報に基づき、
図4のフローチャートに示す個人情報の学習処理を実行する機能を備える。
【0039】
特徴ベクトル生成処理部302は、処理対象の文書に対して特徴ベクトルを生成する機能を備える。
【0040】
判定知識保存領域303は、特徴ベクトル生成処理部302において生成された特徴ベクトルと、学習データ学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を保存する領域である。
【0041】
個人情報検査処理部304は、送信制御処理部312から取得したテキストに対して、
図12に示すテキスト内容が個人情報である可能性を算出する処理を実行する機能を備える
【0042】
(個人情報学習処理)
次に
図4のフローチャートを用いて、本発明の実施形態における個人情報学習処理部301が実行する個人情報の学習処理について説明する。
図4は、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、管理者端末120からアップロードされた個人情報・非個人情報を予め分類された文書に基づき、個人情報の特徴を学習する処理を示すフローチャートである。
【0043】
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書を学習データとして取得する。
【0044】
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データにおける文書に対して、ステップS405までの繰り返し処理を開始する。
【0045】
ステップS403では、個人情報学習処理部301は、処理対象の文書に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。特徴ベクトルの生成方法については後述する。
【0046】
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトルと、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を、
図5に示す判定知識保存領域303における特徴ベクトル保存テーブル501に保存する。
【0047】
ステップS405では、個人情報学習処理部301は、処理対象となる文書がまだあれば、ステップS402からの繰り返し処理を実施する。処理対象となる文書がなければ、ステップS406に処理を移す。
【0048】
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501の特徴ベクトルとラベル(個人情報・非個人情報)に対して機械学習を用いて学習を行い、学習の結果としてモデル(学習済みモデル)を獲得する。
【0049】
ステップS407では、個人情報学習処理部301は、ステップS406で獲得したモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。
【0050】
本発明の実施形態においては、個人情報学習処理を個人情報検査処理と同一のハードウェア上で実行するように構成しているが、異なるハードウェア上で実行するように構成しても構わない。
また、学習データをアップロードするように構成しているが、個人情報学習処理を行うハードウェア上で管理するように構成してもよい
【0051】
(特徴ベクトル生成処理)
次に
図6のフローチャートを用いて、本発明の実施形態における特徴ベクトル生成処理部302が実行する特徴ベクトルの生成処理について説明する。
【0052】
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに個人情報形成情報として抽出する。
【0053】
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報から、種別や文字数に基づいた統計値を求める。
【0054】
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトルとしてまとめる。
【0055】
(個人情報学習処理具体例)
次に個人情報学習処理の具体例として、
図7に示す学習データ700に対して、
図4に示す処理が実施された場合について説明する。
【0056】
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書700を学習データとして取得する。
【0057】
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データ700における文書701に対して、ステップS405までの繰り返し処理を開始する。
【0058】
ステップS403では、個人情報学習処理部301は、処理対象の文書701に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。
【0059】
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書701のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに
図8に示す個人情報形成情報801を抽出する。
【0060】
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報801から、
図9に示す種別や文字数に基づいた統計値を求める。
【0061】
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトル901としてまとめる。本発明の実施例においては、説明を容易にするために正規化等の処理は省略してるが、正規化を行うように構成してもよい。
【0062】
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトル901と、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルTRUEの組1001を、
図10に示す特徴ベクトル保存テーブル501に保存する。
【0063】
ステップS405では、個人情報学習処理部301は、処理対象となる文書702がまだあるので、ステップS402からの繰り返し処理を実施する。
【0064】
以下、学習データ700の文書全てに対して同様のステップを実施する。
【0065】
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501に対して機械学習により学習を行い、モデルを獲得する。
【0066】
本発明の実施例においては、線形のSVM(Support Vector Machine)を用いる。
【0067】
ステップS407では、個人情報学習処理部301は、学習結果として獲得した
図11に示すモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。獲得したモデルは予測値(計算結果)が正の値となる場合に個人情報と判断する。
【0068】
本発明の実施例においては、説明を容易にするために機械学習の手法として線形のSVMを用いて説明したが、正否の二値に分類することができ、その度合いを数値として表現できるなら、いずれの手法を用いてもよい
【0069】
(個人情報検査処理)
次に
図12のフローチャートを用いて、本発明の実施形態における個人情報検査処理部304が実行する個人情報の検査処理について説明する。
【0070】
図12のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、入力テキストに対して、テキストの内容が個人情報である可能性を示す度合を数値として算出する処理を示すフローチャートである。
【0071】
ステップS1201では、個人情報検査処理部304は、処理対象となる文書のテキストを取得する。
【0072】
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した
図6のフローチャートを用いて、入力文書に対する特徴ベクトルを取得する。
【0073】
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトルに対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値を算出する。
【0074】
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値に対して、感覚的に把握が容易な値となるように変換し、個人情報指数として出力する。
本発明の実施例においては、
図13に示すような個人情報指数算出式を用いるが、他の算出式を用いてもよいし、予測値をそのまま用いてもよい
【0075】
(個人情報検査処理具体例)
次に個人情報検査処理の具体例として、
図14に示す検査対象文書1401に対して、
図12に示す処理が実施された場合について説明する。
【0076】
ステップS1201では、個人情報検査処理部304は、処理対象となる文書1401からテキスト1402を取得する。
【0077】
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した
図6のフローチャートを用いて、入力文書に対する特徴ベクトル1403を取得する。
【0078】
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトル1403に対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値として1460.960を算出する(1404)。
【0079】
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値1460.960に対して、
図13に示す個人情報指数算出式を用いて個人情報指数を算出する。ここではRmin=-1700、Rmax=2000であったとする。
結果として50+50×1460.960÷max(2000,-(-1700))=86.524を個人情報指数として得る。
【0080】
このように、個人情報を含むか否かを判定された文書集合を用意するだけで、人手による調整不要で、個人情報である確度となる個人情報指数を算出すことが可能となる。
また、個人情報指数は、統計情報に基づいて算出されるので、個人情報形成情報の抽出に多少の誤りがあったとしても、高い精度で個人情報である確度を示すことができる。
算出した個人情報指数を用いれば、確度に応じた処理を実現することができ、効率的な個人情報の管理が可能となる
【0081】
次に
図15に示すフローチャートを用いて、本発明の具体的な適用例として、電子メールの送信時に個人情報の送信を確認し、更にユーザからのフィードバックを取得する例を説明する。
なお、本実施例においては電子メールの送信を適用例として説明するが、これ以外にも、文書を印刷する際に個人情報が含まれる文書かを判定したり、文書をWebサービスにアップロードする際に判定するなどの適用例がある。
【0082】
図15は、Webメールサービス110のCPU201が所定の制御プログラムを読み出して実行する処理であり、クライアント端末150のWebブラウザ320に表示された
図16のような電子メール編集画面1601で、送信ボタン1602の押下によって送信指示がなされた場合に実施される処理を示すフローチャートである。
【0083】
ステップS1501では、送信制御処理部312は、電子メールの送信指示を受け取る。
【0084】
ステップS1502では、送信制御処理部312は、送信指示された電子メールに添付されているファイルに対し、ステップS1509までの繰り返し処理を開始する。なお、添付ファイルだけでなく、電子メール本文なども対象としても良い。
【0085】
ステップS1503では、送信制御処理部312は、処理対象の添付ファイルからテキストを抽出する。添付ファイルが画像の場合には、当該画像に対してOCR処理することでテキストを取得する。
【0086】
ステップS1504では、送信制御処理部312は、ステップS1503で抽出したテキストに対して、個人情報検査装置100を用いて個人情報指数を算出する。
【0087】
ステップS1505では、送信制御処理部312は、ステップS1504で算出した個人情報指数が規定値以上の場合、処理をステップS1506に移す。規定値未満であった場合、ステップS1509に処理を移す。
【0088】
ステップS1506では、送信制御処理部312は、
図17に示す確認ダイアログを表示し、ユーザに送信の可否を取得するとともに個人情報か否かの判断を取得する。
【0089】
ステップS1507では、送信制御処理部312は、ステップS1505で取得した個人情報か否かのユーザによる判断を、個人情報検査装置100に送り、個人情報検査装置100で処理中の特徴ベクトルと一緒に特徴ベクトル保存テーブル501に保存するよう指示する。
【0090】
ステップS1508では、送信制御処理部312は、ステップS1505で取得した送信可否が「送信」であった場合、ステップS1509に処理を移す。送信可否が「キャンセル」であった場合、処理を終了する。
【0091】
ステップS1509では、送信制御処理部312は、処理対象となる添付ファイルがまだあれば、ステップS1502からの繰り返し処理を実施する。処理対象となる添付ファイルがなければ、ステップS1510に処理を移す。
【0092】
ステップS1510では、送信制御処理部312は、電子メールを送信処理部313に送り電子メールを送出する。
【0093】
このように、ユーザによる個人情報か否かの判断を収集すれば、個人情報検査装置100において、定期的に学習処理を実施することで、人手の調整を必要とせずに、ユーザの判断に適合した個人情報指数の算出が可能となる。
【0094】
本発明の実施例においては、保存した特徴ベクトル全てから学習するように構成しているが、特徴ベクトルの保存する際に、ユーザの所属する部門やユーザを識別する情報を付与し、部門やユーザごとに学習を行うように構成してもよい。そして、当該ユーザや当該ユーザの所属部門に係る文書に対しては、当該学習により生成されたモデルを用いて、個人情報が含まれるか否かを判定してもよい。
【0095】
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0096】
また、本発明におけるプログラムは、
図4、
図12に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図4、
図12の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図4、
図12の各装置の処理方法ごとのプログラムであってもよい。
【0097】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0098】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0099】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0100】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0101】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0102】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0103】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0104】
100 個人情報検査装置
110 Webメールサービス
120 管理者端末
130 LAN
140 外部ネットワーク
150 クライアント端末150