(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024093619
(43)【公開日】2024-07-09
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
G06F 16/28 20190101AFI20240702BHJP
【FI】
G06F16/28
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022210127
(22)【出願日】2022-12-27
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100227857
【弁理士】
【氏名又は名称】中山 圭
(72)【発明者】
【氏名】中市 秀哉
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB04
(57)【要約】
【課題】 より効率的に、高い精度で、個人情報を含み、かつ、漏洩時の影響度が大きい文書を特定できる仕組みを提供すること
【解決手段】 テキストデータを取得する取得手段と、
テキストデータと、当該テキストデータの個人情報漏洩時のリスクに係る特徴量を含む当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得したテキストデータの個人情報指数を算出する算出手段と、
を備えることを特徴とする情報処理システム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストデータを取得する取得手段と、
テキストデータと、当該テキストデータの個人情報漏洩時のリスクに係る特徴量を含む当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得したテキストデータの個人情報指数を算出する算出手段と、
を備えることを特徴とする情報処理システム。
【請求項2】
前記個人情報漏洩時のリスクに係る特徴量は、所定のキーワード毎に算出されるスコアの総和により算出されることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記キーワード毎のスコアは、当該キーワードの出現数に基づき算出されることを特徴とする請求項2に記載の情報処理システム。
【請求項4】
前記キーワード毎のスコアは、当該キーワードの出現位置に基づき算出されることを特徴とする請求項3に記載の情報処理システム。
【請求項5】
前記キーワード毎のスコアは、当該キーワードの出現位置がテキストデータの先頭に近いほど高いスコアとなるよう算出されることを特徴とする請求項4に記載の情報処理システム。
【請求項6】
前記テキストデータは電子メールであることを特徴とし、
前記算出手段により算出された個人情報指数に基づき、当該電子メールの送信制御内容を決定する送信制御手段をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理システム。
【請求項7】
電子メールを取得する取得手段と、
前記取得手段により取得した電子メールに係る文書種別を特定する特定手段と、
テキストデータと、当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得した電子メールの個人情報指数を算出する算出手段と、
前記特定手段により特定された文書種別と、前記算出手段により算出された個人情報指数とに基づき、当該電子メールの送信制御内容を決定する送信制御手段と、
を備えることを特徴とする情報処理システム。
【請求項8】
前記送信制御手段は、前記文書種別ごとに設定された個人情報指数の閾値と前記算出された個人情報指数とに基づき、前記取得手段により取得した電子メールの送信制御内容を決定することを特徴とする請求項7に記載の情報処理システム。
【請求項9】
前記特定手段は、前記電子メールの添付ファイルに係る文書種別を特定することを特徴とする請求項8に記載の情報処理システム。
【請求項10】
情報処理システムの取得手段が、テキストデータを取得する取得工程と、
前記情報処理システムの算出手段が、テキストデータと、当該テキストデータの個人情報漏洩時のリスクに係る特徴量を含む当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得したテキストデータの個人情報指数を算出する算出工程と、
を備えることを特徴とする情報処理方法。
【請求項11】
情報処理システムの取得手段が、電子メールを取得する取得工程と、
前記情報処理システムの特定手段が、前記取得工程により取得した電子メールに係る文書種別を特定する特定工程と、
前記情報処理システムの算出手段が、テキストデータと、当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得工程で取得した電子メールの個人情報指数を算出する算出工程と、
前記情報処理システムの送信制御手段が、前記特定工程により特定された文書種別と、前記算出工程により算出された個人情報指数とに基づき、当該電子メールの送信制御内容を決定する送信制御工程と、
を備えることを特徴とする情報処理方法。
【請求項12】
コンピュータを、
テキストデータを取得する取得手段と、
テキストデータと、当該テキストデータの個人情報漏洩時のリスクに係る特徴量を含む当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得したテキストデータの個人情報指数を算出する算出手段として機能させるためのプログラム。
【請求項13】
コンピュータを、
電子メールを取得する取得手段と、
前記取得手段により取得した電子メールに係る文書種別を特定する特定手段と、
テキストデータと、当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得した電子メールの個人情報指数を算出する算出手段と、
前記特定手段により特定された文書種別と、前記算出手段により算出された個人情報指数とに基づき、当該電子メールの送信制御内容を決定する送信制御手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
個人情報保護法の改正に伴い適用範囲が拡大されたことにより、事業者における情報漏洩時のリスクは高まっており、個人情報漏洩防止対策の重要性は増してきている。
【0003】
個人情報を扱う場合は、個人データの安全管理のために必要な措置を講じる必要があるが、電子化された個人データは複製が容易なため、個人の端末において作業を行った際に複製したファイルが作業後も放置されているなど、管理困難な状態に陥りやすい。
【0004】
更に、電子メールなどによってデータを外部に送信する場合は、誤送信のチェックだけではなく、誤って個人情報を含んだファイルを添付していないかの確認が必要となる。
【0005】
しかしながら、組織において、各個人が管理する端末に保存されているファイルを全て確認したり、電子メールに添付されているファイルを都度開いて確認したりするには膨大なコストが必要となる。
【0006】
また、個人情報を含むファイルであっても、文書の内容によって漏洩時の影響度が異なる。例えば、開催通知などのお知らせや通知書、領収書や請求書などの購買書は、氏名など個人情報を含むが、社外に送信することが前提のファイルであり、履歴書と比較すると漏洩時の影響度は低い。文書の内容による影響度に関係なく、個人情報を含むかどうかで、これら全てのファイルを管理者が確認するという運用を実施している場合、確認のための作業コストが膨大になってしまう。
【0007】
そのため、膨大な作業コストを抑えながら、組織における個人情報を適切に管理するために、個人情報を含み、かつ、漏洩時の影響度が大きいファイルを高い確度で判断できる技術が望まれている。
【0008】
特許文献1には、個人情報を形成し得る個人情報形成情報を検出し、検出した個人情報形成情報の位置関係から個人情報を特定し、個人情報の文字数や項目数などを計測し、計測値から個人情報を含む度合を示す指標値として示す技術が記載されている。
【先行技術文献】
【特許文献】
【0009】
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかし、特許文献1においては、個人情報を含む度合いを示す指標値の算出式を人手で調整する必要があり、適切な指標値を算出するには手間がかかってしまう。
【0011】
そこで、本発明は、より効率的に、高い精度で、個人情報を含み、かつ、漏洩時の影響度が大きい文書を特定できる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0012】
テキストデータを取得する取得手段と、
テキストデータと、当該テキストデータの個人情報漏洩時のリスクに係る特徴量を含む当該テキストデータの特徴量を学習した学習済みモデルにより、前記取得手段で取得したテキストデータの個人情報指数を算出する算出手段と、
を備えることを特徴とする情報処理システム。
【発明の効果】
【0013】
本発明によれば、より効率的に、高い精度で、個人情報を含み、かつ、漏洩時の影響度が大きい文書の特定が可能となる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態における、個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、個人情報検査装置、Webメールサービス、管理者端末、クライアント端末のハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。
【
図4】本発明の実施形態における、個人情報を学習する処理の一例を示すフローチャートである。
【
図5】本発明の実施形態における、判定知識保存領域の構成の一例を示す図である。
【
図6】本発明の実施形態における、文書に対する特徴ベクトルを生成する処理の一例を示すフローチャートである。
【
図7】本発明の実施形態における、学習データの一例を示す図である。
【
図8】本発明の実施形態における、文書から取得した個人情報形成情報の一例を示す図である。
【
図9】本発明の実施形態における、特徴ベクトルの一例を示す図である。
【
図10】本発明の実施形態における、特徴量保存テーブルの一例を示す図である。
【
図11】本発明の実施形態における、学習の結果獲得した機械学習のモデルの一例を示す図である。
【
図12】本発明の実施形態における、個人情報指数算出処理の一例を示すフローチャートである。
【
図13】本発明の実施形態における、個人情報指数算出式の一例を示す図である。
【
図14】本発明の実施形態における、予測値算出の過程の一例を示す図である。
【
図15】本発明の実施形態における、Webメールサービスにおける電子メールの検査処理の一例を示すフローチャートである。
【
図16】本発明の実施形態における、Webメールサービスにおけるメール編集画面の一例を示す図である。
【
図17】本発明の実施形態における、Webメールサービスにおける送信確認画面の一例を示す図である。
【
図18】本発明の実施形態における、文書種別の判定する際に使用するキーワードの抽出処理の一例を示すフローチャートである。
【
図19】本発明の実施形態における、文書種別ごとの頻出キーワードの一例を示す図である。
【
図20】本発明の実施形態における、文書種別を判定する際に使用する特徴ベクトルの生成処理の一例を示す図である。
【
図21】本発明の実施形態における、文書種別を判定する際に使用する特徴ベクトルの一例を示す図である。
【
図22】本発明の実施形態における、文書種別を判定するモデルの学習処理の一例を示すフローチャートである。
【
図23】本発明の実施形態における、文書種別を判定するモデルの一例を示す図である。
【
図24】本発明の実施形態における、文書種別判定処理の一例を示すフローチャートである。
【
図25】本発明の実施形態における、文書種別判定処理を組み込んだWebメールサービスにおける電子メールの検査処理の一例を示すフローチャートである。
【
図26】本発明の実施形態における、文書の重要度を示すキーワードの一例を示す図である。
【
図27】本発明の実施形態における、重要度の大きい文書らしさのスコアの算出式も一例を示す図である。
【
図28】本発明の実施形態における、重要度の小さい文書らしさのスコアの算出過程の一例である。
【発明を実施するための形態】
【0015】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0016】
図1は、本発明の実施形態における個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。
【0017】
個人情報検査装置100と、Webメールサービス110および管理者端末120はローカルエリアネットワーク130を介して接続される構成となっている。また、Webメールサービス110は、外部ネットワーク140を経由して、クライアント150に接続可能な構成となっている。
【0018】
Webメールサービス110は、一般的な電子メールクライアントの機能、即ち電子メールの編集機能とメールの送受信機能を、クライアント端末150に提供する。
【0019】
また、Webメールサービス110は、クライアント端末150においてユーザがメールの送信または明示的は個人情報の検査を指示すると、個人情報検査装置100に個人情報の有無を判定する処理の実行を要求する。
【0020】
個人情報検査装置100が送信しようとする電子メールに個人情報を含む可能性があると判断した場合、Webメールサービス110は、ユーザに対し個人情報有無の確認と送信可否の判断を促すメッセージを表示し、ユーザの送信可否の判断に基づき送信を制御する。
【0021】
本発明の実施形態においては、個人情報検査装置100は、クライアント端末150に対し、外部ネットワーク140を経由するサービスとして構成してもよいし、Webメールサービス110の機能の一部として構成してもよい。
【0022】
また、クライアント端末150上で動作するメールクライアントプログラムの機能として構成してもよい。
【0023】
図2は、本発明の実施形態における個人情報検査装置100、Webメールサービス110、管理者端末120、クライアント端末150のハードウェア構成の一例を示すブロック図である。
【0024】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0025】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0026】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0027】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0028】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0029】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0030】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0031】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0032】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0033】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0034】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0035】
図3は、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。
【0036】
メール編集処理部311は、クライアント端末150のWebブラウザ320に表示された画面を介して受け付けたユーザからの操作・指示に基づき、電子メールの作成・編集を行う機能を備える。
【0037】
送信制御処理部312は、ユーザから電子メールの送信指示を受け付けると、当該電子メールからテキスト(本文や添付ファイル等)を抽出し、個人情報検査装置100の各処理部による個人情報指数の算出処理を制御する。また、個人情報指数の算出処理の結果に基づき、
図17に示す確認ダイアログを表示したり、ユーザから送信の可否を受け付けることで電子メールの送信処理を制御する機能を備える。
【0038】
送信処理部313は、送信制御処理部312において送信することが決定された電子メールを外部ネットワーク140に送出する機能を備える。
【0039】
個人情報学習処理部301は、管理者端末120からアップロードされた情報に基づき、
図4のフローチャートに示す個人情報の学習処理を実行する機能を備える。
【0040】
特徴ベクトル生成処理部302は、処理対象の文書に対して特徴ベクトルを生成する機能を備える。
【0041】
判定知識保存領域303は、特徴ベクトル生成処理部302において生成された特徴ベクトルと、学習データ学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を保存する領域である。
【0042】
個人情報検査処理部304は、送信制御処理部312から取得したテキストに対して、
図12に示すテキスト内容が個人情報である可能性を算出する処理を実行する機能
【0043】
(個人情報学習処理)
次に
図4のフローチャートを用いて、本発明の実施形態における個人情報学習処理部301が実行する個人情報の学習処理について説明する。
【0044】
図4は、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、管理者端末120からアップロードされた個人情報・非個人情報を予め分類された文書に基づき、個人情報の特徴を学習する処理を示すフローチャートである。
【0045】
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書を学習データとして取得する。
【0046】
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データにおける文書に対して、ステップS405までの繰り返し処理を開始する。
【0047】
ステップS403では、個人情報学習処理部301は、処理対象の文書に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。特徴ベクトルの生成方法については後述する。
【0048】
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトルと、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を、
図5に示す判定知識保存領域303における特徴ベクトル保存テーブル501に保存する。
【0049】
ステップS405では、個人情報学習処理部301は、処理対象となる文書がまだあれば、ステップS402からの繰り返し処理を実施する。処理対象となる文書がなければ、ステップS406に処理を移す。
【0050】
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501の特徴ベクトルとラベル(個人情報・非個人情報)に対して機械学習を用いて学習を行い、学習の結果としてモデル(学習済みモデル)を獲得する。
【0051】
ステップS407では、個人情報学習処理部301は、ステップS406で獲得したモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。
【0052】
本発明の実施形態においては、個人情報学習処理を個人情報検査処理と同一のハードウェア上で実行するように構成しているが、異なるハードウェア上で実行するように構成しても構わない。
また、学習データをアップロードするように構成しているが、個人情報学習処理を行うハードウェア上で管理するように構成し
【0053】
(特徴ベクトル生成処理)
次に
図6のフローチャートを用いて、本発明の実施形態における特徴ベクトル生成処理部302が実行する特徴ベクトルの生成処理(ステップS403)について説明する。
【0054】
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書のテキストから、予め個人情報項目や要配慮情報項目、文書の内容を示すキーワードとして定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに個人情報形成情報として抽出する。
【0055】
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報から、種別や文字数に基づいた統計値を求める。
【0056】
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトルとしてま
【0057】
(個人情報学習処理具体例)
次に個人情報学習処理の具体例として、
図7に示す学習データ700に対して、
図4に示す処理が実施された場合について説明する。
【0058】
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書700を学習データとして取得する。
【0059】
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データ700における文書701に対して、ステップS405までの繰り返し処理を開始する。
【0060】
ステップS403では、個人情報学習処理部301は、処理対象の文書701に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。
【0061】
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書701のテキストから、予め個人情報項目や要配慮情報項目、文書の内容や種別を示すキーワードとして定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに
図8に示す個人情報形成情報801を抽出する。
【0062】
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報801から、
図9に示す種別や文字数に基づいた統計値を求める。
【0063】
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトル901としてまとめる。本発明の実施例においては、説明を容易にするために正規化等の処理は省略してるが、正規化を行うように構成してもよい。
【0064】
ここで、文書の内容や種別を考慮した判定を行うための、重要度の大きい文書らしさのスコアと重要度が小さい文書らしさのスコアについて説明する。
【0065】
重要度の大きい文書らしさのスコアとは、履歴書や経歴書などのように、個人情報を含む文書であり、かつ、漏洩時の影響度が大きく、個人情報を含むか否かの判定処理においては、漏れることなく個人情報を含む文書として判定して欲しい文書に対して大きな数値となるものである。また、重要度の小さい文書らしさのスコアとは、領収書やお知らせなど、担当者として名前などの個人情報を含むが、社外へ送信することが前提のファイルであり、漏洩時の影響度が小さく、個人情報を含むか否かの判定処理においては、個人情報を含まない文書として判定して欲しい文書に対して大きな数値となるものである。
【0066】
これらのスコアは、重要度の高い文書や重要度の低い文書に含まれるキーワードの出現数とそれぞれの出現位置から算出する。
【0067】
これらのキーワードの一例を
図26に示す。仮に、重要度が大きく個人情報を含む文書として判定させたい文書が新たに出てきた場合は、その文書に関連するキーワードを追加することで、文書の内容や種別を考慮した判定を行うことができる。
【0068】
図27に重要度の大きい文書らしさのスコアの算出式を示す。2701で示すように、検出されたキーワードごとにスコアを算出し、それらの総和を重要度の大きい文書らしさのスコアとする。キーワードごとのスコアは、キーワードの出現位置から算出されるスコアと、キーワードの出現数から算出されるスコアから算出する。キーワードの出現位置から算出されるスコアの算出式は2702である。これは文書のタイトルなど文書の内容や種別を示すキーワードは、文書内において、より先頭に近い位置に記述されているであろうという考えに基づくものであり、出現位置が先頭に近いほど大きな値となる。キーワードの出現数から算出されるスコアの算出式は2703である。これは、キーワードの検出数の大小に関わらず、2701で算出されるスコアが0から1の値となるように正規化をするためのスコアである。重要度の小さい文書らしさのスコアについても、
図27と同様の算出式で算出する。
【0069】
重要度の小さい文書を例に、スコアの算出過程を
図28に示す。入力文書から抽出したテキストが2801である。このテキストから
図26の2602に示したキーワードを抽出し、その出現位置と合わせて記録していく。その結果、2802の表にある「キーワード」と「出現位置」の列が得られる。この出現位置の情報からキーワードごとのスコアを算出する。出現位置が17である「ご案内」というキーワードに対してスコアを求めているのが2803である。ここでは文書に含まれる文字数を455文字と仮定してスコアを算出している。他のキーワードについても同様にスコアを算出できる。また、キーワードの出現数は7であるので、キーワードの出現数から算出されるスコアは0.143となる。この結果、2802の表に含まれる全ての情報が揃ったことになる。最後に、これらの情報から、2804の式から最終的なスコアとして0.869を算出する。
【0070】
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトル901と、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルTRUEの組1001を、
図10に示す特徴ベクトル保存テーブル501に保存する。
【0071】
ステップS405では、個人情報学習処理部301は、処理対象となる文書702がまだあるので、ステップS402からの繰り返し処理を実施する。
【0072】
以下、学習データ700の文書全てに対して同様のステップを実施する。
【0073】
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501に対して機械学習により学習を行い、モデルを獲得する。
【0074】
本発明の実施例においては、線形のSVM(Support Vector Machine)を用いる。
【0075】
ステップS407では、個人情報学習処理部301は、学習結果として獲得した
図11に示すモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。獲得したモデルは予測値(計算結果)が正の値となる場合に個人情報と判断する。
【0076】
本発明の実施例においては、説明を容易にするために機械学習の手法として線形のSVMを用いて説明したが、正否の二値に分類することができ、その度合いを数値として表現できるなら、いずれの手法を用い
【0077】
(個人情報検査処理)
次に
図12のフローチャートを用いて、本発明の実施形態における個人情報検査処理部304が実行する個人情報の検査処理について説明する。
【0078】
図12のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、入力テキストに対して、テキストの内容が個人情報である可能性を示す度合を数値として算出する処理を示すフローチャートである。
【0079】
ステップS1201では、個人情報検査処理部304は、処理対象となる文書のテキストを取得する。
【0080】
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した
図6のフローチャートを用いて、入力文書に対する特徴ベクトルを取得する。
【0081】
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトルに対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値を算出する。
【0082】
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値に対して、感覚的に把握が容易な値となるように変換し、個人情報指数として出力する。
本発明の実施例においては、
図13に示すような個人情報指数算出式を用いるが、他の算出式を用いてもよいし、予測値をそのまま用い
【0083】
(個人情報検査処理具体例)
次に個人情報検査処理の具体例として、
図14に示す検査対象文書1401に対して、
図12に示す処理が実施された場合について説明する。
【0084】
ステップS1201では、個人情報検査処理部304は、処理対象となる文書1401からテキスト1402を取得する。
【0085】
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した
図6のフローチャートを用いて、入力文書に対する特徴ベクトル1403を取得する。
【0086】
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトル1403に対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値として971.47を算出する(1404)。
【0087】
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値971.47に対して、
図13に示す個人情報指数算出式を用いて個人情報指数を算出する。ここではRmin=-1700、Rmax=2000であったとする。
結果として50+50×971.47÷max(2000,-(-1700))=74.29を個人情報指数として得る。
【0088】
このように、個人情報を含むか否かを判定された文書集合を用意するだけで、人手による調整不要で、個人情報である確度となる個人情報指数を算出すことが可能となる。
【0089】
また、個人情報指数は、統計情報に基づいて算出されるので、個人情報形成情報の抽出に多少の誤りがあったとしても、高い精度で個人情報である確度を示すことができる。
算出した個人情報指数を用いれば、確度に応じた処理を実現することができ、効率的な個人情報の管理が可能となる。
【0090】
また、
図14では、重要度の高い履歴書を例に個人情報指数の算出過程を説明したが、領収書のような重要度の低い文書の場合は、逆に指数を下げるよう作用させることが可能となる。個人情報項目の有無をベースにした特徴量の抽出だけでは制御が難しかった文書の重要度を考慮したフィルタリングが可能となり、メールの確認作業にかかるコストの削減も期待できるようになる。
【0091】
次に
図15に示すフローチャートを用いて、本発明の具体的な適用例として、電子メールの送信時に個人情報の送信を確認し、更にユーザからのフィードバックを取得する例を説明する。
【0092】
なお、本実施例においては電子メールの送信を適用例として説明するが、これ以外にも、文書を印刷する際に個人情報が含まれる文書かを判定したり、文書をWebサービスにアップロードする際に判定するなどの適用例がある。
【0093】
図15は、Webメールサービス110のCPU201が所定の制御プログラムを読み出して実行する処理であり、クライアント端末150のWebブラウザ320に表示された
図16のような電子メール編集画面1601で、送信ボタン1602の押下によって送信指示がなされた場合に実施される処理を示すフローチャートである。
【0094】
ステップS1501では、送信制御処理部312は、電子メールの送信指示を受け取る。
【0095】
ステップS1502では、送信制御処理部312は、送信指示された電子メールに添付されているファイルに対し、ステップS1509までの繰り返し処理を開始する。なお、添付ファイルだけでなく、電子メール本文なども対象としても良い。
【0096】
ステップS1503では、送信制御処理部312は、処理対象の添付ファイルからテキストを抽出する。添付ファイルが画像の場合には、当該画像に対してOCR処理することでテキストを取得する。
【0097】
ステップS1504では、送信制御処理部312は、ステップS1503で抽出したテキストに対して、個人情報検査装置100を用いて個人情報指数を算出する。
【0098】
ステップS1505では、送信制御処理部312は、ステップS1504で算出した個人情報指数が規定値以上の場合、処理をステップS1506に移す。規定値未満であった場合、ステップS1509に処理を移す。
【0099】
ステップS1506では、送信制御処理部312は、
図17に示す確認ダイアログを表示し、ユーザに送信の可否を取得するとともに個人情報か否かの判断を取得する。
【0100】
ステップS1507では、送信制御処理部312は、ステップS1505で取得した個人情報か否かのユーザによる判断を、個人情報検査装置100に送り、個人情報検査装置100で処理中の特徴ベクトルと一緒に特徴ベクトル保存テーブル501に保存するよう指示する。
【0101】
ステップS1508では、送信制御処理部312は、ステップS1505で取得した送信可否が「送信」であった場合、ステップS1509に処理を移す。送信可否が「キャンセル」であった場合、処理を終了する。
【0102】
ステップS1509では、送信制御処理部312は、処理対象となる添付ファイルがまだあれば、ステップS1502からの繰り返し処理を実施する。処理対象となる添付ファイルがなければ、ステップS1510に処理を移す。
【0103】
ステップS1510では、送信制御処理部312は、電子メールを送信処理部313に送り電子メールを送出する。
【0104】
このように、ユーザによる個人情報か否かの判断を収集すれば、個人情報検査装置100において、定期的に学習処理を実施することで、人手の調整を必要とせずに、ユーザの判断に適合した個人情報指数の算出が可能となる。
【0105】
本発明の実施例においては、保存した特徴ベクトル全てから学習するように構成しているが、特徴ベクトルの保存する際に、ユーザの所属する部門やユーザを識別する情報を付与し、部門やユーザごとに学習を行うように構成してもよい。そして、当該ユーザや当該ユーザの所属部門に係る文書に対しては、当該学習により生成されたモデルを用いて、個人情報が含まれるか否かを判定してもよい。
【0106】
以上の説明では、文書の重要度を考慮した個人情報指数を算出するために、重要度の大きい文書らしさのスコアと重要度の小さい文書らしさのスコアを、個人情報指数を算出するための特徴量として追加した。しかし、重要度を考慮したい文書種別が決まっており、考慮すべき文書種別を拡張する予定がない場合は、文書の重要度という観点を個人情報指数の算出処理に組み込むのではなく、文書種別を判定する独立した機能として実装し、個人情報項目の有無をベースとした従来の仕組みで算出した個人情報指数と組み合わせて評価をすることで、より柔軟で正確な送信制御を実施することができる。以降では、その方法と具体的な適用例について説明する。
【0107】
文書種別の判定処理も、当該文書種別によく含まれるキーワードを利用して実現する。
図18のフローチャートを用いて、判定したい文書種別ごとに予め分類された文書に基づき、文書種別を判定する際に使用するキーワードの抽出方法について説明する。
【0108】
なお
図18のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理である。
【0109】
ステップS1801では、個人情報学習処理部301は、管理者端末120におけるWebブラウザ330からアップロードされた文書を学習データとして取得する。この学習データに含まれる文書には、その文書が分類されるべき文書種別が正解ラベルとして付与されていることを前提とする。
【0110】
ステップS1802では、ステップS1801で収集した学習データに含まれる文書種別に対して、ステップS1810までの繰り返し処理を開始する。
【0111】
ステップS1803では、スッテプS1801で収集した学習データに含まれる文書であり、かつステップS1802で繰り返し処理を開始した文書種別に含まれる文書に対して、ステップS1808までの繰り返し処理を開始する。
【0112】
ステップS1804では、処理対象の文書からテキストを抽出する。
【0113】
ステップS1805では、ステップS1804で抽出したテキストを形態素解析などの技術を利用して、単語に分割する。
【0114】
ステップS1806では、ステップS1805で分割した単語ごとに、その出現頻度を取得する。これは処理対象としている1個の文書における各単語の出現頻度である。
【0115】
ステップS1807では、ステップS1803から始まる繰り返し処理で処理対象としている文書に含まれる各単語の出現頻度を、文書種別全体における各単語の出現頻度に加算する。ステップS1803~S1808の繰り返し処理が完了すると、ステップS1802から始まる繰り返し処理で処理対象としている文書種別に含まれる各単語の出現頻度が取得できている。
【0116】
ステップS1809では、ステップS1803~S1808の繰り返し処理によって取得した、処理対象とする文書種別に含まれる単語ごとの出現頻度から、出現頻度が上位の単語を抽出する。
【0117】
ステップS1802~S1810の繰り返し処理が完了すると、文書種別ごとに出現頻度が上位の単語が抽出されている。これらの単語を、文書種別を判別するためのキーワードとして利用する。頻出頻度が上位15位までのキーワードを抽出した例を
図19に示す。
【0118】
ステップS1811では、ステップS1810までの処理で、文書種別ごとに抽出したキーワードを、重複を除いて1つにまとめる。このようにして抽出したキーワードを基に各文書から特徴ベクトルを生成し、その特徴ベクトルを、文書種別を判定するモデルの学習や文書種別の判定で利用する。
【0119】
図20のフローチャートを用いて、文書から特徴ベクトルを生成する方法を説明する。
【0120】
なお
図20のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理である。
【0121】
ステップS2001では、処理対象の文書からテキストを抽出する。
【0122】
ステップS2002では、形態素解析などの技術を利用して、ステップS2001で抽出したテキストを単語に分割する。
【0123】
ステップS2003では、
図18のステップS1811で取得したキーワードについて、それぞれのキーワードの出現数を取得する。
【0124】
ステップS2004では、ステップS2003で取得した出現数を要素としたベクトルを生成する。これが処理対象の文書に対する特徴ベクトルである。
【0125】
ステップS2005では、ステップS2004で生成したベクトルを判定知識保存領域303における特徴ベクトル保存テーブル501に保存する。
【0126】
図21に、
図20の処理で生成された特徴ベクトルの例を示す。表の各行が、1つの文書に対する特徴ベクトルを表しており、
図20のステップ2004で生成されたものである。また、2101は、
図18のステップS1811で取得したキーワード集合である。2102は、2103のイベント開催に関する通知書から生成した特徴ベクトルである。2103では、「お知らせ」というキーワードが2か所で出現するため、2102の特徴ベクトルでは、「お知らせ」に該当する左から2個目の要素が2となっている。
【0127】
図22のフローチャートを用いて、文書種別を判定するためのモデルを学習する手順を説明する。この手順を実施することで、文書種別ごとに、入力された文書が、当該文書種別に属するのか否かを判定するモデルを獲得できる。例えば、
図19のように、5種類の文書種別を分類対象とした場合は、5個のモデルを獲得することになる。
【0128】
ステップS2201では、学習データに含まれる全ての文書に対して、ステップS2203までの繰り返し処理を開始する。
【0129】
ステップS2202では、処理対象とする文書に対して、
図20のフローチャートで示した手順で特徴ベクトルを生成する。
【0130】
ステップS2204では、学習データに含まれる全ての文書種別に対して、ステップS2208までの繰り返し処理を開始する。
【0131】
ステップS2205では、学習データに含まれる全ての文書を、各文書に正解ラベルとして付与されている文書種別の情報を基に、処理対象としている文書種別とそれ以外の文書種別の2クラスに分割する。
【0132】
ステップS2206では、ステップ2205で2クラスに分割した学習データを用いて、処理対象としている文書種別を判定するためのモデルを機械学習によって獲得する。また、
図20のフローチャートで示した手順で生成された特徴ベクトルを用いて、また、処理対象に含まれる文書を正クラス、含まれない文書を負クラスとして、モデルの学習を行う。
【0133】
本発明の実施例においては、モデルの学習に線形のSVMを用いる。
【0134】
ステップS2207では、学習結果として獲得した
図23に示すようなモデルを、判定知識保存領域303におけるモデル保存テーブル502に保存する。獲得したモデルは予測値(計算結果)が正の値となる場合に、入力文書を当該文書種別に属する文書であると判断する。
【0135】
本発明の実施例においては、説明を容易にするために機械学習の手法として線形のSVMを用いて説明したが、正否の二値に分類することができ、その度合いを数値として表現できるなら、いずれの手法を用いてもよい。
【0136】
次に、
図24のフローチャートを用いて、ある文書が与えられたときに、当該文書がどの文書種別に属するのかを判定する処理について説明する。
【0137】
なお
図24のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理である。
【0138】
ステップS2401では、入力された文書から特徴ベクトルを生成する。特徴ベクトルの生成は、
図20のフローチャートに記載の手順による。
【0139】
ステップS2402では、モデルを獲得した全ての文書種別に対して、ステップS2404までの繰り返し処理を開始する。
【0140】
ステップS2403では、処理対象としている文書種別に対するモデルを利用して、入力文書が当該文書種別に属するか否かについてのスコアを算出する。ステップS2402~S2404の繰り返し処理の結果、判定対象とする文書種別ごとに、入力文書が、当該種別に属するか否かについてのスコアを獲得できる。
【0141】
ステップS2405では、判定対象である文書種別ごとに獲得したスコアから、最大のスコアを選択する。最大スコアをもつ文書種別が、入力文書が属する文書種別の候補となるものである。
【0142】
ステップS2406では、ステップS2405で取得したスコアが0より大きいかどうかを判定する。0より大きい場合は、ステップS2407で、入力文書は、最大スコアを算出する文書種別に属するものと決定する。0以下である場合は、入力文書は、どの文書種別にも属さないものと決定する。
【0143】
本発明の実施例では、説明を容易にするため、「どの文書種別にも属さない」という種別を判定するために、判定対象とする文書種別のモデルから算出されるスコアが0より大きいかどうかという判定基準を利用した。この0という閾値を、ユーザによる設定を可能にすることで、ユーザの運用状況に応じて、柔軟に判定精度を調整することができる。
【0144】
次に、電子メールの送信制御を例に、文書種別の判定する機能の適用例について説明する。送信制御に関する処理の流れは
図15のフローチャートと大きな変更はない。
図15のステップS1505の判定処理を、
図25のフローチャートに示すステップS2502~S2506の処理に置き換えることで、文書種別を考慮した柔軟な条件設定を行うことができる。ただし、ここでは、
図15のステップS1504で行う個人情報指数算出処理は、本発明で説明した重要な文書らしさのスコアを考慮しない、個人情報項目の有無を基にした従来の算出方法で行うものとする。
【0145】
図25のステップS2501は、
図15のステップS1504と同じである。また、
図25のステップS2507とS2508は、それぞれ
図15のステップS1506、S1509と同じである。
【0146】
ステップS2501では、個人情報項目の有無を基にした従来の算出方法で、入力された文書(電子メールにおいては本文や添付されたファイルなど)の個人情報指数を算出する。
【0147】
ステップS2502では、
図24に示す方法で、入力された文書の文書種別を取得する。
【0148】
ステップS2503では、ステップS2502で取得した文書種別によって、これに続く個人情報指数の判定条件を変更することを意図するものである。本適用例では、履歴書、請求書などの購買書、その他の3種別で条件を分岐させている。
【0149】
文書種別が履歴書である場合、ステップS2504に進み、個人情報指数が40以上かどうかを判定する。個人情報指数が40以上であれば、ステップS2507に進み、ユーザに送信可否の確認を依頼する。文書種別が履歴書である場合は、たとえ個人情報指数が低くても、重要な情報が含まれている可能性があるため、ユーザによる送信可否の確認を行うことを意図するものである。
【0150】
文書種別が購買書である場合、ステップS2505に進み、個人情報指数が80以上かどうかを判定する。個人情報指数が80以上であれば、ステップS2507に進み、ユーザに送信可否の確認を依頼する。文書種別が購買書である場合は、社外の顧客に送信することを目的とする文書であるため、ユーザによる送信確認を行ったとしても、送信がキャンセルされる可能性は低い。そのため、個人情報指数が高いもののみを確認対象として、できるだけユーザの送信確認にかかる運用コストを削減することを意図するものである。
【0151】
文書種別が履歴書でも購買書でもない場合、ステップS2506に進み、個人情報指数が60以上かどうかを判定する。個人情報指数が60以上であれば、ステップS2507に進み、ユーザに送信可否の確認を依頼する。この60という基準値は、個人情報指数による送信制御を実施する上での、標準的な基準値という位置づけである。ステップS2504,S2505のように文書種別による送信制御と組み合わせる場合は、この値を基準に、文書種別に応じて使い分ける必要がある。
【0152】
上記のステップS2503で用いた、履歴書、購買書という文書種別は、本適用例の説明において、一例として用いたものである。システムの運用に応じて任意の種別を設定してよい。また、ステップS2504,S2505,S2506で用いた、40,80,60の閾値も、同様に、本適用例における一例である。
【0153】
このように文書種別によって個人情報指数の閾値を変化させることで、ユーザによる送信確認にかかるコストを調整することができる。また、それによってユーザによる送信確認の形骸化を防止することも期待できる。
【0154】
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0155】
また、本発明におけるプログラムは、各フローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は各フローチャートに示す処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは各装置の処理方法ごとのプログラムであってもよい。
【0156】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0157】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0158】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0159】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0160】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0161】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0162】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0163】
100 個人情報検査装置
110 Webメールサービス
120 管理者端末
130 LAN
140 外部ネットワーク
150 クライアント端末150