(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明において「対象者」とは、リスク算出の対象者である。
また、「リスク」とは、対象者が監視対象(例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)やマネーロンダリング等の犯罪)に該当するリスクである。本実施形態では、リスクが高いと犯罪となる可能性が高く、リスクが低いと犯罪となる可能性が低い。
【0011】
[実施形態]
図1は、実施形態に係る情報処理システム1の概要構成の一例を示す図である。情報処理システム1は、サーバ2及びユーザ端末3がネットワーク4を介して接続された構成を有する。なお、情報処理システム1が具備するサーバ2、ユーザ端末3の数は任意である。
【0012】
ネットワーク4には、例えば、他のシステムのサーバ(情報源)が接続されており、サーバ2は、ネットワーク4を介して上記サーバにアクセスし、記憶されている情報(後述する対象者に関する情報)を取得することができるように構成されている。上記サーバの情報の取得には、クローラーやスクレイパーなどのソフトウェアを利用することができる。なお、ネットワーク4をどのような通信網で構成するかは任意である。
【0013】
図2は、本実施形態に係るサーバ2(情報処理装置)のハード構成の一例を示す図である。
図2に示すように、サーバ2は、通信IF200A、記憶装置200B及びCPU200Cがバスを介して接続された構成を備える。
【0014】
通信IF200Aは、外部端末と通信するためのインターフェースである。
【0015】
記憶装置200Bは、例えば、HDDや半導体記憶装置である。記憶装置200Bには、サーバ2で利用する情報処理プログラムや各種データベースが記憶されている。なお、本実施形態では、情報処理プログラムや各種データベースは、サーバ2の記憶装置200Bに記憶されているが、USBメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。
【0016】
図3は、サーバ2の記憶装置200Bに記憶されているデータベースの一例を示す図である。
図3に示すように、記憶装置200Bには、補正パタンデータベース1(以下、補正パタンDB1ともいう)、分類用データベース2(以下、分類用DB2ともいう)、項目マスタデータベース3(以下、項目マスタDB3ともいう)、表記変更用データベース4(以下、表記変更用DB4ともいう)、対象者データベース5(以下、対象者DB5ともいう)、リスク算出用データベース6(以下、リスク算出用DB6ともいう)が記憶されている。
【0017】
(補正パタンDB1)
補正パタンDB1は、書類の画像データを補正するための補正パタンが複数記憶されている。
図4(a)は、補正パタンDB1に記憶されている情報の一例を示す図である。
図4(a)に示すように、複数の補正パタンは、それぞれ1以上の補正を組み合わせて構成されている。例えば、補正パタン1は、補正1及び3を組み合わせて構成される。また、補正パタン2は、補正1、2及び4を組み合わせて構成される。また、補正パタン3は、補正1、2及び3を組み合わせて構成される。また、補正パタン4は、補正1、3及び5を組み合わせて構成される。また、補正パタン5は、補正1及び4を組み合わせて構成される。なお、補正パタンの数は5に限られず3以上であればよい。
【0018】
また、補正1〜補正5は、例えば、それぞれ遠近法ワープ(台形補正)、明るさ補正、コントラスト補正、ガウス補正、ぼかし補正などである。なお、
図4(a)に示す各補正パタンの補正の組み合わせはあくまで一例であり、各補正パタンをどのような補正で構成するかは任意である。また、補正は、補正1〜補正5の5つに限られない。
【0019】
(分類用DB2)
分類用DB2には、書類を分類するための情報が記憶されている。
図4(b)は、分類用DB2に記憶されている情報の一例を示す図である。
図4(b)に示すように、分類用DB2には、書類の種別ごとに特有のパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)が関連付けて記憶されている。なお、
図4(b)に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部206は、分類用DB2を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。
【0020】
(項目マスタDB3)
項目マスタDB3には、取得する項目の情報が書類の種別ごとに記憶されている。
図4(c)は、項目マスタDB3に記憶されている情報の一例を示す図である。
図4(c)に示すように、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。
【0021】
(表記変更用DB4)
表記変更用DB4には、サーバ2が取得した対象者に関する情報の表記を所定の表記に変更するための情報が記憶されている。具体的には、表記変更用DB4には、ロジック処理用の情報及び第1,第2マスタ処理用の情報が記憶されている。
【0022】
ロジック処理用の情報は、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報である。
図5(a)は、表記変更用DB4に記憶されているロジック処理用の情報の一例を示す図であり、処理摘要対象に処理ルールが対応づけられている。
図5(a)に示す例では、処理摘要対象が「「数字(カンマ含む)x桁」+「千円」」となっている場合、「「数字(カンマ含む)x桁」+「,000」」に置換することが規定されている。例えば、
図5(b)に示すように処理摘要対象が「1,000千円」である場合に、
図5(a)に例示する処理ルールを適用すると、「1,000,000」に表記が変更される。
なお、
図5(a)及び
図5(b)に示す例は、あくまで一例であり、ロジック処理用の情報には、処理摘要対象と、該処理摘要対象に対する処理ルールの対応づけのパタンが種々含まれている。例えば、ロジック処理用の情報には、処理摘要対象が「「数字(カンマ含む)x桁」+「百万円」」となっている場合、「「数字(カンマ含む)x桁」+「,000,000」」に置換することが規定されていてもよい。また、逆に、表記が「1,000,000」である場合に「1,000千円」、「1,000,000,000」である場合に「1,000百万円」となるように処理ルールが規定されていてもよい。
【0023】
また、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報として住所と、該住所の表記を変更する処理ルールとを関連付けた例について説明する。
例えば、住所の番地が「東京都港区赤坂5−5−5」とハイフンで表記されている場合、「東京都港区赤坂5丁目5−5」というように住所の最初のハイフンを「丁目」に変更する処理ルールを設けてもよい。なお、表記を統一するのが目的であるため、住所の表記が「東京都港区赤坂5丁目5−5」である場合に、「東京都港区赤坂5−5−5」とする処理ルールを設けてもよい。また、「東京都港区赤坂5−5−5」を「東京都港区赤坂5丁目5番5号」というように最初のハイフンを「丁目」、次のハイフンを「番」、次のハイフンを「号」に変更する処理ルールを設けてもよい。また、逆に「東京都港区赤坂5丁目5番5号」を「東京都港区赤坂5−5−5」とする処理ルールでもよい。
このように、ロジック処理用の情報は、処理摘要対象と、該処理摘要対象に対する処理ルールとを対応付けられた情報であり、該ロジック処理用の情報を参照することで、表記を所定の統一された表記に変更することができる。
【0024】
第1マスタ処理用の情報は、処理摘要対象である対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報である。
図5(c)は、表記変更用DB4に記憶されている第1マスタ処理用の情報の一例を示す図であり、処理摘要対象に辞書データによる上書き処理内容が対応づけられている。
図5(c)に示す例では、処理摘要対象が「「金額」項目内の文字が「戦円」」となっている場合、「「千円」」に上書きすることが規定されている。例えば、
図5(d)に示すように処理摘要対象が「1,000戦円」である場合に、
図5(d)に例示する処理内容を適用すると、「1,000千円」に誤記が変更される。なお、
図5(c)及び
図5(d)に示す例は、あくまで一例であり、第1マスタ処理用の情報には、処理摘要対象に辞書データによる上書き処理内容のパタンが種々含まれている。
【0025】
また、表記変更用DB4に、第1マスタ処理用の情報として、外字(ガイジ)を変更するための辞書データを格納してもよい。外字とは、IMEなどの文字入力ソフトに登録されていない文字であり、テキスト入力の際に変換しても表示できない文字である。外字を扱うためには外字エディタ等を利用する必要があるため、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更することが好ましい。変更例を以下に示す。
変換前:「高」崎 太郎(「高」は梯子高)
変換後:高崎 太郎
上記の変更例では、「「高」(梯子高)」がIMEなどの文字入力ソフトに登録されている「高」に変更されている。
【0026】
このように、表記変更用DB4に、外字(ガイジ)を変更するための辞書を格納し、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更する構成としてもよい。
【0027】
また、表記変更用DB4に、第1マスタ処理用の情報として、住所の誤記を修正するための辞書を格納してもよい。該辞書には、正規の住所の表記が格納される。ここで、正規の住所は、日本の行政区画に基づいて決められた都道府県名、都道府県名に含まれる市、区、村、郡などの名称を関連付けた情報であり、この情報を利用することで、住所の都道府県名に含まれる市、区、村、郡などの誤記を修正することができる。
例えば、対象者に関する情報として下記の修正前住所が取得された場合、赤坂は渋谷区ではなく港区であるため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:東京都渋谷区赤坂3丁目3−3
修正後住所:東京都港区赤坂3丁目3−3
【0028】
また、他の例を示すと、対象者に関する情報として下記の修正前住所が取得された場合、行政区画では大字は使用されないため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:愛知県知多郡東浦町大字藤江字柳牛34−2
修正後住所:愛知県知多郡東浦町藤江柳牛34−2
このように、第1マスタ処理用の情報は、誤記となる表記と、該誤記に対する正しい表記とが種々対応付けられた情報であり、該第1マスタ処理用の情報を参照することで、誤記を正しい表記に修正することができる。
【0029】
また、第2マスタ処理用の情報は、対象者に関する情報に含まれる不要な文字データを削除するための情報である。具体的には、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報である。
このように、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報とが対応付けられた情報であり、該第2マスタ処理用の情報を参照することで、該対象者に関する情報に含まれる文字以外の不要な文字データを認識して、該不要な文字データを削除することができる。
【0030】
(対象者DB5)
対象者DB5には、対象者に関する情報が対象者IDに関連付けて記憶されている。具体的には、対象者DB5には、対象者の銀行口座(以下、単に口座ともいう)での取引情報(以下、単に口座取引情報ともいう)、や警察庁データ(例えば、犯罪履歴情報や反社会勢力情報)、割賦販売法・貸金業法信用情報機関データ(例えば、クレジットカード会社、収納代行会社(口座振替)による未納情報)などのいわゆるブラックリスト情報が対象者IDに関連付けて記憶されている。
ここで、対象者が個人の場合、氏名、住所、連絡先、個人の口座取引情報及びブラックリスト情報が対象者IDに関連付けて記憶されている。
また、対象者が法人の場合、法人の所在地、法人の連絡先、代表者の氏名、常任代理人の氏名、実質的支配者の氏名、代理人の氏名、法人の口座取引情報及び上記代表者、常任代理人、実質的支配者、代理人のブラックリスト情報が対象者IDに関連付けて記憶されている。
対象者に関する情報に、年齢、性別、住所、生年月日、本籍、SNS参考情報などを含めるようにしてもよい。「SNS参考情報」は、審査対象者による所定のSNSの投稿内容から本人情報の信頼性をチェックしたものである。
なお、対象者DB5に記憶される対象者に関する情報は、後述の取得部210により取得される
【0031】
(リスク算出用DB6)
リスク算出用DB6には、対象者に関する情報から対象者が監視対象となるリスク(以下、単にリスクとも記載する)を算出するための情報が記憶されている。具体的には、リスク算出用DB6には、対象者DB5に記憶された対象者に関する情報の各項目の組み合わせ(条件)に対して設定されたリスク算出用スコア(以下、リスクスコアともいう)が複数記憶されている。
【0032】
例えば、マネーロンダリング等の犯罪リスクを算出する場合に利用される項目には、以下の情報がある。
(1−1)取引期間
(1−2)取引金額
(1−3)取引頻度
(1−4)犯罪歴
(1−5)所在地(個人の場合は住所)
(1−6)口座へのアクセス履歴
図5(e)に条件及びリスクスコアの組み合わせの一例を示す。
図5(e)に示す例では、「取引金額が1か月の期間に500万円以上 かつ 犯罪履歴有り」の場合に「リスクスコア」が「30」となることが示されている。
【0033】
また、例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)であるリスクを算出する場合に利用される項目には、以下の情報がある。
(2−1)外国人要人リスト
(2−2)顧客データ
(2−3)クローリングによるWEB情報
(2−4)その他対象者に関する種々の情報
上記(2−1)〜(2−4)の情報をもとに、対象者の名前、所在地、出身国、年齢を取引履歴、入出金履歴等を取得し、この取得した情報をもとに対象者が外国PEPsに該当するリスクを算出する。例えば、対象者が外国人要人リストと一致する場合には、外国PEPsに該当する非常に高いリスク(スコアが略100%となる)が算出される。
【0034】
CPU200Cは、サーバ2を制御し、図示しないROM(Read Only Memory)及びRAM(Random Access Memory)を備えている。
【0035】
図6に示すように、サーバ2は、受信部201、送信部202、記憶装置制御部203、補正部204、認識部205、分類部206、判定部207、探索部208、結合部209、取得部210、表記変更部211、統合部212、算出部213などの機能を有する。なお、
図6に示す機能は、サーバ2のROM(不図示)に記憶された情報処理プログラムをCPU200Cが実行することにより実現される。
【0036】
受信部201は、外部から送信される情報、例えば、対象者に関する情報を受信する。
【0037】
送信部202は、情報を外部へ送信する。
【0038】
記憶装置制御部203は、記憶装置200Bを制御する。具体的には、記憶装置制御部203は、記憶装置200Bを制御して情報の書き込みや読み出しを行う。
【0039】
補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。具体的には、補正部204は、画像データを補正パタン1で補正した補正後画像データ1を生成する。また、補正部204は、画像データを補正パタン2で補正した補正後画像データ2を生成する。また、補正部204は、画像データを補正パタン3で補正した補正後画像データ3を生成する。また、補正部204は、画像データを補正パタン4で補正した補正後画像データ4を生成する。また、補正部204は、画像データを補正パタン5で補正した補正後画像データ5を生成する。
【0040】
認識部205は、書類の画像データから文字を認識する。ここで、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。また、認識部205は、認識した文字に位置情報を付与する。なお、位置情報は、書類の左上をゼロ点としたXY座標により表され、書類に向かって横方向がX軸(右方向が正)、縦方向がY軸(下方向が正)となっている。なお、座標を表す数値に画素数を利用してもよい。また、書類のどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。
【0041】
なお、認識部205は、書類の画像データから文字を認識する際、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離内である場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字であると認識し、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離より離れている場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字でなく別の文字又は言葉を構成する文字であると認識する。なお、文字の位置を示す座標が重なっているとは、例えば、「言葉」の文字が書類上に横方向(X軸)に記載されている場合、「言」の文字の右端の位置座標が、「葉」の文字の左端の位置座標よりも横方向(X軸)において右側に存在する場合、換言すると、「葉」の文字の左端の位置座標が、「言」の文字の右端の位置座標よりも横方向(X軸)において左側に存在する場合をいう。また、例えば、「言葉」の文字が書類上に縦方向(Y軸)に記載されている場合、「言」の文字の下端の位置座標が、「葉」の文字の上端の位置座標よりも縦方向(Y軸)において下側に存在する場合、換言すると、「葉」の文字の上端の位置座標が、「言」の文字の下端の位置座標よりも縦方向(X軸)において上側に存在する場合をいう。
【0042】
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、書類の種別ごとに用意されたパタンマッチ用データやキーワードが存在するか否かに応じて、画像データのもととなった書類を分類する。分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
【0043】
判定部207は、取得する項目の情報が書類の種別ごとに記憶された項目マスタDB3を参照し、認識部205が認識した文字に項目が存在するか否かを、項目ごとに判定する。
【0044】
探索部208は、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
【0045】
結合部209は、探索部208により探索された書類の画像データ上の文字を項目として認識可能なようにデータ的に結合する。
【0046】
取得部210は、ネットワーク4を介して接続された他のシステムのサーバやユーザ端末3から対象者に関する情報を取得する。なお、取得部210は、種々の情報源から種々の手法を利用して対象者に関する情報を取得する。
「種々の情報源」には、例えば、警察庁データ、割賦販売法・貸金業法信用情報機関データなどが含まれる。
「種々の手法」には、例えば、クローリング(WEBサイト上の情報を取得する技術)、OCR(Optical Character Recognition)、他のシステムとのAPI(Application Programming Interface)連携などの他、ユーザ端末3を利用して入力された情報などが含まれる。
【0047】
なお、取得部210は、対象者に関する情報が画像データである場合、探索部208での探索結果に応じて、各文字に対応する文字を対象者に関する情報として取得する。具体的には、取得部210は、項目に対応する文字を、項目ごとに取得する。より具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部210は、項目の第1側(本実施形態では右側)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側)に存在する次の項目(次項目)までの文字又は改行までの文字を、項目に対応する文字を対象者に関する情報として取得する。
【0048】
表記変更部211は、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。具体的には、表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
【0049】
統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。具体的には、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複しない項目を抽出して対象者に関する情報とする。また、統合部212は、重複する項目については、最も多い記載を重複する項目に対応する情報として選択する。
【0050】
算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。具体的には、算出部213は、対象者DB5に記憶された対象者に関する情報の各項目に対応する情報を組み合わせて、リスク算出用DB6に記憶された条件を満たすか否かを判定し、満たす場合に該条件に対応付けられたリスクスコアを該対象者のリスクとする。
【0051】
(ユーザ端末3)
図7は、実施形態に係るユーザ端末3のハード構成及び機能構成の一例を示す図である。
図7(a)は、ユーザ端末3のハード構成の一例を示す図、
図7(b)は、ユーザ端末3の機能構成の一例を示す図である。ユーザ端末3は、PC(Personal Computer)や携帯端末(例えば、タブレット端末)などである。
図7(a)に示すように、ユーザ端末3は、通信IF300A、記憶装置300B、入力装置300C、表示装置300D、CPU300Eなどを備える。
【0052】
通信IF300Aは、他の装置(実施形態では、サーバ2)と通信するためのインターフェースである。
【0053】
記憶装置300Bは、例えば、HDD(Hard Disk Drive)や半導体記憶装置(SSD(Solid State Drive))である。記憶装置300Bには、ユーザ端末3の識別子(ID)及び情報処理プログラムなどが記憶されている。なお、識別子は、サーバ2がユーザ端末3に対して新たに付与してもよいし、IP(Internet Protocol)アドレス、MAC(Media Access Control)アドレスなどを利用してもよい。
【0054】
入力装置300Cは、例えば、キーボード、タッチパネルなどであり、入力装置300Cを操作して、情報処理システム1の利用に必要な情報(例えば、対象者に関する情報(画像データを含む))を入力することができる。
【0055】
表示装置300Dは、例えば、液晶モニタや有機ELモニタなどである。表示装置300Dは、情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示する。
【0056】
CPU300Eは、ユーザ端末3を制御するものであり、図示しないROM及びRAMを備えている。
【0057】
図7(b)に示すように、ユーザ端末3は、受信部301、送信部302、記憶装置制御部303、操作受付部304、表示装置制御部305などの機能を有する。なお、
図7(b)に示す機能は、CPU300Eが、記憶装置300Bに記憶されている情報処理プログラムを実行することで実現される。
【0058】
受信部301は、サーバ2から送信される情報を受信する。
【0059】
送信部302は、入力装置300Cを利用して入力された情報に識別子を付与してサーバ2へ送信する。ユーザ端末3から送信される情報に識別子を付与することでサーバ2は、受信した情報がどのユーザ端末3から送信されたものであるかを認識できる。
【0060】
記憶装置制御部303は、記憶装置300Bを制御する。具体的には、記憶装置制御部303は、記憶装置300Bを制御して情報の書き込みや読み出しを行う。
【0061】
操作受付部304は、入力装置300Cでの入力操作を受け付ける。例えば、対象者の関する情報の入力操作(画像データの入力操作を含む)を受け付ける。
【0062】
表示装置制御部305は、表示装置300Dを制御する。具体的には、表示装置制御部305は、表示装置300Dを制御して実施形態に係る情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示させる。
【0063】
(情報処理方法)
図8は、実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。
【0064】
(ステップS101)
サーバ2の取得部210は、2以上の情報源から対象者に関する情報を取得する。
【0065】
(ステップS102)
サーバ2の取得部210は、取得した対象者に関する情報がテキストデータであるか否か、換言すると画像データであるか否かを判定する。画像データである場合(YES)、サーバ2は、ステップ103の処理を実行する。画像データでない場合(NO)、換言するとテキストデータである場合、サーバ2は、ステップ104の処理を実行する。
【0066】
(ステップS103)
サーバ2は、文字認識処理を実行する。なお、文字認識処理の詳細は後述する。
【0067】
(ステップS104)
サーバ2の表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
【0068】
(ステップS105)
サーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。なお、統合部212の動作の詳細は、後述の
図9を参照して説明する。
【0069】
(ステップS106)
算出部213は、算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。なお、算出部213の動作の詳細は説明したので重複する説明は省略する。
【0070】
(ステップS107)
送信部202は、算出部213で算出されたリスクを該リスクの算出対象となった対象者の情報(例えば、氏名、法人名など)とともに出力する。出力されたリスク及び対象者の情報は、ユーザ端末3の受信部301で受信され、ユーザ端末3の表示装置制御部303により表示装置300Dに表示される。なお、算出部213で算出されたリスク及び対象者の情報を出力する際に、リスクが所定値以上である場合、監視対象となる旨とともにリスク及び対象者の情報を出力し、リスクが所定値未満である場合、監視対象とならない旨とともにリスク及び対象者の情報を出力してもよい。また、リスクが所定値以上となった場合にのみ、リスク及び対象者の情報を出力してもよいし、監視対象となる旨とともにリスク及び対象者の情報を出力してもよい。
【0071】
図9(a)は、実施形態に係るサーバの表記変更部211による表記変更の一例を示す図である。
図9(a)では、表記変更部211が金額の表記を所定の表記に変更する例を示している。
図9(a)に示すように、表記変更部211は、表記変更用DB4に記憶された第1マスタ処理用の情報に基づいて誤記を訂正する(
図9(a)の例では「戦」の文字を「千」にしている)。また、表記変更部211は、表記変更用DB4に記憶された第2マスタ処理用の情報に基づいて不要な文字を削除する(
図9(a)の例では「*税別」の文字が削除されている)。次いで、表記変更部211は、表記変更部211は、表記変更用DB4のロジック処理用の情報に基づいて単位を統一する。
【0072】
図9(b)及び
図9(c)は、実施形態に係るサーバ2の統合部212による情報統合の一例を示す図である。
図9(b)は、統合部212による統合前の対象者に関する情報、
図9(c)は、統合部212による統合後の対象者に関する情報である。
図9(b)及び
図9(c)に示すように、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに統合する。具体的には、統合部212は、各項目の情報を表記変更部211で所定の表示に変更された対象者に関する情報から取得し、重複する項目については、最も多い記載を重複する項目に対応する情報として選択して、種々の情報源から取得された対象者に関する情報を統合する。
【0073】
(情報処理方法)
図10は、実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。
【0074】
(ステップS201)
サーバ2の補正部204は、補正パタンDB1を参照し、文書の画像データを補正する。具体的には、補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。
【0075】
(ステップS202)
サーバ2の認識部205は、書類の画像データから文字を認識する。具体的には、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。
【0076】
図11は、認識部205による文字認識の一例を示す図である。
図11に示すように、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。
図11に示す例では、補正パタン1、3及び5では、認識結果が「山田太郎」となっている。また、補正パタン2では、認識結果が「山田大郎」となっている。また、補正パタン3では、認識結果が「認識不可」、すなわち文字を認識することができなかったとなっている。認識部205は、複数の補正後の画像データから認識した文字のうち最も多いもの、
図11に示す例では「山田太郎」を選択し、認識した文字として決定する。なお、認識した文字のうち最も多いものがない場合(例えば、補正パタン1〜5の判定結果がそれぞれ2、2、2、2、1の場合)は、再度、ステップS202の処理を行ってもよいし、補正パタンを変更してステップS202の処理を行ってもよい、また、読み取れなったとして報知(エラーを出力)するようにしてもよい。
【0077】
(ステップS203)
サーバ2の認識部205は、認識した文字に位置情報を付与する。
図12は、認識部205による位置情報付与の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。
図12(a)は、認識対象である書類の画像データの一例、
図12(b)は、
図12(a)を認識した文字に付与された位置情報の一例である。
図12に示すように、認識部205は、書類の左上をゼロ点としたXY座標により表される位置情報を認識した文字に付与する。
図12(b)に示す例では、Topは文字の上端、Leftは文字の左端、Bottomは、文字の下端、Rightは文字の右端、Wordは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたXY座標により表され、座標の数値には画素数が利用されている。
【0078】
上記のようにして、認識部205は、画像データに含まれる全ての文字を認識し、認識した文字に、書類の左上をゼロ点としたXY座標により表される位置情報を付与する。なお、
図12に示す例では、文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)は、実際の文字から離れた位置となっているが、これは認識した文字のフォントサイズに応じて文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)が決定されるためである。また、本実施形態では、文字の位置情報を上端(Top)、左端(Left)、下端(Bottom)、右端(Right)で示しているが、文字の左上及び右下のそれぞれのX軸及びY軸の位置座標、又は文字の右上及び左下のそれぞれのX軸及びY軸の位置座標で文字の位置を示すようにしてもよい。
【0079】
(ステップS204)
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部206は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
【0080】
(ステップS205)
判定部207は、項目マスタDB3を参照し、分類部206で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部207が存在すると判定しない項目がある場合(YES)、サーバ2は、ステップS206の処理へ移行する。また、判定部207が存在すると判定しない項目がない場合(NO)、サーバ2は、ステップS208の処理へ移行する。
【0081】
(ステップS206)
探索部208は、判定部207により存在しないとされた項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
【0082】
図13は、探索部208による探索の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。
図13(a)は、探索部208による横方向(X座標)探索の一例を示す図である。
図13(a)に示すように「氏名」の項目が、横方向(X軸方向)に所定間隔以上離れて配置されている場合、「氏」の文字と「名」の文字とがそれぞれ単独で読み取られるため、「氏名」の項目が書類上に存在するにも関わらず「氏名」の項目として認識することができない。そこで、探索部208は、「氏名」の項目を構成する各文字のうちの1文字である「氏」を起点とした所定範囲内に「氏名」の項目を構成する他の文字である「名」が存在するか探索する。より具体的には、探索部208は、「氏」の文字のY座標内のX軸線上に連続して「名」の文字が存在するかを探索する。
【0083】
なお、文字が横方向(X軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の上端(
図13(a)の「Top」の位置)又は下端(
図13(a)の「Bottom」の位置)を基準としてもよい。具体的には、横方向(X軸方向)に所定間隔離れた各文字(
図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が横方向(X軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから横方向(X軸方向)に所定間隔離れた各文字(
図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が横方向(X軸方向)に並んで配置されていると判定することができる。
【0084】
図13(b)は、探索部208による縦方向(Y座標)探索の一例を示す図である。
図13(b)に示すように「記号」の項目が、縦方向(Y軸方向)に配置されている場合、「記」の文字と「号」の文字とがそれぞれ単独で読み取られるため、「記号」の項目が書類上に存在するにも関わらず「記号」の項目として認識することができない。そこで、探索部208は、「記号」の項目を構成する各文字のうちの1文字である「記」を起点とした所定範囲内に「記号」の項目を構成する他の文字である「号」が存在するか探索する。より具体的には、探索部208は、「記」の文字のX座標内のY軸線上に連続して「号」の文字が存在するかを探索する。
【0085】
なお、文字が縦方向(Y軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の左端(
図13(b)の「Left」の位置)又は右端(
図13(b)の「Right」の位置)を基準としてもよい。具体的には、縦方向(Y軸方向)に所定間隔離れた各文字(
図13(b)に示す例では「記」及び「号」)の左端L又は右端RのZ座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が縦方向(Y軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから縦方向(Y軸方向)に所定間隔離れた各文字(
図13(b)に示す例では「記」及び「号」)の左端L又は右端RのX座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が縦方向(Y軸方向)に並んで配置されていると判定することができる。
【0086】
以上のように、探索部208は、各文字のうちの1文字を起点として横方向(Z軸方向)及び縦方向(Y軸方向)に項目を構成する他の文字が存在するか探索する。具体的には、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在するかを探索する。探索部208は、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在しない場合、項目を構成する各文字のうちの最初の1文字のX座標内のY軸線上に連続して、項目を構成する他の文字が存在するかを探索する。
【0087】
(ステップS207)
結合部209は、探索部208により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部209は、探索部208により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。
図14は、結合部209による横方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。
図14(a)は、結合前の文字の画像データの一例を示す図である。
図14(b)は、認識部205で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。
図14(c)は、結合部209による結合後の文字の画像データの一例を示す図である。
図14(d)は、結合後の「氏名」の文字に付与された位置情報の一例である。
図14(c)及び
図14(d)に示すように結合部209は、「氏」の左端(Left)の位置情報を「氏名」の左端(Left)の位置情報とし、「名」の右端(Right)の位置情報を「氏名」の右端(Right)の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。
【0088】
図15は、結合部209による縦方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。
図15(a)は、結合前の文字の画像データの一例を示す図である。
図15(b)は、認識部205で認識された「記」及び「号」の文字に各々付与された位置情報の一例である。
図15(c)は、結合部209による結合後の文字の画像データの一例を示す図である。
図15(d)は、結合後の「記号」の文字に付与された位置情報の一例である。
図15(c)及び
図15(d)に示すように結合部209は、「記」の上端(Top)の位置情報を「記号」の上端(Top)の位置情報とし、「号」の下端(Bottom)の位置情報を「記号」の下端(Bottom)の位置情報とすることで、「記」「号」の文字を一つの項目「記号」として認識可能なようにデータ的に結合する。
このように、結合部209は、探索部208により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。
【0089】
(ステップS208)
取得部210は、各項目に対応する文字を取得する。具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)又は改行までの文字を項目に対応する文字として取得する(
図14に示す例では「山田太郎」の文字、
図15に示す例では「201375」の文字)。また、取得部210は、項目の第1側(本実施形態では右側:横書きに対応)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側:縦書きに対応)に存在する次の項目(次項目)又は改行までの文字を、項目に対応する文字として取得する。
【0090】
なお、取得部210は、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を項目に対応する文字として取得するかを決定するようにしてもよい。この場合、縦書きの書類であるか横書きの書類であるかを書類の種別に対応して分類用DB2に記憶しておき、取得部210は、分類用DB2を参照し、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を、項目に対応する文字として取得するかを決定するようにしてもよい。
【0091】
以上のように、実施形態に係るサーバ2は、2以上の情報源から対象者に関する情報を取得する取得部210と、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する表記変更部211と、表記変更部211で所定の表示に変更された対象者に関する情報を統合する統合部212と、統合部212で統合された対象者に関する情報に基づいて、対象者が監視対象となるリスクを算出する算出部213とを備える。このため、多くの情報に基づいて対象者のリスクを算出することができ利便性が向上する。
【0092】
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報(ロジック処理用の情報)を参照し、前記処理ルールに基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報を正確に統合することができる。
【0093】
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報(第1マスタ処理用の情報)を参照し、前記処理内容に基づいて、取得部210で取得された対象者に関する情報の表記を前記所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報をより正確に統合することができる。
【0094】
また、実施形態に係るサーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を重複する項目に対応する情報として選択する。このため、種々の情報源から取得された対象者に関する情報を統合する際の正確性を向上することができる。
【0095】
また、実施形態に係るサーバ2の算出部213は、リスク算出用DB6に記憶された対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、対象者が監視対象となるリスクを算出する。このため、項目ごとにリスクレートを変更することで、対象者が監視対象となるリスクの算出を柔軟に変更することができ、利便性が向上する。
【0096】
また、実施形態に係るサーバ2は、書類の画像から文字を認識する認識部205と、書類から取得する項目の情報を参照し、認識部205が認識した文字に項目が存在するか否かを判定する判定部207と、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する探索部208と、探索部208により探索された各文字を項目として認識可能に処理する結合部209と、各項目に対応する文字を対象者に関する情報として取得する取得部210とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。
【0097】
また、本実施形態に係るサーバ2の探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。このように所定範囲内を探索するため、離れた箇所に存在する文字を間違って項目を構成する文字として認識することがない。このため、項目に対応する情報を間違って取得する虞を低減することができる。
【0098】
また、本実施形態に係るサーバ2の取得部210は、項目の第1側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報を間違って取得する虞を低減することができる。
【0099】
また、本実施形態に係るサーバ2の取得部210は、項目の第1側の所定範囲内に文字が存在しない場合、項目の第1側とは異なる第2側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報をより効果的に取得することができる。
【0100】
また、本実施形態に係るサーバ2は、書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部204を備えている。そして、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、複数の補正後の画像から認識した文字のうち最も多いものを選択する。このため、文字を誤って読み取る確率及び文字を読み取れない確率の少なくとも一方を低減することができ、文字認識の正答率が向上する。
【0101】
また、本実施形態では、補正パタンは、各々1以上の異なる補正を含んでいる。このように1以上の異なる補正を組み合わせているので、文字を誤って読み取る確率や文字を読み取れない確率の少なくとも一方をより低減することができ、文字認識の正答率が更に向上する。
【0102】
[実施形態の変形例1]
上記実施形態では、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。
【0103】
しかしながら、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが最も多く含まれている種別に書類の画像データを分類するようにしてもよい。
【0104】
また、分類用DB2に、書類の種別ごとに含まれていてはいけないパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)を記憶し、認識部205で認識された文字に、該含まれていてはいけないパタンマッチ用データやキーワードが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類しないようにしてもよい。
【0105】
[実施形態の変形例2]
また、上記実施形態では、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。
【0106】
このような場合に、項目マスタDB3に、書類の種別ごとに取得する情報の項目の名称(例えば「住所」や「住まい」)に、統一された項目の名称(例えば「住所」)を関連付けて記憶し、項目に対応する文字に統一された項目の情報を付与するようにしてもよい。このように構成することで、書類の種別により異なる項目の名称を統一して管理することができ、例えば、検索や名寄せ等、データ利用の利便性が向上する。
【解決手段】本発明に係る情報処理装置は、異なる2以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。