(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170118
(43)【公開日】2023-12-01
(54)【発明の名称】不正検知装置、不正検知方法および判定モデル生成方法
(51)【国際特許分類】
G06F 21/55 20130101AFI20231124BHJP
G06N 20/00 20190101ALI20231124BHJP
【FI】
G06F21/55 320
G06N20/00
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022081608
(22)【出願日】2022-05-18
(71)【出願人】
【識別番号】503295518
【氏名又は名称】株式会社Geolocation Technology
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】岩津 良哉
(57)【要約】
【課題】不審者からの不正アクセスの検知精度を向上させることができるようにする。
【解決手段】接続元端末のIPアドレスおよびそれに関連付けられた属性情報を判定用データとして取得する判定用データ取得部11と、IPアドレスから関連付けられた回線事業者の判定精度を表す情報を属性情報の1つとして含む学習用データを用いて機械学習された判定モデル12aに対して判定用データを入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を判定モデル12aから出力する不正判定部12とを備え、不審者が通信に利用する回線事業者はIPアドレスの逆引き等によって判定できない可能性が高いことを機械学習によって反映させた判定モデル12aを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることができるようにする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
判定対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を判定用データとして取得する判定用データ取得部と、
上記判定用データ取得部により取得された上記判定用データを学習済みの判定モデルに入力し、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する不正判定部とを備え、
上記属性情報は、上記IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、
上記判定モデルは、上記判定用データが入力された際に上記不正リスク値を出力するように、上記IPアドレスおよび上記属性情報を含む学習用データを用いた機械学習処理により生成されている
ことを特徴とする不正検知装置。
【請求項2】
上記属性情報は、上記IPアドレスの匿名化サービスの利用の有無を表す情報を更に含むことを特徴とする請求項1に記載の不正検知装置。
【請求項3】
上記属性情報は、VPNの利用の有無を表す情報を更に含むことを特徴とする請求項1または2に記載の不正検知装置。
【請求項4】
上記判定モデルは、上記属性情報を次元圧縮し、当該次元圧縮により求められた変数の分布におけるクラスタからの乖離度に基づいて上記不正リスク値を出力することを特徴とする請求項1に記載の不正検知装置。
【請求項5】
不正検知装置の判定用データ取得部が、判定対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を判定用データとして取得する第1のステップと、
上記不正検知装置の不正判定部が、上記判定用データ取得部により取得された上記判定用データを学習済みの判定モデルに入力し、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する第2のステップとを有し、
上記属性情報は、上記IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、
上記判定モデルは、上記判定用データが入力された際に上記不正リスク値を出力するように、上記IPアドレスおよび上記属性情報を含む学習用データを用いた機械学習処理により生成されている
ことを特徴とする不正検知方法。
【請求項6】
モデル生成装置の学習用データ取得部が、学習対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を学習用データとして取得する第1のステップと、
上記モデル生成装置の機械学習部が、上記学習用データ取得部により取得された上記学習用データを用いて機械学習を行うことにより、上記IPアドレスおよび上記属性情報を入力とし、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力とする判定モデルを生成する第2のステップとを有し、
上記属性情報は、上記IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む
ことを特徴とする判定モデル生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、不正検知装置、不正検知方法および判定モデル生成方法に関し、特に、IPアドレスを利用して不審者からの不正なアクセスを検知するシステムに用いて好適なものである。
【背景技術】
【0002】
従来、IPアドレスおよび他の情報を用いた機械学習により不正等を検知するシステムが知られている(例えば、特許文献1,2参照)。特許文献1に記載のシステムでは、セキュリティサーバの学習処理部において、接続元端末と接続先ホストとの間の通信ログに基づいて、接続先ホストのIPアドレス、接続先ホストのIPアドレスの保有国を示す情報など、および、接続先ホストの脅威の有無を学習データとして学習器を学習させる。接続先判定部は、新たに接続元端末が通信しようとしている接続先ホストのIPアドレス、接続先ホストのIPアドレスの保有国を示す情報などを学習済みの学習器に入力し、学習器の出力に基づいて、当該接続先ホストの脅威の有無を判定する。
【0003】
特許文献2に記載のシステムでは、セキュリティサーバの学習処理部において、接続元端末と接続先ホストとの間の通信ログに基づいて、接続元端末および接続先ホストのIPアドレス、接続先ホストのIPアドレスの保有国を示す情報を含む学習データを用いて、入力された学習データを復元して出力するように自己符号化器を学習させる。異常検出部は、対象接続元端末および対象接続先ホストのIPアドレス、接続先ホストのIPアドレスの保有国を示す情報を含む対象入力データを学習済みの自己符号化器に入力し、対象入力データと自己符号化器の出力である対象出力データとを比較することで、接続元端末からの不正通信を検出する。
【0004】
ところで、近年、国際的なマネー・ローンダリングやテロ資金供与の防止強化の要請が強まるなか、金融庁発行によるマネロン・テロ資金供与のガイドラインが改定され、不審者から金融機関のシステムに対するアクセスの特定または把握が強く求められている。現在、多くの金融機関で取引モニタリングシステムが利用され、取引に疑わしい点があるか否か、取引者が制裁対象者に該当するか否かといった分析が行われているが、誤検知が多いという問題が指摘されている。
【0005】
上記特許文献2に記載のシステムは、接続元端末からの不正通信を検出することを目的としたものであり、これを金融機関のシステムに対する不正アクセスの検知(不審者からのアクセスか否かの検知)に適用することが考えられる。しかしながら、特許文献2に記載のシステムでは、接続元端末からの通信が有った場合に、それがマルウェアによる通信であるか否かを判定することは可能であるが、不審者からのアクセスか否かを検知することには向かない。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2021-175095号公報
【特許文献2】特開2021-189721号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、このような問題を解決するために成されたものであり、不審者からの不正アクセスの検知精度を向上させることができるようにすることを目的とする。
【課題を解決するための手段】
【0008】
上記した課題を解決するために、本発明では、判定対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を判定用データとして学習済みの判定モデルに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。属性情報は、IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、判定モデルは、判定用データが入力された際に不正リスク値を出力するように、IPアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成される。
【発明の効果】
【0009】
上記のように構成した本発明によれば、不審者からの不正アクセスの検知精度を向上させることができる。すなわち、マネー・ローンダリングやテロ資金供与などの目的で不審者が金融機関のシステムにアクセスしようとする場合には、通常とは異なる回線事業者またはプロバイダが利用される可能性があるため、IPアドレスから回線事業者またはプロバイダを判定できない可能性が高くなる。よって、IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む学習用データを用いて機械学習された判定モデルを使い、当該判定精度を表す情報を含む判定用データを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることが可能である。
【図面の簡単な説明】
【0010】
【
図1】本実施形態による不正検知装置の機能構成例を示すブロック図である。
【
図2】通信ログデータ記憶部に記憶される通信ログデータのデータ項目を示す図である。
【
図3】属性情報記憶部に記憶される属性情報のデータ項目を示す図である。
【
図4】主成分分析により得られる分布の一例を模式的に示す図である。
【
図5】本実施形態によるモデル生成装置の機能構成例を示すブロック図である。
【
図6】本実施形態によるモデル生成装置の動作例を示すフローチャートである。
【
図7】本実施形態による不正検知装置の動作例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による不正検知装置の機能構成例を示すブロック図である。
図1に示すように、本実施形態の不正検知装置10は、機能構成として、判定用データ取得部11および不正判定部12を備えている。判定用データ取得部11は、より具体的な機能構成として、IPアドレス取得部11a、属性情報取得部11bおよび前処理部11cを備えている。また、不正判定部12は、より具体的な機能構成として、判定モデル12aを備えている。
【0012】
上記機能ブロック11,12は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック11,12は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0013】
また、本実施形態の不正検知装置10には、通信ログデータ記憶部101および属性情報記憶部102が接続されている。不正検知装置10と通信ログデータ記憶部101および属性情報記憶部102との間は、LAN(Local Area Network)またはインターネット等の通信ネットワークを介して接続される構成であってもよいし、接続ケーブルを介して接続される構成であってもよい。あるいは、不正検知装置10が通信ログデータ記憶部101および属性情報記憶部102を内蔵する構成であってもよい。また、
図1では、通信ログデータ記憶部101と属性情報記憶部102とを別のデータベースとして構成する例を示しているが、通信ログデータと属性情報とを1つのデータベースに集約して記憶するようにしてもよい。
【0014】
通信ログデータ記憶部101は、接続元端末から通信ネットワークを介して接続先(例えば、サーバ装置、端末、ウェブサイトなど)に対して通信が行われるときに使用される接続元端末のIPアドレスを、その通信が行われた日時を示す時刻情報と共に履歴として記憶する。ここで、通信ログデータ記憶部101は、接続先を識別可能な状態で通信ログデータを通信ログデータ記憶部101に記憶する。例えば、通信ログデータを接続先別に分けて記憶する。
図2は、通信ログデータ記憶部101に記憶される通信ログデータの1レコードのデータ項目を示す図である。
図2に示すように、通信ログデータ記憶部101は、接続元端末のIPアドレスを通信の時刻情報に関連付けて記憶する。
【0015】
なお、通信ログデータ記憶部101に対する通信ログデータの記録は、図示しないログ収集サーバによって行われる。通信ネットワーク上では、各地にいる多くのユーザが、それぞれのユーザ端末から所望のタイミングで所望のウェブサイトにアクセスしてコンテンツを閲覧したり、他のユーザ端末またはサーバ装置などとの間でコミュニケーションやデータ取得などの各種通信を行ったりしている。ログ収集サーバは、これらの通信に使用される接続元端末のIPアドレスを、例えばあらかじめ指定した接続先へのアクセスを検知する毎に逐次取得し、取得したときの時刻情報と共に通信ログデータ記憶部101に逐次記録する。これにより、通信ログデータ記憶部101には、IPアドレスと時刻情報とのセットが通信ログデータとして記憶される。
【0016】
属性情報記憶部102は、通信ログデータ記憶部101に記憶されているIPアドレスに対応する属性情報を記憶する。IPアドレスに対応する属性情報とは、IPアドレスに対する逆引きなどの解析によって特定される情報である。この解析は、ログ収集サーバがIPアドレスを取得する都度実施するようにしてもよいし、通信ログデータ記憶部101にIPアドレスが記憶された後の任意のタイミングで実施するようにしてもよい。また、この解析は、ログ収集サーバが行ってもよいし、これとは異なる解析サーバが行ってもよい。
【0017】
図3は、属性情報記憶部102に記憶される属性情報の1レコードのデータ項目を示す図である。
図3に示すように、属性情報記憶部102は、接続元端末のIPアドレスおよび通信の時刻情報に関連付けて、地域情報(国、都道府県および市町村)、組織情報、通信を行う際に利用された通信回線の回線事業者および判定精度の情報を属性情報として記憶する。属性情報記憶部102のあるレコードに記憶されるIPアドレスおよび時刻情報の値は、通信ログデータ記憶部101のあるレコードに記憶されるIPアドレスおよび時刻情報の値と一致したものである。
【0018】
接続元端末のIPアドレスは、所定ビット数から成る数値データであり、世界中に存在する端末のネットワーク上における住所を示している。このIPアドレスは、ドメインネーム、例えば「~.プロバイダ名.ne.jp」、「~.会社名.co.jp」などのような、ある種の意味を含む文字列に1対1の対応で相互に変換可能である。すなわち、IPアドレスは、オリジナル・ドメインを有する特定のサーバと1対1に対応している。
【0019】
さらに、オリジナル・ドメインを有する特定のサーバは、全世界のドメインを管理する機関であるNIC(Network Information Center)や、日本のドメインを管轄するJPNICなどで得られる情報から、いずれの国のどの地域のどこに住所を有するかが明らかにされている。ログ収集サーバまたは解析サーバは、このNICやJPNICなどで得られる情報をもとに複数のIPアドレスを地域別に分類した地域別アドレス分類データベース(図示せず)をあらかじめ備えている。この地域別アドレス分類データベースは、国、地方、県、市町村などの階層により区分して地域情報を格納することが可能である。
【0020】
これにより、ログ収集サーバまたは解析サーバは、例えば、接続元端末のIPアドレスからオリジナル・ドメインのサーバを特定した上で、IPアドレスをキーとして地域別アドレス分類データベースを参照することにより、IPアドレスが使われている接続元端末の地域を表す地域情報を取得することが可能である。
【0021】
なお、大多数の個人ユーザが利用するインターネット・サービス・プロバイダ(ISP)は、多数のユーザが全国各地から利用するため、多数の地域に設けられたアクセスポイントごとに、多数のIPアドレスを管理している。ログ収集サーバまたは解析サーバは、ISPが所有するアクセスポイントごとのIPアドレスを地域別に分類した地域別ISPアドレス分類データベース(図示せず)をあらかじめ備えることが可能である。そのため、この地域別ISPアドレス分類データベースを参照することにより、ISPが所有する各アクセスポイントがいずれの国のどの地域のどこに存在するかを特定可能である。
【0022】
よって、ログ収集サーバまたは解析サーバは、例えば、接続元端末のIPアドレスに基づいて、通信がISPのいずれのアクセスポイントを経由したものであるかを判別した上で、通信経路の始端に近いアクセスポイントのIPアドレスをキーとして地域別ISPアドレス分類データベースを参照することにより、接続元端末のIPアドレスに対応する属性情報として地域情報を取得することが可能である。ISPをダイヤルアップIP接続により利用している大多数の個人ユーザが使用するIPアドレスは、アクセスするごとに変動するが、そのようなIPアドレスからも接続元端末に対応する地域情報を取得することが可能である。
【0023】
また、ログ収集サーバまたは解析サーバは、以下のようにして地域情報を取得することも可能である。すなわち、ログ収集サーバまたは解析サーバは、接続元端末のIPアドレスに対応するドメインネームを取得し、ドメインネームを構成する文字列からプロバイダ名を判定するとともに、ドメインネームを構成する文字列からホストネームを抽出する。そして、プロバイダごとにホストネームを地域別に分類した地域別ホストネーム分類データベースを参照して、上記抽出したホストネームから地域情報を取得するようにする。
【0024】
また、IPアドレスに対応するドメインネームは、ホストネーム、組織名、組織属性、国名の階層構造をなしている。例えば、ドメインネームが「www.xxx.co.jp」であれば、wwwがホストネーム、xxxが組織名、coが組織属性、jpが国名と判別することができる。プロバイダのアクセスポイントのドメインネームの場合にも、同様に判別が可能である。したがって、ログ収集サーバまたは解析サーバは、接続元端末のIPアドレスから変換したドメインネームをもとに、IPアドレスが使われている接続元端末の保有組織を表す組織情報(企業名など)を取得することも可能である。
【0025】
さらに、プロバイダがどの回線事業者の通信回線を利用してサービスを提供しているかの情報を記録したデータベースが公開されている場合には、ログ収集サーバまたは解析サーバは、接続元端末のIPアドレスから変換されるドメインネームを構成する文字列をもとにプロバイダを特定した上で、上記のデータベースを参照することにより、回線事業者を推定することも可能である。
【0026】
また、公知の「traceroute」というネットワークコマンドを用いてネットワーク経路を調査することにより、回線事業者を推定することも可能である。接続元端末のIPアドレスを引数としてこのネットワークコマンドを用いると、接続元端末から送信先端末までのネットワーク経路がリスト表示される。ネットワーク経路上に存在するサーバ名やドメイン名が回線事業者ごとに異なる傾向にあるため、調査されたリストに含まれるサーバ名やドメイン名から回線事業者を推定することが可能である。
【0027】
このように、IPアドレスの逆引きまたはネットワーク経路の調査を行うことにより、その通信において利用されている通信回線の回線事業者をある程度は推定することが可能である。ただし、どのIPアドレスからも完全に回線事業者を明確に判定できるわけではない。属性情報の1つとして記憶される判定精度は、逆引きまたはネットワーク経路の調査によって推定された回線事業者の確からしさを示す情報である。
【0028】
例えば、IPアドレスから回線事業者を明確に判別できた場合は、判定精度の値を“1”とする。一方、IPアドレスから回線事業者を全く判別できなかった場合は、判定精度の値を“0”とする。また、IPアドレスから回線事業者を明確に判別できなかったものの、IPアドレスが個人ではなく組織(企業や団体など)で使われていることを判定することができた場合、組織で使われる可能性の高い回線事業者をIPアドレスに関連付けた上で、判定精度の値を“0.5”とする。
【0029】
組織はプロバイダとの契約により、アクセスのたびにIPアドレスが変わることのない固定IPアドレスを利用することが多い。また、IPアドレスから変換可能なドメインネームに組織名が使われることも多い。そのため、IPアドレスから組織を特定できる可能性は、回線事業者を特定できる可能性に比べて高いと言える。一方、回線事業者の中には組織向け(法人向け)のサービスを提供しているものがあり、組織はそのような組織向けサービスを契約して通信回線を利用することが比較的多い。
【0030】
よって、IPアドレスから逆引き等によって組織を特定することができれば(特定の組織まで判別できなくても、少なくともIPアドレスが組織で使われていることが判別できればよい)、その組織が利用している可能性のある回線事業者をある程度推定することが可能である。ただし、回線事業者を具体的に特定できているわけではないので、判定精度の値は“1”と“0”との間の値、例えば“0.5”とする。なお、ここに示した判定精度の値の決定方法は一例であり、これに限定されるものではない。
【0031】
ログ収集サーバまたは解析サーバは、以上のようにして取得した地域情報、組織情報、回線事業者および判定精度の情報を、それぞれIPアドレスの属性情報として、IPアドレスおよび通信の時刻情報と関連付けて属性情報記憶部102に記憶する。例えば、ログ収集サーバは、IPアドレスを取得するたびに同様の処理を繰り返すことにより、IPアドレス、時刻情報、地域情報、組織情報、回線事業者および判定精度の情報を1レコードに含む属性情報を属性情報記憶部102に逐次格納する。あるいは、解析サーバは、通信ログデータ記憶部101に記憶された複数のIPアドレスに対して同様の処理を実行することにより、各IPアドレスに対応する属性情報を属性情報記憶部102の複数のレコードに格納する。なお、地域情報、組織情報、回線事業者のうち、逆引き等によって推定できなかったものについてはそのレコードにNULL値が記録される。
【0032】
ここでは、回線事業者および判定精度の情報をIPアドレスに対応する属性情報として属性情報記憶部102に記憶する例を説明したが、回線事業者に代えてまたは加えてプロバイダの情報を属性情報として記憶するようにしてもよい。プロバイダについても、上述したようにIPアドレスからの逆引きによって解析することが可能であり、回線事業者の場合と同様に判定精度を解析することが可能である。
【0033】
判定用データ取得部11は、判定対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を判定用データとして取得する。すなわち、IPアドレス取得部11aが通信ログデータ記憶部101から接続元端末のIPアドレスを取得するとともに、属性情報取得部11bが属性情報記憶部102から属性情報を取得し、取得したIPアドレスおよび属性情報に対して前処理部11cが所定の前処理を行うことにより、判定用データを取得する。
【0034】
IPアドレス取得部11aは、通信ログデータ記憶部101に記憶されている通信ログデータの中から、不正検知の処理対象とする一部のIPアドレスを抽出する。例えば、IPアドレス取得部11aは、不正検知を行いたいユーザ(例えば、接続先のサーバ装置、端末またはウェブサイトの運用を管理する企業など)の不正検知装置10に対する指定操作に基づいて、ユーザが指定する特定の接続先に関する通信ログデータを対象としてIPアドレスを抽出する。また、任意の企業を指定して、指定企業に関する通信ログデータを対象としてIPアドレスを抽出するようにしてもよい。例えば、通信ログデータの蓄積量が多い方から複数の接続先または企業を指定してIPアドレスを抽出することが可能である。
【0035】
また、IPアドレス取得部11aは、通信ログデータの時刻情報に基づいて、特定の接続先または企業に関する通信ログデータの中から、一部の期間のIPアドレスを抽出するようにしてもよい。例えば、あらかじめ定めた所定期間(例えば、現在から直近の所定期間)のIPアドレスを抽出することが可能である。あるいは、ユーザの不正検知装置10に対する指定操作に基づいて、ユーザが指定する任意の期間のIPアドレスを抽出するようにしてもよい。
【0036】
属性情報取得部11bは、IPアドレス取得部11aにより取得されるIPアドレスおよびそれに対応する時刻情報と同じIPアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部102から抽出する。
【0037】
前処理部11cは、例えば、以上のようにしてIPアドレス取得部11aおよび属性情報取得部11bにより取得されたIPアドレスおよび属性情報の中から、ユニーク数が多いIPアドレスや、非営利団体などのために用意されたorgドメインのIPアドレスなどを削除するとともに、削除したIPアドレスに対応して取得された属性情報を削除する。その他、マネー・ローンダリングやテロ資金供与を行う際に接続元端末のIPアドレスとして使用される可能性の低いことが想定されるものがある場合は、そのようなIPアドレスおよびそれに対応する属性情報を削除するようにしてもよい。
【0038】
なお、属性情報取得部11bは、IPアドレス取得部11aにより取得されたIPアドレスの中から不要なIPアドレスが前処理部11cにより削除された後に、残ったIPアドレスおよびそれに対応する時刻情報と同じIPアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部102から抽出するようにしてもよい。
【0039】
前処理部11cは、以上のように不要なIPアドレスおよび属性情報を削除した後、文字列から成る複数種類の属性情報(地域情報、組織情報、回線事業者)をそれぞれ所定のルールに基づいて数値化(カテゴリ変数化を含む)する。ルールの内容は任意であり、カウントエンコーディングなどの公知技術を利用することも可能である。数値化のルールは、属性情報の種類ごとに異なるものを用いてもよい。さらに、前処理部11cは、属性情報から変換した数値の標準化を行う。この標準化は、複数種類の属性情報ごとに、数値の平均を“0”、分散を“1”にするための処理である。
【0040】
なお、属性情報の数値化および標準化は、不正判定部12において主成分分析を行うために必要な前処理である。不正判定部12において、主成分分析以外の方法により属性情報の特徴量を抽出する処理を行うことも可能であり、前処理部11cにおいて属性情報の数値化および標準化の処理を行うことを必須とするものではない。
【0041】
不正判定部12は、判定用データ取得部11により取得された判定用データ(前処理部11cにより前処理が行われたIPアドレスおよび属性情報)を学習済みの判定モデル12aに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。判定モデル12aは、判定用データが入力された際に不正リスク値を出力するように、IPアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成されている。この機械学習処理については、
図5を用いて後述する。
【0042】
本実施形態において、判定モデル12aは、判定用データに含まれる属性情報(数値化および標準化されたもの)を主成分分析することによって次元圧縮し、当該次元圧縮により求められた変数の分布におけるクラスタからの乖離度に基づいて不正リスク値を出力するように構成されている。クラスタは、互いに共通性を有する多数の属性情報に対応する変数から形成される可能性が高い。一方、ある変数についてクラスタからの乖離度が大きくなるほど、その変数は他との共通性が少ない属性情報に対応するものである可能性が高い。よって、クラスタからの乖離度が大きい変数を特定することにより、それが異常なものである、つまり通常のアクセスとは異なる不正または不審なアクセスによるものであると推定することが可能である。
【0043】
上述のように、属性情報は、地域情報(国、都道府県および市町村)、組織情報、回線事業者および判定精度の情報を含む多次元の情報である。判定モデル12aは、この多次元の情報を主成分分析し、例えば第1主成分および第2主成分の2変数から成る2次元の情報に次元圧縮する。さらに、判定モデル12aは、複数のIPアドレスごとに求めた2変数に関する2次元空間の分布において、あるIPアドレスに対応する属性情報の2変数で特性される位置が、多数のIPアドレスに対応する属性情報の2変数で特性される位置により形成されるクラスタからどの程度乖離しているのかを示す乖離度に基づいて、当該あるIPアドレスについて乖離度に応じた不正リスク値を出力する。
【0044】
図4は、主成分分析により得られる分布の一例を模式的に示す図である。この
図4は、第1主成分を横軸、第2主成分を縦軸とした2次元空間において、判定用データに含まれる属性情報から求めた2変数で特性される位置(ドット)の分布を示している。
図4に示す例では、2次元空間の左寄りの領域に、多数のドットが密集して成るクラスタ41が形成されている。それ以外の位置にあるドットは、クラスタを形成するものではなく、クラスタ41から離れた位置に存在し、クラスタ41からの距離はまちまちである。
【0045】
図4に示すような分布の場合、判定モデル12aは、多くのドットが密集しているクラスタ41を基準として、このクラスタ41からドットがどの程度乖離しているのかを示す乖離度、つまり2次元空間上の距離に基づいて、乖離度に応じた不正リスク値をドットごとに出力する。例えば、クラスタ41に属するドットについては、不正リスク値を“0”とする。クラスタ41に属しないドットについては、クラスタ41からの距離が大きくなるほど不正リスク値を大きくする。各ドットについて出力される不正リスク値は、各IPアドレスに対応する不正リスク値となる。
【0046】
なお、ここでは2次元空間における分布に基づくクラスタからの乖離度に応じた不正リスク値を出力する例について説明したが、
図4のような分布図を作成することを要するものではない。例えば、判定モデル12aは、属性情報から次元圧縮により求めた変数に対してIsolation Forestによる分析を行い、決定木のルートノードからリーフノードに辿り着くまでの階層が浅いほど大きな不正リスク値を出力し、リーフノードに辿り着くまでの階層が深いほど小さな不正リスク値を出力するようにしてもよい。Isolation Forestによる分析においても、クラスタからの乖離度と実質的に同じ分析を行うことが可能である。
【0047】
また、ここでは主成分分析によって属性情報を2次元の情報に次元圧縮する例を説明したが、第1主成分、第2主成分および第3主成分の3変数から成る3次元の情報に次元圧縮するようにしてもよい。
【0048】
不正判定部12は、判定モデル12aから出力されるIPアドレスごとの不正リスク値を、対応するIPアドレスに関連付けて出力する。これにより、大きな不正リスク値に対応するIPアドレスを、不審者による接続元端末からの不正なアクセスに使用されたIPアドレスであると推定することができる。ここで、不正判定部12は、判定モデル12aから出力されるIPアドレスごとの不正リスク値のうち、所定の閾値より大きい不正リスク値のみをそれに対応するIPアドレスと共に出力するようにしてもよい。
【0049】
図5は、判定モデル12aを生成する本実施形態によるモデル生成装置の機能構成例を示すブロック図である。
図5に示すように、本実施形態のモデル生成装置20は、機能構成として、学習用データ取得部21および機械学習部22を備えている。学習用データ取得部21は、より具体的な機能構成として、IPアドレス取得部21a、属性情報取得部21bおよび前処理部21cを備えている。
【0050】
上記機能ブロック21,22は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック21,22は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0051】
また、本実施形態のモデル生成装置20には、上述した通信ログデータ記憶部101および属性情報記憶部102の他、判定モデル記憶部103が接続されている。モデル生成装置20と通信ログデータ記憶部101、属性情報記憶部102および判定モデル記憶部103との間は、LANまたはインターネット等の通信ネットワークを介して接続される構成であってもよいし、接続ケーブルを介して接続される構成であってもよい。あるいは、モデル生成装置20が通信ログデータ記憶部101、属性情報記憶部102および判定モデル記憶部103を内蔵する構成であってもよい。
【0052】
学習用データ取得部21は、学習対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を学習用データとして取得する。すなわち、IPアドレス取得部21aが通信ログデータ記憶部101から接続元端末のIPアドレスを取得するとともに、属性情報取得部21bが属性情報記憶部102から属性情報を取得し、取得したIPアドレスおよび属性情報に対して前処理部21cが所定の前処理を行うことにより、学習用データを取得する。
【0053】
IPアドレス取得部21aは、通信ログデータ記憶部101に記憶されている通信ログデータの中から、全てのIPアドレスを抽出するようにしてもよいし、一部のIPアドレスを抽出するようにしてもよい。判定用データ取得部11が備えるIPアドレス取得部11aとの違いは、IPアドレス取得部11aの場合は不正検知の処理対象とする一部のIPアドレスのみを抽出するのに対し、IPアドレス取得部21aの場合はより多くのIPアドレスを抽出するという点である。判定モデル12aの生成精度を向上させるためには、多くの学習用データを用いて機械学習を行うことが必要である。例えば、一部のIPアドレスを抽出するとしても、特定の接続先に関する通信ログデータに限らず、複数の接続先に関する通信ログデータからIPアドレスを抽出する。また、IPアドレス取得部11aの場合よりも長い期間のIPアドレスを抽出する。
【0054】
属性情報取得部21bは、IPアドレス取得部21aにより取得されるIPアドレスおよびそれに対応する時刻情報と同じIPアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部102から抽出する。前処理部21cは、以上のようにしてIPアドレス取得部21aおよび属性情報取得部21bにより取得されたIPアドレスおよび属性情報に対して、判定用データ取得部11が備える前処理部11cと同様の前処理を行う。
【0055】
機械学習部22は、学習用データ取得部21により取得された学習用データを用いて機械学習を行うことにより、IPアドレスおよび属性情報(前処理部21cにより前処理が行われたもの)を入力とし、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力とする判定モデル12aを生成する。ここで、互いに共通性の大きい属性情報については分布上でクラスタが形成されやすく、共通性が小さい属性情報についてはクラスタから乖離されやすくなるように、判定モデル12aのパラメータが機械学習により調整される。機械学習部22は、生成した判定モデル12aを判定モデル記憶部103に記憶する。判定モデル記憶部103に記憶された判定モデル12aが、不正検知装置10の不正判定部12にデプロイされる。
【0056】
図6は、モデル生成装置20の動作例を示すフローチャートである。まず、IPアドレス取得部21aは、通信ログデータ記憶部101から接続元端末のIPアドレスを学習用データとして取得する(ステップS1)。次いで、属性情報取得部21bは、IPアドレス取得部21aにより取得されたIPアドレスおよびそれに対応する時刻情報と同じIPアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を学習用データとして属性情報記憶部102から抽出する(ステップS2)。
【0057】
次に、前処理部21cは、以上のようにしてIPアドレス取得部21aおよび属性情報取得部21bにより取得されたIPアドレスおよび属性情報に対して、所定の前処理を行う(ステップS3)。そして、機械学習部22は、前処理されたIPアドレスおよび属性情報を学習用データとして用いた機械学習を行うことにより、IPアドレスおよび属性情報が入力されたときに不正リスク値を出力するように構成された判定モデル12aを生成する(ステップS4)。以上により、
図6に示す機械学習の処理が終了する。
【0058】
図7は、不正検知装置10の動作例を示すフローチャートである。まず、IPアドレス取得部11aは、判定対象とする接続元端末のIPアドレスを通信ログデータ記憶部101から判定用データとして取得する(ステップS11)。次いで、属性情報取得部11bは、IPアドレス取得部11aにより取得されたIPアドレスおよびそれに対応する時刻情報と同じIPアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を判定用データとして属性情報記憶部102から抽出する(ステップS12)。
【0059】
次に、前処理部11cは、以上のようにしてIPアドレス取得部11aおよび属性情報取得部11bにより取得されたIPアドレスおよび属性情報に対して、所定の前処理を行う(ステップS13)。そして、不正判定部12は、前処理されたIPアドレスおよび属性情報を学習済みの判定モデル12aに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する(ステップS14)。以上により、
図7に示す不正検知の処理が終了する。
【0060】
以上詳しく説明したように、本実施形態では、判定対象の通信ログデータから抽出される接続元端末のIPアドレス、および、当該IPアドレスに関連付けられた属性情報を判定用データとして学習済みの判定モデル12aに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。ここで、属性情報は、IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む。判定モデル12aは、判定用データが入力された際に不正リスク値を出力するように、IPアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成される。
【0061】
上記のように構成した本実施形態によれば、不審者からの不正アクセスの検知精度を向上させることができる。すなわち、マネー・ローンダリングやテロ資金供与などの目的で不審者が金融機関のシステムにアクセスしようとする場合には、通常とは異なる回線事業者またはプロバイダが利用される可能性があるため、IPアドレスから回線事業者またはプロバイダを判定できない可能性が高くなる。よって、IPアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む学習用データを用いて機械学習された判定モデル12aを使い、当該判定精度を表す情報を含む判定用データを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることが可能である。
【0062】
属性情報の1つとして含まれる地域情報も、マネー・ローンダリングやテロ資金供与などを目的とする不審者による不正アクセスを検知するのに有用な情報である。マネー・ローンダリングやテロ資金供与などは、国外の接続元端末から国内の接続先にアクセスされることが多い傾向にある。そのため、国外(特に、現出頻度の少ない国)であることが示されている地域情報が関連付けられているIPアドレスについては、不正リスク値が大きめの値になる。
【0063】
なお、属性情報は、IPアドレスの匿名化サービスの利用の有無を表す情報を更に含むものとしてもよい。IPアドレスの匿名化とは、本来のIPアドレスとは異なるIPアドレスを使うことで、本来のIPアドレスを知られないようにする仕組みである。IPアドレスの匿名化の有無を示す情報は、回線事業者の判定精度と関連度が高いパラメータと言える。匿名化サービスを利用しているIPアドレスからは殆ど回線事業者を特定することができず、判定精度の値は“0”となるからである。
【0064】
ここで、通信ログデータに含まれるIPアドレスが匿名化サービスを利用しているものか否かは、例えば以下の方法で解析することが可能である。例えば、ある匿名化サービスを提供している事業者の場合、匿名化サービスを利用しているIPアドレスの末尾の値を所定の値に置き換えることにより、本来のIPアドレスを匿名化している。よって、IPアドレスの末尾の値が所定の値か否かを確認することにより、匿名化サービスを利用しているIPアドレスか否かを推定することが可能である。
【0065】
また、特定のVPNサービスに加入し、海外のVPNサーバに接続することによってその国の仮想IPアドレスを割り当てることにより、本来のIPアドレスを匿名化することも可能である。この場合、IPアドレスからの逆引きによってVPNが使われているか否かを確認することにより、匿名化サービスを利用しているIPアドレスか否かを推定することが可能である。例えば、VPNサービスの利用に使用されるIPアドレスの履歴等を記録したデータベースが存在する場合には、このデータベースを参照することにより、VPNサービスの使用の有無を判定することも可能である。なお、このことに鑑みて、属性情報は、匿名化サービスの利用の有無を表す情報に代えてまたは加えて、VPNの利用の有無を表す情報を更に含むものとしてもよい。
【0066】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0067】
10 不正検知装置
11 判定用データ取得部
11a IPアドレス取得部
11b 属性情報取得部
11c 前処理部
12 不正判定部
12a 判定モデル
20 モデル生成装置
21 学習用データ取得部
21a IPアドレス取得部
21b 属性情報取得部
21c 前処理部
22 機械学習部