特開2023-170118 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｇｅｏｌｏｃａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙの特許一覧

特開2023-170118不正検知装置、不正検知方法および判定モデル生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023170118

(43)【公開日】2023-12-01

(54)【発明の名称】不正検知装置、不正検知方法および判定モデル生成方法

(51)【国際特許分類】

G06F 21/55 20130101AFI20231124BHJP

G06N 20/00 20190101ALI20231124BHJP

【ＦＩ】

G06F21/55 320

G06N20/00

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022081608

(22)【出願日】2022-05-18

(71)【出願人】

【識別番号】503295518

【氏名又は名称】株式会社ＧｅｏｌｏｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ

(74)【代理人】

【識別番号】100105784

【弁理士】

【氏名又は名称】橘和之

(72)【発明者】

【氏名】岩津良哉

(57)【要約】

【課題】不審者からの不正アクセスの検知精度を向上させることができるようにする。
【解決手段】接続元端末のＩＰアドレスおよびそれに関連付けられた属性情報を判定用データとして取得する判定用データ取得部１１と、ＩＰアドレスから関連付けられた回線事業者の判定精度を表す情報を属性情報の１つとして含む学習用データを用いて機械学習された判定モデル１２ａに対して判定用データを入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を判定モデル１２ａから出力する不正判定部１２とを備え、不審者が通信に利用する回線事業者はＩＰアドレスの逆引き等によって判定できない可能性が高いことを機械学習によって反映させた判定モデル１２ａを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることができるようにする。
【選択図】図１

【特許請求の範囲】

【請求項1】

判定対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を判定用データとして取得する判定用データ取得部と、
上記判定用データ取得部により取得された上記判定用データを学習済みの判定モデルに入力し、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する不正判定部とを備え、
上記属性情報は、上記ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、
上記判定モデルは、上記判定用データが入力された際に上記不正リスク値を出力するように、上記ＩＰアドレスおよび上記属性情報を含む学習用データを用いた機械学習処理により生成されている
ことを特徴とする不正検知装置。

【請求項2】

上記属性情報は、上記ＩＰアドレスの匿名化サービスの利用の有無を表す情報を更に含むことを特徴とする請求項１に記載の不正検知装置。

【請求項3】

上記属性情報は、ＶＰＮの利用の有無を表す情報を更に含むことを特徴とする請求項１または２に記載の不正検知装置。

【請求項4】

上記判定モデルは、上記属性情報を次元圧縮し、当該次元圧縮により求められた変数の分布におけるクラスタからの乖離度に基づいて上記不正リスク値を出力することを特徴とする請求項１に記載の不正検知装置。

【請求項5】

不正検知装置の判定用データ取得部が、判定対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を判定用データとして取得する第１のステップと、
上記不正検知装置の不正判定部が、上記判定用データ取得部により取得された上記判定用データを学習済みの判定モデルに入力し、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する第２のステップとを有し、
上記属性情報は、上記ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、
上記判定モデルは、上記判定用データが入力された際に上記不正リスク値を出力するように、上記ＩＰアドレスおよび上記属性情報を含む学習用データを用いた機械学習処理により生成されている
ことを特徴とする不正検知方法。

【請求項6】

モデル生成装置の学習用データ取得部が、学習対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を学習用データとして取得する第１のステップと、
上記モデル生成装置の機械学習部が、上記学習用データ取得部により取得された上記学習用データを用いて機械学習を行うことにより、上記ＩＰアドレスおよび上記属性情報を入力とし、上記接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力とする判定モデルを生成する第２のステップとを有し、
上記属性情報は、上記ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む
ことを特徴とする判定モデル生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、不正検知装置、不正検知方法および判定モデル生成方法に関し、特に、ＩＰアドレスを利用して不審者からの不正なアクセスを検知するシステムに用いて好適なものである。

【背景技術】

【0002】

従来、ＩＰアドレスおよび他の情報を用いた機械学習により不正等を検知するシステムが知られている（例えば、特許文献１，２参照）。特許文献１に記載のシステムでは、セキュリティサーバの学習処理部において、接続元端末と接続先ホストとの間の通信ログに基づいて、接続先ホストのＩＰアドレス、接続先ホストのＩＰアドレスの保有国を示す情報など、および、接続先ホストの脅威の有無を学習データとして学習器を学習させる。接続先判定部は、新たに接続元端末が通信しようとしている接続先ホストのＩＰアドレス、接続先ホストのＩＰアドレスの保有国を示す情報などを学習済みの学習器に入力し、学習器の出力に基づいて、当該接続先ホストの脅威の有無を判定する。

【0003】

特許文献２に記載のシステムでは、セキュリティサーバの学習処理部において、接続元端末と接続先ホストとの間の通信ログに基づいて、接続元端末および接続先ホストのＩＰアドレス、接続先ホストのＩＰアドレスの保有国を示す情報を含む学習データを用いて、入力された学習データを復元して出力するように自己符号化器を学習させる。異常検出部は、対象接続元端末および対象接続先ホストのＩＰアドレス、接続先ホストのＩＰアドレスの保有国を示す情報を含む対象入力データを学習済みの自己符号化器に入力し、対象入力データと自己符号化器の出力である対象出力データとを比較することで、接続元端末からの不正通信を検出する。

【0004】

ところで、近年、国際的なマネー・ローンダリングやテロ資金供与の防止強化の要請が強まるなか、金融庁発行によるマネロン・テロ資金供与のガイドラインが改定され、不審者から金融機関のシステムに対するアクセスの特定または把握が強く求められている。現在、多くの金融機関で取引モニタリングシステムが利用され、取引に疑わしい点があるか否か、取引者が制裁対象者に該当するか否かといった分析が行われているが、誤検知が多いという問題が指摘されている。

【0005】

上記特許文献２に記載のシステムは、接続元端末からの不正通信を検出することを目的としたものであり、これを金融機関のシステムに対する不正アクセスの検知（不審者からのアクセスか否かの検知）に適用することが考えられる。しかしながら、特許文献２に記載のシステムでは、接続元端末からの通信が有った場合に、それがマルウェアによる通信であるか否かを判定することは可能であるが、不審者からのアクセスか否かを検知することには向かない。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２１－１７５０９５号公報

【特許文献2】特開２０２１－１８９７２１号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、このような問題を解決するために成されたものであり、不審者からの不正アクセスの検知精度を向上させることができるようにすることを目的とする。

【課題を解決するための手段】

【0008】

上記した課題を解決するために、本発明では、判定対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を判定用データとして学習済みの判定モデルに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。属性情報は、ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含み、判定モデルは、判定用データが入力された際に不正リスク値を出力するように、ＩＰアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成される。

【発明の効果】

【0009】

上記のように構成した本発明によれば、不審者からの不正アクセスの検知精度を向上させることができる。すなわち、マネー・ローンダリングやテロ資金供与などの目的で不審者が金融機関のシステムにアクセスしようとする場合には、通常とは異なる回線事業者またはプロバイダが利用される可能性があるため、ＩＰアドレスから回線事業者またはプロバイダを判定できない可能性が高くなる。よって、ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む学習用データを用いて機械学習された判定モデルを使い、当該判定精度を表す情報を含む判定用データを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることが可能である。

【図面の簡単な説明】

【0010】

【図1】本実施形態による不正検知装置の機能構成例を示すブロック図である。

【図2】通信ログデータ記憶部に記憶される通信ログデータのデータ項目を示す図である。

【図3】属性情報記憶部に記憶される属性情報のデータ項目を示す図である。

【図4】主成分分析により得られる分布の一例を模式的に示す図である。

【図5】本実施形態によるモデル生成装置の機能構成例を示すブロック図である。

【図6】本実施形態によるモデル生成装置の動作例を示すフローチャートである。

【図7】本実施形態による不正検知装置の動作例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による不正検知装置の機能構成例を示すブロック図である。図１に示すように、本実施形態の不正検知装置１０は、機能構成として、判定用データ取得部１１および不正判定部１２を備えている。判定用データ取得部１１は、より具体的な機能構成として、ＩＰアドレス取得部１１ａ、属性情報取得部１１ｂおよび前処理部１１ｃを備えている。また、不正判定部１２は、より具体的な機能構成として、判定モデル１２ａを備えている。

【0012】

上記機能ブロック１１，１２は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック１１，１２は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

【0013】

また、本実施形態の不正検知装置１０には、通信ログデータ記憶部１０１および属性情報記憶部１０２が接続されている。不正検知装置１０と通信ログデータ記憶部１０１および属性情報記憶部１０２との間は、ＬＡＮ（Local Area Network）またはインターネット等の通信ネットワークを介して接続される構成であってもよいし、接続ケーブルを介して接続される構成であってもよい。あるいは、不正検知装置１０が通信ログデータ記憶部１０１および属性情報記憶部１０２を内蔵する構成であってもよい。また、図１では、通信ログデータ記憶部１０１と属性情報記憶部１０２とを別のデータベースとして構成する例を示しているが、通信ログデータと属性情報とを１つのデータベースに集約して記憶するようにしてもよい。

【0014】

通信ログデータ記憶部１０１は、接続元端末から通信ネットワークを介して接続先（例えば、サーバ装置、端末、ウェブサイトなど）に対して通信が行われるときに使用される接続元端末のＩＰアドレスを、その通信が行われた日時を示す時刻情報と共に履歴として記憶する。ここで、通信ログデータ記憶部１０１は、接続先を識別可能な状態で通信ログデータを通信ログデータ記憶部１０１に記憶する。例えば、通信ログデータを接続先別に分けて記憶する。図２は、通信ログデータ記憶部１０１に記憶される通信ログデータの１レコードのデータ項目を示す図である。図２に示すように、通信ログデータ記憶部１０１は、接続元端末のＩＰアドレスを通信の時刻情報に関連付けて記憶する。

【0015】

なお、通信ログデータ記憶部１０１に対する通信ログデータの記録は、図示しないログ収集サーバによって行われる。通信ネットワーク上では、各地にいる多くのユーザが、それぞれのユーザ端末から所望のタイミングで所望のウェブサイトにアクセスしてコンテンツを閲覧したり、他のユーザ端末またはサーバ装置などとの間でコミュニケーションやデータ取得などの各種通信を行ったりしている。ログ収集サーバは、これらの通信に使用される接続元端末のＩＰアドレスを、例えばあらかじめ指定した接続先へのアクセスを検知する毎に逐次取得し、取得したときの時刻情報と共に通信ログデータ記憶部１０１に逐次記録する。これにより、通信ログデータ記憶部１０１には、ＩＰアドレスと時刻情報とのセットが通信ログデータとして記憶される。

【0016】

属性情報記憶部１０２は、通信ログデータ記憶部１０１に記憶されているＩＰアドレスに対応する属性情報を記憶する。ＩＰアドレスに対応する属性情報とは、ＩＰアドレスに対する逆引きなどの解析によって特定される情報である。この解析は、ログ収集サーバがＩＰアドレスを取得する都度実施するようにしてもよいし、通信ログデータ記憶部１０１にＩＰアドレスが記憶された後の任意のタイミングで実施するようにしてもよい。また、この解析は、ログ収集サーバが行ってもよいし、これとは異なる解析サーバが行ってもよい。

【0017】

図３は、属性情報記憶部１０２に記憶される属性情報の１レコードのデータ項目を示す図である。図３に示すように、属性情報記憶部１０２は、接続元端末のＩＰアドレスおよび通信の時刻情報に関連付けて、地域情報（国、都道府県および市町村）、組織情報、通信を行う際に利用された通信回線の回線事業者および判定精度の情報を属性情報として記憶する。属性情報記憶部１０２のあるレコードに記憶されるＩＰアドレスおよび時刻情報の値は、通信ログデータ記憶部１０１のあるレコードに記憶されるＩＰアドレスおよび時刻情報の値と一致したものである。

【0018】

接続元端末のＩＰアドレスは、所定ビット数から成る数値データであり、世界中に存在する端末のネットワーク上における住所を示している。このＩＰアドレスは、ドメインネーム、例えば「～．プロバイダ名．ｎｅ．ｊｐ」、「～．会社名．ｃｏ．ｊｐ」などのような、ある種の意味を含む文字列に１対１の対応で相互に変換可能である。すなわち、ＩＰアドレスは、オリジナル・ドメインを有する特定のサーバと１対１に対応している。

【0019】

さらに、オリジナル・ドメインを有する特定のサーバは、全世界のドメインを管理する機関であるＮＩＣ（Network Information Center）や、日本のドメインを管轄するＪＰＮＩＣなどで得られる情報から、いずれの国のどの地域のどこに住所を有するかが明らかにされている。ログ収集サーバまたは解析サーバは、このＮＩＣやＪＰＮＩＣなどで得られる情報をもとに複数のＩＰアドレスを地域別に分類した地域別アドレス分類データベース（図示せず）をあらかじめ備えている。この地域別アドレス分類データベースは、国、地方、県、市町村などの階層により区分して地域情報を格納することが可能である。

【0020】

これにより、ログ収集サーバまたは解析サーバは、例えば、接続元端末のＩＰアドレスからオリジナル・ドメインのサーバを特定した上で、ＩＰアドレスをキーとして地域別アドレス分類データベースを参照することにより、ＩＰアドレスが使われている接続元端末の地域を表す地域情報を取得することが可能である。

【0021】

なお、大多数の個人ユーザが利用するインターネット・サービス・プロバイダ（ＩＳＰ）は、多数のユーザが全国各地から利用するため、多数の地域に設けられたアクセスポイントごとに、多数のＩＰアドレスを管理している。ログ収集サーバまたは解析サーバは、ＩＳＰが所有するアクセスポイントごとのＩＰアドレスを地域別に分類した地域別ＩＳＰアドレス分類データベース（図示せず）をあらかじめ備えることが可能である。そのため、この地域別ＩＳＰアドレス分類データベースを参照することにより、ＩＳＰが所有する各アクセスポイントがいずれの国のどの地域のどこに存在するかを特定可能である。

【0022】

よって、ログ収集サーバまたは解析サーバは、例えば、接続元端末のＩＰアドレスに基づいて、通信がＩＳＰのいずれのアクセスポイントを経由したものであるかを判別した上で、通信経路の始端に近いアクセスポイントのＩＰアドレスをキーとして地域別ＩＳＰアドレス分類データベースを参照することにより、接続元端末のＩＰアドレスに対応する属性情報として地域情報を取得することが可能である。ＩＳＰをダイヤルアップＩＰ接続により利用している大多数の個人ユーザが使用するＩＰアドレスは、アクセスするごとに変動するが、そのようなＩＰアドレスからも接続元端末に対応する地域情報を取得することが可能である。

【0023】

また、ログ収集サーバまたは解析サーバは、以下のようにして地域情報を取得することも可能である。すなわち、ログ収集サーバまたは解析サーバは、接続元端末のＩＰアドレスに対応するドメインネームを取得し、ドメインネームを構成する文字列からプロバイダ名を判定するとともに、ドメインネームを構成する文字列からホストネームを抽出する。そして、プロバイダごとにホストネームを地域別に分類した地域別ホストネーム分類データベースを参照して、上記抽出したホストネームから地域情報を取得するようにする。

【0024】

また、ＩＰアドレスに対応するドメインネームは、ホストネーム、組織名、組織属性、国名の階層構造をなしている。例えば、ドメインネームが「ｗｗｗ．ｘｘｘ．ｃｏ．ｊｐ」であれば、ｗｗｗがホストネーム、ｘｘｘが組織名、ｃｏが組織属性、ｊｐが国名と判別することができる。プロバイダのアクセスポイントのドメインネームの場合にも、同様に判別が可能である。したがって、ログ収集サーバまたは解析サーバは、接続元端末のＩＰアドレスから変換したドメインネームをもとに、ＩＰアドレスが使われている接続元端末の保有組織を表す組織情報（企業名など）を取得することも可能である。

【0025】

さらに、プロバイダがどの回線事業者の通信回線を利用してサービスを提供しているかの情報を記録したデータベースが公開されている場合には、ログ収集サーバまたは解析サーバは、接続元端末のＩＰアドレスから変換されるドメインネームを構成する文字列をもとにプロバイダを特定した上で、上記のデータベースを参照することにより、回線事業者を推定することも可能である。

【0026】

また、公知の「traceroute」というネットワークコマンドを用いてネットワーク経路を調査することにより、回線事業者を推定することも可能である。接続元端末のＩＰアドレスを引数としてこのネットワークコマンドを用いると、接続元端末から送信先端末までのネットワーク経路がリスト表示される。ネットワーク経路上に存在するサーバ名やドメイン名が回線事業者ごとに異なる傾向にあるため、調査されたリストに含まれるサーバ名やドメイン名から回線事業者を推定することが可能である。

【0027】

このように、ＩＰアドレスの逆引きまたはネットワーク経路の調査を行うことにより、その通信において利用されている通信回線の回線事業者をある程度は推定することが可能である。ただし、どのＩＰアドレスからも完全に回線事業者を明確に判定できるわけではない。属性情報の１つとして記憶される判定精度は、逆引きまたはネットワーク経路の調査によって推定された回線事業者の確からしさを示す情報である。

【0028】

例えば、ＩＰアドレスから回線事業者を明確に判別できた場合は、判定精度の値を“１”とする。一方、ＩＰアドレスから回線事業者を全く判別できなかった場合は、判定精度の値を“０”とする。また、ＩＰアドレスから回線事業者を明確に判別できなかったものの、ＩＰアドレスが個人ではなく組織（企業や団体など）で使われていることを判定することができた場合、組織で使われる可能性の高い回線事業者をＩＰアドレスに関連付けた上で、判定精度の値を“０．５”とする。

【0029】

組織はプロバイダとの契約により、アクセスのたびにＩＰアドレスが変わることのない固定ＩＰアドレスを利用することが多い。また、ＩＰアドレスから変換可能なドメインネームに組織名が使われることも多い。そのため、ＩＰアドレスから組織を特定できる可能性は、回線事業者を特定できる可能性に比べて高いと言える。一方、回線事業者の中には組織向け（法人向け）のサービスを提供しているものがあり、組織はそのような組織向けサービスを契約して通信回線を利用することが比較的多い。

【0030】

よって、ＩＰアドレスから逆引き等によって組織を特定することができれば（特定の組織まで判別できなくても、少なくともＩＰアドレスが組織で使われていることが判別できればよい）、その組織が利用している可能性のある回線事業者をある程度推定することが可能である。ただし、回線事業者を具体的に特定できているわけではないので、判定精度の値は“１”と“０”との間の値、例えば“０．５”とする。なお、ここに示した判定精度の値の決定方法は一例であり、これに限定されるものではない。

【0031】

ログ収集サーバまたは解析サーバは、以上のようにして取得した地域情報、組織情報、回線事業者および判定精度の情報を、それぞれＩＰアドレスの属性情報として、ＩＰアドレスおよび通信の時刻情報と関連付けて属性情報記憶部１０２に記憶する。例えば、ログ収集サーバは、ＩＰアドレスを取得するたびに同様の処理を繰り返すことにより、ＩＰアドレス、時刻情報、地域情報、組織情報、回線事業者および判定精度の情報を１レコードに含む属性情報を属性情報記憶部１０２に逐次格納する。あるいは、解析サーバは、通信ログデータ記憶部１０１に記憶された複数のＩＰアドレスに対して同様の処理を実行することにより、各ＩＰアドレスに対応する属性情報を属性情報記憶部１０２の複数のレコードに格納する。なお、地域情報、組織情報、回線事業者のうち、逆引き等によって推定できなかったものについてはそのレコードにＮＵＬＬ値が記録される。

【0032】

ここでは、回線事業者および判定精度の情報をＩＰアドレスに対応する属性情報として属性情報記憶部１０２に記憶する例を説明したが、回線事業者に代えてまたは加えてプロバイダの情報を属性情報として記憶するようにしてもよい。プロバイダについても、上述したようにＩＰアドレスからの逆引きによって解析することが可能であり、回線事業者の場合と同様に判定精度を解析することが可能である。

【0033】

判定用データ取得部１１は、判定対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を判定用データとして取得する。すなわち、ＩＰアドレス取得部１１ａが通信ログデータ記憶部１０１から接続元端末のＩＰアドレスを取得するとともに、属性情報取得部１１ｂが属性情報記憶部１０２から属性情報を取得し、取得したＩＰアドレスおよび属性情報に対して前処理部１１ｃが所定の前処理を行うことにより、判定用データを取得する。

【0034】

ＩＰアドレス取得部１１ａは、通信ログデータ記憶部１０１に記憶されている通信ログデータの中から、不正検知の処理対象とする一部のＩＰアドレスを抽出する。例えば、ＩＰアドレス取得部１１ａは、不正検知を行いたいユーザ（例えば、接続先のサーバ装置、端末またはウェブサイトの運用を管理する企業など）の不正検知装置１０に対する指定操作に基づいて、ユーザが指定する特定の接続先に関する通信ログデータを対象としてＩＰアドレスを抽出する。また、任意の企業を指定して、指定企業に関する通信ログデータを対象としてＩＰアドレスを抽出するようにしてもよい。例えば、通信ログデータの蓄積量が多い方から複数の接続先または企業を指定してＩＰアドレスを抽出することが可能である。

【0035】

また、ＩＰアドレス取得部１１ａは、通信ログデータの時刻情報に基づいて、特定の接続先または企業に関する通信ログデータの中から、一部の期間のＩＰアドレスを抽出するようにしてもよい。例えば、あらかじめ定めた所定期間（例えば、現在から直近の所定期間）のＩＰアドレスを抽出することが可能である。あるいは、ユーザの不正検知装置１０に対する指定操作に基づいて、ユーザが指定する任意の期間のＩＰアドレスを抽出するようにしてもよい。

【0036】

属性情報取得部１１ｂは、ＩＰアドレス取得部１１ａにより取得されるＩＰアドレスおよびそれに対応する時刻情報と同じＩＰアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部１０２から抽出する。

【0037】

前処理部１１ｃは、例えば、以上のようにしてＩＰアドレス取得部１１ａおよび属性情報取得部１１ｂにより取得されたＩＰアドレスおよび属性情報の中から、ユニーク数が多いＩＰアドレスや、非営利団体などのために用意されたorgドメインのＩＰアドレスなどを削除するとともに、削除したＩＰアドレスに対応して取得された属性情報を削除する。その他、マネー・ローンダリングやテロ資金供与を行う際に接続元端末のＩＰアドレスとして使用される可能性の低いことが想定されるものがある場合は、そのようなＩＰアドレスおよびそれに対応する属性情報を削除するようにしてもよい。

【0038】

なお、属性情報取得部１１ｂは、ＩＰアドレス取得部１１ａにより取得されたＩＰアドレスの中から不要なＩＰアドレスが前処理部１１ｃにより削除された後に、残ったＩＰアドレスおよびそれに対応する時刻情報と同じＩＰアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部１０２から抽出するようにしてもよい。

【0039】

前処理部１１ｃは、以上のように不要なＩＰアドレスおよび属性情報を削除した後、文字列から成る複数種類の属性情報（地域情報、組織情報、回線事業者）をそれぞれ所定のルールに基づいて数値化（カテゴリ変数化を含む）する。ルールの内容は任意であり、カウントエンコーディングなどの公知技術を利用することも可能である。数値化のルールは、属性情報の種類ごとに異なるものを用いてもよい。さらに、前処理部１１ｃは、属性情報から変換した数値の標準化を行う。この標準化は、複数種類の属性情報ごとに、数値の平均を“０”、分散を“１”にするための処理である。

【0040】

なお、属性情報の数値化および標準化は、不正判定部１２において主成分分析を行うために必要な前処理である。不正判定部１２において、主成分分析以外の方法により属性情報の特徴量を抽出する処理を行うことも可能であり、前処理部１１ｃにおいて属性情報の数値化および標準化の処理を行うことを必須とするものではない。

【0041】

不正判定部１２は、判定用データ取得部１１により取得された判定用データ（前処理部１１ｃにより前処理が行われたＩＰアドレスおよび属性情報）を学習済みの判定モデル１２ａに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。判定モデル１２ａは、判定用データが入力された際に不正リスク値を出力するように、ＩＰアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成されている。この機械学習処理については、図５を用いて後述する。

【0042】

本実施形態において、判定モデル１２ａは、判定用データに含まれる属性情報（数値化および標準化されたもの）を主成分分析することによって次元圧縮し、当該次元圧縮により求められた変数の分布におけるクラスタからの乖離度に基づいて不正リスク値を出力するように構成されている。クラスタは、互いに共通性を有する多数の属性情報に対応する変数から形成される可能性が高い。一方、ある変数についてクラスタからの乖離度が大きくなるほど、その変数は他との共通性が少ない属性情報に対応するものである可能性が高い。よって、クラスタからの乖離度が大きい変数を特定することにより、それが異常なものである、つまり通常のアクセスとは異なる不正または不審なアクセスによるものであると推定することが可能である。

【0043】

上述のように、属性情報は、地域情報（国、都道府県および市町村）、組織情報、回線事業者および判定精度の情報を含む多次元の情報である。判定モデル１２ａは、この多次元の情報を主成分分析し、例えば第１主成分および第２主成分の２変数から成る２次元の情報に次元圧縮する。さらに、判定モデル１２ａは、複数のＩＰアドレスごとに求めた２変数に関する２次元空間の分布において、あるＩＰアドレスに対応する属性情報の２変数で特性される位置が、多数のＩＰアドレスに対応する属性情報の２変数で特性される位置により形成されるクラスタからどの程度乖離しているのかを示す乖離度に基づいて、当該あるＩＰアドレスについて乖離度に応じた不正リスク値を出力する。

【0044】

図４は、主成分分析により得られる分布の一例を模式的に示す図である。この図４は、第１主成分を横軸、第２主成分を縦軸とした２次元空間において、判定用データに含まれる属性情報から求めた２変数で特性される位置（ドット）の分布を示している。図４に示す例では、２次元空間の左寄りの領域に、多数のドットが密集して成るクラスタ４１が形成されている。それ以外の位置にあるドットは、クラスタを形成するものではなく、クラスタ４１から離れた位置に存在し、クラスタ４１からの距離はまちまちである。

【0045】

図４に示すような分布の場合、判定モデル１２ａは、多くのドットが密集しているクラスタ４１を基準として、このクラスタ４１からドットがどの程度乖離しているのかを示す乖離度、つまり２次元空間上の距離に基づいて、乖離度に応じた不正リスク値をドットごとに出力する。例えば、クラスタ４１に属するドットについては、不正リスク値を“０”とする。クラスタ４１に属しないドットについては、クラスタ４１からの距離が大きくなるほど不正リスク値を大きくする。各ドットについて出力される不正リスク値は、各ＩＰアドレスに対応する不正リスク値となる。

【0046】

なお、ここでは２次元空間における分布に基づくクラスタからの乖離度に応じた不正リスク値を出力する例について説明したが、図４のような分布図を作成することを要するものではない。例えば、判定モデル１２ａは、属性情報から次元圧縮により求めた変数に対してIsolation Forestによる分析を行い、決定木のルートノードからリーフノードに辿り着くまでの階層が浅いほど大きな不正リスク値を出力し、リーフノードに辿り着くまでの階層が深いほど小さな不正リスク値を出力するようにしてもよい。Isolation Forestによる分析においても、クラスタからの乖離度と実質的に同じ分析を行うことが可能である。

【0047】

また、ここでは主成分分析によって属性情報を２次元の情報に次元圧縮する例を説明したが、第１主成分、第２主成分および第３主成分の３変数から成る３次元の情報に次元圧縮するようにしてもよい。

【0048】

不正判定部１２は、判定モデル１２ａから出力されるＩＰアドレスごとの不正リスク値を、対応するＩＰアドレスに関連付けて出力する。これにより、大きな不正リスク値に対応するＩＰアドレスを、不審者による接続元端末からの不正なアクセスに使用されたＩＰアドレスであると推定することができる。ここで、不正判定部１２は、判定モデル１２ａから出力されるＩＰアドレスごとの不正リスク値のうち、所定の閾値より大きい不正リスク値のみをそれに対応するＩＰアドレスと共に出力するようにしてもよい。

【0049】

図５は、判定モデル１２ａを生成する本実施形態によるモデル生成装置の機能構成例を示すブロック図である。図５に示すように、本実施形態のモデル生成装置２０は、機能構成として、学習用データ取得部２１および機械学習部２２を備えている。学習用データ取得部２１は、より具体的な機能構成として、ＩＰアドレス取得部２１ａ、属性情報取得部２１ｂおよび前処理部２１ｃを備えている。

【0050】

上記機能ブロック２１，２２は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック２１，２２は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

【0051】

また、本実施形態のモデル生成装置２０には、上述した通信ログデータ記憶部１０１および属性情報記憶部１０２の他、判定モデル記憶部１０３が接続されている。モデル生成装置２０と通信ログデータ記憶部１０１、属性情報記憶部１０２および判定モデル記憶部１０３との間は、ＬＡＮまたはインターネット等の通信ネットワークを介して接続される構成であってもよいし、接続ケーブルを介して接続される構成であってもよい。あるいは、モデル生成装置２０が通信ログデータ記憶部１０１、属性情報記憶部１０２および判定モデル記憶部１０３を内蔵する構成であってもよい。

【0052】

学習用データ取得部２１は、学習対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を学習用データとして取得する。すなわち、ＩＰアドレス取得部２１ａが通信ログデータ記憶部１０１から接続元端末のＩＰアドレスを取得するとともに、属性情報取得部２１ｂが属性情報記憶部１０２から属性情報を取得し、取得したＩＰアドレスおよび属性情報に対して前処理部２１ｃが所定の前処理を行うことにより、学習用データを取得する。

【0053】

ＩＰアドレス取得部２１ａは、通信ログデータ記憶部１０１に記憶されている通信ログデータの中から、全てのＩＰアドレスを抽出するようにしてもよいし、一部のＩＰアドレスを抽出するようにしてもよい。判定用データ取得部１１が備えるＩＰアドレス取得部１１ａとの違いは、ＩＰアドレス取得部１１ａの場合は不正検知の処理対象とする一部のＩＰアドレスのみを抽出するのに対し、ＩＰアドレス取得部２１ａの場合はより多くのＩＰアドレスを抽出するという点である。判定モデル１２ａの生成精度を向上させるためには、多くの学習用データを用いて機械学習を行うことが必要である。例えば、一部のＩＰアドレスを抽出するとしても、特定の接続先に関する通信ログデータに限らず、複数の接続先に関する通信ログデータからＩＰアドレスを抽出する。また、ＩＰアドレス取得部１１ａの場合よりも長い期間のＩＰアドレスを抽出する。

【0054】

属性情報取得部２１ｂは、ＩＰアドレス取得部２１ａにより取得されるＩＰアドレスおよびそれに対応する時刻情報と同じＩＰアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を属性情報記憶部１０２から抽出する。前処理部２１ｃは、以上のようにしてＩＰアドレス取得部２１ａおよび属性情報取得部２１ｂにより取得されたＩＰアドレスおよび属性情報に対して、判定用データ取得部１１が備える前処理部１１ｃと同様の前処理を行う。

【0055】

機械学習部２２は、学習用データ取得部２１により取得された学習用データを用いて機械学習を行うことにより、ＩＰアドレスおよび属性情報（前処理部２１ｃにより前処理が行われたもの）を入力とし、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力とする判定モデル１２ａを生成する。ここで、互いに共通性の大きい属性情報については分布上でクラスタが形成されやすく、共通性が小さい属性情報についてはクラスタから乖離されやすくなるように、判定モデル１２ａのパラメータが機械学習により調整される。機械学習部２２は、生成した判定モデル１２ａを判定モデル記憶部１０３に記憶する。判定モデル記憶部１０３に記憶された判定モデル１２ａが、不正検知装置１０の不正判定部１２にデプロイされる。

【0056】

図６は、モデル生成装置２０の動作例を示すフローチャートである。まず、ＩＰアドレス取得部２１ａは、通信ログデータ記憶部１０１から接続元端末のＩＰアドレスを学習用データとして取得する（ステップＳ１）。次いで、属性情報取得部２１ｂは、ＩＰアドレス取得部２１ａにより取得されたＩＰアドレスおよびそれに対応する時刻情報と同じＩＰアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を学習用データとして属性情報記憶部１０２から抽出する（ステップＳ２）。

【0057】

次に、前処理部２１ｃは、以上のようにしてＩＰアドレス取得部２１ａおよび属性情報取得部２１ｂにより取得されたＩＰアドレスおよび属性情報に対して、所定の前処理を行う（ステップＳ３）。そして、機械学習部２２は、前処理されたＩＰアドレスおよび属性情報を学習用データとして用いた機械学習を行うことにより、ＩＰアドレスおよび属性情報が入力されたときに不正リスク値を出力するように構成された判定モデル１２ａを生成する（ステップＳ４）。以上により、図６に示す機械学習の処理が終了する。

【0058】

図７は、不正検知装置１０の動作例を示すフローチャートである。まず、ＩＰアドレス取得部１１ａは、判定対象とする接続元端末のＩＰアドレスを通信ログデータ記憶部１０１から判定用データとして取得する（ステップＳ１１）。次いで、属性情報取得部１１ｂは、ＩＰアドレス取得部１１ａにより取得されたＩＰアドレスおよびそれに対応する時刻情報と同じＩＰアドレスおよび同じ時刻情報に関連付けて記憶されている属性情報を判定用データとして属性情報記憶部１０２から抽出する（ステップＳ１２）。

【0059】

次に、前処理部１１ｃは、以上のようにしてＩＰアドレス取得部１１ａおよび属性情報取得部１１ｂにより取得されたＩＰアドレスおよび属性情報に対して、所定の前処理を行う（ステップＳ１３）。そして、不正判定部１２は、前処理されたＩＰアドレスおよび属性情報を学習済みの判定モデル１２ａに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する（ステップＳ１４）。以上により、図７に示す不正検知の処理が終了する。

【0060】

以上詳しく説明したように、本実施形態では、判定対象の通信ログデータから抽出される接続元端末のＩＰアドレス、および、当該ＩＰアドレスに関連付けられた属性情報を判定用データとして学習済みの判定モデル１２ａに入力し、接続元端末からのアクセスが不審者によるものか否かを示す不正リスク値を出力する。ここで、属性情報は、ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む。判定モデル１２ａは、判定用データが入力された際に不正リスク値を出力するように、ＩＰアドレスおよび属性情報を含む学習用データを用いた機械学習処理により生成される。

【0061】

上記のように構成した本実施形態によれば、不審者からの不正アクセスの検知精度を向上させることができる。すなわち、マネー・ローンダリングやテロ資金供与などの目的で不審者が金融機関のシステムにアクセスしようとする場合には、通常とは異なる回線事業者またはプロバイダが利用される可能性があるため、ＩＰアドレスから回線事業者またはプロバイダを判定できない可能性が高くなる。よって、ＩＰアドレスから関連付けられた回線事業者またはプロバイダの判定精度を表す情報を含む学習用データを用いて機械学習された判定モデル１２ａを使い、当該判定精度を表す情報を含む判定用データを用いて判定を行うことにより、不審者からの不正アクセスの検知精度を向上させることが可能である。

【0062】

属性情報の１つとして含まれる地域情報も、マネー・ローンダリングやテロ資金供与などを目的とする不審者による不正アクセスを検知するのに有用な情報である。マネー・ローンダリングやテロ資金供与などは、国外の接続元端末から国内の接続先にアクセスされることが多い傾向にある。そのため、国外（特に、現出頻度の少ない国）であることが示されている地域情報が関連付けられているＩＰアドレスについては、不正リスク値が大きめの値になる。

【0063】

なお、属性情報は、ＩＰアドレスの匿名化サービスの利用の有無を表す情報を更に含むものとしてもよい。ＩＰアドレスの匿名化とは、本来のＩＰアドレスとは異なるＩＰアドレスを使うことで、本来のＩＰアドレスを知られないようにする仕組みである。ＩＰアドレスの匿名化の有無を示す情報は、回線事業者の判定精度と関連度が高いパラメータと言える。匿名化サービスを利用しているＩＰアドレスからは殆ど回線事業者を特定することができず、判定精度の値は“０”となるからである。

【0064】

ここで、通信ログデータに含まれるＩＰアドレスが匿名化サービスを利用しているものか否かは、例えば以下の方法で解析することが可能である。例えば、ある匿名化サービスを提供している事業者の場合、匿名化サービスを利用しているＩＰアドレスの末尾の値を所定の値に置き換えることにより、本来のＩＰアドレスを匿名化している。よって、ＩＰアドレスの末尾の値が所定の値か否かを確認することにより、匿名化サービスを利用しているＩＰアドレスか否かを推定することが可能である。

【0065】

また、特定のＶＰＮサービスに加入し、海外のＶＰＮサーバに接続することによってその国の仮想ＩＰアドレスを割り当てることにより、本来のＩＰアドレスを匿名化することも可能である。この場合、ＩＰアドレスからの逆引きによってＶＰＮが使われているか否かを確認することにより、匿名化サービスを利用しているＩＰアドレスか否かを推定することが可能である。例えば、ＶＰＮサービスの利用に使用されるＩＰアドレスの履歴等を記録したデータベースが存在する場合には、このデータベースを参照することにより、ＶＰＮサービスの使用の有無を判定することも可能である。なお、このことに鑑みて、属性情報は、匿名化サービスの利用の有無を表す情報に代えてまたは加えて、ＶＰＮの利用の有無を表す情報を更に含むものとしてもよい。

【0066】

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

【符号の説明】

【0067】

１０不正検知装置
１１判定用データ取得部
１１ａＩＰアドレス取得部
１１ｂ属性情報取得部
１１ｃ前処理部
１２不正判定部
１２ａ判定モデル
２０モデル生成装置
２１学習用データ取得部
２１ａＩＰアドレス取得部
２１ｂ属性情報取得部
２１ｃ前処理部
２２機械学習部

【図1】