IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャンハイ ヤムー コミュニケーション テクノロジー カンパニー リミテッドの特許一覧

特許7075348インターネットトラフィックの送信元と宛先の分析方法
<>
  • 特許-インターネットトラフィックの送信元と宛先の分析方法 図1a
  • 特許-インターネットトラフィックの送信元と宛先の分析方法 図1b
  • 特許-インターネットトラフィックの送信元と宛先の分析方法 図2a
  • 特許-インターネットトラフィックの送信元と宛先の分析方法 図2b
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-17
(45)【発行日】2022-05-25
(54)【発明の名称】インターネットトラフィックの送信元と宛先の分析方法
(51)【国際特許分類】
   H04L 67/1396 20220101AFI20220518BHJP
   H04L 61/4511 20220101ALI20220518BHJP
【FI】
H04L67/1396
H04L61/4511
【請求項の数】 6
(21)【出願番号】P 2018554481
(86)(22)【出願日】2016-08-17
(65)【公表番号】
(43)【公表日】2019-05-30
(86)【国際出願番号】 CN2016095672
(87)【国際公開番号】W WO2017177591
(87)【国際公開日】2017-10-19
【審査請求日】2018-10-11
【審判番号】
【審判請求日】2021-09-10
(31)【優先権主張番号】201610231212.X
(32)【優先日】2016-04-14
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】518361712
【氏名又は名称】ヤムー テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】YAMU TECHNOLOGY CO., LTD.
(74)【代理人】
【識別番号】100179969
【弁理士】
【氏名又は名称】駒井 慎二
(72)【発明者】
【氏名】ジャン ダーシュン
【合議体】
【審判長】角田 慎治
【審判官】林 毅
【審判官】野崎 大進
(56)【参考文献】
【文献】中国特許出願公開第105357054(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L67/1396
H04L61/4511
(57)【特許請求の範囲】
【請求項1】
DNSログを処理してインターネットトラフィックの送信元と宛先を取得するインターネットトラフィックの送信元と宛先の分析方法であって、
ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、
ソースIPタイムスタンプの差とに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、
を含み、
前記タイムスタンプの差に基づいてログを分割することは、
ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割されたDNSログにおいて、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストと、を区別する
ことを含む、
ことを特徴とするインターネットトラフィックの送信元と宛先の分析方法。
【請求項2】
ログフィルタリングステップにおいて、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去することを特徴とする請求項1に記載の分析方法。
【請求項3】
DNSログを除去することは、さらに、企業IPのアクセスするログを除去し、解析したIPがないログを除去することを含むことを特徴とする請求項2に記載の分析方法。
【請求項4】
ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することであることを特徴とする請求項3に記載の分析方法。
【請求項5】
前記所定時間の長さは3秒間であることを特徴とする請求項4に記載の分析方法。
【請求項6】
タイムスタンプの差に基づいてDNSログを分割するステップの後に、さらに、分割して取得されたアクセス経路中のドメイン名をドメインに変換し、連続的な同じドメインを併合して、前記ソースIPの経路を取得する併合ステップを含むことを特徴とする請求項5に記載の分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットDNSドメイン名解決の分野に関し、特にインターネットトラフィックの送信元と宛先の分析方法に関する。
【背景技術】
【0002】
いわゆるインターネットトラフィックの送信元と宛先とは、ユーザが先にアクセスしたウェブサイト、その後にアクセスしたウェブサイト等の一連のウェブサイトに対するアクセス経路を指す。如何にウェブサイトのトラフィックの送信元を確認するかについて、業界の主流方式は1種類のみとし、つまり、ウェブサイトのページにJavaScript監視コードを添加することである。最もよく使うのは、google analyticsと百度統計等の第三者検出ツールである。
【0003】
上記統計方法には、大きな限界があり、各ウェブサイトは、ゲストが前回アクセスした1つのウェブサイトだけを知ることができ、該ゲストがこの前にアクセスした複数のウェブサイトを知ることができず、さらに該ゲストが該ウェブサイトから離れてどのウェブサイトにアクセスしていくかを了解することができない。DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザがウェブサイトにアクセスすると、ブラウザにこのウェブサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。
【0004】
DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。しかしながら、ログには、多くの異常及び無効情報が含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。
【0005】
現在、市場には、インターネットゲストのアクセス経路全体をよく分析できる方法が存在しておらず、本発明は、この不足を補い、DNSログに対する再処理によりウェブサイトのトラフィックがそれぞれどのウェブサイトから由来するのか、離れた後にどのウェブサイトにアクセスしたかを分析する方法である。
【発明の概要】
【0006】
上記欠陥の存在に鑑みて、本発明は、インターネットトラフィックの送信元と宛先の分析方法を提供し、本発明の方法により、ログ中の非人為的なアクセス行為をできるだけクリアし、インターネットトラフィックの送信元と宛先を効果的に取得することができる。
【0007】
本発明のインターネットトラフィックの送信元と宛先の分析方法は、DNSログを処理してインターネットトラフィックの送信元と宛先を取得するインターネットトラフィックの送信元と宛先の分析方法であって、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、ソースIP、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、全ての前記分割後のアクセス経路を集約するデータ集約ステップとを含み、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割するDNSログに、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストを区別する
【0008】
好ましくは、ログフィルタリングステップにおいて、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。
【0009】
好ましくは、DNSログを除去することは、さらに、企業IPのアクセスするログの除去及びIPが解決されていないログの除去を含む。
【0010】
好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
【0011】
ましくは、前記所定時間の長さは3秒間である。
【0012】
好ましくは、タイムスタンプの差に基づいてDNSログを分割するステップの後に、さ
らに、分割して取得されたアクセス経路中のドメイン名をドメインに変換し、連続的な同
じドメインを併合して、前記ソースIPの経路を取得する併合ステップを含む。
【0014】
本発明の分析方法により、インターネットトラフィックの送信元と宛先を把握することが可能であり、ウェブサイトのトラフィックの分析及び最適化をよりよく支援でき、さらに、インターネット全体のトラフィックの流れ状況を全面的に了解することにより、全局的観点から分析すると共に、他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。
【図面の簡単な説明】
【0015】
図1a図1aは、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。
図1b図1bは、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。
図2a図2aは、本発明のインターネットトラフィックの送信元と宛先の分析方法により取得したトラフィックの送信元の概略図である。
図2b図2bは、本発明のインターネットトラフィックの送信元と宛先の分析方法により取得したトラフィックの送信元の概略図である。
【発明を実施するための形態】
【0016】
以下に、図面及び実施例を参照しながら、発明について詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。
【0017】
上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザがウェブサイトにアクセスすると、まず、ブラウザにこのウェブサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザは、このドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。
【0018】
上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
即ち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5部分の内容を含む。
【0019】
DNSログには、ユーザによって要求される全てのドメイン名情報が含まれるため、本発明者は、DNSログの再処理によりウェブサイトのトラフィックの送信元と宛先を分析することを想到する。しかしながら、DNSログには、多くの異常及び無効情報も含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。上記状況に応じて、本発明者は、ログ中の非人為的なアクセス行為をできるだけクリアすることにより、インターネットトラフィックの送信元と宛先を効果的に取得することを想到する。
【0020】
図1は、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。図1に示すように、本発明のインターネットトラフィックの送信元と宛先の分析方法は、以下のステップを含む。
【0021】
まず、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングする(ステップS1)。前述のように、DNSリクエストには、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない多くのドメイン名が含まれるため、クリアする必要がある。例えば、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。ブラックリストを設定することにより、サーバによって生成される非人為的なドメイン名リクエストを除去することができる。ホワイトリストを設定することにより、重視されるいくつかのドメイン名を保留することができる。ホワイトリストの優先順位は、ブラックリストより高い。また、DNSログを除去することは、さらに、企業IPのアクセスログの除去と、IPが解決されていないログの除去を含む。企業IPを除去するのは、企業IPが多人の同時アクセスログを生成して、個人アクセス経路に対する判断に影響を与えるからである。解決されていないIPを有するログを除去し、即ち、アクセスに失敗したログを除去する。異なる次元によりログをフィルタリングすることにより、ユーザの実際のアクセス経路を反映するDNSログを取得することができる。
【0022】
次に、ソースIPと、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のドメインを取得する(ステップS2)。
【0023】
詳細のステップは以下のとおりである。
1)ソースIPに基づいて分割する(ステップS21)。ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
例えば、ソースIP1.1.1.1とソースIP2.2.2.2が異なるソースIPであるため、ログを分割する。以下のとおりである。
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-----------------------------------------
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
【0024】
2)次に、ソースIPに基づいて分割されたログを、またタイムスタンプの差に基づいて分割する(ステップS22)。タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、この2つのDNSログを分割する(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。
【0025】
例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す)
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000015|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000019|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.a.com|201412110000024|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.b.com|201412110000029|180.***.***.107;180.***.***.108|0
【0026】
上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。20141211000009と201412110000015の間の差が6秒間であるため、分割される。
【0027】
上述したように、ログは、合計で6つのセグメントに分割された。第1セグメントのログ中のソースIP:2.2.2.2は、www.baidu.coma.qq.comb.baidu.comc.tanx.comc.allyes.comという5つのドメイン名にアクセスする。ユーザアクセス行為の判断方法により、ユーザが実際にwww.baidu.comのみにアクセスし、残りの4つのドメイン名がユーザによるwww.baidu.comのクリックに伴って生成するドメイン名リクエストであり、ユーザの実際のアクセス行為ではないことを得ることができる。従って、第1セグメントのログから、ユーザがwww.baidu.comというドメイン名にアクセスした経路を得ることができる。ここで言及されたユーザアクセス行為の判断方法は以下のとおりである。あるユーザがurlをクリックすると、現在のurlのドメイン名に加えて、幾つかの他のドメイン名も要求する。クローラー技術により、該urlのドメイン名リクエストをした後の全ての他のドメイン名リクエストを取得し、クロールした一連のドメイン名リクエストとDNSログから分割されたドメイン名セグメントをマッチングして、該DNSログとユーザが実際にアクセスしたドメイン名との対応関係を得ることができる。該方法で得られた対応関係から分かるように、該セグメントのログは、ユーザが実際にwww.baidu.comにアクセスしたことを反映する。第2セグメントのログは、www.sina.comのみを有するため、www.sina.comは、ユーザがアクセスしたドメイン名経路である。
【0028】
以上のログの経路をつなぐと、以下のとおりである。
www.baidu.com>www.sina.com>www.qq.com>www.qq.com>www.a.com>www.b.com
さらに、上記タイムスタンプの差に基づいて分割して取得された経路を同じドメインで併合するが、ここで、セカンドレベルドメインで併合し、併合後の結果は以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
上記経路は、該ソースIPの全てのアクセス行為中の一つの経路であり、このような規則に従って全てのソースIPの全てのアクセス経路を算出することができる。
【0029】
3)続いて、中央ドメインに基づいて、上記結果をさらに分割する(ステップS23)。中央ドメインは、ユーザ/システムの需要に応じて重点分析すべきドメインであり、即ちユーザがどこから中央ドメインに来たのか、その後に中央ドメインからどのドメインにアクセスしていくのかである。例えば、ログ中のa.comを中央ドメインとすると、以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
下は、前述のソースIPの一例としての4つの経路であり、かつ各経路中の中央ドメインの前3レイヤーの送信元ドメインのみを挙げ、中央ドメイン後の経路の処理ロジックと中央ドメイン前の経路を処理する処理ロジックが一致する。実際のレイヤー数は、具体的な要件に応じて調整することができる。また、図2(a)にも示されている。
送信元ドメイン3>送信元ドメイン2>送信元ドメイン1>中央ドメイン
経路1:baidu.com>sina.com>qq.com>a.com(中央ドメイン)
経路2:sina.com>baidu.com>qq.com>a.com(中央ドメイン)
経路3:youku.com>sina.com>baidu.com>a.com(中央ドメイン)
経路4:baidu.com>qq.com>youku.com>a.com(中央ドメイン)
【0030】
最後に、データ集約ステップにおいて、前述のソースIPの全ての4つのアクセス経路を集約する。集約図は、図2bに示されている。
中央ドメインの集約は、4つのa.comである。
送信元ドメイン1の集約は、2つのqq.com、1つのbaidu.com、1つのyouku.comである。
送信元ドメイン2の集約は、2つのsina.com、1つのbaidu.com、1つのqq.comである。
送信元ドメイン3の集約は、2つのbaidu.com、1つのsina.com、1つのyouku.comである。
【0031】
図2bのような可視化図から明らかなように、中央ドメインa.comにアクセスするユーザは、この前にどのドメインにアクセスしたか、これらのドメインの前にまたどのドメインにアクセスしたか、これによって類推する。
全てのソースIPをこのロジックで処理すると、インターネット全体のトラフィックの送信元と宛先の状況を分かることができる。
【0032】
本発明の上記方法により、分析すべき中央ドメイン名に基づいて、そのインターネットトラフィックの送信元と宛先を把握することにより、中央ドメイン名ウェブサイトのトラフィックの分析及び最適化をよりよく支援し、さらに、インターネット全体のトラフィックの流れ状況を完全に了解することにより、全局的観点から分析すると共に他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。
【0033】
以上の記載は、本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。

図1a
図1b
図2a
図2b