IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ カタール ファウンデーション フォー エデュケーション, サイエンス アンド コミュニティ ディベロップメントの特許一覧

特許7686667悪性ドメインホスティングタイプ分類システムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-23
(45)【発行日】2025-06-02
(54)【発明の名称】悪性ドメインホスティングタイプ分類システムおよび方法
(51)【国際特許分類】
   G06F 21/55 20130101AFI20250526BHJP
   G06F 16/906 20190101ALI20250526BHJP
【FI】
G06F21/55 320
G06F16/906
【請求項の数】 2
(21)【出願番号】P 2022562116
(86)(22)【出願日】2021-04-13
(65)【公表番号】
(43)【公表日】2023-06-19
(86)【国際出願番号】 QA2021050004
(87)【国際公開番号】W WO2021210998
(87)【国際公開日】2021-10-21
【審査請求日】2024-04-05
(31)【優先権主張番号】63/009,151
(32)【優先日】2020-04-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522396610
【氏名又は名称】カタール ファウンデーション フォー エデュケーション, サイエンス アンド コミュニティ ディベロップメント
【氏名又は名称原語表記】QATAR FOUNDATION FOR EDUCATION,SCIENCE AND COMMUNITY DEVELOPMENT
【住所又は居所原語表記】P.O.Box 5825 Doha QATAR
(74)【復代理人】
【識別番号】100143823
【弁理士】
【氏名又は名称】市川 英彦
(74)【代理人】
【識別番号】100232275
【弁理士】
【氏名又は名称】和田 宣喜
(72)【発明者】
【氏名】ナビール,モハメド
(72)【発明者】
【氏名】カリル,イッサ
(72)【発明者】
【氏名】ユ,ティング
【審査官】行田 悦資
(56)【参考文献】
【文献】国際公開第2018/163464(WO,A1)
【文献】特開2019-016115(JP,A)
【文献】特表2015-518198(JP,A)
【文献】米国特許出願公開第2018/0343272(US,A1)
【文献】LE PAGE, S. et al.,Domain Classifier: Compromised Machines Versus Malicious Registrations,Web Engineering, 19th International Conferenece, ICWE 2019,Springer,2019年04月26日,pp. 265-279,<DOI:10.1007/978-3-030-19274-7_20>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/55
G06F 16/906
(57)【特許請求の範囲】
【請求項1】
悪性ドメインホスティングタイプを分類するためのシステムであって、前記システムは、
ディスプレイと、
メモリと、
前記メモリと通信するプロセッサと、
を備え、
前記プロセッサは、
受信されたドメインのセットから悪性ドメインを識別し、
機械学習モデルを使用して、前記識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定し、
前記識別された悪性ドメインがプライベートドメインである場合、機械学習モデルを使用して、前記プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定し、
前記判定された悪性ドメインホスティングタイプを前記ディスプレイに表示し、前記判定された悪性ホスティングタイプは、悪性パブリックドメイン、危険にさらされたプライベートドメイン、または攻撃者が所有するプライベートドメインである
ように構成される、
システム。
【請求項2】
プロセッサにより実行される、悪性ドメインホスティングタイプを分類するための方法であって、
受信されたドメインのセットから悪性ドメインを識別するステップと、
機械学習モデルを使用して、前記識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定するステップと、
前記識別された悪性ドメインがプライベートドメインである場合、機械学習モデルを使用して、前記プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定するステップと、
前記判定された悪性ドメインホスティングタイプを表示するステップであって、前記判定された悪性ホスティングタイプは、悪性パブリックドメイン、危険にさらされたプライベートドメイン、または、攻撃者が所有するプライベートドメインである、ステップと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年4月13日に出願された米国仮出願第63/009,151号の優先権および利益を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本出願は、一般に、ドメイン分類に関する。より具体的には、本出願は、パブリックとプライベートの悪意のあるURLホスティングエイペックスドメインを区別する機械学習モデル上に構築されたソフトウェアベースの分類器を提供する。
【背景技術】
【0003】
毎週、何百万人ものユーザが悪意のあるウェブサイトにアクセスするように錯覚され、そこから悪意のある者が、フィッシング、スパム、およびマルウェアを含む様々な攻撃を開始する。悪意のあるウェブサイトを検出するための技術およびツールの近年の進歩にもかかわらず、多くの悪意のあるウェブサイトは、ダメージが発生した後、検出されないか、またはかなり後に検出される。この否定的な傾向の1つの重要な理由は、攻撃者が自身のドメインを登録する代わりに、彼らが所有していないインフラストラクチャ上で彼らのウェブサイトをますますホストしており、したがって現在の評価システムによる検出を回避していることである。悪意のあるウェブサイト、特に攻撃者によって登録されたフィッシングウェブサイトおよびマルウェアウェブサイトの検出は広く研究されているが、これらの悪意のあるウェブサイトがどのようにホストされているかを分析することはほとんど行われていない。悪意のあるURLがどのホスティングタイプから来ているかを早期に知ることは、セキュリティオペレータが適切なアクションを取るのに役立つ。
【0004】
悪意のあるウェブサイトに対する適切な軽減アクションは、そのサイトがどのようにホストされているかによって大きく異なり得る。それがプライベートエイペックスドメインの下でホストされ、そのすべてのサブドメインおよびページがエイペックスドメイン所有者の直接制御下にある場合、悪意のあるウェブサイトは、エイペックスドメインレベルでブロックされる可能性がある。それがパブリックエイペックスドメイン(例えば、ウェブホスティングサービスプロバイダ)下でホストされている場合、サブドメインレベルでブロックすることがより適切である。さらに、前者の場合、プライベートエイペックスドメインは、正当であるが危険にさらされる可能性があるか、または攻撃者によって生成される可能性があり、これもまた、異なる軽減動作を保証する。攻撃者が所有するエイペックスドメインは永続的にブロックされる可能性があるが、危険にさらされたドメインは一時的にのみブロックされる可能性がある。
【0005】
悪意のあるURLのホスティングタイプは、従来、ドメイン評価システムおよびブラックリストによって手動で検出される。例えば、Anti-Phishing Working Groupはそれらを識別し得る。複数のソースからのパブリックエイペックスドメインのリストが存在するが、それらは、一緒に組み合わされても完全ではない。さらに、これらのリストは、パブリックウェブホスティングおよびクラウドビジネスの高度に動的な性質のために最新ではないことが多い。したがって、悪意のあるURLが与えられた場合、パブリックエイペックスドメインでホストされているかどうかを判定するためにそのようなリストを単に調べることはできない。
【0006】
さらに、悪意のあるウェブサイトを、危険にさらされたまたは攻撃者が所有するエイペックスドメインでホストされているものとして分類する従来の手法は、所望されるほど効果的ではない。1つの従来の手法は、Alexaランキングなどのドメイン人気を考慮することである。一般に、危険にさらされたドメインにはいくらかの残存する評価および長命があるが、攻撃者が所有するドメインには低い評価および短命があると理解されている。しかしながら、VTにおける悪意のあるウェブサイトの発明者らの分析は、そのような観察結果が常に当てはまるとは限らないことを示している。Alexaランキングが高く、寿命が長い(例えば、linode.com、cleverreach.com)危険にさらされたドメインがあるが、本発明者らは、攻撃を開始するために攻撃者によって危険にさらされる、Alexaランキングが低いか、またはAlexaランキングがない(例えば、gemtown88.com、vanemery.com)、放棄されたか、またはほとんど維持されていない可能性が高い他の多くのドメインが存在することを観察している。さらに、新たに作成された良性ドメインは、上記の特性のいずれも有しておらず、実際に危険にさらされたとき、それらを攻撃者が所有するものとして誤ってラベル付けする可能性がある。一方、確かに、攻撃者によって作成された多くのドメインが非常に低いAlexaランキングを有して短命であることは事実であるが、洗練された攻撃者は、今日では、検出を回避するために、例えばそれらのドメインをしばらくの間(例えば、crackarea.com、estilo.com.ec)作成してパークすることによって、長命ドメインをますます利用する。さらに、攻撃者は、多くのリソースを必要とせずに、少なくとも短期的に自身のドメインの人気を人為的に高めることができる。したがって、人気および/または寿命のみに依存することは、これらの悪性ドメインの正確なラベリングをもたらさない。
【0007】
したがって、セキュリティを向上させるために、悪意のあるURLのホスティングタイプをより迅速かつ効率的に検出する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本出願は、パブリックおよびプライベートの2種類の悪意のあるURLホスティングエイペックスドメインを区別する機械学習モデル上に構築されたソフトウェアベースの分類器を提供する。この分類は、セキュリティ専門家が、どのドメインレベルをブロックするかを指定する、つまり、プライベートのエイペックスの場合はエイペックスドメイン全体、またはパブリックのエイペックスの場合は特定のサブドメインを指定するのに役立つ。少なくともいくつかの態様では、分類器は、攻撃者が所有するホスティングドメインを危険にさらされたホスティングドメインから区別する機械学習モデル上に構築される。この区別は、セキュリティオペレータが適切な軽減措置を講じるのを助けるために重要である。例えば、攻撃者が所有するドメインは永続的にブロックされるが、危険にさらされたドメインは一時的にブロックされる可能性がある。
【課題を解決するための手段】
【0009】
本明細書に記載の技術的特徴に照らして、限定するものではないが、特に明記しない限り任意の他の態様と組み合わせることができる本出願の開示の第1の態様では、システムは、ディスプレイと、プロセッサと通信するメモリとを含む。プロセッサは、受信されたドメインのセットから悪性ドメインを識別し;モデルを使用して、識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定し;識別された悪性ドメインがプライベートドメインである場合、モデルを使用して、プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定し;判定された悪性ドメインホスティングタイプをディスプレイに表示し、判定された悪性ホスティングタイプは、パブリックドメイン、危険にさらされたプライベートドメイン、または攻撃者が所有するプライベートドメインである、ように構成され得る。
【0010】
別段の指定がない限り任意の他の態様と組み合わせることができる、本出願の開示の第2の態様では、方法は、受信されたドメインのセットから悪性ドメインを識別するステップを含む。モデルを使用して、識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定し得る。識別された悪性ドメインがプライベートドメインである場合、モデルを使用して、プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定し得る。判定された悪性ドメインホスティングタイプは、表示され得る。この態様では、判定された悪性ホスティングタイプは、パブリックドメイン、危険にさらされたプライベートドメイン、または攻撃者が所有するプライベートドメインである。
【0011】
開示された方法および装置の追加の特徴および利点は、以下の詳細な説明および図面に記載され、それらから明らかにされよう。本明細書に記載の特徴および利点は、すべてを含むものではなく、特に、多くの追加の特徴および利点が、図面および説明を考慮すると当業者には明らかであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび説明目的のために選択されており、本発明の主題の範囲を限定するものではないことに留意されたい。
【図面の簡単な説明】
【0012】
図1】本開示の一態様による、悪性ドメインホスティングタイプ分類のための例示的なシステムのブロック図である。
【0013】
図2】本開示の一態様による、悪性ドメインホスティングタイプ分類のための例示的な方法のフローチャートである。
【0014】
図3】VT URLインテリジェンスとSAおよびGSBとの比較のグラフである。
【0015】
図4】ROC曲線のAUCがGT1について96%であることを示すグラフである。
【0016】
図5】ROC曲線のAUCがGT2について99%であることを示すグラフである。
【0017】
図6】本開示の一態様による、プライベートドメイン分類器が考慮に入れることができる5つの特徴グループの様々な特徴を示す表である。
【0018】
図7】本開示の一態様による、クラスラベル、ドメイン持続時間、スキャナカウント数、およびAlexaランクの相関行列を示す図である。
【0019】
図8】本開示の一態様による、プライベートドメイン分類器がランダムフォレスト分類器である例におけるROC曲線および特徴重要度を示すグラフである。
【0020】
図9】本開示の一態様による、プライベートドメイン分類器がランダムフォレスト分類器である一例についてのROC曲線を示すグラフである。
【0021】
図10】推定良性ドメインおよび悪性ドメインについての期間中のエイペックスごとのFQDNの数のCDFを示すグラフである。
【0022】
図11A】パブリックおよびプライベートの2つのカテゴリのエイペックスドメインについて、エイペックスごとのFQDNの数を示すグラフである。
【0023】
図11B】パブリックおよびプライベートのエイペックスドメインの平均Alexaランキング分布を示すグラフである。
【0024】
図11C】パブリックおよびプライベートのエイペックスドメインのドメイン寿命分布を示すグラフである。
【0025】
図12A】危険にさらされたドメインおよび攻撃者が所有するドメインについてのエイペックスごとの#FQDNを示すグラフである。
【0026】
図12B】危険にさらされたエイペックスドメインおよび攻撃者が所有するエイペックスドメインの平均Alexaランク分布を示すグラフである。
【0027】
図12C】危険にさらされたエイペックスドメインおよび攻撃者が所有するエイペックスドメインのドメイン寿命分布を示すグラフである。
【0028】
図13】本開示の一態様による、パブリックドメイン分類器で使用される特徴の特徴相関行列を示す図である。
【0029】
図14A】データセットGT1についてランダムフォレストベースのパブリックドメイン分類器の特徴重要度を示すグラフである。
【0030】
図14B】データセットGT2についてランダムフォレストベースのパブリックドメイン分類器の特徴重要度を示すグラフである。
【0031】
図15A】データセットGT1についてランダムフォレストベースのパブリックドメイン分類器のt-SNEを示すグラフである。
【0032】
図15B】データセットGT2についてランダムフォレストベースのパブリックドメイン分類器のt-SNEを示すグラフである。
【0033】
図16A】データセットGT1についてランダムフォレストベースのパブリックドメイン分類器の適合率-再現率を示すグラフである。
【0034】
図16B】データセットGT2についてランダムフォレストベースのパブリックドメイン分類器の適合率-再現率を示すグラフである。
【0035】
図17A】データセットGT1についてランダムフォレストベースのプライベートドメイン分類器140の特徴重要度を示すグラフである。
【0036】
図17B】データセットGT2についてランダムフォレストベースのプライベートドメイン分類器140の特徴重要度を示すグラフである。
【0037】
図18A】データセットGT1についてランダムフォレストベースのプライベートドメイン分類器140のt-SNEを示すグラフである。
【0038】
図18B】データセットGT2についてランダムフォレストベースのプライベートドメイン分類器140のt-SNEを示すグラフである。
【0039】
図19A】データセットGT1についてランダムフォレストベースのプライベートドメイン分類器140の適合率-再現率を示すグラフである。
【0040】
図19B】データセットGT2についてランダムフォレストベースのプライベートドメイン分類器140の適合率-再現率を示すグラフである。
【発明を実施するための形態】
【0041】
本出願は、新しい革新的な悪性ドメインホスティングタイプ分類システムおよび方法を提供する。悪意のあるURLがどのホスティングタイプから来ているかを早期に知ることは、セキュリティオペレータが適切なアクションを取るのに役立つ。パブリックエイペックスドメインとプライベートエイペックスドメインとの間の区別は、特に同じエイペックスドメインに属するサブドメインの関連付けに依存する場合、悪性ドメインの推論および予測に大きな影響を与える。さらに、悪意のあるウェブサイトが検出されると、ホスティングエイペックスドメインに対するアクションは、それらがパブリックであるかプライベートであるかに応じて異なる。提供された分類システムは、プライベートエイペックスドメインのサブドメインがパブリックエイペックスドメインのサブドメインと比較してより一貫した挙動および特性を有するという重要な観察結果に基づいて、パブリックおよびプライベートのエイペックスドメインを識別する。
【0042】
少なくともいくつかの態様では、分類システムは、悪意のあるものとしてマークされたホスティングドメインが危険にさらされているか、または攻撃者が所有しているかを判定し得る。例えば、提供されたシステムが悪意のあるウェブサイトをプライベートエイペックスドメインでホストされていると識別すると、提供されたシステムは、その所有者に基づいてエイペックスドメインをさらに分類し得る。悪意のあるウェブサイトは、攻撃者によって、自身の登録ドメイン(例えばgetbinance.org)または危険にさらされた良性ドメイン(例えば、questionpro.com)で作成される。後者の場合、悪意のある活動のために利用される正当なドメインは、犠牲ドメインである。テイクダウン戦略および誰と接触すべきかが、エイペックスドメインのタイプに応じて異なる。危険にさらされたドメインを早期に検出することは、所有者が根本原因を特定し、是正措置を講じ、評価ダメージを制御するのに役立つが、セキュリティオペレーションセンター(SOC)チームは、ユーザを保護するためにそのような犠牲ドメインを一時的にブロックし得る。一方、攻撃者が所有するドメインは、完全に異なるアクションを必要とする。それらは通常、即時のダメージを抑えるために最初にブラックリストに記載される。これらは、サイバースクワッティングに関与している場合、サードパーティによるテイクダウンサービス、ドメイン登録の削除、または所有権移転を介してさらにシャットダウンすることができる。
【0043】
本発明者らは、提供された分類器が、パブリックおよびプライベートのエイペックスドメインの識別に関して97.7%の適合率および95.6%の再現率で97.2%の精度を達成することを見出した。さらに、本発明者らは、提供された分類器が、悪性ホスティングドメインが危険にさらされているか攻撃者が所有しているかの判定に関して、99.1%の適合率および92.6%の再現率で96.4%の精度を達成することを見出した。
【0044】
本明細書で使用される場合、エイペックスドメインは、そのサブドメイン(例えば、alice.000webhostapp.com)またはページ(例えば、sites.google.com/alice)が作成されず、エイペックスドメイン(例えば、000webhostapp.com)の所有者の制御下にない場合、パブリックエイペックスドメインとして定義される。本明細書で使用される場合、エイペックスドメインは、そのサブドメイン(例えば、careers.nsa.gov)がエイペックスドメイン(例えば、nsa.gov)の所有者によって作成および管理される場合、プライベートエイペックスドメインとして定義される。
【0045】
図1は、例示的なシステム100のブロック図を示す。他の例では、システム100の構成要素は、組み合わされ、再配置され、取り外され、または別個のデバイスもしくはサーバ上に提供されてもよい。例示的なシステム100は、悪性ドメインのホスティングタイプを分類する例示的な分類システム110を含み得る。例えば、例示的な分類システム110は、悪意のあるウェブサイト(すなわち、URL)を、攻撃者が所有するパブリックドメイン(例えば、000webhostapp.com)、危険にさらされた(プライベート)ドメイン(questionpro.com)、または攻撃者が所有する(プライベート)ドメイン(getbinanace.org)として自動的にラベル付けし得る。様々な態様において、分類システム110は、ネットワーク150を介して少なくとも1つの評価システム160と通信し得る。ネットワーク150は、例えば、限定はしないが、任意の適切な広域ネットワークまたはローカルエリアネットワークを含むインターネットまたは他の何らかのデータネットワークを含むことができる。
【0046】
評価システム160は、ウェブサイトまたはURLの評価(例えば、それらが悪性であるかどうか)を提供する任意の適切なブラックリストまたは評価システムであってもよい。いくつかの態様において、評価システム160は、VirusTotal(VT)システムである。VirusTotal(VT)は、サードパーティのアンチウイルスツールおよびURL/ドメイン評価サービスを調べることによって任意のURLに関する集約されたインテリジェンスを提供する既知の評価サービスである。これらのツールの各々は、本明細書ではスキャナと呼ばれる。VTは、毎秒クエリ結果を集約し、加入したユーザがフィードとして利用できるようにする。他の例では、評価システム160は、Google Safe Browsing(GSB)、Phishtank、Anti-Phishing Working Group(APWG)、McAfee Site Advisor(SA)、または他の適切なブラックリストもしくは評価システムによって生成/維持されてもよい。いくつかの態様では、分類システム110は、複数のブラックリストまたは評価システムと通信し得る。
【0047】
様々な態様では、分類システム110は、メモリ114と通信するプロセッサを含み得る。プロセッサは、CPU112、ASIC、または任意の他の同様のデバイスであってもよい。いくつかの例では、分類システム110は、ディスプレイ116を含み得る。ディスプレイ116は、情報を表示するための任意の適切なディスプレイであってもよい。様々な態様では、分類システム110は、悪性ドメイン識別子120を含み得る。悪性ドメイン識別子120は、評価システム160から受信した情報に基づいて悪性ドメインを識別し得る。様々な態様では、分類システム110は、パブリックドメイン分類器130を含み得る。パブリックドメイン分類器130は、悪性ドメインがパブリックエイペックスドメインであるかプライベートエイペックスドメインであるかを判定し得る。様々な態様では、分類システム110は、プライベートドメイン分類器140を含み得る。プライベートドメイン分類器140は、プライベートエイペックスドメインが危険にさらされているか、または攻撃者が所有しているかを判定し得る。悪性ドメイン識別子120、パブリックドメイン分類器130、およびプライベートドメイン分類器140の各々は、CPU112によって実行されるソフトウェアによって実装されてもよい。他の例では、分類システム110の構成要素は、組み合わされ、再配置され、取り外され、または別個のデバイスもしくはサーバ上に提供されてもよい。
【0048】
いくつかの例では、パブリックドメイン分類器130は、ランダムフォレスト分類器であり得る。他の例では、パブリックドメイン分類器は、サポートベクトル分類(Support Vector Classification,SV)、エクストラツリー(Extra Tree,ET)、ロジスティック回帰(Logistic Regression,LR)、決定木(Decision Tree,DT)、勾配ブースティング(Gradient Boosting,GB)、アダブースティング(Ada Boosting,AB)、またはK近傍(K-Neighbors,KN)分類器であり得る。いくつかの例では、プライベートドメイン分類器140は、ランダムフォレスト分類器またはエクストラツリー(ET)分類器であってもよい。他の例では、パブリックドメイン分類器は、サポートベクトル分類(Support Vector Classification,SV)、ロジスティック回帰(Logistic Regression,LR)、決定木(Decision Tree,DT)、勾配ブースティング(Gradient Boosting,GB)、アダブースティング(Ada Boosting,AB)、またはK近傍(K-Neighbors,KN)分類器であり得る。
【0049】
図2は、悪性ドメインのホスティングタイプを分類するための例示的な方法200のフローチャートを示す。例示的な方法200は、図2に示すフローチャートを参照して説明されているが、方法200に関連する動作を実行する多くの他の方法が使用されてもよいことが理解されよう。例えば、いくつかのブロックの順序は変更されてもよく、特定のブロックは他のブロックと組み合わされてもよく、記載されたブロックのいくつかはオプションである。方法200は、ハードウェア(回路、専用ロジックなど)、ソフトウェア、または両方の組み合わせを含み得る処理ロジックによって実行され得る。
【0050】
いくつかの態様では、例示的な方法200は、悪性ドメインを識別するステップ(ブロック202)から開始し得る。例えば、悪性ドメイン識別子120は、悪性ドメインを識別し得る。悪性ドメイン識別子120は、受信したURLのセットから(例えば、評価システム160から)悪性ドメインを識別し得る。評価システム160の少なくとも1つのスキャナによってマークされたすべてのURLの中から、悪意がある可能性が高いドメインが識別され得る。いくつかの態様では、閾値数のスキャナがドメインをマークする場合、ドメインは悪意のあるものである可能性が高いと識別され得る。例えば、提供される分類システムは、悪性ドメインを識別するときに、過去のVirusTotal(VT)URLフィード情報を利用し得る。VTの結果からの悪意の基本的な尺度は、URLを悪意のあるものとしてマークするスキャナの数である。所与のURLのこの値が高いほど、そのURLが悪意のあるものである可能性が高い。一例では、5つ以上のスキャナによってマークされたURLは、悪意のあるものとして識別され得る。他の例では、URLをマーキングするスキャナの異なる閾値数を利用して、URLを悪意のあるものとして識別し得る。
【0051】
図3は、VT URLインテリジェンスとSAおよびGSBとの比較のグラフを示し、「ext_悪意」は、SAまたはGSBによって悪意のあるものとしてマークされたVTの各クラスからのURLの割合に対応する。スキャナの数が5未満であるとき、悪意のあるURLとマークされたVTの大部分は、SAまたはGSBのいずれによっても悪意のあるものとして識別されない。一方、VTで5つ以上のスキャナによって悪意のあるものとしてマークされたURL(すなわち、#スキャナ5)については、その大部分(70%超)がSAおよびGSBからの外部インテリジェンスと一致している。
【0052】
図2に戻ると、少なくとも1つの例では、悪性ドメイン識別子120は、VT URLフィードで観測されたドメインを連続的にプロファイリングする。そのような例では、悪性ドメイン識別子120は、完全修飾ドメイン名(FQDN)ごとに集約されたレコードを増分的に構築する。所与のFQDNのプロファイルレコードは、最初に見た時間、最後に見た時間、スキャンされた回数、悪意のあるものとしてマークされた回数、および/または対応するURLおよびVTスキャン要約を含み得る。
【0053】
悪性ドメイン識別子120は、評価システム160がVT以外のブラックリストまたは評価システムであるとき、評価システム160から受信したURLから悪性ドメインを識別し得ることが理解される。いくつかの態様において、悪性ドメイン識別子120は、複数の評価システム160から受信したURLから悪性ドメインを識別し得る。例えば、悪性ドメイン識別子120は、ある評価システム160からの結果を別の評価システム160からの結果とクロスチェックし得る。
【0054】
次いで、識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定し得る(ブロック204)。例えば、パブリックドメイン分類器130は、識別された悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定し得る。ブラウザパブリックサフィックスリスト、CDNリスト、動的DNSリスト、人気のあるウェブホスティングドメインまたはプロキシサービスなどの公開されているリストは有用であり得るが、それらはまた、最新状態を維持するのに時間がかかり、したがって、誤って多くの存在しないドメインを含み、同時に新たに出現したパブリックドメインを見逃す傾向があるため、非常に制限的であり得る。
【0055】
パブリックドメイン分類器130のためのグラウンドトゥルースデータセットは、以下のように収集され得る。パブリックサフィックスリスト、人気のあるウェブホスティングプロバイダおよびCDNリスト、ならびに動的DNSリストを含む、公開されているリストが集約され得、データセットDS1およびDS2内のエイペックスドメインとの交差が取得され得る。潜在的なパブリックドメインは、ホスティングドメイン、フリードメイン、ウェブドメイン、シェアドメイン、アップロードドメイン、ドロップドメイン、cdnドメイン、ファイルドメイン、写真ドメイン、およびプロキシドメインなどのパブリックエイペックスドメインによって使用される可能性が高いキーワードをデータセット上で検索することによって識別され得る。500個のエイペックスドメインのランダムサンプルが、それぞれDS1およびDS2から採取され得る。
【0056】
仮のプライベートドメイングラウンドトゥルースデータは、仮のパブリックデータセットから相互に排他的である各データセット(DS1およびDS2)から1000個のエイペックスドメインをランダムに選択することによって収集され得る。これらの仮のグラウンドトゥルースセットから、最終的なグラウンドトゥルースセットを作成するために手動検証が行われ得る。各エイペックスドメインについて、ラベルの信頼度を示すために50から100の間に信頼度スコアを割り当てることができ、100は最も信頼度が高く、50は未決定である。ラベリングの質を改善するために、2人のドメイン専門家がすべてのドメインに対してラベリングを行い、矛盾するラベルを有するドメインを除外した。
【0057】
パブリックドメイン分類器130は、悪性ドメインがパブリックドメインであるかプライベートドメインであるかを判定するために、以下の表1に詳述されている特徴の少なくともいくつかを考慮に入れることができる。
【表1】
【0058】
プライベートエイペックスドメインと比較して、パブリックドメインはより多くのサブドメインをホストする傾向があり、さらにそれらはVTでより頻繁にスキャンされる。特徴#サブドメインおよび#スキャンは、これらの観察結果をキャプチャする。サブドメインはパブリックエイペックスドメイン所有者の制御下にないため、実際には、サブドメインの一部は悪性であり、他のサブドメインは良性であるが、プライベートエイペックスの下のサブドメインは、ほとんど良性または悪性である傾向がある。#悪意_スキャンおよび悪意_スキャン_比率は、ボリュームおよびこの差をキャプチャする。ほとんどのパブリックエイペックス、特にCDNおよびプロキシサービスは、それらがサービスを提供するドメインのFQDN(例えばwww.superwhys.com.akamai.com)を利用するが、プライベートエイペックスは、www、mail、nsおよびmなどのサブドメイン部分で主に記述的な人気のあるキーワードを使用する。研究期間中にPDNSで見られたすべてのドメインをプロファイリングすることにより、本発明者らは、上位100のサブドメインを人気キーワードとして特定した。これらの違いは、#人気_キーワード、比率_人気_キーワード、および#平均_深さの特徴を使用してキャプチャされる。本発明者らは、パブリックエイペックスドメイン下のサブドメイン名の間には、プライベートエイペックスドメイン下よりも多くのバリエーションがあることを観察した。平均_サブ_エントロピーは、この観察結果をキャプチャするために、すべてのサブドメインにわたる平均エントロピーを測定する。
【0059】
図4および図5は、2つのROC曲線のAUCがGT1およびGT2についてそれぞれ96%および99%であることを示すグラフを示しており、2つのクラスの分離可能性の程度が高いことを実証している。
【0060】
そのようなパブリックドメインに関連するFQDNは攻撃者によって作成され、そのようなFQDNの数は、パブリックドメインの評価を算定するために利用され得る。
【0061】
いくつかの態様では、パブリックドメインは、動的DNS、ウェブプロキシサービス、CDN、ウェブホスティング、ブロギングおよびコンテンツホスティング、コンテンツ共有サービス、ならびに短縮ツールおよびフォームの7つのグループのうちの1つに分類され得る。
【0062】
図2に戻ると、パブリックドメイン分類器130が、識別された悪性ドメインをプライベートドメインであると判定した場合、次いで、プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定し得る(ブロック206)。例えば、プライベートドメイン分類器140は、プライベートドメインが危険にさらされたドメインであるか攻撃者が所有するドメインであるかを判定し得る。危険にさらされたドメインを特定するために、エイペックスドメインおよび検討中のドメインにおける視覚情報および補助情報の偏差が信頼される。本発明者らは、危険にさらされたドメインがメインウェブサイトと比較して非常に異なるコンテンツを有し、ホスティングIPなどの補助情報がメインウェブサイト(評価されたホスティングプロバイダ)と検討中のドメイン(ブレットプルーフホスティング)とで異なることを観察した。一方、攻撃者が所有するドメインは、比較的新しい登録情報を有し、高速フラックスネットワークを利用する可能性が高く、短命(NXドメインである可能性が高い)であり、ブラックリストに記載されている。
【0063】
危険にさらされたエイペックスドメインおよび攻撃者が所有するエイペックスドメインAC-GT1(ACは攻撃者が所有する/危険にさらされた、を表す)およびAC-GT2の2つのグラウンドトゥルースセットは、それぞれパブリック/プライベート分類器を使用して、DS1およびDS2から識別されたプライベートドメインから手動で作成され得る。DS1およびDS2の各々から2500個のドメインのランダムサンプルが選択され得る。パブリック/プライベートのグラウンドトゥルース収集と同様に、各サンプルの手動検査が実行され得、信頼スコアを提供して、ドメイン専門家がラベルについてどの程度信頼しているかを示し得る。悪性エイペックスが危険にさらされているか、または攻撃者が所有しているかを判定するために、以下の情報およびソースが手動で検査される。ウェブサイトの確認に加えて、履歴WHOIS記録を含む登録情報、ホスティング情報、およびPDNS情報などの補助情報をチェックした。2つの脅威インテリジェンスプラットフォーム、riskiq.comおよびotx.alienvault.comからの詳細なレポートもチェックされた。さらに、詳細なレポートは、2つの評価サービス、GSBおよびSAから検査された。
【0064】
危険にさらされたドメインを特定するために、エイペックスドメインおよび検討中のドメインにおける視覚情報および補助情報の偏差が信頼された。本発明者らは、危険にさらされたドメインがメインウェブサイトと比較して非常に異なるコンテンツを有し、ホスティングIPなどの補助情報がメインウェブサイト(評価されたホスティングプロバイダ)と検討中のドメイン(ブレットプルーフホスティング)とで異なることを観察した。一方、攻撃者が所有するドメインは、比較的新しい登録情報を有し、高速フラックスネットワークを利用する可能性が高く、短命(NXドメインである可能性が高い)であり、ブラックリストに記載されている。手動検証後、高信頼性ラベルを選択した。
【0065】
少なくとも一例では、プライベートドメイン分類器140は、語彙、VTレポート、VTプロファイル、PDNS、およびAlexa特徴の少なくとも5つの特徴グループを考慮に入れる。語彙特徴は、検討中のURLのプロパティをキャプチャする。VTレポート特徴は、VTレポートから直接利用可能な属性を含み、VTプロファイル特徴は、VT NODシステムから抽出され、PDNS特徴は、Farsight Passive DNS DBから抽出される。語彙、Alexa、およびPDNSの特徴の大部分は、悪性ドメインまたはURLを検出する以前の研究から知られている。図6に示す表は、プライベートドメイン分類器140が考慮に入れることができる5つの特徴グループの様々な特徴を示す。従来の手法と比較して、プライベートドメイン分類器が考慮する新規の特徴には、VT_持続時間、陽性_カウント、ドメイン_悪性、#総_スキャン、#良性_スキャン、兄弟_悪性、SOA_ドメイン_数、およびSOA_ドメインが含まれる。
【0066】
VTレポート特徴は、VTレポートから直接抽出される。発明者らは、危険にさらされたドメインのVT_持続時間特徴が、攻撃者が所有するドメインのそれよりも高い傾向があることを観察した。1つの理由は、攻撃者が正当なドメインの評価を利用しているので、危険にさらされたドメインは一般に既存のシステムによって検出するのが困難であることである。同じ理由により、発明者らは、危険にさらされたサイトを悪意のあるものとしてマークするスキャナの数が、攻撃者が所有するサイトの数よりも少ないことを観察した。陽性_カウントは、この観察結果をキャプチャする。攻撃者が所有するドメインと比較して、攻撃者は、検出を回避するために、危険にさらされたドメインをリダイレクトサイトとして使用することが多いことが観察された。
【0067】
VTプロファイル特徴は、ほとんどすべてのサブドメインおよび攻撃者が所有するドメインのスキャンが悪意のあるものであるが、サブドメインの一部および危険にさらされたドメインのスキャンのみが悪意のあるものであるという直感をキャプチャする。
【0068】
PDNS特徴から、信頼できるネームサーバの数およびSOAドメインの数は、攻撃者が所有するドメインが、検出またはテイクダウンを回避するために、良性ドメインよりも頻繁にホスティングプロバイダを変更するという観察結果をキャプチャする。さらに、攻撃者は、キャッチドメインをドロップしてそれらの中の残余信頼を活用し、これはまた、複数のネームサーバに関連付けられたドメインをもたらす。エイペックスドメインとネームサーバドメインおよびSOA特徴との比較は、攻撃者が所有するものと比較して、良性ドメインがそれら自体のサーバ内でホストされる可能性が高いという観察結果をキャプチャする。
【0069】
本開示は、以前の研究で提示されたいくつかの語彙特徴を改善する。具体的には、本発明者らは、攻撃者が所有するドメインは、危険にさらされたドメインと比較して、これらのスクワッティング方法を使用してブランドになりすますことが多いことを観察した。本開示は、1年間にわたってAlexa上位100万ドメインをプロファイリングして、より伝統的なスクワッティングタイプと比較して数百倍以上一般的であることが示されている、コボスクワット、レベルスクワット、およびターゲット埋め込みドメインを検出するためのAlexaトップ1000ブランドを識別する。ブランド、類似、および人気_キーワードの特徴は、攻撃者によって使用される新たなスクワット戦術をキャプチャする。
【0070】
図6の表に示されたVT特徴に加えて、プライベートドメイン分類器140は、分類性能を改善するために、3つの新しいクラスの特徴、PDNS、Alexa、および語彙特徴を考慮する。これは実際に性能行列を改善し、図7に示すように、GB、ETおよびRFを含むいくつかの分類器は非常に良好に機能し、AC-GT1の10倍交差検証で90%をわずかに上回る精度をもたらす。図8は、プライベートドメイン分類器140がランダムフォレスト分類器である例におけるROC曲線および特徴重要度を示すグラフを示す。プライベートドメイン分類器140は、94.7%の適合率および86.1%の再現率で90.6%の精度を達成する。ロバストな機械学習モデルを構築する際の重要な考慮事項は、モデルが異なるグラウンドトゥルースデータセットに一般化されるべきであることである。この目的のために、AC-GT2を使用して新しいモデルが訓練される。RF分類器を用いて、本発明者らは、99.1%の適合率および93.4%の再現率で96.8%の精度を達成した。図9は、プライベートドメイン分類器140がランダムフォレスト分類器である一例についてのROC曲線を示すグラフを示す。
【0071】
本発明者らは、パブリックドメイン分類器130およびプライベートドメイン分類器140で使用される特徴を決定するのに役立つVT URLフィードデータセットの様々な洞察を行った。VT URL Feedデータセットは、2019年8月1日から2019年11月18日までの期間に814,678,956個の一意のURLを含む。なお、同じURLを1日に複数回スキャンしてもよい。各新しいスキャンは異なるスキャンと見なされる。しかしながら、VTが新しいスキャンをトリガする代わりに既存のレポートを取得するために単に複数回照会される場合、それはスキャンIDを変更しない。したがって、同じスキャンIDを有するそのような複数のレポートは、1つのレコードと見なされる。観察された可能性のある良性スキャン(すなわち、#スキャナ=0)の1日平均は、スキャンの総数の89.3%であり、約4.8Mであることが観察された。本発明者らは
、平均して、悪意のあるURLは6回スキャンされるが、良性のURLは2回しかスキャンされないことを観察した。これは、URLがより疑わしいほど、それらがより多くチェックされる一般的なユーザ挙動に従う。別の観察結果は、1日の平均スキャンカウントが平均URLカウントの約2倍であることであった。
【0072】
本発明者らはまた、典型的なブラックリストおよび評価サービスと比較して、本発明者らのデータセット内の悪意のあるウェブサイトのカバレッジを比較した。1つまたは2つの#スキャナを有する多くのVTレポートがあるが、悪意のあるスキャンの平均45.7%は5つ以上の#スキャナを有する(すなわち、図の上の2つの領域)。本発明者らは、平均して毎週1659Kの悪意のあるレポートに対応する5つ以上の#スキャナによるスキャンを分類することに注目した。これは、平均して毎週276Kの悪意のあるウェブサイトに対応する。これに対して、Google Transparency ReportおよびPhishtankでは、それぞれ週に約50Kおよび4Kが報告されている。これは、分類システム110が、一般的なブラックリストと比較してはるかに大きな悪意のあるURLのセットで訓練されており、したがってより高い影響を有することを示している。
【0073】
VTスキャナは、各悪意のあるURLに、悪意のある、マルウェア、フィッシング、マイニング、および疑わしいサイトのクラスラベルのうちの1つを割り当てる。ほとんどの場合、VTスキャナは競合するクラスラベルを割り当てるので、悪意のあるウェブサイトの最終クラスラベルを導出するために、単純な多数決ヒューリスティックが使用され得る。例えば、本発明者らは、各クラスタイプの100のウェブサイトのランダムサンプルを採取し、フィッシュタンク、GSBおよびSAを含むいくつかの公開されているブラックリストまたはAPIに対して手動でクロスチェックした。本発明者らの手動検査は、多数決を使用するラベルの98%超が外部の知能と一致していることを示し、本発明者らのヒューリスティックを検証した。マルウェアおよびフィッシングサイトは報告された悪意のあるウェブサイトを支配しているが、データセットには少数の悪意のあるマイニングサイトおよび疑わしいサイトしかない。
【0074】
図10は、推定良性ドメイン(すなわち、#スキャナ=0)および悪性ドメイン(すなわち、#スキャナ5)についての期間中のエイペックスごとのFQDNの数のCDFを示すグラフを示す。5未満の頻度は除外され、500を超える頻度のロングテールが除外されている。良性カテゴリのエイペックスの90.2%が1つのFQDNのみを有するのに対して、悪性カテゴリのエイペックスの12.3%のみが1つのFQDNのみを有することが分かる。さらに、約40%の悪性のエイペックスドメインが40を超えるFQDNを有するのに対して、良性のエイペックスドメインの5%のみが40を超えるFQDNを有する。これらの観察結果は、攻撃者が高速フラックスネットワークと同様の方法で攻撃を開始するために多くのサブドメインを作成することを示している。
【0075】
別の観察結果は、500を超えるFQDNを有するエイペックスドメインのロングテールが存在し、一部はそれらを数百万個有することである。例えば、blogspot.com(ブロギング)、coop.it(URL短縮ツール)、mcafee.com(mcafeeエンドポイントホスト)、およびopendns.com(CiscoオープンDNS)はすべて、100万を超えるFQDNを有する。観測されたFQDNの数は、この数が多いほどドメインがパブリックである可能性が高いので、パブリックドメイン分類器130における特徴として使用される。
【0076】
図2に戻ると、次いで、判定された悪性ドメインホスティングタイプが表示され得る(ブロック208)。例えば、分類システム110は、判定された悪性ドメインホスティングタイプをディスプレイ116に表示し得る。表示された悪性ドメインホスティングタイプは、悪性ドメインURLと共に表示され得る。判定された悪性ドメインホスティングタイプは、パブリックドメイン(例えば、攻撃者が所有するパブリックドメイン)、危険にさらされたプライベートドメイン、または攻撃者が所有するプライベートドメインであり得る。セキュリティオペレータは、判定された悪性ドメインホスティングタイプおよび悪性ドメインのURLをディスプレイ116上で見て、適切なアクションを判定し、講じることができる。
【0077】
実験的検証
本発明者らの分析は、両方のデータセットにおいて6,675個の悪性パブリックエイペックスドメインおよび725,325個の悪性プライベートトエイペックスドメインを特定した。言い換えれば、VT URLフィードの0.91%のエイペックスドメインのみがパブリックである。しかしながら、本発明者らは、これらのパブリックエイペックスドメインに属するURLおよびスキャンの割合が高いことを観察した。全レポートのうち、46.5%のURLがパブリックエイペックスドメインでホストされている。この観察結果は、パブリックエイペックスドメインは多くのサブドメインをホストするが、プライベートエイペックスドメインは一般に少数しかホストしないという事実と一致している。
【0078】
図11Aは、パブリックおよびプライベートの2つのカテゴリのエイペックスドメインについて、エイペックスごとのFQDNの数を示すグラフを示す。80%を超えるパブリックエイペックスドメインは20を超えるFQDNを有するが、プライベートエイペックスドメインの95%は10未満のFQDNを有する。パブリックドメインの多くは多数のサブドメインを有するが、膨大な数のサブドメイン(200Kを超える)を有するパブリックドメインのロングテールが存在する。これらの観察結果は、攻撃者が、無料で利用可能であり、彼らのTLS証明書、ホスティングおよび登録情報などのパブリックエイペックスドメインの評価に乗ることができるので、パブリックエイペックスドメインの下に多くのサブドメインを作成することを好むことを示唆し、その結果、彼らは従来のブラックリストおよび評価システムによって容易に検出されない可能性がある。
【0079】
図11Bは、パブリックおよびプライベートのエイペックスドメインの平均Alexaランキング分布を示すグラフを示す。ランク付けされていないドメインについては、より良好な視覚化のために100万の有意でないランクが割り当てられた。パブリックエイペックスドメインがユーザによってより頻繁にアクセスされるので、パブリックドメインがプライベートドメインと比較してより高い平均Alexaランキングを有することは驚くべきことではない。興味深い結果は、パブリックドメインの半分は人気がない(ランク付けされていない)ことであり、攻撃者は、攻撃を開始するためにあまり人気がないパブリックドメイン上にサブドメインも作成することを示している。パブリックエイペックスドメインは多くの良性ドメインをホストするので、現在の登録およびドメイン評価ベースのシステムおよび推論ベースのシステムは、パブリックエイペックスドメインを不注意にブラックリストにし、良性サイトを混乱させる可能性がある。
【0080】
ドメイン寿命を、各エイペックスドメインのPDNSフットプリントの寿命をとることによって推定することができる。図11Cは、パブリックおよびプライベートのエイペックスドメインのドメイン寿命分布を示すグラフである。パブリックドメインの大多数が、攻撃者が長期間にわたって攻撃を開始するための自由なプラットフォームを提供するランク付けされていないサイトであるにもかかわらず、本発明者らは、パブリックドメインはプライベートドメインと比較して寿命が長いことを観察した。さらに、プライベートドメインの約10%は非常に短命であり、攻撃者が所有するドメインである可能性が高いことを示している。
【0081】
プライベートドメイン分類器140は、VT URLフィードの65.6%のエイペックスドメインが危険にさらされていることを検出し、攻撃者が所有するものよりも危険にさらされたウェブサイトがあることを示す。この観察結果は、フィッシングウェブサイトおよびパブリック脅威インテリジェンスレポートに対して行われた以前の研究と一致している。
【0082】
図12Aは、危険にさらされたドメインおよび攻撃者が所有するドメインについてのエイペックスごとの#FQDNを示すグラフを示す。興味深い観察結果は、危険にさらされたドメインのほとんどが、攻撃者が所有するものよりもわずかに悪性のサブドメインをホストしていることである。緩和措置が取られる場合、ドメイン所有者が最初に悪性サブドメインのすべてを識別してクリーンアップすることが重要であり、これは500を超える可能性がある。
【0083】
図12Bは、危険にさらされたエイペックスドメインおよび攻撃者が所有するエイペックスドメインの平均Alexaランク分布を示すグラフを示す。予想されるように、攻撃者が所有するドメインのほとんどは、低いAlexaランクまたはランクなしのいずれかを有する。しかしながら、Alexaのランキングが100K未満である攻撃者が所有するドメインがいくつかあることに注目することは興味深い。別の興味深い観察結果は、ランク付けされていない約10%の危険にさらされたドメインがあることであり、攻撃者があまり人気のない良性のウェブサイトからも攻撃を開始することを示しており、評価されたサイトを必要としないDDoSなどの攻撃を開始するために利用することができる。
【0084】
図12Cは、危険にさらされたエイペックスドメインおよび攻撃者が所有するエイペックスドメインのドメイン寿命分布を示すグラフを示す。一般に、危険にさらされたドメインが、攻撃者が所有するものよりも長く生存することは驚くべきことではない。しかしながら、攻撃者が所有するドメインの約40%が200日間を超えて活動しており、これらの悪性ドメインを早期に検出し、適切なアクションを講じるためのより良い技術を開発する必要があることを示している。その長い持続時間の1つの理由は、攻撃者がドメインを登録し、それらを回避技術としてしばらくの間パークすることである。
【0085】
図13は、パブリックドメイン分類器130で使用される特徴の特徴相関行列を示す。図14Aおよび図14Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのパブリックドメイン分類器130の特徴重要度を示すグラフを示す。特徴重要度グラフは、モデルを構築する際にどの特徴が重要であるかを示す。図15Aおよび図15Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのパブリックドメイン分類器130のt-SNEを示すグラフを示す。t-SNEグラフは、非線形次元縮小技術を利用して、視覚化のために特徴ベクトルを2次元空間データに埋め込む。これらは、収集された特徴に基づいて2つのクラスがどのようにクラスタリングされるかを示している。第2のグラウンドトゥルースセットにおけるより良好な性能の1つの理由は、図15Aおよび図15Bに示すように、グラウンドトゥルースデータにおける2つのクラスが第2のセットにおいてより良好な分離を有し、より良好な判定境界をもたらすことである。さらに、特徴重要度グラフは、ほとんどすべての特徴がラベルの決定に関与し、これにより、敵対的な操作に対する偏りが少なくなり、重要なことに影響を受けにくくなることを示している。図16Aおよび図16Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのパブリックドメイン分類器130の適合率-再現率を示すグラフである。
【0086】
図17Aおよび図17Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのプライベートドメイン分類器140の特徴重要度を示すグラフを示す。図18Aおよび図18Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのプライベートドメイン分類器140のt-SNEを示すグラフを示す。図19Aおよび図19Bは、2つのデータセットGT1およびGT2のランダムフォレストベースのプライベートドメイン分類器140の適合率-再現率を示すグラフを示す。
【0087】
さらに詳述することなく、当業者は、特許請求される発明を最大限に利用するために前述の説明を使用することができると考えられる。本明細書に開示された例および態様は、単なる例示として解釈されるべきであり、決して本開示の範囲を限定するものではない。説明した基本原理から逸脱することなく、上述の例の詳細に変更を加えることができることは、当業者には明らかであろう。換言すれば、上記の説明で具体的に開示された例の様々な修正および改善は、添付の特許請求の範囲内にある。例えば、記載された様々な例の特徴の任意の適切な組み合わせが企図される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図12A
図12B
図12C
図13
図14A
図14B
図15A
図15B
図16A
図16B
図17A
図17B
図18A
図18B
図19A
図19B