IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピルサン カンパニー リミテッドの特許一覧

<>
  • 特表-有害URL探知方法 図1
  • 特表-有害URL探知方法 図2
  • 特表-有害URL探知方法 図3
  • 特表-有害URL探知方法 図4
  • 特表-有害URL探知方法 図5
  • 特表-有害URL探知方法 図6
  • 特表-有害URL探知方法 図7
  • 特表-有害URL探知方法 図8
  • 特表-有害URL探知方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-08
(54)【発明の名称】有害URL探知方法
(51)【国際特許分類】
   G06F 21/55 20130101AFI20240801BHJP
【FI】
G06F21/55
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023557282
(86)(22)【出願日】2022-09-22
(85)【翻訳文提出日】2023-09-15
(86)【国際出願番号】 KR2022014207
(87)【国際公開番号】W WO2024019226
(87)【国際公開日】2024-01-25
(31)【優先権主張番号】10-2022-0090995
(32)【優先日】2022-07-22
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523353605
【氏名又は名称】ピルサン カンパニー リミテッド
【氏名又は名称原語表記】PILLSANG CO.,LTD.
(74)【代理人】
【識別番号】100139594
【弁理士】
【氏名又は名称】山口 健次郎
(72)【発明者】
【氏名】カン ピルサン
(72)【発明者】
【氏名】キム ジフン
(72)【発明者】
【氏名】ホン キホン
(57)【要約】
本発明は、有害URL探知方法に関するものであって、ユーザ端末で接続しようとするWebページに進入要求するステップと、前記進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コード(response code)を確認するステップと、前記応答コードの確認の結果、前記接続対象URLが正常な通信でない場合、前記探知対象から除外するステップと、を含むことにより、有害URLを効果的に探知及び遮断することができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザ端末で接続しようとするWebページに進入要求するステップと、
前記進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較するステップと、
前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、
前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、
前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、
前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コード(response code)を確認するステップと、
前記応答コードの確認の結果、前記接続対象URLが正常な通信でない場合、前記探知対象から除外するステップと、を含む、有害URL探知方法。
【請求項2】
前記有害URL探知方法は、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行うステップと、
前記詳細検索を行った検索結果ページから検索件数の特徴を抽出するステップと、
前記抽出された検索件数の特徴を人工知能モデルを用いて群集化するステップと、
前記群集化するステップによって取得された群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出するステップと、
前記抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類するステップと、をさらに含む、請求項1に記載の有害URL探知方法。
【請求項3】
前記有害URL探知方法は、
前記抽出された閾値が所定の基準特徴値よりも相対的に高い場合に正常に分類して前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、請求項2に記載の有害URL探知方法。
【請求項4】
前記有害URL探知方法は、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLのHTML(Hypertext Markup Language)構文を抽出するステップと、
前記抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出するステップと、
前記抽出された学習対象特徴を含む人工知能学習データを構成して前記人工知能学習を行うステップと、
前記人工知能学習を行った人工知能モデルを用いて、前記接続対象URLが正常であるか悪性であるかを確認するステップと、をさらに含む、請求項1に記載の有害URL探知方法。
【請求項5】
前記有害URL探知方法は、
前記接続対象URLが正常である場合に前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、請求項4に記載の有害URL探知方法。
【請求項6】
前記有害URL探知方法は、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対するWebサイト検索を行うステップと、
前記Webサイト検索に対する検索結果詳細内容を抽出するステップと、
前記抽出された検索結果詳細内容を文字列にトークナイズ(tokenizing)するステップと、
前記トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成するステップと、
前記感性辞書を用いて人工知能モデルを用いた学習及び分析によって前記接続対象URLが正常であるか悪性であるかを確認するステップと、をさらに含む、請求項1に記載の有害URL探知方法。
【請求項7】
前記有害URL探知方法は、
前記接続対象URLが正常である場合、前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、請求項6に記載の有害URL探知方法。
【請求項8】
ユーザ端末で接続しようとするWebページに進入要求するステップと、
前記進入要求されたWebページに対応する接続対象URL(uniform resouce locator)を、既に保存されたホワイトリストと比較するステップと、
前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、
前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、
前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、
前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コードを確認するステップと、
前記応答コードの確認の結果、前記接続対象URLが正常な通信でない場合、前記探知対象から除外するステップと、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対して少なくとも1つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常または悪性に分類する第1-1ステップと、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLのHTML(Hypertext Markup Language)構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象URLが正常であるか悪性であるかを確認する第1-2ステップと、
前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対するWebサイト検索を行い、詳細内容を抽出してトークナイズ(tokenizing)した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象URLが正常であるか悪性であるかを確認する第1-3ステップと、
前記第1-2ステップ及び第1-3ステップの各結果に対してモデル重み付きアンサンブル(model weight ensemble)処理する第2ステップと、
前記第1-1ステップの結果を用いて前記第2ステップの結果を最終分類(final classification)するステップと、を含む、有害URL探知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ、探知対象から除外するだけでなく、Web上で発生しうる様々なデータを用いた人工知能モデルを通じて有害URLを探知することにより、有害URLを効果的に探知及び遮断することができる有害URL探知方法に関する。
【背景技術】
【0002】
周知の如く、最近、通信ネットワークの発達及びパーソナルコンピュータ(PC)、携帯端末、スマートフォン、PDAなどのモバイル機器の普及により、時間や場所などを問わず、映像データ、音声データ、写真データなどの様々なコンテンツをダウンロードしたりリアルタイムで利用したりすることができる。
【0003】
また、ユーザは、時間や場所などの制約なしにコンピュータ、携帯機器などを用いて様々なWebサイトに接続して情報を取得したり、これを活用したりすることが増えている。
【0004】
しかし、インターネットの自由な使用による文化生活の利便性の増加に伴い、成長期の子どもや青少年などが淫乱動画、詐欺性コンテンツなどの有害コンテンツにさらされる危険性も一緒に増加している。
【0005】
これにより、インターネット上で容易にアクセスすることができるコンテンツの内容を分析して自動的に有害性有無を判断し、有害コンテンツの場合には接続を遮断する技術に対する要求が持続的に高まっている。
【0006】
一方、従来、有害コンテンツを遮断する技術は、対象コンテンツの類型に応じて様々な方式で行われているが、端末に動画、静止画などが保存されて実行される場合、端末に保存されたデータに対して有害性を分析した後、有害コンテンツを削除及び遮断する方式で行われるか、或いは端末に保存される過程なしにインターネット上のストリーミングサービスなどのようにリアルタイムで提供されるコンテンツであれば、動画の再生時の有害性を判別して遮断する方式で行われることができる。
【0007】
ところが、インターネット使用環境の利便性が高まり、利用可能な通信速度が増加するにつれて、現在は、コンテンツを端末に直接保存して利用する場合よりも、インターネット上のWebアドレス(URL:uniform resource locator)を介して当該Webサイトに接続した後にオンライン上でコンテンツを利用する割合が増加しているため、大規模な正常URL情報を含むホワイトリスト、及び大規模な有害URL情報を含むブラックリストを用いてURLのアクセスを遮断する方式が主に用いられている。
【0008】
しかし、URLは、無限の方式で偽造及び変形が可能であり、その速度も非常に速いため、大規模なリストベースの探知では限界があり、より効率よく有害性URLを探知して遮断する技法の開発が求められている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】韓国特許第10-1545964号(2015年8月13日登録)
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる有害URL探知方法を提供しようとする。
【0011】
また、本発明は、応答コードを確認して接続対象URLが正常な通信であれば、接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行うことにより、その検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することにより、有害URLをより効果的に探知及び遮断することができる有害URL探知方法を提供しようとする。
【0012】
また、本発明は、応答コードを確認して接続対象URLが正常な通信であれば、接続対象URLのHTML構文を抽出し、抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる有害URL探知方法を提供しようとする。
【0013】
また、本発明は、応答コードを確認して接続対象URLが正常な通信であれば、接続対象URLに対するWebサイト検索を行ってその検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる有害URL探知方法を提供しようとする。
【0014】
本発明の実施形態の目的は、上述した目的に限定されず、上述していない別の目的は、以降の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解できるであろう。
【課題を解決するための手段】
【0015】
本発明の実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求するステップと、前記進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コード(response code)を確認するステップと、前記応答コードの確認の結果、接続対象URLが正常な通信でない場合、前記探知対象から除外するステップと、を含む、有害URL探知方法が提供できる。
【0016】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行うステップと、前記詳細検索を行った検索結果ページから検索件数の特徴を抽出するステップと、前記抽出された検索件数の特徴を人工知能モデルを用いて群集化するステップと、前記群集化するステップによって取得された群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出するステップと、前記抽出された閾値が所定の基準特徴値よりも相対的に低い場合、悪性に分類するステップと、をさらに含む、有害URL探知方法が提供できる。
【0017】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記抽出された閾値が所定の基準特徴値よりも相対的に高い場合に正常に分類して前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、有害URL探知方法が提供できる。
【0018】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLのHTML(Hypertext Markup Language)構文を抽出するステップと、前記抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出するステップと、前記抽出された学習対象特徴を含む人工知能学習データを構成して前記人工知能学習を実行するステップと、前記人工知能学習を行った人工知能モデルを用いて、前記接続対象URLが正常であるか悪性であるかを確認するステップと、をさらに含む、有害URL探知方法が提供できる。
【0019】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記接続対象URLが正常である場合に前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、有害URL探知方法が提供できる。
【0020】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対するWebサイト検索を行うステップと、前記Webサイト検索に対する検索結果詳細内容を抽出するステップと、前記抽出された検索結果詳細内容を文字列にトークナイズ(tokenizing)するステップと、前記トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成するステップと、前記感性辞書を用いて人工知能モデルを用いた学習及び分析によって前記接続対象URLが正常であるか悪性であるかを確認するステップと、をさらに含む、有害URL探知方法が提供できる。
【0021】
また、本発明の実施形態によれば、前記有害URL探知方法は、前記接続対象URLが正常である場合、前記接続対象URLを前記ホワイトリストに追加するステップをさらに含む、有害URL探知方法が提供できる。
【0022】
また、本発明の実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求するステップと、前記進入要求されたWebページに対応する接続対象URL(uniform resouce locator)を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コード(response code)を確認するステップと、前記応答コードの確認の結果、前記接続対象URLが正常な通信でない場合、前記探知対象から除外するステップと、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対して少なくとも1つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常または悪性に分類する第1-1ステップと、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLのHTML(Hypertext Markup Language)構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象URLが正常であるか悪性であるかを確認する第1-2ステップと、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対するWebサイト検索を行い、詳細内容を抽出してトークナイズ(tokenizing)した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象URLが正常であるか悪性であるかを確認する第1-3ステップと、前記第1-2ステップ及び第1-3ステップの各結果に対してモデル重み付きアンサンブル(model weight ensemble)処理する第2ステップと、前記第1-1ステップの結果を用いて前記第2ステップの結果を最終分類(final classification)するステップと、を含む、有害URL探知方法が提供できる。
【発明の効果】
【0023】
本発明は、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる。
【0024】
また、本発明は、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行ってその検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することにより、有害URLをより効果的に探知及び遮断することができる。
【0025】
また、本発明は、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLのHTML構文を抽出し、抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる。
【0026】
また、本発明は、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLに対するWebサイト検索を行うことにより、その検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる。
【図面の簡単な説明】
【0027】
図1】本発明の第1実施形態によって有害URLを探知する過程を示すフローチャートである。
図2】本発明の第2実施形態によって有害URLを探知する過程を示すフローチャートである。
図3】本発明の第2実施形態によって有害URLを探知する過程を説明するための図である。
図4】本発明の第3実施形態によって有害URLを探知する過程を示すフローチャートである。
図5】本発明の第3実施形態によって有害URLを探知する過程を説明するための図である。
図6】本発明の第4実施形態によって有害URLを探知する過程を示すフローチャートである。
図7】本発明の第4実施形態によって有害URLを探知する過程を説明するための図である。
図8】本発明の第4実施形態によって有害URLを探知する過程を説明するための図である。
図9】本発明の第5実施形態による有害URL探知方法を示す図である。
【発明を実施するための形態】
【0028】
本発明の実施形態に対する利点、特徴、及びそれらの達成方法は、添付図面と一緒に詳細に後述されている実施形態を参照すると明確になるだろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態に実現できる。但し、本実施形態は、本発明の開示を完全たるものとし、本発明の属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものである。本発明は請求項の範疇のみによって定義される。明細書全体にわたって、同じ参照符号は同じ構成要素を示す。
【0029】
本発明の実施形態を説明するにあたり、公知の機能または構成についての具体的な説明が本発明の要旨を無駄に不明確にするおそれがあると判断される場合は、その詳細な説明を省略する。そして、後述する用語は、本発明の実施形態における機能を考慮して定義された用語であって、これはユーザや運用者の意図または慣例などによって変わり得る。よって、その定義は本明細書全般にわたっての内容に基づいて下されるべきである。
以下、添付図面を参照して本発明の実施形態を詳細に説明する。
図1は、本発明の第1実施形態によって有害URLを探知する過程を示すフローチャートである。
【0030】
ここで、有害URL探知方法は、Webページの検索及び接続中に有害URLを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト等を保存する記憶媒体と、プロセッサが実行されるユーザ端末(例えば、コンピュータ端末、モバイル端末など)を介して行われることができる。
【0031】
図1を参照すると、ユーザ端末では、接続しようとするWebページに進入要求することができる(ステップ110)。ここで、ユーザ端末では、Webサイト検索後にWebページに進入する場合、これに対応する進入要求(request)が発生する可能性があり、これにより、以下に説明する有害URL探知ステップが行われ得る。
【0032】
そして、ユーザ端末では、進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較することができる(ステップ120)。
【0033】
例えば、ユーザ端末では、進入要求された接続対象URLに対して、全体URLのうち、パラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を辞書(dicticary)形式で既に保存されたホワイトリストと比較することができる。
前記ステップ120での比較結果、同一ドメインが存在する場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ130)。
【0034】
ここで、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在する場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。
【0035】
一方、前記ステップ120での比較結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象URLが以前に接続されたWebページであるかをチェックすることができる(ステップ140)。
【0036】
前記接続対象URLが以前に接続されたWebページであるかをチェックするステップ140では、ユーザ端末で、接続対象URLと以前に接続されたWebページに対するリファラ(referer)とを比較して同一か否かをチェックする方式で行われ得る。
【0037】
例えば、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であるか否かを比較する方式で、以前に接続されたページであるかをチェックすることができる。
【0038】
ここで、リファラは、HTTPプロトコルヘッダー値であり、これを用いて、現在表示するWebページがどのWebページから要求されたかを確認することができ、どのWebサイトまたはWebサーバから訪問者が来たかを把握することができる。
【0039】
前記ステップ140でのチェックの結果、以前に接続されたWebページである場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ150)。
【0040】
ここで、ユーザ端末では、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であって、以前に接続されたWebページである場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。これは、以前に接続されたWebページである場合、有害URL探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。
【0041】
一方、ステップ140でのチェックの結果、以前に接続されたWebページでない場合、ユーザ端末では、接続対象URLに対する応答コード(response code)を確認することができる(ステップ160)。
【0042】
ここで、応答コードは、HTTP応答状態コードのリストであって、1**は条件付き応答、2**は成功、3**はリダイレクト完了、4**は要求エラー、5**はサーバエラーをそれぞれ示すことができる。
【0043】
次に、ユーザ端末では、前記ステップ160における応答コードの確認の結果、接続対象URLが正常な通信でなければ、接続対象URLを探知対象から除外することができる(ステップ170)。
【0044】
ここで、応答コードが3**のリダイレクトコード(redirection code)であれば、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象URLが正常な通信ではない4**、5**の応答コードを有する場合、接続が不可能なWebサイトとして探知対象から除外することができる。
【0045】
したがって、本発明の第1実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる。
【0046】
図2は、本発明の第2実施形態によって有害URLを探知する過程を示すフローチャートであり、図3は、本発明の第2実施形態によって有害URLを探知する過程を説明するための図である。
【0047】
ここで、有害URL探知方法は、Webページの検索及び接続中に有害URLを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、人工知能モデル、統計的異常値算出アルゴリズム、基準値などを保存する記憶媒体と、プロセッサが実行されるユーザ端末(例えば、コンピュータ端末、モバイル端末など)を介して行われることができる。
【0048】
図2及び図3を参照すると、ユーザ端末では、接続しようとするWebページに進入要求することができる(ステップ211)。ここで、ユーザ端末では、Webサイト検索後にWebページに進入する場合、これに対応する進入要求(request)が発生する可能性があり、これにより、以下に説明する有害URL探知ステップが行われ得る。
【0049】
そして、ユーザ端末では、進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較することができる(ステップ213)。
【0050】
例えば、ユーザ端末では、進入要求された接続対象URLに対して、全体URLのうちパラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を、辞書(dicticary)形式で既に保存されたホワイトリストと比較することができる。
【0051】
前記ステップ213での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ215)。
【0052】
ここで、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在する場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。
【0053】
一方、前記ステップ213での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象URLが以前に接続されたWebページであるかをチェックすることができる(ステップ217)。
【0054】
前記接続対象URLが以前に接続されたWebページであるかをチェックするステップ140では、ユーザ端末で、接続対象URLと以前に接続されたWebページに対するリファラ(referer)とを比較して同一か否かをチェックする方式で行われ得る。
【0055】
例えば、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であるかを比較する方式で、以前に接続されたページであるかをチェックすることができる。
【0056】
ここで、リファラは、HTTPプロトコルヘッダー値であり、これを用いて、現在表示するWebページがどのWebページで要求されたかを確認することができ、どのWebサイトまたはWebサーバから訪問者が来たかを把握することができる。
【0057】
前記ステップ217でのチェックの結果、以前に接続されたWebページである場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ219)。
【0058】
ここで、ユーザ端末では、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であって、以前に接続されたWebページである場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。これは、以前に接続されたWebページの場合、有害URL探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。
【0059】
一方、前記ステップ217でのチェックの結果、以前に接続されたWebページでない場合、ユーザ端末では、接続対象URLに対する応答コード(response code)を確認することができる(ステップ221)。
【0060】
ここで、応答コードは、HTTP応答状態コードのリストであって、1**は条件付き応答、2**は成功、3**はリダイレクト完了、4**は要求エラー、5**はサーバエラーをそれぞれ示すことができる。
【0061】
次に、ユーザ端末では、前記ステップ221での応答コードの確認の結果、接続対象URLが正常な通信でない場合、接続対象URLを探知対象から除外することができる(ステップ223)。
【0062】
ここで、応答コードが3**のリダイレクトコード(redirection code)である場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象URLが正常な通信ではない4**、5**の応答コードを有する場合、接続が不可能なWebサイトとして探知対象から除外することができる。
【0063】
一方、ユーザ端末では、前記ステップ221での応答コードの確認の結果、接続対象URLが正常な通信である場合、接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行うことができる(ステップ225)。
【0064】
ここで、接続対象URLが正常な通信である1**、2**、一部3**の応答コードを有する場合、以後、有害URL探知過程を行うことができ、これにより、ユーザ端末では接続対象URLから全体URLのうちパラメータを除くドメイン領域を抽出し、抽出されたドメイン領域をポータル別に詳細検索クエリを用いた詳細検索を行うことができるが、例えば、Google詳細検索の場合は「~**」などを用いることができ、Bing詳細検索の場合は「inanchor:**」などを用いることができる。
次に、前記ステップ225での詳細検索を行った検索結果ページから、ユーザ端末では検索件数の特徴を抽出することができる(ステップ227)。
【0065】
例えば、ユーザ端末では、図3に示すように、検索結果ページから検索結果件数、検索結果におけるドメイン登場回数、指定悪性キーワード検索件数などを含む検索件数の特徴を抽出することができる。
そして、ユーザ端末では、抽出された検索件数の特徴を人工知能モデルを用いて群集化することができる(ステップ229)。
【0066】
例えば、ユーザ端末では、抽出された検索件数の特徴(例えば、検索結果件数、検索結果におけるドメイン登場回数、指定悪性キーワード検索件数など)を、非地図方式の人工知能モデルであるK平均アルゴリズム(K-means clustering algorithm)を用いて検索件数の特徴を群集化することができるが、K平均アルゴリズムを用いて検索結果におけるドメイン登場回数、指定悪性キーワード検索件数などに対応する複数の特徴値を有する特徴データの位置を平面上にx値及びy値で表現することにより、座標の距離による群集化を行うことができる。
ここで、K平均アルゴリズムは、類似した特性を持つデータ同士をK個の群集にまとめるアルゴリズムを意味する。
【0067】
次に、ユーザ端末では、前記群集化するステップ229によって取得された群集化結果のうち、異常値(anomaly)が除去された正常と悪性との間の閾値を抽出することができる(ステップ231)。
【0068】
例えば、ユーザ端末では、修正されたZスコア(modified Z-score)などを含む統計的異常値算出法を用いて群集化結果の中から異常値を探して除去し、その異常値に応じて正常値と悪性値との間の閾値を抽出することができる。
そして、ユーザ端末では、抽出された閾値が所定の基準特徴値よりも相対的に低い場合、悪性に分類することができる(ステップ233)。
【0069】
また、ユーザ端末では、抽出された閾値が所定の基準特徴値よりも相対的に高い場合、正常に分類して接続対象URLをホワイトリストに追加することができる(ステップ235)。
【0070】
したがって、本発明の第2実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebペーであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる。
【0071】
また、本発明の第2実施形態によれば、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLから接続対象ドメインを抽出して少なくとも1つのポータルで詳細検索を行うことにより、その検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することで、有害URLをより効果的に探知及び遮断することができる。
【0072】
図4は、本発明の第3実施形態によって有害URLを探知する過程を示すフローチャートであり、図5は、本発明の第3実施形態によって有害URLを探知する過程を説明するための図である。
【0073】
ここで、有害URL探知方法は、Webページの検索及び接続中に有害URLを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、相関分析アルゴリズム、人工知能モデルなどを保存する記憶媒体と、プロセッサが実行されるユーザ端末(例えば、コンピュータ端末、モバイル端末など)によって行われ得る。
【0074】
図4及び図5を参照すると、ユーザ端末では、接続しようとするWebページに進入要求することができる(ステップ311)。ここで、ユーザ端末では、Webサイト検索後にWebページに進入する場合、これに対応する進入要求が発生する可能性があり、これにより、以下に説明する有害URL探知ステップが行われ得る。
【0075】
そして、ユーザ端末では、進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較することができる(ステップ313)。
【0076】
例えば、ユーザ端末では、進入要求された接続対象URLに対して、全体URLのうちパラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を、辞書(dicticary)形式で既に保存されたホワイトリストと比較することができる。
【0077】
前記ステップ313での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ315)。
【0078】
ここで、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在する場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。
【0079】
一方、前記ステップ313での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象URLが以前に接続されたWebページであるかをチェックすることができる(ステップ317)。
【0080】
前記接続対象URLが以前に接続されたWebページであるかをチェックするステップ140では、ユーザ端末で、接続対象URLと以前に接続されたWebページに対するリファラ(referer)とを比較して同一か否かをチェックする方式で行われることができる。
【0081】
例えば、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であるか否かを比較する方式で、以前に接続されたページであるかをチェックすることができる。
【0082】
ここで、リファラは、HTTPプロトコルヘッダー値であり、これを用いて、現在表示するWebページがどのWebページから要求されたかを確認することができ、どのWebサイトまたはWebサーバから訪問者が来たかを把握することができる。
【0083】
前記ステップ317でのチェックの結果、以前に接続されたWebページである場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ319)。
【0084】
ここで、ユーザ端末では、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であって以前に接続されたWebページである場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。これは、以前に接続されたWebページである場合、有害URL探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。
【0085】
一方、前記ステップ317でのチェックの結果、以前に接続されたWebページでない場合、ユーザ端末では、接続対象URLに対する応答コード(response code)を確認することができる(ステップ321)。
【0086】
ここで、応答コードは、HTTP応答状態コードのリストであって、1**は条件付き応答、2**は成功、3**はリダイレクト完了、4**は要求エラー、5**はサーバエラーをそれぞれ示すことができる。
【0087】
次に、ユーザ端末では、前記ステップ321での応答コードの確認の結果、接続対象URLが正常な通信でない場合、接続対象URLを探知対象から除外することができる(ステップ323)。
【0088】
ここで、応答コードが3**のリダイレクトコードである場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象URLが正常な通信でない4**、5**の応答コードを有する場合、接続が不可能なWebサイトとして探知対象から除外することができる。
【0089】
一方、ユーザ端末では、前記ステップ321での応答コードの確認の結果、接続対象URLが正常な通信である場合、接続対象URLのHTML(Hypertext Markup Language)構文を抽出することができる(ステップ325)。
【0090】
例えば、接続対象URLが正常な通信である1**、2**、一部3**の応答コードを有する場合、以後、有害URL探知過程を行うことができ、これにより、ユーザ端末では探知対象から除外されていない接続対象URLに対するHTML構文をクローリングして抽出することができるが、クローリングは、Web上に存在するコンテンツを収集する作業であって、HTMLページを抽出してHTML/CSSなどをパーシングし、必要なデータのみを抽出することができ、これは、後述する人工知能学習のために特徴を抽出及び加工するためである。
次に、ユーザ端末では、抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出することができる(ステップ327)。
【0091】
例えば、ユーザ端末では、悪性ドメインと正常ドメインを分類することができる有意な特徴を抽出するために、複数の学習対象特徴を抽出してニューメリックデータ(numeric data)で表現した後に、相関係数分析を通じて最終的にラベル(label)を分類するのに影響を及ぼす可能性のある特徴を抽出することができる。
【0092】
このようなステップでは、正常と悪性の差異を誘導することができる複数の学習対象特徴(例えば、全体タグ数に対する、特定タグのHTML内での自分自身のドメイン名の呼び出し回数、HTTPプロトコルとWWW.を除くドメイン部分のパターン、HTML内のスクリプト文パターン及びキーワード抽出など)を抽出することができる。
次に、ユーザ端末では、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行うことができる(ステップ329)。
【0093】
例えば、ユーザ端末では、前記ステップ327で抽出された複数の学習対象特徴(例えば、全体タグ数に対する、特定タグのHTML内での自分自身のドメイン名の呼び出し回数、HTTPプロトコルとWWW.を除くドメイン部分のパターン、HTML内のスクリプト(script)文パターン及びキーワード抽出など)を用いて人工知能学習のためのデータ形式で構成することができ、これを用いて人工知能学習を行うことができる。
【0094】
ここで、人工知能学習は、ツリーベースのアンサンブル学習に使用されるXGBoostを用いて機械学習分類器を学習する方式で行われることができる。これは、分類性能に優れるうえ、内部的に交差検証が可能であるという利点があり、構成された人工知能学習データをラベリング(labeling)して学習を行うことができる。
【0095】
例えば、図5に示すように、全体タグ数に対する特定タグの割合は、「<aタグ数4/全体タグ数15=0.2667」のように表すことができ、HTML内での自分自身のドメイン名の呼び出し回数は、HTML構文内で当該URLのドメイン名登場回数をカウントするものであり、特定のblog.naver.com html構文内のnaver.com登場回数などのように表すことができ、HTML構文内のスクリプト文特定パターン及びキーワード登場回数は「C=N;O=D」、「slowAES.descrypt」、「window.ethereum」+「window.web3」などで表すことができる。
【0096】
また、HTMLプロトコルとWWW.部分を除くドメインパターンは、「https://www.naver.com→..com」、「http://65zipxa.65zipxa.raminacrm.ir→...ir」、「http://www.istmall.co.kr→..co.kr」などで表すことができる。
【0097】
そして、ユーザ端末では、人工知能学習を行った人工知能モデルを用いて接続対象URLが正常であるか悪性であるかを確認(すなわち、予測及び分類)することができる(ステップ331)。
また、ユーザ端末では、接続対象URLが正常である場合、接続対象URLをホワイトリストに追加することができる(ステップ333)。
もちろん、ユーザ端末では、接続対象URLが悪性である場合、当該URLを遮断することができる。
【0098】
したがって、本発明の第3実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる。
【0099】
また、本発明の第3実施形態によれば、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLのHTML構文を抽出し、抽出されたHTML構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる。
【0100】
図6は、本発明の第4実施形態によって有害URLを探知する過程を示すフローチャートであり、図7及び図8は、本発明の第4実施形態によって有害URLを探知する過程を説明するための図である。
【0101】
ここで、有害URL探知方法は、Webページの検索及び接続中に有害URLを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、感性辞書、人工知能モデルなどを保存する記憶媒体と、プロセッサが実行されるユーザ端末(例えば、コンピュータ端末、モバイル端末など)を介して行われ得る。
【0102】
図6図8を参照すると、ユーザ端末では、接続しようとするWebページに進入要求することができる(ステップ411)。ここで、ユーザ端末では、Webサイト検索後にWebページに進入する場合、これに対応する進入要求(request)が発生する可能性があり、これにより、以下に説明する有害URL探知ステップが行われ得る。
【0103】
そして、ユーザ端末では、進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較することができる(ステップ413)。
【0104】
例えば、ユーザ端末では、進入要求された接続対象URLに対して、全体URLのうち、パラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を辞書(dicticary)形式で既に保存されたホワイトリストと比較することができる。
【0105】
前記ステップ413での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ415)。
【0106】
ここで、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在する場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。
【0107】
一方、前記ステップ413での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象URLが以前に接続されたWebページであるかをチェックすることができる(ステップ417)。
【0108】
前記接続対象URLが以前に接続されたWebページであるかをチェックするステップ140では、ユーザ端末で、接続対象URLと以前に接続されたWebページに対するリファラ(referer)とを比較して同一か否かをチェックする方式で行われ得る。
【0109】
例えば、ユーザ端末では、接続対象URLのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であるか否かを比較する方式で、以前に接続されたページであるかをチェックすることができる。
【0110】
ここで、リファラは、HTTPプロトコルヘッダー値であり、これを用いて、現在表示するWebページがどのWebページで要求されたかを確認することができ、どのWebサイトまたはWebサーバから訪問者が来たかを把握することができる。
【0111】
前記ステップ417でのチェックの結果、以前に接続されたWebページである場合、ユーザ端末では、接続対象URLを探知対象から除外することができる(ステップ419)。
【0112】
ここで、ユーザ端末では、接続対象URLのリファラと以前に接続されたWebページのリファラとが同一であって以前に接続されたWebページである場合、正常URLと判断して探知対象(すなわち、有害URL)から除外することができる。これは、以前に接続されたWebページである場合、有害URL探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。
【0113】
一方、前記ステップ417でのチェックの結果、以前に接続されたWebページでない場合、ユーザ端末では、接続対象URLに対する応答コード(response code)を確認することができる(ステップ421)。
【0114】
ここで、応答コードは、HTTP応答状態コードのリストであって、1**は条件付き応答、2**は成功、3**はリダイレクト完了、4**は要求エラー、5**はサーバエラーをそれぞれ示すことができる。
【0115】
次に、ユーザ端末では、前記ステップ421での応答コードの確認の結果、接続対象URLが正常な通信でない場合、接続対象URLを探知対象から除外することができる(ステップ423)。
【0116】
ここで、応答コードが3**のリダイレクトコード(redirection code)である場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象URLが正常な通信でない4**、5**の応答コードを有する場合、接続が不可能なWebサイトとして探知対象から除外することができる。
【0117】
一方、ユーザ端末では、前記ステップ421での応答コードの確認の結果、接続対象URLが正常な通信でない場合、接続対象URLに対するWebサイト検索(web search)を行うことができる(ステップ425)。
【0118】
ここで、接続対象URLが正常な通信である1**、2**、一部3**の応答コードを有する場合、以後、有害URL探知過程を行うことができ、これにより、ユーザ端末では接続対象URLに対するWebサイト検索を行うことができる。
【0119】
そして、ユーザ端末では、Webサイト検索に対する検索結果詳細内容を抽出することができる(ステップ427)。例えば、図7及び図8に示すようなWebサイト検索結果からその詳細内容を抽出してテキストに変換することができるが、Webサイト検索結果画面から検索結果詳細内容(search detail)をタグID(tag id)に基づいて抽出してテキストに変換することができる。
次に、ユーザ端末では、抽出された検索結果詳細内容を文字列にトークナイズすることができる(ステップ429)。
【0120】
ここで、自然言語処理のために、まず、テキストに関する情報を単位別に分ける前処理を行うことができるが、トークナイズは、予測すべき情報(例えば、文章又は発話)を一つの特定基本単位で切ることを意味し、肯定語、否定語などに該当する副詞、形容詞、動詞、名詞のみを残してすべて除去した後にトークナイズを行うことができる。
そして、ユーザ端末では、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成することができる(ステップ431)。
【0121】
ここで、ユーザ端末では、トークナイズされた文字列別に感性スコアを割り当てることができるが、図8に示すように、Anti+virusの場合、悪性キーワードであるvirusに感性スコア1を割り当て、Antiというキーワードに感性スコア2を割り当てる方式で各文字列に感性スコアを割り当てることができ、これらを辞書(dictionary)形式に変換して感性辞書を生成することができる。
【0122】
次に、ユーザ端末では、感性辞書と人工知能モデルを用いた学習及び分析によって、接続対象URLが正常であるか悪性であるかを確認することができる(ステップ433)。
【0123】
例えば、ユーザ端末では、前記ステップ431で生成された感性辞書の感性スコアを人工知能モデルの入力データに反映して分析、学習及び予測を行うことができるが、その学習及び分析方式は、指導学習方式を用いて、図8に示すように正常ドメインを検索したときの感性辞書反映結果と悪性ドメインを検索したときの感性辞書反映結果との差を判別することができるようにする。
【0124】
ここで、図8に示すように文章における悪性キーワードと正常キーワードの存在、位置的な組み合わせによって正常と悪性が分類及び確認されなければならないため、人工知能モデルでは、文字列の内部から特徴を抽出、誘導及び予測可能なCNNアルゴリズムを用いることができる。
また、ユーザ端末では、接続対象URLが正常である場合、接続対象URLをホワイトリストに追加することができる(ステップ435)。
もちろん、ユーザ端末では、接続対象URLが悪性である場合、当該URLを遮断することができる。
【0125】
したがって、本発明の第4実施形態によれば、ユーザ端末で接続しようとするWebページに進入要求すると、Webページに対応する接続対象URLを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象URLが以前に接続されたWebページであるかをチェックして、以前に接続されたWebページである場合には、探知対象から除外し、以前に接続されたWebページでない場合には、接続対象URLに対する応答コードを確認して、接続対象URLが正常な通信でなければ探知対象から除外することにより、有害URLを効果的に探知及び遮断することができる。
【0126】
また、本発明の第4実施形態によれば、応答コードを確認して接続対象URLが正常な通信である場合、接続対象URLに対するWebサイト検索を行ってその検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象URLが正常であるか悪性であるかを確認することにより、有害URLをより効果的に探知及び遮断することができる。
【0127】
一方、図9は、本発明の第5実施形態による有害URL探知方法を示す図であり、本発明の第5実施形態では、上述した第1実施形態を前段に置き、その後段に第2実施形態の後段部過程(ステップ225~ステップ233)と、第3実施形態の後段部過程(ステップ325~ステップ331)と、第4実施形態の後段部過程(ステップ425~ステップ433)とを並列に処理した後に、第3実施形態及び第4実施形態に対してまずモデル重み付きアンサンブル(model weight ensemble)処理し、その結果を第2実施形態を用いて最終分類(final classification)する方式で行われ得る。
【0128】
すなわち、前記第1実施形態は、ユーザ端末で接続しようとするWebページに進入要求するステップと、前記進入要求されたWebページに対応する接続対象URL(uniform resource locator)を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較の結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象URLが以前に接続されたWebページであるかをチェックするステップと、前記以前に接続されたWebページである場合、前記探知対象から除外するステップと、前記以前に接続されたWebページでない場合、前記接続対象URLに対する応答コードを確認するステップと、前記応答コードの確認の結果、前記接続対象URLが正常な通信でない場合、前記探知対象から除外するステップなどを含むことができる。
【0129】
また、第2実施形態の後段部過程(ステップ225~ステップ233)は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対して少なくとも一つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常或いは悪性に分類する第1-1ステップなどを含むことができる。
【0130】
そして、第3実施形態の後段部過程(ステップ325~ステップ331)は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLのHTML(Hypertext Markup Language)構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象URLが正常であるか悪性であるかを確認するステップ1-2ステップなどを含むことができる。
【0131】
一方、第4実施形態の後段部過程(ステップ425~ステップ433)は、前記応答コードの確認の結果、前記接続対象URLが前記正常な通信である場合、前記接続対象URLに対するWebサイト検索を行い、詳細内容を抽出してトークナイズ(tokenizing)した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象URLが正常であるか悪性であるかを確認する第1-3ステップなどを含むことができる。
【0132】
次に、第1-2ステップ及び第1-3ステップの各結果に対してモデル重み付きアンサンブル(model weight ensemble)処理する第2ステップと、前記第1-1ステップの結果を用いて前記第2ステップの結果を最終分類するステップなどを行うことができる。
【0133】
ここで、モデル重み付きアンサンブル(model weight ensemble)は、第3実施形態と第4実施形態の結果から抽出することができる確率(probability)を用いて、アンサンブル方式の一種である間接投票(soft voting)を行い、分類器ごとに当該範疇(label)に属する確率の平均を算出し、平均の最も高い範疇(label)に範疇を分類する方式で行われ得る。
【0134】
また、第2実施形態は、クラスタリングによって群集化された正常と悪性において異常値を除去したデータ群の閾値を探知することができるようにロジック(logic)化して表現したモデルであって、過探知と未探知のない狭い範囲の探知を行うことができるから、第3実施形態と第4実施形態の欠損データ(missing value)を探知するために最終分類(final classification)においてサブモデル(sub model)として適用することができる。
上述したように全ての実施形態を統合して適用する場合、有害URLを最大化して探知することができる。
【0135】
以上の説明では、本発明の様々な実施形態を提示して説明したが、本発明が必ずしもこれに限定されるものではなく、本発明の属する技術分野における通常の知識を有する者であれば、本発明の技術的思想から逸脱することなく様々な置換、変形及び変更が可能であることが容易に分かるであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】