特表2024-529595 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ピルサンカンパニーリミテッドの特許一覧

特表2024-529595有害ＵＲＬ探知方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-08

(54)【発明の名称】有害ＵＲＬ探知方法

(51)【国際特許分類】

G06F 21/55 20130101AFI20240801BHJP

【ＦＩ】

G06F21/55

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023557282

(86)(22)【出願日】2022-09-22

(85)【翻訳文提出日】2023-09-15

(86)【国際出願番号】 KR2022014207

(87)【国際公開番号】W WO2024019226

(87)【国際公開日】2024-01-25

(31)【優先権主張番号】10-2022-0090995

(32)【優先日】2022-07-22

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】523353605

【氏名又は名称】ピルサンカンパニーリミテッド

【氏名又は名称原語表記】ＰＩＬＬＳＡＮＧＣＯ．，ＬＴＤ．

(74)【代理人】

【識別番号】100139594

【弁理士】

【氏名又は名称】山口健次郎

(72)【発明者】

【氏名】カンピルサン

(72)【発明者】

【氏名】キムジフン

(72)【発明者】

【氏名】ホンキホン

(57)【要約】

本発明は、有害ＵＲＬ探知方法に関するものであって、ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認するステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップと、を含むことにより、有害ＵＲＬを効果的に探知及び遮断することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、
前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、
前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、
前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、
前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、
前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認するステップと、
前記応答コードの確認の結果、前記接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップと、を含む、有害ＵＲＬ探知方法。

【請求項2】

前記有害ＵＲＬ探知方法は、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行うステップと、
前記詳細検索を行った検索結果ページから検索件数の特徴を抽出するステップと、
前記抽出された検索件数の特徴を人工知能モデルを用いて群集化するステップと、
前記群集化するステップによって取得された群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出するステップと、
前記抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類するステップと、をさらに含む、請求項１に記載の有害ＵＲＬ探知方法。

【請求項3】

前記有害ＵＲＬ探知方法は、
前記抽出された閾値が所定の基準特徴値よりも相対的に高い場合に正常に分類して前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、請求項２に記載の有害ＵＲＬ探知方法。

【請求項4】

前記有害ＵＲＬ探知方法は、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出するステップと、
前記抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出するステップと、
前記抽出された学習対象特徴を含む人工知能学習データを構成して前記人工知能学習を行うステップと、
前記人工知能学習を行った人工知能モデルを用いて、前記接続対象ＵＲＬが正常であるか悪性であるかを確認するステップと、をさらに含む、請求項１に記載の有害ＵＲＬ探知方法。

【請求項5】

前記有害ＵＲＬ探知方法は、
前記接続対象ＵＲＬが正常である場合に前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、請求項４に記載の有害ＵＲＬ探知方法。

【請求項6】

前記有害ＵＲＬ探知方法は、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対するＷｅｂサイト検索を行うステップと、
前記Ｗｅｂサイト検索に対する検索結果詳細内容を抽出するステップと、
前記抽出された検索結果詳細内容を文字列にトークナイズ（ｔｏｋｅｎｉｚｉｎｇ）するステップと、
前記トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成するステップと、
前記感性辞書を用いて人工知能モデルを用いた学習及び分析によって前記接続対象ＵＲＬが正常であるか悪性であるかを確認するステップと、をさらに含む、請求項１に記載の有害ＵＲＬ探知方法。

【請求項7】

前記有害ＵＲＬ探知方法は、
前記接続対象ＵＲＬが正常である場合、前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、請求項６に記載の有害ＵＲＬ探知方法。

【請求項8】

ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、
前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、
前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、
前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、
前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、
前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コードを確認するステップと、
前記応答コードの確認の結果、前記接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップと、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対して少なくとも１つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常または悪性に分類する第１－１ステップと、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象ＵＲＬが正常であるか悪性であるかを確認する第１－２ステップと、
前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対するＷｅｂサイト検索を行い、詳細内容を抽出してトークナイズ（ｔｏｋｅｎｉｚｉｎｇ）した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象ＵＲＬが正常であるか悪性であるかを確認する第１－３ステップと、
前記第１－２ステップ及び第１－３ステップの各結果に対してモデル重み付きアンサンブル（ｍｏｄｅｌｗｅｉｇｈｔｅｎｓｅｍｂｌｅ）処理する第２ステップと、
前記第１－１ステップの結果を用いて前記第２ステップの結果を最終分類（ｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）するステップと、を含む、有害ＵＲＬ探知方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ、探知対象から除外するだけでなく、Ｗｅｂ上で発生しうる様々なデータを用いた人工知能モデルを通じて有害ＵＲＬを探知することにより、有害ＵＲＬを効果的に探知及び遮断することができる有害ＵＲＬ探知方法に関する。

【背景技術】

【0002】

周知の如く、最近、通信ネットワークの発達及びパーソナルコンピュータ（ＰＣ）、携帯端末、スマートフォン、ＰＤＡなどのモバイル機器の普及により、時間や場所などを問わず、映像データ、音声データ、写真データなどの様々なコンテンツをダウンロードしたりリアルタイムで利用したりすることができる。

【0003】

また、ユーザは、時間や場所などの制約なしにコンピュータ、携帯機器などを用いて様々なＷｅｂサイトに接続して情報を取得したり、これを活用したりすることが増えている。

【0004】

しかし、インターネットの自由な使用による文化生活の利便性の増加に伴い、成長期の子どもや青少年などが淫乱動画、詐欺性コンテンツなどの有害コンテンツにさらされる危険性も一緒に増加している。

【0005】

これにより、インターネット上で容易にアクセスすることができるコンテンツの内容を分析して自動的に有害性有無を判断し、有害コンテンツの場合には接続を遮断する技術に対する要求が持続的に高まっている。

【0006】

一方、従来、有害コンテンツを遮断する技術は、対象コンテンツの類型に応じて様々な方式で行われているが、端末に動画、静止画などが保存されて実行される場合、端末に保存されたデータに対して有害性を分析した後、有害コンテンツを削除及び遮断する方式で行われるか、或いは端末に保存される過程なしにインターネット上のストリーミングサービスなどのようにリアルタイムで提供されるコンテンツであれば、動画の再生時の有害性を判別して遮断する方式で行われることができる。

【0007】

ところが、インターネット使用環境の利便性が高まり、利用可能な通信速度が増加するにつれて、現在は、コンテンツを端末に直接保存して利用する場合よりも、インターネット上のＷｅｂアドレス（ＵＲＬ：ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を介して当該Ｗｅｂサイトに接続した後にオンライン上でコンテンツを利用する割合が増加しているため、大規模な正常ＵＲＬ情報を含むホワイトリスト、及び大規模な有害ＵＲＬ情報を含むブラックリストを用いてＵＲＬのアクセスを遮断する方式が主に用いられている。

【0008】

しかし、ＵＲＬは、無限の方式で偽造及び変形が可能であり、その速度も非常に速いため、大規模なリストベースの探知では限界があり、より効率よく有害性ＵＲＬを探知して遮断する技法の開発が求められている。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】韓国特許第１０－１５４５９６４号（２０１５年８月１３日登録）

【発明の概要】

【発明が解決しようとする課題】

【0010】

本発明は、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる有害ＵＲＬ探知方法を提供しようとする。

【0011】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信であれば、接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行うことにより、その検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することにより、有害ＵＲＬをより効果的に探知及び遮断することができる有害ＵＲＬ探知方法を提供しようとする。

【0012】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信であれば、接続対象ＵＲＬのＨＴＭＬ構文を抽出し、抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる有害ＵＲＬ探知方法を提供しようとする。

【0013】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信であれば、接続対象ＵＲＬに対するＷｅｂサイト検索を行ってその検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる有害ＵＲＬ探知方法を提供しようとする。

【0014】

本発明の実施形態の目的は、上述した目的に限定されず、上述していない別の目的は、以降の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解できるであろう。

【課題を解決するための手段】

【0015】

本発明の実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認するステップと、前記応答コードの確認の結果、接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップと、を含む、有害ＵＲＬ探知方法が提供できる。

【0016】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行うステップと、前記詳細検索を行った検索結果ページから検索件数の特徴を抽出するステップと、前記抽出された検索件数の特徴を人工知能モデルを用いて群集化するステップと、前記群集化するステップによって取得された群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出するステップと、前記抽出された閾値が所定の基準特徴値よりも相対的に低い場合、悪性に分類するステップと、をさらに含む、有害ＵＲＬ探知方法が提供できる。

【0017】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記抽出された閾値が所定の基準特徴値よりも相対的に高い場合に正常に分類して前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、有害ＵＲＬ探知方法が提供できる。

【0018】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出するステップと、前記抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出するステップと、前記抽出された学習対象特徴を含む人工知能学習データを構成して前記人工知能学習を実行するステップと、前記人工知能学習を行った人工知能モデルを用いて、前記接続対象ＵＲＬが正常であるか悪性であるかを確認するステップと、をさらに含む、有害ＵＲＬ探知方法が提供できる。

【0019】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記接続対象ＵＲＬが正常である場合に前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、有害ＵＲＬ探知方法が提供できる。

【0020】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対するＷｅｂサイト検索を行うステップと、前記Ｗｅｂサイト検索に対する検索結果詳細内容を抽出するステップと、前記抽出された検索結果詳細内容を文字列にトークナイズ（ｔｏｋｅｎｉｚｉｎｇ）するステップと、前記トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成するステップと、前記感性辞書を用いて人工知能モデルを用いた学習及び分析によって前記接続対象ＵＲＬが正常であるか悪性であるかを確認するステップと、をさらに含む、有害ＵＲＬ探知方法が提供できる。

【0021】

また、本発明の実施形態によれば、前記有害ＵＲＬ探知方法は、前記接続対象ＵＲＬが正常である場合、前記接続対象ＵＲＬを前記ホワイトリストに追加するステップをさらに含む、有害ＵＲＬ探知方法が提供できる。

【0022】

また、本発明の実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認するステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対して少なくとも１つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常または悪性に分類する第１－１ステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象ＵＲＬが正常であるか悪性であるかを確認する第１－２ステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対するＷｅｂサイト検索を行い、詳細内容を抽出してトークナイズ（ｔｏｋｅｎｉｚｉｎｇ）した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象ＵＲＬが正常であるか悪性であるかを確認する第１－３ステップと、前記第１－２ステップ及び第１－３ステップの各結果に対してモデル重み付きアンサンブル（ｍｏｄｅｌｗｅｉｇｈｔｅｎｓｅｍｂｌｅ）処理する第２ステップと、前記第１－１ステップの結果を用いて前記第２ステップの結果を最終分類（ｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）するステップと、を含む、有害ＵＲＬ探知方法が提供できる。

【発明の効果】

【0023】

本発明は、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる。

【0024】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行ってその検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち、異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することにより、有害ＵＲＬをより効果的に探知及び遮断することができる。

【0025】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬのＨＴＭＬ構文を抽出し、抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる。

【0026】

また、本発明は、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬに対するＷｅｂサイト検索を行うことにより、その検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる。

【図面の簡単な説明】

【0027】

【図1】本発明の第１実施形態によって有害ＵＲＬを探知する過程を示すフローチャートである。

【図2】本発明の第２実施形態によって有害ＵＲＬを探知する過程を示すフローチャートである。

【図3】本発明の第２実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【図4】本発明の第３実施形態によって有害ＵＲＬを探知する過程を示すフローチャートである。

【図5】本発明の第３実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【図6】本発明の第４実施形態によって有害ＵＲＬを探知する過程を示すフローチャートである。

【図7】本発明の第４実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【図8】本発明の第４実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【図9】本発明の第５実施形態による有害ＵＲＬ探知方法を示す図である。

【発明を実施するための形態】

【0028】

本発明の実施形態に対する利点、特徴、及びそれらの達成方法は、添付図面と一緒に詳細に後述されている実施形態を参照すると明確になるだろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる多様な形態に実現できる。但し、本実施形態は、本発明の開示を完全たるものとし、本発明の属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものである。本発明は請求項の範疇のみによって定義される。明細書全体にわたって、同じ参照符号は同じ構成要素を示す。

【0029】

本発明の実施形態を説明するにあたり、公知の機能または構成についての具体的な説明が本発明の要旨を無駄に不明確にするおそれがあると判断される場合は、その詳細な説明を省略する。そして、後述する用語は、本発明の実施形態における機能を考慮して定義された用語であって、これはユーザや運用者の意図または慣例などによって変わり得る。よって、その定義は本明細書全般にわたっての内容に基づいて下されるべきである。
以下、添付図面を参照して本発明の実施形態を詳細に説明する。
図１は、本発明の第１実施形態によって有害ＵＲＬを探知する過程を示すフローチャートである。

【0030】

ここで、有害ＵＲＬ探知方法は、Ｗｅｂページの検索及び接続中に有害ＵＲＬを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト等を保存する記憶媒体と、プロセッサが実行されるユーザ端末（例えば、コンピュータ端末、モバイル端末など）を介して行われることができる。

【0031】

図１を参照すると、ユーザ端末では、接続しようとするＷｅｂページに進入要求することができる（ステップ１１０）。ここで、ユーザ端末では、Ｗｅｂサイト検索後にＷｅｂページに進入する場合、これに対応する進入要求（ｒｅｑｕｅｓｔ）が発生する可能性があり、これにより、以下に説明する有害ＵＲＬ探知ステップが行われ得る。

【0032】

そして、ユーザ端末では、進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較することができる（ステップ１２０）。

【0033】

例えば、ユーザ端末では、進入要求された接続対象ＵＲＬに対して、全体ＵＲＬのうち、パラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を辞書（ｄｉｃｔｉｃａｒｙ）形式で既に保存されたホワイトリストと比較することができる。
前記ステップ１２０での比較結果、同一ドメインが存在する場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ１３０）。

【0034】

ここで、ユーザ端末では、接続対象ＵＲＬのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在する場合、正常ＵＲＬと判断して探知対象（すなわち、有害ＵＲＬ）から除外することができる。

【0035】

一方、前記ステップ１２０での比較結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックすることができる（ステップ１４０）。

【0036】

前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップ１４０では、ユーザ端末で、接続対象ＵＲＬと以前に接続されたＷｅｂページに対するリファラ（ｒｅｆｅｒｅｒ）とを比較して同一か否かをチェックする方式で行われ得る。

【0037】

例えば、ユーザ端末では、接続対象ＵＲＬのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象ＵＲＬのリファラと以前に接続されたＷｅｂページのリファラとが同一であるか否かを比較する方式で、以前に接続されたページであるかをチェックすることができる。

【0038】

ここで、リファラは、ＨＴＴＰプロトコルヘッダー値であり、これを用いて、現在表示するＷｅｂページがどのＷｅｂページから要求されたかを確認することができ、どのＷｅｂサイトまたはＷｅｂサーバから訪問者が来たかを把握することができる。

【0039】

前記ステップ１４０でのチェックの結果、以前に接続されたＷｅｂページである場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ１５０）。

【0040】

ここで、ユーザ端末では、接続対象ＵＲＬのリファラと以前に接続されたＷｅｂページのリファラとが同一であって、以前に接続されたＷｅｂページである場合、正常ＵＲＬと判断して探知対象（すなわち、有害ＵＲＬ）から除外することができる。これは、以前に接続されたＷｅｂページである場合、有害ＵＲＬ探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。

【0041】

一方、ステップ１４０でのチェックの結果、以前に接続されたＷｅｂページでない場合、ユーザ端末では、接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認することができる（ステップ１６０）。

【0042】

ここで、応答コードは、ＨＴＴＰ応答状態コードのリストであって、１＊＊は条件付き応答、２＊＊は成功、３＊＊はリダイレクト完了、４＊＊は要求エラー、５＊＊はサーバエラーをそれぞれ示すことができる。

【0043】

次に、ユーザ端末では、前記ステップ１６０における応答コードの確認の結果、接続対象ＵＲＬが正常な通信でなければ、接続対象ＵＲＬを探知対象から除外することができる（ステップ１７０）。

【0044】

ここで、応答コードが３＊＊のリダイレクトコード（ｒｅｄｉｒｅｃｔｉｏｎｃｏｄｅ）であれば、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象ＵＲＬが正常な通信ではない４＊＊、５＊＊の応答コードを有する場合、接続が不可能なＷｅｂサイトとして探知対象から除外することができる。

【0045】

したがって、本発明の第１実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる。

【0046】

図２は、本発明の第２実施形態によって有害ＵＲＬを探知する過程を示すフローチャートであり、図３は、本発明の第２実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【0047】

ここで、有害ＵＲＬ探知方法は、Ｗｅｂページの検索及び接続中に有害ＵＲＬを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、人工知能モデル、統計的異常値算出アルゴリズム、基準値などを保存する記憶媒体と、プロセッサが実行されるユーザ端末（例えば、コンピュータ端末、モバイル端末など）を介して行われることができる。

【0048】

図２及び図３を参照すると、ユーザ端末では、接続しようとするＷｅｂページに進入要求することができる（ステップ２１１）。ここで、ユーザ端末では、Ｗｅｂサイト検索後にＷｅｂページに進入する場合、これに対応する進入要求（ｒｅｑｕｅｓｔ）が発生する可能性があり、これにより、以下に説明する有害ＵＲＬ探知ステップが行われ得る。

【0049】

そして、ユーザ端末では、進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較することができる（ステップ２１３）。

【0050】

例えば、ユーザ端末では、進入要求された接続対象ＵＲＬに対して、全体ＵＲＬのうちパラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を、辞書（ｄｉｃｔｉｃａｒｙ）形式で既に保存されたホワイトリストと比較することができる。

【0051】

前記ステップ２１３での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ２１５）。

【0052】

【0053】

一方、前記ステップ２１３での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックすることができる（ステップ２１７）。

【0054】

【0055】

例えば、ユーザ端末では、接続対象ＵＲＬのドメイン領域が既に保存されたホワイトリストに同一ドメインが存在しない場合、接続対象ＵＲＬのリファラと以前に接続されたＷｅｂページのリファラとが同一であるかを比較する方式で、以前に接続されたページであるかをチェックすることができる。

【0056】

ここで、リファラは、ＨＴＴＰプロトコルヘッダー値であり、これを用いて、現在表示するＷｅｂページがどのＷｅｂページで要求されたかを確認することができ、どのＷｅｂサイトまたはＷｅｂサーバから訪問者が来たかを把握することができる。

【0057】

前記ステップ２１７でのチェックの結果、以前に接続されたＷｅｂページである場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ２１９）。

【0058】

ここで、ユーザ端末では、接続対象ＵＲＬのリファラと以前に接続されたＷｅｂページのリファラとが同一であって、以前に接続されたＷｅｂページである場合、正常ＵＲＬと判断して探知対象（すなわち、有害ＵＲＬ）から除外することができる。これは、以前に接続されたＷｅｂページの場合、有害ＵＲＬ探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。

【0059】

一方、前記ステップ２１７でのチェックの結果、以前に接続されたＷｅｂページでない場合、ユーザ端末では、接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認することができる（ステップ２２１）。

【0060】

【0061】

次に、ユーザ端末では、前記ステップ２２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信でない場合、接続対象ＵＲＬを探知対象から除外することができる（ステップ２２３）。

【0062】

ここで、応答コードが３＊＊のリダイレクトコード（ｒｅｄｉｒｅｃｔｉｏｎｃｏｄｅ）である場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象ＵＲＬが正常な通信ではない４＊＊、５＊＊の応答コードを有する場合、接続が不可能なＷｅｂサイトとして探知対象から除外することができる。

【0063】

一方、ユーザ端末では、前記ステップ２２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行うことができる（ステップ２２５）。

【0064】

ここで、接続対象ＵＲＬが正常な通信である１＊＊、２＊＊、一部３＊＊の応答コードを有する場合、以後、有害ＵＲＬ探知過程を行うことができ、これにより、ユーザ端末では接続対象ＵＲＬから全体ＵＲＬのうちパラメータを除くドメイン領域を抽出し、抽出されたドメイン領域をポータル別に詳細検索クエリを用いた詳細検索を行うことができるが、例えば、Ｇｏｏｇｌｅ詳細検索の場合は「～＊＊」などを用いることができ、Ｂｉｎｇ詳細検索の場合は「ｉｎａｎｃｈｏｒ：＊＊」などを用いることができる。
次に、前記ステップ２２５での詳細検索を行った検索結果ページから、ユーザ端末では検索件数の特徴を抽出することができる（ステップ２２７）。

【0065】

例えば、ユーザ端末では、図３に示すように、検索結果ページから検索結果件数、検索結果におけるドメイン登場回数、指定悪性キーワード検索件数などを含む検索件数の特徴を抽出することができる。
そして、ユーザ端末では、抽出された検索件数の特徴を人工知能モデルを用いて群集化することができる（ステップ２２９）。

【0066】

例えば、ユーザ端末では、抽出された検索件数の特徴（例えば、検索結果件数、検索結果におけるドメイン登場回数、指定悪性キーワード検索件数など）を、非地図方式の人工知能モデルであるＫ平均アルゴリズム（Ｋ－ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ）を用いて検索件数の特徴を群集化することができるが、Ｋ平均アルゴリズムを用いて検索結果におけるドメイン登場回数、指定悪性キーワード検索件数などに対応する複数の特徴値を有する特徴データの位置を平面上にｘ値及びｙ値で表現することにより、座標の距離による群集化を行うことができる。
ここで、Ｋ平均アルゴリズムは、類似した特性を持つデータ同士をＫ個の群集にまとめるアルゴリズムを意味する。

【0067】

次に、ユーザ端末では、前記群集化するステップ２２９によって取得された群集化結果のうち、異常値（ａｎｏｍａｌｙ）が除去された正常と悪性との間の閾値を抽出することができる（ステップ２３１）。

【0068】

例えば、ユーザ端末では、修正されたＺスコア（ｍｏｄｉｆｉｅｄＺ－ｓｃｏｒｅ）などを含む統計的異常値算出法を用いて群集化結果の中から異常値を探して除去し、その異常値に応じて正常値と悪性値との間の閾値を抽出することができる。
そして、ユーザ端末では、抽出された閾値が所定の基準特徴値よりも相対的に低い場合、悪性に分類することができる（ステップ２３３）。

【0069】

また、ユーザ端末では、抽出された閾値が所定の基準特徴値よりも相対的に高い場合、正常に分類して接続対象ＵＲＬをホワイトリストに追加することができる（ステップ２３５）。

【0070】

したがって、本発明の第２実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂペーであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる。

【0071】

また、本発明の第２実施形態によれば、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬから接続対象ドメインを抽出して少なくとも１つのポータルで詳細検索を行うことにより、その検索結果ページから検索件数の特徴を抽出し、抽出された検索件数の特徴を人工知能モデルを用いて群集化した後に、群集化結果のうち異常値が除去された正常と悪性との間の閾値を抽出し、抽出された閾値が所定の基準特徴値よりも相対的に低い場合に悪性に分類することで、有害ＵＲＬをより効果的に探知及び遮断することができる。

【0072】

図４は、本発明の第３実施形態によって有害ＵＲＬを探知する過程を示すフローチャートであり、図５は、本発明の第３実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【0073】

ここで、有害ＵＲＬ探知方法は、Ｗｅｂページの検索及び接続中に有害ＵＲＬを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、相関分析アルゴリズム、人工知能モデルなどを保存する記憶媒体と、プロセッサが実行されるユーザ端末（例えば、コンピュータ端末、モバイル端末など）によって行われ得る。

【0074】

図４及び図５を参照すると、ユーザ端末では、接続しようとするＷｅｂページに進入要求することができる（ステップ３１１）。ここで、ユーザ端末では、Ｗｅｂサイト検索後にＷｅｂページに進入する場合、これに対応する進入要求が発生する可能性があり、これにより、以下に説明する有害ＵＲＬ探知ステップが行われ得る。

【0075】

そして、ユーザ端末では、進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較することができる（ステップ３１３）。

【0076】

【0077】

前記ステップ３１３での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ３１５）。

【0078】

【0079】

一方、前記ステップ３１３での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックすることができる（ステップ３１７）。

【0080】

前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップ１４０では、ユーザ端末で、接続対象ＵＲＬと以前に接続されたＷｅｂページに対するリファラ（ｒｅｆｅｒｅｒ）とを比較して同一か否かをチェックする方式で行われることができる。

【0081】

【0082】

【0083】

前記ステップ３１７でのチェックの結果、以前に接続されたＷｅｂページである場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ３１９）。

【0084】

ここで、ユーザ端末では、接続対象ＵＲＬのリファラと以前に接続されたＷｅｂページのリファラとが同一であって以前に接続されたＷｅｂページである場合、正常ＵＲＬと判断して探知対象（すなわち、有害ＵＲＬ）から除外することができる。これは、以前に接続されたＷｅｂページである場合、有害ＵＲＬ探知対象の確認及び分類が完了した状態であるため、後述する過程を行う必要がないからである。

【0085】

一方、前記ステップ３１７でのチェックの結果、以前に接続されたＷｅｂページでない場合、ユーザ端末では、接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認することができる（ステップ３２１）。

【0086】

【0087】

次に、ユーザ端末では、前記ステップ３２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信でない場合、接続対象ＵＲＬを探知対象から除外することができる（ステップ３２３）。

【0088】

ここで、応答コードが３＊＊のリダイレクトコードである場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象ＵＲＬが正常な通信でない４＊＊、５＊＊の応答コードを有する場合、接続が不可能なＷｅｂサイトとして探知対象から除外することができる。

【0089】

一方、ユーザ端末では、前記ステップ３２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出することができる（ステップ３２５）。

【0090】

例えば、接続対象ＵＲＬが正常な通信である１＊＊、２＊＊、一部３＊＊の応答コードを有する場合、以後、有害ＵＲＬ探知過程を行うことができ、これにより、ユーザ端末では探知対象から除外されていない接続対象ＵＲＬに対するＨＴＭＬ構文をクローリングして抽出することができるが、クローリングは、Ｗｅｂ上に存在するコンテンツを収集する作業であって、ＨＴＭＬページを抽出してＨＴＭＬ／ＣＳＳなどをパーシングし、必要なデータのみを抽出することができ、これは、後述する人工知能学習のために特徴を抽出及び加工するためである。
次に、ユーザ端末では、抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出することができる（ステップ３２７）。

【0091】

例えば、ユーザ端末では、悪性ドメインと正常ドメインを分類することができる有意な特徴を抽出するために、複数の学習対象特徴を抽出してニューメリックデータ（ｎｕｍｅｒｉｃｄａｔａ）で表現した後に、相関係数分析を通じて最終的にラベル（ｌａｂｅｌ）を分類するのに影響を及ぼす可能性のある特徴を抽出することができる。

【0092】

このようなステップでは、正常と悪性の差異を誘導することができる複数の学習対象特徴（例えば、全体タグ数に対する、特定タグのＨＴＭＬ内での自分自身のドメイン名の呼び出し回数、ＨＴＴＰプロトコルとＷＷＷ．を除くドメイン部分のパターン、ＨＴＭＬ内のスクリプト文パターン及びキーワード抽出など）を抽出することができる。
次に、ユーザ端末では、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行うことができる（ステップ３２９）。

【0093】

例えば、ユーザ端末では、前記ステップ３２７で抽出された複数の学習対象特徴（例えば、全体タグ数に対する、特定タグのＨＴＭＬ内での自分自身のドメイン名の呼び出し回数、ＨＴＴＰプロトコルとＷＷＷ．を除くドメイン部分のパターン、ＨＴＭＬ内のスクリプト（ｓｃｒｉｐｔ）文パターン及びキーワード抽出など）を用いて人工知能学習のためのデータ形式で構成することができ、これを用いて人工知能学習を行うことができる。

【0094】

ここで、人工知能学習は、ツリーベースのアンサンブル学習に使用されるＸＧＢｏｏｓｔを用いて機械学習分類器を学習する方式で行われることができる。これは、分類性能に優れるうえ、内部的に交差検証が可能であるという利点があり、構成された人工知能学習データをラベリング（ｌａｂｅｌｉｎｇ）して学習を行うことができる。

【0095】

例えば、図５に示すように、全体タグ数に対する特定タグの割合は、「＜ａタグ数４／全体タグ数１５＝０．２６６７」のように表すことができ、ＨＴＭＬ内での自分自身のドメイン名の呼び出し回数は、ＨＴＭＬ構文内で当該ＵＲＬのドメイン名登場回数をカウントするものであり、特定のｂｌｏｇ．ｎａｖｅｒ．ｃｏｍｈｔｍｌ構文内のｎａｖｅｒ．ｃｏｍ登場回数などのように表すことができ、ＨＴＭＬ構文内のスクリプト文特定パターン及びキーワード登場回数は「Ｃ＝Ｎ；Ｏ＝Ｄ」、「ｓｌｏｗＡＥＳ．ｄｅｓｃｒｙｐｔ」、「ｗｉｎｄｏｗ．ｅｔｈｅｒｅｕｍ」＋「ｗｉｎｄｏｗ．ｗｅｂ３」などで表すことができる。

【0096】

また、ＨＴＭＬプロトコルとＷＷＷ．部分を除くドメインパターンは、「ｈｔｔｐｓ：／／ｗｗｗ．ｎａｖｅｒ．ｃｏｍ→．．ｃｏｍ」、「ｈｔｔｐ：／／６５ｚｉｐｘａ．６５ｚｉｐｘａ．ｒａｍｉｎａｃｒｍ．ｉｒ→．．．ｉｒ」、「ｈｔｔｐ：／／ｗｗｗ．ｉｓｔｍａｌｌ.ｃｏ．ｋｒ→．．ｃｏ．ｋｒ」などで表すことができる。

【0097】

そして、ユーザ端末では、人工知能学習を行った人工知能モデルを用いて接続対象ＵＲＬが正常であるか悪性であるかを確認（すなわち、予測及び分類）することができる（ステップ３３１）。
また、ユーザ端末では、接続対象ＵＲＬが正常である場合、接続対象ＵＲＬをホワイトリストに追加することができる（ステップ３３３）。
もちろん、ユーザ端末では、接続対象ＵＲＬが悪性である場合、当該ＵＲＬを遮断することができる。

【0098】

したがって、本発明の第３実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる。

【0099】

また、本発明の第３実施形態によれば、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬのＨＴＭＬ構文を抽出し、抽出されたＨＴＭＬ構文から人工知能学習のための学習対象特徴を抽出し、抽出された学習対象特徴を含む人工知能学習データを構成して人工知能学習を行った後に、その人工知能モデルを用いて接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる。

【0100】

図６は、本発明の第４実施形態によって有害ＵＲＬを探知する過程を示すフローチャートであり、図７及び図８は、本発明の第４実施形態によって有害ＵＲＬを探知する過程を説明するための図である。

【0101】

ここで、有害ＵＲＬ探知方法は、Ｗｅｂページの検索及び接続中に有害ＵＲＬを探知するステップ別プログラムを行うプロセッサと、各種の設定情報、ホワイトリスト、感性辞書、人工知能モデルなどを保存する記憶媒体と、プロセッサが実行されるユーザ端末（例えば、コンピュータ端末、モバイル端末など）を介して行われ得る。

【0102】

図６～図８を参照すると、ユーザ端末では、接続しようとするＷｅｂページに進入要求することができる（ステップ４１１）。ここで、ユーザ端末では、Ｗｅｂサイト検索後にＷｅｂページに進入する場合、これに対応する進入要求（ｒｅｑｕｅｓｔ）が発生する可能性があり、これにより、以下に説明する有害ＵＲＬ探知ステップが行われ得る。

【0103】

そして、ユーザ端末では、進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較することができる（ステップ４１３）。

【0104】

例えば、ユーザ端末では、進入要求された接続対象ＵＲＬに対して、全体ＵＲＬのうち、パラメータを除くドメイン領域を抽出し、抽出されたドメイン領域を辞書（ｄｉｃｔｉｃａｒｙ）形式で既に保存されたホワイトリストと比較することができる。

【0105】

前記ステップ４１３での比較の結果、同一ドメインが存在する場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ４１５）。

【0106】

【0107】

一方、前記ステップ４１３での比較の結果、同一ドメインが存在しない場合、ユーザ端末では、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックすることができる（ステップ４１７）。

【0108】

【0109】

【0110】

【0111】

前記ステップ４１７でのチェックの結果、以前に接続されたＷｅｂページである場合、ユーザ端末では、接続対象ＵＲＬを探知対象から除外することができる（ステップ４１９）。

【0112】

【0113】

一方、前記ステップ４１７でのチェックの結果、以前に接続されたＷｅｂページでない場合、ユーザ端末では、接続対象ＵＲＬに対する応答コード（ｒｅｓｐｏｎｓｅｃｏｄｅ）を確認することができる（ステップ４２１）。

【0114】

【0115】

次に、ユーザ端末では、前記ステップ４２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信でない場合、接続対象ＵＲＬを探知対象から除外することができる（ステップ４２３）。

【0116】

ここで、応答コードが３＊＊のリダイレクトコード（ｒｅｄｉｒｅｃｔｉｏｎｃｏｄｅ）である場合、当該範囲から外れるまで要求を試み続けて最終的なコードを確認することができるが、接続対象ＵＲＬが正常な通信でない４＊＊、５＊＊の応答コードを有する場合、接続が不可能なＷｅｂサイトとして探知対象から除外することができる。

【0117】

一方、ユーザ端末では、前記ステップ４２１での応答コードの確認の結果、接続対象ＵＲＬが正常な通信でない場合、接続対象ＵＲＬに対するＷｅｂサイト検索（ｗｅｂｓｅａｒｃｈ）を行うことができる（ステップ４２５）。

【0118】

ここで、接続対象ＵＲＬが正常な通信である１＊＊、２＊＊、一部３＊＊の応答コードを有する場合、以後、有害ＵＲＬ探知過程を行うことができ、これにより、ユーザ端末では接続対象ＵＲＬに対するＷｅｂサイト検索を行うことができる。

【0119】

そして、ユーザ端末では、Ｗｅｂサイト検索に対する検索結果詳細内容を抽出することができる（ステップ４２７）。例えば、図７及び図８に示すようなＷｅｂサイト検索結果からその詳細内容を抽出してテキストに変換することができるが、Ｗｅｂサイト検索結果画面から検索結果詳細内容（ｓｅａｒｃｈｄｅｔａｉｌ）をタグＩＤ（ｔａｇｉｄ）に基づいて抽出してテキストに変換することができる。
次に、ユーザ端末では、抽出された検索結果詳細内容を文字列にトークナイズすることができる（ステップ４２９）。

【0120】

ここで、自然言語処理のために、まず、テキストに関する情報を単位別に分ける前処理を行うことができるが、トークナイズは、予測すべき情報（例えば、文章又は発話）を一つの特定基本単位で切ることを意味し、肯定語、否定語などに該当する副詞、形容詞、動詞、名詞のみを残してすべて除去した後にトークナイズを行うことができる。
そして、ユーザ端末では、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成することができる（ステップ４３１）。

【0121】

ここで、ユーザ端末では、トークナイズされた文字列別に感性スコアを割り当てることができるが、図８に示すように、Ａｎｔｉ＋ｖｉｒｕｓの場合、悪性キーワードであるｖｉｒｕｓに感性スコア１を割り当て、Ａｎｔｉというキーワードに感性スコア２を割り当てる方式で各文字列に感性スコアを割り当てることができ、これらを辞書（ｄｉｃｔｉｏｎａｒｙ）形式に変換して感性辞書を生成することができる。

【0122】

次に、ユーザ端末では、感性辞書と人工知能モデルを用いた学習及び分析によって、接続対象ＵＲＬが正常であるか悪性であるかを確認することができる（ステップ４３３）。

【0123】

例えば、ユーザ端末では、前記ステップ４３１で生成された感性辞書の感性スコアを人工知能モデルの入力データに反映して分析、学習及び予測を行うことができるが、その学習及び分析方式は、指導学習方式を用いて、図８に示すように正常ドメインを検索したときの感性辞書反映結果と悪性ドメインを検索したときの感性辞書反映結果との差を判別することができるようにする。

【0124】

ここで、図８に示すように文章における悪性キーワードと正常キーワードの存在、位置的な組み合わせによって正常と悪性が分類及び確認されなければならないため、人工知能モデルでは、文字列の内部から特徴を抽出、誘導及び予測可能なＣＮＮアルゴリズムを用いることができる。
また、ユーザ端末では、接続対象ＵＲＬが正常である場合、接続対象ＵＲＬをホワイトリストに追加することができる（ステップ４３５）。
もちろん、ユーザ端末では、接続対象ＵＲＬが悪性である場合、当該ＵＲＬを遮断することができる。

【0125】

したがって、本発明の第４実施形態によれば、ユーザ端末で接続しようとするＷｅｂページに進入要求すると、Ｗｅｂページに対応する接続対象ＵＲＬを既に保存されたホワイトリストと比較して、同一ドメインが存在するときは、探知対象から除外し、同一ドメインが存在しないときは、接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックして、以前に接続されたＷｅｂページである場合には、探知対象から除外し、以前に接続されたＷｅｂページでない場合には、接続対象ＵＲＬに対する応答コードを確認して、接続対象ＵＲＬが正常な通信でなければ探知対象から除外することにより、有害ＵＲＬを効果的に探知及び遮断することができる。

【0126】

また、本発明の第４実施形態によれば、応答コードを確認して接続対象ＵＲＬが正常な通信である場合、接続対象ＵＲＬに対するＷｅｂサイト検索を行ってその検索結果詳細内容を抽出し、抽出された検索結果詳細内容を文字列にトークナイズし、トークナイズされた文字列別に感性スコアを割り当てて感性辞書を生成した後に、感性辞書を用いて人工知能モデルを用いた学習及び分析によって接続対象ＵＲＬが正常であるか悪性であるかを確認することにより、有害ＵＲＬをより効果的に探知及び遮断することができる。

【0127】

一方、図９は、本発明の第５実施形態による有害ＵＲＬ探知方法を示す図であり、本発明の第５実施形態では、上述した第１実施形態を前段に置き、その後段に第２実施形態の後段部過程（ステップ２２５～ステップ２３３）と、第３実施形態の後段部過程（ステップ３２５～ステップ３３１）と、第４実施形態の後段部過程（ステップ４２５～ステップ４３３）とを並列に処理した後に、第３実施形態及び第４実施形態に対してまずモデル重み付きアンサンブル（ｍｏｄｅｌｗｅｉｇｈｔｅｎｓｅｍｂｌｅ）処理し、その結果を第２実施形態を用いて最終分類（ｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）する方式で行われ得る。

【0128】

すなわち、前記第１実施形態は、ユーザ端末で接続しようとするＷｅｂページに進入要求するステップと、前記進入要求されたＷｅｂページに対応する接続対象ＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ）を、既に保存されたホワイトリストと比較するステップと、前記ホワイトリストとの比較の結果、同一ドメインが存在する場合、探知対象から除外するステップと、前記同一ドメインが存在しない場合、前記接続対象ＵＲＬが以前に接続されたＷｅｂページであるかをチェックするステップと、前記以前に接続されたＷｅｂページである場合、前記探知対象から除外するステップと、前記以前に接続されたＷｅｂページでない場合、前記接続対象ＵＲＬに対する応答コードを確認するステップと、前記応答コードの確認の結果、前記接続対象ＵＲＬが正常な通信でない場合、前記探知対象から除外するステップなどを含むことができる。

【0129】

また、第２実施形態の後段部過程（ステップ２２５～ステップ２３３）は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対して少なくとも一つのポータルで詳細検索を行い、検索件数の特徴を抽出した後に、人工知能モデルを用いて群集化し、異常値が除去された正常と悪性との間の閾値を抽出して正常或いは悪性に分類する第１－１ステップなどを含むことができる。

【0130】

そして、第３実施形態の後段部過程（ステップ３２５～ステップ３３１）は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬのＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）構文を抽出し、人工知能学習のための学習対象特徴を抽出し、人工知能学習データを構成して前記人工知能学習を行った後に、前記接続対象ＵＲＬが正常であるか悪性であるかを確認するステップ１－２ステップなどを含むことができる。

【0131】

一方、第４実施形態の後段部過程（ステップ４２５～ステップ４３３）は、前記応答コードの確認の結果、前記接続対象ＵＲＬが前記正常な通信である場合、前記接続対象ＵＲＬに対するＷｅｂサイト検索を行い、詳細内容を抽出してトークナイズ（ｔｏｋｅｎｉｚｉｎｇ）した後に、感性スコアを割り当てて感性辞書を生成し、人工知能モデルを用いた学習及び分析によって前記接続対象ＵＲＬが正常であるか悪性であるかを確認する第１－３ステップなどを含むことができる。

【0132】

次に、第１－２ステップ及び第１－３ステップの各結果に対してモデル重み付きアンサンブル（ｍｏｄｅｌｗｅｉｇｈｔｅｎｓｅｍｂｌｅ）処理する第２ステップと、前記第１－１ステップの結果を用いて前記第２ステップの結果を最終分類するステップなどを行うことができる。

【0133】

ここで、モデル重み付きアンサンブル（ｍｏｄｅｌｗｅｉｇｈｔｅｎｓｅｍｂｌｅ）は、第３実施形態と第４実施形態の結果から抽出することができる確率（ｐｒｏｂａｂｉｌｉｔｙ）を用いて、アンサンブル方式の一種である間接投票（ｓｏｆｔｖｏｔｉｎｇ）を行い、分類器ごとに当該範疇（ｌａｂｅｌ）に属する確率の平均を算出し、平均の最も高い範疇（ｌａｂｅｌ）に範疇を分類する方式で行われ得る。

【0134】

また、第２実施形態は、クラスタリングによって群集化された正常と悪性において異常値を除去したデータ群の閾値を探知することができるようにロジック（ｌｏｇｉｃ）化して表現したモデルであって、過探知と未探知のない狭い範囲の探知を行うことができるから、第３実施形態と第４実施形態の欠損データ（ｍｉｓｓｉｎｇｖａｌｕｅ）を探知するために最終分類（ｆｉｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）においてサブモデル（ｓｕｂｍｏｄｅｌ）として適用することができる。
上述したように全ての実施形態を統合して適用する場合、有害ＵＲＬを最大化して探知することができる。

【0135】

以上の説明では、本発明の様々な実施形態を提示して説明したが、本発明が必ずしもこれに限定されるものではなく、本発明の属する技術分野における通常の知識を有する者であれば、本発明の技術的思想から逸脱することなく様々な置換、変形及び変更が可能であることが容易に分かるであろう。

【図1】