IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7574424ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
<>
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図1
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図2
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図3
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図4
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図5
  • 特許-ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-18
(45)【発行日】2024-10-28
(54)【発明の名称】ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20241021BHJP
   G06F 21/44 20130101ALI20241021BHJP
【FI】
G06F16/906
G06F21/44
【請求項の数】 17
(21)【出願番号】P 2023518230
(86)(22)【出願日】2022-08-02
(65)【公表番号】
(43)【公表日】2024-02-16
(86)【国際出願番号】 CN2022109630
(87)【国際公開番号】W WO2023142417
(87)【国際公開日】2023-08-03
【審査請求日】2023-03-27
(31)【優先権主張番号】202210113248.3
(32)【優先日】2022-01-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】ユー, ウェンリー
(72)【発明者】
【氏名】リウ, ウェイ
(72)【発明者】
【氏名】ジャン, ブォ
【審査官】早川 学
(56)【参考文献】
【文献】国際公開第2016/194909(WO,A1)
【文献】国際公開第2017/217163(WO,A1)
【文献】米国特許出願公開第2010/0095375(US,A1)
【文献】中国特許出願公開第112131506(CN,A)
【文献】中国特許出願公開第108306878(CN,A)
【文献】中国特許出願公開第102316081(CN,A)
【文献】中国特許出願公開第104133870(CN,A)
【文献】中国特許出願公開第101694668(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/00-21/88
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ウェブページ識別装置が実行するウェブページ識別方法であって、
目標ウェブページの構成データ、前記目標ウェブページと履歴ウェブページとの間の第一関連関係及び前記履歴ウェブページに対する履歴グラフデータを取得することと、
前記目標ウェブページの構成データ、前記第一関連関係及び前記履歴グラフデータに基づいて、前記目標ウェブページ及び前記履歴ウェブページに対する目標グラフデータを決定することと、
前記目標グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページとの間の類似度を決定することと、
前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定することと、を含む
ウェブページ識別方法。
【請求項2】
前記目標ウェブページの構成データ、前記第一関連関係及び前記履歴グラフデータに基づいて、前記目標ウェブページ及び前記履歴ウェブページに対する目標グラフデータを決定することは、
前記第一関連関係に基づいて、前記目標ウェブページの構成データを前記履歴グラフデータに関連させ、前記目標グラフデータを取得することを含む
請求項1に記載の方法。
【請求項3】
前記第一関連関係は、第一所定時間帯内に前記履歴ウェブページから前記目標ウェブページにジャンプすることを示すか、又は前記第一所定時間帯内に前記目標ウェブページから前記履歴ウェブページにジャンプすることを示す
請求項1に記載の方法。
【請求項4】
前記目標グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページとの間の類似度を決定することは、
グラフニューラルネットワークを利用して前記目標グラフデータを処理し、前記目標ウェブページと前記履歴ウェブページとの間の類似度を取得することを含み、
前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定することは、
前記グラフニューラルネットワークを利用して前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定することを含む
請求項1に記載の方法。
【請求項5】
前記グラフニューラルネットワークは、
前記グラフニューラルネットワークを利用して前記履歴グラフデータに基づいて、前記履歴ウェブページに対するカテゴリを取得することと、
前記履歴ウェブページのカテゴリ及び参照カテゴリに基づいて、前記グラフニューラルネットワークのネットワークパラメータを更新すること、という方式によって得られる
請求項4に記載の方法。
【請求項6】
前記履歴ウェブページは複数の履歴ウェブページを含み、
前記履歴グラフデータは、
前記複数の履歴ウェブページの構成データと前記複数の履歴ウェブページ同士の間の第二関連関係を取得することと、
前記履歴ウェブページの構成データと前記第二関連関係に基づいて、前記履歴グラフデータを決定すること、という方式によって得られる
請求項5に記載の方法。
【請求項7】
前記複数の履歴ウェブページは第一履歴ウェブページ及び第二履歴ウェブページを含み、
前記第二関連関係は、第二所定時間帯内に前記第一履歴ウェブページから前記第二履歴ウェブページにジャンプすることを示すか、又は前記第二所定時間帯内に前記第二履歴ウェブページから前記第一履歴ウェブページにジャンプすることを示す
請求項6に記載の方法。
【請求項8】
目標ウェブページの構成データ、前記目標ウェブページと履歴ウェブページとの間の第一関連関係及び前記履歴ウェブページに対する履歴グラフデータを取得する取得モジュールと、
前記目標ウェブページの構成データ、前記第一関連関係及び前記履歴グラフデータに基づいて、前記目標ウェブページ及び前記履歴ウェブページに対する目標グラフデータを決定する第一決定モジュールと、
前記目標グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページとの間の類似度を決定する第二決定モジュールと、
前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定する第三決定モジュールと、を含む
ウェブページ識別装置。
【請求項9】
前記第一決定モジュールは、さらに、
前記第一関連関係に基づいて、前記目標ウェブページの構成データを前記履歴グラフデータに関連させ、前記目標グラフデータを取得する
請求項8に記載の装置。
【請求項10】
前記第一関連関係は、第一所定時間帯内に前記履歴ウェブページから前記目標ウェブページにジャンプすることを示すか、又は前記第一所定時間帯内に前記目標ウェブページから前記履歴ウェブページにジャンプすることを示す
請求項8に記載の装置。
【請求項11】
前記第二決定モジュールは、さらに、
グラフニューラルネットワークを利用して前記目標グラフデータを処理し、前記目標ウェブページと前記履歴ウェブページとの間の類似度を取得し、
前記第三決定モジュールは、さらに、
前記グラフニューラルネットワークを利用して前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定する
請求項8に記載の装置。
【請求項12】
前記グラフニューラルネットワークは、
前記グラフニューラルネットワークを利用して前記履歴グラフデータに基づいて、前記履歴ウェブページに対するカテゴリを取得することと、
前記履歴ウェブページのカテゴリ及び参照カテゴリに基づいて、前記グラフニューラルネットワークのネットワークパラメータを更新することと、という方式で得られる
請求項11に記載の装置。
【請求項13】
前記履歴ウェブページは複数の履歴ウェブページを含み、
前記履歴グラフデータは、
前記複数の履歴ウェブページの構成データと前記複数の履歴ウェブページと同士の間の第二関連関係を取得することと、
前記履歴ウェブページの構成データと前記第二関連関係に基づいて、前記履歴グラフデータを決定することと、という方式で得られる
請求項12に記載の装置。
【請求項14】
前記複数の履歴ウェブページは第一履歴ウェブページ及び第二履歴ウェブページを含み、
前記第二関連関係は、第二所定時間帯内に前記第一履歴ウェブページから前記第二履歴ウェブページにジャンプすることを示すか、又は前記第二所定時間帯内に前記第二履歴ウェブページから前記第一履歴ウェブページにジャンプすることを示す
請求項13に記載の装置。
【請求項15】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は、前記少なくとも一つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。
【請求項16】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~7のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。
【請求項17】
プロセッサにより実行される場合に請求項1~7のいずれか一項に記載の方法のステップを実現する
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2022年01月29日に提出された中国特許出願No. 202210113248.3の優先権を主張し、その内容を合わせて参照とされる。
【0002】
<技術分野>
本開示は人工知能技術分野に関し、具体的にはディープラーニング、知識グラフ等の技術分野に関し、より具体的には、ウェブページ識別方法、装置、電子機器、媒体及びプログラムに関する。
【背景技術】
【0003】
インターネットの分野において、ユーザが検索するために毎日大量のウェブページを生成し、あるウェブページの作成者はウェブサイトを迅速に確立して流量を吸引するために、様々な詐欺手段によりウェブページを生成し、例えば他人のウェブページを盗用し、このような盗用方式はウェブページの作成者を尊重しないだけでなく、ユーザを遵守せず、業界に悪影響を与える。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、ウェブページ識別方法、装置、電子機器、記憶媒体、及びプログラムを提供する。
【0005】
本開示の一態様によれば、ウェブページ識別方法を提供する。前記ウェブページ識別方法は、目標ウェブページの構成データ、前記目標ウェブページと履歴ウェブページとの間の第一関連関係及び前記履歴ウェブページに対する履歴グラフデータを取得することと、前記目標ウェブページの構成データ、前記第一関連関係及び前記履歴グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページに対する目標グラフデータを決定することと、前記目標グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページとの間の類似度を決定することと、前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定することと、を含む。
【0006】
本開示の別の態様によれば、ウェブページ識別装置を提供する。前記ウェブページ識別装置は、取得モジュール、第一決定モジュール、第二決定モジュール及び第三決定モジュールを含む。取得モジュールは、目標ウェブページの構成データ、前記目標ウェブページと履歴ウェブページとの間の第一関連関係及び前記履歴ウェブページに対する履歴グラフデータを取得する。第一決定モジュールは、前記目標ウェブページの構成データ、前記第一関連関係及び前記履歴グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページに対する目標グラフデータを決定する。第二決定モジュールは、前記目標グラフデータに基づいて、前記目標ウェブページと前記履歴ウェブページとの間の類似度を決定する。第三決定モジュールは、前記類似度と前記履歴ウェブページのカテゴリに基づいて、前記目標ウェブページのカテゴリを決定する。
【0007】
本開示の別の態様によれば、電子機器を提供する。前記電子機器は、少なくとも一つのプロセッサ及び前記少なくとも一つのプロセッサに通信接続されたメモリを含む。ここで、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記少なくとも一つのプロセッサが上記ウェブページ識別方法を実行することができるように、前記命令が前記少なくとも一つのプロセッサにより実行される。
【0008】
本開示の別の態様によれば、コンピュータに上記ウェブページ識別方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0009】
本開示の別の態様によれば、プロセッサにより実行される場合に上記ウェブページ識別方法のステップを実現するコンピュータプログラムを提供する。
【0010】
理解すべきこととして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
【0011】
図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【図面の簡単な説明】
【0012】
図1図1は、本開示の一実施例に係るウェブページ識別の適用シーンを概略的に示す。
図2図2は、本開示の一実施例に係るウェブページ識別方法のフローチャートを概略的に示す。
図3図3は、本開示の一実施例に係るグラフニューラルネットワークのトレーニング概略図を概略的に示す。
図4図4は、本開示の一実施例に係るウェブページ識別の概略図を概略的に示す。
図5図5は、本開示の一実施例に係るウェブページ識別装置のブロック図を概略的に示す。
図6図6は、本開示の実施例に係るウェブページ識別を実行するための電子機器を実現するためのブロック図である。
【発明を実施するための形態】
【0013】
以下に図面を参照して本開示の例示的な実施例を説明し、ここで、理解しやすくするために、本開示の実施例の様々な詳細を含むが、それらを例示的なものと考えるべきである。したがって、当業者であれば、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
【0014】
ここで使用される用語は、具体的な実施例を説明するためだけであり、本開示を限定することを意図するものではない。ここで使用される用語「含む」、「包含」等は前記特徴、ステップ、操作及び/又は部品の存在を示すが、一つ又は複数の他の特徴、ステップ、操作又は部品の存在又は追加を排除するものではない。
【0015】
ここで使用される全ての用語(技術及び科学的用語を含む)は当業者が一般的に理解する意味を有し、特に定義されない限りである。注意すべきこととして、ここで使用される用語は本明細書の文脈と一致する意味を有すると解釈すべきであり、理想化又は過度に厳格な方式で解釈されるべきではない。
【0016】
「A、B及びCなどのうちの少なくとも一つ」と類似するような表現を用いる場合、一般的には当業者が一般的に該表現の意味を理解して解釈すべきである(例えば、「A、B及びCのうちの少なくとも一つを有するシステム」はAを単独で有し、Bを単独で有し、Cを単独で有し、AとBを有し、AとCを有し、BとCを有し、及び/又はA、B、Cを有するシステムなどを含むべきである)。
【0017】
図1は、本開示の一実施例に係るウェブページ識別の適用シーンを概略的に示す。注意すべきものとして、当業者が本開示の技術的内容を理解することに役立つように、図1に示すのは本開示の実施例を適用することができる適用シーンの例示に過ぎず、本開示の実施例が他の装置、システム、環境又はシーンに用いることができないことを意味するものではない。
【0018】
図1に示すように、本開示の実施例の適用シーン100は例えばグラフニューラルネットワーク110を含む。グラフニューラルネットワーク(Graph Neural Network、GNN)は、グラフデータに基づいてトレーニングすることができる。グラフィカルニューラルネットは、例えば、グラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN)を含む。
【0019】
履歴ウェブページはタグを含み、タグは、履歴ウェブページのカテゴリを示し、カテゴリは例えば盗用カテゴリ又は非盗用カテゴリであり、盗用カテゴリは、履歴ウェブページが他のウェブページと類似することを表し、すなわち履歴ウェブページが盗用されるものである。複数の履歴ウェブページをグラフニューラルネットワーク110に入力し、グラフニューラルネットワーク110は履歴ウェブページに基づいて履歴グラフデータを構築し、履歴グラフデータは知識グラフである。グラフニューラルネットワーク110は、履歴グラフデータに基づいて学習して履歴ウェブページのカテゴリを取得し、学習されたカテゴリ及び履歴ウェブページのタグに基づいて損失値を決定し、損失値に基づいてグラフニューラルネットワーク110のモデルパラメータを調整し、それによりトレーニングしてグラフニューラルネットワーク110を取得する。
【0020】
トレーニングしてグラフニューラルネットワーク110を取得した後、グラフニューラルネットワーク110を利用して目標ウェブページのカテゴリを識別することができ、目標ウェブページは例えばタグがない。例えば、目標ウェブページをグラフニューラルネットワーク110に入力し、グラフニューラルネットワークは目標ウェブページと履歴グラフデータに基づいて目標グラフデータを構築し、かつ目標グラフデータを学習し、目標ウェブページのカテゴリを取得する。目標ウェブページのカテゴリには、盗用カテゴリ又は非盗用カテゴリが含まれる。
【0021】
以下に図1の適用シーンを参照し、図2図4を参照して本開示の実施例のウェブページ識別方法を説明する。
【0022】
図2は、本開示の一実施例に係るウェブページ識別方法のフローチャートを概略的に示す。
【0023】
図2に示すように、本開示の実施例のウェブページ識別方法200は例えば操作S210~操作S240を含むことができる。
【0024】
操作S210において、目標ウェブページの構成データ、目標ウェブページと履歴ウェブページとの間の第一関連関係及び履歴ウェブページに対する履歴グラフデータを取得する。
【0025】
操作S220において、目標ウェブページの構成データ、第一関連関係及び履歴グラフデータに基づいて、目標ウェブページ及び履歴ウェブページに対する目標グラフデータを決定する。
【0026】
操作S230において、目標グラフデータに基づいて、目標ウェブページと履歴ウェブページとの間の類似度を決定する。
【0027】
操作S240において、類似度と履歴ウェブページのカテゴリに基づいて、目標ウェブページのカテゴリを決定する。
【0028】
例示的には、ウェブページの構成データは、例えば、ウェブページのタイトル、本体、スタイル等を含み、ウェブページの構造フレームを示す。目標ウェブページと履歴ウェブページとの間の第一関連関係は、例えば、目標ウェブページから履歴ウェブページにジャンプすることができるか否か、又は履歴ウェブページから目標ウェブページに調整できるか否かを示す。
【0029】
履歴グラフデータは、複数の履歴ウェブページの構成データと複数の履歴ウェブページとの間の第二関連関係に基づいて取得される。第二関連関係は第一関連関係と類似する。
【0030】
例示的には、目標ウェブページの構成データ、第一関連関係及び履歴グラフデータに基づいて目標グラフデータを構築することができ、目標グラフデータは、例えば、目標ウェブページの構成データ、履歴ウェブページの構成データ、目標ウェブページと履歴ウェブページとの間の関連を指示する。
【0031】
次に、目標グラフデータから目標ウェブページと履歴ウェブページとの間の類似度を決定する。履歴ウェブページが履歴ウェブページのカテゴリを示すタグを有するため、類似度と履歴ウェブページのカテゴリ(タグ)に基づいて目標ウェブページのカテゴリを知ることができる。例えば、ある履歴ウェブページのカテゴリが盗用カテゴリであり、かつ目標ウェブページと該履歴ウェブページとの間の類似度が高い場合に、識別して目標ウェブページのカテゴリが大きい確率でも盗用カテゴリであると取得される。
【0032】
本開示の実施例によれば、ウェブページの構成データとウェブページとの間の関連関係に基づいてグラフデータを構築し、かつグラフデータに基づいてウェブページの間の類似度を決定し、類似度とタグ付きされたウェブページのカテゴリに基づいてタグが不明なウェブページのカテゴリを決定し、ウェブページのカテゴリの識別精度を向上させる。
【0033】
図3は、本開示の一実施例に係るグラフニューラルネットワークのトレーニング模式図を概略的に示す。
【0034】
図3に示すように、複数の履歴ウェブページの相関データ310をグラフニューラルネットワーク320に入力してモデルトレーニングを行う。相関データ310は、例えば、履歴ページ毎の構成データと複数の履歴ページと同士の間の第二関連関係を含む。相関データ310における矢印は二つの履歴ウェブページの間に第二関連関係を有することを示す。
【0035】
例示的には、ウェブページは例えばウェブページリンクで表示され、複数の履歴ウェブページのウェブページリンクはそれぞれu1、u2、u3、u4、u5である。各履歴ウェブページはタグを有し、タグは履歴ウェブページのカテゴリが盗用カテゴリ又は非盗用カテゴリであることを示す。
【0036】
複数の履歴ウェブページ同士の間の第二関連関係について、該第二関連関係は例えば各履歴ウェブページの間のジャンプ関係を示す。例えば、複数の履歴ウェブページが第一履歴ウェブページ及び第二履歴ウェブページを含むことを例とし、第二関連関係は第二所定時間帯内に第一履歴ウェブページから第二履歴ウェブページにジャンプすることを示すか、又は第二所定時間帯内に第二履歴ウェブページから第一履歴ウェブページにジャンプすることを示す。
【0037】
例えば、第一履歴ウェブページはu1であり、第二履歴ウェブページはu3であり、第二所定時間帯内にu1からu3にジャンプするか、又はu3からu2にジャンプする。u1からu3にジャンプすることは、例えば第一履歴ウェブページu1に対応するページに第二履歴ウェブページu3のリンク情報が含まれることを示し、リンク情報により第二履歴ウェブページu3にジャンプすることができる。第二所定時間は、例えば、最近の一定時間である。
【0038】
又は、第一履歴ウェブページがu1であることに対し、複数の履歴ウェブページからu1にジャンプすることができる場合、最近ジャンプした予め設定された数量の履歴ウェブページをu1と第二関連関係を有する第二履歴ウェブページとして決定することができる。
【0039】
相関データ310をグラフニューラルネットワーク320に入力した後、グラフニューラルネットワーク320は履歴ウェブページの構成データと第二関連関係に基づいて、履歴グラフデータを構築する。履歴グラフデータは例えばノード要素及びエッジ要素を有し、各ノード要素は一つの履歴ウェブページに対応し、履歴ウェブページの構成データはノード要素に関連する。エッジ要素は二つの履歴ウェブページの間の第二関連関係に対応する。例えば、履歴ウェブページu1及びu3を例として、u1及びu3はそれぞれ一つのノード要素に対応し、u1のノード要素とu3のノード要素との間のエッジ要素は、u1とu3との間に第二関連関係を有することを示す。
【0040】
履歴グラフデータを取得した後、グラフニューラルネットワークは履歴グラフデータに基づいて識別し、履歴ウェブページに対するカテゴリを取得し、グラフニューラルネットワークは履歴グラフデータを識別する場合、第二関連関係に基づいて各履歴ウェブページの構成データの間の固有情報を十分に学習する。各履歴ウェブページがカテゴリを示すタグを含むため、グラフニューラルネットワークは、識別して得られた履歴ウェブページのカテゴリ及び参照カテゴリ(タグ)に基づいて損失値を決定し、かつ損失値に基づいてグラフニューラルネットワークのネットワークパラメータを逆方向に更新し、それによりトレーニングされたグラフニューラルネットワークを取得することができる。
【0041】
本開示の実施例によれば、タグを有する履歴ウェブページに対して、履歴ウェブページの構成データと履歴ウェブページとの間の第二関連関係を抽出し、かつ構成データと第二関連関係に基づいてグラフニューラルネットワークをトレーニングすることにより、グラフニューラルネットワークのウェブページに対する識別正確性を向上させる。
【0042】
図4は、本開示の一実施例に係るウェブページ識別の概略図を概略的に示す。
【0043】
図4に示すように、履歴ウェブページに基づいてトレーニングしてグラフニューラルネットワーク取得した後、目標ウェブページの相関データ410をトレーニングされたグラフニューラルネットワーク420に入力する。目標ウェブページの相関データ410は例えば各目標ウェブページの構成データ及び目標ウェブページと履歴ウェブページとの間の第一関連関係を含む。
【0044】
例えば、第一関連関係は、第一所定時間帯内に履歴ウェブページから目標ウェブページにジャンプすることを示すか、又は第一所定時間帯内に目標ウェブページから履歴ウェブページにジャンプすることを示す。
【0045】
例えば、目標ウェブページはu6であり、履歴ウェブページはu1であり、第一所定時間帯内にu1からu6にジャンプするか、又はu6からu1にジャンプする。u1からu6にジャンプすることは、例えば履歴ウェブページu1に対応するページに目標ウェブページu6のリンク情報が含まれることを示し、リンク情報により目標ウェブページu6にジャンプすることができる。第一所定時間帯は、例えば最近の一定時間である。
【0046】
又は、目標ウェブページu6に対して、複数の履歴ウェブページからu6にジャンプすることができる場合、直近にジャンプした予め設定された数量の履歴ウェブページをu6と第一関連関係を有する履歴ウェブページとして決定することができる。
【0047】
相関データ410をグラフニューラルネットワーク420に入力した後、グラフニューラルネットワーク420は目標ウェブページの構成データ、第一関連関係及び上記取得された履歴グラフデータに基づいて、構築して目標グラフデータを取得する。例えば、第一関連関係に基づいて、目標ウェブページの構成データを履歴グラフデータに関連させ、目標グラフデータを取得し、構築された目標グラフデータはu1、u2、u3、u4、u5、u6、u7の間の関連を示す。
【0048】
目標グラフデータは例えばノード要素及びエッジ要素を有し、各ノード要素は一つの履歴ウェブページ又は目標ウェブページに対応し、履歴ウェブページ又は目標ウェブページの構成データはノード要素に関連する。エッジ要素は二つのウェブページの間の関連関係に対応する。例えば、履歴ウェブページu1と目標ウェブページu6を例として、u1及びu6はそれぞれ一つのノード要素に対応し、u1のノード要素とu6のノード要素との間のエッジ要素はu1とu6との間の第一関連関係を示す。
【0049】
目標グラフデータを取得した後、グラフニューラルネットワークは目標グラフデータを識別し、目標ウェブページに対するカテゴリを取得し、グラフニューラルネットワークは目標グラフデータを識別する時、関連関係に基づいて各ウェブページの構成データの間の固有情報を十分に学習し、それにより目標グラフデータを処理することにより目標ウェブページと履歴ウェブページとの間の類似度を取得する。次に、グラフニューラルネットワークは類似度と履歴ウェブページのカテゴリに基づいて、目標ウェブページのカテゴリ430を決定する。例えば、目標ウェブページと類似する履歴ウェブページに対して、該履歴ウェブページのタグは該履歴ウェブページが盗用ウェブページであると示す場合、目標ウェブページのカテゴリ430が大きい確率で盗用カテゴリであると決定する。
【0050】
本開示の実施例によれば、トレーニングしてグラフニューラルネットワークを取得した後、タグを持たない目標ウェブページを履歴グラフデータに添加して目標グラフデータを取得し、次に目標グラフデータに基づいて学習して目標ウェブページと履歴ウェブページとの類似度を取得し、かつ類似度と履歴ウェブページのカテゴリに基づいて目標ウェブページのカテゴリを決定し、モデル識別の正確性を向上させる。
【0051】
図5は本開示の一実施例に係るウェブページ識別装置のブロック図を概略的に示す。
【0052】
図5に示すように、本開示の実施例のウェブページ識別装置500は例えば取得モジュール510、第一決定モジュール520、第二決定モジュール530及び第三決定モジュール540を含む。
【0053】
取得モジュール510は、目標ウェブページの構成データ、目標ウェブページと履歴ウェブページとの間の第一関連関係及び履歴ウェブページに対する履歴グラフデータを取得する。本開示の実施例によれば、取得モジュール510は例えば上記された図2を参照して説明した操作S210を実行することができ、ここで説明を省略する。
【0054】
第一決定モジュール520は、目標ウェブページの構成データ、第一関連関係及び履歴グラフデータに基づいて、目標ウェブページ及び履歴ウェブページに対する目標グラフデータを決定する。本開示の実施例によれば、第一決定モジュール520は例えば上記された図2を参照して説明した操作S220を実行することができ、ここで説明を省略する。
【0055】
第二決定モジュール530は、目標グラフデータに基づいて、目標ウェブページと履歴ウェブページとの間の類似度を決定する。本開示の実施例によれば、第二決定モジュール530は例えば上記された図2を参照して説明した操作S230を実行することができ、ここで説明を省略する。
第三決定モジュール540は、類似度と履歴ウェブページのカテゴリに基づいて、目標ウェブページのカテゴリを決定する。本開示の実施例によれば、第三決定モジュール540は例えば上記された図2を参照して説明した操作S240を実行することができ、ここで説明を省略する。
【0056】
本開示の実施例によれば、第一決定モジュール520は、さらに、第一関連関係に基づいて、目標ウェブページの構成データを履歴グラフデータに関連させ、目標グラフデータを取得する。
【0057】
本開示の実施例によれば、第一関連関係は、第一所定時間帯に履歴ウェブページから目標ウェブページにジャンプすることを示すか、又は第一所定時間帯に目標ウェブページから履歴ウェブページにジャンプすることを示す。
【0058】
本開示の実施例によれば、第二決定モジュール530は、さらに、グラフニューラルネットワークを利用して目標グラフデータを処理し、目標ウェブページと履歴ウェブページとの間の類似度を取得する。第三決定モジュール540は、さらに、グラフニューラルネットワークを利用して類似度と履歴ウェブページのカテゴリに基づいて、目標ウェブページのカテゴリを決定する。
【0059】
本開示の実施例によれば、グラフニューラルネットワークは、グラフニューラルネットワークを利用して履歴グラフデータに基づいて、履歴ウェブページに対するカテゴリを取得することと、履歴ウェブページのカテゴリ及び参照カテゴリに基づいて、グラフニューラルネットワークのネットワークパラメータを更新すること、という方式によって得られる。
【0060】
本開示の実施例によれば、履歴ウェブページは複数の履歴ウェブページを含む。履歴グラフデータは、複数の履歴ウェブページの構成データと複数の履歴ウェブページ同士の間の第二関連関係とを取得することと、履歴ウェブページの構成データと第二関連関係とに基づいて、履歴グラフデータを決定すること、という方式によって得られる。
【0061】
本開示の実施例によれば、複数の履歴ウェブページは第一履歴ウェブページ及び第二履歴ウェブページを含み、第二関連関係は、第二所定時間帯内に第一履歴ウェブページから第二履歴ウェブページにジャンプすることを示すか、又は第二所定時間帯内に第二履歴ウェブページから第一履歴ウェブページにジャンプすることを示す。
【0062】
本開示の技術案において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも相関法規則の規定に適合し、必要なセキュリティ対策を採用し、かつ公序良俗に反するものではない。
【0063】
本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
【0064】
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
【0065】
図6は、本開示の実施例に係るウェブページ識別を実行するための電子機器を実現するためのブロック図である。
【0066】
図6は、本開示の実施例の例示の電子機器600を実施するためのブロック図を示す。電子機器600は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0067】
図6に示すように、電子機器600は、計算ユニット601を含み、それはリードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM603には、さらに電子機器600の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット601、ROM602、およびRAM603は、バス604を介して相互に接続されている。バス604には、入出力(I/O)インタフェース605も接続されている。
【0068】
電子機器600における複数の部品は、I/Oインタフェース605に接続され、例えばキーボード、マウス等の入力ユニット606と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット607と、例えば磁気ディスク、光ディスク等の記憶ユニット608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット609とを含む。通信ユニット609は、電子機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他のデバイスと情報/データをやり取りすることを可能にする。
【0069】
計算ユニット601は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット601の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット601は、例えばウェブページ識別方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、ウェブページ識別方法は、例えば記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算ユニット601により実行される場合、前記記載されたウェブページ識別方法の1つ又は複数のステップを実行してもよい。代替的に、別の実施例において、計算ユニット601は、他の任意の適切な形態(例えば、ファームウェアを介する)によりウェブページ識別方法を実行するように構成されてもよい。
【0070】
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0071】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルウェブページ識別装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0072】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用されるか、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

【0073】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0074】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0075】
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。
【0076】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
【0077】
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6