(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-26
(54)【発明の名称】データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム
(51)【国際特許分類】
G06F 16/953 20190101AFI20231019BHJP
【FI】
G06F16/953
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022558470
(86)(22)【出願日】2022-03-22
(85)【翻訳文提出日】2022-09-27
(86)【国際出願番号】 CN2022082281
(87)【国際公開番号】W WO2023040230
(87)【国際公開日】2023-03-23
(31)【優先権主張番号】202111096048.3
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100083116
【氏名又は名称】松浦 憲三
(72)【発明者】
【氏名】余 文利
(72)【発明者】
【氏名】▲楊▼ 国▲強▼
(72)【発明者】
【氏名】▲劉▼ ▲偉▼
(72)【発明者】
【氏名】▲張▼ 博
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA10
(57)【要約】
本開示は、データ評価方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、コンピュータプログラムを開示し、コンピュータ技術分野に関し、特にインテリジェント検索、ディープラーニングの技術分野に関する。具体的な実現解決手段は、識別すべきインデックスデータの品質を識別するための要求に応答して、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、目標ウェブページはウェブページコンテンツが未知であるウェブページであり、目標関連データは識別すべきインデックスデータに対応する目標ウェブページの品質をし、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得する。
【特許請求の範囲】
【請求項1】
識別すべきインデックスデータの品質を識別するための要求に応答して、前記識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、前記目標ウェブページはウェブページコンテンツが未知であるウェブページであり、前記目標関連データは前記識別すべきインデックスデータに対応する目標ウェブページの品質を示すことと、
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得することと、を含む
ことを特徴とするデータ評価方法。
【請求項2】
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得する前に、
前記目標関連データから目標種別の目標関連データを特定することと、
前記目標関連データとして、前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することと、をさらに含む
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記目標種別の目標関連データは、前記目標ウェブページに対するユーザフィードバックデータを含み、
前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することは、
フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出することを含み、
ここで、前記フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記目標種別の目標関連データは、ウェブページにおけるリンクに関連するテキストデータを含み、
前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することは、
テキスト特徴抽出モデルを利用して前記ウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出することを含み、
ここで、前記テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む
ことを特徴とする請求項2に記載の方法。
【請求項5】
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得することは、
前記目標関連データを評価モデルに入力し、前記識別すべきインデックスデータに対する前記品質評価結果を取得することを含む
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記目標関連データは、前記目標ウェブページに関連する属性データ、前記目標ウェブページに関連するウェブサイトの属性データ、前記目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記目標ウェブページに関連する前記属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含み、
前記目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、前記目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含み、
前記目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む
ことを特徴とする請求項6に記載の方法。
【請求項8】
インデックスデータに対する複数の品質問題種別を特定することと、
前記複数の品質問題種別における各品質問題種別に対して、前記各品質問題種別にマッチングするトレーニングデータ及び前記トレーニングデータに対応するタグを取得し、ここで、前記トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、前記サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、前記タグが前記サンプルインデックスデータの品質を指示することと、
前記トレーニングデータ及び前記タグトレーニング評価モデルを用いて、トレーニングされた評価モデルを取得することと、を含む
ことを特徴とする評価モデルのトレーニング方法。
【請求項9】
前記トレーニングデータ及び前記タグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得することは、
前記トレーニングデータから目標種別のトレーニングデータを特定することと、
前記目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出することと、
前記目標種別のトレーニング特徴及び前記タグを利用して前記評価モデルをトレーニングし、前記トレーニングされた評価モデルを取得することと、を含む
ことを特徴とする請求項8に記載の方法。
【請求項10】
識別すべきインデックスデータの品質を識別する要求に応答して、前記識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、前記目標ウェブページがウェブページコンテンツが未知であるウェブページであり、前記目標関連データが前記識別すべきインデックスデータに対応する目標ウェブページの品質を示す目標関連データモジュールと、
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得する評価モジュールと、を含む
ことを特徴とするデータ評価装置。
【請求項11】
前記目標関連データから目標種別の目標関連データを特定するための目標種別特定モジュールと、
前記目標関連データとして、前記目標種別の目標関連データから目標種別の目標関連特徴を抽出するための抽出モジュールと、をさらに含む
ことを特徴とする請求項10に記載の装置。
【請求項12】
前記目標種別の目標関連データは前記目標ウェブページに対するユーザフィードバックデータを含み、
前記抽出モジュールは、
フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出するための第一抽出手段を含み、
ここで、前記フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む
ことを特徴とする請求項11に記載の装置。
【請求項13】
前記目標種別の目標関連データは、ウェブページにおけるリンクに関連するテキストデータを含み、
前記抽出モジュールは、
テキスト特徴抽出モデルを利用して前記ウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出するための第二抽出手段を含み、
ここで、前記テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む
ことを特徴とする請求項11に記載の装置。
【請求項14】
前記評価モジュールは、
前記目標関連データを評価モデルに入力し、前記識別すべきインデックスデータに対する前記品質評価結果を取得するための評価手段を含む
ことを特徴とする請求項10に記載の装置。
【請求項15】
前記目標関連データは、
前記目標ウェブページに関連する属性データ、前記目標ウェブページに関連するウェブサイトの属性データ、前記目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む
ことを特徴とする請求項10に記載の装置。
【請求項16】
前記目標ウェブページに関連する前記属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含み、
前記目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、前記目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含み、
前記目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む
ことを特徴とする請求項15に記載の装置。
【請求項17】
インデックスデータに対する複数の品質問題種別を特定するための品質問題特定モジュールと、
前記複数の品質問題種別における各品質問題種別に対して、前記各品質問題種別にマッチングするトレーニングデータ及び前記トレーニングデータに対応するタグを取得し、ここで、前記トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、前記サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、前記タグが前記サンプルインデックスデータの品質を指示するトレーニングデータ取得モジュールと、
前記トレーニングデータ及び前記タグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得するためのトレーニングモジュールと、を含む
ことを特徴とする評価モデルのトレーニング装置。
【請求項18】
前記トレーニングモジュールは、
前記トレーニングデータから目標種別のトレーニングデータを特定するための特定手段と、
前記目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出するための第三抽出手段と、
前記目標種別のトレーニング特徴及び前記タグを利用して前記評価モデルをトレーニングし、前記トレーニングされた評価モデルを取得するためのトレーニング手段と、を含む
ことを特徴とする請求項17に記載の装置。
【請求項19】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
ここで、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実行可能である
ことを特徴とする電子機器。
【請求項20】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実行させる
ことを特徴とする記憶媒体。
【請求項21】
プロセッサにより実行される時に請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実現するコンピュータプログラムを含む
ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【相互参照】
【0001】
本願は、2021年09月17日に提出された中国特許出願No.202111096048.3の優先権を要求し、そのコンテンツは併せてここで参考とする。
【技術分野】
【0002】
本開示は、コンピュータの技術分野に関し、特にインテリジェント検索技術分野に関し、具体的にはデータ評価方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、プログラム製品に関する。
【背景技術】
【0003】
インターネット時代において、収集されたウェブページを処理することにより、インデックスデータを生成し、ユーザの検索要求に基づいて、検索エンジンが検索要求に対応するインデックスデータをマッチングし、インデックスデータに基づいてユーザに対応するウェブページを表示することができる。検索エンジンがユーザに表示するウェブページの品質はユーザの検索体験に影響を与える。
【発明の概要】
【0004】
本開示は、データ評価のための方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、プログラム製品を提供する。
【0005】
本開示の一態様によれば、識別すべきインデックスデータの品質を識別するための要求に応答して、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、目標ウェブページはウェブページコンテンツが未知であるウェブページであり、目標関連データは識別すべきインデックスデータに対応する目標ウェブページの品質を示すことと、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得することと、を含むデータ評価方法を提供している。
【0006】
本開示の別の態様によれば、インデックスデータに対する複数の品質問題種別を特定することと、複数の品質問題種別における各品質問題種別に対して、各品質問題種別にマッチングするトレーニングデータ及びトレーニングデータに対応するタグを取得し、ここで、トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、タグがサンプルインデックスデータの品質を指示することと、トレーニングデータ及びタグトレーニング評価モデルを用いて、トレーニングされた評価モデルを取得することと、を含む評価モデルのトレーニング方法を提供している。
【0007】
本開示の別の態様によれば、識別すべきインデックスデータの品質を識別する要求に応答して、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、目標ウェブページがウェブページコンテンツが未知であるウェブページであり、目標関連データが識別すべきインデックスデータに対応する目標ウェブページの品質を示す目標関連データモジュールと、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得する評価モジュールと、を含むデータ評価装置を提供している。
【0008】
本開示の別の態様によれば、インデックスデータに対する複数の品質問題種別を特定するための品質問題特定モジュールと、複数の品質問題種別における各品質問題種別に対して、各品質問題種別にマッチングするトレーニングデータ及びトレーニングデータに対応するタグを取得し、ここで、トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、タグがサンプルインデックスデータの品質を指示するトレーニングデータ取得モジュールと、トレーニングデータ及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得するためのトレーニングモジュールと、を含む評価モデルのトレーニング装置を提供している。
【0009】
本開示の別の態様によれば、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、ここで、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上記の方法を実行可能な電子機器を提供している。
【0010】
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに上記の方法を実行させる記憶媒体を提供している。
【0011】
本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供している。
【0012】
理解すべきこととして、本部分に記載されたコンテンツは本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
【図面の簡単な説明】
【0013】
図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
【
図1】
図1は、本開示の実施例に係るデータ評価方法及び装置の応用シーンを概略的に示す。
【
図2】
図2は、本開示の実施例に係るデータ評価方法のフローチャートを概略的に示す。
【
図3】
図3は、本開示の実施例に係る目標種別の目標関連特徴を抽出するフローチャートを概略的に示す。
【
図4】
図4は、本開示の実施例に係るテキスト特徴を抽出する概略図を概略的に示す。
【
図5】
図5は、本開示の実施例に係るユーザフィードバック特徴を抽出する概略図を概略的に示す。
【
図6】
図6は、本開示の実施例に係るデータ評価方法の概略図を概略的に示す。
【
図7】
図7は、本開示の実施例に係る評価モデルのトレーニング方法のフローチャートを概略的に示す。
【
図8】
図8は、本開示の実施例に係るデータ評価装置のブロック図を概略的に示す。
【
図9】
図9は、本開示の実施例に係る評価モデルのトレーニング装置のブロック図を概略的に示す。
【
図10】
図10は、本開示の実施例に係るデータ評価方法を実現することに適する電子装置のブロック図を概略的に示す。
【発明を実施するための形態】
【0014】
以下、図面を参照して本開示の例示的な実施例を説明し、ここで、理解しやすくするように、本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
【0015】
本開示は、データ評価方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、プログラム製品を提供する。
【0016】
本開示の実施例によれば、データ評価方法は、識別すべきインデックスデータの品質を識別するための要求に応答し、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得することと、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得することと、を含み、ここで、目標ウェブページは、ウェブページコンテンツが未知であるウェブページであり、目標関連データは、識別すべきインデックスデータに対応する目標ウェブページの品質を示す。
【0017】
本開示の実施例によれば、目標関連データは、識別すべきインデックスデータに対応する目標ウェブページの品質を示すことができ、目標関連データに基づいて目標ウェブページの品質評価結果を取得することができる。識別すべきインデックスデータの品質評価結果は、識別すべきインデックスデータに対応する対象ウェブページの品質結果を示す。したがって、目標関連データに基づいて識別すべきインデックスデータの品質評価結果を取得することができる。さらに目標ウェブページのウェブページコンテンツを取得せずに、目標関連データに基づいて目標ウェブページの品質結果に対応する識別すべきインデックスデータの品質評価結果を取得することができる。
【0018】
図1は、本開示の実施例に係るデータ評価方法及び装置の応用シーンを概略的に示す。
【0019】
注意すべきものとして、当業者が本開示の技術コンテンツを理解しやすくするように、
図1は本開示の実施例を適用可能なシーンの例示に過ぎず、本開示の実施例が他の機器、システム、環境又はシーンに用いることができないことを意味するものではない。
【0020】
図1に示すように、該応用シーンは、端末機器101、ネットワーク102及びサーバ103を含むことができる。ネットワーク102は、端末機器101とサーバ103との間で通信リンクの媒体を提供するためのものである。ネットワーク102は、例えば有線、無線通信リンク又は光ファイバケーブルなどの様々な接続種別を含むことができる。
【0021】
ユーザ104は、端末機器101を用いてネットワーク102を介してサーバ103と対話することにより、検索操作を行うか又は検索操作に基づいて生成されたウェブページを閲覧することができる。端末機器101に、例えば知識閲覧類アプリケーション、ウェブページブラウザアプリケーション、検索類アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び/又はソーシャルプラットフォームソフトウェアなど(例に過ぎない)の様々な通信クライアントアプリケーションがインストールされてもよい。
【0022】
端末機器101は、ディスプレイを有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ及びデスクトップコンピュータ等を含むがそれらに限定されない。
【0023】
サーバ103は、様々なサービスを提供するサーバであってもよく、例えばユーザ104が端末機器101により閲覧されたコンテンツにサポートを提供するバックグラウンド管理サーバ(例に過ぎない)であってもよい。バックグラウンド管理サーバは、本開示の実施例におけるデータ評価方法を利用して高品質のインデックスデータを取得し、かつユーザ104の検索操作、及び検索操作にマッチングする高品質のインデックスデータに基づいて、インデックスデータに対応する高品質の目標ウェブページを端末機器101にフィードバックすることにより、ユーザ104に閲覧され、それによりユーザ104の検索体験を向上させることができる。
【0024】
本開示の実施例が提供するデータ評価方法は一般的にサーバ103によって実行されてもよい。それに応じて、本開示の実施例が提供するデータ評価装置は一般的にサーバ103に設置されることができる。本開示の実施例が提供するデータ評価方法は、サーバ103と異なりかつ端末機器101及び/又はサーバ103と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供するデータ評価装置はサーバ103と異なりかつ端末機器101及び/又はサーバ103と通信可能なサーバ又はサーバクラスタに設置されてもよい。
【0025】
理解すべきこととして、
図1における端末機器、ネットワーク及びサーバの数は単に例示的である。実現の必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有することができる。
【0026】
図2は、本開示の実施例に係るデータ評価方法のフローチャートを概略的に示す。
【0027】
図2に示すように、該方法は、操作S210~S220を含む。
【0028】
操作S210において、識別すべきインデックスデータの品質を識別するための要求に応答して、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、目標ウェブページはウェブページコンテンツが未知であるウェブページであり、目標関連データは、識別すべきインデックスデータに対応する目標ウェブページの品質を示す。
【0029】
操作S220において、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得する。
【0030】
本開示の実施例によれば、識別すべきインデックスデータはウェブページを検索するためのインデックスデータであってもよい。例えば、検索エンジンは、ユーザが入力した検索ワードに基づいて、例えば検索データベースから検索ワードにマッチングするインデックスデータを見つけ、検索ワードにマッチングするインデックスデータに基づいて、ユーザが要求する検索ワードに関連するウェブページを取得することができる。
【0031】
本開示の実施例によれば、識別すべきインデックスデータは、目標ウェブページが位置するウェブサイトのURL(Uniform Resource Locator、ユニフォームリソースロケータ)を含むことができ、目標ウェブページのウェブページコンテンツに含まれるキーワードをさらに含んでもよく、他のウェブページとのリンク関係などを含んでもよい。
【0032】
本開示の実施例によれば、目標関連データは、非目標ウェブページコンテンツの関連データであってもよく、目標ウェブページの品質のデータを示す。例えば、目標ウェブページにリンクされたソースウェブページの関連データであってもよく、目標ウェブページによりリンクされたウェブページの関連データであってもよく、目標ウェブページに対するユーザフィードバックデータであってもよい。ただし、これらに限定されるものではない。識別すべきインデックスデータに対応する目標ウェブページの品質を示すことができればよい。
【0033】
本開示の実施例によれば、目標関連データは、識別すべきインデックスデータに対応する目標ウェブページの品質を示すことができる。したがって、目標関連データに基づいて、目標ウェブページの品質結果を特定することができ、さらに、目標関連データに基づいて、目標ウェブページに対応する識別すべきインデックスデータの品質評価結果を取得することができる。
【0034】
例えば、目標ウェブページは、高品質のウェブページであってもよく、例えば、目標ウェブページは、仕様要件に合致する、ユーザに適切に提示されたコンテンツを含むウェブページであってもよい。目標ウェブページは、低品質ウェブページであってもよく、例えば、目標ウェブページは、法律違反に違反するコンテンツ、公序良俗に反するコンテンツ等を含むウェブページであってもよい。ただし、これらに限定されるものではない。目標ウェブページは、例えばブランクウェブページ、有効リンクを欠くウェブページ又は期限切れのウェブページ等であってもよい。高品質のウェブページ及び低品質のウェブページに対して、その目標関連データも相応的な異なる反映を有する。
【0035】
本開示の実施例によれば、目標関連データは、識別すべきインデックスデータに対応する目標ウェブページの品質を示すことができ、目標関連データに基づいて目標ウェブページの品質評価結果を取得することができる。識別すべきインデックスデータの品質評価結果は、識別すべきインデックスデータに対応する対象ウェブページの品質結果を示している。したがって、目標関連データに基づいて、識別すべきインデックスデータの品質評価結果を取得することができる。さらに目標ウェブページのウェブページコンテンツを取得せずに、目標関連データに基づいて目標ウェブページの品質結果に対応する識別すべきインデックスデータの品質評価結果を取得することができる。
【0036】
本開示の例示的な実施例によれば、識別すべきインデックスデータの品質評価結果により、識別すべきインデックスデータに対応する目標ウェブページの品質評価結果を特定することができる。したがって、識別すべきインデックスデータの品質評価結果に基づいて、ウェブページコンテンツの良質な目標ウェブページを選別して取得することができ、それにより識別すべきインデックスデータに基づいてユーザに表示する。それにより、ウェブページコンテンツが未知である場合に、識別すべきインデックスデータに基づいて表示されたウェブページコンテンツの品質を向上させ、ユーザの体験を向上させることができる。
【0037】
以下に具体的な実施例を組み合わせ、
図3~
図6を参照し、本開示の実施例のデータ評価方法をさらに説明する。
【0038】
本開示の実施例によれば、目標関連データは、目標ウェブページに関連する属性データ、目標ウェブページに関連するウェブサイトの属性データ、目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含むことができる。
【0039】
本開示の実施例によれば、目標ウェブページに関連する属性データは、目標ウェブページにおけるリンクに関連するデータを含むことができ、例えばリンクの数、リンクと他のウェブページとの対応関係等であってもよい。
【0040】
本開示の実施例によれば、目標ウェブページに関連する属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含むことができる。
【0041】
本開示の実施例によれば、ウェブページの外部リンクは、目標ウェブページにおける他のウェブページにリンク可能なリンクを含むことができ、ウェブページの内部リンクは、目標ウェブページにおけるウェブページ内の情報にリンク可能なリンクを含むことができ、例えば、ウェブページの内部リンクは、ウェブページにおけるテキスト情報又は画像情報にリンクするリンクであってもよい。それに応じて、ウェブページの外部リンク数は、目標ウェブページにおける他のウェブページにリンク可能なリンクの数を含むことができ、ウェブページの内部リンク数は、目標ウェブページにおけるウェブページ内の情報にリンク可能なリンクの数を含むことができる。
【0042】
本開示の実施例によれば、ウェブページにおけるリンクに関連するテキストデータは、例えばhttp://www.xxyy.com/html/html-aaa.htmlというウェブページのアドレスリンクテキストを含むことができるが、これに限定されず、例えば他のウェブページにリンク可能なテキストデータ、又はウェブページ内の情報にリンク可能なテキストデータというウェブページにおけるリンクに関連するテキストデータをさらに含むことができる。
【0043】
本開示の実施例によれば、ウェブページにおけるリンクに関連するテキストデータは、目標ウェブページの品質を示すことができ、例えばウェブページにおけるリンクに関連するテキストデータは、「ABCDの真実」という目標ウェブページにおけるウェブページの外部リンクのテキストデータであってもよく、「ABCDの真実」が違反情報を含む場合に、目標ウェブページの品質が低品質であると特定することができる。ウェブページにおけるリンクに関連するテキストデータに基づいて、目標ウェブページに対応する識別すべきインデックスデータの品質評価結果を取得することができ、したがって、目標ウェブページコンテンツを取得せずに、識別すべきインデックスデータの品質を評価する正確率を向上させることができる。
【0044】
本開示の実施例によれば、ウェブページの外部リンク数及び/又はウェブページの内部リンク数に基づいて、識別すべきインデックスデータに対する品質評価結果を取得し、ウェブページにおけるリンクに関連するテキストデータに基づいて、識別すべきインデックスデータに対する品質評価結果を特定することができる。
【0045】
本開示の例示的な実施例によれば、目標関連データからウェブページにおけるリンクに関連するテキストデータを特定し、目標種別の目標関連データとすることができる。目標種別の目標関連データから、目標関連データとして、例えばテキスト特徴という目標種別の目標関連特徴を抽出する。テキスト特徴に基づいて、識別すべきインデックスデータに対する品質評価結果を取得する。
【0046】
図3は、本開示の実施例に係る目標種別の目標関連特徴を抽出するフローチャートを概略的に示す。
【0047】
図3に示すように、操作S220を実行する前に、該データ評価方法は操作S310~S320をさらに含む。
【0048】
操作S310において、目標関連データから目標種別の目標関連データを特定する。
【0049】
操作S320において、目標関連データとして、目標種別の目標関連データから目標種別の目標関連特徴を抽出する。
【0050】
本開示の実施例によれば、特徴抽出モデルを利用して目標種別の目標関連データから目標関連特徴を抽出することができ、特徴抽出モデルは、ニューラルネットワークに基づいて構築されてもよく、特徴抽出モデルは、例えば長短期記憶ネットワーク(LSTM)、畳み込みニューラルネットワーク(CNN)等を含むことができ、当業者は、実際の需要に応じて特徴抽出モデルを構築し、目標種別の目標関連データから目標関連特徴を抽出することができる。
【0051】
本開示の実施例によれば、目標種別の目標関連特徴は、目標関連データにおける語彙情報の特徴を示してもよく、目標種別の目標関連データにおけるキーワード又はキー文字の特徴を示しても良い。したがって、目標種別の目標関連特徴におけるテキスト特徴を抽出して目標関連データとすれば、目標ウェブページの品質を示す正確率を向上させることができ、それにより識別すべきインデックスデータの品質評価結果を特定する正確率を向上させることができる。
【0052】
本開示の例示的な実施例によれば、目標種別の目標関連データがウェブページにおけるリンクに関連するテキストデータを含む場合、特徴抽出モデルは、テキスト特徴抽出モデルを採用することができる。
【0053】
本開示の実施例によれば、テキスト特徴抽出モデルを利用してウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出することができる。
【0054】
本開示の実施例によれば、テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む。
【0055】
本開示の実施例によれば、ウェブページにおけるリンクに関連するテキストデータは、「本日のニュースまとめ」、「試験申込入口」等のデータであってもよい。
【0056】
本開示の実施例によれば、単語分割モジュールは、例えば隠れマルコフモデル(HMM)又は条件ランダムフィールドモデル(CRF)などのコーパスを分割するためのモデルを含む。本開示の実施例は、単語分割モジュールの具体的な設置方式を限定しない。
【0057】
本開示の実施例によれば、畳み込みニューラルネットワークモジュールは、例えば畳み込みニューラルネットワーク(CNN)又はテキスト畳み込みニューラルネットワーク(TextCNN)であってもよい。本開示の実施例は、畳み込みニューラルネットワークモジュールの具体的な設置方式を限定しない。
【0058】
図4は、本開示の実施例に係るテキスト特徴を抽出する概略図を概略的に示す。
【0059】
図4に示すように、ウェブページにおけるリンクに関連するテキストデータ410は、「今週の十個XXニュースまとめ」であってもよく、テキスト特徴抽出モデル420は、順に接続された単語分割モジュール421及び畳み込みニューラルネットワークモジュール422を含む。ウェブページにおけるリンクテキストデータ410をテキスト特徴抽出モデル420に入力し、単語分割モジュール421によりウェブページにおけるリンクに関連するテキストデータ410を「今週の」、「十個」、「XX」、「ニュース」、「まとめ」:というデータブロックに分割し、上記データブロックを畳み込みニューラルネットワークモジュール422に入力し、テキスト特徴430を生成する。
【0060】
本開示の実施例によれば、畳み込みニューラルネットワークモジュールは、テキスト畳み込みニューラルネットワーク(TextCNN)を含み、単語分割モジュールを利用してリンクテキストデータを複数のデータブロックに分割し、かつテキスト畳み込みニューラルネットワーク(TextCNN)に基づいてその中の各データブロックのテキスト特徴を抽出し、テキスト特徴抽出モデルの計算速度を向上させることができ、それによりテキスト特徴を迅速に抽出する。
【0061】
本開示の実施例によれば、テキスト特徴抽出モデルを利用して、より重要かつ簡単なテキスト特徴を抽出することができ、該テキスト特徴を目標種別の目標関連特徴とし、かつ目標関連データとして識別すべきインデックスデータの品質評価結果を特定し、評価正確率を向上させる。
【0062】
本開示の実施例によれば、目標関連データは、目標ウェブページに対するユーザフィードバックデータであってもよい。目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む。
【0063】
本開示の実施例によれば、目標ウェブページに対するユーザフィードバックデータは、例えば目標ウェブページに対するコメントデータというユーザが目標ウェブページのコンテンツに対して生成したデータを含む。
【0064】
本開示の実施例によれば、目標ウェブページに対するユーザフィードバックデータは、ユーザによる目標ウェブページに対する評価結果を初期的に示すことができ、ユーザによる目標ウェブページに対する評価結果に基づいて、目標ウェブページの品質を示すことができる。例えば、目標ウェブページに対するユーザフィードバックデータがコメントデータである場合、コメントデータの分類結果が肯定的な種別であるか、又は否定的な種別であるかを識別することができる。コメントデータの分類結果が肯定的な種別である場合、ユーザによる目標ウェブページに対する評価結果が肯定的な評価であることを初期的に示すことができ、ユーザによる目標ウェブページに対する肯定的な評価結果に基づいて、目標ウェブページの品質が高品質であることを示すことができる。相応的には、コメントデータの分類結果が否定的な種別である場合、ユーザによる目標ウェブページに対する否定的な評価結果に基づいて、目標ウェブページの品質が低品質であることを示すことができる。
【0065】
本開示の実施例によれば、目標関連データが目標ウェブページに対するユーザフィードバックデータである場合、目標ウェブページに対するユーザフィードバックデータにより、ユーザによる目標ウェブページに対する評価結果を初期的に示し、ユーザによる目標ウェブページに対する評価結果に基づいて、目標ウェブページの品質を特定する。したがって、目標ウェブページに対するユーザフィードバックデータに基づいて得られた識別すべきインデックスデータの品質評価結果は、ユーザによる目標ウェブページに対する評価結果に基づいて得られるものである。したがって、識別すべきインデックスデータの品質評価結果の正確率を向上させることができる。
【0066】
本開示の実施例によれば、目標ウェブページに対するユーザフィードバックデータは、目標ウェブページに対するユーザ操作行為により生成されたデータであってもよく、目標ウェブページに対するユーザ操作行為は、ユーザによる目標ウェブページに対する体験を実質的に反映することができ、したがって前記目標ウェブページに対するユーザフィードバックデータを目標関連データとして、目標ウェブページの品質を効果的に示すことができる。したがって、実際の応用において、目標ウェブページに対するユーザフィードバックデータに基づいて、識別すべきインデックスデータの品質評価結果を取得し、データ評価の速度と正確率を両立させることができる。
【0067】
本開示の実施例によれば、
図3に示すような操作により目標種別の目標関連データが目標ウェブページに対するユーザフィードバックデータであることを特定することができる。
【0068】
本開示の実施例によれば、目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの一つ又は複数を含むことができ、目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータをさらに含む。
【0069】
本開示の例示的な実施例によれば、目標種別の目標関連データが目標ウェブページに対するユーザフィードバックデータを含む場合、特徴抽出モデルはフィードバック特徴抽出モデルを採用することができる。
【0070】
本開示の実施例によれば、フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含むことができる。
【0071】
本開示の実施例によれば、符号化/復号化モジュールは、符号化/復号化器(Transformer)を含むことができる。第一完全接続層または第二完全接続層は、完全に接続されたニューラルネットワーク(DNN)を含む。長短期記憶ネットワークモジュールは、長短期記憶ネットワーク(LSTM)を含み、又は、例えば双方向長短期記憶ネットワーク(Bi-LSTM)という長短期記憶ネットワーク(LSTM)に基づいて構築されたニューラルネットワークモデルであってもよい。
【0072】
理解すべきこととして、第一完全接続層又は第二完全接続層は、単一又は複数の隠蔽層を含むことができ、本開示の実施例は、第一完全接続層又は第二完全接続層に含まれる隠蔽層の数を限定しない。
【0073】
本開示の実施例によれば、フィードバック特徴抽出モデルは、長短期記憶ネットワークモジュールを含み、長短期記憶ネットワークモジュールは、ユーザフィードバックデータにおける時系列情報を処理し、ユーザフィードバックデータにおける語彙情報を取得することができ、したがって、フィードバック特徴抽出モデルを利用して目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出し、ユーザフィードバック特徴を利用してユーザによる目標ウェブページに対する評価結果を示し、評価結果に基づいて目標ウェブページの品質を特定し、さらに目標関連データがウェブページの品質を示す正確率を効果的に向上させる。
【0074】
図5は、本開示の実施例に係るユーザフィードバック特徴を抽出する概略図を概略的に示す。
【0075】
図5に示すように、目標ウェブページに対するユーザフィードバックデータは、ユーザフィードバックデータ510であってもよく、フィードバック特徴抽出モデル520は、順に接続された符号化/復号化モジュール521、第一完全接続層522、長短期記憶ネットワークモジュール523及び第二完全接続層524を含む。ユーザフィードバックデータ510をフィードバック特徴抽出モデル520に入力し、順に接続された符号化/復号化モジュール521、第一完全接続層522、長短期記憶ネットワークモジュール523及び第二完全接続層524により処理された後にユーザフィードバック特徴530を生成する。
【0076】
例えば、ユーザフィードバックデータ510は、例えば「なぜウェブページにおけるリンクが無効になるか?」というユーザのコメントデータを含み、フィードバック特徴抽出モデル520を利用してユーザフィードバックデータ510からユーザフィードバック特徴530を抽出することができる。
【0077】
本開示の実施例によれば、フィードバック特徴抽出モデルにより目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出し、かつユーザフィードバック特徴に基づいて目標ウェブページの品質を示し、目標ウェブページのウェブページコンテンツが未知である場合に目標ウェブページの品質を特定し、さらに目標ウェブページに対応する識別すべきインデックスデータの品質評価結果を取得する。本開示の実施例によれば、目標関連データは、目標ウェブページに関連するウェブサイトの属性データであってもよい。目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含むことができる。
【0078】
本開示の実施例によれば、目標ウェブページに関連するウェブサイトは、目標ウェブページのソースウェブサイトであってもよい。目標ウェブページのソースウェブサイトの属性データを、目標関連データの一つの考察要素として、識別すべきインデックスデータの品質評価結果を特定することができる。
【0079】
本開示の実施例によれば、ウェブサイトの内部リンクは、ウェブサイトにおける他のウェブページにリンク可能なリンクを含むことができ、ウェブサイトの外部リンクは、他のウェブサイトにリンク可能なウェブページのリンクを含むことができる。相応的には、ウェブサイトの内部リンク数は、他のウェブサイトのウェブページにリンク可能なリンクの数を含むことができ、ウェブサイトの外部リンク数は、他のウェブサイトのウェブページにリンク可能なリンクの数を含むことができる。
【0080】
本開示の実施例によれば、目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータは、ユーザによるウェブサイトにおける一つ又は複数のウェブページに対する操作により生成されたデータを含むことができ、例えばウェブサイトにおける一つ又は複数のウェブページに対するコメントデータ、収集行為データ、賛成行為データなどである。
【0081】
本開示の実施例によれば、目標ウェブページに関連するウェブサイトのユーザフィードバックデータは、ユーザによるウェブサイトに関連する目標ウェブページの品質評価結果を示すことができ、例えばユーザによるウェブサイトに対する賛成行為データが所定の賛成閾値より高い場合に、ウェブサイトの品質が高品質であることを特定することができ、さらにウェブサイトに関連する目標ウェブページの品質が高品質であることを特定することができる。相応的には、ユーザによるウェブサイトに対する賛成行為データが所定の賛成閾値より低い場合に、ウェブサイトの品質が低品質であることを特定することができ、さらにウェブサイトに関連する目標ウェブページの品質が低品質であることを特定することができる。
【0082】
本開示の実施例によれば、目標関連データは、目標ウェブページに関連するウェブサイトの属性データを含むことができ、目標ウェブページに関連するウェブサイトの属性データにより目標ウェブページの品質を示し、目標ウェブページに対する品質評価の範囲を拡大し、目標ウェブページの品質結果の正確率を向上させることができ、さらに目標ウェブページの品質結果に対応する識別すべきインデックスデータの品質評価結果の正確率を向上させることができる。
【0083】
説明すべきものとして、実際の応用要求に基づいて目標ウェブページに関連する属性データ、目標ウェブページに関連するウェブサイトの属性データ、目標ウェブページに対するユーザフィードバックデータのうちの一つ又は複数を選択して目標関連データとすることができる。例えば目標ウェブページに対するユーザフィードバックデータのデータ量が所定の条件を満たす場合に、目標ウェブページに対するユーザフィードバックデータを目標関連データとして選択することにより、識別すべきインデックスデータの品質評価結果を取得することができる。
【0084】
インデックスデータの品質評価結果の正確率をさらに向上させるために、目標ウェブページに関連する属性データ、目標ウェブページに対するユーザフィードバックデータを同時に目標関連データとして、識別すべきインデックスデータの品質評価結果を取得し、識別すべきインデックスデータの品質を評価する正確率を向上させることができる。理解すべきこととして、目標ウェブページに関連する属性データ、目標ウェブページに関連するウェブサイトの属性データ、目標ウェブページに対するユーザフィードバックデータを同時に目標関連データとして、該目標関連データに基づいて得られた識別すべきインデックスデータの品質評価結果の正確率が最高であるが、データ評価の時間が長く、当業者は実際のデータ評価時間要求及びデータ評価正確率要求に基づいて、目標関連データを選択することができる。
【0085】
目標ウェブページにおけるリンクに関連するデータは、目標ウェブページにおけるリンクの品質を示すことができ、したがって、目標ウェブページの品質を少なくとも部分的に示すことができる。目標ウェブページに関連する属性データに基づいて、識別すべきインデックスデータの品質評価結果を取得すれば、目標ウェブページのコンテンツを取得せずに、識別すべきインデックスデータの品質評価結果を取得することができ、それによりインデックスデータの品質評価結果を取得する速度を向上させることができる。
【0086】
本開示の実施例によれば、目標ウェブページに関連する属性データ及び/又は目標ウェブページに関連するウェブサイトの属性データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得してもよく、目標ウェブページに対するユーザフィードバックデータにおけるユーザフィードバック特徴を抽出することにより、ユーザフィードバック特徴に基づいて識別すべきインデックスデータに対する品質評価結果を取得してもよい。
【0087】
本開示の実施例によれば、操作S220において、目標関連データに基づいて、識別すべきインデックスデータに対する品質評価結果を取得することは、目標関連データを評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得することを含む。
【0088】
本開示の実施例によれば、評価モデルは、例えばツリーモデル、ニューラルネットワークモデルという機械学習に基づいて構築されたモデルを含むことができる。
【0089】
本開示の実施例によれば、目標関連データを評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得することができる。例えば、目標ウェブページに関連する属性データ、目標ウェブページに関連するウェブサイトの属性データ、目標ウェブページに対するユーザフィードバックデータのうちの複数種を同時に評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得する。
【0090】
本開示の実施例によれば、テキスト特徴抽出モデルを利用してウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出してもよく、又は、フィードバック特徴抽出モデルを利用して、フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出してもよい。テキスト特徴及び/又はユーザフィードバック特徴を、ウェブページの外部リンク数又はウェブページの内部リンク数とともに、目標関連データとして評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得する。
【0091】
図6は、本開示の実施例に係るデータ評価方法の概略図を概略的に示す。
【0092】
図6に示すように、目標ウェブページに対するユーザフィードバックデータはコメントデータ611であってもよく、コメントデータ611をフィードバック特徴抽出モデル612に入力し、フィードバック特徴抽出モデル612を利用してコメントデータ611からユーザフィードバック特徴613を抽出することができる。ユーザフィードバック特徴613は、目標種別の目標関連データとすることができ、ウェブページの内部リンク数620、ウェブサイトの内部リンク数630を結合して共同で評価モデル640に入力する。評価モデル640により処理された後、識別すべきインデックスデータの品質評価結果を出力することができる。操作S610において、識別すべきインデックスデータの品質評価結果が低品質を示すか否かを判断することができ、識別すべきインデックスデータの品質評価結果が低品質を示す場合、削除操作S620を実行することができ、すなわち該識別すべきインデックスデータを削除する。識別すべきインデックスデータの品質評価結果が低品質を示すものではないと判断した場合、保留操作S630を実行することができ、すなわち該識別すべきインデックスデータを保留する。
【0093】
本開示の実施例によれば、評価モデルの出力は、評価データ値xであってもよく、評価データ値x∈[0、1]であってもよく、評価データ値xが所定の条件値より小さい場合に、識別対象インデックスデータが高品質のインデックスデータであると特定し、評価データ値xが所定の条件値以上である場合、識別すべきインデックスデータが低品質のインデックスデータであると特定することができる。所定の条件値は、実際の需要に応じて選択することができ、例えば0.5に設定することができ、本開示の実施例が所定の条件値の具体的な数値を限定しない。
【0094】
本開示の実施例によれば、識別すべきインデックスデータが高品質のインデックスデータである場合、高品質のインデックスデータをインデックスデータベースに保留することにより、高品質のインデックスデータに基づいてユーザに高品質のウェブページを表示することができる。識別すべきインデックスデータが低品質のインデックスデータである場合、低品質のインデックスデータをインデックスデータベースから削除することができ、ユーザに低品質のインデックスデータに対応する低品質のウェブページを表示することを回避する。
【0095】
図7は、本開示の実施例に係る評価モデルのトレーニング方法のフローチャートを概略的に示す。
【0096】
図7に示すように、該方法は、操作S710~S730を含む。
【0097】
操作S710において、インデックスデータに対する複数の品質問題種別を特定する。
【0098】
操作S720において、複数の品質問題種別における各品質問題種別に対して、各品質問題種別にマッチングするトレーニングデータ及びトレーニングデータに対応するタグを取得し、ここで、トレーニングデータは、サンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、サンプルウェブページはウェブページコンテンツが未知であるウェブページであり、タグはサンプルインデックスデータの品質を指示する。
【0099】
操作S730において、トレーニングデータ及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得する。
【0100】
本開示の実施例によれば、サンプルインデックスデータの品質問題種別は、サンプルウェブページに対応する品質問題種別であってもよい。サンプルインデックスデータの品質問題種別は、詐欺種別と欠陥種別を含むことができる。詐欺種別とは、例えば、法令に反するコンテンツ、公序良俗に反するコンテンツなどの種別であってもよい。欠陥種別とは、例えば、ブランク種別、無効種別などであってもよい。
【0101】
本開示の実施例によれば、サンプルウェブページは、ウェブページコンテンツが未知であるウェブページであり、トレーニングデータは、サンプルウェブページの目標関連データを含む。サンプルウェブページの目標関連データを利用してサンプルウェブページのウェブページ品質結果を示すことができる。サンプルインデックスデータの品質は、目標ウェブページのウェブページ品質を相応的に反映する。したがって、目標関連データに基づいてサンプルインデックスデータの品質を特定することができる。
【0102】
本開示の実施例によれば、サンプルインデックスデータの品質を指示したタグと目標関連データをトレーニングデータとするトレーニング評価モデルを利用して、目標関連データをトレーニングして取得することができ、ウェブページコンテンツが未知である場合に、識別すべきインデックスデータの品質の評価モデルを特定する。
【0103】
本開示の実施例によれば、複数の品質問題種別のトレーニングデータを利用して評価モデルをトレーニングし、トレーニングデータの種類が多く、トレーニングされた評価モデルの堅牢性が高い。本開示の実施例によれば、トレーニングデータ及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得することは以下の操作を含むことができる。
【0104】
トレーニングデータから目標種別のトレーニングデータを特定する;目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出する;及び目標種別のトレーニング特徴及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得する。
【0105】
本開示の実施例を利用して、目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出し、トレーニングデータにおける重要な特徴を効率的に抽出することができる。目標種別のトレーニング特徴及びタグトレーニング評価モデルを利用して、トレーニングの収束速度、及びトレーニングされた評価モデルの評価精度を向上させる。
【0106】
本開示の実施例によれば、目標種別のトレーニングデータは、サンプルウェブページに対するユーザフィードバックデータを含む。
【0107】
本開示の実施例によれば、目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出することは以下を含む。
【0108】
フィードバック特徴抽出モデルを利用してサンプルウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出する。
【0109】
本開示の実施例によれば、フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む。
【0110】
本開示の実施例によれば、目標種別のトレーニングデータは、ウェブページにおけるリンクに関連するテキストデータを含む。
【0111】
本開示の実施例によれば、目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出することは以下を含む。
【0112】
テキスト特徴抽出モデルを利用してウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出する。
【0113】
本開示の実施例によれば、テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む。
【0114】
本開示の実施例によれば、サンプルウェブページの目標関連データは、サンプルウェブページに関連する属性データ、サンプルウェブページに関連するウェブサイトの属性データ、サンプルウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0115】
本開示の実施例によれば、サンプルウェブページに関連する属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含む。
【0116】
本開示の実施例によれば、サンプルウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、サンプルに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0117】
本開示の実施例によれば、サンプルウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む。
【0118】
本開示の技術的解決手段において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法律規則の規定に適合し、かつ公序良俗に反するものではない。
【0119】
本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
【0120】
図8は、本開示の実施例に係るデータ評価装置のブロック図を概略的に示す。
【0121】
図8に示すように、データ評価装置800は、目標関連データ取得モジュール810及び評価モジュール820を含むことができる。
【0122】
目標関連データ取得モジュール810は、識別すべきインデックスデータの品質を識別する要求に応答して、識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、目標ウェブページがウェブページコンテンツが未知であるウェブページであり、目標関連データが識別すべきインデックスデータに対応する目標ウェブページの品質を示す。
【0123】
評価モジュール820は、前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得するために用いられる。
【0124】
本開示の実施例によれば、データ評価装置は、目標種別特定モジュール及び抽出モジュールをさらに含む。
【0125】
目標種別特定モジュールは、目標関連データから目標種別の目標関連データを特定するために用いられる。
【0126】
抽出モジュールは、目標関連データとして、目標種別の目標関連データから目標種別の目標関連特徴を抽出するために用いられる。
【0127】
本開示の実施例によれば、目標種別の目標関連データは、目標ウェブページに対するユーザフィードバックデータを含む。
【0128】
抽出モジュールは、第一抽出手段を含む。
【0129】
第一抽出手段は、フィードバック特徴抽出モデルを利用して目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出するために用いられ、ここで、フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む。
【0130】
本開示の実施例によれば、目標種別の目標関連データは、ウェブページにおけるリンクに関連するテキストデータを含む。
【0131】
抽出モジュールは、第二抽出手段を含む。
【0132】
第二抽出手段は、テキスト特徴抽出モデルを利用してウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出するために用いられ、ここで、テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む。
【0133】
本開示の実施例によれば、評価モジュールは、評価手段を含む。
【0134】
評価手段は、目標関連データを評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得するために用いられる。
【0135】
本開示の実施例によれば、目標関連データは、目標ウェブページに関連する属性データ、目標ウェブページに関連するウェブサイトの属性データ、目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0136】
本開示の実施例によれば、目標ウェブページに関連する属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含む。
【0137】
目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0138】
目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む。
【0139】
図9は、本開示の実施例に係る評価モデルのトレーニング装置のブロック図を概略的に示す。
【0140】
図9に示すように、評価モデルのトレーニング装置900は、品質問題特定モジュール910、トレーニングデータ取得モジュール920及びトレーニングモジュール930を含む。
【0141】
品質問題特定モジュール910は、インデックスデータに対する複数の品質問題種別を特定するために用いられる。
【0142】
トレーニングデータ取得モジュール920は、複数の品質問題種別における各品質問題種別に対して、各品質問題種別にマッチングするトレーニングデータ及びトレーニングデータに対応するタグを取得し、ここで、トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、タグがサンプルインデックスデータの品質を指示する。
【0143】
トレーニングモジュール930は、トレーニングデータ及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得するために用いられる。
【0144】
本開示の実施例によれば、トレーニングモジュールは、特定手段、第三抽出手段及びトレーニング手段を含む。
【0145】
特定手段は、トレーニングデータから目標種別のトレーニングデータを特定するために用いられる。
【0146】
第三抽出手段は、目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出するために用いられる。
【0147】
トレーニング手段は、目標種別のトレーニング特徴及びタグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得することに用いられる。
【0148】
本開示の実施例によれば、トレーニングデータは、サンプルウェブページに関連する属性データ、サンプルウェブページに関連するウェブサイトの属性データ、サンプルウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0149】
本開示の実施例によれば、サンプルウェブページに関連する属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含む。
【0150】
サンプルウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、サンプルウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含む。
【0151】
サンプルウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む。
【0152】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0153】
本開示の実施例によれば、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリと、を含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令が少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが前記のような方法を実行することができる。
【0154】
本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、ここで、コンピュータ命令はコンピュータに前記のような方法を実行させるために用いられる。
【0155】
本開示の実施例によれば、コンピュータプログラム製品であって、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。
【0156】
図10は、本開示の実施例を実施可能な例示電子機器1000の概略ブロック図である。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示する。電子機器は、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0157】
図10に示すように、機器1000は、計算手段1001を含み、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶手段1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003において、さらに記憶機器1000の操作に必要な様々なプログラム及びデータを記憶することができる。計算手段1001、ROM1002、およびRAM1003は、バス1004により相互に接続されている。入出力(I/O)インタフェース1005もバス1004に接続されている。
【0158】
機器1000における複数の部品はI/Oインタフェース1005に接続され、例えばキーボード、マウス等の入力手段1006と、例えば様々な種別のディスプレイ、スピーカ等の出力手段1007と、例えば磁気ディスク、光ディスク等の記憶手段1008と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段1009と、を含む。通信手段1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを許可する。
【0159】
計算手段1001は、各種の処理、計算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算手段1001のいくつかの例示は、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)計算チップ、各種動作機械学習モデルアルゴリズムの計算手段、DSP(Digital Signal Processor)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これらに限定されるものではない。計算手段1001は、例えばデータ評価方法という上記各方法及び処理を実行する。例えば、いくつかの実施例において、データ評価方法は、コンピュータソフトウェアプログラムとして実現され、例えば記憶手段1008という機械可読媒体に一時的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1002及び/又は通信手段1009を介して機器1000にロード及び/又はインストールされる。コンピュータプログラムがRAM1003にロードされかつ計算手段1001により実行される場合、上記データ評価方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算手段1001は他の任意の適切な方式(例えば、ファームウェア)によりデータ評価方法を実行するように構成されてもよい。
【0160】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。
【0161】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0162】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0163】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0164】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0165】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0166】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0167】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
【手続補正書】
【提出日】2022-09-27
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本開示は、コンピュータの技術分野に関し、特にインテリジェント検索技術分野に関し、具体的にはデータ評価方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、コンピュータプログラムに関する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正の内容】
【0004】
本開示は、データ評価のための方法、評価モデルのトレーニング方法及び装置、電子機器、記憶媒体、コンピュータプログラムを提供する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0011
【補正方法】変更
【補正の内容】
【0011】
本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを提供している。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0059
【補正方法】変更
【補正の内容】
【0059】
図4に示すように、ウェブページにおけるリンクに関連するテキストデータ410は、「今週の十個XXニュースまとめ」であってもよく、テキスト特徴抽出モデル420は、順に接続された単語分割モジュール421及び畳み込みニューラルネットワークモジュール422を含む。ウェブページにおけるリンク
に関連するテキストデータ410をテキスト特徴抽出モデル420に入力し、単語分割モジュール421によりウェブページにおけるリンクに関連するテキストデータ410を「今週の」、「十個」、「XX」、「ニュース」、「まとめ」:というデータブロックに分割し、上記データブロックを畳み込みニューラルネットワークモジュール422に入力し、テキスト特徴430を生成する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0090
【補正方法】変更
【補正の内容】
【0090】
本開示の実施例によれば、テキスト特徴抽出モデルを利用してウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出してもよく、又は、フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出してもよい。テキスト特徴及び/又はユーザフィードバック特徴を、ウェブページの外部リンク数又はウェブページの内部リンク数とともに、目標関連データとして評価モデルに入力し、識別すべきインデックスデータに対する品質評価結果を取得する。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0152
【補正方法】変更
【補正の内容】
【0152】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0155
【補正方法】変更
【補正の内容】
【0155】
本開示の実施例によれば、コンピュータプログラムであって、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0157
【補正方法】変更
【補正の内容】
【0157】
図10に示すように、
電子機器1000は、計算手段1001を含み、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶手段1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003において、さらに
電子機器1000の操作に必要な様々なプログラム及びデータを記憶することができる。計算手段1001、ROM1002、およびRAM1003は、バス1004により相互に接続されている。入出力(I/O)インタフェース1005もバス1004に接続されている。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0158
【補正方法】変更
【補正の内容】
【0158】
電子機器1000における複数の部品はI/Oインタフェース1005に接続され、例えばキーボード、マウス等の入力手段1006と、例えば様々な種別のディスプレイ、スピーカ等の出力手段1007と、例えば磁気ディスク、光ディスク等の記憶手段1008と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段1009と、を含む。通信手段1009は、電子機器1000がインターネットなどのコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを許可する。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0159
【補正方法】変更
【補正の内容】
【0159】
計算手段1001は、各種の処理、計算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算手段1001のいくつかの例示は、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)計算チップ、各種動作機械学習モデルアルゴリズムの計算手段、DSP(Digital Signal Processor)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これらに限定されるものではない。計算手段1001は、例えばデータ評価方法という上記各方法及び処理を実行する。例えば、いくつかの実施例において、データ評価方法は、コンピュータソフトウェアプログラムとして実現され、例えば記憶手段1008という機械可読媒体に一時的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1002及び/又は通信手段1009を介して電子機器1000にロード及び/又はインストールされる。コンピュータプログラムがRAM1003にロードされかつ計算手段1001により実行される場合、上記データ評価方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算手段1001は他の任意の適切な方式(例えば、ファームウェア)によりデータ評価方法を実行するように構成されてもよい。
【手続補正12】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
識別すべきインデックスデータの品質を識別するための要求に応答して、前記識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、前記目標ウェブページはウェブページコンテンツが未知であるウェブページであり、前記目標関連データは前記識別すべきインデックスデータに対応する目標ウェブページの品質を示すことと、
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得することと、を含む
ことを特徴とするデータ評価方法。
【請求項2】
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得する前に、
前記目標関連データから目標種別の目標関連データを特定することと、
前記目標関連データとして、前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することと、をさらに含む
ことを特徴とする請求項1に記載の
データ評価方法。
【請求項3】
前記目標種別の目標関連データは、前記目標ウェブページに対するユーザフィードバックデータを含み、
前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することは、
フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出することを含み、
ここで、前記フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む
ことを特徴とする請求項2に記載の
データ評価方法。
【請求項4】
前記目標種別の目標関連データは、ウェブページにおけるリンクに関連するテキストデータを含み、
前記目標種別の目標関連データから目標種別の目標関連特徴を抽出することは、
テキスト特徴抽出モデルを利用して前記ウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出することを含み、
ここで、前記テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む
ことを特徴とする請求項2に記載の
データ評価方法。
【請求項5】
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得することは、
前記目標関連データを評価モデルに入力し、前記識別すべきインデックスデータに対する前記品質評価結果を取得することを含む
ことを特徴とする請求項1に記載の
データ評価方法。
【請求項6】
前記目標関連データは、前記目標ウェブページに関連する属性データ、前記目標ウェブページに関連するウェブサイトの属性データ、前記目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む
ことを特徴とする請求項1に記載の
データ評価方法。
【請求項7】
前記目標ウェブページに関連する前記属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含み、
前記目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、前記目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含み、
前記目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む
ことを特徴とする請求項6に記載の
データ評価方法。
【請求項8】
インデックスデータに対する複数の品質問題種別を特定することと、
前記複数の品質問題種別における各品質問題種別に対して、前記各品質問題種別にマッチングするトレーニングデータ及び前記トレーニングデータに対応するタグを取得し、ここで、前記トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、前記サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、前記タグが前記サンプルインデックスデータの品質を指示することと、
前記トレーニングデータ及び前記タグトレーニング評価モデルを用いて、トレーニングされた評価モデルを取得することと、を含む
ことを特徴とする評価モデルのトレーニング方法。
【請求項9】
前記トレーニングデータ及び前記タグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得することは、
前記トレーニングデータから目標種別のトレーニングデータを特定することと、
前記目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出することと、
前記目標種別のトレーニング特徴及び前記タグを利用して前記評価モデルをトレーニングし、前記トレーニングされた評価モデルを取得することと、を含む
ことを特徴とする請求項8に記載の
評価モデルのトレーニング方法。
【請求項10】
識別すべきインデックスデータの品質を識別する要求に応答して、前記識別すべきインデックスデータに対応する目標ウェブページの目標関連データを取得し、ここで、前記目標ウェブページがウェブページコンテンツが未知であるウェブページであり、前記目標関連データが前記識別すべきインデックスデータに対応する目標ウェブページの品質を示す目標関連データモジュールと、
前記目標関連データに基づいて、前記識別すべきインデックスデータに対する品質評価結果を取得する評価モジュールと、を含む
ことを特徴とするデータ評価装置。
【請求項11】
前記目標関連データから目標種別の目標関連データを特定するための目標種別特定モジュールと、
前記目標関連データとして、前記目標種別の目標関連データから目標種別の目標関連特徴を抽出するための抽出モジュールと、をさらに含む
ことを特徴とする請求項10に記載の
データ評価装置。
【請求項12】
前記目標種別の目標関連データは前記目標ウェブページに対するユーザフィードバックデータを含み、
前記抽出モジュールは、
フィードバック特徴抽出モデルを利用して前記目標ウェブページに対するユーザフィードバックデータからユーザフィードバック特徴を抽出するための第一抽出手段を含み、
ここで、前記フィードバック特徴抽出モデルは、順に接続された符号化/復号化モジュール、第一完全接続層、長短期記憶ネットワークモジュール及び第二完全接続層を含む
ことを特徴とする請求項11に記載の
データ評価装置。
【請求項13】
前記目標種別の目標関連データは、ウェブページにおけるリンクに関連するテキストデータを含み、
前記抽出モジュールは、
テキスト特徴抽出モデルを利用して前記ウェブページにおけるリンクに関連するテキストデータからテキスト特徴を抽出するための第二抽出手段を含み、
ここで、前記テキスト特徴抽出モデルは、順に接続された単語分割モジュール及び畳み込みニューラルネットワークモジュールを含む
ことを特徴とする請求項11に記載の
データ評価装置。
【請求項14】
前記評価モジュールは、
前記目標関連データを評価モデルに入力し、前記識別すべきインデックスデータに対する前記品質評価結果を取得するための評価手段を含む
ことを特徴とする請求項10に記載の
データ評価装置。
【請求項15】
前記目標関連データは、
前記目標ウェブページに関連する属性データ、前記目標ウェブページに関連するウェブサイトの属性データ、前記目標ウェブページに対するユーザフィードバックデータのうちの少なくとも一つを含む
ことを特徴とする請求項10に記載の
データ評価装置。
【請求項16】
前記目標ウェブページに関連する前記属性データは、ウェブページの外部リンク数、ウェブページの内部リンク数、ウェブページにおけるリンクに関連するテキストデータのうちの少なくとも一つを含み、
前記目標ウェブページに関連するウェブサイトの属性データは、ウェブサイトの内部リンク数、ウェブサイトの外部リンク数、前記目標ウェブページに関連するウェブサイトに対するユーザフィードバックデータのうちの少なくとも一つを含み、
前記目標ウェブページに対するユーザフィードバックデータは、収集行為データ、賛成行為データ、シェア行為データ、コメントデータのうちの少なくとも一つを含む
ことを特徴とする請求項15に記載の
データ評価装置。
【請求項17】
インデックスデータに対する複数の品質問題種別を特定するための品質問題特定モジュールと、
前記複数の品質問題種別における各品質問題種別に対して、前記各品質問題種別にマッチングするトレーニングデータ及び前記トレーニングデータに対応するタグを取得し、ここで、前記トレーニングデータがサンプルインデックスデータに対応するサンプルウェブページの目標関連データを含み、前記サンプルウェブページがウェブページコンテンツが未知であるウェブページであり、前記タグが前記サンプルインデックスデータの品質を指示するトレーニングデータ取得モジュールと、
前記トレーニングデータ及び前記タグトレーニング評価モデルを利用して、トレーニングされた評価モデルを取得するためのトレーニングモジュールと、を含む
ことを特徴とする評価モデルのトレーニング装置。
【請求項18】
前記トレーニングモジュールは、
前記トレーニングデータから目標種別のトレーニングデータを特定するための特定手段と、
前記目標種別のトレーニングデータから目標種別のトレーニング特徴を抽出するための第三抽出手段と、
前記目標種別のトレーニング特徴及び前記タグを利用して前記評価モデルをトレーニングし、前記トレーニングされた評価モデルを取得するためのトレーニング手段と、を含む
ことを特徴とする請求項17に記載の
評価モデルのトレーニング装置。
【請求項19】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
ここで、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実行可能である
ことを特徴とする電子機器。
【請求項20】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実行させる
ことを特徴とする記憶媒体。
【請求項21】
プロセッサにより実行される時に請求項1~7のいずれか一項に記載のデータ評価方法又は請求項8~9のいずれか一項に記載の評価モデルのトレーニング方法を実現す
ることを特徴とするコンピュータプログラ
ム。
【国際調査報告】