特許6785003 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エフティーの特許一覧

特許6785003Ｗｅｂページの品質評価プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6785003

(24)【登録日】2020年10月28日

(45)【発行日】2020年11月18日

(54)【発明の名称】Ｗｅｂページの品質評価プログラム

(51)【国際特許分類】

G06F 13/00 20060101AFI20201109BHJP

【ＦＩ】

G06F13/00 540R

【請求項の数】2

【全頁数】10

(21)【出願番号】特願2017-8557(P2017-8557)

(22)【出願日】2017年1月20日

(65)【公開番号】特開2018-116626(P2018-116626A)

(43)【公開日】2018年7月26日

【審査請求日】2019年12月2日

(73)【特許権者】

【識別番号】509288644

【氏名又は名称】株式会社エフティー

(74)【代理人】

【識別番号】110000729

【氏名又は名称】特許業務法人ユニアス国際特許事務所

(72)【発明者】

【氏名】郡司武

(72)【発明者】

【氏名】加茂実菜心

(72)【発明者】

【氏名】北口努

【審査官】森田充功

(56)【参考文献】

【文献】特開２００３−２６３４４８（ＪＰ，Ａ）

【文献】米国特許出願公開第２００８／００９７９８０（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１３／００

(57)【特許請求の範囲】

【請求項1】

入力されたＷｅｂサイトのＵＲＬに基づいて、当該Ｗｅｂサイトのアクセス解析データを読み込むステップと、
前記ＵＲＬを起点にＷｅｂサイト全体をクロールして内部リンク構造を解析するステップと、
前記内部リンク構造からページランクを演算するステップと、
前記アクセス解析データからＷｅｂサイト全体及びＷｅｂページごとのサイト内トラフィックを取得するステップと、
前記Ｗｅｂサイト全体のサイト内トラフィックと、演算された前記ページランクに基づいて、Ｗｅｂページごとのトラフィック理論値を演算するステップと、
前記Ｗｅｂページごとのサイト内トラフィックと、前記トラフィック理論値とを比較して差異を演算するステップと、をコンピュータに実行させるＷｅｂページの品質評価プログラムであって、
演算された前記差異のデータに基づいてＷｅｂページごとの品質判定を可能にした品質評価プログラム。

【請求項2】

前記差異は、トラフィック実数とトラフィック理論値の差をトラフィック理論値で除した差異率を演算するものであることを特徴とする請求項１に記載のＷｅｂページの品質評価プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、Ｗｅｂページの品質評価プログラムコンピュータプログラムに関するものである。

【背景技術】

【0002】

検索エンジンの１つであるＧｏｏｇｌｅは、世界中に存在するＷｅｂ（ウェブ）ページの品質を定量的に、また客観的に判断したいと考えている。Ｇｏｏｇｌｅは、ページランク（ＰａｇｅＲａｎｋ）アルゴリズムをはじめとする様々な技術を使用して、各Ｗｅｂページの重要性を評価していることを公表している。すなわち、ページランクがＷｅｂページを評価する場合の客観的尺度として機能する。ここで、ページランクとは推移確率行列を用いて、リンク構造に基づいて表した訪問者数の分布を表しており、具体的な計算式は、下記特許文献１に開示されている。これは、世界中のＷｅｂページへの訪問者の比率をランク付けしたものになる。

【0003】

Ｇｏｏｇｌｅは、たくさんのＷｅｂページからリンクされているＷｅｂページは、人が集まりやすく、結果として人が集まったＷｅｂページは重要である、すなわち、人気があると定義している。

【0004】

しかしながら、訪問者は、ページランクの大きさだけではなく、Ｗｅｂページのコンテンツを合理的に選択してリンクを巡ると考えられる。

【0005】

下記特許文献１のページランクの計算は、多くのＷｅｂページからリンクされたＷｅｂページを無条件に品質の良いＷｅｂページであると評価するものであり、ランキングスコアに大きく影響していたが、その後導入された下記特許文献２に開示される計算式では、ほかのＷｅｂページからのリンクを基にした評価にユーザーの行動データ（そのページが選択される確率）を加味した計算結果がランキングスコアに大きく影響するようになった。

【0006】

したがって、Ｗｅｂページの品質を正しく知るためには、Ｗｅｂページのページランクを正しく計算し、さらに、ユーザーの行動データ（そのページが選択される確率）を知る必要がある。なお、特許文献２において、ユーザーの行動データはＷ係数（クリック率）として規定されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】米国特許第６２８５９９９号

【特許文献2】米国特許第８１１７２０９号

【発明の概要】

【発明が解決しようとする課題】

【0008】

そこで、Ｗｅｂページの管理者は、運営管理するＷｅｂページの正しいページランクとユーザーの行動がどのような状況にあるかを把握し、その結果に応じて改善することが求められる。本来は、Ｇｏｏｇｌｅが判断する基準をそのまま用いることが好ましいが、その閾値は公開されていない。従って、適切に閾値を設定してＷｅｂページの改善を行う必要がある。

【0009】

また、ページランクの計算に際しては、Ｇｏｏｇｌｅの特許によれば全世界８０兆ページ以上あるＷｅｂページのリンク構造を取得する必要があり、スーパーコンピュータ並みの処理能力が要求されるため、コスト等の面で現実的ではない。

【0010】

本発明は上記実情に鑑みてなされたものであり、その課題は、比較的簡易な方法でＷｅｂページの品質評価が可能なＷｅｂページの品質評価プログラムを提供することである。

【課題を解決するための手段】

【0011】

上記課題を解決するため本発明に係るＷｅｂページの品質評価プログラムは、
入力されたＷｅｂサイトのＵＲＬに基づいて、当該Ｗｅｂサイトのアクセス解析データを読み込むステップと、
前記ＵＲＬを起点にＷｅｂサイト全体をクロールして内部リンク構造を解析するステップと、
前記内部リンク構造からページランクを演算するステップと、
前記アクセス解析データからＷｅｂサイト全体及びＷｅｂページごとのサイト内トラフィックを取得するステップと、
前記Ｗｅｂサイト全体のサイト内トラフィックと、演算された前記ページランクに基づいて、Ｗｅｂページごとのトラフィック理論値を演算するステップと、
前記Ｗｅｂページごとのサイト内トラフィックと、前記トラフィック理論値とを比較して差異を演算するステップと、をコンピュータに実行させるものであり、
演算された前記差異のデータに基づいてＷｅｂページごとの品質判定を可能にしたことを特徴とするものである。

【0012】

かかる構成による品質評価プログラムの作用・効果を以下説明する。まず、ＷｅｂサイトのＵＲＬ（Uniform Resource Locator）が入力されると、当該Ｗｅｂサイトのアクセス解析データを読み込む。アクセス解析により、Ｗｅｂサイトへの種々のアクセス情報を取得することができる。さらに、ＵＲＬを起点にＷｅｂサイト全体をクロールして内部リンク構造を解析する。ここで内部リンク構造とは、サイト内のリンク構造であり、例えば、abc.com等のドメイン内におけるリンク構造である。サイト内という限定された範囲におけるリンク構造を解析すればよいので、時間・コストの面での負担は少なくて済む。内部リンク構造からページランクを演算する。この演算においては、例えば、Ｇｏｏｇｌｅが特許文献１で開示しているような計算式を用いて行うことができる。

【0013】

前述の取得したアクセス解析データに基づいて、Ｗｅｂサイト全体及びＷｅｂページ毎のサイト内トラフィック（例えば、アクセス数など）を取得する。ここで、サイト内トラフィックとは、外部サイトから自サイトへのアクセス数を排除して、ユーザーが自サイト内を巡ったトラフィックのみを抽出したデータのことをいう。以下の説明も同様である。一方、Ｗｅｂサイト全体のトラフィックと、演算されたページランクに基づいて、Ｗｅｂページ毎のトラフィック理論値を演算する。このＷｅｂページごとのトラフィック理論値と、Ｗｅｂページごとのトラフィックを比較する（差を求める）ことで、Ｗｅｂページ毎に品質判定を行うことができる。例えば、理論値よりも実際のトラフィックが多ければ、高い品質を有すると判定することができる。以上の通り、比較的簡易な方法でＷｅｂページの品質評価が可能なＷｅｂページの品質評価プログラムを提供することができる。

【0014】

本発明に係る前記差異は、トラフィック実数とトラフィック理論値の差をトラフィック理論値で除した差異率を演算するものであることが好ましい。

【0015】

かかる差異率に基づいて、適宜しきい値を設定してＷｅｂページの品質評価を行うことができる。

【図面の簡単な説明】

【0016】

【図1】評価プログラムを用いたシステム全体の構成を示すブロック図

【図2A】品質評価プログラムを使用するときの手順を示すフローチャート

【図2B】品質評価プログラムを使用するときの手順を示すフローチャート

【図3】ＵＲＬの入力画面の構成例を示す図

【図4】品質判定結果の表示例を示す図

【図5】履歴の表示例を示す図

【発明を実施するための形態】

【0017】

本発明に係るＷｅｂページの品質評価プログラムの好適な実施形態を図面を用いて説明する。図１は、本発明に係る品質評価プログラムを用いたシステム全体の構成を示すブロック図である。

【0018】

＜システム全体の構成＞
図１において、Ｗｅｂサーバー１００には、種々のプログラム（コンピュータソフトウェア）が格納されている。サイトアナライザー１０１（本発明に係る品質評価プログラムに相当）は、アクセス情報解析システム１０１ａ、サイト構造解析システム１０１ｂ、ページランク計算システム１０１ｃ、品質判定システム１０１ｄを少なくとも備えている。各システムの機能については後述する。

【0019】

また、Ｗｅｂサーバー１００には、会員管理システム１０２が格納されており、認証システム１０２ａと外部接続管理システム１０２ｂを少なくとも備えている。本発明に係る品質評価プログラムを利用できるのは、会員登録をした者に限定されるので、会員であるか否かを確認するための認証システム１０２ａが設けられている。外部接続管理システム１０２ｂは、会員データ等を外部サーバーに保存・管理させるためのシステムである。

【0020】

ＤＢサーバー２００は、種々のデータを格納するためのデータベースを備えたサーバーであり、Ｗｅｂサーバー１００と連携して作動する。クロールサーバー２１０には、クロールシステムが格納されている。インターネット上には、種々のＷｅｂサイトが存在する。会員登録されたユーザーは、例えば、ＰＣ（パーソナルコンピュータ）に格納されたクライアント・ブラウザ（例えば、インターネットエクスプローラ）を用いて、インターネットを介して、Ｗｅｂサーバー１００にアクセスして、本発明に係る品質評価プログラムを利用することができる。クロールサーバー２１０もＷｅｂサーバ１００と連携して作動する。

【0021】

ＧｏｏｇｌｅＡＰＩ検索サービスは、サーバー２４０に格納されており、Ｇｏｏｇｌｅが提供する検索エンジンを用いた検索サービスを提供する。なお、本実施形態では、検索エンジンとしてＧｏｏｇｌｅを例に挙げて説明するが、本発明としては、検索エンジンはＧｏｏｇｌｅに限定されるものではなく、他の検索エンジンを用いる場合にも適用される。

【0022】

＜品質評価プログラムの使用手順＞
つぎに、本発明に係る品質評価プログラムを使用するときの手順を図２Ａ，２Ｂのフローチャートにより説明する。

【0023】

この品質評価プログラムを用いてＷｅｂページの品質評価をしようとするユーザーは、ＰＣ等を用いてインターネットを介してＷｅｂサーバー１００にアクセス（図１の符号２３０）し、サイトアナライザー１０１を開く。利用するに際して、会員管理システム１０２による会員認証が行われるが、公知のシステムであるので説明は省略する。

【0024】

図３に示すような画面がユーザーのコンピュータ画面に表示される。なお、説明の便宜のため、画面構成の一部のみを概略化して示す。以下、他の画面表示も同様である。

【0025】

入力エリア１０に、品質判定をしたいＷｅｂサイトの代表的なＵＲＬ、すなわち、検索エンジンに認識されたトップページのＵＲＬを入力する（ステップＳ１）。

【0026】

次に、Ｗｅｂサイトのアクセス解析データを読み込む（ステップＳ２）。図３に示すように、Ｇｏｏｇｌｅアナリティクス（ＣＳＶ）等の所定のフォーマットに成形された外部入力ファイルを使用してＷｅｂサイトのアクセス解析データを読み込む。ＡＰＩ（Application Programming Interface）による連携で読み込むようにしてもよく、特定の方式に限定されるものではない。

【0027】

アクセス解析により、Ｗｅｂサイトへの種々のアクセス情報を取得することができる。Ｗｅｂサイトを構成する各Ｗｅｂページに何時どの程度のアクセス数があったのか、どのサイトあるいはＷｅｂページからアクセスがされたのか、次にどのサイトあるいはＷｅｂページに移ったのかなど、種々のアクセス情報を取得することができる。取得されたアクセス解析データは、データベースとして保存される（ステップＳ２Ａ）。

【0028】

次に、入力されたＵＲＬを起点にＷｅｂサイト全体をクロールする（ステップＳ３）。これは、クロールサーバ２１０上のクロールシステムの機能に基づいて実行される。これにより、自動で内部リンク情報を取得する。内部リンク構造とは、サイト内のリンク構造であり、例えば、abc.com等のドメイン内におけるリンク構造である。サイト内という限定された範囲におけるリンク構造を解析すればよいので、時間・コストの面での負担は少なくて済む。取得したリンク情報から、リンク先のＷｅｂページをさらにクロールし、さらにリンク情報を取得する。この処理を新たなＷｅｂページの情報がなくなるか、所定の階層（例えば、リンク先のリンク先まで）までクロールを繰り返す。所定の階層をどこまでするかは、任意で指定できるようにしてもよい。これにより、演算時間の短縮化を行うことができる。クロールされた内部リンク構造のデータは、データベースに保存される（Ｓ３Ａ）。

【0029】

次に、クロールされたデータに基づいて、内部リンク構造を解析する（Ｓ４）。クロールしたＷｅｂページの情報に基づいて、内部リンク構造のデータを自動的にすべて取得する。これは、Ｗｅｂサーバ１００上のサイトアナライザー１０１のサイト構造解析システム１０１ｂの機能に基づいて実行される。取得された内部リンク構造のデータは、データベースとして保存される（Ｓ４Ａ）。これにより、サイト内の各Ｗｅｂページがどのようにリンクされているのか、というデータを取得することができる。

【0030】

次に、取得された内部リンク構造のデータを基にページランクを計算する（Ｓ５）。この計算においては、Ｇｏｏｇｌｅが特許文献１で開示しているような計算式を用いて行うことができる。なお、ページランクの計算は、Ｇｏｏｇｌｅ以外の計算式を用いてもよい。この計算は、サイトアナライザー１０１のページランク計算システム１０１ｃの機能に基づいて実行される。

【0031】

Ｇｏｏｇｌｅの特許の計算式によれば全世界８０兆ページ以上あるＷｅｂページのリンク構造を取得する必要があり、スーパーコンピュータ並みの処理能力が要求されるため、コスト等の面で現実的ではない。そこで、もう少し簡易的にかつ高速でページランクを計算できるようにする。

【0032】

まず、全世界に存在するＷｅｂページには無数のホストコンピュータ（以下、単にホストと略す）が存在する。通常、１つのホスト内には、数千から数万のＷｅｂページが存在する。上記計算式による計算においては、ホスト内のリンク構造（内部リンク構造）およびホスト間のすべてのリンク構造を巡って行われるが、前述のようにスーパーコンピュータ並みの処理能力が必要とされる。そこで、本発明においては、内部リンク構造のみに基づいてページランク（＝ホストランク：特定のホスト内（通常abc.comなどのドメイン内）を対象として計算されたページランク）を計算する。

【0033】

なお、ホスト内のページランク（＝ホストランク）を計算して、別途計算されたホスト間のリンクスコアを基にホストランクを調整してページランクを計算する手法が公知であり、スタンフォード大学の研究チームによって提唱されている。この手法により、近似値が得られることも実証されている。

【0034】

ホストは、Ｗｅｂページを構成する最小単位であり、ほとんどの場合はドメイン（www.example.com）である。すなわち、コンピュータのグループ、インターネット上でコンピュータやネットワークを識別する名前の体系である。そして、Ｗｅｂサイトの品質評価にあたっては、ページランクによる重要度が分かればよく、ホスト内のページランク（ホストランク）だけでも近似値が得られ、十分に実用的である。ホストランクであれば、ホスト内の、通常は数千ページから数万ページのＷｅｂページのリンク構造を巡ってページランクの計算を行えばよく、スーパーコンピュータではなくても高性能なクラウドサービスのサーバーでも計算することが可能である。

【0035】

なお、ページランクの計算結果はデータベースとして保存される（ステップＳ５Ａ）。計算された数値は、０〜１０の数値で表され、数値が大きいほど（１０に近いほど）ページランクは高いと評価される。基本的には、ほかのＷｅｂサイトからの被リンク数が多いほど、ページランクは高くなる。

【0036】

次に、アクセス解析データからＷｅｂサイト全体およびＷｅｂページごとのサイト内トラフィックのデータを取得する（ステップＳ６）。すなわち、ホスト（＝ドメイン）内を巡回したトラフィックのみを抽出する。これにより、内部リンク構造のみでページランクを計算するという条件と整合性を取ることができる。なお、トラフィックとはアクセス数と同義である。なお、この処理は、サイトアナライザー１０１のアクセス情報解析システム１０１ａにより実行される。

【0037】

アクセス解析データのうち、Ｗｅｂサイト全体とＷｅｂページごとのページビュー数と閲覧を開始したページビュー数のデータを取得する。そして、
ホスト内を巡回したトラフィック＝ページビュー数−閲覧を開始したページビュー数
により計算することができる。ここで、「ページビュー数」は、単純にユーザーがＷｅｂページを訪問したアクセス数を集計したものであり、「閲覧を開始したビュー数」は、ユーザーが他のサイトから来たアクセス数となる。つまり、「ページビュー数」から「閲覧を開始したビュー数」を引くと、そのサイト内を巡ったアクセス数（トラフィック）を取得できることになる。計算されたサイト内トラフィックは、データベースとして保存される（ステップＳ６Ａ）。

【0038】

次に、サイト内トラフィックとページランク（＝ホストランク）を基に、Ｗｅｂページごとのトラフィック理論値を計算する（ステップＳ７）。これは、サイトアナライザー１０１のアクセス情報解析システム１０１ａにより実行される。具体的には、サイト内を巡ったトラフィックの総数（＝Ｗｅｂサイト全体のトラフィック）にページランクを掛けることでＷｅｂページごとのトラフィック）理論値を計算することができる。計算された理論値は、データベースとして保存される（ステップＳ７Ａ）。

【0039】

次に、Ｗｅｂページごとにサイト内トラフィックとトラフィック理論値を比較して差異値を計算し、Ｗｅｂページごとの品質判定を行う（ステップＳ８）。この品質判定は、サイトアナライザー１０１の品質判定システム１０１ｄにより実行される。具体的には、下記の式に基づいて差異率を計算する。

【0040】

差異率（％）＝（トラフィック実数―トラフィック理論値）÷トラフィック理論値×１００
図４は、計算された品質判定結果（特に、符号２０の部分）をコンピュータ画面に表示させた例を示す。また、品質判定結果のデータは、データベースとして保存される（ステップＳ８Ａ）。表には、「発リンク」「被リンク」の数、ページランク、トラフィックの理論値と実数、１リンク換算のトラフィック（訪問者のビュー数をそのＷｅｂページへのリンク数で割った数値）、差異率、判定、が表示される。このような項目のデータを表示させることで、Ｗｅｂサイトを改善する際の参考として利用することができる。

【0041】

また、判定結果において、差異率が−５０％を下回るものを低品質（×）、−３０％〜−５０％を要注意（△）、＋５０％を超えるものを高品質（〇）と判定している。ただし、これらの評価基準（しきい値）をどのように設定するかは適宜決めることができる。なお、差異率ではなく差異で評価してもよい。

【0042】

また、同じＵＲＬ（同じサイト）に関して過去の履歴を検索したり、画面に表示して、比較させることもできる（ステップＳ９）。履歴に関しては、図５の画面表示例の符号３０ように、過去の実行履歴が表示されており、日付の部分をクリックすることで、過去のデータをデータベースから抽出して表示させることができる。

【0043】

品質評価の結果は、適宜ダウンロードして（ステップＳ１０）、結果リストを印刷することができる（Ｓ１１）。

【0044】

品質評価結果が悪い場合、ユーザーが取るべき対策として、例えば、以下の２点があげられる。まず、評価結果が悪いＷｅｂページへ向けられたリンクを削除する。クリックされていない無意味なリンクやユーザーのニーズと無関係なリンクなどを削除することでＷｅｂサイトの品質を改善することができる。また、評価結果が悪いＷｅｂページのトラフィック（アクセス数）を増やすように改善する。例えば、分かりづらいリンクの視認性改善やバナーの改善、魅力あるアンカーテキストやバナーの設置によりトラフィックを増やすことで品質を改善することができる。

【0045】

＜別実施形態＞
データベースが実際に構築されるハードウェアは、ハードディスク、半導体メモリ、外部記憶媒体（ＤＶＤ等）等、適宜の記憶装置を用いることができる。

【0046】

本実施形態において、評価プログラムはＷｅｂサーバーにインストールされる構成であるが、ユーザーの各ＰＣにそれぞれインストールされる構成を採用してもよい。

【符号の説明】

【0047】

１００Ｗｅｂサーバ
１０１サイトアナライザー
１０１ａアクセス情報解析システム
１０１ｂサイト構造解析システム
１０１ｃページランク計算システム
１０１ｄ品質判定システム
２００ＤＢサーバー
２１０クロールサーバー
２４０ＧｏｏｇｌｅＡＰＩ検索システム

【図1】