特許第6785003号(P6785003)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エフティーの特許一覧

<>
  • 特許6785003-Webページの品質評価プログラム 図000002
  • 特許6785003-Webページの品質評価プログラム 図000003
  • 特許6785003-Webページの品質評価プログラム 図000004
  • 特許6785003-Webページの品質評価プログラム 図000005
  • 特許6785003-Webページの品質評価プログラム 図000006
  • 特許6785003-Webページの品質評価プログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6785003
(24)【登録日】2020年10月28日
(45)【発行日】2020年11月18日
(54)【発明の名称】Webページの品質評価プログラム
(51)【国際特許分類】
   G06F 13/00 20060101AFI20201109BHJP
【FI】
   G06F13/00 540R
【請求項の数】2
【全頁数】10
(21)【出願番号】特願2017-8557(P2017-8557)
(22)【出願日】2017年1月20日
(65)【公開番号】特開2018-116626(P2018-116626A)
(43)【公開日】2018年7月26日
【審査請求日】2019年12月2日
(73)【特許権者】
【識別番号】509288644
【氏名又は名称】株式会社エフティー
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】郡司 武
(72)【発明者】
【氏名】加茂 実菜心
(72)【発明者】
【氏名】北口 努
【審査官】 森田 充功
(56)【参考文献】
【文献】 特開2003−263448(JP,A)
【文献】 米国特許出願公開第2008/0097980(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
入力されたWebサイトのURLに基づいて、当該Webサイトのアクセス解析データを読み込むステップと、
前記URLを起点にWebサイト全体をクロールして内部リンク構造を解析するステップと、
前記内部リンク構造からページランクを演算するステップと、
前記アクセス解析データからWebサイト全体及びWebページごとのサイト内トラフィックを取得するステップと、
前記Webサイト全体のサイト内トラフィックと、演算された前記ページランクに基づいて、Webページごとのトラフィック理論値を演算するステップと、
前記Webページごとのサイト内トラフィックと、前記トラフィック理論値とを比較して差異を演算するステップと、をコンピュータに実行させるWebページの品質評価プログラムであって、
演算された前記差異のデータに基づいてWebページごとの品質判定を可能にした品質評価プログラム。
【請求項2】
前記差異は、トラフィック実数とトラフィック理論値の差をトラフィック理論値で除した差異率を演算するものであることを特徴とする請求項1に記載のWebページの品質評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webページの品質評価プログラムコンピュータプログラムに関するものである。
【背景技術】
【0002】
検索エンジンの1つであるGoogleは、世界中に存在するWeb(ウェブ)ページの品質を定量的に、また客観的に判断したいと考えている。Googleは、ページランク(PageRank)アルゴリズムをはじめとする様々な技術を使用して、各Webページの重要性を評価していることを公表している。すなわち、ページランクがWebページを評価する場合の客観的尺度として機能する。ここで、ページランクとは推移確率行列を用いて、リンク構造に基づいて表した訪問者数の分布を表しており、具体的な計算式は、下記特許文献1に開示されている。これは、世界中のWebページへの訪問者の比率をランク付けしたものになる。
【0003】
Googleは、たくさんのWebページからリンクされているWebページは、人が集まりやすく、結果として人が集まったWebページは重要である、すなわち、人気があると定義している。
【0004】
しかしながら、訪問者は、ページランクの大きさだけではなく、Webページのコンテンツを合理的に選択してリンクを巡ると考えられる。
【0005】
下記特許文献1のページランクの計算は、多くのWebページからリンクされたWebページを無条件に品質の良いWebページであると評価するものであり、ランキングスコアに大きく影響していたが、その後導入された下記特許文献2に開示される計算式では、ほかのWebページからのリンクを基にした評価にユーザーの行動データ(そのページが選択される確率)を加味した計算結果がランキングスコアに大きく影響するようになった。
【0006】
したがって、Webページの品質を正しく知るためには、Webページのページランクを正しく計算し、さらに、ユーザーの行動データ(そのページが選択される確率)を知る必要がある。なお、特許文献2において、ユーザーの行動データはW係数(クリック率)として規定されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許第6285999号
【特許文献2】米国特許第8117209号
【発明の概要】
【発明が解決しようとする課題】
【0008】
そこで、Webページの管理者は、運営管理するWebページの正しいページランクとユーザーの行動がどのような状況にあるかを把握し、その結果に応じて改善することが求められる。本来は、Googleが判断する基準をそのまま用いることが好ましいが、その閾値は公開されていない。従って、適切に閾値を設定してWebページの改善を行う必要がある。
【0009】
また、ページランクの計算に際しては、Googleの特許によれば全世界80兆ページ以上あるWebページのリンク構造を取得する必要があり、スーパーコンピュータ並みの処理能力が要求されるため、コスト等の面で現実的ではない。
【0010】
本発明は上記実情に鑑みてなされたものであり、その課題は、比較的簡易な方法でWebページの品質評価が可能なWebページの品質評価プログラムを提供することである。
【課題を解決するための手段】
【0011】
上記課題を解決するため本発明に係るWebページの品質評価プログラムは、
入力されたWebサイトのURLに基づいて、当該Webサイトのアクセス解析データを読み込むステップと、
前記URLを起点にWebサイト全体をクロールして内部リンク構造を解析するステップと、
前記内部リンク構造からページランクを演算するステップと、
前記アクセス解析データからWebサイト全体及びWebページごとのサイト内トラフィックを取得するステップと、
前記Webサイト全体のサイト内トラフィックと、演算された前記ページランクに基づいて、Webページごとのトラフィック理論値を演算するステップと、
前記Webページごとのサイト内トラフィックと、前記トラフィック理論値とを比較して差異を演算するステップと、をコンピュータに実行させるものであり、
演算された前記差異のデータに基づいてWebページごとの品質判定を可能にしたことを特徴とするものである。
【0012】
かかる構成による品質評価プログラムの作用・効果を以下説明する。まず、WebサイトのURL(Uniform Resource Locator)が入力されると、当該Webサイトのアクセス解析データを読み込む。アクセス解析により、Webサイトへの種々のアクセス情報を取得することができる。さらに、URLを起点にWebサイト全体をクロールして内部リンク構造を解析する。ここで内部リンク構造とは、サイト内のリンク構造であり、例えば、abc.com等のドメイン内におけるリンク構造である。サイト内という限定された範囲におけるリンク構造を解析すればよいので、時間・コストの面での負担は少なくて済む。内部リンク構造からページランクを演算する。この演算においては、例えば、Googleが特許文献1で開示しているような計算式を用いて行うことができる。
【0013】
前述の取得したアクセス解析データに基づいて、Webサイト全体及びWebページ毎のサイト内トラフィック(例えば、アクセス数など)を取得する。ここで、サイト内トラフィックとは、外部サイトから自サイトへのアクセス数を排除して、ユーザーが自サイト内を巡ったトラフィックのみを抽出したデータのことをいう。以下の説明も同様である。一方、Webサイト全体のトラフィックと、演算されたページランクに基づいて、Webページ毎のトラフィック理論値を演算する。このWebページごとのトラフィック理論値と、Webページごとのトラフィックを比較する(差を求める)ことで、Webページ毎に品質判定を行うことができる。例えば、理論値よりも実際のトラフィックが多ければ、高い品質を有すると判定することができる。以上の通り、比較的簡易な方法でWebページの品質評価が可能なWebページの品質評価プログラムを提供することができる。
【0014】
本発明に係る前記差異は、トラフィック実数とトラフィック理論値の差をトラフィック理論値で除した差異率を演算するものであることが好ましい。
【0015】
かかる差異率に基づいて、適宜しきい値を設定してWebページの品質評価を行うことができる。
【図面の簡単な説明】
【0016】
図1】評価プログラムを用いたシステム全体の構成を示すブロック図
図2A】品質評価プログラムを使用するときの手順を示すフローチャート
図2B】品質評価プログラムを使用するときの手順を示すフローチャート
図3】URLの入力画面の構成例を示す図
図4】品質判定結果の表示例を示す図
図5】履歴の表示例を示す図
【発明を実施するための形態】
【0017】
本発明に係るWebページの品質評価プログラムの好適な実施形態を図面を用いて説明する。図1は、本発明に係る品質評価プログラムを用いたシステム全体の構成を示すブロック図である。
【0018】
<システム全体の構成>
図1において、Webサーバー100には、種々のプログラム(コンピュータソフトウェア)が格納されている。サイトアナライザー101(本発明に係る品質評価プログラムに相当)は、アクセス情報解析システム101a、サイト構造解析システム101b、ページランク計算システム101c、品質判定システム101dを少なくとも備えている。各システムの機能については後述する。
【0019】
また、Webサーバー100には、会員管理システム102が格納されており、認証システム102aと外部接続管理システム102bを少なくとも備えている。本発明に係る品質評価プログラムを利用できるのは、会員登録をした者に限定されるので、会員であるか否かを確認するための認証システム102aが設けられている。外部接続管理システム102bは、会員データ等を外部サーバーに保存・管理させるためのシステムである。
【0020】
DBサーバー200は、種々のデータを格納するためのデータベースを備えたサーバーであり、Webサーバー100と連携して作動する。クロールサーバー210には、クロールシステムが格納されている。インターネット上には、種々のWebサイトが存在する。会員登録されたユーザーは、例えば、PC(パーソナルコンピュータ)に格納されたクライアント・ブラウザ(例えば、インターネットエクスプローラ)を用いて、インターネットを介して、Webサーバー100にアクセスして、本発明に係る品質評価プログラムを利用することができる。クロールサーバー210もWebサーバ100と連携して作動する。
【0021】
Google API検索サービスは、サーバー240に格納されており、Googleが提供する検索エンジンを用いた検索サービスを提供する。なお、本実施形態では、検索エンジンとしてGoogleを例に挙げて説明するが、本発明としては、検索エンジンはGoogleに限定されるものではなく、他の検索エンジンを用いる場合にも適用される。
【0022】
<品質評価プログラムの使用手順>
つぎに、本発明に係る品質評価プログラムを使用するときの手順を図2A,2Bのフローチャートにより説明する。
【0023】
この品質評価プログラムを用いてWebページの品質評価をしようとするユーザーは、PC等を用いてインターネットを介してWebサーバー100にアクセス(図1の符号230)し、サイトアナライザー101を開く。利用するに際して、会員管理システム102による会員認証が行われるが、公知のシステムであるので説明は省略する。
【0024】
図3に示すような画面がユーザーのコンピュータ画面に表示される。なお、説明の便宜のため、画面構成の一部のみを概略化して示す。以下、他の画面表示も同様である。
【0025】
入力エリア10に、品質判定をしたいWebサイトの代表的なURL、すなわち、検索エンジンに認識されたトップページのURLを入力する(ステップS1)。
【0026】
次に、Webサイトのアクセス解析データを読み込む(ステップS2)。図3に示すように、Googleアナリティクス(CSV)等の所定のフォーマットに成形された外部入力ファイルを使用してWebサイトのアクセス解析データを読み込む。API(Application Programming Interface)による連携で読み込むようにしてもよく、特定の方式に限定されるものではない。
【0027】
アクセス解析により、Webサイトへの種々のアクセス情報を取得することができる。Webサイトを構成する各Webページに何時どの程度のアクセス数があったのか、どのサイトあるいはWebページからアクセスがされたのか、次にどのサイトあるいはWebページに移ったのかなど、種々のアクセス情報を取得することができる。取得されたアクセス解析データは、データベースとして保存される(ステップS2A)。
【0028】
次に、入力されたURLを起点にWebサイト全体をクロールする(ステップS3)。これは、クロールサーバ210上のクロールシステムの機能に基づいて実行される。これにより、自動で内部リンク情報を取得する。内部リンク構造とは、サイト内のリンク構造であり、例えば、abc.com等のドメイン内におけるリンク構造である。サイト内という限定された範囲におけるリンク構造を解析すればよいので、時間・コストの面での負担は少なくて済む。取得したリンク情報から、リンク先のWebページをさらにクロールし、さらにリンク情報を取得する。この処理を新たなWebページの情報がなくなるか、所定の階層(例えば、リンク先のリンク先まで)までクロールを繰り返す。所定の階層をどこまでするかは、任意で指定できるようにしてもよい。これにより、演算時間の短縮化を行うことができる。クロールされた内部リンク構造のデータは、データベースに保存される(S3A)。
【0029】
次に、クロールされたデータに基づいて、内部リンク構造を解析する(S4)。クロールしたWebページの情報に基づいて、内部リンク構造のデータを自動的にすべて取得する。これは、Webサーバ100上のサイトアナライザー101のサイト構造解析システム101bの機能に基づいて実行される。取得された内部リンク構造のデータは、データベースとして保存される(S4A)。これにより、サイト内の各Webページがどのようにリンクされているのか、というデータを取得することができる。
【0030】
次に、取得された内部リンク構造のデータを基にページランクを計算する(S5)。この計算においては、Googleが特許文献1で開示しているような計算式を用いて行うことができる。なお、ページランクの計算は、Google以外の計算式を用いてもよい。この計算は、サイトアナライザー101のページランク計算システム101cの機能に基づいて実行される。
【0031】
Googleの特許の計算式によれば全世界80兆ページ以上あるWebページのリンク構造を取得する必要があり、スーパーコンピュータ並みの処理能力が要求されるため、コスト等の面で現実的ではない。そこで、もう少し簡易的にかつ高速でページランクを計算できるようにする。
【0032】
まず、全世界に存在するWebページには無数のホストコンピュータ(以下、単にホストと略す)が存在する。通常、1つのホスト内には、数千から数万のWebページが存在する。上記計算式による計算においては、ホスト内のリンク構造(内部リンク構造)およびホスト間のすべてのリンク構造を巡って行われるが、前述のようにスーパーコンピュータ並みの処理能力が必要とされる。そこで、本発明においては、内部リンク構造のみに基づいてページランク(=ホストランク:特定のホスト内(通常abc.comなどのドメイン内)を対象として計算されたページランク)を計算する。
【0033】
なお、ホスト内のページランク(=ホストランク)を計算して、別途計算されたホスト間のリンクスコアを基にホストランクを調整してページランクを計算する手法が公知であり、スタンフォード大学の研究チームによって提唱されている。この手法により、近似値が得られることも実証されている。
【0034】
ホストは、Webページを構成する最小単位であり、ほとんどの場合はドメイン(www.example.com)である。すなわち、コンピュータのグループ、インターネット上でコンピュータやネットワークを識別する名前の体系である。そして、Webサイトの品質評価にあたっては、ページランクによる重要度が分かればよく、ホスト内のページランク(ホストランク)だけでも近似値が得られ、十分に実用的である。ホストランクであれば、ホスト内の、通常は数千ページから数万ページのWebページのリンク構造を巡ってページランクの計算を行えばよく、スーパーコンピュータではなくても高性能なクラウドサービスのサーバーでも計算することが可能である。
【0035】
なお、ページランクの計算結果はデータベースとして保存される(ステップS5A)。計算された数値は、0〜10の数値で表され、数値が大きいほど(10に近いほど)ページランクは高いと評価される。基本的には、ほかのWebサイトからの被リンク数が多いほど、ページランクは高くなる。
【0036】
次に、アクセス解析データからWebサイト全体およびWebページごとのサイト内トラフィックのデータを取得する(ステップS6)。すなわち、ホスト(=ドメイン)内を巡回したトラフィックのみを抽出する。これにより、内部リンク構造のみでページランクを計算するという条件と整合性を取ることができる。なお、トラフィックとはアクセス数と同義である。なお、この処理は、サイトアナライザー101のアクセス情報解析システム101aにより実行される。
【0037】
アクセス解析データのうち、Webサイト全体とWebページごとのページビュー数と閲覧を開始したページビュー数のデータを取得する。そして、
ホスト内を巡回したトラフィック=ページビュー数−閲覧を開始したページビュー数
により計算することができる。ここで、「ページビュー数」は、単純にユーザーがWebページを訪問したアクセス数を集計したものであり、「閲覧を開始したビュー数」は、ユーザーが他のサイトから来たアクセス数となる。つまり、「ページビュー数」から「閲覧を開始したビュー数」を引くと、そのサイト内を巡ったアクセス数(トラフィック)を取得できることになる。計算されたサイト内トラフィックは、データベースとして保存される(ステップS6A)。
【0038】
次に、サイト内トラフィックとページランク(=ホストランク)を基に、Webページごとのトラフィック理論値を計算する(ステップS7)。これは、サイトアナライザー101のアクセス情報解析システム101aにより実行される。具体的には、サイト内を巡ったトラフィックの総数(=Webサイト全体のトラフィック)にページランクを掛けることでWebページごとのトラフィック)理論値を計算することができる。計算された理論値は、データベースとして保存される(ステップS7A)。
【0039】
次に、Webページごとにサイト内トラフィックとトラフィック理論値を比較して差異値を計算し、Webページごとの品質判定を行う(ステップS8)。この品質判定は、サイトアナライザー101の品質判定システム101dにより実行される。具体的には、下記の式に基づいて差異率を計算する。
【0040】
差異率(%)=(トラフィック実数―トラフィック理論値)÷トラフィック理論値×100
図4は、計算された品質判定結果(特に、符号20の部分)をコンピュータ画面に表示させた例を示す。また、品質判定結果のデータは、データベースとして保存される(ステップS8A)。表には、「発リンク」「被リンク」の数、ページランク、トラフィックの理論値と実数、1リンク換算のトラフィック(訪問者のビュー数をそのWebページへのリンク数で割った数値)、差異率、判定、が表示される。このような項目のデータを表示させることで、Webサイトを改善する際の参考として利用することができる。
【0041】
また、判定結果において、差異率が−50%を下回るものを低品質(×)、−30%〜−50%を要注意(△)、+50%を超えるものを高品質(〇)と判定している。ただし、これらの評価基準(しきい値)をどのように設定するかは適宜決めることができる。なお、差異率ではなく差異で評価してもよい。
【0042】
また、同じURL(同じサイト)に関して過去の履歴を検索したり、画面に表示して、比較させることもできる(ステップS9)。履歴に関しては、図5の画面表示例の符号30ように、過去の実行履歴が表示されており、日付の部分をクリックすることで、過去のデータをデータベースから抽出して表示させることができる。
【0043】
品質評価の結果は、適宜ダウンロードして(ステップS10)、結果リストを印刷することができる(S11)。
【0044】
品質評価結果が悪い場合、ユーザーが取るべき対策として、例えば、以下の2点があげられる。まず、評価結果が悪いWebページへ向けられたリンクを削除する。クリックされていない無意味なリンクやユーザーのニーズと無関係なリンクなどを削除することでWebサイトの品質を改善することができる。また、評価結果が悪いWebページのトラフィック(アクセス数)を増やすように改善する。例えば、分かりづらいリンクの視認性改善やバナーの改善、魅力あるアンカーテキストやバナーの設置によりトラフィックを増やすことで品質を改善することができる。
【0045】
<別実施形態>
データベースが実際に構築されるハードウェアは、ハードディスク、半導体メモリ、外部記憶媒体(DVD等)等、適宜の記憶装置を用いることができる。
【0046】
本実施形態において、評価プログラムはWebサーバーにインストールされる構成であるが、ユーザーの各PCにそれぞれインストールされる構成を採用してもよい。
【符号の説明】
【0047】
100 Webサーバ
101 サイトアナライザー
101a アクセス情報解析システム
101b サイト構造解析システム
101c ページランク計算システム
101d 品質判定システム
200 DBサーバー
210 クロールサーバー
240 Google API 検索システム
図1
図2A
図2B
図3
図4
図5