(58)【調査した分野】(Int.Cl.,DB名)
複数のURIと、複数のリンクエリアそれぞれを示す複数の座標とがそれぞれ対応付けられた1つのHTMLファイルから、前記リンクエリアごとに、該リンクエリアを示す前記座標を取得する座標取得手段と、
画像データにおいて、前記リンクエリアごとに、前記座標取得手段により取得された前記座標により特定される、前記リンクエリアのエリア内に表示されたリンク元情報、又は、前記リンクエリアの位置により特定される該リンクエリアの周辺領域に表示されたリンク元情報を取得する情報取得手段と、
複数のコンテンツを記憶する記憶手段から、前記リンクエリアごとに、該リンクエリアに対応付けられた前記URIによって特定された前記コンテンツを取得するコンテンツ取得手段と、
前記リンクエリアごとに、該リンクエリアに対応する、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、該リンクエリアと該リンクエリアに対応付けられた前記URIとの対応付けの正誤を判定する判定手段と、
を含むことを特徴とする判定装置。
前記判定手段は、前記リンクエリアごとに、該リンクエリアに対応する、前記文字認識手段により認識された前記文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、該リンクエリアと該リンクエリアに対応付けられた前記URIとの対応付けの正誤を判定することを特徴とする請求項2に記載の判定装置。
前記判定手段は、前記リンクエリアごとに、該リンクエリアに対応する、前記文字認識手段により認識された複数の前記文字のうち所定割合以上の数の文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、該リンクエリアと該リンクエリアに対応付けられた前記URIとの対応付けの正誤を判定することを特徴とする請求項2に記載の判定装置。
前記リンクエリアと該リンクエリアに対応付けられた前記URIとの対応付けが誤っている場合にエラーメッセージを報知する報知手段をさらに含んでいることを特徴とする請求項1から4の何れか1項に記載の判定装置。
前記1つのHTMLファイルに、前記複数のリンクエリアを設定するとともに、予め前記複数のURIが登録されたテーブルから、前記設定された複数のリンクエリアそれぞれに対応する複数の前記URIを取得し、前記複数のリンクエリアのそれぞれと前記複数のURIのそれぞれとを対応付ける生成手段をさらに含んでいることを特徴とする請求項1から5の何れか1項に記載の判定装置。
前記テーブルにおいて、前記複数のURIは、前記画像データにおける前記複数のリンクエリアのそれぞれの配置順に対応して登録されていることを特徴とする請求項6に記載の判定装置。
複数のURIと、複数のリンクエリアそれぞれを示す複数の座標とがそれぞれ対応付けられた1つのHTMLファイルから、前記リンクエリアごとに、該リンクエリアを示す前記座標を取得する座標取得手段、
画像データにおいて、前記リンクエリアごとに、前記座標取得手段により取得された前記座標により特定される、前記リンクエリアのエリア内に表示されたリンク元情報、又は、前記リンクエリアの位置により特定される該リンクエリアの周辺領域に表示されたリンク元情報を取得する情報取得手段、
複数のコンテンツを記憶する記憶手段から、前記リンクエリアごとに、該リンクエリアに対応付けられた前記URIによって特定された前記コンテンツを取得するコンテンツ取得手段、及び、
前記リンクエリアごとに、該リンクエリアに対応する、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、該リンクエリアと該リンクエリアに対応付けられた前記URIとの対応付けの正誤を判定する判定手段、
としてコンピュータを機能させるためのプログラム。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記システムでは、クリッカブルエリアとURLとの対応付けを、サイト運営者が手作業で行っているため、対応付けの誤りが生じることがある。またサイト運営者は、上記対応付けの正誤の検査を手作業で行わなければならず手間がかかる。
【0006】
本発明は、上記課題に鑑みてなされたものであり、その目的は、ウェブページに含まれる情報と、該情報のリンク先のURLとの対応付けの正誤を容易に判定することができる判定装置、判定方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る判定装置は、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段と、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段と、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段と、を含むことを特徴とする。
【0008】
また、前記判定装置は、前記情報取得手段により取得された前記リンク元情報を文字として認識する文字認識手段をさらに含んでもよい。また、前記判定手段は、前記文字認識手段により認識された前記文字と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定してもよい。
【0009】
また、前記判定手段は、前記文字認識手段により認識された前記文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定してもよい。
【0010】
また、前記判定手段は、前記文字認識手段により認識された複数の前記文字のうち所定割合以上の数の文字が、前記コンテンツ取得手段により取得された前記コンテンツに含まれるか否かにより、前記対応付けの正誤を判定してもよい。
【0011】
また、前記判定装置は、ページ内における前記リンクエリアの座標を取得する座標取得手段をさらに含んでもよい。また、前記情報取得手段は、前記座標取得手段により取得された前記リンクエリアの座標に基づいて、前記リンク元情報を取得してもよい。
【0012】
また、前記判定装置は、前記対応付けが誤っている場合にエラーメッセージを報知する報知手段をさらに含んでもよい。
【0013】
また、前記判定装置は、ページ内の前記リンクエリアを設定するとともに、予め前記URIが登録されたテーブルから、設定された前記リンクエリアに対応する前記URIを取得し、前記リンクエリアと前記URIとを対応付ける生成手段をさらに含んでもよい。
【0014】
また、前記テーブルにおいて、前記URIは、前記リンクエリアの配置順に対応して登録されていてもよい。
【0015】
また、本発明に係る判定方法は、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得ステップと、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得ステップと、前記情報取得ステップにより取得された前記リンク元情報と、前記コンテンツ取得ステップにより取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定ステップと、を含むことを特徴とする。
【0016】
また、本発明に係るプログラムは、URIが対応付けられたリンクエリア内又は該リンクエリア周辺から得られるリンク元情報を取得する情報取得手段、コンテンツを記憶する記憶手段から、前記リンクエリアに対応付けられた前記URIによって特定されたコンテンツを取得するコンテンツ取得手段、及び、前記情報取得手段により取得された前記リンク元情報と、前記コンテンツ取得手段により取得された前記コンテンツとに基づいて、前記リンクエリアと前記URIとの対応付けの正誤を判定する判定手段、としてコンピュータを機能させるためのプログラムである。このプログラムは、CD−ROMやDVD−ROMなどのコンピュータ可読情報記憶媒体に格納されてもよい。
【発明の効果】
【0017】
本発明によれば、リンクエリア内の文字とリンクエリアに対応付けられたURLに対応するコンテンツとに基づいて、リンクエリアとURLとの対応付けの正誤を判定する。よって、ウェブページに含まれる情報と、該情報のリンク先のURLとの対応付けの正誤を容易に判定することができる。
【発明を実施するための形態】
【0019】
以下、本発明の一実施形態について図面に基づき詳細に説明する。以下では、インターネットショッピングのウェブサイトで利用されるウェブカタログを例に挙げる。
【0020】
図1は、ウェブカタログの一例を示す図である。ユーザがインターネットショッピングのウェブサイトにアクセスすると、ユーザ端末にウェブカタログ(ウェブページ)が表示される。ウェブカタログには、複数の商品、例えば、しょうゆ、リンゴ、パン等の情報が一覧表示されている。各商品の商品コード、写真、テキスト等には、対応する商品の詳細情報を掲載した商品ページ(コンテンツ)のURLが対応付けられている。例えば、商品「しょうゆ」の商品名、商品コード及び写真には、
図2に示す「しょうゆ」の商品ページのURLが対応付けられている。例えばユーザがウェブカタログ(
図1参照)において商品「しょうゆ」の写真を選択すると、ユーザ端末には「しょうゆ」の商品ページ(
図2参照)が表示される。「しょうゆ」の商品ページには、商品名、写真、商品コード、値段、容量、原材料、メーカ名等の詳細情報が掲載されている。同様に、ウェブカタログの商品「リンゴ」、「パン」には、
図2に示す「リンゴ」、「パン」の商品ページが対応付けられている。なお、ユーザが商品の購入を希望する場合は、商品ページに表示された購入ボタンを選択する。
【0021】
本実施形態に係る判定装置は、例えば上記のようなインターネットショッピングの形態において、ウェブカタログ(
図1参照)に掲載される商品と、該商品の情報を掲載した商品ページ(
図2参照)のURLとの対応付けの正誤を容易に判定することを可能にするものである。なお上記判定処理は、サイト運営者の操作に基づき実行される。
【0022】
図3は、本実施形態に係る判定装置のハードウェア構成図である。同図に示すように、判定装置10は、通信部1、CPU2、メモリ3、及び記憶部4を含んでいる。判定装置10を構成するハードウェア要素はバスにより相互にデータの授受が可能に接続されている。通信部1は、例えばインターネットよりユーザ端末と情報の送受信を行う。CPU2は装置各部を制御したり、各種の情報処理を実行したりする。メモリ3は、各種のプログラムやデータを保持する。またメモリ3には、CPU2の作業領域も確保される。
【0023】
記憶部4には、ページDB4aが含まれる。ページDB4aには、複数のウェブカタログに対応する複数のHTMLファイルが記憶されている。HTMLファイルはサイト運営者により作成される。具体的には、サイト運営者は、ウェブカタログの元となるPDF形式の画像データ(カタログデータ)を例えば印刷会社から入手し、入手したカタログデータに基づいて、クリッカブルエリアと、これに対応するリンク先URLとを設定したHTMLファイルを作成する。このHTMLファイルとこのHTMLファイルにおいて指定された画像ファイルとをユーザ端末のウェブブラウザで表示することにより、
図1に示すウェブカタログが表示される。なお、クリッカブルエリアの指定とリンク先の指定とは、例えば、HTMLとは別のJavaScript(登録商標)ファイルにて指定してもよい。ウェブカタログに掲載された商品に対応付けられたリンク先の商品ページは、サイト運営者により作成され、ウェブサーバ(記憶手段)にアップロードされている。なお記憶部4は、インターネットを介して通信部1、CPU2及びメモリ3に接続されていてもよい。
【0024】
図4は、
図1に示すウェブカタログに対応するHTMLファイルの一例である。
図5は、
図1に示すウェブカタログにおけるクリッカブルエリア(リンクエリア)の一例である。HTMLファイルには、クリッカブルエリアと、これに対応付けるURLとを設定するための要素(mapデータ)が含まれている。ここでは、座標(x1、x2、x3、x4)の位置の四角形のリンクエリアに「しょうゆ」の商品ページのURL「http://aaa.co.jp/しょうゆ.html」が設定され、座標(y1、y2、y3、y4)の位置の四角形のリンクエリアに「リンゴ」の商品ページのURL「http://aaa.co.jp/リンゴ.html」が設定され、座標(z1、z2、z3、z4)の位置の四角形のリンクエリアに「パン」の商品ページのURL「http://aaa.co.jp/パン.html」が設定されている。それぞれのリンクエリアがクリッカブルエリアに対応する。
図5に示すように、各クリッカブルエリアは商品コード欄に対応しており、「しょうゆ」のリンクエリアをクリッカブルエリア1、「リンゴ」のリンクエリアをクリッカブルエリア2、「パン」のリンクエリアをクリッカブルエリア3で示している。クリッカブルエリア4については後述する。
【0025】
図6は、判定装置10の機能ブロック図である。同図に示すように、判定装置10は、ページ取得部11、座標取得部12(座標取得手段)、画像取得部13(情報取得手段)、文字認識部14(文字認識手段)、URL取得部15、リンク先ページ取得部16(コンテンツ取得手段)、文字判定部17(判定手段)、報知部18(報知手段)、及びページ生成部19(生成手段)を含んでいる。これらの要素はメモリ3に格納されたプログラムをCPU2が実行することにより実現される。このプログラムはCD−ROM、DVD−ROM、メモリカードなどのコンピュータ可読情報記憶媒体から判定装置10にインストールされてもよいし、インターネット等の通信ネットワークからダウンロードされてもよい。
【0026】
ページ取得部11は、ページDB4aからウェブカタログに対応するHTMLファイルを取得する。ページ取得部11は、例えば
図4に示すHTMLファイルを取得する。
【0027】
座標取得部12は、ページ取得部11により取得されたHTMLファイルから、クリッカブルエリアの座標を取得する。座標取得部12は、例えば、
図4に示すHTMLファイルのmapデータから、クリッカブルエリア1の座標(x1、x2、x3、x4)、クリッカブルエリア2の座標(y1、y2、y3、y4)、又は、クリッカブルエリア3の座標(z1、z2、z3、z4)を取得する。
【0028】
画像取得部13は、
図1に示すウェブカタログの画像データ(カタログデータ)において、座標取得部12により取得された座標に対応するクリッカブルエリア内の画像(エリア画像)(リンク元情報)を取得する。画像取得部13は、例えば座標(x1、x2、x3、x4)に対応するクリッカブルエリア1のエリア画像「★1234」、座標(y1、y2、y3、y4)に対応するクリッカブルエリア2のエリア画像「★2345」、又は、座標(z1、z2、z3、z4)に対応するクリッカブルエリア3のエリア画像「★3456」を取得する。なお、カタログデータに所定のマーク(ここでは「★」(星マーク))が付されている場合は、画像取得部13は、カタログデータを画像認識して、マークを含む所定のエリアをエリア画像として取得してもよい。画像取得部13は、クリッカブルエリアがテキスト表示欄(
図5のクリッカブルエリア4)の場合はテキスト表示をエリア画像として取得し、クリッカブルエリアが写真欄の場合は写真をエリア画像として取得する。なお、画像取得部13は、クリッカブルエリア内の画像ではなく、その周辺の画像を取得してもよい。例えば、
図5のクリッカブルエリア1に対して、該当商品の掲載エリア内に位置する領域をエリア画像として取得しても良い。該当商品の掲載エリアのサイズと、掲載エリアにおけるクリッカブルエリアの位置が分かっていれば、掲載エリア内の領域を特定できる。
【0029】
文字認識部14は、画像取得部13により取得されたエリア画像について文字認識を行う。文字認識部14は、例えば光学文字認識(OCR)の方式により文字認識を行う。文字認識部14は、クリッカブルエリアが商品コード欄の場合は商品コードを文字認識し、クリッカブルエリアがテキスト表示欄の場合はテキストを文字認識する。なお、文字コードを取得できる場合は文字認識処理を行わなくてもよい。
【0030】
URL取得部15は、ページ取得部11により取得されたHTMLファイルから、座標取得部12により取得された座標に対応する商品ページのURLを取得する。URL取得部15は、例えば、
図4に示すHTMLファイルのmapデータから、クリッカブルエリア1の座標(x1、x2、x3、x4)に対応するURL「http://aaa.co.jp/しょうゆ.html」、クリッカブルエリア2の座標(y1、y2、y3、y4)に対応するURL「http://aaa.co.jp/リンゴ.html」、又は、クリッカブルエリア3の座標(z1、z2、z3、z4)に対応するURL「http://aaa.co.jp/パン.html」を取得する。
【0031】
リンク先ページ取得部16は、ウェブサーバから、URL取得部15により取得されたURLの商品ページを取得する。リンク先ページ取得部16は、例えば、ウェブサーバから、
図2に示す、URL「http://aaa.co.jp/しょうゆ.html」の商品ページ、URL「http://aaa.co.jp/リンゴ.html」の商品ページ、又は、URL「http://aaa.co.jp/パン.html」の商品ページを取得する。
【0032】
文字判定部17は、リンク先ページ取得部16により取得された商品ページに、文字認識部14により認識された文字が含まれているか否かを判定する。なお、文字判定部17は、上記認識文字と一致する文字が上記商品ページに含まれているか否かを判定してもよいし、上記認識文字が複数の場合に所定割合以上の文字数が上記商品ページに含まれているか否かを判定してもよい。また、クリッカブルエリアに写真欄が含まれる場合は、文字判定部17は、さらに、画像取得部13により取得されたエリア画像と、商品ページに掲載されている写真の画像との類似度を算出し、類似度に基づいて上記判定を行ってもよい。この場合、文字判定部17は、画像処理判定部として機能し、例えば画像の特徴点を抽出して比較することにより類似度を算出する。
【0033】
報知部18は、文字判定部17の判定結果に基づいてメッセージを報知する。具体的には、上記認識文字が上記商品ページに含まれていない場合はリンクの対応付けが誤っているため、報知部18はエラーメッセージを報知する。なお、上記認識文字が上記商品ページに含まれている場合は、報知部18は、リンクの対応付けが正しい旨のメッセージを報知してもよい。
【0034】
ページ生成部19は、クリッカブルエリアの座標と、商品ページのURLとを対応付けてHTMLファイル(
図4参照)を生成する処理を行う。ページ生成部19により生成されたHTMLファイルは、ページDB4aに記憶される。
【0035】
[実施例1]
図7は、実施例1に係る判定装置10の動作フロー図である。ここでは、
図1に示すウェブカタログと、
図2に示す商品ページを例に挙げて説明する。
【0036】
サイト運営者は
図1に示すウェブカタログに対応するHTMLファイル(
図4参照)を作成し、作成されたHTMLファイルがページDB4aに記憶されているものとする。また、ウェブサーバには、サイト運営者が作成した、
図2に示す複数の商品ページがアップロードされているものとする。また、
図1に示すウェブカタログにおいて、
図5に示すように各商品の商品コード欄がクリッカブルエリア1〜3に設定されているものとする。なお、サイト運営者は、各商品の商品コードと商品ページのURLが予め対応付けられたリストに基づいて、HTMLファイルを作成する。
【0037】
サイト運営者は、ウェブカタログに対応するHTMLファイルの作成が完了すると、判定装置10において、リンクの対応付けの正誤を検査する検査モードを選択する。これにより、以下の検査処理が実行される。
【0038】
まず、ページ取得部11は、ページDB4aから
図4に示すHTMLファイルを取得する(S101)。
【0039】
次に、座標取得部12は、S101で取得されたHTMLファイルにおいて、mapデータの1番目のデータから、クリッカブルエリア1(
図5参照)の座標(x1、x2、x3、x4)を取得する(S102)。
【0040】
次に、画像取得部13は、
図1に示すウェブカタログの画像データ(カタログデータ)において、S102で取得された座標(x1、x2、x3、x4)に対応するクリッカブルエリア1の画像(エリア画像1)を取得する(S103)。ここでは、エリア画像1として、商品コード欄の「★1234」が取得される。
【0041】
次に、文字認識部14は、S103で取得されたエリア画像1について文字認識を行う(S104)。ここでは、エリア画像1の「★1234」が文字として認識される。
【0042】
次に、URL取得部15は、S101で取得されたHTMLファイルにおいて、S102で取得された座標(x1、x2、x3、x4)に対応するURL「http://aaa.co.jp/しょうゆ.html」を取得する(S105)。
【0043】
次に、リンク先ページ取得部16は、ウェブサーバから、S105で取得されたURL「http://aaa.co.jp/しょうゆ.html」の商品ページ(
図2参照)を取得する(S106)。
【0044】
次に、文字判定部17は、S106で取得された「しょうゆ」の商品ページに、S104で認識された文字「★1234」が含まれているか否かを判定する(S107)。
図2に示す例では、「しょうゆ」の商品ページに、商品コード「★1234」が含まれているため、リンクの対応付けは正しいとして、S109に移行する。
【0045】
一方、S106で取得された商品ページが例えば
図8に示す内容であった場合、ウェブカタログに記載されている商品コード「★1234」と、商品ページに記載されている商品コード「★1231」とが異なっているため、リンクの対応付けが誤っているとして、S108に移行する。
図9は、
図8に示す商品ページに対応するHTMLファイルを示している。同図に示すように、mapデータの1番目のデータにおいて、誤ったURL「http://aaa.co.jp/ドレッシング.html」が設定されている。
【0046】
S108において報知部18がエラーメッセージを報知した後、S109に移行する。これによりサイト運営者は、HTMLファイルにおいてリンクの対応付けに誤りがあることを認識することができる。
【0047】
S109では、上記検査処理を行っていないクリッカブルエリア(未検査エリア)があるか否かを判定する。具体的には、S101で取得されたHTMLファイルにおけるmapデータを参照して上記判定処理を行う。これにより全てのクリッカブルエリアについて上記検査処理を実行することができる。
【0048】
未検査エリアがある場合はS102に戻り、座標取得部12は、S101で取得されたHTMLファイルのmapデータから次のクリッカブルエリアの座標を取得する。ここでは、座標取得部12は、クリッカブルエリア2の座標(b1、b2、b3、b4)を取得する(S102)。以降、上記と同様の処理が行われる。未検査エリアがない場合、すなわち全てのクリッカブルエリアについて上記の処理が行われた場合は、判定装置10は検査処理を終了する。
【0049】
以上のように、本実施形態に係る判定装置10によれば、ウェブカタログの商品情報と、該商品情報のリンク先の商品ページのURLとの対応付けの正誤を容易に判定することができる。また、クリッカブルエリアとURLとの対応付けが正しい場合であっても、URLで特定された商品ページ(コンテンツ)が誤っていてクリッカブルエリアの情報と対応していない虞もあるが、この場合でも上記誤りを検出することができる。
【0050】
[実施例2]
実施例1ではクリッカブルエリアが商品コード欄に設定されているが、本発明はこれに限定されない。実施例2では、クリッカブルエリアがテキスト表示欄(
図5のクリッカブルエリア4)に設定されている。以下では、実施例1との相違点を中心に説明する。
図10は、
図1に示すウェブカタログに掲載されている商品コード「★5678」の商品「Aしょうゆ」の情報と、該商品「Aしょうゆ」の商品ページを示している。
【0051】
座標取得部12は、ページ取得部11により取得されたHTMLファイル(
図11参照)において、mapデータから、クリッカブルエリア4の座標(s1、s2、s3、s4)(
図5参照)を取得する。なお、クリッカブルエリア1〜3については実施例1に示した検査処理を実行してもよい。
【0052】
画像取得部13は、
図10に示すウェブカタログのカタログデータ(画像データ)において、座標取得部12により取得された座標(s1、s2、s3、s4)に対応するクリッカブルエリア4の画像(エリア画像4)を取得する。ここでは、エリア画像4として、テキスト表示欄が取得される。
【0053】
文字認識部14は、画像取得部13により取得されたエリア画像4について文字認識を行う。ここでは、エリア画像4のテキストが文字(単語)として認識される。具体的には、文字認識部14は、形態素解析により、例えば「しょうゆ」、「百選」、「Aしょうゆ」、「500ml」、「鰹節」、「みりん」、「まろやか」、「味わい」を認識する。
【0054】
URL取得部15は、ページ取得部11により取得されたHTMLファイル(
図11参照)において、座標取得部12により取得された座標(s1、s2、s3、s4)に対応するURL「http://aaa.co.jp/Aしょうゆ.html」を取得する。
【0055】
リンク先ページ取得部16は、ウェブサーバから、URL取得部15により取得されたURL「http://aaa.co.jp/Aしょうゆ.html」の商品ページ(
図10参照)を取得する。
【0056】
文字判定部17は、リンク先ページ取得部16により取得された「Aしょうゆ」の商品ページに、文字認識部14により認識された複数の文字のうち所定割合以上の数の文字が含まれているか否かを判定する。例えば、上記の8単語のうち8割(7単語)以上が、「Aしょうゆ」の商品ページに含まれているか否かを判定する。
図10の例では、「Aしょうゆ」の商品ページに「百選」は含まれていないが、他の7単語が含まれている。よって、リンクの対応付けは正しいと判定される。
【0057】
このように、クリッカブルエリアがテキスト表示欄に設定されている場合には、文字数を比較することによりリンクの対応付けの正誤を判定することができる。
【0058】
ここで、クリッカブルエリアとして、商品の写真欄が追加されていてもよい。この場合は、ウェブカタログの商品の写真と、商品ページの写真とを画像認識して両者の類似度を算出し、類似度に基づいてリンクの対応付けの正誤を判断する構成とすることができる。なお、画像認識を用いた判定処理は、文字認識を用いた上記判定処理において誤りと判定された場合(S107にてNO)に実行してもよい。
【0059】
以上のように、判定装置10は、様々なクリッカブルエリアについて、リンクの対応付けの正誤を判定することができる。なお、1つの商品について、商品コード欄、テキスト表示欄、写真欄の全てがクリッカブルエリアに設定されていてもよい。この場合は、クリッカブルエリア毎に、上述した各判定処理のうち、クリッカブルエリアに対応する判定処理を行えばよい。また上記実施形態では、PDFを利用して作成したウェブカタログについて説明したが、リンクを含むウェブページ全般に本発明を適用することができる。
【0060】
[htmlファイルの生成]
ページ生成部19の詳細について説明する。
図12は、ページ生成部19の動作フロー図である。
【0061】
ページ生成部19は、ウェブカタログの元となるPDF形式の画像データに基づいて、クリッカブルエリアと、これに対応するリンク先URLとを設定し、HTMLファイルを作成する処理を行う。すなわち、ページ生成部19は、クリッカブルエリアの設定とリンク先URLの対応付けとを自動で行う。ここでは、
図1に示すウェブカタログの画像データ(カタログデータ)を例に挙げる。
【0062】
まず、ページ生成部19は、カタログデータを取得すると(S201)、カタログデータからクリッカブルエリアを特定するためのマーク(キーワード)を抽出する(S202)。例えばマークとして「★」が付されている。
【0063】
次に、ページ生成部19は、マークに付された商品コードを、マークの座標に基づいて配置順に並べる(S203)。
図13には、配置順に並べた商品コード一覧のテーブルを示している。
【0064】
次に、ページ生成部19は、1番目の商品コードのマークの座標に基づいて、1番目のクリッカブルエリア1の座標(x1、x2、x3、x4)を決定する(S204)。
【0065】
次に、ページ生成部19は、サイト運営者により作成されたURL一覧のテーブル(
図14参照)から、1番目のURL「http://aaa.co.jp/しょうゆ.html」を取得する(S205)。
【0066】
次に、ページ生成部19は、S204で決定された1番目のクリッカブルエリア1の座標(x1、x2、x3、x4)と、S205で取得された1番目のURL「http://aaa.co.jp/しょうゆ.html」とを対応付けてHTMLファイル(
図15参照)に登録する(S206)。
【0067】
続いて、S204に戻り、ページ生成部19は、2番目の商品コードのマークの座標に基づいて、2番目のクリッカブルエリア2の座標(y1、y2、y3、y4)を決定する。以降、上記と同様の処理が行われ、HTMLファイルに、2番目のクリッカブルエリア2の座標(y1、y2、y3、y4)と、2番目のURL「http://aaa.co.jp/リンゴ.html」とが対応付けられて登録される。
【0068】
ページ生成部19は、全てのクリッカブルエリアについて上記処理を繰り返し行い、HTMLファイルに、各クリッカブルエリアの座標と各URLとが対応付けられて登録される。これにより、
図4に示すHTMLファイルが生成される。
【0069】
ページ生成部19の構成によれば、クリッカブルエリアの座標と各URLとの対応付けを自動で行うことができるため、該対応付けの誤りを減らすことができる。
【0070】
[商品ページの取得]
図4に示すHTMLファイルでは、クリッカブルエリアに対応付けられる商品ページはURLで特定されている。しかし、商品ページがウェブサーバにアップロードされる前の段階では、商品ページをURLで特定することができない。そこで、リンク先ページ取得部16は、URL取得部15により取得されたURLをローカルアドレスに変換し、変換されたアドレスに基づいて商品ページを取得する。
【0071】
具体的には、リンク先ページ取得部16は、複数の商品ページがローカルストレージに保存されている場合、URLを「ローカルストレージのパス+ファイル名」に変換する。例えば、「URL:http://aaa.co.jp/しょうゆ.html」を、「C:¥temp¥しょうゆ.html」に変換する。なおローカルストレージとして、例えば
図16に示すように判定装置10の記憶部4におけるリンク先ページDB4bとすることができる。これにより、リンク先ページ取得部16は、商品ページを確実に取得することができる。
【0072】
上記の実施形態では1ページのみのウェブカタログについて説明したが、ページ数が多いウェブカタログの場合、リンク箇所が多いため本発明を適用することでリンクの対応付け及びリンクの対応付けの誤りの判定を効率的に行うことができる。なお、上記実施形態では、本発明をウェブページに適用した場合について説明したが、ウェブページに限られない。例えば、スマーフォンやタブレットのアプリケーションで表示され、リンクを含んだ画面(ページ)に適用してもよい。この場合、リンク先はURI(Uniform Resource Identifier)によって特定される。