特許6655981 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｆａｂｅｒ　Ｃｏｍｐａｎｙの特許一覧 ▶ 国立大学法人豊橋技術科学大学の特許一覧

特許6655981キーワード抽出装置、キーワード抽出方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6655981

(24)【登録日】2020年2月6日

(45)【発行日】2020年3月4日

(54)【発明の名称】キーワード抽出装置、キーワード抽出方法、およびプログラム

(51)【国際特許分類】

G06F 16/958 20190101AFI20200220BHJP

【ＦＩ】

G06F16/958

【請求項の数】3

【全頁数】16

(21)【出願番号】特願2015-249125(P2015-249125)

(22)【出願日】2015年12月21日

(65)【公開番号】特開2017-117022(P2017-117022A)

(43)【公開日】2017年6月29日

【審査請求日】2018年11月6日

【新規性喪失の例外の表示】特許法第３０条第２項適用（１）Ｔｈｅ１４ｔｈＩｎ−ｈｏｕｓｅＳＥＯＭｅｅｔｕｐ、株式会社じげん本社東京都新宿区新宿６丁目２７番３０号新宿イーストサイドスクエア５階、平成２７年６月１９日（２）Ｉｎ−ｈｏｕｓｅＳＥＯＭｅｅｔｕｐ［ＫａｎｓａｉＥｄｉｔｉｏｎ２０１５］、大阪産業創造館イベントホール（４Ｆ）大阪府大阪市中央区本町１−４−５、平成２７年８月１日（３）Ｉｎ−ｈｏｕｓｅＳＥＯＭｅｅｔｕｐ［ＡｄｖａｎｃｅｄＳＥＯ２０１５］、ベルサール渋谷ファースト東京都渋谷区東１−２−２０住友不動産渋谷ファーストタワー２Ｆ、平成２７年１０月２４日

(73)【特許権者】

【識別番号】515089758

【氏名又は名称】株式会社ＦａｂｅｒＣｏｍｐａｎｙ

(73)【特許権者】

【識別番号】304027349

【氏名又は名称】国立大学法人豊橋技術科学大学

(74)【代理人】

【識別番号】100106909

【弁理士】

【氏名又は名称】棚井澄雄

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(72)【発明者】

【氏名】副島啓一

(72)【発明者】

【氏名】吉田光男

【審査官】齊藤貴孝

(56)【参考文献】

【文献】特開２０１０−２０４８６６（ＪＰ，Ａ）

【文献】特開２０１２−２５２６３４（ＪＰ，Ａ）

【文献】特開２０１３−１０５３６４（ＪＰ，Ａ）

【文献】中尾豊，成約率が上がる儲かる検索キーワードの見つけ方講座初版，株式会社ソーテック社柳澤淳一，２０１５年６月３０日，第１版，ｐ．２０５−２０８

【文献】吉田光男、外１名，教師情報を必要としないニュースページ群からのコンテンツ自動抽出，日本データベース学会論文誌，日本，日本データベース学会，２００９年６月２６日，第８巻，第１号，ｐ．２９−３４

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

(57)【特許請求の範囲】

【請求項1】

検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、
前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。

【請求項2】

検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
メインコンテンツ抽出部が、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。

【請求項3】

コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、キーワード抽出装置、キーワード抽出方法、およびプログラムに関する。

【背景技術】

【0002】

近年のインターネットの急速な普及に伴い、Ｗｅｂ（ウェブ）サイトで提供されているサービスを利用して、情報を調べたり、ウェブサイトで販売されている商品を購入したりしる利用者が増えている。
このような場合に、利用者は、知りたい情報に関するキーワード（以下、検索キーワードという）を検索エンジンに入力して、利用したいサービスを提供しているウェブサイトを検索する。そして、利用者は、検索された結果、表示部上に表示されるウェブサイトのうち、例えば上位に表示されたウェブサイトから逐次アクセスして、そのサイトを閲覧する。

【0003】

検索エンジンは、例えば検索キーワードとウェブサイトのソースコードの記述とを照らし合わせて、検索キーワードとウェブサイトのソースコードの記述との適合度によって、検索結果として表示されるウェブサイトを選択する。

【0004】

このため、近年、ウェブサイトの運営者の間では、ウェブサイトにどのような記述を行えば、検索結果の上位に表示されるようになるかを知りたいという需要が存在する。
このような需要に応じて、ウェブサイトのコンテンツを構築するためのキーワードを抽出するキーワード抽出システムが提案されている。キーワード抽出システムでは、ウェブサイトを構成するウェブページ毎に、あらかじめ検索キーワードを決めておく。キーワード抽出システムでは、検索エンジンにおける検索履歴を検索キーワード毎に取得する。キーワード抽出システムでは、取得した検索履歴の多い順に検索キーワードを選択する。このように、キーワード抽出システムでは、検索エンジンの検索回数が多いキーワードを、コンテンツを構築するためのキーワードとして選択する（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００６−１４６４４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、検索結果の上位に表示されるには、検索キーワードをｍｅｔａ（メタ）タグやコンテンツ内に記述するだけでは不足であり、検索キーワードと適合しやすい記述をコンテンツに含んでいる必要がある。
このため、特許文献１に記載の技術では、検索回数の多いキーワードをコンテンツが含んでいるだけであり、利用者が得たい情報が含まれているとは限らない。従って、検索回数の多いキーワードを含んでいても、検索結果の上位に表示されない場合もあった。

【0007】

本発明は上記の点に鑑みてなされたものであり、利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、キーワード抽出方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

（１）上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。

【0009】

（２）また、本発明の一態様に係るキーワード抽出装置において、前記メインコンテンツ抽出部は、複数の前記リンク先のうちの１つを逐次選択し、選択した前記リンク先のアドレスと選択した前記コンテンツのアドレスの類似度を算出して、選択した前記コンテンツの情報と比較し、算出した前記類似度が高い前記リンク先を示す情報を類似している情報とするようにしてもよい。

【0010】

（３）また、本発明の一態様に係るキーワード抽出装置において、前記メインコンテンツ抽出部は、レーベンシュタイン距離を算出することで前記類似度を算出し、算出した前記レーベンシュタイン距離が近い前記リンク先を示す情報を類似度が高い前記リンク先を示す情報とするようにしてもよい。

【0011】

（４）上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、メインコンテンツ抽出部が、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。

【0012】

（５）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から１つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。

【発明の効果】

【0013】

本発明によれば、利用者が知りたい情報に応じたキーワードを抽出することができる。

【図面の簡単な説明】

【0014】

【図1】本実施形態に係るキーワード抽出装置の操作画面を示す図である。

【図2】本実施形態に係るキーワード抽出装置の概略構成図である。

【図3】ウェブページの構成の一例を示す図である。

【図4】本実施形態に係るキーワード抽出装置の処理のフローチャートである。

【図5】ウェブページのソースコードの例を示す図である。

【図6】本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。

【図7】本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。

【図8】本実施形態に係るキーワード抽出部の構成を示すブロック図である。

【図9】第１実施形態に係るキーワードリスト出力部が出力するキーワードリストの例を示す図である。

【図10】本実施形態に係るキーワードの抽出処理のフローチャートである。

【発明を実施するための形態】

【0015】

［本発明の概要］
まず、本発明の概要を説明する。
本発明では、ウェブサイトに関する検索キーワードを、検索エンジンによって検索する。なお、検索キーワードとは、ウェブページの閲覧者が、検索エンジンに入力すると想定されるキーワードである。そして、本発明では、検索されたウェブページのうち上位から所定の個数のウェブページを選択する。そして、本発明では、選択した所定の個数ウェブページ（コンテンツともいう）それぞれからノイズを除去する。そして、本発明では、ノイズを除去したコンテンツに含まれるテキストを解析して、キーワードを抽出する。なお、キーワードとは、検索キーワードを用いて検索エンジンで検索した結果、検索結果の上位に表示されたウェブページに含まれているキーワードである。なお、各処理については、後述する。

【0016】

以下、図面を用いて本発明の実施形態について詳細に説明する。なお、本発明は係る実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。

【0017】

図１は、本実施形態に係るキーワード抽出装置１の操作画面ｇ１０１を示す図である。
図１において、四角ｇ１１１は、検索キーワードの入力欄であり、四角ｇ１１２は、検索キーワードに基づいてキーワードの抽出を開始するボタンの画像であり、四角ｇ１１３は、検索キーワードに基づいて、キーワード抽出装置１によって抽出されたキーワードのリストが表示される欄である。

【0018】

＜キーワード抽出装置１の構成＞
図２は、本実施形態に係るキーワード抽出装置１の概略構成図である。
図２に示すように、キーワード抽出装置１は、キーワード入力部１１、検索部１２、メインコンテンツ抽出部１５、キーワード抽出部１８、およびキーワードリスト出力部１９を備える。また、キーワード抽出装置１は、ネットワーク２に接続されている。ネットワーク２は、例えばインターネットである。

【0019】

キーワード入力部１１は、例えばキーボード、マウス、タブレット等である。キーワード入力部１１は、利用者によって入力された検索キーワードを検索部１２に出力する。

【0020】

検索部１２は、キーワード入力部１１が出力した検索キーワードを取得し、取得した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。なお、所定の個数とは、例えば２０個である。検索部１２は、選択した所定の個数のウェブページを示す情報をメインコンテンツ抽出部１５に出力する。なお、検索結果には、各ウェブページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ；ユニフォームリソースロケータ）アドレスが含まれている。

【0021】

メインコンテンツ抽出部１５は、検索部１２が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から１つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からメインコンテンツを抽出する。なお、メインコンテンツの抽出方法については、後述する。メインコンテンツ抽出部１５は、抽出したメインコンテンツを、ウェブページ毎にキーワード抽出部１８に出力する。ここで、ウェブページの情報には、ソースコードが含まれている。また、ウェブページには、ヘッダー、サイドバー、メインコンテンツ、フッター等が含まれている。

【0022】

キーワード抽出部１８は、メインコンテンツ抽出部１５が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部１８は、抽出した複数のキーワードに対して、後述するようにソート（ｓｏｒｔ）処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部１９に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。

【0023】

キーワードリスト出力部１９は、例えばＷｅｂ上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも１つである。キーワードリスト出力部１９は、キーワード抽出部１８が出力したキーワードリストを、例えばＷｅｂ上で提供する。

【0024】

次に、ドメインＤＢ１３に格納されている情報の一例を説明する。
図３は、本実施形態に係るドメインＤＢ１３に格納されている情報の一例を示す図である。図３に示すように、ドメインＤＢ１３には、少なくとも１つのドメインが格納されている。なお、ドメインＤＢ１３に格納されるドメインは、ネットワーク２を介して更新されるようにしてもよい。なお、利用者がキーワードを入力するときに、キーワードを抽出する上で不要なウェッブサイトのドメインを入力するようにしてもよい。そして、キーワード抽出装置１は、入力されたドメインを、一時的にドメインＤＢに格納して、キーワードを抽出するようにしてもよい。

【0025】

＜キーワード抽出装置１の処理手順＞
次に、キーワード抽出装置１の処理手順について説明する。図４は、本実施形態に係るキーワード抽出装置１の処理のフローチャートである。
（ステップＳ１）キーワード入力部１１は、利用者によって入力された検索キーワードを取得する。
（ステップＳ２）検索部１２は、キーワード入力部１１が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。
（ステップＳ３）検索部１２は、選択した所定の個数のウェブページそれぞれのソースコードを取得する。

【0026】

（ステップＳ５）メインコンテンツ抽出部１５は、検索部１２が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から１つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からキーワードを検出するために不要なエリアの記述を除去することでメインコンテンツを抽出する。
（ステップＳ７）キーワード抽出部１８は、メインコンテンツ抽出部１５が出力したメインコンテンツから複数のキーワードを抽出する。
以上で、キーワード抽出装置１の処理を終了する。

【0027】

＜メインコンテンツの抽出方法＞
次に、メインコンテンツの抽出方法について説明する。
図５は、ウェブページのソースコードの例を示す図である。なお、図５に示したソースコードは、ウェブページのソースコードのうちの一部である。また、図５に示したソースコードは、ウェブページを構成とソースコードとの関係を説明するための例であって、実際のウェブページのソースコードとは一致しない場合がある。
なお、本実施形態におけるウェブページのメインコンテンツとは、キーワードを抽出する上で必要な部分であり、例えば、タイトル、記事、質問内容、図や写真の説明、質問に対する返答等である、一方、本実施形態における不用部分とは、例えば、広告、メニュー等である。

【0028】

図５の符号ｇ２５１に示すように、ソースコードは、複数のタグを用いて記述されている。そして、ソースコードは、ウェブサイトのタイトル等が記述されているヘッダ情報ｇ２６１、ウェブサイトやウェブページのタイトルや説明が記述されているヘッダーｇ２６２、メインコンテンツｇ２６３、ウェブサイト内のリンク先や他のウェブサイトへのリンク先などが記述されているメニューｇ２６４を含んでいる。

【0029】

図６は、本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。なお、自ウェブページとは、図４のステップＳ２の検索結果のうちの１つのウェブページである。
符号ｇ３０１が示すウェブページの構成は、自ウェブページの構成例であり、２カラムの構成であって、ウェブページの上にヘッダーｇ３１１が配置され、左にメインコンテンツｇ３１３が配置され、右にメニューｇ３１２が配置されている。

【0030】

符号ｇ３２１が示すウェブページの構成は、自ウェブページに記述されている第１のリンク先のウェブページの構成例であり、２カラムの構成であって、ウェブページの上にヘッダーｇ３３１が配置され、左にメインコンテンツｇ３３３が配置され、右にメニューｇ３３２が配置されている。
符号ｇ３４１が示すウェブページの構成は、自ウェブページに記述されている第２のリンク先のウェブページの構成例であり、３カラムの構成であって、ウェブページの上にヘッダーｇ３５１が配置され、左に第１のメニューｇ３５２が配置され、真ん中にメインコンテンツｇ３５３が配置され、右に第２のメニューｇ３５４が配置されている。

【0031】

図６において、符号ｇ３２１が示すウェブページは、自ウェブページと同じウェブサイト内のウェブページの１つである。また、符号ｇ３２１が示すウェブページは、自ウェブページと異なるウェブサイト内のウェブページの１つである。
自ウェブページと同じウェブサイト内のウェブページのＵＲＬアドレスは、ドメイン、ホームページに割り振られたアドレス等が等しい場合が多い。一方、自ウェブページと異なるウェブサイト内のウェブページのＵＲＬアドレスは、ドメイン、ホームページに割り振られたアドレス等が異なる場合が多い。

【0032】

ここで、自ウェブページのＵＲＬアドレスと、自ウェブページと同じウェブサイト内のウェブページのＵＲＬアドレスとの距離を、第１のレーベンシュタイン距離とする。また、自ウェブページのＵＲＬアドレスと、自ウェブページと異なるウェブサイト内のウェブページのＵＲＬアドレスとの距離を、第２のレーベンシュタイン距離とする。この場合、第１のレーベンシュタイン距離は、第２のレーベンシュタイン距離より小さな値が得られる、すなわちレーベンシュタイン距離が近い。一方、第２のレーベンシュタイン距離は、第１のレーベンシュタイン距離より大きな値であり、すなわちレーベンシュタイン距離が遠い。

【0033】

レーベンシュタイン距離が近い２つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーｇ３１１とヘッダーｇ３３１との記述が一致または類似し、メニューｇ３１２とメニューｇ３３２との記述が一致または類似していることが多い。すなわち、ソースコードが一致または類似している領域は、ヘッダーおよびメニュー（サイドバー）であると見なすことができる。そして、自ウェブページのソースコードから、ヘッダーｇ３１１とメニューｇ３１２それぞれの記述を除去したものは、メインコンテンツｇ３１３の記述である。このように、メインコンテンツ抽出部１５は、自ウェブページのソースコードから、ヘッダーｇ３１１とメニューｇ３１２それぞれの記述を除去することでメインコンテンツｇ３１３の記述を抽出する。なお、メインコンテンツ抽出部１５は、周知の文書間の類似度を推定する類似度推定法を用いて、ソースコードが一致しているか否か、または類似しているか否かを判定する。

【0034】

また、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーｇ３１１とヘッダーｇ３５１との記述がヘッダーｇ３１１とヘッダーｇ３５１との記述より類似していない場合が多い。また、メニューｇ３１２と第１のメニューｇ３５２との記述が、メニューｇ３１２とメニューｇ３３２との記述より類似していず、メニューｇ３１２と第２のメニューｇ３５４との記述が、メニューｇ３１２とメニューｇ３３２との記述より類似していない場合が多い。この結果、ソースコードが類似している領域がないため、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較しても、自ウェブページのヘッダーｇ３１１やメニューｇ３１２（サイドバー）の記述を特定できない。このように、レーベンシュタイン距離が遠い２つのウェブサイトそれぞれのソースコードを比較しても、メインコンテンツｇ３１３の記述を抽出できない。

【0035】

また、特定のウェブページにのみ出現する部分は、メインコンテンツである傾向が高い。一方、不要部分は、複数のウェブページにわたって出現する傾向がある。例えば、ニュースサイトの記事の場合、当該ウェブページに他のニュースのリンク先が記載されている場合があり、他のニュースのウェブページと、当該ウェブページとの構成（図３参照）が似ている場合が多い。他のニュースのウェブページと当該ウェブページとには、例えば、図３のサイドバーｇ２２２にリンク先の情報、広告等が記載されている。このように、本実施形態では、複数のウェブページを比較し、比較した結果、共通している部分を不要部分と見なし、他のウェブページに出現しない部分をメインコンテンツであると見なす。そして、本実施形態では、検索されたウェブページの中から１つを選択し、選択したウェブページに記載されているリンク先を比較に用いるウェブページとする。また、本実施形態では、ウェブページ同士の比較に、例えばレーベンシュタイン距離を用いている。

【0036】

このため、本実施形態では、メインコンテンツ抽出部１５が、自ウェブページのＵＲＬアドレスとレーベンシュタイン距離が近い自ウェブページ内に記述されているリンク先のウェブページのＵＲＬアドレスを少なくとも１つ抽出する。そして、メインコンテンツ抽出部１５が、自ウェブページのソースコードと、レーベンシュタイン距離が近いリンク先のウェブページのソースコードを取得し、取得したソースコードの類似性に基づいて、不要なエリアの記述を除去することでメインコンテンツを抽出する。

【0037】

次に、メインコンテンツ抽出部１５が、図４のステップＳ５で行うメインコンテンツの抽出処理の手順の一例を説明する。
図７は、本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。

【0038】

（ステップＳ１０１）メインコンテンツ抽出部１５は、検索部１２が出力した所定の個数のウェブページの情報の中から、１つの未処理のウェブページの情報を逐次選択して、ステップＳ１０２〜Ｓ１０６の処理を行う。
（ステップＳ１０２）メインコンテンツ抽出部１５は、選択したウェブページのソースコードを取得する、続けて、メインコンテンツ抽出部１５は、選択したウェブページの内に含まれているリンクを示す情報を抽出する。なお、リンクを示す情報とは、ウェブページのソースコードに含まれる＜ａｈｒｅｆ＝”…”＞、＜ｂａｓｅｈｒｅｆ＝”…”＞、＜ｌｉｎｋｒｅｌ＝”…” ｈｒｅｆ＝”…”＞、＜ｌｉｎｋｈｒｅｆ＝”…”＞等のタグで記述されている情報である。なお、本実施形態では、リンクを示す情報がタグで記述されている例を説明したが、記述はこれに限られずリンクを示すものであればよい。

【0039】

（ステップＳ１０３）メインコンテンツ抽出部１５は、ステップＳ１０２で抽出された複数のリンク先のＵＲＬアドレスの中から１つを逐次選択する。メインコンテンツ抽出部１５は、ステップＳ１０１で選択したウェブページのＵＲＬアドレスと、リンクを示すタグに記述されているＵＲＬアドレスとのレーベンシュタイン距離を逐次計算する。
（ステップＳ１０４）メインコンテンツ抽出部１５は、計算した結果、レーベンシュタイン距離が近い少なくとも１つのリンク先のウェブサイトのソースコードを取得する。なお、メインコンテンツ抽出部１５は、レーベンシュタイン距離が近い順に複数のリンク先を選択するようにしてもよい。

【0040】

（ステップＳ１０５）メインコンテンツ抽出部１５は、ステップＳ１０１で選択したウェブページと、テップＳ１０４で取得したリンク先のウェブページそれぞれのソースコードを比較する。
（ステップＳ１０６）メインコンテンツ抽出部１５は、ステップＳ１０５で比較した結果、ソースコードが近い記述を除去することでメインコンテンツを抽出する（例えば、参考文献１参照）。

【0041】

（ステップＳ１０７）メインコンテンツ抽出部１５は、検索部１２が出力したウェブページの情報について、全てのウェブページについてステップＳ１０２〜Ｓ１０６の処理が終了した場合、抽出したメインコンテンツの記述を、ウェブページ毎にキーワード抽出部１８に出力する。
以上で、メインコンテンツの抽出処理を終了する。

【0042】

参考文献１；吉田光男、山本幹雄、教師情報を必要としないニュースページ群からのコンテンツ自動抽出、日本データベース学会論文誌 8(1) 29-34 2009.

【0043】

＜キーワードの抽出＞
次に、キーワードの抽出について説明する。
図８は、本実施形態に係るキーワード抽出部１８の構成を示すブロック図である。図８に示すように、キーワード抽出部１８は、形態素解析部１８１、用語抽出部１８２、およびキーワードリスト生成部１８３を備える。

【0044】

形態素解析部１８１は、メインコンテンツ抽出部１５が出力したメインコンテンツの中のテキスト情報をウェブページ毎に取得する。形態素解析部１８１は、テキスト情報に対して周知の手法を用いて形態素解析を行う。テキストが日本語の場合、形態素解析部１８１は、例えば「ＣｈａＳｅｎ（茶筌）」、「茶まめ」、「ＭｅＣａｂ（和布蕪）」等のソフトウェアを用いて形態素解析を行う。解析した解析結果には、文字列、文字列の品詞の種類、品詞の活用の種類、文字列の原形、読み等が含まれている。形態素解析部１８１は、解析した解析結果を用語抽出部１８２に出力する。

【0045】

用語抽出部１８２は、形態素解析部１８１が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。用語抽出部１８２は、例えば名詞が連続して出現している場合、連続している名詞を統合して複合語にする。用語抽出部１８２は、名詞または、複数の名詞を含む複合語を抽出する。用語抽出部１８２は、複合語を構成する最小単位の名詞（以下、単名詞ともいう）または名詞それぞれが、検索部１２によって選択された所定の個数のウェブページに横断的に出現した回数に基づいて、例えばＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法を用いて重要度ｉｄｆを算出する。
また、用語抽出部１８２は、検索部１２によって選択された所定の個数全てのウェブページそれぞれのテキスト情報中の名詞の出願回数または複合語の出現回数を算出する。
用語抽出部１８２は、抽出した名詞または複合語それぞれに、算出した重要度と出現回数とを対応付けてキーワードリスト生成部１８３に出力する。

【0046】

キーワードリスト生成部１８３は、用語抽出部１８２が出力した、重要度と出現回数とが対応付けている名詞または複合語を取得する。キーワードリスト生成部１８３は、名詞または複合語毎に重要度と出現回数を乗算して、乗算した値が大きい順に名詞または複合語を並べて、キーワードリストを生成する。キーワードリスト生成部１８３は、生成したキーワードリストをキーワードリスト出力部１９に出力する。
なお、用語抽出部１８２、およびキーワードリスト生成部１８３は、プログラミング言語Ｐｅｒｌのモジュールである、例えば「ＴｅｒｍＥｘｔｒａｃｔ」を含んで構成されていてもよい。

【0047】

上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から１つのウェブページを１つ逐次選択する。そして、本実施形態では、選択された自ウェブページのソースコードに記述されているリンク先のソースコードと、自ウェブページのソースコードとを比較して、比較した結果に基づいて不要なエリアの記述を除去することでメインコンテンツを抽出する。このように、本実施形態では、ノイズ成分が除去されたメインコンテンツのテキストを用いて、例えば名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。なお、抽出する言葉は、名詞と複合語に限られず、例えば形容詞や副詞を含んでいてもよい。

【0048】

＜キーワードリストの例＞
ここで、キーワードリスト出力部１９が出力するキーワードリストの例を説明する。
図９は、本実施形態に係るキーワードリスト出力部１９が出力するキーワードリストの例を示す図である。図９に示すように、キーワードリストには、入力したキーワード（符号ｇ３６１に示す領域）、出現回数（符号ｇ３６２に示す領域）、出現回数に重要度を乗算した値（符号ｇ３６３に示す領域）、キーワード（符号ｇ３６４に示す領域）が対応付けられている。
キーワードリスト出力部１９は、例えば図９に示すように、キーワード抽出部１８が出力した出現回数に重要度をキーワード毎に乗算し、乗算した値が大きい順にキーワードのソートを行う。
この結果、図９に示すように、キーワードの表示順番は、検索されたウェブページ内の出現回数に重要度を乗算した値が大きい順番である。このため、“足先しびれ冷たい”を入力したときに抽出されるキーワードは、出現回数が例えば１５位であっても重要度が大きいため、リストの３番目に表示される。

【0049】

なお、キーワードリスト出力部１９が出力するキーワードリストは、少なくともキーワードが含まれていればよく、出現回数、重要度は含まれていなくてもよい。
また、表示順番は、図９に示した例に限られず、出願回数が多い順番、重要度の値が大きい順番、他の統計的な手法に基づく順番等であってもよい。

【0050】

次に、キーワード抽出部１８が、図４のステップＳ７で行うキーワードの抽出処理について説明する。
図１０は、本実施形態に係るキーワードの抽出処理のフローチャートである。
（ステップＳ２０１）形態素解析部１８１は、メインコンテンツ抽出部１５が出力したテキスト情報に対して周知の手法を用いて形態素解析を行う。
（ステップＳ２０２）用語抽出部１８２は、形態素解析部１８１が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。

【0051】

（ステップＳ２０３）用語抽出部１８２は、名詞と、複数の名詞を含む複合語とを抽出する。
（ステップＳ２０４）用語抽出部１８２は、例えばＩＤＦ法を用いて、名詞および複合語それぞれの重要度を算出する。

【0052】

（ステップＳ２０５）用語抽出部１８２は、入力された全てのウェブページそれぞれのテキスト情報中の、名詞および複合語の出現回数を算出する。続けて、用語抽出部１８２は、ステップＳ２０３で抽出された名詞または複合語それぞれに、算出された出現回数とステップＳ２０４で算出された重要度とを対応付けて、キーワードリスト生成部１８３に出力する。

【0053】

（ステップＳ２０６）キーワードリスト生成部１８３は、用語抽出部１８２が出力した名詞または複合語毎に重要度と出現回数を乗算して、名詞または複合語に対して乗算した値が大きい順にソートを行い、キーワードリストを生成する。キーワードリスト生成部１８３は、生成したキーワードリストをキーワードリスト出力部１９に出力する。
以上で、キーワードの抽出処理を終了する。

【0054】

＜キーワードリストの利用例＞
このように抽出されたキーワードリストの利用例を説明する。
例えば、Ａ社が、商品Ｂのウェブページを開設する場合、通常、Ｂ商品に対する説明をウェブページに記載する。しかしながら、このような記載では、実際にＢ商品について興味がある利用者が知りたい情報を網羅しているとは限らない。このようなウェブページ、すなわちコンテンツを作成した場合、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示されない場合も少なくない。
このため、ウェブページ制作者が、例えばマインドマップ等を用いて、Ｂ商品に関する利用者が検索に用いると想定される検索キーワードを抽出する。そして、抽出された検索キーワードをキーワード抽出装置１に入力して、キーワードリストを得る。
ウェブページ制作者は、キーワードリストに載っているキーワードを用いてＢ商品のウェブページを制作する。これにより、ウェブページ制作者は、Ｂ商品について、利用者が知りたい情報を多く含んだウェブページを制作することができる。このような利用者にとって知りたい情報を多く含んでいるウェブページは、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示され、かつ利用者の知りたい多くの情報が含まれているため、利用者の滞在時間が長くなり、商品の購買につながる効果が得られる。

【0055】

なお、上述した例では、商品に関するウェブページを説明したが、これに限られない。パンフレット、カタログ、取扱説明書等を、キーワードリストを用いて制作することで、利用者が知りたい情報を多く含んだ内容することができる。

【0056】

次に、例えばトレンドの調査者が、コンビニエンスストアで販売されているスイーツのトレンドを知りたい場合を例に説明する。
検索エンジンに“コンビニ”、“スイーツ”の検索キーワードを入力して検索した場合、２０１５年５月２８日現在、約１８０万件の検索結果が得られる。調査者がこれらを全て読むことは困難であり、いくつかの検索された結果のウェブページ全体を読んだだけでは、トレンドが掴みにくい。
一方、キーワード抽出装置１に“コンビニ”、“スイーツ”の検索キーワードを入力することで、キーワード抽出装置１が、インターネットの利用者によって話題にされているコンビニエンスストアのスイーツに関するキーワードリストを生成することができる。これにより、本実施形態では、生成されたキーワードリストを、トレンドの調査者が見ることでトレンドを知ることもできる。また、キーワードリストを定期的（例えば月に１回）にキーワード抽出装置１によって生成させることで、トレンドの調査者は、キーワードの変化、すなわちトレンドの変化を知ることもできる。

【0057】

以上のように、本実施形態のキーワード抽出装置１は、検索キーワードに基づいてメインコンテンツを含む複数（所定の個数、例えば２０個）のコンテンツ（例えば、ウェブページ）を検索する検索部１２と、検索部によって検索された複数のコンテンツの中から１つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報（ソースコード）を抽出し、抽出したリンク先の情報と、選択したコンテンツの情報（ソースコード）とを比較して類似している情報を、選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部１５と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストからキーワードを抽出するキーワード抽出部１８と、を備える。

【0058】

この構成によって、本実施形態では、検索キーワードを用いて検索された複数のウェブページそれぞれから、自ウェブページ内のリンク先のソースコードとの類似度に基づいて、不要なエリア（例えば、ヘッダー、フッター、メニュー等）の記述を除去することで、精度良くメインコンテンツを抽出することができる。この結果、本実施形態によれば、検索キーワード、すなわち利用者が知りたい情報に応じたキーワードを抽出することができる。

【0059】

また、本実施形態のキーワード抽出装置１において、メインコンテンツ抽出部１５は、複数のリンク先のうちの１つを逐次選択し、選択した前記リンク先のアドレスと選択したコンテンツ（例えば、ウェブページ）のアドレスの類似度を算出して、選択したコンテンツの情報と比較し、算出した類似度が高いリンク先を示す情報を類似している情報とする。

【0060】

この構成によって、本実施形態では、自ウェブページのソースコードに記述されているリンク先のうち、類似度の高いリンク先のウェブページを選択することができる。この結果、本実施形態によれば、自ウェブページと類似度が高いウェブページとを比較して類似している領域を除去することで、メインコンテンツを精度良く抽出することができる。

【0061】

また、本実施形態のキーワード抽出装置１において、メインコンテンツ抽出部は１５、レーベンシュタイン距離を算出することで類似度を算出し、算出した前記レーベンシュタイン距離が近いリンク先を示す情報を類似度が高いリンク先を示す情報とする。

【0062】

この構成によって、本実施形態では、自ウェブページのソースコードに記述されているリンク先のうち、レーベンシュタイン距離の近いウェブページを選択することができる。この結果、本実施形態では、自ウェブページとレーベンシュタイン距離が近いウェブページとを比較して類似している領域を除去することで、メインコンテンツを精度良く抽出することができる。

【0063】

また、本実施形態では、メインコンテンツ抽出部１５が、自ウェブページとリンク先の距離の近さを、レーベンシュタイン距離を算出する例を説明したが、これに限られない。メインコンテンツ抽出部１５は、例えば、３−ｇｒａｍ（ｎ−ｇｒａｍ）法を用いて、ウェブページとリンク先の距離の近さを算出するようにしてもよい。

【0064】

なお、上述した実施形態において、キーワード抽出装置１は、検索キーワードに応じたウェブページをネットワーク２から検索する例を説明したが、これに限られない。例えば、キーワード抽出装置１に接続されているサーバ（不図示）から検索キーワードに応じたウェブページを検索するようにしてもよい。この場合、サーバには、検索キーワードに対応した複数のウェブページに関する情報が格納されている。

【0065】

また、上述した実施形態におけるキーワード抽出装置１の一部または全てをコンピュータで実現するようにしてもよい。その場合、これらの装置が備える機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、認識データ伝送装置に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0066】

１…キーワード抽出装置、２…ネットワーク、１１…キーワード入力部、１２…検索部、１５…メインコンテンツ抽出部、１８…キーワード抽出部、１９…キーワードリスト出力部、１８１…形態素解析部、１８２…用語抽出部、１８３…キーワードリスト生成部

【図1】