特許第6655981号(P6655981)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Faber Companyの特許一覧 ▶ 国立大学法人豊橋技術科学大学の特許一覧

特許6655981キーワード抽出装置、キーワード抽出方法、およびプログラム
<>
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000002
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000003
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000004
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000005
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000006
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000007
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000008
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000009
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000010
  • 特許6655981-キーワード抽出装置、キーワード抽出方法、およびプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6655981
(24)【登録日】2020年2月6日
(45)【発行日】2020年3月4日
(54)【発明の名称】キーワード抽出装置、キーワード抽出方法、およびプログラム
(51)【国際特許分類】
   G06F 16/958 20190101AFI20200220BHJP
【FI】
   G06F16/958
【請求項の数】3
【全頁数】16
(21)【出願番号】特願2015-249125(P2015-249125)
(22)【出願日】2015年12月21日
(65)【公開番号】特開2017-117022(P2017-117022A)
(43)【公開日】2017年6月29日
【審査請求日】2018年11月6日
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)The 14th In−house SEO Meetup、株式会社じげん本社 東京都新宿区新宿6丁目27番30号 新宿イーストサイドスクエア5階、平成27年6月19日 (2)In−house SEO Meetup[Kansai Edition 2015]、大阪産業創造館 イベントホール(4F)大阪府大阪市中央区本町1−4−5、平成27年8月1日 (3)In−house SEO Meetup[Advanced SEO 2015]、ベルサール渋谷ファースト 東京都渋谷区東1−2−20 住友不動産渋谷ファーストタワー2F、平成27年10月24日
(73)【特許権者】
【識別番号】515089758
【氏名又は名称】株式会社Faber Company
(73)【特許権者】
【識別番号】304027349
【氏名又は名称】国立大学法人豊橋技術科学大学
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(72)【発明者】
【氏名】副島 啓一
(72)【発明者】
【氏名】吉田 光男
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特開2010−204866(JP,A)
【文献】 特開2012−252634(JP,A)
【文献】 特開2013−105364(JP,A)
【文献】 中尾 豊,成約率が上がる 儲かる検索キーワードの見つけ方講座 初版,株式会社ソーテック社 柳澤 淳一,2015年 6月30日,第1版,p.205−208
【文献】 吉田 光男、外1名,教師情報を必要としないニュースページ群からのコンテンツ自動抽出,日本データベース学会論文誌,日本,日本データベース学会,2009年 6月26日,第8巻,第1号,p.29−34
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、
前記検索部によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、
前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、
を備えるキーワード抽出装置。
【請求項2】
検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
メインコンテンツ抽出部が、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を含むキーワード抽出方法。
【請求項3】
コンピュータに、
検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、
前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、
前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、キーワード抽出装置、キーワード抽出方法、およびプログラムに関する。
【背景技術】
【0002】
近年のインターネットの急速な普及に伴い、Web(ウェブ)サイトで提供されているサービスを利用して、情報を調べたり、ウェブサイトで販売されている商品を購入したりしる利用者が増えている。
このような場合に、利用者は、知りたい情報に関するキーワード(以下、検索キーワードという)を検索エンジンに入力して、利用したいサービスを提供しているウェブサイトを検索する。そして、利用者は、検索された結果、表示部上に表示されるウェブサイトのうち、例えば上位に表示されたウェブサイトから逐次アクセスして、そのサイトを閲覧する。
【0003】
検索エンジンは、例えば検索キーワードとウェブサイトのソースコードの記述とを照らし合わせて、検索キーワードとウェブサイトのソースコードの記述との適合度によって、検索結果として表示されるウェブサイトを選択する。
【0004】
このため、近年、ウェブサイトの運営者の間では、ウェブサイトにどのような記述を行えば、検索結果の上位に表示されるようになるかを知りたいという需要が存在する。
このような需要に応じて、ウェブサイトのコンテンツを構築するためのキーワードを抽出するキーワード抽出システムが提案されている。キーワード抽出システムでは、ウェブサイトを構成するウェブページ毎に、あらかじめ検索キーワードを決めておく。キーワード抽出システムでは、検索エンジンにおける検索履歴を検索キーワード毎に取得する。キーワード抽出システムでは、取得した検索履歴の多い順に検索キーワードを選択する。このように、キーワード抽出システムでは、検索エンジンの検索回数が多いキーワードを、コンテンツを構築するためのキーワードとして選択する(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−146446号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、検索結果の上位に表示されるには、検索キーワードをmeta(メタ)タグやコンテンツ内に記述するだけでは不足であり、検索キーワードと適合しやすい記述をコンテンツに含んでいる必要がある。
このため、特許文献1に記載の技術では、検索回数の多いキーワードをコンテンツが含んでいるだけであり、利用者が得たい情報が含まれているとは限らない。従って、検索回数の多いキーワードを含んでいても、検索結果の上位に表示されない場合もあった。
【0007】
本発明は上記の点に鑑みてなされたものであり、利用者が知りたい情報に応じたキーワードを抽出することができるキーワード抽出装置、キーワード抽出方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
(1)上記目的を達成するため、本発明の一態様に係るキーワード抽出装置は、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索部と、前記検索部によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部と、前記メインコンテンツ抽出部によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出部と、を備える。
【0009】
(2)また、本発明の一態様に係るキーワード抽出装置において、前記メインコンテンツ抽出部は、複数の前記リンク先のうちの1つを逐次選択し、選択した前記リンク先のアドレスと選択した前記コンテンツのアドレスの類似度を算出して、選択した前記コンテンツの情報と比較し、算出した前記類似度が高い前記リンク先を示す情報を類似している情報とするようにしてもよい。
【0010】
(3)また、本発明の一態様に係るキーワード抽出装置において、前記メインコンテンツ抽出部は、レーベンシュタイン距離を算出することで前記類似度を算出し、算出した前記レーベンシュタイン距離が近い前記リンク先を示す情報を類似度が高い前記リンク先を示す情報とするようにしてもよい。
【0011】
(4)上記目的を達成するため、本発明の一態様に係るキーワード抽出方法は、検索部が、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、メインコンテンツ抽出部が、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、キーワード抽出部が、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を含む。
【0012】
(5)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、検索キーワードに基づいてメインコンテンツを含む複数のコンテンツを検索する検索手順と、前記検索手順によって検索された前記複数のコンテンツの中から1つの前記コンテンツを逐次選択し、選択した前記コンテンツからリンク先を示す情報を抽出し、抽出したリンク先の情報と、選択した前記コンテンツの情報とを比較して類似している情報を、選択した前記コンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出手順と、前記メインコンテンツ抽出手順によって抽出された前記メインコンテンツのテキストから複数のキーワードを抽出するキーワード抽出手順と、を実行させる。
【発明の効果】
【0013】
本発明によれば、利用者が知りたい情報に応じたキーワードを抽出することができる。
【図面の簡単な説明】
【0014】
図1】本実施形態に係るキーワード抽出装置の操作画面を示す図である。
図2】本実施形態に係るキーワード抽出装置の概略構成図である。
図3】ウェブページの構成の一例を示す図である。
図4】本実施形態に係るキーワード抽出装置の処理のフローチャートである。
図5】ウェブページのソースコードの例を示す図である。
図6】本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。
図7】本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。
図8】本実施形態に係るキーワード抽出部の構成を示すブロック図である。
図9】第1実施形態に係るキーワードリスト出力部が出力するキーワードリストの例を示す図である。
図10】本実施形態に係るキーワードの抽出処理のフローチャートである。
【発明を実施するための形態】
【0015】
[本発明の概要]
まず、本発明の概要を説明する。
本発明では、ウェブサイトに関する検索キーワードを、検索エンジンによって検索する。なお、検索キーワードとは、ウェブページの閲覧者が、検索エンジンに入力すると想定されるキーワードである。そして、本発明では、検索されたウェブページのうち上位から所定の個数のウェブページを選択する。そして、本発明では、選択した所定の個数ウェブページ(コンテンツともいう)それぞれからノイズを除去する。そして、本発明では、ノイズを除去したコンテンツに含まれるテキストを解析して、キーワードを抽出する。なお、キーワードとは、検索キーワードを用いて検索エンジンで検索した結果、検索結果の上位に表示されたウェブページに含まれているキーワードである。なお、各処理については、後述する。
【0016】
以下、図面を用いて本発明の実施形態について詳細に説明する。なお、本発明は係る実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
【0017】
図1は、本実施形態に係るキーワード抽出装置1の操作画面g101を示す図である。
図1において、四角g111は、検索キーワードの入力欄であり、四角g112は、検索キーワードに基づいてキーワードの抽出を開始するボタンの画像であり、四角g113は、検索キーワードに基づいて、キーワード抽出装置1によって抽出されたキーワードのリストが表示される欄である。
【0018】
<キーワード抽出装置1の構成>
図2は、本実施形態に係るキーワード抽出装置1の概略構成図である。
図2に示すように、キーワード抽出装置1は、キーワード入力部11、検索部12、メインコンテンツ抽出部15、キーワード抽出部18、およびキーワードリスト出力部19を備える。また、キーワード抽出装置1は、ネットワーク2に接続されている。ネットワーク2は、例えばインターネットである。
【0019】
キーワード入力部11は、例えばキーボード、マウス、タブレット等である。キーワード入力部11は、利用者によって入力された検索キーワードを検索部12に出力する。
【0020】
検索部12は、キーワード入力部11が出力した検索キーワードを取得し、取得した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。なお、所定の個数とは、例えば20個である。検索部12は、選択した所定の個数のウェブページを示す情報をメインコンテンツ抽出部15に出力する。なお、検索結果には、各ウェブページのURL(Uniform Resource Locator;ユニフォームリソースロケータ)アドレスが含まれている。
【0021】
メインコンテンツ抽出部15は、検索部12が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からメインコンテンツを抽出する。なお、メインコンテンツの抽出方法については、後述する。メインコンテンツ抽出部15は、抽出したメインコンテンツを、ウェブページ毎にキーワード抽出部18に出力する。ここで、ウェブページの情報には、ソースコードが含まれている。また、ウェブページには、ヘッダー、サイドバー、メインコンテンツ、フッター等が含まれている。
【0022】
キーワード抽出部18は、メインコンテンツ抽出部15が出力したメインコンテンツから複数のキーワードを抽出する。キーワード抽出部18は、抽出した複数のキーワードに対して、後述するようにソート(sort)処理を行い、ソート処理を行ったキーワードリストをキーワードリスト出力部19に出力する。なお、キーワードの抽出方法、ソート処理については、後述する。
【0023】
キーワードリスト出力部19は、例えばWeb上での情報提供部、表示装置、プリンタ装置、通信装置のうち少なくとも1つである。キーワードリスト出力部19は、キーワード抽出部18が出力したキーワードリストを、例えばWeb上で提供する。
【0024】
次に、ドメインDB13に格納されている情報の一例を説明する。
図3は、本実施形態に係るドメインDB13に格納されている情報の一例を示す図である。図3に示すように、ドメインDB13には、少なくとも1つのドメインが格納されている。なお、ドメインDB13に格納されるドメインは、ネットワーク2を介して更新されるようにしてもよい。なお、利用者がキーワードを入力するときに、キーワードを抽出する上で不要なウェッブサイトのドメインを入力するようにしてもよい。そして、キーワード抽出装置1は、入力されたドメインを、一時的にドメインDBに格納して、キーワードを抽出するようにしてもよい。
【0025】
<キーワード抽出装置1の処理手順>
次に、キーワード抽出装置1の処理手順について説明する。図4は、本実施形態に係るキーワード抽出装置1の処理のフローチャートである。
(ステップS1)キーワード入力部11は、利用者によって入力された検索キーワードを取得する。
(ステップS2)検索部12は、キーワード入力部11が出力した検索キーワードに適したウェブページを、検索エンジンを用いて検索して、検索によって得られたウェブページのうち、上位から所定の個数のウェブページを選択する。
(ステップS3)検索部12は、選択した所定の個数のウェブページそれぞれのソースコードを取得する。
【0026】
(ステップS5)メインコンテンツ抽出部15は、検索部12が出力した所定の個数のウェブページを示す情報を用いて、所定の個数のウェブページの中から1つのウェブページの情報を逐次選択し、選択したウェブページの情報の中からキーワードを検出するために不要なエリアの記述を除去することでメインコンテンツを抽出する。
(ステップS7)キーワード抽出部18は、メインコンテンツ抽出部15が出力したメインコンテンツから複数のキーワードを抽出する。
以上で、キーワード抽出装置1の処理を終了する。
【0027】
<メインコンテンツの抽出方法>
次に、メインコンテンツの抽出方法について説明する。
図5は、ウェブページのソースコードの例を示す図である。なお、図5に示したソースコードは、ウェブページのソースコードのうちの一部である。また、図5に示したソースコードは、ウェブページを構成とソースコードとの関係を説明するための例であって、実際のウェブページのソースコードとは一致しない場合がある。
なお、本実施形態におけるウェブページのメインコンテンツとは、キーワードを抽出する上で必要な部分であり、例えば、タイトル、記事、質問内容、図や写真の説明、質問に対する返答等である、一方、本実施形態における不用部分とは、例えば、広告、メニュー等である。
【0028】
図5の符号g251に示すように、ソースコードは、複数のタグを用いて記述されている。そして、ソースコードは、ウェブサイトのタイトル等が記述されているヘッダ情報g261、ウェブサイトやウェブページのタイトルや説明が記述されているヘッダーg262、メインコンテンツg263、ウェブサイト内のリンク先や他のウェブサイトへのリンク先などが記述されているメニューg264を含んでいる。
【0029】
図6は、本実施形態に係る自ウェブページとリンク先のウェブページの構成例を示す図である。なお、自ウェブページとは、図4のステップS2の検索結果のうちの1つのウェブページである。
符号g301が示すウェブページの構成は、自ウェブページの構成例であり、2カラムの構成であって、ウェブページの上にヘッダーg311が配置され、左にメインコンテンツg313が配置され、右にメニューg312が配置されている。
【0030】
符号g321が示すウェブページの構成は、自ウェブページに記述されている第1のリンク先のウェブページの構成例であり、2カラムの構成であって、ウェブページの上にヘッダーg331が配置され、左にメインコンテンツg333が配置され、右にメニューg332が配置されている。
符号g341が示すウェブページの構成は、自ウェブページに記述されている第2のリンク先のウェブページの構成例であり、3カラムの構成であって、ウェブページの上にヘッダーg351が配置され、左に第1のメニューg352が配置され、真ん中にメインコンテンツg353が配置され、右に第2のメニューg354が配置されている。
【0031】
図6において、符号g321が示すウェブページは、自ウェブページと同じウェブサイト内のウェブページの1つである。また、符号g321が示すウェブページは、自ウェブページと異なるウェブサイト内のウェブページの1つである。
自ウェブページと同じウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が等しい場合が多い。一方、自ウェブページと異なるウェブサイト内のウェブページのURLアドレスは、ドメイン、ホームページに割り振られたアドレス等が異なる場合が多い。
【0032】
ここで、自ウェブページのURLアドレスと、自ウェブページと同じウェブサイト内のウェブページのURLアドレスとの距離を、第1のレーベンシュタイン距離とする。また、自ウェブページのURLアドレスと、自ウェブページと異なるウェブサイト内のウェブページのURLアドレスとの距離を、第2のレーベンシュタイン距離とする。この場合、第1のレーベンシュタイン距離は、第2のレーベンシュタイン距離より小さな値が得られる、すなわちレーベンシュタイン距離が近い。一方、第2のレーベンシュタイン距離は、第1のレーベンシュタイン距離より大きな値であり、すなわちレーベンシュタイン距離が遠い。
【0033】
レーベンシュタイン距離が近い2つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーg311とヘッダーg331との記述が一致または類似し、メニューg312とメニューg332との記述が一致または類似していることが多い。すなわち、ソースコードが一致または類似している領域は、ヘッダーおよびメニュー(サイドバー)であると見なすことができる。そして、自ウェブページのソースコードから、ヘッダーg311とメニューg312それぞれの記述を除去したものは、メインコンテンツg313の記述である。このように、メインコンテンツ抽出部15は、自ウェブページのソースコードから、ヘッダーg311とメニューg312それぞれの記述を除去することでメインコンテンツg313の記述を抽出する。なお、メインコンテンツ抽出部15は、周知の文書間の類似度を推定する類似度推定法を用いて、ソースコードが一致しているか否か、または類似しているか否かを判定する。
【0034】
また、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較した場合、ヘッダーg311とヘッダーg351との記述がヘッダーg311とヘッダーg351との記述より類似していない場合が多い。また、メニューg312と第1のメニューg352との記述が、メニューg312とメニューg332との記述より類似していず、メニューg312と第2のメニューg354との記述が、メニューg312とメニューg332との記述より類似していない場合が多い。この結果、ソースコードが類似している領域がないため、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較しても、自ウェブページのヘッダーg311やメニューg312(サイドバー)の記述を特定できない。このように、レーベンシュタイン距離が遠い2つのウェブサイトそれぞれのソースコードを比較しても、メインコンテンツg313の記述を抽出できない。
【0035】
また、特定のウェブページにのみ出現する部分は、メインコンテンツである傾向が高い。一方、不要部分は、複数のウェブページにわたって出現する傾向がある。例えば、ニュースサイトの記事の場合、当該ウェブページに他のニュースのリンク先が記載されている場合があり、他のニュースのウェブページと、当該ウェブページとの構成(図3参照)が似ている場合が多い。他のニュースのウェブページと当該ウェブページとには、例えば、図3のサイドバーg222にリンク先の情報、広告等が記載されている。このように、本実施形態では、複数のウェブページを比較し、比較した結果、共通している部分を不要部分と見なし、他のウェブページに出現しない部分をメインコンテンツであると見なす。そして、本実施形態では、検索されたウェブページの中から1つを選択し、選択したウェブページに記載されているリンク先を比較に用いるウェブページとする。また、本実施形態では、ウェブページ同士の比較に、例えばレーベンシュタイン距離を用いている。
【0036】
このため、本実施形態では、メインコンテンツ抽出部15が、自ウェブページのURLアドレスとレーベンシュタイン距離が近い自ウェブページ内に記述されているリンク先のウェブページのURLアドレスを少なくとも1つ抽出する。そして、メインコンテンツ抽出部15が、自ウェブページのソースコードと、レーベンシュタイン距離が近いリンク先のウェブページのソースコードを取得し、取得したソースコードの類似性に基づいて、不要なエリアの記述を除去することでメインコンテンツを抽出する。
【0037】
次に、メインコンテンツ抽出部15が、図4のステップS5で行うメインコンテンツの抽出処理の手順の一例を説明する。
図7は、本実施形態に係るメインコンテンツの抽出処理の手順のフローチャートである。
【0038】
(ステップS101)メインコンテンツ抽出部15は、検索部12が出力した所定の個数のウェブページの情報の中から、1つの未処理のウェブページの情報を逐次選択して、ステップS102〜S106の処理を行う。
(ステップS102)メインコンテンツ抽出部15は、選択したウェブページのソースコードを取得する、続けて、メインコンテンツ抽出部15は、選択したウェブページの内に含まれているリンクを示す情報を抽出する。なお、リンクを示す情報とは、ウェブページのソースコードに含まれる<a href=”…”>、<base href=”…”>、<link rel=”…” href=”…”>、<link href=”…”>等のタグで記述されている情報である。なお、本実施形態では、リンクを示す情報がタグで記述されている例を説明したが、記述はこれに限られずリンクを示すものであればよい。
【0039】
(ステップS103)メインコンテンツ抽出部15は、ステップS102で抽出された複数のリンク先のURLアドレスの中から1つを逐次選択する。メインコンテンツ抽出部15は、ステップS101で選択したウェブページのURLアドレスと、リンクを示すタグに記述されているURLアドレスとのレーベンシュタイン距離を逐次計算する。
(ステップS104)メインコンテンツ抽出部15は、計算した結果、レーベンシュタイン距離が近い少なくとも1つのリンク先のウェブサイトのソースコードを取得する。なお、メインコンテンツ抽出部15は、レーベンシュタイン距離が近い順に複数のリンク先を選択するようにしてもよい。
【0040】
(ステップS105)メインコンテンツ抽出部15は、ステップS101で選択したウェブページと、テップS104で取得したリンク先のウェブページそれぞれのソースコードを比較する。
(ステップS106)メインコンテンツ抽出部15は、ステップS105で比較した結果、ソースコードが近い記述を除去することでメインコンテンツを抽出する(例えば、参考文献1参照)。
【0041】
(ステップS107)メインコンテンツ抽出部15は、検索部12が出力したウェブページの情報について、全てのウェブページについてステップS102〜S106の処理が終了した場合、抽出したメインコンテンツの記述を、ウェブページ毎にキーワード抽出部18に出力する。
以上で、メインコンテンツの抽出処理を終了する。
【0042】
参考文献1;吉田光男、山本幹雄、教師情報を必要としないニュースページ群からのコンテンツ自動抽出、日本データベース学会論文誌 8(1) 29-34 2009.
【0043】
<キーワードの抽出>
次に、キーワードの抽出について説明する。
図8は、本実施形態に係るキーワード抽出部18の構成を示すブロック図である。図8に示すように、キーワード抽出部18は、形態素解析部181、用語抽出部182、およびキーワードリスト生成部183を備える。
【0044】
形態素解析部181は、メインコンテンツ抽出部15が出力したメインコンテンツの中のテキスト情報をウェブページ毎に取得する。形態素解析部181は、テキスト情報に対して周知の手法を用いて形態素解析を行う。テキストが日本語の場合、形態素解析部181は、例えば「ChaSen(茶筌)」、「茶まめ」、「MeCab(和布蕪)」等のソフトウェアを用いて形態素解析を行う。解析した解析結果には、文字列、文字列の品詞の種類、品詞の活用の種類、文字列の原形、読み等が含まれている。形態素解析部181は、解析した解析結果を用語抽出部182に出力する。
【0045】
用語抽出部182は、形態素解析部181が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。用語抽出部182は、例えば名詞が連続して出現している場合、連続している名詞を統合して複合語にする。用語抽出部182は、名詞または、複数の名詞を含む複合語を抽出する。用語抽出部182は、複合語を構成する最小単位の名詞(以下、単名詞ともいう)または名詞それぞれが、検索部12によって選択された所定の個数のウェブページに横断的に出現した回数に基づいて、例えばIDF(Inverse Document Frequency)法を用いて重要度idfを算出する。
また、用語抽出部182は、検索部12によって選択された所定の個数全てのウェブページそれぞれのテキスト情報中の名詞の出願回数または複合語の出現回数を算出する。
用語抽出部182は、抽出した名詞または複合語それぞれに、算出した重要度と出現回数とを対応付けてキーワードリスト生成部183に出力する。
【0046】
キーワードリスト生成部183は、用語抽出部182が出力した、重要度と出現回数とが対応付けている名詞または複合語を取得する。キーワードリスト生成部183は、名詞または複合語毎に重要度と出現回数を乗算して、乗算した値が大きい順に名詞または複合語を並べて、キーワードリストを生成する。キーワードリスト生成部183は、生成したキーワードリストをキーワードリスト出力部19に出力する。
なお、用語抽出部182、およびキーワードリスト生成部183は、プログラミング言語Perlのモジュールである、例えば「TermExtract」を含んで構成されていてもよい。
【0047】
上述したように、本実施形態では、検索キーワードを、検索エンジンを用いて検索した上位から所定の個数のウェブページの中から1つのウェブページを1つ逐次選択する。そして、本実施形態では、選択された自ウェブページのソースコードに記述されているリンク先のソースコードと、自ウェブページのソースコードとを比較して、比較した結果に基づいて不要なエリアの記述を除去することでメインコンテンツを抽出する。このように、本実施形態では、ノイズ成分が除去されたメインコンテンツのテキストを用いて、例えば名詞と複合語とを抽出することで、キーワードを精度よく抽出することができる。なお、抽出する言葉は、名詞と複合語に限られず、例えば形容詞や副詞を含んでいてもよい。
【0048】
<キーワードリストの例>
ここで、キーワードリスト出力部19が出力するキーワードリストの例を説明する。
図9は、本実施形態に係るキーワードリスト出力部19が出力するキーワードリストの例を示す図である。図9に示すように、キーワードリストには、入力したキーワード(符号g361に示す領域)、出現回数(符号g362に示す領域)、出現回数に重要度を乗算した値(符号g363に示す領域)、キーワード(符号g364に示す領域)が対応付けられている。
キーワードリスト出力部19は、例えば図9に示すように、キーワード抽出部18が出力した出現回数に重要度をキーワード毎に乗算し、乗算した値が大きい順にキーワードのソートを行う。
この結果、図9に示すように、キーワードの表示順番は、検索されたウェブページ内の出現回数に重要度を乗算した値が大きい順番である。このため、“足先 しびれ 冷たい”を入力したときに抽出されるキーワードは、出現回数が例えば15位であっても重要度が大きいため、リストの3番目に表示される。
【0049】
なお、キーワードリスト出力部19が出力するキーワードリストは、少なくともキーワードが含まれていればよく、出現回数、重要度は含まれていなくてもよい。
また、表示順番は、図9に示した例に限られず、出願回数が多い順番、重要度の値が大きい順番、他の統計的な手法に基づく順番等であってもよい。
【0050】
次に、キーワード抽出部18が、図4のステップS7で行うキーワードの抽出処理について説明する。
図10は、本実施形態に係るキーワードの抽出処理のフローチャートである。
(ステップS201)形態素解析部181は、メインコンテンツ抽出部15が出力したテキスト情報に対して周知の手法を用いて形態素解析を行う。
(ステップS202)用語抽出部182は、形態素解析部181が出力した解析結果を用いて、語の並びと品詞情報に基づいて複合語を組み立てる。
【0051】
(ステップS203)用語抽出部182は、名詞と、複数の名詞を含む複合語とを抽出する。
(ステップS204)用語抽出部182は、例えばIDF法を用いて、名詞および複合語それぞれの重要度を算出する。
【0052】
(ステップS205)用語抽出部182は、入力された全てのウェブページそれぞれのテキスト情報中の、名詞および複合語の出現回数を算出する。続けて、用語抽出部182は、ステップS203で抽出された名詞または複合語それぞれに、算出された出現回数とステップS204で算出された重要度とを対応付けて、キーワードリスト生成部183に出力する。
【0053】
(ステップS206)キーワードリスト生成部183は、用語抽出部182が出力した名詞または複合語毎に重要度と出現回数を乗算して、名詞または複合語に対して乗算した値が大きい順にソートを行い、キーワードリストを生成する。キーワードリスト生成部183は、生成したキーワードリストをキーワードリスト出力部19に出力する。
以上で、キーワードの抽出処理を終了する。
【0054】
<キーワードリストの利用例>
このように抽出されたキーワードリストの利用例を説明する。
例えば、A社が、商品Bのウェブページを開設する場合、通常、B商品に対する説明をウェブページに記載する。しかしながら、このような記載では、実際にB商品について興味がある利用者が知りたい情報を網羅しているとは限らない。このようなウェブページ、すなわちコンテンツを作成した場合、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示されない場合も少なくない。
このため、ウェブページ制作者が、例えばマインドマップ等を用いて、B商品に関する利用者が検索に用いると想定される検索キーワードを抽出する。そして、抽出された検索キーワードをキーワード抽出装置1に入力して、キーワードリストを得る。
ウェブページ制作者は、キーワードリストに載っているキーワードを用いてB商品のウェブページを制作する。これにより、ウェブページ制作者は、B商品について、利用者が知りたい情報を多く含んだウェブページを制作することができる。このような利用者にとって知りたい情報を多く含んでいるウェブページは、検索エンジンによってウェブページの記載内容が評価された結果、検索結果の上位に表示され、かつ利用者の知りたい多くの情報が含まれているため、利用者の滞在時間が長くなり、商品の購買につながる効果が得られる。
【0055】
なお、上述した例では、商品に関するウェブページを説明したが、これに限られない。パンフレット、カタログ、取扱説明書等を、キーワードリストを用いて制作することで、利用者が知りたい情報を多く含んだ内容することができる。
【0056】
次に、例えばトレンドの調査者が、コンビニエンスストアで販売されているスイーツのトレンドを知りたい場合を例に説明する。
検索エンジンに“コンビニ”、“スイーツ”の検索キーワードを入力して検索した場合、2015年5月28日現在、約180万件の検索結果が得られる。調査者がこれらを全て読むことは困難であり、いくつかの検索された結果のウェブページ全体を読んだだけでは、トレンドが掴みにくい。
一方、キーワード抽出装置1に“コンビニ”、“スイーツ”の検索キーワードを入力することで、キーワード抽出装置1が、インターネットの利用者によって話題にされているコンビニエンスストアのスイーツに関するキーワードリストを生成することができる。これにより、本実施形態では、生成されたキーワードリストを、トレンドの調査者が見ることでトレンドを知ることもできる。また、キーワードリストを定期的(例えば月に1回)にキーワード抽出装置1によって生成させることで、トレンドの調査者は、キーワードの変化、すなわちトレンドの変化を知ることもできる。
【0057】
以上のように、本実施形態のキーワード抽出装置1は、検索キーワードに基づいてメインコンテンツを含む複数(所定の個数、例えば20個)のコンテンツ(例えば、ウェブページ)を検索する検索部12と、検索部によって検索された複数のコンテンツの中から1つのコンテンツを逐次選択し、選択したコンテンツからリンク先を示す情報(ソースコード)を抽出し、抽出したリンク先の情報と、選択したコンテンツの情報(ソースコード)とを比較して類似している情報を、選択したコンテンツの情報から除去してメインコンテンツを抽出するメインコンテンツ抽出部15と、メインコンテンツ抽出部によって抽出されたメインコンテンツのテキストからキーワードを抽出するキーワード抽出部18と、を備える。
【0058】
この構成によって、本実施形態では、検索キーワードを用いて検索された複数のウェブページそれぞれから、自ウェブページ内のリンク先のソースコードとの類似度に基づいて、不要なエリア(例えば、ヘッダー、フッター、メニュー等)の記述を除去することで、精度良くメインコンテンツを抽出することができる。この結果、本実施形態によれば、検索キーワード、すなわち利用者が知りたい情報に応じたキーワードを抽出することができる。
【0059】
また、本実施形態のキーワード抽出装置1において、メインコンテンツ抽出部15は、複数のリンク先のうちの1つを逐次選択し、選択した前記リンク先のアドレスと選択したコンテンツ(例えば、ウェブページ)のアドレスの類似度を算出して、選択したコンテンツの情報と比較し、算出した類似度が高いリンク先を示す情報を類似している情報とする。
【0060】
この構成によって、本実施形態では、自ウェブページのソースコードに記述されているリンク先のうち、類似度の高いリンク先のウェブページを選択することができる。この結果、本実施形態によれば、自ウェブページと類似度が高いウェブページとを比較して類似している領域を除去することで、メインコンテンツを精度良く抽出することができる。
【0061】
また、本実施形態のキーワード抽出装置1において、メインコンテンツ抽出部は15、レーベンシュタイン距離を算出することで類似度を算出し、算出した前記レーベンシュタイン距離が近いリンク先を示す情報を類似度が高いリンク先を示す情報とする。
【0062】
この構成によって、本実施形態では、自ウェブページのソースコードに記述されているリンク先のうち、レーベンシュタイン距離の近いウェブページを選択することができる。この結果、本実施形態では、自ウェブページとレーベンシュタイン距離が近いウェブページとを比較して類似している領域を除去することで、メインコンテンツを精度良く抽出することができる。
【0063】
また、本実施形態では、メインコンテンツ抽出部15が、自ウェブページとリンク先の距離の近さを、レーベンシュタイン距離を算出する例を説明したが、これに限られない。メインコンテンツ抽出部15は、例えば、3−gram(n−gram)法を用いて、ウェブページとリンク先の距離の近さを算出するようにしてもよい。
【0064】
なお、上述した実施形態において、キーワード抽出装置1は、検索キーワードに応じたウェブページをネットワーク2から検索する例を説明したが、これに限られない。例えば、キーワード抽出装置1に接続されているサーバ(不図示)から検索キーワードに応じたウェブページを検索するようにしてもよい。この場合、サーバには、検索キーワードに対応した複数のウェブページに関する情報が格納されている。
【0065】
また、上述した実施形態におけるキーワード抽出装置1の一部または全てをコンピュータで実現するようにしてもよい。その場合、これらの装置が備える機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、認識データ伝送装置に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0066】
1…キーワード抽出装置、2…ネットワーク、11…キーワード入力部、12…検索部、15…メインコンテンツ抽出部、18…キーワード抽出部、19…キーワードリスト出力部、181…形態素解析部、182…用語抽出部、183…キーワードリスト生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10