(58)【調査した分野】(Int.Cl.,DB名)
前記概念辞書データを参照し、複数のコンテンツそれぞれに関するテキストデータから前記主題抽出部により抽出された主題となる単語間の関係名を前記関係項目データから読み出し、主題となる前記単語と、主題となる前記単語間について読み出した前記関係名と、主題となる前記単語が抽出された前記コンテンツの情報と、主題となる前記単語が抽出された前記コンテンツに関するテキストデータから前記関係名処理部が読み出した前記関係名とを表示させる画像データを生成するマップ生成部をさらに備える、
ことを特徴とする請求項1から請求項4のいずれか1項に記載のトピック抽出装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
番組情報やメタデータの類似度計算によってコンテンツ間をリンクし、類似度が高いコンテンツを推薦する方法では、内容が似ているコンテンツばかりが提示されてしまっていた。しかし、コンテンツPで紹介されている問題点の対処法がコンテンツQで紹介されていたり(Pの対処法がQ)、コンテンツPで取り上げられている話題の原因がコンテンツRで紹介されていたり(Pの原因がR)、コンテンツ間の関係は類似だけではない。単語の分布で類似度が近いものを選択するというような従来の技術では、「対処法」や「原因」のような関係でリンクを生成することはできない。
また、ユーザーの閲覧履歴からコンテンツ間にリンクを生成する場合、大量のユーザー履歴が必要なうえ、内容的には何の関連性もないものにもリンクがつけられることがあり、リンクされたコンテンツ同士がなぜ関連しているかの関係を特定することはできない。
【0006】
本発明は、このような事情を考慮してなされたもので、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出するトピック抽出装置、及びプログラムを提供する。
【課題を解決するための手段】
【0007】
本発明の一態様は、コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出部と、2つの異なる単語と前記2つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記2つの異なる単語の一方が前記主題抽出部により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出部と、前記コンテンツに関するテキストデータに、前記関連項目抽出部により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出部により特定された前記関係項目データが示す前記2つの異なる単語が含まれる場合に、前記主題抽出部により抽出された主題となる前記単語と前記関連項目抽出部により特定された前記関係項目データが示す前記関係名とを出力する関係名処理部と、を備えることを特徴とするトピック抽出装置である。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから主題となる単語を抽出すると、概念辞書データを参照し、抽出した単語が含まれる関係項目データを特定する。トピック抽出装置は、コンテンツに関するテキストデータに、特定された関係項目データに記述されている関係名が含まれる場合、あるいは、特定された関係項目データに関係名により関連付けて記述されている2つの単語が含まれる場合に、主題となる単語と特定された関係項目データに記述されている関係名とをトピックとして出力する。
これにより、トピック抽出装置は、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出することができる。
【0008】
本発明の一態様は、上述するトピック抽出装置であって、前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の中から名詞を主題となる単語として抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、トピックの主題としてわかりやすい単語を抽出することができる。
【0009】
本発明の一態様は、上述するトピック抽出装置であって、前記コンテンツに関するテキストデータは、番組サブタイトルと番組概要文とを含み、前記主題抽出部は、番組サブタイトルと番組概要文とに共通して含まれる単語の中から名詞を主題となる単語として抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、番組サブタイトルと番組概要文とに共通して含まれる名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、番組サブタイトルにも番組概要文にも出現する名詞を抽出するため、トピックの主題として適切な単語を抽出することができる。
【0010】
本発明の一態様は、上述するトピック抽出装置であって、前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の重要度を算出し、算出した前記重要度に基づいて主題となる単語を抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータに含まれる単語の中から、各単語の重要度に基づいて主題を抽出する。
これにより、トピック抽出装置は、コンテンツに関するテキストデータにおいて重要な単語を主題として抽出することができる。
【0011】
本発明の一態様は、上述するトピック抽出装置であって、前記概念辞書データを参照し、複数のコンテンツそれぞれに関するテキストデータから前記主題抽出部により抽出された主題となる単語間の関係名を前記関係項目データから読み出し、主題となる前記単語と、主題となる前記単語間について読み出した前記関係名と、主題となる前記単語が抽出された前記コンテンツの情報と、主題となる前記単語が抽出された前記コンテンツに関するテキストデータから前記関係名処理部が読み出した前記関係名とを表示させる画像データを生成するマップ生成部をさらに備える、ことを特徴とする。
この発明によれば、トピック抽出装置は、複数のコンテンツに関するテキストデータそれぞれからコンテンツの主題となる単語と関係名を得る。トピック抽出装置は、各コンテンツについて得られた主題と、概念辞書データから読み出したそれら主題間の関係を表す関係名と、各主題が得られたコンテンツの情報と、各コンテンツについて得られた関係名とを表示させる画像データを生成する。
これにより、トピック抽出装置は、各コンテンツの主題間の関係と、各主題が得られたコンテンツの情報と、そのコンテンツが主題とどのような関係であるかを画像により表示させることができる。
【0012】
本発明の一態様は、コンピュータを、コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出手段と、2つの異なる単語と前記2つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記2つの異なる単語の一方が前記主題抽出手段により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出手段と、前記コンテンツに関するテキストデータに、前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出手段により特定された前記関係項目データが示す前記2つの異なる単語が含まれる場合に、前記主題抽出手段により抽出された主題となる前記単語と前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名とを出力する関係名処理手段と、を具備するトピック抽出装置として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出することができる。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0016】
[第1の実施形態]
図1は、本発明の第1の実施形態によるトピック抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。トピック抽出装置1は、コンピュータ装置により実現され、同図に示すように、概念辞書記憶部11、主題抽出部12、関連項目抽出部13、及び関係名処理部14を備えて構成される。
【0017】
概念辞書記憶部11は、概念辞書データを記憶する。概念辞書データは複数の関係項目データを含み、各関係項目データは、2つの異なる単語と、これら2つの異なる単語の間の関係を表す関係名とを示す。以下、概念辞書データを「概念辞書」と記載し、関係項目データを「関係項目」と記載する。なお、トピック抽出装置1は、概念辞書記憶部を設けないで、ネットワークにより接続されるデータベースサーバを概念辞書記憶部11として用いてもよい。例えば、トピック抽出装置1は、概念辞書記憶部11として、インターネットによりアクセスされるウェブサイトを利用し得る。利用可能なウェブサイトの一例には、「通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/opensource.html>」がある。
【0018】
主題抽出部12は、コンテンツに関するテキストデータの入力を受ける。例えば、コンテンツは、放送番組であり、コンテンツに関するテキストデータは、番組サブタイトルと番組概要文を含む番組関連テキストデータである。主題抽出部12は、番組関連テキストデータに含まれる単語の中からコンテンツの主題となる単語を品詞に基づいて抽出する。関連項目抽出部13は、概念辞書記憶部11に記憶されている概念辞書から、主題抽出部12により抽出された主題となる単語が含まれる関係項目を特定する。
【0019】
関係名処理部14は、番組関連テキストデータに、関連項目抽出部13により特定された関係項目に記述されている関係名が含まれるか否か、あるいは、この特定された関係項目に記述されている2つの単語が含まれるか否かを判断する。関係名処理部14は、番組関連テキストデータに、関係項目に記述されている関係名、あるいは、2つの単語が含まれていると判断した場合、主題となる単語と関係項目に記述されている関係名とにより表されるトピックを出力する。主題となる単語を主題A、特定された関係項目に記述されている関係名を関係名Bとした場合、トピックは、「(主題A)の(関係名B)」と表される。
【0020】
図2は、概念辞書記憶部11に記憶される概念辞書の例を示す図である。同図に示す概念辞書は、各行が2つの異なる単語間の関係を示しており、この1行分により示される1関係が関係項目に相当する。概念辞書は、例えば、「単語T1 [関係名] 単語T2」の形式により記述された複数の関係項目からなるタブ区切りテキストファイルである。「単語T1 [関係名] 単語T2」は、単語T1と単語T2が関係名で表される関係を持つことを表す。以下では、単語T1に相当する単語を「左欄に存在する単語」、単語T2に相当する単語を「右欄に存在する単語」と記載する。関係名が表す2単語間の関係には、上位下位概念だけでなく、原因結果、治療法、予防法、材料、有益なども含まれる。
【0021】
図3は、トピック抽出装置1のトピック抽出処理を示すフローチャートである。まず、トピック抽出装置1の主題抽出部12に、番組サブタイトルと番組概要文を含む番組関連テキストデータが入力される。主題抽出部12は、後述する
図4に示す主題抽出処理により、番組関連テキストデータから主題となる単語を抽出する(ステップS110)。抽出された主題となる単語を「主題A」と記載する。
【0022】
関連項目抽出部13は、概念辞書記憶部11に記憶されている概念辞書を参照し、ステップS110において主題抽出部12が抽出したいずれかの主題Aが、左欄に存在する単語、あるいは、右欄に存在する単語と一致する関係項目を特定する。関連項目抽出部13は、特定した関係項目からなる関係リストを生成する(ステップS120)。
【0023】
関係名処理部14は、トピック「(主題A)の(関係名B)」における関係名Bを抽出する。具体的には、関係名処理部14は、ステップS120において生成された関係リストに含まれる関係項目それぞれについて、以下の処理を行う。すなわち、関係名処理部14は、関係項目から関係名を取得し、取得した関係名が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。関係名処理部14は、番組サブタイトルあるいは番組概要文に含まれると判断した関係名を、その関係名が得られた関係項目に単語T1または単語T2として含まれる主題Aの関係名Bとする(ステップS130)。
【0024】
さらに、関係名処理部14は、ステップS120において生成された関係リストに含まれる関係項目それぞれについて、以下の処理を行う。すなわち、関係名処理部14は、関係項目から右欄に存在する単語T1と、左欄に存在する単語T2とを取得し、取得した単語T1及び単語T2が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。単語T1または単語T2のいずれかは主題Aである。関係名処理部14は、単語T1及び単語T2の両方が番組サブタイトルあるいは番組概要文に含まれると判断した場合、単語T1及び単語T2が得られた関係項目に記述されている関係名を関係名Bとする(ステップS140)。
【0025】
関係名処理部14は、ステップS120において得られた主題Aと、その主題AについてステップS130、あるいはステップS140において得られた関係名Bとからなるトピック「(主題A)の(関係名B)」を出力する(ステップS150)。関係名処理部14は、トピックが複数得られた場合、全てのトピックを出力する。なお、関係名処理部14は、関係名Bが得られなかった主題Aについては出力しなくてもよい。例えば、関係名処理部14は、トピック抽出装置1とネットワークを介して接続されるコンピュータ装置(タブレット端末、スマートフォン、パーソナルコンピュータなど)やテレビジョン受像機にトピックを出力する。コンピュータ装置やテレビジョン受像機は、トピック抽出装置1から受信したトピックをディスプレイに表示する。あるいは、関係名処理部14は、トピック抽出装置1の内部または外部に備える記憶装置にトピックを出力して記憶させてもよく、トピック抽出装置1に備えられたディスプレイにトピックを表示させてもよい。
【0026】
複数のコンテンツの番組関連テキストデータが入力された場合、トピック抽出装置1は、
図3の処理を、各コンテンツの番組関連テキストデータ毎に行う。例えば、トピック抽出装置1は、電子番組表(EPG:Electronic Program Guide)入力を受けると、電子番組表に含まれる各番組の番組サブタイトルと番組概要文を番組関連テキストデータとして用い、各番組のトピックを抽出する。これにより、トピック抽出装置1は、例えば、主題が同じく「肺がん」である各番組のトピックとして、「肺がんの治療法」、「肺がんの予防法」、「肺がんの原因」などを抽出する。関係名処理部14は、同じ主題の番組の情報と、それらの番組について得られたトピックとをグルーピングして出力してもよい。番組の情報には、例えば、番組のタイトルや番組概要文など電子番組表に含まれる情報を用いることができる。トピック抽出装置1は、これらの番組について抽出したトピックにより、同じ主題「肺がん」に関する番組間がどのような関係でリンクされているかを、関係名「治療法」、「予防法」、「原因」を用いて提示することができる。
【0027】
なお、関係名処理部14は、ステップS130の処理と、ステップS140の処理のいずれかのみを行うようにしてもよい。
【0028】
図4は、主題抽出部12の主題抽出処理を示すフローチャートである。同図は、
図3のステップS110における詳細な処理を示す。
主題抽出部12は、番組関連テキストデータが示す番組サブタイトルを形態素解析する(ステップS210)。主題抽出部12は、ステップS210における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12は、品詞が名詞の単語を抽出する(ステップS220)。
【0029】
続いて、主題抽出部12は、番組関連テキストデータが示す番組概要文を形態素解析する(ステップS230)。主題抽出部12は、ステップS230における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12は、品詞が名詞の単語を抽出する(ステップS240)。
【0030】
主題抽出部12は、主題となる単語として、ステップS220において抽出した単語と、ステップS240において抽出した単語とに共通する単語を全て抽出する(ステップS250)。主題抽出部12は、抽出した単語である主題Aを関連項目抽出部13に出力する。
【0031】
なお、ステップS210、及びステップS230において、主題抽出部12は、形態素解析において品詞が特定できなかった単語である未知語を名詞とする。品詞が特定できない未知語は、固有名詞など主題を表す単語であることが多い。そこで、主題抽出部12は、未知語を名詞として扱うことで、形態素解析に用いる辞書データに未登録の固有名詞などについても主題として抽出できるようにする。
また、主題抽出部12は、ステップS210及びステップS220の処理と、ステップS230及びステップS240の処理のいずれを先に実行してもよく、並行して実行してもよい。
【0032】
[第2の実施形態]
第1の実施形態では、主題抽出処理を、単語の品詞を利用して行っていた。本実施形態では主題抽出処理を、語の重要度を利用して行う。以下では、第1の実施形態との差分を中心に記載する。
【0033】
図5は、本実施形態によるトピック抽出装置1aの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、
図1に示す第1の実施形態によるトピック抽出装置1と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置1aが、
図1に示す第1の実施形態のトピック抽出装置1と異なる点は、主題抽出部12に代えて主題抽出部12aを備える点である。主題抽出部12aは、番組関連テキストデータに含まれる単語の中からコンテンツの主題となる単語を語の重要度に基づいて抽出する。
【0034】
トピック抽出装置1aにおけるトピック抽出処理のフローチャートは、
図3に示す第1の実施形態と同様である。ただし、トピック抽出装置1aの主題抽出部12aは、ステップS110における主題抽出処理として、以下の
図6に示す処理を実行する。
【0035】
図6は、主題抽出部12aの主題抽出処理を示すフローチャートである。
主題抽出部12aは、番組関連テキストデータが示す番組サブタイトルを形態素解析する(ステップS310)。主題抽出部12aは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部12aは、ステップS310における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12aは、品詞が名詞の単語を抽出する(ステップS320)。
【0036】
続いて、主題抽出部12aは、番組関連テキストデータが示す番組概要文を形態素解析する(ステップS330)。主題抽出部12aは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部12aは、ステップS330における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12aは、品詞が名詞の単語を抽出する(ステップS340)。
【0037】
主題抽出部12aは、ステップS320において抽出した単語と、ステップS340において抽出した単語とのそれぞれについて、語の重要度を定量的に表すスコアを計算する(ステップS350)。このスコアには、例えば、tfidf値が用いられる。tfidf値の算出については、例えば、「”ウィキペディア tf-idf”、ウィキメディア財団、[online]、インターネット〈http://ja.wikipedia.org/wiki/Tf-idf>」に説明されている。具体的には、DN個の文書からなる文書群がある場合、ある文書dに単語iが出現する頻度をTF(i)、文書群の中でその単語iが含まれている文書数をDF(i)とする。文書dにおける単語iのtfidf値は、TF(i)×log(DN/DF(i))により算出される。主題抽出部12aは、番組関連テキストデータの集合を文書群、ステップS110において入力された番組関連テキストデータを文書dとし、ステップS320あるいはステップS340において抽出した各単語を単語iとしてtfidf値を計算する。
【0038】
主題抽出部12aは、ステップS350において計算したスコアが基準より良い単語を主題Aとして選択する(ステップS360)。例えば、主題抽出部12aは、所定のしきい値よりも良いスコアの単語を選択してもよく、スコア順に並べたときに所定順位以上の単語を選択してもよく、抽出された単語の中から所定割合の単語をスコアが上位のものから選択してもよい。
ステップS360において主題抽出部12aが単語を選択した後、トピック抽出装置1aは、
図3のステップS120からの処理を行う。
【0039】
つまり、関連項目抽出部13は、概念辞書を参照して、主題抽出部12aが抽出したいずれかの主題Aが、左欄に存在する単語、あるいは、右欄に存在する単語と一致する関係項目を特定し、特定した関係項目からなる関係リストを生成する(ステップS120)。関係名処理部14は、関係リストに含まれる各関係項目それぞれについて、関係項目内の関係名が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。関係名処理部14は、含まれると判断した関係名を、その関係名が得られた関係項目に単語T1または単語T2として含まれる主題Aの関係名Bとする(ステップS130)。
【0040】
さらに、関係名処理部14は、関係リストに含まれる各関係項目それぞれについて、関係項目内の単語T1及び単語T2が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。単語T1または単語T2のいずれかは主題Aである。関係名処理部14は、単語T1及び単語T2の両方が含まれると判断した場合、それら単語T1及び単語T2が得られた関係項目に記述されている関係名を関係名Bとする(ステップS140)。関係名処理部14は、ステップS120において得られた主題Aと、その主題AについてステップS130、あるいはステップS140において得られた関係名Bとからなるトピック「(主題A)の(関係名B)」を出力する(ステップS150)。
【0041】
なお、いずれの主題Aについても関係名Bが得られなかった場合、トピック抽出装置1aは、既に主題Aとして選択された単語の次にスコアが良い単語を新たに主題Aとして選択し、ステップS120からの処理を実行してもよい。例えば、
図6のステップS360において、主題抽出部12aは、最もスコアが高い単語を主題Aとして抽出する。トピック抽出装置1aは、最もスコアが高い単語について
図3のステップS120〜ステップS140の処理を実行する。ステップS130及びステップS140において関係名処理部14が関係名Bを取得できなかった場合、主題抽出部12aは、2番目にスコアが高い単語を主題Aとして抽出する。トピック抽出装置1aは、2番目にスコアが高い単語について
図3のステップS120〜ステップS140の処理を実行する。ステップS130またはステップS140において関係名Bを取得できた場合、関係名処理部14は、2番目にスコアが高い単語である主題Aと、その主題Aについて得られた関係名Bとからなるトピック「(主題A)の(関係名B)」を出力する。一方、ステップS130及びステップS140において関係名処理部14が関係名Bを取得できなかった場合、トピック抽出装置1aは、3番目にスコアが高い単語を主題Aとして
図3のステップS120〜ステップS140の処理を実行する。
【0042】
[第3の実施形態]
本実施形態では、コンテンツに関するテキストデータとして、ウェブサイトデータや電子図書データなどのコンテンツデータに含まれるテキストデータを用いる。以下では、第1の実施形態との差分を中心に記載する。
【0043】
図7は、本発明の第3の実施形態によるトピック抽出装置1bの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、
図1に示す第1の実施形態によるトピック抽出装置1と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置1bが、
図1に示す第1の実施形態のトピック抽出装置1と異なる点は、主題抽出部12に代えて主題抽出部12bを備える点、関係名処理部14に代えて関係名処理部14bを備える点である。
【0044】
主題抽出部12bは、コンテンツに関するテキストデータとして、ウェブサイトデータに含まれるテキストデータ、あるいは、電子図書データに含まれるテキストデータの入力を受ける。あるいは、主題抽出部12bは、ウェブサイトデータ、あるいは、電子図書データの入力を受け、入力されたウェブサイトデータ、あるいは、電子図書データからテキストデータを抽出してもよい。主題抽出部12bは、ウェブサイトデータまたは電子図書データのテキストデータに含まれる単語の中からコンテンツの主題となる単語を抽出する。
【0045】
関係名処理部14bは、ウェブサイトデータまたは電子図書データのテキストデータに、関連項目抽出部13により特定された関係項目に記述されている関係名、あるいは、この特定された関係項目に記述されている2つの単語が含まれているか否かを判断する。関係名処理部14bは、テキストデータに、関係項目に記述されている関係名、あるいは、2つの単語が含まれると判断した場合、主題となる単語と関係項目に記述されている関係名とにより表されるトピックを出力する。第1の実施形態と同様、主題となる単語を主題A、関係項目に含まれる関係名を関係名Bとした場合、トピックは、「(主題A)の(関係名B)」と表される。
【0046】
トピック抽出装置1bにおけるトピック抽出処理のフローチャートは、
図3に示す第1の実施形態と同様である。ただし、トピック抽出装置1bの主題抽出部12bは、ステップS110における主題抽出処理として、以下の
図8に示す処理を実行する。
【0047】
図8は、主題抽出部12bの主題抽出処理を示すフローチャートである。以下では、入力されたウェブサイトデータのテキストデータ、あるいは、電子図書データのテキストデータを、入力テキストデータと記載する。
主題抽出部12bは、入力テキストデータを形態素解析する(ステップS410)。主題抽出部12bは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部12bは、ステップS410における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部12bは、品詞が名詞の単語を抽出する(ステップS420)。
【0048】
主題抽出部12bは、ステップS420において抽出した単語のそれぞれについて、語の重要度を定量的に表すスコアを計算する(ステップS430)。このスコアには、例えば、tfidf値が用いられる。主題抽出部12bは、ステップS430において計算したスコアが基準より良い単語を主題Aとして選択する(ステップS440)。主題抽出部12bは、所定のしきい値よりも良いスコアの単語を選択してもよく、スコア順に並べたときに所定順位以上の単語を選択してもよく、スコアが上位から所定割合までの単語を選択してもよい。
【0049】
ステップS440において主題抽出部12bが単語を選択した後、トピック抽出装置1bは、
図3のステップS120からの処理を行う。
ただし、ステップS130において、関係名処理部14bは、入力テキストデータに、関係リストに含まれる関係項目から取得した関係名が含まれるか否かを判断する。関係名処理部14bは、入力テキストデータに含まれると判断した関係名を、その関係名が得られた関係項目に単語T1または単語T2として含まれる主題Aの関係名Bとする。
【0050】
また、ステップS140において、関係名処理部14bは、関係項目から右欄に存在する単語T1と、左欄に存在する単語T2とを取得し、取得した単語T1及び単語T2が入力テキストデータに含まれるか否かを判断する。関係名処理部14bは、単語T1及び単語T2の両方が入力テキストデータに含まれると判断した場合、単語T1及び単語T2が得られた関係項目に記述されている関係名を関係名Bとする。
【0051】
なお、トピック抽出装置1bは、ウェブサイトデータや電子図書データに限らず、ドキュメントのデータなど、テキストデータにより記述された文章を含むコンテンツデータであれば、トピックを抽出することができる。
【0052】
[第4の実施形態]
本実施形態では、上述した第1〜第3の実施形態において抽出されたコンテンツのトピックを利用して、コンテンツマップを提示する。コンテンツマップとは、主題同士の関係と、それら各主題をトピックの主題とするコンテンツとを表す画像である。以下では、第1の実施形態のトピック抽出装置1にコンテンツマップを提示する機能を追加した場合の例について説明する。
【0053】
図9は、本実施形態によるトピック抽出装置1cの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、
図1に示す第1の実施形態によるトピック抽出装置1と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置1cが、
図1に示す第1の実施形態のトピック抽出装置1と異なる点は、マップ生成部15をさらに備える点である。マップ生成部15は、関係名処理部14が各番組の番組関連テキストデータから抽出した各コンテンツのトピックが示す主題と関係名に基づいてコンテンツマップの画像データを生成し、出力する。
【0054】
図10は、トピック抽出装置1cが出力するコンテンツマップの例を示す図である。
トピック抽出装置1cに、複数の番組の番組関連テキストデータが入力される。番組関連テキストデータには、番組に関する情報が付加されているか、番組に関する情報と対応付けるための番組識別情報が付加されている。このような複数の番組の番組関連テキストデータとして、電子番組表を用いることができる。ここでは、番組に関する情報として、番組名と番組サブタイトルを用いた場合を例に説明する。
【0055】
トピック抽出装置1cは、
図3に示す第1の実施形態と同様のトピック抽出処理により、各番組の番組関連テキストデータそれぞれから番組のトピックを抽出する。マップ生成部15は、各番組のトピックから主題を抽出する。例えば、マップ生成部15は、主題「肩こり」、「頭痛」、「ヨガ」、「冷え症」、…などを抽出する。
【0056】
マップ生成部15は、抽出した主題を用いて、2つの主題からなる全ての組を生成する。マップ生成部15は、主題の組を1つずつ選択すると、概念辞書記憶部11に記憶されている概念辞書を参照し、選択した主題の組が、右欄に存在する単語と左欄に存在する単語との組に一致する関係項目があるか否かを判断する。マップ生成部15は、一致する関係項目があると判断した場合、その関係項目から関係名を読み出す。例えば、マップ生成部15は、主題「肩こり」と「頭痛」の組については、関係名「原因結果」を読み出す。また、マップ生成部15は、主題「肩こり」と「ヨガ」の組については、関係名「治療法」及び「予防法」を読み出す。
【0057】
マップ生成部15は、トピック抽出装置1cに備えられた入力装置、あるいは、トピック抽出装置1cとネットワークを介して接続されるコンピュータ装置やテレビジョン受像機から、選択された主題の入力を受ける。あるいは、マップ生成部15は、ユーザーが視聴のため、あるいは、コンテンツ検索のために選択した番組を特定する情報の入力を受け、入力された情報により特定される番組について抽出されたトピックの主題を、選択された主題としてもよい。マップ生成部15は、選択された主題と、選択された主題との関係名が読み出された他の主題とを表示対象とする。例えば、選択された主題が「肩こり」である場合、マップ生成部15は、選択された主題「肩こり」と、主題「肩こり」について関係名が読み出された他の主題「頭痛」、「ヨガ」、「冷え症」、…を表示対象とする。なお、マップ生成部15は、表示対象とした他の主題との関係名が選択されたさらに他の主題を表示対象とすることを所定回繰り返してもよい。
【0058】
マップ生成部15は、表示対象の主題と、表示対象の主題を表す画像G1、G2、G3、…(以下、総称して「画像G」と記載する。)とを対応付けて表示させるコンテンツマップの画像データを生成する。マップ生成部15は、選択された主題に対応する画像Gを中心に表示させる。さらに、マップ生成部15は、関係名が抽出された主題を表す画像G同士を結ぶ線L1、L2、…(以下、総称して「線L」と記載する。)と、線Lで結ばれた2つの画像Gが表す主題の組について読み出した関係名との表示を画像データに付加する。マップ生成部15は、同じ主題間で複数の関係名が読み出された場合は、その数だけ画像G間に線Lを表示させる。
【0059】
例えば、マップ生成部15は、主題「肩こり」の画像G1と、主題「頭痛」の画像G2をと結ぶ線L1には、主題「肩こり」と「頭痛」の組について読み出した関係名「原因結果」を対応付けて表示させる。また、マップ生成部15は、主題「肩こり」の画像G1と、主題「ヨガ」の画像G3をと結ぶ線L2、L3それぞれには、主題「肩こり」と「ヨガ」の組について読み出した関係名「治療法」、「予防法」を対応付けて表示させる。
【0060】
マップ生成部15は、表示対象の主題がトピックの主題となっている番組を特定すると、特定した番組の関連テキストデータに付加されている情報に基づいて、番組名と番組サブタイトルを取得する。マップ生成部15は、特定した各番組を表す画像H1、H2、…(以下、総称して「画像H」と記載する。)と、画像Hが表す番組の番組名及び番組サブタイトルとの表示を画像データに付加する。さらに、マップ生成部15は、画像Gと、画像Gが表す主題について特定された番組を表す画像Hとを結ぶ線M1、M2、…(以下、総称して「線M」と記載する。)の表示と、各線Mに対応した関係名の表示とを画像データに付加する。マップ生成部15は、1つの番組において複数のトピックが読み出された場合は、その数だけ画像Gと画像H間に線Mを表示させる。
【0061】
例えば、主題「肩こり」について番組C1、C2、C3…が特定され、番組C1のトピックが「肩こりの解消法」であり、番組C2のトピックが「肩こりの原因」、「肩こりの診断法」、「肩こりの症状」であったとする。また、主題「冷え症」と主題「漢方」について同じ番組C3が特定され、番組C3のトピックが「冷え症の利用法」、「漢方の紹介」であったとする。
【0062】
マップ生成部15は、主題「肩こり」の画像G1の周囲に番組C1、C2、…を表す画像H1、H2、…を表示させる。マップ生成部15は、画像H1と対応付けて番組C1の番組名「今日も健康」及び番組サブタイトル「冷え症『肩こり解消エクササイズ』」を表示させる。さらに、マップ生成部15は、画像G1と画像H1とを結ぶ線M1を表示させ、線M1に対応付けて番組C1の主題「肩こり」の関係名「解消法」を表示させる。
【0063】
また、マップ生成部15は、画像H2と対応付けて番組C2の番組名「今日も健康」及び番組サブタイトル「肩こり『原因を知ろう!』」を表示させる。さらに、マップ生成部15は、画像G1と画像H2とを結ぶ線M2、M3、M4を表示させ、線M2、M3、M4のそれぞれに対応付けて、番組C2の主題「肩こり」の関係名「原因」、「診断法」、「症状」を表示させる。
【0064】
また、マップ生成部15は、画像H3と対応付けて番組C3の番組名「今日も健康」及び番組サブタイトル「冷え症『漢方で改善』」を表示させる。さらに、マップ生成部15は、画像G4と画像H3とを結ぶ線M5、及び画像G5と画像H3を結ぶ線M6を表示させる。マップ生成部15は、線M5に対応付けて番組C3の主題「漢方」の関係名「紹介」を表示させ、線M6に対応付けて番組C3の主題「冷え症」の関係名「治療法」を表示させる。
【0065】
マップ生成部15は、生成した画像データを、トピック抽出装置1cに備えられたディスプレイに表示させる。あるいは、マップ生成部15は、トピック抽出装置1cとネットワークを介して接続されるコンピュータ装置やテレビジョン受像機に画像データを送信し、表示させる。そして、マップ生成部15が、画像データにより表示させたコンテンツマップにおいていずれかの画像Gが選択されたことを受信した場合、選択された画像Gが表す主題を選択された主題として再び上記の処理を行う。また、マップ生成部15が、画像データにより表示させたコンテンツマップにおいていずれかの画像Hが選択されたことを受信した場合、選択された画像Hが表す番組に関するさらなる情報を出力し、表示させる。番組に関するさらなる情報には、例えば、番組概要、番組の画像やサムネイルなどを用いることができる。マップ生成部15は、番組に関するさらなる情報を、電子番組表や、トピック抽出装置1cと接続されるデータベース装置等から読み出す。
【0066】
なお、マップ生成部15は、全ての主題を表示対象として予めコンテンツマップの画像データを生成しておいてもよい。マップ生成部15は、予め生成したコンテンツマップの画像データから、選択された主題を表す画像Gを中心とした所定範囲の画像データを抽出して出力し、表示させる。
【0067】
上記においては、第1の実施形態のトピック抽出装置1にコンテンツマップを提示する機能を追加した場合を説明したが、第2の実施形態のトピック抽出装置1aや第3の実施形態のトピック抽出装置1bにマップ生成部15を追加することにより、同様の機能を追加することができる。第3の実施形態のトピック抽出装置1bにマップ生成部15を備える場合、マップ生成部15は、番組名と番組サブタイトルに代えて、例えば電子書籍のタイトルや著者などをコンテンツマップに表示させてもよい。また、マップ生成部15は、トピック抽出装置1aまたはトピック抽出装置1bの関係名処理部14が抽出した各番組のトピックと、トピック抽出装置1bの関係名処理部14bが抽出したウェブサイトや電子書籍のトピックとを用いて、コンテンツマップを生成してもよい。
【0068】
以上説明した実施形態によれば、トピック抽出装置は、2つの単語の上位下位概念だけでなく、原因結果、治療法、予防法、材料、有益など、2単語の間の関係を表す概念辞書を利用して、コンテンツに関するテキストデータからトピックを推定する。これにより、トピック抽出装置は、コンテンツ間のリンクの把握に有用な情報を含んだトピックをユーザーに提供することができる。例えば、トピック抽出装置が、番組Pから「肺がんの治療法」というトピックを抽出し、番組Qから「肺がんの予防法」というトピックを抽出する。この場合、両番組は、共通した主題「肺がん」の話題であるという類似関係だけでなく、「肺がん」という主題に対する「治療法」と「予防法」という関係名によりリンクづけられる。また、トピック抽出装置によるトピックの抽出処理においては、ユーザーの検索履歴やアクセス情報などは不要である。
【0069】
上述したように、コンテンツ間をトピック抽出装置が抽出した各コンテンツのトピックによりリンク付けることができるため、類似したコンテンツに加え、より発展した内容のコンテンツの推薦を行うことも可能となる。例えば、トピック抽出装置が抽出したトピックの主題が同じコンテンツを選択し、選択したそれらのコンテンツのトピックの関係名同士が表す関係に基づいてコンテンツを推薦することも可能となる。あるいは、トピック抽出装置は、ユーザーが選択したコンテンツと、この選択されたコンテンツに任意のコンテンツ検索方法により関連すると判断された他のコンテンツとについてトピックを抽出し、提示する。ユーザーは提示された各コンテンツのトピックに含まれる関係名によってコンテンツ間の関係を把握し、類似した、あるいは、発展した内容のコンテンツを発見することができる。
【0070】
上述したトピック抽出装置1、1a、1b、1cは、内部にコンピュータシステムを有している。そして、トピック抽出装置1、1a、1b、1cの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0071】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。