特許5982174 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許5982174類似度算出装置、類似番組検索装置、およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5982174

(24)【登録日】2016年8月5日

(45)【発行日】2016年8月31日

(54)【発明の名称】類似度算出装置、類似番組検索装置、およびそのプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20160818BHJP

【ＦＩ】

G06F17/30 350C

G06F17/30 170A

G06F17/30 320D

【請求項の数】7

【全頁数】25

(21)【出願番号】特願2012-113602(P2012-113602)

(22)【出願日】2012年5月17日

(65)【公開番号】特開2013-239132(P2013-239132A)

(43)【公開日】2013年11月28日

【審査請求日】2015年4月1日

【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100064908

【弁理士】

【氏名又は名称】志賀正武

(74)【代理人】

【識別番号】100108578

【弁理士】

【氏名又は名称】高橋詔男

(72)【発明者】

【氏名】山田一郎

(72)【発明者】

【氏名】宮崎勝

(72)【発明者】

【氏名】田中英輝

(72)【発明者】

【氏名】古宮弘智

(72)【発明者】

【氏名】住吉英樹

【審査官】樋口龍弥

(56)【参考文献】

【文献】特開２００３−１０８５７９（ＪＰ，Ａ）

【文献】特開２０１０−２８７０２０（ＪＰ，Ａ）

【文献】特開２０１１−０４３９０８（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、
表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、
前記表現抽出部に入力される第１のテキストデータを元に前記表現増幅部から出力される第１の増幅後表現傾向情報と、前記表現抽出部に入力される第２のテキストデータを元に前記表現増幅部から出力される第２の増幅後表現傾向情報との間の関係に基づく、前記第１のテキストデータと前記第２のテキストデータとの間の類似度を算出する類似性算出部と、
を具備する類似度算出装置であって、
前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、
前記表現増幅部は、前記第１のテキストデータを元に増幅した前記第１の増幅後表現傾向情報に含まれる表現と、前記第２のテキストデータを元に増幅した前記第２の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第１のテキストデータに対応するノードと、前記第２のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、
前記類似性算出部は、前記関連性データに基づいて算出される前記第１のテキストデータと前記第２のテキストデータとの間の関連性の強さを、前記類似度として算出する、
ことを特徴とする類似度算出装置。

【請求項2】

前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第１のテキストデータに対応するノードから、前記第２のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、
ことを特徴とする請求項１に記載の類似度算出装置。

【請求項3】

前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第１のテキストデータに対応するノードから前記第２のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、
ことを特徴とする請求項１に記載の類似度算出装置。

【請求項4】

前記類似性算出部は、前記表現抽出部に入力される第１のテキストデータを元に前記表現増幅部から出力される第１の増幅後表現傾向情報と、前記表現抽出部に入力される第２のテキストデータを元に前記表現増幅部から出力される第２の増幅後表現傾向情報との間の類似度を算出するものであり、
前記第１の増幅後表現傾向情報は、前記第１のテキストデータに含まれる表現と、前記第１のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、
前記第２の増幅後表現傾向情報は、前記第２のテキストデータに含まれる表現と、前記第２のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、
ことを特徴とする請求項１に記載の類似度算出装置。

【請求項5】

前記表現増幅部は、抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備える
ことを特徴とする請求項４に記載の類似度算出装置。

【請求項6】

請求項１から５までのいずれか一項に記載の類似度算出装置を備え、
指定された番組に関する番組概要文テキストデータを前記第１のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第２のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、
ことを特徴とする類似番組検索装置。

【請求項7】

コンピューターを、請求項１から５までのいずれか一項に記載の類似度算出装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、自然言語処理に関する。特に、本発明は、テキスト間の類似性を算出する類似度算出装置に関する。

【背景技術】

【0002】

ある動画コンテンツ（放送番組等）に類似した他の動画コンテンツを探し出す際に、コンテンツに関する番組の概要文を用いて類似性を評価する技術が存在する。この技術の基礎となるのは、自然言語で書かれたテキスト間の類似性を客観的な数値で評価する手法である。例えば、特許文献１には、番組の概要文において使われている単語を抽出し、抽出された２つの単語集合の重複の度合いを指標として類似性を評価する技術が開示されている。なお、放送番組に関する概要文は、例えば、放送波で伝送されるＥＰＧ（電子番組表）のデータから取得することができる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１１−０４３９０８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１等に記載されている従来技術では、表層的な単語の出現状況のみによって類似性を評価していた。つまり、従来技術では、表層的に同じ表記の単語のみを一致していると判断し、類似しているものの表記が異なる単語は別の単語と判断されるため、類似性を正当に評価するのに充分ではない場合もあった。使われる単語にも揺れがある場合に類似性を正当に評価できないことがある。使われる単語に揺れがある場合がその典型であり、例えば「地震」と「震災」は類似した単語だが、これらの２つの単語は、表層としては別の単語として扱われていた。また、テレビ等の放送番組の概要文に関しても、その他の一般的なテキストに関しても、テキスト全体の長さが短い場合には、表層に出現する単語の量が不十分であり、またテキスト長が短いが故に統計的に単語の出現傾向の揺れが生じ易い。

【0005】

これらのため、表記の揺れなどにより、テキスト間の類似性を正当に評価できない場合があるという問題があった。

【0006】

本発明は、上記のような事情に鑑みて為されたものであり、テキスト長が短かったり、テキスト中に含まれる表記の揺れがあったりする場合（つまり、表層に出現する表現の傾向に偏りがある場合）にも、テキスト間の類似度を正当に評価することのできる類似度算出装置を提供する。また、そのような類似度算出装置を用いて特定の番組に類似する番組を、多数の番組から検索する類似番組検索装置を提供する。

【課題を解決するための手段】

【0007】

上記の課題を解決するため、本発明は、あらかじめ獲得した言語表現間の関係（ここでの関係とは、例えば、類似関係、因果関係、上位下位関係、属性関係など）を利用して、テキスト中の表現傾向を増幅する手段を用いる。また、増幅後の表現傾向同士を比較することにより、元のテキストの類似度を算出する手段を用いる。また、増幅後の表現傾向の精度を良くするために、元のテキストとの間の類似性が低い要素が増幅後の表現傾向に影響しないようにするためのフィルタリング手段を用いるようにしても良い。これらの手段を用いた複数の態様は、下記の通りである。

【0008】

［１］本発明の一態様による類似度算出装置は、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第１のテキストデータを元に前記表現増幅部から出力される第１の増幅後表現傾向情報と、前記表現抽出部に入力される第２のテキストデータを元に前記表現増幅部から出力される第２の増幅後表現傾向情報との間の関係に基づく、前記第１のテキストデータと前記第２のテキストデータとの間の類似度を算出する類似性算出部とを具備する。

【0009】

ここで、表現とは、原語による表現の要素である。表現とは、例えば、文字や、単語や、文節や、文字のＮグラム（Ｎ個の連鎖）や、単語のＮグラムなどである。
また、表現傾向情報とは、あるテキストデータ内でいかなる表現が出現する傾向があるかを表わすデータである。例えば、あるテキストデータ内に出現する表現をすべて列挙したデータは表現傾向情報である。また例えば、あるテキストデータ内に出現する表現ごとの出現頻度（回数）を表わすデータは表現傾向情報である。具体例としては、あるテキストデータ内に出現する単語をすべて抽出してコンマ「，」等で区切って列挙したデータは表現傾向情報である。
また、表現傾向情報を増幅するということは、次のようなデータの操作である。即ち、表現が出現する傾向を表わす情報の空間内で、元の表現傾向を維持したまま、あるいは元の表現傾向情報からのブレを所定範囲内に留めたまま、表現傾向情報に含まれる表現の種類を増やしたり表現の出現頻度の値を全体的に上げたりすることである。
上記の構成によれば、類似性算出部は、第１および第２の増幅後表現傾向情報の間の関係に基づく、前記第１のテキストデータと前記第２のテキストデータとの間の類似度を算出する。つまり、類似性算出部が算出する類似度として、元のテキストデータの短さや、表層に出現する表記の揺れの影響を排除した値を得ることができる。

【0010】

［２］また、本発明の一態様は、上記の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、前記表現増幅部は、前記第１のテキストデータを元に増幅した前記第１の増幅後表現傾向情報に含まれる表現と、前記第２のテキストデータを元に増幅した前記第２の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第１のテキストデータに対応するノードと、前記第２のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、前記類似性算出部は、前記関連性データに基づいて算出される前記第１のテキストデータと前記第２のテキストデータとの間の関連性の強さを、前記類似度として算出する、ことを特徴とする。

【0011】

この構成により、表現増幅部は、表現抽出部によって抽出された表現に関連する関連表現を抽出するとともに、その関連表現に関連する関連表現をも抽出する。言い換えれば、表現増幅部が、再帰的に関連情報を抽出するようにして良い。関連性データは、典型例としては、ノード間の関連の有無を表わすグラフ構造のデータとして表現される。関連性データにおいて、特定の２つのノード間の関連の有無は、当該２つのノード間のエッジの有無で表わされる。そして、上記の構成に基づき、一般には、第１のテキストデータを元に増幅した結果得られるノードと、第２のテキストデータを元に増幅した結果得られるノードとの間に、共通のノードが存在し得る。これは、第１のテキストデータに含まれる表現に関連する関連表現（多段階の関連の結果として得られる関連表現も含む）と、第１のテキストデータに含まれる表現に関連する関連表現（同様）とが、同一の表現になり得ることと同じことである。つまり、関連性データがグラフ構造で表わされる場合、第１のテキストデータに対応するノードと第２のテキストデータに対応するノードとが、０個以上のノードを介して連結される状態となる。また、第１および第２のテキストデータは、それぞれ複数の表現を含んで成るものであるので、一般に、第１のテキストデータに対応するノードと第２のテキストデータに対応するノードとは、複数のパスを経て連結される状態となり得る。そして、類似性算出部は、このような関連性データを元に、言い換えればグラフ構造におけるノード間の連結の態様に応じて、第１のテキストデータと第２のテキストデータとの間の関連性の強さを、類似度として算出する。

【0012】

［３］また、本発明の一態様は、上記［２］の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第１のテキストデータに対応するノードから、前記第２のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、ことを特徴とする。

【0013】

その一態様として、ノード間の関連性（遷移確率の値）を要素とする遷移行列を用いて、その関連性に基づくノード間のランダムな（言い換えれば、確率変数に基づく）遷移を複数回繰り返したときの、あるノードから他のノードへの遷移確率値を当該ノード間の関連性の強さとする。さらにその一態様として、上記のようなノード間の遷移を無限回繰り返したときの、あるノードから他のノードへの遷移確率の収束値を当該ノード間の関連性の強さとする。
また、第１のテキストデータに対応するノードから、第２のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、それぞれの関連度スコアの総和を、両テキストデータ間の類似度として算出することにより、良好な結果が得られる。

【0014】

［４］また、本発明の一態様は、上記［２］の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第１のテキストデータに対応するノードから前記第２のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、ことを特徴とする。

【0015】

この構成では、第１のテキストデータに対応するノードから第２のテキストデータに対応するノードまでの関連度スコアを、両テキストデータ間の類似度として算出する。この場合、類似度を算出するための計算量を少なく済ませることができる。

【0016】

［５］また、本発明の一態様は、上記［１］の類似度算出装置において、前記類似性算出部は、前記表現抽出部に入力される第１のテキストデータを元に前記表現増幅部から出力される第１の増幅後表現傾向情報と、前記表現抽出部に入力される第２のテキストデータを元に前記表現増幅部から出力される第２の増幅後表現傾向情報との間の類似度を算出するものであり、前記第１の増幅後表現傾向情報は、前記第１のテキストデータに含まれる表現と、前記第１のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、前記第２の増幅後表現傾向情報は、前記第２のテキストデータに含まれる表現と、前記第２のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、ことを特徴とする。

【0017】

この構成による類似度算出装置は、［１］に記した類似度算出装置の構成を前提とする。よって、関連表現抽出部は、「表現と前記表現に関連する関連表現との関係を用いて」関連表現を抽出する。表現増幅部は、抽出された関連表現によって表現傾向情報を増幅する。一態様としては、表現抽出部が抽出した表現傾向情報に、関連表現のリストを付加することによって、増幅後表現傾向情報とする。別の例としては、得られた関連表現のリストそのものを、増幅後表現傾向情報とする。

【0018】

［６］また、本発明の一態様は、上記［５］の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備えることを特徴とする。

【0019】

この構成により、関連表現フィルタリング部は、関連表現のうち、テキストデータとの間の関係が薄いものを除外する。これにより、関連表現を用いて増幅された増幅後表現傾向情報の精度がより高まる。一態様としては、関連表現フィルタリング部は、関連表現抽出部によって抽出された関連表現の各々が、当該関連表現との間で直接関係を有する表現以外の、元のテキストデータに含まれる表現との間での類似度が所定の閾値よりも高いか否かに応じて、その関連表現を除外するかどうかを決定する。

【0020】

［７］また、本発明の一態様による類似番組検索装置は、上記の類似度算出装置を備え、指定された番組に関する番組概要文テキストデータを前記第１のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第２のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、ことを特徴とする。

【0021】

［８］また、本発明の一態様は、コンピューターを、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第１のテキストデータを元に前記表現増幅部から出力される第１の増幅後表現傾向情報と、前記表現抽出部に入力される第２のテキストデータを元に前記表現増幅部から出力される第２の増幅後表現傾向情報との間の関係に基づく、前記第１のテキストデータと前記第２のテキストデータとの間の類似度を算出する類似性算出部と、を具備する類似度算出装置として機能させるプログラムである。

【発明の効果】

【0022】

本発明によれば、テキストデータが十分に長くない場合や、テキストデータの表層に出現する表現に偏りがある場合などにも、テキストデータ間の類似性を正当に評価できるようになる。また、そのような正当な評価を、放送番組等の概要文に適用することにより、番組間の類似性を正当に評価することができるようになる。そして、指定された番組に対する正当な類似度に基づいて、比較対象である他の番組を検索することができるようになる。

【図面の簡単な説明】

【0023】

【図1】本発明の第１の実施形態による類似番組検索装置の機能構成を示すブロック図である。

【図2】同実施形態による番組情報記憶部のデータ構成の例を示す概略図である。

【図3】同実施形態による類似番組検索装置の全体的な処理の手順を示したフローチャートである。

【図4】同実施形態による関連単語フィルタリング部が関連単語をフィルタリングする処理の手順を示すフローチャートである。

【図5】本発明の第２の実施形態による類似番組検索装置の構成を示すブロック図である。

【図6】同実施形態による関連グラフ構築部が構築するグラフのデータ例を示す概略図である。

【図7】同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法１」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。

【図8】同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法２」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。

【発明を実施するための形態】

【0024】

［第１の実施形態］
本発明の一実施形態について、以下で、図面を参照しながら説明する。
図１は、本実施形態による類似番組検索装置の機能構成を示すブロック図である。図示するように、類似番組検索装置２は、類似度算出装置１と、番組情報記憶部１１と、ランキング部１７と、検索結果出力部１８とを含んで構成される。また、類似度算出装置１は、文書読込部１２と、単語抽出部１３（表現抽出部）と、関連単語抽出部１４（関連表現抽出部）と、関連単語フィルタリング部１５（関連表現フィルタリング部）と、類似性算出部１６とを含んで構成される。なお、関連単語抽出部１４と、関連単語フィルタリング部１５とを合わせたものが、表現増幅部２５である。

【0025】

類似度算出装置１は、テキスト間の類似度を算出するものである。
番組情報記憶部１１は、放送等の番組に関する情報を記憶する。番組情報記憶部１１は、番組のコンテンツそのもののデータ（映像、音声等）と、その番組を説明した番組概要文のテキストデータとを記憶する。なお、番組情報記憶部１１やその他の情報記憶手段としては、磁気ディスク装置や半導体メモリなどを用いる。
文書読込部１２は、番組情報記憶部１１に記憶されている番組概要文のテキストを順次読み込む。

【0026】

単語抽出部１３は、テキストデータから単語（表現）を抽出することによって表現の種類の出現傾向を表わす表現傾向情報を求める。具体的には、単語抽出部１３は、文書読込部１２によって読み込まれた番組概要文のテキストの形態素解析処理を行い、番組概要文に含まれる単語（名詞や動詞等の表現）を抽出する。なお、単語抽出部１３が抽出した単語のリスト（例えば、コンマで区切られた単語を列挙したデータ）は、上記の表現傾向情報である。形態素解析処理は既存の技術を利用することにより、実行可能である。例えば、形態素解析器ＭｅＣａｂ（Yet Another Part-of-Speech and Morphological Analyzer）を利用できる（参考ＵＲＬ：http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html）。

【0027】

関連単語抽出部１４は、単語抽出部１３が抽出した単語のうちの名詞に対して、関連する単語（関連表現）の抽出を行なう。このために、関連単語抽出部１４は、予め単語間の関係を獲得して内部の記憶手段（不図示）に保持しておく。ここで、単語間の関係とは、類似関係や、因果関係や、上位下位関係や、属性関係や、あるものとその材料との関係や、ある場所とその場所の名物との関係などである。単語間の関係を予め獲得しておくためには、例えば、ウェブから得られるテキストなどを元として、単語間関係獲得ツールなどを利用する。単語間関係獲得ツール自体は既存技術を利用して実現できる。一例として、上位下位関係は、日本語で「ＸはＹである」あるいは「ＸはＹの一種である」などと言えるときにＸとＹとの間で成り立つ関係であり、この場合にＸは下位概念であり、Ｙは上位概念である。上位下位関係の単語を獲得するには、参考ＵＲＬ［http://alaginrc.nict.go.jp/hyponymy/］にも記載された手法を利用することができる。この手法では、インターネットを介して、ウェブ上の事典等からＸＭＬ（Extensible Markup Language）形式のデータを取得し、予め機械学習した結果を用いて、上位概念の単語と下位概念の単語とのペアを獲得する。この手法により数百万組の関係を獲得できる。また、意味的関係抽出ツールを利用して、因果関係や、場所と名物との関係や、音楽家と曲名との関係など、様々な意味的関係を獲得する。意味的関係抽出ツール自体は、参考ＵＲＬ［http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html］などにも記載されているように、既存技術を利用して獲得できる。なお、これらのツールを使わず、手作業で単語間の関係を獲得・蓄積して、関連単語抽出部１４で用いるようにしても良い。

【0028】

関連単語フィルタリング部１５は、関連単語抽出部１４が獲得した関連単語（名詞）のフィルタリングを行なう。言い換えれば、関連単語フィルタリング部１５は、関連単語抽出部１４によって抽出された関連単語のうち、番組概要文との間の類似性が所定の閾値未満（つまり、類似度が低い）である関連単語を除外する。即ち、関連単語フィルタリング部１５は、関連単語抽出部１４が獲得した関連単語のうち、元の番組概要文の文脈と関係のない関連単語を削除する。このフィルタリング処理の詳細については、後述する。

【0029】

つまり、関連単語抽出部１４と関連単語フィルタリング部１５とを含んでなる表現増幅部２５は、単語（表現）とその単語と関連単語（関連表現）との間の所定の関係（類似関係など）を用いて、単語抽出部１３によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。つまり、単語抽出部１３によって抽出された表現傾向情報を基とし、関連単語抽出部１４が抽出した関連単語のうち、関連単語フィルタリング部１５によって除外されなかった関連単語のリストを加えたものが、増幅後表現傾向情報である。

【0030】

類似性算出部１６は、番組概要文ｄ_０に関連して得られた関連単語フィルタリングの結果と、他の番組概要文ｄ_１からｄ_Mまでのそれぞれに関連して得られた関連単語フィルタリングの結果との間の類似性を計算する。類似性算出部１６が算出するこの類似性は、即ち、番組概要文ｄ_０と、番組概要文ｄ_１からｄ_Mまでのそれぞれとの間の類似性を表わす。

【0031】

ランキング部１７は、類似性算出部１６が算出した、番組概要文ｄ_０と、番組概要文ｄ_１からｄ_Mまでのそれぞれとの間の類似性に基づき、番組概要文ｄ_１からｄ_Mをランキングして出力する。このランキングは、即ち、それぞれの番組概要文ｄ_１からｄ_Mに対応する番組コンテンツのランキングである。

【0032】

検索結果出力部１８は、ランキング部１７が出力するランキング情報（ランキングされる個々の番組のスコア（類似度）も含む）を、指定された番組（番組概要文ｄ_０に対応）に類似する検索結果として出力する。ランキング部は、この検索結果を、テキストデータの形式やＨＴＭＬ（Hypertext Markup Language）データの形式で出力する。

【0033】

図２は、番組情報記憶部１１のデータ構成の例を示す概略図である。図示するように、番組情報記憶部１１は、表形式のデータ構造を有しており、番組概要文と番組コンテンツの各項目を備える。この表の１行が、１番組に相当する。番組概要文の項目は、番組内容等を表わすテキストデータを格納する。番組コンテンツの項目は、テレビ番組の場合の映像データや、ラジオ番組の場合の音声データ等を格納する。図示する例では、番組情報記憶部１１は、ｄ_０，ｄ_１，・・・，ｄ_Ｍの（Ｍ＋１）個の番組概要文を記憶している。

【0034】

次に、類似番組検索装置２の動作について説明する。
図３は、類似番組検索装置２の処理の手順を示したフローチャートである。以下、このフローチャートに沿って、説明する。

【0035】

まず、ステップＳ０１において、文書読込部１２は、番組情報記憶部１１に記憶されている番組概要文の中から、ユーザー等によって指定された一つの番組概要文（ｄ_０）を読み込む。ここで読み込まれる番組概要文の具体例は、下の表１に示す通りである。表１に示すように、番組概要文は、テキストデータであり、番組のタイトルおよびサブタイトルと、番組内容を説明する概要文とを含んでいる。

【0036】

【表1】

【0037】

次に、ステップＳ０２において、単語抽出部１３が、上記の番組概要文に含まれる単語を抽出する。この際、抽出対象の単語の品詞として、（１）名詞のみ、（２）名詞と動詞、（３）名詞と動詞と形容詞など、複数の組合せであっても良い。なお、助詞や助動詞等は、あまり文章の特徴を表わすものではないため、抽出対象に含めない場合が多い。ここでは、名詞のみを抽出した場合の単語リストを、下の表２に示す。

【0038】

【表2】

【0039】

次に、ステップＳ０３において、関連単語抽出部１４が、単語抽出部１３によって抽出された単語に関連する単語（関連単語）を抽出する。ここで、関連する単語とは、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係など、様々な関係を利用することができる。関連単語抽出部１４が関連単語を抽出する際には、一種類だけ（例えば上位下位関係だけ）に限定された関係を利用しても良いし、あるいは、複数種類の関係の組み合わせ（例えば、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係）を全て利用しても良い。表２に列挙された単語群に対して、全ての関係を利用して取り出した場合の関連単語の一部分の例を表３から表６までに示す。

【0040】

【表3】

【0041】

表３は、上位下位関係により抽出された関連単語のリストである。なお、表３では、「くさや菌」、「秘密」、「新島」、「干物」、「スタジオパーク」という単語に関連する関連単語の一部のみを示し、その他を省略している。

【0042】

【表4】

【0043】

表４は、因果関係により抽出された関連単語のリストである。なお、表４では、「塩」、「微生物」、「塩水」という単語に関連する関連単語の一部のみを示し、その他を省略している。

【0044】

【表5】

【0045】

表５は、あるものとその材料という関係により抽出された関連単語のリストである。なお、表５では、「魚」、「干物」、「塩」という単語に関連する関連単語の一部のみを示し、その他を省略している。

【0046】

【表6】

【0047】

表６は、場所とその場所の名物という関係により抽出された関連単語のリストである。なお、表５では、「東京」という単語に関連する関連単語の一部のみを示し、その他を省略している。

【0048】

次に、ステップＳ０４において、関連単語フィルタリング部１５が、関連単語抽出部１４によって抽出された関連単語について、元の番組概要文との関連性を評価することにより、その番組概要文における文脈とは関係のないものを除外する。このフィルタリング処理の詳細な手順については、後で別の図を参照しながら説明する。

【0049】

次のステップＳ０５からＳ０８までの処理は、それぞれ、既に述べたステップＳ０１からＳ０４までの処理と同様の処理である。但し、ステップＳ０１からＳ０４までの処理の対象が番組概要文ｄ_０であったのに対し、ステップＳ０５からＳ０８までの処理の対象は、ｄ_０以外、即ち、ｄ_１からｄ_Ｍまでのいずれかである。

【0050】

次のステップＳ０９において、類似性算出部１６は、番組概要文間の類似性を算出する。具体的には、類似性算出部１６は、指定された対象番組の番組概要文ｄ_０から単語抽出部１３によって抽出された単語のリストと、比較対象となる番組の番組概要文（ｄ_１からｄ_Ｍまでのいずれか）から単語抽出部１３によって抽出された単語のリストとを入力とする。また、類似性算出部１６は、番組概要文ｄ_０を元に抽出された関連単語フィルタリング結果と、比較対象となる番組の番組概要文（ｄ_１からｄ_Ｍまでのいずれか）を元に抽出された関連単語フィルタリング結果をも入力とする。そして、類似性算出部１６は、既存技術による手法を用いて、両方の単語集合の間の類似度を計算する。類似度の計算方法としては様々な手法を利用可能であるが、一例としては、単語の出現状況を表わす単語出現ベクトル間のコサイン類似度を計算する方法を利用できる。この方法の概要は次の通りである。即ち、ある文書を元に抽出される関連単語の種類数をＮ（Ｎは、例えば、数万から数十万程度の値）としたとき、そのうちの第ｉ番目（１≦ｉ≦Ｎ）の関連単語の出現頻度の値を要素とするＮ次元のベクトルを求める。ここで、出現頻度は、０か１のいずれかの値に限定しても良いし、関連単語のリストにおける出現回数をカウントした値としても良い。このように求めた２つのＮ次元ベクトルｖ_１とｖ_２の間のコサイン類似度は、次の式で算出される。なお、番組概要文ｄ_０を元に抽出された単語およびその関連単語（第１の増幅後表現傾向情報）がｖ_１に対応し、番組概要文ｄ_１〜ｄ_Mのいずれかを元に抽出された単語およびその関連単語（第２の増幅後表現傾向情報）がｖ_２に対応する。

【0051】

（コサイン類似度）＝（ｖ_１・ｖ_２）／（｜ｖ_１｜・｜ｖ_２｜）

【0052】

但し、上式において、分子における（ｖ_１・ｖ_２）は、両ベクトルの内積である。また、分母における｜ｖ_１｜と｜ｖ_２｜は、それぞれのベクトルのノルム（大きさ）である。

【0053】

そして、類似性算出部１６は、現在の比較対象番組に関して算出された類似度を、データベース（不図示）に格納する。

【0054】

ステップＳ１０において、類似番組検索装置２は、番組概要文ｄ_１〜ｄ_Ｍの全てについて、ステップＳ０５からＳ０９までの処理を終えたか同かを判定する。そして、終えていた場合（ステップＳ１０：ＹＥＳ）には次のステップＳ１１に進み、終えていなかった場合（ステップＳ１０：ＮＯ）には未処理の番組概要文を処理するためにステップＳ０５に戻る。

【0055】

ステップＳ１１に進んだ場合には、ランキング部１７が、類似性算出部１６によって算出された類似度に基づき、類似度の大きい順に番組概要文ｄ_１〜ｄ_Ｍをランキングする。これは、番組概要文ｄ_１〜ｄ_Ｍにそれぞれ対応する番組コンテンツをランキングすることと同じ意味を持つ。また、検索結果出力部１８は、ランキング部１７から出力された番組関連文ごとの類似度の情報およびランキングの情報に基づき、番組概要文をランキングした形式で出力する。検索結果出力部１８は、例えば、ＨＴＭＬ形式のランキングページを出力し、ユーザーがそのページから番組コンテンツデータにリンクをたどってアクセスできるようにする。

【0056】

図４は、関連単語フィルタリング部１５によるフィルタリング処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。

【0057】

まずステップＳ２１において、関連単語フィルタリング部１５は、関連単語抽出部１４によって抽出された関連単語の中から１つを選択する。
次にステップＳ２２において、関連単語フィルタリング部１５は、ステップＳ２１において選択した関連単語を、暫定的に、除外対象として設定する。
次にステップＳ２３において、関連単語フィルタリング部１５は、番組概要文内の単語のうち未処理のものを一つ選択する。但し、このとき、ステップＳ２１において直近で選択した関連単語に直接関連している番組概要文内の単語を除外する。言い換えれば、関連単語フィルタリング部１５は、単語抽出部１３が当該番組概要文から抽出した単語リストから、ステップＳ２１において直近で選択した関連単語に直接関連している単語を除外し、残りの単語の中の一つを選択する。

【0058】

次にステップＳ２４において、関連単語フィルタリング部１５は、ステップＳ２１で選択した関連単語と、ステップＳ２３で選択した番組概要文内の一単語との間の類似性が所定の閾値以上であるかどうかを判定する。両単語間の類似度が閾値以上である（即ち、類似している度合いが高い）場合（ステップＳ２４：ＹＥＳ）には次のステップＳ２５に進み、類似度が閾値未満である（即ち、類似している度合いが低い）場合（ステップＳ２４：ＮＯ）にはステップＳ２６に飛ぶ。

【0059】

ここでの単語間の類似性評価は、既存の分布類似度などの指標を利用できる。一例としては、実際のテキスト等における出現頻度に基づいて大量の種類の単語をクラスタリングし、そのクラスタリングの結果から、単語のクラスへの所属確率の分布を求める。そしてこの確率分布間の距離から単語間の類似度を計算することが出来る。例えば、係り受けに基づいた単語のクラスタリングについては、下記の文献を参考とすることができる。
参考文献：風間淳一，Stijn De Saeger，鳥澤健太郎，村田真樹，“係り受けの確率的クラスタリングを用いた大規模類似語リストの作成”，言語処理学会第15回年次大会，pp. 84-87，２００９年

【0060】

ステップＳ２５に進んだ場合、関連単語フィルタリング部１５は、ステップＳ２１において選択した関連単語を、除外対象から取り除く。
次にステップＳ２６において、関連単語フィルタリング部１５は、番組概要文内の全単語について、ステップＳ２３からＳ２５までの処理を終えたかどうかを判定する。番組概要文内の全単語の処理を終えた場合（ステップＳ２６：ＹＥＳ）には、次のステップＳ２７に進む。番組概要文内の全単語の処理をまだ終えていない場合（ステップＳ２６：ＮＯ）には、次の単語を処理するためにステップＳ２３に戻る。

【0061】

次にステップＳ２７において、関連単語フィルタリング部１５は、当該番組概要文に関して関連単語抽出部１４から出力された全ての関連単語について、ステップＳ２１からＳ２６までの処理を終えたかどうかを判定する。全ての関連単語についての処理を終えた場合（ステップＳ２７：ＹＥＳ）には、このフローチャート全体の処理を終了する。全ての関連単語についての処理を終えておらず、まだ関連単語が残っている場合（ステップＳ２７：ＮＯ）には、次の関連単語の処理のためにステップＳ２１に戻る。

【0062】

つまり、ステップＳ２１において選択した関連単語が、ステップＳ２３で選択される単語のうちの１個以上に関して、ステップＳ２４において類似度が所定閾値以上であると判定された場合には、その関連単語は、関連単語のリストからは除外されずに残る。逆に、ステップＳ２１において選択した関連単語が、ステップＳ２３で選択される単語のいずれとの間でも、所定閾値以上の類似度とはならない場合には、その関連単語は関連単語のリストから除外される。これにより、関連単語による増幅の際に、元の番組概要文の文脈に合わない関連単語が除外される。よって、類似性の算出の際の精度が上がる。

【0063】

一例として、表１で示した番組概要文に含まれる「秘密」という単語は、干物である「くさや」の独特の味がなぜ生じるかという興味を引くために「味の秘密」という表現において用いられている。一方で、表３では、この単語「秘密」との間で上位下位関係を有する単語がリストされている。単語「秘密」のうち、例えば「リリース作品」や「開局記念番組」という関連単語は、表１の番組概要文の中に含まれる「秘密」以外の単語との間では、定められた閾値以上の類似度を持たない。従って、関連単語フィルタリング部１５は、図４に示したフィルタリング処理の結果として、これら「リリース作品」や「開局記念番組」といった関連単語を除外する。つまり、除外された関連単語は、類似性算出部１６による番組概要文間の類似度の算出には用いられない。

【0064】

以上述べたように、類似番組検索装置２は、指定された番組に関する番組概要文テキストデータ（ｄ_０）を第１のテキストデータとして類似度算出装置１に入力するとともに、他の番組に関する番組概要文テキストデータ（ｄ_１〜ｄ_M）の各々を第２のテキストデータとして類似度算出装置１に入力する。そして、類似度算出装置１によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、

【0065】

［第２の実施形態］
次に、第２の実施形態について説明する。なお、前述した実施形態と共通する機能については、図面において同一の符号を付与する。また、前述した実施形態と共通する事項については説明を省略し、本実施形態に特有の事項を中心に説明する。
図５は、同実施形態による類似番組検索装置の構成を示すブロック図である。図示するように、類似番組検索装置１０２は、類似度算出装置１０１を含んで構成される。類似度算出装置１０１は、文書読込部１２と、単語抽出部１３と、関連単語抽出部１１４と、関連グラフ構築部１１９と、類似性算出部１１６とを含んで構成される。

【0066】

類似度算出装置１０１の特徴的な構成は、次の通りである。
第１の実施形態における関連単語抽出部１４は、単語抽出部１３によって抽出された単語に直接関連する関連単語のみを抽出していた。これに対して、本実施形態の関連単語抽出部１１４は、単語抽出部１３によって抽出された単語に直接関連する関連単語を抽出するだけではなく、それらの関連単語に関連する関連単語をも、関連単語として抽出する。つまり、関連単語抽出部１１４は、元の文書に含まれていた単語に対して複数の段階の関連を持つ関連単語をも抽出する。
また、本実施形態における関連グラフ構築部１１９は、単語抽出部１３によって抽出される単語と、関連単語抽出部１１４によって抽出される関連単語の、関連を表わすグラフ（関連性データ）を構築する。このグラフにおいて、ノードは抽出される個々の単語であり、エッジは単語間の関連（関係）である。このグラフの詳細については後述する。
また、第１の実施形態における類似性算出部１６は、表現増幅部２５によって出力された増幅後表現傾向情報（関連単語を含んだ単語のリスト）同士から、類似性を算出した。これに対して、本実施形態の類似性算出部１１６は、関連グラフ構築部１１９が構築したグラフに基づき、２つの文書間の類似性を算出する。この類似性の算出方法については後述する。

【0067】

図６は、関連グラフ構築部１１９が構築するグラフのデータ例を示す概略図である。図示するように、関連グラフ構築部１１９が生成するデータは、ノードと、ノード間を結ぶエッジによって構成される。

【0068】

ノードには３つの種類がある。第１の種類は、文書に対応するノードである。図中では、ｄ_０およびｄ_ｍと書かれたノードが、文書に対応するノードである。第２の種類は、文書に出現する単語に対応するノードである。図中では、ｎ_１，ｎ_２，ｎ_３，・・・，ｎ_ｉと書かれたノード、およびｎ_１´，ｎ_２´，ｎ_３´，・・・，ｎ_ｊ´と書かれたノードである。文書に対応するノードｄ_０からエッジによって結ばれているのは、その文書ｄ_０に出現する単語ｎ_１，ｎ_２，ｎ_３，・・・，ｎ_ｉのノードである。文書に対応するノードｄ_ｍからエッジによって結ばれているのは、その文書ｄ_ｍに出現する単語ｎ_１´，ｎ_２´，ｎ_３´，・・・，ｎ_ｊ´のノードである。第３の種類は、関連単語に対応するノードである。関連単語に対応するノードは、図中では丸印で示している。

【0069】

関連グラフ構築部１１９が構築するグラフのデータにおいて、文書に対応するノードと、その文書において出現する単語に対応するノードとの間には、両者を直接結ぶエッジが存在する。また、単語（関連単語も含む）と単語（関連単語も含む）の間では、両単語が関連する場合に、且つその場合にのみ、両者を直接結ぶエッジが存在する。なお、このエッジは、無向エッジである。言い換えれば、ある単語Ａが別の単語Ｂに関連するとき、逆に単語Ｂが単語Ａに関連する。単語Ａが単語Ｂに関連しないとき、単語Ｂは単語Ａに関連しない。

【0070】

例えば、文書ｄ_０の中に「生活習慣病」という単語が含まれており、文書ｄ_ｍの中に「たばこ」という単語が含まれている場合、関連単語抽出部１１４はこれらそれぞれの単語の関連単語を抽出する。そして、関連単語抽出部１１４が、単語間の関連性として「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」という関係を獲得すると、関連グラフ構築部１１９は、これらの単語のノードを順に結ぶエッジを生成する。つまり、「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」というエッジが生成される。このようにして、両文書間を連結するグラフが構築される。

【0071】

グラフを表わすデータの表現方法は様々であるが、一例としてはリレーショナルデータベースを用いる。第１のテーブルは、ノードＩＤ（主キー）と、ノード種別と、そのノードに対応する単語の、各列を含む。第１のテーブルでは、ノードごとに行が存在する。第２のテーブルは、エッジＩＤ（主キー）と、エッジ始端のノードＩＤと、エッジ終端のノードＩＤの、各列を含む。第２のテーブルでは、エッジごとに行が存在する。

【0072】

このようなグラフのデータを構築するため、次の処理を行う。即ち、ある文書のペア（例えば、文書ｄ_０とｄ_ｍ）が与えられ、単語抽出部１３がそれぞれの文書に含まれる単語を抽出すると、関連単語抽出部１１４は、単語抽出部１３が抽出した単語のうちの名詞に対して、関連する単語（関連表現）の抽出を行なう。関連単語抽出部１１４は、文書に含まれる単語に直接関連する関連単語だけではなく、関連単語に関連する関連単語をも抽出する。言い換えれば、関連単語抽出部１１４は、文書に含まれる単語に直接的または間接的に関連するすべての関連単語を抽出する。但し、設定等に応じて、関連の段階数に上限を設けて、その段階数の範囲内で関連する関連単語のみを関連単語抽出部１１４が抽出するようにしても良い。関連グラフ構築部１１９は、両文書のそれぞれの側からの関連単語を調べて、図６に示したグラフのデータを生成する。

【0073】

つまり、表現増幅部１２５は、表現と、前記表現に関連する関連表現との関係を用いて、単語抽出部１３（表現抽出部）によって抽出された表現に関連する関連表現を抽出することによって、単語抽出部１３によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。ここで、表現傾向情報は、単語抽出部１３が抽出した単語のリスト（図６において、「文書に出現する単語」として示されている単語）である。また、増幅後表現傾向情報は、図６において、関連単語をも含んだすべてのノードの情報である。
また、表現増幅部１２５は、第１のテキストデータ（ｄ_０に相当）を元に増幅した第１の増幅後表現傾向情報に含まれる表現と、第２のテキストデータ（ｄ_ｍに相当）を元に増幅した第２の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに第１のテキストデータに対応するノードと、第２のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わすグラフデータ（関連性データ）を生成するものである。
つまり、第１の実施形態における表現増幅部２５が一段階のみの関連性に基づいて表現傾向情報を増幅したのに対して、本実施形態の表現増幅部１２５は複数段階（段階数に特に上限を設けないこととしても良い）の関連性に基づいて表現傾向情報を増幅している。

【0074】

関連グラフ構築部１１９が生成したグラフを元に、類似性算出部１１６は、その２つの文書がどの程度強く連結されているかを評価することによって、２つの文書の類似性を算出する。その手順を以下に述べる。なお、類似性算出部１１６は、例えば、Green Measures（グリーン・メジャーズ）のアルゴリズムを利用する。Green Measuresのアルゴリズムに関する文献は、次の通りである。参考文献 Oliver Yann，Senellart Pierre，Finding Related Pages Using Green Measures: An Illustration with Wikipedia，Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence，pp.1427-1433，2007年．

【0075】

文書間の結びつきを表わすグラフが与えられたとき、あるノードから他のノードへ遷移する確率を行列Ｍで表現する。行列Ｍの行および列は、それぞれグラフ内のノードに対応する。そして、ノードｐに対応する行で且つノードｑに対応する列の行列要素は、ノードｐからノードｑへ遷移する確率の値である。この行列Ｍを用いて、下の式（１）でGreen Matrix（グリーン行列）を定義する。

【0076】

【数1】

【0077】

式（１）において、Ｍ^ｔは、ｔ回目のランダムウォークのステップにおける遷移行列を示す。つまり、行列Ｍ^ｔの、ノードｐに対応する行で且つノードｑに対応する列の要素は、ｔ回のランダムウォークの後に、ノードｐからノードｑへ遷移する確率の値である。また、Ｍ^∞は、ランダムウォークを無限回繰り返したときに収束する遷移行列の極限値である。式（１）で定義した行列Ｇの、ノードｐに対応する行で且つノードｑに対応する列の要素は、ノードｐがノードｑにどの程度関連するかを示す値である。ノード間の最終的な関連度スコアは、Green Matrixを利用して、下の式（２）により定義される。

【0078】

【数2】

【0079】

式（２）において、Ｇ_ｐｑは、行列において、ノードｐに対応する行で且つノードｑに対応する列の要素である。またν_ｑは、ベクトルνにおいて、ノードｑに対応する要素である。そのベクトルνは、均衡尺度（equilibrium measure）であり、任意のベクトルμを出発点として、無限回の遷移を繰り返したときに収束する先のベクトルである。つまりμＭ^∞＝νであり、νは、最終的にどのノードに遷移しやすいかを確率値として表わすベクトルである。そして、ｌｏｇ（１／ν_ｑ）は、補正のためのファクターである。つまり、ν_ｑの値は、任意のベクトルμから遷移を繰り返した後に収束する可能性の高さを表わす。よって、そのような可能性の高さに応じて、そのノードに関するスコアを補正する。０＜ν_ｑ＜１であるから、言うまでも無く、０＜ｌｏｇ（１／ν_ｑ）であり、また、ν_ｑの値が大きいほど、ｌｏｇ（１／ν_ｑ）の値は小さい。喩えるなら、このｌｏｇ（１／ν_ｑ）は、情報検索で用いられるｔｆ−ｉｄｆ（term frequency - inverse document frequency）値におけるｉｄｆ値と似た作用をする係数である。つまり、Ｓ^ｐ（ｑ）は、ノードｐからノードｑにどの程度遷移しやすいかを表わす値であり、ノードｐとノードｑとの関連性の強さを表わすものと見なせる。

【0080】

そして、上記の式（２）を利用して、類似性算出部１１６は、次に説明する、Ｓ_{ｄｉｒｅｃｔ}（ｄ_０，ｄ_ｍ）またはＳ_{ｒｅｌａｔｅｄ}（ｄ_０，ｄ_ｍ）のいずれかを用いて、文書ｄ_０とｄ_ｍとの間の類似度を算出する（１≦ｍ≦Ｍ）。

【0081】

［類似度算出手法１：ｄ_ｍに与えられる値のみを利用］
この手法では、グラフにおけるノードｄ_０，ｄ_ｍに関して、式（２）を直接用いることにより、２つの文書ｄ_０，ｄ_ｍの類似度Ｓ_{ｄｉｒｅｃｔ}（ｄ_０，ｄ_ｍ）を算出する。つまり、類似性算出部１１６は、下の式（３）により文書ｄ_０とｄ_ｍの間の類似度（つまり、文書のノードｄ_０とｄ_ｍの間の類似度）を算出する。

【0082】

【数3】

【0083】

なお、ノード間を結ぶエッジに与えられる重みは、次の通りである。即ち、文書のノードから単語のノードへのエッジについては下の式（４）で重みが与えられ、単語のノード相互間のエッジについては下の式（５）で重みが与えられる。

【0084】

【数4】

【0085】

【数5】

【0086】

なお、式（４）において、ｄ_ｍは文書のノード（０≦ｍ≦Ｍ）であり、ｎ_ｐは文書ｄ_ｍに出現する単語のノードである。また、ｔｆ（ｎ_ｐ）は、文書ｄ_ｍにおけるノードｎ_ｐに該当する単語の出現頻度であり、ｉｄｆ（ｎ_ｐ）は全文書におけるノードｎ_ｐに該当する単語の逆文書頻度である。

【0087】

また、式（５）において、Ｚ_ｎｐとしては、例えば、単語ノードｎ_ｐと他のノードとを結んでいるエッジの総数を用いる。あるいは、単語ノードｎ_ｐに関して総和が１となるように、適宜、エッジの重みｅ（ｎ_ｐ，ｎ_ｑ）を定めても良い。

【0088】

式（４）および式（５）で与えられるエッジの重みを、前出の行列Ｍの要素の値とする。但し、ノード同士がエッジで直接結ばれていない場合には、そのノード間に相当する行列要素の値は０である。

【0089】

つまり、この「手法１」では、類似性算出部１１６は、式（３）を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第１のテキストデータに対応するノードから第２のテキストデータに対応するノードまでの関連度スコアを、類似度として算出する。

【0090】

［類似度算出手法２：ｄ_０からｄ_ｍへのパス上の全ノードでの関連度スコアを利用］
この手法では、グラフにおけるノードｄ_０からｄ_ｍへのパス上にある全ノードに与えられた関連度スコアの値の合計を利用して、２つの文書ｄ_０，ｄ_ｍの類似度Ｓ_{ｒｅｌａｔｅｄ}（ｄ_０，ｄ_ｍ）を算出する。つまり、類似性算出部１１６は、下の式（６）により文書ｄ_０とｄ_ｍの間の類似度を算出する。

【0091】

【数6】

【0092】

式（６）において、ｖｅｒｔｅｘ（ｄ_０，ｄ_ｍ）は、ノードｄ_０からノードｄ_ｍへのパス上にあるすべてのノード（ノードｄ_ｍを含む）の集合である。なお、この「手法２」においても、「手法１」の場合と同様に、ノードを結ぶエッジの重みは、式（４）および式（５）で与えられる。また、エッジによって直接結ばれないノード間に相当する行列Ｍの要素の値は０である。

【0093】

つまり、この「手法２」では、類似性算出部１１６は、式（６）を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第１のテキストデータに対応するノードから、第２のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、関連度スコアの総和を、類似度として算出する。

【0094】

図７は、図６に示したグラフにおいて、手法１を用いてノードｄ_０とｄ_ｍとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法１では、類似性算出部１１６は、ノードｄ_０から、太線枠に含まれるノードｄ_ｍへの関連度スコアのみを用いて、ノードｄ_０とｄ_ｍとの間の類似度を算出する。
図８は、図６に示したグラフにおいて、手法２を用いてノードｄ_０とｄ_ｍとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法２では、類似性算出部１１６は、ノードｄ_０から、太線枠に含まれる全てのノードへの関連度スコアを用いて、ノードｄ_０とｄ_ｍとの間の類似度を算出する。
なお、類似度を算出する際に、手法１を用いるか、手法２を用いるかは、任意であり、適宜決めれば良い。

【0095】

なお、上述した実施形態における類似番組検索装置の全部または一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0096】

＜変形例＞
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、可能な組合せにおいて、下に列挙する複数の変形例を組み合わせて実施しても良い。

【0097】

変形例１：上記実施形態では、番組概要文から単語を抽出し、それらの単語の関連単語をさらに抽出して、番組概要文間の類似性を算出した。この変形例では、単語の代わりに、文節や、単語Ｎグラム（Ｎ個の単語の連鎖）や、文字Ｎグラム（Ｎ個の文字の連鎖）などといった言語による表現を用いて、上記実施形態と同様の計算を行なう。

【0098】

変形例２：上記実施形態では、番組概要文から抽出された単語の集合と、それらの単語の関連単語（但し、フィルタリング処理によって除外された関連単語を除く）の集合との、和集合を用いて、番組概要文間の類似性を算出した。この変形例では、番組概要文から直接抽出された単語の集合を用いず、関連単語（但し、フィルタリング処理によって除外された関連単語を除く）の集合（これもまた、増幅後表現傾向情報である）のみを用いて、番組概要文間の類似性を算出する。

【0099】

変形例３：上記実施形態では、類似番組検索装置２または１０２それぞれの内部に類似度算出装置１または１０１を設ける構成とした。この変形例では、類似度算出装置１または１０１のみの構成を実施する。なお、この類似度算出装置１または１０１に入力されるテキストデータは、番組の概要文に限らず、一般のテキストデータで良い。そのような場合にも、類似度算出装置１は、上記実施形態に記載した場合と同様の作用および効果を有する。

【0100】

変形例４：上記実施形態では、表現増幅部２５の一部として、関連単語フィルタリング部１５を設けた。この変形例では、関連単語フィルタリング部１５を設けず、フィルタリング処理を行なわない。つまり、関連単語抽出部１４が出力する関連単語をフィルタリングせずに、増幅後表現傾向情報に用いる。

【0101】

変形例５：第２の実施形態では、ノード間の関連性の強さを表わす尺度として、Green Measuresを用いたが、代わりに、ノード間の関連性の強さを表わす他の尺度を用いても良い。例えば、下記の参考文献に記載されているページランクのアルゴリズムを利用しても良い。参考文献 Sergey Brin，Lawrence Page，The Anatomy of a Large-Scale Hypertextual Web Search Engine，［URL http://infolab.stanford.edu/~backrub/google.html］，２０１２年５月１日ダウンロード

【0102】

変形例６：第２の実施形態では、文書ｄ_０から文書ｄ_ｍ（１≦ｍ≦Ｍ）への類似度を算出した。第２の実施形態で用いる方法では、類似度の定義からも明らかなように、ノードａからノードｂへの類似度と、ノードｂからノードａへの類似度とは、異なる値を取り得る。変形例６では、第２の実施形態による数式を用いて、但し方向のみを逆転させて、文書ｄ_ｍから文書ｄ_０への類似度を算出し、両文書間の類似度とする。さらに、両方向の類似度をそれぞれ計算してそれらの平均値または加重平均値を取っても良い。

【0103】

変形例７：第２の実施形態では、文書ノードから単語ノードへの重みとして、ｔｆ−ｉｄｆ値を用いた（式（４））。変形例７では、ｔｆ−ｉｄｆ値の代わりに、予め単語ごとに定義された重要度のスコア（あるいはそれらのスコアそれぞれをスコアの合計値で除してスケーリングした値）を、文書ノードから単語ノードへの重みとして用いる。

【0104】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【実施例1】

【0105】

第１の実施形態による類似番組検索装置２を実施し、ＮＨＫのテレビ番組に関する番組概要文を用いて、指定番組に対する、各比較対象番組の類似度の算出と、比較対象番組のランキングを行なった。

【0106】

指定番組のタイトルは「プラネットベービーズタンザニア彫刻の民の子育て」であり、その番組概要文（ｄ_０に相当）は、「東アフリカを代表する伝統芸術マコンデ彫刻の彫刻家の一家を取材。時代の変化を感じながらも伝統を守ろうとする彫刻の民の子育てを紹介します。」であった。

【0107】

８種類の比較対象番組の概要文の各々について、算出された類似度およびランキングは次の通りであった。なお、第５位に４つの番組の概要文がランキングされ、これらの類似度はいずれも０．００１であった。
ランキング１位。類似度は、０．３２１。番組タイトルは「新日曜美術館彫刻家・舟越桂」。この番組の概要文は、「現代に生きる人々の姿を彫り続けている彫刻家・舟越桂。従来の人物彫刻にはない独特の存在感を放つ舟越の彫刻は、見る人に、今にも語りかけてきそうな印象を与えます。誰もが胸の内に抱える喜びや悲しみ、そして不安。一人の人間として感じることを、舟越は彫刻に彫り込みます。舟越本人の登場を通して、彫刻家・舟越桂の世界をたどります。」である。
ランキング２位。類似度は、０．１４１。番組タイトルは「世界ふれあい街歩きラグーサ」。この番組の概要文は「ラグーサは新市街と旧市街が、谷を挟んで２つの山に広がっています。新市街の碁盤の目のように整った道沿いには、飾り窓や彫刻が美しい後期バロック様式の建物が並びます。旧市街イブラは、迷宮のように入り組んだ街です。人の顔の彫刻が支える不思議なベランダを眺めたり、バロック建築のサン・ジョルジョ大聖堂の鐘の音を聞いたりします。まるで中世にタイムスリップしたかような不思議な感覚を味わう街歩きです。」である。

【0108】

ランキング３位。類似度は、０．０９２。番組タイトルは「美の壺能面」。この番組の概要文は「一見、無表情でどこか恐ろしげな印象を受ける「能面」。しかし、よく見ると、角度によってその表情が多様に変化していくことが分かります。能面には喜怒哀楽を生み出すための彫刻の技や、奥深さを表現するための彩色法など、さまざまな匠（たくみ）の技が込められています。美術品にもまさる神秘性を放つ能面。６００年以上にわたって培われてきた能面づくりの技とその美しさを鑑賞するツボを紹介します。」である。
ランキング４位。類似度は、０．０３７。番組タイトルは「直伝和の極意第７回茶の湯裏千家」。この番組の概要文は「一服のお茶を仲立ちとして、亭主と客が心を通わせる「茶の湯」。４００年以上にわたる伝統を誇る“和”の趣味の代表選手のひとつだ。千利休の伝統を受け継ぐ三千家（表千家、裏千家、武者小路千家）のなかから、裏千家の“茶の湯の極意”に迫る９回シリーズ。第７回は、家庭で簡単に和菓子を作る方法について、伝える。」である。

【0109】

ランキング５位の第１番目。類似度は、０．００１。番組タイトルは「ＢＳ世界ドキュ前編石油支配ＯＰＥＣ５０年の闘い」。この番組の概要文は「前編は１９６０年のＯＰＥＣ結成の背景から、七大石油会社（メジャー）が握っていた“石油支配”をＯＰＥＣが、いかにして奪い取ったのかを探る。１９７３年１０月、ＯＰＥＣは石油の価格決定権を握り、世界最強のカルテルを形成し絶頂期を迎える。しかし急激な価格高騰は、世界にオイルショックを引き起こし、ＯＰＥＣのその後の運命を変えてしまう。」である。
ランキング５位の第２番目。類似度は、０．００１。番組タイトルは「アジアンスマイル四つ子ナースの物語韓国」。この番組の概要文は「２１年前、韓国インチョンの病院で誕生した四つ子の姉妹が、２０１０年の看護師国家試験にそろって合格。全員が生まれた病院で働き始めた。当時の韓国で、四つ子はきわめて例が少ないなかでの出産だった。４人の中でも小さく生まれたため、ただ１人集中治療室に入れられた三女ソル。新米ナースとして、新生児集中治療室で赤ちゃんの看護を担当することになった。生まれたばかりの小さな命を守ろうと奮闘する、ソルの日々に密着。」である。

【0110】

ランキング５位の第３番目。類似度は、０．００１。番組タイトルは「ハイビジョン特集日本人イヌイット親子三代」。この番組の概要文は「極北のグリーンランドに住みついた日本人、大島育雄さん（６３）。イヌイットとして生きる親子三代の狩猟の暮らしと孫の成長を、家族の目線で記録した貴重なビデオ日記。」である。
ランキング５位の第４番目。類似度は、０．００１。番組タイトルは「ニューヨークウエーブ砂漠に出現！巨大なアートの祭典」。この番組の概要文は「毎年夏、アメリカのネバダ州の砂漠に巨大なアート作品が出現する。野外で開かれる世界最大のアートの祭典「バーニングマン」だ。地上６メートルのタンポポなど、巨大なアート作品が２００点あまり。ダンスや音楽のパフォーマンスが、夜通し開かれる。５万人を超える参加者がテントで共同生活をしながら、最新のアートを楽しむ１週間。そんな不思議な世界に、番組リポーターのはなが潜入。砂漠で繰り広げられる、真夏の夢を追う。」である。

【実施例2】

【0111】

第２の実施形態による類似番組検索装置１０２を実施し、その評価実験を行なった。まず、２０１０年９月から２０１１年５月までに「ＮＨＫオンデマンド」（番組のオンデマンド配信サービス）に登録されていた２５，７６９番組から、以下の制約のもとで３５２番組をランダムにサンプルした。
制約１：番組タイトルが同じ番組は取り出さない（例えば、「ＮＨＫスペシャル」は１番組のみサンプル）。
制約２：関連番組を２番組以上持つ。

【0112】

次に、ＮＨＫオンデマンドで提示された３５２番組の関連番組を対象として、３名のアノテータにより、サンプルした番組とその関連番組との間での類似性をランキングする作業を行なった。各番組に関する関連番組はＯｋａｐｉ−ＢＭ２５の指標を利用した手法で抽出され、一つの番組に対して平均１０．４個の関連番組が提示されていた。上記３名のアノテータが付与したランキング結果は、その順位相関（Spearman’s rank correlation）の平均が０．５６５であった。これは、一定の一致度であったと解釈できる。最終的に３名のアノテータが付けた類似性のランクを平均し、平均ランクの昇順に類似すると判断したデータを基準として、このデータと、各々の手法によるランクとを比較することにより、評価を行なった。

【0113】

ベースライン手法：文書ｐに出現する単語ｎに対してｔｆ−ｉｄｆによる重みを与えて文書を単語のベクトルで表現する。２つの文書間の類似性を、これら２つの文書に対応するベクトル間のコサイン類似度により評価する。
第１の実施形態による手法：単語間関係を用いて文書に出現する単語を拡張（単語集合を増幅）し、増幅後の単語を要素とするベクトルで文書を表現する。２つの文書間の類似性を、これら２つの文書に対応するベクトル間のコサイン類似度により評価する。
第２の実施形態による「手法１」：図７に示した範囲のノードへの関連性スコアを用いて、文書間の類似性を評価する。
第２の実施形態による「手法２」：図８に示した範囲の全てのノードへの関連性スコアの総和を用いて、文書間の類似性を評価する。

【0114】

ランダムサンプルした３５２番組とその関連番組に対して、上記の各手法を適用して関連番組のリランキング処理を行ない、これらの結果と、アノテータにより生成した基準データとの相関を、Spearman’s rank correlationにより評価した。その結果、ベースライン手法の相関値は、０．３５０であった。第１の実施形態による手法の相関値は、０．３７１であった。第２の実施形態による「手法１」の相関値は、０．３５１であった。第２の実施形態による「手法２」の相関値は、０．４２５であった。実施形態による手法は、いずれも、ベースライン手法よりも、人手によるランキング結果に近い結果が得られた。特に、第２の実施形態による「手法２」で、良い結果が得られた。

【産業上の利用可能性】

【0115】

本発明は、一般的な自然言語処理において、テキスト同士の類似度を算出するために利用できる。また、インターネット等の通信を介して、テキストを用いた情報を提示するために利用できる。また、番組コンテンツの推薦のために利用できる。そのような番組推薦の技術を、番組のランキング処理や、放送等の受信装置や、ビデオオンデマンドのサービスなどに利用できる。

【符号の説明】

【0116】

１，１０１類似度算出装置
２，１０２類似番組検索装置
１１番組情報記憶部
１２文書読込部
１３単語抽出部（表現抽出部）
１４，１１４関連単語抽出部（関連表現抽出部）
１５関連単語フィルタリング部（関連表現フィルタリング部）
１６，１１６類似性算出部
１７ランキング部
１８検索結果出力部
２５，１２５表現増幅部
１１９関連グラフ構築部

【図1】