特許第6230190号(P6230190)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許6230190-重要語抽出装置、及びプログラム 図000002
  • 特許6230190-重要語抽出装置、及びプログラム 図000003
  • 特許6230190-重要語抽出装置、及びプログラム 図000004
  • 特許6230190-重要語抽出装置、及びプログラム 図000005
  • 特許6230190-重要語抽出装置、及びプログラム 図000006
  • 特許6230190-重要語抽出装置、及びプログラム 図000007
  • 特許6230190-重要語抽出装置、及びプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6230190
(24)【登録日】2017年10月27日
(45)【発行日】2017年11月15日
(54)【発明の名称】重要語抽出装置、及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20171106BHJP
   G06F 17/27 20060101ALI20171106BHJP
【FI】
   G06F17/30 220A
   G06F17/30 350C
   G06F17/30 170A
   G06F17/27 665
【請求項の数】2
【全頁数】14
(21)【出願番号】特願2014-2745(P2014-2745)
(22)【出願日】2014年1月9日
(65)【公開番号】特開2015-132899(P2015-132899A)
(43)【公開日】2015年7月23日
【審査請求日】2016年11月28日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【弁理士】
【氏名又は名称】高橋 詔男
(72)【発明者】
【氏名】宮▲崎▼ 太郎
(72)【発明者】
【氏名】山田 一郎
(72)【発明者】
【氏名】望月 菊佳
(72)【発明者】
【氏名】加藤 直人
(72)【発明者】
【氏名】田中 英輝
【審査官】 笠田 和宏
(56)【参考文献】
【文献】 特開2000−090110(JP,A)
【文献】 特開2011−165087(JP,A)
【文献】 特開2004−287781(JP,A)
【文献】 特開2010−128677(JP,A)
【文献】 特開平09−034905(JP,A)
【文献】 特開2005−222480(JP,A)
【文献】 特開2000−298673(JP,A)
【文献】 特開2005−346560(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
IPC G06F 17/20−17/30
(57)【特許請求の範囲】
【請求項1】
文章データから名詞の単語を抽出し、抽出した前記単語のうち前記文章データ中で隣接する単語を1つの複合名詞とする単語抽出部と、
前記単語抽出部が抽出した前記単語からなる単語ペアを作成する単語ペア作成部と、
前記単語ペア作成部が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算部と、
前記単語抽出部が抽出した前記単語それぞれをスコア算出対象とし、同一の前記単語が前記文書データ中に複数回出現する場合、スコア算出対象の前記単語の中から重複する単語については一つのみを残して削除し、削除の結果残ったスコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度の平均により算出する類似度集計部と、
前記類似度集計部が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出部が抽出した前記単語の中から重要語を選択する重要語選択部と、
を備え
前記類似度集計部は、前記単語抽出部が抽出した前記単語及び前記複合名詞をスコア算出対象とし、スコア算出対象の前記単語または前記複合名詞のスコアを、当該スコア算出対象の前記単語、または、当該スコア算出対象の前記複合名詞を構成するいずれかの単語と、他のスコア算出対象の前記単語または他のスコア算出対象の前記複合名詞を構成するいずれかの単語とからなる前記単語ペアそれぞれについて前記類似度計算部が計算した前記類似度に基づいて算出し、
前記重要語選択部は、前記類似度集計部が算出したスコアに基づいて前記単語及び前記複合名詞の中から重要語を選択する、
ことを特徴とする重要語抽出装置。
【請求項2】
コンピュータを、請求項1に記載の重要語抽出装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、重要語抽出装置、及びプログラムに関する。
【背景技術】
【0002】
文章内の重要な単語を抽出するタスクは重要である。例えば、長い文章中から取り出された重要な単語は、その文章のトピックが何であるかを推定したり、文章を自動要約する際の手がかりを推定したりする場合に使うことができる。
【0003】
文章中から重要単語を抽出するために従来から広く使われている手法では、TF−IDFやokapi BM25により得られた単語ごとの重み設定が用いられる。これらの手法は、「重要単語を抽出したい文章に多く出現し、かつ、他の文章にはあまり出現しない単語」に高い重みを与えるものであり、計算が単純であることや、ある程度の高い性能が得られることから広く利用されている。
【0004】
また、重要単語を抽出する技術には、ある期間内に現れた単語を集計して得られた出現頻度から「どれだけ汎用的につかわれたか」を表す汎用度を算出し、汎用度が低く、かつ、対象文章中に多く出現した単語を重要単語とするものもある(例えば、特許文献1参照)。重要単語を抽出する他の技術には、多くの発話に共通して現れる単語を手がかりとし、その単語から近い時間に高い頻度で使われる単語を重要単語とするものがある(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−70291号公報
【特許文献2】特開2011−248409号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
TF−IDFやokapi BM25では、文章中の出現回数のみに基づいて単語の重み設定を行っており、文脈や文章全体の意味を用いていない。従って、文脈に合致した重要語の抽出を行うことはできなかった。また、特許文献1の技術も、出現頻度のみを用いて重要語を抽出しており、文章や単語の意味を考慮していない。特許文献2の技術は、単純に出現回数のみを使うものではないが、やはり、文章や単語の意味を利用していない。
【0007】
本発明は、このような事情を考慮してなされたもので、文章から文脈に合致した重要語を抽出することができる重要語抽出装置、及びプログラムを提供する。
【課題を解決するための手段】
【0008】
本発明の一態様は、文章データから所定の品詞の単語を抽出する単語抽出部と、前記単語抽出部が抽出した前記単語からなる単語ペアを作成する単語ペア作成部と、前記単語ペア作成部が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算部と、前記単語抽出部が抽出した前記単語毎に、前記単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度に基づくスコアを算出する類似度集計部と、前記類似度集計部が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出部が抽出した前記単語の中から重要語を選択する重要語選択部と、を備えることを特徴とする重要語抽出装置である。
この発明によれば、重要語抽出装置は、文章データから所定の品詞の単語を抽出し、抽出した単語から作成した単語ペアそれぞれについて単語間の類似度を計算する。重要語抽出装置は、各単語のスコアを、その単語が含まれる単語ペアの類似度に基づいて算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、文章全体で使用されている他の単語との関連が高い単語を重要語として抽出するため、文脈や文章の意味を用いて重要語やトピックワードを抽出することができる。
【0009】
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、前記文章データから品詞が名詞の単語を抽出する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章データから名詞を抽出し、抽出した名詞のうち、文章中の他の名詞と関連が高い名詞を選択する。
これにより、重要語抽出装置は、トピックワードとしてわかりやすい単語を重要語として抽出することができる。
【0010】
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、前記文章データから品詞が名詞の単語を抽出し、抽出した前記単語のうち前記文章データ中で隣接する単語を1つの複合名詞とし、前記類似度集計部は、前記単語抽出部が抽出した前記単語及び前記複合名詞をスコア算出対象とし、スコア算出対象の前記単語または前記複合名詞のスコアを、当該スコア算出対象の前記単語、または、当該スコア算出対象の前記複合名詞を構成するいずれかの単語と、他のスコア算出対象の前記単語または他のスコア算出対象の前記複合名詞を構成するいずれかの単語とからなる前記単語ペアそれぞれについて前記類似度計算部が計算した前記類似度に基づいて算出し、前記重要語選択部は、前記類似度集計部が算出したスコアに基づいて前記単語及び前記複合名詞の中から重要語を選択する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章中から名詞の単語を抽出するとともに、連続する名詞からなる複合名詞を抽出する。重要語抽出装置は、抽出した単語及び複合名詞をスコア算出対象とし、スコア算出対象の単語または複合名詞それぞれのスコアを、当該スコア算出対象の単語、または、当該スコア算出対象の複合名詞を構成するいずれかの単語と、他のスコア算出対象の単語、または、他のスコア算出対象の複合名詞を構成するいずれかの単語とからなる単語ペアの類似度に基づいて算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、複合名詞についても重要語として抽出することができる。
【0011】
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、文章データから所定の品詞の単語を抽出し、抽出した前記単語を前記文章データにおける出現数に応じて含んだ単語群を作成し、前記単語ペア作成部は、前記単語抽出部が作成した前記単語群に含まれる前記単語を用いて単語ペアを作成し、前記類似度集計部は、前記単語抽出部が抽出した前記単語それぞれをスコア算出対象とし、スコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度の平均により算出する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章データから所定の品詞の単語を抽出し、抽出した単語を文章データにおける出現数に応じて含んだ単語群を作成し、この単語群に含まれる単語を用いて作成した単語ペアの類似度を計算する。重要語抽出装置は、各単語のスコアを、当該単語を含んだ単語ペアについて計算した類似度の平均により算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、文章に出現する回数が多い単語を重要語であると判断しやすくなる。
【0012】
本発明の一態様は、コンピュータを、文章データから所定の品詞の単語を抽出する単語抽出手段と、前記単語抽出手段が抽出した前記単語からなる単語ペアを作成する単語ペア作成手段と、前記単語ペア作成手段が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算手段と、前記単語抽出手段が抽出した前記単語それぞれをスコア算出対象とし、スコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算手段が計算した前記類似度に基づいて算出する類似度集計手段と、前記類似度集計手段が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出手段が抽出した前記単語の中から重要語を選択する重要語選択手段と、を具備する重要語抽出装置として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、文章から文脈に合致した重要語を抽出することができる。
【図面の簡単な説明】
【0014】
図1】本発明の第1の実施形態による重要語抽出装置の構成を示すブロック図である。
図2】同実施形態による重要語抽出装置の重要語抽出処理を示すフローチャートである。
図3】同実施形態による重要語抽出装置が算出した単語ペアの類似度の例を示す図である。
図4】第2の実施形態による重要語抽出装置の構成を示すブロック図である。
図5】同実施形態による重要語抽出装置の重要語抽出処理を示すフローチャートである。
図6】同実施形態による重要語抽出装置が算出した単語ペアの類似度の例を示す図である。
図7】第1の実施形態による重要語抽出装置のシミュレーション結果を示す図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
文章の中で重要な単語は、「文全体の内容」を代表する単語である。そこで、本実施形態の重要語抽出装置は、文章に出現する単語の中から、意味的中心に近い単語を選択する。意味的中心に近い単語を求めるために、本実施形態の重要語抽出装置は、重要語となりうる所定の品詞の単語全てを文章から抽出し、抽出した単語を組み合わせた2単語間の類似度を計算する。本実施形態の重要語抽出装置は、単語毎に類似度の平均を算出し、算出した類似度の平均の大小に基づいて、最も文全体の内容に近く、文章のトピックを表す単語を抽出する。
【0016】
[第1の実施形態]
図1は、本発明の第1の実施形態による重要語抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。重要語抽出装置1は、コンピュータ装置により実現され、同図に示すように、類似度データベース10、文入力部11、単語抽出部12、単語ペア作成部13、類似度計算部14、類似度集計部15、順位付け部16、重要語選択部17、及び出力部18を備えて構成される。
【0017】
類似度データベース10は、単語間の類似度を示す情報を記憶する。文入力部11は、重要語を抽出する対象となる文章データの入力を受ける。単語抽出部12は、文章データから所定の品詞の単語を抽出する。単語ペア作成部13は、単語抽出部12が抽出した単語の全ての組み合わせの単語ペアを作成する。類似度計算部14は、単語ペア作成部13が作成した単語ペアのそれぞれについて、単語ペアを構成する2つの単語間の類似度を計算する。類似度は、2単語間の類似の度合いを定量的に表す値である。類似度集計部15は、単語抽出部12が抽出した単語それぞれを、文章全体の他の単語との関連性を定量的に表すスコアの算出対象とする。類似度集計部15は、スコア算出対象の単語のスコアを、当該単語を含んだ単語ペアについて類似度計算部14が計算した類似度に基づいて算出する。順位付け部16は、単語抽出部12が抽出した単語を、類似度集計部15が算出したスコアの順に並べる。重要語選択部17は、順位付け部16が並べた単語から所定のルールに従って重要語を選択する。出力部18は、重要語選択部17が選択した重要語を出力する。
【0018】
図2は、重要語抽出装置1の重要語抽出処理を示すフローチャートである。
文入力部11は、重要語を抽出する対象となる文章データの入力を受ける(ステップS11)。文章データが示す文章は、1文の文章でもよく、複数の文からなる文章であってもよい。また、文章データが示す文章の長さも任意である。例えば、文章データが示す文章に、番組概要文など数百字程度の文章や、それよりも長いニュース原稿を用いることができる。
【0019】
単語抽出部12は、ステップS11において入力された文章データを、従来技術の形態素解析器により形態素解析する。従来技術の形態素解析器として、例えば、MeCabやChaSenなどを用いることができる。単語抽出部12は、形態素解析結果に基づき、文章データが示す文章から品詞が名詞の単語を抽出する(ステップS12)。名詞には、一般名詞(普通名詞や固有名詞)、接尾語、数詞などの分類があるが、単語抽出部12は、一般名詞のみ、一般名詞と所定の分類の名詞、あるいは、固有名詞を除く一般名詞を抽出してもよい。文章データに同一の名詞が複数回出現する場合、単語抽出部12は、出現数に応じてその単語を重複して抽出し、抽出した単語からなる単語群を作成する。文章データが「あすの天気です。あすは全国的に良い天気でしょう。」を示す場合、単語抽出部12は、抽出した名詞の単語「あす」、「天気」、「あす」、「全国」、「天気」からなる単語群を作成する。
【0020】
単語ペア作成部13は、単語抽出部12が作成した単語群中の単語を用いて、全ての組み合わせの単語ペアを作成する(ステップS13)。つまり、単語群が単語w、w、…、w(nは2以上の整数)からなる場合、単語ペア作成部13は、全ての組み合わせの単語ペア(w,w)を作成する(i≠j,iは1以上n以下の整数、jは1以上n以下の整数)。例えば上記の例のように、単語抽出部12が、単語「あす」、「天気」、「あす」、「全国」、「天気」からなる単語群を作成したとする。単語ペア作成部13は、単語ペア(あす,天気)、(あす,あす)、(あす,全国)、(あす,天気)、(天気,あす)、(天気,あす)、(天気,全国)、(天気,天気)、(あす,あす)、…を作成する。
【0021】
類似度計算部14は、単語ペア作成部13が作成した各単語ペアを構成する2つの単語間の類似度を計算する(ステップS14)。ここでは、類似度計算部14は、各単語ペアに含まれる2つの単語間の類似度を類似度データベース10から読み出す。
【0022】
本実施形態では、2つの単語間の類似度にJensen-Shannon Divergenceによる文脈類似度を用いる。文脈類似度は、「似たような文章に出現しやすい単語は類似している」という発想により、単語間の類似度を計算する手法である。単語Aと単語Bとの間の文脈類似度を求める場合、学習用のデータを用いて各単語が出現する文脈について確率分布を求めておき、単語Aと単語Bとの確率分布の異なり具合をJensen-Shannon Divergenceにより計算した結果をこれら単語間の類似度とする。この文脈類似度は、数値が0〜1の範囲を取り、数値が小さいほど類似した単語であることを表す。文脈類似度の詳細については、例えば、文献「風間 淳一、Stijn De Saeger、鳥澤 健太郎、村田 真樹、”係り受けの確率的クラスタリングを用いた大規模類似度リストの作成”、言語処理学会第15回年次大会、2009年、p.84−87」に記載されている。
【0023】
なお、類似度計算部14は、類似度データベース10として、インターネットによりアクセスされるウェブサイトを利用し得る。利用可能なウェブサイトの一例には、「情報通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/resources/nictmastar/li-resource-info/li-resource-outline.html>」がある。
【0024】
上記の文章データの場合、類似度計算部14は、例えば、(あす,天気)の類似度=0.804、(あす,あす)の類似度=0、(あす,全国)の類似度=0.965、(あす,天気)の類似度=0.804、…を得る。
【0025】
類似度集計部15は、類似度計算部14が計算した各単語ペアの類似度に基づいて各単語のスコアを集計する(ステップS15)。具体的には、類似度集計部15は、単語w(iは1以上n以下の整数)のスコアを、その単語と他の単語とからなる単語ペア(w,w)(j≠i,jは1以上n以下の整数)それぞれについて類似度計算部14が計算した類似度の平均により算出する。なお、文章中に同一の単語が複数回出現する場合、単語w〜単語wには同じ単語が含まれる。この場合、類似度集計部15は、単語w〜単語wの中から重複する単語については1つのみ残して削除し、削除の結果残った単語w〜単語wをそれぞれ単語wとしてスコアを算出すればよい。
【0026】
上記の文章データの場合、類似度集計部15は、単語「あす」のスコアを、(あす,天気)、(あす,あす)、(あす,全国)、(あす,天気)それぞれの類似度を平均して0.643と算出する。同様にして、類似度集計部15は、単語「天気」のスコアを0.646、単語「全国」のスコアを0.979と算出する。
【0027】
順位付け部16は、類似度集計部15が算出したスコアの順に、単語抽出部12が抽出した単語を並べる(ステップS16)。本実施形態では、類似度としてJensen-Shannon Divergenceによる文脈類似度を用いているため0に近いほど類似度が高い。類似度として、1からJensen-Shannon Divergenceによる文脈類似度を減算した値を用いてもよく、この場合は1に近いほど類似度が高い。
【0028】
重要語選択部17は、予め決定しておいたルールに従って順位付け部16が並べた単語から重要語を選択する(ステップS17)。重要語選択部17は、所定順位以上の単語を選択してもよく、スコアが所定よりも良い単語を選択してもよく、単語抽出部12が抽出した単語の中から所定割合の単語を順位が高い順に選択してもよい。例えば、重要語選択部17は、「スコアが上位5位までの単語」、「最も良いスコアから、その最も良いスコアの1.2倍の値のスコアまでの単語」を選択する。
【0029】
出力部18は、重要語選択部17が選択した重要語を出力する(ステップS18)。例えば、出力部18は、重要語抽出装置1に備えられたディスプレイ、または、重要語抽出装置1とネットワークを介して接続されるコンピュータ装置のディスプレイにスコアが良い順に重要語を表示させる。あるいは、出力部18は、重要語抽出装置1の内部または外部に備える記憶装置に文章データあるいは文章データの識別情報と、当該文章データから抽出した重要語及びそのスコアとを出力し、記憶させてもよい。
【0030】
重要語抽出装置1の具体的な処理例を示す。
文入力部11が、文章データ「山形市内の保育園で園児たちが臼と杵を使った昔ながらの餅つきを体験しました」の入力を受ける。本実施形態の重要語抽出装置1は、文章中の重要語の抽出に、文章中に出現する名詞間の類似度を用いる。そこで、単語抽出部12は、文章データから名詞の単語「山形」、「市内」、「保育園」、「園児」、「臼」、「杵」、「餅つき」、「体験」を抽出する。類似度計算部14は、これらの単語を用いて単語ペア作成部13が作成した各単語ペアの類似度を計算する。
【0031】
図3は、類似度計算部14が算出した各単語ペアの類似度を示す。同図において、単語ペア(w,w)のwが縦軸の単語、wが横軸の単語を表している。また、類似度に、Jensen-Shannon Divergenceで表した文脈類似度を用いている。
【0032】
類似度集計部15は、類似度計算部14が算出した各単語ペアの類似度を用い、単語ごとに他の単語との類似度の平均を求める。類似度の平均は、「山形」が0.961、「市内」が0.957、「保育園」が0.910、「園児」が0.928、「臼」が0.804、「杵」が0.827、「餅つき」が0.875、「体験」が0.932である。順位付け部16は、類似度の平均により表されるスコアが小さい順に単語を並べる。単語の順は、「臼」、「杵」、「餅つき」、「保育園」、「園児」、「体験」、「市内」、「山形」となる。重要語選択部17は、文章の中でトピックとなる重要語として、最上位から3つの単語「臼」、「杵」、「餅つき」を選択する。出力部18は、重要語選択部17が選択した重要語「臼」、「杵」、「餅つき」を出力する。
【0033】
なお、文章中に同一の単語が2回以上出現する場合は、単語抽出部12は、その出現数だけ同じ単語を抽出する。よって、図3の縦軸、及び横軸に、出現数に応じた数の単語が含まれることになる。同一単語間のJensen-Shannon Divergenceは0になるため、結果として類似度の平均値が小さくなる。よって、同一の単語が複数回出現すると、その単語の順位は高くなりやすくなる。
【0034】
上記実施形態において、類似度計算部14は、類似度に文脈類似度を用いているが、任意の他の類似度計算方法により2単語間の類似度を計算してもよい。例えば、統計的な単語の共起を利用した類似度計算方法などを用いることができる。しかし、一般的に、言い換えに使われる単語など、同じ意味の単語については文章中に共起することが少なく、共起を利用した類似度計算方法においては高い類似度が得られない場合もある。その点からは、文脈類似度を用いることが好ましい。
【0035】
[第2の実施形態]
上述した第1の実施形態では、各単語について2単語間の類似度に基づくスコアを算出しているため、1単語の単位でしか重要語を得ることはできない。そのため、「気象情報」のような複合名詞についてはスコアを算出することは困難である。そこで、本実施形態では、文章中の複合名詞についても重要語として抽出できるようにする。以下では、第2の実施形態を、第1の実施形態との差分を中心に説明する。
【0036】
図4は、本発明の第2の実施形態による重要語抽出装置2の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図1に示す第1の実施形態による重要語抽出装置1と同一の部分には同一の符号を付し、その説明を省略する。重要語抽出装置2は、コンピュータ装置により実現され、同図に示すように、類似度データベース10、文入力部11、単語抽出部22、単語ペア作成部13、類似度計算部14、類似度集計部25、順位付け部26、重要語選択部27、及び出力部18を備えて構成される。
【0037】
単語抽出部22は、文章データから名詞の単語を抽出する。さらに、単語抽出部22は、文章中で連続する名詞から複合名詞(名詞句)を作成する。その際、単語抽出部22は、複合名詞を構成する単語の情報も保持しておく。類似度集計部25は、類似度計算部14が計算した単語間の類似度に基づいて文章データから抽出された名詞及び複合名詞それぞれのスコアを算出する。順位付け部26は、文章データから抽出された名詞及び複合名詞を、類似度集計部25が算出したスコアの順に並べる。重要語選択部27は、順位付け部26が並べた名詞及び複合名詞から所定のルールに従って重要語を選択する。
【0038】
図5は、重要語抽出装置2の重要語抽出処理を示すフローチャートである。
文入力部11は、文章データの入力を受ける(ステップS21)。単語抽出部22は、入力された文章データを形態素解析して品詞が名詞の単語を抽出する(ステップS22)。例えば、単語抽出部22は、一般名詞のみ、一般名詞と所定の分類の名詞、あるいは、固有名詞を除く一般名詞を抽出する。文章データに同一の単語が複数回出現する場合、単語抽出部22は、出現数に応じてその単語を重複して抽出する。
【0039】
次に、単語抽出部22は、ステップS22における形態素解析結果に基づいて文章データが示す文章中で連続する名詞から複合名詞を作成する(ステップS23)。具体的には、単語抽出部22は、複数の一般名詞が連続する複合名詞や、一般名詞と接尾語や数詞が連続する複合名詞を作成する。文章データに同一の複合名詞が複数回出現する場合、単語抽出部22は、出現数に応じてその複合名詞を重複して作成する。単語抽出部22は、ステップS22で抽出した単語と、ステップS23で作成した複合名詞を構成する単語のうちステップS22で抽出されなかった単語とからなる単語群を作成する。さらに、単語抽出部22は、ステップS22において抽出した単語と、作成した複合名詞を併せて重要語候補とする。なお、単語抽出部22は、複合名詞を構成する単語のうち、文章中で単独では使用されない単語については重要語候補から除外する。
【0040】
例えば、文章データが「出汁の取り方を、料亭の料理人が伝授します。」を示す場合、ステップS22において、単語抽出部22は、一般名詞の単語「出汁」、「料亭」、「料理」、「伝授」を抽出する。また、ステップS22において、単語抽出部22は、連続する一般名詞「料理」と接尾語「人」とからなる複合名詞「料理人」を作成する。単語抽出部22は、ステップS22において抽出した単語「出汁」、「料亭」、「料理」、「伝授」と、ステップS23において作成した複合名詞「料理人」を構成する単語のうちステップS22で抽出されなかった単語「人」とからなる単語群を作成する。さらに、単語抽出部22は、ステップS22において抽出した単語と、作成した複合名詞を併せて重要語候補とする。ただし、ステップS22において抽出した単語「出汁」、「料亭」、「料理」、「伝授」のうち、複合名詞「料理人」を構成する単語「料理」については文章中で単独で使用されていない。そこで、単語抽出部22は、ステップS22において抽出した単語から「料理」を除いた単語「出汁」、「料亭」、「伝授」と、複合名詞「料理人」を重要語候補とする。
【0041】
単語ペア作成部13は、ステップS23において単語抽出部22が作成した単語群中の単語を用いて、全ての組み合わせの単語ペアを作成する(ステップS24)。類似度計算部14は、単語ペア作成部13が作成した各単語ペアを構成する2つの単語間の類似度を計算する(ステップS25)。
【0042】
類似度集計部25は、類似度計算部14が計算した各単語ペアの類似度に基づいて、各重要語候補のスコアを集計する(ステップS26)。重要語候補を、x,x,…,x(nは1以上の整数)としたときに、類似度集計部25は、各重要語候補x(iは1以上n以下の整数)のスコアを以下のように算出する。なお、文章中に同一の重要語候補が複数回出現する場合、重要語候補x〜重要語候補xには同じ単語または複合名詞が含まれる。この場合、類似度集計部25は、重要語候補x〜重要語候補xの中から重複する重要語候補については1つのみ残して削除し、削除の結果残った重要語候補x〜重要語候補xをそれぞれ重要語候補xとしてスコアを算出すればよい。
【0043】
類似度集計部25は、重要語候補xと他の重要語候補x(j≠i,jは1以上n以下の整数)それぞれとの類似度の平均によりスコアを算出する。重要語候補xまたは重要語候補xのいずれかまたは両方が複合名詞である場合、類似度集計部25は、重要語候補xを構成する単語と重要語候補xを構成する単語とからなる全ての組み合わせの単語ペアの類似度のうち、最もよい類似度を重要語候補xと重要語候補xの類似度とする。
【0044】
例えば、類似度集計部25は、重要語候補x「天気」と重要語候補x「大雨警報」の類似度を、単語ペア(天気,大雨)、(天気,警報)の類似度のうちよい方とする。また例えば、類似度集計部25は、重要語候補x「気象情報」と重要語候補x「雪」の類似度を、単語ペア(気象,雪)、(情報,雪)の類似度のうちよい方とする。また例えば、類似度集計部25は、重要語候補x「気象情報」と重要語候補x「大雨警報」の類似度を、単語ペア(気象,大雨)、(気象,警報)、(情報,大雨)、(情報,警報)の類似度のうち最もよい類似度とする。
【0045】
あるいは、類似度集計部25は、重要語候補xが複合名詞である場合、重要語候補xを構成する単語毎に、他の重要語候補xそれぞれとの類似度の平均を求める。類似度集計部25は、重要語候補xを構成する各単語について求めた類似度の平均のうち、最もよい値を重要語候補xのスコアとする。
【0046】
例えば、重要語候補xが「気象情報」であるとする。類似度集計部25は、重要語候補x「気象情報」を構成する単語「気象」と重要語候補xそれぞれとの類似度の平均を算出する。重要語候補xが1つの単語であれば、類似度集計部25は、単語「気象」と重要語候補xとから構成される単語ペアの類似度を、単語「気象」と重要語候補xの類似度とする。重要語候補xが複合名詞であれば、類似度集計部25は、単語「気象」と、重要語候補xを構成する各単語とから構成される単語ペアの類似度のうち、最も良い値を単語「気象」と重要語候補xの類似度とする。同様に、類似度集計部25は、重要語候補xを構成する他の単語「情報」と重要語候補xそれぞれとの類似度の平均を算出する。類似度集計部25は、単語「気象」と単語「情報」のそれぞれについて算出した類似度の平均のうち良い方を、重要語候補x「気象情報」のスコアとする。
【0047】
順位付け部26は、類似度集計部25が算出したスコアの順に、単語抽出部12が抽出した重要語候補を並べる(ステップS27)。重要語選択部27は、予め決定しておいたルールに従って順位付け部26が並べた重要語候補から重要語を選択する(ステップS28)。出力部18は、重要語選択部27が選択した重要語を出力する(ステップS29)。
【0048】
重要語抽出装置2の具体的な処理例を示す。
文入力部11が、文章データ「次はあすの気象情報です。」の入力を受ける。単語抽出部22は、単語「次」、「あす」、「気象」、「情報」を抽出する。単語抽出部22は、これらの単語の中から文章中で連続する「気象」と「情報」から1つの複合名詞「気象情報」を作成する。単語抽出部22は、文章データから抽出した単語「次」、「あす」、「気象」、「情報」からなる単語群を作成する。さらに、単語抽出部22は、単語群の中から、複合名詞「気象情報」と、文章データから抽出した単語のうち、複合名詞「気象情報」を構成し、かつ、文章中で単独では使われていない単語「気象」及び「情報」を除いた単語「次」、「あす」とを重要語候補とする。類似度計算部14は、単語群に含まれる単語を用いて単語ペア作成部13が作成した各単語ペアの類似度を計算する。
【0049】
図6は、類似度計算部14が計算した各単語ペアの類似度を示す。同図において、単語ペア作成部13が単語群に含まれる単語「次」、「あす」、「気象」、「情報」を用いて作成した単語ペアそれぞれについて、類似度計算部14が算出した文脈類似度を示している。なお、同図においては、同一の複合名詞を構成する単語ペアについては類似度を算出していない。
【0050】
類似度集計部25は、重要語候補「次」のスコアを、重要語候補「次」と重要語候補「あす」の類似度、及び、重要語候補「次」と重要語候補「気象情報」の類似度の平均により算出する。類似度集計部25は、重要語候補「次」と重要語候補「あす」の類似度を、類似度計算部14が算出した単語ペア(次,あす)の類似度「0.676」とする。類似度集計部25は、重要語候補「次」と重要語候補「気象情報」の類似度を、類似度計算部14が算出した単語ペア(次,気象)の類似度「0.965」と、単語ペア(次,情報)の類似度「0.875」のうち良い方とする。類似度集計部25は、重要語候補「次」のスコアを、重要語候補「次」と重要語候補「あす」の類似度「0.676」と、重要語候補「次」と重要語候補「気象情報」の類似度「0.875」の平均から「0.776」と算出する。
【0051】
また、類似度集計部25は、重要語候補「あす」のスコアを、重要語候補「あす」と重要語候補「次」の類似度、及び、重要語候補「あす」と重要語候補「気象情報」の類似度の平均により算出する。類似度集計部25は、重要語候補「あす」と重要語候補「次」の類似度を、類似度計算部14が算出した単語ペア(あす,次)の類似度「0.676」とする。類似度集計部25は、重要語候補「あす」と重要語候補「気象情報」の類似度を、類似度計算部14が算出した単語ペア(あす,気象)の類似度「0.918」と、単語ペア(あす,情報)の類似度「0.990」のうち良い方とする。類似度集計部25は、重要語候補「あす」のスコアを、重要語候補「あす」と重要語候補「次」の類似度「0.676」と、重要語候補「あす」と重要語候補「気象情報」の類似度「0.918」の平均から「0.797」と算出する。
【0052】
また、類似度集計部25は、重要語候補「気象情報」のスコアを、重要語候補「気象情報」と重要語候補「次」の類似度、及び、重要語候補「気象情報」と重要語候補「あす」の類似度の平均により算出する。類似度集計部25は、重要語候補「気象情報」と重要語候補「次」の類似度を、類似度計算部14が算出した単語ペア(気象,次)の類似度「0.965」と、単語ペア(情報,次)の類似度「0.875」のうち良い方とする。類似度集計部25は、重要語候補「気象情報」と重要語候補「あす」の類似度を、類似度計算部14が算出した単語ペア(気象,あす)の類似度「0.918」と、単語ペア(情報,あす)の類似度「0.990」のうち良い方とする。類似度集計部25は、重要語候補「気象情報」のスコアを、重要語候補「気象情報」と重要語候補「次」の類似度「0.875」と、重要語候補「気象情報」と重要語候補「あす」の類似度「0.918」の平均から「0.897」と算出する。
【0053】
あるいは、類似度集計部25は、重要語候補「気象情報」のスコアを、単語ペア(気象,次)の類似度及び(気象,あす)の類似度の平均と、単語ペア(情報,次)の類似度及び(情報,あす)の類似度の平均とのうち良い方としてもよい。類似度集計部25は、重要語候補「気象情報」を構成する単語「気象」の類似度の平均を、単語ペア(気象,次)の類似度「0.965」、及び、単語ペア(気象,あす)の類似度「0.918」の平均から「0.942」と算出する。また、類似度集計部25は、重要語候補「気象情報」を構成する単語「情報」の類似度の平均を、単語ペア(情報,次)の類似度「0.875」、及び、単語ペア(情報,あす)の類似度「0.990」の平均から「0.933」と算出する。類似度集計部25は、重要語候補「気象情報」のスコアを、単語「気象」の類似度の平均と、単語「情報」の類似度の平均とのうち良い方の「0.942」とする。
【0054】
順位付け部26は、類似度集計部25が算出したスコアに基づいて、重要語候補を「次」、「あす」、「気象情報」の順に並べる。重要語選択部27は、順位付け部26が並べた重要語候補から重要語を選択し、出力部18は、重要語選択部27が選択した重要語を出力する。
なお、上記においては、処理を説明するために短い文章のデータを入力したが、もう少し長い文章のデータを入力することで、抽出の精度は向上すると考えられる。
【0055】
図7は、第1の実施形態の重要語抽出装置1による評価実験結果を示す図である。評価実験においては、100番組それぞれの検索ワードと番組概要文とを示す文章データを評価データとして用いた。そして、各番組について3名の作業者が文章データからキーワードを5単語以内で抽出し、この3名の作業者それぞれが選んだキーワードの和集合を重要語の正解データとした。なお、検索ワードと同一の単語は評価の際に除外した。
同図では、重要語抽出装置1が抽出した上位n位の重要語と、従来技術のokapi BM25を用いて抽出した上位n位の重要語とが、正解データのキーワードに含まれる確率を示している。同図に示すように、特に上位で抽出される単語について、本実施形態の重要語抽出装置1により抽出された重要語が正解データに含まれる確率は従来技術よりも高く、良好な結果が得られた。
【0056】
以上説明した実施形態によれば、重要語抽出装置は、文章全体で使用されている他の名詞との関連が高い名詞を重要語として抽出する。文章中の他の名詞との関連が高い名詞とは、文章全体の意味をよく表している意味的中心の単語である。換言すれば、文章中の他の名詞との関連が高い名詞は、文章の流れの中にある意味内容とつながりが高く、文脈にあっている単語である。よって、重要語抽出装置は、単純な単語の出現頻度の確率的な統計ではなく、文章中の文脈や意味を用いて重要語やトピックワードを抽出することができる。例えば、番組検索を行う従来の装置において、ユーザが入力したキーワード等により検索した結果得られた番組の情報を提示する際に、本実施形態の重要語抽出装置が番組概要から抽出した重要語を併せて提示することが考えられる。この重要語の提示により、検索の結果得られた番組がどのような内容であるかをユーザにわかりやすく伝えることができる。また、以上説明した実施形態によれば、重要語抽出装置は、TF−IDFによる重み付けを行う場合とは異なり、類似したドメインの文書を大量に集める必要もない。
【0057】
上述のように、本実施形態の重要語抽出装置は、文章中で使用される単語の意味を用いて重要語を抽出するため、単語の出現頻度を用いた従来技術よりも高性能に、文脈に合致した重要語を抽出することができる。また、従来使用されているTF−IDFの場合は、似たようなスタイルの文章を集めて統計をとる必要があるが、本実施形態では、単語間の類似度を計算するための学習データがあればよく、検索のために「似たようなスタイルの文章を多く集める」という必要がない。
【0058】
上述した重要語抽出装置1、2は、内部にコンピュータシステムを有している。そして、重要語抽出装置1、2の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0059】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【符号の説明】
【0060】
1、2 重要語抽出装置
10 類似度データベース
11 入力部
12、22 単語抽出部
13 単語ペア作成部
14 類似度計算部
15、25 類似度集計部
16、26 順位付け部
17、27 重要語選択部
18 出力部
図1
図2
図3
図4
図5
図6
図7