特許第6584361号(P6584361)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧
特許6584361キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
<>
  • 特許6584361-キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム 図000002
  • 特許6584361-キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム 図000003
  • 特許6584361-キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム 図000004
  • 特許6584361-キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム 図000005
  • 特許6584361-キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6584361
(24)【登録日】2019年9月13日
(45)【発行日】2019年10月2日
(54)【発明の名称】キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20190919BHJP
   G06F 16/30 20190101ALI20190919BHJP
【FI】
   G06F17/27 695
   G06F16/30
【請求項の数】7
【全頁数】11
(21)【出願番号】特願2016-88358(P2016-88358)
(22)【出願日】2016年4月26日
(65)【公開番号】特開2017-199139(P2017-199139A)
(43)【公開日】2017年11月2日
【審査請求日】2019年2月25日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】苗村 昌秀
(72)【発明者】
【氏名】藤沢 寛
【審査官】 萩島 豪
(56)【参考文献】
【文献】 特開平10−171806(JP,A)
【文献】 国際公開第2013/115154(WO,A1)
【文献】 特開2005−327107(JP,A)
【文献】 特開平09−146950(JP,A)
【文献】 特開2007−188356(JP,A)
【文献】 米国特許出願公開第2010/0293195(US,A1)
【文献】 米国特許出願公開第2017/0154108(US,A1)
【文献】 苗村 昌秀 他1名,ウィキペディアデータを利用した意味的キーワード抽出方法,NHK技研R&D No.156,日本放送協会,2016年 3月15日,pp.55-62
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20 − 17/28
G06F 16/00 − 16/957
(57)【特許請求の範囲】
【請求項1】
第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得部と、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出部と、
前記関係行列から、前記抽出部により抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成部と、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出部と、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定部と、を備えるキーワード抽出装置。
【請求項2】
前記生成部は、順次入力される複数のテキストのそれぞれに対して、前記部分関係行列を生成した後、直前のテキストに基づいて生成された前記部分関係行列に所定の減衰係数を乗じた行列を足し合わせて調整する請求項1に記載のキーワード抽出装置。
【請求項3】
前記生成部は、一連のテキストの境界を判別し、当該境界の次に入力された最初のテキストに対して生成した前記部分関係行列を調整するための前記減衰係数をゼロにする請求項2に記載のキーワード抽出装置。
【請求項4】
前記関係行列は、ウェブサイトにおけるリンク構造に基づく、リンク元のキーワードとリンク先のキーワードとの関係を含む請求項1から請求項3のいずれかに記載のキーワード抽出装置。
【請求項5】
前記関係行列は、前記リンク元のキーワード及び前記第1のキーワードが対応付けられる確率を要素とする変換行列を乗ずることにより拡張されている請求項4に記載のキーワード抽出装置。
【請求項6】
第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータが実行するキーワード抽出方法。
【請求項7】
第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータに実行させるためのキーワード抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストからキーワードを抽出する装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、番組の字幕、又はツイッター(登録商標)などのテキストからキーワードを抽出する処理は、情報解析の過程で頻繁に行われている。例えば、入力されたテキストに形態素解析及び構文解析を施し、コーパスデータとのマッチング処理、又は対象文書について暗黙的あるいは明示的に定められたルールに従って所望の名詞部分を抽出する手法が採られている。
【0003】
ところが、抽出されたキーワードは、単なる文字列に過ぎず、意味的な内容をシステム的に判断することは難しかった。そこで、テキストから表層的に抽出された意味が一意に特定されていないキーワード(表層KW)から、意味を一意に特定できるキーワード(意味KW)に変換する処理(語義曖昧性解消処理)が行われる。通常の語義曖昧性解消処理では、表層KWと意味KWとの関係性と、表層KWが出現する文脈から抽出した特徴と意味KWとの関係性とを確率モデルを用いて統合的に計算し、表層KWに対する意味KWの信頼度合を求めて意味KWを特定する方法が採られている。このとき、表層KWと意味KWとの関係性を記述したコーパスデータが用いられる。
【0004】
例えば、特許文献1では、表層KWと意味KWとの関係を詳細に記述した言語辞書を用意し、文章単位で表層KWと意味KWとの共起確率を計算し、確率の大きさで意味KWを特定する処理を採用している。また、特許文献2では、表層KWと意味KWとの関係辞書とは別に、事前に意味KWの上位下位概念を記述したオントロジー辞書を用意し、関係辞書と複合的にオントロジー辞書を利用することにより、抽出範囲を拡大した語義曖昧性解消手法が提案されている。特許文献3では、表層KWと意味KWとの関係をガウシアンミクチャーモデルでモデル化した頑健な語義曖昧性解消手法が提案されている。
【0005】
また、ウィキペディアなどの半構造化データを用いた、見出し語を意味KWとするESA(Explicit Semantic Analysis)と呼ばれるコーパス(例えば、非特許文献1参照)、見出し語に関連させてコーパスを拡張させる技術(例えば、非特許文献2参照)が提案されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−117890号公報
【特許文献2】特許第5078173号公報
【特許文献3】特許第5734503号公報
【非特許文献】
【0007】
【非特許文献1】E. Gabrilovich, S. Markovitch,“Wikipedia−based Semantic Interpretation for Natural Language Processing,” Journal of Artificial Intelligence Research 34(2009) 443−498.
【非特許文献2】苗村昌秀,山内結子,“ウィキペディアデータを利用した意味的キーワード抽出手法,” 電子情報通信学会研究報告 NLC 言語理解とコミュニケーション, vol.114, no.211,NLC2014−31,2014,pp.63−68
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、語義曖昧性解消処理の結果は、利用するコーパスの内容に大きく依存する。しかしながら、テキストの文脈に応じたキーワードの重要度を適切に設定することは難しく、特に番組の字幕又はツイッターなどの自由文が入力となる場合、関係の薄いキーワードの影響を受けやすい。また、テキストの時間的な文脈の変化に動的に対応することは難しかった。
【0009】
本発明は、テキストから抽出したキーワードの語義曖昧性を解消できるキーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係るキーワード抽出装置は、第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得部と、入力されたテキストから複数の前記第1のキーワードを抽出する抽出部と、前記関係行列から、前記抽出部により抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成部と、前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出部と、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定部と、を備える。
【0011】
前記生成部は、順次入力される複数のテキストのそれぞれに対して、前記部分関係行列を生成した後、直前のテキストに基づいて生成された前記部分関係行列に所定の減衰係数を乗じた行列を足し合わせて調整してもよい。
【0012】
前記生成部は、一連のテキストの境界を判別し、当該境界の次に入力された最初のテキストに対して生成した前記部分関係行列を調整するための前記減衰係数をゼロにしてもよい。
【0013】
前記関係行列は、ウェブサイトにおけるリンク構造に基づく、リンク元のキーワードとリンク先のキーワードとの関係を含んでもよい。
【0014】
前記関係行列は、前記リンク元のキーワード及び前記第1のキーワードが対応付けられる確率を要素とする変換行列を乗ずることにより拡張されてもよい。
【0015】
本発明に係るキーワード抽出方法は、第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータが実行する。
【0016】
本発明に係るキーワード抽出プログラムは、第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータに実行させる。
【発明の効果】
【0017】
本発明によれば、テキストから抽出したキーワードの語義曖昧性が解消される。
【図面の簡単な説明】
【0018】
図1】実施形態に係る処理システムの機能構成を示すブロック図である。
図2】実施形態に係る関係行列を算出する行列演算を示す模式図である。
図3】実施形態に係る部分関係行列の生成手順を例示する模式図である。
図4】実施形態に係る意味KWの信頼度の算出手順を示す模式図である。
図5】実施形態に係る語義曖昧性解消処理の具体例を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態の一例について説明する。
本実施形態に係るキーワード抽出装置1は、記憶部及び制御部の他、通信部及び入出力デバイスなどの各種インタフェースを備えたサーバ装置又はPC(Personal Computer)などの情報処理装置(コンピュータ)である。
【0020】
キーワード抽出装置1は、記憶部に記憶された所定のソフトウェア(キーワード抽出プログラム)を制御部が実行することにより、本実施形態に係る各種機能を実現する。これにより、キーワード抽出装置1は、番組の字幕又はツイッターなどのテキストからキーワードを抽出する際に、抽出したキーワードの意味の曖昧性を解消する。
具体的には、キーワード抽出装置1は、テキストから抽出した表層KWに対して、事前に構築した大量のキーワード集合から意味を表す概念へのリンクを記述したコーパスデータ(概念リンクコーパス)を利用して、複数の意味KW候補それぞれの信頼度を計算する。キーワード抽出装置1は、この信頼度に基づいて、表層KWに対応する意味KWを特定する。
【0021】
図1は、本実施形態に係るキーワード抽出装置1を含む処理システムの機能構成を示すブロック図である。
キーワード抽出装置1は、概念リンクコーパスとして、後述の関係行列を格納した記憶装置2と接続されている。また、記憶装置2は、解析装置3と接続され、解析装置3により関係行列が構築される。
なお、本処理システムの構成は一例であり、キーワード抽出装置1は、記憶装置2及び解析装置3のいずれか一方又は両方を含む構成であってもよい。
【0022】
本実施形態のキーワード抽出方法では、事前に準備した大規模な概念リンクコーパス(関係行列)を利用して、入力テキストから抽出した表層KWに対して、語義曖昧性を解消した意味KWが特定される。キーワード抽出方法は、事前準備としてのコーパス構築処理と、このコーパスを利用して語義曖昧性を解消する意味KW抽出処理とに分けられる。
【0023】
解析装置3は、コーパス構築処理を担い、ウィキペディアなどの半構造化データを解析することにより、表層KW(第1のキーワード)と、この表層KWにより表現される1以上の対象(概念)それぞれを一意に示す意味KW(第2のキーワード)とが対応付けられる確率を要素とする関係行列を生成し、記憶装置2に格納する。
【0024】
概念リンクコーパスは、ウェブ空間に存在するオープンな半構造化データを利用して構築されてよい。解析装置3は、半構造化データの内容を分析して、出現するキーワードを表層KWとし、半構造化データで記述されている概念に結びつけることにより表層KWと意味KWとの関係付けを行う。例えば、ウィキペディアの場合、タイトルが意味KWに相当し、タイトル内に出現するタイトルに関係する複数のキーワードが表層KWに相当する。これにより、ページ内に記述されている意味KWのニックネーム又は略称などの言い換え語が表層KWとして登録される。
【0025】
ここで、概念リンクコーパスとしての関係行列の構築処理を例示する。
解析装置3は、まず、リンク先である見出し語(意味KW)と、リンク元である言い換え語(関係KW)との関連度合いを数値化した関係マトリクスを生成する。代表的な関係マトリクスとしては、非特許文献1で説明されているESAマトリクスがある。以後、この関係マトリクスにESAマトリクスを採用した例を説明するが、意味KWと関係KWとの関連度を記載したマトリクスであれば、他のマトリクスも関係マトリクスとして採用可能である。具体的には、ESAマトリクスを生成する解析装置3は、例えばウィキペディアなどのウェブサイトであれば、サイト内のリンク構造に基づいて、文書内に存在するリンク関係を表現する語句を抜き出す。リンク関係は、見出し語とこの見出し語の言い換え語との対になっている。さらに、解析装置3では、言い換え語の頻度情報に基づくTF−IDF値が計算され、この値に基づいて、意味KWと、関係KWとの関連度合いを要素としたESAマトリクスが生成される。
ここで、ESAマトリクスにおける各関係KWの行は、意味KW毎の確率分布として正規化されてよい。
【0026】
次に、解析装置3は、ESAマトリクスにおける関係KWを表層KWに拡張した関係行列(modESAマトリクス)を生成する。
(関係行列生成例1)
解析装置3は、見出し語と見出し語の内容説明とが対になっている表層−意味KWsコーパス辞書を作成し、ESAマトリクスに統合すなわち表層KWの行を追加し、関係KWと追加した表層KWとを合わせて新たな表層KWとする。
【0027】
具体的には、オープンデータであるウィキペディアの場合、解析装置3は、見出し語に対して、本文中に出現する言い換え語を抽出し、見出し語を意味KW、言い換え語を表層KWとする。
【0028】
ここで、言い換え語は、所定の記述ルールに基づいて抽出される。解析装置3は、例えば、説明冒頭パラグラフにおいて言い換え語が太字で表現されている、あるいは、インフォボックスで愛称又は別名の定義があるなど、言い換え語に対する各種の記述パターンを利用することにより複数の言い換え語を収集できる。
また、解析装置3は、言語解析処理で構文解析を行い、意味的に同等である箇所を同定して抜き出してもよい。
解析装置3は、このようにして収集した表層KWと意味KWとの対応関係を、対応付けの確からしさを表す確率値と共に表層−意味KWsコーパス辞書として準備する。
【0029】
(関係行列生成例2)
解析装置3は、ESAマトリクスにおける関係KWと関連する表層KWを抽出し、表層KW(第1のキーワード)と関係KWとの対応確率を要素とする変換行列Rmatを生成する。対応確率は、共起頻度又は表層KWの重要度などの指標に基づいて算出されてよい。
そして、解析装置3は、関係行列(modESAマトリクス)を、次の行列演算により算出する。
modESA=RMat*ESA
【0030】
図2は、本実施形態に係る関係行列を算出する行列演算を示す模式図である。
ESAマトリクスの行は関係KWに、列は意味KWに対応している。これに対して、RMatの行は表層KWに、列は関係KWに対応している。ESAマトリクスにRMatを乗ずることにより、ESAマトリクスの関係KWが表層KWに拡張されたmodESAマトリクスが生成される。
【0031】
以上の事前準備で生成されたmodESAマトリクスの一部を利用して、キーワード抽出装置1は、表層KWの語義曖昧性を解消して意味KWを特定する。
キーワード抽出装置1の制御部は、取得部11と、抽出部12と、生成部13と、算出部14と、特定部15とを備える。
【0032】
取得部11は、記憶装置2から関係行列(modESAマトリクス)を取得する。
抽出部12は、番組の字幕などの処理対象として入力されたテキストから、関係行列に登録されている複数の表層KWを抽出する。
【0033】
生成部13は、関係行列の全体から、抽出部12により抽出された表層KW(第1のキーワード)に対応する確率分布を含む部分関係行列(part−modESAマトリクス)を生成する。
【0034】
また、生成部13は、番組の字幕などのように順次入力される複数のテキストのそれぞれに対して部分関係行列を生成する。このとき、生成部13は、ある時点でのテキストに基づいて部分関係行列を生成した後、直前のテキストに基づいて生成された部分関係行列を、確率に所定の減衰係数を乗じることで減衰させた上で足しあわせて調整する。
ここで、生成部13は、一連のテキストの境界、例えば番組の切れ目を判別し、この境界の次に入力された最初のテキストに対して生成した部分関係行列を調整するための減衰係数をゼロとすることにより、過去の文脈の影響をリセットする。
【0035】
図3は、本実施形態に係る部分関係行列の生成手順を例示する模式図である。
(手順1)抽出部12は、入力テキストから表層KWを抽出する。なお、抽出手法には、例えば前述の非特許文献2の提案手法が採用可能である。
【0036】
(手順2)生成部13は、抽出した表層KWに対応した意味KW候補の確率分布をmodESAマトリクスから選択して、部分行列(A)を作成する。
【0037】
(手順3)生成部13は、過去の文脈に基づくpart−modESAマトリクスが反映された行列(C)を足しあわせ、現在までの複数のテキストに基づくpart−modESAマトリクス(B)を生成する。
なお、文脈の始まり(番組の始まり)では、行列(C)は存在せず、手順2で選択された部分行列(A)がそのままpart−modESAマトリクス(B)となる。
【0038】
(手順4)生成部13は、part−modESAマトリクス(B)に対して、所定の減衰係数αを乗じ、次の部分行列(A)を調整するための行列(C)を生成する。
手順1から4が繰り返されることにより、part−modESAマトリクス(B)が更新されていく。
【0039】
算出部14は、表層KW(第1のキーワード)に対応付けられている意味KW(第2のキーワード)の候補それぞれに対して、部分関係行列(part−modESAマトリクス)の要素(確率)を列毎に総和し、信頼度を算出する。
【0040】
特定部15は、算出された列(意味KWの候補)毎の信頼度に基づいて、テキストにより表現されている対象を示す、語義曖昧性を解消した意味KW(第2のキーワード)を特定する。
特定部15は、例えば、最も信頼度の高い意味KWを特定してよい。あるいは、信頼度の上位所定数が信頼度の値と共にソートされて出力されてもよい。
【0041】
図4は、本実施形態に係る意味KWの信頼度の算出手順を示す模式図である。
まず、算出部14は、テキストから抽出された表層KWに該当するpart−modESAマトリクスの行において、対応する意味KWの集合、すなわち所定以上の対応確率を有する意味KWの集合(W1,W2,W3)を特定する。
次に、算出部14は、特定された意味KW毎に、列方向にpart−modESAマトリクスの構成要素である確率の和計算を行う。
【0042】
図5は、本実施形態に係る語義曖昧性解消処理の具体例を示す図である。
この例では、入力字幕例から表層KWとして、「スターティングメンバー」、「×××国」、「選手」、「N村」、「F沢」が抽出されている。
これらの表層KWそれぞれについて、対応する関係行列の行(網掛け)が選択されている。
【0043】
ここで、表層KWの1つである「N村」について、意味KWを特定する場合、対応する行(S)において、所定以上の対応確率がある列、すなわち意味KWの候補(W1,W2,W3,W4)が選択される。
【0044】
これらの候補キーワードのそれぞれについて、列方向に全ての行の値を合計すると、行(S)以外の行の値が加味されることにより、文脈の中で最も関係する候補W1の信頼度が最も大きくなる。
このように、表層KW単独では複数の意味KWの候補が存在する場合にも、文脈の中に現れる他の表層KWと候補それぞれとの関わりが信頼度として反映され、語義曖昧性が解消される。
【0045】
本実施形態によれば、キーワード抽出装置1は、表層KWに対応する意味KWの候補それぞれについて、他の表層KWを含む複数のキーワードとの対応確率を合計することにより、意味KWそれぞれの信頼度を算出する。したがって、キーワード抽出装置1は、テキストから抽出した表層KWについて、他の表層KWとの関連性を加味して、高い精度で語義曖昧性を解消できる。
さらに、キーワード抽出装置1は、概念リンクコーパスとしての関係行列(modESAマトリクス)のうち一部の関係する表層KWに対応する行、及び関連する意味KWの候補のみを抽出して処理するので、演算対象のデータ量を削減して処理負荷を低減できる。
【0046】
これにより、テキストからキーワードを抽出する際に語義の曖昧性を解消した意味的に一意なキーワード抽出が実現できる。この結果、抽出したキーワードの意味的な概念を基にした情報ナビゲーションが可能となり、情報の検索又は推薦などのアプリケーションの性能向上が期待できる。
また、文章から意味的なキーワードが抽出されるので、コンテンツの内容に沿ったユーザインターフェースが実現できる。例えば、テレビ番組の視聴中に登場する選手又は場所などを不完全な字幕情報から特定できるので、視聴者は、興味のあるキーワードに関する情報を自然な形で取得できる。
【0047】
また、キーワード抽出装置1は、関係行列(modESAマトリクス)の要素を、過去の同じテーマを扱う文脈情報を減衰させた値で更新し、文脈依存の概念リンクコーパスを構築する。このように、キーワード抽出装置1は、現時点までに出現した文章を解析して獲得したキーワードの統計的分布に基づいて、概念リンクコーパスをダイナミックに更新するので、テキストの時間変化に動的に対応でき、処理時点で確率的に最適な表層KWと意味KWとの対応関係を導き出すことができる。
このとき、キーワード抽出装置1は、番組の切り替わりなど、一連のテキストの境界を判定するので、減衰係数を一旦ゼロにすることにより関係の薄い過去の文脈の影響を排除できる。
【0048】
また、キーワード抽出装置1は、表層KWと意味KWとを関連付けた概念リンクコーパスとして、ESAを活用し、効率的に語義曖昧性を解消できる。さらに、キーワード抽出装置1は、ESAの表層KWを統計的に含めるように拡張されたmodESAを利用することにより、文脈の特徴と意味KWとの関係性を明確にスコア化でき、頑健な語義曖昧性解消処理を実現できる。
さらに、概念リンクコーパスの要素となる、表層KWの拡張に際しては、既存の言語資源データから頻度特徴を分析することにより行われる。このとき、ESAの関係KWと表層KWとの関係性が定義された変換行列を用いることにより、利用する言語資源の性質に応じて効率的に関係行列が構築される。
【0049】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0050】
さらに、キーワード抽出装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0051】
ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
【0052】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0053】
1 キーワード抽出装置
2 記憶装置
3 解析装置
11 取得部
12 抽出部
13 生成部
14 算出部
15 特定部
図1
図2
図3
図4
図5