(58)【調査した分野】(Int.Cl.,DB名)
前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第2キーワードセットの重み、前記第2キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて第1キーワードセット内の各候補キーワードを再ソートする、請求項2に記載のキーワード抽出装置。
前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第2キーワードセットから削除し、この削除処理の施された前記第2キーワードセットから候補キーワードを抽出する、請求項2に記載のキーワード抽出装置。
前記ソーティング部は、前記第1キーワードセットの重み、前記第1キーワードセット内の各候補キーワードの重み、前記第3キーワードセットの重み、前記第3キーワードセット内の各候補キーワードの重みに基づいて、前記第1キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて前記第1キーワードセット内の各候補キーワードを再ソートする、請求項5に記載のキーワード抽出装置。
前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワードを前記第3キーワードセットから削除し、この削除処理の施された前記第3キーワードセットから候補キーワードを抽出する、請求項5に記載のキーワード抽出装置。
前記キーワード抽出部は、前記第1キーワードセットから抽出された候補キーワード、前記第2キーワードセットから抽出された候補キーワード、前記第3キーワードセットから抽出された候補キーワードをマージして目標キーワードを生成する、請求項8に記載のキーワード抽出装置。
【背景技術】
【0002】
キーワード抽出は自然言語処理分野に含まれる。キー抽出方法は大きく2タイプに分類される。つまり、教師あり学習と教師なし学習である。教師あり学習においては、キーワード抽出は分類問題とみなされ、学習データはマニュアル的にラベル付けされる必要がある。これは時間がかかり労力も過大となるため、インターネット時代には不向きとされる。科学技術の発展とインターネット人口の増加につれて、基本的には、教師あり学習はほとんど使われない。
【0003】
教師なし学習については、主に、次の3つのアルゴリズムが知られている。
【0004】
(1)TF-IDFベース及びTF-IDF変形ベースのアルゴリズム。この数式を以下に示す。
【0005】
ここで、ωはキーワードを示す。TF
ωは文書セット中のωの頻度を示す。D
setは文書セット中の文書番号を示す。DF
ωはωを含む文書番号を示す。(非特許文献1)
(2)チャートベースアルゴリズム。最も古典的アルゴリズムである、TextRankの数式を以下に示す。
【0006】
ここで、WS(V
i)はV
iのスコアを示す。In(V
i)はV
iの入次数を示す。Out(V
j)はV
iの出次数を示す。w
jiはw
jからw
iへのエッジの重みを示す。dは減衰係数を示す。(非特許文献2)
(3)区切り文字ベースアルゴリズム。
【0007】
先ず、文章を各セグメントに分割するための区切り文字リスト内の語を用いて、LA(Link Analysis)のようなアルゴリズムで全ての候補のスコアを得る。次に、以下の数式により全ての候補の最終スコアを得る。
【0008】
ここで、Score(ω)はキーワード候補の最終スコアを示す。TC(ω)
Ajは文書j内のωのスコアを示す。D
setは文書セット内の文書番号を示す。DF
ωはωを含む文書番号を示す。(非特許文献3)
上記アルゴリズム(1)のTF-IDFは「term frequency-inverse document frequency」の略字であり、これは文書セットやコーパス内の語の重要度を評価するための統計的アルゴリズムである。語の重要度は、それが文書中に出現する回数に比例して増加する。しかしながら、語の重要度は、文書セットやコーパス内の分布範囲に反比例して減少する。分布範囲は文書セットやコーパス内での語の分布度、つまりその語が何個の文書に現われるか、を示す。特に、TFは文書内の語出現頻度を示し、IDFは文書出現頻度の逆数を示す。文書セットやコーパス内では、ある語を含む文書数が少ないほど、その語のIDFが大きくなる。こうして、ある特定文書に高頻度で含まれるが、全ての文書セットやコーパスには低分布度で含まれる(例えば、1文書のみに含まれ他文書には含まれない)語について、TFとIDFの積を計算することで高い重みのTF-IDFが生成される。従ってTF-IDFは、共通語を取り出し(除去し)、キーワードを保持することができる。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、発明を実施するための実施形態について説明する。
【0015】
<単一文書からのキーワード抽出方法>
図1は本発明の1実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。
【0016】
図1に示す様に、先ずS130において、キー文が単一文書から第1キー文セット10として抽出される。本実施形態において、単一文書はどのような言語のどのようなタイプの文書であってもよく、本実施形態は限定されない。
【0017】
次に、本方法はS140へ進み、目標キーワードが第1キー文セット10から抽出される。
【0018】
本実施形態の上記方法によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の1部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。
【0019】
ここで例として、単一文書内に100個の文が存在し、合計で1000個の異なる単語を含み、この中に20個の目標キーワードが存在する、と仮定する。もしストップワードが除去されれば(ストップワードは全単語の30%を占めると仮定する)、残りの700個の単語は全て候補キーワードである。目標キーワードは700個の候補キーワードから選択される必要がある。もしこの文書内に40個のキー文が存在し、合計で400個の異なる単語を含むならば、ストップワードの除去後、残りの280個の単語が候補キーワードとなる。280個の候補キーワードから20個の目標キーワードを正しく選択する確率は、700個の候補キーワードから20個の目標キーワードを正しく選択する確率よりも大きいことが明白である。
【0020】
単一文書からのキーワード抽出方法について特に制限はない。例えば、キー文の抽出前に、
図2に示す様に、以降のステップを更に含んでもよい。
【0021】
S110において、単一文書のクラス(分類)を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。
【0022】
次にS120において、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。
【0023】
S110とS120に基づいて、S130において、同じクラスを有する単一文書内の文が該単一文書と共に抽出される。本実施形態において、クラスラベルが使われるため、同じクラスラベルを有する単一文書内の文が第1キー文セット10として抽出される。
【0024】
同じクラスを有する単一文書内の文がキー文として抽出されるため、該キー文はその文書の主たる意味を特徴付けることができる。従って、目標キーワードの抽出品質がより効率的に向上する。
【0025】
本実施形態において、望ましくは、キー文の抽出後、第1キー文セット10に基づくキーワードが再ソート(再分類)されて、目標キーワードが抽出される。以降の説明を
図3を参照して行う。
【0026】
図3に示す様に、S130の後、S311bにおいて、第1キー文セット10がスキャンされ、コーパス内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。同様に、S131cにおいて、第1キー文セット10がスキャンされ、ユーザ履歴文書(ユーザが過去に閲覧した文書の履歴)内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。
【0027】
次にS132bにおいて、類似度がプリセット閾値Xより大きい文がコーパスより第2キー文セット20として抽出される。同様に、S132cにおいて、類似度がプリセット閾値Yより大きい文がユーザ履歴文書より第3キー文セット30として抽出される。XとYは等しくセットされてもよいし、必要であれば異なっていてもよい。
【0028】
プリセットされたXとYにより、単一文書内のキー文に類似した、コーパスとユーザ履歴文書内の文が必要に応じて正確に取り出される。従って目標キーワードの抽出品質の向上に役立つ。
【0029】
次にS133aにおいて、対応する重み付き候補キーワードセット、つまり第1候補キーワードセット11が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第1キー文セット10から抽出される。同様に、S133bにおいて、(対応する重み付き)第2候補キーワードセット21が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第2キー文セット20から抽出される。S133cにおいて、(対応する重み付き)第3候補キーワードセット31が一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第3キー文セット30から抽出される。
【0030】
次にS134において、第1候補キーワードセット11が、第2候補キーワードセット21と第3候補キーワードセット31に基づいて再ソート(再分類)される。
【0031】
次に、本方法はS140に進み、目標キーワードが再ソート済の第1候補キーワードセット11から抽出される。
【0032】
以降、S134の再ソート方法を、線形補間方法を例として詳細に説明する。
【0033】
先ず、重みα,β,γを第1候補キーワードセット11、第2候補キーワードセット21、第3候補キーワードセット31に夫々割り当てる。Score(ω in 11)が第1候補キーワードセット11内の候補キーワードの重みを示すとする。Score(ω in 21)が第2候補キーワードセット21内の候補キーワードの重みを示すとする。Score(ω in 31)が第3候補キーワードセット31内の候補キーワードの重みを示すとする。以下の式(4)に基づいて、第1候補キーワードセット11内の各候補キーワードについて計算が行われる。
【0034】
Score(ω)=α* Score(ω in 11)+β* Score(ω in 21)+γ* Score(ω in 31) (4)
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
【0035】
単一文書内では内容が限定されており、目標キーワードを抽出するための補助情報は十分ではない。本実施形態においては、上述した様に、第2候補キーワードセット21と第3候補キーワードセット31に基づいて第1候補キーワードセット11内のキーワードが再ソートされる。更に、単一文書と関連するコーパス又はユーザ履歴文書内の情報に基づいて単一文書内のキーワードを調整する。従って、ソーティングにおける目標キーワードの位置を相対的に高めることができ、目標キーワードの抽出品質を更に向上できる。
【0036】
更に、再ソートが夫々の所定重みを用いて行われるため、コーパスやユーザ履歴文書内の情報が候補キーワードを正確に再ソートするためにより効率的に利用できる。従って、目標キーワードの抽出品質を向上できる。
【0037】
本実施形態において、望ましくは、再ソート後にキーワード抽出を行う。以降、この説明を
図4を参照して行う。
【0038】
第1候補キーワードセット11内の候補キーワードを再ソートした後、すなわちS134の後、
図4のS135において、N個の第1候補キーワードを第1候補キーワードセット11から抽出し、セット12とする。
【0039】
次にS136bにおいて、S135で抽出されたセット12に含まれる候補キーワードが第2候補キーワードセット21から削除される。同様にS136cにおいて、S135で抽出されたセット12に含まれる候補キーワードが第3候補キーワードセット31から削除される。
【0040】
次にS137bにおいて、M個の第1候補キーワードを第2候補キーワードセット21(削除を実行済)から抽出し、セット22とする。同様にS137cにおいて、V個の第1候補キーワードを第3候補キーワードセット31(削除を実行済)から抽出し、セット32とする。
【0041】
次にS138において、セット12、22、32をマージ(統合)することにより、最終の目標キーワードセットを得る。
【0042】
単一文書に含まれていないキーワードで、該単一文書の内容と関係の高いものが存在する場合がある。本実施形態においては、上記キーワードを省略しないために、望ましくは、コーパスやユーザ履歴文書内に含まれるキーワードで、該単一文書の内容と関係の高いものを抽出する。そして、該単一文書から抽出されたキーワードと共に最終のキーワードセットを形成する。このような方法で拡張処理することにより、キーワードの抽出品質が著しく向上する。
【0043】
上記実施形態においては、キーワードの再ソートやキーワード抽出を行うために、例として、コーパスとユーザ履歴文書を同時に用いるとして説明した。しかしながら、キーワードの再ソートやキーワード抽出を行うために、コーパスとユーザ履歴文書の1つのみを用いてもよい。
【0044】
更に、上記ステップの順序は固定されない。例えば、本実施形態においては、単一文書のクラスが同定された後(すなわちS110)、該単一文書内の文が分類される(すなわちS120)。しかしながら、本発明はこれに限定されない。単一文書内の文が分類された後、該単一文書のクラスを同定してもよい。
【0045】
<単一文書からのキーワード抽出装置>
同じ発明概念の下で、
図5及び
図6は、本発明の他の2実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。
【0046】
図5に示す様に、本実施形態に係る、単一文書からのキーワード抽出装置(以後、「キーワード抽出装置」と呼称する)100は、キー文抽出部103とキーワード抽出部104を含む。キー文抽出部103は、単一文書からキー文を第1キー文セット10として抽出する。キーワード抽出部104は、第1キー文セット10からキーワードを抽出する。
【0047】
本実施形態のキーワード抽出装置100によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の1部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。
【0048】
ここで例として、単一文書内に100個の文が存在し、合計で1000個の異なる単語を含み、この中に20個の目標キーワードが存在する、と仮定する。もしストップワードが除去されれば(ストップワードは全単語の30%を占めると仮定する)、残りの700個の単語は全て候補キーワードである。目標キーワードは700個の候補キーワードから選択される必要がある。もしこの文書内に40個のキー文が存在し、合計で400個の異なる単語を含むならば、ストップワードの除去後、残りの280個の単語が候補キーワードとなる。280個の候補キーワードから20個の目標キーワードを正しく選択する確率は、700個の候補キーワードから20個の目標キーワードを正しく選択する確率よりも大きいことが明白である。
【0049】
更に、
図6に示す様に、キーワード抽出装置100は、同定部101と分類部102を含んでもよい。
【0050】
同定部101は、単一文書のクラス(分類)を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書を分類できるかぎり、文書識別子は特に制限されない。
【0051】
分類部102は、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム(SVM, NBM, VSM等)から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書内の各文を分類できるかぎり、文識別子は特に制限されない。
【0052】
キー文抽出部103は、同定部101の同定結果と分類部102の分類結果に基づいて、同じクラスを有する単一文書内の文を該単一文書と共に第1キー文セット10として抽出する。
【0053】
同じクラスを有する単一文書内の文がキー文として抽出されるため、該キー文はその文書の主たる意味を特徴付けることができる。従って、目標キーワードの抽出品質がより効率的に向上する。
【0054】
更にキーワード抽出装置100は、第1キー文セット10に基づいてキーワードを再ソート(再分類)するソーティング部105(
図6に図示せず)を含んでもよい。
【0055】
先ず、第1キー文セット10がキー文抽出部103によってスキャンされ、コーパス内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。同様に、第1キー文セット10がキー文抽出部103によってスキャンされ、ユーザ履歴文書(ユーザが過去に閲覧した文書の履歴)内の各文と第1キー文セット10内の文との類似度が文類似アルゴリズム(例えばVSM)によって計算される。
【0056】
類似度の計算結果に基づいて、類似度がプリセット閾値Xより大きい文がコーパスより第2キー文セット20として抽出される。同様に、類似度がプリセット閾値Yより大きい文がユーザ履歴文書より第3キー文セット30として抽出される。XとYは等しくセットされてもよいし、必要であれば異なっていてもよい。
【0057】
プリセットされたXとYにより、単一文書内のキー文に類似した、コーパスとユーザ履歴文書内の文が必要に応じて正確に取り出される。従って目標キーワードの抽出品質の向上に役立つ。
【0058】
次にキーワード抽出部104は、対応する重み付き候補キーワードセット、つまり第1候補キーワードセット11を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第1キー文セット10から抽出する。同様にキーワード抽出部104は、(対応する重み付き)第2候補キーワードセット21を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第2キー文セット20から抽出する。更にキーワード抽出部104は、(対応する重み付き)第3候補キーワードセット31を、一般のキーワード抽出アルゴリズム(例えばTF-IDF, TextRank, Delimiter-Based等)を用いて第3キー文セット30から抽出する。
【0059】
次に、ソーティング部105は第2候補キーワードセット21と第3候補キーワードセット31に基づいて、第1候補キーワードセット11を再ソート(再分類)する。
【0060】
次に、キーワード抽出部104は目標キーワードを再ソート済の第1候補キーワードセット11から抽出する。
【0061】
以降、ソーティング部105の再ソート方法を、線形補間方法を例として詳細に説明する。
【0062】
先ず、重みα,β,γを第1候補キーワードセット11、第2候補キーワードセット21、第3候補キーワードセット31に夫々割り当てる。Score(ω in 11)が第1候補キーワードセット11内の候補キーワードの重みを示すとする。Score(ω in 21)が第2候補キーワードセット21内の候補キーワードの重みを示すとする。Score(ω in 31)が第3候補キーワードセット31内の候補キーワードの重みを示すとする。以下の式(4)に基づいて、第1候補キーワードセット11内の各候補キーワードについて計算が行われる。
【0063】
Score(ω)=α* Score(ω in 11)+β* Score(ω in 21)+γ* Score(ω in 31) (4)
その後、計算された包含的重みScore(ω)に基づいて、第1候補キーワードセット11内の候補キーワードが再ソートされる。
【0064】
単一文書内では内容が限定されており、目標キーワードを抽出するための補助情報は十分ではない。本実施形態においては、上述した様に、第2候補キーワードセット21と第3候補キーワードセット31に基づいて第1候補キーワードセット11内のキーワードが再ソートされる。更に、単一文書と関連するコーパス又はユーザ履歴文書内の情報に基づいて単一文書内のキーワードを調整する。従って、ソーティングにおける目標キーワードの位置を相対的に高めることができ、目標キーワードの抽出品質を更に向上できる。
【0065】
更に、再ソートが夫々の所定重みを用いて行われるため、コーパスやユーザ履歴文書内の情報が候補キーワードを正確に再ソートするためにより効率的に利用できる。従って、目標キーワードの抽出品質を向上できる。
【0066】
望ましくは、キーワード抽出部104は、再ソート後にキーワードの拡張処理を行う。特にキーワード抽出部104は、N個の第1候補キーワードを第1候補キーワードセット11から抽出し、セット12とする。次にキーワード抽出部104は、セット12に含まれるキーワードを第2候補キーワードセット21と第3候補キーワードセット31の夫々から削除する。更にキーワード抽出部104は、M個の第1候補キーワードを第2候補キーワードセット21(削除を実行済)から抽出し、セット22とする。同様にキーワード抽出部104は、V個の第1候補キーワードを第3候補キーワードセット31(削除を実行済)から抽出し、セット32とする。最後にキーワード抽出部104は、セット12、22、32をマージ(統合)する。結果として、最終の目標キーワードセットが得られる。
【0067】
単一文書に含まれていないキーワードで、該単一文書の内容と関係の高いものが存在する場合がある。本実施形態においては、上記キーワードを省略しないために、望ましくは、コーパスやユーザ履歴文書内に含まれるキーワードで、該単一文書の内容と関係の高いものを抽出する。そして、該単一文書から抽出されたキーワードと共に最終のキーワードセットを形成する。このような方法で拡張処理することにより、キーワードの抽出品質が著しく向上する。
【0068】
上記実施形態においては、キーワードの再ソートやキーワード抽出を行うために、例として、コーパスとユーザ履歴文書を同時に用いるとして説明した。しかしながら、キーワードの再ソートやキーワード抽出を行うために、コーパスとユーザ履歴文書の1つのみを用いてもよい。
【0069】
上述した、本発明に係る、単一文書からのキーワード抽出装置及び方法は、自然言語処理の様々な分野(例えば、機械翻訳、テキスト要約等)に適用できる。要するに本発明の適用分野は制限されない。
【0070】
本発明に係る、単一文書からのキーワード抽出装置及び方法は、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。