特許6232478 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許6232478単一文書からのキーワード抽出装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6232478

(24)【登録日】2017年10月27日

(45)【発行日】2017年11月15日

(54)【発明の名称】単一文書からのキーワード抽出装置及び方法

(51)【国際特許分類】

G06F 17/30 20060101AFI20171106BHJP

【ＦＩ】

G06F17/30 210A

G06F17/30 170A

G06F17/30 210D

【請求項の数】11

【全頁数】13

(21)【出願番号】特願2016-161523(P2016-161523)

(22)【出願日】2016年8月19日

(65)【公開番号】特開2017-68833(P2017-68833A)

(43)【公開日】2017年4月6日

【審査請求日】2016年8月19日

(31)【優先権主張番号】201510632825.X

(32)【優先日】2015年9月29日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】100107928

【弁理士】

【氏名又は名称】井上正則

(72)【発明者】

【氏名】シュチェンシャン

(72)【発明者】

【氏名】チャンダクン

(72)【発明者】

【氏名】グオジチョン

(72)【発明者】

【氏名】ハオジエ

【審査官】石田信行

(56)【参考文献】

【文献】特開平０４−０２４８６９（ＪＰ，Ａ）

【文献】特開平０５−１２０３４５（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

Ｇ０６Ｆ１７／２７

(57)【特許請求の範囲】

【請求項1】

単一文書からキーワードを抽出するための装置であって、
前記単一文書からキー文を抽出するキー文抽出部と、
前記キー文からキーワードを抽出するキーワード抽出部と、
前記単一文書のクラスを同定する同定部と、
前記単一文書内の各文を分類する分類部とを備え、
前記キー文抽出部は、同じクラスを有する複数の単一文書内の前記キー文を第１キー文セットとして抽出し、
前記キーワード抽出部は、前記第１キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出装置。

【請求項2】

前記キーワード抽出部は、前記第１キー文セットから候補キーワードを第１キーワードセットとして抽出し、
前記キー文抽出部は、コーパスから、前記第１キー文セット内のキー文と類似した文を第２キー文セットとして抽出し、
前記キーワード抽出部は、前記第２キー文セットから候補キーワードを第２キーワードセットとして抽出し、
前記キーワード抽出装置は、前記第２キーワードセットに基づいて、前記第１キーワードセット内の各候補キーワードを再ソートするソーティング部を更に備え、
前記キーワード抽出部は、再ソートされた前記第１キーワードセットから目標キーワードを抽出する、請求項１に記載のキーワード抽出装置。

【請求項3】

前記ソーティング部は、前記第１キーワードセットの重み、前記第１キーワードセット内の各候補キーワードの重み、前記第２キーワードセットの重み、前記第２キーワードセット内の各候補キーワードの重みに基づいて、前記第１キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて第１キーワードセット内の各候補キーワードを再ソートする、請求項２に記載のキーワード抽出装置。

【請求項4】

前記キーワード抽出部は、前記第１キーワードセットから抽出された候補キーワードを前記第２キーワードセットから削除し、この削除処理の施された前記第２キーワードセットから候補キーワードを抽出する、請求項２に記載のキーワード抽出装置。

【請求項5】

前記キー文抽出部は、ユーザ履歴文書から、前記第１キー文セット内のキー文と類似した文を第３キー文セットとして抽出し、
前記キーワード抽出部は、前記第３キー文セットから候補キーワードを第３キーワードセットとして抽出し、
前記ソーティング部は、前記第３キーワードセットに基づいて、前記第１キーワードセット内の各候補キーワードを再ソートし、
前記キーワード抽出部は、再ソートされた前記第１キーワードセットから目標キーワードを抽出する、請求項２〜４のいずれかに記載のキーワード抽出装置。

【請求項6】

前記キー文抽出部は
前記コーパス内の文と前記キー文との類似度を計算し、前記コーパスから、前記類似度が第１閾値よりも大きい文を、前記第２キー文セットとして抽出し、
前記ユーザ履歴文書内の文と前記キー文との類似度を計算し、前記ユーザ履歴文書から、前記類似度が第２閾値よりも大きい文を、前記第３キー文セットとして抽出する、請求項５に記載のキーワード抽出装置。

【請求項7】

前記ソーティング部は、前記第１キーワードセットの重み、前記第１キーワードセット内の各候補キーワードの重み、前記第３キーワードセットの重み、前記第３キーワードセット内の各候補キーワードの重みに基づいて、前記第１キーワードセット内の各候補キーワードの重みを計算し、計算された重みに基づいて前記第１キーワードセット内の各候補キーワードを再ソートする、請求項５に記載のキーワード抽出装置。

【請求項8】

前記キーワード抽出部は、前記第１キーワードセットから抽出された候補キーワードを前記第３キーワードセットから削除し、この削除処理の施された前記第３キーワードセットから候補キーワードを抽出する、請求項５に記載のキーワード抽出装置。

【請求項9】

前記キーワード抽出部は、前記第１キーワードセットから抽出された候補キーワード、前記第２キーワードセットから抽出された候補キーワード、前記第３キーワードセットから抽出された候補キーワードをマージして目標キーワードを生成する、請求項８に記載のキーワード抽出装置。

【請求項10】

単一文書からのキーワード抽出装置を制御するための方法であって、
前記単一文書からキー文を抽出するステップと、
前記キー文からキーワードを抽出するステップと、
前記単一文書のクラスを同定するステップと、
前記単一文書内の各文を分類するステップとを備え、
前記キー文を抽出するステップは、同じクラスを有する複数の単一文書内の前記キー文を第１キー文セットとして抽出し、
前記キーワードを抽出するステップは、前記第１キー文セットから候補キーワードを抽出することを特徴とするキーワード抽出方法。

【請求項11】

単一文書からキーワードを抽出するためのコンピュータに用いられるプログラムであって、
前記コンピュータに、
前記単一文書からキー文を抽出する機能と、
前記キー文からキーワードを抽出する機能と、
前記単一文書のクラスを同定する機能と、
前記単一文書内の各文を分類する機能とを備え、
前記キー文を抽出する機能は、同じクラスを有する複数の単一文書内の前記キー文を第１キー文セットとして抽出し、
前記キーワードを抽出する機能は、前記第１キー文セットから候補キーワードを抽出することを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、単一文書からのキーワード抽出装置及び方法に関する。

【背景技術】

【0002】

キーワード抽出は自然言語処理分野に含まれる。キー抽出方法は大きく２タイプに分類される。つまり、教師あり学習と教師なし学習である。教師あり学習においては、キーワード抽出は分類問題とみなされ、学習データはマニュアル的にラベル付けされる必要がある。これは時間がかかり労力も過大となるため、インターネット時代には不向きとされる。科学技術の発展とインターネット人口の増加につれて、基本的には、教師あり学習はほとんど使われない。

【0003】

教師なし学習については、主に、次の３つのアルゴリズムが知られている。

【0004】

（１）TF-IDFベース及びTF-IDF変形ベースのアルゴリズム。この数式を以下に示す。

【0005】

ここで、ωはキーワードを示す。TF_ωは文書セット中のωの頻度を示す。D_setは文書セット中の文書番号を示す。DF_ωはωを含む文書番号を示す。（非特許文献１）
（２）チャートベースアルゴリズム。最も古典的アルゴリズムである、TextRankの数式を以下に示す。

【0006】

ここで、WS(V_i)はV_iのスコアを示す。In(V_i)はV_iの入次数を示す。Out(V_j)はV_iの出次数を示す。w_jiはw_jからw_iへのエッジの重みを示す。dは減衰係数を示す。（非特許文献２）
（３）区切り文字ベースアルゴリズム。

【0007】

先ず、文章を各セグメントに分割するための区切り文字リスト内の語を用いて、LA(Link Analysis)のようなアルゴリズムで全ての候補のスコアを得る。次に、以下の数式により全ての候補の最終スコアを得る。

【0008】

ここで、Score(ω)はキーワード候補の最終スコアを示す。TC(ω)^A_jは文書j内のωのスコアを示す。D_setは文書セット内の文書番号を示す。DF_ωはωを含む文書番号を示す。（非特許文献３）
上記アルゴリズム（１）のTF-IDFは「term frequency-inverse document frequency」の略字であり、これは文書セットやコーパス内の語の重要度を評価するための統計的アルゴリズムである。語の重要度は、それが文書中に出現する回数に比例して増加する。しかしながら、語の重要度は、文書セットやコーパス内の分布範囲に反比例して減少する。分布範囲は文書セットやコーパス内での語の分布度、つまりその語が何個の文書に現われるか、を示す。特に、TFは文書内の語出現頻度を示し、IDFは文書出現頻度の逆数を示す。文書セットやコーパス内では、ある語を含む文書数が少ないほど、その語のIDFが大きくなる。こうして、ある特定文書に高頻度で含まれるが、全ての文書セットやコーパスには低分布度で含まれる（例えば、１文書のみに含まれ他文書には含まれない）語について、TFとIDFの積を計算することで高い重みのTF-IDFが生成される。従ってTF-IDFは、共通語を取り出し（除去し）、キーワードを保持することができる。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】ＵＳ２０１１／０２３１４３０号公報

【特許文献2】ＵＳ７８９５２０５号公報

【特許文献3】ＵＳ６６３８３１７号公報

【特許文献4】ＵＳ２００５／０１３１９３１号公報

【特許文献5】ＵＳ２０１４／００７４８２２号公報

【非特許文献】

【0010】

【非特許文献1】Frank Gordon,“Domain-specific keyphrase extraction”, In Proceedings of the 16th International Conference on Computational Linguistics 1996, pp.41-46

【非特許文献2】Rada Mihalcea, Paul Tarau,“Bringing Order into Text”, In Proceedings of EMNLP 2004, pp.404-411

【非特許文献3】Yuhang Yang, Qin Lu, Tiejun Zhao,“A delimiter-based general approach for Chinese term extraction”, Journal of the American Society for Information Science and Technology. 2010. pp.111-125

【非特許文献4】Yuhang Yang, Qin Lu, Tiejun Zhao,“Chinese Term Extraction based on Delimiters”, Language Resource and Evaluation. LREC (2008)

【発明の概要】

【発明が解決しようとする課題】

【0011】

単一文書からキー文を抽出し、該キー文からキーワードを抽出することにより、目標キーワードの抽出品質を向上させることが可能な装置及び方法を提供する。

【課題を解決するための手段】

【0012】

実施形態に係る、単一文書からキーワードを抽出するための装置は、前記単一文書からキー文を抽出するキー文抽出部と、前記キー文からキーワードを抽出するキーワード抽出部とを備える。

【図面の簡単な説明】

【0013】

【図1】本発明の１実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。

【図2】本発明の他の実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。

【図3】図２の実施形態に係るキーワード抽出方法における、キーワードの再ソート処理の詳細フローチャートである。

【図4】図２の実施形態に係るキーワード抽出方法における、キーワードの拡張処理の詳細フローチャートである。

【図5】本発明の他の実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。

【図6】本発明の他の実施形態に係る、単一文書からのキーワード抽出装置によるキー文抽出に用いられるユニットのブロック図である。

【発明を実施するための形態】

【0014】

以下、図面を参照しながら、発明を実施するための実施形態について説明する。

【0015】

＜単一文書からのキーワード抽出方法＞
図１は本発明の１実施形態に係る、単一文書からのキーワード抽出方法のフローチャートである。

【0016】

図１に示す様に、先ずＳ１３０において、キー文が単一文書から第１キー文セット１０として抽出される。本実施形態において、単一文書はどのような言語のどのようなタイプの文書であってもよく、本実施形態は限定されない。

【0017】

次に、本方法はＳ１４０へ進み、目標キーワードが第１キー文セット１０から抽出される。

【0018】

本実施形態の上記方法によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の１部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。

【0019】

ここで例として、単一文書内に１００個の文が存在し、合計で１０００個の異なる単語を含み、この中に２０個の目標キーワードが存在する、と仮定する。もしストップワードが除去されれば（ストップワードは全単語の３０％を占めると仮定する）、残りの７００個の単語は全て候補キーワードである。目標キーワードは７００個の候補キーワードから選択される必要がある。もしこの文書内に４０個のキー文が存在し、合計で４００個の異なる単語を含むならば、ストップワードの除去後、残りの２８０個の単語が候補キーワードとなる。２８０個の候補キーワードから２０個の目標キーワードを正しく選択する確率は、７００個の候補キーワードから２０個の目標キーワードを正しく選択する確率よりも大きいことが明白である。

【0020】

単一文書からのキーワード抽出方法について特に制限はない。例えば、キー文の抽出前に、図２に示す様に、以降のステップを更に含んでもよい。

【0021】

Ｓ１１０において、単一文書のクラス（分類）を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム（SVM, NBM, VSM等）から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。

【0022】

次にＳ１２０において、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム（SVM, NBM, VSM等）から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。本実施形態では特に制限されない。

【0023】

Ｓ１１０とＳ１２０に基づいて、Ｓ１３０において、同じクラスを有する単一文書内の文が該単一文書と共に抽出される。本実施形態において、クラスラベルが使われるため、同じクラスラベルを有する単一文書内の文が第１キー文セット１０として抽出される。

【0024】

同じクラスを有する単一文書内の文がキー文として抽出されるため、該キー文はその文書の主たる意味を特徴付けることができる。従って、目標キーワードの抽出品質がより効率的に向上する。

【0025】

本実施形態において、望ましくは、キー文の抽出後、第１キー文セット１０に基づくキーワードが再ソート（再分類）されて、目標キーワードが抽出される。以降の説明を図３を参照して行う。

【0026】

図３に示す様に、Ｓ１３０の後、Ｓ３１１ｂにおいて、第１キー文セット１０がスキャンされ、コーパス内の各文と第１キー文セット１０内の文との類似度が文類似アルゴリズム（例えばVSM）によって計算される。同様に、Ｓ１３１ｃにおいて、第１キー文セット１０がスキャンされ、ユーザ履歴文書（ユーザが過去に閲覧した文書の履歴）内の各文と第１キー文セット１０内の文との類似度が文類似アルゴリズム（例えばVSM）によって計算される。

【0027】

次にＳ１３２ｂにおいて、類似度がプリセット閾値Ｘより大きい文がコーパスより第２キー文セット２０として抽出される。同様に、Ｓ１３２ｃにおいて、類似度がプリセット閾値Ｙより大きい文がユーザ履歴文書より第３キー文セット３０として抽出される。ＸとＹは等しくセットされてもよいし、必要であれば異なっていてもよい。

【0028】

プリセットされたＸとＹにより、単一文書内のキー文に類似した、コーパスとユーザ履歴文書内の文が必要に応じて正確に取り出される。従って目標キーワードの抽出品質の向上に役立つ。

【0029】

次にＳ１３３ａにおいて、対応する重み付き候補キーワードセット、つまり第１候補キーワードセット１１が一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第１キー文セット１０から抽出される。同様に、Ｓ１３３ｂにおいて、（対応する重み付き）第２候補キーワードセット２１が一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第２キー文セット２０から抽出される。Ｓ１３３ｃにおいて、（対応する重み付き）第３候補キーワードセット３１が一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第３キー文セット３０から抽出される。

【0030】

次にＳ１３４において、第１候補キーワードセット１１が、第２候補キーワードセット２１と第３候補キーワードセット３１に基づいて再ソート（再分類）される。

【0031】

次に、本方法はＳ１４０に進み、目標キーワードが再ソート済の第１候補キーワードセット１１から抽出される。

【0032】

以降、Ｓ１３４の再ソート方法を、線形補間方法を例として詳細に説明する。

【0033】

先ず、重みα,β,γを第１候補キーワードセット１１、第２候補キーワードセット２１、第３候補キーワードセット３１に夫々割り当てる。Score(ω in 11)が第１候補キーワードセット１１内の候補キーワードの重みを示すとする。Score(ω in 21)が第２候補キーワードセット２１内の候補キーワードの重みを示すとする。Score(ω in 31)が第３候補キーワードセット３１内の候補キーワードの重みを示すとする。以下の式（４）に基づいて、第１候補キーワードセット１１内の各候補キーワードについて計算が行われる。

【0034】

Score(ω)＝α* Score(ω in 11)+β* Score(ω in 21)+γ* Score(ω in 31) (4)
その後、計算された包含的重みScore(ω)に基づいて、第１候補キーワードセット１１内の候補キーワードが再ソートされる。

【0035】

単一文書内では内容が限定されており、目標キーワードを抽出するための補助情報は十分ではない。本実施形態においては、上述した様に、第２候補キーワードセット２１と第３候補キーワードセット３１に基づいて第１候補キーワードセット１１内のキーワードが再ソートされる。更に、単一文書と関連するコーパス又はユーザ履歴文書内の情報に基づいて単一文書内のキーワードを調整する。従って、ソーティングにおける目標キーワードの位置を相対的に高めることができ、目標キーワードの抽出品質を更に向上できる。

【0036】

更に、再ソートが夫々の所定重みを用いて行われるため、コーパスやユーザ履歴文書内の情報が候補キーワードを正確に再ソートするためにより効率的に利用できる。従って、目標キーワードの抽出品質を向上できる。

【0037】

本実施形態において、望ましくは、再ソート後にキーワード抽出を行う。以降、この説明を図４を参照して行う。

【0038】

第１候補キーワードセット１１内の候補キーワードを再ソートした後、すなわちＳ１３４の後、図４のＳ１３５において、Ｎ個の第１候補キーワードを第１候補キーワードセット１１から抽出し、セット１２とする。

【0039】

次にＳ１３６ｂにおいて、Ｓ１３５で抽出されたセット１２に含まれる候補キーワードが第２候補キーワードセット２１から削除される。同様にＳ１３６ｃにおいて、Ｓ１３５で抽出されたセット１２に含まれる候補キーワードが第３候補キーワードセット３１から削除される。

【0040】

次にＳ１３７ｂにおいて、Ｍ個の第１候補キーワードを第２候補キーワードセット２１（削除を実行済）から抽出し、セット２２とする。同様にＳ１３７ｃにおいて、Ｖ個の第１候補キーワードを第３候補キーワードセット３１（削除を実行済）から抽出し、セット３２とする。

【0041】

次にＳ１３８において、セット１２、２２、３２をマージ（統合）することにより、最終の目標キーワードセットを得る。

【0042】

単一文書に含まれていないキーワードで、該単一文書の内容と関係の高いものが存在する場合がある。本実施形態においては、上記キーワードを省略しないために、望ましくは、コーパスやユーザ履歴文書内に含まれるキーワードで、該単一文書の内容と関係の高いものを抽出する。そして、該単一文書から抽出されたキーワードと共に最終のキーワードセットを形成する。このような方法で拡張処理することにより、キーワードの抽出品質が著しく向上する。

【0043】

上記実施形態においては、キーワードの再ソートやキーワード抽出を行うために、例として、コーパスとユーザ履歴文書を同時に用いるとして説明した。しかしながら、キーワードの再ソートやキーワード抽出を行うために、コーパスとユーザ履歴文書の１つのみを用いてもよい。

【0044】

更に、上記ステップの順序は固定されない。例えば、本実施形態においては、単一文書のクラスが同定された後（すなわちＳ１１０）、該単一文書内の文が分類される（すなわちＳ１２０）。しかしながら、本発明はこれに限定されない。単一文書内の文が分類された後、該単一文書のクラスを同定してもよい。

【0045】

＜単一文書からのキーワード抽出装置＞
同じ発明概念の下で、図５及び図６は、本発明の他の２実施形態に係る、単一文書からのキーワード抽出装置のブロック図である。

【0046】

図５に示す様に、本実施形態に係る、単一文書からのキーワード抽出装置（以後、「キーワード抽出装置」と呼称する）１００は、キー文抽出部１０３とキーワード抽出部１０４を含む。キー文抽出部１０３は、単一文書からキー文を第１キー文セット１０として抽出する。キーワード抽出部１０４は、第１キー文セット１０からキーワードを抽出する。

【0047】

本実施形態のキーワード抽出装置１００によれば、単一文書からキー文を抽出し、該キー文からキーワードを抽出することで、目標キーワードの抽出品質が効率的に向上する。一般に、キーワードがキー文に出現する確率は、非キー文に出現する確率よりも非常に高い。何故ならば、候補キーワードは単一文書内の全文から抽出されるものではない。むしろ、全文の１部であるキー文セットから抽出されるものである。従って、候補キーワードの数が減少することは、目標キーワードが抽出される確率が増加したことを意味し、抽出品質も著しく向上する。

【0048】

【0049】

更に、図６に示す様に、キーワード抽出装置１００は、同定部１０１と分類部１０２を含んでもよい。

【0050】

同定部１０１は、単一文書のクラス（分類）を同定する。本実施形態においては、例えば、単一文書自体にクラスラベルを自動的に割り当てるために、文書分類子を用いる。この文書分類子は、完成されたアルゴリズム（SVM, NBM, VSM等）から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書を分類できるかぎり、文書識別子は特に制限されない。

【0051】

分類部１０２は、単一文書内の文を分類する。本実施形態においては、例えば、単一文書内の各文にクラスラベルを自動的に割り当てるために、文分類子を用いる。文書分類子と同様に、文分類子は、完成されたアルゴリズム（SVM, NBM, VSM等）から学習されたものでよい。又は、他の科学研究施設や機構が発表した未完成のツールを用いてもよい。単一文書内の各文を分類できるかぎり、文識別子は特に制限されない。

【0052】

キー文抽出部１０３は、同定部１０１の同定結果と分類部１０２の分類結果に基づいて、同じクラスを有する単一文書内の文を該単一文書と共に第１キー文セット１０として抽出する。

【0053】

【0054】

更にキーワード抽出装置１００は、第１キー文セット１０に基づいてキーワードを再ソート（再分類）するソーティング部１０５（図６に図示せず）を含んでもよい。

【0055】

先ず、第１キー文セット１０がキー文抽出部１０３によってスキャンされ、コーパス内の各文と第１キー文セット１０内の文との類似度が文類似アルゴリズム（例えばVSM）によって計算される。同様に、第１キー文セット１０がキー文抽出部１０３によってスキャンされ、ユーザ履歴文書（ユーザが過去に閲覧した文書の履歴）内の各文と第１キー文セット１０内の文との類似度が文類似アルゴリズム（例えばVSM）によって計算される。

【0056】

類似度の計算結果に基づいて、類似度がプリセット閾値Ｘより大きい文がコーパスより第２キー文セット２０として抽出される。同様に、類似度がプリセット閾値Ｙより大きい文がユーザ履歴文書より第３キー文セット３０として抽出される。ＸとＹは等しくセットされてもよいし、必要であれば異なっていてもよい。

【0057】

【0058】

次にキーワード抽出部１０４は、対応する重み付き候補キーワードセット、つまり第１候補キーワードセット１１を、一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第１キー文セット１０から抽出する。同様にキーワード抽出部１０４は、（対応する重み付き）第２候補キーワードセット２１を、一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第２キー文セット２０から抽出する。更にキーワード抽出部１０４は、（対応する重み付き）第３候補キーワードセット３１を、一般のキーワード抽出アルゴリズム（例えばTF-IDF, TextRank, Delimiter-Based等）を用いて第３キー文セット３０から抽出する。

【0059】

次に、ソーティング部１０５は第２候補キーワードセット２１と第３候補キーワードセット３１に基づいて、第１候補キーワードセット１１を再ソート（再分類）する。

【0060】

次に、キーワード抽出部１０４は目標キーワードを再ソート済の第１候補キーワードセット１１から抽出する。

【0061】

以降、ソーティング部１０５の再ソート方法を、線形補間方法を例として詳細に説明する。

【0062】

【0063】

【0064】

【0065】

【0066】

望ましくは、キーワード抽出部１０４は、再ソート後にキーワードの拡張処理を行う。特にキーワード抽出部１０４は、Ｎ個の第１候補キーワードを第１候補キーワードセット１１から抽出し、セット１２とする。次にキーワード抽出部１０４は、セット１２に含まれるキーワードを第２候補キーワードセット２１と第３候補キーワードセット３１の夫々から削除する。更にキーワード抽出部１０４は、Ｍ個の第１候補キーワードを第２候補キーワードセット２１（削除を実行済）から抽出し、セット２２とする。同様にキーワード抽出部１０４は、Ｖ個の第１候補キーワードを第３候補キーワードセット３１（削除を実行済）から抽出し、セット３２とする。最後にキーワード抽出部１０４は、セット１２、２２、３２をマージ（統合）する。結果として、最終の目標キーワードセットが得られる。

【0067】

【0068】

【0069】

上述した、本発明に係る、単一文書からのキーワード抽出装置及び方法は、自然言語処理の様々な分野（例えば、機械翻訳、テキスト要約等）に適用できる。要するに本発明の適用分野は制限されない。

【0070】

本発明に係る、単一文書からのキーワード抽出装置及び方法は、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0071】

１００・・・キーワード抽出装置
１０１・・・同定部
１０２・・・分類部
１０３・・・キー文抽出部
１０４・・・キーワード抽出部
１０５・・・ソーティング部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6232478号(P6232478)IP Force 特許公報掲載プロジェクト 2022.1.31 β版