(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-02
(45)【発行日】2023-08-10
(54)【発明の名称】テキスト処理方法及び、テキスト処理装置
(51)【国際特許分類】
G06F 16/35 20190101AFI20230803BHJP
【FI】
G06F16/35
(21)【出願番号】P 2018200325
(22)【出願日】2018-10-24
【審査請求日】2021-09-22
【新規性喪失の例外の表示】特許法第30条第2項適用 〔展示会名〕 第2回AI・人工知能EXPO 〔開催日〕 平成30年4月4日から6日 〔開催場所〕 東京ビックサイト 〔掲載アドレス〕 https://content-tokyo2018.tems-system.com/eguide/jp/AI/details?id=868
【新規性喪失の例外の表示】特許法第30条第2項適用 〔セミナー名〕 SOLIZE Innovationsセミナー 〔開催日〕 平成30年6月15日 〔開催場所〕 TKP品川カンファレンスセンター6Fバンケットホール6G 〔掲載アドレス〕 https://www.solize-group.com/event/2018/index.html
(73)【特許権者】
【識別番号】512209689
【氏名又は名称】SOLIZE株式会社
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】皆川 裕司
(72)【発明者】
【氏名】地主 亮
(72)【発明者】
【氏名】木村 雅紀
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2012-221316(JP,A)
【文献】特開2015-152983(JP,A)
【文献】特開2017-134787(JP,A)
【文献】米国特許出願公開第2018/0121539(US,A1)
【文献】特開2000-163437(JP,A)
【文献】特開2015-179385(JP,A)
【文献】特開2009-294723(JP,A)
【文献】特開2017-058978(JP,A)
【文献】米国特許出願公開第2011/0060983(US,A1)
【文献】米国特許出願公開第2017/0300563(US,A1)
【文献】米国特許出願公開第2004/0225667(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
入力された第1のテキストデータから、
着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータによるテキスト処理方法であって、
入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
の各ステップを有する学習工程の後、
入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
特徴語検索手段が、該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を該関連度として出力する出力ステップ
の各ステップを有する関連度評価工程を行う構成において、
該アスペクトデータには該トピックごとに抽出された特徴語について重み値と、該トピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、
該特徴語抽出ステップにおいて、該特徴語抽出手段が、該関連文字列情報から特徴語を抽出する際に、該特徴語に定義された重み情報に基づいて所定の演算式により該重み値を設定し、
該特徴語検索ステップにおいて、該重み値に基づいて検索条件を決定すると共に、少なくとも該距離値に基づいて該第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定し、
該特徴語検索手段が該アスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の該距離値を読み出し、該距離値の範囲内にある特徴語の該重み値から所定の演算による計算値を該関連度として出力する
ことを特徴とする、テキスト処理方法。
【請求項2】
前記特徴語に定義された重み値が、前記特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値である、
請求項1に記載のテキスト処理方法。
【請求項3】
前記出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を前記関連度として出力する
請求項1に記載のテキスト処理方法。
【請求項4】
前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、
該階層情報には、前記重み値と前記距離値の組み合わせのパターンを定義し、
前記特徴語検索ステップにおいて、該パターンに従った特徴語の検索条件を決定する
請求項1ないし3のいずれかに記載のテキスト処理方法。
【請求項5】
前記トピックが、前記テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類される構成において、
前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記階層情報を、該概念情報に応じて自動的に定義すると共に、
該トピック毎の特徴語のそれぞれを該概念情報と対応付ける
請求項4に記載のテキスト処理方法。
【請求項6】
前記出力ステップにおいて、前記出力手段が、
抽出された特徴語と共に、その関連度を所定のグラフによって表示する
請求項1ないし5のいずれかに記載のテキスト処理方法。
【請求項7】
前記出力ステップにおいて、前記出力手段が、
前記第1のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示する
請求項1ないし6のいずれかに記載のテキスト処理方法。
【請求項8】
前記出力ステップにおいて、前記出力手段が、
前記第1のテキストデータを表示する構成において、前記特徴語が含まれる文章全体、又は前記特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させる
請求項1ないし7のいずれかに記載のテキスト処理方法。
【請求項9】
前記出力ステップにおいて、前記出力手段が、
前記概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する
請求項5の構成を含む請求項8に記載のテキスト処理方法。
【請求項10】
入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、
複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
第1のテキストデータを入力するテキストデータ入力手段と、
該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、
トピックごとに区別して、特徴語の検索結果に基づく値を該関連度として出力する出力手段と
を備える構成において、
該アスペクトデータには該トピックごとに抽出された特徴語について重み値と、該トピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、
該特徴語抽出手段が、該関連文字列情報から特徴語を抽出する際に、該特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、
該
特徴語検索手段が、該重み値に基づいて検索条件を決定すると共に、
該特徴語検索手段が、少なくとも該距離値に基づいて該第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定し、該アスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の該距離値を読み出し、該距離値の範囲内にある特徴語の該重み値から所定の演算による計算値を該関連度として出力する
ことを特徴とする、テキスト処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータによるテキスト処理方法及び装置に関し、特に、入力されたテキストデータから、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術に係る。
【背景技術】
【0002】
電子化された大量の文書の中から、必要となる所望の文書を検索する技術が多数提案されている。最も簡単なものは検索する単語を入力し、その単語が含まれた文書を抽出して表示する技術である。インターネットにおける検索も、検索ロボットが自動的に収集した膨大なデータから、検索語が含まれるウェブデータなどを抽出して提示することで行われている。
【0003】
極めて大量の文書から、検索語が含まれる文書を短時間で抽出することはコンピュータのテキスト処理方法の大きな効果の1つであるが、抽出された文書の量やその文書の容量によっては、単に検索語が含まれているかだけでなく、どの程度の関連性を有しているかを評価する手法が求められる。
【0004】
例えば、特許文献1では、利用者の興味・関心に合った書籍・資料を書込み入りドキュメント画像を元に検索する資料検索装置等が提案されている。該装置では、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、テキストデータから第2の特徴語を抽出する特徴語抽出手段と、書込みの種類と位置とを用いて第2の特徴語の重要度を算出し、テキストデータの前記特徴語データを作成する特徴データ作成手段と、検索用インデックスと特徴語データとの関連度を計算する関連度計算手段とを具備する構成が開示されている。
【0005】
特許文献2では、ある特定の話題に対するテキスト集合から代表的な意見を抽出する方法が開示されている。すなわち、複数のコメントを含むテキスト集合から、代表的なコメントを抽出する代表コメント抽出方法において、テキスト集合から、テキスト集合の特徴を示す重要語を抽出する重要語抽出ステップと、複数のコメントを、重要語をもとにクラスタリングするクラスタリングステップと、クラスタリングで分割した各クラスタから、代表コメントを抽出する代表コメント抽出ステップにより、代表コメントを抽出することが開示されている。
【0006】
また、関連する技術として特許文献3には、商品カテゴリに対応した特徴語を自動的に学習する方法が提案されている。商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大1000件のWebテキストを取得する手段と、カテゴリ名をクエリとして得られた最大1000件のWebテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記の関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語デーベースと、を備えることが開示されている。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2015-179385号公報
【文献】特開2013-15971号公報
【文献】特開2010-9307号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記従来技術では、テキストデータにおける利用者の興味や代表的な意見について関連性の特徴語、重要語を表示することができるが、当該語句は全て抽出されてしまうため、文書内のどの部分が特に重要であるかなどは把握することができない。
【0009】
本発明は上記従来技術の有する問題点に鑑みて創出されたものであり、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は上記課題を解決するため、本発明は次のようなテキスト処理方法及び装置を提供する。
まず、第1の実施態様によれば、入力された第1のテキストデータから、着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータによるテキスト処理方法を提供する。該方法において、
(S1)入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
(S2)特徴語抽出手段が、関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
(S3)アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップの各ステップを有する学習工程の後、
(S4)入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
(S5)特徴語検索手段が、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
(S6)出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する出力ステップの各ステップを有する関連度評価工程を行う、ことを特徴とする。
【0011】
第2の実施態様によれば、上記のテキスト処理方法の特徴語抽出ステップにおいて、特徴語抽出手段が、関連文字列情報から特徴語を抽出する際に、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納し、特徴語検索ステップにおいて、重み値に基づいて検索条件を決定する。
【0012】
第3の実施態様によれば、特徴語に定義された重み値が、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値としてもよい。
【0013】
第4の実施態様によれば、上記の出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を上記の関連度として出力することもできる。
【0014】
第5の実施態様によれば、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、上記の特徴語検索ステップにおいて、少なくとも距離値に基づいて第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定することができる。
【0015】
第6の実施態様によれば、上記の特徴語検索ステップにおいて特徴語検索手段がアスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の距離値を読み出し、距離値の範囲内にある特徴語の重み値から所定の演算による計算値を上記の関連度として出力することができる。
【0016】
第7の実施態様によれば、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、階層情報には、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップにおいて、パターンに従った特徴語の検索条件を決定することができる。
【0017】
第8の実施態様によれば、トピックが、テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類される構成において、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、階層情報を、概念情報に応じて自動的に定義すると共に、トピック毎の特徴語のそれぞれを概念情報と対応付けることができる。
【0018】
第9の実施態様によれば、上記の出力ステップにおいて、出力手段が、抽出された特徴語と共に、その関連度を所定のグラフによって表示する構成でもよい。
【0019】
第10の実施態様によれば、上記の出力ステップにおいて、出力手段が、第1のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示することもできる。
【0020】
第11の実施態様によれば、上記の出力ステップにおいて、出力手段が、第1のテキストデータを表示する構成において、特徴語が含まれる文章全体、又は特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させることができる。
【0021】
第12の実施態様によれば、上記の出力ステップにおいて、出力手段が、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する構成でもよい。
【0022】
第13の実施態様によれば、テキスト処理装置を提供することもできる。
すなわち、入力された第1のテキストデータから 着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、関連文字列情報から特徴語を抽出する特徴語抽出手段と、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、第1のテキストデータを入力するテキストデータ入力手段と、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、トピックごとに区別して、特徴語の検索結果に基づく値を関連度として出力する出力手段とを備えたことを特徴とする。
【発明の効果】
【0023】
本発明によれば、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することができる。
【図面の簡単な説明】
【0024】
【
図1】本発明におけるテキスト処理装置(1)の全体図である。
【
図2】本発明に係るテキスト処理方法のフローチャートである。
【
図3】本発明に係る関連度の計算方法の説明図である。
【
図4】本発明に係る関連度の計算方法の説明図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態を図面を用いて説明する。本発明は以下の実施例に限定されず請求項記載の範囲で適宜実施することができる。
図1は、本発明におけるテキスト処理装置(1)の全体図である。本装置(1)は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図2は本発明に係るテキスト処理方法のフローチャートである。
【0026】
本発明のテキスト処理方法は大きく2つの工程に分けられる。事前に機械学習を行う学習工程と、学習工程によって作成されたアスペクトデータを用いて入力されるテキスト中の関連箇所について関連度を評価する関連度評価工程である。本実施例では学習工程と関連度評価工程を連続したものとして説明しているが、アスペクトデータを作成して記憶させておけば、関連度評価工程だけを実装して実施することができる。
【0027】
学習工程では、まず入力手段であるCPU(10)における入力処理部(101)が、ハードディスクなどの記憶部(20)に格納された学習用データ(201)を入力する。(学習用データ入力ステップ:S1)
学習用データ(201)は、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。
【0028】
トピックは、着目する話題を分類する項目であり、例えば技術文書であれば大項目から小項目に段階的に分類された見出しに対応させることもできるし、あるいは技術文書に含まれる一般的な要点を手作業で抽出したものでもよい。ニュースサイトや新聞、雑誌などの情報であれば、「国際」「経済」「社会」などのように分野別に分類されたもの、さらに「国際」という上位概念から「米国」「欧州」「中国」などのように下位概念に分類されたもの、などでもよい。あるいは「格差問題」「住宅問題」などのようにテーマ毎に分類されたものでもよい。
【0029】
さらに本発明の特徴として、トピックはテキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類されたものとした上で、この概念情報を後述する特徴語の検索における検索条件に反映させることもできる。
【0030】
入力する第2のテキストデータとは、学習に用いるためのテキストデータであって、少なくとも上記のトピックが含まれる文書に係るものであるが、トピックと何ら関係のないテキストデータを同時に入力してもよい。
【0031】
関連文字列情報は、第2のテキストデータ群におけるトピックについて記載された関連文字列を予め定義したものであり、原則としては人手によって関連性を判断されて定義される。
例えば、過去の大量のニュースに関するテキストデータを第2のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。
【0032】
入力された学習用データ(201)を用いて特徴語抽出部(102)が関連文字列情報から特徴語を抽出する。(特徴語抽出ステップ:S2)
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。
【0033】
特徴語の抽出方法は、言語処理分野において公知であるが、特徴語の抽出で良く用いられる手法としてTF-IDFが挙げられる。TFは単語の出現頻度、IDFとは逆文書頻度であり、出現頻度の多い語句は重要という前提の上で、逆文書頻度を考慮することで特徴語が全記事においてどれくらいの記事で出現するかを表す尺度を導入する。IDFは、全記事数のうちからある語句が出現する記事数で割った値の対数に1を加えた値とするので、ある語句が出現する記事が少ないと大きくなり、どの記事にも出現する場合小さくなる。このIDFにTFを掛けたものがその語句の重み値とする。
【0034】
特徴語の抽出方法としては、他にSVM(平尾努,磯崎秀樹,前田英作,松本祐治:Support Vector Machineを用いた重要文抽出法,情報処理学会論文誌. Vol.44, No.8, pp.2230-2243 (2003))、KeyGraph(インターネットURL:http://iit.kke.co.jp/keygraph/ 2018年9月10日検索)など様々な方法が知られており、本発明では公知の方法を適宜使用することができる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。
【0035】
特徴語抽出ステップ(S2)によれば、関連文字列情報と第2テキストデータ群中の特徴語の対応付けができるので、関連文字列情報と対応するトピックデータと特徴語とも対応付けられる。本発明ではこの対応付けた情報をアスペクトデータ(202)と呼び、アスペクトデータ作成部(103)によって記憶部(20)に格納される。(アスペクトデータ作成ステップ:S3)
【0036】
アスペクトデータ(202)として最も単純なデータはトピック毎に特徴語が定義されることであり、従来技術と異なり、様々なトピックに対してアスペクトデータを対応づけていることに本発明の特徴がある。従って、最小限の構成としてはアスペクトデータに特徴語だけが定義されていてもよい。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。
【0037】
重み値としては、上述したTF-IDFにおける重み値など、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値を用いることができる。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。
【0038】
さらに、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値(マージンと呼ぶ)を格納することもできる。ここでマージンは、当該特徴語と他の特徴語とが同時に出現したと判断するかどうかの距離を指しており、本発明の関連度を算出する上で重要なパラメータである。距離値を含むアスペクトデータの例を表1に示す。
【0039】
【0040】
上記表の意味は、関連度を評価するテキストと、トピック「米国」に係る特徴語の重みについて、「アメリカ」であれば重み値が1で小さい反面、他の特徴語、すなわち「米国」「ニューヨーク」「トランプ大統領」と共起したかどうか判断するマージンが前に2500文字、後ろに2500字と広く設定されていることになる。一方、「トランプ大統領」が含まれる場合、それは米国に関連する確からしさがより高いと考えられて重み値が10となっている。この場合、範囲をより特定するためにマージンは前後それぞれ250と狭く設定されている。
【0041】
距離値の定義は、重み値が1の時は2500,5の時は1000,というように重み値に対応づけて機械的に定義してもよいし、手作業で特徴語を考慮しながら定義してもよい。
【0042】
以上の処理により学習工程を終え、結果としてアスペクトデータ(202)が生成される。
関連度評価工程では、入力処理部(101)から評価を行う対象の第1テキストデータ(203)を入力し、記憶部(20)に記録する。(テキストデータ入力ステップ:S4)
【0043】
次いで特徴語検索部(104)が、アスペクトデータ(202)を参照し、少なくとも1つのトピックについて、第1テキストデータ(203)に含まれる特徴語を検索する。(特徴語検索ステップ:S5)
具体的には、トピック毎にアスペクトデータ(202)に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。
【0044】
本実施例ではより複雑な処理を行っており、トピック毎の特徴語に重み値が設定されているので、その重み値に係る計算値を関連度とする。
図3は本発明に係る関連度の計算方法の説明図である。
本図は第1テキストデータ(203)の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。
【0045】
例えば、1段目の特徴語「アメリカ」は3000文字目にあって、マージンの前後2500文字として500文字から5500文字の範囲に重み1のグラフが描かれている。同じように8000文字目にあって5500文字から10500文字の範囲、14000文字目にあって11500文字から16500文字の範囲にもグラフが描かれる。
本実施例では同じルールに基づく検索結果はOR演算を行う。つまり、2段目の特徴語「米国」は4500文字目と8000文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくORをとることで2000文字から10500文字までが重み1のグラフとなる。
【0046】
特徴語「ニューヨーク」は4000文字目と14000文字目に出現して前後幅2000文字で重み3、「トランプ大統領」は4750文字目に出現して前後幅500文字で重み5と表される。
その上で、これらの重み値のAND演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、aの場所はトピック「米国」に関連がないことを示し、bやcは関連が高いことを示している。
【0047】
本発明では関連度を算出するために、重み値と共にマージンの概念を創出して、マージンを用いた演算を行ったことで、全く新しい関連度の算出方法を提供している。演算方法としては、上述したように同じルール(同じ特徴語)ではOR演算、異なるルール同士ではAND演算を行うことが好ましいが、同じ特徴語でAND演算を行ってもよいし、その他任意の計算値を用いることもできる。
【0048】
アスペクトデータ(202)の例として、1つの単語又は形態素からなる特徴語について重み値及び距離値を定義した例を示しているが、特徴語は複数の単語列でもよい。例えば「アメリカ合衆国ニューヨーク市」の単語列を特徴語としてもよい。
【0049】
また、2つの単語が所定の範囲内に共起する場合を1つのルールとしてもよい。例えば、単語Aと単語B又は単語Cが50文字以内に共起するというルール1をA(B C)<50と表す。50文字以内は例えばAがfish、Bがbirdであれば、fishのhと、birdのbの間が50字以内とする。このルール1の特徴度を1とすると
図4(a)のようにfishのfから、birdのdまで、重み1のグラフが描かれる。
【0050】
上記実施例と異なり、本実施例の
図4(b)では前後のマージンの範囲内において重み値が変化する例を示している。このように重み値は一定でなく、特徴語から離れるに応じて小さくなるように変化させてもよい。
【0051】
そして、
図4(c)のように、ルール1に定義されたAとBの共起によるグラフと、AとCの共起によるグラフの場合は、同じルール同士であるからORを取る。
一方、
図4(d)のように、ルール2にはX(Y Z)<100を定義し、XとYの共起によるグラフがある場合には、AとBの共起によるグラフと、XとYの共起によるグラフのANDを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。
【0052】
表示処理部(105)はモニタ(30)からトピック毎に区別して特徴語の検索結果に基づく値を関連度として表示する。表示方法は、
図3のようにグラフ化して表示することが好ましい。
図5には、第1の画面表示例を示す。画面の左側にはトピック欄(40)が配置され、ユーザーはキーボード(31)やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄(41)には重み値の計算値が線グラフで表示されている。スコア欄(41)は上端がテキストの先頭、下端が末尾である。
【0053】
スコア欄(41)を見ると横軸のスコアが高い位置が関連度の高い関連箇所を示しており、文章全体の中でトピックに関連する記述がどの位置にあるかを容易に把握することができる。スコア欄の線グラフをマウスなどで指定することで、当該記載部分を閲覧できるようにしてもよい。
【0054】
スコア欄(41)において閾値を超えた箇所は、その右欄の文書一覧表示(42)においてマーカー表示されている。ユーザーはトピック欄(40)からトピックを選ぶことで、そのトピックに関連する記載がどこにどのくらいの量記載されているのかを一目で理解することができる。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。
【0055】
図6には、第2の画面表示例を示す。本実施例では、左側のトピック欄(40)からトピックを選択すると、右側の関連箇所表示欄(43)において複数の文書の関連箇所を表示できるようになっている。例えば、白書のように毎年発行される文書を複数年度分指定してトピックを選択すると、各年度の白書において1つのトピックに関連する箇所が抽出される。所定の重み値の計算結果を超える部分だけを図のように配列すれば、複数の文書における同じトピックに係る記載を比較対照することが容易に行える。
【0056】
図7ではウェブブラウザにおいてウェブサイトの記事を表示すると共に、その横に関連度を示す棒グラフを表示する例を示している。棒グラフは記事の行の位置と一致しており、例えば検索窓に入力してユーザーが指定したトピックについて、記事のどの位置に関連する情報が記載されているか容易に分かるように構成されている。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。
【0057】
以上、本発明に係る表示例を示したが、関連度出力ステップ(S6)では、必ずしも結果を表示する必要はなく、あるトピックについて、テキストデータ(203)の中の関連箇所について関連度を出力する構成でもよい。関連度としては、上述したような重み値を計算した値のほか、関連の有り、無しだけの情報でもよい。
出力の態様も関連度の情報を図示しないメモリなどに一次的に格納したり、通信部(32)を介してネットワークを通じて別のコンピュータに送信する構成でもよい。
【0058】
本発明の別実施例として、アスペクトデータ作成ステップ(S3)において、アスペクトデータ作成部(103)が、トピックごとに抽出された特徴語の各々について階層情報を定義することができる。
例えば、表2のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層1、地域が階層2、トピックが階層3となる。
【0059】
【0060】
特徴語をこのように読者が理解しやすい概念情報で分類することで新聞記事から「アメリカ」について記載される広範囲な部分から、地域を特定し、さらに所望のトピックの部分までを段階に分けて把握することができるようになる。
【0061】
このような分類を行った場合、
図8に示すように所望のトピック(50)を選択すると、階層1(国名)の部分は薄いマーカー表示(51)、階層2(地域)が一致する部分は中濃度のマーカー表示(52)、選択されたトピック(50)の部分は濃いマーカー表示(53)で表示することができる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。
【0062】
上記階層情報をさらに、アスペクトデータ作成ステップ(S3)における重み値と距離値の定義に用いることができる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表2の例では、階層1は重み値が1、前後のマージンが2500字、階層2は重み値が5、前後のマージンが1000字、階層3は重み値が10、前後のマージンが250字である。
【0063】
このように定めておくと、特徴語が抽出された後、それを読者の理解しやすい概念情報に分類すると同時に階層が決まるので、重み値とマージンが適切に設定される。すなわち、階層情報に、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップ(S5)において、パターンに従った特徴語の検索条件を決定することができる。
【0064】
概念情報としては、国や地域、トピックについて辞書データやシソーラスなどのデータベースを参照し、上位概念から下位概念を自動的に分類することもできる。特徴語が抽出された後にこれらのデータベースと照合することで、例えば「アメリカ」「ニューヨーク」「トランプ大統領」であれば、国、地域、固有名詞であることから、上位概念、中位概念、下位概念の分類され、それに対応する階層情報、さらに重み値及び距離値の定義まで行うことができる。
【0065】
本発明は、以上のように読者の理解しやすい概念情報と、コンピュータが関連度を算出するときの値のセットをパターン化することができるので、関連度算出の高精度化に寄与すると同時に、ユーザーにも違和感のない結果を得ることができる。
【符号の説明】
【0066】
1 テキスト処理装置
10 CPU
101 入力処理部
102 特徴語抽出部
103 アスペクトデータ作成部
104 特徴語検索部
105 表示処理部
20 記憶部
201 学習用データ
202 アスペクトデータ
203 テキストデータ
30 モニタ
31 キーボード
32 通信部