(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-14
(45)【発行日】2023-12-22
(54)【発明の名称】テキスト表示方法及び、テキスト表示装置
(51)【国際特許分類】
G06F 40/106 20200101AFI20231215BHJP
G06F 16/34 20190101ALI20231215BHJP
G06F 16/338 20190101ALI20231215BHJP
【FI】
G06F40/106
G06F16/34
G06F16/338
(21)【出願番号】P 2018200324
(22)【出願日】2018-10-24
【審査請求日】2021-09-22
【新規性喪失の例外の表示】特許法第30条第2項適用 〔展示会名〕 第2回AI・人工知能EXPO 〔開催日〕 平成30年4月4日から6日 〔開催場所〕 東京ビックサイト 〔掲載アドレス〕 https://content-tokyo2018.tems-system.com/eguide/jp/AI/details?id=868 〔刊行物等〕 〔セミナー名〕 SOLIZE Innovationsセミナー 〔開催日〕 平成30年6月15日 〔開催場所〕 TKP品川カンファレンスセンター6Fバンケットホール6G 〔掲載アドレス〕 https://www.solize-group.com/event/2018/index.html
(73)【特許権者】
【識別番号】512209689
【氏名又は名称】SOLIZE株式会社
(74)【代理人】
【識別番号】100130111
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】皆川 裕司
(72)【発明者】
【氏名】地主 亮
(72)【発明者】
【氏名】木村 雅紀
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2001-060206(JP,A)
【文献】特開2013-130916(JP,A)
【文献】特開2000-010986(JP,A)
【文献】米国特許出願公開第2017/0300563(US,A1)
【文献】米国特許出願公開第2008/0077583(US,A1)
【文献】特開2010-055618(JP,A)
【文献】特開2010-146061(JP,A)
【文献】特表2010-511936(JP,A)
【文献】特開平08-314980(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06F 16/00-958
(57)【特許請求の範囲】
【請求項1】
テキストデータと、該テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータのテキスト表示方法であって、表示手段が、
該テキストデータ中の当該語句が含まれる行以外を含む文章全体を表示すると同時に、
その文章全体中の当該語句が含まれる行の位置に合わせて少なくとも棒グラフ又は折れ線グラフであるグラフを表示し、
同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示する構成において、
該グラフの態様を少なくとも棒グラフ又は折れ線グラフの高さとすることにより、文章全体と当該語句の分布とを合わせて表示する
構成において、
前記2つ以上の語句にはあらかじめ重み値が定義されると共に、
前記2つ以上の語句には、それらの語句が同時に出現したかどうかを決定する語句間の距離に係る距離値が定義され、
該重み値及び該距離値に応じてグラフの態様を変化させて表示する
ことを特徴とするテキスト表示方法。
【請求項2】
前記テキストデータを表示する際に、前記語句が含まれる一文全体、又は前記語句近傍の所定範囲の文章の表示態様を変化させる
請求項
1に記載のテキスト表示方法。
【請求項3】
入力された第1のテキストデータから、
着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価し、表示するコンピュータによるテキスト表示方法であって、
入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
の各ステップを有する学習工程の後、
入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
特徴語検索手段が、該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
トピック毎に区別して特徴語の検索結果に基づく値を該関連度とし、該関連度に応じてグラフの態様を変化させて表示する
の各ステップを有する関連度評価工程を行う、
請求項1
又は2に記載のテキスト表示方法。
【請求項4】
テキストデータと、該テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータを用いたテキスト表示装置であって、
該テキストデータ中の当該語句が含まれる行以外を含む文章全体を表示すると同時に、
その文章全体中の当該語句が含まれる行の位置に合わせて少なくとも棒グラフ又は折れ線グラフであるグラフを表示し、
同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示する構成において、
該グラフの態様を少なくとも棒グラフ又は折れ線グラフの高さとすることにより、文章全体と当該語句の分布とを合わせて表示する構成において、
前記2つ以上の語句にはあらかじめ重み値が定義されると共に、
前記2つ以上の語句には、それらの語句が同時に出現したかどうかを決定する語句間の距離に係る距離値が定義され、
該重み値及び該距離値に応じてグラフの態様を変化させて表示する
ことを特徴とするテキスト表示装置。
【請求項5】
前記テキストデータを表示する際に、前記語句が含まれる一文全体、又は前記語句近傍の所定範囲の文章の表示態様を変化させる
請求項
4に記載のテキスト表示装置。
【請求項6】
入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト表示装置であって、
複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
第1のテキストデータを入力するテキストデータ入力手段と、
該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索手段とを備え、
表示手段が、トピックごとに区別して、特徴語の検索結果に基づく値を該関連度とし、該関連度に応じてグラフの態様を変化させて表示する
請求項
4又は5に記載のテキスト表示装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータによるテキスト表示方法及び装置に関し、特に、テキストデータとテキストデータに含まれる2つ以上の語句の位置を表示する技術に係る。
【背景技術】
【0002】
電子化された大量の文書の中から、必要となる所望の文書を検索する技術が多数提案されている。最も簡単なものは検索する単語を入力し、その単語が含まれた文書を抽出して表示する技術である。インターネットにおける検索も、検索ロボットが自動的に収集した膨大なデータから、検索語が含まれるウェブデータなどを抽出して提示することで行われている。
【0003】
極めて大量の文書から、検索語が含まれる文書を短時間で抽出することはコンピュータのテキスト処理方法の大きな効果の1つであるが、抽出された文書の量やその文書の容量によっては、単に検索語が含まれているかだけでなく、どの程度の関連性を有しているかを評価する手法が求められる。
【0004】
例えば、特許文献1では、利用者の興味・関心に合った書籍・資料を書込み入りドキュメント画像を元に検索する資料検索装置等が提案されている。該装置では、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、テキストデータから第2の特徴語を抽出する特徴語抽出手段と、書込みの種類と位置とを用いて第2の特徴語の重要度を算出し、テキストデータの前記特徴語データを作成する特徴データ作成手段と、検索用インデックスと特徴語データとの関連度を計算する関連度計算手段とを具備する構成が開示されている。
【0005】
特許文献2では、ある特定の話題に対するテキスト集合から代表的な意見を抽出する方法が開示されている。すなわち、複数のコメントを含むテキスト集合から、代表的なコメントを抽出する代表コメント抽出方法において、テキスト集合から、テキスト集合の特徴を示す重要語を抽出する重要語抽出ステップと、複数のコメントを、重要語をもとにクラスタリングするクラスタリングステップと、クラスタリングで分割した各クラスタから、代表コメントを抽出する代表コメント抽出ステップにより、代表コメントを抽出することが開示されている。
【0006】
また、関連する技術として特許文献3には、商品カテゴリに対応した特徴語を自動的に学習する方法が提案されている。商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大1000件のWebテキストを取得する手段と、カテゴリ名をクエリとして得られた最大1000件のWebテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記の関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語デーベースと、を備えることが開示されている。
【0007】
上記のように関連度を算出した結果に限らず、単に文書から所定の単語を検索した結果を表示する際に、従来から広く行われているのは、結果に対応する語句をハイライトで表示したり、検索結果の表示色を変化させる手法である。テキスト全体の中でどの位置に結果が存在するかを提示する有効な方法自体が提供されていない。
特許文献4は、検索者が直感的に検索結果の分析を行うことができるようにする技術であり、検索時に関連度を求め、分析した結果をグラフ表示するものであるが、本文献でもテキストにおける検索結果の位置を明示することは実現されていない。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2015-179385号公報
【文献】特開2013-15971号公報
【文献】特開2010-9307号公報
【文献】特開2008-135057号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記従来技術では、検索結果や評価結果である2つ以上の語句の位置を表示する際に、多量のテキストの中でどの位置にそれらが分布しているのかを直感的に、あるいは迅速に認識することが難しい。
【0010】
本発明は上記従来技術の有する問題点に鑑みて創出されたものであり、テキストデータと、テキストデータに含まれる2つ以上の語句の位置を表示する際に、語句が含まれる行の位置に合わせてグラフを表示する技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明は上記課題を解決するため、本発明は次のようなテキスト表示方法及び装置を提供する。
すなわち、本発明の第1の実施態様によれば、テキストデータと、テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータのテキスト表示方法であって、表示手段が、当該語句が含まれる行の位置に合わせてグラフを表示すると共に、同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示するテキスト表示方法を提供することができる。
【0012】
本発明の第2の実施態様によれば、上記の2つ以上の語句にはあらかじめ重み値が定義される構成において、重み値に応じてグラフの態様を変化させて表示することもできる。
【0013】
本発明の第3の実施態様によれば、上記のテキストデータを表示する際に、上記の語句が含まれる一文全体、又は語句近傍の所定範囲の文章の表示態様を変化させることもできる。
【0014】
本発明の第4の実施態様によれば、上記のグラフが棒グラフ又は折れ線グラフであって、変化させるグラフの態様がグラフの高さであってもよい。
【0015】
本発明の第5の実施態様によれば、入力された第1のテキストデータから、着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価し、表示するコンピュータによるテキスト表示方法であって、入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、特徴語抽出手段が、関連文字列情報から特徴語を抽出する特徴語抽出ステップ、アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップの各ステップを有する学習工程の後、入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、特徴語検索手段が、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、トピック毎に区別して特徴語の検索結果に基づく値を関連度とし、関連度に応じてグラフの態様を変化させて表示するの各ステップを有する関連度評価工程を行う構成でもよい。
【0016】
本発明の第6の実施態様によれば、テキストデータと、テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータを用いたテキスト表示装置であって、当該語句が含まれる行の位置に合わせてグラフを表示すると共に、同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示する表示手段を備えたテキスト表示装置を提供することができる。
【0017】
本発明の第7の実施態様によれば、上記の2つ以上の語句にはあらかじめ重み値が定義される構成において、重み値に応じてグラフの態様を変化させて表示する構成でもよい。
【0018】
本発明の第8の実施態様によれば、上記のテキストデータを表示する際に、語句が含まれる一文全体、又は語句近傍の所定範囲の文章の表示態様を変化させてもよい。
【0019】
本発明の第9の実施態様によれば、上記のグラフが棒グラフ又は折れ線グラフであって、変化させるグラフの態様がグラフの高さであってもよい。
【0020】
本発明の第10の実施態様によれば、入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータを用いたテキスト表示装置であって、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、関連文字列情報から特徴語を抽出する特徴語抽出手段と、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、第1のテキストデータを入力するテキストデータ入力手段と、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索手段とを備え、上記の表示手段が、トピックごとに区別して、特徴語の検索結果に基づく値を関連度とし、関連度に応じてグラフの態様を変化させて表示するテキスト表示装置を提供することもできる。
【発明の効果】
【0021】
本発明によれば、検索結果や評価結果である2つ以上の語句の位置を表示する際に、多量のテキストの中でどの位置にそれらが分布しているのかを直感的に、あるいは迅速に認識させるための技術を提供することができる。
【図面の簡単な説明】
【0022】
【
図1】本発明におけるテキスト表示装置(1)の全体図である。
【
図2】本発明に係るテキスト表示方法のフローチャートである。
【
図3】本発明に係る関連度の計算方法の説明図である。
【
図4】本発明に係る関連度の計算方法の説明図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態を図面を用いて説明する。本発明は以下の実施例に限定されず請求項記載の範囲で適宜実施することができる。
図1は、本発明におけるテキスト表示装置(1)の全体図である。本装置(1)は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図2は本発明に係るテキスト表示方法のフローチャートである。
【0024】
本発明のテキスト表示方法は、テキストデータと、テキストデータに含まれる2つ以上の語句の位置をユーザーが直感的に、迅速に認識できる方法を提案する。ここで2つ以上の語句はどのように抽出されたものでもよく、例えばウェブブラウザやワードプロセッサ、表計算ソフト、業務処理ソフトなどの様々なソフトウェアにおいて、周知の検索機能を用いて検索結果を表示する際に適用することができる。
【0025】
いかなるソフトウェアにおいても、ある程度の長さを有するテキストデータを複数の行にわたって表示する際に、当該語句が含まれる行の位置に合わせてグラフを表示すると共に、同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示することができる。
【0026】
また、本発明をサーバ装置に実装することにより、端末装置から検索要求が行われ、サーバ装置において検索処理を行い、端末装置に結果を送信する際に本発明に係るグラフの表示を行うことができる。この場合、ウェブ検索サービスの結果表示方法として実施することもできる。
【0027】
以下では、表示する語句を決定する方法として、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価し、その関連度に従ってグラフ表示する構成を開示する。
【0028】
本実施例に係るテキスト表示方法は、大きく2つの工程に分けられる。事前に機械学習を行う学習工程と、学習工程によって作成されたアスペクトデータを用いて入力されるテキスト中の関連箇所について関連度を評価する関連度評価工程である。本実施例では学習工程と関連度評価工程を連続したものとして説明しているが、アスペクトデータを作成して記憶させておけば、関連度評価工程だけを実装して実施することができる。
【0029】
学習工程では、まず入力手段であるCPU(10)における入力処理部(101)が、ハードディスクなどの記憶部(20)に格納された学習用データ(201)を入力する。(学習用データ入力ステップ:S1)
学習用データ(201)は、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。
【0030】
トピックは、着目する話題を分類する項目であり、例えば技術文書であれば大項目から小項目に段階的に分類された見出しに対応させることもできるし、あるいは技術文書に含まれる一般的な要点を手作業で抽出したものでもよい。ニュースサイトや新聞、雑誌などの情報であれば、「国際」「経済」「社会」などのように分野別に分類されたもの、さらに「国際」という上位概念から「米国」「欧州」「中国」などのように下位概念に分類されたもの、などでもよい。あるいは「格差問題」「住宅問題」などのようにテーマ毎に分類されたものでもよい。
【0031】
さらに本発明の特徴として、トピックはテキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類されたものとした上で、この概念情報を後述する特徴語の検索における検索条件に反映させることもできる。
【0032】
入力する第2のテキストデータとは、学習に用いるためのテキストデータであって、少なくとも上記のトピックが含まれる文書に係るものであるが、トピックと何ら関係のないテキストデータを同時に入力してもよい。
【0033】
関連文字列情報は、第2のテキストデータ群におけるトピックについて記載された関連文字列を予め定義したものであり、原則としては人手によって関連性を判断されて定義される。
例えば、過去の大量のニュースに関するテキストデータを第2のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。
【0034】
入力された学習用データ(201)を用いて特徴語抽出部(102)が関連文字列情報から特徴語を抽出する。(特徴語抽出ステップ:S2)
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。
【0035】
特徴語の抽出方法は、言語処理分野において公知であるが、特徴語の抽出で良く用いられる手法としてTF-IDFが挙げられる。TFは単語の出現頻度、IDFとは逆文書頻度であり、出現頻度の多い語句は重要という前提の上で、逆文書頻度を考慮することで特徴語が全記事においてどれくらいの記事で出現するかを表す尺度を導入する。IDFは、全記事数のうちからある語句が出現する記事数で割った値の対数に1を加えた値とするので、ある語句が出現する記事が少ないと大きくなり、どの記事にも出現する場合小さくなる。このIDFにTFを掛けたものがその語句の重み値とする。
【0036】
特徴語の抽出方法としては、他にSVM(平尾努,磯崎秀樹,前田英作,松本祐治:Support Vector Machineを用いた重要文抽出法,情報処理学会論文誌. Vol.44, No.8, pp.2230-2243 (2003))、KeyGraph(インターネットURL:http://iit.kke.co.jp/keygraph/ 2018年9月10日検索)など様々な方法が知られており、本発明では公知の方法を適宜使用することができる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。
【0037】
特徴語抽出ステップ(S2)によれば、関連文字列情報と第2テキストデータ群中の特徴語の対応付けができるので、関連文字列情報と対応するトピックデータと特徴語とも対応付けられる。本発明ではこの対応付けた情報をアスペクトデータ(202)と呼び、アスペクトデータ作成部(103)によって記憶部(20)に格納される。(アスペクトデータ作成ステップ:S3)
【0038】
アスペクトデータ(202)として最も単純なデータはトピック毎に特徴語が定義されることであり、従来技術と異なり、様々なトピックに対してアスペクトデータを対応づけていることに本発明の特徴がある。従って、最小限の構成としてはアスペクトデータに特徴語だけが定義されていてもよい。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。
【0039】
重み値としては、上述したTF-IDFにおける重み値など、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値を用いることができる。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。
【0040】
さらに、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値(マージンと呼ぶ)を格納することもできる。ここでマージンは、当該特徴語と他の特徴語とが同時に出現したと判断するかどうかの距離を指しており、本発明の関連度を算出する上で重要なパラメータである。距離値を含むアスペクトデータの例を表1に示す。
【0041】
【0042】
上記表の意味は、関連度を評価するテキストと、トピック「米国」に係る特徴語の重みについて、「アメリカ」であれば重み値が1で小さい反面、他の特徴語、すなわち「米国」「ニューヨーク」「トランプ大統領」と共起したかどうか判断するマージンが前に2500文字、後ろに2500字と広く設定されていることになる。一方、「トランプ大統領」が含まれる場合、それは米国に関連する確からしさがより高いと考えられて重み値が10となっている。この場合、範囲をより特定するためにマージンは前後それぞれ250と狭く設定されている。
【0043】
距離値の定義は、重み値が1の時は2500,5の時は1000,というように重み値に対応づけて機械的に定義してもよいし、手作業で特徴語を考慮しながら定義してもよい。
【0044】
以上の処理により学習工程を終え、結果としてアスペクトデータ(202)が生成される。
関連度評価工程では、入力処理部(101)から評価を行う対象の第1テキストデータ(203)を入力し、記憶部(20)に記録する。(テキストデータ入力ステップ:S4)
【0045】
次いで特徴語検索部(104)が、アスペクトデータ(202)を参照し、少なくとも1つのトピックについて、第1テキストデータ(203)に含まれる特徴語を検索する。(特徴語検索ステップ:S5)
具体的には、トピック毎にアスペクトデータ(202)に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。
【0046】
本実施例ではより複雑な処理を行っており、トピック毎の特徴語に重み値が設定されているので、その重み値に係る計算値を関連度とする。
図3は本発明に係る関連度の計算方法の説明図である。
本図は第1テキストデータ(203)の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。
【0047】
例えば、1段目の特徴語「アメリカ」は3000文字目にあって、マージンの前後2500文字として500文字から5500文字の範囲に重み1のグラフが描かれている。同じように8000文字目にあって5500文字から10500文字の範囲、14000文字目にあって11500文字から16500文字の範囲にもグラフが描かれる。
本実施例では同じルールに基づく検索結果はOR演算を行う。つまり、2段目の特徴語「米国」は4500文字目と8000文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくORをとることで2000文字から10500文字までが重み1のグラフとなる。
【0048】
特徴語「ニューヨーク」は4000文字目と14000文字目に出現して前後幅2000文字で重み3、「トランプ大統領」は4750文字目に出現して前後幅500文字で重み5と表される。
その上で、これらの重み値のAND演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、aの場所はトピック「米国」に関連がないことを示し、bやcは関連が高いことを示している。
【0049】
本発明では関連度を算出するために、重み値と共にマージンの概念を創出して、マージンを用いた演算を行ったことで、全く新しい関連度の算出方法を提供している。演算方法としては、上述したように同じルール(同じ特徴語)ではOR演算、異なるルール同士ではAND演算を行うことが好ましいが、同じ特徴語でAND演算を行ってもよいし、その他任意の計算値を用いることもできる。
【0050】
アスペクトデータ(202)の例として、1つの単語又は形態素からなる特徴語について重み値及び距離値を定義した例を示しているが、特徴語は複数の単語列でもよい。例えば「アメリカ合衆国ニューヨーク市」の単語列を特徴語としてもよい。
【0051】
また、2つの単語が所定の範囲内に共起する場合を1つのルールとしてもよい。例えば、単語Aと単語B又は単語Cが50文字以内に共起するというルール1をA(B C)<50と表す。50文字以内は例えばAがfish、Bがbirdであれば、fishのhと、birdのbの間が50字以内とする。このルール1の特徴度を1とすると
図4(a)のようにfishのfから、birdのdまで、重み1のグラフが描かれる。
【0052】
上記実施例と異なり、本実施例の
図4(b)では前後のマージンの範囲内において重み値が変化する例を示している。このように重み値は一定でなく、特徴語から離れるに応じて小さくなるように変化させてもよい。
【0053】
そして、
図4(c)のように、ルール1に定義されたAとBの共起によるグラフと、AとCの共起によるグラフの場合は、同じルール同士であるからORを取る。
一方、
図4(d)のように、ルール2にはX(Y Z)<100を定義し、XとYの共起によるグラフがある場合には、AとBの共起によるグラフと、XとYの共起によるグラフのANDを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。
【0054】
表示処理部(105)はモニタ(30)からトピック毎に区別して特徴語の検索結果に基づく値を関連度として表示する。表示方法は、
図3のようにグラフ化して表示することが好ましい。
図5には、第1の画面表示例を示す。画面の左側にはトピック欄(40)が配置され、ユーザーはキーボード(31)やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄(41)には重み値の計算値が折れ線グラフで表示されている。スコア欄(41)は上端がテキストの先頭、下端が末尾である。
【0055】
スコア欄(41)を見ると横軸のスコアが高い位置が関連度の高い関連箇所を示しており、文章全体の中でトピックに関連する記述がどの位置にあるかを容易に把握することができる。スコア欄の折れ線グラフをマウスなどで指定することで、当該記載部分を閲覧できるようにしてもよい。
【0056】
スコア欄(41)において閾値を超えた箇所は、その右欄の文書一覧表示(42)においてマーカー表示されている。ユーザーはトピック欄(40)からトピックを選ぶことで、そのトピックに関連する記載がどこにどのくらいの量記載されているのかを一目で理解することができる。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。
【0057】
図6には、第2の画面表示例を示す。本実施例では、左側のトピック欄(40)からトピックを選択すると、右側の関連箇所表示欄(43)において複数の文書の関連箇所を表示できるようになっている。例えば、白書のように毎年発行される文書を複数年度分指定してトピックを選択すると、各年度の白書において1つのトピックに関連する箇所が抽出される。所定の重み値の計算結果を超える部分だけを図のように配列すれば、複数の文書における同じトピックに係る記載を比較対照することが容易に行える。
【0058】
図7ではウェブブラウザにおいてウェブサイトの記事を表示すると共に、その横に関連度を示す棒グラフを表示する例を示している。棒グラフは記事の行の位置と一致しており、例えば検索窓に入力してユーザーが指定したトピックについて、記事のどの位置に関連する情報が記載されているか容易に分かるように構成されている。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。
【0059】
本発明の別実施例として、アスペクトデータ作成ステップ(S3)において、アスペクトデータ作成部(103)が、トピックごとに抽出された特徴語の各々について階層情報を定義することができる。
例えば、表2のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層1、地域が階層2、トピックが階層3となる。
【0060】
【0061】
特徴語をこのように読者が理解しやすい概念情報で分類することで新聞記事から「アメリカ」について記載される広範囲な部分から、地域を特定し、さらに所望のトピックの部分までを段階に分けて把握することができるようになる。
【0062】
このような分類を行った場合、
図8に示すように所望のトピック(50)を選択すると、階層1(国名)の部分は薄いマーカー表示(51)、階層2(地域)が一致する部分は中濃度のマーカー表示(52)、選択されたトピック(50)の部分は濃いマーカー表示(53)で表示することができる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。
【0063】
上記階層情報をさらに、アスペクトデータ作成ステップ(S3)における重み値と距離値の定義に用いることができる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表2の例では、階層1は重み値が1、前後のマージンが2500字、階層2は重み値が5、前後のマージンが1000字、階層3は重み値が10、前後のマージンが250字である。
【0064】
このように定めておくと、特徴語が抽出された後、それを読者の理解しやすい概念情報に分類すると同時に階層が決まるので、重み値とマージンが適切に設定される。すなわち、階層情報に、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップ(S5)において、パターンに従った特徴語の検索条件を決定することができる。
【0065】
概念情報としては、国や地域、トピックについて辞書データやシソーラスなどのデータベースを参照し、上位概念から下位概念を自動的に分類することもできる。特徴語が抽出された後にこれらのデータベースと照合することで、例えば「アメリカ」「ニューヨーク」「トランプ大統領」であれば、国、地域、固有名詞であることから、上位概念、中位概念、下位概念の分類され、それに対応する階層情報、さらに重み値及び距離値の定義まで行うことができる。
【0066】
本発明は、以上のように読者の理解しやすい概念情報と、コンピュータが関連度を算出するときの値のセットをパターン化することができるので、関連度算出の高精度化に寄与すると同時に、ユーザーにも違和感のない結果を得ることができる。
【符号の説明】
【0067】
1 テキスト表示装置
10 CPU
101 入力処理部
102 特徴語抽出部
103 アスペクトデータ作成部
104 特徴語検索部
105 表示処理部
20 記憶部
201 学習用データ
202 アスペクトデータ
203 テキストデータ
30 モニタ
31 キーボード
32 通信部