IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 有限会社トピックメーカーの特許一覧

特開2024-3882情報処理プログラム、情報処理装置及びデータ構造
<>
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図1
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図2
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図3
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図4
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図5
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図6
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図7
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図8
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図9
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図10
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図11
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図12
  • 特開-情報処理プログラム、情報処理装置及びデータ構造 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024003882
(43)【公開日】2024-01-16
(54)【発明の名称】情報処理プログラム、情報処理装置及びデータ構造
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240109BHJP
   G06F 16/383 20190101ALI20240109BHJP
【FI】
G06F16/35
G06F16/383
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022103210
(22)【出願日】2022-06-28
(71)【出願人】
【識別番号】503454713
【氏名又は名称】株式会社トピックメーカー
(74)【代理人】
【識別番号】100180758
【弁理士】
【氏名又は名称】荒木 利之
(72)【発明者】
【氏名】草薙 裕二
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FA03
(57)【要約】
【課題】文書集合において利用者の所望する情報に辿り着くために案内する情報処理プログラム、情報処理装置及びデータ構造を提供する。
【解決手段】情報処理装置1は、複数の文書情報111から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量情報113を得る特徴量算出手段102と、当該一の語句と他の語句の当該特徴量情報113を比較することにより当該一の語句と当該他の語句の間の類似度を推定する類似度推定手段103と、当該一の語句と類似度の高い他の語句群を類似語集合情報115として生成する類似語集合生成手段104とを有する。
【選択図】図1


【特許請求の範囲】
【請求項1】
コンピュータを、
複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得る特徴量算出手段と、
当該一の語句と他の語句の当該特徴量を比較することにより当該一の語句と当該他の語句の間の類似度を推定する類似度推定手段と、
当該一の語句と類似度の高い他の語句群を類似語集合として生成する類似語集合生成手段として機能させる情報処理プログラム。
【請求項2】
前記特徴量算出手段は、前記一の語句及び前記他の語句として、前記複数の文書情報において出現頻度が予め定めた値以上の語句を採用する請求項1に記載の情報処理プログラム。
【請求項3】
第1の語句の入力又は選択を受け付けると、前記類似語集合を参照し、当該第1の語句の類似語集合を表示するとともに、表示した類似語集合から第2の語句の選択を受け付けると、当該第2の語句の類似語集合を表示し、前記第1の語句及び前記第2の語句を履歴として表示する表示手段としてさらに機能させる請求項1に記載の情報処理プログラム。
【請求項4】
前記表示手段は、当該第2の語句と類似度の高い語句群のうち前記第1の語句と類似度の高い語句の表示方法を変更する請求項3に記載の情報処理プログラム。
【請求項5】
前記表示手段は、前記第1の語句、前記第2の語句又は前記第1の語句若しくは前記第2の語句と類似度の高い語句群のうち選択された語句を見出し語とする文書情報の内容を表示する請求項1から4のいずれか1項に記載の情報処理プログラム。
【請求項6】
前記表示手段は、前記第1の語句、前記第2の語句又は前記第1の語句若しくは前記第2の語句と類似度の高い語句群のうち選択された語句を含む文書情報の内容を表示する請求項1から4のいずれか1項に記載の情報処理プログラム。
【請求項7】
前記複数の文書情報は、複数の言語について用意され、前記語句は複数の言語において互いに訳語として関連付けられており、
前記類似語集合生成手段は、複数の言語のそれぞれの言語について動作を実行して、複数の言語のそれぞれについて類似語集合を生成し、
第1の言語において第1の語句の入力又は選択を受け付けると、前記類似語集合を参照し、当該第1の語句の類似語集合を表示するとともに、表示した類似語集合から第2の語句の訳語の選択を受け付けると、当該訳語に対応する第2の言語において当該第2の語句の類似語集合を表示する表示手段としてさらに機能させる請求項1に記載の情報処理プログラム。
【請求項8】
前記複数の文書情報に含まれる語句のうち出現頻度の高い語を第1の案内語とし、当該第1の案内語の類似語集合のうち前記出現頻度の高い語句であって、当該出現頻度の高い語句の類似語集合が前記第1の案内語の類似語集合と類似しない語句を第2の案内語として抽出し、前記第1の案内語及び前記第2の案内語の集合を前記第1の語句として用いる案内語情報とする案内語抽出手段としてさらに機能させる請求項1から4のいずれか1項に記載の情報処理プログラム。
【請求項9】
前記表示手段は、前記複数の文書情報の含まれる語句のうち出現頻度の高い語である第1の案内語と、当該第1の案内語の類似語集合のうち前記出現頻度の高い語句であって、当該出現頻度の高い語句の類似語集合が前記第1の案内語の類似語集合と類似しない語句である第2の案内語とを案内語として表示する請求項1から4のいずれか1項に記載の情報処理プログラム。
【請求項10】
複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得る特徴量算出手段と、
当該一の語句と他の語句の当該特徴量を比較することにより当該一の語句と当該他の語句の間の類似度を推定する類似度推定手段と、
当該一の語句と類似度の高い他の語句群を類似語集合として生成する類似語集合生成手段とを有する情報処理装置。
【請求項11】
複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得て、当該一の語句と他の語句の当該特徴量を比較することにより推定される当該一の語句と当該他の語句の間の類似度に基づいて、当該一の語句と類似度の高い他の語句群を含む類似語集合であって、
第1の語句の入力又は選択を受け付けた場合、前記類似語集合が参照され、当該第1の語句の類似語集合が表示されるとともに、表示された類似語集合から第2の語句の選択を受け付けた場合、当該第2の語句の類似語集合が表示され、前記第1の語句及び前記第2の語句が履歴として表示されるデータ構造。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理装置及びデータ構造に関する。
【背景技術】
【0002】
情報を検索する際、インターネット検索が日常的に用いられている。しかし、検索可能な情報が膨大過ぎて、当該情報から人手で分かりやすい情報目次(インデックス)を作成することは困難である。当該情報は日々増大し、インデックスによらずに検索を行う以外に、所望の情報に辿り着く手段はなくなりつつある。
【0003】
また、検索の際に適切なキーワードを思いつかない場合、利用者は思いついたキーワードで何度も検索し、掲示された情報を見て、ようやく所望の情報にたどり着くという作業が必要となる。これらの課題を解決する手段として、情報をクラスタリングするとともに、利用者にとって必要な情報と不要な情報とを分別する技術がある。
【0004】
従来の技術として、利用者が所望しない文書を排除する場合、利用者の意図に沿わない分類をすることを減少する情報処理装置が提案されている(例えば、特許文献1参照)。
【0005】
特許文献1に開示された情報処理装置は、文書集合中の文書データ同士の距離を類似度等に基づいて計算し、閾値処理によって類似文書群(クラスタ)を生成し、利用者が、何らかの意図に基づいて、不可視状態とする指示を与えたクラスタに属する全文書を、一括して不可視状態にする。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第4477036号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、上記した特許文献1の情報処理装置は、文書集合をクラスタに分けて、利用者が不要とする文書集合を不可視状態とするものの、クラスタを辿って利用者が所望する情報に辿り着くために案内しないし、文書のインデックスを生成するものでもない。
【0008】
従って本発明の目的は、文書集合において利用者の所望する文書に辿り着くために案内する情報処理プログラム、情報処理装置及びデータ構造を提供することにある。
【課題を解決するための手段】
【0009】
本発明の一態様は、上記目的を達成するため、以下の情報処理プログラム、情報処理装置及びデータ構造を提供する。
【0010】
[1]コンピュータを、
複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得る特徴量算出手段と、
当該一の語句と他の語句の当該特徴量を比較することにより当該一の語句と当該他の語句の間の類似度を推定する類似度推定手段と、
当該一の語句と類似度の高い他の語句群を類似語集合として生成する類似語集合生成手段として機能させる情報処理プログラム。
[2]前記特徴量算出手段は、前記一の語句及び前記他の語句として、前記複数の文書情報において出現頻度が予め定めた値以上の語句を採用する前記[1]に記載の情報処理プログラム。
[3]第1の語句の入力又は選択を受け付けると、前記類似語集合を参照し、当該第1の語句の類似語集合を表示するとともに、表示した類似語集合から第2の語句の選択を受け付けると、当該第2の語句の類似語集合を表示し、前記第1の語句及び前記第2の語句を履歴として表示する表示手段としてさらに機能させる前記[1]に記載の情報処理プログラム。
[4]前記表示手段は、当該第2の語句と類似度の高い語句群のうち前記第1の語句と類似度の高い語句の表示方法を変更する前記[3]に記載の情報処理プログラム。
[5]前記表示手段は、前記第1の語句、前記第2の語句又は前記第1の語句若しくは前記第2の語句と類似度の高い語句群のうち選択された語句を見出し語とする文書情報の内容を表示する前記[1]から[4]のいずれかに記載の情報処理プログラム。
[6]前記表示手段は、前記第1の語句、前記第2の語句又は前記第1の語句若しくは前記第2の語句と類似度の高い語句群のうち選択された語句を含む文書情報の内容を表示する前記[1]から[4]のいずれかに記載の情報処理プログラム。
[7]前記複数の文書情報は、複数の言語について用意され、前記語句は複数の言語において互いに訳語として関連付けられており、
前記類似語集合生成手段は、複数の言語のそれぞれの言語について動作を実行して、複数の言語のそれぞれについて類似語集合を生成し、
第1の言語において第1の語句の入力又は選択を受け付けると、前記類似語集合を参照し、当該第1の語句の類似語集合を表示するとともに、表示した類似語集合から第2の語句の訳語の選択を受け付けると、当該訳語に対応する第2の言語において当該第2の語句の類似語集合を表示する表示手段としてさらに機能させる請求項1に記載の情報処理プログラム。
[8]前記複数の文書情報に含まれる語句のうち出現頻度の高い語を第1の案内語とし、当該第1の案内語の類似語集合のうち前記出現頻度の高い語句であって、当該出現頻度の高い語句の類似語集合が前記第1の案内語の類似語集合と類似しない語句を第2の案内語として抽出し、前記第1の案内語及び前記第2の案内語の集合を前記第1の語句として用いる案内語情報とする案内語抽出手段としてさらに機能させる前記[1]から[4]のいずれかに記載の情報処理プログラム。
[9]前記表示手段は、前記複数の文書情報の含まれる語句のうち出現頻度の高い語である第1の案内語と、当該第1の案内語の類似語集合のうち前記出現頻度の高い語句であって、当該出現頻度の高い語句の類似語集合が前記第1の案内語の類似語集合と類似しない語句である第2の案内語とを案内語として表示する前記[1]から[4]のいずれかに記載の情報処理プログラム。
[10]複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得る特徴量算出手段と、
当該一の語句と他の語句の当該特徴量を比較することにより当該一の語句と当該他の語句の間の類似度を推定する類似度推定手段と、
当該一の語句と類似度の高い他の語句群を類似語集合として生成する類似語集合生成手段とを有する情報処理装置。
[11]複数の文書情報から一の語句を含む一定の範囲の文を抽出し、当該一定の範囲の文の共起語と出現頻度から特徴量を得て、当該一の語句と他の語句の当該特徴量を比較することにより推定される当該一の語句と当該他の語句の間の類似度に基づいて、当該一の語句と類似度の高い他の語句群を含む類似語集合であって、
第1の語句の入力又は選択を受け付けた場合、前記類似語集合が参照され、当該第1の語句の類似語集合が表示されるとともに、表示された類似語集合から第2の語句の選択を受け付けた場合、当該第2の語句の類似語集合が表示され、前記第1の語句及び前記第2の語句が履歴として表示されるデータ構造。
【発明の効果】
【0011】
請求項1、10、11に係る発明によれば、文書集合において利用者の所望する文書に辿り着くために案内することができる。
請求項2に係る発明によれば、一の語句及び他の語句として、複数の文書情報において出現頻度が予め定めた値以上の語句を採用することができる。
請求項3に係る発明によれば、第1の語句及び第2の語句を履歴として表示することができる。
請求項4に係る発明によれば、第2の語句と類似度の高い語句群のうち第1の語句と類似度の高い語句の表示方法を変更することができる。
請求項5に係る発明によれば、語句を文書情報の見出しとすることができる。
請求項6に係る発明によれば、語句を文書情報に含まれる語句とすることができる。
請求項7に係る発明によれば、複数の言語の文書集合において利用者の所望する文書に辿り着くために案内することができる。
請求項8に係る発明によれば、案内語を抽出することができる。
請求項9に係る発明によれば、案内語を表示することができる。
【図面の簡単な説明】
【0012】
図1図1は、実施の形態に係る情報処理システムの構成の一例を示す概略図である。
図2図2は、実施の形態に係る情報処理装置の構成例を示すブロック図である。
図3図3は、文書情報の構成例を示す概略図である。
図4図4は、解析情報の構成例を示す概略図である。
図5図5は、類似度情報の構成例を示す概略図である。
図6図6は、類似語集合情報及び案内語情報の構成例を示す概略図である。
図7図7は、端末の表示部に表示される画面の構成の一例を示す概略図である。
図8図8は、端末の表示部に表示される画面の構成の他の例を示す概略図である。
図9図9は、端末の表示部に表示される画面の構成の他の例を示す概略図である。
図10図10は、情報処理装置の準備動作の一例を示すフローチャートである。
図11図11は、案内語抽出動作の一例を示すフローチャートである。
図12図12は、インデックス生成動作の一例を示すフローチャートである。
図13図13は、日本語による類似語集合情報及び英語による類似語集合情報の構成例を示す概略図である。
【発明を実施するための形態】
【0013】
[実施の形態]
(情報処理システムの構成)
図1は、実施の形態に係る情報処理システムの構成の一例を示す概略図である。
【0014】
この情報処理システム5は、情報処理装置1と、文書データベース2と、端末3とをネットワーク4によって互いに通信可能に接続することで構成される。端末3は、それぞれ利用者によって操作される。
【0015】
情報処理装置1は、例えば、サーバ型の情報処理装置であり、端末3の要求に応じて動作するものであって、本体内に情報を処理するための機能を有するCPU(Central Processing Unit)やフラッシュメモリ等の電子部品を備える。
【0016】
文書データベース2は、例えば、ウィキペディア等の知識を解説するウェブページ、ツイッター等のテキストコンテンツを含むSNS(Social Networking Service)等であり、複数の文書情報を格納し、情報処理装置1又は端末3の要求に応じて情報を読み出して提供する。
【0017】
端末3は、PC(Personal Computer)等の情報処理装置であって、本体内に情報を処理するための機能を有するCPUやフラッシュメモリ等の電子部品を備える。
【0018】
ネットワーク4は、高速通信が可能な通信ネットワークであり、例えば、インターネットやLAN(Local Area Network)等の有線又は無線の通信網である。
【0019】
(情報処理装置の構成)
図2は、実施の形態に係る情報処理装置1の構成例を示すブロック図である。
【0020】
情報処理装置1は、CPU等から構成され、各部を制御するとともに、各種のプログラムを実行する制御部10と、フラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部11と、ネットワークを介して外部と通信する通信部12とを備える。
【0021】
制御部10は、後述する情報処理プログラム110を実行することで、文書取得手段100、文書解析手段101、特徴量算出手段102、類似度算出手段103、類似語集合生成手段104、類似語表示手段105、案内語抽出手段106、語句選択受付手段107等として機能する。
【0022】
文書取得手段100は、文書データベース2から文書情報を取得し、記憶部11に文書情報111として格納する。なお、文書情報111は、見出し語と当該見出し語を説明するための本文(文書内容)を有するものとする。また、文書情報111は、他の言語に対する訳語をさらに有していてもよい。また、文書情報111は、必ずしも見出し語を有していなくともよく、見出し語を有していないケースについては後述する。
【0023】
文書解析手段101は、文書情報111の本文を形態素解析するとともに、語句の出現頻度、品詞等の集計を行い、文書情報111に対する解析情報112として記憶部11に格納する。
【0024】
特徴量算出手段102は、解析情報112を参照し、出現頻度が予め定めた値以上の語句(見出し語)について、当該語句を含む予め定めた範囲の文を文書情報111全体から取得し、当該語句を中心として共起する語句に基づいて特徴量ベクトルを算出し、特徴量情報113として記憶部11に格納する。
【0025】
類似度算出手段103は、2つの見出しの特徴量情報113から、語句(見出し語)間の類似度を算出して類似度情報114として記憶部11に格納する。
【0026】
類似語集合生成手段104は、類似度情報114に基づいてある見出し語に対して類似度が高い見出し語を類似語として収集し、類似語集合情報115として記憶部11に格納する。
【0027】
類似語表示手段105は、類似語集合情報115を参照し、任意の見出し語が選択された場合に当該見出し語の類似語集合を表示する。また、類似語表示手段105は、当該見出し語がある類似語集合から選択されたものである場合、選択元の類似語集合に含まれる見出し語を表示しない(表示方法を変更する)ようにしてもよい(後述するマスク表示。)。
【0028】
案内語抽出手段106は、検索を開始する際に選択する語句として適切な語句を案内語として抽出し、案内語情報116として記憶部11に格納する。なお、案内語の抽出方法は後述する。
【0029】
語句選択受付手段107は、端末3に入力された操作内容に応じて語句の選択又は入力を受け付ける。
【0030】
記憶部11は、制御部10を上述した各手段100-107として動作させる情報処理プログラム110、文書情報111、解析情報112、特徴量情報113、類似度情報114、類似語集合情報115、案内語情報116等を記憶する。
【0031】
図3は、文書情報111の構成例を示す概略図である。
【0032】
文書情報111は、文書情報を識別するための文書IDと、文書情報のタイトルである見出し語と、文書情報の本文である文書内容と、見出し語の他言語タイトル及び当該他言語タイトルの文書情報へのリンクを含む訳語とを有する。
【0033】
図4は、解析情報112の構成例を示す概略図である。
【0034】
解析情報112は、文書情報の文書内容を形態素解析した結果であって、文書IDと、見出し語と、文書内容での単語の出現頻度と、単語と、単語の読みであるよみと、単語の品詞とを有する。なお、図4に示す解析情報112は、単一の文書情報に関するものだが、文書情報111のすべての文書IDの文書情報について解析情報112が用意されているものとする。
【0035】
図5は、類似度情報114の構成例を示す概略図である。
【0036】
類似度情報114は、主体となる見出し語1と、見出し語1の比較対象である見出し語2と、見出し語1と見出し語2との間の特徴量ベクトルにおける類似度とを有する。
【0037】
(情報処理装置の動作)
次に、本実施の形態の作用を、(1)準備動作、(2)インデックス生成動作に分けて説明する。
【0038】
(1)準備動作
(1-1)類似語集合生成動作
図10は、情報処理装置の準備動作の一例を示すフローチャートである。
【0039】
まず、情報処理装置1の文書取得手段100は、文書データベース2から文書情報を取得し、記憶部11に文書情報111として格納する(S1)。図3に示すように、文書情報111は、見出し語と当該見出し語を説明するための本文(文書内容)を有し、さらに他の言語に対する訳語をさらに有する。訳語に対しても文書内容が用意され、訳語URLにアクセスすることによりその内容を確認でき。また、訳語の本文も解析対象とすると、他の言語(英語等)の訳語の類似語集合を作ることが可能となり、見出し語と訳語の見出し語を相互リンクし、2つの類似語集合を結びつけることが可能となるが、ここでは記載を省略している。
【0040】
次に、文書解析手段101は、文書情報111の本文を目的に合わせて不要な記号、テキスト等を取り除く正規化を行った後、形態素解析するとともに、図4に示すように、品詞等の出現頻度等の集計を行い、見出し語に対する解析情報112として記憶部11に格納する(S2)。なお、文書情報111が英語のように単語毎に予め分離されている言語の場合は品詞と出現頻度等の集計を行い、解析情報112を生成する。
【0041】
次に、特徴量算出手段102は、解析情報112の出現頻度を参照し、予め定めた値、例えば、30以上の出現頻度を有する語句であって、本実施の形態では見出し語である語句を特徴量算出対象とする。次に、特徴量算出手段102は、当該語句が含まれる文を予め定めた範囲、例えば、当該語句が含まれる文が属する段落の文を取得し、当該語句の前後5つ以内に出現する語句(共起語)とその出現頻度から特徴量ベクトルを生成し、特徴量情報113として記憶部11に格納する(S3)。当該前後5つ以内に出現する語句は、当該語句との文中での近さも考慮され、当該語句の概念を表す要素として考慮される。特徴量の計算において、文の区切り方や近さの最適な範囲等は、解析対象のコーパスによって異なってくる。具体的な計算方法としては、言語ベクトルの機械学習エンジンを使って共起語とその出現頻度からベクトル化する。
【0042】
次に、類似度算出手段103は、2つの見出し語の特徴量情報113を比較し、見出し語間の類似度を算出して、図5に示すように、類似度情報114として記憶部11に格納する(S4)。具体的には、2つの見出し語間の特徴量情報113のベクトルの距離を算出して正規化し類似度とする。
【0043】
次に、類似語集合生成手段104は、類似度情報114に基づいてある見出し語に対して類似度が高い順に予め定めた数の見出し語を、又は予め定めた類似度以上の見出し語を類似語(語句群)として収集し、後述する図6に示すように、類似語集合情報115として記憶部11に格納する(S5)。
【0044】
(1-2)案内語抽出動作
また、案内語抽出手段106は、最初に選択する語句として適切な語句を案内語として抽出し、案内語情報116として記憶部11に格納する。なお、案内語の抽出方法は以下の手順で行う。
【0045】
図11は、案内語抽出動作の一例を示すフローチャートである。
【0046】
まず、案内語抽出手段106は、解析情報112から全文書情報(又はあるカテゴリに含まれる文書情報)の本文中で、使用されている語句の内、見出し語や見出しとしてふさわしい専用語辞書等の語句の出現頻度を得る(S11)。次に、出現頻度の高い語句順に、これを見出し語(第1の案内語)とした類似語を類似語集合情報115から一定数、例えば300個得る(S12)。次に、この300個の中で、(S11)の出現頻度が高くかつ類似度が比較的低い順に一定数、例えば20個の語句を得る(S13)。
【0047】
次に、案内語抽出手段106は、取得した20個の語句を、今度は見出し語として、それぞれ300個の類似語を得る(S14)。ここで、(S12)で得た300個の類似語と、(S14)で得た20の見出し語の各300個の類似語を比較する(S15)。
【0048】
次に、案内語抽出手段106は、比較によって、(S12)の類似語と重複した語が一定比率、例えば4割を超えた場合(S16;Yes)、は(S13)の20のリストから省いてゆく(S17)。省いた結果、20から残った語句(第2の案内語)を、(S12)の見出し語をカテゴリー名とした案内語のグループとして案内語情報116に登録する(S18)。
【0049】
さらに、案内語抽出手段106は、語の出現頻度順に(S12)から(S17)のステップを繰り返す(S19)。ただし、作成した案内語の中に、すでに登録した語が出てきた場合は、登録しない。
【0050】
以上のような案内語抽出ステップは、出現頻度の高い語句を重視することで、その語句が、ベクトル空間において他の多数の語句の中心に位置するものである可能性が高い、という意味を有している。また、ある語句と似ているが中心となるキーワードとそれなりに距離を持つ語句を得るため、(S16)のステップによって、類似しているが重複用語が少ない語句を選んでいる。従って、案内語がある特定のカテゴリーの基本重要用語の集合となる。
【0051】
上記準備動作の結果、類似語集合情報115及び案内語情報116が生成され、以下の図6に示すように、これらの情報を用いて互いに類似する(関連する)見出し語を辿ることができる。
【0052】
図6は、類似語集合情報115及び案内語情報116の構成例を示す概略図である。
【0053】
類似語集合情報115は、見出し語毎に類似語集合情報115、類似語集合情報115、類似語集合情報115…が生成されており、例えば、類似語集合情報115が読み出された場合、見出し語1の類似語として含まれる見出し語5、見出し語12、見出し語51…が表示され、このうち見出し語5が選択された場合、類似語集合情報115が読み出される。
【0054】
以降、同様に、類似語集合情報115が読み出された場合、見出し語5の類似語として含まれる見出し語8、見出し語103…が表示され、このうち見出し語103が選択された場合、類似語集合情報115103が読み出される。なお、ここで、見出し語1は、既に表示したため、マスク表示する(又は表示しない)。
【0055】
また、類似語集合情報115103が読み出された場合、見出し語103の類似語として含まれる見出し語46、見出し語100…が表示される。なお、ここで、見出し語5は、既に表示したため、マスク表示する(又は表示しない)。
【0056】
また、案内語情報116は、一例として、カテゴリー毎に案内語情報116A、116B、116C…が生成されており、例えば、案内語情報116Aが読み出された場合、案内語として含まれる見出し語1、見出し語12、見出し語51…が表示され、このうち見出し語1が選択された場合、見出し語1の類似語集合情報115の内容が表示される。
【0057】
上記の見出し語を辿る動作は、途切れなく連続的ににインデックスを生成することとなり、これを以下に「(2)インデックス生成動作」として具体的に説明する。
【0058】
(2)インデックス生成動作
図12は、インデックス生成動作の一例を示すフローチャートである。
【0059】
まず、端末3の利用者は、インデックス生成動作を開始すべく、端末3を操作して情報処理装置1にアクセスする。端末3は、情報処理装置1にインデックス生成要求を送信する。なお、「インデックス生成動作」は、利用者が明示的にインデックスを生成するという意思を有している必要はなく、また、情報処理装置1が明示的にインデックスを生成する必要もなく、見出し語を辿って所望の見出し語及び当該見出し語の本文の内容に辿り着く動作であればよく、その結果として見出し語の検索履歴がインデックスとして生成されていればよい。
【0060】
情報処理装置1の類似語表示手段105は、端末3からインデックス生成要求を受信すると、一つ目の見出し語を入力又は選択するための画面を端末3の表示部に表示すべく情報を送信する(S21)。端末3は、情報を受信して以下の図7に示す画面を表示する。
【0061】
図7は、端末3の表示部に表示される画面の構成の一例を示す概略図である。
【0062】
画面105aは、トップ画面として表示される画面であり、類似語を検索するための最初の語句を入力するための単語入力欄105aと、以前の検索履歴を表示する履歴表示欄105aと、案内語を表示する案内語表示欄105aとを有する。
【0063】
利用者は、端末3の表示部に表示された画面105aを確認し、端末3を操作して、入力欄105aに単語を入力、又は案内語表示欄105aに表示された案内語を選択して実行キーを押して検索を開始する。なお、履歴表示欄105aに表示された検索履歴から単語を選択してもよい。端末3は、操作内容に応じて語句の入力又は選択要求を情報処理装置1に送信する。ここでは、一例として、「ウイルス」という語が入力又は案内語から選択されたものとする。
【0064】
情報処理装置1の語句選択受付手段107は、端末3から語「ウイルス」の入力を受け付け(S22)、類似語表示手段105は、類似語集合情報115を参照し、入力された「ウイルス」を見出し語とする類似語集合を、図8に示すように、端末3の表示部に表示処理する(S23)。
【0065】
図8は、端末3の表示部に表示される画面の構成の他の例を示す概略図である。
【0066】
画面105bは、「ウイルス」の類似語の検索結果として表示される画面であり、検索語を表示し、他の検索語も入力可能な単語入力欄105bと、検索語「ウイルス」である見出し105bと、類似語105b、105b…とを有する。類似語105bは、類似語1050bと、類似語1050bを見出しとする文書情報111へのリンク1051bと、類似語1050bの訳語であって当該訳語を見出しとする他言語(英語)の類似語の検索結果画面へと遷移するための訳語1052bと、見出し105b2と類似語1050bとの類似度1053bとを有し、類似語105b以降も同様の構成を有する。
【0067】
情報処理装置1の語句選択受付手段107は、端末3から例えば類似語「レトロウイルス」の入力を受け付け(S26;Yes)、類似語表示手段105は、類似語集合情報115を参照し、選択された「レトロウイルス」を見出し語とする類似語集合を、端末3の表示部に表示処理する(S23)。類似語の選択受付と表示処理は単数又は複数回繰り返すことができる。
【0068】
画面105cは、画面105bに表示された類似語のうち類似語1050bである「レトロウイルス」を選択した後、表示された画面において類似語として表示された「インターフェロン」、以降同様に「拮抗薬」、「モノアミン酸化酵素阻害薬」を選択した後に表示される画面である。なお、画面105cは、検索語を表示し、他の検索語も入力可能な単語入力欄105cと、検索語又は選択された類似語の履歴であって、類似語集合から生成されたインデックスとなるインデックス表示105cと、検索語「モノアミン酸化酵素阻害薬」である見出し105cと、類似語105c…とを有する。
【0069】
また、画面105cを表示するまでに表示された類似語は(S24;Yes)、類似語表示手段105により、既表示類似語105c‘としてマスク表示される(S25)。また、他の表示方法と差別化できればマスク表示以外の表示方法を用いてもよいし、表示しないものであってもよい。
【0070】
利用者は、画面105cにおいてさらに他の類似語を選択してもよいが、「モノアミン酸化酵素阻害薬」の本文の内容を確認したい場合は見出し105cを押下操作することで「モノアミン酸化酵素阻害薬」を見出しとする文書情報111へアクセス可能である。端末3は押下操作を受け付けた場合、情報処理装置1に見出し「モノアミン酸化酵素阻害薬」の選択要求を送信する。
【0071】
情報処理装置1の語句選択受付手段107は、端末3から見出し「モノアミン酸化酵素阻害薬」の本文表示要求を受け付け(S27;Yes)、文書情報111のうち該当する情報の本文の内容を端末3の表示部に表示処理する(S28)。
【0072】
図9は、端末3の表示部に表示される画面の構成の他の例を示す概略図である。
【0073】
画面105dは、見出し「モノアミン酸化酵素阻害薬」の本文内容を表示する画面であり、見出し105dと、本文105dとを有する。
【0074】
利用者は、画面105dにおいて本文105dの内容を確認する。
【0075】
(実施の形態の効果)
上記した実施の形態によれば、文書情報111から見出し語を含む文を抽出して、見出し語の共起語と出現頻度を解析して特徴量情報113を生成し、特徴量情報113のそれぞれの類似度を算出することで、見出し語に類似する他の見出し語の集合を類似語集合情報115として生成し、ある見出し語が選択されると、当該見出し語の類似語を表示し、順次見出し語を辿ることができるようにしたため、膨大な文書情報111の集合において利用者の所望する情報に辿り着くために案内することができる。また、見出し語の履歴がインデックスとなり、当該インデックスを即座に表示することができる。
【0076】
また、出現頻度の高い語、つまり、ベクトル空間において他の多数の語の中心に位置するものである可能性が高い語と、当該語と似ているがそれなりに距離を持つ用語を採用することで案内語情報116を生成し、当該案内語情報116から見出し語を選択可能にしたため、利用者の所望する見出し語に辿り着きやすい検索開始に適切な語を案内語として提供することができる。
【0077】
なお、案内語情報116の効果を試算してみると、次のようになる。最初の案内語として、例えば100の類似語を表示したとする。100の類似語が選択され、選択された語句を見出し語とした100の類似語を表示するようにし、表示した類似語のうち最初の見出し語の類似語と重複しない語句が3割あったとすれば、最初の案内語から、3000の語句を表示することができることになる。さらに、この3000の語句が選択され、それぞれ100個の用語を表示し、これまで表示した語句との重複を省いて、それぞれ20の語句が残ったとすると、3000×20=6万の語句の表示がされることになる。つまり、案内語が100個あれば、2回の選択操作で600万の語句に辿りつくことが可能であることになる。
【0078】
また、案内語情報116の生成例として、以下のようなものが挙げられる。日本語のウィキペディアにおいて、出現頻度がトップクラスの人名例として、徳川家康やナポレオンがある。これらの人名は、多数の記事に登場する。「徳川家康」の類似語としては、織田信長、豊臣秀吉、武田信玄、上杉謙信等々が抽出される。このうち徳川家康の類似語集合と豊臣秀吉の類似語集合は、語句が7割近く重複するため、案内語情報には採用しない。一方、織田信長、武田信玄、上杉謙信の類似語集合は、徳川家康の類似語集合と、重複語句が5割以下であるため、案内語情報に採用できる。
【0079】
同じ戦国武将であっても、徳川家康と少し離れた武将の人名が案内語情報に採用され、当該案内語をきっかけとして類似語を表示することで、さらに周辺の武将の人名を表示することができる。こうして戦国時代から江戸時代にかけての武将や大名、徳川家の将軍たちの広範囲の目次が、たったひとつの人名「徳川家康」から表示されることになる。案内語情報116の各武将たちの名前は、この時代を象徴する名前となり、利用者の記憶を蘇らせることができる。
【0080】
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
【0081】
上記実施の形態では、単一の言語において見出し語を辿ってインデックスを生成する例を示したが、図3に示したように文書情報111において見出し語に対して訳語(例えば、英語の見出し語)が対応付けられており、かつ、当該訳語が英語の複数の文書情報で用いられている場合、英語の複数の文書情報中において同様に類似語集合情報115を生成可能であり、訳語を利用することで日本語の類似語集合情報115と英語の類似語集合情報115eとを相互にアクセス可能にしてインデックスを生成するようにしてもよい。
【0082】
図13は、日本語による類似語集合情報115及び英語による類似語集合情報115eの構成例を示す概略図である。
【0083】
類似語集合情報115は、日本語の文書情報111に基づいて生成された情報であり、見出し語毎に類似語集合情報115、類似語集合情報115、類似語集合情報115…が生成されており、例えば、類似語集合情報115が読み出された場合、見出し語1の類似語として含まれる見出し語5、見出し語12、見出し語51…が表示され、このうち見出し語5が選択された場合、類似語集合情報115が読み出される。以降、同様に、類似語集合情報115が読み出された場合、見出し語5の類似語として含まれる見出し語8、見出し語103…が表示され、このうち見出し語103が選択された場合、類似語集合情報115103が読み出される。
【0084】
また、類似語集合情報115eは、英語の文書情報111eに基づいて生成された情報であり、見出し語毎に類似語集合情報115e、類似語集合情報115e、類似語集合情報115e…が生成されている。日本語の類似語集合情報115103において見出し語46の訳語が選択された場合(図8に示す訳語1052bが選択操作された場合)、英語の見出し語であるindex46の類似語集合情報115e46が読み出され、類似語として含まれるindex51、index88、index90…が表示される。このうちindex88が選択された場合、類似語集合情報115e88が読み出される。以降、同様に、類似語集合情報115e88が読み出された場合、index88の類似語として含まれるindex6、index9、index108…が表示され、このうちindex6が選択された場合、類似語集合情報115eが読み出される。
【0085】
また、英語の類似語集合情報115eにおいてindex6の訳語(日本語)が選択された場合、日本語の見出し語である見出し語78の類似語集合情報11578が読み出され、類似語として含まれる見出し語4、見出し語11、見出し語27…が表示される。
【0086】
上記は、2つの言語間に限定されるものではなく、訳語が予め用意されていれば、複数の言語において相互に類似語集合情報115間でアクセス可能にインデックスを生成するようにしてもよい。
【0087】
なお、ある見出し語に対して表示される類似語一覧は、言語によって解析するコーパス(文書情報)が異なるため、言語によってそれぞれ異なったものになる。つまり、複数の言語において見出しとなっている語句の意味が同じであっても、その語句を定義する文はそれぞれ大きく異なる(例えば、日本の「音楽」の概念と、米国の「music」の概念は異なっており、歴史も解釈も異なる。)。つまり、複数の言語それぞれのコーパス、コンテンツ、そして類似語というように容易に相互リンクを構成することができる。この仕組みにより、語句の訳語が存在すれば、他言語の見出し語を介して、世界中の文化、知識について、相互リンクでき、それぞれのインデックスを共有することができる。類似語集合情報115は、見出し語となる語句の言語、ひいてはその国々の文化、知識の集合と考えることができ、大げさに言えば、その集合した世界の知識をつなぎ、共有できることとなる。
【0088】
また、例えば、上記実施の形態では文書情報111として見出し語と本文が明示的に示されたものについて説明したが、見出し語が明示的に示されていないもの(本文のみで構成されたもの。例えば、Twitter(登録商標)のツイートようにテキストのみで構成された文書情報)に対しても同様に適用可能である。この場合、本文から抽出される出現頻度の高い語句、一定数現れ始めた新出の語句を見出し語のように扱う。さらに、例えば判例データベースにおいては、一定数以上出現する語句を見出し語のように使う。あるいはニュースなどにおいては、ニュース用語集を使う、論文においては各論文ジャンルにおける既存の専用辞書を使うなどの方法が提案される。
【0089】
また、類似語集合情報115の生成は、語句選択受付手段107が語句の選択を受け付ける前であればよく、コンピュータの性能が十分に高性能であれば、リアルタイムで生成されるものであってもよいし、予め生成されるものであってもよい。
【0090】
上記実施の形態では制御部10の各手段100~107の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD-ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
【符号の説明】
【0091】
1 :情報処理装置
2 :文書データベース
3 :端末
4 :ネットワーク
5 :情報処理システム
10 :制御部
11 :記憶部
12 :通信部
100 :文書取得手段
101 :文書解析手段
102 :特徴量算出手段
103 :類似度算出手段
104 :類似語集合生成手段
105 :類似語表示手段
106 :案内語抽出手段
107 :語句選択受付手段
110 :情報処理プログラム
111 :文書情報
112 :解析情報
113 :特徴量情報
114 :類似度情報
115 :類似語集合情報
116 :案内語情報

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13