(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-31
(45)【発行日】2022-04-08
(54)【発明の名称】編集装置、編集方法および編集プログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20220401BHJP
G06F 16/903 20190101ALI20220401BHJP
【FI】
G06F16/33
G06F16/903
(21)【出願番号】P 2018040970
(22)【出願日】2018-03-07
【審査請求日】2021-02-15
(73)【特許権者】
【識別番号】504306600
【氏名又は名称】株式会社日本電気特許技術情報センター
(74)【代理人】
【識別番号】100109313
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】柴床 剛玄
(72)【発明者】
【氏名】五藤 智久
(72)【発明者】
【氏名】中川 裕二
(72)【発明者】
【氏名】小田 三紀雄
(72)【発明者】
【氏名】高橋 久男
【審査官】佐賀野 秀一
(56)【参考文献】
【文献】特開2014-106665(JP,A)
【文献】特開平10-289241(JP,A)
【文献】特開2002-123551(JP,A)
【文献】特開2006-190023(JP,A)
【文献】特開2000-020537(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00- 16/958
(57)【特許請求の範囲】
【請求項1】
1以上の語を含むテキストデータを取得する取得手段と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段と
を備え
、
前記編集手段は、前記文書の所定の項目に関わる文から、前記関連語を抽出する
編集装置。
【請求項2】
前記文書は、所定の技術領域に関する文書である
請求項1記載の編集装置。
【請求項3】
前記所定の項目を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記文書の、選択された所定の項目に関わる文から、前記関連語を抽出する
請求項
1または請求項2記載の編集装置。
【請求項4】
前記取得したテキストデータに含まれる少なくとも1つの語に対して、前記関連語を抽出するか否かを選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記関連語を抽出することを選択された語について前記関連語を抽出する
請求項1ないし請求項
3のいずれか1項記載の編集装置。
【請求項5】
前記抽出された関連語のうち前記テキストデータに含める関連語を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記選択された関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項
4のいずれか1項記載の編集装置。
【請求項6】
前記編集手段により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段をさらに備え、
前記編集手段は、前記関連語選択手段により選択された関連語を含むテキストデータを用いて実行された検索の結果を取得し、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項
5のいずれか1項記載の編集装置。
【請求項7】
前記編集手段は、前記テキストデータに含まれる語の数のうち複合語の数の割合が基準に満たない場合、前記抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項
6のいずれか1項記載の編集装置。
【請求項8】
コンピュータが、
1以上の語を含むテキストデータを取得し、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について
、前記文書の所定の項目に関わる文から関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
編集方法。
【請求項9】
1以上の語を含むテキストデータを取得する処理と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について
、前記文書の所定の項目に関わる文から関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理と
を、コンピュータに実行させる編集プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザから入力される、検索に用いられるテキストデータの編集に関する技術である。
【背景技術】
【0002】
一般に、1以上の文書の集合から関連文書を検索する検索装置は、検索式や検索文等の検索条件を入力し、入力した検索条件に該当する文書を検索結果として文書集合から抽出する機能を有する。
【0003】
一般の検索装置では、入力した検索条件に指示された語に基づいて検索を行うため、指示された語と同じ語を含む文書しか検索条件に該当しないと判断する。したがって、指定された語の同義語や類似語が含まれる文書は検索結果から漏れてしまう場合がある。
【0004】
そこで、同義語や類義語が含まれる文書が検索結果から漏れることを防ぐため、同義語や類義語を含む文書も検索結果に含むような機能が望まれる。
【0005】
例えば、特許文献1には、検索の対象となる文書集合から類義語を抽出し、検索条件の中のキーワードの拡張を行った場合に高い検索精度での検索を可能にする文書検索装置が開示されている。
【0006】
特許文献2には、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムが開示されている。
【0007】
また、特許文献3には、構造化文書データベースに格納されている構造化文書の構成要素と語彙とを指定した検索条件に基づき、この指定した構成要素と語彙とそれらの文書構造上の発生位置とに類似する構造化文書の検索が容易に行える構造化文書検索方法が開示されている。
【0008】
非特許文献1には、同意表現を抽出する手法が開示されている。非特許文献2には、単語間の上位下位関係を獲得する手法が開示されている。
【0009】
上記のような技術を用いることにより、検索条件に指示された語の同義語や類義語を含む文書も、検索結果に含まれるようにすることができる。
【0010】
ここで、特許文献1などの検索装置では、一般に、検索条件を含むテキストデータは、人手により入力される。検索装置は、そのテキストデータを取得し、テキストデータに含まれる語を用いて検索条件を生成し、その検索条件に該当する文書の検索を実行する。検索者は、その検索の結果に含まれる文書を参照し、さらなる検索を実行することがある。
【先行技術文献】
【特許文献】
【0011】
【文献】特開2003-108582号公報
【文献】国際公開第2014/002776号公報
【文献】特開2002-297605号公報
【非特許文献】
【0012】
【文献】湯村武、余田直之、野崎康夫、茂木健、西田行輝 著、三洋電機(株) 情報通信システム研究所「テキストデータベースからの同意表現の抽出」、全国大会講演論文集、1993年9月27日、第47回、人工知能及び認知科学、p.79-80
【文献】新里圭司、鳥澤健太郎 著、「HTML文書からの単語間の上位下位関係の自動獲得」、情報処理学会研究報告自然言語処理(NL)、2003年11月6日、p.95-102
【発明の概要】
【発明が解決しようとする課題】
【0013】
上述のように、検索に用いられるテキストデータは、人手により入力されたり、変更されたりすることがある。したがって、検索に用いられるテキストデータに属人性が生じるため、検索の精度にばらつきが生じるという課題がある。
【0014】
本発明は、上記課題を鑑みてなされたものであり、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができる編集装置等を提供することを主要な目的とする。
【課題を解決するための手段】
【0015】
本発明の一態様にかかる編集装置は、1以上の語を含むテキストデータを取得する取得手段と、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段とを備える。
【0016】
本発明の一態様にかかる編集方法は、1以上の語を含むテキストデータを取得し、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する。
【0017】
本発明の一態様にかかる編集プログラムは、1以上の語を含むテキストデータを取得する処理と、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理とを、コンピュータに実行させる。
【発明の効果】
【0018】
本発明によれば、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。
【図面の簡単な説明】
【0019】
【
図1】各実施形態における編集装置および編集方法を実現するコンピュータ装置のハードウェア構成を示すブロック図である。
【
図2】第1の実施形態にかかる編集装置の機能構成を示すブロック図である。
【
図3】第1の実施形態にかかる編集装置の動作を説明するフローチャートである。
【
図4】クエリが入力される編集画面を示す図である。
【
図5】編集画面にクエリが入力された一例を示す図である。
【
図6】第1の実施形態にかかる編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図7】第1の実施形態にかかる編集装置のクエリ編集部の動作を示すフローチャートである。
【
図8】第1の実施形態にかかる編集装置のクエリ解析部によりクエリが解析された結果の一例を示す図である。
【
図9】第1の実施形態にかかる編集装置の文書記憶部に記憶される文書の一例を示す図である。
【
図10】第1の実施形態にかかる編集装置の解析結果から得られた語と、その語について抽出された同義語の例を示す図である。
【
図11】第1の実施形態に係る編集装置のクエリ編集部により編集されたクエリの一例を示す図である。
【
図12】第1の実施形態に係る編集装置と、クエリの出力先である検索装置とが接続された構成を示す図である。
【
図13】第2の実施形態に係る編集装置のクエリ取得部の機能構成を示すブロック図である。
【
図14】第2の実施形態に係る編集装置の選択情報入出力部により出力される編集画面の一例を示す図である。
【
図15】第2の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。
【
図16】第3の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図17】第3の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。
【
図18】第3の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。
【
図19】第4の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図20】第4の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。
【
図21】第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。
【
図22】第5の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図23A】第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。
【
図23B】第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。
【
図24】第6の実施形態に係る編集装置の解析結果から得られた語、その語について抽出された同義語および同義語の出現回数の例を示す図である。
【
図25】第 6の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。
【
図26】第7の実施形態に係る編集装置の機能構成を示すブロック図である。
【
図27】第7の実施形態に係る編集装置におけるクエリ編集部と検索結果評価部の機能構成を示すブロック図である。
【
図28】第7の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。
【
図29】第7の実施形態に係る編集装置の検索結果評価部の動作を示すフローチャートである。
【
図31】X-Y座標に、検索結果に含まれる各文書の順位とスコアをプロットした一例を示す図である。
【
図32】クエリと検索結果の他の例を示す図である。
【
図33】X-Y座標に、検索結果に含まれる各文書の順位とスコアをプロットした他の例を示す図である。
【
図34】第8の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図35】第8の実施形態に係る編集装置のクエリ評価部の動作を示すフローチャートである。
【
図36】第9の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。
【
図38】第9の実施形態に係る編集装置の類義語情報生成部により生成された類義語情報の一例を示す。
【
図39】第10の実施形態に係る編集装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の好ましい実施形態について図面を参照して詳細に説明する。
【0021】
第1の実施形態
第1の実施形態および他の実施形態にかかる編集装置を構成するハードウェアについて説明する。
図1は、各実施形態における編集装置および編集方法を実現するコンピュータ装置10のハードウェア構成を示すブロック図である。なお、各実施形態において、以下に示す編集装置の各構成要素は、機能単位のブロックを示している。編集装置の各構成要素は、例えば
図1に示すようなコンピュータ装置10とソフトウェアとの任意の組み合わせにより実現することができる。
【0022】
図1に示すように、コンピュータ装置10は、プロセッサ11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、記憶装置14、入出力インタフェース15およびバス16を備える。
【0023】
記憶装置14は、プログラム18を格納する。プロセッサ11は、RAM12を用いて本編集装置にかかる編集プログラム18を実行する。プログラム18は、ROM13に記憶されていてもよい。また、プログラム18は、記録媒体20に記録され、ドライブ装置17によって読み出されてもよいし、外部装置からネットワークを介して送信されてもよい。
【0024】
入出力インタフェース15は、周辺機器(キーボード、マウス、表示装置など)19とデータをやり取りする。入出力インタフェース15は、データを取得または出力する手段として機能することができる。バス16は、各構成要素を接続する。
【0025】
なお、編集装置の実現方法には様々な変形例がある。例えば、編集装置は、専用の装置として実現することができる。また、編集装置は、複数の装置の組み合わせにより実現することができる。
【0026】
本実施形態および他の実施形態の機能を実現するように各実施形態の構成を動作させるプログラム(より具体的には、
図3等に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
【0027】
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
【0028】
次に、本発明の第1の実施形態にかかる編集装置の機能構成について説明する。
図2は、本発明の第1の実施形態にかかる編集装置100の機能構成を示すブロック図である。
図2が示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に分かれて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0029】
編集装置100は、クエリ取得部110、クエリ編集部120、クエリ出力部130および文書記憶部140を備える。
【0030】
クエリ取得部110は、検索に用いるクエリを取得する。ここで、クエリは、ユーザから入力される、検索に用いられるテキストデータである。よって、クエリ取得部110は、1以上の語を含むテキストデータを取得する取得手段を担う。
【0031】
クエリ編集部120は、クエリ取得部110が取得したクエリを、文書記憶部140に記憶された文書に含まれる語について関連語を抽出し、抽出した関連語に基づいて、クエリを編集する。よって、クエリ編集部120は、テキストデータを用いた検索の対象である1以上の文書から、取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、抽出した関連語を含めて検索が実行されるようにテキストデータを編集する編集手段を担う。クエリ出力部130は、クエリ編集部120により編集されたクエリを出力する。文書記憶部140は、検索対象の文書を記憶する。
【0032】
なお、クエリは、例えば文章であるがそれに限定されず、1以上の語を含むテキストデータであればよい。例えば、クエリは、語、句、節、文、あるいはそれらの羅列を含んでもよい。ここで、「語」または、以降で述べる「関連語」、「同義語」、「類義語」などに含まれる「語」には、1以上の形態素が含まれる。関連語には、同義語、類義語および反意語(反対語)が含まれる。
【0033】
文書記憶部140に記憶される文書は、公開特許公報、公表特許公報、特許公報、公開実用新案公報などの特許または実用新案に関する公開文書、その他何らかの情報を含む電子的な資料、文献を含む。文書記憶部140に記憶される文書は、所定の技術領域に関する文書であってもよい。また、例えば、形式化された論文であってもよい。以降の説明では、特許に関する公開文書を検索対象とする例について、主に説明する。所定の技術領域に関する文書とは、例えば、半導体、電池、無線通信等の各種技術領域のうち指定された技術領域に関する文書であってよい。あるいは、所定の技術領域に関する文書は、国際特許分類で指定される技術領域に関する文書であってよい。
【0034】
編集装置100は、入力されたクエリを、文書記憶部140に記憶される文書に含まれる語を用いて編集し、編集後のクエリを出力する装置である。なお、編集後のクエリは、クエリ出力部130から、そのクエリに関連する文書の検索を実行する検索装置へ出力される。検索装置は、クエリに関連する文書を検索する機能を備えた一般的な検索装置であってよい。検索装置は、編集装置100に含まれて構成されてもよいし、配線またはネットワークを経由して編集装置100に接続されていてもよい。あるいは、編集装置100が検索装置に含まれる構成を有してもよい。
【0035】
ここで、文書記憶部140は、検索装置に設けられてもよい。検索装置が配線またはネットワークを経由して編集装置100に接続されている場合、クエリ編集部120は、配線またはネットワークを経由して、検索装置が備える文書記憶部140にアクセスする。
【0036】
図3は、編集装置100の動作を説明するフローチャートである。
図3を参照して、編集装置100の動作を説明する。
【0037】
編集装置100のクエリ取得部110は、クエリを取得する(ステップS110)。
図4は、クエリが入力される編集画面111を示す図である。
図4に示すように、編集画面111は、入力フィールド112と、実行ボタン113とを含む。編集画面111は、クエリ取得部110によりその画面を出力するための情報が生成され、表示装置に出力される。表示装置は、編集装置100に含まれてもよいし、編集装置100と配線またはネットワークを経由して接続されて構成されてもよい。
【0038】
また、編集画面111は、検索装置により表示されてもよい。この場合、編集画面111は、検索装置が表示する一般的な検索画面でもよい。すなわち、クエリを入力するフィールドと、検索実行を指示するボタンとを含む検索画面が編集画面111として用いられてもよい。この場合、クエリを入力するフィールドが、編集画面111の入力フィールド112として用いられ、検索実行を指示するボタンが、編集画面111の実行ボタン113として用いられてもよい。
【0039】
図5は、編集画面111にクエリが入力された一例を示す図である。
図5に示すように、クエリは、例えば、ユーザが検索したい文書の分野に関するキーワードを含むテキストデータであってよい。
【0040】
ユーザは、入力フィールド112にクエリを入力し、実行ボタン113を押下する。実行ボタン113が押下されると、クエリ取得部110は、入力フィールド112に入力されたクエリを取得する。なお、クエリ取得部110は、編集画面111に入力されたテキストデータを取得することに限定されず、例えば、ファイルからテキストデータを読み出してもよい。
【0041】
続いて、クエリ編集部120は、クエリ取得部110により取得されたクエリを編集する(ステップS120)。
図6は、クエリ編集部120の機能構成を示すブロック図である。
図6に示すように、クエリ編集部120は、クエリ解析部121、同義語抽出部122および同義語追加部123を備える。
【0042】
図7は、クエリ編集部120の動作を示すフローチャートである。
図7を参照して、クエリ編集部120の動作について説明する。
【0043】
クエリ編集部120は、クエリ取得部110からクエリを取得すると、クエリ解析部121において、クエリを解析する(ステップS111)。具体的には、クエリ解析部121は、クエリに対して自然言語処理を行う機能と、単語または複合語を抽出する機能とを有する。自然言語処理として、例えば、既知の形態素解析ソフトウェアを用いた形態素解析が行われてもよい。
【0044】
図8は、クエリがクエリ解析部121により解析された結果の一例を示す図である。
図8では、語と語の間にスラッシュ(/)を表示することにより、複数の語に分解されたクエリを示す。語には、1以上の形態素からなる単語、複合語などが含まれる。また、語には、接頭語または接尾語が付された単語、複合語が含まれてもよい。なお、複数の語に分解されたクエリを示すために、
図8のように語と語の間にスラッシュ(/)を表示することに限定されず、例えば、語と語の間に読点を表示したり、語ごとに括弧書きしたりしてもよい。
【0045】
クエリ解析部121は、形態素解析により動詞、名詞等を含む形態素にクエリを分解し、分解されたクエリから単語を抽出すると共に、単語を2つ以上組み合わせた複合語、または、単語と接尾語または接頭語とを組み合わせた複合語を生成する。
【0046】
続いて、同義語抽出部122は、解析結果から得られた語に関し、文書記憶部140に記憶される文書から、同義語を抽出する。
【0047】
図9は、文書記憶部140に記憶される文書の一例として、公開特許公報の一部を示す図である。
図9に示すように、公開特許公報は、「書類名」、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目を含む書式が予め定められている。それぞれの項目名が記載された行以降に、その項目に関わる文が記載される。
【0048】
同義語抽出部122は、クエリ解析部121の解析結果に基づいて、文書記憶部140に記憶された1以上の文書のそれぞれに含まれる語から、同義語を抽出する(ステップS112)。
同義語抽出部122は、上述のようにクエリ解析部121がクエリから抽出した単語または生成した複合語を、同義語抽出の対象の語とする。なお、同義語抽出部122は、同義語抽出の対象の語から、助詞を除く。また、同義語抽出部122は、同義語抽出の対象の語から副詞を除いてもよい。
【0049】
例えば
図8に示した解析結果を用いる場合、同義語抽出部122は、「半導体レーザ」、「光源」、「平行光」といった語の同義語を、文書記憶部140に記憶された文書のそれぞれに含まれる語から抽出する。
【0050】
同義語の抽出には、既知の手法が用いられてよい。例えば、非特許文献1に開示される手法を用いてもよい。すなわち、例えば、同義語抽出の対象の語が、文書記憶部140に記憶された文書中に、括弧表現の前後に入れ替わって出現した場合、同義語を抽出することができる。例えば、解析により「AAA」という語が得られたとする。同義語抽出部122は、「AAA」の同義語の抽出において、文書記憶部140に記憶された文書のいずれかに、「AAA(BBB)」という記載と、「BBB(AAA)」という記載が含まれている場合、「BBB」を「AAA」の同義語として抽出する。
【0051】
図9に例示した文書には、「背景技術」の項目に、「半導体レーザ(レーザダイオード)に関し、・・・」という記載が含まれる。この文書または文書記憶部140に記憶される他の文書に、「レーザダイオード(半導体レーザ)」という記載が含まれる場合、クエリの解析により得られた「半導体レーザ」の同義語として、「レーザダイオード」が抽出される。
【0052】
図10は、同義語抽出の対象の語と、その語について、同義語抽出部122により抽出された同義語の例を示す図である。
図10では、同義語抽出の対象の語のうち「半導体レーザ」、「平行光」、「反射光」および「光検出部」を例として、抽出された同義語を示しているが、他の語についても同義語が抽出されている。
【0053】
続いて、同義語追加部123は、同義語抽出部122により抽出された同義語を用いて、クエリを編集する(ステップS113)。編集とは、例えば、抽出された同義語を、クエリ取得部110により取得されたクエリに追加する(含める)ことである。また、編集には、クエリに含まれる語を、抽出された同義語で置き換えることが含まれてよい。クエリに追加された同義語は、検索装置における関連文書の検索に用いられる。
【0054】
同義語追加部123は、同義語抽出部122により抽出された同義語を、クエリ取得部110が取得したクエリに追加する。
図11は、編集されたクエリの一例を示す図である。
図11では、
図10に示した同義語が、入力されたクエリに追加された例を示している。
図11では、同義語抽出の対象の語に続いて、その語の同義語を順にカンマ(,)で区切って並べて追加した例を示すが、このような順に追加することに限定されず、抽出された同義語を文頭や文末にまとめて追加するなどでもよい。すなわち、抽出された同義語が編集後のクエリに含まれていればよい。また、追加された同義語を、下線で示しているが、この表記に限定されず、追加された同義語を識別可能に表示すればよい。例えば、追加された同義語を、ハイライト表示、異なる色で表示、強調文字で表示等してもよい。追加された同義語は、検索装置における関連文書の検索に用いられる。以上により、クエリの編集が終了する。
【0055】
クエリ出力部130は、上記のように編集されたクエリを出力する(ステップS130)。
図12は、一例として、クエリの出力先である検索装置150と、編集装置100とが接続された構成を示す図である。クエリ出力部130は、編集されたクエリを検索装置150に出力する。検索装置150は、クエリ出力部130により出力されたクエリに含まれる語を用いて、文書記憶部140の検索を実行する。
【0056】
上述したように、クエリに追加された同義語は、検索対象である文書記憶部140に記憶された文書から抽出されている。そして、その同義語を含むクエリを用いて、文書記憶部140に対する検索が実行される。
【0057】
以上のように、本第1の実施形態によれば、クエリ編集部120は、入力されたクエリの解析により得られた単語または複合語の同義語を、検索対象である文書記憶部140から抽出すると共に、その語を、クエリに追加する。同義語が追加されたクエリを用いて検索が実行される。したがって、本第1の実施形態によれば、クエリの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。また、上記のように、クエリに追加される同義語は、検索対象である文書記憶部140から抽出されるので、検索の精度を向上させることができるという効果が得られる。
【0058】
なお、同義語抽出部122は、文書記憶部140に、特許または実用新案に関する公開文書が記憶されている場合、同義語抽出において、出願人を考慮してもよい。例えば、同義語抽出部122は、異なる出願人の文書において、対象の語の括弧表現の前後に入れ替わって出現した語を、同義語として抽出してもよい。すなわち、異なる出願人の文書において、「AAA(BBB)」という記載と、「BBB(AAA)」という記載が含まれている場合、「BBB」を「AAA」の同義語として抽出してもよい。
【0059】
また、出願件数が所定の基準より多い出願人の文書において、対象の語の括弧表現の前後に入れ替わって出現した語を、同義語として抽出してもよい。
【0060】
第2の実施形態
図13は、第2の実施形態に係る編集装置100のクエリ取得部160の機能構成を示すブロック図である。第2の実施形態に係る編集装置100は、
図2に示した第1の実施形態に係る編集装置100が備えるクエリ取得部110の代わりに、クエリ取得部160を備える。クエリ取得部160以外については、第2の実施形態に係る編集装置100は、
図2と同様の構成を有する。なお、文書記憶部140は、所定の技術領域に関する文書を格納しているとする。
【0061】
クエリ取得部160は、選択情報入出力部161を備える。
【0062】
選択情報入出力部161は、文書記憶部140に記憶される文書がそれぞれ含む項目のうち、同義語を抽出する項目を選択するための情報を生成し、その情報を表示装置162に表示する。表示装置162は、配線またはネットワークを経由して編集装置100に接続されてもよいし、編集装置100に含まれてもよい。選択情報入出力部161は、所定の項目を選択するための情報を出力する出力手段を担う。
【0063】
選択情報入出力部161は、例えば項目の選択メニューを表示装置162に表示してもよい。また、選択情報入出力部161は、表示された情報に対してユーザが選択した結果を示す情報を取得する。
【0064】
図14は、選択情報入出力部161により出力される編集画面163の一例を示す図である。
図14に示すように、選択情報入出力部161は、編集画面163に、同義語抽出項目の選択を受け付けるプルダウンメニュー164を表示する。
図9に示したように、文書記憶部140に記憶された文書の一例である公開特許公報には、「書類名」、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目が予め定められている。選択情報入出力部161は、それらのうちいずれの項目に関する文から、クエリに含まれる語の同義語を抽出するかの選択を受け付けるプルダウンメニュー164を出力する。また、所定の技術領域に関する文書においても、「題名(タイトル)」、「要約(アブストラクト)」、「導入(イントロダクション)および背景」、「技術的原理」、「実験」、「考察」、「結果」などの項目で予め定められている。
【0065】
すなわち、ユーザがプルダウンメニュー164の右側にある三角マークをクリックすると、選択情報入出力部161の制御に従ってプルダウンメニュー164の直下に選択可能な項目のリストが表示される。このリストには、上述したような項目が含まれる。ユーザは、このリストの中から項目を選択する。
【0066】
入力フィールド112にクエリが入力され、プルダウンメニュー164を介して項目が選択された状態で、実行ボタン113が押下されると、クエリ取得部110は、クエリと選択された項目を示す情報とを取得する。なお、選択情報入出力部161は、項目の選択をプルダウンメニューで受け付けることに限定されない。同義語抽出項目の入力フィールドに、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目の名称が直接入力されてもよい。また、選択される項目は1つに限定されず、複数の項目がプルダウンメニューまたは直接入力により選択されてもよい。
【0067】
クエリ取得部110によりクエリが取得されると、クエリ編集部120によりクエリの編集が行われる。
【0068】
図15は、第2の実施形態に係る編集装置100のクエリ編集部120の動作を示すフローチャートである。クエリ編集部120は、クエリ解析部121、同義語追加部123については、それぞれ
図15において
図7と同一符号で示した動作S111、S113と同様の動作を行う。
【0069】
クエリ編集部120の同義語抽出部122は、同義語抽出の対象の語に関し、文書記憶部140に記憶された文書の、上記選択された項目に関する文から、同義語を抽出する(S210)。例えば、同義語抽出の対象の語に「半導体レーザ」が含まれ、プルダウンメニュー164により「背景技術」が選択された場合、同義語抽出部122は、文書記憶部140に記憶されたそれぞれの文書のうち「背景技術」の項目に関する文から、「半導体レーザ」の同義語を抽出する。
【0070】
文書記憶部140に記憶される文書のすべての記載から同義語を抽出すると、関連しない語(ノイズ)が同義語として抽出される場合がある。そこで、本実施形態では、ユーザから選択された項目に関わる文から同義語を抽出することで、ノイズを減らすことができる。
【0071】
以上のように、本第2の実施形態によれば、クエリ取得部160は、クエリに含まれる語の同義語を抽出する項目の選択を受け付け、同義語抽出部122は、選択された項目に関する文から同義語を抽出する。したがって、望まれる検索範囲とは関連しない語が同義語として抽出されることを減らすことができるので、検索の精度を向上させることができるという効果が得られる。
【0072】
第3の実施形態
図16は、第3の実施形態に係る編集装置100のクエリ編集部170の機能構成を示すブロック図である。第3の実施形態に係る編集装置100は、
図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部170を備える。クエリ編集部170以外については、第3の実施形態に係る編集装置100は、
図2と同様の構成を有する。
【0073】
クエリ編集部170は、
図6に示したクエリ編集部120の構成に加えて選択情報入出力部124aを備える。
【0074】
選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付ける機能を有する。すなわち、選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語に対して、同義語を抽出するか否かをユーザが選択するための情報を出力する。選択情報入出力部124aは、また、ユーザにより選択された結果を示す情報を取得する。よって、選択情報入出力部124aは、取得したテキストデータに含まれる少なくとも1つの語に対して、関連語を抽出するか否かを選択するための情報を出力する出力手段を担う。
【0075】
図17は、クエリ編集部170の動作を示すフローチャートである。クエリ編集部170は、クエリ解析部121、同義語追加部123については、それぞれ
図17において
図7と同一符号で示した動作S111、S113と同じ動作を行うので、それらの詳細な説明については省略する。
【0076】
選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語を、同義語を抽出する候補として、選択可能に表示装置162に表示する(S220)。
図18は、選択情報入出力部124aにより表示された編集画面171の一例を示す図である。
図18に示すように、選択情報入出力部124aは、編集画面171に、同義語抽出の候補172を表示する。具体的には、選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語173と、各語に対応付けられたチェックボックス174とを表示する。
【0077】
表示する単語または複合語173は、クエリ解析部121により得られた単語または複合語のうち、助詞を除く語である。チェックボックス174は、対応付けられた語の選択を可能とする。チェックボックス174がユーザによりクリックされると、対応付けられた語が、同義語抽出の対象の語として選択されたこととなる。なお、選択にチェックボックス174を用いることを例示したが、これに限定されない。
【0078】
ユーザは、同義語抽出の候補から、対象の語を選択し、それに対応付けられたチェックボックス174をチェックし、実行ボタン113を押下する(S230においてYes)。ユーザは、例えば検索の結果に含まれるノイズを削減するように同義語抽出の対象の語を選択することができる。
【0079】
選択情報入出力部124aは、選択された語を取得し、同義語抽出部122に通知する。同義語抽出部122は、選択された語を取得し、その語に関して、文書記憶部140に記憶された文書から、同義語を抽出する(ステップS240)。
【0080】
以上のように、本第3の実施形態によれば、選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付けるので、ノイズとなりうる同義語を含む語を除くことができ、ユーザにとって望ましい検索結果を得ることができるという効果が得られる。
【0081】
第4の実施形態
図19は、第4の実施形態に係る編集装置100のクエリ編集部180の機能構成を示すブロック図である。第4の実施形態に係る編集装置100は、
図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部180を備える。クエリ編集部180以外については、第4の実施形態に係る編集装置100は、
図2と同様の構成を有する。
【0082】
クエリ編集部180は、
図6に示したクエリ編集部120の構成に加えて選択情報入出力部124bを備える。
【0083】
選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリの編集に用いる語の選択を受け付ける機能を有する。すなわち、選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリに含める語を、ユーザが選択するための情報を出力する。よって、選択情報入出力部124bは、抽出された関連語のうちテキストデータに含める関連語を選択するための情報を出力する出力手段を担う。
【0084】
図20は、クエリ編集部180の動作を示すフローチャートである。クエリ編集部180は、クエリ解析部121、同義語抽出部122、同義語追加部123については、それぞれ
図20において
図7と同一符号で示した動作S111、S112、S113と同じ動作を行うので、それらの詳細な説明については省略する。
【0085】
選択情報入出力部124bは、抽出された同義語を、選択可能に表示する(S250)。
図21は、選択情報入出力部124bにより表示された編集画面181の一例を示す図である。
図21に示すように、選択情報入出力部124bは、編集画面181に、同義語を抽出した語182と、同義語抽出の結果183とを表示する。
【0086】
同義語抽出の結果183には、抽出された同義語184と、それに対応付けられたチェックボックス185とが含まれる。チェックボックス185は、チェックボックス174と同様に、ユーザによりクリックされると、対応付けられた語が、同義語として選択されたこととなる。
【0087】
ユーザは、同義語抽出の結果から、クエリの編集に用いる語を選択し、それに対応付けられたチェックボックス185をチェックし、実行ボタン113を押下する(S260においてYes)。ユーザは、例えば検索の結果に含まれるノイズを削減するように同義語を選択することができる。
【0088】
選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する(S113)。
【0089】
以上のように、本第4の実施形態によれば、選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリに含める同義語の選択を受け付けるので、ノイズとなりうる同義語を除くことができ、ユーザにとって望ましい検索結果を得ることができるという効果が得られる。
【0090】
第5の実施形態
図22は、第5の実施形態に係る編集装置100のクエリ編集部190の機能構成を示すブロック図である。第5の実施形態に係る編集装置100は、
図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部190を備える。クエリ編集部190以外については、第5の実施形態に係る編集装置100は、
図2と同様の構成を有する。
【0091】
クエリ編集部190は、第3の実施形態における選択情報入出力部124aと、第4の実施形態における選択情報入出力部124bとを備える。すなわち、本第5の実施形態に係る編集装置100のクエリ編集部190は、第3の実施形態におけるクエリ編集部170と、第4の実施形態におけるクエリ編集部180を組み合わせた機能を有する。
【0092】
図23Aは、選択情報入出力部124aにより表示された編集画面191aの一例を示す図である。編集画面191aは、
図18に示した編集画面171と同様の内容を示す。ユーザは、同義語抽出の候補172から、対象の語を選択し、チェックボックス174をチェックし、実行ボタン113を押下する。選択情報入出力部124aは、選択された語を取得し、同義語抽出部122に通知する。同義語抽出部122は、第3の実施形態で説明したように、選択された語に関して、同義語を抽出する。
【0093】
図23Bは、選択情報入出力部124bにより表示された編集画面191bの一例を示す図である。
図23Bに示すように、編集画面191bは、
図23Aに示した編集画面191aの情報に加えて、同義語抽出の結果183を有する。同義語抽出の結果183は、同義語抽出部122により抽出された同義語である。ユーザは、同義語抽出の結果183から、クエリの編集に用いる語を選択し、実行ボタン113を押下する。選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する。
【0094】
以上のように、本第5の実施形態によれば、選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付け、選択情報入出力部124bは、抽出された同義語のうち、クエリに含める語の選択を受け付ける。よって、ノイズとなりうる同義語、および、その同義語を含む語を除くことができ、ユーザにとってより望ましい検索結果を得ることができるという効果が得られる。
【0095】
第6の実施形態
第6の実施形態に係る編集装置は、第5の実施形態に係る編集装置100と同様の構成を備える。すなわち、第6の実施形態に係る編集装置は、
図22に示したクエリ編集部190を備えた編集装置100である。ただし、第6の実施形態に係るクエリ編集部190の同義語抽出部122は、同義語が、文書記憶部140に記憶された文書において出現した回数(以降、「出現回数」と称する)をカウントする機能を有する。
【0096】
図24は、同義語抽出の対象の語と、その語について同義語抽出部122により抽出された同義語と、その同義語の出現回数の例を示す図である。同義語抽出部122は、ある同義語を抽出するごとに、その出現回数をカウントアップし、同義語ごとにトータルの出現回数を保持しておく。
【0097】
図25は、選択情報入出力部124bにより表示された編集画面192の一例を示す図である。
図25に示すように、編集画面192は、
図23Bに示した編集画面191bの情報に加えて、同義語抽出の出現回数の結果186を有する。
【0098】
ユーザは、同義語抽出の結果183からクエリの編集に用いる語を選択する際に、出現回数の結果186を参照して、選択することができる。ユーザは、クエリにおける語の重要度に応じて、出現回数の多い同義語を選択してもよいし、出現回数の少ない同義語を選択してもよい。ユーザは、語の重要度に応じた選択ルールに基づいて同義語を選択してもよい。
【0099】
例えば、文書記憶部140に特許に関する公開文書が登録され、同義語を抽出した語が、クエリにより特定される技術思想の特徴を示す語である場合、ユーザは、その語に関して、相対的に出現回数の少ない同義語を選択する。一方で、出現回数の少ない同義語を選択することで、所望の文書が検索結果から漏れることもあるため、場合によっては、相対的に出現回数の多い同義語を選択してもよい。あるいは、出現回数の少ない同義語に加えて、相対的に出現回数の多い同義語も合わせて選択してもよい。
【0100】
これに対して、同義語を抽出した語が、クエリにより特定される技術思想の特徴を示す語でない場合、ユーザは、相対的に出現回数の多い同義語を選択する。あるいは、相対的に出現回数の少ない同義語を選択してもよい。
【0101】
このように、ユーザは、クエリにより特定される技術思想と語との関係を踏まえて、同義語の出現回数に応じて同義語を選択してもよい。
【0102】
ユーザは、上述のように、クエリの編集に用いる語を選択し、それに対応付けられたチェックボックス185をチェックし、実行ボタン113を押下する。
【0103】
選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する。
【0104】
以上のように、本第6の実施形態によれば、選択情報入出力部124bは、抽出された同義語の出現回数を編集画面192に出力する。よって、ユーザは、クエリの内容と語との関係に応じて同義語を選択でき、ユーザにとってより望ましい検索結果を得ることができるという効果が得られる。
【0105】
第7の実施形態
図26は、第7の実施形態に係る編集装置200の機能構成を示すブロック図である。
図26に示すように、第7の実施形態に係る編集装置200は、第1の実施形態において説明した編集装置100と同様のクエリ取得部110、クエリ出力部130および文書記憶部140を備える。編集装置200は、編集装置100のクエリ編集部120の代わりに、クエリ編集部210を備える。編集装置200は、さらに、検索結果評価部220を備える。
【0106】
図27は、編集装置200におけるクエリ編集部210と検索結果評価部220の機能構成を示すブロック図である。
図27に示すように、クエリ編集部210は、クエリ解析部121、同義語抽出部122、同義語選択部212、同義語追加部123およびフィードバック取得部213を備える。
【0107】
また、検索結果評価部220は、検索結果取得部221、判定部222およびフィードバック部223を備える。
図27において、
図6に示す構成と同一要素には同一符号を付し、その詳細な説明は省略する。
【0108】
第7の実施形態に係る編集装置200は、クエリ編集部210により編集されたクエリを用いた検索の結果を、クエリにフィードバックする機能を有する。
【0109】
同義語選択部212は、同義語抽出部122により抽出された同義語のうち、1または複数を選択する。同義語選択部212は、例えば、同義語をランダムに、1または複数の同義語の組を選択すればよい。よって、同義語選択部212は、クエリ編集部210に含まれる同義語抽出部122により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段を担う。
【0110】
フィードバック取得部213は、検索結果評価部220のフィードバック部223から、検索結果のフィードバックを取得する。
【0111】
検索結果取得部221は、検索装置150において実行された検索の結果を取得する。判定部222は、上記取得された検索の結果が、基準を満たすか否かを判定する。フィードバック部223は、検索の結果が、基準を満たさない場合、クエリ編集部210にクエリの編集を再度行うことを指示する。
【0112】
図28は、クエリ編集部210の動作を示すフローチャートである。クエリ編集部210のクエリ解析部121、同義語抽出部122および同義語追加部123については、それぞれ
図28において
図7と同一符号で示した動作S111、S112およびS113と同じ動作を行うので、それらの詳細な説明については省略する。
【0113】
同義語選択部212は、同義語抽出部122により抽出された同義語のうち、1または複数を選択する(S213)。同義語選択部212は、同義語をランダムに選択すればよい。同義語追加部123は、同義語選択部212により選択された同義語を用いてクエリを編集する(S113)。ここで、この編集により得られたクエリを、「クエリ1」と称する。
【0114】
「クエリ1」は、クエリ出力部130により、
図12に例示したように配線またはネットワークを介して接続された検索装置150に出力される。検索装置150は、「クエリ1」を用いて検索を実行する。
【0115】
図29は、検索結果評価部220の動作を示すフローチャートである。
図29を参照して、検索結果評価部220の動作について説明する。検索結果評価部220は、検索結果取得部221において、検索装置150から検索結果を取得する(S221)。
【0116】
図30は、「クエリ1」と「検索結果1」の一例を示す図である。「クエリ1」では、
図5に示したように入力されたクエリに対して、「レーザダイオード」、「コリメート光」との同義語が追加された例を示す。「検索結果1」は、「クエリ1」を用いた検索の結果、関連文書として抽出された文書に関する情報を含む。
図30に示す結果には、1位からN(Nは整数)位までの順位を付されたN件の文書に関する情報が示されている。ここでは、「スコア」が高いほど高い順位が付されていることを示す。「スコア」とは、クエリ1とN件の文書の類似度に関する指標である。スコアが高いほど、クエリ1と文書の類似度が高くなるように、スコアが計算される。スコアの計算方法は、TF(Term Frequency)-IDF(Inverse Document Frequency)等の手法により文書に含まれる語の重要度を評価した上で計算する方法などを用いることができる。
【0117】
文書に関する情報には、例えば、公開番号、登録番号、出願番号、出願人、発明の名称、出願日、公開日が含まれてよい。
【0118】
図31は、X軸を、検索結果に含まれる文書に付された順位、Y軸を、スコアとしたX-Y座標に、検索結果1に含まれる各文書の順位とスコアをプロットした図である。
【0119】
上記のように検索結果が取得されると、判定部222は、その結果が基準を満たすかどうかを判定する(S222)。ここで、編集装置100には、予め基準が保持されている。基準は任意でよく、例えば、最高スコアに関する基準や、あるスコア以上の文書の件数に関する基準であってよい。具体的には、「順位が1位の文書のスコアが80以上」という基準や、「スコアが70以上の文書が10件以上ある」という基準であってもよい。
【0120】
例えば基準が「順位が1位の文書のスコアが80以上」であるとき、
図31に示した検索結果1では、順位が1位の文書のスコアが「65.3」であるため、基準を満たさない。この場合、判定部222は、検索結果は基準を満たさないと判定する(S222においてNo)。そして、フィードバック部223が、クエリ編集部210に、同義語の再選択を指示する(S223)。
【0121】
クエリ編集部210は、上記指示をフィードバック取得部213において取得する。フィードバック取得部213は、上記指示を取得すると、同義語選択部212に対して、同義語の再選択を指示する。同義語選択部212は、上記指示に応じて、同義語の再選択を行う。このとき、同義語選択部212は、すでに選択した同義語とは異なる同義語を選択する。同義語選択部212は、すでに選択した同義語とすべて異なる同義語の組を選択してもよいし、一部が異なる同義語の組を選択してもよいし、すでに選択した複数の同義語の一部を削除してもよい。同義語追加部123は、同義語選択部212により選択された同義語を用いてクエリを編集する。この編集により得られたクエリを「クエリ2」と称する。
【0122】
図32は、「クエリ2」と「検索結果2」の一例を示す図である。「クエリ2」では、
図5に示したように入力されたクエリに対して、「ダイオードレーザ」、「戻り光」との同義語が追加された例を示す。「検索結果2」は、「クエリ2」を用いた検索の結果を示す。
【0123】
図33は、
図31と同様に、検索結果1と検索結果2をX-Y座標にプロットした結果を示す図である。上記と同様に、基準が「順位が1位の文書のスコアが80以上」であるとき、判定部222は、検索結果2は基準を満たすと判定する(S222においてYes)。
【0124】
このように、本実施形態では、検索結果が基準を満たすまで、同義語の選択とクエリの編集が繰り返され、検索結果が基準を満たすと、クエリの編集は終了する。
【0125】
以上のように、本第7の実施形態によれば、検索結果評価部220は、同義語が追加されたクエリを用いた検索の結果が基準を満たすか否かを判定し、満たさない場合は、クエリ編集部210にクエリの編集を指示する。クエリ編集部210は、検索の結果が基準を満たすまで、追加した同義語と異なる同義語を追加してクエリを編集する。したがって、本実施形態によれば、ユーザが同義語を選択することなく、基準を満たす検索の結果を得ることができるという効果が得られる。
【0126】
第8の実施形態
図34は、第8の実施形態に係る編集装置100のクエリ編集部310の機能構成を示すブロック図である。第8の実施形態に係る編集装置100は、
図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部310を備える。クエリ編集部310以外については、第8の実施形態に係る編集装置100は、
図2と同様の構成を有する。
【0127】
クエリ編集部310は、第1の実施形態で説明したクエリ解析部121、同義語抽出部122、同義語追加部123に加えて、クエリ評価部311を備える。クエリ評価部311は、点数算出部312および同義語選択部212を備える。本実施形態では、主に、クエリ評価部311について説明する。
【0128】
クエリ評価部311の点数算出部312は、クエリ解析部121による解析の結果に基づいて、クエリの点数を算出する。同義語選択部212は、第7の実施形態において説明した同義語選択部212と同様の機能を有する。
【0129】
ここで、一般に、語が包含する意味(概念)の範囲に応じて、語間で上位下位関係が生じる場合がある。上位語(上位概念を示す語)は、下位語(下位概念を示す語)よりも、包含する概念が広い。
【0130】
例えば、「認識」という語と、「画像認識」という語では、「認識」が上位語、「画像認識」が下位語と、関係付けられる。
【0131】
ここで、検索に用いられるクエリに、相対的に上位語が多く含まれる場合、検索される範囲が広がることによりユーザが探したい文書とは関連しない文書も検索結果に含まれる場合がある。そこで、本実施形態では、クエリに含まれる上位語の割合が基準より多い場合、クエリを編集することを説明する。
【0132】
本実施形態では、単語を上位語、複合語を下位語と仮定する。上記の例では、「認識」は単語であり上位語、「画像認識」は複合語であり下位語である。ここで、単語は、文法上、意味をもつ最小の言語単位、複合語は、二つ以上の単語が結合されてできた語とする。複合語は、文法上は単語であるが、ここでは「単語」と「複合語」とを区別して扱う。
【0133】
クエリに含まれる「単語数+複合語数」に対する「複合語数」の割合が少ないほど、上位語が多く含まれることとなる。本実施形態では、このような場合に、クエリに編集する。
【0134】
図35は、クエリ評価部311の動作を示すフローチャートである。
図35を参照して、クエリ評価部311の動作について説明する。
【0135】
クエリ評価部311は、クエリ解析部121からクエリの解析結果を取得する(S310)。クエリ評価部311は、第1の実施形態における
図8のようなクエリの解析の結果を取得したとする。
【0136】
クエリ評価部311の点数算出部312は、取得した結果に含まれる、「単語数+複合語数」に対する「複合語数」の割合を、クエリの点数αとして算出する(S320)。
【0137】
図8に示す例では、例えば、「半導体レーザ」、「平行光」、「反射光」、「光路」、「光検出部」を複合語とし、「光源」、「出射」、「レーザ」、「光」、「レンズ」、「ディスク」、「上」、「集」、「光」、「する」、「元」、「戻り」、「検出」を単語とする。
【0138】
この場合、単語と複合語の数の合計は「18」であり、複合語数は「5」である。したがって、点数算出部312は、点数α=5/18を算出する。なお、点数の算出には、助詞を除いて計算する。
【0139】
ここで、点数算出部312は、点数αに関する基準を予め保持している。点数算出部312は、点数αが基準を満たすか否かを判断する(S330)。例えば、「単語数+複合語数」における「複合語数」が半数より多いという基準を設ける場合、「点数α>0.5」という基準を設定できる。
【0140】
点数αが基準を満たさない場合、点数算出部312は、同義語選択部212に同義語の選択を指示する。同義語選択部212は、同義語抽出部122により抽出されている同義語から、任意に同義語を選択する(S340)。
【0141】
同義語選択部212は、選択した同義語を、同義語追加部123に通知する。同義語追加部123は、通知された同義語をクエリに追加する。
【0142】
なお、同義語の選択は、上述のように同義語選択部212により選択することに限定されず、第3の実施形態、第4の実施形態および第5の実施形態で示したようにユーザの選択を受け付けてもよい。例えば、点数算出部312は、クエリの点数が基準を満たさない場合、第3の実施形態、第4の実施形態および第5の実施形態で示したようにユーザの選択を受け付けてもよい。
【0143】
以上のように、本第8の実施形態によれば、クエリ評価部311は、クエリに含まれる複合語数の割合が基準より少ない場合、クエリに同義語を追加するので、検索の精度を向上させることができるという効果が得られる。
【0144】
第9の実施形態
図36は、第9の実施形態に係る編集装置100のクエリ編集部320の機能構成を示すブロック図である。第9の実施形態に係る編集装置100のクエリ編集部320は、
図34に示したクエリ編集部310が備えるクエリ評価部311の代わりに、クエリ評価部330を備える。クエリ評価部311以外については、クエリ編集部320は、
図34と同様の構成を有する。
【0145】
クエリ評価部330は、類義語情報生成部331、点数算出部332および同義語選択部212を備える。類義語情報生成部331は、文書記憶部140から、クエリ解析部121により得られた単語または複合語の類義語を抽出する。類義語の抽出には、既知の手法が用いられてもよい。例えば、非特許文献2に記載の手法を用いることができる。なお、助詞は、類義語抽出の対象としない。
【0146】
図37は、構文パターンの一例を示す図である。
図37では、「CCC」および「DDD」という表記を、語の例として用いている。
図37に例示するような構文パターンでは、「CCC」、「DDD」という語について、「CCC」を下位語、「DDD」を上位語と関係付けることができる。
【0147】
クエリ解析部121の解析により「CCC」という語が抽出されたとする。類義語情報生成部331は、文書記憶部140に、
図37に示すような構文パターン、例えば「CCCというDDD」といった構文パターンがある場合、「DDD」を「CCC」の類義語として抽出すると共に、「CCC」を下位語、「DDD」を上位語と関係付ける。なお、
図37のような構文パターンを用いた上位下位の関係に限らず、包含する概念の広さ(抽象度)に基づいて、上位、中位、下位の関係、あるいはそれ以上の関係(以降、「階層関係」とも称する)を定めることもできる。
【0148】
なお、上位語は、下位語よりも、抽象度が高い。下位語は、上位語よりも具象化された語であるといえる。
【0149】
類義語情報生成部331は、上記のような類義語の抽出と、相互の階層関係の抽出を、クエリ文解析部121により得られた単語または複合語について実行する。実行された結果を含む情報を、類義語情報と称する。
【0150】
図38は、類義語情報生成部331により生成された類義語情報の一例を示す。類義語情報生成部331は、生成した類義語情報を点数算出部332に通知する。
【0151】
点数算出部332は、取得した類義語情報に基づいて、クエリの点数を算出する。点数算出部332は、まず、クエリ文解析部121により得られた助詞を除くそれぞれの語に、抽出された類義語の階層の深さ、すなわち抽象度に応じた点数を付与する。具体的には、抽出された類義語の階層が深い、すなわち抽象度が低い(具象度が高い)ほど、点数が高くなるように、それぞれの語に点数を付与する。階層の深さとは、語の抽象度に応じて階層化した際の抽象度の度合いを示す。階層が深い(下)の語ほど相対的に下位の語を示し、点数が高くなるように点数付けされる。
【0152】
例えば、クエリに「認識」という語が含まれていた場合に、「パターン認識」、「画像認識」、「音声認識」という類義語が、
図38のような階層関係で抽出されたとする。すなわち、「認識」が上位語、「パターン認識」が中位語、「画像認識」および「音声認識」が下位語という階層関係が抽出されたとする。この場合、点数算出部332は、これらの語の階層の深さを「3」、すなわち3階層と判断する。そして、点数算出部332は、例えば、上位語である「認識」に「10」、中位語である「パターン認識」に「20」、下位語である「画像認識」および「音声認識」に「30」という点数を付与する。
【0153】
クエリに含まれる単語または複合語のうち類義語が抽出されない語については「10」と付与してもよい。また、2階層で類義語が抽出された語については、上位語に「10」、下位語に「20」と付与してもよい。
【0154】
このように、類義語情報生成部331は、文書記憶部140に記憶された文書に含まれる語に基づいて、シソーラスデータベースを作成し、点数算出部332は、それに基づいて点数を付与する。この場合、クエリに含まれる語に対して、文書記憶部140に基づく相対的な点数付与ができる。あるいは、点数算出部332は、既存のシソーラスデータベースに基づいて点数を付与してもよい。この場合、より絶対的な点数付けができる。
【0155】
そして、点数算出部332は、上記のように語に付与した点数を合計することによりクエリの点数を算出する。なお、すべての語の類義語が文書記憶部140から抽出されなかった場合のクエリの合計点を基準として、上記のように類義語が抽出された語に関して階層が深いほど高い点数が付与された場合のクエリの合計点の割合を算出してもよい。第7の実施形態の点数算出部312と同様に、点数算出部332は、基準を予め保持しており、上記点数や割合が基準を満たさない場合、同義語選択部212に同義語の選択を指示する。
【0156】
同義語選択部212は、同義語抽出部122により抽出された任意の同義語を選択してもよい。あるいは、上記のように付与された点数が相対的に低い語の同義語を選択してもよい。あるいは、上記のように、類義語情報生成部331により抽出された類義語を選択してもよい。このとき、例えば、クエリに含まれる語より下位語である類義語(具象化された関連語)を選択してもよい。同義語選択部212は、選択した同義語または類義語を、同義語追加部123に通知する。同義語追加部123は、通知された同義語または類義語をクエリに追加する。同義語追加部123は、通知された同義語または類義語で、クエリに含まれる語を置き換えてもよい。
【0157】
以上のように、本第9の実施形態によれば、クエリ評価部330は、クエリに含まれる語と、その語の類義語とに基づいて語の各々の抽象度を決定し、決定した各々の語の抽象度から得られたクエリの抽象度が基準より大きい場合、クエリに同義語または類義語を追加するので、検索の精度を向上させることができるという効果が得られる。
【0158】
第10の実施形態
図39は、第10の実施形態に係る編集装置400の機能構成を示すブロック図である。
図37に示すように、編集装置400は、取得部410および編集部420を備える。取得部410は、1以上の語を含むテキストデータを取得する。編集部420は、テキストデータを用いた検索の対象である1以上の文書から、取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるようにテキストデータを編集する。
【0159】
上記構成を採用することにより、第9の実施形態によれば、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。
【0160】
以上、上述した実施形態を参照して本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、種々の上記開示要素の多様な組み合わせ乃至選択など、当業者が理解し得る様々な態様を適用することができる。
【0161】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0162】
(付記1) 1以上の語を含むテキストデータを取得する取得手段と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段と
を備えた編集装置。
【0163】
(付記2)
前記文書は、所定の技術領域に関する文書である
付記1記載の編集装置。
【0164】
(付記3)
前記編集手段は、前記文書の所定の項目に関わる文から、前記関連語を抽出する
付記1または付記2記載の編集装置。
【0165】
(付記4)
前記所定の項目を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記文書の、選択された所定の項目に関わる文から、前記関連語を抽出する
付記3記載の編集装置。
【0166】
(付記5)
前記取得したテキストデータに含まれる少なくとも1つの語に対して、前記関連語を抽出するか否かを選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記関連語を抽出することを選択された語について前記関連語を抽出する
付記1ないし付記4のいずれか1項記載の編集装置。
【0167】
(付記6)
前記抽出された関連語のうち前記テキストデータに含める関連語を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記選択された関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記5のいずれか1項記載の編集装置。
【0168】
(付記7)
前記編集手段により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段をさらに備え、
前記編集手段は、前記関連語選択手段により選択された関連語を含むテキストデータを用いて実行された検索の結果を取得し、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記6のいずれか1項記載の編集装置。
【0169】
(付記8)
前記編集手段は、前記取得した検索の結果のスコアが基準を満たさない場合、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
付記7記載の編集装置。
【0170】
(付記9)
前記編集手段は、前記テキストデータに含まれる語の数のうち複合語の数の割合が基準に満たない場合、前記抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記8のいずれか1項記載の編集装置。
【0171】
(付記10)
前記編集手段は、前記テキストデータに含まれる語と、当該語について抽出した前記関連語とに基づいて決定された前記語の各々の抽象度に基づいて、前記関連語のうち、前記テキストデータに含まれる語より具象化された関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記9のいずれか1項記載の編集装置。
【0172】
(付記11)
1以上の語を含むテキストデータを取得し、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
編集方法。
【0173】
(付記12)
1以上の語を含むテキストデータを取得する処理と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理と
を、コンピュータに実行させる編集プログラム。
【符号の説明】
【0174】
10 コンピュータ装置
11 プロセッサ
14 記憶装置
15 入出力インタフェース
16 バス
17 ドライブ装置
18 プログラム
19 周辺機器
20 記録媒体
100 編集装置
110 クエリ取得部
120 クエリ編集部
121 クエリ解析部
122 同義語抽出部
123 同義語追加部
124a 選択情報入出力部
124b 選択情報入出力部
130 クエリ出力部
140 文書記憶部
150 検索装置