特許6181890 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 一般財団法人工業所有権協力センターの特許一覧

特許6181890文献解析装置、文献解析方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6181890

(24)【登録日】2017年7月28日

(45)【発行日】2017年8月16日

(54)【発明の名称】文献解析装置、文献解析方法およびプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20170807BHJP

【ＦＩ】

G06F17/30 350C

G06F17/30 170A

G06F17/30 320D

【請求項の数】17

【全頁数】36

(21)【出願番号】特願2017-40713(P2017-40713)

(22)【出願日】2017年3月3日

(65)【公開番号】特開2017-102976(P2017-102976A)

(43)【公開日】2017年6月8日

【審査請求日】2017年3月3日

(31)【優先権主張番号】特願2016-255405(P2016-255405)

(32)【優先日】2016年12月28日

(33)【優先権主張国】JP

【早期審査対象出願】

(73)【特許権者】

【識別番号】502415906

【氏名又は名称】一般財団法人工業所有権協力センター

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100103034

【弁理士】

【氏名又は名称】野河信久

(74)【代理人】

【識別番号】100153051

【弁理士】

【氏名又は名称】河野直樹

(74)【代理人】

【識別番号】100179062

【弁理士】

【氏名又は名称】井上正

(74)【代理人】

【識別番号】100189913

【弁理士】

【氏名又は名称】鵜飼健

(74)【代理人】

【識別番号】100199565

【弁理士】

【氏名又は名称】飯野茂

(72)【発明者】

【氏名】藤間孝雄

(72)【発明者】

【氏名】上田尚純

【審査官】石田信行

(56)【参考文献】

【文献】特開２００９−２８８８７０（ＪＰ，Ａ）

【文献】特開２００９−２４５０４１（ＪＰ，Ａ）

【文献】特開２００４−１３３５１０（ＪＰ，Ａ）

【文献】特開平１１−１４３８９７（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして記憶する推定用辞書記憶部と、
検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして記憶する文献用語記憶部と、
前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算するスコア計算手段と、
前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する判定手段と
を具備する文献解析装置。

【請求項2】

前記推定用辞書データ、前記文献用語データおよび前記スコア計算手段のそれぞれにおいて定義される、文献の意味表現として区切りがつく所定の範囲は、句、文章および段落のいずれかの範囲とする請求項１に記載の文献解析装置。

【請求項3】

前記推定用辞書データは、前記句、文章および段落のそれぞれで定義された基本要素を階層的に組み合わせた複合化基本要素を文意式に含み、
前記複合化基本要素は、文章の基本要素に対しては用語と１つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と１つあるいは複数個の文章の基本要素あるいは句の基本要素を含み、
前記スコア計算手段は、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記検索対象の文献の句、文章および段落ごとに、その範囲に含まれる用語群と、前記複合化基本要素を含む文意式とを比較し、その一致頻度に基づき前記スコアを計算する請求項２に記載の文献解析装置。

【請求項4】

前記推定用辞書データは、同義な意味を持つ複数の用語に対する総称である統制語を定義し、当該統制語を用いて前記文意式を記述し、
前記スコア計算手段は、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式、と前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記統制語により同義語として定義された複数の用語と文献用語データとを比較し、この際に同義語として定義された用語のいずれか１つが文献用語データ中に含まれていれば比較一致の条件に該当すると判定する、請求項１乃至３のいずれかに記載の文献解析装置。

【請求項5】

前記スコア計算手段は、
前記検索対象の文献の検索対象範囲を意味表現としてまとまりを持つ第１の範囲を単位として複数の範囲に分割し、これら分割された各範囲のそれぞれについて、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第１のスコアを計算する第１の計算手段と、
前記検索対象の文献の検索対象範囲のうち、前記第１の範囲より広い第２の範囲について、当該第２の範囲に含まれる用語群と前記文意式との一致頻度に基づき第２のスコアを計算する第２の計算手段と、
前記計算された第１のスコアと前記計算された第２のスコアとをもとに、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する第３の計算手段と
を備える請求項１乃至４のいずれかに記載の文献解析装置。

【請求項6】

前記第３の計算手段は、前記計算された第１のスコアのうちの最大値と、前記第２のスコアとを、予め設定した係数で重み付け加算することにより、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する請求項５記載の文献解析装置。

【請求項7】

前記推定用辞書データは、分類コードの付与条件を、文意式により記述したものからなり、
前記判定手段は、前記検索対象の文献が前記分類コードの付与条件を満たす文献であると判定された場合に、当該分類コードを前記検索対象の文献に対し付与するものである請求項１乃至６のいずれかに記載の文献解析装置。

【請求項8】

前記推定用辞書データは、類似文献のサーチ条件を、文意式により記述したものからなり、
前記判定手段は、前記検索対象の文献が前記類似文献のサーチ条件を満たす文献であると判定された場合に、前記検索対象の文献を類似文献として選択するものである請求項１乃至６のいずれかに記載の文献解析装置。

【請求項9】

請求項１乃至８のいずれかに記載の文献解析装置が備える各手段としてコンピュータを機能させる文献解析プログラム。

【請求項10】

コンピュータおよびメモリを備える文献解析装置が行う文献解析方法であって、
前記文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして前記メモリに記憶させる過程と、
前記文献解析装置が、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして前記メモリに記憶させる過程と、
前記文献解析装置が、前記メモリに記憶された推定用辞書データに含まれる文意式と、前記メモリに記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算する過程と、
前記文献解析装置が、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する過程と
を具備する文献解析方法。

【請求項11】

前記推定用辞書データを作成する推定用辞書作成装置をさらに具備し、
前記推定用辞書作成装置は、
前記推定用辞書データの作成対象となる分野ごとに定義されたコードと、前記分野の特徴を表す種用語の入力を受け付ける手段と、
文献データベースから、前記種用語を含みかつ前記コードに対応する文献群と、前記種用語を含みかつ前記コードに対応しない文献群とを、それぞれ正例教師文献群および負例教師文献群として抽出する教師文献抽出手段と、
前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも１つ含む語句の組み合わせを前記基本要素の候補として抽出する基本要素候補抽出手段と、
前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する基本要素選択手段と、
前記基本要素選択手段により選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、前記推定用辞書記憶部に記憶させる推定用辞書データ作成手段と
を備える請求項１記載の文献解析装置。

【請求項12】

前記基本要素候補抽出手段は、
前記文献の意味表現として区切りがつく所定の範囲として少なくとも文章および段落を定義し、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、前記文章ごとにおよび段落ごとに、前記種用語とその共起語との組み合わせを少なくとも１つ含む用語の組み合わせを前記基本要素の候補として抽出する第１の候補抽出手段と、
前記文章から抽出された基本要素と共起関係を有する共起語を、当該文章を含まない他の段落から抽出し、前記文章から抽出された基本要素の候補と前記他の段落から抽出された共起語との積形式の組み合わせを前記基本要素の候補に加える第２の候補抽出手段と
を有する請求項１１記載の文献解析装置。

【請求項13】

前記基本要素候補抽出手段は、
前記基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す第１の精度および前記全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す第１の再現率の各々について予め設定された閾値を保持し、前記第１および第２の候補抽出手段が抽出する前記基本要素の候補を、前記第１の精度の閾値および前記第１の再現率の閾値を超える基本要素の候補に制限する抽出制限手段を、
さらに有する請求項１２記載の文献解析装置。

【請求項14】

前記基本要素選択手段は、
前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数と負例教師文献数との合計に対する前記基本要素の候補を含む正例教師文献数の割合を表す第２の精度と、前記教師文献抽出手段により抽出された全正例教師文献数に対する前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数の割合を示す第２の再現率とに基づいて、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から推定用の基本要素を選択する請求項１１に記載の文献解析装置。

【請求項15】

前記基本要素選択手段は、
前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記第２の精度および第２の再現率が最も高い基本要素の候補を推定用の基本要素として選択する第１の手段と、
前記推定用の基本要素の選択後に、前記教師文献抽出手段により抽出された前記正例教師文献群および負例教師文献群から前記推定用の基本要素を含む文献を除外し、残存する正例教師文献群および負例教師文献群を対象として、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた各基本要素の候補について前記第２の精度および第２の再現率を再計算する第２の手段と、
前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた全基本要素の候補の中から、前記再計算後の第２の精度および第２の再現率が最も高い基本要素の候補を推定用の基本要素として追加選択する第３の手段と、
前記第２の手段および前記第３の手段の処理を、前記残存する正例教師文献が所定数以下になるか、または前記選択された推定用の基本要素を除いた各基本要素の候補が所定数以下になるまで、繰り返し実行させる第４の手段と
を有する請求項１４に記載の文献解析装置。

【請求項16】

請求項１１乃至１５のいずれかに記載の文献解析装置の推定用辞書作成装置が備える各手段としてコンピュータを機能させる推定用辞書作成プログラム。

【請求項17】

前記文献解析装置が、前記推定用辞書データを作成する過程をさらに具備し、
前記推定用辞書データを作成する過程は、
前記推定用辞書データの作成対象となる分野ごとに定義されたコードと、前記分野の特徴を表す種用語の入力を受け付ける過程と、
文献データベースから、前記種用語を含みかつ前記コードに対応する文献群と、前記種用語を含みかつ前記コードに対応しない文献群とを、それぞれ正例教師文献群および負例教師文献群として抽出する過程と、
前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも１つ含む語句の組み合わせを前記基本要素の候補として抽出する過程と、
前記抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する過程と、
前記選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、メモリに記憶させる過程と
を備える請求項１０に記載の文献解析方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、文献解析装置、文献解析方法およびプログラムに関する。

【背景技術】

【0002】

例えば、特許文献に対し技術分類を表す分類コードを付与したり、特許文献と記載技術の内容が類似する他の文献をサーチする処理は、一般にその多くが人手により行われている。このため、担当者の主観や経験により、付与の精度やサーチの精度に差が生じることが避けられない。

【0003】

そこで、分類コードの付与や類似文献のサーチをコンピュータにより自動的に行えるようにする手法の研究が進められている。この手法は、例えば、付与条件またはサーチ条件を用語を基本とした論理和と論理積による１つのブール代数式、または複数の用語からなる１つの近傍式を用いて記述した推定用辞書を予め作成し、分類付与またはサーチの対象となる文献に記載された文字列と上記推定用辞書とを対比することで両者の類似度合いを求め、求められた類似度合いに応じて分類付与の可否または類似文献か否かを判定する手法が検討されている（例えば、特許文献１または特許文献２を参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００４−９４５８３号公報

【特許文献2】特開２００２−２０２９８４号公報ところが、上記した付与条件またはサーチ条件を１つのブール代数式または近傍式を用いて記述した推定用辞書では、複雑な付与条件またはサーチ条件を過不足なく定義することが困難であり、また対象文献との対比に多くの処理時間が必要となる。

【0005】

この発明は上記事情に着目してなされたもので、その目的とするところは、推定用辞書に記述する付与条件またはサーチ条件を簡素かつ正確に定義できるようにし、これにより少ない処理時間で精度の高い分類付与または文献サーチを可能にした文献解析装置、文献解析方法およびプログラムを提供しようとするものである。

【発明の概要】

【課題を解決するための手段】

【0006】

上記目的を達成するためにこの発明の第１の態様は、文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データを記憶する推定用辞書記憶部と、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして記憶する文献用語記憶部と、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算するスコア計算手段と、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する判定手段とを具備するようにしたものである。

【0007】

この発明の第２の態様は、前記推定用辞書データ、前記文献用語データおよび前記スコア計算手段のそれぞれにおいて定義される、意味表現として区切りがつく所定の範囲は、句、文章および段落のいずれかの範囲としたものである。

【0008】

この発明の第３の態様は、前記推定用辞書データが、前記句、文章および段落のそれぞれで定義された基本要素を階層的に組み合わせた複合化基本要素を文意式に含み、前記複合化基本要素は、文章の基本要素に対しては用語と１つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と１つあるいは複数個の文章の基本要素あるいは句の基本要素を含み、前記スコア計算手段が、前記辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記検索対象の文献の句、文章および段落ごとに、その範囲に含まれる用語群と、前記複合化基本要素を含む文意式とを比較し、その一致頻度に基づき前記スコアを計算するようにしたものである。

【0009】

この発明の第４の態様は、前記推定用辞書データが、同義な意味を持つ複数の用語に対する総称である統制語を定義し、当該統制語を用いて前記文意式を記述し、前記スコア計算手段が、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記統制語により同義語として定義された複数の用語と文献用語データとを比較し、この際に同義語として定義された用語のいずれか１つが文献用語データ中に含まれていれば比較一致の条件に該当すると判定するようにしたものである。

【0010】

この発明の第５の態様は、前記スコア計算手段が、前記検索対象の文献の検索対象範囲を意味表現としてまとまりを持つ第１の範囲を単位として複数の範囲に分割し、これら分割された各範囲のそれぞれについて、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第１のスコアを計算する第１の計算手段と、前記検索対象の文献の検索対象範囲のうち、前記第１の範囲より広い第２の範囲について、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第２のスコアを計算する第２の計算手段と、前記計算された第１のスコアと前記計算された第２のスコアとをもとに、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する第３の計算手段とを備えるようにしたものである。

【0011】

この発明の第６の態様は、前記第３の計算手段が、前記計算された第１のスコアのうちの最大値と、前記第２のスコアとを、予め設定した係数で重み付け加算することにより、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算するようにしたものである。

【0012】

この発明の第７の態様は、前記推定用辞書データが、分類コードの付与条件を、共起関係を示す複数の用語の組を基本要素として含む文意式により記述したものからなる場合に、前記判定手段が、前記検索対象の文献が前記分類コードの付与条件を満たす文献であると判定されたとき、当該分類コードを前記検索対象の文献に対し付与するようにしたものである。

【0013】

この発明の第８の態様は、前記推定用辞書データが、類似文献のサーチ条件を、文意式により記述したものからなり、前記判定手段は、前記検索対象の文献が前記類似文献のサーチ条件を満たす文献であると判定された場合に、前記検索対象の文献を類似文献として選択するようにしたものである。

【0014】

この発明の第９の態様は、前記文献解析プログラムは、前記文献解析装置が備える各手段としてコンピュータを機能させるようにしたものである。

【0015】

この発明の第１０の態様は、文献解析方法が、コンピュータおよびメモリを備える文献解析装置が行う文献解析方法であって、前記文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして前記メモリに記憶させる過程と、前記文献解析装置が、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして前記メモリに記憶させる過程と、前記文献解析装置が、前記メモリに記憶された推定用辞書データに含まれる文意式と、前記メモリに記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算する過程と、前記文献解析装置が、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する過程とを有するようにしたものである。

【0016】

この発明の第１１の態様は、前記推定用辞書作成装置に、推定用辞書データの自動作成機能を具備する。そして、前記推定用辞書作成装置が、前記推定用辞書データの自動作成機能により、前記推定用辞書データの作成対象となるテーマと当該テーマの特徴を表す種用語の入力を受け付ける手段と、文献データベースから、前記種用語を含みかつ前記テーマに対応する正例教師文献群と、前記種用語を含みかつ前記テーマに対応しない負例教師文献群とをそれぞれ抽出する教師文献抽出手段と、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも１つ含む語句の組み合わせを前記基本要素の候補として抽出する基本要素候補抽出手段と、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する基本要素選択手段と、前記基本要素選択手段により選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、前記推定用辞書記憶部に記憶させる推定用辞書データ作成手段とを備えるようにしたものである。

【0017】

この発明の第１２の態様は、前記基本要素候補抽出手段が、前記文献の意味表現として区切りがつく所定の範囲として少なくとも文章および段落を定義し、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、前記文章ごとにおよび段落ごとに、前記種用語とその共起語との組み合わせを少なくとも１つ含む用語の組み合わせを前記基本要素の候補として抽出する第１の候補抽出手段と、前記文章から抽出された基本要素と共起関係を有する共起語を、当該文章を含まない他の段落から抽出し、前記文章から抽出された基本要素の候補と前記他の段落から抽出された共起語との積形式の組み合わせを前記基本要素の候補に加える第２の候補抽出手段とを有するようにしたものである。

【0018】

この発明の第１３の態様は、前記基本要素候補抽出手段が、抽出制限手段をさらに有する。この抽出制限手段は、前記基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す第１の精度および前記全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す第１の再現率の各々について予め設定された閾値を保持している。そして、抽出制限手段は、前記第１および第２の候補抽出手段が抽出する前記基本要素の候補を、前記精度の閾値および前記再現率の閾値を超える基本要素の候補に制限するようにしたものである。

【0019】

この発明の第１４の態様は、前記基本要素選択手段が、前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数と負例教師文献数との合計に対する前記基本要素の候補を含む正例教師文献数の割合を表す第２の精度と、前記教師文献抽出手段により抽出された全正例教師文献数に対する前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数の割合を示す第２の再現率とに基づいて、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から推定用の基本要素を選択するようにしたものである。

【0020】

この発明の第１５の態様は、前記基本要素選択手段が、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記第２の精度および第２の再現率が最も高い基本要素の候補を推定用の基本要素として選択する第１の手段と、前記推定用の基本要素の選択後に、前記文献抽出手段により抽出された前記正例教師文献群および負例教師文献群から前記推定用の基本要素を含む文献を除外し、残存する正例教師文献群および負例教師文献群を対象として、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた各基本要素の候補について前記第２の精度および第２の再現率を再計算する第２の手段と、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた全基本要素の候補の中から、前記再計算後の第２の精度および第２の再現率が最も高い基本要素の候補を推定用の基本要素として追加選択する第３の手段と、前記第２の手段および前記第３の手段の処理を、前記残存する正例教師文献が所定数以下になるか、または前記選択された推定用の基本要素を除いた各基本要素の候補が所定数以下になるまで、繰り返し実行させる第４の手段とを有するようにしたものである。

【0021】

この発明の第１６の態様は、推定用辞書作成プログラムが、前記文献解析装置の推定用辞書作成装置が備える各手段としてコンピュータを機能させるようにしたものである。

【発明の効果】

【0022】

この発明の第１の態様によれば、推定用辞書データは、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述したものからなり、当該推定用辞書データと文献用語データとの類似度がスコアで表されるので、検索できたかできなかったかという判定に止まらず、検索条件の満たし具合の程度を認識することが可能となる。

【0023】

この発明の第２の態様によれば、意味表現として区切りがつく所定の範囲は、句、文章、段落のいずれかの範囲とされる。このため、推定用辞書データと文献用語データとの比較が、句、文章および段落のそれぞれの範囲内で行われ、これにより句、文章および段落を跨がって用語の組が検索されることはなくなり、精度の高い類似度判定が可能となる。

【0024】

この発明の第３の態様によれば、推定用辞書データが、句、文章および段落のそれぞれの範囲内で定義された基本要素を階層的に組み合わせた複合化基本要素を文意式に含み、前記複合化基本要素は、文章の基本要素に対しては用語と１つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と１つあるいは複数個の文章の基本要素あるいは句の基本要素を含むようになっている。このため、広義の用語間の共起関係を簡単に定義することができ、また用語相互間の関係で厳密な文意を表現することが可能となる。さらに、用語間の距離を意識することなく文書の意味を単位として共起関係を捉えることができ、使い勝手がよく文意に即した記述が可能となる。

【0025】

この発明の第４の態様によれば、同義な意味を持つ複数の用語に対する総称である統制語を用いて文意式が記述される。このため、同義な意味を持つ複数の用語を統制語により簡素に定義することができ、文意式作成の手間の軽減と文意式の見た目の簡素化を達成できる。

【0026】

この発明の第５の態様によれば、検索対象の文献の検索対象範囲が意味表現としてまとまりを持つ第１の範囲を単位として複数の範囲に分割され、これら分割された範囲のそれぞれについて当該範囲に含まれる用語群と文意式との一致頻度に基づき第１のスコアが計算され、さらに上記第１の範囲より広い第２の範囲について当該第２の範囲に含まれる用語群と文意式との一致頻度に基づき第２のスコアが計算され、上記計算された第１のスコアと第２のスコアとをもとに、推定用辞書データと検索対象の文献との類似度を表すスコアが計算される。このため、例えば検索対象の文献の全体（第２の範囲）と局所範囲（第１の範囲）との両方のスコアに着目して類似度の判定が行われるので、精度の高い類似度判定を行うことができる。

【0027】

この発明の第６の態様によれば、上記計算された第１のスコアのうちの最大スコアと第２のスコアとが所定の比率で重み付け加算される。このため、類似度に対する文献全体の影響度と文献の局所範囲の影響度の比率を最適に設定することができる。

【0028】

この発明の第７の態様によれば、検索対象の文献が検索条件を満たすと判定されると、当該検索対象文献に対し分類コードが付与される。従って、文献に対する分類コードの自動付与が可能となる。

【0029】

この発明の第８の態様によれば、検索対象の文献が検索条件を満たすと判定されると、当該検索対象文献が類似文献として選択される。すなわち、類似文献の自動サーチが可能となる。

【0030】

この発明の第９の態様によれば、文献解析プログラムにより、文献解析装置が備える各手段としてコンピュータを機能させることができる。

【0031】

この発明の第１０の態様によれば、推定用辞書データは、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述したものからなり、当該推定用辞書データと文献用語データとの類似度がスコアで表されるので、検索できたかできなかったかという判定に止まらず、検索条件の満たし具合の程度を認識することが可能となる。

【0032】

この発明の第１１の態様によれば、先ず文献データベースから、種用語を含みかつテーマに対応する正例教師文献群と、上記種用語を含みかつ上記テーマに対応しない負例教師文献群が抽出され、これらの文献群から種用語とその共起語との組み合わせを少なくとも１つ含む語句の組み合わせが基本要素の候補として抽出される。そして、上記抽出された複数の基本要素の候補の中から、正例教師文献群に含まれかつ負例教師文献群に含まれない確率が閾以上となる基本要素の候補が選択され、この選択された基本要素を含む文意式が推定用辞書データとして作成される。従って、推定用辞書データを自動作成することができるようになり、これにより人が手作業で推定用辞書を作成する必要がなくなって、人の作業負荷を大幅に軽減し、かつ文献解析装置の早期の運用開始を実現することができる。

【0033】

この発明の第１２の態様によれば、基本要素の候補を抽出する際に、正例および負例の各教師文献群から、少なくとも文章ごとにおよび段落ごとに基本要素の候補が抽出される。また、上記文章から抽出された基本要素と共起関係を有する共起語が、当該文章を含まない他の段落から抽出され、この抽出された基本要素の候補と共起語との積形式の組み合わせが上記基本要素の候補に加えられる。このため、文献ごとに、少なくともその文章および段落ごとに、さらには段落間を跨がって、それぞれ基本要素の候補が抽出される。従って、基本要素の候補を漏れなく抽出することができる。

【0034】

この発明の第１３の態様によれば、抽出される基本要素の候補が、予め設定された第１の精度の閾値および第２の再現率の閾値を超えるものに制限される。このため、基本要素の候補の抽出数を効果的に制限することができ、これにより推定用辞書データの数を抑制することができる。また、推定用辞書データの作成に要する装置の処理負荷を減らし、処理時間を短縮することができる。

【0035】

この発明の第１４の態様によれば、基本要素の候補の第２の精度と第２の再現率の両方を考慮して推定用の基本要素が選択される。このため、必要十分な基本要素を推定用の基本要素として抽出することが可能となる。

【0036】

この発明の第１５の態様によれば、上記第２の精度および第２の再現率をもとに上記推定用の基本要素を選択する際に、基本要素を１つ選択するごとに第２の精度および第２の再現率が再計算され、この再計算された第２の精度および第２の再現率をもとに推定用の基本要素が選択される。このため、推定用辞書データを作成する上で必要な基本要素を、重複や不足を生じることなく効果的に選択することが可能となる。

【0037】

この発明の第１６の態様によれば、文献解析プログラムにより、文献解析装置が備える各手段としてコンピュータを機能させることができる。

【0038】

すなわちこの発明の各態様によれば、辞書に記述する付与条件またはサーチ条件を簡素かつ正確に定義することができ、これにより少ない処理時間で精度の高い分類付与または文献サーチを可能にした文献解析装置、文献解析方法およびプログラムを提供することができる。

【図面の簡単な説明】

【0039】

【図1】この発明の実施例１に係る文献解析装置を備えるシステムの概要を示す図。

【図2】推定用辞書の作成に使用される表示画面の一例を示す図。

【図3】推定用辞書に記述される文意式の構成を示す図。

【図4】図１に示した文献解析装置により実行される分類付与処理の手順と処理内容を示すフローチャート。

【図5】実施例２に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャート。

【図6】実施例３に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャート。

【図7】この発明の実施例４に係る文献解析装置において使用される推定用辞書自動作成装置の機能構成を示すブロック図。

【図8】図７に示した推定用辞書自動作成装置の作成処理手順と処理内容を示すフローチャート。

【図9】図８に示した作成処理手順における基本要素候補抽出・記憶処理の処理手順と処理内容を示すフローチャート。

【図10】図８に示した作成処理手順における有効基本要素選択・記憶処理を精度に着目して実行した場合の処理手順と処理内容を示すフローチャート。

【図11】図８に示した作成処理手順における有効基本要素選択・記憶処理を再現率に着目して実行した場合の処理手順と処理内容を示すフローチャート。

【図12】図８に示したパラメータ取り込み処理により取り込まれるパラメータの一例を示す図。

【図13】図８に示した教師文献抽出処理および正例・負例教師文献の分割処理により作成された正例教師文献および負例教師文献のリストの一例を示す図。

【図14】図１１に示した有効基本要素選択処理の概要を示す図。

【図15】図１１に示した基本要素候補抽出処理により抽出された基本要素候補の一例を示す図。

【図16】図１０および図１１に示した有効基本要素選択処理の選択処理過程において更新された基本要素候補の一例を示す図。

【発明を実施するための形態】

【0040】

以下、図面を参照してこの発明に係わる実施例を説明する。
［実施例１］
図１は、この発明は特許文献に分類コードを付与する場合に使用する実施例１に係る文献解析システムの概略構成図である。
実施例１に係る文献解析システムは、推定用辞書作成装置１と、文献用語表生成装置２と、推定装置３とを備えている。これらの装置１、２および３は独立するコンピュータによりそれぞれ構成されるが、１台のコンピュータに上記各装置１、２および３の処理機能を持たせた構成としてもよい。

【0041】

推定用辞書作成装置１は、推定用辞書エディタ１Ａを有している。推定用辞書エディタ１Ａは、メモリに記憶されている推定用辞書作成用テンプレート４０を表示部に表示し、推定用辞書作成者が手操作で入力したパラメータや文意式をもとに推定用辞書データＰを作成し、作成された推定用辞書データＰを再びメモリに記憶させる機能を有している。

【0042】

なお、推定用辞書作成装置１には、推定用辞書作成用として用意されたサンプル文献の文書データを複数件分読み込み、機械学習等を用いて推定用辞書データを自動作成する機能を備えるようにしてもよい。

【0043】

文献用語表生成装置２は、外部の文献データ記憶装置から分類コード付与対象となる文献データＱ１，Ｑ２，Ｑ３，…を読み込み、文意フィルタ部２Ａにより上記文献データＱ１，Ｑ２，Ｑ３，…からそれぞれ文献用語表データＲ１，Ｒ２，Ｒ３，…を生成してメモリに記憶する機能を有する。文意フィルタ部２Ａは、例えば文献データＱ１，Ｑ２，Ｑ３，…を形態素解析により単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより文献用語表データＲ１，Ｒ２，Ｒ３，…を生成する。

【0044】

推定装置３は、推定エンジン３Ａと、差異抽出ツール３Ｂとを備えている。

【0045】

推定エンジン３Ａは、上記推定用辞書作成装置１および文献用語表生成装置２からそれぞれ推定用辞書データＰおよび文献用語表データＲ１，Ｒ２，Ｒ３，…を取り込み記憶する。この状態で、推定用辞書データＰの文意式と文献用語表データＲ１，Ｒ２，Ｒ３，…中の用語とをそれぞれ比較してその一致度を表すスコアを計算する。そして、このスコアの計算結果に基づいて分類コードの付与の可否を判定し、可であれば分類コードを付与する機能を有している。

【0046】

差異抽出ツール３Ｂは、上記推定用辞書データＰの精度を高めるために使用するもので、推定エンジン３Ａが文献群に付与した分類コードを収集し、付与された分類コードとそれらの文献（サンプル文献）に正解例として人が予め付与している分類コードとを比較し、両者に付与コードの差異があればそれを検出し差異結果を表示する。これにより、サンプル文献群に対する推定付与コードの付与漏れや不必要な付与を俯瞰でき、推定用辞書の問題点を全体的に把握できる。

【0047】

（動作）
次に、システムによる分類付与動作を説明する。
ここでは、特許文献に対し分類コードを付与する場合を例にとって説明する。

【0048】

（１）推定用辞書の作成
推定用辞書作成装置１では、推定用辞書エディタ１Ａの制御の下、推定用辞書データＰを作成する。推定用辞書データはコード付与定義表と、コード付与結果を使用して付加的に更なるコード付与を指示したりコード付与の取り消しを指示するメタルールとからなる。また、コード付与定義表では、文意式の作成や記述を簡潔かつ簡便に行うのを支援するために統制語および文意式の定義機能を提供している。

【0049】

推定用辞書エディタ１Ａは、先ず推定用辞書作成用メモリに事前に記憶されている推定用辞書作成用テンプレート４０を読み出して表示する。図２は推定用辞書作成用テンプレート４０の表示例を示すもので、当該テンプレートに文意式などを記入したものがコード付与定義表である。

【0050】

推定用辞書作成用テンプレート４０は、例えば複数のパラメータと複数の文意式の入力セルを設けたものである。なお、図２では説明の便宜上パラメータおよび文意式が既に入力された状態を示しているが、初期状態では未入力である。このテンプレートを使用して所要のコードに対してコード付与条件を定義することができる。

【0051】

（１−１）パラメータ
パラメータは、「テーマ」、「コード」、「グループ」、「付与基準値」、「重み」、「段落種別番号」からなり、それぞれが表の列に１つずつ割り当てられている。また、「文意式」は「用語の基本スコア」、「基本要素の基本スコア」および「文意式の基本スコア」も表の列に１つずつ割り当てられている。なお、複数の文意式も表の列に１つずつ割り当てられている。

【0052】

「テーマ」は、分類対象としている技術分野に付与した分野名、「コード」は付与対象とするコード名であり、例えば日本の特許庁が定義しているＦタームやＦＩコードがこれに該当する。コードは複数の行で記載することができるが、特にパラメータが異なる際は行を変え、「グループ」のセルには各行にコード内での番号を記載する。「付与基準値」は、コード付与の可否を判定する閾値を指定する。「重み」は、対応する前記グループに記述される文意式のマッチングスコアを算出するときの評価値倍率を指定する。「段落種別番号」は、特許文献の検索対象範囲を項目単位で指定するもので、１：「発明の名称」、２：「要約」、３：「請求項」、４：「技術分野」、５：「背景技術／従来技術」、６：「課題」、７：「解決手段」、８：「効果／作用」、９：「図の説明」、１０：「実施例」、１１：「符号の説明」のように定義されている。

【0053】

（１−２）文意式
文意式は、分類の付与条件を、単独の用語又は共起関係を示す複数の用語の組を基本要素（以後単に「基本要素」という）とし、少なくとも１つの基本要素、または単独の用語と基本要素との組み合わせをブール代数式で記述したものである。

【0054】

基本要素には、同じ句内に存在する複数の用語を組にして指定する「句基本要素」と、同じ文章内に存在する複数の用語を組にして指定する「文章基本要素」と、同じ段落内に存在する用語の組を指定する「段落基本要素」の３種類がある。これらの要素はそれぞれ＜＞、｛｝、［］を用いて記述される。ここで、句とは句点（「、」）あるは読点（「。」）のいずれかで区切られた範囲にある文字群であり、文章は読点（「。」）で区切られた範囲内にある文字群であり、段落は明示あるいは暗示（行の冒頭文字の字下げ等）された段落区切りで区切られた範囲内にある文字群である。文献には１個以上の段落が含まれ、段落は１個以上の文章を含み、文章は１個以上の句を含み（文章中に句点がない場合は文章と句は同じになる）、句は１個以上の用語を含む。さらに、これらは文献を最上位にして文献−段落−文章−句−用語の階層構造を形成する。

【0055】

基本要素の例を以下に示す。すなわち、用語である「位置」、「ＧＰＳ」、「測定」の共起関係を指定する場合、「句基本要素」、「文章基本要素」、「段落基本要素」はそれぞれ
＜位置，ＧＰＳ，測定＞
｛位置，ＧＰＳ，測定｝
［位置，ＧＰＳ，測定］
と記述する。

【0056】

「句基本要素」、「文章基本要素」および「段落基本要素」という３種類の基本要素を定義したことで、それぞれ句、文章および段落の各範囲内に限り基本要素の中で指定されている用語の組が出現しているかどうかを検索することができる。これにより、句、文章および段落の境界を跨がって用語の組が検索（ヒット）されることがなくなり、精度の高い文意の指定が可能となる。

【0057】

また基本要素には、語順を指定したり、否定形を指定する記号を含めることが可能である。語順を指定する場合には、例えば
＜位置，ＧＰＳ，測定＞ｃ
のように基本要素の末尾に「ｃ」を付加する。この場合、「位置」と「ＧＰＳ」と「測定」の各用語がこの並び順で検索範囲に出現すべきであることを指定する。

【0058】

否定形を指定する場合は、例えば
｛位置，ＧＰＳ，測定，＃カメラ｝
のように否定対象の用語の頭に「＃」を付加する。否定形は、句、文章または段落の各範囲内に否定形に指定された用語が存在しないことをヒットの条件とする。この例では、範囲内に「位置」と「ＧＰＳ」と「測定」が存在すると共に、「カメラ」が存在してはいけないことを指定する。「＃」は基本要素内の任意個の用語に付加してよい。

【0059】

さらに、文意式を記述する場合には各用語についてその類義語を漏れなく指定する必要があり、そのために図３に示すように統制語ｂ１〜ｂｍを定義できるようにしている。統制語ｂ１〜ｂｍは複数の類義語ｃ１〜ｃｍを代表するものである。統制語ｂ１〜ｂｍごとにその統制語に所属する複数の類義語ｃ１〜ｃｍを定義して記憶する統制語辞書を提供しており、この辞書で統制語を管理する。統制語は文意式においてその頭に「;」を付加することで表記される。

【0060】

一例として、“パソコン”はこれ以外にも“計算機”、“コンピュータ”、“ＰＣ”などの用語が使われたりする。そこで“；パソコン”という統制語を定義し、その中にこれらの類義の意味を持つ用語群を指定しておけば、文意式では統制語“；パソコン”を記述しておくことにより、あとは装置側で統制語をその中に定義されている類義語群の論理和の形式に展開する。文意式の作成の手間の軽減と見た目の簡素化を実現できる。統制語は、その中に含める類義語群と対応付けて、図示していない統制語辞書に登録する。統制語辞書に登録した統制語は文意式において用語の代替物として記述できる。

【0061】

また、基本要素内に基本要素を含む多層構造（階層構造）の複合化基本要素を記述することも可能である。複合化基本要素では、例えば文章基本要素の中に句基本要素を記述したり、段落基本要素の中に文章基本要素を記述し、さらに文章基本要素内に句基本要素を記述することが可能となる。

【0062】

以下に統制語の例示を兼ねた複合化基本要素の記述例を示す。
｛＜停止，時＞ｃ，；補正｝
［；ナビ端，｛；歩行者，＜位置，；計測＞ｃ｝］
ここで、複合化基本要素「｛＜停止，時＞ｃ，；補正｝」と、文意式「＜停止，時＞ｃ＊｛停止、時、;補正｝」との差異を説明する。

【0063】

前者の複合化基本要素では、全体が文章基本要素を示す｛｝の記号で括られていることから、＜停止，時＞ｃと｛停止，時，；補正｝が文章に出現しないといけないことを指示する。すなわち、「停止」、「時」、「；補正」が同じ文章に存在し、さらにその文章に含まれるいずれかの句において「停止」と「時」が含まれている場合にのみ、この複合化基本要素はヒットしたと判定される。

【0064】

これに対し後者は、＜停止，時＞ｃと｛停止，時，；補正｝は異なる文章で出現していてもよい。各々が文献中のどこかにあればよいことを意味する。

【0065】

同様に、［；ナビ端，｛；歩行者，＜位置，；計測＞ｃ｝］では、全体が段落基本要素を示す記号［］で括られ、その中に文章基本要素を示す記号｛｝、および句基本要素を示す記号＜＞がそれぞれ含まれることから、同一段落の中で、さらにはその中の同一文章において、さらにはその文章内の同一句において、指定された基本要素成立条件を満たすべきであることを指示している。

【0066】

文意式は、１つの用語あるいは１つの基本要素を項として、これら項を１個ないし複数個基本要素組み合わせたブール代数式の形式で記述したもので、複数の項がある場合は論理和「＋」演算子あるいは論理積「＊」で結合する。さらに、演算子が複数個ある場合は演算優先指定の丸括弧演算子「（）」を使用して演算子の適用順序を指定できる。なお、基本要素の中の用語の代わりとして又は単独の用語の代わりに統制語を指定してもよい。

【0067】

また、特許分類の「Ｆターム」では、テーマによって例えば「“ＡＡ０３”を付与した場合は“ＡＡ０４”は付与せず、また“ＡＡ１０”と“ＡＡ１５”を付与した場合は“ＢＢ０３”も付与する」といった付与規則が定められている。この規則に対応するため、メタルールと呼ぶＦターム相互間の付与条件を記述した上位の式を定義してもよい。

【0068】

メタルールは、条件式とアクション式とにより構成される。条件式はＦタームを組み合わせた文意式で表される。条件式が成立するとアクション式が実行され、アクション式ではコードの付与や削除、メッセージの表示、ユーザの介入要請等を指定する。

【0069】

メタルールは、「ＦＩコード」に対しても適用可能である。例えば、
「“ＡＡ１０”および“ＡＡ１２”と、“ＢＢ０３”および“ＢＢ０４”のいずれかが付与されている場合には、Ｇ０６Ｆｘｘｘ＠Ａを付与せよ」
というメタルールを記述する。このようにすればＦＩコードに対しても同様の効果を得ることができる。

【0070】

以下にメタルールをＦタームの付与に適用した場合と、ＦＩコードの付与に適用した場合の一例を示す。
・Ｆターム付与への適用例
条件式；（ＡＡ０３＋ＡＡ０４＋＃ＡＡ０５）＊ＡＡ０８＝１ならば、
アクション式；ＡＡ１０＝１
以上の条件式は、ＡＡ０３，ＡＡ０４のいずれかが付与されるか、又はＡＡ０５が付与されておらず、かつＡＡ０８が付与されている場合にＡＡ１０を付与する、という条件を表している。

【0071】

・ＦＩコード付与への適用例
条件式が（ＡＡ０３＋ＡＡ０４）＊｛ＢＢ０１〜ＢＢ１５＞＝２｝ならば、
アクション式はＧ０１Ｃ２１／００＠ｐ＝１とする。
以上の条件式は、ＡＡ０３又はＡＡ０４のいずれかが付与されると共に、ＢＢ０１〜ＢＢ１５までのコード（ＢＢ０１，ＢＢ０２，ＢＢ０３，・・・，ＢＢ１５）のいずれかに２つ以上付与されるならば、Ｇ０１Ｃ２１／００＠ｐを付与するという条件を表している。

【0072】

（１−３）推定用辞書作成の手順と処理内容
推定用辞書作成者は、上記推定用辞書作成用テンプレート４０が表示された状態で、先ず作成対象のテーマ名およびコードを入力し、さらに行ごとにグループ番号、付与基準値、重み、注釈および段落種別番号を入力する。次に、コードの付与条件に対応する文意式を、文意式入力セルに一つずつ記述する。同じ行の複数のセルに記述した文意式は論理和で結合して処理される。従って、これら複数の文意式を一つの文意式にまとめて１つのセルに記述しても、その効果は同じである。しかし、複数の文意式に分割してセルに記述しておけば、セル単位で文意式を修正できる。

【0073】

文意式は、上記（１−２）で説明したように、句、文章および段落の各々について、１つの用語又は共起関係を示す複数の用語の組を基本要素とし、この基本要素の組み合わせを演算子で結合することにより作成される。その際、語順指定や否定形の指定、統制語の使用、複合化基本要素の記述も可能である。

【0074】

推定用辞書データの精度を高めるために、本実施例では以下のような推定用辞書作成手順を実行する。すなわち、先ず推定用辞書作成者がテーマに対応する１０件程度のサンプル文献を厳選し、これらの文献に対し推定用辞書作成者が自身の見識で絶対に正しいと考える分類コードを付与して、これを絶対基準とする。

【0075】

まず、先に述べたようにパラメータおよび文意式の入力を行って推定用辞書の初版を作成し、続いて、推定装置３に当該推定用辞書の初版を用いて上記サンプル文献に実際に分類コードを付与させる。そして、この推定装置３により付与された分類コードと上記絶対基準の分類コードとを比較して一致するか否かを判定し、一致しない場合には不足する文意式の追加あるいは文意式の変更を推定用辞書データに行い、両分類コードが一致するまで推定用辞書修正作業を繰り返す。両者が一致した所で、これを推定用辞書の第２版とする。

【0076】

次に、新たに１０件程度のサンプル文献を選んで絶対基準コードを付与した後、これらのサンプル文献に対し上記推定用辞書の第２版をもとに推定装置３により分類コードを付与させる。そして、付与された分類コードと上記絶対基準の分類コードとの差異に基づいて、文意式をさらに追加または修正し、推定用辞書の第３版を作成する。

【0077】

以後同様に、推定用辞書の修正作業を繰り返し、推定用辞書をもとに推定装置３が付与した分類コードと絶対基準の分類コードとの差異が、一定の範囲内に収束した時点で推定用辞書の作成を終了する。なお、特許文献に記載される技術内容の進歩や変化により推定用辞書の精度は低下することが予想される。このため、推定用辞書は上記した手法により定期的にメンテナンスすることが望ましい。

【0078】

（２）付与対象となる文献の文献用語表データの生成
文献へのコード付与には、文献毎に文献用語表を作成する必要がある。分類付与者は、文献用語表生成装置２において、分類の付与対象となる１個ないし複数個の特許文献の番号を指定する。そうすると文献用語表生成装置２は、先ず上記指定された特許文献の文献データＱ１，Ｑ２，Ｑ３，…を図示しない文献データ記憶装置から読み込む。続いて文意フィルタ部２Ａにより、上記読み込んだ文献データＱ１，Ｑ２，Ｑ３，…を文献単位でそれぞれ形態素解析を用いて単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより、文献用語表データＲ１，Ｒ２，Ｒ３，…を生成する。

【0079】

文献用語表データの生成について補足する。形態素解析で出力した単語が名詞の場合は複合名詞を生成する。例えば「情報処理辞典」といった用語が文献データに含まれている場合、形態素解析では「情報」、「処理」、「辞典」の３つの単語に分割される。これら分割された単語を合成して「情報処理」、「情報処理辞典」といった用語に復元して文献用語表データに出力する。「Ｈ_２ＳＯ_４」といった化学式も形態素解析で英字と数字に分割して出力されるので、元の化学式に復元する処理を行う。動詞や形容詞は語尾が変化するので、文献データ中の変化形の単語と共に、その終止形も出力する。例えば、「走ら」や「走れ」対して「走る」も生成する。

【0080】

さらに、文献用語表に出力された全ての用語に対して、文献の先頭からの通番となる用語番号、句番号、文章番号、段落番号も付与して出力している。これら通番を利用して、推定用辞書の句基本要素、文章基本要素、段落基本要素等と文献用語表とを比較する際に、基本要素中の各用語が同一の句／文章／段落に出現しているかどうかを高速に判定している。このような情報を含んだ文献用語表データＲ１，Ｒ２，Ｒ３，…は、文献用語表生成装置２内のメモリに保存される。

【0081】

（３）分類コードの推定
（３−１）推定用辞書データおよび文献用語表の取得
分類担当者は、推定装置３に対し端末４から分類付与対象のテーマを指定し、分類開始コマンドを入力する。そうすると、推定装置３は以後以下のように分類コードの推定処理を開始する。図４はその処理手順と処理内容を示すフローチャートである。

【0082】

ここでは、複数の文献に対して、１文献ずつ、推定用辞書に定義されている複数の分類コードを順次付与する場合を例にとって説明する。なお、メタルールの適用は、１文献への全分類コードの付与が終了した時点で、その文献に対するコード付与結果の見直しのために行う。

【0083】

上記分類開始コマンドが入力されたことをステップＳ１１により検出すると、先ずステップＳ１２において推定用辞書作成装置１から上記指定されたテーマに対応する推定用辞書データＰを読み込む。推定用辞書データＰには、コード付与定義表およびメタルール辞書が含まれる。

【0084】

またそれと共に推定装置３は、ステップＳ１２において上記文献用語表生成装置２から文献用語表データＲ１，Ｒ２，Ｒ３，…を読み込む。文献への分類コード付与は文献単位で行う。推定用辞書データＰで複数のコードが定義されている場合は、１つの文献に対して以下に述べる処理によりコード付与を繰り返し行う。複数文献にコード付与を行う場合は、この処理を文献の数だけ繰り返す。以下では１つの文献に１つのコードを付与する場合を説明する。

【0085】

（３−２）マッチングとスコアの計算
推定装置３は、ステップＳ１２において、付与する文献の文献用語表データＲｎを読み込んで、ステップＳ１３で付与環境を設定する。推定用辞書データには分類コードは複数定義されているものとし、ステップＳ１４で次に付与する分類コードを設定する。次に推定装置３は、ステップＳ１５により、当該文献用語表データＲｎに記載された用語と、推定用辞書データに記述され文意式とを比較し、その一致度に応じてスコアを計算する。

【0086】

（３−３）スコアの詳細な計算例
スコアの計算は以下のように行われる。
すなわち、先ず推定用辞書データの行（分類コードのグループ）ごとに、その文意式と文献用語表データに記載された用語との一致頻度の値を下記の式により求め、全ての段落の値の総和が文献のスコアとなる。

【0087】

Ｗｉ＊｛ｌｏｇ_１０（Ｎ１＊ｆ１＋Ｎ２＊ｆ２＋Ｎ３＊ｆ３）
Ｗｉ；重み係数
Ｎ１；用語の基本スコア（定数）
Ｎ２；基本要素の基本スコア（定数）
Ｎ３；文意式の基本スコア（定数）
ｆ１；用語の集合に着目したときの同一グループ内の正規化されたヒット数
ｆ２；基本要素の集合に着目したときの同一グループ内の正規化されたヒット数
ｆ３；文意式の集合に着目したときの同一グループ内の正規化されたヒット数
なお、上記Ｎ１、Ｎ２、Ｎ３の各スコアは、それぞれ用語、基本要素、文意式の複雑度合に応じて決める定数であり、複雑度合が高ければ定数としてのスコアを高くするようにしている。

【0088】

また、上記正規化は、「分類テーマに含まれる全文献の各段落に含まれる文字数の平均」をＡ、「現在付与対象としている文献の段落に含まれる文字数」をＢとするとき、Ｂ／Ａを正規化係数としてこれを文献の文字数に掛け算することにより算出される。

【0089】

すなわち、探し出す記述内容は、用語の集合＋基本要素の集合＋文意式の集合として表される。続いて、同一の分類コードのすべてのグループのスコアの合計を、段落ごとにそれぞれ算出し、その合計として文献全体のスコアを算出する。

【0090】

以上のスコア計算方法をさらに具体的に説明する。
いま、付与条件を文意式により記述した２次元の表（図２に例示）が、次のように定義されていると仮定する。

【0091】

・Ｆターム「ＤＤ１９」（テーマコード「２Ｆ１２９」）の推定用辞書データ
グループ１；
文意式１「；ナビゲーション装置」
基準値「０．６」
重み「１」
段落種別番号「１、２、３、４、６、７、８、９」
用語の基本スコアＮ１「１」
基本要素の基本スコアＮ２「１」・・・用語のみで構成された文意式であり、Ｎ２は事実上意味をなさないため１以上であればどのような数字でもよい。
文意式の基本スコアＮ３「１」・・・用語のみで構成された文意式であり、Ｎ３は事実上意味をなさないため１以上であればどのような数字でもよい。

【0092】

グループ２；
文意式１「｛＜；経路，；周辺，；施設＞ｃ，｛；施設，；探索｝ｃ｝」
基準値「０．６」
重み「２」
段落種別番号「１、２、３、４、６、７、８」
用語の基本スコアＮ１「１」
基本要素の基本スコアＮ２「２」
文意式の基本スコア「２」
文意式２「｛＜；経路，；周辺，地点＞ｃ，｛地点，；探索｝ｃ｝」
基準値「０．６」
重み「２」
段落種別番号「１、２、３、４、６、７、８」
用語の基本スコアＮ１「１」
基本要素の基本スコアＮ２「２」
文意式の基本スコア「２」。

【0093】

また、ｆ１〜ｆ３については、それぞれ以下のようになったとする。
グループ１文意式１
グループ１における文意式１の用語の集合に着目したときの同一グループ内のヒット数ｈ１は「３０」、正規化係数は「０．８」とすると、ｆ１は「２４」。
グループ１における文意式１の基本要素の集合に着目したときの同一グループ内のヒット数ｈ２は「０（ゼロ）」、正規化係数は「０．８」とすると、ｆ２は「０（ゼロ）」。
グループ１における文意式１は、用語のみで構成された文意式であるから、基本要素の集合は存在しないため、ヒット数は「０（ゼロ）」となる。
同様に、グループ１における文意式１の文意式の集合に着目したときの同一グループ内のヒット数ｈ３は「０（ゼロ）」、正規化係数は「０．８」とすると、ｆ３は「０（ゼロ）」。グループ１における文意式１は、用語のみで構成された文意式であるから、文意式の集合は存在しないため、ヒット数は「０（ゼロ）」となる。

【0094】

グループ２文意式１
グループ２における文意式１の用語の集合に着目したときの同一グループ内のヒット数ｈ１は「５」、正規化係数は「０．９」とすると、ｆ１は「４．５」。
グループ２における文意式１の基本要素の集合に着目したときの同一グループ内のヒット数ｈ２は「３」、正規化係数は「０．９」とすると、ｆ２は「２．７」。
同様に、グループ２における文意式１の文意式の集合に着目したときの同一グループ内のヒット数ｈ３は「２」、正規化係数は「０．９」とすると、ｆ３は「１．８」。

【0095】

グループ２文意式２
グループ２における文意式２の用語の集合に着目したときの同一グループ内のヒット数ｈ１は「４」、正規化係数は「０．９」とすると、ｆ１は「３．６」。
グループ２における文意式２の基本要素の集合に着目したときの同一グループ内のヒット数ｈ２は「３」、正規化係数は「０．９」とすると、ｆ２は「２．７」。
同様に、グループ２における文意式２の文意式の集合に着目したときの同一グループ内のヒット数ｈ３は「２」、正規化係数は「０．９」とすると、ｆ３は「１．８」。

【0096】

よって、各スコアは、以下のようになる。
グループ１の文意式１のスコア：
１（重み）×｛ｌｏｇ₁₀（１（Ｎ１）×２４（ｆ１）＋１（Ｎ２）×０（ｆ２）＋１（Ｎ３）×０（ｆ３））｝＝１．３８
グループ２の文意式１のスコア：
２（重み）×｛ｌｏｇ₁₀（１（Ｎ１）×４．５（ｆ１）＋２（Ｎ２）×２．７（ｆ２）＋２（Ｎ３）×１．８（ｆ３））｝＝２．２６
グループ２の文意式２のスコア：
２（重み）×｛ｌｏｇ₁₀（１（Ｎ１）×３．６（ｆ１）＋２（Ｎ２）×２．７（ｆ２）＋２（Ｎ３）×１．８（ｆ３））｝＝２．２０。

【0097】

これらの各スコアと基準値「０．６」とを比較し、基準値以上のものを抽出する。
なお、「対象文献全体のベーススコアＴｔ＝文意式ごとの得点の総和」である。

【0098】

よって、
１．３８（グループ１の文意式１のスコア）
＋２．２６（グループ２の文意式１のスコア）
＋２．２０（グループ２の文意式２のスコア）
＝５．８５（Ｔｔ）・・・
これが対象文献のスコアとなる。

【0099】

そして、対象文献（対象テキスト）のスコアＴ＝αＴｔ＋βmaxＴｄ（ｉ）を計算する。ここで、
α、β；重みの係数
Ｔｔ；対象文献全体のベーススコア
maxＴｄ（ｉ）；対象段落種別のスコアのうち最大のもの
例えばα＝１、β＝４のように設定し、maxＴｄ（ｉ）が段落種別１０で最大「１０」であるとすると、
対象文献（対象テキスト）のスコアＴは、
１（α）×５．８５（Ｔｔ）＋４（β）×１０（maxＴｄ（１０））＝４５．８５となる。

【0100】

したがって、この場合、対象文献（対象テキスト）のスコアＴは「４５．８５」となる。以上のように算出されたスコアＴを保存する。

【0101】

（３−４）マッチングスコア（評価値）の判定
推定装置３は、スコア計算が終了すると、ステップＳ１６によりスコアＴを読み込み、このスコアＴを予め設定された閾値と比較する。そしてステップＳ１７において、スコアＴが閾値以上となったか否かを判定する。すなわち、現在処理している文献に対して、分類コードごとに当該分類コードを付与すべきか否かを判定する。

【0102】

（３−５）分類コードの付与
推定装置３は、付与すべき分類コードが見つかると、ステップＳ１８により、処理対象の特許文献に対し上記分類コードを付与する。具体的には、付与対象の特許文献の番号に対し、ＦタームまたはＦＩコードを関連付ける。１つの分類コードの付与を終了すると、ステップ１９で、全ての分類コードの付与処理を終了したかどうか判定し、終了でなければ次の分類コードへの処理を行うためにステップ１４に戻る。

【0103】

当該文献への全ての分類コードの付与を終了すると、ステップＳ２０により、メタルール辞書を読み出し、それまでの文献へのコード付与結果と当該メタルールとに従い、付与終了した文献に対して、付与されていなかったコードを新たに付与したり、付与されていたコードを取り消したりする処理を行う。

【0104】

ステップＳ２１により、上記付与対象の特許文献の番号と付与された分類コードを端末４へ出力し表示させる。

【0105】

１つの文献への推定用辞書データで定義されている全ての分類コードへの付与処理を終了すると、ステップＳ２２において全ての文献への付与を終えたかどうか判定し、未付与の文献があればステップＳ１２から文献へのコード付与操作を繰り返す。全ての文献への付与処理が終了した時点で処理を終了する。
なお、付与が終了した後、第２文献群の文献用語表のデータを付与根拠データとして出力することも可能である。

【0106】

（効果）
以上詳述したように実施例１では、推定用辞書データＰに、句、文章および段落ごとに、共起関係を示す複数の用語の組である基本要素を少なくとも１つ用いて分類コードの付与条件を記述した文意式を記憶させる。そして、付与対象の文献から生成した文献用語表データＲ１，Ｒ２，Ｒ３，…を、上記推定用辞書データＰに分類コードごとに記述された文意式と基本要素を基本単位として比較して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記付与対象の文献に対し上記分類コードを付与するようにしている。

【0107】

従って、実施例１によれば、文意式は、１つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも１つ用いて記述したものとなっているため、付与条件の満たし具合を正確にスコアに反映させることが可能となる。また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データＲ１，Ｒ２，Ｒ３，…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。

【0108】

また実施例１では、推定用辞書データＰを作成する際に、付与条件を単純な複数の条件グループに分解してこれらの条件グループをそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに１つずつ記述するようにしている。このため、複雑な付与条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。

【0109】

さらに実施例１では、スコアを計算する際に、文献用語表データＲ１，Ｒ２，Ｒ３，…の全段落の中のスコアが最も高い段落のスコアmaxＴｄ（ｉ）と、全段落のスコアの合計値Ｔｔとを、１：４の重み付けをして加算して求めるようにしている。

【0110】

一般に、文献全体の記載内容だけをスコアに反映する手法では文献全体の技術用語を大雑把に探すことは可能であるが、漠然とした類似度しか判定できない。一方、最大スコアの段落のみにより類似度を判定する場合には、木を見て森を見ない判定結果になり易い。しかしながら、実施例１によれば付与対象の文献の全段落と最大スコアの段落の両方のスコアに着目し、しかも両方のスコアをその重要度に応じて重み付け加算して類似度の判定を行っているので、精度の高い類似度判定を行うことができる。

【0111】

さらに、付与根拠も表示することができ、付与の妥当性について人が判断することが容易に行える。

【0112】

［実施例２］
実施例１では、特許文献に分類コードを付与する場合を例にとって説明した。これに対し本発明の実施例２は、特定の第１文献と技術の内容が類似する第２文献をサーチ対象となる文献集合（「第２文献群」という）からサーチする場合に、この発明に係る文献解析システムを使用するようにしたものである。

【0113】

なお、実施例２に係る文献解析システムは、基本的な構成が実施例１で述べた構成と同一であるため、ここでは図１を用いて説明を行う。

【0114】

図５は、この発明の実施例２に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。

【0115】

サーチ担当者は、推定用辞書作成装置１の推定用辞書エディタ１Ａを用いて、サーチ元となる第１文献の所定の項目、例えば技術分野、背景技術／従来技術、実施例、請求の範囲が記載された各段落について、サーチ条件を文意式により記述した推定用辞書データを作成する。文意式は、実施例１と同様に、句、文章および段落ごとに、１つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも１つ用いて文意式で記述したものである。また、文意式において、語順や否定形を指定したりすることもできる。なお、第１文献に分類コードが付与されている場合は、その分類コードに対応する文意式群をそのまま、あるいは加工してサーチ条件の文意式を作成してもよい。

【0116】

上記のように作成された推定用辞書データＰは、推定用辞書作成装置１においてメモリに記憶される。なお、推定用辞書作成装置１に、サーチ元となる特許文献の文書データを読み込み、機械学習等を用いてサーチ用の推定用辞書データを自動作成する機能を備えるようにしてもよい。推定装置３は、上記推定用辞書作成装置１のメモリに記憶された第１文献の推定用辞書データを、ステップＳ３１で読込む。

【0117】

次に、ステップ３３で、推定装置３は、文献用語表生成装置２により作成された、第２文献群（サーチ対象となる文献集合）の各文献における文献用語表データを生成する。この文献用語表データは実施例１で使用したものと同じものであり、生成方法も同じである。さらに、概念サーチを行えるようにそれ用の新たな情報を文献用語表データに加えることを行ってもよい。

【0118】

推定装置３は、次にステップＳ３３において、第２文献群の文献用語表データＲ１，Ｒ２，Ｒ３，…を読み込む。そしてステップＳ３４により、推定用辞書データＰの各グループに記述された文意式とそれぞれ比較する。この比較の結果、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。

【0119】

このスコアの計算方法は、実施例１と同様に、先ず、「用語の集合＋基本要素の集合＋文意式の集合」として計算し、すべての行のスコアの合計を文献全体および段落ごとにそれぞれ算出する。そして、全段落の中のスコアが最も高い段落のスコアmaxＴｄ（ｉ）と、全段落のスコアの合計値Ｔｔとを、１：４の比率で重み付け加算する方法が用いられる。上記第２文献ごとに算出されたスコアは、当該第２文献の番号と関連付けられて保存される。

【0120】

そして、保存されたスコアを読み込み、このスコアを予め設定された第１の閾値と比較する。そしてステップＳ３６により、スコアの合計値が第１の閾値以上となったか否かを判定する。すなわち、上記第２文献と第１文献との間の技術内容の類似度が閾値以上が否かを判定する。この判定の結果、類似度を表すスコアが第１の閾値以上の第２文献が見つかった場合には、ステップＳ３７において、上記第２文献を類似文献として端末へ出力する。

【0121】

これに対し、類似度を表すスコアが第１の閾値以上となる第２文献が見つからなかった場合には、サーチ結果出力部が、ステップＳ３８において類似度を表すスコアが第１の閾値未満であるが第２の閾値以上の第２文献を参考文献として選択する。そして、当該参考文献として選択された第２文献の番号を端末へ出力する。

【0122】

以上詳述したように実施例２では、第１文献と類似する第２文献をサーチする際に、第１文献の内容に基づいて１つの用語又は共起関係を示す複数の用語の組である基本要素を用いてサーチ条件を記述した文意式を作成して、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の複数の第２文献からそれぞれ生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第２文献を類似文献として選択するようにしている。

【0123】

従って、実施例２によれば、文意式は、句、文章及び段落ごとに、１つの用語又は共起関係を示す複数の用語の組を基本要素として、これを少なくとも１つ用いて記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。

【0124】

また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データＲ１，Ｒ２，Ｒ３，…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。

【0125】

また実施例２では、推定用辞書を作成する際に、サーチ条件を単純な複数の条件に分解してこれらの条件をそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに１つずつ記述するようにしている。このため、複雑なサーチ条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。

【0126】

さらに実施例２では、第１文献と第２文献との類似度を判定する際に、第２文献の全段落の中からスコアが最も高い段落を選択し、この選択した段落のスコアと第２文献の全段落のスコアの合計値とを１：４の比率で重み付け加算して求め、この求めたスコアをもとに類似度を判定するようにしている。このため、文献全体と要旨が記載された段落の両方をバランスよく考慮して、精度の高い類似度判定を行うことができる。

【0127】

［実施例３］
前記実施例２では、第１文献の内容に近い文献を第２文献群からサーチする例であるが、第１文献を想定せず、単にある内容を記載した文献を第２文献群からサーチして取出したい場合もある。この場合は、探したい内容を１個ないし複数個の文意式を用いて表現し、これを定義表として作成して推定用辞書とする。

【0128】

図６は、この発明の実施例３に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。
サーチ担当者は、推定用辞書作成装置１の推定用辞書エディタ１Ａを用いて、探したい内容を文意式により表現した推定用辞書データを作成する。文意式は、実施例１と同様に、句、文章および段落ごとに、１つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも１つ用いて記述したものである。また、文意式において、語順や否定形を指定したり、統制語や文意マクロを使用することもできる。

【0129】

上記のように作成された推定用辞書データＰは、推定用辞書作成装置１においてメモリに記憶される。なお、ステップＳ４０で、サーチ対象とする文献２群の文献用語表データの生成は実施例１あるいは実施例２と同様の方法で作成する。

【0130】

次にステップＳ４１において、推定装置３は推定用辞書データ３Ａと文献用語表データＲ１，Ｒ２，Ｒ３，…を読み込む。そしてステップＳ４２により、推定用辞書データＰの各グループに記述された文意式と各文献用語表データをそれぞれ比較する。この比較処理において、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。

【0131】

【0132】

そして、保存されたスコアを読み込み、このスコアを予め設定された第１の閾値と比較する。そしてステップＳ４４により、スコアの合計値が第１の閾値以上となったか否かを判定する。すなわち、上記第２文献とサーチ条件との間の技術内容の類似度が閾値以上が否かを判定する。

【0133】

上記判定の結果、類似度を表すスコアが第１の閾値以上の第２文献が見つかった場合には、ステップＳ４５において、上記第２文献を類似文献として端末４へ出力する。

【0134】

これに対し、類似度を表すスコアが閾値以上となる第２文献が見つからなかった場合には、その旨を表示してサーチを終了する。

【0135】

以上詳述したように実施例３では、意図する内容に一致あるいは近い文献を類似する第２文献群からサーチする際に、サーチ条件を記述した文意式で記述し、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の第２文献から生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第２文献を類似文献として選択するようにしている。

【0136】

従って、実施例３によれば、文意式は共起関係を示す複数の用語の組である基本要素を基本要素として記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。

【0137】

【0138】

「実施例４」
この発明の実施例４は、推定用辞書作成装置に、推定用辞書データの自動作成機能を設けたものである。図７は、この発明の実施例４に係る文献解析装置において使用される推定用辞書作成装置の機能構成を示すブロック図である。

【0139】

推定用辞書作成装置１００は、サーバコンピュータまたはパーソナルコンピュータからなり、制御ユニット１１０と、記憶ユニット１２０と、入出力インタフェースユニット１３０とを備えている。

【0140】

入出力インタフェースユニット１３０には、コンソール端末２００、文献データベース３００および推定装置３が、例えばＵＳＢ（Universal Serial Bus）ケーブル、ＬＡＮ（Local Area Network）等の構内ネットワークまたは公衆ネットワークを介して接続される。コンソール端末２００は、オペレータが推定用辞書作成装置１００に対しパラメータを入力するために使用される。なお、このコンソール端末２００は、推定装置３により得られた文書解析結果を表示するために使用することも可能である。文献データベース３００は、例えば特許文献の文書データを記憶するデータベースからなる。

【0141】

記憶ユニット１２０は、例えばＨＤＤ（Hard Disc Drive）やＳＳＤ（Solid State Drive）等の随時書き込みおよび読み出しが可能な不揮発性メモリや、ＲＡＭ（Random Access Memory）等の随時書き込みおよび読み出しが可能な揮発性メモリを使用したもので、実施例４を実施する上で必要な記憶領域として、教師文献記憶部１２１と、基本要素候補記憶部１２２と、基本要素記憶部１２３とを備えている。

【0142】

教師文献記憶部１２１は、推定用辞書データを作成する際の元になる教師文献の文書データを記憶するために使用される。基本要素候補記憶部１２２は、推定用辞書データを作成する過程で生成される基本要素の候補群を保存するために使用される。基本要素記憶部１２３は、推定用辞書データを作成する過程で生成される基本要素群を保存するために使用される。

【0143】

制御ユニット１１０は、プロセッサおよび作業用メモリを有し、実施例４を実施する上で必要な制御機能として、パラメータ取得制御部１１１と、教師文献抽出部１１２と、基本要素候補抽出部１１３と、有効基本要素選択部１１４と、推定用辞書データ作成部１１５とを備えている。これらの制御機能は、いずれも図示しないプログラムメモリに格納されたプログラムを上記プロセッサに実行させることにより実現される。

【0144】

パラメータ取得制御部１１１は、コンソール端末２００においてオペレータが入力したパラメータを、入出力インタフェースユニット１３０を介して取り込む処理を行う。パラメータとしては、例えば、推定用辞書の作成対象となる技術分野を表すＦタームと、上記技術分野の特徴を表す用語である種用語と、推定用辞書データの作成過程で使用する各種閾値が含まれる。

【0145】

教師文献抽出部１１２は、上記パラメータとして入力されたＦタームおよび種用語をキーとして文献データベース３００から該当する教師文献を抽出し、この抽出した教師文献を正例教師文献集合と負例教師文献集合とに分けて教師文献記憶部１２１に記憶させる処理を行う。正例教師文献は、上記種用語を含みかつ上記Ｆタームが付与される文献である。一方負例教師文献は、上記種用語を含みかつ上記Ｆタームが付与される文献である。

【0146】

基本要素候補抽出部１１３は、上記教師文献記憶部１２１に記憶された正例および負例の各教師文献群から、句、文章、段落および文献の各々の範囲ごとに基本要素の候補を抽出し、抽出した基本要素の候補を基本要素候補記憶部１２２に記憶させる処理を行う。基本要素とは、単独の種用語と、当該種用語と共起関係を示す用語との組のことである。基本要素候補の抽出処理の詳細は後述する。

【0147】

有効基本要素選択部１１４は、上記基本要素候補記憶部１２２に記憶された基本要素候補群から、可能な限り多くの正例教師文献に含まれ、かつ可能な限り負例教師文献には含まれない基本要素の候補を選択し、選択した基本要素の候補を推定用辞書作成用の基本要素として基本要素記憶部１２３に記憶させる処理を行う。この推定用辞書作成用の基本要素の選択処理の詳細についても後述する。

【0148】

推定用辞書データ作成部１１５は、上記基本要素記憶部１２３から推定用辞書作成用の基本要素群を読み出し、この基本要素群の組み合わせを文意式（ブール代数式）で記述して推定用辞書データを作成する。そして、この推定用辞書データを推定装置３へ出力する処理を行う。

【0149】

（動作）
次に、以上のように構成された推定用辞書作成装置１００による推定用辞書の自動作成処理動作を説明する。図８は、その全体の処理手順と処理内容を示すフローチャートである。

【0150】

（１）パラメータの取得
推定用辞書作成装置１００は、パラメータ取得制御部１１１の制御の下、ステップＳ１００においてパラメータの入力操作を待機している。この状態で、オペレータがコンソール端末２００においてパラメータを入力すると、パラメータ取得制御部１１１がステップＳ１１０により上記パラメータを入出力インタフェースユニット１３０を介して取り込み、取り込んだパラメータを教師文献抽出部１１２に通知する。

【0151】

パラメータは、対象Ｆタームと、種用語群と、各種閾値とから構成される。図１２はその一例を示すものである。対象Ｆタームは、図１２（ａ）に示すように、推定用辞書の作成対象となる技術のＦターム名であり、例えば日本の特許庁が定義しているＦタームやＦＩコードがこれに該当する。

【0152】

種用語は、上記推定用辞書の作成対象となる技術として特徴的な単一の単語、またはそれらの組み合わせである用語により表される。例えば、Ｆターム「ＢＢ１９」においては、図１２（ｂ）に示すように「歩数計」、「距離計」、｛歩行，センサ｝、…等が種用語として入力される。

【0153】

閾値としては、図１２（ｃ）に示すように、基本要素を抽出する際の範囲である「句」、「文章」、「段落」および「文献」の各々について、共起用語閾値としてのＩＤＦおよび文献数と、共起用語を専門語のみとするか否かを指定する情報と、精度の閾値と、精度の刻み値と、再現率の閾値と、文献数の閾値と、生成項数の上限値と、処理時間および基本要素生成数の上限値が指定される。なお、図１２（ｃ）では「句」に対応する各閾値の表示を省略した場合を例示している。

【0154】

また、ここで云うＩＤＦとは、Inverse Document Frequencyの略で、ある共起用語がヒットする文献数の逆数である。これは、殆どの文献で出現するような共起用語の影響を小さくするために重みづけの係数として利用するものである。例えば、段落の基本要素のＩＤＦが１．２の場合、共起用語が母集団の文献群のうち約８３％以下の文献にだけヒットするというものである。母集団が１０００文献あるとすると、８３３件以下の文献に当該段落の基本要素がヒットするというものである。

【0155】

このうち精度は、基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す。再現率は、抽出された全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す。精度の閾値は、許容できる精度の最低値に設定される。また再現率の閾値は、許容できる再現率の最低値に設定される。

【0156】

なお、上記正例教師文献数と負例教師文献数との割合は、Ｆタームごとに異なるので、正例教師文献数および負例教師文献数は下式により正規化する。
正規化文献数＝実文献数＊正規化係数
但し、
正例教師文献の正規化係数
＝１００／当該Ｆターム用の学習に用いた正例教師文献数
負例教師文献の正規化係数
＝１００／当該Ｆターム用の学習に用いた負例教師文献数
である。

【0157】

（２）教師文献の抽出
上記パラメータの指定が終了すると、推定用辞書作成装置１００は教師文献抽出部１１２の制御の下で、教師文献の抽出処理を以下のように実行する。
すなわち、先ずステップＳ１２０において、上記パラメータとして指定された種用語をキーとして文献データベース２００を検索し、当該種用語を含む文献をすべて抽出する。

【0158】

続いてステップＳ１３０において、上記抽出された種用語を含む文献を、上記パラメータとして指定されたＦタームをもとに、Ｆタームに対応する文献集合と対応しない文献集合とに分割する。そして、上記Ｆタームに対応する文献集合を正例教師文献集合とし、またＦタームに対応しない文献集合を負例教師文献集合として教師文献記憶部１２１にそれぞれ記憶させる。

【0159】

また、このとき教師文献抽出部１１２は、Ｆタームごとの種用語、正例および負例の各教師文献の一覧データを作成し、これも教師文献記憶部１２１に記憶させる。図１３に上記正例教師文献集合および負例教師文献集合の一覧データの一例を示す。

【0160】

上記一覧データをコンソール端末２００へ出力して表示させることで、オペレータは教師文献の抽出結果を種用語と関連付けて確認することができる。

【0161】

（３）基本要素候補の抽出
推定用辞書作成装置１００は、次に基本要素候補抽出部１１３の制御の下、ステップＳ１４０において、上記正例および負例の各教師文献集合から基本要素の候補を抽出する処理を以下のように実行する。図９はその処理手順と処理内容を示すフローチャートである。

【0162】

（３−１）句に着目した基本要素候補の抽出
基本要素候補抽出部１１３は、先ずステップＳ１４１において、基本要素候補の抽出を行う範囲として「句」を設定する。そして、上記教師文献記憶部１２１から正例および負例の各教師文献集合に含まれる文献を１件読み出すごとに、上記「句」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部１２２に記憶させる。

【0163】

例えば、先ず種用語とその共起語との組み合わせからなる基本要素候補（以後２項の基本要素候補と称する）を抽出する。以下のその一例を示す。
・２項の基本要素候補；
＜種用語，共起語11＞、＜種用語，共起語12＞、…、＜種用語，共起語1N＞
次に、上記２項の基本要素候補と共起語との組み合わせからなる基本要素候補（以後３項の基本要素候補と称する）を抽出する。以下にその一例を示す。
・３項の基本要素候補；
＜＜種用語，共起語11＞，共起語21＞、＜＜種用語，共起語12＞，共起語22＞、…、＜＜種用語，共起語1N＞，共起語2N＞
以下同様に、「句」ごとに、種用語を起点として４項、５項、…の各基本要素の候補を抽出する処理を繰り返す。

【0164】

また、上記「句」ごとの基本要素候補の抽出処理中に、基本要素候補抽出部１１３はステップＳ１４２において抽出条件を満たしたか否かを監視する。抽出条件としては、例えば、
(1) 抽出した基本要素候補の精度および再現率が、パラメータとして事前に設定された精度および再現率の最低値以下
(2) 抽出した基本要素候補にさらに共起語を追加しても、つまりさらに項数を増やしても、当該基本要素候補の精度が一定値以上向上しない
が定義される。なお、精度および再現率は、先に述べたように正規化した正例および負例文献数をもとに計算される。
そして、上記各条件のいずれか一方を満たすと、基本要素候補抽出部１１３はその時点で「句」ごとの基本要素候補の抽出処理を終了する。

【0165】

（３−２）文章に着目した基本要素候補の抽出
基本要素候補抽出部１１３は、次にステップＳ１４３において、基本要素候補の抽出を行う範囲として、上記句を含む「文章」を設定する。そして、上記教師文献記憶部１２１から正例および負例の各教師文献集合に含まれる文献を１件読み出すごとに、上記「文章」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部１２２に記憶させる。

【0166】

この文章ごとの基本要素候補の抽出処理も、「句」の場合と同様に２項、３項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を１つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・２項の基本要素候補；
｛種用語，共起語11｝、｛種用語，共起語12｝、…、｛種用語，共起語1N｝
・３項の基本要素候補；
｛種用語，＜種用語，共起語11＞，共起語21｝、｛種用語，＜種用語，共起語12＞，共起語22｝、…、｛種用語，＜種用語，共起語1N＞，共起語2N｝。

【0167】

また、この「文章」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部１１３はステップＳ１４４において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部１１３はその時点で「文章」ごとの基本要素候補の抽出処理を終了する。

【0168】

（３−３）段落に着目した基本要素候補の抽出
基本要素候補抽出部１１３は、次にステップＳ１４５において、基本要素候補の抽出を行う範囲として、上記句および文章を含む「段落」を設定する。そして、上記教師文献記憶部１２１から正例および負例の各教師文献集合に含まれる文献を１件読み出すごとに、上記「段落」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部１２２に記憶させる。

【0169】

この文章ごとの基本要素候補の抽出処理も、上記「句」や「文章」の場合と同様に２項、３項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を１つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・２項の基本要素候補；
［｛種用語，共起語11｝，共起語d11］、［｛種用語，共起語12｝，共起語d12］、…、［｛種用語，共起語1N，共起語d1N］｝
・３項の基本要素候補；
［｛種用語，共起語11｝，＜種用語，共起語11＞，共起語d21］、［｛種用語，共起語12｝，＜種用語，共起語12＞，共起語d22］、…、［｛種用語，共起語1N｝，＜種用語，共起語1N＞，共起語d2N］。

【0170】

また、この「段落」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部１１３はステップＳ１４６において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部１１３はその時点で「段落」ごとの基本要素候補の抽出処理を終了する。

【0171】

（３−４）文献全体に着目した基本要素候補の抽出
基本要素候補抽出部１１３は、次にステップＳ１４７において、種用語あるいは上記「文章」ごとに抽出された基本要素候補を起点として、異なる段落から共起語を抽出する。そして、上記種用語あるいは「文章」ごとに抽出された基本要素候補と、上記異なる段落から抽出した共起語とを、積形式で組み合わせた基本要素候補を作成する。以下にその一例を示す。
種用語＊共起語N1
｛種用語，共起語11｝＊共起語N1。

【0172】

そして、この「積形式」の基本要素候補の作成処理中においても、基本要素候補抽出部１１３はステップＳ１４８において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部１１３はその時点で「積形式」の基本要素候補の作成処理を終了する。

【0173】

図１５は、以上述べた抽出処理により作成された基本要素候補の一例を示すものである。同図に示すように、抽出された各基本要素候補は、基本要素ＩＤ、基本要素種別および項数と関連付けられた状態で、基本要素候補記憶部１２２に格納される。また、各基本要素候補には、精度、再現率、Ｆ値、出現する正例および負例の各教師文献数が関連付けられて記憶される。Ｆ値は、精度と再現率との完全一致の度合い（調和平均）を示す値であり、（２×精度×再現率）／（精度＋再現率）なる式で計算される。なお、図１５では理解を助けるため、精度および再現率の高い順にソートした状態を示している。

【0174】

（４）推定用辞書を作成する上で有効な基本要素の選択
上記基本要素候補抽出部１１３により抽出された基本要素候補群は、種用語を手がかりに、精度および再現率がいずれも閾値（許容可能な最低値）を超える基本要素を、教師文献から網羅的に抽出したものである。このため、抽出した基本要素候補群には、推定用辞書データを作成する上で有効な基本要素候補が必ず含まれている。また、このとき教師文献集合には、上記抽出した基本要素候補以外の基本要素候補は残っていないといえる。

【0175】

しかしながら、上記抽出した基本要素候補群の中には、同一の教師文献に出現する複数の基本要素候補が重複して含まれている。推定用辞書データを作成する場合、正例教師文献集合に含まれるできる限り多くの文献（理想的には全文献）に出現し、かつ負例教師文献集合に含まれる文献にはできる限り出現しない（理想的にはゼロ）、最小個数の基本要素候補を選択する必要がある。

【0176】

そこで、推定用辞書作成装置１００は、次にステップＳ１５０において、有効基本要素選択部１１４の制御の下、上記基本要素候補抽出部１１３により抽出された基本要素候補群から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。図１０はその処理手順と処理内容を示すフローチャートである。

【0177】

すなわち、有効基本要素選択部１１４は、先ずステップＳ１５１において、上記基本要素候補抽出部１１３により抽出された基本要素候補群に含まれる各基本要素候補について精度を計算し、計算した精度が高い順に、上記各基本要素候補をソートする。

【0178】

有効基本要素選択部１１４は、次にステップＳ１５２により、上記ソートされた基本要素候補群から精度および再現率が最も高い基本要素候補を１つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第１の基本要素として基本要素記憶部１２３に格納する。

【0179】

有効基本要素選択部１１４は、次にステップＳ１５３により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について精度を計算し直す。そして、この計算し直した精度が高い順に、上記残りの基本要素候補をソートし直す。

【0180】

有効基本要素選択部１１４は、ステップＳ１５４において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。

【0181】

上記ステップＳ１５４の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部１１４はステップＳ１５２に戻る。そして、上記ソートし直された基本要素候補群の中から精度が最も高い基本要素候補を１つ選択し、この選択した基本要素候補を推定用辞書を作成する上で２番目に有効性の高い基本要素として基本要素記憶部１２３に格納する。

【0182】

以後同様に、有効基本要素選択部１１４は上記ステップＳ１５２〜Ｓ１５４による処理を繰り返し実行し、これによりその都度計算し直された精度の高い順に基本要素を選択し、この順次選択された基本要素を有効性が３番目、４番目、…に高い基本要素として基本要素記憶部１２３に格納する。

【0183】

そして、ステップＳ１５４において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部１１４は推定用辞書データの作成に用いる基本要素の選択処理を終了する。

【0184】

次に、推定用辞書作成装置１００は、精度が高いものとして選択された基本要素の集合から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。図１１はその処理手順と処理内容を示すフローチャートである。

【0185】

有効基本要素選択部１１４は、先ずステップＳ１５５において、精度が高いものとして選択された基本要素の集合を、再現率が高い順に、上記各基本要素候補をソートする。図１５はこのソート後の基本要素候補の一例を示す。

【0186】

有効基本要素選択部１１４は、次にステップＳ１５６により、上記ソートされた基本要素候補群から再現率が最も高い基本要素候補を１つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第１の基本要素として基本要素記憶部１２３に格納する。

【0187】

有効基本要素選択部１１４は、次にステップＳ１５７により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について再現率を計算し直す。そして、この計算し直した再現率が高い順に、上記残りの基本要素候補をソートし直す。

【0188】

有効基本要素選択部１１４は、ステップＳ１５８において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。

【0189】

上記ステップＳ１５８の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部１１４はステップＳ１５６に戻る。そして、上記ソートし直された基本要素候補群の中から再現率が最も高い基本要素候補を１つ選択し、この選択した基本要素候補を推定用辞書を作成する上で２番目に有効性の高い基本要素として基本要素記憶部１２３に格納する。

【0190】

以後同様に、有効基本要素選択部１１４は上記ステップＳ１５６〜Ｓ１５８による処理を繰り返し実行し、これによりその都度計算し直された再現率の高い順に基本要素を選択し、この順次選択された基本要素を有効性が３番目、４番目、…に高い基本要素として基本要素記憶部１２３に格納する。

【0191】

そして、ステップＳ１５８において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部１１４は推定用辞書データの作成に用いる基本要素の選択処理を終了する。

【0192】

図１６は、図１５に示した基本要素候補群の中から、上記基本要素選択処理により選択された基本要素の一例を示すものである。同図において、「精度」、「再現率」、「Ｆ値」、「正例文献数」、「負例文献数」は、選択処理を開始する前、つまりステップＳ１５１によりソートされた直後の基本要素候補群の値を示す。これに対し、「再計算精度」、「再計算再現率」、「再計算Ｆ値」、「再計算正例文献数」、「再計算負例文献数」は、再計算後の値を示す。

【0193】

上記した基本要素の選択処理では、上記「再計算精度」を第１優先順位、「再計算再現率」を第２優先順位、再計算前の「精度」を第３優先順位として、基本要素候補の選択を行う。なお、精度の閾値として設定される精度の最低値は「０．９５０」、基本要素の選択数の最大値は「２００」に設定する。

【0194】

図１４は、以上述べた有効な基本要素選択処理の概要を示すものである。同図において、５０は正例文献集合を示す。同図では、１回目に選択された第１の基本要素により多数の正例文献が検索され、その後精度および再現率が再計算されるごとに選択された第２の基本要素、第３の基本要素、第４の基本要素により、正例文献集合のうち残った文献が順次検索される様子を示している。このように選択処理を実行することで、複数の基本要素が同一の正例文献に対し重複することを少なくすることができ、これにより必要十分な数の基本要素のみを選択することが可能となる。

【0195】

（５）推定用辞書データの作成
推定用辞書作成装置１００は、次にステップＳ１６０において、推定用辞書データ作成部１１５の制御の下、上記基本要素記憶部１２３に記憶された基本要素をもとに、ブール代数により表される文意式を作成する。そして、この作成した文意式を推定用辞書データとして、ステップＳ１７０により入出力インタフェースユニット１３０から推定装置３へ転送する。なお、文意式の構成については、実施例１で説明したものと同一なので、ここでの説明は省略する。

【0196】

（効果）
以上詳述したように実施例４では、推定用辞書作成装置１００において、辞書の作成対象となる分野を表すコードと上記分野の特徴を表す種用語に基づいて文献データベース３００から正例教師文献集合と負例教師文献集合を抽出し、この正例および負例の各教師文献集合から上記種用語とその共起語を含む用語の組み合わせからなる基本要素候補群を抽出し、抽出された基本要素候補群の中から、精度と再現率をもとに、正例教師文献集合に含まれるできる限り多くの文献に出現しかつ負例教師文献集合に含まれる文献にはできる限り出現しない最小個数の基本要素候補を選択し、選択された基本要素候補をもとに文意式を作成してこれを推定用辞書データとするようにしている。

【0197】

従って、推定用辞書データを自動的に作成することができるようになり、これにより人が手作業で推定用辞書を作成する必要がなくなって、人の作業負荷を大幅に軽減し、かつ文献解析装置の早期の運用開始を実現することができる。

【0198】

また、教師文献の句、文章、段落および文献全体からそれぞれ基本要素候補を抽出するようにしているので、基本要素候補を漏れなく抽出することが可能となる。またその際に、基本要素候補の抽出を精度および再現率の各閾値を超えるものに限るようにしているので、基本要素候補の数を効果的に制限することができ、これにより推定用辞書データの作成に要する装置の処理負荷を軽減しかつ処理時間を短縮することが可能となる。

【0199】

さらに、上記基本要素候補の中から有効な基本要素を選択する際に、基本要素を１つ選択するごとに精度および再現率が再計算され、この再計算された精度および再現率をもとに次の基本要素が選択される。このため、推定用辞書データを作成する上で必要な基本要素を、重複や不足を生じることなく効果的に選択することが可能となる。

【0200】

［その他の実施例］
実施例４では、基本要素候補の抽出を、「句」、「文章」、「段落」、「文献」ごとに行ったが、このうち「句」は省略しても良い。「句」を省略することで、基本要素候補を選択する処理に要する装置の処理負荷および処理時間を大幅に軽減および短縮することができる。また、抽出される基本要素候補の数を減らすことで、有効な基本要素の選択処理の負荷および処理時間も減らすことができる。

【0201】

この発明は、上記各実施例に限定されるものではなく、例えば、推定用辞書作成装置、文献用語表生成装置および推定装置の機能構成と、その処理手順および処理内容についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

【0202】

また、上記各実施例に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例に亘る構成要素を適宜組み合せてもよい。

【符号の説明】

【0203】

１，１００…推定用辞書作成装置、１Ａ…推定用辞書エディタ、２…文献用語表生成装置、３…推定装置、２Ａ…文意フィルタ部、３Ａ…推定エンジン、３Ｂ…差異抽出ツール、１１０…制御ユニット、１２０…記憶ユニット、１３０…入出力インタフェースユニット、１１１…パラメータ取得制御部、１１２…教師文献抽出部、１１３…基本要素候補抽出部、１１４…有効基本要素選択部、１１５…推定用辞書データ作成部、１２１…教師文献記憶部、１２２…基本要素候補記憶部、１２３…基本要素記憶部、２００…コンソール端末、３００…文献データベース。

【図1】