(58)【調査した分野】(Int.Cl.,DB名)
検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして記憶する推定用辞書記憶部と、
検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして記憶する文献用語記憶部と、
前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算するスコア計算手段と、
前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する判定手段と
を具備する文献解析装置。
前記推定用辞書データ、前記文献用語データおよび前記スコア計算手段のそれぞれにおいて定義される、文献の意味表現として区切りがつく所定の範囲は、句、文章および段落のいずれかの範囲とする請求項1に記載の文献解析装置。
前記第3の計算手段は、前記計算された第1のスコアのうちの最大値と、前記第2のスコアとを、予め設定した係数で重み付け加算することにより、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する請求項5記載の文献解析装置。
【発明を実施するための形態】
【0040】
以下、図面を参照してこの発明に係わる実施例を説明する。
[実施例1]
図1は、この発明は特許文献に分類コードを付与する場合に使用する実施例1に係る文献解析システムの概略構成図である。
実施例1に係る文献解析システムは、推定用辞書作成装置1と、文献用語表生成装置2と、推定装置3とを備えている。これらの装置1、2および3は独立するコンピュータによりそれぞれ構成されるが、1台のコンピュータに上記各装置1、2および3の処理機能を持たせた構成としてもよい。
【0041】
推定用辞書作成装置1は、推定用辞書エディタ1Aを有している。推定用辞書エディタ1Aは、メモリに記憶されている推定用辞書作成用テンプレート40を表示部に表示し、推定用辞書作成者が手操作で入力したパラメータや文意式をもとに推定用辞書データPを作成し、作成された推定用辞書データPを再びメモリに記憶させる機能を有している。
【0042】
なお、推定用辞書作成装置1には、推定用辞書作成用として用意されたサンプル文献の文書データを複数件分読み込み、機械学習等を用いて推定用辞書データを自動作成する機能を備えるようにしてもよい。
【0043】
文献用語表生成装置2は、外部の文献データ記憶装置から分類コード付与対象となる文献データQ1,Q2,Q3,…を読み込み、文意フィルタ部2Aにより上記文献データQ1,Q2,Q3,…からそれぞれ文献用語表データR1,R2,R3,…を生成してメモリに記憶する機能を有する。文意フィルタ部2Aは、例えば文献データQ1,Q2,Q3,…を形態素解析により単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより文献用語表データR1,R2,R3,…を生成する。
【0044】
推定装置3は、推定エンジン3Aと、差異抽出ツール3Bとを備えている。
【0045】
推定エンジン3Aは、上記推定用辞書作成装置1および文献用語表生成装置2からそれぞれ推定用辞書データPおよび文献用語表データR1,R2,R3,…を取り込み記憶する。この状態で、推定用辞書データPの文意式と文献用語表データR1,R2,R3,…中の用語とをそれぞれ比較してその一致度を表すスコアを計算する。そして、このスコアの計算結果に基づいて分類コードの付与の可否を判定し、可であれば分類コードを付与する機能を有している。
【0046】
差異抽出ツール3Bは、上記推定用辞書データPの精度を高めるために使用するもので、推定エンジン3Aが文献群に付与した分類コードを収集し、付与された分類コードとそれらの文献(サンプル文献)に正解例として人が予め付与している分類コードとを比較し、両者に付与コードの差異があればそれを検出し差異結果を表示する。これにより、サンプル文献群に対する推定付与コードの付与漏れや不必要な付与を俯瞰でき、推定用辞書の問題点を全体的に把握できる。
【0047】
(動作)
次に、システムによる分類付与動作を説明する。
ここでは、特許文献に対し分類コードを付与する場合を例にとって説明する。
【0048】
(1)推定用辞書の作成
推定用辞書作成装置1では、推定用辞書エディタ1Aの制御の下、推定用辞書データPを作成する。推定用辞書データはコード付与定義表と、コード付与結果を使用して付加的に更なるコード付与を指示したりコード付与の取り消しを指示するメタルールとからなる。また、コード付与定義表では、文意式の作成や記述を簡潔かつ簡便に行うのを支援するために統制語および文意式の定義機能を提供している。
【0049】
推定用辞書エディタ1Aは、先ず推定用辞書作成用メモリに事前に記憶されている推定用辞書作成用テンプレート40を読み出して表示する。
図2は推定用辞書作成用テンプレート40の表示例を示すもので、当該テンプレートに文意式などを記入したものがコード付与定義表である。
【0050】
推定用辞書作成用テンプレート40は、例えば複数のパラメータと複数の文意式の入力セルを設けたものである。なお、
図2では説明の便宜上パラメータおよび文意式が既に入力された状態を示しているが、初期状態では未入力である。このテンプレートを使用して所要のコードに対してコード付与条件を定義することができる。
【0051】
(1−1)パラメータ
パラメータは、「テーマ」、「コード」、「グループ」、「付与基準値」、「重み」、「段落種別番号」からなり、それぞれが表の列に1つずつ割り当てられている。また、「文意式」は「用語の基本スコア」、「基本要素の基本スコア」および「文意式の基本スコア」も表の列に1つずつ割り当てられている。なお、複数の文意式も表の列に1つずつ割り当てられている。
【0052】
「テーマ」は、分類対象としている技術分野に付与した分野名、「コード」は付与対象とするコード名であり、例えば日本の特許庁が定義しているFタームやFIコードがこれに該当する。コードは複数の行で記載することができるが、特にパラメータが異なる際は行を変え、「グループ」のセルには各行にコード内での番号を記載する。「付与基準値」は、コード付与の可否を判定する閾値を指定する。「重み」は、対応する前記グループに記述される文意式のマッチングスコアを算出するときの評価値倍率を指定する。「段落種別番号」は、特許文献の検索対象範囲を項目単位で指定するもので、1:「発明の名称」、2:「要約」、3:「請求項」、4:「技術分野」、5:「背景技術/従来技術」、6:「課題」、7:「解決手段」、8:「効果/作用」、9:「図の説明」、10:「実施例」、11:「符号の説明」のように定義されている。
【0053】
(1−2)文意式
文意式は、分類の付与条件を、単独の用語又は共起関係を示す複数の用語の組を基本要素(以後単に「基本要素」という)とし、少なくとも1つの基本要素、または単独の用語と基本要素との組み合わせをブール代数式で記述したものである。
【0054】
基本要素には、同じ句内に存在する複数の用語を組にして指定する「句基本要素」と、同じ文章内に存在する複数の用語を組にして指定する「文章基本要素」と、同じ段落内に存在する用語の組を指定する「段落基本要素」の3種類がある。これらの要素はそれぞれ< >、{ }、[ ]を用いて記述される。ここで、句とは句点(「、」)あるは読点(「。」)のいずれかで区切られた範囲にある文字群であり、文章は読点(「。」)で区切られた範囲内にある文字群であり、段落は明示あるいは暗示(行の冒頭文字の字下げ等)された段落区切りで区切られた範囲内にある文字群である。文献には1個以上の段落が含まれ、段落は1個以上の文章を含み、文章は1個以上の句を含み(文章中に句点がない場合は文章と句は同じになる)、句は1個以上の用語を含む。さらに、これらは文献を最上位にして文献−段落−文章−句−用語の階層構造を形成する。
【0055】
基本要素の例を以下に示す。すなわち、用語である「位置」、「GPS」、「測定」の共起関係を指定する場合、「句基本要素」、「文章基本要素」、「段落基本要素」はそれぞれ
<位置,GPS,測定>
{位置,GPS,測定}
[位置,GPS,測定]
と記述する。
【0056】
「句基本要素」、「文章基本要素」および「段落基本要素」という3種類の基本要素を定義したことで、それぞれ句、文章および段落の各範囲内に限り基本要素の中で指定されている用語の組が出現しているかどうかを検索することができる。これにより、句、文章および段落の境界を跨がって用語の組が検索(ヒット)されることがなくなり、精度の高い文意の指定が可能となる。
【0057】
また基本要素には、語順を指定したり、否定形を指定する記号を含めることが可能である。語順を指定する場合には、例えば
<位置,GPS,測定>c
のように基本要素の末尾に「c」を付加する。この場合、「位置」と「GPS」と「測定」の各用語がこの並び順で検索範囲に出現すべきであることを指定する。
【0058】
否定形を指定する場合は、例えば
{位置,GPS,測定,#カメラ}
のように否定対象の用語の頭に「#」を付加する。否定形は、句、文章または段落の各範囲内に否定形に指定された用語が存在しないことをヒットの条件とする。この例では、範囲内に「位置」と「GPS」と「測定」が存在すると共に、「カメラ」が存在してはいけないことを指定する。「#」は基本要素内の任意個の用語に付加してよい。
【0059】
さらに、文意式を記述する場合には各用語についてその類義語を漏れなく指定する必要があり、そのために
図3に示すように統制語b1〜bmを定義できるようにしている。統制語b1〜bmは複数の類義語c1〜cmを代表するものである。統制語b1〜bmごとにその統制語に所属する複数の類義語c1〜cmを定義して記憶する統制語辞書を提供しており、この辞書で統制語を管理する。統制語は文意式においてその頭に「;」を付加することで表記される。
【0060】
一例として、“パソコン”はこれ以外にも“計算機”、“コンピュータ”、“PC”などの用語が使われたりする。そこで“;パソコン”という統制語を定義し、その中にこれらの類義の意味を持つ用語群を指定しておけば、文意式では統制語“;パソコン”を記述しておくことにより、あとは装置側で統制語をその中に定義されている類義語群の論理和の形式に展開する。文意式の作成の手間の軽減と見た目の簡素化を実現できる。統制語は、その中に含める類義語群と対応付けて、図示していない統制語辞書に登録する。統制語辞書に登録した統制語は文意式において用語の代替物として記述できる。
【0061】
また、基本要素内に基本要素を含む多層構造(階層構造)の複合化基本要素を記述することも可能である。複合化基本要素では、例えば文章基本要素の中に句基本要素を記述したり、段落基本要素の中に文章基本要素を記述し、さらに文章基本要素内に句基本要素を記述することが可能となる。
【0062】
以下に統制語の例示を兼ねた複合化基本要素の記述例を示す。
{<停止,時>c,;補正}
[;ナビ端,{;歩行者,<位置,;計測>c}]
ここで、複合化基本要素「{<停止,時>c,;補正}」と、文意式「<停止,時>c*{停止、時、;補正}」との差異を説明する。
【0063】
前者の複合化基本要素では、全体が文章基本要素を示す{ }の記号で括られていることから、<停止,時>cと{停止,時,;補正}が文章に出現しないといけないことを指示する。すなわち、「停止」、「時」、「;補正」が同じ文章に存在し、さらにその文章に含まれるいずれかの句において「停止」と「時」が含まれている場合にのみ、この複合化基本要素はヒットしたと判定される。
【0064】
これに対し後者は、<停止,時>cと{停止,時,;補正}は異なる文章で出現していてもよい。各々が文献中のどこかにあればよいことを意味する。
【0065】
同様に、[;ナビ端,{;歩行者,<位置,;計測>c}]では、全体が段落基本要素を示す記号[ ]で括られ、その中に文章基本要素を示す記号{ }、および句基本要素を示す記号< >がそれぞれ含まれることから、同一段落の中で、さらにはその中の同一文章において、さらにはその文章内の同一句において、指定された基本要素成立条件を満たすべきであることを指示している。
【0066】
文意式は、1つの用語あるいは1つの基本要素を項として、これら項を1個ないし複数個基本要素組み合わせたブール代数式の形式で記述したもので、複数の項がある場合は論理和「+」演算子あるいは論理積「*」で結合する。さらに、演算子が複数個ある場合は演算優先指定の丸括弧演算子「( )」を使用して演算子の適用順序を指定できる。なお、基本要素の中の用語の代わりとして又は単独の用語の代わりに統制語を指定してもよい。
【0067】
また、特許分類の「Fターム」では、テーマによって例えば「“AA03”を付与した場合は“AA04”は付与せず、また“AA10”と“AA15”を付与した場合は“BB03”も付与する」といった付与規則が定められている。この規則に対応するため、メタルールと呼ぶFターム相互間の付与条件を記述した上位の式を定義してもよい。
【0068】
メタルールは、条件式とアクション式とにより構成される。条件式はFタームを組み合わせた文意式で表される。条件式が成立するとアクション式が実行され、アクション式ではコードの付与や削除、メッセージの表示、ユーザの介入要請等を指定する。
【0069】
メタルールは、「FIコード」に対しても適用可能である。例えば、
「“AA10”および“AA12”と、“BB03”および“BB04”のいずれかが付与されている場合には、G06Fxxx@Aを付与せよ」
というメタルールを記述する。このようにすればFIコードに対しても同様の効果を得ることができる。
【0070】
以下にメタルールをFタームの付与に適用した場合と、FIコードの付与に適用した場合の一例を示す。
・Fターム付与への適用例
条件式;(AA03+AA04+#AA05)*AA08=1ならば、
アクション式;AA10=1
以上の条件式は、AA03,AA04のいずれかが付与されるか、又はAA05が付与されておらず、かつAA08が付与されている場合にAA10を付与する、という条件を表している。
【0071】
・FIコード付与への適用例
条件式が(AA03+AA04)*{BB01〜BB15>=2}ならば、
アクション式はG01C21/00@p=1とする。
以上の条件式は、AA03又はAA04のいずれかが付与されると共に、BB01〜BB15までのコード(BB01,BB02,BB03,・・・,BB15)のいずれかに2つ以上付与されるならば、G01C21/00@pを付与するという条件を表している。
【0072】
(1−3)推定用辞書作成の手順と処理内容
推定用辞書作成者は、上記推定用辞書作成用テンプレート40が表示された状態で、先ず作成対象のテーマ名およびコードを入力し、さらに行ごとにグループ番号、付与基準値、重み、注釈および段落種別番号を入力する。次に、コードの付与条件に対応する文意式を、文意式入力セルに一つずつ記述する。同じ行の複数のセルに記述した文意式は論理和で結合して処理される。従って、これら複数の文意式を一つの文意式にまとめて1つのセルに記述しても、その効果は同じである。しかし、複数の文意式に分割してセルに記述しておけば、セル単位で文意式を修正できる。
【0073】
文意式は、上記(1−2)で説明したように、句、文章および段落の各々について、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、この基本要素の組み合わせを演算子で結合することにより作成される。その際、語順指定や否定形の指定、統制語の使用、複合化基本要素の記述も可能である。
【0074】
推定用辞書データの精度を高めるために、本実施例では以下のような推定用辞書作成手順を実行する。すなわち、先ず推定用辞書作成者がテーマに対応する10件程度のサンプル文献を厳選し、これらの文献に対し推定用辞書作成者が自身の見識で絶対に正しいと考える分類コードを付与して、これを絶対基準とする。
【0075】
まず、先に述べたようにパラメータおよび文意式の入力を行って推定用辞書の初版を作成し、続いて、推定装置3に当該推定用辞書の初版を用いて上記サンプル文献に実際に分類コードを付与させる。そして、この推定装置3により付与された分類コードと上記絶対基準の分類コードとを比較して一致するか否かを判定し、一致しない場合には不足する文意式の追加あるいは文意式の変更を推定用辞書データに行い、両分類コードが一致するまで推定用辞書修正作業を繰り返す。両者が一致した所で、これを推定用辞書の第2版とする。
【0076】
次に、新たに10件程度のサンプル文献を選んで絶対基準コードを付与した後、これらのサンプル文献に対し上記推定用辞書の第2版をもとに推定装置3により分類コードを付与させる。そして、付与された分類コードと上記絶対基準の分類コードとの差異に基づいて、文意式をさらに追加または修正し、推定用辞書の第3版を作成する。
【0077】
以後同様に、推定用辞書の修正作業を繰り返し、推定用辞書をもとに推定装置3が付与した分類コードと絶対基準の分類コードとの差異が、一定の範囲内に収束した時点で推定用辞書の作成を終了する。なお、特許文献に記載される技術内容の進歩や変化により推定用辞書の精度は低下することが予想される。このため、推定用辞書は上記した手法により定期的にメンテナンスすることが望ましい。
【0078】
(2)付与対象となる文献の文献用語表データの生成
文献へのコード付与には、文献毎に文献用語表を作成する必要がある。分類付与者は、文献用語表生成装置2において、分類の付与対象となる1個ないし複数個の特許文献の番号を指定する。そうすると文献用語表生成装置2は、先ず上記指定された特許文献の文献データQ1,Q2,Q3,…を図示しない文献データ記憶装置から読み込む。続いて文意フィルタ部2Aにより、上記読み込んだ文献データQ1,Q2,Q3,…を文献単位でそれぞれ形態素解析を用いて単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより、文献用語表データR1,R2,R3,…を生成する。
【0079】
文献用語表データの生成について補足する。形態素解析で出力した単語が名詞の場合は複合名詞を生成する。例えば「情報処理辞典」といった用語が文献データに含まれている場合、形態素解析では「情報」、「処理」、「辞典」の3つの単語に分割される。これら分割された単語を合成して「情報処理」、「情報処理辞典」といった用語に復元して文献用語表データに出力する。「H
2SO
4」といった化学式も形態素解析で英字と数字に分割して出力されるので、元の化学式に復元する処理を行う。動詞や形容詞は語尾が変化するので、文献データ中の変化形の単語と共に、その終止形も出力する。例えば、「走ら」や「走れ」対して「走る」も生成する。
【0080】
さらに、文献用語表に出力された全ての用語に対して、文献の先頭からの通番となる用語番号、句番号、文章番号、段落番号も付与して出力している。これら通番を利用して、推定用辞書の句基本要素、文章基本要素、段落基本要素等と文献用語表とを比較する際に、基本要素中の各用語が同一の句/文章/段落に出現しているかどうかを高速に判定している。このような情報を含んだ文献用語表データR1,R2,R3,…は、文献用語表生成装置2内のメモリに保存される。
【0081】
(3)分類コードの推定
(3−1)推定用辞書データおよび文献用語表の取得
分類担当者は、推定装置3に対し端末4から分類付与対象のテーマを指定し、分類開始コマンドを入力する。そうすると、推定装置3は以後以下のように分類コードの推定処理を開始する。
図4はその処理手順と処理内容を示すフローチャートである。
【0082】
ここでは、複数の文献に対して、1文献ずつ、推定用辞書に定義されている複数の分類コードを順次付与する場合を例にとって説明する。なお、メタルールの適用は、1文献への全分類コードの付与が終了した時点で、その文献に対するコード付与結果の見直しのために行う。
【0083】
上記分類開始コマンドが入力されたことをステップS11により検出すると、先ずステップS12において推定用辞書作成装置1から上記指定されたテーマに対応する推定用辞書データPを読み込む。推定用辞書データPには、コード付与定義表およびメタルール辞書が含まれる。
【0084】
またそれと共に推定装置3は、ステップS12において上記文献用語表生成装置2から文献用語表データR1,R2,R3,…を読み込む。文献への分類コード付与は文献単位で行う。推定用辞書データPで複数のコードが定義されている場合は、1つの文献に対して以下に述べる処理によりコード付与を繰り返し行う。複数文献にコード付与を行う場合は、この処理を文献の数だけ繰り返す。以下では1つの文献に1つのコードを付与する場合を説明する。
【0085】
(3−2)マッチングとスコアの計算
推定装置3は、ステップS12において、付与する文献の文献用語表データRnを読み込んで、ステップS13で付与環境を設定する。推定用辞書データには分類コードは複数定義されているものとし、ステップS14で次に付与する分類コードを設定する。次に推定装置3は、ステップS15により、当該文献用語表データRnに記載された用語と、推定用辞書データに記述され文意式とを比較し、その一致度に応じてスコアを計算する。
【0086】
(3−3)スコアの詳細な計算例
スコアの計算は以下のように行われる。
すなわち、先ず推定用辞書データの行(分類コードのグループ)ごとに、その文意式と文献用語表データに記載された用語との一致頻度の値を下記の式により求め、全ての段落の値の総和が文献のスコアとなる。
【0087】
Wi*{log
10(N1*f1+N2*f2+N3*f3)
Wi;重み係数
N1;用語の基本スコア(定数)
N2;基本要素の基本スコア(定数)
N3;文意式の基本スコア(定数)
f1;用語の集合に着目したときの同一グループ内の正規化されたヒット数
f2;基本要素の集合に着目したときの同一グループ内の正規化されたヒット数
f3;文意式の集合に着目したときの同一グループ内の正規化されたヒット数
なお、上記N1、N2、N3の各スコアは、それぞれ用語、基本要素、文意式の複雑度合に応じて決める定数であり、複雑度合が高ければ定数としてのスコアを高くするようにしている。
【0088】
また、上記正規化は、「分類テーマに含まれる全文献の各段落に含まれる文字数の平均」をA、「現在付与対象としている文献の段落に含まれる文字数」をBとするとき、B/Aを正規化係数としてこれを文献の文字数に掛け算することにより算出される。
【0089】
すなわち、探し出す記述内容は、用語の集合+基本要素の集合+文意式の集合として表される。続いて、同一の分類コードのすべてのグループのスコアの合計を、段落ごとにそれぞれ算出し、その合計として文献全体のスコアを算出する。
【0090】
以上のスコア計算方法をさらに具体的に説明する。
いま、付与条件を文意式により記述した2次元の表(
図2に例示)が、次のように定義されていると仮定する。
【0091】
・Fターム「DD19」(テーマコード「2F129」)の推定用辞書データ
グループ1;
文意式1 「;ナビゲーション装置」
基準値 「0.6」
重み 「1」
段落種別番号 「1、2、3、4、6、7、8、9」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「1」・・・用語のみで構成された文意式であり、N2は事実上意味をなさないため1以上であればどのような数字でもよい。
文意式の基本スコアN3 「1」・・・用語のみで構成された文意式であり、N3は事実上意味をなさないため1以上であればどのような数字でもよい。
【0092】
グループ2;
文意式1 「{<;経路,;周辺,;施設>c,{;施設,;探索}c}」
基準値 「0.6」
重み 「2」
段落種別番号 「1、2、3、4、6、7、8」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「2」
文意式の基本スコア 「2」
文意式2 「{<;経路,;周辺,地点>c,{地点,;探索}c}」
基準値 「0.6」
重み 「2」
段落種別番号 「1、2、3、4、6、7、8」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「2」
文意式の基本スコア 「2」。
【0093】
また、f1〜f3については、それぞれ以下のようになったとする。
グループ1 文意式1
グループ1における文意式1の用語の集合に着目したときの同一グループ内のヒット数h1は「30」、正規化係数は「0.8」とすると、f1は「24」。
グループ1における文意式1の基本要素の集合に着目したときの同一グループ内のヒット数h2は「0(ゼロ)」、正規化係数は「0.8」とすると、f2は「0(ゼロ)」。
グループ1における文意式1は、用語のみで構成された文意式であるから、基本要素の集合は存在しないため、ヒット数は「0(ゼロ)」となる。
同様に、グループ1における文意式1の文意式の集合に着目したときの同一グループ内のヒット数h3は「0(ゼロ)」、正規化係数は「0.8」とすると、f3は「0(ゼロ)」。グループ1における文意式1は、用語のみで構成された文意式であるから、文意式の集合は存在しないため、ヒット数は「0(ゼロ)」となる。
【0094】
グループ2 文意式1
グループ2における文意式1の用語の集合に着目したときの同一グループ内のヒット数h1は「5」、正規化係数は「0.9」とすると、f1は「4.5」。
グループ2における文意式1の基本要素の集合に着目したときの同一グループ内のヒット数h2は「3」、正規化係数は「0.9」とすると、f2は「2.7」。
同様に、グループ2における文意式1の文意式の集合に着目したときの同一グループ内のヒット数h3は「2」、正規化係数は「0.9」とすると、f3は「1.8」。
【0095】
グループ2 文意式2
グループ2における文意式2の用語の集合に着目したときの同一グループ内のヒット数h1は「4」、正規化係数は「0.9」とすると、f1は「3.6」。
グループ2における文意式2の基本要素の集合に着目したときの同一グループ内のヒット数h2は「3」、正規化係数は「0.9」とすると、f2は「2.7」。
同様に、グループ2における文意式2の文意式の集合に着目したときの同一グループ内のヒット数h3は「2」、正規化係数は「0.9」とすると、f3は「1.8」。
【0096】
よって、各スコアは、以下のようになる。
グループ1の文意式1のスコア:
1(重み)×{log
10(1(N1)×24(f1)+1(N2)×0(f2)+1(N3)×0(f3))}=1.38
グループ2の文意式1のスコア:
2(重み)×{log
10(1(N1)×4.5(f1)+2(N2)×2.7(f2)+2(N3)×1.8(f3))}=2.26
グループ2の文意式2のスコア:
2(重み)×{log
10(1(N1)×3.6(f1)+2(N2)×2.7(f2)+2(N3)×1.8(f3))}=2.20。
【0097】
これらの各スコアと基準値「0.6」とを比較し、基準値以上のものを抽出する。
なお、「対象文献全体のベーススコアTt=文意式ごとの得点の総和」である。
【0098】
よって、
1.38(グループ1の文意式1のスコア)
+ 2.26(グループ2の文意式1のスコア)
+ 2.20(グループ2の文意式2のスコア)
= 5.85(Tt) ・・・
これが対象文献のスコアとなる。
【0099】
そして、対象文献(対象テキスト)のスコアT=αTt+βmaxTd(i)を計算する。ここで、
α、β;重みの係数
Tt;対象文献全体のベーススコア
maxTd(i);対象段落種別のスコアのうち最大のもの
例えばα=1、β=4のように設定し、maxTd(i)が段落種別10で最大「10」であるとすると、
対象文献(対象テキスト)のスコアTは、
1(α)×5.85(Tt)+4(β)×10(maxTd(10))=45.85となる。
【0100】
したがって、この場合、対象文献(対象テキスト)のスコアTは「45.85」となる。以上のように算出されたスコアTを保存する。
【0101】
(3−4)マッチングスコア(評価値)の判定
推定装置3は、スコア計算が終了すると、ステップS16によりスコアTを読み込み、このスコアTを予め設定された閾値と比較する。そしてステップS17において、スコアTが閾値以上となったか否かを判定する。すなわち、現在処理している文献に対して、分類コードごとに当該分類コードを付与すべきか否かを判定する。
【0102】
(3−5)分類コードの付与
推定装置3は、付与すべき分類コードが見つかると、ステップS18により、処理対象の特許文献に対し上記分類コードを付与する。具体的には、付与対象の特許文献の番号に対し、FタームまたはFIコードを関連付ける。1つの分類コードの付与を終了すると、ステップ19で、全ての分類コードの付与処理を終了したかどうか判定し、終了でなければ次の分類コードへの処理を行うためにステップ14に戻る。
【0103】
当該文献への全ての分類コードの付与を終了すると、ステップS20により、メタルール辞書を読み出し、それまでの文献へのコード付与結果と当該メタルールとに従い、付与終了した文献に対して、付与されていなかったコードを新たに付与したり、付与されていたコードを取り消したりする処理を行う。
【0104】
ステップS21により、上記付与対象の特許文献の番号と付与された分類コードを端末4へ出力し表示させる。
【0105】
1つの文献への推定用辞書データで定義されている全ての分類コードへの付与処理を終了すると、ステップS22において全ての文献への付与を終えたかどうか判定し、未付与の文献があればステップS12から文献へのコード付与操作を繰り返す。全ての文献への付与処理が終了した時点で処理を終了する。
なお、付与が終了した後、第2文献群の文献用語表のデータを付与根拠データとして出力することも可能である。
【0106】
(効果)
以上詳述したように実施例1では、推定用辞書データPに、句、文章および段落ごとに、共起関係を示す複数の用語の組である基本要素を少なくとも1つ用いて分類コードの付与条件を記述した文意式を記憶させる。そして、付与対象の文献から生成した文献用語表データR1,R2,R3,…を、上記推定用辞書データPに分類コードごとに記述された文意式と基本要素を基本単位として比較して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記付与対象の文献に対し上記分類コードを付与するようにしている。
【0107】
従って、実施例1によれば、文意式は、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて記述したものとなっているため、付与条件の満たし具合を正確にスコアに反映させることが可能となる。また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。
【0108】
また実施例1では、推定用辞書データPを作成する際に、付与条件を単純な複数の条件グループに分解してこれらの条件グループをそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに1つずつ記述するようにしている。このため、複雑な付与条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。
【0109】
さらに実施例1では、スコアを計算する際に、文献用語表データR1,R2,R3,…の全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の重み付けをして加算して求めるようにしている。
【0110】
一般に、文献全体の記載内容だけをスコアに反映する手法では文献全体の技術用語を大雑把に探すことは可能であるが、漠然とした類似度しか判定できない。一方、最大スコアの段落のみにより類似度を判定する場合には、木を見て森を見ない判定結果になり易い。しかしながら、実施例1によれば付与対象の文献の全段落と最大スコアの段落の両方のスコアに着目し、しかも両方のスコアをその重要度に応じて重み付け加算して類似度の判定を行っているので、精度の高い類似度判定を行うことができる。
【0111】
さらに、付与根拠も表示することができ、付与の妥当性について人が判断することが容易に行える。
【0112】
[実施例2]
実施例1では、特許文献に分類コードを付与する場合を例にとって説明した。これに対し本発明の実施例2は、特定の第1文献と技術の内容が類似する第2文献をサーチ対象となる文献集合(「第2文献群」という)からサーチする場合に、この発明に係る文献解析システムを使用するようにしたものである。
【0113】
なお、実施例2に係る文献解析システムは、基本的な構成が実施例1で述べた構成と同一であるため、ここでは
図1を用いて説明を行う。
【0114】
図5は、この発明の実施例2に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。
【0115】
サーチ担当者は、推定用辞書作成装置1の推定用辞書エディタ1Aを用いて、サーチ元となる第1文献の所定の項目、例えば技術分野、背景技術/従来技術、実施例、請求の範囲が記載された各段落について、サーチ条件を文意式により記述した推定用辞書データを作成する。文意式は、実施例1と同様に、句、文章および段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて文意式で記述したものである。また、文意式において、語順や否定形を指定したりすることもできる。なお、第1文献に分類コードが付与されている場合は、その分類コードに対応する文意式群をそのまま、あるいは加工してサーチ条件の文意式を作成してもよい。
【0116】
上記のように作成された推定用辞書データPは、推定用辞書作成装置1においてメモリに記憶される。なお、推定用辞書作成装置1に、サーチ元となる特許文献の文書データを読み込み、機械学習等を用いてサーチ用の推定用辞書データを自動作成する機能を備えるようにしてもよい。推定装置3は、上記推定用辞書作成装置1のメモリに記憶された第1文献の推定用辞書データを、ステップS31で読込む。
【0117】
次に、ステップ33で、推定装置3は、文献用語表生成装置2により作成された、第2文献群(サーチ対象となる文献集合)の各文献における文献用語表データを生成する。この文献用語表データは実施例1で使用したものと同じものであり、生成方法も同じである。さらに、概念サーチを行えるようにそれ用の新たな情報を文献用語表データに加えることを行ってもよい。
【0118】
推定装置3は、次にステップS33において、第2文献群の文献用語表データR1,R2,R3,…を読み込む。そしてステップS34により、推定用辞書データPの各グループに記述された文意式とそれぞれ比較する。この比較の結果、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。
【0119】
このスコアの計算方法は、実施例1と同様に、先ず、「用語の集合+基本要素の集合+文意式の集合」として計算し、すべての行のスコアの合計を文献全体および段落ごとにそれぞれ算出する。そして、全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の比率で重み付け加算する方法が用いられる。上記第2文献ごとに算出されたスコアは、当該第2文献の番号と関連付けられて保存される。
【0120】
そして、保存されたスコアを読み込み、このスコアを予め設定された第1の閾値と比較する。そしてステップS36により、スコアの合計値が第1の閾値以上となったか否かを判定する。すなわち、上記第2文献と第1文献との間の技術内容の類似度が閾値以上が否かを判定する。この判定の結果、類似度を表すスコアが第1の閾値以上の第2文献が見つかった場合には、ステップS37において、上記第2文献を類似文献として端末へ出力する。
【0121】
これに対し、類似度を表すスコアが第1の閾値以上となる第2文献が見つからなかった場合には、サーチ結果出力部が、ステップS38において類似度を表すスコアが第1の閾値未満であるが第2の閾値以上の第2文献を参考文献として選択する。そして、当該参考文献として選択された第2文献の番号を端末へ出力する。
【0122】
以上詳述したように実施例2では、第1文献と類似する第2文献をサーチする際に、第1文献の内容に基づいて1つの用語又は共起関係を示す複数の用語の組である基本要素を用いてサーチ条件を記述した文意式を作成して、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の複数の第2文献からそれぞれ生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第2文献を類似文献として選択するようにしている。
【0123】
従って、実施例2によれば、文意式は、句、文章及び段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素として、これを少なくとも1つ用いて記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。
【0124】
また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。
【0125】
また実施例2では、推定用辞書を作成する際に、サーチ条件を単純な複数の条件に分解してこれらの条件をそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに1つずつ記述するようにしている。このため、複雑なサーチ条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。
【0126】
さらに実施例2では、第1文献と第2文献との類似度を判定する際に、第2文献の全段落の中からスコアが最も高い段落を選択し、この選択した段落のスコアと第2文献の全段落のスコアの合計値とを1:4の比率で重み付け加算して求め、この求めたスコアをもとに類似度を判定するようにしている。このため、文献全体と要旨が記載された段落の両方をバランスよく考慮して、精度の高い類似度判定を行うことができる。
【0127】
[実施例3]
前記実施例2では、第1文献の内容に近い文献を第2文献群からサーチする例であるが、第1文献を想定せず、単にある内容を記載した文献を第2文献群からサーチして取出したい場合もある。この場合は、探したい内容を1個ないし複数個の文意式を用いて表現し、これを定義表として作成して推定用辞書とする。
【0128】
図6は、この発明の実施例3に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。
サーチ担当者は、推定用辞書作成装置1の推定用辞書エディタ1Aを用いて、探したい内容を文意式により表現した推定用辞書データを作成する。文意式は、実施例1と同様に、句、文章および段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて記述したものである。また、文意式において、語順や否定形を指定したり、統制語や文意マクロを使用することもできる。
【0129】
上記のように作成された推定用辞書データPは、推定用辞書作成装置1においてメモリに記憶される。なお、ステップS40で、サーチ対象とする文献2群の文献用語表データの生成は実施例1あるいは実施例2と同様の方法で作成する。
【0130】
次にステップS41において、推定装置3は推定用辞書データ3Aと文献用語表データR1,R2,R3,…を読み込む。そしてステップS42により、推定用辞書データPの各グループに記述された文意式と各文献用語表データをそれぞれ比較する。この比較処理において、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。
【0131】
このスコアの計算方法は、実施例1と同様に、先ず、「用語の集合+基本要素の集合+文意式の集合」として計算し、すべての行のスコアの合計を文献全体および段落ごとにそれぞれ算出する。そして、全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の比率で重み付け加算する方法が用いられる。上記第2文献ごとに算出されたスコアは、当該第2文献の番号と関連付けられて、保存される。
【0132】
そして、保存されたスコアを読み込み、このスコアを予め設定された第1の閾値と比較する。そしてステップS44により、スコアの合計値が第1の閾値以上となったか否かを判定する。すなわち、上記第2文献とサーチ条件との間の技術内容の類似度が閾値以上が否かを判定する。
【0133】
上記判定の結果、類似度を表すスコアが第1の閾値以上の第2文献が見つかった場合には、ステップS45において、上記第2文献を類似文献として端末4へ出力する。
【0134】
これに対し、類似度を表すスコアが閾値以上となる第2文献が見つからなかった場合には、その旨を表示してサーチを終了する。
【0135】
以上詳述したように実施例3では、意図する内容に一致あるいは近い文献を類似する第2文献群からサーチする際に、サーチ条件を記述した文意式で記述し、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の第2文献から生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第2文献を類似文献として選択するようにしている。
【0136】
従って、実施例3によれば、文意式は共起関係を示す複数の用語の組である基本要素を基本要素として記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。
【0137】
また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。
【0138】
「実施例4」
この発明の実施例4は、推定用辞書作成装置に、推定用辞書データの自動作成機能を設けたものである。
図7は、この発明の実施例4に係る文献解析装置において使用される推定用辞書作成装置の機能構成を示すブロック図である。
【0139】
推定用辞書作成装置100は、サーバコンピュータまたはパーソナルコンピュータからなり、制御ユニット110と、記憶ユニット120と、入出力インタフェースユニット130とを備えている。
【0140】
入出力インタフェースユニット130には、コンソール端末200、文献データベース300および推定装置3が、例えばUSB(Universal Serial Bus)ケーブル、LAN(Local Area Network)等の構内ネットワークまたは公衆ネットワークを介して接続される。コンソール端末200は、オペレータが推定用辞書作成装置100に対しパラメータを入力するために使用される。なお、このコンソール端末200は、推定装置3により得られた文書解析結果を表示するために使用することも可能である。文献データベース300は、例えば特許文献の文書データを記憶するデータベースからなる。
【0141】
記憶ユニット120は、例えばHDD(Hard Disc Drive)やSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発性メモリや、RAM(Random Access Memory)等の随時書き込みおよび読み出しが可能な揮発性メモリを使用したもので、実施例4を実施する上で必要な記憶領域として、教師文献記憶部121と、基本要素候補記憶部122と、基本要素記憶部123とを備えている。
【0142】
教師文献記憶部121は、推定用辞書データを作成する際の元になる教師文献の文書データを記憶するために使用される。基本要素候補記憶部122は、推定用辞書データを作成する過程で生成される基本要素の候補群を保存するために使用される。基本要素記憶部123は、推定用辞書データを作成する過程で生成される基本要素群を保存するために使用される。
【0143】
制御ユニット110は、プロセッサおよび作業用メモリを有し、実施例4を実施する上で必要な制御機能として、パラメータ取得制御部111と、教師文献抽出部112と、基本要素候補抽出部113と、有効基本要素選択部114と、推定用辞書データ作成部115とを備えている。これらの制御機能は、いずれも図示しないプログラムメモリに格納されたプログラムを上記プロセッサに実行させることにより実現される。
【0144】
パラメータ取得制御部111は、コンソール端末200においてオペレータが入力したパラメータを、入出力インタフェースユニット130を介して取り込む処理を行う。パラメータとしては、例えば、推定用辞書の作成対象となる技術分野を表すFタームと、上記技術分野の特徴を表す用語である種用語と、推定用辞書データの作成過程で使用する各種閾値が含まれる。
【0145】
教師文献抽出部112は、上記パラメータとして入力されたFタームおよび種用語をキーとして文献データベース300から該当する教師文献を抽出し、この抽出した教師文献を正例教師文献集合と負例教師文献集合とに分けて教師文献記憶部121に記憶させる処理を行う。正例教師文献は、上記種用語を含みかつ上記Fタームが付与される文献である。一方負例教師文献は、上記種用語を含みかつ上記Fタームが付与される文献である。
【0146】
基本要素候補抽出部113は、上記教師文献記憶部121に記憶された正例および負例の各教師文献群から、句、文章、段落および文献の各々の範囲ごとに基本要素の候補を抽出し、抽出した基本要素の候補を基本要素候補記憶部122に記憶させる処理を行う。基本要素とは、単独の種用語と、当該種用語と共起関係を示す用語との組のことである。基本要素候補の抽出処理の詳細は後述する。
【0147】
有効基本要素選択部114は、上記基本要素候補記憶部122に記憶された基本要素候補群から、可能な限り多くの正例教師文献に含まれ、かつ可能な限り負例教師文献には含まれない基本要素の候補を選択し、選択した基本要素の候補を推定用辞書作成用の基本要素として基本要素記憶部123に記憶させる処理を行う。この推定用辞書作成用の基本要素の選択処理の詳細についても後述する。
【0148】
推定用辞書データ作成部115は、上記基本要素記憶部123から推定用辞書作成用の基本要素群を読み出し、この基本要素群の組み合わせを文意式(ブール代数式)で記述して推定用辞書データを作成する。そして、この推定用辞書データを推定装置3へ出力する処理を行う。
【0149】
(動作)
次に、以上のように構成された推定用辞書作成装置100による推定用辞書の自動作成処理動作を説明する。
図8は、その全体の処理手順と処理内容を示すフローチャートである。
【0150】
(1)パラメータの取得
推定用辞書作成装置100は、パラメータ取得制御部111の制御の下、ステップS100においてパラメータの入力操作を待機している。この状態で、オペレータがコンソール端末200においてパラメータを入力すると、パラメータ取得制御部111がステップS110により上記パラメータを入出力インタフェースユニット130を介して取り込み、取り込んだパラメータを教師文献抽出部112に通知する。
【0151】
パラメータは、対象Fタームと、種用語群と、各種閾値とから構成される。
図12はその一例を示すものである。対象Fタームは、
図12(a)に示すように、推定用辞書の作成対象となる技術のFターム名であり、例えば日本の特許庁が定義しているFタームやFIコードがこれに該当する。
【0152】
種用語は、上記推定用辞書の作成対象となる技術として特徴的な単一の単語、またはそれらの組み合わせである用語により表される。例えば、Fターム「BB19」においては、
図12(b)に示すように「歩数計」、「距離計」、{歩行,センサ}、…等が種用語として入力される。
【0153】
閾値としては、
図12(c)に示すように、基本要素を抽出する際の範囲である「句」、「文章」、「段落」および「文献」の各々について、共起用語閾値としてのIDFおよび文献数と、共起用語を専門語のみとするか否かを指定する情報と、精度の閾値と、精度の刻み値と、再現率の閾値と、文献数の閾値と、生成項数の上限値と、処理時間および基本要素生成数の上限値が指定される。なお、
図12(c)では「句」に対応する各閾値の表示を省略した場合を例示している。
【0154】
また、ここで云うIDFとは、Inverse Document Frequencyの略で、ある共起用語がヒットする文献数の逆数である。これは、殆どの文献で出現するような共起用語の影響を小さくするために重みづけの係数として利用するものである。例えば、段落の基本要素のIDFが1.2の場合、共起用語が母集団の文献群のうち約83%以下の文献にだけヒットするというものである。母集団が1000文献あるとすると、833件以下の文献に当該段落の基本要素がヒットするというものである。
【0155】
このうち精度は、基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す。再現率は、抽出された全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す。精度の閾値は、許容できる精度の最低値に設定される。また再現率の閾値は、許容できる再現率の最低値に設定される。
【0156】
なお、上記正例教師文献数と負例教師文献数との割合は、Fタームごとに異なるので、正例教師文献数および負例教師文献数は下式により正規化する。
正規化文献数=実文献数*正規化係数
但し、
正例教師文献の正規化係数
=100/当該Fターム用の学習に用いた正例教師文献数
負例教師文献の正規化係数
=100/当該Fターム用の学習に用いた負例教師文献数
である。
【0157】
(2)教師文献の抽出
上記パラメータの指定が終了すると、推定用辞書作成装置100は教師文献抽出部112の制御の下で、教師文献の抽出処理を以下のように実行する。
すなわち、先ずステップS120において、上記パラメータとして指定された種用語をキーとして文献データベース200を検索し、当該種用語を含む文献をすべて抽出する。
【0158】
続いてステップS130において、上記抽出された種用語を含む文献を、上記パラメータとして指定されたFタームをもとに、Fタームに対応する文献集合と対応しない文献集合とに分割する。そして、上記Fタームに対応する文献集合を正例教師文献集合とし、またFタームに対応しない文献集合を負例教師文献集合として教師文献記憶部121にそれぞれ記憶させる。
【0159】
また、このとき教師文献抽出部112は、Fタームごとの種用語、正例および負例の各教師文献の一覧データを作成し、これも教師文献記憶部121に記憶させる。
図13に上記正例教師文献集合および負例教師文献集合の一覧データの一例を示す。
【0160】
上記一覧データをコンソール端末200へ出力して表示させることで、オペレータは教師文献の抽出結果を種用語と関連付けて確認することができる。
【0161】
(3)基本要素候補の抽出
推定用辞書作成装置100は、次に基本要素候補抽出部113の制御の下、ステップS140において、上記正例および負例の各教師文献集合から基本要素の候補を抽出する処理を以下のように実行する。
図9はその処理手順と処理内容を示すフローチャートである。
【0162】
(3−1)句に着目した基本要素候補の抽出
基本要素候補抽出部113は、先ずステップS141において、基本要素候補の抽出を行う範囲として「句」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「句」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
【0163】
例えば、先ず種用語とその共起語との組み合わせからなる基本要素候補(以後2項の基本要素候補と称する)を抽出する。以下のその一例を示す。
・2項の基本要素候補;
<種用語,共起語11>、<種用語,共起語12>、…、<種用語,共起語1N>
次に、上記2項の基本要素候補と共起語との組み合わせからなる基本要素候補(以後3項の基本要素候補と称する)を抽出する。以下にその一例を示す。
・3項の基本要素候補;
<<種用語,共起語11>,共起語21>、<<種用語,共起語12>,共起語22>、…、<<種用語,共起語1N>,共起語2N>
以下同様に、「句」ごとに、種用語を起点として4項、5項、…の各基本要素の候補を抽出する処理を繰り返す。
【0164】
また、上記「句」ごとの基本要素候補の抽出処理中に、基本要素候補抽出部113はステップS142において抽出条件を満たしたか否かを監視する。抽出条件としては、例えば、
(1) 抽出した基本要素候補の精度および再現率が、パラメータとして事前に設定された精度および再現率の最低値以下
(2) 抽出した基本要素候補にさらに共起語を追加しても、つまりさらに項数を増やしても、当該基本要素候補の精度が一定値以上向上しない
が定義される。なお、精度および再現率は、先に述べたように正規化した正例および負例文献数をもとに計算される。
そして、上記各条件のいずれか一方を満たすと、基本要素候補抽出部113はその時点で「句」ごとの基本要素候補の抽出処理を終了する。
【0165】
(3−2)文章に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS143において、基本要素候補の抽出を行う範囲として、上記句を含む「文章」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「文章」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
【0166】
この文章ごとの基本要素候補の抽出処理も、「句」の場合と同様に2項、3項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を1つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・2項の基本要素候補;
{種用語,共起語11}、{種用語,共起語12}、…、{種用語,共起語1N}
・3項の基本要素候補;
{種用語,<種用語,共起語11>,共起語21}、{種用語,<種用語,共起語12>,共起語22}、…、{種用語,<種用語,共起語1N>,共起語2N}。
【0167】
また、この「文章」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部113はステップS144において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「文章」ごとの基本要素候補の抽出処理を終了する。
【0168】
(3−3)段落に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS145において、基本要素候補の抽出を行う範囲として、上記句および文章を含む「段落」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「段落」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
【0169】
この文章ごとの基本要素候補の抽出処理も、上記「句」や「文章」の場合と同様に2項、3項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を1つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・2項の基本要素候補;
[{種用語,共起語11},共起語d11]、[{種用語,共起語12},共起語d12]、…、[{種用語,共起語1N,共起語d1N]}
・3項の基本要素候補;
[{種用語,共起語11},<種用語,共起語11>,共起語d21]、[{種用語,共起語12},<種用語,共起語12>,共起語d22]、…、[{種用語,共起語1N},<種用語,共起語1N>,共起語d2N]。
【0170】
また、この「段落」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部113はステップS146において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「段落」ごとの基本要素候補の抽出処理を終了する。
【0171】
(3−4)文献全体に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS147において、種用語あるいは上記「文章」ごとに抽出された基本要素候補を起点として、異なる段落から共起語を抽出する。そして、上記種用語あるいは「文章」ごとに抽出された基本要素候補と、上記異なる段落から抽出した共起語とを、積形式で組み合わせた基本要素候補を作成する。以下にその一例を示す。
種用語*共起語N1
{種用語,共起語11}*共起語N1。
【0172】
そして、この「積形式」の基本要素候補の作成処理中においても、基本要素候補抽出部113はステップS148において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「積形式」の基本要素候補の作成処理を終了する。
【0173】
図15は、以上述べた抽出処理により作成された基本要素候補の一例を示すものである。同図に示すように、抽出された各基本要素候補は、基本要素ID、基本要素種別および項数と関連付けられた状態で、基本要素候補記憶部122に格納される。また、各基本要素候補には、精度、再現率、F値、出現する正例および負例の各教師文献数が関連付けられて記憶される。F値は、精度と再現率との完全一致の度合い(調和平均)を示す値であり、(2×精度×再現率)/(精度+再現率)なる式で計算される。なお、
図15では理解を助けるため、精度および再現率の高い順にソートした状態を示している。
【0174】
(4)推定用辞書を作成する上で有効な基本要素の選択
上記基本要素候補抽出部113により抽出された基本要素候補群は、種用語を手がかりに、精度および再現率がいずれも閾値(許容可能な最低値)を超える基本要素を、教師文献から網羅的に抽出したものである。このため、抽出した基本要素候補群には、推定用辞書データを作成する上で有効な基本要素候補が必ず含まれている。また、このとき教師文献集合には、上記抽出した基本要素候補以外の基本要素候補は残っていないといえる。
【0175】
しかしながら、上記抽出した基本要素候補群の中には、同一の教師文献に出現する複数の基本要素候補が重複して含まれている。推定用辞書データを作成する場合、正例教師文献集合に含まれるできる限り多くの文献(理想的には全文献)に出現し、かつ負例教師文献集合に含まれる文献にはできる限り出現しない(理想的にはゼロ)、最小個数の基本要素候補を選択する必要がある。
【0176】
そこで、推定用辞書作成装置100は、次にステップS150において、有効基本要素選択部114の制御の下、上記基本要素候補抽出部113により抽出された基本要素候補群から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。
図10はその処理手順と処理内容を示すフローチャートである。
【0177】
すなわち、有効基本要素選択部114は、先ずステップS151において、上記基本要素候補抽出部113により抽出された基本要素候補群に含まれる各基本要素候補について精度を計算し、計算した精度が高い順に、上記各基本要素候補をソートする。
【0178】
有効基本要素選択部114は、次にステップS152により、上記ソートされた基本要素候補群から精度および再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第1の基本要素として基本要素記憶部123に格納する。
【0179】
有効基本要素選択部114は、次にステップS153により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について精度を計算し直す。そして、この計算し直した精度が高い順に、上記残りの基本要素候補をソートし直す。
【0180】
有効基本要素選択部114は、ステップS154において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。
【0181】
上記ステップS154の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部114はステップS152に戻る。そして、上記ソートし直された基本要素候補群の中から精度が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を推定用辞書を作成する上で2番目に有効性の高い基本要素として基本要素記憶部123に格納する。
【0182】
以後同様に、有効基本要素選択部114は上記ステップS152〜S154による処理を繰り返し実行し、これによりその都度計算し直された精度の高い順に基本要素を選択し、この順次選択された基本要素を有効性が3番目、4番目、…に高い基本要素として基本要素記憶部123に格納する。
【0183】
そして、ステップS154において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部114は推定用辞書データの作成に用いる基本要素の選択処理を終了する。
【0184】
次に、推定用辞書作成装置100は、精度が高いものとして選択された基本要素の集合から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。
図11はその処理手順と処理内容を示すフローチャートである。
【0185】
有効基本要素選択部114は、先ずステップS155において、精度が高いものとして選択された基本要素の集合を、再現率が高い順に、上記各基本要素候補をソートする。
図15はこのソート後の基本要素候補の一例を示す。
【0186】
有効基本要素選択部114は、次にステップS156により、上記ソートされた基本要素候補群から再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第1の基本要素として基本要素記憶部123に格納する。
【0187】
有効基本要素選択部114は、次にステップS157により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について再現率を計算し直す。そして、この計算し直した再現率が高い順に、上記残りの基本要素候補をソートし直す。
【0188】
有効基本要素選択部114は、ステップS158において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。
【0189】
上記ステップS158の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部114はステップS156に戻る。そして、上記ソートし直された基本要素候補群の中から再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を推定用辞書を作成する上で2番目に有効性の高い基本要素として基本要素記憶部123に格納する。
【0190】
以後同様に、有効基本要素選択部114は上記ステップS156〜S158による処理を繰り返し実行し、これによりその都度計算し直された再現率の高い順に基本要素を選択し、この順次選択された基本要素を有効性が3番目、4番目、…に高い基本要素として基本要素記憶部123に格納する。
【0191】
そして、ステップS158において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部114は推定用辞書データの作成に用いる基本要素の選択処理を終了する。
【0192】
図16は、
図15に示した基本要素候補群の中から、上記基本要素選択処理により選択された基本要素の一例を示すものである。同図において、「精度」、「再現率」、「F値」、「正例文献数」、「負例文献数」は、選択処理を開始する前、つまりステップS151によりソートされた直後の基本要素候補群の値を示す。これに対し、「再計算精度」、「再計算再現率」、「再計算F値」、「再計算正例文献数」、「再計算負例文献数」は、再計算後の値を示す。
【0193】
上記した基本要素の選択処理では、上記「再計算精度」を第1優先順位、「再計算再現率」を第2優先順位、再計算前の「精度」を第3優先順位として、基本要素候補の選択を行う。なお、精度の閾値として設定される精度の最低値は「0.950」、基本要素の選択数の最大値は「200」に設定する。
【0194】
図14は、以上述べた有効な基本要素選択処理の概要を示すものである。同図において、50は正例文献集合を示す。同図では、1回目に選択された第1の基本要素により多数の正例文献が検索され、その後精度および再現率が再計算されるごとに選択された第2の基本要素、第3の基本要素、第4の基本要素により、正例文献集合のうち残った文献が順次検索される様子を示している。このように選択処理を実行することで、複数の基本要素が同一の正例文献に対し重複することを少なくすることができ、これにより必要十分な数の基本要素のみを選択することが可能となる。
【0195】
(5)推定用辞書データの作成
推定用辞書作成装置100は、次にステップS160において、推定用辞書データ作成部115の制御の下、上記基本要素記憶部123に記憶された基本要素をもとに、ブール代数により表される文意式を作成する。そして、この作成した文意式を推定用辞書データとして、ステップS170により入出力インタフェースユニット130から推定装置3へ転送する。なお、文意式の構成については、実施例1で説明したものと同一なので、ここでの説明は省略する。
【0196】
(効果)
以上詳述したように実施例4では、推定用辞書作成装置100において、辞書の作成対象となる分野を表すコードと上記分野の特徴を表す種用語に基づいて文献データベース300から正例教師文献集合と負例教師文献集合を抽出し、この正例および負例の各教師文献集合から上記種用語とその共起語を含む用語の組み合わせからなる基本要素候補群を抽出し、抽出された基本要素候補群の中から、精度と再現率をもとに、正例教師文献集合に含まれるできる限り多くの文献に出現しかつ負例教師文献集合に含まれる文献にはできる限り出現しない最小個数の基本要素候補を選択し、選択された基本要素候補をもとに文意式を作成してこれを推定用辞書データとするようにしている。
【0197】
従って、推定用辞書データを自動的に作成することができるようになり、これにより人が手作業で推定用辞書を作成する必要がなくなって、人の作業負荷を大幅に軽減し、かつ文献解析装置の早期の運用開始を実現することができる。
【0198】
また、教師文献の句、文章、段落および文献全体からそれぞれ基本要素候補を抽出するようにしているので、基本要素候補を漏れなく抽出することが可能となる。またその際に、基本要素候補の抽出を精度および再現率の各閾値を超えるものに限るようにしているので、基本要素候補の数を効果的に制限することができ、これにより推定用辞書データの作成に要する装置の処理負荷を軽減しかつ処理時間を短縮することが可能となる。
【0199】
さらに、上記基本要素候補の中から有効な基本要素を選択する際に、基本要素を1つ選択するごとに精度および再現率が再計算され、この再計算された精度および再現率をもとに次の基本要素が選択される。このため、推定用辞書データを作成する上で必要な基本要素を、重複や不足を生じることなく効果的に選択することが可能となる。
【0200】
[その他の実施例]
実施例4では、基本要素候補の抽出を、「句」、「文章」、「段落」、「文献」ごとに行ったが、このうち「句」は省略しても良い。「句」を省略することで、基本要素候補を選択する処理に要する装置の処理負荷および処理時間を大幅に軽減および短縮することができる。また、抽出される基本要素候補の数を減らすことで、有効な基本要素の選択処理の負荷および処理時間も減らすことができる。
【0201】
この発明は、上記各実施例に限定されるものではなく、例えば、推定用辞書作成装置、文献用語表生成装置および推定装置の機能構成と、その処理手順および処理内容についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
【0202】
また、上記各実施例に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例に亘る構成要素を適宜組み合せてもよい。