【文献】
増山毅司,関根聡,大規模コーパスからのカタカナ語の表記の揺れリストの自動構築,online,日本,言語処理学会,2004年 3月,[検索日2014.10.20],インターネット,URL,http://www.anlp.jp/proceedings/annual_meeting/2004/index.html
(58)【調査した分野】(Int.Cl.,DB名)
前記基軸単語汎用度算出部が、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用い、
前記曖昧ポイント抽出部が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項2に記載の要求文書分析システム。
前記基軸単語抽出部が、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出する、ことを特徴とする請求項1乃至3のいずれか1項に記載の要求文書分析システム。
前記単語セット抽出部が、係り受け関係にある単語の組み合わせを単語セットとして抽出する、ことを特徴とする請求項1乃至4のいずれか1項に記載の要求文書分析システム。
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項1乃至5のいずれか1項に記載の要求文書分析システム。
前記単語類似性算出部が、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用する、ことを特徴とする請求項1乃至6のいずれか1項に記載の要求文書分析システム。
前記曖昧ポイント抽出部が、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出する、ことを特徴とする請求項1乃至7のいずれか1項に記載の要求文書分析システム。
前記曖昧ポイント出力部が、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けする、ことを特徴とする請求項1乃至8のいずれか1項に記載の要求文書分析システム。
前記曖昧ポイント出力部が、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与える、ことを特徴とする請求項1乃至8のいずれか1項に記載の要求文書分析システム。
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項11乃至15のいずれか1項に記載の要求文書分析方法。
前記コンピュータに、前記基軸単語抽出手順で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出手順を更に実行させ、
前記曖昧ポイント抽出手順が、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項21に記載の要求文書分析プログラム。
前記基軸単語汎用度算出手順が、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用い、
前記曖昧ポイント抽出手順が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項22に記載の要求文書分析プログラム。
前記基軸単語抽出手順が、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出する、ことを特徴とする請求項21乃至23のいずれか1項に記載の要求文書分析プログラム。
前記単語セット抽出手順が、係り受け関係にある単語の組み合わせを単語セットとして抽出する、ことを特徴とする請求項21乃至24のいずれか1項に記載の要求文書分析プログラム。
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項21乃至25のいずれか1項に記載の要求文書分析プログラム。
前記単語類似性算出手順が、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用する、ことを特徴とする請求項21乃至26のいずれか1項に記載の要求文書分析プログラム。
前記曖昧ポイント抽出手順が、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出する、ことを特徴とする請求項21乃至27のいずれか1項に記載の要求文書分析プログラム。
前記曖昧ポイント出力手順が、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けする、ことを特徴とする請求項21乃至28のいずれか1項に記載の要求文書分析プログラム。
前記曖昧ポイント出力手順が、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与える、ことを特徴とする請求項21乃至28のいずれか1項に記載の要求文書分析プログラム。
【発明を実施するための形態】
【0012】
[実施形態1]
最初、本発明の第1の実施形態について、図面を参照して詳細に説明する。
【0013】
図1は、本発明の第1の実施形態に係る要求文書分析システム100の構成を示すブロック図である。
【0014】
図1を参照すると、本発明の第1の実施形態に係る要求文書分析システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語類似性データベース110と、単語分類部40と、曖昧ポイント抽出部50と、曖昧ポイント出力部60と、を含む。
【0015】
図示の要求文書分析システム100は、情報システム構築の上流工程で、顧客から交付される提案依頼書や開発者側から提供する提案書や仕様書などの要求関連文書の要求文書分析システムである。
【0016】
電子機器で要求文書分析システムを構成する場合、要求文書分析システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
【0017】
この場合、データ処理装置が、単語セット抽出部10、基軸単語抽出部20、単語類似性算出部30、単語分類部40、および曖昧ポイント抽出部50として働き、補助記憶装置が単語類似性データベース110として動作し、出力装置が曖昧ポイント出力部60として働く。
【0018】
次に、要求文書分析システム100を構成する各構成要素の動作について説明する。
【0019】
単語セット抽出部10は、対象とする文書もしくは文書群の入力を受け付ける。単語セット抽出部10は、文書もしくは文書群を構成する全ての文章に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する。ここで、「抽出ルール」としては、文を構成する単語間の用法の特徴を反映したルールであればどの様な方法でも良い。例えば、特徴として共起に注目すれば、抽出ルールは、一文などの文書の任意の範囲内で共起する単語の組み合わせを単語セットとして抽出するなどのルールが相当する。また、より単語間の係り受け関係に注目すれば、抽出ルールは、係り受け関係にある単語の組み合わせを単語セットとして抽出するというルールが相当する。
【0020】
基軸単語抽出部20は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出する。そして、基軸単語抽出部20は、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する。ここで、「基軸設定ルール」としては、文の中心的な単語を取り出すルールであればどのような方法でも良い。例えば、基軸設定ルールとしては、名詞や形容詞、動詞などの単独で意味をなす品詞の内で一般的なWebや文書などでの使用頻度が文書内で相対的に多い単語を基軸単語とするルールが適用される。或いは、係り受け関係に基づいて抽出された単語セットの場合、基軸設定ルールとしては、係る語や主語を基軸単語とし、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とするルールが適用される。
【0021】
単語類似性データベース110は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答するデータベースである。単語類似性データベース110は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスや、一般的なWebや文書内の文中で各単語と共起する共起語の種類と数を集計した共起語集計表などが相当する。
【0022】
単語類似性算出部30は、文書に含まれる全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース110に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する。単語類似性データベース110がシソーラスである場合、周辺単語間の類似性の算出方法としては、単語同士が共通の概念とされる階層の深さを非類似性の指標とする方法で良い。或いは、周辺単語間の類似性の算出方法としては、共起語集計表から一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率などを類似性の指標として利用する方法でも良い。
【0023】
単語分類部40は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する。クラスタリングの手法は一般的な手法で良い。例えば、クラスタリングの手法としては、デンドログラムなどを用いた階層的クラスタリングを適用しても良い。或いは、クラスタリングの手法としては、周辺単語間の類似性と単調減少する指標を距離として導かれる仮想的な周辺単語の位置情報に、k−means法やFussy−c−means法などの非階層的クラスタリングを適用しても良い。或いは、単語類似性データベース110がシソーラスである場合、シソーラスでの周辺単語の帰属する大分類や中分類、小分類のいずれかをそのまま、分類として用いても良い。
【0024】
曖昧ポイント抽出部50は、単語分類部40で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを構文解析などの誤った解釈の可能性が想定される曖昧ポイントとして抽出する。ここで、「抽出基準」は、単語の用法として主流でないクラスタを分別する基準であれば良い。例えば、抽出基準は、周辺単語の帰属数が任意の閾値より少ないクラスタを非主流クラスタとするなど数的基準で抽出する方法であって良い。或いは、抽出基準としては、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出するなどの意味的基準で抽出する方法などが適当である。なお、周辺単語がファジィクラスタリングによって分類された場合は、前記帰属数を帰属度の総和として取り扱う。
【0025】
曖昧ポイント出力部60は、曖昧ポイント抽出部50で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する。ここで、出力形態は、文書内における曖昧ポイントを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、基軸単語と周辺単語とをリンクで結んだグラフを表示し、曖昧ポイントとされた周辺単語とリンクを色分けするなどの形態であって良い。或いは、出力形態として、基軸単語と、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けするなどの形態などでも良い。また、出力形態としては、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定しても良い。もしくは、出力形態としては、曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
【0026】
次に、
図1及び
図2のシーケンス図を参照して、本発明の第1の実施形態に係る要求文書分析システム100の全体の動作について詳細に説明する。
【0027】
単語セット抽出部10は、対象とする文書の入力を受け付け、文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する(
図2のステップA1)。
【0028】
基軸単語抽出部20は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出し、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する(ステップA2)。
【0029】
単語類似性データベース110は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味に関連する意味情報を検索し応答する(ステップA3)。
【0030】
単語類似性算出部30は、全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース110に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する(ステップA4)。
【0031】
単語分類部40は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する(ステップA5)。
【0032】
曖昧ポイント抽出部50は、単語分類部40で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する(ステップA6)。
【0033】
曖昧ポイント出力部60は、曖昧ポイント抽出部50で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する(ステップA7)。
【0034】
次に、本発明の第1の実施形態に係る要求文書分析システム100の効果について説明する。
【0035】
本第1の実施形態では、文書内もしくは文書群内の単語の用法の類似性によって判別された非主流クラスタに基づいて曖昧ポイントを抽出するように構成されているため、対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。
【0036】
尚、上記本発明の第1の実施形態に係る要求文書分析システム100は、要求文書分析方法として実現され得る。また、上記本発明の第1の実施形態に係る要求文書分析システム100は、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
【0037】
[実施形態2]
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
【0038】
図3は、本発明の第3の実施形態に係る要求文書分析システム100Aの構成を示すブロック図である。
【0039】
図3を参照すると、本発明の第2の実施形態に係る要求文書分析システム100Aは、基軸単語汎用度算出部25を更に含むと共に、後述するように曖昧ポイント抽出部の動作が相違する点を除いて、
図1に示した第1の実施形態に係る要求文書分析システム100と同様の構成を有し、動作をする。したがって、曖昧ポイント抽出部に50Aの参照符号を付してある。
【0040】
図示の要求文書分析システム100Aを上述したコンピュータで実現した場合、データ処理装置が、単語セット抽出部10、基軸単語抽出部20、基軸単語汎用度算出部25、単語類似性算出部30、単語分類部40、および曖昧ポイント抽出部50Aとして働き、補助記憶装置が単語類似性データベース110として動作し、出力装置が曖昧ポイント出力部60として働く。
【0041】
基軸単語汎用度算出部25が、基軸単語の汎用度を算出し、曖昧ポイント抽出部50Aが、汎用度に基づき周辺単語群の非主流クラスタの抽出基準を変換する。
【0042】
次に、要求文書分析システム100Aを構成する各構成要素の動作について説明する。
【0043】
基軸単語汎用度算出部25は、基軸単語抽出部20で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する。ここで、「汎用度」は、基軸単語が様々な他の単語と組み合されやすい汎用的な単語なのか、特定の単語との組み合わせしか想定されない特殊な単語なのかを反映する指標であれば良い。汎用度の算出方法としては、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される値が適している。
【0044】
曖昧ポイント抽出部50Aは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる点で、
図1に示した曖昧ポイント抽出部50と異なる。ここで、「閾値」は、基軸単語の汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように設定されれば良い。例えば、汎用度の高い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定されうるため、非主流と見なす閾値を高め、汎用度の低い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定しにくいため、非主流と見なす閾値を下げるように、閾値を設定する。閾値の算出方法は、基軸単語の汎用度と単調増加の関係にある関数を任意に設定して算出しても良い。或いは、閾値を、基軸単語の汎用性と、適正なクラスタ間距離の経験的な関係から推算しても良い。
【0045】
それ以外の単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語類似性データベース110と、単語分類部40と、曖昧ポイント出力部60の構成と機能は、
図1に示した第1の実施形態のそれらとそれぞれ同じであるので、説明を省略する。
【0046】
次に、
図3及び
図4のシーケンス図を参照して、本発明の第2の実施形態に係る要求文書分析システム100Aの全体の動作について詳細に説明する。
【0047】
上述した第1の実施形態の動作と比較すると、本第2の実施形態の動作は、次の動作が加わっている点で異なる。
【0048】
すなわち、基軸単語汎用度算出部25は、基軸単語抽出部20で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する(ステップB1)。
【0049】
さらに曖昧ポイント抽出部50Aは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出する(ステップB2)。
【0050】
他のステップの動作は、上述した第1の実施形態における動作と同一であるので、それらの説明については省略する。
【0051】
次に、本発明の第2の実施形態の効果について説明する。
【0052】
本第2の実施の形態では、基軸単語の汎用度を算出し、汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように構成されているため、より基軸単語の特徴に合った基準で対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。
【0053】
尚、上記本発明の第2の実施形態に係る要求文書分析システム100Aは、要求文書分析方法として実現され得る。また、上記本発明の第1の実施形態に係る要求文書分析システム100Aは、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
【実施例1】
【0054】
次に、
図5を参照して、具体的な第1の実施例を用いて、本発明の第1の実施形態に係る要求文書分析システム100の動作について説明する。
【0055】
本第1の実施例では、次のことを目的としている。
【0056】
先ず、要求文書分析システム100は、情報システム構築の上流工程で、顧客から交付される提案依頼書や、開発者側から提供する提案書などの要求文書D内の曖昧なポイントAを抽出する。そして、交付された文書であれば解釈に誤りが無いよう精読、もしくは文書の記載者に正しい解釈を確認するため、要求文書分析システム100は、提供する文書であれば修正等のための情報として可視化することで、正確な要求獲得と要件定義を行う。
【0057】
また、本第1の実施例では、要求文書分析システム100は、
図5に示されるように、要求文書解析システムYと、インターネット・サーバZとで構成されるものとする。
【0058】
要求文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントAの提示を実現する。
【0059】
インターネット・サーバZは、通信ネットワークを介して要求文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、要求文書解析システムYからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。
【0060】
図5と
図1との対応関係について説明する。
【0061】
単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語分類部40と、曖昧ポイント抽出部50とは、要求文書解析システムY内に含まれている。曖昧ポイント出力部60は、PC端末の出力部として動作する。単語類似性データベース110はインターネット・サーバZ内に含まれている。
【0062】
この様な手段を備えた要求文書解析システムY、インターネット・サーバZは以下のような動作をする。
【0063】
要求文書解析システムYは、入力部から、分析実施者Bが曖昧ポイントを抽出したい文書Dの入力を受け付ける。そして、要求文書解析システムYは、文書Dを構成するn個の文書i(i=1、2、・・・、n)の全ての文章i毎に形態素解析および構文解析を適用し、文章iを構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、主語Siと述語Viに相当する単語を抽出し、対応する主語Siと述語Viの組み合わせを単語セットTiとして抽出する。
【0064】
なお、重文など、主語Siaが述語Viaに係り、主語Sibが述語Vibに係るといった文章i中に複数種の主語Siや述語Viが有る場合、単語セットTiは単語セットTia{主語Sia、述語Via}、Tib{主語Sib、述語Vib}のようにそれぞれ別々に抽出される。また、複文など、主語Sicが述語Vicと述語Vidに係るような場合も、単語セットTiは単語セットTic{主語Sic、述語Vic}、Tid{主語Sic、述語Vid}のようにそれぞれ別々に抽出される。
【0065】
さらに要求文書解析システムYは、文書Dに含まれる全ての単語セットTiについて、各主語Siを基軸として、同一の主語Saである単語セットTaを集計することで、同一の主語Saと主語Saと組み合されたm個の述語Vaj(j==1、2、・・・、m)をまとめた単語セット群Ga{Sa、Vaj}を抽出する。そして、要求文書解析システムYは、単語セット群Gaの各述語Vajのそれぞれの意味的な分類についてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの分類体系から、各述語Vajが属する意味分類Cajおよび同義語Weajと類義語Wsajとを抽出する。
【0066】
インターネット・サーバZは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの情報を蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、要求文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の分類および同義語と類義語とを抽出し、提示する。
【0067】
さらに要求文書解析システムYは、各述語Vajが属する意味分類Cajおよび同義語Weajと類義語Wsajとに基づき、各述語Vaj間の類似性Faを算出する。
【0068】
述語Vap(j=p)と述語Vaq(j=q)との類似性Fapqの算出方法の例としては、意味分類CapとCaqが同一の分類になる分類階層と分類体系における最も大まかな分類階層までの階層差によって定量化する方法がある。例えば、大分類(1層目)、中分類(2層目)、小分類(3層目)、細分類(4層目)の4階層からなる分類体系を持つシソーラスで意味分類CapとCaqが小分類で一致した場合は、1層目と3層目の差分として「2」が類似性の指標となる。
【0069】
また、述語Vapと述語Vaqとの類似性Fapqをより定量的に算出する例としては、同義語Weap、Weaqと類義語Wsap、Wsaqとに基づき、同義語の重複率Repq、類義語の重複率Rspqを算出し、別に同義語重み付け係数αeと類義語重み付け係数αsを(αe+αs=1、αe≧αs)任意に設定し、それぞれ重み付けした和(αe×Repq+αs×Rspq)によって定量化する方法がある。例として、
図6に、単語セット群Ga{Sa=「制御システム」、Va=「行う」、「実施」、「稼働」、「使う」、「開発」、「構築」、「修正」、「追加」、「加熱」、「・・・」、「・・・」}として、算出した類似性Faの一部を示した。
【0070】
さらに要求文書解析システムYは、単語セット群Ga{Sa、Vaj}毎に、各述語Vaj間の類似性Faに基づき、類似する各述語Vaj同士をまとめるクラスタリングを行うことで各述語Vajを分類し、デンドログラムHaを作成する。
【0071】
デンドログラムHaは、各述語Vajを初期のクラスタと見なし、類似性Faの逆数を各クラスタ(述語Vaj)間距離として、最もクラスタ間距離が近いクラスタ同士を新しいクラスタとし、さらに新しい全てのクラスタ間の距離を求め、最も近い2つを結合して新しくクラスタを作るという処理を繰り返し、全てのクラスタが一つのクラスタに結合されるまで繰り返すことで作成する。
図7は、
図6の類似性Faに基づき、デンドログラムを用いて、クラスタリングして得られたデンドログラムHaの例を示す。
【0072】
さらに要求文書解析システムYは、単語セット群Ga{Sa、Vaj}毎に、デンドログラムHaにおける各クラスタ間の距離に基づき、述語Vajのクラスタ間の距離が任意に設定した閾値Nより遠い分類となるクラスタ同士で帰属する述語数が多い側を主流クラスタ、帰属する述語数が少ない側を非主流クラスタとして、非主流クラスタに属する述語Vaxを抽出し、主語Saとの組み合わせを曖昧ポイントAa{Sa、Vax}として抽出する。
【0073】
図7の例でクラスタ間の距離の閾値を5以上とすると、
図8の様に「加熱」が属するクラスタとそれ以外の全ての述語が属するクラスタとに分類され、帰属する述語の少ない「加熱」が属するクラスタが非主流クラスタとなるため、Vaxは「加熱」となり、曖昧ポイントAa{Sa=「制御システム」、Vax=「加熱」}となる。
【0074】
さらに要求文書解析システムYは、主語Sa毎に抽出した曖昧ポイントAa{Sa、Vax}について、要求文書Dで該当する曖昧ポイントAa{Sa、Vax}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。また曖昧ポイントAa{Sa、Vax}を含む文内に主流クラスタに含まれた述語Vamが有る場合は、別の係り受け候補として、述語Vamも色分けもしくは太字による強調などの加工を行っても良い。
【実施例2】
【0075】
次に、
図9を参照して、具体的な第2の実施例を用いて、本発明の第2の実施形態に係る要求文書分析システム100Aの動作を説明する。
【0076】
本第2の実施例では、要求文書分析システム100Aは、
図9に示されるように、要求文書解析システムYaと、インターネット・サーバZとで構成されるものとする。
【0077】
要求文書解析システムYaは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントAの提示を実現する。
【0078】
インターネット・サーバZは、通信ネットワークを介して要求文書解析システムYaを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、要求文書解析システムYaからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。
【0079】
本第2の実施例では、第1の実施例の動作に加え、要求文書解析システムYaが基軸単語汎用度算出部25を含む。
【0080】
すなわち、
図9と
図3との対応関係は次のように成る。
【0081】
単語セット抽出部10と、基軸単語抽出部20と、基軸単語汎用度算出部25と、単語類似性算出部30と、単語分類部40と、曖昧ポイント抽出部50とは、要求文書解析システムYa内に含まれている。曖昧ポイント出力部60は、PC端末の出力部として動作する。単語類似性データベース110はインターネット・サーバZ内に含まれている。
【0082】
この様な構成を含めた要求文書解析システムYaは、上述した第1の実施例に対して、以下のような動作を加える。
【0083】
要求文書解析システムYaは、基軸単語とした各主語Siについて、Web検索を実施し、Web上で公開されている文書群における各主語Siの出現頻度を抽出する。また、要求文書解析システムYaは、国語辞典により各主語Siの語彙数を算出し、それらを掛け合わせた値を、各主語Siの汎用性を表す汎用度Jiとして算出する。
【0084】
さらに、要求文書解析システムYaは、単語セット群Ga{Sa、Vaj}毎に、主語Saの汎用度Jaに基づき、述語Vajを主流クラスタと非主流クラスタとに分類する際に設定する閾値Naを算出する。
【0085】
閾値Naの算出方法としては、過去の事例から様々な主語Sについて算出された汎用度Jおよび述語Vの非主流クラスタの分類に用いたクラスタ間距離の適性値を集計し、その集計結果を
図10の様に単語の汎用度Jを横軸、適正なクラスタ間距離を縦軸としてマッピングし、単語の汎用度Jを説明変数、適正なクラスタ間距離を目的変数とした回帰分析を行い、得られた回帰式に汎用度Jaを代入することで得られる適正なクラスタ間距離を閾値Naとする方法が適当である。
【0086】
以下に、本発明の態様について説明する。
【0087】
本発明の第1の態様による要求文書分析システムは、要求文書を分析するシステムであって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と;単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と;この単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と;曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と;を備える。
【0088】
上記本発明の第1の態様による要求文書分析システムは、上記基軸単語抽出部で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出部を更に備えてよい。この場合、上記曖昧ポイント抽出部は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【0089】
上記要求文書分析システムにおいて、上記基軸単語汎用度算出部は、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出部は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【0090】
上記要求文書分析システムにおいて、上記基軸単語抽出部は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出部は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出部は、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出部は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【0091】
上記要求文書分析システムにおいて、上記曖昧ポイント出力部は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力部は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【0092】
本発明の第2の態様による要求文書分析方法は、要求文書を分析する方法であって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出ステップと;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出ステップと;単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させるステップと;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出ステップと;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類ステップと;この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出ステップと;この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力ステップと;を含む。
【0093】
上記本発明の第2の態様による要求文書分析方法は、上記基軸単語抽出ステップで抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出ステップを更に含んでよい。この場合、上記曖昧ポイント抽出ステップは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【0094】
上記要求文書分析方法において、上記基軸単語汎用度算出ステップは、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出ステップは、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【0095】
上記要求文書分析方法において、上記基軸単語抽出ステップは、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出ステップは、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出ステップは、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出ステップは、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【0096】
上記要求文書分析方法において、上記曖昧ポイント出力ステップは、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力ステップは、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【0097】
上記本発明の第3の態様による要求文書分析プログラムは、コンピュータに要求文書を分析せる要求文書分析プログラムであって、上記コンピュータに、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出手順と;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出手順と;単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させる手順と;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出手順と;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類手順と;この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出手順と;この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力手順と;を実行させる。
【0098】
上記本発明の第3の態様による要求文書分析プログラムは、上記コンピュータに、上記基軸単語抽出手順で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出手順を更に実行させてよい。この場合、上記曖昧ポイント抽出手順は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【0099】
上記要求文書分析プログラムにおいて、上記基軸単語汎用度算出手順は、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出手順は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【0100】
上記要求文書分析プログラムにおいて、上記基軸単語抽出手順は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出手順は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出手順は、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出手順は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【0101】
上記要求文書分析プログラムにおいて、上記曖昧ポイント出力手順は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力手順は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【0102】
以上、実施形態(及び実施例)を参照して本発明を説明したが、本発明は上記実施形態(及び実施例)に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。