【文献】
阿部直人 他,ウェブ検索を利用したテキストセグメンテーション法,電子情報通信学会 第18回データ工学ワークショップ論文集,日本,電子情報通信学会データ工学研究専門委員会,2007年 6月 1日,DEWS2007 B8-1,[online]URL:http://www.ieice.org/iss/de/DEWS/DEWS2007/pdf/b8-1.pdf
【文献】
阿部 直人 他,ウェブ検索を利用したブログテキストセグメンテーション法,電子情報通信学会 第19回データ工学ワークショップ論文集DEWS2008,日本,電子情報通信学会データ工学研究専門委員会,2008年 4月 7日,B4-5,[online],URL:http://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/files/b4/b4-5.pdf
(58)【調査した分野】(Int.Cl.,DB名)
請求項8に記載の知識抽出方法であって、前記左及び/又は右拡張用の文数閾値を設定するステップにおいて、前記初期文集合の左及び右拡張の両方のケースにおいては、前記左拡張文数閾値Lは、6に設定され、且つ、前記右拡張文数閾値Rは、6に設定され、前記初期文集合の左拡張のみのケースにおいては、前記左拡張文数閾値Lは、12に設定され、且つ、前記右拡張文数閾値Rは、0に設定され、前記初期文集合の右拡張のみのケースにおいては、左拡張文数閾値Lは、0に設定され、且つ、前記右拡張文数閾値Rは、12に設定されることを特徴とする知識抽出方法。
請求項16の記載の知識抽出システムであって、前記初期文集合の左及び右拡張の両方を実行するケースにおいては、前記閾値設定サブユニット(226)は、前記左拡張文数閾値Lを6に設定し、且つ、前記右拡張文数閾値Rを6に設定し、前記初期文集合の左拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを12に設定し、且つ、前記右拡張文数閾値Rを0に設定し、前記初期文集合の右拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを0に設定し、且つ、前記右拡張文数閾値Rを12に設定することを特徴とする知識抽出システム。
【発明を実施するための形態】
【0018】
1 初期文集合取得モジュール、2 初期文集合拡張モジュール、3 知識抽出モジュール、4 プロパティセットモジュール、11 文分割ユニット、12 抽出ユニット、21 重み閾値設定ユニット、22 文集合拡張ユニット、31 最終文集合重複除外及び出力ユニット、32 最終文集合除去及び出力ユニット、33 最終文集合ソート及び出力ユニット、211 比較結果判定サブユニット、211a 冗長値設定装置、212 重み閾値判定サブユニット、212a 閾値調節係数設定装置、212b プロパティ重み密度取得装置、212c 重み閾値取得装置、221 初期文集合選択サブユニット、222 文重み取得サブユニット、222a 第1重み取得装置、222b 第2重み取得装置、223 比較サブユニット、224 新しい文集合取得サブユニット、225 ループ拡張サブユニット、226 閾値設定サブユニット、227a 第1カウントサブユニット、227b 第2カウントサブユニット、228a 文集合重み取得サブユニット、228b 文集合長さ取得サブユニット、228c 重み密度取得サブユニット
【0019】
実施形態1
本実施形態においては、
図1に示すように、知識抽出法について説明するが、方法は、
S102:初期文集合を取得するステップであって、初期文集合は、1つ又は複数の文を含む、ステップと、
S104:初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定する、ステップと、
S106:知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
【0020】
本実施形態においては、知識抽出は、1つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定するステップと、を通じて実現されている。文集合は、連続した文によって形成されることから、初期文集合を拡張するステップを通じて取得される最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。
【0021】
好適な一実施形態として、本実施形態の知識抽出方法においては、初期文集合を取得するステップは、テキストを文に分割するステップと、I個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Iは、1以上の整数である。好適な一実施形態においては、I=3である。
【0022】
本実施形態においては、テキストを文に分割し、3つの連続した文によって初期文集合を形成している。本実施形態においては、I=3であるときに、抽出されたそれぞれの最終文集合が少なくとも3つの文を含むことが保証されることにより、相対的に良好な出力結果が得られる。本実施形態においては、初期文集合自体が良好な論理的関係を有するように、3つの連続した文をテキストから引き出して初期文集合を形成しており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有し、意外な印象が生じることを抑制しうる。
【0023】
本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、重み閾値を設定するステップであって、初期文集合の長さを予想長さと比較した結果に従って、重み閾値が初期文集合について設定される、ステップと、文集合を拡張するステップであって、拡張するべき文の重みが重み閾値と比較される、ステップと、比較結果に従って初期文集合を拡張するステップと、を有する。
【0024】
別の代替実施形態として、本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、初期文集合の長さと予想長さとを比較するステップと、初期文集合の長さが予想長さに到達していない場合に、初期文集合を拡張するステップと、初期文集合の長さが予想長さに到達しているか又はそれを超過している場合に、拡張を終了するステップと、を有してもよい。
【0025】
本実施形態においては、初期文集合が拡張される方式とは無関係に、初期文集合の長さと予想長さの間の関係が考慮されており、これにより、最終的に抽出された文集合の長さは、予想長さに極めて近づくことになる。
【0026】
この実施形態における予想長さは、当業者にとってよく知られている。例えば、特許明細書の要約文の長さに300ワードを超過しないという制限が存在する。特許出願の要約文を形成するためにテキストから関連する文を抽出するケースにおいては、予想長さは、300ワードである。予想長さに対する特定の要件が存在しない場合には、予想長さは、実質的な要件に基づいて選択されてもよい。
【0027】
本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、すべて、文字の数がカウントされる。
【0028】
実施形態2
実施形態1に基づいて、
図2に示す本実施形態の知識抽出方法においては、重み閾値を設定するステップは、比較結果Fを判定するステップであって、初期文集合の長さを予想長さと比較した結果F=予想長さ/(初期文集合の長さ+冗長値)を判定するステップと、重み閾値を判定するステップであって、Fが1以上であるときの重み閾値、Fが1未満であるときの重み閾値であって、一実施形態において、重み閾値を判定するステップで、Fが1以上であるときは、重み閾値=(K/F)/Gであり、Fが1未満であるときは、重み閾値=(K/F)*Gであり、ここで、Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度であり、任意の選択として、閾値調節係数Gは、5≦G≦30である、ステップと、を有する。
【0029】
本実施形態においては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定され、ここで、比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、重み閾値は、比較結果Fの関数として設定され、Fが1以上であるときは、重み閾値=(K/F)/Gであり、Fが1未満であるときは、重み閾値=(K/F)*Gである。従って、比較結果Fが小さいほど、即ち、初期文集合の長さが、予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は、大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際の状況に基づいて動的に調節されうる基準を提供している。
【0030】
好適な一実施形態として、閾値調節係数Gは、5≦G≦30の範囲である。知識抽出の最良の効果は、閾値調節係数Gがこの範囲に設定されたときに、得られうることが実験によって実証されている。
【0031】
一代替実施形態として、本実施形態の知識抽出方法は、プロパティの組を判定するステップであって、プロパティの組は、N個のプロパティパラメータα
iと、プロパティパラメータα
iに対応した重みv
iと、を含み、ここで、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、ステップと、プロパティ重み密度を取得するステップであって、プロパティ重み密度Kは、式K=Σv
i/Nを使用して取得される、ステップと、を更に有する。
【0032】
プロパティパラメータα
iのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータα
iが文中に含まれているかどうかを判定するステップは、文が、プロパティパラメータα
iを表す文字ストリングを含んでいるかどうかを判定するものである。プロパティパラメータα
iに対応した重みv
iは、プロパティパラメータα
iの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータα
iが重要であるほど、対応した重みv
iには、より大きな値が割り当てられ、且つ、逆もまた同様である。
【0033】
また、式K=Σv
i/Nに加えて、プロパティ重み密度Kは、実質的な要件に従って、ユーザーにより規定されてもよい。
【0034】
実施形態3
実施形態1及び実施形態2に基づいて、
図2に示す本実施形態の知識抽出方法において、文集合拡張のステップは、初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータα
i及び対応した重みv
iに従って左文の重み及び右文の重みを取得し、これにより、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rを取得するステップと、初期文集合を左拡張及び/又は右拡張するステップであって、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが、重み閾値以上である場合に、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張が実行されない、ステップと、最終文集合を取得するステップであって、新しい文集合が初期文集合として使用され、且つ、最終文集合を取得するために、初期文集合がもはや拡張されえない時点まで、左文の重み及び右文の重みを取得するステップ及び初期文集合を左拡張及び/又は右拡張するステップが反復される、ステップと、ループ拡張ステップであって、すべての最終文集合を取得するために、それぞれの初期文集合が、初期文集合を選択するステップから最終文集合を取得するステップまでを通じて拡張される、ステップと、を更に有する。
【0035】
本実施形態においては、初期文集合の拡張は、左拡張、右拡張、又は左−右拡張を有しており、この場合に、初期文集合の左拡張のケースにおいては、初期文集合に隣接した左文の重みW
Lを取得することのみが必要とされ、初期文集合に隣接した左文の重みW
Lが重み閾値以上である場合に、左文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の右拡張のケースにおいては、初期文集合に隣接した右文の重みW
Rを取得することのみが必要とされ、初期文集合に隣接した右文の重みW
Rが重み閾値以上である場合に、右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の左及び右拡張のケースにおいては、初期文集合と隣接した左文の重みW
L及び右文の重みW
Rを取得する必要があり、初期文集合に隣接した左文の重みW
Lが重み閾値を上回っている場合には、左文が初期文集合内に拡張され、初期文集合に隣接した右文の重みW
Rが重み閾値を上回っている場合には、右文が初期文集合内に拡張され、初期文集合の左拡張及び右拡張を通じて新しい文集合が取得され、初期文集合に隣接した左文の重みW
L及び初期文集合に隣接した右文の重みW
Rの両方が閾値未満である場合に、初期文集合に対して拡張は実行されない。ここで、左及び右拡張は、左拡張の後の右拡張、又は右拡張の後の左拡張、或いは、交互に左及び右拡張を有してもよい。
【0036】
本実施形態の知識抽出方法においては、左文の重み及び右文の重みを取得するステップにおいては、重みW
Lは、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータα
iに対応した重みv
iの合計であり、重みW
Rは、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータα
iに対応した重みv
iの合計である。
【0037】
左及び右文に対して実行された上述の判定の後に、例えば、左文は、プロパティパラメータα
1及びα
2を含み、左文の重みは、W
L=v
1+v
2であることが判定され、右文は、プロパティパラメータα
3及びα
4を含み、右文の重みは、W
R=v
3+v
4であると判定される。ここで、同一のプロパティα
iが複数回にわたって発生したときに、対応した重みv
iは、一回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティα
iは、プロパティα
iが発生した回数だけ、累算されてもよい。
【0038】
一代替解決策として、文重みを算出する代替方法は、Σβ
iv
iであり、ここで、β
iv
iは、文中において発生したプロパティα
iによって寄与される値であり、β
iは、プロパティα
iのフィールド特性重みである。プロパティα
iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。β
iが1であるときには、本実施形態において採用されている方式となる。この実施形態は、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rを取得する方法を提供するのみである。同一の方法が、すべての文重み値の算出の間中に使用されている限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。
【0039】
本実施形態の知識抽出方法において、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値は初期文集合について設定される。比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、且つ、重み閾値は、比較結果Fの関数として設定される。比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さにより極めて近づくほど、或いは、初期文集合の長さが予想な長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが閾値と比較され、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが、重み閾値以上である場合にのみ、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、これにより、左文の重みW
Lと右文の重みW
Rは、重み閾値よりも大きくなる傾向になり、これにより、左文及び/又は右文は、初期文集合内に拡張されやすくなり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び/又は右文は、多くのプロパティパラメータα
iを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。
【0040】
本実施形態の知識抽出方法において、比較結果Fを判定するステップで、初期文集合の左拡張のケースでは、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、初期文集合の右拡張のケースでは、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。
【0041】
実際的な用途において、左拡張では、冗長値は、初期文集合に隣接した左文の長さのm倍の値として選択されてもよく、右拡張では、冗長値は、初期文集合に隣接した右文の長さのm倍の値として選択されてもよく、好ましくは、mは、1未満の値である。mが0.5であるときには、本実施形態において提供される方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくことになろう。
【0042】
実施形態4
実施形態1〜実施形態3のいずれかに基づいて、
図2に示すように、本実施形態の知識抽出方法においては、文集合拡張のステップは、左及び/又は右拡張用の文数閾値を設定するステップであって、左拡張文数閾値は、Lであり、且つ、右拡張文数閾値は、Rである、ステップ、を更に有する。
【0043】
初期文集合を左拡張及び/又は右拡張して最終文集合を取得するステップにおいては、初期文集合の左拡張用の文の数が左拡張文数閾値Lを上回っているときには、初期文集合に対してもはや左拡張は実行されず、初期文集合の右拡張用の文の数が、右拡張文数閾値Rを上回っている場合には、初期文集合に対してもはや右拡張は実行されない。
【0044】
図2は、本発明の一実施形態による初期文集合を左拡張するステップのフローチャートに過ぎない。但し、本発明による初期文集合を左拡張するいくつかのステップの実行シーケンスは、
図2に示すものに限定されない。プロパティの組を判定するステップ、プロパティ重み密度を判定するステップ、閾値調節係数Gを設定するステップ、初期文集合の長さと予想長さの間における比較結果を判定するステップなど、いくつかのパラメータを取得及び設定するステップは、ループプロセスの前に実行されてもよく、或いは、ループプロセスにおける初期文集合の拡張の前に実行されてもよい。
【0045】
初期文集合の左及び/又は右拡張用の文の数を制限するステップを通じて、初期文集合の左及び/又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出された文集合のチェック及び理解を容易なものにしてもよい。
【0046】
好適な一実施形態として、本実施形態の知識抽出方法において左及び/又は右拡張用の文数閾値を設定するステップにおいて、初期文集合を左及び右拡張するケースでは、左拡張文数閾値Lは、6に設定され、且つ、右拡張文数閾値Rは、6に設定され、初期文集合の左拡張のみを実行するケースでは、左拡張文数閾値は、12に設定され、且つ、右拡張文数閾値Rは、0に設定され、初期文集合の右拡張のみを実行するケースでは、左拡張文数閾値Lは、0に設定され、且つ、右拡張文数閾値Rは、12に設定される。
【0047】
左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文一貫性のみならず、最終文集合の長さ制御の観点において、最良の効果が取得されうることが実験によって実証されている。
【0048】
実施形態5
実施形態1〜実施形態4のいずれかに基づいて、本実施形態の知識抽出方法は、最終文集合重みを取得するステップであって、最終文集合重みは、最終文集合中に含まれているプロパティパラメータα
i及び対応した重みV
iに従って取得され、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα
iの対応した重みV
iの合計である、ステップと、最終文集合重み密度を取得するステップであって、最終文集合重み密度K’=最終文集合重み/最終文集合重みに応じた最終文集合の長さである、ステップと、を更に有する。
【0049】
なお、最終文集合重み密度K’の計算においては、最終文集合重み密度K’の計算において、同一の基準が、それぞれの最終文集合に採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意する。
【0050】
上述の判定から、例えば、最終文集合は、プロパティパラメータα
1、α
3、α
5を含み、重みV
1、V
3、V
5を合算するステップを通じて、重み=V
1+V
3+V
5が最終文集合について取得され、最終文集合の長さが300文字である場合には、最終文集合重み密度K’=(V
1+V
3+V
5)/300であると判定される。最終文集合中の1つの文又は様々な文が、複数のプロパティパラメータα
iを含む場合には、その対応した重みは、一度だけ又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータα
iは、その対応した重みV
iが発生する回数だけ加算されうる。
【0051】
或いは、この代わりに文集合重み計算の代替方式は、Σβ
iv
iであり、ここで、β
iv
iは、文集合中の文中に存在するプロパティα
iによって寄与される値であり、β
iは、プロパティα
iのフィールド特性重みである。プロパティα
iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβ
iが1であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文の重みを算出するべく使用される限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。
【0052】
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を重複除外及び出力するステップであって、最終文集合が、重複除外され、且つ、次いで、出力される、ステップを更に有する。
【0053】
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を除去及び出力するステップであって、最小長さが最終文集合について設定され、且つ、最小長さ未満の長さを有する最終文集合が除去される、ステップを更に有する。
【0054】
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合をソート及び出力するステップであって、最終文集合が、それぞれの最終文集合の重み密度K’に従ってソートされ、且つ、次いで、出力される、ステップを更に有する。
【0055】
本実施形態の知識抽出方法によれば、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツを読み取るステップに起因した時間の浪費が防止されうるように、重複した知識情報の出力が回避され、最終文集合用の最小長さを設定するステップ及び最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれることにより、ユーザーによる問合せの要件が充足され、それぞれの最終文集合の重み密度K’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度K’により、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せの時間が低減されうるように、望ましい知識情報を取得するべく最初の少ない数の最終文集合を読み取ることのみが必要とされる。
【0056】
知識抽出の具体例が、以下のテキストにとともに、本実施形態において更に提供される。
【表1】
【0058】
上記のプロパティの組内には、合計で68個のプロパティが存在している。これらのプロパティに対応した重みの合計は、1であり、従って、プロパティ重み密度K=1/68=0.1470588である。
【0059】
上記のテキストは、ピリオド、疑問符、及び感嘆符などの完全な文を表す句読法に基づいてセグメント化され、且つ、セグメント化の後に、合計で40個の文が得られる。以下の説明をわかりやすくするべく、それぞれの文ごとに、ラベルが提供される。本実施形態において、これら40個の文は、J1〜J40としてラベル付与される。これらのラベルは、この技術的解決策の理解を容易にする目的で提供される。実際的なシステムの動作において、これらのラベルは、テキスト中に実際には存在しない。
【0060】
初期文集合は、任意の3つの連続した文によって形成され、且つ、このような方式で取得された初期文集合が、以下の表に示される。
【0062】
上述の初期文集合が取得された後に、拡張が、それぞれの初期文集合について実行される。以下に、知識抽出のプロセスにおいて文集合を拡張する方法を説明するべく、3つの文J5〜J7という初期文集合を例として取り上げる。
【0063】
この文集合拡張のプロセスにおいて、予想文集合長さは、300に設定される。文集合の左拡張では、冗長値は、左隣接文の半分に設定され、且つ、L=6であり、文集合の右拡張では、冗長値は、右隣接文の半分に設定され、且つ、R=6である。文集合の左拡張及び右拡張の両方において、右拡張の前の左拡張について説明を付与することとする。或いは、この代わりに、左拡張の前の右拡張も可能であり、或いは、左拡張及び右拡張は、交互に実行されてもよい。
【0064】
文集合のパラメータ及び文集合に隣接した左文が以下のように取得される。
【0065】
文集合中に含まれる文字(空白を除外する)をカウントされたJ5〜J7の文集合の長さは、155であり、この基準は、文字をカウントするべく、本実施形態の全体を通じて使用される。文集合に隣接した左文は、J4であり、且つ、J4の長さは、23であり、プロパティ「秦国」及び
【数1】
を含む。これにより、J4の重みは、「秦国」に対応した重み0.045021438780371605と
【数2】
に対応した重み0.115054787994283との合計であり、これは、0.160076226774654605である。
【0066】
重み閾値は、以下のように取得される。閾値調節係数Gを20に設定し、初期文集合の長さ及び予想長さに従って、F=300/(155+23/2)=1.801が取得され、F>1であることから、重み閾値は、(K/F)/G=0.004069142として選択され、J4の重みは、重み閾値を上回っており、且つ、左拡張された文の数は、6未満であることから、J4を文集合内に拡張して新しい文集合J4〜J7を形成してもよい。
【0067】
新しい文集合J4〜J7を初期文集合として取得しつつ、左拡張が継続する。新しい文集合の長さは、155+23=178であり、初期文集合に隣接した左文は、J3であり、その長さは、41であり、これは、プロパティ「割据」及び
【数3】
を含む。これにより、初期文集合の重みは、これら2つのプロパティに対応した重みの合計0.01643639828489757+0.115054787994283=0.13149118627918057であり、F=300/(178+41/2)=1.51133501である。
【0068】
F>1であることから、重み閾値は、(K/F)/G=0.0048774502として選択される。
【0069】
J3の重みが重み閾値を上回っており、且つ、左拡張された文の数が6未満であることから、J3を文集合内に拡張して新しい文集合J3〜J7を形成してもよい。
【0070】
同様に、上述のステップを通じて、判定が、同様のステップにおいて、J2及びJ1に対して順番に実行されるが、これについては、詳細説明を省略することとする。これらの判定の後に、J2及びJ1の両方が、文集合内に拡張される基準を充足していると判定される。但し、J1は、左側の最初の文であることから、文集合の左拡張は、J1が左拡張されたときに、自動的に終了し、且つ、左拡張の後に、新しい初期文集合J1〜J7が取得される。
【0071】
右拡張が初期文集合J1〜J7に対して実行される。初期文集合の長さは、267であり、且つ、初期文集合に隣接した右文は、J8である。J8の長さは、64であり、且つ、これは、プロパティ「秦王」、
【数4】
及び「皇帝」を含み、ここで、「皇帝」は、2回出現しており、これにより、J8の重みは、以下のように、「秦王」の重み、
【数5】
の重み、及び「皇帝」の重みの合計を2によって乗算したもの0.02763220581229150+0.11505478799428300+0.06955693187232010*2=0.2818008575512147である。
【0072】
F=300/(267+64/2)=1.0033444816である。
【0073】
F>1であることから、重み閾値(K/F)/G=0.0073284302が選択される。
【0074】
J8の重みは、重み閾値を上回っており、且つ、右拡張された文の数は、6未満であることから、J8を初期文集合内に拡張して新しい文集合J1〜J8を形成する。
【0075】
文集合J1〜J8を新しい初期文集合として取得しつつ、右拡張が継続する。
【0076】
初期文集合の長さは、331であり、且つ、初期文集合に隣接した右文は、J9である。J9の長さは、38であり、且つ、これは、プロパティ
【数6】
及び
【数7】
を含む。これにより、その重みは、0.11505478799428300+0.02096236303001420=0.1360171510242972として算出される。
【0077】
F=300/(329+38/2)=0.857142857である。
【0078】
F<1であり、重み閾値(K/F)*G=3.431372が選択される。
【0079】
右拡張された文の数は、6未満であるが、J9の重みが重み閾値未満であることから、J9は、文集合内に拡張されることができず、且つ、文集合拡張は、終了する。従って、文集合の長さが予想長さを上回っている場合には、重み閾値は、非常に大きくなり、その結果、中程度の重みを有する文の文集合内への拡張が困難になる。
【0080】
類似の方法において、拡張が、その他の初期文集合に基づいて実行される。当業者には、全体文書中のすべての初期文集合が、上述のプロセスに従って拡張されてもよく、これに関する本明細書における更なる説明は、省略することとする。
【0081】
すべての最終文集合が取得された後に、重複する文集合が除去され、且つ、文集合は、その重み密度に従ってソートされる。重み密度K’=最終文集合の重み/最終文集合の長さであり、最終文集合の長さは、最終文集合中に含まれている文字の数であり、最終文集合の重みは、最終文集合中の様々な文の重みの合計である。ここで、それぞれの文の重みは、上述の方法によって、即ち、文内に出現したすべてのプロパティの重みを合算するステップを通じて、算出される。
【0082】
上述の入力テキストとの関係において、20個の最終文集合が取得され、これらは、重み密度によってソートされ、且つ、J1−J8、J3−J9、J6−J10、J7−J11、J2−J8、J7−J12、J8−J13、J22−J26、J26−J30、J15−J19、J14−J18、J22−J27、J15−J20、J29−J34、J34−J40、J13−J17、J33−J40、J16−J22、J12−J17、J17−J22として出力される。
【0083】
実施形態6
本実施形態は、
図3に示す知識抽出システムを提供し、システムは、初期文集合を取得する初期文集合取得モジュール1であって、文集合は、1つ又は複数の文を含む、モジュールと、初期文集合取得モジュール1によって取得された初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュール2と、初期文集合拡張モジュール2によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール3と、を含む。
【0084】
この実施形態においては、知識抽出は、初期文集合取得モジュール1によって1つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合拡張モジュール2によって初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定するステップと、を通じて実現されており、文集合は、連続した文によって形成されていることから、初期文集合を拡張するステップを通じて取得された最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。
【0085】
好適な一実施形態として、本実施形態の知識抽出方法において、初期文集合を取得するステップは、テキストを文に分割するステップと、I個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Iは、1以上の整数である。好適な一実施形態として、I=3である。
【0086】
本実施形態において、
図4に示す本実施形態の知識抽出システムで、初期文集合取得モジュール1は、文書を文に分割する文分割ユニット11と、文の全体を通じてI個の連続した文によって初期文集合を構築する抽出ユニット12と、を有し、ここで、Iは、1以上の整数である。好適な一実施形態として、抽出ユニット12は、文書の全体を通じて3つの連続した文によって初期文集合を構築している。
【0087】
本実施形態においては、テキスト文書は、3つの連続した文の初期文集合を形成するべく、文分割ユニット11によって文に分割されている。本実施形態においては、相対的に良好な出力結果は、I=3であるときに、抽出されたそれぞれの最終文集合が少なくとも3つの文を含むことが保証されることにより、得られる。本実施形態においては、3つの連続した文は、初期文集合自体が良好な論理的関係を有するように初期文集合を形成するべく、テキストから引き出されており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有しており、意外な印象が生じることを抑制しうる。
【0088】
本実施形態の知識抽出システムにおいては、初期文集合拡張モジュール2は、予想長さとの間における初期文集合の長さの比較の結果に従って、初期文集合用の重み閾値を設定する重み閾値設定ユニット21と、初期文集合の拡張において、拡張するべき文の重みを重み閾値と比較すると共に比較結果に従って初期文集合を拡張する文集合拡張ユニット22と、を有する。
【0089】
本実施形態においては、初期文集合の長さと予想長さの間における関係が考慮されており、その結果、抽出された最終文集合の長さは、予想長さに極めて近づくことになる。
【0090】
本実施形態における予想長さは、当業者には馴染み深いものである。例えば、300ワードを超過しないという特許明細書の要約文の長さに対する制限が存在している。特許出願の要約文を形成するべくテキストから関連する文を抽出するケースにおいては、予想長さは、300ワードである。予想長さに関する特定の要件が存在していない場合には、予想長さは、実際的な要件に基づいて選択されうる。
【0091】
本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、いずれも、文字の数を単位としてカウントされる。
【0092】
実施形態7
実施形態6に基づいて、
図4に示す本実施形態の知識抽出システムにおいては、重み閾値設定ユニット21は、予想長さとの間における初期文集合の長さの比較の結果Fを判定する比較結果判定サブユニット211であって、F=予想長さ/(初期文集合の長さ+冗長値)である、サブユニットと、重み閾値を判定する重み閾値判定サブユニット212であって、Fが1以上であるときの重み閾値は、Fが1未満であるときの重み閾値未満である、サブユニットと、を有する。
【0093】
本実施形態の知識抽出システムにおいては、重み閾値判定サブユニット212は、閾値調節係数Gを設定及び出力する閾値調節係数設定装置212aであって、Gは、1を上回る値である、装置と、プロパティ重み密度Kを取得及び出力するプロパティ重み密度取得装置212bと、閾値調節係数設定装置212a、プロパティ重み密度取得装置212b、及び比較結果判定ユニット211の出力に従って重み閾値を取得及び出力する重み閾値取得装置212cと、を有し、Fが1以上であるときには、重み閾値=(K/F)/Gであり、Fが1未満であるときには、重み閾値=(K/F)*Gであり、ここで、Gは、閾値調節係数であり、Gは、1を上回る値であり、Kは、プロパティ重み密度である。
【0094】
本実施形態においては、重み閾値設定ユニット21は、初期文集合の長さと予想長さの間の比較の結果に従って重み閾値を設定し、比較結果判定サブユニット211は、比較結果F=予想長さ/(初期文集合の長さ+冗長値)を判定し、重み閾値取得装置212cは、Fが1以上であるときには、重み閾値=(K/F)/Gを判定し、且つ、Fが1未満であるときには、重み閾値=(K/F)*Gを判定する。従って、比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過しているほど、重み閾値は大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間の比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際的な状況に基づいて動的に調節されうる基準を提供している。
【0095】
好適な一実施形態として、本実施形態の知識抽出システムにおいて、閾値調節係数設定装置212aは、5≦G≦30という範囲において閾値調節係数Gを設定している。閾値調節係数Gが、この範囲に設定されたときに、知識抽出の最良の効果が得られうることが実験によって実証されている。
【0096】
一代替実施形態として、本実施形態の知識抽出システムは、N個のプロパティパラメータα
i及びプロパティパラメータα
iに対応した重みv
iを含むプロパティの組を保存するプロパティセットモジュール4であって、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、モジュール、を更に有し、プロパティ重み密度取得ユニット212bは、式K=Σv
i/Nを使用してプロパティ重み密度Kを取得する。
【0097】
プロパティパラメータα
iのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータα
iが文中に含まれているかどうかを判定するステップは、文がプロパティパラメータα
iを表す文字ストリングを含んでいるかどうかを判定するというものである。プロパティパラメータα
iに対応した重みv
iは、プロパティパラメータα
iの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータα
iが重要であるほど、対応した重みv
iには、より大きな値が割り当てられ、且つ、逆も又同様である。
【0098】
また、式K=Σv
i/Nに加えて、プロパティ重み密度Kは、実際的な要件に従って、ユーザーにより規定されてもよい。
【0099】
実施形態8
実施形態6又は実施形態7に基づいて、
図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、初期文集合取得モジュール1から拡張用の初期文集合を選択する初期文集合選択サブユニット221と、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータα
i及び対応した重みv
iに従って初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rを取得する文重み取得サブユニット222と、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rを重み閾値と比較する比較サブユニット223と、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力する新しい文集合取得サブユニット224であって、最終文集合は、知識抽出モジュール3に出力される、サブユニットと、新しい文集合取得サブユニット224が最終文集合を取得した後に、初期文集合取得モジュール1から拡張用の別の初期文集合を選択するように、初期文集合選択サブユニット221を制御するループ拡張サブユニット225と、を更に有する。
【0100】
本実施形態において、初期文集合の左拡張のみのケースにおいては、初期文集合に隣接した左文の重みW
Lが重み閾値以上である場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文を初期文集合に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
【0101】
初期文集合の右拡張のみのケースにおいては、初期文集合に隣接した右文の重みW
Rが重み閾値以上である場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
【0102】
初期文集合の左及び右拡張の両方のケースにおいては、初期文集合に隣接した左文の重みW
L及び初期文集合に隣接した右文の重みW
Rが重み閾値を上回っている場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左及び右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
【0103】
本実施形態の知識抽出システムにおいて、文重み取得サブユニット222は、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータα
iに対応した重みv
iを合算して左文の重みW
Lを取得する第1重み取得装置222aと、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータα
iに対応した重みv
iを合算して右文の重みW
Rを取得する第2重み取得装置222bと、を有し、上述の判定は、左及び右文に対して実行され、例えば、左文がプロパティパラメータα
1及びα
2を含むと判定された場合には、左文の重みは、W
L=v
1+v
2であり、右文がプロパティパラメータα
3及びα
4を含むと判定された場合に、右文の重みは、W
R=v
3+v
4である。ここで、同一のプロパティα
iが複数回にわたって発生したときには、対応した重みv
iは、1回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティα
iは、プロパティα
iが発生した回数にわたって累算されうる。
【0104】
一代替解決策として、文重みを算出する一代替方法は、Σβ
iv
iであり、ここで、β
iv
iは、文中において発生したプロパティα
iによって寄与される値であり、β
iは、プロパティα
iのフィールド特性重みである。プロパティα
iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。β
iが1であるときには、本実施形態において採用されている方式となる。本実施形態は、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rを取得する方法を提供するのみである。同一の方法が、すべての文重み値の計算の間中に使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。
【0105】
本実施形態の知識抽出システムにおいては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定される。比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、且つ、重み閾値は、比較結果Fの関数として設定される。比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さに近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みW
L及び右文の重みW
Rは、重み閾値と比較され、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが重み閾値以上である場合にのみ、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、その結果、左文の重みW
L及び右文の重みW
Rは、重み閾値よりも大きくなる傾向を有し、その結果、左文及び/又は右文は、初期文集合内に拡張される傾向を有することになり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び/又は右文は、多くのプロパティパラメータα
iを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。
【0106】
本実施形態の知識抽出システムにおいて、比較結果判定ユニット211は、冗長値を設定する冗長値設定装置221aを有しており、ここで、初期文集合の左拡張のケースにおいては、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、且つ、初期文集合の右拡張のケースにおいては、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。
【0107】
実際的な用途において、左拡張においては、冗長値は、初期文集合に隣接した左文の長さのm倍の値として選択されてもよく、右拡張においては、冗長値は、初期文集合に隣接した右文の長さのm倍の値として選択されてもよく、好ましくは、mは、1未満の値である。mが0.5であるときには、本実施形態において提供されている方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくであろう。
【0108】
実施形態9
実施形態6〜実施形態8のいずれかに基づいて、
図4に示すように、本実施形態の知識抽出システムにおいては、文集合拡張ユニット22は、初期文集合用の左拡張文数閾値L及び初期文集合用の右拡張文数閾値Rを設定する閾値設定サブユニット226と、初期文集合内に左拡張された文の数をカウント及び出力する第1カウントサブユニット227aと、初期文集合内に右拡張された文の数をカウント及び出力する第2カウントサブユニット227bと、を更に有し、比較サブユニット223は、初期文集合内に左拡張された文の数を左拡張文数閾値Lと比較すると共に初期文集合内に右拡張された文の数を右拡張文数閾値Rと比較するべく、更に使用され、新しい文集合取得サブユニット224は、初期文集合内に左拡張された文の数がL以下であると共に/又は、初期文集合内に右拡張された文の数がR以下である場合に、且つ、初期文集合に隣接した左文の重みW
L及び/又は右文の重みW
Rが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力するべく、更に使用され、最終文集合は、知識抽出モジュール3に出力される。
【0109】
初期文集合の左及び/又は右拡張の文の数の制限を通じて、初期文集合の左及び/又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出される文集合のチェック及び理解が容易になる。
【0110】
好適な一実施形態として、本実施形態の知識抽出システムにおいて、初期文集合の左及び右拡張の両方を実行するケースにおいては、左拡張文数閾値Lは、6に設定され、且つ、右拡張文数閾値Rは、6に設定され、初期文集合の左拡張のみを実行するケースにおいては、左拡張文数閾値Lは、12に設定され、且つ、右拡張文数閾値Rは、0に設定され、初期文集合の右拡張のみを実行するケースにおいては、左拡張文数閾値Lは、0に設定され、且つ、右拡張文数閾値Rは、12に設定される。
【0111】
実験によって実証されているように、左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文の一貫性のみならず、最終文集合の長さの制御の観点においても、最良の効果が得られうる。
【0112】
実施形態10
実施形態6〜実施形態9のいずれかに基づいて、
図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、最終文集合中に含まれているプロパティパラメータα
i及び対応した重みV
iに従って最終文集合重みを取得する文集合重み取得サブユニット228aであって、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα
iの対応した重みV
iの合計である、サブユニットと、最終文集合の長さを取得する文集合長さ取得サブユニット228bと、最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット228aであって、最終文集合重み密度K’=最終文集合重み/最終文集合の長さである、サブユニットと、を更に有する。
【0113】
なお、最終文集合重み密度K’の計算においては、同一の基準が、最終文集合重み密度K’の計算においてそれぞれの最終文集合について採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意されたい。
【0114】
上述の判定から、例えば、最終文集合は、プロパティパラメータα
1、α
3、α
5を含み、重みV
1、V
3、V
5を合算するステップを通じて、重み=V
1+V
3+V
5が最終文集合について取得され、最終文集合の長さが300文字である場合に、最終文集合重み密度K’=(V
1+V
3+V
5)/300であると判定される。最終文集合中の1つの文又は様々な文が複数のプロパティパラメータα
iを含む場合には、その対応した重みは、一回又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータα
iは、その対応した重みV
iが発生する回数にわたって加算されうる。
【0115】
或いは、この代わりに、文集合重み計算の一代替方式は、Σβ
iv
iであり、ここで、β
iv
iは、文集合中の文中に存在しているプロパティα
iによって寄与される値であり、β
iは、プロパティα
iのフィールド特性重みである。プロパティα
iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβ
iが1であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文用の重みを算出するべく使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。
【0116】
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合を重複除外し、且つ、次いで、最終文集合を出力する最終文集合重複除外及び出力ユニット31、を有する。
【0117】
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去した後に、最終文集合を出力する最終文集合除去及び出力ユニット32、を更に有する。
【0118】
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合をソート及び出力する最終文集合ソート及び出力ユニット33であって、最終文集合が、それぞれの最終文集合の重み密度K’に従ってソートされ、且つ、次いで、出力される、ユニット、を更に有する。
【0119】
本実施形態の知識抽出システムにおいては、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツの読取りに起因した時間の浪費が防止されうるように、最終文集合重複除外及び出力ユニット31により、取得された最終文集合のすべてを重複除外することにより、重複した知識情報の出力が回避されており、最終文集合除去及び出力ユニット32によって最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれ、これにより、ユーザーによる問合せの要件が充足され、最終文集合ソート及び出力ユニット33により、それぞれの最終文集合の重み密度K’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度Kに従って、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せのための時間が低減されうるように、望ましい知識情報を取得するべく、最初の少ない数の最終文集合を読み取ることのみが必要とされる。
【0120】
また、本開示は、コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体を提供し、方法は、初期文集合を取得するステップであって、文集合は、1つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
【0121】
当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムのプロダクトとして提供することができることを理解すべきである。従って、本出願は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態、又はソフトウェアとハードウェアを組み合わせた実施形態の形態を使用することができる。更には、本出願は、コンピュータによって実行可能なプログラミングコードを有する1つ又は複数の記憶媒体(限定を伴うことなしに、ディスクメモリ、CD−ROM、光メモリなどを含む)上において実行されるコンピュータプログラムプロダクトの形態を使用することもできる。
【0122】
本出願は、本発明の実施形態による方法、機器(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロックダイアグラムを参照して記述されている。フローチャート及び/又はブロックダイアグラム中のそれぞれのフロー及び/又はブロックのみならず、フローチャート及び/又はブロックダイアグラム中のフロー及び/又はブロックの組合せは、コンピュータプログラム命令を通じて実現可能であることを理解されたい。このようなコンピュータプログラム命令は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現する装置が、コンピュータ又はプログラム可能なデータ処理機器の任意のその他のプロセッサによって実行される命令によって生成されるように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、組込み型プロセッサ、又はプログラム可能なデータ処理機器の任意のその他のプロセッサに提供されることができる。
【0123】
また、このようなコンピュータプログラム命令は、コンピュータの可読メモリ内において保存されたコマンドがコマンド装置のプロダクトを生成するように、特定のスタイルにおける動作にコンピュータ又はその他のプログラム可能なデータ処理機器を導きうるコンピュータの可読メモリ内に保存可能であり、このような命令装置は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つ又は複数のブロック内に規定されている機能を実現することができる。
【0124】
また、このようなコンピュータプログラム命令は、コンピュータ又はその他のプログラム機器によって実行される命令が、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現するように、コンピュータ又はその他のプログラム可能な機器上において一連の動作ステップを実行してコンピュータによって実現されるプロセスを生成するように、コンピュータ又はその他のプログラム可能なデータ処理機器上に読み込むこともできる。
【0125】
以上、本出願の好適な実施形態について説明したが、当業者であれば、基本的な創造的概念を理解すれば、これらの実施形態の更なる変更及び変形を実施することができる。従って、添付の請求項は、好適な実施形態と、本出願の範囲内のすべての変更及び変形と、を包含するべく解釈されることを意図している。