【文献】
尾本 貴志 外1名,距離反比例型スコアを導入したコロケーションの自動抽出法,情報処理学会研究報告,日本,社団法人情報処理学会,1996年 3月15日,第96巻第27号,p.75-82
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0019】
〜構成・動作〜
次に、本発明の実施の形態の構成及び動作について図面を参照して詳細に説明する。
【0020】
図1は、本実施形態に係る辞書作成装置の機能ブロック図である。本実施形態に係る辞書作成装置は、フレーズ抽出部1と、フレーズ有用性判定部2と、特徴度計算部3と、出力部4から構成される。また、フレーズ有用性判定部2は、有用度計算部21と検知条件判定部22から構成される。
【0022】
前提として、監視対象の情報内容を含む文書を集めた正例集合と、監視対象の情報内容を含まない文書を集めた負例集合とが与えられているものとする(
図3参照)。
【0023】
フレーズ抽出部1は、与えられた正例集合中のテキストに対して言語解析を行い、様々な長さのフレーズを検知条件候補として抽出する。フレーズの抽出は、形態素解析を行い、特定の品詞タグ列となるフレーズを抽出したり、構文解析を行い得られた構文木の部分木をフレーズとしたり、それらの組み合わせを用いて行う。
【0024】
フレーズ有用性判定部2は、フレーズ抽出部1で抽出された各フレーズに対して有用度を計算し、さらに、有用度と特徴度計算部3で計算した特徴度とを組み合わせて、そのフレーズが検知条件として適切かどうかを判定する。
【0025】
有用度計算部21は、フレーズ抽出部1で抽出された各フレーズに対して、フレーズの長さ、フレーズの正例集合中の頻度、フレーズ間の包含関係に関する指標を用いて有用度を計算する。ここで、フレーズの有用度とは、そのフレーズによって規定される意味の曖昧さの少なさを表す値のことで、そのフレーズを検知条件としたときの検知精度の良さを表す値のことである。有用度は、フレーズの長さ又はその対数値を用いてもよいし、フレーズの長さ又はその対数値と正例集合中のフレーズの出現数又はその対数値の積を用いてもよい。もしくは、更にフレーズ間の包含関係に関する指標に基づいて、非特許文献1で提案されているようなC-valueを有用度として用いてもよい。
非特許文献1:Frantzi, K. and Ananiadou, S. (1996). "Extracting Nested
Collocations." In Proceedings of the 16th International Conference on
Computational Linguistics (COLING 96), pp.41-46.
【0026】
有用度計算の適用例については後述する(適用例1〜4)。
【0027】
検知条件判定部22は、各フレーズに対して、有用度計算部21で計算した有用度と、特徴度計算部3で計算した特徴度とを用いて、そのフレーズが検知条件として適切であるか否かを判定する。例えば、有用度と特徴度の積によって検知条件として適切さを評価し、その値が閾値よりも大きい場合に検知条件として適切であると判定する。また、ここで有用度が閾値よりも小さいフレーズを除外し、特徴度計算するフレーズを減らして計算量を少なく抑えることも可能である(適用例5)。
【0028】
特徴度計算部3は、正例集合と負例集合の統計量を比較し、着目するフレーズが正例集合に出現する度合いを特徴度として計算する。特徴度は、カイ2乗値、相互情報量、ESC(Extended Stochastic Complexity)のようなテキストマイニングで使用される既存の尺度を用いて計算する。ここでの特徴度計算は、フレーズ抽出部1で抽出されたフレーズ全てに対して行ってもよいし、フレーズ有用性判定部2での判定に必要になるフレーズに対してのみ行ってもよい。
【0029】
出力部4は、フレーズ有用性判定部2で検知条件として適切だと判定されたフレーズを辞書登録するフレーズとして出力する。出力部4は、辞書登録するフレーズのみを出力するだけでなく、フレーズと有用度、特徴度、検知条件としての適切さを表すスコア等を合わせて出力することで、スコア等を参照しながら人手を用いて辞書登録するフレーズを選別することでテキスト情報監視用辞書構築作業を軽減することも可能となる。
【0030】
図2は、辞書作成装置の動作フローである。辞書作成プログラムは、動作フローの各処理を辞書作成装置に実行させるものである。プログラムが実行されると、フレーズ抽出部1、フレーズ有用性判定部2、特徴度計算部3、出力部4が機能する。
【0031】
まず、フレーズ抽出部1は、与えられた正例集合中のテキストに対して言語解析を行い、様々な長さのフレーズを検知条件候補として抽出する(ステップS1)。
【0032】
次に、有用度計算部21は、フレーズ抽出部1で抽出された各フレーズに対して、有用度を計算する(ステップS2)。
【0033】
一方、特徴度計算部3は、着目するフレーズの特徴度を計算する(ステップS3)。
【0034】
次に、検知条件判定部22は、各フレーズに対して、有用度計算部21が計算した有用度と、特徴度計算部3が計算した特徴度とを用いて、そのフレーズが検知条件として適切であるか否かを判定する(ステップS4)。例えば有用度と特徴度とに基づいてスコアを計算し、スコアに基づいて判定する。
【0035】
最後に、出力部4は、辞書登録するフレーズを出力し(ステップS5)、処理を終える。
【0036】
なお、ステップS2とステップ3とはどちらが先でもよいし同時でもよい。
【0037】
また、ステップS3およびステップS4において、有用度が閾値以上のフレーズのみ、特徴度を計算し、検知条件として適切であるか否かを判定してもよい。
【0038】
〜従来技術の具体例〜
従来技術に係る辞書作成装置は、フレーズ抽出部1と、特徴度計算部3と、出力部4から構成される(図示省略)。すなわち、フレーズ有用性判定部2の有無以外は、本願実施形態と共通する。
【0039】
本発明で想定するテキスト情報監視システムは、テキスト情報監視用辞書との文字列一致によってテキスト情報監視をおこない、テキスト情報監視用辞書には検知条件として文字列を登録するものとする。ただし、本発明の対象となるテキスト情報監視システムは上記システムに限定されるわけではなく、品詞タグや構文構造を条件としてテキスト情報監視を行うシステムに対しても本発明は有効である。
【0040】
辞書作成装置は、テキスト情報監視用辞書で用いる辞書を作成するものである。
【0041】
図3は、正例集合、負例集合の例である。このような正例集合、負例集合が与えられていることを前提とする。
【0042】
まず、フレーズ抽出部1は、正例集合から検知条件候補の抽出を行う。例えば、
図3の正例集合から3文節以下のフレーズを全て抽出すると、「トロイの木馬」、「トロイ」、「木馬」、「トロイの木馬に感染」、「木馬に感染」、「感染」、「メール」といったフレーズが検知条件候補として抽出される。
【0043】
次に、特徴度計算部3は、各検知条件候補に対して特徴度を計算する。
図4は各フレーズの頻度と特徴度の例である。例えば、特徴度を、
特徴度=(正例集合での頻度)−(負例集合での頻度)
として計算すると、「トロイの木馬」は特徴度=3、「トロイ」は特徴度=3、「木馬」は特徴度=3、「トロイの木馬に感染」は特徴度=2、「木馬に感染」は特徴度=2、「感染」は特徴度=1、「メール」は特徴度=1と計算される。
【0044】
出力部4は、例えば、特徴度の高いフレーズ「トロイの木馬」「トロイ」「木馬」を出力し、辞書に登録する。
【0045】
〜具体的な適用例1〜
フレーズ抽出部1および特徴度計算部3の動作は従来技術と同様である。すなわち、正例集合から検知条件候補の抽出を行い、各検知条件候補に対して特徴度を計算する。
【0046】
更に、有用度計算部21は各検知条件候補に対して有用度を計算する。
図5は各フレーズの有用度とスコア(後述)の例である。例えば、有用度を、フレーズの長さと正例集合での頻度との積に基づいて計算する。すなわち、
有用度=(フレーズの長さ)×(正例集合での頻度)
として計算すると、「トロイの木馬」は有用度=6、「トロイ」は有用度=3、「木馬」は有用度=3、「トロイの木馬に感染」は有用度=6、「木馬に感染」は有用度=4、「感染」は有用度=2、「メール」は有用度=2と計算される。ここでフレーズの長さは、文節数で計算したが、それ以外にも、形態素数、文字数、バイト長などで長さを計算してもよい。
【0047】
次に、検知条件判定部22は各検知条件候補の評価を行う(
図5参照)。例えば、検知条件としての適切さを表すスコアを、有用度と特徴度の積に基づいて計算する。すなわち、
スコア=特徴度×有用度
として計算すると、「トロイの木馬」はスコア=18、「トロイ」はスコア=9、「木馬」はスコア=9、「トロイの木馬に感染」はスコア=12、「木馬に感染」はスコア=8、「感染」はスコア=2、「メール」はスコア=2と計算される。そして、例えば、スコアが10以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の2つが検知条件として適切であると判定する。
【0048】
出力部4は、検知条件判定部22の判定結果に基づいてフレーズ「トロイの木馬」、「トロイの木馬に感染」を出力し、辞書に登録する。
【0049】
〜効果〜
従来技術と比較することで、本実施形態の効果について説明する。
【0050】
特徴度のみに基づいて検知条件の判定を行う従来技術においては、「トロイの木馬」、「トロイ」、「木馬」が特徴度=3と最大となり、これらが検知条件となる。しかし、「トロイ」には「トロイ遺跡」、「木馬」には「回転木馬」といった本来検知したくない表現も検知されることになり、検知精度を下げることになる。
【0051】
これに対し、本実施の形態では、フレーズ有用性判定部2は、候補となるフレーズの長さを用いて、フレーズを検知条件としたときの検知条件としての良さを表す有用度を計算し、得られた有用度と別途計算する特徴度とを用いて辞書登録すべきフレーズの判定を行う。
【0052】
一般に、フレーズの長さが長いほど意味の曖昧性が少なくなり、検知条件としての適合率は高くなる。そこで、互いに重複があるフレーズが同じ特徴度となった場合は長さが長いフレーズを選択することで特徴度のみを用いる場合より高精度な検知が可能となる。
【0053】
更に、フレーズの長さに加えて、フレーズの文書集合中の頻度を用いて有用度を計算する。フレーズの長さが長いほど適合率は高くなるが、フレーズの出現確率は下がるため再現率は低くなると考えられる、そこでフレーズの長さに加えて頻度を考慮することで、適合率と再現率がバランスした有用度を計算でき、より高精度な検知が可能となる。
【0054】
本実施形態では、「トロイの木馬」、「トロイの木馬に感染」が検知条件となり、「トロイ」、「木馬」は辞書に登録されない。その結果、従来技術に比べて高精度な検知を実現できる。
【0055】
〜具体的な適用例2〜
上記適用例1では、有用度計算部21は、フレーズの長さと正例集合での頻度との積に基づいて有用度を計算するが、有用度に更なる顕著な差を付けたい場合は、フレーズの長さから補正値を減じてもよい。
【0056】
図6は各フレーズの有用度とスコアの別例である。例えば、有用度計算部21はフレーズの長さから補正値を減じた値と正例集合での頻度との積に基づいて有用度を計算する。補正値は経験的に求めてもよい。ここでは補正値を「−0.5」とする。すなわち、
有用度=(フレーズの長さ−0.5)×(正例集合での頻度)
として計算すると「トロイの木馬」は有用度=4.5、「トロイ」は有用度=1.5、「木馬」は有用度=1.5、「トロイの木馬に感染」は有用度=5、「木馬に感染」は有用度=3、「感染」は有用度=1、「メール」は有用度=1と計算される。
【0057】
このように、フレーズの長さがより強調されるように補正される。
【0058】
次に、検知条件判定部22がスコア=特徴度×有用度として計算すると、「トロイの木馬」はスコア=13.5、「トロイ」はスコア=4.5、「木馬」はスコア=4.5、「トロイの木馬に感染」はスコア=10、「木馬に感染」はスコア=6、「感染」はスコア=1、「メール」はスコア=1と計算される。そして、例えば、スコアが10以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の2つが検知条件として適切であると判定する。
【0059】
適用例1に比べて、「トロイの木馬」のスコアに対する「トロイ」、「木馬」のスコアの割合が低減している。すなわち、「トロイの木馬」はより確実に辞書に登録され、「トロイ」、「木馬」はより確実に辞書登録から除外される。これにより精度が向上する。
【0060】
〜具体的な適用例3〜
上記適用例1、適用例2では、検知条件判定部22はスコアが10以上のフレーズを検知条件として採用するように設定しているため、「木馬に感染」は辞書に登録されないが、設定によっては登録され得る。「木馬に感染」は「トロイの木馬に感染」に包含され、ほとんどの場合、「トロイの木馬に感染」という言い回し、いわゆる定型フレーズとして用いられる。したがって、「木馬に感染」と「トロイの木馬に感染」の両方を辞書に登録しても意味がない。
【0061】
そこで、有用度計算部21は、フレーズの長さと正例集合での頻度に加えて、フレーズ間の包含関係を表す指標に基づいて有用度を計算する。例えば、C-valueを有用度としてもよい。C-valueは以下の式で計算される値のことである。
図7は各フレーズの有用度(C-value)とスコアの別例である。
C-valueの定義
C-value=(フレーズ長さ)×(正例集合での頻度−T/C) (C>0の場合)
C-value=(フレーズ長さ)×(正例集合での頻度) (C=0の場合)
T: 着目フレーズを包含し着目フレーズよりも長いフレーズの出現頻度の合計
C: 着目フレーズを包含し着目フレーズよりも長いフレーズの異なり数(つまり、そのようなフレーズがいくつあるか)
【0062】
以下、T,Cについて具体的に説明する(
図7参照)。
【0063】
着目フレーズ:「トロイの木馬」
着目フレーズを包含し着目フレーズよりも長いフレーズ:「トロイの木馬に感染」
T=2:「トロイの木馬に感染」出現頻度2
C=1:着目フレーズを包含し着目フレーズよりも長いフレーズ1
【0064】
着目フレーズ:「トロイ」
着目フレーズを包含し着目フレーズよりも長いフレーズ:「トロイの木馬」「トロイの木馬に感染」
T=3+2=5:「トロイの木馬」出現頻度3、「トロイの木馬に感染」出現頻度2
C=2:着目フレーズを包含し着目フレーズよりも長いフレーズ2
【0065】
着目フレーズ:「木馬」
着目フレーズを包含し着目フレーズよりも長いフレーズ:「トロイの木馬」「トロイの木馬に感染」「木馬に感染」
T=3+2+2=7:「トロイの木馬」出現頻度3、「トロイの木馬に感染」出現頻度2、「木馬に感染」出現頻度2
C=3:着目フレーズを包含し着目フレーズよりも長いフレーズは3
【0066】
着目フレーズ:「トロイの木馬に感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ: なし
T=0
C=0
【0067】
着目フレーズ:「木馬に感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ:「トロイの木馬に感染」
T=2:「トロイの木馬に感染」出現頻度2
C=1:着目フレーズを包含し着目フレーズよりも長いフレーズ1
【0068】
着目フレーズ:「感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ:「トロイの木馬に感染」「木馬に感染」
T=2+2=4:「トロイの木馬に感染」出現頻度2、「木馬に感染」出現頻度2
C=2:着目フレーズを包含し着目フレーズよりも長いフレーズ2
【0069】
着目フレーズ:「メール」
着目フレーズを包含し着目フレーズよりも長いフレーズ:なし
T=0
C=0
【0070】
T,Cにより補正することにより、「トロイの木馬」は有用度=2、「トロイ」は有用度=0.5、「木馬」は有用度=0.67、「トロイの木馬に感染」は有用度=6、「木馬に感染」は有用度=0、「感染」は有用度=0、「メール」は有用度=2と計算される。
【0071】
「トロイの木馬に感染」の有用度6に対し「木馬に感染」の有用度0である。この結果は、「木馬に感染」が正例文書集合中で必ず「トロイの木馬に感染」という言い回しで用いられている定型フレーズであるため、「木馬に感染」の用語性は低く、検知条件として「トロイの木馬に感染」があれば、「木馬に感染」を条件として追加する意味がないことを示している。
【0072】
一方、「トロイの木馬」の有用度は2である。「トロイの木馬」は「トロイの木馬に感染」以外にも用例があるため、「木馬に感染」よりも用語性が高く、C-valueも大きくなる。
【0073】
用語性とはひとかたまりのフレーズとして使われやすさを表す指標であり、用語性が高いとは、ひとかたまりのフレーズとして使われやすいという意味である。
【0074】
このように、有用度としてC-valueを用いることで他のより長いフレーズに包含されるフレーズは値が小さくなり、冗長な検知条件が追加されることをなくし、辞書精度の向上を図ることができる。
【0075】
次に、検知条件判定部22がスコア=特徴度×有用度として計算すると、「トロイの木馬」はスコア=6、「トロイ」はスコア=1.5、「木馬」はスコア=2、「トロイの木馬に感染」はスコア=12、「木馬に感染」はスコア=0、「感染」はスコア=0、「メール」はスコア=2と計算される。そして、例えば、スコアが5以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の2つが検知条件として適切であると判定する。
【0076】
〜具体的な適用例4〜
適用例3において、適用例2で説明した補正値を用いてもよい。ここでは補正値を「−1」とする。
図8は各フレーズの有用度(C-value)とスコアの別例である。
C-valueの定義
C-value=(フレーズ長さ−1)×(正例集合での頻度−T/C) (C>0の場合)
C-value=(フレーズ長さ−1)×(正例集合での頻度) (C=0の場合)
T: 着目フレーズを包含し着目フレーズよりも長いフレーズの出現頻度の合計
C: 着目フレーズを包含し着目フレーズよりも長いフレーズの異なり数(つまり、そのようなフレーズがいくつあるか)
フレーズ長さの項にある「−1」は、適用例2で記載した補正値「−0.5」と同種の値である。すなわち、フレーズの長さをより強調する補正値である。
【0077】
これにより、有用度の差が更に顕著なる。
【0078】
〜具体的な適用例5〜
有用度が閾値以上のフレーズのみ、特徴度計算部3は特徴度を計算し、検知条件判定部22は検知条件として適切であるか否かを判定する。
【0079】
具体的に適用例2と比較して説明する。
図8は各フレーズの有用度とスコアの別例である。
【0080】
適用例2と同様に、有用度計算部21は「トロイの木馬」は有用度=4.5、「トロイ」は有用度=1.5、「木馬」は有用度=1.5、「トロイの木馬に感染」は有用度=5、「木馬に感染」は有用度=3、「感染」は有用度=1、「メール」は有用度=1と計算する。
【0081】
特徴度計算部3は、例えば有用度が3以上のフレーズ「トロイの木馬」「トロイの木馬に感染」「木馬に感染」のみ特徴度を計算する。次に、検知条件判定部22がスコア=特徴度×有用度として計算すると、「トロイの木馬」はスコア=13.5、「トロイの木馬に感染」はスコア=10、「木馬に感染」はスコア=6と計算される。そして、例えば、スコアが10以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の2つが検知条件として適切であると判定する。
【0082】
適用例2では、全フレーズ(7フレーズ)に対し特徴度計算および判定を行うのに対し、適用例5では「トロイの木馬」「トロイの木馬に感染」「木馬に感染」の3フレーズのみ特徴度計算および判定を行う。一方、判定結果は、適用例2も適用例5も同じであり精度は同じである。
【0083】
これにより、精度を維持しながら、計算量を少なく抑えることができる。
【0084】
〜補足〜
適用例1は、主に請求項4および請求項7の詳細について説明している。適用例2は、主に請求項4を除く請求項3について説明している。適用例3・4は、主に請求項5および請求項6について説明している。適用例5は、主に請求項8について説明している。
【0085】
本発明は、テキスト情報監視システムで用いられる辞書を作成する装置であるが、インターネットを対象とした風評監視システムや評判抽出システム等にも適用できる。
【0086】
〜付記〜
上記実施形態において、各部をハードウェアで構成してもよいし、コンピュータプログラムにより実現してもよい。この場合、プログラムメモリに格納されているプログラムで動作するプロセッサによって、上述と同様の機能、動作を実現させる。また、一部の機能のみをコンピュータプログラムにより実現してもよい。
【0087】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0088】
本発明は、
テキスト情報監視システムで用いられ、検知条件が登録される辞書を作成するテキスト情報監視用辞書作成装置であって、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する特徴度計算部と、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定するフレーズ有用性判定部と
を備えることを特徴とする。
【0089】
本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記フレーズ有用性判定部は、
フレーズの長さに基づいて前記有用度を計算する有用度計算部と、
前記有用度計算部で計算された有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する検知条件判定部と
を有する。
【0090】
本発明のテキスト情報監視用辞書作成装置において、より好ましくは、
前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。
【0091】
一般に、フレーズの長さが長いほど意味の曖昧性が少なくなり、検知条件としての適合率は高くなる。本発明では上記構成により、長さの長いフレーズを優先する。その結果、従来技術に比べて高精度な検知が実現可能となる。
【0092】
例えば、
前記有用度計算部は、フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。
【0093】
本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。
【0094】
より好ましくは、
前記フレーズ間の包含関係を表す指標は、
着目フレーズより長い他フレーズが着目フレーズを包含する場合、
他フレーズの出現頻度の合計と他フレーズの数との比である。
【0095】
包含関係を考慮することにより、他のより長いフレーズに包含されるフレーズは値が小さくなり、冗長な検知条件が追加されることをなくし、辞書精度の向上を図ることができる。
【0096】
本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記検知条件判定部は、前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。
【0097】
これにより、有用度を考慮した検知ができる。
【0098】
本発明のテキスト情報監視用辞書作成装置において、より好ましくは、
前記有用度計算部で計算された有用度が閾値以上のフレーズに対し、
前記特徴度計算部は特徴度を計算し、
前記検知条件判定部はフレーズが検知条件として適切であるか否かを判定する。
【0099】
これにより、精度を維持しながら、計算量を少なく抑えることができる。
【0100】
本発明は、
テキスト情報監視システムで用いられる辞書の作成方法であって、
テキスト情報監視用辞書作成装置が、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算し、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定し、
適切であると判断したフレーズを出力し検知条件として登録する
ことを特徴とする。
【0101】
本発明のテキスト情報監視用辞書作成方法において、好ましくは、
フレーズの長さに基づいて前記有用度を計算し、
前記有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する。
【0102】
より好ましくは、
前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。
【0103】
例えば、
フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。
【0104】
本発明のテキスト情報監視用辞書作成方法において、好ましくは、
前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。
【0105】
より好ましくは、
前記フレーズ間の包含関係を表す指標は、
着目フレーズより長い他フレーズが着目フレーズを包含する場合、
他フレーズの出現頻度の合計と他フレーズの数との比である。
【0106】
本発明のテキスト情報監視用辞書作成方法において、好ましくは、
前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。
【0107】
本発明のテキスト情報監視用辞書作成方法において、より好ましくは、
前記有用度計算部で計算された有用度が閾値以上のフレーズに対し、特徴度を計算し、
フレーズが検知条件として適切であるか否かを判定する。
【0108】
本発明は、
テキスト情報監視用辞書作成プログラムであって、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する処理と、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定する処理と、
適切であると判断したフレーズを出力し検知条件として登録する処理と
をテキスト情報監視用辞書作成装置に実行させることを特徴とする。
【0109】
本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
フレーズの長さに基づいて前記有用度を計算する処理と、
前記有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する処理と
を実行させる。
【0110】
本発明のテキスト情報監視用辞書作成プログラムにおいて、より好ましくは、
前記有用度計算処理では、前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。
【0111】
例えば、
前記有用度計算処理では、フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。
【0112】
本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
前記有用度計算処理では、前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。
【0113】
より好ましくは、
前記フレーズ間の包含関係を表す指標は、
着目フレーズより長い他フレーズが着目フレーズを包含する場合、
他フレーズの出現頻度の合計と他フレーズの数との比である。
【0114】
本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
前記検知条件判定処理では、前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。
【0115】
本発明のテキスト情報監視用辞書作成プログラムにおいて、より好ましくは、
前記有用度計算処理で計算された有用度が閾値以上のフレーズに対し、
前記特徴度計算処理では、特徴度を計算し、
前記検知条件判定処理では、フレーズが検知条件として適切であるか否かを判定する。
【0116】
本出願は、2012年9月27日に出願された日本出願特願2012−213536号を基礎とする優先権を主張し、その開示の全てをここに取り込む。