特許6237632 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6237632テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6237632

(24)【登録日】2017年11月10日

(45)【発行日】2017年11月29日

(54)【発明の名称】テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20171120BHJP

【ＦＩ】

G06F17/30 210A

G06F17/30 170A

【請求項の数】11

【全頁数】18

(21)【出願番号】特願2014-538594(P2014-538594)

(86)(22)【出願日】2013年9月26日

(86)【国際出願番号】JP2013076094

(87)【国際公開番号】WO2014050981

(87)【国際公開日】20140403

【審査請求日】2016年8月16日

(31)【優先権主張番号】特願2012-213536(P2012-213536)

(32)【優先日】2012年9月27日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100124154

【弁理士】

【氏名又は名称】下坂直樹

(72)【発明者】

【氏名】大西貴士

(72)【発明者】

【氏名】土田正明

(72)【発明者】

【氏名】石川開

【審査官】長由紀子

(56)【参考文献】

【文献】特開２００５−３４６５９８（ＪＰ，Ａ）

【文献】特開２００３−２８１１５９（ＪＰ，Ａ）

【文献】特開２０１２−１４１９８５（ＪＰ，Ａ）

【文献】特開２００９−３７４２０（ＪＰ，Ａ）

【文献】特開２００５−６３２８３（ＪＰ，Ａ）

【文献】尾本貴志外１名，距離反比例型スコアを導入したコロケーションの自動抽出法，情報処理学会研究報告，日本，社団法人情報処理学会，１９９６年３月１５日，第96巻第27号，p.75-82

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

Ｇ０６Ｆ１７／２０−２８

(57)【特許請求の範囲】

【請求項1】

テキスト情報監視システムで用いられ、検知条件が登録される辞書を作成するテキスト情報監視用辞書作成装置であって、
検知条件候補のフレーズが監視対象の情報内容に適合する度合いを表す特徴度と、前記フレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、前記フレーズが検知条件として適切であるか否かを判定するフレーズ有用性判定部、
を備える、テキスト情報監視用辞書作成装置。

【請求項2】

前記フレーズ有用性判定部は、
前記フレーズの長さに基づいて前記有用度を計算する有用度計算部と、
前記有用度計算部で計算された有用度と前記特徴度とに基づいて、前記フレーズが検知条件として適切であるか否かを判定する検知条件判定部と
を有する、請求項１に記載のテキスト情報監視用辞書作成装置。

【請求項3】

前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する、請求項２に記載のテキスト情報監視用辞書作成装置。

【請求項4】

前記有用度計算部は、前記フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する、請求項３に記載のテキスト情報監視用辞書作成装置。

【請求項5】

前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する、請求項２に記載のテキスト情報監視用辞書作成装置。

【請求項6】

前記フレーズ間の包含関係を表す指標は、
着目する前記フレーズより長い他の前記フレーズが着目する前記フレーズを包含する場合、
他の前記フレーズの出現頻度の合計と他の前記フレーズの数との比である、請求項５に記載のテキスト情報監視用辞書作成装置。

【請求項7】

前記検知条件判定部は、
前記有用度又はその対数値と前記特徴度又はその対数値との積によって前記フレーズが検知条件として適切であるか否かを判定する、請求項２から６のいずれか一項に記載のテキスト情報監視用辞書作成装置。

【請求項8】

前記特徴度を計算する特徴度計算部を備える、請求項２から７のいずれか一項に記載のテキスト情報監視用辞書作成装置。

【請求項9】

前記有用度計算部で計算された有用度が閾値以上の前記フレーズに対し、
前記特徴度計算部は特徴度を計算し、
前記検知条件判定部は前記フレーズが検知条件として適切であるか否かを判定する、請求項８に記載のテキスト情報監視用辞書作成装置。

【請求項10】

テキスト情報監視システムで用いられる辞書の作成方法であって、
テキスト情報監視用辞書作成装置が、
検知条件候補のフレーズに対して、前記フレーズが監視対象の情報内容に適合する度合いを表す特徴度と、前記フレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、前記フレーズが検知条件として適切であるか否かを判定し、
適切であると判断した前記フレーズを出力し検知条件として登録するテキスト情報監視用辞書作成方法。

【請求項11】

検知条件候補のフレーズに対して、前記フレーズが監視対象の情報内容に適合する度合いを表す特徴度と、前記フレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、前記フレーズが検知条件として適切であるか否かを判定する処理と、
適切であると判断した前記フレーズを出力し検知条件として登録する処理と
をテキスト情報監視用辞書作成装置に実行させるテキスト情報監視用辞書作成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラムに関し、特に未知のテキストに対しても高精度なテキスト情報監視用辞書を作成するテキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラムに関する。

【背景技術】

【0002】

インターネット上の風評の監視等で大量のテキストの中から監視対象の情報内容の出現を検知するテキスト情報監視技術が重要となっている。本発明で想定するテキスト情報監視システムは辞書ベースでテキスト情報監視を行う。つまり、テキスト情報監視技術の一手法として、検知のための条件をテキスト情報監視用辞書として保持しておき、入力文書中の表現がテキスト情報監視用辞書中の条件と一致するか否かで検知を行う、辞書ベースの手法を用いる。

【0003】

辞書ベースの手法では、高精度の辞書を用いることで、高精度のテキスト情報監視ができる。したがって、高精度の辞書を用いることが重要である。

【0004】

辞書ベースのテキスト情報監視システムにおいて辞書を内省で作るのは時間がかかり、漏れが発生しやすくなるため、困難である。そこで、監視対象の情報内容を含む文書を集めた正例集合と監視対象の情報内容を含まない文書を集めた負例集合を与え、そこから検知条件として登録すべき表現を自動で抽出する手法が望まれる。そうした方法の従来手法として、特徴語抽出手法がある。この特徴語抽出手法とは、正例集合、負例集合を比較し、正例集合に特徴的に出現する単語を特徴語として抽出する手法のことである。

【0005】

そのような手法の一例として、特許文献１がある。特許文献１では、テキストマイニングで用いる辞書を構築する際に、分析対象の文書データをグループに分け、各グループに特徴的に出現する表現を辞書候補として用いている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２００９−０１５３９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかし、従来技術の単語レベルや係り受けレベルの短い単位の特徴語抽出手法は、テキスト情報監視システムの性能要件を十分満たすことができない。なぜなら、単語レベルや係り受けレベルの短い単位だけでは、検知の精度が低くなるからである。例えば、コンピュータウィルスに関する記述を検知したい時に、「ウィルス」という1単語をテキスト情報監視用辞書に登録したとしても「風邪のウィルス」のような文書が誤って検知されてしまう。この場合は、「コンピュータ・ウィルス」や「ウィルス・メール」といった1個以上の単語からなるフレーズをテキスト情報監視用辞書に登録する必要がある。

【0008】

このように最適なフレーズの長さは何を検知したいかによって変わってくるため、これを事前に一意の値として決めておくことはできない。そこで、可変長のフレーズに対応するために、あらゆる長さのフレーズを候補として抽出し、それぞれに特徴度を計算する必要がある。さらに、互いに重複のある複数のフレーズが同じ特徴度で出力される場合を適切に扱えない。

【0009】

例えば、図３のような正例集合、負例集合が与えられた場合、様々な長さのフレーズを対象に特徴語抽出を行うと、図４のようなフレーズが抽出され、「トロイの木馬」、「トロイ」、「木馬」が同じ特徴度（＝３）として抽出される。しかし、「トロイ」や「木馬」は、この負例集合では出現していなかったが、「トロイ遺跡」や「回転木馬」といったウィルスとは関係のない表現が考えられるため、「トロイ」や「木馬」をテキスト情報監視用辞書に登録するのは検知精度を下げることになる。原理的には負例集合には「トロイ遺跡」や「回転木馬」といった表現が出現することで、「トロイ」や「木馬」といった表現の特徴度を小さくし検知精度を下げることも可能であるが、実際には、十分な量の負例集合を得られることは少なく、上記のような問題が頻繁に発生する。

【0010】

特許文献１では、特徴語と共起する単語も含めて辞書登録候補とする手法を開示しているが、辞書登録するか否かの判定は、TF（Term Frequency）とIDF（Inverse Document Frequency）との積といった指標を用いており、互いに重複のある複数のフレーズに対しては上記と同様の課題があると考えられる。

【0011】

以上のように、正例集合、負例集合から計算される特徴度でテキスト情報監視用辞書を構築する従来手法は検知精度が低くなるという課題がある。

【0012】

本発明は上記課題を解決するものであり、従来技術に比べて高精度な検知を実現可能にするテキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0013】

上記課題を解決する本発明は、テキスト情報監視システムで用いられ、検知条件が登録される辞書を作成するテキスト情報監視用辞書作成装置であって、検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する特徴度計算部と、前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定するフレーズ有用性判定部とを備える。

【0014】

上記課題を解決する本発明は、テキスト情報監視システムで用いられる辞書の作成方法であって、テキスト情報監視用辞書作成装置が、検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算し、前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定し、適切であると判断したフレーズを出力し検知条件として登録する。

【0015】

上記課題を解決する本発明は、検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する処理と、前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定する処理と、適切であると判断したフレーズを出力し検知条件として登録する処理とをテキスト情報監視用辞書作成装置に実行させるテキスト情報監視用辞書作成プログラムである。

【発明の効果】

【0016】

一般に、フレーズの長さが長いほど意味の曖昧性が少なくなり、検知条件としての適合率は高くなる。本発明では、フレーズの長さに基づき有用度を計算し、有用度と特徴度とに基づいて辞書登録すべきフレーズの抽出を行う。すなわち、長さの長いフレーズを優先する。

【0017】

これにより、従来技術に比べて高精度な検知を実現可能にするテキスト情報監視用辞書を作成することができる。

【図面の簡単な説明】

【0018】

【図1】辞書作成装置の機能ブロック図

【図2】辞書作成装置の動作フロー

【図3】正例集合、負例集合の例（従来技術と共通）

【図4】各フレーズの頻度と特徴度の例（従来技術と共通）

【図5】各フレーズの有用度とスコアの例（適用例１）

【図6】各フレーズの有用度とスコアの例（適用例２）

【図7】各フレーズの有用度とスコアの例（適用例３）

【図8】各フレーズの有用度とスコアの例（適用例４）

【図9】各フレーズの有用度とスコアの例（適用例５）

【発明を実施するための形態】

【0019】

〜構成・動作〜
次に、本発明の実施の形態の構成及び動作について図面を参照して詳細に説明する。

【0020】

図１は、本実施形態に係る辞書作成装置の機能ブロック図である。本実施形態に係る辞書作成装置は、フレーズ抽出部１と、フレーズ有用性判定部２と、特徴度計算部３と、出力部４から構成される。また、フレーズ有用性判定部２は、有用度計算部２１と検知条件判定部２２から構成される。

【0021】

各構成の機能について説明する。

【0022】

前提として、監視対象の情報内容を含む文書を集めた正例集合と、監視対象の情報内容を含まない文書を集めた負例集合とが与えられているものとする（図３参照）。

【0023】

フレーズ抽出部１は、与えられた正例集合中のテキストに対して言語解析を行い、様々な長さのフレーズを検知条件候補として抽出する。フレーズの抽出は、形態素解析を行い、特定の品詞タグ列となるフレーズを抽出したり、構文解析を行い得られた構文木の部分木をフレーズとしたり、それらの組み合わせを用いて行う。

【0024】

フレーズ有用性判定部２は、フレーズ抽出部１で抽出された各フレーズに対して有用度を計算し、さらに、有用度と特徴度計算部３で計算した特徴度とを組み合わせて、そのフレーズが検知条件として適切かどうかを判定する。

【0025】

有用度計算部２１は、フレーズ抽出部１で抽出された各フレーズに対して、フレーズの長さ、フレーズの正例集合中の頻度、フレーズ間の包含関係に関する指標を用いて有用度を計算する。ここで、フレーズの有用度とは、そのフレーズによって規定される意味の曖昧さの少なさを表す値のことで、そのフレーズを検知条件としたときの検知精度の良さを表す値のことである。有用度は、フレーズの長さ又はその対数値を用いてもよいし、フレーズの長さ又はその対数値と正例集合中のフレーズの出現数又はその対数値の積を用いてもよい。もしくは、更にフレーズ間の包含関係に関する指標に基づいて、非特許文献１で提案されているようなC-valueを有用度として用いてもよい。
非特許文献１：Frantzi, K. and Ananiadou, S. (1996). "Extracting Nested
Collocations." In Proceedings of the 16th International Conference on
Computational Linguistics (COLING 96), pp.41-46.

【0026】

有用度計算の適用例については後述する（適用例１〜４）。

【0027】

検知条件判定部２２は、各フレーズに対して、有用度計算部２１で計算した有用度と、特徴度計算部３で計算した特徴度とを用いて、そのフレーズが検知条件として適切であるか否かを判定する。例えば、有用度と特徴度の積によって検知条件として適切さを評価し、その値が閾値よりも大きい場合に検知条件として適切であると判定する。また、ここで有用度が閾値よりも小さいフレーズを除外し、特徴度計算するフレーズを減らして計算量を少なく抑えることも可能である（適用例５）。

【0028】

特徴度計算部３は、正例集合と負例集合の統計量を比較し、着目するフレーズが正例集合に出現する度合いを特徴度として計算する。特徴度は、カイ2乗値、相互情報量、ESC（Extended Stochastic Complexity）のようなテキストマイニングで使用される既存の尺度を用いて計算する。ここでの特徴度計算は、フレーズ抽出部1で抽出されたフレーズ全てに対して行ってもよいし、フレーズ有用性判定部２での判定に必要になるフレーズに対してのみ行ってもよい。

【0029】

出力部４は、フレーズ有用性判定部２で検知条件として適切だと判定されたフレーズを辞書登録するフレーズとして出力する。出力部４は、辞書登録するフレーズのみを出力するだけでなく、フレーズと有用度、特徴度、検知条件としての適切さを表すスコア等を合わせて出力することで、スコア等を参照しながら人手を用いて辞書登録するフレーズを選別することでテキスト情報監視用辞書構築作業を軽減することも可能となる。

【0030】

図２は、辞書作成装置の動作フローである。辞書作成プログラムは、動作フローの各処理を辞書作成装置に実行させるものである。プログラムが実行されると、フレーズ抽出部１、フレーズ有用性判定部２、特徴度計算部３、出力部４が機能する。

【0031】

まず、フレーズ抽出部１は、与えられた正例集合中のテキストに対して言語解析を行い、様々な長さのフレーズを検知条件候補として抽出する（ステップＳ１）。

【0032】

次に、有用度計算部２１は、フレーズ抽出部１で抽出された各フレーズに対して、有用度を計算する（ステップＳ２）。

【0033】

一方、特徴度計算部３は、着目するフレーズの特徴度を計算する（ステップＳ３）。

【0034】

次に、検知条件判定部２２は、各フレーズに対して、有用度計算部２１が計算した有用度と、特徴度計算部３が計算した特徴度とを用いて、そのフレーズが検知条件として適切であるか否かを判定する（ステップＳ４）。例えば有用度と特徴度とに基づいてスコアを計算し、スコアに基づいて判定する。

【0035】

最後に、出力部４は、辞書登録するフレーズを出力し（ステップＳ５）、処理を終える。

【0036】

なお、ステップＳ２とステップ３とはどちらが先でもよいし同時でもよい。

【0037】

また、ステップＳ３およびステップＳ４において、有用度が閾値以上のフレーズのみ、特徴度を計算し、検知条件として適切であるか否かを判定してもよい。

【0038】

〜従来技術の具体例〜
従来技術に係る辞書作成装置は、フレーズ抽出部１と、特徴度計算部３と、出力部４から構成される（図示省略）。すなわち、フレーズ有用性判定部２の有無以外は、本願実施形態と共通する。

【0039】

本発明で想定するテキスト情報監視システムは、テキスト情報監視用辞書との文字列一致によってテキスト情報監視をおこない、テキスト情報監視用辞書には検知条件として文字列を登録するものとする。ただし、本発明の対象となるテキスト情報監視システムは上記システムに限定されるわけではなく、品詞タグや構文構造を条件としてテキスト情報監視を行うシステムに対しても本発明は有効である。

【0040】

辞書作成装置は、テキスト情報監視用辞書で用いる辞書を作成するものである。

【0041】

図３は、正例集合、負例集合の例である。このような正例集合、負例集合が与えられていることを前提とする。

【0042】

まず、フレーズ抽出部１は、正例集合から検知条件候補の抽出を行う。例えば、図３の正例集合から３文節以下のフレーズを全て抽出すると、「トロイの木馬」、「トロイ」、「木馬」、「トロイの木馬に感染」、「木馬に感染」、「感染」、「メール」といったフレーズが検知条件候補として抽出される。

【0043】

次に、特徴度計算部３は、各検知条件候補に対して特徴度を計算する。図４は各フレーズの頻度と特徴度の例である。例えば、特徴度を、
特徴度＝（正例集合での頻度）−（負例集合での頻度）
として計算すると、「トロイの木馬」は特徴度=３、「トロイ」は特徴度=３、「木馬」は特徴度=３、「トロイの木馬に感染」は特徴度=２、「木馬に感染」は特徴度=２、「感染」は特徴度=１、「メール」は特徴度=１と計算される。

【0044】

出力部４は、例えば、特徴度の高いフレーズ「トロイの木馬」「トロイ」「木馬」を出力し、辞書に登録する。

【0045】

〜具体的な適用例１〜
フレーズ抽出部１および特徴度計算部３の動作は従来技術と同様である。すなわち、正例集合から検知条件候補の抽出を行い、各検知条件候補に対して特徴度を計算する。

【0046】

更に、有用度計算部２１は各検知条件候補に対して有用度を計算する。図５は各フレーズの有用度とスコア（後述）の例である。例えば、有用度を、フレーズの長さと正例集合での頻度との積に基づいて計算する。すなわち、
有用度＝（フレーズの長さ）×（正例集合での頻度）
として計算すると、「トロイの木馬」は有用度=６、「トロイ」は有用度=３、「木馬」は有用度=３、「トロイの木馬に感染」は有用度=６、「木馬に感染」は有用度=４、「感染」は有用度=２、「メール」は有用度=２と計算される。ここでフレーズの長さは、文節数で計算したが、それ以外にも、形態素数、文字数、バイト長などで長さを計算してもよい。

【0047】

次に、検知条件判定部２２は各検知条件候補の評価を行う（図５参照）。例えば、検知条件としての適切さを表すスコアを、有用度と特徴度の積に基づいて計算する。すなわち、
スコア＝特徴度×有用度
として計算すると、「トロイの木馬」はスコア=１８、「トロイ」はスコア=９、「木馬」はスコア=９、「トロイの木馬に感染」はスコア=１２、「木馬に感染」はスコア=８、「感染」はスコア=２、「メール」はスコア=２と計算される。そして、例えば、スコアが１０以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の２つが検知条件として適切であると判定する。

【0048】

出力部４は、検知条件判定部２２の判定結果に基づいてフレーズ「トロイの木馬」、「トロイの木馬に感染」を出力し、辞書に登録する。

【0049】

〜効果〜
従来技術と比較することで、本実施形態の効果について説明する。

【0050】

特徴度のみに基づいて検知条件の判定を行う従来技術においては、「トロイの木馬」、「トロイ」、「木馬」が特徴度=３と最大となり、これらが検知条件となる。しかし、「トロイ」には「トロイ遺跡」、「木馬」には「回転木馬」といった本来検知したくない表現も検知されることになり、検知精度を下げることになる。

【0051】

これに対し、本実施の形態では、フレーズ有用性判定部２は、候補となるフレーズの長さを用いて、フレーズを検知条件としたときの検知条件としての良さを表す有用度を計算し、得られた有用度と別途計算する特徴度とを用いて辞書登録すべきフレーズの判定を行う。

【0052】

一般に、フレーズの長さが長いほど意味の曖昧性が少なくなり、検知条件としての適合率は高くなる。そこで、互いに重複があるフレーズが同じ特徴度となった場合は長さが長いフレーズを選択することで特徴度のみを用いる場合より高精度な検知が可能となる。

【0053】

更に、フレーズの長さに加えて、フレーズの文書集合中の頻度を用いて有用度を計算する。フレーズの長さが長いほど適合率は高くなるが、フレーズの出現確率は下がるため再現率は低くなると考えられる、そこでフレーズの長さに加えて頻度を考慮することで、適合率と再現率がバランスした有用度を計算でき、より高精度な検知が可能となる。

【0054】

本実施形態では、「トロイの木馬」、「トロイの木馬に感染」が検知条件となり、「トロイ」、「木馬」は辞書に登録されない。その結果、従来技術に比べて高精度な検知を実現できる。

【0055】

〜具体的な適用例２〜
上記適用例１では、有用度計算部２１は、フレーズの長さと正例集合での頻度との積に基づいて有用度を計算するが、有用度に更なる顕著な差を付けたい場合は、フレーズの長さから補正値を減じてもよい。

【0056】

図６は各フレーズの有用度とスコアの別例である。例えば、有用度計算部２１はフレーズの長さから補正値を減じた値と正例集合での頻度との積に基づいて有用度を計算する。補正値は経験的に求めてもよい。ここでは補正値を「−０．５」とする。すなわち、
有用度＝（フレーズの長さ−０．５）×（正例集合での頻度）
として計算すると「トロイの木馬」は有用度=４．５、「トロイ」は有用度=１．５、「木馬」は有用度=１．５、「トロイの木馬に感染」は有用度=５、「木馬に感染」は有用度=３、「感染」は有用度=１、「メール」は有用度=１と計算される。

【0057】

このように、フレーズの長さがより強調されるように補正される。

【0058】

次に、検知条件判定部２２がスコア＝特徴度×有用度として計算すると、「トロイの木馬」はスコア=１３．５、「トロイ」はスコア=４．５、「木馬」はスコア=４．５、「トロイの木馬に感染」はスコア=１０、「木馬に感染」はスコア=６、「感染」はスコア=１、「メール」はスコア=１と計算される。そして、例えば、スコアが１０以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の２つが検知条件として適切であると判定する。

【0059】

適用例１に比べて、「トロイの木馬」のスコアに対する「トロイ」、「木馬」のスコアの割合が低減している。すなわち、「トロイの木馬」はより確実に辞書に登録され、「トロイ」、「木馬」はより確実に辞書登録から除外される。これにより精度が向上する。

【0060】

〜具体的な適用例３〜
上記適用例１、適用例２では、検知条件判定部２２はスコアが１０以上のフレーズを検知条件として採用するように設定しているため、「木馬に感染」は辞書に登録されないが、設定によっては登録され得る。「木馬に感染」は「トロイの木馬に感染」に包含され、ほとんどの場合、「トロイの木馬に感染」という言い回し、いわゆる定型フレーズとして用いられる。したがって、「木馬に感染」と「トロイの木馬に感染」の両方を辞書に登録しても意味がない。

【0061】

そこで、有用度計算部２１は、フレーズの長さと正例集合での頻度に加えて、フレーズ間の包含関係を表す指標に基づいて有用度を計算する。例えば、C-valueを有用度としてもよい。C-valueは以下の式で計算される値のことである。図７は各フレーズの有用度（C-value）とスコアの別例である。
C-valueの定義
C-value=(フレーズ長さ)×(正例集合での頻度−T/C) (C>0の場合)
C-value=(フレーズ長さ)×(正例集合での頻度) (C=0の場合)
T：着目フレーズを包含し着目フレーズよりも長いフレーズの出現頻度の合計
C：着目フレーズを包含し着目フレーズよりも長いフレーズの異なり数（つまり、そのようなフレーズがいくつあるか）

【0062】

以下、Ｔ，Ｃについて具体的に説明する（図７参照）。

【0063】

着目フレーズ：「トロイの木馬」
着目フレーズを包含し着目フレーズよりも長いフレーズ：「トロイの木馬に感染」
T=2：「トロイの木馬に感染」出現頻度2
C=1：着目フレーズを包含し着目フレーズよりも長いフレーズ1

【0064】

着目フレーズ：「トロイ」
着目フレーズを包含し着目フレーズよりも長いフレーズ：「トロイの木馬」「トロイの木馬に感染」
T=3+2=5：「トロイの木馬」出現頻度3、「トロイの木馬に感染」出現頻度2
C=2：着目フレーズを包含し着目フレーズよりも長いフレーズ2

【0065】

着目フレーズ：「木馬」
着目フレーズを包含し着目フレーズよりも長いフレーズ：「トロイの木馬」「トロイの木馬に感染」「木馬に感染」
T=3+2+2=7：「トロイの木馬」出現頻度3、「トロイの木馬に感染」出現頻度2、「木馬に感染」出現頻度2
C=3：着目フレーズを包含し着目フレーズよりも長いフレーズは3

【0066】

着目フレーズ：「トロイの木馬に感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ：なし
T=0
C=0

【0067】

着目フレーズ：「木馬に感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ：「トロイの木馬に感染」
T=2：「トロイの木馬に感染」出現頻度2
C=1：着目フレーズを包含し着目フレーズよりも長いフレーズ1

【0068】

着目フレーズ：「感染」
着目フレーズを包含し着目フレーズよりも長いフレーズ：「トロイの木馬に感染」「木馬に感染」
T=2+2=4：「トロイの木馬に感染」出現頻度2、「木馬に感染」出現頻度2
C=2：着目フレーズを包含し着目フレーズよりも長いフレーズ2

【0069】

着目フレーズ：「メール」
着目フレーズを包含し着目フレーズよりも長いフレーズ：なし
T=0
C=0

【0070】

Ｔ，Ｃにより補正することにより、「トロイの木馬」は有用度=２、「トロイ」は有用度=０．５、「木馬」は有用度=０．６７、「トロイの木馬に感染」は有用度=６、「木馬に感染」は有用度=０、「感染」は有用度=０、「メール」は有用度=２と計算される。

【0071】

「トロイの木馬に感染」の有用度６に対し「木馬に感染」の有用度０である。この結果は、「木馬に感染」が正例文書集合中で必ず「トロイの木馬に感染」という言い回しで用いられている定型フレーズであるため、「木馬に感染」の用語性は低く、検知条件として「トロイの木馬に感染」があれば、「木馬に感染」を条件として追加する意味がないことを示している。

【0072】

一方、「トロイの木馬」の有用度は２である。「トロイの木馬」は「トロイの木馬に感染」以外にも用例があるため、「木馬に感染」よりも用語性が高く、C-valueも大きくなる。

【0073】

用語性とはひとかたまりのフレーズとして使われやすさを表す指標であり、用語性が高いとは、ひとかたまりのフレーズとして使われやすいという意味である。

【0074】

このように、有用度としてC-valueを用いることで他のより長いフレーズに包含されるフレーズは値が小さくなり、冗長な検知条件が追加されることをなくし、辞書精度の向上を図ることができる。

【0075】

次に、検知条件判定部２２がスコア＝特徴度×有用度として計算すると、「トロイの木馬」はスコア=６、「トロイ」はスコア=１．５、「木馬」はスコア=２、「トロイの木馬に感染」はスコア=１２、「木馬に感染」はスコア=０、「感染」はスコア=０、「メール」はスコア=２と計算される。そして、例えば、スコアが５以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の２つが検知条件として適切であると判定する。

【0076】

〜具体的な適用例４〜
適用例３において、適用例２で説明した補正値を用いてもよい。ここでは補正値を「−１」とする。図８は各フレーズの有用度（C-value）とスコアの別例である。
C-valueの定義
C-value=(フレーズ長さ−1)×(正例集合での頻度−T/C) (C>0の場合)
C-value=(フレーズ長さ−1)×(正例集合での頻度) (C=0の場合)
T：着目フレーズを包含し着目フレーズよりも長いフレーズの出現頻度の合計
C：着目フレーズを包含し着目フレーズよりも長いフレーズの異なり数（つまり、そのようなフレーズがいくつあるか）
フレーズ長さの項にある「−１」は、適用例２で記載した補正値「−０．５」と同種の値である。すなわち、フレーズの長さをより強調する補正値である。

【0077】

これにより、有用度の差が更に顕著なる。

【0078】

〜具体的な適用例５〜
有用度が閾値以上のフレーズのみ、特徴度計算部３は特徴度を計算し、検知条件判定部２２は検知条件として適切であるか否かを判定する。

【0079】

具体的に適用例２と比較して説明する。図８は各フレーズの有用度とスコアの別例である。

【0080】

適用例２と同様に、有用度計算部２１は「トロイの木馬」は有用度=４．５、「トロイ」は有用度=１．５、「木馬」は有用度=１．５、「トロイの木馬に感染」は有用度=５、「木馬に感染」は有用度=３、「感染」は有用度=１、「メール」は有用度=１と計算する。

【0081】

特徴度計算部３は、例えば有用度が３以上のフレーズ「トロイの木馬」「トロイの木馬に感染」「木馬に感染」のみ特徴度を計算する。次に、検知条件判定部２２がスコア＝特徴度×有用度として計算すると、「トロイの木馬」はスコア=１３．５、「トロイの木馬に感染」はスコア=１０、「木馬に感染」はスコア=６と計算される。そして、例えば、スコアが１０以上のフレーズを検知条件として採用すると、「トロイの木馬」と「トロイの木馬に感染」の２つが検知条件として適切であると判定する。

【0082】

適用例２では、全フレーズ（７フレーズ）に対し特徴度計算および判定を行うのに対し、適用例５では「トロイの木馬」「トロイの木馬に感染」「木馬に感染」の３フレーズのみ特徴度計算および判定を行う。一方、判定結果は、適用例２も適用例５も同じであり精度は同じである。

【0083】

これにより、精度を維持しながら、計算量を少なく抑えることができる。

【0084】

〜補足〜
適用例１は、主に請求項４および請求項７の詳細について説明している。適用例２は、主に請求項４を除く請求項３について説明している。適用例３・４は、主に請求項５および請求項６について説明している。適用例５は、主に請求項８について説明している。

【0085】

本発明は、テキスト情報監視システムで用いられる辞書を作成する装置であるが、インターネットを対象とした風評監視システムや評判抽出システム等にも適用できる。

【0086】

〜付記〜
上記実施形態において、各部をハードウェアで構成してもよいし、コンピュータプログラムにより実現してもよい。この場合、プログラムメモリに格納されているプログラムで動作するプロセッサによって、上述と同様の機能、動作を実現させる。また、一部の機能のみをコンピュータプログラムにより実現してもよい。

【0087】

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0088】

本発明は、
テキスト情報監視システムで用いられ、検知条件が登録される辞書を作成するテキスト情報監視用辞書作成装置であって、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する特徴度計算部と、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定するフレーズ有用性判定部と
を備えることを特徴とする。

【0089】

本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記フレーズ有用性判定部は、
フレーズの長さに基づいて前記有用度を計算する有用度計算部と、
前記有用度計算部で計算された有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する検知条件判定部と
を有する。

【0090】

本発明のテキスト情報監視用辞書作成装置において、より好ましくは、
前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。

【0091】

一般に、フレーズの長さが長いほど意味の曖昧性が少なくなり、検知条件としての適合率は高くなる。本発明では上記構成により、長さの長いフレーズを優先する。その結果、従来技術に比べて高精度な検知が実現可能となる。

【0092】

例えば、
前記有用度計算部は、フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。

【0093】

本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記有用度計算部は、前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。

【0094】

より好ましくは、
前記フレーズ間の包含関係を表す指標は、
着目フレーズより長い他フレーズが着目フレーズを包含する場合、
他フレーズの出現頻度の合計と他フレーズの数との比である。

【0095】

包含関係を考慮することにより、他のより長いフレーズに包含されるフレーズは値が小さくなり、冗長な検知条件が追加されることをなくし、辞書精度の向上を図ることができる。

【0096】

本発明のテキスト情報監視用辞書作成装置において、好ましくは、
前記検知条件判定部は、前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。

【0097】

これにより、有用度を考慮した検知ができる。

【0098】

本発明のテキスト情報監視用辞書作成装置において、より好ましくは、
前記有用度計算部で計算された有用度が閾値以上のフレーズに対し、
前記特徴度計算部は特徴度を計算し、
前記検知条件判定部はフレーズが検知条件として適切であるか否かを判定する。

【0099】

これにより、精度を維持しながら、計算量を少なく抑えることができる。

【0100】

本発明は、
テキスト情報監視システムで用いられる辞書の作成方法であって、
テキスト情報監視用辞書作成装置が、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算し、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定し、
適切であると判断したフレーズを出力し検知条件として登録する
ことを特徴とする。

【0101】

本発明のテキスト情報監視用辞書作成方法において、好ましくは、
フレーズの長さに基づいて前記有用度を計算し、
前記有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する。

【0102】

より好ましくは、
前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。

【0103】

例えば、
フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。

【0104】

本発明のテキスト情報監視用辞書作成方法において、好ましくは、
前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。

【0105】

【0106】

本発明のテキスト情報監視用辞書作成方法において、好ましくは、
前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。

【0107】

本発明のテキスト情報監視用辞書作成方法において、より好ましくは、
前記有用度計算部で計算された有用度が閾値以上のフレーズに対し、特徴度を計算し、
フレーズが検知条件として適切であるか否かを判定する。

【0108】

本発明は、
テキスト情報監視用辞書作成プログラムであって、
検知条件候補のフレーズに対して、フレーズが監視対象の情報内容に適合する度合いを表す特徴度を計算する処理と、
前記特徴度とフレーズによって規定される意味の曖昧さの少なさを表す有用度とに基づいて、フレーズが検知条件として適切であるか否かを判定する処理と、
適切であると判断したフレーズを出力し検知条件として登録する処理と
をテキスト情報監視用辞書作成装置に実行させることを特徴とする。

【0109】

本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
フレーズの長さに基づいて前記有用度を計算する処理と、
前記有用度と前記特徴度とに基づいて、フレーズが検知条件として適切であるか否かを判定する処理と
を実行させる。

【0110】

本発明のテキスト情報監視用辞書作成プログラムにおいて、より好ましくは、
前記有用度計算処理では、前記フレーズの長さと文書集合中の頻度とに基づいて有用度を計算する。

【0111】

例えば、
前記有用度計算処理では、フレーズの長さ又はその対数値と文書集合中の頻度又はその対数値との積によって有用度を計算する。

【0112】

本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
前記有用度計算処理では、前記フレーズの長さと文書集合中の頻度とフレーズ間の包含関係を表す指標とに基づいて有用度を計算する。

【0113】

【0114】

本発明のテキスト情報監視用辞書作成プログラムにおいて、好ましくは、
前記検知条件判定処理では、前記有用度又はその対数値と前記特徴度又はその対数値との積によってフレーズが検知条件として適切であるか否かを判定する。

【0115】