特許第5751318号(P5751318)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンITソリューションズ株式会社の特許一覧

特許5751318文書分類装置、文書分類方法、及びプログラム
<>
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000009
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000010
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000011
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000012
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000013
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000014
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000015
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000016
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000017
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000018
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000019
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000020
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000021
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000022
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000023
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000024
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000025
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000026
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000027
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000028
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000029
  • 特許5751318-文書分類装置、文書分類方法、及びプログラム 図000030
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5751318
(24)【登録日】2015年5月29日
(45)【発行日】2015年7月22日
(54)【発明の名称】文書分類装置、文書分類方法、及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150702BHJP
【FI】
   G06F17/30 210D
   G06F17/30 350C
   G06F17/30 419A
【請求項の数】8
【全頁数】22
(21)【出願番号】特願2013-247330(P2013-247330)
(22)【出願日】2013年11月29日
(65)【公開番号】特開2014-135045(P2014-135045A)
(43)【公開日】2014年7月24日
【審査請求日】2013年12月20日
(31)【優先権主張番号】特願2012-269853(P2012-269853)
(32)【優先日】2012年12月10日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(73)【特許権者】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100188938
【弁理士】
【氏名又は名称】榛葉 加奈子
(72)【発明者】
【氏名】田中 靖大
【審査官】 加舎 理紅子
(56)【参考文献】
【文献】 特開2011−191834(JP,A)
【文献】 特開2000−250925(JP,A)
【文献】 特開2004−126883(JP,A)
【文献】 特開2007−199966(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定手段と、
前記類似度、及び、前記階層的に分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定手段と、
前記第一の分野判定手段によって求まる分野毎の類似度の合計に対する第二の分野判定手段によって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定手段と、
を備えたことを特徴とする文書分類装置。
【請求項2】
前記未分類の入力文書は、複数の入力文書であり、
前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて、前記入力文書間の類似度を求める第四の分野判定手段を備えたことを特徴とする請求項1に記載の文書分類装置
【請求項3】
前記第三の分野判定手段は、前記未分類の入力文書における単語の頻出度を求めてスコアとし、
前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコア及び前記単語の頻出度から求まるスコアを用いて、前記入力文書間の類似度を求めることを特徴とする請求項2に記載の文書分類装置
【請求項4】
前記第四の分野判定手段は、前記入力文書のそれぞれに対して、それぞれの分野における前記スコアを用いて求まる前記入力文書間の類似度と、前記単語の頻出度から求まる前記分野に応じたスコアを用いた前記入力文書間の類似度と、から前記入力文書間の類似度を求めることを特徴とする請求項2または3に記載の文書分類装置
【請求項5】
前記第四の分野判定手段によって求まる入力文書間の類似度を用いた階層的クラスタリングによって、前記入力文書間の関係を、階層を有するクラスタとして出力する出力手段を備えたことを特徴とする請求項3または4に記載の文書分類装置
【請求項6】
前記第二の分野判定手段は、前記階層の深さに応じた各階層のそれぞれの分野における分野類似度を求めることを特徴とする請求項1乃至5の何れか1項に記載の文書分類装置
【請求項7】
文書分類装置における未分類の文書を分野分類する文書分類方法であって、
前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定ステップ、
前記文書分類装置の第二の分野判定手段は、前記類似度、及び、前記分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定ステップ、
前記文書分類装置の第三の分野判定手段は、前記第一の分野判定ステップによって求まる分野毎の類似度の合計に対する第二の分野判定ステップによって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定ステップ、
を含むことを特徴とする文書分類方法。
【請求項8】
文書分類装置で読取実行可能なプログラムであって、
前記文書分類装置を、
未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定手段と、
前記類似度、及び、前記階層的に分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定手段と、
前記第一の分野判定手段によって求まる分野毎の類似度の合計に対する第二の分野判定手段によって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定手段と、
して機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子的に記憶された文書を、文書の内容に基づいて、当該文書の分野を特定すると共に、特定した分野に基づき文書をクラスタリングする技術に関する。
【背景技術】
【0002】
世の中において、作成される電子文書は増大する一方であり、電子文書の自動的な分類に対するニーズは高まっている。
【0003】
近年、文書を、文書のテキストを構成する単語のベクトル(特徴ベクトル)と見做し、特徴ベクトルの近さにより文書相互の類似の度合い(類似度)を数値化することで文書分類を実現する手法が提案されている。
【0004】
特許文献1には、未分類の文書から抽出した単語を基にした特徴ベクトルに対し、予め分野分類済みの文書から抽出した単語に基づく特徴ベクトルとの類似度を計算し、最も類似する分野分類済み文書が属する分野を、未分類の文書の属する分野と判定する手法が記載されている。
【0005】
また、特許文献2には、文書から抽出した単語ベクトルに対し、自己組織化マップを用いて文書をクラスタリングする手法が記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平11−167581号公報
【特許文献2】特開平8−263514号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記特許文献1では、文書から抽出した単語ベクトルを用いて、文書の属する分野を特定することが可能であることが示されており、また、上記特許文献2では、文書から抽出した単語ベクトルを用いて、文書をクラスタリングすることが可能であることが示されている。
【0008】
しかしながら、特許文献1および特許文献2では、構成する単語で文書の特徴として表現するため、学習および分類の対象となる文書が特定の分野に属していることが前提であることは自明であり、不特定の分野の内容を含む文書集合を分類することができないという問題を有する。
【0009】
また、特許文献1では、分類結果として何れかの一つの分野に特定するため、文書の内容が複数の分野にまたがる場合や、階層的に上位の分野に属する場合に対応することができないという問題もある。更に、特許文献1では、分類したい対象に応じた学習データを個別に用意する必要がある。
【0010】
そこで、本発明の目的は、文書を分類するにあたり、網羅的に文書を分類することで、より精緻な分類を行うことを支援するが可能な文書分類装置、文書分類方法、及びプログラムを提供する。
【課題を解決するための手段】
【0011】
上記課題を解決するための第1の発明は、未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定手段と、前記類似度、及び、前記階層的に分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる分野毎の類似度の合計に対する第二の分野判定手段によって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定手段と、を備えたことを特徴とする。
【0012】
上記課題を解決するための第2の発明は、文書分類装置における未分類の文書を分野分類する文書分類方法であって、前記文書分類装置の第一の分野判定手段は、未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定ステップ、前記文書分類装置の第二の分野判定手段は、前記類似度、及び、前記分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定ステップ、前記文書分類装置の第三の分野判定手段は、前記第一の分野判定ステップによって求まる分野毎の類似度の合計に対する第二の分野判定ステップによって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定ステップ、を含むことを特徴とする。
【0013】
上記課題を解決するための第3の発明は、文書分類装置で読取実行可能なプログラムであって、前記文書分類装置を、未分類の入力文書と複数の階層的に分類された分野に分類された少なくとも1以上の文書との類似度、及び前記階層的に分野分類された文書が属する分野の数を用いて、前記未分類の入力文書及び前記階層的に分野分類された文書間の分野毎の類似度の合計を求める第一の分野判定手段と、前記類似度、及び、前記階層的に分野分類された文書が属する各階層のそれぞれの分野の数を用いることで、前記未分類の入力文書及び前記階層的に分野分類された文書間の各階層のそれぞれの分野毎の分野類似度を求める第二の分野判定手段と、前記第一の分野判定手段によって求まる分野毎の類似度の合計に対する第二の分野判定手段によって求まる分野類似度から、前記入力文書を何れの分野に分類するか決定するためのスコアを求める第三の分野判定手段と、して機能させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、網羅的、階層的な分野分類済み文書に基づき分類を行うので、特定の分野に限定されない、広く一般的な分野分類を実現することが可能となる。
【図面の簡単な説明】
【0015】
図1】本発明の実施形態に係る文書分類装置の機能構成の一例を示す構成図である。
図2】本発明の実施形態に係る文書分類装置に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
図3】本発明の実施形態における文書分類装置の分野知識構築処理の一例を示すフローチャートである。
図4】本発明の実施形態における文書分類装置で用いられる類似文検索の一例を示す図である。
図5】本発明の実施形態における分野知識文書の一例を示す図である。
図6】本発明の実施形態における分野情報テーブルの構成例を示す構成図である。
図7】本発明の実施形態における文書分類装置の分野判定処理の一例を示すフローチャートである。
図8】本発明の実施形態における未分類文書の一例を示す図である。
図9】本発明の実施形態における文書分類装置の分野判定部により生成される処理対象文書に対する類似文検索の結果の一例を示す図である。
図10】本発明の実施形態における文書分類装置の分野判定部により生成される処理対象文書に対する分野情報の一例を示す図である。
図11】本発明の実施形態における文書分類装置の分野判定部による分野ベクトル算出処理の出力結果の一例を示す図である。
図12】本発明の実施形態における文書分類装置の機能構成の一例を示す構成図である。
図13】本発明の実施形態における処理対象となる未分類文書の一覧を示す図である。
図14】本発明の実施形態における文書に対する分野判定部の出力結果の一例を示す図である。
図15】本発明の実施形態における文書クラスタリング処理の一例を示すフローチャートである。
図16】本発明の実施形態における文書相互の類似度の一覧を示す図である。
図17】本発明の実施形態における文書に対するクラスタリング結果の一例を示す図である。
図18】本発明の実施形態における文書クラスタリング処理の一例を示すフローチャートである。
図19】本発明の実施形態における処理対象となる未分類文書の一覧を示す図である。
図20】本発明の実施形態における文書クラスタリング部により分野ベクトルと単語ベクトルとから合成された文書の特徴ベクトルの一例を示す図である。
図21】本発明の実施形態における類文書相互の類似度の一覧を示す図である。
図22】本発明に実施形態における未分類文書が属する分野の位置等をグラフ図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0017】
図1は、本発明の文書分類装置の機能構成の一例を示す図である。
【0018】
文書分類装置100は、分野判定部103及び分野知識構築部106を含んで構成され、分野判定部103は、予め外部から与えられた分野知識文書107に基づき、分野知識文書107の本文を抽出したり、分野を特定して、類似文検索インデックス102及び分野情報テーブル104へ記憶する。
【0019】
分野判定部103は、外部から与えられた未分類文書101の内容を解析し、未分類文書101が属する分野を類似文検索インデックス102及び分野情報テーブル104用いて特定し、特定結果を分野ベクトル105として出力する。
【0020】
尚、各機能の詳細な説明は、後述するフローチャートを用いて説明する。
【0021】
以下、図2を用いて、図1に示した文書分類装置100に適用可能な情報処理装置のハードウェア構成について説明する。
【0022】
図2は、図1に示した文書分類装置100に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
【0023】
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
【0024】
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
【0025】
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。なお、図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。
【0026】
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0027】
208は通信I/Fコントローラで、ネットワーク(例えば、図1に示したLAN400)を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
【0028】
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0029】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
【0030】
(分野知識構築)
次に、図3のフローチャートを参照して、本実施形態の文書分類装置における分野知識構築処理について説明する。
【0031】
ステップS301において分野知識構築部106は、分野知識文書107の全ての分野知識文書に対してステップS304までの繰り返し処理を開始する。
【0032】
ステップS302において分野知識構築部106は、分野知識文書の本文と文書IDを関連付けて類似文検索インデックス102に追加する。
【0033】
ステップS303において分野知識構築部106は、分野知識文書の文書IDと分野情報を関連付けて分野情報テーブル104に追加する。
【0034】
ステップS304において分野知識構築部106は、次の分野知識文書がある場合、ステップS301からの処理を実施する。次の分野知識文書がない場合、処理を終了する。
【0035】
(具体例)
分野知識構築処理の具体例について説明する。
【0036】
分野知識文書107は網羅的かつ階層的な分野に整理された文書の集合である。
【0037】
例えばWikipedia(http://ja.wikipedia.org)のような文書集合を基に構築することが可能である。
【0038】
図5に分野知識文書107の一例を示す。分野知識文書107は複数の分野知識文書からなり、分野知識文書107は、本文と分野が一意に特定できれば、どのような構成であっても構わない。
【0039】
本実施形態において、分野知識文書107は、分野知識文書を一意に識別する文書ID列501、本文列502、分野列503から構成されるテーブルに格納されているとする。
【0040】
ステップS301において分野知識構築部106は、図5の最初の分野知識文書(文書ID=101)に対して処理を開始する。
【0041】
ステップS302において分野知識構築部106は、分野知識文書(文書ID=101)の本文列502と文書ID列501を関連付けて、類似文検索インデックス102に追加する。
【0042】
図4に類似文検索の一例を示す。
【0043】
まず、登録されている文書を単語に分解し、当該文書を一意に識別する出現文書IDと共に、分解して得られた単語をインデックスに追加する。
【0044】
検索文(類似文検索では、この文書に類似する登録文書を取得する。)を単語に分解し、前記のインデックスから当該検索文の単語に該当する出現文書IDを取得する。
【0045】
そして、取得した出現文書IDに関して、登録された文書と検索文との類似度を算出する。尚、類似度の算出方法としては、簡易な方法の一例として、検索文の一致単語数と被検索文書(登録された文書)の一致単語数とを加算してえられた値を、検索文の単語数と被検索文書(登録された文書)の単語数とを加算して得られた値で、除算したものを用いる。
【0046】
すると、各出現文書ID毎に、類似度が求められ、最も類似度の高い出現文書IDから特定される登録された文書が、検索文に類似していると判定することが可能である。
【0047】
本実施形態では、単語に基づく類似文書の判定について述べているが、連接文字(n-gram)などに基づいて判定してもよい、また文書の類似度の算出に際しては、単語や連接文字に対しtf・idfや出現頻度などに基づき重み付けを与えてもよいし、重みや品詞などに基づき対象から外してもよい。さらに類似度の算出方法についてはコサイン類似度など別の方法を用いてもよい。
【0048】
ステップS303において分野知識構築部106は、分野知識文書(文書ID=101)の文書ID列501と分野列503を関連付けて分野情報テーブル104に追加する。
【0049】
図6に分野情報テーブルの一例を示す。
【0050】
ステップS304において分野知識構築部106は、次の分野知識文書(文書ID=102)があるので、ステップS301に処理を戻す。
【0051】
以下、同様のステップを繰り返す。
【0052】
(分野判定処理)
次に、図7のフローチャートを参照して、本実施形態の文書分類装置における分野判定処理について説明する。
【0053】
ステップS701において分野判定部103は、外部から入力された未分類文書101の本文に類似する文書を類似文検索インデックス102を用いて検索し、類似度が高い順に規定の数まで類似文書の文書IDと類似度の組を取得する。
【0054】
取得する類似文書を、類似度が規定の値より大きい文書だけに制限してもよいし、文書数および類似度両方の規定値により制限してもよい。
【0055】
ステップS702において分野判定部103は、分野情報テーブル104からステップS701で取得した各々の文書IDに関連付けられた分野情報を取得する。
【0056】
ステップS703において分野判定部103は、ステップS701およびステップS702において取得した類似度と分野情報の類似度の合計を式1を用いて算出する。一つの文書に複数の分野に対応する場合は、分野の数だけ文書があると見做して算出する。
【0057】
一つの文書に複数の分野が対応する場合に、それぞれの分野に対して類似度を等分するように構成してもよいし、階層などにより重み付けを行って配分してもよい。
[式1]
【0058】
ステップS704において分野判定部103は、取得した全ての類似文書に対してステップS712までの繰り返し処理を開始する。
【0059】
ステップS705において分野判定部103は、処理対象となっている類似文書に対応する分野情報全てに対してステップS711までの繰り返し処理を開始する。
【0060】
ステップS706において分野判定部103は、処理対象となっている分野情報の階層を分解する。
【0061】
ステップS707において分野判定部103は、ステップS706で分解した各階層の分野全てに対して、ステップS710までの繰り返し処理を開始する。
【0062】
ステップS708において分野判定部103は、分野のスコアが既に算出済みか否かを判定する。スコアが算出済みであれば、ステップS710に処理を移す。スコアが算出されていなければ、ステップS709に処理を移す。
【0063】
ステップS709において分野判定部103は、式2および式3により、処理対象となっている分野のスコアを算出する。各式は一例であり、階層の高さを加味した式など異なる式を用いてもよい。
[式2]
[式3]
【0064】
ステップS710において分野判定部103は、次の分野がある場合、ステップS707からの処理を実施する。次の分野がない場合、ステップS711に処理を移す。
【0065】
ステップS711において分野判定部103は、次の分野情報がある場合、ステップS705からの処理を実施する。次の分野情報がない場合、ステップS712に処理を移す。
【0066】
ステップS712において分野判定部103は、次の類似文書がある場合、ステップS704からの処理を実施する。次の類似文書がない場合、処理を終了する。
【0067】
(具体例)
分野判定処理の具体例について説明する。
【0068】
図8に示す文書801が未分類に入力文書として与えられた場合について説明する。
【0069】
ステップS701において分野判定部103は、未分類入力文書801に類似する文書を類似文検索インデックス102から検索し、図9に示す類似文検索結果を得る。
【0070】
ステップS702において分野判定部103は、分野情報テーブル104からステップS701で取得した文書IDごとに関連付けられた分野情報を取得し、図10に示す分野情報を得る。
【0071】
ステップS703において分野判定部103は、図9に示す類似度と分野情報から式1を用いて類似度の合計Sを算出する。
S=0.37×2+0.35×2+0.32×2+0.30×1+0.22×1+0.20×1+0.03×2=2.86
【0072】
ステップS704において分野判定部103は、類似文書(文書ID=105)に対してステップS712までの繰り返し処理を開始する。
【0073】
ステップS705において分野判定部103は、処理対象となっている類似文書(文書ID=105)に対応する分野情報1001に対してステップS711までの繰り返し処理を開始する。
【0074】
ステップS706において分野判定部103は、処理対象となっている分野情報1001(「スポーツ/野球/プロ野球/野球選手」)の階層を分解して「スポーツ」、「野球」、「プロ野球」、「野球選手」の4つの分野を得る。
【0075】
ステップS707において分野判定部103は、ステップS706で取得した分野「スポーツ」に対して、ステップS710までの繰り返し処理を開始する。
【0076】
ステップS708において分野判定部103は、分野「スポーツ」のスコアが算出されていないので、ステップS709に処理を移す。
【0077】
ステップS709において分野判定部103は、式2および式3により、処理対象となっている分野のスコアを算出する。
S(スポーツ)=0.37×2+0.35×2+0.32×2+0.30×1+0.22×1+0.20×1=2.80
score(スポーツ)=S(スポーツ)/S=2.8/2.86=0.98
【0078】
ステップS710において分野判定部103は、次の分野「野球」があるので、ステップS707からの処理を実施する。
【0079】
分野「野球」に対し、ステップS707からステップS709の処理を実施し、score(野球) = 0.63を得る。
【0080】
同様に分野「プロ野球」「野球選手」に対し score(プロ野球)=0.63、score(野球選手)=0.31を得る。
【0081】
ステップS710において分野判定部103は、次の分野がないので、ステップS711に処理を移す。
【0082】
ステップS711において分野判定部103は、次の分野情報1002があるので、ステップS705からの処理を実施する。
【0083】
ステップS705において分野判定部103は、分野情報1002に対してステップS711までの繰り返し処理を開始する。
【0084】
ステップS706において分野判定部103は、処理対象となっている分野情報1002(「スポーツ/野球/プロ野球/セントラル・リーグ/阪神」)の階層を分解して「スポーツ」、「野球」、「プロ野球」、「セントラル・リーグ」、「阪神」を得る。
【0085】
ステップS707において分野判定部103は、ステップS706で取得した分野「スポーツ」に対して、ステップS710までの繰り返し処理を開始する。
【0086】
ステップS708において分野判定部103は、分野「スポーツ」のスコアが算出されているので、ステップS710に処理を移す。
【0087】
以下、同様の処理を繰り返し、新たに分野「セントラル・リーグ」、「阪神」に対し score(セントラル・リーグ)=0.39、score(阪神)=0.21を得て、処理をステップS710に処理を移す。
【0088】
ステップS710において分野判定部103は、次の分野がないので、ステップS711に処理を移す。
【0089】
ステップS711において分野判定部103は、次の分野情報ないので、ステップS712に処理を移す。
【0090】
ステップS712において分野判定部103は、次の類似文書がある場合、ステップS704に処理を移す。
【0091】
以下、同様の処理を繰り返し、図11に示す結果を得る。
【0092】
図11は、図8に示す文書が属する分野を表現する分野ベクトルと見做すことができる。図8の文書が主に分野「スポーツ」に関するものであり「野球」と「サッカー」両方に関する内容を含んでいると判断することが可能となる。
【0093】
分野に対して関連する度合いを数値化することにより様々な応用が可能となる。一例として、任意に選択された分野(観点)に対し、文書集合を視覚的に分析する場合について説明する。
【0094】
観点として2つの分野「野球」と分野「サッカー」が選択されたとする。観点は1または3以上で構成してもよい。
【0095】
分野ベクトルの「野球」と「サッカー」のスコアに応じて、文書を平面上に配置する。分野「野球」と分野「サッカー」を2軸とする平面上に文書801を配置した場合を図22に示す。文書801は配置された位置により、分野「野球」との関連が強く、分野「サッカー」とも関連していることを示している。
【0096】
同様に文書集合に含まれるすべての文書を同一平面上に配置すれば、文書集合全体の特性を視覚化することが可能となる。例えば、図22から、文書集合においては、分野「野球」に関する文書が多く、分野「サッカー」に関する文書は少ないことを視覚的に把握することが可能となる。
【0097】
さらに選択する分野を変更すれば、様々な観点により文書集合を分析することが可能となる。
【0098】
これにより、文書を一つの分野ではなく、関連する複数の分野に対し関連する度合いで数値化し、重み付きの分野のベクトル(分野ベクトル)として表現することで、文書を様々な観点で比較することが可能となる。
【0099】
これにより各種クラスタリング手法を用いた場合(詳細後述)に、人間の直観に適う文書のグループ分けを実現することを目的とする。つまり文書の内容が複数の分野にまたがる場合や、階層的に上位の分野に属する場合も分類するのに好適である。
【0100】
また、網羅的な分野分類済み文書に基づく分野知識を一度構築すれば、分類対象によらず利用することが可能であり、分類対象が変わっても分野知識を都度構築する必要がない。
【0101】
(第2の実施形態)
図12は、第2の実施形態における文書分類装置の構成の一例を示す図である。
【0102】
第2の実施形態における文書分類装置は、第1の実施形態における文書分類装置100に、複数の文書に対する分野ベクトルを保存する分類済み文書情報保存領域1201と、保存した複数の分野ベクトルに基づき文書集合をクラスタリングする文書クラスタリング部1202を追加し、クラスタリング結果1203を出力するように構成する。
【0103】
分野知識構築部106の動作は第1の実施形態と同様である。
【0104】
分野判定部103の動作は、出力した分野ベクトル105を分類済み文書情報保存領域1201に保存する以外は、第1の実施形態と同様である。
(クラスタリング処理)
【0105】
次に、図15のフローチャートを参照して、本実施形態の文書分類装置における文書クラスタリング処理について説明する。本実施形態においては、ウォード法などの階層的クラスタリング手法のように文書相互の類似度に基づいた手法を用いる場合についての説明するが、K平均法や自己組織化マップなどの手法を用いてクラスタリングする構成にしてもよい。
【0106】
ステップS1501において文書クラスタリング部1202は、分類済み文書情報保存領域1201に保存されている文書相互の類似度を分野ベクトルに基づいて算出する。
【0107】
式4に分野ベクトルに基づく文書の類似度を算出する式の一例である。本実施の形態においてはコサイン類似度(各パラメータは、各文書の分野ベクトルを用いる。)を用いるが、別の類似度算出式を用いて構成してもよい。
[式4]
【0108】
ステップS1502において文書クラスタリング部1202は、算出した文書間の類似度に基づいて、ウォード法などの階層的クラスタリング手法を用いて文書をクラスタリングする。
【0109】
(具体例)文書クラスタリング処理の具体例について説明する。
【0110】
図13に示す4つの未分類文書が入力され、分野判定部103により分野ベクトルを算出し、分類済み文書情報保存領域1201に保存した結果、分類済み文書情報保存領域1201が図14に4つの分野ベクトルがあるとする。
【0111】
ステップS1501において文書クラスタリング部1202は、図14に保存されている文書相互の分野ベクトルに基づく類似度を、式4を用いて算出した結果、図16の表を得る。
【0112】
ステップS1502において文書クラスタリング部1202は、図16の表を用いて、文書の類似度に基づき、階層的クラスタリング手法により文書のクラスタリングを実施する。
【0113】
クラスタリング処理の詳細は省略するが、ウォード法などの階層的クラスタリグ手法を用いると、図16の類似関係から図17のような順位付けられた階層を持つクラスタが得られる。
【0114】
一般的に単語ベクトルに基づき文書間の類似度を求めると「阪神」「延長」が共通する文書1と文書4が最も類似すると判定され、同じ野球の話題である文書1と文書2は共通の単語が存在しないため最も類似しない文書と判定され、クラスタリングの結果も人間の直観に適わない。
【0115】
しかし、本実施の形態によれば、共通する単語がない文書1と文書2を最も類似すると判断でき、人間の直観に適うクラスタリングの結果を得ることが可能となる。
【0116】
図17に示すクラスタリングの結果において最上位の階層で分割すると、文書1〜文書4からなる文書集合は、スポーツの文書集合(文書1〜文書3)とスポーツ以外の文書集合(文書4)の2つのグループに分割することができる。
【0117】
文書集合を3つのグループにしたい場合は、更に2番目の階層から分割することで、スポーツの文書集合を野球の文書集合(文書1、文書2)とサッカーの文書集合(文書3)に分けることができる。
【0118】
具体例では文書集合の文書数が4であり、全ての文書の内容を見て判断することは容易であるが、対象となる文書数が数千、数万と大きい場合、全ての文書の内容を目視して判断することは困難となる。また、分類の基準となる例文を与えることにより分類を行う手法では、文書集合の内容に応じて例文を用意する必要があるが、妥当な分類基準となる例文を用意することは困難である。
【0119】
本手法を用いれば、文書の内容に基づき、文書集合の特性に応じた任意の数のグループに、人手を介すことなく分割することが可能となる。また、階層的にグループ化されるので、グループの統合および分割も容易となる。グループに分割された文書に対しては、ラベルや属性を一括して付与するなど様々な応用が可能となる。
【0120】
(第3の実施形態)
第3の実施形態における文書分類装置は、第2の実施形態における文書分類装置と同様の構成からなるが、文書の分野ベクトルと単語ベクトルを合成して文書の特徴ベクトルとする点が異なる。
【0121】
図18のフローチャートを参照して、本実施形態の文書分類装置における文書クラスタリング処理について説明する。
【0122】
ステップS1801において、文書クラスタリング部1202は、分野ベクトルに単語ベクトルを合成する。
【0123】
単語ベクトルの算出手順は割愛するが、式5に単語ベクトルにおける単語に対する要素の値の算出方法の一例を示す。dは分野ベクトルと単語ベクトルの影響の度合いを調整するための重みである。単語に対するWの値はtf・idf値や頻度などから算出するように構成してもよい。
[式5]
【0124】
以後は、第2の実施形態と同様の処理を行う(ステップS1501、ステップS1502)。
【0125】
本実施の形態においては、分野ベクトルと単語ベクトルを合成した特徴ベクトルに対して類似度を求めたが、分野ベクトルから算出した類似度と単語ベクトルから算出した類似度から文書の類似度を算出するように構成してもよい。式6に分野ベクトルの類似度と単語ベクトルの類似度から文書の類似度を算出する式の一例を示す。
[式6]
【0126】
(具体例)
d=1のときに、図19の文書集合に対し、算出した文書の特徴ベクトルの一例を図20に示す。
【0127】
本実施形態においては助詞、助動詞や記号等を単語ベクトルの要素から除外している。単語の品詞以外にtf・idfや頻度などの値を利用して単語を限定するように構成してもよい。
【0128】
図20の文書特徴ベクトルから類似度を算出した結果を図21に示す。
【0129】
分野ベクトルのみを用いた場合、文書5に対し文書1および文書2ともに同じくらい類似していると判定される。しかし単語ベクトルを合成した場合、共通する単語(「鈴木一男」「延長」「巨人」)が多い文書1のほうをより類似していると判定することが可能となる。
【0130】
網羅的、階層的な分野分類済み文書に基づき分類を行うので、特定の分野に限定されない、広く一般的な分野分類を実現することが可能となる。
【0131】
(第4の実施形態)
第4の実施形態における文書分類装置は、第1の実施形態におけるステップS709にでは、分野判定部103が、式2および式3により、処理対象となっている分野のスコアを算出しているが、階層の高さを加味したスコアの算出方法を適用する態様を説明する。
【0132】
基本的には、式3に対するカテゴリの階層の深さに対して重み付けを行うことで、当該態様を実現するが、その1例として、式3を改良した式7を用いて算出を行う。
[式7]
【0133】
ステップS709において分野判定部103は、式2および式7により、処理対象となっている分野のスコアを算出する。
【0134】
rw(r)は、階層の深さに関連した重みであり、rの値が大きくなるにつれrw(r)の値が大きくなるように構成すれば、より深い階層の概念に対するスコアを大きくなるように調整することが可能となる。尚、第1の実施形態では、その1例として、rw(r)の値は、階層の深さに関係なく常に1として考えて良い。但し、各式は一例であり異なる式を用いてもよい。
【0135】
また、本発明は、例えば、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。
【0136】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることができる。
【0137】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0138】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0139】
また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0140】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0141】
100 文書分類装置
201 CPU
202 ROM
203 RAM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/Fコントローラ
209 キーボード
210 ディスプレイ
211 外部メモリ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22