(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-01
(45)【発行日】2023-05-12
(54)【発明の名称】文書分析装置および文書分析方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20230502BHJP
【FI】
G06F16/35
(21)【出願番号】P 2019064867
(22)【出願日】2019-03-28
【審査請求日】2022-02-15
(73)【特許権者】
【識別番号】000233538
【氏名又は名称】株式会社日立ソリューションズ東日本
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】飯塚 新司
(72)【発明者】
【氏名】菊地 大介
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2013-196212(JP,A)
【文献】国際公開第2015/181962(WO,A1)
【文献】特開2009-294939(JP,A)
【文献】特開2004-086262(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理部と、
前記文書データ前処理部による前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去部と、
前記孤立文書除去部により孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理部と、
前記クラスタリング処理部によりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出部と
を有
し、
前記孤立文書除去部は、コサイン距離が閾値dよりも近い文書ベクトルをもつ類似文書数が閾値nより少ない文書を孤立していると判断して除外し、
前記クラスタリング処理部は、実数値ベクトルをクラスタリングする手法を用いて文書ベクトルをクラスタ化することにより、文書の類似度を考慮したクラスタリングを行い、クラスタ中心点を、前記文書データ前処理部により算出した文書ベクトルからランダム抽出したベクトルとすることで初期化し、
前記ランダム抽出において、前記文書ベクトルが抽出される確率が、前記文書ベクトルと初期化済みのクラスタ中心点とのコサイン距離の最小値のα乗と、前記文書ベクトルとのコサイン距離が前記閾値dよりも近い文書ベクトルの個数のβ乗と、に比例する確率であることを特徴とする文書分析装置。
【請求項2】
さらに、
前記孤立文書除去部における処理で用いるn及びdと、前記クラスタリング処理部における処理で用いるα,βと、クラスタ数kと、をパラメータのセットとして、代表文書に類似する文書の件数の割合である第1の指標と、クラスタリングの正解データと比較したクラスタリング精度の評価指標である第2の指標とを算出する評価指標算出部を有し、
前記第1の指標と前記第2の指標の組をプロットして表示する散布図表示部をさらに有し、
前記散布図表示部で表示されたプロットから、所定の判断基準に基づき自動で選択されたプロットか、または、ユーザの判断により手動で選択されたプロットに基づいて、前記パラメータを再設定することを特徴とする請求項
1に記載の文書分析装置。
【請求項3】
前記代表文書抽出部は、
クラスタ中心点とコサイン距離が最も近い文書ベクトルを持つ文書を抽出することを特徴とする請求項1
または2に記載の文書分析装置。
【請求項4】
コンピュータによる文書分析方法であって、
分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理ステップと、
前記文書データ前処理ステップによる前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去ステップと、
前記孤立文書除去ステップにより孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理ステップと、
前記クラスタリング処理ステップによりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出ステップと
を有
し、
前記孤立文書除去ステップでは、コサイン距離が閾値dよりも近い文書ベクトルをもつ類似文書数が閾値nより少ない文書を孤立していると判断して除外し、
前記クラスタリング処理ステップでは、実数値ベクトルをクラスタリングする手法を用いて文書ベクトルをクラスタ化することにより、文書の類似度を考慮したクラスタリングを行い、クラスタ中心点を、前記文書データ前処理ステップにより算出した文書ベクトルからランダム抽出したベクトルとすることで初期化し、
前記ランダム抽出において、前記文書ベクトルが抽出される確率が、前記文書ベクトルと初期化済みのクラスタ中心点とのコサイン距離の最小値のα乗と、前記文書ベクトルとのコサイン距離が前記閾値dよりも近い文書ベクトルの個数のβ乗と、に比例する確率であることを特徴とする文書分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分析技術に関する。
【背景技術】
【0002】
大量の文書を分析する際、文書すべてを読んでその内容を把握するには多大な手間がかかる。そこで、
図1に示すように、大量の文書群D1,D2,…から、よくある内容の文書(D
A,D
B,…)をいくつか抽出し(L1)、文書D
A,D
B,…を読むことで、大量の文書群D1,D2,…の内容を把握したいというニーズがある。これにより、大量の文書すべてを読むのに多大な手間がかかるという課題を解決することが期待できる。
これに対し、従来の技術では、例えば、
図2に示すような文書クラスタリング技術が用いられている。文書クラスタリング技術は、大量の文書を、内容が類似する文書の集まりであるクラスタに分類する。
図2では、大量の文書群D1,D2,…が、文書D
Aと内容が類似する文書を含むクラスタ1,文書D
Bと内容が類似する文書を含むクラスタ2,…というようにクラスタへと分類されている(L2)。そして、各クラスタの文書の内容を把握することにより(L3)、元の大量の文書の主な内容(Sa1)を把握することが行われている。
【0003】
下記の特許文献1に記載の技術では、質問文書の各文をルールベースでラベル付けし、質問文書内容の談話構造を解析する。そして、ユーザ指定のキーワードに関連する質問文書群を抽出し、談話構造をもとにグループ化する。これにより、各グループの質問の代表文をFAQ(代表質問)候補としてリスト表示することができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第5574842号公報(「FAQ候補抽出システムおよびFAQ候補抽出プログラム」)
【発明の概要】
【発明が解決しようとする課題】
【0005】
文書が数千から数万の規模で収集されている場合、クラスタリングの結果得られた各クラスタの文書の内容を把握するときに、クラスタ内のすべての文書を読むには膨大な時間がかかるという課題がある。
また、各クラスタの内容を把握するために任意で文書を抽出すると、その文書の内容が元の大量の文書でよくある内容であるとは限らない。クラスタリングでは、よくある内容の文書もそうでない文書もいずれかのクラスタに割り当てられる。そのため、クラスタにはよくある内容の文書とそうでない文書が混在する。従って、文書クラスタリング技術の問題点として、本来抽出したいよくある内容の文書(以下、「代表文書」と呼ぶ)が特定できない点が挙げられる。代表文書としては、元の大量の文書全体において類似する文書の数が多いものが最適である。
【0006】
また、代表文書の抽出には人手で行う作業が必要である。
例えば、上記特許文献1に記載の技術においても、FAQの抽出作業は人手で行う必要があるという課題がある。
【0007】
本発明は、代表文書の抽出作業を高効率・高精度で実施できる技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一観点によれば、分散表現により文書のベクトル化を行い、文書ベクトルを算出する文書データ前処理部と、前記文書データ前処理部による前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去部と、前記孤立文書除去部により孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理部と、前記クラスタリング処理部によりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出部と、を有することを特徴とする文書分析装置が提供される。
前記孤立文書除去部の処理により、代表文書として所定の閾値より類似度が高い文書が所定数より少ない孤立文書が選ばれることがない。
前記代表文書抽出部は、クラスタ中心点とコサイン距離が最も近い文書ベクトルを持つ文書を抽出することが好ましい。
【0009】
前記孤立文書除去部は、コサイン距離が閾値dよりも近い文書ベクトルをもつ類似文書数が閾値nより少ない文書を孤立していると判断して除外することが好ましい。
【0010】
前記クラスタリング処理部は、実数値ベクトルをクラスタリングする手法を用いて文書ベクトルをクラスタ化することにより、文書の類似度を考慮したクラスタリングを行い、
クラスタ中心点を、前記文書データ前処理部により算出した文書ベクトルからランダム抽出したベクトルとすることで初期化し、前記ランダム抽出において、前記文書ベクトルが抽出される確率が、前記文書ベクトルと初期化済みのクラスタ中心点とのコサイン距離の最小値のα乗と、前記文書ベクトルとのコサイン距離が前記閾値dよりも近い文書ベクトルの個数のβ乗と、に比例する確率であることが好ましい。
【0011】
さらに、前記孤立文書除去部における処理で用いるn及びdと、前記クラスタリング処理部における処理で用いるα,βと、クラスタ数kと、をパラメータのセットとして、代表文書に類似する文書の件数の割合である第1の指標と、クラスタリングの正解データと比較したクラスタリング精度の評価指標である第2の指標とを算出する評価指標算出部を有し、前記第1の指標と前記第2の指標の組をプロットして表示する散布図表示部をさらに有し、前記散布図表示部で表示されたプロットから、所定の判断基準に基づき自動で選択されたプロットか、または、ユーザの判断により手動で選択されたプロットに基づいて、前記パラメータを再設定することが好ましい。
【0012】
本発明の他の観点によれば、コンピュータによる文書分析方法であって、分散表現により文書のベクトル化を行い、文書べクトルを算出する文書データ前処理ステップと、前記文書データ前処理ステップによる前処理を行った文書において、所定の閾値より類似度が高い文書が所定数より少ない文書を孤立文書として除去する孤立文書除去ステップと、前記孤立文書除去ステップにより孤立文書を除去した文書の類似度を考慮してクラスタリングを行うクラスタリング処理ステップと、前記クラスタリング処理ステップによりクラスタリングを行ったクラスタから代表文書を抽出する代表文書抽出ステップと、を有することを特徴とする文書分析方法が提供される。
【発明の効果】
【0013】
本発明によれば、大量の文書の内容把握作業を効率化することができる。
【図面の簡単な説明】
【0014】
【
図1】文書の内容を把握する方法の一例を示す図である。
【
図2】文書クラスタリング技術の一例を示す図である。
【
図3】本発明の第1の実施の形態による文書分析技術に適用できる文書分析システム、文書分析装置の一構成例を示す機能ブロック図である。
【
図4】本実施の形態による文書分析技術の処理の流れの一例を示すフローチャート図である。
【
図5】
図4の文書データ前処理の詳細な処理例を示すフローチャート図である。
【
図6】
図6(a)は、孤立文書の除去処理を行わない場合の代表文書抽出処理の様子を示す図である。
図6(b)は、孤立文書の除去処理を行った場合の代表文書抽出処理の様子を示す図である。
【
図7】ステップS2の処理の詳細な例を示すフローチャート図である。
【
図8】
図8(a)は、代表文書の任意抽出処理の様子を示す図であり、
図8(b)は、クラスタ中心点とのコサイン距離が最も近い文書を代表文書として自動抽出処理の様子を示す図である。
【
図9】ステップS4の処理の詳細を示すフローチャート図である。
【
図10】本発明の第2の実施の形態による文書分析装置の位置構成例を示す機能ブロック図であり、
図3に対応する図である。
【
図11】本発明の第2の実施の形態によるシステム処理の流れを示すフローチャート図である。
【
図12】パラメータ設定例を示す散布図の一例を示す図である。
【発明を実施するための形態】
【0015】
本明細書において、文書の分散表現とは、例えば、文書内容を実数による数値ベクトルとしてベクトル化したものである。
文書の類似度とは、例えば、文書ベクトル間のコサイン距離である。
孤立文書とは、所定の閾値より類似度が高い文書が所定数より少ない文書である。
代表文書とは、例えば、元の文書内で類似する他の文書が多い文書である。
以下に、本発明の実施の形態による文書分析技術について図面を参照しながら詳細に説明する。
【0016】
(第1の実施の形態)
図3は、本発明の第1の実施の形態による文書分析技術に適用できる文書分析システムY、文書分析装置Xの一構成例を示す機能ブロック図である。
図4は、本実施の形態による文書分析技術の処理の流れの一例を示すフローチャート図である。また、表1から表10までは、文書分析に用いられるデータテーブルの一例を示す表である。
【0017】
【0018】
表1は、文書分析システムのデータテーブルの一覧を示す表である。Aは、1.文書データと、2.文書ベクトルとからなる文書関連データである。Bは、1.定型文ルールと、2.固有表現ルールと、3.分散表現モデルとを有する前処理関連データである。Cは,1.文書クラスタと2.代表文書とを有するクラスタリング関連データである。Dは、1.パラメータセットを有するパラメータチューニング関連データである。
以下の各表2から表10までは、表1のデータテーブル一覧に含まれる各データのテーブル一例を示す表である。
【0019】
【0020】
表2は、A1、すなわち、文書データテーブルの一例を示す表である。文書データテーブルA1は、質問回答など文書の原文のテキストデータをID毎に格納する。
【表3】
【0021】
表3は、A2、すなわち、文書ベクトルテーブルの一例を示す表である。文書ベクトルテーブルA2は、文書ID毎に、文書ベクトルの要素値v1,v2,…を格納する。
後述するB3.分散表現モデルをもとに計算された文書ベクトルデータであり、文書IDはA1、文書データテーブルのIDに対応する。ベクトル要素値v1,v2,…は、ベクトル次元数だけ列が存在する。
【0022】
【0023】
表4は、B1、すなわち、定型文ルールテーブルの一例を示す表である。定型文ルールテーブルB1は、定型文のリストであり、文書中に該当する、もしくは類似する文があれば除外する対象を格納している。
【0024】
【0025】
表5は、B2、すなわち、固有表現ルールテーブルの一例を示す表である。固有表現ルールテーブルB2は、正規表現に合致する文中の箇所を、例えば「(ラベル)」に置き換える。例えば、「工事日は2019/1/23です。」は、「工事日は(日付)です。」に置き換える。ここで、ラベルを囲む「(」および「)」は一例であり、ラベルの単語である「日付」等と、原文中に出現する単語とを、置き換えた後の文において識別するための記号である。
【0026】
【0027】
表6は、B3、すなわち、分散表現モデルテーブルの一例を示す表である。分散表現モデルテーブルB3は、コーパス(Wikipediaなど)をもとに作成した、単語ベクトルデータであり、単語ベクトル要素値は、ベクトル次元数の分だけ列が存在する。
【0028】
【0029】
表7は、C1、すなわち、文書クラスタテーブルの一例を示す表である。文書クラスタテーブルC1では、クラスタリングにより形成されたクラスタと文書の所属を対応付ける。文書IDは文書データテーブルA1における文書データのIDに対応する。
【0030】
【0031】
表8は、C2、すなわち、代表文書テーブルの一例を示す表である。代表文書テーブルC2では、代表文書抽出処理によって選ばれた各クラスタの代表文書を管理する。代表文書IDは、A1の文書データのIDに対応する。
【0032】
【0033】
表9は、D1、すなわち、パラメータセットテーブルの一例を示す表である。パラメータセットテーブルD1は、クラスタリングや代表文書抽出などの各種パラメータで設定できる値(n, α, β, d, k)のリストである。さらに、どのパラメータが使用中か分かがるように、「使用中」の列が設けられている。
【0034】
【0035】
表10は、正解データD2、すなわち、正解データテーブルの一例を示す表である。正解データテーブルD2では、人が作成したクラスタ正解データと文書の所属(文書ID)とを対応付ける。文書IDは文書データテーブルA1の文書データのIDに対応する。
【0036】
図3に示すように、本実施の形態による文書分析装置Xは、例えば、文書分析処理部X1と、データベース(記憶装置)DBとを有する。そして、例えば、文書分析装置Xと、文書分析装置Xとネットワーク(NT)接続される端末装置(ユーザ端末)Zとを含んで、文書分析システムYを構成する。ネットワークNTは、有線でも無線でも良い。
文書分析処理部X1は、データベース(記憶装置)DB内の文書データDB1の等を管理する文書データ管理部1と、文書データの前処理関連の処理を行う前処理関連機能部3と、クラスタリング処理部5と、代表文書抽出部7と、代表文書内容表示部11と、を有する。前処理関連機能部3は、孤立文書除去部3aを有する。
【0037】
また、データベース(記憶装置)DBは、文書データテーブルA1を格納する文書データDB1と、文書ベクトルテーブルA2を格納する文書ベクトルDB2と、文書クラスタテーブルC1を格納する文書クラスタDB3と、代表文書テーブルC2を格納する代表文書DB4と、定型文ルールテーブルB1,固有表現ルールテーブルB2,分散表現モデルテーブルB3を格納する前処理関連データDB5と、パラメータセットテーブルD1を格納するパラメータセットDB6とを有する。
【0038】
次に、文書分析処理部X1による文書分析処理の流れについて説明する。
図4に示すように、処理が開始されると(START)、ステップS1において、前処理関連機能部3が文書データDB1に格納されている文書データテーブルA1の文書と前処理関連データDB5に格納されている前処理関連データ(定型文ルールテーブルB1、固有表現ルールテーブルB2、分散表現モデルテーブルB3)までとを取得して、文書データの前処理を行う。前処理は、分散表現モデルに基づく文書ベクトルA2の計算などを含む。文書ベクトルA2を文書ベクトルDB2に格納する。
次いで、ステップS2において、孤立文書除去部3aが所定の閾値より類似度が高い文書が所定数より少ない孤立文書の除去を行う。孤立文書の除去処理は、例えば、コサイン距離が近い文書ベクトルを持つ他の文書が少ない文書は、孤立していると判断して除外する処理を含む。孤立文書を除去した後の文書ベクトルを文書ベクトルDB2に格納する。
【0039】
次に、ステップS3において、クラスタリング処理部5が、パラメータセットDB6に格納されるパラメータセットD1と、文書ベクトルDB2に格納される文書ベクトルA2とに基づいてクラスタリング処理を行う。クラスタリング処理は、文書ベクトル間のコサイン距離を考慮してコサイン距離の近い文書群によりクラスタ形成する。形成されたクラスタと文書の所属との対応付けを、文書クラスタDB3に格納する。
次に、ステップS4において、代表文書抽出部7が、パラメータセットDB6に格納されるパラメータセットD1に基づいて、文書クラスタテーブルC1の文書クラスタから代表文書の抽出を行う。代表文書の抽出処理は、あるクラスタについて、クラスタ中心点と最もコサイン距離が近い文書を選択する処理である。抽出された代表文書は、代表文書DB4に代表文書テーブルC2内のデータとして格納される。この処理において、クラスタから抽出する理由は、複数の代表文書の間で内容の重複をなくすためである。
【0040】
次いで、ステップS5において、代表文書内容表示(制御)部11が、代表文書DB4に格納される代表文書テーブルC2により代表文書内容の要約表示処理を行う。
以上により、処理が終了する(END)。
【0041】
次に、上記の各処理について詳細に説明する。
図5は、
図4の文書データ前処理の詳細な処理例を示すフローチャート図である。
まず。処理が開始されると(START)、以下の処理が行われる。
ステップS11: 文書の文への分割
ステップS12: 文の形態素解析
ステップS13: 文中の記号除去
ステップS14: 文書中の定型文除去
ステップS15: 文中の固有表現抽出
ステップS16: 文書の分散表現計算
ステップS17: 文書内容の要約
【0042】
以上の処理は、公知の技術を用いることができる。一例として、ステップS13、ステップS14、ステップS17の処理には、それぞれ、特願2018-162525号の不要語除去処理部、不要文除去処理部、要約生成部の技術を用いることができる。ステップS15の処理には、Hidden Markov Modelや、Conditional Random Fieldのような、公知の固有表現抽出技術を用いることができる。また、ステップS16の処理には、Doc2VecまたはParagraph Vectorと呼ばれる文書の分散表現を計算する技術(Quoc Le, Tomas Mikolov, “Distributed representations of sentences and documents,” International conference on machine learning, 2014)を用いることができる。
次に、孤立文書の除去処理について説明する。所定の閾値より類似度が高い文書が所定数より少ない孤立文書の除去処理は、例えば、コサイン距離が所定の閾値dより近い文書数が所定数nより少ない文書を孤立していると判断して除外する処理である。
尚、孤立文書の判定で使うコサイン距離の閾値dは、クラスタリングの処理で使うパラメータdと同じものである。
パラメータdは、文書が類似しているかどうかの判定の基準となる閾値である。孤立文書の除去では、文書全体の中で類似している文書が少ない文書を「孤立している」と判定したいため、文書の類似の判断基準となるパラメータdを閾値として使用する。
尚、以下の第2の実施の形態においてチューニング対象のパラメータとして参照することから、文書数の閾値を「閾値n」とした。
【0043】
図6(a)は、孤立文書の除去処理を行わない場合の代表文書抽出処理の様子を示す図である。クラスタ数は4で固定するものとする。
クラスタリングでは、どの文書もいずれかのクラスタに割り当てられる。そのため、孤立文書の除去処理を行わずにクラスタリングを行うと、孤立文書もいずれかのクラスタに割り当てられることになる。孤立文書を含むクラスタは、孤立文書と、それに類似する文書からなる。例えば、上述の所定数nが1の場合、孤立文書とコサイン距離が所定の閾値dより近い文書数は1件未満であり、孤立文書と類似する文書は存在しない。従って、クラスタには孤立文書に類似する文書は含まれず、孤立文書のみからなるクラスタが形成されることになる。そのため、クラスタから代表文書を抽出すると孤立文書が選ばれてしまうことがある。
【0044】
図6(b)は、孤立文書の除去処理を行った場合の代表文書抽出処理の様子を示す図である。
図6(b)に示すように、孤立文書をクラスタ形成対象から予め除去することで、代表文書として孤立文書が選ばれることがないようにすることができる。
【0045】
図7は、ステップS2の処理の詳細な例を示すフローチャート図である。
図7に示すように、まず、ステップS2-1において、文書データDB1に登録されている文書群の中から未処理の1文書を特定する。ステップS2-2において、特定した1文書において、コサイン距離が所定の閾値dより近い文書数をカウントする。ステップS2-3において、ステップS2-2でカウントされた文書数と所定数nとを比較する。所定数nは、孤立文書と見なせるかどうかを基準に予め設定しておくことができる。
【0046】
ステップS2-3において、カウントされた文書数が所定数nよりも小さいかどうかを判定する。ステップS2-3でNoの場合には、ステップS2-4に進み、当該文書を除外対象とせずに、文書ベクトルDB2に格納する。そして、ステップS2-6に進む。
【0047】
ステップS2-3でYesの場合には、ステップS2-5に進み、当該文書を孤立文書として除外する。そして、ステップS2-6に進み、現在の文書カウント数nが文書データDB1に登録されている全文書数mと等しいかどうかを判定する。ステップS2-6でYesの場合には、処理を終了する(END)。ステップS2-6でNoの場合には、ステップS2-7に進み、n=n+1として、ステップS2-1に戻る。
【0048】
以上の処理を継続的に行うことで、孤立文書を除外することができる。
このように、クラスタリング処理の前に孤立文書の除去処理を行っておくことにより、代表文書として孤立文書が選ばれることを未然に防止することができる。
【0049】
次に、ステップS3のクラスタリング処理について説明する。
本実施の形態では、k-means++の改良版アルゴリズムを用いることができる。
k-means++の改良版アルゴリズムでは、従来のk-means++について以下の点を改良している。
1)文書ベクトル間のコサイン距離を考慮したspherical k-means法を用いる(Kurt Hornik, Ingo Feinerer, Martin Kober, Christian Buchta, “Spherical k-Means Clustering,” Journal of Statistical Software, September 2012, Volume 50, Issue 10 参照)。
2)クラスタ中心点の初期値を,文書ベクトルを用いて以下の確率でランダム抽出する。
【0050】
【0051】
ここで、各パラメータを可変とする意図は以下の通りである。
α: クラスタリング精度および収束スピードの向上
β: 文書ベクトルが集中しているところから、クラスタ中心点の初期値が選ばれやすくなるようにする
d: 文書ベクトルが類似していると判定するコサイン距離の閾値の調整
尚、α=2かつβ=0のとき,数1を用いたアルゴリズムは、従来のk-means++に相当する。
【0052】
次に、ステップS4の代表文書の自動抽出処理について説明する。
図8(a)は、代表文書の任意抽出処理の様子を示す図であり、
図8(b)は、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書として自動抽出処理の様子を示す図である。
図8(a)に示すように、代表文書の任意抽出処理によれば、代表文書の文書ベクトルがクラスタ中心から離れる可能性がある。従って、代表文書の文書ベクトルに近いコサイン距離の文書ベクトルを持ったクラスタ内文書が少なくなるという課題がある。
【0053】
図9は、ステップS4の処理の詳細を示すフローチャート図である。
図9に示すように、ステップS4のステップS4-1において、クラスタ中心点を取得する。ステップS4-2において、クラスタ内の各文書の文書ベクトルとクラスタ中心点とのコサイン距離を比較する。ステップS4-3において、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書とする。そして、処理を終了する(END)。
【0054】
上記の処理により、
図8(b)に示すように、クラスタ中心点からの距離に基づいて代表文書を抽出すると、クラスタ中心点に最も近い文書ベクトルを持つ文書が代表として選ばれる。k-means法では、クラスタ中心点と、クラスタに属するベクトルとの距離が最小化されるようにクラスタが形成される。そのため、クラスタ中心点とコサイン距離が近い文書ベクトルを持つ文書がクラスタ内に多く存在する。従って、クラスタ中心点とのコサイン距離が最も近い文書ベクトルを持つ文書を代表文書とすることで、代表文書の文書ベクトルと近いコサイン距離の文書ベクトルを持つクラスタ内の文書数が多くなるという利点がある。その結果、抽出した代表文書は、元の大量の文書全体において類似する文書の数が多い、よくある内容の文書であるという、望ましい性質を満たすようになる。
【0055】
以上に説明したように、本実施の形態によれば、クラスタから代表文書を自動抽出するために、クラスタ内のすべての文書を読む必要がない。従って、処理が簡単になる。
抽出した代表文書は元の大量の文書でよくある内容の文書であるため、代表文書を読むことで元の大量の文書の主な内容を把握することができる。
従って、大量の文書の内容把握作業の効率化が可能である。
【0056】
(第2の実施の形態)
次に、本発明の第2の実施の形態による文書分析技術について説明を行う。本実施の形態による文書分析技術においては、第1の実施の形態に加えて、パラメータチューニング支援機能を追加している。
図10は、本実施の形態による文書分析装置の一構成例を示す機能ブロック図であり、
図3に対応する図である。
図10の文書分析装置Xにおいては、
図3の文書分析装置に加えて、評価指標算出部15と、パラメータ設定部17と、散布図表示部21とを有している。また、
図3のデータベースに加えて、正解データD2を格納する正解データデータベースDB7を有している(DBa,表10参照)。
【0057】
評価指標算出部15は、代表文書C2により代表文書に類似する文書の件数の割合(第1の指標)を、正解データD2によりクラスタリング精度の評価指標(第2の指標)を、算出する。パラメータ設定部17は、評価指標算出部15が算出した第1の指標と第2の指標の重み付き和を最大化するプロットを自動的に選択する。尚、パラメータは、ユーザ判断で選択することも可能である。散布図表示部21は、後述する散布図を表示する。
【0058】
図11は、本実施の形態によるシステム処理の流れを示すフローチャート図である。尚、
図4と同様の処理を行うステップは、同じ処理の符号を付して説明を省略する。
【0059】
図11において、ステップS1の次に、ステップS9において、パラメータセットDB6の全てのパラメータについて、処理が完了しているかどうかを判定する。処理が完了していなければ(No)、ステップS10において、パラメータセットDBから次のIDのパラメータを取得する。
次いで、ステップS2aにおいて、孤立文書除去部3aが、孤立文書の除去処理を行う。この処理は、取得したパラメータセットに含まれる閾値nと閾値dを使用して行う処理である。
【0060】
次いで、ステップS3aにおいて、クラスタリング処理部5が、クラスタリング処理を行う。この処理は、取得したパラメータセットのパラメータn, α, β, d, kを使用して行う処理である。
次いで、ステップS4において、代表文書抽出部7が、代表文書を抽出し、代表文書DB4に登録する。
【0061】
次いで、ステップS6において、評価指標算出部15が、評価指標算出処理を行う。この処理は、以下の2指標の算出を行う。
1)代表文書に類似する文書の件数の割合(第1の指標)
文書データDB1に登録されている文書のうち、当該文書の文書ベクトルと、代表文書DB4に登録されている、いずれか少なくとも一つの代表文書の文書ベクトルとのコサイン距離が、閾値d以下である文書の割合である。
2)クラスタリング精度の評価指標(第2の指標)
文書クラスタテーブルC1と、正解データD2とを比較し、クラスタリング精度の評価指標を算出する。評価指標としては、一例として、Adjusted Rand Indexや、Adjusted Mutual Informationを用いることができる。
そして、ステップS9に戻る。
一方、ステップS9でYesの場合には、ステップS7に進み、散布図表示部21が、全ての評価指標の組を散布図でプロットする。
【0062】
次いで、ステップS8において、以下のパラメータの設定処理を行う。
1)第1の指標と第2の指標の重み付き和を最大化するプロットを自動で選択する。
2)任意のプロットをユーザ判断で選択することも可能である。
次いで、第1の実施の形態と同様のステップS3(クラスタリング処理),ステップS4(代表文書抽出処理)を行う。
以上により、パラメータの再設定を継続して行うパラメータチューニング支援処理を終了する。
【0063】
第2の実施の形態では、第1の実施の形態に、パラメータチューニング支援機能が追加される。
例えば、類似文書件数割合(第1の指標)とクラスタリングの評価指標(第2の指標)を用いた散布図によるパラメータ設定効果の可視化を行う。
【0064】
図12は、パラメータ設定例を示す散布図の一例を示す図である。
図12に示すように、散布図は、例えば、横軸に類似文書件数割合(%)(第1の指標)を、縦軸にクラスタリングの評価指標(第2の指標)をとっている。各プロットにおける指標の算出には、異なるパラメータセット(n, α, β, d, k(クラスタ数)の値の組)を用いる。
【0065】
ここで、可能な値の組み合わせ全てを網羅することはできないため、プロットの対象となるパラメータの値の組み合わせは、事前にパラメータセットDBに登録されているものとする。表9のパラメータセットDB(DB10)のテーブル構成図に示すように、1のIDで特定される1レコードがパラメータの値の組み合わせ1件となるようにし、テーブルの列がパラメータの名称 (n, α, β, d, k) となるようにする。また、どのパラメータが使用中か分かがるように、「使用中」の列を追加する。
【0066】
ここで、クラスタリングの正解データは、事前に「正解データ(D2)DB」に登録されているものとする。正解データ(D2)DBのテーブル構成図は上記の表10に示されている。文書IDは文書データテーブルA1における文書データのIDに対応する。尚、正解データD2に登録されている文書は、文書データテーブルA1に登録されている全ての文書である必要はなく、手動抽出した一部文書データを用いることができる。
【0067】
以上のようにして、処理アルゴリズムにおけるパラメータの最適化を以下のように支援する。
1)所定の判断基準に基づくプロット自動選択
2)ユーザの判断によるプロット手動選択
【0068】
図12の破線L11は、類似文書件数割合(第1の指標)とクラスタリングの評価指標(第2の指標)の重み付き和を最大化するという基準を示す直線である。重み付き和を算出するときの第1の指標と第2の指標の重みは、正の実数値であり、事前に登録されているものとする。ユーザは、重みの値を変更することで、第1の指標と第2の指標のどちらを重視するかを調整することがでる。なお、重みの比は、直線L11の傾きを表す。この直線L11上において、プロットP1を自動的に選択することができる。
また、P2に示すように、散布図上の別のプロットをユーザの判断で選択することもできる。
以上の構成により、パラメータ調整作業の省力化が可能となる。
【0069】
尚、文書分析技術の活用例としては、例えば、以下のものが例示的に挙げられる。
1)FAQ(代表質問)作成
質問群に対し、類似の質問をクラスタ化し分類する。
各分類の代表的な質問を抽出し、要約文を表記する。
2)故障情報分析
保守点検報告書群に対し、類似の報告書をクラスタ化し分類する。
各分類の代表的な報告書を抽出し、それに記載された内容を読むことで、よくある故障の内容を把握する。
【0070】
本実施の形態によれば、文書クラスタの代表文書の抽出作業を効率化・精度向上することが可能である。高効率は、代表文書の抽出処理を自動化することにより達成することができる。
また、高精度は、代表文書に類似する文書数の最大化をすることにより達成することができる。
さらに、処理アルゴリズムにおけるパラメータの最適化処理を支援することができる。従って、パラメータ調整作業を省力化することができる。
【0071】
処理および制御は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)によるソフトウェア処理、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)によるハードウェア処理によって実現することができる。
上記の実施の形態において、図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
【0072】
また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0073】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。
【産業上の利用可能性】
【0074】
本発明は、文書分析装置に利用可能である。
【符号の説明】
【0075】
X 文書分析装置
X1 文書分析処理部
Y 文書分析システム
NT ネットワーク
DB データベース(記憶装置)
1 文書データ管理部
3 前処理関連機能部
3a 孤立文書除去部
5 クラスタリング処理部
7 代表文書抽出部
11 代表文書内容表示部
15 評価指標算出部
17 パラメータ設定部
21 散布図表示部