特許6483789 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ダットジャパン株式会社の特許一覧 ▶ 国立大学法人鳥取大学の特許一覧

特許6483789情報解析システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6483789

(24)【登録日】2019年2月22日

(45)【発行日】2019年3月13日

(54)【発明の名称】情報解析システム

(51)【国際特許分類】

G06F 16/00 20190101AFI20190304BHJP

G06F 16/30 20190101ALI20190304BHJP

【ＦＩ】

G06F17/30 210D

G06F17/30 170A

G06F17/30 360Z

【請求項の数】10

【全頁数】22

(21)【出願番号】特願2017-224316(P2017-224316)

(22)【出願日】2017年11月22日

【審査請求日】2017年12月11日

(73)【特許権者】

【識別番号】598123334

【氏名又は名称】ダットジャパン株式会社

(73)【特許権者】

【識別番号】504150461

【氏名又は名称】国立大学法人鳥取大学

(74)【代理人】

【識別番号】100205084

【弁理士】

【氏名又は名称】吉浦洋一

(72)【発明者】

【氏名】村田真樹

(72)【発明者】

【氏名】岡▲崎▼ 健介

(72)【発明者】

【氏名】小山一人

(72)【発明者】

【氏名】羽田典久

【審査官】樋口龍弥

(56)【参考文献】

【文献】特開２０００−２８５１４０（ＪＰ，Ａ）

【文献】特開２００４−３４１９４８（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００

Ｇ０６Ｆ１６／３０

(57)【特許請求の範囲】

【請求項1】

文書等情報に対する情報解析システムであって，
前記情報解析システムは，
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と，
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と，
前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部と，
前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部と，
を有することを特徴とする情報解析システム。

【請求項2】

文書等情報に対する情報解析システムであって，
前記情報解析システムは，
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と，
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と，
前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部と，
前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部と，
を有することを特徴とする情報解析システム。

【請求項3】

前記情報解析システムは，さらに，
各クラスタについて，そのクラスタに含まれる単語のうち，網羅度が最大のものをクラスタの項目名として特定する項目名特定処理部，
を有することを特徴とする請求項１または請求項２に記載の情報解析システム。

【請求項4】

文書等情報に対する情報解析システムであって，
前記情報解析システムは，
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と，
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，
前記クラスタリング処理をしたクラスタについて，含まれる文の平均文ベクトルを算出し，前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部と，
前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部と，
を有することを特徴とする情報解析システム。

【請求項5】

文書等情報に対する情報解析システムであって，
前記情報解析システムは，
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と，
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，
前記クラスタリング処理をしたクラスタについて，含まれる文の平均文節ベクトルを算出し，前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部と，
前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部と，
を有することを特徴とする情報解析システム。

【請求項6】

前記情報解析システムは，さらに，
所定条件を充足した場合に，複数のクラスタを統合するクラスタ統合処理部，を有しており，
前記クラスタ統合処理部は，
統合後の文の密集度が所定の閾値以上のクラスタがある限り，全てのクラスタにおいて，第１のクラスタと，第１のクラスタ以外の各クラスタについて，統合した場合の文の密集度を算出し，前記算出した文の密集度が最大のクラスタとなったクラスタを特定し，前記第１のクラスタと前記特定したクラスタとを統合する，
ことを特徴とする請求項１から請求項５のいずれかに記載の情報解析システム。

【請求項7】

コンピュータを，
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部，
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部，
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部，
前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部，
前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部，
として機能させることを特徴とする情報解析プログラム。

【請求項8】

コンピュータを，
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部，
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部，
前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部，
前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部，
前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部，
として機能させることを特徴とする情報解析プログラム。

【請求項9】

コンピュータを，
入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部，
前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部，
前記クラスタリング処理をしたクラスタについて，含まれる文の平均文ベクトルを算出し，前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部，
前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部，
として機能させることを特徴とする情報解析プログラム。

【請求項10】

コンピュータを，
入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部，
前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部，
前記クラスタリング処理をしたクラスタについて，含まれる文の平均文節ベクトルを算出し，前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部，
前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部，
として機能させることを特徴とする情報解析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は，情報解析システムに関する。とくに，重要な情報を抽出し，表形式で整理可能な情報解析システムに関する。

【背景技術】

【0002】

コンピュータ技術の発展に伴い，さまざまな情報が蓄積されるようになっている。たとえばウェブページの情報や，各種の文書情報などがそれぞれ電子化されて情報として蓄積されている。そして，蓄積された情報から所望の情報を取得するためには，たとえば所定のキーワードに基づいて情報を検索する方法などが知られている。しかしこのような方法では，キーワードを適切に設定しなければ所望の情報を取得することはできない。また，蓄積されている情報をすべて把握できないので，キーワードの設定自体が容易でない場合もある。

【0003】

とくに，利用者は，蓄積されている情報のうち，重要な情報（複数のページに共通して含まれる情報）を手早く把握することを所望する。この目的のためには，蓄積されている情報から重要な情報を抽出し，何らかの形式で整理することが求められる。しかし，キーワードを用いた検索では，キーワードにヒットする情報を抽出するのみで，重要な情報を抽出し，整理することはできない。

【0004】

そこで，たとえば非特許文献１に示す方法が知られている。非特許文献１の１４頁３．１．３節には，ウェブサイトに記載されている情報において，単語をベクトル化してクラスタリングをすることによって，単語レベルで重要情報を表に整理する方法が開示されている。これを用いることで，たとえば図２３に示すように，単語レベルで重要情報を表に整理することができる。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】野浪尚哉，”検索エンジンを用いた記載欠落箇所の補完”，[online]，インターネット＜ＵＲＬ：http://unicorn.ike.tottori-u.ac.jp/2016/s132043/paper/graduation-thesis/soturon.html＞

【発明の概要】

【発明が解決しようとする課題】

【0006】

非特許文献１では，単語レベルで重要情報を抽出し，表として整理することができるが，抽出できるのは単語レベルであるので，情報量が少ない。そのため，利用者は，重要情報につながる単語を認識することはできるが，重要情報の内容を直ちに理解できるとまではいえない。たとえば上述の図２３では，鳥取県の気候について，重要情報につながる単語として「日本海側気候」，「瀬戸内海側気候」があることは認識できる。しかし，それらが鳥取県には２つの気候があるのか，どのような関係性があるのか，といった重要情報の内容まで理解をすることができない。つまり，利用者は，キーワードとなり得るような単語を認識する程度にとどまっており，重要情報の内容を認識することはできない。

【課題を解決するための手段】

【0007】

本発明者は上記課題に鑑み，重要情報を文レベルで抽出し，表形式で整理可能とすることができる情報解析システムを発明した。

【0008】

第１の発明は，文書等情報に対する情報解析システムであって，前記情報解析システムは，入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と，前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と，前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部と，前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部と，を有する情報解析システムである。

【0009】

本発明のように，文書等情報における文について文ベクトルを算出し，その文ベクトルを用いたクラスタリングによって得られるクラスタを表形式で出力することで，重要情報を文レベルで抽出して表形式で整理することが可能となる。従来の単語レベルとは異なり，文レベルで表形式で整理されるので，重要情報の内容を理解することも容易となる。
網羅度は対象の単語が，文書等情報におけるページなどで出現する度合いを示しているので，網羅度が高ければそれだけ重要性が高いと考えられる。そこで，本発明のように，網羅度を加味して重要度を算出するとよい。
本発明のように構成することで，クラスタを重要度や出現位置に基づいてソートできる。これによって，上位所定数のクラスタを表形式で出力をすることができるので，重要情報のうち，特にその度合いが高いものを表形式として整理することができる。

【0010】

第２の発明は，文書等情報に対する情報解析システムであって，前記情報解析システムは，入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と，前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部と，前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部と，前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部と，を有する情報解析システムである。

【0011】

本発明を用いることで，文書等情報における文における文節について文節ベクトルを算出し，その文節ベクトルを用いたクラスタリングによって得られるクラスタを表形式で出力することで，重要情報を文節レベルで抽出して表形式で整理することが可能となる。従来の単語レベルとは異なり，文節レベルで表形式で整理されるので，重要情報の内容を理解することも容易となる。
網羅度は対象の単語が，文書等情報におけるページなどで出現する度合いを示しているので，網羅度が高ければそれだけ重要性が高いと考えられる。そこで，本発明のように，網羅度を加味して重要度を算出するとよい。
本発明のように構成することで，クラスタを重要度や出現位置に基づいてソートできる。これによって，上位所定数のクラスタを表形式で出力をすることができるので，重要情報のうち，特にその度合いが高いものを表形式として整理することができる。

【0012】

上述の発明において，前記情報解析システムは，さらに，各クラスタについて，そのクラスタに含まれる単語のうち，網羅度が最大のものをクラスタの項目名として特定する項目名特定処理部，を有する情報解析システムのように構成することができる。

【0013】

クラスタの項目名は，本発明のように網羅度を用いて特定することで，より適切にクラスタの項目名を特定することができる。

【0014】

第４の発明は，文書等情報に対する情報解析システムであって，前記情報解析システムは，入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部と，前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，前記クラスタリング処理をしたクラスタについて，含まれる文の平均文ベクトルを算出し，前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部と，前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部と，を有する情報解析システムである。

【0015】

【0016】

第５の発明は，文書等情報に対する情報解析システムであって，前記情報解析システムは，入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部と，前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部と，前記クラスタリング処理をしたクラスタについて，含まれる文の平均文節ベクトルを算出し，前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部と，前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部と，を有する情報解析システムである。

【0017】

【0018】

上述の発明において，前記情報解析システムは，さらに，所定条件を充足した場合に，複数のクラスタを統合するクラスタ統合処理部，を有しており，前記クラスタ統合処理部は，統合後の文の密集度が所定の閾値以上のクラスタがある限り，全てのクラスタにおいて，第１のクラスタと，第１のクラスタ以外の各クラスタについて，統合した場合の文の密集度を算出し，前記算出した文の密集度が最大のクラスタとなったクラスタを特定し，前記第１のクラスタと前記特定したクラスタとを統合する，情報解析システムのように構成することができる。

【0019】

同じ項目名のクラスタが複数に分散する場合がある。そこで本発明を用いることで，分散されたクラスタを統合することができるので，より適切な表を出力することができる。

【0020】

第１の発明の情報解析システムは，本発明のプログラムをコンピュータに読み込ませて実行することで，実現できる。すなわち，コンピュータを，入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部，前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部，前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部，前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部，前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部，として機能させる情報解析プログラムである。

【0021】

第２の発明の情報解析システムは，本発明のプログラムをコンピュータに読み込ませて実行することで，実現できる。すなわち，コンピュータを，入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部，前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部，前記クラスタリング処理をしたクラスタに対して網羅度を算出する網羅度算出処理部，前記算出した網羅度を用いて算出した重要度に基づいて，前記クラスタをソートするクラスタソート処理部，前記クラスタをソートした結果，上位所定数のクラスタを表形式で出力をする表形式処理部，として機能させる情報解析プログラムである。

【0022】

第４の発明の情報解析システムは，本発明のプログラムをコンピュータに読み込ませて実行することで，実現できる。すなわち，コンピュータを，入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部，前記文ベクトルを用いてクラスタリング処理をするクラスタリング処理部，前記クラスタリング処理をしたクラスタについて，含まれる文の平均文ベクトルを算出し，前記平均文ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部，前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部，として機能させる情報解析プログラムである。

【0023】

第５の発明の情報解析システムは，本発明のプログラムをコンピュータに読み込ませて実行することで，実現できる。すなわち，コンピュータを，入力を受け付けた文書等情報の一部または全部の文における文節について文節ベクトルを算出する文節ベクトル算出処理部，前記文節ベクトルを用いてクラスタリング処理をするクラスタリング処理部，前記クラスタリング処理をしたクラスタについて，含まれる文の平均文節ベクトルを算出し，前記平均文節ベクトルとの類似度が最大となる単語ベクトルを有する単語を，クラスタの項目名として特定する項目名特定処理部，前記クラスタリング処理の結果，一部または全部のクラスタを表形式で出力し，前記特定したクラスタの項目名を表の項目名とする表形式処理部，として機能させる情報解析プログラムである。

【発明の効果】

【0038】

本発明の情報解析システムによって，重要情報を文レベルで抽出し，表形式で整理可能とすることができる。そのため，従来の単語レベルでの重要情報の抽出よりも，より正確に重要情報を利用者は認識することができる。とくに，利用者が知りたい情報についてキーワードなどをあらかじめ知らない場合でも，その意味を容易に認識可能な重要情報として収集することができる。

【図面の簡単な説明】

【0039】

【図1】本発明の情報解析システムの全体の構成の一例を模式的に示す図である。

【図2】本発明の情報解析システムで用いるコンピュータのハードウェア構成の一例を模式的に示す図である。

【図3】本発明の情報解析システムの処理プロセスの一例を示すフローチャートの一例を示す図である。

【図4】文ベクトルの算出処理の一例を模式的に示す図である。

【図5】文の密集度が高いクラスタと，文の密集度が低いクラスタの各一例を示す図である。

【図6】処理対象として，４７都道府県のＷｉｋｉｐｅｄｉａのページを用いた場合の処理結果の一例を示す図である。

【図7】実施例２におけるクラスタの項目名の特定処理の結果の一例を示す図である。

【図8】実施例２における情報解析システムの全体の構成の一例を模式的に示す図である。

【図9】図６の処理結果に対して，クラスタ統合処理部におけるクラスタ統合処理を実行した結果の一例を示す図である。

【図10】実施例３における情報解析システムの全体の構成の一例を模式的に示す図である。

【図11】実施例４における表形式での出力結果の一例を模式的に示す図である。

【図12】出力した表に基づいて特定する入力文と出力分類の一例を示す図である。

【図13】実施例５で用いる情報解析システムが作成した表の一例を模式的に示す図である。

【図14】コールセンターにおけるオペレータと顧客との間の会話の音声データをテキスト化したテキストデータ（会話例１乃至会話例１２）を入力した場合に，表形式処理部が出力する表の一例を示す図である。

【図15】図１４におけるクラスタの項目名の変更入力を受け付けた場合の表の一例を示す図である。

【図16】図１５において，表の項目が埋まっているものを「１」，空欄を「０」で示す表の一例を示す図である。

【図17】図１６の表に基づいて，左の列がなるべく埋まっているものから順に上から下にソートした場合の表の一例を示す図である。

【図18】図１７の表に基づいて，図１５の表にかかる情報を表示した表の一例を示す図である。

【図19】表形式処理部において，図１６の表（行列）をコレスポンド関数に入力した場合の出力結果を示す図である。

【図20】表の行方向の項目名について類型化した情報の入力を受け付けた状態の表の一例を示す図である。

【図21】表の行方向の項目名について，表の行方向の項目を類型化した情報を自動的に生成した状態の表の一例を示す図である。

【図22】図２１の表において，あらかじめ定められた単語を表示しない状態の表の一例を示す図である。縦方向の項目名について，自動的に項目名の情報を生成した状態の表の一例を示す図である。

【図23】単語レベルで重要情報を表に整理する従来例の一例を模式的に示す図である。

【発明を実施するための形態】

【0040】

本発明の情報解析システム１の全体のシステム構成の一例を図１に，情報解析システム１で用いるコンピュータのハードウェア構成の一例を図２に示す。

【0041】

情報解析システム１は，コンピュータによって実現される。コンピュータは，プログラムの演算処理を実行するＣＰＵなどの演算装置７０と，情報を記憶するＲＡＭやハードディスクなどの記憶装置７１と，ディスプレイなどの表示装置７２と，情報の入力を行う入力装置７３と，演算装置７０の処理結果や記憶装置７１に記憶する情報を通信する通信装置７４とを有している。なお，コンピュータがタッチパネルディスプレイを備えている場合には表示装置７２と入力装置７３とが一体的に構成されていてもよい。タッチパネルディスプレイは，たとえばタブレット型コンピュータやスマートフォンなどの可搬型通信端末などで利用されることが多いが，それに限定するものではない。

【0042】

タッチパネルディスプレイは，そのディスプレイ上で，直接，所定の入力デバイス（タッチパネル用のペンなど）や指などによって入力を行える点で，表示装置７２と入力装置７３の機能が一体化した装置である。

【0043】

情報解析システム１は一台のコンピュータによって実現されていてもよいが，その一部または全部の機能が複数のコンピュータによって実現されていてもよい。この場合のコンピュータとして，たとえばクラウドサーバであってもよい。

【0044】

本発明の情報解析システム１における各手段は，その機能が論理的に区別されているのみであって，物理上あるいは事実上は同一の領域を為していても良い。

【0045】

情報解析システム１は，事前処理部１０と情報入力受付処理部１１と文ベクトル算出処理部１２とクラスタリング処理部１３と密集度算出処理部１４と網羅度算出処理部１５とクラスタソート処理部１６と項目名特定処理部１７と表形式処理部１８とを有する。

【0046】

なお，本発明の情報解析システム１では，ウェブページや，電子化された文書などの文章が記述された情報（以下，「文書等情報」という）を処理対象としている。

【0047】

事前処理部１０は，情報解析システム１において処理対象とする文書等情報から重要情報を抽出し，表形式化する処理を実行するにあたっての事前処理を実行する。事前処理としては，基準とする学習用の文書等情報を読み込ませ，そこに記述される単語を所定次元，たとえば３００次元でベクトル化する処理を実行する。学習用の文書等情報としては，たとえばＷｉｋｉｐｅｄｉａの日本語の全ウェブページが一例としてあげられるが，それに限定されるものではなく，たとえば電子化された辞書情報のウェブページなどであってもよいし，所定のドキュメントサーバ（文書サーバ）に保存された各種の文書等情報であってもよい。また，単語をベクトル化するには，たとえばfasttextと呼ばれるアプリケーションソフトウェアを用いることができるが，それに限定するものではなく，ほかのアプリケーションソフトウェアを用いることもできる。fasttextを用いる場合，fasttextに文書等情報を入力させることで，単語をベクトル化することができる。

【0048】

情報入力受付処理部１１は，情報解析システム１において処理対象とする文書等情報の入力を受け付ける。たとえばＷｉｋｉｐｅｄｉａのある特定の事柄に関するウェブページを処理対象とする場合，その事柄に関するＷｉｋｉｐｅｄｉａのウェブページの指定を受け付け，指定を受け付けたウェブページの情報の入力を受け付ける。

【0049】

文ベクトル算出処理部１２は，情報入力受付処理部１１で入力を受け付けた文書等情報における文の一部または全部の文について，それぞれ文に分割をし，分割をした各文について文ベクトルを算出する。文書等情報において文を分割するためには，文書等情報における句点を区切りとして各文を分割する方法が一例としてある。また，分割した各文について文ベクトルを算出するには，まず，各文において形態素解析を行い，文に出現する単語を品詞ごとに分解する。そして，分解した単語のうち，品詞が名詞（ただし数，接尾，非自立は除く。また，固有名詞は除いてもよいし，除かなくてもよい）である単語を特定し，特定した単語の単語ベクトルの平均を算出することで文ベクトルを算出する。なお単語ベクトルを算出するために特定する単語としては，品詞が名詞である単語に限られるものではなく，あらかじめ一または複数の品詞を設定し，その品詞の単語を特定すればよい。たとえば品詞として名詞のほか，動詞や形容詞などを設定することもできる。なお，以下の説明では，特段の断りがない限り，品詞が名詞である単語を特定する場合を示す。

【0050】

形態素解析には公知のアプリケーションソフトウェアを用いることができ，たとえば茶筌（ChaSen）があるが，それに限定されず，MeCabなどのアプリケーションソフトウェアを用いてもよいし，ほかのアプリケーションソフトウェアを用いてもよい。

【0051】

たとえば文書等情報において「鳥取県の県庁所在地は鳥取市」との文があった場合，たとえば茶筅（ChaSen）のようなアプリケーションソフトウェアを用いて，その文に対して形態素解析を行い，「鳥取」，「県」，「の」，「県庁」，「所在地」，「は」，「鳥取」，「市」のように分解をし，それぞれの単語の品詞を特定する。そして，たとえばfasttextのようなアプリケーションソフトウェアに処理対象となる文書等情報の一部または全部を入力することで，品詞が名詞の単語についての所定次元の単語ベクトルを生成する。ここでは，「鳥取」，「県」，「県庁」，「所在地」，「鳥取」，「市」についてそれぞれ単語ベクトルを生成する。そして，各単語ベクトルの平均を文ベクトルとして算出する。この処理を模式的に示すのが図４である。平均としては単純平均が望ましいが，それに限定するものではない。また，文における単語ベクトルに対して平均以外の演算をしてもよいし，上述のように，名詞以外の品詞も単語ベクトルの生成対象としてもよい。すなわち，文ベクトル算出処理部１２は，文を構成する一部または全部の単語の単語ベクトルに対して所定の演算を行うことで文ベクトルを算出すればよい。

【0052】

文ベクトルの算出に用いる演算としては，上述のように文における各単語ベクトルの平均のほか，文における単語ベクトルの総和，文における各単語ベクトルについて，tf-idf法で重み付けをした平均，Bi-gramモデルなどを用いることができ，またほかの演算を用いることもできる。

【0053】

クラスタリング処理部１３は，文ベクトル算出処理部１２で算出した各文ベクトルを所定のクラスタリング手法でクラスタリング処理をする。クラスタリング処理としては，たとえばx-means法，k-means法，階層クラスタリングなどさまざまな処理方法があり，どのような処理方法を用いてもよい。なおx-means法とは，k-means法においてクラスタ数を自動推定するように拡張したクラスタリング手法である。

【0054】

密集度算出処理部１４は，クラスタリング処理部１３でクラスタリング処理をした各クラスタの文の密集度ｄ_ｋを算出する。クラスタリング処理部１３でクラスタリング処理をした結果においては，たとえば図５（ａ）に示すように，関連する文だけで構成される密集度の高いクラスタもあれば，図５（ｂ）に示すように，関連性のない文が混入した密集度の低いクラスタもある。そこで，ｋ番目のクラスタの文の密集度ｄ_ｋを数１で定める。ここでＮ_ｋはｋ番目のクラスタに含まれる文の総数であり，Ｓ_ｋ，ｌはｋ番目のクラスタに含まれるｌ番目の文ベクトルであり，Ｓ_{ｋ，ｍｅａｎ}はｋ番目のクラスタに含まれる文のベクトルの平均である。数１では，クラスタに含まれる各文の文ベクトルの平均を算出し，この平均文ベクトルと，各文の文ベクトルとのコサイン類似度の平均を算出する。
（数１）

【0055】

また，密集度算出処理部１４は，数１により算出した各クラスタの文の密集度ｄ_ｋを，最小値が０，最大値が１になるように，数２を用いて正規化する。ここでｎｄ_ｋはｋ番目のクラスタの正規化された文の密集度であり，Ｋはクラスタの総数である。
（数２）

【0056】

網羅度算出処理部１５は，クラスタリング処理部１３でクラスタリング処理をした各クラスタに対して，網羅度ｃ_ｋを算出する。網羅度ｃ_ｋは，対象の単語が文書等情報におけるページなどで出現する度合いを示している。たとえば，処理対象となる文書等情報のうちクラスタにおいて文を抽出できた文書等情報の数を，処理対象となる文書等情報の総数で除算して得た値として，数３により算出する。ここでｐ_ｋはｋ番目のクラスタにおいて文を抽出できた所定単位の数（たとえばページの数）であり，Ｐは所定単位の総数（たとえばページの総数）である。たとえば，あるクラスタにおける「山脈」という単語が，文書等情報の全４７ページのうち４ページに含まれている場合，「山脈」という単語のページ網羅度は，４／４７で示される。
（数３）

【0057】

また，網羅度算出処理部１５は，数３により算出した各クラスタの所定単位（たとえばページ）ごとの網羅度ｃ_ｋを，最小値が０，最大値が１になるように，数４を用いて正規化する。ここでｎｃ_ｋは，ｋ番目のクラスタの正規化された所定単位における網羅度である。
（数４）

【0058】

クラスタソート処理部１６は，各クラスタを所定の基準にしたがってソートをする。たとえば重要度ｉ_ｋを数５に定めるように算出し，重要度ｉ_ｋの大きい順にソートをする。
（数５）

【0059】

なお，数５では正規化した密集度ｎｄ_ｋと，正規化した網羅度ｎｃ_ｋとを用いて重要度ｉ_ｋを算出しているが，密集度ｄ_ｋと網羅度ｃ_ｋとを用いて重要度ｉ_ｋを算出すれば，ほかの算出方法であってもよい。

【0060】

クラスタソート処理部１６は，重要度ｉ_ｋにしたがってソートをするほか，数６により算出される出現位置でソートをしてもよい。この場合，各クラスタに含まれる文の各文書等情報での出現位置の平均値が小さい順にソートをする。なお，出現位置を用いる場合，文ベクトルの算出処理を行うために用いる単語ベクトルの所定次元数にさらに出現位置を付加してもよい。たとえば単語ベクトルが３００次元であると，そこに出現位置の情報を１次元付加し，３０１次元として取り扱うこともできる。
（数６）

【0061】

項目名特定処理部１７は，クラスタの項目名を特定する。クラスタの項目名の特定は，たとえば数７の演算をすることで特定できる。ここでＷ_ｗｏｒｄは単語ｗｏｒｄのベクトルであり，各クラスタについて，含まれる文の平均文ベクトルを算出し，この平均文ベクトルとのコサイン類似度がもっとも大きくなる単語ベクトルを有する単語を，クラスタの項目名として特定する。
（数７）

【0062】

項目名特定処理部１７における項目名の特定処理として，以下のような処理を実行してもよい。すなわち，クラスタリング処理部１３におけるクラスタリング処理の結果，クラスタに属する一部（一以上であり複数を含む）またはすべての行において，出現頻度が高い表現をそのクラスタの項目名として特定をしてもよい。単語ベクトルの算出処理と同様に，特定する表現における単語の品詞は，名詞や動詞，形容詞など一または複数の品詞を設定でき，用言であってもよい。用言で特定する場合には，文節を単位として特定することが好ましい。なお，クラスタの項目名を出現頻度が高い表現で特定する場合，クラスタソート処理部１６を設けても設けなくてもよい。出現頻度を用いる場合，出現頻度が高い上位ｎ個の単語を特定する，あるいは所定の閾値（スコア）以上の単語を特定することでよい。

【0063】

クラスタに属する一部またはすべての行において出現頻度が高い表現をそのクラスタの項目名として特定することで，その表現が項目名となり，利用者は，そのクラスタにおける重要情報の内容を想像することが可能な場合もある。そのため，出現頻度による項目名の特定も効果的である。

【0064】

表形式処理部１８は，クラスタリングした情報を表形式として表示をする。たとえば表の行方向に処理対象とした文書等情報の入力情報を，表の列方向にクラスタを配置することで，クラスタリングした項目ごとの情報を表形式で表示する。そして表の行に対する項目名として，たとえば文書等情報を識別する情報（ファイル名やウェブページの名称，所定のタイトルなど）を，表の列に対する項目名として項目名特定処理部で特定した項目名を付する。

【0065】

表形式処理部１８は，クラスタリングした情報を表形式として表示する際に，クラスタソート処理部１６でソートをしたクラスタに基づいて表示をするとよい。一般的に，クラスタの数は多い。すべてのクラスタを表示させてもよいが，その場合には，情報量が過多となり，かえって利用者の理解度を下げることにもつながる。そのため，クラスタソート処理部１６でソートしたクラスタのうち，所定の閾値以上（上位所定数）のクラスタを表示することが好ましい。これによって，クラスタリングした項目ごとの情報をソートして表示することができる。

【0066】

文書等情報として，後述するコールセンターにおけるオペレータと顧客との間の会話の音声データをテキスト化したテキストデータ（会話例１乃至会話例１２）を入力した場合に，表形式処理部１８が出力する表の一例を図１４に示す。なお，図１４では，項目名特定処理部１７は，クラスタの項目名として，出現頻度が最上位の表現（用言を含む）を特定し，出現頻度が最上位の表現が複数ある場合には，それらのすべてを特定した場合を示している。

【0067】

図１４のクラスタの項目名としては，出現頻度に基づくものであるので，必ずしもクラスタの項目名として適切なものではない可能性がある。そこで表形式処理部１８では，利用者によるクラスタの項目名の変更入力を受け付けてもよい。図１４におけるクラスタの項目名の変更入力を受け付けた場合の表の一例が図１５である。

【0068】

また表形式処理部１８は，上述のように，クラスタリングした項目ごとに，行方向（横方向）に順に情報をソートするほか，列方向（縦方向）に表示する項目（文書等情報の項目）をソートしてもよい。これによって，列方向（縦方向）にある程度類型化をすることができる。表形式処理部１８が，列方向（縦方向）に表示される項目をソートするためには，表が埋まっているところを「１」，空欄（ＮＵＬＬ）を「０」とし，所定の閾値以上のクラスタのうち，左の列がなるべく埋まっているもの（「１」であるもの）から順に，上から下にソートをすることで実現できる。図１５の表について，表が埋まっているところを「１」，空欄（ＮＵＬＬ）を「０」とした表が図１６であり，それをソートした表が図１７である。さらに，図１７の表に基づいて，図１５の表にかかる情報を対応づけて表示したのが図１８である。

【0069】

表形式処理部１８が，列方向（縦方向）に表示される項目をソートするための別の方法としては，上述と同様に，所定の閾値以上のクラスタのうち，表が埋まっているところを「１」，空欄を「０」として，双対尺度法（コレスポンデンス分析）を実行して得られる尺度により，上下方向をソートすることでも実現できる。

【0070】

たとえば図１６に示すように，表が埋まっているところを「１」，空欄を「０」とした表（行列）を，コレスポンド関数（ｃｏｒｒｅｓｐｏｎｄ関数）に引数として入力した場合，図１９に示す出力結果が得られる。そしてこの出力結果（図１９）におけるＲｏｗｓｃｏｒｅｓ：の［，１］の値の小さい値から順に，上から下に各会話例の情報を表示すれば，たとえば図１８に示すような出力結果を得られる。

【0071】

さらに，列方向（縦方向）に文書等情報が類型化されていても，どのように類型化されているのかがわかりにくい場合がある。たとえば図１８の場合には，列方向（縦方向）に類型化された文書等情報の項目名（表の行方向に対する項目名）としては「会話例１０」，「会話例１１」といったように，個々の文書等情報のファイル名などが示されるためである。そこで，表形式処理部１８は，図２０に示すように，「クレーム対応」，「製品故障に修理で対応」，「製品故障の対応法を教える」，「新規購入」などのように，表の行方向に対する項目名を類型化した情報の入力を受け付けても良い。これによって，たとえば図１８のように，文書等情報がオペレータと顧客との間の会話の音声データをテキスト化したテキストデータの場合，オペレータと顧客との間の会話を整理することもでき，どのように類型化されているかを把握することができる。さらに横方向にクラスタを出現順にソートされていることで，どのような順序で応対しているのかを概観することができる。

【0072】

加えて，上述した「クレーム対応」，「製品故障に修理で対応」，「製品故障の対応法を教える」，「新規購入」などの，表の行方向に対する項目名を類型化した情報を利用者が入力をするのではなく，自動的に生成してもよい。この場合，クラスタソート処理部１６においてソートをせずに，クラスタリング処理部１３において，上述のようにｋ−ｍｅａｎｓ法，階層クラスタリングなどの各種のクラスタリング手法によりクラスタリング処理を実行する。また表形式処理部１８は，クラスタリングで得られたクラスタに属する一部またはすべての行におけるすべての列での出現頻度の高い単語を，表の行方向に対する項目名を類型化した情報として特定する。ここで出現頻度を用いる場合でも，出現頻度が高い上位ｎ個の単語を特定する，あるいは所定の閾値（スコア）以上の単語を特定することでよい。このような処理の結果，「こんにちは購入したい住所おうかがいしたい失礼します」，「こんにちは製品動かない症状聞く詳しい情報するとよいです失礼します」，「こんちは製品動かない症状聞く詳しい情報修理します失礼します」，「こんにちは申し訳ございません失礼します」のように，表の行方向に対する項目名を類型化した情報を自動的に特定することができる。これを模式的に示すのが図２１である。なお，図２１では出現頻度がもっとも高い単語を，表の行方向に対する項目名を類型化した情報として特定した場合を示している。また，自動的に特定をした場合，「こんにちは」，「失礼します」のように，定型的な単語で出現頻度が高い単語が特定される場合がある。そのような場合，表の行方向に対する項目名を類型化した情報として，表示をしない（用いない）単語（たとえば挨拶に関する単語や，お礼や謝罪を示す単語などがあるが，それらに限定されず，任意に設定可能である）をあらかじめ登録しておき，それら登録された単語は，類型化した情報として表示しないようにしてもよい。図２１の表において，あらかじめ登録した単語として「こんにちは」，「失礼します」を表示しない場合を図２２に示す。

【0073】

また，表の行方向に対する項目名を類型化した情報として特定した単語のうち，複数の異なる表の行方向に対する項目名を類型化した情報で所定数以上，同一の単語が含まれる場合に，その単語を表示しないようにしてもよい。類型化した情報は識別性が重要であるが，同一の単語が含まれているとその識別性が低下する可能性があるからである。

【0074】

さらに，自動的に特定をした後，上述のように，その情報を参照した利用者により，図２０のように，表の行方向に対する項目名を類型化した情報の変更入力を受け付けてもよく，その場合にはよりわかりやすい類型化した情報とすることができる。

【0075】

表形式処理部１８において上述の処理を実行することで，類似する文を表の列方向に類型化することができる。また機械学習をさらに利用すれば，性能高く類似する文を表の列方向に類型化することができる。なお表の行方向には，出現順序を利用して表示することで，重要情報がどのような順序で出現したか，時系列を把握することもできる。

【0076】

このように，本発明の情報解析システム１に文書等情報として文を入力し，文に分割した上で類似の内容を重要情報として把握することができ，また重要情報の類型化ができる。また，列方向に整理した上で，行方向にソートすることで，類似の内容として把握した重要情報を，出現順（時間順）に整理することができる。このように，本発明を用いることによって，文書等情報が上述のように，たとえば，コールセンターにおけるオペレータと顧客との間の会話の音声データをテキスト化したテキストデータであった場合には，どのような種類の会話があり，どのような順序で電話応対をしているかの概略を把握することもできる。

【0077】

なお，表形式における行方向，列方向の表示は，それぞれ逆に表示をしても良い。また，行方向，列方向の各ソートの手法は，異なる方法を用いることもできる。

【0078】

以上のように，本発明の情報解析システム１で文のクラスタリングを実行し，自動的に項目を特定することで，利用者があらかじめキーワードとして認識していた情報以外の情報も，その意味を容易に認識可能な重要情報として的確に収集することができる。クラスタリングによって得られた情報（上述の各図では列方向の情報）をみた利用者は，そのような項目も情報収集に役立つと気づくことができ，自らが意識していなかった新たな気づきにつながることとなる。本発明を用いることによって，文で表現される文書等情報を入力することで，このような新たな気づきが可能となる。

【実施例1】

【0079】

つぎに本発明の情報解析システム１の処理の一例を図３のフローチャートを用いて説明する。なお以下の説明においては，文書等情報として４７都道府県のＷｉｋｉｐｅｄｉａのページを用いる場合を説明するが，文書等情報としては，ウェブページのほか，各種の電子化した文書情報などを用いることもでき，文が記載された電子化された情報であれば文書等情報の種類に限定はない。またファイル形式もテキストファイル形式であることが好ましいが，それに限定するものではない。

【0080】

まず利用者は，処理対象とする文書等情報である４７都道府県のＷｉｋｉｐｅｄｉａのページを情報解析システム１に読み込ませる前の事前処理として，基準とする学習用の文書等情報としたＷｉｋｉｐｅｄｉａの日本語の全ページを読み込ませる事前処理を実行する（Ｓ１００）。すなわち，事前処理部１０は，Ｗｉｋｉｐｅｄｉａの日本語の全ページを読み込み，そこに記述される単語を，たとえば３００次元でベクトル化する処理を実行する。

【0081】

つぎに利用者は，処理対象とする文書等情報である４７都道府県のＷｉｋｉｐｅｄｉａのページの入力を行い，入力された文書等情報を情報入力受付処理部１１で受け付ける（Ｓ１１０）。そして，文ベクトル算出処理部１２は，入力を受け付けた処理対象とする文書等情報の各ページにおいて，句点を区切りとして文に分割をする。文ベクトル算出処理部１２は，分割した各文において形態素解析を行い，文に出現する単語を品詞ごとに分解し，各単語のうち，品詞が名詞である単語の単語ベクトルを算出する。そして文ごとに，その文における各単語の単語ベクトルの平均を算出することで，文ベクトルを算出する（Ｓ１２０）。

【0082】

クラスタリング処理部１３は，文ベクトル算出処理部１２で算出した各文ベクトルについて，たとえばx-means法などにより，クラスタリングをする（Ｓ１３０）。そして，クラスタリング処理部１３でクラスタリング処理をした各クラスタの密集度を，密集度算出処理部１４が数１により算出し（Ｓ１４０），また，網羅度算出処理部１５が，クラスタリング処理部１３でクラスタリング処理をした各クラスタに対して，ページの網羅度を数３により算出する（Ｓ１５０）。

【0083】

さらに密集度算出処理部１４はＳ１４０で算出した密集度について数２により正規化をし（Ｓ１６０），網羅度算出処理部１５はＳ１５０で算出した網羅度について数４により正規化をする（Ｓ１７０）。

【0084】

クラスタソート処理部１６は，以上のようにして算出した正規化した密集度，正規化した網羅度を用いて，各クラスタの重要度を数５により算出し，各クラスタを重要度の大きい順にソートをする（Ｓ１８０）。

【0085】

また，項目名特定処理部１７は，各クラスタの項目名を，数７により特定をする（Ｓ１９０）。

【0086】

そして表形式処理部１８は，クラスタソート処理部１６でソートをした結果，上位所定数のクラスタについて，順に表形式で表示をする（Ｓ２００）。たとえば，行方向に各県を，列方向に各クラスタを配置し，クラスタリングした項目ごとの情報を対応する箇所に配置して表示させる。図６に，４７都道府県のＷｉｋｉｐｅｄｉａのページを用いた場合の処理結果の一例を示す。

【0087】

以上のような処理を実行することで，自動的に重要情報を抽出し，表形式として表示することが可能となる。なお，図３に示すフローチャートにおける各処理の順番は固定ではなく，適宜，変更することができる。

【実施例2】

【0088】

つぎに実施例１の情報解析システム１の異なる実施態様として，項目名特定処理部１７におけるクラスタの項目名の特定処理を，網羅度ｃ_ｋにより行う場合を説明する。

【0089】

実施例１の項目名特定処理部１７においては，たとえば図６における「北部」のような，クラスタの項目名としてふさわしくないと解する余地があるものが含まれていた。これは，クラスタに含まれる多くの文において「北部」の単語が出現する場合に，クラスタの平均文ベクトルが，これらの単語ベクトルに近づくためである。

【0090】

そこで，本実施例における項目名特定処理部１７は，各クラスタに含まれる品詞があらかじめ設定された単語のうち，文書等情報における所定単位（たとえばページ）の網羅度ｃ_ｋが最大のものを，そのクラスタの項目名として特定をする。項目名の特定処理において，あらかじめ設定した品詞としては，名詞（ただし数，接尾，非自立は除く。また，固有名詞を除いてもよいし，除かなくてもよい）のほか，動詞，形容詞など一または複数の品詞を設定することができる。また，単語のみならず，用言（動詞，形容詞などによる文節）であってもよい。

【0091】

このように項目名特定処理部１７においてクラスタの項目名を特定することで，たとえば図６の項目名について，図７に示すように，より適切に改善する（「北部」を排除している）ことができる。

【0092】

さらに，実施例２において，同じ項目名のクラスタが複数に分散されている場合がある（図７参照）。そこで，実施例２において，実施例１の情報解析システム１に，さらに，クラスタを統合するクラスタ統合処理部１９を備えていてもよい。この場合の情報解析システム１の全体のシステム構成の一例を図８に示す。

【0093】

クラスタ統合処理部１９は，あるクラスタとほかのクラスタとを比較し，所定条件を充足した場合には，それらのクラスタを一つに統合する。たとえば，あるクラスタと，そのクラスタ以外のすべてのクラスタについて，それぞれ統合した場合の文の密集度を算出する。そして，統合した場合の文の密集度が最大となるクラスタの対を特定し，それらを一つのクラスタとして統合する。この処理を，統合後の文の密集度が所定の閾値，たとえば０．９以上のクラスタの対がある限り，実行する。これを全てのクラスタに実行することで，クラスタ統合処理部１９は，クラスタの統合処理を実行できる。

【0094】

実施例１と同様の処理対象に対して，クラスタ統合処理部１９におけるクラスタ統合処理を実行した結果を，図９に示す。

【実施例3】

【0095】

上述の各実施態様では，文が一文である場合を示したが，たとえば文節レベルで文ベクトルを算出し，以降の処理を実行しても良い。この処理は文ベクトル算出処理部１２の代わりに文節ベクトル算出処理部２０で実行する。この場合の情報解析システム１の全体のシステム構成の一例を図１０に示す。文節ベクトル算出処理部２０は，句点で文を区切るのではなく，文書等情報における各文をさらに文節で区切り，文節単位での文節ベクトルを算出する。この場合の文節ベクトルは，区切られた文節において品詞が名詞（ただし数，接尾，非自立は除く。また，固有名詞を除いてもよいし，除かなくてもよい）の単語の単語ベクトルを算出し，その文節における各単語ベクトルの平均などを算出することで文節ベクトルを算出する。また，以後の処理においても，文レベルでの処理を文節レベルでの処理で読み替えて実行すれば良い。なお，文節レベルのほか，少なくとも二以上の単語を含むように構成された所定単位レベルでのベクトルを算出してもよい。この場合も，以後の処理において，文レベルでの処理を所定単位レベルでの処理に読み替えて実行すればよい。

【実施例4】

【0096】

つぎに本発明の実施例１乃至実施例３の情報解析システム１をコールセンターに用いた場合を説明する。

【0097】

なおコールセンターでは，オペレータと顧客との間の電話などでの会話による応対記録を音声データとして記録している。そしてその音声データをテキスト化したテキストデータを文書等情報として用いる場合を説明する。また，オペレータと顧客との間の一つの応対記録の音声データに基づくテキストデータを，一つの文書等情報とする。さらに，すべてまたは複数の応対記録の音声データに基づくテキストデータを事前処理部１０に読み込ませることで，事前処理部１０における事前処理（Ｓ１００）は実行されているとする。

【0098】

オペレータと顧客との間の応対記録の各テキストデータを，処理対象の文書等情報として，情報解析システム１の情報入力受付処理部１１で入力を受け付ける（Ｓ１１０）。そして文ベクトル算出処理部１２は，入力を受け付けた各テキストデータにおいて，文に分割し，文ベクトルを算出する（Ｓ１２０）。また，クラスタリング処理部１３は，文ベクトル算出処理部１２で算出した各文ベクトルについて，たとえばx-means法などにより，クラスタリングをする（Ｓ１３０）。そして，クラスタリング処理部１３でクラスタリング処理をした各クラスタの密集度を，密集度算出処理部１４が数１により算出し（Ｓ１４０），また，網羅度算出処理部１５が，クラスタリング処理部１３でクラスタリング処理をした各クラスタに対して，ページの網羅度を数３により算出する（Ｓ１５０）。

【0099】

【0100】

【0101】

また，項目名特定処理部１７は，各クラスタの項目名を，数７により特定をする（Ｓ１９０）。

【0102】

そして表形式処理部１８は，クラスタソート処理部１６でソートをした結果，上位所定数のクラスタについて，順に表形式で表示をする（Ｓ２００）。このようにして処理をした処理結果の一例を図１１に示す。

【0103】

従来は，オペレータと顧客との間の応対記録は，オペレータの手作業によって要約が作成されていた。しかし，本発明の情報解析システム１を用いることによって，オペレータと顧客との間の応対記録を自動的に要約することができる。その結果，オペレータの応対記録作成時間が不要となり，顧客対応に時間をかけることができ，また要約の作成品質を向上させることができる。

【0104】

なお，コールセンターに用いるほか，会議の議事録作成や，工事現場の現場代理人の作業者に対する指示（口述筆記）の作成など，さまざまな場面で用いることができる。

【実施例5】

【0105】

上述の各実施例を用いた応用例を説明する。たとえば実施例４に示すように，情報入力受付処理部１１で入力を受け付けた文書等情報がオペレータと顧客との間の電話による応対記録をテキスト化したテキストデータであり，それによって，実施例１乃至実施例４の処理を実行することで，表形式処理部１８が，図１１に示すような重要情報を表形式で出力したとする。この場合，入力文として各クラスタにおける情報，出力分類としてそのクラスタにおける項目名とすることができる。すなわち，図１２に示すように入力文と出力分類とすることができる。

【0106】

このように，表形式で出力した情報に基づく入力文と出力分類を用いて，公知の教師あり機械学習システムに入力文を学習させることで，出力分類を予測できるシステムを構築することができる。なお，入力は，文の一部，単語，複数の文，段落，あるいはより長いテキストであってもよい。

【0107】

機械学習システムが着目する情報である素性は，さまざまなものを用いることができる。たとえば入力文中の単語，文字列，構文情報，入力文の前後の文の中の単語，文字列，構文情報などを利用することができる。単語や構文情報は，上述のような形態素解析システムによって取得可能である。

【0108】

また，文ベクトルや，あらかじめ作成した単語分類を素性に用いることもできる。たとえば「テレビ」，「ビデオ」を製品という単語分類として，「テレビ」という単語が入力文に出現すれば，「製品」という単語分類を素性に利用できる。

【0109】

上述の機械学習システムとしては，たとえばdeep learning（深層学習），SVM，最大エントロピー法，決定木，決定リスト，シンプルベイズ法などさまざまな方法を用いることができ，これらに限定するものではない。

【0110】

また，表作成の支援が行えても良い。この場合，ある入力文が入力されたとき，その出力分類を推定したいとする。

【0111】

ある入力文ａがあった場合に，機械学習システムで分類先を推定する際において，確信度を出力できるが，たとえば図１１における表の項目（ｂ），（ｃ）のいずれの項目も確信度が５０％（同一）であり，どちらの項目を推定したらよいか特定できない場合がある。また，確信度について一定の閾値を設け，その閾値より高い確信度を有する分類先がない場合には，あるいはその閾値より高い確信度を有する分類先が複数ある場合には，どの項目を推定したらよいか特定できない場合がある。

【0112】

この場合，推定先の候補となっている項目をユーザに問い合わせるように構成してもよい。上述の例では，項目「（ｂ）問い合わせ内容」と，項目「（ｃ）回答内容」のいずれであるか，をユーザに問い合わせるように構成する。

【0113】

そして，ユーザからの回答の情報を利用して，入力文ａに対する回答内容を，表の対応する項目に入力させる。たとえば，ある入力文ａ（発言ａ）に対して，項目「（ｂ）問い合わせ内容」と，項目「（ｃ）回答内容」のいずれであるかをユーザに問い合わせ，ユーザからの回答が情報が「（ｂ）問い合わせ内容」であれば，入力文ａは，項目「（ｂ）問い合わせ内容」の出力分類として，表のその列に入力文ａをいれる。

【0114】

このような処理を設けることで，表をより正確に作成することができる。

【0115】

コールセンターの場合を一例として説明する。そして，コールセンターにおけるオペレータと顧客との間の会話の音声データをテキスト化したテキストデータを文書等情報として，リアルタイムに情報解析システム１が作成した表が図１３であったとする。また現在の会話が会話例３であったとする。

【0116】

ここでは図１３における表において，項目「（ｂ）製品型番」が空欄であるので，オペレータに対し，「製品型番を問い合わせてください」のような表示をその表示装置７２に出力し，オペレータに顧客に対して製品型番を確認させることができる。また上記表示の代わりに，顧客に対して，「製品型番を教えてください」のようなメッセージを直接，機械音声などにより伝えても良い。このような処理を設けることで，表をより正確に作成することができる。

【0117】

また表の空欄がなくなった場合には，会話は終了に向かっていると考えられる。そこで，上記に加え，あらかじめ定められた発言，たとえば「当社製品に，なにか要望はありますでしょうか」のような表示をその表示装置７２に出力し，オペレータに顧客に対してその確認を行わせても良いし，そのようなメッセージを直接，機械音声などにより伝えても良い。

【産業上の利用可能性】

【0118】

本発明の情報解析システム１によって，重要情報を文レベルで抽出し，表形式で整理可能とすることができる。そのため，従来の単語レベルでの重要情報の抽出よりも，より正確に重要情報を利用者は認識することができる。とくに，利用者が知りたい情報についてキーワードなどをあらかじめ知らない場合でも，その意味を容易に認識可能な重要情報として収集することができる。

【符号の説明】

【0119】

１：情報解析システム
１０：事前処理部
１１：情報入力受付処理部
１２：文ベクトル算出処理部
１３：クラスタリング処理部
１４：密集度算出処理部
１５：網羅度算出処理部
１６：クラスタソート処理部
１７：項目名特定処理部
１８：表形式処理部
１９：クラスタ統合処理部
２０：文節ベクトル算出処理部
７０：演算装置
７１：記憶装置
７２：表示装置
７３：入力装置
７４：通信装置

【要約】（修正有）

【課題】重要情報を文レベルで抽出し、表形式で整理可能な情報解析システム、及び情報解析プログラムを提供する。
【解決手段】文書等情報に対する情報解析システム１は、入力を受け付けた文書等情報の一部または全部の文について文ベクトルを算出する文ベクトル算出処理部１２と、文ベクトルを用いてクラスタリングするクラスタリング処理部１３と、クラスタリング処理の結果、一部または全部のクラスタを表形式で出力する表形式処理部１８と、を有する。
【選択図】図１

【図1】