(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024028279
(43)【公開日】2024-03-04
(54)【発明の名称】文書分類支援装置、文書分類支援方法、及び文書分類支援プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240226BHJP
【FI】
G06F16/35
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2023214855
(22)【出願日】2023-12-20
(62)【分割の表示】P 2020065229の分割
【原出願日】2020-03-31
(71)【出願人】
【識別番号】398040527
【氏名又は名称】株式会社オービック
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】前沢 諒也
(72)【発明者】
【氏名】廣川 慶樹
(72)【発明者】
【氏名】上野 剛光
(57)【要約】
【課題】シンプルな単語の組み合わせでの文書の集計を行うことで、作業者にとっても理解し易いルールによる文書の分類を行うこと。
【解決手段】本実施の形態にかかわる文書分類支援装置であって、分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解手段と、分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計手段と、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせの単語数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計手段と、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、前記複数の文書を並び替えて表示する文書並替手段と、を備えている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
制御部を備え、複数の文書を類似する内容の文書に分類する文書分類支援装置であって、
前記制御部は、
分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解手段と、
分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計手段と、
分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計手段と、
を備えたことを特徴とする文書分類支援装置。
【請求項2】
前記分類対象の文書は、顧客からの問合せ、アンケート、日報、報告書、SNSの投稿、及びWebサイトのコメントを含むことを特徴とする請求項1に記載の文書分類支援装置。
【請求項3】
制御部を備えた情報処理装置で実行される文書分類支援方法であって、
前記制御部で実行される、
分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解ステップと、
分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計ステップと、
分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計ステップと、
を含むことを特徴とする文書分類支援方法。
【請求項4】
制御部を備えた情報処理装置に実行させるための文書分類支援プログラムであって、
前記制御部において、
分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解ステップと、
分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計ステップと、
分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計ステップと、
をコンピュータに実行させるための文書分類支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分類支援装置、文書分類支援方法、及び文書分類支援プログラムに関する。
【背景技術】
【0002】
例えば、複数の文書を類似する文書に分類するシステムとして、例えば、特許文献1がある。かかる特許文献1の装置では、文書分類情報の特徴を示す分類特徴量を計算する分類特徴量計算手段と、検索質問と分類特徴量の暫定類似度を計算する暫定類似度計算手段を含み、暫定類似度に基づき文書を検索する検索手段とを備え、索引語の出現頻度に基づく文書特徴量ベクトルをCD、同様にして定義した各分類の分類特徴量をCL、検索文の文書特徴量をQとし、QとCD、QとCLの各類似度を計算し、これらの値に基づいて検索し、類似度の高い順に表示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、直感に反するカテゴリわけがなされた文書が存在する場合、その理由が理解しにくく、作業者にとって改善しにくい結果を示してしまう可能性がある。
【0005】
本発明は、上記に鑑みてなされたものであり、シンプルな単語の組み合わせでの文書の集計を行うことで、作業者にとっても理解し易いルールによる文書の分類を行うことが可能な文書分類支援装置、文書分類支援方法、及び文書分類支援プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明は、制御部を備え、複数の文書を類似する内容の文書に分類する文書分類支援装置であって、前記制御部は、分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解手段と、分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計手段と、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計手段と、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、前記複数の文書を並び替えて表示する文書並替手段と、を備えたことを特徴とする。
【0007】
また、本発明の一態様によれば、前記優先度は、優先度=(単語数+登録単語数)*文書数で決定することにしてもよい。
【0008】
また、本発明の一態様によれば、前記優先度は、優先度=(単語数+登録単語数)^kk*文書数(但し、kは調整用パラメータであり、0<k<+∞)で決定することにしてもよい。
【0009】
また、本発明の一態様によれば、前記優先度は、優先度=(各単語の稀少度の和)*文書数で決定することにしてもよい。
【0010】
また、本発明の一態様によれば、前記制御部は、さらに、前記並べ替えた前記複数の文書にラベル付けを行うラベル付与手段を備えることにしてもよい。
【0011】
また、本発明の一態様によれば、前記分類対象の文書は、顧客からの問合せ、アンケート、日報、報告書、SNSの投稿、及びWebサイトのコメントを含むことにしてもよい。
【0012】
また、上述した課題を解決し、目的を達成するために、本発明は、制御部を備えた情報処理装置で実行される文書分類支援方法であって、前記制御部で実行される、分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解ステップと、分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計ステップと、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計ステップと、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、前記複数の文書を並び替えて表示する文書並替ステップと、を含むことを特徴とする。
【0013】
また、上述した課題を解決し、目的を達成するために、本発明は、制御部を備えた情報処理装置に実行させるための文書分類支援プログラムであって、前記制御部において、分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解ステップと、分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計ステップと、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計ステップと、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、前記複数の文書を並び替えて表示する文書並替ステップと、をコンピュータに実行させるための文書分類支援プログラムであることを特徴とする。
【発明の効果】
【0014】
本発明によれば、シンプルな単語の組み合わせでの文書の集計を行うことで、作業者にとっても理解し易いルールによる文書の分類を行うことが可能となるという効果を奏する。
【図面の簡単な説明】
【0015】
【
図1】
図1は、本実施の形態に係る文書分類支援装置の構成の一例を示すブロック図である。
【
図2】
図2は、本実施の形態に係る文書分類支援装置の制御部の全体の処理の流れを説明するためのフローチャートである。
【
図3】
図3は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図4】
図4は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図5】
図5は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図6】
図6は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図7】
図7は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図8】
図8は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【
図9】
図9は、本実施の形態に係る文書分類支援装置の制御部の処理の具体例を説明するためのサンプルデータを示す図である。
【0016】
以下に、本発明に係る文書分類支援装置、文書分類支援方法、及び文書分類支援プログラムの実施の形態を、図面に基づいて詳細に説明する。なお、本実施形態によりこの発明が限定されるものではない。
【0017】
[1.概要]
近時、複数の文書を類似する文書に分類する文書分類システムの需要が増加している。具体的には、例えば、大量の短い文書に対して、似た内容のものをグルーピングしたい場面がある。アンケートの自由記述欄を集計することで、どのような感想が多かったのかを把握することができる。他にも、製品に対する問合せを集計することで、よくある質問を把握することで製品の改善すべきポイントの優先度を決めることができる。
【0018】
また、問合せを集計することで、チャットボットのような仕組みの元データを作成することができる。このような集計のための方法として、一つ一つの文章に対して人手でラベル付けを行うことが考えられる。この作業では、以前にどのようなラベル付けをしたかを常に把握しながら作業する必要があり、文書の内容が多岐にわたりラベルの種類が多くなると、人手での作業効率が悪くなる。そのため、プログラムによる集計を行うことで似た内容がまとまって表示することができれば、ラベル付けの作業効率を大きく改善できる。
【0019】
文書の集計に関する既存の手法としては、TFIDFに基づく文書のクラスタリング、トピックモデル、機械学習による分類手法などが挙げられる。しかし、これらの方法を用いた場合、直感に反するカテゴリわけがなされた文書が存在する場合、その理由が理解しにくく、作業者にとって改善しにくい結果を示してしまう可能性がある。
【0020】
本実施の形態では、シンプルな単語の組み合わせでの文書の集計を行うことで、作業者にとっても理解し易いルールによる文書の分類を行うことを目的の1つとしている。また、本実施の形態では、大量の文書に対してまとまり度を計算し、似た内容の複数の文書を上位に表示することで、人手によるラベル付けの効率を改善することを目的の1つとしている。
【0021】
本実施の形態によれば、シンプルな単語の組み合わせでの集計により、作業者にとっても理解しやすいルールによる文書の分類が可能となる。また、意味のあるまとまりを上位に表示することで、人手によるラベル付け作業をより有用なものから優先して行うことが可能となる。また、アンケートや問合せなどの集計作業(分類作業)を効率化することができ、集計結果に基づく素早い意思判断を支援することが可能となる。また、シンプルなルールによる集計を行うため、集計方法の改善を行い易いという効果がある。
【0022】
本実施の形態は、各種文書の分類に適用でき、例えば、顧客からの問合せ、アンケート、日報、報告書、SNSの投稿、その他Webサイトのコメント等の文書を好適に分類することができる。また、人手によるラベル付けまでを行わなくても、単語による集計によって全体の概要を把握することも可能である。
【0023】
[2.構成]
本実施の形態に係る文書分類支援装置100の構成について、
図1を参照して説明する。
図1は、本実施の形態に係る文書分類支援装置100の構成の一例を示すブロック図である。
【0024】
文書分類支援装置100は、市販のデスクトップ型パーソナルコンピュータである。なお、文書分類支援装置100は、デスクトップ型パーソナルコンピュータのような据置型情報処理装置に限らず、市販されているノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)、スマートフォン、タブレット型パーソナルコンピュータなどの携帯型情報処理装置であってもよい。
【0025】
文書分類支援装置100は、
図1に示すように、制御部102と通信インターフェース部104と記憶部106と入出力インターフェース部108と、を備えている。文書分類支援装置100が備えている各部は、任意の通信路を介して通信可能に接続されている。
【0026】
通信インターフェース部104は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、文書分類支援装置100をネットワーク300に通信可能に接続する。通信インターフェース部104は、他の装置と通信回線を介してデータを通信する機能を有する。ここで、ネットワーク300は、文書分類支援装置100とサーバ200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN(Local Area Network)等である。なお、後述する記憶部106に格納されるデータは、サーバに格納されてもよい。
【0027】
入出力インターフェース部108には、入力装置112および出力装置114が接続されている。出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる。入力装置112には、キーボード、マウス、およびマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。なお、以下では、出力装置114をモニタ114とし、入力装置112をキーボード112またはマウス112として記載する場合がある。また、ユーザーが出力装置(モニタ)114の画面(GUI等)に対して入力装置112で操作することを、単に「ユーザー操作」と記載する場合がある。
【0028】
記憶部106には、各種のデータベース、テーブル、およびファイルなどが格納される。記憶部106には、OS(Operating System)と協働してCPU(Central Processing Unit)に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部106として、例えば、RAM(Random Access Memory)・ROM(Read Only Memory)等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、および光ディスク等を用いることができる。
【0029】
記憶部106は、データファイル106a等を備えている。データファイル106aは、単語数と最低文書数の閾値データや優先度を算出する際の重要単語一覧のデータ等を登録するためのファイルである。閾値データや重要単語一覧は、オペレータが編集可能に構成されている。閾値データは第2の集計部102cにより参照される。また、重要単語一覧は、文書並替部102dにより参照される。
【0030】
制御部102は、文書分類支援装置100を統括的に制御するCPU等である。制御部102は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データなどを格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。制御部102は、機能概念的に、単語分解部102a、第1の集計部102b、第2の集計部102c、文書並替部102d、ラベル付与部102e、及び画面表示制御部102fを備えている。
【0031】
単語分解部102aは、分類対象の複数の文書の各文書を、形態素解析して単語に分解する。分類対象の文書は、例えば、顧客からの問合せ、アンケート、日報、報告書、SNSの投稿、及びWebサイトのコメント等である。
【0032】
第1の集計部102bは、分解した単語単位で、当該単語を含む複数の文書を集計する。
【0033】
第2の集計部102cは、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む複数の文書を集計する。
【0034】
文書並替部102dは、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、複数の文書を並び替えて表示出力する。優先度は、優先度=(単語数+登録単語数)*文書数で決定することにしてもよい。また、優先度は、優先度=(単語数+登録単語数)^k*文書数(但し、kは調整用パラメータであり、0<k<+∞)で決定することにしてもよい。また、優先度は、優先度=(各単語の稀少度の和)*文書数で決定することにしてもよい。
【0035】
ラベル付与部102eは、ユーザー操作に応答して、並べ替えた複数の文書にラベル付けを行う。
【0036】
画面表示制御部102fは、モニタ114に表示する文書分類用画面の表示及びその画面上での入力の受付を制御し、文書分類用画面に、単語分解部102a、第1の集計部102b、第2の集計部102c、文書並替部102d、及びラベル付与部102eの処理過程を表示する。
【0037】
[3.処理の具体例]
図1~
図9を参照して、本実施の形態における文書分類支援装置100の制御部102の処理の具体例を説明する。
図2は、文書分類支援装置100の制御部102の全体の処理の流れを説明するためのフローチャートを示す図である。
図2を参照して、文書分類支援装置100の制御部102の全体の処理の流れを説明する。
【0038】
図2において、まず、単語分解部102aは、単語分解処理を実行する(ステップS1)。具体的には、単語分解処理では、単語分解部102aは、分類対象の複数の文書の各文書を、形態素解析して単語に分解する。この場合、後の集計処理のために単語の前処理やフィルタリングを行ってもよい。例えば、(1)名詞・動詞・形容詞に絞る、(2)半角全角を揃える、(3)原形に変換する、(4)3音以上の単語の末尾の長音を除去する、(5)頻出単語や一般的な単語を除外する、(6)類語辞書に基づき変換する等の処理を行ってもよい。これらの処理は、文書の特性に合わせていろいろな処理が考えられる。
【0039】
第1の集計部102bは、第1の集計処理を実行する(ステップS2)。具体的には、
第1の集計処理では、第1の集計部102bは分解した単語単位で、当該単語を含む分類対象の複数の文書を集計して、リストを作成する。
【0040】
第2の集計部102cは、第2の集計処理を実行する(ステップS3)。具体的には、第2の集計処理では、第2の集計部102cは、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む複数の文書を集計する。
【0041】
第2の集計処理の手順の一例を説明すると、(1)上述のリストで、文書の数の多い順に単語を並び替える。ここで、一単語だけでは文書の内容が似ているとはいい難く、文書の内容を理解することも難しい。そこで、(2)一単語による集計結果をさらに細分化するために、二単語での集計を考える。二単語での集計を行うためには、一単語の集計結果の文書の重なりを見て、第1の単語を含む文書と第2の単語を含む文書の共通部分を取得する。これにより、集計のコストを節約することができる。一単語での集計結果が多かった単語から順番に処理をしてゆくことで、複数単語を並べた際に、一単語での結果が多いものを例えば左に並べることができる。二単語による集計結果にも、複数の文書を含む組み合わせが存在している。
【0042】
(3)共通して使われている単語数が多いほど、その文書間の類似度は高いと考えられるのでさらに単語数を増やしていく。三単語での集計を行うためには、二単語での集計結果と一単語での集計結果の共通部分を取得すればよい。以降同様にして、複数単語で集計した際に複数の文書が存在する場合に、さらに単語を増やして細分化できないかを繰り返す。この時、細分化が細かくなりすぎないように閾値を設定することができる。例えば、一単語から二単語へ細分化するためには、一単語の集計時点で5以上の文書を含む単語を対象とする、といった形をとる。この設定により、最終的な結果が細かくなりすぎることを防ぎ、また、無駄な計算を減らすことが可能となる。
【0043】
(4)上記処理を繰り返し、それ以上細分化できなくなったら集計処理を終了する。結果として、単語の組み合わせとそれらを含む文書の一覧が得られる。同じ文書が、異なる単語の集計に含まれる可能性がある。
【0044】
文書並替部102dは、文書並替処理を実行する(ステップS4)。具体的には、文書並替処理では、文書並替部102dは、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、複数の文書を並び替えて表示出力する。
【0045】
文書並替処理は、ラベル付処理のための文書の並替である。(1)優先的にラベル付けする対象を決めるために、以下を考慮する。集計に使用した単語数が多いほど、内容が似ていると考えられ、単語数が多いものを上位に表示する。また、集計された文書数が多い単語の組み合わせほど、ラベル付け時にまとめて作業できるため、上位に表示する。
【0046】
上記の優先ルールに加え、追加のルールを考えることもできる。例えば、重要単語の一覧を事前にデータファイル106aに登録しておき、それらの単語を含む集計結果を優先的に表示することができる。単語として、システムで使用する固有の名称を「重要単語」として指定することで、一般的な単語による集計結果よりも、より意味が限定的な集計結果を上位に表示することが可能となる。
【0047】
(2)集計結果に対して、その単語数、文書数、単語の登録有無に基づき表示優先度を決定する。例えば、優先度=(単語数+登録単語数)*文書数とし、この順番に表示する。(3)上記の優先度算出式に対して、単語数と文書数の重みを調整することで、優先度付けを改善することが考えられる。例えば、調整用パラメータk(0<k<+∞)を取り、優先度=(単語数+登録単語数)^k×文書数とする。文書数が多いときは、kを1以上の値とすることで単語数の重要度が高くなり、より内容がまとまっていると考えられるものの優先度が高くなる。逆に、kを小さくすることで文書数の多い集計結果の優先度が高くなる。一般的に、文書数に上限はないが、単語の種類には限りがあるため、文書数が多いほど、単語数の重みを増すのが良いと考えられる。
【0048】
上記の優先度算出式に対して、単語の重要度を加味することで、優先度付けを改善することが考えられる。例えば、単語の出現頻度の逆数を取ることで、その単語の稀少度が得られる。稀少な単語を含む文章ほど、特徴的な意味を持つと考え、その単語を共通に含む文書は意味が近い可能性が高いと考えられる。例えば、単語数の代わりに、単語の稀少度の和を計算式に組み込むことができる。例えば、優先度=(各単語の稀少度の和)*文書数とすることができる。(4)ユーザーがラベル付け作業を行うために結果を表示する。上で決めた優先度順に文書を表示する。ただし、集計方法により複数回登場する文書があるので、すでに表示されている場合は、省略するようにする。優先度が同じになるような集計結果が存在する場合は、単語数を減らした際のスコアが高いものを上位に表示してもよい。一単語まで減らしてもスコアが変わらない場合は、集計時の単語出現順としてもよい。
【0049】
表示の際に、問合せ内容の表示欄において、集計に使用された単語を強調して表示することで、ユーザーに対し集計の根拠をわかりやすく示すことができる。
【0050】
ラベル付与部102eは、ラベル付処理を実行する(ステップS5)。具体的には、ラベル付け処理では、ユーザー操作に応答して、並べ替えた複数の文書にラベル付けを行う。
【0051】
本実施の形態における文書分類支援装置100の制御部102の処理の具体例を
図3~
図9に示すサンプルデータを参照して説明する。
【0052】
分類対象の文書の例として、業務システムに関するユーザーからの問合せを題材とする。大量の問合せに対して、同じような内容の問合せに分類することで、どのような問合せが多いのかを把握したい。一つ一つの問合せを読み、順番に分類のためのラベルを考えていこうとすると、過去に着けたラベルをすべて把握しながら作業する必要があり、非常に効率が悪い。また、最後までラベル付けを行わないと、どのような問合せが多いのかを把握することができない。これを以下の手順で集計・表示することでラベル付けの効率を改善する。
【0053】
図3は、問い合わせ内容のサンプル文書を示している。問い合わせ内容は、Aパスワードを忘れてしまいログインできない。Bデータを出力しようとすると○○と表示されてしまう。C新しくユーザーを登録したいがどうしたらよいか。Dユーザーを新しく増やすときの手順を教えてほしい。Eパスワードをリセットしたいがどうすればよいか。Fデータ出力処理でエラーが発生する。Gログインのためのパスワードを忘れてしまった。Hユーザーのデータを出力することは可能か。Iパスワードを変更したい。
【0054】
まず、単語分解処理S1により、各文書を形態素解析し、
図4に示すように、単語に分解する。この場合、上述したように、後の集計のために単語の前処理、フィルタリングを行う。例えば、名詞・動詞・形容詞に絞る、半角全角をそろえる、原形に変換する、3音以上の単語の末尾の長音を除去する、頻出単語や一般的な単語を除外する、類語辞書に基づき変換する等を行う。この処理は、文書の特性に合わせていろいろな処理が考えられる。
【0055】
次に、第1の集計処理S2により、分解した単語単位で、当該単語を含む文書を集計して、
図5(A)に示すようなリストを作成し、さらに、
図5(B)に示すように、文書の数の多い順に並び替える。
図5(B)に示すように、この時点で、「パスワード」を含む問合せが一番多く、次いで「データ」、「出力」が多いことがわかる。しかしながら、一単語だけでは文書の内容が似ているとはいい難く、問い合わせの内容を理解することも難しいので、複数単語の組み合わせについても集計する。
【0056】
第2の集計処理S3を実行して、複数の単語の組み合わせ単位で文書を集計する。
図6(A)に示すように、一単語による集計結果をさらに細分化するために、二単語での集計を行う。二単語での集計を行うためには、一単語の集計結果の文書の重なりを見ればよい。例えば、「パスワード」と「データ」を共に含む文書を探すためには、「パスワード」と含む文書と「データ」を含む文書の共通部分を取得すればよい。これにより、集計のコストを節約することができる。一単語での集計結果が多かった単語から順番に処理をしてゆくことで、複数単語を並べた際に、一単語での結果が多いものを左に並べることができる。例えば、「パスワード データ」は一単語での集計結果が多い「パスワード」が左に来る。
【0057】
二単語による集計結果にも、複数の文書を含む組み合わせが存在している。共通して使われている単語数が多いほど、その文書間の類似度は高いと考えられるので、さらに単語数を増やしていく。
図6(B)に示すように、三単語での集計を行う。三単語での集計を行うためには、二単語での集計結果と一単語での集計結果の共通部分を取得すればよい。
【0058】
以降同様にして、複数単語で集計した際に複数の文書が存在する場合に、さらに単語を増やして細分化できないかを繰り返す。この時、細分化が細かくなりすぎないように閾値を設定することができる。例えば、一単語から二単語へ細分化するためには、一単語の集計時点で5以上の文書を含む単語を対象とする、といった形をとる。この設定により、最終的な結果が細かくなりすぎることを防ぎ、また、無駄な計算を減らすことが可能となる。
【0059】
図6(C)は、閾値設定の例を示す図である。
図6(C)に示す例では、単語数「2」の場合は、最低文書数「5」、単語数「3」の場合は、最低文書数「5」、単語数「4」の場合は、最低文書数「4」、単語数「5」の場合は、最低文書数「4」、単語数「6~」の場合は、最低文書数「3」となっている。以下では、全ての単語数について、最低文書数「2」として処理する。
【0060】
上記処理を繰り返し、それ以上細分化できなくなったら集計処理を終了する。結果として、
図6(D)に示すような、単語の組み合わせとそれらを含む文書の一覧が得られる。ここで、同じ文書が、異なる単語の集計に含まれる可能性がある。
【0061】
文書並替処理S4を実行して、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、複数の文書を並び替えて表示出力する。これは、ラベル付け作業のための表示である。優先的にラベル付けする対象を決めるために、以下を考慮する。(1)集計に使用した単語数が多いほど、内容が似ていると考えられ、単語数が多いものを上位に表示する。(2)集計された文書数が多い単語の組み合わせほど、ラベル付け時に纏めて作業できるため、上位に表示する。
【0062】
上記の優先ルールに加え、追加のルールを考えることもできる。例えば、重要な単語の一覧を事前に登録しておき、それらの単語を含む集計結果を優先的に表示することができる。単語として、システムで使用する固有の名称を指定することで、一般的な単語による集計結果よりも、より意味が限定的な集計結果を上位に表示することが可能となる。
図7(A)は、重要単語の一覧の例を示しており、重要単語は、「パスワード」、「ログイン」、「出力」、「ユーザー」である。
【0063】
集計結果に対して、その単語数、文書数、単語の登録有無に基づき表示優先度を決定する。例えば、優先度=(単語数+登録単語数)*文書数とし、
図7(B)に示すように、この順番に表示する。
【0064】
上記の優先度算出式に対して、単語数と文書数の重みを調整することで、優先度付けを改善することが考えられる。例えば、調整用パラメータk(0<k<+∞)を取り、優先度=(単語数+登録単語数)^k×文書数とすることができる。文書数が多いときは、kを1以上の値とすることで単語数の重要度が高くなり、より内容がまとまっていると考えられるものの優先度が高くなる。逆に、kを小さくすることで文書数の多い集計結果の優先度が高くなる。一般的に、文書数に上限はないが、単語の種類には限りがあるため、文書数が多いほど、単語数の重みを増すのが良いと考えられる。
図7(C)は、優先度を、優先度=(単語数+登録単語数)^k×文書数、k=2とした場合の計算例を示している。
【0065】
上記の優先度算出式に対して、単語の重要度を加味することで、優先度付けを改善することが考えられる。例えば、単語の出現頻度の逆数を取ることで、その単語の稀少度が得られる。稀少な単語を含む文章ほど、特徴的な意味を持つと考え、その単語を共通に含む文書は意味が近い可能性が高いと考えられる。例えば、単語数の代わりに、単語の稀少度の和を計算式に組み込むことができ、優先度=(各単語の稀少度の和)*文書数としてもよい。
図7(D)は、希少度を取り入れ、優先度=(各単語の稀少度の和)*文書数とした場合の計算例を示している。
【0066】
つぎに、ユーザーがラベル付け作業を行うために結果を表示する。
図8(E)に示すように、ここでは、
図7(B)で決めた優先度順に文書を表示している。他の方法で算出した優先度順に表示してもよい。ただし、集計方法により複数回登場する文書があるので、すでに表示されている場合は、省略するようにする。優先度が同じになるような集計結果が存在する場合は、単語数を減らした際のスコアが高いものを上位に表示する。一単語まで減らしてもスコアが変わらない場合は、集計時の単語出現順とする。
【0067】
表示の際に、
図8(F)に示すように、問合せ内容の表示欄において、集計に使用された単語を強調して表示することで、ユーザーに対し集計の根拠をわかりやすく示すことができる。
【0068】
ラベル付け処理S5を実行して、ユーザー操作に応答して、並べ替えた複数の文書にラベル付けを行う。
図9は、ラベル付けの例を示している。ユーザーはこの結果を見ながら、問合せに対してラベル付けを行うことができる。内容が近いものが並んで表示されているため、まとめてラベルを考えることができる。量の多いものが上位に表示されるため、全量が多すぎて全件のラベル付けが難しい場合でも、効率的に内訳を把握することができる。また、集計のルールが単純であるため(単語を含んでいるかどうかというルール)、類語辞書の更新といった集計精度の改善につなげやすい。
【0069】
このラベル付けにより、どのような問合せが多いのかを把握できる。また、各ラベルに対する回答を用意することで、チャットボット作成のための元データを作成することができる。一般的に、チャットボットを作成する際に、一つの質問内容に対し、複数の言い回しの学習データを用意することで、回答の精度を向上させることができる。
【0070】
なお、集計方法の改善として、単語レベルだけでなく係り受け関係にある二つの単語も一つの単語とみなして同様の方法で集計する手法が考えられる。これにより、より意味が近い集計が可能になると考えられるが、集計時の組み合わせが非常に多くなり、結果の計算が遅くなることが懸念される。
【0071】
以上説明したように、本実施の形態によれば、分類対象の複数の文書の各文書を、形態素解析して単語に分解する単語分解部102aと、分解した単語単位で、当該単語を含む前記複数の文書を集計する第1の集計部102bと、分解した単語の複数の単語の組み合わせ単位で、組み合わせの単語数を増加させながら、組み合わせを含む文書の文書数が所定の最低文書数となるまで、当該複数の単語を含む前記複数の文書を集計する第2の集計部102cと、単語数、集計した文書数、及び登録単語の少なくとも1つに基づく優先度に従って、前記複数の文書を並び替えて表示する文書並替部102dと、を備えているので、シンプルな単語の組み合わせでの文書の集計を行うことで、作業者にとっても理解し易いルールによる文書の分類を行うことが可能となる。
【0072】
[4.他の実施形態]
本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。
【0073】
例えば、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0074】
また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0075】
また、文書分類支援装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0076】
例えば、文書分類支援装置100が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて文書分類支援装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
【0077】
また、このコンピュータプログラムは、文書分類支援装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0078】
また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、フレキシブルディスク、光磁気ディスク、ROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(登録商標)(Electrically Erasable and Programmable Read Only Memory)、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto-Optical disk)、DVD(Digital Versatile Disk)、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
【0079】
また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0080】
記憶部106に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
【0081】
また、文書分類支援装置100は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、文書分類支援装置100は、当該装置に本実施形態で説明した処理を実現させるソフトウェア(プログラムまたはデータ等を含む)を実装することにより実現してもよい。
【0082】
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
【符号の説明】
【0083】
100 文書分類支援装置
102 制御部
102a 単語分解部
102b 第1の集計部
102c 第2の集計部
102d 文書並替部
102e ラベル付与部
102f 画面表示制御部
104 通信インターフェース部
106 記憶部
106a データファイル
108 入出力インターフェース部
112 入力装置
114 出力装置
200 サーバ
300 ネットワーク