IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

<>
  • 特開-文分類装置及びプログラム 図1
  • 特開-文分類装置及びプログラム 図2
  • 特開-文分類装置及びプログラム 図3
  • 特開-文分類装置及びプログラム 図4
  • 特開-文分類装置及びプログラム 図5
  • 特開-文分類装置及びプログラム 図6
  • 特開-文分類装置及びプログラム 図7
  • 特開-文分類装置及びプログラム 図8
  • 特開-文分類装置及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024060203
(43)【公開日】2024-05-02
(54)【発明の名称】文分類装置及びプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240424BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022167411
(22)【出願日】2022-10-19
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100165157
【弁理士】
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】大野 和久
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB01
(57)【要約】
【課題】文を構成する各文節を用いて文の主題を考慮した分類をする文分類装置及びプログラムを提供する。
【解決手段】問合せ文分類装置1は、各問合せ文の文中から主辞と主辞に係る所定の文節とからなる要約を作成する要約作成部12と、各問合せ文に対して形態素解析をして得られた形態素に基づいて各問合せ文をクラスタリングするクラスタリング部14と、クラスタリング部14によるクラスタリングした分類ごとの名寄せ先候補を用いて要約作成部12により作成した要約を分類ごとに同一の名寄せをする要約統合部17と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
各文の文中から主辞と前記主辞に係る所定の文節とからなる要約を作成する要約作成手段と、
各文に対して形態素解析をして得られた形態素に基づいて各文をクラスタリングする単語分類手段と、
前記単語分類手段によるクラスタリングした分類ごとの名寄せ先候補を用いて前記要約作成手段により作成した前記要約を分類ごとに同一の名寄せをする要約統合手段と、
を備える、文分類装置。
【請求項2】
請求項1に記載の文分類装置において、
前記要約から名詞を取得する名詞取得手段を備え、
前記要約統合手段は、分類ごとに前記名詞取得手段が取得した前記名詞に基づいて、前記要約を統合する、文分類装置。
【請求項3】
請求項2に記載の文分類装置において、
代表語と前記代表語の同義語とを対応付けて記憶した同義語記憶部を備え、
前記要約統合手段は、前記同義語記憶部を参照し、分類ごとに前記名詞取得手段が取得した前記名詞に含まれる前記同義語を前記代表語にした上で前記要約を統合する、文分類装置。
【請求項4】
請求項2に記載の文分類装置において、
前記単語分類手段によるクラスタリングした分類ごとに、前記要約ごとの件数を集計する件数集計手段を備え、
前記要約統合手段は、分類ごとに前記件数集計手段が集計した件数が最も多い前記要約を分類先にし、分類ごとに前記件数集計手段が集計した件数が多い順に、前記名詞取得手段が取得した前記名詞と前記分類先に含む名詞とを比較し、前記分類先の前記名詞に一致しない名詞を有する前記要約を、さらに分類先にする、文分類装置。
【請求項5】
請求項4に記載の文分類装置において、
前記要約統合手段は、分類ごとに前記件数集計手段が集計した件数が多い順に、前記名詞取得手段が取得した前記名詞と前記分類先に含む名詞とを比較し、前記分類先の前記名詞に一致する名詞を含む前記要約を、比較した前記分類先に統合する、文分類装置。
【請求項6】
請求項4又は請求項5に記載の文分類装置において、
前記要約統合手段は、異なる分類であって前記分類先が同じであるものが存在する場合には、前記件数集計手段が集計した件数が多い分類の前記分類先に他の分類の前記分類先を統合する、文分類装置。
【請求項7】
請求項1に記載の文分類装置において、
前記要約統合手段による統合結果として少なくとも前記要約を出力する分類結果出力手段を備える、文分類装置。
【請求項8】
コンピュータを、
各文の文中から主辞と前記主辞に係る所定の文節とからなる要約を作成する要約作成手段と、
各文に対して形態素解析をして得られた形態素に基づいて各文をクラスタリングする単語分類手段と、
前記単語分類手段によるクラスタリングした分類ごとの名寄せ先候補を用いて前記要約作成手段により作成した前記要約を分類ごとに同一の名寄せをする要約統合手段と、
して機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文分類装置及びプログラムに関する。
【背景技術】
【0002】
コールセンタ等において、オペレータは、顧客との応対中に顧客の様々な問合せ等に対応しなければならない。例えば、オペレータは、顧客の発言内容を整理し、問合せに対して適切に回答する必要がある。そのため、問合せの内容についての傾向を把握し、オペレータ向けのマニュアル等を作成している。そして、マニュアル等は、問合せの傾向にしたがって改善をしていく必要がある。
問合せの内容を、例えば、自然言語処理技術を用いた文書分類によって自動分類することで、問合せの傾向を把握することが一般的に行われている。
また、例えば、「複数の回答文40を取得し、各回答文40について、1つ以上の回答単語からなる単語集合を取得し、各回答単語の特徴を表す回答単語ベクトルを取得し、各回答文40について、対応する各回答単語ベクトルに基づいて、当該回答文40の特徴を表す回答文ベクトルを取得し、各回答文ベクトルに基づき、回答文40を複数のクラスタに分類する」文分類装置が開示されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-179846号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般的な分類方法として、自然言語処理技術を用いた文書分類によって自動分類をした場合、より具体的には、単語の出現頻度を用いた分類をした場合には、単語の出現頻度が高いほど重み付けがされるため、文の主題に関係なく分類される場合がある。また、特許文献1に記載のものは、各単語の意味情報をベクトルにより表現し、さらに各単語のベクトルから回答文の特徴を表す回答文ベクトルを取得するものであり、単語ベクトルの付与に係る処理ロジックに依存するものであった。
【0005】
そこで、本発明は、文を構成する各文節を用いて文の主題を考慮した分類をする文分類装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、各文の文中から主辞と前記主辞に係る所定の文節とからなる要約を作成する要約作成手段と、各文に対して形態素解析をして得られた形態素に基づいて各文をクラスタリングする単語分類手段と、前記単語分類手段によるクラスタリングした分類ごとの名寄せ先候補を用いて前記要約作成手段により作成した前記要約を分類ごとに同一の名寄せをする要約統合手段と、を備える、文分類装置である。
第2の発明は、第1の発明の文分類装置において、前記要約から名詞を取得する名詞取得手段を備え、前記要約統合手段は、分類ごとに前記名詞取得手段が取得した前記名詞に基づいて、前記要約を統合する、文分類装置である。
第3の発明は、第2の発明の文分類装置において、代表語と前記代表語の同義語とを対応付けて記憶した同義語記憶部を備え、前記要約統合手段は、前記同義語記憶部を参照し、分類ごとに前記名詞取得手段が取得した前記名詞に含まれる前記同義語を前記代表語にした上で前記要約を統合する、文分類装置である。
第4の発明は、第2の発明又は第3の発明の文分類装置において、前記単語分類手段によるクラスタリングした分類ごとに、前記要約ごとの件数を集計する件数集計手段を備え、前記要約統合手段は、分類ごとに前記件数集計手段が集計した件数が最も多い前記要約を分類先にし、分類ごとに前記件数集計手段が集計した件数が多い順に、前記名詞取得手段が取得した前記名詞と前記分類先に含む名詞とを比較し、前記分類先の前記名詞に一致しない名詞を有する前記要約を、さらに分類先にする、文分類装置である。
第5の発明は、第4の発明の文分類装置において、前記要約統合手段は、分類ごとに前記件数集計手段が集計した件数が多い順に、前記名詞取得手段が取得した前記名詞と前記分類先に含む名詞とを比較し、前記分類先の前記名詞に一致する名詞を含む前記要約を、比較した前記分類先に統合する、文分類装置である。
第6の発明は、第4の発明又は第5の発明の文分類装置において、前記要約統合手段は、異なる分類であって前記分類先が同じであるものが存在する場合には、前記件数集計手段が集計した件数が多い分類の前記分類先に他の分類の前記分類先を統合する、文分類装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの文分類装置において、前記要約統合手段による統合結果として少なくとも前記要約を出力する分類結果出力手段を備える、文分類装置ある。
第8の発明は、第1の発明から第7の発明までのいずれかの文分類装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、文を構成する各文節を用いて文の主題を考慮した分類をする文分類装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態に係る文分類システムの全体構成図及び問合せ文分類装置の機能ブロック図である。
図2】本実施形態に係る問合せ文分類装置の問合せ文記憶部の例を示す図である。
図3】本実施形態に係る問合せ文分類装置の問合せ文分類処理を示すフローチャートである。
図4】本実施形態に係る問合せ文分類装置の処理を説明するための図である。
図5】本実施形態に係る問合せ文分類装置の処理を説明するための図である。
図6】本実施形態に係る問合せ文分類装置の処理を説明するための図である。
図7】本実施形態に係る問合せ文分類装置の処理を説明するための図である。
図8】本実施形態に係る問合せ文分類装置の処理を説明するための図である。
図9】本実施形態に係る端末での表示画面例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
図1は、本実施形態に係る文分類システム100の全体構成図及び問合せ文分類装置1の機能ブロック図である。
図2は、本実施形態に係る問合せ文分類装置1の問合せ文記憶部22の例を示す図である。
【0010】
<文分類システム100>
図1に示す文分類システム100では、例えば、コールセンタでの顧客からの質問や、問合せ内容を登録するシステム(図示せず)に対して顧客から寄せられた問合せ内容を、問合せ文分類装置1(文分類装置)の記憶部20に予め記憶させておく。そして、文分類システム100は、例えば、端末3の利用者が、問合せ文に対する分類を指示することで、問合せ文分類装置1が、記憶部20に記憶された問合せ文を分類し分類結果を端末3に出力するシステムである。利用者は、文分類システム100による処理で端末3に出力された分類結果をもとに、マニュアルやFAQ等の改善施策を検討することができる。
【0011】
文分類システム100は、問合せ文分類装置1と、端末3とを備える。問合せ文分類装置1と端末3とは、通信ネットワークNを介して通信可能に接続されている。図1では、端末3が1台記載されているが、端末3は、複数台あってもよい。
以下の実施形態において、文分類システム100は、ログインした後に予約が可能になる、ある業務の予約サイトに係る問合せに関するものを例に説明する。しかし、文分類システム100を利用可能な業務は、これに限定されない。
【0012】
<問合せ文分類装置1>
問合せ文分類装置1は、問合せ文記憶部22に記憶されている複数の問合せ文を分類し、問合せ文に係る分類結果を出力するための装置である。問合せ文分類装置1は、例えば、問合せ内容を登録するシステムを運営する企業や、当該企業から委託された分類を行う企業等が有する。問合せ文分類装置1は、例えば、1つのサーバによって構成されていてもよいし、複数のサーバによって構成されていてもよく、また、クラウドであってもよい。
【0013】
問合せ文分類装置1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、問合せ文分類装置1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部20に記憶されているオペレーティングシステム(OS)やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
【0014】
制御部10の説明をする前に、記憶部20について説明する。
記憶部20は、制御部10が各種の処理を実行するために必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶領域である。
記憶部20は、プログラム記憶部21と、問合せ文記憶部22とを備える。
プログラム記憶部21は、各種のプログラムを記憶する記憶領域である。プログラム記憶部21は、文分類プログラム21aを記憶している。文分類プログラム21aは、問合せ文分類装置1の制御部10が実行する各種機能(後述する)を行うためのプログラムである。
【0015】
問合せ文記憶部22は、問合せ文を記憶する記憶領域である。
図2に、問合せ文記憶部22の例を示す。
図2に例示する問合せ文記憶部22は、ログID(IDentification)に、問合せ文を対応付けて記憶する。
ログIDは、問合せ文に付された識別情報であり、例えば、問合せ文を受け付けて問合せ文記憶部22に記憶した順に付与された1からの連番である。
問合せ文は、問合せ内容のテキストデータである。なお、問合せ文は、1つの文を記憶する。そのため、問合せ内容として複数の文からなる文書である場合には、予め1文ごとに分割した上で記憶する。
【0016】
次に、制御部10について説明する。
図1の制御部10は、文単位処理部11と、クラスタリング部14(単語分類手段)と、件数集計部15(件数集計手段)と、名詞取得部16(名詞取得手段)と、要約統合部17(要約統合手段)と、分類結果出力部18(分類結果出力手段)とを備える。
【0017】
文単位処理部11は、文単位での処理を行う制御部である。文単位処理部11は、要約作成部12(要約作成手段)と、単語集合取得部13とを備える。
要約作成部12は、文の依存構造を解析し、文中から主辞と主辞に係る所定の文節とからなる要約を作成する。ここで、主辞とは、文中の文節のうち、修飾先がなく文の主題になる文節をいう。また、所定の文節とは、この例では、主辞に直接係る主語及び目的語をいう。
単語集合取得部13は、文に対して形態素解析をして得られた形態素を用いて単語集合を取得する。
【0018】
クラスタリング部14は、単語集合取得部13で得られた単語集合に基づいて、各文をクラスタリング(分類)する。クラスタリング部14は、例えば、単語集合を入力として教師なしクラスタリングを行う。ここで用いるクラスタリングの手法は、特に限定されない。クラスタリングの手法として、クラスタリング部14は、例えば、トピックモデルによる分類を用いてもよいし、k-meansによる分類を用いてもよいし、他の手法を用いてもよい。
件数集計部15は、クラスタリング部14によるクラスタリングした分類ごとに要約ごとの件数を集計する。そして、件数集計部15は、分類ごとに件数の多い順に要約をソートする。
名詞取得部16は、要約に対して形態素解析をした形態素のうち名詞を取得する。
【0019】
要約統合部17は、クラスタリング部14によるクラスタリングした分類ごとの名寄せ先候補を用いて要約作成部12により作成した要約を分類ごとに同一の名寄せをして統合する。ここで、要約統合部17は、分類ごとに名詞取得部16が取得した名詞を用いる。より詳細には、要約統合部17は、まず、分類ごとに件数集計部15が集計した件数が最も多い要約を分類先にする。次に、要約統合部17は、分類ごとに集計した件数が多い順に、名詞取得部16が取得した名詞と分類先に含む名詞とを比較し、分類先に含む名詞に一致しない名詞を有する要約を、さらに分類先にする。また、要約統合部17は、分類ごとに集計した件数が多い順に、名詞取得部16が取得した名詞と分類先に含む名詞とを比較し、分類先に含む名詞に一致する名詞を含む要約を、比較した分類先に統合(名寄せ)する。
さらに、要約統合部17は、異なる分類であって分類先が同じであるものが存在する場合には、集計した件数が多い分類の分類先に他の分類の分類先を統合する。
【0020】
分類結果出力部18は、要約統合部17による統合結果として、少なくとも分類先である要約を端末3に出力する。
通信インタフェース部29は、通信ネットワークNを介して端末3との間でデータ通信を行うためのインタフェースである。
【0021】
<端末3>
図1に示す端末3は、利用者が使用する端末である。利用者は、例えば、マニュアルやFAQ等の改善施策を検討する者である。利用者は、端末3を用いて、問合せ文に対する分類を指示し、端末3に出力される分類結果を確認する。
端末3は、例えば、パーソナルコンピュータ(PC)である。端末3は、その他、タブレット等の携帯端末であってもよい。
端末3は、図示しないが、制御部と、記憶部と、入力部と、表示部と、通信インタフェース部等とを備える。
【0022】
ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、問合せ文分類装置1及び端末3は、それぞれ制御部、記憶部等を備えた情報処理装置であり、コンピュータの概念に含まれる。
通信ネットワークNは、問合せ文分類装置1と端末3との間でデータの送受信を行うデータ通信網である。通信ネットワークNは、例えば、インターネット回線等であってよく、有線であるか、又は、無線であるかを問わない。
【0023】
<処理の説明>
次に、問合せ文分類装置1の処理について説明する。
前提として、問合せ文分類装置1の問合せ文記憶部22には、複数の問合せ文が既に登録されているものとする。また、登録されている複数の問合せ文の各々は、1文であり、ログIDに対応付けられている。
図3は、本実施形態に係る問合せ文分類装置1の問合せ文分類処理を示すフローチャートである。
図4から図8までは、本実施形態に係る問合せ文分類装置1の処理を説明するための図である。
図9は、本実施形態に係る端末3での表示画面例を示す図である。
【0024】
例えば、端末3が問合せ文分類装置1に接続し、端末3の利用者が問合せ文の分類処理を要求することで、図3に示す問合せ文分類処理が開始される。
図3のステップS(以下、「ステップS」を単に「S」という。)11において、制御部10は、分類処理要求を受け付ける。
S12において、制御部10(文単位処理部11)は、問合せ文記憶部22から問合せ文を1つ抽出することで、問合せ文記憶部22に記憶されている問合せ文を1つ取得する。
S13において、制御部10(要約作成部12)は、取得した問合せ文に対して要約を作成する要約作成処理を行う。
【0025】
ここで、要約作成処理について、具体例に基づき説明する。
図4(A)は、取得した問合せ文40の例を示す。
制御部10は、この問合せ文40に対して依存構造解析を行い、文節と依存関係とを得る。ここで、依存構造解析とは、構文解析の一種で、与えられた文の依存構造を決定する処理をいう。また、依存構造とは、文の構文構造の表現形式の1つであり、文中の文節の依存関係(係り受け関係)の関係をいう。
制御部10は、依存構造解析を、例えば、公知のオープンツール(図示せず)を用いることで行うことができる。
図4(B)は、問合せ文40に対する依存構造解析の結果として情報41を示す。情報41は、問合せ文40が4つの文節に分けられ、それらの依存関係が矢印で示されている。なお、矢印は、係り元から係り先の方向を示す。
【0026】
次に、制御部10は、主辞と、主辞に直接係る主語や目的語を取り出す。
図4(C)は、情報41から主辞等を取り出す態様を示す。
制御部10は、まず、主辞41aを取り出す。また、制御部10は、主辞41aに直接係る主語名詞41bを取り出す。なお、主辞41aに直接係る副詞節41cや、主辞41aに係らない目的語41dは、取り出し対象ではない。
図4(D)は、図4(C)によって取り出した主辞41a及び主辞41aに直接係る所定の文節である主語名詞41bとからなる要約42を示す。このように、「主辞及び主辞に係る所定の文節」は、当該文の要約の内容になる。
【0027】
図3のS14において、制御部10(単語集合取得部13)は、取得した問合せ文から単語集合を取得する単語取得処理を行う。
ここで、要約作成処理について、具体例に基づき説明する。
図4(A)に示す問合せ文40に対して、制御部10は、形態素解析を行って形態素を得る。
図4(E)は、取得した単語集合45を示す。単語集合45は、形態素解析を行って得られた形態素のうち、品詞が名詞、形容詞又は動詞の形態素で構成される。また、単語集合45は、形態素の正規化を行った後の形態素で構成される。制御部10は、図示しない用語統一辞書を用いて、形態素の正規化を行うことができる。正規化の例としては、「くる」と「来る」の統一がある。
制御部10は、上記の例では、単語集合45に含む形態素を一部の品詞の形態素である単語として例示しているが、形態素をそのまま用いることもできる。また、制御部10は、上記の例では、形態素の正規化を行っているが、正規化についても必須ではない。
【0028】
図3のS15において、制御部10(文単位処理部11)は、問合せ文記憶部22に記憶された全ての問合せ文について処理をしたか否かを判断する。問合せ文記憶部22に記憶された全ての問合せ文について処理をした場合(S15:YES)には、制御部10は、処理をS16に移す。他方、問合せ文記憶部22に記憶された全ての問合せ文について処理をしていない場合(S15:NO)には、制御部10は、処理をS12に移し、残りの問合せ文についても同様に処理を行う。
S16において、制御部10(クラスタリング部14)は、クラスタリング処理を行う。
【0029】
ここで、クラスタリング処理について、具体例に基づき説明する。
制御部10は、クラスタリング処理を、図3のS14の処理で取得した各単語集合を用いて行う。
図5(A)は、問合せ文記憶部22の各問合せ文についての各単語集合を、ログIDに対応付けた表51を示す。制御部10が、図3のS14の処理を全ての問合せ文について行うことで表51を生成し、例えば、記憶部20に記憶させる。
【0030】
制御部10は、表51の単語集合を入力として、教師なしクラスタリングを行う。ここで、制御部10は、任意のクラスタリング手法を用いて、クラスタリングを行うことができる。
図5(B)は、クラスタリング結果を含む表52を示す。
表52は、ログIDと問合せ文とに対して教師なし分類ID55を対応付けたものである。ここで、教師なし分類ID55では、同じ分類先のものを同じIDでまとめている。そのため、クラスタリング結果は、教師なし分類ID55の値により確認することができる。
【0031】
図3のS17において、制御部10は、要約統合処理を行う。
ここで、要約統合処理について、具体例に基づき説明する。
図6(A)の表61は、要約作成処理(図3のS13)で作成した要約と、クラスタリング処理(図3のS17)で取得したクラスタリング結果である教師なし分類IDとを、問合せ文記憶部22に対応付けたものである。
制御部10(件数集計部15)は、処理Aとして、教師なし分類ごとに、要約の件数を集計して、教師なし分類ごとに件数の多い順に並べ替える。
また、制御部10(名詞取得部16)は、処理Bとして、各要約に対して形態素解析を行い、形態素から名詞を取得する。
【0032】
図6(B)の表62は、上記の処理で得られた結果を反映させたものである。表62は、教師なし分類IDと、要約と、件数と、形態素と、名詞とを対応付けたものである。
まず、処理Aにより、表62のうち、教師なし分類IDと、要約とに加えて、件数欄65までの表が作成される。処理Aでは、図6(A)の表61をもとに、件数欄65までの表62を作成する。表62は、教師なし分類IDの順番で、件数の多い順に要約がソートされているものである。
次に、処理Bにより、処理Aで作成された表に、名詞取得欄66が追加され、表62を得る。
【0033】
次に、制御部10(要約統合部17)は、教師なし分類ごとに名詞を用いて要約を統合する。
まず、教師なし分類ごとに名寄せをする処理について説明する。
図7(A)は、教師なし分類IDごとに1番目の処理対象に対する処理を行う際の例である。ここで、1番目の処理対象は、件数が最も多い要約である。また、分類先候補は、分類先の要約を示す。1番目の処理では、処理対象が比較する分類先候補には、何もない(空)の状態である。そのため、比較する名詞がなく、制御部10は、処理対象を要約及び分類先にして、分類表に追加する。また、分類先候補には、当該処理対象が追加される。
【0034】
図7(B)は、分類先候補の名詞と合致する例である。処理対象の名詞と、分類先候補の名詞とは、いずれも「ログイン」である。そのため、制御部10は、処理対象を要約にし、比較した分類先に対応付けて分類表に追加する。なお、処理対象は、名寄せがされるため、分類先候補には追加されない。
【0035】
図7(C)は、分類先候補の名詞とは合致しない例である。処理対象の名詞が「インストール」であるのに対して、分類先候補の名詞には「ログイン」しかない。そのため、制御部10は、処理対象を要約及び分類先にして分類表に追加する。また、分類先候補には、当該処理対象の「インストールできない」が追加される。
次の処理対象が比較する分類先候補には、図7(A)の処理で追加された「ログインできない」と、図7(C)の処理で追加された「インストールできない」の2つを有することになる。
【0036】
制御部10は、この処理を、教師なし分類IDごとに処理対象の要約の全てにおいて行う。
なお、名寄せをする処理は、名詞同士を比較しているが、複数の名詞がある場合には、いずれか1つでも名詞が一致するものがあれば、制御部10は、当該名詞を有する分類先候補に名寄せをすればよい。
【0037】
図8(A)は、上記の図7で示した処理によって生成された分類表81の例を示す。
図8(A)に示す分類表81は、教師なし分類ごとに分類先を作成したものである。ここで、行81aと行81bとは、要約が同じであるが、分類先が異なる。これは、教師なし分類IDが異なる場合に生じるものであり、行81aと行81bとは、教師なし分類IDが異なる。
そのため、次に、分類表81をさらに名寄せすることで統合する。
【0038】
制御部10は、要約が同じであるが、分類先が異なるものについて、表82にある要約ごとの件数を確認し、件数の多い分類先に統合する。分類表81の行81aに対応する表82の行82aの件数と、分類表81の行81bに対応する表82の行82bの件数とは、表82の行82aの件数の方が多い。そのため、制御部10は、分類表81の行81bを削除し、分類表81の行81aに統合する。
図8(C)は、最終的な統合後の分類表83の例を示す。
【0039】
図3のS18において、制御部10(分類結果出力部18)は、要約統合処理で統合した要約を含む分類結果を、端末3に出力する。
図9は、端末3に出力する分類結果画面90の例を示す。
分類結果画面90は、ログIDと、問合せ文と、分類先とを対応付けた表である。ここで、分類先は、問合せ文の要約である。
上記で説明した一連の処理によって、問合せ文を分類して分類結果を提示することができる。この分類は、文の主題を考慮したものであるので、利用者が見てどのような内容の分類であるかの把握がしやすいものにできる。
【0040】
このように、本実施形態の問合せ文分類装置1によれば、以下のような効果がある。
(1)各文の文中から主辞と主辞に係る所定の文節とからなる要約を作成し、各文に対して形態素解析をして得られた形態素に基づいて各文をクラスタリングし、クラスタリングした分類ごとの名寄せ先候補を用いて、作成した要約を分類ごとに同一の名寄せをする。
よって、同一の名寄せがされた、つまり、統合した要約は、文の主辞と所定の文節とからなるものであるので、文の主題を考慮したものになる。また、文に含まれる形態素に基づいてクラスタリングをした結果を用い、さらに要約を統合するので、文の主題を考慮して文を分類することができる。
(2)要約から名詞を取得し、分類ごとに取得した名詞に基づいて要約を統合するので、例えば、名詞が同じであるものを、同じ分類にすることができる。
【0041】
(3)分類した分類ごとに、要約ごとの件数を集計し、分類ごとに集計した件数が最も多い要約を分類先にし、分類ごとに集計した件数が多い順に、取得した名詞と分類先に含む名詞とを比較し、分類先の名詞に一致しない名詞を有する要約を、さらに分類先にする。
また、分類ごとに集計した件数が多い順に、取得した名詞と分類先に含む名詞とを比較し、分類先の名詞に一致する名詞を含む要約を、比較した分類先に統合する。
よって、要約が同じである複数の文の件数が多いものから順に分類先にすることができる。そして、要約が異なり、分類先の名詞と不一致である要約を、他の分類先とすることができる。
また、要約が異なるが、分類先の名詞と一致する要約を、比較した分類先に名寄せすることで、同じ分類にすることができる。
【0042】
(4)異なる分類であって分類先が同じであるものが存在する場合には、集計した件数が多い分類の分類先に他の分類を統合する。
よって、分類が異なるものについて、一方に名寄せすることで、同じ分類にすることができる。
【0043】
(5)統合結果として少なくとも要約を出力するので、分類結果を利用者が確認することができる。また、要約が出力されるので、文の主題を考慮して文を分類した結果を確認できる。
【0044】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
【0045】
(変形形態)
(1)本実施形態では、問合せ文を例に説明をしたが、これに限定されない。複数の文を分類するものであれば、どのような文を対象にしてもよい。
【0046】
(2)本実施形態では、要約から名詞を取得して分類に用いるものを説明した。その際、要約から取得した名詞を、例えば、同義語記憶部を用いて代表語に統一した後に分類に用いてもよい。そのようにすれば、同義語を同じ分類にすることができ、より分類の精度が向上する。また、同義語記憶部の他に、類義語記憶部等を用いてもよい。
【0047】
(3)本実施形態では、ログIDと、問合せ文と、分類先とを対応付けた分類結果画面を出力するものを例に説明したが、これに限定されない。例えば、ログIDと分類先との対応付けであってもよい。また、問合せ文に加えて、又は、問合せ文に代えて、当該処理で取得可能な他の情報を出力してもよい。さらに、利用者が、出力項目を選択可能にしてもよい。
【0048】
(4)本実施形態では、問合せ文分類装置が問合せ文記憶部を備える構成のものを説明したが、これに限定されない、問合せ文分類装置とは異なる装置に問合せ文記憶部を備え、問合せ文分類装置に対して問合せ文記憶部を備える装置が通信可能に接続された構成であってもよい。
【0049】
(5)本実施形態では、問合せ文分類装置と端末とからなるものを説明したが、これに限定されない、問合せ文分類装置が入力部及び出力部を備えたスタンドアロンの構成であってもよい。
【符号の説明】
【0050】
1 問合せ文分類装置
3 端末
10 制御部
11 文単位処理部
12 要約作成部
13 単語集合取得部
14 クラスタリング部
15 件数集計部
16 名詞取得部
17 要約統合部
18 分類結果出力部
20 記憶部
21 プログラム記憶部
21a 文分類プログラム
22 問合せ文記憶部
29 通信インタフェース部
90 分類結果画面
100 文分類システム
図1
図2
図3
図4
図5
図6
図7
図8
図9