(58)【調査した分野】(Int.Cl.,DB名)
前記識別器が特定する一定の基準には、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴とする請求項1または請求項2記載のラベル付与装置。
前記識別器が特定する一定の基準には、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴とする請求項1から請求項3のいずれかに記載のラベル付与装置。
前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴とする請求項1から請求項4のいずれかに記載のラベル付与装置。
前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、
前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴とする請求項1から請求項6のいずれかに記載のラベル付与装置。
前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴とする請求項8記載のラベル付与装置。
前記判定部は、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴とする請求項9記載のラベル付与装置。
前記判定部は、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴とする請求項9または請求項10記載のラベル付与装置。
前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴とする請求項1から請求項7のいずれかに記載のラベル付与装置。
前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、SVMを用いて最終的なラベル判定を行うことを特徴とする請求項12記載のラベル付与装置。
前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴とする請求項9から請求項13のいずれかに記載のラベル付与装置。
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記の非特許文献1のような方式では、与えられたラベルをもとに対象文章が要因であるか事前に確率テーブルを作成して要因検出する必要がある。しかし、テーブルの記述が不足している場合、ラベルにすべての事象が含まれないなどの原因により、要因を検出することができない。
【0008】
本発明は、このような事情に鑑みてなされたものであり、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができるラベル付与装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
(1)上記の目的を達成するため、本発明のラベル付与装置は、文章データにラベルを付与するラベル付与装置であって、一群の文章データを分割する分割部と、前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴としている。
【0010】
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。また、各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。関連値にAIC値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。
【0011】
(2)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記一群の文章データの分割方法を特定する基準が含まれることを特徴としている。これにより、適した文章データの分割方法でラベル付与を行うことができる。
【0012】
(3)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴としている。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。
【0013】
(4)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴としている。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。
【0014】
(5)また、本発明のラベル付与装置は、前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴としている。これにより、識別判定に使用できる単語が豊富になることで、パラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。
【0015】
(6)また、本発明のラベル付与装置は、前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴としている。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、検出精度を向上できる。
【0016】
(7)また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴としている。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。
【0017】
(8)また、本発明のラベル付与装置は、前記評価部が、前記評価値として、前記割り当てられたラベルに対するF値を算出することを特徴としている。これにより、ラベル付与の信頼度を向上させることができる。
【0018】
(9)また、本発明のラベル付与装置は、前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴としている。これにより、ラベルごとに選択された識別器を用いて、精度の高いラベル判定を行うことができる。
【0019】
(10)また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴としている。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。
【0020】
(11)また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴としている。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。
【0021】
(12)また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴としている。
【0022】
このように複数の識別器ごとのの評価値および割り当てられたラベルを用いて、最終的なラベル判定を行うため、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。
【0023】
(13)また、本発明のラベル付与装置は、前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、SVMを用いて最終的なラベル判定を行うことを特徴としている。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。
【0024】
(14)また、本発明のラベル付与装置は、前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴としている。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。
【0025】
(15)また、本発明の方法は、文章データにラベルを付与するラベル付与の方法であって、一群の文章データを分割するステップと、前記分割された文章データのそれぞれから特徴語を抽出するステップと、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴としている。
【0026】
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
【0027】
(16)また、本発明のプログラムは、文章データにラベルを付与するラベル付与のプログラムであって、一群の文章データを分割する処理と、前記分割された文章データのそれぞれから特徴語を抽出する処理と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴としている。
【0028】
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
【発明の効果】
【0029】
本発明によれば、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
【発明を実施するための形態】
【0031】
以下に、本発明の実施の形態について、図面を参照しながら説明する。
【0032】
<第1の実施形態>
[ラベル付与システムの構成]
図1は、ラベル付与システム100の構成を示すブロック図である。ラベル付与システム100は、データ収集部110、ラベル付与装置120、データベース作成部130および情報出力部140を備えている。なお、
図1の例において、データ収集部110、データベース作成部130および情報出力部140は、ラベル付与装置120の外部に設けられているが、ラベル付与装置120の内部に設けられていてもよい。
【0033】
データ収集部110は、外部からレビュー文、SNSの投稿、そのコメント等、様々なテキストデータ(文章データ)を収集する。収集単位は、適宜、エントリ単位、文章単位、句読点単位等にすることができる。なお、収集データには、ブログ等インターネット上の投稿文や一連のメール文章といったコミュニケーション文も含まれる。
【0034】
ラベル付与装置120は、識別器設定部121、分割部122、特徴語抽出部123、関連値算出部124、ラベル割当部125、評価部126、識別器選択部127および判定部128を備えており、文章データにラベルを付与する。
【0035】
識別器設定部121は、一連の処理を行う際に用いられる識別器を設定する。識別器設定部121では、各ラベルの識別精度が最大となるようなパラメータ(基準)が設定された識別器を2つ以上設定することが好ましい。識別器に設定された基準には、一群の文章データの分割方法を特定する基準が含まれることが好ましい。これにより、適した文章データの分割方法でラベル付与を行うことができる。
【0036】
また、算出された関連値を参照する特徴語の採用方法を特定する基準が含まれていてもよい。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれていてもよい。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。
【0037】
分割部122は、一定の基準で一群の文章データを分割する。適宜、句点・読点・文節・意味単位等の異なる分割方法dk(d1,d2,…)で同一文章を分割したテキスト群をそれぞれL(d1),L(d2),…と特定している。
図2は、分割された文章データとそれぞれに付与されたラベルを示す表である。
図2に示す例では、L(dk)={l1,l2,…,ln}の各テキストl1,l2,…,lnに、手作業等でラベルを付与しており、意味単位で分割した文章データに要望(Desire)/不満(Frustration)/要因(Cause)/その他(Other)のラベルを付与している。
【0038】
特徴語抽出部123は、分割された文章データのそれぞれから特徴語を抽出する。特徴語抽出部123は、必要に応じて抽出された特徴語を選択する。例えば、tf-idfによる重要語を特定する、または形態素解析などから得られる語の中から品詞を限定することで選択できる。
【0039】
まず、分割されたテキスト群(文章データ群)L(dk)={l1,l2,…,ln}を形態素解析し、テキストに含まれる単語を抽出する。ここで使用する分割されたテキスト群は、ラベル付けされたテキスト群であればよく、その分割方法は問わない。つまり分割されたテキストは、句点区切りのテキストでも、意味区切りのテキストでも構わない。
【0040】
関連値算出部124は、抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する。各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。例えば、関連値にAIC(Akaike’s Information Criterion、赤池情報量基準:統計モデルの良さを評価するための指標)値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。
【0041】
関連値算出部124は、抽出された各特徴語について、関連値を算出する。関連値には、AIC値やベイズ情報量基準が挙げられる。
図3は、特定のラベルに対する各単語のAIC値の一例を示す表である。
【0042】
図4は、AIC値の算出に利用する表である。AIC値を算出する場合は、
図4に示すように、(1)あるラベルに単語wiが存在するL(dk)中のテキスト数、(2)あるラベル以外に単語wiが存在するL(dk)中のテキスト数、(3)あるラベルに単語wiが存在しないL(dk)中のテキスト数、(4)あるラベル以外に単語wiが存在しないL(dk)中のテキスト数により算出できる。
【0043】
図5は、各分割された文章データの単語出現頻度のマトリックス表である。上記の(1)〜(4)の値は、
図5に示すような、各テキストの単語出現頻度のマトリックス表を作成することで得られる。
【0044】
このように、各単語に対する関連値を算出する。例えば、関連値としてAIC値を用いれば、絶対値が大きいほどラベル判定に役に立つ語であるため、各ラベルの判定に利用可能かを判断可能となる。
【0045】
ラベル割当部125は、算出された関連値を参照しつつ、一定の基準に基づいて分割された文章データにラベルを割り当てる。このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なくラベル付与を行うことができる。
【0046】
ラベル割当部125は、識別器設定部で設定された複数の識別器で入力データのラベル付与を行う。
図9は、各識別器の結果の一例を示す表である。入力データに対して、設定された複数の識別器でラベルを割り当てた例を示している。分割方法diで分割されたテキストL(di)={l1,l2,…}に対し、例えばl1は不満(F)用の識別器と要望(D)用の識別器では不満(F)ラベルが付与され、原因(C)用では要望(D)、その他(O)用では原因(C)が付与されている例である。
【0047】
評価部126は、一群の文章データとして予め準備された学習データに対して、一定の基準を特定する識別器ごとに、割り当てられたラベルの妥当性を示す評価値を算出する。識別器として単一のCRFを用いて複数のパラメータを設定しラベル付けする際、特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下する。そこで、複数の識別器について識別器ごとに割り当てられたラベルの妥当性を評価し、全体のラベル付けの精度を向上させることができる。評価値として、割り当てられたラベルに対するF値(後述)を算出することが好ましい。
【0048】
図6は、予備実験のパラメータセットを示す表である。適切な識別器を複数設定するために、まず、各分割方式によって分割したテキスト群L(d1),L(d2),…それぞれについて、
図6に示すような特徴語数(p)と考慮行数(q)を変動させた組み合わせ(パラメータセット)でCRFにより学習する。表の中の数値はパラメータセットのIDとする。
【0049】
特徴語数(p)とは、前記特徴量生成部において抽出した特徴語のうち、実際のラベル付けに利用する特徴語の数である。つまり、ラベル付けにおいて、各テキストから特徴語を抽出し、特徴量の高いもの上位p件を利用して分析を行う。pは、各テキストliから抽出される特徴語数に依存する。例えば、
図2に示されるl1〜l16の中で、各文章から一番多く特徴語を抽出できたテキストがl16(特徴語:機、時間、有効、活用、意識)で5つであった場合、設定可能なパラメータpの最大値は5となる。
【0050】
考慮行数(q)とは、分割されたテキストliをラベル判定する際の確率計算に用いる前後の文の数である。
図7は、考慮される前後の文章データの一例を示す表である。考慮する方法としては前述分のみを参照するもの、後述文のみを参照するもの、前述分および後述文両方を参照するものの3通りを考え、
図7に示すi行目の1文に対し、前述q行分を考慮するものを前q行、前後述q行分を考慮するものを前後q行、後述q行分を考慮するものを後q行としている。
【0051】
図6に示すパラメータセットで、CRFを適用しラベル付けされた結果について精度評価を行うことができる。精度はPrecision(適合率:全ラベルAのうちの、CRFでAと判定された割合)、Recall(再現率:CRFでAと判定されたうちの、正しく判別された割合)、F-value(F値:PrecisionとRecallの評価尺度。値が大きいほどよい。)を算出することで評価できる。
【0052】
例えば、ラベルAについて、ラベルAの総数が1000件で、CRFによるラベルAの判別数が700件、CRFによる判別が正しい件数が500件であるとき、Precision = 500/1000、Recall = 700/1000で計算できる。また、このときF値 = 2/(1/Recall+1/Precision)で計算できる。
【0053】
図8は、各識別器に対する各ラベルの評価値を示す表である。ある分割方式d2を用いた各パラメータセットでのCRFによる抽出精度例を
図8に示す。
図8に示す最左列はパラメータセット(実験)のIDであり、dk_p_mqとは、分割方式dk、パラメータp、q、前述後述参照方法m(m=0のとき前述分のみ、m=1のとき後述文のみ、m=3のとき前述文および後述文両方を考慮)を設定した時の結果を示している。各ラベル(不満(F)要望(D)原因(C))の抽出精度が記されている。このような結果が分割方法k個分ある。例えば、
図8に示すF-value欄より、各ラベルの精度が高い実験IDは異なることがわかる。言い換えると、従来のように単一のCRFでは特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下している。
【0054】
各ラベルにおいて、(分割パターン×パラメータセット×前述後述参照方法)個分のCRFによる検出精度の比較を行うことで各CRFを評価する。たとえば、検出精度が最も高くなるCRFを、ラベル数分選択するなどが考えられる。具体的には、
図8より原因Cラベルと不満Fラベルのための識別器には、ID:d2_01_01のCRFが選ばれ、要望Dラベル・その他Oラベルの識別器には、ID:d2_04_01のCRFが選ばれる(図中の太枠)、などである。そのほか、各識別器の検出精度に基づいて重みを算出し、ラベル付け計算に利用するなども考えられる。
【0055】
識別器選択部127は、評価値に応じて、各ラベルに対していずれかの識別器を選択する。その結果、一群の文章データとして外部から収集されたデータに対して、選択された識別器を用いて、分割された文章データにラベルを割り当てることができる。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。その結果、ラベル付与の信頼度を向上させることができる。
【0056】
判定部128は、選択された識別器ごとに外部から収集されたデータの分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う。また、判定部128は、付与されたラベルの信頼度を算出する。ラベル判定は、例えば以下の基準で判定する。(STEP 1)専用識別器で識別された専用ラベルをすべて採用する(例えば、
図9に示すl2行)。すなわち、F用識別器でのFラベル付与、D用識別器でのDラベル付与を意味する。(STEP 2)STEP1で採用されず、すべての識別器で専用外ラベルが付いた場合、すべて採用する(例えば、
図9に示すln行)。すなわち、F・C用識別器でD、D・O識別器でCの場合に、D、Cの両方を採用する。
【0057】
このように、判定部128は、各ラベルに対して選択された識別器により選択時に対象とされたラベルが割り当てられているときには、優先的に選択時に対象とされたラベルを採用することが好ましい。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。
【0058】
また、判定部128は、各ラベルに対して選択された識別器のいずれによっても選択時に対象とされたラベルが割り当てられていないときには、選択時に対象とされていなくても割り当てられたラベルすべてを採用することが好ましい。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。
図10は、各分割された文章データに対して識別器が判定したラベルを示す表である。
【0059】
ラベル付与の信頼度は以下の基準により3段階で付与できる。
・ラベルが1種の場合は、信頼度大とする。
・STEP1によるラベルで、2種以上ある場合は、信頼度中とする。
・STEP2によるラベルで、2種以上ある場合は、信頼度小とする。
【0060】
また、複数のラベルが付与された場合、入力データ中に要望を表す助動詞である「たい」が出現する場合は、要望(D)を優先する。このように、入力データに出現した助動詞を利用して出力ラベルを限定してもよい。
【0061】
データベース作成部130は、ラベルに基づいて、主観、原因およびこれらを分類する項目を用いてデータベースを作成する。例えば、キーワードを用いてデータベースを作成することで、系統的な情報を提供でき、特定の商品またはサービスの提供者は、容易に事業の状況を把握できる。主観または原因を分類する項目として、これらを分類するカテゴリを用いてもよい。また、主観または原因を分類する項目として、主観を抽出したテキストデータの情報源の属性を用いてもよい。
【0062】
情報出力部140は、入力された情報をもとにデータベースの情報を加工して出力する。入力(検索語)としては、商品名やサービス名等の検索クエリが挙げられる。また、表示させる期間を設定することができる。この他に、属性別表示のプルダウンを用意する等して、グラフに反映させるデータを選択することもできる。
【0063】
[ラベル付与システムの動作]
(全体動作)
上記のように構成されたラベル付与システム100の動作を説明する。
図11は、ラベル付与システム100の動作を示すフローチャートである。
図11に示すように、まず学習データをラベル付与装置120に入力する(ステップS1)。学習データは、例えば、レビュー文や、SNSの投稿とそのコメント等、収集された様々なテキストデータで構成されている。
【0064】
このような学習データに対して、各パラメータセットを準備し識別器を設定する(ステップS2)。そして、各識別器により学習データを分割した文章データにラベルを割り当てる(ステップS3)。割り当てられたラベルの結果をもとに識別器の評価および選択を行う(ステップS4)。
【0065】
一方で、外部から収集された文章データを入力する(ステップS5)。入力された文章データに対し、上記の処理で選択された識別器でラベルの割り当てを行う(ステップS6)。そして、割り当てられたラベルに対して最終的なラベル判定を行う(ステップS7)。ラベル判定された文章データをもとにデータベースを作成し、そのデータベースを用いて例えばマーケティングに有用な情報を出力し(ステップS8)、処理を終了する。
【0066】
(ラベル割り当て)
次に、ラベル割り当ての処理を説明する。
図12は、ラベル割り当ての処理の一例を示すフローチャートである。まず、入力された文章データを所定の基準で分割する(ステップS11)。分割された文章データを形態素解析する(ステップS12)。得られた形態素に対してラベルとの関連値を算出する(ステップS13)。
【0067】
このようにして算出された関連値が閾値以上か否かを判定する(ステップS14)。閾値以上であれば、その形態素を特徴語として特定し抽出する(ステップS15)。閾値以上でなければ、ステップS16に進む。
【0068】
すべての形態素について特徴語の特定が完了したか否かを判定する(ステップS16)。完了した場合には、抽出された特徴語を用いてラベルの割り当てを行い(ステップS17)、終了する。一方、完了していない場合にはステップS13に戻る。
【0069】
(識別器の評価、選択)
次に、識別器の評価、選択の処理を説明する。
図13は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップS21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップS22)。そして、各ラベルの検出精度を表す評価値を比較し(ステップS23)、精度が最大となる条件の識別器を設定する(ステップS24)。
【0070】
(ラベル判定)
次に、ラベル判定の処理を説明する。
図14は、ラベル判定の処理を示すフローチャートである。まず、各識別器のラベル割当結果を比較する(ステップS31)そして、ラベル割当の信頼度を付与する(ステップS32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
【0071】
[実施例]
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置120を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。
図15は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。
図15に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。
【0072】
<第2の実施形態>
上記の実施形態のように、特徴語抽出の際には、tf-idfによる重要語を特定して抽出してもよいが、品詞単位で単語が含まれたリストを用いて、品詞単位で構成された特徴語を抽出してもよい。品詞単位で抽出することでパラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。
【0073】
品詞単位でラベルに対応するリストは、自立の形容詞および動詞、一般名詞、人名、地域を除く名詞、名詞接続を除く接到詞を含んでいる。リストは、さらに助詞、助動詞または非自立の動詞もしくは形容詞を含むことが好ましい。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、さらに検出精度を向上できる。なお、非自立とは、目的語のような他の単語とともに用いられて意味を生じる単語を指す。また、リストは、サービスの提供側により更新可能になっていることが好ましい。更新により新たに助詞等をリストに追加でき、さらにラベル判定の精度を高めることができる。
【0074】
図16は、抽出対象の品詞と文例を示す表である。例えば、テキスト中に接続助詞の「ので」がある場合には、「ので」の前の部分に原因が記載されている可能性が高い。また、テキスト中に助動詞の「たい」がある場合には、そのテキストは要望を示している可能性が高い。このような関係を利用することができる。また、さらにテキスト中に「と思います」と記載があったときの助詞の「と」を不満の表れとして抽出するようにしてもよいし、その他句読点も考慮し、文の末尾が「。。」となっている場合に不満の表れとして抽出してもよい。
【0075】
<第3の実施形態>
上記の実施形態(第1、第2の実施形態の組み合わせを含む)では、複数の識別器の出力値から最終的なラベルを判定する際に、予め定めたルールに基づいて判定を行っているが、複数の識別器の評価値、およびラベルの分布により、最終的なラベル判定を行ってもよい。これにより、不満・要望・原因のラベルの抽出精度がさらに向上する。
【0076】
[ラベル付与システムの構成]
図17は、ラベル付与システム200の構成を示すブロック図である。ラベル付与システム200は、データ収集部110、ラベル付与装置220、データベース作成部130および情報出力部140を備えている。
図1の例に対して同じ符号の各部は共通した機能を有している。
【0077】
ラベル付与装置220は、識別器設定部121、分割部122、特徴語抽出部123、関連値算出部124、ラベル割当部125、評価部126、識別器選択部227および判定部228を備えている。ラベル付与装置220は、基本的にラベル付与装置120と共通する機能を有するが、識別器選択部227および判定部228については機能が異なる。
【0078】
識別器選択部227は、割り当てられたラベルの評価を参照し、各ラベルについて評価が上位の識別器を複数選択する。予め識別器の数を絞っておくことで、効率的に高い精度でラベルを検出できる。なお、識別器選択部227を省き、識別器の数を絞らずに最終的なラベル判定を行ってもよい。
【0079】
判定部228は、識別器ごとの評価値を参照し、一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、外部から収集されたデータに対して最終的なラベル判定を行う。これにより、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。
【0080】
また、ラベル判定の際には、SVM(Support Vector Machine)を用いることが好ましい。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。
【0081】
(SVMの利用例)
判定部228では、例えば要望判定SVM、不満判定SVM、原因判定SVM、その他判定SVMの4つ(複数)のSVMを用いることができる。そして、各SVMを特定のラベルの判定、例えば、要望(D)の判定にSVMを利用できる。
図18は、SVMへの入力データの一例を示す図である。入力のフォーマットは、判定対象である分割テキストごとに、正解が特定のラベル(ここでは要望)であることを表す+1、またはそうでない(ここでは正解が要望以外である)ことを表す−1の値と、「実験ID:実験IDのCRF識別器におけるCRF判定で得られた確率値」を実験の数(CRF識別器の数)だけ羅列したものである。
【0082】
ただし、+1または−1の値は、外部から収集されたテストデータの場合正解要素が不明なため、−1に揃えることとする。したがって正解値を表すフラグは、学習用入力データと評価用入力データで意味が異なる。学習用入力データは、各学習対象文(分割テキスト)の正解値(人手でラベル付けされた結果)が既知のため、各対象文が要望であれば「1」、要望以外であれば「−1」を入力とする。なお、確率値は、分割テキストに対して特定のラベルと判定される確率を示しており、各識別器の抽出精度(識別器ごとの評価値)および各識別器でラベル付けされた結果から得られる。
【0083】
[ラベル付与システムの動作]
(全体動作)
上記のように構成されたラベル付与システム200の動作を説明する。
図19は、ラベル付与システム200の動作を示すフローチャートである。
図19に示すように、ラベル付与システム200の動作は、ラベル付与システム100の動作とほぼ同様であり、ステップT1〜T8は、ステップS1〜S8に対応している。ただし、識別器の選択の際には、各ラベルに対し識別器を一つに絞らない。また、ステップT3、T6のラベル割り当ての処理は、
図12に示すステップS11〜S17と同じ処理により行うことができる。
【0084】
(識別器の評価、選択)
次に、識別器の評価、選択の処理を説明する。
図20は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップT21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップT22)。そして、各ラベルの検出精度を表す評価値を評価し(ステップT23)、精度が上位の識別器を選択する(ステップT24)。
【0085】
(ラベル判定)
次に、ラベル判定の処理を説明する。
図21は、ラベル判定の処理を示すフローチャートである。まず、各識別器の学習データに対する評価と外部から収集されたデータに対する割り当てられたラベルの分布を入力としてSVMを適用する(ステップT31)そして、SVMの適用の結果、判定されたラベルを最終的なラベルとする(ステップT32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
【0086】
[実施例]
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置220を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。
図22は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。
図22に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。また、特に助詞、助動詞、非自立の動詞および形容詞を含むリストを用いてラベルを割り当てた場合については、さらに要望ラベルの精度が向上した。
【0087】
<第4の実施形態>
上記の実施形態(第1、第2の実施形態の組み合わせ、第2、第3の実施形態の組み合わせを含む)では、分割された文章データのみを対象として判定部が最終的なラベル判定を行うが、分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、分割された文章データに対して最終的なラベル判定を行ってもよい。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。