【文献】
宮村 祐一 他,情報探索雑談におけるトピック遷移検出,情報処理学会研究報告,日本,社団法人情報処理学会,2008年 9月17日,Vol.2008,No.90(2008-NL-187(11)),pp.71-76.
【文献】
鷹尾 誠一 他,文字と音声メディアの統合によるビデオ映像の耕造化,情報処理学会研究報告,日本,社団法人情報処理学会,2000年 7月28日,Vol.2000,No.69(2000-DBS-122-49),pp.377-382.
(58)【調査した分野】(Int.Cl.,DB名)
前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項1に記載の雑談抽出システム。
前記決定部は、更に、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはtf-idf値の代わりに上限とする定数を用いる、請求項1に記載の雑談抽出システム。
前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおける相互情報量の値と第2コーパスにおける相互情報量の値とがそれぞれ第4の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いる、請求項1に記載の雑談抽出システム。
前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおけるカイ二乗値と第2コーパスにおけるカイ二乗値とがそれぞれ第5の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いる、請求項1に記載の雑談抽出システム。
コンピュータの演算処理によって会話から雑談部分を抽出する雑談抽出方法であって、前記コンピュータは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスとにアクセス可能であり、
前記コンピュータが、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定するステップと、
前記コンピュータが、前記第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出し、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
前記コンピュータが、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
前記コンピュータが、前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第2の所定の閾値より大きな区間を雑談部分として抽出するステップと、
を含む雑談抽出方法。
前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項7に記載の雑談抽出方法。
会話から雑談部分を抽出する雑談抽出プログラムであって、前記プログラムは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスとにアクセス可能なコンピュータに、
前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定するステップと、
前記第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出し、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第2の所定の閾値より大きな区間を雑談部分として抽出するステップと、
を実行させる、雑談抽出プログラム。
前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項9に記載の雑談抽出プログラム。
【背景技術】
【0002】
ビジネス・アナリティクスにおいて、コールセンターや営業店における営業担当者と顧客との電話会話を分析するという需要が高まっている。とりわけ、ある商品の説明や質問といった本来の会話部分ではなく、雑談や世間話といったビジネス・トランザクションとは関係のない部分についての分析に注目が集まっている。これは、そのような雑談部分にこそ、顧客の興味、家族構成、職業といった、ビジネスに利用可能な有用な情報が含まれていると考えられるからである。従って、会話データから雑談部分を抽出し、そこから顧客のプロファイリングをし、カテゴライズして、次の営業活動に繋げることが重要である。
【0003】
ところで、会話データや文書データからトピックを検出、分類したり、様々なトピックが含まれるデータをトピックごとにセグメント化したりする研究が数多く存在する。例えば非特許文献1は、潜在的ディリクレ配分法を開示する。ここで、潜在的ディリクレ配分法とは、1文書に複数トピックが含まれることを表現できる文書生成過程の確率的なモデルであり、文書を単語の集合と考えて単語単位にトピックを割り当てる手法である。
【0004】
また非特許文献2及び特許文献1は、時間の経過に伴うトピックの変化を検出するための手法を開示する。そのために非特許文献2では、結合トピックモデル(compound topic model: CTM)を導入すること、また、特許文献1は、混合分布モデルを用いてトピックの生成モデルを表現し、過去のデータほど激しく忘却しながらトピックの生成モデルをオンラインで学習することを開示する。
【0005】
また非特許文献3は、コミュニティによって表現された新出現トピックをリアルタイムに取得するトピック検出技術を開示する。該トピック検出技術では、単語(term)のライフサイクルが、ソース源の影響力を考慮するエイジング理論に従ってモデル化される。
【0006】
また、会話内容が対象としている話題を推定する従来技術として特許文献2が存在する。特許文献2は、特定の話題にどの名詞がより多く使用されているかを示す尺度である話題ごとの単語特徴量に基づいて、会話テキストの複数の単語が出現する割合の高い話題を、会話テキストの話題と推定する技術を開示する。
【0007】
上述した非特許文献1〜3及び特許文献1の従来技術はトピックをモデル化するか、少なくともデータの部分(単語)は1以上の特定トピックから構成され、何らかの潜在的モデルから該部分(単語)が生起したという前提に立っている。そのため、直接のモデル化はもちろんのこと、特定トピックとして定義し、分類すること自体が困難な雑談を検出するために、上記従来技術を利用することはできない。また、当該雑談の性質から、テキスト原稿と、そのテキスト原稿の内容を特定した話題という学習データを必要とする特許文献2の技術の利用も困難である。
【0008】
なお特許文献3の従来技術の説明において、文書から重要な語句を抽出する技術としてtf-idfモデルが紹介されている。該説明によれば、tf-idfモデルでは、多数の文書に出現する用語は重要度が低く、逆に出現する文書の数が少ない用語ほど重要度が高いという考えの下、対象とする文書が含まれるコーパスの中で各用語につきその用語を含む文書数を求め、その逆数をコーパス内の用語重要度とし、文書内重要度としてのtfとの積tf−idfを用語重要度とする。そこで、雑談部分の抽出においてtf-idfモデルの利用が考えられる。即ち、雑談部分は、本来の会話であるビジネス・トランザクションとは関係のない部分であるといえることからidf値が高くなることが期待され、tf-idfの値をその抽出の指標とすることが考えられる。なおidfの一般的な定義は、対象とする文書が含まれるコーパスの中で対象となる用語を含む文書の割合の逆数の対数である。
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、tf-idfの値は比較的高速な処理が可能である一方、単語の特異性抽出が、特に低頻度単語において、不安定であることが知られている。雑談抽出の指標として会話の一定区間内の単語のtf-idfの平均値を利用する場合には、積算効果によって精度は更に劣化する。そこで対象ドメインのコーパスの代わりに、多様なトピックを含む、従ってサイズの大きい一般的なコーパスを利用することで、正確なtf-idfの値を求めることが考えられる。しかし一般的なコーパスの利用は、対象ドメイン特有のトピックであるかそれとも雑談であるかを判断したいという目的にはそぐわない。例えば、対象ドメインが金融である場合、「指し値」という用語は特に珍しい単語ではないが、一般には特異な単語であるため、小さい値であるべきidf値が大きくなり不当に大きな重みが付いてしまう。
【0012】
また、上記精度の問題をフロアリング技術により解決することも考えられる。即ち、対象ドメインのコーパスにおいてある程度小さなidf値を極端に低い重みにすることで精度を改善することができる。しかしここでも雑談検出という目的に対しては思うような効果は得られない。なぜならば、単純なフロアリング技術の適用では、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語を識別することができないため、当該単語に対しても極端に低い重みが付けられるからである。
【0013】
更に、従来のtf-idfモデルでは、文書内の出現頻度(tf)によって文書内の重要度が求められるが、雑談検出という目的において単語の出現頻度は必ずしも重要度を示さない。
【0014】
本発明は、上記従来技術における問題点に鑑みてなされたものであり、本発明は、tf-idfに代表される特徴語の検出技術を改良又は応用して、雑談部分を抽出するための新たな指標を導出し、該指標に基づく雑談部分の抽出技術を提供することを目的とする。また、本発明は、計算コストのかからない指標により、学習データを必要とすることなく雑談部分の検出を精度よく実施することを実現することができる雑談抽出システム、方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
本発明は、上記従来技術の課題を解決するために、以下の特徴を有する雑談抽出システムを提供する。本発明の雑談抽出システムは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスと、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定する決定部と、前記第2コーパスに含まれる各単語についてtf−idf値をスコアとして算出するスコア算出部であって、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いる前記スコア算出部と、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出す切り出し部と、切り出した前記区間に含まれる単語の前記スコアの平均値が第2の所定の閾値より大きな区間を雑談部分として抽出する抽出部とを含む。
【0016】
好ましくは、前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語wのtf値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる。
【0017】
より好ましくは、前記割合は、式(CF(w)+1)/(CF(w)+SF(w))により求められる。
【0018】
また好ましくは、前記決定部は、更に、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはtf−idf値の代わりに上限とする定数を用いる。
【0019】
また前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおける相互情報量の値と第2コーパスにおける相互情報量の値とがそれぞれ第4の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いてもよい。
【0020】
或いは、前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおけるカイ二乗値と第2コーパスにおけるカイ二乗値とがそれぞれ第5の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いてもよい。
【0021】
以上、雑談抽出システムとして本発明を説明した。しかし本発明は、そのような雑談抽出システムによって実施される会話から雑談部分を抽出する雑談抽出方法、及びそのような方法を情報処理装置に実行させる雑談抽出プログラムとして把握することもできる。
【発明の効果】
【0022】
本発明によれば、計算コストのかからないtf―idfを雑談検出の指標のベースとしつつ、複数の分野の文書を含む一般的なコーパスと、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスの2つのコーパスを用意し、両コーパスにおいてidf値が低くなる場合に限ってフロアリングを実施するので、雑談部分の検出を精度よく実施することが可能となる。更に、雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えの下、その出現頻度比を出現頻度(tf)の代わりに利用すれば、雑談部分の検出をより一層精度よく実施することが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。
【発明を実施するための形態】
【0024】
以下、本願発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
【0025】
図1は、本発明を実施するのに適したコンピュータ50のハードウェア構成の一例を示した図である。コンピュータ50は、バス2に接続されたメインCPU(中央処理装置)1とメインメモリ4を含んでいる。CPU1は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(登録商標)シリーズ、Celeron(登録商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ又はSempron(商標)が使用されうる。
【0026】
またハードディスク装置13、30、及びCD−ROM装置26、29、フレキシブル・ディスク装置20、MO装置28、DVD装置31のようなリムーバブル・ストレージ(記録メディアを交換可能な外部記憶システム)がフレキシブル・ディスクコントローラ19、IDEコントローラ25、SCSIコントローラ27などを経由してバス2へ接続されている。フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。
【0027】
これらの記憶メディアやハードディスク装置13、30、ROM14には、オペレーティング・システムと協働してCPU1に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、上記説明した数々の記憶装置には、コンピュータ50にインストールされ、コンピュータ50を本発明の本発明の実施形態による後述する雑談抽出システム200として機能させる雑談抽出プログラムや、後述する一般的なコーパスや対象ドメインのコーパス等のデータを記録することができる。
【0028】
上記雑談抽出プログラムは、決定モジュールと、スコア算出モジュールと、切り出しモジュールと、抽出モジュールとを含む。これらモジュールは、CPU1に働きかけて、コンピュータ50を、各々後述する決定部225と、スコア算出部230と、切り出し部245と、抽出部250としてそれぞれ機能させる。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
【0029】
コンピュータ50は、キーボード/マウス・コントローラ5を経由して、キーボード6やマウス7のような入力デバイスからの入力を受ける。コンピュータ50は、オーディオコントローラ21を経由して、マイク24からの入力を受け、またスピーカー23から音声を出力する。コンピュータ50は、視覚データをユーザに提示するための表示装置11に、グラフィックスコントローラ8を経由して接続される。コンピュータ50は、ネットワーク・アダプタ18(イーサネット(登録商標)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
【0030】
以上の説明により、コンピュータ50は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
【0031】
図2は、本発明の実施形態による会話から雑談部分を抽出する雑談抽出システム200の機能ブロック図である。同図において、雑談抽出システム200は、第1コーパス格納部205と、第2コーパス格納210と、決定部225と、スコア算出部230と、統計辞書格納部235と、会話データ格納部240と、切り出し部245と、抽出部250とを備える。
【0032】
第1コーパス格納部205は、複数の分野の文書を含む一般的なコーパスを格納する。上述したように、解析対象の会話が属する対象ドメインのコーパスのみを利用してフロアリングを行うと、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語に対してまでも極端に低い重みが付いてしまう。例えば、PC関連用語や、「好き」等の評価用語は、金融等のビジネス・トランザクションにおいて高頻度で出現し対象ドメインのコーパスにおいて低idf値を示すが、雑談区間を識別するのにも役立つ。その一方で、複数の分野の文書を含む、従って対象ドメインのコーパスに比較して十分な文書数を有する一般的なコーパスでは、上記用語は高頻度に出現するものの、必ずしも低idf値を示さない。そこで本願発明では、一般的なコーパスを用意してこのような特徴をもつ用語をフロアリング対象から外す。その方法の詳細は後述する決定部225及びスコア算出部230に関連して説明する。
【0033】
複数の分野の文書を含む一般的なコーパスとしては、十分なサイズを有し多様なトピックを含むものが好ましく、例えば、ウィキペディアやtwitter等のインターネット上の情報を利用してよい。なお、ウィキペディアを利用する場合は1用語のエントリー頁がidfを求める際の「1文書」に該当する。また、twitterを利用する場合は1メッセージがidfを求める際の「1文書」に該当する。
【0034】
第2コーパス格納部210は、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスを格納する。対象ドメインのコーパスは、コールセンターや営業店における顧客と営業担当者の会話を、音声認識により又は人手によりテキストへ変換したものであってよい。但し、第2コーパス格納部210は、会話データを会話単位でかつ話者ごとに分けて格納するものとする。即ち、第2コーパス格納部210は、第1話者(顧客)の発話部分の集合である顧客用コーパス215と第2話者(担当者)の発話部分の集合である担当者用コーパス220とからなる。また、各コーパス215、220は、それぞれの発話部分の集合を、単一のデータとしてではなく会話単位で保持する。
【0035】
なお、顧客用コーパス215と担当者用コーパス220の両方を含む対象ドメインのコーパスにおける「1文書」とは、顧客の一連の発話部分と対応する営業担当者の一連の発話部分からなる1会話を意味する。一方、顧客用コーパス215又は担当者用コーパス220のそれぞれにおける「1文書」とは、顧客の一連の発話部分又は営業担当者の一連の発話部分のみからなる1会話を意味する。
【0036】
なお、第1コーパス格納部205及び第2コーパス格納部210に格納されるコーパスとは、いずれも、単語列から構成されるテキストデータを指す。日本語をはじめとするいくつかの言語では単語間に空白等、境界を示すマーカーがないため、形態素解析等のプログラムによりあらかじめ単語に分割されているものとする。但し、音声認識の場合一般に結果を単語単位で出力するため、そのような単語抽出の必要はない。またコーパスは品詞、係り受け、そして分野(トピック)といった付加情報が付与されることもあるが、ここではそのような付加情報は必要ない。
【0037】
決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおけるidf値IDF
g(w)と、第2コーパス格納部210に格納される対象ドメインのコーパスにおけるidf値IDF
t(w)とが、共に所定の閾値θ
1以下となる単語をフロアリングにおける下限対象語V
sharedとして決定する。上述したように、対象ドメインのコーパスにおいてある程度高頻度で出現するも雑談としての特徴も兼ね備える単語は、一般的なコーパスでは必ずしも低idf値を示さない。そこで本願発明では、対象ドメインのコーパスのみならず一般的なコーパスにおいてもidf値が所定の閾値以下となることを、フロアリングにおいて下限対象語V
sharedとする条件とする。これによって、必要以上のフロアリングが回避される。
【0038】
なお、各コーパスにおけるidf値は次式により求められる。
【数1】
上式においてDは各コーパスに含まれる文書数を、DF(w)は各コーパス内の文書の中で単語wを含む文書数を示す。
【0039】
スコア算出部230は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、tf―idf値をスコアscore(w)として算出する。但しスコア算出部230は、決定部225により下限対象語V
sharedとして決定された単語については、tf―idf値の代わりに下限とする定数μを用いる。単語wについてのスコアscore(w)を数式で表すと以下のようになる。
【数2】
上式においてDは対象ドメインのコーパスに含まれる文書数を、DF(w)は対象ドメインのコーパス内の文書の中で単語wを含む文書数を、CF(w)は、顧客用コーパス215内の単語wの単語頻度をそれぞれ示す。
【0040】
より好ましくは、スコア算出部230は、上式においてtf値(CF(w))の代わりに担当者用コーパス220における出現頻度SF(w)に対する顧客用コーパス215における出現頻度CF(w)の割合、即ち出現頻度比RF(w)を用い、新たな特徴量rf―idfを算出する。これは雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えに基づくものである。この場合、単語wについてのスコアscore(w)は次式により表される。
【数3】
【0041】
上式において、出現頻度比RF(w)は一例として次式により求めてよい。
【数4】
なお、出現頻度比RF(w)の値が小さくなる単語間でのスコアscore(w)の差が重要となる場合には、上式の左辺の値の対数を出現頻度比RF(w)としてもよい。スコア算出部230は算出した単語ごとのスコアscore(w)を、統計辞書格納部235に格納する。
【0042】
会話データ格納部240は、解析対象の会話の内容であるテキストデータを単語単位に区切って格納する。一般に音声認識結果は単語単位に区切られているため、音声認識によりテキストデータを取得する場合は単語の抽出は必要ない。一方、書き起こしによりテキストデータを取得する場合、形態素解析によりテキストデータから単語を抽出するものとする。形態素解析の技術は既知であり、市販のプログラムも存在するため、ここでは説明を省略する。
【0043】
切り出し部245は、会話データ格納部240からテキストデータを読み出し、所定の長さの窓をずらしながら処理対象の区間を順次切り出す。区間切り出し処理を示す概念図を
図3に示す。
図3において1つ1つの「−」は発話された単語を示し、上段302は顧客の一連の発話を、下段304は対応する営業担当者の一連の発話を示す。
図3に示すように、処理対象の区間は、所定の長さL(
図3に示す例ではL=12単語)の窓を1単語ずつずらすことによって順次切り出される(矩形306がi番目の区間とすると、i+1番目の区間は矩形306を1単語ずらした矩形308により切り出される)。
【0044】
なお、雑談区間をピンポイントで検出するには処理対象の区間は短いほうがよい。しかしその一方で雑談区間があまりに短いと今度は雑談の判定結果が偶然に左右される可能性が高くなってしまう。従って、窓の所定の長さLは、平均発話長の数倍〜10倍程度であることが好ましい。
【0045】
抽出部250は、統計辞書格納部235に格納される単語ごとのスコアscore(w)を参照して、切り出し部245より切り出された区間に含まれる単語のスコアscore(w)の平均値を算出し、算出した平均値が所定の閾値θ
2より大きな区間を雑談部分として抽出する。抽出部250による判定式を以下に示す。
【数5】
上式においてS
iは切り出された区間に含まれる単語列を示し、|S
i|は該単語列に含まれる単語数を示す。
【0046】
なお、フロアリングにおける下限対象語V
sharedを決定する際に使用する所定の閾値θ
1、下限対象語V
sharedのスコアscore(w)値μ、及び雑談判定に使用する所定の閾値θ
2は、それぞれ、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定しておくものとする。
【0047】
ここで検出結果の精度を示す指標として、precision、recall、f―measure(F値)の3つが存在する。recallは検出失敗、precisionは過剰検出を評価する指標であり、これら2つの指標は一方を高めると片方が低下する、相反する精度である。そこでこれら2つの指標のバランスを考慮した指標として、通常次式により定義されるf―measureが存在する。
【数6】
しかしながらf―measureの最適値は、過剰検出及び検出失敗の両方が許容範囲であるという値であり必ずしも望ましい値であるとはいえない。そこで、アプリケーションごと目的に応じた精度の指標を選択するのが好ましい。例えば検出失敗が少ないことを重視するのであれば、recall>90%という目標を先に設定し、該目標が満たされる範囲内でprecisionが最もよくなる閾値θ
1,2や下限対象語V
sharedのスコアscore(w)値μを設定する。
【0048】
なお、これまではtf-idfの値をベースとして本願発明の雑談抽出技術を説明してきた。しかしながら本願発明の雑談抽出技術は、雑談抽出の指標のベースとして他の特徴語の検出技術、即ち、相互情報量やカイ二乗値を利用することも可能である。相互情報量やカイ二乗値はカテゴリ(特定の文書)と単語の依存度合いを示す尺度であり、その値が大きい単語ほどカテゴリ(特定の文書)に特徴的な単語であるとされる。従って、これらをidf値の代わりとして利用することができる。
【0049】
即ち、決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおける相互情報量I
g(U;D)の値と、第2コーパス格納部210に格納される対象ドメインのコーパスにおける相互情報量I
t(U;D)の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語V
sharedとして決定する。またスコア算出部230は、idf値の代わりに相互情報量I
t(U;D)を利用し、下限対象単語V
sharedについては下限とする定数を用いる。
【0050】
なお、相互情報量I(U;D)は、ある単語tの出現を表す確率変数Uとある文書dの出現を表す確率変数Dを用いて次式により定義される。ここでUは1又は0の値をとり、U=1のとき単語tが出現する事象、U=0のとき単語tが出現しないという事象を表す。同様にDも1又は0の値をとり、D=1のとき文書がdであり、D=0のとき文書がdでないという事象を表す。
【数7】
上式において添え字t(term)には具体的な単語が、添え字d(document)には具体的な文書が入る。
【0051】
また、決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおけるカイ二乗値χ
2g(t;d)の値と、第2コーパス格納部210に格納される対象ドメインのコーパスにおけるカイ二乗値χ
2t(t;d)の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語V
sharedとして決定する。またスコア算出部230は、idf値の代わりにカイ二乗値χ
2(t;d)を利用し、下限対象単語V
sharedについては下限とする定数を用いる。
【0052】
なお、カイ二乗値χ
2(t;d)は、実際の文書数N
ijと、ある単語とある文書とが独立であると仮定した場合に期待される文書数E
ijとを用いて次式により定義される。ここでi(=e
t)は1又は0の値をとり、1のとき単語tが出現する事象、0のとき単語tが出現しないという事象を表す。同様に、j(=e
c)は1又は0の値をとり、1のとき文書がdであり、0のとき文書がdでないという事象を表す。
【数8】
上式において添え字t(term)には具体的な単語が、添え字d(document)には具体的な文書が入る。
【0053】
相互情報量やカイ二乗値を利用する場合においても、各種の閾値と下限とする定数は、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。
【0054】
次に
図4及び
図5を参照しながら、本発明の実施形態による雑談部分の検出処理の流れを説明する。
図4は、単語ごとの特徴量rf−idfを算出する算出処理の流れを示すフローチャートである。
図5は、雑談部分の検出処理の流れを示すフローチャートある。
【0055】
図4に示す算出処理はステップ400から開始し、雑談抽出システム200は、対象ドメインのコーパス210にアクセスし、対象ドメインのコーパス210に含まれる各単語w
iについて、対象ドメインのコーパス210におけるidf値IDF
t(w)と、顧客用コーパス215における出現頻度CF(w)と、担当者用コーパス220における出現頻度SF(w)とを求める。続いて雑談抽出システム200は、一般コーパス205にアクセスし、上記各単語w
iについて、一般コーパス205におけるidf値IDF
g(w)を求める(ステップ405)。なおステップ400及びステップ405においてidf値は、数式1に従って算出される。
【0056】
続いて雑談抽出システム200は、上記各単語w
iについて、ステップ400で求めたIDF
t(w
i)とステップ405で求めたIDF
g(w
i)が共に所定の閾値θ
1よりも小さいか否かを判定する(ステップ410)。続いて雑談抽出システム200は、IDF
t(w
i)とIDF
g(w
i)が共に所定の閾値θ
1よりも小さいと判定(ステップ410:YES)した全ての単語w
iを下限対象語V
Sharedとして決定し、下限対象語V
Sharedの単語w
iのスコアscore(w
i)(但し、w
i∈V
Shared)に一定値μを設定し、これを統計辞書格納部235に格納する(ステップ415)。
【0057】
一方、雑談抽出システム200は、IDF
t(w
i)とIDF
g(w
i)の少なくとも一方が所定の閾値θ
1以上と判定(ステップ410:NO)した単語w
iについては、ステップ400で求めた出現頻度CF(w)、SF(w)とを用いて数式4に従って出現頻度比RF(w
i)を算出する(ステップ420)。続いて雑談抽出システム200は、下限対象語V
Sharedを除く各単語について、IDF
t(w
i)とRF(w
i)の積をscore(w
i)に設定し、これを統計辞書格納部235に格納する(ステップ425)。そして処理は終了する。
【0058】
図5に示す雑談部分の検出処理はステップ500から開始し、雑談抽出システム200は、雑談部分であるか否かを判定する単位長である区間長L(単語数)を設定し(ステップ500)、区間インデックスPに1を代入する(ステップ505)。続いて雑談抽出システム200は、会話データ格納部240に格納されるテキストデータの先頭から順に、単語w
pから単語w
p+L-1までの単語列(「窓」)を選択する(ステップ510)。続いて雑談抽出システム200は、選択した単語列について統計辞書格納部235を参照し、選択した単語列に含まれる単語のscore(w
i)の総計Tscoreを算出し(ステップ515)、更に次式により移動平均値を求める。
【数9】
上式においてmは移動平均窓の幅である。
【0059】
続いて雑談抽出システム200は、算出した移動平均値が所定の閾値θよりも大きいか否かを判定する(ステップ520)。Tscoreが所定の閾値θ以下の場合(ステップ520:NO)、雑談抽出システム200は、現在の区間インデックスPで識別される区間が雑談部分でないと判定する(ステップ530)。一方、Tscoreが所定の閾値θよりも大きい場合(ステップ520:YES)、雑談抽出システム200は、現在の区間インデックスPで識別される区間が雑談部分であると判定する(ステップ530)。続いて雑談抽出システム200は、区間インデックスPを1インクリメントし(ステップ535)、会話データ格納部240に格納されるテキストデータから次の単語列が選択可能か否かを判定する(ステップ540)。選択可能である場合(ステップ540:YES)、処理はステップ510に戻る。一方、選択できない場合(ステップ540:NO)、処理は終了する。
【0060】
実験結果
図6を参照して本発明の実験結果を説明する。なお、実験の条件は次の通りである。
1.一般的なコーパス:約1ヶ月分のtwitter
2.対象ドメインのコーパス:金融会社の営業店における電話対話
- 約1000コール
- 音声認識によりテキストに変換(エラー修正なし)
3.ベースとして利用する特徴語の検出技術:tf―idf
4.比較手法
A.baseline:通常のtf―idfをスコア値として使用
B.+Shared word flooring(1):2種類のコーパスを用いて求めた下限対象語V
Sharedについては所定の定数μをスコア値とし、それ以外の単語については通常のtf―idfをスコア値として使用
C.(1)+Frequency ratio weighting:上記手法Bに加えて、tf値の代わりに出現頻度比rfを利用するrf―idfをスコア値として使用
【0061】
図6の表に示す数値は上述したprecision、recall、f―measure(F値)の3種の精度それぞれについての値であり、値の大きいほうが精度がよいことを示す。通常のtf―idfをスコア値とする手法Aと比較すると、本発明を適用した手法B及び手法Cは、いずれの精度に対しても改善された値を示している。特にF値については、新たな特徴量rf−idf値をスコア値とした手法Cにおいて顕著な改善が見られることに注目されたい。
【0062】
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。例えば、決定部225は、更に、対象ドメインのコーパスに含まれる各単語について、一般的なコーパスにおけるidf値と対象ドメインのコーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定してよい。そしてスコア算出部230は、上限対象単語に対してはtf―idf値の代わりに上限とする定数を用いてよい。なお、第3の所定の閾値や上限とする定数は、「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
【0063】
なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。