(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-29
(45)【発行日】2023-07-07
(54)【発明の名称】留守番電話判定装置、方法及びプログラム
(51)【国際特許分類】
H04M 1/82 20060101AFI20230630BHJP
G10L 25/27 20130101ALI20230630BHJP
G10L 25/78 20130101ALI20230630BHJP
H04M 1/2749 20200101ALI20230630BHJP
H04M 3/42 20060101ALI20230630BHJP
【FI】
H04M1/82
G10L25/27
G10L25/78
H04M1/2749
H04M3/42 Q
(21)【出願番号】P 2019203594
(22)【出願日】2019-11-08
【審査請求日】2022-05-17
(73)【特許権者】
【識別番号】518270403
【氏名又は名称】株式会社ハロー
(74)【代理人】
【識別番号】100120008
【氏名又は名称】山田 くみ子
(72)【発明者】
【氏名】李 心剣
【審査官】松原 徳久
(56)【参考文献】
【文献】特表2009-543158(JP,A)
【文献】特開2012-129861(JP,A)
【文献】特開2006-345181(JP,A)
【文献】特表2005-530214(JP,A)
【文献】米国特許出願公開第2005/0276390(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L13/00-99/00
H04M1/00
1/24-3/00
3/16-3/20
3/38-3/58
7/00-7/16
11/00-11/10
99/00
(57)【特許請求の範囲】
【請求項1】
電話による通話データを取得する通話データ取得手段と、
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出手段と、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出手段と、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習により生成された留守番電話による応答か否かを判定する判定手段と、
を有し、
前記判定手段は、前記通話データから抽出された話者重複特徴量と、前記クラスタリング特徴量とに基づいてその通話データが留守番電話による応答か否かを判定する、留守番電話応答判定装置。
【請求項2】
請求項1記載の留守番電話応答判定装置であって、さらに前記通話データの通話時間の特徴量を抽出する通話時間特徴量抽出手段を有し、
前記判定手段は、通話時間の特徴量をさらに教師データとして用いる、留守番電話応答判定装置。
【請求項3】
請求項2記載に留守番電話応答判定装置において、前記通話時間特徴量は、通話音声のエネルギー統計量である、留守番電話応答判定装置。
【請求項4】
請求項1~3
のいずれか一項に記載の留守番電話応答判定装置であって、
さらに、前記通話データをテキストデータに変換する音声認識手段と前記テキストデータから機械学習により留守番電話による応答を検出してテキスト特徴量を算出する応答検出手段とを有するテキスト特徴量抽出手段をさらに有し、
前記判定手段は、前記テキスト特徴量をさらに教師データとして用いる、留守番電話応答判定装置。
【請求項5】
請求項1~4
のいずれか一項に記載の留守番電話応答判定装置であって、
さらに、機械合成音データと、人間音声データと、混合ガウスのヒストグラムと、を教師データとして用いて機械学習し、通話データのうち、応答側の音声が機械合成音データである確率を機械合成音特徴量として生成する機械合成音特徴量生成手段をさらに有し、
前記判定手段は、機械合成音特徴量をさらに教師データとして用いる、留守番電話応答判定装置。
【請求項6】
留守番電話応答判定方法であって、
電話による通話データを取得する通話データ取得ステップと、
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップ
と、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、
を有する留守番電話応答判定方法。
【請求項7】
留守番電話応答判定装置としてコンピュータに実行させる留守番電話応答判定プログラムであって、
電話による通話データを取得する通話データ取得ステップと、
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップ
と、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、
を実行させる留守番電話応答判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動音声を使って自動で電話をかけたときに、発信先の応答が留守番電話による応答だったか否かを判定する留守番電話判定装置、方法、プログラムに関する。
【背景技術】
【0002】
電話への着信に対し、一定時間ユーザによりオフフック操作がなされなかった場合、電話が自動で応答し、所定の予め設定された留守番メッセージを流し、その後発信者にメッセージを残すよう促すことで発信者のメッセージを録音することができる留守番電話機能を有する電話機や、留守番電話サービスを、通信網を通じて設定することができる機能が普及している。
【0003】
しかし、留守番電話が応答した場合、発信者は自分のメッセージを相手方に残すことができるものの、通話料金が課金されるうえに、相手方に所望の用件を伝えて電話をかけた当初の目的を達成することはできないという問題があった。
【0004】
この問題を解決するために、特許文献1では、発信者側の電話装置が、発信先の電話機の留守電応答時間を計測して発信先の電話番号とともに記憶しておき、その発信先に新たに発信したときには、記憶した留守電応答時間になる直前に自動切断することで無駄な通話料金の支払いを防止する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1の技術においては、2度目の発呼からは自動切断することで無駄な通話料金の支払いを防止することができるが、相手方に最初にかける場合は、留守番電話にかけることは防止できない。また、そもそも発呼側がコンピュータプログラム等による自動発呼により、自動音声で電話をかける場合、着信側で出た応答が人間の声なのか、留守番電話メッセージなのかを判別することができないという問題があった。
【0007】
発呼先の電話がオフフックされたときに、留守番電話であったか、人間が出たにも関わらず自動音声で伝えた用件に対して対応がなされなかったか、の判断ができなければ、すぐにかけ直すか、時間をおいてからかけ直すかも決定できない。このため、自動音声電話機が、留守であるにもかかわらず、すぐに何度もかけ直したりするなど、無駄に発信操作を繰り返してしまうという問題があった。
【0008】
そこで、本発明では、通話が終了したあとに、通話データを自動音声電話機から取得し、少なくとも話者重複特徴量とクラスタリング特徴量とを通話データから抽出し、機械学習により生成された判定部によって、留守番電話による応答か否かを判定することで、その後の無駄な発信操作を防止し、適切な対応をとれるようにすることを目
的とする。
【課題を解決するための手段】
【0009】
本発明にあっては、電話による通話データを取得する通話データ取得手段と、通話データの双方の話者の重複度を算出する話者重複特徴量抽出手段と、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出手段と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習により生成された留守番電話による応答か否かを判定する判定手段と、を有し、判定手段は、通話データから抽出された話者重複特徴量と、クラスタリング特徴量と、に基づいてその通話データが留守番電話による応答か否かを判定する、留守番電話応答判定装置を提供することができる。
【0010】
さらに、留守番電話応答判定装置は、通話データの通話時間の特徴量を抽出する通話時間特徴量抽出手段を有し、判定手段は、通話時間の特徴量をさらに教師データとして用いる。
【0011】
また、通話時間特徴量は、通話音声のエネルギー統計量である。
【0012】
本発明にかかる留守番電話応答判定装置は、さらに、通話データをテキストデータに変換する音声認識手段とテキストデータから機械学習により留守番電話による応答を検出してテキスト特徴量を算出する応答検出手段とを有するテキスト特徴量抽出手段をさらに有し、判定手段は、前記テキスト特徴量をさらに教師データとして用いる。
【0013】
さらに、機械合成音データと、人間音声データと、混合ガウスのヒストグラムと、を教師データとして用いて機械学習し、通話データのうち、応答側の音声が機械合成音データである確率を機械合成音特徴量として生成する機械合成音特徴量生成手段をさらに有し、判定手段は、機械合成音特徴量をさらに教師データとして用いる、留守番電話応答判定装置を提供する。
【0014】
本発明にかかる留守番電話応答判定方法は、電話による通話データを取得する通話データ取得ステップと、通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、通話時間特徴量と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、を有する留守番電話応答判定方法を提供する。
【0015】
また、本発明の留守番電話応答判定装置としてコンピュータに実行させる留守番電話応答判定プログラムは、電話による通話データを取得する通話データ取得ステップと、通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、通話時間特徴量と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、を実行させる留守番電話応答判定プログラムを提供する。
【発明の効果】
【0016】
本発明によれば、通話データから所定の特徴量を取得し、発呼先の電話が留守番電話による応答であったか否かを判定することができるため、具体的には、留守番電話であったと判定された場合は、数時間時間をおいて、在宅している可能性の高い時間や店舗であれば営業時間内に再度発呼するようにし、人間が出たにもかかわらず、自動音声による電話であったがために、すぐに電話が切断されたと判断した場合には、すぐにかけ直すように電話機を設定することができる。
【図面の簡単な説明】
【0017】
【
図1】
図1は、本発明における留守番電話応答判定装置のハードウェア構成図の一例を示すブロック図である。
【
図2】
図2は、本発明の第一の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。
【
図3】
図3は、本発明の第二の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。
【
図4】
図4は、人間応答による場合の秒数分布を示すグラフである。
【
図5】
図5は、留守番電話の機械応答による場合の秒数分布を示すグラフである。
【
図6】
図6は、教師データを用いて、着信者側で留守番電話が応答したか否かを判定する分類器を、機械学習により生成する処理を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明を実施するための形態について、図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能及び構成を有する構成要素については同一の符号を付し、重複説明を省略する。
【0019】
図1は、本発明における留守番電話応答判定装置のハードウェア構成図の一例を示すブロック図である。
図1に示されるコンピュータ装置である留守番電話応答判定装置10のハードウェア構成は、主にコンピュータ装置で実現できる。留守番電話応答判定装置10は、自動音声電話機20から受信した通話データから各種特徴量を抽出し、留守番電話応答の判定を行う留守番電話応答判定プログラムを実行することで、留守番電話応答か否かの判定を行う。
【0020】
留守番電話応答判定装置10は、通話データと各種特徴量、留守番電話の応答の有無を教師データとして機械学習することで生成される留守番電話応答判定部を有しており、新たな通話データを自動音声電話機20から受信すると、各種特徴量を抽出し、相手方の応答が留守番電話による応答であったかなかったかを判定する。
【0021】
留守番電話応答判定装置10を形成するコンピュータは、
図1に示したようにCPU11、通信インターフェース12、ROM13、RAM14、ハードディスクドライブ15、入出力インターフェース16、入出力インターフェース16と接続された表示部17、ポインティングデバイス18及びキーボード19を、バスに接続して構成される。また、入出力インターフェース16には、USBメモリなどの外部記憶装置20が接続可能である。
【0022】
表示部17は、たとえば、液晶ディスプレイなどの表示装置である。ポインティングデバイス18は、例えば、マウスやトラックボールなどである。
【0023】
一連の処理をプログラムにより実行させる場合には、例えば、通話データ取得部、話者重複特徴量抽出部、クラスタリング特徴量抽出部、通話時間特徴量抽出部、テキスト特徴量抽出部、機械合成音特徴量抽出部、判定部は、ROM13又はハードディスクドライブ15に留守番電話応答判定プログラムとして記憶され、CPU11で実行させることで、各種の機能を実行させる。なお、留守番電話応答判定プログラムが記憶されたUSBメモリなどの外部記憶装置20を入出力インターフェース16に接続することでのインストールや、ネットワーク12からコンピュータへ留守番電話応答判定プログラムをインストール、また、装置本体に予め組み込まれた状態、例えば、留守番電話応答判定プログラムが記録されているROM13などで構成してもよい。
【0024】
図2は、本発明の第一の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。留守番電話応答判定システム1は、自動音声電話機20と留守番電話応答判定装置10から構成される。自動音声電話機20は、所定の電話番号に自動発呼し、所定のメッセージを人工的に生成された音声で相手方に聞かせることで、人間がいなくても電話をかけることができる電話機である。例えば、お店への予約電話を行う場合に必要な電話予約メッセージをあらかじめ自動音声電話機20に登録しておき、予約希望日時や人数など電話予約メッセージに適宜組み合わせることで、予約する店の電話番号を読み出して、自動で発呼し、生成された電話予約のためのメッセージを人工音声で読み上げ、相手方に予約が可能かどうかを問い合わせる。なお、自動音声電話機20は、データベースに記憶された電話番号を参照して電話をかけるコンピュータプログラムがサーバなどのコンピュータにインストールされることにより構成されていてもよく、複数のコンピュータ装置によって構成されていてもよい。
【0025】
留守番電話応答判定装置10は、自動音声電話機20が録音した通話データをインターネット等の通信ネットワークを介して受信し、通話データから各種特徴量を抽出し、教師データにより機械学習することで生成された判定部に基づいて、相手方が留守番メッセージで応答したか否かの判定を行う装置である。
【0026】
自動音声電話機20と留守番電話応答判定装置10とは、ここでは別々の装置として図示しているが、これに限らず、自動音声電話機20と留守番電話応答判定装置10とで一つの装置として構成してもよい。また、自動音声電話機20と留守番電話応答判定装置10を構成する各機能がそれぞれ独立した装置として構成してもよい。
【0027】
留守番電話応答装置10は、通話データ取得部101、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、判定部121を有する。
【0028】
通話データ取得部101は、自動音声電話機20が人間の手によらず自動で電話をかけて通話した通話データを自動音声電話機20から受信し、通話データを取得する。なお、通話データのデータ形式は、発信者側の音声と着信者側の音声とによる2チャンネルのデュアルチャンネルで録音されていればよく、例えば、wav形式であるが、特に特定のデータ形式に限らない。
【0029】
話者重複特徴量抽出部111は、通話データの双方の話者の重複度を算出する。具体的には、通話データは、発信者側と着信者側とでデュアルチャンネルで録音されているため、話者重複特徴量抽出部111は、両方のチャンネルで話している区間を検知し、重複度の判定を行う。話者重複特徴量抽出部111は、たとえば、音声区間検出器(VAD:Voice Activity detection)を有し、発信者側と着信者側、双方のチャンネルでの話し区間を抽出し、重複度を計算する。例えば、音声区間検出器として、MFCC(Mel-frequency cepstrum coefficients)の線形モデルを用いてもよい。話者重複特徴量抽出部111は、下記のような計算を行って、発信者側と着信者側との話している区間の重複時間(overlap)を算出する。Shelloは、発信者側の話している区間、Srestaurantは、着信者側の話している区間、|S|は、その区間の秒数の長さを表す。
【数1】
【0030】
クラスタリング特徴量抽出部113は、通話データのうち、着信者側のみのチャンネルの音声データからクラスタリング特徴量を算出する。クラスタリング特徴量抽出部113は、留守番電話による応答のような機械による応答と、人間による応答、各応答の特徴的な音声パターンで分類されるようにクラスタリングを行う。具体的にはBoAW(Bag of Audio Words)という特徴量を算出する。クラスタリング特徴量抽出部113は、受信した通話データにつき、まずMFCC特徴量を算出する。
【0031】
具体的には、1フレームを0.025秒とし、0.01秒ずつシフトさせることで、1秒間に100フレーム生成し、各フレームにおける40次元のMFCC特徴量を高次元の点とみなし、点の集合をk-meansのクラスタリングにあてはめて、クラスタリングを生成する。k-meansは下記の式を最小化することで、クラスタリングを生成する。xは、各フレームにおける点、Siはi番目のクラスタに含まれる点の集合、μiは、そのクラスタの中心、Sはすべてのクラスタの集合である。
【数2】
【0032】
例えば、10秒の通話データを100個用意すると、10×100×100=100000個の点が存在することとし、これにk-meansのクラスタリングを適用し、100個のクラスタリングを生成する。次に、留守番電話応答判定を行う通話データのMFCC特徴量を算出し、各フレームのMFCC特徴量がどのクラスタリングまでの距離が近いかを計算する。一番近いクラスタリングに対してそのフレームを割り当てることで、クラスタリングのヒストグラムを生成し、クラスタリング特徴量を抽出する。つまり、クラスタリング特徴量抽出部113は、着信者側の音声データについて音声特徴量であるMFCC特徴量からクラスタリングを生成し、さらにクラスタリングのヒストグラムを生成することで、クラスタリング特徴量を抽出する。
【0033】
判定部121は、通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習により生成される。機械学習により生成された判定部121に、留守番電話による応答であったか否かを判定したい通話データから抽出した話者重複特徴量とクラスタリング特徴量を入力することで、判定部121は、その通話データにおいて留守番電話による応答があったか否かの判定を行う。
【0034】
判定部121は、対象となる通話データから抽出した特徴量を入力すると二値分類を行う分類器で構成される。ここでは、留守番電話による応答である機械応答と人間応答の二値に分類される。分類器としては、例えば、ロジスティック回帰、ランダムフォレスト、SVM(サポートベクトルマシン)などが用いられ、いずれを用いてもよいが、教師データが少ないとき、例えば10000音声データ未満の場合は、ロジスティック回帰、それ以上の場合は、SVMなど使い分けてもよい。
【0035】
例えば、ロジスティック回帰は、教師データが少ない時に最もよいパフォーマンスを示し、下記の式により、重みwのパラメータのもと、入力特徴量xから留守番電話による応答である機械応答C1に分類される条件付き確率を計算する。
P(C1|x;w)=σ(wTX+w0)
【0036】
また、ランダムフォレストを分類器として使う場合、個々の決定木の結果f
kに基づいて計算を行う。
【数3】
【0037】
SVMはデータ量が一定以上、例えば、10000音声データ以上に達した場合、ロジスティック回帰から置き換えることで、より高いパフォーマンスを分類器として使う場合で分類を行うことができる。カーネルトリックを用いることで、本来より高次元上で超平面を引くことで非線形分類能力を実現できるものである。境界面は、以下の式により定められる。(zi,yi)は既存のi番目の教師データの特徴量とラベル、w、bは学習する重みである。
【数4】
【0038】
図3は、本発明の第二の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量以外の特徴量も抽出し、留守番電話による応答であったか否かの判定に用いる。なお、第一の実施の形態と同じ構成については、詳細な説明を省略する。
【0039】
留守番電話応答判定システム1は、自動音声電話機20と留守番電話応答判定装置10から構成される。自動音声電話機20は、所定の電話番号に自動発呼し、所定のメッセージを人工的に生成された音声を相手方に聞かせることで、人間がいなくても電話をかけることができる電話機である。留守番電話応答判定装置10は、自動音声電話機20が録音した通話データをインターネット等の通信ネットワークを介して受信し、通話データから各種特徴量を抽出し、教師データにより機械学習することで生成された判定部に基づいて、相手方が留守番メッセージで応答したか否かの判定を行う装置である。
【0040】
本実施の形態においては、留守番電話応答判定装置10は、通話データ取得部101、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、通話時間特徴量抽出部115、テキスト特徴量抽出部117、機械合成音特徴量抽出部119、判定部121を有する。
【0041】
通話データ取得部101は、自動音声電話機20が人間の手によらず自動で電話をかけて通話した通話データを自動音声電話機20から受信し、通話データを取得する。また、話者重複特徴量抽出部111は、通話データの双方の話者の重複度を算出する。クラスタリング特徴量抽出部113は、通話データのうち、着信者側のみのチャンネルの音声データからクラスタリング特徴量を算出する。話者重複特徴量抽出部111と、クラスタリング特徴量抽出部113は、第一の実施の形態と構成が同じであるため、ここでは詳細な説明を省略する。
【0042】
通話時間特徴量抽出部115は、通話データの通話時間の特徴量を抽出する。例えば、通話データにおける通話時間そのものを特徴量としてもよい。また、他の一例では、通話時間の2乗を通話時間の特徴量としてもよい。留守番電話応答による場合の通話時間は、決まったテンプレートの録音が使われることが多いため、同じような時間に通話が終了する。このため通話時間の2乗を特徴量とすることで、二次関数を表現して留守番電話応答だった場合のピークをとらえる。
【0043】
また、通話時間特徴量抽出部115は、音声の各フレームのエネルギー統計量を通話時間特徴量として抽出してもよい。この場合、音声の各フレームのエネルギー統計量を計算することで、通話時間全体でのノイズを計測する。エネルギー統計量が高い場合は、背景にノイズが多くある、低い場合は、背景にノイズがあまりないことがわかる。具体的には、エネルギー統計量として、下記の式を計算する。なお、音声信号をx(t)とし、0.025行のフレームに区切り、窓関数w(t)をかけて、短時間フーリエ変換による信号X[t,f]を変換する。tは時間、fは周波数である。
【数5】
そして、ナイキスト周波数までのパワースペクトルを足し合わせることで、エネルギー統計量を算出する。
【数6】
【0044】
なお、通話時間特徴量抽出部115は、エネルギー統計量のみと通話時間特徴量として抽出してもよく、最適な実施形態としては、エネルギー統計量と通話時間の2乗の2つの特徴量を抽出してもよい。 なお、エネルギー統計量と通話時間の2つの特徴量を抽出してもよい。
【0045】
テキスト特徴量抽出部117は、テキストデータに変換する音声認識部1171とテキストデータから機械学習による留守番電話による応答を検出してテキスト特徴量を算出する応答検出部1172とを有する。音声認識部1171は、取得した通話データのうち着信者側の音声データの音声認識を行い、テキスト化する。
【0046】
応答検出部1172は、音声認識部1171によって音声認識され生成されたテキストデータから留守番電話による機械応答の典型的なテキストメッセージがあるかどうかを検出する。例えば、『ただいま留守にしております』や『メッセージをお願いします』『営業時間外です』など、留守番電話による応答メッセージでよく使われるメッセージを検出する。具体的には、応答検出部1172として、BERT(Bidirectional Encoder Representations from Transformer)又はXLNetなどの日本語事前学習言語モデルを適用して、応答検出を行う。
【0047】
機械合成音特徴量抽出部119は、着信者側の音声が機械で合成された音かどうかを判定するための特徴量を抽出する、例えば、機械合成音特徴量抽出部119においては、人間の音声と人工的に合成された音声とをそれぞれ大量に収集し、それらをLSTM(Long Short-Term Memory)に入れて、人間音声と合成音声とを分類できるよう学習させる。また、音声データの混合ガウス分布のヒストグラムを算出し、人間音声の場合のヒストグラムと合成音声の場合のヒストグラムとを算出し、ニューラルネットワークでこれらを教師データとして機械学習させて機械合成音分類器を生成しておく。
【0048】
機械合成音特徴量抽出部119は、通話データを取得すると、着信者側のチャンネルの音声データを抽出し、その音声データの混合ガウス分布のヒストグラムを算出し、機械学習させた機械合成音分類器に合成音かどうかの確率を算出させ、その結果を機械合成音特徴量として、抽出する。
【0049】
判定部121は、通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習により生成される。機械学習により生成された判定部に、留守番電話による応答であったか否かを判定したい通話データから抽出した特徴量を入力することで、判定部121は、その通話データにおいて留守番電話による応答があったか否かの判定を行う。本実施の形態では、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量を入力し、判定を行う。
【0050】
なお、第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量の5つの特徴量を入力したが、テキスト特徴量又は機械合成音特徴量のいずれかの特徴量と他の3つの特徴量を入力して判定を行うように構成してもよい。また、話者重複特徴量、クラスタリング特徴量、通話時間特徴量の3つの特徴量を入力して判定を行うように構成してもよい。この3つの特徴量のみとすることで、処理を早くすることができる。
【0051】
図4は、人間応答による場合の秒数分布を示すグラフである。図のとおり、着信側で人が出られた場合には、短い秒数で通話時間が終了することが多いことがわかる。おそらく、自動応答で電話がかかってきた場合に相手方が、自動応答(機械)だとわかると着信側がすぐに切る傾向があるからと考えられる。
【0052】
図5は、留守番電話の機械応答による場合の秒数分布を示すグラフである。通話時間のピークが50~60秒のところにあるのがわかる。留守番電話による機械応答の場合、定型メッセージが流れるため、一定の秒数がかかる。自動応答で電話をかけた場合、着信側が留守番電話による機械応答であると、応答メッセージのあとメッセージを録音する時間があり、所定の録音時間のあと、着信側から切るため、時間のピークが50~60秒になると考えられる。
【0053】
図6は、教師データを用いて、着信者側で留守番電話が応答したか否かを判定する分類器を、機械学習により生成する処理を示すフローチャートである。まず、通話データ取得部101は、着信者側の留守番電話応答か否かを示す応答結果データと、通話データと、を取得する(ステップS601)。ここでは、分類器に機械学習させることが目的であるため、教師データとして、通話データとともに応答結果データとを取得する。
【0054】
次に、各特徴量抽出部は、通話データから各特徴量を抽出する(ステップS602)。第一の実施の形態においては、話者重複特徴量抽出部111とクラスタリング特徴量抽出部113が、通話データから話者重複特徴量と、クラスタリング特徴量を抽出する。第二の実施の形態においては、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、通話時間特徴量抽出部115、テキスト特徴量抽出部117、機械合成音特徴量抽出部119が、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量を抽出する。
【0055】
次に、判定部で用いる分類器を機械学習により生成する(ステップS603)。通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習させることで、留守番電話による応答であったかなかったかを判定する分類器を生成する。機械学習法としては、ロジスティック回帰、ランダムフォレスト法、サポートベクトルマシンがあげられ、いずれを用いてもよい。特徴量としては、第一の実施の形態においては、話者重複特徴量、クラスタリング特徴量、第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量である。教師データにより生成された分類器により、判定対象となる通話データが留守番電話による応答であったか否かが判定される。
【符号の説明】
【0056】
1 留守番電話応答判定システム
10 留守番電話応答判定装置
20 自動音声電話機