特許7380188 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士通株式会社の特許一覧

特許7380188更新プログラム、更新方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-07

(45)【発行日】2023-11-15

(54)【発明の名称】更新プログラム、更新方法および情報処理装置

(51)【国際特許分類】

G10L 25/30 20130101AFI20231108BHJP

【ＦＩ】

G10L25/30

【請求項の数】 9

(21)【出願番号】P 2019233503

(22)【出願日】2019-12-24

(65)【公開番号】P2021103202

(43)【公開日】2021-07-15

【審査請求日】2022-08-09

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】松尾直司

【審査官】堀洋介

(56)【参考文献】

【文献】特開平０６－１５２４３０（ＪＰ，Ａ）

【文献】特開平０８－１４７０００（ＪＰ，Ａ）

【文献】特開２０１９－２１１６３３（ＪＰ，Ａ）

【文献】特開２００５－３５２８９３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２５／００－２５／７２

Ｇ１０Ｌ１５／１０

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
複数の量子化点を含む量子化テーブルについて、訓練データセットに含まれる複数の発話データの特徴量を量子化した量子化データに基づく、前記複数の量子化点それぞれの選択率を算出し、
前記複数の量子化点のうち、前記選択率が第１の閾値以上である各量子化点については前記各量子化点を選択した前記発話データの特徴量の各平均値で更新し、前記複数の量子化点のうち、前記選択率が前記第１の閾値未満である各量子化点については破棄して、前記選択率が前記第１の閾値以上である更新前の各量子化点に置き換えることで、前記量子化テーブルを更新し、
更新後の前記量子化テーブルに含まれる各量子化点について、当該量子化点と当該量子化点を選択した前記特徴量とを用いた量子化誤差を算出し、前記各量子化点に対応する各量子化誤差の合計を、前記各量子化点を選択した選択回数の合計で除算した値を算出し、前記値が第２の閾値以上の場合は前記量子化テーブルの更新を繰り返し、前記値が前記第２の閾値未満の場合は前記量子化テーブルの更新を終了する、
処理を実行させることを特徴とする更新プログラム。

【請求項2】

前記算出する処理は、
前記複数の発話データそれぞれの前記特徴量に基づく各量子化データと、前記量子化テーブルに含まれる前記複数の量子化点それぞれとの距離とを算出し、
前記各量子化データの選択結果として、前記距離が最小となる量子化点を選択する、ことを特徴とする請求項１に記載の更新プログラム。

【請求項3】

前記更新する処理は、前記選択率が所定の基準以下の量子化点を除外して、前記選択率が所定の基準以上である更新前の量子化点を新たに追加し、前記選択率が所定の基準以下の量子化点以外については、各量子化点を選択した量子化データの平均値に更新する、ことを特徴とする請求項２に記載の更新プログラム。

【請求項4】

白色雑音に基づく複数の量子化点を初期値として含む前記量子化テーブルについて、第１の発話データから生成される各量子化データに基づく、前記複数の量子化点それぞれの選択率を算出し、
前記複数の量子化点のうち最も選択率が高い量子化点を無音相当の量子化点と特定する、処理を前記コンピュータに実行させ、
前記更新する処理は、前記無音相当の量子化点については、当該量子化点を選択した量子化データの平均値に更新し、前記無音相当以外の量子化点については前記選択率に基づく更新を実行する、ことを特徴とする請求項３に記載の更新プログラム。

【請求項5】

前記更新する処理は、
前記無音相当の量子化点を除く更新後の量子化点に基づく量子化誤差を算出し、
前記量子化誤差が閾値以上の場合、第２の発話データを用いて、前記無音相当の量子化点の更新、および、前記無音相当以外の量子化点については前記選択率に基づく更新を実行し、
前記量子化誤差が閾値未満の場合、更新後の前記量子化テーブルを出力する、ことを特徴とする請求項４に記載の更新プログラム。

【請求項6】

入力された音声情報と、更新された前記複数の量子化点を含む更新後の量子化テーブルとに基づくベクトル量子化により、前記音声情報の特徴量に該当する量子化点を対応付けた量子化結果を生成し、
前記量子化結果を、ニューラルネットワークを適用したモデルに入力した際に前記モデルから出力される出力情報が、前記量子化結果に対応する前記音声情報に所定の会話状況が含まれているか否かを示す正解情報に近づくように、前記モデルの学習を実行する、処理を前記コンピュータに実行させることを特徴とする請求項１に記載の更新プログラム。

【請求項7】

判定対象の発話データの特徴量を量子化した量子化データを、前記学習を実行済みの前記モデルに入力することで取得された出力情報に基づいて、判定対象の発話データに前記所定の会話状況が含まれているか否かを判定する、
処理を前記コンピュータに実行させることを特徴とする請求項６に記載の更新プログラム。

【請求項8】

コンピュータが、
複数の量子化点を含む量子化テーブルについて、訓練データセットに含まれる複数の発話データの特徴量を量子化した量子化データに基づく、前記複数の量子化点それぞれの選択率を算出し、
前記複数の量子化点のうち、前記選択率が第１の閾値以上である各量子化点については前記各量子化点を選択した前記発話データの特徴量の各平均値で更新し、前記複数の量子化点のうち、前記選択率が前記第１の閾値未満である各量子化点については破棄して、前記選択率が前記第１の閾値以上である更新前の各量子化点に置き換えることで、前記量子化テーブルを更新し、
更新後の前記量子化テーブルに含まれる各量子化点について、当該量子化点と当該量子化点を選択した前記特徴量とを用いた量子化誤差を算出し、前記各量子化点に対応する各量子化誤差の合計を、前記各量子化点を選択した選択回数の合計で除算した値を算出し、前記値が第２の閾値以上の場合は前記量子化テーブルの更新を繰り返し、前記値が前記第２の閾値未満の場合は前記量子化テーブルの更新を終了する、
処理を実行することを特徴とする更新方法。

【請求項9】

複数の量子化点を含む量子化テーブルについて、訓練データセットに含まれる複数の発話データの特徴量を量子化した量子化データに基づく、前記複数の量子化点それぞれの選択率を算出する算出部と、
前記複数の量子化点のうち、前記選択率が第１の閾値以上である各量子化点については前記各量子化点を選択した前記発話データの特徴量の各平均値で更新し、前記複数の量子化点のうち、前記選択率が前記第１の閾値未満である各量子化点については破棄して、前記選択率が前記第１の閾値以上である更新前の各量子化点に置き換えることで、前記量子化テーブルを更新し、
更新後の前記量子化テーブルに含まれる各量子化点について、当該量子化点と当該量子化点を選択した前記特徴量とを用いた量子化誤差を算出し、前記各量子化点に対応する各量子化誤差の合計を、前記各量子化点を選択した選択回数の合計で除算した値を算出し、前記値が第２の閾値以上の場合は前記量子化テーブルの更新を繰り返し、前記値が前記第２の閾値未満の場合は前記量子化テーブルの更新を終了する更新部と、
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、更新プログラム、更新方法および情報処理装置に関する。

【背景技術】

【0002】

近年、コールセンターでは、オペレータと顧客との会話を録音し、録音した会話の情報を蓄積している。コールセンターには、蓄積された会話の情報を活用して、サービスを向上させたいというニーズがある。

【0003】

たとえば、蓄積された会話の情報を活用する技術として、次の様なものがある。顧客とオペレータとの会話に含まれる所定のキーワードの数を判定し、判定したキーワードの数に応じて、ＦＡＱ（Frequently Asked Questions）を表示したり、スーパーバイザへ通知したりする技術がある。また、オペレータの音声を文字列に変換し、文字列に伝達対象のキーワードが含まれているか否かをチェックすることで、オペレータが顧客に伝達内容を適切に伝えているかを判定する技術がある。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１５－９９３０４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

コールセンターでは、オペレータと顧客との会話において、予め指定した特定の会話状況が存在するか否かを検出したいというニーズがある。ここで、上記の技術を利用して、特定の会話状況が存在するか否かを検出する場合、検出したい会話状況に応じて、網羅的にキーワード設定を行い、設定したキーワードが、会話の情報に含まれているか否かを判定する処理を行うことが考えられる。

【0006】

しかしながら、特定の会話状況を検出するために、どれだけの数のキーワードを網羅すればよいかを事前に把握することは難しい。また、同じ意味の会話でも様々な言い回しがあるため、人手によってキーワードを網羅的に設定することは難しい。

【0007】

１つの側面では、本発明は、特定の会話状況を検出するためのキーワード設定を行わないで、特定の会話状況を検出することができる更新プログラム、更新方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

第１の案では、更新プログラムは、コンピュータに、複数の量子化点を含む量子化テーブルについて、訓練データセットに含まれる複数の発話データの特徴量を量子化した量子化データに基づく、前記複数の量子化点それぞれの選択率を算出する処理を実行させる。更新プログラムは、コンピュータに、前記複数の量子化点を前記選択率に基づき更新することで、前記量子化テーブルを更新する処理を実行させる。

【発明の効果】

【0009】

一実施形態によれば、特定の会話状況を検出するためのキーワード設定を行わないで、特定の会話状況を検出することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、参考技術の一例を説明するための図である。

【図2】図２は、本実施例１に係る学習装置および判定装置の処理の一例を説明するための図である。

【図3】図３は、本実施例１に係るシステムの一例を示す図である。

【図4】図４は、本実施例１に係る学習装置の構成を示す機能ブロック図である。

【図5】図５は、本実施例１に係る生成部を説明するための図である。

【図6】図６は、量子化テーブルを生成する量子化テーブル生成部を説明する図である。

【図7】図７は、量子化テーブルの適応制御の全体的な流れを説明する図である。

【図8】図８は、量子化テーブルの初期値を説明する図である。

【図9】図９は、量子化点の選択を説明する図である。

【図10】図１０は、量子化テーブルの更新を説明する図である。

【図11】図１１は、量子化テーブルの更新前後を説明する図である。

【図12】図１２は、量子化誤差による判定手法を説明する図である。

【図13】図１３は、本実施例１に係るベクトル化部の処理を説明するための図である。

【図14】図１４は、本実施例１に係るＬＳＴＭの一例を示す図である。

【図15】図１５は、本実施例１に係るニューラルネットワークの一例を説明するための図である。

【図16】図１６は、本実施例１に係る判定装置の構成を示す機能ブロック図である。

【図17】図１７は、本実施例１にかかる量子化テーブルの生成処理の流れを示すフローチャートである。

【図18】図１８は、本実施例１に係る学習装置の処理手順を示すフローチャートである。

【図19】図１９は、本実施例１に係る判定装置の処理手順を示すフローチャートである。

【図20】図２０は、異常な会話状況が含まれる音声データの内部ベクトルの一例を示す図である。

【図21】図２１は、正常な会話の音声データの内部ベクトルの一例を示す図である。

【図22】図２２は、第１計算部および第２計算部の拡張例を説明するための図である。

【図23】図２３は、第３計算部のその他の処理を説明するための図である。

【図24】図２４は、本実施例にかかるその他のシステムの一例を示す図である。

【図25】図２５は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0011】

以下に、本願の開示する更新プログラム、更新方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例1】

【0012】

［参考技術］
本実施例１に係る学習装置の処理を行う前に、参考技術について説明する。この参考技術は、従来技術ではない。図１は、参考技術の一例を説明するための図である。図１に示すように、参考技術は、音声認識部５Ａと、ＮＮ（Neural Network）計算部６Ａとを有する。

【0013】

音声認識部５Ａは、音声データが入力されると、音響モデル５Ｂを基にして、音声データに含まれる文字列を抽出し、抽出した文字列が、キーワードリスト５Ｃに定義されたキーワードに対応するか否かを認識する。音声認識部５Ａは、認識結果を、ＮＮ計算部６Ａに出力する。

【0014】

ＮＮ計算部６Ａは、学習済みのＮＮモデル６Ｃに基づくＮＮ（図示略）に、音声認識部５Ａの認識結果を入力することで、音声データに特定の会話状況が含まれているか否かの出力値を算出する。ここで、特定の会話状況を適切に検出するためには、特定の会話状況に関するキーワードを網羅的にキーワードリスト５Ｃに設定し、かかるキーワードリスト５Ｃを用いて、ＮＮモデル６Ｃを学習することになる。しかし、特定の会話状況を検出できるようにするために、どれだけの数のキーワードを網羅すればよいかを、事前に把握することは難しい。また、異なるコールセンターに導入する際も、その都度、キーワードリスト５Ｃをコールセンター固有のものに調整を行うことが望ましく、特定の会話状況を精度よく検出するためには、このキーワード設定および調整に多大な工数を要する。

【0015】

［全体構成］
続いて、本実施例１に係る学習装置および判定装置の処理の一例について説明する。図２は、本実施例１に係る学習装置および判定装置の処理の一例を説明するための図である。図２に示すように、学習装置１００は、学習用音声データベース１１０ａと、生成部１２０と、第１計算部１３０と、第３計算部１４０と、第２計算部１５０と、学習部１６０とを有する。第１計算部１３０、第３計算部１４０、第２計算部１５０、学習部１６０は、学習処理部に対応する。

【0016】

学習用音声データベース１１０ａは、各会話データを分割すること等により生成される複数の学習用の音声データを格納し、各学習用の音声データは、正解情報１１０ｂにそれぞれ対応付けられる。正解情報１１０ｂは、音声データごとに付与された、特定の会話状況が含まれるか否かを示す情報である。本実施例１では一例として、特定の会話状況を、「異常な会話状況」とする。異常な会話状況とは、顧客が不満を感じたり、怒り出したり、脅迫したりするなど、「通常でない状況」を含むものである。

【0017】

生成部１２０は、学習用音声データベース１１０ａから学習用の音声データを取得する。以下の学習装置１００の説明において、学習用音声データベースから取得された学習用の音声データを、単に「音声データ」と表記する。生成部１２０は、音声データに対して、例えばベクトル量子化を行い、量子化結果の情報（量子化系列）を生成する。たとえば、量子化系列は、発声の偏りを示す指標の一例である。生成部１２０は、各量子化結果をOne Hotベクトル化し、各量子化結果のOne Hotベクトルを、第１計算部１３０に出力する。

【0018】

第１計算部１３０は、再帰パスを持つ第１ネットワークに、量子化結果のOne Hotベクトルを順に入力し、第１ネットワークのパラメータに基づく計算を行うことで、内部ベクトルを算出する処理部である。たとえば、第１ネットワークは、ＬＳＴＭ（Long Short Term Memory）に対応する。第１計算部１３０は、音声データから生成される量子化結果のOne Hotベクトルを第１ネットワークに入力し、入力して得られる各内部ベクトルを、第３計算部１４０に出力する。

【0019】

第３計算部１４０は、第１計算部１３０から出力される複数の内部ベクトルを平均化する処理部である。第３計算部１４０は、平均化した内部ベクトルを、第２計算部１５０に出力する。以下の説明では、平均化した内部ベクトルを「平均ベクトル」を表記する。

【0020】

第２計算部１５０は、再帰パスを持たない第２ネットワークに、平均ベクトルを入力し、第２ネットワークのパラメータに基づく計算を行うことで、出力値（ニューロン値）を算出する処理部である。第２計算部１５０は、出力値を、学習部１６０に出力する。

【0021】

学習部１６０は、音声データを第１計算部１３０に入力した際に、第２計算部１５０から出力される出力値が、音声データに対応する正解情報１１０ｂに近づくように、第１計算部１３０のパラメータ、第２計算部１５０のパラメータを学習（誤差逆伝播法による学習）する。

【0022】

学習部１６０は、学習停止条件を満たすまで、誤差逆伝播学習を繰り返し実行し、ＬＳＴＭモデル１１０ｃ、ＤＮＮ（Deep Neural Network）モデル１１０ｄを生成する。ＬＳＴＭモデル１１０ｃは、学習済みの第１ネットワークのパラメータに対応する情報である。ＤＮＮモデル１１０ｄは、学習済みの第２ネットワークのパラメータに対応する情報である。学習装置１００は、ＬＳＴＭモデル１１０ｃの情報およびＤＮＮモデル１１０ｄの情報を、判定装置２００に通知する。なお、学習部１６０は、ネットワークを介して、ＬＳＴＭモデル１１０ｃの情報およびＤＮＮモデル１１０ｄの情報を、判定装置２００に通知してもよいし、学習装置１００と、判定装置２００とを直接接続した上で、ＬＳＴＭモデル１１０ｃの情報およびＤＮＮモデル１１０ｄの情報を、判定装置２００に通知してもよい。

【0023】

判定装置２００は、生成部２２０と、第１計算部２３０と、第３計算部２４０と、第２計算部２５０と、判定部２６０とを有する。

【0024】

生成部２２０は、異常な会話状況であるか否かの検出対象となる音声データの入力を受け付ける。以下の判定装置２００の説明において、異常な会話状況であるか否かの検出対象となる音声データを、単に、音声データと表記する。生成部２２０は、音声データに対して、例えばベクトル量子化を行い、量子化結果の情報を生成する。生成部２２０は、各量子化結果をOne Hotベクトル化し、各量子化結果のOne Hotベクトルを、第１計算部２３０に出力する。

【0025】

第１計算部２３０は、再帰パスを持つ第１ネットワークに、各量子化結果のOne Hotベクトルを順に入力し、第１ネットワークのパラメータに基づく計算を行うことで、内部ベクトルを算出する処理部である。第１計算部２３０は、第１ネットワークに設定するパラメータとして、ＬＳＴＭモデル１１０ｃのパラメータを用いる。第１計算部２３０は、音声データから生成される量子化結果のOne Hotベクトルを第１ネットワークに入力し、入力して得られる各内部ベクトルを、第３計算部２４０に出力する。

【0026】

第３計算部２４０は、第１計算部１３０から出力される複数の内部ベクトルを平均化する処理部である。第３計算部１４０は、平均化した内部ベクトル（平均ベクトル）を、第２計算部２５０に出力する。

【0027】

第２計算部２５０は、再帰パスを持たない第２ネットワークに、平均ベクトルを入力し、第２ネットワークのパラメータに基づく計算を行うことで、出力値（ニューロン値）を算出する処理部である。第２計算部２５０は、第２ネットワークに設定するパラメータとして、ＤＮＮモデル１１０ｄのパラメータを用いる。第２計算部２５０は、出力値を、判定部２６０に出力する。

【0028】

判定部２６０は、第２計算部２５０から出力される出力値と、閾値とを比較して、音声データに、異常な会話状況が含まれているか否かを判定する処理部である。たとえば、判定部２６０は、出力値が閾値以上である場合に、音声データに異常な会話状況が含まれていると判定する。

【0029】

上記のように、本実施例１に係る学習装置１００は、学習用の音声データから抽出した量子化結果と、正解情報との組を用いて、ＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを機械学習する。このため、特定の会話状況を検出するためのキーワードを設定するための試行錯誤、熟練の知識、ノウハウを用いることなく、ＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを機械学習することができる。また、判定装置２００が、学習済みのＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを用いて、音声データに対する処理を行うことで、特定の会話状況が音声データに含まれているか否かを適切に判定することができる。

【0030】

［システム構成］
次に、本実施例１に係るシステムの一例について説明する。図３は、本実施例１に係るシステムの一例を示す図である。図３に示すように、このシステムは、顧客端末１０と、オペレータ端末１５と、通話録音装置３０と、管理者端末４０と、学習装置１００と、判定装置２００とを有する。

【0031】

顧客端末１０と、オペレータ端末１５とは、ＩＰ（Internet Protocol）網等のネットワーク１を介して相互に接続される。また、オペレータ端末１５、通話録音装置３０、管理者端末４０、学習装置１００、判定装置２００も所定のネットワークにより、相互に接続される。なお、各ネットワークには、有線や無線を問わず、インターネットや専用線などの各種通信網を採用することができる。

【0032】

顧客端末１０は、顧客がオペレータと会話（通話）するために利用する端末装置である。オペレータ端末１５は、オペレータが顧客と会話するために利用する端末装置である。

【0033】

通話録音装置３０は、顧客端末１０と、オペレータ端末１５との間で送受信される会話の音声を録音する装置である。学習時において、通話録音装置３０が録音した音声データは、学習装置１００に通知され、学習用の音声データとして用いられる。異常会話の検出時において、通話録音装置３０が録音した音声データは、判定装置２００に通知され、音声データに異常な会話状況が含まれるか否かが判定される。

【0034】

管理者端末４０は、オペレータ端末１５を用いて、顧客と会話するオペレータを管理する管理者が利用する端末装置である。たとえば、判定装置２００が、顧客とオペレータとの会話に、異常な会話状況が含まれると判定した場合に、判定装置により、異常な会話状況を検出した旨の情報が、管理者端末４０に通知される。

【0035】

学習装置１００は、学習用の音声データと正解情報とを用いて、ＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを学習する装置である。学習装置１００は、学習したＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄの情報を、判定装置２００に通知する。

【0036】

判定装置２００は、学習装置１００から通知されるＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを用いて、顧客端末１０と、オペレータ端末１５との会話に、異常な会話状況が含まれるか否かを判定する装置である。判定装置２００は、顧客とオペレータとの会話に、異常な会話状況が含まれると判定した場合、異常な会話状況を検出した旨の情報を、管理者端末４０に通知する。

【0037】

［学習装置の機能構成］
次に、図３に示した学習装置１００の構成の一例について説明する。図４は、本実施例１に係る学習装置の構成を示す機能ブロック図である。図４に示すように、この学習装置１００は、通信部１０１、入力部１０２、表示部１０３、記憶部１０４、制御部１０５を有する。

【0038】

通信部１０１は、通話録音装置３０、判定装置２００とデータ通信を実行する処理部である。後述する制御部１０５は、通信部１０１を介して、通話録音装置３０、判定装置２００とデータをやり取りする。通信部１０１は、通信装置の一例である。

【0039】

入力部１０２は、学習装置１００に各種の情報を入力するための入力装置である。入力部１０２は、キーボードやマウス、タッチパネル等に対応する。

【0040】

表示部１０３は、制御部１０５から出力される情報を表示する装置である。表示部１０３は、液晶ディスプレイやタッチパネル等に対応する。

【0041】

記憶部１０４は、学習用音声データベース１１０ａ、正解情報１１０ｂ、ＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを有する。記憶部１０４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0042】

学習用音声データベース１１０ａは、学習用の複数の音声データを格納するデータベースである。学習用音声データベース１１０ａに格納される各音声データは、顧客とオペレータとの会話の音声データである。

【0043】

正解情報１１０ｂは、学習用音声データベース１１０ａに格納された各音声データに対して付与された、異常な会話状況が含まれるか否かを示す情報である。

【0044】

ＬＳＴＭモデル１１０ｃは、第１ネットワーク（ＬＳＴＭ）のパラメータに対応する情報である。ＤＮＮモデル１１０ｄは、第２ネットワーク（ＤＮＮ）のパラメータに対応する情報である。ＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄは、学習部１６０により、機械学習される。

【0045】

制御部１０５は、取得部１０５ａ、通知部１０５ｂ、生成部１２０、第１計算部１３０、第３計算部１４０、第２計算部１５０、学習部１６０を有する。制御部１０５は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１０５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

【0046】

取得部１０５ａは、通話録音装置３０から、学習用音声データベース１１０ａの情報を取得する処理部である。取得部１０５ａは、学習用音声データベース１１０ａの情報を、記憶部１０４に格納する。また、取得部１０５ａは、正解情報１１０ｂを取得した場合には、取得した正解情報１１０ｂを、記憶部１０４に格納する。正解情報１１０ｂは、学習用音声データベース１１０ａの各音声データに予め対応付けられていてもよい。

【0047】

通知部１０５ｂは、学習済みのＬＳＴＭモデル１１０ｃおよび学習済みのＤＮＮモデル１１０ｄを、判定装置２００に通知する処理部である。

【0048】

生成部１２０は、学習用音声データベース１１０ａから学習用の音声データを取得し、音声データを基にして、量子化結果の情報を生成する処理部である。図５は、本実施例１に係る生成部を説明するための図である。図５に示すように、この生成部１２０は、音響処理部１２１と、量子化テーブル１２２と、ベクトル量子化部１２３と、ベクトル化部１２４とを有する。

【0049】

音響処理部１２１は、音声データから音声認識に用いる情報を抽出する処理部である。音声データから抽出される情報は、特徴量と呼ばれる。音響処理部１２１は、音声データに、３２ｍｓ程度のフレームと呼ばれる短区間を設定し、１０ｍｓ程度シフトさせながら特徴量を抽出する。たとえば、音響処理部１２１は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）を基にして、音声データから特徴量を抽出する。音響処理部１２１は、特徴量を、ベクトル量子化部１２３に出力する。

【0050】

量子化テーブル１２２は、音声データの量子化に用いるベクトルテーブルである。この量子化テーブル１２２は、発話データの特徴量の複数の代表点であって、量子化テーブル１２２の適応処理用の各音声データを用いて、量子化テーブル生成部１２５で事前に最適化される。

【0051】

（量子化テーブル１２２の生成）
ここで、量子化テーブル１２２の生成について説明する。図６は、量子化テーブル１２２を生成する量子化テーブル生成部１２５を説明する図である。図６に示すように、学習装置１００の生成部１２０の量子化テーブル生成部１２５は、量子化テーブル１２２の最適化を行う場合に、適応処理用の各音声データに音響解析を実行して、音響処理部１２１で特徴量を生成する。そして、量子化テーブル生成部１２５は、各音声データから生成された各特徴量と量子化テーブル１２２とを突合させて量子化結果を蓄積し、量子化誤差が最小になるように量子化テーブル１２２の更新を繰り返すことにより、量子化テーブル１２２を最適化する。

【0052】

図７は、量子化テーブル生成部１２５で行う量子化テーブル１２２の適応制御の全体的な流れを説明する図である。ここでは、２次元の特徴量としている。図７に示すように、量子化テーブル生成部１２５は、白色雑音などから量子化テーブル１２２の初期値を生成し、適応処理用の音声データの量子化を行い、量子化テーブル１２２の各ベクトルを選択した特徴量の平均を用いてベクトルを更新し、この更新を繰り返すことにより、量子化誤差を削減する。つまり、量子化テーブル生成部１２５は、音声データの物理的な特徴量の分布に合わせ、量子化誤差が最小になるように、量子化テーブル１２２の更新を繰り返す。

【0053】

次に、図８から図１２を用いて、量子化テーブル生成部１２５における量子化テーブル１２２の生成を詳細に説明する。図８は、量子化テーブル１２２の初期値を説明する図である。図８に示すように、量子化テーブル生成部１２５は、白色雑音などのように、周波数軸上のパワーの偏りが小さい音声データの特徴量の組から所定数（例えば２５６個）の量子化点を生成する。具体的には、量子化テーブル生成部１２５は、十分に長い白色雑音の特徴量の組を算出し、その結果から順番に選択することで量子化点ｖ_１（ｘ，ｙ）、ｖ_２（ｘ，ｙ）・・・ｖ_２５６（ｘ，ｙ）のそれぞれを生成し、それぞれに対して量子化番号１から量子化番号２５６を対応付ける。また、各量子化点は、ここでは大きさと向きを有するベクトルとする。したがって、各量子化点を、ｘｙ軸を有する２次元の特徴量空間上で表現すると、方向や大きさが異なる２５６個のベクトルで表現できる。

【0054】

続いて、量子化テーブル生成部１２５は、適応処理用音声データから特徴量を生成し、特徴量を示すベクトルと、各量子化番号に対応する量子化点との距離（例えばユークリッド距離など）を算出し、距離が最も近い量子化点を選択する。ここで、量子化テーブル生成部１２５は、初期の量子化テーブル１２２で最も選択されたベクトルを無音相当とみなして他の適応に用いず、無音に相当するベクトルが１本になるように適応する。また、量子化テーブル生成部１２５は、各特徴量の適応中に、各ベクトルを選択した特徴量の平均を用いてベクトルを更新する一方で、量子化で比較的選択されなかった（例えば下位１／４など）ベクトルは更新せずに棄却し、替わりのベクトルを作成して置き換える。このようにして、量子化テーブル生成部１２５は、無音以外に相当する各ベクトルの選択数に大きな偏りが無いように適応させる。

【0055】

図９は、量子化点の選択を説明する図である。図９に示すように、量子化テーブル生成部１２５は、一連の会話データに対して、窓関数の適用や高速フーリエ変換などを実行して、所定区間に分割した各音声データから各特徴量を生成する。続いて、量子化テーブル生成部１２５は、各特徴量について、量子化テーブル１２２の各量子化点との距離を算出し、最も距離が近い量子化点を選択する。このようにして、量子化テーブル生成部１２５は、各量子化点の選択回数を計数する。

【0056】

そして、量子化テーブル生成部１２５は、量子化点の更新を実行する。図１０は、量子化テーブル１２２の更新を説明する図であり、図１０には、初期の量子化テーブル１２２における各量子化点の選択結果と、当該量子化点を選択した音声データの特徴量とを図示している。

【0057】

具体的には、量子化テーブル生成部１２５は、選択回数が多い上位数個の量子化点と、選択回数が少ない下位数個の量子化点とを特定する。そして、量子化テーブル生成部１２５は、下位の量子化点を棄却（破棄）し、当該下位の量子化点の代わりに、上位の量子化点を挿入する。一方、量子化テーブル生成部１２５は、下位の量子化点以外の量子化点については、その量子化点を選択した音声の特徴量に基づき更新する。ただし、量子化テーブル生成部１２５は、無音相当の量子化点を入れ替え対象から除外する。

【0058】

例えば、量子化テーブル生成部１２５は、選択回数が最も多い量子化番号ｎの量子化点（ｖ_ｎ（ｘ，ｙ）を、無音に相当すると判定し、この量子化点を入れ替え対象から除外する。続いて、量子化テーブル生成部１２５は、選択回数が上位数個の量子化点として、量子化番号１、２などを特定するとともに、選択回数が下位数個の量子化点として、量子化番号３、２５６などを特定する。そして、量子化テーブル生成部１２５は、選択回数が少ない量子化番号３の量子化点（ｖ_３（ｘ，ｙ））を破棄して、選択回数が多い量子化番号１の量子化点（ｖ_１（ｘ，ｙ））を挿入し、同様に、選択回数が少ない量子化番号２５６の量子化点（ｖ_２５６（ｘ，ｙ））を破棄して、選択回数が多い量子化番号２の量子化点（ｖ_２（ｘ，ｙ））を挿入する。

【0059】

また、量子化テーブル生成部１２５は、選択回数が下位以外の量子化点については、その量子化点を選択した特徴量の平均値で更新する。例えば、量子化テーブル生成部１２５は、量子化番号２の量子化点（ｖ_２（ｘ，ｙ））について、［選択した特徴量の合計／選択回数］＝［（（ｘ´，ｙ´）＋（ｘ´´，ｙ´´）＋・・・）／２１］により、ｘ軸とｙ軸それぞれの平均値［ｖ_２´（ｘ，ｙ）］を算出する。そして、量子化テーブル生成部１２５は、量子化番号２の「ｖ_２（ｘ，ｙ）」を「ｖ_２´（ｘ，ｙ）」に更新する。このようにして、量子化テーブル生成部１２５は、選択回数が少ない下位数個の量子化点以外の量子化点について、量子化番号２と同様の手法により更新する。

【0060】

図１１は、量子化テーブルの更新前後を説明する図である。図１１に示すように、量子化テーブル生成部１２５は、量子化番号１の量子化点を「ｖ_１（ｘ，ｙ）」から「ｖ_１´（ｘ，ｙ）」に更新し、量子化番号２の量子化点を「ｖ_２（ｘ，ｙ）」から「ｖ_２´（ｘ，ｙ）」に更新し、無音相当の量子化番号ｎの量子化点を「ｖ_ｎ（ｘ，ｙ）」から「ｖ_ｎ´（ｘ，ｙ）」に更新する。一方、量子化テーブル生成部１２５は、選択回数が少ない量子化番号３の量子化点「ｖ_３（ｘ，ｙ）」を更新前の量子化番号１の量子化点「ｖ_１（ｘ，ｙ）」に更新し、量子化番号２５６の量子化点「ｖ_２５６（ｘ，ｙ）」を更新前の量子化番号２の量子化点「ｖ_２（ｘ，ｙ）」に更新する。

【0061】

このようにして、量子化テーブル生成部１２５は、一連の適応処理用会話データの各音声データを用いて、量子化テーブル１２２の更新を実行すると、量子化誤差を算出する。そして、量子化テーブル生成部１２５は、量子化誤差が閾値以上である場合、異なるまたは同じ適応処理用会話データを用いて、同様の更新処理を実行し、量子化誤差が閾値未満である場合、「効率的なテーブル」が生成できたと判定して、更新処理を終了し、その時点の量子化テーブル１２２を保存する。

【0062】

図１２は、量子化誤差による判定手法を説明する図である。図１２の例では、量子化番号１の量子化点「ｖ_１（ｘ，ｙ）」の選択回数が「Ｎ_１個」、量子化番号２の量子化点「ｖ_２（ｘ，ｙ）」の選択回数が「Ｎ_２個」、・・・、量子化番号２５６の量子化点「ｖ_２５６（ｘ，ｙ）」の選択回数が「Ｎ_２５６個」とする。このような状態において、量子化テーブル生成部１２５は、量子化番号１について量子化誤差「Ｍ_１」、量子化番号２について量子化誤差「Ｍ_２」、・・・、量子化番号２５６について量子化誤差「Ｍ_２５６」を算出する。

【0063】

例えば、量子化番号２を例にして説明すると、量子化テーブル生成部１２５は、量子化誤差「Ｍ_２」として、量子化点「ｖ_２（ｘ，ｙ）」と特徴量との差分の合計値である「（ｖ_２（ｘ，ｙ）－（ｘ´，ｙ´））^２＋（ｖ_２（ｘ，ｙ）－（ｘ´´，ｙ´´））^２＋・・・」を算出する。そして、量子化テーブル生成部１２５は、各量子化誤差の合計「Ｍ_ａｌｌ」として「Ｍ_ａｌｌ＝Ｍ_１＋Ｍ_２＋Ｍ_３＋・・・＋Ｍ_２５６」を算出する。ただし、無音相当の量子化番号ｎについては除外する。つまり、「Ｍ_ａｌｌ」は２５５個の合計値である。

【0064】

続いて、量子化テーブル生成部１２５は、量子化誤差「Ｍ_ａｌｌ´」として、各量子化誤差の合計「Ｍ_ａｌｌ」を、各量子化点の選択回数の合計で除算した「Ｍ_ａｌｌ／（Ｎ_１＋Ｎ_２＋Ｎ_３＋・・・＋Ｎ_２５６）」を算出する。ただし、無音相当の量子化番号ｎについては除外する。つまり、上記算出式の分母は２５５個の合計値である。

【0065】

そして、量子化テーブル生成部１２５は、量子化誤差「Ｍ_ａｌｌ´」が閾値以上である場合、量子化テーブル１２２の更新を継続し、量子化誤差「Ｍ_ａｌｌ´」が閾値未満である場合、量子化テーブル１２２の更新を終了する。このようにして、量子化テーブル生成部１２５は、量子化に用いるベクトルテーブルとして、量子化テーブル１２２を生成する。

【0066】

図５に戻り、ベクトル量子化部１２３は、量子化テーブル１２２と特徴量を照合し、各量子化点と対応している各量子化結果（例えば量子化番号に対応する）を基にして、特徴量に対応する量子化結果を出力する処理を、音響処理部１２１から特徴量を受け付ける度に、実行する処理部である。ベクトル量子化部１２３は、各特徴量に対応する量子化結果を時系列に並べた量子化系列の情報を、ベクトル化部１２４に出力する。

【0067】

ベクトル化部１２４は、量子化系列に含まれる各量子化結果をベクトルに変換する処理部である。ベクトル化部は、量子化系列の各量子化結果に対応する各ベクトルを、第１計算部１３０に出力する。たとえば、ベクトル化部１２４は、各量子化結果を、４０次元のOne Hotベクトルで表す。入力された量子化結果のOne Hotベクトルは、入力された量子化結果の次元に「１」が設定され、他の次元に「０」が設定される。

【0068】

図１３は、本実施例１に係るベクトル化部の処理を説明するための図である。たとえば、ベクトル化部１２４は、量子化結果１、量子化結果２、・・・、量子化結果２５６が順に入力された場合には、One HotベクトルＶ_１、Ｖ_２、・・・、Ｖ_ｍを生成する。One HotベクトルＶ_１は、量子化結果２に対応する次元に「１」が設定され、他の次元には「０」が設定される。One HotベクトルＶ_２は、量子化結果２５６に対応する次元に「１」が設定され、他の次元には「０」が設定される。One HotベクトルＶ_ｍは、量子化結果４に対応する次元に「１」が設定され、他の次元には「０」が設定される。

【0069】

図４の説明に戻る。第１計算部１３０は、再帰パスをもつ第１ネットワークに、各量子化結果のOne Hotベクトルを順に入力し、第１ネットワークのパラメータに基づく計算を行うことで、内部ベクトルを算出する処理部である。

【0070】

第１計算部１３０は、第１ネットワークとしてＬＳＴＭを用いる。図１４は、本実施例１に係るＬＳＴＭの一例を示す図である。ＬＳＴＭ１３５は、１個につき、重み行列とバイアスとの組を３組もつ（１層のフォードフォワード型ニューラルネットワークが３つ接続されたものに対応する）。かかる重み行列の値と、バイアスの値が、ＬＳＴＭ１３５の学習対象のパラメータとなる。

【0071】

ＬＳＴＭ１３５は、σ１，σ２，σ３と、スイッチ２ａ，２ｂ，２ｃと、加算部２ｄと、ｔａｎｈ１と、ｔａｎｈ２とを有する。σ１～σ３は、入力されたベクトルと、重み行列とを乗算することで、アフィン変換を行い、アフィン変換したベクトルを出力する処理部である。スイッチ２ａ～２ｃは、入力されたベクトルの各次元の値に応じて、ゲートを通過するベクトルの次元毎にＯＮ／ＯＦＦを制御する処理部である。たとえば、スイッチ２ａ～２ｃは、シグモイド関数等を基にして、ＯＮ／ＯＦＦを制御する。加算部２ｄは、２方向から入力されたベクトルを次元毎に加算した値を出力する処理部である。ｔａｎｈ１、ｔａｎｈ２は、入力されたベクトルに対して、ｔａｎｈ関数に基づく計算を行い、計算結果を出力する処理部である。

【0072】

図１４において、「Ｘ_ｔ」は、時刻ｔの量子化結果のOne Hotベクトルを示す。便宜上、時刻ｔ-１において、量子化結果のOne Hotベクトル「Ｘ_ｔ-１」を入力した時点のＬＳＴＭ１３５をＬＳＴＭ１３５_ｔ-１と表記する。時刻ｔにおいて、量子化結果のOne Hotベクトル「Ｘ_ｔ」を入力した時点のＬＳＴＭ１３５をＬＳＴＭ１３５_ｔと表記する。時刻ｔ＋１において、量子化結果のOne Hotベクトル「Ｘ_ｔ＋１」を入力した時点のＬＳＴＭ１３５をＬＳＴＭ１３５_ｔ＋１と表記する。

【0073】

一例として、ＬＳＴＭ１３５_ｔを用いて説明を行う。「Ｘ_ｔ」が入力されると、ＬＳＴＭ１３５_ｔ-１から入力されたｈ_ｔ-１と、Ｘ_ｔとを加算したベクトルが、σ１，σ２，σ３と、ｔａｎｈ１に入力される。ｈ_ｔ-１は_、時刻ｔ-１において、ＬＳＴＭ１３５に算出される内部ベクトルである。

【0074】

スイッチ２ａは、σ１から出力されるベクトルを基にして、Ｓ_ｔ-１が通過するゲートのＯＮ／ＯＦＦを制御する。スイッチ２ｂは、σ２から出力されるベクトルを基にして、ｔａｎｈ１から出力されるベクトルが通過するゲートのＯＮ／ＯＦＦを制御する。スイッチ２ｃは、σ３から出力されるベクトルを基にして、加算部２ｄから出力されるベクトルＳ_ｔが通過するゲートのＯＮ／ＯＦＦを制御する。スイッチ２ｃから出力されるベクトルが、時刻ｔにおける内部ベクトルｈ_ｔとなる。内部ベクトルｈ_ｔは、ＬＳＴＭ１３５_ｔ＋１に入力される。

【0075】

加算部２ｄは、スイッチ２ａから出力されるベクトルと、スイッチ２ｂから出力されるベクトルとを加算したベクトルＳ_ｔを算出する処理部である。ベクトルＳ_ｔは、ＬＳＴＭ１３５_ｔに入力されると共に、ｔａｎｈ２に入力される。

【0076】

第１計算部１３０は、図１４に説明したＬＳＴＭ１３５に、量子化系列に含まれる全量子化結果のOne Hotベクトルをそれぞれ順に入力することで、複数の内部ベクトルｈを算出する。第１計算部１３０は、複数の内部ベクトルｈを、第３計算部１４０に出力する。

【0077】

第３計算部１４０は、第１計算部１３０から出力される複数の内部ベクトルｈを平均化する処理部である。第３計算部１４０は、平均化した内部ベクトル（平均ベクトル）を、第２計算部１５０に出力する。

【0078】

第２計算部１５０は、再帰パスを持たない第２ネットワークに、平均ベクトルを入力し、第２ネットワークのパラメータに基づく計算を行うことで、出力値（ニューロン値）を算出する処理部である。

【0079】

たとえば、第２ネットワークは、フィードフォワード型のニューラルネットワークである。図１５は、本実施例１に係るニューラルネットワークの一例を説明するための図である。図１５に示すように、このニューラルネットワーク１５５は、入力層２０ａ、隠れ層２０ｂ、出力層２０ｃを持つ。入力層２０ａ、隠れ層２０ｂ、出力層２０ｃは、複数のノードがエッジで結ばれる構造となっている。隠れ層２０ｂ、出力層２０ｃは、活性化関数と呼ばれる関数とバイアス値とを持ち、エッジは、重みを持つ。かかるバイアス値、重みが、第２ネットワークの学習対象となるパラメータとなる。

【0080】

入力層２０ａに含まれる各ノードに、平均ベクトルを入力すると、隠れ層２０ｂを通って、出力層２０ｃの各ノードから、会話が異常な会話状況である確率「Ｏｔ」と、会話が通常の会話状況である確率「Ｏｎ」とが出力される。たとえば、出力層２０ｃは、softmaxにより確率化され、「Ｏｔ」の出力値と「Ｏｎ」の出力値との和が「１．０」になる。

【0081】

図４の説明に戻る。学習部１６０は、音声データから生成された各量子化結果のOne Hotベクトルを第１計算部１３０に入力した際に、第３計算部１４０を介して、第２計算部１５０から出力される出力値が、音声データに対応する正解情報１１０ｂに近づくように、第１計算部１３０のパラメータ、第２計算部１５０のパラメータを学習する処理部である。

【0082】

たとえば、学習部１６０は、正解情報「異常な会話状態」に対応する音声データから生成される各量子化結果のOne Hotベクトルを第１計算部１３０に入力する場合、確率「Ｏｔ」が「１」に近づき、確率「Ｏｎ」が「０」に近づくように、パラメータを学習する。学習部１６０は、正解情報「正常な会話状態」に対応する音声データから生成される各量子化結果のOne Hotベクトルを第１計算部１３０に入力する場合、確率「Ｏｔ」が「０」に近づき、確率「Ｏｎ」が「１」に近づくように、パラメータを学習する。

【0083】

学習部１６０は、Ｏｔから出力される値と正解の値との差分、および、Ｏｎから出力される値と正解の値との差分を含む損失関数として、たとえば、Cross Entropyを用いる。学習部１６０は、損失関数の誤差を逆伝播することで、損失関数の値が最小値となるように、パラメータの学習を繰り返し実行する。学習部１６０は、学習停止条件を設定し、学習停止条件を満たす場合に、学習を終了する。たとえば、学習停止条件は、損失関数の値が閾値未満となる等の条件である。

【0084】

学習部１６０は、ＬＳＴＭ１３５のパラメータの学習結果の情報を、ＬＳＴＭモデル１１０ｃとして、記憶部１０４に格納する。学習部１６０は、ニューラルネットワーク１５５のパラメータの学習結果の情報を、ＤＮＮモデル１１０ｄとして、記憶部１０４に格納する。

【0085】

［判定装置の機能構成］
次に、図３に示した判定装置２００の構成の一例について説明する。図１６は、本実施例１に係る判定装置の構成を示す機能ブロック図である。図１６に示すように、判定装置２００は、通信部２０１、入力部２０２、表示部２０３、記憶部２０４、制御部２０５を有する。図示を省略するが、判定装置２００は、音声データを取得するためのマイクに接続されていてもよい。

【0086】

通信部２０１は、通話録音装置３０、学習装置１００とデータ通信を実行する処理部である。後述する制御部２０５は、通信部２０１を介して、通話録音装置３０、学習装置１００とデータをやり取りする。通信部２０１は、通信装置の一例である。

【0087】

入力部２０２は、判定装置２００に各種の情報を入力するための入力装置である。入力部２０２は、キーボードやマウス、タッチパネル等に対応する。

【0088】

表示部２０３は、制御部２０５から出力される情報を表示する装置である。表示部２０３は、液晶ディスプレイやタッチパネル等に対応する。

【0089】

記憶部２０４は、音声データ２０４ａ、ＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを有する。記憶部２０４は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

【0090】

音声データ２０４ａは、通話録音装置３０によって録音された顧客とオペレータとの会話の音声データであって、異常な会話状況の検出対象となる音声データである。

【0091】

ＬＳＴＭモデル１１０ｃは、学習装置１００によって学習された、第１ネットワーク（ＬＳＴＭ１３５）のパラメータに対応する情報である。

【0092】

ＤＮＮモデル１１０ｄは、学習装置１００によって学習された、第２ネットワーク（ニューラルネットワーク１５５）のパラメータに対応する情報である。

【0093】

制御部２０５は、取得部２０５ａ、通知部２０５ｂ、生成部２２０、第１計算部２３０、第３計算部２４０、第２計算部２５０、判定部２６０を有する。制御部２０５は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２０５は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

【0094】

取得部２０５ａは、通話録音装置３０から、音声データ２０４ａを取得する処理部である。取得部２０５ａは、音声データ２０４ａを記憶部２０４に格納する。また、取得部２０５ａは、学習装置１００から、学習済みのＬＳＴＭモデル１１０ｃの情報、および、ＤＮＮモデル１１０ｄの情報を取得する。取得部２０５ａは、ＬＳＴＭモデル１１０ｃの情報、および、ＤＮＮモデル１１０ｄの情報を、記憶部２０４に格納する。

【0095】

通知部２０５ｂは、後述する判定部２６０から判定結果を取得する。通知部２０５ｂは、判定部２６０によって、音声データ２０４ａに異常な会話状況が含まれていると判定された場合に、異常な会話が含まれる旨の情報を、管理者端末４０に通知する。

【0096】

生成部２２０は、音声データ２０４ａを取得し、音声データ２０４ａを基にして、量子化系列の情報を生成する処理部である。生成部２２０は、学習装置１００の生成部１２０と同様にして、音声データ２０４ａから量子化系列を生成し、各量子化結果のOne Hotベクトルを生成する。生成部２２０は、各量子化結果のOne Hotベクトルを、第１計算部２３０に出力する。

【0097】

第１計算部２３０は、再帰パスをもつ第１ネットワークに、各量子化結果の各量子化結果のOne Hotベクトルを順に入力し、第１ネットワークのパラメータに基づく計算を行うことで、内部ベクトルを算出する処理部である。第１計算部２３０が用いる第１ネットワークは、図１４で説明したＬＳＴＭ１３５に対応するものである。第１計算部２３０は、ＬＳＴＭ１３５のパラメータに、ＬＳＴＭモデル１１０ｃのパラメータを設定し、内部ベクトルを計算する。第１計算部２３０は、各量子化結果のOne Hotベクトルから算出される内部ベクトルｈを、第２計算部２５０に出力する。

【0098】

第３計算部２４０は、第１計算部２３０から出力される複数の内部ベクトルｈを平均化する処理部である。第３計算部２４０は、平均化した内部ベクトル（平均ベクトル）を、第２計算部２５０に出力する。

【0099】

第２計算部２５０は、再帰パスを持たない第２ネットワークに、平均ベクトルを入力し、第２ネットワークのパラメータに基づく計算を行うことで、出力値（ニューロン値）を算出する処理部である。第２計算部２５０が用いる第２ネットワークは、図１５で説明したニューラルネットワーク１５５に対応するものである。第２計算部２５０は、ニューラルネットワーク１５５のパラメータに、ＤＮＮモデル１１０ｄのパラメータを設定し、会話が異常な会話状況である確率「Ｏｔ」と、会話が通常の会話状況である確率「Ｏｎ」とを計算する。第２計算部２５０は、確率「Ｏｔ」の情報を、判定部２６０に出力する。

【0100】

判定部２６０は、異常な会話状況である確率「Ｏｔ」を基にして、音声データ２０４ａに異常な会話状況が含まれているか否かを判定する処理部である。たとえば、判定部２６０は、確率Ｏｔが、予め設定される閾値以上となる場合に、音声データ２０４ａに異常な会話状況が含まれていると判定する。判定部２６０は、判定結果を、通知部２０５ｂに出力する。この例では、異常な会話状況である確率「Ｏｔ」を基にして判定しているが、「Ｏｔ」と正常な会話状況である確率「Ｏｎ」の確率との差または比率を判定に用いる値として用いてもよい。

【0101】

［量子化テーブルの生成処理の流れ］
図１７は、本実施例１にかかる量子化テーブル１２２の生成処理の流れを示すフローチャートである。図１７に示すように、生成部１２０は、処理開始が指示されると（Ｓ１：Ｙｅｓ）、量子化テーブル１２２の初期化を実行する（Ｓ２）。

【0102】

続いて、生成部１２０は、適応処理用会話データを取得し（Ｓ３）、音声データに分割する（Ｓ４）。そして、生成部１２０は、１つの音声データを取得し（Ｓ５）、音声データの特徴量を算出する（Ｓ６）。

【0103】

その後、生成部１２０は、ベクトル量子化により選択を実行し（Ｓ７）、選択結果を蓄積する（Ｓ８）。すなわち、生成部１２０は、量子化テーブル１２２の各量子化点と、音声データの特徴量との距離を算出し、当該距離が一番短い量子化点を選択する。

【0104】

ここで、生成部１２０は、未処理の音声データが存在する場合（Ｓ９：Ｙｅｓ）、次の音声データについてＳ５以降を繰り返す。一方、生成部１２０は、未処理の音声データが存在しない場合（Ｓ９：Ｎｏ）、量子化テーブル１２２の選択結果に基づき、無音に相当する量子化点（量子化結果）を特定する（Ｓ１０）。なお、無音がすでに特定済みの場合、Ｓ１０は省略される。

【0105】

続いて、生成部１２０は、選択回数が多い量子化点と選択回数が少ない量子化点を特定し（Ｓ１１）、量子化テーブル１２２を更新する（Ｓ１２）。すなわち、生成部１２０は、選択回数が少ない量子化点を、無音に相当する量子化点以外で選択回数が多い更新前の量子化点に変更し、その他の量子化点を特徴量の平均に更新する。

【0106】

その後、生成部１２０は、量子化誤差を算出し（Ｓ１３）、量子化誤差が閾値以上の場合（Ｓ１４：Ｙｅｓ）、異なるまたは同じ会話データに対してＳ３以降を繰り返す。一方、生成部１２０は、量子化誤差が閾値未満の場合（Ｓ１４：Ｎｏ）、処理を終了し、量子化テーブル１２２を出力する（Ｓ１５）。

【0107】

［学習処理の流れ］
次に、本実施例１に係る学習装置１００の処理手順の一例について説明する。図１８は、本実施例１に係る学習装置の処理手順を示すフローチャートである。図１８に示すように、学習装置１００の生成部１２０は、学習用の音声データを取得して、ベクトル量子化を行う（ステップＳ１０１）。生成部１２０は、量子化結果をOne hotベクトル化する（ステップＳ１０２）。生成部１２０は、One hotベクトルを蓄積する（ステップＳ１０３）。

【0108】

生成部１２０は、学習データ数（One hotベクトルの数）が、モデル学習可能な基準を超えていない場合には（ステップＳ１０４，Ｎｏ）、ステップＳ１０１に移行する。一方、生成部１２０は、学習データ数が、モデル学習可能な基準を超えた場合には（ステップＳ１０４，Ｙｅｓ）、ステップＳ１０５に移行する。

【0109】

学習装置１００の第１計算部１３０は、One hotベクトルをＬＳＴＭ１３５に入力し、内部ベクトルを算出し、蓄積する（ステップＳ１０５）。第１計算部１３０は、全One hotベクトル系列を入力していない場合には（ステップＳ１０６，Ｎｏ）、ステップＳ１０５に移行する。一方、第１計算部１３０は、全One hotベクトル系列を入力した場合には（ステップＳ１０６，Ｙｅｓ）、ステップＳ１０７に移行する。学習装置１００の第３計算部１４０は、内部ベクトルを平均化する（ステップＳ１０７）。

【0110】

学習装置１００の第２計算部１５０は、平均化した内部ベクトルをニューラルネットワーク１５５に入力し、出力値を算出する（ステップＳ１０８）。学習装置１００の学習部１６０は、正解情報１１０ｂを用いてＬＳＴＭ１３５およびニューラルネットワーク１５５のパラメータを誤差逆伝播法によって学習する（ステップＳ１０９）。

【0111】

学習部１６０は、全学習データについて学習を行っていない場合には（ステップＳ１１０，Ｎｏ）、ステップＳ１０５に移行する。学習部１６０は、全学習データについて学習を行った場合には（ステップＳ１１０，Ｙｅｓ）、ステップＳ１１１に移行する。

【0112】

学習部１６０は、学習停止条件を満たしていない場合には（ステップＳ１１１，Ｎｏ）、学習データの順番をランダムに入れ替えた後に、ステップＳ１０５に移行する。学習部１６０は、学習停止条件を満たした場合には（ステップＳ１１１，Ｙｅｓ）、ステップＳ１１２に移行する。学習部１６０は、学習済みのＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを、記憶部１０４に格納する（ステップＳ１１２）。

【0113】

［判定処理の流れ］
次に、本実施例１に係る判定装置２００の処理手順の一例について説明する。図１９は、本実施例１に係る判定装置の処理手順を示すフローチャートである。図１９に示すように、判定装置２００の生成部２２０は、ベクトル量子化を行い（ステップＳ２０１）、量子化結果をOne hotベクトル化する（ステップＳ２０２）。生成部２２０は、One hotベクトルを蓄積する（ステップＳ２０３）。生成部２２０は、全量子化結果をOne hotベクトル化していない場合には（ステップＳ２０４，Ｎｏ）、ステップＳ２０２に移行する。一方、生成部２２０は、全量子化結果をOne hotベクトル化した場合には（ステップＳ２０４，Ｙｅｓ）、ステップＳ２０５に移行する。

【0114】

判定装置２００の第１計算部２３０は、One hotベクトルをＬＳＴＭ１３５に入力し、内部ベクトルを算出し、蓄積する（ステップＳ２０５）。なお、第１計算部２３０は、学習済みのＬＳＴＭモデル１１０ｃに基づくＬＳＴＭ１３５を用いて内部ベクトルを算出する。第１計算部２３０は、全One hotベクトル系列を入力していない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０５に移行する。第１計算部２３０は、全One hotベクトル系列を入力した場合には（ステップＳ２０６，Ｙｅｓ）、ステップＳ２０７に移行する。

【0115】

判定装置２００の第３計算部２４０は、内部ベクトルを平均化する（ステップＳ２０７）。判定装置２００の第２計算部２５０は、平均化した内部ベクトルをニューラルネットワーク１５５に入力し、出力値「Ｏｔ」を算出する（ステップＳ２０８）。なお、第２計算部２５０は、学習済みのＤＮＮモデル１１０ｄに基づくニューラルネットワーク１５５を用いて、出力値を算出する。「Ｏｔ」は、会話が異常な会話状況である確率を示すものである。

【0116】

判定装置２００の判定部２６０は、出力値Ｏｔが閾値以上であるか否かを判定する（ステップＳ２０９）。判定部２６０は、出力値Ｏｔが閾値以上である場合には（ステップＳ２０９，Ｙｅｓ）、音声データ２０４ａに異常な会話状況が含まれていると判定する（ステップＳ２１０）。判定装置２００の通知部２０５ｂは、異常な会話状況が含まれている旨を管理者端末４０に通知する（ステップＳ２１１）。

【0117】

一方、判定部２６０は、出力値Ｏｔが閾値未満である場合には（ステップＳ２０９，Ｎｏ）、通常会話であると判定する（ステップＳ２１２）。

【0118】

［効果］
次に、本実施例１に係る学習装置１００の効果について説明する。学習装置１００は、学習用の音声データから抽出した量子化系列と、正解情報との組を用いて、ＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを機械学習する。このため、特定の会話状況を検出するためのキーワードを設定するための試行錯誤、熟練の知識、ノウハウを用いることなく、ＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを機械学習することができる。また、判定装置２００が、学習済みのＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを用いて、音声データに対する処理を行うことで、特定の会話状況が音声データに含まれているか否かを適切に判定することができる。

【0119】

図２０は、異常な会話状況が含まれる音声データの内部ベクトルの一例を示す図である。図２０のグラフ３Ａの縦軸は内部ベクトルの値を示し、横軸は内部ベクトルの次元を示す。線分３ａは、異常な会話状況が含まれる第１通話の音声データの内部ベクトルを示す。線分３ｂは、異常な会話状況が含まれる第２通話の音声データの内部ベクトルを示す。異常な会話状況が含まれる。図２０に示すように、異常状態の通話では、別通話であっても、内部ベクトルの形状は同じような形状となる。

【0120】

図２１は、正常な会話の音声データの内部ベクトルの一例を示す図である。図２１のグラフ３Ｂの縦軸は内部ベクトルの値を示し、横軸は内部ベクトルの次元を示す。線分３ｃは、正常な第３通話の音声データの内部ベクトルを示す。線分３ｄは、正常な第４通話の音声データの内部ベクトルを示す。正常な通話では、別通話であっても、内部ベクトルの形状は、同じような形状となる。

【0121】

図２０に示した異常な会話状況の音声データのベクトル形状と、図２１に示した通常の通話の音声データのベクトル形状とを比較すると、各ベクトル形状は大きく異なる。このため、内部ベクトルを用いることで、キーワードを設定することなく、異常な会話状況を含むか否かを判定でき、このためのＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを適切に学習することができる。

【0122】

また、学習装置１００は、人間の聴覚特性を参考に、音声の物理的な特徴量（パワースペクトルなど）を量子化し、その結果を基にして、会話状況の分析に用いる発声の偏りを検出する。また、学習装置１００は、自動調整により、無音相当を除く量子化点毎の選択数に大きな偏りがない「効率的な量子化テーブル」を生成することができる。

【0123】

例えば、言語依存情報の音素のモデルなどを用いた音響モデルも考えられるが、当該音響モデルは、言語ごとに生成する必要があり、膨大な時間とコストがかかる。一方、学習装置１００は、「効率的な量子化テーブル」を用いた発声の偏りの検出により、高コストの言語依存情報のモデル生成を行うことなく、会話状況の分析を実行することができる。

【実施例2】

【0124】

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

【0125】

［拡張例］
第１計算部および第２計算部の拡張例について説明する。図２２は、第１計算部および第２計算部の拡張例を説明するための図である。ここでは一例として、第１計算部１３０および第１５０を用いて説明する。

【0126】

第１計算部１３０は、第１ネットワークであるＬＳＴＭを多段にして、上段へのＬＳＴＭの内部ベクトルｄを異常／通常の２次元のベクトルにする。なお、内部ベクトルｃは、図１４で説明した内部ベクトルｈに対応するものである。たとえば、内部ベクトルｃは、１２８次元のベクトルである。内部ベクトルｄは、第３計算部１４０（図示略）を通過して、第２計算部１５０に入力される。

【0127】

第２計算部１５０は、第２ネットワークを実行しないで、内部ベクトルｄに対するSoftmax計算のみを実行し、異常な会話状況である確率と、通常の会話である確率を算出する。第２計算部１５０の必須構成要素は、Softmax計算を行う処理部であり、内部ベクトルｄから異常／通常それぞれの確からしさである確率を求めることであるため、第１計算部１３０、第２計算部１５０を図２２のように拡張することが可能である。

【0128】

第３計算部のその他の処理について説明する。図２３は、第３計算部のその他の処理を説明するための図である。ここでは一例として、第１計算部１３０、第２計算部１５０、第３計算部１４０を用いて説明する。

【0129】

第３計算部１４０は、入力量子化結果ごとに第１計算部１３０から出力される内部ベクトルｃ１～ｃＮに対し、先頭から「ａ１、ａ２、・・・、ａＮ」という重みパラメータを設ける。かかる重みは、時間方向のパラメータである。たとえば、第３計算部１４０から、第２計算部１５０に出力されるベクトルは「ａ１・ｃ１＋ａ２・ｃ２＋・・・＋ａＮ・ｃＮ」となる。学習部１６０は、ＬＳＴＭモデル１１０ｃおよびＤＮＮモデル１１０ｄを学習する際に、第３計算部１４０の重みパラメータも合わせて学習を行う。このような処理を行うことで、平均ベクトルを生成する場合の時間方向についての重みを最適化することができる。

【0130】

［適用例］
図２４は、本実施例にかかるその他のシステムの一例を示す図である。図２４では一例として、学習装置１００と、判定装置２００とをもちいて説明を行う。

【0131】

学習装置１００は、窓口対応時の会話の学習データ１８０を基にして、ＬＳＴＭモデル１８０Ａ、ＤＮＮモデル１８０Ｂを学習する。学習データ１８０には、過去に行われた窓口対応時の会話を録音した会話音声録音ファイルと、トラブルが発生したか否かの正解情報を有する。窓口対応の会話は、マイク４５を用いて録音される。

【0132】

判定装置２００は、窓口の音声を取得し、ＬＳＴＭモデル１８０Ａ、ＤＮＮモデル１８０Ｂを用いて、トラブル発生の確からしさの情報２９０を算出する。判定装置２００は、トラブル発生の確からしさの情報２９０を、管理者端末４０に通知する。管理者担当者４１は、トラブル発生の確からしさの情報２９０を参照し、対応支援を行う。

【0133】

図２４に示したシステムを構築することで、窓口対応におけるトラブル発声を検出して、対応支援を行うことが可能となる。

【0134】

［数値等］
上記実施例で用いた数値例、閾値等は、あくまで一例であり、任意に変更することができる。また、本実施例では、特定の会話状況を「異常な会話状況」として説明したが、特定の会話状況は、異常な会話状況に限定されるものではない。たとえば、特定の会話状況は、会議が停滞している会話状況、トラブルが発生している会話状況、顧客にとって好ましい会話状況などであってもよい。また、量子化点についても２次元のベクトルに限らず、多次元のベクトルを用いることができる。

【0135】

［初期化］
上記実施例では、白色雑音を用いて量子化テーブル１２２の初期値を生成する例を説明したが、これに限定されるものではない。例えば、いわゆるピンクノイズや、予め用意した疑似音声などを用いることもできる。また、白色雑音やピンクノイズの特徴量からではなく、これらの雑音を用いて量子化テーブルの初期値を直接生成することもできる。

【0136】

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、リアルタイム処理部３３は、生成部に対応し、カウント部３２は、格納制御部に対応し、要求処理部３４は、取得部と生成部に対応する。

【0137】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、学習装置１００の制御部１０５は、判定装置２００の制御部２０５と同様の機能を持ち、ＬＳＴＭモデル１１０ｃ、ＤＮＮモデル１１０ｄを学習すると共に、音声データに特定の会話状況が含まれているか否かを判定してもよい。

【0138】

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0139】

［ハードウェア］
次に、学習装置１００と判定装置２００のハードウェア構成例を説明する。なお、学習装置１００と判定装置２００は、同様のハードウェア構成を有するので、ここでは、情報処理装置５００として説明する。図２５は、ハードウェア構成例を説明する図である。図２５に示すように、情報処理装置５００は、通信装置５００ａ、ＨＤＤ（Hard Disk Drive）５００ｂ、メモリ５００ｃ、プロセッサ５００ｄを有する。また、図２５に示した各部は、バス等で相互に接続される。

【0140】

通信装置５００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ５００ｂは、図４や図１６に示した機能を動作させるプログラムやＤＢを記憶する。

【0141】

プロセッサ５００ｄは、図４や図１６に示した各処理部と同様の処理を実行するプログラムをＨＤＤ５００ｂ等から読み出してメモリ５００ｃに展開することで、図４や図１６等で説明した各機能を実行するプロセスを動作させる。例えば、学習装置１００を例にして説明すると、このプロセスは、学習装置１００が有する各処理部と同様の機能を実行する。具体的には、プロセッサ５００ｄは、取得部１０５ａ、通知部１０５ｂ、生成部１２０、第１計算部１３０、第３計算部１４０、第２計算部１５０、学習部１６０等と同様の機能を有するプログラムをＨＤＤ５００ｂ等から読み出す。そして、プロセッサ５００ｄは、取得部１０５ａ、通知部１０５ｂ、生成部１２０、第１計算部１３０、第３計算部１４０、第２計算部１５０、学習部１６０等と同様の処理を実行するプロセスを実行する。

【0142】

このように、情報処理装置５００は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。また、情報処理装置５００は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置５００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

【符号の説明】

【0143】

１０顧客端末
１５オペレータ端末
３０通話録音装置
４０管理者端末
１００学習装置
２００判定装置
１０１，２０１通信部
１０２，２０２入力部
１０３，２０３表示部
１０４，２０４記憶部
１０５，２０５制御部
１０５ａ，２０５ａ取得部
１０５ｂ，２０５ｂ通知部
１１０ａ学習用音声データベース
１１０ｂ正解情報
１１０ｃＬＳＴＭモデル
１１０ｄＤＮＮモデル
１２０，２２０生成部
１３０，２３０第１計算部
１４０，２４０第３計算部
１５０，２５０第２計算部
１６０学習部
２６０判定部

【図1】