特許第6859283号(P6859283)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6859283好感度推定装置、好感度推定方法、プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6859283
(24)【登録日】2021年3月29日
(45)【発行日】2021年4月14日
(54)【発明の名称】好感度推定装置、好感度推定方法、プログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20210405BHJP
   G10L 25/63 20130101ALI20210405BHJP
【FI】
   G10L15/10 500Z
   G10L15/10 500N
   G10L25/63
【請求項の数】23
【全頁数】35
(21)【出願番号】特願2018-28932(P2018-28932)
(22)【出願日】2018年2月21日
(65)【公開番号】特開2019-101399(P2019-101399A)
(43)【公開日】2019年6月24日
【審査請求日】2020年2月19日
(31)【優先権主張番号】特願2017-229980(P2017-229980)
(32)【優先日】2017年11月30日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】神山 歩相名
(72)【発明者】
【氏名】安藤 厚志
(72)【発明者】
【氏名】小橋川 哲
【審査官】 渡部 幸和
(56)【参考文献】
【文献】 特開2003−140688(JP,A)
【文献】 特開2016−208124(JP,A)
【文献】 国際公開第2014/069121(WO,A1)
【文献】 国際公開第2017/085992(WO,A1)
【文献】 特開2001−209779(JP,A)
【文献】 特開2017−181596(JP,A)
【文献】 高村大也 他,スピンモデルによる単語の感情極性抽出,情報処理学会論文誌,日本,社団法人情報処理学会,2006年 2月,Vol. 47, No. 2,pp. 627-637
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−25/93
(57)【特許請求の範囲】
【請求項1】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声に現れる有声休止の頻度である
好感度推定装置。
【請求項2】
請求項1に記載の好感度推定装置であって、
前記関連性は、有声休止の頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられる
ことを特徴とする好感度推定装置。
【請求項3】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声に現れる話者による相槌の頻度である
好感度推定装置。
【請求項4】
請求項3に記載の好感度推定装置であって、
前記関連性は、発話音声に現れる話者による相槌の頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられる
ことを特徴とする好感度推定装置。
【請求項5】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声に現れる敬語を修正した回数である
好感度推定装置。
【請求項6】
請求項5に記載の好感度推定装置であって、
前記関連性は、発話音声に現れる敬語を修正した回数が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられる
ことを特徴とする好感度推定装置。
【請求項7】
請求項1または2に記載の好感度推定装置であって、
前記有声休止は、発話音声の語尾に現れるものである
ことを特徴とする好感度推定装置。
【請求項8】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声に現れるキーワードの頻度であり、
前記関連性は、
キーワードが謝罪または恐縮を表す言葉である場合は、発話音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが言い淀みを表す言葉である場合は、発話音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられる
好感度推定装置。
【請求項9】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声に現れるキーワードの頻度であり、
前記キーワードは、恐縮、言い淀みのいずれかを表す言葉である
好感度推定装置。
【請求項10】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声を時間により分割した分割音声に現れるキーワードの頻度であり、
前記キーワードは、感謝、謝罪、恐縮、言い淀みのいずれかを表す言葉であり、
前記関連性は、
キーワードが感謝を表す言葉である場合は、発話後半の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが謝罪を表す言葉である場合は、発話冒頭の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが恐縮を表す言葉である場合は、発話冒頭または発話最後の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが言い淀みを表す言葉である場合は、発話最後または発話最後の直前の何れかの区間の分割音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなるように与えられる
好感度推定装置。
【請求項11】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声を時間により分割した分割音声の音響特徴量であり、
前記音響特徴量は、声の高さに関する平均またはジッタに関する統計量であり、
前記関連性は、
発話後半の区間の音響特徴量と発話前半の区間の音響特徴量の差が大きい場合の方が小さい場合よりも話者の好感度が低いことを示すものとなりやすいように与えられる
好感度推定装置。
【請求項12】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、発話音声から生成された発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声をフェーズにより分割した分割音声の音響特徴量であり、
前記関連性は、
フェーズがオペレータによる対応がマニュアル化されていない区間である場合の分割音声の音響特徴量の方が、フェーズがオペレータによる対応がマニュアル化されている区間である場合の分割音声の音響特徴量よりも話者の好感度に影響を与えるものとなりやすいように与えられる
好感度推定装置。
【請求項13】
発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定部
を含む好感度推定装置であって、
前記特徴量は、発話音声をオペレータによる対応がマニュアル化されていない区間とオペレータによる対応がマニュアル化されている区間とに区別するように分割した分割音声の音響特徴量である
好感度推定装置。
【請求項14】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声に現れる有声休止の頻度である
好感度推定方法。
【請求項15】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声に現れる話者による相槌の頻度である
好感度推定方法
【請求項16】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声に現れる敬語を修正した回数である
好感度推定方法
【請求項17】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声に現れるキーワードの頻度であり、
前記関連性は、
キーワードが謝罪または恐縮を表す言葉である場合は、発話音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが言い淀みを表す言葉である場合は、発話音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられる
好感度推定方法
【請求項18】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声に現れるキーワードの頻度であり、
前記キーワードは、恐縮、言い淀みのいずれかを表す言葉である
好感度推定方法
【請求項19】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声を時間により分割した分割音声に現れるキーワードの頻度であり、
前記キーワードは、感謝、謝罪、恐縮、言い淀みのいずれかを表す言葉であり、
前記関連性は、
キーワードが感謝を表す言葉である場合は、発話後半の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが謝罪を表す言葉である場合は、発話冒頭の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが恐縮を表す言葉である場合は、発話冒頭または発話最後の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなりやすいように与えられ、
キーワードが言い淀みを表す言葉である場合は、発話最後または発話最後の直前の何れかの区間の分割音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなるように与えられる
好感度推定方法
【請求項20】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声を時間により分割した分割音声の音響特徴量であり、
前記音響特徴量は、声の高さに関する平均またはジッタに関する統計量であり、
前記関連性は、
発話後半の区間の音響特徴量と発話前半の区間の音響特徴量の差が大きい場合の方が小さい場合よりも話者の好感度が低いことを示すものとなりやすいように与えられる
好感度推定方法
【請求項21】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声をフェーズにより分割した分割音声の音響特徴量であり、
前記関連性は、
フェーズがオペレータによる対応がマニュアル化されていない区間である場合の分割音声の音響特徴量の方が、フェーズがオペレータによる対応がマニュアル化されている区間である場合の分割音声の音響特徴量よりも話者の好感度に影響を与えるものとなりやすいように与えられる
好感度推定方法
【請求項22】
好感度推定装置が、発話音声の特徴量と話者の好感度との関連性に基づいて、発話音声から生成された特徴量から、前記発話音声の話者の好感度を推定する好感度推定ステップ
を含む好感度推定方法であって、
前記特徴量は、発話音声をオペレータによる対応がマニュアル化されていない区間とオペレータによる対応がマニュアル化されている区間とに区別するように分割した分割音声の音響特徴量である
好感度推定方法
【請求項23】
請求項1ないし13のいずれか1項に記載の好感度推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声から話者の好感度を推定する技術に関する。
【背景技術】
【0002】
近年、企業と顧客とのコミュニケーション手段が増え、顧客満足度や企業イメージが益々重要視されてきている。顧客満足度等の向上のために、顧客の要望や感想を直接聞くことができるコールセンターや店頭の窓口でも顧客への応対品質の向上が必要とされている。
【0003】
顧客満足度等の向上のためには、コールセンターのオペレータや店頭の窓口の店員の好感度が重要な要素の一つとなる。好感度が推定できるようになると、オペレータ・店員の応対品質の評価、優良事例の検索、オペレータ・店員の教育などに利用することができ、コールセンター・店頭の窓口での応対品質の向上に応用することができる。
【0004】
従来の好感度推定では、F0などの音響特徴量の平均・分散・中央値・幅等の統計量を求めて、好感度を推定していた(非特許文献1)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】B. Schuller, S. Steidl, A. Batliner, E. Noth, A. Vinciarelli, F. Burkhardt, R. v. Son, F. Weninger, F. Eyben, T. Bocklet, G. Mohammadi, B. Weiss, “The INTERSPEECH 2012 Speaker Trait Challenge”, in Proc. Interspeech 2012, ISCA, Portland, OR, USA, 2012.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、実際のコールセンター・店頭の窓口での応対では、自然なF0の変動だけではなく、相槌の入れ方、敬語の使い方、語尾の明瞭性などその他の特徴も好感度に影響を与えるが、好感度の推定においてこれらの特徴についてはこれまで考慮されてこなかった。
【0007】
そこで本発明では、F0の変動以外の発話音声の特徴を考慮して好感度を推定する好感度推定技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様は、発話音声から、前記発話音声の特徴量を生成する発話音声特徴量生成部と、発話音声の特徴量と話者の好感度との関連性に基づいて、前記特徴量から、前記発話音声の話者の好感度を推定する好感度推定部とを含む。
【発明の効果】
【0009】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。
【図面の簡単な説明】
【0010】
図1】有声休止頻度と好感度の関係の一例を示す図。
図2】好感度推定装置100の構成の一例を示すブロック図。
図3】好感度推定装置100の動作の一例を示すフローチャート。
図4】F0情報の一例を示す図。
図5】好感度推定装置200の構成の一例を示すブロック図。
図6】好感度推定装置200の動作の一例を示すフローチャート。
図7】音声認識結果の一例を示す図。
図8】好感度推定装置300の構成の一例を示すブロック図。
図9】好感度推定装置300の動作の一例を示すフローチャート。
図10】好感度推定装置400の構成の一例を示すブロック図。
図11】好感度推定装置400の動作の一例を示すフローチャート。
図12】好感度推定装置500の構成の一例を示すブロック図。
図13】好感度推定装置500の動作の一例を示すフローチャート。
図14】音声区間検出結果の一例を示す図。
図15】好感度推定装置600の構成の一例を示すブロック図。
図16】好感度推定装置600の動作の一例を示すフローチャート。
図17】キーワード頻度と好感度の関係の一例を示す図。
図18】好感度推定装置700の構成の一例を示すブロック図。
図19】好感度推定装置700の動作の一例を示すフローチャート。
図20】各分割区間におけるキーワード頻度のP値の一例を示す図。
図21】好感度推定装置800/801の構成の一例を示すブロック図。
図22】好感度推定装置800/801の動作の一例を示すフローチャート。
図23】好感度推定装置900の構成の一例を示すブロック図。
図24】好感度推定装置900の動作の一例を示すフローチャート。
図25】好感度推定装置1000の構成の一例を示すブロック図。
図26】好感度推定装置1000の動作の一例を示すフローチャート。
図27】好感度推定装置1100の構成の一例を示すブロック図。
図28】好感度推定装置1100の動作の一例を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
<第1実施形態>
有声休止とは、発話中に会話の発言権を維持するために、「あのー」、「えーと」のようなフィラーや単語内の音の伸びとして現れる現象である。この有声休止の頻度と好感度の高い通話・低い通話の関係を分析したところ、図1に示すように差があった。そこで、本実施形態では、発話音声に現れる有声休止の頻度に基づいて好感度を推定する。
【0013】
以下、図2図3を参照して好感度推定装置100について説明する。図2は、好感度推定装置100の構成を示すブロック図である。図3は、好感度推定装置100の動作を示すフローチャートである。図2に示すように好感度推定装置100は、F0情報抽出部110、有声休止判定部120、第1判定結果集計部130、好感度推定部140、記録部190を含む。記録部190は、好感度推定装置100の処理に必要な情報を適宜記録する構成部である。
【0014】
好感度推定装置100は、好感度推定に際して、好感度推定モデル180を読み込み、処理を実行する。なお、好感度推定モデル180は、図2のように外部の記録部に記録するよう構成してもよいし、記録部190に記録するよう構成してもよい。
【0015】
好感度推定装置100は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。発話音声s(t)は、単位時間毎にサンプリングされた音声信号であり、例えば、事前に収録されたオペレータや店員の発話音声である。
【0016】
図3に従い好感度推定装置100の動作について説明する。F0情報抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出する(S110)。F0情報の抽出にはどのような方法を用いてもよい。F0情報f(i)(i=0, 1, 2, …, I)は、ある一定の単位時間(例えば10ms)間隔で抽出された、フレームiにおける声の高さの特徴量である。図4は、抽出したF0情報の一例を示す。
【0017】
有声休止判定部120は、S110で抽出したF0情報f(i)(i=0, 1, 2, …, I)から、有声休止判定結果V(i)(i=0, 1, 2, …, I)を生成する(S120)。有声休止判定結果V(i)はフレームごとに生成されるものであり、フレームiから有声休止が検出される場合はV(i)=1、フレームiから有声休止が検出されない場合はV(i)=0とする。有声休止の検出には、例えば、参考非特許文献1を用いることができる。ここではF0の変化が一定時間ないものを有声休止として検出している。また、参考非特許文献1に記載があるように、F0およびスペクトルの変化が一定時間ないものを有声休止として検出してもよい。
(参考非特許文献1:後藤真孝,伊藤克亘,速水悟,“自然発話中の有声休止箇所のリアルタイム検出システム”,電子情報通信学会論文誌D-2,J83-D-2, No.11, pp.2330-2340, 2000.)
【0018】
第1判定結果集計部130は、S120で生成した有声休止判定結果V(i)(i=0, 1, 2, …, I)から、発話音声s(t)の特徴量である有声休止頻度pvを計算する(S130)。有声休止頻度pvは、発話音声において単位時間あたり有声休止がどの程度発生するかを示す値(つまり、発話音声における単位時間あたりの有声休止の発生回数)である。有声休止頻度pvは、例えば、次式で計算することができる。
【0019】
【数1】
【0020】
ただし、Iは発話音声s(t)から生成されたフレーム数である。
【0021】
なお、F0情報抽出部110、有声休止判定部120、第1判定結果集計部130を含む構成部を発話音声特徴量生成部105という(図2参照)。したがって、発話音声特徴量生成部105は、S110からS130までの処理を実行する。すなわち、発話音声特徴量生成部105は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である有声休止頻度pvを生成する(S105)。
【0022】
好感度推定部140は、好感度推定モデル180を用いて、S130で計算した有声休止頻度pvから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S140)。好感度推定モデル180は、発話音声の特徴量である有声休止頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル180は有声休止頻度と好感度との関連性を示すものである。
【0023】
好感度推定モデルは、例えば、サポートベクターマシン(SVM: Support Vector Machine)、ランダムフォレスト(Random Forest)、ニューラルネットワークなどの機械学習により生成する。具体的には、まず、好感度の高さが事前に分かっている音声信号から求めた特徴量(ここでは、有声休止頻度)と当該音声信号の好感度の高さを示す情報(正解ラベル)の組の集合を学習用データとして用意しておく。次に、この学習用データを用いて、特徴量を入力として好感度推定モデルを用いて好感度を推定し、推定結果である好感度と正解ラベルの好感度の誤差が小さくなるように好感度推定モデルのパラメータを更新する。なお、好感度推定モデルの学習開始時には、好感度推定モデルのパラメータとして適当な初期値を与えるものとする。そして、所定の条件を満たすことをもってパラメータの更新(つまり、学習)を終了する。なお、正解ラベルは、高/低の2段階でもよいし、好感度を3段階以上のランクに分けたものであってもよい。
【0024】
(変形例)
好感度推定部140は、好感度推定モデル180を用いて好感度を推定したが、好感度推定モデル180の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部140は、有声休止頻度と好感度との関連性に基づいて、S130で計算した有声休止頻度pvから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S140)。この場合、有声休止頻度と好感度との関連性は図1で説明した知見に基づいて生成することができる。例えば、有声休止頻度が所定の第1の閾値以下である場合、好感度が高いと推定し、有声休止頻度が所定の第2の閾値以上である場合、好感度が低いと推定し、それ以外の場合は好感度が中程度と推定するように関連性を定めることができる。
【0025】
以上まとめると、発話音声の特徴量として発話音声に現れる有声休止の頻度を用いる場合、好感度推定モデルを含む関連性は、有声休止の頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0026】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0027】
<第2実施形態>
コールセンターや店頭の窓口において顧客の発話に対して適切に相槌を打つことは、好感度に影響する、つまり、適切な相槌で応対された場合は、好感度が高くなると考えられる。そこで、本実施形態では、発話音声に現れる話者による相槌の頻度に基づいて、好感度を推定する。
【0028】
以下、図5図6を参照して好感度推定装置200について説明する。図5は、好感度推定装置200の構成を示すブロック図である。図6は、好感度推定装置200の動作を示すフローチャートである。図5に示すように好感度推定装置200は、音声認識部210、第1相槌頻度計算部230、好感度推定部240、記録部290を含む。記録部290は、好感度推定装置200の処理に必要な情報を適宜記録する構成部である。
【0029】
好感度推定装置200は、好感度推定に際して、好感度推定モデル280と相槌辞書285を読み込み、処理を実行する。なお、好感度推定モデル280や相槌辞書285は、図5のように外部の記録部に記録するよう構成してもよいし、記録部290に記録するよう構成してもよい。
【0030】
好感度推定装置200は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0031】
図6に従い好感度推定装置200の動作について説明する。音声認識部210は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。ここで、音声認識結果W(j)は、発話音声s(t)から所定の方法により検出した発話区間の音声認識結果である。音声認識には、どのような方法を用いてもよいが、図7に示すように、発話区間jの単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組を音声認識結果W(j)とする。なお、発話音声s(t)の開始時刻を0秒として、各発話区間の単語開始時刻と単語終了時刻を表示している。換言すると、音声認識部210は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の単語認識結果w(j)、単語開始時刻s(j)、単語終了時刻e(j)の組(j=1, 2, …,J)を生成する(S210)。
【0032】
第1相槌頻度計算部230は、相槌辞書285を用いて、S210で生成した音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …, J)から、発話音声s(t)の特徴量である相槌頻度paを計算する(S230)。相槌辞書285は、「はい」、「そうなんですか」などの相槌となる単語を記憶したものである。以下、相槌辞書285をUとする。相槌辞書Uを参照して、単語認識結果w(j)(j=1, 2, …, J)のうち、相槌辞書Uに含まれる単語の数をカウントする。そして、カウントした単語の数を発話音声s(t)の発話時間の長さで割ることにより、相槌頻度paを求める。つまり、次式で計算する。ここで、発話音声s(t)の発話時間の長さは、最後の単語終了時刻Te(J)と等しいため、Te(J)で割っている。
【0033】
【数2】
【0034】
なお、音声認識部210、第1相槌頻度計算部230を含む構成部を発話音声特徴量生成部205という(図5参照)。したがって、発話音声特徴量生成部205は、S210からS230までの処理を実行する。すなわち、発話音声特徴量生成部205は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である相槌頻度paを生成する(S205)。
【0035】
好感度推定部240は、好感度推定モデル280を用いて、S230で計算した相槌頻度paから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S240)。好感度推定モデル280は、発話音声の特徴量である相槌頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル280は相槌頻度と好感度との関連性を示すものである。なお、好感度推定モデル280の学習方法は、第1実施形態と同様でよい。
【0036】
(変形例)
好感度推定部240は、好感度推定モデル280を用いて好感度を推定したが、好感度推定モデル280の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部240は、相槌頻度と好感度との関連性に基づいて、S230で計算した相槌頻度paから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S240)。
【0037】
以上まとめると、発話音声の特徴量として発話音声に現れる話者による相槌の頻度を用いる場合、好感度推定モデルを含む関連性は、相槌の頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなる。
【0038】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0039】
<第3実施形態>
コールセンターや店頭の窓口の応対におけるオペレータや店員の敬語の使い方の正しさは好感度に影響する、つまり、正しい敬語で応対された場合は、好感度が高くなると考えられる。そこで、本実施形態では、発話音声に現れる敬語を修正した回数に基づいて、好感度を推定する。
【0040】
以下、図8図9を参照して好感度推定装置300について説明する。図8は、好感度推定装置300の構成を示すブロック図である。図9は、好感度推定装置300の動作を示すフローチャートである。図8に示すように好感度推定装置300は、音声認識部310、敬語修正部320、修正結果集計部330、好感度推定部340、記録部390を含む。記録部390は、好感度推定装置300の処理に必要な情報を適宜記録する構成部である。
【0041】
好感度推定装置300は、好感度推定に際して、好感度推定モデル380と敬語辞書385を読み込み、処理を実行する。なお、好感度推定モデル380や敬語辞書385は、図8のように外部の記録部に記録するよう構成してもよいし、記録部390に記録するよう構成してもよい。
【0042】
好感度推定装置300は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0043】
図9に従い好感度推定装置300の動作について説明する。音声認識部310は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S310)。ここでは、音声認識結果W(j)を、発話区間jの単語認識結果w(j)とする。
【0044】
敬語修正部320は、S310で生成した音声認識結果W(j)(つまり、単語認識結果w(j))(j=1, 2, …, J)から、当該単語認識結果w(j)を正しい敬語に修正した修正結果w'(j)(j=1, 2, …, J)を生成する(S320)。正しい敬語への修正は、例えば、参考非特許文献2を用いることができる。
(参考非特許文献2:大野満,横山晶一,西原典孝,“日本語敬語表現変換・解析システム”,言語処理学会第9回年次大会発表論文集,pp.218-221, 2003.)
敬語辞書385を用いて、単語認識結果w(j)を正しい敬語に修正し、その結果を修正結果w'(j)とする。敬語辞書385は、例えば、「述語」、「文型」、「動詞/サ変名詞の意味的制約」、「名詞」の項目毎に対応する敬語を登録したデータベースである。
【0045】
修正結果集計部330は、S310で生成した音声認識結果W(j)(つまり、単語認識結果w(j))(j=1, 2, …, J)とS320で生成した修正結果w'(j)(j=1, 2, …, J)から、発話音声s(t)の特徴量である敬語修正回数pwを計算する(S330)。敬語修正回数pwは、修正された敬語の数であり、次式により計算することができる。
【0046】
【数3】
【0047】
なお、正しい敬語へ修正する際、修正結果に新たに単語を挿入したり、修正結果から一部の単語を削除したりすることがある。この場合、単語認識結果w(j)と修正結果w’(j)のDPマッチング(Dynamic Programming Matching)を実行して得られるスコアを敬語修正回数pwとして用いてもよい。
【0048】
なお、音声認識部310、敬語修正部320、修正結果集計部330を含む構成部を発話音声特徴量生成部305という(図8参照)。したがって、発話音声特徴量生成部305は、S310からS330までの処理を実行する。すなわち、発話音声特徴量生成部305は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である敬語修正回数pwを生成する(S305)。
【0049】
好感度推定部340は、好感度推定モデル380を用いて、S330で計算した敬語修正回数pwから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S340)。好感度推定モデル380は、発話音声の特徴量である敬語修正回数を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル380は敬語修正回数と好感度との関連性を示すものである。なお、好感度推定モデル380の学習方法は、第1実施形態と同様でよい。
【0050】
(変形例)
好感度推定部340は、好感度推定モデル380を用いて好感度を推定したが、好感度推定モデル380の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部340は、敬語修正回数と好感度との関連性に基づいて、S330で計算した敬語修正回数pwから、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S340)。
【0051】
以上まとめると、発話音声の特徴量として発話音声に現れる敬語を修正した回数を用いる場合、好感度推定モデルを含む関連性は、敬語を修正した回数が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0052】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0053】
<第4実施形態>
第1実施形態では、有声休止の頻度に基づいて好感度を推定したが、ここでは、語尾音声における有声休止の頻度に着目する。これは、「です」、「ます」などの語尾の単語において、「○○ですー」、「○○ますー」といった音を発声すると、顧客には誠実な対応に聞こえず、好感度の低下に大きく影響すると考えられるためである。そこで、本実施形態では、語尾の単語における有声休止に近しい音(語尾伸び現象)に着目、発話音声の語尾に現れる有声休止の頻度に基づいて好感度を推定する。
【0054】
以下、図10図11を参照して好感度推定装置400について説明する。図10は、好感度推定装置400の構成を示すブロック図である。図11は、好感度推定装置400の動作を示すフローチャートである。図10に示すように好感度推定装置400は、F0情報抽出部110、音声認識部210、有声休止判定部120、第2判定結果集計部430、好感度推定部440、記録部490を含む。記録部490は、好感度推定装置400の処理に必要な情報を適宜記録する構成部である。
【0055】
好感度推定装置400は、好感度推定に際して、好感度推定モデル480と語尾単語辞書485を読み込み、処理を実行する。なお、好感度推定モデル480や語尾単語辞書485は、図10のように外部の記録部に記録するよう構成してもよいし、記録部490に記録するよう構成してもよい。
【0056】
好感度推定装置400は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0057】
図10に従い好感度推定装置400の動作について説明する。F0情報抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出する(S110)。有声休止判定部120は、S110で抽出したF0情報f(i)(i=0, 1, 2, …, I)から、有声休止判定結果V(i)(i=0, 1, 2, …, I)を生成する(S120)。音声認識部210は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。
【0058】
第2判定結果集計部430は、語尾単語辞書485を用いて、S120で生成した有声休止判定結果V(i)(i=0, 1, 2, …, I)とS210で生成した音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …, J)から、発話音声s(t)の特徴量である語尾有声休止頻度pv'を計算する(S430)。語尾有声休止頻度pv'は、単位時間あたり語尾の単語において有声休止がどの程度発生するかを示す値(つまり、単位時間あたりの語尾の単語における有声休止の発生回数)である。語尾単語辞書485は、「です」、「ます」などの語尾にくる単語を記憶したものである。以下、語尾単語辞書485をGとする。語尾有声休止頻度pv'は、語尾単語辞書Gを用いて、以下の手順で計算する。
(1) 語尾単語時間長n=0、語尾有声休止数m=0とする。語尾単語時間長とは、語尾に現れる単語の時間長の合計値であり、語尾有声休止数とは、語尾に現れる有声休止数である。
(2) すべての単語認識結果w(j)(j=1, 2, …, J)に対して、以下の処理を行う。
単語認識結果w(j)が語尾単語辞書Gに含まれる場合、単語開始時刻Ts(j)、単語終了時刻Te(j)をそれぞれフレーム単位の開始時刻sf(j)、フレーム単位の終了時刻ef(j)に変換し、語尾有声休止時間長n、語尾有声休止数mを次式により更新する。
【数4】

なお、フレーム単位の開始時刻sf(j)、フレーム単位の終了時刻ef(j)は、例えば、F0抽出のフレーム間隔が10msである場合、sf(j)=Ts(j)/0.01、ef(j)=Te(j)/0.01となる。
一方、単語認識結果w(j)が語尾単語辞書Gに含まれない場合は、何もしない。
(3) pv'=m/nとして、語尾有声休止頻度pv'を求める。
【0059】
なお、F0情報抽出部110、音声認識部210、有声休止判定部120、第2判定結果集計部430を含む構成部を発話音声特徴量生成部405という(図10参照)。したがって、発話音声特徴量生成部405は、S110からS430までの処理を実行する。すなわち、発話音声特徴量生成部405は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である語尾有声休止頻度pv'を生成する(S405)。
【0060】
好感度推定部440は、好感度推定モデル480を用いて、S430で計算した語尾有声休止頻度pv'から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S440)。好感度推定モデル480は、発話音声の特徴量である語尾有声休止頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル480は語尾有声休止頻度と好感度との関連性を示すものである。なお、好感度推定モデル480の学習方法は、第1実施形態と同様でよい。
【0061】
(変形例)
好感度推定部440は、好感度推定モデル480を用いて好感度を推定したが、好感度推定モデル480の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部440は、語尾有声休止頻度と好感度との関連性に基づいて、S430で計算した語尾有声休止頻度pv'から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S440)。
【0062】
以上まとめると、発話音声の特徴量として発話音声の語尾に現れる有声休止の頻度を用いる場合、好感度推定モデルを含む関連性は、有声休止の頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0063】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0064】
<第5実施形態>
第2実施形態では、オペレータや店員の発話における相槌頻度に基づいて好感度を推定したが、ここでは、顧客が話している区間に着目して、相槌の頻度をカウントする。これは、顧客が発話している区間でオペレータや店員が相槌をすると、顧客の話を聞いているという意思表示になり、好感度の向上に大きく影響すると考えられるためである。そこで、本実施形態では、顧客が発話している区間において発話音声に現れる話者による相槌の頻度に基づいて、好感度を推定する。
【0065】
以下、図12図13を参照して好感度推定装置500について説明する。図12は、好感度推定装置500の構成を示すブロック図である。図13は、好感度推定装置500の動作を示すフローチャートである。図12に示すように好感度推定装置500は、音声認識部210、音声区間検出部510、第2相槌頻度計算部530、好感度推定部540、記録部590を含む。記録部590は、好感度推定装置500の処理に必要な情報を適宜記録する構成部である。
【0066】
好感度推定装置500は、好感度推定に際して、好感度推定モデル580と相槌辞書285を読み込み、処理を実行する。なお、好感度推定モデル580や相槌辞書285は、図12のように外部の記録部に記録するよう構成してもよいし、記録部590に記録するよう構成してもよい。
【0067】
好感度推定装置500は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)と第2発話音声s'(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。第2発話音声s'(t)は、単位時間毎にサンプリングされた音声信号であり、例えば、事前に収録された顧客の発話音声である。なお、発話音声s(t)と第2発話音声s'(t)の時刻tは、通話開始を0として同じ時刻を示している。
【0068】
図13に従い好感度推定装置500の動作について説明する。音声認識部210は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。
【0069】
音声区間検出部510は、第2発話音声s'(t)(t=0, 1, 2, …, T)から、顧客が発話している区間(以下、顧客発話区間という)の始点と終点である発話開始時刻Ts'(k)、発話終了時刻Te'(k)(k=1, 2, …,K、kは発話番号を表す)を音声区間検出結果として生成する(S510)。音声区間の検出には、どのような方法を用いてもよい。図14は、音声区間検出結果の一例である。顧客発話区間kの開始時刻、終了時刻がそれぞれ発話開始時刻Ts'(k)、発話終了時刻Te'(k)である。
【0070】
第2相槌頻度計算部530は、相槌辞書285を用いて、S210で生成した音声認識結果W(j)(つまり、単語認識結果w(j)と単語開始時刻Ts(j)と単語終了時刻Te(j)の組)(j=1, 2, …, J)とS510で生成した発話開始時刻Ts'(k)と発話終了時刻Te'(k)の組(k=1, 2, …,K)から、発話音声s(t)の特徴量である顧客発話区間相槌頻度pa'を計算する(S530)。顧客発話区間相槌頻度pa'は、顧客発話区間における相槌頻度である。顧客発話区間相槌頻度pa'は、相槌辞書Uを用いて、以下の手順で計算する。
(1) 相槌回数n=0とする。
(2) すべての単語認識結果w(j)(j=1, 2, …, J)に対して、以下の処理を行う。
単語認識結果w(j)が相槌辞書Uに含まれる場合、単語開始時刻Ts(j)から単語終了時刻Te(j)までの区間を含む顧客発話区間kが存在するか否かを確認し、存在する場合は、相槌回数を増やす。具体的には、相槌回数nを次式により更新する。
【数5】

一方、単語認識結果w(j)が相槌辞書Uに含まれない場合は、何もしない。
(3) 次式により、顧客発話区間相槌頻度pa'を計算する。
【0071】
【数6】
【0072】
なお、音声認識部210、音声区間検出部510、第2相槌頻度計算部530を含む構成部を発話音声特徴量生成部505という(図12参照)。したがって、発話音声特徴量生成部505は、S210からS530までの処理を実行する。すなわち、発話音声特徴量生成部505は、発話音声s(t)(t=0, 1, 2, …, T)と第2発話音声s'(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である顧客発話区間相槌頻度pa'を生成する(S505)。
【0073】
好感度推定部540は、好感度推定モデル580を用いて、S530で計算した顧客発話区間相槌頻度pa'から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S540)。好感度推定モデル580は、発話音声の特徴量である顧客発話区間相槌頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル580は顧客発話区間相槌頻度と好感度との関連性を示すものである。なお、好感度推定モデル580の学習方法は、第1実施形態と同様でよい。
【0074】
(変形例)
好感度推定部540は、好感度推定モデル580を用いて好感度を推定したが、好感度推定モデル580の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部540は、顧客発話区間相槌頻度と好感度との関連性に基づいて、S530で計算した顧客発話区間相槌頻度pa'から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S540)。
【0075】
以上まとめると、発話音声の特徴量として第2発話音声の発話区間において発話音声に現れる話者による相槌の頻度を用いる場合、好感度推定モデルを含む関連性は、相槌の頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなる。
【0076】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0077】
<第6実施形態>
第1実施形態から第5実施形態では、それぞれ1つの特徴量を用いて好感度を推定したが、これらの特徴量の組み合わせを用いて好感度を推定するようにしてもよい。そこで、本実施形態では、第1実施形態から第5実施形態で用いた特徴量すべてを用いて好感度を推定する構成について説明する。
【0078】
以下、図15図16を参照して好感度推定装置600について説明する。図15は、好感度推定装置600の構成を示すブロック図である。図16は、好感度推定装置600の動作を示すフローチャートである。図15に示すように好感度推定装置600は、F0情報抽出部110、音声認識部210、音声区間検出部510、有声休止判定部120、第1判定結果集計部130、第2判定結果集計部430、敬語修正部320、修正結果集計部330、第1相槌頻度計算部230、第2相槌頻度計算部530、好感度推定部640、記録部690を含む。記録部690は、好感度推定装置600の処理に必要な情報を適宜記録する構成部である。
【0079】
好感度推定装置600は、好感度推定に際して、好感度推定モデル680(図示しない)と相槌辞書285(図示しない)と敬語辞書385(図示しない)と語尾単語辞書485(図示しない)を読み込み、処理を実行する。好感度推定モデル680、相槌辞書285、敬語辞書385、語尾単語辞書485は、事前に記録部690に記録しているものとする。
【0080】
好感度推定装置600は、発話音声s(t)(t=0, 1, 2, …、tはサンプル番号を表す)と第2発話音声s'(t)(t=0, 1, 2, …、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0081】
図16に従い好感度推定装置600の動作について説明する。S110からS530までの処理は、第1実施形態から第5実施形態までのそれと同じである。
【0082】
なお、F0情報抽出部110、音声認識部210、音声区間検出部510、有声休止判定部120、第1判定結果集計部130、第2判定結果集計部430、敬語修正部320、修正結果集計部330、第1相槌頻度計算部230、第2相槌頻度計算部530を含む構成部を発話音声特徴量生成部605という(図15参照)。したがって、発話音声特徴量生成部605は、S110からS530までの処理を実行する。すなわち、発話音声特徴量生成部605は、発話音声s(t)(t=0, 1, 2, …, T)と第2発話音声s'(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量である有声休止頻度pv、語尾有声休止頻度pv'、敬語修正回数pw、相槌頻度pa、顧客発話区間相槌頻度pa'を生成する(S605)。
【0083】
そこで、以下、S640について説明する。好感度推定部640は、好感度推定モデル680を用いて、S130、S430、S330、S230、S530で計算した特徴量(つまり、有声休止頻度pv、語尾有声休止頻度pv'、敬語修正回数pw、相槌頻度pa、顧客発話区間相槌頻度pa')から、発話音声s(t)(t=0, 1, 2, …, T)の好感度を推定する(S640)。好感度推定モデル680は、5つの特徴量を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル680は5つの特徴量と好感度との関連性を示すものである。なお、好感度推定モデル680の学習方法は、第1実施形態と同様でよい。
【0084】
(変形例)
好感度推定部640は、好感度推定モデル680を用いて好感度を推定したが、好感度推定モデル680の代わりに、機械学習以外の方法で取得した、5つの発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部540は、5つの特徴量と好感度との関連性に基づいて、S130、S430、S330、S230、S530で計算した特徴量から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S640)。
【0085】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0086】
(変形例2)
第6実施形態では、第1実施形態から第5実施形態で用いた特徴量すべてを用いて好感度を推定する構成について説明したが、好感度推定に用いる特徴量の組合せはこれに限るものではない。これらの特徴量のうち、少なくとも1つの特徴量を用いて好感度推定を行うことができる。この場合、推定に用いる特徴量の計算に必要となる構成部、好感度推定部、記録部を含むように好感度推定装置を構成すればよい。例えば、これらの5つの特徴量のうち、1つを用いる場合は、それぞれ、第1実施形態から第5実施形態で説明した構成となる。また、発話音声の特徴量と話者の好感度との関連性は、以下のような性質を有する。
(1)好感度推定に用いる特徴量に、発話音声に現れる有声休止の頻度が含まれる場合、有声休止の頻度が小さい場合の方が大きい場合よりも話者の好感度が高いと推定されやすい。
(2)好感度推定に用いる特徴量に、発話音声に現れる話者による相槌の頻度が含まれる場合、相槌の頻度が大きい場合の方が小さい場合よりも話者の好感度が高いと推定されやすい。
(3)好感度推定に用いる特徴量に、発話音声に現れる敬語を修正した回数が含まれる場合、敬語を修正した回数が小さい場合の方が大きい場合よりも話者の好感度が高いと推定されやすい。
(4)好感度推定に用いる特徴量に、発話音声の語尾に現れる有声休止の頻度が含まれる場合、有声休止の頻度が小さい場合の方が大きい場合よりも話者の好感度が高いと推定されやすい。
(5)好感度推定に用いる特徴量に、第2発話音声の発話区間において発話音声に現れる話者による相槌の頻度が含まれる場合、相槌の頻度が大きい場合の方が小さい場合よりも話者の好感度が高いと推定されやすい。
【0087】
また、これらの特徴量に、これらの特徴量以外の特徴量を組み合わせた形で好感度推定を行うようにしてもよい。
【0088】
<第7実施形態>
図17は、複数のコールセンターにおける通話(およそ2000通話)について、オペレータの発話中の感謝の言葉(例えば、「ありがとうございます」)、謝罪の言葉(例えば、「申し訳ありません」)、恐縮の言葉(例えば、「恐れ入ります」や「恐縮ですが」)、言い淀みの言葉(例えば、「えーと」)の頻度と好感度の関係を調べた結果を示すものである。具体的には、好感度の高いオペレータと好感度の低いオペレータについてのこれらの言葉の頻度と、その頻度の差についてT検定による有意差が現れるか否かを調べた結果である。ここで、P値が0.05以下であるとき有意差があるといえる。図17を見ると、感謝の言葉、謝罪の言葉、恐縮の言葉については、好感度の高いオペレータの方が好感度の低いオペレータより多い一方で、言い淀みの言葉については、好感度の高いオペレータの方が好感度の低いオペレータより少ないことがわかる。また、謝罪の言葉、恐縮の言葉、言い淀みの言葉については、有意差があることもわかる。
【0089】
そこで、本実施形態では、発話音声に現れる謝罪・恐縮・言い淀みの言葉の頻度に基づいて、好感度を推定する。
【0090】
以下、感謝の言葉・謝罪の言葉・恐縮の言葉・言い淀みの言葉のことをキーワードという。また、感謝・謝罪・恐縮・言い淀みのことをキーワードの属性という。
【0091】
なお、感謝の言葉については、上述した通り、謝罪の言葉・恐縮の言葉・言い淀みの言葉のように有意差が認められないため、本実施形態では用いないこととする。
【0092】
以下、図18図19を参照して好感度推定装置700について説明する。図18は、好感度推定装置700の構成を示すブロック図である。図19は、好感度推定装置700の動作を示すフローチャートである。図18に示すように好感度推定装置700は、音声認識部210、キーワード頻度計算部730、好感度推定部740、記録部790を含む。記録部790は、好感度推定装置700の処理に必要な情報を適宜記録する構成部である。
【0093】
好感度推定装置700は、好感度推定に際して、好感度推定モデル780とキーワード辞書785を読み込み、処理を実行する。なお、好感度推定モデル780やキーワード辞書785は、図18のように外部の記録部に記録するよう構成してもよいし、記録部790に記録するよう構成してもよい。
【0094】
以下、キーワード辞書785を∪k=1KD(k)(=D(1)∪…∪D(K))とする。Kは頻度を求める単位となるキーワード群の数であり、キーワード群D(1), …, D(K)はそれぞれ1以上のキーワードを含む。例えば、謝罪を表す言葉である“申し訳”、“すみません”、“ごめんなさい”の頻度を求めたい場合、D(1)={“申し訳”, “すみません”, “ごめんなさい”}などとすればよい。ここでは、キーワード辞書∪k=1KD(k)は、謝罪を表す言葉・恐縮を表す言葉・言い淀みを表す言葉をキーワードとして記憶したものとする。
【0095】
好感度推定装置700は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0096】
図19に従い好感度推定装置700の動作について説明する。音声認識部210は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。
【0097】
キーワード頻度計算部730は、キーワード辞書∪k=1KD(k)を用いて、S210で生成した音声認識結果W(j)(つまり、単語認識結果w(j)、単語開始時刻Ts(j)、単語終了時刻Te(j)の組)(j=1, 2, …, J)から、発話音声s(t)の特徴量であるキーワード頻度f(k) (k=1, 2, …, K)を計算する(S730)。以下、計算方法について説明する。キーワード頻度計算部730は、まず、キーワード辞書∪k=1KD(k)を参照して、単語認識結果w(j)のうち、キーワード群D(k)に含まれる単語の数をカウントする。そして、キーワード頻度計算部730は、カウントした単語の数を発話音声s(t)の発話時間の長さで割ることにより、キーワード頻度f(k)を求める。つまり、次式でキーワード頻度f(k)を計算する。ここで、発話音声s(t)の発話時間の長さは、最後の単語終了時刻Te(J)と等しいため、Te(J)で割っている。また、関数c(a, b)は、入力される文字列aと文字列bが文字列として等しい場合は1、そうでない場合は0を出力する関数である。
【0098】
【数7】
【0099】
なお、音声認識部210、キーワード頻度計算部730を含む構成部を発話音声特徴量生成部705という(図18参照)。したがって、発話音声特徴量生成部705は、S210からS730までの処理を実行する。すなわち、発話音声特徴量生成部705は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量であるキーワード頻度f(k)(k=1, 2, …, K)を生成する(S705)。
【0100】
好感度推定部740は、好感度推定モデル780を用いて、S730で計算したキーワード頻度f(k)(k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S740)。好感度推定モデル780は、発話音声の特徴量であるキーワード頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル780はキーワード頻度と好感度との関連性を示すものである。なお、好感度推定モデル780の学習方法は、第1実施形態と同様でよい。
【0101】
(変形例)
好感度推定部740は、好感度推定モデル780を用いて好感度を推定したが、好感度推定モデル780の代わりに、機械学習以外の方法で取得した、発話音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部740は、キーワード頻度と好感度との関連性に基づいて、S730で計算したキーワード頻度f(k)(k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S740)。
【0102】
以上まとめると、発話音声の特徴量として発話音声に現れるキーワードの頻度を用いる場合、好感度推定モデルを含む関連性は、キーワードが謝罪または恐縮を表す言葉である場合は、発話音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなり、キーワードが言い淀みを表す言葉である場合は、発話音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0103】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0104】
<第8実施形態>
図20は、図17と同様、複数のコールセンターにおける通話を対象として、オペレータの発話を2〜4の区間に分割し、各分割区間における、好感度の高いオペレータと好感度の低いオペレータについてのキーワードの頻度の差について、T検定による有意差が現れるか否かを調べた結果である。図20を見ると、感謝の言葉は、全体(分割無しの場合)としては、好感度の高いオペレータと好感度の低いオペレータの間に有意差は現れないものの、発話を分割すると、発話後半で差が生じていることがわかる。つまり、2分割した場合は2/2の区間、3分割した場合は3/3の区間、4分割した場合は3/4の区間と4/4の区間で有意差がみられる。これは、好感度の高いオペレータ、好感度の低いオペレータいずれであっても発話前半では、感謝の言葉の頻度は同程度であるが、発話後半になると好感度の高いオペレータが好感度の低いオペレータより高い頻度で感謝の言葉を述べているために有意差が生じていると考えられる。同様に、謝罪の言葉については、発話を2分割した場合は1/2の区間、3分割した場合は1/3の区間、4分割した場合は1/4の区間で有意差がみられる。また、恐縮の言葉については、発話を2分割した場合は1/2の区間と2/2の区間、3分割した場合は1/3の区間と3/3の区間、4分割した場合は1/4の区間と4/4の区間で有意差がみられる。言い淀みの言葉については、発話を2分割した場合は2/2の区間、3分割した場合は2/3の区間と3/3の区間、4分割した場合は3/4の区間で有意差がみられる。
【0105】
そこで、本実施形態では、発話音声を時間により分割した分割音声に現れるキーワードの頻度に基づいて、好感度を推定する。
【0106】
以下、図21図22を参照して好感度推定装置800について説明する。図21は、好感度推定装置800の構成を示すブロック図である。図22は、好感度推定装置800の動作を示すフローチャートである。図21に示すように好感度推定装置800は、音声分割部810、音声認識部210、キーワード頻度計算部730、好感度推定部840、記録部890を含む。記録部890は、好感度推定装置800の処理に必要な情報を適宜記録する構成部である。
【0107】
好感度推定装置800は、好感度推定に際して、好感度推定モデル880とキーワード辞書885を読み込み、処理を実行する。なお、好感度推定モデル880やキーワード辞書885は、図21のように外部の記録部に記録するよう構成してもよいし、記録部890に記録するよう構成してもよい。
【0108】
以下、キーワード辞書885を∪k=1KD(k)(=D(1)∪…∪D(K))とする(ただし、Kは頻度を求める単位となるキーワード群の数)。ここでは、キーワード辞書∪k=1KD(k)は、感謝を表す言葉・謝罪を表す言葉・恐縮を表す言葉・言い淀みを表す言葉をキーワードとして記憶したものとする。
【0109】
好感度推定装置800は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0110】
図22に従い好感度推定装置800の動作について説明する。
【0111】
音声分割部810は、発話音声s(t)(t=0, 1, 2, …, T)を時間により分割し、分割音声S’(i, t)(i=0, 1, …, I-1)を生成する(S810)。ここで、Iは発話音声s(t)を時間により分割する数(以下、分割数という)であり、例えば、Iは2〜4とすればよい。分割音声S’(i, t)は次のように表すことができる。
【0112】
【数8】
【0113】
音声認識部210は、S810で生成した分割音声S’(i, t)(i=0, 1, …, I-1)から、当該分割音声S’(i, t)に含まれる発話区間毎の音声認識結果W(i, j)(つまり、単語認識結果w(i, j)、単語開始時刻Ts(i, j)、単語終了時刻Te(i, j)の組)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。
【0114】
キーワード頻度計算部730は、キーワード辞書∪k=1KD(k)を用いて、S210で生成した音声認識結果W(i, j)(つまり、単語認識結果w(i, j)、単語開始時刻Ts(i, j)、単語終了時刻Te(i, j)の組)(i=0, 1, …, I-1, j=1, 2, …, J)から、分割音声S’(i, t)(i=0, 1, …, I-1)の特徴量であるキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)を計算する(S730)。
【0115】
なお、音声分割部810、音声認識部210、キーワード頻度計算部730を含む構成部を発話音声特徴量生成部805という(図21参照)。したがって、発話音声特徴量生成部805は、S810からS730までの処理を実行する。すなわち、発話音声特徴量生成部805は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)から生成した分割音声S’(i, t)(i=0, 1, …, I-1)の特徴量であるキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)を生成する(S805)。
【0116】
好感度推定部840は、好感度推定モデル880を用いて、S730で計算したキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S840)。好感度推定モデル880は、発話音声から生成した分割音声の特徴量であるキーワード頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル880はキーワード頻度と好感度との関連性を示すものである。なお、好感度推定モデル880の学習方法は、第1実施形態と同様でよい。
【0117】
(変形例)
好感度推定部840は、好感度推定モデル880を用いて好感度を推定したが、好感度推定モデル880の代わりに、機械学習以外の方法で取得した、発話音声から生成した分割音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部840は、キーワード頻度と好感度との関連性に基づいて、S730で計算したキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S840)。
【0118】
以上まとめると、特徴量は、発話音声を時間により分割した分割音声に現れるキーワードの頻度であり、キーワードは、感謝、謝罪、恐縮、言い淀みのいずれかを表す言葉である。また、この場合、好感度推定モデルを含む関連性は、キーワードが感謝を表す言葉である場合は、発話後半の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなり、キーワードが謝罪を表す言葉である場合は、発話冒頭の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなり、キーワードが恐縮を表す言葉である場合は、発話冒頭または発話最後の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなり、キーワードが言い淀みを表す言葉である場合は、発話最後または発話最後の直前の何れかの区間の分割音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0119】
ここで、発話後半の区間とは、発話を2分割する場合は2/2の区間、3分割する場合は3/3の区間、4分割する場合は3/4の区間と4/4の区間のことをいう。また、発話冒頭の区間とは、発話を2分割する場合は1/2の区間、3分割する場合は1/3の区間、4分割する場合は1/4の区間のことをいう。発話最後の区間とは、発話を2分割する場合は2/2の区間、3分割する場合は3/3の区間、4分割する場合は4/4の区間のことをいう。発話最後の直前の区間とは、発話を3分割または4分割する場合において、発話最後の区間の1つ前の区間(つまり、2/3の区間、3/4の区間)のことをいう。なお、発話最後の直前の区間は、発話を2分割する場合には定義しない。
【0120】
一般に、発話後半の区間とは、発話を2n-1分割する場合(n≧2)はn+1/2n-1の区間から2n-1/2n-1の区間までの区間、2n分割する場合(n≧1)はn+1/2nの区間から2n/2nの区間までの区間のことをいう。また、発話冒頭の区間とは、発話をn分割する場合(n≧2)は1/nの区間のことをいう。発話最後の区間とは、発話をn分割する場合(n≧2)はn/nの区間のことをいう。発話最後の直前の区間とは、発話をn分割する場合(n≧3)はn-1/nの区間のことをいう。
【0121】
(変形例2)
キーワードの属性及び分割数に応じて異なるキーワード頻度が高くなる区間に着目、当該分割区間の分割音声に現れるキーワードの頻度に基づいて好感度の推定を行うようにしてもよい。
【0122】
以下、図21図22を参照して好感度推定装置801について説明する。図21は、好感度推定装置801の構成を示すブロック図である。図22は、好感度推定装置801の動作を示すフローチャートである。図21に示すように好感度推定装置801は、音声分割部811、音声認識部210、キーワード頻度計算部730、好感度推定部740、記録部890を含む。記録部890は、好感度推定装置801の処理に必要な情報を適宜記録する構成部である。
【0123】
好感度推定装置801は、好感度推定に際して、好感度推定モデル780とキーワード辞書885を読み込み、処理を実行する。
【0124】
好感度推定装置801は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0125】
図22に従い好感度推定装置801の動作について説明する。
【0126】
音声分割部811は、所定の分割数I0を用いて発話音声s(t)(t=0, 1, 2, …, T)を時間により分割し、所定の分割音声S’(i0, t)(i0は0≦i0≦I0-1を満たす整数)を生成する(S811)。ここで、i0は着目する区間を示すインデックスである。分割数I0と着目する区間のインデックスi0について、具体的に説明する。図20を見るとわかるように、最も有意差が生じる分割数とその区間は、キーワードの属性に応じて異なる。例えば、キーワードが感謝を表す言葉である場合、2分割での2/2の区間が最も有意差が生じる区間となる。そこで、キーワードの属性aに応じて、分割数を指定する関数と着目する区間を指定する関数の組(g, h)を導入する。I0=g(a), i0=h(a)とすると、a=”感謝”の場合、g(a)=2, h(a)=1、a=”謝罪”の場合、g(a)=4, h(a)=0、a=”恐縮”の場合、g(a)=3, h(a)=0、a=”言い淀み”の場合、g(a)=4, h(a)=2となる。したがって、この場合は、I0=2(a=”感謝”)のときはi0=1、I0=3(a=”恐縮”)のときはi0=0、I0=4(a=”謝罪”または”言い淀み”)のときはi0=0またはi0=2として、分割音声S’(i0, t)を生成すればよい。分割音声S’(i0, t)は次式のようになる。
【0127】
【数9】
【0128】
なお、キーワードが感謝を表す言葉である場合の2/2の区間のことを単に着目区間という。キーワードが謝罪、恐縮、言い淀みを表す言葉である場合は、1/4の区間、1/3の区間、3/4の区間がそれぞれ着目区間となる。
【0129】
音声認識部210は、S811で生成した分割音声S’(i0, t)から、当該分割音声S’(i0, t)に含まれる発話区間毎の音声認識結果W(i0, j)(つまり、単語認識結果w(i0, j)、単語開始時刻Ts(i0, j)、単語終了時刻Te(i0, j)の組)(j=1, 2, …,J、jは発話区間番号を表す)を生成する(S210)。
【0130】
キーワード頻度計算部730は、キーワード辞書∪k=1KD(k)を用いて、S210で生成した音声認識結果W(i0, j)(つまり、単語認識結果w(i0, j)、単語開始時刻Ts(i0, j)、単語終了時刻Te(i0, j)の組)(j=1, 2, …, J)から、分割音声S’(i0, t)の特徴量であるキーワード頻度f(i0, k) (k=1, 2, …, K)を計算する(S730)。
【0131】
なお、音声分割部811、音声認識部210、キーワード頻度計算部730を含む構成部を発話音声特徴量生成部806という(図21参照)。したがって、発話音声特徴量生成部806は、S811からS730までの処理を実行する。すなわち、発話音声特徴量生成部806は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)から生成した所定の分割音声S’(i0, t)の特徴量であるキーワード頻度f(i0, k) (k=1, 2, …, K)を生成する(S806)。
【0132】
好感度推定部740は、好感度推定モデル780を用いて、S730で計算したキーワード頻度f(i0, k)(k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S740)。
【0133】
以上まとめると、発話音声の特徴量としてキーワードの属性に応じて定まる分割区間(以下、着目区間という)の分割音声に現れるキーワードの頻度を用いる場合、好感度推定モデルを含む関連性は、キーワードが感謝、謝罪、恐縮のいずれかを表す言葉である場合は、着目区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いことを示すものとなり、キーワードが言い淀みを表す言葉である場合は、着目区間の分割音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いことを示すものとなる。
【0134】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0135】
<第9実施形態>
声の高さの時間的変化について、好感度の高いオペレータと好感度の低いオペレータの間で違いがみられる。具体的には、顧客対応開始時点では、好感度の高いオペレータ、好感度の低いオペレータいずれも声の高さは一定しているが、時間が経過し、対応の後半になると、好感度の高いオペレータは声の高さを維持している一方で、好感度の低いオペレータは声の高さが変化してくる。
【0136】
また、声帯振動の周期的な乱れの特徴量であるジッタ(Jitter)も好感度の高いオペレータと低いオペレータ間で時間変化が現れる。以下、具体的に説明する。ジッタの値が大きいと、声帯振動が乱れ、かすれ声になる。また、母音が明瞭に発声されている場合、ジッタは急峻(短時間)に大きい値になるが、不明瞭に発声されている場合は、ジッタは急峻に大きい値にはならず、ゆるやかに増加する。好感度の低いオペレータは、対応の後半ではかすれ声または不明瞭な発声となりがちであり、ジッタの傾向が前半と後半で変化する。
【0137】
その結果、好感度の高いオペレータは好感度の高い応対を維持しているのに対して、好感度の低いオペレータは好感度の高い応対を維持することができない。そこで、本実施形態では、声の高さのような音響特徴量の時間的変化に基づいて、好感度を推定する。
【0138】
以下、図23図24を参照して好感度推定装置900について説明する。図23は、好感度推定装置900の構成を示すブロック図である。図24は、好感度推定装置900の動作を示すフローチャートである。図23に示すように好感度推定装置900は、音声分割部810、音響特徴量抽出部930、好感度推定部940、記録部990を含む。記録部990は、好感度推定装置900の処理に必要な情報を適宜記録する構成部である。
【0139】
好感度推定装置900は、好感度推定に際して、好感度推定モデル980を読み込み、処理を実行する。なお、好感度推定モデル980は、図23のように外部の記録部に記録するよう構成してもよいし、記録部990に記録するよう構成してもよい。
【0140】
好感度推定装置900は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0141】
図24に従い好感度推定装置900の動作について説明する。音声分割部810は、発話音声s(t)(t=0, 1, 2, …, T)を時間により分割し、分割音声S’(i, t)(i=0, 1, …, I-1)を生成する(S810)。
【0142】
音響特徴量抽出部930は、S810で生成した分割音声S’(i,t) (i=0,1,2,…,I-1)から、音響特徴量c(i)を抽出する(S930)。例えば、音響特徴量c(i)は声の高さや強さ、声帯振動の周期的な乱れを示すジッタに関する統計量(平均、分散、最大値、最小値)である。また、声の高さに関する統計量として、四分位数を用いてもよい。ジッタに関する統計量として、増加頻度(単位時間あたりにジッタの値が増加する頻度)や減少頻度(単位時間あたりにジッタの値が減少する頻度)を用いてもよい。この増加頻度や減少頻度は、急峻に値が大きくなる傾向、緩やかに大きくなる傾向などジッタの値の変化の様子を示すものとなる。
【0143】
なお、音響特徴量抽出部930は、例えば、参考非特許文献3に記載の方法を用いて音響特徴量を抽出することができる。
(参考非特許文献3:Florian Eyben, Martin Wollmer, Bjorn Schuller, “openSMILE: the munich versatile and fast open-source audio feature extractor”, Proceedings of the 18th ACM international conference on Multimedia (MM '10), pp.1459-1462, 2010.)
【0144】
なお、音声分割部810、音響特徴量抽出部930を含む構成部を発話音声特徴量生成部905という(図23参照)。したがって、発話音声特徴量生成部905は、S810からS930までの処理を実行する。すなわち、発話音声特徴量生成部905は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)から生成した分割音声S’(i, t)(i=0, 1, …, I-1)の特徴量である音響特徴量c(i)(i=0, 1, …, I-1)を生成する(S905)。
【0145】
好感度推定部940は、好感度推定モデル980を用いて、S930で抽出した音響特徴量c(i)(i=0, 1, …, I-1)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S940)。好感度推定モデル980は、発話音声から生成した分割音声の特徴量である音響特徴量を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル980は音響特徴量と好感度との関連性を示すものである。なお、好感度推定モデル980の学習方法は、第1実施形態と同様でよい。
【0146】
(変形例)
好感度推定部940は、好感度推定モデル980を用いて好感度を推定したが、好感度推定モデル980の代わりに、機械学習以外の方法で取得した、発話音声から生成した分割音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部940は、音響特徴量と好感度との関連性に基づいて、S930で抽出した音響特徴量c(i)(i=0, 1, …, I-1)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S940)。
【0147】
以上まとめると、特徴量は、発話音声を時間により分割した分割音声の音響特徴量である。また、音響特徴量として声の高さに関する平均またはジッタに関する統計量を用いる場合、好感度推定モデルを含む関連性は、発話後半の区間の音響特徴量と発話前半の区間の音響特徴量の差が大きい場合の方が小さい場合よりも話者の好感度が低いことを示すものとなる。
【0148】
ここで、発話前半の区間とは、発話を2分割する場合は1/2の区間、3分割する場合は1/3の区間、4分割する場合は1/4の区間と2/4の区間のことをいう。
【0149】
一般に、発話前半の区間とは、発話を2n-1分割する場合(n≧2)は1/2n-1の区間からn-1/2n-1の区間までの区間、2n分割する場合(n≧1)は1/2nの区間からn/2nの区間までの区間のことをいう。
【0150】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0151】
<第10実施形態>
第8実施形態や第9実施形態では、発話音声を時間長で単純に等分割した分割音声の特徴量を用いて好感度を推定している。しかし、実際のコールセンターでのオペレータの発話は、「オープニング」、「用件確認」、「契約確認」、「用件対応」、「クロージング」などいくつかのフェーズで構成されている。「オープニング」や「クロージング」のような、オペレータによる対応がマニュアル化(テンプレート化)されている区間より、「用件対応」のように、その対応が個別の通話ごとに変わる区間(オペレータによる対応がマニュアル化(テンプレート化)されていない区間)の方が好感度により影響を与える。
【0152】
そこで、本実施形態では、発話音声をフェーズにより分割した分割音声の音響特徴量に基づいて、好感度を推定する。
【0153】
以下、図25図26を参照して好感度推定装置1000について説明する。図25は、好感度推定装置1000の構成を示すブロック図である。図26は、好感度推定装置1000の動作を示すフローチャートである。図25に示すように好感度推定装置1000は、フェーズ推定分割部1010、音響特徴量抽出部930、好感度推定部1040、記録部1090を含む。記録部1090は、好感度推定装置1000の処理に必要な情報を適宜記録する構成部である。
【0154】
好感度推定装置1000は、好感度推定に際して、好感度推定モデル1080を読み込み、処理を実行する。なお、好感度推定モデル1080は、図25のように外部の記録部に記録するよう構成してもよいし、記録部1090に記録するよう構成してもよい。
【0155】
好感度推定装置1000は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0156】
図26に従い好感度推定装置1000の動作について説明する。
【0157】
フェーズ推定分割部1010は、発話音声s(t)(t=0, 1, 2, …, T)を構成するフェーズを推定し、発話音声s(t)をフェーズにより分割し、分割音声S’(i, t)(i=0, 1, …, I-1)を生成する(S1010)。ここで、Iは発話音声s(t)をフェーズにより分割する数(以下、分割数という)である。各フェーズi(i=0, 1, …, I-1)は、大きく、オペレータによる対応がマニュアル化されている区間(以下、定型区間という)とオペレータによる対応がマニュアル化されていない区間(以下、不定型区間という)に区別される。フェーズの推定には、例えば、参考非特許文献4に記載の方法を用いることができる。
(参考非特許文献4:Takaaki Fukutomi, Satoshi Kobashikawa, Taichi Asami, Tsubasa Shinozaki, Hirokazu Masataki and Satoshi Takahashi, “Extracting call-reason segments from contact center dialogs by using automatically acquired boundary expressions”, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2011), pp.5584-5587, 2011.)
【0158】
音響特徴量抽出部930は、S1010で生成した分割音声S’(i,t) (i=0,1,2,…,I-1)から、音響特徴量c(i)を抽出する(S930)。
【0159】
なお、フェーズ推定分割部1010、音響特徴量抽出部930を含む構成部を発話音声特徴量生成部1005という(図25参照)。したがって、発話音声特徴量生成部1005は、S1010からS930までの処理を実行する。すなわち、発話音声特徴量生成部1005は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)から生成した分割音声S’(i, t)(i=0, 1, …, I-1)の特徴量である音響特徴量c(i)(i=0, 1, …, I-1)を生成する(S1005)。
【0160】
好感度推定部1040は、好感度推定モデル1080を用いて、S930で抽出した音響特徴量c(i)(i=0, 1, …, I-1)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S1040)。好感度推定モデル1080は、発話音声から生成した分割音声の特徴量である音響特徴量を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル1080は音響特徴量と好感度との関連性を示すものである。なお、好感度推定モデル1080の学習方法は、第1実施形態と同様でよい。
【0161】
(変形例)
好感度推定部1040は、好感度推定モデル1080を用いて好感度を推定したが、好感度推定モデル1080の代わりに、機械学習以外の方法で取得した、発話音声から生成した分割音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部1040は、音響特徴量と好感度との関連性に基づいて、S930で抽出した音響特徴量c(i) (i=0, 1, …, I-1)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S1040)。
【0162】
以上まとめると、特徴量は、発話音声をフェーズにより分割した分割音声の音響特徴量であり、好感度推定モデルを含む関連性は、フェーズがオペレータによる対応がマニュアル化されていない区間である場合の分割音声の音響特徴量の方が、フェーズがオペレータによる対応がマニュアル化されている区間である場合の分割音声の音響特徴量よりも話者の好感度に影響を与えるものとなる。
【0163】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0164】
<第11実施形態>
第8実施形態で用いたキーワード頻度と第9実施形態で用いた音響特徴量の組み合わせを用いて好感度を推定するようにしてもよい。そこで、本実施形態では、上記2つの特徴量を用いて好感度を推定する構成について説明する。
【0165】
以下、図27図28を参照して好感度推定装置1100について説明する。図27は、好感度推定装置1100の構成を示すブロック図である。図28は、好感度推定装置1100の動作を示すフローチャートである。図27に示すように好感度推定装置1100は、音声分割部810、音響特徴量抽出部930、音声認識部210、キーワード頻度計算部730、好感度推定部1140、記録部1190を含む。記録部1190は、好感度推定装置1100の処理に必要な情報を適宜記録する構成部である。
【0166】
好感度推定装置1100は、好感度推定に際して、好感度推定モデル1180とキーワード辞書885を読み込み、処理を実行する。なお、好感度推定モデル1180やキーワード辞書885は、図27のように外部の記録部に記録するよう構成してもよいし、記録部1190に記録するよう構成してもよい。
【0167】
好感度推定装置1100は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者に対する好感度を推定し、出力する。
【0168】
図28に従い好感度推定装置1100の動作について説明する。S810からS730までの処理は、第8実施形態や第9実施形態までのそれと同じである。
【0169】
なお、音声分割部810、音響特徴量抽出部930、音声認識部210、キーワード頻度計算部730を含む構成部を発話音声特徴量生成部1105という(図27参照)。したがって、発話音声特徴量生成部1105は、S810からS730までの処理を実行する。すなわち、発話音声特徴量生成部1105は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)から生成した分割音声S’(i, t)(i=0, 1, …, I-1)の特徴量である、音響特徴量c(i)(i=0, 1, …, I-1)とキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)を生成する(S1105)。
【0170】
好感度推定部1140は、好感度推定モデル1180を用いて、S930で抽出した音響特徴量c(i)(i=0, 1, …, I-1)とS730で計算したキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S1140)。好感度推定モデル1180は、発話音声から生成した分割音声の特徴量である音響特徴量とキーワード頻度を入力とし、話者の好感度を出力するものである。つまり、好感度推定モデル1180は音響特徴量とキーワード頻度の組と好感度との関連性を示すものである。なお、好感度推定モデル1180の学習方法は、第1実施形態と同様でよい。
【0171】
(変形例)
好感度推定部1140は、好感度推定モデル1180を用いて好感度を推定したが、好感度推定モデル1180の代わりに、機械学習以外の方法で取得した、発話音声から生成した分割音声の特徴量と話者の好感度との関連性に基づいて好感度を推定するようにしてもよい。つまり、好感度推定部1140は、音響特徴量とキーワード頻度の組と好感度との関連性に基づいて、S930で抽出した音響特徴量c(i)(i=0, 1, …, I-1)とS730で計算したキーワード頻度f(i, k) (i=0, 1, …, I-1, k=1, 2, …, K)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の好感度を推定する(S1140)。
【0172】
以上まとめると、分割音声の特徴量と話者の好感度との関連性は、以下のような性質を有する。
(1)好感度推定に用いる特徴量に、発話音声を時間により分割した分割音声に現れるキーワード(感謝、謝罪、恐縮、言い淀みのいずれかを表す言葉)の頻度が含まれる場合、キーワードが感謝を表す言葉である場合は、発話後半の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いと推定されやすく、キーワードが謝罪を表す言葉である場合は、発話冒頭の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いと推定されやすく、キーワードが恐縮を表す言葉である場合は、発話冒頭または発話最後の区間の分割音声に現れるキーワードの頻度が大きい場合の方が小さい場合よりも話者の好感度が高いと推定されやすく、キーワードが言い淀みを表す言葉である場合は、発話最後または発話最後の直前の何れかの区間の分割音声に現れるキーワードの頻度が小さい場合の方が大きい場合よりも話者の好感度が高いと推定されやすい。
(2)好感度推定に用いる特徴量に、発話音声を時間により分割した分割音声の声の高さに関する平均が含まれる場合、発話後半の区間の音響特徴量と発話前半の区間の音響特徴量の差が大きい場合の方が小さい場合よりも話者の好感度が低いと推定されやすい。
【0173】
なお、上記の特徴量に加えて、第6実施形態で用いた特徴量を用いるようにしてもよい。例えば、発話音声に現れる有声休止の頻度を用いる場合は、F0情報抽出部110、有声休止判定部120、第1判定結果集計部130を加えた構成にすればよいし、発話音声に現れる話者による相槌の頻度を用いる場合は、音声認識部210、第1相槌頻度計算部230を加えた構成にすればよいし、発話音声に現れる敬語を修正した回数を用いる場合は、音声認識部210、敬語修正部320、修正結果集計部330を加えた構成にすればよい。
【0174】
本発明によれば、F0の変動以外の発話音声の特徴を考慮して好感度を推定することが可能となる。これにより、より的確にコールセンターや店頭の窓口における応対の好感度を推定できるようになる。
【0175】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0176】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0177】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0178】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0179】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0180】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0181】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0182】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0183】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28