特許第6804639号(P6804639)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6804639属性識別装置、属性識別方法、プログラム
<>
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000010
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000011
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000012
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000013
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000014
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000015
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000016
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000017
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000018
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000019
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000020
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000021
  • 特許6804639-属性識別装置、属性識別方法、プログラム 図000022
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6804639
(24)【登録日】2020年12月4日
(45)【発行日】2020年12月23日
(54)【発明の名称】属性識別装置、属性識別方法、プログラム
(51)【国際特許分類】
   G10L 17/00 20130101AFI20201214BHJP
   G10L 17/02 20130101ALI20201214BHJP
【FI】
   G10L17/00 200C
   G10L17/02
【請求項の数】8
【全頁数】16
(21)【出願番号】特願2019-519570(P2019-519570)
(86)(22)【出願日】2018年5月11日
(86)【国際出願番号】JP2018018388
(87)【国際公開番号】WO2018216511
(87)【国際公開日】20181129
【審査請求日】2019年10月10日
(31)【優先権主張番号】特願2017-103384(P2017-103384)
(32)【優先日】2017年5月25日
(33)【優先権主張国】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年3月1日発行の「日本音響学会2017年春季研究発表会講演論文集(講演要旨・講演論文CD−ROM)」にて公開
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】神山 歩相名
(72)【発明者】
【氏名】小橋川 哲
(72)【発明者】
【氏名】安藤 厚志
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2015−184378(JP,A)
【文献】 特開2006−121611(JP,A)
【文献】 特開2006−208483(JP,A)
【文献】 特開2005−140988(JP,A)
【文献】 特開2011−175587(JP,A)
【文献】 米国特許出願公開第2014/0330566(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/26
(57)【特許請求の範囲】
【請求項1】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
【請求項2】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、
前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
【請求項3】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部と
を含む属性識別装置であって、
前記属性識別結果生成部は、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別装置。
【請求項4】
請求項1ないし3のいずれか1項に記載の属性識別装置であって、
前記信頼度算出部は、
クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを用いて、前記信頼度r(c)を算出する
ことを特徴とする属性識別装置。
【請求項5】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
【請求項6】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップと、
前記属性識別装置が、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
【請求項7】
Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、
属性識別装置が、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出ステップと、
前記属性識別装置が、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成ステップと
を含む属性識別方法であって、
前記属性識別結果生成ステップは、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出ステップを含み、
前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出ステップにおいて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする
属性識別方法。
【請求項8】
請求項1ないし4のいずれか1項に記載の属性識別装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声から話者の属性を識別する技術に関する。
【背景技術】
【0002】
音声対話ロボットやコールセンターにおけるマーケティング情報収集のために、音声から属性(例えば、性別や年代)を識別する技術が必要とされている。属性識別のための従来技術として、GMM(Gaussian Mixture Model)を用いて属性を識別する方法(非特許文献1)やSVM(Support Vector Machine)を用いて音声から抽出したi-vectorにより属性を識別する方法などがある。
【0003】
これらの従来技術では、周囲の雑音の影響により、属性を誤識別してしまうことある。特に、音声や音楽が含まれるラジオ放送やテレビ放送等が雑音(以下、テレビ雑音ともいう)として発話音声に重畳した場合、複数の音声が混在してしまう。この場合、発話音声とテレビ雑音に含まれる音声とを区別することが難しいため、属性を誤って識別することになる。
【0004】
そこで、予め雑音を重畳した音声を対象に機械学習を行うことにより、頑健な属性識別を実現する方法も提案されている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】宮森翔子,西村竜一,栗原理沙,入野俊夫,河原英紀,“ちょっとした一言の音声認識による子ども利用者判別法の検討”,FIT(電子情報通信学会・情報処理学会)運営委員会,情報科学技術フォーラム講演論文集 9(3),pp.469-472,2010.
【非特許文献2】中村哲,“実音響環境に頑健な音声認識を目指して”,電子情報通信学会,信学技報,EA2002-12,SP2002-12,pp.31-36,2002.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、テレビ雑音に含まれる音声や音楽の影響による雑音状況は非常に多岐にわたるため、どのような雑音状況に対しても頑健に動作するように網羅的に学習することは不可能である。また、一部の雑音状況に限定した学習データを用いて学習すると、雑音に含まれる音声を属性識別の特徴として学習してしまうため、かえって静音環境下での識別において誤りを発生させる原因にもなりうる。そのため、ユーザの満足度の度合い(以下、ユーザビリティという)を考慮するならば、誤った識別結果を与えるよりはその結果を棄却する方がよいが、一律に属性識別結果を出すことにより、ユーザビリティが低下してしまうという問題が生じていた。
【0007】
そこで本発明では、属性識別結果の信頼度が低い場合に当該結果を棄却することができる属性識別技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)と前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
【0009】
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部と、前記信頼度r(c)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記信頼度r(c)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記最尤推定クラスc^の信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
【0010】
本発明の一態様は、Iを0以上の整数、発話音声の話者を識別するためのクラスの集合を属性とし、入力音声s(t)から、前記入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する事後確率算出部と、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、前記入力音声s(t)の属性識別結果Lを生成する属性識別結果生成部とを含む属性識別装置であって、前記属性識別結果生成部は、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcが正しい属性識別結果である程度を示す信頼度r(c)を算出する信頼度算出部を含み、前記事後確率系列{q(c,i)}(i=0,1,…,I)から、最も確からしい属性であると推定されるクラスである最尤推定クラスc^を求め、前記信頼度算出部を用いて前記最尤推定クラスc^の信頼度r(c^)を算出し、前記信頼度r(c^)が小さいことを示す所定の範囲にある場合は棄却を表すφを前記属性識別結果Lとし、それ以外の場合は前記最尤推定クラスc^を前記属性識別結果Lとする。
【発明の効果】
【0011】
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができる。
【図面の簡単な説明】
【0012】
図1】属性識別装置100の構成の一例を示すブロック図である。
図2】属性識別装置100の動作の一例を示すフローチャートである。
図3A】事後確率と信頼度の時間変化の一例を示す図である。
図3B】事後確率と信頼度の時間変化の一例を示す図である。
図4】属性識別装置101の構成の一例を示すブロック図である。
図5】属性識別装置101の動作の一例を示すフローチャートである。
図6】属性識別装置102の構成の一例を示すブロック図である。
図7】属性識別装置102の動作の一例を示すフローチャートである。
図8】信頼度算出モデル学習装置200の構成の一例を示すブロック図である。
図9】信頼度算出モデル学習装置200の動作の一例を示すフローチャートである。
図10A】事後確率の時間変化の一例を示す図である。
図10B】事後確率の時間変化の一例を示す図である。
図10C】事後確率の時間変化の一例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0014】
<定義>
以下、各実施形態で用いる用語について説明する。
【0015】
音声s(t)は、サンプリング周波数をfs[Hz]とした場合の、サンプル時間t(t=0,1,…,Tk-1、ただし、Tkは1以上の整数)における振幅である。また、特徴量x(i)は、音声s(t)のフレームi(i=0,1,…,I、ただし、Iは0以上の整数であり、I+1は音声s(t)から生成されたフレーム数を表す)から抽出される特徴量である。例えば、MFCC(Mel-Frequency Cepstral Coefficient)や基本周波数を特徴量として、適切な分析フレーム幅とフレームシフト(例えば、分析フレーム幅50ms、フレームシフト25ms)で抽出することができる。
【0016】
属性とは、発話音声の話者を識別するためのクラス(属性値)の集合のことである。例えば、属性“性別”に対しては、クラスとして「男性」、「女性」がある。属性“年代”に対しては、クラスとして「10代」、「20代」、「30代」などがある。また、性別と年代を組み合わせた属性を考えてもよく、この場合、例えば、クラスとして「成人男性」、「成人女性」、「子ども」などが考えられる。一般に、クラス(属性値)をc(c=0,1,…,C、ただし、Cは0以上の整数であり、C+1はクラス数を表す)と表す。例えば、性別識別の場合の属性値cは、c=0のとき「男性」、c=1のとき「女性」を表すなどとすればよい。また、属性識別モデルλcは、フレームiの特徴量x(i)を入力として、特徴量がx(i)である場合にクラスがcである事後確率p(c|x(i))(c=0,1,…,C)を出力するモデルである。属性識別モデルλcは、例えば、DNN(Deep Neural Network)などのニューラルネットワークを用いて実現することができる。
【0017】
<第一実施形態>
以下、図1図2を参照して属性識別装置100について説明する。図1は、属性識別装置100の構成を示すブロック図である。図2は、属性識別装置100の動作を示すフローチャートである。図1に示すように属性識別装置100は、事後確率算出部110、信頼度算出部120、属性識別結果生成部130、記録部190を含む。記録部190は、属性識別装置100の処理に必要な情報を適宜記録する構成部である。例えば、属性識別結果生成部130が用いる閾値δを事前に記録しておく。
【0018】
また、属性識別装置100は、属性識別モデル930のデータを適宜読み込み、処理を実行する。なお、図1は、属性識別モデル930が外部の記録部に記録されている図となっているが、属性識別装置100に含まれる記録部190に記録するように構成してもよい。以下、本実施形態では、両者を区別することなく、属性識別モデルλcと表現する。
【0019】
属性識別装置100は、入力音声s(t)から、入力音声s(t)の話者に関する属性の識別結果である属性識別結果Lを生成し、出力する。
【0020】
図2に従い属性識別装置100の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。具体的には、事後確率算出部110は、属性識別モデルλcを用いて、入力音声s(t)のフレームiから抽出した特徴量x(i)がクラスcである事後確率p(c|x(i))を求め、q(c,i)=p(c|x(i))とする。ここで、0≦q(c,i)≦1(c=0,1,…,C、i=0,1,…,I)、Σcq(c,i)=1(i=0,1,…,I)が成り立つ。
【0021】
信頼度算出部120は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する(S120)。ここで、クラスcの信頼度r(c)は、クラスcが正しい属性識別結果である程度を示す値であり、信頼度r(c)を0≦r(c)≦1を満たし、かつ、1に近づけば近づくほど属性識別結果が確からしいことを示す指標として定義する。例えば、信頼度r(c)を、次式のようにクラスごとの事後確率の平均として定義してもよい。
【0022】
【数1】
【0023】
また、信頼度r(c)を、次式のようにクラスごとの事後確率の積を用いて定義してもよい。
【0024】
【数2】
【0025】
なお、式(2)を用いて信頼度r(c)を定義する場合、ほとんどの入力音声に対してr(c)が1に近い値(例えば、0.9999)となり、属性識別結果生成部130での最尤推定クラスc^を棄却するか否かを決定するための閾値δの設定が繊細となることがある。そこで、適当なパラメータv(0<v<1)を用いて、0から1の間をなだらかに変化する式xvを用いて、信頼度r(c)を次式のように定義してもよい。
【0026】
【数3】
【0027】
属性識別結果生成部130は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)とクラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する(S130)。具体的には、属性識別結果生成部130は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、次式により、最尤推定クラスc^を求める。式からわかるように、最尤推定クラスとは、最も確からしい属性であると推定されるクラスである。
【0028】
【数4】
【0029】
次に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
【0030】
なお、r(c^)<δまたはr(c^)≦δであることを、信頼度r(c^)が小さいことを示す所定の範囲にあるという。
【0031】
図3A及び図3Bは、事後確率の時間変化と、v=1/32とした場合の式(3)で定義される信頼度の時間変化を示す。図3Aは、入力音声のみの場合の事後確率と信頼度の変化、図3Bは、入力音声にテレビ雑音が重畳している場合の事後確率と信頼度の変化である。入力音声のみの場合は、入力音声の長さがある程度長くなると、信頼度が最終的に1に近い値をとるクラスが出現するのに対し、テレビ雑音を重畳した入力音声の場合は、各クラスとも入力音声のみの場合よりも低い値をとる傾向があり、1に近い値をとるクラスがないことがわかる。このような特徴が信頼度にあるため、最尤推定クラスの信頼度が所定の閾値δに達しない場合に、誤識別かもしれない確実性の低いクラスであるとして棄却することが可能となる。
【0032】
(変形例1)
属性識別装置100では、事後確率系列{q(c,i)}(i=0,1,…,I)を属性識別結果生成部130の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)を用いることなく、属性識別結果Lを生成するように構成してもよい。以下、図4図5を参照して属性識別装置101について説明する。図4は、属性識別装置101の構成を示すブロック図である。図5は、属性識別装置101の動作を示すフローチャートである。図4に示すように属性識別装置101は、事後確率算出部110、信頼度算出部120、属性識別結果生成部131、記録部190を含む。
【0033】
図5に従い属性識別装置101の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。信頼度算出部120は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する(S120)。
【0034】
属性識別結果生成部131は、クラスcの信頼度r(c)から、入力音声s(t)の属性識別結果Lを生成する(S131)。具体的には、属性識別結果生成部131は、まず、クラスcの信頼度r(c)から、次式により、最尤推定クラスc^を求める。
【0035】
【数5】
【0036】
次に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
【0037】
(変形例2)
また、属性識別装置100では、信頼度r(c)を属性識別結果生成部130の入力とするように構成したが、事後確率系列{q(c,i)}(i=0,1,…,I)のみを入力とするように構成してもよい。この場合、最尤推定クラスに対してのみ信頼度を算出することになる。以下、図6図7を参照して属性識別装置102について説明する。図6は、属性識別装置102の構成を示すブロック図である。図7は、属性識別装置102の動作を示すフローチャートである。図6に示すように属性識別装置102は、事後確率算出部110、属性識別結果生成部132、記録部190を含む。
【0038】
図7に従い属性識別装置102の動作について説明する。事後確率算出部110は、入力音声s(t)から、入力音声s(t)のフレームiがクラスcである事後確率q(c,i)の系列である事後確率系列{q(c,i)}(i=0,1,…,I)を算出する(S110)。
【0039】
属性識別結果生成部132は、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、入力音声s(t)の属性識別結果Lを生成する(S132)。具体的には、属性識別結果生成部132は、まず、事後確率系列{q(c,i)}(i=0,1,…,I)から、式(4)により、最尤推定クラスc^を求める。次に、属性識別結果生成部132は、最尤推定クラスc^の信頼度r(c^)を算出する。算出には式(1)〜(3)を用いることができ、例えば、属性識別結果生成部132が信頼度算出部120を含むように構成すればよい。最後に、信頼度r(c^)と閾値δ(0<δ<1)を比較し、r(c^)≧δ(またはr(c^)>δ)の場合、最尤推定クラスc^を属性識別結果Lとし、r(c^)<δ(またはr(c^)≦δ)の場合、最尤推定クラスc^を棄却し、棄却を表すφを属性識別結果Lとする。
【0040】
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができ、信頼できない識別結果をユーザに提示することによる不快感を抑制することができる。
【0041】
<第二実施形態>
第一実施形態では、式(1)〜(3)のような数式を用いて信頼度を算出した。第二実施形態では、数式を用いる代わりに、信頼度算出モデルを用いて信頼度を算出する。つまり、第二実施形態の属性識別装置は、信頼度算出モデルを用いて、クラスcの事後確率系列{q(c,i)}(i=0,1,…,I)から、クラスcの信頼度r(c)を算出する点においてのみ、第一実施形態の各属性識別装置と異なる。この信頼度算出モデルを学習するのが、信頼度算出モデル学習装置200である。信頼度算出モデルは、属性識別装置が処理を開始する前に属性識別装置の記録部に記録しておくことになる。
【0042】
以下、図8図9を参照して、信頼度算出モデル学習装置200について説明する。図8は、信頼度算出モデル学習装置200の構成を示すブロック図である。図9は、信頼度算出モデル学習装置200の動作を示すフローチャートである。図8に示すように信頼度算出モデル学習装置200は、雑音重畳音声生成部210、事後確率算出部110、属性識別結果生成部230、信頼度ラベル生成部240、信頼度算出モデル学習部250、記録部290を含む。記録部290は、信頼度算出モデル学習装置200の処理に必要な情報を適宜記録する構成部である。例えば、信頼度算出モデル学習部250が学習に用いる信頼度ラベル付き事後確率系列データベースを記録する。
【0043】
また、信頼度算出モデル学習装置200は、音声データベース910、雑音データベース920、属性識別モデル930の各データを適宜読み込み、処理を実行する。なお、図8は、音声データベース910、雑音データベース920、属性識別モデル930のそれぞれが外部の記録部に記録されている図となっているが、信頼度算出モデル学習装置200に含まれる記録部290に記録するように構成してもよい。
【0044】
音声データベース910は、M+1個の音声sm(t)(m=0,1,…,M、ただし、Mは0以上の整数)と音声sm(t)の属性ラベルAmの組である属性ラベル付き音声によって構成されるデータベースである。音声sm(t)の属性ラベルAmは、音声sm(t)の話者の属性値(クラス)であり、属性識別結果の正解を示すラベルである。また、雑音データベース920は、J+1個の雑音nj(t) (j=0,1,…,J、ただし、Jは0以上の整数)によって構成されるデータベースである。雑音データベース920に含まれる各雑音nj(t)は、例えば、実際のラジオ放送やテレビ放送のような音声・音楽を含むものである。属性識別モデル930は、第一実施形態で用いた属性識別モデルλcである。
【0045】
信頼度算出モデル学習装置200は、音声データベース910、雑音データベース920、属性識別モデル930を用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルを学習する。
【0046】
図9に従い信頼度算出モデル学習装置200の動作について説明する。雑音重畳音声生成部210は、音声データベース910の音声sm(t)(m=0,1,…,M)、雑音データベース920の雑音nj(t)(j=0,1,…,J)から、雑音重畳音声xm(t)を生成する(S210)。具体的には、雑音重畳音声生成部210は、ランダムな値j、α、aを音声sm(t)ごとに生成し、次式にて雑音重畳音声xm(t)を生成する。
【0047】
【数6】
【0048】
ここで、jは音声に重畳する雑音を選択するためのインデックスであり、0≦j≦Jである。また、αはSN比であり、音声と雑音のパワーが同程度のときはSN比-20dBから30dBの値、つまり、α=10-20/10〜1030/10とするとよい。aは使用する雑音の区間を選択する値であり、雑音nj(t)の時間長を超えない範囲でランダムに選択すればよい。
【0049】
事後確率算出部110は、雑音重畳音声xm(t)から、雑音重畳音声xm(t)のフレームiがクラスcである事後確率qm(c,i)の系列である事後確率系列{qm(c,i)}(i=0,1,…,Im、ただし、Imは0以上の整数)を算出する(S110)。
【0050】
属性識別結果生成部230は、クラスcの事後確率系列{qm(c,i)}(i=0,1,…,Im)から、音声sm(t)の属性識別結果Lmを生成する(S230)。具体的には、属性識別結果生成部230は、次式により、最尤推定クラスc^mを求め、最尤推定クラスc^mを属性識別結果Lmとする。
【0051】
【数7】
【0052】
信頼度ラベル生成部240は、音声sm(t)の属性ラベルAmを用いて、属性識別結果Lmから、信頼度算出モデルの学習に用いる信頼度ラベルrmを生成する(S240)。例えば、Lm=Amである(つまり、属性識別結果が正解である)場合にrm=1、それ以外である(つまり、属性識別結果が正解でない)場合にrm=0とする。
【0053】
【数8】
【0054】
信頼度ラベル生成部240は、最尤推定クラスc^mの事後確率系列{qm(c^m,i)}(i=0,1,…,Im)と信頼度ラベルrmの組である信頼度ラベル付き事後確率系列を記録部290に記録し、信頼度ラベル付き事後確率系列データベースを構成する。
【0055】
信頼度算出モデル学習部250は、信頼度ラベル付き事後確率系列データベースを用いて、クラスcの事後確率系列を入力として、クラスcの信頼度を出力する信頼度算出モデルλrを学習する(S250)。信頼度算出モデルλrは、時系列データを扱うため、例えば、LSTM(Long Short-Term Memory)、RNN(Recurrent Neural Network)などのニューラルネットワークとして構成するとよい。
【0056】
図10A図10B図10Cは、事後確率の時間変化を示す。図10Aは、雑音を重畳せずに正しい識別結果が得られたときの事後確率の変化、図10Bは、雑音重畳音声に対して正しい識別結果が得られたときの事後確率の変化、図10Cは、雑音重畳音声に対して正しい識別結果が得られなかったときの事後確率の変化である。図10B図10Cには、以下説明する2つの違いがある。
【0057】
図10Bのように正しい識別結果が得られたときは、ある特定のクラスが高い事後確率になりやすいのに対し、図10Cのように正しい識別結果が得られていないときは、複数のクラスが時間経過とともに交互に高い事後確率となる。また、図10Bのように正しい識別結果が得られたときは、ある程度時間が経過すると、事後確率が1に近い値で推移するのに対し、図10Cのように正しい識別結果が得られていないときは、時間が経過しても事後確率が比較的高い値を示すこともなく、また高い値になったとしてもその時間が比較的短い。
【0058】
このように、事後確率の時間変化のパターンが正しい識別結果が得られたときとそうでないときで異なるため、時系列データを扱うモデルとして信頼度算出モデルλrを学習することができ、信頼度を算出することが可能となる。
【0059】
本発明によれば、属性識別結果の確からしさを示す信頼度が低い場合に属性識別結果を棄却することにより、ユーザビリティの低下を防ぐことができ、信頼できない識別結果をユーザに提示することによる不快感を抑制することができる。
【0060】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0061】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0062】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0063】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0064】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0065】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0066】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0067】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0068】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0069】
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
図1
図2
図3A
図3B
図4
図5
図6
図7
図8
図9
図10A
図10B
図10C