(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-223848(P2017-223848A)
(43)【公開日】2017年12月21日
(54)【発明の名称】話者認識装置
(51)【国際特許分類】
G10L 17/00 20130101AFI20171124BHJP
【FI】
G10L17/00 200C
G10L17/00 200Z
【審査請求】未請求
【請求項の数】2
【出願形態】OL
【全頁数】8
(21)【出願番号】特願2016-119448(P2016-119448)
(22)【出願日】2016年6月16日
(71)【出願人】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100067828
【弁理士】
【氏名又は名称】小谷 悦司
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100109438
【弁理士】
【氏名又は名称】大月 伸介
(72)【発明者】
【氏名】辻川 美沙貴
(57)【要約】
【課題】雑音などの外乱や発話長が短い場合であっても、より高い精度で話者を認識すること。
【解決手段】音声入力部11から入力された音声について、不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベース12を用いて、分析部13は、i−vectorと呼ばれる特徴量を、前記大規模音声データベースを利用して抽出し、類似度計算部14は、前記大規模音声データベース12の不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算し、順位計算部15は、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算し、判定部16は、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
不特定多数話者または登録話者の音声又は音声モデルを有する大規模音声データベースを用いて、話者認識を行う話者認識装置であって、
音声が入力される音声入力部と、
入力された音声について、i−vectorと呼ばれる特徴量を前記大規模音声データベースを利用して抽出する分析部と、
前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算部と、
前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算部と、
前記順位計算処理で求められた順位があらかじめ定められた順位内である場合本人であると判定する判定部とを具備して構成されることを特徴とする話者認識装置。
【請求項2】
事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定める閾値決定部をさらに具備する、請求項1記載の話者認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は取得した音声信号に基づいて話者を認識する話者認識装置に関するものである。
【背景技術】
【0002】
従来の話者認識においては、一般的に、予め登録用の音声を収集し、収集した音声を分析することによって特徴量を抽出し、新たに取得する未知話者の音声と登録話者の音声との特徴量の類似度に基づいて本人かどうかを判断する手法がある。また,複数話者の音声との類似度を順位付けすることによって,話者認識を行う手法がある。
【0003】
特許文献1で説明される話者認識装置は、入力話者の音声を分析し特徴量を抽出して、登録された全話者との類似度について木構造を用いて求め、入力話者と前記登録された全話者との類似度を順位づけし、入力話者の主張する本人との類似度があらかじめ定められた順以内である場合に本人であると判定する。
【0004】
また、特許文献1内で従来の一般的な類似度のみに基づく話者認識方法および話者識別装置について述べ、前記順位による話者認識方法は類似度のみに基づく話者認識方法よりも種々の外乱に対して頑健であるとしている。
【0005】
非特許文献1では、話者認識のための高精度な特徴量として、i−vectorと呼ばれる話者固有の特徴量とその求め方について新たに提案している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第2991288号明細書
【非特許文献】
【0007】
【非特許文献1】Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4 (2011): 788-798.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来の話者認識において、精度低下の課題として雑音などの外乱が音声に付加される場合や、対象の音声が極端に短い場合が挙げられる。
【0009】
特許文献1では、各話者との類似度を順位付けすることにより外乱への頑健性を示しているが、特徴量について特定の手法を明示しておらず、また閾値の詳細な決定方法が未定であるため、外乱発生時において順位に基づく手法が類似度のみに基づく手法を上回る精度となる根拠や、より確実な手法が示されていない。また、精度低下要因について外乱への頑健性は論じられているが、単語レベルの短い発話については言及されていない。
【0010】
本発明は、i−vectorと名付けられた特徴量を話者固有のモデルとして音声より抽出し、実験結果等を元により精度が高い話者認識方法および話者認識装置を提供することを目的とするものである。
【課題を解決するための手段】
【0011】
本発明の一局面に係る話者認識方法は、あらかじめ大規模な不特定多数話者または登録話者の音声や音声モデルなどを有する大規模音声データベースを用いて、未知話者の音声が入力される音声入力処理と、入力された音声についてi−vectorと呼ばれる特徴量を前記大規模データベースを利用して抽出する分析処理と、前記大規模音声データベースの不特定多数話者の音声モデルおよび登録話者音声モデルと前記入力された音声の特徴量との類似度を計算する類似度計算処理と、前記入力された音声の特徴量と入力話者が主張する登録話者モデルとの類似度が全話者モデルの中で何番目に大きいかを計算する順位計算処理と、前記順位計算処理で求められた順位があらかじめ定められた順位内である場合に主張する本人であると判定する判定処理によって提供される。
【0012】
本構成によって、未知話者の音声信号が取得される。取得された音声信号から固有の特徴量であるi−vectorが抽出される。i−vectorを話者固有の特徴量として抽出する手法は多数の話者の音声から得られる一般的な音声の特徴量分布を使用する必要があり、大規模音声データベースの情報を使用することができる。i−vectorは数百程度の数値列として表されるため類似度の算出が容易である。また、外乱に頑健であり、雑音や入力時の機器の違いの影響が少ない。抽出された未知話者の特徴量と、あらかじめ大規模音声データベースに登録された大規模な不特定多数話者の音声モデルや登録話者のモデルとの類似度が算出される。算出された類似度を大きい順に順位付けし、未知話者が主張する登録話者との類似度が所定の順位内であれば当人と判定される。大規模音声データベースの話者音声はあらかじめ、雑音の有無や発話長、発話内容など収集された音声の条件を選択することが可能である。比較対象の話者音声について、雑音の少ない、発話長の充分な音声を利用することによって、未知話者音声への外乱の発生や、単語レベルの極端な短い発話であっても、安定した順位が期待できる。
【0013】
したがって、大規模音声データベースを用いて外乱に頑健な特徴量での類似度による不特定多数の話者および登録話者の順位付けを行うことで、より精度の高い話者認識が可能である。
【0014】
また、上記の話者認識方法において、事前に登録話者として開発用話者を用いて同様に判定を行い、本人が棄却される確率と詐称者が受理される確率を閾値となる順位ごとに算出し、最も誤り率の低くなる順位を本人であると判定するための順位として定めてもよい。
【0015】
本構成によって、開発用話者における所定の順位ごとの本人が棄却される確率と詐称者が受理される二種類の認識誤り率が算出される。開発用話者において最も話者認識精度が高くなる順位が閾値と決定される。
【0016】
したがって、未知話者の判定において開発用話者音声によって定められた順位を使用することができるので、より高い精度で話者を認識することができる。
【発明の効果】
【0017】
本発明によれば、雑音などの外乱や極端に短い発話などの話者認識における悪環境下でも、より高い精度で話者を認識することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施の形態1における話者識別装置の構成を示す図である。
【
図2】本発明の実施の形態2における話者識別装置の構成を示す図である。
【
図3】本発明の実施の形態3における閾値順位決定のためのグラフを示す図である。
【発明を実施するための形態】
【0019】
以下添付図面を参照しながら、本発明の実施の形態について説明する。なお、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。
【0020】
(実施の形態1)
図1は、本実施の形態1における話者認識装置の構成を示す図である。話者認識装置は、例えば、テレビ、スマートホン又はカーナビゲーション装置などに内蔵される。
【0021】
図1に示す話者認識装置は、音声入力部11、大規模音声データベース12、分析部13、類似度計算部14、順位計算部15、判定部16で構成される。
【0022】
音声入力部11は、例えばマイクロフォンで構成され、未知話者音声を収集し、収集した音声を音声信号に変換して出力する。
【0023】
大規模音声データベース12は、例えばクラウド上に配置された記憶装置であり、音声データまたは音声モデルを保持する。大規模音声データベースには、登録話者が含まれない不特定多数の話者の音声または音声モデルを保持する不特定多数話者音声データベースや、入力される未知話者が判定される対象である登録話者の音声または音声モデルを保持する登録話者音声データベースが含まれるが、この構成に限らず多数の話者の音声を保持していてもよい。
【0024】
分析部13は、音声入力部11から入力された音声信号を分析し、未知話者によって発話された音声の特徴量を算出する。ここで、i−vectorと呼ばれる式M=m+Twで求められる特徴量wが話者固有の特徴量として算出される。この式におけるMは、入力される話者個人を示す特徴量であり、例えばMFCC(Mel Frequency Cepstral Coefficient)という音声の周波数スペクトルを分析して得られる数値列を正規分布の重なりで表現する手法であるGMM(Gaussian Mixture Model)およびGMMスーパーベクトルなどが使用される。mは、多数の話者音声からMと同様にして得られる特徴量が使用される。このmにおけるGMMはUBM(Universal Background Model)と呼ばれる。TはMで求められた一般的な話者の特徴量空間を網羅することができる基底ベクトルである。wが本発明で使用される特徴量となる。各々の詳細な抽出方法などは非特許文献1および関連文献に記述されるため省略する。UBMを生成するために使用される話者音声は、音声データの一般的な特徴量を示すために、環境や話者性、発話内容などが多様かつ多量であるほど精度が良いとされる。したがって、分析部13は、大規模音声データベース12における多数の話者音声を使用して特徴量を抽出する。
【0025】
類似度計算部14は分析部13で算出された未知話者の特徴量wと大規模音声データベース12上の全てまたは一部の音声モデルとを比較し、類似度を算出する。特徴量および音声モデルは数百程度の数値列であるため、例えば非特許文献1内で示されるCosine distance scoringによって簡易に類似度を算出することができる。Cosine distance scoringは類似度が高い場合は1に近い値となり、類似度が低い場合には−1に近い値となる。また、類似度の算出手法は上記に限定されない。
【0026】
順位計算部15は、類似度計算部14で求められた類似度を大きい順に順位付けし、入力された未知話者の特徴量と、大規模音声データベース上の未知話者が本人であると主張する登録話者モデルとの類似度が類似度計算部14で算出した全類似度の中で何番目であるかを算出する。
【0027】
判定部16は、順位計算部15で算出された順位から、未知話者が主張する登録話者であるかどうかを判定する。算出された順位があらかじめ定められた順位より高い場合、主張する登録話者であると判定する。
【0028】
(実施の形態2)
図2は、本実施の形態2における話者認識装置の構成を示す図である。
図2において、
図1およびと同じ構成要素については同じ符号を用い、説明を省略する。
【0029】
実施の形態2における話者認識装置は、話者認識時の処理前に閾値決定時の処理が実施される。実施の形態1における処理は話者認識時処理とする。
【0030】
実施の形態2における閾値決定時の処理において、音声入力部11は開発用話者音声が入力され、入力された音声を音声信号に変換して出力する。開発用話者音声は音声の発話者が既知のものであり、登録話者とは異なる話者であってもよいし、登録話者と重複していてもよい。
【0031】
分析部13、類似度計算部14、順位計算部15は大規模音声データベース12上の開発用話者音声およびモデルを用いて実施の形態1で説明された処理を行い、順位を算出する。
【0032】
閾値決定部17は順位計算部15によって算出された順位から開発用話者音声の認識誤り率を算出することで、適切な閾値となる順位を決定する。例えば、閾値となる順位を100位としたときの、開発用話者音声の認識誤り率が算出される。誤り率には、本人であるはずの音声を他者と判定してしまう確率(本人拒否率)と詐称者であるはずの音声を本人と判定してしまう確率(他人受入率)がある。開発用話者音声のうちある1名Aを選出し、残りを詐称者と考える。Aの発話を入力し、実施の形態1のように話者Aのモデルとの類似度が類似度を算出した話者中何位であるかを求め、100位以下であれば本人拒否となる。また、A以外の詐称者の発話を入力し、同様に類似度に基づく順位を算出し、話者Aのモデルとの類似度が100位以内であれば詐称者をAと判定することになってしまい、他人受入となる。以上のように二種類の誤り率をたとえば100位まで10位刻みに、100位以上は100位刻みに算出し、二種類の認識誤り率が交差する順位が最も誤り率が低くなる適切な閾値の順位として決定される。
図3は、女性10名の短い発話を開発用話者として入力した場合の二種類の誤り率を前記手法で算出し、グラフにしたものである。縦軸が誤り率、横軸が閾値とした順位であり、破線が本人拒否率、実線が他人受入率を示す。
図3において、おおよそ200位程度が適切な閾値と決定される。決定された閾値となる順位は、話者認識時の処理における判定部16で判定に使用される。
【0033】
実施の形態2における話者認識時の処理では、判定部16は閾値決定部17が算出した閾値順位を使用して入力される未知話者が主張する話者であるかを判定する。
【産業上の利用可能性】
【0034】
本発明に係る話者認識方法及び話者認識装置は、大規模データベース上の音声データを使用することにより、雑音などの外乱や発話長の不足がある場合でも、より高い精度で話者を識別することができ、取得した音声信号に基づいて話者を認識する話者認識方法及び話者認識装置として有用である。
【符号の説明】
【0035】
11 音声入力部
12 大規模音声データベース
13 分析部
14 類似度計算部
15 順位計算部
16 判定部
17 閾値決定部