(58)【調査した分野】(Int.Cl.,DB名)
前記部分特徴抽出手段は、前記音響多様度から複数の前記重みつきの音響多様度を算出し、前記複数の重みつきの音響多様度それぞれと前記音響特徴とから、複数の前記認識特徴量を算出する、請求項1に記載した音声処理装置。
前記話者認識計算手段は、前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、請求項5に記載した音声処理装置。
【発明を実施するための形態】
【0015】
以下に、図面を参照しながら、本開示の実施形態について詳細に説明する。なお、以下の説明では、同じ機能を有するものには同じ符号をつけ、その説明を省略する場合がある。
【0016】
(構成)
図1は、第1の実施形態に係る音声処理装置100のブロック図である。音声処理装置100は、音響統計量算出部11、音響モデル記憶部12、部分特徴抽出部13および部分特徴統合部14を備える。
(音響モデル記憶部12)
音響モデル記憶部12は、1つ以上の音響モデルを記憶する。音響モデルとは、音声信号の周波数特性と音の種類との対応関係を表すものである。音響モデルは、瞬時的な音声信号が表す音の種類を識別するように構成される。音響モデルの表現としては、例えば、ガウス混合モデル(GMM:Gaussian Mixture Model)やニューラルネットワーク(Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)がある。
【0017】
音の種類は、例えば、音声信号を類似度に基づいてクラスタリングして得られる音声信号のクラスタである。あるいは、音の種類は、音素等の言語知識により分類される音声信号のクラスである。
【0018】
音響モデル記憶部12が記憶する音響モデルは、訓練用に用意された音声信号(訓練用音声信号)を用いて、一般的な最適化基準に従って予め訓練された音響モデルである。音響モデル記憶部12は、例えば、話者の性別(男性または女性)、録音環境別(屋内または屋外)等のように複数の訓練用音声信号毎に訓練された2つ以上の音響モデルを記憶してもよい。
【0019】
なお、
図1の例では、音声処理装置100が音響モデル記憶部12を備えているが、音響モデル記憶部12は、音声処理装置100とは別個の記憶装置で実現されるものであってもよい。
(音響統計量算出部11)
音響統計量算出部11は、音声信号を受け取り、受け取った音声信号から音響特徴を算出し、算出した音響特徴と1つ以上の音響モデルとを用いて、音響多様度を算出し、算出した音響多様度および音響特徴を出力する。
【0020】
ここで、受け取るとは、例えば、外部の装置または他の処理装置から音声信号を受信すること、または、他のプログラムから処理結果の引き渡しを受けることである。また、音響多様度は、音声信号に含まれる音の種類のばらつきの程度を表すベクトルである。以降、ある音声信号から算出された音響多様度を、該音声信号の音響多様度と呼ぶ。そして、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへ処理結果を引き渡すことである。また、出力とは、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。
【0021】
まず、音響統計量算出部11が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順について説明する。
【0022】
音響統計量算出部11は、受け取った音声信号を短時間毎にフレームとして切り出して配列することにより時系列(短時間フレーム時系列)とし、フレームそれぞれを周波数分析し、周波数分析の結果として音響特徴を算出する。音響統計量算出部11は、例えば、短時間フレーム時系列として、25ミリ秒区間のフレームを10ミリ秒ごとに生成する。
周波数分析処理として、例えば、音響統計量算出部11は、高速フーリエ変換処理(FFT:fast Fourier transform)およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、周波数分析処理として、音響統計量算出部11は、FFTおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficients)を算出する。
【0023】
以上が、音響統計量算出部11が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順である。
【0024】
次に、音響統計量算出部11が、算出した音響特徴と音響モデル記憶部12に記憶されている1つ以上の音響モデルとを用いて、音響多様度を算出する手順について説明する。
【0025】
例えば、用いる音響モデルがGMMである場合、GMMが有する複数の要素分布はそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部11は、音響モデル(GMM)から複数の要素分布それぞれのパラメタ(平均、分散)および各要素分布の混合係数を取り出し、算出した音響特徴と、取り出した要素分布のパラメタ(平均、分散)および各要素分布の混合係数に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。ここで、出現度とは、出現することが繰り返される度合い(出現頻度)または出現する確率を意味する。このため、出現度は自然数(出現頻度)の場合もあるし、0以上1未満の小数(確率)の場合もある。
【0026】
また、例えば、用いる音響モデルがニューラルネットワークである場合、ニューラルネットワークが有する出力層の各要素がそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部11は、音響モデル(ニューラルネットワーク)から各要素のパラメタ(重み係数、バイアス係数)を取り出し、算出した音響特徴と、取り出した要素のパラメタ(重み係数、バイアス係数)に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。
このようにして算出した複数の音の種類それぞれの出現度を用いて、音響統計量算出部11は、さらに音響多様度を算出する。
【0027】
以上が、音響統計量算出部11が、算出した音響特徴と音響モデル記憶部12に記憶されている1つ以上の音響モデルとを用いて、音響多様度を算出する手順である。
【0028】
次に、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する手順の一例を詳細に説明する。
【0029】
例えば、用いる音響モデルがGMMである場合、音響統計量算出部11は、まず、音声信号xについて、音響モデルであるGMMが有する複数の要素分布それぞれに対する事後確率を求める。GMMのi番目の要素分布の事後確率P
i(x)は、音声信号xがGMMのi番目の要素分布に属する程度を表す。P
i(x)は、次の数1の式によって求める。
【0031】
ここで、関数N()はガウス分布の確率密度関数を表し、θ
iはGMMのi番目の要素分布のパラメタ(平均と分散)、w
iはGMMのi番目の要素分布の混合係数を示す。そして次に、音響統計量算出部11は、P
i(x)を要素に持つベクトルである音響多様度V(x)を算出する。例えば、音響モデルであるGMMの混合数が4であるとき、V(x)=[P
1(x),P
2(x),P
3(x),P
4(x)]とする。
【0032】
以上が、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する手順の一例である。
【0033】
次に、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する他の方法を詳細に説明する。
【0034】
例えば、用いる音響モデルがGMMであるとき、音響統計量算出部11は、音声信号xを短時間音声信号の時系列{x1,x2,・・・,xT}(Tは任意の自然数)に分割する。そして、音響統計量算出部11は、短時間音声信号それぞれに対し、その出現確率が最大となる要素分布番号iを次の数2の式によって求める。
【0036】
ここで、GMMのi番目の要素分布が選ばれた回数をC
i(x)とする。C
i(x)は音声信号xがGMMのi番目の要素分布に属する程度を表している。そして次に、音響統計量算出部11は、C
i(x)あるいはC
i(x)/Σ
jC
j(x)を要素に持つベクトルとして音響多様度V(x)を算出する。例えば、音響モデルであるGMMの混合数が4であるとき、音響多様度をV(x)=[C
1(x),C
2(x),C
3(x),C
4(x)]とする。
【0037】
なお、音響統計量算出部11は、受け取った音声信号を区分化した後に音響多様度を算出してもよい。より具体的には、例えば、音響統計量算出部11は、受け取った音声信号を一定時間ごとに区切って区分化音声信号とし、区分化音声信号それぞれについて音響多様度を算出してもよい。
【0038】
あるいは、音響統計量算出部11は、外部の装置または他の処理装置から音声信号を受信しているときに、その音声信号の継続時間が所定の値を超えた場合、その時点までに受け取った音声信号の音響多様度を算出する。また、音響統計量算出部11は、音響モデル記憶部12に記憶されている2つ以上の音響モデルを参照する場合に、それぞれの音響モデルに基づいて出現度を算出してもよい。そして、音響統計量算出部11は、2つ以上の音響モデルそれぞれに基づいて算出した出現度を用いて音響多様度を算出し、算出した音響多様度を重みづけした上で加算したものをあらためて音響多様度としてもよい。
【0039】
以上が、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する他の方法である。
【0040】
このように、音響統計量算出部11は、複数の音の種類の出現度をそれぞれ算出し、算出した出現度を用いて、音声信号の音響多様度を算出する。言い換えると、音響統計量算出部11は、音声信号に含まれる音の種類の比率(
音響モデルが有する要素分布全体に対するi番目の要素分布の割合)を反映させた音響多様度を算出する。
(部分特徴抽出部13)
部分特徴抽出部13は、音響統計量算出部11が出力した統計情報(音響多様度や音響特徴等)を受け取る。部分特徴抽出部13は、受け取った統計情報を用いて、認識特徴量を算出する処理を行い、算出した認識特徴量を出力する。ここで、認識特徴量とは、音声信号から特定の属性情報を認識するための情報である。属性情報とは、音声信号を発した話者の個人性や発話された音声信号の言語等を示す情報である。認識特徴量は、例えば、1つ以上の値からなるベクトルである。ベクトルである認識特徴量としては、例えば、i−vectorがある。
【0041】
図3Aは、本実施形態にかかる音声処理装置100の部分特徴抽出部13の構成の一例を示す図である。
図3Bは、本実施形態における音響多様度の例示である。
図3Cは、本実施形態における選別係数W1の例示である。
図3Dは、本実施形態における選別係数Wnの例示である。選別係数は、特徴抽出のときに音の種類を選ぶために予め定義するベクトルである。
図3Aの例では、部分特徴抽出部13は、選別部130nおよび特徴抽出部131n(nは1以上N以下の自然数、Nは自然数)を有する。
【0042】
図3Aを用いて、部分特徴抽出部13が音声信号xの認識特徴量F(x)を算出する方法の一例について説明する。認識特徴量F(x)は、音声信号xに対して所定の演算を施して算出できるベクトルであればよい。一例として部分特徴抽出部13が算出する認識特徴量F(x)としてi−vectorに基づく部分特徴ベクトルを算出する方法について説明する。
【0043】
例えば、部分特徴抽出部13は、音響統計量算出部11から、音声信号xの統計情報として、短時間フレームごとに算出された音響多様度V
t(x)および音響特徴A
t(x)(tは1以上T以下の自然数、Tは自然数)とを受け取る。部分特徴抽出部13の選別部130nは、受け取ったV
t(x)の各要素に対して、選別部ごとに定められた選別係数Wnをかけて、その結果を重みつきの音響多様度V
nt(x)として出力する。
【0044】
部分特徴抽出部13の特徴抽出部131nは、受け取ったV
nt(x)およびA
t(x)を用いて、以下の式に基づいて音声信号xの0次統計量S
0(x)および1次統計量S
1(x)を算出する。
【0046】
ここで、cは統計量S
0(x)およびS
1(x)の要素数、DはA
t(x)の要素数(次元数)、m
cは音響特徴空間におけるc番目の領域の平均ベクトル、Iは単位行列、0は零行列を表す。
【0047】
続いて、部分特徴抽出部13の特徴抽出部131nは、以下の式に基づいて音声信号xのi−vectorである部分特徴ベクトルF
n(x)を算出する。
【0049】
ここで、T
nは部分特徴部131nに依存するi−vector計算用のパラメタであり、Σは音響特徴空間における共分散行列である。
【0050】
以上が、部分特徴抽出部13が算出する認識特徴量F(x)としてi−vectorに基づく部分特徴ベクトルF
n(x)を算出する方法の一例である。
【0051】
部分特徴抽出部13が、上述の手順で部分特徴ベクトルF
n(n=1,2,…,N、Nは1以上の自然数)を算出する際に、N=1であり、かつ、選別部1301が有する選別係数W1の各要素がすべて1であれば、非特許文献1に記載のi−vector算出手順と等価である。部分特徴抽出部13は、選別部130nが有する選別係数Wnの各要素を1ではない値に設定することにより、非特許文献1に記載のi−vectorとは異なる特徴ベクトルF
n(x)を算出できる。また、選別部130nが有する選別係数Wnの各要素がそれぞれ異なるように設定することにより、非特許文献1に記載のi−vectorとは異なる部分特徴ベクトルF
n(x)を複数算出できる。
【0052】
次に、選別係数Wnの設定例について説明する。
【0053】
例えば、音響モデルが、音素を識別するように構成されたニューラルネットワークであるとき、音響多様度V(x)の各要素は音響モデルが識別する音素と対応づけられる。そこで、選別部130nが有する選別係数Wnの各要素のうち、ある音素に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nは当該音素のみを考慮した部分特徴ベクトルF
n(x)を算出できる。
【0054】
また、例えば、音響モデルがガウス混合モデルであるとき、音響多様度V(x)の各要素は、ガウス混合モデルの要素分布と対応づけられる。そこで、選別部130nが有する選別係数Wnの各要素のうち、ある要素分布に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nは当該要素のみを考慮した部分特徴ベクトルF
n(x)を算出できる。
【0055】
また、例えば、音響モデルがGMMであるとき、音響モデルが有する複数の要素分布を、類似度毎にクラスタリングすることにより、音響モデルを複数の集合(クラスタ)に分割することができる。クラスタリングの手法としては例えば木構造クラスタリングがある。ここで、選別部130nが有する選別係数Wnの要素のうち、例えば1番目のクラスタに含まれる要素分布に対応する音響多様度の要素に対応するもののみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nでは1番目のクラスタのみを考慮した部分特徴ベクトルF
n(x)を算出できる。
【0056】
以上が、選別係数Wnの設定例である。
【0057】
このように、部分特徴抽出部13は、音の種類を考慮した選別係数Wnを設定し、音声信号xの統計量である音響多様度V(x)に対して音の種類を考慮した選別係数Wnをかけることで重みつきの音響多様度V
nt(x)を算出し、算出したV
nt(x)を用いて部分特徴ベクトルF
n(x)を算出する。このため、部分特徴抽出部13は、音の種類を考慮した部分特徴ベクトルを出力することができる。
(部分特徴統合部14)
部分特徴統合部14は、部分特徴抽出部13が出力した認識特徴量を受け取る。部分特徴統合部14は、受け取った認識特徴量を用いて、特徴ベクトルを算出する処理を行い、その処理結果を出力する。ここで、特徴ベクトルとは、音声信号から特定の属性情報を認識するためのベクトル情報である。
【0058】
部分特徴統合部14は、部分特徴抽出部13が、音声信号xに対して算出した、1つ以上の部分特徴ベクトルF
n(x)(nは1以上N以下の自然数、Nは自然数)を受け取る。部分特徴統合部14は、例えば、受け取った1つ以上の部分特徴ベクトルF
n(x)から、1つの特徴ベクトルF(x)を算出して出力する。部分特徴統合部14は、例えば、以下の数5の数式のように特徴ベクトルF(x)を算出する。
【0060】
以上述べたとおりであるので、本実施形態にかかる音声処理装置100は、音響統計量算出部11が算出する音響多様度により、音声信号に含まれる音の種類のばらつきの程度である多様性をパラメタとして含む処理を行っているといえる。
【0061】
また、音響統計量算出部11が算出した音響統計量を用いて、部分特徴抽出部13が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部14がそれらを統合した特徴ベクトルを出力する。これにより、音声信号に対して、特徴ベクトルのそれぞれの要素が音声信号を構成するどの要素に対応するかを解釈可能な特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置100は、話者認識の解釈性を高めるのに適した認識特徴量を算出できる。
【0062】
なお、本実施形態にかかる音声処理装置100における音響モデル記憶部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0063】
また、音響モデル記憶部12に音響モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して音響モデルが音響モデル記憶部12に記憶されてもよいし、通信回線等を介して送信された音響モデルが音響モデル記憶部12に記憶されてもよい。または、入力デバイスを介して入力された音響モデルが音響モデル記憶部12で記憶されてもよい。
【0064】
音響統計量算出部11、部分特徴抽出部13、および部分特徴統合部14は、例えば、これら機能を実現するソフトウェアを演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。音響統計量算出部11等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。また、音声処理装置100の各部は、ハードウェア(専用回路)で実現されてもよい。
(第1の実施形態の動作)
次に、第1の実施形態における音声処理装置100の動作について説明する。
【0065】
図2は、第1の実施形態に係る音声処理装置100の動作の一例を示すフローチャートである。
【0066】
音響統計量算出部11は、1つ以上の音声信号を受け取る(ステップS101)。そして、音響統計量算出部11は、受け取った1つ以上の音声信号について、音響モデル記憶部12に記憶されている1つ以上の音響モデルを参照し、音響多様度を含む音響統計量を算出する(ステップS102)。
【0067】
部分特徴抽出部13は、音響統計量算出部11が算出した1つ以上の音響統計量に基づいて、1つ以上の部分的な認識特徴量を算出して出力する(ステップS103)。
【0068】
部分特徴統合部14は部分特徴抽出部13が算出した1つ以上の部分的な認識特徴量を統合して認識特徴量として出力する(ステップS104)。
【0069】
音声処理装置100は、ステップS104の認識特徴量の出力が完了したら、一連の処理を終了する。
(第1の実施形態の効果)
以上、説明したように、本実施形態にかかる音声処理装置100は、部分特徴抽出部13が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部14が算出された部分特徴ベクトル統合することで、その要素と音声信号の構成要素との対応づけが可能な特徴ベクトルを出力する。すなわち、音声処理装置100は、音声信号に対して部分特徴ベクトルを統合した特徴ベクトルを出力する。このような計算方式により、音声処理装置100は、音の種類ごとの認識特徴量(特徴ベクトル)を算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
<第2の実施形態>
次に、第2の実施形態について説明する。本実施形態では、音声処理装置の適用例として、上述した第1の実施形態にかかる音声処理装置100を含む話者認識装置について説明する。なお、第1の実施形態と同じ機能を有する構成については、同じ符号を付し、その説明を省略する場合がある。
【0070】
図4は、第2の実施形態に係る話者認識装置200の機能構成の一例を示すブロック図である。本実施形態における話者認識装置200は、音声信号から特定の属性情報を認識する属性認識装置の一例である。
図4に示す通り、話者認識装置200は、認識特徴抽出部22、および話者認識計算部23を少なくとも備える。また、話者認識装置200は、さらに、音声区間検出部21、話者モデル記憶部24を備えてもよい。
【0071】
音声区間検出部21は、音声信号を受け取る。そして、音声区間検出部21は、受け取った音声信号から音声区間を検出して音声信号を区分化する。音声区間検出部21は、音声信号を区分化した処理結果である区分化音声信号を出力する。音声区間検出部21は、例えば、音声信号のうち一定時間継続して音量が所定値より小さい区間を無音の音声区間として検出し、検出した無音の音声区間の前後を、異なる音声区間と判定して区分化してもよい。
【0072】
ここで、音声信号を受け取るとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの、音声信号処理の処理結果の引き渡しのことである。
【0073】
認識特徴抽出部22は、音声区間検出部21が出力した1つ以上の区分化音声信号を受け取り、特徴ベクトルを算出して出力する。話者認識装置200が音声区間検出部21を備えない場合、認識特徴抽出部22は、音声信号を受け取り、特徴ベクトルを算出して出力する。認識特徴抽出部22の構成および動作は、第1の実施形態における音声処理装置100の構成および動作と同様であってもよい。例えば、認識特徴抽出部22は、上述した第1の実施の形態にかかる音声処理装置100であってもよい。
【0074】
話者認識計算部23は、認識特徴抽出部22が出力した特徴ベクトルを受け取る。そして、話者認識計算部23は、話者モデル記憶部24に記憶されている1つ以上の話者モデルを参照して、受け取った認識特徴量が、参照した話者モデルに適合する度合いを表す数値情報である話者認識のスコアを算出する。この話者認識のスコアから、音声信号に含まれる属性情報が特定される。そして、さらにこの特定された属性情報によって、話者や言語等が特定される。話者認識計算部23は、得られた結果(話者認識のスコア)を出力する。
【0075】
話者モデル記憶部24は、1つ以上の話者モデルを記憶する。話者モデルは、入力された音声信号が特定の話者に適合する度合いである話者認識のスコアを算出するための情報である。話者モデル記憶部24は、例えば、話者モデルと、話者ごとに設定される識別子である話者ID(Identifier)とを対応付けて記憶する。
【0076】
なお、
図4では、話者モデル記憶部24が話者認識装置200に内蔵されることを例に説明を行ったが、これに限定されるものではない。話者モデル記憶部24は、話者認識装置200とは別個の記憶装置で実現されるものであってもよい。また、話者モデル記憶部24は、音響モデル記憶部12と同じ記憶装置で実現されるものであってもよい。
【0077】
図6は、第2の実施形態に係る話者認識装置200の話者認識計算部23の構成の一例を示す図である。
図6の例では、話者認識計算部23は、分割部231、認識部232m(m=1,2,…,M}、Mは1以上の自然数)および統合部233を有する。話者認識計算部23は、特徴ベクトルF(x)を用いて話者認識のスコアを算出する。また、話者認識計算部23は、算出した話者認識のスコアを含む情報である話者認識結果を出力する。
【0078】
話者認識計算部23が特徴ベクトルF(x)を用いて話者認識のスコアを算出する方法の一例について
図6を用いて説明する。
【0079】
分割部231は、受け取った特徴ベクトルF(x)から複数(M個)のベクトルを作成する。複数のベクトルは、それぞれ別の音の種類に対応する。分割部231は、例えば、部分特徴抽出部13が算出したn個の部分特徴ベクトルF
n(x)と同じベクトルを作成する。
【0080】
認識部232mは、分割部231が作成したm番目のベクトルを受け取り、話者認識計算を行う。認識部232mは、例えば、音声信号から算出した認識特徴量と話者モデル記憶部24が記憶する話者モデルがともにベクトル形式であるとき、それらのコサイン類似度に基づいて、スコアを算出する。
【0081】
統合部233は、複数の認識部232mそれぞれが算出したスコアを統合して話者認識のスコアとして出力する。
【0082】
以上が、話者認識計算部23が音声信号xの認識特徴量F(x)を用いて話者認識のスコアを算出する方法の一例である。
【0083】
図7A、
図7B、
図7Cは、本実施形態にかかる話者認識装置200が出力する話者認識結果の一例を示す図である。
【0084】
話者認識計算部23が出力する話者認識結果について、
図7Aから
図7Cを用いて説明する。
【0085】
統合部233は、話者認識結果の情報として、
図7Aに示す認識結果71のように、話者IDと、認識部232mの番号mと、認識部232mから取得したスコアとを対応づけた情報を出力する。ここで、統合部233は、番号mに加えて、番号mの音の種類を示す情報をあわせて出力してもよい。統合部233は、音の種類を示す情報として、例えば、
図7Cに示すように、音素や単語などの文字情報、スペクトログラムなどの画像情報、音声信号などの音響情報、を出力してもよい。
【0086】
また、統合部233は、話者認識結果の情報として、
図7Bに示す認識結果72のように、話者IDと話者認識のスコアとを対応付けた情報を出力する。ここで、話者認識のスコアは、例えば、認識部232mから取得したスコアの重み付き加算によって算出してもよい。統合部233は、例えば、話者認識装置200が話者照合することを目的とする場合は、照合対象の話者IDに対して算出したスコアに基づく照合可否の判定情報を出力してもよい。また、統合部233は、例えば、話者認識装置200が話者識別することを目的とする場合は、複数の話者IDに対して算出したスコア順に並べた話者IDのリストを出力してもよい。なお、本実施形態にかかる話者認識装置200における話者モデル記憶部24は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0087】
また、話者モデル記憶部24に話者モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して話者モデルが話者モデル記憶部24に記憶されてもよく、通信回線等を介して送信された話者モデルが話者モデル記憶部24に記憶されてもよく、あるいは、入力デバイスを介して入力された話者モデルが話者モデル記憶部24で記憶されてもよい。
【0088】
音声区間検出部21、認識特徴抽出部22、および話者認識計算部23は、例えば、これら機能を実現するソフトウェアを通常演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。当該ソフトウェアはROM等の記録媒体に記録されていてもよい。また、話者認識装置200の各部は、ハードウェア(専用回路)で実現されてもよい。
(第2の実施形態の動作)
次に、話者認識装置200の動作について、
図5のフローチャートを用いて説明する。
図5は、第2の実施形態に係る話者認識装置200の動作の一例を示すフローチャートである。
【0089】
音声区間検出部21は、音声信号を受け取る(ステップS201)。そして、音声区間検出部21は、受け取った音声信号に対し、音声区間を検出することによって、音声信号の区分化を行う。音声区間検出部21は、1つ以上の区分化した音声信号(以降、区分化音声信号と呼ぶ)を認識特徴抽出部22に出力する(ステップS202)。
【0090】
認識特徴抽出部22は、受理した1つ以上の区分化音声信号のそれぞれに対し、音響統計量を算出する(ステップS203)。そして、認識特徴抽出部22は、算出した音響統計量から部分的な認識特徴量(部分特徴ベクトル)を算出し(ステップS204)、算出した部分的な認識特徴量(部分特徴ベクトル)を統合して特徴ベクトルとし、特徴ベクトルを出力する(ステップS205)。
【0091】
話者認識計算部23は、認識特徴抽出部22が算出した特徴ベクトルに対し、話者モデル記憶部24に記憶されている1つ以上の話者モデルを参照し、話者認識のスコアを計算する。話者認識計算部23は、話者認識のスコアを出力する(ステップS206)。
【0092】
話者認識装置200は、ステップS206の話者認識のスコアの出力が完了したら、一連の処理を終了する。
【0093】
(第2の実施形態の効果)
以上、説明したように、話者認識装置200は、認識特徴抽出部22が音の種類を考慮した部分特徴ベクトルを算出し、算出された部分特徴ベクトル統合することで、その要素と音声信号との対応づけが可能な特徴ベクトルとして出力する。さらに、話者認識計算部23が特徴ベクトルから話者認識のスコアを算出して出力する。このような計算方式により、話者認識のスコアから音声信号に含まれる属性情報が特定できる。そして、音の種類ごとの話者認識のスコアを算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
【0094】
第2の実施形態における話者認識装置200は、音声信号から特定の属性情報を認識する属性認識装置の一例でもある。つまり、話者認識装置200は、特定の属性として、音声信号を発した話者を示す情報を認識する属性認識装置であるといえる。また、話者認識装置200は、例えば文発話の音声信号に対して、当該話者認識装置により推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても応用可能である。話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。話者認識装置200は、特定の属性として、音声信号が伝える言語(音声信号を構成する言語)を示す情報を認識するとき、言語認識装置として応用可能である。また、話者認識装置200は、例えば文発話の音声信号に対して、当該言語認識装置により推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても応用可能である。話者認識装置200は、特定の属性として、話者の発話時の感情を示す情報を認識するとき、感情認識装置として応用可能である。
【0095】
また、話者認識装置200は、例えば蓄積された多数の発話の音声信号に対して、当該感情認識装置により推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部、すなわち、音声処理装置の一種として応用可能である。この感情情報には、例えば、感情表現を示す情報、話者の性格を示す情報等が含まれる。すなわち、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを表す情報である。第2の実施形態における話者認識装置200は、このような属性情報を認識することができる。
【0096】
以上のように、本開示の一態様における音声処理装置等は、音声信号から音の種類を考慮した特徴ベクトルを抽出し話者認識結果の解釈性を高めることができるという効果を有しており、音声処理装置および話者認識装置として有用である。
【0097】
本開示は上記実施形態に限定されることなく、特許請求の範囲に記載の発明の範囲内で、種々の変形が可能であり、それらも本開示の範囲内に含まれるものであることはいうまでもない。
【0098】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
1つ以上の音響モデルを記憶する音響モデル記憶部と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記2)
前記部分特徴抽出部は、前記音響多様度から複数の重みつきの音響多様度を算出し、前記重みつきの音響多様度それぞれと前記音響特徴とから、複数の認識特徴量を算出する、付記1に記載した音声処理装置。
(付記3)
前記部分特徴抽出部は、認識特徴量としてベクトル形式で表現される部分特徴ベクトルを算出する、付記1または付記2に記載した音声処理装置。
(付記4)
前記音響統計量算出部は、
前記音響モデルを用いて、受け取った前記音声信号に含まれる音の種類の比率に基づき、前記音響多様度を算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記5)
前記音響統計量算出部は、前記音響モデルとしてガウス混合モデルを用いて、要素分布の事後確率として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記6)
前記音響統計量算出手段は、前記音響モデルとしてニューラルネットワークを用いて、音の種類の出現度として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記7)
前記部分特徴抽出手段は、
前記音声信号の前記音響多様度と選別係数と、前記音響特徴を用いて、前記認識特徴量としてi−vectorを算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記8)
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部をさらに備える、
付記1から付記7のいずれか1つに記載した音声処理装置。
(付記9)
受け取った音声信号を区分化して区分化音声信号とする音声区間検出部と、
1つ以上の音響モデルを記憶する音響モデル記憶部と、
前記区分化音声信号から音響特徴を算出し、算出した音響特徴と前記音響モデル記憶部に記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記10)
前記話者認識計算部は、
前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、付記9に記載した音声処理装置。
(付記11)
前記話者認識計算部は、算出した前記スコアを、音の種類を示す情報とあわせて出力する付記10に記載した音声処理装置。
(付記12)
前記特徴ベクトルは、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを認識するための情報である、付記1から付記11のいずれか1つに記載した音声処理装置。
(付記13)
1つ以上の音響モデルを記憶し、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、 算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、
算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出し、
算出された前記認識特徴量を用いて特徴ベクトルを算出する、
音声処理方法。
(付記14)
コンピュータを、
1つ以上の音響モデルを記憶する手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出する手段、
として機能させるためのプログラム。