【文献】
今井 篤、外8名,テレビ音声へのオーバーラップを許容した音声補助情報サービスの検討,電子情報通信学会2016年総合大会講演論文集 基礎・境界/NOLTA,一般社団法人電子情報通信学会,2016年 3月 1日,p.322
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、1以上の番組音声及び2以上の補完音声の音響的な特徴量をそれぞれ算出し、2以上の補完音声のそれぞれについて、1以上の番組音声との間の類似度を算出し、当該類似度の最も低い補完音声を2以上の補完音声から選択することを特徴とする。
【0018】
これにより、番組音声とは類似しない音響的な特徴を有する補完音声が選択される。したがって、番組音声と補完音声とを同時に提示する場合であっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、聞き分けやすい補完音声を得ることができる。
【0019】
〔音声選択装置〕
まず、本発明の実施形態による音声選択装置について説明する。
図1は、本発明の実施形態による音声選択装置の構成例を示すブロック図である。この音声選択装置1は、番組音声DB(データベース)10−1〜10−N、特徴量算出部11−1〜11−N、補完音声DB20−1〜20−M、特徴量算出部21−1〜21−M、類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24を備えている。
【0020】
Nは1以上の整数であり、番組音声DB10−1〜10−Nに格納された番組音声についての話者(番組音声話者)の数に相当する。Mは2以上の整数であり、補完音声DB20−1〜20−Mに格納された補完音声についての話者(補完音声話者)の数に相当する。n=1,・・・,Nとし、m=1,・・・,Mとする。
【0021】
番組音声DB10−nは、ある番組音声話者による番組音声の音声波形のデータ(番組音声データ)が格納されたデータベースである。番組音声の音声波形のデータは、標本化周波数16kHz及び変換ビット数16ビットで標本化されているものとする。
【0022】
特徴量算出部11−nは、対応する番組音声DB10−nから、第n番目の番組音声話者による番組音声の音声波形のデータを読み出し、番組音声の音声波形のデータに基づいて、番組音声の音響的な特徴量(音響特徴量)を算出する。そして、特徴量算出部11−nは、第n番目の番組音声話者による番組音声の音響特徴量を、類似度算出部22−1〜22−Mに出力する。
【0023】
補完音声DB20−mは、ある補完音声話者による補完音声の音声波形のデータ(補完音声データ)が格納されたデータベースである。補完音声の音声波形のデータは、番組音声の音声波形のデータと同様に、標本化周波数16kHz及び変換ビット数16ビットで標本化されているものとする。補完音声の音声波形のデータは、例えば、番組音声に対して付加するために収録された実際の音声データであってもよいし、音声合成によって作成された音声データ(実際の補完音声データでない)、または音声合成用に利用する音声データベースに含まれる音声データであってもよい。
【0024】
特徴量算出部21−mは、対応する補完音声DB20−mから、第m番目の補完音声話者による補完音声の音声波形のデータを読み出し、補完音声の音声波形のデータに基づいて、補完音声の音響特徴量を算出する。そして、特徴量算出部21−mは、第m番目の補完音声話者による補完音声の音響特徴量を、対応する類似度算出部22−mに出力する。
【0025】
類似度算出部22−mは、特徴量算出部11−1〜11−Nから第1〜N番目の番組音声話者による番組音声の音響特徴量を入力すると共に、対応する特徴量算出部21−mから第m番目の補完音声話者による補完音声の音響特徴量を入力する。
【0026】
類似度算出部22−mは、第1番目の番組音声話者による番組音声の音響特徴量と、第m番目の補完音声話者による補完音声の音響特徴量との間の類似度を算出する。また、類似度算出部22−mは、同様に、第2〜N番目の番組音声話者による番組音声の音響特徴量のそれぞれと、第m番目の補完音声話者による補完音声の音響特徴量との間の類似度を算出する。そして、類似度算出部22−mは、第1〜N番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のそれぞれの類似度を、対応する類似度加算部23−mに出力する。
【0027】
ここで、第n番目の番組音声話者による番組音声の音響特徴量をw
inとし、第m番目の補完音声話者による補完音声の音響特徴量をw
cmとし、類似度をコサイン類似度cos(w
in,w
cm)とする。第n番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のコサイン類似度cos(w
in,w
cm)は、以下の式にて算出される。
【数1】
前記式(1)の右辺の分子は、w
in及びw
cmの内積を示し、その分母は、w
in及びw
cmにおけるそれぞれのノルムの乗算を示す。
【0028】
類似度加算部23−mは、対応する類似度算出部22−mから第1〜N番目の番組音声話者による番組音声と第m番目の補完音声話者による補完音声との間のそれぞれの類似度を入力する。そして、類似度加算部23−mは、第m番目の補完音声話者による補完音声について、それぞれの類似度を加算することで類似度の総和を求める。類似度加算部23−mは、第m番目の補完音声話者による補完音声について、第1〜N番目の番組音声話者による番組音声との間の類似度の総和(第m番目の補完音声話者による補完音声についての類似度の総和)を選択部24に出力する。
【0029】
ここで、第m番目の補完音声話者による補完音声についての類似度cos(w
in,w
cm)の総和をs
mとすると、当該総和s
mは、以下の式にて算出される。
【数2】
【0030】
選択部24は、類似度加算部23−1〜23−Mから類似度の総和をそれぞれ入力し、これらの類似度の総和のうち最小の類似度の総和を特定する。そして、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、最小の類似度の総和に対応する補完音声DB20(補完音声話者)を選択し、選択情報を出力する。
【0031】
ここで、最小の類似度の総和s
mに対応する補完音声DB20(補完音声話者)を補完音声DB20−c(補完音声話者c)とし、選択情報をc(1〜Mのうちのいずれかの値)とすると、選択情報cは、以下の式にて選択される。
【数3】
【0032】
以上のように、本発明の実施形態の音声選択装置1によれば、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声とは最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。選択された補完音声DB20−cは、番組音声に補完音声を付加して解説付番組音声を生成する際に用いられる。これにより、番組音声に補完音声を付加した結果、番組音声と補完音声とを同じタイミングで提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、聞き分けやすい補完音声を得ることができる。
【0033】
以下、本発明の実施形態による音声選択装置1について、実施例1〜3を挙げて具体的に説明する。特徴量算出部11−1〜11−N,21−1〜21−Mを総称して、特徴量算出部11,21と表記する。
【0034】
実施例1〜3において、特徴量算出部11,21が音響特徴量を算出する処理として、話者認識または話者照合の際に用いられるi-vector(iベクトル)の技術を利用する。i-vectorの詳細については、以下の文献を参照されたい。
[非特許文献1]
N. Dehak, P. Kenny, R. Dehak, P. Dumouchel and P. Ouellet, “Front-end factor analysis for speaker verification”, IEEE Trans. Audio Speech Lang. Process., 19, 788-798(2011)
【0035】
〔実施例1〕
まず、実施例1について説明する。実施例1は、声質の観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例1は、メル周波数ケプストラム係数(MFCC)及び対数エネルギー(E)からなる静的係数並びにそれらの1次回帰係数及び2次回帰係数を含めたスペクトル特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0036】
特徴量算出部11,21は、音響特徴量として、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。スペクトル特徴量の算出方法については、以下の文献を参照されたい。
[非特許文献2]
The HTK Book (for HTK Version 3.4) Cambridge University Engineering Department
【0037】
図2は、実施例1の特徴量算出部11,21の処理例を示すフローチャートである。特徴量算出部11,21は、番組音声DB10または補完音声DB20から話者の音声波形のデータを読み出し(ステップS201)、音声波形のデータから窓幅25ms及びシフト幅10msのフレームの音声データ(音声フレーム)を切り出す(ステップS202)。
【0038】
特徴量算出部11,21は、音声フレームに対し、プリエンファシス係数0.97にて高域強調(プリエンファシス)を行う(ステップS203)。そして、特徴量算出部11,21は、高域強調後の音声フレームに対し、窓幅25msのハミング窓の窓関数を掛け合わせ(ステップS204)、FFTポイント数1024の離散フーリエ変換(FFT)を行い、周波数特性を求める(ステップS205)。
【0039】
特徴量算出部11,21は、周波数特性にメルフィルターバンクを掛けることで、26チャンネルのフィルターバンク係数を求める(ステップS206)。そして、特徴量算出部11,21は、フィルターバンク係数に対して離散コサイン変換(DCT)を行うことで、12次元のメル周波数ケプストラム係数(MFCC)を算出する(ステップS207)。
【0040】
特徴量算出部11,21は、ステップS202から移行して、音声フレームに対し、対数エネルギー(E)を算出する(ステップS208)。
【0041】
特徴量算出部11,21は、12次元のメル周波数ケプストラム係数(MFCC)と対数エネルギー(E)を合わせた13次元の静的係数を設定する(ステップS209)。そして、特徴量算出部11,21は、これらの静的係数について、1次回帰係数である1次差分ΔMFCC,ΔE及び2次回帰係数である2次差分Δ
2MFCC,Δ
2Eを算出する(ステップS210,ステップS211)。特徴量算出部11,21は、メル周波数ケプストラム係数(MFCC)、対数エネルギー(E)、1次差分ΔMFCC,ΔE、及び2次差分Δ
2MFCC,2次差分Δ
2Eをスペクトル特徴量に設定する(ステップS212)。
【0042】
これにより、音声フレーム毎に、12個のメル周波数ケプストラム係数(MFCC)、1個の対数エネルギー(E)、12個の1次差分ΔMFCC、1個の1次差分ΔE、12個の2次差分Δ
2MFCC、及び1個の2次差分Δ
2EであるD
F(=39)個の係数からなるスペクトル特徴量が得られる。
【0043】
特徴量算出部11,21は、EM(Expectation Maximization)アルゴリズムを用いて、音声フレーム毎に算出したD
F(=39)個の係数からなるスペクトル特徴量(全ての音声フレームにおける係数)から、話者の音声波形のデータ全体に関するGMMパラメータλを算出する(ステップS213)。EMアルゴリズムを用いてGMMパラメータλを算出する手法の詳細については、以下の文献を参照されたい。
[非特許文献3]
REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9
【0044】
GMMパラメータλは、以下の式のとおり、混合数C(=512)個の混合重み、及び混合数C個のガウス分布から構成される。混合重みをWとする。ガウス分布は、D
F個の平均値からなる平均ベクトルμ、及びD
F個の分散値からなるベクトルσ
2により表される。
【数4】
【0045】
図3は、ステップS213の処理により算出されるGMMパラメータλを説明する図である。前述のとおり、GMMパラメータλは、ステップS213の処理において、EMアルゴリズムを用いて、音声フレーム毎のD
F(=39)個の係数からなるスペクトル特徴量(全ての音声フレームにおける係数)から算出される。
【0046】
図3に示すように、GMMパラメータλは、混合数C個における第0番目について、混合重みW(0)及びガウス分布からなる。この場合のガウス分布は、D
F個の平均値からなる平均ベクトルμ
0(0),・・・,μ
0(D
F−1)、及びD
F個の分散値からなるベクトルσ
02(0),・・・,σ
02(D
F−1)により表される。
【0047】
同様に、GMMパラメータλは、混合数C個における第(C−1)番目について、混合重みW(C−1)及びガウス分布からなる。この場合のガウス分布は、D
F個の平均値からなる平均ベクトルμ
C-1(0),・・・,μ
C-1(D
F−1)、及びD
F個の分散値からなるベクトルσ
C-12(0),・・・,σ
C-12(D
F−1)により表される。
【0048】
図2に戻って、特徴量算出部11,21は、ステップS213の後、GMMパラメータλからGMMスーパーベクトルMを求める(ステップS214)。具体的には、特徴量算出部11,21は、混合数C個の混合重み及び混合数C個のガウス分布(D
F個の平均値からなる平均ベクトルμ、及びD
F個の分散値からなるベクトルσ
2)から構成されるGMMパラメータλにより平均ベクトルμのみを抽出する。そして、特徴量算出部11,21は、D
F個の平均値からなる平均ベクトルμを混合数C個だけ結合し、GMMスーパーベクトルMを求める。GMMスーパーベクトルMは、C・D
F次元の実数のベクトルであり、以下のように表される。
【数5】
【0049】
図4は、ステップS214の処理により算出されるGMMスーパーベクトルMを説明する図である。
図4に示すように、GMMスーパーベクトルMは、第0番目についてのD
F個の平均値からなる平均ベクトルμ
0(0),・・・,μ
0(D
F−1)、・・・、及び、第(C−1)番目についてのD
F個の平均値からなる平均ベクトルμ
C-1(0),・・・,μ
C-1(D
F−1)により構成される。
【0050】
図2に戻って、特徴量算出部11,21は、ステップS214の後、GMMスーパーベクトルMに基づいて、前述の非特許文献1に記載されている手法を用いて、次式を満たす音響特徴量であるiベクトル:wを算出する(ステップS215)。
【数6】
【0051】
また、iベクトル:wは、D
T次元の実数のベクトルであり、以下のように表される。
【数7】
【0052】
ここで、mは、大量の不特定話者の音声データを用いて学習したGMMスーパーベクトルであり、Tは、低ランクの矩形行列(D
T<<C・D
F)である。矩形行列Tは、C・D
F×D
T次元の実数のベクトルであり、以下のように表される。
【数8】
【0053】
wは、平均ベクトルが0であり、共分散行列が単位行列Iであるガウス分布N(w;0,I)に従う。平均ベクトル0は、D
T次元の実数のベクトルであり、以下のように表される。
【数9】
共分散行列Iは、D
T×D
T次元の実数のベクトルであり、以下のように表される。
【数10】
【0054】
尚、特徴量算出部11,21は、算出したiベクトル:wに対して、LDA(Linear Discrimination Analysis)やWCCN(Within-Class Covariance Normalization)等の処理にて、同一話者内の音響変動を補正する。後述する実施例2,3についても同様である。
【0055】
類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の処理は、
図1と同様である。
【0056】
以上のように、実施例1の特徴量算出部11,21は、番組音声DB10または補完音声DB20から読み出した音声の音声波形のデータについて、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルμを混合数C分だけ結合してGMMスーパーベクトルMを求める。そして、特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、スペクトル特徴量を用いた音響特徴量であるiベクトルを算出する。
【0057】
後段の選択部24は、特徴量算出部11,21にて算出されたiベクトルに基づき、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0058】
ここで、補完音声DB20−c(補完音声話者c)は、スペクトル特徴量から算出された音響特徴量を指標として選択され、スペクトル特徴量には、音声の周波数成分が反映されている。また、声質は、音声の周波数成分により決定される。
【0059】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声質が聞き分けやすい補完音声を得ることができる。
【0060】
〔実施例2〕
次に、実施例2について説明する。実施例2は、声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する例である。具体的には、実施例2は、対数基本周波数(LF0)並びにその1次回帰係数及び2次回帰係数を含めたピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0061】
特徴量算出部11,21は、音響特徴量として、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。ピッチ特徴量の算出方法については、以下の文献を参照されたい。
[非特許文献4]
都木、清山、宮坂、「複数の窓幅から得られた自己相関関数を用いる音声基本周期抽出法」、電子情報通信学会論文誌 A Vol, J80-A No.9 pp.1341-1350 1997年9月
[非特許文献5]
清山、今井、三島、都木、宮坂、「高品質リアルタイム話速変換システムの開発」、電子情報通信学会論文誌 D-II Vol, J84-D-II No.6 pp.918-926 2001年6月
【0062】
図5は、実施例2の特徴量算出部11,21の処理例を示すフローチャートである。特徴量算出部11,21は、番組音声DB10または補完音声DB20から音声の音声波形のデータを読み出す(ステップS501)。そして、特徴量算出部11,21は、音声波形のデータに対し、カットオフ周波数1kHzで低域ろ波を行い、1/4のデシメーションを施す(ステップS502)。そして、特徴量算出部11,21は、低域ろ波及びデシメーション後の音声波形のデータから、所定の窓幅にて音声波形のフレームの音声データ(音声フレーム)を切り出す(ステップS503)。
【0063】
特徴量算出部11,21は、切り出した音声フレーム毎に、自己相関関数を算出し、それぞれ指定した範囲で複数個の極大点を求める。そして、特徴量算出部11,21は、複数個の極大点の周辺を4倍に内挿し、極大点のうち最大となる極大値をとる位置を、基本周期候補の位置に設定する(ステップS504)。
【0064】
特徴量算出部11,21は、基本周期候補の位置における自己相関関数の値を0次の自己相関関数の値で除算し、周期性の程度を示す値を求める(ステップS505)。そして、特徴量算出部11,21は、重み付けを行い、重み付け後の周期性の程度を示す値を加算し、加算結果を指標として、基本周期候補のうち最適なものを基本周期として選択する(ステップS506)。
【0065】
ここで、特徴量算出部11,21は、音声フレームが有声音区間の場合、その音声フレームの基本周期を求め、当該基本周期のみを用いて以下の処理を行うようにしてもよい。さらに、特徴量算出部11,21は、音声フレームが無声音区間または無音区間に含まれる場合、前後の有声音区間に含まれる音声フレームの基本周期を補間して基本周期を求め、当該基本周期も用いて以下の処理を行うようにしてもよい。詳細については後述する。
【0066】
特徴量算出部11,21は、基本周期の逆数を基本周波数(F0)とし、これに自然対数をとることで対数基本周波数(LF0)を算出する(ステップS507)。特徴量算出部11,21は、1次元の対数基本周波数(LF0)について、1次回帰係数である1次差分ΔLF0及び2次回帰係数である2次差分Δ
2LF0を算出する(ステップS508,ステップS509)。特徴量算出部11,21は、対数基本周波数(LF0)、1次差分ΔLF0及び2次差分Δ
2LF0をピッチ特徴量に設定する(ステップS510)。
【0067】
これにより、音声フレーム毎に、1個の対数基本周波数(LF0)、1個の1次差分ΔLF0、及び1個の2次差分Δ
2LF0であるD
F(=3)個の係数からなるピッチ特徴量が得られる。
【0068】
特徴量算出部11,21は、EMアルゴリズムを用いて、音声フレーム毎に算出したD
F(=3)個の係数からなるピッチ特徴量(全ての音声フレームにおける係数)から、話者の音声波形のデータ全体に関するGMMパラメータλを算出する(ステップS511)。そして、特徴量算出部11,21は、GMMパラメータλからGMMスーパーベクトルMを求める(ステップS512)。
【0069】
特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、前述の非特許文献1に記載されている手法を用いて、音響特徴量であるiベクトル:wを算出する(ステップS513)。
【0070】
類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の処理は、
図1と同様である。
【0071】
以上のように、実施例2の特徴量算出部11,21は、番組音声DB10または補完音声DB20から読み出した音声の音声波形のデータについて、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルμを混合数C分だけ結合してGMMスーパーベクトルMを求める。そして、特徴量算出部11,21は、GMMスーパーベクトルMに基づいて、ピッチ特徴量を用いた音響特徴量であるiベクトルを算出する。
【0072】
後段の選択部24は、特徴量算出部11,21にて算出されたiベクトルに基づき、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0073】
ここで、補完音声DB20−c(補完音声話者c)は、ピッチ特徴量から算出された音響特徴量を指標として選択され、ピッチ特徴量は、音の高さを表す数値である。
【0074】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声の高さが聞き分けやすい補完音声を得ることができる。
【0075】
図5に示したとおり、特徴量算出部11,21は、音声フレームについて基本周期を求め、当該基本周期を用いて、対数基本周波数(LF0)等を算出し、音響特徴量であるiベクトル:wを算出する。この場合、特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期のみを用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。また、特徴量算出部11,21は、前後の有声音区間に含まれる音声フレームの基本周期を補間することで、無声音区間及び無音区間の基本周期を求める。そして、特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期、及び無声音区間及び無音区間の基本周期を用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。
【0076】
図6は、
図5に示した処理の事前処理として、音声フレームの区間判定の処理例を示すフローチャートである。特徴量算出部11,21は、
図5に示した処理の事前処理として、音声フレームが含まれる区間として、有声音区間、無声音区間及び無音区間を判定する。
【0077】
特徴量算出部11,21は、番組音声DB10または補完音声DB20から話者の音声波形のデータを読み出し(ステップS601)、音声波形のデータに対し、高域強調(プリエンファシス)を行う(ステップS602)。そして、特徴量算出部11,21は、高域強調後の音声波形のデータから所定の窓幅のフレームの音声データ(音声フレーム)を切り出す(ステップS603)。以下に示すステップS604〜ステップS612の処理は、音声フレーム毎に行われる。
【0078】
特徴量算出部11,21は、音声フレームのパワーを算出し(ステップS604)、音声フレームのパワーが予め設定された閾値よりも大きいか否かを判定する(ステップS605)。特徴量算出部11,21は、ステップS605において、音声フレームのパワーが閾値よりも大きいと判定した場合(ステップS605:Y)、音声フレームは有音区間に含まれるとし、ステップS607へ移行する。
【0079】
一方、特徴量算出部11,21は、ステップS605において、音声フレームのパワーが閾値よりも大きくないと判定した場合(ステップS605:N)、音声フレームは無音区間に含まれるとし、当該区間を無音区間に設定する(ステップS606)。
【0080】
特徴量算出部11,21は、ステップS605から移行して、音声フレームのパワーが閾値よりも大きい場合、音声フレームの零交叉数を算出する(ステップS607)。そして、特徴量算出部11,21は、音声フレームの零交叉数が予め設定された閾値よりも小さいか否かを判定する(ステップS608)。特徴量算出部11,21は、ステップS608において、音声フレームの零交叉数が閾値よりも小さいと判定した場合(ステップS608:Y)、音声フレームは非摩擦性区間に含まれるとし、ステップS610へ移行する。
【0081】
一方、特徴量算出部11,21は、ステップS608において、音声フレームの零交叉数が閾値よりも小さくないと判定した場合(ステップS608:N)、音声フレームは摩擦性区間に含まれるとし、当該区間を無声音区間に設定する(ステップS609)。
【0082】
特徴量算出部11,21は、ステップS608から移行して、音声フレームの零交叉数が閾値よりも小さい場合、音声フレームの自己相関関数を算出する(ステップS610)。そして、特徴量算出部11,21は、音声フレームの自己相関関数が予め設定された閾値よりも大きいか否かを判定する(ステップS611)。特徴量算出部11,21は、ステップS611において、音声フレームの自己相関関数が閾値よりも大きいと判定した場合(ステップS611:Y)、音声フレームは有声音区間に含まれるとし、当該区間を有声音区間に設定する(ステップS612)。
【0083】
一方、特徴量算出部11,21は、ステップS611において、音声フレームの自己相関関数が閾値よりも大きくないと判定した場合(ステップS611:N)、音声フレームは無声音区間に含まれるとし、当該区間を無声音区間に設定する(ステップS609)。
【0084】
これにより、音声フレームは、有声音区間、無声音区間または無音区間のうちのいずれの区間に含まれるか判定される。特徴量算出部11,21は、有声音区間に含まれる音声フレームの基本周期のみを用いて、音響特徴量であるiベクトル:wを算出する。また、特徴量算出部11,21は、前後の有声音区間に含まれる音声フレームの基本周期に基づいて、無声音区間または無音区間の基本周期を求め、この基本周期も用いて、音響特徴量であるiベクトル:wを算出するようにしてもよい。
【0085】
図7は、前後の有声音区間の基本周期から、無音区間及び無声音区間の基本周期を求める例を説明する図である。
図7に示すように、時系列に、音声フレームの区間が判定されたとする。特徴量算出部11,21は、有声音区間について、当該有声音区間に含まれる音声フレームの基本周期を求める。また、特徴量算出部11,21は、無音区間(
図7のαの箇所を参照)について、有声音区間に挟まれる当該無音区間に含まれる音声フレームの基本周期を、先行する有声音区間の終端近傍の基本周期と、後続する有声音区間の始端近傍の基本周期とを用いた補間処理にて算出する。無声音区間(
図7のβを参照)についても同様である。
【0086】
〔実施例3〕
次に、実施例3について説明する。実施例3は、実施例1,2を組み合わせた例であり、声質及び声の高さの観点から、番組音声に対して聞き分けやすい補完音声を選択する。具体的には、実施例3は、実施例1のスペクトル特徴量を用いた音響特徴量、及び実施例2のピッチ特徴量を用いた音響特徴量に基づいて、複数の補完音声から1つの補完音声を選択する。
【0087】
特徴量算出部11,21は、実施例1と同様に、音響特徴量として、スペクトル特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。また、特徴量算出部11,21は、実施例2と同様に、音響特徴量として、ピッチ特徴量による混合ガウス分布モデル(GMM)を構成する平均ベクトルを混合数分だけ結合してGMMスーパーベクトルを求め、iベクトルを算出する。
【0088】
具体的には、特徴量算出部11,21は、
図2に示した処理を行うことで、スペクトル特徴量に基づいたiベクトル:w
sを算出し、
図5に示した処理を行うことで、ピッチ特徴量に基づいたiベクトル:w
pを算出する。
【0089】
類似度算出部22−mは、特徴量算出部11−1〜11−Nから、第1〜N番目のスペクトル特徴量に基づいたiベクトル:w
s及びピッチ特徴量に基づいたiベクトル:w
pを入力する。また、類似度算出部22−mは、対応する特徴量算出部21−mから、第m番目のスペクトル特徴量に基づいたiベクトル:w
s及びピッチ特徴量に基づいたiベクトル:w
pを入力する。
【0090】
類似度算出部22−mは、スペクトル特徴量に基づいたiベクトル:w
s及びピッチ特徴量に基づいたiベクトル:w
pのそれぞれについて、第1〜N番目のiベクトル:wのそれぞれと、第m番目のiベクトル:wとの間の類似度を算出する。そして、類似度算出部22−mは、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を、対応する類似度加算部23−mに出力する。
【0091】
類似度加算部23−mは、対応する類似度算出部22−mから、スペクトル特徴量に基づいたiベクトル:w
s及びピッチ特徴量に基づいたiベクトル:w
pのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を入力する。そして、類似度加算部23−mは、スペクトル特徴量に基づいたiベクトル:w
s及びピッチ特徴量に基づいたiベクトル:w
pのそれぞれについて、類似度を加算することで類似度の総和を算出する。これにより、スペクトル特徴量を用いた音響特徴量における類似度の総和、及びピッチ特徴量を用いた音響特徴量における類似度の総和が得られる。類似度加算部23−mは、2つの算出結果を、予め設定された重み付け係数にて重み付け加算し、類似度の加算総和を求めて選択部24に出力する。
【0092】
ここで、スペクトル特徴量に基づいたiベクトル:w
sについての前記式(1)(2)により得られた類似度の総和をs
Smとする。また、ピッチ特徴量に基づいたiベクトル:w
pについての前記式(1)(2)により得られた類似度の総和をs
Pmとする。重み付け係数をgとすると、類似度の総和s
Sm,s
Pmを重み付けして加算した結果である、類似度の加算総和s
SPmは、以下の式で表される。
【数11】
【0093】
重み付け係数gは、以下の範囲の値をとる実数である。
【数12】
g=1.0の場合は実施例1を示し、g=0.0の場合は実施例2を示す。
【0094】
選択部24は、類似度加算部23−1〜23−Mから類似度の加算総和をそれぞれ入力し、これらの類似度の加算総和のうち最小の類似度の加算総和を特定する。そして、選択部24は、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、最小の類似度の加算総和に対応する補完音声DB20(補完音声話者)を選択し、選択情報を出力する。
【0095】
ここで、最小の類似度の加算総和s
SPmに対応する補完音声DB20(補完音声話者)を補完音声DB20−c(補完音声話者c)とし、選択情報をc(1〜Nのうちのいずれかの値)とすると、選択情報cは、以下の式にて選択される。
【数13】
【0096】
以上のように、実施例3の特徴量算出部11,21は、音響特徴量として、スペクトル特徴量に基づいたiベクトルを算出すると共に、ピッチ特徴量に基づいたiベクトルを算出する。
【0097】
類似度算出部22−mは、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を算出する。そして、類似度加算部23−mは、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについて、類似度を加算することで類似度の総和を算出し、2つの算出結果を重み付けして加算し、類似度の加算総和を求める。
【0098】
選択部24は、類似度の加算総和に基づいて、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0099】
ここで、補完音声DB20−c(補完音声話者c)は、スペクトル特徴量から算出された音響特徴量及びピッチ特徴量から算出された音響特徴量を指標として選択される。また、前述のとおり、スペクトル特徴量には音声の周波数成分が反映されており、声質は、音声の周波数成分により決定される。また、音の高さは、ピッチ特徴量により決定される。
【0100】
したがって、番組音声に補完音声を付加した結果、番組音声と補完音声とを同時に提示することになっても、これらの音声を聴く人は、番組音声と補完音声とを容易に区別することができ、話者の声質及び声の高さが聞き分けやすい補完音声を得ることができる。
【0101】
特に、補完音声DB20−c(補完音声話者c)を選択する指標である類似度の加算総和には、スペクトル特徴量に基づいたiベクトル及びピッチ特徴量に基づいたiベクトルのそれぞれについての重み付けが反映される。つまり、声質を重視する場合は、スペクトル特徴量に基づいたiベクトルの重み付け係数を1.0に近づけることで、当該声質が反映された類似度の加算総和が算出される。また、声の高さを重視する場合は、ピッチ特徴量に基づいたiベクトルの重み付け係数を1.0に近づけることで、当該声の高さが反映された類似度の加算総和が算出される。したがって、番組音声に応じた重み付け係数を予め設定することで、番組音声に対し、一層聞き分けやすい補完音声を得ることができる。
【0102】
以上、実施例1〜3を挙げて本発明を説明したが、本発明は前記実施例1〜3に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、実施例1では、スペクトル特徴量に基づいた音響特徴量を算出し、実施例2では、ピッチ特徴量に基づいた音響特徴量を算出するようにした。また、実施例3では、スペクトル特徴量に基づいた音響特徴量、及びピッチ特徴量に基づいた音響特徴量を算出する。本発明は、音響特徴量の算出手法を、スペクトル特徴量に基づいた手法またはピッチ特徴量に基づいた手法に限定するものではなく、他の手法を用いるようにしてもよい。
【0103】
例えば、異なる3種類の手法を用いて異なる3種類の音響特徴量を算出する場合を想定する。特徴量算出部11,21は、第1〜3の手法を用いて、第1〜3のiベクトルをそれぞれ算出する。類似度算出部22−mは、第1〜3のiベクトルのそれぞれについて、第1〜N番目の番組音声と第m番目の補完音声との間のそれぞれの類似度を算出する。そして、類似度加算部23−mは、第1〜3のiベクトルのそれぞれについて、類似度を加算することで類似度の総和を算出し、3つの算出結果を重み付けして加算し、類似度の加算総和を求める。選択部24は、類似度の加算総和に基づいて、補完音声DB20−1〜20−Mのうち(M人の補完音声話者のうち)、番組音声と最も類似しない音響的な特徴を有する補完音声DB20−c(補完音声話者c)を選択する。
【0104】
尚、本発明の実施形態による音声選択装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声選択装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声選択装置1に備えた特徴量算出部11−1〜11−N、特徴量算出部21−1〜21−M、類似度算出部22−1〜22−M、類似度加算部23−1〜23−M及び選択部24の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラム(音声選択プログラム)は、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。