特許第6908045号(P6908045)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧
特許6908045音声処理装置、音声処理方法、およびプログラム
<>
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000007
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000008
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000009
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000010
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000011
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000012
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000013
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000014
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000015
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000016
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000017
  • 特許6908045-音声処理装置、音声処理方法、およびプログラム 図000018
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6908045
(24)【登録日】2021年7月5日
(45)【発行日】2021年7月21日
(54)【発明の名称】音声処理装置、音声処理方法、およびプログラム
(51)【国際特許分類】
   G10L 17/00 20130101AFI20210708BHJP
   G10L 17/02 20130101ALI20210708BHJP
   G10L 15/10 20060101ALI20210708BHJP
   G10L 15/02 20060101ALI20210708BHJP
【FI】
   G10L17/00 200B
   G10L17/02
   G10L15/10 500Z
   G10L15/02 300Z
【請求項の数】10
【全頁数】20
(21)【出願番号】特願2018-539704(P2018-539704)
(86)(22)【出願日】2017年9月11日
(86)【国際出願番号】JP2017032666
(87)【国際公開番号】WO2018051945
(87)【国際公開日】20180322
【審査請求日】2020年8月17日
(31)【優先権主張番号】特願2016-179123(P2016-179123)
(32)【優先日】2016年9月14日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100124154
【弁理士】
【氏名又は名称】下坂 直樹
(72)【発明者】
【氏名】山本 仁
(72)【発明者】
【氏名】越仲 孝文
(72)【発明者】
【氏名】鈴木 隆之
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2016−75740(JP,A)
【文献】 特開2016−61824(JP,A)
【文献】 特開2016−206660(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/26
(57)【特許請求の範囲】
【請求項1】
1つ以上の音響モデルを記憶する音響モデル記憶手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、前記音声信号に関わる話者認識するための認識特徴量を算出する部分特徴抽出手段と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合手段、を備える、
音声処理装置。
【請求項2】
前記部分特徴抽出手段は、前記音響多様度から複数の前記重みつきの音響多様度を算出し、前記複数の重みつきの音響多様度それぞれと前記音響特徴とから、複数の前記認識特徴量を算出する、請求項1に記載した音声処理装置。
【請求項3】
前記部分特徴抽出手段は、前記認識特徴量としてベクトル形式で表現される部分特徴ベクトルを算出する、請求項1または請求項2に記載した音声処理装置。
【請求項4】
前記音響統計量算出手段は、
前記音響モデルを用いて、受け取った前記音声信号に含まれる音の種類の比率に基づき、前記音響多様度を算出する、請求項1から請求項3のいずれか1つに記載した音声処理装置。
【請求項5】
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算手段を備える、
請求項1から請求項4のいずれか1つに記載した音声処理装置。
【請求項6】
前記話者認識計算手段は、前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、請求項5に記載した音声処理装置。
【請求項7】
前記話者認識計算手段は、算出した前記スコアを、音の種類を示す情報とあわせて出力する請求項6に記載した音声処理装置。
【請求項8】
前記特徴ベクトルは、前記音声信号を構成する言語、前記音声信号に含まれる感情表現、前記音声信号から推定される話者の性格、の少なくともいずれか一つを認識するための情報である、請求項1から請求項7のいずれか1つに記載した音声処理装置。
【請求項9】
1つ以上の音響モデルを記憶し、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、
算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者認識するための認識特徴量を算出し、
算出された前記認識特徴量を用いて特徴ベクトルを算出する、
音声処理方法。
【請求項10】
コンピュータを、
1つ以上の音響モデルを記憶する手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者認識するための認識特徴量を算出する手段、
として機能させるためのプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声処理に関し、特に音声信号から話者の個人性や発話された言語等の属性情報を認識する音声処理装置、音声処理方法等に関する。
【背景技術】
【0002】
音声を発した話者を特定するための個人性を表す音響的特徴(個人性特徴)および音声が伝える言語を表す音響的特徴を音声信号から抽出する音声処理装置が知られている。また、音声処理装置の一種として、音声信号がもつこれらの特徴を用いて話者を推定する話者認識装置および言語を推定する言語認識装置が知られている。
【0003】
この音声処理装置を用いる話者認識装置は、音声処理装置が音声信号から抽出した個人性特徴と、予め定義した個人性特徴との類似度を評価し、その評価に基づき話者を選択する。話者認識装置は、例えば、最も類似度が高いと評価された個人性特徴によって特定される話者を選択する。
【0004】
非特許文献1には、話者認識装置に入力される音声信号から個人性特徴を抽出する技術が記載されている。非特許文献1に記載の特徴抽出技術は、音声信号に対して、音響モデルを用いて当該音声信号の音響統計量を算出し、因子分析の技術に基づいてその音響統計量を処理することにより、任意の音声信号を所定の要素数のベクトル形式で表現する。また、話者認識装置においては、当該特徴ベクトルを話者の個人性特徴として利用する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開第2014/155652号
【非特許文献】
【0006】
【非特許文献1】Najim Dehak, Patrick Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, ”Front-End Factor Analysis for Speaker Verification”, IEEE Transactions on Audio, Speech and Language Processing, Vol. 19, No. 4, pp. 788-798, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1に記載の技術は、話者認識装置に入力された音声信号に対して、音響モデルを用いて算出した音響統計量を因子分析技術に基づいて圧縮する。しかし、同技術は、話者認識装置に入力された音声信号の全体に対して一律の統計処理によりひとつの特徴ベクトルを算出するにとどまる。
【0008】
そのため、非特許文献1に記載の技術は、話者認識計算において特徴ベクトルの類似度に基づくスコア(点数)を算出することはできる。しかしながら非特許文献1に記載の技術は、特徴ベクトルの要素それぞれと音声信号との対応関係、あるいは特徴ベクトルの要素それぞれが話者認識結果に与える影響、を分析し解釈することは困難であった。
【0009】
本開示は、上記問題に鑑みてなされたものであり、その目的は、話者認識結果の解釈性を高める技術を提供することにある。
【課題を解決するための手段】
【0010】
本開示の音声処理装置は、1つ以上の音響モデルを記憶する音響モデル記憶部と、受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、算出された音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された重みつきの音響多様度および音響特徴を用いて、話者認識するため認識特徴量を算出する部分特徴抽出部と、算出された認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部を備える。
【0011】
本開示の音声処理方法は、受け取った音声信号から音響特徴を算出し、算出した音響特徴と1つ以上の音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、算出された音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された重みつきの音響多様度および音響特徴を用いて、話者を認識するため認識特徴量を算出し、算出された認識特徴量を用いて特徴ベクトルを算出する。
【0012】
本開示のプログラムは、コンピュータを、1つ以上の音響モデルを記憶する手段と、受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、算出された音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された重みつきの音響多様度および音響特徴を用いて、話者を認識するため認識特徴量を算出する手段、として機能させる。
【発明の効果】
【0013】
本開示によれば、話者認識結果の解釈性を高める技術を提供することができる。
【図面の簡単な説明】
【0014】
図1】第1の実施形態に係る音声処理装置のブロック図である。
図2】第1の実施形態に係る音声処理装置の動作の一例を示すフローチャートである。
図3A】第1の実施形態に係る音声処理装置の部分特徴抽出部の構成の一例を示す図である。
図3B】第1の実施形態に係る音響多様度の例示である。
図3C】第1の実施形態に係る選別係数Wの例示である。
図3D】第1の実施形態に係る選別係数Wnの例示である。
図4】第2の実施形態に係る話者認識装置の機能構成の一例を示すブロック図である。
図5】第2の実施形態に係る話者認識装置の動作の一例を示すフローチャートである。
図6】第2の実施形態に係る話者認識装置の話者認識計算部の構成の一例を示す図である。
図7A】第2の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。
図7B】第2の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。
図7C】第2の実施形態に係る話者認識装置が出力する話者認識結果の一例を示す図である。
【発明を実施するための形態】
【0015】
以下に、図面を参照しながら、本開示の実施形態について詳細に説明する。なお、以下の説明では、同じ機能を有するものには同じ符号をつけ、その説明を省略する場合がある。
【0016】
(構成)
図1は、第1の実施形態に係る音声処理装置100のブロック図である。音声処理装置100は、音響統計量算出部11、音響モデル記憶部12、部分特徴抽出部13および部分特徴統合部14を備える。
(音響モデル記憶部12)
音響モデル記憶部12は、1つ以上の音響モデルを記憶する。音響モデルとは、音声信号の周波数特性と音の種類との対応関係を表すものである。音響モデルは、瞬時的な音声信号が表す音の種類を識別するように構成される。音響モデルの表現としては、例えば、ガウス混合モデル(GMM:Gaussian Mixture Model)やニューラルネットワーク(Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)がある。
【0017】
音の種類は、例えば、音声信号を類似度に基づいてクラスタリングして得られる音声信号のクラスタである。あるいは、音の種類は、音素等の言語知識により分類される音声信号のクラスである。
【0018】
音響モデル記憶部12が記憶する音響モデルは、訓練用に用意された音声信号(訓練用音声信号)を用いて、一般的な最適化基準に従って予め訓練された音響モデルである。音響モデル記憶部12は、例えば、話者の性別(男性または女性)、録音環境別(屋内または屋外)等のように複数の訓練用音声信号毎に訓練された2つ以上の音響モデルを記憶してもよい。
【0019】
なお、図1の例では、音声処理装置100が音響モデル記憶部12を備えているが、音響モデル記憶部12は、音声処理装置100とは別個の記憶装置で実現されるものであってもよい。
(音響統計量算出部11)
音響統計量算出部11は、音声信号を受け取り、受け取った音声信号から音響特徴を算出し、算出した音響特徴と1つ以上の音響モデルとを用いて、音響多様度を算出し、算出した音響多様度および音響特徴を出力する。
【0020】
ここで、受け取るとは、例えば、外部の装置または他の処理装置から音声信号を受信すること、または、他のプログラムから処理結果の引き渡しを受けることである。また、音響多様度は、音声信号に含まれる音の種類のばらつきの程度を表すベクトルである。以降、ある音声信号から算出された音響多様度を、該音声信号の音響多様度と呼ぶ。そして、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへ処理結果を引き渡すことである。また、出力とは、ディスプレイへの表示、プロジェクタを用いた投影、プリンタでの印字なども含む概念である。
【0021】
まず、音響統計量算出部11が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順について説明する。
【0022】
音響統計量算出部11は、受け取った音声信号を短時間毎にフレームとして切り出して配列することにより時系列(短時間フレーム時系列)とし、フレームそれぞれを周波数分析し、周波数分析の結果として音響特徴を算出する。音響統計量算出部11は、例えば、短時間フレーム時系列として、25ミリ秒区間のフレームを10ミリ秒ごとに生成する。
周波数分析処理として、例えば、音響統計量算出部11は、高速フーリエ変換処理(FFT:fast Fourier transform)およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、周波数分析処理として、音響統計量算出部11は、FFTおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficients)を算出する。
【0023】
以上が、音響統計量算出部11が、受け取った音声信号を周波数分析処理することにより音響特徴を算出する手順である。
【0024】
次に、音響統計量算出部11が、算出した音響特徴と音響モデル記憶部12に記憶されている1つ以上の音響モデルとを用いて、音響多様度を算出する手順について説明する。
【0025】
例えば、用いる音響モデルがGMMである場合、GMMが有する複数の要素分布はそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部11は、音響モデル(GMM)から複数の要素分布それぞれのパラメタ(平均、分散)および各要素分布の混合係数を取り出し、算出した音響特徴と、取り出した要素分布のパラメタ(平均、分散)および各要素分布の混合係数に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。ここで、出現度とは、出現することが繰り返される度合い(出現頻度)または出現する確率を意味する。このため、出現度は自然数(出現頻度)の場合もあるし、0以上1未満の小数(確率)の場合もある。
【0026】
また、例えば、用いる音響モデルがニューラルネットワークである場合、ニューラルネットワークが有する出力層の各要素がそれぞれ異なる音の種類に対応する。そこで、音響統計量算出部11は、音響モデル(ニューラルネットワーク)から各要素のパラメタ(重み係数、バイアス係数)を取り出し、算出した音響特徴と、取り出した要素のパラメタ(重み係数、バイアス係数)に基づき、音声信号に含まれる複数の音の種類それぞれの出現度を算出する。
このようにして算出した複数の音の種類それぞれの出現度を用いて、音響統計量算出部11は、さらに音響多様度を算出する。
【0027】
以上が、音響統計量算出部11が、算出した音響特徴と音響モデル記憶部12に記憶されている1つ以上の音響モデルとを用いて、音響多様度を算出する手順である。
【0028】
次に、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する手順の一例を詳細に説明する。
【0029】
例えば、用いる音響モデルがGMMである場合、音響統計量算出部11は、まず、音声信号xについて、音響モデルであるGMMが有する複数の要素分布それぞれに対する事後確率を求める。GMMのi番目の要素分布の事後確率P(x)は、音声信号xがGMMのi番目の要素分布に属する程度を表す。P(x)は、次の数1の式によって求める。
【0030】
【数1】
【0031】
ここで、関数N()はガウス分布の確率密度関数を表し、θはGMMのi番目の要素分布のパラメタ(平均と分散)、wはGMMのi番目の要素分布の混合係数を示す。そして次に、音響統計量算出部11は、P(x)を要素に持つベクトルである音響多様度V(x)を算出する。例えば、音響モデルであるGMMの混合数が4であるとき、V(x)=[P(x),P(x),P(x),P(x)]とする。
【0032】
以上が、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する手順の一例である。
【0033】
次に、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する他の方法を詳細に説明する。
【0034】
例えば、用いる音響モデルがGMMであるとき、音響統計量算出部11は、音声信号xを短時間音声信号の時系列{x1,x2,・・・,xT}(Tは任意の自然数)に分割する。そして、音響統計量算出部11は、短時間音声信号それぞれに対し、その出現確率が最大となる要素分布番号iを次の数2の式によって求める。
【0035】
【数2】
【0036】
ここで、GMMのi番目の要素分布が選ばれた回数をC(x)とする。C(x)は音声信号xがGMMのi番目の要素分布に属する程度を表している。そして次に、音響統計量算出部11は、C(x)あるいはC(x)/Σ(x)を要素に持つベクトルとして音響多様度V(x)を算出する。例えば、音響モデルであるGMMの混合数が4であるとき、音響多様度をV(x)=[C(x),C(x),C(x),C(x)]とする。
【0037】
なお、音響統計量算出部11は、受け取った音声信号を区分化した後に音響多様度を算出してもよい。より具体的には、例えば、音響統計量算出部11は、受け取った音声信号を一定時間ごとに区切って区分化音声信号とし、区分化音声信号それぞれについて音響多様度を算出してもよい。
【0038】
あるいは、音響統計量算出部11は、外部の装置または他の処理装置から音声信号を受信しているときに、その音声信号の継続時間が所定の値を超えた場合、その時点までに受け取った音声信号の音響多様度を算出する。また、音響統計量算出部11は、音響モデル記憶部12に記憶されている2つ以上の音響モデルを参照する場合に、それぞれの音響モデルに基づいて出現度を算出してもよい。そして、音響統計量算出部11は、2つ以上の音響モデルそれぞれに基づいて算出した出現度を用いて音響多様度を算出し、算出した音響多様度を重みづけした上で加算したものをあらためて音響多様度としてもよい。
【0039】
以上が、音響統計量算出部11が音声信号xの音響多様度V(x)を算出する他の方法である。
【0040】
このように、音響統計量算出部11は、複数の音の種類の出現度をそれぞれ算出し、算出した出現度を用いて、音声信号の音響多様度を算出する。言い換えると、音響統計量算出部11は、音声信号に含まれる音の種類の比率(音響モデルが有する要素分布全体に対するi番目の要素分布の割合)を反映させた音響多様度を算出する。
(部分特徴抽出部13)
部分特徴抽出部13は、音響統計量算出部11が出力した統計情報(音響多様度や音響特徴等)を受け取る。部分特徴抽出部13は、受け取った統計情報を用いて、認識特徴量を算出する処理を行い、算出した認識特徴量を出力する。ここで、認識特徴量とは、音声信号から特定の属性情報を認識するための情報である。属性情報とは、音声信号を発した話者の個人性や発話された音声信号の言語等を示す情報である。認識特徴量は、例えば、1つ以上の値からなるベクトルである。ベクトルである認識特徴量としては、例えば、i−vectorがある。
【0041】
図3Aは、本実施形態にかかる音声処理装置100の部分特徴抽出部13の構成の一例を示す図である。図3Bは、本実施形態における音響多様度の例示である。図3Cは、本実施形態における選別係数W1の例示である。図3Dは、本実施形態における選別係数Wnの例示である。選別係数は、特徴抽出のときに音の種類を選ぶために予め定義するベクトルである。図3Aの例では、部分特徴抽出部13は、選別部130nおよび特徴抽出部131n(nは1以上N以下の自然数、Nは自然数)を有する。
【0042】
図3Aを用いて、部分特徴抽出部13が音声信号xの認識特徴量F(x)を算出する方法の一例について説明する。認識特徴量F(x)は、音声信号xに対して所定の演算を施して算出できるベクトルであればよい。一例として部分特徴抽出部13が算出する認識特徴量F(x)としてi−vectorに基づく部分特徴ベクトルを算出する方法について説明する。
【0043】
例えば、部分特徴抽出部13は、音響統計量算出部11から、音声信号xの統計情報として、短時間フレームごとに算出された音響多様度V(x)および音響特徴A(x)(tは1以上T以下の自然数、Tは自然数)とを受け取る。部分特徴抽出部13の選別部130nは、受け取ったV(x)の各要素に対して、選別部ごとに定められた選別係数Wnをかけて、その結果を重みつきの音響多様度Vnt(x)として出力する。
【0044】
部分特徴抽出部13の特徴抽出部131nは、受け取ったVnt(x)およびA(x)を用いて、以下の式に基づいて音声信号xの0次統計量S(x)および1次統計量S(x)を算出する。
【0045】
【数3】
【0046】
ここで、cは統計量S(x)およびS(x)の要素数、DはA(x)の要素数(次元数)、mは音響特徴空間におけるc番目の領域の平均ベクトル、Iは単位行列、0は零行列を表す。
【0047】
続いて、部分特徴抽出部13の特徴抽出部131nは、以下の式に基づいて音声信号xのi−vectorである部分特徴ベクトルF(x)を算出する。
【0048】
【数4】
【0049】
ここで、Tは部分特徴部131nに依存するi−vector計算用のパラメタであり、Σは音響特徴空間における共分散行列である。
【0050】
以上が、部分特徴抽出部13が算出する認識特徴量F(x)としてi−vectorに基づく部分特徴ベクトルF(x)を算出する方法の一例である。
【0051】
部分特徴抽出部13が、上述の手順で部分特徴ベクトルF(n=1,2,…,N、Nは1以上の自然数)を算出する際に、N=1であり、かつ、選別部1301が有する選別係数W1の各要素がすべて1であれば、非特許文献1に記載のi−vector算出手順と等価である。部分特徴抽出部13は、選別部130nが有する選別係数Wnの各要素を1ではない値に設定することにより、非特許文献1に記載のi−vectorとは異なる特徴ベクトルF(x)を算出できる。また、選別部130nが有する選別係数Wnの各要素がそれぞれ異なるように設定することにより、非特許文献1に記載のi−vectorとは異なる部分特徴ベクトルF(x)を複数算出できる。
【0052】
次に、選別係数Wnの設定例について説明する。
【0053】
例えば、音響モデルが、音素を識別するように構成されたニューラルネットワークであるとき、音響多様度V(x)の各要素は音響モデルが識別する音素と対応づけられる。そこで、選別部130nが有する選別係数Wnの各要素のうち、ある音素に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nは当該音素のみを考慮した部分特徴ベクトルF(x)を算出できる。
【0054】
また、例えば、音響モデルがガウス混合モデルであるとき、音響多様度V(x)の各要素は、ガウス混合モデルの要素分布と対応づけられる。そこで、選別部130nが有する選別係数Wnの各要素のうち、ある要素分布に対応する音響多様度の要素のみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nは当該要素のみを考慮した部分特徴ベクトルF(x)を算出できる。
【0055】
また、例えば、音響モデルがGMMであるとき、音響モデルが有する複数の要素分布を、類似度毎にクラスタリングすることにより、音響モデルを複数の集合(クラスタ)に分割することができる。クラスタリングの手法としては例えば木構造クラスタリングがある。ここで、選別部130nが有する選別係数Wnの要素のうち、例えば1番目のクラスタに含まれる要素分布に対応する音響多様度の要素に対応するもののみをゼロでない値とし、それ以外の要素をゼロと設定することにより、特徴抽出部131nでは1番目のクラスタのみを考慮した部分特徴ベクトルF(x)を算出できる。
【0056】
以上が、選別係数Wnの設定例である。
【0057】
このように、部分特徴抽出部13は、音の種類を考慮した選別係数Wnを設定し、音声信号xの統計量である音響多様度V(x)に対して音の種類を考慮した選別係数Wnをかけることで重みつきの音響多様度Vnt(x)を算出し、算出したVnt(x)を用いて部分特徴ベクトルF(x)を算出する。このため、部分特徴抽出部13は、音の種類を考慮した部分特徴ベクトルを出力することができる。
(部分特徴統合部14)
部分特徴統合部14は、部分特徴抽出部13が出力した認識特徴量を受け取る。部分特徴統合部14は、受け取った認識特徴量を用いて、特徴ベクトルを算出する処理を行い、その処理結果を出力する。ここで、特徴ベクトルとは、音声信号から特定の属性情報を認識するためのベクトル情報である。
【0058】
部分特徴統合部14は、部分特徴抽出部13が、音声信号xに対して算出した、1つ以上の部分特徴ベクトルF(x)(nは1以上N以下の自然数、Nは自然数)を受け取る。部分特徴統合部14は、例えば、受け取った1つ以上の部分特徴ベクトルF(x)から、1つの特徴ベクトルF(x)を算出して出力する。部分特徴統合部14は、例えば、以下の数5の数式のように特徴ベクトルF(x)を算出する。
【0059】
【数5】
【0060】
以上述べたとおりであるので、本実施形態にかかる音声処理装置100は、音響統計量算出部11が算出する音響多様度により、音声信号に含まれる音の種類のばらつきの程度である多様性をパラメタとして含む処理を行っているといえる。
【0061】
また、音響統計量算出部11が算出した音響統計量を用いて、部分特徴抽出部13が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部14がそれらを統合した特徴ベクトルを出力する。これにより、音声信号に対して、特徴ベクトルのそれぞれの要素が音声信号を構成するどの要素に対応するかを解釈可能な特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置100は、話者認識の解釈性を高めるのに適した認識特徴量を算出できる。
【0062】
なお、本実施形態にかかる音声処理装置100における音響モデル記憶部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0063】
また、音響モデル記憶部12に音響モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して音響モデルが音響モデル記憶部12に記憶されてもよいし、通信回線等を介して送信された音響モデルが音響モデル記憶部12に記憶されてもよい。または、入力デバイスを介して入力された音響モデルが音響モデル記憶部12で記憶されてもよい。
【0064】
音響統計量算出部11、部分特徴抽出部13、および部分特徴統合部14は、例えば、これら機能を実現するソフトウェアを演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。音響統計量算出部11等の処理手順は、例えば、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。また、音声処理装置100の各部は、ハードウェア(専用回路)で実現されてもよい。
(第1の実施形態の動作)
次に、第1の実施形態における音声処理装置100の動作について説明する。
【0065】
図2は、第1の実施形態に係る音声処理装置100の動作の一例を示すフローチャートである。
【0066】
音響統計量算出部11は、1つ以上の音声信号を受け取る(ステップS101)。そして、音響統計量算出部11は、受け取った1つ以上の音声信号について、音響モデル記憶部12に記憶されている1つ以上の音響モデルを参照し、音響多様度を含む音響統計量を算出する(ステップS102)。
【0067】
部分特徴抽出部13は、音響統計量算出部11が算出した1つ以上の音響統計量に基づいて、1つ以上の部分的な認識特徴量を算出して出力する(ステップS103)。
【0068】
部分特徴統合部14は部分特徴抽出部13が算出した1つ以上の部分的な認識特徴量を統合して認識特徴量として出力する(ステップS104)。
【0069】
音声処理装置100は、ステップS104の認識特徴量の出力が完了したら、一連の処理を終了する。
(第1の実施形態の効果)
以上、説明したように、本実施形態にかかる音声処理装置100は、部分特徴抽出部13が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部14が算出された部分特徴ベクトル統合することで、その要素と音声信号の構成要素との対応づけが可能な特徴ベクトルを出力する。すなわち、音声処理装置100は、音声信号に対して部分特徴ベクトルを統合した特徴ベクトルを出力する。このような計算方式により、音声処理装置100は、音の種類ごとの認識特徴量(特徴ベクトル)を算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
<第2の実施形態>
次に、第2の実施形態について説明する。本実施形態では、音声処理装置の適用例として、上述した第1の実施形態にかかる音声処理装置100を含む話者認識装置について説明する。なお、第1の実施形態と同じ機能を有する構成については、同じ符号を付し、その説明を省略する場合がある。
【0070】
図4は、第2の実施形態に係る話者認識装置200の機能構成の一例を示すブロック図である。本実施形態における話者認識装置200は、音声信号から特定の属性情報を認識する属性認識装置の一例である。図4に示す通り、話者認識装置200は、認識特徴抽出部22、および話者認識計算部23を少なくとも備える。また、話者認識装置200は、さらに、音声区間検出部21、話者モデル記憶部24を備えてもよい。
【0071】
音声区間検出部21は、音声信号を受け取る。そして、音声区間検出部21は、受け取った音声信号から音声区間を検出して音声信号を区分化する。音声区間検出部21は、音声信号を区分化した処理結果である区分化音声信号を出力する。音声区間検出部21は、例えば、音声信号のうち一定時間継続して音量が所定値より小さい区間を無音の音声区間として検出し、検出した無音の音声区間の前後を、異なる音声区間と判定して区分化してもよい。
【0072】
ここで、音声信号を受け取るとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの、音声信号処理の処理結果の引き渡しのことである。
【0073】
認識特徴抽出部22は、音声区間検出部21が出力した1つ以上の区分化音声信号を受け取り、特徴ベクトルを算出して出力する。話者認識装置200が音声区間検出部21を備えない場合、認識特徴抽出部22は、音声信号を受け取り、特徴ベクトルを算出して出力する。認識特徴抽出部22の構成および動作は、第1の実施形態における音声処理装置100の構成および動作と同様であってもよい。例えば、認識特徴抽出部22は、上述した第1の実施の形態にかかる音声処理装置100であってもよい。
【0074】
話者認識計算部23は、認識特徴抽出部22が出力した特徴ベクトルを受け取る。そして、話者認識計算部23は、話者モデル記憶部24に記憶されている1つ以上の話者モデルを参照して、受け取った認識特徴量が、参照した話者モデルに適合する度合いを表す数値情報である話者認識のスコアを算出する。この話者認識のスコアから、音声信号に含まれる属性情報が特定される。そして、さらにこの特定された属性情報によって、話者や言語等が特定される。話者認識計算部23は、得られた結果(話者認識のスコア)を出力する。
【0075】
話者モデル記憶部24は、1つ以上の話者モデルを記憶する。話者モデルは、入力された音声信号が特定の話者に適合する度合いである話者認識のスコアを算出するための情報である。話者モデル記憶部24は、例えば、話者モデルと、話者ごとに設定される識別子である話者ID(Identifier)とを対応付けて記憶する。
【0076】
なお、図4では、話者モデル記憶部24が話者認識装置200に内蔵されることを例に説明を行ったが、これに限定されるものではない。話者モデル記憶部24は、話者認識装置200とは別個の記憶装置で実現されるものであってもよい。また、話者モデル記憶部24は、音響モデル記憶部12と同じ記憶装置で実現されるものであってもよい。
【0077】
図6は、第2の実施形態に係る話者認識装置200の話者認識計算部23の構成の一例を示す図である。図6の例では、話者認識計算部23は、分割部231、認識部232m(m=1,2,…,M}、Mは1以上の自然数)および統合部233を有する。話者認識計算部23は、特徴ベクトルF(x)を用いて話者認識のスコアを算出する。また、話者認識計算部23は、算出した話者認識のスコアを含む情報である話者認識結果を出力する。
【0078】
話者認識計算部23が特徴ベクトルF(x)を用いて話者認識のスコアを算出する方法の一例について図6を用いて説明する。
【0079】
分割部231は、受け取った特徴ベクトルF(x)から複数(M個)のベクトルを作成する。複数のベクトルは、それぞれ別の音の種類に対応する。分割部231は、例えば、部分特徴抽出部13が算出したn個の部分特徴ベクトルF(x)と同じベクトルを作成する。
【0080】
認識部232mは、分割部231が作成したm番目のベクトルを受け取り、話者認識計算を行う。認識部232mは、例えば、音声信号から算出した認識特徴量と話者モデル記憶部24が記憶する話者モデルがともにベクトル形式であるとき、それらのコサイン類似度に基づいて、スコアを算出する。
【0081】
統合部233は、複数の認識部232mそれぞれが算出したスコアを統合して話者認識のスコアとして出力する。
【0082】
以上が、話者認識計算部23が音声信号xの認識特徴量F(x)を用いて話者認識のスコアを算出する方法の一例である。
【0083】
図7A図7B図7Cは、本実施形態にかかる話者認識装置200が出力する話者認識結果の一例を示す図である。
【0084】
話者認識計算部23が出力する話者認識結果について、図7Aから図7Cを用いて説明する。
【0085】
統合部233は、話者認識結果の情報として、図7Aに示す認識結果71のように、話者IDと、認識部232mの番号mと、認識部232mから取得したスコアとを対応づけた情報を出力する。ここで、統合部233は、番号mに加えて、番号mの音の種類を示す情報をあわせて出力してもよい。統合部233は、音の種類を示す情報として、例えば、図7Cに示すように、音素や単語などの文字情報、スペクトログラムなどの画像情報、音声信号などの音響情報、を出力してもよい。
【0086】
また、統合部233は、話者認識結果の情報として、図7Bに示す認識結果72のように、話者IDと話者認識のスコアとを対応付けた情報を出力する。ここで、話者認識のスコアは、例えば、認識部232mから取得したスコアの重み付き加算によって算出してもよい。統合部233は、例えば、話者認識装置200が話者照合することを目的とする場合は、照合対象の話者IDに対して算出したスコアに基づく照合可否の判定情報を出力してもよい。また、統合部233は、例えば、話者認識装置200が話者識別することを目的とする場合は、複数の話者IDに対して算出したスコア順に並べた話者IDのリストを出力してもよい。なお、本実施形態にかかる話者認識装置200における話者モデル記憶部24は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0087】
また、話者モデル記憶部24に話者モデルが記憶される過程は特に限定されない。例えば、記録媒体を介して話者モデルが話者モデル記憶部24に記憶されてもよく、通信回線等を介して送信された話者モデルが話者モデル記憶部24に記憶されてもよく、あるいは、入力デバイスを介して入力された話者モデルが話者モデル記憶部24で記憶されてもよい。
【0088】
音声区間検出部21、認識特徴抽出部22、および話者認識計算部23は、例えば、これら機能を実現するソフトウェアを通常演算処理装置およびメモリ等のハードウェアが取得して実行することで実現される。当該ソフトウェアはROM等の記録媒体に記録されていてもよい。また、話者認識装置200の各部は、ハードウェア(専用回路)で実現されてもよい。
(第2の実施形態の動作)
次に、話者認識装置200の動作について、図5のフローチャートを用いて説明する。
図5は、第2の実施形態に係る話者認識装置200の動作の一例を示すフローチャートである。
【0089】
音声区間検出部21は、音声信号を受け取る(ステップS201)。そして、音声区間検出部21は、受け取った音声信号に対し、音声区間を検出することによって、音声信号の区分化を行う。音声区間検出部21は、1つ以上の区分化した音声信号(以降、区分化音声信号と呼ぶ)を認識特徴抽出部22に出力する(ステップS202)。
【0090】
認識特徴抽出部22は、受理した1つ以上の区分化音声信号のそれぞれに対し、音響統計量を算出する(ステップS203)。そして、認識特徴抽出部22は、算出した音響統計量から部分的な認識特徴量(部分特徴ベクトル)を算出し(ステップS204)、算出した部分的な認識特徴量(部分特徴ベクトル)を統合して特徴ベクトルとし、特徴ベクトルを出力する(ステップS205)。
【0091】
話者認識計算部23は、認識特徴抽出部22が算出した特徴ベクトルに対し、話者モデル記憶部24に記憶されている1つ以上の話者モデルを参照し、話者認識のスコアを計算する。話者認識計算部23は、話者認識のスコアを出力する(ステップS206)。
【0092】
話者認識装置200は、ステップS206の話者認識のスコアの出力が完了したら、一連の処理を終了する。
【0093】
(第2の実施形態の効果)
以上、説明したように、話者認識装置200は、認識特徴抽出部22が音の種類を考慮した部分特徴ベクトルを算出し、算出された部分特徴ベクトル統合することで、その要素と音声信号との対応づけが可能な特徴ベクトルとして出力する。さらに、話者認識計算部23が特徴ベクトルから話者認識のスコアを算出して出力する。このような計算方式により、話者認識のスコアから音声信号に含まれる属性情報が特定できる。そして、音の種類ごとの話者認識のスコアを算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
【0094】
第2の実施形態における話者認識装置200は、音声信号から特定の属性情報を認識する属性認識装置の一例でもある。つまり、話者認識装置200は、特定の属性として、音声信号を発した話者を示す情報を認識する属性認識装置であるといえる。また、話者認識装置200は、例えば文発話の音声信号に対して、当該話者認識装置により推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても応用可能である。話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。話者認識装置200は、特定の属性として、音声信号が伝える言語(音声信号を構成する言語)を示す情報を認識するとき、言語認識装置として応用可能である。また、話者認識装置200は、例えば文発話の音声信号に対して、当該言語認識装置により推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても応用可能である。話者認識装置200は、特定の属性として、話者の発話時の感情を示す情報を認識するとき、感情認識装置として応用可能である。
【0095】
また、話者認識装置200は、例えば蓄積された多数の発話の音声信号に対して、当該感情認識装置により推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部、すなわち、音声処理装置の一種として応用可能である。この感情情報には、例えば、感情表現を示す情報、話者の性格を示す情報等が含まれる。すなわち、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを表す情報である。第2の実施形態における話者認識装置200は、このような属性情報を認識することができる。
【0096】
以上のように、本開示の一態様における音声処理装置等は、音声信号から音の種類を考慮した特徴ベクトルを抽出し話者認識結果の解釈性を高めることができるという効果を有しており、音声処理装置および話者認識装置として有用である。
【0097】
本開示は上記実施形態に限定されることなく、特許請求の範囲に記載の発明の範囲内で、種々の変形が可能であり、それらも本開示の範囲内に含まれるものであることはいうまでもない。
【0098】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
1つ以上の音響モデルを記憶する音響モデル記憶部と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記2)
前記部分特徴抽出部は、前記音響多様度から複数の重みつきの音響多様度を算出し、前記重みつきの音響多様度それぞれと前記音響特徴とから、複数の認識特徴量を算出する、付記1に記載した音声処理装置。
(付記3)
前記部分特徴抽出部は、認識特徴量としてベクトル形式で表現される部分特徴ベクトルを算出する、付記1または付記2に記載した音声処理装置。
(付記4)
前記音響統計量算出部は、
前記音響モデルを用いて、受け取った前記音声信号に含まれる音の種類の比率に基づき、前記音響多様度を算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記5)
前記音響統計量算出部は、前記音響モデルとしてガウス混合モデルを用いて、要素分布の事後確率として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記6)
前記音響統計量算出手段は、前記音響モデルとしてニューラルネットワークを用いて、音の種類の出現度として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記7)
前記部分特徴抽出手段は、
前記音声信号の前記音響多様度と選別係数と、前記音響特徴を用いて、前記認識特徴量としてi−vectorを算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記8)
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部をさらに備える、
付記1から付記7のいずれか1つに記載した音声処理装置。
(付記9)
受け取った音声信号を区分化して区分化音声信号とする音声区間検出部と、
1つ以上の音響モデルを記憶する音響モデル記憶部と、
前記区分化音声信号から音響特徴を算出し、算出した音響特徴と前記音響モデル記憶部に記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記10)
前記話者認識計算部は、
前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、付記9に記載した音声処理装置。
(付記11)
前記話者認識計算部は、算出した前記スコアを、音の種類を示す情報とあわせて出力する付記10に記載した音声処理装置。
(付記12)
前記特徴ベクトルは、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを認識するための情報である、付記1から付記11のいずれか1つに記載した音声処理装置。
(付記13)
1つ以上の音響モデルを記憶し、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、 算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、
算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出し、
算出された前記認識特徴量を用いて特徴ベクトルを算出する、
音声処理方法。
(付記14)
コンピュータを、
1つ以上の音響モデルを記憶する手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出する手段、
として機能させるためのプログラム。
【符号の説明】
【0099】
11 音響統計量算出部
12 音響モデル記憶部
13 部分特徴抽出部
130n 選別部
131n 特徴抽出部
14 部分特徴統合部
21 音声区間検出部
22 認識特徴抽出部
23 話者認識計算部
231 分割部
232m 認識部
233 統合部
24 話者モデル記憶部
100 音声処理装置
200 話者認識装置
V(x) 音声信号xの音響多様度
(x) 短時間フレームごとに算出された音響多様度
nt(x) 重みつきの音響多様度
(x) GMMのi番目の要素分布の事後確率
N() ガウス分布の確率密度関数
θ GMMのi番目の要素分布のパラメタ(平均と分散)
GMMのi番目の要素分布の混合係数
(x) GMMのi番目の要素分布が選ばれた回数
Wn 選別係数
F(x) 認識特徴量
(x) 部分特徴ベクトル
(x) 音声信号xの0次統計量
(x) 音声信号xの1次統計量
(x) 音響特徴
c 統計量S(x)およびS(x)の要素数
D A(x)の要素数(次元数)
音響特徴空間におけるc番目の領域の平均ベクトル
(x) 音声信号xの1次統計量
図1
図2
図3A
図3B
図3C
図3D
図4
図5
図6
図7A
図7B
図7C