IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 和歌山大学の特許一覧

特許7424587学習装置、学習方法、推定装置、推定方法及びプログラム
<>
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図1
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図2
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図3
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図4
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図5
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図6
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図7
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図8
  • 特許-学習装置、学習方法、推定装置、推定方法及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】学習装置、学習方法、推定装置、推定方法及びプログラム
(51)【国際特許分類】
   G10L 25/60 20130101AFI20240123BHJP
【FI】
G10L25/60
【請求項の数】 12
(21)【出願番号】P 2020143955
(22)【出願日】2020-08-27
(65)【公開番号】P2022039104
(43)【公開日】2022-03-10
【審査請求日】2022-09-01
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504145283
【氏名又は名称】国立大学法人 和歌山大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】新井 賢一
(72)【発明者】
【氏名】中谷 智広
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】荒木 章子
(72)【発明者】
【氏名】小川 厚徳
(72)【発明者】
【氏名】入野 俊夫
【審査官】大野 弘
(56)【参考文献】
【文献】特開平11-095795(JP,A)
【文献】特開平06-236198(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/69
G10L 25/60
(57)【特許請求の範囲】
【請求項1】
クリーンな音声信号を加工した音声信号の特徴量系列を条件とする、前記クリーンな音声信号に対応する正解テキストから変換された音素を並べた整列音素系列の事後確率を計算する事後確率計算部と、
前記事後確率を予測関数に入力して、前記加工した音声信号の音声品質を計算する音声品質予測部と、
前記音声品質予測部によって計算された音声品質が、被験者実験によって得られた前記加工した音声信号の音声品質に近付くように、前記予測関数のパラメータを決定するパラメータ決定部と、
を有することを特徴とする学習装置。
【請求項2】
前記事後確率計算部は、前記正解テキストから変換された音素を並べた音素系列のうち、前記クリーンな音声信号の特徴量系列を条件としたときの事後確率が最大になる音素系列を前記整列音素系列として求め、前記加工した音声信号の特徴量系列を条件とする、前記整列音素系列の事後確率を計算することを特徴とする請求項1に記載の学習装置。
【請求項3】
前記音声品質予測部は、前記事後確率を含む項をeの指数とするロジスティクス関数である前記予測関数を用いて、前記加工した音声信号の音声品質を計算することを特徴とする請求項1に記載の学習装置。
【請求項4】
学習装置によって実行される学習方法であって、
クリーンな音声信号を加工した音声信号の特徴量系列を条件とする、前記クリーンな音声信号に対応する正解テキストから変換された音素を並べた整列音素系列の事後確率を計算する事後確率計算工程と、
前記事後確率を予測関数に入力して、前記加工した音声信号の音声品質を計算する音声品質予測工程と、
前記音声品質予測工程によって計算された音声品質が、被験者実験によって得られた前記加工した音声信号の音声品質に近付くように、前記予測関数のパラメータを決定するパラメータ決定工程と、
を含むことを特徴とする学習方法。
【請求項5】
クリーンな音声信号を加工した音声信号の特徴量系列を条件とする、前記クリーンな音声信号に対応する正解テキストから変換された音素を並べた整列音素系列の事後確率を計算する事後確率計算部と、
前記事後確率を予測関数に入力して、前記加工した音声信号の音声品質を計算する音声品質予測部と、
を有することを特徴とする推定装置。
【請求項6】
前記事後確率計算部は、前記正解テキストから変換された音素を並べた音素系列のうち、前記クリーンな音声信号の特徴量系列を条件としたときの事後確率が最大になる音素系列を前記整列音素系列として求め、前記加工した音声信号の特徴量系列を条件とする、前記整列音素系列の事後確率を計算することを特徴とする請求項5に記載の推定装置。
【請求項7】
前記音声品質予測部は、前記事後確率を含む項をeの指数とするロジスティクス関数である前記予測関数を用いて、前記加工した音声信号の音声品質を計算することを特徴とする請求項5に記載の推定装置。
【請求項8】
前記事後確率計算部は、音声信号の各フレームに各音素を対応付けて並べた音素系列のうち、対応する特徴量の音素に対する事後確率が最大値を取る音素系列について、当該事後確率の最大値を計算することを特徴とする請求項に記載の推定装置。
【請求項9】
前記事後確率計算部は、音素のそれぞれについて、事後確率が当該音素の事後確率以上である音素の事後確率を累積した累積事後確率を計算することを特徴とする請求項に記載の推定装置。
【請求項10】
前記音声品質予測部は、前記事後確率計算部によって計算された複数の事後確率の平均値をロジスティクス関数に入力して前記音声品質を計算することを特徴とする請求項5、6及び8のいずれか1項に記載の推定装置。
【請求項11】
推定装置によって実行される推定方法であって、
クリーンな音声信号を加工した音声信号の特徴量系列を条件とする、前記クリーンな音声信号に対応する正解テキストから変換された音素を並べた整列音素系列の事後確率を計算する事後確率計算工程と、
前記事後確率を予測関数に入力して、前記加工した音声信号の音声品質を計算する音声品質予測工程と、
を含むことを特徴とする推定方法。
【請求項12】
コンピュータを、請求項1又は2に記載の学習装置、又は請求項からのいずれか1項に記載の推定装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法、推定装置、推定方法及びプログラムに関する。
【背景技術】
【0002】
音声信号の主観的な品質評価尺度として、単語了解度や音節明瞭度等がある。単語了解度は、発声された有意味な単語が伝達もしくは信号処理されたのち聴取者が受聴したときの、単語数のうち聴取者が正しく聴取できた単語数の割合(単語認識率)もしくは単語認識率が50%となる雑音強度(Speech reception threshold, SRT)として定義される。音節明瞭度は、発声・伝達・信号処理された無意味な音節に対する認識率やSTRとして定義される。
【0003】
ここで、音声信号の主観的品質評価を求めるための被験者実験は経済的時間的にコストがかかるので、音声信号から客観的に主観的な了解度や明瞭度を測る方法が提案されている。例えば、articulation index(AI;音声明瞭度指数)やspeech intelligibility index(SII;音声了解度指数)、speech transmission index(STI;音声伝達指数)、perceptual evaluation of speech quality(PESQ)等の計算方法がよく使われている。
【0004】
一方で、これらの指標は線形システムを仮定した計算であるので、非線形信号処理を含むような信号の変換に対しては適切な評価が行えないという課題がある。このため、一部の非線形信号処理に適応できるようにしたThe short time objective intelligibility(STOI)やthe hearing-aid speech perception index(HASPI)等は音声信号品質の評価尺度としてよく使われている。さらに、人間の聴覚特性を考慮したGammachirp Envelope Distortion Index(GEDI)も考案されている。
【0005】
一方で、深層学習を用いた自動音声認識器の性能は人間の聴覚の性能に近づいており、その認識率は被験者実験で得られる認識率を近似できることが期待されている。このことから、被験者実験の替わりに自動音声認識器による認識を利用して音声信号品質を予測する方法が提案されている。既存の方法として、定型の文を読み上げた音声信号を提示しその特定の位置にある一部分の単語を認識するマトリックス試験から単語了解度を測定する方法があるが、これを自動音声認識器の単語認識率から予測するというものがある(例えば、非特許文献1を参照)。また、自動音声認識器の単語/文字/音素認識率を予測関数により変換して、単語了解度等の音声信号品質を予測する方法もある(例えば、非特許文献2を参照)。
【先行技術文献】
【非特許文献】
【0006】
【文献】Constantin Spille, Stephan D Ewert, Birger Kollmeier, and Bernd T Meyer. Predicting speech intelligibility with deep neural networks. Computer Speech & Language, Vol. 48, pp. 51-66, 2018.
【文献】Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Katsuhiko Yamamoto, and Toshio Irino. Predicting speech intelligibility of enhanced speech using phone accuracy of dnn-based asr system. In Proc. Interspeech 2019, pp. 4275-4279, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術には、音声品質の評価値を精度良く予測することが困難な場合があるという問題がある。従来の自動音声認識器の認識率による単語了解度推定においては、高い予測精度を達成するためにはいくつかの制約があった。
【0008】
例えば、非特許文献1に記載の技術は、マトリック試験と呼ばれるあらかじめ決められた構造をもった文の特定の位置にある単語の認識率を利用するものであり、その単語の正解候補数も限られている。このため、非特許文献1の技術では、自由な発話に対する了解度予測は困難である。
【0009】
また、例えば、非特許文献2に記載の技術は、発話される単語の自由度は大きいが、自動音声認識器の学習データに品質評価を予測する発話信号の処理方法と同じ処理を施した信号を大量に必要とする等、利用場面が限定的であった。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、学習装置は、音声信号から抽出された特徴量の音素に対する事後確率を計算する事後確率計算部と、前記事後確率を基に、予測関数を用いて前記音声信号の音声品質を計算する音声品質予測部と、前記音声品質予測部によって計算された音声品質が、被験者実験によって得られた前記音声信号の音声品質に近付くように、前記予測関数のパラメータを決定するパラメータ決定部と、を有することを特徴とする。
【0011】
推定装置は、音声信号から抽出された特徴量の音素に対する事後確率を計算する事後確率計算部と、前記事後確率を基に、予測関数を用いて前記音声信号の音声品質を計算する音声品質予測部と、を有することを特徴とする。
【発明の効果】
【0012】
本発明によれば、音声品質の評価値を精度良く予測することができる。
【図面の簡単な説明】
【0013】
図1図1は、第1の実施形態に係る予測装置の構成例を示す図である。
図2図2は、音声認識のためのモデルの学習を説明する図である。
図3図3は、整列音素系列を求める方法を説明する図である。
図4図4は、事後確率の計算方法を説明する図である。
図5図5は、パラメータの決定方法を説明する図である。
図6図6は、音声品質の予測方法を説明する図である。
図7図7は、第1の実施形態に係る予測装置の処理の流れを示すフローチャートである。
図8図8は、実験に用いたモデルを説明する図である。
図9図9は、プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0014】
以下に、本願に係る学習装置、学習方法、推定装置、推定方法及びプログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。本実施形態では、予測装置が学習装置及び推定装置として機能し、学習方法及び推定方法を実行するものとする。
【0015】
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る予測装置の構成について説明する。図1は、第1の実施形態に係る予測装置の構成例を示す図である。図1に示すように、予測装置10は、特徴量抽出部101、事後確率計算部102、文字列選定部103、音声品質予測部104、パラメータ決定部105を有する。また、予測装置10は、音響モデル121、言語モデル122及び予測関数123を記憶する。
【0016】
予測装置10は、入力された音声信号の音声品質に関する予測結果を出力することができる。また、予測装置10は、自動音声認識のための装置として機能し、入力された音声信号を基に認識結果を出力することができる。例えば、予測装置10は、自動音声認識の過程で得られる整列音素系列及び事後確率を用いて、音声品質の予測を行うことができる。
【0017】
[自動音声認識]
まず、予測装置10による自動音声認識について説明する。なお、予測装置10は、例えば参考文献1(川原達也. 音声認識システム改訂2 版. オーム社, 2016.)に記載の方法で自動音声認識を行ってもよい。
【0018】
まず、特徴量抽出部101は、フーリエ変換等により、音声信号を短時間フレームごとに特徴量系列X=X1,X2,…,XTに変換する。ここで、Tはフレーム系列の長さであり、音声信号の長さとフレームシフトにより決まる整数値である。典型的な特徴量としてはMel-Frequency-Cepstrum-Coefficient(MFCC)等がある。
【0019】
事後確率計算部102は、音声信号から抽出された特徴量の音素に対する事後確率を計算する。事後確率計算部102は、音響モデル121を用いてフレームごとに音素に対する事後確率を計算する。音響モデル121は、入力された各フレームの特徴量Xtが、どの音素miに対応するのかの尺度である事後確率n(mi|Xt)を出力する。例えば、音響モデル121はDeep Neural Network(DNN)を用いたものであり、特徴量Xtの入力対して各音素miに対応するDNNの素子がzmi(Xj)を出力する。事後確率計算部102は、得られたzmi(Xj)から(1)式によりソフトマックスを計算する。ここで得られたソフトマックスは、特徴量Xtに対する音素miの事後確率とみなすことができる。
【0020】
【数1】
【0021】
文字列選定部103は、得られた事後確率を基にして音素や単語の並びの候補を決定する。そして、文字列選定部103は、言語モデル122を用いて、単語や音素の並びの候補から認識結果としてもっともらしい文字列を選出する。
【0022】
次に自動音声認識に用いられる音響モデル121と言語モデル122の学習について説明する。ここで、学習は、各モデルのパラメータを決定する処理ということができる。音響モデル121と言語モデル122の学習は、音声信号及び正解テキストを用いて行われる。例えば、音声信号が文章の読み上げ音声である場合、当該文章、又は人手による音声の書き起こしが正解テキストに相当する。
【0023】
図2は、音声認識のためのモデルの学習を説明する図である。図2に示すように、言語モデル122の学習は、クリーンな音声信号のデータセットを用いて行われる。クリーンな音声信号のデータセットには、クリーンな音声信号とその正解テキストが含まれる。クリーンな音声信号は、雑音等を付加していない音声信号である。
【0024】
一方、音響モデルの121学習は、クリーンな音声信号のデータセット及び加工された音声信号のデータセットを用いて行われる。加工された音声信号は、クリーンな音声信号に、雑音の付加、音声強調等の処理を施した音声信号である。
【0025】
音響モデル121の学習は、参考文献1に記載の方法により行われてもよい。また、言語モデル122は例えば音素n-gramであり、その場合、正解テキストから音素の並びの出現頻度を計算することにより学習が行われる。
【0026】
[音声品質の予測]
次に、予測装置10による音声品質の予測処理について説明する。予測装置10は、事後確率計算部102によって求められる整列音素系列及び事後確率を使って、音声品質を予測する。整列音素系列は、クリーンな音声信号の各フレームに正解テキストから変換された各音素を対応付けて並べた音素系列のうち、対応する特徴量の音素に対する事後確率が最大値を取る音素系列である。事後確率計算部102は、整列音素系列を用いて、事後確率を計算する。
【0027】
図3は、整列音素系列を求める方法を説明する図である。まず、特徴量抽出部101は、クリーンな音声信号をフレームごとの特徴量X=X1,X2,…,XTに変換する。事後確率計算部102は、正解テキストを音素系列M=m1,m2,…,mNに変換する。ここで、Nは正解テキストを音素に変換した際の音素系列の長さである。また、N<Tという関係があるものとする。
【0028】
ここで、各フレームに対して、特徴量と音素の対応(Xt,mφ(t))(t=1,2,…,T)を考える。ただし、φ(t)は特徴量と音素の対応関係を表し、φ(1)=1、φ(T)=N、及びφ(t+1)=φ(t)又はφ(t)+1の関係がある。また、特徴量系列に対応させた音素系列をM(φ)=mφ(1),mφ(2),…,mφ(T)と書く(ただし、Mは、Mの直上に「」を付したもの)。クリーンな音声信号に対する整列音素系列M*=mφ*(1),mφ*(2),…,mφ*(T)とは、事後確率P(M|X)が最大になるときの音素系列のことである。そして、クリーンな音声信号の特徴量Xに対して整列音素系列M*(X)は、(2)式のように表される。
【0029】
【数2】
【0030】
図4は、事後確率の計算方法を説明する図である。図4に示すように、音声信号をフレームごとの特徴量X=X1,X2,…,XTに変換する。事後確率計算部102は、特徴量抽出部101によって音声信号から得られる特徴量、及び整列音素系列から事後確率を計算する。事後確率は、対数事後確率であってもよい。
【0031】
ここで、事後確率計算部102は、クリーンな音声信号Xに対する整列音素系列の対数事後確率を(3)式のように計算する。
【0032】
【数3】
【0033】
また、事後確率計算部102は、評価対象の音声信号Y=Y1,Y2,…,YTに対する整列音素系列の対数事後確率を(4)式のように計算する。例えば、評価対象の音声信号は、クリーンな音声信号を加工して得られる音声信号である。
【0034】
【数4】
【0035】
ここで、複数のクリーン音声信号に対する整列音素系列の対数事後確率の平均値を<logPPOScleanとする。また、複数の評価対象音声信号に対する整列音素系列の対数事後確率の平均値を<logPPOStargetとする。
【0036】
評価対象の音声信号がクリーン音声信号から加工された音声信号である場合、各音声信号の対数事後確率の差は(5)式のように表される。
【0037】
【数5】
【0038】
この場合、評価対象の音声信号の音声品質は、クリーンな音声信号の音声品質と比べて劣化すると考えられる。(5)式は、音響モデル121により音声認識における音素の確からしさに関しての、評価対象の音声信号の相対的劣化を表しているということができる。すなわち、対数事後確率<logPPOStargetは、評価対象の音声信号の品質に関する量であると考えられる。
【0039】
ここで、音声品質の予測に用いる事後確率は、累積事後確率であってもよい。事後確率計算部102は、それぞれのフレームについて音素の事後確率が当該音素の事後確率以上である音素の事後確率を累積した累積事後確率を計算する。事後確率計算部102は、累積事後確率を(6)式のように計算することができる。(6)式では、音声信号Ytに関して、音素mよりも事後確率が大きい全ての音素m'の事後確率の累積が計算される。
【0040】
【数6】
【0041】
また、事後確率計算部102は、事後確率及び累積事後確率を、それぞれ(7)式及び(8)式のようにべき乗し正規化してもよい。なおαには、0.5、1.0、2.0等の値が設定される。
【0042】
【数7】
【0043】
【数8】
【0044】
音声品質予測部104は、事後確率又は累積事後確率を基に、予測関数を用いて音声信号の音声品質を計算する。例えば、音声品質予測部104は、ロジスティクス関数を使って(9)式のように音声品質の予測値SIPOSを計算する。
【0045】
【数9】
【0046】
(9)式のa及びbは、学習により決定されるパラメータである。また、(9)式のZは、(4)式により計算される事後確率、(6)式により計算される累積事後確率、(7)式により計算される正規化済みのべき乗事後確率、又は(8)式により計算される正規化済みのべき乗累積事後確率である。
【0047】
図5は、パラメータの決定方法を説明する図である。図5に示すように、評価対象音声信号とは別に用意された参照音声信号の整列音声系列に対する事後確率、及び、被験者実験による主観的音声品質を基に、パラメータ決定部105は予測関数のパラメータを決定する。つまり、パラメータ決定部105は、被験者実験による主観的音声品質を正解として、予測関数の学習を行う。また、被験者実験は、参照音声信号と正解テキストを用いてを行われ、音声信号の単語認識率等の了解度の評価が行われる。
【0048】
このとき、パラメータ決定部105は、音声品質予測部104によって計算された音声品質が、被験者実験によって得られた音声信号の音声品質に近付くように、予測関数のパラメータを決定する。例えば、パラメータ決定部105は、(9)式のa及びbを二乗誤差最小法により決定する。
【0049】
図6は、音声品質の予測方法を説明する図である。図6に示すように、音声品質予測部104は、評価対象の音声信号の整列音素系列に対する事後確率(例えば、<logPPOStarget)を基に、主観的音声品質の予測値を計算する。
【0050】
[第1の実施形態の処理]
図7を用いて、予測装置10の処理の流れを説明する。図7は、第1の実施形態に係る予測装置の処理の流れを示すフローチャートである。図7に示すように、予測関数のパラメータが未定の場合(ステップS101、Yes)、パラメータ決定部105は、予測関数のパラメータを決定する(ステップS102)。このとき、予測装置10は、予測関数のパラメータの決定に必要なクリーンな音声信号の整列音素系列、事後確率、及び被験者実験による主観的音声品質を、事前に取得しておいてもよいし、適宜計算してもよい。また、予測関数のパラメータが決定済みである場合(ステップS101、No)、予測装置10はステップS103へ進む。
【0051】
次に、評価対象の音声信号のデータのうち、未処理のデータがある場合(ステップS103、Yes)、事後確率計算部102は、クリーンな音声信号から整列音素系列を求め(ステップS104)、整列音素系列を用いて評価対象の音声信号の事後確率を計算する(ステップS105)。予測装置10は、未処理のデータがなくなるまで(ステップS103、No)、ステップS104及びS105を繰り返す。
【0052】
ここで、音声品質予測部104は、平均事後確率を計算する(ステップS106)。そして、音声品質予測部104は、平均事後確率を基に、予測関数を用いて単語了解度の予測値を計算する(ステップS107)。
【0053】
これまで説明してきたように、予測関数の学習において、事後確率計算部102は、音声信号から抽出された特徴量の音素に対する事後確率を計算する。音声品質予測部104は、事後確率を基に、予測関数を用いて音声信号の音声品質を計算する。パラメータ決定部105は、音声品質予測部104によって計算された音声品質が、被験者実験によって得られた音声信号の音声品質に近付くように、予測関数のパラメータを決定する。このように、予測装置10は、被験者実験の結果を予測関数に反映させる。このため、本実施形態によれば、音声品質の評価値を精度良く予測することができる。
【0054】
事後確率計算部102は、音声信号の各フレームに各音素を対応付けて並べた音素系列のうち、対応する特徴量に対する音素の事後確率が最大値を取る音素系列について、当該事後確率の最大値を計算する。このように、予測装置10は、自動音声認識において得られる事後確率の最大値を用いて音声品質の評価値を予測する。このため、本実施形態によれば、音声品質の評価値を精度良く予測することができる。
【0055】
事後確率計算部102は、音素のそれぞれについて、事後確率が当該音素の事後確率以上である音素の事後確率を累積した累積事後確率を計算する。これにより、音声品質の評価値の予測精度をさらに向上させることができる。
【0056】
音声品質予測部104は、事後確率計算部102によって計算された複数の事後確率の平均値をロジスティクス関数に入力して音声品質を計算する。これにより、尺度を揃えて直感的に理解しやすいスケールで音声品質を計算することができる。
【0057】
[実験]
実施形態の効果を確認するための実験について説明する。図8は、実験に用いたモデルを説明する図である。図8に示すように、実験では、単語了解度の評価対象のデータセットとして、the familiarity-controlled word lists 2007 (FW07)(参考文献2、3を参照)を用いる。FW07は、単語の親密度別に分かれたデータセットであり、単語知識の認識率への影響を抑えるため、実験では最も親密度の低いデータセットを用いる。
参考文献2: Shuichi Sakamoto, Naoki Iwaoka, Y^oiti Suzuki, Shigeaki Amano, and Tadahisa Kondo. Complementary relationship between familiarity and SNR in word intelligibility test. Acoustical science and technology, Vol. 25, No. 4, pp. 290-292, 2004.
参考文献3:T Kondo, S Amano, S Sakamoto, and Y Suzuki. Familiarity-controlled word lists 2007 (fw07). The Speech Resources Consortium, National Institute of Informatics, Japan, 2007.
【0058】
上記のデータセットのクリーンな音声信号にいくつかの強度のピンクノイズ及びバブルノイズを加えた未処理音声信号(Unprocessed noisy signal)を参照信号、さらに未処理音声信号を音声強調した強調音声信号(Enhanced noisy signal)を評価対象の音声信号として作成する。ここでは音声強調として、spectral subtraction (SS)(参考文献4を参照)とWiener filter(WF)(参考文献5を参照)を用いる。未処理音声信号(Unprocessed noisy signal)について被験者実験により単語了解度を測定する。単語了解度SIPOSとしては単語認識率を用いる。
参考文献4:Michael Berouti, Richard Schwartz, and John Makhoul. Enhancement of speech corrupted by acoustic noise. In ICASSP’79. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 208-211. IEEE, 1979.
参考文献5:Masakiyo Fujimoto, Shinji Watanabe, and Tomohiro Nakatani. Noise suppression with unsupervised joint speaker adaptation and noise mixture model estimation. In 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4713-4716. IEEE, 2012.
【0059】
自動音声認識器の学習データとして、The corpus of spontaneous Japanese (CSJ)(参考文献6、7を参照)から得られるクリーンな音声信号と、それを加工した未処理音声信号を混合したものを用いて、音響モデルを学習する。そして、予測装置10は、強調音声信号の単語了解度を予測する。予測関数には、(9)式のロジスティクス関数である。また、フィッティングパラメータa及びbは、被験者実験により得られる未処理音声信号の主観的音声品質と、予測装置10による未処理音声信号の平均対数事後確率から最小二乗法により求められる。
参考文献6:S. Furui, K. Maekawa, and H. Isahara, “A Japanese national project on spontaneous speech corpus and processing technology,” in ASR2000-Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW), 2000, pp. 244-248.
参考文献7:K. Maekawa, “Corpus of spontaneous Japanese: Its design and evaluation,” in ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 2003.
【0060】
ここで、入力SNRが3dB、0dB、-3dB、-6dBのピンクノイズ及び6dB、3dB、0dB、-3dBのバブルノイズを加えた未処理音声信号を用いてa、bを推定するとa=-0.956、b=-2.429であった。さらに、spectral subtraction(SS)とWiener filter(WF)で強調した強調音声信号に対する単語了解度の予測値と被験者実験の結果との平均二乗誤差は、ASR:8.697、STOI:9.282、eSTOI:11.320となった(STOIについては、参考文献8を参照)。
参考文献8:C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,”IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125-2136, 2011.
【0061】
ASRは本実施形態に相当し、平均二乗誤差は最小になった。つまり、本実施形態によれば、被験者実験により得られる音声品質と、音声品質の予測値とのかい離度合いが、従来技術に比べて小さくなる。
【0062】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0063】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0064】
[プログラム]
一実施形態として、予測装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の予測処理を実行する予測プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の予測プログラムを情報処理装置に実行させることにより、情報処理装置を予測装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0065】
また、予測装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の予測処理に関するサービスを提供する予測サーバ装置として実装することもできる。例えば、予測サーバ装置は、音声信号を入力とし、音声品質の予測値を出力とする予測サービスを提供するサーバ装置として実装される。この場合、予測サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の予測処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
【0066】
図9は、予測プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0067】
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0068】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、予測装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、予測装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
【0069】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
【0070】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0071】
10 予測装置
101 特徴量抽出部
102 事後確率計算部
103 文字列選定部
104 音声品質予測部
105 パラメータ決定部
121 音響モデル
122 言語モデル
123 予測関数
図1
図2
図3
図4
図5
図6
図7
図8
図9