(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-03
(45)【発行日】2023-07-11
(54)【発明の名称】予測装置、予測方法及び予測プログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20230704BHJP
G10L 25/60 20130101ALI20230704BHJP
G10L 15/18 20130101ALI20230704BHJP
G10L 15/16 20060101ALI20230704BHJP
【FI】
G10L15/10 500Z
G10L25/60
G10L15/18 300H
G10L15/16
(21)【出願番号】P 2019148529
(22)【出願日】2019-08-13
【審査請求日】2021-10-29
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504145283
【氏名又は名称】国立大学法人 和歌山大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】新井 賢一
(72)【発明者】
【氏名】中谷 智広
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】荒木 章子
(72)【発明者】
【氏名】小川 厚徳
(72)【発明者】
【氏名】入野 俊夫
(72)【発明者】
【氏名】山本 克彦
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2015-197621(JP,A)
【文献】特開平09-319395(JP,A)
【文献】特開2016-188944(JP,A)
【文献】特開2018-109760(JP,A)
【文献】特開2008-262120(JP,A)
【文献】特開2016-161765(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号
の各フレームに対応する音素の候補を出力する音素出力部と、
前記音素出力部が出力した前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Nグラムである音素言語モデルを用いて、前記音素出力部が出力した音素の候補に対応する音素の並びの候補を出力する音素並び出力部と、
前記音素出力部が出力した前記音素の候補と、前記音素並び出力部が出力した前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識部と、
前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算部と、
を有する音声認識部と、
前記認識率計算部によって計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測部と、
を有することを特徴とする予測装置。
【請求項2】
前記予測部は、前記音素認識正解率と被験者実験による前記単語了解度から前記予測関数のパラメータを調整し、該パラメータが調整された予測関数を用いて、前記音素認識正解率から前記単語了解度を予測する、
ことを特徴とする請求項
1に記載の予測装置。
【請求項3】
予測装置が実行する予測方法であって、
入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号
の各フレームに対応する音素の候補を出力する音素出力工程と、
前記音素出力工程において出力された前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Nグラムである音素言語モデルを用いて、前記音素出力工程において出力された音素の候補に対応する音素の並びの候補を出力する音素並び出力工程と、
前記音素出力工程において出力された前記音素の候補と、前記音素並び出力工程において出力された前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識工程と、
前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算工程と、
前記認識率計算工程において計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測工程と、
を含んだことを特徴とする予測方法。
【請求項4】
コンピュータを請求項
1または2に記載の予測装置として機能させるための予測プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、予測装置、予測方法及び予測プログラムに関する。
【背景技術】
【0002】
音声信号の品質評価尺度として、単語了解度や音節明瞭度などがある。単語了解度は、発声・伝達された有意味な単語の正しく聴取された割合を表す指標値であり、聴取者が受聴した単語数のうち聴取者が正しく聴取できた単語数の割合として定義される。音節明瞭度は、発声・伝達された無意味な音節の正しく聴取された割合を表す指標値であり、聴取者が受聴した音節数のうち聴取者が正しく聴取できた音節数の割合として定義される。
【0003】
単語了解度の評価として、被験者が音声信号の単語認識したときの認識率から計算されるSRT(Speech Reception Threshold)や、認識の容易さに関するアンケートから得られるlistening effortなどが知られている。しかしながら、被験者実験は、経済的にも、時間的にも、コストがかかる。このため、音声信号から客観的に単語了解度を測定する方法が提案されている。
【0004】
客観的に単語了解度を測定する方法として、例えば、音声明瞭度指数(AI:Articulation Index)、音声了解度指数(SII:Speech Intelligibility Index)、音声伝達指数(STI:Speech Transmission Index)、PESQ(Perceptual Evaluation of Speech Quality)などの計算方法が使用されている。しかしながら、これらの計算方法は、線形システムを仮定した計算であるため、非線形信号処理を含むような信号の変換に対しては適切な評価が行えないという課題がある。
【0005】
このため、一部の非線形信号処理に適応できるように、短時間客観了解度指数(STOI:the short timeobjective intelligibility)、補聴器音声知覚指数(HASPI:the hearing-aid speech perception index)などが、音声信号品質の評価尺度としてよく使用されている。さらに、人間の聴覚特性を考慮したガンマチャープ振幅包絡歪み指標(GEDI:Gammachirp Envelope Distortion Index)も提案されている。
【0006】
一方で、深層学習を用いた自動音声認識器の性能は、人間の聴覚の性能に近づいており、その認識率により、被験者実験で得られる認識率を近似できることが期待されている。このことから、被験者実験の替わりに、自動音声認認識器による認識を利用して音声信号品質を予測する方法が提案されている。
【0007】
この方法として、文を読み上げた音声信号を提示し、その一部分の音声信号に対応する単語を正解テキスト候補の中から選ぶという、マトリックス試験を自動音声認識器で行い、その正解率から単語了解度の一つであるSRTを予測する方法がある(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0008】
【文献】Constantin Spille, Stephan D. Ewert, Birger Kollmeier and Bernd T. Meyer,“Predicting speech intelligibility with deep neural networks”,Computer Speech & Language, Vol. 48, pp. 51-66, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0009】
自動音声認識器では、単語辞書を利用するなど言語の事前知識など、使用できるものはできる限り使用して認識率を向上させることが一般的である。
【0010】
これに対し、音声信号品質は、音声信号そのものが有する特性であるため、言語知識などの要因が認識率に影響を与えることを避けることが望ましい。言語知識による影響として、例えば、前後の文脈が単語認識においてヒントとなることや、単語辞書に登録されているか否かで認識率が大きく変わることが考えられる。
【0011】
このため、自動音声認識器による提示音声信号の品質の予測では、音声信号のみではなく、利用している単語知識などが単語了解度の予測に影響を与えてしまうという課題がある。例えば、聴取者がよく知っている親密度の高い単語ほど、単語了解度が高く予測されやすくなる。この影響を避けるため、非特許文献1記載の技術では、文脈に依存せず、どの正解候補でも同程度の尤もらしさで正解となりうるようなマトリックス試験を利用するなどの工夫がなされている。つまり、親密度による影響が品質の予測に影響しないように評価実験の設計を工夫する必要がある。
【0012】
このように、非特許文献1記載の自動音声認識器を使った音声信号品質予測技術では、自由に発話された音声や、自動音声認識器の事前言語情報に関して考慮されていない文章の読み上げ音声などでは、単語の親密度が統一されていないため、正確な予測値を得られにくいという課題があった。
【0013】
本発明は、上記に鑑みてなされたものであって、単語の親密度を統一する等の事前の工夫を要することなく、音声信号の品質評価尺度である単語了解度の予測精度を高めることができる予測装置、予測方法及び予測プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
上述した課題を解決し、目的を達成するために、本発明に係る予測装置は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う音声認識部と、音声認識部による音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する予測部と、を有することを特徴とする。
【0015】
また、本発明に係る予測方法は、予測装置が実行する予測方法であって、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う工程と、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する工程と、を含んだことを特徴とする。
【0016】
また、本発明に係る予測プログラムは、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行うステップと、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測するステップと、をコンピュータに実行させる。
【発明の効果】
【0017】
本発明によれば、音声信号の品質評価尺度である単語了解度の予測精度を高めることができる。
【図面の簡単な説明】
【0018】
【
図1】
図1は、実施の形態に係る単語了解度予測装置の構成の概略を示す図である。
【
図2】
図2は、
図1に示す音響モデル及び音素言語モデルの学習を説明する図である。
【
図3】
図3は、
図1に示す単語了解度予測部の予測関数のパラメータ調整を説明する図である。
【
図4】
図4は、
図1に示す単語了解度予測装置の処理を説明する図である。
【
図5】
図5は、実施の形態に係る単語了解度予測処理の処理手順を示すフローチャートである。
【
図6】
図6は、
図1に示す単語了解度予測装置の評価実験を説明する図である。
【
図7】
図7は、プログラムが実行されることにより、単語了解度予測装置が実現されるコンピュータの一例を示す図である。
【発明を実施するための形態】
【0019】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0020】
[実施の形態]
本発明の実施の形態について説明する。本実施の形態は、被験者実験で得られる単語了解を、音声認識器の音素の認識率を基に予測する単語了解度予測装置に関する。
【0021】
まず、実施の形態に係る単語了解度予測装置の構成について説明する。
図1は、実施の形態に係る単語了解度予測装置の構成の概略を示す図である。実施の形態に係る単語了解度予測装置10は、入力された音声信号に対する音声認識率を基に、単語了解度を予測する。
【0022】
単語了解度予測装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、単語了解度予測装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。例えば、単語了解度予測装置10は、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行う。単語了解度予測装置10は、音声認識部11及び単語了解度予測部16(予測部)を有する。
【0023】
音声認識部11は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う自動音声認識器である。音声認識部11は、音素出力部12、音素並び出力部13、音素認識部14(認識部)及び認識率計算部15(計算部)を有する。
【0024】
音素出力部12は、音響モデル121を用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する。
【0025】
音響モデル121は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力するモデルである。音響モデル121は、深層学習モデルである。深層学習モデルは、信号の入る入力層、入力層からの信号を様々に変換する1層または複数の中間層、及び、中間層の信号を確率などの出力に変換する出力層からなる。音響モデル121は、入力層に音声信号が入力されると、出力層からは、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す、各音素の確率が出力される。
【0026】
音素並び出力部13は、音素言語モデル131を用いて、音素出力部12が出力した音素の候補に対応する音素の並びの候補を出力する。
【0027】
音素言語モデル131は、入力された音素の候補に対して音素の並びの尤もらしさを出力するモデルである。音素言語モデル131は、正解テキストから、音素の並びの出現頻度を計算して学習する音素n-gramなどの音素言語モデルが適用される。
【0028】
音素認識部14は、音素出力部12が出力した音素の候補と、音素並び出力部13が出力した音素の並びの候補とを基に、予測対象の音声信号に対応する音素系列を認識する。音素認識部14は、音素の候補及び音素の並びの候補から、音素系列(以降では、単語とみなす。)を出力する。
【0029】
認識率計算部15は、音素認識部14によって認識された音素系列の正解率を計算する。認識率計算部15は、正解テキストを単語に変換する。正解テキストは、文章の読み上げ音声の場合は元の文章のことであり、元の音声が十分クリーンであれば人手による書き起こしなどのことである。その後、認識率計算部15は、出力された音素系列と正解テキストの音素系列とを照合し、音素認識正解率を出力する。認識率計算部15は、式(1)を用いて、音素認識正解率PACCを計算する。なお、式(1)におけるCは正解音素数であり、Sは置換音素数であり、Iは挿入音素数であり、Dは、削除音素数である。
【0030】
【0031】
単語了解度予測部16は、音声認識部11による音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測し、予測値を出力する。単語了解度予測部16は、所定の予測関数を用いて、認識率計算部15によって計算された音素系列の音素認識正解率を、単語了解度の予測値に変換する。
【0032】
図2は、
図1に示す音響モデル121及び音素言語モデル131の学習を説明する図である。音響モデル121及び音素言語モデル131のパラメータは、音声データ及び正解テキストのデータセットを学習することによって調整される。
【0033】
図2に示すように、まず、クリーン音声信号データセットDs1と、その正解テキストのデータセットとを用意する。そして、クリーンな音声信号に、様々な雑音を加える処理や音声強調処理等を施すことによって、音声信号データ加工を行い、新たな音声信号を作成し、加工音声信号データセットDs2を用意する。
【0034】
音響モデル121に対し、クリーン音声信号データセットDs1及び加工音声信号データセットDs2を学習させて(ステップS2)、音響モデル121のパラメータを調整する。なお、音響モデル121の学習については、従来法を用いる。従来法の具体的な手順については、例えば、川原達也,“音声認識システム改訂2版”,オーム社,2016を参照いただきたい。
【0035】
音素言語モデル131に対して、正解テキストから、音素の並びの出現頻度を計算し、音素Nグラムなどの音素言語モデルを学習させて(ステップS1)、音素言語モデル131のパラメータを調整する。
【0036】
図3は、
図1に示す単語了解度予測部16の予測関数のパラメータ調整を説明する図である。
図4は、
図1に示す単語了解度予測装置10の処理を説明する図である。
【0037】
まず、準備段階として、単語了解度予測部16のキャリブレーションを行う。キャリブレーションのために、参照音声信号と、その正解テキストとを用意する。そして、照音声信号を用いて被験者実験を行い、単語認識率などの了解度の評価を行う。一方で、単語了解度予測装置10に参照音声信号を入力し、音素認識正解率を出力させる。
【0038】
続いて、被験者実験の結果、及び、単語了解度予測装置10による音素認識正解率を基に、単語了解度予測部16の予測関数のパラメータを調整し(
図3のステップS3)、予測値が被験者実験の結果と合うようにする。予測関数のパラメータ調整後、
図4に示すように、実際の予測処理として、予測対象の音声信号、及び、そのテキストを単語了解度予測装置10に入力し、単語了解度予測値の出力を得る。
【0039】
[予測処理]
次に、単語了解度予測装置10が実行する予測処理について説明する。
図5は、実施の形態に係る単語了解度予測処理の処理手順を示すフローチャートである。
【0040】
予測対象の音声信号が入力されると、
図5に示すように、まず、音声認識部11は、未処理データはあるか否かを判定する(ステップS11)。未処理データがある場合(ステップS11:Yes)、音声認識部11は、予測対象の音声信号を読み込み(ステップS12)、音声認識を行う。
【0041】
具体的には、音素出力部12が、音響モデル121を用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する(ステップS13)。続いて、音素並び出力部13は、音素言語モデル131を用いて、音素出力部12が出力した音素の候補に対応する音素の並びの候補を出力する(ステップS14)。音素認識部14は、音素の候補と音素の並びの候補とを基に、予測対象の音声信号に対応する単語を認識し(ステップS15)、音声認識部11は、ステップS11に進む。
【0042】
一方、未処理データがない場合(ステップS11:No)、音声認識部11は、正解テキストを読み込む(ステップS16)。そして、認識率計算部15は、正解テキストを単語に変換し、音素認識部14によって認識された全単語と正解テキストの単語とを照らし合わせて、音素認識正解率を計算する(ステップS17)。
【0043】
単語了解度予測部16は、予測関数を用いて、認識率計算部15によって計算された単語の音素認識正解率を、単語了解度の予測値に変換することで、単語了解度の予測値を計算する(ステップS18)。単語了解度予測部16は、単語了解度の予測値を出力し(ステップS19)、処理を終了する。
【0044】
[評価実験]
図6は、
図1に示す単語了解度予測装置10の評価実験を説明する図である。評価実験では、音声信号データセット(訓練データ)として、CSJ(The corpus of spontaneous Japanese)(詳細は、Sadaoki Furui, Kikuo Maekawa, and Hitoshi Isahara,“A japanese national project on sponta-neous speech corpus and processing technology”,In ASR2000-Automatic Speech Recognition:Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW), pp. 244-248, 2000、及び、Kikuo Maekawa,“CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION”,In ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 2003を参照)を用いる。ここでは、CSJコーパスから得られる音素バイグラムを使って音素言語モデル131の学習を行った。
【0045】
評価実験では、この音声信号に、いくつかの強度のピンクノイズを加えた信号と、ピンクノイズを付加した音声信号を音声強調した信号とを訓練データとして作成する。ここでは、音声強調として、SS(spectral subtraction)(詳細は、Michael Berouti, Richard Schwartz, and John Makhoul,“Enhancement of speech corrupted by acoustic noise”,In ICASSP'79. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 208-211. IEEE, 1979を参照)と、WF(Wiener filter)(詳細は、Masakiyo Fujimoto, Shinji Watanabe, and Tomohiro Nakatani,“Noise suppression with unsupervised joint speaker adaptation and noise mixture model estimation”,In 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4713-4716. IEEE, 2012を参照)とを用いる。
【0046】
音響モデル121は、クリーン音声信号、ピンクノイズを加えた音声信号、音声強調した音声信号を混合したものを用いて学習を行った。
【0047】
単語了解度を評価するデータセット(評価データ)として、the familiarity-controlled word lists 2007(FW07)(詳細は、Shuichi Sakamoto, Naoki Iwaoka, Yoiti Suzuki, Shigeaki Amano, and Tadahisa Kondo,“Complementary relationship between familiarity and SNR in word intelligibility test”,Acoustical science and technology, Vol. 25, No. 4, pp. 290-292, 2004、及び、T Kondo, S Amano, S Sakamoto, and Y Suzuki,“Familiarity-controlled word lists 2007 (fw07)”,The Speech Resources Consortium, National Institute of Informatics, Japan, 2007を参照)を用いる。
【0048】
このデータセットは、単語の親密度別に分かれており、単語知識の認識率への影響を抑えるため、最も親密度の低いものだけを用いる。FW07についても、CSJと同様にピンクノイズの付加、音声強調処理をすることとする。
【0049】
本評価実験では、単語了解度の計算のために、被験者実験による単語認識率を用いる。そして、音声強調された音声信号の単語了解度を単語了解度予測部16により予測することとする。単語了解度予測部16は、音声認識部11の音素認識正解率から単語了解度への変換として、式(2)に示す線形関数を用いる。
【0050】
【0051】
ここで、PASRは音声認識部11の音素認識正解率であり、SIsubは単語了解度の予測値である。線形関数の係数a,bは、ピンクノイズを付加した音声信号の、音声認識部11の音素認識正解率及び被験者実験の単語了解度の値から、最小二乗法を用いて設定される。音声認識部11の音素認識正解率と単語了解度との組(PASR(i),SIsub(i))、i=1,2,・・・,nが与えられたとき、係数a,bの値は次の式(3)及び式(4)のように推定される。
【0052】
【0053】
【0054】
3dB,0dB,-3dB,-6dBのピンクノイズを加えたデータを用いて係数a,bを推定すると、式(5)及び式(6)となった。
【0055】
【0056】
【0057】
音声強調として、SSとWFとで処理した音声信号に対する単語了解度予測装置10が予測した単語了解度の予測値(客観的単語了解度の予測値)と、被験者実験の結果(主観単語了解度)との平均二乗誤差を表1に示す。ASRは、単語了解度予測装置10による結果である。従来法であるGEDI、STOI、HASPIの計算の詳細は、Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, and Tomohiro Nakatani,“GEDI: Gammachirp Envelope Distortion Index for Predicting Intelligibility of Enhanced Speech”,arXiv preprint arXiv:1904.02096, 2019.に記載されている。
【0058】
【0059】
表1に示すように、客観的単語了解度の予測値と主観単語了解度との平均二乗予測誤差は、ASRにおいて最小となった。すなわち、従来のGEDI,STOI,HASPIと比べて、ASRが最も予測性能が高かった。
【0060】
[実施の形態の効果]
本実施の形態は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行い、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する。上述の評価実験にも示したように、本実施の形態によれば、従来のSTOI,HASPIや最近提案されているGEDIと比して、単語了解度の予測精度を高めることができる。
【0061】
ここで、従来の自動音声認識装置は、単語辞書や言語モデルなどを用いており、認識において前後の文脈や単語の事前知識の影響を受けやすい。このような影響を排除するために、前後の文脈に依存しない単語を評価試験に用いる、或いは、試験に用いる発話に含まれる単語の親密度を統一しておく等の工夫が必要であり、このような事前調整がなされていないと精度よく単語了解度を予測できず、音声信号自体の品質の予測の精度も低下してしまう等の課題があった。
【0062】
これに対し、本実施の形態では、音声認識部11において、前後の文脈に関する情報や単語辞書などの言語の情報ではなく、音素Nグラムという音素レベルの音素言語モデル131を用いる。これによって、音声認識部11は、前後の文脈や単語の事前知識の影響を受けずに音声認識を行うことができ、単語了解度予測部16も、言語情報に左右されず、様々なテキストの音声信号の品質を予測することが可能となった。
【0063】
すなわち、本実施の形態によれば、音声信号の発話内容などに依存しない単語了解度を予測することができる。言い換えると、本実施の形態によれば、単語の親密度に依存しない単語了解度を予測することができる。このため、単語の親密度を予め統一した単語リストを試験用に用意する等の工夫をせずとも、従来の客観的音声品質指標よりも、被験者実験による結果に対し、精度よく近似することができる。
【0064】
なお、本実施の形態では、音声品質の客観評価指標として、単語了解度を予測する場合を例に説明したが、これに限らない。音声品質の客観評価指標として音節明瞭度を使う場合、音声認識器の認識率として単語認識率や文字認識率を使う場合も、本実施の形態と同様に、音声認識部11による音声認識結果を基に予測値を計算することが可能である。具体的には、本実施形態における単語了解度を音節明瞭度に置き換えた構成を採用してもよい。或いは、本実施形態における音素認識正解率を文字認識正解率や単語認識正解率に置き換えた構成を採用してもよい。文字認識正解率は、上述の式(1)におけるCを正解文字数であり、Sは置換文字数であり、Iは挿入文字数であり、Dは、削除文字数としたものである。単語認識正解率は、上述の式(1)におけるCを正解単語数であり、Sは置換単語数であり、Iは挿入単語数であり、Dは、削除単語数としたものである。また、本実施の形態における単語了解度を音節明瞭度とし、音素認識正解率を文字認識正解率に置き換えた構成や、本実施の形態における単語了解度を音節明瞭度とし、音素認識正解率を単語認識正解率に置き換えた構成としてもよい。
【0065】
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0066】
また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0067】
[プログラム]
図7は、プログラムが実行されることにより、単語了解度予測装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0068】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0069】
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、単語了解度予測装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、単語了解度予測装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0070】
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0071】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0072】
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0073】
10 単語了解度予測装置
11 音声認識部
12 音素出力部
13 音素並び出力部
14 音素認識部
15 認識率計算部
16 単語了解度予測部
121 音響モデル
131 音素並び言語モデル