特許第6047364号(P6047364)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧
特許6047364音声認識装置、誤り修正モデル学習方法、及びプログラム
<>
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000019
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000020
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000021
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000022
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000023
  • 特許6047364-音声認識装置、誤り修正モデル学習方法、及びプログラム 図000024
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6047364
(24)【登録日】2016年11月25日
(45)【発行日】2016年12月21日
(54)【発明の名称】音声認識装置、誤り修正モデル学習方法、及びプログラム
(51)【国際特許分類】
   G10L 15/183 20130101AFI20161212BHJP
【FI】
   G10L15/183 200K
【請求項の数】7
【全頁数】18
(21)【出願番号】特願2012-224985(P2012-224985)
(22)【出願日】2012年10月10日
(65)【公開番号】特開2014-77865(P2014-77865A)
(43)【公開日】2014年5月1日
【審査請求日】2015年9月1日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【弁理士】
【氏名又は名称】高橋 詔男
(72)【発明者】
【氏名】小林 彰夫
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2008−216341(JP,A)
【文献】 特開2009−047929(JP,A)
【文献】 特開平08−221091(JP,A)
【文献】 稲葉通将 他,"語の共起情報を用いた対話における盛り上がりの自動判定",電子情報通信学会論文誌,2011年 1月 1日,Vol.J94-D,No.1,pp.59-67
【文献】 小林彰夫 他,"単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識",電子情報通信学会論文誌,2010年 5月 1日,Vol.J93-D,No.5,pp.598-609
【文献】 岩本秀明,"次発話予測モデルによる音声認識候補の再順序付け",情報処理学会研究報告,2000年 1月28日,Vol.2000,No.11,pp.135-140
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納部と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習部と、
を備えることを特徴とする音声認識装置。
【請求項2】
前記モデル学習部は、前記音声認識結果から得られる同一発話内の言語的な特徴と前記発話の順序に応じた言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する、
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記モデル学習部は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち1以上と、前記音声認識結果に含まれる単語及び前記過去の発話の前記正解単語列に含まれる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習する、
ことを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記誤り修正モデルは、前記言語的な特徴に基づく素性関数とその重みとを用いて音声認識のスコアを修正する算出式であり、
前記モデル学習部は、前記音声認識結果及び前記正解単語列から得られた前記素性関数の値と前記音声認識結果に含まれる単語の認識誤りとを用いて定められる評価関数により算出した評価値に基づいて前記重みを統計的に算出し、算出した前記重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。
【請求項5】
入力された音声データを音声認識し、前記モデル学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
【請求項6】
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して音声言語資源格納部に格納する音声言語資源格納過程と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習過程と、
を有することを特徴とする誤り修正モデル学習方法。
【請求項7】
コンピュータを、
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納手段と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習手段と、
を具備する音声認識装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。
【背景技術】
【0002】
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】小林ほか,「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」,電子情報通信学会誌,vol.J93-D no.5,2010年,p.598−609
【発明の概要】
【発明が解決しようとする課題】
【0004】
放送番組などの音声認識では、連続した複数の発話を逐次音声認識するが、音声認識が処理している発話の内容は、すでに音声認識の終わった直前の発話内容と関連することが多い。例えば、料理番組では、食材の紹介についての発話があれば、その後の料理方法に関する発話が続くと期待される。つまり、食材に関する単語とその料理方法に関する単語は、隣接する発話において共起する可能性が高い。例えば、「豚ヒレをたたきます」という発話の後に、「次に塩こしょうします」という発話が続くのであれば、「豚ヒレ」と「塩こしょう」の間に関係があり、これらが共起しやすいということになる。
しかし、従来の誤り修正モデルのモデルパラメータ学習では、音声データとその音声認識結果及び正解単語列を用いているが、学習時に音声データの発話順序は考慮されていない。このように、従来の誤り修正モデルでは発話の順序に関係した発話間の単語の共起などの情報は考慮されていないため、発話内容を正しく予測する上で最適なモデルとはなっていない。
【0005】
本発明は、このような事情を考慮してなされたもので、音声認識の対象となっている発話より過去の発話内容から引き出した情報を利用して誤り修正モデルを最適化する音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。
【課題を解決するための手段】
【0006】
[1] 本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納部と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データを音声認識し、得られた音声認識結果に含まれる単語と、その音声認識結果よりも過去の発話の正解単語列に含まれる単語とから、発話の順序に応じた言語的な特徴を抽出する。過去の発話の正解単語列として、例えば、音声認識結果と時間的に隣接した直近の過去の発話の正解単語列を用いる。音声認識装置は、抽出した言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識の対象となっている発話よりも前の発話の内容から引き出した情報を利用して、発話内容を正しく予測する上で好適な誤り修正モデルを生成することができる。
【0007】
[2] 本発明の一態様は、上述する音声認識装置であって、前記モデル学習部は、前記音声認識結果から得られる同一発話内の言語的な特徴と前記発話の順序に応じた言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果及び正解単語列から発話の順序に応じた言語的な特徴を抽出するとともに音声認識結果から同一発話内の言語的な特徴を抽出する。音声認識装置は、抽出したこれらの言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、音声認識の対象となっている発話よりも過去の発話内容から引き出した情報に加えて、同一の発話内の言語的特徴を利用して、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
【0008】
[3] 本発明の一態様は、上述する音声認識装置であって、前記モデル学習部は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち1以上と、前記音声認識結果に含まれる単語及び前記過去の発話の前記正解単語列に含まれる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習する、ことを特徴とする。
この発明によれば、音声認識装置は、音声認識結果から得られる同一発話内における単語の共起関係や構文的、意味的な情報と、音声認識結果に含まれる単語と過去の発話の正解単語列から得られる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤りを精度良く修正する誤り修正モデルを生成することができる。
【0009】
[4] 本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、前記言語的な特徴に基づく素性関数とその重みとを用いて音声認識のスコアを修正する算出式であり、前記モデル学習部は、前記音声認識結果及び前記正解単語列から得られた前記素性関数の値と前記音声認識結果に含まれる単語の認識誤りとを用いて定められる評価関数により算出した評価値に基づいて前記重みを統計的に算出し、算出した前記重みを用いて前記誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、言語的特徴を表す素性関数とその重みとで定義される誤り修正モデルが用いる重みを、音声認識結果から得られた素性関数の値と、音声認識結果を正解単語列と比較することによって得られる認識誤りとを用いて定められる評価関数により算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤り傾向を効率的に学習し、誤り修正モデルを生成することができる。
【0010】
[5] 本発明の一態様は、上述する音声認識装置であって、入力された音声データを音声認識し、前記モデル学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、音声認識装置は、認識率のよい音声認識結果を得ることができる。
【0011】
[6] 本発明の一態様は、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して音声言語資源格納部に格納する音声言語資源格納過程と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習過程と、を有することを特徴とする誤り修正モデル学習方法である。
【0012】
[7] 本発明の一態様は、コンピュータを、発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納手段と、前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習手段と、を具備する音声認識装置として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、音声認識の対象となっている発話よりも過去の発話内容から引き出した情報を利用して誤り修正モデルを最適化することが可能となる。
【図面の簡単な説明】
【0014】
図1】本発明の一実施形態による音声認識装置における誤り修正モデルの学習方法を示す図である。
図2】同実施形態による話の順序に応じた素性関数の例を示す図である。
図3】同実施形態による音声認識装置の構成を示す機能ブロック図である。
図4】同実施形態による音声認識装置の全体処理フローを示す図である。
図5】同実施形態による音声認識装置のモデル学習処理フローを示す図である。
図6】従来法による誤り修正モデルの学習方法を示す図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0016】
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した誤り修正モデルはすでに考案されているが、この誤り修正モデルは、連続して発声される発話に対して、隣接する発話内容との関係性に基づく情報を利用したものではない。連続した発話では、直前の発話で使われた単語と関連する単語が含まれることが多い。従って、このような近接した発話間の単語のつながりを誤り修正モデルで利用すれば、音声認識の改善が期待される。
【0017】
そこで本実施形態の音声認識装置は、直近の発話内容に含まれる言語的な特徴を利用して音声認識性能を発話内容に適合させた誤り修正モデルを学習し、音声認識へ適用する。このように、直近の発話内容によって最適化された誤り修正モデルにより、音声認識の性能改善を図る。
【0018】
[2. 誤り修正モデルの学習アルゴリズム]
続いて、本発明の一実施形態による音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
上述したように、本実施形態の音声認識装置は、従来の課題を解決するために、学習に用いる音声データに発話の順序関係を導入し、隣接する発話間の関係性を誤り修正モデルに取り入れる。本実施形態と従来法の違いは、誤り修正モデルを学習する際のデータの扱い方である。
【0019】
図6は、従来法による誤り修正モデルの学習方法を示す図である。同図に示すように、従来法では、複数の発話から構成される学習データは、その順序関係を保存しておらず、単語の誤り傾向は、データを一括して用いて学習されてきた。
【0020】
図1は、本実施形態による誤り修正モデルの学習方法を示す図である。同図に示すように、本実施形態では、学習データの中の各発話の順序関係を考慮し、時間的に隣接する発話間の関係を言語的な特徴として抽出し、誤り修正モデルの学習に利用する。これにより、隣接する発話間の関係が反映された誤り修正モデルが得られるため、従来法よりも音声認識性能を改善することが可能となる。
【0021】
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
【0022】
【数1】
【0023】
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが発生したときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。
【0024】
一方、P(w)は、単語列wに対する言語的な生成確率であり、そのスコア(言語スコア)は、単語n−gramモデル等の統計的言語モデル(以下、「言語モデル」と記載する。)により計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
【0025】
以下の説明では、統計的音響モデルにHMM−GMMを用い、統計的言語モデルにn−gramを用いる。
【0026】
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが発生したときの文仮説(正解候補)である単語列wの評価関数q(w|x)を以下の式(2)のように定める。なお、κは、音響スコアP(x|w)に対する言語スコアP(w)の重みである。
【0027】
【数2】
【0028】
そして、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数q(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。
【0029】
【数3】
【0030】
従来法における誤り修正モデルでは、式(1)を以下の式(4)のように変更する。
【0031】
【数4】
【0032】
式(4)のexpΣλ(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、f(w)(i=1,...,)はi番目の素性関数、λは素性関数f(w)の重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。これらルールは、例えば、同一の発話内における連続する単語、連続しない2単語以上の単語の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。従来法における具体的な素性関数fのルールの例として、以下があげられる。
【0033】
例えば、単語の共起関係に基づく素性関数として、以下の(1)、(2)がある。
【0034】
(1)単語列wに連続する単語2項組(u,v)が含まれる場合、その数を返す関数
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
【0035】
また、単語列wを構成する各単語を名詞や動詞といった品詞カテゴリ(構文情報)に置き換えた上で得られる、構文情報に基づく素性関数として、例えば以下の(3)、(4)がある。なお、c(・)は、単語を品詞にマッピングする関数である。
【0036】
(3)単語列wに連続する品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
(4)単語列wに連続しない品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
【0037】
あるいは、単語列wを構成する各単語を、意味情報を表すカテゴリ(意味カテゴリ)に置き換えた上で得られる、意味的な情報に基づく素性関数として、例えば以下の(5)、(6)がある。意味カテゴリは、本実施形態の音声認識装置が外部または内部に備えるデータベースに記憶されるシソーラスなどを用いて得ることができる。なお、s(・)は単語を意味カテゴリにマッピングする関数である。
【0038】
(5)単語列wに連続する意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
(6)単語列wに連続しない意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
【0039】
上記のように、音声認識の誤り傾向は、素性関数とその重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、従来の誤り傾向の学習とは、音声データの音声認識結果とその正解単語列を学習データとして用いて式(4)の重みλを求めることである。
【0040】
[2.2 本実施形態に適用される誤り修正モデルの学習アルゴリズム]
いま、単語列wに対して、直近の入力音声から得られた単語列をuとすると、音声入力x、単語列uが与えられたときの単語列wの条件付き確率P(w|x,u)は、以下の式(5)のようになる。
【0041】
【数5】
【0042】
ただし、式(5)の導出では、ベイズの定理と、単語列uと音声入力xが独立であることを利用している。また、単語列uは、任意の長さの単語列であり、複数の発話内容を連結した単語列であってもよい。
【0043】
ただし、音声入力xと隣接する発話の単語列uが与えられたとき、入力に対して最も尤もらしい単語列w^は以下の式(6)となり、式(1)が変更されることに注意する。
【0044】
【数6】
【0045】
ここで、直近の入力音声により単語列uが与えられたときの単語列wの条件付き確率P(w|u)を、式(7)のように仮定する。
【0046】
【数7】
【0047】
なお、g(w,u)(j=1,...,)は、単語列wと単語列uに対する言語的な特徴を表す素性関数であり、φは、gに対応した重み(素性重み)である。このような発話の順序に応じた言語的な特徴の素性関数gとして、以下の例がある。ここでは、v,zはそれぞれ単語とする。
【0048】
(例)先行する発話の単語列uに単語zが含まれている場合に、着目している発話の単語列wに含まれる単語vの数を返す関数
【0049】
図2は、素性関数gの例を示す図である。同図においては、先行する発話の単語列uを正解単語列(もしくは尤もらしい認識結果)とし、着目している現在の発話の単語列wを正解候補の単語列w、w、wの集合としている。そして、同図においては、先行する発話の単語列uに単語zが含まれており、正解候補の単語列wには単語vが1つ含まれている。この場合、g(w,u)=1となる。一方、正解候補の単語列w3には単語vが2つ含まれているため、g(w,u)=2となる。
【0050】
式(5)及び式(7)から、以下の式(8)となる。
【0051】
【数8】
【0052】
従来の識別的言語モデルの素性関数を考慮すれば、式(8)は、以下の式(9)となる。
【0053】
【数9】
【0054】
音響モデルの尤度をHMMによる対数音響スコアをh(x,w)、n−garam言語モデルによる対数言語スコアをh(w)とすると、式(9)は、以下の式(10)のように書き直せる。
【0055】
【数10】
【0056】
ただし、κは、言語スコアに対する重み係数とする。また、Z(Λ,Φ)は、確率の条件を満たすための正規化定数であり、以下の式(11)とする。式(11)における単語列w’は、音声入力xから音声認識により得られた複数の音声認識結果である。また、モデルパラメータΛは、(λ,λ,…)であり、モデルパラメータΦは、(φ,φ,…)である。
【0057】
【数11】
【0058】
本実施形態の音声認識装置による誤り修正モデルの学習とは、式(10)に示す誤り修正モデルに用いるモデルパラメータΛ及びΦを学習データから推定することである。
【0059】
ここで、M個の発話からなる学習データが与えられたとき、モデルパラメータ推定のための目的関数L(Λ,Φ)を以下の式(12)とする。
【0060】
【数12】
【0061】
式(12)におけるP(wm,n|x,wm−1ref)は、以下の式(13)のように算出される。
【0062】
【数13】
【0063】
mは発話の順序を示し、Nはm番目の発話の学習データに対して音声認識により生成された文仮説wm,1、wm,2、…の総数、文仮説wm,n(nは1以上の整数)はm番目の発話の学習データの第n番目の正解候補の単語列である。wrefはm番目の発話の学習データの正解単語列、R(・,・)は2つの単語列の編集距離を返す関数である。2つの単語列の編集距離は、動的計画法により効率的に求めることができる。編集距離は、正解単語列に対する音声認識結果の誤り単語数と等価(置換、挿入、脱落誤りの操作)であるため、式(12)の目的関数L(Λ,Φ)は、期待される単語誤りの数を表している。この目的関数L(Λ,Φ)を最小化するようにモデルパラメータΛとモデルパラメータΦを推定すれば、期待される単語誤りの数が最小となる誤り修正モデルが得られるため、音声認識の性能の向上が期待できる。これは、目的関数L(Λ,Φ)を最小化するようにモデルパラメータΛ及びΦを推定すれば、正解候補の単語列に期待される認識誤りが最小となり、学習データとは異なる未知の入力音声に対する音声認識においても、モデルパラメータΛ及びΦによって認識誤りの最小化が同様に行われるからである。つまり、式(12)の目的関数は、正解候補の単語列に期待される認識誤りが最小となり、モデルパラメータΛ及びΦが適切であるかの評価値を算出する評価関数として用いられる。
【0064】
パラメータを推定するため、目的関数のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦは、以下の式(14)、式(15)から求められる。
【0065】
【数14】
【0066】
【数15】
【0067】
勾配ΔΛは、(∂L(Λ,Φ)/∂λ,∂L(Λ,Φ)/∂λ,∂L(Λ,Φ)/∂λ,…)であり、勾配ΔΦは、(∂L(Λ,Φ)/∂φ,∂L(Λ,Φ)/∂φ,∂L(Λ,Φ)/∂φ,…)である。
【0068】
繰り返し更新によりモデルパラメータΛ、Φの学習を行うとすれば、t−1回目の繰り返しの後にモデルパラメータΛt−1、Φt−1が得られたとすると、以下の式(16)、式(17)がパラメータ更新式となる。
【0069】
【数16】
【0070】
【数17】
【0071】
ここで、ηΛ、ηΦはそれぞれ、式(14)、式(15)で得られた勾配ΔΛ、勾配ΔΦの係数である。
【0072】
[3. 音声認識装置の構成]
図3は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声認識部11、特徴量抽出部12、モデル学習部13、音声認識部14、音声言語資源格納部21、音響モデル格納部22、言語モデル格納部23、及び誤り修正モデル格納部24を備えて構成される。
【0073】
音声言語資源格納部21は、学習データを格納する。音響モデル格納部22は、音響モデルを格納する。言語モデル格納部23は、言語モデルを格納する。誤り修正モデル格納部24は、誤り修正モデルを格納する。
【0074】
音声認識部11は、学習データを生成するために音声データを音声認識する。音声データは、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。本実施形態では、音声データとして、放送音声・字幕データD1を用いる。音声認識部11は、発話の音声データと、音声データを音声認識して得られた音声認識結果データD2と、発話の内容の正解単語列を示す正解単語列データD3とを対応付けて学習データとして音声言語資源格納部21に書き込む。このとき、音声認識部11は、音声認識を行った際の発話の順番も合わせて音声言語資源格納部21に保持しておく。
【0075】
特徴量抽出部12は、発話の順番により整列された学習データの音声認識結果データD2及び正解単語列データD3から、同一発話内における言語的な特徴と発話の順序に応じた言語的な特徴を抽出する。特徴量抽出部12は、得られた言語的な特徴をルールとする素性関数f,gを示す素性関数データD4を出力する。
【0076】
モデル学習部13は、特徴量抽出部12が出力した素性関数データD4と、音声言語資源格納部21が記憶する学習データとを入力として、誤り修正モデルのモデルパラメータΛ、Φを統計的手段により学習する。モデル学習部13は、学習したこれらのモデルパラメータΛ、Φを用いた誤り修正モデルを誤り修正モデル格納部24に書き込む。
【0077】
音声認識部14は、音響モデル格納部22に記憶されている音響モデル、及び言語モデル格納部23に記憶されている言語モデルを参照し、誤り修正モデル格納部24に記憶されている誤り修正モデルを用いて入力音声データD5の音声認識を行い、音声認識結果データD6を出力する。
【0078】
[4. 音声認識装置の処理手順]
図4は、本実施形態による音声認識装置1の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
【0079】
[4.1 ステップS1]
本実施形態では、誤り修正モデルの生成のために、学習データとして、発話の音声認識結果と、その発話内容の書き起こしである正解単語列が必要となる。そこで、音声認識部11は、音声データ及び正解単語列データの組として放送音声・字幕データD1を収集し、放送音声・字幕データD1に含まれる音声データを音声認識する。音声認識部11は、放送音声・字幕データD1から取得した字幕データ、あるいは、音声認識の結果を人手により修正したテキストデータを正解単語列データD3とする。音声認識部11は、各発話の音声データと、音声認識結果を示す音声認識結果データD2と、正解単語列データD3とを対応付けた学習データを音声言語資源格納部21に格納する。このとき、音声認識部11は、音声認識を行った際の発話の順序を保持して格納する。m番目(m=1,2,…)の学習データの音声認識結果データD2には、m番目の音声データを音声認識して得られた正解候補である文仮説wm,n(n=1,2,…)が含まれ、m番目の学習データの正解単語列データD3には、m番目の音声データの正解単語列wrefが含まれる。
【0080】
[4.2 ステップS2]
モデル学習部13は、音声言語資源格納部21に記憶されている学習データから、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。
【0081】
まず、モデル学習部13は、学習データに含まれる音声認識結果データD2及び正解単語列データD3のそれぞれから、連続する単語、連続しない2単語以上の単語、単語の構文的な情報または意味的な情報、などの同一発話内の言語的特徴に基づく素性関数を全て抽出する。さらに、モデル学習部13は、音声認識結果データD2が示す正解候補の文仮説wm,n図2に示す単語列w、w,…に相当)と、正解単語列データD3が示す当該発話に先行する正解単語列wm−1ref図2に示す先行する単語列uに相当)とを参照し、発話の順序に応じた言語的特徴に基づく素性関数を全て抽出する。正解単語列wm−1refは、文仮説wm,nの発話と時間的に隣接した過去の発話の正解単語列である。モデル学習部13は、抽出したこれらの素性関数が出現する頻度をカウントする。モデル学習部13は、カウントした出現頻度が予め定めた閾値以上である同一発話内の言語的特徴に基づく素性関数、発話の順序に応じた言語的特徴に基づく素性関数をそれぞれ、誤り傾向学習で用いる素性関数f、素性関数gとして決定する。モデル学習部13は、決定した素性関数f、gを設定した素性関数データD4をモデル学習部13に出力する。
【0082】
[4.3 ステップS3]
続いてモデル学習部13は、誤り修正モデルのモデルパラメータを学習する。
図5は、ステップS3においてモデル学習部13が実行する誤り修正モデル更新処理の処理フローを示す図である。
【0083】
(ステップS31:モデルパラメータ初期化処理)
モデル学習部13は、モデルパラメータΛ、Φに対して適当な初期値を設定する。本実施形態では、初期値をΛ=Φ=0とする。
【0084】
(ステップS32:編集距離計算処理)
式(12)の目的関数を計算するためには、まず音声認識結果と対応する正解単語列との編集距離を計算する必要がある。そこで、モデル学習部13は、学習データとして音声言語資源格納部21に記憶されている学習データを読み出し、音声認識結果データD2が示す文仮説wm,nと正解単語列データD3が示す正解単語列wrefとから編集距離R(wref,wm,n)を計算する。これらの編集距離は、誤り修正モデルの学習では定数扱いとなることに注意する。
【0085】
(ステップS33:目的関数計算処理)
モデル学習部13は、ステップS32において求めた編集距離R(wref,wm,n)を用い、式(12)に従って目的関数L(Λ,Φ)の値を計算する。そこで、モデル学習部13は、式(12)における条件付き確率P(wm,n|x,wm―1ref)を、音響モデルのスコアh(x|wm,n)、言語モデルのスコアh(wm,n)、及び現在のモデルパラメータΛ、Φとから式(13)を用いて計算する。モデル学習部13は、各文仮説wm,nの音響モデルのスコアh(x|wm,n)を、音響モデル格納部22に記憶されている音響モデルと、m番目の学習データの音声データとを用いて取得する。また、モデル学習部13は、文仮説wm,nの言語モデルのスコアh(wm,n)を、言語モデル格納部23に記憶されている言語モデルを用いて取得する。
【0086】
(ステップS34:勾配計算処理)
モデル学習部13は、現在のモデルパラメータΛ、Φの値を用いて、式(14)及び式(15)により、式(12)のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦを求める。モデル学習部13は、式(14)及び式(15)における編集距離R(wref,wm,n)及び条件付き確率P(wm,n|x,wm−1ref)に、ステップS33において目的関数L(Λ,Φ)を算出したときの値を用いる。また、モデル学習部13は、式(14)における素性関数g(wm,n,wm−1ref)の値を、音声認識結果データD2が示す文仮説wm,n及び正解単語列データD3が示す正解単語列wm−1refとから取得する。モデル学習部13は、式(15)における素性関数f(wm,n)の値を、音声認識結果データD2が示す文仮説wm,nから取得する。なお、モデル学習部13は、素性関数f及び素性関数gを素性関数データD4から得る。
【0087】
モデル学習部13は、求めた勾配ΔΛ、ΔΦを用いて、式(16)及び式(17)により、モデルパラメータΛ、Φを更新する。なお、式(16)及び式(17)における係数ηΛ、ηΦは、予め定めた値を用いる。
【0088】
(ステップS35:終了判定処理)
モデル学習部13は、ステップS34の勾配計算処理により得られた目的関数の値と、更新前の目的関数の値とを比較し、値の変化が所定以上であれば、ステップS33からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてモデルパラメータΛ、Φの更新を打ち切り、ステップS36の処理を実行する。
【0089】
(ステップS36:誤り修正モデル出力処理)
モデル学習部13は、更新が収束したときのモデルパラメータΛ=(λ,λ,…)、及びΦ=(φ,φ,…)を用いた誤り修正モデルを誤り修正モデル格納部24に書き込む。
【0090】
[4.4 ステップS4]
音声認識部14は、音声認識対象の音声データとして入力音声データD5が入力されると、誤り修正モデル格納部24に記憶されている誤り修正モデルと、音響モデル格納部22に記憶されている音響モデル、及び、言語モデル格納部23に記憶されている言語モデルとを用いて、入力音声データD5の正解候補の単語列を得、それらのスコアを算出する。学習時には、現在処理している発話に先行する発話列は正解単語列となるが、音声認識時には正解単語列が得られないため、音声認識部14は、現在処理している発話より前の発話を音声認識したときに得られた最尤単語列を正解単語列として用いる。音声認識部14は、スコアが最もよい正解候補の単語列を正解単語列として設定した音声認識結果データD6をリアルタイムで出力する。この誤り修正モデルを用いることにより、音声認識部14は、入力音声データD5から得られた音声認識結果の選択における誤りを修正する。
【0091】
[5. 効果]
本実施形態によれば、音声認識装置1は、直前の発話内容を反映した誤り修正モデルが構成可能となり、従来の音声認識よりも認識誤りが削減される。
【0092】
[6. その他]
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0093】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【符号の説明】
【0094】
1 音声認識装置
11 音声認識部
12 特徴量抽出部
13 モデル学習部
14 音声認識部
21 音声言語資源格納部
22 音響モデル格納部
23 言語モデル格納部
24 誤り修正モデル格納部
図1
図2
図3
図4
図5
図6