特許6183988 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許6183988音声認識装置、誤り修正モデル学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6183988

(24)【登録日】2017年8月4日

(45)【発行日】2017年8月23日

(54)【発明の名称】音声認識装置、誤り修正モデル学習方法、及びプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20170814BHJP

G10L 15/06 20130101ALI20170814BHJP

G10L 15/10 20060101ALI20170814BHJP

【ＦＩ】

G10L15/22 470F

G10L15/06 300Z

G10L15/10 300Z

【請求項の数】6

【全頁数】22

(21)【出願番号】特願2012-270107(P2012-270107)

(22)【出願日】2012年12月11日

(65)【公開番号】特開2014-115499(P2014-115499A)

(43)【公開日】2014年6月26日

【審査請求日】2015年11月2日

【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100064908

【弁理士】

【氏名又は名称】志賀正武

(74)【代理人】

【識別番号】100108578

【弁理士】

【氏名又は名称】高橋詔男

(72)【発明者】

【氏名】小林彰夫

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２００８−２１６３４１（ＪＰ，Ａ）

【文献】特開２０１１−０１７８１８（ＪＰ，Ａ）

【文献】特開２０１０−０５５０３０（ＪＰ，Ａ）

【文献】国際公開第２００８／００１４８６（ＷＯ，Ａ１）

【文献】小林彰夫他，"単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識"，電子情報通信学会論文誌D，２０１０年５月１日，Vol.J93-D，No.5，pp.598-609

【文献】小林彰夫他，"ラベルなしデータを用いた識別的言語モデルの検討"，日本音響学会2010年秋季研究発表会講演論文集CD-ROM，２０１０年９月７日，pp.145-146

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化部と、
前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識部と、
前記適応化言語モデル使用音声認識部による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化部と、
前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識部と、
前記適応化音響モデル使用音声認識部による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算部と、
前記適応化音響モデル使用音声認識部による前記音声認識結果を構成する各単語に前記信頼度計算部により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出部と、
適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識部と、
前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識部による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習部と、
を備えることを特徴とする音声認識装置。

【請求項2】

前記誤り傾向学習部は、前記放送音声認識部による前記音声認識結果に含まれる単語と、前記部分正解単語列に含まれる正解の前記ラベルが付与された単語、及び、前記放送音声認識部による他の前記音声認識結果に含まれる単語との時間軸上での重なり、ならびに、他の前記音声認識結果が正解である確率とに基づいて、前記音声認識結果に期待される認識誤り数を表す誤りコストを計算し、計算した前記誤りコストに基づいて前記誤り修正モデルを学習する、
ことを特徴とする請求項１に記載の音声認識装置。

【請求項3】

前記言語的な特徴は、前記音声認識結果から得られる連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち１以上であり、
前記誤り傾向学習部は、前記誤りコストを計算するとともに、前記放送音声認識部による前記音声認識結果が正解である確率を当該音声認識結果に含まれる前記言語的な特徴に基づいて計算し、前記音声認識結果の誤りコスト及び前記音声認識結果が正解である確率を用いて定められた評価関数に基づいて音声認識の誤り傾向を反映した前記誤り修正モデルを学習する、
ことを特徴とする請求項１または請求項２に記載の音声認識装置。

【請求項4】

入力された音声データを前記適応化していない音響モデル及び言語モデルを用いて音声認識し、前記誤り傾向学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する入力音声認識部をさらに備える、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声認識装置。

【請求項5】

放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化過程と、
前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識過程と、
前記適応化言語モデル使用音声認識過程による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化過程と、
前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識過程と、
前記適応化音響モデル使用音声認識過程による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算過程と、
前記適応化音響モデル使用音声認識過程による前記音声認識結果を構成する各単語に前記信頼度計算過程により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出過程と、
適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識過程と、
前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識過程による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習過程と、
を有することを特徴とする誤り修正モデル学習方法。

【請求項6】

コンピュータを、
放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化手段と、
前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識手段と、
前記適応化言語モデル使用音声認識手段による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化手段と、
前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識手段と、
前記適応化音響モデル使用音声認識手段による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算手段と、
前記適応化音響モデル使用音声認識手段による前記音声認識結果を構成する各単語に前記信頼度計算手段により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出手段と、
適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識手段と、
前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識手段による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習手段と、
を具備する音声認識装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。

【背景技術】

【0002】

音声認識の誤り修正については、音声とその書き起こし（正解文）から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある（例えば、非特許文献１参照）。また、音声認識結果を用いて誤り修正モデルを学習し、音声認識性能の改善を図る技術がある（例えば、非特許文献２参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】小林ほか，「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」，電子情報通信学会誌，vol.J93-D no.5，２０１０年，ｐ．５９８−６０９

【非特許文献2】Kobayashi, A., Oku, T., Homma, S., Imai, T. and Nakagawa, S., "Lattice-based risk minimization training for unsupervised language model adaptation", Proc. Interspeech, pp.1453-1456, 2011.

【発明の概要】

【発明が解決しようとする課題】

【0004】

音声認識では、認識の誤り傾向を利用した誤り修正モデルを用いて認識率の改善を図ることが多い。しかし、誤り修正モデルの学習には、音声と該当する書き起こしテキストが必要となるため、統計的に頑健な誤り修正モデルを学習するためには、コストがかかりすぎるという問題がある。

【0005】

本発明は、このような事情を考慮してなされたもので、音声の書き起こしテキストの作成にかかるコストを軽減しながら誤り修正モデルを学習することができる音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。

【課題を解決するための手段】

【0006】

［１］本発明の一態様は、放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化部と、前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識部と、前記適応化言語モデル使用音声認識部による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化部と、前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識部と、前記適応化音響モデル使用音声認識部による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算部と、前記適応化音響モデル使用音声認識部による前記音声認識結果を構成する各単語に前記信頼度計算部により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出部と、適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識部と、前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識部による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、放送音声に付随した字幕を用いて適応化言語モデルを生成し、放送音声の音声認識を行い、さらにこの音声認識結果を用いて適応化音響モデルを生成する。音声認識装置は、適応化言語モデル及び適応化音響モデルを用いた放送音声の音声認識結果を構成する各単語について認識結果の信頼度を計算すると、計算した信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する。さらに、音声認識装置は、部分正解単語列において正解のラベルが付与された単語を正解とみなし、放送音声に付随した字幕を含んだ学習データによるバイアスがかかっていない言語モデル及び音響モデルを用いて放送音声を音声認識した結果に期待される認識誤り数を算出し、この期待される認識誤り数に基づいて音声認識の誤り傾向を反映した誤り修正モデルを学習する。
これにより、音声認識装置は、音声の書き起こしテキストの作成にかかるコストを軽減しながら誤り修正モデルを学習することができる。

【0007】

［２］本発明の一態様は、上述する音声認識装置であって、前記誤り傾向学習部は、前記放送音声認識部による前記音声認識結果に含まれる単語と、前記部分正解単語列に含まれる正解の前記ラベルが付与された単語、及び、前記放送音声認識部による他の前記音声認識結果に含まれる単語との時間軸上での重なり、ならびに、他の前記音声認識結果が正解である確率とに基づいて、前記音声認識結果に期待される認識誤り数を表す誤りコストを計算し、計算した前記誤りコストに基づいて前記誤り修正モデルを学習する、ことを特徴とする。
この発明によれば、音声認識装置は、言語モデル及び音響モデルを用いて放送音声を音声認識した結果に含まれる単語と、部分正解単語列に含まれる正解単語、及び、同一の放送音声から得られた他の音声認識結果に含まれる単語との時間軸上での重なり、ならびに、他の音声認識結果が正解である確率とに基づいて誤りコストを計算し、計算した誤りコストを最小化するように誤り修正モデルを学習する。
これにより、音声認識装置は、認識誤りの傾向を効率的に学習し、誤り修正モデルを生成することができる。

【0008】

［３］本発明の一態様は、上述する音声認識装置であって、前記言語的な特徴は、前記音声認識結果から得られる連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち１以上であり、前記誤り傾向学習部は、前記誤りコストを計算するとともに、前記放送音声認識部による前記音声認識結果が正解である確率を当該音声認識結果に含まれる前記言語的な特徴に基づいて計算し、前記音声認識結果の誤りコスト及び前記音声認識結果が正解である確率を用いて定められた評価関数に基づいて音声認識の誤り傾向を反映した前記誤り修正モデルを学習する、ことを特徴とする。
この発明によれば、音声認識装置は、言語モデル及び音響モデルを用いた放送音声の音声認識結果に含まれる単語の共起関係や構文的、意味的な情報と、音声認識結果に含まれる単語と過去の発話の正解単語列から得られる単語の共起関係とに基づいて音声認識結果が正解である確率を算出し、音声認識結果について算出した誤りコストと正解である確率とを用いて定められる評価関数により算出した評価値が、最も認識誤りが少ないことを示す評価値となるように誤り傾向を反映した誤り修正モデルを学習する。
これにより、音声認識装置は、認識誤りを精度良く修正する誤り修正モデルを生成することができる。

【0009】

［４］本発明の一態様は、上述する音声認識装置であって、入力された音声データを前記適応化していない音響モデル及び言語モデルを用いて音声認識し、前記誤り傾向学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する入力音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、入力された音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、音声認識装置は、認識率の高い音声認識結果を得ることができる。

【0010】

［５］本発明の一態様は、放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化過程と、前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識過程と、前記適応化言語モデル使用音声認識過程による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化過程と、前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識過程と、前記適応化音響モデル使用音声認識過程による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算過程と、前記適応化音響モデル使用音声認識過程による前記音声認識結果を構成する各単語に前記信頼度計算過程により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出過程と、適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識過程と、前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識過程による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習過程と、を有することを特徴とする誤り修正モデル学習方法である。

【0011】

［６］本発明の一態様は、コンピュータを、放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化手段と、前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識手段と、前記適応化言語モデル使用音声認識手段による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化手段と、前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識手段と、前記適応化音響モデル使用音声認識手段による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算手段と、前記適応化音響モデル使用音声認識手段による前記音声認識結果を構成する各単語に前記信頼度計算手段により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出手段と、適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識手段と、前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識手段による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習手段と、を具備する音声認識装置として機能させるためのプログラムである。

【発明の効果】

【0012】

本発明によれば、音声の書き起こしテキストの作成にかかるコストを軽減しながら誤り修正モデルを生成することができる。

【図面の簡単な説明】

【0013】

【図1】放送音声と字幕の関係を示す図である。

【図2】本発明の一実施形態における部分正解単語列の例を示す図である。

【図3】同実施形態における整列した音声認識結果と部分正解単語列を示す図である。

【図4】同実施形態における音声認識結果の単語と部分正解単語列の単語の対応を示す図である。

【図5】同実施形態における音声認識装置の構成を示す機能ブロック図である。

【図6】同実施形態による音声認識装置の全体処理フローを示す図である。

【図7】同実施形態による音声認識装置の誤り傾向学習部における処理フローを示す図である。

【発明を実施するための形態】

【0014】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

【0015】

［１．本実施形態の概要］
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに考案されている。この誤り修正モデルを学習するためには、誤り傾向を学習するための音声と、その音声を正確に書き起こしたテキストデータが学習データとして必要となる。しかし、音声の書き起こしにかかるコストは高く、誤り修正モデルを学習するための学習データの収集は容易ではない。そのため、コストを軽減しながらも、誤り修正モデルの統計的な頑健性を得ることが求められている。

【0016】

一方、放送を対象とした音声認識では、多くの番組の音声とその字幕が利用可能である。これらの音声と付随する字幕を使用することにより、改めて人手による放送音声の書き起こしを行うことなく誤り修正モデルを学習することが期待される。しかし、番組に付随するテキストは、番組内容の発話を必ずしも忠実に書き起したものではない。また、字幕が画面に重畳される時刻と、該当する発話が発声される時刻とは異なるため、音声と字幕の対応関係を取る必要がある。

【0017】

そこで本実施形態の音声認識装置は、字幕テキストを用いて適応学習を行った統計的言語モデル（以下、「統計的言語モデル」を「言語モデル」と記載する。）により放送音声を音声認識し、その認識結果を用いて統計的音響モデル（以下、「統計的音響モデル」を「音響モデル」と記載する。）の適応学習を行う。本実施形態の音声認識装置は、適応学習を行った音響モデル及び言語モデルを用いて放送音声を音声認識し、その認識結果から信頼度の高い区間を正解、信頼度の低い区間を誤りとしてラベル付けした部分正解単語列を抽出する。そして、このような部分的に正解を含んでいると期待できる部分正解単語列と、実際の入力音声の音声認識に使用する所望の音響モデル及び言語モデルを用いた放送音声の音声認識結果とを利用して、誤り修正モデルを学習する。この学習において、本実施形態の音声認識装置は、部分正解単語列において正解と信頼できる区間と信頼できない区間とに対して誤り傾向を反映したコスト関数を適用する。コスト関数とは、誤りコストを算出する関数であり、誤りコストとは、部分正解単語列に対する放送音声の音声認識結果に期待される認識誤り数である。本実施形態の音声認識装置は、学習データ（放送音声と付随する字幕テキスト）について、誤りコストの期待値を最小化する目的関数を用いて誤り修正モデルを学習する。

【0018】

［２．誤り修正モデルの学習アルゴリズム］
続いて、本発明の一実施形態による音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
上述したように、本実施形態の音声認識装置は、従来の課題を解決するために、コストのかかる音声の書き起こし作業を行うかわりに、放送音声と付随する字幕から、部分的に正解と見込まれる単語列を生成し、この単語列を用いて誤り修正モデルを学習する。これにより、誤り修正モデルの学習に必要な書き起こし等のデータ作成のコストを大幅に下げ、かつ音声認識性能を改善することが可能となる。

【0019】

［２．１誤り修正モデル］
ベイズの定理によれば、音声入力ｘが与えられたとき、この音声入力ｘに対して尤もらしい単語列ｗ＾（「＾」は、「ハット」を表す。）は、以下の式（１）により求めることができる。

【0020】

【数1】

【0021】

音声入力ｘ及び単語列ｗは、例えば、発話の単位に対応し、Ｐ（ｗ｜ｘ）は、音声入力ｘが与えられたときに単語列（文仮説）ｗが得られる事後確率である。
また、Ｐ（ｘ｜ｗ）は、単語列ｗに対する音響的な尤もらしさを示す尤度であり、そのスコア（音響スコア）は隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）及びガウス混合分布（Gaussian Mixture Model，ＧＭＭ）に代表される音響モデルに基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。

【0022】

一方、Ｐ（ｗ）は、単語列ｗに対する言語的な生成確率であり、そのスコア（言語スコア）は、単語ｎ−ｇｒａｍモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する言語的な尤もらしさを表すスコアが言語スコアである。なお、単語ｎ−ｇｒａｍモデルは、Ｎ単語連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）単語の履歴から次の単語の生起確率を与えるモデルである。

【0023】

以下の説明では、統計的音響モデルにＨＭＭ−ＧＭＭを用い、統計的言語モデルにｎ−ｇｒａｍを用いる。

【0024】

式（１）のＰ（ｘ｜ｗ）Ｐ（ｗ）が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式（１）のベイズの定理に基づいて、音声入力ｘが与えられたときの文仮説（正解候補）である単語列ｗの評価関数ｇ（ｗ｜ｘ）を以下の式（２）のように定める。

【0025】

【数2】

【0026】

式（２）において、ｆ_ａｍ（ｘ｜ｗ）は、ＨＭＭにより与えられる対数音響尤度（音響スコア）、ｆ_ｌｍ（ｗ）は、ｎ−ｇｒａｍ言語モデルにより与えられる単語列ｗの対数生成確率（言語スコア）、λ_ｌｍは、音響スコアに対する言語スコアの重みである。

【0027】

式（２）が定められたとき、以下の式（３）に示すように、音声入力ｘに対する正解候補の単語列ｗの集合Ｌの中から、式（２）が示す評価関数ｇ（ｗ｜ｘ）の結果が最大である単語列ｗ＾が、音声入力ｘの音声認識結果として選択される。

【0028】

【数3】

【0029】

誤り修正モデルでは、式（１）を以下の式（４）のように変更する。

【0030】

【数4】

【0031】

式（４）におけるΣ_ｉλ_ｉｆ_ｉ（ｗ）は、単語列ｗの誤り傾向を反映したペナルティスコアである。また、ｆ_ｉ（ｗ）（ｉ＝１，...，）はｉ番目の素性関数、λ_ｉは素性関数ｆ_ｉ（ｗ）の重み（素性重み）である。素性関数は、与えられた単語列（ここでは、単語列ｗ）で言語的ルールが成立すればその数となり、成立しなければ０となるような関数として定められる。これらルールは、例えば、連続する単語または連続しない２単語以上の単語列、単語の構文的な情報または意味的な情報、などの言語的特徴である。従来法における具体的な素性関数ｆ_ｉのルールの例として、以下の（１）、（２）に示すような、単語の共起関係に基づくものがある。

【0032】

（１）単語列ｗに連続する単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数
（２）単語列ｗに連続しない単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数

【0033】

上記のように、音声認識の誤り傾向は、素性関数とその重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、誤り傾向の学習とは、音声データの音声認識結果とその正解単語列を学習データとして用いて式（４）の重みλ_ｉを求めることである。

【0034】

［２．２本実施形態に適用される学習アルゴリズム］
上述したように、本実施形態の音声認識装置は、音声の正解単語列を得るために、放送音声と付随する字幕を用いる。

【0035】

図１は、放送音声と字幕の関係を示す図である。同図に示すように、通常、放送音声に対する字幕の表示タイミングにはずれがある。また、放送音声の発話内容と字幕とは類似しているものの、必ずしも一致するとは限らない。例えば、ニュース等のアナウンサーによる原稿読み上げを除けば、字幕からは発話の冗長性が失われており、オリジナルとは異なる言語表現が用いられることも多い。そのため、字幕テキストを音声の書き起こしとして用いることはできない。

【0036】

ところで、一般的には、字幕が付随する放送音声から発話内容を得るために、字幕テキストから言語モデルを推定しておき、式（５）示すように、より大きな学習テキストから学習した言語モデルとの線形補間により言語モデルを統合して音声認識を行う。

【0037】

【数5】

【0038】

式（５）において、Ｐ_０（ｗ）は、大規模なテキストデータ（学習テキスト）から学習した言語モデルを用いたときの単語列ｗの生成確率であり、Ｐ_１（ｗ）は、字幕テキストから学習した言語モデルを用いたときの単語列ｗの生成確率である。また、θ（０≦θ≦１）は、言語モデルに対する混合重みと呼ばれる係数である。
上記の線形補間による言語モデルは、発話内容に近いテキストでバイアスをかけた適応言語モデルとみなせる。従って、式（５）の言語モデルを用いて字幕が付随する放送音声を音声認識した結果は、発話内容を誤りなく認識するものではないものの、その認識率は高いと考えられる。

【0039】

音声認識性能は、雑音や話し方、あるいは発話の速さなどの音響的な条件に依存する。そこで、本実施形態の音声認識装置は、式（５）により適応化した言語モデルを用いて音声認識した結果得られた単語列を正解とみなして音響モデルの適応化を行い、音響的条件に適応したモデルによる音声認識結果を得る。

【0040】

本実施形態の音声認識装置は、言語モデルの適応化、及び、音響モデルの適応化の双方により得られた音声認識結果に対して、その信頼度に応じて正解・誤りを判別する。信頼度とは、認識結果の正しさを定量的な値で表した指標であり、音声認識を行う際に得られるさまざまな情報に基づいて算出される。最も単純な信頼度は、認識単語列に対する事後確率であり、ゼロから１までの値をとる。本実施形態では、信頼度として、この認識単語列に対する事後確率を用いる場合について説明する。

【0041】

図２は、部分正解単語列の例を示す図である。
同図では、適応化言語モデル及び適応化音響モデルを用いた音声認識結果として単語列「ＡＢＣＤＥＦ」が得られている。各単語Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆにはそれぞれ、事後確率に基づく信頼度が付与されており、「ＡＢＣ」及び「Ｆ」は、信頼度が予め定められた閾値以上であるためこれらの単語の信頼度は高く、「ＤＥ」は、信頼度が閾値未満であるためこれらの単語の信頼度は低い。そのため、本実施形態の音声認識装置は、「ＡＢＣ」と「Ｆ」を正解とみなし、「ＤＥ」を誤り（不正解）とみなす。本実施形態の音声認識装置は、信頼度による判別により、音声認識結果の各単語に正誤のラベルを付与して部分正解単語列を生成する。なお、各単語には、発話の開始、終了時刻も付与されている。
このように、本実施形態の音声認識装置は、大規模なテキストデータから学習した言語モデルを字幕テキストから生成された言語モデルにより線形補間した統合モデルである適応化言語モデルと、適応化言語モデルを用いて音声認識を行った結果に基づいて適応化した音響モデルである適応化音響モデルとを用いて、放送音声を音声認識した結果から部分正解単語列を生成する。

【0042】

本実施形態では、学習後に実際に音声認識で適用する音響モデルと言語モデルを用いて誤り修正モデルを学習する必要がある。そこで、本実施形態の音声認識装置は、部分正解列を推定した放送音声に対して、あらためて音響モデルと言語モデルにより音声認識を行う。この際に得られる音声認識結果は、複数個あってもよい。音声認識結果には、各単語に発話の開始時刻と終了時刻が重畳される。

【0043】

図３は、発話時刻に合わせて整列させた部分正解単語列（図２）と、実際に音声認識で適用する音響モデルと言語モデルを用いた音声認識結果の対応を示す。同図に示すように、部分正解単語列に付与された正誤のラベルと発話の開始及び終了時刻を利用すると、音声認識結果に含まれる各単語が、正解と信頼できる区間にあるか、信頼できない（誤り）区間にあるかが分かる。
従来法の誤り修正モデルの学習では、正解が与えられた場合、あるいは正解が与えられていない場合のみに限って誤り傾向を学習する。一方、本実施形態の音声認識装置による誤り修正モデルの学習では、放送音声に付随する字幕を用いて、正解が与えられていないデータに対し、信頼できる区間については正解が付与されたとみなして誤り傾向を学習し、信頼できない区間、すなわち正解の付与されていない区間についても誤り傾向を学習する。

【0044】

図４は、図３を詳細化した図であり、部分正解単語列の単語と音声認識結果の単語の対応を示す図である。ここでは、音声認識結果（文仮説）として得られた複数の単語列のうちの１つの単語列ｗ内の単語仮説ｗ_ｂに着目した場合について説明する。同図に示すように、ｎフレームの単語仮説ｗ_ｂに対して、部分正解単語列の中の正解単語ｗ_ａがｍフレーム分だけオーバーラップしている。さらに、この単語仮説ｗ_ｂに対して、他の音声認識結果（文仮説）の単語列ｗ’内の単語仮説ｗ_ｃが正解単語ｗ_ａとのオーバーラップ部分を除いたｋフレーム分だけオーバーラップしている。なお、フレームとは、音声認識における入力音声の時間方向の処理単位である。

【0045】

本実施形態における音声認識の誤り傾向は、音声認識結果から期待される単語誤りの数の近似として定義される。本実施形態では、部分正解単語列に対する音声認識結果の期待される誤り数を「誤りコスト」と呼ぶ。誤りコストは、単語仮説レベルの計算から文仮説全体の計算へとボトムアップ的に計算される。

【0046】

単語仮説レベルでの誤りコスト計算は、着目している単語仮説が正解単語とオーバーラップしているか否かにより処理が分割される。図４を例にして、これらの誤りコスト計算について説明する。

【0047】

（ａ）正解単語とオーバーラップしている区間の部分誤りコストｃ
着目している音声認識結果である単語列ｗの単語仮説ｗ_ｂが、部分正解単語列内の正解単語ｗ_ａとオーバーラップする区間（ｗ_ａ，ｗ_ｂ間）の部分誤りコストｃは、以下の式（６）により算出される。

【0048】

【数6】

【0049】

（ｂ）（ａ）以外の区間の部分誤りコストｃ’
着目している音声認識結果である単語列ｗ内の単語仮説ｗ_ｂが、部分正解単語列内の正解単語ｗ_ａとオーバーラップする区間（ｍフレーム）を除いた区間（ｗ_ｂ，ｗ_ｃ間）の部分誤りコストｃ’は、以下の式（７）により算出される。

【0050】

【数7】

【0051】

式（６）及び式（７）におけるｌａｂｅｌ（・，・）関数は、比較する２つの単語表記が一致する場合にゼロ、それ以外は１を返す関数である。また、式（７）におけるｐ（ｗ’｜ｘ）は、音声入力ｘが与えられたときの他の音声認識結果の単語仮説ｗ’（単語仮説ｗ_ｃ）に対する事後確率である。なお、正確には式（６）の右辺にも正解単語ｗ_ａの事後確率が乗算されるが、正解単語の事後確率は１としているため、省略されている。

【0052】

音声認識結果の単語列内において着目している単語仮説ｗに対する部分誤りコストｃ（ｗ）は、以下の式（８）により算出される。

【0053】

【数8】

【0054】

ここで、ｏｖｅｒｌａｐ_１（・，・）関数は、着目している単語仮説ｗのフレーム数に対して、単語仮説ｗと正解単語ｗ^ｒｅｆとの間でオーバーラップするフレーム数の比を求める関数である（式（６）のｍ／ｎに相当）。単語仮説ｗには、複数の正解単語ｗ^ｒｅｆがオーバーラップしうるため、オーバーラップする各正解単語ｗ^ｒｅｆについてそれぞれ、ｏｖｅｒｌａｐ_１（ｗ，ｗ^ｒｅｆ）×ｌａｂｅｌ（ｗ，ｗ^ｒｅｆ）を算出し、それらを加算している。
また、ｏｖｅｒｌａｐ_２（・，・）関数は、着目している単語仮説ｗと他の単語仮説ｗ’との間でオーバーラップするフレーム数から、正解単語ｗ^ｒｅｆとオーバーラップするフレーム数を減算した上で、着目している単語仮説ｗのフレーム数に対する比を求める関数である（式（７）の（ｍ＋ｋ−ｍ）／ｎに相当）。このとき、単語仮説ｗが複数の正解単語ｗ^ｒｅｆとオーバーラップする場合は、いずれかの正解単語ｗ^ｒｅｆとオーバーラップするフレーム数全てを減算する。式（８）では、正解単語ｗ^ｒｅｆとオーバーラップする区間以外では、着目している単語仮説ｗ以外の単語仮説ｗ’が確率ｐ（ｗ’｜ｘ）で正解に該当するとみなして誤りコストを計算している。

【0055】

上述の部分誤りコストは、着目している単語仮説が正解と一致しない場合に大きな値を取るため、認識の誤り数を近似的に表現したものとなることに注意する。また、正解単語とオーバーラップする区間については、正解単語のみとの部分誤りコストを計算し、誤り単語とオーバーラップする区間については、その区間においてオーバーラップするすべての他の音声認識結果との部分誤りコストを計算する。ただし、正解単語とオーバーラップ部分があれば、それを除外して計算する。

【0056】

着目している文仮説（音声認識結果）ｗにおける部分誤りコストの総和Χ（ｗ）は、以下の式（９）により算出される。

【0057】

【数9】

【0058】

式（９）におけるｗ_ｌは、文仮説（音声認識結果）ｗに含まれる単語仮説であり（ｌ＝１，…）、単語仮説ｗ_ｌの部分誤りコストｃ（ｗ_ｌ）は、式（８）の単語仮説ｗを単語仮説ｗ_ｌとすることにより得られる。

【0059】

ｍ番目（ｍ＝１，…）の番組音声ｘ_ｍから音声認識結果としてＮ個の文仮説ｗ_ｎが得られたとき（ｎ＝１，…，Ｎ）、番組音声ｘ_ｍの全ての文仮説に対する誤りコストは以下の式（１０）により算出される。

【0060】

【数10】

【0061】

式（１０）は、番組音声ｘ_ｍから得られた全文仮説の誤りコストが、各文仮説ｗ_ｎの誤りコストをその文仮説ｗ_ｎの事後確率Ｐ（ｗ_ｎ｜ｘ_ｍ）で重み付けした加重和として算出されることを示している。

【0062】

学習データ全体に対する誤りコストを最小化することで、近似的に認識誤りを最小化するとみなせる。つまり、本実施形態の音声認識装置は、学習データに対する誤りコストを最小化するΛ＝（λ_１，λ_２，…）を求めることにより、誤り修正モデルを学習する。

【0063】

［３．音声認識装置の構成］
図５は、本発明の一実施形態による音声認識装置１の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置１は、コンピュータ装置により実現され、同図に示すように、言語モデル格納部１１、音響モデル格納部１２、音声言語資源管理部１３、音声言語資源格納部１４、正解単語列生成部１５、信頼度計算部２２、部分正解単語列抽出部２３、放送音声認識部２４、特徴量抽出部２５、誤り傾向学習部２６、誤り修正モデル格納部２７、及び入力音声認識部２８を備えて構成される。

【0064】

言語モデル格納部１１は、大量の学習テキストから学習された言語モデルを格納する。音響モデル格納部１２は、音響モデルを格納する。

【0065】

音声言語資源管理部１３は、放送信号Ｄ１から放送音声データと字幕データを取得し、音声言語資源格納部１４に格納する。このとき、音声言語資源管理部１３は、放送信号Ｄ１に重畳されているＥＰＧ（電子番組ガイド：ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）から番組名や出演者等の情報を取得してラベルデータとし、放送音声データ及び字幕データに対応付けて音声言語資源格納部１４に格納する。このラベルデータは、放送番組に適した誤り修正モデルを学習する際に、その対象となる放送番組に合致、または類似した放送番組の放送音声データ及び字幕データのみを選択して誤り修正モデルの学習に使用するために用いられる。音声言語資源管理部１３は、音声言語資源格納部１４に記憶されている放送音声データ及び字幕データ中から、ラベルデータに基づいて誤り修正モデルの学習に使用する放送音声データＤ３と対応する字幕データＤ２を選択する。

【0066】

正解単語列生成部１５は、放送音声データＤ３と、対応する字幕データＤ２とから、正解と見込まれる単語列を生成する。正解単語列生成部１５は、言語モデル適応化部１６、適応化言語モデル格納部１７、適応化言語モデル使用音声認識部１８、音響モデル適応化部１９、適応化音響モデル格納部２０、及び適応化音響モデル使用音声認識部２１を備えて構成される。

【0067】

言語モデル適応化部１６は、言語モデル格納部１１に記憶されている言語モデルと、字幕データＤ２から生成した言語モデルとの線形補間により適応化言語モデルを生成し、適応化言語モデル格納部１７に書き込む。
適応化言語モデル使用音声認識部１８は、音響モデル格納部１２に格納されている音響モデルと、適応化言語モデル格納部１７に記憶されている適応化言語モデルとを用いて放送音声データＤ３を音声認識し、得られた音声認識結果を示す音声認識結果データＤ４を出力する。
音響モデル適応化部１９は、音声認識結果データＤ４が示す音声認識結果を用いて、音響モデル格納部１２に記憶されている音響モデルの適応化を行い、適応化音響モデルを生成する。音響モデル適応化部１９は、生成した適応化音響モデルを適応化音響モデル格納部２０に格納する。
適応化音響モデル使用音声認識部２１は、適応化言語モデル格納部１７に記憶されている適応化言語モデルと、適応化音響モデル格納部２０に記憶されている適応化音響モデルとを用いて放送音声データＤ３を音声認識し、得られた音声認識結果を示す音声認識結果データＤ５を出力する。

【0068】

信頼度計算部２２は、音声認識結果データＤ５が示す音声認識結果に含まれる各単語について、認識結果の正誤の指標となる信頼度を計算する。
部分正解単語列抽出部２３は、予め定められた信頼度の閾値との比較により、信頼度計算部２２により信頼度が付与された音声認識結果の各単語に対して、正解、もしくは誤りのラベルを付与し、部分正解単語列を生成する。部分正解単語列抽出部２３は、生成した部分正解単語列を示す部分正解単語列データＤ６を出力する。

【0069】

放送音声認識部２４は、言語モデル格納部１１に記憶されている言語モデルと、音響モデル格納部１２に記憶されている音響モデルとを用いて、放送音声データＤ３を音声認識し、得られた音声認識結果を示す音声認識結果データＤ７を出力する。放送音声認識部２４が音声認識に用いる言語モデル、音響モデルはそれぞれ、字幕によるバイアスのない言語モデル、適応化を行っていない音響モデルである。通常、音声認識装置が音声認識対象の放送音声を認識する際に、その放送音声に関する事前知識は用いない。従って、誤り修正モデルの学習に必要な音声認識結果は、データ自身によるバイアスのかかっていない音響モデルと言語モデルを用いて作成される。

【0070】

特徴量抽出部２５は、部分正解単語列データＤ６が示す部分正解単語列と、音声認識結果データＤ７が示す音声認識結果に含まれる単語列や音素列等から言語的な特徴を抽出する。特徴量抽出部２５は、抽出された言語的な特徴をルールとする素性関数を示す素性関数データＤ８を出力する。

【0071】

誤り傾向学習部２６は、部分正解単語列データＤ６が示す部分正解単語列と、音声認識結果データＤ７が示す音声認識結果と、素性関数データＤ８が示す素性関数とを用いて音声認識結果の誤り傾向を学習し、誤り修正モデルのモデルパラメータΛ＝（λ_１，λ_２，…）を統計的手段により決定する。誤り傾向学習部２６は、決定したモデルパラメータΛを用いた誤り修正モデルを誤り修正モデル格納部２７に書き込む。

【0072】

入力音声認識部２８は、言語モデル格納部１１に記憶されている言語モデル、及び音響モデル格納部１２に記憶されている音響モデルを参照し、誤り修正モデル格納部２７に記憶されている誤り修正モデルを用いて、入力音声データＤ９の音声認識を行い、音声認識結果データを出力する。

【0073】

なお、放送音声データＤ３、及び入力音声データＤ９は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す。

【0074】

［４．音声認識装置の処理手順］
図６は、本実施形態による音声認識装置１の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。

【0075】

［４．１ステップＳ１］
音声言語資源管理部１３は、放送信号Ｄ１から放送番組の放送音声データと、対応する字幕データを取得する。さらに音声言語資源管理部１３は、放送信号Ｄ１に重畳されているＥＰＧから、放送番組の番組名、出演者、ジャンル、放送時刻等の情報を取得し、この取得した情報を示すラベルデータを生成する。音声言語資源管理部１３は、同じ放送番組の放送音声データ及び字幕データに、ラベルデータを対応付けて音声言語資源格納部１４に格納する。このように、放送音声データ及び字幕データには、ラベルデータが機械的に付与される。

【0076】

［４．２ステップＳ２］
利用者は、誤り修正モデルの学習に用いるデータを選択するための条件を図示しない入力手段により入力する。例えば、料理番組に適した誤り修正モデルを学習する際には、番組名、もしくは番組のジャンルを条件として入力する。音声言語資源管理部１３は、音声言語資源格納部１４に記憶されているラベルデータの中から、入力された条件に合致、または類似した情報が設定されているラベルデータを特定する。音声言語資源管理部１３は、特定したラベルデータに対応付けて記憶されている放送音声データと字幕データを読み出し、それぞれ、放送音声データＤ３、字幕データＤ２として出力する。

【0077】

［４．３ステップＳ３］
正解単語列生成部１５は、ステップＳ３で出力された放送音声データＤ３と、対応する字幕データＤ２とから、正解と見込まれる単語列を生成する。

【0078】

［４．３．１適応化言語モデル作成］
ステップＳ３において、まず、言語モデル適応化部１６は、字幕データＤ２から既存技術により言語モデルＰ_１を生成する。次に、言語モデル適応化部１６は、式（５）に基づいて、言語モデル格納部１１に記憶されている言語モデルＰ_０と、字幕データＤ２から生成した言語モデルＰ_１との線形補間を行い、適応化言語モデルを生成する。この適応化言語モデルは、ある単語列が与えられたとき、その単語列を構成する単語が生成される確率を示すものであり、予め用意したテキストに対して、式（５）のθが最大になる確率を実験的に決める既存手法により生成することができる。例えば、適応化言語モデルとしてｎ−ｇｒａｍを用いる場合、単語列を構成する各部分単語列について、線形補間により算出された確率が得られる。このようにして生成された適応化言語モデルは、放送音声データＤ３が示す発話内容の予測に適応した言語モデルである。よって、この適応化言語モデルを用いることにより、放送音声データＤ３の認識率が改善する。言語モデル適応化部１６は、生成した適応化言語モデルを適応化言語モデル格納部１７に書き込む。

【0079】

［４．３．２適応化言語モデルを用いた音声認識］
適応化言語モデル使用音声認識部１８は、音響モデル格納部１２に格納されている音響モデルと、適応化言語モデル格納部１７に記憶されている適応化言語モデルとを用いて、放送音声データＤ３を音声認識する。適応化言語モデル使用音声認識部１８は、音声認識の結果得られた正解文候補のうち、最も尤もらしい正解文候補を音声認識結果データＤ４に設定して出力する。

【0080】

［４．３．３適応化音響モデルの生成］
音響モデル適応化部１９は、音声認識結果データＤ４に設定されている音声認識結果を用いて、音響モデル格納部１２に記憶されている音響モデルの適応化を行う。本実施形態では、適応化手法として、既存手法である最尤線形回帰（Maximum Likelihood Linear Regression）法を適用する。具体的には、音声認識結果データＤ４が示す音声認識結果を正解とみなして、放送音声データが与えられたときの音響尤度を最大化するように、音響モデルのパラメータを決定する。音響モデル適応化部１９は、適応化により生成した適応化音響モデルを適応化音響モデル格納部２０に格納する。

【0081】

［４．３．４適応化言語モデル及び適応化音響モデルを用いた音声認識］
適応化音響モデル使用音声認識部２１は、適応化言語モデル格納部１７に記憶されている適応化言語モデルと、適応化音響モデル格納部２０に記憶されている適応化音響モデルとを用いて、放送音声データＤ３を音声認識する。これにより得られた音声認識結果は、字幕データＤ２、放送音声データＤ３により適応化された言語モデル及び音響モデルを用いているため、適応化言語モデル使用音声認識部１８において得られた音声認識結果よりも認識率が改善すると見込まれる。適応化音響モデル使用音声認識部２１は、正解候補単語列をグラフによりコンパクトに表現した単語ラティスを示す音声認識結果データＤ５を出力する。

【0082】

［４．４ステップＳ４］
信頼度計算部２２は、音声認識結果データＤ５が示す音声認識結果に含まれる各単語の信頼度を計算する。本実施形態では、単語事後確率を信頼度と定める。音声認識結果データＤ５が示す音声認識結果に用いられている単語ラティスは、音声認識結果を効率的に表現するためのグラフ構造であり、そのグラフ構造の頂点を結ぶ辺に単語仮説、音響モデルのスコア（ｆ_ａｍ（ｘ｜ｗ））及び言語モデルのスコア（ｆ_ｌｍ（ｗ））が付与され、頂点には各単語仮説の発話終了（あるいは開始）時刻が付与される。単語事後確率は、ある辺を通る確率として定義されるが、これは既存の手法である前向き・後ろ向きアルゴリズムにより求めることができる。信頼度計算部２２は、前向き・後ろ向きアルゴリズムにより、ラティス上の各辺に対応した単語事後確率を算出し、算出した単語事後確率を音声認識結果データＤ５が示す単語ラティス上の辺に重畳する。

【0083】

部分正解単語列抽出部２３は、音声認識結果データＤ５から信頼度計算部２２により信頼度が付与された単語ラティスを読み出し、既存手法であるビタビアルゴリズムを用いて、最も尤もらしい文仮説である最尤系列を求める。この際、部分正解単語列抽出部２３は、単語事後確率が信頼度に対して予め定めた閾値以上であるか否かに基づいて、最尤系列の各単語に正解または誤りのラベルを付与する。部分正解単語列抽出部２３は、正解または誤りのラベルが付与された最尤系列である部分正解単語列を設定した部分正解単語列データＤ６を出力する。

【0084】

［４．５ステップＳ５］
ステップＳ３、ステップＳ４が実行されている一方で、放送音声認識部２４は、言語モデル格納部１１及び音響モデル格納部１２のそれぞれに記憶されているバイアスのかかっていない言語モデル及び音響モデルを用いて、放送音声データＤ３を音声認識する。放送音声認識部２４は、複数の文仮説から構成されるｎ−ｂｅｓｔリストの音声認識結果を得ると、得られた音声認識結果を示す音声認識結果データＤ７を出力する。なお、音声認識結果データＤ７には、各音声認識結果の音響スコア、及び言語スコアも設定される。

【0085】

［４．６ステップＳ６］
特徴量抽出部２５は、ステップＳ４で出力された部分正解単語列データＤ６が示す部分正解単語列と、ステップＳ５で出力された音声認識結果データＤ７が示す音声認識結果のそれぞれから、言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、連続する単語、連続しない２単語以上の単語、単語の構文的な情報または意味的な情報、などの言語的特徴である。

【0086】

部分正解単語列、及び音声認識結果の単語列をｗとすると、本実施形態では、特徴量抽出部２５は、単語の共起関係に基づく素性関数として、例えば以下の（ａ）、（ｂ）を単語列ｗから抽出する。

【0087】

（ａ）単語列ｗに連続する単語２項組（ｕ，ｖ）が含まれる場合，その数を返す関数
（ｂ）単語列ｗに連続しない単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数

【0088】

また、特徴量抽出部２５は、単語列ｗを構成する各単語を名詞や動詞といった品詞カテゴリ（構文情報）に置き換えた上で、構文情報に基づく素性関数として、例えば以下の（ｃ）、（ｄ）を抽出する。なお、ｃ（・）は単語を品詞にマッピングする関数である。

【0089】

（ｃ）単語列ｗに連続する品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数
（ｄ）単語列ｗに連続しない品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数

【0090】

あるいは特徴量抽出部２５は、単語列ｗを構成する各単語を、意味情報を表すカテゴリ（意味カテゴリ）に置き換えた上で、意味的な情報に基づく素性関数として、例えば以下の（ｅ）、（ｆ）を抽出する。意味カテゴリは、音声認識装置１の外部のデータベースまたは内部に備える図示しない記憶手段に記憶されるシソーラスなどを用いて得ることができる。なお、ｓ（・）は単語を意味カテゴリにマッピングする関数である。

【0091】

（ｅ）単語列ｗに連続する意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数
（ｆ）単語列ｗに連続しない意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数

【0092】

特徴量抽出部２５は、部分正解単語列データＤ６が示す部分正解単語列と、音声認識結果データＤ７が示す音声認識結果のそれぞれから、上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。特徴量抽出部２５は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り修正モデルのモデルパラメータ学習で用いる素性関数ｆ_ｉとして決定し、決定した素性関数ｆ_ｉを示す素性関数データＤ８を出力する。

【0093】

［４．７ステップＳ７］
誤り傾向学習部２６は、誤り傾向を反映した誤り修正モデルを得るために、以下で説明するリスク最小化法を用いる。
リスク最小化手法に基づく、統計的な誤り修正モデルでは、発話ｘ_ｍ（ｍは１以上Ｍ以下の整数、ＭはステップＳ２において選択された放送音声データＤ３に基づく発話数）と、この発話ｘ_ｍに対応した正解単語列ｗ_ｍ，０が与えられたとき、目的関数Ｌ（Λ）を以下の式（１１）のように定める。

【0094】

【数11】

【0095】

Ｌ_ｍは、発話ｘ_ｍから音声認識により生成された文仮説ｗ_ｍ，１、ｗ_ｍ，２、…の集合であり、文仮説ｗ_ｍ，ｋ（ｋ＝１，．．．）は、発話ｘ_ｍの第ｋ番目の正解文候補の単語列である。また、ｗ_ｍ，０は発話ｘ_ｍの正解文である。また、Χ（ｗ_ｍ，ｋ）は、正解文に対する文仮説の誤りコストであり、式（９）により計算される。Λは、素性関数に対する素性重みλ_１、λ_２、…の集合であり、誤り傾向学習部２６は、式（１１）の目的関数を最小化するΛを誤り修正モデルのモデルパラメータとして推定する。これは、式（１１）の目的関数を最小化するようにΛを推定すれば、正解文候補に期待される認識誤りが最小となり、未知の入力音声に対する音声認識においても、Λによって認識誤りの最小化が同様に行われ、音声認識の性能の向上が期待できるからである。つまり、式（１１）の目的関数は、正解文候補に期待される認識誤りが最小となり、素性重みが適切であるかの評価値を算出する評価関数として用いられる。

【0096】

誤り修正モデルによるスコアを考慮した音声認識のスコアｇ＾（ｗ｜ｘ）は、以下の式（１２）により算出される。つまり、入力音声認識部２８では、音声認識結果の文仮説の中で、式（１２）により算出されたスコアを最大とする文仮説を音声認識結果として出力する。

【0097】

【数12】

【0098】

なお、式（１１）の事後確率Ｐ（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）は、以下の式（１３）のように算出される。

【0099】

【数13】

【0100】

式（１３）におけるｇ＾（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）は、現在のΛの値を用いた式（１２）により算出される。

【0101】

図７は、誤り傾向学習部２６による誤り修正モデル学習処理の処理フローを示す図である。

【0102】

（ステップＳ７１：モデルパラメータ初期化処理）
誤り傾向学習部２６は、素性関数データＤ８により示される素性関数ｆ_ｉの素性重みλ_ｉを全てゼロに初期化する。

【0103】

（ステップＳ７２：誤りコスト計算処理）
誤り傾向学習部２６は、部分正解単語列データＤ６から部分正解単語列を読み込み、音声認識結果データＤ７が示す音声認識結果からこの部分正解単語列に対応した文仮説を読み込む。誤り傾向学習部２６は、式（１０）に従って、各文仮説と対応する部分正解単語列から、各文仮説の誤りコストを計算する。

【0104】

つまり、式（１０）における文仮説ｗ_ｎは、発話ｘ_ｍの放送音声データから得られた音声認識結果に含まれる文仮説ｗ_ｍ，ｋ（ｋ＝１，．．．）とし、式（９）により文仮説ｗ_ｍ，ｋの部分誤りコストの総和を算出する場合、ｗ_ｌは文仮説ｗ_ｍ，ｋに含まれる各単語とする。
また、式（９）の算出の際に用いる式（８）の事後確率ｐ（ｗ’｜ｘ）は、式（１３）により算出する。これは、同じ文仮説に含まれる各単語仮説ｗ’の事後確率ｐ（ｗ’｜ｘ）は、その文仮説全体の事後確率と同一となるからである。なお、このとき単語仮説ｗ’は、同じ発話ｘ_ｍから音声認識結果として得られた文仮説の集合Ｌ_ｍの中で着目している文仮説ｗ_ｍ，ｋ以外の他の文仮説に含まれる単語である。誤り傾向学習部２６は、式（１３）を算出する際に用いる式（１２）では、現在のΛの値を用いるとともに、各文仮説ｗ_ｍ，１、ｗ_ｍ，２、…のｆ_ａｍ（ｘ｜ｗ）、ｆ_ｌｍ（ｗ）はそれぞれ、音響モデル格納部１２に記憶されている音響モデル、言語モデル格納部１１に記憶されている言語モデルを利用して得る。

【0105】

（ステップＳ７３：目的関数計算処理）
誤り傾向学習部２６は、ステップＳ７２において現在のΛの値を用いて算出した各文仮説ｗ_ｍ，ｋの誤りコストΧ（ｗ_ｍ，ｋ）を固定値とみなして、式（１１）により目的関数Ｌ（Λ）の値を算出する。

【0106】

（ステップＳ７４：モデルパラメータ更新処理）
誤り傾向学習部２６は、準ニュートン法に基づいて、モデルパラメータΛを更新する。準ニュートン法は、適当な初期値を与えて解に近い次の値を生成し、その値からまた次の解に近い値を生成することを繰り返し、最終的に局所最適解に収束させるものである。準ニュートン法の詳細については、非特許文献１を参照のこと。

【0107】

（ステップＳ７５：終了判定処理）
誤り傾向学習部２６は、モデルパラメータの更新により変更された目的関数Ｌ（Λ）の値と、変更前の目的関数Ｌ（Λ）の値を比較する。誤り傾向学習部２６は、値の変化が所定以上であればステップＳ７２からの処理を繰り返し、更新されたΛを用いて算出した各文仮説の誤りコストを固定値とみなして目的関数Ｌ（Λ）の値を算出して勾配ΔΛを求め、Λを更新する。そして、誤り傾向学習部２６は、目的関数Ｌ（Λ）の値の変化が所定よりも小さくなった場合は、更新が収束したとみなしてステップＳ７６の処理を実行する。

【0108】

（ステップＳ７６：誤り修正モデル出力処理）
誤り傾向学習部２６は、更新が収束したときの誤り修正モデルのモデルパラメータΛ＝（λ_０，λ_１，…）を用いた誤り修正モデルを誤り修正モデル格納部２７に書き込む。

【0109】

［４．８ステップＳ８］
入力音声認識部２８は、音声認識対象の音声データとして入力音声データＤ９が入力されると、言語モデル格納部１１に記憶されている言語モデル、及び音響モデル格納部１２に記憶されている音響モデルとを用いて、入力音声データＤ９の正解候補の単語列を得る。入力音声認識部２８は、得られた正解候補の単語列のスコアを誤り修正モデル格納部２７に記憶されている誤り修正モデルにより算出し、スコアが最もよい正解候補の単語列を正解単語列としてリアルタイムで出力する。誤り修正モデルを用いることにより、入力音声認識部２８は、入力音声データＤ９から得られた音声認識結果の選択における誤りを修正する。

【0110】

［５．効果］
本実施形態によれば、音声認識装置１は、入力音声に対する音声認識誤りを削減するために、字幕が付随した放送番組を利用して、正解単語列の作成コストをかけることなく誤り修正モデルを学習することができる。
また、音声認識装置１は、部分的に精度の高い正解単語列を用いて誤り傾向を学習し、音声認識における誤り傾向を修正する誤り修正モデルを作成することができるため、従来よりも認識誤りを削減することが可能となる。

【0111】

［６．その他］
なお、信頼度計算部２２は、適応化音響モデル使用音声認識部２１が出力した音声認識結果データＤ５に代えて、適応化言語モデル使用音声認識部１８が出力した音声認識結果データＤ４が示す音声認識結果に含まれる各単語の信頼度を計算するようにしてもよい。

【0112】

なお、上述の音声認識装置１は、内部にコンピュータシステムを有している。そして、音声認識装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

【0113】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【符号の説明】

【0114】

１音声認識装置
１１言語モデル格納部
１２音響モデル格納部
１３音声言語資源管理部
１４音声言語資源格納部
１５正解単語列生成部
１６言語モデル適応化部
１７適応化言語モデル格納部
１８適応化言語モデル使用音声認識部
１９音響モデル適応化部
２０適応化音響モデル格納部
２１適応化音響モデル使用音声認識部
２２信頼度計算部
２３部分正解単語列抽出部
２４放送音声認識部
２５特徴量抽出部
２６誤り傾向学習部
２７誤り修正モデル格納部
２８入力音声認識部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6183988号(P6183988)IP Force 特許公報掲載プロジェクト 2022.1.31 β版