特許6376486 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧 ▶ 日本電気株式会社の特許一覧

特許6376486音響モデル生成装置、音響モデル生成方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6376486

(24)【登録日】2018年8月3日

(45)【発行日】2018年8月22日

(54)【発明の名称】音響モデル生成装置、音響モデル生成方法、およびプログラム

(51)【国際特許分類】

G10L 15/065 20130101AFI20180813BHJP

G10L 15/07 20130101ALI20180813BHJP

【ＦＩ】

G10L15/065 A

G10L15/07

【請求項の数】6

【全頁数】28

(21)【出願番号】特願2013-171321(P2013-171321)

(22)【出願日】2013年8月21日

(65)【公開番号】特開2015-40946(P2015-40946A)

(43)【公開日】2015年3月2日

【審査請求日】2016年8月3日

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100115749

【弁理士】

【氏名又は名称】谷川英和

(72)【発明者】

【氏名】西光雅弘

(72)【発明者】

【氏名】松田繁樹

(72)【発明者】

【氏名】堀智織

(72)【発明者】

【氏名】磯谷亮輔

(72)【発明者】

【氏名】花沢健

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０１２−１７７８１５（ＪＰ，Ａ）

【文献】特開２００７−１５５８３３（ＪＰ，Ａ）

【文献】伊藤彰則他，"日本語音声による話者適応を用いた英語韻律学習システム"，電子情報通信学会技術研究報告，２００２年６月２０日，Vol.102，No.159，pp.19-24

【文献】小笠原洋一他，"バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討"，情報処理学会研究報告，２００３年１２月１９日，Vol.2003，No.124，pp.85-90

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

音声認識の対象言語の音響モデルを生成する音響モデル生成装置であって、
前記対象言語の第二の音響モデルである対象言語新音響モデルを格納し得る対象言語新音響モデル格納部と、
対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、
前記音響モデル生成部が生成した対象言語新音響モデルを前記対象言語新音響モデル格納部に蓄積する音響モデル蓄積部とを具備し、
前記音響モデル生成部は、
対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、
１以上の他言語新音響モデルを格納し得る他言語新音響モデル格納部と、
１以上の第一相関情報を格納し得る第一相関情報格納部と、
１以上の第二相関情報を格納し得る第二相関情報格納部と、
対象言語新音響モデルを生成する２以上のアルゴリズムのうち、前記対象言語旧音響モデルまたは前記１以上の他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択手段と、
前記１以上の第一相関情報と前記１以上の第二相関情報とを用いて、前記対象言語旧音響モデル、または前記１以上の他言語新音響モデル、または前記対象言語旧音響モデルと前記１以上の他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成手段とを具備し、
前記音響モデル生成手段は、
前記選択手段が選択した前記一のアルゴリズムに従って、前記１以上の第一相関情報と前記１以上の第二相関情報のうちの１以上の相関情報を用いて、前記対象言語新音響モデルを生成する音響モデル生成装置。

【請求項2】

前記他言語旧音響モデルは、他言語の適応処理前の音響モデルまたは他言語新音響モデルとは異なるデータで生成した音響モデルであり、
前記他言語新音響モデルは、他言語の適応処理後の音響モデルまたは他言語旧音響モデルとは異なるデータで生成した音響モデルであり、
前記対象言語旧音響モデルは、対象言語の適応処理前の音響モデルまたは他言語旧音響モデルと類似するデータで生成した音響モデルであり、
前記対象言語新音響モデルは、対象言語の適応処理後の音響モデルである請求項１記載の音響モデル生成装置。

【請求項3】

前記第一相関情報は、
前記１以上の各他言語旧音響モデルに対応する１以上の各ベクトルと前記１以上の各他言語新音響モデルに対応する１以上の各ベクトルとの差である１以上の変換関数から取得される情報であり、
前記第二相関情報は、
前記１以上の各他言語旧音響モデルに対応するベクトルと前記対象言語旧音響モデルに対応するベクトルとの差の１以上の変換関数から取得される情報である請求項２記載の音響モデル生成装置。

【請求項4】

前記音響モデル生成部は、
前記対象言語旧音響モデルに対応するベクトルを前記第一相関情報の変換関数を用いて写像することにより対象言語新音響モデルを生成する、請求項３記載の音響モデル生成装置。

【請求項5】

対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、１以上の他言語新音響モデルを格納し得る他言語新音響モデル格納部と、１以上の第一相関情報を格納し得る第一相関情報格納部と、１以上の第二相関情報を格納し得る第二相関情報格納部とを具備する音響モデル生成部、および音響モデル蓄積部により実現され得る音響モデル生成方法であって、
前記音響モデル生成部が、対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である１以上の第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である１以上の第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成ステップと、
前記音響モデル蓄積部が、前記音響モデル生成ステップで生成された対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積ステップとを具備し、
前記音響モデル生成ステップにおいて、
対象言語新音響モデルを生成する２以上のアルゴリズムのうち、前記対象言語旧音響モデルまたは前記１以上の他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択サブステップと、
前記１以上の第一相関情報と前記１以上の第二相関情報とを用いて、前記対象言語旧音響モデル、または前記１以上の他言語新音響モデル、または前記対象言語旧音響モデルと前記１以上の他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成サブステップとを具備し、
前記音響モデル生成サブステップにおいて、
前記選択サブステップにおいて選択された前記一のアルゴリズムに従って、前記１以上の第一相関情報と前記１以上の第二相関情報のうちの１以上の相関情報を用いて、前記対象言語新音響モデルを生成する音響モデル生成方法。

【請求項6】

対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、１以上の他言語新音響モデルを格納し得る他言語新音響モデル格納部と、１以上の第一相関情報を格納し得る第一相関情報格納部と、１以上の第二相関情報を格納し得る第二相関情報格納部とにアクセス可能なコンピュータを、
対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である１以上の第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である１以上の第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、
前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させ、
前記音響モデル生成部を、
対象言語新音響モデルを生成する２以上のアルゴリズムのうち、前記対象言語旧音響モデルまたは前記１以上の他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択手段と、
前記１以上の第一相関情報と前記１以上の第二相関情報とを用いて、前記対象言語旧音響モデル、または前記１以上の他言語新音響モデル、または前記対象言語旧音響モデルと前記１以上の他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成手段として機能させ、
前記音響モデル生成手段を、
前記選択手段が選択した前記一のアルゴリズムに従って、前記１以上の第一相関情報と前記１以上の第二相関情報のうちの１以上の相関情報を用いて、前記対象言語新音響モデルを生成するものとして、コンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、例えば、音声認識処理に使用する音響モデルを生成する音響モデル生成装置等に関するものである。

【背景技術】

【0002】

従来、識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる音響モデル生成装置があった（例えば、特許文献１参照）。

【0003】

また、従来の音声認識システムでは、音響モデル生成用音声と音声認識システムに発話される音声とのミスマッチにより、音声認識の精度が劣化していた。つまり、音響モデルの生成に用意できる音声は、録音室で収録した音声、原稿の読上げ音声など、限定的であった。この課題を解決するために、音響モデル適応技術などが存在していた。

【0004】

音響モデル適応技術は、音声認識システムに蓄積された音声（「発話環境で発話された音声」とも言う。）を用いて、録音室で収録した音声等から生成された音響モデルに対して適応処理を行い、多様な環境での音声認識処理に利用できる音響モデルを生成する技術である（例えば、非特許文献１参照）。なお、上記の音声認識システムに蓄積された音声は、多様な音声であり、例えば、背景雑音の混入音声や発話スタイルの異なる音声などを含む。なお、適応処理は、公知技術であるので、詳細な説明を省略する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１３−５７７８９号公報（第１頁、第１図等）

【非特許文献】

【0006】

【非特許文献1】磯谷他，「全国音声翻訳実証実験の実施と実利用データを用いた音声認識のモデル適応」、電子情報通信学会論文誌 D，Vol J96-D，No.1，pp.209-220

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、従来の音響モデル適応技術では、発話環境で発話された音声が必要であり、音声の蓄積のない言語においては、本アプローチを使用できず、音声認識精度を上げる音響モデルが生成できなかった。

【0008】

本発明は、このような課題を解決するために為されたものであって、発話環境等の適した環境における音声データが存在しない言語であって音声認識精度を高め得る音響モデルを生成することを目的としている。

【課題を解決するための手段】

【0009】

本第一の発明の音響モデル生成装置は、音声認識の対象言語の音響モデルを生成する音響モデル生成装置であって、対象言語の第二の音響モデルである対象言語新音響モデルを格納し得る対象言語新音響モデル格納部と、対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である１以上の第一相関情報、または１以上の各他言語旧音響モデルと対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である１以上の第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、音響モデル生成部が生成した対象言語新音響モデルを対象言語新音響モデル格納部に蓄積する音響モデル蓄積部とを具備する音響モデル生成装置である。

【0010】

かかる構成により、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0011】

また、本第二の発明の音響モデル生成装置は、第一の発明に対して、音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、１以上の第一相関情報を格納し得る第一相関情報格納部と、１以上の第一相関情報を用いて、対象言語旧音響モデル格納部に格納されている対象言語旧音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備する音響モデル生成装置である。

【0012】

かかる構成により、他言語旧音響モデルと他言語新音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0013】

また、本第三の発明の音響モデル生成装置は、第一の発明に対して、音響モデル生成部は、１以上の他言語新音響モデルを格納し得る他言語新音響モデル格納部と、１以上の第二相関情報を格納し得る第二相関情報格納部と、１以上の第二相関情報を用いて、他言語新音響モデル格納部に格納されている１以上の他言語新音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備する音響モデル生成装置である。

【0014】

かかる構成により、他言語旧音響モデルと対象言語新音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0015】

また、本第四の発明の音響モデル生成装置は、第一の発明に対して、音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、１以上の他言語新音響モデルを格納し得る他言語新音響モデル格納部と、１以上の第一相関情報を格納し得る第一相関情報格納部と、１以上の第二相関情報を格納し得る第二相関情報格納部と、１以上の第一相関情報と１以上の第二相関情報とを用いて、対象言語旧音響モデル、または１以上の他言語新音響モデル、または対象言語旧音響モデルと１以上の他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成手段とを具備する音響モデル生成装置である。

【0016】

かかる構成により、他言語旧音響モデルと他言語新音響モデルとの相関関係、および他言語旧音響モデルと対象言語旧音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0017】

また、本第五の発明の音響モデル生成装置は、第四の発明に対して、音響モデル生成部は、対象言語新音響モデルを生成する２以上のアルゴリズムのうち、対象言語旧音響モデルまたは１以上の他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択手段をさらに具備し、音響モデル生成手段は、選択手段が選択した一のアルゴリズムに従って、第一相関情報と第二相関情報のうちの１以上の相関情報を用いて、対象言語新音響モデルを生成する音響モデル生成装置である。

【0018】

かかる構成により、他言語旧音響モデルと他言語新音響モデルとの相関関係、および他言語旧音響モデルと対象言語旧音響モデルとの相関関係を、対象のデータに適したアルゴリズムで利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0019】

また、本第六の発明の音響モデル生成装置は、第一から第五いずれかの発明に対して、他言語旧音響モデルは、他言語の適応処理前の音響モデルまたは他言語新音響モデルとは異なるデータで生成した音響モデルであり、他言語新音響モデルは、他言語の適応処理後の音響モデルまたは他言語旧音響モデルとは異なるデータで生成した音響モデルであり、対象言語旧音響モデルは、対象言語の適応処理前の音響モデルまたは他言語旧音響モデルと類似するデータで生成した音響モデルであり、対象言語新音響モデルは、対象言語の適応処理後の音響モデルである音響モデル生成装置である。

【0020】

【0021】

また、本第七の発明の音響モデル生成装置は、第六の発明に対して、第一相関情報は、１以上の各他言語旧音響モデルに対応する１以上の各ベクトルと１以上の各他言語新音響モデルに対応する１以上の各ベクトルとの差である１以上の変換関数から取得される情報であり、第二相関情報は、１以上の各他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差の１以上の変換関数から取得される情報である音響モデル生成装置である。

【0022】

また、本第八の発明の音響モデル生成装置は、第七の発明に対して、音響モデル生成部は、対象言語旧音響モデルに対応するベクトルを第一相関情報の変換関数を用いて写像することにより対象言語新音響モデルを生成する、または他言語新音響モデル格納部に格納されている１以上の他言語新音響モデルから第二相関情報の変換関数を用いて写像することにより他言語新音響モデルを生成する音響モデル生成装置である。

【発明の効果】

【0023】

本発明による音響モデル生成装置によれば、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【図面の簡単な説明】

【0024】

【図1】本発明の実施の形態１における音響モデル生成装置１のブロック図

【図2】同音響モデル生成装置１の動作について説明するフローチャート

【図3】同音響モデル生成装置１の動作を説明する概念図

【図4】同音響モデル生成部１２の処理を簡潔に説明する図

【図5】同音響モデル生成部１２の処理の概念を示す図

【図6】同各言語の評価のためのテストデータの量について示す図

【図7】同各言語の学習、および適応処理に使用されたデータの総量を示す図

【図8】同実験結果を示す図

【図9】同適応処理等の実験結果を示す図

【図10】同実験結果を示す図

【図11】本発明の実施の形態２における音響モデル生成装置２のブロック図

【図12】同音響モデル生成装置２の動作について説明するフローチャート

【図13】同音響モデル生成装置２の動作を説明する概念図

【図14】同音響モデル生成装置２の具体的な動作について説明する図

【図15】本発明の実施の形態３における音響モデル生成装置３のブロック図

【図16】同音響モデル生成装置３の動作について説明するフローチャート

【図17】同選択情報管理表を示す図

【図18】本発明の音響モデル生成装置を実現するコンピュータシステムの概観図

【図19】同コンピュータシステムのブロック図

【発明を実施するための形態】

【0025】

以下、音響モデル生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

【0026】

（実施の形態１）
本実施の形態において、他言語の第一の音響モデルである他言語旧音響モデルと他言語の第二の音響モデルである他言語新音響モデルとを用いて、対象言語の第一の音響モデルである対象言語旧音響モデルから、対象言語の第二の音響モデルである対象言語新音響モデルを生成する音響モデル生成装置について説明する。なお、対象言語とは、音響モデル生成装置が生成する音響モデルの言語であり、当該音響モデルを用いて音声認識される音声の言語である。また、対象言語は後述する「ＴａｒｇｅｔＬａｎｇｕａｇｅ」と同意義であり、他言語は後述する「ＳｏｕｒｃｅＬａｎｇｕａｇｅ」と同意義である。また、他言語とは、生成する音響モデルの対象言語とは異なる言語である。さらに、他言語は、１または２以上の言語である。

【0027】

また、他言語旧音響モデルは、例えば、適応処理を施す前の他言語の音響モデルである。また、他言語旧音響モデルは、他言語新音響モデルとは異なるデータで生成した音響モデルでも良い。また、他言語新音響モデルは、例えば、適応処理を施した後の他言語の音響モデルである。また、他言語新音響モデルは、例えば、他言語旧音響モデルとは異なるデータで生成した音響モデルでも良い。また、対象言語旧音響モデルは、例えば、適応処理を施す前の対象言語の音響モデルである。また、対象言語旧音響モデルは、例えば、他言語旧音響モデルと類似するデータで生成した音響モデルでも良い。対象言語新音響モデルは、例えば、適応処理を施した後の対象言語の音響モデルである。ここで、適応処理とは、通常、一の言語の音声認識のために利用する音響モデルに対して、当該一の言語の蓄積音声を用いてパラメータ変換を行う処理である。蓄積音声は、音声認識を行う環境において蓄積された一の言語の音声であることは好適である。適応処理は、非特許文献１等に記載されている従来技術であるので、詳細な説明を省略する。

【0028】

また、他言語旧音響モデルは、例えば、読み上げ音声の他言語の音響モデルであり、他言語新音響モデルは、例えば、話し言葉音声の他言語の音響モデルであっても良い。また、対象言語旧音響モデルは、例えば、読み上げ音声の対象言語の音響モデルであり、対象言語新音響モデルは、例えば、話し言葉音声の対象言語の音響モデルであっても良い。

【0029】

さらに具体的には、本実施の形態において、１以上の他言語旧音響モデルと１以上の他言語新音響モデルとの相関関係を示す１以上の第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。

【0030】

なお、音響モデルとは、音声認識を行う音声の音響的特徴をモデル化したものであり、例えば、隠れマルコフモデル（ＨＭＭ）を用い、ＨＭＭの各状態の出力確率分布をガウス混合分布（ＧＭＭ）で表現する。音響モデルの持つ情報（パラメータ）には、例えば、音素等のシンボル毎のＨＭＭの状態間の状態遷移確率、各状態のＧＭＭにおけるガウス分布の平均、分散がある。通常、音声認識では音声認識を行う特徴ベクトルとして、音声を周波数解析し得られる数十〜数百次元の特徴ベクトルを用いることが一般的であるので、ガウス分布の平均、分散は数十〜数百次元のベクトルとなる。

【0031】

図１は、本実施の形態における音響モデル生成装置１のブロック図である。音響モデル生成装置１は、対象言語新音響モデル格納部１１、音響モデル生成部１２、音響モデル蓄積部１３を備える。

【0032】

また、音響モデル生成部１２は、対象言語旧音響モデル格納部１２１、他言語旧音響モデル格納部１２２、他言語新音響モデル格納部１２３、第一相関情報格納部１２４、第一相関情報生成手段１２５、音響モデル生成手段１２６を備える。

【0033】

対象言語新音響モデル格納部１１は、対象言語新音響モデルを格納し得る。

【0034】

音響モデル生成部１２は、１または２以上の言語の１または２以上の他言語旧音響モデルと、１または２以上の言語の１または２以上の他言語新音響モデルとを用いて、対象言語旧音響モデルまたは１または２以上の他言語新音響モデルから、対象言語新音響モデルを生成する。

【0035】

また、さらに具体的には、音響モデル生成部１２は、１または２以上の他言語旧音響モデルと１または２以上の他言語新音響モデルとの関係に関する情報である１または２以上の第一相関情報、または１または２以上の他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である１または２以上の第二相関情報のうちの、いずれか１または２以上の相関情報を用いて、対象言語旧音響モデルまたは１または２以上の他言語新音響モデルから、対象言語新音響モデルを生成する。なお、第一相関情報は、１以上の各他言語旧音響モデルに対応する１以上の各ベクトルと１以上の各他言語新音響モデルに対応する１以上の各ベクトルとの差である１以上の変換関数から取得される情報である、とも言える。また、第二相関情報は、１以上の各他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差の１以上の変換関数から取得される情報である、とも言える。

【0036】

また、音響モデル生成部１２は、対象言語旧音響モデルに対応するベクトルを第一相関情報の変換関数を用いて写像することにより対象言語新音響モデルを生成しても良い。

【0037】

さらに、本実施の形態において、音響モデル生成部１２は、対象言語旧音響モデルから、１または２以上の第一相関情報を用いて、対象言語新音響モデルを生成する場合について説明する。

【0038】

他言語新音響モデルは、他言語旧音響モデルに対して、例えば、適応処理された音響モデルである。

【0039】

音響モデル生成部１２を構成する対象言語旧音響モデル格納部１２１は、対象言語旧音響モデルを格納し得る。

【0040】

他言語旧音響モデル格納部１２２は、１または２以上の他言語の１または２以上の他言語旧音響モデルを格納し得る。

【0041】

他言語新音響モデル格納部１２３は、１または２以上の１または２以上の他言語新音響モデルを格納し得る。

【0042】

第一相関情報格納部１２４は、１または２以上の第一相関情報を格納し得る。第一相関情報は、他言語旧音響モデル格納部１２２に格納されている他言語旧音響モデルと、他言語新音響モデル格納部１２３に格納されている他言語新音響モデルとの関係に関する情報である。ここで、関係に関する情報とは、通常、２つの音響モデルの差分についての情報である。つまり、第一相関情報は、通常、他言語旧音響モデルが有するベクトルと他言語新音響モデルが有するベクトルとの差を示すベクトルである。なお、ベクトルは、パラメータ集合である。なお、上記の関係に関する情報は、２つの音響モデルの関係を示す情報であれば良い。

【0043】

第一相関情報生成手段１２５は、１または２以上の他言語旧音響モデルと１または２以上の他言語新音響モデルとを用いて、１または２以上の第一相関情報を生成する。具体的には、第一相関情報生成手段１２５は、例えば、他言語旧音響モデルが有するベクトルと他言語新音響モデルが有するベクトルとの差を算出し、第一相関情報に対応するベクトルを取得する。

【0044】

音響モデル生成手段１２６は、１または２以上の第一相関情報を用いて、対象言語旧音響モデル格納部１２１に格納されている対象言語旧音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段１２６は、例えば、対象言語旧音響モデルに対応するベクトルに、第一相関情報であるベクトルを加えて、新しいベクトルである対象言語新音響モデルを取得する。

【0045】

音響モデル蓄積部１３は、音響モデル生成部１２が生成した対象言語新音響モデルを対象言語新音響モデル格納部１１に蓄積する。

【0046】

対象言語新音響モデル格納部１１、対象言語旧音響モデル格納部１２１、他言語旧音響モデル格納部１２２、他言語新音響モデル格納部１２３、および第一相関情報格納部１２４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

【0047】

対象言語新音響モデル格納部１１等に対象言語新音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して対象言語新音響モデル等が対象言語新音響モデル格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された対象言語新音響モデル等が対象言語新音響モデル格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対象言語新音響モデル等が対象言語新音響モデル格納部１１等で記憶されるようになってもよい。

【0048】

音響モデル生成部１２、第一相関情報生成手段１２５、音響モデル生成手段１２６、および音響モデル蓄積部１３は、通常、ＭＰＵやメモリ等から実現され得る。音響モデル生成部１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0049】

次に、音響モデル生成装置１の動作について、図２のフローチャートを用いて説明する。

【0050】

（ステップＳ２０１）第一相関情報生成手段１２５は、他言語旧音響モデル格納部１２２から他言語旧音響モデルを取得する。

【0051】

（ステップＳ２０２）第一相関情報生成手段１２５は、他言語新音響モデル格納部１２３から他言語新音響モデルを取得する。

【0052】

（ステップＳ２０３）第一相関情報生成手段１２５は、ステップＳ２０１で取得した他言語旧音響モデルに対応するベクトル（μ_ｓ^Ｉ）とステップＳ２０２で取得した他言語新音響モデルに対応するベクトル（μ_ｓ^Ｒ）との差分を示す情報である第一相関情報（例えば、Ｖ_ｓ＝μ_ｓ^Ｒ−μ_ｓ^Ｉ）を算出する。

【0053】

（ステップＳ２０４）第一相関情報生成手段１２５は、ステップＳ２０３で算出した第一相関情報（Ｖ_ｓ）を、第一相関情報格納部１２４に蓄積する。

【0054】

（ステップＳ２０５）音響モデル生成手段１２６は、音響モデルを生成するか否かを判断する。音響モデルを生成する場合はステップＳ２０６に行き、音響モデルを生成しない場合はステップＳ２０５に戻る。なお、例えば、ユーザ指示の受け付けにより音響モデルを生成しても良いし、第一相関情報の蓄積等をトリガーとして音響モデルを生成しても良い。

【0055】

（ステップＳ２０６）音響モデル生成手段１２６は、対象言語旧音響モデル格納部１２１から対象言語旧音響モデルを取得する。

【0056】

（ステップＳ２０７）音響モデル生成手段１２６は、第一相関情報格納部１２４から第一相関情報（Ｖ_ｓ）を取得する。

【0057】

（ステップＳ２０８）音響モデル生成手段１２６は、ステップＳ２０６で取得した対象言語旧音響モデルに対して、ステップＳ２０７で取得した第一相関情報を適用し、対象言語新音響モデルを生成する。音響モデル生成手段１２６は、例えば、対象言語旧音響モデルに対応するベクトル（μ_ｔ^Ｉ）に、第一相関情報（Ｖ_ｓ）を加え、対象言語新音響モデル（μ_ｔ^Ｒ＝μ_ｔ^Ｉ＋Ｖ_ｓ）を取得する。

【0058】

（ステップＳ２０９）音響モデル蓄積部１３は、ステップＳ２０８で生成された新音響モデル（μ_ｔ^Ｒ）を、対象言語新音響モデル格納部１１に蓄積し、処理を終了する。

【0059】

なお、図２のフローチャートにおいて、他言語が一つの場合について説明したが、他言語が２以上でも良い。かかる場合、第一相関情報生成手段１２５は、２以上の他言語の２以上の第一相関情報を生成する。また、音響モデル生成手段１２６は、２以上の第一相関情報を用いて、対象言語旧音響モデルから対象言語新音響モデルを生成する。

【0060】

また、図２のフローチャートのステップＳ２０５は無くても良い。つまり、第一相関情報の蓄積の後、直ちに音響モデルの生成処理を行なっても良いことは言うまでもない。

【0061】

以下、本実施の形態における音響モデル生成装置１の具体的な動作について説明する。

【0062】

まず、音響モデル生成装置１の動作の概念を説明する。図３は、音響モデル生成装置１の動作を説明する概念図である。音響モデル生成装置１は、適応前と適応後のモデルの相関関係を利用し、音響モデルを生成する。

【0063】

音響モデル生成装置１の図示しない第二音響モデル生成手段は、他言語（ＳｏｕｒｃｅＬａｎｇｕａｇｅ）の音響モデル生成用音声（ｓｏｕｒｃｅ）３０１から、音声モデル生成処理３０２により、他言語旧音響モデル３０３を生成する。他言語旧音響モデル３０３は、図３の「ＬａｂＡＭ（ｓｏｕｒｃｅ）」である。なお、音声モデル生成処理３０２は公知技術であるので詳細な説明を省略する。次に、音響モデル生成装置１の図示しない適応処理手段は、蓄積音声（ｓｏｕｒｃｅ）３０４を用いた適応処理（音響モデル生成（適応））３０５により、他言語旧音響モデル３０３から他言語新音響モデル３０６を生成する。他言語新音響モデル３０６は、図３の「ＦｌｄＡＭ（ｓｏｕｒｃｅ）」である。そして、第一相関情報生成手段１２５は、他言語旧音響モデル３０３と他言語新音響モデル３０６との差分である第一相関情報ｆ（３０７）を算出する。

【0064】

次に、音響モデル生成装置１の図示しない第二音響モデル生成手段は、対象言語（ＴａｒｇｅｔＬａｎｇｕａｇｅ）の音響モデル生成用音声（ｔａｒｇｅｔ）３０８から、音声モデル生成処理３０９により、対象言語旧音響モデル３１０を生成する。対象言語旧音響モデル３１０は、図３の「ＬａｂＡＭ（ｔａｒｇｅｔ）」である。ここで、対象言語の蓄積音声（ｔａｒｇｅｔ）３１１は存在しない時、対象言語旧音響モデル３１０に対して音響モデル生成（適応）３１２の処理は行えない。つまり、図３の破線は、存在しないデータまたは行えない処理を示す。そして、音響モデル生成手段１２６は、対象言語旧音響モデル３１０に対して、第一相関情報ｆ（３１３）を適用し、対象言語新音響モデル３１４を生成する。この生成した対象言語新音響モデルが作りたいモデルである。また、図３の対象言語新音響モデル３１４は、「ＦｌｄＡＭ（ｔａｒｇｅｔ）」である。

【0065】

以下、音響モデル生成部１２の処理について、２つの具体例および実験結果について説明する。

【0066】

（具体例１）
まず、図４を用いて、音響モデル生成部１２の処理を簡潔に説明する。具体例１において、音声のある一つの状態が２次元の正規分布でモデル化されるものとし、正規分布の平均のみを適応する場合について説明する。

【0067】

今、他言語（ＳｏｕｒｃｅＬａｎｇｕａｇｅ）のベースラインモデルＳ_Ｉを、平均「μ_ｓ^Ｉ＝（１，１／２）」分散σ_ｓ^Ｉの２次元正規分布とする。なお、ベースラインモデルＳ_Ｉは、他言語旧音響モデルである。また、蓄積音声で適応された他言語の適応モデルＳ_Ｒを、平均「μ_ｓ^Ｒ＝（０，１）」、分散σ_ｓ^Ｒ（＝σ_ｓ^Ｉ）をもつ２次元正規分布とする。なお、適応モデルＳ_Ｒは、他言語新音響モデルである。

【0068】

そして、このとき、第一相関情報生成手段１２５は、適応モデルＳ_ＲとベースラインモデルＳ_Ｉの平均ベクトルの差分Ｖ_ｓ（図４の４１）を以下の式により算出し、「Ｖ_ｓ＝μ_ｓ^Ｒ−μ_ｓ^Ｉ＝（１，１／２）」を得る。

【0069】

また、対象言語（ＴａｒｇｅｔＬａｎｇｕａｇｅ）のベースラインモデルＴ_Ｉを、平均「μ_ｔ^Ｉ＝（０，０）」、分散σ_ｔ^Ｉをもつ２次元正規分布とする。なお、ベースラインモデルＴ_Ｉは、対象言語旧音響モデルである。

【0070】

そして、他言語の平均ベクトルの差分Ｖ_ｓをそのまま用いて適応する場合、音響モデル生成手段１２６は、平均「μ_ｔ^Ｒ＝μ_ｔ^Ｉ＋Ｖ_ｓ＝（１，１／２）」、分散σ_ｔ^Ｒ（＝σ_ｔ^Ｉ）をもつ２次元正規分布を取得し、これを対象言語の適応モデルＴ_Ｒとする。なお、適応モデルＴ_Ｒは、対象言語新音響モデルである。

【0071】

なお、具体例１において、音声の一の状態を２次元の正規分布でモデル化されている、としたが、２次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。

【0072】

また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、２つの音響モデルの差分である第一相関情報を用いて適応することができる。

【0073】

（具体例２）
具体例２において、音響モデル生成装置１の図示しない適応処理手段は、ＭＡＰ適応法に基づき、他言語（ＳｏｕｒｃｅＬａｎｇｕａｇｅ）の他言語旧音響モデル（「他言語の初期の音響モデル」とも言える。）と、他言語の蓄積音声を用いて、他言語新音響モデル（「他言語の適応された音響モデル」とも言える。）を生成する。ここで、他言語旧音響モデルのｓ番目のガウス分布の平均ベクトルをμ_ｓ^Ｉ、他言語新音響モデルのｓ番目のガウス分布平均ベクトルをμ_ｓ^Ｒとする。

【0074】

ＭＡＰ適応法では、他言語新音響モデルの平均ベクトルを適応するとき、平均ベクトル（μ_ｓ^Ｒ）は、他言語旧音響モデルの各平均ベクトル（μ_ｓ^Ｉ）を、事前分布の平均ベクトルとし、以下の数式１により算出される。

【数1】

【0075】

数式１において、ｍ_ｓは蓄積音声から得られるｓ番目のガウス分布の最尤推定値である。ｎは、対応するガウス分布に関する蓄積音声から得られる学習サンプルの総数である。また、τは、事前分布と蓄積音声から得られるサンプルとの相対的なバランスを調整するパラメータである。

【0076】

そして、具体例２において、以下のように差分ベクトルを求める。具体例２における処理の概念を図５に示す。

【0077】

第一相関情報生成手段１２５は、他言語旧音響モデル（μ_ｓ^Ｉ）と他言語新音響モデルを（μ_ｓ^Ｒ）との差である第一相関情報（Ｖ_ｓ）を、数式２に示すように算出する。この第一相関情報（Ｖ_ｓ）は、他言語の平均ベクトルの遷移ベクトルである。

【数2】

【0078】

ここで、ｓ∈Ｋ₁（Ｋ₁は、他言語のトレーニングデータのガウス分布セットである。）

【0079】

第一相関情報生成手段１２５は、数式１の平均ベクトル（μ_ｓ^Ｒ）を数式２に代入することにより、遷移ベクトルである第一相関情報を算出する（数式３参照）。

【数3】

【0080】

数式３において、ＭＡＰ適用法により得られる遷移ベクトル（Ｖ_ｓ）は、「Ｖ_ｓ^ＭＬ＝（ｍ_ｓ−μ_ｓ^Ｉ）」と表され、最尤（ＭＬ）推定により算出される。

【0081】

また、以下の数式４において、ＭＡＰ適用法による遷移ベクトルは、重み係数によるＭＬ推定を用いて修正された遷移ベクトル（Ｖ_ｓ^ML）によって得られることを示している。なお、重み係数は、学習サンプルの総数ｎに依存する。

【数4】

【0082】

次に、他言語と同様に、対象言語旧音響モデル（「対象言語の初期のモデル」とも言える。）のガウス分布の平均ベクトルは、音響モデル学習により生成される。

【0083】

ここで、対象言語旧音響モデルのガウス分布のｔ番目の平均ベクトルをμ_ｔ^Ｉとする。なお、ここで、対象言語の適応処理のための蓄積音声のデータが存在しないので、対象言語の各ガウス分布の遷移ベクトルは、他言語の遷移ベクトルによって推定される。

【0084】

対象言語の遷移ベクトル（μ_ｔ^Ｉ）におけるｔは、「ｔ∈Ｋ_２」である。ここで、Ｋ_２は、対象言語のガウス分布セットである。μ_ｔ^Ｉの中の遷移ベクトル（Ｖ_ｔ）は、学習された遷移ベクトルＶ_ｓの以下の数式５により補間される。

【数5】

【0085】

数式５において、Ｎ（ｔ）は、ベクトル（μ_ｔ^Ｉ）のＫの近傍にあるガウス分布のセットである。λ_ｔ，ｓｋは、重み係数であり、μ_ｔ^Ｉとμ_ｓｋ^Ｉとの距離に依存する。ベクトル（μ_ｔ^Ｉ）に遷移ベクトルＶ_ｔが加算され、ベクトル（μ_ｔ^Ｒ）が取得される（数式６参照）。数式５において、ｓ_ｋは、ｋ番目のｓ［ｓ∈Ｋ₁（Ｋ₁は、他言語のトレーニングデータのガウス分布セットである。）］である。

【数6】

【0086】

なお、例えば、Ｋの近接するガウス分布のセットは、従来技術であるKullback-Leibler divergence (KL-divergence)（「S. Kullback, and R. A. Leibler, "On information and sufficiency," Annals of Mathematical Statistics, vol. 22, no. 1, pp. 79-86, 1951. 」参照）により取得される。

【0087】

また、重み係数（λ_ａ，ｂ）は、例えば、以下の数式７により算出される。

【数7】

【0088】

数式７において、ｄ_ａ，ｂは、KL-divergenceに基づいて算出される、ベクトル（μ_ａ^Ｉ）とベクトル（μ_ｂ^Ｒ）との距離であり、ｆは重み調整のためのパラメータである。
（実験）

【0089】

以下、実験結果について説明する。本実験では、上記の具体例２の方法で動作する音響モデル生成装置１を用いた。また、本実験において、他言語は日本語であり、対象言語はインドネシア語である。つまり、日本語の適応処理前の音響モデル、日本語の適応処理後の音響モデル、およびインドネシア語の適応処理前の音響モデルが、予め存在する。

【0090】

各言語の評価のためのテストデータの量について、図６に示す。本実験において、２つの発話データを用いた。一つは、旅行会話基本表現コーパス（ＢＴＥＣ）であり、他は現実の環境で記録された音声データ（ＶＴｌｏｇ）である。ＢＴＥＣは、クリーンな環境で取得された旅行会話基本表現の音声データである。なお、クリーンな環境で取得された音声データとは、例えば、録音室で収録した音声データ、原稿を読上げた際に取得された音声データ等である。また、ＶＴｌｏｇは、ＶｏｉｃｅＴｒａ（ＵＲＬ「http://mastar.jp/translation/index.html」参照）により記録された音声データであり、ノイズを含んだ音声データや、種々の発話スタイルの音声データを含む。また、図６において、「時間」は記録時間（単位：時間）、「発話」は発話数を示す。

【0091】

また、図７は、各言語の学習、および適応処理に使用されたデータの総量を示す表である。学習データは、実験室で発話した音声データ（図７の「学習」の列のデータ）、および実環境で発話した音声データであり、ＶｏｉｃｅＴｒａにより記録された音声データ（図７の「適応処理（ＶＴｌｏｇ）」の列のデータ）を含む。音響モデルは、各言語の学習データにより学習された３状態のＬｅｆｔ−ｔｏ−Ｒｉｇｈｔ、性別非依存ＨＭＭである。また、状態数はインドネシア語が５０００状態、日本語が５００状態であり、状態共有手法として、決定木ベースのクラスタリング手法を使用した。また、インドネシア語に対して、状態ごとに４つのガウス分布を使用し、日本語に対して、状態ごとに１６のガウス分布を使用した。

【0092】

また、各言語の言語モデル（ＬＭｓ）は、ＢＴＥＣコーパスを用いて学習した。

【0093】

図８は、実験結果を示す。ＢＴＥＣの単語誤り率（ＷＥＲ）は、日本語では１７．７４％であり、インドネシア語では１５．９７％であった。

【0094】

一方、学習モデルとテスト音声が大きく異なるため、ＶＴｌｏｇのＷＥＲは、日本語では３７．７５％、インドネシア語では５５．３１％であった。この実験結果により、学習モデルとテスト音声の不整合によって精度の低下が引き起こされることが分かる。

【0095】

次に、上記ミスマッチを低減するために、ＶｏｉｃｅＴｒａによって記録された音声データである、日本語の実発話環境での蓄積音声を用いて、日本語の音響モデルに対してＭＡＰ適応を行った。図９は、適応実験の結果を示す。ＶＴｌｏｇのＷＥＲは２４．６６％となり、ベースライン（３７．７５％）と比較して大幅に改善された。このことは、実発話と整合する音声データを用いて音響モデルを適応させることの効果を示す。

【0096】

次に、上記の具体例２の方法について評価した。評価において、パラメータを実験的に「τ＝１０」「ｆ＝３」「ｋ＜＝１０」と決定した。図１０は、実験結果を示す。ＶＴｌｏｇのＷＥＲは５５．３１％から５０．４０％に改善し、誤り削減率（ERR）８．９％を達成した（図１０の「Ｐｒｏｐｏｓｅｄ」の行を参照のこと）。この結果は、以下の我々の仮説を検証したことになる。我々の仮説は、他言語（ここでは日本語）の遷移ベクトルによって推定された遷移ベクトルを対象言語（ここではインドネシア語）の音響モデルに適用し、認識精度を改善することである。これにより、音響モデル生成装置１の方法は、実発話に関する対象言語（ここではインドネシア語）の蓄積音声用いず、対象言語の音響モデルを実発話環境へ適応する。

【0097】

なお、具体例２において、音声の一の状態を混合正規分布とし、その平均をＭＡＰ適応法に基づき適応することで、他言語新音響モデルを生成するとしたが、平均以外の音響モデルのパラメータ、例えば正規分布の分散、ＨＭＭの状態遷移確率などの他のパラメータも同様に適応可能である。また、音響モデルは混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、２つの音響モデルの差分である第一相関情報を用いて適応することができる。

【0098】

以上、本実施の形態によれば、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0099】

また、本実施の形態によれば、他言語の適応処理前の音響モデルと他言語の適応処理後の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0100】

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音響モデル生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。

【0101】

また、上記プログラムにおいて、前記音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、第一相関情報を格納し得る第一相関情報格納部と、前記第一相関情報を用いて、前記対象言語旧音響モデル格納部に格納されている対象言語旧音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。

【0102】

（実施の形態２）
本実施の形態において、他言語旧音響モデルと対象言語旧音響モデルとを用いて、他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。

【0103】

さらに具体的には、本実施の形態において、他言語旧音響モデルと対象言語旧音響モデルとの相関関係を示す第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。

【0104】

図１１は、本実施の形態における音響モデル生成装置２のブロック図である。音響モデル生成装置２は、対象言語新音響モデル格納部１１、音響モデル生成部２２、および音響モデル蓄積部１３を備える。

【0105】

音響モデル生成部２２は、対象言語旧音響モデル格納部１２１、他言語旧音響モデル格納部１２２、他言語新音響モデル格納部１２３、第二相関情報格納部２２４、第二相関情報生成手段２２５、および音響モデル生成手段２２６を備える。

【0106】

音響モデル生成部２２は、１または２以上の他言語旧音響モデルと１または２以上の他言語新音響モデルとの関係に関する情報である１または２以上の第一相関情報、または１または２以上の他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である１または２以上の第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは他言語新音響モデルから、対象言語新音響モデルを生成する。音響モデル生成部２２は、他言語新音響モデル格納部１２２に格納されている１以上の他言語新音響モデルから第二相関情報の変換関数を用いて写像することにより他言語新音響モデルを生成しても良い。

【0107】

さらに、本実施の形態において、音響モデル生成部２２は、１または２以上の他言語新音響モデルから、１または２以上の第二相関情報を用いて、対象言語新音響モデルを生成する場合について説明する。

【0108】

第二相関情報格納部２２４は、１または２以上の第二相関情報を格納し得る。第二相関情報は、他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である。ここで、関係に関する情報とは、通常、２つの音響モデルの差分についての情報である。つまり、第二相関情報は、通常、他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差を示すベクトルである。なお、ベクトルは、パラメータ集合である。第二相関情報の構造は、第一相関情報の構造と同じで良い。

【0109】

第二相関情報生成手段２２５は、１または２以上の各他言語旧音響モデルと対象言語旧音響モデルとを用いて、１または２以上の第二相関情報を生成する。具体的には、第二相関情報生成手段２２５は、例えば、１または２以上の各他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差を算出し、１または２以上の各第二相関情報に対応するベクトルを取得する。

【0110】

音響モデル生成手段２２６は、１または２以上の各第二相関情報を用いて、他言語新音響モデル格納部１２３に格納されている他言語新音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段１２６は、例えば、他言語新音響モデルに対応するベクトルに、第二相関情報であるベクトルを加えて、新しいベクトルである対象言語新音響モデルを取得する。

【0111】

音響モデル生成部２２、第二相関情報生成手段２２５、および音響モデル生成手段２２６は、通常、ＭＰＵやメモリ等から実現され得る。音響モデル生成部２２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0112】

第二相関情報格納部２２４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第二相関情報格納部２２４に第二相関情報が記憶される過程は問わない。例えば、記録媒体を介して第二相関情報が第二相関情報格納部２２４で記憶されるようになってもよく、通信回線等を介して送信された第二相関情報が第二相関情報格納部２２４で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第二相関情報が第二相関情報格納部２２４で記憶されるようになってもよい。

【0113】

次に、音響モデル生成装置２の動作について、図１２のフローチャートを用いて説明する。

【0114】

（ステップＳ１２０１）第二相関情報生成手段２２５は、他言語旧音響モデル格納部１２２から他言語旧音響モデルを取得する。

【0115】

（ステップＳ１２０２）第二相関情報生成手段２２５は、対象言語旧音響モデル格納部１２１から対象言語旧音響モデルを取得する。

【0116】

（ステップＳ１２０３）第二相関情報生成手段２２５は、ステップＳ１２０１で取得した他言語旧音響モデルに対応するベクトル（μ_ｓ^Ｉ）とステップＳ１２０２で取得した対象言語旧音響モデルに対応するベクトル（μ_ｔ^Ｉ）との差分を示す情報である第二相関情報（例えば、Ｖ_Ｉ＝μ_ｔ^Ｉ−μ_ｓ^Ｉ）を算出する。

【0117】

（ステップＳ１２０４）第二相関情報生成手段２２５は、ステップＳ１２０３で算出した第二相関情報（Ｖ_Ｉ）を、第二相関情報格納部２２４に蓄積する。

【0118】

（ステップＳ１２０５）音響モデル生成手段２２６は、音響モデルを生成するか否かを判断する。音響モデルを生成する場合はステップＳ１２０６に行き、音響モデルを生成しない場合はステップＳ１２０５に戻る。なお、例えば、ユーザ指示の受け付けにより音響モデルを生成しても良いし、第二相関情報の蓄積等をトリガーとして音響モデルを生成しても良い。

【0119】

（ステップＳ１２０６）音響モデル生成手段２２６は、他言語新音響モデル格納部１２３から他言語新音響モデル（μ_ｓ^Ｉ）を取得する。

【0120】

（ステップＳ１２０７）音響モデル生成手段２２６は、第二相関情報格納部２２４から第二相関情報（Ｖ_Ｉ）を取得する。

【0121】

（ステップＳ１２０８）音響モデル生成手段２２６は、ステップＳ１２０６で取得した他言語新音響モデルに対して、ステップＳ１２０７で取得した第一相関情報を適用し、対象言語新音響モデルを生成する。音響モデル生成手段１２６は、例えば、対象言語旧音響モデルに対応するベクトル（μ_ｓ^Ｉ）に、第二相関情報（Ｖ_Ｉ）を加算し、対象言語新音響モデル（μ_ｔ^Ｒ＝μ_ｓ^Ｉ＋Ｖ_Ｉ）を取得する。

【0122】

（ステップＳ１２０９）音響モデル蓄積部１３は、ステップＳ１２０８で生成された新音響モデル（μ_ｔ^Ｒ）を、対象言語新音響モデル格納部１１に蓄積し、処理を終了する。

【0123】

なお、図１２のフローチャートにおいて、他言語が一つの場合について説明したが、他言語が２以上でも良い。かかる場合、第二相関情報生成手段２２５は、２以上の他言語の２以上の第二相関情報を生成する。また、音響モデル生成手段２２６は、２以上の第二相関情報を用いて、対象言語旧音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段２２６は、例えば、２以上の第二相関情報の平均ベクトルを取得し、当該平均ベクトルを対象言語旧音響モデルに対応するベクトルに加算し、対象言語新音響モデルを算出する。

【0124】

また、図１２のフローチャートのステップＳ１２０５は無くても良い。つまり、第二相関情報の蓄積の後、直ちに音響モデルの生成処理を行なっても良いことは言うまでもない。

【0125】

以下、本実施の形態における音響モデル生成装置２の具体的な動作について説明する。まず、音響モデル生成装置１の動作の概念を説明する。図１３は、音響モデル生成装置２の動作を説明する概念図である。

【0126】

音響モデル生成装置２は、ここでは、適応前モデルの言語間の相関関係を利用し、音響モデルを生成する。

【0127】

音響モデル生成装置２の図示しない第二音響モデル生成手段は、他言語（ＳｏｕｒｃｅＬａｎｇｕａｇｅ）の音響モデル生成用音声（ｓｏｕｒｃｅ）１３０１から、音声モデル生成処理１３０２により、他言語旧音響モデル１３０３を生成する。他言語旧音響モデル１３０３は、図１３の「ＬａｂＡＭ（ｓｏｕｒｃｅ）」である。次に、音響モデル生成装置２の図示しない適応処理手段は、蓄積音声（ｓｏｕｒｃｅ）１３０４を用いた適応処理（音響モデル生成（適応））１３０５により、他言語旧音響モデル１３０３から他言語新音響モデル１３０６を生成する。他言語新音響モデル１３０６は、図１３の「ＦｌｄＡＭ（ｓｏｕｒｃｅ）」である。

【0128】

次に、音響モデル生成装置２の図示しない第二音響モデル生成手段は、対象言語（ＴａｒｇｅｔＬａｎｇｕａｇｅ）の音響モデル生成用音声（ｔａｒｇｅｔ）１３０７から、音声モデル生成処理１３０８により、対象言語旧音響モデル１３０９を生成する。対象言語旧音響モデル１３０９は、図１３の「ＬａｂＡＭ（ｔａｒｇｅｔ）」である。ここで、対象言語の蓄積音声（ｔａｒｇｅｔ）１３１０は存在しないので、対象言語旧音響モデル１３０９に対して音響モデル生成（適応）１３１１の処理は行えない。つまり、図１３の破線は、存在しないデータまたは行えない処理を示す。

【0129】

そして、第二相関情報生成手段２２５は、他言語旧音響モデル１３０３と対象言語旧音響モデル１３０９とを用いて、第二相関情報ｇ（１３１２）を生成する。具体的には、第二相関情報生成手段２２５は、例えば、他言語旧音響モデル１３０３に対応するベクトルと対象言語旧音響モデル１３０９に対応するベクトルとの差を算出する。このベクトルの差であるベクトルが第二相関情報ｇである。

【0130】

次に、音響モデル生成手段２２６は、対象言語旧音響モデル１３０９に対して、第二相関情報ｇを適用し、対象言語新音響モデル１３１３を生成する。具体的には、音響モデル生成手段２２６は、対象言語旧音響モデル１３０９に対応するベクトルに対して、第二相関情報ｇに対応するベクトルを加算し、対象言語新音響モデル１３１３を生成する。なお、この生成した対象言語新音響モデルが作りたいモデルである。また、図１３の対象言語新音響モデル１３１３は、「ＦｌｄＡＭ（ｔａｒｇｅｔ）」である。

【0131】

以下、音響モデル生成部２２の処理について、さらなる具体例を説明する。

【0132】

（具体例）
ここで、図１４を使用し、音響モデル生成装置２の具体的な動作について説明する。図１４において、他言語（ＳｏｕｒｃｅＬａｎｇｕａｇｅ）のベースラインモデルＳ_Ｉを、平均「μ_ｓ^Ｉ＝（０，１／２）」、分散σ_ｓ^Ｉの２次元正規分布とする。なお、ベースラインモデルＳ_Ｉは、他言語旧音響モデルである。また、蓄積音声で適応された他言語の適応モデルＳ_Ｒを、平均「μ_ｓ^Ｒ＝（１，１）」、分散σ_ｓ^Ｒ（＝σ_ｓ^Ｉ）をもつ２次元正規分布とする。なお、適応モデルＳ_Ｒは、他言語新音響モデルである。さらに、対象言語旧音響モデルＴ_Ｉを、平均「μ_ｔ^Ｒ＝（０，０）」、分散σ_ｔ^Ｒ（＝σ_ｔ^Ｉ）をもつ２次元正規分布とする。さらに、対象言語新音響モデルをＴ_Ｒとする。なお、他言語旧音響モデル（Ｓ_I）、他言語新音響モデル（Ｓ_Ｒ）、および対象言語旧音響モデル（Ｔ_I）は、実施の形態１の具体例１で説明した処理により取得された、とする。

【0133】

かかる状況において、第二相関情報生成手段２２５は、Ｓ_ＩとＴ_Ｉの平均ベクトルの差分（Ｖ_I）を「Ｖ_I＝μ_ｔ^Ｉ−μ_ｓ^Ｉ＝（０，−１／２）」を取得する。この第二相関情報は、図１４の１４１の矢印である。

【0134】

次に、音響モデル生成手段２２６は、この平均ベクトルの差分（Ｖ_I）を、他言語新音響モデルに適用し（図１４の１４２）、平均「μ_ｔ^Ｒ＝μ_ｓ^Ｉ＋Ｖ_Ｉ＝（１，１／２）」、分散σ_ｔ^Ｒ（＝σ_ｔ^Ｉ）をもつ２次元正規分布を得る。この２次元正規分布が、対象言語の適応モデルＴ_Ｒである。Ｔ_Ｒは、対象言語新音響モデルである。

なお、本具体例において、具体例１と同様に、音声の一の状態を２次元の正規分布でモデル化されている、としたが、２次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、２つの音響モデルの差分である第二相関情報を用いて適応することができる。

【0135】

以上、本実施の形態によれば、他言語の適応処理前の音響モデルと対象言語の適応処理前の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0136】

なお、本実施の形態における音響モデル生成装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。

【0137】

また、上記プログラムにおいて、前記音響モデル生成部は、前記他言語新音響モデルを格納し得る他言語新音響モデル格納部と、第二相関情報を格納し得る第二相関情報格納部と、前記第二相関情報を用いて、前記他言語新音響モデル格納部に格納されている他言語新音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。

【0138】

（実施の形態３）
本実施の形態において、本実施の形態において、１以上の第一相関情報と１以上の第二相関情報のうちの１以上の相関情報を用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。

【0139】

さらに具体的には、本実施の形態において、第一相関情報と第二相関情報の用い方（アルゴリズム）が動的に変化する音響モデル生成装置について説明する。

【0140】

図１５は、本実施の形態における音響モデル生成装置３のブロック図である。

【0141】

音響モデル生成装置３は、対象言語新音響モデル格納部１１、音響モデル生成部３２、および音響モデル蓄積部１３を備える。

【0142】

音響モデル生成部３２は、対象言語旧音響モデル格納部１２１、他言語旧音響モデル格納部１２２、他言語新音響モデル格納部１２３、第一相関情報格納部１２４、第一相関情報生成手段１２５、第二相関情報格納部２２４、第二相関情報生成手段２２５、選択手段３２１、および音響モデル生成手段３２６を備える。また、選択手段３２１は、選択情報管理部３２１１を備える。

【0143】

音響モデル生成部３２は、他言語旧音響モデルと他言語新音響モデルとの関係に関する情報である１または２以上の第一相関情報、または他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である１または２以上の第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは他言語新音響モデルから、対象言語新音響モデルを生成する。

【0144】

さらに、本実施の形態において、音響モデル生成部３２は、１または２以上の第一相関情報と１または２以上の第二相関情報とを用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成する。

【0145】

選択手段３２１は、対象言語新音響モデルを生成する２以上のアルゴリズムのうち、対象言語旧音響モデルまたは他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する。例えば、第一のアルゴリズムは、第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。例えば、第二のアルゴリズムは、第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。また、例えば、第三のアルゴリズムは、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成するアルゴリズムである。

【0146】

選択情報管理部３２１１は、選択手段３２１がアルゴリズムを決定するための情報である１以上の選択情報を格納し得る。選択情報は、例えば、音素を識別する音素識別子と、アルゴリズムを識別するアルゴリズム識別子の対の情報である。なお、選択情報は、音素より細かい単位で、アルゴリズムを切替える選択情報を有しても良い。また、選択情報は、音素より荒い単位で、アルゴリズムを切替える選択情報を有しても良い。

【0147】

音響モデル生成手段３２６は、１または２以上の第一相関情報と１または２以上の第二相関情報のうちの１以上の相関情報を用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成する。

【0148】

さらに具体的には、音響モデル生成手段３２６は、選択手段３２１が選択した一のアルゴリズムに従って、１または２以上の第一相関情報と１または２以上の第二相関情報のうちの１以上の相関情報を用いて、対象言語新音響モデルを生成する。

【0149】

音響モデル生成部３２、選択手段３２１、および音響モデル生成手段３２６は、通常、ＭＰＵやメモリ等から実現され得る。音響モデル生成部３２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0150】

選択情報管理部３２１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。選択情報管理部３２１１に選択情報が記憶される過程は問わない。例えば、記録媒体を介して選択情報が選択情報管理部３２１１で記憶されるようになってもよく、通信回線等を介して送信された選択情報が選択情報管理部３２１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された選択情報が選択情報管理部３２１１で記憶されるようになってもよい。

【0151】

次に、音響モデル生成装置３の動作について、図１６のフローチャートを用いて説明する。図１６のフローチャートにおいて、第一相関情報を第一相関情報格納部１２４に蓄積する処理、および第二相関情報を第二相関情報格納部２２４に蓄積する処理は、実施の形態１、２で説明したので、ここでの説明は省略する。図１６のフローチャートにおいて、対象言語旧音響モデルまたは／および他言語新音響モデルから、対象言語新音響モデルを生成する処理について説明する。なお、図１６のフローチャートにおいて、図２のフローチャートと同一のステップについて、説明を省略する。

【0152】

（ステップＳ１６０１）選択手段３２１は、カウンタｉに１を代入する。

【0153】

（ステップＳ１６０２）選択手段３２１は、対象言語旧音響モデルまたは他言語新音響モデルの中に、ｉ番目の処理単位（例えば、ｉ番目の音素）が存在するか否かを判断する。ｉ番目の処理単位が存在すればステップＳ１６０３に行き、存在しなければ処理を終了する。

【0154】

（ステップＳ１６０３）選択手段３２１は、対象言語旧音響モデルまたは他言語新音響モデルの中のｉ番目の処理単位の処理単位識別子（例えば、音素識別子の「ａ」）を取得する。

【0155】

（ステップＳ１６０４）選択手段３２１は、ステップＳ１６０３で取得した処理単位識別子に対応するアルゴリズム識別子を選択情報管理部３２１１から取得する。

【0156】

（ステップＳ１６０５）音響モデル生成手段３２６は、ステップＳ１６０４で取得したアルゴリズム識別子が第一のアルゴリズムであることを示す情報か否かを判断する。第一のアルゴリズムであればステップＳ２０６に行き、第一のアルゴリズムでなければステップＳ１６０６に行く。なお、第一のアルゴリズムは、ここでは、実施の形態１で説明した、音響モデル生成部１２が第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。

【0157】

（ステップＳ１６０６）音響モデル生成手段３２６は、ステップＳ１６０４で取得したアルゴリズム識別子が第二のアルゴリズムであることを示す情報か否かを判断する。第二のアルゴリズムであればステップＳ１２０６に行き、第二のアルゴリズムでなければステップＳ２０６に行く。なお、第二のアルゴリズムでない場合は、第三のアルゴリズムである。第二のアルゴリズムは、実施の形態２で説明した、音響モデル生成部２２が第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。また、第三のアルゴリズムは、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルおよび他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。

【0158】

（ステップＳ１６０７）選択手段３２１は、カウンタｉを１インクリメントし、ステップＳ１６０２に戻る。

【0159】

（ステップＳ１６０８）音響モデル生成手段３２６は、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルおよび他言語新音響モデルから、対象言語新音響モデルを生成する。ステップＳ２０９に行く。

【0160】

以下、本実施の形態における音響モデル生成装置３の具体的な動作について説明する。ここで、選択情報管理部３２１１は、図１７に示す選択情報管理表を格納している。選択情報管理表は、「音素識別子」「アルゴリズム識別子」を有するレコードを、２以上、格納している。また、アルゴリズム識別子「１」に対応する音素に対しては上記の第一のアルゴリズムを実行することを意味し、アルゴリズム識別子「２」に対応する音素に対しては上記の第二のアルゴリズムを実行することを意味し、アルゴリズム識別子「３」に対応する音素に対しては上記の第三のアルゴリズムを実行することを意味する。

【0161】

以下、音響モデル生成部３２の動作について説明する。まず、選択手段３２１は、対象言語旧音響モデルの中の１番目の音素の音素識別子「ａ」を取得した、とする。次に、選択手段３２１は、音素識別子「ａ」と対になるアルゴリズム識別子「３」を、選択情報管理表から取得する。

【0162】

そして、音響モデル生成手段３２６は、アルゴリズム識別子「３」に従って、第三のアルゴリズムを、以下のように実行する。なお、ここでは、実施の形態１の具体例１等と同様に、音響モデルを２次元正規分布である、とする。

【0163】

つまり、音響モデル生成手段３２６は、第一相関情報格納部１２４の第一相関情報「Ｖ_ｓ＝μ_ｓ^Ｒ−μ_ｓ^Ｉ＝（１，１／２）を取得する。

【0164】

また、音響モデル生成手段３２６は、対象言語（ＴａｒｇｅｔＬａｎｇｕａｇｅ）のベースラインモデルＴ_Ｉ（平均μ_ｔ^Ｉ＝（０，０）、分散σ_ｔ^Ｉ）である２次元正規分布を、対象言語旧音響モデル格納部１２１から取得する。

【0165】

次に、音響モデル生成手段３２６は、平均「μ_ｔ^Ｒ１＝μ_ｔ^Ｉ＋Ｖ_ｓ＝（１，１／２）」、分散σ_ｔ^Ｒ（＝σ_ｔ^Ｉ）をもつ２次元正規分布を取得する。

【0166】

次に、音響モデル生成手段３２６は、第二相関情報格納部２２４の第二相関情報「Ｖ_Ｉ＝μ_ｔ^Ｉ−μ_ｓ^Ｉ＝（０，−１／２）」を取得する。

【0167】

また、音響モデル生成手段３２６は、この平均ベクトルの差分（Ｖ_Ｉ）を、他言語新音響モデルに適用し、平均「μ_ｔ^Ｒ２＝μ_ｓ^Ｉ＋Ｖ_Ｉ＝（１，１／２）」、分散σ_ｔ^Ｒ（＝σ_ｔ^Ｉ）をもつ２次元正規分布を取得する。

【0168】

次に、音響モデル生成手段３２６は、「１／２（μ_ｔ^Ｒ１＋μ_ｔ^Ｒ２）」を実行し、最終的な他言語新音響モデルμ_ｔ^Ｒを得る。なお、ここで、音響モデル生成手段３２６は、μ_ｔ^Ｒ１とμ_ｔ^Ｒ２との適用を５０％、５０％としたが、異なる重みを付けて、音響モデルを生成しても良い。

なお、本具体例において、具体例１と同様に、音声の一の状態を２次元の正規分布でモデル化されている、としたが、２次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、２つの音響モデルの差分である第二相関情報を用いて適応することができる。

【0169】

以上、本実施の形態によれば、他言語の適応処理前の音響モデルと他言語の適応処理後の音響モデルとの相関関係、および他言語の適応処理前の音響モデルと対象言語の適応処理前の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。

【0170】

なお、本実施の形態における音響モデル生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる１以上の各他言語の第一の音響モデルである１以上の各他言語旧音響モデルと前記１以上の各他言語の第二の音響モデルである１以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記１以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか１以上の相関情報を用いて、対象言語旧音響モデルまたは１以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。

【0171】

また、上記プログラムにおいて、前記音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、他言語新音響モデルを格納し得る他言語新音響モデル格納部と、第一相関情報を格納し得る第一相関情報格納部と、第二相関情報を格納し得る第二相関情報格納部と、前記第一相関情報と前記第二相関情報とを用いて、前記対象言語旧音響モデル、または前記他言語新音響モデル、または前記対象言語旧音響モデルと前記他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。

【0172】

また、上記プログラムにおいて、前記音響モデル生成部は、対象言語新音響モデルを生成する２以上のアルゴリズムのうち、前記対象言語旧音響モデルまたは前記他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択手段をさらに具備し、前記音響モデル生成手段は、前記選択手段が選択した前記一のアルゴリズムに従って、前記第一相関情報と前記第二相関情報のうちの１以上の相関情報を用いて、前記対象言語新音響モデルを生成するものとして、コンピュータを機能させることは好適である。

【0173】

また、図１８は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響モデル生成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１８は、このコンピュータシステム３００の概観図であり、図１９は、システム４００のブロック図である。

【0174】

図１８において、コンピュータシステム４００は、ＣＤ−ＲＯＭドライブを含むコンピュータ４０１と、キーボード４０２と、マウス４０３と、モニタ４０４とを含む。

【0175】

図１９において、コンピュータ４０１は、ＣＤ−ＲＯＭドライブ４０１２に加えて、ＭＰＵ４０１３と、バス４０１４と、ＲＯＭ４０１５と、ＲＡＭ４０１６と、ハードディスク４０１７とを含む。なお、バス４０１４は、ＭＰＵ４０１３やＣＤ−ＲＯＭドライブ４０１２に接続されている。また、ＲＯＭ４０１５には、ブートアッププログラム等のプログラムが記憶されている。また、ＲＡＭ４０１６は、ＭＰＵ４０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク４０１７は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ４０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

【0176】

コンピュータシステム４００に、上述した実施の形態の音響モデル生成装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ４１０１に記憶されて、ＣＤ−ＲＯＭドライブ４０１２に挿入され、さらにハードディスク４０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ４０１に送信され、ハードディスク４０１７に記憶されても良い。プログラムは実行の際にＲＡＭ４０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ４１０１またはネットワークから直接、ロードされても良い。

【0177】

プログラムは、コンピュータ４０１に、上述した実施の形態の音響モデル生成装置の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム４００がどのように動作するかは周知であり、詳細な説明は省略する。

【0178】

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0179】

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

【0180】

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

【産業上の利用可能性】

【0181】

以上のように、本発明にかかる音響モデル生成装置は、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる、という効果を有し、音響モデル生成装置等として有用である。

【符号の説明】

【0182】

１、２、３音響モデル生成装置
１１対象言語新音響モデル格納部
１２、２２、３２音響モデル生成部
１３音響モデル蓄積部
１２１対象言語旧音響モデル格納部
１２２他言語旧音響モデル格納部
１２３他言語新音響モデル格納部
１２４第一相関情報格納部
１２５第一相関情報生成手段
１２６、２２６、３２６音響モデル生成手段
２２４第二相関情報格納部
２２５第二相関情報生成手段
３２１選択手段

【図1】