特開2024-43949 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-43949音声認識装置、音声認識方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024043949

(43)【公開日】2024-04-02

(54)【発明の名称】音声認識装置、音声認識方法、およびプログラム

(51)【国際特許分類】

G10L 15/16 20060101AFI20240326BHJP

G10L 15/22 20060101ALI20240326BHJP

【ＦＩ】

G10L15/16

G10L15/22 453

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022149204

(22)【出願日】2022-09-20

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】周藤唯

(72)【発明者】

【氏名】中臺一博

(72)【発明者】

【氏名】畑和也

(57)【要約】

【課題】Ｅ２Ｅモデルの音声認識において登録されていない用語があっても認識率を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【解決手段】音声認識装置は、音声信号を取得する取得部と、取得された音声信号の音声特徴量を算出する音声特徴量算出部と、音声特徴量に基づいて学習済みの第１Ｅ２Ｅモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力する第１音声認識部と、音声特徴量に基づいて学習済みの第２Ｅ２Ｅモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力する第２音声認識部と、第１音声認識部で認識されたテキストの第１タグ付きの語彙を第２タグ付きの音素に置き換える音素置換部と、音素置換部で置き換えられた第２タグ付きの音素をテキストに変換して出力する出力部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声信号を取得する取得部と、
取得された前記音声信号の音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力する第１音声認識部と、
前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力する第２音声認識部と、
前記第１音声認識部で認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換える音素置換部と、
前記音素置換部で置き換えられた第２タグ付きの音素をテキストに変換して出力する出力部と、
を備える音声認識装置。

【請求項2】

前記出力部は、前記音素置換部で置換された第２タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストに変換する、
請求項１に記載の音声認識装置。

【請求項3】

前記出力部は、
前記音素置換部で置換された第２タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストの前記類似度が閾値より大きい場合に、変換して出力し、
前記音素置換部で置換された第２タグ付きの音素を、言語モデル記憶部が記憶する言語モデルの中から類似度が最も高いテキストの前記類似度が閾値以下の場合に、前記第１音声認識部が認識した前記第１タグ付きのテキストのまま出力する、
請求項１に記載の音声認識装置。

【請求項4】

前記第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルは、発話単位毎に、音声信号とテキストデータを用いて学習されたものであり、
前記第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルは、発話単位毎に、音声信号と音素データを用いて学習されたものである、
請求項１または請求項２に記載の音声認識装置。

【請求項5】

前記音素置換部は、前記第１音声認識部が出力するテキストに前記第１タグ付きの前記特定クラスの語彙部分が複数ある場合、最初の前記第１タグ付きの前記特定クラスの語彙部分を、前記第２タグ付きの音素に置き換える、
請求項１または請求項２に記載の音声認識装置。

【請求項6】

前記特定クラスの語彙部分は、人名、部署名、商品名、機種名、部品名、および地名のうちの少なくとも１つの固有名詞である、
請求項１または請求項２に記載の音声認識装置。

【請求項7】

取得部が、音声信号を取得し、
音声特徴量算出部が、取得された前記音声信号の音声特徴量を算出し、
第１音声認識部が、前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力し、
第２音声認識部が、前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力し、
音素置換部が、前記第１音声認識部で認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換え、
出力部が、前記音素置換部で置き換えられた第２タグ付きの音素をテキストに変換して出力する、
音声認識方法。

【請求項8】

コンピュータに、
音声信号を取得させ、
取得された前記音声信号の音声特徴量を算出させ、
前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力させ、
前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力ささせ、
前記第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換えさせ、
前記置き換えられた第２タグ付きの音素をテキストに変換して出力させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識装置、音声認識方法、およびプログラムに関する。

【背景技術】

【0002】

音声認識技術において従来のＤＮＮ－ＨＭＭ（Deep Neural Network-Hidden Markov model）モデルに代わり、Ｅｎｄ－ｔｏ－Ｅｎｄ（Ｅ２Ｅ）モデルが注目されている。なお、Ｅ２Ｅモデルを用いた深層学習とは、入力データが与えられてから結果を出力するまで多段の処理を必要としていた機械学習システムを、様々な処理を行う複数の層・モジュールを備えた一つの大きなニューラルネットワークに置き換えて学習を行うものである。

【0003】

ＤＮＮ－ＨＭＭモデルでは音響モデルと言語モデルをカスケードに接続して処理を行うため、誤差が蓄積されるという課題があった。一方、Ｅ２Ｅモデルは音声特徴量から直接テキストを出力するため全体最適され、認識率が向上することが報告されている（例えば特許文献１参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０２１－５０１３７６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に記載等の技術のＥ２Ｅモデルでは、辞書を用いていないため、人名など出現頻度の低い語を認識させるためにはモデル全体を再学習させる必要があり、簡易に人名や用語などを登録することができなかった。

【0006】

本発明は、上記の問題点に鑑みてなされたものであって、Ｅ２Ｅモデルの音声認識において登録されていない用語があっても認識率を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

（１）上記目的を達成するため、本発明の一態様に係る音声認識装置は、音声信号を取得する取得部と、取得された前記音声信号の音声特徴量を算出する音声特徴量算出部と、前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力する第１音声認識部と、前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力する第２音声認識部と、前記第１音声認識部で認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換える音素置換部と、前記音素置換部で置き換えられた第２タグ付きの音素をテキストに変換して出力する出力部と、を備える音声認識装置である。

【0008】

（２）また、本発明の一態様に係る音声認識装置は、前記出力部は、前記音素置換部で置換された第２タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストに変換する、（１）に記載の音声認識装置である。

【0009】

（３）また、本発明の一態様に係る音声認識装置は、前記出力部は、前記音素置換部で置換された第２タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストの前記類似度が閾値より大きい場合に、変換して出力し、前記音素置換部で置換された第２タグ付きの音素を、言語モデル記憶部が記憶する言語モデルの中から類似度が最も高いテキストの前記類似度が閾値以下の場合に、前記第１音声認識部が認識した前記第１タグ付きのテキストのまま出力する、（１）に記載の音声認識装置である。

【0010】

（４）また、本発明の一態様に係る音声認識装置は、前記第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルは、発話単位毎に、音声信号とテキストデータを用いて学習されたものであり、前記第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルは、発話単位毎に、音声信号と音素データを用いて学習されたものである、（１）から（３）のうちのいずれか１つに記載の音声認識装置である。

【0011】

（５）また、本発明の一態様に係る音声認識装置は、前記音素置換部は、前記第１音声認識部が出力するテキストに前記第１タグ付きの前記特定クラスの語彙部分が複数ある場合、最初の前記第１タグ付きの前記特定クラスの語彙部分を、前記第２タグ付きの音素に置き換える、（１）から（４）のうちのいずれか１つに記載の音声認識装置である。

【0012】

（６）また、本発明の一態様に係る音声認識装置は、前記特定クラスの語彙部分は、人名、部署名、商品名、機種名、部品名、および地名のうちの少なくとも１つの固有名詞である、（１）から（５）のうちのいずれか１つに記載の音声認識装置である。

【0013】

（７）上記目的を達成するため、本発明の一態様に係る音声認識方法は、取得部が、音声信号を取得し、音声特徴量算出部が、取得された前記音声信号の音声特徴量を算出し、第１音声認識部が、前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力し、第２音声認識部が、前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力し、音素置換部が、前記第１音声認識部で認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換え、出力部が、前記音素置換部で置き換えられた第２タグ付きの音素をテキストに変換して出力する、音声認識方法である。

【0014】

（８）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、音声信号を取得させ、取得された前記音声信号の音声特徴量を算出させ、前記音声特徴量に基づいて、学習済みの第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第１タグを付けて出力させ、前記音声特徴量に基づいて、学習済みの第２Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第２タグを付けて出力ささせ、前記第１Ｅｎｄ－ｔｏ－Ｅｎｄモデルを用いて認識されたテキストの前記第１タグ付きの語彙を、前記第２タグ付きの音素に置き換えさせ、前記置き換えられた第２タグ付きの音素をテキストに変換して出力させる、プログラムである。

【発明の効果】

【0015】

（１）～（８）によれば、Ｅ２Ｅモデルの音声認識において登録されていない用語があっても認識率を向上させることができる。

【図面の簡単な説明】

【0016】

【図1】実施形態に係る音声認識装置の構成例を示す図である。

【図2】実施形態に係る音声認識処理の例を説明するための図である。

【図3】実施形態に係る音声認識処理のフローチャートである。

【図4】従来手法におけるＤＮＮ－ＨＭＭモデルを用いた音声認識の例を説明するための図である。

【図5】従来手法におけるＥ２Ｅの場合の音声認識の例を説明するための図である。

【図6】評価条件を示す図である。

【図7】評価結果の一例を示す図である。

【発明を実施するための形態】

【0017】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

【0018】

[音声認識装置の構成例]
図１は、本実施形態に係る音声認識装置の構成例を示す図である。図１のように、音声認識装置１は、取得部１０１と、音源定位部１０２と、音源分離部１０３と、音響特徴量抽出部１０４と、モデル１０５（第１Ｅｎｄ－ｔｏ－Ｅｎｄモデル）と、テキスト出力部１０６（第１音声認識部）と、モデル１０７（第２Ｅｎｄ－ｔｏ－Ｅｎｄモデル）と、音素タイプライター出力部１０８（第２音声認識部）と、音素変換部１０９と、言語モデル記憶部１１０と、類似度算出部１１１（出力部）と、置換部１１２（出力部）と、出力部１１３を備える。なお、音声認識装置１は、取得される音声信号に１つの発話者の発話の場合、音源定位部、音源分離部を備えていなくてもよい。

【0019】

取得部１０１は、音声信号を取得する。音声信号は、例えばマイクロフォンアレイで収音されたものであってもよい。

【0020】

音源定位部１０２は、取得部１０１が出力するマイクアレイ番号が付与されたＭチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム（例えば、２０ｍｓ）毎に定める（音源定位）。音源定位部１０２は、音源定位において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部１０２は、空間スペクトルに基づいて音源毎の音源方向を定める。なお、音源定位部１０２は、ＭＵＳＩＣ法に代えて、その他の手法、例えば、重み付き遅延和ビームフォーミング（ＷＤＳ－ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法を用いて音源定位を算出してもよい。

【0021】

音源分離部１０３は、音源定位部１０２が出力する音源ＩＤ（識別情報）が付与された音源方向情報と、取得部１０１が出力するＭチャネルの音声信号を取得する。音源分離部１０３は、Ｍチャネルの音声信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音声信号である音源別音声信号（分離音）に分離する。音源分離部１０３は、音源別音声信号に分離する際、例えば、ＧＨＤＳＳ（Geometric-constrained High-order Decorrelation-based Source Separation）法を用いる。音源分離部１０３は、分離した音声信号のスペクトルを求める。なお、音声認識装置１は、発話区間検出部を備えていてもよい。発話区間検出部を備える場合、発話区間検出部は、音源定位部１０２が出力する音源方向情報と、取得部１０１が出力するＭチャネルの音声信号に基づいて発話区間（発話の開始時刻と発話の終了時刻）を検出するようにしてもよい。そして、音源分離部１０３は、発話区間検出部が検出した発話区間（発話の開始時刻と発話の終了時刻）も用いて、音源を分離するようにしてもよい。なお、音源分離部１０３は、音声信号の大きさが所定値以上の区間を発話区間とみなすようにしてもよい。

【0022】

音響特徴量抽出部１０４は、音源分離部１０３が出力するスペクトルから音響特徴量を音源毎に計算する。音響特徴量抽出部１０４は、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ－ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーを、所定時間（例えば、１０ｍｓ）毎に算出することで音響特徴量を算出する。なお、ＭＳＬＳは、音声信号の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。

【0023】

モデル１０５は、音声認識用の学習モデルであり、例えばオープンソースのＥＳＰｎｅｔ（https://kan-bayashi.github.io/asj-espnet2-tutorial/）モデルである。モデル１０５は、予めカスタマイズしたいクラス語（例えば、人名、部署名、商品名、機種名、部品名、地名等の固有名詞等）にタグを付けた音声信号とテキストのペアのデータセットを用いて学習を行う。

【0024】

テキスト出力部１０６は、モデル１０５に音声特徴量を入力することで、クラスタグ（第１タグ）付きのテキストを出力する。

【0025】

モデル１０７は、音声認識用の学習モデルであり、例えばオープンソースのＥＳＰｎｅｔモデルである。モデル１０７は、テキストの読み仮名から音素列の学習データを作成し、モデル学習を行う。

【0026】

音素タイプライター出力部１０８は、モデル１０７に音声特徴量を入力することで、クラスタグ（第２タグ）付きの音素タイプライターを出力する。

【0027】

音素変換部１０９は、クラスタグ付きのテキストの第１タグ＜＞内の表記に対応する第２タグの音素列に変換する。

【0028】

言語モデル記憶部１１０は、クラス内のテキストと音素を関連付けて記憶する。言語モデル記憶部１１０は、例えば、テキスト＜田中＞に音素＜ｔａｎａｋａ＞を関連付け、テキスト＜畑中＞に音素＜ｈａｔａｎａｋａ＞を関連付けて記憶する。

【0029】

類似度算出部１１１は、言語モデル記憶部１１０が記憶する音素列と一つずつ比較し、例えば、音素列に含まれる音素において一致する個数と総音素数との比を、類似度（０～１）として算出する。

【0030】

置換部１１２は、算出された類似度に基づいて、音素列の置換を行うか否か判断する。例えば、置換部１１２は、類似度ｒが最大かつ閾値を超えている人名表記に変換する。また、置換部１１２は、類似度ｒが閾値以下の場合、置換せず、クラスタグ付テキスト出力を採用する。なお、閾値は例えば０．８である。なお、閾値は一例であり、用途、クラス語等に応じて設定するようにしてもよい。

【0031】

出力部１１３は、音声認識した結果のテキストを外部装置（表示装置、印刷装置、コンピュータ、携帯端末等）に出力する。なお、例えば出力部１１３が、類似度算出部１１１と置換部１１２の機能を有していてもよい。

【0032】

なお、音声認識装置１は、学習と音声認識を、発話単位（例えば１発話期間）毎に行う。

【0033】

［音声認識処理例］
次に、本実施形態の音声認識処理の例を説明する。
図２は、本実施形態に係る音声認識処理の例を説明するための図である。図３は、本実施形態に係る音声認識処理のフローチャートである。

【0034】

（ステップＳ１）取得部１０１は、音声信号を取得する。

【0035】

（ステップＳ２）音響特徴量抽出部１０４は、取得された音声信号の音響特徴量を計算して、テキスト出力部１０６と音素タイプライター出力部１０８に出力する。

【0036】

（ステップＳ３）テキスト出力部１０６は、モデル１０５に音声特徴量を入力することで、クラスタグ付きのテキストを出力する。例えば、モデル１０５での音声認識結果が「これは田中に頼む」の場合、テキスト出力部１０６は、人名と認識した「田中」にクラスタグを付与して、「これは＜田中＞に頼む」（ｇ１）を出力する。

【0037】

（ステップＳ４）音素タイプライター出力部１０８は、モデル１０７に音声特徴量を入力することで、クラスタグ付きの音素タイプライターを出力する。例えば、モデル１０７での音素認識結果が「ｋｏｒｅｗａｈａｔａｎａｋａｎｉｔａｎｏｍｕ（これははたなかにたのむ）」の場合、音素タイプライター出力部１０８は、人名の音素ｈａｔａｎａｋａにクラスタグを付与して、「ｋｏｒｅｗａ＜ｈａｔａｎａｋａ＞ｎｉｔａｎｏｍｕ」（ｇ２）を出力する。

【0038】

（ステップＳ５）音素変換部１０９は、クラスタグ付きのテキストの＜＞内の表記に対応する音素列に変換する。例えばテキスト出力が「これは＜田中＞に頼む」であり、音素タイプライター出力が「ｋｏｒｅｗａ＜ｈａｔａｎａｋａ＞ｎｉｔａｎｏｍｕ」の場合、音素変換部１０９は、「これは＜ｈａｔａｎａｋａ＞に頼む」（ｇ３）と置換する。

【0039】

（ステップＳ６）類似度算出部１１１は、言語モデル記憶部１１０が記憶する音素列と一つずつ比較し、例えば、音素列に含まれる音素において一致する個数と総音素数との比を、類似度ｒ（０～１）として算出する。

【0040】

（ステップＳ７）置換部１１２は、類似度ｒが閾値より大きいか否かを判別する。置換部１１２は、類似度ｒが閾値より大きい場合（ステップＳ７；ＹＥＳ）、ステップＳ８の処理に進める。置換部１１２は、類似度ｒが閾値より以下の場合（ステップＳ７；ＮＯ）、ステップＳ９の処理に進める。

【0041】

（ステップＳ８）置換部１１２は、類似度ｒが閾値より大きい場合、音素を、言語モデル記憶部１１０が記憶するクラス語と置換して出力部１１３から出力する。置換部１１２は、例えば、類似度ｒが０．９の場合、言語モデル記憶部１１０が記憶する人名と置換して、「これは畑中に頼む」（ｇ４）を出力部１１３から出力する。

【0042】

（ステップＳ９）置換部１１２は、類似度ｒが閾値以下の場合、音素を、言語モデル記憶部１１０が記憶するクラス語と置換せずに出力部１１３から出力する。置換部１１２は、例えば、類似度ｒが０．７の場合、言語モデル記憶部１１０が記憶する人名と置換せずに、「これは田中に頼む」（ｇ５）を出力部１１３から出力する。

【0043】

なお、図３において、例えばステップＳ３とＳ４の処理は、平行して行われるようにしてもよく、時分割処理されてもよい。

【0044】

また、上述した処理において、置換部１１２は、例えば類似度と閾値との比較を行わずに、最も類似度が大きかったクラス語（語彙）を選択して、出力部１１３に出力させるようにしてもよい。

【0045】

このように本実施形態では、タグ付きの学習用データセットを用い、音響特徴量から特定のクラスの語彙部分を判別できるようにＥ２Ｅモデルを学習させるようにした。そして本実施形態では、特定クラスの語彙部分は音素で出力し、その音素に対応するテキストを辞書を用いて推定するようにした。そして本実施形態では、推定したテキストをＥ２Ｅモデルでの音声認識結果に挿入するようにした。

【0046】

これにより、本実施形態によれば、Ｅ２Ｅモデルの音声認識において登録されていない用語があっても認識率を向上させることができる。

【0047】

なお、１つの発話に複数のクラス語が含まれる場合、音素変換部１０９は、例えば左から右に従って音素に変換する。例えば、テキスト出力が「<佐藤＞＜畑中＞」、音素タイプライター出力が「＜ｈａｔａｎａｋａ＞」の場合、音素変換部１０９は、テキスト＜佐藤＞を音素＜ｈａｔａｎａｋａ＞に変換し、＜畑中＞を変換しない。

【0048】

なお、出力部１１３は、類似度の値によっては、テキストによる出力の結果と、音素による出力に基づく漢字表記のテキストの両方を提示するようにしてもよい。このような場合、利用者（発話）は、適切な方を選択し、音声認識装置１は、選択された結果を言語モデル記憶部１１０に関連付けて記憶させるようにしてもよい。もしくは、出力部１１３は、類似度の値によっては、音素で認識したクラス語を、例えば「カタカナ」か「ひらがな」で提示するようにしてもよい。また、出力部１１３は、算出された類似度も提示するようにしてもよい。

【0049】

［従来手法におけるモデル］
ここで従来手法におけるモデルについて説明する。
図４は、従来手法におけるＤＮＮ－ＨＭＭモデルを用いた音声認識の例を説明するための図である。図４の例では、ＤＮＮベースの音響モデルと、発音辞書と、Ｎ－ｇｒａｍの言語モデルを用いている。このため、新規用語を登録したい場合は、発音辞書に登録するか、Ｎ－ｇｒａｍ言語モデルのテキストの部分を再学習させることで、比較的簡単にカスタマイズできる。

【0050】

図５は、従来手法におけるＥ２Ｅの場合の音声認識の例を説明するための図である。図５のように、Ｅ２Ｅを用いた場合は、モデルに辞書の概念がない。このため、新規用語の登録を行いたい場合は、新規用語を含む音声信号と、新規用語が使われているテキストとの組を多数用いてモデル全体を再学習する必要があり、容易にカスタマイズできなかった。

【0051】

これに対して、本実施形態では、上述したようにＥ２Ｅモデルを用いた認識結果にクラスタグを付けて出力するようにした。なお、従来のＥ２Ｅの出力では、クラスタグが扶養されていたので、出力されるテキストにおいて、例えば人名、固有名詞がどれであるか分からなかった。

【0052】

このため、本実施形態では、予めクラス語（用途に応じて人名や固有名詞）を学習させ、クラス語にタグを付けて出力させるようにした。さらに、本実施形態では、E2Eモデルを２つ用いて、一方のモデルでテキストのうちクラス語にタグを付け、他方のモデルで読み方を示す音素のうちクラス語にタグを付けるようにした。

【0053】

そして、本実施形態では、この２つの認識結果において、テキストのクラス語を音素列に置き換えるようにした。

【0054】

さらに、本実施形態では、音素として認識されたクラス語が、どのような漢字表記であるのかを推定するため、予め学習してあるクラス内言語モデルを参照して、音素（読み方）に最も類似度の高い漢字表記のクラス語を抽出するようにした。

【0055】

そして、本実施形態では、例えば、類似度が最も高いものを抽出し、さらにその類似度が閾値より大きい場合に置換して出力し、閾値以下の場合に置換せずにテキスト出力された結果を出力するようにした。なお、本実施形態によれば。閾値と比較することで、音素が正しく認識できていない場合や、言語モデルに認識すべきクラス語が登録されていない場合に、類似度が小さい値となるため、このようなエラー出力を防ぐことができる。

【0056】

これにより、本実施形態によれば、Ｅ２Ｅモデルで学習されていないクラス語であっても、適切に音声認識することができる。

【0057】

［評価結果］
次に、上述した本実施形態の音声認識方法を評価した結果を説明する。
図６は、評価条件を示す図である。図６のように、評価に用いた総発話数は１０９７、人名箇所は６８カ所（うち３２カ所は未学習）、人名数は３３人（うち１５人は未学習）、閾値は、０．０～１．０である。また、クラス内の言語モデルに登録されている人数は、１５人、３３人、１３３人である。な、評価では、クラス語として人名を用いた。

【0058】

図７は、評価結果の一例を示す図である。図７において、ＴｏｔａｌＣＥＲは全体のエラーレート（％）であり、クラスＣＥＲはカスタマイズしたいクラス語に対するエラーレート（％）であり、クラス外ＣＥＲはそれ以外のエラーレート（％）である。また、ＤＮＮ－ＨＭＭは、カスタマイズ可能な従来手法であり参考値である。また、Ｅ２Ｅベースラインは、従来手法によるカスタマイズできない音声認識結果であり比較例である。

【0059】

図７に示すように、クラス内の言語モデルに人名が過不足無く登録されている例である３３人の場合は、他の登録人数よりエラーレートの改善ができている。さらに、この場合は、閾値を０～１．０に変化させても、エラーレートはどの閾値でも低い。

【0060】

これに対して、クラス内の言語モデルに人名の登録が不足している例である１５人（不足１８人）の場合は、エラーレートは、３３人が登録されている場合より大きくなるが、閾値を０．８程度にすることでエラーレートを従来手法より改善できた。

【0061】

また、クラス内の言語モデルに人名の登録が多すぎる例である１３３人の場合は、閾値を変えてもエラーレートの変化は少ない。

【0062】

このように、評価においては、クラス内の言語モデルに人名の登録数が適正であっても不足であっても多すぎても、類似度に対する閾値を０．８程度に設定することで、カスタマイズ対象のエラーレートを改善することができた。

【0063】

なお、本発明における音声認識装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識装置１が行う処理の一部または全てを行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0064】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0065】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0066】

１…音声認識装置、１０１…取得部、１０２…音源定位部、１０３…音源分離部、１０４…音響特徴量抽出部、１０５…モデル、１０６…テキスト出力部、１０７…モデル、１０８…音素タイプライター出力部、１０９…音素変換部、１１０…言語モデル記憶部、１１１…類似度算出部、１１２…置換部、１１３…出力部

【図1】