IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-43949音声認識装置、音声認識方法、およびプログラム
<>
  • 特開-音声認識装置、音声認識方法、およびプログラム 図1
  • 特開-音声認識装置、音声認識方法、およびプログラム 図2
  • 特開-音声認識装置、音声認識方法、およびプログラム 図3
  • 特開-音声認識装置、音声認識方法、およびプログラム 図4
  • 特開-音声認識装置、音声認識方法、およびプログラム 図5
  • 特開-音声認識装置、音声認識方法、およびプログラム 図6
  • 特開-音声認識装置、音声認識方法、およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024043949
(43)【公開日】2024-04-02
(54)【発明の名称】音声認識装置、音声認識方法、およびプログラム
(51)【国際特許分類】
   G10L 15/16 20060101AFI20240326BHJP
   G10L 15/22 20060101ALI20240326BHJP
【FI】
G10L15/16
G10L15/22 453
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022149204
(22)【出願日】2022-09-20
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】周藤 唯
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】畑 和也
(57)【要約】
【課題】E2Eモデルの音声認識において登録されていない用語があっても認識率を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【解決手段】音声認識装置は、音声信号を取得する取得部と、取得された音声信号の音声特徴量を算出する音声特徴量算出部と、音声特徴量に基づいて学習済みの第1E2Eモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力する第1音声認識部と、音声特徴量に基づいて学習済みの第2E2Eモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力する第2音声認識部と、第1音声認識部で認識されたテキストの第1タグ付きの語彙を第2タグ付きの音素に置き換える音素置換部と、音素置換部で置き換えられた第2タグ付きの音素をテキストに変換して出力する出力部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声信号を取得する取得部と、
取得された前記音声信号の音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力する第1音声認識部と、
前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力する第2音声認識部と、
前記第1音声認識部で認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換える音素置換部と、
前記音素置換部で置き換えられた第2タグ付きの音素をテキストに変換して出力する出力部と、
を備える音声認識装置。
【請求項2】
前記出力部は、前記音素置換部で置換された第2タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストに変換する、
請求項1に記載の音声認識装置。
【請求項3】
前記出力部は、
前記音素置換部で置換された第2タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストの前記類似度が閾値より大きい場合に、変換して出力し、
前記音素置換部で置換された第2タグ付きの音素を、言語モデル記憶部が記憶する言語モデルの中から類似度が最も高いテキストの前記類似度が閾値以下の場合に、前記第1音声認識部が認識した前記第1タグ付きのテキストのまま出力する、
請求項1に記載の音声認識装置。
【請求項4】
前記第1End-to-Endモデルは、発話単位毎に、音声信号とテキストデータを用いて学習されたものであり、
前記第2End-to-Endモデルは、発話単位毎に、音声信号と音素データを用いて学習されたものである、
請求項1または請求項2に記載の音声認識装置。
【請求項5】
前記音素置換部は、前記第1音声認識部が出力するテキストに前記第1タグ付きの前記特定クラスの語彙部分が複数ある場合、最初の前記第1タグ付きの前記特定クラスの語彙部分を、前記第2タグ付きの音素に置き換える、
請求項1または請求項2に記載の音声認識装置。
【請求項6】
前記特定クラスの語彙部分は、人名、部署名、商品名、機種名、部品名、および地名のうちの少なくとも1つの固有名詞である、
請求項1または請求項2に記載の音声認識装置。
【請求項7】
取得部が、音声信号を取得し、
音声特徴量算出部が、取得された前記音声信号の音声特徴量を算出し、
第1音声認識部が、前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力し、
第2音声認識部が、前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力し、
音素置換部が、前記第1音声認識部で認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換え、
出力部が、前記音素置換部で置き換えられた第2タグ付きの音素をテキストに変換して出力する、
音声認識方法。
【請求項8】
コンピュータに、
音声信号を取得させ、
取得された前記音声信号の音声特徴量を算出させ、
前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力させ、
前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力ささせ、
前記第1End-to-Endモデルを用いて認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換えさせ、
前記置き換えられた第2タグ付きの音素をテキストに変換して出力させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法、およびプログラムに関する。
【背景技術】
【0002】
音声認識技術において従来のDNN-HMM(Deep Neural Network-Hidden Markov model)モデルに代わり、End-to-End(E2E)モデルが注目されている。なお、E2Eモデルを用いた深層学習とは、入力データが与えられてから結果を出力するまで多段の処理を必要としていた機械学習システムを、様々な処理を行う複数の層・モジュールを備えた一つの大きなニューラルネットワークに置き換えて学習を行うものである。
【0003】
DNN-HMMモデルでは音響モデルと言語モデルをカスケードに接続して処理を行うため、誤差が蓄積されるという課題があった。一方、E2Eモデルは音声特徴量から直接テキストを出力するため全体最適され、認識率が向上することが報告されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2021-501376号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載等の技術のE2Eモデルでは、辞書を用いていないため、人名など出現頻度の低い語を認識させるためにはモデル全体を再学習させる必要があり、簡易に人名や用語などを登録することができなかった。
【0006】
本発明は、上記の問題点に鑑みてなされたものであって、E2Eモデルの音声認識において登録されていない用語があっても認識率を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)上記目的を達成するため、本発明の一態様に係る音声認識装置は、音声信号を取得する取得部と、取得された前記音声信号の音声特徴量を算出する音声特徴量算出部と、前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力する第1音声認識部と、前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力する第2音声認識部と、前記第1音声認識部で認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換える音素置換部と、前記音素置換部で置き換えられた第2タグ付きの音素をテキストに変換して出力する出力部と、を備える音声認識装置である。
【0008】
(2)また、本発明の一態様に係る音声認識装置は、前記出力部は、前記音素置換部で置換された第2タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストに変換する、(1)に記載の音声認識装置である。
【0009】
(3)また、本発明の一態様に係る音声認識装置は、前記出力部は、前記音素置換部で置換された第2タグ付きの音素を、テキストと音素とが関連付けられている言語モデルの中から類似度が最も高いテキストの前記類似度が閾値より大きい場合に、変換して出力し、前記音素置換部で置換された第2タグ付きの音素を、言語モデル記憶部が記憶する言語モデルの中から類似度が最も高いテキストの前記類似度が閾値以下の場合に、前記第1音声認識部が認識した前記第1タグ付きのテキストのまま出力する、(1)に記載の音声認識装置である。
【0010】
(4)また、本発明の一態様に係る音声認識装置は、前記第1End-to-Endモデルは、発話単位毎に、音声信号とテキストデータを用いて学習されたものであり、前記第2End-to-Endモデルは、発話単位毎に、音声信号と音素データを用いて学習されたものである、(1)から(3)のうちのいずれか1つに記載の音声認識装置である。
【0011】
(5)また、本発明の一態様に係る音声認識装置は、前記音素置換部は、前記第1音声認識部が出力するテキストに前記第1タグ付きの前記特定クラスの語彙部分が複数ある場合、最初の前記第1タグ付きの前記特定クラスの語彙部分を、前記第2タグ付きの音素に置き換える、(1)から(4)のうちのいずれか1つに記載の音声認識装置である。
【0012】
(6)また、本発明の一態様に係る音声認識装置は、前記特定クラスの語彙部分は、人名、部署名、商品名、機種名、部品名、および地名のうちの少なくとも1つの固有名詞である、(1)から(5)のうちのいずれか1つに記載の音声認識装置である。
【0013】
(7)上記目的を達成するため、本発明の一態様に係る音声認識方法は、取得部が、音声信号を取得し、音声特徴量算出部が、取得された前記音声信号の音声特徴量を算出し、第1音声認識部が、前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力し、第2音声認識部が、前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力し、音素置換部が、前記第1音声認識部で認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換え、出力部が、前記音素置換部で置き換えられた第2タグ付きの音素をテキストに変換して出力する、音声認識方法である。
【0014】
(8)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、音声信号を取得させ、取得された前記音声信号の音声特徴量を算出させ、前記音声特徴量に基づいて、学習済みの第1End-to-Endモデルを用いて音声認識を行って認識結果であるテキストのうち特定クラスの語彙部分に第1タグを付けて出力させ、前記音声特徴量に基づいて、学習済みの第2End-to-Endモデルを用いて音声認識を行って認識結果である音素のうち特定クラスの語彙部分に第2タグを付けて出力ささせ、前記第1End-to-Endモデルを用いて認識されたテキストの前記第1タグ付きの語彙を、前記第2タグ付きの音素に置き換えさせ、前記置き換えられた第2タグ付きの音素をテキストに変換して出力させる、プログラムである。
【発明の効果】
【0015】
(1)~(8)によれば、E2Eモデルの音声認識において登録されていない用語があっても認識率を向上させることができる。
【図面の簡単な説明】
【0016】
図1】実施形態に係る音声認識装置の構成例を示す図である。
図2】実施形態に係る音声認識処理の例を説明するための図である。
図3】実施形態に係る音声認識処理のフローチャートである。
図4】従来手法におけるDNN-HMMモデルを用いた音声認識の例を説明するための図である。
図5】従来手法におけるE2Eの場合の音声認識の例を説明するための図である。
図6】評価条件を示す図である。
図7】評価結果の一例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0018】
[音声認識装置の構成例]
図1は、本実施形態に係る音声認識装置の構成例を示す図である。図1のように、音声認識装置1は、取得部101と、音源定位部102と、音源分離部103と、音響特徴量抽出部104と、モデル105(第1End-to-Endモデル)と、テキスト出力部106(第1音声認識部)と、モデル107(第2End-to-Endモデル)と、音素タイプライター出力部108(第2音声認識部)と、音素変換部109と、言語モデル記憶部110と、類似度算出部111(出力部)と、置換部112(出力部)と、出力部113を備える。なお、音声認識装置1は、取得される音声信号に1つの発話者の発話の場合、音源定位部、音源分離部を備えていなくてもよい。
【0019】
取得部101は、音声信号を取得する。音声信号は、例えばマイクロフォンアレイで収音されたものであってもよい。
【0020】
音源定位部102は、取得部101が出力するマイクアレイ番号が付与されたMチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム(例えば、20ms)毎に定める(音源定位)。音源定位部102は、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部102は、空間スペクトルに基づいて音源毎の音源方向を定める。なお、音源定位部102は、MUSIC法に代えて、その他の手法、例えば、重み付き遅延和ビームフォーミング(WDS-BF:Weighted Delay and Sum Beam Forming)法を用いて音源定位を算出してもよい。
【0021】
音源分離部103は、音源定位部102が出力する音源ID(識別情報)が付与された音源方向情報と、取得部101が出力するMチャネルの音声信号を取得する。音源分離部103は、Mチャネルの音声信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音声信号である音源別音声信号(分離音)に分離する。音源分離部103は、音源別音声信号に分離する際、例えば、GHDSS(Geometric-constrained High-order Decorrelation-based Source Separation)法を用いる。音源分離部103は、分離した音声信号のスペクトルを求める。なお、音声認識装置1は、発話区間検出部を備えていてもよい。発話区間検出部を備える場合、発話区間検出部は、音源定位部102が出力する音源方向情報と、取得部101が出力するMチャネルの音声信号に基づいて発話区間(発話の開始時刻と発話の終了時刻)を検出するようにしてもよい。そして、音源分離部103は、発話区間検出部が検出した発話区間(発話の開始時刻と発話の終了時刻)も用いて、音源を分離するようにしてもよい。なお、音源分離部103は、音声信号の大きさが所定値以上の区間を発話区間とみなすようにしてもよい。
【0022】
音響特徴量抽出部104は、音源分離部103が出力するスペクトルから音響特徴量を音源毎に計算する。音響特徴量抽出部104は、例えば、静的メル尺度対数スペクトル(MSLS:Mel-Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間(例えば、10ms)毎に算出することで音響特徴量を算出する。なお、MSLSは、音声信号の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。
【0023】
モデル105は、音声認識用の学習モデルであり、例えばオープンソースのESPnet(https://kan-bayashi.github.io/asj-espnet2-tutorial/)モデルである。モデル105は、予めカスタマイズしたいクラス語(例えば、人名、部署名、商品名、機種名、部品名、地名等の固有名詞等)にタグを付けた音声信号とテキストのペアのデータセットを用いて学習を行う。
【0024】
テキスト出力部106は、モデル105に音声特徴量を入力することで、クラスタグ(第1タグ)付きのテキストを出力する。
【0025】
モデル107は、音声認識用の学習モデルであり、例えばオープンソースのESPnetモデルである。モデル107は、テキストの読み仮名から音素列の学習データを作成し、モデル学習を行う。
【0026】
音素タイプライター出力部108は、モデル107に音声特徴量を入力することで、クラスタグ(第2タグ)付きの音素タイプライターを出力する。
【0027】
音素変換部109は、クラスタグ付きのテキストの第1タグ<>内の表記に対応する第2タグの音素列に変換する。
【0028】
言語モデル記憶部110は、クラス内のテキストと音素を関連付けて記憶する。言語モデル記憶部110は、例えば、テキスト<田中>に音素<tanaka>を関連付け、テキスト<畑中>に音素<hatanaka>を関連付けて記憶する。
【0029】
類似度算出部111は、言語モデル記憶部110が記憶する音素列と一つずつ比較し、例えば、音素列に含まれる音素において一致する個数と総音素数との比を、類似度(0~1)として算出する。
【0030】
置換部112は、算出された類似度に基づいて、音素列の置換を行うか否か判断する。例えば、置換部112は、類似度rが最大かつ閾値を超えている人名表記に変換する。また、置換部112は、類似度rが閾値以下の場合、置換せず、クラスタグ付テキスト出力を採用する。なお、閾値は例えば0.8である。なお、閾値は一例であり、用途、クラス語等に応じて設定するようにしてもよい。
【0031】
出力部113は、音声認識した結果のテキストを外部装置(表示装置、印刷装置、コンピュータ、携帯端末等)に出力する。なお、例えば出力部113が、類似度算出部111と置換部112の機能を有していてもよい。
【0032】
なお、音声認識装置1は、学習と音声認識を、発話単位(例えば1発話期間)毎に行う。
【0033】
[音声認識処理例]
次に、本実施形態の音声認識処理の例を説明する。
図2は、本実施形態に係る音声認識処理の例を説明するための図である。図3は、本実施形態に係る音声認識処理のフローチャートである。
【0034】
(ステップS1)取得部101は、音声信号を取得する。
【0035】
(ステップS2)音響特徴量抽出部104は、取得された音声信号の音響特徴量を計算して、テキスト出力部106と音素タイプライター出力部108に出力する。
【0036】
(ステップS3)テキスト出力部106は、モデル105に音声特徴量を入力することで、クラスタグ付きのテキストを出力する。例えば、モデル105での音声認識結果が「これは田中に頼む」の場合、テキスト出力部106は、人名と認識した「田中」にクラスタグを付与して、「これは<田中>に頼む」(g1)を出力する。
【0037】
(ステップS4)音素タイプライター出力部108は、モデル107に音声特徴量を入力することで、クラスタグ付きの音素タイプライターを出力する。例えば、モデル107での音素認識結果が「korewahatanakanitanomu(これははたなかにたのむ)」の場合、音素タイプライター出力部108は、人名の音素hatanakaにクラスタグを付与して、「korewa<hatanaka>nitanomu」(g2)を出力する。
【0038】
(ステップS5)音素変換部109は、クラスタグ付きのテキストの<>内の表記に対応する音素列に変換する。例えばテキスト出力が「これは<田中>に頼む」であり、音素タイプライター出力が「korewa<hatanaka>nitanomu」の場合、音素変換部109は、「これは<hatanaka>に頼む」(g3)と置換する。
【0039】
(ステップS6)類似度算出部111は、言語モデル記憶部110が記憶する音素列と一つずつ比較し、例えば、音素列に含まれる音素において一致する個数と総音素数との比を、類似度r(0~1)として算出する。
【0040】
(ステップS7)置換部112は、類似度rが閾値より大きいか否かを判別する。置換部112は、類似度rが閾値より大きい場合(ステップS7;YES)、ステップS8の処理に進める。置換部112は、類似度rが閾値より以下の場合(ステップS7;NO)、ステップS9の処理に進める。
【0041】
(ステップS8)置換部112は、類似度rが閾値より大きい場合、音素を、言語モデル記憶部110が記憶するクラス語と置換して出力部113から出力する。置換部112は、例えば、類似度rが0.9の場合、言語モデル記憶部110が記憶する人名と置換して、「これは畑中に頼む」(g4)を出力部113から出力する。
【0042】
(ステップS9)置換部112は、類似度rが閾値以下の場合、音素を、言語モデル記憶部110が記憶するクラス語と置換せずに出力部113から出力する。置換部112は、例えば、類似度rが0.7の場合、言語モデル記憶部110が記憶する人名と置換せずに、「これは田中に頼む」(g5)を出力部113から出力する。
【0043】
なお、図3において、例えばステップS3とS4の処理は、平行して行われるようにしてもよく、時分割処理されてもよい。
【0044】
また、上述した処理において、置換部112は、例えば類似度と閾値との比較を行わずに、最も類似度が大きかったクラス語(語彙)を選択して、出力部113に出力させるようにしてもよい。
【0045】
このように本実施形態では、タグ付きの学習用データセットを用い、音響特徴量から特定のクラスの語彙部分を判別できるようにE2Eモデルを学習させるようにした。そして本実施形態では、特定クラスの語彙部分は音素で出力し、その音素に対応するテキストを辞書を用いて推定するようにした。そして本実施形態では、推定したテキストをE2Eモデルでの音声認識結果に挿入するようにした。
【0046】
これにより、本実施形態によれば、E2Eモデルの音声認識において登録されていない用語があっても認識率を向上させることができる。
【0047】
なお、1つの発話に複数のクラス語が含まれる場合、音素変換部109は、例えば左から右に従って音素に変換する。例えば、テキスト出力が「<佐藤><畑中>」、音素タイプライター出力が「<hatanaka>」の場合、音素変換部109は、テキスト<佐藤>を音素<hatanaka>に変換し、<畑中>を変換しない。
【0048】
なお、出力部113は、類似度の値によっては、テキストによる出力の結果と、音素による出力に基づく漢字表記のテキストの両方を提示するようにしてもよい。このような場合、利用者(発話)は、適切な方を選択し、音声認識装置1は、選択された結果を言語モデル記憶部110に関連付けて記憶させるようにしてもよい。もしくは、出力部113は、類似度の値によっては、音素で認識したクラス語を、例えば「カタカナ」か「ひらがな」で提示するようにしてもよい。また、出力部113は、算出された類似度も提示するようにしてもよい。
【0049】
[従来手法におけるモデル]
ここで従来手法におけるモデルについて説明する。
図4は、従来手法におけるDNN-HMMモデルを用いた音声認識の例を説明するための図である。図4の例では、DNNベースの音響モデルと、発音辞書と、N-gramの言語モデルを用いている。このため、新規用語を登録したい場合は、発音辞書に登録するか、N-gram言語モデルのテキストの部分を再学習させることで、比較的簡単にカスタマイズできる。
【0050】
図5は、従来手法におけるE2Eの場合の音声認識の例を説明するための図である。図5のように、E2Eを用いた場合は、モデルに辞書の概念がない。このため、新規用語の登録を行いたい場合は、新規用語を含む音声信号と、新規用語が使われているテキストとの組を多数用いてモデル全体を再学習する必要があり、容易にカスタマイズできなかった。
【0051】
これに対して、本実施形態では、上述したようにE2Eモデルを用いた認識結果にクラスタグを付けて出力するようにした。なお、従来のE2Eの出力では、クラスタグが扶養されていたので、出力されるテキストにおいて、例えば人名、固有名詞がどれであるか分からなかった。
【0052】
このため、本実施形態では、予めクラス語(用途に応じて人名や固有名詞)を学習させ、クラス語にタグを付けて出力させるようにした。さらに、本実施形態では、E2Eモデルを2つ用いて、一方のモデルでテキストのうちクラス語にタグを付け、他方のモデルで読み方を示す音素のうちクラス語にタグを付けるようにした。
【0053】
そして、本実施形態では、この2つの認識結果において、テキストのクラス語を音素列に置き換えるようにした。
【0054】
さらに、本実施形態では、音素として認識されたクラス語が、どのような漢字表記であるのかを推定するため、予め学習してあるクラス内言語モデルを参照して、音素(読み方)に最も類似度の高い漢字表記のクラス語を抽出するようにした。
【0055】
そして、本実施形態では、例えば、類似度が最も高いものを抽出し、さらにその類似度が閾値より大きい場合に置換して出力し、閾値以下の場合に置換せずにテキスト出力された結果を出力するようにした。なお、本実施形態によれば。閾値と比較することで、音素が正しく認識できていない場合や、言語モデルに認識すべきクラス語が登録されていない場合に、類似度が小さい値となるため、このようなエラー出力を防ぐことができる。
【0056】
これにより、本実施形態によれば、E2Eモデルで学習されていないクラス語であっても、適切に音声認識することができる。
【0057】
[評価結果]
次に、上述した本実施形態の音声認識方法を評価した結果を説明する。
図6は、評価条件を示す図である。図6のように、評価に用いた総発話数は1097、人名箇所は68カ所(うち32カ所は未学習)、人名数は33人(うち15人は未学習)、閾値は、0.0~1.0である。また、クラス内の言語モデルに登録されている人数は、15人、33人、133人である。な、評価では、クラス語として人名を用いた。
【0058】
図7は、評価結果の一例を示す図である。図7において、Total CERは全体のエラーレート(%)であり、クラスCERはカスタマイズしたいクラス語に対するエラーレート(%)であり、クラス外CERはそれ以外のエラーレート(%)である。また、DNN-HMMは、カスタマイズ可能な従来手法であり参考値である。また、E2Eベースラインは、従来手法によるカスタマイズできない音声認識結果であり比較例である。
【0059】
図7に示すように、クラス内の言語モデルに人名が過不足無く登録されている例である33人の場合は、他の登録人数よりエラーレートの改善ができている。さらに、この場合は、閾値を0~1.0に変化させても、エラーレートはどの閾値でも低い。
【0060】
これに対して、クラス内の言語モデルに人名の登録が不足している例である15人(不足18人)の場合は、エラーレートは、33人が登録されている場合より大きくなるが、閾値を0.8程度にすることでエラーレートを従来手法より改善できた。
【0061】
また、クラス内の言語モデルに人名の登録が多すぎる例である133人の場合は、閾値を変えてもエラーレートの変化は少ない。
【0062】
このように、評価においては、クラス内の言語モデルに人名の登録数が適正であっても不足であっても多すぎても、類似度に対する閾値を0.8程度に設定することで、カスタマイズ対象のエラーレートを改善することができた。
【0063】
なお、本発明における音声認識装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識装置1が行う処理の一部または全てを行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0064】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0065】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0066】
1…音声認識装置、101…取得部、102…音源定位部、103…音源分離部、104…音響特徴量抽出部、105…モデル、106…テキスト出力部、107…モデル、108…音素タイプライター出力部、109…音素変換部、110…言語モデル記憶部、111…類似度算出部、112…置換部、113…出力部
図1
図2
図3
図4
図5
図6
図7