(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025059613
(43)【公開日】2025-04-10
(54)【発明の名称】音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20250403BHJP
G10L 15/065 20130101ALI20250403BHJP
G10L 15/16 20060101ALN20250403BHJP
【FI】
G10L15/06 300Z
G10L15/06 200B
G10L15/065 A
G10L15/16
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023169815
(22)【出願日】2023-09-29
(71)【出願人】
【識別番号】000102717
【氏名又は名称】NTTテクノクロス株式会社
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】長谷川 隆明
(72)【発明者】
【氏名】山本 昂輝
(72)【発明者】
【氏名】杉島 慎之輔
(72)【発明者】
【氏名】野本 済央
(72)【発明者】
【氏名】能登 肇
(57)【要約】
【課題】音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術を提供すること。
【解決手段】本開示の一態様による音声認識モデル追加学習装置は、未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、
を有する音声認識モデル追加学習装置。
【請求項2】
前記合成音声に対して雑音を重畳させた雑音重畳合成音声を生成する雑音重畳部を更に有し、
前記音声合成部は、
前記テキストを読み上げる話者、前記テキストを読み上げるときの話速、及び前記テキストを読み上げるときの抑揚の少なくとも1つを表すパラメータの値を変化させることにより、前記テキストから複数の合成音声を生成し、
前記モデル学習部と、
前記合成音声を前記学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化し、かつ、前記雑音重畳合成音声を前記学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習する、請求項1に記載の音声認識モデル追加学習装置。
【請求項3】
未知語が含まれる文書が与えられると、前記文書が構造化されている場合には構造毎に前記文書からテキストを抽出し、前記文書が構造化されていない場合には文単位に前記文書からテキストを抽出するテキスト抽出部を更に有し、
前記音声合成部は、
前記テキスト抽出部によって抽出されたテキストを用いて、前記合成音声を生成する、請求項1又は2に記載の音声認識モデル追加学習装置。
【請求項4】
未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成手順と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習手順と、
をコンピュータが実行する音声認識モデル追加学習方法。
【請求項5】
未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成手順と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習手順と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラムに関する。
【背景技術】
【0002】
ニューラルネットワークで実現されるend-to-endの音声認識モデルが従来から知られており、そのモデル精度を向上させるために様々な技術が提案されている。例えば、特許文献1には、少ない教師データで精度の高いend-to-endの音声認識モデルを学習できる技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、例えば、専門用語等の未知語を正しく認識させるためには、未知語を含む音声とその書き起こしテキストを準備した上で音声認識モデルを追加学習(チューニング)する必要があり、追加学習に要するコストが高かった。
【0005】
本開示は、上記の点に鑑みてなされたもので、音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様による音声認識モデル追加学習装置は、未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、を有する。
【発明の効果】
【0007】
音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術が提供される。
【図面の簡単な説明】
【0008】
【
図1】第一の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。
【
図2】第一の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。
【
図3】第二の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。
【
図4】第二の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。
【
図5】第三の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。
【
図6】第三の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。
【
図7】第四の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。
【
図8】第四の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。
【
図9】第五の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。
【
図10】第五の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態として、第一乃至第五の実施形態について説明する。以下の各実施形態では、ニューラルネットワークで実現されるend-to-endの音声認識モデルに未知語を正しく認識させるための追加学習(チューニング)を行う際に、その追加学習コストを従来よりも削減できる音声認識モデル追加学習装置10について説明する。ここで、未知語とは音声認識モデルが正しく認識できない語(単語、句、フレーズ等)やend-to-endの音声認識モデルの学習時に用いられた学習データに含まれていなかった語(単語、句、フレーズ等)のことであるが、以下では、未知語として、主に、特定の分野・領域・業界・文脈等の間でのみ使用され、一般的でない語のことを指すものとする。未知語の典型例としては、特定の分野・領域・業界・文脈等の間でのみ使用される専門用語、業界用語、固有名詞(商品名、サービス名、人名、組織名等)、隠語、略語等が挙げられる。なお、追加学習は再学習と呼ばれてもよい。
【0010】
[第一の実施形態]
以下、第一の実施形態について説明する。
【0011】
<第一の実施形態に係る音声認識モデル追加学習装置10の機能構成例>
第一の実施形態に係る音声認識モデル追加学習装置10の機能構成例を
図1に示す。
図1に示すように、第一の実施形態に係る音声認識モデル追加学習装置10は、テキスト抽出部101と、音声合成部102と、モデル学習部103とを有する。これら各部は、例えば、音声認識モデル追加学習装置10にインストールされた1以上のプログラムが、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置に実行させる処理により実現される。また、第一の実施形態に係る音声認識モデル追加学習装置10は、音声認識モデル記憶部201を有する。音声認識モデル記憶部201は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。
【0012】
テキスト抽出部101は、音声認識モデル追加学習装置10に与えられた文書からテキスト(文)を抽出する。ここで、文書には未知語が含まれることを想定するが、必ずしも未知語が含まれていなくてもよい。文書の具体例としては、Web会議システム等を利用した会議における音声対話に関連する文書(例えば、プレゼン資料、説明資料、報告書等)等が挙げられる。ただし、文書は少なくともテキストが含まれていれば任意の文書でよく、例えば、テキスト以外にも図表等が含まれていてもよい。また、文書は何等かの構造を持った文章(構造化された文書)であってもよいし、何等の構造を持たない文書であってもよい。
【0013】
テキスト抽出部101が文書からテキストを抽出する方法は特定の方法に限定されるものではないが、例えば、文書が構造を持つ場合はその構造単位にテキストを抽出することが考えられる。具体的には、例えば、文書が複数のオブジェクト(図、表、テキストボックス、パラグラフ等)で構成されている場合、テキスト抽出部101は、オブジェクト毎に、そのオブジェクトからテキストを抽出すればよい。一方で、例えば、文書が構造を持たない場合は読点やピリオド等で区切られる文単位にテキストを抽出することが考えられる。
【0014】
以下、音声認識モデル追加学習装置10に与えられた文書の集合(以下、文書集合ともいう。)をD={Di|i=1,・・・,|D|}とする。また、文書Diから抽出されたテキストをSj
(i)(j=1,・・・,N(i))とし、テキスト集合をS={Sj
(i)|i=1,・・・,|D|,j=1,・・・,N(i)}とする。ここで、|D|は文書集合Dに含まれる文書数、N(i)は文書Diから抽出されたテキスト数を表す。
【0015】
音声合成部102は、テキスト抽出部101によって抽出されたテキストから音声合成モデルにより合成音声を生成する。すなわち、音声合成部102は、各テキストSj
(i)∈Sから音声合成モデルにより合成音声Tj
(i)を生成する。ここで、Tj
(i)はテキストSj
(i)を音声合成モデルにより入力することにより生成された合成音声を表す。以下、合成音声集合をT={Tj
(i)|i=1,・・・,|D|,j=1,・・・,N(i)}とする。
【0016】
なお、音声合成モデルとは、テキスト(より正確には、そのテキストの情報をベクトル化した言語ベクトル)を入力として、そのテキストを読み上げる合成音声(より正確には、その合成音声の特徴を表す情報(例えば、メルスペクトログラム等))を生成及び出力する機械学習モデルのことである。音声合成部102は、例えば、既存の任意の音声合成ソフトウェア(又は、音声合成モジュール等)により実現され、その音声合成ソフトウェアに含まれる学習済み音声合成モデルによりテキストから合成音声を生成すればよい。ただし、学習済み音声合成モデル以外の手法により音声合成を実現する既存の音声合成ソフトウェアも存在し、音声合成部102は、その音声合成ソフトウェアの音声合成手法により実現されてもよい。
【0017】
モデル学習部103は、テキスト抽出部101によって抽出されたテキストと、音声合成部102によって生成された合成音声とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部201に記憶されている音声認識モデルを追加学習(チューニング)する。すなわち、モデル学習部103は、テキストSj
(i)∈Sを教師データとして、合成音声Tj
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。
【0018】
音声認識モデル記憶部201は、ニューラルネットワークで実現されるend-to-endの音声認識モデルを記憶する。
【0019】
<第一の実施形態に係る音声認識モデル追加学習処理>
第一の実施形態に係る音声認識モデル追加学習処理について、
図2を参照しながら説明する。なお、以下では、文書集合Dが音声認識モデル追加学習装置10に与えられたものとする。
【0020】
テキスト抽出部101は、各文書Di(i=1,・・・,|D|)からテキストSj
(i)(j=1,・・・,N(i))をそれぞれ抽出する(ステップS101)。これにより、テキスト集合S={Sj
(i)|i=1,・・・,|D|,j=1,・・・,N(i)}が得られる。
【0021】
次に、音声合成部102は、上記のステップS101で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))から音声合成モデルにより合成音声Tj
(i)をそれぞれ生成する(ステップS102)。これにより、合成音声集合T={Tj
(i)|i=1,・・・,|D|,j=1,・・・,N(i)}が得られる。
【0022】
そして、モデル学習部103は、上記のステップS101で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))と、上記のステップS102で生成された合成音声Tj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部201に記憶されている音声認識モデルを追加学習(チューニング)する(ステップS103)。すなわち、モデル学習部103は、テキストSj
(i)を教師データとして、合成音声Tj
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。これにより、文書集合D中に存在する未知語が認識可能な音声認識モデルが得られる。
【0023】
以上のように、第一の実施形態に係る音声認識モデル追加学習装置10は、未知語が含まれる文書からテキストを抽出すると共に、そのテキストを読み上げた音声を音声合成モデルにより生成する。これにより、教師データとなるテキストと、音声認識モデルへの入力となる音声とを低コストで得ることができるため、当該音声認識モデルに未知語を正しく認識させるための追加学習(チューニング)を低コストで実現することが可能となる。
【0024】
なお、音声認識モデル追加学習装置10には、例えば、任意のタイミングで文書集合Dが与えられる。このため、例えば、音声認識モデルを追加学習させたい者(ユーザ)は任意のタイミングで文書集合D又はその文書集合Dを構成する文書を音声認識モデル追加学習装置10に与えればよい。これにより、例えば、音声認識モデルを1日1回追加学習させる場合、文書集合Dは1日に与えられた文書によって構成される。同様に、例えば、会議の実施毎に音声認識モデルを追加学習させる場合、文書集合Dは会議毎に与えられた文書によって構成される。
【0025】
[第二の実施形態]
以下、第二の実施形態について説明する。未知語は特定の分野・領域・業界・文脈等の間でのみ使用される専門用語等であるため、テキストSj
(i)中に未知語が存在する場合には、音声合成部102によって正しい合成音声Tj
(i)を生成できない可能性がある。一方で、音声合成ソフトウェアの中には、語とその読みを辞書に登録することにより、その語を読みの通りに読み上げた合成音声を生成可能なものが存在する。そこで、第二の実施形態では、辞書を利用可能な音声合成ソフトウェアにより音声合成部102が実現されており、辞書に未知語とその読みを登録する場合について説明する。
【0026】
なお、第二の実施形態では、主に、第一の実施形態との相違点について説明し、第一の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。
【0027】
<第二の実施形態に係る音声認識モデル追加学習装置10の機能構成例>
第二の実施形態に係る音声認識モデル追加学習装置10の機能構成例を
図3に示す。
図3に示すように、第二の実施形態に係る音声認識モデル追加学習装置10は、テキスト抽出部101と、音声合成部102と、モデル学習部103と、未知語抽出部104と、辞書登録部105とを有する。これら各部は、例えば、音声認識モデル追加学習装置10にインストールされた1以上のプログラムが、CPUやGPU等の各種演算装置に実行させる処理により実現される。また、第二の実施形態に係る音声認識モデル追加学習装置10は、音声認識モデル記憶部201と、辞書記憶部202とを有する。これら各記憶部は、例えば、HDD、SSD、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。
【0028】
未知語抽出部104は、テキスト抽出部101によって抽出されたテキストから未知語を抽出する。未知語抽出部104が未知語を抽出する方法は特定の方法に限定されるものではないが、例えば、固有表現抽出等により未知語を抽出すればよい。これ以外にも、例えば、未知語がアルファベットで表現された語であることが判明している場合には、アルファベットが連続する文字列を未知語として抽出してもよい。また、例えば、未知語がカタカナで表現された語であることが判明している場合には、カタカナが連続する文字列を未知語として抽出してもよい。
【0029】
辞書登録部105は、未知語抽出部104によって抽出された未知語と、その未知語の読みとの組を辞書記憶部202に登録する。このとき、未知語の読みは、例えば、ユーザによって与えられてもよいし、事前に作成された形態素解析用辞書を用いて未知語に対応する表記(形態素)の読みを取得してもよいし、表記とその読みが含まれる文書を未知語の表記を含めて検索した上で、その検索により得られた文書からパターンマッチング等のルールを利用して未知語に対応する表記の読みを取得してもよい。ここで、辞書とは、語(単語、句、フレーズ等)とその読みとの組で表される情報の集合のことである。
【0030】
なお、辞書登録部105は、未知語抽出部104によって抽出された未知語とその読みとの組が辞書記憶部202に登録されていない場合にのみ当該組を辞書記憶部202に登録してもよい。また、辞書登録部105は、テキスト抽出部101によって抽出されたテキストを形態素解析により形態素に分解した上で、その形態素(語)とその読みとの組が辞書記憶部202に登録されていない場合には当該組を辞書記憶部202に登録してもよい。
【0031】
音声合成部102は、辞書記憶部202に記憶されている辞書を用いて、テキスト抽出部101によって抽出されたテキストから音声合成モデルにより合成音声を生成する。このとき、音声合成部102は、当該テキスト中に含まれる語が辞書に登録されている語である場合、その語に対応する読みで当該語を読み上げた合成音声を生成する。
【0032】
辞書記憶部202は、語とその読みとの組の集合で表される辞書を記憶する。なお、辞書は、i番目の語をwi、その読みをriとすれば、{(wi,ri)|i=1,・・・,M}と表される。ここで、Mは、辞書に登録されている語とその読みとの組の数である。
【0033】
<第二の実施形態に係る音声認識モデル追加学習処理>
第二の実施形態に係る音声認識モデル追加学習処理について、
図4を参照しながら説明する。なお、以下では、文書集合Dが音声認識モデル追加学習装置10に与えられたものとする。
【0034】
テキスト抽出部101は、
図2のステップS101と同様に、各文書D
i(i=1,・・・,|D|)からテキストS
j
(i)(j=1,・・・,N
(i))をそれぞれ抽出する(ステップS201)。これにより、テキスト集合S={S
j
(i)|i=1,・・・,|D|,j=1,・・・,N
(i)}が得られる。
【0035】
次に、未知語抽出部104は、上記のステップS101で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))から未知語を抽出する(ステップS202)。以下、本ステップでL種類の未知語が抽出されたものとして、それらの未知語をw1,・・・,wLとする。
【0036】
次に、辞書登録部105は、上記のステップS202で抽出された未知語wi(i=1,・・・,L)とその読みriとの組(wi,ri)を辞書記憶部202に登録する(ステップS203)。
【0037】
次に、音声合成部102は、辞書記憶部202に記憶されている辞書を用いて、上記のステップS201で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))から音声合成モデルにより合成音声Tj
(i)をそれぞれ生成する(ステップS204)。すなわち、音声合成部102は、当該テキストSj
(i)中に含まれる語が辞書に登録されている語である場合、その語に対応する読みで当該語を読み上げた合成音声を生成する。これにより、合成音声集合T={Tj
(i)|i=1,・・・,|D|,j=1,・・・,N(i)}が得られる。
【0038】
そして、モデル学習部103は、
図2のステップS103と同様に、上記のステップS201で抽出されたテキストS
j
(i)(i=1,・・・,|D|,j=1,・・・,N
(i))と、上記のステップS204で生成された合成音声T
j
(i)(i=1,・・・,|D|,j=1,・・・,N
(i))とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部201に記憶されている音声認識モデルを追加学習(チューニング)する(ステップS205)。これにより、文書集合D中に存在する未知語が認識可能な音声認識モデルが得られる。
【0039】
以上のように、第二の実施形態に係る音声認識モデル追加学習装置10は、第一の実施形態で説明した構成に加えて、テキストから未知語を抽出すると共に、その未知語と読みを音声合成モデルが利用する辞書に登録する。これにより、当該テキストをより正確に読み上げた合成音声を生成することが可能となり、第一の実施形態よりも精度の良い音声認識モデルを得ることが可能になる。
【0040】
[第三の実施形態]
以下、第三の実施形態について説明する。音声合成ソフトウェアの中には、合成音声を生成する際に様々なパラメータ(例えば、どの話者モデルを使用するかを表すパラメータ、話速を表すパラメータ、抑揚を表すパラメータ等)を変更可能なものが存在する。このため、これらのパラメータを変更させることにより、同一のテキストを教師データとする様々な合成音声を生成することが可能となる。すなわち、パラメータを変更させることにより合成音声の水増し(データ拡張)を行うことが可能となる。そこで、第三の実施形態では、音声合成ソフトウェアが有するパラメータを変更させることにより、同一のテキストを教師データとする合成音声の水増し(データ拡張)を行う場合について説明する。
【0041】
なお、第三の実施形態では、主に、第二の実施形態との相違点について説明し、第二の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。
【0042】
<第三の実施形態に係る音声認識モデル追加学習装置10の機能構成例>
第三の実施形態に係る音声認識モデル追加学習装置10の機能構成例を
図5に示す。
図5に示すように、第三の実施形態に係る音声認識モデル追加学習装置10は、テキスト抽出部101と、モデル学習部103と、未知語抽出部104と、辞書登録部105と、水増し音声合成部106とを有する。これら各部は、例えば、音声認識モデル追加学習装置10にインストールされた1以上のプログラムが、CPUやGPU等の各種演算装置に実行させる処理により実現される。また、第三の実施形態に係る音声認識モデル追加学習装置10は、音声認識モデル記憶部201と、辞書記憶部202とを有する。これら各記憶部は、例えば、HDD、SSD、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。
【0043】
水増し音声合成部106は、第三の実施形態に係る音声合成部102と同様に、辞書記憶部202に記憶されている辞書を用いて、テキスト抽出部101によって抽出されたテキストから音声合成モデルにより合成音声を生成する。このとき、水増し音声合成部106は、当該水増し音声合成部106を実現する音声合成ソフトウェアが有するパラメータを変更させることにより、同一のテキストから複数の合成音声を生成する。ここで、音声合成ソフトウェアが有するパラメータとしては、例えば、どの話者モデルを使用するかを表すパラメータ、話速を表すパラメータ、抑揚を表すパラメータ等が挙げられる。なお、パラメータをどのように変更するかは特に限定されないが、例えば、各パラメータでそのパラメータが取り得る値の範囲内で網羅的に変更すること等が挙げられる。
【0044】
以下、一例として、パラメータの変更回数はK(ただし、K≧2)回であり、テキストSj
(i)からK個の合成音声が生成されるものとして、それらの合成音声をTjk
(i)(k=1,・・・,K)とする。また、合成音声集合をT'={Tjk
(i)|i=1,・・・,|D|,j=1,・・・,N(i),k=1,・・・,K}とする。
【0045】
モデル学習部103は、テキストSj
(i)∈Sを教師データとして、合成音声Tjk
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。
【0046】
<第三の実施形態に係る音声認識モデル追加学習処理>
第三の実施形態に係る音声認識モデル追加学習処理について、
図6を参照しながら説明する。なお、以下では、文書集合Dが音声認識モデル追加学習装置10に与えられたものとする。
【0047】
図6のステップS301~ステップS303は、
図4のステップS201~ステップS203とそれぞれ同様であるため、その説明を省略する。
【0048】
水増し音声合成部106は、音声合成ソフトウェアが有するパラメータを変更しながら、辞書記憶部202に記憶されている辞書を用いて、上記のステップS301で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))から音声合成モデルにより合成音声Tjk
(i)(k=1,・・・,K)をそれぞれ生成する(ステップS304)。
【0049】
そして、モデル学習部103は、上記のステップS301で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))と、上記のステップS304で生成された合成音声Tjk
(i)(i=1,・・・,|D|,j=1,・・・,N(i),k=1,・・・,K)とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部201に記憶されている音声認識モデルを追加学習(チューニング)する(ステップS305)。なお、各合成音声Tjk
(i)(k=1,・・・,K)に対しては、テキストSj
(i)を教師データとして用いることに留意されたい。これにより、文書集合D中に存在する未知語が認識可能な音声認識モデルが得られる。
【0050】
以上のように、第三の実施形態に係る音声認識モデル追加学習装置10は、第二の実施形態で説明した構成に加えて、音声合成ソフトウェアが有するパラメータを変更することにより同一のテキストから複数の合成音声を生成する。これにより、同一のテキストから多様な合成音声を生成することが可能となり、第二の実施形態よりも精度の良い音声認識モデルを得ることが可能になる。
【0051】
[第四の実施形態]
以下、第四の実施形態について説明する。合成音声に対して雑音(ノイズ)を重畳させることにより、同一のテキストを教師データとする合成音声を更に水増し(データ拡張)させることが可能となり、また雑音に対して頑強(ロバスト)な音声認識モデルを得ることも可能となる。そこで、第四の実施形態では、合成音声に対して雑音を重畳させることにより、同一のテキストを教師データとする合成音声の更なる水増し(データ拡張)を行う場合について説明する。
【0052】
なお、第四の実施形態では、主に、第三の実施形態との相違点について説明し、第三の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。
【0053】
<第四の実施形態に係る音声認識モデル追加学習装置10の機能構成例>
第四の実施形態に係る音声認識モデル追加学習装置10の機能構成例を
図7に示す。
図7に示すように、第四の実施形態に係る音声認識モデル追加学習装置10は、テキスト抽出部101と、モデル学習部103と、未知語抽出部104と、辞書登録部105と、水増し音声合成部106と、雑音重畳部107とを有する。これら各部は、例えば、音声認識モデル追加学習装置10にインストールされた1以上のプログラムが、CPUやGPU等の各種演算装置に実行させる処理により実現される。また、第四の実施形態に係る音声認識モデル追加学習装置10は、音声認識モデル記憶部201と、辞書記憶部202とを有する。これら各記憶部は、例えば、HDD、SSD、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。
【0054】
雑音重畳部107は、水増し音声合成部106によって生成された合成音声Tjk
(i)に対して雑音を重畳させて雑音重畳合成音声を生成する。このとき、雑音重畳部107は、雑音の種類や大きさ等を変更させることにより、1つの合成音声Tjk
(i)から複数の雑音重畳合成音声を生成してもよい。なお、雑音重畳部107は、既存の雑音(ノイズ)生成手法により雑音を生成し、合成音声に重畳させればよい。
【0055】
以下、一例として、合成音声Tjk
(i)からR(ただし、R≧1)個の雑音重畳合成音声が生成されるものとして、それらの雑音重畳合成音声をTjkr
(i)(r=1,・・・,R)とする。
【0056】
モデル学習部103は、第三の実施形態と同様に、テキストSj
(i)∈Sを教師データとして、合成音声Tjk
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。また、これに加えて、モデル学習部103は、テキストSj
(i)∈Sを教師データとして、雑音重畳合成音声Tjkr
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。
【0057】
<第四の実施形態に係る音声認識モデル追加学習処理>
第四の実施形態に係る音声認識モデル追加学習処理について、
図8を参照しながら説明する。なお、以下では、文書集合Dが音声認識モデル追加学習装置10に与えられたものとする。
【0058】
図8のステップS401~ステップS404は、
図6のステップS301~ステップS304とそれぞれ同様であるため、その説明を省略する。
【0059】
雑音重畳部107は、上記のステップS404で生成された各合成音声Tjk
(i)(i=1,・・・,|D|,j=1,・・・,N(i),k=1,・・・,K)に対して雑音を重畳させて雑音重畳合成音声Tjkr
(i)(r=1,・・・,R)をそれぞれ生成する(ステップS405)。
【0060】
そして、モデル学習部103は、上記のステップS401で抽出されたテキストSj
(i)(i=1,・・・,|D|,j=1,・・・,N(i))と、上記のステップS404で生成された合成音声Tjk
(i)(i=1,・・・,|D|,j=1,・・・,N(i),k=1,・・・,K)と、上記のステップS405で生成された雑音重畳合成音声Tjkr
(i)(i=1,・・・,|D|,j=1,・・・,N(i),k=1,・・・,K,r=1,・・・,R)とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部201に記憶されている音声認識モデルを追加学習(チューニング)する(ステップS406)。すなわち、モデル学習部103は、テキストSj
(i)を教師データとして、合成音声Tjk
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化すると共に、雑音重畳合成音声Tjkr
(i)を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習(更新)する。なお、各合成音声Tjk
(i)(k=1,・・・,K)及び各雑音重畳合成音声Tjkr
(i)に対しては、テキストSj
(i)を教師データとして用いることに留意されたい。これにより、文書集合D中に存在する未知語が認識可能で、かつ、雑音に対して頑強(ロバスト)な音声認識モデルが得られる。
【0061】
以上のように、第四の実施形態に係る音声認識モデル追加学習装置10は、第三の実施形態で説明した構成に加えて、合成音声に対して雑音を重畳させた雑音重畳合成音声を生成する。これにより、同一のテキストから多様な合成音声・雑音重畳合成音声を生成することが可能となり、第三の実施形態よりも精度が良く、かつ、雑音に対して頑強(ロバスト)な音声認識モデルを得ることが可能となる。
【0062】
[第五の実施形態]
以下、第五の実施形態について説明する。第一乃至第四の実施形態では未知語が含まれ得る文書が音声認識モデル追加学習装置10に与えられるものとしたが、文書ではなく、未知語が与えられることもある。そこで、第五の実施形態では、未知語が音声認識モデル追加学習装置10に与えられる場合について説明する。
【0063】
なお、第五の実施形態では、主に、第二の実施形態との相違点について説明し、第二の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。
【0064】
<第五の実施形態に係る音声認識モデル追加学習装置10の機能構成例>
第五の実施形態に係る音声認識モデル追加学習装置10の機能構成例を
図9に示す。
図9に示すように、第五の実施形態に係る音声認識モデル追加学習装置10は、テキスト抽出部101と、音声合成部102と、モデル学習部103と、辞書登録部105と、文書検索部108とを有する。これら各部は、例えば、音声認識モデル追加学習装置10にインストールされた1以上のプログラムが、CPUやGPU等の各種演算装置に実行させる処理により実現される。また、第五の実施形態に係る音声認識モデル追加学習装置10は、音声認識モデル記憶部201と、辞書記憶部202とを有する。これら各記憶部は、例えば、HDD、SSD、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。
【0065】
文書検索部108は、音声認識モデル追加学習装置10に与えられた未知語を用いて、その未知語を含む文書を検索する。文書検索部108は、例えば、予め決められた文書データベースから文書を検索してもよいし、Webクロール等の技術を利用してWeb上から文書を検索してもよい。これにより、与えられた未知語を含む文書が検索される。具体例を挙げれば、例えば、サービス名といった未知語が与えられた場合、そのサービスに関するニュースリリースやパンフレット等といった文書を検索により得ることができる。なお、音声認識モデル追加学習装置10には1つの未知語が与えられてもよいし、複数の未知語が与えられてもよい。複数の未知語が与えられた場合、それらの未知語のうち少なくとも1つの未知語が含まれる文書が検索される。
【0066】
以下、文書検索部108によって検索された文書の集合を同様にD={Di|i=1,・・・,|D|}とする。なお、テキスト抽出部101は、文書検索部108によって検索された各文書Di(i=1,・・・,|D|)からテキストSj
(i)(j=1,・・・,N(i))をそれぞれ抽出する。
【0067】
辞書登録部105は、音声認識モデル追加学習装置10に与えられた未知語と、その未知語の読みとの組を辞書記憶部202に登録する。なお、未知語の読みは、第二の実施形態と同様の方法により取得すればよい。
【0068】
<第五の実施形態に係る音声認識モデル追加学習処理>
第五の実施形態に係る音声認識モデル追加学習処理について、
図10を参照しながら説明する。なお、以下では、1つ以上の未知語が音声認識モデル追加学習装置10に与えられたものとする。
【0069】
文書検索部108は、与えられた1つ以上の未知語のうち少なくとも1つの未知語が含まれる文書を検索する(ステップS501)。これにより、文書集合D={Di|i=1,・・・,|D|}が得られる。
【0070】
図10のステップS502は、
図4のステップS201と同様であるため、その説明を省略する。
【0071】
ステップS502に続いて、辞書登録部105は、与えられた未知語とその読みとの組を辞書記憶部202に登録する(ステップS503)。
【0072】
図10のステップS504~ステップS505は、
図4のステップS204~ステップS205とそれぞれ同様であるため、その説明を省略する。
【0073】
以上のように、第五の実施形態に係る音声認識モデル追加学習装置10は、与えられた未知語が含まれる文書を検索する。これにより、未知語が含まれる文書を準備する必要がなくなるため、例えば、第二の実施形態よりも低コストで音声認識モデルを追加学習(チューニング)させることが可能となる。
【0074】
[変形例]
・変形例1
上記の各実施形態は適宜組み合わされてもよい。例えば、上記の第一乃至第四の実施形態のいずれか1つの実施形態と、上記の第五の実施形態とが組み合わされてもよい。また、例えば、第四の実施形態に係る雑音重畳部107は、例えば、第一、第二及び第五の実施形態と組み合わされてもよい。
【0075】
・変形例2
テキスト抽出部101によって抽出されたテキストを変形することにより、データ拡張が行われてもよい。例えば、テキストと未知語(未知語は与えられてもよいし、未知語抽出部104によって抽出された未知語であってもよい。)とを入力として、その未知語が含まれるテキストを生成することにより、データ拡張が行われてもよい。又は、例えば、未知語(未知語は与えられてもよいし、未知語抽出部104によって抽出された未知語であってもよい。)を既知の言語モデル等に入力したり、未知語とテキストを既知の言語モデル等に入力したりすることにより、その未知語が含まれるテキストを生成し、データ拡張が行われてもよい。このとき、言語モデルに対してテキストの生成指示を与える際には、例えば、対話形式のインタフェース等を利用してプロンプト等によって与えられてもよい。又は、例えば、テキストと未知語(未知語は与えられてもよいし、未知語抽出部104によって抽出された未知語であってもよい。)とを入力として、当該テキスト中で未知語と同じ品詞の単語を当該未知語で置換することにより、データ拡張が行われてもよい。又は、例えば、未知語が含まれるテキストを入力として、そのテキスト中の未知語の文法的な活用を変化させたり、そのテキスト中の未知語を同一又は類似する意味の語に言い換えたりすること等により、データ拡張が行われてもよい。また、これらで生成されたテキストに関して、その語順を変更したり、口語体と文語体とを相互に変換したりすること等によって、データ拡張が行われてもよい。
【0076】
・変形例3
或る未知語に関してその未知語が含まれるテキスト及び合成音声の数が少ない場合、それらのテキスト及び合成音声により音声認識モデルを追加学習するとモデル全体の精度低下に繋がる恐れがある。このため、その未知語が含まれるテキスト及び合成音声による学習要否を判定してもよい。
【0077】
例えば、未知語毎に各テキストに含まれる当該未知語の出現回数をカウントし、その出現回数が予め決められた所定の閾値未満である場合、その未知語が含まれるテキスト及び合成音声を音声認識モデルの追加学習に使用しないようにしてもよい。又は、例えば、未知語毎に当該未知語が含まれるテキストの数をカウントし、そのテキスト数が予め決められた所定の閾値未満である場合、当該テキストとそれを読み上げた合成音声とを音声認識モデルの追加学習に使用しないようにしてもよい。
【0078】
また、例えば、未知語毎に各テキストに含まれる当該未知語の出現回数をカウントし、その出現回数が予め決められた所定の閾値未満である場合、当該未知語が含まれるテキストを収集又は生成し、その出現回数が閾値以上となるようにしてもよい。同様に、例えば、未知語毎に当該未知語が含まれるテキストの数をカウントし、そのテキスト数が予め決められた所定の閾値未満である場合、当該未知語が含まれるテキストを収集又は生成し、そのテキスト数が閾値以上となるようにしてもよい。これにより、或る未知語が含まれるテキスト及び合成音声の数が少ない場合であっても、追加学習による音声認識モデルの精度低下を抑止することが可能となる。
【0079】
・変形例4
テキスト抽出部101は文書からテキスト(文)を抽出するものとしたが、テキスト抽出部101は文書以外からもテキストを抽出してもよい。例えば、テキスト抽出部101は、音声を除く、画像(文書中の画像も含む)等からテキストを抽出してもよい。なお、テキスト抽出部101は画像からテキストを抽出する際にはOCR(Optical Character Recognition)等の技術を利用すればよい。これにより、例えば、画像中のテキストも音声認識モデルの追加学習に利用することが可能となる。
【0080】
また、上記以外にも、テキスト抽出部101は、Web会議システムから収集可能な各種情報(例えば、会議参加者の氏名やニックネーム、グループ名、チーム名、会議名、イベント名等)からテキストを抽出してもよい。これにより、これらの情報から抽出されたテキストも音声認識モデルの追加学習に利用することが可能となる。
【0081】
[まとめ]
以上のように、上記の各実施形態に係る音声認識モデル追加学習装置10では、未知語が含まれ得るテキストと、そのテキストを音声合成技術により読み上げた合成音声とを学習データとして音声認識モデルを追加学習(チューニング)する。これにより、未知語を音声認識モデルに認識させるための学習に利用する学習データを低コストで作成することが可能となる。
【0082】
このため、例えば、1つの利用シーンとして、Web会議システム等を利用した会議における音声対話から音声認識モデルにより議事録を作成したい場合等に、会議資料に記載されている専門用語等の未知語を認識可能な音声認識モデルを低コストで得ることが可能となる。
【0083】
本発明は、具体的に開示された上記の各実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
【符号の説明】
【0084】
10 音声認識モデル追加学習装置
101 テキスト抽出部
102 音声合成部
103 モデル学習部
104 未知語抽出部
105 辞書登録部
106 水増し音声合成部
107 雑音重畳部
108 文書検索部
201 音声認識モデル記憶部
202 辞書記憶部