特開2025-59613 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・ソフトウェア株式会社の特許一覧 ▶ 日本電信電話株式会社の特許一覧

特開2025-59613音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025059613

(43)【公開日】2025-04-10

(54)【発明の名称】音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラム

(51)【国際特許分類】

G10L 15/06 20130101AFI20250403BHJP

G10L 15/065 20130101ALI20250403BHJP

G10L 15/16 20060101ALN20250403BHJP

【ＦＩ】

G10L15/06 300Z

G10L15/06 200B

G10L15/065 A

G10L15/16

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023169815

(22)【出願日】2023-09-29

(71)【出願人】

【識別番号】000102717

【氏名又は名称】ＮＴＴテクノクロス株式会社

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】長谷川隆明

(72)【発明者】

【氏名】山本昂輝

(72)【発明者】

【氏名】杉島慎之輔

(72)【発明者】

【氏名】野本済央

(72)【発明者】

【氏名】能登肇

(57)【要約】

【課題】音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術を提供すること。
【解決手段】本開示の一態様による音声認識モデル追加学習装置は、未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、
を有する音声認識モデル追加学習装置。

【請求項2】

前記合成音声に対して雑音を重畳させた雑音重畳合成音声を生成する雑音重畳部を更に有し、
前記音声合成部は、
前記テキストを読み上げる話者、前記テキストを読み上げるときの話速、及び前記テキストを読み上げるときの抑揚の少なくとも１つを表すパラメータの値を変化させることにより、前記テキストから複数の合成音声を生成し、
前記モデル学習部と、
前記合成音声を前記学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化し、かつ、前記雑音重畳合成音声を前記学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習する、請求項１に記載の音声認識モデル追加学習装置。

【請求項3】

未知語が含まれる文書が与えられると、前記文書が構造化されている場合には構造毎に前記文書からテキストを抽出し、前記文書が構造化されていない場合には文単位に前記文書からテキストを抽出するテキスト抽出部を更に有し、
前記音声合成部は、
前記テキスト抽出部によって抽出されたテキストを用いて、前記合成音声を生成する、請求項１又は２に記載の音声認識モデル追加学習装置。

【請求項4】

未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成手順と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習手順と、
をコンピュータが実行する音声認識モデル追加学習方法。

【請求項5】

未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成手順と、
前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習手順と、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声認識モデル追加学習装置、音声認識モデル追加学習方法、及びプログラムに関する。

【背景技術】

【0002】

ニューラルネットワークで実現されるｅｎｄ－ｔｏ－ｅｎｄの音声認識モデルが従来から知られており、そのモデル精度を向上させるために様々な技術が提案されている。例えば、特許文献１には、少ない教師データで精度の高いｅｎｄ－ｔｏ－ｅｎｄの音声認識モデルを学習できる技術が記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－３９２１８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、例えば、専門用語等の未知語を正しく認識させるためには、未知語を含む音声とその書き起こしテキストを準備した上で音声認識モデルを追加学習（チューニング）する必要があり、追加学習に要するコストが高かった。

【0005】

本開示は、上記の点に鑑みてなされたもので、音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様による音声認識モデル追加学習装置は、未知語が含まれるテキストを用いて、前記テキストを読み上げた合成音声を生成する音声合成部と、前記テキストを教師データとして、前記合成音声を学習済み音声認識モデルにより認識した結果と、前記教師データとの誤差を最小化するように、前記学習済み音声認識モデルを追加学習するモデル学習部と、を有する。

【発明の効果】

【0007】

音声認識モデルに未知語を認識させるための追加学習コストを削減できる技術が提供される。

【図面の簡単な説明】

【0008】

【図1】第一の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。

【図2】第一の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。

【図3】第二の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。

【図4】第二の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。

【図5】第三の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。

【図6】第三の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。

【図7】第四の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。

【図8】第四の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。

【図9】第五の実施形態に係る音声認識モデル追加学習装置の機能構成の一例を示す図である。

【図10】第五の実施形態に係る音声認識モデル追加学習処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明の一実施形態として、第一乃至第五の実施形態について説明する。以下の各実施形態では、ニューラルネットワークで実現されるｅｎｄ－ｔｏ－ｅｎｄの音声認識モデルに未知語を正しく認識させるための追加学習（チューニング）を行う際に、その追加学習コストを従来よりも削減できる音声認識モデル追加学習装置１０について説明する。ここで、未知語とは音声認識モデルが正しく認識できない語（単語、句、フレーズ等）やｅｎｄ－ｔｏ－ｅｎｄの音声認識モデルの学習時に用いられた学習データに含まれていなかった語（単語、句、フレーズ等）のことであるが、以下では、未知語として、主に、特定の分野・領域・業界・文脈等の間でのみ使用され、一般的でない語のことを指すものとする。未知語の典型例としては、特定の分野・領域・業界・文脈等の間でのみ使用される専門用語、業界用語、固有名詞（商品名、サービス名、人名、組織名等）、隠語、略語等が挙げられる。なお、追加学習は再学習と呼ばれてもよい。

【0010】

［第一の実施形態］
以下、第一の実施形態について説明する。

【0011】

＜第一の実施形態に係る音声認識モデル追加学習装置１０の機能構成例＞
第一の実施形態に係る音声認識モデル追加学習装置１０の機能構成例を図１に示す。図１に示すように、第一の実施形態に係る音声認識モデル追加学習装置１０は、テキスト抽出部１０１と、音声合成部１０２と、モデル学習部１０３とを有する。これら各部は、例えば、音声認識モデル追加学習装置１０にインストールされた１以上のプログラムが、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置に実行させる処理により実現される。また、第一の実施形態に係る音声認識モデル追加学習装置１０は、音声認識モデル記憶部２０１を有する。音声認識モデル記憶部２０１は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。

【0012】

テキスト抽出部１０１は、音声認識モデル追加学習装置１０に与えられた文書からテキスト（文）を抽出する。ここで、文書には未知語が含まれることを想定するが、必ずしも未知語が含まれていなくてもよい。文書の具体例としては、Ｗｅｂ会議システム等を利用した会議における音声対話に関連する文書（例えば、プレゼン資料、説明資料、報告書等）等が挙げられる。ただし、文書は少なくともテキストが含まれていれば任意の文書でよく、例えば、テキスト以外にも図表等が含まれていてもよい。また、文書は何等かの構造を持った文章（構造化された文書）であってもよいし、何等の構造を持たない文書であってもよい。

【0013】

テキスト抽出部１０１が文書からテキストを抽出する方法は特定の方法に限定されるものではないが、例えば、文書が構造を持つ場合はその構造単位にテキストを抽出することが考えられる。具体的には、例えば、文書が複数のオブジェクト（図、表、テキストボックス、パラグラフ等）で構成されている場合、テキスト抽出部１０１は、オブジェクト毎に、そのオブジェクトからテキストを抽出すればよい。一方で、例えば、文書が構造を持たない場合は読点やピリオド等で区切られる文単位にテキストを抽出することが考えられる。

【0014】

以下、音声認識モデル追加学習装置１０に与えられた文書の集合（以下、文書集合ともいう。）をＤ＝｛Ｄ_ｉ｜ｉ＝１，・・・，｜Ｄ｜｝とする。また、文書Ｄ_ｉから抽出されたテキストをＳ_ｊ ^（ｉ）（ｊ＝１，・・・，Ｎ^（ｉ））とし、テキスト集合をＳ＝｛Ｓ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝とする。ここで、｜Ｄ｜は文書集合Ｄに含まれる文書数、Ｎ^（ｉ）は文書Ｄ_ｉから抽出されたテキスト数を表す。

【0015】

音声合成部１０２は、テキスト抽出部１０１によって抽出されたテキストから音声合成モデルにより合成音声を生成する。すなわち、音声合成部１０２は、各テキストＳ_ｊ ^（ｉ）∈Ｓから音声合成モデルにより合成音声Ｔ_ｊ ^（ｉ）を生成する。ここで、Ｔ_ｊ ^（ｉ）はテキストＳ_ｊ ^（ｉ）を音声合成モデルにより入力することにより生成された合成音声を表す。以下、合成音声集合をＴ＝｛Ｔ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝とする。

【0016】

なお、音声合成モデルとは、テキスト（より正確には、そのテキストの情報をベクトル化した言語ベクトル）を入力として、そのテキストを読み上げる合成音声（より正確には、その合成音声の特徴を表す情報（例えば、メルスペクトログラム等））を生成及び出力する機械学習モデルのことである。音声合成部１０２は、例えば、既存の任意の音声合成ソフトウェア（又は、音声合成モジュール等）により実現され、その音声合成ソフトウェアに含まれる学習済み音声合成モデルによりテキストから合成音声を生成すればよい。ただし、学習済み音声合成モデル以外の手法により音声合成を実現する既存の音声合成ソフトウェアも存在し、音声合成部１０２は、その音声合成ソフトウェアの音声合成手法により実現されてもよい。

【0017】

モデル学習部１０３は、テキスト抽出部１０１によって抽出されたテキストと、音声合成部１０２によって生成された合成音声とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部２０１に記憶されている音声認識モデルを追加学習（チューニング）する。すなわち、モデル学習部１０３は、テキストＳ_ｊ ^（ｉ）∈Ｓを教師データとして、合成音声Ｔ_ｊ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。

【0018】

音声認識モデル記憶部２０１は、ニューラルネットワークで実現されるｅｎｄ－ｔｏ－ｅｎｄの音声認識モデルを記憶する。

【0019】

＜第一の実施形態に係る音声認識モデル追加学習処理＞
第一の実施形態に係る音声認識モデル追加学習処理について、図２を参照しながら説明する。なお、以下では、文書集合Ｄが音声認識モデル追加学習装置１０に与えられたものとする。

【0020】

テキスト抽出部１０１は、各文書Ｄ_ｉ（ｉ＝１，・・・，｜Ｄ｜）からテキストＳ_ｊ ^（ｉ）（ｊ＝１，・・・，Ｎ^（ｉ））をそれぞれ抽出する（ステップＳ１０１）。これにより、テキスト集合Ｓ＝｛Ｓ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝が得られる。

【0021】

次に、音声合成部１０２は、上記のステップＳ１０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））から音声合成モデルにより合成音声Ｔ_ｊ ^（ｉ）をそれぞれ生成する（ステップＳ１０２）。これにより、合成音声集合Ｔ＝｛Ｔ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝が得られる。

【0022】

そして、モデル学習部１０３は、上記のステップＳ１０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））と、上記のステップＳ１０２で生成された合成音声Ｔ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部２０１に記憶されている音声認識モデルを追加学習（チューニング）する（ステップＳ１０３）。すなわち、モデル学習部１０３は、テキストＳ_ｊ ^（ｉ）を教師データとして、合成音声Ｔ_ｊ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。これにより、文書集合Ｄ中に存在する未知語が認識可能な音声認識モデルが得られる。

【0023】

以上のように、第一の実施形態に係る音声認識モデル追加学習装置１０は、未知語が含まれる文書からテキストを抽出すると共に、そのテキストを読み上げた音声を音声合成モデルにより生成する。これにより、教師データとなるテキストと、音声認識モデルへの入力となる音声とを低コストで得ることができるため、当該音声認識モデルに未知語を正しく認識させるための追加学習（チューニング）を低コストで実現することが可能となる。

【0024】

なお、音声認識モデル追加学習装置１０には、例えば、任意のタイミングで文書集合Ｄが与えられる。このため、例えば、音声認識モデルを追加学習させたい者（ユーザ）は任意のタイミングで文書集合Ｄ又はその文書集合Ｄを構成する文書を音声認識モデル追加学習装置１０に与えればよい。これにより、例えば、音声認識モデルを１日１回追加学習させる場合、文書集合Ｄは１日に与えられた文書によって構成される。同様に、例えば、会議の実施毎に音声認識モデルを追加学習させる場合、文書集合Ｄは会議毎に与えられた文書によって構成される。

【0025】

［第二の実施形態］
以下、第二の実施形態について説明する。未知語は特定の分野・領域・業界・文脈等の間でのみ使用される専門用語等であるため、テキストＳ_ｊ ^（ｉ）中に未知語が存在する場合には、音声合成部１０２によって正しい合成音声Ｔ_ｊ ^（ｉ）を生成できない可能性がある。一方で、音声合成ソフトウェアの中には、語とその読みを辞書に登録することにより、その語を読みの通りに読み上げた合成音声を生成可能なものが存在する。そこで、第二の実施形態では、辞書を利用可能な音声合成ソフトウェアにより音声合成部１０２が実現されており、辞書に未知語とその読みを登録する場合について説明する。

【0026】

なお、第二の実施形態では、主に、第一の実施形態との相違点について説明し、第一の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。

【0027】

＜第二の実施形態に係る音声認識モデル追加学習装置１０の機能構成例＞
第二の実施形態に係る音声認識モデル追加学習装置１０の機能構成例を図３に示す。図３に示すように、第二の実施形態に係る音声認識モデル追加学習装置１０は、テキスト抽出部１０１と、音声合成部１０２と、モデル学習部１０３と、未知語抽出部１０４と、辞書登録部１０５とを有する。これら各部は、例えば、音声認識モデル追加学習装置１０にインストールされた１以上のプログラムが、ＣＰＵやＧＰＵ等の各種演算装置に実行させる処理により実現される。また、第二の実施形態に係る音声認識モデル追加学習装置１０は、音声認識モデル記憶部２０１と、辞書記憶部２０２とを有する。これら各記憶部は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。

【0028】

未知語抽出部１０４は、テキスト抽出部１０１によって抽出されたテキストから未知語を抽出する。未知語抽出部１０４が未知語を抽出する方法は特定の方法に限定されるものではないが、例えば、固有表現抽出等により未知語を抽出すればよい。これ以外にも、例えば、未知語がアルファベットで表現された語であることが判明している場合には、アルファベットが連続する文字列を未知語として抽出してもよい。また、例えば、未知語がカタカナで表現された語であることが判明している場合には、カタカナが連続する文字列を未知語として抽出してもよい。

【0029】

辞書登録部１０５は、未知語抽出部１０４によって抽出された未知語と、その未知語の読みとの組を辞書記憶部２０２に登録する。このとき、未知語の読みは、例えば、ユーザによって与えられてもよいし、事前に作成された形態素解析用辞書を用いて未知語に対応する表記（形態素）の読みを取得してもよいし、表記とその読みが含まれる文書を未知語の表記を含めて検索した上で、その検索により得られた文書からパターンマッチング等のルールを利用して未知語に対応する表記の読みを取得してもよい。ここで、辞書とは、語（単語、句、フレーズ等）とその読みとの組で表される情報の集合のことである。

【0030】

なお、辞書登録部１０５は、未知語抽出部１０４によって抽出された未知語とその読みとの組が辞書記憶部２０２に登録されていない場合にのみ当該組を辞書記憶部２０２に登録してもよい。また、辞書登録部１０５は、テキスト抽出部１０１によって抽出されたテキストを形態素解析により形態素に分解した上で、その形態素（語）とその読みとの組が辞書記憶部２０２に登録されていない場合には当該組を辞書記憶部２０２に登録してもよい。

【0031】

音声合成部１０２は、辞書記憶部２０２に記憶されている辞書を用いて、テキスト抽出部１０１によって抽出されたテキストから音声合成モデルにより合成音声を生成する。このとき、音声合成部１０２は、当該テキスト中に含まれる語が辞書に登録されている語である場合、その語に対応する読みで当該語を読み上げた合成音声を生成する。

【0032】

辞書記憶部２０２は、語とその読みとの組の集合で表される辞書を記憶する。なお、辞書は、ｉ番目の語をｗ_ｉ、その読みをｒ_ｉとすれば、｛（ｗ_ｉ，ｒ_ｉ）｜ｉ＝１，・・・，Ｍ｝と表される。ここで、Ｍは、辞書に登録されている語とその読みとの組の数である。

【0033】

＜第二の実施形態に係る音声認識モデル追加学習処理＞
第二の実施形態に係る音声認識モデル追加学習処理について、図４を参照しながら説明する。なお、以下では、文書集合Ｄが音声認識モデル追加学習装置１０に与えられたものとする。

【0034】

テキスト抽出部１０１は、図２のステップＳ１０１と同様に、各文書Ｄ_ｉ（ｉ＝１，・・・，｜Ｄ｜）からテキストＳ_ｊ ^（ｉ）（ｊ＝１，・・・，Ｎ^（ｉ））をそれぞれ抽出する（ステップＳ２０１）。これにより、テキスト集合Ｓ＝｛Ｓ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝が得られる。

【0035】

次に、未知語抽出部１０４は、上記のステップＳ１０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））から未知語を抽出する（ステップＳ２０２）。以下、本ステップでＬ種類の未知語が抽出されたものとして、それらの未知語をｗ_１，・・・，ｗ_Ｌとする。

【0036】

次に、辞書登録部１０５は、上記のステップＳ２０２で抽出された未知語ｗ_ｉ（ｉ＝１，・・・，Ｌ）とその読みｒ_ｉとの組（ｗ_ｉ，ｒ_ｉ）を辞書記憶部２０２に登録する（ステップＳ２０３）。

【0037】

次に、音声合成部１０２は、辞書記憶部２０２に記憶されている辞書を用いて、上記のステップＳ２０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））から音声合成モデルにより合成音声Ｔ_ｊ ^（ｉ）をそれぞれ生成する（ステップＳ２０４）。すなわち、音声合成部１０２は、当該テキストＳ_ｊ ^（ｉ）中に含まれる語が辞書に登録されている語である場合、その語に対応する読みで当該語を読み上げた合成音声を生成する。これにより、合成音声集合Ｔ＝｛Ｔ_ｊ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ）｝が得られる。

【0038】

そして、モデル学習部１０３は、図２のステップＳ１０３と同様に、上記のステップＳ２０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））と、上記のステップＳ２０４で生成された合成音声Ｔ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部２０１に記憶されている音声認識モデルを追加学習（チューニング）する（ステップＳ２０５）。これにより、文書集合Ｄ中に存在する未知語が認識可能な音声認識モデルが得られる。

【0039】

以上のように、第二の実施形態に係る音声認識モデル追加学習装置１０は、第一の実施形態で説明した構成に加えて、テキストから未知語を抽出すると共に、その未知語と読みを音声合成モデルが利用する辞書に登録する。これにより、当該テキストをより正確に読み上げた合成音声を生成することが可能となり、第一の実施形態よりも精度の良い音声認識モデルを得ることが可能になる。

【0040】

［第三の実施形態］
以下、第三の実施形態について説明する。音声合成ソフトウェアの中には、合成音声を生成する際に様々なパラメータ（例えば、どの話者モデルを使用するかを表すパラメータ、話速を表すパラメータ、抑揚を表すパラメータ等）を変更可能なものが存在する。このため、これらのパラメータを変更させることにより、同一のテキストを教師データとする様々な合成音声を生成することが可能となる。すなわち、パラメータを変更させることにより合成音声の水増し（データ拡張）を行うことが可能となる。そこで、第三の実施形態では、音声合成ソフトウェアが有するパラメータを変更させることにより、同一のテキストを教師データとする合成音声の水増し（データ拡張）を行う場合について説明する。

【0041】

なお、第三の実施形態では、主に、第二の実施形態との相違点について説明し、第二の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。

【0042】

＜第三の実施形態に係る音声認識モデル追加学習装置１０の機能構成例＞
第三の実施形態に係る音声認識モデル追加学習装置１０の機能構成例を図５に示す。図５に示すように、第三の実施形態に係る音声認識モデル追加学習装置１０は、テキスト抽出部１０１と、モデル学習部１０３と、未知語抽出部１０４と、辞書登録部１０５と、水増し音声合成部１０６とを有する。これら各部は、例えば、音声認識モデル追加学習装置１０にインストールされた１以上のプログラムが、ＣＰＵやＧＰＵ等の各種演算装置に実行させる処理により実現される。また、第三の実施形態に係る音声認識モデル追加学習装置１０は、音声認識モデル記憶部２０１と、辞書記憶部２０２とを有する。これら各記憶部は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。

【0043】

水増し音声合成部１０６は、第三の実施形態に係る音声合成部１０２と同様に、辞書記憶部２０２に記憶されている辞書を用いて、テキスト抽出部１０１によって抽出されたテキストから音声合成モデルにより合成音声を生成する。このとき、水増し音声合成部１０６は、当該水増し音声合成部１０６を実現する音声合成ソフトウェアが有するパラメータを変更させることにより、同一のテキストから複数の合成音声を生成する。ここで、音声合成ソフトウェアが有するパラメータとしては、例えば、どの話者モデルを使用するかを表すパラメータ、話速を表すパラメータ、抑揚を表すパラメータ等が挙げられる。なお、パラメータをどのように変更するかは特に限定されないが、例えば、各パラメータでそのパラメータが取り得る値の範囲内で網羅的に変更すること等が挙げられる。

【0044】

以下、一例として、パラメータの変更回数はＫ（ただし、Ｋ≧２）回であり、テキストＳ_ｊ ^（ｉ）からＫ個の合成音声が生成されるものとして、それらの合成音声をＴ_ｊｋ ^（ｉ）（ｋ＝１，・・・，Ｋ）とする。また、合成音声集合をＴ'＝｛Ｔ_ｊｋ ^（ｉ）｜ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ），ｋ＝１，・・・，Ｋ｝とする。

【0045】

モデル学習部１０３は、テキストＳ_ｊ ^（ｉ）∈Ｓを教師データとして、合成音声Ｔ_ｊｋ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。

【0046】

＜第三の実施形態に係る音声認識モデル追加学習処理＞
第三の実施形態に係る音声認識モデル追加学習処理について、図６を参照しながら説明する。なお、以下では、文書集合Ｄが音声認識モデル追加学習装置１０に与えられたものとする。

【0047】

図６のステップＳ３０１～ステップＳ３０３は、図４のステップＳ２０１～ステップＳ２０３とそれぞれ同様であるため、その説明を省略する。

【0048】

水増し音声合成部１０６は、音声合成ソフトウェアが有するパラメータを変更しながら、辞書記憶部２０２に記憶されている辞書を用いて、上記のステップＳ３０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））から音声合成モデルにより合成音声Ｔ_ｊｋ ^（ｉ）（ｋ＝１，・・・，Ｋ）をそれぞれ生成する（ステップＳ３０４）。

【0049】

そして、モデル学習部１０３は、上記のステップＳ３０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））と、上記のステップＳ３０４で生成された合成音声Ｔ_ｊｋ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ），ｋ＝１，・・・，Ｋ）とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部２０１に記憶されている音声認識モデルを追加学習（チューニング）する（ステップＳ３０５）。なお、各合成音声Ｔ_ｊｋ ^（ｉ）（ｋ＝１，・・・，Ｋ）に対しては、テキストＳ_ｊ ^（ｉ）を教師データとして用いることに留意されたい。これにより、文書集合Ｄ中に存在する未知語が認識可能な音声認識モデルが得られる。

【0050】

以上のように、第三の実施形態に係る音声認識モデル追加学習装置１０は、第二の実施形態で説明した構成に加えて、音声合成ソフトウェアが有するパラメータを変更することにより同一のテキストから複数の合成音声を生成する。これにより、同一のテキストから多様な合成音声を生成することが可能となり、第二の実施形態よりも精度の良い音声認識モデルを得ることが可能になる。

【0051】

［第四の実施形態］
以下、第四の実施形態について説明する。合成音声に対して雑音（ノイズ）を重畳させることにより、同一のテキストを教師データとする合成音声を更に水増し（データ拡張）させることが可能となり、また雑音に対して頑強（ロバスト）な音声認識モデルを得ることも可能となる。そこで、第四の実施形態では、合成音声に対して雑音を重畳させることにより、同一のテキストを教師データとする合成音声の更なる水増し（データ拡張）を行う場合について説明する。

【0052】

なお、第四の実施形態では、主に、第三の実施形態との相違点について説明し、第三の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。

【0053】

＜第四の実施形態に係る音声認識モデル追加学習装置１０の機能構成例＞
第四の実施形態に係る音声認識モデル追加学習装置１０の機能構成例を図７に示す。図７に示すように、第四の実施形態に係る音声認識モデル追加学習装置１０は、テキスト抽出部１０１と、モデル学習部１０３と、未知語抽出部１０４と、辞書登録部１０５と、水増し音声合成部１０６と、雑音重畳部１０７とを有する。これら各部は、例えば、音声認識モデル追加学習装置１０にインストールされた１以上のプログラムが、ＣＰＵやＧＰＵ等の各種演算装置に実行させる処理により実現される。また、第四の実施形態に係る音声認識モデル追加学習装置１０は、音声認識モデル記憶部２０１と、辞書記憶部２０２とを有する。これら各記憶部は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。

【0054】

雑音重畳部１０７は、水増し音声合成部１０６によって生成された合成音声Ｔ_ｊｋ ^（ｉ）に対して雑音を重畳させて雑音重畳合成音声を生成する。このとき、雑音重畳部１０７は、雑音の種類や大きさ等を変更させることにより、１つの合成音声Ｔ_ｊｋ ^（ｉ）から複数の雑音重畳合成音声を生成してもよい。なお、雑音重畳部１０７は、既存の雑音（ノイズ）生成手法により雑音を生成し、合成音声に重畳させればよい。

【0055】

以下、一例として、合成音声Ｔ_ｊｋ ^（ｉ）からＲ（ただし、Ｒ≧１）個の雑音重畳合成音声が生成されるものとして、それらの雑音重畳合成音声をＴ_ｊｋｒ ^（ｉ）（ｒ＝１，・・・，Ｒ）とする。

【0056】

モデル学習部１０３は、第三の実施形態と同様に、テキストＳ_ｊ ^（ｉ）∈Ｓを教師データとして、合成音声Ｔ_ｊｋ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。また、これに加えて、モデル学習部１０３は、テキストＳ_ｊ ^（ｉ）∈Ｓを教師データとして、雑音重畳合成音声Ｔ_ｊｋｒ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。

【0057】

＜第四の実施形態に係る音声認識モデル追加学習処理＞
第四の実施形態に係る音声認識モデル追加学習処理について、図８を参照しながら説明する。なお、以下では、文書集合Ｄが音声認識モデル追加学習装置１０に与えられたものとする。

【0058】

図８のステップＳ４０１～ステップＳ４０４は、図６のステップＳ３０１～ステップＳ３０４とそれぞれ同様であるため、その説明を省略する。

【0059】

雑音重畳部１０７は、上記のステップＳ４０４で生成された各合成音声Ｔ_ｊｋ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ），ｋ＝１，・・・，Ｋ）に対して雑音を重畳させて雑音重畳合成音声Ｔ_ｊｋｒ ^（ｉ）（ｒ＝１，・・・，Ｒ）をそれぞれ生成する（ステップＳ４０５）。

【0060】

そして、モデル学習部１０３は、上記のステップＳ４０１で抽出されたテキストＳ_ｊ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ））と、上記のステップＳ４０４で生成された合成音声Ｔ_ｊｋ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ），ｋ＝１，・・・，Ｋ）と、上記のステップＳ４０５で生成された雑音重畳合成音声Ｔ_ｊｋｒ ^（ｉ）（ｉ＝１，・・・，｜Ｄ｜，ｊ＝１，・・・，Ｎ^（ｉ），ｋ＝１，・・・，Ｋ，ｒ＝１，・・・，Ｒ）とを用いて、既知の教師あり学習の手法により、音声認識モデル記憶部２０１に記憶されている音声認識モデルを追加学習（チューニング）する（ステップＳ４０６）。すなわち、モデル学習部１０３は、テキストＳ_ｊ ^（ｉ）を教師データとして、合成音声Ｔ_ｊｋ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化すると共に、雑音重畳合成音声Ｔ_ｊｋｒ ^（ｉ）を音声認識モデルにより認識した結果を表すテキストと教師データとの誤差を最小化するように、既知の教師あり学習の手法により、当該音声認識モデルの学習可能パラメータを学習（更新）する。なお、各合成音声Ｔ_ｊｋ ^（ｉ）（ｋ＝１，・・・，Ｋ）及び各雑音重畳合成音声Ｔ_ｊｋｒ ^（ｉ）に対しては、テキストＳ_ｊ ^（ｉ）を教師データとして用いることに留意されたい。これにより、文書集合Ｄ中に存在する未知語が認識可能で、かつ、雑音に対して頑強（ロバスト）な音声認識モデルが得られる。

【0061】

以上のように、第四の実施形態に係る音声認識モデル追加学習装置１０は、第三の実施形態で説明した構成に加えて、合成音声に対して雑音を重畳させた雑音重畳合成音声を生成する。これにより、同一のテキストから多様な合成音声・雑音重畳合成音声を生成することが可能となり、第三の実施形態よりも精度が良く、かつ、雑音に対して頑強（ロバスト）な音声認識モデルを得ることが可能となる。

【0062】

［第五の実施形態］
以下、第五の実施形態について説明する。第一乃至第四の実施形態では未知語が含まれ得る文書が音声認識モデル追加学習装置１０に与えられるものとしたが、文書ではなく、未知語が与えられることもある。そこで、第五の実施形態では、未知語が音声認識モデル追加学習装置１０に与えられる場合について説明する。

【0063】

なお、第五の実施形態では、主に、第二の実施形態との相違点について説明し、第二の実施形態と同様としてよい箇所についてはその説明を省略又は簡略化する。

【0064】

＜第五の実施形態に係る音声認識モデル追加学習装置１０の機能構成例＞
第五の実施形態に係る音声認識モデル追加学習装置１０の機能構成例を図９に示す。図９に示すように、第五の実施形態に係る音声認識モデル追加学習装置１０は、テキスト抽出部１０１と、音声合成部１０２と、モデル学習部１０３と、辞書登録部１０５と、文書検索部１０８とを有する。これら各部は、例えば、音声認識モデル追加学習装置１０にインストールされた１以上のプログラムが、ＣＰＵやＧＰＵ等の各種演算装置に実行させる処理により実現される。また、第五の実施形態に係る音声認識モデル追加学習装置１０は、音声認識モデル記憶部２０１と、辞書記憶部２０２とを有する。これら各記憶部は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリ等の各種記憶装置の記憶領域により実現される。

【0065】

文書検索部１０８は、音声認識モデル追加学習装置１０に与えられた未知語を用いて、その未知語を含む文書を検索する。文書検索部１０８は、例えば、予め決められた文書データベースから文書を検索してもよいし、Ｗｅｂクロール等の技術を利用してＷｅｂ上から文書を検索してもよい。これにより、与えられた未知語を含む文書が検索される。具体例を挙げれば、例えば、サービス名といった未知語が与えられた場合、そのサービスに関するニュースリリースやパンフレット等といった文書を検索により得ることができる。なお、音声認識モデル追加学習装置１０には１つの未知語が与えられてもよいし、複数の未知語が与えられてもよい。複数の未知語が与えられた場合、それらの未知語のうち少なくとも１つの未知語が含まれる文書が検索される。

【0066】

以下、文書検索部１０８によって検索された文書の集合を同様にＤ＝｛Ｄ_ｉ｜ｉ＝１，・・・，｜Ｄ｜｝とする。なお、テキスト抽出部１０１は、文書検索部１０８によって検索された各文書Ｄ_ｉ（ｉ＝１，・・・，｜Ｄ｜）からテキストＳ_ｊ ^（ｉ）（ｊ＝１，・・・，Ｎ^（ｉ））をそれぞれ抽出する。

【0067】

辞書登録部１０５は、音声認識モデル追加学習装置１０に与えられた未知語と、その未知語の読みとの組を辞書記憶部２０２に登録する。なお、未知語の読みは、第二の実施形態と同様の方法により取得すればよい。

【0068】

＜第五の実施形態に係る音声認識モデル追加学習処理＞
第五の実施形態に係る音声認識モデル追加学習処理について、図１０を参照しながら説明する。なお、以下では、１つ以上の未知語が音声認識モデル追加学習装置１０に与えられたものとする。

【0069】

文書検索部１０８は、与えられた１つ以上の未知語のうち少なくとも１つの未知語が含まれる文書を検索する（ステップＳ５０１）。これにより、文書集合Ｄ＝｛Ｄ_ｉ｜ｉ＝１，・・・，｜Ｄ｜｝が得られる。

【0070】

図１０のステップＳ５０２は、図４のステップＳ２０１と同様であるため、その説明を省略する。

【0071】

ステップＳ５０２に続いて、辞書登録部１０５は、与えられた未知語とその読みとの組を辞書記憶部２０２に登録する（ステップＳ５０３）。

【0072】

図１０のステップＳ５０４～ステップＳ５０５は、図４のステップＳ２０４～ステップＳ２０５とそれぞれ同様であるため、その説明を省略する。

【0073】

以上のように、第五の実施形態に係る音声認識モデル追加学習装置１０は、与えられた未知語が含まれる文書を検索する。これにより、未知語が含まれる文書を準備する必要がなくなるため、例えば、第二の実施形態よりも低コストで音声認識モデルを追加学習（チューニング）させることが可能となる。

【0074】

［変形例］
・変形例１
上記の各実施形態は適宜組み合わされてもよい。例えば、上記の第一乃至第四の実施形態のいずれか１つの実施形態と、上記の第五の実施形態とが組み合わされてもよい。また、例えば、第四の実施形態に係る雑音重畳部１０７は、例えば、第一、第二及び第五の実施形態と組み合わされてもよい。

【0075】

・変形例２
テキスト抽出部１０１によって抽出されたテキストを変形することにより、データ拡張が行われてもよい。例えば、テキストと未知語（未知語は与えられてもよいし、未知語抽出部１０４によって抽出された未知語であってもよい。）とを入力として、その未知語が含まれるテキストを生成することにより、データ拡張が行われてもよい。又は、例えば、未知語（未知語は与えられてもよいし、未知語抽出部１０４によって抽出された未知語であってもよい。）を既知の言語モデル等に入力したり、未知語とテキストを既知の言語モデル等に入力したりすることにより、その未知語が含まれるテキストを生成し、データ拡張が行われてもよい。このとき、言語モデルに対してテキストの生成指示を与える際には、例えば、対話形式のインタフェース等を利用してプロンプト等によって与えられてもよい。又は、例えば、テキストと未知語（未知語は与えられてもよいし、未知語抽出部１０４によって抽出された未知語であってもよい。）とを入力として、当該テキスト中で未知語と同じ品詞の単語を当該未知語で置換することにより、データ拡張が行われてもよい。又は、例えば、未知語が含まれるテキストを入力として、そのテキスト中の未知語の文法的な活用を変化させたり、そのテキスト中の未知語を同一又は類似する意味の語に言い換えたりすること等により、データ拡張が行われてもよい。また、これらで生成されたテキストに関して、その語順を変更したり、口語体と文語体とを相互に変換したりすること等によって、データ拡張が行われてもよい。

【0076】

・変形例３
或る未知語に関してその未知語が含まれるテキスト及び合成音声の数が少ない場合、それらのテキスト及び合成音声により音声認識モデルを追加学習するとモデル全体の精度低下に繋がる恐れがある。このため、その未知語が含まれるテキスト及び合成音声による学習要否を判定してもよい。

【0077】

例えば、未知語毎に各テキストに含まれる当該未知語の出現回数をカウントし、その出現回数が予め決められた所定の閾値未満である場合、その未知語が含まれるテキスト及び合成音声を音声認識モデルの追加学習に使用しないようにしてもよい。又は、例えば、未知語毎に当該未知語が含まれるテキストの数をカウントし、そのテキスト数が予め決められた所定の閾値未満である場合、当該テキストとそれを読み上げた合成音声とを音声認識モデルの追加学習に使用しないようにしてもよい。

【0078】

また、例えば、未知語毎に各テキストに含まれる当該未知語の出現回数をカウントし、その出現回数が予め決められた所定の閾値未満である場合、当該未知語が含まれるテキストを収集又は生成し、その出現回数が閾値以上となるようにしてもよい。同様に、例えば、未知語毎に当該未知語が含まれるテキストの数をカウントし、そのテキスト数が予め決められた所定の閾値未満である場合、当該未知語が含まれるテキストを収集又は生成し、そのテキスト数が閾値以上となるようにしてもよい。これにより、或る未知語が含まれるテキスト及び合成音声の数が少ない場合であっても、追加学習による音声認識モデルの精度低下を抑止することが可能となる。

【0079】

・変形例４
テキスト抽出部１０１は文書からテキスト（文）を抽出するものとしたが、テキスト抽出部１０１は文書以外からもテキストを抽出してもよい。例えば、テキスト抽出部１０１は、音声を除く、画像（文書中の画像も含む）等からテキストを抽出してもよい。なお、テキスト抽出部１０１は画像からテキストを抽出する際にはＯＣＲ（Optical Character Recognition）等の技術を利用すればよい。これにより、例えば、画像中のテキストも音声認識モデルの追加学習に利用することが可能となる。

【0080】

また、上記以外にも、テキスト抽出部１０１は、Ｗｅｂ会議システムから収集可能な各種情報（例えば、会議参加者の氏名やニックネーム、グループ名、チーム名、会議名、イベント名等）からテキストを抽出してもよい。これにより、これらの情報から抽出されたテキストも音声認識モデルの追加学習に利用することが可能となる。

【0081】

［まとめ］
以上のように、上記の各実施形態に係る音声認識モデル追加学習装置１０では、未知語が含まれ得るテキストと、そのテキストを音声合成技術により読み上げた合成音声とを学習データとして音声認識モデルを追加学習（チューニング）する。これにより、未知語を音声認識モデルに認識させるための学習に利用する学習データを低コストで作成することが可能となる。

【0082】

このため、例えば、１つの利用シーンとして、Ｗｅｂ会議システム等を利用した会議における音声対話から音声認識モデルにより議事録を作成したい場合等に、会議資料に記載されている専門用語等の未知語を認識可能な音声認識モデルを低コストで得ることが可能となる。

【0083】

本発明は、具体的に開示された上記の各実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

【符号の説明】

【0084】

１０音声認識モデル追加学習装置
１０１テキスト抽出部
１０２音声合成部
１０３モデル学習部
１０４未知語抽出部
１０５辞書登録部
１０６水増し音声合成部
１０７雑音重畳部
１０８文書検索部
２０１音声認識モデル記憶部
２０２辞書記憶部

【図1】