特許第6578049号(P6578049)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許6578049-学習データ生成装置及びそのプログラム 図000002
  • 特許6578049-学習データ生成装置及びそのプログラム 図000003
  • 特許6578049-学習データ生成装置及びそのプログラム 図000004
  • 特許6578049-学習データ生成装置及びそのプログラム 図000005
  • 特許6578049-学習データ生成装置及びそのプログラム 図000006
  • 特許6578049-学習データ生成装置及びそのプログラム 図000007
  • 特許6578049-学習データ生成装置及びそのプログラム 図000008
  • 特許6578049-学習データ生成装置及びそのプログラム 図000009
  • 特許6578049-学習データ生成装置及びそのプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6578049
(24)【登録日】2019年8月30日
(45)【発行日】2019年9月18日
(54)【発明の名称】学習データ生成装置及びそのプログラム
(51)【国際特許分類】
   G10L 15/06 20130101AFI20190909BHJP
   G10L 15/18 20130101ALI20190909BHJP
【FI】
   G10L15/06 300H
   G10L15/18 300G
【請求項の数】5
【全頁数】15
(21)【出願番号】特願2018-173443(P2018-173443)
(22)【出願日】2018年9月18日
(62)【分割の表示】特願2014-211298(P2014-211298)の分割
【原出願日】2014年10月16日
(65)【公開番号】特開2019-8315(P2019-8315A)
(43)【公開日】2019年1月17日
【審査請求日】2018年9月20日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】奥 貴裕
(72)【発明者】
【氏名】佐藤 庄衛
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2009−210829(JP,A)
【文献】 特開2012−128188(JP,A)
【文献】 特開2000−89786(JP,A)
【文献】 特開2010−54685(JP,A)
【文献】 秋田祐哉他,国会音声認識システムの音響・言語モデルの半自動更新,情報処理学会研究報告[CD−ROM],2010年12月20日,Vol.2010-SLP-84,No.3,p.1-5
【文献】 本間真一他,報道系対談番組向け自由発話音声認識の改善,日本音響学会2009年春季研究発表会講演論文集[CD−ROM],2009年 3月17日,p.243-244
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 3/00
(57)【特許請求の範囲】
【請求項1】
音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、
テキストコーパスから予め生成した第1言語モデルと、字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する第3言語モデル生成手段と、
前記第3言語モデル及び予め生成した音響モデルを用いて、音声データを音声認識する音声認識手段と、
前記音声データの音声認識結果を表す音声認識テキストと前記字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、
前記音声認識テキストと前記字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、前記音声認識テキストの単語を前記字幕テキストの単語に置換する置換手段と、
前記音声データの発話区間毎に、前記置換手段で置換された音声認識テキストと前記字幕テキストとが一致するか否かを判定し、一致すると判定された前記発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、前記学習データを生成する学習データ生成手段と、
を備えることを特徴とする学習データ生成装置。
【請求項2】
前記置換手段は、前記予め設定された単語数が5であることを特徴とする請求項1に記載の学習データ生成装置。
【請求項3】
前記学習データを用いて、前記音響モデルを適応化する音響モデル適応化手段、をさらに備えることを特徴とする請求項1又は請求項2に記載の学習データ生成装置。
【請求項4】
前記音響モデル適応化手段は、前記音響モデルを適応化した回数が予め設定された閾値以下であるか否かを判定し、前記回数が前記閾値以下の場合、適応化した前記音響モデルを前記音声認識手段に出力し、
前記音声認識手段は、前記第3言語モデル及び前記適応化した音響モデルを用いて、前記音声データを音声認識することを特徴とする請求項3に記載の学習データ生成装置。
【請求項5】
コンピュータを、請求項1から請求項4の何れか一項に記載の学習データ生成装置として機能させるための学習データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置及びそのプログラムに関する。
【背景技術】
【0002】
現在、スポーツ番組や情報番組の一部では、リスピーク方式により字幕を制作している。このリスピーク方式とは、字幕キャスタと呼ばれる字幕制作用のリスピーカが復唱した番組音声を音声認識し、字幕を制作するものである(例えば、非特許文献1)。リスピーク方式には、特殊な復唱技術が求められるうえ、リスピーカを介して字幕を制作するため、時間を要する。よって、リスピーク方式によらず、番組音声をリアルタイムで音声認識できる手法が望まれている。
【0003】
これを実現するには、スポーツ番組や情報番組といった様々なジャンルの放送番組を精度よく音声認識できる音響モデルが必要になる。このとき、音響モデルを構築するための学習データとして、大規模な音声言語コーパスが必要になる。この音声言語コーパスには、実用化レベルの音響モデルを構築するために、高い精度が要求される。
【0004】
従来より、音声言語コーパスを生成する手法として、準教師あり学習が提案されている(例えば、非特許文献2)。非特許文献2に記載の技術は、番組音声の音声認識結果と字幕テキストとからアライメントを行い、発話区間毎に音声認識結果と字幕テキストとが一致するか否かを判定し、一致する発話区間を抽出するものである。そして、非特許文献2に記載の技術は、抽出した発話区間に対応する音声データと字幕テキストを音響モデルの学習に用いる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】松井他、言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作、電子情報通信学会論文誌、D-11、情報・システム処理,II-パターン処理、Vol.87、No.2、pp.427-435,2004-02-01
【非特許文献2】Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、非特許文献2に記載の技術は、ニュース番組が対象のため、他のジャンルの放送番組に適用した場合、必要な量の学習データを生成できないという問題がある。
具体的には、情報番組では、背景音楽や雑音が含まれていたり、アナウンサ以外の出演者が正確に発話していないことが多い。このため、非特許文献2に記載の技術は、ニュース番組で学習した音響モデルを用いても、情報番組の音声認識精度が低くなり、音声認識結果と字幕テキストとの単語一致区間が減少してしまう。その結果、非特許文献2に記載の技術では、必要な量の学習データを生成できない。
【0007】
本願発明は、高精度な学習データをより多く生成できる学習データ生成装置及びそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記した課題に鑑みて、本願発明に係る学習データ生成装置は、音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、第3言語モデル生成手段と、音声認識手段と、アライメント手段と、置換手段と、学習データ生成手段と、を備える構成とした。
【0009】
かかる構成によれば、学習データ生成装置は、第3言語モデル生成手段によって、テキストコーパスから予め生成した第1言語モデルと、字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する。
【0010】
学習データ生成装置は、音声認識手段によって、第3言語モデル及び予め生成した音響モデルを用いて、音声データを音声認識する。そして、学習データ生成装置は、アライメント手段によって、音声データの音声認識結果を表す音声認識テキストと字幕テキストとの単語を、時刻順で対応付けるアライメントを行う。
【0011】
ここで、音声認識の精度が字幕制作の精度よりも低いと考えられる。また、音声認識テキストと字幕テキストとの間で対応付けられた単語が異なり、かつ、その単語に前後する単語連鎖が一致する場合、音声認識テキストに含まれるその単語が、誤って音声認識された可能性が非常に高くなる。
【0012】
そこで、学習データ生成装置は、置換手段によって、音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語の前後で予め設定された単語数の単語連鎖が一致するか否かによりその単語が置換対象であるか否かを判定する。そして、学習データ生成装置は、置換手段によって、その単語が置換対象の場合、音声認識テキストのその単語を字幕テキストの単語に置換する。
【0013】
このように、学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換するので、音声認識テキストと字幕テキストとの単語一致区間を増加させることができる。
【0014】
学習データ生成装置は、学習データ生成手段によって、音声データの発話区間毎に、置換手段で置換された音声認識テキストと字幕テキストとが一致するか否かを判定し、一致すると判定された発話区間の音声データに、発話区間に対応した字幕テキストの単語をラベルとして付与する。このとき、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加しているため、一致すると判定される発話区間も増加することになる。
【発明の効果】
【0015】
本願発明によれば、以下のような優れた効果を奏する。
本願発明に係る学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
【図面の簡単な説明】
【0016】
図1】本願発明の第1実施形態に係る音響モデル生成装置の構成を示すブロック図である。
図2図1の音響モデル生成装置における単語の置換を説明する説明図である。
図3図1の音響モデル生成装置の動作を示すフローチャートである。
図4】本願発明の第2実施形態に係る音響モデル生成装置の構成を示すブロック図である。
図5図4の音響モデル生成装置の動作を示すフローチャートである。
図6】本願発明の実施例1において、単語数と異なるパターン数との関係を示すグラフである。
図7】実施例2,3及び比較例において、『クローズアップ現代』の適応化回数と音声言語コーパスとの関係を示すグラフである。
図8】実施例2,3及び比較例において、『まる得マガジン』の適応化回数と音声言語コーパスとの関係を示すグラフである。
図9】実施例2,3及び比較例において、『サイエンスZERO』の適応化回数と音声言語コーパスとの関係を示すグラフである。
【発明を実施するための形態】
【0017】
以下、本願発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
【0018】
(第1実施形態)
[音響モデル生成装置の構成]
図1を参照し、本願発明の第1実施形態に係る音響モデル生成装置(学習データ生成装置)1の構成について説明する。
音響モデル生成装置1は、音響モデルの適応化に必要な学習データを準教師あり学習により生成し、生成した学習データを用いて、音響モデルを適応化(生成)するものである。
この音響モデルは、ニュース番組に限定されず、スポーツ番組、情報番組といった様々なジャンルの放送番組の音声認識に用いることができる。
【0019】
図1のように、音響モデル生成装置1は、適応化言語モデル生成手段(第3言語モデル生成手段)10と、音声認識手段20と、アライメント手段30と、置換手段40と、学習データ生成手段50と、音響モデル適応化手段60とを備える。
【0020】
適応化言語モデル生成手段10は、ベースライン言語モデル(第1言語モデル)と、ドメイン言語モデル(第2言語モデル)とを補間することで、適応化言語モデル(第3言語モデル)を生成するものである。
【0021】
なお、ベースライン言語モデルとは、大規模テキストコーパスから予め生成した言語モデルのことである。
また、ドメイン言語モデルとは、放送番組に付与された字幕テキストから予め生成した言語モデルのことである。
【0022】
適応化言語モデル生成手段10は、ベースライン言語モデル及びドメイン言語モデルが入力される。そして、適応化言語モデル生成手段10は、入力されたベースライン言語モデルとドメイン言語モデルとを線形補間し、適応化言語モデルを生成する。このとき、適応化言語モデル生成手段10は、ドメイン言語モデルをベースライン言語モデルより大きく重み付ける。
【0023】
例えば、ベースライン言語モデル及びドメイン言語モデルがトライグラムの言語モデルであることとする。また、ベースライン言語モデル及びドメイン言語モデルには、下記のように、「今日」、「は」、「私」という同一の単語連鎖のエントリが存在し、それぞれのスコア(確率)が‘7.0’及び‘5.0’であることとする。また、ドメイン言語モデルの補間係数(重み係数)を‘0.9’とし、ベースライン言語モデルの補間係数を‘0.1’とした場合、以下のようになる。
【0024】
<各言語モデルの一例>
ベースライン言語モデル:「今日」、「は」、「私」 スコア7.0
ドメイン言語モデル :「今日」、「は」、「私」 スコア5.0
適応化言語モデル :「今日」、「は」、「私」 スコア5.2
【0025】
この例では、適応化言語モデル生成手段10は、ベースライン言語モデルのスコア‘7.0’とベースライン言語モデルの補間係数‘0.1’との乗算値‘0.7’を求める。また、適応化言語モデル生成手段10は、ドメイン言語モデルのスコア‘5.0’とドメイン言語モデルの補間係数‘0.9’との乗算値‘4.5’を求める。そして、適応化言語モデル生成手段10は、ベースライン言語モデルの乗算値とドメイン言語モデルとの乗算値を加算したスコア‘5.2’を求め、スコア‘5.2’の「今日」、「は」、「私」という単語連鎖のエントリを適応化言語モデルに追加する。
【0026】
その後、適応化言語モデル生成手段10は、生成した適応化言語モデルを音声認識手段20に出力する。
なお、ベースライン言語モデル、ドメイン言語モデル及び適応化言語モデルは、前記した例に限定されない。また、補間係数も前記した例に限定されない。
【0027】
音声認識手段20は、適応化言語モデル生成手段10から入力された適応化言語モデル及びベースライン音響モデルを用いて、放送番組の音声認識を行うものである。ここで、音声認識手段20は、放送番組の音声が収録された音声データと、予め生成したベースライン音響モデルとが入力される。そして、音声認識手段20は、1パスデコーダや2パスデコーダといった任意の音声認識デコーダを用いて、この音声データを発話区間毎に音声認識し、音声認識結果を表す音声認識テキストを生成する。
【0028】
その後、音声認識手段20は、生成した音声認識テキストと、音声データ(不図示)とをアライメント手段30に出力する。
なお、後記する繰り返し処理の場合、音声認識手段20は、音響モデル適応化手段60から入力された適応化音響モデルでベースライン音響モデルを更新し、この適応化音響モデルと適応化言語モデルを用いて、放送番組の音声認識を行う。
【0029】
アライメント手段30は、音声認識手段20から入力された音声認識テキストと、字幕テキストとのアライメントを行うものである。
アライメントとは、音声認識テキスト及び字幕テキストに含まれる単語を、時刻順で対応付けることである。
【0030】
ここで、アライメント手段30は、放送番組に付与された字幕テキストが入力される。そして、アライメント手段30は、音声認識テキストに含まれる単語と、字幕テキストに含まれる単語とを時刻順で対応付ける。その後、アライメント手段30は、アライメントした音声認識テキスト及び字幕テキストと、音声データとを置換手段40に出力する。
【0031】
置換手段40は、アライメント手段30から入力された音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語に前後する単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定するものである。そして、置換手段40は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する。
【0032】
<単語の置換>
図2を参照し、置換手段40による単語の置換について説明する(適宜図1参照)。
この図2では、音声認識テキスト100及び字幕テキスト200に含まれる単語a〜単語d、単語X及び単語Yを、「a」〜「d」、「X」及び「Y」と図示した。また、単語a,…,単語b及び単語c,…,単語dは、それぞれ、N個の単語が連続する単語連鎖である。また、音声認識テキスト100及び字幕テキスト200との間では、単語aから単語bまでの単語及び単語cから単語dまでの単語が一致することとする。
【0033】
図2のように、音声認識テキスト100と字幕テキスト200との間では、単語a,…,単語b及び単語c,…,単語dが対応付けられたこととする。また、音声認識テキスト100の単語Xと、字幕テキスト200の単語Yが対応付けられたこととする。
【0034】
置換手段40は、任意の値で単語数Nを予め設定しておく。この単語数Nは、アライメントのずれを抑制すると共に、学習データの量を増加させるため、‘5’に設定することが好ましい(実施例1参照)。
【0035】
ここで、置換手段40は、音声認識テキスト100及び字幕テキスト200の先頭側から順に、対応付けられた単語が一致するか否かを判定する。まず、置換手段40は、音声認識テキスト100の単語aと、字幕テキスト200の単語aとが一致するので、単語aを置換対象として判定しない。単語aと同様、置換手段40は、単語bまでを置換対象として判定しない。
【0036】
また、置換手段40は、音声認識テキスト100の単語Xと、字幕テキスト200の単語Yとが異なる単語のため、一致しないと判定する。ここで、音声認識テキスト100の単語Xの前、及び、字幕テキスト200の単語Yの前には、同一の単語a,…,単語bがN個連続する。また、音声認識テキスト100の単語Xの後、及び、字幕テキスト200の単語Yの後には、同一の単語c,…,単語dがN個連続する。このことから、置換手段40は、音声認識テキスト100の単語X及び字幕テキスト200の単語Yに前後するN個の単語連鎖とが一致すると判定する。従って、置換手段40は、音声認識テキスト100の単語Xを置換対象として判定し、この単語Xを字幕テキスト200の単語Yに置換する。
【0037】
すなわち、置換手段40は、判定基準となる単語が異なっており、判定基準となる単語の前後にする単語連鎖が一致する場合、音声認識テキスト100の単語が誤って音声認識されたと判定して、字幕テキスト200の単語で置換する。
【0038】
続いて、置換手段40は、単語c,…,単語dが音声認識テキスト100と字幕テキスト200との間で一致するので、単語c,…,単語dを置換対象として判定しない。
その後、置換手段40は、置換された音声認識テキスト100と、字幕テキスト200と、音声データとを学習データ生成手段50に出力する。
【0039】
学習データ生成手段50は、学習データを生成するために、置換手段40から入力された音声認識テキスト100と字幕テキスト200とが一致するか否かを発話区間毎に判定するものである。
【0040】
ここで、学習データ生成手段50は、音声認識テキスト100と字幕テキスト200との判定単位として、置換手段40から入力された音声データ及び音声認識テキスト100の発話区間を検出する。そして、学習データ生成手段50は、検出した発話区間毎に判定を行い、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する。
【0041】
例えば、図2において、単語aから単語dまでが同一の発話区間であることとする。この場合、学習データ生成手段50は、音声認識テキスト100の単語Xが単語Yに置換されているため、音声認識テキスト100と字幕テキスト200との間で単語aから単語dまでの発話区間が一致すると判定し、この発話区間から学習データを生成する。
【0042】
その後、学習データ生成手段50は、生成した学習データを音響モデル適応化手段60に出力する。さらに、学習データ生成手段50は、生成した学習データを音声言語コーパスとして出力してもよい。
【0043】
図1に戻り、音響モデル生成装置1の構成について、説明を続ける。
音響モデル適応化手段60は、学習データ生成手段50から入力された学習データを用いて、音響モデルを適応化するものである。例えば、音響モデル適応化手段60は、音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を用いることができる。また、音響モデル適応化手段60は、音響モデルの適応化手法として、MAP(Maximum A. Posteriori estimation)法を用いてもよい。
【0044】
また、音響モデル適応化手段60は、適応化した音響モデル(適応化音響モデル)を用いると音響認識の精度が向上するため、繰り返し処理を行うか否かを判定する。具体的には、音響モデル適応化手段60は、音響モデルを適応化した回数(適応化回数)をインクリメントし、この適応化回数が予め設定された閾値以下であるか否かを判定する。
【0045】
ここで、適応化回数が閾値以下の場合、音響モデル適応化手段60は、繰り返し処理を行うと判定し、適応化音響モデルを音声認識手段20に出力する。
一方、適応化回数が閾値を超える場合、音響モデル適応化手段60は、繰り返し処理を行わないと判定し、適応化音響モデルを外部に出力し、処理を終了する。
【0046】
なお、繰り返し処理では、音声認識手段20がベースライン音響モデルの代わりに適応化音響モデルを用いる以外、音響モデル生成装置1の各手段が同様の処理を行うので、これ以上の説明を省略する。
【0047】
また、音響モデル生成装置1は、置換手段40以外の各手段が下記参考文献1に記載されているため、これ以上の説明を省略する。
参考文献1:Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002
【0048】
[音響モデル生成装置の動作]
図3を参照し、音響モデル生成装置1の動作について説明する(適宜図1参照)。
音響モデル生成装置1は、適応化言語モデル生成手段10によって、ベースライン言語モデルとドメイン言語モデルとを補間することで、適応化言語モデルを生成する(ステップS1)。
【0049】
音響モデル生成装置1は、音声認識手段20によって、ステップS1で生成した適応化言語モデル及びベースライン音響モデルを用いて放送番組の音声認識を行う(ステップS2)。
音響モデル生成装置1は、アライメント手段30によって、ステップS2で生成した音音声認識テキストと、字幕テキストとのアライメントを行う(ステップS3)。
【0050】
音響モデル生成装置1は、置換手段40によって、ステップS3でアライメントした音声認識テキストと字幕テキストとの単語が異なり、かつ、その単語に前後する単語数Nの単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定する。そして、置換手段40は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する(ステップS4)。
【0051】
音響モデル生成装置1は、学習データ生成手段50によって、ステップS4で置換した音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、学習データ生成手段50は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する(ステップS5)。
【0052】
音響モデル生成装置1は、音響モデル適応化手段60によって、ステップS5で生成した学習データを用いて、音響モデルを適応化し、適応化回数をインクリメントする(ステップS6)。
音響モデル生成装置1は、音響モデル適応化手段60によって、適応化回数が閾値以下であるか否かにより、繰り返し処理を行うか否かを判定する(ステップS7)。
【0053】
繰り返し処理を行う場合(ステップS7でYes)、音響モデル生成装置1は、ステップS2の処理に戻る。ステップS2の処理において、音声認識手段20は、ベースライン音響モデルの代わりにステップS6で適応化した音響モデルを用いて、放送番組の音声認識を行う。その後、音響モデル生成装置1は、ステップS3以降の処理を継続する。
繰り返し処理を行わない場合(ステップS7でNo)、音響モデル適応化手段60は、ステップS6で適応化した音響モデルを出力し、処理を終了する。
【0054】
以上のように、本願発明の第1実施形態に係る音響モデル生成装置1は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、音響モデル生成装置1は、音声認識テキストと字幕テキストとの単語一致区間が増加し、高精度な学習データをより多く生成することができる。
【0055】
(第2実施形態)
[音響モデル生成装置の構成]
図4を参照し、本願発明の第2実施形態に係る音響モデル生成装置1Bの構成について、第1実施形態と異なる点を説明する(適宜図1参照)。
第2実施形態では、学習データ及び音声言語コーパスを異なるデータとして扱う点が、第1実施形態と異なる。
【0056】
図4のように、音響モデル生成装置1Bは、適応化言語モデル生成手段10と、音声認識手段20と、アライメント手段30Bと、置換手段40と、学習データ生成手段50Bと、音響モデル適応化手段60と、音声言語コーパス生成手段70とを備える。
なお、アライメント手段30B、学習データ生成手段50B及び音声言語コーパス生成手段70以外の各手段は、第1実施形態と同様のため、説明を省略する。
【0057】
アライメント手段30Bは、アライメントした音声認識テキスト及び字幕テキストを置換手段40及び音声言語コーパス生成手段70に出力する。他の点、アライメント手段30Bは、第1実施形態と同様のため、説明を省略する。
学習データ生成手段50Bは、音声言語コーパスを出力しない以外、第1実施形態と同様のため、説明を省略する。
【0058】
音声言語コーパス生成手段70は、発話区間毎に、アライメント手段30Bから入力された音声認識テキストと字幕テキストとが一致するか否かを判定するものである。そして、音声言語コーパス生成手段70は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する。
【0059】
図1の学習データ生成手段50は、学習データを生成する際、単語が置換された音声認識テキスト(つまり、置換手段40から入力された音声認識テキスト)を用いる。一方、音声言語コーパス生成手段70は、音声言語コーパスを生成する際、単語が置換されていない音声認識テキスト(つまり、アライメント手段30Bから入力された音声認識テキスト)を用いる。
他の点、音声言語コーパス生成手段70は、図1の学習データ生成手段50と同様のため、説明を省略する。
【0060】
[音響モデル生成装置の動作]
図5を参照し、音響モデル生成装置1Bの動作について説明する(適宜図3図4参照)。
図5のステップS1〜S7の処理は、図3の各ステップと同様のため、説明を省略する。
【0061】
音響モデル生成装置1Bは、音声言語コーパス生成手段70によって、ステップS3でアライメントした音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、音声言語コーパス生成手段70は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する(ステップS8)。
なお、ステップS8の処理は、ステップS5の後に制限されず、ステップS3の後からステップS7の前までに実行すればよい。
【0062】
以上のように、本願発明の第2実施形態に係る音響モデル生成装置1Bは、第1実施形態と同様、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
【0063】
(実施例1)
以下、実施例1として、単語数Nの設定について説明する。
なお、字幕テキストは、十分な精度があり、誤っている可能性が低いこととする。
【0064】
字幕テキスト内に類似した単語連鎖が複数存在する場合、アライメントで対応付けた単語のずれが発生することがある。単語数Nを1,2といった小さな値で設定すると、アライメントのずれが解消されず、字幕テキストの誤った単語で音声認識テキストの単語を置換する可能性がある。これに対し、単語数Nを大きな値で設定すると、アライメントのずれが解消されるものの、置換対象と判定される単語数が減少し、発話ラベルとして利用可能な発話区間を検出できないことがある。
【0065】
以上のように、音声認識テキストと、字幕テキストとの不一致区間のうち、音声認識テキストから字幕テキストに置換すべき区間(単語)を精度よく検出するためには、適切な単語数Nを設定しなければならない。そこで、ある単語の前後N個の単語連鎖が一致し、かつ、その単語が異なるパターン数を放送番組から調査した。異なるパターンが1回の放送で多く発生する場合、アライメントのずれが発生する可能性が残るため、高精度な学習データの生成が見込めない。
なお、「ある単語の前後N個の単語連鎖が一致し、かつ、その単語が異なるパターン」を「異なるパターン」と略記する。
【0066】
調査対象とした放送番組は、『クローズアップ現代(放送時間26分)』、『まる得マガジン(放送時間5分)』、『サイエンスZERO(放送時間30分)』の100回放送分である。そして、単語数Nの値を変えながら、各調査対象の放送番組に含まれる異なるパターン数を調査した。
【0067】
調査結果を図6に示す。図6の横軸が単語数Nを表し、横軸が1放送回あたりの異なるパターン数の平均値を表す。また、図6では、‘■’が『クローズアップ現代』の結果を表し、‘◆’が『まる得マガジン』の結果を表し、‘▲’が『サイエンスZERO』の結果を表す。
【0068】
この図6において、単語数Nは、異なるパターン数が‘0’となり、かつ、その中で最小値を設定すればよい。3種類の調査対象の放送番組について、単語数N=5とすれば、異なるパターン数が‘0’となった。このことから、単語数N=5に設定すれば、アライメントのずれが発生しなくなると考えられる。
【0069】
(実施例2,3)
以下、音声言語コーパスの生成実験について説明する。
ここで、図1の音響モデル生成装置1と、図4の音響モデル生成装置1Bと、参考文献1に記載の手法とを用いて、音声言語コーパスを生成し、生成した音声言語コーパスを検証した。以下、図1の音響モデル生成装置1を実施例2とし、図4の音響モデル生成装置1Bを実施例3とし、参考文献1に記載の手法を比較例とする。
【0070】
実施例2,3及び比較例では、『クローズアップ現代』、『まる得マガジン』、『サイエンスZERO』それぞれ2時間分の音声認識テキストと字幕テキストとから、学習データを生成した。これら3種類の放送番組は、実施例1のときと放送時間が異なり、2014年2月から6月に放送されている。
【0071】
『クローズアップ現代』は、生放送の報道番組である。『クローズアップ現代』の字幕は、スピードワープロ方式で制作され、番組キャスタの発話内容をそのまま字幕化していることが多く、わずかな誤りが含まれる。
『まる得マガジン』は、オフラインの情報番組である。また、『サイエンスZERO』は、教養番組である。これら『まる得マガジン』及び『サイエンスZERO』の字幕は、予め制作されたものである。
【0072】
適応化言語モデルは、放送番組の書き起こしから学習した語彙サイズ100キロバイトのベースライン言語モデルと、字幕テキストから学習したドメイン言語モデルとを用いて、放送回毎に生成した。このとき、ベースライン言語モデル及びドメイン言語モデルの補間係数は、それぞれ、‘0.1’及び‘0.9’である。
【0073】
音声認識デコーダは、下記参考文献2に記載の2パスデコーダを利用した。この2パスデコーダは、男女の判定を行いながら、性別依存のHMMを用いて音声認識するものである。
参考文献2:今井他、放送用リアルタイム字幕制作のための音声認識技術の改善、第2回ドキュメント処理ワークショップ、pp.113-120、2008
【0074】
ベースライン音響モデルは、日本放送協会が放送したニュース番組から学習した。このニュース番組では、男性が340時間発話し、女性が240時間発話している。男女別の音響モデルは、5状態3自己ループのトライフォンHMMであり、状態共有により16混合分布の約4000状態を有している。これら男女別の音響モデルは、音声認識テキストと字幕テキストとのアライメント結果から抽出した学習データにより適応化した。
【0075】
発話区間の検出には、下記参考文献3に記載の手法を用いた。参考文献3に記載の手法は、男女並列の性別依存音響モデルによるエンドレスな音素認識を行い、音声/非音声の累積音素尤度比から発話区間を検出するものである。
参考文献3:T.Imai et.al,Online speech detection and dual-gender speech recognition for captioning broadcast news,IEICE Trans.Inf&Syst,Vol E90-D,no.8,pp.1286-1291,2007
【0076】
図7図9には、音響モデルの適応化回数(横軸)と音声言語コーパスの抽出率(縦軸)との関係を図示した。図7が『クローズアップ現代』の実験結果を表し、図8が『まる得マガジン』の実験結果を表し、図9が『サイエンスZERO』の実験結果を表す。また、図7図9では、‘▲’が実施例1を表し、‘■’が実施例2を表し、‘◆’が比較例を表す。
【0077】
適応化回数が5回のとき、実施例1は、比較例と比べて、全ての放送番組で抽出率が1.3倍以上となった。また、実施例2は、比較例と比べて、全ての放送番組で抽出率が1.2倍以上となった。
【0078】
適応化回数が5回のとき、音声言語コーパスの発話ラベルの精度を検証した。実施例1では、誤った字幕テキストへの置換が行われ、実施例2よりも誤りが増加した。ここで、実施例1における発話ラベルの誤りは、「あの」、「えー」といった不用語に起因することがわかった。さらに、実施例1,2ともに、音声言語コーパスの精度が99%を超えるので、音響モデルの構築に十分な精度を有する。
【0079】
また、適応化回数が5回のとき、3種類の放送番組で音声言語コーパスの抽出率を比較した。その結果、『サイエンスZERO』、『まる得マガジン』、『クローズアップ現代』の順に抽出率が高くなった。
【0080】
ここで、『クローズアップ現代』は、その放送番組の終了直前に字幕が付与されていなかったため、抽出率が最も低くなったと考えられる。同放送番組では、いくつかの放送回で終了直前まで番組キャスタが発話していたため、スピードワープロ方式で番組音声を全て字幕化できていなかった。
なお、スピードワープロ方式とは、複数のキーを同時に押下して入力する特殊な高速入力用キーボードを用いる字幕制作方式である。
【0081】
また、『まる得マガジン』の方が『サイエンスZERO』よりも、放送時間内での背景音楽の時間割合が高かった。このため、『サイエンスZERO』が『まる得マガジン』よりも抽出率が高くなったと考えられる。
【0082】
このことから、音声言語コーパスの抽出率を高くするためには、(1)放送番組の終了まで番組音声が字幕化されているオフライン字幕番組であること、(2)背景音楽が少ない放送番組であることが好ましい。
【0083】
以上、本願発明の各実施形態及び各実施例を詳述してきたが、本願発明は前記した各実施形態及び各実施例に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0084】
前記した実施形態では、ベースライン言語モデル、ドメイン言語モデル及びベースライン音響モデルが外部から入力されることとして説明したが、本願発明は、これに限定されない。例えば、音響モデル生成装置は、各言語モデル及び各音響モデルを記憶、管理するデータベースを備え、このデータベースを参照して音響モデルを適応化してもよい。
【0085】
前記した実施形態では、音響モデル生成装置(学習データ生成装置)を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を学習データ生成装置として協調動作させる学習データ生成プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0086】
1,1B 音響モデル生成装置(学習データ生成装置)
10 適応化言語モデル生成手段(第3言語モデル生成手段)
20 音声認識手段
30,30B アライメント手段
40 置換手段
50,50B 学習データ生成手段
60 音響モデル適応化手段
70 音声言語コーパス生成手段
図1
図2
図3
図4
図5
図6
図7
図8
図9