特許第6555613号(P6555613)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人 奈良先端科学技術大学院大学の特許一覧 ▶ 日本放送協会の特許一覧

特許6555613認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム
<>
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000002
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000003
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000004
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000005
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000006
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000007
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000008
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000009
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000010
  • 特許6555613-認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6555613
(24)【登録日】2019年7月19日
(45)【発行日】2019年8月7日
(54)【発明の名称】認識誤り修正装置およびそのプログラム、ならびに、字幕生成システム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20190729BHJP
   G06F 17/27 20060101ALI20190729BHJP
   G10L 15/06 20130101ALI20190729BHJP
【FI】
   G10L15/22 470Z
   G06F17/27 665
   G10L15/06 300E
【請求項の数】6
【全頁数】17
(21)【出願番号】特願2015-139881(P2015-139881)
(22)【出願日】2015年7月13日
(65)【公開番号】特開2017-21246(P2017-21246A)
(43)【公開日】2017年1月26日
【審査請求日】2018年5月30日
(73)【特許権者】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】グラム ニュービッグ
(72)【発明者】
【氏名】中村 哲
(72)【発明者】
【氏名】佐藤 庄衛
(72)【発明者】
【氏名】尾上 和穂
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開2015−125232(JP,A)
【文献】 特開平11−085183(JP,A)
【文献】 特開平08−212228(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 −15/34
G06F 17/27
(57)【特許請求の範囲】
【請求項1】
原稿テキストの読み上げ音声を認識して得られた認識結果の認識誤りを修正する認識誤り修正装置であって、
読み上げ対象となる複数の前記原稿テキストについて、それぞれの原稿テキストから当該原稿テキストを要約した要約文を生成する要約文生成手段と、
前記複数の原稿テキストと、それぞれの原稿テキストから生成された前記要約文とから、前記原稿テキストに対応付けて、単語列の遷移を示す状態遷移と当該状態遷移に対するペナルティを示す遷移重みとを含む重み付き有限状態トランスデューサを構築するWFST構築手段と、
このWFST構築手段で構築された重み付き有限状態トランスデューサにおいて、前記認識結果の単語列に対して前記ペナルティの総和が最小となる単語列を探索し、探索した単語列に対応する原稿テキストを前記認識結果の修正結果とするか、または、前記探索した単語列を前記認識結果の修正結果とする探索手段と、
を備えることを特徴とする認識誤り修正装置。
【請求項2】
前記要約文生成手段は、
前記原稿テキストの語句間の係り受けを解析する係り受け解析手段と、
この係り受け解析手段で解析された係り受けを木構造とした係り受け木において、枝刈りを行うことで前記要約文を生成する枝刈り手段と、
を備えることを特徴とする請求項1に記載の認識誤り修正装置。
【請求項3】
前記WFST構築手段は、前記原稿テキストの状態遷移内に、当該原稿テキストに対応する前記要約文で省略された状態遷移をスキップして追加するか、または、前記原稿テキストの状態遷移と並列に、当該原稿テキストに対応する前記要約文の状態遷移を追加する、ことで前記重み付き有限状態トランスデューサを構築することを特徴とする請求項1または請求項2に記載の認識誤り修正装置。
【請求項4】
前記複数の原稿テキストと、それぞれの原稿テキストから生成された前記要約文とから、前記認識結果を生成する音声認識装置が用いる言語モデルを生成する言語モデル学習手段を、さらに備えることを特徴とする請求項1から請求項3のいずれか一項に記載の認識誤り修正装置。
【請求項5】
コンピュータを、請求項1から請求項4のいずれか一項に記載の認識誤り修正装置として機能させるための認識誤り修正プログラム。
【請求項6】
放送番組の字幕を生成する字幕生成システムであって、
前記放送番組の読み上げ対象となる複数の原稿テキストを予め記憶する原稿テキスト記憶装置と、
前記原稿テキストの読み上げ音声を認識して認識結果の単語列を生成する音声認識装置と、
前記複数の原稿テキストと、それぞれの原稿テキストから生成される要約文とから重み付き有限状態トランスデューサを構築し、前記認識結果の単語列に含まれる誤りを修正することで、前記字幕を生成する請求項1から請求項4のいずれか一項に記載の認識誤り修正装置と、
を備えることを特徴とする字幕生成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声の認識誤りを修正する認識誤り修正装置およびそのプログラム、ならびに、認識誤り修正装置を用いた字幕生成システムに関する。
【背景技術】
【0002】
従来、テレビ放送のニュース番組における放送音声を音声認識して字幕を生成する場合、オペレータが、例えば、タッチパネルモニタ等に提示された音声認識結果を一字一句目視でチェックし、誤りを発見するたびに訂正するといった作業を行っている。
このようなオペレータの負荷を軽減して音声認識誤りを自動修正する技術が特許文献1に記載されている。
この特許文献1に記載された技術では、ニュース番組の発話音声が、発話の情報源となる原稿テキストをもとに発話された音声であるため、原稿テキストを利用することで、自動修正を可能としている。
【0003】
具体的には、特許文献1に記載された技術では、音声認識結果から、発話の情報源となる原稿テキスト内の出力候補として確定すべき原稿テキストの区間に、長さN(単語数N)の単語連鎖ブロックを用いる。この出力候補として確定すべき原稿テキストの区間とは、音声認識結果の単語列と、原稿テキスト内の単語列とを比較して両者の単語列の一致度を求める区間のことである。そして、特許文献1に記載された技術では、音声認識結果の単語列(単語数N)と、原稿テキスト内の単語列(N)とが共に同じ単語数Nであるものとして、基準となる音声認識結果の単語列(単語数N)に対して、不一致率が最も小さくなるような原稿テキストの単語列を探索し、順次修正結果として出力している。以下、この従来技術の方式をブロック照合方式と呼ぶ。
【0004】
このブロック照合方式は、音声認識誤りを自動修正することを可能にした点で優れている。しかし、ブロック照合方式は、認識結果の単語列のブロックの境界が未知であることに起因して、修正誤りを起こす場合があった。
【0005】
そこで、本願発明者らは、ブロック照合方式における修正誤りを低減するため、重み付き有限状態トランスデューサ(Weighted Finite-State Transducer:WFST)を利用した音声認識誤り修正装置を提案した(特許文献2参照)。
この特許文献2に記載された技術では、予め放送番組の原稿テキスト(読み原稿)からWFSTを構築し、放送音声を音声認識した結果をそのWFSTに入力して、遷移重みのペナルティの総和が最小となる単語列を、放送音声に対する原稿テキストとして推定する。これによって、特許文献2に記載された技術は、単語の読み飛ばしや読み替え、あるいは、音声認識誤りがあっても、WFSTで構築されている遷移可能な単語順で字幕を特定することができ、放送番組に対して適切な字幕を付与することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2012−128188号公報
【特許文献2】特開2015−125232号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、特許文献2に記載された技術(以下、従来技術という)には、発話者による読み上げ原稿の読み飛ばしに対応するために、さらなる改良の余地があった。
従来技術の利点は、放送番組の原稿テキストが、発話者によって予め定められた単語の順番通り正確に読まれなくても、元の原稿テキストの中から適切な原稿テキストを推定して字幕を付与することができる点である。
【0008】
この従来技術では、一文単位の読み飛ばしであれば、字幕そのものを付与せず、1から2単語程度の読み替えや読み飛ばしであれば、WFSTを用いることで、放送音声に対して、順次、適切に字幕を付与することができるため、問題はない。
しかし、実際の放送では、数単語におよぶ句を読み飛ばすことがしばしばある。このような読み飛ばしに対して、従来技術では、音声認識結果をWFSTに入力しても、遷移重みのペナルティが大きくなるため、適切な原稿テキストを推定することができず、字幕を付与することができないという問題がある。
【0009】
本発明は、このような問題点に鑑みてなされたものであり、原稿テキストの読み上げ音声に読み飛ばしがあっても、適切な原稿テキストを推定して認識誤りを修正することが可能な認識誤り修正装置およびそのプログラム、ならびに、認識誤り修正装置を用いた字幕生成システムを提供することを課題とする。
【課題を解決するための手段】
【0010】
前記課題を解決するため、本発明に係る認識誤り修正装置は、原稿テキストの読み上げ音声を認識して得られた認識結果の認識誤りを修正する認識誤り修正装置であって、要約文生成手段と、WFST構築手段と、探索手段と、を備えることを特徴とする。
【0011】
かかる構成によれば、認識誤り修正装置は、要約文生成手段によって、読み上げ対象となる複数の原稿テキストについて、例えば、係り受け解析を行い、係り受けを木構造とした係り受け木の枝刈りを行うことで、それぞれの原稿テキストから当該原稿テキストを要約した要約文を生成する。これによって、要約文として、原稿テキストを部分的に省略等により要約した単語列が生成されることになる。
【0012】
そして、認識誤り修正装置は、WFST構築手段によって、複数の原稿テキストと、それぞれの原稿テキストから生成された要約文とから、原稿テキストに対応付けて、単語列の遷移を示す状態遷移と当該状態遷移に対するペナルティを示す遷移重みとを含む重み付き有限状態トランスデューサ(WFST)を構築する。これによって、WFSTには、元の原稿テキスト以外に、その原稿テキストを要約した要約文の単語列に対しても状態遷移が構築されることになる。
【0013】
そして、認識誤り修正装置は、探索手段によって、WFST構築手段で構築された重み付き有限状態トランスデューサ(WFST)において、認識結果の単語列に対してペナルティの総和が最小となる単語列を探索し、探索した単語列に対応する原稿テキストを認識結果の修正結果とする。これによって、読み上げ音声に句の読み飛ばしや、音声認識誤りがあっても、適切な原稿テキストが推定されることになる。また、探索手段は、探索した単語列を認識結果の修正結果としてもよい。
なお、認識誤り修正装置は、コンピュータを、要約文生成手段、WFST構築手段、探索手段として機能させるための認識誤り修正プログラムで動作させることができる。
【0014】
また、前記課題を解決するため、本発明に係る字幕生成システムは、放送番組の字幕を生成する字幕生成システムであって、原稿テキスト記憶装置と、音声認識装置と、認識誤り修正装置と、を備えることを特徴とする。
【0015】
かかる構成によれば、字幕生成システムは、原稿テキスト記憶装置に、放送番組の読み上げ対象となる複数の原稿テキストを予め記憶する。
また、字幕生成システムは、認識誤り修正装置によって、複数の原稿テキストと、それぞれの原稿テキストから生成される要約文とから、単語列の状態遷移と遷移重みとを含む重み付き有限状態トランスデューサ(WFST)を構築する。
そして、字幕生成システムは、音声認識装置によって、原稿テキストの読み上げ音声を認識して認識結果(単語列)を生成する。
そして、字幕生成システムは、認識誤り修正装置によって、認識結果(単語列)に含まれる誤りをWFSTにより修正することで、字幕を生成する。
【発明の効果】
【0016】
本発明は、複数の原稿テキストとそれに対応する要約文とを用いて、WFSTを構築するため、原稿テキストの読み上げ音声に読み飛ばしがあっても、適切な原稿テキストを推定して、読み上げ音声の音声認識結果の認識誤りを修正することができる。
また、本発明は、原稿テキストとして放送番組の読み上げ対象となる原稿を用いて、複数の原稿テキストとそれに対応する要約文とからWFSTを構築するため、放送時に原稿テキストの読み上げ音声に読み飛ばしがあっても、読み上げ音声の音声認識結果の認識誤りを修正した字幕を生成することができる。
【図面の簡単な説明】
【0017】
図1】本発明の実施形態に係る認識誤り修正装置を用いた字幕生成システムの概要を説明するための説明図である。
図2】本発明の実施形態に係る字幕生成システムを構成する各装置の内部構成を示すブロック図である。
図3】原稿テキストの係り受け解析結果の一例を示す図である。
図4】原稿テキストから要約文を生成する例を示す図であって、(a)は原稿テキスト、(b)は係り受け木、(c)は要約文の例を示す図である。
図5】重み付き有限状態トランスデューサ(WFST)の基本構成を説明するための説明図である。
図6】単語列のWFSTの構築例を模式的に示す図である。
図7図6のWFSTに誤りを受理する遷移を追加した図である。
図8】本発明の実施形態に係る認識誤り修正装置で遷移を追加したWFSTの構築例を模式的に示す図であって、(a)はスキップ遷移の追加、(b)は並列遷移の追加、(c)はスキップおよび並列遷移の追加の例である。
図9】本発明の実施形態に係る字幕生成システム(認識誤り修正装置を含む)によるWFSTを構築する処理の流れを示すフローチャートである。
図10】本発明の実施形態に係る字幕生成システム(認識誤り修正装置を含む)による字幕を生成する処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面を参照して説明する。
<字幕生成システムの概要>
最初に、図1を参照して、本発明の実施形態に係る字幕生成システム100の概要について説明する。
【0019】
字幕生成システム100は、放送番組(ニュース番組等)に付与する字幕を生成するものである。この字幕生成システム100は、図1に示すように、原稿テキスト記憶装置1と、音声認識装置2と、認識誤り修正装置3と、を備える。
【0020】
原稿テキスト記憶装置1は、放送番組の読み上げ対象となる複数の原稿テキストを、電子データとして記憶しておくものであって、ハードディスク等の一般的な記憶装置で構成される。放送番組のアナウンサ等の発話者Mは、原稿テキスト記憶装置1に記憶されている原稿テキスト10の内容を読み上げ、マイク(不図示)等を介して、その発話音声を音声認識装置2に入力する。
また、原稿テキスト記憶装置1に記憶されている原稿テキストは、認識誤り修正装置3において、放送前の事前準備として、重み付き有限状態トランスデューサ(以下、WFSTという)を構築する際にも利用される。
【0021】
音声認識装置2は、音響モデル、言語モデルおよび発音辞書を利用して発話音声を認識するものである。ここでは、音声認識装置2は、発話者Mが原稿テキスト10を読み上げた読み上げ音声を認識して、認識結果である単語列を生成する。この音声認識装置2で認識され生成された認識結果(単語列)は、認識誤り修正装置3に入力される。
【0022】
認識誤り修正装置3は、音声認識装置2から入力される認識結果に対して、予め準備したWFSTを用いて、認識結果から原稿テキストを推定することで、認識結果に含まれる誤りを修正し、字幕として出力するものである。
すなわち、認識誤り修正装置3は、字幕を生成するための事前準備として、WFSTを構築する機能と、放送番組の放送時に、WFSTを用いて、発話者Mが発話して音声認識された認識結果から字幕を生成する機能とを有する。
【0023】
この認識誤り修正装置3は、原稿テキスト記憶装置1に記憶されている原稿テキストからWFSTを構築する際に、原稿テキストの要約文を生成し、原稿テキストとその要約文とによりWFSTを構築する。この要約文は原稿テキストの内容の一部を省略等により要約した文であるため、認識誤り修正装置3は、発話者Mが原稿テキストの一部を読み飛ばして発話することがあっても、その読み上げ音声に対応するWFSTを予め準備しておくことができる。
これによって、認識誤り修正装置3は、放送番組の放送時において、発話者Mが原稿テキスト10の読み上げ時に読み飛ばしを行っても、対応する原稿テキストを推定することができる。
以下、図2を参照して、字幕生成システム100を構成する認識誤り修正装置3、音声認識装置2についてさらに詳細に説明する。
【0024】
[認識誤り修正装置の構成例]
図2に示す例では、認識誤り修正装置3は、要約文生成手段30と、要約文記憶手段31と、言語モデル学習手段32と、WFST構築手段33と、WFST記憶手段34と、探索手段35と、を備える。
【0025】
要約文生成手段30は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストについて、それぞれの原稿テキストから当該原稿テキストを要約した要約文を生成するものである。ここでは、要約文生成手段30は、係り受け解析手段301と、枝刈り手段302と、を備える。
【0026】
係り受け解析手段301は、原稿テキストの語句間の係り受けを解析するものである。すなわち、係り受け解析手段301は、原稿テキストの語句間で、「修飾する」、「修飾される」の関係を解析する。この係り受け解析には、一般的な手法を用いることができる。例えば、係り受け解析手段301として、CaboCha(以下の参考文献1)等の汎用の係り受け解析器を用いることができる。
(参考文献1:「チャンキングの段階適用による日本語係り受け解析」,工藤拓,松本裕治,情報処理学会誌,Vol.43,No.6,pp.1834-1842(2002))
【0027】
例えば、原稿テキストの中に含まれている文として、「一郎は二郎が描いた絵を三郎に贈った」を、CaboChaにより係り受け解析した結果(XML〔Extensible Markup Language〕出力)の例を図3に示す。図3中、3種類のXMLタグ<sentence>、<chunk>、<tok>は、それぞれ文、文節、形態素を表している。
【0028】
また、<chunk>タグの属性として、「id」は文節番号、「link」は文節の係り先の文節番号、「rel」は係り受けの種類(通常の係り受け“D”、並列“P”、同格“A”等)、「score」は係りやすさのスコア(大きいほど係りやすい)、「head」は主辞形態素番号、「func」は機能形態素番号を表している。なお、文末のどの文節にも係らない文節は、「link」が“−1”となっている。
【0029】
また、<tok>タグの属性として、「id」は形態素番号、「feature」は形態素解析の結果(品詞、活用形等)を表している。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0030】
係り受け解析手段301は、図3で例示した係り受けの解析結果を枝刈り手段302に出力する。なお、ここでは、図3の例で、係り受け解析結果として、CaboChaの出力例を示しているが、係り受け解析手段301は、少なくとも語句間の係り受け関係を特定できる情報のみを出力すればよい。
【0031】
枝刈り手段302は、係り受け解析手段301で解析された係り受け解析結果から、語句(文節)間の係り受け関係を木構造とする係り受け木の枝刈りを行うことで要約文を生成するものである。
ここで、図4を用いて、枝刈り手段302の処理について説明する。この図4では、図3で例示した係り受け解析手段301で解析された係り受け解析結果を用いている。
例えば、図4(a)の原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」は、図3の係り受け構造のリンク(link属性)を辿ることで、語句間の係り受け関係を特定することができる。
【0032】
具体的には、図3で、<chunk>タグの属性として、「id=“0”」の文節番号で特定される文節「一郎は」は、「link=“5”」、すなわち、<chunk>タグの属性として、「id=“5”」の文節番号で特定される文節「贈った」が文節の係り先である。この係り受け関係を、図4(b)において、「一郎は←贈った(係り元←係り先)」の矢印で示している。同様に、図3の他の文節においても、係り受け関係が特定され、図4(a)の原稿テキストは、図4(b)に示す木構造(係り受け木)で表すことができる。
【0033】
枝刈り手段302は、図4(b)に示した係り受け木において、枝刈りを行うことで要約文を生成する。なお、このような係り受け解析結果(係り受け木)から、要約文を生成する手法は、種々提案されている既知の手法を用いればよい。
【0034】
例えば、以下の参考文献2で開示されている手法を用い、係り受け解析結果(係り受け木)から得られる各枝の機能を入力して、要約結果を出力する予め構築したWFSTにより、要約文を生成することができる。この参考文献2に記載の手法では、枝の機能として、例えば、主節は従属節よりも重要である、否定表現は重要である等、重要部分を特定して文書の要約を行っている。
(参考文献2:“Producing Intelligent Telegraphic Text Reduction to provide an Audio Scanning Service for the Blind”, Gregory Grefenstette, In Working Nodes of the Workshop on Intelligent Text Summarization, pp.111-177, Menlo Park, California:American Association for Artifical Intelligence Spring Symposium Series.)
【0035】
また、例えば、以下の参考文献3で開示されている手法を用い、文の情報を最大化するように枝を刈ることで要約文を生成することができる。この参考文献3に記載の手法では、複数の原稿テキストに含まれる単語の頻度により、単語に重要度スコアを与え、文のスコアを最大化するように枝刈りを行うことで、要約文を生成している。
(参考文献3:“Dependency Tree Based Sentence Compression”, Filippova, K. and Strube, M., In INLG’08(2008))
また、これらの手法において、要約率を事前に与え、その要約率以下となる複数の要約文を生成することとしてもよい。
ここでは、要約文生成手段30の枝刈り手段302は、図4(b)に示した係り受け木において、図4(c)に示す3つの要約文s1〜s3を生成したこととする。このように、要約文生成手段30は、原稿テキストに対して句の読み飛ばしを許容した要約文を生成することができる。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0036】
要約文生成手段30(枝刈り手段302)は、生成した要約文を、原稿テキスト記憶装置1の生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)、要約文記憶手段31に書き込み記憶する。
【0037】
要約文記憶手段31は、要約文生成手段30で生成された要約文を、生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)記憶するもので、メモリ、ハードディスク等の一般的な記憶手段である。この要約文記憶手段31に記憶されている要約文は、言語モデル学習手段32およびWFST構築手段33によって参照される。
【0038】
言語モデル学習手段32は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、それぞれの原稿テキストに対応して要約文生成手段30で生成された要約文とから、音声認識装置2で用いる言語モデルを生成するものである。
この言語モデル学習手段32が生成する言語モデルは、例えば、Nグラム言語モデルであって、以下の式(1)に示すように、単語列w…wi−1の後に単語wが出現する条件付き確率(Nグラム確率)Pで与えるモデルである。
P(w|wi−N+1…wi−1) …式(1)
【0039】
例えば、言語モデル学習手段32は、原稿テキスト記憶装置1に記憶されているすべての原稿テキストとその要約文とに含まれる単語列から、トライグラム言語モデルを適応化する。この言語モデル学習手段32は、生成した言語モデルを言語モデル記憶手段20に書き込み記憶する。
これによって、言語モデル学習手段32は、原稿テキストのみならず、要約文に対して適応化した言語モデルを生成することができる。
【0040】
例えば、図4(a)に示した原稿テキストの例である「一郎は二郎が描いた絵を三郎に贈った」には、図4(c)の要約文に含まれる単語連鎖「一郎→は→絵」、「絵→を→贈った」等が含まれていない。そのため、言語モデルが原稿テキスト記憶装置1に記憶されている原稿テキストのみから生成されたとすると、当該言語モデルには、要約文のみに存在する単語連鎖のスコア(Nグラム確率)が適応化されないことになる。
そのため、原稿テキストのみから生成された言語モデルは、原稿テキストを元の文通りに読まれた場合には、その読み上げ音声の認識結果に高いスコアを与えることができる。その一方で、原稿テキストを読み飛ばして部分的に読まれた場合には、原稿テキストで適応化されていない単語連鎖が含まれることで、読み上げ音声の認識結果に低いスコアが与えられてしまうことになる。
しかし、言語モデル学習手段32は、原稿テキスト以外にも、図4(c)に示したような要約文を用いて適応化することで、原稿テキストを読み飛ばして部分的に読まれた場合であっても、読み上げ音声の認識結果に高いスコアを与えることが可能な言語モデルを生成することができる。
【0041】
WFST構築手段33は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、それぞれの原稿テキストに対応して要約文生成手段30で生成された要約文とから、単語列の遷移を示す状態遷移と当該状態遷移に対するペナルティを示す遷移重みとを含む重み付き有限状態トランスデューサ(WFST)を構築(生成)するものである。WFSTは、単語列の状態遷移である入力シンボルと出力シンボルと、その遷移重みを有する有限状態機械(FSM:finite state machine)である。ここでは、WFST構築手段33は、原稿WFST生成手段331と、要約WFST付加手段332と、を備える。
【0042】
原稿WFST生成手段331は、原稿テキスト記憶装置1に記憶されている原稿テキストから、単語列の状態遷移と遷移重みとを含むWFST(原稿WFST)を生成するものである。なお、原稿テキストから単語列のWFSTを生成する手法は、既知の手法を用いればよい。例えば、特許文献2に記載されているトランスデューサ構築装置と同様の手法を用いればよい。
【0043】
図5に、WFSTの一般的な構成例を示す。図5に示すように、WFSTは、図5中○印で示すノード(状態)と、左端の始点ノードから右端の終点ノードまでの遷移(枝A〜F)が設定される。このWFSTは、例えば、枝A〜Cのように、始点ノードから終点ノードまで複数の状態を遷移する状態遷移や、枝D〜Fのように、始点ノードから終点ノードまで並列で遷移する状態遷移が含まれる。
【0044】
図5に示した枝A〜Fの実線矢印は、文または文の一部を受理して出力文を確定する部分WFSTである。また、ε/εを記載した破線矢印は、次の文を推定するための終点ノードから始点ノードへの遷移であるイプシロン遷移(ε遷移)である。
ここでは、WFSTは、後記する探索手段35において、音声認識結果の単語を入力シンボルとして受理し、出力シンボルを1つ出力して順次字幕を生成する有限状態機械である。なお、枝A〜Fには、入力シンボルiと出力シンボルoと、遷移重み(ペナルティのスコア)wとが対応付けられている(不図示)。
【0045】
ここで、図6図7を参照して、原稿WFST生成手段331が生成するWFST(原稿WFST)の例について説明する。図6図7は、原稿WFST生成手段331が、図4(a)で例示した原稿テキストから生成したWFSTの例を示す。
図6では、各枝に、入力シンボルiと出力シンボルoとを、i/oの形式で状態遷移を記載している。なお、図6では、音声認識の置換、脱落、挿入の各誤りを受理する遷移を省略しているが、実際は、図7に示すように、置換<S>、脱落<D>、挿入<I>の誤りを受理する遷移を対応付けている。また、図7では、入力シンボルiおよび出力シンボルo以外に、遷移重みwを含んで、i/o(w)の形式で状態遷移を記載している。なお、図7は、図6の一部の遷移を記載したものである。また、図7の破線の遷移が、図6で示した誤りのない遷移を示している。
【0046】
ここで、εは、入力または出力シンボルがなくても遷移できる枝を示す。例えば、「一郎/ε」は、左端の始点ノードの状態で、“一郎”が入力された場合、出力なしで次のノードに遷移することを示している。また、<Emi>を記載した遷移は、始点ノードから遷移した単語列を出力するための遷移である。図6の場合、<Emi>は、「ε/一郎は二郎が描いた絵を三郎に贈った」を意味する。また、図7の*は、任意の単語を受理できることを示している。
【0047】
置換<S>の遷移「*/ε(1.0)」は、各ノードにおいて、任意の単語*を受理して、出力なしで次のノードに遷移する状態遷移を示す。
脱落<D>の遷移「ε/ε(1.0)」は、各ノードにおいて、入力および出力なしで次のノードに遷移する状態遷移を示す。
挿入<I>の遷移「*/ε(1.0)」は、各ノードにおいて、挿入された任意の単語*を受理する遷移である。この遷移では出力はない。
【0048】
なお、置換<S>、脱落<D>、挿入<I>において、遷移重み“1.0”は、この遷移によって、ペナルティが課されることを意味する。これに対し、「二郎/ε(0.0)」の遷移重み“0.0”は、原稿テキストの単語列の順に単語を受理し、この遷移によって、ペナルティが課されないことを意味する。すなわち、図6で示す誤りのない遷移においては、各枝の遷移重みは、“0.0”である。この遷移重み(ペナルティのスコア)は、後記する探索手段35において、WFSTの遷移重みの総和が最小となる単語列を探索する際に利用される。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0049】
原稿WFST生成手段331は、生成したWFSTを、生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)、WFST記憶手段34に書き込み記憶する。そして、原稿WFST生成手段331は、要約WFST付加手段332に対して、要約文によるWFSTの付加を指示する。
【0050】
要約WFST付加手段332は、原稿テキストから生成されたWFST(原稿WFST)に対して、要約文に対応するWFSTを付加するものである。
この要約WFST付加手段332は、原稿WFST生成手段331によって原稿テキストから生成されたWFSTに対して、識別番号等で対応付けられている要約文記憶手段31に記憶されている要約文に対応するWFSTを付加する。
すなわち、要約WFST付加手段332は、原稿WFST生成手段331で原稿テキストから生成されたWFST、例えば、図6図7に示したWFSTに対して、句の読み飛ばしを許容した図4(c)で示した要約文s1〜s3の単語列の遷移を付加して新たなWFSTを生成する。
【0051】
ここで、図8を参照して、要約WFST付加手段332が、句の読み飛ばしを許容した要約文の単語列の遷移を追加する手法の具体例について説明する。ここでは、原稿テキストから生成したWFST(原稿WFST)を、図6で説明した状態遷移とし、要約文を、図4(c)に示した要約文s1〜s3とする。
【0052】
〔第1手法(スキップ遷移の追加)〕
要約文の単語列の状態遷移を追加する第1手法として、原稿WFSTに読み飛ばし部分(省略された部分)をスキップして状態遷移を追加する手法を用いることができる。
例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「二郎が描いた」が省略された要約文s1「一郎は絵を三郎に贈った」であったとする。
その場合、要約WFST付加手段332は、図8(a)に示すように、省略された「二郎が描いた」の遷移をスキップする遷移(A)を既存のWFSTに追加する。
このように遷移(A)が追加されたWFSTは、単語列を出力するための遷移<Emi>において、「ε/一郎は二郎が描いた絵を三郎に贈った」または「ε/一郎は絵を三郎に贈った」が出力可能な遷移となる。
【0053】
〔第2手法(並列遷移の追加)〕
要約文の単語列の状態遷移を追加する第2手法として、原稿WFSTに、始点ノードと終点ノードのみが共通の並列した状態遷移を追加する手法を用いることができる。
例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「一郎は」が省略された要約文s2「二郎が描いた絵を三郎に贈った」であったとする。
その場合、要約WFST付加手段332は、図8(b)に示すように、要約文s2「二郎が描いた絵を三郎に贈った」の単語列の遷移(B)を既存のWFSTに並列に追加する。遷移(B)では、単語列を出力するための遷移は、<Emi>で表される。
このように遷移(B)が並列に追加されたWFSTは、「ε/一郎は二郎が描いた絵を三郎に贈った」または「ε/二郎が描いた絵を三郎に贈った」が出力可能な遷移となる。
【0054】
さらに、要約WFST付加手段332は、第1手法と第2手法とを組み合わせて状態遷移を追加することとしてもよい。例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「一郎は」および「三郎に」が省略された要約文s3「二郎が描いた絵を贈った」であったとする。
その場合、要約WFST付加手段332は、図8(c)に示すように、すでに生成されている要約文s2「二郎が描いた絵を三郎に贈った」の単語列の遷移(B)に対して、第1手法のように「三郎に」の遷移をスキップする遷移(C)を追加すればよい。
このように遷移(B)に遷移(C)を追加されたWFSTは、「ε/一郎は二郎が描いた絵を三郎に贈った」、「ε/二郎が描いた絵を三郎に贈った」または「ε/二郎が描いた絵を贈った」が出力可能な遷移となる。
【0055】
なお、図8では省略しているが、要約文の単語列の状態遷移における各枝の遷移重みは、“0.0”である。また、図8では省略しているが、遷移(B)のように原稿WFSTに並列に状態遷移を追加する場合、要約WFST付加手段332は、原稿WFSTと同様に、追加した状態遷移に対して、図7で示したような置換<S>、脱落<D>、挿入<I>の誤りを受理する遷移を付加しておくこととする。
このように、WFST構築手段33は、原稿テキストから生成されたWFSTに対して、要約文の単語列の状態遷移を追加することで、句の読み飛ばしを許容したWFSTを構築することができる。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0056】
WFST記憶手段34は、WFST構築手段33で構築されたWFSTを、生成元の原稿テキストと対応付けて記憶するもので、メモリ、ハードディスク等の一般的な記憶手段である。このWFST記憶手段34に記憶されているWFSTは、探索手段35によって参照される。
【0057】
探索手段35は、WFST構築手段33で構築され、WFST記憶手段34に記憶されているWFSTにおいて、音声認識装置2から入力される認識結果の単語列に対して遷移重み(ペナルティ)の総和が最小となる単語列を探索するものである。
すなわち、探索手段35は、音声認識装置2から入力される認識結果の単語列を順次入力し、WFSTにおいて、遷移重みのペナルティスコアを順次加算して、最もペナルティの累積が小さいパス(単語列)を、読み上げ音声の認識結果に対応する単語列として探索(ビタビ探索)する。なお、単語列の状態遷移を示すWFSTを用いて、順次入力される単語列から、原稿テキストの単語列を探索する手法は、既知の手法を用いればよい。例えば、特許文献2に記載されている音声認識誤り修正装置の原稿探索手段と同様の手法を用いればよい。
これによって、探索手段35は、認識誤りがあっても、WFSTを用いて単語列を探索することで、認識誤りを修正した単語列を取得することができる。
【0058】
ここでは、探索手段35は、探索した単語列の遷移を示すWFSTに対応する原稿テキストを、認識結果の修正結果とし、字幕として出力する。すなわち、探索手段35は、図示を省略した字幕送出装置に生成した字幕を出力する。
【0059】
なお、探索手段35は、原稿テキストに代えて、探索した単語列そのものを字幕として出力することとしてもよい。これによって、発話者Mの発話内容がより正確に字幕に反映されることになる。ただし、ニュース番組の字幕のように、表現や内容の正確性を求められる場合は、原稿テキストを字幕として出力することが好ましい。
このように、探索手段35は、探索した単語列を元の原稿テキストに置き換えて字幕とするか、WFSTの出力結果である単語列を字幕として出力するかは、いずれかを固定して動作させることとしてもよいし、外部からの指示により、適宜切り替えることとしてもよい。
【0060】
以上説明したように認識誤り修正装置3を構成することで、認識誤り修正装置3は、原稿テキストとそれに対応する要約文とを用いて、読み飛ばしを許容したWFSTを構築することができる。
また、認識誤り修正装置3は、読み飛ばしを許容したWFSTから、読み上げ音声の認識結果の単語列を探索するため、読み飛ばしが行われた読み上げ音声の認識結果に対して、WFSTにおける遷移重みのペナルティスコアの累積を小さく抑えることができる。そのため、認識誤り修正装置3は、読み飛ばしが行われた読み上げ音声の認識結果であっても、WFSTにおける単語の遷移として単語列を特定し、対応する原稿テキストを推定することができ、音声認識誤りを修正することができる。
【0061】
なお、認識誤り修正装置3は、CPU(Central Processing Unit)、メモリ、ハードディスク等のハードウェア資源を備えるコンピュータを、前記した各手段として機能させるための認識誤り修正プログラムによって実現することもできる。このプログラムは、通信回線を介して配布してもよく、光ディスク、磁気ディスク、フラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【0062】
[音声認識装置の構成例]
図2に示す例では、音声認識装置2は、言語モデル記憶手段20と、認識手段21と、を備える。なお、音声認識装置2は、図示を省略しているが、これら以外にも、音響モデルを記憶する音響モデル記憶手段、発音辞書を記憶する発音辞書記憶手段等を備えている。
【0063】
言語モデル記憶手段20は、認識誤り修正装置3の言語モデル学習手段32によって生成された言語モデルを記憶するもので、ハードディスク等の一般的な記憶手段である。すなわち、この言語モデル記憶手段20に記憶される言語モデルは、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、その要約文で適応化した言語モデルである。
【0064】
認識手段21は、言語モデル記憶手段20に記憶されている言語モデルと、音響モデル記憶手段(不図示)に記憶されている音響モデルと、発音辞書記憶手段(不図示)に記憶されている発音辞書とにより、発話音声を音声認識するものである。なお、認識手段21における音声認識手法は、一般的な既知の手法を用いればよいため、ここでは説明を省略する。
この認識手段21は、読み上げ音声の認識結果を認識誤り修正装置3に出力する。
【0065】
以上説明したように字幕生成システム100を構成することで、字幕生成システム100は、原稿テキストとそれに対応する要約文とから生成されたWFSTを用いて、原稿テキストを推定するため、原稿テキストに対して読み飛ばしがあっても、対応する原稿テキストを推定することができる。
【0066】
これによって、字幕生成システム100は、原稿テキストが準備された放送番組において、発話者Mが、原稿テキストの句を読み飛ばしても、対応する原稿テキストを推定して字幕として出力することができる。また、字幕生成システム100は、読み上げ音声の認識結果に誤りがあっても、読み飛ばしを許容したWFSTを用いるため、認識誤りを修正することができる。
【0067】
<字幕生成システムの動作>
次に、図9図10を参照して、本発明の実施形態に係る字幕生成システム100の動作について説明する。ここでは、放送開始前の準備段階として、WFSTを構築するWFST構築動作と、放送時におけるWFSTを用いて字幕を生成する字幕生成動作とに分けて説明する。
【0068】
[WFST構築動作:事前準備時]
図9を参照(構成については適宜図2参照)して、字幕生成システム100のWFST構築動作について説明する。なお、原稿テキスト記憶装置1には、予め放送番組の読み上げ対象となる複数の原稿テキストを記憶しておくこととする。
【0069】
まず、認識誤り修正装置3は、要約文生成手段30によって、原稿テキスト記憶装置1に記憶されている複数の原稿テキストについて、それぞれの要約文を生成する。
すなわち、認識誤り修正装置3は、要約文生成手段30の係り受け解析手段301によって、原稿テキスト記憶装置1に記憶されている原稿テキストの語句間の係り受けを解析する(ステップS1)。そして、認識誤り修正装置3は、要約文生成手段30の枝刈り手段302によって、ステップS1の解析結果である係り受け関係を木構造とする係り受け木の枝刈りを行うことで要約文を生成する(ステップS2)。
【0070】
そして、要約文生成手段30は、生成した要約文を、原稿テキストと対応付けて要約文記憶手段31に記憶する(ステップとして図示せず)。このように、要約文生成手段30は、原稿テキストを部分的省略等により変形した表現として要約文を生成する。
【0071】
そして、認識誤り修正装置3は、言語モデル学習手段32によって、原稿テキスト記憶装置1に記憶されている原稿テキストと、ステップS2で生成され、要約文記憶手段31に記憶されている要約文とから、音声認識装置2で用いる言語モデルを適応化して生成する(ステップS3)。このように、言語モデル学習手段32は、原稿テキスト以外に要約文を用いて言語モデルを適応化することで、原稿テキストが一部省略された要約文のみに含まれる単語連鎖にスコア(確率値)を付与することができ、要約文に適応させることができる。なお、このステップS3で生成された言語モデルは、図10で説明する字幕生成動作時に、音声認識を行う際に利用される。
【0072】
また、認識誤り修正装置3は、WFST構築手段33によって、原稿テキスト記憶装置1に記憶されている原稿テキストと、ステップS2で生成され、要約文記憶手段31に記憶されている要約文とから、単語列のWFSTを構築する。
すなわち、認識誤り修正装置3は、WFST構築手段33の原稿WFST生成手段331によって、原稿テキストから、単語列の状態遷移と遷移重みとを含むWFST(原稿WFST)を生成する(ステップS4)。そして、認識誤り修正装置3は、WFST構築手段33の要約WFST付加手段332によって、ステップS4で生成された原稿WFSTに、ステップS2で生成された要約文に対応するWFSTを付加する(ステップS5)。
【0073】
そして、WFST構築手段33は、ステップS5で生成したWFSTを、原稿テキストと対応付けてWFST記憶手段34に記憶する(ステップとして図示せず)。
これによって、認識誤り修正装置3は、原稿テキストに対して、読み飛ばしを許容した単語列の遷移を付加したWFSTを生成することができる。
【0074】
[字幕生成動作:放送時]
図10を参照(構成については適宜図2参照)して、字幕生成システム100の字幕生成動作について説明する。
まず、音声認識装置2は、認識手段21によって、読み飛ばしを許可して、発話者が原稿テキストを読み上げた発話音声を音声認識する(ステップS10)。このとき、認識手段21は、図9で説明したステップS3で学習した言語モデルを用いて音声認識を行う。この音声認識装置2における音声認識結果は、逐次、認識誤り修正装置3に出力される。
一方、認識誤り修正装置3は、ステップS10で認識された認識結果を単語列として逐次入力する(ステップS11)。
【0075】
そして、認識誤り修正装置3は、探索手段35によって、WFST構築手段33で生成され、WFST記憶手段34に記憶されているWFSTにおいて、ステップS11で逐次入力される単語列(認識結果)に対して遷移重み(ペナルティ)の総和が最小となる単語列を探索する(ステップS12)。
そして、認識誤り修正装置3は、探索手段35によって、ステップS12で探索した単語列に対応する原稿テキストを字幕として逐次出力する(ステップS13)。なお、このステップS13では、ステップS12で探索した単語列そのものを字幕として出力することとしてもよい。
【0076】
これによって、認識誤り修正装置3は、認識結果に認識誤りがあっても、正しい単語列に修正することができる。また、WFSTには要約文の単語列の遷移が含まれているため、読み上げ音声に読み飛ばしがあった場合でも、その読み飛ばし後の音声の認識結果の単語列の状態遷移として、読み上げ音声を特定することができ、対応する原稿テキストを推定することができる。
【0077】
以上、本発明の実施形態に係る認識誤り修正装置3、および、認識誤り修正装置3を用いた字幕生成システム100の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
【0078】
ここでは、要約文生成手段30が、原稿テキストの語句間の係り受けを解析し、係り受け木の枝刈りを行うことで要約文を生成したが、他の一般的な要約文生成手法を用いても構わない。例えば、特開2000−99536号公報、特開2008−234049号公報等に記載の手法を用いることができる。これらの手法を用いた場合、図8(a)で説明した読み飛ばし部分をスキップする遷移(A)を既存の遷移に付加することが困難な場合がある。その場合は、図8(b)の遷移(B)に示すように、既存の状態遷移と並列に遷移を追加すればよい。
また、要約文生成手段30は、係り受け木の枝刈り等の一種類の手法によって要約文を生成する必要はなく、複数の生成手法によって、複数の要約文を生成することとしてもよい。
【0079】
また、ここでは、認識誤り修正装置3には、言語モデル学習手段32を構成として含んでいるが、必ずしも認識誤り修正装置3に備える必要はない。例えば、音声認識装置2内に言語モデル学習手段32を備え、音声認識装置2が、原稿テキスト記憶装置1に記憶されている原稿テキストと、認識誤り修正装置3が生成する要約文とから、言語モデルを学習することとしてもよい。
【0080】
また、ここでは、音声認識装置2が、原稿テキストとその要約文とから学習した言語モデルを用いることとしたが、必ずしもこの言語モデルを用いる必要はない。例えば、音声認識装置2は、数年分の放送番組の原稿、放送音声の書き起こしテキスト等、大規模コーパスから学習した言語モデルを用いて音声認識を行うこととしてもよい。このような大規模コーパスから学習された言語モデルには、原稿テキストおよび要約文の単語連鎖が共に含まれている確率が高いからである。
【符号の説明】
【0081】
100 字幕生成システム
1 原稿テキスト記憶装置
2 音声認識装置
20 言語モデル記憶手段
21 認識手段
3 認識誤り修正装置
30 要約文生成手段
301 係り受け解析手段
302 枝刈り手段
31 要約文記憶手段
32 言語モデル学習手段
33 WFST構築手段
331 原稿WFST生成手段
332 要約WFST付加手段
34 WFST記憶手段
35 探索手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10