(58)【調査した分野】(Int.Cl.,DB名)
前記WFST構築手段は、前記原稿テキストの状態遷移内に、当該原稿テキストに対応する前記要約文で省略された状態遷移をスキップして追加するか、または、前記原稿テキストの状態遷移と並列に、当該原稿テキストに対応する前記要約文の状態遷移を追加する、ことで前記重み付き有限状態トランスデューサを構築することを特徴とする請求項1または請求項2に記載の認識誤り修正装置。
前記複数の原稿テキストと、それぞれの原稿テキストから生成された前記要約文とから、前記認識結果を生成する音声認識装置が用いる言語モデルを生成する言語モデル学習手段を、さらに備えることを特徴とする請求項1から請求項3のいずれか一項に記載の認識誤り修正装置。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面を参照して説明する。
<字幕生成システムの概要>
最初に、
図1を参照して、本発明の実施形態に係る字幕生成システム100の概要について説明する。
【0019】
字幕生成システム100は、放送番組(ニュース番組等)に付与する字幕を生成するものである。この字幕生成システム100は、
図1に示すように、原稿テキスト記憶装置1と、音声認識装置2と、認識誤り修正装置3と、を備える。
【0020】
原稿テキスト記憶装置1は、放送番組の読み上げ対象となる複数の原稿テキストを、電子データとして記憶しておくものであって、ハードディスク等の一般的な記憶装置で構成される。放送番組のアナウンサ等の発話者Mは、原稿テキスト記憶装置1に記憶されている原稿テキスト10の内容を読み上げ、マイク(不図示)等を介して、その発話音声を音声認識装置2に入力する。
また、原稿テキスト記憶装置1に記憶されている原稿テキストは、認識誤り修正装置3において、放送前の事前準備として、重み付き有限状態トランスデューサ(以下、WFSTという)を構築する際にも利用される。
【0021】
音声認識装置2は、音響モデル、言語モデルおよび発音辞書を利用して発話音声を認識するものである。ここでは、音声認識装置2は、発話者Mが原稿テキスト10を読み上げた読み上げ音声を認識して、認識結果である単語列を生成する。この音声認識装置2で認識され生成された認識結果(単語列)は、認識誤り修正装置3に入力される。
【0022】
認識誤り修正装置3は、音声認識装置2から入力される認識結果に対して、予め準備したWFSTを用いて、認識結果から原稿テキストを推定することで、認識結果に含まれる誤りを修正し、字幕として出力するものである。
すなわち、認識誤り修正装置3は、字幕を生成するための事前準備として、WFSTを構築する機能と、放送番組の放送時に、WFSTを用いて、発話者Mが発話して音声認識された認識結果から字幕を生成する機能とを有する。
【0023】
この認識誤り修正装置3は、原稿テキスト記憶装置1に記憶されている原稿テキストからWFSTを構築する際に、原稿テキストの要約文を生成し、原稿テキストとその要約文とによりWFSTを構築する。この要約文は原稿テキストの内容の一部を省略等により要約した文であるため、認識誤り修正装置3は、発話者Mが原稿テキストの一部を読み飛ばして発話することがあっても、その読み上げ音声に対応するWFSTを予め準備しておくことができる。
これによって、認識誤り修正装置3は、放送番組の放送時において、発話者Mが原稿テキスト10の読み上げ時に読み飛ばしを行っても、対応する原稿テキストを推定することができる。
以下、
図2を参照して、字幕生成システム100を構成する認識誤り修正装置3、音声認識装置2についてさらに詳細に説明する。
【0024】
[認識誤り修正装置の構成例]
図2に示す例では、認識誤り修正装置3は、要約文生成手段30と、要約文記憶手段31と、言語モデル学習手段32と、WFST構築手段33と、WFST記憶手段34と、探索手段35と、を備える。
【0025】
要約文生成手段30は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストについて、それぞれの原稿テキストから当該原稿テキストを要約した要約文を生成するものである。ここでは、要約文生成手段30は、係り受け解析手段301と、枝刈り手段302と、を備える。
【0026】
係り受け解析手段301は、原稿テキストの語句間の係り受けを解析するものである。すなわち、係り受け解析手段301は、原稿テキストの語句間で、「修飾する」、「修飾される」の関係を解析する。この係り受け解析には、一般的な手法を用いることができる。例えば、係り受け解析手段301として、CaboCha(以下の参考文献1)等の汎用の係り受け解析器を用いることができる。
(参考文献1:「チャンキングの段階適用による日本語係り受け解析」,工藤拓,松本裕治,情報処理学会誌,Vol.43,No.6,pp.1834-1842(2002))
【0027】
例えば、原稿テキストの中に含まれている文として、「一郎は二郎が描いた絵を三郎に贈った」を、CaboChaにより係り受け解析した結果(XML〔Extensible Markup Language〕出力)の例を
図3に示す。
図3中、3種類のXMLタグ<sentence>、<chunk>、<tok>は、それぞれ文、文節、形態素を表している。
【0028】
また、<chunk>タグの属性として、「id」は文節番号、「link」は文節の係り先の文節番号、「rel」は係り受けの種類(通常の係り受け“D”、並列“P”、同格“A”等)、「score」は係りやすさのスコア(大きいほど係りやすい)、「head」は主辞形態素番号、「func」は機能形態素番号を表している。なお、文末のどの文節にも係らない文節は、「link」が“−1”となっている。
【0029】
また、<tok>タグの属性として、「id」は形態素番号、「feature」は形態素解析の結果(品詞、活用形等)を表している。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0030】
係り受け解析手段301は、
図3で例示した係り受けの解析結果を枝刈り手段302に出力する。なお、ここでは、
図3の例で、係り受け解析結果として、CaboChaの出力例を示しているが、係り受け解析手段301は、少なくとも語句間の係り受け関係を特定できる情報のみを出力すればよい。
【0031】
枝刈り手段302は、係り受け解析手段301で解析された係り受け解析結果から、語句(文節)間の係り受け関係を木構造とする係り受け木の枝刈りを行うことで要約文を生成するものである。
ここで、
図4を用いて、枝刈り手段302の処理について説明する。この
図4では、
図3で例示した係り受け解析手段301で解析された係り受け解析結果を用いている。
例えば、
図4(a)の原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」は、
図3の係り受け構造のリンク(link属性)を辿ることで、語句間の係り受け関係を特定することができる。
【0032】
具体的には、
図3で、<chunk>タグの属性として、「id=“0”」の文節番号で特定される文節「一郎は」は、「link=“5”」、すなわち、<chunk>タグの属性として、「id=“5”」の文節番号で特定される文節「贈った」が文節の係り先である。この係り受け関係を、
図4(b)において、「一郎は←贈った(係り元←係り先)」の矢印で示している。同様に、
図3の他の文節においても、係り受け関係が特定され、
図4(a)の原稿テキストは、
図4(b)に示す木構造(係り受け木)で表すことができる。
【0033】
枝刈り手段302は、
図4(b)に示した係り受け木において、枝刈りを行うことで要約文を生成する。なお、このような係り受け解析結果(係り受け木)から、要約文を生成する手法は、種々提案されている既知の手法を用いればよい。
【0034】
例えば、以下の参考文献2で開示されている手法を用い、係り受け解析結果(係り受け木)から得られる各枝の機能を入力して、要約結果を出力する予め構築したWFSTにより、要約文を生成することができる。この参考文献2に記載の手法では、枝の機能として、例えば、主節は従属節よりも重要である、否定表現は重要である等、重要部分を特定して文書の要約を行っている。
(参考文献2:“Producing Intelligent Telegraphic Text Reduction to provide an Audio Scanning Service for the Blind”, Gregory Grefenstette, In Working Nodes of the Workshop on Intelligent Text Summarization, pp.111-177, Menlo Park, California:American Association for Artifical Intelligence Spring Symposium Series.)
【0035】
また、例えば、以下の参考文献3で開示されている手法を用い、文の情報を最大化するように枝を刈ることで要約文を生成することができる。この参考文献3に記載の手法では、複数の原稿テキストに含まれる単語の頻度により、単語に重要度スコアを与え、文のスコアを最大化するように枝刈りを行うことで、要約文を生成している。
(参考文献3:“Dependency Tree Based Sentence Compression”, Filippova, K. and Strube, M., In INLG’08(2008))
また、これらの手法において、要約率を事前に与え、その要約率以下となる複数の要約文を生成することとしてもよい。
ここでは、要約文生成手段30の枝刈り手段302は、
図4(b)に示した係り受け木において、
図4(c)に示す3つの要約文s1〜s3を生成したこととする。このように、要約文生成手段30は、原稿テキストに対して句の読み飛ばしを許容した要約文を生成することができる。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0036】
要約文生成手段30(枝刈り手段302)は、生成した要約文を、原稿テキスト記憶装置1の生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)、要約文記憶手段31に書き込み記憶する。
【0037】
要約文記憶手段31は、要約文生成手段30で生成された要約文を、生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)記憶するもので、メモリ、ハードディスク等の一般的な記憶手段である。この要約文記憶手段31に記憶されている要約文は、言語モデル学習手段32およびWFST構築手段33によって参照される。
【0038】
言語モデル学習手段32は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、それぞれの原稿テキストに対応して要約文生成手段30で生成された要約文とから、音声認識装置2で用いる言語モデルを生成するものである。
この言語モデル学習手段32が生成する言語モデルは、例えば、Nグラム言語モデルであって、以下の式(1)に示すように、単語列w
1w
2…w
i−1の後に単語w
iが出現する条件付き確率(Nグラム確率)Pで与えるモデルである。
P(w
i|w
i−N+1…w
i−1) …式(1)
【0039】
例えば、言語モデル学習手段32は、原稿テキスト記憶装置1に記憶されているすべての原稿テキストとその要約文とに含まれる単語列から、トライグラム言語モデルを適応化する。この言語モデル学習手段32は、生成した言語モデルを言語モデル記憶手段20に書き込み記憶する。
これによって、言語モデル学習手段32は、原稿テキストのみならず、要約文に対して適応化した言語モデルを生成することができる。
【0040】
例えば、
図4(a)に示した原稿テキストの例である「一郎は二郎が描いた絵を三郎に贈った」には、
図4(c)の要約文に含まれる単語連鎖「一郎→は→絵」、「絵→を→贈った」等が含まれていない。そのため、言語モデルが原稿テキスト記憶装置1に記憶されている原稿テキストのみから生成されたとすると、当該言語モデルには、要約文のみに存在する単語連鎖のスコア(Nグラム確率)が適応化されないことになる。
そのため、原稿テキストのみから生成された言語モデルは、原稿テキストを元の文通りに読まれた場合には、その読み上げ音声の認識結果に高いスコアを与えることができる。その一方で、原稿テキストを読み飛ばして部分的に読まれた場合には、原稿テキストで適応化されていない単語連鎖が含まれることで、読み上げ音声の認識結果に低いスコアが与えられてしまうことになる。
しかし、言語モデル学習手段32は、原稿テキスト以外にも、
図4(c)に示したような要約文を用いて適応化することで、原稿テキストを読み飛ばして部分的に読まれた場合であっても、読み上げ音声の認識結果に高いスコアを与えることが可能な言語モデルを生成することができる。
【0041】
WFST構築手段33は、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、それぞれの原稿テキストに対応して要約文生成手段30で生成された要約文とから、単語列の遷移を示す状態遷移と当該状態遷移に対するペナルティを示す遷移重みとを含む重み付き有限状態トランスデューサ(WFST)を構築(生成)するものである。WFSTは、単語列の状態遷移である入力シンボルと出力シンボルと、その遷移重みを有する有限状態機械(FSM:finite state machine)である。ここでは、WFST構築手段33は、原稿WFST生成手段331と、要約WFST付加手段332と、を備える。
【0042】
原稿WFST生成手段331は、原稿テキスト記憶装置1に記憶されている原稿テキストから、単語列の状態遷移と遷移重みとを含むWFST(原稿WFST)を生成するものである。なお、原稿テキストから単語列のWFSTを生成する手法は、既知の手法を用いればよい。例えば、特許文献2に記載されているトランスデューサ構築装置と同様の手法を用いればよい。
【0043】
図5に、WFSTの一般的な構成例を示す。
図5に示すように、WFSTは、
図5中○印で示すノード(状態)と、左端の始点ノードから右端の終点ノードまでの遷移(枝A〜F)が設定される。このWFSTは、例えば、枝A〜Cのように、始点ノードから終点ノードまで複数の状態を遷移する状態遷移や、枝D〜Fのように、始点ノードから終点ノードまで並列で遷移する状態遷移が含まれる。
【0044】
図5に示した枝A〜Fの実線矢印は、文または文の一部を受理して出力文を確定する部分WFSTである。また、ε/εを記載した破線矢印は、次の文を推定するための終点ノードから始点ノードへの遷移であるイプシロン遷移(ε遷移)である。
ここでは、WFSTは、後記する探索手段35において、音声認識結果の単語を入力シンボルとして受理し、出力シンボルを1つ出力して順次字幕を生成する有限状態機械である。なお、枝A〜Fには、入力シンボルiと出力シンボルoと、遷移重み(ペナルティのスコア)wとが対応付けられている(不図示)。
【0045】
ここで、
図6,
図7を参照して、原稿WFST生成手段331が生成するWFST(原稿WFST)の例について説明する。
図6,
図7は、原稿WFST生成手段331が、
図4(a)で例示した原稿テキストから生成したWFSTの例を示す。
図6では、各枝に、入力シンボルiと出力シンボルoとを、i/oの形式で状態遷移を記載している。なお、
図6では、音声認識の置換、脱落、挿入の各誤りを受理する遷移を省略しているが、実際は、
図7に示すように、置換<S>、脱落<D>、挿入<I>の誤りを受理する遷移を対応付けている。また、
図7では、入力シンボルiおよび出力シンボルo以外に、遷移重みwを含んで、i/o(w)の形式で状態遷移を記載している。なお、
図7は、
図6の一部の遷移を記載したものである。また、
図7の破線の遷移が、
図6で示した誤りのない遷移を示している。
【0046】
ここで、εは、入力または出力シンボルがなくても遷移できる枝を示す。例えば、「一郎/ε」は、左端の始点ノードの状態で、“一郎”が入力された場合、出力なしで次のノードに遷移することを示している。また、<Emi>を記載した遷移は、始点ノードから遷移した単語列を出力するための遷移である。
図6の場合、<Emi>は、「ε/一郎は二郎が描いた絵を三郎に贈った」を意味する。また、
図7の*は、任意の単語を受理できることを示している。
【0047】
置換<S>の遷移「*/ε(1.0)」は、各ノードにおいて、任意の単語*を受理して、出力なしで次のノードに遷移する状態遷移を示す。
脱落<D>の遷移「ε/ε(1.0)」は、各ノードにおいて、入力および出力なしで次のノードに遷移する状態遷移を示す。
挿入<I>の遷移「*/ε(1.0)」は、各ノードにおいて、挿入された任意の単語*を受理する遷移である。この遷移では出力はない。
【0048】
なお、置換<S>、脱落<D>、挿入<I>において、遷移重み“1.0”は、この遷移によって、ペナルティが課されることを意味する。これに対し、「二郎/ε(0.0)」の遷移重み“0.0”は、原稿テキストの単語列の順に単語を受理し、この遷移によって、ペナルティが課されないことを意味する。すなわち、
図6で示す誤りのない遷移においては、各枝の遷移重みは、“0.0”である。この遷移重み(ペナルティのスコア)は、後記する探索手段35において、WFSTの遷移重みの総和が最小となる単語列を探索する際に利用される。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0049】
原稿WFST生成手段331は、生成したWFSTを、生成元の原稿テキストと対応付けて(例えば、識別番号等で対応付けて)、WFST記憶手段34に書き込み記憶する。そして、原稿WFST生成手段331は、要約WFST付加手段332に対して、要約文によるWFSTの付加を指示する。
【0050】
要約WFST付加手段332は、原稿テキストから生成されたWFST(原稿WFST)に対して、要約文に対応するWFSTを付加するものである。
この要約WFST付加手段332は、原稿WFST生成手段331によって原稿テキストから生成されたWFSTに対して、識別番号等で対応付けられている要約文記憶手段31に記憶されている要約文に対応するWFSTを付加する。
すなわち、要約WFST付加手段332は、原稿WFST生成手段331で原稿テキストから生成されたWFST、例えば、
図6,
図7に示したWFSTに対して、句の読み飛ばしを許容した
図4(c)で示した要約文s1〜s3の単語列の遷移を付加して新たなWFSTを生成する。
【0051】
ここで、
図8を参照して、要約WFST付加手段332が、句の読み飛ばしを許容した要約文の単語列の遷移を追加する手法の具体例について説明する。ここでは、原稿テキストから生成したWFST(原稿WFST)を、
図6で説明した状態遷移とし、要約文を、
図4(c)に示した要約文s1〜s3とする。
【0052】
〔第1手法(スキップ遷移の追加)〕
要約文の単語列の状態遷移を追加する第1手法として、原稿WFSTに読み飛ばし部分(省略された部分)をスキップして状態遷移を追加する手法を用いることができる。
例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「二郎が描いた」が省略された要約文s1「一郎は絵を三郎に贈った」であったとする。
その場合、要約WFST付加手段332は、
図8(a)に示すように、省略された「二郎が描いた」の遷移をスキップする遷移(A)を既存のWFSTに追加する。
このように遷移(A)が追加されたWFSTは、単語列を出力するための遷移<Emi
1>において、「ε/一郎は二郎が描いた絵を三郎に贈った」または「ε/一郎は絵を三郎に贈った」が出力可能な遷移となる。
【0053】
〔第2手法(並列遷移の追加)〕
要約文の単語列の状態遷移を追加する第2手法として、原稿WFSTに、始点ノードと終点ノードのみが共通の並列した状態遷移を追加する手法を用いることができる。
例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「一郎は」が省略された要約文s2「二郎が描いた絵を三郎に贈った」であったとする。
その場合、要約WFST付加手段332は、
図8(b)に示すように、要約文s2「二郎が描いた絵を三郎に贈った」の単語列の遷移(B)を既存のWFSTに並列に追加する。遷移(B)では、単語列を出力するための遷移は、<Emi
2>で表される。
このように遷移(B)が並列に追加されたWFSTは、「ε/一郎は二郎が描いた絵を三郎に贈った」または「ε/二郎が描いた絵を三郎に贈った」が出力可能な遷移となる。
【0054】
さらに、要約WFST付加手段332は、第1手法と第2手法とを組み合わせて状態遷移を追加することとしてもよい。例えば、要約文が、原稿テキストである「一郎は二郎が描いた絵を三郎に贈った」に対して、「一郎は」および「三郎に」が省略された要約文s3「二郎が描いた絵を贈った」であったとする。
その場合、要約WFST付加手段332は、
図8(c)に示すように、すでに生成されている要約文s2「二郎が描いた絵を三郎に贈った」の単語列の遷移(B)に対して、第1手法のように「三郎に」の遷移をスキップする遷移(C)を追加すればよい。
このように遷移(B)に遷移(C)を追加されたWFSTは、「ε/一郎は二郎が描いた絵を三郎に贈った」、「ε/二郎が描いた絵を三郎に贈った」または「ε/二郎が描いた絵を贈った」が出力可能な遷移となる。
【0055】
なお、
図8では省略しているが、要約文の単語列の状態遷移における各枝の遷移重みは、“0.0”である。また、
図8では省略しているが、遷移(B)のように原稿WFSTに並列に状態遷移を追加する場合、要約WFST付加手段332は、原稿WFSTと同様に、追加した状態遷移に対して、
図7で示したような置換<S>、脱落<D>、挿入<I>の誤りを受理する遷移を付加しておくこととする。
このように、WFST構築手段33は、原稿テキストから生成されたWFSTに対して、要約文の単語列の状態遷移を追加することで、句の読み飛ばしを許容したWFSTを構築することができる。
図2に戻って、認識誤り修正装置3の構成について説明を続ける。
【0056】
WFST記憶手段34は、WFST構築手段33で構築されたWFSTを、生成元の原稿テキストと対応付けて記憶するもので、メモリ、ハードディスク等の一般的な記憶手段である。このWFST記憶手段34に記憶されているWFSTは、探索手段35によって参照される。
【0057】
探索手段35は、WFST構築手段33で構築され、WFST記憶手段34に記憶されているWFSTにおいて、音声認識装置2から入力される認識結果の単語列に対して遷移重み(ペナルティ)の総和が最小となる単語列を探索するものである。
すなわち、探索手段35は、音声認識装置2から入力される認識結果の単語列を順次入力し、WFSTにおいて、遷移重みのペナルティスコアを順次加算して、最もペナルティの累積が小さいパス(単語列)を、読み上げ音声の認識結果に対応する単語列として探索(ビタビ探索)する。なお、単語列の状態遷移を示すWFSTを用いて、順次入力される単語列から、原稿テキストの単語列を探索する手法は、既知の手法を用いればよい。例えば、特許文献2に記載されている音声認識誤り修正装置の原稿探索手段と同様の手法を用いればよい。
これによって、探索手段35は、認識誤りがあっても、WFSTを用いて単語列を探索することで、認識誤りを修正した単語列を取得することができる。
【0058】
ここでは、探索手段35は、探索した単語列の遷移を示すWFSTに対応する原稿テキストを、認識結果の修正結果とし、字幕として出力する。すなわち、探索手段35は、図示を省略した字幕送出装置に生成した字幕を出力する。
【0059】
なお、探索手段35は、原稿テキストに代えて、探索した単語列そのものを字幕として出力することとしてもよい。これによって、発話者Mの発話内容がより正確に字幕に反映されることになる。ただし、ニュース番組の字幕のように、表現や内容の正確性を求められる場合は、原稿テキストを字幕として出力することが好ましい。
このように、探索手段35は、探索した単語列を元の原稿テキストに置き換えて字幕とするか、WFSTの出力結果である単語列を字幕として出力するかは、いずれかを固定して動作させることとしてもよいし、外部からの指示により、適宜切り替えることとしてもよい。
【0060】
以上説明したように認識誤り修正装置3を構成することで、認識誤り修正装置3は、原稿テキストとそれに対応する要約文とを用いて、読み飛ばしを許容したWFSTを構築することができる。
また、認識誤り修正装置3は、読み飛ばしを許容したWFSTから、読み上げ音声の認識結果の単語列を探索するため、読み飛ばしが行われた読み上げ音声の認識結果に対して、WFSTにおける遷移重みのペナルティスコアの累積を小さく抑えることができる。そのため、認識誤り修正装置3は、読み飛ばしが行われた読み上げ音声の認識結果であっても、WFSTにおける単語の遷移として単語列を特定し、対応する原稿テキストを推定することができ、音声認識誤りを修正することができる。
【0061】
なお、認識誤り修正装置3は、CPU(Central Processing Unit)、メモリ、ハードディスク等のハードウェア資源を備えるコンピュータを、前記した各手段として機能させるための認識誤り修正プログラムによって実現することもできる。このプログラムは、通信回線を介して配布してもよく、光ディスク、磁気ディスク、フラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【0062】
[音声認識装置の構成例]
図2に示す例では、音声認識装置2は、言語モデル記憶手段20と、認識手段21と、を備える。なお、音声認識装置2は、図示を省略しているが、これら以外にも、音響モデルを記憶する音響モデル記憶手段、発音辞書を記憶する発音辞書記憶手段等を備えている。
【0063】
言語モデル記憶手段20は、認識誤り修正装置3の言語モデル学習手段32によって生成された言語モデルを記憶するもので、ハードディスク等の一般的な記憶手段である。すなわち、この言語モデル記憶手段20に記憶される言語モデルは、原稿テキスト記憶装置1に記憶されている複数の原稿テキストと、その要約文で適応化した言語モデルである。
【0064】
認識手段21は、言語モデル記憶手段20に記憶されている言語モデルと、音響モデル記憶手段(不図示)に記憶されている音響モデルと、発音辞書記憶手段(不図示)に記憶されている発音辞書とにより、発話音声を音声認識するものである。なお、認識手段21における音声認識手法は、一般的な既知の手法を用いればよいため、ここでは説明を省略する。
この認識手段21は、読み上げ音声の認識結果を認識誤り修正装置3に出力する。
【0065】
以上説明したように字幕生成システム100を構成することで、字幕生成システム100は、原稿テキストとそれに対応する要約文とから生成されたWFSTを用いて、原稿テキストを推定するため、原稿テキストに対して読み飛ばしがあっても、対応する原稿テキストを推定することができる。
【0066】
これによって、字幕生成システム100は、原稿テキストが準備された放送番組において、発話者Mが、原稿テキストの句を読み飛ばしても、対応する原稿テキストを推定して字幕として出力することができる。また、字幕生成システム100は、読み上げ音声の認識結果に誤りがあっても、読み飛ばしを許容したWFSTを用いるため、認識誤りを修正することができる。
【0067】
<字幕生成システムの動作>
次に、
図9,
図10を参照して、本発明の実施形態に係る字幕生成システム100の動作について説明する。ここでは、放送開始前の準備段階として、WFSTを構築するWFST構築動作と、放送時におけるWFSTを用いて字幕を生成する字幕生成動作とに分けて説明する。
【0068】
[WFST構築動作:事前準備時]
図9を参照(構成については適宜
図2参照)して、字幕生成システム100のWFST構築動作について説明する。なお、原稿テキスト記憶装置1には、予め放送番組の読み上げ対象となる複数の原稿テキストを記憶しておくこととする。
【0069】
まず、認識誤り修正装置3は、要約文生成手段30によって、原稿テキスト記憶装置1に記憶されている複数の原稿テキストについて、それぞれの要約文を生成する。
すなわち、認識誤り修正装置3は、要約文生成手段30の係り受け解析手段301によって、原稿テキスト記憶装置1に記憶されている原稿テキストの語句間の係り受けを解析する(ステップS1)。そして、認識誤り修正装置3は、要約文生成手段30の枝刈り手段302によって、ステップS1の解析結果である係り受け関係を木構造とする係り受け木の枝刈りを行うことで要約文を生成する(ステップS2)。
【0070】
そして、要約文生成手段30は、生成した要約文を、原稿テキストと対応付けて要約文記憶手段31に記憶する(ステップとして図示せず)。このように、要約文生成手段30は、原稿テキストを部分的省略等により変形した表現として要約文を生成する。
【0071】
そして、認識誤り修正装置3は、言語モデル学習手段32によって、原稿テキスト記憶装置1に記憶されている原稿テキストと、ステップS2で生成され、要約文記憶手段31に記憶されている要約文とから、音声認識装置2で用いる言語モデルを適応化して生成する(ステップS3)。このように、言語モデル学習手段32は、原稿テキスト以外に要約文を用いて言語モデルを適応化することで、原稿テキストが一部省略された要約文のみに含まれる単語連鎖にスコア(確率値)を付与することができ、要約文に適応させることができる。なお、このステップS3で生成された言語モデルは、
図10で説明する字幕生成動作時に、音声認識を行う際に利用される。
【0072】
また、認識誤り修正装置3は、WFST構築手段33によって、原稿テキスト記憶装置1に記憶されている原稿テキストと、ステップS2で生成され、要約文記憶手段31に記憶されている要約文とから、単語列のWFSTを構築する。
すなわち、認識誤り修正装置3は、WFST構築手段33の原稿WFST生成手段331によって、原稿テキストから、単語列の状態遷移と遷移重みとを含むWFST(原稿WFST)を生成する(ステップS4)。そして、認識誤り修正装置3は、WFST構築手段33の要約WFST付加手段332によって、ステップS4で生成された原稿WFSTに、ステップS2で生成された要約文に対応するWFSTを付加する(ステップS5)。
【0073】
そして、WFST構築手段33は、ステップS5で生成したWFSTを、原稿テキストと対応付けてWFST記憶手段34に記憶する(ステップとして図示せず)。
これによって、認識誤り修正装置3は、原稿テキストに対して、読み飛ばしを許容した単語列の遷移を付加したWFSTを生成することができる。
【0074】
[字幕生成動作:放送時]
図10を参照(構成については適宜
図2参照)して、字幕生成システム100の字幕生成動作について説明する。
まず、音声認識装置2は、認識手段21によって、読み飛ばしを許可して、発話者が原稿テキストを読み上げた発話音声を音声認識する(ステップS10)。このとき、認識手段21は、
図9で説明したステップS3で学習した言語モデルを用いて音声認識を行う。この音声認識装置2における音声認識結果は、逐次、認識誤り修正装置3に出力される。
一方、認識誤り修正装置3は、ステップS10で認識された認識結果を単語列として逐次入力する(ステップS11)。
【0075】
そして、認識誤り修正装置3は、探索手段35によって、WFST構築手段33で生成され、WFST記憶手段34に記憶されているWFSTにおいて、ステップS11で逐次入力される単語列(認識結果)に対して遷移重み(ペナルティ)の総和が最小となる単語列を探索する(ステップS12)。
そして、認識誤り修正装置3は、探索手段35によって、ステップS12で探索した単語列に対応する原稿テキストを字幕として逐次出力する(ステップS13)。なお、このステップS13では、ステップS12で探索した単語列そのものを字幕として出力することとしてもよい。
【0076】
これによって、認識誤り修正装置3は、認識結果に認識誤りがあっても、正しい単語列に修正することができる。また、WFSTには要約文の単語列の遷移が含まれているため、読み上げ音声に読み飛ばしがあった場合でも、その読み飛ばし後の音声の認識結果の単語列の状態遷移として、読み上げ音声を特定することができ、対応する原稿テキストを推定することができる。
【0077】
以上、本発明の実施形態に係る認識誤り修正装置3、および、認識誤り修正装置3を用いた字幕生成システム100の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
【0078】
ここでは、要約文生成手段30が、原稿テキストの語句間の係り受けを解析し、係り受け木の枝刈りを行うことで要約文を生成したが、他の一般的な要約文生成手法を用いても構わない。例えば、特開2000−99536号公報、特開2008−234049号公報等に記載の手法を用いることができる。これらの手法を用いた場合、
図8(a)で説明した読み飛ばし部分をスキップする遷移(A)を既存の遷移に付加することが困難な場合がある。その場合は、
図8(b)の遷移(B)に示すように、既存の状態遷移と並列に遷移を追加すればよい。
また、要約文生成手段30は、係り受け木の枝刈り等の一種類の手法によって要約文を生成する必要はなく、複数の生成手法によって、複数の要約文を生成することとしてもよい。
【0079】
また、ここでは、認識誤り修正装置3には、言語モデル学習手段32を構成として含んでいるが、必ずしも認識誤り修正装置3に備える必要はない。例えば、音声認識装置2内に言語モデル学習手段32を備え、音声認識装置2が、原稿テキスト記憶装置1に記憶されている原稿テキストと、認識誤り修正装置3が生成する要約文とから、言語モデルを学習することとしてもよい。
【0080】
また、ここでは、音声認識装置2が、原稿テキストとその要約文とから学習した言語モデルを用いることとしたが、必ずしもこの言語モデルを用いる必要はない。例えば、音声認識装置2は、数年分の放送番組の原稿、放送音声の書き起こしテキスト等、大規模コーパスから学習した言語モデルを用いて音声認識を行うこととしてもよい。このような大規模コーパスから学習された言語モデルには、原稿テキストおよび要約文の単語連鎖が共に含まれている確率が高いからである。