【文献】
本間真一他,ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム,映像情報メディア学会誌,2009年 3月,Vol.63,No.3,p.331-338
【文献】
佐藤庄衛,音声認識を用いた生放送番組への字幕付与,メディア教育研究[online],放送大学,2012年12月,第9巻,第1号,p.S9-S18
(58)【調査した分野】(Int.Cl.,DB名)
対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録する音声認識部と、
音声認識後の字幕テキストを修正する修正部と、
対象音声を出力する出力部と、
前記字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生部と、
前記字幕テキストの修正者からの指示により、前記出力部により出力される対象音声または前記音声再生部により出力される音声ファイルを再生した前記字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記修正者が着用するヘッドホンに提供する切替部とを備えることを特徴とする字幕制作装置。
前記切替部は、1回目は前記対象音声を前記ヘッドホンに出力し、2回目以降は音声ファイルを再生した前記字幕テキストの文字列と同期した前記対象音声/前記リスピーク音声を前記ヘッドホンに出力することを特徴とする請求項1に記載の字幕制作装置。
対象音声または対象音声を復唱したリスピーク音声を音声認識してテキストに変換するとともに音声認識された前記対象音声または音声認識された前記リスピーク音声を音声ファイルとして記録する音声認識ステップと、
音声認識後の字幕テキストを修正する修正ステップと、
対象音声を出力する出力ステップと、
前記字幕テキストの文字列と同期させて、前記対象音声/前記リスピーク音声を記録した音声ファイルを再生する音声再生ステップと、
前記字幕テキストの修正者からの指示により、前記出力ステップにより出力される対象音声または前記音声再生ステップにより出力される音声ファイルを再生した前記字幕テキストの文字列と同期した対象音声/リスピーク音声のいずれかを切り替えて前記修正者が着用するヘッドホンに提供する切替ステップとを備えることを特徴とする字幕制作装置によって実行される字幕制作方法。
【発明の概要】
【発明が解決しようとする課題】
【0004】
即時入力手法では、数人のオペレータが、流れてくる音声を時系列で複数人で手分けして順番にキーボード入力していく。しかし、キーボードによる即時入力(速記)には熟練したスキルが求められるため、オペレータを長期間にわたって訓練する必要があり、投資が必要になる。また、複数人で順番に入力するため、オペレータ同士で阿吽の呼吸が必要であることも長期間の訓練を要する要因であり、オペレータのスキルに対する対価が要求される。
【0005】
キーボード入力以外の方法として音声認識を用いたテキスト化技術もあるが、音声認識の認識率が100%ではなく、音声認識結果の修正にスピードが要求される。
【0006】
即時入力手法であれ、音声認識を用いたテキスト化手法であれ、特殊技術であるためにオペレータの人手不足の問題があり、また、新たにオペレータを訓練するためにも人材育成費用がかかるため、字幕制作にはコスト高が避けられないのが現状である。
【0007】
本発明はこうした課題に鑑みてなされたものであり、その目的は、字幕を効率的に制作する技術を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある態様の字幕制作装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延部と、字幕テキストの修正者からの指示により、前記遅延部により出力される複数の遅延音声を切り替えて前記修正部に提供する切替部とを備える。
【0009】
本発明の別の態様もまた、字幕制作装置である。この装置は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識部と、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理部と、字幕テキストを修正する修正部と、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延部と、音声認識された音声を記録した音声ファイルを再生する音声再生部と、字幕テキストの修正者からの指示により、前記遅延部により出力される遅延音声または前記音声再生部により出力される音声ファイルの再生音声のいずれかを切り替えて前記修正部に提供する切替部とを備える。
【0010】
本発明のさらに別の態様は、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の異なる時間だけ遅延させた複数の遅延音声を出力する遅延ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される複数の遅延音声を切り替えて前記修正ステップに提供する切替ステップとを備える。
【0011】
本発明のさらに別の態様もまた、字幕制作方法である。この方法は、対象音声または対象音声を復唱した音声を音声認識してテキストに変換する音声認識ステップと、音声認識後のテキストを分割処理して字幕テキストを生成する分割処理ステップと、字幕テキストを修正する修正ステップと、対象音声を所定の時間だけ遅延させた遅延音声を出力する遅延ステップと、音声認識された音声を記録した音声ファイルを再生する音声再生ステップと、字幕テキストの修正者からの指示により、前記遅延ステップにより出力される遅延音声または前記音声再生ステップにより出力される音声ファイルの再生音声のいずれかを切り替えて前記修正ステップに提供する切替ステップとを備える。
【0012】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0013】
本発明によれば、字幕を効率的に制作することができる。
【発明を実施するための形態】
【0015】
図1は、第1の実施の形態に係る字幕制作装置100の構成図である。
【0016】
対象音声10は、一般にテレビ放送などの映像を伴う音声である。対象音声10はリスピーク部20に入力されるか、または、そのまま生音声として音声認識部30に入力される。リスピーク部20の構成を設けるかどうかは、リスピーカによるリスピークの必要性に依存する。たとえば、ニュース放送の場合、アナウンサが正確な発声をしている場合は、リスピーク部20の構成を省略して、アナウンサの生音声を音声認識部30に直接入力してもよい。また、予算の関係等でリスピーカをつけられない場合も生音声を音声認識部30に直接入力する。
【0017】
リスピーク部20では、リスピーカが対象音声10をヘッドホンなどで聴きながら同一内容を適宜区切りながら一定の発話速度で明瞭に復唱する。復唱された音声はマイクに入力される。リスピーク部20は、マイクに入力されたリスピーカの音声を出力し、音声認識部30に供給する。
【0018】
音声認識部30は、リスピーク音声または生音声を音声認識してテキスト化する。音声認識部30は、パーソナルコンピュータ(PC)上の一般的な音声認識ソフトウェアで構成される(このPCを「PC1」と呼ぶ)。音声認識結果は後段で字幕修正処理にかけられるため、音声認識ソフトウェアは認識率が高くない比較的安価なものであってもよい。音声認識後のテキストはテキスト分割・結合処理部40に入力される。
【0019】
テキスト分割・結合処理部40では、音声認識後のテキストを字幕の所定の文字数内に収まるように分割したり、結合する処理を行う。また、テキスト分割・結合処理部40において話者によってテキストを色分けする処理を行ってもよい。たとえばメインキャスタとサブキャスタによってテキストの色を異ならせる。
【0020】
テキストの分割、結合、着色処理は、2台目のPC(「PC2」と呼ぶ)において、音声認識後のテキストをタッチパネルディスプレイなどに表示し、分割担当者がタッチパネル上で分割・結合位置を指示することで行われる。テキスト分割・結合処理部40による分割・結合・着色処理後のテキスト(「字幕テキスト」)は字幕時系列管理部50に入力される。
【0021】
リスピーク部20におけるリスピーカと、テキスト分割・結合処理部40における分割担当者は、同一人物であってもよい。熟練したリスピーカであれば、リスピークしながら、音声認識後のテキストの分割・結合処理を行うことができるからである。
【0022】
リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間の合計をP1秒とする。前処理時間P1はあらかじめ計測しておく。
【0023】
字幕時系列管理部50は、適正な長さに調整された字幕テキストを時系列管理し、複数のキーボード修正部60に順次分配する。
【0024】
複数のキーボード修正部60は、複数の修正者のそれぞれが利用する端末(「PC3」〜「PCn」と呼ぶ)である。遅延部80は、対象音声10を所定の時間だけ遅延させて出力する。遅延部80は、一般的なアナログ音声遅延装置であり、入力された音声を指定した時間だけ遅延させて出力することができる。ここでは、遅延部80は、前述の前処理時間P1よりも少し長めの時間だけ対象音声10を遅延させて出力する。キーボード修正部60またはヘッドホンには、遅延部80から出力された遅延音声が入力される。
【0025】
キーボード修正部60において、修正者は音声認識結果の間違いを修正する作業を行う。さらに、修正者は、遅延部80から出力された遅延音声をヘッドホンなどで聞き直しながら字幕テキストを修正する。修正者は自分が担当する字幕テキストの修正が完了次第、修正された字幕テキストを出力する。複数のキーボード修正部60により出力される修正後の字幕テキストは非同期で送出順序制御部70に入力される。
【0026】
送出順序制御部70は、複数のキーボード修正部60から非同期で供給される字幕テキストの順序を正しく入れ替えて最終的な字幕を放送局に送出する。
【0027】
字幕時系列管理部50と送出順序制御部70は同一のサーバ(「サーバ1」と呼ぶ)で実行することができる。
【0028】
本実施の形態の字幕制作装置100では、音声認識ソフトウェアの認識精度が低くても、修正者が遅延された生音声を聞きながら字幕を修正することができる。また、リスピーカは熟練者である必要があるが、修正者は熟練者である必要はない。そのため、字幕制作にかかる総費用を安く抑えることができる。
【0029】
図2は、第2の実施の形態に係る字幕制作装置110の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。
図2の字幕制作装置110は、遅延部82および遅延切替スイッチ84の構成が
図1の字幕制作装置100とは異なる。
【0030】
遅延部82は、複数の異なる遅延時間だけ対象音声10を遅延させて複数の遅延音声を出力する。出力された複数の遅延音声は遅延切替スイッチ84に入力される。遅延切替スイッチ84は、複数の遅延音声のいずれかを選択して出力する。選択された遅延音声はキーボード修正部60またはヘッドホンに入力される。
【0031】
図4は、遅延部82および遅延切替スイッチ84によって複数の遅延音声が切り替えて出力される様子を模式的に説明する図である。
【0032】
符号200は対象音声10の一区分を示し、ここではA秒の長さである。これはリスピーカが復唱の際に適宜区切る文節である。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による「前処理」にかかる時間を示し、ここではB秒である。
【0033】
遅延部82は、ここでは、3つの遅延時間D1、D2、D3で生音声を遅延させて出力する。第1の遅延時間D1は、前処理時間Bよりも少し長い時間である。第2の遅延時間D2は第1の遅延時間D1に対象音声10の一区分の時間Aを加算した時間である。第3の遅延時間D3は第2の遅延時間D2に対象音声10の一区分の時間Aを加算した時間である。
【0034】
遅延切替スイッチ84の第1のスイッチを押し下げすると、生音声を第1の遅延時間D1だけ遅延された遅延音声がA秒間出力される(符号210)。同様に、遅延切替スイッチ84の第2のスイッチ、第3のスイッチを押し下げすると、生音声をそれぞれ第2の遅延時間D2、第3の遅延時間D3だけ遅延させた遅延音声がA秒間出力される(符号220、230)。ただし、遅延切替スイッチ84の第1のスイッチを省略し、第1の遅延時間D1の経過後に1回目の遅延音声がスイッチの押し下げなしに自動的に出力されるようにしてもよい。その場合、修正者がその後、第2のスイッチ、第3のスイッチを押し下げた場合、2回目、3回目の遅延音声が出力される。
【0035】
図5は、遅延切替スイッチ84の構成図である。遅延切替スイッチ84は遅延音声1〜nの入力を受けて、いずれかの遅延音声を出力する。内部スイッチSW1〜SWn−1が設けられ、すべての内部スイッチSW1〜SWn−1がオフであるなら、遅延音声1が出力され、SW1のみがオンになると遅延音声2が出力され、SW2のみがオンになると遅延音声3が出力され、SWn−1のみがオンになると遅延音声nが出力される。
【0036】
遅延切替スイッチ84は修正者毎に用意される。修正者はスイッチを操作することによって2回目、3回目の遅延音声を聞き直すことができる。これは、1回目の遅延音声を聞いただけでは字幕の修正が完了しない場合に、聞き漏らした箇所を数回聞き直せるようにしたものである。
【0037】
遅延切替スイッチ84は、キーボードの特定のキーの押し下げで実現してもよく、キーボードとは別に手元スイッチを設けることで実現してもよい。あるいは、修正者がキーボードから手を離さず、修正速度を確保できるように、フットスイッチやペダルによって実現してもよい。
【0038】
一例として遅延音声が最大3回まで出力可能な構成を説明したが、一般に遅延音声がn回まで出力可能な構成とすることができる。字幕に修正箇所が少ない場合は、遅延音声を1回聞くだけで修正作業が完了することもある。その場合は、第1の遅延時間D1の遅延音声だけが用いられ、字幕を早く出すことができる。一方、字幕に修正箇所が多い場合、最大n回まで生音声を繰り返し聞くことで字幕の精度を上げることができる。したがって、字幕のスピードと精度をバランス良く高めることができる。
【0039】
音声認識ソフトウェアの認識率が低い場合や、リスピーカによるリスピーク音声の品質が低い場合、最大n回、生音声を聞くことで字幕の精度を高めることができる。これは言い換えれば、高価な音声認識ソフトウェアを利用したり、熟練したリスピーカを採用しなくても、後処理において字幕の精度を高めることができることを意味し、字幕制作にかかる費用を安く抑えることができる。
【0040】
図3は、第3の実施の形態に係る字幕制作装置120の構成図である。第1の実施の形態の字幕制作装置100と共通する構成については同一符号を付して説明を省略する。
図3の字幕制作装置120は、キーボード修正/音声再生制御部60が音声認識部30により保存された音声ファイル32を再生する構成、音声ミキサ90が音声ファイル32からの再生音声と遅延部80からの遅延生音声を選択して出力する構成が
図1の字幕制作装置100とは異なる。
【0041】
図1の実施の形態1の字幕制作装置100および
図2の実施の形態2の字幕制作装置110では、修正者が遅延された生音声を聞いても、生音声は字幕テキストと同期していないため、担当している字幕の前後の不要な音声が入っており、担当字幕の音声位置を探すことになる。これは、字幕テキストの対象となる音声箇所が始まるまで待ったり、再生すると既に対象の音声箇所が始まっているなど不安定さをもたらす要因であり、修正者に時間のロスが発生し、字幕を出すスピードが遅くなる結果となる。そこで、第3の実施の形態の字幕制作装置120では、音声認識部30が音声認識される音声をファイルに保存し、修正者の指示にしたがってキーボード修正/音声再生制御部60が音声ファイルを再生できるようにする。
【0042】
音声ファイル32は、リスピーカにより復唱された音声を記録したものである(ただし、リスピーカをつけない場合は生音声を記録したものを用いる)。音声認識ソフトウェアが音声認識処理する際に音声を一時的に保存するため、その保存ファイルを音声ファイル32として用いることができる。音声ファイル32の再生を修正者が担当する字幕テキストに同期させるために、音声認識された単語ごとに音声ファイル32においてその単語が発声される位置(開始位置と終了位置)をミリ秒の単位で記録した「音声再生情報」を用いる。この音声再生情報により、字幕の文字列と音声ファイルの再生とを完全に同期させることができる。
【0043】
音声ファイルの再生を字幕テキストと同期させることができるため、修正者が担当している字幕テキストとは関係のない音声が前後に入ることがない。また音声ファイルであることから容易に何度でも再生することができ、また、再生速度をたとえば1.5倍などに早めて聞くこともできる。
【0044】
音声ミキサ90は、遅延部80により所定時間だけ遅延された生音声または字幕テキストに同期した音声ファイル32からの再生音声のどちらかに切り替えてキーボード修正部60またはヘッドホンに入力し、修正者のヘッドフォンから出力されるようにする。ここでは、音声ミキサ90はキーボード修正/音声再生制御部60の外部にあるが、音声ミキサ90をキーボード修正/音声再生制御部60内に設けてもよい。
【0045】
図6は、音声ファイル32の同期再生の様子を模式的に説明する図である。符号200は対象音声10の一区分を示し、ここではA秒の長さである。符号250は、リスピーク部20、音声認識部30、およびテキスト分割・結合処理部40による前処理にかかる時間を示し、ここではB秒である。音声ミキサ90により音声ファイル32の再生音声を選択すると、時間P2だけ遅延されて音声ファイル32が再生される(符号241)ここで、P2=A+Bでり、編集中のテキストと完全に同期した音が再生される。音声ファイル32はその後、繰り返し再生可能である(符号242、243)。
【0046】
音声ミキサ90はスイッチやペダルによる切替部であり、1回目は遅延部80により遅延された生音声が出力されるが、修正者が指示すれば、2回目以降は音声ファイルの再生音声が出力される。修正箇所の少ない簡単な字幕であれば、1回目の遅延音声を聞くだけで修正作業が終わるが、修正箇所の多い複雑な字幕の場合、何回でも音声ファイルを再生して聞くことができる。1回目の遅延音声は、生音声であるのに対して、2回目以降の再生音声は、リスピーカのリスピーク音声であるから、生音声で聞き取りにくい箇所は、リスピーク音声によって正確な内容を把握することができる。
【0047】
上記の説明では、音声ファイル32はリスピーカにより復唱された音声を記録したものであったが、リスピーク音声ファイルに代えてあるいはリスピーク音声ファイルとともに、リスピーカを通さない生音声を記録した生音声ファイルを生成し、キーボード修正/音声再生制御部60が生音声ファイルを再生して音声ミキサ90に提供する構成にしてもよい。生音声ファイルは、リスピーク音声ファイルと違って字幕テキストと同期はしないが、リスピーク音声の品質が良くない場合は、修正者は、リスピーク音声からテキスト化された字幕を編集しながら、生音声ファイルを再生して生音声を聞き直すことで字幕の精度を高めることができる。
【0048】
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0049】
送出順序制御部70により送出された字幕テキストを結合して文章を生成し、その文章を自動翻訳ソフトウェアにより別の言語に自動翻訳することにより、リアルタイムで多言語の字幕放送を実現することもできる。
【0050】
上記の実施の形態の字幕制作装置は、放送された番組の音声をもとにリアルタイムで字幕を生成したが、録画された番組をもとに字幕を生成する場合にも上記の実施の形態の字幕制作装置を用いることができる。