特開2023-114359 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2023-114359字幕表示装置、及び字幕表示プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023114359

(43)【公開日】2023-08-17

(54)【発明の名称】字幕表示装置、及び字幕表示プログラム

(51)【国際特許分類】

G10L 15/28 20130101AFI20230809BHJP

G10L 15/00 20130101ALI20230809BHJP

【ＦＩ】

G10L15/28 500

G10L15/00 200G

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022016683

(22)【出願日】2022-02-04

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】藤森真綱

(72)【発明者】

【氏名】佐藤庄衛

(72)【発明者】

【氏名】小森智康

(72)【発明者】

【氏名】望月貴裕

(72)【発明者】

【氏名】河合吉彦

(72)【発明者】

【氏名】三島剛

(72)【発明者】

【氏名】遠藤伶

(72)【発明者】

【氏名】佐藤裕明

(72)【発明者】

【氏名】佐々木桃子

(57)【要約】

【課題】画面に表示する字幕の一部の音声認識が確定している段階で字幕を表示し、新たに認識結果が確定するたびに字幕を更新することにより、発話から字幕を表示するまでの小さくすることができる字幕表示装置、及び字幕表示プログラムを提供すること。
【解決手段】字幕表示装置は、入力された音声に対して音声認識処理を行う音声認識部と、前記音声認識部により音声認識された認識結果が確定するたびに前記認識結果を保存するストックと、タイマーと、前記ストックの先頭に認識結果が保存されたタイミングで前記タイマーを起動し、前記タイマーに基づいて所定の時間毎に記憶される前記認識結果に基づいて字幕データを生成し出力する字幕生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力された音声に対して音声認識処理を行う音声認識部と、
前記音声認識部により音声認識された認識結果が確定するたびに前記認識結果を保存するストックと、
タイマーと、
前記ストックの先頭に認識結果が保存されたタイミングで前記タイマーを起動し、前記タイマーに基づいて所定の時間毎に記憶される前記認識結果に基づいて字幕データを生成し出力する字幕生成部と、
を備える字幕表示装置。

【請求項2】

前記音声認識部の認識結果に基づいて前記字幕生成部により生成され出力される前記字幕データの表示時間を算出する表示時間算出部を備える、請求項１に記載の字幕表示装置。

【請求項3】

前記字幕生成部は、前記音声認識部により無音区間と音声認識された場合、前記タイマーの値にかかわらず前記ストックに保存される前記認識結果に基づいて字幕データを生成して出力し、保存されている全ての認識結果を前記ストックから削除して前記タイマーをリセットする、請求項１又は請求項２に記載の字幕表示装置。

【請求項4】

前記字幕生成部は、前記ストックに保存された前記認識結果のデータ量が１画面に表示可能なデータ量を超えた場合、前記タイマーの値にかかわらず前記ストックに保存される前記認識結果のうち前記１画面に表示可能な文字数の字幕データを生成して出力し、出力した前記字幕データに使用した認識結果を前記ストックから削除して前記タイマーをリセットする、請求項１又は請求項２に記載の字幕表示装置。

【請求項5】

コンピュータを字幕表示装置として動作させる字幕表示プログラムであって、
入力された音声に対して音声認識処理を行う音声認識手段と、
音声認識された認識結果が確定するたびに前記認識結果を保存するストック手段と、
先頭に認識結果が保存されたタイミングで前記字幕表示装置に含まれるタイマーを起動し、前記タイマーに基づいて所定の時間毎に記憶されている前記認識結果に基づいて字幕データを生成し出力する字幕生成手段と、
を備える字幕表示プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、字幕のデータ量を増加させることなく、発話から字幕が表示されるまでの遅延が小さい字幕表示装置、及び字幕表示プログラムに関する。

【背景技術】

【0002】

従来から、音声認識技術を用いてテレビや映画等の字幕を作成する技術が開発されている。
例えば、特許文献１には、入力される音声を逐次認識してテキスト化した認識結果を作成し、音声の発話時間に基づいて認識結果に含まれる文章毎に表示時間を決定する技術が提案されている。
また、非特許文献１には、音声入力中に逐次的に２パス目の処理を行うことで、認識結果早期確定のための逐次２パスデコーダの技術が提案されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１２－１８１３５８号公報

【非特許文献】

【0004】

【非特許文献1】今井亨、小林彰夫、安藤彰男、“認識結果早期確定のための逐次2パスデコーダ”、1999年秋季日本音響学会研究発表会講演論文集、no. 1, 2-1-4, 1999, p. 61-62

【発明の概要】

【発明が解決しようとする課題】

【0005】

生放送のテレビ番組に字幕を付ける際に、音声認識の結果を修正せずに放送用のクローズドキャプションとして送出することを考える。生放送のテレビ番組に字幕をつけるための専門性の高いオペレーターの人数は限られており、字幕サービスの拡充のために、人手をかけずに字幕をつける技術が必要とされていた。また、生放送のテレビ番組の字幕は、さまざまな理由で字幕の確定に時間を要した。結果として発話よりも、数秒以上の大きな遅延で表示されることが一般的であり、番組内で話題が切り替わる部分では、不自然な字幕が出てしまうこともあった。
特許文献１の音声認識を利用した字幕表示方法は、音声認識が単語列として出力されることを前提としていた。また、現在の字幕放送と同様に、画面に表示する字幕（例えば１５文字×２行の３０文字分）をすべて取得してから字幕を表示する場合には、発話から字幕を表示するまでの遅延が大きいという課題があった。
一方、非特許文献１にあるような、単語毎に音声認識結果を出力する音声認識モデルを用いて、音声認識結果が確定するたびに字幕を表示することで遅延を小さくすることができた。しかし、クローズドキャプションとして送出する場合、字幕を更新するたびに表示する字幕情報を送りなおさなければならないため、データ量が増加するという課題があった。

【0006】

本発明は、画面に表示する字幕の一部の音声認識が確定している段階で字幕を表示し、新たに認識結果が確定するたびに字幕を更新することにより、発話から字幕を表示するまでの遅延を小さくすることができる字幕表示装置、及び字幕表示プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

（１）本発明の字幕表示装置は、入力された音声に対して音声認識処理を行う音声認識部と、前記音声認識部により音声認識された認識結果が確定するたびに前記認識結果を保存するストックと、タイマーと、前記ストックの先頭に認識結果が保存されたタイミングで前記タイマーを起動し、前記タイマーに基づいて所定の時間毎に記憶される前記認識結果に基づいて字幕データを生成し出力する字幕生成部と、を備える。

【0008】

上記（１）によれば、画面に表示する字幕の一部の音声認識が確定している段階で字幕を表示し、新たに認識結果が確定するたびに字幕を更新することにより、発話から字幕を表示するまでの遅延を小さくすることができる。

【0009】

（２）（１）に記載の字幕表示装置によれば、前記音声認識部の認識結果に基づいて前記字幕生成部により生成され出力される前記字幕データの表示時間を算出する表示時間算出部を備える。

【0010】

上記（２）によれば、発話者の発話速度に応じた字幕を表示することができ、表示装置のユーザにとっても見やすい字幕を表示させることができる。

【0011】

（３）（１）又は（２）に記載の字幕表示装置において、前記字幕生成部は、前記音声認識部により無音区間と音声認識された場合、前記タイマーの値にかかわらず前記ストックに保存される前記認識結果に基づいて字幕データを生成して出力し、保存されている全ての認識結果を前記ストックから削除して前記タイマーをリセットする。

【0012】

上記（３）によれば、発話の終了に合わせて、当該発話の字幕を表示させることができる。

【0013】

（４）（１）又は（２）に記載の字幕表示装置において、前記字幕生成部は、前記ストックに保存された前記認識結果のデータ量が１画面に表示可能なデータ量を超えた場合、前記タイマーの値にかかわらず前記ストックに保存される前記認識結果のうち前記１画面に表示可能な文字数の字幕データを生成して出力し、出力した前記字幕データに使用した認識結果を前記ストックから削除して前記タイマーをリセットする。

【0014】

上記（４）によれば、１つの画面に表示可能な文字数となった場合に字幕を表示することで、データ量とともに遅延を小さく抑えることができる。

【0015】

（５）本発明の字幕表示プログラムは、コンピュータを字幕表示装置として動作させる字幕表示プログラムであって、入力された音声に対して音声認識処理を行う音声認識手段と、音声認識された認識結果が確定するたびに前記認識結果を保存するストック手段と、先頭に認識結果が保存されたタイミングで前記字幕表示装置に含まれるタイマーを起動し、前記タイマーに基づいて所定の時間毎に記憶されている前記認識結果に基づいて字幕データを生成し出力する字幕生成手段と、を備える。

【0016】

上記（５）によれば、（１）と同様の効果を奏することができる。

【発明の効果】

【0017】

本発明によれば、画面に表示する字幕の一部の音声認識が確定している段階で字幕を表示し、新たに認識結果が確定するたびに字幕を更新することにより、発話から字幕を表示するまでの遅延を小さくすることができる。

【図面の簡単な説明】

【0018】

【図1】一実施形態に係る字幕出力システムの構成の一例を示す図である。

【図2A】認識結果の一例を示す図である。

【図2B】認識結果の一例を示す図である。

【図3】逐次表示される字幕データの時系列変化の一例を示す図である。

【図4】字幕出力装置の字幕出力処理について説明するフローチャートである。

【図5】図４においてステップＳ３で示した発話区間の字幕出力処理の詳細な処理内容を説明するフローチャートである。

【図6】図４においてステップＳ４で示した無音区間の字幕出力処理の詳細な処理内容を説明するフローチャートである。

【発明を実施するための形態】

【0019】

以下、本発明の一実施形態について図面を用いて説明する。
＜一実施形態＞
図１は、一実施形態に係る字幕出力システムの構成の一例を示す図である。ここでは、テレビ番組の映像に字幕を表示する場合を例示する。なお、本発明は、テレビ番組に限定されず、映画やネット配信動画等に対しても適用可能である。
図１に示すように、字幕出力システム１は、字幕表示装置としての字幕出力装置１０、音声入力装置２０、及び映像生成装置３０を有する。
字幕出力装置１０と、音声入力装置２０と、映像生成装置３０とは、有線又は無線で直接接続されてもよく、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）もしくはインターネット等の図示しないネットワークを介して接続されていてもよい。

【0020】

音声入力装置２０は、音声を字幕出力装置１０に入力する。例えば、音声入力装置２０は、音声として、テレビ番組の音声ファイルを字幕出力装置１０に入力してもよい。また、例えば、音声入力装置２０は、マイクとして、マイクから入力される音声を字幕出力装置１０に入力するようにしてもよい。

【0021】

映像生成装置３０は、例えば、字幕出力装置１０により出力された字幕データを入力して、放送用のクローズドキャプションを出力する。

【0022】

字幕出力装置１０は、例えば、コンピュータ等であり、音声入力装置２０から入力された音声に対して音声認識処理を実行し、認識結果に基づいて字幕データを生成し、映像生成装置３０に出力する。
図１に示すように、字幕出力装置１０は、制御部１００、記憶部２００、ストック２５０、及びタイマー３００を有する。また、制御部１００は、音声取得部１１０、音声認識部１２０、字幕生成部１３０、及び表示時間算出部１４０を有する。

【0023】

記憶部２００は、メモリやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等である。記憶部２００には、後述する制御部１００が実行するオペレーティングシステム、及び字幕表示プログラム等のアプリケーションプログラムが記憶される。
また、記憶部２００には、後述する音声認識部１２０の認識結果に含まれる単語、及び当該単語の発話時刻等が記憶されるようにしてもよい。なお、記憶部２００に記憶される認識結果については後述する。

【0024】

ストック２５０は、メモリやバッファ等であり、上記認識結果が確定するたびに、字幕として表示する認識結果の単語からなるテキストを保存する。なお、ストック２５０は、記憶部２００と異なる構成としたが、記憶部２００に含まれてもよい。

【0025】

タイマー３００は、公知のタイマーであり、後述する制御部１００からの制御指示に基づいて、経過時間を計時する。

【0026】

制御部１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＣＭＯＳメモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
ＣＰＵは字幕出力装置１０を全体的に制御するプロセッサである。ＣＰＵは、ＲＯＭに格納されたシステムプログラム及び字幕表示プログラム等のアプリケーションプログラムを、バスを介して読み出し、システムプログラム及びアプリケーションプログラムに従って字幕出力装置１０全体を制御する。これにより、図１に示すように、制御部１００は、音声取得部１１０、音声認識部１２０、字幕生成部１３０、及び表示時間算出部１４０の機能を実現するように構成される。ＲＡＭには一時的な計算データや表示データ等の各種データが格納される。ＣＭＯＳメモリは図示しないバッテリでバックアップされ、字幕出力装置１０の電源がオフされても記憶状態が保持される不揮発性メモリとして構成される。

【0027】

音声取得部１１０は、音声入力装置２０から音声を取得する。音声取得部１１０は、取得した音声を後述する音声認識部１２０に出力する。

【0028】

音声認識部１２０は、例えば、特許文献１や非特許文献１等の公知の手法を用いて、音声取得部１１０から入力される音声に対して音声認識処理を行う。音声認識部１２０は、認識結果を記憶部２００に記憶する。また、音声認識部１２０は、認識結果が確定するたびに認識結果の単語をストック２５０に追加する。
図２Ａ及び図２Ｂは、認識結果の一例を示す図である。図２Ａ及び図２Ｂでは、例えば、発話者が「現在の気温は２０．２度きょう日中の最高気温２８度ぐらいまで気温が上がって日中は７月の上旬ぐらいの暑さになる見込みです。」と発話した場合の「認識結果」、「発話時刻」、及び「認識確定時刻」を含む認識結果を示す。
「認識結果」には、音声認識部１２０により認識（発話）された順に単語（例えば、「現在」や「の」等）が記憶される。
「発話時刻」には、「認識結果」の単語が発話された時刻が記憶される。
「認識確定時刻」には、音声認識部１２０において「認識結果」の単語の認識が確定した時刻が記憶される。
なお、図２Ａ及び図２Ｂでは、字幕データを逐次表示する場合の「表示時刻」及び「遅延」と、従来の２行毎に字幕を表示する場合の「表示時刻」及び「遅延」との比較を示すデータも示す。これらのデータについては後述する。

【0029】

字幕生成部１３０は、ストック２５０の先頭に認識結果が保存されたタイミングでタイマー３００を起動し、タイマー３００に基づいて予め設定された所定の時間（以下、「更新頻度」ともいう）ｔ（例えば、０．２秒等）毎に、認識結果の単語であるテキストを用いて字幕データを生成して出力し、タイマー３００をリセットする。
なお、以下では、１つの画面には、最大１５文字×２行、すなわち最大３０文字まで表示する場合を例示して説明するが、最大文字数が３０文字以外の場合についても同様である。
具体的には、字幕生成部１３０は、例えば、単語「現在」が空のストック２５０の先頭に保存されたタイミングでタイマー３００を起動し、認識結果の「認識確定時刻」において単語「現在」の認識確定時刻から、タイマー３００の値が更新頻度ｔ（例えば、０．２秒）となった時（時刻００：１０：２７．７４２）に、単語「現在」から、その間に確定されストック２５０に保存された単語「きょう」までの単語からなるテキストの字幕データ（図３の左側の１段目）を出力し、タイマー３００をリセットする。
なお、図２Ａに示すように、単語「きょう」の認識確定時刻と次の単語「日中」の認識確定時刻との差が約０．６秒ある。このため、字幕生成部１３０は、単語「日中」がストック２５０に追加されるまでの間、ストック２５０に保存された単語「現在」から単語「きょう」までの同じテキストの字幕データを、タイマー３００の値が更新頻度ｔとなるたびに出力し、タイマー３００をリセットする。
そうすることで、逐次表示するにあたり、字幕の更新頻度を高くすると送信する字幕データ量が増加する（新たに認識結果が出ていない場合でも更新間隔の時間毎に、字幕データを生成・送信する必要がある）点、及び字幕更新頻度を低くすると、発話から字幕表示までの遅延が大きくなる点を考慮して、更新頻度ｔ（例えば、０．２秒等）は予め設定されることが好ましい。そして、字幕出力装置１０は、字幕データ量が必要以上に増加することなく、かつ発話から字幕表示までの遅延が大きくなることなく、字幕を図示しないテレビ受信機に表示することができる。

【0030】

次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：２８．３４２）に、その間に確定されストック２５０に新たに保存された単語「日中」を単語「現在」から単語「きょう」までのテキストに追加した字幕データ（図３の左側の２段目）を出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：２８．５４２）に、その間に確定されストック２５０に新たに保存された単語「の」及び「最高気温」を単語「現在」から単語「日中」までのテキストに追加した字幕データ（図３の左側の３段目）を出力し、タイマー３００をリセットする。
図２Ａに示すように、単語「最高気温」の認識確定時刻と次の単語「２８」の認識確定時刻との差が約１秒ある。このため、字幕生成部１３０は、単語「２８」がストック２５０に追加されるまでの間、ストック２５０に保存された単語「現在」から単語「最高気温」までの同じテキストの字幕データを、タイマー３００の値が更新頻度ｔとなるたびに出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：２９．５４２）に、その間に確定されストック２５０に新たに保存された単語「２８」及び「度」を単語「現在」から単語「最高気温」までのテキストに追加した字幕データ（図３の左側の４段目）を出力し、タイマー３００をリセットする。

【0031】

次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：２９．７４２）に、その間に確定されストック２５０に新たに保存された単語「ぐらい」及び「まで」を単語「現在」から単語「度」までのテキストに追加した字幕データ（図３の左側の５段目）を出力し、タイマー３００をリセットする。
図２Ａに示すように、単語「まで」の認識確定時刻と次の単語「気温」の認識確定時刻との差が約０．５秒ある。このため、字幕生成部１３０は、単語「気温」の「気」がストック２５０に追加されるまでの間、ストック２５０に保存された単語「現在」から単語「まで」までの同じテキストの字幕データを、タイマー３００の値が更新頻度ｔとなるたびに出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、音声認識部１２０により単語「気温」の認識が確定した時（時刻００：１０：３０．１５４）に、単語「現在」から単語「気温」の「気」までの最大文字数３０文字がストック２５０に保存されたことで、タイマー３００の値にかかわらず、単語「現在」から単語「気温」の「気」までのテキストの字幕データ（図３の左側の６段目）を出力する。そして、字幕生成部１３０は、単語「現在」から単語「気温」の「気」までの認識結果をストック２５０から削除し、タイマー３００をリセットする。なお、ストック２５０には、単語「気温」の「温」のみが保存される。
この場合、字幕出力装置１０は、後述するように、表示時間算出部１４０により算出されるストック２５０の先頭に保存された単語「現在」の表示時間ｔ_ｄが１つの画面に表示可能な最大文字数、すなわち単語「現在」から単語「気温」までの発話にかかる合計発話時間と等しくなる時間まで、図３の左側の６段目の字幕データを出力する。
すなわち、図２Ａに示すように、単語「現在」の発話時刻が時刻００：１０：２５．１８０で、単語「気温」の次の単語「が」の発話時刻（すなわち、単語「気温」の発話終了時刻）が時刻００：１０：２８．７２０であることから、単語「現在」から単語「気温」までの発話にかかった合計発話時間は、３．５４秒である。一方、図３の左側の１段目の字幕は時刻００：１０：２７．７４２に表示され、時刻００：１０：３１．２８２に図３の左側の６段目の字幕から図３の右側の１段目の字幕に切り替わったことから、表示時間ｔ_ｄは３．５４秒であり、上記合計発話時間３．５４秒と等しい時間である。
そうすることで、字幕出力装置１０は、発話者の発話速度に応じた字幕を表示することができ、テレビ番組の視聴者にとっても見やすい字幕を表示させることができる。また、図２Ａに示すように、単語「気温」の認識が確定した時刻００：１０：３０．１５４に表示される従来の２行毎の字幕と比べて、字幕出力装置１０は、発話から字幕を表示するまでの遅延を小さくすることができる。また、字幕出力装置１０は、更新頻度ｔ（例えば、０．２秒等）を調整することで字幕のデータ量と遅延量のバランスを取ることができる。

【0032】

次に、字幕生成部１３０は、後述する表示時間算出部１４０により算出された上記表示時間ｔ_ｄが経過した時（時刻００：１０：３１．２８２）に、その間に確定されストック２５０に新たに保存された単語「が」から単語「日中」を単語「気温」の「温」に追加したテキストの字幕データ（図３の右側の１段目）を出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：３１．４８２）に、その間に確定されストック２５０に新たに保存された単語「は」を単語「気温」の「温」から単語「日中」までのテキストに追加した字幕データ（図３の右側の２段目）を出力し、タイマー３００をリセットする。
なお、図２Ｂに示すように、単語「日中」の認識確定時刻と次の単語「は」の認識確定時刻との差が約０．７秒ある。このため、字幕生成部１３０は、単語「は」がストック２５０に追加されるまでの間、ストック２５０に保存された単語「気温」の「温」から単語「日中」までの同じテキストの字幕データを、タイマー３００の値が更新頻度ｔとなるたびに出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：３２．０８２）に、その間に確定されストック２５０に新たに保存された単語「７」、「月」、及び「の」を単語「気温」の「温」から単語「は」までのテキストに追加した字幕データ（図３の右側の３段目）を出力し、タイマー３００をリセットする。

【0033】

次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：３２．２８２）に、その間に確定されストック２５０に新たに保存された単語「上旬」を単語「気温」の「温」から単語「の」までのテキストに追加した字幕データ（図３の右側の４段目）を出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなった時（時刻００：１０：３２．４８２）に、その間に確定されストック２５０に新たに保存された単語「ぐらい」を単語「気温」の「温」から単語「上旬」までのテキストに追加した字幕データ（図３の右側の５段目）を出力し、タイマー３００をリセットする。
図２Ｂに示すように、単語「ぐらい」の認識確定時刻と次の単語「の」の認識確定時刻との差が約０．５秒ある。このため、字幕生成部１３０は、単語「の」がストック２５０に追加されるまでの間、ストック２５０に保存された単語「気温」の「温」から単語「ぐらい」までの同じテキストの字幕データを、タイマー３００の値が更新頻度ｔとなるたびに出力し、タイマー３００をリセットする。
次に、字幕生成部１３０は、タイマー３００の値が更新頻度ｔとなるまでに、単語「の」から単語「。」がストック２５０に保存され、音声認識部１２０から認識結果として無音区間（発話終了）を受けた場合、タイマー３００の値にかかわらず、ストック２５０に保存されている単語「気温」の「温」から単語「。」までの全ての単語のテキストの字幕データ（図３の右側の６段目）を出力する。そして、字幕生成部１３０は、全ての認識結果を削除してストック２５０を空にし、タイマー３００をリセットする。
この場合、字幕出力装置１０は、後述するように、表示時間算出部１４０により算出されるストック２５０の先頭に保存されている単語「気温」の「温」の表示時間ｔ_ｄが単語「気温」から単語「。」までの発話にかかる合計発話時間と等しくなる時間まで、図３の右側の６段目の字幕データを出力する。
すなわち、図２Ｂに示すように、単語「気温」の発話時刻が時刻００：１０：２８．５８０で、単語「。」の発話終了時刻が時刻００：１０：３２．６７０であることから、単語「気温」から単語「。」までの発話にかかる合計発話時間は、４．０９秒である。一方、図３の右側の１段目の字幕が時刻００：１０：３１．２８２に表示され、図３の右側の６段目の字幕が時刻００：１０：３２．８８２に表示されたことから、表示時間ｔ_ｄが上記合計発話時間４．０９秒の場合、図３の右側の６段目の字幕は、時刻００：１０：３５．３７２まで表示されて消える。
そうすることで、字幕出力装置１０は、発話者の発話速度に応じた字幕を表示することができ、テレビ番組の視聴者にとっても見やすい字幕を表示させることができる。また、図２Ｂに示すように、単語「。」が発話された後の時刻００：１０：３２．９８６に表示される従来の２行毎の字幕と比べて、字幕出力装置１０は、発話から字幕を表示するまでの遅延を小さくすることができる。また、字幕出力装置１０は、更新頻度ｔ（例えば、０．２秒等）を調整することで字幕のデータ量と遅延量のバランスを取ることができる。

【0034】

表示時間算出部１４０は、例えば、音声認識部１２０の認識結果に基づいて字幕生成部１３０により生成され出力される字幕データの表示時間を算出する。
具体的には、表示時間算出部１４０は、例えば、音声認識部１２０の音声認識処理により得られる単語毎の発話時刻（図２Ａ及び図２Ｂ）に基づいて、字幕生成部１３０により生成される字幕データのテキストのうちストック２５０の先頭に保存された単語（例えば、「現在」）の合計表示時間が１つの画面に表示可能な最大文字数（すなわち、単語「現在」から単語「気温」まで）の発話にかかる合計発話時間と等しくなる時間を表示時間ｔ_ｄとして算出する。
すなわち、図２Ａに示すように、単語「現在」の発話時刻が時刻００：１０：２５．１８０で、単語「気温」の次の単語「が」の発話時刻（すなわち、単語「気温」の発話終了時刻）が時刻００：１０：２８．７２０であることから、単語「現在」から単語「気温」までの発話にかかった合計発話時間は、３．５４秒である。一方、図３の左側の１段目の字幕は時刻００：１０：２７．７４２に表示され、時刻００：１０：３１．２８２に図３の左側の６段目の字幕から図３の右側の１段目の字幕に切り替わったことから、表示時間ｔ_ｄは３．５４秒であり、上記合計発話時間３．５４秒と等しい時間である。
なお、図２Ａでは、表示時間算出部１４０は、合計発話時間と等しい表示時間ｔ_ｄを算出したが、遅延量に応じて合計発話時間よりも短い表示時間ｔ_ｄを算出するようにしてもよい。

【0035】

また、表示時間算出部１４０は、音声認識部１２０から認識結果として無音区間（発話終了）を受けた場合、字幕生成部１３０により生成される字幕データのテキストのうちストック２５０の先頭に保存されている単語（例えば、「気温」の「温」）の合計表示時間がストック２５０に保存された全ての単語（例えば、単語「気温」から単語「。」まで）の発話にかかる合計発話時間と等しくなる時間を表示時間ｔ_ｄとして算出するようにしてもよい。
すなわち、図２Ｂに示すように、単語「気温」の発話時刻が時刻００：１０：２８．５８０で、単語「。」の発話終了時刻が時刻００：１０：３２．６７０であることから、単語「気温」から単語「。」までの発話にかかる合計発話時間は、４．０９秒である。一方、図３の右側の１段目の字幕が時刻００：１０：３１．２８２に表示され、図３の右側の６段目の字幕が時刻００：１０：３２．８８２に表示されたことから、表示時間ｔ_ｄが上記合計発話時間４．０９秒の場合、図３の右側の６段目の字幕は、時刻００：１０：３５．３７２まで表示されて消える。
そうすることで、字幕出力装置１０は、発話者の発話の速度（発話時間）に基づいて表示時間ｔ_ｄを算出することで、発話者の発話速度に応じた字幕を表示することができ、テレビ番組の視聴者にとっても見やすい字幕を表示することができる。

【0036】

＜字幕出力装置１０の字幕出力処理＞
次に、図４を参照しながら、字幕出力装置１０の字幕出力処理の流れを説明する。
図４は、字幕出力装置１０の字幕出力処理について説明するフローチャートである。ここで示すフローは、テレビ番組が続いている間、繰り返し実行される。

【0037】

ステップＳ１において、字幕生成部１３０は、音声取得部１１０により取得された音声ファイルの音声に対する音声認識部１２０による音声認識の認識結果を取得したか否かを判定する。認識結果を取得した場合、処理はステップＳ２に進む。一方、認識結果を取得しない場合、処理はステップＳ５に進む。

【0038】

ステップＳ２において、字幕生成部１３０は、ステップＳ１で取得した認識結果が無音区間か否かを判定する。認識結果が無音区間の場合、処理はステップＳ４に進む。一方、認識結果が無音区間でなく発話区間の場合、処理はステップＳ３に進む。

【0039】

ステップＳ３において、字幕生成部１３０は、認識結果を用いて発話区間の字幕出力処理を実行し、字幕データを生成して出力し、タイマー３００をリセットする。そして、処理はステップＳ１に戻る。なお、発話区間の字幕出力処理の詳細なフローについては、後述する。

【0040】

ステップＳ４において、字幕生成部１３０は、認識結果を用いて無音区間の字幕出力処理を実行し、字幕データを生成して出力し、タイマー３００をリセットする。そして、処理はステップＳ１に戻る。なお、無音区間の字幕出力処理の詳細なフローについては、後述する。

【0041】

ステップＳ５において、字幕生成部１３０は、予め設定されたテレビ番組に関する情報（例えば、テレビ番組の開始時刻及び終了時刻等）に基づいてテレビ番組の放送が終了したか否かを判定する。テレビ番組の放送が終了した場合、字幕出力装置１０は、字幕出力処理を終了する。一方、テレビ番組の放送が終了していない場合、処理はステップＳ６に進む。

【0042】

ステップＳ６において、字幕生成部１３０は、タイマー３００の値が予め設定された更新頻度ｔ（例えば、０．２秒等）となったか否かを判定する。タイマー３００の値が更新頻度ｔとなった場合、処理はステップＳ７に進む。一方、タイマー３００の値が更新頻度ｔ未満の場合、処理はステップＳ１に戻る。

【0043】

ステップＳ７において、字幕生成部１３０は、ストック２５０に保存されている認識結果の単語のテキストの字幕データを生成し出力する。

【0044】

ステップＳ８において、字幕生成部１３０は、タイマー３００をリセットする。

【0045】

図５は、図４においてステップＳ３で示した発話区間の字幕出力処理の詳細な処理内容を説明するフローチャートである。

【0046】

ステップＳ３０１において、字幕生成部１３０は、ステップＳ１で取得された認識結果の単語をストック２５０に追加して保存する。

【0047】

ステップＳ３０２において、字幕生成部１３０は、ステップＳ３０１で保存された認識結果がストック２５０の先頭に保存されたものか否かを判定する。認識結果がストック２５０の先頭に保存されたものである場合、処理はステップＳ３０３に進む。一方、認識結果がストック２５０の先頭に保存されたものでない場合、処理はステップＳ３０４に進む。

【0048】

ステップＳ３０３において、字幕生成部１３０は、タイマー３００を起動させる。

【0049】

ステップＳ３０４において、字幕生成部１３０は、ストック２５０に保存されている単語の数が１つの画面における１５文字×２行分、すなわち最大文字数３０文字を超過したか否かを判定する。単語の数が最大文字数を超過した場合、処理はステップＳ３０５に進む。一方、単語の数が最大文字数以下の場合、処理はステップＳ３０８に進む。

【0050】

ステップＳ３０５において、表示時間算出部１４０は、音声認識部１２０の認識結果に基づいて字幕生成部１３０により生成される字幕データの表示時間ｔ_ｄを算出する。

【0051】

ステップＳ３０６において、字幕生成部１３０は、ストック２５０に保存されている認識結果の単語のうち１つの画面における１５文字×２行分、すなわち最大文字数３０文字分を用いた字幕データを生成し出力する。

【0052】

ステップＳ３０７において、字幕生成部１３０は、ステップＳ３０６で生成した字幕データに用いた認識結果をストック２５０から削除し、タイマー３００をリセットする。

【0053】

ステップＳ３０８において、字幕生成部１３０は、タイマー３００の値が更新頻度ｔ（例えば、０．２秒等）となったか否かを判定する。タイマー３００の値が更新頻度ｔとなった場合、処理はステップＳ３０９に進む。一方、タイマー３００の値が更新頻度ｔ未満の場合、処理は発話区間の字幕出力処理を終了し、ステップＳ１の処理に戻る。

【0054】

ステップＳ３０９において、字幕生成部１３０は、ストック２５０に保存されている認識結果の単語のテキストの字幕データを生成し出力する。

【0055】

ステップＳ３１０において、字幕生成部１３０は、タイマー３００をリセットする。そして、字幕出力装置１０は、ステップＳ１の処理に戻る。

【0056】

図６は、図４においてステップＳ４で示した無音区間の字幕出力処理の詳細な処理内容を説明するフローチャートである。

【0057】

ステップＳ４０１において、字幕生成部１３０は、ストック２５０に認識結果が保存されているか否かを判定する。ストック２５０に認識結果が保存されている場合、処理はステップＳ４０２に進む。一方、ストック２５０に認識結果が保存されていない場合、字幕出力装置１０は、無音区間の字幕出力処理を終了し、ステップＳ１の処理に戻る。

【0058】

ステップＳ４０２において、表示時間算出部１４０は、音声認識部１２０の認識結果に基づいて字幕生成部１３０により生成される字幕データの表示時間ｔ_ｄを算出する。

【0059】

ステップＳ４０３において、字幕生成部１３０は、ストック２５０に保存されている全ての認識結果の単語のテキストの字幕データを生成し出力する。

【0060】

ステップＳ４０４において、字幕生成部１３０は、ストック２５０に保存されている全ての認識結果を削除し、タイマー３００をリセットする。そして、字幕出力装置１０は、ステップＳ１の処理に戻る。

【0061】

以上により、一実施形態に係る字幕出力装置１０は、更新頻度ｔ（例えば、０．２秒等）、１つの画面に表示可能な単語の数、又は無音区間の認識結果に基づいて、画面に表示する字幕の一部の音声認識が確定している段階で字幕を表示し、新たに認識結果が確定するたびに字幕を更新することにより、発話から字幕を表示するまでの遅延を小さくすることができる。また、字幕出力装置１０は、更新頻度ｔの値を調節することで字幕のデータ量と、発話との遅延量と、のバランスを取ることができる。

【0062】

以上、一実施形態について説明したが、字幕出力装置１０は、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。

【0063】

＜変形例１＞
一実施形態では、表示時間算出部１４０は、ストック２５０に保存された先頭の単語の合計表示時間が、字幕として表示されている全ての単語の合計発話時間と等しくなるように表示時間ｔ_ｄを算出したが、これに限定されない。例えば、表示時間算出部１４０は、１つの画面に表示される最後の単語の表示時間の下限を算出するようにしてもよい。
そうすることで、字幕出力装置１０は、字幕が表示される時間が短くなりすぎないようにすることもできる。

【0064】

＜変形例２＞
また例えば、上述の実施形態では、字幕生成部１３０は、更新頻度ｔ（例えば、０．２秒等）、１つの画面に表示可能な単語の数、又は無音区間の認識結果に基づいて字幕データを生成して映像生成装置３０に出力したが、これに限定されない。
例えば、字幕生成部１３０は、字幕データを出力するタイミングで、現在表示中の字幕がある場合、表示終了まで待ったうえで、表示終了と同時に新たな字幕データを出力するようにしてもよい。なお、この待ち時間の間に新たな認識結果が確定した場合、字幕生成部１３０は、確定した認識結果の単語を記憶部２００に追加し、次に表示する字幕データに反映させるようにしてもよい。

【0065】

＜変形例３＞
また例えば、上述の実施形態では、字幕出力装置１０は、テレビ番組の字幕を生成したが、これに限定されない。例えば、字幕出力装置１０は、映画やネット配信動画等に対しても適用することができる。

【0066】

なお、一実施形態における字幕出力装置１０に含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

【0067】

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（Ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。

【0068】

なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

【符号の説明】

【0069】

１字幕出力システム
１０字幕出力装置
１００制御部
１１０音声取得部
１２０音声認識部
１３０字幕生成部
１４０表示時間算出部
２００記憶部
２５０ストック
３００タイマー
２０音声入力装置
３０映像生成装置

【図1】