(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-25
(45)【発行日】2025-01-09
(54)【発明の名称】字幕生成装置、映像伝送装置、字幕生成方法およびプログラム
(51)【国際特許分類】
H04N 21/233 20110101AFI20241226BHJP
【FI】
H04N21/233
(21)【出願番号】P 2023013058
(22)【出願日】2023-01-31
【審査請求日】2023-12-22
(73)【特許権者】
【識別番号】591230295
【氏名又は名称】NTTイノベーティブデバイス株式会社
(74)【代理人】
【識別番号】100083806
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】薄井 美穂子
(72)【発明者】
【氏名】渡邉 信彦
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2020-178262(JP,A)
【文献】特開2019-090917(JP,A)
【文献】特開2018-207288(JP,A)
【文献】特開2018-170001(JP,A)
【文献】特開2018-045193(JP,A)
【文献】特開2008-148121(JP,A)
【文献】米国特許出願公開第2018/0174587(US,A1)
【文献】米国特許出願公開第2019/0104259(US,A1)
【文献】田中 壮,NHKプラス 生字幕同期システムの開発,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2022年01月20日,Vol.121 No.357,pp.30-35
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
音声を含む映像データを所定の長さのファイルに分割する分割部と、
分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部と、
前記音声区間の音声を認識用データとして生成するデータ生成部と、
前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部と、を有し、
前記データ生成部は、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する
字幕生成装置。
【請求項2】
前記データ生成部は、ファイルの最後に前記区切れが検出されない場合、当該ファイルの最後に検出された音声区間は、分断されており、次のファイルに跨ると判定する
請求項1に記載の字幕生成装置。
【請求項3】
前記テキストデータを字幕として表示させるための字幕設定ファイルを、前記ファイル毎に生成する字幕設定部を有する
請求項1に記載の字幕生成装置。
【請求項4】
前記字幕設定部は、前記データ生成部が複数のファイルの音声を結合して認識用データを生成した場合、前記認識用データから変換されたテキストデータを分割して、前記複数のファイルのそれぞれの字幕設定ファイルを生成する
請求項3に記載の字幕生成装置。
【請求項5】
前記分割部は、映像データを、5秒以上15秒以下の長さのファイルに分割する
請求項1に記載の字幕生成装置。
【請求項6】
前記映像データは、HLS(HTTP Live Streaming)に従ったデータである
請求項1に記載の字幕生成装置。
【請求項7】
前記音声認識部は、音声認識AIエンジンを用いて、前記認識用データの音声をテキストデータに変換する
請求項1に記載の字幕生成装置。
【請求項8】
請求項3又は4に記載の字幕生成装置を備え、
前記分割された各ファイルを映像データとして、前記字幕設定ファイルと共に出力する
映像伝送装置。
【請求項9】
コンピュータが行う字幕生成方法であって、
音声を含む映像データを所定の長さのファイルに分割し、
分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出し、
前記音声区間の音声を認識用データとして生成し、
前記認識用データの音声を、字幕としてテキストデータに変換し、
前記認識用データの生成において、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する
字幕生成方法。
【請求項10】
請求項1から7のいずれか1項に記載の字幕生成装置として、コンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、字幕生成装置、映像伝送装置、字幕生成方法およびプログラムに関する。
【背景技術】
【0002】
インターネット等の通信回線を用いて映像や音声をリアルタイムに配信する(ストリーミング)サービスが普及してきている。その際に、音声を字幕化して表示するサービスも増加傾向にある。音声の字幕化については、映像の配信事業者から、音声認識技術を活用して音声を自動的に字幕化して表示するサービスが視聴者に提供されている場合もある。
【0003】
特許文献1、2には、テレビにおける字幕に関する技術が記載されている。特許文献1では、字幕テキストを容易に修正する技術が開示されている。特許文献2では、音声認識時の表現のバリエーションに対応した言語モデルを構築する技術が開示されている。
【0004】
特許文献3、4には、ストリーミングにおける字幕に関する技術が記載されている。特許文献3では、番組内容に対する字幕の遅延を抑制する技術が開示されている。特許文献4では、音声状態を分析し作成した音声基準情報に基づいて字幕テキストを生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2022-073807号公報
【文献】特開2016-024325号公報
【文献】特開2020-027984号公報
【文献】特開2019-213198号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
字幕サービスでは、一般的に、人が発する音声に続いて順次、字幕が表示される。日本語の場合、漢字、ひらがな、カタカナなどが混在して表示される。映像データに字幕を付与する場合、映像の内容に適した字幕の表示が要求される。
【0007】
しかしながら、時として、映像の内容に適さない字幕が表示されてしまう場合がある。例えば、漢字に変換する際に、同音の異なる意味の漢字に誤変換されてしまう場合がある。
【0008】
本開示は上記の課題に鑑みてなされたものであって、本開示は、映像データの音声から適切な字幕を生成する技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本開示の一態様は、字幕生成装置であって、音声を含む映像データを所定の長さのファイルに分割する分割部と、分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部と、前記音声区間の音声を認識用データとして生成するデータ生成部と、前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部と、を有し、前記データ生成部は、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する。
【0010】
本開示の一態様は、コンピュータが行う字幕生成方法であって、音声を含む映像データを所定の長さのファイルに分割し、分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出し、前記音声区間の音声を認識用データとして生成し、前記認識用データの音声を、字幕としてテキストデータに変換し、前記認識用データの生成において、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する。
【0011】
本開示の一態様は、上記字幕生成装置として、コンピュータを機能させるプログラムである。
【発明の効果】
【0012】
本開示によれば、映像データの音声から適切な字幕を生成する技術を提供することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本実施形態に係る映像伝送の概要を示すイメージ図である。
【
図2】
図2は、本実施形態の映像伝送装置の構成例を示す図である。
【
図3】
図3は、映像伝送装置の各部が出力するデータのイメージ図である。
【
図4】
図4は、映像伝送装置の字幕生成処理を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本開示の実施形態を、図面を用いて説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【0015】
図1は、本実施形態に係る映像伝送装置(字幕生成装置)を用いた映像伝送のイメージ図である。ここでは、映像伝送装置が映像データ(例えば動画コンテンツなど)の字幕を生成する手順の概要を説明する。
【0016】
映像(ビデオ)と音(オーディオ)とを含む映像データが、カメラ、サーバ等の装置または蓄積媒体から、映像伝送装置1に供給される。なお、映像伝送装置1に供給される映像データには、字幕は含まれていない。
【0017】
ここで、音には、人間が発する音声と、音声以外の音(例えば音楽等)が含まれる。本実施形態の音声は、人が発する音(声)を意味し、その以外の音は含まれない。また、本明細書では、「発話」という用語は、音声と同義である。
【0018】
映像伝送装置1は、供給された映像データに基づいて字幕設定ファイルと、プレイリストとを生成する。そして、映像伝送装置1は、入力された映像データとともに、生成した字幕設定ファイルとプレイリストとを、配信サーバ2などにアップロードする。
【0019】
配信サーバ2は、ユーザ(視聴者)の要求に応じて、ユーザのPC、スマートフォン等の再生装置3に、映像データ、字幕設定ファイルおよびプレイリストを配信する。字幕設定ファイルは、映像データのどの時刻(例えば再生開始からの時間)に、どの字幕を表示するかを指定するファイルである。本実施形態では配信サーバ2は、再生装置3にストリーミング配信する。ユーザは、再生装置3のブラウザなどを用いて、ストリーミング配信された映像データを字幕と共に再生する。
【0020】
なお、映像伝送装置1は、物理的な装置として実装することができ、あるいはクラウド上にソフトウェアとして構成することも可能である。
【0021】
次に、
図1に示す映像伝送装置1の動作概要を説明する。
【0022】
映像伝送装置1は、ストリームデータとして入力された映像データを、順次、所定の長さに分割し、分割したファイルを生成する(S1)。
【0023】
映像データの分割は、例えば、HLS(HTTP Live Streaming)に基づく動画配信サービスを使用することで実施できる。HLSは、HTTPプロトコルに準拠したストリーミング方式のネットワーク配信サービスであって、広く利用されている。HLSによるデータ分割は、例えばトランスコーダなどの装置にその分割機能が搭載されている。本実施形態では、映像データとして、HLSに従ったデータを用いる。
【0024】
HLSでは、TS(Transport Stream)形式の映像データを、複数のセグメントファイル(以下、TSファイル) に分割して伝送する。なお、TSファイルは、MPEG2-TSセグメントファイル、セグメント、或いはTSチャンクファイルとも称する。
【0025】
なお、映像データを分割する際の所定の長さは、任意に指定できるものとする。具体的には、各TSファイルの時間幅(分割幅)は任意の値としてもよい。後述するが、このTSファイルの時間幅は、検証の結果、10秒程度とした場合に字幕の精度が最も向上した。
【0026】
映像伝送装置1は、TSファイルの再生順、再生時間、コンテンツのバリエーション等が設定されたプレイリストを生成する。プレイリストは、インデックスファイル、m3u8ファイルとも称される。プレイリストは、TSファイルとともに配信サーバ2に伝送される。
【0027】
なお、本実施形態では、HLS方式を利用する場合を例として説明するが、本開示はHLS方式に限定されない。入力される映像データを所定の長さのファイルに分割できれば、その他の方式を利用してもよい。例えば、TSデータではなく、mp4データを分割するMPEG-DASH、CMAF(Common Media Application Format)の方式を利用してもよい。
【0028】
映像伝送装置1は、分割された各TSファイルについて、音声認識するための認識用データを、順次、生成する(S2)。特に、一連の音声が複数のTSファイルに跨る場合、関連する音声を結合して一塊の音声として認識用データを生成する。
【0029】
映像伝送装置1は、生成された認識用データを音声認識して、映像とともに表示する字幕(字幕用表示)を生成する(S3)。音声認識としては、音声認識AIエンジンを使用することが好ましい。
【0030】
映像伝送装置1は、音声認識で生成した字幕(テキストデータ)を映像に表示(付加)するための字幕設定ファイルを生成する(S4)。字幕設定ファイルは、映像のどの時刻または、時間帯に、どの字幕を表示するかを指定するファイルである。なお、映像伝送装置1は、字幕設定ファイルを生成する際に、プレイリストも更新する。
【0031】
以上の処理によって、映像伝送装置1は、入力された映像データを分割したファイルと、生成した字幕設定ファイル及びプレイリストとを、配信サーバ2に出力する。
【0032】
図2は、
図1に示す映像伝送装置1の構成を示すブロック図である。
図3は、映像伝送装置1の各部が出力するデータのイメージを示す図である。
【0033】
図示する映像伝送装置1は、分割部11と、音声抽出部12と、検出部13と、データ生成部14と、音声認識部15と、字幕設定部16と、プレイリスト作成部17と、プレイリスト更新部18とを含む。なお、各部11~18は、プログラムなどのソフトウェアで実装されていてもよく、あるいは回路などのハードウェアで実装されていてもよい。
【0034】
分割部11は、音声を含む映像データを所定の長さのファイルに分割する。具体的には、分割部11は、映像伝送装置1に入力されたTSデータ(映像データ)を、順次、所定の長さのデータに分割して、TSファイル(TSファイル1、TSファイル2・・・)を生成する。所定の長さは、映像データを再生する時間幅に対応するデータ量を意味し、具体的には、TSファイルのデータを再生した場合の時間幅(分割幅)を指す。
【0035】
なお、分割部11は、TSデータを、10秒程度の長さのTSファイルに順次、分割することが好ましい。10秒程度の長さは、例えば、10秒-n秒以上、10秒+n秒である。例えばn=5とし、所定の長さは5秒以上15秒以下としてもよい。
【0036】
図3(a)は、カメラ、蓄積データ等から分割部11に入力されるTSデータを示す。
図3(b)は、分割部11から出力されるTSファイルを示す。分割部11は、入力されたTSデータをリアルタイムに分割してTSファイルを生成するだけでなく、入力されたTSデータを一旦、バッファメモリに蓄積した後に、高速に分割処理してもよい。なお、
図3には示していないが、実際の処理では、各部11~18の処理遅延が多少発生する。ここでは説明の都合上、
図3では、処理遅延は示していない。
【0037】
音声抽出部12は、各TSファイルに含まれる音(オーディオ)から音声を抽出する。
【0038】
検出部13は、分割された各TSファイルにおいて、当該TSファイルから抽出された音声(発話)の区切れを用いて、音声区間(発話区間)を検出する。具体的には、検出部13は、音声区間の開始時刻と終了時刻とを検出する。検出部13は、音声の区切れ(brake of the voice interval)を検出する。音声の区切れは、抽出した音声において無音状態の有無に基づいて検出することができる。無音状態の条件は、期間、音量等で任意に設定可能である。また、無音状態は、汎用のアプリケーションを用いて検出することができる。
【0039】
図3(c)は、検出部13の出力例を示す。図示する例では、検出部13は、最初にTSファイル1の音声区間を検出する。検出部13は、TSファイル1の音声の区切れX(無音部分)を用いて音声区間1、音声区間2、及び音声区間3を検出する。
【0040】
TSファイル1の最後の音声区間3は、その後端において音声の区切れXが検出されない。従って、音声区間3は、次のTSファイル2に続く(次のTSファイル2に跨っている)ことが分かる。この場合、検出部13は、音声区間の途切れY(discontinuity of the voice interval)或いは音声区間の分断Y(separation of the voice interval)が検出されと判定する。
【0041】
音声の区切れXは、音声区間の前後における無音部分を示す。音声区間の途切れYは、本来連続すべき音声区間が、複数のTSファイルに分断されたことを示す。なお、音声の区切れXは、音声区間の区切れと称する場合があり、また、音声区間の途切れYは、音声の途切れと称する場合もある。
【0042】
続いて、検出部13は、TSファイル2の音声区間を検出する。検出部13は、音声の区切れXを用いて、音声区間3及び音声区間4を検出する。ここで、検出部13は、TSファイル1の音声区間3は分断されたと判定したため、TSファイル2で最初に検出された音声区間3は、直前のTSファイル1の最後の音声区間3に連続する音声区間であると判定する。そのため、検出部13は、TSファイル2で最初に検出された音声区間と、TSファイル1の最後の音声区間3とを関連付ける。例えば、検出部13は、TSファイル2で最初に検出された音声区間に、TSファイル1の最後の音声区間3と同じ識別子を付与するなどする。
【0043】
TSファイル2の最後に検出された音声区間4は、その後端において音声の区切れXが検出されている。そのため、検出部13は、音声区間4は、分断されることなくTSファイル2で完結していると判定する。
【0044】
続いて、検出部13は、TSファイル3の音声区間を検出する。直前のTSファイル2で最後の音声区間4は完結しているため、検出部13は、最初の音声区間5は、当該TSファイル3で開始された音声区間である判定する。そして、最初で最後の音声区間5の後端において、音声の区切れXが検出されないため、検出部13は、音声区間の途切れYが発生し、音声区間5は分断されたと判定する。
【0045】
そして、検出部13は、TSファイル4の音声区間を検出する。直前のTSファイル3で音声区間5は分断されたと判定したため、検出部13は、TSファイル4の最初に検出された音声区間5は、TSファイル3の音声区間5に連続する音声区間と判定する。
【0046】
以降のTSファイルについても、検出部13は、同様に音声区間を検出する。なお、検出部13は、各TSファイルで検出した音声区間に関する情報をデータ生成部14に出力する。音声区間に関する情報は、例えば、音声の区切れXが検出された時刻または時間帯、音声区間の開始時刻と終了時刻など時間帯、次の音声区間に跨った分断された音声区間か否かなどの情報である。
【0047】
次に、データ生成部14は、検出部13が検出した音声区間の音声を、認識用データとして生成する。データ生成部14は、音声区間が複数のTSファイルに跨る場合、複数のTSファイルの前記音声区間に対応する音声を結合して認識用データを生成する。すなわち、データ生成部14は、音声認識で処理しやすい認識用データを生成する。データ生成部14は、TSファイルの最後に音声の区切れXが検出されない場合、当該TSファイルの最後に検出された音声区間は、分断されており、次のファイルに跨ると判定してもよい。
【0048】
図3(d)は、データ生成部14が出力する認識用データのイメージを示す。図示する例では、データ生成部14は、TSファイル1で検出された音声区間1および音声区間2については、TSファイル1内で完結しているため、各音声区間1,2の音声を、それぞれそのまま認識用データ1、2とする。
【0049】
TSファイル1の最後の音声区間3は分断されて、次のTSファイル2に跨っているため、データ生成部14は、TSファイル1の音声区間3の音声を、次のTSファイル2で最初に検出した音声区間3の音声と結合して認識用データ3を生成する。
【0050】
TSファイル2の音声区間4は、音声の区切れXがTSファイル2内で検出されているため、データ生成部14は、音声区間4の音声をそのまま認識用データ4とする。
【0051】
TSファイル3の音声区間5は分断されて、次のTSファイル4に跨っているため、データ生成部14は、TSファイル3の音声区間5の音声を、次のTSファイル4で最初に検出した音声区間5の音声と結合して認識用データ5を生成する。データ生成部14は生成した認識用データを、順次、音声認識部15に出力する。
【0052】
音声認識部15は、データ生成部14が生成した認識用データの音声を、音声認識して字幕としてテキストデータに変換する。本実施形態では、音声の途切れXを用いて音声区間を検出し、音声区間が分断されて複数のTSファイルに跨っている場合は、分断された音声区間を結合した認識用データを生成し、認識用データを用いて音声認識する。このように、認識用データは、音声の区切れXのない一連の発話の区間に相当する音声であるため、音声認識部15が音声認識しやすいデータである。そのため、本実施形態では、発話の分断による音声認識の誤変換を防止し、字幕の適確性をより向上することができる。
【0053】
なお、音声認識部15は、当該音声認識部15内に備える音声認識エンジンを使用して音声認識してもよく、あるいは、外部の音声認識エンジン4(例えばGoogle等の音声認識AIエンジン)を用いて音声認識してもよい。また、音声認識部15は、音声認識エンジンとして音声認識AIエンジンを用いて、認識用データの音声をテキストデータに変換することが好ましい。AI(artificial intelligence)を用いることで、従来の音声認識に比べてより高精度な字幕に変換することができる。
【0054】
図3(e)は、音声認識部15が変換した字幕のイメージを示す。
図3(e)では、認識用データ1~5の音声をそれぞれ音声認識した結果を、字幕1~5と記載した。
【0055】
字幕設定部16は、音声認識部15が変換したテキストデータを字幕として表示させるためのWebVTTファイル(字幕設定ファイル)を、TSファイル毎に生成する。WebVTTファイルは、表示したい字幕と、当該字幕の表示時間とが含まれる。字幕設定部16は、データ生成部14が複数のTSファイルの音声を結合して認識用データを生成した場合、前記認識用データから変換されたテキストデータを分割して、複数のTSファイルのそれぞれの字幕設定ファイルを生成してもよい。
【0056】
図3(f)は、字幕設定部16が生成するWebVTTファイルのイメージを示す。TSファイル1については、字幕設定部16は、字幕1、字幕2及び字幕3-1を、音声区間1、音声区間2及びTSファイル1音声区間3にそれぞれ対応して表示されるようにWebVTTファイル1を生成する。字幕3-1は、認識用データ3から変換された字幕3のうち、TSファイル1の音声区間3に相当する部分の字幕である。
【0057】
TSファイル2については、字幕設定部16は、字幕3―2及び字幕4を、TSファイル2の音声区間3、及び音声区間4にそれぞれ対応して表示されるようにWebVTTファイル2を生成する。字幕3―2は、認識用データ3から変換された字幕3のうち、TSファイル2の音声区間3に相当する部分の字幕である。
【0058】
TSファイル3については、字幕設定部16は、字幕5―1をTSファイル3の音声区間5に対応して表示されるようにWebVTTファイル3を生成する。字幕5-1は、字幕5の中のTSファイル3の音声区間5に相当する字幕である。
【0059】
TSファイル4については、字幕設定部16は、字幕5―2をTSファイル4の音声区間5 に対応して表示されるようにWebVTTファイル4を生成する。字幕5-2は、認識用データ5から変換された字幕5のうち、TSファイル4の音声区間5に相当する部分の字幕である。
【0060】
プレイリスト生成部17は、分割部11でTSデータを複数のTSファイルに分割する際に、プレイリストを作成する。プレイリストには、分割されたTSファイルの再生順、コンテンツのバリエーション等が設定される。プレイリスト更新部18は、字幕設定部16がWebVTTファイルを生成すると、WebVTTファイルに含まれる字幕に関する情報をプレイリストに設定して、プレイリストを更新する。
【0061】
上述した映像伝送装置1において、実際には、音声抽出部12から字幕設定部16までの動作は、TSファイル毎に行われる。即ち、TSファイル1が入力された場合、検出部13は、音声区間1~3を検出し、データ生成部14は、音声区間1から認識用データ1を生成し、音声区間2から認識用データ2を生成する。データ生成部14は、音声区間3の認識用データについては、次のTSファイル2の処理に持ち越す。
【0062】
続いて、音声認識部15は、認識用データ1から字幕1を生成し、認識用データ2から字幕2を生成する。字幕設定部16は、字幕1、2の字幕に関する情報を用いてWebVTTファイル1を生成する。
【0063】
TSファイル2についても、TSファイル1に続いて同様の処理が行われる。特に、TSファイル1から持ち越された音声区間3は、TSファイル2で最初に検出した音声区間3と結合され、認識用データ3が生成される。認識用データ3は、音声認識部15で字幕3に変換され、字幕3の字幕に関する情報は、WebVTTファイル1及びWebVTTファイル2に分割して設定される。
【0064】
この時点で、WebVTTファイル1は完成したため、TSファイル1と共に、映像伝送装置1から出力される。なお、TSファイル1は、分割部11から出力され、WebVTTファイル1は字幕設定部16から出力される。
【0065】
このように、映像伝送装置1からは、各TSファイルと対応するWebVTTファイルが、順次出力される。従って、映像伝送装置1から、TSファイルが出力される度に、当該TSファイルの存在を記したプレイリストも、WebVTTファイルと共に、プレイリスト更新部18から出力される。
【0066】
なお、分割部11、字幕設定部16およびプレイリスト更新部18は、TSファイルの出力と、WebVTTファイルおよびプレイリストの出力とが同期するように、連携するものとする。
【0067】
図4は、本実施形態の映像伝送装置1の処理を示すフローチャートである。ここでは、映像伝送装置1がWebVTTファイル(字幕設定ファイル)を生成するまでの処理を示している。
【0068】
分割部11は、音声を含むTSデータ(映像データ)を所定の長さに分割し、分割したデータのTSファイルを順次出力する(S11)。映像伝送装置1は、以降の処理(S12~S23)を、TSファイル毎に行う。なお、処理対象のTSファイルを、ここではTSファイルnとする。
【0069】
音声抽出部12は、分割したTSファイルnから音声を抽出する(S12)。
【0070】
検出部13は、音声抽出部12が抽出した音声から、音声の区切れXを用いて音声区間を検出する(S13)。具体的には、検出部13は、S12で抽出した音声について、無音部分を検出することで音声の区切れXを検出し、音声区間を特定する。ここで、音声区間の後端で音声の区切れXが検出されない場合、検出部13は、当該音声区間は次のTSファイルn+1に跨る、分断された音声区間であると判定する。即ち、検出部13は、音声区間に途切れYが発生したと判定する。検出部13は検出した各音声区間に関する情報をデータ生成部14に送出する。
【0071】
データ生成部14は、音声区間に関する情報を用いて、直前のTSファイルn-1で分断された(持越しされた)音声区間があるか否かを判定する(S14)。分断された音声区間がない場合(S14:NO)、データ生成部14は、当該TSファイルnにおいて、後ろに音声の区切れXのある音声区間の音声を認識用データとして生成し、音声認識部15に順次出力する(S15)。
【0072】
後ろに音声の区切れXのない、分断された音声区間が存在しない場合(S16:NO)、S19に進む。一方、分断された音声区間が存在する場合(S16:YES)、データ生成部14は、当該分断された音声区間の音声を、次のTSファイルn+1に持ち越すために図示しない記憶部に記憶する(S17)。
【0073】
また、直前のTSファイルn-1で分断された(持越しされた)音声区間がある場合(S14:YES)、データ生成部14は、当該TSファイルnの最初の音声区間の音声に、直前のTSファイルn-1から持ち越した音声区間の音声を結合する(S18)。そして、データ生成部14は、S15に進む。S15~S17については前述の通りである。
【0074】
音声認識部15は、データ生成部14が出力した各認識用データの音声を音声認識して、認識用データ毎にテキストデータに変換する(S19)。
【0075】
字幕設定部16は、変換したテキストデータを字幕として表示させるためのWebVTTファイル(字幕設定ファイル)を生成する(S20)。ここで、生成されるWebVTTファイルは、TSファイル1用のWebVTTファイルである。字幕設定部16は、WebVTTファイルに表示したい字幕(テキストテータ)と、当該字幕を表示する表示時間とを設定する。表示時間は、検出部13が検出した音声区間に関する情報などから取得(算出)することができる。
【0076】
なお、字幕設定部16は、データ生成部14が複数のTSファイルの音声区間を結合して認識用データを生成した場合(S18)、認識用データから変換されたテキストデータのうち、当該TSファイルnの音声区間に対応する部分のテキストデータを抽出して、WebVTTファイルを生成する。
【0077】
そして、字幕設定部16は、生成したWebVTTファイルを、対応するTSファイルnと共に出力する。
【0078】
次のTSファイルn+1がある場合は(S21:YES)、映像伝送装置1は、S12に戻り以降の処理を繰り返し行う。次のTSファイルn+1がない場合は(S21:NO)、映像伝送装置1は、
図4に示す処理を終了する。本実施形態では、
図4のS12~S20の処理をTSファイル毎に順次に行うため、映像伝送装置1の処理遅延を低減することができる。
【0079】
以上説明したように、本実施形態の映像伝送装置1(字幕生成装置)は、音声を含むTSファイル(映像データ)を所定の長さのTSファイルに分割する分割部11と、分割された各TSファイルにおいて、当該TSファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部13と、前記音声区間の音声を認識用データとして生成するデータ生成部14と、前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部15と、を有し、前記データ生成部14は、前記音声区間が複数のTSファイルに跨る場合、前記複数のTSファイルの前記音声区間に対応する音声を結合して認識用データを生成する。
【0080】
このように本実施形態では、映像データを複数のTSファイルに分割し、各TSファイルにおいて複数のTSファイルに跨る分断された音声区間を検出した場合、分断された複数の音声区間を結合して音声認識が行い易い認識用データを生成する。これにより、本実施形態では、発話の分断による誤変換を防ぐことができ、字幕の適確性を向上できる。
【0081】
音声認識にAIエンジンを使用することで、より高精度な字幕に変換することができる。
【0082】
また、映像データを分割する時間単位を10秒程度(例えば5秒以上15秒以下)とした。10秒程度より大きいと映像配信までの遅延が増加し、10秒程度より小さいと字幕の精度が低下した。検証の結果、5秒以上15秒以下が好ましいことが分かった。
【0083】
上記説明した映像伝送装置1は、例えば、
図5に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える。メモリ902およびストレージ903は、記憶装置である。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、映像伝送装置1の機能が実現される。
【0084】
映像伝送装置1は、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、映像伝送装置1は、コンピュータに実装される仮想マシンであっても良い。映像伝送装置1のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。コンピュータ読取り可能な記録媒体は、例えば非一時的な(non-transitory)記録媒体である。
【0085】
なお、本開示は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。上記実施形態では、映像伝送装置1が字幕生成処理を行うものとして説明したが、本開示はこれに限定されない。本開示の字幕生成処理を実施可能な装置であれば、映像伝送装置1に限定されない。
【符号の説明】
【0086】
1 :映像伝送装置(字幕生成装置)
11:分割部
12:音声抽出部
13:検出部
14:データ生成部
15;音声認識部
16:字幕設定部
17:プレイリスト生成部
18:プレイリスト更新部
2 :配信サーバ
3 :再生装置
4 :音声認識AIエンジン