特開2024-108613 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＴＴエレクトロニクス株式会社の特許一覧

特開2024-108613字幕生成装置、映像伝送装置、字幕生成方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024108613

(43)【公開日】2024-08-13

(54)【発明の名称】字幕生成装置、映像伝送装置、字幕生成方法およびプログラム

(51)【国際特許分類】

H04N 21/233 20110101AFI20240805BHJP

【ＦＩ】

H04N21/233

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023013058

(22)【出願日】2023-01-31

(71)【出願人】

【識別番号】591230295

【氏名又は名称】ＮＴＴイノベーティブデバイス株式会社

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100101247

【弁理士】

【氏名又は名称】高橋俊一

(74)【代理人】

【識別番号】100095500

【弁理士】

【氏名又は名称】伊藤正和

(74)【代理人】

【識別番号】100098327

【弁理士】

【氏名又は名称】高松俊雄

(72)【発明者】

【氏名】薄井美穂子

(72)【発明者】

【氏名】渡邉信彦

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164MA06S

5C164PA44

5C164SB04P

5C164SB08S

(57)【要約】

【課題】映像データの音声から適切な字幕を生成する。
【解決手段】字幕生成装置１であって、音声を含む映像データを所定の長さのファイルに分割する分割部１１と、分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部１３と、前記音声区間の音声を認識用データとして生成するデータ生成部１４と、前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部１５と、を有し、前記データ生成部１４は、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

音声を含む映像データを所定の長さのファイルに分割する分割部と、
分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部と、
前記音声区間の音声を認識用データとして生成するデータ生成部と、
前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部と、を有し、
前記データ生成部は、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する
字幕生成装置。

【請求項2】

前記データ生成部は、ファイルの最後に前記区切れが検出されない場合、当該ファイルの最後に検出された音声区間は、分断されており、次のファイルに跨ると判定する
請求項１に記載の字幕生成装置。

【請求項3】

前記テキストデータを字幕として表示させるための字幕設定ファイルを、前記ファイル毎に生成する字幕設定部を有する
請求項１に記載の字幕生成装置。

【請求項4】

前記字幕設定部は、前記データ生成部が複数のファイルの音声を結合して認識用データを生成した場合、前記認識用データから変換されたテキストデータを分割して、前記複数のファイルのそれぞれの字幕設定ファイルを生成する
請求項３に記載の字幕生成装置。

【請求項5】

前記分割部は、映像データを、５秒以上１５秒以下の長さのファイルに分割する
請求項１に記載の字幕生成装置。

【請求項6】

前記映像データは、HLS（HTTP Live Streaming）に従ったデータである
請求項１に記載の字幕生成装置。

【請求項7】

前記音声認識部は、音声認識AIエンジンを用いて、前記認識用データの音声をテキストデータに変換する
請求項１に記載の字幕生成装置。

【請求項8】

請求項３又は４に記載の字幕生成装置を備え、
前記分割された各ファイルを映像データとして、前記字幕設定ファイルと共に出力する
映像伝送装置。

【請求項9】

コンピュータが行う字幕生成方法であって、
音声を含む映像データを所定の長さのファイルに分割し、
分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出し、
前記音声区間の音声を認識用データとして生成し、
前記認識用データの音声を、字幕としてテキストデータに変換し、
前記認識用データの生成において、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する
字幕生成方法。

【請求項10】

請求項１から７のいずれか１項に記載の字幕生成装置として、コンピュータを機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、字幕生成装置、映像伝送装置、字幕生成方法およびプログラムに関する。

【背景技術】

【0002】

インターネット等の通信回線を用いて映像や音声をリアルタイムに配信する（ストリーミング）サービスが普及してきている。その際に、音声を字幕化して表示するサービスも増加傾向にある。音声の字幕化については、映像の配信事業者から、音声認識技術を活用して音声を自動的に字幕化して表示するサービスが視聴者に提供されている場合もある。

【0003】

特許文献１、２には、テレビにおける字幕に関する技術が記載されている。特許文献１では、字幕テキストを容易に修正する技術が開示されている。特許文献２では、音声認識時の表現のバリエーションに対応した言語モデルを構築する技術が開示されている。

【0004】

特許文献３、４には、ストリーミングにおける字幕に関する技術が記載されている。特許文献３では、番組内容に対する字幕の遅延を抑制する技術が開示されている。特許文献４では、音声状態を分析し作成した音声基準情報に基づいて字幕テキストを生成する技術が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２２－０７３８０７号公報

【特許文献2】特開２０１６－０２４３２５号公報

【特許文献3】特開２０２０－０２７９８４号公報

【特許文献4】特開２０１９－２１３１９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

字幕サービスでは、一般的に、人が発する音声に続いて順次、字幕が表示される。日本語の場合、漢字、ひらがな、カタカナなどが混在して表示される。映像データに字幕を付与する場合、映像の内容に適した字幕の表示が要求される。

【0007】

しかしながら、時として、映像の内容に適さない字幕が表示されてしまう場合がある。例えば、漢字に変換する際に、同音の異なる意味の漢字に誤変換されてしまう場合がある。

【0008】

本開示は上記の課題に鑑みてなされたものであって、本開示は、映像データの音声から適切な字幕を生成する技術を提供することを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するため、本開示の一態様は、字幕生成装置であって、音声を含む映像データを所定の長さのファイルに分割する分割部と、分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部と、前記音声区間の音声を認識用データとして生成するデータ生成部と、前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部と、を有し、前記データ生成部は、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する。

【0010】

本開示の一態様は、コンピュータが行う字幕生成方法であって、音声を含む映像データを所定の長さのファイルに分割し、分割された各ファイルにおいて、当該ファイルから抽出された音声の区切れを用いて、音声区間を検出し、前記音声区間の音声を認識用データとして生成し、前記認識用データの音声を、字幕としてテキストデータに変換し、前記認識用データの生成において、前記音声区間が複数のファイルに跨る場合、前記複数のファイルの前記音声区間に対応する音声を結合して認識用データを生成する。

【0011】

本開示の一態様は、上記字幕生成装置として、コンピュータを機能させるプログラムである。

【発明の効果】

【0012】

本開示によれば、映像データの音声から適切な字幕を生成する技術を提供することができる。

【図面の簡単な説明】

【0013】

【図1】図１は、本実施形態に係る映像伝送の概要を示すイメージ図である。

【図2】図２は、本実施形態の映像伝送装置の構成例を示す図である。

【図3】図３は、映像伝送装置の各部が出力するデータのイメージ図である。

【図4】図４は、映像伝送装置の字幕生成処理を示すフローチャートである。

【図5】図５は、ハードウェア構成図である。

【発明を実施するための形態】

【0014】

以下、本開示の実施形態を、図面を用いて説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

【0015】

図１は、本実施形態に係る映像伝送装置（字幕生成装置）を用いた映像伝送のイメージ図である。ここでは、映像伝送装置が映像データ（例えば動画コンテンツなど）の字幕を生成する手順の概要を説明する。

【0016】

映像(ビデオ)と音(オーディオ)とを含む映像データが、カメラ、サーバ等の装置または蓄積媒体から、映像伝送装置１に供給される。なお、映像伝送装置１に供給される映像データには、字幕は含まれていない。

【0017】

ここで、音には、人間が発する音声と、音声以外の音（例えば音楽等）が含まれる。本実施形態の音声は、人が発する音（声）を意味し、その以外の音は含まれない。また、本明細書では、「発話」という用語は、音声と同義である。

【0018】

映像伝送装置１は、供給された映像データに基づいて字幕設定ファイルと、プレイリストとを生成する。そして、映像伝送装置１は、入力された映像データとともに、生成した字幕設定ファイルとプレイリストとを、配信サーバ２などにアップロードする。

【0019】

配信サーバ２は、ユーザ（視聴者）の要求に応じて、ユーザのPC、スマートフォン等の再生装置３に、映像データ、字幕設定ファイルおよびプレイリストを配信する。字幕設定ファイルは、映像データのどの時刻（例えば再生開始からの時間）に、どの字幕を表示するかを指定するファイルである。本実施形態では配信サーバ２は、再生装置３にストリーミング配信する。ユーザは、再生装置３のブラウザなどを用いて、ストリーミング配信された映像データを字幕と共に再生する。

【0020】

なお、映像伝送装置１は、物理的な装置として実装することができ、あるいはクラウド上にソフトウェアとして構成することも可能である。

【0021】

次に、図１に示す映像伝送装置１の動作概要を説明する。

【0022】

映像伝送装置１は、ストリームデータとして入力された映像データを、順次、所定の長さに分割し、分割したファイルを生成する（Ｓ１）。

【0023】

映像データの分割は、例えば、HLS（HTTP Live Streaming）に基づく動画配信サービスを使用することで実施できる。HLSは、HTTPプロトコルに準拠したストリーミング方式のネットワーク配信サービスであって、広く利用されている。HLSによるデータ分割は、例えばトランスコーダなどの装置にその分割機能が搭載されている。本実施形態では、映像データとして、HLSに従ったデータを用いる。

【0024】

HLSでは、TS(Transport Stream)形式の映像データを、複数のセグメントファイル(以下、TSファイル) に分割して伝送する。なお、TSファイルは、MPEG２-TSセグメントファイル、セグメント、或いはTSチャンクファイルとも称する。

【0025】

なお、映像データを分割する際の所定の長さは、任意に指定できるものとする。具体的には、各TSファイルの時間幅（分割幅）は任意の値としてもよい。後述するが、このTSファイルの時間幅は、検証の結果、１０秒程度とした場合に字幕の精度が最も向上した。

【0026】

映像伝送装置１は、TSファイルの再生順、再生時間、コンテンツのバリエーション等が設定されたプレイリストを生成する。プレイリストは、インデックスファイル、m3u8ファイルとも称される。プレイリストは、TSファイルとともに配信サーバ２に伝送される。

【0027】

なお、本実施形態では、HLS方式を利用する場合を例として説明するが、本開示はHLS方式に限定されない。入力される映像データを所定の長さのファイルに分割できれば、その他の方式を利用してもよい。例えば、TSデータではなく、mp4データを分割するMPEG-DASH、CMAF(Common Media Application Format）の方式を利用してもよい。

【0028】

映像伝送装置１は、分割された各TSファイルについて、音声認識するための認識用データを、順次、生成する（Ｓ２）。特に、一連の音声が複数のTSファイルに跨る場合、関連する音声を結合して一塊の音声として認識用データを生成する。

【0029】

映像伝送装置１は、生成された認識用データを音声認識して、映像とともに表示する字幕（字幕用表示）を生成する（Ｓ３）。音声認識としては、音声認識AIエンジンを使用することが好ましい。

【0030】

映像伝送装置１は、音声認識で生成した字幕（テキストデータ）を映像に表示（付加）するための字幕設定ファイルを生成する（Ｓ４）。字幕設定ファイルは、映像のどの時刻または、時間帯に、どの字幕を表示するかを指定するファイルである。なお、映像伝送装置１は、字幕設定ファイルを生成する際に、プレイリストも更新する。

【0031】

以上の処理によって、映像伝送装置１は、入力された映像データを分割したファイルと、生成した字幕設定ファイル及びプレイリストとを、配信サーバ２に出力する。

【0032】

図２は、図１に示す映像伝送装置１の構成を示すブロック図である。図３は、映像伝送装置１の各部が出力するデータのイメージを示す図である。

【0033】

図示する映像伝送装置１は、分割部１１と、音声抽出部１２と、検出部１３と、データ生成部１４と、音声認識部１５と、字幕設定部１６と、プレイリスト作成部１７と、プレイリスト更新部１８とを含む。なお、各部１１～１８は、プログラムなどのソフトウェアで実装されていてもよく、あるいは回路などのハードウェアで実装されていてもよい。

【0034】

分割部１１は、音声を含む映像データを所定の長さのファイルに分割する。具体的には、分割部１１は、映像伝送装置１に入力されたTSデータ（映像データ）を、順次、所定の長さのデータに分割して、TSファイル(TSファイル１、TSファイル２・・・)を生成する。所定の長さは、映像データを再生する時間幅に対応するデータ量を意味し、具体的には、TSファイルのデータを再生した場合の時間幅（分割幅）を指す。

【0035】

なお、分割部１１は、TSデータを、１０秒程度の長さのTSファイルに順次、分割することが好ましい。１０秒程度の長さは、例えば、１０秒－ｎ秒以上、１０秒＋ｎ秒である。例えばｎ＝５とし、所定の長さは５秒以上１５秒以下としてもよい。

【0036】

図３(a)は、カメラ、蓄積データ等から分割部１１に入力されるTSデータを示す。図３(ｂ)は、分割部１１から出力されるTSファイルを示す。分割部１１は、入力されたTSデータをリアルタイムに分割してTSファイルを生成するだけでなく、入力されたTSデータを一旦、バッファメモリに蓄積した後に、高速に分割処理してもよい。なお、図３には示していないが、実際の処理では、各部１１～１８の処理遅延が多少発生する。ここでは説明の都合上、図３では、処理遅延は示していない。

【0037】

音声抽出部１２は、各TSファイルに含まれる音(オーディオ)から音声を抽出する。

【0038】

検出部１３は、分割された各TSファイルにおいて、当該TSファイルから抽出された音声（発話）の区切れを用いて、音声区間（発話区間）を検出する。具体的には、検出部１３は、音声区間の開始時刻と終了時刻とを検出する。検出部１３は、音声の区切れ(brake of the voice interval)を検出する。音声の区切れは、抽出した音声において無音状態の有無に基づいて検出することができる。無音状態の条件は、期間、音量等で任意に設定可能である。また、無音状態は、汎用のアプリケーションを用いて検出することができる。

【0039】

図３(c)は、検出部１３の出力例を示す。図示する例では、検出部１３は、最初にTSファイル１の音声区間を検出する。検出部１３は、TSファイル１の音声の区切れＸ（無音部分）を用いて音声区間１、音声区間２、及び音声区間３を検出する。

【0040】

TSファイル１の最後の音声区間３は、その後端において音声の区切れＸが検出されない。従って、音声区間３は、次のTSファイル２に続く（次のTSファイル２に跨っている）ことが分かる。この場合、検出部１３は、音声区間の途切れＹ(discontinuity of the voice interval)或いは音声区間の分断Ｙ(separation of the voice interval)が検出されと判定する。

【0041】

音声の区切れＸは、音声区間の前後における無音部分を示す。音声区間の途切れＹは、本来連続すべき音声区間が、複数のTSファイルに分断されたことを示す。なお、音声の区切れＸは、音声区間の区切れと称する場合があり、また、音声区間の途切れＹは、音声の途切れと称する場合もある。

【0042】

続いて、検出部１３は、TSファイル２の音声区間を検出する。検出部１３は、音声の区切れＸを用いて、音声区間３及び音声区間４を検出する。ここで、検出部１３は、TSファイル１の音声区間３は分断されたと判定したため、TSファイル２で最初に検出された音声区間３は、直前のTSファイル１の最後の音声区間３に連続する音声区間であると判定する。そのため、検出部１３は、TSファイル２で最初に検出された音声区間と、TSファイル１の最後の音声区間３とを関連付ける。例えば、検出部１３は、TSファイル２で最初に検出された音声区間に、TSファイル１の最後の音声区間３と同じ識別子を付与するなどする。

【0043】

TSファイル２の最後に検出された音声区間４は、その後端において音声の区切れＸが検出されている。そのため、検出部１３は、音声区間４は、分断されることなくTSファイル２で完結していると判定する。

【0044】

続いて、検出部１３は、TSファイル３の音声区間を検出する。直前のTSファイル２で最後の音声区間４は完結しているため、検出部１３は、最初の音声区間５は、当該TSファイル３で開始された音声区間である判定する。そして、最初で最後の音声区間５の後端において、音声の区切れＸが検出されないため、検出部１３は、音声区間の途切れＹが発生し、音声区間５は分断されたと判定する。

【0045】

そして、検出部１３は、TSファイル４の音声区間を検出する。直前のTSファイル３で音声区間５は分断されたと判定したため、検出部１３は、TSファイル４の最初に検出された音声区間５は、TSファイル３の音声区間５に連続する音声区間と判定する。

【0046】

以降のTSファイルについても、検出部１３は、同様に音声区間を検出する。なお、検出部１３は、各TSファイルで検出した音声区間に関する情報をデータ生成部１４に出力する。音声区間に関する情報は、例えば、音声の区切れＸが検出された時刻または時間帯、音声区間の開始時刻と終了時刻など時間帯、次の音声区間に跨った分断された音声区間か否かなどの情報である。

【0047】

次に、データ生成部１４は、検出部１３が検出した音声区間の音声を、認識用データとして生成する。データ生成部１４は、音声区間が複数のTSファイルに跨る場合、複数のTSファイルの前記音声区間に対応する音声を結合して認識用データを生成する。すなわち、データ生成部１４は、音声認識で処理しやすい認識用データを生成する。データ生成部１４は、TSファイルの最後に音声の区切れＸが検出されない場合、当該TSファイルの最後に検出された音声区間は、分断されており、次のファイルに跨ると判定してもよい。

【0048】

図３(ｄ)は、データ生成部１４が出力する認識用データのイメージを示す。図示する例では、データ生成部１４は、TSファイル１で検出された音声区間１および音声区間２については、TSファイル１内で完結しているため、各音声区間１，２の音声を、それぞれそのまま認識用データ１、２とする。

【0049】

TSファイル１の最後の音声区間３は分断されて、次のTSファイル２に跨っているため、データ生成部１４は、TSファイル１の音声区間３の音声を、次のTSファイル２で最初に検出した音声区間３の音声と結合して認識用データ３を生成する。

【0050】

TSファイル２の音声区間４は、音声の区切れＸがTSファイル２内で検出されているため、データ生成部１４は、音声区間４の音声をそのまま認識用データ４とする。

【0051】

TSファイル３の音声区間５は分断されて、次のTSファイル４に跨っているため、データ生成部１４は、TSファイル３の音声区間５の音声を、次のTSファイル４で最初に検出した音声区間５の音声と結合して認識用データ５を生成する。データ生成部１４は生成した認識用データを、順次、音声認識部１５に出力する。

【0052】

音声認識部１５は、データ生成部１４が生成した認識用データの音声を、音声認識して字幕としてテキストデータに変換する。本実施形態では、音声の途切れＸを用いて音声区間を検出し、音声区間が分断されて複数のTSファイルに跨っている場合は、分断された音声区間を結合した認識用データを生成し、認識用データを用いて音声認識する。このように、認識用データは、音声の区切れＸのない一連の発話の区間に相当する音声であるため、音声認識部１５が音声認識しやすいデータである。そのため、本実施形態では、発話の分断による音声認識の誤変換を防止し、字幕の適確性をより向上することができる。

【0053】

なお、音声認識部１５は、当該音声認識部１５内に備える音声認識エンジンを使用して音声認識してもよく、あるいは、外部の音声認識エンジン４（例えばGoogle等の音声認識AIエンジン）を用いて音声認識してもよい。また、音声認識部１５は、音声認識エンジンとして音声認識AIエンジンを用いて、認識用データの音声をテキストデータに変換することが好ましい。AI（artificial intelligence）を用いることで、従来の音声認識に比べてより高精度な字幕に変換することができる。

【0054】

図３(ｅ)は、音声認識部１５が変換した字幕のイメージを示す。図３(ｅ)では、認識用データ１～５の音声をそれぞれ音声認識した結果を、字幕１～５と記載した。

【0055】

字幕設定部１６は、音声認識部１５が変換したテキストデータを字幕として表示させるためのWebVTTファイル（字幕設定ファイル）を、TSファイル毎に生成する。WebVTTファイルは、表示したい字幕と、当該字幕の表示時間とが含まれる。字幕設定部１６は、データ生成部１４が複数のTSファイルの音声を結合して認識用データを生成した場合、前記認識用データから変換されたテキストデータを分割して、複数のTSファイルのそれぞれの字幕設定ファイルを生成してもよい。

【0056】

図３(ｆ)は、字幕設定部１６が生成するWebVTTファイルのイメージを示す。TSファイル１については、字幕設定部１６は、字幕１、字幕２及び字幕３－１を、音声区間１、音声区間２及びTSファイル１音声区間３にそれぞれ対応して表示されるようにWebVTTファイル１を生成する。字幕３－１は、認識用データ３から変換された字幕３のうち、TSファイル１の音声区間３に相当する部分の字幕である。

【0057】

TSファイル２については、字幕設定部１６は、字幕３―２及び字幕４を、TSファイル２の音声区間３、及び音声区間４にそれぞれ対応して表示されるようにWebVTTファイル２を生成する。字幕３―２は、認識用データ３から変換された字幕３のうち、TSファイル２の音声区間３に相当する部分の字幕である。

【0058】

TSファイル３については、字幕設定部１６は、字幕５―１をTSファイル３の音声区間５に対応して表示されるようにWebVTTファイル３を生成する。字幕５－１は、字幕５の中のTSファイル３の音声区間５に相当する字幕である。

【0059】

TSファイル４については、字幕設定部１６は、字幕５―２をTSファイル４の音声区間５に対応して表示されるようにWebVTTファイル４を生成する。字幕５－２は、認識用データ５から変換された字幕５のうち、TSファイル４の音声区間５に相当する部分の字幕である。

【0060】

プレイリスト生成部１７は、分割部１１でTSデータを複数のTSファイルに分割する際に、プレイリストを作成する。プレイリストには、分割されたTSファイルの再生順、コンテンツのバリエーション等が設定される。プレイリスト更新部１８は、字幕設定部１６がWebVTTファイルを生成すると、WebVTTファイルに含まれる字幕に関する情報をプレイリストに設定して、プレイリストを更新する。

【0061】

上述した映像伝送装置１において、実際には、音声抽出部１２から字幕設定部１６までの動作は、TSファイル毎に行われる。即ち、TSファイル１が入力された場合、検出部１３は、音声区間１～３を検出し、データ生成部１４は、音声区間１から認識用データ１を生成し、音声区間２から認識用データ２を生成する。データ生成部１４は、音声区間３の認識用データについては、次のTSファイル２の処理に持ち越す。

【0062】

続いて、音声認識部１５は、認識用データ１から字幕１を生成し、認識用データ２から字幕２を生成する。字幕設定部１６は、字幕１、２の字幕に関する情報を用いてWebVTTファイル１を生成する。

【0063】

TSファイル２についても、TSファイル１に続いて同様の処理が行われる。特に、TSファイル１から持ち越された音声区間３は、TSファイル２で最初に検出した音声区間３と結合され、認識用データ３が生成される。認識用データ３は、音声認識部１５で字幕３に変換され、字幕３の字幕に関する情報は、WebVTTファイル１及びWebVTTファイル２に分割して設定される。

【0064】

この時点で、WebVTTファイル１は完成したため、TSファイル１と共に、映像伝送装置１から出力される。なお、TSファイル１は、分割部１１から出力され、WebVTTファイル１は字幕設定部１６から出力される。

【0065】

このように、映像伝送装置１からは、各TSファイルと対応するWebVTTファイルが、順次出力される。従って、映像伝送装置１から、TSファイルが出力される度に、当該TSファイルの存在を記したプレイリストも、WebVTTファイルと共に、プレイリスト更新部１８から出力される。

【0066】

なお、分割部１１、字幕設定部１６およびプレイリスト更新部１８は、TSファイルの出力と、WebVTTファイルおよびプレイリストの出力とが同期するように、連携するものとする。

【0067】

図４は、本実施形態の映像伝送装置１の処理を示すフローチャートである。ここでは、映像伝送装置１がWebVTTファイル（字幕設定ファイル）を生成するまでの処理を示している。

【0068】

分割部１１は、音声を含むTSデータ（映像データ）を所定の長さに分割し、分割したデータのTSファイルを順次出力する（Ｓ１１）。映像伝送装置１は、以降の処理（Ｓ１２～Ｓ２３）を、TSファイル毎に行う。なお、処理対象のTSファイルを、ここではTSファイルｎとする。

【0069】

音声抽出部１２は、分割したTSファイルｎから音声を抽出する（Ｓ１２）。

【0070】

検出部１３は、音声抽出部１２が抽出した音声から、音声の区切れＸを用いて音声区間を検出する（Ｓ１３）。具体的には、検出部１３は、Ｓ１２で抽出した音声について、無音部分を検出することで音声の区切れＸを検出し、音声区間を特定する。ここで、音声区間の後端で音声の区切れＸが検出されない場合、検出部１３は、当該音声区間は次のTSファイルｎ＋１に跨る、分断された音声区間であると判定する。即ち、検出部１３は、音声区間に途切れＹが発生したと判定する。検出部１３は検出した各音声区間に関する情報をデータ生成部１４に送出する。

【0071】

データ生成部１４は、音声区間に関する情報を用いて、直前のTSファイルｎ－１で分断された（持越しされた）音声区間があるか否かを判定する（Ｓ１４）。分断された音声区間がない場合（Ｓ１４：ＮＯ）、データ生成部１４は、当該TSファイルｎにおいて、後ろに音声の区切れＸのある音声区間の音声を認識用データとして生成し、音声認識部１５に順次出力する（Ｓ１５）。

【0072】

後ろに音声の区切れＸのない、分断された音声区間が存在しない場合（Ｓ１６：ＮＯ）、Ｓ１９に進む。一方、分断された音声区間が存在する場合（Ｓ１６：ＹＥＳ）、データ生成部１４は、当該分断された音声区間の音声を、次のTSファイルｎ＋１に持ち越すために図示しない記憶部に記憶する（Ｓ１７）。

【0073】

また、直前のTSファイルｎ－１で分断された（持越しされた）音声区間がある場合（Ｓ１４：ＹＥＳ）、データ生成部１４は、当該TSファイルｎの最初の音声区間の音声に、直前のTSファイルｎ－１から持ち越した音声区間の音声を結合する（Ｓ１８）。そして、データ生成部１４は、Ｓ１５に進む。Ｓ１５～Ｓ１７については前述の通りである。

【0074】

音声認識部１５は、データ生成部１４が出力した各認識用データの音声を音声認識して、認識用データ毎にテキストデータに変換する（Ｓ１９）。

【0075】

字幕設定部１６は、変換したテキストデータを字幕として表示させるためのWebVTTファイル（字幕設定ファイル）を生成する（Ｓ２０）。ここで、生成されるWebVTTファイルは、TSファイル１用のWebVTTファイルである。字幕設定部１６は、WebVTTファイルに表示したい字幕（テキストテータ）と、当該字幕を表示する表示時間とを設定する。表示時間は、検出部１３が検出した音声区間に関する情報などから取得（算出）することができる。

【0076】

なお、字幕設定部１６は、データ生成部１４が複数のTSファイルの音声区間を結合して認識用データを生成した場合（Ｓ１８）、認識用データから変換されたテキストデータのうち、当該TSファイルｎの音声区間に対応する部分のテキストデータを抽出して、WebVTTファイルを生成する。

【0077】

そして、字幕設定部１６は、生成したWebVTTファイルを、対応するTSファイルｎと共に出力する。

【0078】

次のTSファイルｎ＋１がある場合は（Ｓ２１：ＹＥＳ）、映像伝送装置１は、Ｓ１２に戻り以降の処理を繰り返し行う。次のTSファイルｎ＋１がない場合は（Ｓ２１：ＮＯ）、映像伝送装置１は、図４に示す処理を終了する。本実施形態では、図４のＳ１２～Ｓ２０の処理をTSファイル毎に順次に行うため、映像伝送装置１の処理遅延を低減することができる。

【0079】

以上説明したように、本実施形態の映像伝送装置１（字幕生成装置）は、音声を含むTSファイル（映像データ）を所定の長さのTSファイルに分割する分割部１１と、分割された各TSファイルにおいて、当該TSファイルから抽出された音声の区切れを用いて、音声区間を検出する検出部１３と、前記音声区間の音声を認識用データとして生成するデータ生成部１４と、前記認識用データの音声を、字幕としてテキストデータに変換する音声認識部１５と、を有し、前記データ生成部１４は、前記音声区間が複数のTSファイルに跨る場合、前記複数のTSファイルの前記音声区間に対応する音声を結合して認識用データを生成する。

【0080】

このように本実施形態では、映像データを複数のTSファイルに分割し、各TSファイルにおいて複数のTSファイルに跨る分断された音声区間を検出した場合、分断された複数の音声区間を結合して音声認識が行い易い認識用データを生成する。これにより、本実施形態では、発話の分断による誤変換を防ぐことができ、字幕の適確性を向上できる。

【0081】

音声認識にAIエンジンを使用することで、より高精度な字幕に変換することができる。

【0082】

また、映像データを分割する時間単位を１０秒程度（例えば５秒以上１５秒以下）とした。１０秒程度より大きいと映像配信までの遅延が増加し、１０秒程度より小さいと字幕の精度が低下した。検証の結果、５秒以上１５秒以下が好ましいことが分かった。

【0083】

上記説明した映像伝送装置１は、例えば、図５に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU（Central Processing Unit、プロセッサ）９０１と、メモリ９０２と、ストレージ９０３（HDD：Hard Disk Drive、SSD：Solid State Drive）と、通信装置９０４と、入力装置９０５と、出力装置９０６とを備える。メモリ９０２およびストレージ９０３は、記憶装置である。このコンピュータシステムにおいて、CPU９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、映像伝送装置１の機能が実現される。

【0084】

映像伝送装置１は、１つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、映像伝送装置１は、コンピュータに実装される仮想マシンであっても良い。映像伝送装置１のプログラムは、HDD、SSD、USB（Universal Serial Bus）メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。コンピュータ読取り可能な記録媒体は、例えば非一時的な（non-transitory）記録媒体である。

【0085】

なお、本開示は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。上記実施形態では、映像伝送装置１が字幕生成処理を行うものとして説明したが、本開示はこれに限定されない。本開示の字幕生成処理を実施可能な装置であれば、映像伝送装置１に限定されない。

【符号の説明】

【0086】

１：映像伝送装置（字幕生成装置）
１１：分割部
１２：音声抽出部
１３：検出部
１４：データ生成部
１５；音声認識部
１６：字幕設定部
１７：プレイリスト生成部
１８：プレイリスト更新部
２：配信サーバ
３：再生装置
４：音声認識AIエンジン

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版