(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023105359
(43)【公開日】2023-07-31
(54)【発明の名称】コンテンツ配信装置、受信装置及びプログラム
(51)【国際特許分類】
H04N 21/235 20110101AFI20230724BHJP
H04N 21/234 20110101ALI20230724BHJP
H04N 21/233 20110101ALI20230724BHJP
【FI】
H04N21/235
H04N21/234
H04N21/233
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022006128
(22)【出願日】2022-01-19
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】田中 壮
(72)【発明者】
【氏名】山田 岳史
(72)【発明者】
【氏名】小村 美帆
(72)【発明者】
【氏名】及川 翔
(72)【発明者】
【氏名】吉村 修
(72)【発明者】
【氏名】山下 幸喜
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA05
5C164MA06S
5C164MC04S
5C164PA43
5C164SA11S
5C164SA32S
5C164SB01P
5C164SB04P
5C164SB06P
5C164SB24S
(57)【要約】
【課題】生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制する。
【解決手段】コンテンツ配信装置1の字幕処理部12に備えた字幕抽出部20は、放送用送出信号から生字幕データaを抽出し、音声認識部21-1,・・・,21-Nは、放送用送出信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データb1,・・・,bNを生成する。マッチング部22は、音声認識データb1,・・・,bNのそれぞれについて、生字幕データaとの間でテキストマッチング率を求め、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻t
bを用いて生字幕データaの時刻t
aを補正することで、新たな生字幕データa’を生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置において、
前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダと、
前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部と、を備え、
前記字幕処理部は、
前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするコンテンツ配信装置。
【請求項2】
請求項1に記載のコンテンツ配信装置において、
前記マッチング部は、
前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、
前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とするコンテンツ配信装置。
【請求項3】
生放送番組の映像コンテンツを含むIPコンテンツを受信し、前記IPコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置において、
前記IPコンテンツをデコードし、前記放送信号を生成するデコーダと、
前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部と、を備え、
前記字幕処理部は、
前記放送信号から前記生字幕データを抽出する字幕抽出部と、
前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とする受信装置。
【請求項4】
請求項3に記載の受信装置において、
前記マッチング部は、
前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、
前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする受信装置。
【請求項5】
請求項3または4に記載の受信装置において、
さらに、前記デコーダにより生成された前記放送信号を、前記字幕処理部が前記放送信号を入力してから前記新たな生字幕データを出力するまでの時間だけ遅延させる遅延部を備えたことを特徴とする受信装置。
【請求項6】
生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置を構成するコンピュータを、
前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダ、及び、
前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部として機能させるプログラムであって、
前記字幕処理部は、
前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、
前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするプログラム。
【請求項7】
生放送番組の映像コンテンツを含むIPコンテンツを受信し、前記IPコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置を構成するコンピュータを、
前記IPコンテンツをデコードし、前記放送信号を生成するデコーダ、及び、
前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部として機能させるプログラムであって、
前記字幕処理部は、
前記放送信号から前記生字幕データを抽出する字幕抽出部と、
前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、
前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、
を備えたことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットを介して、字幕データを含む映像のライブストリーミングを行うコンテンツ配信装置、受信装置及びプログラムに関する。
【背景技術】
【0002】
従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示する字幕放送を提供している。生放送番組において送出される字幕(以下、「生字幕」という。)は、生放送番組の音声から、人手による書き起こしにて制作される。このため、生字幕は、書き起こしの時間だけ遅延することとなり、生放送番組の音声に対して遅れて画面表示される。
【0003】
この生字幕の表示遅延を抑制するために、人手による書き起こしにて生字幕を制作する際には、音声認識技術または高速入力用キーボードの活用等の取り組みが行われている。一般に、字幕を制作する方式には、放送番組の音声から直接制作する方式、音声認識の精度を高めるために放送番組の音声を改めて雑音の少ない部屋で話し直す方式等がある。これらの方式の違いによって、字幕制作の遅延、放送番組の音声に対する字幕の再現性等が異なるのが現状である。
【0004】
一方、近年のスマートフォン及び動画配信技術の普及により、放送番組を放送だけでなくインターネットでも同時に提供する需要が高まっている。
【0005】
国外のいくつかの放送局においては、既に、番組を放送しながら同時に同じ番組をインターネットでも提供しており、このようなサービスは今後、日本国内でも展開されることが想定される。日本国内で同じサービスを提供するためには、放送と同等のサービスレベルをインターネットにおいても実現することが必要とされ、字幕サービスについても放送と同等のサービスレベルを実現することが必要とされる。
【0006】
また、近年の動画配信において広く使われている技術として、アダプティブストリーミングがある。アダプティブストリーミングは、マルチビットレートのコンテンツを、受信装置の通信速度に応じて配信する動画品質を変化させることによって、途切れ難い動画配信を実現する技術である。
【0007】
具体的には、配信側は、コンテンツを複数のビットレートでエンコードし、数秒単位に分割したファイルを生成する。ストリーミングを受信する受信側は、受信装置自体の通信速度に合わせたビットレートのファイルを配信側から順次取得し、ファイルを繋ぎ合わせて再生を行う。これにより、通信速度が変動する受信装置においても、コンテンツの再生を継続することができ、中断し難い動画配信を実現することができる(例えば、非特許文献1を参照)。
【0008】
しかしながら、アダプティブストリーミングにおいては、配信側は、入力した映像音声データのコンテンツを一旦バッファに保持し、数秒毎にファイルを生成することから、少なくとも数秒の遅延が発生する。
【0009】
一方、生放送番組において、放送と同じ信号を使用してそのままアダプティブストリーミング用のファイル生成処理(以下、「エンコード」という。)を行い、生成されたファイルを配信データとして、インターネットを介して配信する場合には、生字幕の表示が放送と同様に遅れることとなる。この場合、聴覚障碍者にとっては、番組内容に対する生字幕の表示遅延が小さい方が、番組内容への理解が容易となる。
【0010】
この遅延を抑制するための技術として、生字幕の表示遅延の度合いに応じて、生字幕の時刻修正処理を変更するコンテンツ配信装置が提案されている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0011】
【非特許文献】
【0012】
【非特許文献1】A.Zambelli,“IIS Smooth Streaming Technical Overview”,Mar.2009
【発明の概要】
【発明が解決しようとする課題】
【0013】
前述の特許文献1のコンテンツ配信装置は、生放送番組の映像コンテンツのライブ配信において、配信遅延部を設けることなく生字幕の同期を実現するものである。
【0014】
具体的には、このコンテンツ配信装置は、放送用送出信号から抽出した生字幕データと、放送用送出信号に含まれる音声に対して音声認識処理を施すことで生成された音声認識データとの間の遅延時間から、字幕遅延経過時刻を求める。そして、コンテンツ配信装置は、字幕遅延経過時刻と、放送用送出信号のエンコードが完了するエンコード処理完了時刻とを比較し、その比較結果に応じて、生字幕データが画面表示される時刻に関する字幕時刻情報を補正する。
【0015】
このように、特許文献1のコンテンツ配信装置では、音声認識処理を行うことを前提としているため、音声認識処理の認識性能が高い場合にのみ、番組内容に対する生字幕の表示遅延を抑制することができる。
【0016】
しかしながら、音声認識処理の認識性能が低い場合には、生字幕データの字幕時刻情報に対して正しい時刻補正処理を行うことができず、結果として、番組内容に対する生字幕の表示遅延を高精度に抑制することができなくなる。
【0017】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制可能なコンテンツ配信装置、受信装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0018】
前記課題を解決するために、請求項1のコンテンツ配信装置は、生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置において、前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダと、前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部と、を備え、前記字幕処理部が、前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。
【0019】
また、請求項2のコンテンツ配信装置は、請求項1に記載のコンテンツ配信装置において、前記マッチング部が、前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする。
【0020】
さらに、請求項3の受信装置は、生放送番組の映像コンテンツを含むIPコンテンツを受信し、前記IPコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置において、前記IPコンテンツをデコードし、前記放送信号を生成するデコーダと、前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部と、を備え、前記字幕処理部が、前記放送信号から前記生字幕データを抽出する字幕抽出部と、前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。
【0021】
また、請求項4の受信装置は、請求項3に記載の受信装置において、前記マッチング部が、前記複数の異なる音声認識データのそれぞれについて、当該音声認識データを、前記生字幕データと同じ文字数を単位として分割し、複数の異なる分割音声認識データを生成し、前記生字幕データを正解データとして、前記正解データと前記複数の異なる分割音声認識データのそれぞれとの間の類似度を算出し、前記類似度が最も高い前記分割音声認識データをマッチング対象として判定し、前記複数の異なる音声認識データに対応する複数の異なるマッチング対象のそれぞれについて、前記生字幕データとの間で前記テキストマッチング率を算出し、前記テキストマッチング率の最も高い前記マッチング対象を判定し、当該マッチング対象の前記音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成する、ことを特徴とする。
【0022】
また、請求項5の受信装置は、請求項3または4に記載の受信装置において、さらに、前記デコーダにより生成された前記放送信号を、前記字幕処理部が前記放送信号を入力してから前記新たな生字幕データを出力するまでの時間だけ遅延させる遅延部を備えたことを特徴とする。
【0023】
さらに、請求項6のプログラムは、生放送番組の映像コンテンツをインターネット配信する際に、前記映像コンテンツを含む放送用送出信号を入力し、前記放送用送出信号に基づいて配信データを生成すると共に、前記放送用送出信号に含まれる生字幕データの字幕時刻情報を補正するコンテンツ配信装置を構成するコンピュータを、前記放送用送出信号をエンコードし、前記配信データを生成するエンコーダ、及び、前記放送用送出信号から前記生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す前記字幕時刻情報を補正することで、新たな生字幕データを生成する字幕処理部として機能させるプログラムであって、前記字幕処理部が、前記放送用送出信号から前記生字幕データを抽出する字幕抽出部と、前記放送用送出信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。
【0024】
また、請求項7のプログラムは、生放送番組の映像コンテンツを含むIPコンテンツを受信し、前記IPコンテンツをデコードして放送信号を生成し、前記放送信号に含まれる映像音声及び字幕を再生する受信装置を構成するコンピュータを、前記IPコンテンツをデコードし、前記放送信号を生成するデコーダ、及び、前記デコーダにより生成された前記放送信号を入力し、前記放送信号から生字幕データを抽出し、前記生字幕データの字幕が画面表示される時刻を示す字幕時刻情報を補正することで、新たな生字幕データを生成し、前記新たな生字幕データを出力する字幕処理部として機能させるプログラムであって、前記字幕処理部が、前記放送信号から前記生字幕データを抽出する字幕抽出部と、前記放送信号に含まれる音声に対し、所定の複数の異なる音声認識処理をそれぞれ施し、複数の異なる音声認識データを生成する音声認識部と、前記音声認識部により生成された前記複数の異なる音声認識データのそれぞれについて、前記字幕抽出部により抽出された前記生字幕データとの間でテキストマッチング率を算出し、前記テキストマッチング率の最も高い前記音声認識データを判定し、当該音声認識データの音声が出力される時刻を示す音声時刻情報を用いて、前記生字幕データの前記字幕時刻情報を補正し、前記新たな生字幕データを生成するマッチング部と、を備えたことを特徴とする。
【発明の効果】
【0025】
以上のように、本発明によれば、生放送番組の映像コンテンツをインターネット配信するシステムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。
【
図2】コンテンツ配信装置に備えた字幕処理部の構成例を示すブロック図である。
【
図3】マッチング部の構成例を示すブロック図である。
【
図4】音声認識判定部の処理例を示すフローチャートである。
【
図5】生字幕データaと音声認識データb1との間のテキストマッチング率の算出例を説明する図である。
【
図6】マッチング処理部の処理例を示すフローチャートである。
【
図7】マッチング処理部による処理の具体例を説明する図である。
【
図8】本発明の実施形態による受信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及び受信装置の構成例を示すブロック図である。
【
図9】受信装置に備えた字幕処理部の構成例を示すブロック図である。
【
図10】遅延部の処理例を示すフローチャートである。
【発明を実施するための形態】
【0027】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細な説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。尚、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
【0028】
本発明は、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、放送用送出信号に含まれる生字幕データと、放送用送出信号に含まれる音声に対する複数の異なる音声認識処理により得られたそれぞれの音声認識データとをマッチングし、マッチング率の高い音声認識データの時刻を用いて、生字幕データの時刻を補正することを特徴とする。
【0029】
これにより、複数の異なる音声認識処理のうち高い認識性能を有する音声認識処理が選択されることとなる。そして、高い認識性能を有する音声認識処理により得られた音声認識データを用いることができるため、生字幕データに対して正しい時刻補正処理を行うことができる。このように、生字幕データに対して時刻補正処理を行うことで、映像上の発話のタイミングと、その発話に対応する生字幕データを対応付ける。したがって、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。
【0030】
〔コンテンツ配信システム〕
まず、本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムについて説明する。
図1は、本発明の実施形態によるコンテンツ配信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及びコンテンツ配信装置の構成例を示すブロック図である。
【0031】
このコンテンツ配信システムは、IP網を介して、生放送番組の映像コンテンツをインターネット配信するシステム、すなわち映像のライブストリーミングを行うシステムであり、コンテンツ配信装置1、配信サーバ2及び受信装置100を備えて構成される。
【0032】
コンテンツ配信装置1は、外部から映像コンテンツを含む放送用送出信号を入力し、放送用送出信号をエンコードして複数のファイルに分割し、複数のファイルの配信データDを生成する。放送用送出信号としては、例えばSDI(Serial Digital Interface:シリアルデジタルインターフェース)信号が用いられる。
【0033】
コンテンツ配信装置1は、放送用送出信号に含まれる生字幕データと、放送用送出信号に含まれる音声に対する複数の異なる音声認識処理により得られたそれぞれの音声認識データとをマッチングし、生字幕データとそれぞれの音声認識データとの間で文字列のマッチング率を算出する。そして、コンテンツ配信装置1は、マッチング率の高い音声認識データに含まれる時刻を用いて生字幕データの時刻を補正し、生字幕データを、配信データDにおける映像コンテンツの番組内容に同期させる。コンテンツ配信装置1は、配信データD及び同期後(補正後)の生字幕データa’を配信サーバ2へ送信する。
【0034】
コンテンツ配信装置1に入力される放送用送出信号は、映像、音声及び生字幕データ等から構成される。映像、音声及び生字幕データのそれぞれには、共通の時刻を基準とした時刻情報が含まれる。前述のとおり、生字幕データは、生放送番組の音声から人手による書き起こしにて制作されたデータであるため、映像及び音声の番組内容よりも遅延している。つまり、生字幕データに含まれる時刻は、音声認識処理により得られた音声認識データに含まれる時刻よりも遅れている。番組内容に対する生字幕データの遅延時間は、制作するオペレータ及び制作される生字幕データ自体に応じて変動する。
【0035】
一例を用いて詳細を説明すると、放送用送出信号に含まれる映像に映っている人物が映像の時刻0:00~0:02にて「おはようございます。」と発声した場合、同じ放送用送出信号に含まれる生字幕データにおける「おはようございます。」は、0:07~0:09のようにずれて保持されている。これは、一般的に生字幕データが人手による書き起こし等にて作成されているため、生字幕データの生成に要した時間分、映像は進んでおり、生字幕データを放送用送出信号に追加するときには、映像との時差が発生してしまうからである。したがって、放送用送出信号に含まれる映像と生字幕データはずれを持っていることが一般的であるといえる。
【0036】
配信サーバ2は、コンテンツ配信装置1から映像コンテンツの配信データD及び生字幕データa’を受信し、メモリに蓄積する。
【0037】
受信装置100は、例えばスマートフォン等の動画視聴プレーヤであり、従来の装置である。受信装置100は、コンテンツ配信装置1から配信サーバ2及びIP網を介して、図示しないプレイリストを取得し、プレイリストに基づいてファイル構造を把握する。そして、受信装置100は、プレイリストに基づいて、配信データD及び生字幕データa’を含むIPコンテンツを、IP網を介してHTTP(Hypertext Transfer Protocol:ハイパーテキスト転送プロトコル)にて取得する。
【0038】
受信装置100は、プレイリストの時刻に従い、IPコンテンツに含まれる配信データD及び生字幕データa’を繋ぎ合わせ、映像及び字幕を画面表示すると共に、音声を出力することで、コンテンツを再生する。
【0039】
これにより、受信装置100は、映像及び音声に対する字幕の表示の遅延が小さい映像コンテンツを再生することができ、この字幕の表示遅延が小さいほど、ユーザは番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。
【0040】
〔コンテンツ配信装置1〕
次に、本発明の実施形態によるコンテンツ配信装置1について説明する。
図1において、コンテンツ配信装置1は、分配部10、エンコーダ11及び字幕処理部12を備えている。分配部10は、放送用送出信号を入力し、放送用送出信号を分配し、分配した放送用送出信号をエンコーダ11及び字幕処理部12に出力する。
【0041】
エンコーダ11は、分配部10から放送用送出信号を入力し、放送用送出信号をエンコードすることで数秒単位のファイルに分割し、配信データDを生成する。エンコーダ11は、配信データDを配信サーバ2へ送信する。
【0042】
字幕処理部12は、分配部10から放送用送出信号を入力し、放送用送出信号から生字幕データを抽出すると共に、放送用送出信号に含まれる音声に対して複数の異なる音声認識処理を施し、複数の音声認識データを生成する。
【0043】
字幕処理部12は、生字幕データと、複数の音声認識データのそれぞれとの間で、テキストマッチングを行う。そして、字幕処理部12は、複数の音声認識データのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻を用いて、生字幕データの時刻を補正することで、新たな生字幕データa’を生成する。字幕処理部12は、生字幕データa’を配信サーバ2へ送信する。
【0044】
(字幕処理部12)
次に、
図1に示した字幕処理部12について詳細に説明する。
図2は、コンテンツ配信装置1に備えた字幕処理部12の構成例を示すブロック図である。この字幕処理部12は、字幕抽出部20、音声認識部21-1,・・・,21-N及びマッチング部22を備えている。Nは、2以上の整数である。
【0045】
字幕抽出部20は、分配部10から放送用送出信号を入力し、放送用送出信号から生字幕データaを抽出し、生字幕データaをマッチング部22に出力する。生字幕データaには、生字幕が画面表示される時刻taに関する時刻情報(字幕時刻情報)が含まれる。
【0046】
音声認識部21-1,・・・,21-Nは、互いに異なる音声認識処理を行う。例えば音声認識部21-1,・・・,21-Nは、異なる音声認識のライブラリを用いたり、異なる音声の波形処理等をしたりする。音声認識部21-1は、分配部10から放送用送出信号を入力し、放送用送出信号に含まれる音声に対して既知の音声認識処理を施し、音声認識データb1を生成し、音声認識データb1をマッチング部22に出力する。音声認識データb1には、音声が出力される時刻tb1に関する時刻情報(音声時刻情報)が含まれる。
【0047】
音声認識部21-Nは、分配部10から入力した放送用送出信号に含まれる音声に対して、他の音声認識部21-1等とは異なる既知の音声認識処理を施し、音声認識データbNを生成し、音声認識データbNをマッチング部22に出力する。音声認識データbNには、音声が出力される時刻tbNに関する時刻情報が含まれる。
【0048】
マッチング部22は、字幕抽出部20から生字幕データaを入力すると共に、音声認識部21-1,・・・,21-Nから音声認識データb1,・・・,bNを入力する。
【0049】
マッチング部22は、音声認識データb1について、生字幕データaと音声認識データb1とをマッチングし、マッチングにより同一であると判定した部分の生字幕データaを特定する。そして、マッチング部22は、特定した生字幕データaと音声認識データb1との間でテキストマッチング率を求める。
【0050】
マッチング部22は、音声認識データb2,・・・,bNについても、音声認識データb1と同様の処理を行い、テキストマッチング率を求める。
【0051】
マッチング部22は、音声認識データb1,・・・,bNのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻tbを用いて生字幕データの時刻taを補正することで、新たな生字幕データa’を生成して出力する。
【0052】
図3は、マッチング部22の構成例を示すブロック図である。このマッチング部22は、入力部30、音声認識判定部31及びマッチング処理部32を備えている。
【0053】
入力部30は、字幕抽出部20から生字幕データaを入力すると共に、音声認識部21-1,・・・,21-Nから音声認識データb1,・・・,bNを入力し、これらのデータを音声認識判定部31に出力する。
【0054】
入力部30から音声認識判定部31へ出力される生字幕データa及び音声認識データb1,・・・,bNの粒度は、文章単位とする。尚、その粒度は、文字単位、単語単位または複数文章単位としてもよい。
【0055】
図4は、音声認識判定部31の処理例を示すフローチャートである。音声認識判定部31は、入力部30から生字幕データa及び音声認識データb1,・・・,bNを入力する(ステップS401)。
【0056】
具体的には、音声認識判定部31は、まず、音声認識データb1,・・・,bNのそれぞれを入力し、その後、音声認識データb1,・・・,bNのそれぞれに対応する生字幕データaを入力する。そして、音声認識判定部31は、音声認識データb1,・・・,bNのそれぞれについて、生字幕データaとの間のマッチングを行い、マッチングにより同一であると判定した部分の生字幕データaを特定する。
【0057】
音声認識判定部31は、音声認識データb1,・・・,bNのそれぞれについて、特定した生字幕データaを正解データとする。そして、音声認識判定部31は、特定した生字幕データaと音声認識データb1,・・・,bNのそれぞれとの間でテキストマッチングを行い、それぞれのテキストマッチング率を算出する(ステップS402)。
【0058】
図5は、生字幕データaと音声認識データb1との間のテキストマッチング率の算出例を説明する図である。特定した生字幕データaを「本日の東京都は晴れる」とし、音声認識データb1を「ました本日の東京島は晴れるでしょう・・・」とする。生字幕データaは正解データとして扱われ、その文字数は10文字である。
【0059】
図5に示す例において、音声認識判定部31は、音声認識データb1を、生字幕データaの文字数である10文字を単位として分割し、10文字の音声認識データ(分割音声認識データ)b1-1,b1-2,b1-3,・・・をそれぞれ生成する。例えば、音声認識データb1-1として「た本日の東京島は晴れ」が生成され、音声認識データb1-2として「本日の東京島は晴れる」が生成され、音声認識データb1-3として「日の東京島は晴れるで」が生成される。
【0060】
音声認識判定部31は、正解データと音声認識データb1-1,b1-2,b1-3,・・・のそれぞれとの間で、例えばN-gram検索により類似度を算出する。そして、音声認識判定部31は、音声認識データb1-1,b1-2,b1-3,・・・のうち、類似度が最も高い音声認識データをマッチング対象として判定する。例えば、音声認識データb1-2「本日の東京島は晴れる」がマッチング対象として判定されたとする。尚、正解データと音声認識データとの間の類似度の算出処理は既知であるため、ここでは詳細な説明を省略する。
【0061】
音声認識判定部31は、10文字の正解データ「本日の東京都は晴れる」と、マッチング対象である10文字の音声認識データb1-2「本日の東京島は晴れる」との間でテキストマッチング率を算出する。例えば、音声認識判定部31は、両データに対し、先頭文字の一致、各文字の一致、文字の連続一致、末尾文字の一致等をそれぞれスコア化し、スコアの合計点(正解データのスコア合計点、音声認識データb1-2のスコア合計点)を求める。そして、音声認識判定部31は、音声認識データb1-2のスコア合計点を正解データのスコア合計点で除算することで、テキストマッチング率を求める。尚、テキストマッチング率の算出方法は既知であるため、ここでは詳細な説明を省略する。
【0062】
また、音声認識判定部31は、マッチング対象である10文字の音声認識データb1-2を、音声認識データb1に設定する。これにより、音声認識データb1「ました本日の東京島は晴れるでしょう・・・」の代わりに、音声認識データb1-2「本日の東京島は晴れる」が音声認識データb1として、後述の処理に用いられる。
【0063】
新たな音声認識データb1「本日の東京島は晴れる」の音声が出力される時刻tb1は、音声認識データb1「ました本日の東京島は晴れるでしょう・・・」の音声が出力される時刻tb1と異なることとなる。
【0064】
このように、生字幕データaを正解データとして、音声認識データb1との間のテキストマッチング率が算出される。
【0065】
尚、音声認識判定部31は、ステップS402において、生字幕データaの代わりに、外部から入力した番組原稿を正解データとして、音声認識データb1,・・・,bNのそれぞれとの間でテキストマッチングを行うようにしてもよい。
【0066】
この場合、
図3に示すように、マッチング部22は、入力部30、音声認識判定部31及びマッチング処理部32に加え、さらに通信部33を備え、通信部33は、番組原稿等を含む番組情報を受信し、番組原稿を音声認識判定部31に出力する。通信部33が番組情報を受信して番組原稿を出力する頻度は任意であり、数秒単位であってもよく、番組単位または1日単位であってもよい。
【0067】
図3及び
図4に戻って、音声認識判定部31は、音声認識データb1,・・・,bNのそれぞれのテキストマッチング率を用いて、音声認識データb1,・・・,bNのうち、テキストマッチング率が最も高い音声認識データbを判定する(ステップS403)。
【0068】
音声認識判定部31は、生字幕データa、音声認識データb、及び当該音声認識データbのテキストマッチング率をマッチング処理部32に出力する(ステップS404)。
【0069】
図6は、マッチング処理部32の処理例を示すフローチャートである。マッチング処理部32は、音声認識判定部31から、生字幕データa、音声認識データb、及び当該音声認識データbのテキストマッチング率を入力する(ステップS601)。
【0070】
マッチング処理部32は、テキストマッチング率と、予め設定された閾値とを比較する(ステップS602)。
【0071】
マッチング処理部32は、ステップS602において、テキストマッチング率が閾値以上であると判定した場合(ステップS602:≧)、生字幕データaと音声認識データbとの間のマッチングが成功したと判断する。
【0072】
そして、マッチング処理部32は、生字幕データaに含まれる時刻ta(生字幕データaが画面表示される時刻ta)に、音声認識データbに含まれる時刻tb(音声認識データbの音声が出力される時刻tb)を上書きし(ta←tb)、新たな生字幕データa’を生成する(ステップS603)。生字幕データa’には、生字幕データaが画面表示される時刻tbが、時刻taとして含まれることとなる。
【0073】
マッチング処理部32は、ステップS602において、テキストマッチング率が閾値よりも小さいと判定した場合(ステップS602:<)、生字幕データaと音声認識データbとの間のマッチングが失敗したと判断する。
【0074】
そして、マッチング処理部32は、生字幕データaに含まれる時刻taから所定の値Pを減算し、生字幕データaに含まれる時刻taに、減算結果を上書きし(ta←ta-P)、新たな生字幕データa’を生成する(ステップS604)。生字幕データa’には、生字幕データaが画面表示される時刻ta-Pが、新たな時刻taとして含まれることとなる。
【0075】
所定の値Pは、予め設定された固定値であってもよいし、直近のマッチング成功時における実績値の移動平均値であってもよい。後者の場合、マッチング処理部32は、マッチングが成功したときのステップS603の処理における直近の所定数の時刻ta,tbを保持しておき、時刻taから時刻tbを減算した結果の平均値を算出し、当該平均値を所定の値Pに設定する。このようにして設定された値Pは、ステップS604の処理に用いられる。
【0076】
マッチング処理部32は、ステップS603,S604から移行して、生字幕データa’を出力する(ステップS605)。
【0077】
尚、マッチング処理部32は、ステップS602(<)の場合、すなわち生字幕データaと音声認識データbとの間のマッチングが失敗したと判断した場合、前述のステップS604の処理の代わりに、ステップS603の処理と同様に、生字幕データaに含まれる時刻taに、音声認識データbに含まれる時刻tbを上書きし、新たな生字幕データa’を生成するようにしてもよい。
【0078】
また、マッチング処理部32は、ステップS602(<)の場合、前述のステップS604の処理を行わないようにしてもよい。この場合、マッチング処理部32は、生字幕データa’を出力しない。
【0079】
図7は、マッチング処理部32による処理の具体例を説明する図である。生字幕データa「東京都は晴れ」の時刻t
aが「10:00:10」、これに対応する音声認識データb「東京島は晴れ」の時刻t
bが「10:00:00」であるとする。また、
図6のステップS602において、この場合のテキストマッチング率が閾値以上であり(ステップS602:≧)、生字幕データaと音声認識データbとの間のマッチングが成功したものとする。
【0080】
そうすると、
図6のステップS603により、生字幕データaに含まれる時刻t
a「10:00:10」に、音声認識データbに含まれる時刻t
b「10:00:00」が上書きされ、放送内容に同期した生字幕データa’が生成される。これにより、生字幕データa 「東京都は晴れ」の時刻t
a「10:00:10」は「10:00:00」に補正され、新たな生字幕データa’が生成される。
【0081】
また、生字幕データa「神奈川県は雨」の時刻taが「10:00:17」、これに対応する音声認識データb「神奈川県は飴」の時刻tbが「10:00:06」であり、マッチングが成功したものとする。この場合、生字幕データaの時刻ta「10:00:17」は「10:00:06」に補正され、放送内容に同期した生字幕データa’が生成される。
【0082】
また、生字幕データa「埼玉県はくもり」の時刻taが「10:00:26」、これに対応する音声認識データb「埼玉県はくすり」の時刻tbが「10:00:15」であり、マッチングが成功したものとする。この場合、生字幕データaの時刻ta「10:00:26」は「10:00:15」に補正され、放送内容に同期した生字幕データa’が生成される。
【0083】
このように、テキストマッチングが成功し、生字幕データaの内容と音声認識データbの内容が同じであると判断された場合、対応する生字幕データaの時刻taが音声認識データbの時刻tbで上書きされる。これにより、放送内容に同期した生字幕データa’が生成される。
【0084】
尚、マッチング処理部32は、
図6のステップS603,S604にて生字幕データa’を生成する際に、生字幕データa’における字幕の表示時間を、生字幕データa’を構成する文字数に応じて変更するようにしてもよい。字幕の表示時間は、字幕の表示を開始する時刻と字幕の表示を終了する時刻との間の時間期間である。
【0085】
具体的には、マッチング処理部32は、生字幕データa’を構成する文字数に、予め設定された1文字あたりの表示時間を乗算し、生字幕データa’における字幕の表示時間を求め、これを生字幕データa’に含まれる当該字幕の表示時間に反映する。
【0086】
以上のように、本発明の実施形態のコンテンツ配信装置1によれば、エンコーダ11は、放送用送出信号をエンコードして配信データDを生成する。字幕処理部12の字幕抽出部20は、放送用送出信号から生字幕データaを抽出する。また、音声認識部21-1,・・・,21-Nは、放送用送出信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データb1,・・・,bNを生成する。
【0087】
マッチング部22は、音声認識データb1,・・・,bNのそれぞれについて、生字幕データaとの間でテキストマッチング率を求める。そして、マッチング部22は、音声認識データb1,・・・,bNのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻tbを用いて生字幕データaの時刻taを補正することで、新たな生字幕データa’を生成して出力する。
【0088】
配信データD及び生字幕データa’は配信サーバ2へ送信され、配信データD及び生字幕データa’を含むIPコンテンツは、IP網を介して受信装置100へ送信される。
【0089】
このように、生字幕データaの時刻taは、認識性能の最も高い音声認識処理により得られた音声認識データの時刻tbを用いて補正され、新たな生字幕データa’が生成される。これにより、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができ、より分かりやすい番組提供が可能となる。また、コンテンツ配信装置1は、字幕処理部12の処理をエンコーダ11の処理と並行して行うことで、エンコードに係る時間を活用して字幕の表示遅延を抑制することができる。
【0090】
ここで、音声認識部21-1,・・・,21-Nによる音声認識処理の認識性能は、生放送番組の映像コンテンツの種類(ニュース、スポーツ、バラエティ等)に応じて異なるのが一般的である。前述のとおり、生字幕データaの時刻taは、音声認識部21-1,・・・,21-Nによるそれぞれの音声認識処理のうち、認識性能の最も高い音声認識処理により得られた音声認識データの時刻tbを用いて補正される。このため、本発明の実施形態では、生放送番組の映像コンテンツの種類に応じて、音声認識処理の認識性能の違いを吸収することができる。つまり、生放送番組の映像コンテンツの種類に応じて、認識性能の最も高い音声認識処理が用いられるため、これにより得られた音声認識データの時刻tbは、生字幕データaの時刻taとして用いる際に精度の高いものとなる。結果として、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。
【0091】
尚、
図1に示したコンテンツ配信装置1において、字幕処理部12は、インターネット配信用の字幕生成を想定して生字幕データa’を生成し、生字幕データa’を配信サーバ2へ送信するようにした。これに対し、コンテンツ配信装置1の字幕処理部12は、生字幕データa’を、放送システム用の信号(例えばSDI信号)に再度多重する等、別アプリケーション用の処理を行うようにしてもよい。
【0092】
〔他のコンテンツ配信システム〕
次に、本発明の実施形態による受信装置を含むコンテンツ配信システムについて説明する。
図8は、本発明の実施形態による受信装置を含むコンテンツ配信システムの全体構成例を示す概略図、及び受信装置の構成例を示すブロック図である。
【0093】
このコンテンツ配信システムは、
図1と同様に、IP網を介して、生放送番組の映像コンテンツをインターネット配信するシステム、すなわち映像のライブストリーミングを行うシステムであり、コンテンツ配信装置101、配信サーバ102及び受信装置3を備えて構成される。
【0094】
図1に示したコンテンツ配信システムと、
図8に示すコンテンツ配信システムとを比較すると、
図1では、コンテンツ配信装置1が、生字幕データaと複数の音声認識データb1,・・・,bNとの間のマッチング結果に従い、生字幕データaの時刻t
aを補正し、生字幕データa’を生成する。これに対し、
図8では、受信装置3が、生字幕データaと複数の音声認識データb1,・・・,bNとの間のマッチング結果に従い、生字幕データaの時刻t
aを補正し、生字幕データa’を生成する。
【0095】
コンテンツ配信装置101は、従来のコンテンツ配信装置である。コンテンツ配信装置101は、外部から映像コンテンツの放送用送出信号を入力し、放送用送出信号をエンコードして複数のファイルに分割し、複数のファイルの配信データDを生成する。コンテンツ配信装置101は、配信データDを配信サーバ102へ送信する。
【0096】
配信サーバ102は、従来の配信サーバである。配信サーバ102は、コンテンツ配信装置101から映像コンテンツの配信データDを受信し、メモリに蓄積する。ここで、メモリに蓄積された配信データDにおいて、配信データDに含まれる生字幕データaの時刻taは、これに対応する映像音声(配信データDに含まれる映像音声)の時刻に対して遅れている。つまり、配信サーバ102に蓄積された配信データDの視聴が行われると、映像の音声に対して字幕が遅れて表示されるということである。
【0097】
受信装置3は、例えばスマートフォン、テレビ、レコーダ等の動画視聴プレーヤであり、コンテンツ配信装置101から配信サーバ102及びIP網を介して、図示しないプレイリストを取得し、プレイリストに基づいてファイル構造を把握する。そして、受信装置3は、プレイリストに基づいて、配信データDを含むIPコンテンツを、IP網を介してHTTP(Hypertext Transfer Protocol:ハイパーテキスト転送プロトコル)にて取得する。尚、プレイリストという形式にとらわれるものではなく、受信装置3は、例えば番組または時間毎に必要となる、配信データDを含むIPコンテンツに関する情報を用意しておき、当該情報に基づいて、対象となるIPコンテンツを取得してもよい。
【0098】
受信装置3は、プレイリストの時刻に従い、IPコンテンツに含まれる配信データDをデコードし、デコードにより生成された生字幕データaと、音声に対する複数の異なる音声認識処理により得られた音声認識データb1,・・・,bNのそれぞれとをマッチングする。そして、受信装置3は、マッチング率も最も高い音声認識データに含まれる時刻tbを用いて生字幕データaの時刻taを補正する。また、受信装置3は、デコードにより生成された映像音声を、音声認識処理等の時間だけ遅延させる。これにより、生字幕データa’を、配信データDにおける映像コンテンツの番組内容に同期させることができる。
【0099】
受信装置3は、映像及び生字幕データa’の字幕を画面表示すると共に、音声を出力することで、コンテンツを再生する。
【0100】
これにより、受信装置3は、映像及び音声に対する字幕の表示の遅延が小さい映像コンテンツを再生することができ、この字幕の表示遅延が小さいほど、ユーザは番組内容への理解が容易になる。特に聴覚障碍者にとっては、生字幕が番組内容への理解の材料として大きな役割を果たすため、その効果が大きい。
【0101】
〔受信装置3〕
次に、本発明の実施形態による受信装置3について説明する。
図8において、受信装置3は、受信部40、デコーダ41、字幕処理部42、遅延部43及び表示部44を備えている。
【0102】
受信部40は、配信サーバ102からIP網を介して、配信データDを含むIPコンテンツを受信し、受信処理を行い、配信データDをデコーダ41に出力する。
【0103】
デコーダ41は、受信部40から配信データDを入力し、配信データDをデコードすることで結合し、放送信号を生成する。そして、デコーダ41は、放送信号から映像音声信号を抽出すると共に、音声字幕信号を抽出し、映像音声信号を遅延部43に出力し、音声字幕信号を字幕処理部42に出力する。ここで、音声字幕信号に含まれる生字幕データaは、これに対応する音声に対して遅延している。つまり、生字幕データaに含まれる時刻taが、対応する音声の時刻tbに対して遅れている。したがって、このままの状態で視聴が行われると、映像の音声に対して字幕が遅れて表示される。
【0104】
字幕処理部42は、
図1に示した字幕処理部12に対応している。字幕処理部42は、デコーダ41から音声字幕信号を入力し、音声字幕信号から生字幕データaを抽出すると共に、音声字幕信号に含まれる音声に対して複数の異なる音声認識処理を施し、音声認識データb1,・・・,bNを生成する。
【0105】
字幕処理部42は、生字幕データaと音声認識データb1,・・・,bNのそれぞれとの間で、テキストマッチングを行う。そして、字幕処理部42は、音声認識データb1,・・・,bNのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻tbを用いて生字幕データaの時刻taを補正することで、新たな生字幕データa’を生成する。字幕処理部42は、生字幕データa’を表示部44に出力する。
【0106】
字幕処理部42は、生字幕データa’の生成が完了したタイミングで、生成完了を遅延部43に出力する。生成完了は、遅延部43において、当該遅延部43が入力する映像音声信号を、字幕処理部42が音声字幕信号を入力してから生字幕データa’を出力するまでの間の時間だけ遅延させるために用いられる。字幕処理部42の詳細については後述する。
【0107】
尚、字幕処理部42は、音声字幕信号を入力してから、生字幕データa’の生成が完了するまでの間の時間をカウントし、生字幕データa’の生成が完了したタイミングで、カウントした時間を遅延時間として遅延部43に出力するようにしてもよい。
【0108】
遅延部43は、デコーダ41から映像音声信号を入力し、映像音声信号をバッファに保持する。そして、遅延部43は、字幕処理部42から生成完了を入力すると、バッファから、生成完了の生字幕データa’に対応する映像音声信号を読み出し、映像音声信号を表示部44に出力する。
【0109】
また、遅延部43は、生成完了に対応する映像音声信号をバッファに保持してから読み出すまでの間の時間を遅延時間として算出する。そして、遅延部43は、字幕処理部42から次の生成完了を入力するまでの間、バッファに映像音声信号を保持した後、当該遅延時間が経過したときに、バッファから当該映像音声信号を読み出して表示部44に出力する。遅延部43の詳細については後述する。
【0110】
尚、遅延部43は、字幕処理部42から遅延時間を入力した場合、既にバッファに保持されている映像音声信号について、バッファに保持してから当該遅延時間経過後に、バッファから読み出して出力する。そして、遅延部43は、バッファに保持される新たな映像音声信号についても、バッファに保持してから当該遅延時間経過後に、バッファから読み出して出力する。そして、遅延部43は、字幕処理部42から新たな遅延時間を入力すると、当該新たな遅延時間を用いて、前述と同様の処理を行う。
【0111】
表示部44は、字幕処理部42から生字幕データa’を入力すると共に、遅延部43から映像音声信号を入力し、映像音声信号及び生字幕データa’を再生して表示する。尚、表示部44は、受信装置3とは別の装置(表示装置)であってもよい。この場合、受信装置3は、当該表示装置に対して、映像音声信号及び生字幕データa’を出力することとなる。
【0112】
(字幕処理部42)
次に、
図8に示した字幕処理部42について詳細に説明する。
図9は、受信装置3に備えた字幕処理部42の構成例を示すブロック図である。この字幕処理部42は、字幕抽出部50、音声認識部51-1,・・・,51-N及びマッチング部52を備えている。字幕処理部42は、
図2に示した字幕処理部12と同様の処理を行い、さらに、生字幕データa’の生成が完了したタイミングで、生成完了を遅延部43に出力する。
【0113】
字幕抽出部50は、デコーダ41から音声字幕信号を入力し、
図2に示した字幕抽出部20と同様の処理を行い、生字幕データaをマッチング部52に出力する。字幕抽出部50の処理の説明については省略する。
【0114】
音声認識部51-1,・・・,51-Nは、デコーダ41から音声字幕信号を行い、
図2に示した音声認識部21-1,・・・,21-Nと同様の処理を行い、音声認識データb1,・・・,bNをマッチング部52に出力する。音声認識部51-1,・・・,51-Nの処理の説明については省略する。
【0115】
マッチング部52は、字幕抽出部50から生字幕データaを入力すると共に、音声認識部51-1,・・・,51-Nから音声認識データb1,・・・,bNを入力し、
図2に示したマッチング部22と同様の処理を行い、生字幕データa’を表示部44に出力する。マッチング部52の処理の説明については省略する。
【0116】
マッチング部52は、さらに、生字幕データa’の生成が完了したタイミングで、生成完了を遅延部43に出力する。
【0117】
尚、マッチング部52は、
図2及び
図3に示したマッチング部22と同様に、生字幕データaの代わりに、外部から入力した番組原稿を正解データとして、音声認識データb1,・・・,bNのそれぞれとの間でテキストマッチングを行うようにしてもよい。
【0118】
(遅延部43)
次に、
図8に示した遅延部43について詳細に説明する。
図10は、遅延部43の処理例を示すフローチャートである。
【0119】
遅延部43は、デコーダ41から映像音声信号を入力し(ステップS1001)、映像音声信号をバッファに保持する(ステップS1002)。
【0120】
遅延部43は、字幕処理部42から生成完了を入力したか否かを判定する(ステップS1003)。遅延部43は、ステップS1003において、生成完了を入力していないと判定した場合(ステップS1003:N)、ステップS1001へ移行し、ステップS1001,S1002の処理を行う。
【0121】
遅延部43は、ステップS1003において、生成完了を入力したと判定した場合(ステップS1003:Y)、バッファから、当該生成完了の生字幕データa’に対応する映像音声信号を読み出し、表示部44に出力する(ステップS1004)。
【0122】
以上のように、本発明の実施形態の受信装置3によれば、デコーダ41は、配信データDをデコードして放送信号を生成し、放送信号から映像音声信号及び音声字幕信号を抽出する。字幕処理部42の字幕抽出部50は、音声字幕信号から生字幕データaを抽出する。また、音声認識部51-1,・・・,51-Nは、音声字幕信号に含まれる音声に対し、他の構成部とは異なる既知の音声認識処理を施し、音声認識データb1,・・・,bNを生成する。
【0123】
マッチング部52は、音声認識データb1,・・・,bNのそれぞれについて、生字幕データaとの間でテキストマッチング率を求める。そして、マッチング部52は、音声認識データb1,・・・,bNのうち、テキストマッチング率の最も高い音声認識データを判定し、当該音声認識データの時刻tbを用いて生字幕データaの時刻taを補正することで、新たな生字幕データa’を生成して表示部44に出力する。
【0124】
また、マッチング部52は、生字幕データa’の生成が完了したタイミングで、生成完了を遅延部43に出力する。
【0125】
遅延部43は、映像音声信号をバッファに保持し、字幕処理部42から生成完了を入力すると、バッファから、生成完了の生字幕データa’に対応する映像音声信号を読み出して表示部44に出力する。
【0126】
このように、生字幕データの時刻taは、認識性能の最も高い音声認識処理により得られた音声認識データの時刻tbを用いて補正され、新たな生字幕データa’が生成される。これにより、生放送番組の映像コンテンツをインターネット配信するコンテンツ配信システムにおいて、番組内容に対する生字幕の表示遅延を高精度に抑制することができ、より分かりやすい番組提供が可能となる。
【0127】
また、
図1に示したコンテンツ配信装置1の場合と同様に、生放送番組の映像コンテンツの種類に応じて、番組内容に対する生字幕の表示遅延を高精度に抑制することができる。
【0128】
さらに、映像音声信号は、遅延部43において、字幕処理部42により生字幕データa’が生成される処理の時間だけ遅延することとなる。このため、映像音声信号と生字幕データa’とを同期させることができ、表示部44は、同期した映像音声及び字幕を再生することができる。
【0129】
尚、
図8に示したコンテンツ配信システムは、IPコンテンツを、IP網を介して配信するシステムであるが、IPコンテンツを放送波にて伝送するシステムにも適用がある。この場合、受信装置3の受信部40は、放送局から送信されたIPコンテンツを含む放送波を受信し、復号等の受信処理を行う。
【0130】
以上、図面を参照しながら本発明の実施形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例または均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、前述した本発明の実施形態における各構成要素を任意に組み合わせてもよい。
【0131】
尚、本発明の実施形態によるコンテンツ配信装置1及び受信装置3のハードウェア構成としては、通常のコンピュータを使用することができる。コンテンツ配信装置1及び受信装置3は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0132】
コンテンツ配信装置1に備えた分配部10、エンコーダ11及び字幕処理部12の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0133】
また、受信装置3に備えた受信部40、デコーダ41、字幕処理部42、遅延部43及び表示部44の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0134】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0135】
1,101 コンテンツ配信装置
2,102 配信サーバ
3 受信装置
10 分配部
11 エンコーダ
12,42 字幕処理部
20,50 字幕抽出部
21-1,・・・,21-N,51-1,・・・,51-N 音声認識部
22,52 マッチング部
30 入力部
31 音声認識判定部
32 マッチング処理部
33 通信部
40 受信部
41 デコーダ
43 遅延部
44 表示部
100 受信装置
a,a’ 生字幕データ
b1,・・・,bN 音声認識データ