(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-06
(45)【発行日】2024-09-17
(54)【発明の名称】字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法
(51)【国際特許分類】
H04N 21/238 20110101AFI20240909BHJP
【FI】
H04N21/238
(21)【出願番号】P 2019184427
(22)【出願日】2019-10-07
【審査請求日】2022-10-04
(73)【特許権者】
【識別番号】313000601
【氏名又は名称】日本テレビ放送網株式会社
(73)【特許権者】
【識別番号】593119413
【氏名又は名称】讀賣テレビ放送株式会社
(74)【代理人】
【識別番号】100201341
【氏名又は名称】畠山 順一
(74)【代理人】
【識別番号】100079005
【氏名又は名称】宇高 克己
(74)【代理人】
【識別番号】100154405
【氏名又は名称】前島 大吾
(72)【発明者】
【氏名】松本 学
(72)【発明者】
【氏名】菊地 秀彦
(72)【発明者】
【氏名】穗坂 怜
(72)【発明者】
【氏名】中島 良隆
(72)【発明者】
【氏名】久保 健太
【審査官】富樫 明
(56)【参考文献】
【文献】特開2018-207339(JP,A)
【文献】特開2009-016910(JP,A)
【文献】特開2013-251766(JP,A)
【文献】特開2002-010138(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する分離部と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する送信部と、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキスト
と、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する受信部と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの1分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、
を備え、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
字幕変換装置。
【請求項2】
前記所定の区切り記号が句点であり、
前記所定の翻訳単位が、ひとつの句点で終了する1文である
請求項1に記載の字幕変換装置。
【請求項3】
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間の平均値である、
請求項1又は請求項2に記載の字幕変換装置。
【請求項4】
日本語のテキストを受信し、少なくとも一以上の言語に翻訳する翻訳装置と、テレビ放送用コンテンツデータを配信用コンテンツデータに変換する変換装置と、前記配信用コンテンツデータを受信し、コンテンツを視聴する視聴端末と
、を備え、
前記翻訳装置は、
翻訳対象となる原文テキストを指定の言語に翻訳した翻訳テキストを生成し、前記翻訳テキストの分割可能位置に関する分割可能位置情報を生成する翻訳部を備え、
前記変換装置は、
前記テレビ放送用コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する分離部と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、
前記翻訳原文テキストを前記翻訳装置に送信する送信部と、
前記翻訳装置から、前記翻訳原文テキストに対応する
前記翻訳テキストと、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する受信部と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの1分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、
前記配信用コンテンツデータを、前記視聴端末に配信する配信部と、
を備え、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
コンテンツ配信システム。
【請求項5】
コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する処理と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する処理と、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する処理と、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキスト
と、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する処理と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの1分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する処理と、
をコンピュータに実行させ、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
プログラム。
【請求項6】
コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離し、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成し、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信し、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキスト
と、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信し、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの1分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成し、
前記配信用コンテンツデータを、視聴端末に配信し、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
コンテンツ配信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法に関し、特に、日本語字幕を他の言語に翻訳する際の処理の技術に関する。
【背景技術】
【0002】
近年、テレビ番組では、聴覚障害者向けサービスとして字幕を放送することが求められている。一方、グローバル化にともない、日本語のコンテンツを、外国人が視聴するケースも増加している。特に、放送ではなく、インターネットを介した動画配信サービスでは、それが顕著である。
【0003】
字幕の多言語サービスとしては、例えば、特許文献1に記載された技術がある。特許文献1に記載された技術は、テレビ受信機側で、映像から字幕データを分離又は字幕のURLを取得し、字幕データを翻訳サーバに送信し、字幕を所望の言語に翻訳させる。そして、テレビ受信機は、翻訳された字幕を受信して表示させる構成である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載された技術は、テレビ受信機側で、翻訳の処理や、翻訳後の字幕を表示するための処理を行うため、テレビ受信機(視聴端末)に特別な機能が必要となる。
【0006】
一方、配信側で日本語以外の他言語に対応した字幕を生成することも考えられるが、精度の高い翻訳は多くの労力と費用を必要とする。
【0007】
そこで、本発明の目的は、字幕を生成する配信側と、コンテンツを視聴する視聴端末側とが特別な機能を持つことなく、精度の良い日本語以外の他言語に対応した字幕を生成することができる字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法を提供することにある。
【課題を解決するための手段】
【0008】
本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する分離部と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する送信部と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する受信部と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部とを備える字幕変換装置である。
【0009】
本発明の一態様は、日本語のテキストを受信し、少なくとも一以上の言語に翻訳する翻訳装置と、テレビ放送用コンテンツデータを配信用コンテンツデータに変換する変換装置と、前記配信用コンテンツデータを受信し、コンテンツを視聴する視聴端末とを備え、前記変換装置は、前記テレビ放送用コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する分離部と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、前記翻訳原文テキストを前記翻訳装置に送信する送信部と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する受信部と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、前記配信用コンテンツデータを、前記視聴端末に配信する配信部とを備えるコンテンツ配信システムである。
【0010】
本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する処理と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する処理と、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する処理と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する処理と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する処理とを、コンピュータに実行させるプログラムである。
【0011】
本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離し、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成し、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信し、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信し、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成し、前記配信用コンテンツデータを、前記視聴端末に配信するコンテンツ配信方法である。
【発明の効果】
【0012】
本発明は、字幕を生成する配信側と、コンテンツを視聴する視聴端末側が特別な機能を持つことなく、精度の良い日本語以外の他言語に対応した字幕を生成することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は本実施形態におけるコンテンツ配信システムの全体構成例を示す図である。
【
図2】
図2は翻訳字幕生成装置1の機能構成例を示すブロック図である。
【
図3】
図3は、翻訳字幕生成装置1の動作を説明するための図である。
【
図4】
図4は本実施の形態における配信映像(日本語字幕)を視聴端末3により視聴した場合の例を示した図である。
【
図5】
図5は本実施の形態における配信映像(英語字幕)を視聴端末3により視聴した場合の例を示した図である。
【
図6】
図6は視聴者端末3における字幕言語の選択を説明するための図である。
【
図7】
図7は実施の形態の変形例を説明するための図である。
【
図8】
図8はコンピュータシステムによって構成された翻訳字幕生成装置1のブロック図である。
【発明を実施するための形態】
【0014】
本発明の実施の形態を説明する。
【0015】
図1は、本実施形態におけるコンテンツ配信システムの全体構成例を示す図である。
図1に示すように、配信システムは、翻訳字幕生成装置1と、翻訳サーバ2と、視聴者の視聴端末3と、通信回線4とを備えて構成される。翻訳字幕生成装置1と翻訳サーバ2、翻訳字幕生成装置1と視聴端末3とは、通信回線4に接続可能で、相互に通信可能である。
【0016】
通信回線4は、データ通信が可能な通信路を意味する。すなわち、通信回線4は、直接接続のための専用線(専用ケーブル)やイーサネット(登録商標)等によるLANの他、電話通信網やケーブル網、インターネット等の通信網を含み、通信方法については有線/無線を問わない。
【0017】
翻訳字幕生成装置1は、単数又は複数のサーバ装置や記憶装置等を含んで構成されたサーバシステムである。翻訳字幕生成装置1は、翻訳サーバ2と連携し、Web API(Web Application Programming Interface)等を用いて日本語字幕を他言語(英語、中国語、韓国語等)に翻訳し、翻訳字幕の付いた動画を視聴端末3に配信する。
【0018】
翻訳サーバ2は、翻訳字幕生成装置1から送信される日本語テキストを、指示された言語に翻訳し、翻訳後のテキストを翻訳字幕生成装置1に送信する。尚、翻訳サーバ2は、1台のサーバが複数の言語を翻訳する機能を備えているだけでなく、翻訳する言語毎に翻訳サーバを設けても良い。
【0019】
視聴端末3は、例えば、HTTP Live Streaming (HLS)などの方式に対応し、字幕付き動画を視聴できる端末であり、無線通信基地局等を介して通信回線4に接続し、翻訳字幕生成装置1とデータ通信を行うことができる。視聴端末3は、例えば、スマートフォンや、携帯電話機、携帯型ゲーム装置、据置型家庭用ゲーム装置、業務用ゲーム装置、パソコン、タブレット型コンピュータ、据置型家庭用ゲーム装置のコントローラ等である。プレーヤ端末1は、基本的には、複数存在し、各視聴者により操作される。
【0020】
次に、翻訳字幕生成装置1の構成を説明する。
図2は翻訳字幕生成装置1の機能構成例を示すブロック図である。
【0021】
翻訳字幕生成装置1は、分離部11と、翻訳原文テキスト生成部12と、翻訳原文テキスト送信部13と、翻訳テキスト受信部14と、配信コンテンツデータ生成部15とを備える。
【0022】
分離部11は、地上デジタル放送のコンテンツファイルを受信する。コンテンツファイルは、映像に字幕が重畳されていない映像ファイル(以下、「元映像ファイル」という場合がある)と、音声ファイルと、アンシラリーデータ(Ancillary)とを含むことができる。アンシラリーデータは、字幕データを含む。字幕データは、映像に重畳するテキスト(文字列)、各文字列の表示タイミング(PTS:表示開始タイミング及び表示終了タイミング)、各文字列の表示位置(映像内の位置)等を含む。なお、字幕データは、解像度及びアスペクト比の少なくとも一方が互いに異なる複数の映像形式毎に、上記文字列、表示タイミング及び表示位置等を示してもよい。上記映像形式としては、HD(high definition video)、SD(standard definition television)、ワンセグ(携帯)等が例示される。
【0023】
分離部11は、アンシラリーデータから字幕データを分離し、字幕データを翻訳原文テキスト生成部12に出力する。また、分離部11は、映像ファイル及び音声ファイルを、配信コンテンツデータ生成部15に出力する。
【0024】
翻訳原文テキスト生成部12は、字幕データをバッファリングする機能を備える。翻訳原文テキスト生成部12は、各アンシラリーデータから分離された字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する。所定の区切り記号は句点(「。」又は「.」)が代表的であるが、これに限られない。例えば、コロン(:)や、セミコロン(;)、感嘆符(!)、疑問符(?)等でも良い。また、所定の翻訳単位とは、例えば、句点(。)で終了する1文(1センテンス)である。翻訳原文テキスト生成部12は、例えば、句点(。)を検出することにより、複数に分割されている各字幕テキストを1文(1センテンス)化し、翻訳原文テキストを生成する。このとき、翻訳原文テキストを識別する翻訳IDと、連結した字幕のPTSに関する情報とを、翻訳原文テキストに含めて、翻訳原文テキスト送信部13に出力する。尚、所定の翻訳単位は、1文(1センテンス)に限らず、ある程度が意味の通じる文節単位でも良い。
【0025】
翻訳原文テキスト送信部13は、翻訳IDを含めた翻訳原文テキストを、翻訳サーバ2に送信する。送信する翻訳サーバ2は、字幕テキストを翻訳する言語に対応する翻訳サーバである。例えば、日本語字幕を英語字幕に翻訳するならば、日本語から英語に翻訳を実行する翻訳サーバに送信する。このとき、翻訳言語に対応する各翻訳サーバ2に、同時に送信するようにしても良い。例えば、英語、中国語、韓国語の翻訳に対応した各翻訳サーバ2に送信しても良い。このようにすれば、ひとつの翻訳原文テキストから多言語の翻訳を並列的に行うことができる。
【0026】
翻訳字幕テキスト受信部14は、送信した翻訳原文テキストに対応する翻訳された翻訳字幕テキストを受信する。
【0027】
配信コンテンツデータ生成部15は、分離部11から映像ファイル及び音声ファイルを受信し、翻訳テキスト受信部14から翻訳字幕テキストを受信する。配信コンテンツデータ生成部15は、映像ファイル及び音声ファイルを、例えば、HTTP Live Streaming (HLS)などの方式に変換する。
【0028】
また、配信コンテンツデータ生成部15は、受信した翻訳字幕テキストを、Web Video Text Tracks(WebVTT)などの字幕フォーマットに変換する。ここで、翻訳字幕テキストは、1文(1センテンス)であるので、複数に分割する必要がある。最も簡単な方法は、翻訳字幕テキストに対応する日本語字幕テキスト分に分割することである。例えば、翻訳字幕テキストに対応する翻訳原文テキストが、3個のPTSに対応する字幕テキストから生成された場合、1単語が途中で途切れないように翻訳字幕テキストを3分割する。このとき、ひとつのPTSに対応するテキスト数(文字列数)を、予め決定しておくことが好ましい。
【0029】
続いて、翻訳字幕生成装置1の動作を説明する。
図3は、翻訳字幕生成装置1の動作を説明するための図である。尚、以下の説明では、日本語字幕を、英語字幕に翻訳する例を説明するが、これに限られず、並列的に他の言語(例えば、中国語、韓国語など)の処理を行えることは言うまでもない。
【0030】
翻訳字幕生成装置1は、地上デジタル放送のコンテンツファイルを受信する。コンテンツファイルは、映像に字幕が重畳されていない映像ファイルと、音声ファイルと、アンシラリーデータとを含むことができる。アンシラリーデータは、字幕データを含む。字幕データは、映像に重畳する文字列、及び、各文字列の表示タイミング(PTS:表示開始タイミング及び表示終了タイミング)を少なくとも含む。但し、各文字列の表示位置(映像内の位置)等を含んでも良い。
【0031】
分離部11は、アンシラリーデータから字幕データを分離し、字幕データを翻訳原文テキスト生成部12に出力する。
図3の例は、3つのアンシラリーデータから取得した3つの字幕データを示したものである。
図3の例では、3つの字幕データである(字幕テキスト「本システム、」、PTS:00:00-00:05)、(字幕テキスト「翻訳サービスを使用して」、PTS:00:05-00:10)及び(字幕テキスト「日本語字幕を英語に翻訳します。」、PTS:00:10-00:15)である。一方、分離部11は、映像ファイル及び音声ファイルを、配信コンテンツデータ生成部15に出力する。
【0032】
翻訳原文テキスト生成部12は、分離部11からの字幕データを受け、字幕テキストから句点(。)を検出し、複数の字幕テキストを1文(1センテンス)化する。1文(1センテンス)化の処理は、検出した句点(。)毎に行われる。例えば、
図3の例では、3つの字幕データである(字幕テキスト「本システムは、」、PTS:00:00-00:05)、(字幕テキスト「翻訳サービスを使用して」、PTS:00:05-00:10)及び(字幕テキスト「日本語字幕を英語に翻訳します。」、PTS:00:10-00:15)のうち、字幕テキスト「日本語字幕を英語に翻訳します。」について、句点(。)が検出される。句点(。)が検出される前の二つの字幕テキスト「本システム、」及び字幕テキスト「翻訳サービスを使用して」は、句点(。)が検出された字幕テキスト「日本語字幕を英語に翻訳します。」と、一文となる語句のテキストである。従って、これらの字幕テキストを1文(1センテンス)化し、翻訳原文テキスト「本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を生成する。
【0033】
翻訳原文テキスト生成部12は、1文(1センテンス)化された翻訳原文テキストに、この翻訳原文テキストを識別する翻訳IDを付して、翻訳原文テキスト送信部13に出力する。
図3の例では、翻訳原文テキスト「本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」に、翻訳ID“100”を付して、翻訳原文テキスト「100:本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、翻訳原文テキスト送信部13に出力する。
【0034】
また、翻訳原文テキスト生成部12は、その翻訳IDと、翻訳原文テキストの元となる字幕テキストのPTSとを対応付けて配信コンテンツデータ生成部15に出力する。例えば、(100,PTS:00:00-00:05,PTS:00:05-00:10,PTS:00:10-00:15)である。
【0035】
翻訳原文テキスト送信部13は、翻訳IDを付した翻訳原文テキストを、翻訳する言語に対応する翻訳サーバ2に送信する。
図3の例では、翻訳原文テキストである「100:本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、英語翻訳の翻訳サーバ2に送信する。
【0036】
翻訳サーバ2は、翻訳IDを付した翻訳原文テキストを受信し、翻訳原文テキストを翻訳し、翻訳字幕生成装置1に送信する。
図3の例では、「100:本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、英語である「100:This system translates Japanese subtitles into English using a translation service.」に翻訳し、その翻訳字幕テキストを、翻訳字幕生成装置1に送信する。
【0037】
翻訳字幕テキスト受信部14は、翻訳サーバ2から翻訳テキストを受信する。
図3の例では、「100:This system translates Japanese subtitles into English using a translation service.」を受信し、配信コンテンツデータ生成部15に出力する。
【0038】
配信コンテンツデータ生成部15は、受信した翻訳テキストに付されている翻訳IDに対応するPTSを、字幕翻訳テキストと対応付ける。
図3の例では、翻訳ID“100”に対応するPTSは、(100,PTS:00:00-00:05,PTS:00:05-00:10,PTS:00:10-00:15)である。従って、配信コンテンツデータ生成部15は、(This system translates Japanese subtitles into English using a translation service.:00:00-00:05,00:05-00:10,00:10-00:15)のように、字幕翻訳テキストとPTSとを対応付ける。
【0039】
次に、配信コンテンツデータ生成部15は、分離部11から受信した映像ファイル及び音声ファイルを、例えば、HTTP Live Streaming (HLS)などの方式に変換する。また、配信コンテンツデータ生成部15は、字幕翻訳テキストを、Web Video Text Tracks(WebVTT)などの字幕フォーマットに変換する。翻訳テキスト(This system translates Japanese subtitles into English using a translation service.:00:00-00:05,00:05-00:10,00:10-00:15)を、WebVTTに変換した一例を、下記に示す。
00:00--> 00:05
This system translates
00:05--> 00:10
Japanese subtitles into English
00:10--> 00:15
using a translation service.
上記の例では、翻訳テキスト「This system translates Japanese subtitles into English using a translation service.」を、3つのPTS(:00:00-00:05,00:05-00:10,00:10-00:15)に対応させるために、3分割している。分割の方法であるが、1単語が途中で途切れなければ、どのような方法を用いても良い。例えば、ひとつのPTSに対応するテキスト数(文字列数)を、予め決定しておいても良い。
【0040】
このようにして、配信コンテンツデータ生成部15は、配信用のコンテンツデータを生成し、視聴端末3に送信する。
【0041】
図4は本実施の形態における配信映像(日本語字幕)を視聴端末3により視聴した場合の例を示した図であり、
図5は本実施の形態における配信映像(英語字幕)を視聴端末3により視聴した場合の例を示した図である。
【0042】
図4の例では、00:00-00:05時に字幕テキスト「本システムは、」が表示され、00:05-00:10時に「翻訳サービスを使用して」が表示され、00:10-00:15時に字幕テキスト「日本語字幕を英語に翻訳します。」が表示されている。一方、
図5の例では、00:00-00:05時に字幕テキスト「This system translates」が表示され、00:05-00:10時に「Japanese subtitles into English」が表示され、00:10-00:15時に字幕テキスト「using a translation service.」が表示されている。このように、日本語の字幕に対して、翻訳処理による遅延を生じることなく英語字幕が表示されるのが分かる。
【0043】
尚、英語に限られず、他の複数の言語に対応させるためには、視聴者端末3により、字幕の言語を選択できるようにする。例えば、
図6に示すように、オリジナルの日本語字幕について、字幕の言語を選択する選択ボタンを設け、視聴者端末3より、字幕の言語を選択できるようにしても良い。このとき、翻訳字幕生成装置1は、選択された言語に対応するコンテンツデータを配信する。
【0044】
また、上述した実施の形態では、翻訳字幕の表示タイミングとして、オリジナルの日本語字幕のPTSを用いたが、これに限られない。オリジナルの日本語字幕も、リアルタイム字幕などの場合、日本語字幕も映像よりも遅延している場合が考えられる。そこで、リアルタイム字幕を生成に要する時間の平均値などを、オリジナルの日本語字幕のPTSから減算するようにして修正を加えても良い。このようにすれば、オリジナルの日本語字幕が遅延している場合であっても、その遅延を吸収することができる。
【0045】
本実施の形態は、文章が複数に分割された字幕テキストを、所定の区切り記号(例えば、句点(「。」又は「.」)を用いて、所定の翻訳単位(例えば、1文(1センテンス))に纏めた翻訳原文テキストを生成し、この翻訳原文テキストにより、所定の言語の翻訳を行うように構成しているので、各字幕テキスト単位の翻訳と比較して、主語、修飾語、述語の関係が明確となり、精度の高い翻訳を得ることができる。
【0046】
更に、本実施の形態は、翻訳後の字幕テキストを表示する表示タイミングを、少なくとも翻訳処理に要する時間分調整しているので、映像と字幕との表示タイミングのずれを防ぐことができる。
【0047】
次に、本実施の形態の変形例を説明する。
【0048】
翻訳サーバ2側が、翻訳字幕テキストを分割可能位置に関する分割可能位置情報を提供できる場合は、その分割可能位置情報を用いて、1センテンスの翻訳字幕テキストを複数に分割する。
【0049】
例えば、文節単位で分割可能な位置に関する分割可能位置情報を“*”とし、単語単位で分割可能な位置に関する分割可能位置情報を“/”とする。
【0050】
このとき、翻訳原文テキストを「本システムは、翻訳サービスを使用して、日本字幕を英語、中国語及び韓国語に翻訳します。」とする。すると、翻訳サーバ2から受信する翻訳字幕テキストは、以下のようになる。
「This/system/*translates/*Japanese/subtitles/into/*English,/Chinese/and/Korean/*using/a/translation/service./」
配信コンテンツデータ生成部15は、(翻訳字幕テキストの全文字数/表示分割数)を計算し、1分割当たりの文字数を決定する。例えば、上述した例と同様に、3分割する場合を考えると、翻訳字幕テキストの全文字数は、103文字(スペースを含む)であり、1分割当たりの文字数は約35文字(103/3)となる。そこで、翻訳字幕テキストを35文字毎に3分割すると、以下の通りとなる。尚、“+”は分割点である。
「This/system/*translates/*Japanese/sub+titles/into/*English,/Chinese/and/Ko+rean/*using/a/translation/service./」
配信コンテンツデータ生成部15は、分割点“+”から前後所定のx文字以内の最寄りの分割可能位置情報を“*”を探し出し、分割位置とする。該当する分割可能位置情報を“*”がない場合は、分割点“+”から最寄りの分割可能位置情報を“/”を探し出し、分割位置とする。
【0051】
所定のx文字を10文字とすると、上記の例では、以下の通りとなる。
・第1分割「This/system/*translates/*Japanese/sub+titles/into/*」
・第2分割「English,/Chinese/and/Ko+rean/*」
・第3分割「using/a/translation/service./」
そして、分割可能位置情報及び分割記号を削除し、各PTS(00:00-00:05,00:05-00:10,00:10-00:15)に対応させると、以下の通りになる。
・第1分割「This system translates Japanese subtitles into」PTS(00:00-00:05)
・第2分割「English, Chinese and Korean」PTS(00:05-00:10)
・第3分割「using a translation service.」PTS(00:10-00:15)
上記の例を視聴端末3により視聴した場合の例を示した図が
図7である。
【0052】
このようにすれば、言語的により適切な字幕を表示することができる。
【0053】
更に、上述した翻訳字幕生成装置1は、具体的には、各種の演算処理等を行うプロセッサを有するコンピュータシステムによって実現することができる。
図8はコンピュータシステムによって構成された翻訳字幕生成装置1のブロック図である。
【0054】
翻訳字幕生成装置1は、
図8に示す如く、プロセッサ101、メモリ(ROMやRAM)102、入力装置(キーボード、マウス、タッチパネルなど)103、通信装置104、記憶装置(ハードディスク、半導体ディスクなど)105を有するコンピュータ100により構成することができる。
【0055】
翻訳字幕生成装置1は、記憶装置105に格納されたプログラムがメモリ102にロードされ、プロセッサ101により実行されることにより、分離処理111と、翻訳原文テキスト生成処理112と、翻訳原文テキスト送信処理113と、翻訳字幕テキスト受信処理114と、配信コンテンツデータ生成処理115とが実現されるものである。ここで、分離処理111は分離部11に対応し、翻訳原文テキスト生成処理112は翻訳原文テキスト生成部12に対応し、翻訳原文テキスト送信処理113は翻訳原文テキスト送信部13に対応し、翻訳字幕テキスト受信処理114は翻訳テキスト受信部14に対応し、配信コンテンツデータ生成処理115は配信コンテンツデータ生成部15に対応する。尚、記憶装置105は、コンピュータ100と物理的に外部に設けられ、LAN等のネットワークを介してコンピュータ100と接続されていても良い。
【0056】
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
【符号の説明】
【0057】
1 翻訳字幕生成装置
2 翻訳サーバ
3 視聴端末
4 通信回線
11 分離部
12 翻訳原文テキスト生成部
13 翻訳原文テキスト送信部
14 翻訳字幕テキスト受信部
15 配信コンテンツデータ生成部
100 コンピュータ
101 プロセッサ
102 メモリ
103 入力装置
104 通信装置
105 記憶装置