特許7551286 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本テレビ放送網株式会社の特許一覧 ▶ 讀賣テレビ放送株式会社の特許一覧

特許7551286字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-06

(45)【発行日】2024-09-17

(54)【発明の名称】字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法

(51)【国際特許分類】

H04N 21/238 20110101AFI20240909BHJP

【ＦＩ】

H04N21/238

【請求項の数】 6

(21)【出願番号】P 2019184427

(22)【出願日】2019-10-07

(65)【公開番号】P2021061526

(43)【公開日】2021-04-15

【審査請求日】2022-10-04

(73)【特許権者】

【識別番号】313000601

【氏名又は名称】日本テレビ放送網株式会社

(73)【特許権者】

【識別番号】593119413

【氏名又は名称】讀賣テレビ放送株式会社

(74)【代理人】

【識別番号】100201341

【弁理士】

【氏名又は名称】畠山順一

(74)【代理人】

【識別番号】100079005

【弁理士】

【氏名又は名称】宇高克己

(74)【代理人】

【識別番号】100154405

【弁理士】

【氏名又は名称】前島大吾

(72)【発明者】

【氏名】松本学

(72)【発明者】

【氏名】菊地秀彦

(72)【発明者】

【氏名】穗坂怜

(72)【発明者】

【氏名】中島良隆

(72)【発明者】

【氏名】久保健太

【審査官】富樫明

(56)【参考文献】

【文献】特開２０１８－２０７３３９（ＪＰ，Ａ）

【文献】特開２００９－０１６９１０（ＪＰ，Ａ）

【文献】特開２０１３－２５１７６６（ＪＰ，Ａ）

【文献】特開２００２－０１０１３８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する分離部と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する送信部と、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストと、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する受信部と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの１分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、
を備え、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
字幕変換装置。

【請求項2】

前記所定の区切り記号が句点であり、
前記所定の翻訳単位が、ひとつの句点で終了する１文である
請求項１に記載の字幕変換装置。

【請求項3】

前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間の平均値である、
請求項１又は請求項２に記載の字幕変換装置。

【請求項4】

日本語のテキストを受信し、少なくとも一以上の言語に翻訳する翻訳装置と、テレビ放送用コンテンツデータを配信用コンテンツデータに変換する変換装置と、前記配信用コンテンツデータを受信し、コンテンツを視聴する視聴端末と、を備え、
前記翻訳装置は、
翻訳対象となる原文テキストを指定の言語に翻訳した翻訳テキストを生成し、前記翻訳テキストの分割可能位置に関する分割可能位置情報を生成する翻訳部を備え、
前記変換装置は、
前記テレビ放送用コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する分離部と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、
前記翻訳原文テキストを前記翻訳装置に送信する送信部と、
前記翻訳装置から、前記翻訳原文テキストに対応する前記翻訳テキストと、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する受信部と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの１分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、
前記配信用コンテンツデータを、前記視聴端末に配信する配信部と、
を備え、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
コンテンツ配信システム。

【請求項5】

コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離する処理と、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する処理と、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する処理と、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストと、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信する処理と、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの１分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する処理と、
をコンピュータに実行させ、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
プログラム。

【請求項6】

コンテンツデータを、少なくとも映像データと、コンテンツの音声をリアルタイムに字幕化したリアルタイム日本語字幕テキスト及びリアルタイム日本語字幕テキストを映像に表示するタイミングに関するリアルタイム日本語字幕表示時刻情報を含む字幕データと、に分離し、
前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成し、
日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信し、
前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストと、前記翻訳テキストの分割可能位置に関する分割可能位置情報と、を受信し、
前記翻訳テキストの全文字数と表示分割数とを用いて、前記翻訳テキストの１分割当たりの基準文字数を算出し、前記翻訳テキストに前記基準文字数毎に分割基準点を設定し、前記分割基準点に最も近い前記分割可能位置情報の位置により、前記翻訳テキストを分割し、分割した各翻訳テキストと、分割した各翻訳テキストを表示する翻訳字幕表示時刻情報と、を含む翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成し、
前記配信用コンテンツデータを、視聴端末に配信し、
前記翻訳字幕表示時刻情報は、前記リアルタイム日本語字幕表示時刻情報から、予め設定された設定時間情報を減算した時刻であり、
前記設定時間情報は、コンテンツの音声をリアルタイムに字幕化するリアルタイム字幕を生成に要する時間を考慮して定められた値である、
コンテンツ配信方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法に関し、特に、日本語字幕を他の言語に翻訳する際の処理の技術に関する。

【背景技術】

【0002】

近年、テレビ番組では、聴覚障害者向けサービスとして字幕を放送することが求められている。一方、グローバル化にともない、日本語のコンテンツを、外国人が視聴するケースも増加している。特に、放送ではなく、インターネットを介した動画配信サービスでは、それが顕著である。

【0003】

字幕の多言語サービスとしては、例えば、特許文献１に記載された技術がある。特許文献１に記載された技術は、テレビ受信機側で、映像から字幕データを分離又は字幕のURLを取得し、字幕データを翻訳サーバに送信し、字幕を所望の言語に翻訳させる。そして、テレビ受信機は、翻訳された字幕を受信して表示させる構成である。

【先行技術文献】

【特許文献】

【0004】

【文献】特表2005-521346号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１に記載された技術は、テレビ受信機側で、翻訳の処理や、翻訳後の字幕を表示するための処理を行うため、テレビ受信機（視聴端末）に特別な機能が必要となる。

【0006】

一方、配信側で日本語以外の他言語に対応した字幕を生成することも考えられるが、精度の高い翻訳は多くの労力と費用を必要とする。

【0007】

そこで、本発明の目的は、字幕を生成する配信側と、コンテンツを視聴する視聴端末側とが特別な機能を持つことなく、精度の良い日本語以外の他言語に対応した字幕を生成することができる字幕変換装置、コンテンツ配信システム、プログラム及びコンテンツ配信方法を提供することにある。

【課題を解決するための手段】

【0008】

本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する分離部と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する送信部と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する受信部と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部とを備える字幕変換装置である。

【0009】

本発明の一態様は、日本語のテキストを受信し、少なくとも一以上の言語に翻訳する翻訳装置と、テレビ放送用コンテンツデータを配信用コンテンツデータに変換する変換装置と、前記配信用コンテンツデータを受信し、コンテンツを視聴する視聴端末とを備え、前記変換装置は、前記テレビ放送用コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する分離部と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する翻訳原文テキスト生成部と、前記翻訳原文テキストを前記翻訳装置に送信する送信部と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する受信部と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する配信コンテンツデータ生成部と、前記配信用コンテンツデータを、前記視聴端末に配信する配信部とを備えるコンテンツ配信システムである。

【0010】

本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離する処理と、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する処理と、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信する処理と、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信する処理と、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成する処理とを、コンピュータに実行させるプログラムである。

【0011】

本発明の一態様は、コンテンツデータを、少なくとも映像データと、日本語字幕テキストを含む字幕データとに分離し、前記日本語字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成し、日本語を所望の少なくとも一以上の言語に翻訳する翻訳装置に、前記翻訳原文テキストを送信し、前記翻訳装置から、前記翻訳原文テキストに対応する翻訳テキストを受信し、前記翻訳テキストを所定の字幕単位に分割し、翻訳字幕データを生成し、前記映像データ及び前記翻訳字幕データを少なくとも含む、少なくとも一以上の言語に対応した配信用コンテンツデータを生成し、前記配信用コンテンツデータを、前記視聴端末に配信するコンテンツ配信方法である。

【発明の効果】

【0012】

本発明は、字幕を生成する配信側と、コンテンツを視聴する視聴端末側が特別な機能を持つことなく、精度の良い日本語以外の他言語に対応した字幕を生成することができる。

【図面の簡単な説明】

【0013】

【図1】図１は本実施形態におけるコンテンツ配信システムの全体構成例を示す図である。

【図2】図２は翻訳字幕生成装置１の機能構成例を示すブロック図である。

【図3】図３は、翻訳字幕生成装置１の動作を説明するための図である。

【図4】図４は本実施の形態における配信映像（日本語字幕）を視聴端末３により視聴した場合の例を示した図である。

【図5】図５は本実施の形態における配信映像（英語字幕）を視聴端末３により視聴した場合の例を示した図である。

【図6】図６は視聴者端末３における字幕言語の選択を説明するための図である。

【図7】図７は実施の形態の変形例を説明するための図である。

【図8】図８はコンピュータシステムによって構成された翻訳字幕生成装置１のブロック図である。

【発明を実施するための形態】

【0014】

本発明の実施の形態を説明する。

【0015】

図１は、本実施形態におけるコンテンツ配信システムの全体構成例を示す図である。図１に示すように、配信システムは、翻訳字幕生成装置１と、翻訳サーバ２と、視聴者の視聴端末３と、通信回線４とを備えて構成される。翻訳字幕生成装置１と翻訳サーバ２、翻訳字幕生成装置１と視聴端末３とは、通信回線４に接続可能で、相互に通信可能である。

【0016】

通信回線４は、データ通信が可能な通信路を意味する。すなわち、通信回線４は、直接接続のための専用線（専用ケーブル）やイーサネット（登録商標）等によるＬＡＮの他、電話通信網やケーブル網、インターネット等の通信網を含み、通信方法については有線／無線を問わない。

【0017】

翻訳字幕生成装置１は、単数又は複数のサーバ装置や記憶装置等を含んで構成されたサーバシステムである。翻訳字幕生成装置１は、翻訳サーバ２と連携し、Web API（Web Application Programming Interface）等を用いて日本語字幕を他言語（英語、中国語、韓国語等）に翻訳し、翻訳字幕の付いた動画を視聴端末３に配信する。

【0018】

翻訳サーバ２は、翻訳字幕生成装置１から送信される日本語テキストを、指示された言語に翻訳し、翻訳後のテキストを翻訳字幕生成装置１に送信する。尚、翻訳サーバ２は、１台のサーバが複数の言語を翻訳する機能を備えているだけでなく、翻訳する言語毎に翻訳サーバを設けても良い。

【0019】

視聴端末３は、例えば、HTTP Live Streaming (HLS)などの方式に対応し、字幕付き動画を視聴できる端末であり、無線通信基地局等を介して通信回線４に接続し、翻訳字幕生成装置１とデータ通信を行うことができる。視聴端末３は、例えば、スマートフォンや、携帯電話機、携帯型ゲーム装置、据置型家庭用ゲーム装置、業務用ゲーム装置、パソコン、タブレット型コンピュータ、据置型家庭用ゲーム装置のコントローラ等である。プレーヤ端末１は、基本的には、複数存在し、各視聴者により操作される。

【0020】

次に、翻訳字幕生成装置１の構成を説明する。図２は翻訳字幕生成装置１の機能構成例を示すブロック図である。

【0021】

翻訳字幕生成装置１は、分離部１１と、翻訳原文テキスト生成部１２と、翻訳原文テキスト送信部１３と、翻訳テキスト受信部１４と、配信コンテンツデータ生成部１５とを備える。

【0022】

分離部１１は、地上デジタル放送のコンテンツファイルを受信する。コンテンツファイルは、映像に字幕が重畳されていない映像ファイル（以下、「元映像ファイル」という場合がある）と、音声ファイルと、アンシラリーデータ(Ａｎｃｉｌｌａｒｙ)とを含むことができる。アンシラリーデータは、字幕データを含む。字幕データは、映像に重畳するテキスト（文字列）、各文字列の表示タイミング（ＰＴＳ：表示開始タイミング及び表示終了タイミング）、各文字列の表示位置（映像内の位置）等を含む。なお、字幕データは、解像度及びアスペクト比の少なくとも一方が互いに異なる複数の映像形式毎に、上記文字列、表示タイミング及び表示位置等を示してもよい。上記映像形式としては、ＨＤ（high definition video）、ＳＤ（standard definition television）、ワンセグ（携帯）等が例示される。

【0023】

分離部１１は、アンシラリーデータから字幕データを分離し、字幕データを翻訳原文テキスト生成部１２に出力する。また、分離部１１は、映像ファイル及び音声ファイルを、配信コンテンツデータ生成部１５に出力する。

【0024】

翻訳原文テキスト生成部１２は、字幕データをバッファリングする機能を備える。翻訳原文テキスト生成部１２は、各アンシラリーデータから分離された字幕テキストに含まれる所定の区切り記号を検出することにより、複数の日本語字幕テキストを、所定の翻訳単位に連結し、翻訳原文テキストを生成する。所定の区切り記号は句点（「。」又は「．」）が代表的であるが、これに限られない。例えば、コロン（：）や、セミコロン（；）、感嘆符（！）、疑問符（？）等でも良い。また、所定の翻訳単位とは、例えば、句点(。)で終了する１文(１センテンス)である。翻訳原文テキスト生成部１２は、例えば、句点(。)を検出することにより、複数に分割されている各字幕テキストを１文(１センテンス)化し、翻訳原文テキストを生成する。このとき、翻訳原文テキストを識別する翻訳ＩＤと、連結した字幕のＰＴＳに関する情報とを、翻訳原文テキストに含めて、翻訳原文テキスト送信部１３に出力する。尚、所定の翻訳単位は、１文(１センテンス)に限らず、ある程度が意味の通じる文節単位でも良い。

【0025】

翻訳原文テキスト送信部１３は、翻訳ＩＤを含めた翻訳原文テキストを、翻訳サーバ２に送信する。送信する翻訳サーバ２は、字幕テキストを翻訳する言語に対応する翻訳サーバである。例えば、日本語字幕を英語字幕に翻訳するならば、日本語から英語に翻訳を実行する翻訳サーバに送信する。このとき、翻訳言語に対応する各翻訳サーバ２に、同時に送信するようにしても良い。例えば、英語、中国語、韓国語の翻訳に対応した各翻訳サーバ２に送信しても良い。このようにすれば、ひとつの翻訳原文テキストから多言語の翻訳を並列的に行うことができる。

【0026】

翻訳字幕テキスト受信部１４は、送信した翻訳原文テキストに対応する翻訳された翻訳字幕テキストを受信する。

【0027】

配信コンテンツデータ生成部１５は、分離部１１から映像ファイル及び音声ファイルを受信し、翻訳テキスト受信部１４から翻訳字幕テキストを受信する。配信コンテンツデータ生成部１５は、映像ファイル及び音声ファイルを、例えば、HTTP Live Streaming (HLS)などの方式に変換する。

【0028】

また、配信コンテンツデータ生成部１５は、受信した翻訳字幕テキストを、Web Video Text Tracks(WebVTT)などの字幕フォーマットに変換する。ここで、翻訳字幕テキストは、１文（１センテンス）であるので、複数に分割する必要がある。最も簡単な方法は、翻訳字幕テキストに対応する日本語字幕テキスト分に分割することである。例えば、翻訳字幕テキストに対応する翻訳原文テキストが、３個のＰＴＳに対応する字幕テキストから生成された場合、１単語が途中で途切れないように翻訳字幕テキストを３分割する。このとき、ひとつのＰＴＳに対応するテキスト数（文字列数）を、予め決定しておくことが好ましい。

【0029】

続いて、翻訳字幕生成装置１の動作を説明する。図３は、翻訳字幕生成装置１の動作を説明するための図である。尚、以下の説明では、日本語字幕を、英語字幕に翻訳する例を説明するが、これに限られず、並列的に他の言語（例えば、中国語、韓国語など）の処理を行えることは言うまでもない。

【0030】

翻訳字幕生成装置１は、地上デジタル放送のコンテンツファイルを受信する。コンテンツファイルは、映像に字幕が重畳されていない映像ファイルと、音声ファイルと、アンシラリーデータとを含むことができる。アンシラリーデータは、字幕データを含む。字幕データは、映像に重畳する文字列、及び、各文字列の表示タイミング（ＰＴＳ：表示開始タイミング及び表示終了タイミング）を少なくとも含む。但し、各文字列の表示位置（映像内の位置）等を含んでも良い。

【0031】

分離部１１は、アンシラリーデータから字幕データを分離し、字幕データを翻訳原文テキスト生成部１２に出力する。図３の例は、３つのアンシラリーデータから取得した３つの字幕データを示したものである。図３の例では、３つの字幕データである（字幕テキスト「本システム、」、ＰＴＳ：００：００－００：０５）、（字幕テキスト「翻訳サービスを使用して」、ＰＴＳ：００：０５－００：１０）及び（字幕テキスト「日本語字幕を英語に翻訳します。」、ＰＴＳ：００：１０－００：１５）である。一方、分離部１１は、映像ファイル及び音声ファイルを、配信コンテンツデータ生成部１５に出力する。

【0032】

翻訳原文テキスト生成部１２は、分離部１１からの字幕データを受け、字幕テキストから句点(。)を検出し、複数の字幕テキストを１文(１センテンス)化する。１文(１センテンス)化の処理は、検出した句点(。)毎に行われる。例えば、図３の例では、３つの字幕データである（字幕テキスト「本システムは、」、ＰＴＳ：００：００－００：０５）、（字幕テキスト「翻訳サービスを使用して」、ＰＴＳ：００：０５－００：１０）及び（字幕テキスト「日本語字幕を英語に翻訳します。」、ＰＴＳ：００：１０－００：１５）のうち、字幕テキスト「日本語字幕を英語に翻訳します。」について、句点(。)が検出される。句点(。)が検出される前の二つの字幕テキスト「本システム、」及び字幕テキスト「翻訳サービスを使用して」は、句点(。)が検出された字幕テキスト「日本語字幕を英語に翻訳します。」と、一文となる語句のテキストである。従って、これらの字幕テキストを１文(１センテンス)化し、翻訳原文テキスト「本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を生成する。

【0033】

翻訳原文テキスト生成部１２は、１文(１センテンス)化された翻訳原文テキストに、この翻訳原文テキストを識別する翻訳ＩＤを付して、翻訳原文テキスト送信部１３に出力する。図３の例では、翻訳原文テキスト「本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」に、翻訳ＩＤ“１００”を付して、翻訳原文テキスト「１００：本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、翻訳原文テキスト送信部１３に出力する。

【0034】

また、翻訳原文テキスト生成部１２は、その翻訳ＩＤと、翻訳原文テキストの元となる字幕テキストのＰＴＳとを対応付けて配信コンテンツデータ生成部１５に出力する。例えば、（１００，ＰＴＳ：００：００－００：０５，ＰＴＳ：００：０５－００：１０，ＰＴＳ：００：１０－００：１５）である。

【0035】

翻訳原文テキスト送信部１３は、翻訳ＩＤを付した翻訳原文テキストを、翻訳する言語に対応する翻訳サーバ２に送信する。図３の例では、翻訳原文テキストである「１００：本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、英語翻訳の翻訳サーバ２に送信する。

【0036】

翻訳サーバ２は、翻訳ＩＤを付した翻訳原文テキストを受信し、翻訳原文テキストを翻訳し、翻訳字幕生成装置１に送信する。図３の例では、「１００：本システムは、翻訳サービスを使用して、日本字幕を英語に翻訳します。」を、英語である「100:This system translates Japanese subtitles into English using a translation service.」に翻訳し、その翻訳字幕テキストを、翻訳字幕生成装置１に送信する。

【0037】

翻訳字幕テキスト受信部１４は、翻訳サーバ２から翻訳テキストを受信する。図３の例では、「100:This system translates Japanese subtitles into English using a translation service.」を受信し、配信コンテンツデータ生成部１５に出力する。

【0038】

配信コンテンツデータ生成部１５は、受信した翻訳テキストに付されている翻訳ＩＤに対応するＰＴＳを、字幕翻訳テキストと対応付ける。図３の例では、翻訳ＩＤ“１００”に対応するＰＴＳは、（１００，ＰＴＳ：００：００－００：０５，ＰＴＳ：００：０５－００：１０，ＰＴＳ：００：１０－００：１５）である。従って、配信コンテンツデータ生成部１５は、(This system translates Japanese subtitles into English using a translation service.:00:00-00:05,00:05-00:10,00:10-00:15)のように、字幕翻訳テキストとＰＴＳとを対応付ける。

【0039】

次に、配信コンテンツデータ生成部１５は、分離部１１から受信した映像ファイル及び音声ファイルを、例えば、HTTP Live Streaming (HLS)などの方式に変換する。また、配信コンテンツデータ生成部１５は、字幕翻訳テキストを、Web Video Text Tracks(WebVTT)などの字幕フォーマットに変換する。翻訳テキスト(This system translates Japanese subtitles into English using a translation service.:00:00-00:05,00:05-00:10,00:10-00:15)を、WebVTTに変換した一例を、下記に示す。
00:00--> 00:05
This system translates
00:05--> 00:10
Japanese subtitles into English
00:10--> 00:15
using a translation service.
上記の例では、翻訳テキスト「This system translates Japanese subtitles into English using a translation service.」を、３つのＰＴＳ（:00:00-00:05,00:05-00:10,00:10-00:15）に対応させるために、３分割している。分割の方法であるが、１単語が途中で途切れなければ、どのような方法を用いても良い。例えば、ひとつのＰＴＳに対応するテキスト数（文字列数）を、予め決定しておいても良い。

【0040】

このようにして、配信コンテンツデータ生成部１５は、配信用のコンテンツデータを生成し、視聴端末３に送信する。

【0041】

図４は本実施の形態における配信映像（日本語字幕）を視聴端末３により視聴した場合の例を示した図であり、図５は本実施の形態における配信映像（英語字幕）を視聴端末３により視聴した場合の例を示した図である。

【0042】

図４の例では、００：００－００：０５時に字幕テキスト「本システムは、」が表示され、００：０５－００：１０時に「翻訳サービスを使用して」が表示され、００：１０－００：１５時に字幕テキスト「日本語字幕を英語に翻訳します。」が表示されている。一方、図５の例では、００：００－００：０５時に字幕テキスト「This system translates」が表示され、００：０５－００：１０時に「Japanese subtitles into English」が表示され、００：１０－００：１５時に字幕テキスト「using a translation service.」が表示されている。このように、日本語の字幕に対して、翻訳処理による遅延を生じることなく英語字幕が表示されるのが分かる。

【0043】

尚、英語に限られず、他の複数の言語に対応させるためには、視聴者端末３により、字幕の言語を選択できるようにする。例えば、図６に示すように、オリジナルの日本語字幕について、字幕の言語を選択する選択ボタンを設け、視聴者端末３より、字幕の言語を選択できるようにしても良い。このとき、翻訳字幕生成装置１は、選択された言語に対応するコンテンツデータを配信する。

【0044】

また、上述した実施の形態では、翻訳字幕の表示タイミングとして、オリジナルの日本語字幕のＰＴＳを用いたが、これに限られない。オリジナルの日本語字幕も、リアルタイム字幕などの場合、日本語字幕も映像よりも遅延している場合が考えられる。そこで、リアルタイム字幕を生成に要する時間の平均値などを、オリジナルの日本語字幕のＰＴＳから減算するようにして修正を加えても良い。このようにすれば、オリジナルの日本語字幕が遅延している場合であっても、その遅延を吸収することができる。

【0045】

本実施の形態は、文章が複数に分割された字幕テキストを、所定の区切り記号（例えば、句点（「。」又は「．」）を用いて、所定の翻訳単位（例えば、１文(１センテンス)）に纏めた翻訳原文テキストを生成し、この翻訳原文テキストにより、所定の言語の翻訳を行うように構成しているので、各字幕テキスト単位の翻訳と比較して、主語、修飾語、述語の関係が明確となり、精度の高い翻訳を得ることができる。

【0046】

更に、本実施の形態は、翻訳後の字幕テキストを表示する表示タイミングを、少なくとも翻訳処理に要する時間分調整しているので、映像と字幕との表示タイミングのずれを防ぐことができる。

【0047】

次に、本実施の形態の変形例を説明する。

【0048】

翻訳サーバ２側が、翻訳字幕テキストを分割可能位置に関する分割可能位置情報を提供できる場合は、その分割可能位置情報を用いて、１センテンスの翻訳字幕テキストを複数に分割する。

【0049】

例えば、文節単位で分割可能な位置に関する分割可能位置情報を“＊”とし、単語単位で分割可能な位置に関する分割可能位置情報を“／”とする。

【0050】

このとき、翻訳原文テキストを「本システムは、翻訳サービスを使用して、日本字幕を英語、中国語及び韓国語に翻訳します。」とする。すると、翻訳サーバ２から受信する翻訳字幕テキストは、以下のようになる。
「This/system/*translates/*Japanese/subtitles/into/*English,/Chinese/and/Korean/*using/a/translation/service./」
配信コンテンツデータ生成部１５は、（翻訳字幕テキストの全文字数／表示分割数）を計算し、１分割当たりの文字数を決定する。例えば、上述した例と同様に、３分割する場合を考えると、翻訳字幕テキストの全文字数は、１０３文字（スペースを含む）であり、１分割当たりの文字数は約３５文字（１０３／３）となる。そこで、翻訳字幕テキストを３５文字毎に３分割すると、以下の通りとなる。尚、“＋”は分割点である。
「This/system/*translates/*Japanese/sub+titles/into/*English,/Chinese/and/Ko+rean/*using/a/translation/service./」
配信コンテンツデータ生成部１５は、分割点“＋”から前後所定のｘ文字以内の最寄りの分割可能位置情報を“＊”を探し出し、分割位置とする。該当する分割可能位置情報を“＊”がない場合は、分割点“＋”から最寄りの分割可能位置情報を“／”を探し出し、分割位置とする。

【0051】

所定のｘ文字を１０文字とすると、上記の例では、以下の通りとなる。
・第１分割「This/system/*translates/*Japanese/sub+titles/into/*」
・第２分割「English,/Chinese/and/Ko+rean/*」
・第３分割「using/a/translation/service./」
そして、分割可能位置情報及び分割記号を削除し、各ＰＴＳ（00:00-00:05,00:05-00:10,00:10-00:15）に対応させると、以下の通りになる。
・第１分割「This system translates Japanese subtitles into」ＰＴＳ（00:00-00:05）
・第２分割「English, Chinese and Korean」ＰＴＳ（00:05-00:10）
・第３分割「using a translation service.」ＰＴＳ（00:10-00:15）
上記の例を視聴端末３により視聴した場合の例を示した図が図７である。

【0052】

このようにすれば、言語的により適切な字幕を表示することができる。

【0053】

更に、上述した翻訳字幕生成装置１は、具体的には、各種の演算処理等を行うプロセッサを有するコンピュータシステムによって実現することができる。図８はコンピュータシステムによって構成された翻訳字幕生成装置１のブロック図である。

【0054】

翻訳字幕生成装置１は、図８に示す如く、プロセッサ１０１、メモリ（ＲＯＭやＲＡＭ）１０２、入力装置（キーボード、マウス、タッチパネルなど）１０３、通信装置１０４、記憶装置（ハードディスク、半導体ディスクなど）１０５を有するコンピュータ１００により構成することができる。

【0055】

翻訳字幕生成装置１は、記憶装置１０５に格納されたプログラムがメモリ１０２にロードされ、プロセッサ１０１により実行されることにより、分離処理１１１と、翻訳原文テキスト生成処理１１２と、翻訳原文テキスト送信処理１１３と、翻訳字幕テキスト受信処理１１４と、配信コンテンツデータ生成処理１１５とが実現されるものである。ここで、分離処理１１１は分離部１１に対応し、翻訳原文テキスト生成処理１１２は翻訳原文テキスト生成部１２に対応し、翻訳原文テキスト送信処理１１３は翻訳原文テキスト送信部１３に対応し、翻訳字幕テキスト受信処理１１４は翻訳テキスト受信部１４に対応し、配信コンテンツデータ生成処理１１５は配信コンテンツデータ生成部１５に対応する。尚、記憶装置１０５は、コンピュータ１００と物理的に外部に設けられ、ＬＡＮ等のネットワークを介してコンピュータ１００と接続されていても良い。

【0056】

以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

【符号の説明】

【0057】

１翻訳字幕生成装置
２翻訳サーバ
３視聴端末
４通信回線
１１分離部
１２翻訳原文テキスト生成部
１３翻訳原文テキスト送信部
１４翻訳字幕テキスト受信部
１５配信コンテンツデータ生成部
１００コンピュータ
１０１プロセッサ
１０２メモリ
１０３入力装置
１０４通信装置
１０５記憶装置

【図1】