特開2024-176222 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-176222字幕表示位置学習装置、字幕表示位置推論装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024176222

(43)【公開日】2024-12-19

(54)【発明の名称】字幕表示位置学習装置、字幕表示位置推論装置及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241212BHJP

G06N 20/00 20190101ALN20241212BHJP

【ＦＩ】

G06T7/00 350B

G06N20/00 130

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023094612

(22)【出願日】2023-06-08

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】▲高▼木政徳

(72)【発明者】

【氏名】木内良

(72)【発明者】

【氏名】杉之下太一

(72)【発明者】

【氏名】鈴木充典

(72)【発明者】

【氏名】河合吉彦

(72)【発明者】

【氏名】浅野竜平

(72)【発明者】

【氏名】大亦寿之

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA08

5L096FA69

5L096GA08

5L096KA04

5L096KA15

(57)【要約】

【課題】字幕表示位置を、映像に応じた適切な位置に自動的に調整する。
【解決手段】字幕表示位置学習装置１－１の字幕領域抽出部１１は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求める。座標変換部１３は、テーブル１２を用いて、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する。ストレージ部１４には、画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）が教師データとして格納される。学習部１５は、ストレージ部１４から画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）からなる教師データを読み出し、教師データを用いて学習を行い、学習済みモデルを生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

映像に付加される字幕の表示位置を学習する字幕表示位置学習装置において、
前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部と、
予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部と、
前記字幕が付加されていない画像データを画像データ（字幕なし）として、前記画像データ（字幕なし）及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ（字幕なし）を入力データとし、前記画像データ（字幕なし）内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部と、
を備えたことを特徴とする字幕表示位置学習装置。

【請求項2】

学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置において、
請求項１に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部と、
前記字幕が付加されていない画像データを画像データ（字幕なし）として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部と、
を備えたことを特徴とする字幕表示位置推論装置。

【請求項3】

請求項２に記載の字幕表示位置推論装置において、
さらに、前記推論部により推論された前記字幕表示位置を入力し、当該字幕表示位置を、予め設定された時間期間の間継続して出力するか、
または、前記字幕表示位置を入力し、当該字幕表示位置が予め設定された回数だけ連続して同一である場合に、当該字幕表示位置を出力するか、
または、前記字幕表示位置を入力し、現在入力した前記字幕表示位置を第１の字幕表示位置とし、直前に入力した前記字幕表示位置を第２の字幕表示位置として、前記第１の字幕表示位置と前記第２の前記字幕表示位置との間の差が、予め設定された閾値以上である場合に、前記第１の字幕表示位置を出力し、前記差が前記閾値未満である場合に、出力していた字幕表示位置を継続して出力するか、
または、前記字幕表示位置を入力すると共に、当該字幕表示位置に対応する前記画像データ（字幕なし）を入力し、現在入力した前記画像データを第１の画像データとし、直前に入力した前記画像データを第２の画像データとして、前記第１の画像データと前記第２の画像データとの間の差が、予め設定された閾値以上である場合に、カット切り替わりのタイミングであると判断し、当該カット切り替わりのタイミングのときに入力した前記字幕表示位置を出力し、前記差が前記閾値未満である場合に、カット切り替わりのタイミングでないと判断し、出力していた字幕表示位置を継続して出力するか、の制御を行う制御出力部を備えたことを特徴とする字幕表示位置推論装置。

【請求項4】

映像に付加される字幕の表示位置を学習する字幕表示位置学習装置を構成するコンピュータを、
前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部、
予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部、及び、
前記字幕が付加されていない画像データを画像データ（字幕なし）として、前記画像データ（字幕なし）及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ（字幕なし）を入力データとし、前記画像データ（字幕なし）内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部として機能させるためのプログラム。

【請求項5】

請求項１に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部を備え、前記記憶部に格納された前記学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置を構成するコンピュータを、
前記字幕が付加されていない画像データを画像データ（字幕なし）として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置、及びプログラムに関する。

【背景技術】

【0002】

従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示するクローズドキャプション方式の字幕放送を提供している。生放送番組において送出される字幕は、生放送番組の音声から人手により書き起こされる。

【0003】

生放送番組の字幕を制作する手法としては、人が音声を聞きながら入力する方式、音声認識の結果を人手で修正する半自動の方式等が採用されている（例えば非特許文献１を参照）。

【0004】

このような字幕放送において、受信機は、視聴者により字幕放送の表示がオンに操作されることで、生放送番組の本編映像に、デコードした文字を重ねて表示する。

【0005】

この場合、本編映像のうち情報量が多い部分（テロップ、地図等）の上に字幕の文字が重なると、視聴者は本編映像のＣＧスーパー、テロップ等が見え難くなってしまう。そのため、字幕を制作する際に、本編映像のうち情報量が多い部分を避けるように、人が操作をすることで、字幕表示位置を調整している。

【0006】

図３９は、従来の字幕表示位置調整手法における調整前後の字幕表示位置の例を示す図である。図３９（１）に示す調整前の放送画面では、字幕「この街はヨーロッパの入口といわれていて」がＣＧスーパーに被っている。このため、視聴者は本編映像のＣＧスーパーが見え難くなり、ＣＧスーパーの情報を正しく取得することができない。

【0007】

そこで、字幕制作室の担当者は、図３９（１）に示す調整前の放送画面を見ながら、放送画面に表示された字幕がＣＧスーパーに重ならないように、操作ボックスを用いて、字幕表示位置を適切な位置に変更する。つまり、担当者は、図３９（１）に示す字幕表示位置を、図３９（２）に示す位置へ移動させる。

【0008】

これにより、字幕はＣＧスーパーに重ならない位置へ移動するため、視聴者は、字幕の情報だけでなく、ＣＧスーパーの情報も正確に取得することができる。

【0009】

特に、生放送または一部収録済み番組の放送番組に対してリアルタイムで字幕を付与する生字幕室において、担当者は、音声認識または高速でタイピングすることにより字幕を制作すると共に、番組の本編映像を見ながら字幕表示位置を手動で調整している。

【先行技術文献】

【非特許文献】

【0010】

【非特許文献1】小森智康、“生放送番組における自動字幕制作の最新動向”、［online］、ＮＨＫ技研Ｒ＆Ｄ、２０２０年夏号解説０２、ＮＨＫ放送技術研究所、［令和５年２月３日検索］、インターネット＜ＵＲＬ：https://www.nhk.or.jp/strl/publica/rd/182/3.html＞

【発明の概要】

【発明が解決しようとする課題】

【0011】

前述のとおり、放送番組の字幕制作において、画面上の字幕の表示位置をＣＧスーパー等に被らないように適切に決定する必要があり、担当者は、放送画面を注視しながら、操作ボックスのボタン操作により、字幕の表示位置（高さ、右寄せ及び左寄せ）を調整する。しかしながら、担当者の手動による調整作業は負担が大きいという問題があった。

【0012】

このため、担当者の手動による調整作業に代えて、負担の少ない新たな手法が所望されていた。字幕位置を調整するオペレーションを自動化することで、字幕制作の効率化が期待できるからである。また、要員及び字幕制作の効率化の関係で、字幕位置を調整することなく送出している番組については、自動化により、追加要員なしで位置調整が可能となり、視聴者サービスの向上にもつながるからである。

【0013】

この問題を解決するために、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願２０２２－０２８１６９号公報の手法が提案されている。この手法は、映像に含まれる特定のオブジェクト（人物の顔、字幕、地図等）の物体を検知し、物体毎に定められるスコアを座標にマッピングし、スコアが最小となる字幕表示領域を字幕表示位置として決定するものである。

【0014】

しかしながら、この手法では、物体毎に定められるスコアに基づいてマッピングが行われるため、必ずしも手動の調整作業によるマッピングと同等の字幕表示位置が得られるとは限らない。このため、手動の調整作業と同等の字幕表示位置が得られるような手法が所望されていた。

【0015】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、字幕表示位置を、映像に応じた適切な位置に自動的に調整可能な字幕表示位置学習装置、字幕表示位置推論装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0016】

前記課題を解決するために、請求項１の字幕表示位置学習装置は、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置において、前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部と、予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部と、前記字幕が付加されていない画像データを画像データ（字幕なし）として、前記画像データ（字幕なし）及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ（字幕なし）を入力データとし、前記画像データ（字幕なし）内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部と、を備えたことを特徴とする。

【0017】

また、請求項２の字幕表示位置推論装置は、学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置において、請求項１に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部と、前記字幕が付加されていない画像データを画像データ（字幕なし）として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部と、を備えたことを特徴とする。

【0018】

また、請求項３の字幕表示位置推論装置は、請求項２に記載の字幕表示位置推論装置において、さらに、前記推論部により推論された前記字幕表示位置を入力し、当該字幕表示位置を、予め設定された時間期間の間継続して出力するか、または、前記字幕表示位置を入力し、当該字幕表示位置が予め設定された回数だけ連続して同一である場合に、当該字幕表示位置を出力するか、または、前記字幕表示位置を入力し、現在入力した前記字幕表示位置を第１の字幕表示位置とし、直前に入力した前記字幕表示位置を第２の字幕表示位置として、前記第１の字幕表示位置と前記第２の前記字幕表示位置との間の差が、予め設定された閾値以上である場合に、前記第１の字幕表示位置を出力し、前記差が前記閾値未満である場合に、出力していた字幕表示位置を継続して出力するか、または、前記字幕表示位置を入力すると共に、当該字幕表示位置に対応する前記画像データ（字幕なし）を入力し、現在入力した前記画像データを第１の画像データとし、直前に入力した前記画像データを第２の画像データとして、前記第１の画像データと前記第２の画像データとの間の差が、予め設定された閾値以上である場合に、カット切り替わりのタイミングであると判断し、当該カット切り替わりのタイミングのときに入力した前記字幕表示位置を出力し、前記差が前記閾値未満である場合に、カット切り替わりのタイミングでないと判断し、出力していた字幕表示位置を継続して出力するか、の制御を行う制御出力部を備えたことを特徴とする。

【0019】

また、請求項４のプログラムは、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置を構成するコンピュータを、前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部、予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部、及び、前記字幕が付加されていない画像データを画像データ（字幕なし）として、前記画像データ（字幕なし）及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ（字幕なし）を入力データとし、前記画像データ（字幕なし）内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部として機能させることを特徴とする。

【0020】

また、請求項５のプログラムは、請求項１に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部を備え、前記記憶部に格納された前記学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置を構成するコンピュータを、前記字幕が付加されていない画像データを画像データ（字幕なし）として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部として機能させることを特徴とする。

【発明の効果】

【0021】

以上のように、本発明によれば、字幕表示位置を、映像に応じた適切な位置に自動的に調整することができる。

【図面の簡単な説明】

【0022】

【図1】（１）は、画像座標系における字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を説明する図である。（２）は、字幕座標系における字幕表示位置（Ｘ，Ｙ）を説明する図である。

【図2】実施例１の字幕表示位置学習装置の構成例を示すブロック図である。

【図3】実施例１の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【図4】実施例１の字幕表示位置学習装置の処理例を示すフローチャートである。

【図5】テーブルのデータ構成例を示す図である。

【図6】ストレージ部に格納される教師データの例を示す図である。

【図7】実施例１の字幕表示位置推論装置の構成例を示すブロック図である。

【図8】実施例１の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【図9】実施例１の字幕表示位置推論装置の処理例を示すフローチャートである。

【図10】実施例２の字幕表示位置学習装置の構成例を示すブロック図である。

【図11】実施例２の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【図12】実施例２の字幕表示位置学習装置の処理例を示すフローチャートである。

【図13】ストレージ部に格納される教師データの例を示す図である。

【図14】実施例２の字幕表示位置推論装置の構成例を示すブロック図である。

【図15】実施例２の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【図16】実施例２の字幕表示位置推論装置の処理例を示すフローチャートである。

【図17】実施例３の字幕表示位置学習装置の構成例を示すブロック図である。

【図18】実施例３の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【図19】実施例３の字幕表示位置学習装置の処理例を示すフローチャートである。

【図20】ストレージ部に格納される教師データの例を示す図である。

【図21】実施例３の字幕表示位置推論装置の構成例を示すブロック図である。

【図22】実施例３の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【図23】実施例３の字幕表示位置推論装置の処理例を示すフローチャートである。

【図24】テーブルのデータ構成例を示す図である。

【図25】実施例４の字幕座標系における字幕表示位置（Ｘ，Ｙ，Ｚ）を説明する図である。

【図26】実施例４の字幕表示位置学習装置の構成例を示すブロック図である。

【図27】実施例４の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【図28】実施例４の字幕表示位置学習装置の処理例を示すフローチャートである。

【図29】ストレージ部に格納される教師データの例を示す図である。

【図30】実施例４の字幕表示位置推論装置の構成例を示すブロック図である。

【図31】実施例４の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【図32】実施例４の字幕表示位置推論装置の処理例を示すフローチャートである。

【図33】テーブルのデータ構成例を示す図である。

【図34】実施例５の字幕座標系における字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を説明する図である。

【図35】実施例５の字幕表示位置推論装置の構成例を示すブロック図である。

【図36】実施例５の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【図37】実施例５の字幕表示位置推論装置の処理例を示すフローチャートである。

【図38】テーブルのデータ構成例を示す図である。

【図39】従来の字幕表示位置調整手法における調整前後の字幕表示位置の例を示す図である。

【発明を実施するための形態】

【0023】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の字幕表示位置学習装置は、番組の映像と字幕の位置との間の関係性を機械学習し、学習済みモデルを生成することを特徴とする。また、本発明の字幕表示位置推論装置は、字幕表示位置学習装置により生成された学習済みモデルを用いて、番組の映像に付加される字幕の位置を推論することを特徴とする。

【0024】

これにより、字幕表示位置を、映像に応じた適切な位置に自動的に調整することができる。

【0025】

〔用語の定義〕
まず、後述する実施例１，２，３，４，５等にて使用する用語について定義する。図１（１）は、画像座標系における字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を説明する図である。画像座標系は、番組の映像に字幕を付加する際の画像の座標系を示すものであり、その座標は、ｘ軸及びｙ軸上においてｘ及びｙにより表される。

【0026】

図１（１）に示すように、画像内の領域αに字幕が表示されるものとする。そうすると、字幕が表示される領域αの位置（字幕位置）を示す字幕左上座標（ｘ，ｙ）は、画像座標系において領域αの左上の座標である。また、領域αの位置を示す字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）は、画像座標系における領域αを中心座標（ｃｘ，ｃｙ）、幅ｗ及び高さｈで表した領域である。

【0027】

図１（２）は、字幕座標系における字幕表示位置（Ｘ，Ｙ）を説明する図である。字幕座標系は、映像に字幕が付加される際の字幕の座標系を示すものであり、その座標は、Ｘ軸及びＹ軸上においてＸ及びＹにより表される。尚、実施例４の字幕表示位置（Ｘ，Ｙ，Ｚ）及び実施例５の字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）については後述する。

【0028】

図１（２）に示す全体の四角の枠βは、図１（１）に示した画像の領域に対応している。字幕表示位置（Ｘ，Ｙ）は、字幕座標系において画像に対応する枠β内に字幕が表示される位置を示し、本例では、後述する２４パターンのうちのいずれかのパターンで表される。

【0029】

Ｘ軸及びＹ軸上をそれぞれ２１及び８の領域に区分したとして、Ｘは、左寄せ（１列目）、中央（４列目）及び右寄せ（７列目）のうちのいずれかである（Ｘ＝左寄せ，中央，右寄せ）。また、Ｙは、１（１行目）から８（８行目）までの間のいずれかの整数値である（Ｙ＝１，・・・，８）。

【0030】

図１（２）に示すように、例えば画像の左上に字幕が表示される場合、字幕表示位置（Ｘ，Ｙ）＝（左寄せ，１行目）であり、この場合の字幕は、１列目及び１，２行目から１５列目及び１，２行目までの領域β１に表示されることとなる。

【0031】

また、例えば画像の中央に字幕が表示される場合、字幕表示位置（Ｘ，Ｙ）＝（中央，４行目）であり、この場合の字幕は、４列目及び４，５行目から１８列目及び４，５行目までの領域β２に表示されることとなる。また、例えば画像の右下に字幕が表示される場合、字幕表示位置（Ｘ，Ｙ）＝（右寄せ，７行目）であり、この場合の字幕は、７列目及び７，８行目から２１列目及び７，８行目までの領域β３に表示されることとなる。

【0032】

このように、図１（２）の例において、字幕の配置は、Ｘで表される横方向の「左寄せ」「中央」及び「右寄せ」の３パターン、及びＹで表される縦方向の開始行である「１行目」～「８行目」の８パターンの組み合わせとなる。

【0033】

つまり、字幕表示位置（Ｘ，Ｙ）は、画面を横２１×縦８のメッシュ状の表示枠に分けた場合に、連続する横１５列×縦２行の表示枠を１つの字幕の表示枠として、横方向「右寄せ」「中央」「左寄せ」、及び縦方向「１行目」～「８行目」の組み合わせの合計８×３＝２４パターンのいずれかとなる。

【0034】

以下に説明する実施例１，２，３，４，５、並びに他の第１の実施例及び他の第２の実施例において、字幕表示位置学習装置は、字幕が付加されていない画像データ及び字幕位置情報を教師データとして学習を行うことで、学習済みモデルを生成する。また、字幕表示位置推論装置は、字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕が付加されていない画像データから字幕位置情報を推論する。

【0035】

〔実施例１〕
次に、実施例１について説明する。実施例１は、字幕が付加されていない映像データから画像データを切り出し、字幕が付加されていない画像データ及び字幕表示位置（Ｘ，Ｙ）を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置（Ｘ，Ｙ）を推論する例である。

【0036】

以下、字幕が付加されていない映像データを「映像データ（字幕なし）」といい、後述する字幕が付加されている映像データを「映像データ（字幕あり）」という。また、字幕が付加されていない画像データを「画像データ（字幕なし）」といい、後述する字幕が付加されている画像データを「画像データ（字幕あり）」という。

【0037】

例えば、映像データ（字幕なし）は、スタジオにて制作され放送された番組の映像であり、映像データ（字幕あり）は、受信機により実際に字幕が表示された映像である。

【0038】

（実施例１／字幕表示位置学習装置）
まず、実施例１の字幕表示位置学習装置について説明する。図２は、実施例１の字幕表示位置学習装置の構成例を示すブロック図であり、図３は、実施例１の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【0039】

この字幕表示位置学習装置１－１は、画像切り出し部１０、字幕領域抽出部１１、テーブル１２、座標変換部１３、ストレージ部１４、学習部１５及び記憶部１６を備えている。

【0040】

字幕表示位置学習装置１－１は、映像データ（字幕なし）及び映像データ（字幕あり）を入力する（図３の映像データ（字幕あり）には、字幕が付加された領域γが示されている。この領域γには、例えば背景をグレーの色で表した字幕が表示されている。）。そして、字幕表示位置学習装置１－１は、画像切り出し部１０、字幕領域抽出部１１、テーブル１２及び座標変換部１３にて字幕表示位置（Ｘ，Ｙ）を生成することで、画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）（図３を参照して例えば（Ｘ，Ｙ）＝（右寄せ，７行目））からなる教師データを生成し（ステップＳ３０１）、これをストレージ部１４に格納する。

【0041】

字幕表示位置学習装置１－１は、学習部１５にてストレージ部１４から教師データを読み出し、教師データを用いて画像データ（字幕なし）と字幕表示位置（Ｘ，Ｙ）との間の関係を学習し、学習済みモデルを生成する（ステップＳ３０２）。そして、字幕表示位置学習装置１－１は、学習済みモデルを記憶部１６に格納する。

【0042】

図４は、実施例１の字幕表示位置学習装置１－１の処理例を示すフローチャートである。以下、図２及び図４を参照して字幕表示位置学習装置１－１の処理例を説明する。

【0043】

画像切り出し部１０は、映像データ（字幕なし）、及び当該映像データ（字幕なし）に同期した（対応する）映像データ（字幕あり）を入力する（ステップＳ４０１）。

【0044】

画像切り出し部１０は、映像データ（字幕なし）及び映像データ（字幕あり）からそれぞれ静止画を切り出し、画像データ（字幕なし）及び画像データ（字幕あり）を生成する（ステップＳ４０２）。例えば画像切り出し部１０は、予め設定された時間（例えば１０～６０秒）毎に、静止画の切り出しを行う。

【0045】

画像切り出し部１０は、画像データ（字幕なし）及び画像データ（字幕あり）を字幕領域抽出部１１に出力すると共に、画像データ（字幕なし）をストレージ部１４に格納する。

【0046】

字幕領域抽出部１１は、画像切り出し部１０から、画像データ（字幕なし）及びこれに対応する画像データ（字幕あり）を入力する。そして、字幕領域抽出部１１は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて、例えば背景差分法により字幕領域（字幕が存在する領域）を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求める（ステップＳ４０３）。字幕領域抽出部１１は、字幕左上座標（ｘ，ｙ）を座標変換部１３に出力する。

【0047】

座標変換部１３は、字幕領域抽出部１１から字幕左上座標（ｘ，ｙ）を入力し、テーブル１２から字幕左上座標（ｘ，ｙ）に対応する字幕表示位置（Ｘ，Ｙ）を読み出すことで、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する（ステップＳ４０４）。

【0048】

図５は、テーブル１２のデータ構成例を示す図である。このテーブル１２には、字幕左上座標（ｘ，ｙ）及びこれに対応する字幕表示位置（Ｘ，Ｙ）を組として、複数の組のデータが格納されている。

【0049】

映像データ（字幕あり）に付加された字幕の位置を表す字幕左上座標（ｘ，ｙ）と、これに対応する字幕表示位置（Ｘ，Ｙ）との関係は予め設定することができ、この関係を示す対応データがテーブル１２に格納されている。

【0050】

尚、座標変換部１３は、変換規則が格納されたテーブル１２の代わりに、変換規則が定義された演算式を用いて変換処理を行うようにしてもよい。後述する図１７に示す座標変換部２１及び図２６に示す座標変換部２６についても同様である。

【0051】

図２及び図４に戻って、座標変換部１３は、字幕表示位置（Ｘ，Ｙ）をストレージ部１４に格納する。つまり、画像切り出し部１０及び座標変換部１３は、画像データ（字幕なし）及びこれに対応する字幕表示位置（Ｘ，Ｙ）を教師データとしてストレージ部１４に格納する（ステップＳ４０５）。

【0052】

図６は、ストレージ部１４に格納される教師データの例を示す図である。図６に示すように、ストレージ部１４には、画像データ（字幕なし）及びこれに対応する字幕表示位置（Ｘ，Ｙ）を組とする１つの教師データを単位として、複数の組のデータ（複数の教師データ）が格納される。

【0053】

図２及び図４に戻って、学習部１５は、ストレージ部１４から、画像データ（字幕なし）及びこれに対応する字幕表示位置（Ｘ，Ｙ）からなる教師データを読み出す。そして、学習部１５は、教師データを用いて、画像データ（字幕なし）を入力データとし、字幕表示位置（Ｘ，Ｙ）を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する（ステップＳ４０６）。

【0054】

学習部１５は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部１６に格納する（ステップＳ４０７）。

【0055】

以上のように、実施例１の字幕表示位置学習装置１－１によれば、字幕領域抽出部１１は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求め、座標変換部１３は、テーブル１２を用いて、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する。

【0056】

ストレージ部１４には、画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）が教師データとして格納される。

【0057】

学習部１５は、画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）からなる教師データを用いてこれらの関係を学習し、学習済みモデルを生成する。

【0058】

これにより、従来の手動にて字幕表示位置の調整作業を行う手法を踏襲した学習済みモデルを得ることができる。そして、後述する実施例１の字幕表示位置推論装置２－１がこの学習済みモデルを用いることで、字幕表示位置（Ｘ，Ｙ）を、映像に応じた適切な位置に自動的に調整することができる。

【0059】

（実施例１／字幕表示位置推論装置）
次に、実施例１の字幕表示位置推論装置について説明する。図７は、実施例１の字幕表示位置推論装置の構成例を示すブロック図であり、図８は、実施例１の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【0060】

この字幕表示位置推論装置２－１は、画像切り出し部３０、記憶部３１、推論部３２及び制御出力部３３を備えている。記憶部３１には、図２に示した字幕表示位置学習装置１－１により生成された学習済みモデルが格納されている。

【0061】

字幕表示位置推論装置２－１は、映像データ（字幕なし）を入力し、画像切り出し部３０にて画像データ（字幕なし）を切り出す（ステップＳ８０１）。そして、字幕表示位置推論装置２－１は、推論部３２にて、記憶部３１に格納された学習済みモデルを用いて画像データ（字幕なし）から字幕表示位置（Ｘ，Ｙ）（図８を参照して例えば（Ｘ，Ｙ）＝（中央，５行目））を推論する（ステップＳ８０２）。そして、字幕表示位置推論装置２－１は、制御出力部３３にて字幕表示位置（Ｘ，Ｙ）の制御を行う。

【0062】

図９は、実施例１の字幕表示位置推論装置２－１の処理例を示すフローチャートである。以下、図７及び図９を参照して字幕表示位置推論装置２－１の処理例を説明する。

【0063】

画像切り出し部３０は、映像データ（字幕なし）を入力し（ステップＳ９０１）、映像データ（字幕なし）から静止画を切り出し、画像データ（字幕なし）を生成する（ステップＳ９０２）。例えば画像切り出し部３０は、ＨＤ－ＳＤＩ形式の放送用の映像データ（字幕なし）を入力し、予め設定された時間（例えば０．３～５秒）毎に、放送用の静止画の切り出し画像を切り出す。画像切り出し部３０は、画像データ（字幕なし）を推論部３２に出力する。

【0064】

推論部３２は、画像切り出し部３０から画像データ（字幕なし）を入力すると共に、記憶部３１から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ（字幕なし）から字幕表示位置（Ｘ，Ｙ）を推論する（ステップＳ９０３）。そして、推論部３２は、字幕表示位置（Ｘ，Ｙ）を制御出力部３３に出力する。

【0065】

制御出力部３３は、推論部３２から字幕表示位置（Ｘ，Ｙ）を入力し、字幕表示位置（Ｘ，Ｙ）を用いて所定の制御を行い（ステップＳ９０４）、制御後の字幕表示位置（Ｘ，Ｙ）を出力する（ステップＳ９０５）。

【0066】

字幕表示位置推論装置２－１により出力される字幕表示位置（Ｘ，Ｙ）は、画像データ（字幕なし）内において選択された最適な位置である必要がある。しかし、学習済みモデルを用いて推論される今回の字幕表示位置（Ｘ，Ｙ）は、前回及び前々回等のスキャンにて推論された字幕表示位置（Ｘ，Ｙ）が考慮されることはない。このため、例えば背景映像が大きく変化していないにもかかわらず、推論される字幕表示位置（Ｘ，Ｙ）が頻繁に変更されることがあり得る。頻繁な字幕表示位置（Ｘ，Ｙ）の変更は、視聴者に不快感を与えるため、妥当ではない。

【0067】

そこで、字幕表示位置推論装置２－１は制御出力部３３を備えるようにし、制御出力部３３において、字幕表示位置（Ｘ，Ｙ）が頻繁に変更されないように制御を行うようにした。後述する実施例２，３等においても同様である。また、後述する実施例４の字幕表示位置推論装置２－４に備えた制御出力部４６、及び後述する実施例５の字幕表示位置推論装置２－５に備えた制御出力部５１についても同様である。

【0068】

（第１の制御）
具体的には、制御出力部３３は、推論部３２から入力した字幕表示位置（Ｘ，Ｙ）を、予め設定された時間期間の間継続して出力し、当該時間期間が経過した後、そのときに（スキャンにて）推論部３２から入力した字幕表示位置（Ｘ，Ｙ）を、同様に予め設定された時間期間の間継続して出力する。

【0069】

これにより、制御出力部３３から出力される字幕表示位置（Ｘ，Ｙ）は、予め設定された時間期間の間変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。

【0070】

（第２の制御）
また、制御出力部３３は、推論部３２から入力した字幕表示位置（Ｘ，Ｙ）が予め設定された回数（スキャン数）につき連続して同一であるか否かを判定する。そして、制御出力部３３は、字幕表示位置（Ｘ，Ｙ）が予め設定された回数につき連続して同一であると判定した場合、当該字幕表示位置（Ｘ，Ｙ）を出力し、字幕表示位置（Ｘ，Ｙ）が予め設定された回数につき連続して同一でないと判定した場合、今まで出力していた字幕表示位置（Ｘ，Ｙ）を継続して出力する。

【0071】

これにより、制御出力部３３から出力される字幕表示位置（Ｘ，Ｙ）は、予め設定された回数の間変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。

【0072】

（第３の制御）
また、制御出力部３３は、推論部３２から入力した今回のスキャンの字幕表示位置（Ｘ，Ｙ）（第１の字幕表示位置（Ｘ，Ｙ））と、直前の（１つ手前の）スキャンの字幕表示位置（Ｘ，Ｙ）（第２の字幕表示位置（Ｘ，Ｙ））との間の差を求める。そして、制御出力部３３は、当該差と予め設定された閾値とを比較し、当該差が閾値以上であると判定した場合（Ｘの差が閾値以上であるか、またはＹの差が閾値以上であると判定した場合）、両位置が大きく異なると判断し、今回のスキャンの字幕表示位置（Ｘ，Ｙ）を出力する。一方、制御出力部３３は、当該差が閾値未満であると判定した場合（Ｘの差が閾値未満であり、かつＹの差の閾値未満であると判定された場合）、両位置が大きく異なることはないと判断し、現在まで出力していた（前回のスキャンにて出力した）字幕表示位置（Ｘ，Ｙ）を継続して出力する。

【0073】

例えば、閾値としてＸの差（列の差）１以上、及びＹの差（行の差）３以上が予め設定されているものとする。この場合、今回のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，６行目）及び直前のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，２行目）であるとすると、Ｘの差は０であり、Ｙの差は４である。そして、Ｙの差が閾値以上であると判定され（両位置が大きく異なると判断され）、今回のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，６行目）が出力される。

【0074】

また、今回のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，６行目）及び直前のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，５行目）であるとすると、Ｘの差は０であり、Ｙの差は１である。そして、Ｘの差が閾値未満であり、かつＹの差が閾値未満であると判定され（両位置が大きく異なることはないと判断され）、現在まで出力していた字幕表示位置（Ｘ，Ｙ）＝（左寄せ，５行目）が継続して出力される。

【0075】

また、今回のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，６行目）及び直前のスキャンの字幕表示位置（Ｘ，Ｙ）＝（中央，６行目）であるとすると、Ｘの差は３（図１（２）を参照）であり、Ｙの差は０である。そして、Ｘの差が閾値以上であると判定され（両位置が大きく異なると判断され）、今回のスキャンの字幕表示位置（Ｘ，Ｙ）＝（左寄せ，６行目）が出力される。

【0076】

これにより、制御出力部３３から出力される字幕表示位置（Ｘ，Ｙ）は、今回のスキャンの字幕表示位置（Ｘ，Ｙ）と、直前のスキャンの字幕表示位置（Ｘ，Ｙ）との間の差が閾値未満である場合に、すなわち両位置が大きく異なることはないと判断される場合に変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。

【0077】

（第４の制御）
また、制御出力部３３は、画像切り出し部３０から画像データ（字幕なし）を入力し、入力した今回のスキャンの画像データ（字幕なし）（第１の画像データ（字幕なし））と、直前の（１つ手前の）スキャンの画像データ（字幕なし）（第２の画像データ（字幕なし））との間の差を求める。そして、制御出力部３３は、当該差と予め設定された閾値とを比較し、当該差が閾値以上であると判定した場合、カット切り替えのタイミングであると判断し、カット切り替えのタイミングである今回のスキャンの字幕表示位置（Ｘ，Ｙ）を出力する。一方、制御出力部３３は、当該差が閾値未満であると判定した場合、カット切り替えのタイミングでないと判断し、現在まで出力していた（前回のスキャンにて出力した）字幕表示位置（Ｘ，Ｙ）を継続して出力する。

【0078】

例えば制御出力部３３は、今回のスキャンのｎフレーム目の画像データ（字幕なし）をＩ_n（ｘ，ｙ）とし、前回のスキャンのｎ－１フレーム目の画像データ（字幕なし）をＩ_n-1（ｘ，ｙ）として、差分画像Ｉ_d（ｘ，ｙ）を以下の式により算出する。
［数１］
Ｉ_d（ｘ，ｙ）＝｜Ｉ_n（ｘ，ｙ）－Ｉ_n-1（ｘ，ｙ）｜・・・（１）

【0079】

制御出力部３３は、差分画像Ｉ_d（ｘ，ｙ）の平均値Ｉ’_dを以下の式により算出する。Ｎは差分画像Ｉ_d（ｘ，ｙ）におけるｘ軸方向の画素数、Ｍはｙ軸方向の画素数である。
［数２］

【0080】

制御出力部３３は、差分画像Ｉ_d（ｘ，ｙ）の平均値Ｉ’_dと予め設定された閾値とを比較することで、前述のとおり、カット切り替えのタイミングであるか否かを判断し、今回のスキャンの字幕表示位置（Ｘ，Ｙ）を出力するか、または、現在まで出力していた字幕表示位置（Ｘ，Ｙ）を継続して出力する。

【0081】

これにより、制御出力部３３から出力される字幕表示位置（Ｘ，Ｙ）は、今回のスキャンの画像データ（字幕なし）と、直前のスキャンの画像データ（字幕なし）との間の差が閾値未満である場合に、すなわちカット切り替えのタイミングでないと判断される場合に変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。

【0082】

ここで、制御出力部３３は、前述の第１の制御から第４の制御までのいずれか１つの制御を行うようにしてもよいし、２つまたは３つの制御を行うようにしてもよいし、全ての制御を行うようにしてもよい。例えば制御出力部３３は、全ての制御を行う場合、前述の第１の制御において、字幕表示位置（Ｘ，Ｙ）を入力してから当該時間期間が経過する条件を満たし、かつ前述の第２の制御において、入力した字幕表示位置（Ｘ，Ｙ）が予め設定された回数につき連続して同一であると判定する条件を満たし、かつ前述の第３の制御において、当該差が閾値以上であると判定して両位置が大きく異なると判断する条件を満たし、かつ前述の第４の制御において、当該差が閾値以上であると判定してカット切り替えのタイミングであると判断する条件を満たす場合、当該字幕表示位置（Ｘ，Ｙ）を出力し、これらの条件のうち少なくとも１つを満たさない場合、現在まで出力していた字幕表示位置（Ｘ，Ｙ）を継続して出力する。

【0083】

以上のように、実施例１の字幕表示位置推論装置２－１によれば、推論部３２は、実施例１の字幕表示位置学習装置１－１により生成された学習済みモデルを用いて、画像データ（字幕なし）から字幕表示位置（Ｘ，Ｙ）を推論する。

【0084】

制御出力部３３は、字幕表示位置（Ｘ，Ｙ）が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0085】

これにより、従来の手動にて字幕表示位置の調整作業を行う手法を踏襲した学習済みモデルを用いて、字幕表示位置（Ｘ，Ｙ）を推論するようにしたため、字幕表示位置（Ｘ，Ｙ）を、映像に応じた適切な位置に自動的に調整することができる。

【0086】

〔実施例２〕
次に、実施例２について説明する。実施例２は、映像データ（字幕なし）から画像データ（字幕なし）を切り出し、画像データ（字幕なし）及び字幕左上座標（ｘ，ｙ）を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕左上座標（ｘ，ｙ）を推論する例である。

【0087】

（実施例２／字幕表示位置学習装置）
まず、実施例２の字幕表示位置学習装置について説明する。図１０は、実施例２の字幕表示位置学習装置の構成例を示すブロック図であり、図１１は、実施例２の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【0088】

この字幕表示位置学習装置１－２は、画像切り出し部１０、字幕領域抽出部１１、ストレージ部１７、学習部１８及び記憶部１９を備えている。

【0089】

字幕表示位置学習装置１－２は、映像データ（字幕なし）及び映像データ（字幕あり）を入力する（図１１の映像データ（字幕あり）には、字幕が付加されている領域γが示されている。）。そして、字幕表示位置学習装置１－２は、画像切り出し部１０及び字幕領域抽出部１１にて字幕左上座標（ｘ，ｙ）を生成することで、画像データ（字幕なし）及び字幕左上座標（ｘ，ｙ）（図１１を参照して例えば（ｘ，ｙ）＝（４２０，９００））からなる教師データを生成し（ステップＳ１１０１）、これをストレージ部１７に格納する。

【0090】

字幕表示位置学習装置１－２は、学習部１８にてストレージ部１７から教師データを読み出し、教師データを用いて画像データ（字幕なし）と字幕左上座標（ｘ，ｙ）との間の関係を学習し、学習済みモデルを生成する（ステップＳ１１０２）。そして、字幕表示位置学習装置１－２は、学習済みモデルを記憶部１９に格納する。

【0091】

図１２は、実施例２の字幕表示位置学習装置１－２の処理例を示すフローチャートである。以下、図１０及び図１２を参照して字幕表示位置学習装置１－２の処理例を説明する。

【0092】

画像切り出し部１０は、図４のステップＳ４０１，Ｓ４０２と同様に、映像データ（字幕なし）及び映像データ（字幕あり）を入力し（ステップＳ１２０１）、静止画を切り出して画像データ（字幕なし）及び画像データ（字幕あり）を生成する（ステップＳ１２０２）。

【0093】

画像切り出し部１０は、画像データ（字幕なし）及び画像データ（字幕あり）を字幕領域抽出部１１に出力すると共に、画像データ（字幕なし）をストレージ部１７に格納する。

【0094】

字幕領域抽出部１１は、画像切り出し部１０から画像データ（字幕なし）及び画像データ（字幕あり）を入力する。そして、字幕領域抽出部１１は、図４のステップＳ４０３と同様に、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求める（ステップＳ１２０３）。

【0095】

字幕領域抽出部１１は、字幕左上座標（ｘ，ｙ）をストレージ部１７に格納する。つまり、画像切り出し部１０及び字幕領域抽出部１１は、画像データ（字幕なし）及びこれに対応する字幕左上座標（ｘ，ｙ）を教師データとしてストレージ部１７に格納する（ステップＳ１２０４）。

【0096】

図１３は、ストレージ部１７に格納される教師データの例を示す図である。図１３に示すように、ストレージ部１７には、画像データ（字幕なし）及びこれに対応する字幕左上座標（ｘ，ｙ）を組とする１つの教師データを単位として、複数の組のデータ（複数の教師データ）が格納される。

【0097】

図１０及び図１２に戻って、学習部１８は、ストレージ部１７から、画像データ（字幕なし）及びこれに対応する字幕左上座標（ｘ，ｙ）からなる教師データを読み出す。そして、学習部１８は、教師データを用いて、画像データ（字幕なし）を入力データとし、字幕左上座標（ｘ，ｙ）を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する（ステップＳ１２０５）。

【0098】

学習部１８は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部１９に格納する（ステップＳ１２０６）。

【0099】

以上のように、実施例２の字幕表示位置学習装置１－２によれば、字幕領域抽出部１１は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求める。

【0100】

ストレージ部１７には、画像データ（字幕なし）及び字幕左上座標（ｘ，ｙ）が教師データとして格納される。

【0101】

学習部１８は、画像データ（字幕なし）及び字幕左上座標（ｘ，ｙ）からなる教師データを用いてこれらの関係を学習し、学習済みモデルを生成する。

【0102】

これにより、実施例１の字幕表示位置学習装置１－１と同様の効果を奏し、後述する実施例２の字幕表示位置推論装置２－２がこの学習済みモデルを用いることで、字幕表示位置（Ｘ，Ｙ）を、映像に応じた適切な位置に自動的に調整することができる。

【0103】

（実施例２／字幕表示位置推論装置）
次に、実施例２の字幕表示位置推論装置について説明する。図１４は、実施例２の字幕表示位置推論装置の構成例を示すブロック図であり、図１５は、実施例２の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【0104】

この字幕表示位置推論装置２－２は、画像切り出し部３０、記憶部３４、推論部３５、テーブル３６、座標変換部３７及び制御出力部３３を備えている。記憶部３４には、図１０に示した字幕表示位置学習装置１－２により生成された学習済みモデルが格納されている。

【0105】

字幕表示位置推論装置２－２は、映像データ（字幕なし）を入力し、画像切り出し部３０にて画像データ（字幕なし）を切り出す（ステップＳ１５０１）。そして、字幕表示位置推論装置２－２は、推論部３５にて、記憶部３４に格納された学習済みモデルを用いて字幕左上座標（ｘ，ｙ）（図１５を参照して例えば（ｘ，ｙ）＝（２００，１００））を推論する（ステップＳ１５０２）。

【0106】

字幕表示位置推論装置２－２は、テーブル３６及び座標変換部３７にて字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）（図１５を参照して例えば（Ｘ，Ｙ）＝（中央，５行目））に変換し（ステップＳ１５０３）、制御出力部３３にて字幕表示位置（Ｘ，Ｙ）の制御を行う。

【0107】

図１６は、実施例２の字幕表示位置推論装置２－２の処理例を示すフローチャートである。以下、図１４及び図１６を参照して字幕表示位置推論装置２－２の処理例を説明する。

【0108】

画像切り出し部３０は、図９のステップＳ９０１，Ｓ９０２と同様に、映像データ（字幕なし）を入力し（ステップＳ１６０１）、静止画を切り出して画像データ（字幕なし）を生成する（ステップＳ１６０２）。画像切り出し部３０は、画像データ（字幕なし）を推論部３５に出力する。

【0109】

推論部３５は、画像切り出し部３０から画像データ（字幕なし）を入力すると共に、記憶部３４から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ（字幕なし）から字幕左上座標（ｘ，ｙ）を推論する（ステップＳ１６０３）。そして、推論部３５は、字幕左上座標（ｘ，ｙ）を座標変換部３７に出力する。

【0110】

座標変換部３７は、推論部３５から字幕左上座標（ｘ，ｙ）を入力し、テーブル３６から字幕左上座標（ｘ，ｙ）に対応する字幕表示位置（Ｘ，Ｙ）を読み出すことで、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する（ステップＳ１６０４）。テーブル３６のデータ構成例は、図５に示したテーブル１２のデータ構成例と同様である。座標変換部３７は、字幕表示位置（Ｘ，Ｙ）を制御出力部３３に出力する。

【0111】

尚、座標変換部３７は、変換規則が格納されたテーブル３６の代わりに、変換規則が定義された演算式を用いて変換処理を行うようにしてもよい。後述する図２１に示す領域変換部４２、図３０に示す領域変換部４５及び図３５に示す領域変換部５０についても同様である。

【0112】

制御出力部３３は、座標変換部３７から字幕表示位置（Ｘ，Ｙ）を入力し、図７の制御出力部３３と同様の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0113】

以上のように、実施例２の字幕表示位置推論装置２－２によれば、推論部３５は、実施例２の字幕表示位置学習装置１－２により生成された学習済みモデルを用いて、画像データ（字幕なし）から字幕左上座標（ｘ，ｙ）を推論する。

【0114】

座標変換部３７は、テーブル３６を用いて、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する。制御出力部３３は、字幕表示位置（Ｘ，Ｙ）が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0115】

これにより、実施例１の字幕表示位置推論装置２－１と同様の効果を奏し、字幕表示位置（Ｘ，Ｙ）を、映像に応じた適切な位置に自動的に調整することができる。

【0116】

〔実施例３〕
次に、実施例３について説明する。実施例３は、映像データ（字幕なし）から画像データ（字幕なし）を切り出し、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、スコアの高い順に２つの字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を推論し、字幕の文字数Ｃに基づいて２つの字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）のうちの１つを選択し、字幕表示位置（Ｘ，Ｙ）を求める例である。

【0117】

前述の実施例１，２では、字幕が表示される位置を示す字幕表示位置（Ｘ，Ｙ）及び字幕左上座標（ｘ，ｙ）を用いた学習を行っており、字幕が表示される矩形領域のデータを用いた学習を行っていない。このため、実施例１，２では、字幕表示位置（Ｘ，Ｙ）を求める際に、字幕が背景と重なる可能性がある。

【0118】

そこで、実施例３では、字幕が背景と重ならないように、字幕が表示される矩形領域のデータである字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を用いて学習を行うようにした。これにより、字幕の文字数Ｃに応じた適切な字幕表示位置（Ｘ，Ｙ）を求めることができる。

【0119】

（実施例３／字幕表示位置学習装置）
まず、実施例３の字幕表示位置学習装置について説明する。図１７は、実施例３の字幕表示位置学習装置の構成例を示すブロック図であり、図１８は、実施例３の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【0120】

この字幕表示位置学習装置１－３は、画像切り出し部１０、字幕領域抽出部２０、テーブル１２、座標変換部２１、ストレージ部２２、学習部２３及び記憶部２４を備えている。

【0121】

字幕表示位置学習装置１－３は、映像データ（字幕なし）及び映像データ（字幕あり）を入力する（図１８の映像データ（字幕あり）には、字幕が付加された領域γが示されている。）。そして、字幕表示位置学習装置１－３は、画像切り出し部１０及び字幕領域抽出部２０にて字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を生成し、テーブル１２及び座標変換部２１にて字幕表示位置（Ｘ，Ｙ）を生成することで、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）（図１８を参照して例えば（Ｘ，Ｙ）＝（右寄せ，７行目））及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）（図１８を参照して例えば（ｃｘ，ｃｙ，ｗ，ｈ）＝（９６０，９５０，１０８０，１００））からなる教師データを生成し（ステップＳ１８０１）、これをストレージ部２２に格納する。

【0122】

字幕表示位置学習装置１－３は、学習部２３にてストレージ部２２から教師データを読み出し、教師データを用いて画像データ（字幕なし）と字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）との間の関係を学習し、学習済みモデルを生成する（ステップＳ１８０２）。そして、字幕表示位置学習装置１－３は、学習済みモデルを記憶部２４に格納する。

【0123】

図１９は、実施例３の字幕表示位置学習装置１－３の処理例を示すフローチャートである。以下、図１７及び図１９を参照して字幕表示位置学習装置１－３の処理例を説明する。

【0124】

画像切り出し部１０は、図４のステップＳ４０１，Ｓ４０２と同様に、映像データ（字幕なし）及び映像データ（字幕あり）を入力し（ステップＳ１９０１）、静止画を切り出して画像データ（字幕なし）及び画像データ（字幕あり）を生成する（ステップＳ１９０２）。

【0125】

画像切り出し部１０は、画像データ（字幕なし）及び画像データ（字幕あり）を字幕領域抽出部２０に出力すると共に、画像データ（字幕なし）をストレージ部２２に格納する。

【0126】

字幕領域抽出部２０は、画像切り出し部１０から画像データ（字幕なし）及び画像データ（字幕あり）を入力する。そして、字幕領域抽出部２０は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて、例えば背景差分法により字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を求める（ステップＳ１９０３）。字幕領域抽出部２０は、字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を座標変換部２１に出力する。

【0127】

座標変換部２１は、字幕領域抽出部２０から字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を入力する。そして、座標変換部２１は、図４のステップＳ４０４と同様に、テーブル１２から字幕左上座標（ｘ，ｙ）に対応する字幕表示位置（Ｘ，Ｙ）を読み出すことで、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する（ステップＳ１９０４）。

【0128】

座標変換部２１は、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）をストレージ部２２に格納する。つまり、画像切り出し部１０及び座標変換部２１は、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を教師データとしてストレージ部２２に格納する（ステップＳ１９０５）。

【0129】

図２０は、ストレージ部２２に格納される教師データの例を示す図である。図２０に示すように、ストレージ部２２には、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を組とする１つの教師データを単位として、複数の組のデータ（複数の教師データ）が格納される。

【0130】

図１７及び図１９に戻って、学習部２３は、ストレージ部２２から、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）からなる教師データを読み出す。そして、学習部２３は、教師データを用いて、画像データ（字幕なし）を入力データとし、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する（ステップＳ１９０６）。

【0131】

学習部２３は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部２４に格納する（ステップＳ１９０７）。

【0132】

以上のように、実施例３の字幕表示位置学習装置１－３によれば、字幕領域抽出部２０は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を求め、座標変換部２１は、テーブル１２を用いて、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する。

【0133】

ストレージ部２２には、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）が教師データとして格納される。

【0134】

学習部２３は、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）からなる教師データを用いて学習を行い、学習済みモデルを生成する。

【0135】

これにより、実施例１の字幕表示位置学習装置１－１と同様の効果を奏し、後述する実施例３の字幕表示位置推論装置２－３がこの学習済みモデルを用いることで、字幕表示位置（Ｘ，Ｙ）を、映像に応じた適切な位置に自動的に調整することができる。

【0136】

特に、実施例３の字幕表示位置学習装置１－３は、画像データ（字幕なし）を入力データとし、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を出力データとする学習済みモデルを生成するようにした。これにより、後述する実施例３の字幕表示位置推論装置２－３は、この学習済みモデルを用いることで、例えばスコアの高い２つの字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を推論し、実際に表示される字幕の文字数Ｃに基づいて２つの字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）のうちの１つを選択し、字幕表示位置（Ｘ，Ｙ）を求めることができる。この字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）には、字幕が表示されるサイズが含まれている。

【0137】

これに対し、実施例１，２では、学習済みモデルを用いることで、それぞれ字幕表示位置（Ｘ，Ｙ）及び字幕左上座標（ｘ，ｙ）を推論することができるが、字幕が表示されるサイズを得ることができない。このため、字幕が表示されるサイズはユーザが判断する必要があり、例えばユーザは、その改行位置及び文字の長さを指定する必要がある。

【0138】

したがって、実施例３によれば、推論される字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）には、字幕が表示されるサイズが含まれているため、ユーザによるサイズの判断及び指定は必要がなく、実施例１，２に比べ、ユーザの作業負荷を低減することができると共に、推論される字幕表示位置（Ｘ，Ｙ）の精度を高くすることができる。

【0139】

（実施例３／字幕表示位置推論装置）
次に、実施例３の字幕表示位置推論装置について説明する。図２１は、実施例３の字幕表示位置推論装置の構成例を示すブロック図であり、図２２は、実施例３の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【0140】

この字幕表示位置推論装置２－３は、画像切り出し部３０、記憶部３９、推論部４０、テーブル４１、領域変換部４２及び制御出力部３３を備えている。記憶部３９には、図１７に示した字幕表示位置学習装置１－３により生成された学習済みモデルが格納されている。

【0141】

字幕表示位置推論装置２－３は、映像データ（字幕なし）を入力し、画像切り出し部３０にて画像データ（字幕なし）を切り出す（ステップＳ２２０１）。そして、字幕表示位置推論装置２－３は、推論部４０にて、記憶部３９に格納された学習済みモデルを用いて、例えばスコアの高い順に２つの字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を推論する（ステップＳ２２０２）。

【0142】

字幕表示位置推論装置２－３は、領域変換部４２にて、映像データ（字幕なし）に付加される字幕文字データを入力して文字数Ｃを求め、テーブル４１を用いて字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）に変換し、文字数Ｃに基づいて、字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）のいずれかを選択し、字幕表示位置（Ｘ，Ｙ）（図２２を参照して例えば（Ｘ，Ｙ）＝（中央，５行目））を求める（ステップＳ２２０３）。そして、字幕表示位置推論装置２－３は、制御出力部３３にて字幕表示位置（Ｘ，Ｙ）の制御を行う。

【0143】

ここで、字幕表示位置（Ｘ，Ｙ，ＣＮ）（（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ））における（Ｘ，Ｙ）は、図１（２）にて説明したとおり、字幕座標系において字幕が表示されるＸ，Ｙ軸上の位置である。（ＣＮ）は、字幕の文字数である。

【0144】

図２３は、実施例３の字幕表示位置推論装置２－３の処理例を示すフローチャートである。以下、図２１及び図２３を参照して字幕表示位置推論装置２－３の処理例を説明する。

【0145】

画像切り出し部３０は、図９のステップＳ９０１，Ｓ９０２と同様に、映像データ（字幕なし）を入力し（ステップＳ２３０１）、静止画を切り出して画像データ（字幕なし）を生成する（ステップＳ２３０２）。画像切り出し部３０は、画像データ（字幕なし）を推論部４０に出力する。

【0146】

推論部４０は、画像切り出し部３０から画像データ（字幕なし）を入力すると共に、記憶部３９から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ（字幕なし）から字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を推論し、スコアの最も高い字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ）及び次に高い字幕表示領域（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を選択する（ステップＳ２３０３）。そして、推論部４０は、字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を領域変換部４２に出力する。

【0147】

領域変換部４２は、推論部４０から字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を入力し、テーブル４１から字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）に対応する字幕表示位置（Ｘ，Ｙ，ＣＮ）を読み出すことで、字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）に変換する（ステップＳ２３０４）。

【0148】

領域変換部４２は、映像データ（字幕なし）に付加される字幕文字データを入力し、字幕文字データに基づいて文字数Ｃを求める（ステップＳ２３０５）。

【0149】

尚、入力した字幕文字データについて、その字幕表示領域のサイズが文字数Ｃに応じて一意に決まるため、以下の式により、サイズから文字数Ｃを求めることも可能である。予め設定された最大文字数をＣＭ、予め設定された最大字幕表示領域幅をＷＭ、字幕文字データを表示する文字列幅のサイズをｗＭとする。
［数３］
Ｃ＝（ＣＭ／ＷＭ）＊ｗＭ・・・（３）

【0150】

領域変換部４２は、ステップＳ２３０５にて求めた文字数Ｃに基づいて、ステップＳ２３０４にて変換された字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）のうちのいずれかを選択し、選択した字幕表示位置に対応する字幕表示位置（Ｘ，Ｙ）を求める（ステップＳ２３０６）。領域変換部４２は、字幕表示位置（Ｘ，Ｙ）を制御出力部３３に出力する。字幕表示位置（Ｘ，Ｙ）は、（ＸＡ，ＹＡ）及び（ＸＢ，ＹＢ）のうちのいずれかである。

【0151】

具体的には、領域変換部４２は、字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）における文字数ＣＮＡ，ＣＮＢと文字数Ｃとを比較する。そして、領域変換部４２は、文字数ＣＮＡ，ＣＮＢのうち文字数Ｃと一致する文字数ＣＮＡまたは文字数ＣＮＢを特定し、特定した文字数ＣＮＡまたは文字数ＣＮＢに対応する字幕表示位置（ＸＡ，ＹＡ）または（ＸＢ，ＹＢ）を、字幕表示位置（Ｘ，Ｙ）とする。

【0152】

尚、文字数ＣＮＡ，ＣＮＢのそれぞれに重みを置くことで、字幕表示位置（ＸＡ，ＹＡ），（ＸＢ，ＹＢ）のいずれか一方を、字幕表示位置（Ｘ，Ｙ）として求めるようにしてもよい。例えば領域変換部４２は、文字数Ｃ＝８、文字数ＣＮＡ＝１４、文字数ＣＮＢ＝７である場合、領域変換部４２は、文字数ＣＮＡ＝１４及び文字数ＣＮＢ＝７のうち、文字数Ｃ＝８以上で、かつ文字数Ｃ＝８に最も近い文字数ＣＮＡ＝１４を特定し、特定した文字数ＣＮＡ＝１４に対応する字幕表示位置（ＸＡ，ＹＡ）を字幕表示位置（Ｘ，Ｙ）とする。

【0153】

図２４は、テーブル４１のデータ構成例を示す図である。このテーブル４１には、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）及びこれに対応する字幕表示位置（Ｘ，Ｙ，ＣＮ）を組として、複数の組のデータが格納されている。

【0154】

字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）は、図２１～図２３に示した字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）に対応し、字幕表示位置（Ｘ，Ｙ，ＣＮ）は、図２３に示した字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）に対応する。前述のとおり、ＣＮは文字数である。

【0155】

映像データ（字幕あり）に付加される字幕の領域を表す字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）と、これに対応する字幕表示位置（Ｘ，Ｙ，ＣＮ）との関係は予め設定することができ、この関係を示す対応データがテーブル４１に格納されている。

【0156】

図２１及び図２３に戻って、制御出力部３３は、領域変換部４２から字幕表示位置（Ｘ，Ｙ）を入力し、図７の制御出力部３３と同様の制御を行い（ステップＳ２３０７）、制御後の字幕表示位置（Ｘ，Ｙ）を出力する（ステップＳ２３０８）。

【0157】

以上のように、実施例３の字幕表示位置推論装置２－３によれば、推論部４０は、実施例３の字幕表示位置学習装置１－３により生成された学習済みモデルを用いて、画像データ（字幕なし）から、スコアの高い順に２つの字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を推論する。

【0158】

領域変換部４２は、テーブル４１を用いて、字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）に変換する。そして、領域変換部４２は、字幕文字データの文字数Ｃに基づいて、字幕表示位置（ＸＡ，ＹＡ，ＣＮＡ），（ＸＢ，ＹＢ，ＣＮＢ）のうちのいずれかを選択し、字幕表示位置（Ｘ，Ｙ）を求める。

【0159】

制御出力部３３は、字幕表示位置（Ｘ，Ｙ）が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0160】

【0161】

特に、実施例３の字幕表示位置推論装置２－３により推論される字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）には、字幕が表示されるサイズが含まれている。

【0162】

これに対し、実施例１，２の字幕表示位置推論装置２－１，２－２により推論される字幕表示位置（Ｘ，Ｙ）及び字幕左上座標（ｘ，ｙ）からは、字幕が表示されるサイズを得ることができない。このため、このサイズをユーザが判断して指定する必要がある。

【0163】

実施例３によれば、ユーザによる字幕が表示されるサイズの判断及び指定は必要がないため、実施例１，２に比べ、ユーザの作業負荷を低減することができる。また、字幕のサイズの文字数Ｃに応じた学習済みモデルを用いて、字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）が推論されるため、字幕が背景と重なることのない、精度の高い字幕表示位置（Ｘ，Ｙ）を求めることができる。

【0164】

尚、実施例３において、字幕表示位置推論装置２－３の推論部４０は、学習済みモデルを用いて、スコアの高い順に２つの字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）を推論するようにした。そして、領域変換部４２は、字幕文字データの文字数Ｃ及び２つの字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ），（ｃｘＢ，ｃｙＢ，ｗＢ，ｈＢ）から、字幕表示位置（Ｘ，Ｙ）を求めるようにした。

【0165】

これに対し、推論部４０は、スコアの高い順に３以上の所定数の字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ）等を推論し、領域変換部４２は、字幕文字データの文字数Ｃ及び３以上の所定数の字幕表示領域（ｃｘＡ，ｃｙＡ，ｗＡ，ｈＡ）等から、字幕表示位置（Ｘ，Ｙ）を求めるようにしてもよい。

【0166】

〔実施例４〕
次に、実施例４について説明する。実施例４は、映像データ（字幕なし）から画像データ（字幕なし）を切り出し、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）及び行毎の２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を推論し、字幕表示位置（Ｘ，Ｙ，Ｚ）を求める例である。Ｚは、字幕が２行に渡って構成される場合に、第１行目の字幕部分から第２行目の字幕部分への改行位置を示す。

【0167】

前述の実施例３では、字幕表示位置学習装置１－３は、１つの字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を用いて学習済みモデルを生成するようにした。

【0168】

しかしながら、この字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）は１つの矩形領域であるため、学習済みモデルは、異なるサイズの２つの矩形領域を組み合わせた領域に対応することができない。

【0169】

そこで、実施例４では、行毎の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を用いて学習を行うようにした。これにより、１つの矩形領域からなる字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）以外の複雑な形状の領域に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせた字幕表示位置（Ｘ，Ｙ，Ｚ）を求めることができる。

【0170】

図２５は、実施例４の字幕座標系における字幕表示位置（Ｘ，Ｙ，Ｚ）を説明する図である。図２５に示すように、字幕は２行に渡って構成されており、第１行目の領域β４及び第２行目の領域β５に表示され、第１行目及び第２行目においてＸ軸上の表示開始位置が同じであるものとする。

【0171】

字幕表示位置（Ｘ，Ｙ，Ｚ）における（Ｘ，Ｙ）は、字幕が表示される第１行目の字幕部分の位置を示し、図１（２）にて説明したとおりである。（Ｚ）は、１行目の字幕部分から第２行目の字幕部分への改行位置を示す。

【0172】

（実施例４／字幕表示位置学習装置）
まず、実施例４の字幕表示位置学習装置について説明する。図２６は、実施例４の字幕表示位置学習装置の構成例を示すブロック図であり、図２７は、実施例４の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。

【0173】

この字幕表示位置学習装置１－４は、画像切り出し部１０、字幕領域抽出部２５、テーブル１２、座標変換部２６、ストレージ部２７、学習部２８及び記憶部２９を備えている。

【0174】

字幕表示位置学習装置１－４は、映像データ（字幕なし）及び映像データ（字幕あり）を入力する（図２７の映像データ（字幕あり）には、字幕が付加された第１行目の領域γ１及び第２行目の領域γ２が示されている。）。そして、字幕表示位置学習装置１－４は、画像切り出し部１０及び字幕領域抽出部２５にて第１行目の字幕左上座標（ｘ，ｙ）及び２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を生成する。

【0175】

字幕表示位置学習装置１－４は、テーブル１２及び座標変換部２６にて字幕表示位置（Ｘ，Ｙ）を生成することで、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）（図２７を参照して例えば（Ｘ，Ｙ）＝（右寄せ，７行目））及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）（図２７を参照して例えば（ｃｘ１，ｃｙ１，ｗ１，ｈ１）＝（９６０，９５０，１０８０，１００），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）＝（９６０，１０００，９００，５０））からなる教師データを生成し（ステップＳ２７０１）、これをストレージ部２７に格納する。

【0176】

字幕表示位置学習装置１－４は、学習部２８にてストレージ部２７から教師データを読み出し、教師データを用いて画像データ（字幕なし）と字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）との間の関係を学習し、学習済みモデルを生成する（ステップＳ２７０２）。そして、字幕表示位置学習装置１－４は、学習済みモデルを記憶部２９に格納する。

【0177】

図２８は、実施例４の字幕表示位置学習装置１－４の処理例を示すフローチャートである。以下、図２６及び図２８を参照して字幕表示位置学習装置１－４の処理例を説明する。

【0178】

画像切り出し部１０は、図４のステップＳ４０１，Ｓ４０２と同様に、映像データ（字幕なし）及び映像データ（字幕あり）を入力し（ステップＳ２８０１）、静止画を切り出して画像データ（字幕なし）及び画像データ（字幕あり）を生成する（ステップＳ２８０２）。ここで、画像データ（字幕あり）には、２行に渡って構成される字幕が含まれるものとする。

【0179】

画像切り出し部１０は、画像データ（字幕なし）及び画像データ（字幕あり）を字幕領域抽出部２５に出力すると共に、画像データ（字幕なし）をストレージ部２７に格納する。

【0180】

字幕領域抽出部２５は、画像切り出し部１０から画像データ（字幕なし）及び画像データ（字幕あり）を入力する。そして、字幕領域抽出部２５は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて、例えば背景差分法により字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）及び行毎の２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を求める（ステップＳ２８０３）。字幕領域抽出部２５は、字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を座標変換部２６に出力する。

【0181】

座標変換部２６は、字幕領域抽出部２５から字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を入力する。そして、座標変換部２６は、図４のステップＳ４０４と同様に、テーブル１２から字幕左上座標（ｘ，ｙ）に対応する字幕表示位置（Ｘ，Ｙ）を読み出すことで、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する（ステップＳ２８０４）。

【0182】

座標変換部２６は、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）をストレージ部２７に格納する。つまり、画像切り出し部１０及び座標変換部２６は、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を教師データとしてストレージ部２７に格納する（ステップＳ２８０５）。

【0183】

図２９は、ストレージ部２７に格納される教師データの例を示す図である。図２９に示すように、ストレージ部２７には、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を組とする１つの教師データを単位として、複数の組のデータ（複数の教師データ）が格納される。

【0184】

図２６及び図２８に戻って、学習部２８は、ストレージ部２７から、画像データ（字幕なし）並びにこれに対応する字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）からなる教師データを読み出す。そして、学習部２８は、教師データを用いて、画像データ（字幕なし）を入力データとし、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する（ステップＳ２８０６）。

【0185】

学習部２８は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部２９に格納する（ステップＳ２８０７）。

【0186】

以上のように、実施例４の字幕表示位置学習装置１－４によれば、字幕領域抽出部２５は、画像データ（字幕なし）及び画像データ（字幕あり）を用いて字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を求め、座標変換部２６は、テーブル１２を用いて、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換する。

【0187】

ストレージ部２７には、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）が教師データとして格納される。

【0188】

学習部２８は、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）からなる教師データを用いて学習を行い、学習済みモデルを生成する。

【0189】

これにより、実施例１の字幕表示位置学習装置１－１と同様の効果を奏し、後述する実施例４の字幕表示位置推論装置２－４がこの学習済みモデルを用いることで、字幕表示位置（Ｘ，Ｙ，Ｚ）を、映像に応じた適切な位置に自動的に調整することができる。

【0190】

特に、実施例４の字幕表示位置学習装置１－４は、画像データ（字幕なし）を入力データとし、字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を出力データとする学習済みモデルを生成するようにした。これにより、後述する実施例４の字幕表示位置推論装置２－４は、この学習済みモデルを用いることで、第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を推論し、２行分の字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置（Ｘ，Ｙ，Ｚ）を求めることができる。

【0191】

これに対し、実施例３では、１つの矩形領域である字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を用いて学習済みモデルを生成し、当該学習済みモデルを用いることで、１つの矩形領域に対応する字幕表示位置（Ｘ，Ｙ）を求めることができる。しかし、実施例３では、異なるサイズの２つの矩形領域を組み合わせた領域に対応することができない。

【0192】

したがって、実施例４によれば、字幕が表示される領域の形状に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置（Ｘ，Ｙ，Ｚ）を求めることができる。

【0193】

尚、実施例４において、字幕表示位置学習装置１－４の字幕領域抽出部２５は、字幕領域から２つの字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を求め、学習部２８は、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び２つの字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）からなる教師データを用いて、学習済みモデルを生成するようにした。

【0194】

これに対し、字幕領域抽出部２５は、３以上の所定数の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）等を求め、学習部２８は、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び３以上の所定数の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）等からなる教師データを用いて、学習済みモデルを生成するようにしてもよい。

【0195】

（実施例４／字幕表示位置推論装置）
次に、実施例４の字幕表示位置推論装置について説明する。図３０は、実施例４の字幕表示位置推論装置の構成例を示すブロック図であり、図３１は、実施例４の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【0196】

この字幕表示位置推論装置２－４は、画像切り出し部３０、記憶部４３、推論部４０、テーブル４４、領域変換部４５及び制御出力部４６を備えている。記憶部４３には、図２６に示した字幕表示位置学習装置１－４により生成された学習済みモデルが格納されている。

【0197】

字幕表示位置推論装置２－４により学習済みモデルを用いることで、図２５に示したように、映像データ（字幕なし）に対して２行に渡る領域β４，β５に字幕が付加されることとなる。

【0198】

字幕表示位置推論装置２－４は、映像データ（字幕なし）を入力し、画像切り出し部３０にて画像データ（字幕なし）を切り出す（ステップＳ３１０１）。そして、字幕表示位置推論装置２－４は、推論部４０にて、記憶部４３に格納された学習済みモデルを用いて、第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）（図３１を参照して例えば（ｃｘ１，ｃｙ１，ｗ１，ｈ１）＝（９６０，６７０，８００，１３０））を推論する（ステップＳ３１０２）。

【0199】

字幕表示位置推論装置２－４は、テーブル４４及び領域変換部４５にて字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を字幕表示位置（Ｘ，Ｙ，Ｚ）（図３１を参照して例えば（Ｘ，Ｙ，Ｚ）＝（中央，５行目，１２文字目））に変換し（ステップＳ３１０３）、制御出力部４６にて字幕表示位置（Ｘ，Ｙ，Ｚ）の制御を行う。

【0200】

ここで、図３１に示した字幕表示位置（Ｘ，Ｙ，Ｚ）＝（中央，５行目，１２文字目）は、字幕が２行に渡る領域に表示され、かつ第１行目及び第２行目の開始位置が同じであるとして、第１行目の字幕部分が（Ｘ，Ｙ）＝（中央，５行目）の位置に表示され、第１行目の字幕部分から第２行目の字幕部分への改行位置が（Ｚ）＝１２文字目であることを示している。

【0201】

図３２は、実施例４の字幕表示位置推論装置２－４の処理例を示すフローチャートである。以下、図３０及び図３２を参照して字幕表示位置推論装置２－４の処理例を説明する。

【0202】

画像切り出し部３０は、図９のステップＳ９０１，Ｓ９０２と同様に、映像データ（字幕なし）を入力し（ステップＳ３２０１）、静止画を切り出して画像データ（字幕なし）を生成する（ステップＳ３２０２）。画像切り出し部３０は、画像データ（字幕なし）を推論部４０に出力する。

【0203】

推論部４０は、画像切り出し部３０から画像データ（字幕なし）を入力すると共に、記憶部４３から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ（字幕なし）から第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を推論する（ステップＳ３２０３）。そして、推論部４０は、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を領域変換部４５に出力する。

【0204】

領域変換部４５は、推論部４０から字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を入力し、テーブル４４から字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）に対応する字幕表示位置（Ｘ，Ｙ，Ｚ）を読み出すことで、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を字幕表示位置（Ｘ，Ｙ，Ｚ）に変換する（ステップＳ３２０４）。領域変換部４５は、字幕表示位置（Ｘ，Ｙ，Ｚ）を制御出力部４６に出力する。

【0205】

図３３は、テーブル４４のデータ構成例を示す図である。このテーブル４４には、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及びこれに対応する字幕表示位置（Ｘ，Ｙ，Ｚ）を組として、複数の組のデータが格納されている。図２５に示したとおり、（Ｘ，Ｙ）は、字幕が２行に渡って構成される場合の第１行目の字幕部分が表示される位置を示し、（Ｚ）は、第１行目の字幕部分から第２行目の字幕部分への改行位置を示す。

【0206】

図３０及び図３２に戻って、制御出力部４６は、領域変換部４５から字幕表示位置（Ｘ，Ｙ，Ｚ）を入力し、図７の制御出力部３３と同様の制御を行い（ステップＳ３２０５）、制御後の字幕表示位置（Ｘ，Ｙ，Ｚ）を出力する（ステップＳ３２０６）。

【0207】

以上のように、実施例４の字幕表示位置推論装置２－４によれば、推論部４０は、実施例４の字幕表示位置学習装置１－４により生成された学習済みモデルを用いて、画像データ（字幕なし）から、第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を推論する。

【0208】

領域変換部４５は、テーブル４４を用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を字幕表示位置（Ｘ，Ｙ，Ｚ）に変換する。そして、制御出力部４６は、字幕表示位置（Ｘ，Ｙ，Ｚ）が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ，Ｚ）を出力する。

【0209】

これにより、実施例１の字幕表示位置推論装置２－１と同様の効果を奏し、字幕表示位置（Ｘ，Ｙ，Ｚ）を、映像に応じた適切な位置に自動的に調整することができる。

【0210】

前述のとおり、実施例４の字幕表示位置学習装置１－４は、２行分の字幕が表示される領域の形状に合わせた学習済みモデルを生成するようにした。これにより、実施例４の字幕表示位置推論装置２－４は、この学習済みモデルを用いることで、２行分の字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置（Ｘ，Ｙ，Ｚ）を求めることができる。

【0211】

尚、実施例４において、字幕表示位置推論装置２－４の領域変換部４５は、字幕が２行に渡る場合に、テーブル４４を用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を字幕表示位置（Ｘ，Ｙ，Ｚ）に変換するようにした。この場合の（Ｚ）は、第１行目の字幕部分から第２行目の字幕部分への改行位置を示す。

【0212】

これに対し、領域変換部４５は、字幕が３行以上の所定行数に渡る場合に、テーブル４４に代わる新たなテーブルを用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）を字幕表示位置（Ｘ，Ｙ，Ｚ’）に変換するようにしてもよい。

【0213】

この場合の新たなテーブルは、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及びこれに対応する字幕表示位置（Ｘ，Ｙ，Ｚ’）を組として、複数の組のデータが格納されている。（Ｚ’）は、第１行目の字幕部分から第２行目の字幕部分への改行位置、第２行目の字幕部分から第３行目の字幕部分への改行位置等を示し、３行以上の所定行数までの全ての改行位置が含まれる。

【0214】

〔実施例５〕
次に、実施例５について説明する。実施例５は、映像データ（字幕なし）から画像データ（字幕なし）を切り出し、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）及び行毎の２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を推論し、字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を求める例である。ＸＷは、第２行目の字幕部分の表示が開始される開始位置を示す。

【0215】

前述の実施例４では、第１行目の字幕部分及び第２行目の字幕部分における開始位置が同じ場合の２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を用いて、学習済みモデルを生成するようにした。

【0216】

しかしながら、実施例４では、第１行目の字幕部分及び第２行目の字幕部分の開始位置が異なる場合に適用することができない。

【0217】

そこで、実施例５では、第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる場合の２行分の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を用いて、学習済みモデルを生成するようにした。これにより、第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる場合に、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせた字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を求めることができる。

【0218】

図３４は、実施例５の字幕座標系における字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を説明する図である。図３４に示すように、字幕は２行に渡って構成されており、第１行目の領域β６及び第２行目の領域β７に表示され、第１行目及び第２行目においてＸ軸上の表示開始位置が異なるものとする。

【0219】

字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）における（Ｘ，Ｙ）は、字幕が表示される第１行目の字幕部分の位置を示し、図１（２）にて説明したとおりである。（Ｚ）は、第１行目の字幕部分から第２行目の字幕部分への改行位置を示し、図２５にて説明したとおりである。（ＸＷ）は、第２行目の字幕部分の開始位置（例えば、第１行目の字幕部分の開始位置を基準にした第２行目の字幕部分の開始位置）を示す。

【0220】

（実施例５／字幕表示位置学習装置）
実施例５の字幕表示位置学習装置１－５は、図２６に示した実施例４の字幕表示位置学習装置１－４と同様であるため、ここでは説明を省略する。実施例５では、字幕が２行に渡って構成され、かつ第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる場合に適用する。

【0221】

このため、字幕表示位置学習装置１－５は、映像データ（字幕あり）として、２行に渡って構成され、かつ第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる字幕を含む映像データを入力する。そして、画像切り出し部１０により、画像データ（字幕あり）として、２行に渡って構成され、かつ第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる字幕を含む画像データが切り出される。

【0222】

以上のように、実施例５の字幕表示位置学習装置１－５によれば、学習部２８は、画像データ（字幕なし）、字幕表示位置（Ｘ，Ｙ）、及び第１行目の字幕部分及び第２行目の字幕部分における開始位置が異なる字幕の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）からなる教師データを用いて学習を行い、学習済みモデルを生成する。

【0223】

これにより、実施例１の字幕表示位置学習装置１－１と同様の効果を奏し、後述する実施例５の字幕表示位置推論装置２－５がこの学習済みモデルを用いることで、字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を、映像に応じた適切な位置に自動的に調整することができる。

【0224】

特に、字幕が表示される領域の形状に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いることで、字幕が表示される領域の形状に合わせた改行が可能であって、かつ第２行目では適切な位置からの表示が可能な字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を求めることができる。

【0225】

（実施例５／字幕表示位置推論装置）
次に、実施例５の字幕表示位置推論装置について説明する。図３５は、実施例５の字幕表示位置推論装置の構成例を示すブロック図であり、図３６は、実施例５の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。

【0226】

この字幕表示位置推論装置２－５は、画像切り出し部３０、記憶部４７、推論部４８、テーブル４９、領域変換部５０及び制御出力部５１を備えている。記憶部４７には、実施例５の字幕表示位置学習装置１－５により生成された学習済みモデルが格納されている。

【0227】

字幕表示位置推論装置２－５により学習済みモデルを用いることで、図３４に示したとおり、映像データ（字幕なし）に対して２行に渡る領域β６，β７に字幕が付加されることとなる。

【0228】

字幕表示位置推論装置２－５は、映像データ（字幕なし）を入力し、画像切り出し部３０にて画像データ（字幕なし）を切り出す（ステップＳ３６０１）。そして、字幕表示位置推論装置２－５は、推論部４８にて、記憶部４７に格納された学習済みモデルを用いて、第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び第２行目の字幕表示領域（ｃｘ２，ｃｙ２，ｗ２，ｈ２）（図３６を参照して例えば（ｃｘ１，ｃｙ１，ｗ１，ｈ１）＝（９００，９５０，１０８０，１００），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）＝（９６０，１０００，９００，５０））を推論する（ステップＳ３６０２）。

【0229】

字幕表示位置推論装置２－５は、テーブル４９及び領域変換部５０にて字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）に変換し（ステップＳ３６０３）、制御出力部５１にて字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）の制御を行う。

【0230】

図３７は、実施例５の字幕表示位置推論装置２－５の処理例を示すフローチャートである。以下、図３５及び図３７を参照して字幕表示位置推論装置２－５の処理例を説明する。

【0231】

画像切り出し部３０は、図９のステップＳ９０１，Ｓ９０２と同様に、映像データ（字幕なし）を入力し（ステップＳ３７０１）、静止画を切り出して画像データ（字幕なし）を生成する（ステップＳ３７０２）。画像切り出し部３０は、画像データ（字幕なし）を推論部４８に出力する。

【0232】

推論部４８は、画像切り出し部３０から画像データ（字幕なし）を入力すると共に、記憶部４７から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ（字幕なし）から第１行目の字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び第２行目の字幕表示領域（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を推論する（ステップＳ３７０３）。そして、推論部４８は、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を領域変換部５０に出力する。

【0233】

領域変換部５０は、推論部４８から字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を入力し、以下の式により、第１行目の字幕部分と第２行目の字幕部分との間のＸ軸上の差分位置（Ｗ）を算出する。
［数４］
Ｗ＝（ｃｘ１－ｗ１／２）－（ｃｘ２－ｗ２／２）・・・（４）
Ｗ＜０の場合、第２行目の字幕部分の開始位置が第１行目の字幕部分の開始位置に対して右側にずれており、Ｗ＞０の場合、第２行目の字幕部分の開始位置が第１行目の字幕部分の開始位置に対して左側にずれていることを示している。

【0234】

領域変換部５０は、テーブル４９から、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ）に対応する字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を読み出すことで、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ）を字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）に変換する（ステップＳ３７０４）。つまり、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）が字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）に変換される。

【0235】

図３８は、テーブル４９のデータ構成例を示す図である。このテーブル４９には、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ）、並びにこれらに対応する字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を組として、複数の組のデータが格納されている。

【0236】

図３４に示したとおり、（Ｘ，Ｙ）は、字幕が２行に渡って構成される場合の第１行目の字幕部分が表示される位置を示し、（Ｚ）は、第１行目の字幕部分から第２行目の字幕部分への改行位置を示す。（ＸＷ）は、第２行目の字幕部分の表示が開始する開始位置を示す。

【0237】

尚、第２行目の字幕部分の開始位置（ＸＷ）の代わりに、第２行目の字幕部分の左上座標値を（ＸＷ）として用いるようにしてもよい。

【0238】

図３５及び図３７に戻って、制御出力部５１は、領域変換部５０から字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を入力し、図７の制御出力部３３と同様の制御を行い（ステップＳ３７０５）、制御後の字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を出力する（ステップＳ３７０６）。

【0239】

以上のように、実施例５の字幕表示位置推論装置２－５によれば、推論部４８は、実施例５の字幕表示位置学習装置１－５により生成された学習済みモデルを用いて、画像データ（字幕なし）から、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を推論する。

【0240】

領域変換部５０は、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）から第１行目の字幕部分と第２行目の字幕部分との間のＸ軸上の差分位置（Ｗ）を算出し、テーブル４９を用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ）を字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）に変換する。そして、制御出力部５１は、字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を出力する。

【0241】

これにより、実施例１の字幕表示位置推論装置２－１と同様の効果を奏し、字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を、映像に応じた適切な位置に自動的に調整することができる。

【0242】

特に、字幕表示位置学習装置１－５により生成された学習済みモデルを用いることで、字幕が表示される領域の形状に合わせた改行が可能であって、かつ第２行目では適切な位置からの表示が可能な字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）を求めることができる。

【0243】

尚、実施例５において、字幕表示位置推論装置２－５の推論部４８は、実施例５の字幕表示位置学習装置１－５により生成された学習済みモデルを用いて、画像データ（字幕なし）から、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１），（ｃｘ２，ｃｙ２，ｗ２，ｈ２）を推論し、領域変換部５０は、差分位置（Ｗ）を算出し、テーブル４９を用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ）を字幕表示位置（Ｘ，Ｙ，Ｚ，ＸＷ）に変換するようにした。

【0244】

この場合の（Ｚ）は、第１行目の字幕部分から第２行目の字幕部分への改行位置を示し、（ＸＷ）は、第２行目の字幕部分の開始位置を示す。

【0245】

これに対し、推論部４８は、実施例５の字幕表示位置学習装置１－５により生成された学習済みモデル（字幕が３行以上の所定行数に渡る場合の映像データ（字幕あり）を用いて生成された学習済みモデル）を用いて、画像データ（字幕なし）から、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）等を推論し、領域変換部５０は、第１行目の字幕部分と第２行目以降のそれぞれの字幕部分との間のＸ軸上の差分位置（Ｗ’）を算出し、テーブル４９に代わる新たなテーブルを用いて、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ’）を字幕表示位置（Ｘ，Ｙ，Ｚ’，ＸＷ’）に変換するようにしてもよい。

【0246】

この場合の新たなテーブルは、字幕表示領域（ｃｘ１，ｃｙ１，ｗ１，ｈ１）及び差分位置（Ｗ’）並びにこれらに対応する字幕表示位置（Ｘ，Ｙ，Ｚ’，ＸＷ’）を組として、複数の組のデータが格納されている。（Ｚ’）は、第１行目の字幕部分から第２行目の字幕部分への改行位置、第２行目の字幕部分から第３行目の字幕部分への改行位置等を示し、３行以上の所定行数までの全ての改行位置が含まれる。（ＸＷ’）は、第２行目の字幕部分の開始位置、第３行目の字幕部分の開始位置等を示し、３行以上の所定行数までの全ての開始位置が含まれる。

【0247】

〔他の第１の実施例〕
次に、他の第１の実施例について説明する。他の第１の実施例は、放送ＴＳ（Transport Stream：トランスポートストリーム）を入力し、放送ＴＳから映像データ（字幕なし）及び字幕データを抽出し、映像データ（字幕なし）から切り出した画像データ（字幕なし）及び字幕データから抽出した字幕表示位置データを教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置データを推論する例である。

【0248】

放送ＴＳには、映像、音声、字幕、データ放送、ＥＰＧ等の各種データが含まれる。他の第１の実施例は、前述の実施例１，２，３，４，５に適用がある。

【0249】

他の第１の実施例において、字幕表示位置学習装置は、放送ＴＳを入力し、放送ＴＳから映像データ（字幕なし）及び字幕データを抽出する。そして、字幕表示位置学習装置は、図２の画像切り出し部１０の映像データ（字幕なし）に対する処理と同様に、映像データ（字幕なし）から画像データ（字幕なし）を切り出す。

【0250】

字幕表示位置学習装置は、字幕データから字幕表示位置データ（例えば画像座標系における字幕左上座標（ｘ，ｙ）、字幕座標系における字幕座標値（ｘ’，ｙ’）、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ））を抽出する。字幕座標値（ｘ’，ｙ’）については後述する。尚、字幕データから字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を抽出する処理には、字幕データに基づいて字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を生成する処理を含むものとする。

【0251】

字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標（ｘ，ｙ）を抽出した場合、実施例１と同様に、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換し、画像データ（字幕なし）及び字幕表示位置（Ｘ，Ｙ）を教師データとして学習済みモデルを生成する。

【0252】

そして、字幕表示位置推論装置は、図７に示した実施例１の字幕表示位置推論装置２－１と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕表示位置（Ｘ，Ｙ）を推論し、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0253】

また、字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標（ｘ，ｙ）を抽出した場合、実施例２と同様に、画像データ（字幕なし）及び字幕左上座標（ｘ，ｙ）を教師データとして学習済みモデルを生成する。

【0254】

そして、字幕表示位置推論装置は、図１４に示した実施例２の字幕表示位置推論装置２－２と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕左上座標（ｘ，ｙ）を推論し、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換し、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。

【0255】

また、字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標（ｘ，ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を抽出した場合、実施例３と同様に、字幕左上座標（ｘ，ｙ）を字幕表示位置（Ｘ，Ｙ）に変換し、画像データ（字幕なし）並びに字幕表示位置（Ｘ，Ｙ）及び字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を教師データとして学習済みモデルを生成する。

【0256】

そして、字幕表示位置推論装置は、図２１に示した実施例３の字幕表示位置推論装置２－３と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を推論し、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を字幕表示位置（Ｘ，Ｙ）に変換し、制御後の字幕表示位置（Ｘ，Ｙ）を出力する。実施例４，５についても、字幕データから実施例４，５に応じた字幕表示位置データを抽出することで、学習済みモデルを生成し、当該学習済みモデルを用いて推論を行い、制御後の字幕表示位置（Ｘ，Ｙ，Ｚ），（Ｘ，Ｙ，Ｚ，ＸＷ）を出力する。

【0257】

これにより、放送ＴＳを用いて学習済みモデルを生成し、この学習済みモデルを用いて字幕表示位置（Ｘ，Ｙ）等を得ることができ、実施例１，２，３，４，５と同様の効果を奏する。

【0258】

〔他の第２の実施例〕
次に、他の第２の実施例について説明する。他の第２の実施例は、映像データ（字幕なし）及びＡＲＩＢ字幕ファイルを入力し、映像データ（字幕なし）から切り出した画像データ（字幕なし）及びＡＲＩＢ字幕ファイルから抽出した字幕表示位置データを教師データとして、学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置データを推論する例である。

【0259】

ＡＲＩＢ字幕ファイルには、送出するタイミング、字幕の内容、色、位置等の情報が含まれる。他の第２の実施例は、前述の実施例１，２，３，４，５に適用がある。

【0260】

他の第２の実施例において、字幕表示位置学習装置は、映像データ（字幕なし）及びこれに対応するＡＲＩＢ字幕ファイルを入力し、図２の画像切り出し部１０の映像データ（字幕なし）に対する処理と同様に、映像データ（字幕なし）から画像データ（字幕なし）を切り出す。

【0261】

字幕表示位置学習装置は、ＡＲＩＢ字幕ファイルから字幕表示位置データ（例えば画像座標系における字幕左上座標（ｘ，ｙ）、字幕座標系における字幕座標値（ｘ’，ｙ’）、字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ））を抽出する。字幕座標値（ｘ’，ｙ’）については後述する。尚、ＡＲＩＢ字幕ファイルから字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を抽出する処理には、ＡＲＩＢ字幕ファイルに含まれるデータに基づいて字幕表示領域（ｃｘ，ｃｙ，ｗ，ｈ）を生成する処理を含むものとする。

【0262】

その後の字幕表示位置学習装置の処理は、他の第１の実施例と同様である。字幕表示位置推論装置の処理も同様である。実施例４，５についても、他の第２の実施例を適用することができる。

【0263】

これにより、映像データ（字幕なし）及びＡＲＩＢ字幕ファイルを用いて学習済みモデルを生成し、この学習済みモデルを用いて字幕表示位置（Ｘ，Ｙ）等を得ることができ、実施例１，２，３，４，５と同様の効果を奏する。

【0264】

以上、実施例１，２，３，４，５、他の第１の実施例及び他の第２の実施例を挙げて本発明を説明したが、本発明は前記実施例１，２，３，４，５等に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0265】

例えば図１の例では、字幕が表示される字幕表示位置（Ｘ，Ｙ）のパターン数を２４としたが、これは例示であり、２４を超える数でもよいし、２４未満の数でもよい。

【0266】

また、図７に示した実施例１の字幕表示位置推論装置２－１、図１４に示した実施例２の字幕表示位置推論装置２－２、及び図２１に示した実施例３の字幕表示位置推論装置２－３は、制御出力部３３を備えているが、制御出力部３３を備えていなくてもよい。

【0267】

同様に、図３０に示した実施例４の字幕表示位置推論装置２－４は制御出力部４６を備えているが、制御出力部４６を備えていなくてもよく、図３５に示した実施例５の字幕表示位置推論装置２－５は制御出力部５１を備えているが、制御出力部５１を備えていなくてもよい。

【0268】

また、図２に示した実施例１の字幕表示位置学習装置１－１において、字幕領域抽出部１１は、画像データ（字幕なし）及び画像データ（字幕あり）から字幕領域を抽出し、字幕領域から字幕左上座標（ｘ，ｙ）を求めるようにした。字幕左上座標（ｘ，ｙ）は、図１（１）に示したとおり、画像座標系において字幕が表示される領域αの左上の座標である。

【0269】

これに対し、字幕領域抽出部１１は、例えば字幕座標系におけるＸ軸及びＹ軸上をそれぞれ２１及び８の領域に区分した場合に、２１×８＝１６８領域を字幕座標値（ｘ’，ｙ’）として、抽出した字幕領域から、字幕が表示される左上の座標値である字幕座標値（ｘ’，ｙ’）を求めるようにしてもよい。ｘ’＝１，・・・，２１及びｙ’＝１，・・・，８である。

【0270】

字幕領域抽出部１１は、字幕座標値（ｘ’，ｙ’）を座標変換部１３に出力し、座標変換部１３は、テーブル１２を用いて、字幕座標値（ｘ’，ｙ’）を字幕表示位置（Ｘ，Ｙ）に変換する。この場合のテーブル１２には、字幕座標値（ｘ’，ｙ’）及びこれに対応する字幕表示位置（Ｘ，Ｙ）を組として、複数の組のデータが予め格納されている。ストレージ部１４及び学習部１５は、実施例１と同様の処理を行う。そして、字幕表示位置推論装置は、図７に示した実施例１の字幕表示位置推論装置２－１と同様の処理を行う。

【0271】

また、図１０に示した実施例２の字幕表示位置学習装置１－２においても、字幕領域抽出部１１は、前述と同様の字幕座標値（ｘ’，ｙ’）を求めるようにしてもよい。

【0272】

この場合、教師データは、画像データ（字幕なし）及び字幕座標値（ｘ’，ｙ’）から構成される。ストレージ部１７にはこの教師データが格納され、学習部１８は、画像データ（字幕なし）を入力データとし、字幕座標値（ｘ’，ｙ’）を出力データとした学習モデルにつき入力データと出力データとの間の関係を学習し、学習済みモデルを生成する。

【0273】

そして、字幕表示位置推論装置は、図１４に示した実施例２の字幕表示位置推論装置２－２において、推論部３５が、前述の学習済みモデルを用いて、画像データ（字幕なし）から字幕座標値（ｘ’，ｙ’）を推論する。座標変換部３７は、テーブル３６を用いて、字幕座標値（ｘ’，ｙ’）を字幕表示位置（Ｘ，Ｙ）に変換する。この場合のテーブル３６には、字幕座標値（ｘ’，ｙ’）及びこれに対応する字幕表示位置（Ｘ，Ｙ）を組として、複数の組のデータが予め格納されている。

【0274】

また、前述した実施例１，２，３，４，５等は、生放送番組に対して、リアルタイムでクローズドキャプションの字幕が付与される生字幕の制作に適用があるだけでなく、事前に収録をする完プロ字幕の制作、Ｗｅｂ動画のクローズドキャプションにも適用がある。さらに、実施例１，２，３，４，５等の機能を、映像を再生する再生ソフトに実装することで、配信元のサービスに依存することなく、字幕位置を調整して表示するユニバーサルなプレーヤへ展開することができる。

【0275】

尚、本発明の実施例１，２，３，４，５等による字幕表示位置学習装置１－１，１－２，１－３，１－４，１－５等及び字幕表示位置推論装置２－１，２－２，２－３，２－４，２－５等のハードウェア構成としては、通常のコンピュータを使用することができる。字幕表示位置学習装置１－１，１－２，１－３，１－４，１－５等及び字幕表示位置推論装置２－１，２－２，２－３，２－４，２－５等は、ＣＰＵ、ＧＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

【0276】

実施例１の字幕表示位置学習装置１－１に備えた画像切り出し部１０、字幕領域抽出部１１、テーブル１２、座標変換部１３、ストレージ部１４、学習部１５及び記憶部１６の各機能は、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0277】

また、実施例２の字幕表示位置学習装置１－２に備えた画像切り出し部１０、字幕領域抽出部１１、ストレージ部１７、学習部１８及び記憶部１９の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0278】

また、実施例３の字幕表示位置学習装置１－３に備えた画像切り出し部１０、字幕領域抽出部２０、テーブル１２、座標変換部２１、ストレージ部２２、学習部２３及び記憶部２４の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0279】

また、実施例４，５の字幕表示位置学習装置１－４，１－５に備えた画像切り出し部１０、字幕領域抽出部２５、テーブル１２、座標変換部２６、ストレージ部２７、学習部２８及び記憶部２９の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。他の第１の実施例及び他の第２の実施例の字幕表示位置学習装置についても同様である。

【0280】

さらに、実施例１の字幕表示位置推論装置２－１に備えた画像切り出し部３０、記憶部３１、推論部３２及び制御出力部３３の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0281】

また、実施例２の字幕表示位置推論装置２－２に備えた画像切り出し部３０、記憶部３４、推論部３５、テーブル３６、座標変換部３７及び制御出力部３３の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0282】

また、実施例３の字幕表示位置推論装置２－３に備えた画像切り出し部３０、記憶部３９、推論部４０、テーブル４１、領域変換部４２及び制御出力部３３の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0283】

また、実施例４の字幕表示位置推論装置２－４に備えた画像切り出し部３０、記憶部４３、推論部４０、テーブル４４、領域変換部４５及び制御出力部４６の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0284】

また、実施例５の字幕表示位置推論装置２－５に備えた画像切り出し部３０、記憶部４７、推論部４８、テーブル４９、領域変換部５０及び制御出力部５１の各機能も、これらの機能を記述したプログラムをＣＰＵ等に実行させることによりそれぞれ実現される。

【0285】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵ等に読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0286】

１字幕表示位置学習装置
２字幕表示位置推論装置
１０，３０画像切り出し部
１１，２０，２５字幕領域抽出部
１２，３６，４１，４４，４９テーブル
１３，２１，２６，３７座標変換部
１４，１７，２２，２７ストレージ部
１５，１８，２３，２８学習部
１６，１９，２４，２９，３１，３４，３９，４３，４７記憶部
３２，３５，４０，４８推論部
３３，４６，５１制御出力部
４２，４５，５０領域変換部
（ｘ，ｙ）字幕左上座標
（Ｘ，Ｙ），（Ｘ，Ｙ，ＣＮ），（Ｘ，Ｙ，Ｚ），（Ｘ，Ｙ，Ｚ，ＸＷ）字幕表示位置
（ｃｘ，ｃｙ，ｗ，ｈ）字幕表示領域
Ｃ文字数
（Ｗ）差分位置

【図1】