(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176222
(43)【公開日】2024-12-19
(54)【発明の名称】字幕表示位置学習装置、字幕表示位置推論装置及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241212BHJP
G06N 20/00 20190101ALN20241212BHJP
【FI】
G06T7/00 350B
G06N20/00 130
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023094612
(22)【出願日】2023-06-08
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】▲高▼木 政徳
(72)【発明者】
【氏名】木内 良
(72)【発明者】
【氏名】杉之下 太一
(72)【発明者】
【氏名】鈴木 充典
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】浅野 竜平
(72)【発明者】
【氏名】大亦 寿之
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096FA69
5L096GA08
5L096KA04
5L096KA15
(57)【要約】
【課題】字幕表示位置を、映像に応じた適切な位置に自動的に調整する。
【解決手段】字幕表示位置学習装置1-1の字幕領域抽出部11は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)を求める。座標変換部13は、テーブル12を用いて、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する。ストレージ部14には、画像データ(字幕なし)及び字幕表示位置(X,Y)が教師データとして格納される。学習部15は、ストレージ部14から画像データ(字幕なし)及び字幕表示位置(X,Y)からなる教師データを読み出し、教師データを用いて学習を行い、学習済みモデルを生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
映像に付加される字幕の表示位置を学習する字幕表示位置学習装置において、
前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部と、
予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部と、
前記字幕が付加されていない画像データを画像データ(字幕なし)として、前記画像データ(字幕なし)及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ(字幕なし)を入力データとし、前記画像データ(字幕なし)内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部と、
を備えたことを特徴とする字幕表示位置学習装置。
【請求項2】
学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置において、
請求項1に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部と、
前記字幕が付加されていない画像データを画像データ(字幕なし)として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部と、
を備えたことを特徴とする字幕表示位置推論装置。
【請求項3】
請求項2に記載の字幕表示位置推論装置において、
さらに、前記推論部により推論された前記字幕表示位置を入力し、当該字幕表示位置を、予め設定された時間期間の間継続して出力するか、
または、前記字幕表示位置を入力し、当該字幕表示位置が予め設定された回数だけ連続して同一である場合に、当該字幕表示位置を出力するか、
または、前記字幕表示位置を入力し、現在入力した前記字幕表示位置を第1の字幕表示位置とし、直前に入力した前記字幕表示位置を第2の字幕表示位置として、前記第1の字幕表示位置と前記第2の前記字幕表示位置との間の差が、予め設定された閾値以上である場合に、前記第1の字幕表示位置を出力し、前記差が前記閾値未満である場合に、出力していた字幕表示位置を継続して出力するか、
または、前記字幕表示位置を入力すると共に、当該字幕表示位置に対応する前記画像データ(字幕なし)を入力し、現在入力した前記画像データを第1の画像データとし、直前に入力した前記画像データを第2の画像データとして、前記第1の画像データと前記第2の画像データとの間の差が、予め設定された閾値以上である場合に、カット切り替わりのタイミングであると判断し、当該カット切り替わりのタイミングのときに入力した前記字幕表示位置を出力し、前記差が前記閾値未満である場合に、カット切り替わりのタイミングでないと判断し、出力していた字幕表示位置を継続して出力するか、の制御を行う制御出力部を備えたことを特徴とする字幕表示位置推論装置。
【請求項4】
映像に付加される字幕の表示位置を学習する字幕表示位置学習装置を構成するコンピュータを、
前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部、
予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部、及び、
前記字幕が付加されていない画像データを画像データ(字幕なし)として、前記画像データ(字幕なし)及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ(字幕なし)を入力データとし、前記画像データ(字幕なし)内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部として機能させるためのプログラム。
【請求項5】
請求項1に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部を備え、前記記憶部に格納された前記学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置を構成するコンピュータを、
前記字幕が付加されていない画像データを画像データ(字幕なし)として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置、及びプログラムに関する。
【背景技術】
【0002】
従来、テレビ放送では、聴覚障碍者向け放送サービスとして、放送番組の音声を文字で画面上に表示するクローズドキャプション方式の字幕放送を提供している。生放送番組において送出される字幕は、生放送番組の音声から人手により書き起こされる。
【0003】
生放送番組の字幕を制作する手法としては、人が音声を聞きながら入力する方式、音声認識の結果を人手で修正する半自動の方式等が採用されている(例えば非特許文献1を参照)。
【0004】
このような字幕放送において、受信機は、視聴者により字幕放送の表示がオンに操作されることで、生放送番組の本編映像に、デコードした文字を重ねて表示する。
【0005】
この場合、本編映像のうち情報量が多い部分(テロップ、地図等)の上に字幕の文字が重なると、視聴者は本編映像のCGスーパー、テロップ等が見え難くなってしまう。そのため、字幕を制作する際に、本編映像のうち情報量が多い部分を避けるように、人が操作をすることで、字幕表示位置を調整している。
【0006】
図39は、従来の字幕表示位置調整手法における調整前後の字幕表示位置の例を示す図である。
図39(1)に示す調整前の放送画面では、字幕「この街はヨーロッパの入口といわれていて」がCGスーパーに被っている。このため、視聴者は本編映像のCGスーパーが見え難くなり、CGスーパーの情報を正しく取得することができない。
【0007】
そこで、字幕制作室の担当者は、
図39(1)に示す調整前の放送画面を見ながら、放送画面に表示された字幕がCGスーパーに重ならないように、操作ボックスを用いて、字幕表示位置を適切な位置に変更する。つまり、担当者は、
図39(1)に示す字幕表示位置を、
図39(2)に示す位置へ移動させる。
【0008】
これにより、字幕はCGスーパーに重ならない位置へ移動するため、視聴者は、字幕の情報だけでなく、CGスーパーの情報も正確に取得することができる。
【0009】
特に、生放送または一部収録済み番組の放送番組に対してリアルタイムで字幕を付与する生字幕室において、担当者は、音声認識または高速でタイピングすることにより字幕を制作すると共に、番組の本編映像を見ながら字幕表示位置を手動で調整している。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】小森智康、“生放送番組における自動字幕制作の最新動向”、[online]、NHK技研R&D、2020年夏号解説02、NHK放送技術研究所、[令和5年2月3日検索]、インターネット<URL:https://www.nhk.or.jp/strl/publica/rd/182/3.html>
【発明の概要】
【発明が解決しようとする課題】
【0011】
前述のとおり、放送番組の字幕制作において、画面上の字幕の表示位置をCGスーパー等に被らないように適切に決定する必要があり、担当者は、放送画面を注視しながら、操作ボックスのボタン操作により、字幕の表示位置(高さ、右寄せ及び左寄せ)を調整する。しかしながら、担当者の手動による調整作業は負担が大きいという問題があった。
【0012】
このため、担当者の手動による調整作業に代えて、負担の少ない新たな手法が所望されていた。字幕位置を調整するオペレーションを自動化することで、字幕制作の効率化が期待できるからである。また、要員及び字幕制作の効率化の関係で、字幕位置を調整することなく送出している番組については、自動化により、追加要員なしで位置調整が可能となり、視聴者サービスの向上にもつながるからである。
【0013】
この問題を解決するために、本件特許出願の同一の出願人によりなされた、本件特許出願時に未公開の特願2022-028169号公報の手法が提案されている。この手法は、映像に含まれる特定のオブジェクト(人物の顔、字幕、地図等)の物体を検知し、物体毎に定められるスコアを座標にマッピングし、スコアが最小となる字幕表示領域を字幕表示位置として決定するものである。
【0014】
しかしながら、この手法では、物体毎に定められるスコアに基づいてマッピングが行われるため、必ずしも手動の調整作業によるマッピングと同等の字幕表示位置が得られるとは限らない。このため、手動の調整作業と同等の字幕表示位置が得られるような手法が所望されていた。
【0015】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、字幕表示位置を、映像に応じた適切な位置に自動的に調整可能な字幕表示位置学習装置、字幕表示位置推論装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0016】
前記課題を解決するために、請求項1の字幕表示位置学習装置は、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置において、前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部と、予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部と、前記字幕が付加されていない画像データを画像データ(字幕なし)として、前記画像データ(字幕なし)及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ(字幕なし)を入力データとし、前記画像データ(字幕なし)内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部と、を備えたことを特徴とする。
【0017】
また、請求項2の字幕表示位置推論装置は、学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置において、請求項1に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部と、前記字幕が付加されていない画像データを画像データ(字幕なし)として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部と、を備えたことを特徴とする。
【0018】
また、請求項3の字幕表示位置推論装置は、請求項2に記載の字幕表示位置推論装置において、さらに、前記推論部により推論された前記字幕表示位置を入力し、当該字幕表示位置を、予め設定された時間期間の間継続して出力するか、または、前記字幕表示位置を入力し、当該字幕表示位置が予め設定された回数だけ連続して同一である場合に、当該字幕表示位置を出力するか、または、前記字幕表示位置を入力し、現在入力した前記字幕表示位置を第1の字幕表示位置とし、直前に入力した前記字幕表示位置を第2の字幕表示位置として、前記第1の字幕表示位置と前記第2の前記字幕表示位置との間の差が、予め設定された閾値以上である場合に、前記第1の字幕表示位置を出力し、前記差が前記閾値未満である場合に、出力していた字幕表示位置を継続して出力するか、または、前記字幕表示位置を入力すると共に、当該字幕表示位置に対応する前記画像データ(字幕なし)を入力し、現在入力した前記画像データを第1の画像データとし、直前に入力した前記画像データを第2の画像データとして、前記第1の画像データと前記第2の画像データとの間の差が、予め設定された閾値以上である場合に、カット切り替わりのタイミングであると判断し、当該カット切り替わりのタイミングのときに入力した前記字幕表示位置を出力し、前記差が前記閾値未満である場合に、カット切り替わりのタイミングでないと判断し、出力していた字幕表示位置を継続して出力するか、の制御を行う制御出力部を備えたことを特徴とする。
【0019】
また、請求項4のプログラムは、映像に付加される字幕の表示位置を学習する字幕表示位置学習装置を構成するコンピュータを、前記字幕を含むデータに基づいて、前記字幕が表示される字幕領域の位置を、画像が表示される画像座標系における前記字幕領域の左上の座標を示す字幕左上座標として抽出する字幕領域抽出部、予め設定された変換規則を用いて、前記字幕領域抽出部により抽出された前記字幕左上座標を、前記字幕が表示される字幕座標系における字幕表示位置に変換する座標変換部、及び、前記字幕が付加されていない画像データを画像データ(字幕なし)として、前記画像データ(字幕なし)及び前記座標変換部により変換された前記字幕表示位置からなる教師データを用いて、前記画像データ(字幕なし)を入力データとし、前記画像データ(字幕なし)内に前記字幕が表示される字幕表示位置を出力データとした学習モデルにつき、前記入力データと前記出力データとの間の関係を学習し、学習済みモデルを生成する学習部として機能させることを特徴とする。
【0020】
また、請求項5のプログラムは、請求項1に記載の字幕表示位置学習装置により生成された前記学習済みモデルが格納された記憶部を備え、前記記憶部に格納された前記学習済みモデルを用いて、映像に付加される字幕の表示位置を推論する字幕表示位置推論装置を構成するコンピュータを、前記字幕が付加されていない画像データを画像データ(字幕なし)として入力し、前記記憶部に格納された前記学習済みモデルを用いて、前記字幕が表示される字幕表示位置を推論する推論部として機能させることを特徴とする。
【発明の効果】
【0021】
以上のように、本発明によれば、字幕表示位置を、映像に応じた適切な位置に自動的に調整することができる。
【図面の簡単な説明】
【0022】
【
図1】(1)は、画像座標系における字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を説明する図である。(2)は、字幕座標系における字幕表示位置(X,Y)を説明する図である。
【
図2】実施例1の字幕表示位置学習装置の構成例を示すブロック図である。
【
図3】実施例1の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【
図4】実施例1の字幕表示位置学習装置の処理例を示すフローチャートである。
【
図6】ストレージ部に格納される教師データの例を示す図である。
【
図7】実施例1の字幕表示位置推論装置の構成例を示すブロック図である。
【
図8】実施例1の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【
図9】実施例1の字幕表示位置推論装置の処理例を示すフローチャートである。
【
図10】実施例2の字幕表示位置学習装置の構成例を示すブロック図である。
【
図11】実施例2の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【
図12】実施例2の字幕表示位置学習装置の処理例を示すフローチャートである。
【
図13】ストレージ部に格納される教師データの例を示す図である。
【
図14】実施例2の字幕表示位置推論装置の構成例を示すブロック図である。
【
図15】実施例2の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【
図16】実施例2の字幕表示位置推論装置の処理例を示すフローチャートである。
【
図17】実施例3の字幕表示位置学習装置の構成例を示すブロック図である。
【
図18】実施例3の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【
図19】実施例3の字幕表示位置学習装置の処理例を示すフローチャートである。
【
図20】ストレージ部に格納される教師データの例を示す図である。
【
図21】実施例3の字幕表示位置推論装置の構成例を示すブロック図である。
【
図22】実施例3の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【
図23】実施例3の字幕表示位置推論装置の処理例を示すフローチャートである。
【
図25】実施例4の字幕座標系における字幕表示位置(X,Y,Z)を説明する図である。
【
図26】実施例4の字幕表示位置学習装置の構成例を示すブロック図である。
【
図27】実施例4の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【
図28】実施例4の字幕表示位置学習装置の処理例を示すフローチャートである。
【
図29】ストレージ部に格納される教師データの例を示す図である。
【
図30】実施例4の字幕表示位置推論装置の構成例を示すブロック図である。
【
図31】実施例4の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【
図32】実施例4の字幕表示位置推論装置の処理例を示すフローチャートである。
【
図34】実施例5の字幕座標系における字幕表示位置(X,Y,Z,XW)を説明する図である。
【
図35】実施例5の字幕表示位置推論装置の構成例を示すブロック図である。
【
図36】実施例5の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【
図37】実施例5の字幕表示位置推論装置の処理例を示すフローチャートである。
【
図39】従来の字幕表示位置調整手法における調整前後の字幕表示位置の例を示す図である。
【発明を実施するための形態】
【0023】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の字幕表示位置学習装置は、番組の映像と字幕の位置との間の関係性を機械学習し、学習済みモデルを生成することを特徴とする。また、本発明の字幕表示位置推論装置は、字幕表示位置学習装置により生成された学習済みモデルを用いて、番組の映像に付加される字幕の位置を推論することを特徴とする。
【0024】
これにより、字幕表示位置を、映像に応じた適切な位置に自動的に調整することができる。
【0025】
〔用語の定義〕
まず、後述する実施例1,2,3,4,5等にて使用する用語について定義する。
図1(1)は、画像座標系における字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を説明する図である。画像座標系は、番組の映像に字幕を付加する際の画像の座標系を示すものであり、その座標は、x軸及びy軸上においてx及びyにより表される。
【0026】
図1(1)に示すように、画像内の領域αに字幕が表示されるものとする。そうすると、字幕が表示される領域αの位置(字幕位置)を示す字幕左上座標(x,y)は、画像座標系において領域αの左上の座標である。また、領域αの位置を示す字幕表示領域(cx,cy,w,h)は、画像座標系における領域αを中心座標(cx,cy)、幅w及び高さhで表した領域である。
【0027】
図1(2)は、字幕座標系における字幕表示位置(X,Y)を説明する図である。字幕座標系は、映像に字幕が付加される際の字幕の座標系を示すものであり、その座標は、X軸及びY軸上においてX及びYにより表される。尚、実施例4の字幕表示位置(X,Y,Z)及び実施例5の字幕表示位置(X,Y,Z,XW)については後述する。
【0028】
図1(2)に示す全体の四角の枠βは、
図1(1)に示した画像の領域に対応している。字幕表示位置(X,Y)は、字幕座標系において画像に対応する枠β内に字幕が表示される位置を示し、本例では、後述する24パターンのうちのいずれかのパターンで表される。
【0029】
X軸及びY軸上をそれぞれ21及び8の領域に区分したとして、Xは、左寄せ(1列目)、中央(4列目)及び右寄せ(7列目)のうちのいずれかである(X=左寄せ,中央,右寄せ)。また、Yは、1(1行目)から8(8行目)までの間のいずれかの整数値である(Y=1,・・・,8)。
【0030】
図1(2)に示すように、例えば画像の左上に字幕が表示される場合、字幕表示位置(X,Y)=(左寄せ,1行目)であり、この場合の字幕は、1列目及び1,2行目から15列目及び1,2行目までの領域β1に表示されることとなる。
【0031】
また、例えば画像の中央に字幕が表示される場合、字幕表示位置(X,Y)=(中央,4行目)であり、この場合の字幕は、4列目及び4,5行目から18列目及び4,5行目までの領域β2に表示されることとなる。また、例えば画像の右下に字幕が表示される場合、字幕表示位置(X,Y)=(右寄せ,7行目)であり、この場合の字幕は、7列目及び7,8行目から21列目及び7,8行目までの領域β3に表示されることとなる。
【0032】
このように、
図1(2)の例において、字幕の配置は、Xで表される横方向の「左寄せ」「中央」及び「右寄せ」の3パターン、及びYで表される縦方向の開始行である「1行目」~「8行目」の8パターンの組み合わせとなる。
【0033】
つまり、字幕表示位置(X,Y)は、画面を横21×縦8のメッシュ状の表示枠に分けた場合に、連続する横15列×縦2行の表示枠を1つの字幕の表示枠として、横方向「右寄せ」「中央」「左寄せ」、及び縦方向「1行目」~「8行目」の組み合わせの合計8×3=24パターンのいずれかとなる。
【0034】
以下に説明する実施例1,2,3,4,5、並びに他の第1の実施例及び他の第2の実施例において、字幕表示位置学習装置は、字幕が付加されていない画像データ及び字幕位置情報を教師データとして学習を行うことで、学習済みモデルを生成する。また、字幕表示位置推論装置は、字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕が付加されていない画像データから字幕位置情報を推論する。
【0035】
〔実施例1〕
次に、実施例1について説明する。実施例1は、字幕が付加されていない映像データから画像データを切り出し、字幕が付加されていない画像データ及び字幕表示位置(X,Y)を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置(X,Y)を推論する例である。
【0036】
以下、字幕が付加されていない映像データを「映像データ(字幕なし)」といい、後述する字幕が付加されている映像データを「映像データ(字幕あり)」という。また、字幕が付加されていない画像データを「画像データ(字幕なし)」といい、後述する字幕が付加されている画像データを「画像データ(字幕あり)」という。
【0037】
例えば、映像データ(字幕なし)は、スタジオにて制作され放送された番組の映像であり、映像データ(字幕あり)は、受信機により実際に字幕が表示された映像である。
【0038】
(実施例1/字幕表示位置学習装置)
まず、実施例1の字幕表示位置学習装置について説明する。
図2は、実施例1の字幕表示位置学習装置の構成例を示すブロック図であり、
図3は、実施例1の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【0039】
この字幕表示位置学習装置1-1は、画像切り出し部10、字幕領域抽出部11、テーブル12、座標変換部13、ストレージ部14、学習部15及び記憶部16を備えている。
【0040】
字幕表示位置学習装置1-1は、映像データ(字幕なし)及び映像データ(字幕あり)を入力する(
図3の映像データ(字幕あり)には、字幕が付加された領域γが示されている。この領域γには、例えば背景をグレーの色で表した字幕が表示されている。)。そして、字幕表示位置学習装置1-1は、画像切り出し部10、字幕領域抽出部11、テーブル12及び座標変換部13にて字幕表示位置(X,Y)を生成することで、画像データ(字幕なし)及び字幕表示位置(X,Y)(
図3を参照して例えば(X,Y)=(右寄せ,7行目))からなる教師データを生成し(ステップS301)、これをストレージ部14に格納する。
【0041】
字幕表示位置学習装置1-1は、学習部15にてストレージ部14から教師データを読み出し、教師データを用いて画像データ(字幕なし)と字幕表示位置(X,Y)との間の関係を学習し、学習済みモデルを生成する(ステップS302)。そして、字幕表示位置学習装置1-1は、学習済みモデルを記憶部16に格納する。
【0042】
図4は、実施例1の字幕表示位置学習装置1-1の処理例を示すフローチャートである。以下、
図2及び
図4を参照して字幕表示位置学習装置1-1の処理例を説明する。
【0043】
画像切り出し部10は、映像データ(字幕なし)、及び当該映像データ(字幕なし)に同期した(対応する)映像データ(字幕あり)を入力する(ステップS401)。
【0044】
画像切り出し部10は、映像データ(字幕なし)及び映像データ(字幕あり)からそれぞれ静止画を切り出し、画像データ(字幕なし)及び画像データ(字幕あり)を生成する(ステップS402)。例えば画像切り出し部10は、予め設定された時間(例えば10~60秒)毎に、静止画の切り出しを行う。
【0045】
画像切り出し部10は、画像データ(字幕なし)及び画像データ(字幕あり)を字幕領域抽出部11に出力すると共に、画像データ(字幕なし)をストレージ部14に格納する。
【0046】
字幕領域抽出部11は、画像切り出し部10から、画像データ(字幕なし)及びこれに対応する画像データ(字幕あり)を入力する。そして、字幕領域抽出部11は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて、例えば背景差分法により字幕領域(字幕が存在する領域)を抽出し、字幕領域から字幕左上座標(x,y)を求める(ステップS403)。字幕領域抽出部11は、字幕左上座標(x,y)を座標変換部13に出力する。
【0047】
座標変換部13は、字幕領域抽出部11から字幕左上座標(x,y)を入力し、テーブル12から字幕左上座標(x,y)に対応する字幕表示位置(X,Y)を読み出すことで、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する(ステップS404)。
【0048】
図5は、テーブル12のデータ構成例を示す図である。このテーブル12には、字幕左上座標(x,y)及びこれに対応する字幕表示位置(X,Y)を組として、複数の組のデータが格納されている。
【0049】
映像データ(字幕あり)に付加された字幕の位置を表す字幕左上座標(x,y)と、これに対応する字幕表示位置(X,Y)との関係は予め設定することができ、この関係を示す対応データがテーブル12に格納されている。
【0050】
尚、座標変換部13は、変換規則が格納されたテーブル12の代わりに、変換規則が定義された演算式を用いて変換処理を行うようにしてもよい。後述する
図17に示す座標変換部21及び
図26に示す座標変換部26についても同様である。
【0051】
図2及び
図4に戻って、座標変換部13は、字幕表示位置(X,Y)をストレージ部14に格納する。つまり、画像切り出し部10及び座標変換部13は、画像データ(字幕なし)及びこれに対応する字幕表示位置(X,Y)を教師データとしてストレージ部14に格納する(ステップS405)。
【0052】
図6は、ストレージ部14に格納される教師データの例を示す図である。
図6に示すように、ストレージ部14には、画像データ(字幕なし)及びこれに対応する字幕表示位置(X,Y)を組とする1つの教師データを単位として、複数の組のデータ(複数の教師データ)が格納される。
【0053】
図2及び
図4に戻って、学習部15は、ストレージ部14から、画像データ(字幕なし)及びこれに対応する字幕表示位置(X,Y)からなる教師データを読み出す。そして、学習部15は、教師データを用いて、画像データ(字幕なし)を入力データとし、字幕表示位置(X,Y)を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する(ステップS406)。
【0054】
学習部15は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部16に格納する(ステップS407)。
【0055】
以上のように、実施例1の字幕表示位置学習装置1-1によれば、字幕領域抽出部11は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)を求め、座標変換部13は、テーブル12を用いて、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する。
【0056】
ストレージ部14には、画像データ(字幕なし)及び字幕表示位置(X,Y)が教師データとして格納される。
【0057】
学習部15は、画像データ(字幕なし)及び字幕表示位置(X,Y)からなる教師データを用いてこれらの関係を学習し、学習済みモデルを生成する。
【0058】
これにより、従来の手動にて字幕表示位置の調整作業を行う手法を踏襲した学習済みモデルを得ることができる。そして、後述する実施例1の字幕表示位置推論装置2-1がこの学習済みモデルを用いることで、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0059】
(実施例1/字幕表示位置推論装置)
次に、実施例1の字幕表示位置推論装置について説明する。
図7は、実施例1の字幕表示位置推論装置の構成例を示すブロック図であり、
図8は、実施例1の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【0060】
この字幕表示位置推論装置2-1は、画像切り出し部30、記憶部31、推論部32及び制御出力部33を備えている。記憶部31には、
図2に示した字幕表示位置学習装置1-1により生成された学習済みモデルが格納されている。
【0061】
字幕表示位置推論装置2-1は、映像データ(字幕なし)を入力し、画像切り出し部30にて画像データ(字幕なし)を切り出す(ステップS801)。そして、字幕表示位置推論装置2-1は、推論部32にて、記憶部31に格納された学習済みモデルを用いて画像データ(字幕なし)から字幕表示位置(X,Y)(
図8を参照して例えば(X,Y)=(中央,5行目))を推論する(ステップS802)。そして、字幕表示位置推論装置2-1は、制御出力部33にて字幕表示位置(X,Y)の制御を行う。
【0062】
図9は、実施例1の字幕表示位置推論装置2-1の処理例を示すフローチャートである。以下、
図7及び
図9を参照して字幕表示位置推論装置2-1の処理例を説明する。
【0063】
画像切り出し部30は、映像データ(字幕なし)を入力し(ステップS901)、映像データ(字幕なし)から静止画を切り出し、画像データ(字幕なし)を生成する(ステップS902)。例えば画像切り出し部30は、HD-SDI形式の放送用の映像データ(字幕なし)を入力し、予め設定された時間(例えば0.3~5秒)毎に、放送用の静止画の切り出し画像を切り出す。画像切り出し部30は、画像データ(字幕なし)を推論部32に出力する。
【0064】
推論部32は、画像切り出し部30から画像データ(字幕なし)を入力すると共に、記憶部31から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ(字幕なし)から字幕表示位置(X,Y)を推論する(ステップS903)。そして、推論部32は、字幕表示位置(X,Y)を制御出力部33に出力する。
【0065】
制御出力部33は、推論部32から字幕表示位置(X,Y)を入力し、字幕表示位置(X,Y)を用いて所定の制御を行い(ステップS904)、制御後の字幕表示位置(X,Y)を出力する(ステップS905)。
【0066】
字幕表示位置推論装置2-1により出力される字幕表示位置(X,Y)は、画像データ(字幕なし)内において選択された最適な位置である必要がある。しかし、学習済みモデルを用いて推論される今回の字幕表示位置(X,Y)は、前回及び前々回等のスキャンにて推論された字幕表示位置(X,Y)が考慮されることはない。このため、例えば背景映像が大きく変化していないにもかかわらず、推論される字幕表示位置(X,Y)が頻繁に変更されることがあり得る。頻繁な字幕表示位置(X,Y)の変更は、視聴者に不快感を与えるため、妥当ではない。
【0067】
そこで、字幕表示位置推論装置2-1は制御出力部33を備えるようにし、制御出力部33において、字幕表示位置(X,Y)が頻繁に変更されないように制御を行うようにした。後述する実施例2,3等においても同様である。また、後述する実施例4の字幕表示位置推論装置2-4に備えた制御出力部46、及び後述する実施例5の字幕表示位置推論装置2-5に備えた制御出力部51についても同様である。
【0068】
(第1の制御)
具体的には、制御出力部33は、推論部32から入力した字幕表示位置(X,Y)を、予め設定された時間期間の間継続して出力し、当該時間期間が経過した後、そのときに(スキャンにて)推論部32から入力した字幕表示位置(X,Y)を、同様に予め設定された時間期間の間継続して出力する。
【0069】
これにより、制御出力部33から出力される字幕表示位置(X,Y)は、予め設定された時間期間の間変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。
【0070】
(第2の制御)
また、制御出力部33は、推論部32から入力した字幕表示位置(X,Y)が予め設定された回数(スキャン数)につき連続して同一であるか否かを判定する。そして、制御出力部33は、字幕表示位置(X,Y)が予め設定された回数につき連続して同一であると判定した場合、当該字幕表示位置(X,Y)を出力し、字幕表示位置(X,Y)が予め設定された回数につき連続して同一でないと判定した場合、今まで出力していた字幕表示位置(X,Y)を継続して出力する。
【0071】
これにより、制御出力部33から出力される字幕表示位置(X,Y)は、予め設定された回数の間変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。
【0072】
(第3の制御)
また、制御出力部33は、推論部32から入力した今回のスキャンの字幕表示位置(X,Y)(第1の字幕表示位置(X,Y))と、直前の(1つ手前の)スキャンの字幕表示位置(X,Y)(第2の字幕表示位置(X,Y))との間の差を求める。そして、制御出力部33は、当該差と予め設定された閾値とを比較し、当該差が閾値以上であると判定した場合(Xの差が閾値以上であるか、またはYの差が閾値以上であると判定した場合)、両位置が大きく異なると判断し、今回のスキャンの字幕表示位置(X,Y)を出力する。一方、制御出力部33は、当該差が閾値未満であると判定した場合(Xの差が閾値未満であり、かつYの差の閾値未満であると判定された場合)、両位置が大きく異なることはないと判断し、現在まで出力していた(前回のスキャンにて出力した)字幕表示位置(X,Y)を継続して出力する。
【0073】
例えば、閾値としてXの差(列の差)1以上、及びYの差(行の差)3以上が予め設定されているものとする。この場合、今回のスキャンの字幕表示位置(X,Y)=(左寄せ,6行目)及び直前のスキャンの字幕表示位置(X,Y)=(左寄せ,2行目)であるとすると、Xの差は0であり、Yの差は4である。そして、Yの差が閾値以上であると判定され(両位置が大きく異なると判断され)、今回のスキャンの字幕表示位置(X,Y)=(左寄せ,6行目)が出力される。
【0074】
また、今回のスキャンの字幕表示位置(X,Y)=(左寄せ,6行目)及び直前のスキャンの字幕表示位置(X,Y)=(左寄せ,5行目)であるとすると、Xの差は0であり、Yの差は1である。そして、Xの差が閾値未満であり、かつYの差が閾値未満であると判定され(両位置が大きく異なることはないと判断され)、現在まで出力していた字幕表示位置(X,Y)=(左寄せ,5行目)が継続して出力される。
【0075】
また、今回のスキャンの字幕表示位置(X,Y)=(左寄せ,6行目)及び直前のスキャンの字幕表示位置(X,Y)=(中央,6行目)であるとすると、Xの差は3(
図1(2)を参照)であり、Yの差は0である。そして、Xの差が閾値以上であると判定され(両位置が大きく異なると判断され)、今回のスキャンの字幕表示位置(X,Y)=(左寄せ,6行目)が出力される。
【0076】
これにより、制御出力部33から出力される字幕表示位置(X,Y)は、今回のスキャンの字幕表示位置(X,Y)と、直前のスキャンの字幕表示位置(X,Y)との間の差が閾値未満である場合に、すなわち両位置が大きく異なることはないと判断される場合に変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。
【0077】
(第4の制御)
また、制御出力部33は、画像切り出し部30から画像データ(字幕なし)を入力し、入力した今回のスキャンの画像データ(字幕なし)(第1の画像データ(字幕なし))と、直前の(1つ手前の)スキャンの画像データ(字幕なし)(第2の画像データ(字幕なし))との間の差を求める。そして、制御出力部33は、当該差と予め設定された閾値とを比較し、当該差が閾値以上であると判定した場合、カット切り替えのタイミングであると判断し、カット切り替えのタイミングである今回のスキャンの字幕表示位置(X,Y)を出力する。一方、制御出力部33は、当該差が閾値未満であると判定した場合、カット切り替えのタイミングでないと判断し、現在まで出力していた(前回のスキャンにて出力した)字幕表示位置(X,Y)を継続して出力する。
【0078】
例えば制御出力部33は、今回のスキャンのnフレーム目の画像データ(字幕なし)をIn(x,y)とし、前回のスキャンのn-1フレーム目の画像データ(字幕なし)をIn-1(x,y)として、差分画像Id(x,y)を以下の式により算出する。
[数1]
Id(x,y)=|In(x,y)-In-1(x,y)| ・・・(1)
【0079】
制御出力部33は、差分画像I
d(x,y)の平均値I’
dを以下の式により算出する。Nは差分画像I
d(x,y)におけるx軸方向の画素数、Mはy軸方向の画素数である。
[数2]
【0080】
制御出力部33は、差分画像Id(x,y)の平均値I’dと予め設定された閾値とを比較することで、前述のとおり、カット切り替えのタイミングであるか否かを判断し、今回のスキャンの字幕表示位置(X,Y)を出力するか、または、現在まで出力していた字幕表示位置(X,Y)を継続して出力する。
【0081】
これにより、制御出力部33から出力される字幕表示位置(X,Y)は、今回のスキャンの画像データ(字幕なし)と、直前のスキャンの画像データ(字幕なし)との間の差が閾値未満である場合に、すなわちカット切り替えのタイミングでないと判断される場合に変更されないため、頻繁な変更を抑えることができ、視聴者に不快感を与えることはない。
【0082】
ここで、制御出力部33は、前述の第1の制御から第4の制御までのいずれか1つの制御を行うようにしてもよいし、2つまたは3つの制御を行うようにしてもよいし、全ての制御を行うようにしてもよい。例えば制御出力部33は、全ての制御を行う場合、前述の第1の制御において、字幕表示位置(X,Y)を入力してから当該時間期間が経過する条件を満たし、かつ前述の第2の制御において、入力した字幕表示位置(X,Y)が予め設定された回数につき連続して同一であると判定する条件を満たし、かつ前述の第3の制御において、当該差が閾値以上であると判定して両位置が大きく異なると判断する条件を満たし、かつ前述の第4の制御において、当該差が閾値以上であると判定してカット切り替えのタイミングであると判断する条件を満たす場合、当該字幕表示位置(X,Y)を出力し、これらの条件のうち少なくとも1つを満たさない場合、現在まで出力していた字幕表示位置(X,Y)を継続して出力する。
【0083】
以上のように、実施例1の字幕表示位置推論装置2-1によれば、推論部32は、実施例1の字幕表示位置学習装置1-1により生成された学習済みモデルを用いて、画像データ(字幕なし)から字幕表示位置(X,Y)を推論する。
【0084】
制御出力部33は、字幕表示位置(X,Y)が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置(X,Y)を出力する。
【0085】
これにより、従来の手動にて字幕表示位置の調整作業を行う手法を踏襲した学習済みモデルを用いて、字幕表示位置(X,Y)を推論するようにしたため、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0086】
〔実施例2〕
次に、実施例2について説明する。実施例2は、映像データ(字幕なし)から画像データ(字幕なし)を切り出し、画像データ(字幕なし)及び字幕左上座標(x,y)を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕左上座標(x,y)を推論する例である。
【0087】
(実施例2/字幕表示位置学習装置)
まず、実施例2の字幕表示位置学習装置について説明する。
図10は、実施例2の字幕表示位置学習装置の構成例を示すブロック図であり、
図11は、実施例2の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【0088】
この字幕表示位置学習装置1-2は、画像切り出し部10、字幕領域抽出部11、ストレージ部17、学習部18及び記憶部19を備えている。
【0089】
字幕表示位置学習装置1-2は、映像データ(字幕なし)及び映像データ(字幕あり)を入力する(
図11の映像データ(字幕あり)には、字幕が付加されている領域γが示されている。)。そして、字幕表示位置学習装置1-2は、画像切り出し部10及び字幕領域抽出部11にて字幕左上座標(x,y)を生成することで、画像データ(字幕なし)及び字幕左上座標(x,y)(
図11を参照して例えば(x,y)=(420,900))からなる教師データを生成し(ステップS1101)、これをストレージ部17に格納する。
【0090】
字幕表示位置学習装置1-2は、学習部18にてストレージ部17から教師データを読み出し、教師データを用いて画像データ(字幕なし)と字幕左上座標(x,y)との間の関係を学習し、学習済みモデルを生成する(ステップS1102)。そして、字幕表示位置学習装置1-2は、学習済みモデルを記憶部19に格納する。
【0091】
図12は、実施例2の字幕表示位置学習装置1-2の処理例を示すフローチャートである。以下、
図10及び
図12を参照して字幕表示位置学習装置1-2の処理例を説明する。
【0092】
画像切り出し部10は、
図4のステップS401,S402と同様に、映像データ(字幕なし)及び映像データ(字幕あり)を入力し(ステップS1201)、静止画を切り出して画像データ(字幕なし)及び画像データ(字幕あり)を生成する(ステップS1202)。
【0093】
画像切り出し部10は、画像データ(字幕なし)及び画像データ(字幕あり)を字幕領域抽出部11に出力すると共に、画像データ(字幕なし)をストレージ部17に格納する。
【0094】
字幕領域抽出部11は、画像切り出し部10から画像データ(字幕なし)及び画像データ(字幕あり)を入力する。そして、字幕領域抽出部11は、
図4のステップS403と同様に、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)を求める(ステップS1203)。
【0095】
字幕領域抽出部11は、字幕左上座標(x,y)をストレージ部17に格納する。つまり、画像切り出し部10及び字幕領域抽出部11は、画像データ(字幕なし)及びこれに対応する字幕左上座標(x,y)を教師データとしてストレージ部17に格納する(ステップS1204)。
【0096】
図13は、ストレージ部17に格納される教師データの例を示す図である。
図13に示すように、ストレージ部17には、画像データ(字幕なし)及びこれに対応する字幕左上座標(x,y)を組とする1つの教師データを単位として、複数の組のデータ(複数の教師データ)が格納される。
【0097】
図10及び
図12に戻って、学習部18は、ストレージ部17から、画像データ(字幕なし)及びこれに対応する字幕左上座標(x,y)からなる教師データを読み出す。そして、学習部18は、教師データを用いて、画像データ(字幕なし)を入力データとし、字幕左上座標(x,y)を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する(ステップS1205)。
【0098】
学習部18は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部19に格納する(ステップS1206)。
【0099】
以上のように、実施例2の字幕表示位置学習装置1-2によれば、字幕領域抽出部11は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)を求める。
【0100】
ストレージ部17には、画像データ(字幕なし)及び字幕左上座標(x,y)が教師データとして格納される。
【0101】
学習部18は、画像データ(字幕なし)及び字幕左上座標(x,y)からなる教師データを用いてこれらの関係を学習し、学習済みモデルを生成する。
【0102】
これにより、実施例1の字幕表示位置学習装置1-1と同様の効果を奏し、後述する実施例2の字幕表示位置推論装置2-2がこの学習済みモデルを用いることで、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0103】
(実施例2/字幕表示位置推論装置)
次に、実施例2の字幕表示位置推論装置について説明する。
図14は、実施例2の字幕表示位置推論装置の構成例を示すブロック図であり、
図15は、実施例2の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【0104】
この字幕表示位置推論装置2-2は、画像切り出し部30、記憶部34、推論部35、テーブル36、座標変換部37及び制御出力部33を備えている。記憶部34には、
図10に示した字幕表示位置学習装置1-2により生成された学習済みモデルが格納されている。
【0105】
字幕表示位置推論装置2-2は、映像データ(字幕なし)を入力し、画像切り出し部30にて画像データ(字幕なし)を切り出す(ステップS1501)。そして、字幕表示位置推論装置2-2は、推論部35にて、記憶部34に格納された学習済みモデルを用いて字幕左上座標(x,y)(
図15を参照して例えば(x,y)=(200,100))を推論する(ステップS1502)。
【0106】
字幕表示位置推論装置2-2は、テーブル36及び座標変換部37にて字幕左上座標(x,y)を字幕表示位置(X,Y)(
図15を参照して例えば(X,Y)=(中央,5行目))に変換し(ステップS1503)、制御出力部33にて字幕表示位置(X,Y)の制御を行う。
【0107】
図16は、実施例2の字幕表示位置推論装置2-2の処理例を示すフローチャートである。以下、
図14及び
図16を参照して字幕表示位置推論装置2-2の処理例を説明する。
【0108】
画像切り出し部30は、
図9のステップS901,S902と同様に、映像データ(字幕なし)を入力し(ステップS1601)、静止画を切り出して画像データ(字幕なし)を生成する(ステップS1602)。画像切り出し部30は、画像データ(字幕なし)を推論部35に出力する。
【0109】
推論部35は、画像切り出し部30から画像データ(字幕なし)を入力すると共に、記憶部34から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ(字幕なし)から字幕左上座標(x,y)を推論する(ステップS1603)。そして、推論部35は、字幕左上座標(x,y)を座標変換部37に出力する。
【0110】
座標変換部37は、推論部35から字幕左上座標(x,y)を入力し、テーブル36から字幕左上座標(x,y)に対応する字幕表示位置(X,Y)を読み出すことで、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する(ステップS1604)。テーブル36のデータ構成例は、
図5に示したテーブル12のデータ構成例と同様である。座標変換部37は、字幕表示位置(X,Y)を制御出力部33に出力する。
【0111】
尚、座標変換部37は、変換規則が格納されたテーブル36の代わりに、変換規則が定義された演算式を用いて変換処理を行うようにしてもよい。後述する
図21に示す領域変換部42、
図30に示す領域変換部45及び
図35に示す領域変換部50についても同様である。
【0112】
制御出力部33は、座標変換部37から字幕表示位置(X,Y)を入力し、
図7の制御出力部33と同様の制御を行い、制御後の字幕表示位置(X,Y)を出力する。
【0113】
以上のように、実施例2の字幕表示位置推論装置2-2によれば、推論部35は、実施例2の字幕表示位置学習装置1-2により生成された学習済みモデルを用いて、画像データ(字幕なし)から字幕左上座標(x,y)を推論する。
【0114】
座標変換部37は、テーブル36を用いて、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する。制御出力部33は、字幕表示位置(X,Y)が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置(X,Y)を出力する。
【0115】
これにより、実施例1の字幕表示位置推論装置2-1と同様の効果を奏し、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0116】
〔実施例3〕
次に、実施例3について説明する。実施例3は、映像データ(字幕なし)から画像データ(字幕なし)を切り出し、画像データ(字幕なし)、字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、スコアの高い順に2つの字幕表示領域(cx,cy,w,h)を推論し、字幕の文字数Cに基づいて2つの字幕表示領域(cx,cy,w,h)のうちの1つを選択し、字幕表示位置(X,Y)を求める例である。
【0117】
前述の実施例1,2では、字幕が表示される位置を示す字幕表示位置(X,Y)及び字幕左上座標(x,y)を用いた学習を行っており、字幕が表示される矩形領域のデータを用いた学習を行っていない。このため、実施例1,2では、字幕表示位置(X,Y)を求める際に、字幕が背景と重なる可能性がある。
【0118】
そこで、実施例3では、字幕が背景と重ならないように、字幕が表示される矩形領域のデータである字幕表示領域(cx,cy,w,h)を用いて学習を行うようにした。これにより、字幕の文字数Cに応じた適切な字幕表示位置(X,Y)を求めることができる。
【0119】
(実施例3/字幕表示位置学習装置)
まず、実施例3の字幕表示位置学習装置について説明する。
図17は、実施例3の字幕表示位置学習装置の構成例を示すブロック図であり、
図18は、実施例3の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【0120】
この字幕表示位置学習装置1-3は、画像切り出し部10、字幕領域抽出部20、テーブル12、座標変換部21、ストレージ部22、学習部23及び記憶部24を備えている。
【0121】
字幕表示位置学習装置1-3は、映像データ(字幕なし)及び映像データ(字幕あり)を入力する(
図18の映像データ(字幕あり)には、字幕が付加された領域γが示されている。)。そして、字幕表示位置学習装置1-3は、画像切り出し部10及び字幕領域抽出部20にて字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を生成し、テーブル12及び座標変換部21にて字幕表示位置(X,Y)を生成することで、画像データ(字幕なし)、字幕表示位置(X,Y)(
図18を参照して例えば(X,Y)=(右寄せ,7行目))及び字幕表示領域(cx,cy,w,h)(
図18を参照して例えば(cx,cy,w,h)=(960,950,1080,100))からなる教師データを生成し(ステップS1801)、これをストレージ部22に格納する。
【0122】
字幕表示位置学習装置1-3は、学習部23にてストレージ部22から教師データを読み出し、教師データを用いて画像データ(字幕なし)と字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)との間の関係を学習し、学習済みモデルを生成する(ステップS1802)。そして、字幕表示位置学習装置1-3は、学習済みモデルを記憶部24に格納する。
【0123】
図19は、実施例3の字幕表示位置学習装置1-3の処理例を示すフローチャートである。以下、
図17及び
図19を参照して字幕表示位置学習装置1-3の処理例を説明する。
【0124】
画像切り出し部10は、
図4のステップS401,S402と同様に、映像データ(字幕なし)及び映像データ(字幕あり)を入力し(ステップS1901)、静止画を切り出して画像データ(字幕なし)及び画像データ(字幕あり)を生成する(ステップS1902)。
【0125】
画像切り出し部10は、画像データ(字幕なし)及び画像データ(字幕あり)を字幕領域抽出部20に出力すると共に、画像データ(字幕なし)をストレージ部22に格納する。
【0126】
字幕領域抽出部20は、画像切り出し部10から画像データ(字幕なし)及び画像データ(字幕あり)を入力する。そして、字幕領域抽出部20は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて、例えば背景差分法により字幕領域を抽出し、字幕領域から字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を求める(ステップS1903)。字幕領域抽出部20は、字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を座標変換部21に出力する。
【0127】
座標変換部21は、字幕領域抽出部20から字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を入力する。そして、座標変換部21は、
図4のステップS404と同様に、テーブル12から字幕左上座標(x,y)に対応する字幕表示位置(X,Y)を読み出すことで、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する(ステップS1904)。
【0128】
座標変換部21は、字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)をストレージ部22に格納する。つまり、画像切り出し部10及び座標変換部21は、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)を教師データとしてストレージ部22に格納する(ステップS1905)。
【0129】
図20は、ストレージ部22に格納される教師データの例を示す図である。
図20に示すように、ストレージ部22には、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)を組とする1つの教師データを単位として、複数の組のデータ(複数の教師データ)が格納される。
【0130】
図17及び
図19に戻って、学習部23は、ストレージ部22から、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)からなる教師データを読み出す。そして、学習部23は、教師データを用いて、画像データ(字幕なし)を入力データとし、字幕表示領域(cx,cy,w,h)を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する(ステップS1906)。
【0131】
学習部23は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部24に格納する(ステップS1907)。
【0132】
以上のように、実施例3の字幕表示位置学習装置1-3によれば、字幕領域抽出部20は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を求め、座標変換部21は、テーブル12を用いて、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する。
【0133】
ストレージ部22には、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)が教師データとして格納される。
【0134】
学習部23は、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)からなる教師データを用いて学習を行い、学習済みモデルを生成する。
【0135】
これにより、実施例1の字幕表示位置学習装置1-1と同様の効果を奏し、後述する実施例3の字幕表示位置推論装置2-3がこの学習済みモデルを用いることで、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0136】
特に、実施例3の字幕表示位置学習装置1-3は、画像データ(字幕なし)を入力データとし、字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)を出力データとする学習済みモデルを生成するようにした。これにより、後述する実施例3の字幕表示位置推論装置2-3は、この学習済みモデルを用いることで、例えばスコアの高い2つの字幕表示領域(cx,cy,w,h)を推論し、実際に表示される字幕の文字数Cに基づいて2つの字幕表示領域(cx,cy,w,h)のうちの1つを選択し、字幕表示位置(X,Y)を求めることができる。この字幕表示領域(cx,cy,w,h)には、字幕が表示されるサイズが含まれている。
【0137】
これに対し、実施例1,2では、学習済みモデルを用いることで、それぞれ字幕表示位置(X,Y)及び字幕左上座標(x,y)を推論することができるが、字幕が表示されるサイズを得ることができない。このため、字幕が表示されるサイズはユーザが判断する必要があり、例えばユーザは、その改行位置及び文字の長さを指定する必要がある。
【0138】
したがって、実施例3によれば、推論される字幕表示領域(cx,cy,w,h)には、字幕が表示されるサイズが含まれているため、ユーザによるサイズの判断及び指定は必要がなく、実施例1,2に比べ、ユーザの作業負荷を低減することができると共に、推論される字幕表示位置(X,Y)の精度を高くすることができる。
【0139】
(実施例3/字幕表示位置推論装置)
次に、実施例3の字幕表示位置推論装置について説明する。
図21は、実施例3の字幕表示位置推論装置の構成例を示すブロック図であり、
図22は、実施例3の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【0140】
この字幕表示位置推論装置2-3は、画像切り出し部30、記憶部39、推論部40、テーブル41、領域変換部42及び制御出力部33を備えている。記憶部39には、
図17に示した字幕表示位置学習装置1-3により生成された学習済みモデルが格納されている。
【0141】
字幕表示位置推論装置2-3は、映像データ(字幕なし)を入力し、画像切り出し部30にて画像データ(字幕なし)を切り出す(ステップS2201)。そして、字幕表示位置推論装置2-3は、推論部40にて、記憶部39に格納された学習済みモデルを用いて、例えばスコアの高い順に2つの字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を推論する(ステップS2202)。
【0142】
字幕表示位置推論装置2-3は、領域変換部42にて、映像データ(字幕なし)に付加される字幕文字データを入力して文字数Cを求め、テーブル41を用いて字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を字幕表示位置(XA,YA,CNA),(XB,YB,CNB)に変換し、文字数Cに基づいて、字幕表示位置(XA,YA,CNA),(XB,YB,CNB)のいずれかを選択し、字幕表示位置(X,Y)(
図22を参照して例えば(X,Y)=(中央,5行目))を求める(ステップS2203)。そして、字幕表示位置推論装置2-3は、制御出力部33にて字幕表示位置(X,Y)の制御を行う。
【0143】
ここで、字幕表示位置(X,Y,CN)((XA,YA,CNA),(XB,YB,CNB))における(X,Y)は、
図1(2)にて説明したとおり、字幕座標系において字幕が表示されるX,Y軸上の位置である。(CN)は、字幕の文字数である。
【0144】
図23は、実施例3の字幕表示位置推論装置2-3の処理例を示すフローチャートである。以下、
図21及び
図23を参照して字幕表示位置推論装置2-3の処理例を説明する。
【0145】
画像切り出し部30は、
図9のステップS901,S902と同様に、映像データ(字幕なし)を入力し(ステップS2301)、静止画を切り出して画像データ(字幕なし)を生成する(ステップS2302)。画像切り出し部30は、画像データ(字幕なし)を推論部40に出力する。
【0146】
推論部40は、画像切り出し部30から画像データ(字幕なし)を入力すると共に、記憶部39から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ(字幕なし)から字幕表示領域(cx,cy,w,h)を推論し、スコアの最も高い字幕表示領域(cxA,cyA,wA,hA)及び次に高い字幕表示領域(cxB,cyB,wB,hB)を選択する(ステップS2303)。そして、推論部40は、字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を領域変換部42に出力する。
【0147】
領域変換部42は、推論部40から字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を入力し、テーブル41から字幕表示領域(cx,cy,w,h)に対応する字幕表示位置(X,Y,CN)を読み出すことで、字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を字幕表示位置(XA,YA,CNA),(XB,YB,CNB)に変換する(ステップS2304)。
【0148】
領域変換部42は、映像データ(字幕なし)に付加される字幕文字データを入力し、字幕文字データに基づいて文字数Cを求める(ステップS2305)。
【0149】
尚、入力した字幕文字データについて、その字幕表示領域のサイズが文字数Cに応じて一意に決まるため、以下の式により、サイズから文字数Cを求めることも可能である。予め設定された最大文字数をCM、予め設定された最大字幕表示領域幅をWM、字幕文字データを表示する文字列幅のサイズをwMとする。
[数3]
C=(CM/WM)*wM ・・・(3)
【0150】
領域変換部42は、ステップS2305にて求めた文字数Cに基づいて、ステップS2304にて変換された字幕表示位置(XA,YA,CNA),(XB,YB,CNB)のうちのいずれかを選択し、選択した字幕表示位置に対応する字幕表示位置(X,Y)を求める(ステップS2306)。領域変換部42は、字幕表示位置(X,Y)を制御出力部33に出力する。字幕表示位置(X,Y)は、(XA,YA)及び(XB,YB)のうちのいずれかである。
【0151】
具体的には、領域変換部42は、字幕表示位置(XA,YA,CNA),(XB,YB,CNB)における文字数CNA,CNBと文字数Cとを比較する。そして、領域変換部42は、文字数CNA,CNBのうち文字数Cと一致する文字数CNAまたは文字数CNBを特定し、特定した文字数CNAまたは文字数CNBに対応する字幕表示位置(XA,YA)または(XB,YB)を、字幕表示位置(X,Y)とする。
【0152】
尚、文字数CNA,CNBのそれぞれに重みを置くことで、字幕表示位置(XA,YA),(XB,YB)のいずれか一方を、字幕表示位置(X,Y)として求めるようにしてもよい。例えば領域変換部42は、文字数C=8、文字数CNA=14、文字数CNB=7である場合、領域変換部42は、文字数CNA=14及び文字数CNB=7のうち、文字数C=8以上で、かつ文字数C=8に最も近い文字数CNA=14を特定し、特定した文字数CNA=14に対応する字幕表示位置(XA,YA)を字幕表示位置(X,Y)とする。
【0153】
図24は、テーブル41のデータ構成例を示す図である。このテーブル41には、字幕表示領域(cx,cy,w,h)及びこれに対応する字幕表示位置(X,Y,CN)を組として、複数の組のデータが格納されている。
【0154】
字幕表示領域(cx,cy,w,h)は、
図21~
図23に示した字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)に対応し、字幕表示位置(X,Y,CN)は、
図23に示した字幕表示位置(XA,YA,CNA),(XB,YB,CNB)に対応する。前述のとおり、CNは文字数である。
【0155】
映像データ(字幕あり)に付加される字幕の領域を表す字幕表示領域(cx,cy,w,h)と、これに対応する字幕表示位置(X,Y,CN)との関係は予め設定することができ、この関係を示す対応データがテーブル41に格納されている。
【0156】
図21及び
図23に戻って、制御出力部33は、領域変換部42から字幕表示位置(X,Y)を入力し、
図7の制御出力部33と同様の制御を行い(ステップS2307)、制御後の字幕表示位置(X,Y)を出力する(ステップS2308)。
【0157】
以上のように、実施例3の字幕表示位置推論装置2-3によれば、推論部40は、実施例3の字幕表示位置学習装置1-3により生成された学習済みモデルを用いて、画像データ(字幕なし)から、スコアの高い順に2つの字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を推論する。
【0158】
領域変換部42は、テーブル41を用いて、字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を字幕表示位置(XA,YA,CNA),(XB,YB,CNB)に変換する。そして、領域変換部42は、字幕文字データの文字数Cに基づいて、字幕表示位置(XA,YA,CNA),(XB,YB,CNB)のうちのいずれかを選択し、字幕表示位置(X,Y)を求める。
【0159】
制御出力部33は、字幕表示位置(X,Y)が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置(X,Y)を出力する。
【0160】
これにより、実施例1の字幕表示位置推論装置2-1と同様の効果を奏し、字幕表示位置(X,Y)を、映像に応じた適切な位置に自動的に調整することができる。
【0161】
特に、実施例3の字幕表示位置推論装置2-3により推論される字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)には、字幕が表示されるサイズが含まれている。
【0162】
これに対し、実施例1,2の字幕表示位置推論装置2-1,2-2により推論される字幕表示位置(X,Y)及び字幕左上座標(x,y)からは、字幕が表示されるサイズを得ることができない。このため、このサイズをユーザが判断して指定する必要がある。
【0163】
実施例3によれば、ユーザによる字幕が表示されるサイズの判断及び指定は必要がないため、実施例1,2に比べ、ユーザの作業負荷を低減することができる。また、字幕のサイズの文字数Cに応じた学習済みモデルを用いて、字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)が推論されるため、字幕が背景と重なることのない、精度の高い字幕表示位置(X,Y)を求めることができる。
【0164】
尚、実施例3において、字幕表示位置推論装置2-3の推論部40は、学習済みモデルを用いて、スコアの高い順に2つの字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)を推論するようにした。そして、領域変換部42は、字幕文字データの文字数C及び2つの字幕表示領域(cxA,cyA,wA,hA),(cxB,cyB,wB,hB)から、字幕表示位置(X,Y)を求めるようにした。
【0165】
これに対し、推論部40は、スコアの高い順に3以上の所定数の字幕表示領域(cxA,cyA,wA,hA)等を推論し、領域変換部42は、字幕文字データの文字数C及び3以上の所定数の字幕表示領域(cxA,cyA,wA,hA)等から、字幕表示位置(X,Y)を求めるようにしてもよい。
【0166】
〔実施例4〕
次に、実施例4について説明する。実施例4は、映像データ(字幕なし)から画像データ(字幕なし)を切り出し、画像データ(字幕なし)、字幕表示位置(X,Y)及び行毎の2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、1行目の字幕表示領域(cx1,cy1,w1,h1)を推論し、字幕表示位置(X,Y,Z)を求める例である。Zは、字幕が2行に渡って構成される場合に、第1行目の字幕部分から第2行目の字幕部分への改行位置を示す。
【0167】
前述の実施例3では、字幕表示位置学習装置1-3は、1つの字幕表示領域(cx,cy,w,h)を用いて学習済みモデルを生成するようにした。
【0168】
しかしながら、この字幕表示領域(cx,cy,w,h)は1つの矩形領域であるため、学習済みモデルは、異なるサイズの2つの矩形領域を組み合わせた領域に対応することができない。
【0169】
そこで、実施例4では、行毎の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を用いて学習を行うようにした。これにより、1つの矩形領域からなる字幕表示領域(cx,cy,w,h)以外の複雑な形状の領域に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせた字幕表示位置(X,Y,Z)を求めることができる。
【0170】
図25は、実施例4の字幕座標系における字幕表示位置(X,Y,Z)を説明する図である。
図25に示すように、字幕は2行に渡って構成されており、第1行目の領域β4及び第2行目の領域β5に表示され、第1行目及び第2行目においてX軸上の表示開始位置が同じであるものとする。
【0171】
字幕表示位置(X,Y,Z)における(X,Y)は、字幕が表示される第1行目の字幕部分の位置を示し、
図1(2)にて説明したとおりである。(Z)は、1行目の字幕部分から第2行目の字幕部分への改行位置を示す。
【0172】
(実施例4/字幕表示位置学習装置)
まず、実施例4の字幕表示位置学習装置について説明する。
図26は、実施例4の字幕表示位置学習装置の構成例を示すブロック図であり、
図27は、実施例4の字幕表示位置学習装置における全体的な処理の流れを説明する概略図である。
【0173】
この字幕表示位置学習装置1-4は、画像切り出し部10、字幕領域抽出部25、テーブル12、座標変換部26、ストレージ部27、学習部28及び記憶部29を備えている。
【0174】
字幕表示位置学習装置1-4は、映像データ(字幕なし)及び映像データ(字幕あり)を入力する(
図27の映像データ(字幕あり)には、字幕が付加された第1行目の領域γ1及び第2行目の領域γ2が示されている。)。そして、字幕表示位置学習装置1-4は、画像切り出し部10及び字幕領域抽出部25にて第1行目の字幕左上座標(x,y)及び2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を生成する。
【0175】
字幕表示位置学習装置1-4は、テーブル12及び座標変換部26にて字幕表示位置(X,Y)を生成することで、画像データ(字幕なし)、字幕表示位置(X,Y)(
図27を参照して例えば(X,Y)=(右寄せ,7行目))及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)(
図27を参照して例えば(cx1,cy1,w1,h1)=(960,950,1080,100),(cx2,cy2,w2,h2)=(960,1000,900,50))からなる教師データを生成し(ステップS2701)、これをストレージ部27に格納する。
【0176】
字幕表示位置学習装置1-4は、学習部28にてストレージ部27から教師データを読み出し、教師データを用いて画像データ(字幕なし)と字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)との間の関係を学習し、学習済みモデルを生成する(ステップS2702)。そして、字幕表示位置学習装置1-4は、学習済みモデルを記憶部29に格納する。
【0177】
図28は、実施例4の字幕表示位置学習装置1-4の処理例を示すフローチャートである。以下、
図26及び
図28を参照して字幕表示位置学習装置1-4の処理例を説明する。
【0178】
画像切り出し部10は、
図4のステップS401,S402と同様に、映像データ(字幕なし)及び映像データ(字幕あり)を入力し(ステップS2801)、静止画を切り出して画像データ(字幕なし)及び画像データ(字幕あり)を生成する(ステップS2802)。ここで、画像データ(字幕あり)には、2行に渡って構成される字幕が含まれるものとする。
【0179】
画像切り出し部10は、画像データ(字幕なし)及び画像データ(字幕あり)を字幕領域抽出部25に出力すると共に、画像データ(字幕なし)をストレージ部27に格納する。
【0180】
字幕領域抽出部25は、画像切り出し部10から画像データ(字幕なし)及び画像データ(字幕あり)を入力する。そして、字幕領域抽出部25は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて、例えば背景差分法により字幕領域を抽出し、字幕領域から字幕左上座標(x,y)及び行毎の2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を求める(ステップS2803)。字幕領域抽出部25は、字幕左上座標(x,y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を座標変換部26に出力する。
【0181】
座標変換部26は、字幕領域抽出部25から字幕左上座標(x,y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を入力する。そして、座標変換部26は、
図4のステップS404と同様に、テーブル12から字幕左上座標(x,y)に対応する字幕表示位置(X,Y)を読み出すことで、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する(ステップS2804)。
【0182】
座標変換部26は、字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)をストレージ部27に格納する。つまり、画像切り出し部10及び座標変換部26は、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を教師データとしてストレージ部27に格納する(ステップS2805)。
【0183】
図29は、ストレージ部27に格納される教師データの例を示す図である。
図29に示すように、ストレージ部27には、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を組とする1つの教師データを単位として、複数の組のデータ(複数の教師データ)が格納される。
【0184】
図26及び
図28に戻って、学習部28は、ストレージ部27から、画像データ(字幕なし)並びにこれに対応する字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)からなる教師データを読み出す。そして、学習部28は、教師データを用いて、画像データ(字幕なし)を入力データとし、字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を出力データとする学習モデルにつき、入力データと出力データとの間の関係をディープラーニングにより学習する(ステップS2806)。
【0185】
学習部28は、所定数の教師データを用いた学習を行うことで、学習済みモデルを生成し、学習済みモデルを記憶部29に格納する(ステップS2807)。
【0186】
以上のように、実施例4の字幕表示位置学習装置1-4によれば、字幕領域抽出部25は、画像データ(字幕なし)及び画像データ(字幕あり)を用いて字幕領域を抽出し、字幕領域から字幕左上座標(x,y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を求め、座標変換部26は、テーブル12を用いて、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換する。
【0187】
ストレージ部27には、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)が教師データとして格納される。
【0188】
学習部28は、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)からなる教師データを用いて学習を行い、学習済みモデルを生成する。
【0189】
これにより、実施例1の字幕表示位置学習装置1-1と同様の効果を奏し、後述する実施例4の字幕表示位置推論装置2-4がこの学習済みモデルを用いることで、字幕表示位置(X,Y,Z)を、映像に応じた適切な位置に自動的に調整することができる。
【0190】
特に、実施例4の字幕表示位置学習装置1-4は、画像データ(字幕なし)を入力データとし、字幕表示位置(X,Y)及び字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を出力データとする学習済みモデルを生成するようにした。これにより、後述する実施例4の字幕表示位置推論装置2-4は、この学習済みモデルを用いることで、第1行目の字幕表示領域(cx1,cy1,w1,h1)を推論し、2行分の字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置(X,Y,Z)を求めることができる。
【0191】
これに対し、実施例3では、1つの矩形領域である字幕表示領域(cx,cy,w,h)を用いて学習済みモデルを生成し、当該学習済みモデルを用いることで、1つの矩形領域に対応する字幕表示位置(X,Y)を求めることができる。しかし、実施例3では、異なるサイズの2つの矩形領域を組み合わせた領域に対応することができない。
【0192】
したがって、実施例4によれば、字幕が表示される領域の形状に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置(X,Y,Z)を求めることができる。
【0193】
尚、実施例4において、字幕表示位置学習装置1-4の字幕領域抽出部25は、字幕領域から2つの字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を求め、学習部28は、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び2つの字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)からなる教師データを用いて、学習済みモデルを生成するようにした。
【0194】
これに対し、字幕領域抽出部25は、3以上の所定数の字幕表示領域(cx1,cy1,w1,h1)等を求め、学習部28は、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び3以上の所定数の字幕表示領域(cx1,cy1,w1,h1)等からなる教師データを用いて、学習済みモデルを生成するようにしてもよい。
【0195】
(実施例4/字幕表示位置推論装置)
次に、実施例4の字幕表示位置推論装置について説明する。
図30は、実施例4の字幕表示位置推論装置の構成例を示すブロック図であり、
図31は、実施例4の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【0196】
この字幕表示位置推論装置2-4は、画像切り出し部30、記憶部43、推論部40、テーブル44、領域変換部45及び制御出力部46を備えている。記憶部43には、
図26に示した字幕表示位置学習装置1-4により生成された学習済みモデルが格納されている。
【0197】
字幕表示位置推論装置2-4により学習済みモデルを用いることで、
図25に示したように、映像データ(字幕なし)に対して2行に渡る領域β4,β5に字幕が付加されることとなる。
【0198】
字幕表示位置推論装置2-4は、映像データ(字幕なし)を入力し、画像切り出し部30にて画像データ(字幕なし)を切り出す(ステップS3101)。そして、字幕表示位置推論装置2-4は、推論部40にて、記憶部43に格納された学習済みモデルを用いて、第1行目の字幕表示領域(cx1,cy1,w1,h1)(
図31を参照して例えば(cx1,cy1,w1,h1)=(960,670,800,130))を推論する(ステップS3102)。
【0199】
字幕表示位置推論装置2-4は、テーブル44及び領域変換部45にて字幕表示領域(cx1,cy1,w1,h1)を字幕表示位置(X,Y,Z)(
図31を参照して例えば(X,Y,Z)=(中央,5行目,12文字目))に変換し(ステップS3103)、制御出力部46にて字幕表示位置(X,Y,Z)の制御を行う。
【0200】
ここで、
図31に示した字幕表示位置(X,Y,Z)=(中央,5行目,12文字目)は、字幕が2行に渡る領域に表示され、かつ第1行目及び第2行目の開始位置が同じであるとして、第1行目の字幕部分が(X,Y)=(中央,5行目)の位置に表示され、第1行目の字幕部分から第2行目の字幕部分への改行位置が(Z)=12文字目であることを示している。
【0201】
図32は、実施例4の字幕表示位置推論装置2-4の処理例を示すフローチャートである。以下、
図30及び
図32を参照して字幕表示位置推論装置2-4の処理例を説明する。
【0202】
画像切り出し部30は、
図9のステップS901,S902と同様に、映像データ(字幕なし)を入力し(ステップS3201)、静止画を切り出して画像データ(字幕なし)を生成する(ステップS3202)。画像切り出し部30は、画像データ(字幕なし)を推論部40に出力する。
【0203】
推論部40は、画像切り出し部30から画像データ(字幕なし)を入力すると共に、記憶部43から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ(字幕なし)から第1行目の字幕表示領域(cx1,cy1,w1,h1)を推論する(ステップS3203)。そして、推論部40は、字幕表示領域(cx1,cy1,w1,h1)を領域変換部45に出力する。
【0204】
領域変換部45は、推論部40から字幕表示領域(cx1,cy1,w1,h1)を入力し、テーブル44から字幕表示領域(cx1,cy1,w1,h1)に対応する字幕表示位置(X,Y,Z)を読み出すことで、字幕表示領域(cx1,cy1,w1,h1)を字幕表示位置(X,Y,Z)に変換する(ステップS3204)。領域変換部45は、字幕表示位置(X,Y,Z)を制御出力部46に出力する。
【0205】
図33は、テーブル44のデータ構成例を示す図である。このテーブル44には、字幕表示領域(cx1,cy1,w1,h1)及びこれに対応する字幕表示位置(X,Y,Z)を組として、複数の組のデータが格納されている。
図25に示したとおり、(X,Y)は、字幕が2行に渡って構成される場合の第1行目の字幕部分が表示される位置を示し、(Z)は、第1行目の字幕部分から第2行目の字幕部分への改行位置を示す。
【0206】
図30及び
図32に戻って、制御出力部46は、領域変換部45から字幕表示位置(X,Y,Z)を入力し、
図7の制御出力部33と同様の制御を行い(ステップS3205)、制御後の字幕表示位置(X,Y,Z)を出力する(ステップS3206)。
【0207】
以上のように、実施例4の字幕表示位置推論装置2-4によれば、推論部40は、実施例4の字幕表示位置学習装置1-4により生成された学習済みモデルを用いて、画像データ(字幕なし)から、第1行目の字幕表示領域(cx1,cy1,w1,h1)を推論する。
【0208】
領域変換部45は、テーブル44を用いて、字幕表示領域(cx1,cy1,w1,h1)を字幕表示位置(X,Y,Z)に変換する。そして、制御出力部46は、字幕表示位置(X,Y,Z)が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置(X,Y,Z)を出力する。
【0209】
これにより、実施例1の字幕表示位置推論装置2-1と同様の効果を奏し、字幕表示位置(X,Y,Z)を、映像に応じた適切な位置に自動的に調整することができる。
【0210】
前述のとおり、実施例4の字幕表示位置学習装置1-4は、2行分の字幕が表示される領域の形状に合わせた学習済みモデルを生成するようにした。これにより、実施例4の字幕表示位置推論装置2-4は、この学習済みモデルを用いることで、2行分の字幕が表示される領域の形状に合わせて改行が可能な字幕表示位置(X,Y,Z)を求めることができる。
【0211】
尚、実施例4において、字幕表示位置推論装置2-4の領域変換部45は、字幕が2行に渡る場合に、テーブル44を用いて、字幕表示領域(cx1,cy1,w1,h1)を字幕表示位置(X,Y,Z)に変換するようにした。この場合の(Z)は、第1行目の字幕部分から第2行目の字幕部分への改行位置を示す。
【0212】
これに対し、領域変換部45は、字幕が3行以上の所定行数に渡る場合に、テーブル44に代わる新たなテーブルを用いて、字幕表示領域(cx1,cy1,w1,h1)を字幕表示位置(X,Y,Z’)に変換するようにしてもよい。
【0213】
この場合の新たなテーブルは、字幕表示領域(cx1,cy1,w1,h1)及びこれに対応する字幕表示位置(X,Y,Z’)を組として、複数の組のデータが格納されている。(Z’)は、第1行目の字幕部分から第2行目の字幕部分への改行位置、第2行目の字幕部分から第3行目の字幕部分への改行位置等を示し、3行以上の所定行数までの全ての改行位置が含まれる。
【0214】
〔実施例5〕
次に、実施例5について説明する。実施例5は、映像データ(字幕なし)から画像データ(字幕なし)を切り出し、画像データ(字幕なし)、字幕表示位置(X,Y)及び行毎の2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて、2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を推論し、字幕表示位置(X,Y,Z,XW)を求める例である。XWは、第2行目の字幕部分の表示が開始される開始位置を示す。
【0215】
前述の実施例4では、第1行目の字幕部分及び第2行目の字幕部分における開始位置が同じ場合の2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を用いて、学習済みモデルを生成するようにした。
【0216】
しかしながら、実施例4では、第1行目の字幕部分及び第2行目の字幕部分の開始位置が異なる場合に適用することができない。
【0217】
そこで、実施例5では、第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる場合の2行分の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を用いて、学習済みモデルを生成するようにした。これにより、第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる場合に、当該学習済みモデルを用いて、字幕が表示される領域の形状に合わせた字幕表示位置(X,Y,Z,XW)を求めることができる。
【0218】
図34は、実施例5の字幕座標系における字幕表示位置(X,Y,Z,XW)を説明する図である。
図34に示すように、字幕は2行に渡って構成されており、第1行目の領域β6及び第2行目の領域β7に表示され、第1行目及び第2行目においてX軸上の表示開始位置が異なるものとする。
【0219】
字幕表示位置(X,Y,Z,XW)における(X,Y)は、字幕が表示される第1行目の字幕部分の位置を示し、
図1(2)にて説明したとおりである。(Z)は、第1行目の字幕部分から第2行目の字幕部分への改行位置を示し、
図25にて説明したとおりである。(XW)は、第2行目の字幕部分の開始位置(例えば、第1行目の字幕部分の開始位置を基準にした第2行目の字幕部分の開始位置)を示す。
【0220】
(実施例5/字幕表示位置学習装置)
実施例5の字幕表示位置学習装置1-5は、
図26に示した実施例4の字幕表示位置学習装置1-4と同様であるため、ここでは説明を省略する。実施例5では、字幕が2行に渡って構成され、かつ第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる場合に適用する。
【0221】
このため、字幕表示位置学習装置1-5は、映像データ(字幕あり)として、2行に渡って構成され、かつ第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる字幕を含む映像データを入力する。そして、画像切り出し部10により、画像データ(字幕あり)として、2行に渡って構成され、かつ第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる字幕を含む画像データが切り出される。
【0222】
以上のように、実施例5の字幕表示位置学習装置1-5によれば、学習部28は、画像データ(字幕なし)、字幕表示位置(X,Y)、及び第1行目の字幕部分及び第2行目の字幕部分における開始位置が異なる字幕の字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)からなる教師データを用いて学習を行い、学習済みモデルを生成する。
【0223】
これにより、実施例1の字幕表示位置学習装置1-1と同様の効果を奏し、後述する実施例5の字幕表示位置推論装置2-5がこの学習済みモデルを用いることで、字幕表示位置(X,Y,Z,XW)を、映像に応じた適切な位置に自動的に調整することができる。
【0224】
特に、字幕が表示される領域の形状に合わせた学習済みモデルを生成することができ、当該学習済みモデルを用いることで、字幕が表示される領域の形状に合わせた改行が可能であって、かつ第2行目では適切な位置からの表示が可能な字幕表示位置(X,Y,Z,XW)を求めることができる。
【0225】
(実施例5/字幕表示位置推論装置)
次に、実施例5の字幕表示位置推論装置について説明する。
図35は、実施例5の字幕表示位置推論装置の構成例を示すブロック図であり、
図36は、実施例5の字幕表示位置推論装置における全体的な処理の流れを説明する概略図である。
【0226】
この字幕表示位置推論装置2-5は、画像切り出し部30、記憶部47、推論部48、テーブル49、領域変換部50及び制御出力部51を備えている。記憶部47には、実施例5の字幕表示位置学習装置1-5により生成された学習済みモデルが格納されている。
【0227】
字幕表示位置推論装置2-5により学習済みモデルを用いることで、
図34に示したとおり、映像データ(字幕なし)に対して2行に渡る領域β6,β7に字幕が付加されることとなる。
【0228】
字幕表示位置推論装置2-5は、映像データ(字幕なし)を入力し、画像切り出し部30にて画像データ(字幕なし)を切り出す(ステップS3601)。そして、字幕表示位置推論装置2-5は、推論部48にて、記憶部47に格納された学習済みモデルを用いて、第1行目の字幕表示領域(cx1,cy1,w1,h1)及び第2行目の字幕表示領域(cx2,cy2,w2,h2)(
図36を参照して例えば(cx1,cy1,w1,h1)=(900,950,1080,100),(cx2,cy2,w2,h2)=(960,1000,900,50))を推論する(ステップS3602)。
【0229】
字幕表示位置推論装置2-5は、テーブル49及び領域変換部50にて字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を字幕表示位置(X,Y,Z,XW)に変換し(ステップS3603)、制御出力部51にて字幕表示位置(X,Y,Z,XW)の制御を行う。
【0230】
図37は、実施例5の字幕表示位置推論装置2-5の処理例を示すフローチャートである。以下、
図35及び
図37を参照して字幕表示位置推論装置2-5の処理例を説明する。
【0231】
画像切り出し部30は、
図9のステップS901,S902と同様に、映像データ(字幕なし)を入力し(ステップS3701)、静止画を切り出して画像データ(字幕なし)を生成する(ステップS3702)。画像切り出し部30は、画像データ(字幕なし)を推論部48に出力する。
【0232】
推論部48は、画像切り出し部30から画像データ(字幕なし)を入力すると共に、記憶部47から学習済みモデルを読み出し、学習済みモデルを用いて、画像データ(字幕なし)から第1行目の字幕表示領域(cx1,cy1,w1,h1)及び第2行目の字幕表示領域(cx2,cy2,w2,h2)を推論する(ステップS3703)。そして、推論部48は、字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を領域変換部50に出力する。
【0233】
領域変換部50は、推論部48から字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を入力し、以下の式により、第1行目の字幕部分と第2行目の字幕部分との間のX軸上の差分位置(W)を算出する。
[数4]
W=(cx1-w1/2)-(cx2-w2/2) ・・・(4)
W<0の場合、第2行目の字幕部分の開始位置が第1行目の字幕部分の開始位置に対して右側にずれており、W>0の場合、第2行目の字幕部分の開始位置が第1行目の字幕部分の開始位置に対して左側にずれていることを示している。
【0234】
領域変換部50は、テーブル49から、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W)に対応する字幕表示位置(X,Y,Z,XW)を読み出すことで、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W)を字幕表示位置(X,Y,Z,XW)に変換する(ステップS3704)。つまり、字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)が字幕表示位置(X,Y,Z,XW)に変換される。
【0235】
図38は、テーブル49のデータ構成例を示す図である。このテーブル49には、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W)、並びにこれらに対応する字幕表示位置(X,Y,Z,XW)を組として、複数の組のデータが格納されている。
【0236】
図34に示したとおり、(X,Y)は、字幕が2行に渡って構成される場合の第1行目の字幕部分が表示される位置を示し、(Z)は、第1行目の字幕部分から第2行目の字幕部分への改行位置を示す。(XW)は、第2行目の字幕部分の表示が開始する開始位置を示す。
【0237】
尚、第2行目の字幕部分の開始位置(XW)の代わりに、第2行目の字幕部分の左上座標値を(XW)として用いるようにしてもよい。
【0238】
図35及び
図37に戻って、制御出力部51は、領域変換部50から字幕表示位置(X,Y,Z,XW)を入力し、
図7の制御出力部33と同様の制御を行い(ステップS3705)、制御後の字幕表示位置(X,Y,Z,XW)を出力する(ステップS3706)。
【0239】
以上のように、実施例5の字幕表示位置推論装置2-5によれば、推論部48は、実施例5の字幕表示位置学習装置1-5により生成された学習済みモデルを用いて、画像データ(字幕なし)から、字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を推論する。
【0240】
領域変換部50は、字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)から第1行目の字幕部分と第2行目の字幕部分との間のX軸上の差分位置(W)を算出し、テーブル49を用いて、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W)を字幕表示位置(X,Y,Z,XW)に変換する。そして、制御出力部51は、字幕表示位置(X,Y,Z,XW)が頻繁に変更されないように所定の制御を行い、制御後の字幕表示位置(X,Y,Z,XW)を出力する。
【0241】
これにより、実施例1の字幕表示位置推論装置2-1と同様の効果を奏し、字幕表示位置(X,Y,Z,XW)を、映像に応じた適切な位置に自動的に調整することができる。
【0242】
特に、字幕表示位置学習装置1-5により生成された学習済みモデルを用いることで、字幕が表示される領域の形状に合わせた改行が可能であって、かつ第2行目では適切な位置からの表示が可能な字幕表示位置(X,Y,Z,XW)を求めることができる。
【0243】
尚、実施例5において、字幕表示位置推論装置2-5の推論部48は、実施例5の字幕表示位置学習装置1-5により生成された学習済みモデルを用いて、画像データ(字幕なし)から、字幕表示領域(cx1,cy1,w1,h1),(cx2,cy2,w2,h2)を推論し、領域変換部50は、差分位置(W)を算出し、テーブル49を用いて、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W)を字幕表示位置(X,Y,Z,XW)に変換するようにした。
【0244】
この場合の(Z)は、第1行目の字幕部分から第2行目の字幕部分への改行位置を示し、(XW)は、第2行目の字幕部分の開始位置を示す。
【0245】
これに対し、推論部48は、実施例5の字幕表示位置学習装置1-5により生成された学習済みモデル(字幕が3行以上の所定行数に渡る場合の映像データ(字幕あり)を用いて生成された学習済みモデル)を用いて、画像データ(字幕なし)から、字幕表示領域(cx1,cy1,w1,h1)等を推論し、領域変換部50は、第1行目の字幕部分と第2行目以降のそれぞれの字幕部分との間のX軸上の差分位置(W’)を算出し、テーブル49に代わる新たなテーブルを用いて、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W’)を字幕表示位置(X,Y,Z’,XW’)に変換するようにしてもよい。
【0246】
この場合の新たなテーブルは、字幕表示領域(cx1,cy1,w1,h1)及び差分位置(W’)並びにこれらに対応する字幕表示位置(X,Y,Z’,XW’)を組として、複数の組のデータが格納されている。(Z’)は、第1行目の字幕部分から第2行目の字幕部分への改行位置、第2行目の字幕部分から第3行目の字幕部分への改行位置等を示し、3行以上の所定行数までの全ての改行位置が含まれる。(XW’)は、第2行目の字幕部分の開始位置、第3行目の字幕部分の開始位置等を示し、3行以上の所定行数までの全ての開始位置が含まれる。
【0247】
〔他の第1の実施例〕
次に、他の第1の実施例について説明する。他の第1の実施例は、放送TS(Transport Stream:トランスポートストリーム)を入力し、放送TSから映像データ(字幕なし)及び字幕データを抽出し、映像データ(字幕なし)から切り出した画像データ(字幕なし)及び字幕データから抽出した字幕表示位置データを教師データとして学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置データを推論する例である。
【0248】
放送TSには、映像、音声、字幕、データ放送、EPG等の各種データが含まれる。他の第1の実施例は、前述の実施例1,2,3,4,5に適用がある。
【0249】
他の第1の実施例において、字幕表示位置学習装置は、放送TSを入力し、放送TSから映像データ(字幕なし)及び字幕データを抽出する。そして、字幕表示位置学習装置は、
図2の画像切り出し部10の映像データ(字幕なし)に対する処理と同様に、映像データ(字幕なし)から画像データ(字幕なし)を切り出す。
【0250】
字幕表示位置学習装置は、字幕データから字幕表示位置データ(例えば画像座標系における字幕左上座標(x,y)、字幕座標系における字幕座標値(x’,y’)、字幕表示領域(cx,cy,w,h))を抽出する。字幕座標値(x’,y’)については後述する。尚、字幕データから字幕表示領域(cx,cy,w,h)を抽出する処理には、字幕データに基づいて字幕表示領域(cx,cy,w,h)を生成する処理を含むものとする。
【0251】
字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標(x,y)を抽出した場合、実施例1と同様に、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換し、画像データ(字幕なし)及び字幕表示位置(X,Y)を教師データとして学習済みモデルを生成する。
【0252】
そして、字幕表示位置推論装置は、
図7に示した実施例1の字幕表示位置推論装置2-1と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕表示位置(X,Y)を推論し、制御後の字幕表示位置(X,Y)を出力する。
【0253】
また、字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標(x,y)を抽出した場合、実施例2と同様に、画像データ(字幕なし)及び字幕左上座標(x,y)を教師データとして学習済みモデルを生成する。
【0254】
そして、字幕表示位置推論装置は、
図14に示した実施例2の字幕表示位置推論装置2-2と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕左上座標(x,y)を推論し、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換し、制御後の字幕表示位置(X,Y)を出力する。
【0255】
また、字幕表示位置学習装置は、字幕データから字幕表示位置データとして例えば字幕左上座標(x,y)及び字幕表示領域(cx,cy,w,h)を抽出した場合、実施例3と同様に、字幕左上座標(x,y)を字幕表示位置(X,Y)に変換し、画像データ(字幕なし)並びに字幕表示位置(X,Y)及び字幕表示領域(cx,cy,w,h)を教師データとして学習済みモデルを生成する。
【0256】
そして、字幕表示位置推論装置は、
図21に示した実施例3の字幕表示位置推論装置2-3と同様の処理を行う。つまり、字幕表示位置推論装置は、前述の字幕表示位置学習装置により生成された学習済みモデルを用いて、字幕表示領域(cx,cy,w,h)を推論し、字幕表示領域(cx,cy,w,h)を字幕表示位置(X,Y)に変換し、制御後の字幕表示位置(X,Y)を出力する。実施例4,5についても、字幕データから実施例4,5に応じた字幕表示位置データを抽出することで、学習済みモデルを生成し、当該学習済みモデルを用いて推論を行い、制御後の字幕表示位置(X,Y,Z),(X,Y,Z,XW)を出力する。
【0257】
これにより、放送TSを用いて学習済みモデルを生成し、この学習済みモデルを用いて字幕表示位置(X,Y)等を得ることができ、実施例1,2,3,4,5と同様の効果を奏する。
【0258】
〔他の第2の実施例〕
次に、他の第2の実施例について説明する。他の第2の実施例は、映像データ(字幕なし)及びARIB字幕ファイルを入力し、映像データ(字幕なし)から切り出した画像データ(字幕なし)及びARIB字幕ファイルから抽出した字幕表示位置データを教師データとして、学習済みモデルを生成し、当該学習済みモデルを用いて字幕表示位置データを推論する例である。
【0259】
ARIB字幕ファイルには、送出するタイミング、字幕の内容、色、位置等の情報が含まれる。他の第2の実施例は、前述の実施例1,2,3,4,5に適用がある。
【0260】
他の第2の実施例において、字幕表示位置学習装置は、映像データ(字幕なし)及びこれに対応するARIB字幕ファイルを入力し、
図2の画像切り出し部10の映像データ(字幕なし)に対する処理と同様に、映像データ(字幕なし)から画像データ(字幕なし)を切り出す。
【0261】
字幕表示位置学習装置は、ARIB字幕ファイルから字幕表示位置データ(例えば画像座標系における字幕左上座標(x,y)、字幕座標系における字幕座標値(x’,y’)、字幕表示領域(cx,cy,w,h))を抽出する。字幕座標値(x’,y’)については後述する。尚、ARIB字幕ファイルから字幕表示領域(cx,cy,w,h)を抽出する処理には、ARIB字幕ファイルに含まれるデータに基づいて字幕表示領域(cx,cy,w,h)を生成する処理を含むものとする。
【0262】
その後の字幕表示位置学習装置の処理は、他の第1の実施例と同様である。字幕表示位置推論装置の処理も同様である。実施例4,5についても、他の第2の実施例を適用することができる。
【0263】
これにより、映像データ(字幕なし)及びARIB字幕ファイルを用いて学習済みモデルを生成し、この学習済みモデルを用いて字幕表示位置(X,Y)等を得ることができ、実施例1,2,3,4,5と同様の効果を奏する。
【0264】
以上、実施例1,2,3,4,5、他の第1の実施例及び他の第2の実施例を挙げて本発明を説明したが、本発明は前記実施例1,2,3,4,5等に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0265】
例えば
図1の例では、字幕が表示される字幕表示位置(X,Y)のパターン数を24としたが、これは例示であり、24を超える数でもよいし、24未満の数でもよい。
【0266】
また、
図7に示した実施例1の字幕表示位置推論装置2-1、
図14に示した実施例2の字幕表示位置推論装置2-2、及び
図21に示した実施例3の字幕表示位置推論装置2-3は、制御出力部33を備えているが、制御出力部33を備えていなくてもよい。
【0267】
同様に、
図30に示した実施例4の字幕表示位置推論装置2-4は制御出力部46を備えているが、制御出力部46を備えていなくてもよく、
図35に示した実施例5の字幕表示位置推論装置2-5は制御出力部51を備えているが、制御出力部51を備えていなくてもよい。
【0268】
また、
図2に示した実施例1の字幕表示位置学習装置1-1において、字幕領域抽出部11は、画像データ(字幕なし)及び画像データ(字幕あり)から字幕領域を抽出し、字幕領域から字幕左上座標(x,y)を求めるようにした。字幕左上座標(x,y)は、
図1(1)に示したとおり、画像座標系において字幕が表示される領域αの左上の座標である。
【0269】
これに対し、字幕領域抽出部11は、例えば字幕座標系におけるX軸及びY軸上をそれぞれ21及び8の領域に区分した場合に、21×8=168領域を字幕座標値(x’,y’)として、抽出した字幕領域から、字幕が表示される左上の座標値である字幕座標値(x’,y’)を求めるようにしてもよい。x’=1,・・・,21及びy’=1,・・・,8である。
【0270】
字幕領域抽出部11は、字幕座標値(x’,y’)を座標変換部13に出力し、座標変換部13は、テーブル12を用いて、字幕座標値(x’,y’)を字幕表示位置(X,Y)に変換する。この場合のテーブル12には、字幕座標値(x’,y’)及びこれに対応する字幕表示位置(X,Y)を組として、複数の組のデータが予め格納されている。ストレージ部14及び学習部15は、実施例1と同様の処理を行う。そして、字幕表示位置推論装置は、
図7に示した実施例1の字幕表示位置推論装置2-1と同様の処理を行う。
【0271】
また、
図10に示した実施例2の字幕表示位置学習装置1-2においても、字幕領域抽出部11は、前述と同様の字幕座標値(x’,y’)を求めるようにしてもよい。
【0272】
この場合、教師データは、画像データ(字幕なし)及び字幕座標値(x’,y’)から構成される。ストレージ部17にはこの教師データが格納され、学習部18は、画像データ(字幕なし)を入力データとし、字幕座標値(x’,y’)を出力データとした学習モデルにつき入力データと出力データとの間の関係を学習し、学習済みモデルを生成する。
【0273】
そして、字幕表示位置推論装置は、
図14に示した実施例2の字幕表示位置推論装置2-2において、推論部35が、前述の学習済みモデルを用いて、画像データ(字幕なし)から字幕座標値(x’,y’)を推論する。座標変換部37は、テーブル36を用いて、字幕座標値(x’,y’)を字幕表示位置(X,Y)に変換する。この場合のテーブル36には、字幕座標値(x’,y’)及びこれに対応する字幕表示位置(X,Y)を組として、複数の組のデータが予め格納されている。
【0274】
また、前述した実施例1,2,3,4,5等は、生放送番組に対して、リアルタイムでクローズドキャプションの字幕が付与される生字幕の制作に適用があるだけでなく、事前に収録をする完プロ字幕の制作、Web動画のクローズドキャプションにも適用がある。さらに、実施例1,2,3,4,5等の機能を、映像を再生する再生ソフトに実装することで、配信元のサービスに依存することなく、字幕位置を調整して表示するユニバーサルなプレーヤへ展開することができる。
【0275】
尚、本発明の実施例1,2,3,4,5等による字幕表示位置学習装置1-1,1-2,1-3,1-4,1-5等及び字幕表示位置推論装置2-1,2-2,2-3,2-4,2-5等のハードウェア構成としては、通常のコンピュータを使用することができる。字幕表示位置学習装置1-1,1-2,1-3,1-4,1-5等及び字幕表示位置推論装置2-1,2-2,2-3,2-4,2-5等は、CPU、GPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0276】
実施例1の字幕表示位置学習装置1-1に備えた画像切り出し部10、字幕領域抽出部11、テーブル12、座標変換部13、ストレージ部14、学習部15及び記憶部16の各機能は、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0277】
また、実施例2の字幕表示位置学習装置1-2に備えた画像切り出し部10、字幕領域抽出部11、ストレージ部17、学習部18及び記憶部19の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0278】
また、実施例3の字幕表示位置学習装置1-3に備えた画像切り出し部10、字幕領域抽出部20、テーブル12、座標変換部21、ストレージ部22、学習部23及び記憶部24の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0279】
また、実施例4,5の字幕表示位置学習装置1-4,1-5に備えた画像切り出し部10、字幕領域抽出部25、テーブル12、座標変換部26、ストレージ部27、学習部28及び記憶部29の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。他の第1の実施例及び他の第2の実施例の字幕表示位置学習装置についても同様である。
【0280】
さらに、実施例1の字幕表示位置推論装置2-1に備えた画像切り出し部30、記憶部31、推論部32及び制御出力部33の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0281】
また、実施例2の字幕表示位置推論装置2-2に備えた画像切り出し部30、記憶部34、推論部35、テーブル36、座標変換部37及び制御出力部33の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0282】
また、実施例3の字幕表示位置推論装置2-3に備えた画像切り出し部30、記憶部39、推論部40、テーブル41、領域変換部42及び制御出力部33の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0283】
また、実施例4の字幕表示位置推論装置2-4に備えた画像切り出し部30、記憶部43、推論部40、テーブル44、領域変換部45及び制御出力部46の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0284】
また、実施例5の字幕表示位置推論装置2-5に備えた画像切り出し部30、記憶部47、推論部48、テーブル49、領域変換部50及び制御出力部51の各機能も、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0285】
これらのプログラムは、前記記憶媒体に格納されており、CPU等に読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0286】
1 字幕表示位置学習装置
2 字幕表示位置推論装置
10,30 画像切り出し部
11,20,25 字幕領域抽出部
12,36,41,44,49 テーブル
13,21,26,37 座標変換部
14,17,22,27 ストレージ部
15,18,23,28 学習部
16,19,24,29,31,34,39,43,47 記憶部
32,35,40,48 推論部
33,46,51 制御出力部
42,45,50 領域変換部
(x,y) 字幕左上座標
(X,Y),(X,Y,CN),(X,Y,Z),(X,Y,Z,XW) 字幕表示位置
(cx,cy,w,h) 字幕表示領域
C 文字数
(W) 差分位置