(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0015】
<本発明について>
本発明は、例えば第1の映像の視聴を妨げずに第2の映像を十分理解できるように同一ディスプレイ上に合成表示する映像合成手法である。なお、上述した第1の映像の一例としては、例えば番組映像等があり、上述した第2の映像の一例としては、例えば第1の映像に関連した関連映像があるが、第1の映像に関連していない非関連映像等であってもよい。上述した関連映像の具体例としては、番組映像に対応する手話映像や、番組映像の内容を補足説明する補足説明映像、文字、図形等があり、非関連映像の一例としては、地震震度マップや、津波警報、台風、雷雨等の各種注意報等の文字や地図等の番組内通知映像等があるが、これに限定されるものではない。
【0016】
また、本発明は、第2の映像を第1の映像に合成する際、第2の映像の所定部分の透明度や全体の表示位置等の制御を行う。例えば、第2の映像が手話映像(手話CG又は手話通訳者の実写)の場合には、その手話映像に対して、例えば手話を理解するために重要な所定の部分(例えば、手、腕、顔等の肌露出部分)以外の部分(例えば、衣服)を半透明にして合成用の映像を生成し、生成した合成用の映像を第1の映像である番組映像に合成することで、手話映像の背後になってしまった番組映像やテロップ等の文字等を視聴者に把握できる状態で表示することができる。また、第2の映像が、地震震度マップである場合には、その地震震度マップにおいて、震源地付近の地域以外の部分を半透明にしたり、視聴者が予め視聴したい地域を指定しておくことで、その地域以外の部分を半透明にして合成用の映像を生成し、生成した合成用の映像を番組映像に合成することで、背後になってしまった番組映像やテロップ等の文字等を視聴者に把握できる状態で表示することができる。
【0017】
なお、本発明は、例えば番組映像の重要な情報領域を検知し、2つの映像が重なった場合に手話映像の透明度や表示位置等を自動的に変えることで、視聴者がリモコン(遠隔操作装置)等によって、その都度操作する必要がなく、視聴者の利便性を向上させることもできる。
【0018】
以下に、上述したような特徴を有する本発明における映像合成装置及び映像合成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本実施形態では、上述した第1の映像の一例として番組映像(コンテンツ映像)を用い、上述した第2の映像の一例として手話映像を用いることとするが、これに限定されるものではなく、例えば2つの異なるコンテンツ映像同士を合成して表示する場合にも適用することができる。
【0019】
また、以下の説明では、映像合成装置の一例として、デジタル放送受信機を用い、デジタル放送受信機を含む映像合成表示システムについて説明するが、映像合成装置の適用範囲はこれに限定されるものではなく、例えばテレビ等の表示装置や携帯端末、スマートフォン、タブレット端末、ゲーム機器等の映像表示が可能な各種機器に適用することができる。
【0020】
<映像合成表示システム:第1実施形態>
図1は、第1実施形態における映像合成表示システムの概略構成の一例を示す図である。
図1に示す映像合成表示システム10−1は、放送局11−1と、デジタル放送受信機12−1と、表示手段13とを有する。なお、放送局11−1とデジタル放送受信機12−1とは、通常1対n(n≧1)の関係が想定されるが、説明の便宜上1:1の関係で説明する。また、
図1の例では、デジタル放送受信機12−1と、表示手段13とは別体に構成されているが、一体に構成されていてもよい。
【0021】
第1実施形態における映像合成表示システム10−1は、放送局11−1で生成された放送番組等の番組映像(音声を含んでもよい)を、放送電波によってデジタル放送受信機12−1に送信し、デジタル放送受信機12−1によって受信された番組映像をディスプレイ等の表示手段13に表示させることで、視聴者は番組映像を表示することができる。
【0022】
また、第1実施形態における映像合成表示システム10−1では、放送局11−1から番組映像に対応する手話CG映像や、手話通訳者のカメラ撮影映像(以下、必要に応じて「手話実写映像」という)等の手話映像を、例えばインターネット等に代表される通信ネットワーク14を介してデジタル放送受信機12−1に送信することができる。デジタル放送受信機12−1は、上述した番組映像と、手話実写映像や手話CG映像の手話映像等を所定の条件に基づいて合成し、合成映像を表示手段13に表示する。これにより、手話映像を先天性聾者や聴覚障害者等の視聴者に対しても適切な映像を提供することができる。
【0023】
<放送局11−1の機能構成例>
ここで、上述した放送局11−1の機能構成例について具体的に説明する。放送局11−1は、番組映像生成手段21と、記憶手段22と、MUX(multiplexer,マルチプレクサ)23と、変調手段24と、通信手段25とを有する。
【0024】
番組映像生成手段21は、デジタル放送受信機12−1に送信するための放送番組の映像を生成する。このとき、番組映像生成手段21は、放送番組の内容やコメントに対応する手話CG映像を生成したり、手話通訳者のカメラ映像を取得する。また、番組映像生成手段21は、生成した手話CG映像や手話実写映像、番組映像等をエンコード(符号化)することもできる。
【0025】
番組映像生成手段21により得られた手話映像や手話実写映像、番組映像等は、記憶手段22に記憶される。このとき、手話CG映像や手話実写映像と、番組映像とは、所定の時間情報(タイムスタンプ)等が付加されており、これによりデジタル放送受信機12−1における映像合成時に同期を取ることができる。
【0026】
記憶手段22は、本実施形態において必要な各種情報を記憶する。具体的には、上述したように、番組映像生成手段21で生成された番組映像に対応する手話CGや手話実写映像、更には番組映像そのものを記憶する。また、記憶手段22は、各種映像をデジタル放送受信機12−1に送信するためのアドレス情報や通信方式等の設定情報等を記憶する。
【0027】
また、記憶手段22は、他の外部装置等から取得した各種情報を記憶することができる。なお、記憶手段22は、記憶された各種情報をユーザ等からの指示等により読み出したり、放送局11−1内での処理により得られる各種情報を書き込んだりすることができる。記憶手段22は、例えばハードディスクドライブやメモリ等からなる。
【0028】
MUX23は、複数の入力を1つの信号として出力する。例えば、番組映像が複数ある場合には、それらの映像を1つの信号として変調手段24に出力する。また、MUX23は、複数の入力のうち、何れか1つを選択して出力する選択手段としての機能も有する。
【0029】
変調手段24は、番組映像をデジタル放送受信機12−1に送信するため、その番組映像を放送電波に変調する。変調手段24により変調された番組映像は、放送電波としてデジタル放送受信機12−1に送信される。
【0030】
通信手段25は、インターネット等の公衆回線網である通信ネットワーク14を介して、デジタル放送受信機12−1や他の外部装置等と送受信を行う。具体的には、通信手段25は、例えば記憶手段22に記憶された手話CGや手話実写映像等の手話映像を、デジタル放送受信機12−1に送信する。なお、通信手段25は、デジタル放送受信機12−1からの手話映像の取得要求を受け付けたときに、デジタル放送受信機12−1に対応する手話映像を送信してもよい。
【0031】
<デジタル放送受信機12−1の機能構成例>
次に、デジタル放送受信機12−1の機能構成例について具体的に説明する。
図1に示すデジタル放送受信機12−1は、復調手段31と、DEMUX(demultiplexer,デマルチプレクサ)32と、番組映像デコード手段33と、画像情報抽出手段34と、手話映像表示制御手段(映像表示制御手段)35と、通信手段36と、手話映像生成手段(映像生成手段)37と、合成手段38とを有する。
【0032】
復調手段31は、放送局11−1から得られる放送電波を受信し、受信した変調信号(放送電波)を処理可能な信号に復調する。
【0033】
DEMUX32は、復調手段31により復調された番組映像から1つの入力信号を選択し、制御信号により複数の出力の何れかへ分配する分配手段である。第1実施形態の場合、DEMUX32は、復調信号を番組映像デコード手段33に出力する。
【0034】
番組映像デコード手段33は、入力された復調信号から番組映像にデコード(復号化)するための第1デコード手段である。デコードされた番組映像は、画像情報抽出手段34及び合成手段38に出力される。
【0035】
画像情報抽出手段34は、番組映像デコード手段33から得られる番組映像に含まれる各画像(各フレーム)に対して画像解析を行い、注目領域や人物、テロップ文字(字幕)等が画像中に含まれる場合には、その各領域(注目領域、顔領域(人物領域)、文字表示領域等)の各種画像情報(位置情報(座標)等を含む)を抽出する。
【0036】
ここで、上述した画像解析において、例えば番組映像の重要な情報領域を取得するには、例えば顕著性マップを用いることができる。顕著性マップは、番組映像から注目領域や重要な情報の存在する領域を自動的に計算する手法であり、人間の心理学的知見に基づいた注目領域等を入力画像から自動的に計算することができる。また、顕著性マップは、顔画像認識や文字領域の自動抽出技術にも併用することができ、これにより人物領域やテロップ領域等を抽出することができる。
【0037】
なお、顕著性マップは、カメラ映像等の画像において、輝度、色、方位等の特徴量が、周囲よりも目立つ箇所を示したマップ(顕著性マップ:Saliency Map)を算出するモデルとして、例えば、「L.Itti,C.Koch,E.Niebur:"A Model of Saliency−Based Visual Attention for Rapid Scene Analysis",IEEE Trans.Pattern Analysis and Machine Intelligence,Vol.20,No.11,1998(Nov.)」等に示されている。なお、画像情報抽出手法については、上述した顕著性マップを用いた手法に限定されるものではない。
【0038】
手話映像表示制御手段35は、画像情報抽出手段34により得られる各種画像情報(例えば、注目領域、顔領域、文字表示領域等の位置情報等)に基づいて、番組映像に手話映像を重畳(合成)する位置や、映像の透明度等を制御するための制御情報を生成する。なお、手話映像表示制御手段35における表示制御の内容としては、例えば、手話映像の透明度変更制御、表示位置変更制御、手話CGキャラクタ又は手話通訳者の拡大、縮小制御等があるが、これに限定されるものではない。
【0039】
また、手話映像表示制御手段35は、上述した各種の制御に対して、予め設定された優先順位に基づく表示制御を行うことができる。なお、手話映像表示制御における具体例については、後述する。
【0040】
通信手段36は、通信ネットワーク14を介して、放送局11−1や他の外部装置等と送受信を行う。具体的には、通信手段36は、放送局11−1等から送信された番組映像に対応する手話映像を受信する。なお、通信手段36は、手話映像が必要なときだけ放送局11−1に対して取得要求を行い、その結果として選択的に手話映像を受信してもよい。これにより、デジタル放送受信機12−1は、手話映像が必要なときだけ、放送局11−1から取得すればよいため、無駄なデータの送信等を防止することができる。なお、通信手段36は、放送局11−1以外の外部装置(例えば、予め設定されたデータサーバ等)に番組映像に対応する手話CG映像や手話実写映像が存在する場合には、その外部装置から必要な映像を取得してもよい。
【0041】
手話映像生成手段37は、通信手段36により得られる手話映像をデコードする第2デコード手段である。また、手話映像生成手段37は、手話映像表示制御手段35による透明度、表示位置等の制御情報に基づいてデコードされた手話映像から合成用の手話映像を生成する。
【0042】
具体的に説明すると、手話映像生成手段37は、例えば視聴者からデジタル放送受信機12−1を遠隔で操作するリモコン(遠隔操作装置)等によって操作された透明度、表示位置等の設定情報41を入力し、入力された設定情報41を初期値として、その初期値に対応させた手話映像を生成する。生成した手話映像は手話映像表示制御手段35に出力される。
【0043】
手話映像表示制御手段35は、初期値に対応して生成された手話映像と、画像情報抽出手段34により得られる各種画像情報とに基づいて、番組映像に手話映像を重畳(合成)する位置や、映像の透明度等を制御するための制御情報を生成する。
【0044】
例えば、手話映像表示制御手段35は、上述した顕著性マップ等により得られる顕著度(例えば、手話映像と重なる注目領域中における最大輝度値、又は平均輝度値等)と、予め設定された表示位置制御用の閾値(閾値1)や透明度制御用の閾値とを比較して、所定の条件を満たす場合に、手話映像に対して表示制御を行うための制御情報を生成する。また、手話映像表示制御手段35は、例えば手話映像に含まれる手話CGキャラクタ(手話通訳者も含む)が番組映像の人物、文字等と重なっているか否かを判断し、重なっている場合に、手話映像に対して表示制御を行うための制御情報を生成する。このようにして生成された制御情報は、手話映像生成手段37に出力される。これにより、手話映像生成手段37は、制御情報を用いて合成用の手話映像を生成することができる。
【0045】
なお、上述した番組映像の注目領域、人物、文字等の情報は、例えば上述した画像情報抽出手段34により取得することができるため、これらの情報を用いて重なり部分を自動的に検出することができる。
【0046】
なお、上述した設定情報41には、例えば手話映像に含まれる手話CGキャラクタや手話通訳者の表示倍率(拡大率、縮小率)等を含んでいてもよい。また、設定情報41には、例えば手話CGキャラクタや手話通訳者のどの部分(例えば、手、腕、及び顔のうち、手を含む少なくとも1つの部位以外)を透明にするのかといった情報を含んでいてもよい。更に、設定情報41には、表示制御による手話映像の変化が頻繁に起きないように、表示制御を行わない時間情報を含んでいてもよい。つまり、手話映像生成手段37は、上述した表示倍率や時間情報に対応する手話映像を生成することができる。これにより、手話映像生成手段37は、ユーザ毎に適切な表示制御を行うことができる。手話映像生成手段37により得られた手話映像は、合成手段38に出力される。
【0047】
なお、例えば手話映像以外の第2の映像(例えば、地震震度マップ等)を合成する場合、設定情報41には、予め視聴したい地域の情報等を含んでいてもよい。これにより、ユーザ毎に指定された地域に対して適切な表示制御を行うことができる。
【0048】
合成手段38は、番組映像デコード手段33から得られる番組映像(第1の映像)と、手話映像生成手段37から得られる手話映像(第2の映像)とを合成する。具体的には、合成手段38は、番組映像を背景映像とし、手話映像をその番組映像の上に重畳させる合成を行う。このとき、本実施形態では、手話映像の所定の部分の透明度を調整して透かして合成することで、手話映像の認識精度を落とすことなく、番組映像の内容等を認識することができる。
【0049】
具体的には、手話の認識で必要となる部分は、例えば手、腕、顔(首から上)等であり、手話CGキャラクタや手話通訳者の服装部分に相当する所を半透明にしても、手話認識に対する影響はない。そこで、上述した服装部分(手、腕、及び顔のうち、手を含む少なくとも1つの部位以外の部分)を半透明にすることで、半透明部分の背後になる番組映像も見えるため、番組映像も認識可能となる。つまり、本実施形態によれば、映像同士の合成によっても情報が欠落しない合成を行うことができる。
【0050】
なお、手話映像に対して半透明にする部分(例えば、服装部分)は、一般的には、腕や顔等がはっきりするように首元が見える半袖の暗めな無地一色(所定色)である場合が多いため、画像解析等により上述した所定色の範囲を抽出することで、半透明にする部分を抽出することができる。また、半透明にする部分の他の抽出例としては、例えば画像解析等により肌色や髪色等に基づいて半透明にしない部分(例えば、肌露出部分)を抽出し、その抽出部分以外の部分(例えば、衣服)を半透明にする部分として抽出することができる。
【0051】
また、第1実施形態では、デジタル放送受信機12−1側で手話映像と番組映像とを合成するが、半透明の透明度は可変に設定でき、例えばユーザ(視聴者)がリモコン等を用いて予め自由に透明度を設定することができる。また、透明度は、例えば0〜100の間で設定することができるため、半透明が見にくいと感じるユーザは、不透明(半透明や透明でない状態)に設定することも可能である。これにより、ユーザ(視聴者)毎に適切な映像を表示することができる。
【0052】
ここで、上述した手話映像は、放送局11−1でCGによって生成してもよく、実際に人間が行っている姿をカメラで撮影した実写でもよい。第1実施形態では、手話CGの場合に、手話CG映像を放送局11−1で生成し、その映像をデジタル放送受信機12−1に送信していたが、これに限定されるものではなく、例えば手話CGの動作等を制御する手話CG制御コマンド(CG制御コマンド)を生成し、生成した手話CG制御コマンドをデジタル放送受信機12−1側に送信してもよい。これにより、デジタル放送受信機12−1側にすでに存在する手話CGキャラクタに対して、送信した制御コマンドに対する動作等を実行させて、手話映像を生成することができる。ここで、上述した制御コマンドを送信して手話映像を生成する例を第2実施形態として、以下に説明する。
【0053】
<映像合成表示システム:第2実施形態>
図2は、第2実施形態における映像合成表示システムの概略構成の一例を示す図である。なお、
図2に示す映像合成表示システム10−2において、上述した
図1に示す映像合成表示システム10−1と同様の機能構成部分については、同一の符号を付するものとし、ここでの具体的な説明を省略する。つまり、以下の説明では、第1実施形態と第2実施形態との差異部分について具体的に説明する。
【0054】
図2に示す映像合成表示システム10−2は、放送局11−2と、デジタル放送受信機12−2と、表示手段13とを有する。
【0055】
第2実施形態における映像合成表示システム10−2は、放送局11−2から番組映像に対応する手話映像そのものを送信するのではなく、手話CG映像をデジタル放送受信機12−2で生成させるための手話CG制御コマンドを記憶手段22から取得し、通信ネットワーク14を介してデジタル放送受信機12−2に送信する。
【0056】
デジタル放送受信機12−2は、受信した手話CG制御コマンドから手話CGを生成し、生成した手話CGを手話映像として番組映像と合成し、合成映像を表示手段13に表示させる。ここで、手話CG制御コマンドは、手話映像よりもデータ量が少ないため、第2実施形態では、第1実施形態によりも通信効率を向上させることができる。
【0057】
<放送局11−2の機能構成例>
ここで、放送局11−2の機能構成例については、上述した第1実施形態における放送局11−1と同様の機能構成を有する。具体的には、放送局11−2は、番組映像生成手段21と、記憶手段22と、MUX23と、変調手段24と、通信手段25とを有する。
【0058】
番組映像生成手段21は、デジタル放送受信機12−2に送信するための番組映像を生成すると共に、放送番組の内容やコメントに対応する手話CG映像を生成するための手話CG制御コマンドを生成する。番組映像生成手段21により得られた番組映像や手話CG制御コマンド等は、記憶手段22に記憶される。このとき、手話CG制御コマンドと、番組映像とは、時間情報(タイムスタンプ)等が付加されており、これによりデジタル放送受信機12−2における映像合成時に同期を取ることができる。
【0059】
記憶手段22は、番組映像生成手段21で生成された手話CG制御コマンドや番組映像そのものを記憶する。
【0060】
通信手段25は、例えば記憶手段22に記憶された手話CG制御コマンドをデジタル放送受信機12−2に送信する。なお、通信手段25は、デジタル放送受信機12−2からの手話映像の取得要求を受け付けたときに、デジタル放送受信機12−2に対して、番組映像に対応する手話CG映像を生成するための手話CG制御コマンドを送信してもよい。
【0061】
<デジタル放送受信機12−2の機能構成例>
次に、デジタル放送受信機12−2の機能構成例について具体的に説明する。
図2に示すデジタル放送受信機12−2は、復調手段31と、DEMUX32と、番組映像デコード手段33と、画像情報抽出手段34と、手話映像表示制御手段35と、通信手段36と、手話CG生成手段(CG生成手段)51と、合成手段38とを有する。つまり、第2実施形態におけるデジタル放送受信機12−2は、第1実施形態におけるデジタル放送受信機12−1と比較すると、手話映像生成手段37の代わりに手話CG生成手段51が設けられている。
【0062】
通信手段36は、インターネット等の公衆回線網である通信ネットワーク14を介して、放送局11−2や他の外部装置等と送受信を行う。具体的には、通信手段36は、放送局11−2から送信された番組映像に対応する手話CG制御コマンドを受信する。なお、通信手段36は、放送局11−2に対して、手話映像が必要なときだけ手話CG制御コマンドの取得要求を行い、その結果として選択的に手話CG制御コマンドを受信してもよい。これにより、デジタル放送受信機12−1は、手話映像が必要なときだけ、放送局11−1から手話CG制御コマンドを取得すればよいため、無駄なデータの送信等を防止することができる。また、通信手段36は、放送局11−2以外の外部装置から、番組映像に対応する手話CG制御コマンドを取得してもよい。
【0063】
手話CG生成手段51は、例えば通信手段36により得られる手話CG制御コマンドに基づいて、手話CG制御コマンドに対応させて予め蓄積された手話映像をコマンド単位(例えば、動作単位や単語単位、文章単位等も含む)で抽出し、それらの映像を連結することで、番組映像に対応させて手話CG映像を生成する。なお、手話CG生成手段51は、視聴者からデジタル放送受信機12−2を操作するリモコンにより操作された、上述した透明度や表示位置、表示倍率(拡大率、縮小率)、不透明(半透明や透明でない状態)にする部分等の設定情報41を入力し、入力された設定情報41に対応する透明度及び表示位置等に対応させて手話CG映像を生成してもよい。
【0064】
また、手話CG生成手段51は、手話映像表示制御手段35による透明度、表示位置等の制御情報に基づいて、手話CG映像を生成してもよい。手話CG生成手段51により生成された手話CG映像は、合成手段38に出力される。
【0065】
合成手段38は、番組映像デコード手段33から得られる番組映像と、手話CG生成手段51から得られる手話CG映像とを上述した第1実施形態と同様に合成する。具体的には、合成手段38は、番組映像を背景映像とし、手話CG映像をその上に重畳させる合成を行う。そのため、手話CG映像の所定の部分の透明度を調整して透かすことで、手話CG映像による認識精度を落とすことなく、第1の映像の内容(文字や絵)等を認識することができる。なお、2つの映像は、各映像に付加されている時間情報(タイムスタンプ)に基づいて、同期させて合成することができる。
【0066】
合成手段38は、合成映像を表示手段13に出力して表示させる。これにより、映像同士の合成によっても情報が欠落しない合成を行うことができる。したがって、ユーザ(視聴者)毎に適切な映像を表示することができる。
【0067】
ここで、上述した第2実施形態における映像合成表示システム10−2では、手話CG制御コマンドを、通信ネットワーク14を介してデジタル放送受信機12−2に送信しているが、これに限定されるものではなく、例えば手話CG制御コマンドと放送電波とを重畳させて送信してもよい。上述した内容を第3実施形態として、以下に説明する。
【0068】
<映像合成表示システム:第3実施形態>
図3は、第3実施形態における映像合成表示システムの概略構成の一例を示す図である。なお、
図3に示す映像合成表示システム10−3において、上述した第1及び第2の実施形態と同様の機能構成部分については、同一の符号を付するものとし、ここでの具体的な説明を省略する。つまり、以下の説明では、第2実施形態と第3実施形態との差異部分について具体的に説明する。
【0069】
図3に示す映像合成表示システム10−3は、放送局11−3と、デジタル放送受信機12−3と、表示手段13を有する。
【0070】
第3実施形態における映像合成表示システム10−3は、上述した第2実施形態と比較すると、放送局11−3及びデジタル放送受信機12−3において、通信ネットワーク14を介して通信するための通信手段を有していない。
【0071】
つまり、第2実施形態における映像合成表示システム10−2において、通信手段で送信されていた情報(例えば、手話CG制御コマンド)は、放送電波で番組映像と共に送信される。これは、手話CG制御コマンドのデータ量が少ないため、例えば送信信号の予備領域等に入れることができるためである。つまり、第3実施形態では、データ放送のような放送形態の放送電波に、デジタルデータとして手話CG制御コマンドを含めてデジタル放送受信機12−3に送信することができる。
【0072】
<放送局11−3の機能構成例>
ここで、放送局11−3の機能構成例について説明する。放送局11−3は、番組映像生成手段21と、記憶手段22と、MUX23と、変調手段24とを有する。
【0073】
MUX23は、
図3に示すように、番組映像と手話CG制御コマンドとを入力して1つの信号を生成し、生成した信号を変調手段24に出力する。なお、1つの信号を生成する場合には、例えば、番組映像の予備領域に手話CG制御コマンドを付加してもよく、2つの情報を多重化してもよいが、これに限定されるものではない。これにより、放送局11−3は、番組映像と手話CG制御コマンドとを含む放送電波をデジタル放送受信機12−3に送信することができる。
【0074】
<デジタル放送受信機12−3の機能構成例>
次に、デジタル放送受信機12−3の機能構成例について具体的に説明する。
図3に示すデジタル放送受信機12−3は、復調手段31と、DEMUX32と、番組映像デコード手段33と、画像情報抽出手段34と、手話映像表示制御手段35と、手話CG生成手段51と、合成手段38とを有する。
【0075】
DEMUX32は、復調信号から放送番組と手話CG制御コマンドとを分離し、放送番組を番組映像デコード手段33に出力し、手話CG制御コマンドを手話CG生成手段51に出力する。
【0076】
その後、デジタル放送受信機12−3は、上述した第2実施形態と同様に、手話CG映像を生成し、番組映像と合成し、合成映像を表示手段13に出力することで、上述した合成映像を視聴者に提供することができる。なお、上述した各実施形態1〜3は、必要に応じて組み合わせて実施することもできる。
【0077】
<映像合成処理手順>
次に、上述した実施形態における映像合成処理手順について、フローチャートを用いて説明する。
図4は、映像合成処理の一例を示すフローチャートである。なお、
図4の処理では、デジタル放送受信機(映像合成装置)12側における映像合成処理について説明するものである。
【0078】
図4の例において、映像合成処理は、放送電波を受信し(S01)、受信した放送電波を復調して番組映像を取得する(S02)。次に、映像合成処理は、番組映像を解析して画像情報を抽出する(S03)。なお、S03の処理の具体例については、後述する。また、映像合成処理は、番組映像に対応する手話映像を取得し(S04)、取得した手話映像に対して上述したS03の処理により得られた画像情報等を用いて手話映像の表示制御を行う(S05)。なお、表示制御とは、例えば透明度や表示位置、表示倍率(拡大率、縮小率)、半透明にする部分等の制御を含むが、これに限定されるものではない。また、S05の処理では、例えば、視聴者(ユーザ)等により予め設定された設定情報等による制御内容に基づいて表示制御を行うこともできる。
【0079】
次に、映像合成処理は、放送番組と表示制御された手話映像とを合成し(S06)、合成された映像を表示手段等の画面に表示する(S07)。ここで、映像合成処理は、処理を終了するか否かを判断し(S08)、処理を終了しない場合(S08において、NO)、S01に戻る。また、映像合成処理は、ユーザ等による手話映像の表示の終了指示等の所定の指示を受けた等により、処理を終了する場合(S08において、YES)、映像合成処理を終了する。
【0080】
なお、上述した
図4に示す処理は、例えば、放送局11で生成された手話映像を通信ネットワーク14により取得してもよく(上述した第1実施形態に相当)、手話CG制御コマンドを受信してデジタル放送受信機12側で映像CGを生成することで取得してもよい(上述した第2実施形態に相当)。更に、手話CG制御コマンドは、通信ネットワーク14から取得してもよく(上述した第2実施形態に相当)、放送電波から受信してもよい(上述した第3実施形態に相当)。
【0081】
<画像情報抽出から表示制御までの具体例>
次に、本実施形態における画像情報抽出から表示制御までの具体例について、図を用いて説明する。上述した画像情報抽出手段34における画像情報抽出において、例えば番組映像中の注目領域は、上述した顕著性マップを用いることで、注目領域や重要度に比例して、白黒の輝度を変化させた画像として得ることができる。具体的には、顕著性マップにおいて、重要な領域ほど輝度値が大きくなる。
【0082】
ここで、例えば番組映像中のテロップである文字領域や番組映像中の登場人物と、手話映像とが重なることは、番組映像の大きな情報損失となるため、他の画像情報よりも優先させる必要がある。そのため、本実施形態では、文字領域と人物領域は顕著性マップと合成するときに、例えば最大輝度となるように設定することができる。
【0083】
また、本実施形態では、上述した輝度値等に対応させて、その領域の顕著度等を設定することができる。なお、顕著度とは、例えば手話映像との重なり領域中の最大輝度値、又は平均輝度値等を示すが、これに限定されるものではない。
【0084】
また、本実施形態では、文字領域抽出技術や顔画像認識技術等を用いることで、それらの領域を顕著性マップと合成し、その合成した画像に基づいて、手話映像(具体的には、手話CGキャラクタ、手話通訳者)との重なり領域を抽出してもよい。
【0085】
更に、本実施形態では、手話映像表示制御手段35等における手話映像の表示制御について、位置変更制御を優先させる場合や、透明度変更制御を優先させる場合が存在する。そこで、以下に示す具体例では、上述した各優先内容に基づく処理内容について具体的に説明する。
【0086】
<具体例1:位置変更優先モード>
図5は、手話映像の位置制御を優先させた表示制御の具体例を説明するための図である。なお、
図5の例では、制御内容を具体的に説明するために、概略的な処理の流れと各処理で得られる画像例とを用いて説明する。
【0087】
図5に示す具体例1では、番組映像61に対応する手話映像62の入力に対して、手話CG映像の画面上の表示位置の初期値を設定する。なお、以下に示す手話映像62の例では、一例として手話CGを用いているが、これに限定されるものではなく、例えば手話実写映像でもよい。
【0088】
ここで、表示位置の初期値の設定において、例えばユーザ等がリモコン等によって表示位置の設定を行うことで、ユーザ毎に適切な手話映像の表示位置を設定することができる。
図5の例では、初期値として、画面の左下に手話映像を表示するよう設定されている(手話映像63)。また、表示位置の制御を行う場合に、どの位置に変更するのかを設定することもできる。
【0089】
次に、具体例1では、番組映像61に対して、例えば顕著性マップ等を適用した計算等により得られる画像64により、注目領域抽出、顔画像認識、文字領域抽出等の各種画像情報の抽出を行う。
【0090】
次に、手話映像63と、画像情報の注目領域等(画像64)との重なり領域(重なり画像65)の抽出を行う。また、顕著性マップにより得られる顕著度(例えば、手話映像と重なる注目領域中における最大輝度値、又は平均輝度値等)と、予め設定された表示位置制御用の閾値(閾値1)とを比較する。ここで、顕著度が予め設定された閾値1より大きい場合か、又は、手話映像のキャラクタ(手話通訳者も含む)が番組映像の人物、文字等と重なっている場合(
図5において、YES)、表示位置の制御を行って、初期値の表示位置とは異なる位置に手話映像を表示する。
【0091】
また、具体例1では、上述した条件を満たさない場合(
図5において、NO)、手話映像の表示位置を初期値等に固定して表示する。上述したような処理は、映像に含まれる各画像(画像フレーム)単位で行うことが好ましいが、これに限定されるものではなく、例えば所定のフレーム数毎に行ってもよく、また前後のフレームを比較して変化が生じたフレーム(映像の切り替わり時)に上述した処理を行うようにしてもよい。
【0092】
ここで、
図5に示す合成画像66は、位置変更優先モードにより手話映像の位置が優先的に変更(
図5の例では、初期値(左下)から右上に変更)されている。このように、上述した具体例1に示す処理を実行することで、合成画像66に示すように、番組映像の妨げにならない場所に手話映像を表示することができる。
【0093】
<具体例2:透明度優先モード>
次に、具体例2について説明する。
図6は、手話映像の透明度制御を優先させた表示制御の具体例を説明するための図である。なお、
図6の例では、制御内容を具体的に説明するために、概略的な処理の流れと各処理で得られる画像例とを用いて説明する。
【0094】
図6に示す具体例2では、上述した具体例1と同様に、番組映像71に対応する手話映像72の入力に対して、手話映像の画面上の所定の表示位置に対する手話CGキャラクタの透明度の初期値を設定する。このとき、ユーザは、リモコン等による透明度の設定を行うことで、ユーザ毎に適切な透明度の初期値を設定することができるが、設定がなされなかった場合には、不透明(半透明や透明でない状態)が設定される。また、透明度の制御を行う場合に、どの程度の透明度にするのかを設定することもできる。なお、
図6の例において、手話映像の表示位置は、予め設定された初期値(例えば、画面の左下)に設定されている(手話映像73)。
【0095】
なお、透明度とは、例えば、所定部位(例えば、手、腕、及び顔等のうち、手を含む少なくとも1つ)以外を半透明にして背景映像が見えるようにするための透明度合いを示すものである。また、透明度の設定には、どの部位を半透明にするかも設定することができる。また、部位毎に異なる透明度に設定することもできる。
【0096】
次に、具体例2では、番組映像71に対して、例えば顕著性マップ等を適用した計算等により得られる画像74により、注目領域抽出、顔画像認識、文字領域抽出等の各種画像情報の抽出を行う。
【0097】
次に、手話映像73と、画像情報の注目領域等(画像74)との重なり領域(重なり画像75)の抽出を行う。また、顕著性マップにより得られる顕著度(例えば、手話映像と重なる注目領域中における最大輝度値、又は平均輝度値等)と、予め設定された透明度制御用の閾値(閾値2)とを比較する。ここで、顕著度が閾値2より大きい場合か、又は、手話映像のキャラクタ(手話通訳者も含む)が番組映像の人物、文字等と重なっている場合(
図6において、YES)、所定の部分(例えば、手、腕、顔等)以外の部分に対して透明度の制御を行って、初期値(例えば、不透明)と異なる透明度で手話映像を表示する。
【0098】
また、具体例2では、上述した条件を満たさない場合(
図6において、NO)、手話映像の透明度を固定して表示する。なお、上述したような処理は、映像に含まれる各フレーム単位で行うことが好ましいが、これに限定されるものではなく、例えば所定のフレーム数毎や映像の切り替わり時に行ってもよい。
【0099】
図6に示す合成画像76は、透明度変更優先モードにより手話映像の所定部分(例えば、手、腕、顔等のうち、手を含む少なくとも1つの部分)以外の部分(例えば、衣類)等の透明度が優先的に変更されている。このように、上述した具体例2に示す処理を実行することで、合成画像76に示すように、番組映像の妨げにならない透明度に手話映像を表示することができる。なお、この透明度は、視聴者が認識できるように、設定できる透明度の範囲(例えば、0〜50%等)を予め設定しておくことができるが、これに限定されるものではなく、0〜100%の範囲で設定することもできる。ここで、透明度0%は透明や半透明でない状態を示し、状態100%は透明を意味する。
【0100】
<具体例3:表示位置、透明度組み合わせモード>
次に、具体例3について説明する。
図7は、手話映像の表示位置制御と透明度制御とを組み合わせた表示制御の具体例を説明するための図である。
【0101】
図7に示す具体例3では、最初に上述した
図6に示すような透明度優先モードによる表示制御を行い、手話映像を半透明にしたとしても背景映像をユーザが認識できない可能性がある場合に、上述した
図5に示す表示位置優先モードによる表示制御を行う。
【0102】
なお、透明度を優先させたとしても表示できない場合とは、例えば上述した重なり領域の抽出において、重なり範囲が、手話CGキャラクタの表示領域の所定範囲(例えば、手話映像全体の80%)以上の場合や、注目領域の所定範囲(例えば、注目領域全体の75%)以上の場合等があるが、これに限定されるものではない。つまり、本実施形態では、重なり範囲が広い場合に、透明度変更制御だけでなく、位置変更制御を行う。
【0103】
具体的には、
図7に示すように、最初に透明度優先モードとして、上述した顕著度(例えば、手話映像と重なる注目領域中における最大輝度値、又は平均輝度値等)と、予め設定された透明度の閾値(閾値3)とを比較し、顕著度が閾値3より大きくない場合(
図7において、NO)、手話映像の透明度を設定された透明度で固定し、顕著度が閾値3より大きい場合(
図7において、YES)、透明度を初期値にリセットし、上述した位置制御優先モードによる処理を行う。
【0104】
なお、上述した閾値3は、最大透明度であるのが好ましいが、これに限定されるものではない。また、位置制御優先モードによる処理を行う前に処理された透明度による制御は、上述したように初期値にリセットしなくてもよい。
【0105】
上述したように、本実施形態では、具体例1〜3に示すように、番組映像中にテロップ等の文字や情報として注目すべき重要な情報、又は人物等が映っている領域が手話映像(手話CGキャラクタ、手話通訳者)と重なってしまった場合には、手話映像の位置を自動的に移動させて番組映像の重要な領域とが重ならないようにする「位置変更優先モード」(具体例1)と、位置を変えずに手、腕、顔以外を半透明にして背景が見えるようにする「透明度変更優先モード」(具体例2)、及びこれらの組み合わせによる「表示位置、透明度組み合わせモード」(具体例3)とを有し、ユーザ毎の好みによって適切なモードに設定変更することができる。これにより、ユーザ毎に適切な映像を表示することができる。
【0106】
また、本実施形態では、上述したように、ある一定の大きさを有する閾値1〜3等を用いて表示制御をするか否かを判断することで、例えば手話映像と番組映像の注目領域との小さな重なり範囲が存在しても表示を変化させないようにすることができ、頻繁な表示変化を防止することができる。
【0107】
<時間による制御>
ここで、本実施形態では、手話映像の表示位置や透明度制御において、番組映像の注目領域が手話映像と一瞬(短時間)だけ大きく重なる場合がある。そのような場合に、上述した手話映像の表示位置や透明度の制御を行うと、表示が一瞬だけ変化する。つまり、このような表示制御が連続すると、表示位置や透明度が頻繁に変化して視聴者による手話の読み取りを困難にしてしまう可能性がある。
【0108】
そこで、本実施形態では、例えばユーザ等により予め設定された時間情報(例えば、閾値4)に基づいて、上述した表示制御を制限する。具体的には、手話映像の位置や透明度が変化した時点で、タイマを開始して時間をカウントし、カウントされた時間が閾値4を超えるまでは、上述した表示制御を行わないようにする。
【0109】
このように、時間情報に基づき表示制御を制限することで、直前に手話映像の位置や透明度が変化している場合に、一定間隔空かないと位置又は透明度が変化しないため、頻繁に位置や透明度が変化して手話の読み取りが困難になることを防止することができる。なお、上述した時間による制御は、例えば上述した手話映像生成手段37や手話CG生成手段51等によって制御される。
【0110】
<合成映像例>
ここで、本実施形態により得られる合成映像例について図を用いて説明する。
図8は、位置変更制御による合成映像例を示す図である。また、
図9は、透明度変更制御による合成映像例を示す図である。また、
図10は、他の表示制御による合成映像例を示す図である。
【0111】
上述した
図5に示す具体例1において、例えば顕著度が閾値1よりも大きい場合には例えば、番組映像(
図8の例では天気図)80に対して手話映像(手話CGキャラクタ、手話通訳者)81の表示位置を変更する制御を行う。このとき、表示位置の変更は、現在の位置から予め設定されている変更位置に手話映像81を移動させてもよく、例えば、
図8(A)〜(F)に示すように、手話映像81を番組映像80に対する複数の位置に移動させ、それぞれの位置で番組映像80の注目領域等との重なり領域の最大輝度値、又は平均輝度値が最小になる位置を選択することで、適切な位置に手話映像を変更することができる。
【0112】
また、上述した
図6に示す具体例2において、例えば顕著度が閾値2よりも大きい場合には、
図9(A)に示す手話映像80の透明度の初期値状態から
図9(B)に示す予め設定された透明度に変更する。なお、透明度による表示制御は、予め設定された半透明や透明にしない所定部位(手、腕、及び顔のうち、手を含む少なくとも1つ)以外の部位(例えば、服装等)に対して行われる。なお、具体例2における透明度は大きく2種類としてもよく、また重なり領域の輝度値に比例して連続的に変化させてもよい。
【0113】
また、上述した具体例3に示すように、上述した具体例1,2に示す2つのモードを組み合わせた場合には、先に透明度変更優先モードにて透明度を変化させ、顕著度(重なり領域の輝度値等)が上述した閾値3より大きい場合、つまり極めて重要な情報が隠れてしまう場合には、変更した透明度を初期値にリセットし、それ以降は、位置変更優先モードにて位置を移動させる制御を行う。
【0114】
すなわち、具体例3のモードでは、最初に透明度を変更して背景の番組映像の情報が見えるようにするが、極めて重要な情報があった場合は透明度を変更するのではなく位置を移動させる。これは、位置を頻繁に移動させると透明にする場合よりも手話の解読に悪影響を与えると考えられるからである。また、本実施形態では、表示位置制御と透明度制御の優先順位をユーザの好みで逆に設定してもよい。
【0115】
また、上述した表示位置制御や透明度制御は、手話映像の表示倍率を変更させる制御を行うことができる。例えば、本実施形態では、入力された番組映像80に対して、手話映像81を
図10(A)に示すように予め設定された拡大率で拡大させて表示させてもよく、また、
図10(B)に示すように予め設定された縮小率で縮小させて表示させてもよい。
【0116】
<実行プログラム>
ここで、上述した映像合成装置(デジタル放送受信機12)は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
【0117】
したがって、映像合成装置が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
【0118】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(映像合成プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、上述した映像合成処理を実現することができる。
【0119】
なお、上述した本実施形態では、デジタル放送受信機12に映像合成装置を有する構成について説明したが、これに限定されるものではなく、例えば放送局11側に映像合成装置を有していてもよい。この場合には、放送局11側で番組映像と手話映像とを合成し、合成された映像がデジタル放送受信機12に送信される。
【0120】
上述したように本実施形態によれば、映像同士の合成によっても情報が欠落しない合成を行うことができる。したがって、ユーザ毎に適切な映像を表示することができる。具体的には、本実施形態によれば、番組映像等の第1の映像の視聴を妨げずに手話映像等の番組関連情報や地震震度マップ等の番組内通知映像等を含む第2の映像を十分理解できるように同一ディスプレイ上に合成して表示することができる。
【0121】
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。