(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-12
(45)【発行日】2024-11-20
(54)【発明の名称】映像符号化装置及びプログラム
(51)【国際特許分類】
H04N 19/124 20140101AFI20241113BHJP
H04N 19/167 20140101ALI20241113BHJP
H04N 19/176 20140101ALI20241113BHJP
H04N 21/2662 20110101ALI20241113BHJP
H04N 21/84 20110101ALI20241113BHJP
【FI】
H04N19/124
H04N19/167
H04N19/176
H04N21/2662
H04N21/84
(21)【出願番号】P 2020176680
(22)【出願日】2020-10-21
【審査請求日】2023-09-20
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100143568
【氏名又は名称】英 貢
(72)【発明者】
【氏名】神田 菊文
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2013-168739(JP,A)
【文献】特開2010-219786(JP,A)
【文献】特開2004-015523(JP,A)
【文献】特開2011-071686(JP,A)
【文献】国際公開第2017/208820(WO,A1)
【文献】特開2019-186969(JP,A)
【文献】特開2017-139628(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
映像及び音声に応じて映像の注視領域を誘導するように映像を符号化する映像符号化装置であって、
符号化処理前の映像を入力し、映像フレームにおける映像オブジェクトの位置座標を示す情報を含む付随する映像メタデータから、又は映像解析により、当該映像を構成する処理対象の映像フレームにおける映像オブジェクトの位置座標及び形状座標を抽出する映像オブジェクト位置・形状抽出部と、
映像に付随する音響メタデータを基に、処理対象の映像フレーム毎に発音体とされる音声オブジェクトについて処理対象の映像フレームにおける位置座標を生成して、前記映像オブジェクトの位置座標を基に最近位置の映像オブジェクトに紐づけするとともに、処理対象の映像フレームにおける前記音声オブジェクトの音声を入力するか、又は前記映像メタデータを参照して、前記音声オブジェクトの音の大きさを検出し、処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付ける音声位置生成部と、
前記音声オブジェクトに紐づけされた映像オブジェクトの位置座標、及びその音の大きさの情報と前記映像オブジェクトの形状座標とを基に、所定の基準に基づいて、処理対象の映像フレーム毎に発音体として紐づけされる映像オブジェクトのうち注視誘導する映像オブジェクトを定め、その形状を囲むように誘導注視領域を決定する誘導注視領域生成部と、
前記誘導注視領域の情報を基に、前記誘導注視領域の符号化画質を他の領域よりも高めるように、処理対象の映像フレームについて符号化する際の符号量を制御する符号化制御情報生成部と、
前記符号量の制御に基づいて前記映像を符号化し、前記符号量の制御情報を少なくとも示す符号化パラメータを含む符号化ストリームを生成する映像符号化部と、
を備えることを特徴とする映像符号化装置。
【請求項2】
前記符号化ストリームの受信側の視聴環境が予め想定して定められ、
音響メタデータは、受信側の想定視聴位置及び表示装置の想定位置について予め定めた仮想空間上において、処理対象の映像フレームにおける音声オブジェクト毎に予め定めた音源の位置情報を含むことを特徴とする、請求項1に記載の映像符号化装置。
【請求項3】
映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが前記符号化処理前に予め紐づけされていることを特徴とする、請求項1に記載の映像符号化装置。
【請求項4】
前記音響メタデータは、音声オブジェクトの音の大きさを示す情報を含むことを特徴とする、請求項1から3のいずれか一項に記載の映像符号化装置。
【請求項5】
前記符号化ストリームを受信する受信システムと双方向通信可能にオンライン接続され、前記受信システム側から、実際の視聴位置と実際の視聴位置からの視聴方向のいずれか一方、又は双方を示す情報を取得する手段を更に備え、
前記誘導注視領域生成部は、前記音響メタデータから得られる想定視聴位置と想定視聴位置からの方向のいずれか一方又は双方を補正して前記誘導注視領域を定める手段を更に有することを特徴とする、請求項1から4のいずれか一項に記載の映像符号化装置。
【請求項6】
コンピューターを、請求項1から5のいずれか一項に記載の映像符号化装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、超高精細、大画面及び広視野角の特徴を持つ映像を符号化伝送する映像符号化装置及びプログラムに関する。
【背景技術】
【0002】
従来から、入力された映像信号を解析し、映像シーンに関する映像オブジェクトの位置座標を検出し、予め用意された映像の内容に関する文字列データや音声データを対応付けて映像関連のコンテンツとして生成する映像関連コンテンツ生成装置が知られている(例えば、特許文献1参照)。従って、映像信号を符号化する前に、原信号となる映像信号と、映像オブジェクトの位置座標を示す映像メタデータと、映像の内容に関する音声データとを得ることができる。
【0003】
また、入力された映像信号の映像フレームから映像オブジェクトの位置座標及び形状座標を検出する方法も種々の技術が知られている(例えば、特許文献2参照)。
【0004】
ところで、近年では、将来の映像メディアとしてイマーシブメディア(没入型高臨場感メディア)が期待されている。また、イマーシブメディアだけでなく、誰もが時間や場所を気にせず、好みの装置を使ってさまざまなコンテンツを視聴・体験できるサービスとして「ダイバースビジョン」が検討されている(例えば、非特許文献1参照)。
【0005】
これらの将来の映像システムは、高い臨場感をもつ映像体験を提供するため、この映像システムで用いられる映像は、超高精細、大画面及び広視野角などの特徴をもつ。このような映像のデータは極めて膨大な量となり、超高精細、大画面及び広視野角の特徴を持つ映像を符号化伝送するサービスを実現するためには極めて効率的で高性能な映像符号化装置が要望される。
【0006】
また、イマーシブメディアに限らず、映像コンテンツには、映像と連動して音声が併存している。音声データの表現方法には、そのシステムに応じて様々な方法があるが、将来の高度なコンテンツにおいては、オブジェクトベース音響システムをはじめ、話者や発音体をオブジェクトとして定義し、音声オブジェクトの再生位置情報など、それらに付随する様々な情報がメタデータとして付加されるようなシステムが検討されている(例えば、非特許文献2参照)。
【0007】
例えば、音響メタデータのリアルタイム伝送装置では、音声信号に音響メタデータを付与するものとなっている(例えば、非特許文献3参照)。尚、ITU-Rでは、国際標準の音響メタデータとして音響定義モデル(Audio Definition Model: ADM)が規定され、この音響メタデータにおけるADMには、番組内容を記述するコンテンツ(Content)部と、スピーカ配置やオブジェクトの再生位置などを記述するフォーマット(Format)部)からなる。オブジェクトの再生位置など時間的に変化するメタデータは動的メタデータと呼ばれ、コンテンツ(Content)部などの番組を通して変化しない静的メタデータと区別して扱うことができる。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2004- 15523号公報
【文献】特開2001-307091号公報
【非特許文献】
【0009】
【文献】“2030~2040年ごろのメディア技術 ダイバースビジョン”、[online]、NHK放送技術研究所、技研公開2019、2019年5月30日開催、[令和2年9月18日検索]、インターネット〈https://www.nhk.or.jp/strl/open2019/tenji/e1.html〉
【文献】“オブジェクトベース音響”、[online]、NHK放送技術研究所、技研だより、2019年1月号連載、[令和2年9月18日検索]、インターネット〈https://www.nhk.or.jp/strl/publica/giken_dayori/166/5.html〉
【文献】久保、大出、“オブジェクトベース音響における音響メタデータのリアルタイム伝送装置の開発”、2019年映像情報メディア学会冬季大会、22A-3、2019年12月13日発表
【発明の概要】
【発明が解決しようとする課題】
【0010】
上述したように、例えば、放送や配信などのような限られた伝送容量の伝送路を用いて、超高精細、大画面及び広視野角の特徴を持つ映像を符号化伝送するサービスを行うためには、伝送容量にあわせてデータ圧縮する映像符号化が不可欠である。8K映像の符号化などのこれまでの映像符号化技術では、各フレーム内を映像の内容によらずに均一に符号化するか、フレームを幾つかの領域に区切って、それぞれの符号化難易度等の主に映像の信号成分の特徴によって、符号量を割り当てるなどの方法がとられてきた。
【0011】
ところで、イマーシブメディアで用いられる映像では、8Kを上回る超高精細、大画面及び広視野角の映像が用いられることが想定される。このような超高精細、大画面及び広視野角の映像を視聴する場合、視聴者は画面全体を均一に見ているわけではなく、映像内容に応じて、その一部分を注視するような視聴形態が中心となる。このため、限られた伝送容量を有効に活用するためには、必ずしも画面全体を均一に符号化する必要はなく、視聴者が注視している映像の注視領域(ROI: Region of Interest)の品質のみを高く保つことでも、映像コンテンツの品質は高く保たれるケースが多い。そこで、映像信号を符号化する際に、視聴者の注視する領域である注視領域に応じてビットレートを増減させて画質を制御し、膨大な映像データを効率的に符号化することが有効である。
【0012】
ただし、従来技術によれば、視聴者の注視する領域(注視領域)を判別し、その情報を符号化装置に通知して映像符号化装置を制御する必要がある。また、視聴者によって注視領域は異なる場合が多く、視聴者の注視領域ごとに映像符号化装置を異なる制御を用いて動作させる必要がある。
【0013】
一方、注視領域を、映像に応じて自動的に誘導することができれば、その注視領域を示す情報を映像符号化装置に付加情報として通知する必要がなくなり、それだけでなく、映像及び音声のコンテンツの視聴体験を効果的に高める要素として積極的に活用できる。
【0014】
例えば、コンテンツの視聴中に、或る方向から呼びかけられたり、大きな音がしたりすれば、その音の方向に視線を向け、注目領域を移動させるのは視聴者の自然な反応である。これを用いて、入力した映像中の映像オブジェクトと、音声オブジェクトとを紐付け、音声オブジェクトによる音の発生する方向の映像オブジェクトの周辺を注視領域として定め、その注視領域の符号化品質を他の領域よりも高く保つように符号化制御することで、主観的な品質の向上を図ることが可能である。
【0015】
つまり、映像及び音声に応じて映像の注視領域を誘導し、映像コンテンツの品質を高く保ちながら映像を符号化する映像符号化装置が望まれる。
【0016】
しかし、上述したオブジェクトベース音響システムでは、音声オブジェクトの再生位置情報など、それらに付随する様々な情報がメタデータとして付加されるようなシステムが検討されているが、この音声オブジェクトを2次元的な映像の映像オブジェクトに結び付けて、その映像符号化に活用するものとはなっていない。
【0017】
そこで、本発明の目的は、上述の問題に鑑みて、映像及び音声に応じて映像の注視領域を誘導し、映像コンテンツの品質を高く保ちながら映像を符号化する映像符号化装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0018】
本発明の映像符号化装置は、映像及び音声に応じて映像の注視領域を誘導するように映像を符号化する映像符号化装置であって、符号化処理前の映像を入力し、映像フレームにおける映像オブジェクトの位置座標を示す情報を含む付随する映像メタデータから、又は映像解析により、当該映像を構成する処理対象の映像フレームにおける映像オブジェクトの位置座標及び形状座標を抽出する映像オブジェクト位置・形状抽出部と、映像に付随する音響メタデータを基に、処理対象の映像フレーム毎に発音体とされる音声オブジェクトについて処理対象の映像フレームにおける位置座標を生成して、前記映像オブジェクトの位置座標を基に最近位置の映像オブジェクトに紐づけするとともに、処理対象の映像フレームにおける前記音声オブジェクトの音声を入力するか、又は前記映像メタデータを参照して、前記音声オブジェクトの音の大きさを検出し、処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付ける音声位置生成部と、前記音声オブジェクトに紐づけされた映像オブジェクトの位置座標、及びその音の大きさの情報と前記映像オブジェクトの形状座標とを基に、所定の基準に基づいて、処理対象の映像フレーム毎に発音体として紐づけされる映像オブジェクトのうち注視誘導する映像オブジェクトを定め、その形状を囲むように誘導注視領域を決定する誘導注視領域生成部と、前記誘導注視領域の情報を基に、前記誘導注視領域の符号化画質を他の領域よりも高めるように、処理対象の映像フレームについて符号化する際の符号量を制御する符号化制御情報生成部と、前記符号量の制御に基づいて前記映像を符号化し、前記符号量の制御情報を少なくとも示す符号化パラメータを含む符号化ストリームを生成する映像符号化部と、を備えることを特徴とする。
【0019】
また、本発明の映像符号化装置において、前記符号化ストリームの受信側の視聴環境が予め想定して定められ、音響メタデータは、受信側の想定視聴位置及び表示装置の想定位置について予め定めた仮想空間上において、処理対象の映像フレームにおける音声オブジェクト毎に予め定めた音源の位置情報を含むことを特徴とする。
【0020】
また、本発明の映像符号化装置において、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが前記符号化処理前に予め紐づけされていることを特徴とする。
【0021】
また、本発明の映像符号化装置において、前記音響メタデータは、音声オブジェクトの音の大きさを示す情報を含むことを特徴とする。
【0022】
また、本発明の映像符号化装置において、前記符号化ストリームを受信する受信システムと双方向通信可能にオンライン接続され、前記受信システム側から、実際の視聴位置と実際の視聴位置からの視聴方向のいずれか一方、又は双方を示す情報を取得する手段を更に備え、前記誘導注視領域生成部は、前記音響メタデータから得られる想定視聴位置と想定視聴位置からの方向のいずれか一方又は双方を補正して前記誘導注視領域を定める手段を更に有することを特徴とする。
【0023】
更に、本発明のプログラムは、コンピューターを、本発明の映像符号化装置として機能させるためのプログラムとして構成する。
【発明の効果】
【0024】
本発明によれば、主観的な品質を低下させずに符号化データ量を圧縮することができるだけでなく、演出意図をより強く反映して効果的な視聴体験に結び付けるようなコンテンツの制作が可能となる。
【図面の簡単な説明】
【0025】
【
図1】本発明による一実施例の映像符号化装置の概略構成を示すブロック図である。
【
図2】本発明による一実施例の映像符号化装置における映像符号化処理を示すフローチャートである。
【
図3】(a),(b)は、それぞれ本発明による一実施例の映像符号化装置における映像メタデータ及び音響メタデータから得られる情報例を示す図である。
【
図4】本発明による一実施例の映像符号化装置における動作を説明する図である。
【発明を実施するための形態】
【0026】
(装置構成)
以下、図面を参照して、本発明による一実施例の映像符号化装置1の構成について説明する。
図1は、本発明による一実施例の映像符号化装置1の概略構成を示すブロック図である。
図1に示す映像符号化装置1は、入力した映像中の映像オブジェクトと、音声オブジェクトとを紐付け、音声オブジェクトによる音の発生する方向の映像オブジェクトの周辺を注視領域として定め、その注視領域の符号化品質を他の領域よりも高く保つように符号化制御する装置であり、映像オブジェクト位置・形状抽出部2、音声位置生成部3、誘導注視領域生成部4、符号化制御情報生成部5、及び映像符号化部6を備える。
【0027】
映像オブジェクト位置・形状抽出部2は、符号化処理前の映像(1映像フレーム単位又はGOP(group of pictures)単位で示される符号化処理前の映像ファイル)を入力し、映像フレームにおける映像オブジェクトの位置座標を示す情報を含む付随する映像メタデータから、又は映像解析により、処理対象の映像フレームにおける映像オブジェクトの位置座標及び形状座標を抽出し、それぞれ音声位置生成部3及び誘導注視領域生成部4に出力する。処理対象の映像フレームにおける映像オブジェクトの位置座標は、その映像オブジェクトの位置の代表的な位置を識別できればよく、例えば映像オブジェクトの重心とする。
【0028】
ここで、映像オブジェクト位置・形状抽出部2は、付随する映像メタデータを入力するものとするときは、その映像メタデータから処理対象の映像フレームにおける映像オブジェクトの位置座標を得て、その映像オブジェクトの位置座標に位置する映像オブジェクトの形状(形状座標)を抽出する。また、映像オブジェクト位置・形状抽出部2は、映像メタデータから処理対象の映像フレームにおける映像オブジェクトの位置座標が得られないときは、処理対象の映像フレームから映像オブジェクトの位置及び形状の双方を抽出する。処理対象の映像フレームにおける映像オブジェクトの位置及び形状の各座標の抽出方法は、任意であり、例えば特許文献1,2の技法を利用できる。
【0029】
音声位置生成部3は、映像に付随する音響メタデータを入力し、処理対象の映像フレーム毎に音響メタデータを基に発音体とされる音声オブジェクトについて処理対象の映像フレームにおける位置座標を生成し、映像オブジェクト位置・形状抽出部2から得られる映像オブジェクトの位置座標を参照して、音声オブジェクトの位置座標に対し最近位置の映像オブジェクトを選定し、音声オブジェクトと映像オブジェクトとを紐づけする。また、音声位置生成部3は、処理対象の映像フレームにおける当該発音体とされる音声オブジェクトの音声を入力し、その音声オブジェクトの音の大きさ(例えば平均又は最大の音響パワー)を検出して、処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付けて誘導注視領域生成部4に出力する。ただし、音響メタデータに、音声オブジェクトの音の大きさを示す情報が含まれているときは、音声入力を省略できる。
【0030】
本実施例では、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが制作段階で紐づけされていない場合を想定している。音響メタデータには受信側の想定視聴位置及び表示装置の想定位置について予め定めた仮想空間上において、処理対象の映像フレームにおける音声オブジェクト毎に予め定めた音源の位置情報が含まれている。このため、音声位置生成部3は、音響メタデータを基に発音体とされる音声オブジェクトについて処理対象の映像フレームにおける、想定視聴位置を基準とした位置座標を生成することができ、映像オブジェクトの位置座標を基に最近位置の映像オブジェクトに紐づけすることができる。一方で、上述したオブジェクトベース音響システムのように、CG(Computer Graphics)による映像制作などの制作段階で、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが予め紐づけされているときは、音声位置生成部3は、この紐づけ処理を省略し、処理対象の映像フレームにおける音声オブジェクトに予め紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付けて誘導注視領域生成部4に出力する。
【0031】
誘導注視領域生成部4は、音声位置生成部3から得られる処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標、及びその音の大きさの情報と、映像オブジェクト位置・形状抽出部2から得られる映像オブジェクトの形状座標とを基に、処理対象の映像フレーム毎に、「呼びかけ」などの音声の内容、映像オブジェクトの位置や大きさ等の所定の基準に基づいて、発音体として紐づけされる映像オブジェクトのうち注視誘導する映像オブジェクトを定め、その形状を囲むように誘導注視領域を決定し、その誘導注視領域の情報を符号化制御情報生成部5に出力する。ここで、「映像オブジェクトの形状を囲むように」とは、注視誘導する映像オブジェクトの形状そのものの領域としてもよいし、映像オブジェクトの形状の周辺の数画素分をなぞる領域としてもよいし、映像オブジェクトの形状全体を含む予め定めた丸状又は角状の領域としてもよい。
【0032】
符号化制御情報生成部5は、誘導注視領域生成部4から得られる誘導注視領域の情報を基に、誘導注視領域の符号化画質を他の領域よりも高めるように符号化制御情報を生成し、映像符号化部6における処理対象の映像フレームについて符号化する際の符号量を制御する。
【0033】
映像符号化部6は、符号化制御情報生成部5による符号量の制御に基づいて、1映像フレーム単位又はGOP単位で、入力する映像を符号化し、その符号量の制御を少なくとも示す符号化パラメータ(符号化制御情報を含む。)を含む符号化ストリームを生成して映像復号装置(図示略)に向けて伝送する。
【0034】
(装置動作)
以下、
図2を基に、
図3及び
図4を参照しながら、本実施例の映像符号化装置1における映像符号化処理と動作を説明する。
図2は、本発明による一実施例の映像符号化装置1における映像符号化処理を示すフローチャートである。また、
図3(a),(b)は、それぞれ本発明による一実施例の映像符号化装置1における映像メタデータ及び音響メタデータから得られる情報例を示す図である。そして、
図4は、本発明による一実施例の映像符号化装置1における動作を説明する図である。
【0035】
図2を参照するに、まず、本実施例の映像符号化装置1は、映像オブジェクト位置・形状抽出部2により、1映像フレーム単位又はGOP(group of pictures)単位で示される符号化処理前の映像を入力し(ステップS1)、映像フレームにおける映像オブジェクトの位置座標を示す情報を含む付随する映像メタデータから、又は映像解析により、処理対象の映像フレームにおける映像オブジェクトの位置座標及び形状座標を抽出する(ステップS2)。処理対象の映像フレームにおける映像オブジェクトの位置座標は、その映像オブジェクトの位置の代表的な位置を識別できればよく、例えば映像オブジェクトの重心とする。
【0036】
ここで、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが符号化処理前に予め紐づけされているときは受信側の視聴環境を予め想定して定めておく必要はないが、本実施例では、
図4に示すように、映像符号化装置1が生成した符号化ストリームの受信側の視聴環境が予め想定して定められたものとしており、例えば想定視聴位置を原点とする世界座標(X,Y,Z)において、想定視聴位置からの表示装置(ディスプレイ)の位置と、その表示装置(ディスプレイ)に対応する映像フレームFnの大きさ(H,V)が定義づけされている。即ち、映像フレームFnの位置座標も世界座標(X,Y,Z)上で定義づけされている。尚、
図4に示す例は一例であり、想定視聴位置及び世界座標(X,Y,Z)の定義は、任意に定めることができる。
【0037】
このため、映像オブジェクト位置・形状抽出部2は、付随する映像メタデータを入力するものとするときは、その映像メタデータから処理対象の映像フレームにおける映像オブジェクトの位置座標を得て、その映像オブジェクトの位置座標に位置する映像オブジェクトの形状(形状座標)を抽出する。映像メタデータは、
図3(a)に示すように、或る映像フレームFn(nはフレーム番号を示す。)中の予め定義された映像オブジェクト毎に、例えば映像オブジェクト番号♯1の重心座標を(h1,v1)、映像オブジェクト番号♯2の重心座標を(h2,v2)とするように、映像フレームFnの大きさ(H,V)の範囲内で各映像オブジェクトの位置座標を抽出できるものとすることができる。
【0038】
また、映像オブジェクト位置・形状抽出部2は、映像メタデータから処理対象の映像フレームにおける映像オブジェクトの位置座標が得られないときは、処理対象の映像フレームから映像オブジェクトの位置及び形状の双方を抽出する。この場合、映像フレームFnにおける各映像オブジェクトを識別する映像オブジェクト番号を仮設定する。
【0039】
次に、本実施例の映像符号化装置1は、音声位置生成部3により、映像に付随する音響メタデータを入力し、処理対象の映像フレーム毎に音響メタデータを基に発音体とされる音声オブジェクトについて処理対象の映像フレームにおける位置座標を生成して、映像オブジェクト位置・形状抽出部2から得られる映像オブジェクトの位置座標を基に最近位置の映像オブジェクトに紐づけするとともに、処理対象の映像フレームにおける当該発音体とされる音声オブジェクトの音声を入力し、その音声オブジェクトの音の大きさ(例えば平均又は最大の音響パワー)を検出して、処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付ける(ステップS3)。ただし、音響メタデータに、音声オブジェクトの音の大きさを示す情報が含まれているときは、音声入力を省略できる。
【0040】
本実施例では、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが制作段階で紐づけされていない場合を想定した例を説明する。この場合の音響メタデータには、受信側の想定視聴位置及び表示装置の想定位置について予め定めた仮想空間上において、処理対象の映像フレームにおける音声オブジェクト毎に予め定めた音源の位置情報が含まれている。このため、
図3(b)に示すように、処理対象の映像フレームにおける音声オブジェクト毎に予め定めた想定視聴位置を基準とした音源方向を特定できる。音響メタデータは、或る映像フレームFn中の予め定義された音声オブジェクト毎に、例えば音声オブジェクト番号♯1の想定視聴位置を基準とした音源方向を(x1,y1,z1)、音声オブジェクト番号♯2の想定視聴位置を基準とした音源方向を(x2,y2,z2)とするように、世界座標(X,Y,Z)において、想定視聴位置からのディスプレイの位置が定義づけされていることから、或る映像フレームFn中の各音声オブジェクトの位置座標を抽出できる。
【0041】
そして、音声位置生成部3は、或る映像フレームFn中の各音声オブジェクトの位置座標に対し最近位置の位置座標を持つ映像オブジェクトを選定し、発音体とされる音声オブジェクトと映像オブジェクトを紐づけすることができる。ここでは、
図4に示すように、説明の便宜上、映像オブジェクト♯1が音声オブジェクト♯1に紐づけされ、映像オブジェクト♯1が音声オブジェクト♯1に紐づけされる。即ち、音声位置生成部3は、仮設定した映像オブジェクト番号であれ、予め定義された映像オブジェクト番号であれ、或る映像フレームFn中の各音声オブジェクトの位置座標に対し最近位置の位置座標を持つ映像オブジェクトを選定するため、発音体とされる音声オブジェクトと映像オブジェクトを紐づけすることができる。尚、紐付けするオブジェクト数は1つとは限らず複数となる場合もある。
【0042】
そして、音声位置生成部3は、入力音声から音声オブジェクトの音の大きさ(例えば平均又は最大の音響パワー)を検出するため、処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付けることができる。一方で、上述したオブジェクトベース音響システムのように、制作段階で、映像メタデータにおける映像オブジェクトと音響メタデータにおける音声オブジェクトとが予め紐づけされているときは、音声位置生成部3は、この紐づけ処理を省略し、処理対象の映像フレームにおける音声オブジェクトに予め紐づけされた映像オブジェクトの位置座標とその音の大きさの情報とを対応付けることができる。
【0043】
次に、本実施例の映像符号化装置1は、誘導注視領域生成部4により、音声位置生成部3から得られる処理対象の映像フレームにおける音声オブジェクトに紐づけされた映像オブジェクトの位置座標、及びその音の大きさの情報と、映像オブジェクト位置・形状抽出部2から得られる映像オブジェクトの形状座標とを基に、処理対象の映像フレーム毎に、所定の基準に基づいて、発音体として紐づけされる映像オブジェクトのうち注視誘導する映像オブジェクトを定め、その形状を囲むように誘導注視領域を決定する(ステップS4)。
【0044】
例えば、誘導注視領域生成部4は、「呼びかけ」などの音声の内容、映像オブジェクトの位置や大きさ等の所定の基準に基づいて、どの映像オブジェクトが注視されやすいかを順序付けて、注視されやすいと判断した高順位のものから所定順位以内(例えば、
図4に示す2つ以内と定めることができる。)の映像オブジェクトを注視誘導する誘導注視領域として決定(その映像オブジェクトの形状を囲むように決定)する。尚、
図4では、誘導注視領域を、映像オブジェクトの形状全体を含む予め定めた角状の領域としているが、注視誘導する映像オブジェクトの形状そのものの領域としてもよいし、映像オブジェクトの形状の周辺の数画素分をなぞる領域としてもよいし、映像オブジェクトの形状全体を含む予め定めた丸状の領域としてもよい。これにより、誘導注視領域生成部4は、どの映像オブジェクトに視線を誘導したいかを定めることができる。尚、誘導注視領域は、1つ又は複数として予め定めた数に制限するのが符号量を抑制するのに好適であり、複数の誘導注視領域は互いに重なる領域を持つときは1つの誘導注視領域として改めて定めるのが処理負荷及び品質の観点で好適である。
【0045】
次に、本実施例の映像符号化装置1は、符号化制御情報生成部5により、誘導注視領域生成部4から得られる誘導注視領域の情報を基に、誘導注視領域の符号化画質を他の領域よりも高めるように、映像符号化部6における処理対象の映像フレームについて符号化する際の符号量を制御する。そして、映像符号化部6は、符号化制御情報生成部5による符号量の制御に基づいて、1映像フレーム単位又はGOP単位で、入力する映像を符号化し、その符号量の制御情報を少なくとも示す符号化パラメータ(符号化制御情報を含む。)を含む符号化ストリームを生成して映像復号装置(図示略)に向けて伝送する(ステップS5)。
【0046】
このように、符号化制御情報生成部5では、誘導注視領域の符号化画質を他の領域よりも高めるように符号量の制御を行う。具体的には、注視領域に多くの符号量を割り当てるなどの方法がある。
【0047】
そして、映像符号化部6は、符号化制御情報生成部5による符号量の制御によって、入力映像の符号化を符号化し符号化ストリームを符号化パラメータとともに外部出力する。符号化方式は任意の方法で構わないが、画面内の位置によって符号量(量子化パラメータの値)を変化させることができるものとする。そして、量子化パラメータの値は符号化パラメータとして伝送可能である。変化させる領域は符号化処理に応じたブロック等を単位とすることとする。
【0048】
尚、図示を省略するが、本実施例の映像符号化装置1から伝送された符号化ストリームを受信し復号する映像復号装置は、映像符号化装置1から得られる符号化パラメータを基に当該符号化ストリームを復号する形態であればよく、既存の映像復号処理と同様の装置を利用できる。
【0049】
このようにして、本実施例の映像符号化装置1は、音響情報(音響メタデータ及び音声入力)を基に、映像符号化に係る誘導注視領域を決定し符号化する構成としたことにより、主観的な品質を保ちながら、符号化データ量を削減するとともに、受信側で演出意図をより強く反映して効果的な視聴体験をもたらすことができる。
【0050】
従って、本発明に係る映像符号化装置1によれば、主観的な品質を低下させずに符号化データ量を圧縮することができるだけでなく、演出意図をより強く反映して効果的な視聴体験に結び付けるようなコンテンツの制作が可能となる。
【0051】
本発明に係る映像符号化装置1は、コンピューターにより構成することができ、映像符号化装置1の各処理部を機能させるためのプログラムを好適に用いることができる。具体的には、映像符号化装置1の各処理部を制御するための制御部をコンピューター内の中央演算処理装置(CPU)で構成でき、且つ、各処理部を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも1つのメモリで構成させることができる。即ち、そのようなコンピューターに、CPUによって該プログラムを実行させることにより、映像符号化装置1の各処理部の有する機能を実現させることができる。更に、映像符号化装置1の各処理部の有する機能を実現させるためのプログラムを、前述の記憶部(メモリ)の所定の領域に格納させることができる。そのような記憶部は、装置内部のRAM又はROMなどで構成させることができ、或いは又、外部記憶装置(例えば、ハードディスク)で構成させることもできる。また、そのようなプログラムは、コンピューターで利用されるOS上のソフトウェア(ROM又は外部記憶装置に格納される)の一部で構成させることができる。更に、そのようなコンピューターに、映像符号化装置1の各処理部として機能させるためのプログラムは、コンピューター読取り可能な記録媒体に記録することができる。また、映像符号化装置1の各処理部をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。
【0052】
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施例では、主として、音声入力に基づいて音声オブジェクト毎の音響レベルを検出する例を説明したが、音響メタデータが音声オブジェクト毎の音響レベルを記述した形態とすることで、音声入力を省略して、発音体とされる映像オブジェクトを検出できる。
【0053】
また、本発明に係る映像符号化装置1は、映像符号化装置1が生成した符号化ストリームを受信する受信システム(映像復号装置、表示装置、及び周辺機器を含む)と双方向通信可能にオンライン接続した形態とすることができる。この場合には、受信システム側から映像符号化装置1側への上り回線を利用して、映像符号化装置1は、「実際の視聴位置」と「実際の視聴位置からの視聴方向」のいずれか一方、又は双方を示す情報を取得する手段を更に備えるものとする。そして、映像符号化装置1における誘導注視領域生成部4は、音響メタデータから得られる「想定視聴位置」と「想定視聴位置からの方向」のいずれか一方又は双方を補正して、誘導注視領域を定めることもできる。
【0054】
例えば、本発明に係る映像符号化装置1と、受信システム(映像復号装置、表示装置、及び周辺機器を含む)とを双方向通信可能にオンライン接続した形態において、受信システムにおける周辺機器としてVR(Virtual Reality)ゴーグルを利用する形態とすることができる。この場合、映像符号化装置1における誘導注視領域生成部4は、そのVRゴーグルに設けられる加速度センサ、ジャイロスコープといった慣性計測装置(IMU:Inertial Measurement Unit)からの視線方向が得られるときは、音響メタデータから得られる「想定視聴位置からの方向」を補正して誘導注視領域を定めることができる。
【0055】
また、本発明に係る映像符号化装置1と、受信システム(映像復号装置、表示装置、及び周辺機器を含む)とを双方向通信可能にオンライン接続した形態において、受信システムにおける周辺機器として表示装置と実際の視聴位置との相対的な位置関係を測定する受信環境感知センサーが設けられた形態とすることができる。この場合、映像符号化装置1における誘導注視領域生成部4は、この受信環境感知センサーで実際の視聴位置を測定し、その実際の視聴位置を示す情報を上り回線を使用して映像符号化装置1側に伝える構成とすることで、音響メタデータから得られる「想定視聴位置」を補正して誘導注視領域を定めることができる。
【産業上の利用可能性】
【0056】
本発明によれば、主観的な品質を低下させずに符号化データ量を圧縮することができるだけでなく、演出意図をより強く反映して効果的な視聴体験に結び付けるようなコンテンツの制作が可能となるので、超高精細、大画面及び広視野角の特徴を持つ映像の符号化伝送の用途に有用である。
【符号の説明】
【0057】
1 映像符号化装置
2 映像オブジェクト位置・形状抽出部
3 音声位置生成部
4 誘導注視領域生成部
5 符号化制御情報生成部
6 映像符号化部