特開2023-85028 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本放送協会の特許一覧

特開2023-85028映像符号化装置及び映像符号化方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023085028

(43)【公開日】2023-06-20

(54)【発明の名称】映像符号化装置及び映像符号化方法

(51)【国際特許分類】

H04N 19/115 20140101AFI20230613BHJP

H04N 19/33 20140101ALI20230613BHJP

【ＦＩ】

H04N19/115

H04N19/33

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021199481

(22)【出願日】2021-12-08

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001106

【氏名又は名称】弁理士法人キュリーズ

(72)【発明者】

【氏名】新井大地

(72)【発明者】

【氏名】近藤雄一

(72)【発明者】

【氏名】井口和久

(72)【発明者】

【氏名】岩村俊輔

(72)【発明者】

【氏名】市ヶ谷敦郎

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA31

5C159MA32

5C159MA33

5C159TA60

5C159TB01

5C159TB02

5C159TB03

5C159TB04

5C159TC02

5C159TC08

5C159TC12

5C159TC18

5C159TD03

5C159TD13

5C159TD17

5C159UA02

(57)【要約】

【課題】映像品質の向上を図る映像符号化装置及び映像符号化方法を提供すること。
【解決手段】解像度が異なる複数の映像信号を符号化し、符号化された映像信号を送信する映像符号化装置１００であって、第１解像度の第１映像信号に対して、ビットレートと映像品質との関係を表す第１ＲＱカーブを推定するとともに、第２解像度の第２映像信号に対して第２ＲＱカーブを推定するＲＱカーブ推定部１３０と、第１ＲＱカーブに基づいて第１映像信号の第１ビットレートを推定するとともに、第２ＲＱカーブに基づいて第２映像信号の第２ビットレートを推定するビットレート推定部１４０と、第１映像信号に対して第１ビットレートで符号化を行うとともに、第２映像信号に対して第２ビットレートで符号化を行う符号化部１５０とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置であって、
第１解像度の第１映像信号に対して、ビットレートと映像品質との関係を表す第１ＲＱ（Rate Quality）カーブを推定するとともに、第２解像度の第２映像信号に対して第２ＲＱカーブを推定するＲＱカーブ推定部と、
前記第１ＲＱカーブに基づいて前記第１映像信号の第１ビットレートを推定するとともに、前記第２ＲＱカーブに基づいて前記第２映像信号の第２ビットレートを推定するビットレート推定部と、
前記第１映像信号に対して前記第１ビットレートで符号化を行うとともに、前記第２映像信号に対して前記第２ビットレートで符号化を行う符号化部と
を備える映像符号化装置。

【請求項2】

前記ビットレート推定部は、前記第１ビットレートと前記第２ビットレートとの和が一定であることを条件に、前記第１ビットレートと前記第２ビットレートとを推定する、
請求項１記載の映像符号化装置。

【請求項3】

更に、前記第１映像信号を第１ビデオチャンクごとに分割するとともに、前記第２映像信号を第２ビデオチャンクごとに分割する映像分割部を備え、
前記ＲＱカーブ推定部は、前記第１映像信号の前記第１ビデオチャンクごとに前記第１ＲＱカーブを推定するとともに、前記第２映像信号の前記第２ビデオチャンクごとに前記第２ＲＱカーブを推定する、
請求項１記載の映像符号化装置。

【請求項4】

前記第１ビデオチャンクの時間単位と前記第２ビデオチャンクの時間単位は一定又は可変である、請求項３記載の映像符号化装置。

【請求項5】

前記ＲＱカーブ推定部は、ＲＱカーブの教師データを保持するメモリを有し、
前記ＲＱカーブ推定部は、前記教師データと前記第１映像信号とに基づいて、前記第１ＲＱカーブを推定するとともに、前記教師データと前記第２映像信号とに基づいて、前記第２ＲＱカーブを推定する、
請求項１記載の映像符号化装置。

【請求項6】

前記ビットレート推定部は、前記第１ビットレートと前記第２ビットレートとの和が一定であることと、前記第１ビデオチャンクと前記第２ビデオチャンクの各映像品質が一定値以下とならないこととを制約条件として、前記第１映像信号の各前記第１ビデオチャンクの映像品質の平均値が最良となる前記第１ビットレートを推定するとともに、前記第２映像信号の各前記第２ビデオチャンクの映像品質の平均値が最良となる前記第２ビットレートを推定する、
請求項３記載の映像符号化装置。

【請求項7】

前記第１解像度の前記第１映像信号はエンハンスメントレイヤの映像信号であり、前記第２解像度の前記第２映像信号はベースレイヤの映像信号である、
請求項１記載の映像符号化装置。

【請求項8】

ＲＱカーブ推定部と、ビットレート推定部と、符号化部とを有し、解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置における映像符号化方法であって、
前記ＲＱカーブ推定部により、第１解像度の第１映像信号に対して、ビットレートと映像品質との関係を表す第１ＲＱカーブを推定するとともに、第２解像度の第２映像信号に対して第２ＲＱカーブを推定し、
前記ビットレート推定部により、前記第１ＲＱカーブに基づいて前記第１映像信号の第１ビットレートを推定するとともに、前記第２ＲＱカーブに基づいて前記第２映像信号の第２ビットレートを推定し、
前記符号化部により、前記第１映像信号に対して第１ビットレートで符号化を行うとともに、前記第２映像信号に対して第２ビットレートで符号化を行う、
映像符号化方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像符号化装置及び映像符号化方法に関する。

【背景技術】

【0002】

一般に、デジタル放送では、映像信号及び音声信号などに対して一定のビットレートを配分し、配分されたビットレートで映像信号及び音声信号に対して符号化が行われる場合がある。この場合、符号化された映像信号及び音声信号は、多重化されて伝送される。

【0003】

他方、映像信号の符号化方法として、空間スケーラブル符号化がある。空間スケーラブル符号化は、例えば、空間解像度の異なる複数の映像信号を符号化する符号化方法である。空間スケーラブル符号化では、各ピクチャが、元の画像より空間的に低解像度のベースレイヤと、ベースレイヤよりも空間的に高解像度（又は元の画像の空間解像度と同一の解像度）のエンハンスメントレイヤの２階層に階層化される。そして、空間スケーラブル符号化では、ベースレイヤの画像とエンハンスメントレイヤの画像の各映像信号に対して、符号化が行われる。

【0004】

映像信号の符号化方法として、例えば、以下の技術がある。すなわち、大量の映像信号から、ビットレートと歪み（又は映像品質）との関係を表すＲ－Ｄ（Rate-Distortion）カーブの教師データを事前に算出してクラスタリングする。そして、入力映像の映像信号に対してその特徴量（動きベクトル等）に基づいて、機械学習によって、入力映像に対するＲ－Ｄカーブを推定する。最後に、推定したＲ－Ｄカーブから、入力映像に対する最適なビットレートを決定し、決定したビットレートを用いて符号化（ＡＶ１）を行う。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Rate Distortion Optimization Over Large Scale Video Corpus With Machine Learning, Sam John, Akshay Gadde and Balu Adsumilli, Google, 1286-1290. 10.1109/ICIP40778.2020.9191120, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、映像品質の向上を図る映像符号化装置及び映像符号化方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

第１の態様に係る映像符号化装置は、解像度が異なる複数の映像信号を符号化し、符号化された映像信号を送信する映像符号化装置であって、第１解像度の第１映像信号に対して、ビットレートと映像品質との関係を表す第１ＲＱ（Rate Quality）カーブを推定するとともに、第２解像度の第２映像信号に対して第２ＲＱカーブを推定するＲＱカーブ推定部と、第１ＲＱカーブに基づいて第１映像信号の第１ビットレートを推定するとともに、第２ＲＱカーブに基づいて第２映像信号の第２ビットレートを推定するビットレート推定部と、第１映像信号に対して第１ビットレートで符号化を行うとともに、第２映像信号に対して第２ビットレートで符号化を行う符号化部とを備える。

【0008】

第２の態様に係る映像符号化方法は、ＲＱカーブ推定部と、ビットレート推定部と、符号化部とを有し、解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置における映像符号化方法であって、ＲＱカーブ推定部により、第１解像度の第１映像信号に対して、ビットレートと映像品質との関係を表す第１ＲＱカーブを推定するとともに、第２解像度の第２映像信号に対して第２ＲＱカーブを推定し、ビットレート推定部により、第１ＲＱカーブに基づいて第１映像信号の第１ビットレートを推定するとともに、第２ＲＱカーブに基づいて第２映像信号の第２ビットレートを推定し、符号化部により、第１映像信号に対して第１ビットレートで符号化を行うとともに、第２映像信号に対して第２ビットレートで符号化を行う。

【発明の効果】

【0009】

本発明によれば、映像品質の向上を図ることができる。

【図面の簡単な説明】

【0010】

【図1】一実施形態に係る映像符号化装置の構成例を表す図である。

【図2】一実施形態に係る入力映像の例を表す図である。

【図3】一実施形態に係るＲＱカーブの例を表す図である。

【図4】一実施形態に係る動作例を表す図である。

【発明を実施するための形態】

【0011】

図面を参照して実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。

【0012】

上述したように、デジタル放送では、映像、音声、及びデータに一定にビットレートを配分し、配分されたビットレートで映像信号の符号化が行われる場合がある。また、同一の番組の映像を複数の解像度で同時に伝送する場合（例えば、サイマル放送）、解像度ごとにビットレートを配分し、配分されたビットレートで映像信号の符号化が行われる場合がある。

【0013】

しかし、符号化において必要とされるビットレートは時々刻々と変化する。このような状況において、ある解像度の画像を一定のビットレートで符号化しても、ビットレートが十分な場合もあれば、ビットレートが足りない場合もあり得る。ビットレートが足りない場合、当該ビットレートで当該画像を符号化しても、復号化後の映像品質が一定以下に劣化する場合もある。

【0014】

そこで、一実施形態では、映像品質の向上を図ることを目的としている。具体的な実施形態について、以下に説明する。

【0015】

（映像符号化装置の構成例）
図１は、一実施形態に係る映像符号化装置１００の構成例を表す図である。映像符号化装置１００は、解像度の異なる複数の映像信号を符号化し、符号化された映像信号を送信する。

【0016】

図１に示すように映像符号化装置１００は、解像度変換部１１０、映像分割部１２０と、ＲＱ（Rate-Quality）カーブ推定部１３０、ビットレート推定部１４０、及び符号化部１５０を有する。

【0017】

解像度変換部１１０は、原画像の映像信号を入力する。原画像は、例えば、放送番組の画像である。解像度変換部１１０は、原画像の映像信号から、当該原画像よりも空間的に低解像度の低解像度画像の映像信号を生成する。

【0018】

図２は、一実施形態に係る入力画像の例を表す図である。図２に示すように、解像度変換部１１０は、解像度変換により、入力画像である原画像Ｖ１を、低解像度の画像Ｖ２に変換することができる。例えば、解像度変換部１１０は、原画像Ｖ１の画素を一定間隔で間引くことにより、低解像度の画像Ｖ２を得ることができる。原画像Ｖ１の解像度（例えば第１解像度）は、低解像度（例えば第２解像度）の画像Ｖ２よりも高解像度となり得る。以下では、原画像をエンハンスメントレイヤの画像（又はエンハンスメントレイヤ）と称する場合がある。また、以下では、低解像度の画像をベースレイヤの画像（又はベースレイヤ）と称する場合がある。

【0019】

図１に戻り、解像度変換部１１０は、低解像度の画像の映像信号を映像分割部１２０へ出力する。

【0020】

映像分割部１２０は、原画像（エンハンスメントレイヤ）の映像信号と、低解像度画像（ベースレイヤ）の映像信号とを入力する。そして、映像分割部１２０は、各映像信号を所定の時間単位で分割してビデオチャンクを生成する。図２に示す例では、映像分割部１２０は、原画像（エンハンスメントレイヤ）Ｖ１の第１映像信号と、低解像度画像（ベースレイヤ）Ｖ２の第２映像信号とを入力し、第１映像信号を第１ビデオチャンク毎に分割し、第２映像信号を第２ビデオチャンク毎に分割する。

【0021】

なお、ビデオチャンクの時間単位は、フレーム単位でもよいし、ＧＯＰ（Group Of Picture）単位でもよいし、数秒単位などの任意の時間単位でもよい。また、ビデオチャンクの時間単位は、一定でもよいし、可変でもよい。例えば、ビデオチャンクの時間単位は、映像のシーンチェンジに応じて可変としてもよい。

【0022】

図１に戻り、映像分割部１２０は、エンハンスメントレイヤのビデオチャンクとベースレイヤのビデオチャンクとをＲＱカーブ推定部１３０へ出力する。また、映像分割部１２０は、エンハンスメントレイヤの映像信号とベースレイヤの映像信号とを符号化部１５０へ出力する。

【0023】

ＲＱカーブ推定部１３０は、映像分割部１２０から出力された各ビデオチャンクに対して、ＲＱカーブを推定する。ＲＱカーブは、例えば、ビットレートと映像品質の関係を表す。図２の例では、ＲＱカーブ推定部１３０は、原画像（エンハンスメントレイヤ）Ｖ１の第１ビデオチャンクに対して、第１ＲＱカーブを推定し、低解像度画像（ベースレイヤ）Ｖ２の第２ビデオチャンクに対して、第２ＲＱカーブを推定する。

【0024】

図３は、一実施形態に係るＲＱカーブの例を表す図である。図３は、エンハンスメントレイヤにおけるあるビデオチャンクのＲＱカーブのグラフ例と、ベースレイヤにおけるあるビデオチャンクに対するＲＱカーブのグラフ例を表している。図３では、横軸がビットレートを表し、縦軸が映像品質を表している。図３の例では、映像品質は、ＰＳＮＲ（Peak Signal to Noise Ratio）で表されているが、ＶＭＡＦ（Video Multimethod Assessment Fusion）又はＳＳＩＭ（Structural Similarity）などの評価指標で表されてもよい。また、ビットレートと映像品質との関係が表されていればよく、ＲＱカーブ以外にも、例えば、上述したＲ－Ｄカーブであってもよい。

【0025】

ＲＱカーブ推定部１３０は、機械学習を用いて、ＲＱカーブを推定する。ただし、以下においては、機械学習の例として、ニューラルネットワークを用いた場合で説明する。ＲＱカーブの推定は、ニューラルネットワークによる機械学習以外の機械学習の手法が適用されてもよい。

【0026】

ＲＱカーブの推定に関し、具体的には、ＲＱカーブの教師データセットを作成する段階と、作成した教師データを用いた機械学習によるＲＱカーブの推定段階の２段階がある。以下、順番に説明する。

【0027】

（１）教師データセット作成段階
教師データ作成段階は、映像符号化装置１００に実際に映像信号が入力される前に行われる。

【0028】

最初に、任意のビデオチャンクに対して複数のビットレートで空間スケーラブル符号化が行われる。符号化自体は、例えば、映像符号化装置１００の符号化部１５０を用いてもよいし、所定の装置を用いてもよい。

【0029】

そして、空間スケーラブル符号化の結果、ビットレートごとに、映像品質を測定する。上述したように、各画像のＰＳＮＲ、ＶＭＡＦ、又はＳＳＩＭなどを測定することで、映像品質を測定してもよい。測定自体は、例えば、当該所定の装置などを用いてもよい。これにより、ビットレートと映像品質との関係を得ることができる。これを、大量のビデオチャンクに対して実行し、大量のＲＱカーブを算出する。１つ１つのＲＱカーブは、あるビデオチャンク（の全画素値）における、ビットレートと映像品質との関係を表してよい。

【0030】

例えば、あるビデオチャンクに対してｓ個のビットレートの組み合わせで空間スケーラブル符号化を行った場合、ベースレイヤのＲＱカーブとエンハンスメントレイヤのＲＱカーブは、以下のベクトルとして表すことができる。

【0031】

【数1】

数１において、ｒ_ｋ ^ｂａｓｅはベースレイヤのビットレート、ｑ_ｋ ^ｂａｓｅはベースレイヤの品質、ｒ_ｋ ^{ｅｎａｈａｎｃｅ}はエンハンスメントレイヤのビットレート、ｑ_ｋ ^{ｅｎａｈａｎｃｅ}はエンハンスメントレイヤの品質をそれぞれ表す。１つのビデオチャンクに対してｓ個のビットレートの組み合わせで空間スケーラブル符号化を行った場合、ベースレイヤのＲＱカーブとエンハンスメントレイヤのＲＱカーブは、４ｓ次元のベクトルで表わされる。

【0032】

次に、算出したＲＱカーブに対して、公知のクラスタリング手法（例えば、ｋ－ｍｅａｎｓ法など）を用いて、ＲＱカーブをクラスタリングする。そして、各クラスタにラベルを割り当て、ラベルが割り当てられたＲＱカーブの教師データセットを作成する。

【0033】

このようなクラスタリングから教師データセットの作成までは、例えば、当該所定の装置で行われる。そして、作成された教師データセットは、例えば、映像符号化装置１００のメモリに記憶される。当該メモリは、ＲＱカーブ推定部１３０の内部に設けられてもよいし、ＲＱカーブ推定部１３０の外部であって、映像符号化装置１００の内部に設けられてもよい。

【0034】

（２）機械学習によるＲＱカーブの推定
次に、ＲＱカーブの推定が行われる。具体的には、ＲＱカーブ推定部１３０は、メモリに記憶した教師データセットを用いて、教師データと第１映像信号とに基づいて、第１ＲＱカーブを推定するとともに、教師データと第２映像信号とに基づいて、第２ＲＱカーブを推定する。

【0035】

ここで、ＲＱカーブ推定部１３０は、例えば、以下のようにして、ニューラルネットワークによる機械学習を用いて、各ＲＱカーブを推定する。すなわち、ＲＱカーブ推定部１３０は、映像分割部１２０から入力したビデオチャンクの全画素値を計算する。そして、ＲＱカーブ推定部１３０は、当該全画素値を、ニューラルネットワークに対する入力とし、所定のＲＱカーブのクラスタラベルの出力を、ニューラルネットワークにより学習する。ＲＱカーブ推定部１３０は、学習の結果得られたクラスタのＲＱカーブ（教師データ）の平均値を、映像分割部１２０から入力したビデオチャンクに対応するＲＱカーブの推定結果とする。

【0036】

図３の例では、推定結果として、エンハンスメントレイヤにおけるあるビデオチャンクのＲＱカーブ（第１ＲＱカーブ）と、ベースレイヤにおけるあるビデオチャンクのＲＱカーブ（第２ＲＱカーブ）の例を表している。

【0037】

以上が、機械学習を用いたＲＱカーブの推定例である。

【0038】

図１に戻り、ＲＱカーブ推定部１３０は、エンハンスメントレイヤにおける映像信号（のビデオチャンク）に対応するＲＱカーブと、ベースレイヤにおける映像信号（のビデオチャンク）に対応するＲＱカーブとをビットレート推定部１４０へ出力する。

【0039】

ビットレート推定部１４０は、各ＲＱカーブに基づいて、各映像信号のビットレートを推定する。図３の例では、ビットレート推定部１４０は、第１ＲＱカーブに基づいて、エンハンスメントレイヤの第１映像信号に対する第１ビットレートを推定するとともに、第２ＲＱカーブに基づいて、ベースレイヤの第２映像信号に対する第２ビットレートを推定する。

【0040】

ここで、ビットレート推定部１４０は、第１ビットレートと第２ビットレートとの和が一定であることと、第１ビデオチャンクと第２ビデオチャンクの各映像品質が一定値以下とならないこととを制約条件として、第１映像信号の各第１ビデオチャンクの映像品質の平均値が最良となる第１ビットレートを推定するとともに、第２映像信号の各第２ビデオチャンクの映像品質の平均値が最良となる第２ビットレートを推定する。

【0041】

具体的には、ビットレート推定部１４０は、以下の式を解くことで、最適なＲＱ点を推定し、推定したＲＱ点におけるビットレートを推定する。

【0042】

【数2】

【数3】

ここで、ｑ^ｂａｓｅはベースレイヤの品質、ｑ^{ｅｎｈａｎｃｅ}はエンハンスメントレイヤの品質、ｒ^ｂａｓｅはベースレイヤのビットレート、ｒ^{ｅｎｈａｎｃｅ}はエンハンスメントレイヤのビットレートをそれぞれ表す。また、Ｒは送出ビットレートの和、Ｑ_ｍｉｎ ^ｂａｓｅはベースレイヤにおいて許容される映像品質の下限、Ｑ_ｍｉｎ ^{ｅｎｈａｎｃｅ}はエンハンスメントレイヤにおいて許容される映像品質の下限をそれぞれ表す。

【0043】

数３は制約条件を表す。ベースレイヤのビットレートとエンハンスメントレイヤのビットレートとの和が送出ビットレートＲと等しく、ベースレイヤの映像品質が許容される映像品質の下限以上であり、かつ、エンハンスメントレイヤの映像品質が許容される映像品質の下限以上であることが、制約条件となっている。そして、数２は、このような制約条件で、ベースレイヤとエンハンスメントレイヤの各ビデオチャンクの映像品質の平均値が最良となるＲＱ点を推定することを表している。

【0044】

図３は、ベースレイヤにおける最適なＲＱ点と、エンハンスメントレイヤにおける最適なＲＱ点の例を表している。図３の例では、ビットレート推定部１４０は、ベースレイヤのビットレートとして１５Ｍｂｐｓを推定し、エンハンスメントレイヤのビットレートとして３５Ｍｂｐｓを推定する例を表している。

【0045】

このように、ビットレート推定部１４０は、レイヤごとに、数２と数３とを用いて最適なＲＱ点を求め、求めたＲＱ点から、各レイヤのビットレートを推定する。ビットレート推定部１４０は、推定した各レイヤのビットレートを、符号化部１５０へ出力する。

【0046】

図１に戻り、符号化部１５０は、映像分割部１２０から出力された原画像（エンハンスメントレイヤ）の映像信号と低解像度画像（ベースレイヤ）の映像信号とを入力する。そして、符号化部１５０は、各映像信号に対して、ビットレート推定部１４０から出力された各レイヤのビットレートで、空間スケーラブル符号化を行う。図２の例では、符号化部１５０は、エンハンスメントレイヤの第１映像信号に対して第１ビットレート（例えば、３５Ｍｂｐｓ）で符号化を行うとともに、ベースレイヤの第２映像信号に対して第２ビットレート（例えば、１５Ｍｂｐｓ）で符号化を行う。符号化は、例えば、ＳＨＶＣ（Scalable High efficiency Video Coding）、又はＶＶＣ（Versatile Video Coding）などで用いられている公知の空間スケーラブル符号化が用いられてよい。

【0047】

なお、符号化部１５０は、各レイヤの映像信号に対して、ビットレート推定部１４０で推定されたビットレートで、符号化後の映像信号が出力されるように調整を行ってもよい。また、符号化部１５０は、映像分割部１２０、ＲＱカーブ推定部１３０、及びビットレート推定部１４０における処理に要する時間を考慮して、符号化対象の映像信号をメモリなどに一定時間バッファリングすることで、当該映像信号を遅延させるようにしてもよい。更に、符号化部１５０は、このようなバッファリングを行わないで、ビットレート推定部１４０における処理を完了次第、推定されたビットレートを符号化処理に反映するようにしてもよい。更に、符号化部１５０は、推定されたビットレートと現在のビットレートとの差が閾値より大きい場合、映像品質の急激な変化が生じないように、各レイヤのビットレートを緩やかに変化させて、推定されたビットレートに近づくように符号化を行ってもよい。

【0048】

映像符号化装置１００は、例えば、エンハンスメントレイヤにおける符号化された映像信号と、ベースレイヤにおける符号化された映像信号とを、多重化して送信する。映像符号化装置１００から送信される符号化後の映像信号の送出ビットレートは、一定のビットレートである。そのため、上述したように、ビットレート推定部１４０では、推定した各レイヤのビットレートの和が一定の送出ビットレートとなることを条件に、各レイヤのビットレートを推定するようにしている。

【0049】

（映像符号化装置の動作例）
次に、映像符号化装置１００における動作例について説明する。

【0050】

図４は、一実施形態に係る映像符号化装置１００における動作例を表す図である。

【0051】

図４に示すように、ステップＳ１０において、映像符号化装置１００は処理を開始する。

【0052】

ステップＳ１１において、解像度変換部１１０は、原画像を、原画像よりも低解像度の低解像度画像に変換する。低解像度画像がベースレイヤの画像となり、原画像がエンハンスメントレイヤの画像となる。

【0053】

ステップＳ１２において、映像分割部１２０は、エンハンスメントレイヤの映像信号とベースレイヤの映像信号とを所定の時間単位で分割することで、エンハンスメントレイヤのビデオチャンクとベースレイヤのビデオチャンクとを生成する。

【0054】

ステップＳ１３において、ＲＱカーブ推定部１３０は、エンハンスメントレイヤのビデオチャンクに対してＲＱカーブを推定し、ベースレイヤのビデオチャンクに対してＲＱカーブを推定する。上述したように、ＲＱカーブ推定部１３０は、予めセットしたＲＱカーブの教師データを用いて、ニューラルネットによる機械学習により、各レイヤのＲＱカーブを推定する。

【0055】

ステップＳ１４において、ビットレート推定部１４０は、エンハンスメントレイヤのＲＱカーブに基づいて、エンハンスメントレイヤの映像信号に対するビットレートを推定する。また、ビットレート推定部１４０は、ベースレイヤのＲＱカーブに基づいて、ベースレイヤの映像信号に対するビットレートを推定する。上述したように、ビットレート推定部１４０は、数２と数３を解くことで、最適なＲＱ点を算出し、算出したＲＱ点におけるビットレートを求めることで、各レイヤのビットレートを推定する。

【0056】

ステップＳ１５において、符号化部１５０は、エンハンスメントレイヤの映像信号に対して、ビットレート推定部１４０で推定されたエンハンスメントレイヤのビットレートで、符号化を行う。また、ステップＳ１５において、符号化部１５０は、ベースレイヤの映像信号に対して、ビットレート推定部１４０で推定されたベースレイヤのビットレートで、符号化を行う。

【0057】

そして、ステップＳ１６において、映像符号化装置１００は、一連の処理を終了する。

【0058】

以上、一実施形態に係る映像符号化装置１００について説明した。このような映像符号化装置１００において、例えば、以下のような効果がある。

【0059】

すなわち、映像符号化装置１００では、空間スケーラブル符号化前に、複数の画像の各々に特性に応じたＲＱカーブを推定するようにしている。そのため、映像符号化装置１００では、複数の画像のＲＱ点の全体最適化が可能となる。

【0060】

この際、映像符号化装置１００は、レイヤごとにビットレートを推定し、推定したビットレートを用いて、各レイヤの映像信号を符号化する。映像符号化装置１００では、各レイヤの映像の変化又は映像の符号化難易度などに応じたビットレートを推定することが可能であるため、そのような変化又は難易度に応じた符号化を行うことが可能となる。

【0061】

よって、映像符号化装置１００は、レイヤごとにその内容に関わらず一定のビットレートを配分して符号化を行う場合と比較して、復号化後の映像において、その品質の向上を図ることが可能となる。

【0062】

また、一実施形態に係る映像符号化装置１００では、ビデオチャンクを生成し、生成したビデオチャンクごとに、ビットレートを推定するようにしている。そのため、映像符号化装置１００では、例えば、映像シーンに対応したビットレートを推定することができ、映像の符号化難易度に応じたビットレートで符号化を行うことが可能となる。

【0063】

更に、一実施形態に係る映像符号化装置１００では、ＲＱカーブの教師データを用いて機械学習により、ビデオチャンクに対するＲＱカーブを推定するようにしている。そのため、ビデオチャンクに対して複数のビットレートで実際に符号化してＲＱカーブを推定する場合と比較して、映像符号化装置１００では、そのような符号化を行わないでＲＱカーブを推定しているため、処理軽減を図ることが可能となる。

【0064】

（その他の実施形態）
上述した実施形態では、符号化部１５０におけるスケーラブル符号化の例として、空間スケーラブル符号化を例にして説明した。例えば、スケーラブル符号化の例として、ＳＮＲ（Signal to Noise Ratio）スケーラブル符号化が用いられてもよい。ＳＮＲスケーラブル符号化は、原画像よりもＳＮＲが低いベースレイヤの映像信号と、ベースレイヤよりもＳＮＲが高いエンハンスメントレイヤ（又は原画像）の映像信号とに対して符号化が行われる符号化方法である。この場合、解像度変換部１１０では、原画像を、ＳＮＲが低いベースレイヤの画像に変換し、映像分割部１２０では、当該ベースレイヤの映像信号と、原画像（エンハンスメントレイヤ）の映像信号とに対して、それぞれビデオチャンクに分割する。以降は、上述した実施形態と同様の処理が行われ、符号化部１５０では、ベースレイヤの映像信号とエンハンスメントレイヤの映像信号とに対して、ＳＮＲスケーラブル符号化を行う。

【0065】

また、符号化部１５０におけるスケーラブル符号化の例として、時間スケーラブル符号化が用いられてもよい。時間スケーラブル符号化は、原画像よりもフレームレートが低フレームレートの映像信号と、低フレームレートよりもフレームレートの高い高フレームレート（又は原画像）の映像信号とに対して、符号化が行われる符号化方法である。この場合、解像度変換部１１０では、原映像のフレームを所定間隔で間引く等により、原映像を、低フレームレートの映像に変換する。映像分割部１２０では、低フレームレートの映像信号と、原映像（高フレームレート）の映像信号とに対して、それぞれビデオチャンクに分割する。ＲＱカーブ推定部１３０では、低フレームレートのＲＱカーブと、高フレームレートのＲＱカーブとを推定し、ビットレート推定部１４０では、低フレームレートにおけるビットレートと、高フレームレートにおけるビットレートとを推定する。そして、符号化部１５０では、低フレームレートの映像信号に対して、低フレームレートのビットレートで符号化を行い、高フレームレートの映像信号に対して、高フレームレートのビットレートで符号化を行う。

【0066】

符号化部１５０では、上述した符号化方式以外のスケーラブル符号化が用いられてもよい。

【0067】

上述したＲＱカーブの推定例は、ビデオチャンクの画素値をニューラルネットワークにおける入力とする例を説明した。例えば、画素値に加えて、符号化した際の動きベクトル、又はブロック分割などの情報を入力としてもよい。これにより、例えば、映像符号化装置１００では、映像の特徴量の応じたＲＱカーブを推定することが可能となる。

【0068】

上述の装置（映像符号化装置１００）が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。また、上述の装置（映像符号化装置１００）が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路（チップセット、ＳｏＣ）により構成してもよい。

【0069】

以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。

【符号の説明】

【0070】

１００：映像符号化装置１１０：解像度変換部
１２０：映像分割部１３０：ＲＱカーブ推定部
１４０：ビットレート推定部１５０：符号化部

【図1】

【図2】

【図3】

【図4】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版