(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023085028
(43)【公開日】2023-06-20
(54)【発明の名称】映像符号化装置及び映像符号化方法
(51)【国際特許分類】
H04N 19/115 20140101AFI20230613BHJP
H04N 19/33 20140101ALI20230613BHJP
【FI】
H04N19/115
H04N19/33
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021199481
(22)【出願日】2021-12-08
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001106
【氏名又は名称】弁理士法人キュリーズ
(72)【発明者】
【氏名】新井 大地
(72)【発明者】
【氏名】近藤 雄一
(72)【発明者】
【氏名】井口 和久
(72)【発明者】
【氏名】岩村 俊輔
(72)【発明者】
【氏名】市ヶ谷 敦郎
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA31
5C159MA32
5C159MA33
5C159TA60
5C159TB01
5C159TB02
5C159TB03
5C159TB04
5C159TC02
5C159TC08
5C159TC12
5C159TC18
5C159TD03
5C159TD13
5C159TD17
5C159UA02
(57)【要約】
【課題】映像品質の向上を図る映像符号化装置及び映像符号化方法を提供すること。
【解決手段】解像度が異なる複数の映像信号を符号化し、符号化された映像信号を送信する映像符号化装置100であって、第1解像度の第1映像信号に対して、ビットレートと映像品質との関係を表す第1RQカーブを推定するとともに、第2解像度の第2映像信号に対して第2RQカーブを推定するRQカーブ推定部130と、第1RQカーブに基づいて第1映像信号の第1ビットレートを推定するとともに、第2RQカーブに基づいて第2映像信号の第2ビットレートを推定するビットレート推定部140と、第1映像信号に対して第1ビットレートで符号化を行うとともに、第2映像信号に対して第2ビットレートで符号化を行う符号化部150とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置であって、
第1解像度の第1映像信号に対して、ビットレートと映像品質との関係を表す第1RQ(Rate Quality)カーブを推定するとともに、第2解像度の第2映像信号に対して第2RQカーブを推定するRQカーブ推定部と、
前記第1RQカーブに基づいて前記第1映像信号の第1ビットレートを推定するとともに、前記第2RQカーブに基づいて前記第2映像信号の第2ビットレートを推定するビットレート推定部と、
前記第1映像信号に対して前記第1ビットレートで符号化を行うとともに、前記第2映像信号に対して前記第2ビットレートで符号化を行う符号化部と
を備える映像符号化装置。
【請求項2】
前記ビットレート推定部は、前記第1ビットレートと前記第2ビットレートとの和が一定であることを条件に、前記第1ビットレートと前記第2ビットレートとを推定する、
請求項1記載の映像符号化装置。
【請求項3】
更に、前記第1映像信号を第1ビデオチャンクごとに分割するとともに、前記第2映像信号を第2ビデオチャンクごとに分割する映像分割部を備え、
前記RQカーブ推定部は、前記第1映像信号の前記第1ビデオチャンクごとに前記第1RQカーブを推定するとともに、前記第2映像信号の前記第2ビデオチャンクごとに前記第2RQカーブを推定する、
請求項1記載の映像符号化装置。
【請求項4】
前記第1ビデオチャンクの時間単位と前記第2ビデオチャンクの時間単位は一定又は可変である、請求項3記載の映像符号化装置。
【請求項5】
前記RQカーブ推定部は、RQカーブの教師データを保持するメモリを有し、
前記RQカーブ推定部は、前記教師データと前記第1映像信号とに基づいて、前記第1RQカーブを推定するとともに、前記教師データと前記第2映像信号とに基づいて、前記第2RQカーブを推定する、
請求項1記載の映像符号化装置。
【請求項6】
前記ビットレート推定部は、前記第1ビットレートと前記第2ビットレートとの和が一定であることと、前記第1ビデオチャンクと前記第2ビデオチャンクの各映像品質が一定値以下とならないこととを制約条件として、前記第1映像信号の各前記第1ビデオチャンクの映像品質の平均値が最良となる前記第1ビットレートを推定するとともに、前記第2映像信号の各前記第2ビデオチャンクの映像品質の平均値が最良となる前記第2ビットレートを推定する、
請求項3記載の映像符号化装置。
【請求項7】
前記第1解像度の前記第1映像信号はエンハンスメントレイヤの映像信号であり、前記第2解像度の前記第2映像信号はベースレイヤの映像信号である、
請求項1記載の映像符号化装置。
【請求項8】
RQカーブ推定部と、ビットレート推定部と、符号化部とを有し、解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置における映像符号化方法であって、
前記RQカーブ推定部により、第1解像度の第1映像信号に対して、ビットレートと映像品質との関係を表す第1RQカーブを推定するとともに、第2解像度の第2映像信号に対して第2RQカーブを推定し、
前記ビットレート推定部により、前記第1RQカーブに基づいて前記第1映像信号の第1ビットレートを推定するとともに、前記第2RQカーブに基づいて前記第2映像信号の第2ビットレートを推定し、
前記符号化部により、前記第1映像信号に対して第1ビットレートで符号化を行うとともに、前記第2映像信号に対して第2ビットレートで符号化を行う、
映像符号化方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像符号化装置及び映像符号化方法に関する。
【背景技術】
【0002】
一般に、デジタル放送では、映像信号及び音声信号などに対して一定のビットレートを配分し、配分されたビットレートで映像信号及び音声信号に対して符号化が行われる場合がある。この場合、符号化された映像信号及び音声信号は、多重化されて伝送される。
【0003】
他方、映像信号の符号化方法として、空間スケーラブル符号化がある。空間スケーラブル符号化は、例えば、空間解像度の異なる複数の映像信号を符号化する符号化方法である。空間スケーラブル符号化では、各ピクチャが、元の画像より空間的に低解像度のベースレイヤと、ベースレイヤよりも空間的に高解像度(又は元の画像の空間解像度と同一の解像度)のエンハンスメントレイヤの2階層に階層化される。そして、空間スケーラブル符号化では、ベースレイヤの画像とエンハンスメントレイヤの画像の各映像信号に対して、符号化が行われる。
【0004】
映像信号の符号化方法として、例えば、以下の技術がある。すなわち、大量の映像信号から、ビットレートと歪み(又は映像品質)との関係を表すR-D(Rate-Distortion)カーブの教師データを事前に算出してクラスタリングする。そして、入力映像の映像信号に対してその特徴量(動きベクトル等)に基づいて、機械学習によって、入力映像に対するR-Dカーブを推定する。最後に、推定したR-Dカーブから、入力映像に対する最適なビットレートを決定し、決定したビットレートを用いて符号化(AV1)を行う。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Rate Distortion Optimization Over Large Scale Video Corpus With Machine Learning, Sam John, Akshay Gadde and Balu Adsumilli, Google, 1286-1290. 10.1109/ICIP40778.2020.9191120, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、映像品質の向上を図る映像符号化装置及び映像符号化方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
第1の態様に係る映像符号化装置は、解像度が異なる複数の映像信号を符号化し、符号化された映像信号を送信する映像符号化装置であって、第1解像度の第1映像信号に対して、ビットレートと映像品質との関係を表す第1RQ(Rate Quality)カーブを推定するとともに、第2解像度の第2映像信号に対して第2RQカーブを推定するRQカーブ推定部と、第1RQカーブに基づいて第1映像信号の第1ビットレートを推定するとともに、第2RQカーブに基づいて第2映像信号の第2ビットレートを推定するビットレート推定部と、第1映像信号に対して第1ビットレートで符号化を行うとともに、第2映像信号に対して第2ビットレートで符号化を行う符号化部とを備える。
【0008】
第2の態様に係る映像符号化方法は、RQカーブ推定部と、ビットレート推定部と、符号化部とを有し、解像度が異なる複数の映像信号を符号化し、符号化された前記映像信号を送信する映像符号化装置における映像符号化方法であって、RQカーブ推定部により、第1解像度の第1映像信号に対して、ビットレートと映像品質との関係を表す第1RQカーブを推定するとともに、第2解像度の第2映像信号に対して第2RQカーブを推定し、ビットレート推定部により、第1RQカーブに基づいて第1映像信号の第1ビットレートを推定するとともに、第2RQカーブに基づいて第2映像信号の第2ビットレートを推定し、符号化部により、第1映像信号に対して第1ビットレートで符号化を行うとともに、第2映像信号に対して第2ビットレートで符号化を行う。
【発明の効果】
【0009】
本発明によれば、映像品質の向上を図ることができる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態に係る映像符号化装置の構成例を表す図である。
【
図2】一実施形態に係る入力映像の例を表す図である。
【
図3】一実施形態に係るRQカーブの例を表す図である。
【発明を実施するための形態】
【0011】
図面を参照して実施形態について説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。
【0012】
上述したように、デジタル放送では、映像、音声、及びデータに一定にビットレートを配分し、配分されたビットレートで映像信号の符号化が行われる場合がある。また、同一の番組の映像を複数の解像度で同時に伝送する場合(例えば、サイマル放送)、解像度ごとにビットレートを配分し、配分されたビットレートで映像信号の符号化が行われる場合がある。
【0013】
しかし、符号化において必要とされるビットレートは時々刻々と変化する。このような状況において、ある解像度の画像を一定のビットレートで符号化しても、ビットレートが十分な場合もあれば、ビットレートが足りない場合もあり得る。ビットレートが足りない場合、当該ビットレートで当該画像を符号化しても、復号化後の映像品質が一定以下に劣化する場合もある。
【0014】
そこで、一実施形態では、映像品質の向上を図ることを目的としている。具体的な実施形態について、以下に説明する。
【0015】
(映像符号化装置の構成例)
図1は、一実施形態に係る映像符号化装置100の構成例を表す図である。映像符号化装置100は、解像度の異なる複数の映像信号を符号化し、符号化された映像信号を送信する。
【0016】
図1に示すように映像符号化装置100は、解像度変換部110、映像分割部120と、RQ(Rate-Quality)カーブ推定部130、ビットレート推定部140、及び符号化部150を有する。
【0017】
解像度変換部110は、原画像の映像信号を入力する。原画像は、例えば、放送番組の画像である。解像度変換部110は、原画像の映像信号から、当該原画像よりも空間的に低解像度の低解像度画像の映像信号を生成する。
【0018】
図2は、一実施形態に係る入力画像の例を表す図である。
図2に示すように、解像度変換部110は、解像度変換により、入力画像である原画像V1を、低解像度の画像V2に変換することができる。例えば、解像度変換部110は、原画像V1の画素を一定間隔で間引くことにより、低解像度の画像V2を得ることができる。原画像V1の解像度(例えば第1解像度)は、低解像度(例えば第2解像度)の画像V2よりも高解像度となり得る。以下では、原画像をエンハンスメントレイヤの画像(又はエンハンスメントレイヤ)と称する場合がある。また、以下では、低解像度の画像をベースレイヤの画像(又はベースレイヤ)と称する場合がある。
【0019】
図1に戻り、解像度変換部110は、低解像度の画像の映像信号を映像分割部120へ出力する。
【0020】
映像分割部120は、原画像(エンハンスメントレイヤ)の映像信号と、低解像度画像(ベースレイヤ)の映像信号とを入力する。そして、映像分割部120は、各映像信号を所定の時間単位で分割してビデオチャンクを生成する。
図2に示す例では、映像分割部120は、原画像(エンハンスメントレイヤ)V1の第1映像信号と、低解像度画像(ベースレイヤ)V2の第2映像信号とを入力し、第1映像信号を第1ビデオチャンク毎に分割し、第2映像信号を第2ビデオチャンク毎に分割する。
【0021】
なお、ビデオチャンクの時間単位は、フレーム単位でもよいし、GOP(Group Of Picture)単位でもよいし、数秒単位などの任意の時間単位でもよい。また、ビデオチャンクの時間単位は、一定でもよいし、可変でもよい。例えば、ビデオチャンクの時間単位は、映像のシーンチェンジに応じて可変としてもよい。
【0022】
図1に戻り、映像分割部120は、エンハンスメントレイヤのビデオチャンクとベースレイヤのビデオチャンクとをRQカーブ推定部130へ出力する。また、映像分割部120は、エンハンスメントレイヤの映像信号とベースレイヤの映像信号とを符号化部150へ出力する。
【0023】
RQカーブ推定部130は、映像分割部120から出力された各ビデオチャンクに対して、RQカーブを推定する。RQカーブは、例えば、ビットレートと映像品質の関係を表す。
図2の例では、RQカーブ推定部130は、原画像(エンハンスメントレイヤ)V1の第1ビデオチャンクに対して、第1RQカーブを推定し、低解像度画像(ベースレイヤ)V2の第2ビデオチャンクに対して、第2RQカーブを推定する。
【0024】
図3は、一実施形態に係るRQカーブの例を表す図である。
図3は、エンハンスメントレイヤにおけるあるビデオチャンクのRQカーブのグラフ例と、ベースレイヤにおけるあるビデオチャンクに対するRQカーブのグラフ例を表している。
図3では、横軸がビットレートを表し、縦軸が映像品質を表している。
図3の例では、映像品質は、PSNR(Peak Signal to Noise Ratio)で表されているが、VMAF(Video Multimethod Assessment Fusion)又はSSIM(Structural Similarity)などの評価指標で表されてもよい。また、ビットレートと映像品質との関係が表されていればよく、RQカーブ以外にも、例えば、上述したR-Dカーブであってもよい。
【0025】
RQカーブ推定部130は、機械学習を用いて、RQカーブを推定する。ただし、以下においては、機械学習の例として、ニューラルネットワークを用いた場合で説明する。RQカーブの推定は、ニューラルネットワークによる機械学習以外の機械学習の手法が適用されてもよい。
【0026】
RQカーブの推定に関し、具体的には、RQカーブの教師データセットを作成する段階と、作成した教師データを用いた機械学習によるRQカーブの推定段階の2段階がある。以下、順番に説明する。
【0027】
(1)教師データセット作成段階
教師データ作成段階は、映像符号化装置100に実際に映像信号が入力される前に行われる。
【0028】
最初に、任意のビデオチャンクに対して複数のビットレートで空間スケーラブル符号化が行われる。符号化自体は、例えば、映像符号化装置100の符号化部150を用いてもよいし、所定の装置を用いてもよい。
【0029】
そして、空間スケーラブル符号化の結果、ビットレートごとに、映像品質を測定する。上述したように、各画像のPSNR、VMAF、又はSSIMなどを測定することで、映像品質を測定してもよい。測定自体は、例えば、当該所定の装置などを用いてもよい。これにより、ビットレートと映像品質との関係を得ることができる。これを、大量のビデオチャンクに対して実行し、大量のRQカーブを算出する。1つ1つのRQカーブは、あるビデオチャンク(の全画素値)における、ビットレートと映像品質との関係を表してよい。
【0030】
例えば、あるビデオチャンクに対してs個のビットレートの組み合わせで空間スケーラブル符号化を行った場合、ベースレイヤのRQカーブとエンハンスメントレイヤのRQカーブは、以下のベクトルとして表すことができる。
【0031】
【数1】
数1において、r
k
baseはベースレイヤのビットレート、q
k
baseはベースレイヤの品質、r
k
enahanceはエンハンスメントレイヤのビットレート、q
k
enahanceはエンハンスメントレイヤの品質をそれぞれ表す。1つのビデオチャンクに対してs個のビットレートの組み合わせで空間スケーラブル符号化を行った場合、ベースレイヤのRQカーブとエンハンスメントレイヤのRQカーブは、4s次元のベクトルで表わされる。
【0032】
次に、算出したRQカーブに対して、公知のクラスタリング手法(例えば、k-means法など)を用いて、RQカーブをクラスタリングする。そして、各クラスタにラベルを割り当て、ラベルが割り当てられたRQカーブの教師データセットを作成する。
【0033】
このようなクラスタリングから教師データセットの作成までは、例えば、当該所定の装置で行われる。そして、作成された教師データセットは、例えば、映像符号化装置100のメモリに記憶される。当該メモリは、RQカーブ推定部130の内部に設けられてもよいし、RQカーブ推定部130の外部であって、映像符号化装置100の内部に設けられてもよい。
【0034】
(2)機械学習によるRQカーブの推定
次に、RQカーブの推定が行われる。具体的には、RQカーブ推定部130は、メモリに記憶した教師データセットを用いて、教師データと第1映像信号とに基づいて、第1RQカーブを推定するとともに、教師データと第2映像信号とに基づいて、第2RQカーブを推定する。
【0035】
ここで、RQカーブ推定部130は、例えば、以下のようにして、ニューラルネットワークによる機械学習を用いて、各RQカーブを推定する。すなわち、RQカーブ推定部130は、映像分割部120から入力したビデオチャンクの全画素値を計算する。そして、RQカーブ推定部130は、当該全画素値を、ニューラルネットワークに対する入力とし、所定のRQカーブのクラスタラベルの出力を、ニューラルネットワークにより学習する。RQカーブ推定部130は、学習の結果得られたクラスタのRQカーブ(教師データ)の平均値を、映像分割部120から入力したビデオチャンクに対応するRQカーブの推定結果とする。
【0036】
図3の例では、推定結果として、エンハンスメントレイヤにおけるあるビデオチャンクのRQカーブ(第1RQカーブ)と、ベースレイヤにおけるあるビデオチャンクのRQカーブ(第2RQカーブ)の例を表している。
【0037】
以上が、機械学習を用いたRQカーブの推定例である。
【0038】
図1に戻り、RQカーブ推定部130は、エンハンスメントレイヤにおける映像信号(のビデオチャンク)に対応するRQカーブと、ベースレイヤにおける映像信号(のビデオチャンク)に対応するRQカーブとをビットレート推定部140へ出力する。
【0039】
ビットレート推定部140は、各RQカーブに基づいて、各映像信号のビットレートを推定する。
図3の例では、ビットレート推定部140は、第1RQカーブに基づいて、エンハンスメントレイヤの第1映像信号に対する第1ビットレートを推定するとともに、第2RQカーブに基づいて、ベースレイヤの第2映像信号に対する第2ビットレートを推定する。
【0040】
ここで、ビットレート推定部140は、第1ビットレートと第2ビットレートとの和が一定であることと、第1ビデオチャンクと第2ビデオチャンクの各映像品質が一定値以下とならないこととを制約条件として、第1映像信号の各第1ビデオチャンクの映像品質の平均値が最良となる第1ビットレートを推定するとともに、第2映像信号の各第2ビデオチャンクの映像品質の平均値が最良となる第2ビットレートを推定する。
【0041】
具体的には、ビットレート推定部140は、以下の式を解くことで、最適なRQ点を推定し、推定したRQ点におけるビットレートを推定する。
【0042】
【数2】
【数3】
ここで、q
baseはベースレイヤの品質、q
enhanceはエンハンスメントレイヤの品質、r
baseはベースレイヤのビットレート、r
enhanceはエンハンスメントレイヤのビットレートをそれぞれ表す。また、Rは送出ビットレートの和、Q
min
baseはベースレイヤにおいて許容される映像品質の下限、Q
min
enhanceはエンハンスメントレイヤにおいて許容される映像品質の下限をそれぞれ表す。
【0043】
数3は制約条件を表す。ベースレイヤのビットレートとエンハンスメントレイヤのビットレートとの和が送出ビットレートRと等しく、ベースレイヤの映像品質が許容される映像品質の下限以上であり、かつ、エンハンスメントレイヤの映像品質が許容される映像品質の下限以上であることが、制約条件となっている。そして、数2は、このような制約条件で、ベースレイヤとエンハンスメントレイヤの各ビデオチャンクの映像品質の平均値が最良となるRQ点を推定することを表している。
【0044】
図3は、ベースレイヤにおける最適なRQ点と、エンハンスメントレイヤにおける最適なRQ点の例を表している。
図3の例では、ビットレート推定部140は、ベースレイヤのビットレートとして15Mbpsを推定し、エンハンスメントレイヤのビットレートとして35Mbpsを推定する例を表している。
【0045】
このように、ビットレート推定部140は、レイヤごとに、数2と数3とを用いて最適なRQ点を求め、求めたRQ点から、各レイヤのビットレートを推定する。ビットレート推定部140は、推定した各レイヤのビットレートを、符号化部150へ出力する。
【0046】
図1に戻り、符号化部150は、映像分割部120から出力された原画像(エンハンスメントレイヤ)の映像信号と低解像度画像(ベースレイヤ)の映像信号とを入力する。そして、符号化部150は、各映像信号に対して、ビットレート推定部140から出力された各レイヤのビットレートで、空間スケーラブル符号化を行う。
図2の例では、符号化部150は、エンハンスメントレイヤの第1映像信号に対して第1ビットレート(例えば、35Mbps)で符号化を行うとともに、ベースレイヤの第2映像信号に対して第2ビットレート(例えば、15Mbps)で符号化を行う。符号化は、例えば、SHVC(Scalable High efficiency Video Coding)、又はVVC(Versatile Video Coding)などで用いられている公知の空間スケーラブル符号化が用いられてよい。
【0047】
なお、符号化部150は、各レイヤの映像信号に対して、ビットレート推定部140で推定されたビットレートで、符号化後の映像信号が出力されるように調整を行ってもよい。また、符号化部150は、映像分割部120、RQカーブ推定部130、及びビットレート推定部140における処理に要する時間を考慮して、符号化対象の映像信号をメモリなどに一定時間バッファリングすることで、当該映像信号を遅延させるようにしてもよい。更に、符号化部150は、このようなバッファリングを行わないで、ビットレート推定部140における処理を完了次第、推定されたビットレートを符号化処理に反映するようにしてもよい。更に、符号化部150は、推定されたビットレートと現在のビットレートとの差が閾値より大きい場合、映像品質の急激な変化が生じないように、各レイヤのビットレートを緩やかに変化させて、推定されたビットレートに近づくように符号化を行ってもよい。
【0048】
映像符号化装置100は、例えば、エンハンスメントレイヤにおける符号化された映像信号と、ベースレイヤにおける符号化された映像信号とを、多重化して送信する。映像符号化装置100から送信される符号化後の映像信号の送出ビットレートは、一定のビットレートである。そのため、上述したように、ビットレート推定部140では、推定した各レイヤのビットレートの和が一定の送出ビットレートとなることを条件に、各レイヤのビットレートを推定するようにしている。
【0049】
(映像符号化装置の動作例)
次に、映像符号化装置100における動作例について説明する。
【0050】
図4は、一実施形態に係る映像符号化装置100における動作例を表す図である。
【0051】
図4に示すように、ステップS10において、映像符号化装置100は処理を開始する。
【0052】
ステップS11において、解像度変換部110は、原画像を、原画像よりも低解像度の低解像度画像に変換する。低解像度画像がベースレイヤの画像となり、原画像がエンハンスメントレイヤの画像となる。
【0053】
ステップS12において、映像分割部120は、エンハンスメントレイヤの映像信号とベースレイヤの映像信号とを所定の時間単位で分割することで、エンハンスメントレイヤのビデオチャンクとベースレイヤのビデオチャンクとを生成する。
【0054】
ステップS13において、RQカーブ推定部130は、エンハンスメントレイヤのビデオチャンクに対してRQカーブを推定し、ベースレイヤのビデオチャンクに対してRQカーブを推定する。上述したように、RQカーブ推定部130は、予めセットしたRQカーブの教師データを用いて、ニューラルネットによる機械学習により、各レイヤのRQカーブを推定する。
【0055】
ステップS14において、ビットレート推定部140は、エンハンスメントレイヤのRQカーブに基づいて、エンハンスメントレイヤの映像信号に対するビットレートを推定する。また、ビットレート推定部140は、ベースレイヤのRQカーブに基づいて、ベースレイヤの映像信号に対するビットレートを推定する。上述したように、ビットレート推定部140は、数2と数3を解くことで、最適なRQ点を算出し、算出したRQ点におけるビットレートを求めることで、各レイヤのビットレートを推定する。
【0056】
ステップS15において、符号化部150は、エンハンスメントレイヤの映像信号に対して、ビットレート推定部140で推定されたエンハンスメントレイヤのビットレートで、符号化を行う。また、ステップS15において、符号化部150は、ベースレイヤの映像信号に対して、ビットレート推定部140で推定されたベースレイヤのビットレートで、符号化を行う。
【0057】
そして、ステップS16において、映像符号化装置100は、一連の処理を終了する。
【0058】
以上、一実施形態に係る映像符号化装置100について説明した。このような映像符号化装置100において、例えば、以下のような効果がある。
【0059】
すなわち、映像符号化装置100では、空間スケーラブル符号化前に、複数の画像の各々に特性に応じたRQカーブを推定するようにしている。そのため、映像符号化装置100では、複数の画像のRQ点の全体最適化が可能となる。
【0060】
この際、映像符号化装置100は、レイヤごとにビットレートを推定し、推定したビットレートを用いて、各レイヤの映像信号を符号化する。映像符号化装置100では、各レイヤの映像の変化又は映像の符号化難易度などに応じたビットレートを推定することが可能であるため、そのような変化又は難易度に応じた符号化を行うことが可能となる。
【0061】
よって、映像符号化装置100は、レイヤごとにその内容に関わらず一定のビットレートを配分して符号化を行う場合と比較して、復号化後の映像において、その品質の向上を図ることが可能となる。
【0062】
また、一実施形態に係る映像符号化装置100では、ビデオチャンクを生成し、生成したビデオチャンクごとに、ビットレートを推定するようにしている。そのため、映像符号化装置100では、例えば、映像シーンに対応したビットレートを推定することができ、映像の符号化難易度に応じたビットレートで符号化を行うことが可能となる。
【0063】
更に、一実施形態に係る映像符号化装置100では、RQカーブの教師データを用いて機械学習により、ビデオチャンクに対するRQカーブを推定するようにしている。そのため、ビデオチャンクに対して複数のビットレートで実際に符号化してRQカーブを推定する場合と比較して、映像符号化装置100では、そのような符号化を行わないでRQカーブを推定しているため、処理軽減を図ることが可能となる。
【0064】
(その他の実施形態)
上述した実施形態では、符号化部150におけるスケーラブル符号化の例として、空間スケーラブル符号化を例にして説明した。例えば、スケーラブル符号化の例として、SNR(Signal to Noise Ratio)スケーラブル符号化が用いられてもよい。SNRスケーラブル符号化は、原画像よりもSNRが低いベースレイヤの映像信号と、ベースレイヤよりもSNRが高いエンハンスメントレイヤ(又は原画像)の映像信号とに対して符号化が行われる符号化方法である。この場合、解像度変換部110では、原画像を、SNRが低いベースレイヤの画像に変換し、映像分割部120では、当該ベースレイヤの映像信号と、原画像(エンハンスメントレイヤ)の映像信号とに対して、それぞれビデオチャンクに分割する。以降は、上述した実施形態と同様の処理が行われ、符号化部150では、ベースレイヤの映像信号とエンハンスメントレイヤの映像信号とに対して、SNRスケーラブル符号化を行う。
【0065】
また、符号化部150におけるスケーラブル符号化の例として、時間スケーラブル符号化が用いられてもよい。時間スケーラブル符号化は、原画像よりもフレームレートが低フレームレートの映像信号と、低フレームレートよりもフレームレートの高い高フレームレート(又は原画像)の映像信号とに対して、符号化が行われる符号化方法である。この場合、解像度変換部110では、原映像のフレームを所定間隔で間引く等により、原映像を、低フレームレートの映像に変換する。映像分割部120では、低フレームレートの映像信号と、原映像(高フレームレート)の映像信号とに対して、それぞれビデオチャンクに分割する。RQカーブ推定部130では、低フレームレートのRQカーブと、高フレームレートのRQカーブとを推定し、ビットレート推定部140では、低フレームレートにおけるビットレートと、高フレームレートにおけるビットレートとを推定する。そして、符号化部150では、低フレームレートの映像信号に対して、低フレームレートのビットレートで符号化を行い、高フレームレートの映像信号に対して、高フレームレートのビットレートで符号化を行う。
【0066】
符号化部150では、上述した符号化方式以外のスケーラブル符号化が用いられてもよい。
【0067】
上述したRQカーブの推定例は、ビデオチャンクの画素値をニューラルネットワークにおける入力とする例を説明した。例えば、画素値に加えて、符号化した際の動きベクトル、又はブロック分割などの情報を入力としてもよい。これにより、例えば、映像符号化装置100では、映像の特徴量の応じたRQカーブを推定することが可能となる。
【0068】
上述の装置(映像符号化装置100)が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。また、上述の装置(映像符号化装置100)が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路(チップセット、SoC)により構成してもよい。
【0069】
以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例など組み合わせることも可能である。
【符号の説明】
【0070】
100 :映像符号化装置 110 :解像度変換部
120 :映像分割部 130 :RQカーブ推定部
140 :ビットレート推定部 150 :符号化部