(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024060485
(43)【公開日】2024-05-02
(54)【発明の名称】推定装置、及び推定方法
(51)【国際特許分類】
G06V 10/82 20220101AFI20240424BHJP
G06V 10/25 20220101ALI20240424BHJP
【FI】
G06V10/82
G06V10/25
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022167886
(22)【出願日】2022-10-19
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001106
【氏名又は名称】弁理士法人キュリーズ
(72)【発明者】
【氏名】新井 大地
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096FA02
5L096HA11
5L096JA11
5L096JA16
5L096KA04
5L096KA15
5L096MA01
(57)【要約】
【課題】顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供する。
【解決手段】一態様に係る推定装置は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部を有する。また、前記推定装置は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う誤差判定部を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
符号化映像の映像信号を入力し、前記符号化映像に対して人間が注目する注目領域を表す顕著性マップと、前記符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部と、
前記顕著性マップと前記顕著性マップの教師データとの誤差判定を行うとともに、前記主観画質と前記主観画質の教師データとの誤差判定を行い、前記ニューラルネットワークのパラメータの最適化を行う誤差判定部と、を有する
推定装置。
【請求項2】
前記推定部は、前記顕著性マップを用いて前記主観画質を推定する
請求項1記載の推定装置。
【請求項3】
前記ニューラルネットワークは、前記符号化映像の映像信号から前記顕著性マップを推定する第1ニューラルネットワークと、前記符号化映像の映像信号及び前記顕著性マップから前記主観画質を推定する第2ニューラルネットワークとを含む
請求項2記載の推定装置。
【請求項4】
前記誤差判定部は、前記第1ニューラルネットワークの第1パラメータと前記第2ニューラルネットワークの第2パラメータとを最適化する
請求項3記載の推定装置。
【請求項5】
前記第1ニューラルネットワークと前記第2ニューラルネットワークとは、前記第1パラメータと前記第2パラメータとを夫々用いて同時に学習する
請求項4記載の推定装置。
【請求項6】
符号化映像の映像信号を入力し、前記符号化映像に対して人間が注目する注目領域を表す顕著性マップと、前記符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定し、
前記顕著性マップと前記顕著性マップの教師データとの誤差判定を行うとともに、前記主観画質と前記主観画質の教師データとの誤差判定を行い、前記ニューラルネットワークのパラメータの最適化を行う、
推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、推定装置、及び推定方法に関する。
【背景技術】
【0002】
昨今の機械学習技術の発展により、人間が画像の中でどこを見ているのかを、ニューラルネットワークを用いて予測する研究が行われている。例えば、畳み込みニューラルネットワークを用いて、顕著性マップ(saliency map)を推定する技術がある(例えば、非特許文献1)。顕著性マップとは、例えば、人間が画像を認識する際に注目しやすい部分を画像で表現したものである。顕著性マップにより、人間がどの領域に注目したのかを容易に把握することができる。
【0003】
また、近年では、ニューラルネットワークを用いて、映像の主観的な画質を表す主観画質を推定する研究も行われている。主観画質とは、例えば、人間が画像を見たときの品質を表す。例えば、顕著性マップを推定し、推定した顕著性マップを利用して主観画質を推定する技術もある(例えば、非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】W. Wang, J. Shen, J. Xie, M.-M. Cheng, H. Ling and A. Borji, "Revisiting Video Saliency Prediction in the Deep Learning Era," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 1, pp. 220-237, 1 Jan. 2021, doi: 10.1109/TPAMI.2019.2924417.
【非特許文献2】Lin, L.; Yang, J.; Wang, Z.; Zhou, L.; Chen, W.; Xu, Y. Compressed Video Quality Index Based on Saliency-Aware Artifact Detection. Sensors 2021, 21, 6429.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
第1の態様に係る推定装置は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部を有する。また、前記推定装置は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う誤差判定部と、を有する。
【0007】
第2の態様に係る推定方法は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する。また、前記推定方法は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う。
【発明の効果】
【0008】
本開示によれば、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、第1実施形態に係る推定装置の構成例を表す図である。
【
図2】
図2は、第1実施形態に係る推定部の構成例を表す図である。
【
図3】
図3は、第1実施形態に係る動作例を表す図である。
【発明を実施するための形態】
【0010】
[第1実施形態]
上述した非特許文献2では、符号化映像に対して、ACLNetと呼ばれるニューラルネットワークによるモデルを用いて顕著性マップを推定し、推定した顕著性マップを利用して主観画質を推定している。
【0011】
しかし、非特許文献2では、ACLNetについて事前に学習済みのニューラルネットワークモデルを用いている。すなわち、非特許文献1では、ACLNetに対して新たな符号化映像が入力しても学習することはなく、学習済みのニューラルネットワークモデルを用いて、新たな入力に対する顕著性マップを推定している。
【0012】
そのため、非特許文献2では、新たに入力された符号化映像に対しても学習するニューラルネットワークモデルを用いて顕著性マップを推定する場合と比較して、顕著性マップの推定精度の向上を図ることができない場合がある。また、非特許文献2では、顕著性マップを利用して主観画質を推定しており、新たに入力された符号化映像に対しても学習するニューラルネットワークモデルを用いて顕著性マップを推定し、当該顕著性マップを利用して主観画質を推定する場合と比較して、主観画質についても推定精度の向上を図ることができない場合がある。
【0013】
そこで、第1実施形態では、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置及び推定方法を提供することを目的としている。
【0014】
(第1実施形態に係る推定装置)
次に、第1実施形態に係る推定装置の構成例について説明する。
【0015】
図1は、第1実施形態に係る推定装置100の構成例を表す図である。
【0016】
推定装置100は、符号化映像を入力する。そして、推定装置100は、符号化映像に対して顕著性マップ(Saliency Map)と主観画質とを同時に推定する。なお、以下では、「符号化映像」と「符号化映像の映像信号」とを区別しないで用いる場合がある。
【0017】
第1実施形態において、顕著性マップとは、例えば、符号化映像に対して人間が注目する領域を表すものである。顕著性マップは、当該注目領域を表していればよく、例えば、各画素が二値により表された二値化画像(又はモノクロ画像)により表されてもよいし、各画素が3値以上の多値画像(又はカラー画像)により表されてもよい。多値画像の場合、注目領域を表す領域は、他の領域と比較して容易に把握できるように、例えば、特定の形(丸や星など)により表現されてもよいし、特定の色により表現されてもよい。顕著性マップは、画像だけではなく、数値又はグラフなどにより表現されてもよい。
【0018】
また、第1実施形態において、主観画質とは、例えば、入力である符号化映像を人間が見たときの品質を表す。第1実施形態では、主観画質の例として、MOS(Mean Opinion Score)を例にして説明する。MOSとは、例えば、コーデックを用いて音声又は映像などを圧縮した際に、圧縮及び転送後に受信側で知覚される品質の評価を数値で表したものである。MOSでは、「1」から「5」により品質が評価され、「1」が最も悪い品質となり、「5」が最もよい品質となる。第1実施形態では、MOS以外の主観画質が用いられてもよく、例えば、MS-SSIM(Multi-Scale Structural Similarity)又はVMAF(Video Multimethod Assessment Fusion)などが用いられてもよい。MS-SSIMは、例えば、比較対象画像に対してスケールの異なる複数枚の画像を作成し、各々の画像と比較対象画像と比較して品質を表したものである。また、VMAFは、機械学習ベースの品質評価指標であって、特定の評価値を特徴量として学習させ、学習結果により総合的な評価値を算出する手法である。
【0019】
なお、推定装置100に入力される符号化映像は、任意の符号化方式により符号化されてもよい。また、推定装置100に入力される符号化映像は、任意の符号化装置を用いて符号化映像が生成され、推定装置100に入力されてもよい。第1実施形態では、VVC(Versatile Video Coding)の符号化ソフトウェアであるVVenCがインストールされた符号化装置を用いるものとして説明する。
【0020】
図1に示すように、推定装置100は、推定部110と誤差判定部120とを有する。
【0021】
推定部110は、符号化映像の映像信号を入力し、符号化映像に対する顕著性マップと主観画質とを、ニューラルネットワークを用いて同時に推定する。ニューラルネットワークは、任意のモデルが用いられてもよく、例えば、非特許文献2に記載されたニューラルネットワークが用いられてもよい。
【0022】
図2は、第1実施形態に係る推定部110の構成例を表す図である。
図2に示すように、推定部110で用いられるニューラルネットワークは、符号化映像から顕著性マップを推定する第1ニューラルネットワーク111と、符号化映像および顕著性マップからMOSを推定する第2ニューラルネットワーク112とが含まれてもよい。第1ニューラルネットワーク111は非特許文献1又は非特許文献2に示すACLNetでもよい。ACLNetは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を利用したネットワークモデルであり、符号化映像から顕著性マップを得ることができる。また、第2ニューラルネットワーク112は非特許文献2に示すDenseNetなどでもよい。DenseNetは、サブブロック間をスキップしたDenseブロックを主要部品に含むネットワークモデルである。
【0023】
図1に戻り、誤差判定部120は、推定部110から出力された顕著性マップとMOSの各々の教師データとの誤差判定を行い、推定部110で用いられるニューラルネットワークのパラメータの最適化を行う。具体的には、誤差判定部120は、推定された顕著性マップと、顕著性マップの教師データとの誤差判定を行うとともに、推定されたMOSと、MOSの教師データとの誤差判定を行う。そして、誤差判定部120は、第1ニューラルネットワーク111で用いられる第1パラメータと、第2ニューラルネットワーク112で用いられる第2パラメータとを最適化する。誤差判定部120は、例えば、以下の損失関数Lを用いて最適化を行う。
【0024】
【0025】
数1において、Lsaliencyは、推定された顕著性マップSpredictionと顕著性マップの教師データSGrand-truthとの差分を表す。また、LMOSは、推定されたMOSであるMpredictionと、MOSの教師データMGrand-truthの差分を表す。λは正の定数である。Lsaliencyの算出には、任意の手法が用いられてもよいが、第1実施形態では非特許文献1と同様に、Kullback-Leibler(KL) divergence、Linear Correlation Coefficient (CC)、及びNormalized Scanpath Saliencyの線形和を用いる。LMOSの算出も、任意の手法を用いてもよいが、第1実施形態ではL1ノルムを用いる。
【0026】
誤差判定部120では、損失関数Lの損失(又は誤差)を最小になるように、誤差伝搬法等を用いて、推定部110におけるニューラルネットワーク(第1ニューラルネットワーク111と第2ニューラルネットワーク112)の学習(すなわち、パラメータの修正)を行う。
【0027】
なお、顕著性マップの教師データは、人間の視線を測定するアイトラッカーを用いて作成されてもよい。顕著性マップの教師データは、推定装置100のメモリに記憶され、誤差判定部120により適宜読み出されてもよい。また、MOSの教師データは、ITU-T勧告P.910(8)で規定されるACR-HR(Absolute Category Rating with Hidden Reference)法を用いて作成されてもよい。MOSの教師データも、推定装置100のメモリに記憶され、誤差判定部120により適宜読み出されてもよい。
【0028】
ここで、顕著性マップとMOSとの関係について説明する。顕著性マップとMOSとの間は相関関係がある。例えば、符号化映像のうち、人間が注目する領域の主観画質が一定以下の場合、符号化映像全体のMOSも一定以下と評価される場合がある。また、符号化映像のうち、人間が注目する領域のMOSが一定以上の場合、符号化映像全体のMOSも一定以上と評価される場合がある。すなわち、符号化映像に対して人間が注目する領域(すなわち顕著性マップで表された注目領域)のMOSが、符号化映像全体に対するMOSに影響を与える場合がある。
【0029】
数1に示すように、誤差判定部120では、推定部110で推定された顕著性マップと顕著性マップの教師データとの差分と、推定部110で推定されたMOSとMOSの教師データとの差分とが最小となるようにパラメータを最適化する。すなわち、誤差判定部120では、顕著性マップを推定するのに用いられる第1ニューラルネットワーク111に対する第1パラメータを最適化するとともに、MOSを推定するのに用いられる第2ニューラルネットワーク112に対する第2パラメータを最適化する。つまり、誤差判定部120では、推定部110における2つのニューラルネットワーク111及び112に対してパラメータを調整することで、2つのニューラルネットワーク111及び112に対して同時に学習させるようにしている。
【0030】
上述したように、顕著性マップとMOSとの間には相関関係があり、推定装置100では、2つのニューラルネットワークを同時に学習させることで、相関関係を考慮した2つのニューラルネットワークのモデルを生成することができる。そして、推定装置100では、2つのニューラルネットワークのモデルを用いて、推論結果を同時に得るようにしているため、非特許文献2のように顕著性マップについて学習済みのモデルを用いる場合と比較して、上述した相関関係を考慮した推論結果を得ることが可能となる。よって、第1実施形態に係る推定装置100は、非特許文献2による場合と比較して、推定精度の向上を図ることができる。
【0031】
また、顕著性マップを推論してMOSを推論しなかったり、MOSを推論して顕著性マップを推論しなかったりするニューラルネットワークのモデルも考えられる。しかし、これらのモデルでは、顕著性マップとMOSとの相関関係を考慮することなく、一方のみを推論するようにしている。これに対して、第1実施形態に係る推定装置100は、顕著性マップとMOSとを同時に推論している。そのため、一方のみを推論するケースと比較して、2つの相関関係を考慮しているため、推定精度の向上を図ることが可能となる。
【0032】
(第1実施形態に係る動作例)
次に、第1実施形態に係る動作例について説明する。
【0033】
【0034】
図3に示すように、ステップS10において、推定装置100は処理を開始する。
【0035】
ステップS11において、推定部110は、ニューラルネットワークを用いて、符号化映像から顕著性マップ及びMOSを同時に推定する。具体的には、推定部110は、第1ニューラルネットワーク111を用いて符号化映像の映像信号から顕著性マップを推定し、第2ニューラルネットワーク112を用いて符号化映像の映像信号及び推定した顕著性マップからMOSを推定する。
【0036】
ステップS12において、誤差判定部120は、顕著性マップ及びMOSの誤差判定を行い、ニューラルネットワークのパラメータを最適化する。具体的には、誤差判定部120は、推定された顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、推定されたMOSとMOSの教師データとの誤差判定を行う。そして、誤差判定部120は、第1ニューラルネットワーク111の第1パラメータを最適化するとともに、第2ニューラルネットワーク112の第2パラメータを最適化する。
【0037】
ステップS13において、推定装置100は一連の処理を終了する。
【0038】
(第1実施形態の他の例)
第1実施形態では、推定部110において用いられるニューラルネットワークは、主に、CNNを用いたニューラルネットワークの例で説明したがこれに限定されない。例えば、各ニューラルネットワークは、RNN(Recurrent Neural Network)又はDNN(Deep Neural Network)など、他の深層学習によるニューラルネットワークが用いられてもよい。
【0039】
また、第1実施形態では、MOSの教師データの作成について、ITU-T勧告P.910で規定されるACR-HR(Absolute Category Rating with Hidden Reference)法を用いる例について説明したがこれに限定されない。MOSの教師データの作成について、例えば、ITU-T勧告P.910で規定されるACR法が用いられてもよいし、ITU-T勧告P.910で規定されたDCR(Degradation Category Rating)法が用いられてもよいし、その他の公知の方法が用いられてもよい。
【0040】
[その他の実施形態]
上述の装置(推定装置100)が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。また、上述の装置(推定装置100)が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路(チップセット、SoC)により構成してもよい。
【0041】
以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例、各処理、又は各ステップなど組み合わせることも可能である。
【符号の説明】
【0042】
100 :推定装置 110 :推定部
111 :第1ニューラルネットワーク 112 :第2ニューラルネットワーク
120 :誤差判定部