特開2024-60485 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-60485推定装置、及び推定方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024060485

(43)【公開日】2024-05-02

(54)【発明の名称】推定装置、及び推定方法

(51)【国際特許分類】

G06V 10/82 20220101AFI20240424BHJP

G06V 10/25 20220101ALI20240424BHJP

【ＦＩ】

G06V10/82

G06V10/25

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022167886

(22)【出願日】2022-10-19

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001106

【氏名又は名称】弁理士法人キュリーズ

(72)【発明者】

【氏名】新井大地

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA02

5L096FA02

5L096HA11

5L096JA11

5L096JA16

5L096KA04

5L096KA15

5L096MA01

(57)【要約】

【課題】顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供する。
【解決手段】一態様に係る推定装置は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部を有する。また、前記推定装置は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う誤差判定部を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

符号化映像の映像信号を入力し、前記符号化映像に対して人間が注目する注目領域を表す顕著性マップと、前記符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部と、
前記顕著性マップと前記顕著性マップの教師データとの誤差判定を行うとともに、前記主観画質と前記主観画質の教師データとの誤差判定を行い、前記ニューラルネットワークのパラメータの最適化を行う誤差判定部と、を有する
推定装置。

【請求項2】

前記推定部は、前記顕著性マップを用いて前記主観画質を推定する
請求項１記載の推定装置。

【請求項3】

前記ニューラルネットワークは、前記符号化映像の映像信号から前記顕著性マップを推定する第１ニューラルネットワークと、前記符号化映像の映像信号及び前記顕著性マップから前記主観画質を推定する第２ニューラルネットワークとを含む
請求項２記載の推定装置。

【請求項4】

前記誤差判定部は、前記第１ニューラルネットワークの第１パラメータと前記第２ニューラルネットワークの第２パラメータとを最適化する
請求項３記載の推定装置。

【請求項5】

前記第１ニューラルネットワークと前記第２ニューラルネットワークとは、前記第１パラメータと前記第２パラメータとを夫々用いて同時に学習する
請求項４記載の推定装置。

【請求項6】

符号化映像の映像信号を入力し、前記符号化映像に対して人間が注目する注目領域を表す顕著性マップと、前記符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定し、
前記顕著性マップと前記顕著性マップの教師データとの誤差判定を行うとともに、前記主観画質と前記主観画質の教師データとの誤差判定を行い、前記ニューラルネットワークのパラメータの最適化を行う、
推定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、推定装置、及び推定方法に関する。

【背景技術】

【0002】

昨今の機械学習技術の発展により、人間が画像の中でどこを見ているのかを、ニューラルネットワークを用いて予測する研究が行われている。例えば、畳み込みニューラルネットワークを用いて、顕著性マップ（saliency map）を推定する技術がある（例えば、非特許文献１）。顕著性マップとは、例えば、人間が画像を認識する際に注目しやすい部分を画像で表現したものである。顕著性マップにより、人間がどの領域に注目したのかを容易に把握することができる。

【0003】

また、近年では、ニューラルネットワークを用いて、映像の主観的な画質を表す主観画質を推定する研究も行われている。主観画質とは、例えば、人間が画像を見たときの品質を表す。例えば、顕著性マップを推定し、推定した顕著性マップを利用して主観画質を推定する技術もある（例えば、非特許文献２）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】W. Wang, J. Shen, J. Xie, M.-M. Cheng, H. Ling and A. Borji, "Revisiting Video Saliency Prediction in the Deep Learning Era," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 1, pp. 220-237, 1 Jan. 2021, doi: 10.1109/TPAMI.2019.2924417.

【非特許文献2】Lin, L.; Yang, J.; Wang, Z.; Zhou, L.; Chen, W.; Xu, Y. Compressed Video Quality Index Based on Saliency-Aware Artifact Detection. Sensors 2021, 21, 6429.

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

第１の態様に係る推定装置は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する推定部を有する。また、前記推定装置は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う誤差判定部と、を有する。

【0007】

第２の態様に係る推定方法は、符号化映像の映像信号を入力し、符号化映像に対して人間が注目する注目領域を表す顕著性マップと、符号化映像を人間が見たときの品質を表す主観画質とを、ニューラルネットワークを用いて同時に推定する。また、前記推定方法は、顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、主観画質と主観画質の教師データとの誤差判定を行い、ニューラルネットワークのパラメータの最適化を行う。

【発明の効果】

【0008】

本開示によれば、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置、及び推定方法を提供できる。

【図面の簡単な説明】

【0009】

【図1】図１は、第１実施形態に係る推定装置の構成例を表す図である。

【図2】図２は、第１実施形態に係る推定部の構成例を表す図である。

【図3】図３は、第１実施形態に係る動作例を表す図である。

【発明を実施するための形態】

【0010】

［第１実施形態］
上述した非特許文献２では、符号化映像に対して、ＡＣＬＮｅｔと呼ばれるニューラルネットワークによるモデルを用いて顕著性マップを推定し、推定した顕著性マップを利用して主観画質を推定している。

【0011】

しかし、非特許文献２では、ＡＣＬＮｅｔについて事前に学習済みのニューラルネットワークモデルを用いている。すなわち、非特許文献１では、ＡＣＬＮｅｔに対して新たな符号化映像が入力しても学習することはなく、学習済みのニューラルネットワークモデルを用いて、新たな入力に対する顕著性マップを推定している。

【0012】

そのため、非特許文献２では、新たに入力された符号化映像に対しても学習するニューラルネットワークモデルを用いて顕著性マップを推定する場合と比較して、顕著性マップの推定精度の向上を図ることができない場合がある。また、非特許文献２では、顕著性マップを利用して主観画質を推定しており、新たに入力された符号化映像に対しても学習するニューラルネットワークモデルを用いて顕著性マップを推定し、当該顕著性マップを利用して主観画質を推定する場合と比較して、主観画質についても推定精度の向上を図ることができない場合がある。

【0013】

そこで、第１実施形態では、顕著性マップと主観画質の双方の推定精度を向上させることが可能な推定装置及び推定方法を提供することを目的としている。

【0014】

（第１実施形態に係る推定装置）
次に、第１実施形態に係る推定装置の構成例について説明する。

【0015】

図１は、第１実施形態に係る推定装置１００の構成例を表す図である。

【0016】

推定装置１００は、符号化映像を入力する。そして、推定装置１００は、符号化映像に対して顕著性マップ（Saliency Map）と主観画質とを同時に推定する。なお、以下では、「符号化映像」と「符号化映像の映像信号」とを区別しないで用いる場合がある。

【0017】

第１実施形態において、顕著性マップとは、例えば、符号化映像に対して人間が注目する領域を表すものである。顕著性マップは、当該注目領域を表していればよく、例えば、各画素が二値により表された二値化画像（又はモノクロ画像）により表されてもよいし、各画素が３値以上の多値画像（又はカラー画像）により表されてもよい。多値画像の場合、注目領域を表す領域は、他の領域と比較して容易に把握できるように、例えば、特定の形（丸や星など）により表現されてもよいし、特定の色により表現されてもよい。顕著性マップは、画像だけではなく、数値又はグラフなどにより表現されてもよい。

【0018】

また、第１実施形態において、主観画質とは、例えば、入力である符号化映像を人間が見たときの品質を表す。第１実施形態では、主観画質の例として、ＭＯＳ（Mean Opinion Score）を例にして説明する。ＭＯＳとは、例えば、コーデックを用いて音声又は映像などを圧縮した際に、圧縮及び転送後に受信側で知覚される品質の評価を数値で表したものである。ＭＯＳでは、「１」から「５」により品質が評価され、「１」が最も悪い品質となり、「５」が最もよい品質となる。第１実施形態では、ＭＯＳ以外の主観画質が用いられてもよく、例えば、ＭＳ－ＳＳＩＭ（Multi-Scale Structural Similarity）又はＶＭＡＦ（Video Multimethod Assessment Fusion）などが用いられてもよい。ＭＳ－ＳＳＩＭは、例えば、比較対象画像に対してスケールの異なる複数枚の画像を作成し、各々の画像と比較対象画像と比較して品質を表したものである。また、ＶＭＡＦは、機械学習ベースの品質評価指標であって、特定の評価値を特徴量として学習させ、学習結果により総合的な評価値を算出する手法である。

【0019】

なお、推定装置１００に入力される符号化映像は、任意の符号化方式により符号化されてもよい。また、推定装置１００に入力される符号化映像は、任意の符号化装置を用いて符号化映像が生成され、推定装置１００に入力されてもよい。第１実施形態では、ＶＶＣ（Versatile Video Coding）の符号化ソフトウェアであるＶＶｅｎＣがインストールされた符号化装置を用いるものとして説明する。

【0020】

図１に示すように、推定装置１００は、推定部１１０と誤差判定部１２０とを有する。

【0021】

推定部１１０は、符号化映像の映像信号を入力し、符号化映像に対する顕著性マップと主観画質とを、ニューラルネットワークを用いて同時に推定する。ニューラルネットワークは、任意のモデルが用いられてもよく、例えば、非特許文献２に記載されたニューラルネットワークが用いられてもよい。

【0022】

図２は、第１実施形態に係る推定部１１０の構成例を表す図である。図２に示すように、推定部１１０で用いられるニューラルネットワークは、符号化映像から顕著性マップを推定する第１ニューラルネットワーク１１１と、符号化映像および顕著性マップからＭＯＳを推定する第２ニューラルネットワーク１１２とが含まれてもよい。第１ニューラルネットワーク１１１は非特許文献１又は非特許文献２に示すＡＣＬＮｅｔでもよい。ＡＣＬＮｅｔは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を利用したネットワークモデルであり、符号化映像から顕著性マップを得ることができる。また、第２ニューラルネットワーク１１２は非特許文献２に示すＤｅｎｓｅＮｅｔなどでもよい。ＤｅｎｓｅＮｅｔは、サブブロック間をスキップしたＤｅｎｓｅブロックを主要部品に含むネットワークモデルである。

【0023】

図１に戻り、誤差判定部１２０は、推定部１１０から出力された顕著性マップとＭＯＳの各々の教師データとの誤差判定を行い、推定部１１０で用いられるニューラルネットワークのパラメータの最適化を行う。具体的には、誤差判定部１２０は、推定された顕著性マップと、顕著性マップの教師データとの誤差判定を行うとともに、推定されたＭＯＳと、ＭＯＳの教師データとの誤差判定を行う。そして、誤差判定部１２０は、第１ニューラルネットワーク１１１で用いられる第１パラメータと、第２ニューラルネットワーク１１２で用いられる第２パラメータとを最適化する。誤差判定部１２０は、例えば、以下の損失関数Ｌを用いて最適化を行う。

【0024】

【数1】

【0025】

数１において、Ｌ_{ｓａｌｉｅｎｃｙ}は、推定された顕著性マップＳ_{ｐｒｅｄｉｃｔｉｏｎ}と顕著性マップの教師データＳ_{Ｇｒａｎｄ－ｔｒｕｔｈ}との差分を表す。また、Ｌ_ＭＯＳは、推定されたＭＯＳであるＭ_{ｐｒｅｄｉｃｔｉｏｎ}と、ＭＯＳの教師データＭ_{Ｇｒａｎｄ－ｔｒｕｔｈ}の差分を表す。λは正の定数である。Ｌ_{ｓａｌｉｅｎｃｙ}の算出には、任意の手法が用いられてもよいが、第１実施形態では非特許文献１と同様に、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ（ＫＬ）ｄｉｖｅｒｇｅｎｃｅ、ＬｉｎｅａｒＣｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ（ＣＣ）、及びＮｏｒｍａｌｉｚｅｄＳｃａｎｐａｔｈＳａｌｉｅｎｃｙの線形和を用いる。Ｌ_ＭＯＳの算出も、任意の手法を用いてもよいが、第１実施形態ではＬ１ノルムを用いる。

【0026】

誤差判定部１２０では、損失関数Ｌの損失（又は誤差）を最小になるように、誤差伝搬法等を用いて、推定部１１０におけるニューラルネットワーク（第１ニューラルネットワーク１１１と第２ニューラルネットワーク１１２）の学習（すなわち、パラメータの修正）を行う。

【0027】

なお、顕著性マップの教師データは、人間の視線を測定するアイトラッカーを用いて作成されてもよい。顕著性マップの教師データは、推定装置１００のメモリに記憶され、誤差判定部１２０により適宜読み出されてもよい。また、ＭＯＳの教師データは、ＩＴＵ－Ｔ勧告Ｐ．９１０（８）で規定されるＡＣＲ－ＨＲ（Absolute Category Rating with Hidden Reference）法を用いて作成されてもよい。ＭＯＳの教師データも、推定装置１００のメモリに記憶され、誤差判定部１２０により適宜読み出されてもよい。

【0028】

ここで、顕著性マップとＭＯＳとの関係について説明する。顕著性マップとＭＯＳとの間は相関関係がある。例えば、符号化映像のうち、人間が注目する領域の主観画質が一定以下の場合、符号化映像全体のＭＯＳも一定以下と評価される場合がある。また、符号化映像のうち、人間が注目する領域のＭＯＳが一定以上の場合、符号化映像全体のＭＯＳも一定以上と評価される場合がある。すなわち、符号化映像に対して人間が注目する領域（すなわち顕著性マップで表された注目領域）のＭＯＳが、符号化映像全体に対するＭＯＳに影響を与える場合がある。

【0029】

数１に示すように、誤差判定部１２０では、推定部１１０で推定された顕著性マップと顕著性マップの教師データとの差分と、推定部１１０で推定されたＭＯＳとＭＯＳの教師データとの差分とが最小となるようにパラメータを最適化する。すなわち、誤差判定部１２０では、顕著性マップを推定するのに用いられる第１ニューラルネットワーク１１１に対する第１パラメータを最適化するとともに、ＭＯＳを推定するのに用いられる第２ニューラルネットワーク１１２に対する第２パラメータを最適化する。つまり、誤差判定部１２０では、推定部１１０における２つのニューラルネットワーク１１１及び１１２に対してパラメータを調整することで、２つのニューラルネットワーク１１１及び１１２に対して同時に学習させるようにしている。

【0030】

上述したように、顕著性マップとＭＯＳとの間には相関関係があり、推定装置１００では、２つのニューラルネットワークを同時に学習させることで、相関関係を考慮した２つのニューラルネットワークのモデルを生成することができる。そして、推定装置１００では、２つのニューラルネットワークのモデルを用いて、推論結果を同時に得るようにしているため、非特許文献２のように顕著性マップについて学習済みのモデルを用いる場合と比較して、上述した相関関係を考慮した推論結果を得ることが可能となる。よって、第１実施形態に係る推定装置１００は、非特許文献２による場合と比較して、推定精度の向上を図ることができる。

【0031】

また、顕著性マップを推論してＭＯＳを推論しなかったり、ＭＯＳを推論して顕著性マップを推論しなかったりするニューラルネットワークのモデルも考えられる。しかし、これらのモデルでは、顕著性マップとＭＯＳとの相関関係を考慮することなく、一方のみを推論するようにしている。これに対して、第１実施形態に係る推定装置１００は、顕著性マップとＭＯＳとを同時に推論している。そのため、一方のみを推論するケースと比較して、２つの相関関係を考慮しているため、推定精度の向上を図ることが可能となる。

【0032】

（第１実施形態に係る動作例）
次に、第１実施形態に係る動作例について説明する。

【0033】

図３は、第１実施形態に係る動作例を表す図である。

【0034】

図３に示すように、ステップＳ１０において、推定装置１００は処理を開始する。

【0035】

ステップＳ１１において、推定部１１０は、ニューラルネットワークを用いて、符号化映像から顕著性マップ及びＭＯＳを同時に推定する。具体的には、推定部１１０は、第１ニューラルネットワーク１１１を用いて符号化映像の映像信号から顕著性マップを推定し、第２ニューラルネットワーク１１２を用いて符号化映像の映像信号及び推定した顕著性マップからＭＯＳを推定する。

【0036】

ステップＳ１２において、誤差判定部１２０は、顕著性マップ及びＭＯＳの誤差判定を行い、ニューラルネットワークのパラメータを最適化する。具体的には、誤差判定部１２０は、推定された顕著性マップと顕著性マップの教師データとの誤差判定を行うとともに、推定されたＭＯＳとＭＯＳの教師データとの誤差判定を行う。そして、誤差判定部１２０は、第１ニューラルネットワーク１１１の第１パラメータを最適化するとともに、第２ニューラルネットワーク１１２の第２パラメータを最適化する。

【0037】

ステップＳ１３において、推定装置１００は一連の処理を終了する。

【0038】

（第１実施形態の他の例）
第１実施形態では、推定部１１０において用いられるニューラルネットワークは、主に、ＣＮＮを用いたニューラルネットワークの例で説明したがこれに限定されない。例えば、各ニューラルネットワークは、ＲＮＮ（Recurrent Neural Network）又はＤＮＮ（Deep Neural Network）など、他の深層学習によるニューラルネットワークが用いられてもよい。

【0039】

また、第１実施形態では、ＭＯＳの教師データの作成について、ＩＴＵ－Ｔ勧告Ｐ．９１０で規定されるＡＣＲ－ＨＲ（Absolute Category Rating with Hidden Reference）法を用いる例について説明したがこれに限定されない。ＭＯＳの教師データの作成について、例えば、ＩＴＵ－Ｔ勧告Ｐ．９１０で規定されるＡＣＲ法が用いられてもよいし、ＩＴＵ－Ｔ勧告Ｐ．９１０で規定されたＤＣＲ（Degradation Category Rating）法が用いられてもよいし、その他の公知の方法が用いられてもよい。

【0040】

［その他の実施形態］
上述の装置（推定装置１００）が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。また、上述の装置（推定装置１００）が行う各処理を実行する回路を集積化し、当該装置を半導体集積回路（チップセット、ＳｏＣ）により構成してもよい。

【0041】

以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更などをすることが可能である。また、矛盾しない範囲で各動作例、各処理、又は各ステップなど組み合わせることも可能である。

【符号の説明】

【0042】

１００：推定装置１１０：推定部
１１１：第１ニューラルネットワーク１１２：第２ニューラルネットワーク
１２０：誤差判定部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版