特許7457854 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イノワイアレス　カンパニー、リミテッドの特許一覧

特許7457854非参照映像基盤の映像品質評価方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-19

(45)【発行日】2024-03-28

(54)【発明の名称】非参照映像基盤の映像品質評価方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240321BHJP

G06V 10/82 20220101ALI20240321BHJP

G06N 3/044 20230101ALI20240321BHJP

G06N 3/0464 20230101ALI20240321BHJP

G06N 3/08 20230101ALI20240321BHJP

【ＦＩ】

G06T7/00 Q

G06T7/00 350C

G06V10/82

G06N3/044

G06N3/0464

G06N3/08

【請求項の数】 6

(21)【出願番号】P 2023053810

(22)【出願日】2023-03-29

(65)【公開番号】P2023152957

(43)【公開日】2023-10-17

【審査請求日】2023-03-29

(31)【優先権主張番号】10-2022-0039854

(32)【優先日】2022-03-30

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】516157382

【氏名又は名称】イノワイアレスカンパニー、リミテッド

(74)【代理人】

【識別番号】100121382

【弁理士】

【氏名又は名称】山下託嗣

(72)【発明者】

【氏名】クワク，ヨンス

(72)【発明者】

【氏名】ホン，ソンマン

【審査官】新井則和

(56)【参考文献】

【文献】韓国公開特許第１０－２０２０－００４４６５２（ＫＲ，Ａ）

【文献】韓国登録特許第１０－１２７９７０５（ＫＲ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／８２

Ｇ０６Ｎ３／０４４

Ｇ０６Ｎ３／０４６４

Ｇ０６Ｎ３／０８

(57)【特許請求の範囲】

【請求項1】

映像の一フレームに対してＲＧＢ値を抽出する（ａ）過程と、
抽出したＲＧＢ値を１番目のＣＮＮに与えて出力を獲得する（ｂ）過程と、
抽出されたＲＧＢ値をｎ番（ｎ≧２以上の整数）目のＣＮＮに提供して出力を獲得する（ｃ）過程と、
（ａ）～（ｃ）過程をすべてのフレームに対して繰り返し、すべてのＣＮＮの出力を併合する（ｄ）過程と、
時間次元の学習のために併合された出力値をＲＮＮに伝達した後、時間次元を１に減らしたＲＮＮの出力を獲得する（ｅ）過程と、
出力値が１個の次元となるようにＲＮＮの最終出力に回帰アルゴリズムを適用した後、この値をビデオ品質値として予測する（ｆ）過程と、
を含んでなる、非参照映像基盤の映像品質評価方法。

【請求項2】

１番目のＣＮＮの一部の畳み込み層は学習が不可能である反面、残りは学習が可能であるように設定することを特徴とする、請求項１に記載の非参照映像基盤の映像品質評価方法。

【請求項3】

１番目のＣＮＮの一部の畳み込み層は、複数のＩｍａｇｅＮｅｔ学習データで事前学習されて係数が固定されており、
１番目のＣＮＮの残りの畳み込み層は、事前学習された係数で学習を始めるが追加の学習が可能であることを特徴とする、請求項２に記載の非参照映像基盤の映像品質評価方法。

【請求項4】

前記ｎは２であり、
２番目のＣＮＮの一部の畳み込み層は、１番目のＣＮＮとは異なる複数のイメージ学習データで事前学習されて係数が固定されており、
２番目のＣＮＮの残りの畳み込み層は、事前学習された係数で学習を始めるが追加の学習が可能であることを特徴とする、請求項３に記載の非参照映像基盤の映像品質評価方法。

【請求項5】

学習過程で誤差逆伝播法（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使うことを特徴とする、請求項４に記載の非参照映像基盤の映像品質評価方法。

【請求項6】

ＲＮＮで時間概念を担当するフレーム数次元を除いた残りのデータは、全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を通じて全体フィルタ数の次元に変更して１次元ＲＮＮとして動作することを特徴とする、請求項１～請求項５のいずれか一項に記載の非参照映像基盤の映像品質評価方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、非参照映像基盤の映像品質評価方法に関し、特に学習範囲の設定が可能な複数の畳み込みニューラルネットワーク（ＣＮＮ）と循環ニューラルネットワーク（ＲＮＮ）で構成された人工知能を利用して、オリジナル映像なしに受信した映像の品質を評価する非参照映像基盤の映像品質評価方法に関する。

【背景技術】

【0002】

図１は、無線通信環境で増加する映像のトラフィック需要を示したグラフである。図１に図示した通り、最近、５世代移動通信システムの導入およびそれによる５世代加入者数の増加と遠隔勤務需要の増加などにより、映像に対するネットワークトラフィックの需要が増加している。

【0003】

しかし、これに反して使用者が感じる受信映像に対する品質をオリジナル映像なしに非参照方式で評価する方法としては、人が直接手作業で設計したアルゴリズムが知られている。すなわち、映像のＢＰＳ（ＢｉｔＰｅｒＳｅｃｏｎｄ）、明るさ、およびブラーの程度など、約１０個程度のＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｉｃａｔｏｒ）をＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等のアルゴリズムの入力で使って評価するが、これは人間が映像に対する品質を評価する方法が非常に高次元的であるということを勘案する時、正しく動作し難い問題がある。

【0004】

具体的には、従来受信した映像データの品質を評価する方式は大きく三つに区分され得る。

【0005】

ａ．オリジナル映像と受信映像をすべて獲得した後、数学的なアルゴリズムを通じて遅延時間などを計算して受信した映像データの品質を評価する（全参照方式）。

【0006】

ｂ．オリジナル映像に対する一部の情報と受信映像を獲得した後、数学的なアルゴリズムを通じて色空間の変化の程度などを計算して受信した映像データの品質を評価する（縮小参照方式）。

【0007】

ｃ．受信映像のみで受信した映像データの品質を評価する（非参照方式）。

【0008】

前述した全参照方式の場合、オリジナル映像と受信映像を活用できるので、受信映像の品質を求めるアルゴリズムの設計が容易であり、非参照方式より受信映像の予測品質と実際に人が感じた品質間の誤差が少ない。反面、実際の通信環境で受信機がオリジナル映像を有している場合は極めて珍しいので、殆どの実際環境で適用が不可能である（下記の特許文献１を参照）。

【0009】

前述した縮小参照方式の場合、尾尻なる映像をすべて有しておらずに一部の情報のみ有していても受信映像に対する品質の予測が可能であるという長所がある反面、実環境で適用するには追加的な情報処理および情報の伝送が必要な負担があるので、実環境への適用の障害となる。

【0010】

最後に、非参照方式の場合、受信映像のみで品質の予測が可能であるという長所がある反面、受信映像のみで受信した映像データの品質を判断するアルゴリズムの設計が非常に難しいという短所がある。これに伴い、殆どの非参照方式は、ＢＰＳ、明るさ、およびブラーなどの数十個のＫＰＩを活用して受信映像の品質を予測するアルゴリズムで設計されているが、アルゴリズムが相対的に単純であるので、全参照方式に比べて受信映像の予測品質と実際に人が感じた品質間の誤差が大きいという問題点があった（下記の特許文献２を参照）。

【先行技術文献】

【特許文献】

【0011】

【文献】韓国公開特許公報第１０－２０２０－００４４６５２号（発明の名称：映像の主観的品質を評価する方法および装置）

【文献】韓国登録特許公報第１０－１２７９７０５号（発明の名称：映像フレーム内のブラー測定方法とこれを利用して映像フレームの画質測定装置および方法）

【発明の概要】

【発明が解決しようとする課題】

【0012】

本発明は、前述した問題点を解決するために案出されたもので、学習範囲の設定が可能な複数の畳み込みニューラルネットワーク（ＣＮＮ）と循環ニューラルネットワーク（ＲＮＮ）で構成された人工知能を利用して、オリジナル映像なしに受信した映像の品質を評価する非参照映像基盤の映像品質評価方法を提供することを目的とする。

【課題を解決するための手段】

【0013】

前述した目的を達成するための本発明の非参照映像基盤の映像品質評価方法は、映像の一フレームに対してＲＧＢ値を抽出する（ａ）過程と、抽出したＲＧＢ値を１番目のＣＮＮに与えて出力を獲得する（ｂ）過程と、抽出されたＲＧＢ値をｎ番（ｎ≧２以上の整数）目のＣＮＮに提供して出力を獲得する（ｃ）過程と、（ａ）～（ｃ）過程をすべてのフレームに対して繰り返し、すべてのＣＮＮの出力を併合する（ｄ）過程と、時間次元の学習のために併合された出力値をＲＮＮに伝達した後、時間次元を１に減らしたＲＮＮの出力を獲得する（ｅ）過程と、出力値が１個の次元となるようにＲＮＮの最終出力に回帰アルゴリズムを適用した後、この値をビデオ品質値として予測する（ｆ）過程と、を含んでなる。

【0014】

前述した構成で、１番目のＣＮＮの一部の畳み込み層は学習が不可能である反面、残りは学習が可能であるように設定する。

【0015】

１番目のＣＮＮの一部の畳み込み層は、複数のＩｍａｇｅＮｅｔ学習データで事前学習されて係数が固定されており、１番目のＣＮＮの残りの畳み込み層は、事前学習された係数で学習を始めるが追加の学習が可能である。

【0016】

前記ｎは２であり、２番目のＣＮＮの一部の畳み込み層は、１番目のＣＮＮとは異なる複数のイメージ学習データで事前学習されて係数が固定されており、２番目のＣＮＮの残りの畳み込み層は、事前学習された係数で学習を始めるが追加の学習が可能である。

【0017】

学習過程で誤差逆伝播法（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使う。

【0018】

ＲＮＮで時間概念を担当するフレーム数次元を除いた残りのデータは、全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を通じて全体フィルタ数の次元に変更して１次元ＲＮＮとして動作する。

【発明の効果】

【0019】

本発明の非参照映像基盤の映像品質評価方法によると、従来ＫＰＩを使う方式や人が数学的に考案した品質評価アルゴリズムの代わりに学習範囲の設定が可能な複数の畳み込みニューラルネットワークをＡＩ構造設計に反映することによって、映像それ自体のみを要求する真の非参照映像品質モニタリングシステムをＡＩで実現するとともに、人によるＭＯＳ（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）値とＡＩの予測値の相関度を増加させることができ、これに伴い、アンタクト時代の到来につれて急増する映像の需要に合わせて消費者の満足度を大きく増進させることができる。

【0020】

一方、低いＭＯＳ値は撮影環境の障害とも相関関係があるが、本発明の方法は映像それ自体のみを活用して映像のＭＯＳ値を測定するシステムであるので、今後自律走行システムなどでカメラ撮影環境に障害があるかどうかを高い正確度でリアルタイムに検出するのに役に立ち得、その結果、自律走行システムなどでカメラがホコリやチップなどで遮られている時に、これを正しく把握できないことによってもたらされ得る大きな人身事故を未然に防止することができる。

【図面の簡単な説明】

【0021】

【図1】無線通信環境で増加する映像のトラフィック需要を示したグラフである。

【図2】本発明の非参照映像基盤の映像品質評価方法の概要を説明するための図面である。

【図3】本発明の非参照映像基盤の映像品質評価方法を要約して説明するための模式図である。

【図4】本発明の非参照映像基盤の映像品質評価方法を説明するためのフローチャートである。

【図5】本発明の非参照映像基盤の映像品質評価方法で映像をフレーム別にデコーディングする過程を例示的に示した図面である。

【図6】本発明の非参照映像基盤の映像品質評価方法でＣＮＮの動作を要約して説明するための模式図である。

【図7】本発明の非参照映像基盤の映像品質評価方法でＲＮＮの動作を要約して説明するための模式図である。

【図8】本発明の非参照映像基盤の映像品質評価方法で回帰層（Ｒｅｇｒｅｓｓｉｏｎｌａｙｅｒ）の動作を要約して説明するための模式図である。

【図9】本発明の非参照映像基盤の映像品質評価方法をより具体的に要約して整理した模式図である。

【図10】本発明の非参照映像基盤の映像品質評価方法でＣＮＮの学習範囲を設定する例を説明するための図面である。

【図11】本発明の非参照映像基盤の映像品質評価方法で複数のＣＮＮを使って過剰適合を防止する例を説明するための図面である。

【発明を実施するための形態】

【0022】

以下、添付した図面を参照して本発明の非参照映像基盤の映像品質評価方法の好ましい実施例について詳細に説明する。

【0023】

広く知られている通り、人工ニューラルネットワークは、人間の主観を介在することなくデータのみで学習されるだけでなく、入力特性として映像のオリジナルそれ自体を使うという点で数十個内外のＫＰＩを使う方式よりさらに高次元的に動作できる。

【0024】

図２は、本発明の非参照映像基盤の映像品質評価方法の概要を説明するための図面である。図２に図示した通り、本発明の方法によると、人工ニューラルネットワークが映像のピクセル値だけで有意な特性を十分に抽出できるように複数の畳み込みニューラルネットワークを使用し、時間の概念を学習できるように循環ニューラルネットワークを使うものの、人工知能学習時の測定（予測）の正確度を高めるために、畳み込みニューラルネットワークと循環ニューラルネットワークが同時に学習されるようにする。

【0025】

また、ＢＰＳ、明るさ、ブラーなどの数十個のＫＰＩに基づいて動作するアルゴリズムの代わりに、受信映像のピクセル値のみを入力として受けて動作するようにする。

【0026】

もし、ＫＰＩを使う場合、使うＫＰＩが２０個であれば、アルゴリズムの入力値は（２０×映像の長さ）となるが、ピクセル値を使う場合、「チャネル数×映像の横幅×映像の縦幅（高さ）×映像の長さ」が入力値となって、はるかに高次元的でありながらもＫＰＩなどのいかなる追加の情報も要求しない真の非参照映像品質評価アルゴリズムが設計され得る。既存の学習過程の困難な点はＡＩ構造の改善で達成する。

【0027】

図３は、本発明の非参照映像基盤の映像品質評価方法を要約して説明するための模式図である。図３に図示した通り、本発明の方法によると、複数の学習範囲の設定が可能な畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と循環ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を使うものの、これらを一度に学習させる。映像と人が付けた品質値とが正解として存在する学習データを数十万個以上大量に確保することが難しいため、前記のようにピクセル値を使う方式で動作するＡＩの学習過程には、過剰適合（ｏｖｅｒ－ｆｉｔｔｉｎｇ）が発生する恐れがある。これに伴い、例えば、イメージデータベースであるＩｍａｇｅＮｅｔにある数百万枚のイメージに対してＣＮＮを事前学習させるものの、ＩｍａｇｅＮｅｔに対する過剰適合を追加的に防止するために、ＣＮＮの一部の畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）に対してのみ選択的に学習が可能であるようにする。

【0028】

これを通じて、ＩｍａｇｅＮｅｔと映像データの双方に対して過剰適合を防止することができる。また、選択的に学習可能なＣＮＮが複数となるようにＩｍａｇｅＮｅｔ以外の多くのイメージ学習データを使えるようにすることによって、イメージ基盤学習データセットの増加による一般化の効果をさらに増加できる。

【0029】

図４は、本発明の非参照映像基盤の映像品質評価方法を説明するためのフローチャートである。図４に図示した通り、本発明の非参照映像基盤の映像品質評価方法は、例えばＣＮＮの数を２とする時、映像の一フレームに対してＲＧＢ値を抽出する（ａ）過程と、抽出したＲＧＢ値を１番目のＣＮＮに与えて出力を獲得（この時、１番目のＣＮＮに存在する畳み込み層のうち一部は学習が不可能であるようにする反面、一部は学習が可能であるように設定する。このように、ＣＮＮの一部の畳み込み層のみ学習が可能であるのでイメージに対して事前学習されたＣＮＮがイメージや映像データのいずれか一つにのみ過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）となることが防止されながらも、映像データに対してＣＮＮが追加の学習ができるようになる。）する（ｂ）過程と、抽出されたＲＧＢ値を２番目のＣＮＮに提供して出力を獲得する（ｃ）過程と、（ａ）～（ｃ）過程をすべてのフレームに対して繰り返して二つのＣＮＮの出力を併合する（ｄ）過程と、時間次元の学習のために併合された出力値をＲＮＮに伝達した後、時間次元を１に減らしたＲＮＮの出力を獲得する（ｅ）過程と、出力値が１個の次元となるようにＲＮＮの最終出力に回帰アルゴリズムを適用した後、この値をビデオ品質値として予測する（ｆ）過程と、を含んでなり得る。本発明の方法では学習過程で誤差逆伝播法（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を使って学習されることになる。

【0030】

以下では、本発明の非参照映像基盤の映像品質評価方法の各過程について具体的に説明する。

【0031】

（ａ）過程：映像の一フレームに対してＲＧＢ値抽出
本発明の非参照映像基盤の映像品質評価方法に係る非参照映像品質評価人工ニューラルネットワークは、受信映像以外に他の情報を要求しない、すなわち受信映像以外の他の情報の必要などの他の先決条件を要求しないことによって、安定的に非参照方式の映像品質の評価を可能にしている。また、受信映像以外の他の情報が不要であるので、情報の計算などの時間が追加的に必要でない長所がある。

【0032】

しかし、機械が映像を理解するためには数学的に映像が表現される必要があるので、映像の各フレームに対してＲＧＢ値に変換する過程が要求される。

【0033】

図５は、本発明の非参照映像基盤の映像品質評価方法で映像をフレーム別にデコーディングする過程を例示的に示した図面である。図５に図示した通り、例えば、映像が３０ｆｐｓ（ｆｒａｍｅｐｅｒｓｅｃｏｎｄ）からなり８秒の再生長さを有していれば、２４０個のフレームを有する映像となる。また、例えば映像の高さが５４０ピクセルであり幅が９６０ピクセルであれば、一つのフレームは３×５４０×９６０で表現される行列となり、この時、前記３はＲＧＢ色空間を意味する。もし、ＲＧＢ値が８ビットで表現されるのであれば各ＲＧＢ値は０～２５５で表現され得るが、最大値を２５５とし最小値を０にして正規化する場合、０～１で表現され得、各段階は１／２５５の解像度を有するようになる。また、映像は「フレーム数×３（Ｒ、Ｇ、Ｂ色空間の数）×高さピクセル数×幅ピクセル数」の行列（形態）で表現されることになる。

【0034】

（ｂ）過程：（ａ）過程で抽出されたＲＧＢ値を１番目のＣＮＮ（学習範囲の設定が可能な）に提供して出力を獲得
映像と人が付けた品質値とが正解として存在する学習データを数十万個以上大量に確保するのが難しいため、映像でのみ人工ニューラルネットワークの学習を進めることになる場合、実際の予測時に学習過程だけの性能が発揮されない過剰適合現象が発生することを避けるために、本発明の非参照映像基盤の映像品質評価方法で提案するＣＮＮは、イメージで事前学習されたＣＮＮである。この時、１番目のＣＮＮは、数百万枚のＩｍａｇｅＮｅｔ学習データで事前学習されたＣＮＮであり得る。

【0035】

ここで、ＣＮＮのすべての畳み込み層を最初から学習させないことになると、映像と品質値との間に含まれたパターンを学習できない問題がある。反面、ＣＮＮのすべての畳み込み層を学習させると、学習用映像データの数が数十万本以下である場合、映像データにのみ過剰適合、すなわちイメージに対して学習した一般的なパターンを喪失し、映像データに存在するパターンにのみ過度に学習される過剰適合現象が発生することによって、かえってＣＮＮを学習させない場合より低い一般化性能を示す可能性がある。したがって、ＩｍａｇｅＮｅｔと映像データの双方が過剰適合とならないようにするために、ＣＮＮを構成する一部の畳み込み層はＩｍａｇｅＮｅｔから事前学習された係数を固定することによって学習されないようにし、残りの畳み込み層は事前学習された係数で学習を始めるが追加の学習が可能であるように設定する。

【0036】

図６は、本発明の非参照映像基盤の映像品質評価方法でＣＮＮの動作を要約して説明するための模式図である。

【0037】

例えば、ＣＮＮ構造で広く知られているＲｅｓｎｅｔ５０の場合、一つのＣＮＮに合計４８個の畳み込み層があるが、本発明の方法では、例えば３９個の畳み込み層は学習が不可能であるように設定し、９個の畳み込み層のみ学習が可能であるように設定することによって、ＩｍａｇｅＮｅｔと映像データの双方に過剰適合が発生しないようにすることができる。また、図６に図示した通り、一フレーム当たり３（Ｒ、Ｇ、Ｂ色空間）×高さピクセル数×幅ピクセル数の長さを有するデータが１番目のＣＮＮの入力であるとすれば、１番目のＣＮＮの出力はフィルタ数（ＣＮＮの最終畳み込み層のフィルタ数）×高さピクセル数×幅ピクセル数に変わることになる。これはＣＮＮの一般的な入出力データの形態であって、３というＲＧＢ色空間の数がＣＮＮのフィルタ数に変わって表現されるためである。

【0038】

（ｃ）過程：（ａ）過程で抽出されたＲＧＢ値を２番ＣＮＮ（学習範囲の設定が可能な）に提供して出力を獲得
この過程でのＣＮＮを（ｂ）過程のように数百万枚のＩｍａｇｅＮｅｔ学習データで事前学習されたＣＮＮと仮定すれば、ＩｍａｇｅＮｅｔのみで学習されたパターンに過剰適合となる恐れがあるため、本発明の方法では複数のＣＮＮの使用を提案する。例えば、２番目のＣＮＮは、１番目のＣＮＮとは異なる数万枚以上のイメージ学習データで事前学習されたニューラルネットワークと仮定する。この場合、２番目のＣＮＮもイメージデータと映像データの双方に過剰適合が発生しないようにするために、ＣＮＮの一部の畳み込み層は事前学習された係数を固定し、残りの畳み込み層は事前学習された係数で学習を始めるが追加の学習が可能であるように設定する。

【0039】

一フレーム当たり３（Ｒ、Ｇ、Ｂ色空間）×高さピクセル数×幅ピクセル数の長さを有するデータが２番目のＣＮＮの入力であるとすれば、２番目のＣＮＮの出力はフィルタ数（ＣＮＮの最終畳み込み層のフィルタ数）×高さピクセル数×幅ピクセル数に変わることになる。

【0040】

（ｄ）過程：（ａ）～（ｃ）過程をすべてのフレームに対して繰り返し遂行した後、二つのＣＮＮの出力を併合
具体的には、（ａ）過程～（ｃ）過程を繰り返すと、その出力にフレーム数の次元が追加されることによって、その結果、２個のフレーム数×フィルタ数×高さピクセル数×幅ピクセル数を有するデータが出力される。二つのＣＮＮで使われるイメージの高さピクセル数および幅ピクセル数が同一であると仮定する時、（ｄ）過程を経るとフレーム数×全体フィルタ数（複数のＣＮＮのフィルタ数をすべて足した値）×高さピクセル数×幅ピクセル数を有するデータが出力される。

【0041】

（ｅ）過程：（ｄ）過程の出力値を時間次元の学習のためにＲＮＮに伝達した後、時間次元を１に減らしたＲＮＮの出力獲得
図７は、本発明の非参照映像基盤の映像品質評価方法でＲＮＮの動作を要約して説明するための模式図である。図７に図示した通り、本発明の方法では（ｄ）過程の出力であるフレーム数×全体フィルタ数（複数のＣＮＮのフィルタ数をすべて足した値）×高さピクセル数×幅ピクセル数の長さを有するデータに対して時間概念が学習されるようにするためにＲＮＮを使う。この時、ＲＮＮで時間概念を担当するフレーム数次元を除いた残りのデータは、全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を通じて全体フィルタ数の次元に変更して１次元ＲＮＮとして動作できるようにする。以後、ＲＮＮがすべてのフレーム数だけのデータの入力を受けた以後の出力である全体フィルタ数の次元を有するデータをＲＮＮの出力として獲得する（ＲＮＮを経ながらフレーム数次元のデータが除去される）。

【0042】

（ｆ）過程：ＲＮＮの最終出力に出力値が１個の次元となるように回帰アルゴリズムを適用
図８は、本発明の非参照映像基盤の映像品質評価方法で回帰層（Ｒｅｇｒｅｓｓｉｏｎｌａｙｅｒ）の動作を要約して説明するための模式図である。図８に図示した通り、本発明の方法では、（ｅ）過程の出力値である全体フィルタ数で１の次元（ＭＯＳ値）となるように回帰アルゴリズムを適用する。具体的には、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）レイヤを通じて回帰アルゴリズムが適用されるが、他の活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）等が使われてもよい。

【0043】

もし、ニューラルネットワークが学習が完了したニューラルネットワークであれば、前述した過程を通じて受信映像をニューラルネットワークに入力として与えて映像の品質値であるＭＯＳ値を得ることができることになる。

【0044】

図９は、本発明の非参照映像基盤の映像品質評価方法をより具体的に要約して整理した模式図である。図９に図示した通り、本発明の方法では、まず、予めＣＮＮをイメージデータによって学習させて準備するが、この過程で例えば、数百万枚のイメージ学習データが存在するＩｍａｇｅＮｅｔのデータセットが使われ得る。

【0045】

次に、学習しようとする映像データを準備する。

【0046】

最後に、準備されたイメージによって学習されたＣＮＮの畳み込み層の中で一部を選別し、該当畳み込み層を再学習が可能であるように構成する反面、残りの畳み込み層を再学習が不可能であるようにして、すでに学習された畳み込み層の特性が、学習が進行しても変更されないようにする。

【0047】

図１０は、本発明の非参照映像基盤の映像品質評価方法でＣＮＮの学習範囲を設定する例を説明するための図面である。

【0048】

通常、学習しようとする映像データセットよりはイメージデータセットが相対的にさらに大きい数で存在するので、本発明の方法では、映像データセット以外にイメージデータセットも活用することによって学習データが少ない限界を克服しているが、これを転移学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）という。この過程で、図１０に図示した通り、イメージデータとイメージデータに対する正解ラベルで予めＣＮＮを学習させた後、一部の畳み込み層のみを選別して映像データを学習する過程で係数が変更されるようにする。もし、映像データセットを学習する過程ですべての畳み込み層が学習可能であるようにする場合、人工ニューラルネットワークが映像データにのみ過剰適合となる恐れが存在するためである。

【0049】

一方、ＣＮＮを一個のみ使うことになると、たとえＩｍａｇｅＮｅｔに過剰適合は発生しないものの、ＩｍａｇｅＮｅｔにのみ依存的な人工ニューラルネットワークが発生する可能性がある。これを防止するために、本発明の方法では、学習範囲の設定が可能な畳み込みニューラルネットワークを複数に拡張している。図１１は、本発明の非参照映像基盤の映像品質評価方法で複数のＣＮＮを使って過剰適合を防止する例を説明するための図面である。

【0050】

図１１に図示した通り、本発明の方法によると学習範囲の設定が可能なＣＮＮが複数で存在し、各ＣＮＮは互いに異なるイメージデータセットに基づいて事前学習された姿を示す。これを通じて、本発明の方法に係る人工ニューラルネットワークはより一層一般化が可能であり、多様なイメージデータセットのすべてのパターンを活用できることになる。

【0051】

以上、添付した図面を参照して本発明の非参照映像基盤の映像品質評価方法の好ましい実施例について詳細に説明したが、これは例示に過ぎず、本発明の技術的思想の範疇内で多様な変形と変更が可能であろう。したがって、本発明の権利範囲は、以下の請求の範囲の記載によって定められるべきである。例えばＣＮＮを３個またはそれ以上で構成してもよい。

【図1】