特表2024-532920 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 中興通訊股▲ふん▼有限公司の特許一覧

特表2024-532920モデルトレーニング方法、ビデオ品質評価方法、装置、機器および媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8a
8b
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-10

(54)【発明の名称】モデルトレーニング方法、ビデオ品質評価方法、装置、機器および媒体

(51)【国際特許分類】

G06V 10/82 20220101AFI20240903BHJP

G06V 20/40 20220101ALI20240903BHJP

【ＦＩ】

G06V10/82

G06V20/40

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024514541

(86)(22)【出願日】2022-09-01

(85)【翻訳文提出日】2024-03-05

(86)【国際出願番号】 CN2022116480

(87)【国際公開番号】W WO2023036045

(87)【国際公開日】2023-03-16

(31)【優先権主張番号】202111055446.0

(32)【優先日】2021-09-09

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】511151662

【氏名又は名称】中興通訊股▲ふん▼有限公司

【氏名又は名称原語表記】ＺＴＥＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＺＴＥＰｌａｚａ，ＫｅｊｉＲｏａｄＳｏｕｔｈ，Ｈｉ－ＴｅｃｈＩｎｄｕｓｔｒｉａｌＰａｒｋ，ＮａｎｓｈａｎＳｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】陳俊江

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA08

5L096DA02

5L096GA51

5L096HA11

5L096JA11

5L096KA04

5L096MA01

(57)【要約】

本開示は、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するステップと、各前記トレーニングビデオデータの平均意見値であるMOS値を決定するステップと、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るステップとを含む、ビデオ品質評価のためのモデルトレーニング方法を提供する。本開示は、ビデオ品質評価方法、装置、機器および媒体をさらに提供する。

【特許請求の範囲】

【請求項1】

参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するステップと、
各前記トレーニングビデオデータの平均意見値であるMOS値を決定するステップと、
収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るステップとを含む
ビデオ品質評価のためのモデルトレーニング方法。

【請求項2】

収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングする前記ステップは、
プリセット比率と前記トレーニングビデオデータとに基づいてトレーニングセットと検証セットとを決定するステップであって、前記トレーニングセットと前記検証セットのインターセクションが空集合であるステップと、
収束条件に達するまで、前記初期ビデオ品質評価モデルのパラメータを前記トレーニングセットと前記トレーニングセットにおける各ビデオデータのMOS値とに基づいて調整し、前記初期ビデオ品質評価モデルのハイパーパラメータを前記検証セットと前記検証セットにおける各ビデオデータのMOS値とに基づいて調整するステップとを含む
請求項1に記載の方法。

【請求項3】

前記収束条件は、前記トレーニングセットおよび前記検証セットにおける各ビデオデータの評価誤差率がいずれもプリセット閾値を超えないということを含み、前記評価誤差率は下式によって算出され、
E=（|S-Mos|）/Mos
Eは現在のビデオデータの評価誤差率であり、
Sはパラメータとハイパーパラメータとを調整した後の前記初期品質評価モデルが出力した現在のビデオデータの評価スコアであり、
Mosは現在のビデオデータのMOS値である
請求項2に記載の方法。

【請求項4】

前記初期ビデオ品質評価モデルは、画像フレームの動き情報を抽出するための3D畳み込みニューラルネットワークを備える
請求項1～3の何れか一項に記載の方法。

【請求項5】

前記初期ビデオ品質評価モデルは、アテンションモデルと、データ融合処理モジュールと、グローバルプーリングモジュールと、全結合層とをさらに備え、前記アテンションモデルと、前記データ融合処理モジュールと、前記3D畳み込みニューラルネットワークと、前記グローバルプーリングモジュールと、前記全結合層とが順次カスケード接続されている
請求項4に記載の方法。

【請求項6】

前記アテンションモデルは、カスケード接続された多入力ネットワークと、2D畳み込みモジュールと、DenseNet（Densely connected convolutional networks）と、ダウンサンプリング処理モジュールと、階層畳み込みネットワークと、アップサンプリング処理モジュールと、アテンションメカニズムネットワークとを備え、前記DenseNet（Densely connected convolutional networks）は、少なくとも2つのカスケード接続された密畳み込みモジュールを備え、前記密畳み込みモジュールは4つのカスケード接続された密結合畳み込み層を備える
請求項5に記載の方法。

【請求項7】

前記アテンションメカニズムネットワークは、カスケード接続されたアテンション畳み込みモジュールと、線形補正ユニットアクティブモジュールと、非線形アクティブモジュールと、アテンションアップサンプリング処理モジュールとを備える
請求項6に記載の方法。

【請求項8】

前記階層畳み込みネットワークは、第1の階層ネットワークと、第2の階層ネットワークと、第3の階層ネットワークと、第4のアップサンプリング処理モジュールとを備え、前記第1の階層ネットワークは、カスケード接続された第1のダウンサンプリング処理モジュールと第1の階層畳み込みモジュールとを備え、前記第2の階層ネットワークは、カスケード接続された第2のダウンサンプリング処理モジュールと、第2の階層畳み込みモジュールと、第2のアップサンプリング処理モジュールとを備え、前記第3の階層ネットワークは、カスケード接続されたグローバルプーリングモジュールと、第3の階層畳み込みモジュールと、第3のアップサンプリング処理モジュールとを備え、前記第1の階層畳み込みモジュールは、前記第2のダウンサンプリング処理モジュールともカスケード接続されており、前記第1の階層畳み込みモジュールおよび前記第2のアップサンプリング処理モジュールは、前記第4のアップサンプリング処理モジュールとカスケード接続されており、前記第4のアップサンプリング処理モジュールおよび前記第3のアップサンプリング処理モジュールは、前記第3の階層畳み込みモジュールともカスケード接続されている
請求項5に記載の方法。

【請求項9】

各前記トレーニングビデオデータの平均意見値であるMOS値を決定する前記ステップは、
各前記トレーニングビデオデータをグループ分けするステップであって、各グループに1つの参照ビデオデータと複数の歪ビデオデータとを備え、かつ、各グループにおける各ビデオデータの解像度が同一であり、かつ各グループにおける各ビデオデータのフレームレートが同一であるステップと、
各グループにおける各ビデオデータを分類するステップと、
各グループにおけるそれぞれの分類の各ビデオデータをグレーディングするステップと、
前記各トレーニングビデオデータのグループ分けと、分類と、グレーディングとに基づいて各前記トレーニングビデオデータのMOS値を決定するステップとを含む
請求項1～3の何れか一項に記載の方法。

【請求項10】

請求項1～9の何れか一項に記載の方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、前記評価対象のビデオデータの品質評価スコアを得るステップを含む
ビデオ品質評価方法。

【請求項11】

参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するように配置された取得モジュールと、
各前記トレーニングビデオデータの平均意見値であるMOS値を決定するように配置された処理モジュールと、
収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るように配置されたトレーニングモジュールとを備える
ビデオ品質評価のためのモデルトレーニング装置。

【請求項12】

請求項1～9の何れか一項に記載のビデオ品質評価のためのモデルトレーニング方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、前記評価対象のビデオデータの品質評価スコアを得るように配置された評価モジュールを備える
ビデオ品質評価装置。

【請求項13】

1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶された記憶装置とを備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、請求項1～9の何れか一項に記載のビデオ品質評価のためのモデルトレーニング方法を実現させる
電子機器。

【請求項14】

1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶された記憶装置とを備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、請求項10に記載のビデオ品質評価方法を実現させる
電子機器。

【請求項15】

コンピュータプログラムが記憶されたコンピュータ記憶媒体であって、前記プログラムがプロセッサによって実行されたときに、請求項1～9の何れか一項に記載のビデオ品質評価のためのモデルトレーニング方法を実現する
コンピュータ記憶媒体。

【請求項16】

コンピュータプログラムが記憶されたコンピュータ記憶媒体であって、前記プログラムがプロセッサによって実行されたときに、請求項10に記載のビデオ品質評価方法を実現する
コンピュータ記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本開示は2021年9月9日に中国特許庁に提出された第202111055446.0号特許出願の優先権を主張し、当該中国特許出願の全ての内容を援用によって引用する。

【0002】

［技術分野］
本開示は画像処理技術分野に関するものであるが、これに限定されない。

【背景技術】

【0003】

5G時代の到来とともに、ライブストリーミング、ショートビデオ、ビデオ通話など、ビデオアプリケーションはますます普及している。あらゆるものがビデオに依存するインターネットの時代において、ますます巨大化するデータトラフィックは、ビデオサービスシステムの安定性に深刻な挑戦をもたらしている。ビデオ品質をどのように正しく評価するかは、様々な技術の発展を制限する重要なボトルネックとなっており、ビデオ品質評価は音声・ビデオ分野における最も基本的かつ最も重要な問題であり、早急に解決する必要があるとさえ言える。

【発明の概要】

【0004】

本開示は、ビデオ品質評価のためのモデルトレーニング方法、ビデオ品質評価方法、ビデオ品質評価のためのモデルトレーニング装置、ビデオ品質評価装置、電子機器およびコンピュータ記憶媒体を提供する。

【0005】

第1の態様において、本開示は、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するステップと、各前記トレーニングビデオデータの平均意見値であるMOS値を決定するステップと、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るステップとを含む、ビデオ品質評価のためのモデルトレーニング方法を提供する。

【0006】

別の一態様において、本開示は、本明細書に記載の何れか1つの方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、前記評価対象のビデオデータの品質評価スコアを得るステップを含む、ビデオ品質評価方法を提供する。

【0007】

別の一態様において、本開示は、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するように配置された取得モジュールと、各前記トレーニングビデオデータの平均意見値であるMOS値を決定するように配置された処理モジュールと、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルを前記トレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るように配置されたトレーニングモジュールとを備える、ビデオ品質評価のためのモデルトレーニング装置を提供する。

【0008】

別の一態様において、本開示は、前記のビデオ品質評価のためのモデルトレーニング方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、前記評価対象のビデオデータの品質評価スコアを得るように配置された評価モジュールを備える、ビデオ品質評価装置を提供する。

【0009】

別の一態様において、本開示は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶された記憶装置とを備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、本明細書に記載の何れか1つのビデオ品質評価のためのモデルトレーニング方法を実現させる、電子機器を提供する。

【0010】

別の一態様において、本開示は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶された記憶装置とを備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されたときに、前記1つまたは複数のプロセッサに、本明細書に記載の何れか1つのビデオ品質評価方法を実現させる、電子機器を提供する。

【0011】

別の一態様において、本開示は、コンピュータプログラムが記憶されたコンピュータ記憶媒体であって、前記プログラムがプロセッサによって実行されたときに、本明細書に記載の何れか1つのビデオ品質評価のためのモデルトレーニング方法を実現する、コンピュータ記憶媒体を提供する。

【0012】

別の一態様において、本開示は、コンピュータプログラムが記憶されたコンピュータ記憶媒体であって、前記プログラムがプロセッサによって実行されたときに、本明細書に記載の何れか1つのビデオ品質評価方法を実現する、コンピュータ記憶媒体を提供する。

【図面の簡単な説明】

【0013】

【図1】図1は、本開示が提供するビデオ品質評価のためのモデルトレーニング方法のフローチャートである。

【図2】図2は、本開示が提供する初期ビデオ品質評価モデルをトレーニングするフローチャートである。

【図3】図3は、本開示が提供する3D畳み込みニューラルネットワークの模式図である。

【図4】図4は、本開示が提供するDenseNet（Densely connected convolutional networks）のフローチャートである。

【図5】図5は、本開示が提供するアテンションメカニズムネットワークのフローチャートである。

【図6】図6は、本開示が提供する階層畳み込みネットワークのフローチャートである。

【図7】図7は、本開示が提供する初期ビデオ品質評価モデルのフローチャートである。

【図8a】図8aは、本開示が提供する3D-PVQA方法の模式図である。

【図8b】図8bは、本開示が提供する参照ビデオデータのスクリーンショットと歪ビデオデータのスクリーンショットである。

【図9】図9は、本開示が提供する各トレーニングビデオデータの平均意見値であるMOS値を決定するフローチャートである。

【図10】図10は、本開示が提供するビデオ品質評価方法のフローチャートである。

【図11】図11は、本開示が提供するビデオ品質評価のためのモデルトレーニング装置のモジュール模式図である。

【図12】図12は、本開示が提供するビデオ品質評価装置のモジュール模式図である。

【図13】図13は、本開示が提供する電子機器の模式図である。

【図14】図14は、本開示が提供するコンピュータ記憶媒体の模式図である。

【発明を実施するための形態】

【0014】

以下、図面を参照して例示的な実施形態について詳細に説明するが、前記例示的な実施形態は、異なる形態で具現化されてもよく、本明細書に記載された実施形態に限定されると解釈すべきではない。むしろ、これら実施形態の提供は、本開示を徹底して完全なものにし、当業者に本開示の範囲を十分に理解させることを目的とする。

【0015】

本開示で使用する「および/または」という用語には、1つまたは複数の関連する列挙項目の任意およびすべての組み合わせが含まれる。

【0016】

本開示で使用する用語は特定の実施形態について説明するためのものにすぎず、かつ、本開示を制限する意図はない。本開示で使用する「1つの」と「当該」という単数形は、前後の文で別途明らかに説明しない限り複数形を含む意図もある。また、本明細書にて「含む」および/または「…からなる」という用語を使用したときは、前記特徴、全体、ステップ、オペレーション、素子および/またはコンポーネントの存在を指すが、1つまたは複数の他の特徴、全体、ステップ、オペレーション、素子、コンポーネントおよび/またはそれらのグループの存在または追加を除外するものでないことが、さらに理解されるであろう。

【0017】

本明細書で説明する実施形態は、本開示の理想的な模式図により、平面図および/または断面図を参照して説明することができる。従って、例示的な図示は、製造技術および/または公差に応じて変更され得る。よって、実施形態は、図面に示されたものに限定されず、製造工程に基づいて形成された構成の修正を含む。このため、図面に例示された領域は例示的な属性を有し、図に示された領域の形状は要素の領域の具体的な形状を例示するが、限定することは意図していない。

【0018】

本開示で使用するすべての用語（技術用語および科学用語を含む）は、特に限定されない限り、当業者が一般的に理解するものと同じ意味を有する。また、常用辞典にて限定されるそれら用語は、関連技術および本開示の背景でのその意味と一致する意味を有し、本明細書にて明確に限定しない限り、理想的または過度に形式的な意味を有するとして解釈されないであろうことがさらに理解されるであろう。

【0019】

現在の業界のビデオ品質評価方法は、主観的なビデオ品質評価と客観的なビデオ品質評価の2つに分けられる。主観的な方法は、観察者に直接ビデオ品質について直感的に判断させるもので、正確ではあるが比較的複雑であり、かつその結果は様々な要因の影響を受けやすく、産業分野に直接適用することはできない。そのため、実際には実現の容易な人工知能に基づく客観的手法を使用するのが一般的である。しかしながら、現段階では、これら技術を用いて形成された、PSNR（Peak Signal to Noise Ratio、ピーク信号対雑音比）、SSIM（Structural Similarity Index Measurement、構造類似度指数の測定）、VMAF（Video Multi-Method Assessment Fusion、ビデオマルチメソッド評価融合）などのスキームは、最終的な効果があまりよくない。よって、ビデオ品質をより正確に評価することは、依然として早急に解決しなければならない難題である。

【0020】

現在、PSNR、SSIM、VMAFなどの一般的なビデオ品質評価スキームには、依然として特徴の抽出が不完全であり、境界の区別が明らかではないなどといった問題が存在しているため、最終的な効果はあまりよくない。本開示が提案するのは、特徴を充分に抽出するため、および画像内の境界を正確に検出するための初期ビデオ品質評価モデルをプリセットし、参照ビデオデータと歪ビデオデータとを取得し、参照ビデオデータと歪ビデオデータとそのMOS値（MOS--Mean Opinion Score、平均意見値）を用いて初期ビデオ品質評価モデルをトレーニングし、最終的なビデオ品質評価モデルを取得するというものであり、これによりビデオ品質評価の精度を向上させる。

【0021】

図1に示すように、本開示はビデオ品質評価のためのモデルトレーニング方法を提供し、以下のステップS11～S13を含んでよい。

【0022】

ステップS11において、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得する。

【0023】

ステップS12において、各トレーニングビデオデータのMOS値を決定する。
ステップS13において、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルをトレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得る。

【0024】

ここで、参照ビデオデータは標準ビデオデータとみなすことができ、参照ビデオデータと歪みビデオデータを、オープンソースデータセットLIVE、CSIQ、IVP、および自作データセットCENTERによって取得することができる。MOS値は、ビデオデータの品質の高さを表すための数値である。オープンソースデータセットLIVE、CSIQ、IVPにおけるビデオデータには、通常、対応するMOS値が含まれているが、自作データセットCENTERにおけるビデオデータには、対応するMOS値が含まれていないため、各トレーニングビデオデータのMOS値を決定する必要があり、オープンソースデータセットLIVE、CSIQ、IVPのトレーニングビデオデータから直接MOS値を取得して、自作データセットCENTERからのトレーニングビデオデータのために相応のMOS値を生成することができ、勿論、直接すべてのトレーニングビデオデータのために相応のMOS値を生成することもできる。初期ビデオ品質評価モデルをトレーニングする過程において、収束条件に達すると、モデルはすでにビデオ品質評価のニーズを満たしたと判断することができ、このときにトレーニングを停止し、最終的なビデオ品質評価モデルを取得する。

【0025】

上記ステップS11～S13から見て取れるように、本開示が提供するビデオ品質評価のためのモデルトレーニング方法によって、画像特徴を充分に抽出するため、および画像における境界を正確に検出するための初期ビデオ品質評価モデルをプリセットし、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得し、これと同時に、参照ビデオデータと歪ビデオデータとを用いて初期ビデオ品質評価モデルをトレーニングして最終的なビデオ品質評価モデルを取得することでは、歪ビデオデータと非歪ビデオデータ、すなわち、参照ビデオデータを明確に区別して、モデルをトレーニングするためのビデオデータの独立性と多様性を保証することができる。初期ビデオ品質評価モデルをトレーニングして得た最終的なビデオ品質評価モデルは、画像特徴を充分に抽出することと、画像内の境界を正確に検出することができ、当該最終的なビデオ品質評価モデルを直接使用して評価対象のビデオデータに対して品質評価をすることができ、ビデオ品質評価の精度を向上させている。

【0026】

一般的には、ネットワークアーキテクチャが決定している状況において、モデルには、モデルの最終的な性能に影響を与える2つの部分の内容があり、1つの部分の内容は重み、バイアスなどのモデルのパラメータであり、もう1つの部分の内容は学習率、ネットワーク層数などのモデルのハイパーパラメータである。同一のトレーニングデータを用いてモデルのパラメータとハイパーパラメータを最適化すると、モデルの絶対的なオーバーフィッティングにつながる可能性ある。したがって、2つの独立したデータセットを用いて、初期ビデオ品質評価モデルのパラメータとハイパーパラメータをそれぞれ最適化することができる。

【0027】

これに対応して、図2に示すように、幾つかの実施形態では、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルをトレーニングビデオデータとそのMOS値とに基づいてトレーニングする前記ステップ（すなわち、ステップS13にて説明した通り）は、以下のステップS131とS132を備えてよい。

【0028】

ステップS131において、プリセット比率とトレーニングビデオデータとに基づいてトレーニングセットと検証セットとを決定し、トレーニングセットと検証セットとのインターセクションは空集合である。

【0029】

ステップS132において、収束条件に達するまで、初期ビデオ品質評価モデルのパラメータをトレーニングセットとトレーニングセットにおける各ビデオデータのMOS値とに基づいて調整し、初期ビデオ品質評価モデルのハイパーパラメータを検証セットと検証セットにおける各ビデオデータのMOS値とに基づいて調整する。

【0030】

本開示はプリセット比率について具体的に限定せず、例えば、トレーニングデータは6：4の比率でトレーニングセットと検証セットとに分けられてよい。もちろん、プリセット比率は、8：2、5：5などの他の比率であってもよい。最終的なビデオ品質評価モデルの汎化能力を簡単に評価するために、トレーニングビデオデータをトレーニングセット、検証セットおよびテストセットとして決定することもできる。例えば、トレーニングビデオデータは6：2：2の比率でトレーニングセット、検証セットおよびテストセットに分けることができ、トレーニングセット、検証セットおよびテストセットは2つずつの間のインターセクションが空集合である。分けた後、トレーニングセットと検証セットは、初期ビデオ品質評価モデルをトレーニングして最終的なビデオ品質評価モデルを得るために使用され、テストセットは、最終的なビデオ品質評価モデルの汎化能力を評価するために使用される。なお、テストセットデータが多ければ多いほど、テストセットを用いて最終的なビデオ品質評価モデルの汎化能力を評価するのに時間がかかり、初期ビデオ品質評価モデルのトレーニングに使用するビデオデータが多ければ多いほど、最終的なビデオ品質評価モデルの精度が高くなる。ビデオ品質評価の効率と精度をさらに向上させるために、トレーニングビデオデータの数を適宜に増やし、トレーニングビデオデータにおけるトレーニングセットと検証セットの比率を適宜に増やすことができ、トレーニングビデオデータにおいて、トレーニングセット、検証セット、テストセットを例えば10：1：1などその他の比率で分けることができる。

【0031】

上記ステップS131とS132から見て取れるように、本開示が提供するビデオ品質評価のためのモデルトレーニング方法によって、インターセクションが空集合であるトレーニングセットと検証セットとを、プリセット比率とトレーニングビデオデータとに基づいて決定し、初期ビデオ品質評価モデルのパラメータをトレーニングセットとトレーニングセットにおける各ビデオデータのMOS値とを用いて調整し、初期ビデオ品質評価モデルのハイパーパラメータを検証セットと検証セットにおける各ビデオデータのMOS値とを用いて調整し、収束条件に達したときに、画像特徴を充分に抽出し、画像内の境界を高精度で検出することができる最終的なビデオ品質評価モデルが得られ、ビデオ品質評価の精度を向上させている。

【0032】

プリセットされた初期ビデオ品質評価モデルをトレーニングビデオデータとそのMOS値とに基づいてトレーニングすることは、ディープラーニングに基づくモデルトレーニング過程であり、トレーニングビデオデータのMOS値を基準とし、モデルの出力結果が絶えずMOS値に近づくよう尽力することに相当する。モデルが出力した評価結果とMOS値との間の差が小さい場合、モデルはビデオ品質評価に合ったニーズを満たしているとみなすことができる。

【0033】

これに対応して、前記収束条件は、トレーニングセットおよび検証セットにおける各ビデオデータの評価誤差率がいずれもプリセット閾値を超えないということを含み、評価誤差率は下式によって算出され、
E=（|S-Mos|）/Mos
Eは現在のビデオデータの評価誤差率であり、
Sはパラメータとハイパーパラメータとを調整した後の初期品質評価モデルが出力した現在のビデオデータの評価スコアであり、
Mosは現在のビデオデータのMOS値である。

【0034】

任意のビデオデータについて、現在のビデオデータのMOS値はすでに事前に決定されており、パラメータとハイパーパラメータとを調整した後の初期品質評価モデルに現在のビデオデータを入力した後、パラメータとハイパーパラメータとを調整した後の初期品質評価モデルは、現在のビデオデータの評価スコアSを出力するため、現在のビデオデータの評価誤差率Eを算出して得ることができる。トレーニングセットにおける各ビデオデータと、検証セットにおける各ビデオデータの誤差評価率がいずれもプリセット閾値を超えない場合、モデルが出力した評価結果とMOS値との間の差は小さく、モデルはビデオ品質評価に合ったニーズをすでに満たしているということを表し、このときにトレーニングを停止することができる。なお、本開示ではプリセット閾値について具体的に限定せず、例えば、プリセット閾値は、0.28、0.26、0.24などであってもよい。

【0035】

現在、PSNR、SSIM、VMAFなどの一般的なビデオ品質評価スキームには、動き情報の損失という問題が依然として存在しており、最終的な効果があまりよくない。本開示において、プリセットされた初期ビデオ品質評価モデル内には、ビデオ品質評価の精度を向上させるために、動き情報を抽出するための3D畳み込みニューラルネットワークを備えてよい。これに対応して、幾つかの実施形態において、前記初期ビデオ品質評価モデルは、画像フレームの動き情報を抽出するための3D畳み込みニューラルネットワークを備える。

【0036】

図3に示すように、図3は本開示が提供する3D畳み込みニューラルネットワークの模式図である。当該3D畳み込みニューラルネットワークは複数の連続する画像フレームを立方体に積み重ねてから、その立方体に3D畳み込みカーネルを適用することができる。3D畳み込みニューラルネットワークのアーキテクチャにおいて、畳み込み層における各特徴マップ（図3の右半分に示す）は、前の層における複数の隣接する連続フレーム（図3の左半分に示す）に接続されるため、連続する画像フレーム間の動き情報を捉えることができる。

【0037】

3D畳み込みニューラルネットワークのみを利用して画像フレームの動き情報を抽出することでは、ビデオデータについて完全な評価を行うことはできず、これに対応して、幾つかの実施形態において、前記初期ビデオ品質評価モデルは、アテンションモデルと、データ融合処理モジュールと、グローバルプーリングモジュールと、全結合層とをさらに備えてよく、アテンションモデルと、データ融合処理モジュールと、3D畳み込みニューラルネットワークと、グローバルプーリングモジュールと、全結合層とが順次カスケード接続されている。

【0038】

幾つかの実施形態において、前記アテンションモデルは、カスケード接続された多入力ネットワークと、2D畳み込みモジュールと、DenseNet（Densely connected convolutional networks）と、ダウンサンプリング処理モジュールと、階層畳み込みネットワークと、アップサンプリング処理モジュールと、アテンションメカニズムネットワークとを備え、DenseNet（Densely connected convolutional networks）は、少なくとも2つのカスケード接続された密畳み込みモジュールを備え、密畳み込みモジュールは4つのカスケード接続された密結合畳み込み層を備える。

【0039】

図4に示すように、図4は本開示が提供するDenseNet（Densely connected convolutional networks）の模式図である。DenseNet（Densely connected convolutional networks）は、少なくとも2つのカスケード接続された密畳み込みモジュールを備え、各密畳み込みモジュールは、4つのカスケード接続された密結合畳み込み層を備え、各密畳み込み接続層の入力はいずれも現在の密畳み込みモジュールのすべての前段密畳み込み接続層の特徴マップの融合である。エンコーダの各層がプーリングされた後の特徴マップはいずれも1つの密畳み込みモジュールを通過することになり、1つの密畳み込みモジュールを通過する毎にBN（BatchNormalization、バッチ正規化）操作、ReLU（Rectified Linear Units、線形補正ユニット）アクティブ関数操作と畳み込みConv演算が実行される。

【0040】

幾つかの実施形態において、前記アテンションメカニズムネットワークは、カスケード接続されたアテンション畳み込みモジュールと、線形補正ユニットアクティブモジュールと、非線形アクティブモジュールと、アテンションアップサンプリング処理モジュールとを備える。

【0041】

【数1】

【0042】

幾つかの実施形態において、前記階層畳み込みネットワークは、第1の階層ネットワークと、第2の階層ネットワークと、第3の階層ネットワークと、第4のアップサンプリング処理モジュールとを備え、第1の階層ネットワークは、カスケード接続された第1のダウンサンプリング処理モジュールと第1の階層畳み込みモジュールとを備え、第2の階層ネットワークは、カスケード接続された第2のダウンサンプリング処理モジュールと、第2の階層畳み込みモジュールと、第2のアップサンプリング処理モジュールとを備え、第3の階層ネットワークは、カスケード接続されたグローバルプーリングモジュールと、第3の階層畳み込みモジュールと、第3のアップサンプリング処理モジュールとを備え、第1の階層畳み込みモジュールは、第2のダウンサンプリング処理モジュールともカスケード接続されており、第1の階層畳み込みモジュールおよび第2のアップサンプリング処理モジュールは、第4のアップサンプリング処理モジュールとカスケード接続されており、第4のアップサンプリング処理モジュールおよび第3のアップサンプリング処理モジュールは、第3の階層畳み込みモジュールともカスケード接続されている。

【0043】

ここで、第1のダウンサンプリング処理モジュール、第2のダウンサンプリング処理モジュールは、いずれもデータに対しダウンサンプリング処理を行うように配置される。第2のアップサンプリング処理モジュールと、第3のアップサンプリング処理モジュールと、第4のアップサンプリング処理モジュールは、いずれもデータに対しアップサンプリング処理を行うために使用される。

【0044】

【数2】

【0045】

幾つかの実施形態において、第1の階層畳み込みモジュールはデータに対しConv 5*5操作（すなわち、5*5畳み込み演算）を行うことができ、第2の階層畳み込みモジュールはデータに対しConv 3*3操作（すなわち、3*3畳み込み演算）を行うことができ、第3の階層畳み込みモジュールはデータに対しConv 1*1操作（すなわち、1*1畳み込み演算）を行うことができる。同一の畳み込みモジュールを用いてそれぞれConv 5*5操作と、Conv 3*3操作と、Conv 1*1操作を行うこともできると理解されよう。

【0046】

図7に示すように、図7は本開示が提供する初期ビデオ品質評価モデルのフローチャートである。ここで、初期ビデオ品質評価モデルは、多入力ネットワークと、2D畳み込みモジュールと、DenseNet（Densely connected convolutional networks）と、ダウンサンプリング処理モジュールと、階層畳み込みネットワークと、アップサンプリング処理モジュールと、アテンションメカニズムネットワークと、データ融合処理モジュールと、3D畳み込みニューラルネットワークと、グローバルプーリングモジュールと、全結合層とを備えてよい。

【0047】

本開示が提供するビデオ品質評価モデルは、3D-PVQA（3 Dimensions Pyramid Video Quality Assessment、3Dピラミッドビデオ品質評価）モデルおよび3D-PVQA方法と称され得る。前記ステップS132において、トレーニングセットにおける各ビデオデータおよび検証セットにおける各ビデオデータはいずれも歪ビデオデータと残差ビデオデータとに分けられ、それぞれ3D-PVQAモデルに入力され、すなわち、残差多入力Residual-Multi-Inputと歪み多入力Distored-Multi-Inputである。残差ビデオデータは、歪ビデオデータと参照ビデオデータとに基づいて残差フレームResidual Framesを用いて処理して得られる。多入力ネットワークは入力されたデータを2つのグループのデータとして出力し、第1のグループのデータは初期の入力データであり、第2のグループのデータはデータフレームの大きさによって初期の入力データを1倍縮小した後のデータである。

【0048】

下半部分の歪み多入力（Distored-Multi-Input）を例とすると、多入力ネットワークは2つのグループのデータを出力し、第1のグループのデータは、2D畳み込みモジュールを経て処理が行われた後、DenseNet（Densely connected convolutional networks）に入力され処理されてから、ダウンサンプリング処理モジュールに入力され処理され、第2のグループのデータは、2D畳み込みモジュールを経て処理が行われた後、ダウンサンプリング処理モジュールの出力と融合（concat）してから、DenseNet（Densely connected convolutional networks）に再度入力され処理され、このときに、DenseNet（Densely connected convolutional networks）の一部の出力はダウンサンプリング処理モジュールに再度入力され処理され、ダウンサンプリング処理モジュールの出力は階層畳み込みネットワークに入力され処理される。階層畳み込みネットワークの出力はDenseNet（Densely connected convolutional networks）の他の部分とともにアテンションメカニズムネットワークに入力され処理される。データ融合処理モジュールは、アテンションメカニズムネットワーク処理により得られた残差ビデオデータの出力結果と歪ビデオデータの出力結果とに対しデータ融合処理を行い、データ融合処理モジュールの出力は2つの3D畳み込みニューラルネットワークに入力され、3D畳み込みニューラルネットワークはロストフレームの知覚可能性の閾値を出力し、ロストフレームの知覚可能性の閾値は、残差フレームで得られた残差データフレームと行列乗算処理を行い、最後にグローバルプーリングモジュールと全結合層に入力され処理され、ビデオデータの品質評価スコアを出力する。

【0049】

同じモジュールを繰り返し利用可能であり、図6には、2つの第1の階層畳み込みモジュール、2つの第2の階層畳み込みモジュールおよび3つの第3の階層畳み込みモジュールが示されているが、階層畳み込みネットワークには2つの第1の階層畳み込みモジュール、2つの第2の階層畳み込みモジュールおよび3つの第3の階層畳み込みモジュールがあるということを指すのではないと理解されたい。ダウンサンプリング処理モジュールと階層畳み込みネットワークにおけるダウンサンプリング処理モジュールは同一のダウンサンプリング処理モジュールであってもよく、異なるダウンサンプリング処理モジュールであってもよく、アップサンプリング処理モジュールと階層畳み込みネットワークにおけるアップサンプリング処理モジュールおよびアテンションメカニズムネットワークにおけるアテンションアップサンプリング処理モジュールは、同一のアップサンプリング処理モジュールであってもよく、異なるアップサンプリング処理モジュールであってもよい。

【0050】

図8aに示すように、プリセット比率に基づいて、トレーニングビデオデータをトレーニングセットと、検証セットと、テストセットとに分けることができ、トレーニングセットを3D-PVQAモデルに入力してトレーニングすることと、検証セットを3D-PVQAモデルに入力して検証を行うことと、テストセットを3D-PVQAモデルに入力してテストすることでは、いずれも相応の品質評価スコアが得られる。前に示したように、テストセットを、最終的なビデオ品質評価モデルの汎化能力を評価するために使用することができる。図8bに示すように、左側は参照ビデオデータのスクリーンショットであり、右側は歪ビデオデータのスクリーンショットであり、下表1は、ビデオデータのMOS値と3D-PVQAモデルで出力されたビデオデータに対応する品質評価スコアを示す。

【0051】

【表1】

【0052】

図9に示すように、幾つかの実施形態において、各トレーニングビデオデータの平均意見値であるMOS値を決定する前記ステップ（すなわち、ステップS12）は、以下のステップS121～S124を備えてよい。

【0053】

ステップS121において、各トレーニングビデオデータをグループ分けし、各グループに1つの参照ビデオデータと複数の歪ビデオデータとを備え、かつ、各グループにおける各ビデオデータの解像度が同一であり、かつ各グループにおける各ビデオデータのフレームレートが同一である。

【0054】

ステップS122において、各グループにおける各歪ビデオデータを分類する。
ステップS123において、各グループにおけるそれぞれの分類の各歪ビデオデータをグレーディングする。

【0055】

ステップS124において、各トレーニングビデオデータのグループ分けと、分類と、グレーディングとに基づいて各トレーニングビデオデータのMOS値を決定する。

【0056】

ここで、各グループにおける各歪ビデオデータを分類する際に、パケットロス型歪み、コーディング型歪みなどの異なる類別の歪ビデオデータに歪ビデオデータを分けることができ、各グループにおけるそれぞれの分類の各歪ビデオデータをグレーディングする際に、軽度、中度、重度の3つの異なる歪みレベルに歪ビデオデータを分けることができる。

【0057】

各トレーニングビデオデータをグループ分け、分類、グレーディングした後、各グループに1つの参照ビデオデータと複数の歪ビデオデータとを備え、複数の歪ビデオデータは異なる類別に属し、各類別での歪ビデオデータは異なる歪みレベルに属する。各グループにおける参照ビデオデータに基づいて、SAMVIQ（Subjective Assessment Method for Video Quality evaluation、マルチメディアビデオ品質の主観的評価）方法およびグループ分け、分類、グレーディング状況を利用して各トレーニングビデオデータのMOS値を決定することができる。

【0058】

図10に示すように、本開示はビデオ品質評価方法をさらに提供し、以下のステップS21を備えてよい。

【0059】

ステップS21において、前記のビデオ品質評価のためのモデルトレーニング方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、評価対象のビデオデータの品質評価スコアを得る。

【0060】

画像特徴を充分に抽出するため、および画像内の境界を正確に検出するための初期ビデオ品質評価モデルをプリセットし、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得し、これと同時に、参照ビデオデータと歪ビデオデータとを用いて初期ビデオ品質評価モデルをトレーニングして最終的なビデオ品質評価モデルを取得することでは、モデルをトレーニングするビデオデータの独立性と多様性を保証している。当該最終的なビデオ品質評価モデルを直接使用して評価対象のビデオデータに対して品質評価をすることができ、ビデオ品質評価の精度を向上させている。

【0061】

同じ技術思想に基づき、図11に示すように、本開示はビデオ品質評価のためのモデルトレーニング装置をさらに提供し、取得モジュール101と、処理モジュール102と、トレーニングモジュール103とを備えてよい。

【0062】

取得モジュール101は、参照ビデオデータと歪ビデオデータとを備えるトレーニングビデオデータを取得するように配置される。

【0063】

処理モジュール102は、各トレーニングビデオデータのMOS値を決定するように配置される。

【0064】

トレーニングモジュール103は、収束条件に達するまで、プリセットされた初期ビデオ品質評価モデルをトレーニングビデオデータとそのMOS値とに基づいてトレーニングし、最終的なビデオ品質評価モデルを得るように配置される。

【0065】

幾つかの実施形態において、前記トレーニングモジュール103は、プリセット比率とトレーニングビデオデータとに基づいてトレーニングセットと検証セットとを決定し、トレーニングセットと検証セットとのインターセクションは空集合であり、収束条件に達するまで、初期ビデオ品質評価モデルのパラメータをトレーニングセットとトレーニングセットにおける各ビデオデータのMOS値とに基づいて調整し、初期ビデオ品質評価モデルのハイパーパラメータを検証セットと検証セットにおける各ビデオデータのMOS値とに基づいて調整するように配置される。

【0066】

幾つかの実施形態において、前記収束条件は、トレーニングセットおよび検証セットにおける各ビデオデータの評価誤差率がいずれもプリセット閾値を超えないということを含み、前記評価誤差率は下式によって算出され、
E=（|S-Mos|）/Mos
Eは現在のビデオデータの評価誤差率であり、
Sはパラメータとハイパーパラメータとを調整した後の初期品質評価モデルが出力した現在のビデオデータの評価スコアであり、
Mosは現在のビデオデータのMOS値である。

【0067】

幾つかの実施形態において、前記初期ビデオ品質評価モデルは、画像フレームの動き情報を抽出するための3D畳み込みニューラルネットワークを備える。

【0068】

幾つかの実施形態において、前記初期ビデオ品質評価モデルは、アテンションモデルと、データ融合処理モジュールと、グローバルプーリングモジュールと、全結合層とをさらに備え、アテンションモデルと、データ融合処理モジュールと、3D畳み込みニューラルネットワークと、グローバルプーリングモジュールと、全結合層とが順次カスケード接続されている。

【0069】

【0070】

【0071】

【0072】

幾つかの実施形態において、前記処理モジュール102は、各トレーニングビデオデータをグループ分けし、各グループに1つの参照ビデオデータと複数の歪ビデオデータとを備え、かつ各グループにおける各ビデオデータの解像度が同一であり、かつ各グループにおける各ビデオデータのフレームレートが同一であり、各グループにおける各ビデオデータを分類し、各グループにおけるそれぞれの分類の各ビデオデータをグレーディングし、各トレーニングビデオデータのグループ分けと、分類と、グレーディングとに基づいて各トレーニングビデオデータのMOS値を決定するように配置される。

【0073】

同じ技術思想に基づき、図12に示すように、本開示はビデオ品質評価装置をさらに提供し、前記のビデオ品質評価のためのモデルトレーニング方法でトレーニングして得た最終的な品質評価モデルに基づいて評価対象のビデオデータを処理し、評価対象のビデオデータの品質評価スコアを得るように配置された評価モジュール201を備える。

【0074】

このほか、図13に示すように、本開示実施形態は電子機器をさらに提供し、1つまたは複数のプロセッサ301と、1つまたは複数のプログラムが記憶された記憶装置302とを備え、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサ301によって実行されたときに、前記1つまたは複数のプロセッサ301に、前記各実施形態によるビデオ品質評価のためのモデルトレーニング方法と、前記各実施形態によるビデオ品質評価方法のうちの少なくとも1つの方法を実現させる。

【0075】

このほか、図14に示すように、本開示の実施形態はコンピュータプログラムが記憶されたコンピュータ記憶媒体をさらに提供し、前記プログラムがプロセッサによって実行されたときに、前記各実施形態によるビデオ品質評価のためのモデルトレーニング方法と、前記各実施形態によるビデオ品質評価方法のうちの少なくとも1つの方法を実現する。

【0076】

当業者は、上文にて開示した方法におけるステップ、装置のうちの機能モジュール/ユニットの全てまたはいくつかが、ソフトウェア、ファームウェア、ハードウェア、およびそれらの適切な組み合わせとして実行されてもよいことを理解するであろう。ハードウェア実施形態において、上記の説明で言及した機能モジュール/ユニット間の区分は、必ずしも物理コンポーネントの区分に対応しない。例えば、1つの物理コンポーネントは複数の機能を有してもよく、1つの機能またはステップは幾つかの物理コンポーネントの協働によって実行されてもよい。いくつかの物理コンポーネントまたはすべての物理コンポーネントは、中央処理装置、デジタル信号プロセッサ、もしくはマイクロプロセッサなどのプロセッサによって実行されるソフトウェアとして、ハードウェアとして、または特定用途向け集積回路などの集積回路として実行され得る。このようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含み得るコンピュータ読み取り可能な媒体上に分散され得る。当業者によく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令やデータ構造、プログラムモジュール、他のデータなどの情報を記憶するための任意の方法または技術で実行される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気メモリ、または所望の情報を記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を含むが、これらに限定されない。また、通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュール、または搬送波もしくは他の搬送メカニズムなどの変調データ信号内の他のデータを含み、かつ、任意の情報配信媒体を含み得ることが当業者に知られている。

【0077】

本明細書では例示的な実施形態を開示しており、また、特定の用語を用いているが、それらは一般的な説明的な意味としてのみ使用され、解釈されるべきであり、限定を目的としたものではない。いくつかの実例では、特定の実施形態と組み合わせて説明される特徴、特性、および/または要素は、別途明確に指摘しない限り、単独で、または他の実施形態と組み合わせて説明される特徴、特性、および/または要素と組み合わせて使用され得ることが当業者に明らかであろう。したがって、添付の請求項によって明らかにされている本開示の範囲から逸脱しない限り、様々な形態および細部における変更が行われ得ることを当業者は理解するであろう。

【図1】