IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

<>
  • 特許-超解像度再構築方法及び関連装置 図1
  • 特許-超解像度再構築方法及び関連装置 図2
  • 特許-超解像度再構築方法及び関連装置 図3
  • 特許-超解像度再構築方法及び関連装置 図4
  • 特許-超解像度再構築方法及び関連装置 図5
  • 特許-超解像度再構築方法及び関連装置 図6
  • 特許-超解像度再構築方法及び関連装置 図7
  • 特許-超解像度再構築方法及び関連装置 図8
  • 特許-超解像度再構築方法及び関連装置 図9
  • 特許-超解像度再構築方法及び関連装置 図10
  • 特許-超解像度再構築方法及び関連装置 図11
  • 特許-超解像度再構築方法及び関連装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-10
(45)【発行日】2024-01-18
(54)【発明の名称】超解像度再構築方法及び関連装置
(51)【国際特許分類】
   G06T 3/4046 20240101AFI20240111BHJP
   G06T 3/4053 20240101ALI20240111BHJP
【FI】
G06T3/40 725
G06T3/40 730
【請求項の数】 14
(21)【出願番号】P 2022540308
(86)(22)【出願日】2021-04-12
(65)【公表番号】
(43)【公表日】2023-03-02
(86)【国際出願番号】 CN2021086584
(87)【国際公開番号】W WO2021233008
(87)【国際公開日】2021-11-25
【審査請求日】2022-06-28
(31)【優先権主張番号】202010435082.8
(32)【優先日】2020-05-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】王 茹
(72)【発明者】
【氏名】李 雅▲卿▼
(72)【発明者】
【氏名】▲塗▼ 承杰
(72)【発明者】
【氏名】熊 ▲詩▼▲堯▼
(72)【発明者】
【氏名】江 林燕
(72)【発明者】
【氏名】彭 ▲龍▼涛
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2017-091231(JP,A)
【文献】特開2019-074892(JP,A)
【文献】特開2010-206273(JP,A)
【文献】特開2008-092462(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/00
(57)【特許請求の範囲】
【請求項1】
端末機器が実行する人工知能に基づく超解像度再構築方法であって、
第1の解像度の処理対象のビデオフレームシーケンスを取得するステップと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得するステップであって、前記第2の解像度は、前記第1の解像度よりも高いものであるステップと、
残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定するステップを含む、前記初期再構築ビデオフレームにおける輪郭領域を決定するステップと、
前記輪郭領域を輪郭強調処理するとともに、前記平坦領域をノイズ除去処理して、ターゲット再構築ビデオフレームを取得するステップを含む、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するステップと、
前記ターゲット再構築ビデオフレームに基づいて、第2の解像度の再構築ビデオフレームシーケンスを生成するステップと、を含む、超解像度再構築方法。
【請求項2】
前記残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定する前記ステップは、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得するステップと、
前記処理対象のビデオフレームに対応する前記初期再構築ビデオフレームと前記バイキュービック補間増幅結果に基づいて残差分離を行うことで、高周波マスクと低周波マスクを取得するステップと、
前記初期再構築ビデオフレームと、前記バイキュービック補間増幅結果と、前記高周波マスクに基づいて前記輪郭領域を決定し、前記初期再構築ビデオフレームと、前記バイキュービック補間増幅結果と、前記低周波マスクに基づいて前記平坦領域を決定するステップと、を含む、請求項に記載の方法。
【請求項3】
第1の解像度の処理対象のビデオフレームシーケンスを取得する前記ステップは、
ビデオ再生命令を取得するステップと、
前記ビデオ再生命令に基づいて、前記処理対象のビデオフレームシーケンスに対応するビデオファイルを再生するステップと、
前記ビデオファイルの解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第2の解像度に関連付けられている場合、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得する前記ステップを実行するステップと、を含む、請求項1に記載の方法。
【請求項4】
前記ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成する前記ステップの後、
現在再生中のビデオフレームの次のビデオフレームを決定するステップと、
前記再構築ビデオフレームシーケンスのうち、前記次のビデオフレームに対応するターゲット再構築ビデオフレームを決定するステップと、
次のビデオフレームを再生する際、前記次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替えて、前記再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生するステップと、をさらに含む、請求項1に記載の方法。
【請求項5】
前記解像度再構築モデルは、
収集されたオリジナルビデオサンプルをダウンサンプリング処理とビデオ圧縮処理することで、ターゲットビデオサンプルを取得するステップであって、前記オリジナルビデオサンプルの解像度は、予め設定された閾値よりも高いものであるステップと、
前記ターゲットビデオサンプルに基づいて低解像度サンプルセットを決定するステップであって、前記低解像度サンプルセットには、前記ターゲットビデオサンプル内の予め設定されたフレーム位置に位置するマルチフレームの第1の画像が含まれるステップと、
前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第2の画像を輪郭強調処理することで、高解像度サンプルセットを取得するステップであって、前記高解像度サンプルセットには、輪郭強調処理後の前記マルチフレームの第2の画像である、マルチフレームの第3の画像が含まれる、ステップと、
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築するステップと、
前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングすることで、前記解像度再構築モデルを取得するステップと、
に従ってトレーニングされたものである、請求項1に記載の方法。
【請求項6】
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築する前記ステップは、
第1のサイズに従って前記マルチフレームの第3の画像をそれぞれ分割して、ラベル図を取得し、第2のサイズに従って前記マルチフレームの第1の画像をそれぞれ分割して、入力画像を取得するステップと、
前記マルチフレームの第3の画像のうち、各フレームの第3の画像に対応するラベル図に対して、前記ラベル図のうち、前記第3の画像に属する平坦領域のターゲットラベル図を決定するステップと、
前記ターゲットラベル図及び前記ターゲットラベル図に対応する入力画像を除去するステップと、を含む、請求項に記載の方法。
【請求項7】
前記ラベル図のうち、前記第3の画像に属する平坦領域のターゲットラベル図を決定する前記ステップは、
前記第3の画像に基づいて対応する初期演算子図を生成するステップと、
前記初期演算子図における画素値が第1の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得するステップと、
前記第1のサイズに従って前記ターゲット演算子図を分割し、前記ターゲット演算子図の演算子サブ図を取得するステップであって、前記演算子サブ図は、前記第3の画像のラベル図に一対一で対応するステップと、
前記演算子サブ図における画素値がゼロでない画素点の個数が第2の閾値を超えない場合、前記演算子サブ図に対応するラベル図が前記ターゲットラベル図であると決定するステップと、を含む、請求項に記載の方法。
【請求項8】
収集されたオリジナルビデオサンプルをビデオ圧縮処理することは、
予め設定された範囲内で複数の異なる固定コードレート係数を選択するステップと、
前記複数の異なる固定コードレート係数を利用して前記オリジナルビデオサンプルをそれぞれビデオ圧縮処理することで、複数の解像度のターゲットビデオサンプルを取得するステップと、を含む、請求項に記載の方法。
【請求項9】
解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得する前記ステップは、
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも2回の残差抽出を行い、各残差抽出結果を取得するステップと、
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得するステップと、を含む、請求項1に記載の方法。
【請求項10】
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも2回の残差抽出を行うことで、各残差抽出結果を取得する前記ステップは、
前記解像度再構築モデルにおける畳み込み層によって前記処理対象のビデオフレームを畳み込み処理することで、前記処理対象のビデオフレームに対応する畳み込み処理結果を取得するステップと、
前記畳み込み処理結果に基づいて、ネットワーク本体構造における各残差ブロックを順に残差抽出を行い、前記各残差ブロックの残差抽出結果を取得するステップであって、前記各残差ブロックは、カスケード接続されたものであるステップと、を含む、請求項に記載の方法。
【請求項11】
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得する前記ステップは、
スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得するステップと、
前記残差スプライシング特徴を特徴融合することで、融合特徴図を取得するステップと、
融合特徴図をアップサンプリング処理することで、第2の解像度の初期再構築ビデオフレームを取得するステップであって、前記初期再構築ビデオフレームは、前記処理対象のビデオフレームに対応するものであるステップと、を含む、請求項に記載の方法。
【請求項12】
人工知能に基づく超解像度再構築装置であって、
第1の解像度の処理対象のビデオフレームシーケンスを取得する取得ユニットと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する再構築ユニットと、
残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定することを実行する、前記初期再構築ビデオフレームにおける輪郭領域を決定する決定ユニットと、
前記輪郭領域を輪郭強調処理するとともに、前記平坦領域をノイズ除去処理して、ターゲット再構築ビデオフレームを取得することを実行する、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する処理ユニットと、
前記ターゲット再構築ビデオフレームに基づいて、第2の解像度の再構築ビデオフレームシーケンスを生成する生成ユニットと、を含む、超解像度再構築装置。
【請求項13】
プロセッサ及びメモリを含む機器であって、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、請求項1から請求項11のいずれか1項に記載の方法を実行する、機器。
【請求項14】
コンピュータで実行されると、前記コンピュータに請求項1から請求項11のいずれか1項に記載の方法を行わせる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年05月21日に中国国家知識産権局に提出された、出願番号が202010435082.8で、発明の名称が「超解像度再構築方法、装置、機器、及び記憶媒体」の中国特許出願についての優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
【0002】
[技術分野]
本願は、画像処理分野に関し、特に超解像度再構築に関する。
【背景技術】
【0003】
画像超解像度とは、情報が補完される1枚又は複数枚の低解像度画像を処理することによって、1枚の高解像度画像を再構築する技術として、メディアデータ(例えば、ビデオ又は画像)の品質を向上させる必要がある様々な分野、例えばオンラインのビデオ視聴、医学映像、ビデオモニタリング、リモートセンシングイメージングなどの分野に広く応用されている。
【発明の概要】
【課題を解決するための手段】
【0004】
本願は、上記課題を解決するために、モデル出力の初期再構築ビデオフレームを後処理することで、オンラインの実際のアプリケーションシーンに適合する画質を取得することができ、汎化効果がより良く、ユーザのビデオ体験の向上に有利である、人工知能に基づく超解像度再構築方法及び関連装置を提供する。
【0005】
本願の実施例は、以下の技術案を開示する。
一側面では、本願の実施例は、端末機器が実行する人工知能に基づく超解像度再構築方法であって、
第1の解像度の処理対象のビデオフレームシーケンスを取得するステップと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得するステップであって、前記第2の解像度は、前記第1の解像度よりも高いものであるステップと、
前記初期再構築ビデオフレームにおける輪郭領域を決定するステップと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するステップと、
前記ターゲット再構築ビデオフレームに基づいて、第2の解像度の再構築ビデオフレームシーケンスを生成するステップと、を含む、超解像度再構築方法を提供する。
【0006】
他側面では、本願の実施例は、人工知能に基づく超解像度再構築装置であって、
第1の解像度の処理対象のビデオフレームシーケンスを取得する取得ユニットと、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する再構築ユニットと、
前記初期再構築ビデオフレームにおける輪郭領域を決定する決定ユニットと、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する処理ユニットと、
前記ターゲット再構築ビデオフレームに基づいて、第2の解像度の再構築ビデオフレームシーケンスを生成する生成ユニットと、を含む、超解像度再構築装置を提供する。
【0007】
他側面では、本願の実施例は、プロセッサ及びメモリを含む機器であって、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコードにおける命令に基づいて、上記の方面に記載の超解像度再構築方法を実行する機器を提供する。
【0008】
他側面では、本願の実施例は、コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、上記の方面に記載の方法を実行するのに用いられる、コンピュータ読み取り可能な記憶媒体を提供する。
【0009】
更なる他側面では、本願の実施例は、命令を含むコンピュータプログラム製品であって、コンピュータで運行されると、前記コンピュータに上記の方面に記載の超解像度再構築方法を実行させるコンピュータプログラム製品を提供する。
【発明の効果】
【0010】
上記技術案から分かるように、ビデオファイルを超解像度再構築する必要がある場合、このビデオファイルにおける第1の解像度の処理対象のビデオフレームシーケンスを取得する。処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する。初期再構築ビデオフレームの画質を向上させるために、取得された初期再構築ビデオフレームを後処理し、即ち、初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームを精細な輪郭強調処理することによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質を取得して、汎化効果がより良く、この再構築ビデオフレームシーケンスによって、よりきれいで鮮明で、自然で快適なビデオ画面をユーザに提供することができ、ユーザのビデオ視聴体験の向上に有利である。
【0011】
以下、本願の実施例又は従来技術における技術案をより明瞭に説明するために、実施例又は従来技術の記述において使用される必要のある添付図面を簡単に説明する。以下の記述における添付図面は、単に本願のいくつかの実施例として、当業者にとって、創造的な労力を払わない前提で、これらの添付図面に基づいて他の添付図面も得られることは、自明である。
【図面の簡単な説明】
【0012】
図1】本願の実施例による人工知能に基づく超解像度再構築方法のアプリケーションシーン概略図である。
図2】本願の実施例による人工知能に基づく超解像度再構築方法のフローチャートである。
図3】本願の実施例による残差分離の方式によって高周波マスクと低周波マスクを決定するフローチャートである。
図4】本願の実施例による異なる超解像度再構築方法の効果比較図である。
図5】本願の実施例による解像度再構築モデルのネットワーク構造概略図である。
図6】本願の実施例による人工知能に基づく解像度再構築モデルのトレーニング方法のフローチャートである。
図7】本願の実施例による低解像度サンプルセットと高解像度サンプルセットを構築するフローチャートである。
図8】本願の実施例による第3の画像、ターゲット演算子図及び除去対象のターゲットラベル図の概略図である。
図9】本願の実施例による人工知能に基づく超解像度再構築方法のフローチャートである。
図10】本願の実施例による人工知能に基づく超解像度再構築装置の構造図である。
図11】本願の実施例による端末機器の構造図である。
図12】本願の実施例によるサーバの構造図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照しながら、本願の実施例を説明する。
【0014】
関連技術では、超解像度再構築を行う際に、一般的には、簡単なエンドツーエンドマッピングの処理態様を採用し、即ち、低解像度画像をモデル処理することで、超解像度再構築結果を直接取得することである。しかし、この場合、オンラインのリアルシーンに直面し、汎化効果が悪く、いくつかのシーンでは、満足できる超解像効果を取得できないことが多い。
【0015】
そのため、本願の実施例は、人工知能に基づく超解像度再構築方法を提供する。解像度再構築モデルに基づいて初期再構築ビデオフレームを取得した後、初期再構築ビデオフレームを後処理することで、初期再構築ビデオフレームにおける高周波の詳細がより鮮明になるようにして、オンラインの実際のアプリケーションシーンに適合する画質の最適な結果、即ち、ターゲット再構築ビデオフレームを取得することができる。このように、ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成することで、よりきれいで鮮明で、自然で快適なビデオ体験をユーザに提供することができる。
【0016】
本願の実施例による方法は、クラウド技術分野に関し、例えばビッグデータ(Big data)に関し、ビッグデータとは、一定期間の範囲内で従来のソフトウェアツールでキャプチャし、管理し、処理することができないデータセットであり、新しい処理モードを利用して、より強い意思決定力、洞察発見力、及びフロー最適化能力を有する大規模で、高成長率と多様化の情報資産を実現する必要がある。クラウド時代の到来と伴い、ビッグデータもますます多くの注目を集めており、ビッグデータは、大量の許容経過時間内のデータを効果的に処理するために、特殊な技術を必要としている。ビッグデータに適用する技術は、大規模な並行処理データベースと、データマイニングと、分散ファイルシステムと、分散データベースと、クラウド計算プラットフォームと、インターネットと、拡張可能な記憶システムとを含む。例えば、オンラインの処理対象のビデオフレームシーケンスを取得し、オンラインのリアルハイビジョンビデオをオリジナルビデオサンプルとするようにマイニングして、解像度再構築モデルをトレーニングする。
【0017】
例えば、関連する人工知能クラウドサービスとは、一般的には、AlaaS(Al as a Service、中国語では
【数1】
)とも呼ばれる。これは、現在でプライマリストリームの人工知能プラットフォームのサービス方式として、具体的には、AlaaSプラットフォームは、いくつかのよく見られるAlサービスを分割し、クラウドで独立したサービス、又はパッケージ化のサービスを提供する。このサービスモードは、1つのA1テーマショッピングモールを開いたことと類似しており、全ての開発者は、APIインターフェースによって、プラットフォームにより提供された1つ又は複数の人工知能サービスにアクセスすることができ、一部のベテラン開発者は、プラットフォームにより提供されたA1フレームワークとAIインフラを用いて独自のクラウド人工知能サービスを配備し、運営維持することもできる。
【0018】
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータにより制御される機械シミュレーションを利用して、人の知能を延長・拡張し、環境を感知し、知識を取得し利用して最適な結果としての理論、方法、技術、及びアプリケーションシステムを取得する。
【0019】
人工知能技術は、1つの総合学科として、関する分野が広く、ハードウェア方面の技術もあれば、ソフトウェア方面の技術もある。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、ボイス処理技術、自然言語処理技術、及び機械学習/深層学習などのいくつかの方向を含む。
【0020】
本願の実施例では、係わる人工知能技術は、コンピュータビジョン(画像)と機械学習などの方向を含むことができる。コンピュータビジョン技術(Computer Vision、CV)は、如何にして機械に「見らせる」方法を研究する科学として、さらに説明すると、人間の目の代わりに、カメラとコンピュータを用いてターゲットに対して認識、追跡、測定などの機械ビジョンを行い、グラフィックス処理をさらに行い、コンピュータ処理を人間の目で観察するか、又は計器に伝送して検出させるのにより適する画像にすることである。
【0021】
例えば、本願の実施例は、コンピュータビジョン技術におけるビデオ処理(video processing)技術によって、オリジナルビデオサンプルに対してダウンサンプリング処理、ビデオ圧縮処理、輪郭強調処理などを行うことができ、画像意味理解(Image Semantic Understanding、ISU)における画像分割(Image segmention)技術によって画像を分割し、解像度再構築トレーニング過程で、画像意味理解における画像特徴抽出(Image feature extraction)技術によって特徴抽出などを行うことができる。
【0022】
機械学習は、概率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学科に関する多分野交差学科である。コンピュータがどのように人類の学習行為をシミュレートするか、又は実現するかを研究して、新しい知識又は技能を取得し、既存の知識構造を再組織して自体の性能を絶えずに改善させる。機械学習は、人工知能のコアとして、コンピュータに知能を有させる根本的な道であり、その応用は、人工知能の各分野に及んでいる。機械学習は、通常、深層学習(Deep Learning)などの技術を含み、深層学習は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、循環ニューラルネットワーク(Recurrent Neural Network、RNN)、深層ニューラルネットワーク(Deep neural network、DNN)などの人工ニューラルネットワーク(artificial neuralnet work)を含む。
【0023】
本実施例では、機械学習を利用して解像度再構築モデルをトレーニングし、解像度再構築モデルを利用して処理対象のビデオフレームをシーケンス解像度再構築することができる。
【0024】
本願の実施例による方法は、ビデオ解像度、鮮明度を向上させる必要のあるさまざまなアプリケーションシーンに適用され、より良い視聴体験をユーザに提供することができる。例えば、ユーザが各種の長ビデオアプリケーションプログラム(Application、APP)によってビデオを視聴する時、必要に応じて超ハイビジョン/ブルーレイ/4Kレベルとしてもよく、又は、古いビデオのリノベーションの技術手段としてもよく、各種の短いビデオAPPで不鮮明なビデオの鮮明度を向上させるために用いられてもよく、4Kコンテンツリソース生産などのシーンに用いられてもよい。
【0025】
以下、本願の技術案を理解することを容易にするために、実際のアプリケーションシーンとともに、本願の実施例による人工知能に基づく超解像度再構築方法を説明する。
【0026】
図1を参照すると、図1は、本願の実施例による超解像度再構築方法のアプリケーションシーン概略図である。このアプリケーションシーンには、端末機器101とサーバ102とが含まれ、端末機器101には、ビデオAPPが取り付けられてもよく、端末機器101がビデオファイルを取得すると、上記の方法でトレーニングして得られた解像度再構築モデルを利用して、このビデオファイルを超解像度再構築することで、より鮮明なビデオを取得することができる。
【0027】
ネットワークには、大量のビデオファイルが存在し、これらのビデオファイルは、例えば、ゲームビデオ、アニメーションビデオ、リアル人物を撮影した映画テレビコンテンツなどの様々なタイプのビデオファイルであってもよい。ユーザが端末機器101におけるあるビデオAPPを介してビデオを視聴する時、ビデオファイルがサーバ102により端末機器101に伝送される速度を向上させ、ネットワーク伝送圧力などを緩和するために、サーバ102により端末機器101に提供されるビデオファイルの解像度が比較的に低く、ビデオが不鮮明である可能性があり、端末機器102は、ビデオファイルを受信した後、ビデオファイルを超解像度再構築することで、ビデオ解像度、鮮明度を向上させて、ユーザが視聴することを容易にする。また、例えば、4Kコンテンツリソースの生成を望む場合、サーバ102又は端末機器101によって低解像度ビデオファイルに対して超解像度再構築などを行ってもよい。
【0028】
ここで、端末機器101は、スマートフォン、タブレットパソコン、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマート時計などであってもよいが、これらに限定されない。サーバ102は、独立した物理サーバであってもよく、複数の物理サーバによって構成されるサーバクラスタ又は分散システムであってもよく、クラウド計算サービスを提供するクラウドサーバであってもよい。本願は、端末機器101及びサーバ102は、有線又は無線通信によって直接又は間接的に接続されてもよく、これについて限定しない。
【0029】
本実施例では、本願の実施例による超解像度再構築方法は、端末機器101に用いられてもよく、端末機器101は、グラフィックスプロセッサ(Graphics Processing Unit、GPU)を有する機器であってもよい。もちろん、いくつかのシーンでは、上記方法は、さらに、サーバ102に用いられてもよく、本願の実施例は、これについて限定しない。
【0030】
端末機器101は、第1の解像度の処理対象のビデオフレームシーケンスを取得してもよく、この処理対象のビデオフレームシーケンスは、端末機器101で再生される、超解像度再構築の必要なビデオファイルのビデオフレームシーケンスであってもよい。
【0031】
端末機器101は、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する。
【0032】
このとき、超解像度再構築を実現することができるが、取得された初期再構築ビデオフレームが必ずしも上記のアプリケーションシーンにおいて画質が最適な結果ではないため、続いて、取得された初期再構築ビデオフレームを後処理し、即ち、端末機器101は、残差分離方式によって初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームを精細な輪郭強調処理することによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質の最適な結果、即ち、ターゲット再構築ビデオフレームを取得する。このように、ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成することで、よりきれいで鮮明で、自然で快適なビデオ体験をユーザに提供することができる。
【0033】
次に、端末機器を例にして、添付図面を参照しながら本願の実施例による人工知能に基づく超解像度再構築方法について説明する。
図2を参照する、図2は、人工知能に基づく超解像度再構築方法のフローチャートを示す。前記方法は、以下のステップS201~S205を含む。
【0034】
S201において、第1の解像度の処理対象のビデオフレームシーケンスを取得する。
処理対象のビデオフレームシーケンスは、端末機器で再生される、超解像度再構築が必要なビデオファイルのビデオフレームシーケンスとして、例えば、端末機器がサーバから取得したビデオフレームシーケンスであるが、このビデオフレームシーケンスの解像度(例えば、第1の解像度)は、いくつかの再生必要に対応する解像度よりも低い。
【0035】
本実施例では、ビデオファイルを超解像度再構築するタイミングは、異なってもよく、その1つとしては、ビデオファイルを受信すると、ビデオファイルを直接超解像度再構築することで、もう1つとしては、解像度切り替え命令に応答して超解像度再構築し、例えば、ユーザが現在の解像度が低く、ビデオが鮮明でないことを発見した場合、再生解像度を向上させる必要に応じて解像度切り替え命令をトリガーする。もう1つの場合、第1の解像度の処理対象のビデオフレームシーケンスを取得する方式は、あるビデオファイルを再生する必要があることを指示するビデオ再生命令を取得し、ビデオ再生命令に基づいてビデオファイルを取得して再生することであってもよい。ビデオファイルの再生過程で、ユーザが、ビデオファイルの解像度が低く、ビデオが鮮明でないことを発見した場合、解像度を切り替えることを選択し、即ち、解像度切り替え命令をトリガーしてもよく、ビデオファイルに対する解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第2の解像度に関連付けられている場合、S202を実行する。
【0036】
S202において、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得する。
端末機器は、処理対象のビデオフレームシーケンスを取得した後、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームを低解像度(Low Resolution、LR)画像として、解像度再構築モデルに入力し、解像度再構築モデルによって各フレームの処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレーム、即ち、超解像度(Super Resolution、SR)画像を取得することができる。ここで、第2の解像度は、第1の解像度よりも高く、つまり、解像度再構築モデルによってビデオファイルにおける各フレームの処理対象のビデオフレームの解像度を向上させることができる。
【0037】
S203において、前記初期再構築ビデオフレームにおける輪郭領域を決定する。
上記の解像度再構築モデルによって超解像度再構築することで、処理対象のビデオフレームの解像度を向上させることができるが、取得された初期再構築ビデオフレームが必ずしもそのアプリケーションシーンにおいて画質が最適な結果ではないため、取得された初期再構築ビデオフレームを後処理することができる。
【0038】
本実施例では、初期再構築ビデオフレームには、一般的には、テクスチャの詳細を反映する高周波の詳細領域、即ち輪郭領域が含まれており、オンラインの複雑なアプリケーションシーンに直面するために、解像度再構築モデルによって初期再構築ビデオフレームを取得した後、輪郭強調の程度を細かく調整することによって、各アプリケーションシーンにおける出力画質を向上させることができる。上記の輪郭領域は、ビデオフレームにて示される対象の輪郭であり、この対象は、人物、各種の物体などであってもよい。
【0039】
また、初期再構築ビデオフレームには、いくつかの平坦部が集中し、テクスチャの詳細が欠けている平坦領域がさらに含まれる可能性もあり、平坦領域には、いくつかのノイズが存在する可能性があり、画質出力を最適化させるために、残差分離方式によって初期再構築ビデオフレームにおける平坦領域を決定して、輪郭領域を輪郭強調処理する場合、平坦領域をノイズ除去処理して、ターゲット再構築ビデオフレームを取得することもできる。
【0040】
本願は、ビデオフレームにおける輪郭領域を決定する具体的な決定方式を限定せず、例えば、残差分離方式などの輪郭認識を実現できる各種の方式であってもよい。
【0041】
いくつかの可能な実施例では、輪郭領域と平坦領域を決定する方式は、処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得して、処理対象のビデオフレームに対応する初期再構築ビデオフレームとバイキュービック補間増幅結果に基づいて残差分離を行い、高周波マスクと低周波マスクを取得することであってもよい。残差分離の方式によって高周波マスクと低周波マスクを決定するフローチャートは、図3に示すように、LR画像に基づいて解像度再構築モデルによってSR画像を生成し、また、LR画像に基づいてバイキュービック補間(Bicubic)方法を利用してバイキュービック補間(Bicubic)増幅結果を生成し、SR画像とバイキュービック補間増幅結果の残差図(ハイブリット残差として、この残差図は、SR画像とバイキュービック補間増幅結果との減算により得られたものであってもよい)を生成し、バイキュービック補間増幅結果と1つのガウスローパスフィルタ結果(ガウスぼかし仕様差σ=1.5、半径r=5)を通過する残差図(ハイパス残差として、この残差図は、バイキュービック補間増幅結果とガウスローパスフィルタ結果との減算により得られたものであってもよい)を生成する。2つの残差(ハイブリット残差とハイパス残差)を乗算し、乗算結果が0よりも大きい値を1にし、0よりも小さい値を0にする場合、1つの高周波マスク(maskh)を取得することができる。乗算結果が0よりも小さい値を1にし、0よりも大きい値を0にする場合、1つの低周波マスク(maskl)を取得することができる。maskhとmasklをSR画像における輪郭領域と平坦領域が位置する位置を判断する根拠とする。
【0042】
そして、式(1)に示すように、初期再構築ビデオフレーム、バイキュービック補間増幅結果、及び高周波マスクに基づいて輪郭領域を決定してもよく、式(2)に示すように初期再構築ビデオフレーム、バイキュービック補間増幅結果、及び低周波マスクに基づいて平坦領域を決定してもよい。
【0043】
【数2】
S204において、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する。
【0044】
いくつかの実施例では、輪郭領域を輪郭強調処理することでターゲット再構築ビデオフレームを取得する方式は、輪郭領域を輪郭強調処理するとともに、平坦領域をノイズ除去処理することで、ターゲット再構築ビデオフレームを取得することであってもよい。ここで、輪郭領域を輪郭強調処理することは、輪郭強調係数を利用して輪郭領域を調整することであってもよく、平坦領域をノイズ除去処理することは、ノイズ除去係数を利用して平坦領域を処理することであってもよい。
【0045】
輪郭強調係数は、アプリケーションシーンに応じて選択されてもよく、異なるアプリケーションシーンが輪郭強調の程度に対する要求が異なり、利用される輪郭強調係数も異なる。アニメーションビデオ又はゲームビデオのシーンでは、ビデオ内の線が単純であるため、輪郭強調の程度を大きくしてもよく、それに応じて、輪郭強調係数は、1よりも大きい数値、例えば1よりも大きく、2以下である数値を取ってもよい。しかし、リアル人物によって撮影された映画テレビビデオシーンでは、ビデオ内の人物の輪郭強調の程度が比較的に大きい場合、ビデオを視聴するユーザが、人物が比較的に突兀であり、画面が調和しておらず、視聴体験が比較的に悪いと感じるため、このようなシーンでは、輪郭強調の程度が比較的に小さく、ひいては、輪郭強調係数が1よりも小さい数値、例えば0以上であり、1以下である数値を取るべきである。
【0046】
いくつかの実施例では、初期再構築ビデオフレームにおける平坦領域をさらに決定することもでき、ビデオの解像度、鮮明度をさらに向上させ、ユーザがビデオを視聴する体験を向上させるために、初期再構築ビデオフレームにおける低周波平坦領域に対してノイズ除去を行うこともでき、同様に、ノイズ除去の程度は、アプリケーションシーンに応じて決定されてもよい。すると、輪郭強調係数によって輪郭領域を調整すると同時に、ノイズ係数によって平坦領域を調整してもよい。ノイズ除去係数は、異なるアプリケーションシーンに応じて適切な値が選択されてもよい。
【0047】
輪郭領域と平坦領域を決定した後、輪郭強調係数をαとし、ノイズ除去係数をβとし、α∈ [0,2], β∈[0,2]とし、具体的なアプリケーションシーンに応じてαとβの具体的な数値を選択して、SR画像に対して輪郭強調とノイズ除去強度の調整を行ってもよく、取得されたターゲット再構築ビデオフレームYは、式(3)で示されることができる。
【0048】
【数3】
【0049】
本願の実施例は、解像度再構築モデルによって初期再構築ビデオフレームを取得した後、輪郭強調の程度を細かく調整して、オンラインの複雑なアプリケーションシーンに直面し、いずれか1つのアプリケーションシーンにおける画質出力品質を向上させ、汎用性を強調させる。
【0050】
図4は、異なる超解像度再構築方法の効果比較図を示す。ここで、左図は、バイキュービック補間増幅結果であり、右図は、本願の実施例による超解像度再構築方法で得たターゲット再構築ビデオフレームであり、右図が左図よりもきれいで鮮明で、より自然で快適に視聴することが分かる。
S205において、前記ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成する。
【0051】
ターゲット再構築ビデオフレームを処理対象のビデオフレームシーケンスにおける対応する処理対象のビデオフレームの順序に従い、再構築ビデオフレームシーケンスを生成して、再構築ビデオフレームシーケンスに従って再生し、即ち、1フレームのビデオフレームを再生するごとに、再構築ビデオフレームシーケンスから1つのターゲット再構築ビデオフレームを決定して再生する。
【0052】
そのため、再構築ビデオフレームシーケンスを生成した後、現在再生中のビデオフレームの次のビデオフレームを決定し、再構築ビデオフレームシーケンスのうち、次のビデオフレームに対応するターゲット再構築ビデオフレームを決定することができ、次のビデオフレームを再生する時、次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替え、再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生する。
【0053】
例えば、現在再生中のビデオフレームが10フレーム目のビデオフレームである場合、次のビデオフレームは、即ち11フレーム目のビデオフレームであり、11フレーム目のビデオフレームが再生される時、11フレーム目のビデオフレームに対応するターゲット再構築ビデオフレームに切り替えて再生される。
【0054】
上記技術案から分かるように、ビデオファイルに対して超解像度再構築を行う必要がある場合、該ビデオファイルにおける第1の解像度の処理対象のビデオフレームシーケンスを取得する。処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて処理対象のビデオフレームを解像度再構築することで、第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する。初期再構築ビデオフレームの画質を向上させるために、取得された初期再構築ビデオフレームを後処理し、即ち、初期再構築ビデオフレームにおける輪郭領域を決定し、輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得することができる。初期再構築ビデオフレームに対して精細な輪郭強調処理を行うことによって、高周波の詳細をより鮮明にして、オンラインの実際のアプリケーションシーンに適合する画質を取得して、汎化効果がより良く、該再構築ビデオフレームシーケンスによってユーザによりきれいで鮮明で、自然で快適なビデオ画面を提供することができ、ユーザのビデオ視聴体験の向上に有利である。
【0055】
本実施例では、解像度再構築モデルのモデルタイプとトポロジー構造は、複数を含んでもよく、解像度再構築を実現できる様々なニューラルネットワークモデルであってもよい。いくつかの可能な実施例では、強化された深層超解像度ネットワーク(enhanced deep super-resolution network、EDSR)が残差ネットワーク(Residual Network、ResNet)に対する改良構造を解像度再構築モデルの本体構造(backbone)として利用し、且つ深層再帰畳み込みネットワーク(deeply-reeursive convolutional network、DRCN)を組み合わせてネットワークの各レベルの特徴を最後の解像度再構築に参加させることができる。
【0056】
二倍超解像に対して解像度再構築モデルの確立を例にして、解像度再構築モデルは、図5に示されるネットワーク構造を採用してもよい。解像度再構築モデルの具体的なパラメータは、以下の通りである。解像度再構築モデル入力は、赤緑青(Red-Green-Blue、RGB)三チャンネル図である。第1層の畳み込みネットワーク入力チャンネル数は、3であり、出力特徴チャンネル数は、32であり、畳み込みコアサイズは、3x3であり、畳み込みステップサイズは、1である。そして、1つの修正線形ユニット(Rectified Linear Unit、ReLU)層に接続される。ネットワーク本体構造(backbone)は、5つの残差ブロック(ResBlock)によって構成され、図5の501に示すように、各ResBlockは、2つの畳み込みネットワークと1つの修正線形ユニット(Rectified Linear Unit、ReLU)層によって構成され、入力と出力は、残差接続(図5の502に示すように)を構成する。ここで、xは、ResBlockの入力を示し、x+lは、ResBlockにおける残差が接続された後の出力を示し、全てのResBlockの畳み込みネットワーク層パラメータ設置は、同じであり、入力、出力特徴チャンネル数は、いずれも32であり、畳み込みコアサイズは、3×3であり、畳み込みステップサイズは、1である。
【0057】
そして、1つのスプライシング層(concat)に接続し、5つのResBlockの出力をスプライシングし、32×5=160次元の特徴を取得して、1つの畳み込みコアサイズが1×1である畳み込み層によって特徴融合を行い、出力特徴チャンネル数は、32である。
【0058】
そして、取得された特徴図に対して1回の畳み込みを行い、畳み込みネットワーク入力チャンネル数は、32であり、出力特徴チャンネル数は、12であり、畳み込みコアサイズは、3×3であり、畳み込みステップサイズは、1である。そして、アップサンプリング(subpixel)層に接続して特徴図をアップサンプリングし、超解像増幅2倍の結果出力を取得して、即ち、初期再構築ビデオフレームを出力する。
【0059】
ここで、subpixel層の個数は、超解像増幅の倍数に関連し、2倍増幅すると、図5に示すように、1つのsubpixel層に接続する。4倍増幅すると、2つのsubpixel層に接続する。8倍増幅すると、3つのsubpixel層に接続し、これに基づき類推する。
【0060】
図5に示される解像度再構築モデルのネットワーク構造に基づき、S202において第2の解像度の初期再構築ビデオフレームを取得する方式は、解像度再構築モデルによって処理対象のビデオフレームに対して少なくとも2回の残差抽出を行い、各残差抽出結果を取得して、各残差抽出結果に基づいて処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得することであってもよい。
【0061】
いくつかの実施例では、各残差抽出結果を取得する方式は、解像度再構築モデルにおける畳み込み層によって処理対象のビデオフレームに対して畳み込み処理を行い、処理対象のビデオフレームに対応する畳み込み処理結果を取得して、畳み込み処理結果に基づいてネットワーク本体構造における各残差ブロック(例えば図5の残差ブロック)を順に残差抽出して、カスケード接続された各残差ブロックの残差抽出結果を取得することであってもよい。
【0062】
図5に示されるネットワーク構造において、5つの残差ブロックがカスケード接続された後、スプライシング層と畳み込み層に接続されるため、スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得してから、残差スプライシング特徴に対して特徴融合して融合特徴図を取得してもよい。さらに、融合特徴図に対してアップサンプリング処理を行い、第2の解像度の初期再構築ビデオフレームを取得する。ここで、初期再構築ビデオフレームは、前記処理対象のビデオフレームに対応する。
【0063】
本願の実施例は、解像度再構築モデルのモデルタイプとトポロジー構造を具体的に限定せず、他の有効な新型モデル構造に置き換えてもよく、例えば、ネットワーク本体構造は、ResNet残差構造から密集畳み込みネットワーク(DenseNet)に接続される構造に置き換えてもよい。解像度再構築モデル表現能力に対する要求と所有する計算リソース条件に基づいて解像度再構築モデルのネットワーク構造を変更し、拡張し、又は簡略化してもよい。
【0064】
本願の実施例は、比較的軽量レベルのネットワークを採用してモデル計算を実現し、t4GPUで解像度が1080×1920であるビデオを処理し、4グラフィックス60fpsリアルタイムの処理速度(4グラフィックス60fpsリアルタイムの処理速度は即ち、四枚のt4GPUを含むグラフィックス並行処理によって60fpsリアルタイムの処理速度に達することができる)に達することができ、リアルタイム超解像度再構築を実現することができる。
【0065】
本願の実施例は、解像度再構築モデルを利用して処理対象のビデオフレームを解像度再構築することで、初期再構築ビデオフレームを取得して、解像度再構築モデルの再構築効果は、最終的に得られたターゲット再構築ビデオフレームの画面効果に重要な影響を及ぼす。次に、解像度再構築モデルのトレーニング方法について詳細に説明する。
【0066】
関連技術では、解像度再構築モデルをトレーニングする過程で、使用される劣化方式が簡単過ぎ、リアル高解像度(High Resolution、HR)画像からLR画像への劣化シーンとは程遠く、このようなトレーニングデータセットで解像度再構築モデルをトレーニングすることで、取得された解像度再構築モデルの汎化効果が悪い。
【0067】
劣化をシミュレートする時、実際のアプリケーションシーンでは、ダウンサンプリング以外に、画像ぼかし、ビデオコーディングによる圧縮ノイズなどがあるとともに、ダウンサンプリングと画像ぼかしの発生順序が確認されにくいことを考慮して、トレーニングデータセットの構築を容易にするために、低解像度サンプルセットを生成する過程における画像ぼかし、ハイビジョンビデオに対して輪郭強調を行うことによってこのような劣化をシミュレートする。これにより、低解像度サンプルセットと高解像度サンプルセットとを含むトレーニングデータセットを構築して、解像度再構築モデルをトレーニングする。図6を参照すると、前記方法における解像度再構築モデルをトレーニングするステップは、以下のステップS601~S605を含む。
S601において、収集されたオリジナルビデオサンプルをダウンサンプリング処理しビデオ圧縮処理することで、ターゲットビデオサンプルを取得する。
【0068】
ネットワークには、大量の高解像度ビデオが存在し、これらの高解像度ビデオを、トレーニングデータセットを構築する根拠としてもよい。端末機器は、ネットワークにおける大量の高解像度ビデオ(例えば解像度が予め設定された閾値よりも高い)をオリジナルビデオサンプルとして収集してもよく、これらの高解像度ビデオは、様々なタイプのビデオ、例えばゲームビデオ、アニメーションビデオ、リアル人物を撮影した映画テレビコンテンツなどであってもよい。例えば、オリジナルビデオサンプルは、ビデオ視聴シーンにおいてよく見られるハイビジョンビデオなどであってもよい。
【0069】
オンラインの実際のアプリケーションシーンを考慮して、オンラインのリアル状況により近い方式で高解像度ビデオ画像から低解像度ビデオ画像への劣化モデルをシミュレートし、本実施例では、採用される劣化モデルは、式(4)で示されることができる。
【0070】
【数4】
【0071】
ダウンサンプリング処理の方式は、複数があり、いくつかの実施例では、バイキュービック補間の方式を採用してオリジナルビデオサンプルに対してダウンサンプリング処理を行ってもよい。ビデオコーディング過程が常に圧縮歪み、アーティファクト、ブロック効果、輪郭エッジバリなどの圧縮ノイズをもたらすことを考慮して、本実施例では、オリジナルビデオサンプルに対してビデオ圧縮処理を行って劣化中のノイズモデルをシミュレートすることを選択する。
【0072】
オリジナルビデオサンプルに対してビデオ圧縮処理を行う時、通常、固定コードレート係数(Constant Rate Factor、CRF)を用いてビデオ圧縮処理を実現し、異なるCRFを用いてビデオ圧縮処理を実現すれば異なるビデオ圧縮結果を取得する。これにより、本実施例では、予め設定された範囲内で複数の異なる固定コードレート係数を選択し、複数の異なるCRFを採用してオリジナルビデオサンプルに対して異なるレベルのビデオ圧縮処理を行うことによって、複数の解像度のターゲットビデオサンプルを取得して、トレーニングデータセットの広がりを実現することができる。ここで、CRFは、ランダムに選択されてもよく、一般的には、CRFの予め設定された範囲は、[20、35]であってもよい。
【0073】
S602において、前記ターゲットビデオサンプルに基づいて低解像度サンプルセットを決定する。
ターゲットビデオサンプルを取得した後、ターゲットビデオサンプルに対してビデオフレーム抽出を行い、ターゲットビデオサンプルから予め設定されたフレーム位置に位置する第1の画像を抽出することによって、マルチフレームの第1の画像を取得して低解像度サンプルセットを構成することができる。本実施例は、予め設定されたフレーム位置を限定せず、即ち、ビデオフレーム抽出方式を限定せず、例えばビデオフレーム抽出方式は、ターゲットビデオサンプルに対して1s置きに1フレームを抽出することであってもよく、つまり、予め設定されたフレーム位置は、ターゲットビデオサンプルにおける1s目に対応するビデオフレームであり、2s目に対応するビデオフレームであり、3s目に対応するビデオフレームであり、……Ns目に対応するビデオフレームであり、Nは、ターゲットビデオサンプルの全長である。
【0074】
オリジナルビデオサンプルが4K超ハイビジョンビデオであることを例にして、低解像度サンプルセットと高解像度サンプルセットを構築するフローチャートは、図7を参照してもよく、4K超ハイビジョンビデオに対してバイキュービック補間(S701)を行ってから、バイキュービック補間後の結果に対してビデオ圧縮処理を行い(S702)、ターゲットビデオサンプルを取得する。次に、ターゲットビデオサンプルに対してビデオフレーム抽出を行い(S703)、LRサンプルセットを取得する。
【0075】
S603において、前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第2の画像に対して輪郭強調処理を行い、高解像度サンプルセットを取得する。
【0076】
実際の劣化シーンでは、ダウンサンプリング処理と画像ぼかしの発生順序は、確認しにくく、オリジナルビデオサンプルに対してダウンサンプリング処理、画像ぼかし及びノイズを行うが、低解像度サンプルにぼかし操作を追加することは、モデルに一定の輪郭強調の能力を備えることに相当し、データセット構築を容易にするために、低解像度サンプル作成過程におけるぼかし処理を除去し、高解像度画像に対して適宜な輪郭強調を行うことによって、このような劣化をシミュレートすることができる。
【0077】
S601からS603によって、高解像度画像がどのように劣化して対応する低解像度画像を取得するかをシミュレートしたため、低解像度サンプルセットにおける各第1の画像は、高解像度サンプルセットにおいて対応する画像があるべきだが、第1の画像がターゲットビデオサンプルにおいて予め設定されたフレーム位置に位置する画像であり、それに応じて、高解像度サンプルセットにおける画像もオリジナルビデオサンプルにおいて予め設定されたフレーム位置の第2の画像に基づいて得られたものであるべきだ。従って、本実施例では、オリジナルビデオサンプルにおいて予め設定されたフレーム位置に位置するマルチフレームの第2の画像に対して輪郭強調処理を行い、高解像度サンプルセットを取得してもよい。つまり、ターゲットビデオサンプルに対して1s置きに1フレームを抽出して、低解像度サンプルセットを取得すると、高解像度サンプルセットを取得する過程で、オリジナルビデオサンプルに対しても、1s置きに1フレームのビデオフレームを抽出し、マルチフレームの第2の画像を取得する必要がある。
【0078】
ここで、輪郭強調処理の方式は、複数を含んでもよく、本実施例では、画像処理ソフトウェア(Adobe Photoshop、PS)のスマートシャープによって実現されてもよい。
【0079】
引き続き図7を参照すると、上記オリジナルビデオサンプルが4K超ハイビジョンビデオであることを例にして、4K超ハイビジョンビデオに対してビデオフレーム抽出を行い(S704)、マルチフレームの第2の画像を取得する。マルチフレームの第2の画像に対してPSスマートシャープを行い(S705)、HRサンプルセットを取得する。
S604において、前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築する。
【0080】
本実施例では、低解像度サンプルセットと高解像度サンプルセットを利用してトレーニングデータセットを構築する方式は、複数を含んでもよく、1つの構築方式は、直接に低解像度サンプルセットと高解像度サンプルセットをトレーニングデータセットとして、解像度再構築モデルをトレーニングすることであってもよい。
【0081】
通常、解像度再構築モデルが解像度再構築を学習する過程で、どのように高周波の詳細を再構築するかを主に学習する。LRサンプルセットとHRサンプルセットにおける画像には、テクスチャの詳細が比較的に少ない平坦領域が常に多かれ少なかれ存在するため、例えば、図8の801に示される画像には、青空、湖面、山、家屋、木、船などが含まれ、青空、湖面などの位置する領域のテクスチャの詳細が非常に少なく、平坦領域と考えられてもよい。しかし、これらの部分は、解像度再構築モデルのトレーニングに実際に役立たず、解像度再構築モデルトレーニングに対するこの部分の干渉を低減するために、トレーニングデータセットを構築する時、LRサンプルセットとHRサンプルセットに対して1ステップの操作を行い、平坦領域を除去し、トレーニングのためにテクスチャの詳細が豊かな部分だけを保留してもよい。
【0082】
これにより、別の構築方式は、第1のサイズに従ってマルチフレームの第3の画像をそれぞれ分割し、切り取ってラベル図を取得し、また、第2のサイズに従ってマルチフレームの第1の画像をそれぞれ分割し、切り取って入力画像を取得することであってもよい。ここで、第1のサイズと第2のサイズは、解像度サイズであってもよく、第1のサイズは、第2のサイズの整数倍であってもよく、第1のサイズと第2のサイズとの間の倍数関係は、解像度再構築モデルがトレーニング過程で低解像度画像に対して解像度再構築を行う時に数倍の解像度増幅を実現できることに影響し、また、解像度再構築モデルが使用過程で処理対象のビデオフレームに対して解像度再構築を行う時に数倍の解像度増幅を実現できることに影響しており、即ち、第2の解像度は、第1の解像度に対して数倍増幅したものである。第1のサイズが64×64であり、第2のサイズが32×32である場合、トレーニングして得られた解像度再構築モデルは、二倍超解像を実現することができ、即ち、解像度再構築モデルを利用して解像度再構築を行う時、初期再構築ビデオフレームの第2の解像度は、入力された処理対象のビデオフレームシーケンスの第1の解像度に対して二倍増幅したものである。
【0083】
各フレームの第3の画像がいずれも第1のサイズに従って分割されるため、各フレームの第3の画像は、分割して得られた複数のラベル図に対応する。マルチフレームの第3の画像における各フレームの第3の画像に対応するラベル図について、ラベル図のうち、第3の画像に属する平坦領域のターゲットラベル図が決定されると、該ターゲットラベル図を除去する。各フレームの第1の画像に対しても分割しており、各フレームの第1の画像がそれぞれ第3の画像に対応し、二者から分割されたラベル図と入力画像も対応関係を有するため、ターゲットラベル図に対応する入力画像を除去し、残りのラベル図と入力画像をトレーニングデータセットとしてもよい。
【0084】
本実施例は、HRサンプルセットとLRサンプルセットにおけるデータをフィルタリングし、平坦領域のような、テクスチャの詳細が欠けている冗長部分を除去してトレーニングデータセットを構築することによって、解像度再構築モデルを高周波の詳細に対する学習に集中させ、解像度再構築モデルの効率的なトレーニングを確保することができる。
【0085】
1つの可能な実現方式では、第3の画像に属する平坦領域のターゲットラベル図を決定する方式は、第3の画像に基づいて対応する初期演算子図を生成することであってもよく、初期演算子図は、各画素点の画素値を反映してもよく、該画素値は、画素点が高周波の詳細点である可能性を示してもよく、画素値が大きければ大きいほど、該画素点が高周波の詳細点である可能性が大きく、画素値が十分に小さければ、例えば第1の閾値よりも小さい場合、該画素点が非高周波の詳細点ではないとみなしてもよく、そのため、初期演算子図における画素値が第1の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得してもよい。第1のサイズに従ってターゲット演算子図を分割し、切り取ってターゲット演算子図の演算子サブ図を取得して、各演算子サブ図は、第3の画像のラベル図に一対一で対応する。各演算子サブ図には複数の画素点が含まれており、演算子サブ図における画素値がゼロでない画素点の個数が第2の閾値を超えない場合、該演算子サブ図において高周波の詳細に属する画素点が非常に少ないことを意味し、該演算子サブ図に対応するラベル図が平坦領域であるとみなしてもよく、該演算子サブ図に対応するラベル図がターゲットラベル図であると決定される。
【0086】
ここで、初期演算子図の生成方式は、第3の画像に対してガウスぼかし処理を行い、例えば、標準偏差をσ=1.5とし、半径をr=5としてガウスぼかし処理を行い、ガウスぼかし処理された画像に対して初期演算子図を求めることであってもよい。初期演算子図は、複数のアルゴリズム、例えばガウスぼかし処理された画像に対して1次のソベル(sobel)演算子、ロバーツ(Roberts)演算子やラプラス(Laplacian)演算子を取るなどのことによって得られてもよく、本実施例は、これについて限定しない。
【0087】
第1の閾値(t)と第2の閾値(t)は、経験に応じて、例えばt=60、t=60と設定されてもよい。つまり、初期演算子図内の画素値がtよりも小さい画素点の画素値に0を再付与し、ターゲット演算子図を取得して、ラベル図に対応する演算子サブ図における画素値が0でない画素点の個数がt以下である場合、該ラベル図が第3の画像全体の平坦領域、即ちターゲットラベル図に属するとみなし、該ターゲットラベル図と対応する入力画像を破棄する。
【0088】
図8の801に示される画像が第3の画像であることを例にして、生成された第3の画像に対応するターゲット演算子図は、802に示すように、802では、白い画素点は、山、家屋、木、船などの高周波の詳細であり、上記方法により第3の画像を複数のラベル図を分割して切り取り、ターゲット演算子図に対して、同じ方法を採用して分割し切り取ってラベル図にそれぞれ対応する演算子サブ図を取得することができる。各演算子サブ図に基づいて平坦領域に属するターゲットラベル図を決定することができ、決定した後、これらのターゲットラベル図を除去する。除去したターゲットラベル図は、803を参照してもよく、803における各小画像は、1つのターゲットラベル図(例えば803の破線枠で標記された画像)を示し、除去したターゲットラベル図は、基本的に空(例えば803の破線枠で標記された画像)、湖面などの対応する画像である。
【0089】
S605において、前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングすることで、解像度再構築モデルを取得する。
トレーニングデータセットに基づいて初期再構築モデルをトレーニングし、初期再構築モデルは、トレーニングデータセットにおける第1の画像又は第1の画像によって決定された入力画像に基づいて解像度再構築を行い、初期再構築ビデオフレームを出力してもよい。ここで、第1の画像又は入力画像は、解像度再構築モデル使用過程における処理対象のビデオフレームに相当する。初期再構築ビデオフレームとラベル図を利用して損失関数を構築することによって、損失関数値が最小になるまで、損失関数に基づいて初期再構築モデルのパラメータを調整する。
【0090】
ここで、構築される損失関数は、L1損失関数であってもよく、即ち、ラベル図をターゲット値Yiとして、出力される初期再構築ビデオフレームを推定値として、ターゲット値Yiと推定値f(Xi)との絶対差分の総和Sは、最小化され、具体的な式は、以下の通りである。
【0091】
【数5】
ただし、Sは、L1損失関数であり、Yiは、ターゲット値であり、f(Xi)は、推定値であり、Xiは、入力画像である。
【0092】
本実施例は、トレーニング過程でL1損失関数を採用するが、トレーニングデータセットにおけるHR画像(第3の画像)が輪郭強調処理によって得られたものであるため、トレーニングして得られた解像度再構築モデルが、輪郭強調の能力を有し、高周波の詳細のより鮮明である初期再構築ビデオフレームを出力することになり、初期再構築ビデオフレームが平均化、ぼかしや過度に滑らかになるという問題を回避することができる。
【0093】
トレーニング過程でバッチ(batch)を16とし、初期学習率を1×10-4と設定し、2×105回のバッチトレーニングを繰り返すと、学習率は、対応して半減し、解像度再構築モデルは、自己適応モーメント推定(Adam)オプティマイザを採用し、Adamオプティマイザのパラメータβ1=0.9、β2=0.999、ε=10-8を設定する。DIV2K(1つのデータセット)検証セットを採用してトレーニング過程の全体を指導し、トレーニングデータセット全体を60回繰り返すと、初期再構築モデルが検証セットにおける表現は、基本的に変化せず、トレーニングを停止し、且つ検証セットで最も良く表現している初期再構築モデルを最終的な解像度再構築モデルとして選択する。
【0094】
トレーニングデータセットを構築する時、ビデオコーディングによる圧縮ノイズなどを考慮して、劣化シーンをオンラインのリアルシーンにより近づけるようにすることで、解像度再構築モデルの汎化効果を向上させ、オンラインのリアル超解像度再構築シーンに面して、より良い解像度再構築効果を取ることができ、即ち、取得された初期再構築ビデオフレームは、関連する技術効果に比べてより良い。また、オリジナルビデオサンプルに対して輪郭強調を行い、解像度再構築モデルの輪郭強調が付与されるため、より豊かな高周波の詳細の能力が生じる。
【0095】
次に、実際のアプリケーションシーンを組み合わせながら本願の実施例による人工知能の超解像度再構築方法を説明する。該アプリケーションシーンは、ユーザがビデオAPPによってビデオを視聴することであってもよく、サービス側から端末機器へビデオを伝送する速度を向上させ、ネットワーク伝送圧力を緩和するなどのために、サービス側により端末機器に提供されたビデオファイルの解像度が比較的に低く、ビデオが鮮明でない可能性があり、端末機器は、ビデオファイルを受信した後、ビデオファイルに対して超解像度再構築を行い、ビデオファイルの解像度、鮮明度を向上させ、ユーザが視聴することを容易にすることができる。図9を参照すると、前記方法は、以下のステップS901~S907を含む。
【0096】
S901において、ユーザは、端末機器上のビデオAPPを開く。
S902において、ユーザは、あるビデオを検索する。
S903において、端末機器は、該ビデオのビデオファイルを取得して再生し、該ビデオファイルのビデオフレームシーケンスを処理対象のビデオフレームシーケンスとする。
S904において、端末機器は、処理対象のビデオフレームシーケンスにおける各処理対象のビデオフレームを順に読み取る。
S905において、端末機器は、解像度再構築モデルによって読み取った処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得する。
S906において、輪郭強調係数とノイズ係数によって初期再構築ビデオフレームにおける輪郭領域と平坦領域をそれぞれ調整することで、ターゲット再構築ビデオフレームを取得する。
S907において、端末機器は、ユーザにターゲット再構築ビデオフレームを再生する。
【0097】
前記図2に対応する実施例に基づき、本願の実施例は、人工知能に基づく超解像度再構築装置をさらに提供する。図10を参照すると、前記装置は、取得ユニット1001と、再構築ユニット1002と、決定ユニット1003と、処理ユニット1004と、生成ユニット1005とを含む。
【0098】
前記取得ユニット1001は、第1の解像度の処理対象のビデオフレームシーケンスを取得するために用いられる。
前記再構築ユニット1002は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得するために用いられる。
前記決定ユニット1003は、前記初期再構築ビデオフレームにおける輪郭領域を決定するために用いられる。
前記処理ユニット1004は、前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得するために用いられる。
前記生成ユニット1005は、前記ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成するために用いられる。
【0099】
1つの可能な実現方式では、前記決定ユニット1003は、前記残差分離方式によって前記初期再構築ビデオフレームにおける輪郭領域と平坦領域を決定するために用いられ、前記処理ユニット1004は、前記輪郭領域を輪郭強調処理し、且つ前記平坦領域に対してノイズ除去処理を行うことで、ターゲット再構築ビデオフレームを取得するために用いられる。
【0100】
1つの可能な実現方式では、前記決定ユニット1003は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、バイキュービック補間によってバイキュービック補間増幅結果を取得すること、
前記処理対象のビデオフレームに対応する前記初期再構築ビデオフレームと前記バイキュービック補間増幅結果に基づいて残差分離を行い、高周波マスクと低周波マスクを取得すること、
前記初期再構築ビデオフレーム、前記バイキュービック補間増幅結果、及び前記高周波マスクに基づいて前記輪郭領域を決定し、前記初期再構築ビデオフレーム、前記バイキュービック補間増幅結果、及び前記低周波マスクに基づいて前記平坦領域を決定することに用いられる。
【0101】
1つの可能な実現方式では、前記取得ユニット1001は、
ビデオ再生命令を取得すること、
前記ビデオ再生命令に基づいて前記処理対象のビデオフレームシーケンスに対応するビデオファイルを再生すること、
前記ビデオファイルの解像度切り替え命令が検出されると、前記解像度切り替え命令により切り替えが指示された解像度が前記第2の解像度に関連付けられている場合、トリガー再構築ユニット1002は、前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得するように実行することに用いられる。
【0102】
1つの可能な実現方式では、前記装置は、再生ユニットさらに含み、
現在再生中のビデオフレームの次のビデオフレームを決定すること、
前記再構築ビデオフレームシーケンスのうち、前記次のビデオフレームに対応するターゲット再構築ビデオフレームを決定すること、
次のビデオフレームを再生する時、前記次のビデオフレームに対応するターゲット再構築ビデオフレームに切り替え、前記再構築ビデオフレームシーケンスのうちのターゲット再構築ビデオフレームを再生することに用いられる。
【0103】
1つの可能な実現方式では、前記装置は、トレーニングユニットをさらに含み、
収集された、解像度が予め設定された閾値よりも高いオリジナルビデオサンプルに対してダウンサンプリング処理とビデオ圧縮処理を行い、ターゲットビデオサンプルを取得すること、
前記ターゲットビデオサンプルに基づいて、前記ターゲットビデオサンプル内の予め設定されたフレーム位置に位置するマルチフレームの第1の画像が含まれる低解像度サンプルセットを決定すること、
前記オリジナルビデオサンプルのうち、前記予め設定されたフレーム位置に位置するマルチフレームの第2の画像に対して輪郭強調処理を行うことで、輪郭強調処理された前記マルチフレームの第2の画像である第3の画像が含まれる高解像度サンプルセットを取得すること、
前記低解像度サンプルセットと前記高解像度サンプルセットに基づいてトレーニングデータセットを構築すること、
前記トレーニングデータセットに基づいて初期再構築モデルをトレーニングし、前記解像度再構築モデルを取得することに用いられる。
【0104】
1つの可能な実現方式では、前記トレーニングユニットは、
第1のサイズに従って前記マルチフレームの第3の画像をそれぞれ分割することでラベル図を取得し、第2のサイズに従って前記マルチフレームの第1の画像をそれぞれ分割することで入力画像を取得すること、
前記マルチフレームの第3の画像のうち、各フレームの第3の画像に対応するラベル図に対して、前記ラベル図のうち、前記第3の画像に属する平坦領域のターゲットラベル図を決定すること、
前記ターゲットラベル図及び前記ターゲットラベル図に対応する入力画像を除去することに用いられる。
【0105】
1つの可能な実現方式では、前記トレーニングユニットは、
前記第3の画像に基づいて対応する初期演算子図を生成すること、
前記初期演算子図における画素値が第1の閾値よりも小さい画素点の画素値をゼロに再付与し、ターゲット演算子図を取得すること、
前記第1のサイズに従って前記ターゲット演算子図を分割し、前記第3の画像のラベル図に一対一で対応する、前記ターゲット演算子図の演算子サブ図を取得すること、
前記演算子サブ図における画素値がゼロでない画素点の個数が第2の閾値を超えない場合、前記演算子サブ図に対応するラベル図が前記ターゲットラベル図であると決定することに用いられる。
【0106】
1つの可能な実現方式では、前記トレーニングユニットは、
予め設定された範囲内で複数の異なる固定コードレート係数を選択すること、
前記複数の異なる固定コードレート係数を利用して前記オリジナルビデオサンプルに対してそれぞれビデオ圧縮処理を行い、複数の解像度のターゲットビデオサンプルを取得することに用いられる。
【0107】
1つの可能な実現方式では、前記再構築ユニット1002は、
前記解像度再構築モデルによって前記処理対象のビデオフレームに対して少なくとも2回の残差抽出を行い、各残差抽出結果を取得すること、
各残差抽出結果に基づいて前記処理対象のビデオフレームを解像度再構築することで、第2の解像度の初期再構築ビデオフレームを取得することに用いられる。
【0108】
1つの可能な実現方式では、前記再構築ユニット1002は、
前記解像度再構築モデルにおける畳み込み層によって前記処理対象のビデオフレームに対して畳み込み処理を行い、前記処理対象のビデオフレームに対応する畳み込み処理結果を取得すること、
前記畳み込み処理結果に基づいてネットワーク本体構造における各残差ブロックを順に残差抽出を行い、カスケード接続された前記各残差ブロックの残差抽出結果を取得することに用いられる。
【0109】
1つの可能な実現方式では、前記再構築ユニット1002は、
スプライシング層によって前記各残差抽出結果をスプライシングし、残差スプライシング特徴を取得すること、
前記残差スプライシング特徴に対して特徴融合を行って融合特徴図を取得すること、
融合特徴図に対してアップサンプリング処理を行い、前記処理対象のビデオフレームに対応する、第2の解像度の初期再構築ビデオフレームを取得することに用いられる。
【0110】
本願の実施例は、人工知能の超解像度再構築方法に基づくことが可能な機器をさらに提供する。以下では、添付図面を参照しながら、該機器を説明する。図11を参照すると、本願の実施例は、機器を提供しており、該機器は、端末機器であってもよく、この端末機器は、コンピュータ、タブレットパソコン、携帯電話、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、販売端末(Point of Sales、POSと略称)、車載コンピュータなどを含んでもよく、端末機器が携帯電話であることを例にする。
【0111】
図11は、本願の実施例による端末機器に関連する携帯電話の一部の構造のブロック図を示す。図11を参照すると、携帯電話は、無線周波数(Radio Frequency、RFと略称)回路1110、メモリ1120、入力ユニット1130、表示ユニット1140、センサ1150、オーディオ回路1160、ワイファイ(wireless fidelity、WiFiと略称)モジュール1170、プロセッサ1180、及び電源1190などの部品を含む。当業者であれば理解できるように、図11に示す携帯電話の構造は、携帯電話に対する限定を構成せず、図示された部品の数よりも多い又は少ない部品、又はなんらかの部品の組み合わせ、又は異なる部品の配置を含んでもよい。
【0112】
以下、図11を参照しながら携帯電話の各構成部品について具体的に説明する。
RF回路1110は、情報の送受信又は通話中の信号の受信と送信に用いられてもよく、特に、基地局のダウンリンク情報を受信してから、プロセッサ1180に処理させ、また、アップリンク用のデータを基地局に送信する。一般的には、RF回路1110は、アンテナ、少なくとも1つの増幅器、送受信機、カプラ、低雑音増幅器(Low Noise Amplifier、LNAと略称)、デュプレクサなどを含むが、これらに限らない。なお、RF回路1110は、無線通信とネットワークを介して他の機器との通信を行ってもよい。上記無線通信は、いずれか1つの通信規格又はプロトコルを用いてもよく、グローバル移動通信システム(Global System of Mobile communication、GSMと略称)、汎用パケット無線サービス(General Packet Radio Service、GPRSと略称)、符号分割多元接続(Code Division Multiple Access、CDMAと略称)、広帯域符号分割多元接続(Wideband Code Division Multiple Access、WCDMA(登録商標)と略称)、長期の進化(Long Term Evolution、LTEと略称)、電子メール、ショートメッセージサービス(Short Messaging Service、SMSと略称)などを含むが、これらに限らない。
【0113】
メモリ1120は、ソフトウェアプログラム及びモジュールを記憶するために用いられてもよく、プロセッサ1180は、メモリ1120に記憶されているソフトウェアプログラム及びモジュールを運行することによって、携帯電話の様々な機能アプリケーションを実行し、データを処理する。メモリ1120は、主にプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを記憶することができ、データ記憶領域は、携帯電話の使用によって作成されるデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。なお、メモリ1120は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の揮発性ソリッドステートメモリデバイスをさらに含んでもよい。
【0114】
入力ユニット1130は、入力された数字又はキャラクタ情報の受信、及び携帯電話のユーザによる設置及び機能制御に関するキー信号入力の発生に用いられてもよい。具体的に、入力ユニット1130は、タッチパネル1131及び他の入力機器1132を含んでもよい。タッチパネル1131は、タッチスクリーンとも呼ばれてもよく、それ又はその付近でのユーザによるタッチ操作(例えばユーザが指、タッチペンなどの任意の適切な物体又は付属品を用いてタッチパネル1131又はタッチパネル1131付近で行う操作)を収集することができ、予め設定されたプログラムに基づいて相応な接続装置を駆動する。選択的に、タッチパネル1131は、タッチ検出装置とタッチコントローラとの2つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザによるタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送し、タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換してから、プロセッサ1180に送信し、プロセッサ1180から送信されてきたコマンドを受信して実行する。なお、抵抗式、静電容量式、赤外線及び表面音波などの様々なタイプを用いてタッチパネル1131を実現してもよい。入力ユニット1130は、タッチパネル1131以外にも、他の入力機器11320を含んでもよい。具体的に、他の入力機器1132は、物理的なキーボード、機能キー(例えば、ボリューム制御ボタン、スイッチボタンなど)、トラックボール、マウス、操作レバーなどのうちの1つ又は複数を含んでもよいが、これらに限らない。
【0115】
表示ユニット1140は、ユーザによって入力された情報又はユーザに提供される情報及び携帯電話の様々なメニューを表示するために用いられている。表示ユニット1140は、表示パネル1141を含んでもよく、選択的に、液晶ディスプレイ(Liquid Crystal Display、LCDと略称)、有機発光ダイオード(Organic Light-Emitting Diode、OLEDと略称)などの形式で表示パネル1141が配置されてもよい。さらに、タッチパネル1131は、表示パネル1141を覆ってもよく、タッチパネル1131は、それ又はその付近でのユーザによるタッチ操作を検出すると、プロセッサ1180に伝送して、タッチイベントのタイプを特定し、その後、プロセッサ1180は、タッチイベントのタイプに応じて表示パネル1141に相応な視覚出力を提供する。図11では、タッチパネル1131と表示パネル1141は、2つの独立した部品として携帯電話の入力と出力機能を実現するものであるが、なんらかの実施例では、タッチパネル1131と表示パネル1141を集積して携帯電話の入力と出力機能を実現してもよい。
【0116】
携帯電話は、少なくとも1つのセンサ1150、例えば光センサ、モーションセンサ及び他のセンサをさらに含んでもよい。具体的に、光センサは、環境光センサ及び接近センサを含んでもよい。ここで、環境光センサは、環境光の明暗に応じて、表示パネル1141の輝度を調整してもよい。接近センサは、携帯電話が耳元に移動した時、表示パネル1141及び/又はバックライトをオフにすることができる。モーションセンサの1つとして、加速度計センサは、各方向(一般的には、三軸)での加速度の大きさを検出することができ、静止時、重力の大きさ及び方向を検出することができ、携帯電話の姿勢のアプリケーション(例えば縦横スクリーン切り替え、関連ゲーム、磁力計姿勢キャリブレーション)の識別、振動識別関連機能(例えば歩数計、タップ)などに用いられてもよく、携帯電話については、ジャイロ、気圧計、湿度計、温度計、赤外線センサなどの他のセンサをさらに配置してもよく、ここでは説明を省略する。
【0117】
オーディオ回路1160、スピーカ1161、マイクロホン1162は、ユーザと携帯電話との間のオーディオインターフェースを提供することができる。オーディオ回路1160は、受信したオーディオデータ変換後の電気信号をスピーカ1161に伝送し、スピーカ1161によって音声信号に変換され出力されてもよく、他方では、マイクロホン1162は、收集した音声信号を電気信号に変換し、オーディオ回路1160が受信した後、オーディオデータに変換してから、プロセッサ1180に出力して処理させた後、RF回路1110を介して、例えば別の携帯電話に送信し、又はオーディオデータをメモリ1120に出力して、さらなる処理を行う。
【0118】
WiFiは、短距離無線伝送技術に属し、携帯電話は、WiFiモジュール1170によってユーザへの電子メールの送受信、ウェブページの閲覧、ストリーミングメディアへのアクセスなどを支援することができ、ユーザに無線のブロードバンドインターネットアクセスを提供した。図11では、WiFiモジュール1170を示したが、理解できるように、それは携帯電話の必要な構成ではなく、必要に応じて発明の本質を変更しない範囲で完全に省略されてもよい。
【0119】
プロセッサ1180は、携帯電話の制御センターとして、様々なインターフェースと回路を利用して携帯電話全体の各部分に接続され、メモリ1120に記憶されたソフトウェアプログラム及び/又はモジュールを運行又は実行すること、及びメモリ1120に記憶されたデータを呼び出し、携帯電話の様々な機能を実行し、データを処理することで、携帯電話全体をモニタリングする。選択的に、プロセッサ1180は、1つ又は複数の処理ユニットを含んでもよく、好ましくは、プロセッサ1180は、アプリケーションプロセッサとモデムプロセッサを集積してもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース及びアプリケーションプログラムなどを処理するためのものであり、モデムプロセッサは、主に無線通信を処理するためのものである。理解できるように、上記モデムプロセッサは、プロセッサ1180に集積されなくてもよい。
【0120】
携帯電話は、各部品に電力を供給する電源1190(例えば電池)をさらに含み、好ましくは、電源は、電源管理システムによってプロセッサ1180にロジック的に接続されてもよく、これにより、電源管理システムによって充放電管理及び消費電力管理などの機能を実現することができる。
図示されてはいないが、携帯電話は、カメラ、ブルートゥース(登録商標)モジュールなどをさらに含んでもよく、ここでは説明を省略する。
【0121】
本実施例では、この端末機器に含まれるプロセッサ1180はさらに、
第1の解像度の処理対象のビデオフレームシーケンスを取得する機能、
前記処理対象のビデオフレームシーケンスにおける各フレームの処理対象のビデオフレームに対して、解像度再構築モデルに基づいて前記処理対象のビデオフレームを解像度再構築することで、前記第1の解像度よりも高い第2の解像度の初期再構築ビデオフレームを取得する機能、
前記初期再構築ビデオフレームにおける輪郭領域を決定する機能、
前記輪郭領域を輪郭強調処理することで、ターゲット再構築ビデオフレームを取得する機能、
前記ターゲット再構築ビデオフレームに基づいて第2の解像度の再構築ビデオフレームシーケンスを生成する機能を有する。
【0122】
本願の実施例はさらに、サーバを提供する。図12を参照すると、図12は、本願の実施例によるサーバ1200の構造図であり、サーバ1200は、配置又は性能の違いによって比較的に大きい相違が発生してもよく、1つ又はそれ以上の中央プロセッサ(Central Processing Units、CPUと略称)1222(例えば、1つ又はそれ以上のプロセッサ)とメモリ1232、1つ又はそれ以上のアプリケーションプログラム1242又はデータ1244を記憶する記憶媒体1230(例えば1つ又はそれ以上の大規模の記憶機器)を含んでもよい。ここで、メモリ1232と記憶媒体1230は、一時記憶又は永続記憶であってもよい。記憶媒体1230に記憶されたプログラムは、1つ又はそれ以上のモジュール(図示されていない)を含んでもよく、各モジュールは、サーバ内の一連の命令に対する操作を含んでもよい。さらに、中央プロセッサ1222は、記憶媒体1230と通信するように設定され、サーバ1200で記憶媒体1230内の一連の命令操作を実行してもよい。
【0123】
サーバ1200は、1つ又はそれ以上の電源1226、1つ又はそれ以上の有線又は無線ネットワークインターフェース1250、1つ又はそれ以上の入出力インターフェース1258、及び/又は、1つ又はそれ以上のオペレーティングシステム1241、例えばWindows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)TM、FreeBSDTMなどをさらに含んでもよい。
上記実施例においてサーバが実行するステップは、該図12に示されるサーバ構造に基づいて実行してもよい。
【0124】
本願の実施例はさらに、コンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体は、プログラムコードを記憶するために用いられ、前記プログラムコードは、前述した各実施例に記載の方法を実行するために用いられる。
【0125】
本願の実施例はさらに、命令を含むコンピュータプログラム製品であって、コンピュータで運行されると、コンピュータに前記各実施例に記載の方法を実行させるコンピュータプログラム製品を提供する。
【0126】
本願によるいくつかの実施例では、理解すべきことは、開示されたシステム、装置、及び方法は、他の形態によって実現されてもよい。例えば、以上に記述された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの区分は、ただ論理機能区分に過ぎず、実際に実現する時、他の区分形態があってもよく、例えば、複数のユニット又はコンポーネントは、別のシステムに組み合わせてもよく、又は集積されてもよく、いくつかの特徴は、無視されてもよく、又は実行されてもよい。また、表示又は討論されたお互いの組み合わせ又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットによる間接結合又は通信接続であってもよく、電気的、机械的又は他の形式であってもよい。
【0127】
前述分離された部品として説明されたユニットは、物理的に分離されてもよく、又は物理的に分離されなくてもよく、ユニットとして表示される部品は、物理的なユニットであってもよく、又は、物理的なユニットでなくてもよく、即ち、1つの場所に位置してもよく、又は複数のネットワークユニットに分布されてもよい。実際の必要に応じて、そのうちの一部又は全てのユニットを選択して、本実施例の方案の目的を実現することができる。
【0128】
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに集積されてもよく、各ユニットは、独立して物理的に存在しもよく、2つ又はそれ以上のユニットは、1つのユニットに集積されてもよい。上述した集積されたユニットは、ハードウェアの形式で実現されてもよく、ソフトウェア機能ユニットの形式で実現されてもよい。
【0129】
前記集積されたユニットは、ソフトウェア機能ユニットの形式で実現され、且つ独立した製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を踏まえて、本願の技術案は、実質には、又は従来の技術に寄与した部分又は該技術案の全て又は一部がソフトウェア製品の形式によって具現されてもよく、このコンピュータソフトウェア製品は、1つの記憶媒体に記憶され、一台のコンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい)に本願の各実施例に記載の方法の全て又は一部のステップを実行させるための若干の命令を含む。ただし、前述した記憶媒体は、Uディスク、リムーバブルハードディスク、リードオンリーメモリ(Read-Only Memory、ROMと略称)、ランダムアクセスメモリ(Random Access Memory、RAMと略称)、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能な様々な媒体を含む。
【0130】
前述したように、以上の実施例は、本願の技術案を説明するためにのみ用いられるが、それを制限するものではなく、前述した実施例を参照しながら本願を詳細に説明したが、当業者なら理解できるように、依然として前述した各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴を同等の置き換えを行ってもよいが、これらの修正又は置き換えは、相応な技術案の本質を本願の各実施例の技術案の思想と範囲から逸脱せずに行われる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12