(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】適応的な顔再現と顔復元に基づくテレビ会議
(51)【国際特許分類】
H04N 19/85 20140101AFI20241001BHJP
H04N 19/33 20140101ALI20241001BHJP
H04N 19/52 20140101ALI20241001BHJP
H04N 19/20 20140101ALI20241001BHJP
H04N 19/103 20140101ALI20241001BHJP
H04N 19/147 20140101ALI20241001BHJP
H04N 19/17 20140101ALI20241001BHJP
【FI】
H04N19/85
H04N19/33
H04N19/52
H04N19/20
H04N19/103
H04N19/147
H04N19/17
(21)【出願番号】P 2023517833
(86)(22)【出願日】2022-06-14
(86)【国際出願番号】 US2022033335
(87)【国際公開番号】W WO2022266033
(87)【国際公開日】2022-12-22
【審査請求日】2023-03-17
(32)【優先日】2021-06-14
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-06-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジャン,ウェイ
(72)【発明者】
【氏名】ワン,ウェイ
(72)【発明者】
【氏名】リウ,シャン
【審査官】田部井 和彦
(56)【参考文献】
【文献】米国特許出願公開第2019/0215482(US,A1)
【文献】特開2021-077376(JP,A)
【文献】特開2004-179997(JP,A)
【文献】米国特許出願公開第2015/0213604(US,A1)
【文献】国際公開第2021/096192(WO,A1)
【文献】国際公開第2020/016612(WO,A1)
【文献】Maxime Oquab et al.,Low Bandwidth Video-Chat Compression using Deep Generative Models [online],Published in: 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), [2024年3月14日検索],2021年09月01日,pp.2388-2397,インターネット <URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9522751>,DOI: 10.1109/CVPRW53098.2021.00271
【文献】Justus Thies et al.,Face2Face: Real-time Face Capture and Reenactment of RGB Videos [online],Computer Science, Computer Vision and Pattern Recognition, arXiv:2007.14808v1 [cs.CV], [2024年3月11日検索],2020年07月29日,インターネット <URL: https://arxiv.org/pdf/2007.14808>
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/85
H04N 19/33
H04N 19/52
H04N 19/20
H04N 19/103
H04N 19/147
H04N 19/17
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
テレビ会議用に圧縮されたビデオの適応
コーディング方法であって、
顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を
エンコーダが決定するステップ
であって、前記選択信号は、顔の復元損失を表すレート歪損失と顔の再現損失を表すレート歪損失との比較に基づいて決定される、ステップと、
前記顔復元技術及び前記顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して
前記エンコーダがデコーダへ送信するステップと、
複数のビデオ・フレームを含む圧縮されたビデオ・データを前記デコーダが受信するステップと、
前記選択信号と、前記単一の参照フレーム又は前記複数の低解像度(LR)フレームと、前記圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを
前記デコーダが生成するステップと、
前記1つ以上の回復した顔特徴と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、前記複数のビデオ・フレームからビデオ・フレームを
前記デコーダが復号化するステップと
を含
み、前記復号化するステップは、
前記顔復元技術を使用することを示す前記選択信号に基づいて、前記顔復元技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップと、
前記顔再現技術を使用することを示す前記選択信号に基づいて、前記顔再現技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップであって、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域は、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域を含む、ステップと
を含む、方法。
【請求項2】
請求項1に記載の方法において、前記圧縮されたビデオ・データは、1つ以上の圧縮された顔ランドマーク特徴と、圧縮された個々の低解像度(LR)の拡張された顔領域と、前記選択信号とを含むことが可能である、方法。
【請求項3】
請求項1に記載の方法において、前記1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップは、
圧縮された顔ランドマーク特徴の圧縮解除に基づいて、前記1つ以上の回復した顔特徴を生成するステップと、
圧縮された個々の低解像度(LR)の拡張された顔領域の圧縮解除に基づいて、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域を生成するステップと
を含む、方法。
【請求項4】
請求項
3に記載の方法において、前記顔復元技術は、
訓練されたニューラル・ネットワークを用いて、前記1つ以上の回復した顔特徴に基づいて顔のパーツに対応する個々の顔の詳細を生成すること、及び
前記個々の顔の詳細と1つ以上のアップ・サンプリングされた個々の圧縮解除された低解像度(LR)の拡張された顔領域との融合に基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、方法。
【請求項5】
請求項
3に記載の方法において、前記顔再現技術は、
訓練されたニューラル・ネットワークを用いて、前記少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域と前記1つ以上の回復した顔特徴とに基づいて、1つ以上の個々の中間表現を生成すること、及び
前記1つ以上の個々の中間表現をアップ・サンプリングすることに基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、方法。
【請求項6】
請求項1に記載の方法において、前記ビデオ・フレームを復号化するステップは、前記1つ以上の個々の高解像度(HR)の拡張された顔領域と前記ビデオ・フレームの他の復号化されたパーツとに基づいて、最終的な復号化されたフレームを生成するステップを含む、方法。
【請求項7】
テレビ会議用に圧縮されたビデオの適応
コーディング装置であって、
コンピュータ・プログラム・コードを記憶するように構成された少なくとも1つのメモリと、
前記コンピュータ・プログラム・コードにアクセスし、前記コンピュータ・プログラム・コードが指示するように動作するように構成された少なくとも1つのプロセッサと
を含み、前記コンピュータ・プログラム・コードは、請求項1ないし
6のうちの何れか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、装置。
【請求項8】
請求項1ないし
6のうちの何れか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
【請求項9】
請求項
8に記載のコンピュータ・プログラムを記憶した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[0001] 関連出願の相互参照
本願は、2021年6月14日付で出願された米国仮特許出願第 63/210,452 号、及び 2022年6月13日付で出願された米国特許出願第 17/838,686 号に基づく優先権を主張しており、それらの開示全体は参照により本件に援用される。
【0002】
[0002] 技術分野
本開示の実施形態は、ビデオ及び画像フレームを符号化及び復号化することに関連する。より具体的には、本開示の実施形態は、機械学習を使用してビデオ及び画像フレームの符号化及び復号化することに関連する。
【背景技術】
【0003】
[0003] 国際標準化団体ISO/IEC/IEEE は、AIベースのビデオ・コーディング技術を積極的に探索しており、特に、ディープ・ニューラル・ネットワーク(NN)に基づく技術に焦点を当てている。ニューラル・ネットワーク圧縮(Neural Network Compression, NNR)、マシン用ビデオ・コーディング(Video Coding for Machine,VCM)、ニューラル・ネットワーク・ベースのビデオ・コーディング(Neural Network-based Video Coding, NNVC)等々を調査するために、様々な委員会や機関が設立されている。中国のAITISA及びAVSもまた、同様な技術の標準化を研究する対応する専門グループを設立している。
【0004】
[0004] 最近、ビデオ会議はますます重要になってきており、通常、複数のエンド・ユーザーの合同会議をサポートする際に、小さい帯域幅の伝送を必要としている。一般的なビデオ圧縮タスクと比較すると、会議シナリオにおけるビデオは、ほとんど同様な内容、即ち、ビデオの主な主体であり且つシーン全体の大部分を占める1人又は数名の話者を含む。制約を受けない背景は、任意的に複雑なもの、屋内、又は屋外にすることが可能であるが、それらはさほど重要ではない。
【0005】
[0005] 最近、顔再現(face re-enactment)を使用するAIベースのフレームワークが、ビデオ会議での用途に提案されている。このような典型的なフレームは、ほとんどのフレームに関し、元のピクセルを送信する代わりに、ポーズ及び表情に関連するランドマーク特徴のみが送信されるので、送信ビットの消費を削減することができる。しかしながら、再現ベースのフレームワークは、元の顔の外観に対する何らかの忠実度を保証し損なってしまい、多くの場合、劇的なアーチファクトを招く結果となる可能性があります。一例として、顔再現ベースのAIフレームワークは、一般に、閉塞や大きな動きなどに非常に敏感であり、実際のビデオ会議製品では堅牢に使用することはできない。
【0006】
[0006] 従って、伝送ビット消費と顔特徴に対する忠実度との間のバランスを達成するビデオ会議フレームワークが必要とされている。
【発明の概要】
【0007】
[0007] 本開示の態様によれば、テレビ会議用に圧縮されたビデオの適応復号化方法を提供することが可能である。方法は1つ以上のプロセッサにより実行されることが可能であり、方法は、複数のビデオ・フレームを含む圧縮されたビデオ・データを受信するステップと、顔復元技術(face restoration technique)及び顔再現技術(face reenactment technique)のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定するステップと、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(low resolution,LR)フレーム又は単一の参照フレームを適応的に選択して送信するステップと、選択信号とビデオ・データとに基づいて、1つ以上の回復した顔特徴(recovered facial features)と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップと、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、複数のビデオ・フレームからビデオ・フレームを復号化するステップとを含む。
【0008】
[0008] 本開示の態様によれば、テレビ会議用に圧縮されたビデオの適応復号化装置を提供することが可能である。装置は、コンピュータ・プログラム・コードを記憶するように構成された少なくとも1つのメモリと、コンピュータ・プログラム・コードを読み込み、コンピュータ・プログラム・コードが指示するように動作するように構成された少なくとも1つのプロセッサとを含む。プログラム・コードは、複数のビデオ・フレームを含む圧縮されたビデオ・データを受信することを、少なくとも1つのプロセッサに行わせるように構成された受信コードと、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定することを、少なくとも1つのプロセッサに行わせるように構成された第1の決定コードと、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して送信することを、少なくとも1つのプロセッサに行わせるように構成された適応選択コードと、選択信号と圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成することを、少なくとも1つのプロセッサに行わせるように構成された第1の生成コードと、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、複数のビデオ・フレームからビデオ・フレームを復号化することを、少なくとも1つのプロセッサに行わせるように構成された復号化コードとを含むことが可能である。
【0009】
[0009] 本開示の態様によれば、テレビ会議用に圧縮されたビデオの適応復号化のための命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体を提供することが可能である。命令は、少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに、複数のビデオ・フレームを含む圧縮されたビデオ・データを受信するステップと、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定するステップと、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して送信するステップと、選択信号と圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップと、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、複数のビデオ・フレームからビデオ・フレームを復号化するステップとを行わせることが可能である。
【図面の簡単な説明】
【0010】
[0010] 開示される対象事項の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面から更に明らかになるであろう。
【
図1】[0011]
図1は、実施形態による通信システムの簡略化されたブロック図である。
【
図2】[0012]
図2は、
図1の1つ以上のデバイスの例示的な構成要素のブロック図である。
【
図3A】[0013]
図3Aは、実施形態によるビデオ会議フレームワークにおける例示的なエンコーダの図である。
【
図3B】[0013]
図3Bは、実施形態によるビデオ会議フレームワークにおける例示的なエンコーダの図である。
【
図4A】[0014]
図4Aは、実施形態によるビデオ会議フレームワークにおける例示的なデコーダの図である。
【
図4B】[0014]
図4Bは、実施形態によるビデオ会議フレームワークにおける例示的なデコーダの図である。
【
図5】[0015]
図5は、実施形態によるビデオ会議フレームワークにおいて1つ以上のニューラル・ネットワークを訓練するための例示的な図である。
【
図6】[0016]
図6は、実施形態によるビデオ会議フレームワークにおいてビデオ又は画像フレームを復号化するための例示的なフローチャートである。
【
図7】[0017]
図7は、実施形態によるストリーミング環境の図である。
【発明を実施するための形態】
【0011】
[0018] 本開示の実施形態によれば、顔復元(又は顔幻影(face hallucination))及び顔再現(又は顔操作(face manipulation))に基づくビデオ会議のためのフレームワークを提供することができる。顔復元は、顔のランドマーク特徴に基づいて、低品質 (LQ)の顔から高品質(HQ)の顔へリアルな詳細を復元し、適度な圧縮率で顔の外観の高い忠実度を維持することができる。顔再現は、実際のソース・フェイスとターゲット・フェイスの顔ランドマーク特徴とに基づいて現実味のあるターゲット・フェイスを生成し、視覚的な忠実度を失うリスクとともに高い圧縮率を達成することができる。圧縮率の観点から言えば、顔再現は非常に高い圧縮率を達成することが可能であり、その場合、システムは1つのソース・フェイス画像と顔ランドマーク特徴だけを送信して、全てのターゲット・フェイスを生成する。それに比べて、顔復元は、ターゲット・フェイスごとに顔ランドマークの特徴に加えて、LQ顔画像を送信することを必要とする。
【0012】
[0019] 本開示の実施形態は、2つの技術を組み合わせて、ビデオ会議システムで使用するのに最も適切な方法を適応的に選択することを目的としており、その場合において、顔の特徴と僅かな量のダウン・サンプリングされたフレームとが送信されるだけである。本開示の実施形態は、ダウン・サンプリングされたフレーム及び顔特徴に基づいてデコーダ側で復元される忠実度の高い顔により、伝送コストの削減を可能にする。これら2つの技術を適応的に組み合わせることにより、提案される方法は、視覚的な忠実度と圧縮率のバランスを自動的にとり、効果的なビデオ会議を実現し、不快なアーチファクトを回避することができる。
【0013】
[0020]
図1は、本開示の実施形態による通信システム(100)の簡略化されたブロック図を示す。通信システム(100)は、ネットワーク(150)を介して相互接続された少なくとも2つの端末(140-130)を含む可能性がある。データの一方向伝送に関し、第1の端末(140)は、ネットワーク(150)を介する他の端末(130)への伝送のために、ローカルな位置でビデオ・データをコーディングすることができる。第2の端末(130)は、他の端末のコーディングされたビデオ・データをネットワーク(150)から受信し、コーディングされたデータを復号化し、復元されたビデオ・データを表示することができる。一方向データ伝送は、メディア・サービング・アプリケーション等において一般的なものであってもよい。
【0014】
[0021]
図1は、例えばテレビ会議中に生じる可能性のあるコーディングされたビデオの双方向伝送をサポートするために提供される第2のペアの端末(110,120)を示す。データの双方向伝送の場合、各々の端末(110,120)は、ネットワーク(150)を介して他の端末へ伝送するために、ローカルな位置でキャプチャされたビデオ・データをコーディングすることができる。各端末(110,120)はまた、他の端末によって伝送されたコーディングされたビデオ・データを受信することが可能であり、コーディングされたデータを復号化することが可能であり、復元されたビデオ・データをローカルなディスプレイ・デバイスで表示することが可能である。
【0015】
[0022]
図1では、端末(140-120)は、サーバー、パーソナル・コンピュータ、及びスマート・フォンとして示されているかもしれないが、本開示の原理はそのように限定されない。本開示の実施形態は、ラップトップ・コンピュータ、タブレット・コンピュータ、メディア・プレーヤー、及び/又は専用ビデオ会議機器を伴う用途を見出している。ネットワーク(150)は、例えば有線及び/又は無線通信ネットワークを含む、コーディングされたビデオ・データを端末(140-120)間で運ぶ任意数のネットワークを表す。通信ネットワーク(150)は、回線交換チャネル及び/又はパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、及び/又はインターネットを含む。本件の議論の目的のために、ネットワーク(150)のアーキテクチャ及びトポロジーは、以下において説明されない限り、本開示の動作にとって重要ではない可能性がある。
【0016】
[0023]
図2は、
図1の1つ以上のデバイスの例示的な構成要素のブロック図である。
【0017】
[0024] デバイス200は、端末(110-140)のうちの任意の何れかに対応する可能性がある。
図2に示すように、デバイス200は、バス210、プロセッサ220、メモリ230、ストレージ・コンポーネント240、入力コンポーネント250、出力コンポーネント260、及び通信インターフェース270を含む可能性がある。
【0018】
[0025] バス210は、デバイス200のコンポーネント間で通信を可能にするコンポーネントを含む。プロセッサ220は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実現される。プロセッサ220は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、又は別のタイプの処理コンポーネントである。一部の実装では、プロセッサ220は、機能を実行するようにプログラムすることが可能な1つ以上のプロセッサを含む。メモリ230は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、及び/又は別のタイプの動的又は静的なストレージ・デバイス(例えば、フラッシュ・メモリ、磁気メモリ、及び/又は光メモリ)であって、プロセッサ220が使用する情報及び/又は命令を記憶するものを含む。
【0019】
[0026] ストレージ・コンポーネント240は、デバイス200の動作及び用途に関連する情報及び/又はソフトウェアを格納する。例えば、ストレージ・コンポーネント240は、ハード・ディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、及び/又はソリッド・ステート・ディスク)、コンパクト・ディスク(CD)、デジタル多用途ディスク(DVD)、フロッピー・ディスク、カートリッジ、磁気テープ、及び/又は別のタイプの非一時的なコンピュータ読み取り可能な媒体を、対応するドライブとともに含む可能性がある。
【0020】
[0027] 入力コンポーネント250は、(例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び/又はマイクのような)ユーザー入力を介して行われるように、デバイス200が情報を受けることを可能にするコンポーネントを含む。追加的又は代替的に、入力コンポーネント250は、情報を感知するためのセンサ(例えば、グローバル・ポジショニング・システム(GPS)コンポーネント、加速度計、ジャイロスコープ、及び/又はアクチュエータ)を含む可能性がある。出力コンポーネント260は、出力情報をデバイス200からの提供するコンポーネント(例えば、ディスプレイ、スピーカ、及び/又は1つ以上の発光ダイオード(LED))を含む。
【0021】
[0028] 通信インターフェース270は、トランシーバのようなコンポーネントであって、デバイス200が他のデバイスと、有線接続、無線接続、又は有線及び無線接続の組み合わせを介して通信できるようにするもの(例えば、トランシーバ及び/又は別個の受信機及び送信機)を含む。通信インターフェース270は、デバイス200が別のデバイスから情報を受信すること、及び/又は別のデバイスへ情報を提供することを可能にすることができる。例えば、通信インターフェース270は、イーサーネット・インターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサル・シリアル・バス(USB)インターフェース、Wi-Fiインターフェース、セルラー・ネットワーク・インターフェース等を含む可能性がある。
【0022】
[0029] デバイス200は、本件で説明される1つ以上のプロセスを実行することが可能である。プロセッサ220が、メモリ230及び/又はストレージ・コンポーネント240のような非一時的なコンピュータ読み取り可能な媒体によって格納されているソフトウェア命令を実行することに応答して、デバイス200はこれらのプロセスを実行することが可能である。コンピュータ読み取り可能な媒体は、本件では、非一時的なメモリ・デバイスとして定義される。メモリ・デバイスは、単一の物理ストレージ・デバイス内のメモリ空間、又は、複数の物理ストレージ・デバイスを介するメモリ空間を含む。
【0023】
[0030] ソフトウェア命令は、メモリ230及び/又はストレージ・コンポーネント240の中へ、別のコンピュータ読み取り可能な媒体から、又は通信インターフェース270を介して別のデバイスから、読み込まれることが可能である。実行されると、メモリ230及び/又はストレージ・コンポーネント240に格納されているソフトウェア命令は、プロセッサ220に、本件で説明される1つ以上のプロセスを実行させることが可能である。追加的又は代替的に、ハードワイヤード回路が、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて使用されて、本件で説明される1つ以上のプロセスを実行することが可能である。従って、本件で説明される実装は、ハードウェア回路とソフトウェアの如何なる特定の組み合わせにも限定されない。
【0024】
[0031]
図2に示されるコンポーネントの数及び配置は、一例として提示されている。実際には、デバイス200は、
図2に示されるものに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は別様に配置されたコンポーネントを含む可能性がある。追加的又は代替的に、デバイス200のコンポーネントの或るセット(例えば、1つ以上のコンポーネント)は、デバイス200のコンポーネントの別のセットによって実行されるように説明された1つ以上の機能を実行する可能性がある。
【0025】
[0032]
図3Aは、本開示の実施形態によるエンコーダ300を示す例示的な図である。
【0026】
[0033] エンコーダ300は、端末(110-140)のうちの任意の何れかにおけるコンポーネントに対応する可能性がある。
図3Aに示すように、エンコーダ300は、顔検出及び顔ランドマーク抽出部302、拡張顔領域(extended face area,EFA)特徴圧縮及び伝送部304、ダウン・サンプラ306、ランドマーク特徴圧縮及び伝送部308、EFA圧縮/解凍部310、顔復元部312、顔再現部318、RD選択部314、EFA圧縮及び伝送部316を含むことが可能である。
【0027】
[0034] 画像又はビデオ・フレームx1,x2,・・・の入力シーケンスが与えられると、参照フレームxtを決定することができる。実施形態では、入力シーケンスはピクチャ群(GoP)であってもよく、参照フレームxtはGoPのIフレームであってもよい。全てのフレーム(参照フレームと非参照フレームの両方)について、顔検出&顔ランドマーク抽出部302は、1つ又は複数の有効な顔を、各ビデオ・フレームxiから決定することができる。一実施形態では、最も目立つ(例えば、最大の)顔のみが検出され、別の実施形態では、条件(例えば、閾値を超える程度に十分大きなサイズを有すること)を充足するフレーム内の全ての顔が検出される可能性がある。xi内のj番目の顔について、顔ランドマークのセットを決定することが可能であり、それに応じて顔ランドマーク特徴のセットfl,i,jを計算することが可能であり、これはxiにおけるj番目の顔を復元するためにデコーダによって使用されることが可能である。顔検出&顔ランドマーク抽出部302はまた、例えば、本来的に検出された顔の境界領域(四角形、楕円、又は細かい粒度のセグメンテーション境界のような境界)を、追加的な髪、身体部分、又は背景さえをも含むように拡張することによって、xiにおけるj番目の顔に対する拡張顔領域(Extended Face Area,EFA)Ei,jを計算することも可能である。一例として、1つの目立つ顔が存在する場合、EFAはフレーム全体であるか、又は、重要でない背景領域を削除することによるフレームの主要部分であってもよい。顔検出&顔ランドマーク抽出部302は、各ビデオ・フレームxi内の顔領域を突き止める如何なる顔検出器であってもよく、例えば、人間の顔を特別な物体カテゴリとして取り扱うことによる何らかの物体検出ニューラル・ネットワーク(NN)、又は、人間の顔の位置を突き止めるように特別に設計されたその他のNNアーキテクチャのようなものであってもよい。顔検出&顔ランドマーク抽出部302はまた、任意の顔ランドマーク検出器を使用して、検出された顔の各々に関する所定の顔ランドマーク(例えば、左/右の目、鼻、口の周辺のランドマーク)を突き止めることも可能である。幾つかの実施形態において、1つ以上のマルチ・タスクNNを使用して、顔及び関連するランドマークを同時に突き止めることが可能である。顔ランドマーク特徴fl,i,jは、j番目の顔のランドマークを特定するために直接的に使用することが可能な、顔ランドマーク検出器によって計算された中間的な潜在表現(intermediate latent representation)であってもよい。中間的な潜在表現を更に処理して、顔ランドマーク特徴fl,i,jを計算するために、追加のNNが適用されてもよい。例えば、情報は、例えば右目のような顔のパーツ周辺の個々のランドマークに対応する特徴マップから、その顔のパーツについてのジョイント特徴(joint feature)に集約されることが可能である。
【0028】
[0035] 一部の実施形態では、参照フレームxt内のk番目の顔と非参照フレーム内のj番目の顔とは、1対1の対応を有する可能性がある。一例として、ビデオの中に1つの目立つ顔が存在する場合、参照フレームと非参照フレームにおける唯一つの顔の対応が自動的に確立される可能性がある。一部の実施形態において、ビデオ・ストリーム中に複数の顕著な顔が存在する場合、何らかの技術を用いて、非参照フレーム内のj番目の顔と参照フレーム内のk番目の参照顔、例えば同じ人物との間に、対応が確立される可能性があり、何らかの技術は顔追跡、顔認識、再同定(re-identification)などを含むがこれらに限定されない。
【0029】
[0036] 一部の実施形態では、参照フレームxtにおける対応するk番目の顔を伴う非参照フレームxiにおけるj番目の顔に関し、対応するEFAi,j及びEt,kは、どちらもダウン・サンプラ306で低解像度(LR)EFA Ei,j
LRとLR参照EFA Et,k
LRに、より低い解像度でダウン・サンプリングされることが可能である。Ei,jの顔ランドマーク特徴fl,i,jと、Et,kの顔ランドマーク特徴fl,t,kと、LR参照EFA Et,k
LRとに基づいて、顔再現部318は、再現されたEFA E^
i,j
Reを計算することができる。別の実施形態では、LR EFA Ei,j
LRは、圧縮及び圧縮解除され、EFA圧縮/圧縮解除部310において、LR EFA Ei,j
LRは圧縮されたEFA E-
i,j
LR-Cp’及び圧縮解除されたE-
i,j
LR-Cpにされる。一部の実施形態では、その後、顔復元部312は、再構成されたEFA E^
i,j
SRをE-
i,j
LR-Cpから、顔ランドマーク特徴fl,i,jを使用することにより計算することができる。元のEi,jに基づいて、RD選択部314において、レート歪(Rate-Distortion,RD)損失は、Rd(E^
i,j
SR)として、再構成されたE^
i,j
SR)に関して計算されることが可能であり、RD損失は、Rd(E^
i,j
Re)として、再現されたE^
i,j
Re)に関して計算されることが可能である。実施形態では、RD損失Rd(E^
i,j
SR)は、Rd(E^
i,j
SR)=D(Ei,j,E^
i,j
SR)+λR(E-
i,j
LR-Cp’)により与えられてもよく、ここで、D(Ei,j,E^
i,j
SR)は、再構成されたE^
i,j
SRと元のEi,j,との間の差分の尺度である歪(例えば、MSR,SSIM等)であってもよく;R(E-
i,j
LR-Cp’)は、伝送のビット消費E-
i,j
LR-Cp’の尺度であるレート損失であってもよく;λはこれら2つのトレードオフ項のバランスをとるためのハイパーパラメータであってもよい。RD損失Rd(E^
i,j
Re)は、歪損失D(Ei,j,E^
i,j
Re)を含むことが可能であり(例えば、MSE,SSIM等)、なぜなら追加的なEFAが伝送されることを必要としないからである。D(Ei,j,E^
i,j
Re)とD(Ei,j,E^
i,j
SR)は異なる歪尺度を使用してもよい。異なる選択枝をとることによる複雑性損失のような、他の損失項又は正則化項も考慮に入れることが可能である。Rd(E^
i,j
Re)とRd(E^
i,j
SR)に基づいて、RD選択部314は、選択信号si,jを取得することが可能であり、選択信号は、何れの方法が現在のEFA Ei,jを生成するために使用されてもよいかを示す二進値をとってもよい。選択信号が、顔復元方法が使用されてもよいことを示す場合、圧縮されたEFA E-
i,j
LR-Cp’が、EFA圧縮&伝送部316に渡されて(例えば、量子化及びエントロピー・コーディングによって更に圧縮される)、デコーダへ伝送される。LR参照EFA Et,k
LRはまた、EFA圧縮&伝送部312によって、圧縮されたLR参照EFA Et,k
LR’に更に圧縮されることも可能であり、それはデコーダへ伝送されることが可能である。顔ランドマーク特徴fl,i,jとfl,t,kは、ランドマーク特徴圧縮&伝送部308によって、圧縮された顔ランドマーク特徴f’l,i,jとf’l,t,kに圧縮されてもよく、これらはデコーダに伝送されることが可能である。選択信号si,jもデコーダに伝送される。
【0030】
[0037] 一部の実施形態では、一組の又は複数のEFA特徴fb,i,jが計算される可能性があり、これらはxiにおけるj番目の顔のEFAを復元することを支援するためにデコーダによって使用されてもよい。これらの特徴はまた、EFA圧縮&伝送部316によって、圧縮されたEFA特徴f’b,i,jに符号化され伝送されてもよい。EFA特徴fb,i,jは、j番目の顔に対応する、顔検出器によって計算された中間潜在表現であってもよい。例えば、実際の顔領域以外の背景領域を強調することによって、中間潜在表現に基づいてfb,i,j を計算するために、追加的なNNを使用することも可能である。本開示は、顔検出器、顔ランドマーク検出器、顔ランドマーク特徴抽出器、又はEFA特徴抽出器についての何らかの方法やNNアーキテクチャに限定されない。
【0031】
[0038] EFA圧縮/圧縮解除部310は、HEVC、VVC、NNVC、又はエンド・ツー・エンドの画像/ビデオ・コーディングのような如何なるビデオ・コーディング・フレームワークをも使用する可能性がある。同様に、EFA圧縮&伝送部316は、HEVC、VVC、NNVC、又はエンド・ツー・エンドの画像/ビデオ・コーディングのような如何なるビデオ符号化フレームワークをも使用する可能性がある。
【0032】
[0039] ランドマーク特徴圧縮&伝送部308は、顔ランドマーク特徴を効率的に圧縮するために様々な方法を使用することが可能である。実施形態では、コードブック・ベースのメカニズムが使用されてもよく、その場合、各々の顔の部分(例えば、右目)に対して、コードブックを生成することが可能である。特定の顔の特定の顔の部分(例えば、現在のフレームの現在の顔の右目)に関し、その顔のランドマーク特徴は、このコードブック内のコードワードの重み付けされた組み合わせによって表現されることが可能である。コードブックはデコーダ側で保存されることが可能であり、顔ランドマーク特徴を復元するために、コードワードの重み係数がデコーダ側に転送されることだけを必要とする。EFA特徴圧縮&伝送部304はまた、EFA特徴を圧縮するために様々な方法を使用することが可能である。実施形態では、EFAコードブックが使用されてもよく、その場合、特定のEFA特徴はEFAコードワードの重み付けされた組み合わせによって表現されることが可能であり、EFA特徴を復元するために、コードワードの重み係数が転送されることだけを必要とする。
【0033】
[0040] 顔再現部318は、任意の顔再現方法を使用する可能性がある。実施形態では、当技術分野で知られている顔再現法を適用して、LR被再現EFA E
^
i,j
LR-Reを取得することが可能であり、これは、再現されたEFA E
^
i,j
Reを計算するために、アップ・サンプリング法(例えば、一般的な超解像度法(general super-resolution method)又は顔の超解像度法(face super-resolution method))によって更にアップ・サンプリングされてもよい。顔復元部312は、任意の一般的な超解像度法又は顔の超解像度法を使用することができる
[0041]
図3Bは、本開示の実施形態によるエンコーダ350を示す例示的な図である。
【0034】
[0042] エンコーダ350は、
図3Aのエンコーダ300と同様であってもよいが、相違点は、参照EFA E
t,kがダウン・サンプリングされない可能性があり、顔再現部318 が元の参照EFA E
t,kと顔ランドマーク特徴f
l,i,jとf
l,t,kとを使用して、当技術分野で知られている顔再現方法に基づいて、再現されたEFA E
^
i,j
Reを計算することが可能な点である。元の解像度の元の参照EFA E
t,kは、EFA圧縮&伝送部316によって、圧縮された参照EFA E’
t,kに更に圧縮され、これはデコーダへ伝送されることが可能である。
【0035】
[0043]
図4Aは、本開示の実施形態によるデコーダ400を示す例示的な図である。
【0036】
[0044] デコーダ400は、端末(110-140)のうちの任意の何れかにおけるコンポーネントに対応してもよい。
図4Aに示されるように、デコーダ400は、EFA再構成部402、EFA特徴圧縮解除部404、顔復元部406、顔再現部408、ランドマーク特徴圧縮解除部410、及びEFA圧縮解除部412を含む可能性がある。
【0037】
[0045] 圧縮された顔ランドマーク特徴のセットf’l,i,jとf’l,t,kは、デコーダ400によって受信されることが可能であり、それらは、顔ランドマーク特徴fl,i,jとfl,t,kをを回復するためにランドマーク特徴圧縮解除部410に渡されることが可能である。エンコーダ側で説明されたように、ランドマーク特徴圧縮解除部410は、エンコーダ300又はエンコーダ350に合致する何らかの圧縮解除方法を使用することが可能である。デコーダ400は、圧縮されたLR参照EFA Et,k
LR’も受信することが可能であり、これはEFA 圧縮解除部412においてLR参照EFA Et,k
LR を回復するために使用されることが可能である。何らかのビデオ復号化方法、ハイブリッド・ビデオ復号化方法、又はエンド・ツー・エンドの画像/ビデオ復号化方法のような任意の圧縮解除方法であって、エンコーダ側に合致するものが、ここで使用されることが可能である。
【0038】
[0046] 選択信号si,jは、デコーダ400によって受信することが可能である。一部の実施形態では、選択信号が、顔復元技術が使用されることになることを示す場合に、デコーダ400は、圧縮されたLR EFA E-
i,j
LR-Cp’を受信することが可能であり、これはEFA圧縮解除部412においてEi,j
LRを回復させるために圧縮解除されることが可能である。回復したランドマーク特徴fl,i,jと回復したLR EFA Ei,j
LRは、再構成された高解像度(HR)EFA E^
i,j
SRを計算するために、顔復元部406に渡されることが可能である。実施形態では、顔復元部406は、顔の詳細Li,jを生成するために、異なる顔パーツに対応するランドマーク特徴で条件付けられた、条件付き敵対的生成ネットワーク(Generative Adversarial Network,GAN)を含み、顔の詳細はフレームxiの中でj番目の顔についての一組の顔詳細表現を含むことが可能である。と同時に、復元された LR EFA Ei,j
LRは、(従来の補間又はアップ・サンプリング NN の何れかによって)Ei,j
SR'にアップ・サンプリングされることが可能であり、アップ・サンプリングされたものは、最終的なE^
i,j
SRを生成するために、融合NN(fusion NN)により顔詳細Li,jと組み合わせられることが可能である。
【0039】
[0047] 一部の実施形態では、選択信号が、顔再現技術が使用されることになることを示す場合、回復したランドマーク特徴fl,i,j及びfl,t,k並びにLR参照EFA Et,k
LRは、再現されたEFA E^i,j
Reを計算するために顔再現部408に渡されることが可能である。実施形態では、fl,i,j,fl,t,k及びEt,k
LRに基づいて、再現されたLR EFA Ei,j
LR-Reを生成するために、エンコーダにおけるものと同じ顔再現法が使用されてもよい。次いで、Ei,j
LR-Reは、(従来の補間又はアップ・サンプリングNNの何れかによって)最終的に再現されたEFA Ei,j
HR-Reまでアップ・サンプリングされることが可能である。本開示は顔復元部406又は顔再現部408のNNアーキテクチャを限定していない。
【0040】
[0048] 選択信号に応じて、再現されたEFA E^
i,j
Re又は再構築されたEFA E^
i,j
SRの何れかが、フレームxiにおけるj番目の顔に対する最終的に復号化されたEFA E^
i,jであるとすることが可能である。これは、例えば、ブレンド処理又はマット処理(matting)によって、最終的な復号化されたフレームx^
iを生成するために、フレームxiの他の復号化された部分と組み合わせられることが可能である。
【0041】
[0049] 一部の実施形態では、受信されたEFA特徴f’b,i,jは、圧縮解除されたEFA特徴fb,i,jを生成するために、EFA特徴圧縮解除部404に渡されてもよい。次いで、フレームxiの中のj番目の顔周辺の非顔面・背景領域を復元することに集中しながら、再構成されたHR EFA背景B^
i,j
SRを計算するために、EFA再構成部402が使用されてもよい。B^
i,j
SRは、例えばブレンド処理又はマット処理によって、最終的な復号化された特徴EEA E^
i,jを取得するために、E^
i,j
Re又はE^
i,j
SRと組み合わせられることが可能である。
【0042】
[0050]
図4Bは、本開示の実施形態によるデコーダ450を示す例示的な図である。
【0043】
[0051] デコーダ450は、
図4Aにおけるデコーダ400と同様なものであってもよいが、相違点は、元の解像度の圧縮された参照EFA E’
t,kを受信することが可能であり、それは、圧縮解除された参照EFA E
t,kを元の解像度で直接的に計算するために、EFA圧縮解除部412へ渡されてもよい点である。顔再現部408は、追加のアップ・サンプリングなしに、再現されたEFA E
^
i,j
Reを直接的に生成することが可能である。
【0044】
[0052] エンコーダ300、エンコーダ350、デコーダ400、及びデコーダ450のコンポーネント内のモデルを含む幾つかのニューラル・ネットワーク・ベースのモデルは、配備される前に訓練される可能性がある。学習ベースのダウン・サンプリング方法又は学習ベースの圧縮/圧縮解除方法が使用される場合にも、訓練が必要とされる可能性がある。実施形態では、これら全てのコンポーネントがDNNベースの方法を使用することが可能であり、これらのDNNの重みパラメータを訓練することが可能である。他の実施形態では、これらのうち幾つかのコンポーネントは、従来の顔ランドマーク検出器のような従来の学習ベースの方法を使用することが可能であり、対応するモデル・パラメータも訓練されることを必要とする。例示的かつ非限定的な訓練プロセスをここで開示する。
【0045】
[0053]
図5は、実施形態によるビデオ会議フレームワークにおいて1つ以上のニューラル・ネットワークを訓練するための訓練プロセス500の例示的な図である。
【0046】
[0054]
図5に示されるように、訓練プロセス500は、エンコーダ506、レート推定部504、計算損失部502、及びデコーダ508を含む可能性がある。実施形態によれば、訓練プロセス500におけるエンコーダ506は、エンコーダ300又はエンコーダ350を使用して実装されてもよい。実施形態によれば、訓練プロセス500におけるデコーダ506は、デコーダ400又はデコーダ450を使用して実装されてもよい。
【0047】
[0055] 訓練のために、一部の実施形態では、圧縮/圧縮解除方法は、実際の圧縮/圧縮解除プロセスにおける非微分プロセス(non-differential process)を、ノイズ・モデリング方法で置換することが可能である。一例として、実際の量子化/逆量子化プロセスは、量子化後の実際のビット・レートを推定するために、エントロピー推定方法に置換されてもよい。これらのノイズ・モデリング方法は、圧縮して伝送されることを必要とする可能性のある信号にランダム・ノイズを追加し、最終的なテスト段階で、圧縮された信号の真のデータ分布を模倣する。従って、使用されるノイズ・モデルは、事実上、使用される実際の圧縮/解凍方法に依存している可能性がある。
【0048】
[0056] 損失の計算502では、学習可能なコンポーネントを学習するために、幾つかのタイプの損失が訓練プロセスで計算されてもよい。歪D(Ei,j,E^
i,j)は、元のEFA Ei,jと、復号化されたEFA E^
i,jとの間で計算されてもよい(例えば、MSR,SSIMなど)。更に、全ての伝送された信号は、レート推定部504に送られて、本件で説明された又は当技術分野で知られている何らかのノイズ・モデリング法によって、推定されたレート損失を計算することができる。全体的な歪D(xi,x^
i)は、元のxiと復号化されたx^
i との間で計算されてもよい(例えば、MSE,SSIMなど)。再構成された顔領域又は顔面領域のさまざまな部分の歪を強調するために、重要度重みマップが使用されてもよい。知覚損失(perceptual loss)P(xi,x^
i)又はP(Ei,j,E^
i,j)のようなその他の損失が計算されてもよく、その場合に、特徴抽出DNN(例えば、VGGバックボーン・ネットワーク)は、xi及びx^
i,又はEi,j及びE^
i,jにそれぞれ基づいて特徴表現を算出してもよい。xi及びx^
i,又はEi,j及びE^
i,jに基づいて算出された特徴表現の差分(例えば、MSE)は、知覚損失として使用されてもよい。算出されたx^
i又はE^
i,jがどの程度自然に見えるかを測定するために、敵対的損失(adversarial loss)A(xi,x^
i)又はA(Ei,j,E^
i,j)が算出されてもよい。例えば、真のxi又は再構成されたx^
iがディスクリミネータ(通常は、 ResNetのような分類DNNである)に入力されて、それが自然なものであるか又は再構築されたものであるかを分類することが可能であり、分類エラー(クロスエントロピー損失など)が、A(xi,x^
i)として使用されてもよい。)A(xi,x^
i),A(Ei,j,E^
i,j)は本件で開示される何らかの技法に従って算出することが可能である。
【0049】
[0057] 損失の計算502では、歪損失、知覚的損失、及び敵対的損失の全ての異なるタイプのものがジョイント損失として重み付け結合されてもよく、逆伝播によってモデル・パラメータを更新するために、その損失の勾配を計算することが可能である。組み合わせる重みは、様々な損失の重要度のバランスをとることが可能であり、ハイパーパラメータとして与えられてもよい。
【0050】
[0058] 本開示の実施形態によれば、様々なコンポーネントが、様々なタイプの損失に基づいて、様々な更新頻度で様々な時点で更新される可能性がある。一部の実施形態では、配備された後に、新たな訓練データが利用可能になった場合に、一部のコンポーネントのみが、定期的に又は頻繁に更新されてもよい。一部の実施形態では、配備された後に、モデル・パラメータの一部分のみが更新されてもよい。本開示は、使用される可能性のある最適化方法及び/又は技法、モデル更新の頻度、モデル・パラメータの割合、又は更新されるべきモデル・レイヤを限定していない。
【0051】
[0059]
図6は、実施形態によるビデオ会議フレームワークにおいてビデオ又は画像フレームを復号化するための例示的な復号化プロセス600を示すフローチャートである。
【0052】
[0060] オペレーション605において、ビデオ・データを受信することが可能である。一部の実施形態では、複数のビデオ・フレームを含む圧縮されたビデオ・データが受信されてもよい。圧縮されたビデオ・データは、1つ以上の圧縮された顔ランドマーク特徴、圧縮されたそれぞれの低解像度(LR)の拡張された顔領域、及び選択信号を含む可能性がある。
【0053】
[0061] オペレーション610において、顔復元技術又は顔再現技術のどちらが使用されるのかを示す選択信号を決定することができる。選択信号は、任意の適切な値であってもよいし、或いは2進数であってもよい。選択信号は、顔復元損失と顔再現損失との比較に基づいていてもよい。一部の実施形態では、選択信号が決定されたこと、及び、顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきであると決定されたことに応答して、オペレーション610は、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを、適応的に選択して伝送することを含む可能性がある。
【0054】
[0062] オペレーション615において、選択信号と圧縮されたビデオ・データに基づいて、1つ以上の回復させられた顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成することが可能である。一部の実施形態では、1つ以上の回復させられた顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とは、選択信号、単一の参照フレーム、複数の低解像度(LR)フレーム、及び圧縮されたビデオ・データに基づいて生成されてもよい。
【0055】
[0063] 一部の実施形態では、1つ以上の回復させられた顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成することは、圧縮された顔ランドマーク特徴の圧縮解除に基づいて、1つ以上の回復させられた顔特徴を生成することを含む可能性がある。それは、圧縮された個々の低解像度(LR)の拡張された顔領域の圧縮解除に基づいて、1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域を生成することを更に含む可能性がある。
【0056】
[0064] 一部の実施形態によれば、顔復元技術を使用することを示す選択信号に基づいて、1つ以上の個々の高解像度(HR)の拡張された顔領域が、顔復元技術と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを利用して生成されてもよい。顔復元技術は、訓練されたニューラル・ネットワークを使用して、1つ以上の回復させられた顔特徴に基づいて顔パーツに対応する個々の顔詳細を生成すること、及び/又は、個々の顔詳細と1つ以上のアップ・サンプリングされた個々の圧縮解除された低解像度(LR)の拡張された顔領域との融合に基づいて、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成すること、を含む可能性がある。
【0057】
[0065] 一部の実施形態によれば、顔再現技術を使用することを示す選択信号に基づいて、1つ以上の個々の高解像度(HR)の拡張された顔領域は、顔再現技法と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して生成されることが可能であり、この場合において、1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域は、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域を含む可能性がある。顔再現技術は、訓練されたニューラル・ネットワークを使用して、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域と1つ以上の回復させられた顔特徴とに基づいて、1つ以上の個々の中間表現を生成すること、及び/又は、1つ以上の個々の中間表現をアップ・サンプリングすることに基づいて1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む可能性がある。
【0058】
[0066] オペレーション620において、複数のビデオ・フレームからのビデオ・フレームは、1つ以上の回復させられた顔特徴と、1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて復号化されることが可能である。ビデオ・フレームを復号化することは、1つ以上の個々の高解像度(HR)の拡張された顔領域とビデオ・フレームの他の復号化された部分との組み合わせに基づいて、最終的な復号化されたフレームを生成することを含む可能性がある。
【0059】
[0067]
図7は、開示される対象事項に関する適用例として、ビデオ会議及び/又はストリーミング環境におけるビデオ・エンコーダ及びデコーダの配置を示す。開示される対象事項は、例えば、ビデオ会議、デジタルTV、(CD、DVD、メモリ・スティック等のような)デジタル・メディアへの圧縮されたビデオの保存、等々を含む、他のビデオ対応アプリケーションにも同様に適用可能である可能性がある。
【0060】
[0068] ストリーミング・システムは、例えば非圧縮のビデオ・サンプル・ストリーム1002を作成する、例えばデジタル・カメラであるビデオ・ソース1001を含む可能性があるキャプチャ・サブシステム1013を含む可能性がある。そのサンプル・ストリーム1002は、符号化されたビデオ・ストリームと比較された場合により大きなデータ量を強調するために太い線で描かれており、サンプル・ストリームは、カメラ1001に結合されたエンコーダ1003によって処理されることが可能である。エンコーダ1003は、以下でより詳細に説明されるような開示される対象事項の態様を可能にする又は実現するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことが可能でる。サンプル・ストリームと比較した場合により少ないデータ量を強調するために細い線で描かれている符号化されたビデオ・ビットストリーム1004は、将来の使用のためにストリーミング・サーバー1005で保存されることが可能である。1つ以上のストリーミング・クライアント1006,1008は、ストリーミング・サーバー1005にアクセスして、符号化されたビデオ・ビットストリーム1004のコピー1007,1009を取得することが可能である。クライアント1006はビデオ・デコーダ1010を含むことが可能であり、ビデオ・デコーダ1010は、符号化されたビデオ・ビットストリーム1007の到来するコピーを復号化し、ディスプレイ1012又はその他のレンダリング・デバイスでレンダリングされることが可能な出力ビデオ・サンプル・ストリーム1011を生成する。一部のストリーミング・システムでは、ビデオ・ビットストリーム1004,1007,1009は、特定のビデオ・コーディング/圧縮規格に従って符号化されてもよい。これらの規格の具体例はH.265 HEVCである。多用途ビデオ・コーディング(Versatile Video Coding,VVC)として非公式に知られているビデオ・コーディング規格が開発中である。開示される対象事項は、VVCの状況で使用される可能性がある。
【0061】
[0069] 本開示は、幾つかの例示的な実施形態を説明しているが、本開示の範囲内に属する変更、置換、及び様々な代替均等物が存在する。従って、当業者は、本件で明示的には図示も記述もされていないが、本開示の原理を具現化し従って本件の精神及び範囲内にある多数のシステム及び方法を案出することが可能である、ということは認められるであろう。
【0062】
[0070] 付記
(付記1)
テレビ会議用に圧縮されたビデオの適応復号化方法であって、
複数のビデオ・フレームを含む圧縮されたビデオ・データを受信するステップと、
顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定するステップと、
前記顔復元技術及び前記顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して送信するステップと、
前記選択信号と、前記単一の参照フレーム又は前記複数の低解像度(LR)フレームと、前記圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップと、
前記1つ以上の回復した顔特徴と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、前記複数のビデオ・フレームからビデオ・フレームを復号化するステップと
を含む方法。
【0063】
(付記2)
付記1に記載の方法において、前記圧縮されたビデオ・データは、1つ以上の圧縮された顔ランドマーク特徴と、圧縮された個々の低解像度(LR)の拡張された顔領域と、前記選択信号とを含むことが可能である、方法。
【0064】
(付記3)
付記1に記載の方法において、前記1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップは、
圧縮された顔ランドマーク特徴の圧縮解除に基づいて、前記1つ以上の回復した顔特徴を生成するステップと、
圧縮された個々の低解像度(LR)の拡張された顔領域の圧縮解除に基づいて、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域を生成するステップと
を含む、方法。
【0065】
(付記4)
付記3に記載の方法において、更に、
前記顔復元技術を使用することを示す前記選択信号に基づいて、前記顔復元技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップと、
前記顔再現技術を使用することを示す前記選択信号に基づいて、前記顔再現技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップであって、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域は、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域を含む、ステップと
を含む方法。
【0066】
(付記5)
付記4に記載の方法において、前記顔復元技術は、
訓練されたニューラル・ネットワークを用いて、前記1つ以上の回復した顔特徴に基づいて顔のパーツに対応する個々の顔の詳細を生成すること、及び
前記個々の顔の詳細と1つ以上のアップ・サンプリングされた個々の圧縮解除された低解像度(LR)の拡張された顔領域との融合に基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、方法。
【0067】
(付記6)
付記4に記載の方法において、前記顔再現技術は、
訓練されたニューラル・ネットワークを用いて、前記少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域と前記1つ以上の回復した顔特徴とに基づいて、1つ以上の個々の中間表現を生成すること、及び
前記1つ以上の個々の中間表現をアップ・サンプリングすることに基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、方法。
【0068】
(付記7)
付記1に記載の方法において、前記ビデオ・フレームを復号化するステップは、前記1つ以上の個々の高解像度(HR)の拡張された顔領域と前記ビデオ・フレームの他の復号化されたパーツとに基づいて、最終的な復号化されたフレームを生成するステップを含む、方法。
【0069】
(付記8)
付記1に記載の方法において、前記選択信号は、顔の復元損失と顔の再現損失との比較に基づくものである、方法。
【0070】
(付記9)
テレビ会議用に圧縮されたビデオの適応復号化装置であって、
コンピュータ・プログラム・コードを記憶するように構成された少なくとも1つのメモリと、
前記コンピュータ・プログラム・コードにアクセスし、前記コンピュータ・プログラム・コードが指示するように動作するように構成された少なくとも1つのプロセッサと
を含み、前記コンピュータ・プログラム・コードは、
複数のビデオ・フレームを含む圧縮されたビデオ・データを受信することを、前記少なくとも1つのプロセッサに行わせるように構成された受信コードと、
顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定することを、前記少なくとも1つのプロセッサに行わせるように構成された第1の決定コードと、
前記顔復元技術及び前記顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して送信することを、前記少なくとも1つのプロセッサに行わせるように構成された適応選択コードと、
前記選択信号と、前記単一の参照フレーム又は前記複数の低解像度(LR)フレームと、前記圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成することを、少なくとも1つのプロセッサに行わせるように構成された第1の生成コードと、
前記1つ以上の回復した顔特徴と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、前記複数のビデオ・フレームからビデオ・フレームを復号化することを、前記少なくとも1つのプロセッサに行わせるように構成された復号化コードと
を含む、装置。
【0071】
(付記10)
付記9に記載の装置において、前記圧縮されたビデオ・データは、1つ以上の圧縮された顔ランドマーク特徴と、圧縮された個々の低解像度(LR)の拡張された顔領域と、前記選択信号とを含むことが可能である、装置。
【0072】
(付記11)
付記9に記載の装置において、前記1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成することを含む前記第1の生成コードは、
圧縮された顔ランドマーク特徴の圧縮解除に基づいて、前記1つ以上の回復した顔特徴を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第2の生成コードと、
圧縮された個々の低解像度(LR)の拡張された顔領域の圧縮解除に基づいて、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第3の生成コードと
を含む、装置。
【0073】
(付記12)
付記11に記載の装置において、更に、
前記顔復元技術を使用することを示す前記選択信号に基づいて、前記顔復元技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第4の生成コードと、
前記顔再現技術を使用することを示す前記選択信号に基づいて、前記顔再現技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第5の生成コードであって、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域は、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域を含む、第5の生成コードと
を含む、装置。
【0074】
(付記13)
付記12に記載の装置において、前記顔復元技術は、
訓練されたニューラル・ネットワークを用いて、前記1つ以上の回復した顔特徴に基づいて顔のパーツに対応する個々の顔の詳細を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第6の生成コードと、
前記個々の顔の詳細と1つ以上のアップ・サンプリングされた個々の圧縮解除された低解像度(LR)の拡張された顔領域との融合に基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第7の生成コードと
を含む、装置。
【0075】
(付記14)
付記12に記載の装置において、前記顔再現技術は、
訓練されたニューラル・ネットワークを用いて、前記少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域と前記1つ以上の回復した顔特徴とに基づいて、1つ以上の個々の中間表現を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第8の生成コードと、
前記1つ以上の個々の中間表現をアップ・サンプリングすることに基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを、前記少なくとも1つのプロセッサに行わせるように構成された第9の生成コードと
を含む、装置。
【0076】
(付記15)
命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、テレビ会議用に圧縮されたビデオの適応復号化のために少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、
複数のビデオ・フレームを含む圧縮されたビデオ・データを受信するステップと、
顔復元技術及び顔再現技術のうちの少なくとも1つが使用されるべきか否かを示す選択信号を決定するステップと、
前記顔復元技術及び前記顔再現技術のうちの少なくとも1つが使用されるべきであることに応答して、本質的な顔特徴を含む複数の低解像度(LR)フレーム又は単一の参照フレームを適応的に選択して送信するステップと、
前記選択信号と、前記単一の参照フレーム又は前記複数の低解像度(LR)フレームと、前記圧縮されたビデオ・データとに基づいて、1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップと、
前記1つ以上の回復した顔特徴と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とに基づいて、前記複数のビデオ・フレームからビデオ・フレームを復号化するステップと
を行わせる、記憶媒体。
【0077】
(付記16)
付記15に記載の非一時的なコンピュータ読み取り可能な記憶媒体において、前記圧縮されたビデオ・データは、1つ以上の圧縮された顔ランドマーク特徴と、圧縮された個々の低解像度(LR)の拡張された顔領域と、前記選択信号とを含むことが可能である、非一時的なコンピュータ読み取り可能な記憶媒体。
【0078】
(付記17)
付記15に記載の非一時的なコンピュータ読み取り可能な記憶媒体において、前記1つ以上の回復した顔特徴と1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを生成するステップは、
圧縮された顔ランドマーク特徴の圧縮解除に基づいて、前記1つ以上の回復した顔特徴を生成するステップと、
圧縮された個々の低解像度(LR)の拡張された顔領域の圧縮解除に基づいて、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域を生成するステップと
を含む、非一時的なコンピュータ読み取り可能な記憶媒体。
【0079】
(付記18)
付記17に記載の非一時的なコンピュータ読み取り可能な記憶媒体において、前記命令は、更に、
前記顔復元技術を使用することを示す前記選択信号に基づいて、前記顔復元技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップと、
前記顔再現技術を使用することを示す前記選択信号に基づいて、前記顔再現技術と前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域とを使用して、1つ以上の個々の高解像度(HR)の拡張された顔領域を生成するステップであって、前記1つ以上の個々の圧縮解除された低解像度(LR)の拡張された顔領域は、少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域を含む、ステップと
を行わせることを含む、非一時的なコンピュータ読み取り可能な記憶媒体。
【0080】
(付記19)
付記18に記載の非一時的なコンピュータ読み取り可能な記憶媒体において、前記顔復元技術は、
訓練されたニューラル・ネットワークを用いて、前記1つ以上の回復した顔特徴に基づいて顔のパーツに対応する個々の顔の詳細を生成すること、及び
前記個々の顔の詳細と1つ以上のアップ・サンプリングされた個々の圧縮解除された低解像度(LR)の拡張された顔領域との融合に基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、非一時的なコンピュータ読み取り可能な記憶媒体。
【0081】
(付記20)
付記18に記載の非一時的なコンピュータ読み取り可能な記憶媒体において、前記顔再現技術は、
訓練されたニューラル・ネットワークを用いて、前記少なくとも1つの個々の圧縮解除されたリファレンスの低解像度(LR)の拡張された顔領域と前記1つ以上の回復した顔特徴とに基づいて、1つ以上の個々の中間表現を生成すること、及び
前記1つ以上の個々の中間表現をアップ・サンプリングすることに基づいて、前記1つ以上の個々の高解像度(HR)の拡張された顔領域を生成することを含む、非一時的なコンピュータ読み取り可能な記憶媒体。