(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-15
(54)【発明の名称】特徴抽出及び画像合成に基づくビデオ符号化
(51)【国際特許分類】
H04N 19/85 20140101AFI20240105BHJP
H04N 19/103 20140101ALI20240105BHJP
H04N 19/136 20140101ALI20240105BHJP
H04N 19/174 20140101ALI20240105BHJP
【FI】
H04N19/85
H04N19/103
H04N19/136
H04N19/174
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023540784
(86)(22)【出願日】2021-01-19
(85)【翻訳文提出日】2023-07-06
(86)【国際出願番号】 CN2021072767
(87)【国際公開番号】W WO2022141682
(87)【国際公開日】2022-07-07
(32)【優先日】2021-01-04
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】516227559
【氏名又は名称】オッポ広東移動通信有限公司
【氏名又は名称原語表記】GUANGDONG OPPO MOBILE TELECOMMUNICATIONS CORP., LTD.
【住所又は居所原語表記】No. 18 Haibin Road,Wusha, Chang’an,Dongguan, Guangdong 523860 China
(74)【代理人】
【識別番号】100120031
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100152205
【氏名又は名称】吉田 昌司
(74)【代理人】
【識別番号】100137523
【氏名又は名称】出口 智也
(72)【発明者】
【氏名】マレク、ドマンスキー
(72)【発明者】
【氏名】トマシュ、グラジェク
(72)【発明者】
【氏名】スワボミル、マコービアク
(72)【発明者】
【氏名】スワボミル、ロゼク
(72)【発明者】
【氏名】オルギエルド、スタンキエビチ
(72)【発明者】
【氏名】ヤクブ、スタンコウスキー
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MC11
5C159ME01
5C159PP04
5C159RC11
5C159TA01
5C159TA16
5C159TB06
5C159TD01
5C159UA02
5C159UA05
(57)【要約】
本出願は、特徴に基づく画像合成によってビデオデータを符号化するためのコンピュータによる実現方法、コンピュータ可読媒体及び機器を開示する。ビデオデータ符号化のコンピュータによる実現方法は、ビデオにおける画像から特徴を抽出することと、前記特徴に対して生成式画像合成を適用することで、前記画像における1つ又は複数の領域の予測値を取得することと、画像における前記1つ又は複数の領域のオリジナル値と予測画像に基づいて、画像おける前記1つ又は複数の領域の残差値を取得することと、残差値と抽出された特徴を符号化することと、を含む。本出願はさらに、特徴に基づく画像合成によってビデオデータを復号するためのコンピュータによる実現方法、コンピュータ可読媒体及び機器を開示する。ビデオデータ復号のコンピュータによる実現方法は、ビットストリームを復号してビデオにおける画像の特徴を再構築することと、生成式画像合成を再構築された特徴に適用することで、前記画像における1つ又は複数の領域の予測値を決定することと、前記ビットストリームを復号して前記画像における前記1つ又は複数の領域の残差値を再構築することと、前記予測値及び前記残差値に基づいて、前記画像における前記1つ又は複数の領域の再構築値を決定することと、を含む。
【特許請求の範囲】
【請求項1】
ビデオデータ符号化のコンピュータによる実現方法であって、
ビデオにおける画像から特徴を抽出することと、
前記特徴に対して生成式画像合成を適用することで、前記画像における1つ又は複数の領域の予測値を取得することと、
前記画像における前記1つ又は複数の領域のオリジナル値と前記予測値に基づいて、前記画像おける前記1つ又は複数の領域の残差値を取得することと、
前記残差値と抽出された特徴を符号化することと、を含む、コンピュータによる実現方法。
【請求項2】
前記オリジナル値から前記予測値を差し引くことで前記残差値を取得する、ことを特徴とする
請求項1に記載のコンピュータによる実現方法。
【請求項3】
ビデオエンコーダを使用して前記残差値を符号化し、特徴エンコーダを使用して前記抽出された特徴を符号化し、ここで、前記ビデオエンコーダは可視ビデオデータを符号化するように最適化され、前記特徴エンコーダは特徴データを符号化するように最適化される、ことを特徴とする
請求項1又は2に記載のコンピュータによる実現方法。
【請求項4】
ビデオビットストリーム及び特徴ビットストリームにおいて符号化後の残差値及び符号化後の抽出された特徴をそれぞれ伝送することをさらに含む、ことを特徴とする
請求項1~3のいずれか一項に記載のコンピュータによる実現方法。
【請求項5】
前記符号化後の残差値及び前記符号化後の抽出された特徴を共通ビットストリームに多重化して前記共通ビットストリームを送信することをさらに含む、ことを特徴とする
請求項1~3のいずれか一項に記載のコンピュータによる実現方法。
【請求項6】
線形フィルタリング又は非線形フィルタリングを使用して前記特徴を抽出する、ことを特徴とする
請求項1~5のいずれか一項に記載のコンピュータによる実現方法。
【請求項7】
ニューラルネットワークを使用して前記特徴を抽出する、ことを特徴とする
請求項1~6のいずれか一項に記載のコンピュータによる実現方法。
【請求項8】
前記ニューラルネットワークは畳み込みニューラルネットワークである、ことを特徴とする
請求項7に記載のコンピュータによる実現方法。
【請求項9】
前記生成式画像合成は、敵対的生成ニューラルネットワークによって取得されるものである、ことを特徴とする
請求項1~8のいずれか一項に記載のコンピュータによる実現方法。
【請求項10】
前記ビデオにおける画像はモノクロ画像又はカラー画像である、ことを特徴とする
請求項1~9のいずれか一項に記載のコンピュータによる実現方法。
【請求項11】
前記ビデオは1つの画像のみを含む、ことを特徴とする
請求項1~10のいずれか一項に記載のコンピュータによる実現方法。
【請求項12】
コンピュータ可読媒体であって、
それに記憶されるコンピュータ実行可能な命令を含み、
コンピューティング機器が前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記コンピューティング機器に請求項1~11のいずれか一項に記載の方法を実行させる、コンピュータ可読媒体。
【請求項13】
エンコーダであって、
1つ又は複数のプロセッサと、
コンピュータ可読媒体に記憶されるコンピュータ実行可能な命令を含むコンピュータ可読媒体とを含み、
前記1つ又は複数のプロセッサが前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は、前記1つ又は複数のプロセッサに請求項1~11のいずれか一項に記載の方法を実行させる、エンコーダ。
【請求項14】
ビデオデータ復号のコンピュータによる実現方法であって、
ビットストリームを復号してビデオにおける画像の特徴を再構築することと、
再構築された特徴に対して生成式画像合成を適用することで、前記画像における1つ又は複数の領域の予測値を決定することと、
前記ビットストリームを復号して前記画像における1つ又は複数の領域の残差値を再構築することと、
前記予測値及び前記残差値に基づいて、前記画像における1つ又は複数の領域の再構築値を決定することと、を含む、コンピュータによる実現方法。
【請求項15】
低品質ビデオの予測値を出力することをさらに含む、ことを特徴とする
請求項14に記載のコンピュータによる実現方法。
【請求項16】
前記再構築値を決定することは、前記予測値を前記残差値に加算することを含む、ことを特徴とする
請求項14又は15に記載のコンピュータによる実現方法。
【請求項17】
前記残差値及び前記特徴は、それぞれビデオビットストリーム及び特徴ビットストリームにおいて受信される、ことを特徴とする
請求項14~16のいずれか一項に記載のコンピュータによる実現方法。
【請求項18】
多重化されたビットストリームにおいて前記符号化後の残差値及び前記符号化された特徴を受信し、前記多重化されたビットストリームは、それぞれビデオビットストリーム及び特徴ビットストリームを取得するために逆多重化される、ことを特徴とする
請求項14~16のいずれか一項に記載のコンピュータによる実現方法。
【請求項19】
特徴デコーダを使用して前記特徴を復号し、ビデオデコーダを使用して前記残差値を復号する、ことを特徴とする
請求項14~18のいずれか一項に記載のコンピュータによる実現方法。
【請求項20】
前記ビデオは1つの画像のみを含む、ことを特徴とする
請求項14~19のいずれか一項に記載のコンピュータによる実現方法。
【請求項21】
コンピュータ可読媒体であって、
それに記憶されるコンピュータ実行可能な命令を含み、
前記コンピュータ実行可能な命令が1つ又は複数のプロセッサによって実行されるとき、前記コンピュータ実行可能な命令は前記1つ又は複数のプロセッサに請求項14~20のいずれか一項に記載の方法を実行させる、コンピュータ可読媒体。
【請求項22】
デコーダであって、
1つ又は複数のプロセッサと、
コンピュータ可読媒体とを含み、前記コンピュータ可読媒体にコンピュータ実行可能な命令が記憶されており、
前記1つ又は複数のプロセッサが前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は、前記1つ又は複数のプロセッサに請求項14~20のいずれか一項に記載の方法を実行させる、デコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ビデオ符号化の技術分野に関し、より具体的に、特徴抽出及び後続の画像合成に基づくビデオ符号化に関する。
【背景技術】
【0002】
ビデオ圧縮技術は、ビデオの品質を大幅に低減させることなく、ビデオのストレージ要求を低減させるために使用され、それによって圧縮されたビデオは人間のユーザによって使用され得る。しかし、現在ではビデオは人間だけに見せるものではない。機械学習の最新の進歩と大量のセンサの推進で、ビデオデータは機械によって問題なく分析されることができ、このような機器は、例えば、自動運転車輌、環境において自律的に移動してタスクを遂行するロボット、ビデオ監視と知能都市環境における機械(例えば交通監視、密度検出と予測及び交通流量予測)が挙げられる。これにより、ISO/IEC JTC1/SC29/WG2N18「機械ビデオ符号化の使用例と要求(Use cases and requirements for Video Coding for Machines)」に記載されるように、機械ビデオ符号化(VCM:Video Coding for Machines)が導入される。MPEG-VCMは、圧縮されたビデオ又はビデオから抽出された特徴によってビットストリームを定義することを目的とし、ビットストリームは、ビットレート/サイズ面において有効であり、タスクのパフォーマンスを大幅に低減させることなく、解凍後に機械ネットワークによって複数のタスクを実行することができる。復号されたビデオ又は特徴は、機械の使用、又は機械と人間の混合使用に用いられ得る。画像データ又はビデオデータを分析することができるために、機械は画像又はビデオから抽出された特徴に依存しなければならない。また、機械は、視覚データと特徴データを交換することができるために(例えば協働することができるために)、標準化することによって機械間の相互操作性を確保する必要である。
【0003】
現代メタデータ表現標準は、視覚特徴(例えばMPEG-7(ISO/IEC15938))を含む。現代メタデータ表現標準によって、コンテンツの記述を符号化することができるようになる。厳密に言うと、MPEG-7は動き画像及びオーディオの実際の符号化を処理する標準ではない。MPEG-7は、マルチメディアコンテンツの記述標準であり、コンテンツに関する情報(記述)を表すことにより、以前のMPEG標準を補う機能を提供することを目的とする。コンテンツの記述はコンテンツそのものに関連しており、それによってユーザの関心する素材を迅速かつ有効的に検索することができる。MPEG-7では、記述をオーディオビジュアルコンテンツと分離することが要求される。
【0004】
しかしながら、ビデオが圧縮される場合、オリジナルのビデオが圧縮されると共に、抽出された特徴も個別に圧縮され、これにより、帯域幅が高く求められる。通常、画像/ビデオ及び1つ又は複数の特徴の圧縮は、まったく異なる目標の単独のタスクと見なされる。したがって、最もストレートな方法としてそれらを分けることである。ビデオ圧縮の技術分野では、画像/ビデオデータの伝送時間を減少させるために圧縮率をさらに向上させることができる符号化/復号方案を期待している。
【発明の概要】
【0005】
本開示における画像データ及びビデオデータについて、発明者らは具体的な実施形態、図面、及び特許請求の範囲において、真剣に説明及び声明している。本開示のいくつかの態様に画像データとビデオデータのうちの1つしか記載されていなくても、本開示の全体及びそのすべての態様が同様に画像データとビデオデータに適用できると言うべきである。また、「ビデオ」という用語は、ビデオが1つ又は複数の画像を含み得るため、「画像」という用語を含む。
【0006】
第1態様によれば、本出願はビデオデータを符号化する方法を提供し、前記方法は、ビデオにおける画像から特徴を抽出することと、特徴に対して生成式画像合成を適用することで、画像における1つ又は複数の領域の予測値を取得することと、画像における1つ又は複数の領域のオリジナル値と予測値に基づいて、画像おける1つ又は複数の領域の残差値を取得することと、残差値と抽出された特徴を符号化することと、を含む。
【0007】
第2態様によれば、本出願はビデオデータ復号方法を提供し、前記方法は、ビットストリームを復号してビデオにおける画像の特徴を再構築することと、再構築された特徴に対して生成式画像合成を適用することで、画像における1つ又は複数の領域の予測値を決定することと、ビットストリームを復号して画像における1つ又は複数の領域の残差値を再構築することと、予測値及び残差値に基づいて、画像における1つ又は複数の領域の再構築値を決定することと、を含む。
【0008】
第3態様によれば、本出願は、コンピュータ可読媒体を提供し、前記コンピュータ可読媒体は、それに記憶されるコンピュータ実行可能な命令を含む。前記コンピュータ実行可能な命令がコンピューティング機器によって実行されるとき、前記コンピュータ実行可能な命令はコンピューティング機器にビデオデータを符号化する方法を実行させる。
【0009】
第4態様によれば、本出願は、コンピュータ可読媒体を提供し、前記コンピュータ可読媒体は、それに記憶されるコンピュータ実行可能な命令を含む。前記コンピュータ実行可能な命令がコンピューティング機器によって実行されるとき、前記コンピュータ実行可能な命令はコンピューティング機器にビデオデータ復号方法を実行させる。
【0010】
第5態様によれば、本出願は、エンコーダを提供する。前記エンコーダは1つ又は複数のプロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含む。前記1つ又は複数のプロセッサによって前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記1つ又は複数のプロセッサにビデオデータを符号化する方法を実行させる。
【0011】
第6態様によれば、本出願は、デコーダを提供する。前記デコーダは1つ又は複数のプロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含む。前記1つ又は複数のプロセッサによって前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記1つ又は複数のプロセッサにビデオデータ復号方法を実行させる。
【0012】
本出願の特許請求の範囲、図面及び図面の説明を参照することにより、本出願に開示されるシステム、方法、及び不揮発性コンピュータ可読媒体の上述の特徴及びその他の特徴、ならびに関連する構造要素の操作方法及び機能、及び部品の組み合わせ及び製造の経済性がより明らかになる。これらはすべて明細書の一部を構成しており、ここで、各図面において同じ符号は同じ部品を示している。しかしながら、これらの図面は解釈及び説明のためにのみ使用され、保護範囲を制限する限定として使用されることを意図するものではないことを理解すべきである。
【図面の簡単な説明】
【0013】
【
図1a】考えられるシナリオであり、画像データエンコーダにおいて画像視覚データと画像から抽出された特徴を符号化するズバリとした方法、及び画像データデコーダにおいて符号化された画像データに対して後続の復号を行うことを説明するブロック図が示される。
【
図1b】考えられるシナリオであり、ビデオデータエンコーダにおいてビデオの視覚データとビデオから抽出された特徴を符号化するズバリとした方法、及びビデオデータデコーダにおいて符号化されたビデオデータに対して後続の復号を行うことを説明するブロック図が示される。
【
図2a】本開示の実施例による画像データエンコーダを詳細に示すブロック図である。
【
図2b】本開示の実施例による画像データデコーダを詳細に示すブロック図である。
【
図3a】本開示の実施例によるビデオを符号化するビデオデータエンコーダを詳細に示すブロック図である。
【
図3b】本開示の実施例によるビデオを復号するビデオデータデコーダを詳細に示すブロック図である。
【
図4a】本開示の実施例による画像データを符号化する方法のステップを詳細に示すフローチャートである。
【
図4b】本開示の実施例による画像データを復号する方法のステップを詳細に示すフローチャートである。
【
図5a】本開示の実施例によるビデオデータを符号化する方法のステップを詳細に示すフローチャートである。
【
図5b】本開示の実施例によるビデオデータ復号方法のステップを詳細に示すフローチャートである。
【
図6】本明細書で説明されるいかなる実施例を実現することができるコンピュータ機器及びコンピュータ可読媒体を示すブロック図である。
【発明を実施するための形態】
【0014】
本出願の技術の様々な実施例の特定の特徴は、添付の特許請求の範囲に具体的に記載される。以下の詳細な説明を参照することにより、技術の特徴及び利点をよりよく理解することができる。前記詳細な説明に、技術原理が使用される例示的な実施例及びその図面が記載される。
【0015】
図面は、説明のみを目的として、開示された技術の様々な実施例を示しており、図面では、同じ符号を使用して同じ要素を示す。当業者であれば、本明細書に記載の開示された技術的原理から逸脱することなく、図面に示す構造及び方法の代替実施例を採用し得ることが以下の記載から容易に認識される。
【0016】
図1aは、画像データを符号化するブロック図(「可能なシナリオ」)が示される。
図1に示す実施例をより詳細に説明する前に、本開示のいくつかの用語について説明する。
【0017】
本明細書に記載される「画像データ」という用語は、(i)エンコーダによって符号化され得る視覚画像データ、即ち画像そのもの、及び(ii)既に画像から検出(抽出)された特徴データを含む。同様に、本明細書に記載される「ビデオデータ」という用語は、視覚ビデオデータ(即ちビデオそのもの)及び既に画像から検出(抽出)された特徴を含み、該視覚ビデオデータは視覚エンコーダによって符号化され得る。
【0018】
本明細書で使用される「特徴」という用語は、画像/ビデオから抽出されたデータであり、画像/ビデオのいくつかの態様、例えば画像/ビデオのコンテンツ及び/又は属性を表すことができる。特徴は、特徴点の集合であってもよく、たとえ画像が拡大又は縮小、回転、アフィン変換などの手段で処理されても、変わらないものである。特徴は、角、辺、関心領域、形状、動き、リッジなどの属性を含むことができる。通常、本明細書で使用される「特徴」という用語は、汎用用語として使用され、例えば、MPEG-7標準などに記載される画像/ビデオの記述によく使用される。
【0019】
「画像エンコーダ」は、画像視覚データを有効的に符号化するように構成又は最適化されるエンコーダである。「ビデオエンコーダ」は、ビデオの視覚データを有効的に符号化するように構成又は最適化されるエンコーダを表し、例えばMPEG-1、MPEG-2、MPEG-4、アドバンストビデオコーディング(AVC:Advanced Video coding、H.264とも呼ばれる)、VC-1、中国オーディオビデオ標準(AVS:Audio Video Standard of China)、高効率ビデオコーディング(HEVC:High Efficiency Video Coding、H.265とも呼ばれる)、汎用ビデオコーディング(VVC:Versatile Video Coding、H.266とも呼ばれる)、及びAOメディアビデオ1(AV1:AOMediaVideo1)を表す。「画像デコーダ」は、画像視覚データを有効的に復号するように構成又は最適化されるデコーダである。「ビデオデコーダ」は、MPEG-1、MPEG-2、MPEG-4、AVC、HEVC、VVC及びAV1など、ビデオの視覚データを有効的に復号するように構成又は最適化されるデコーダを表す。
【0020】
「特徴エンコーダ」は、特徴データを有効的に符号化するように構成又は最適化されるMPEG-7のようなエンコーダであり、MPEG-7は、ビデオ/画像記述子(descriptors)などのメタデータの表現を記述する標準であり、ビデオ/画像記述子(descriptors)は、バイナリ形式で圧縮しても良く、又は、例えばテキストとして圧縮することができる。記述されたバイナリコードはMPEG-7の一部である。
【0021】
「特徴デコーダ」は、符号化された特徴を有効的に復号するように構成又は最適化されるデコーダである。
【0022】
「ビデオ」という用語は、複数の画像を指してもよく、1つの画像のみを指してもよい。この点において、「ビデオ」という用語は「画像」という用語よりも広義であり、しかも「画像」という用語を包含する。
【0023】
「画像ビットストリーム」という用語は、画像エンコーダの出力であり、画像(即ち、画像そのもの)の視覚データを符号化するビットストリームを指す。「ビデオビットストリーム」という用語は、ビデオエンコーダの出力であり、ビデオ(即ちビデオそのもの)の視覚データを符号化するビットストリームを指す。「特徴ビットストリーム」は、特徴エンコーダの出力であり、既にオリジナルの画像から抽出された特徴を符号化するビットストリームを指す。
【0024】
符号化
いくつかの実施例は、ビデオデータを符号化する方法に関する。該方法は、ビデオにおける画像から特徴を抽出することと、特徴に対して生成式画像合成を適用することで画像における1つ又は複数の領域の予測値を取得することと、画像における1つ又は複数の領域のオリジナル値と予測画像に基づいて、画像おける1つ又は複数の領域の残差値を取得することと、残差値と抽出された特徴を符号化することと、を含む。オリジナル値と再構築値との間の適度であり得る差異又は無視可能な差異によりオリジナル値を再現し、この方式で残差値を取得することができる。なお、前記方法はビデオに関するものであるが、ビデオは1つの画像のみで構成されてもよいため、前記方法は画像処理も含み得る。
【0025】
いくつかの実施例では、オリジナルの画像は未圧縮の画像である。他の実施例では、オリジナルの画像は圧縮画像、例えばJPEG(JPEG2000、JPEG XR、JPEG LS)又はPNG画像であり、それは、上述の方法に基づいて符号化される前に未圧縮のものである。いくつかの実施例では、オリジナルの画像は、多くの機械ビジョンアプリケーションの場合と同様に、視覚センサによって取得される。
【0026】
いくつかの実施例では、オリジナル値から予測値を差し引くことで残差値を取得し、この処理は画像プリエンコーダで実行され得る。
【0027】
いくつかの実施例では、ビデオエンコーダを使用して残差値を符号化し、特徴エンコーダを使用して抽出された特徴を符号化し、ここで、ビデオエンコーダは視覚ビデオデータを符号化するように最適化され、特徴エンコーダは特徴に関連するデータを符号化するように最適化される。
【0028】
いくつかの実施例では、該方法は、画像ビットストリーム及び特徴ビットストリームにおいて符号化後の残差値及び符号化後の抽出された特徴をそれぞれ伝送することをさらに含む。
【0029】
他の実施例では、該方法は、符号化後の残差ビデオ及び符号化後の抽出された特徴を共通ビットストリームに多重化して送信することをさらに含む。別の実施例では、画像ビットストリーム及び特徴ビットストリームは、いくつかの共通の同期によって独立して伝送される。
【0030】
いくつかの実施例では、線形フィルタリング又は非線形フィルタリングを使用して特徴を抽出する。線形フィルタでは、各画素はその隣接する画素の線形結合によって置き換えられる。線形結合は、行列の形式で定義され、画像の画素上を移動する「畳み込みカーネル」と呼ばれる。線形エッジフィルタは、ソーベル(Sobel)フィルタ、プレウィット(Prewitt)フィルタ、ロバーツ(Roberts)フィルタ、又はラプラシアン(Laplacian)フィルタを含む。
【0031】
いくつかの実施例では、特徴の抽出は、例えばハリスコーナー検出(Harris Corner Detection)、シトマシコーナー検出器(Shi-Tomasi Corner Detector)、スケール不変特徴変換(SIFT:Scale-Invariant Feature Transform)、加速ロバスト特徴(SURF:Speeded-Up Robust Features)、加速分割試験に基づく特徴(FAST:Features from Accelerated Segment Test)、バイナリロバスト独立基本特徴(BRIEF:Binary Robust Independent Elementary Features)及び方向づける高速回転のバイナリロバスト独立基本特徴(ORB:Oriented Fast and Rotated BRIEF)のうちの1つを使用する。
【0032】
画像における特徴を検出/抽出するために、従来の機械ビジョンによって多くの方法が提案されている。いくつかの実施例では、ガウス窓関数を使用してコーナーを検出するハリスコーナー検出が使用される。他の実施例では、ハリスコーナー検出の更なる発展であるシトマシコーナー検出器が使用され、ここで、より良いコーナー検出技術を実現するためにスコアリング関数が修正される。いくつかの実施例では、上記2つの技術と異なるスケール不変技術であるSIFTを使用して特徴を抽出する。いくつかの実施例では、SIFTのより速いバージョンであるSURFを使用して特徴を抽出する。別の実施例では、SURFよりも速いコーナー検出技術であるFASTが使用される。
【0033】
いくつかの実施例では、ニューラルネットワークを使用して特徴を抽出する。これらの実施例のいくつかでは、ニューラルネットワークは、畳み込みニューラルネットワーク(CNN:convolutional neural network)であり、CNNは画像をより詳細に表現する複雑な特徴を抽出し、特定の特徴を学習する能力を有し、しかもより有効的である。いくつかの方法は、自己監督の興味点を検出と記述するスーパーポイント(SuperPoint)と、局所特徴を共同で記述及び検出するためのトレーニング可能なCNNであるD2-Netと、画像から局所特徴を学習し、深層学習に基づく画像特徴マッチング、特徴マッチング問題のための深層グラフィカル特徴学習であるLF-Netとを含む。特徴抽出のための伝統的及び深層学習技術の概要については、記事「伝統的及び深層学習技術(Traditional and Deep Learning Techniques)」に記載されている(https://towardsdatascience.com/image-feature-extraction-tradition-and-deep-learning-techniques-ccc059195d04)。
【0034】
いくつかの実施例では、視覚検索コンパクト記述子(CDVS:Compact Descriptors for Visual Search)又はCDVAに基づいて特徴を抽出する。特に、本開示では、CDVSは特徴表現及び符号化への適用に非常に適している。CDVSはMPEG-7標準の一部であり、視覚検索のための画像のコンパクトな表現を作成する有効な方案である。CDVSは、国際ISO標準―ISO/IEC15938として定義される。これらの特徴は、いくつかの画像/ビデオコンテンツを予測するために使用されてもよく、即ち、生成された画像/ビデオは低品質の画像又はビデオバージョンとして合成され得る。ビデオについて、CDVAはビデオ特徴記述/圧縮方法としての1つのオプションである。
【0035】
いくつかの実施例では、生成式画像合成は、敵対的生成ニューラルネットワークに基づくものである。敵対的生成ニューラルネットワーク(GANs:Generative Adversarial Networks)は、2014年にIanJ.Goodfellowとその共著者らによる記事「(敵対的生成ニューラルネットワーク)Generative Adversarial Nets」(Goodfellow,Ian;Pouget-Abadie,Jean;Mirza,Mehdi;Xu,Bing;Warde-Farley,David;Ozair,Sherjil;Courville,Aaron;Bengio,Yoshua(2014)「敵対的生成ニューラルネットワーク(Generative Adversarial Nets)」;ニューラル情報処理システム国際会議論文集(NIPS2014)第2672-2680ページ)によって導入される。敵対的生成ネットワークは一組の生成モデルであり、これは、それらが新しいコンテンツ、例えば画像又はビデオコンテンツを生じる/生成することができることを意味する。敵対的生成ネットワークは、どちらもニューラルネットワークである生成器と判別器を含む。生成器の出力は判別器の入力に直接接続される。逆伝播により、判別器の分類は1つの信号を提供し、生成器は該信号を使用してその重みを更新する。
【0036】
いくつかの実施例では、オリジナルの画像はモノクロ画像であり、他の実施例では、オリジナルの画像はカラー画像である。例えば、Haiwei WuとJiantao Zhouによる記事「深層生成モデルに基づく画像再構築によるSIFT特徴のプライバシー漏洩」(Privacy Leakage of SIFT Features via Deep Generative Model based Image Reconstruction)において、どのように特徴から画像を生成するかが開示され、https://arxiv.org/abs/2009.01030を参照する。
【0037】
いくつかの実施例では、ビデオデータを符号化する方法は、オリジナルのビデオを表す複数の画像に対して実行されるビデオデータを符号化する方法である。これらの実施例のいくつかでは、オリジナルのビデオは未圧縮ビデオである。いくつかの実施例では、オリジナルのビデオは、例えばAVC、HEVC、VVC及びAV1と互換性のある圧縮ビデオであり、それは画像データ符号化方法に適用される前に未圧縮のものである。いくつかの実施例では、ビデオは1つの画像のみを含み、該方法は画像データを符号化する方法である。
【0038】
いくつかの実施例はコンピュータ可読媒体に関し、該コンピュータ可読媒体は、それに記憶されるコンピュータ実行可能な命令を含み、コンピューティング機器によって前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記コンピューティング機器に上述の符号化方法を実行させる。
【0039】
いくつかの実施例はエンコーダに関する。エンコーダは、1つ又は複数のプロセッサと、コンピュータ可読媒体に記憶されるコンピュータ実行可能な命令を含むコンピュータ可読媒体とを含み、1つ又は複数のプロセッサが前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は、前記1つ又は複数のプロセッサに上述の符号化方法を実行させる。
【0040】
復号
いくつかの実施例は、ビデオデータ復号方法に関する。該方法は、ビットストリームを復号してビデオにおける画像の特徴を再構築することと、再構築された特徴に対して生成式画像合成を適用することで、画像における1つ又は複数の領域の予測値を決定することと、ビットストリームを復号して画像における1つ又は複数の領域の残差値を再構築することと、予測値及び残差値に基づいて、画像における1つ又は複数の領域の再構築値を決定することとを含む。
【0041】
いくつかの実施例では、該方法は、例えば機械ビジョンに使用されることを目的とするため、低品質画像の予測値を出力することをさらに含む。
【0042】
いくつかの実施例では、再構築値を決定することは、予測値を残差値に融合することを含む。いくつかの実施例では、再構築値を決定することは、予測値を残差値に加算することを含む。いくつかの実施例では、ビデオ復号と融合は1つの機能ブロックで実行される。
【0043】
いくつかの実施例では、残差値及び特徴は、それぞれビデオビットストリーム及び特徴ビットストリームにおいて受信される。他の実施例では、多重化されたビットストリームにおいて符号化後の残差値及び符号化後の特徴を受信し、該多重化されたビットストリームは、それぞれビデオビットストリーム及び特徴ビットストリームを取得するために逆多重化される。
【0044】
いくつかの実施例では、特徴デコーダを使用して特徴を復号し、ビデオデコーダを使用して残差値を復号する。
【0045】
いくつかの実施例では、ビデオは1つの画像のみを含む。
【0046】
いくつかの実施例はコンピュータ可読媒体に関し、該コンピュータ可読媒体は、それに記憶されるコンピュータ実行可能な命令を含み、1つ又は複数のプロセッサによって前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記1つ又は複数のプロセッサに上述の復号方法を実行させる。
【0047】
いくつかの実施例は、1つ又は複数のプロセッサ、及びコンピュータ可読媒体に記憶されるコンピュータ実行可能な命令を含むコンピュータ可読媒体を含むデコーダに関する。前記1つ又は複数のプロセッサによって前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は前記1つ又は複数のプロセッサに上述の復号方法を実行させる。
【0048】
発明者らの検討によると、特徴データの符号化が視覚データの符号化に有利である。したがって、該アーキテクチャ構造の1つの重要な特徴は、生成式画像合成の適用、即ち特徴に基づいて画像又はビデオフレームを予測することである。言い換えれば、特徴がどうしても符号化され(即ち、特徴は視覚データの一部であるため、視覚データに伴う符号化、単独で特徴としての符号化という2回に符号化される)、しかも画像分析に必要なものであるため、特徴の符号化は視覚データの符号化に協同して使用され得、これにより視覚データのために予測誤差/残差値を符号化するだけでよい。つまり、特徴抽出と特徴に基づく生成式画像合成とを組み合わせることでフィードバックブリッジを形成し、該フィードバックブリッジによって画像視覚データを有効的に符号化することができる。また、画像/ビデオ符号化と画像/ビデオ復号は、それぞれプリ符号化と(適切な)符号化、及び復号と画像/ビデオの融合からなる2段階のプロセスとして実現される。プリ符号化は、画像/ビデオを生成し、該画像/ビデオは、その後に、画像/ビデオエンコーダによって、デコーダで融合される再構築ビデオとオリジナルのビデオとの差異が小さくなるように符号化されてもよく、ビデオと特徴の総ビットレートが低いため、既知のエンコーダが上記の方式に適用可能である。
【0049】
改めて
図1aに見返して、ISO/IEC JTC1/SC29/WG2N18「機械ビデオ符号化の使用例と要求(Use cases and requirements for Video Coding for Machines、https://isotc.iso.org/livelink/livelink/open/jtc1sc29wg2)をご参照」に示すように、画像データを符号化して伝送し、その後にさらに復号する考えられるシナリオが示される。オリジナルの画像は、2つの符号化コンポーネント(画像エンコーダ110と特徴エンコーダ120)を有する画像データエンコーダ100において受信される。画像エンコーダ110は、画像視覚データ、即ち、画像そのものを符号化(圧縮)するように構成され、特徴エンコーダ120は、画像において検出された特徴を符号化するように構成される。特徴検出/抽出は、特徴抽出コンポーネント130において実行され、該特徴抽出コンポーネントは、既知の特徴抽出技術を使用してオリジナルの画像における特徴を検出するように構成される。符号化された画像データは、画像ビットストリーム200によって画像データデコーダ300に伝送され、該デコーダ300は、再構築画像330を取得するために、画像を復号する画像デコーダ310を有する。符号化された特徴は、特徴ビットストリーム210において伝送され、特徴デコーダ320によって復号されて再構築特徴340を取得する。
図1aに示す一般的な方案は、考えられるシナリオであり、それは画像と特徴の両方を伝送するのに必要なビットレートの観点からみると、非効率的である。画像と特徴の符号化は互いに完全に独立しており、画像の符号化は特徴の符号化を利用しないことに注意すべきである。
【0050】
図1bは、ビデオデータを符号化し、伝送し、さらに復号するズバリとした方法を示す。ビデオデータエンコーダ400においてオリジナルのビデオを受信し、ビデオデータエンコーダ400はビデオエンコーダ410と特徴エンコーダ420という2つの符号化コンポーネントを有する。ビデオエンコーダ410は、ビデオの視覚データ、即ちビデオそのものを符号化(圧縮)するように構成され、特徴エンコーダは、ビデオにおいて検出された特徴を符号化するように構成される。特徴検出/抽出は、特徴抽出コンポーネント430において実行され、特徴抽出コンポーネント430は、既知の特徴抽出技術を使用してオリジナルのビデオの画像における特徴を検出するように構成される。符号化されたビデオデータは、ビデオビットストリーム500によってビデオデータデコーダ600に伝送され、ビデオデータデコーダ600は、再構築画像630を取得するために、ビデオデータを復号するビデオデコーダ610を有する。符号化された特徴は、特徴ビットストリーム510において伝送され、特徴デコーダ620によって復号されて再構築特徴640を取得する。
図1bに示す一般的な方案はズバリとした方法であり、それはビデオデータと特徴の両方を伝送するのに必要なビットレートの観点からみると、非効率的である。ビデオと特徴の符号化は互いに完全に独立しており、ビデオの符号化は特徴の符号化を利用しないことに注意すべきである。
【0051】
図2aは、本開示の実施例による画像データエンコーダを示す。画像プリエンコーダ720の入力においてオリジナルの画像を受信し、特徴抽出コンポーネント710において特徴を抽出し、特徴抽出コンポーネント710は当分野で知られているいかなる特徴抽出技術を適用することができる。特徴が抽出されると、それらに対して生成式画像合成730が適用される。いくつかの実施例では、生成式画像合成は、特徴に基づいて予測される画像(又はその領域/ブロック)を生成することができる敵対的生成ニューラルネットワーク(GAN:Generative Adversarial Neural Network)である。
【0052】
GAN構造には、生成器と判別器という2つの互いに敵対的な主体(agent)が存在する。それらは、異なるネットワーク(例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、リカレントニューラルネットワーク(RNN:Recurrent Neural Networks)、又は単にレギュラーニューラルネットワーク(ANN又はRegularNets)を使用して設計され得る。本開示では画像が生成されるため、CNNは該タスクにより適する。生成器は、いかなる追加データを与えずに画像を生成するように求められる。同時に、特徴を抽出して判別器に入力し、判別器は、生成器によって生成された画像が真であるかどうかを判断するように求められる。まず、生成器は低品質の画像(歪み画像)を生成し、そして該画像は判別器によって偽としてマークされる。判別器から十分なフィードバックを取得した後、実画像との差異が減少させるように、生成器は、判別器を騙すことを学習する。上述の方式により、生成モデルを取得することができ、該モデルは、特徴に基づいて予測される真画像を得ることができる。
【0053】
画像プレエンコーダ720によって、制御データとともに出力される画像データから特徴によって予測される画像を差し引いて、画像予測誤差を取得し、該画像予測誤差は残差画像とも呼ばれ、その後、それは、画像エンコーダ740によって有効的に符号化され、画像ビットストリームにおいて伝送され得る(なお、HEVCとVVCのような標準では、予測は画像全体に対して定義/実行されるのではなく、画像の領域又はブロックに対して定義/実行され、これは以下で説明される)。例えば、画像プリエンコーダ720は、大きな符号化ユニット境界に対してブジェクトのエッジを採用するように残差画像を生成する。このような方式により、ビットレートを低減させることができる。特徴抽出コンポーネント710において抽出された特徴は、特徴を圧縮するように最適化される特徴エンコーダ750によって符号化される。符号化された特徴は、特徴ビットストリームの形式で伝送される。発明者らの検討によると、
図1aの方法と逆に、抽出された特徴が画像の符号化に使用することができ、それによってより高い圧縮率を得ることができる。なお、本出願は、他の技術と比較して、エンコーダ側においてデコーダを必要としない。
【0054】
図2bは、
図2aに示す符号化された画像データを復号することができる画像データデコーダを示す。言い換えれば、
図2bは、
図2aに示される操作をミラーリング又は逆転する操作を示す。画像ビットストリームはデコーダにおいて受信され、画像デコーダ810に入力され、画像デコーダ810は画像エンコーダ740の操作を逆転することができる。デコーダにおいて、符号化された特徴のビットストリームも受信され、特徴デコーダ820に入力され、該特徴デコーダ820は符号化された特徴を再構築することができる。生成式画像合成830(例えばGANの形式)を再構築された特徴に適用することによって予測画像を取得する。該予測画像は、低品質画像として出力されてもよく、又はさらなる処理に使用されてもよい。画像デコーダ810は、画像ビットストリームを復号して画像予測誤差を取得し、該画像予測誤差は残差画像とも呼ばれ、それは画像融合コンポーネント840において予測画像と融合される。例えば、形状記述子に基づいて形状を再構築し、また、復号された画像から色情報を得る。画像デコーダ810及び画像融合コンポーネント840は、1つの機能ブロックにマージされてもよいことに留意すべきである。機械ビジョン用の低品質画像と主に人間向けの高品質画像を出力し、及び再構築された特徴を出力することは、「ハイブリッド出力方法」と呼ばれてもよい。このような方法は、機械が特徴のみを処理し、且つ視覚情報が人間の監視に役立つ場合に有用である。
【0055】
本開示の実施例によれば、
図3aはビデオデータエンコーダを示す。エンコーダの入力においてオリジナルのビデオを受信し、特徴抽出コンポーネント910においてビデオの画像から特徴を抽出し、該特徴抽出コンポーネント910は当分野で知られているいかなる特徴抽出技術を適用することができる。特徴が抽出されると、ビデオにおける画像の領域/ブロック又はビデオにおける画像全体に対して生成式画像合成930を適用して、予測値(領域又はブロックに関連する)又は予測された画像全体を取得する。
【0056】
いくつかの実施例では、生成式画像合成は、敵対的生成ニューラルネットワーク(GAN)であり、GANは、画像を生成し、そして最終的にビデオを生成することができ、即ち特徴に基づいて予測を行う。GAN構造には、生成器と判別器という2つの互いに敵対的な主体が存在する。それらは、異なるネットワーク(例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、リカレントニューラルネットワーク(RNN:Recurrent Neural Networks)、又は単にレギュラーニューラルネットワーク(ANN又はRegularNets))を使用して設計され得る。本開示では画像を生成するため、CNNは該タスクにより適する。しかし、ここでは多くの技術を使用することができ、ニューラルネットワークに基づく必要がない。生成器は、いかなる追加データを与えずに画像を生成するように求められる。同時に、特徴を抽出して判別器に入力し、判別器は、生成器によって生成された画像が真であるかどうかを判断するように求められる。まず、生成器は低品質の画像(歪み画像)を生成し、そして該画像は判別器によって偽としてマークされる。判別器から十分なフィードバックを取得した後、実ビデオとの差異が減少させるように、生成器は、判別器を騙すことを学習する。上述の方式により、生成モデルを取得することができ、該モデルは、特徴に基づいて予測されるリアルなビデオを得ることができる。
【0057】
ビデオプリエンコーダ920では、特徴から予測された値をオリジナルのビデオから差し引いて、残差ビデオを取得し、該残差ビデオは、その後でビデオエンコーダ960によって有効的に符号化され、ビデオビットストリームの形式で伝送され得る。特徴抽出コンポーネント910において抽出された特徴は、特徴データを圧縮するように最適化される特徴エンコーダ950によって符号化される。ビデオプリエンコーダ920はさらに、制御データをビデオエンコーダ960に送信することでビデオコントローラを制御し、即ち、動きベクトルを出力しないか、又は動きベクトルが動き記述子から検索された動き情報の残差だけであるようにビデオコントローラを制御する。したがって、ビットがより少なくなる(又は動き情報からのビットが不要である)ため、ビデオビットストリームのビットレートを低減させることができる。符号化された特徴は、特徴ビットストリームの形式で伝送される。発明者らの検討によると、
図1bの方法と逆に、より高い圧縮率を取得するために、抽出された特徴がビデオ視覚データを符号化するために使用されることができる。
【0058】
図3bは、
図3aに示す符号化されたビデオデータを復号することができるビデオデータデコーダを示す。言い換えれば、
図3bは、
図3aに示される操作をミラーリング又は逆転する操作を示す。ビデオビットストリームは、ビデオデータデコーダにおいて受信され、ビデオエンコーダ960の操作を逆転することができるビデオデコーダ1010に入力される。デコーダにおいて、符号化された特徴のビットストリームも受信され、特徴デコーダ1020に入力される。該特徴デコーダ1020は符号化された特徴を再構築することができる。再構築された特徴に対して生成式画像合成1030(例えばGANの形式)を適用して予測ビデオを取得する。該予測ビデオは、低品質ビデオとして出力されてもよく、又は機械ビジョンのためのさらなる処理に使用されてもよい。ビデオデコーダ1010は、ビデオビットストリームを復号してビデオ予測誤差を取得し、該ビデオ予測誤差は残差ビデオとも呼ばれる。ビデオ予測誤差/残差ビデオは、ビデオ融合コンポーネント1040において予測ビデオと融合されて高品質ビデオを取得することができる。ビデオデコーダ1010及びビデオ融合コンポーネント1040は、1つの機能ブロックにマージされ得ることに留意すべきである。機械ビジョン用の低品質ビデオと主に人間向けの高品質ビデオを出力し、及び再構築された特徴を出力することは、「ハイブリッド出力方法」と呼ばれてもよい。
【0059】
図4aは、画像データ(視覚データ及び特徴データを含む)を符号化するためのフローチャートを示す。1100において、オリジナルの画像を受信する。1110において、以上で詳細に記載された特徴抽出技術を使用してオリジナルの画像から特徴を抽出する。例えば、ニューラルネットワークを適用してオリジナルの画像における特徴を抽出/検出する。1130において、抽出された特徴に対して生成式画像合成を適用して予測画像を取得する。以上に記載するように、生成式画像合成の例示的な方法は、敵対的生成ニューラルネットワーク(GAN)である。1140において、オリジナルの画像及び予測画像に基づく残差画像、即ち画像予測誤差を取得する。1150において、画像エンコーダを使用して残差画像を符号化し、画像ビットストリームを取得する。画像エンコーダは、視覚データ(特徴データとは対照的である)を有効的に符号化するように構成される機器であり、人間に使用することができるように視覚データを再構築することを目的とする。1160において、特徴エンコーダを使用して抽出された特徴を符号化し、特徴ビットストリームを取得し、前記特徴エンコーダは特徴データ(視覚データとは対照的である)を有効的に符号化するように構成される機器である。1170(選択可能なステップである)において、画像ビットストリームと特徴ビットストリームは、伝送媒体で伝送されるために共通ビットストリームに多重化される。他の実施例では、この2つのビットストリームは別々に送信される。
【0060】
図4bは、
図4aに示す方法に基づいて符号化された画像データを復号するためのフローチャートを示す。言い換えれば、
図4bは、
図4aに示される操作をミラーリング又は逆転する。1200(選択可能なステップである)において、符号化された視覚データ及び特徴データを含むビットストリームは、符号化された残差画像を含む画像ビットストリームと、画像の符号化された特徴を含む特徴ビットストリームとに逆多重化される。1210において、ビットストリームを復号して画像の特徴を再構築する。1220において、生成式画像合成を再構築された特徴に適用することにより、予測画像を決定する。1230において、ビットストリームを復号して残差画像を再構築する。1240において、予測画像及び残差画像に基づいて再構築画像を決定し、例えば画像融合技術を使用して最終的に人間によって使用される可能性のある高品質画像を取得する。1250(選択可能なステップである)において、例えば機械ビジョンの分野における画像分析の目的のために、予測された画像は低品質画像として出力される。もちろん、機械の必要に応じて再構築された特徴を出力してもよい。
【0061】
図5aは、ビデオデータ(視覚データ及び特徴データを含む)を符号化するためのフローチャートを示す。1300において、オリジナルのビデオを受信する。1310において、以上でより詳細に記載された特徴抽出技術を使用してオリジナルのビデオにおける画像から特徴を抽出する。例えば、ニューラルネットワークを適用してオリジナルのビデオにおける特徴を抽出/検出する。1330において、抽出された特徴に対して生成式画像合成を適用して画像における1つ又は複数の領域の予測値を取得する。以上に記載するように、生成式画像合成の例示的な方法は、敵対的生成ニューラルネットワーク(GAN)である。1340において、画像における1つ又は複数の領域のオリジナル値及び予測値に基づく画像における1つ又は複数の領域の残差値を取得する。1350において、ビデオエンコーダを使用して残差ビデオを符号化してビデオビットストリームを取得する。ビデオエンコーダは、視覚データ(特徴データとは対照的である)を有効的に符号化するように構成される機器であり、人間に使用することができるように視覚データを再構築することを目的とする。1360において、特徴エンコーダを使用して抽出された特徴を符号化し、特徴ビットストリームを取得する。前記特徴エンコーダは特徴データ(視覚データとは対照的である)を有効的に符号化するように構成される機器である。1370(選択可能なステップである)において、ビデオビットストリームと特徴ビットストリームは、伝送媒体で伝送されるために共通ビットストリームに多重化される。他の実施例では、この2つのビットストリームは別々に送信される。
【0062】
図5bは、
図5aに示す方法に基づいて符号化されたビデオデータを復号するためのフローチャートを示す。1400(選択可能なステップである)において、符号化された視覚データ及び特徴データを含むビットストリームは、符号化後の残差ビデオを含むビデオビットストリームと、ビデオの符号化された特徴を含む特徴ビットストリームに逆多重化される。1410において、デコーダを使用して符号化後の残差ビデオを復号し、ビデオにおける画像の特徴を再構築する。1420において、生成式画像合成を再構築された特徴に適用することにより、画像における1つ又は複数の領域の予測値を決定する。1430において、ビットストリームを復号して画像における1つ又は複数の領域の残差値を再構築する。1440において、予測値及び残差値に基づいて、画像における1つ又は複数の領域の再構築値を決定し、例えば画像融合技術を使用して、高品質ビデオを取得する。高品質のビデオは最終的に人間によって使用される可能性がある。1450(選択可能なステップである)において、予測されたビデオは、人間に見せる低品質ビデオとして出力されるが、より重要なこととして、機械ビジョンの分野におけるビデオ分析のためのものである。もちろん、再構築された特徴は、機械の必要に応じて出力されてもよい。
【0063】
ハードウェアの実現
本出願で説明される技術は、1つ又は複数の専用コンピューティング機器によって実現される。該専用コンピューティング機器は、提案された技術を実行するためにハードワイヤードされてもよく、又は回路又はデジタル電子機器、例えば1つ又は複数の特定用途向け集積回路(ASICs:application-specific integrated circuits)又はフィールドプログラマブルゲートアレイ(FPGAs:field-programmable gate arrays)を含むことができ、提案された回路又はデジタル電子機器は、提案された技術を実行するためにプログラムされ続けるか、又は1つ又は複数のハードウェアプロセッサを含むことができ、該ハードウェアプロセッサは、ファームウェア、メモリ、他の記憶装置、又はそれらの組み合わせ内のプログラム命令に基づいて前記技術を実行するようにプログラムされる。このような専用コンピューティング機器はさらに、提案された技術を実行するために、カスタムハードワイヤードロジック、ASICs、又はFPGAsをカスタムプログラミングと組み合わせることができる。提案された専用コンピューティング機器は、デスクトップコンピュータシステム、サーバコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルド機器、ネットワーク機器、又は任意の他の機器又は機器の組み合わせであってもよく、それはハードワイヤード及び/又はプログラムロジックを組み合わせて提案された技術を実現する。
【0064】
1つ又は複数のコンピューティング機器は通常、iOS、Android、ChromeOS、WindowsXP、WindowsVista、Windows7、Windows8、WindowsServer、WindowsCE、Unix、Linux、SunOS、Solaris、iOS、BlackberryOS、VxWorks又はその他の互換性のあるオペレーティングシステムなどのオペレーティングシステムソフトウェアによって制御及び調整される。他の実施例では、コンピューティング機器は専有オペレーティングシステムによって制御されてもよい。従来のオペレーティングシステムは、実行のためのコンピュータプロセスを制御及びスケジュールし、メモリ管理を実行し、ファイルシステム、ネットワーク、I/Oサービスを提供し、及びグラフィカルユーザインターフェイス(GUI:graphical user interface)などのユーザインターフェイス機能を提供する。
【0065】
図6は、エンコーダ/デコーダコンピュータシステム1500を示すブロック図であり、該エンコーダ/デコーダコンピュータシステム1500上で以下のいかなる実施例、例えば、
図2a及び
図3aに示す画像データエンコーダ/ビデオデータエンコーダ、
図2a及び
図3bに示す画像データデコーダ/ビデオデータデコーダ、及び本明細書で説明されるこれらの機器上で実行される方法を実施することができる。コンピュータシステム1500は、情報を伝送するためのバス1502又は他の通信メカニズムと、情報を処理するためのバス1502に結合された1つ又は複数のハードウェアプロセッサ1504とを含む。ハードウェアプロセッサ1504は、例えば、1つ又は複数の汎用マイクロプロセッサであってもよい。
【0066】
コンピュータシステム1500はさらに、ランダムアクセスメモリ(RAM:random access memory)、キャッシュ及び/又は他の動的記憶装置などのメインメモリ1506を含み、それはプロセッサ1504によって実行される情報及び命令を記憶するためにバス1502に結合される。メインメモリ1506はさらに、プロセッサ1504によって実行される命令の実行中に、一時変数又は他の中間情報を記憶するために使用されてもよい。このような命令がプロセッサ1504によってアクセス可能な記憶媒体に記憶されるとき、コンピュータシステム1500は、命令において指定された操作を実行するようにカスタマイズされる専用機械としてレンダリングされる。
【0067】
コンピュータシステム1500はさらに、プロセッサ1504の静的情報及び命令を記憶するためのバス1502に結合された読み取り専用メモリ(ROM:read only memory)1508又は他の静的記憶装置を含む。磁気ディスク、光ディスク又はUSBサムドライブ(フラッシュドライブ)などの記憶装置1510は、提供されて情報及び命令を記憶するためにバス1502に結合される。
【0068】
コンピュータシステム1500は、バス1502を介して、コンピュータユーザに情報を表示するためのLCDディスプレイ(又はタッチスクリーン)又は他のディスプレイなどのディスプレイ1512に結合され得る。アルファベット、数字及び他のキーを含む入力機器1514は、バス1502に結合され、情報及びコマンド選択をプロセッサ1504に伝送するために使用される。別のタイプのユーザ入力機器は、マウス、トラックボール又はカーソル方向キーなどのカーソル制御616であり、方向情報及びコマンド選択をプロセッサ1504に伝送し、ディスプレイ1512上のカーソル移動を制御するために使用される。該入力装置は、典型的に、第1軸(例えば、x)と第2軸(例えば、y)の2つの軸に2つの自由度を有し、これにより、機器が平面内の位置を指定することが許可される。いくつかの実施例では、カーソルのないタッチスクリーンでタッチを受信することによってカーソル制御と同じ方向情報及びコマンド選択を実現することができる。
【0069】
コンピュータシステム1500は、1つ又は複数のコンピューティング機器によって実行される実行可能なソフトウェアコードとして大容量記憶装置におけるGUIに記憶され得ることを実現するために、ユーザインターフェイスモジュールを含み得る。例として、該モジュール及び他のモジュールは、コンポーネント、例えばソフトウェアコンポーネント、オブジェクト向けのソフトウェアコンポーネント、クラスコンポーネント及びタスクコンポーネント、プロセス、機能、属性、プロシージャ、サブルーチン、プログラムコードセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、変数を含むことができる。
【0070】
通常、本明細書で使用される「モジュール」という用語は、ハードウェア又はファームウェアで体現されるロジック、又は、入口と出口点を有する可能性のあるソフトウェア命令の集合を指し、これらの命令は、Java、C又はC++などのプログラミング言語で書かれる。ソフトウェアモジュールは、コンパイルされて実行可能なプログラムにリンクされ、ダイナミックリンクライブラリにインストールされてもよく、又はBASIC、Perl又はPythonなどの解釈型プログラミング言語で書かれてもよい。ソフトウェアモジュールは、他のモジュール又はモジュール自体から呼び出され得、及び/又は検出されたイベント又は中断に応答して呼び出され得ることを理解すべきである。コンピューティング機器で実行するように構成されるソフトウェアモジュールは、光ディスク、デジタルビデオディスク、フラッシュドライブ、磁気ディスク又はその他のいかなる有形媒体などのコンピュータ可読媒体に提供されてもよく、又はデジタルダウンロード(最初に圧縮又はインストール可能なフォーマットで記憶されてもよく、該フォーマットは実行前にインストール、解凍又は復号する必要がある)とすることができる。このようなソフトウェアコードは、コンピューティング機器によって実行するために、実行中のコンピューティング機器のメモリ機器に部分的又は全部に記憶され得る。ソフトウェア命令は、EPROMなどのファームウェアに埋め込まれ得る。
【0071】
さらに理解可能なこととして、ハードウェアモジュールは、ゲート及びフリップフロップなどの接続された論理ユニットから構成されてもよく、及び/又はプログラマブルゲートアレイ又はプロセッサなどのプログラマブルユニットから構成されてもよい。本明細書で説明されるモジュール又はコンピューティング機器の機能は、ソフトウェアモジュールとして実現されることが好ましいが、ハードウェア又はファームウェアで表されてもよい。通常、本明細書で説明されるモジュールは、物理的な組織又はストレージにかかわらず、他のモジュールと組み合わせたり、サブモジュールに分割したりすることができる論理モジュールを指す。
【0072】
コンピュータシステム1500は、カスタムハードワイヤードロジック、1つ又は複数のASIC又はFPGA、ファームウェア及び/又はプログラムロジックを使用して本明細書に記載される技術を実現することができ、前記ファームウェア及び/又はプログラムロジックは、コンピュータシステムと組み合わせられてコンピュータシステム1500を専用機械にするか又はプログラムする。一実施例によれば、本明細書の技術は、1つ又は複数のプロセッサ1504がメインメモリ1506に含まれる1つ又は複数の命令の1つ又は複数のシーケンスを実行することに応答して、コンピュータシステム1500によって実行される。このような命令は、記憶装置1510などの他の記憶媒体からメインメモリ1506に読み込まれてもよい。メインメモリ1506に含まれる命令のシーケンスの実行は、1つ又は複数のプロセッサ1504に本明細書で説明される処理ステップを実行させる。代替実施例では、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。
【0073】
本明細書で使用される「非一時的媒体」という用語及び類似の用語は、機械を特定の方式で動作させるデータ及び/又は命令を記憶する任意の媒体を指す。このような非一時的媒体は、不揮発性媒体及び/又は揮発性媒体を含み得る。不揮発性媒体は、例えば光ディスク又は磁気ディスク、例えば記憶装置1510を含む。揮発性媒体は、メインメモリ1506などの動的メモリを含む。一般的な形式の非一時的媒体は、例えば、フロッピーディスク、フレクシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ又はその他のいかなる磁気データ記憶媒体、CD-ROM、その他のいかなる光記憶媒体、孔のパターンを持ついかなる物理媒体、RAM、PROM及びEPROM、フラッシュ-EPROM、NVRAM、その他のいかなるメモリチップ又はカートリッジ、及びそれらのネットワークバージョンを含む。
【0074】
非一時的媒体は伝送媒体とは異なるが、伝送媒体と組み合わせて使用することができる。伝送媒体は、非一時的媒体間の情報伝送に参加する。例えば、伝送媒体は、同軸ケーブル、銅線、及びバス1502のワイヤを含む光ファイバを含む。伝送媒体は、音波又は光波の形態、例えば無線電波及び赤外線データ通信中に生成される音波又は光波を取ることもできる。
【0075】
実行のために1つ又は複数の命令の1つ又は複数のシーケンスをプロセッサ1504に伝送する場合、様々な形態の媒体に関わることができる。例えば、命令は最初にリモートコンピュータの磁気ディスク又はソリッドステートドライブに搬送されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線を介して命令を送信することができる。コンピュータシステム1500のローカルモデムは、電話線上のデータを受信し、赤外線送信機を使用してデータを赤外線信号に変換することができる。赤外線検出器は赤外線信号で搬送されるデータを受信することができ、適切な回路はデータをバス1502に配置することができる。バス1502はデータをメインメモリ1506に伝送し、プロセッサ1504はメインメモリ1506から命令を検索して実行する。メインメモリ1506によって受信された命令は、オプションとして、プロセッサ1504によって実行される前又は後に記憶装置1510に記憶され得る。
【0076】
コンピュータシステム1500は、バス1502に結合された通信インターフェイス1518をさらに含み、該通信インターフェイスにより符号化された画像データ又は符号化されたビデオデータを受信することができる。通信インターフェイス1518は、1つ又は複数のローカルネットワークに接続された1つ又は複数のネットワークリンクに結合される双方向データ通信を提供する。例えば、通信インターフェイス1518は、集積サービスデジタルネットワーク(ISDN:integrated services digital network)カード、ケーブルモデム、衛星モデム、又は対応するタイプの電話線へのデータ通信接続を提供するモデムであってもよい。別の例として、通信インターフェイス1518は、互換性のあるLAN(又はWANと通信するWANコンポーネント)へのデータ通信接続を提供するために、ローカルエリアネットワーク(LAN:local area network)カードであってもよい。また、無線リンクも実現することができる。このようないかなる実現では、通信インターフェイス1518は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号又は光信号を送受信する。
【0077】
ネットワークリンクは通常、1つ又は複数のネットワークを介して他のデータ機器にデータ通信を提供する。例えば、ネットワークリンクは、ローカルネットワークを介して、ホストコンピュータ又はインターネットサービスプロバイダ(ISP:Internet Service Provider)が運用するデータ機器への接続を提供することができる。ISPは逆に、現在通常「インターネット」と呼ばれるグローバルパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワークとインターネットはいずれも、デジタルデータストリームを搬送する電気信号、電磁信号又は光信号を使用する。様々なネットワークを介する信号、ネットワークリンク上の信号及び通信インターフェイス1518を介する信号は、伝送媒体の例示的な形態であり、それらはデジタルデータをコンピュータシステム1500に伝送し、コンピュータシステム1500からデジタルデータを伝送する。
【0078】
コンピュータシステム1500は、1つ又は複数のネットワーク、ネットワークリンク及び通信インターフェイス1518を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバは、インターネット、ISP、ローカルネットワーク及び通信インターフェイス1518を介してアプリケーションプログラムの要求コードを伝送することができる。受信されたコードは、受信される時にプロセッサ1504によって実行され、及び/又は後で実行のために記憶装置1510又は他の不揮発性メモリに記憶され得る。
【0079】
前述のセクションで説明されたプロセス、方法及びアルゴリズムのうちのそれぞれは、1つ又は複数のコンピュータシステム又はコンピュータハードウェアを含むコンピュータプロセッサによって実行されるコードモジュールにおいて体現され、これらのコードモジュールによって完全に又は部分的に自動化することができる。これらのプロセスとアルゴリズムは、専用回路において部分的又は全体的に実現され得る。
【0080】
上述の様々な特徴及びプロセスは、互いに独立して使用することができ、又は様々な方式で組み合わせることができる。可能なすべての組み合わせ及びサブ組み合わせは、本開示の範囲内に含まれることを意図する。また、いくつかの実施形態では、ある方法又はプロセスブロックが省略されてもよい。本明細書で説明される方法及びプロセスは、いかなる特定のシーケンスにも限定されず、それに関連するブロック又は状態は、適切な他のシーケンスによって実行することができる。例えば、説明されたブロック又は状態は具体的に開示された順序と異なる順序で実行されてもよく、又は複数のブロック又は状態は単一のブロック又は状態に結合されてもよい。例示的なブロック又は状態は、直列、並列又はその他の方式で実行することができる。ブロック又は状態は、開示された例示的な実施例に追加され得るか、又は開示された例示的な実施例から削除され得る。本明細書で説明される例示的なシステム及びコンポーネントは、説明とは異なるように構成されてもよい。例えば、開示された例示的な実施例と比較して、素子は追加されたり、削除されたり、再配列されたりすることができる。
【0081】
「できる」又は「可能」などの条件付き言語は、特に記載しない限り、又は使用される文脈内で理解されるように、通常、いくつかの実施例がある特徴、素子及び/又はステップを含むが、他の実施例がある特徴、素子及び/又はステップを含まないことを伝えることを意図する。したがって、このような条件付き言語は、一般に、特徴、素子及び/又はステップが何らかの方式で1つ又は複数の実施例によって求められること、又は1つ又は複数の実施例が、ユーザ入力又はヒントの有無にかかわらず、これらの特徴、素子及び/又はステップがいかなる特定の実施例に含まれるか又は実行されるかどうかを決定するためのロジックを含む必要があることを暗示することが意図されない。
【0082】
本明細書に記載される及び/又は図面に示されるフローチャートにおけるいかなるプロセスの説明、要素又はブロックは、プロセスにおける特定の論理機能又はステップを実現するための1つ又は複数の実行可能な命令を含むモジュール、セグメント又はコード部分を潜在的に表すものとして理解されるべきである。代替実現は本明細書で説明される実施例の範囲内に含まれ、ここで、素子又は機能は削除され、図示又は説明された順序とは異なる順序で実行されてもよく、当業者が理解するように、関わる機能に応じて、実質的に同時に又は逆の順序で実行されることが含まれる。
【0083】
強調すべきこととして、上述の実施例に対して多くの変更及び修正を行うことができ、その中の素子は他の許容可能な例にあるとして理解されるべきである。このようなすべての修正及び変更はすべて、本開示の範囲内に含まれることを意図する。前述の説明は、本開示のいくつかの実施例を詳述したものである。しかしながら、前述の内容がテキストでどれほど詳細に示されていても、該概念は様々な方式で実践され得ることを理解すべきである。以上で述べたように、留意すべきこととして、本開示のいくつかの特徴又は態様を説明する場合、特定の用語の使用は、該用語が本明細書で、該用語に関連する本開示の特徴又は態様のいかなる特定の特徴を含むことに限定されるものとして再定義されることを暗示するとみなされるべきではない。したがって、保護の範囲は、添付の特許請求の範囲及びその均等物に基づいて解釈されるべきである。
【手続補正書】
【提出日】2023-12-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオデータ符号化のコンピュータによる実現方法であって、
ビデオにおける画像から特徴を抽出することと、
前記特徴に対して生成式画像合成を適用することで、前記画像における1つ又は複数の領域の予測値を取得することと、
前記画像における前記1つ又は複数の領域のオリジナル値と前記予測値に基づいて、前記画像おける前記1つ又は複数の領域の残差値を取得することと、
前記残差値と抽出された特徴を符号化することと、を含み、
前記オリジナル値から前記予測値を差し引くことで前記残差値を取得する、ことを特徴とする
請求項1に記載のコンピュータによる実現方法。
【請求項2】
ビデオエンコーダを使用して前記残差値を符号化し、特徴エンコーダを使用して前記抽出された特徴を符号化し、ここで、前記ビデオエンコーダは可視ビデオデータを符号化するように最適化され、前記特徴エンコーダは特徴データを符号化するように最適化される、ことを特徴とする
請求項1に記載のコンピュータによる実現方法。
【請求項3】
ビデオビットストリーム及び特徴ビットストリームにおいて符号化後の残差値及び符号化後の抽出された特徴をそれぞれ伝送することをさらに含む、ことを特徴とする
請求項1又は2に記載のコンピュータによる実現方法。
【請求項4】
前記符号化後の残差値及び前記符号化後の抽出された特徴を共通ビットストリームに多重化して前記共通ビットストリームを送信することをさらに含む、ことを特徴とする
請求項1又は2に記載のコンピュータによる実現方法。
【請求項5】
線形フィルタリング又は非線形フィルタリングを使用して前記特徴を抽出する、ことを特徴とする
請求項1~4のいずれか一項に記載のコンピュータによる実現方法。
【請求項6】
ニューラルネットワークを使用して前記特徴を抽出し
前記ニューラルネットワークは畳み込みニューラルネットワークであり
前記生成式画像合成は、敵対的生成ニューラルネットワークによって取得されるものである、ことを特徴とする
請求項1~5のいずれか一項に記載のコンピュータによる実現方法。
【請求項7】
エンコーダであって、
1つ又は複数のプロセッサと、
コンピュータ可読媒体に記憶されるコンピュータ実行可能な命令を含むコンピュータ可読媒体とを含み、
前記1つ又は複数のプロセッサが前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は、前記1つ又は複数のプロセッサに請求項1~6のいずれか一項に記載の方法を実行させる、エンコーダ。
【請求項8】
ビデオデータ復号のコンピュータによる実現方法であって、
ビットストリームを復号してビデオにおける画像の特徴を再構築することと、
再構築された特徴に対して生成式画像合成を適用することで、前記画像における1つ又は複数の領域の予測値を決定することと、
前記ビットストリームを復号して前記画像における1つ又は複数の領域の残差値を再構築することと、
前記予測値及び前記残差値に基づいて、前記画像における1つ又は複数の領域の再構築値を決定することと、を含む、コンピュータによる実現方法。
【請求項9】
低品質ビデオの予測値を出力することをさらに含む、ことを特徴とする
請求項8に記載のコンピュータによる実現方法。
【請求項10】
前記再構築値を決定することは、前記予測値を前記残差値に加算することを含む、ことを特徴とする
請求項8又は9に記載のコンピュータによる実現方法。
【請求項11】
前記残差値及び前記特徴は、それぞれビデオビットストリーム及び特徴ビットストリームにおいて受信される、ことを特徴とする
請求項8~10のいずれか一項に記載のコンピュータによる実現方法。
【請求項12】
多重化されたビットストリームにおいて前記符号化後の残差値及び前記符号化された特徴を受信し、前記多重化されたビットストリームは、それぞれビデオビットストリーム及び特徴ビットストリームを取得するために逆多重化される、ことを特徴とする
請求項8~10のいずれか一項に記載のコンピュータによる実現方法。
【請求項13】
特徴デコーダを使用して前記特徴を復号し、ビデオデコーダを使用して前記残差値を復号する、ことを特徴とする
請求項8~12のいずれか一項に記載のコンピュータによる実現方法。
【請求項14】
前記ビデオは1つの画像のみを含む、ことを特徴とする
請求項8~13のいずれか一項に記載のコンピュータによる実現方法。
【請求項15】
デコーダであって、
1つ又は複数のプロセッサと、
コンピュータ可読媒体とを含み、前記コンピュータ可読媒体にコンピュータ実行可能な命令が記憶されており、
前記1つ又は複数のプロセッサが前記コンピュータ実行可能な命令を実行するとき、前記コンピュータ実行可能な命令は、前記1つ又は複数のプロセッサに請求項8~14のいずれか一項に記載の方法を実行させる、デコーダ。
【国際調査報告】