IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデジタル ヴイシー ホールディングス, インコーポレイテッドの特許一覧

特表2025-501723ビデオ圧縮のための時間的注意ベースのニューラルネットワーク
<>
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図1A
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図1B
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図1C
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図1D
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図2
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図3
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図4
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図5A
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図5B
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図6
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図7
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図8
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図9
  • 特表-ビデオ圧縮のための時間的注意ベースのニューラルネットワーク 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-23
(54)【発明の名称】ビデオ圧縮のための時間的注意ベースのニューラルネットワーク
(51)【国際特許分類】
   H04N 19/503 20140101AFI20250116BHJP
【FI】
H04N19/503
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024535895
(86)(22)【出願日】2022-12-20
(85)【翻訳文提出日】2024-07-03
(86)【国際出願番号】 US2022053487
(87)【国際公開番号】W WO2023122077
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】63/291,642
(32)【優先日】2021-12-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WCDMA
2.3GPP
3.HDMI
(71)【出願人】
【識別番号】518338149
【氏名又は名称】インターデジタル ヴイシー ホールディングス, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ムハン,ヴィニース ラケシュ
(72)【発明者】
【氏名】ラカペ,ファビアン
(72)【発明者】
【氏名】ディネシャ,ウジュワル
(72)【発明者】
【氏名】チョイ,ヒョミン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159UA02
5C159UA05
5C159UA16
(57)【要約】
【解決手段】 人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク又はリカレントニューラルネットワーク)、注意、及び/又は空間的属性を有する注意を使用するビデオ符号化及び/又はビデオ復号のためのシステム、方法、及び手段が開示される。例えば、装置は、コンテキストブロックと、現在のブロックと、現在のブロックに関連付けられた潜在ベクトルとを取得すること、コンテキストブロックと、参照ブロックと、潜在ベクトルとに対して少なくとも1つの畳み込みを実行すること、少なくとも1つの畳み込みに基づいて、現在のブロックに関連付けられた動きフローデータを生成すること、又は動きフローデータの表示を含むビットストリームを生成することのうちの1つ以上を実行するように構成され得る。動きフローデータは、量子化され得る。生成されたビットストリームは、量子化された動きフローデータの表示を含み得る。
【選択図】図8

【特許請求の範囲】
【請求項1】
プロセッサを備えるビデオ復号デバイスであって、前記プロセッサが、
現在のブロックに関連付けられた符号化された動きフローデータを取得し、
前記符号化された動きフローデータと潜在ベクトルとに基づいて、復号された動きフローデータを取得し、
前記復号された動きフローデータに基づいて前記現在のブロックのための予測ブロックを生成し、
前記予測ブロックに基づいて前記現在のブロックを再構成するように構成されている、ビデオ復号デバイス。
【請求項2】
方法であって、
現在のブロックに関連付けられた符号化された動きフローデータを取得することと、
前記符号化された動きフローデータと前記潜在ベクトルとに基づいて、復号された動きフローデータを取得することと、
前記復号された動きフローデータに基づいて前記現在のブロックのための予測ブロックを生成することと、
前記予測ブロックに基づいて前記現在のブロックを再構成することと、を含む、方法。
【請求項3】
前記復号された動きデータが、前記符号化された動きフローデータと前記潜在ベクトルとに対する逆畳み込みを使用して取得される、請求項1に記載のビデオ復号デバイス又は請求項2に記載の方法。
【請求項4】
前記逆畳み込みが、リカレントニューラルネットワークを使用して実行される、請求項1又は3に記載のビデオ復号デバイス。
【請求項5】
前記プロセッサが、
前記符号化された動きフローデータと前記潜在ベクトルとを連結するように更に構成されており、前記復号された動きフローデータが、連結された前記符号化された動きフローデータと前記潜在ベクトルとに基づいて取得される、請求項1又は3若しくは4のいずれか一項に記載のビデオ復号デバイス。
【請求項6】
前記プロセッサが、
以前に再構成されたブロックに関連付けられた状態情報に基づいて、前記現在のブロックに関連付けられた前記潜在ベクトルを取得するように更に構成されている、請求項1又は3~5のいずれか一項に記載のビデオ復号デバイス。
【請求項7】
前記状態情報が、潜在表現を示す、請求項6に記載のビデオ復号デバイス。
【請求項8】
前記プロセッサが、
複数の以前に再構成されたブロックに関連付けられた状態情報に基づいて、前記現在のブロックに関連付けられた前記潜在ベクトルを取得するように更に構成されている、請求項1又は3~5のいずれか一項に記載のビデオ復号デバイス。
【請求項9】
複数の以前に再構成されたブロックに関連付けられた前記状態情報が、前記複数の以前に再構成されたブロックのそれぞれの潜在表現を含む、請求項8に記載のビデオ復号デバイス。
【請求項10】
前記プロセッサが、
前記現在のブロックに関連付けられた重み付けされた注意値を取得するように更に構成されており、前記現在のブロックに関連付けられた前記潜在ベクトルが、前記現在のブロックに関連付けられた前記重み付けされた注意値に基づいて取得される、請求項1又は3~9のいずれか一項に記載のビデオ復号デバイス。
【請求項11】
前記プロセッサが、
複数の以前に再構成されたブロック中のそれぞれのブロックの複数の注意値を取得するように更に構成されており、前記現在のブロックに関連付けられた前記重み付けされた注意値が、前記複数の以前に再構成されたブロック中の前記それぞれのブロックの前記注意値に基づいて取得される、請求項1又は3~9のいずれか一項に記載のビデオ復号デバイス。
【請求項12】
前記現在のブロックに関連付けられた前記潜在ベクトルが、前記現在のブロックに関連付けられた注意を示すように構成されている、請求項1又は3~11のいずれか一項に記載のビデオ復号デバイス。
【請求項13】
ビデオ符号化デバイスであって、
プロセッサを備え、前記プロセッサは、
参照ブロックと、現在のブロックと、前記現在のブロックに関連付けられた潜在ベクトルとを取得し、
前記現在のブロックと、前記参照ブロックと、前記潜在ベクトルとに基づいて、前記現在のブロックに関連付けられた動きフローデータを生成し、
前記動きフローデータの表示を含むビデオデータを生成するように構成されている、ビデオ符号化デバイス。
【請求項14】
方法であって、
参照ブロックと、現在のブロックと、前記現在のブロックに関連付けられた潜在ベクトルとを取得することと、
前記現在のブロック、前記参照ブロック、及び前記潜在ベクトルに基づいて、前記現在のブロックに関連付けられた動きフローデータを生成することと、
前記動きフローデータの表示を含むビデオデータを生成することと、を含む、方法。
【請求項15】
前記動きフローデータが、前記現在のブロックと、前記参照ブロックと、前記潜在ベクトルとに対して畳み込みを実行することに基づいて生成される、請求項13に記載のビデオ符号化デバイス又は請求項14に記載の方法。
【請求項16】
前記プロセッサが、
前記現在のブロックに対して実行された前記畳み込みに基づいて、第2のブロックに関連付けられた動きフローデータを生成するための前記現在のブロックの潜在表現を生成するように更に構成されている、請求項15に記載のビデオ符号化デバイス。
【請求項17】
前記現在のブロックに関連付けられた前記潜在ベクトルが、以前に符号化されたブロックに関連付けられた状態情報に基づいて取得される、請求項12又は14~16のいずれか一項に記載のビデオ符号化デバイス。
【請求項18】
前記現在のブロックに関連付けられた前記潜在ベクトルが、複数の以前に符号化されたブロックに関連付けられた状態情報に基づいて取得される、請求項12又は14~16のいずれか一項に記載のビデオ符号化デバイス。
【請求項19】
前記プロセッサが、
複数の以前に符号化されたブロック中のそれぞれのブロックの注意値に基づいて、前記現在のブロックに関連付けられた重み付けされた注意値を取得するように更に構成されており、前記現在のブロックに関連付けられた前記潜在ベクトルが、前記現在のブロックに関連付けられた取得された前記重み付けされた注意値に基づいて取得される、請求項12又は14~18のいずれか一項に記載のビデオ符号化デバイス。
【請求項20】
前記現在のブロックに関連付けられた前記潜在ベクトルが、前記現在のブロックに関連付けられた注意を示すように構成されている、請求項12又は14~19のいずれか一項に記載のビデオ符号化デバイス。
【請求項21】
前記プロセッサが、
空間的特徴抽出を実行するように更に構成されており、前記潜在ベクトルが、実行された前記空間的特徴抽出に基づいて取得される、請求項12又は14~20のいずれか一項に記載のビデオ符号化デバイス。
【請求項22】
1つ以上のプロセッサに、請求項2若しくは3又は14若しくは15のいずれか一項に記載の方法を実行させるための命令を含むコンピュータ可読媒体。
【請求項23】
デバイスであって、
請求項1、3~13又は15~21のいずれか一項に記載の装置と、
(i)画像を表すデータを含む信号を受信するように構成されたアンテナ、(ii)受信された前記信号を、前記画像を表す前記データを含む周波数帯域に制限するように構成された帯域リミッタ、又は(iii)前記画像を表示するように構成されたディスプレイのうちの少なくとも1つと、を備える、デバイス。
【請求項24】
請求項14又は15のいずれか一項に記載の方法に従って前記参照ブロックと前記潜在ベクトルとを使用して生成される動きフローデータを含む信号。
【請求項25】
前記方法が、デコーダ又はエンコーダによって実行される、請求項2若しくは3又は14若しくは15のいずれか一項に記載の方法。
【請求項26】
前記デバイスが、メモリを備える、請求項1、3~13又は15~21のいずれか一項に記載のデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年12月20日に出願された米国特許出願第63/291,642号の利益を主張するものであり、その内容は参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
ビデオコーディングシステムは、デジタルビデオ信号を圧縮して、例えば、かかる信号に必要とされる記憶容量及び/又は送信帯域幅を低減するように使用され得る。
【発明の概要】
【発明が解決しようとする課題】
【0003】
人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク又はリカレントニューラルネットワーク)、注意、及び/又は空間的属性を有する注意を使用するビデオ符号化及び/又はビデオ復号のためのシステム、方法、及び手段が開示される。例えば、ビデオ符号化デバイスは、コンテキストブロックと、現在のブロックと、現在のブロックに関連付けられた潜在ベクトルとを取得すること、コンテキストブロック、参照ブロック、及び潜在ベクトルに対して少なくとも1つの畳み込みを実行すること、少なくとも1つの畳み込みに基づいて、現在のブロックに関連付けられた動きフローデータを生成すること、又は動きフローデータの表示を含むビデオデータを生成すること、のうちの1つ以上を実行するように構成され得る。動きフローデータは、量子化され得る。生成されたビデオデータは、量子化された動きフローデータの表示を含み得る。
【0004】
例えば、コンテキストブロックに関連付けられた潜在ベクトルは、コンテキストブロックに関連付けられたコンテキストフレームに対する注意を示し得る。潜在ベクトルは、コンテキストブロックに関連付けられたコンテキストを使用して取得され得る。潜在ベクトルは、コンテキストブロックに関連付けられた重み付けされた注意値を使用して取得され得る。コンテキストブロックに関連付けられた重み付けされた注意値は、以前に再構成されたブロック中のそれぞれのブロックの1つ以上の注意値に基づいて取得され得る。空間的特徴抽出が実行され得る。例えば、空間的特徴抽出は、シャムネットワークを使用して実行され得る。
【0005】
例えば、ビデオ復号デバイスは、現在のブロックに関連付けられた符号化された動きフローデータ(例えば、量子化された動きフローデータ)を取得すること、符号化された動きフローデータに対してリカレントニューラルネットワークを使用して少なくとも1つの逆畳み込みを実行すること、少なくとも1つの逆畳み込みに基づいて、現在のブロックのための予測ブロックを取得すること、又は、予測ブロック及び残差に基づいて現在のブロックを再構成すること、のうちの1つ以上を実行するように構成され得る。逆畳み込みは、例えば、コンテキストブロックに関連付けられた潜在ベクトルに基づいて実行され得る。潜在ベクトルは、コンテキストブロックに関連付けられたコンテキストを使用して取得され得る。潜在ベクトルは、コンテキストブロックに関連付けられた重み付けされた注意値を使用して取得され得る。コンテキストブロックに関連付けられた重み付けされた注意値は、以前に再構成されたブロック中のそれぞれのブロックの注意値に基づいて取得され得る。
【0006】
システム、方法、及び手段は、デコーダを伴い得る。いくつかの実施例では、本明細書で説明するシステム、方法、及び手段は、エンコーダを伴い得る。いくつかの実施例では、本明細書で説明するシステム、方法、及び手段は、(例えば、エンコーダからの、及び/又はデコーダによって受信された)信号を伴い得る。コンピュータ可読媒体は、1つ以上のプロセッサに、本明細書で説明される方法を実行させるための命令を含み得る。コンピュータプログラム製品は命令を含み得、命令は、プログラムが1つ以上のプロセッサによって実行されたときに、1つ以上のプロセッサに本明細書で説明される方法を行わせ得る。
【図面の簡単な説明】
【0007】
図1A図1Aは、1つ以上の開示された実施形態が実装され得る、例示的な通信システムを示すシステム図である。
図1B図1Bは、一実施形態による、図1Aに示す通信システム内で使用され得る、例示的な無線送信/受信ユニット(wireless transmit/receive unit、WTRU)を示すシステム図である。
図1C図1Cは、一実施形態による、図1Aに示す通信システム内で使用され得る、例示的な無線アクセスネットワーク(Radio Access Network、RAN)及び例示的なコアネットワーク(Core Network、CN)を示すシステム図である。
図1D図1Dは、一実施形態による、図1Aに示す通信システム内で使用され得る、更なる例示的なRAN及び更なる例示的なCNを示すシステム図である。
図2図2は、例示的なブロックベースのビデオエンコーダを例解する。
図3図3は、例示的なビデオデコーダを例解する。
図4図4は、様々な態様及び実施例が実現され得るシステムの実施例を例解する。
図5A図5Aは、エンドツーエンド圧縮システムの一例を例解する。
図5B図5Bは、ビデオを符号化及び復号するための例示的なニューラルネットワークアーキテクチャを例解する。
図6図6は、復号された動き情報を使用して残差を再構成する例を例解する。
図7図7は、効率的なビデオコーディングのための例示的なランダムアクセスタイプ時間構造を例解する。
図8図8は、fによって示される再帰畳み込み(Conv-LSTM)ブロックを有する例示的なアーキテクチャを例解する。
図9図9は、フレームxt-1に対する例示的な注意アーキテクチャを例解する。
図10図10は、ht-1に関する注意ht-kの例示的な計算を例解する。
【発明を実施するための形態】
【0008】
より詳細な理解は、例として添付の図面と併せて与えられる、以下の説明から得られ得る。
【0009】
図1Aは、1つ以上の開示された実施形態が実装され得る、例示的な通信システム100を例解する図である。通信システム100は、音声、データ、ビデオ、メッセージ伝達、ブロードキャストなどのコンテンツを複数の無線ユーザに提供する多重アクセスシステムであり得る。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じて、このようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム100は、コード分割多重アクセス(code division multiple access、CDMA)、時分割多重アクセス(time division multiple access、TDMA)、周波数分割多重アクセス(frequency division multiple access、FDMA)、直交FDMA(orthogonal FDMA、OFDMA)、シングルキャリアFDMA(single-carrier FDMA、SC-FDMA)、ゼロテールユニークワードDFT-Spread OFDM(zero-tail unique-word DFT-Spread OFDM、ZT UW DTS-s OFDM)、ユニークワードOFDM(unique word OFDM、UW-OFDM)、リソースブロックフィルタ処理OFDM、フィルタバンク多重キャリア(filter bank multicarrier、FBMC)などの、1つ以上のチャネルアクセス方法を用いてもよい。
【0010】
図1Aに示すように、通信システム100は、無線送信/受信ユニット(WTRU)102a、102b、102c、102dと、RAN104/113と、CN106/115と、公衆交換電話ネットワーク(public switched telephone network、PSTN)108と、インターネット110と、その他のネットワーク112と、を含み得るが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、及び/又はネットワーク要素を企図していることが理解されよう。WTRU102a、102b、102c、102dの各々は、無線環境において動作し、かつ/又は通信するように構成された、任意のタイプのデバイスであり得る。例として、それらのうちのいずれかが「局(station)」及び/又は「STA」と称され得るWTRU102a、102b、102c、102dは、無線信号を送信及び/又は受信するように構成されてもよく、ユーザ機器(user equipment、UE)、移動局、固定加入者ユニット又は移動加入者ユニット、加入ベースのユニット、無線呼出し、携帯電話、携帯情報端末(personal digital assistant、PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット又はMi-Fiデバイス、モノのインターネット(Internet of Things、loT)デバイス、ウォッチ又はその他の着用式の、ヘッドマウントディスプレイ(head-mounted display、HMD)、車両、ドローン、医療デバイス及びアプリケーション(例えば、遠隔手術用)、工業用デバイス及びアプリケーション(例えば、工業用及び/又は自動処理チェーンコンテキストで動作するロボット及び/又はその他の無線デバイス)、家電デバイス、商業用無線ネットワーク及び/又は工業用無線ネットワークで動作するデバイスなどを含んでもよい。WTRU102a、102b、102c、及び102dのいずれも、互換的にUEと称され得る。
【0011】
通信システム100はまた、基地局114a及び/又は基地局114bを含み得る。基地局114a、114bの各々は、CN106/115、インターネット110、及び/又はその他のネットワーク112などの、1つ以上の通信ネットワークへのアクセスを容易にするために、WTRU102a、102b、102c、102dのうちの少なくとも1つと無線でインターフェース接続するように構成された、任意のタイプのデバイスであってもよい。例として、基地局114a、114bは、基地局トランシーバ(base transceiver station、BTS)、ノードB、eノードB、ホームノードB、ホームeノードB、gNB、NRノードB、サイトコントローラ、アクセスポイント(access point、AP)、無線ルータなどであり得る。基地局114a、114bは、各々単一の要素として図示されているが、基地局114a、114bは、任意の数の相互接続された基地局及び/又はネットワーク要素を含み得ることが理解されよう。
【0012】
基地局114aは、基地局コントローラ(base station controller、BSC)、無線ネットワークコントローラ(radio network controller、RNC)、リレーノードなど、その他の基地局及び/又はネットワーク要素(図示せず)もまた含み得る、RAN104/113の一部であってもよい。基地局114a及び/又は基地局114bは、セル(図示せず)と称され得る、1つ以上のキャリア周波数で無線信号を送信及び/又は受信するように構成されてもよい。これらの周波数は、認可スペクトル、未認可スペクトル、又は認可スペクトルと未認可スペクトルとの組み合わせであり得る。セルは、相対的に固定され得るか、又は経時的に変化し得る特定の地理的エリアに、無線サービスのカバレッジを提供し得る。セルは、セルセクタに更に分けられ得る。例えば、基地局114aと関連付けられたセルは、3つのセクタに分けられ得る。したがって、一実施形態では、基地局114aは、3つのトランシーバを、すなわち、セルのセクタごとに1つのトランシーバを含み得る。一実施形態では、基地局114aは、多重入力多重出力(multiple-input multiple output、MIMO)技術を採用し得、セルのセクタごとに複数のトランシーバを利用し得る。例えば、ビームフォーミングを使用して、所望の空間的方向に信号を送信、かつ/又は受信してもよい。
【0013】
基地局114a、114bは、エアーインターフェース116を介して、WTRU102a、102b、102c、102dのうちの1つ以上と通信し得、このエアーインターフェースは、任意の好適な無線通信リンク(例えば、無線周波数(radio frequency、RF)、マイクロ波、センチメートル波、マイクロメートル波、赤外線(infrared、IR)、紫外線(ultraviolet、UV)、可視光など)であり得る。エアーインターフェース116は、任意の好適な無線アクセス技術(radio access technology、RAT)を使用して確立され得る。
【0014】
より具体的には、上記のように、通信システム100は、多重アクセスシステムであり得るが、CDMA、TDMA、FDMA、OFDMA、SC-FDMAなどの、1つ以上のチャネルアクセス方式を用い得る。例えば、RAN104/113内の基地局114a、及びWTRU102a、102b、102cは、ユニバーサル移動体通信システム(Universal Mobile Telecommunications System、UMTS)地上無線アクセス(UMTS Terrestrial Radio Access、UTRA)などの無線技術を実装し得るが、これは、広帯域CDMA(wideband CDMA、WCDMA)を使用して、エアーインターフェース115/116/117を確立してもよい。WCDMAは、高速パケットアクセス(High-Speed Packet Access、HSPA)及び/又は進化型HSPA(HSPA+)などの通信プロトコルを含み得る。HSPAは、高速ダウンリンク(Downlink、DL)パケットアクセス(High-Speed Downlink Packet Access、HSDPA)及び/又は高速アップリンクパケットアクセス(High-Speed UL Packet Access、HSUPA)を含んでもよい。
【0015】
一実施形態では、基地局114a及びWTRU102a、102b、102cは、進化型UMTS地上無線アクセス(Evolved UMTS Terrestrial Radio Access、E-UTRA)などの無線技術を実装し得、これは、ロングタームエボリューション(Long Term Evolution、LTE)及び/又はLTE-Advanced(LTE-A)及び/又はLTE-Advanced Pro(LTE-A Pro)を使用してエアーインターフェース116を確立し得る。
【0016】
一実施形態では、基地局114a、及びWTRU102a、102b、102cは、新無線(New Radio、NR)技術を使用してエアーインターフェース116を確立し得る、NR無線アクセスなどの無線技術を実装してもよい。
【0017】
一実施形態では、基地局114a及びWTRU102a、102b、102cは、複数の無線アクセス技術を実装し得る。例えば、基地局114a及びWTRU102a、102b、102cは、例えば、デュアルコネクティビティ(dual connectivity、DC)原理を使用して、LTE無線アクセス及びNR無線アクセスを一緒に実装し得る。したがって、WTRU102a、102b、102cによって利用されるエアーインターフェースは、複数のタイプの無線アクセス技術、及び/又は複数のタイプの基地局(例えば、eNB及びgNB)に送られる/そこから送られる送信によって、特徴付けられ得る。
【0018】
他の実施形態では、基地局114a及びWTRU102a、102b、102cは、IEEE802.11(すなわち、無線フィデリティ(Wireless Fidelity、WiFi)、IEEE802.16(すなわち、ワイマックス(Worldwide Interoperability for Microwave Access、WiMAX)、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暫定規格2000(Interim Standard、IS-2000)、暫定規格95(IS-95)、暫定規格856(IS-856)、汎欧州デジタル移動電話方式(Global System for Mobile communications、GSM)、GSM進化型高速データレート(Enhanced Data rates for GSM Evolution、EDGE)、GSM EDGE(GERAN)などの無線技術を実装し得る。
【0019】
図1Aの基地局114bは、例えば、無線ルータ、HomeノードB、Home eノードB、又はアクセスポイントであり得るが、事業所、家庭、車両、キャンパス、工業施設、(例えば、ドローンによる使用のための)空中回廊、道路などの場所などの局所的エリアにおける無線接続を容易にするために、任意の好適なRATを利用し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.11などの無線技術を実装して、無線ローカルエリアネットワーク(wireless local area network、WLAN)を確立し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.15などの無線技術を実装して、無線パーソナルエリアネットワーク(wireless personal area network、WPAN)を確立し得る。更に別の一実施形態では、基地局114b及びWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NRなど)を利用して、ピコセル又はフェムトセルを確立し得る。図1Aに示すように、基地局114bは、インターネット110への直接接続を有し得る。したがって、基地局114bは、CN106/115を介してインターネット110にアクセスする必要がない場合がある。
【0020】
RAN104/113は、CN106/115と通信し得るが、これは、音声、データ、アプリケーション、及び/又はボイスオーバインターネットプロトコル(voice over internet protocol、VoIP)サービスを、WTRU102a、102b、102c、102dのうちの1つ以上に提供するように構成された、任意のタイプのネットワークであってもよい。データは、例えば、異なるスループット要件、待ち時間要件、誤り許容要件、信頼性要件、データスループット要件、モビリティ要件などの、様々なサービス品質(quality of service、QoS)要件を有し得る。CN106/115は、呼制御、支払い請求サービス、移動体位置ベースのサービス、プリペイド通話、インターネット接続性、ビデオ配信などを提供してもよく、かつ/又はユーザ認証などの高レベルセキュリティ機能を実施してもよい。図1Aには示していないが、RAN104/113及び/又はCN106/115は、RAN104/113と同じRAT又は異なるRATを用いるその他のRANと、直接又は間接的に通信し得ることが理解されよう。例えば、NR無線技術を利用し得るRAN104/113に接続されていることに加えて、CN106/115はまた、GSM、UMTS、CDMA2000、WiMAX、E-UTRA、又はWiFi無線技術を用いて、別のRAN(図示せず)と通信してもよい。
【0021】
CN106/115はまた、PSTN108、インターネット110、及び/又はその他のネットワーク112にアクセスするために、WTRU102a、102b、102c、102dのためのゲートウェイとしての機能を果たしてもよい。PSTN108は、従来型電話サービス(plain old telephone service、POTS)を提供する回線交換電話網を含み得る。インターネット110は、相互接続されたコンピュータネットワーク及びデバイスのグローバルシステムを含み得るが、これらのネットワーク及びデバイスは、伝送制御プロトコル(transmission control protocol、TCP)、ユーザデータグラムプロトコル(user datagram protocol、UDP)、及び/又はTCP/IPインターネットプロトコルスイートのインターネットプロトコル(internet protocol、IP)などの、共通通信プロトコルを使用する。ネットワーク112は、他のサービスプロバイダによって所有及び/又は運用されている、有線通信ネットワーク及び/又は無線通信ネットワークを含み得る。例えば、ネットワーク112は、RAN104/113と同じRAT又は異なるRATを用い得る、1つ以上のRANに接続された別のCNを含んでもよい。
【0022】
通信システム100におけるWTRU102a、102b、102c、102dのいくつか又は全ては、マルチモード機能を含み得る(例えば、WTRU102a、102b、102c、102dは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数のトランシーバを含み得る)。例えば、図1Aに示すWTRU102cは、セルラベースの無線技術を採用し得る基地局114a、及びIEEE802無線技術を採用し得る基地局114bと通信するように構成され得る。
【0023】
図1Bは、一例示のWTRU102を例解するシステム図である。図1Bに示すように、WTRU102は、とりわけ、プロセッサ118、トランシーバ120、送信/受信要素122、スピーカ/マイクロフォン124、キーパッド126、ディスプレイ/タッチパッド128、非リムーバブルメモリ130、リムーバブルメモリ132、電源134、全地球測位システム(global positioning system、GPS)チップセット136、及び/又は他の周辺機器138を含み得る。WTRU102は、一実施形態との一貫性を有したまま、前述の要素の任意の部分的組み合わせを含み得ることが理解されよう。
【0024】
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、複数のマイクロプロセッサ、DSPコアと関連付けられた1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)回路、任意のその他のタイプの集積回路(integrated circuit、IC)、状態機械などであってもよい。プロセッサ118は、信号コーディング、データ処理、電力制御、入力/出力処理、及び/又はWTRU102が無線環境で動作することを可能にする任意の他の機能を実施し得る。プロセッサ118は、送信/受信要素122に結合され得るトランシーバ120に結合され得る。図1Bは、プロセッサ118及びトランシーバ120を別個のコンポーネントとして図示するが、プロセッサ118及びトランシーバ120は、電子パッケージ又はチップにおいて一体に統合され得るということが理解されよう。
【0025】
送信/受信要素122は、エアーインターフェース116を介して、基地局(例えば、基地局114a)との間で信号を送信するか、又は受信するように構成され得る。例えば、一実施形態では、送信/受信要素122は、RF信号を送信及び/又は受信するように構成されたアンテナであり得る。一実施形態では、送信/受信要素122は、例えば、IR信号、UV信号、又は可視光信号を送信及び/又は受信するように構成されたエミッタ/検出器であり得る。更に別の実施形態では、送信/受信要素122は、RF信号及び光信号の両方を送信及び/又は受信するように構成され得る。送信/受信要素122は、無線信号の任意の組み合わせを送信及び/又は受信するように構成され得ることが理解されよう。
【0026】
送信/受信要素122は、単一の要素として図1Bに図示されているが、WTRU102は、任意の数の送信/受信要素122を含み得る。より具体的には、WTRU102は、MIMO技術を採用し得る。したがって、一実施形態では、WTRU102は、エアーインターフェース116を介して無線信号を送受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含み得る。
【0027】
トランシーバ120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信される信号を復調するように構成され得る。上記のように、WTRU102は、マルチモード機能を有し得る。したがって、トランシーバ120は、例えば、NR及びIEEE802.11などの複数のRATを介してWTRU102が通信することを可能にするための複数のトランシーバを含み得る。
【0028】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128(例えば、液晶ディスプレイ(liquid crystal display、LCD)表示ユニット若しくは有機発光ダイオード(organic light-emitting diode、OLED)表示ユニット)に結合され得るが、これらからユーザが入力したデータを受信し得る。プロセッサ118はまた、ユーザデータをスピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128に出力し得る。加えて、プロセッサ118は、非リムーバブルメモリ130及び/又はリムーバブルメモリ132などの任意の種類の好適なメモリから情報にアクセスし、かつ当該メモリにデータを記憶し得る。非リムーバブルメモリ130は、ランダムアクセスメモリ(random-access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、ハードディスク、又は任意の他の種類のメモリ記憶デバイスを含み得る。リムーバブルメモリ132は、加入者識別モジュール(subscriber identity module、SIM)カード、メモリスティック、セキュアデジタル(secure digital、SD)メモリカードなどを含み得る。他の実施形態では、プロセッサ118は、サーバ又はホームコンピュータ(図示せず)上など、WTRU102上に物理的に位置していないメモリから情報にアクセスして、当該メモリにデータを記憶し得る。
【0029】
プロセッサ118は、電源134から電力を受信し得、WTRU102における他の構成要素に電力を分配し、かつ/又は制御するように構成され得る。電源134は、WTRU102に電力を供給するための任意の好適なデバイスであり得る。例えば、電源134は、1つ以上の乾電池(例えば、ニッケルカドミウム(nickel-cadmium、NiCd)、ニッケル亜鉛(nickel-zinc、NiZn)、ニッケル金属水素化物(nickel metal hydride、NiMH)、リチウムイオン(lithium-ion、Li-ion)など)、太陽電池、燃料電池などを含み得る。
【0030】
プロセッサ118はまた、GPSチップセット136に結合され得るが、これは、WTRU102の現在の位置に関する位置情報(例えば、経度及び緯度)を提供するように構成され得る。GPSチップセット136からの情報に加えて、又はその代わりに、WTRU102は、エアーインターフェース116を介して基地局(例えば、基地局114a、114b)から位置情報を受信し、かつ/又は2つ以上の近接基地局から受信されている信号のタイミングに基づいて、その位置を決定し得る。WTRU102は、一実施形態との一貫性を有したまま、任意の好適な位置決定方法によって位置情報を取得し得ることが理解されよう。
【0031】
プロセッサ118は、他の周辺機器138に更に結合され得るが、他の周辺機器138には、追加の特徴、機能、及び/又は有線若しくは無線接続を提供する1つ以上のソフトウェア及び/又はハードウェアモジュールが含まれ得る。例えば、周辺機器138には、加速度計、電子コンパス、衛星トランシーバ、(写真及び/又はビデオのための)デジタルカメラ、ユニバーサルシリアルバス(universal serial bus、USB)ポート、振動デバイス、テレビトランシーバ、ハンズフリーヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(frequency modulated、FM)無線ユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実及び/又は拡張現実(Virtual Reality/Augmented Reality、VR/AR)デバイス、アクティビティトラッカなどが含まれ得る。周辺機器138は、1つ以上のセンサを含んでもよく、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方位センサ、近接センサ、温度センサ、時間センサ、ジオロケーションセンサ、高度計、光センサ、タッチセンサ、磁力計、気圧計、ジェスチャセンサ、生体認証センサ、及び/又は湿度センサのうちの1つ以上であってもよい。
【0032】
WTRU102は、(例えば、UL(例えば、送信用)及びダウンリンク(例えば、受信用)の両方のための特定のサブフレームと関連付けられた信号のいくつか又は全ての送信及び受信が、並列及び/又は同時であり得る、全二重無線機を含んでもよい。全二重無線機は、ハードウェア(例えば、チョーク)又はプロセッサ(例えば、別個のプロセッサ(図示せず)又はプロセッサ118を介して)を介した信号処理のいずれかを介して自己干渉を低減し、かつ又は実質的に排除するための干渉管理ユニットを含み得る。一実施形態では、WRTU102は、(例えば、UL(例えば、送信用)又はダウンリンク(例えば、受信用)のいずれかのための特定のサブフレームと関連付けられた)信号のうちのいくつか又は全てのうちのどれかの送信及び受信のための、半二重無線機を含んでもよい。
【0033】
図1Cは、一実施形態による、RAN104及びCN106を例解するシステム図である。上記のように、RAN104は、エアーインターフェース116を介してWTRU102a、102b、102cと通信するために、E-UTRA無線技術を採用し得る。RAN104はまた、CN106と通信し得る。
【0034】
RAN104は、eノードB160a、160b、160cを含み得るが、RAN104は、一実施形態との一貫性を保ちながら、任意の数のeノードBを含み得るということが理解されよう。eノードB160a、160b、160cは各々、エアーインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、eノードB160a、160b、160cは、MIMO技術を実装し得る。したがって、eノードB160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、かつ/又はWTRU102aから無線信号を受信し得る。
【0035】
eノードB160a、160b、160cの各々は、特定のセル(図示せず)と関連付けられ得、かつ無線リソース管理意思決定、ハンドオーバ意思決定、UL及び/又はDLにおけるユーザのスケジューリングなどを処理するように構成され得る。図1Cに示すように、eノードB160a、160b、160cは、X2インターフェースを介して互いに通信し得る。
【0036】
図1Cに示すCN106は、モビリティ管理エンティティ(mobility management entity、MME)162、サービングゲートウェイ(serving gateway、SGW)164、及びパケットデータネットワーク(packet data network、PDN)ゲートウェイ(又はPGW)166を含んでもよい。前述の要素の各々は、CN106の一部として図示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は運営され得ることが理解されよう。
【0037】
MME162は、S1インターフェースを介して、RAN104におけるeノードB162a、162b、162cの各々に接続され得、制御ノードとして機能し得る。例えば、MME162は、WTRU102a、102b、102cのユーザを認証すること、ベアラのアクティブ化/非アクティブ化、WTRU102a、102b、102cの初期アタッチ中に特定のサービングゲートウェイを選択すること、などの役割を果たし得る。MME162は、RAN104と、GSM及び/又はWCDMAなどの他の無線技術を採用する他のRAN(図示せず)との間で切り替えるための制御プレーン機能を提供し得る。
【0038】
SGW164は、S1インターフェースを介して、RAN104におけるeノードB160a、160b、160cの各々に接続され得る。SGW164は、概して、ユーザデータパケットを、WTRU102a、102b、102cとの間でルーティングして、転送し得る。SGW164は、eノードB間ハンドオーバ中にユーザプレーンをアンカする機能、DLデータがWTRU102a、102b、102cに利用可能であるときにページングをトリガする機能、WTRU102a、102b、102cのコンテキストを管理及び記憶する機能などの、他の機能を実施し得る。
【0039】
SGW164は、PGW166に接続され得るが、PGW166は、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。
【0040】
CN106は、他のネットワークとの通信を容易にし得る。例えば、CN106は、WTRU102a、102b、102cと従来の地上回線通信デバイスとの間の通信を容易にするために、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。例えば、CN106は、CN106とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IMS)サーバ)を含み得るか、又はこれと通信し得る。加えて、CN106は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、この他のネットワークは、他のサービスプロバイダによって所有及び/又は運用されている他の有線及び/又は無線ネットワークを含み得る。
【0041】
WTRUは、無線端末として図1A図1Dに記載されているが、ある特定の代表的な実施形態では、このような端末は、通信ネットワークとの有線通信インターフェースを(例えば、一時的又は永久的に)使用し得ることが企図される。
【0042】
代表的な実施形態では、他のネットワーク112は、WLANであり得る。
【0043】
インフラストラクチャ基本サービスセット(Basic Service Set、BSS)モードのWLANは、BSSのアクセスポイント(AP)及びAPと関連付けられた1つ以上の局(STA)を有し得る。APは、配信システム(Distribution System、DS)若しくはBSSに入り、かつ/又はBSSから出るトラフィックを搬送する、別のタイプの有線ネットワーク/無線ネットワークへのアクセス又はインターフェースを有してもよい。BSS外から生じる、STAへのトラフィックは、APを通って到達し得、STAに配信され得る。STAからBSS外の宛先へ生じるトラフィックは、APに送信されて、それぞれの宛先に送信され得る。BSS内のSTA間のトラフィックは、例えば、APを通って送信され得、ソースSTAは、APにトラフィックを送信し、APは、トラフィックを宛先STAに配信し得る。BSS内のSTA間のトラフィックは、ピアツーピアトラフィックとして見なされ得る、かつ/又は称され得る。ピアツーピアトラフィックは、ソースSTAと宛先STAとの間で(例えば、これらの間で直接的に)、直接リンクセットアップ(direct link setup、DLS)を使用して送信され得る。ある特定の代表的な実施形態では、DLSは、802.11e DLS又は802.11zトンネル化DLS(tunneled DLS、TDLS)を使用し得る。独立BSS(Independent BSS、IBSS)モードを使用するWLANは、APを有しない場合があり、IBSS内又はこれを使用するSTA(例えば、STAの全て)は、互いに直接通信し得る。通信のIBSSモードは、本明細書では、「アドホック」通信モードと称され得る。
【0044】
802.11acインフラストラクチャ動作モード又は同様の動作モードを使用するときに、APは、プライマリチャネルなどの固定チャネル上にビーコンを送信し得る。プライマリチャネルは、固定幅(例えば、20MHz幅の帯域幅)又はシグナリングを介して動的に設定される幅であってもよい。プライマリチャネルは、BSSの動作チャネルであり得るが、APとの接続を確立するためにSTAによって使用され得る。特定の代表的な実施形態では、例えば、802.11システムにおいて、衝突回避を備えたキャリア感知多重アクセス(Carrier Sense Multiple Access with Collision Avoidance、CSMA/CA)が実装されてもよい。CSMA/CAの場合、APを含むSTA(例えば、全てのSTA)は、プライマリチャネルを検知し得る。プライマリチャネルが特定のSTAによってビジーであると検知/検出及び/又は決定された場合、特定のSTAは、バックオフされ得る。1つのSTA(例えば、1つの局のみ)は、所与のBSSにおいて、任意の所与の時間に送信され得る。
【0045】
高スループット(High Throughput、HT)STAは、通信のための40MHz幅のチャネルを使用し得、この40MHz幅のチャネルは、例えば、プライマリ20MHzチャネルと、隣接又は非隣接の20MHzチャネルとの組み合わせを介して形成され得る。
【0046】
非常に高いスループット(Very High Throughput、VHT)STAは、20MHz、40MHz、80MHz、及び/又は160MHz幅のチャネルをサポートし得る。40MHz及び/又は80MHzチャネルは、連続する複数の20MHzチャネルを組み合わせることによって形成され得る。160MHzチャネルは、8つの連続する20MHzチャネルを組み合わせることによって、又は80+80構成と称され得る2つの連続していない80MHzチャネルを組み合わせることによって、形成され得る。80+80構成の場合、チャネル符号化後、データは、データを2つのストリームに分け得るセグメントパーサを通過し得る。逆高速フーリエ変換(Inverse Fast Fourier Transform、IFFT)処理、及び時間ドメイン処理は、各ストリームで別個に行われ得る。ストリームは、2つの80MHzチャネルにマッピングされ得、データは、送信STAによって送信され得る。受信STAの受信機では、80+80構成に対する上記で説明される動作は逆にされ得、組み合わされたデータを媒体アクセス制御(Medium Access Control、MAC)に送信し得る。
【0047】
サブ1GHzの動作モードは、802.11af及び802.11ahによってサポートされる。チャネル動作帯域幅及び搬送波は、802.11n及び802.11acで使用されるものと比較して、802.11af及び802.11ahでは低減される。802.11afは、TVホワイトスペース(TV White Space、TVWS)スペクトルにおいて、5MHz、10MHz、及び20MHzの帯域幅をサポートし、802.11ahは、非TVWSスペクトルを使用して、1MHz、2MHz、4MHz、8MHz、及び16MHzの帯域幅をサポートする。代表的な実施形態によれば、802.11ahは、マクロ通信範囲エリア内のMTCデバイスなど、メータタイプの制御/マシンタイプ通信をサポートしてもよい。MTCデバイスは、ある特定の能力、例えば、ある特定の及び/又は限定された帯域幅のためのサポート(例えば、これらのためのみのサポート)を含む、限定された能力を有し得る。MTCデバイスは、(例えば、非常に長いバッテリ寿命を維持するために)閾値を上回るバッテリ寿命を有するバッテリを含み得る。
【0048】
複数のチャネル、並びに802.11n、802.11ac、802.11af、及び802.11ahなどのチャネル帯域幅をサポートし得るWLANシステムは、プライマリチャネルとして指定され得るチャネルを含む。プライマリチャネルは、BSSにおける全てのSTAによってサポートされる最大共通動作帯域幅に等しい帯域幅を有し得る。プライマリチャネルの帯域幅は、最小帯域幅動作モードをサポートするBSSで動作する全てのSTAの中から、STAによって設定され、かつ/又は制限され得る。802.11ahの例では、プライマリチャネルは、AP、及びBSSにおける他のSTAが2MHz、4MHz、8MHz、16MHz、及び/又は他のチャネル帯域幅動作モードをサポートする場合であっても、1MHzモードをサポートする(例えば、これのみをサポートする)STA(例えば、MTC型デバイス)に対して1MHz幅であり得る。キャリア感知及び/又はネットワーク割り当てベクトル(Network Allocation Vector、NAV)設定は、プライマリチャネルのステータスに依存し得る。例えば、APに送信する(1MHz動作モードのみをサポートする)STAに起因して、プライマリチャネルが動作中である場合、周波数帯域の大部分が動作休止のままであり、利用可能であり得るとしても、利用可能な周波数帯域全体が動作中であると見なされ得る。
【0049】
米国では、802.11ahにより使用され得る利用可能な周波数帯域は、902MHz~928MHzである。韓国では、利用可能な周波数帯域は917.5MHz~923.5MHzである。日本では、利用可能な周波数帯域は916.5MHz~927.5MHzである。802.11ahに利用可能な総帯域幅は、国のコードに応じて6MHz~26MHzである。
【0050】
図1Dは、一実施形態による、RAN113及びCN115を例解するシステム図である。上記のように、RAN113は、NR無線技術を採用して、エアーインターフェース116を介して、WTRU102a、102b、102cと通信し得る。RAN113はまた、CN115と通信し得る。
【0051】
RAN113は、gNB180a、180b、180cを含み得るが、RAN113は、一実施形態との一貫性を有したまま、任意の数のgNBを含み得ることが理解されよう。gNB180a、180b、180cは各々、エアーインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、gNB180a、180b、180cは、MIMO技術を実装し得る。例えば、gNB180a、108bは、ビームフォーミングを利用して、gNB180a、180b、180cに信号を送信し得る、かつ/又はgNB180a、180b、180cから信号を受信し得る。したがって、gNB180aは、例えば、複数のアンテナを使用して、WTRU102aとの間で無線信号を送信、かつ/又は受信し得る。一実施形態では、gNB180a、180b、180cは、キャリアアグリゲーション技術を実装し得る。例えば、gNB180aは、複数の要素搬送波をWTRU102a(図示せず)に送信し得る。これらの要素搬送波のサブセットは、未認可スペクトル上にあり得るが、残りの要素搬送波は、認可スペクトル上にあり得る。一実施形態では、gNB180a、180b、180cは、協調マルチポイント(Coordinated Multi-Point、CoMP)技術を実装し得る。例えば、WTRU102aは、gNB180a及びgNB180b(及び/又はgNB180c)からの協調送信を受信し得る。
【0052】
WTRU102a、102b、102cは、スケーラブルなニューメロロジと関連付けられた送信を使用して、gNB180a、180b、180cと通信し得る。例えば、OFDMシンボル間隔及び/又はOFDMサブキャリア間隔は、無線送信スペクトルの異なる送信、異なるセル、及び/又は異なる部分に対して変化し得る。WTRU102a、102b、102cは、(例えば、様々な数のOFDMシンボルを含む、かつ/又は様々な長さの絶対時間が持続する)様々な又はスケーラブルな長さのサブフレーム又は送信時間間隔(transmission time interval、TTI)を使用して、gNB180a、180b、180cと通信してもよい。
【0053】
gNB180a、180b、180cは、スタンドアロン構成及び/又は非スタンドアロン構成でWTRU102a、102b、102cと通信するように構成され得る。スタンドアロン構成では、WTRU102a、102b、102cは、他のRAN(例えば、eノードB160a、160b、160cなど)にアクセスすることもなく、gNB180a、180b、180cと通信し得る。スタンドアロン構成では、WTRU102a、102b、102cは、モビリティアンカポイントとしてgNB180a、180b、180cのうちの1つ以上を利用し得る。スタンドアロン構成では、WTRU102a、102b、102cは、未認可帯域における信号を使用して、gNB180a、180b、180cと通信し得る。非スタンドアロン構成では、WTRU102a、102b、102cは、gNB180a、180b、180cと通信し、これらに接続する一方で、eノードB160a、160b、160cなどの別のRANとも通信し、これらに接続し得る。例えば、WTRU102a、102b、102cは、1つ以上のgNB180a、180b、180c及び1つ以上のeノードB160a、160b、160cと実質的に同時に通信するためのDC原理を実装し得る。非スタンドアロン構成では、eノードB160a、160b、160cは、WTRU102a、102b、102cのモビリティアンカとして機能し得、gNB180a、180b、180cは、WTRU102a、102b、102cをサービス提供するための追加のカバレッジ及び/又はスループットを提供し得る。
【0054】
gNB180a、180b、180cの各々は、特定のセル(図示せず)と関連付けられてもよく、無線リソース管理意思決定、ハンドオーバ意思決定、UL及び/又はDLにおけるユーザのスケジューリング、ネットワークスライシングのサポート、デュアルコネクティビティ、NRとE-UTRAとの間のインターワーキング、ユーザプレーン機能(User Plane Function、UPF)184a、184bへのユーザプレーンデータの経路指定、アクセス及びモビリティ管理機能(Access and Mobility Management Function、AMF)182a、182bへの制御プレーン情報の経路指定などを処理するように構成されてもよい。図1Dに示すように、gNB180a、180b、180cは、Xnインターフェースを介して互いに通信し得る。
【0055】
図1Dに示すCN115は、少なくとも1つのAMF182a、182b、少なくとも1つのUPF184a、184b、少なくとも1つのセッション管理機能(Session Management Function、SMF)183a、183b、及び場合によってはデータネットワーク(Data Network、DN)185a、185bを含み得る。前述の要素の各々は、CN115の一部として図示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は運営され得ることが理解されよう。
【0056】
AMF182a、182bは、N2インターフェースを介してRAN113におけるgNB180a、180b、180cのうちの1つ以上に接続され得、制御ノードとして機能し得る。例えば、AMF182a、182bは、WTRU102a、102b、102cのユーザの認証、ネットワークスライシングのサポート(例えば、異なる要件を有する異なるPDUセッションの処理)、特定のSMF183a、183bの選択、登録エリアの管理、NASシグナリングの終了、モビリティ管理などの役割を果たしてもよい。ネットワークスライスは、WTRU102a、102b、102cを利用しているサービスのタイプに基づいて、WTRU102a、102b、102cのCNサポートをカスタマイズするために、AMF182a、182bによって使用され得る。例えば、異なるネットワークスライスは、超高信頼低遅延(ultra-reliable low latency、URLLC)アクセスに依存するサービス、拡張大規模モバイルブロードバンド(enhanced massive mobile broadband、eMBB)アクセスに依存するサービス、マシンタイプ通信(machine type communication、MTC)アクセスのためのサービスなどの異なる使用事例のために確立されてもよい。AMF162は、RAN113と、LTE、LTE-A、LTE-A Pro及び/又はWiFiなどの非3GPPアクセス技術などのその他の無線技術を用いるその他のRAN(図示せず)との間で交換するための制御プレーン機能を提供してもよい。
【0057】
SMF183a、183bは、N11インターフェースを介して、CN115内のAMF182a、182bに接続され得る。SMF183a、183bはまた、N4インターフェースを介して、CN115内のUPF184a、184bに接続され得る。SMF183a、183bは、UPF184a、184bを選択及び制御し、UPF184a、184bを通るトラフィックのルーティングを構成し得る。SMF183a、183bは、UE IPアドレスを管理し、配分すること、PDUセッションを管理すること、ポリシー執行及びQoSを制御すること、ダウンリンクデータ通知を提供することなどの、その他の機能を実施してもよい。PDUセッション種別は、IPベース、非IPベース、イーサネットベースなどであり得る。
【0058】
UPF184a、184bは、N3インターフェースを介して、RAN113内のgNB180a、180b、180cのうちの1つ以上に接続することができ、これにより、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。UPF184、184bは、パケットを経路指定し、転送すること、ユーザプレーンポリシーを執行すること、多重ホームPDUセッションをサポートすること、ユーザプレーンQoSを処理すること、ダウンリンクパケットをバッファリングすること、モビリティアンカリングを提供することなどの、その他の機能を実施してもよい。
【0059】
CN115は、他のネットワークとの通信を容易にし得る。例えば、CN115は、CN115とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IMS)サーバ)を含み得るか、又はこれと通信し得る。加えて、CN115は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、この他のネットワークは、他のサービスプロバイダによって所有及び/又は運用されている他の有線及び/又は無線ネットワークを含み得る。一実施形態では、WTRU102a、102b、102cは、UPF184a、184bへのN3インターフェース、及びUPF184a、184bとDN185a、185bとの間のN6インターフェースを介して、UPF184a、184bを通じて、ローカルデータネットワーク(DN)185a、185bに接続されてもよい。
【0060】
図1A図1D、及び図1A図1Dの対応する記載から見て、WTRU102a~d、基地局114a~b、eノード-B160a~c、MME162、SGW164、PGW166、gNB180a~c、AMF182a~b、UPF184a~b、SMF183a~b、DN185a~b、及び/又は本明細書に記載される任意のその他のデバイスのうちの1つ以上に関する、本明細書に記載される機能のうちの1つ以上又は全ては、1つ以上のエミュレーションデバイス(図示せず)によって実施されてもよい。エミュレーションデバイスは、本明細書に記載される機能のうちの1つ以上又は全てをエミュレートするように構成された1つ以上のデバイスであり得る。例えば、エミュレーションデバイスを使用して、他のデバイスを試験し、かつ/又は、ネットワーク及び/若しくはWTRU機能をシミュレートしてもよい。
【0061】
エミュレーションデバイスは、ラボ環境及び/又は事業者ネットワーク環境における他のデバイスの1つ以上の試験を実装するように設計され得る。例えば、1つ以上のエミュレーションデバイスは、通信ネットワーク内の他のデバイスを試験するために、有線及び/又は無線通信ネットワークの一部として完全に若しくは部分的に実装及び/又は展開されている間、1つ以上若しくは全ての機能を実施してもよい。1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として一時的に実装/展開されている間、1つ以上若しくは全ての機能を実施し得る。エミュレーションデバイスは、試験を目的として、別のデバイスに直接結合されてもよく、かつ/又は地上波無線通信を使用して、試験を実施してもよい。
【0062】
1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として実装/展開されていない間、全てを含む1つ以上の機能を実施し得る。例えば、エミュレーションデバイスは、1つ以上の構成要素の試験を実装するために、試験実験室での試験シナリオ、並びに/又は展開されていない(例えば、試験用の)有線及び/若しくは無線通信ネットワークにおいて利用され得る。1つ以上のエミュレーションデバイスは、試験機器であり得る。RF回路(例えば、1つ以上のアンテナを含み得る)を介した直接RF結合及び/又は無線通信は、データを送信及び/又は受信するように、エミュレーションデバイスによって使用され得る。
【0063】
本出願は、ツール、特徴、実施例、モデル、アプローチなどを含む様々な態様を記載している。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、限定的であり得るように記載されることが多い。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際、異なる態様の全てが組み合わされ、交換されて、更なる態様を提供し得る。その上、態様は、同様に、先の出願に説明される態様と組み合わされ、かつ交換され得る。
【0064】
本出願において説明及び企図される態様は、多くの異なる形態で実装され得る。本明細書に記載の図5図10は、いくつかの実施例を提供し得るが、他の実施例も企図される。図5図10の考察は、実装形態の範囲を限定するものではない。態様のうちの少なくとも1つは、概して、ビデオ符号化及び復号に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び他の態様は、方法、装置、説明される方法のうちのいずれかに従ってビデオデータを符号化若しくは復号するための命令を記憶したコンピュータ可読記憶媒体、及び/又は説明される方法のうちのいずれかに従って生成されたビットストリームを記憶したコンピュータ可読記憶媒体として実装され得る。
【0065】
本出願では、「再構成された」及び「復号された」という用語は交換可能に使用され得、「ピクセル」及び「サンプル」という用語は交換可能に使用され得、「画像」、「ピクチャ」、及び「フレーム」という用語は交換可能に使用され得る。
【0066】
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。追加的に、「第1の」、「第2の」などの用語は、様々な実施例において、例えば、「第1の復号」及び「第2の復号」などの要素、コンポーネント、ステップ、動作などを修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、本実施例では、第1の復号は、第2の復号の前に実施される必要はなく、例えば、第2の復号の前、第2の復号中、又は第2の復号と重複する時間中に発生し得る。
【0067】
本出願に記載の様々な方法及び他の態様は、図2及び図3に示すように、ビデオエンコーダ200及びデコーダ300のモジュール、例えば、復号モジュールを変更するために使用され得る。その上、本明細書で開示される主題は、例えば、標準又は推奨に記載されているかどうかにかかわらず、既存の又は将来開発されるかどうかにかかわらず、任意のタイプ、形式、又はバージョンのビデオコーディング、並びに任意のかかる標準及び推奨の拡張に適用され得る。別段の指示がない限り、又は技術的に不可能でない限り、本出願に記載の態様は、個々に又は組み合わせて使用され得る。
【0068】
実施例を説明するために本出願に説明される実施例では、様々な数値が使用されており、説明する態様は、これらの特定の値に限定されない。
【0069】
図2は、例示的なビデオエンコーダを示す図である。例示的なエンコーダ200の変形例が企図されるが、エンコーダ200は、全ての予想される変形例を説明することなく、明確にする目的で以下に記載される。
【0070】
符号化される前に、ビデオシーケンスは、符号化前処理(201)、例えば、カラー変換を入力カラーピクチャに適用すること(例えば、RGB4:4:4からYCbCr4:2:0への変換)、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実施する(例えば、色成分のうちの1つのヒストグラム等化を使用して)ことを経ることができる。メタデータは、その前処理と関連付けられ、ビットストリームに添付され得る。
【0071】
エンコーダ200では、以下に記載のように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、分割され(202)、例えば、コーディングユニット(coding unit、CU)の単位で処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測(260)を実施する。インターモードでは、動き推定(275)及び動き補償(270)が実施される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し(205)、例えば、予測モードフラグによってイントラ/インターの決定を示す。予測残差は、例えば、原画像ブロックから予測されたブロックを減算することによって(210)計算される。
【0072】
その予測残差は、次いで、変換され(225)、量子化される(230)。量子化された変換係数、並びに動きベクトル及び他の構文要素は、ビットストリームを出力するためにエントロピーコーディングされる(245)。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コーディングされる。
【0073】
エンコーダは、符号化されたブロックを復号して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号するために逆量子化され(240)、逆変換される(250)。復号された予測残差と予測されたブロックとを組み合わせて(255)、画像ブロックが再構成される。ループ内フィルタ(265)は、例えば、符号化アーチファクトを低減するためのデブロッキング/サンプル適応オフセット(Sample Adaptive Offset、SAO)フィルタリングを実施するために、再構成されたピクチャに適用される。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
【0074】
図3は、ビデオデコーダの実施例を示す図である。例示的なデコーダ300では、ビットストリームは、以下に説明されるように、デコーダ要素によって復号される。ビデオデコーダ300は、概して、図2に記載の符号化パスとは逆の復号パスを実施する。エンコーダ200もまた、概して、ビデオデータを符号化することの一部として、ビデオ復号を実行する。
【0075】
具体的には、デコーダの入力は、ビデオエンコーダ200によって生成され得るビデオビットストリームを含む。ビットストリームは、最初に、変換係数、動きベクトル、及び他のコーディングされた情報を取得するために、エントロピー復号される(330)。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号されたピクチャ分割情報に従ってピクチャを分け得る(335)。変換係数は、予測残差を復号するために、逆量子化され(340)、逆変換される(350)。復号された予測残差と予測されたブロックとを組み合わせて(355)、画像ブロックが再構成される。予測されたブロックは、イントラ予測(360)から又は動き補償予測(すなわち、インター予測)(375)から取得され得る(370)。ループ内フィルタ(365)は、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ(380)に記憶される。
【0076】
復号されたピクチャは、復号後処理(385)、例えば、逆カラー変換(例えば、YCbCr4:2:0からRGB4:4:4への変換)、又は符号化前処理(201)において実施された再マッピングプロセスの逆を実施する逆再マッピングを更に経ることができる。復号後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。実施例では、復号された画像(例えば、復号後処理が使用される場合、ループ内フィルタ(365)の適用後及び/又は復号後処理(385)の後)は、ユーザへのレンダリングのためにディスプレイデバイスに送信され得る。
【0077】
図4Aは、本明細書に説明される様々な態様及び実施例が実現され得るシステムの実施例を示す図である。システム400は、以下に説明される様々なコンポーネントを含むデバイスとして具体化され得、本明細書に説明される態様のうちの1つ以上を実施するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム400の要素は、単独で、又は組み合わせて、単一の集積回路(IC)、複数のIC、及び/又は別個のコンポーネントに具現化され得る。例えば、少なくとも1つの実施例では、システム400の処理及びエンコーダ/デコーダ要素は、複数のIC及び/又は別個のコンポーネントにわたって分散される。様々な実施例では、システム400は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施例では、システム400は、本明細書に説明される態様のうちの1つ以上を実装するように構成されている。
【0078】
システム400は、例えば、本明細書に説明される様々な態様を実装するために、それ自体にロードされた命令を実行するように構成された少なくとも1つのプロセッサ410を含む。プロセッサ410は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム400は、少なくとも1つのメモリ420(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム400は、記憶デバイス440を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス440は、非限定的な例として、内部記憶デバイス、付属記憶デバイス(取り外し可能及び取り外し不可能な記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
【0079】
システム400は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール430を含み、エンコーダ/デコーダモジュール430は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール430は、符号化機能及び/又は復号機能を実施するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。追加的に、エンコーダ/デコーダモジュール430は、システム400の別個の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ410内に組み込まれ得る。
【0080】
本明細書に説明される様々な態様を実施するためにプロセッサ410又はエンコーダ/デコーダ430にロードされるプログラムコードは、記憶デバイス440に記憶され、その後、プロセッサ410による実行のためにメモリ420上にロードされ得る。様々な実施例によれば、プロセッサ410、メモリ420、記憶デバイス440、及びエンコーダ/デコーダモジュール430のうちの1つ以上は、本明細書に説明されるプロセスの実行中に様々なアイテムのうちの1つ以上を記憶することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの部分、ビットストリーム、マトリックス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
【0081】
いくつかの実施例では、プロセッサ410及び/又はエンコーダ/デコーダモジュール430の内部のメモリは、命令を記憶し、符号化又は復号中に必要な処理のための作業メモリを提供するために使用される。ただし、他の実施例では、処理デバイスの外部のメモリ(例えば、処理デバイスは、プロセッサ410又はエンコーダ/デコーダモジュール430のいずれかであり得る)が、これらの機能のうちの1つ以上のために使用される。外部メモリは、メモリ420及び/又は記憶デバイス440、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリであり得る。いくつかの実施例では、外部不揮発性フラッシュメモリが、例えば、テレビのオペレーティングシステムを記憶するために使用される。少なくとも1つの実施例では、RAMなどの高速外部ダイナミック揮発性メモリが、ビデオ符号化及び復号動作のためのワーキングメモリとして使用される。
【0082】
システム400の要素への入力は、ブロック445に示されるように、様々な入力デバイスを通して提供され得る。かかる入力デバイスとしては、これらに限定されないが、(i)例えば、放送局によって地上波で送信されるRF信号を受信する無線周波数(RF)部分、(ii)コンポーネント(Component、COMP)入力端子(又は一組のCOMP入力端子)、(iii)ユニバーサルシリアルバス(USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が挙げられる。図4Aに示されていない他の例としては、複合ビデオが挙げられる。
【0083】
様々な実施例では、ブロック445の入力デバイスは、当該技術分野で知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある周波数帯域に帯域制限することとも称される)、(ii)選択された信号をダウンコンバートすること、(iii)(例えば、)特定の実施例においてチャネルと称され得る信号周波数帯域を選択するために、狭い周波数帯域に再び帯域制限すること、(iv)ダウンコンバートされ帯域制限された信号を復調すること、(v)誤り訂正を実行すること、及び(vi)データパケットの所望のストリームを選択するために多重分離すること、に適した要素と関連付けられ得る。様々な実施例のRF部分は、これらの機能を実行するための1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤り訂正器、及び多重分離器を含む。RF部分は、様々なこれらの機能を実施するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。1つのセットトップボックスの実施例では、RF部分及びその関連付けられた入力処理要素は、有線(例えば、ケーブル)媒体によって送信されたRF信号を受信し、フィルタ処理、ダウンコンバート、及び所望の周波数帯域への再度のフィルタ処理によって周波数選択を実行する。様々な実施例は、上で説明される(及び他の)要素の順序を再配列し、これらの要素のいくつかを除去し、並びに/又は他の要素を追加して、類似の機能若しくは異なる機能を実行する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施例では、RF部分は、アンテナを含む。
【0084】
追加的に、USB端子及び/又はHDMI端子は、システム400をUSB接続及び/又はHDMI接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、別個の入力処理IC内又はプロセッサ410内に実装され得ることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内又はプロセッサ410内に実装され得る。例えば、プロセッサ410、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ430を含む様々な処理要素に、復調され、エラー訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。
【0085】
システム400の様々な要素は、統合型筐体内に提供され得る。統合型筐体内では、様々な要素が相互接続され、好適な接続配列425、例えば、Inter-IC(I2C)バス、配線、及びプリント回路基板を含む当該技術分野で知られている内部バスを使用して、それらの間でデータを送信し得る。
【0086】
システム400は、通信チャネル460を介して他のデバイスとの通信を可能にする通信インターフェース450を含む。通信インターフェース450は、通信チャネル460によってデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース450は、モデム又はネットワークカードを含むことができるが、これに限定されず、通信チャネル460は、例えば、有線及び/又は無線媒体内に実装され得る。
【0087】
データは、様々な実施例において、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、Institute of Electrical and Electronics Engineersを指す)などの無線ネットワークを使用して、システム400にストリーミングされるか、又は他の方法で提供される。これらの実施例のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル460及び通信インターフェース450を介して受信される。これらの実施例の通信チャネル460は、典型的には、ストリーミングアプリケーション及び他のオーバートップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施例は、入力ブロック445のHDMI接続によってデータを提供するセットトップボックスを使用して、ストリーミングされたデータをシステム400に提供する。更に他の実施例は、入力ブロック445のRF接続を使用して、ストリーミングされたデータをシステム400に提供する。上記のように、様々な実施例は、非ストリーミング様式でデータを提供する。追加的に、様々な実施例は、Wi-Fi以外の無線ネットワーク、例えば、セルラーネットワーク又はBluetooth(登録商標)ネットワークを使用する。
【0088】
システム400は、ディスプレイ475、スピーカ485、及び他の周辺デバイス495を含む様々な出力デバイスに出力信号を提供することができる。様々な実施例のディスプレイ475は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(OLED)ディスプレイ、湾曲ディスプレイ、及び/又は折り畳み式ディスプレイのうちの1つ以上を含む。ディスプレイ475は、テレビ、タブレット、ラップトップ、携帯電話(モバイルフォン)、又は他のデバイスのためのものであり得る。また、ディスプレイ475を、他の構成要素と統合することができ(例えば、スマートフォン内のように)、又は別個にする(例えば、ラップトップ用の外部モニタ)こともできる。他の周辺デバイス495は、様々な実施例において、スタンドアロンデジタルビデオディスク(若しくはデジタル多用途ディスク)(両方の用語についてDVD)、ディスクプレーヤ、ステレオシステム、及び/又は照明システムのうちの1つ以上を含む。様々な実施例は、システム400の出力に基づいて機能を提供する1つ以上の周辺デバイス495を使用する。例えば、ディスクプレーヤは、システム400の出力を再生する機能を実行する。
【0089】
様々な実施例では、制御信号は、AV.Link、コンシューマエレクトロニクス制御(Consumer Electronics Control、CEC)、又はユーザ介入の有無を問わずデバイス間の制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム400とディスプレイ475、スピーカ485、又は他の周辺デバイス495との間で通信される。出力デバイスは、それぞれのインターフェース470、480、及び490を通じた専用接続を介してシステム400に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース450を介し、通信チャネル460を使用して、システム400に接続され得る。ディスプレイ475及びスピーカ485は、例えば、テレビなどの電子デバイス内のシステム400の他のコンポーネントと単一のユニットに統合され得る。様々な実施例では、ディスプレイインターフェース470は、例えば、タイミングコントローラ(timing controller、T Con)チップなどのディスプレイドライバを含む。
【0090】
ディスプレイ475及びスピーカ485は、代替的に、例えば、入力445のRF部分が別個のセットトップボックスの一部分である場合、他のコンポーネントのうちの1つ以上とは別個であり得る。ディスプレイ475及びスピーカ485が外部コンポーネントである様々な実施例では、出力信号は、例えば、HDMIポート、USBポート、又はCOMP出力を含む専用の出力接続を介して提供され得る。
【0091】
これらの実施例は、プロセッサ410によって、又はハードウェアによって、又はハードウェア及びソフトウェアの組み合わせによって実現されるコンピュータソフトウェアによって実行され得る。非限定的な実施例として、これらの実施例は、1つ以上の集積回路によって実現され得る。メモリ420は、技術環境に適切な任意のタイプであり得、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリムーバブルメモリなどの任意の適切なデータ記憶技術を使用して実装され得る。プロセッサ410は、技術環境に適切な任意のタイプのものであり得、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。
【0092】
様々な実装形態は、復号を伴う。本出願で使用する際、「復号」は、例えば、ディスプレイに好適な最終出力をもたらすために、受信した符号化されたシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施例では、このような処理は、例えば、逆量子化、逆畳み込み実行、予測ブロックの取得など、エンコーダによって一般的に実施される処理のうちの1つ以上を含む。
【0093】
更なる実施例として、一実施例では、「復号」はエントロピー復号のみを指し、別の実施例では、「復号」は、差動復号のみを指し、別の実施例では、「復号」は、エントロピー復号及び差動復号の組み合わせを指す。「復号プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な復号プロセスを指すことを目的とするものであるかは、具体的な説明の文脈に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0094】
様々な実装形態は、符号化を伴う。「復号」に関する上記の考察と同様に、本出願で使用される「符号化」は、例えば、符号化されたビットストリームを作り出すために入力ビデオシーケンスに対して実施されるプロセスの全て又は一部を包含することができる。様々な実施例では、このような処理は、例えば、畳み込み実行、潜在ベクトルの取得、動きフローデータなど、エンコーダによって一般的に実施される処理のうちの1つ以上を含む。
【0095】
更なる実施例として、一実施例では、「符号化」はエントロピー符号化のみを指し、別の実施例では、「符号化」は差動符号化のみを指し、別の実施例では、「符号化」は差動符号化及びエントロピー符号化の組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の文脈に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0096】
なお、本明細書で使用されるシンタックス要素、例えば、潜在ベクトル、注意値などは、説明的用語であることに留意されたい。したがって、これらは他の構文要素名の使用を排除するものではない。
【0097】
図がフロー図として提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフロー図も提供するものと理解されたい。
【0098】
本明細書に説明される実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、プロセッサで実装され得るが、プロセッサは、一般に処理デバイスを指し、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理デバイスが含まれる。プロセッサには、例えば、エンドユーザ間の情報の通信を容易にする、コンピュータ、携帯電話、ポータブル/携帯情報端末(Personal Digital Assistant、「PDA」)などのデバイスなどの通信デバイスも含まれる。
【0099】
「一実施例」若しくは「実施例」又は「一実装形態」若しくは「実装形態」、並びにそれらの他の変形例への言及は、実施例に関連して説明される特定の特徴、構造、特性などが少なくとも1つの実施例に含まれることを意味する。そのため、本出願全体を通して様々な場所に現れる「一実施例では」若しくは「実施例では」又は「一実装形態では」若しくは「実装形態では」という句、並びに任意の他の変形例の出現は、必ずしも全てが同じ実施例を指すとは限らない。
【0100】
追加的に、本出願は、様々な情報を「判定する」ことに言及する場合がある。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。取得することは、受信すること、取り出すこと、構築すること、生成すること、及び/又は判定することを含み得る。
【0101】
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
【0102】
追加的に、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定する等の操作時に、何らかの方式で関与する。
【0103】
例えば、「A/B」、「A及び/又はB」及び「A及びBのうちの少なくとも1つ」の場合、次の「/」、「及び/又は」、及び「のうちの少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC」及び「A、B、及びCのうちの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0104】
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。エンコーダ信号は、例えば、動きフローデータの表示、量子化された動きフローデータの表示などを含み得る。このようにして、一実施例では、同じパラメータがエンコーダ側とデコーダ側との両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる(明示的なシグナリング)。逆に、デコーダが既に特定のパラメータ並びに他のパラメータを有する場合、単にデコーダが特定のパラメータを知り選択することを可能にするために、送信せずにシグナリングを使用し得る(暗黙的なシグナリング)。いかなる実際の機能の送信を回避することによって、様々な実施例においてビット節約が実現される。シグナリングは、様々な方式で達成され得ることが理解されるべきである。例えば、様々な実施例では、1つ以上のシンタックス要素、フラグなどを使用して、対応するデコーダに情報をシグナリングする。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用されることがある。
【0105】
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実施するための命令、又は説明されている実装形態の1つによって生成されるデータを含むことができる。例えば、信号は、説明される実施例のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶されるか、プロセッサ可読媒体からアクセス若しくは受信され得る。
【0106】
多くの実施例が、本明細書に説明されている。実施例の特徴は、様々な特許請求のカテゴリ及びタイプにわたって単独で又は任意の組み合わせで提供され得る。更に、実施例は、本明細書に説明される特徴、デバイス、又は態様のうちの1つ以上を、単独で又は任意の組み合わせで、様々な特許請求のカテゴリ及びタイプにわたって含み得る。例えば、本明細書に説明される特徴は、本明細書に説明されるように生成された情報を含むビットストリーム又は信号に実現され得る。情報により、デコーダが、説明される実施形態のいずれかに従って、ビットストリーム、エンコーダ、ビットストリーム、及び/又はデコーダを復号することが可能になり得る。例えば、本明細書に記載の特徴は、ビットストリーム又は信号を生成及び/又は送信及び/又は受信及び/又は復号することによって実現され得る。例えば、本明細書に記載の特徴は、方法、プロセス、装置、命令を記憶する媒体、データを記憶する媒体、又は信号として実現され得る。例えば、本明細書に記載の特徴は、TV、セットトップボックス、携帯電話、タブレット、又は復号を実行する他の電子デバイスによって実装され得る。TV、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、結果として生じる画像(例えば、ビデオビットストリームの残差再構成からの画像)を(例えば、モニタ、スクリーン、又は他のタイプのディスプレイを使用して)表示し得る。TV、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、符号化された画像を含む信号を受信し、復号を実行し得る。
【0107】
ビデオデータの圧縮は、例えば、人工ニューラルネットワーク(artificial neural network、ANN)ベースのツールを使用して実行され得る。エンドツーエンドのディープビデオ圧縮アーキテクチャ(例えば、時間構造に依存して動きフローを推定することに特化する)が使用され得る。注意ベースのリカレントニューラルネットワークアーキテクチャが使用され得る。例えば、注意ベースのリカレントニューラルネットワークアーキテクチャは、ビデオフレーム間の長期依存性及び/又は短期依存性をキャプチャすることを可能にし得る。ビデオフレーム間の長期依存性及び/又は短期依存性をキャプチャすることは、動きフロー情報(例えば、各ピクセルロケーションにおける動きベクトル)の近似を改善し得る。動きベクトルは、例えば、以下のうちの1つ以上を使用して推定され得る:リカレントニューラルネットワーク(例えば、畳み込み演算及び/又は逆畳み込み演算を組み込む)、フレーム間注意ブロック、又は特徴抽出ブロック(例えば、シャム特徴抽出ブロック)。(例えば、畳み込み演算を組み込む)リカレントニューラルネットワークは、長期及び/又は短期動き情報をキャプチャすることを可能にし得る。畳み込み演算を組み込むリカレントニューラルネットワーク(recurrent neural network、RNN)は、可変入力画像/フレームサイズの使用を可能にすることができる。フレーム間注意ブロックは、例えば、特定のフレームシーケンスに対する動きベクトルの推定の優先順位付けを可能にすることができる。特徴抽出ブロック(例えば、シャム特徴抽出ブロック)は、例えば、注意の計算中に、符号化されたビデオフレームの空間的特徴の保存を可能にし得る。
【0108】
ANNベースのツールは、エンドツーエンドのビデオ圧縮モデルに直接適用され得る。ANNベースのツールは、例えば、手作りの予測、変換、及びエントロピーコーディングツールを(例えば、ブロックレベルで)使用して、冗長性を低減する(例えば、低減することを目指す)ことができる。(例えば、本明細書で説明されるような)注意機構は、動き推定/補償アルゴリズムを置換又は最適化することができる。
【0109】
画像及びビデオ圧縮方法は、ニューラルネットワークを使用し得る。ANNベースの方法は、例えば、損失関数を反復的に最小化することによって、(例えば、手作りの予測モード及び変換を適用し得る従来の方法とは対照的に)訓練中に大きいデータセットに対して学習されるパラメータを使用(例えば、依存)し得る。圧縮の例では、損失関数は、符号化されたビットストリームのビットレートの推定、及び/又は復号されたコンテンツの目的関数を記述し得る。再構成された画像の品質は、例えば、信号歪みの尺度又は視覚的品質(例えば、人間が知覚する視覚的品質)の近似に基づいて最適化され得る。
【0110】
図5Aは、例示的なエンドツーエンド圧縮システムを例解する。ネットワークのエンコーダ部分への入力Xは、ビデオの画像若しくはフレーム、画像の一部、画像/フレームのグループを表すテンソル、又は画像/フレームのグループの一部(例えば、クロップ)を表すテンソルのうちの1つ以上を含み得る。
【0111】
入力は、例えば、モノクロ、RGB、又はYCbCr(YUV)成分など、1つ以上の色成分を有し得る。
【0112】
図5Aに示されるように、入力テンソルXは、エンコーダネットワークに供給され得る。エンコーダネットワークは、(例えば非線形活性化関数を有する)畳み込み層のシーケンスを含み得る。畳み込み及び/又は空間-深さ演算(例えば、畳み込み及び/又は空間-深さ演算における大きなストライド)を使用して、チャネルの数を増加させながら、例えば空間的解像度を低減することができる。エンコーダネットワークは、学習済み分析変換であり得る(例えば、それと見なすことができる)。
【0113】
図5Aに示されるように、エンコーダネットワークの出力(例えば、「特徴マップ」又は「潜在」Z)は、量子化され、記憶又は送信のためにバイナリストリーム(例えば、ビットストリーム)としてエントロピーコード化(entropy coded、EC)され得る。エンコーダネットワークの出力は、ビデオデータ及び/又はビデオ情報を含み得る。
【0114】
図5Aに示されるように、ビットストリームは、例えば、
【0115】
【数1】
(例えば、Zの逆量子化されたバージョン)を取得するためにエントロピー復号(ED)され得る。
【0116】
図5Aに示されるように、デコーダネットワークは、
【0117】
【数2】
を生成し得、例えば、これは、潜在的な
【0118】
【数3】
からの(例えば、元の)Xテンソルの近似であり得る。デコーダネットワークは、アップサンプリング畳み込み(例えば、「逆畳み込み」若しくはアップサンプリングフィルタが後に続く畳み込み)又は深さ-空間演算のシーケンスを含み得る。デコーダネットワークは、学習済み逆変換、又は雑音除去及び生成変換であり得る(例えば、それと見なすことができる)。
【0119】
例えば、効率的な圧縮のために潜在分布のパラメータを学習する(例えば、共同で学習する)ために、例えば、ハイパーオートエンコーダ(例えば、ハイパー事前分布)がネットワークに追加され得る。エンドツーエンド微分可能コーデック(例えば、任意のエンドツーエンド微分可能コーデックス)が考慮され得る。
【0120】
人工ニューラルネットワークを使用したビデオ圧縮が実行され得る。図5Bは、ビデオを符号化及び復号するための例示的なニューラルネットワークアーキテクチャを例解する。アーキテクチャは、例えば、フレーム間冗長性を除去しながら、復号されたビデオフレームを再構成するための異なる要素(例えば、再構成するために必要な要素)を符号化するオートエンコーダを含み得る。
【0121】
図5Bに示されるように、Iフレームブロック510は、例えば、独立して符号化される(例えば、イントラ)キーフレームの符号化を表すことができる。実施例では、本明細書で説明するIフレームブロック510及び/又はブロックに関するプロセスは、ピクチャレベル、フレームレベル、ブロックレベル、スライスレベル、タイルレベル、サブスライスレベルなどにおいて(例えば、同様に)使用され得る。Iフレームブロック510は、単純なオートエンコーダを含んでもよい。オートエンコーダは、畳み込み分析及び合成を実行することができる。オートエンコーダは、ANNベースの画像圧縮のために開発されてもよい。エントロピーコーダ(entropy coder、EC)及び/又はエントロピーデコーダ(entropy decoder、ED)は、例えば、推論において、冗長性を除去する(例えば、冗長性を算術的に除去する)ために使用され得る。
【0122】
(例えば、図5Bに示されているような)ニューラルネットワークアーキテクチャは、ビデオフレームを圧縮するために使用され得る。オプティカルフローが(例えば、予測されたフレームについて)計算され得る。オプティカルフローは、フレーム間の動きフロー(例えば、密な動きフロー)を推定することができる(例えば、各ピクセルロケーションは、水平又は垂直などの別個の2d動きベクトルを割り当てられ得る)。
【0123】
例えば、ブロックレベルについて本明細書で説明する手順は、フレームレベルで使用され得る。予測フレーム(例えば、図5Bに示されるようなPフレーム520)は、例えば、(例えば、1つだけの)参照フレームが使用される場合、(例えば、図5Bに示されるように)符号化され得る。エンコーダでは、入力は、現在のフレームxcur及び前に再構成された参照フレーム
【0124】
【数4】
であり得る。画像(例えば、両方の画像)は、動き情報を導出及び符号化するために使用され得る。画像は、テンソル(例えば、一意のテンソル)として連結されてもよい。テンソルは、動きフローオートエンコーダ(例えば、f、f)の入力であってもよい。動きフローオートエンコーダは、再構成されたフロー例えば、
【0125】
【数5】
を生成してもよい。復号器は、再構成されたフロー(例えば、再構成されたフローのみ)へのアクセスを有し得るため、再構成されたフローは、参照フレーム
【0126】
【数6】
を例えば、現在のフレームにワープするために使用され得る。これは、現在のフレームに対する予測子
【0127】
【数7】
を生成し得る。残差(
【0128】
【数8】
に対応する)は、(r、r)によって符号化され得る。再構成された残差は、再構成された予測に追加されて、例えば、復号された画像
【0129】
【数9】
を形成し得る。動き情報を表す復号された潜在テンソルは、残差を処理するオートエンコーダへの入力として(例えば、追加的に及び/又は代替的に)使用することができ、(例えば、図6に示すように、画像領域において残差を再構成するために)復号された残差テンソルと連結することができる。
【0130】
図6は、復号された動き情報を使用して残差を再構成する例を例解する。ビデオ符号化及び/又は復号のためにANNベースのツールを使用することは、単方向予測フレームの場合に限定されないことがある。図7は、効率的なビデオコーディングのための例示的なランダムアクセスタイプ時間構造を例解する。ANNベースのツールは、異なる時間構造(例えば、(例えば、複数の)既に再構成された過去及び/又は将来の参照フレームを使用してほとんどのフレームが予測され得るようにコーディングの順序が修正され得る場合、例えば、図7に示されるようなランダムアクセスピクチャグループ(random access group of pictures、GOP)構造)のために適応され、使用され得る。図7に示されるように、フレームは、(例えば、図7のBフレームによって示されるように)過去及び将来の参照ピクチャを使用して双予測され得る。
【0131】
例えば、依存関係が(例えば、連結されたフレームの潜在表現を学習することによって)キャプチャされ得る場合、現在のフレームxcurについて、再構成されたフロー
【0132】
【数10】
は、以前に再構成された参照フレーム
【0133】
【数11】
に依存し得る。フレーム間の長期依存性は、ビデオ符号化及び/又は復号において考慮され得る。複数の時間ポイントにおけるフレーム間の依存性を学習することは、滑らかな及び/又は複雑なシーン遷移を符号化するのに有用であり得る。
【0134】
【数12】
は、前のフレームの情報(例えば、符号化された情報)を含み得る。例えば、ロングショートタームメモリ(long short-term memory、LSTM)などの)RNNは、前のフレームの情報を符号化する際の困難性を克服するのに役立ち得る(例えば、
【0135】
【数13】
を使用する)。
【0136】
ANNのエンドツーエンドアーキテクチャは、以下のうちの1つ以上を含み得る:フレーム間の時間依存性の(例えば、効率的な)符号化、注意を組み込むこと、又は、(例えば、空間的属性を用いて)注意をモデル化すること。
【0137】
例えば、フレーム間の時間依存性が符号化されてもよい。リカレントニューラルネットワークモジュール(例えば、Conv-LSTM)は、例えば、フレーム間の時間性及び冗長性を考慮するために、少なくとも1つの前に復号されたフレームの復号に対応する状態を保つために、(例えば、図8に示すように、アーキテクチャのデコーダ側で)使用され得る。Conv-LSTMは、2次元入力を扱うことができ、2d空間的情報をキャプチャして処理することができる。Conv-LSTMブロックは、様々なサイズの入力画像を扱うことができる。
【0138】
例えば、注意は、ANNの例示的なエンドツーエンドアーキテクチャに組み込まれ得る。Conv-LSTM及びLSTMブロックは、時間依存性をキャプチャすることができる。注意機構は、例えば、言語翻訳(例えば、自然言語処理)などのタスクにおいて、複雑な短期及び/又は長期の時間依存性をキャプチャすることができる。注意機構を使用することは、複雑なシーン遷移及び動き情報を、(例えば、他の手法と比較して)より正確に、かつより少ないビットを使用して符号化すること(例えば、ビデオ圧縮器が符号化すること)を可能にし得る。
【0139】
例えば、空間的属性を用いて注意をモデル化することが実行され得る。注意をモデル化することは、テキストデータに適用され得る。例えば、LSTMセルの出力は、単語のコンテキストを表す潜在ベクトル(例えば、潜在テンソル又は潜在表現)を含み得る。LSTMセルの出力は、行列であってよく、これは1次元ベクトルに平坦化されてよい。
【0140】
空間的コンテキストが保存され得る。前処理は、例えば、空間的属性を保存するために、(例えば、注意を計算する前に)実行され得る。(例えば、自然言語処理のコンテキストにおける)注意は、画像/ビデオの場合とは異なり、(例えば、何らかの強い空間的特徴を必ずしも有していなかった)単語埋め込みに対して使用され得る。空間的特徴抽出は、注意を計算する前に実行され得る。シャムアーキテクチャを使用して、注意を計算する前に空間的特徴抽出を実行することができる。
【0141】
フレーム間の長期依存性を捕捉することができ、例えば、以下のうちの1つ以上、つまりフレーム間の長期依存性をキャプチャし、注意を組み込んで、重み付けされた重要性を特定の中間フレームに提供するリカレントニューラルネットワーク、を使用して再構成を改善することができる。
【0142】
RNNベースのモデル(例えば、LSTM及び/又はゲートリカレントユニット(gated recurrent unit、GRU)など)は、例えば、自然言語処理のコンテキストにおいて使用されてもよい。RNNベースのモデルは、例えば、焦点となる語の前の行(例えば、焦点となる語の数行前)に見られた語及び/又は文の間の依存関係をキャプチャするために使用されてもよい。RNNは、(例えば、既存の)(例えば、図5Bに示されるような)ANNベースの圧縮システムと統合されてもよい。RNNをANNベースの圧縮システムと統合することが、困難な場合がある。RNNモデルは、例えば、データの空間的な態様が時間的な態様と比較してあまり重要でないことがある場合、自然言語処理のために設計されてもよい(例えば、設計されてもよい)。空間的特徴をキャプチャすることは、画像にとって重要な場合がある。RNN(例えば、バニラRNN)を使用する際の(例えば、第2の)課題は、RNNが様々なフレームサイズを扱うことができない可能性があることを含み得る。例示的なRNN(例えば、LSTMセルにおける密ベクトル演算が畳み込みで置き換えられる場合)は、様々なフレームサイズを扱う問題を克服するために使用され得る。注意機構は、例えば、ビデオ内の時空間構造をより良好にキャプチャするために、(例えば、追加の)シャムサブニューラルアーキテクチャを有するリカレントブロックに追加され得る。
【0143】
図8は、fによって示される再帰畳み込み(例えば、Conv-LSTM)ブロックを有する例示的なアーキテクチャを例解する。図8に示されるように、モデルの全体的なアーキテクチャは、Iフレームオートエンコーダ又はPフレームオートエンコーダのうちの1つ以上を含み得る。
【0144】
Iフレームオートエンコーダは、例えば、フレーム(例えば、GoP中の第1のフレーム)を符号化するために使用され得る畳み込みオートエンコーダ(例えば、純粋な畳み込みオートエンコーダ)であり得る。Iフレームオートエンコーダによって生成される符号化は、例えば、フレームが圧縮されたスタンドアロンであり得る(例えば、活用すべき前のフレーム情報が存在しない)ので、(例えば、ビットサイズに関して)大きいことがある。Iフレームオートエンコーダは、(例えば、図8に示されるような)標準的な畳み込み画像圧縮器であり得る(例えば、ただ1つの)分岐を含み得る。
【0145】
(例えば、図8と同様の)Pフレームオートエンコーダは、(例えば、2つの)別個の分岐を含み得る。Pフレームオートエンコーダは、動き情報を符号化及び/又は復号するための分岐(例えば、図8の中央の分岐によって示される通り)と、残差のための分岐(例えば、図8の右端の分岐によって示される通り)とを含み得る。
【0146】
連続フレームは、例えば、Iフレームオートエンコーダ及び/又はPフレームオートエンコーダを使用して、GoPにおいて符号化され得る。ここで生成される符号化は、ビデオ内の時空間パターン及び以前に復号されたフレームからのピクセル情報を使用する(例えば、利用する)ことによって小さくされることができる。これは、量子化された動きテンソル
【0147】
【数14】
及び残差
【0148】
【数15】
を送信する(例えば、送信のみする)ことによってなされ得る。動きテンソルは、以前に復号されたフレームを(例えば、現在の)フレームにワープするための情報(例えば、ワープするために必要とされる情報)を含み得る。残差は、誤差及びアーチファクト(例えば、ワーピング演算の後に取得された誤差及びアーチファクト)を微調整及び/又は補正するための(例えば、必要とされる)情報を含み得る。RNNモデルは、動きエンコーダf(例えば、畳み込みニューラルネットワーク)の入力において開始してもよい。前のフレームの潜在ベクトル(例えば、潜在テンソル、潜在表現)は、at-1であり得る。潜在ベクトルは、状態情報に関連付けられたベクトル、例えば、以前に再構成されたブロックに関連付けられたベクトルであり得る。例えば、潜在ベクトルは、前のフレームにおける動きの状態に関連付けられた情報を表し得る。潜在ベクトルは、現在の動き(例えば、現在のフレームについての動き情報)を予測するために使用され得る。潜在ベクトルは、例えば、コンテキスト情報(例えば、以前に再構成されたフレームに関連付けられた動き情報)を考慮することによって、現在の動きを予測するために使用され得る。潜在ベクトルは、(例えば、図9に関して本明細書で説明されるように)注意ブロックと結合されたConv-LSTMの出力から取得され得る。潜在ベクトルは、例えば、予測された前のフレーム
【0149】
【数16】
及び現在フレームxとともに連結され得る。量子化器ブロックqは、例えば、動きテンソルを量子化する(例えば、効率的に量子化する)ために、階層的事前分布を使用し得る。
【0150】
例えば、現在のブロックについて、コンテキストフレーム内の対応するコンテキストブロック(例えば、前のフレームXt-1)を取得することができる。コンテキストブロックに関連付けられた潜在ベクトル(例えば、潜在テンソル、潜在表現)が取得され得る。畳み込み(例えば、少なくとも1つの畳み込み)は、例えば、現在のブロックに関連付けられた動き情報(例えば、動きフローデータ)を生成するために、コンテキストブロックと、参照ブロックと、潜在ベクトルとに対して実行され得る。動き情報(例えば、動きフローデータ)は量子化され得、動き情報(例えば、動きフローデータ)の表示は、例えば、生成されたビデオデータ中に(例えば、ビットストリーム中に)含まれ得る。
【0151】
例えば、現在のブロックについて、動きフローデータ(例えば、量子化された動きフローデータ)などの符号化された動き情報(例えば、量子化された動き情報)が取得され得る。逆畳み込み(例えば、少なくとも1つの逆畳み込み)は、符号化された動き情報(例えば、符号化された動きフローデータ)に対して実行され得る。逆畳み込みは、リカレントニューラルネットワークを使用して実行され得る(例えば、動きデコーダfに関して図8に示される通り)。現在のブロックに関連付けられた予測ブロックは、例えば、逆畳み込みに基づいて取得され得る。現在のブロックは、例えば、予測ブロックと残差とを組み合わせることによって再構成され得る。
【0152】
実施例では、畳み込みは、ピクチャ、タイル、スライス、及び/又はコーディングブロックレベルなど、異なるレベルで適用され得る。実施例では、潜在ベクトルは、ピクチャ、タイル、スライス、及び/又はコーディングブロックレベルなど、異なるレベルで適用され得る。
【0153】
動きデコーダfブロックにおいて、フレームの空間的及び時間的性質は、例えば、畳み込みベースのLSTMネットワーク(例えば、Conv-LSTM)を使用して活用され得、それは、ビデオフレームの空間的態様に制限されることを回避し得る。畳み込みベースのLSTMネットワーク(例えば、Conv-LSTM)は、例えば、そのローカルネイバーの入力及び過去の状態によって、グリッド内のある特定のセルの将来の状態を判定し得る。(例えば、特定の)時間インスタンスtにおけるConvLSTMの入力ゲート、忘却ゲート、セル状態、出力、及び隠れ状態は、本明細書に記載されるように、式1~5を使用して計算され得る。
【0154】
【数17】
【0155】
例えば、は畳み込み演算子を示し得る。例えば、
【0156】
【数18】
はアダマール積を示し得る。例えば、Wはネットワークの重みであり得る。例えば、bはバイアスであり得る。例えば、Hは潜在行列であり得る。ConvLSTMブロックは、動きエンコーダ
【0157】
【数19】
の逆量子化された出力、及び/又は前の時間ステップat-1からの注意を伴う隠れ状態をその入力として使用することができる。ConvLSTMブロック(例えばf)は、例えば、前のフレーム
【0158】
【数20】
を現在のフレーム上へワープするために使用される(例えば、必要とされる)動き情報を含み得るテンソル
【0159】
【数21】
を、その出力として生成し得る。この出力は、ピクセルサンプルごとの2D動きベクトルのマップ、並びに空間スケールフロー方法の例示的な場合におけるボケ演算子などの情報を記憶するための追加のチャネルを含み得る。(例えば、各)ピクセルロケーションは、複数の(例えば、3つの)成分(例えば、RGB、YUVなど)を有することができる。例えば、動きベクトルマップは、6つのチャネル(例えば、各色成分についての動きベクトル)、又は2つのチャネル(例えば、動き情報が全ての色成分について同じであると見なされる場合)を有することができる。ConvLSTMブロック(例えばf)は、hを出力してもよい。出力hは、現在のフレームに関連付けられた状態情報を含み得る。出力hは、例えば、後続のフレームに使用されるコンテキスト情報を更新するために生成され得る。例えば、後続フレームのために使用される潜在ベクトルは、出力hに基づいて適宜更新され得る。
【0160】
残差分岐への入力は、x及びワープされた
【0161】
【数22】
(例えば、ワープ後の予測における誤差であってもよい)であってもよい。残差分岐(例えば、x及びワープされた
【0162】
【数23】
)への入力は、残差と呼ばれることがある。この残差は、符号化され、生成されたビデオデータ(例えば、ビデオビットストリーム)に含まれ得る。この残差は、復号され、デコーダ側のワープされた動き
【0163】
【数24】
に追加されて、最終的な再構成されたフレーム
【0164】
【数25】
を時間ステップ(例えば、フレームシーケンスインデックス)tについて生成することができる。
【0165】
【表1】
【0166】
注意のモデル化が実行され得る。LSTMは、長期情報及び短期情報の両方を経時的にキャプチャし得る。注意は、大きい時間シーケンスのためのLSTM性能を改善するために使用され得る。注意は、例えば、ニューラル機械翻訳(neural machine translation、NMT)など、様々なシナリオにおいて適用され得る。これらの注意は、経時的に個々のフレームシーケンスにわたって適用され得る。
【0167】
注意は、コンテキストベクトルとソース入力全体との間のショートカットを作成することができる。これらのショートカット接続の重みは、(例えば、各)出力要素に対してカスタマイズ可能であってもよい。(例えば、各)出力要素のためのショートカット接続の重みをカスタマイズすることは、過去のビデオフレームの隠れ状態に対して異なる重みを使用して、時間tにおけるフレーム(例えば、コンテキスト)の再構成の優先順位付けを可能にし得る。例えば、(例えば、シーンカットのようなランダムで複雑な動きに対して)現在のフレームを最もよく予測することができるフレームに強調が置かれてもよい。
【0168】
図9は、フレームxt-1に対する例示的な注意アーキテクチャを例解する。図9に示すようにht-1は、(例えば、時間ステップt-1において)LSTMからのxt-1の潜在表現を表し得る。コンテキストフレームxt-1に対する注意の計算は、式6及び式7を使用して次の通り計算され得る。
【0169】
【数26】
【0170】
例えば、ht-iは、サイズkのコンテキストウィンドウを有するフレームi={1,...,k}の隠れ状態(例えば、潜在表現)であり得る。これらは、ConvLSTMの出力によって提供されてもよい。ペアワイズドット積は、ht-1、これらの過去のフレームの(例えば、全ての)隠れ状態(例えば、ht-2,ht-kなど)との間で実行され、それに続いて、例えば、Softmax演算が行われて、復号される現在のフレームに対する個々の過去のフレームの重み及び/又は注意を得ることができる(例えば、式6に示す通り)。隠れ状態は、注意ブロック(例えば、訓練されたパラメータに基づく訓練された注意ブロック)への入力であり得る。注意ブロックは、入力に対して畳み込みを実行するために使用され得る。注意ブロックの出力は、ベクトル及び/又はテンソルを含み得る。出力ベクトル及び/又はテンソルは、重み付けされ得る。コンテキストフレームにわたる最終的な重み付けされた注意は、ht-1(例えば、式7によって示される通り)に関してそれらの対応する注意係数によって重み付けされた潜在シーケンス全体にわたって合計することによって取得され得る。実施例においてat-1は、xt-1フレーム(例えば、そのフレームxt-1に対する最良の重み付けされた状態)に関連付けられた重み付けされた状態であり得る。at-1は、xt-1フレームまでのコンテキスト情報を表し得る。コンテキストフレームにわたる最終的な重み付けされた注意は、(例えば、図8に関して本明細書で説明したような)fブロックに入力され得る。
【0171】
空間的属性は、例えば、シャムネットワークを使用して保存することができる。図10は、ht-kに関する注意ht-1の例示的な計算を例解する。図10に示されるように、例示的なアーキテクチャのシャム部分を拡張することができる。シャムネットワークは、パラメータが共有されるタイプのニューラルネットワークであり得る。例えばht-k及びht-1の両方は、同じ畳み込みカーネルを共有する同じニューラルネットワークを通して供給されてもよく、その後、結果として生じる特徴表現の平坦化が続いてもよい。隠れ状態は、(例えば、類似度を計算するために使用される(例えば、必要とされる)平坦化及びドット積演算中に任意の空間的特徴が失われ得るので)空間的特徴抽出を実行するために、例えば、シャムサブニューラルネットワークを通過させられ得る。シャムネットワークは、主アーキテクチャ内の畳み込みエンコーダであってもよい。
【0172】
特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。加えて、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装され得る。コンピュータ可読媒体の例としては、電子信号(有線又は無線接続を介して送信される)及びコンピュータ可読記憶媒体が挙げられる。コンピュータ可読記憶媒体の例としては、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びCD-ROMディスク及びデジタル多用途ディスク(digital versatile disk、DVD)などの光学媒体が挙げられるが、これらに限定されない。ソフトウェアと関連付けられたプロセッサを使用して、WTRU、UE、端末、基地局、RNC又は任意のホストコンピュータにおいて使用するための無線周波数トランシーバを実装し得る。
図1A
図1B
図1C
図1D
図2
図3
図4
図5A
図5B
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-08-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ復号デバイスであって、
プロセッサを備え、前記プロセッサが、
現在のブロックに関連付けられた符号化された動きフローデータを取得し、
少なくとも1つの過去のブロックからの動き情報に関連付けられた注意に基づいて動き潜在ベクトルを取得し、
前記符号化された動きフローデータと前記動き潜在ベクトルとに基づいて、復号された動きフローデータを取得し、
前記復号された動きフローデータに基づいて前記現在のブロックのための予測ブロックを生成し、
前記予測ブロックに基づいて前記現在のブロックを再構成するように構成されている、ビデオ復号デバイス。
【請求項2】
前記復号された動きデータが、前記符号化された動きフローデータと前記動き潜在ベクトルとに対する逆畳み込みを使用して取得される、請求項1に記載のビデオ復号デバイス。
【請求項3】
前記逆畳み込みが、リカレントニューラルネットワークを使用して実行される、請求項2に記載のビデオ復号デバイス。
【請求項4】
前記プロセッサが、
前記符号化された動きフローデータと前記動き潜在ベクトルとを連結するように更に構成されており、前記復号された動きフローデータが、連結された前記符号化された動きフローデータと前記動き潜在ベクトルとに基づいて取得される、請求項1に記載のビデオ復号デバイス。
【請求項5】
前記少なくとも1つの過去のブロックからの動き情報に関連付けられた前記注意に基づいて取得された前記動き潜在ベクトルが、前記少なくとも1つの過去のブロックに関連付けられた状態情報に更に基づき、前記少なくとも1つの過去のブロックが、以前に再構成されたブロックである、請求項1に記載のビデオ復号デバイス。
【請求項6】
前記状態情報が、潜在表現を示す、請求項5に記載のビデオ復号デバイス。
【請求項7】
前記少なくとも1つの過去のブロックが、第1の過去のブロックであり、前記少なくとも1つの過去のブロックからの動き情報に関連付けられた前記注意が、前記第1の過去のブロック及び第2の過去のブロックからのそれぞれの状態情報に基づいて更に取得され、前記状態情報の各々が、それぞれの潜在表現に関連付けられている、請求項1に記載のビデオ復号デバイス。
【請求項8】
前記プロセッサが、
重み付けされた注意値を取得するように更に構成されており、前記動き潜在ベクトルが、前記重み付けされた注意値に更に基づいて取得される、請求項1に記載のビデオ復号デバイス。
【請求項9】
ビデオ符号化デバイスであって、
プロセッサを備え、前記プロセッサは、
少なくとも1つの過去のブロックからの動き情報に関連付けられた注意に基づいて動き潜在ベクトルを取得し、
参照ブロック及び現在のブロックを取得し、
前記現在のブロックと、前記参照ブロックと、前記動き潜在ベクトルとに基づいて、前記現在のブロックに関連付けられた動きフローデータを生成し、
前記動きフローデータの表示を含むビデオデータを生成するように構成されている、ビデオ符号化デバイス。
【請求項10】
前記現在のブロックに関連付けられた前記動きフローデータが、前記現在のブロックと、前記参照ブロックと、前記動き潜在ベクトルとに対して畳み込みを実行することに更に基づいて生成される、請求項9に記載のビデオ符号化デバイス。
【請求項11】
前記プロセッサが、
前記現在のブロックに対して実行された前記畳み込みに基づいて、第2のブロックに関連付けられた動きフローデータを生成するための前記現在のブロックの潜在表現を生成するように更に構成されている、請求項10に記載のビデオ符号化デバイス。
【請求項12】
前記動き潜在ベクトルが、少なくとも1つの以前に符号化されたブロックに関連付けられた状態情報に更に基づいて取得される、請求項9に記載のビデオ符号化デバイス。
【請求項13】
前記動き潜在ベクトルが、前記現在のブロックに関連付けられた注意を示すように構成されている、請求項9に記載のビデオ符号化デバイス。
【請求項14】
前記プロセッサが、
空間的特徴抽出を実行するように更に構成されており、前記動き潜在ベクトルが、実行された前記空間的特徴抽出に基づいて更に取得される、請求項9に記載のビデオ符号化デバイス。
【請求項15】
ビデオ復号方法であって、
現在のブロックに関連付けられた符号化された動きフローデータを取得することと、
少なくとも1つの過去のブロックからの動き情報に関連付けられた注意に基づいて、動き潜在ベクトルを取得することと、
前記符号化された動きフローデータと前記動き潜在ベクトルとに基づいて、復号された動きフローデータを取得することと、
前記復号された動きフローデータに基づいて前記現在のブロックのための予測ブロックを生成することと、
前記予測ブロックに基づいて前記現在のブロックを再構成することと、を含む、ビデオ復号方法。
【請求項16】
前記復号された動きデータが、前記符号化された動きフローデータと前記動き潜在ベクトルとに対する逆畳み込みを使用して取得される、請求項15に記載のビデオ復号方法。
【請求項17】
前記逆畳み込みが、リカレントニューラルネットワークを使用して実行される、請求項16に記載のビデオ復号方法。
【請求項18】
前記方法が、
前記符号化された動きフローデータと前記動き潜在ベクトルとを連結することを更に含み、前記復号された動きフローデータが、連結された前記符号化された動きフローデータと前記動き潜在ベクトルとに基づいて取得される、請求項15に記載のビデオ復号方法。
【請求項19】
前記少なくとも1つの過去のブロックからの動き情報に関連付けられた前記注意に基づいて取得された前記動き潜在ベクトルが、前記少なくとも1つの過去のブロックに関連付けられた状態情報に更に基づき、前記少なくとも1つの過去のブロックが、以前に再構成されたブロックである、請求項15に記載のビデオ復号方法。
【請求項20】
前記状態情報が、潜在表現を示す、請求項19に記載のビデオ復号方法。
【請求項21】
前記少なくとも1つの過去のブロックが、第1の過去のブロックであり、前記少なくとも1つの過去のブロックからの動き情報に関連付けられた前記注意が、前記第1の過去のブロック及び第2の過去のブロックからのそれぞれの状態情報に基づいて更に取得され、前記状態情報の各々が、それぞれの潜在表現に関連付けられている、請求項15に記載のビデオ復号方法。
【請求項22】
前記方法が、
重み付けされた注意値を取得することを更に含み、前記動き潜在ベクトルが、前記重み付けされた注意値に更に基づいて取得される、請求項15に記載のビデオ復号方法。
【請求項23】
ビデオ符号化方法であって、
少なくとも1つの過去のブロックからの動き情報に関連付けられた注意に基づいて、動き潜在ベクトルを取得することと、
参照ブロック及び現在のブロックを取得することと、
前記現在のブロックと、前記参照ブロックと、前記動き潜在ベクトルとに基づいて、前記現在のブロックに関連付けられた動きフローデータを生成することと、
前記動きフローデータの表示を含むビデオデータを生成することと、を含む、ビデオ符号化方法。
【請求項24】
前記現在のブロックに関連付けられた前記動きフローデータが、前記現在のブロックと、前記参照ブロックと、前記動き潜在ベクトルとに対して畳み込みを実行することに更に基づいて生成される、請求項23に記載のビデオ符号化方法。
【請求項25】
前記方法が、
前記現在のブロックに対して実行された前記畳み込みに基づいて、第2のブロックに関連付けられた動きフローデータを生成するための前記現在のブロックの潜在表現を生成することを更に含む、請求項24に記載のビデオ符号化方法。
【請求項26】
前記動き潜在ベクトルが、少なくとも1つの以前に符号化されたブロックに関連付けられた状態情報に更に基づいて取得される、請求項23に記載のビデオ符号化方法。
【請求項27】
前記動き潜在ベクトルが、前記現在のブロックに関連付けられた注意を示すように構成されている、請求項23に記載のビデオ符号化方法。
【請求項28】
前記方法が、
空間的特徴抽出を実行することを更に含み、前記動き潜在ベクトルが、実行された前記空間的特徴抽出に基づいて更に取得される、請求項23に記載のビデオ符号化方法。

【国際調査報告】