IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデイジタル パテント ホールディングス インコーポレイテッドの特許一覧

特表2023-532436トポロジフレンドリ表現を用いたグラフ条件付きオートエンコーダ(GCAE)のための方法、装置、及びシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-28
(54)【発明の名称】トポロジフレンドリ表現を用いたグラフ条件付きオートエンコーダ(GCAE)のための方法、装置、及びシステム
(51)【国際特許分類】
   G06N 3/0455 20230101AFI20230721BHJP
   G06T 7/00 20170101ALI20230721BHJP
   G06V 10/82 20220101ALI20230721BHJP
   G06V 10/86 20220101ALI20230721BHJP
   G06N 3/04 20230101ALI20230721BHJP
【FI】
G06N3/0455
G06T7/00 350C
G06V10/82
G06V10/86
G06N3/04 100
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022578678
(86)(22)【出願日】2021-05-27
(85)【翻訳文提出日】2023-01-10
(86)【国際出願番号】 US2021034400
(87)【国際公開番号】W WO2022005653
(87)【国際公開日】2022-01-06
(31)【優先権主張番号】63/047,446
(32)【優先日】2020-07-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WCDMA
2.3GPP
(71)【出願人】
【識別番号】510030995
【氏名又は名称】インターデイジタル パテント ホールディングス インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】パン、チアハオ
(72)【発明者】
【氏名】ティエン、トン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096EA39
5L096FA32
5L096GA32
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
ニューラルネットワークベースのデコーダ(NNBD)によって実装される方法、装置、及びシステムが開示される。1つの方法では、NNBDは、入力データ表現の記述子としてコードワードを取得又は受信することができる。第1のニューラルネットワークモジュールは、少なくともコードワード及び初期グラフに基づいて、入力データ表現の予備的再構築を決定することができる。NNBDは、少なくとも予備的再構築及びコードワードに基づいて、修正されたグラフを決定することができる。第1のニューラルネットワークモジュールは、少なくともコードワード及び修正されたグラフに基づいて、入力データ表現の精緻化された再構築を決定することができる。修正されたグラフは、入力データ表現に関連するトポロジ情報を示し得る。
【選択図】図5

【特許請求の範囲】
【請求項1】
ニューラルネットワークベースのデコーダ(NNBD)によって実装される方法であって、
前記NNBDによって、入力データ表現の記述子としてコードワードを取得又は受信することと、
第1のニューラルネットワークモジュールによって、少なくとも前記コードワード及び初期グラフに基づいて、前記入力データ表現の予備的再構築を決定することと、
少なくとも前記予備的再構築及び前記コードワードに基づいて、修正されたグラフを決定することと、
前記第1のニューラルネットワークモジュールによって、少なくとも前記コードワード及び前記修正されたグラフに基づいて、前記入力データ表現の精緻化された再構築を決定することであって、
前記修正されたグラフは、前記入力データ表現に関連するトポロジ情報を示す、ことと、を含む、方法。
【請求項2】
前記修正されたグラフは、前記初期グラフと第2のニューラルネットワークモジュールの出力とを組み合わせることによって決定される、請求項1に記載の方法。
【請求項3】
前記修正されたグラフは、局所接続グラフである、請求項1に記載の方法。
【請求項4】
少なくとも複製されたコードワード、前記初期グラフ又は前記修正されたグラフ、及び前記再構築されたデータ表現を連結することによって、1つ以上の畳み込みニューラルネットワーク(CNN)によって処理するための連結行列を生成することを更に含む、請求項1に記載の方法。
【請求項5】
前記生成された連結行列を使用して一連の畳み込み層演算を実行することを更に含み、各畳み込み層演算のカーネルサイズは(2n+1)×(2n+1)カーネルサイズであり、nは非負整数である、請求項4に記載の方法。
【請求項6】
前記入力データ表現は、(1)点群、(2)画像、(3)ビデオ、又は(4)オーディオのうちのいずれかである、請求項1に記載の方法。
【請求項7】
前記NNBDはグラフ条件付きNNBDであり、
前記入力データ表現の前記精緻化された再構築を前記決定することは、少なくとも前記第1のニューラルネットワークモジュールの複数の反復動作を介して実行される、
請求項1に記載の方法。
【請求項8】
前記NNBDは、1つ以上の畳み込みニューラルネットワーク(CNN)又は1つ以上の多層パーセプトロン(MLP)のうちのいずれかを含む、請求項1に記載の方法。
【請求項9】
前記NNBDは、1つ以上の多層パーセプトロン(MLP)を含み、
前記修正されたグラフ及び前記データ表現の前記精緻化された再構築は、前記1つ以上のMLPによって生成された勾配情報に更に基づく、
請求項1に記載の方法。
【請求項10】
前記修正されたグラフによって示される前記トポロジ情報に従って、(1)前記入力データ表現で表される1つ以上のオブジェクト、(2)前記オブジェクトの数、(3)前記入力データ表現で表されるオブジェクト表面、及び/又は(4)前記入力データ表現で表されるオブジェクトに関連する動きベクトル、のうちのいずれかを識別することを更に含む、請求項1に記載の方法。
【請求項11】
前記コードワードは、オブジェクト又は複数のオブジェクトを有するシーンを表す記述子ベクトルである、請求項1に記載の方法。
【請求項12】
前記初期グラフ及び前記修正されたグラフは、2次元(2D)点セットであり、
前記入力データ表現は点群であり、
前記入力データ表現の前記予備的再構築を前記決定することは、前記記述子ベクトルと、平面内の所定のサンプリングで初期化される前記2D点セットとに基づいて、変形動作を実行することを含む、
請求項1に記載の方法。
【請求項13】
前記入力データ表現の前記予備的再構築を前記決定することは、前記点群の前記予備的再構築を生成することを含む、請求項12に記載の方法。
【請求項14】
前記修正されたグラフを前記決定することは、
前記修正されたグラフを生成するために、前記点群、前記記述子ベクトル、及び前記初期グラフの前記予備的再構築に基づいて、分割動作を実行することを含む、請求項12に記載の方法。
【請求項15】
前記修正されたグラフを局所接続グラフとして生成することと、
前記入力データ表現の前記精緻化された再構築に対してグラフフィルタリングを実行することと、
前記入力データ表現の前記フィルタリングされ精緻化された再構築を、前記入力データ表現の最終再構築として出力することと、
を更に含む、請求項13に記載の方法。
【請求項16】
前記局所接続グラフは、
前記初期グラフ又は修正されたグラフ内の最近傍のグラフエッジを生成することと、
前記修正されたグラフ内の点距離に基づいてグラフエッジ重みを割り当てることと、
閾値よりも小さいグラフ重みを有するグラフエッジをプルーニングすることと、に基づく、請求項15に記載の方法。
【請求項17】
前記入力データ表現の前記精緻化された再構築に対して前記グラフフィルタリングを前記実行することは、前記入力データ表現の前記最終再構築がグラフ領域において平滑化されるように、平滑化され再構築された入力データ表現を生成することを含む、請求項15に記載の方法。
【請求項18】
2段階訓練動作に従って前記NNBDにおけるニューラルネットワーク重みを設定することを更に含む、請求項1に記載の方法。
【請求項19】
前記2段階訓練動作の前記第1の段階において、第1の段階の損失関数に含まれるスーパーセット距離を用いて前記第1のニューラルネットワークモジュールを訓練することと、
前記2段階訓練動作の前記第2の段階において、サブセット距離及び前記スーパーセット距離に基づいて、第2の段階の損失関数に含まれる面取り距離を用いて前記第1のニューラルネットワークモジュール及び前記第2のニューラルネットワークモジュールを訓練することと、
を含む、請求項18に記載の方法。
【請求項20】
前記初期グラフは、各点が2D位置を示す点の行列を含む2Dグリッドであり、
前記2Dグリッドは多様体に関連し、各点は前記多様体上の固定位置を示し、
前記2Dグリッドは、2D平面からサンプリングされた点の固定セットである、
請求項1に記載の方法。
【請求項21】
前記修正されたグラフを前記決定することは、
K×Dコードワード行列を生成するために、前記受信又は取得したコードワードをK回複製することであって、Kは前記初期グラフ内のノードの数であり、Dは前記コードワードの長さである、ことと、
前記K×Dコードワード行列と前記初期グラフとをKxN行列として連結して、Kx(D+N)連結行列を生成することと、
前記連結行列を1つ以上の畳み込みニューラルネットワーク(CNN)又は多層パーセプトロン(MLP)に入力することと、
前記連結行列から前記1つ以上のCNN又はMLPによって、前記修正されたグラフを生成することと、
前記修正されたグラフに基づいて前記入力データ表現の前記精緻化された再構築を更新して、前記入力データ表現の最終再構築を生成することと、を含む、請求項20に記載の方法。
【請求項22】
前記コードワード行列を、連結された中間行列として、CNN層又はMLP層の第1のセットの前記出力に連結することと、
前記連結された中間行列を、CNN層又はMLP層の前記第1のセットに続くCNN層又はMLP層の次のセットに入力することと、
を更に含む、請求項21に記載の方法。
【請求項23】
ニューラルネットワークベースのデコーダ(NNBD)であって、
入力データ表現の記述子としてコードワードを受信又は取得するように構成された受信機ユニットと、
少なくとも前記コードワード及び初期グラフに基づいて、前記入力データ表現の予備的再構築を決定するように構成された第1のニューラルネットワーク(NN)モジュールと、
少なくとも前記予備的再構築及び前記コードワードに基づいて、修正されたグラフを決定するように構成された第2のNNモジュールと、を含み、
前記第1のNNモジュールは、少なくとも前記コードワード及び前記修正されたグラフに基づいて、前記入力データ表現の精緻化された再構築を決定するように更に構成され、
前記修正されたグラフは、前記入力データ表現に関連するトポロジ情報を示す、ニューラルネットワークベースのデコーダ(NNBD)。
【請求項24】
前記修正されたグラフは局所接続グラフである、請求項23に記載のNNBD。
【請求項25】
前記第2のNNモジュールは、1つ以上の畳み込みニューラルネットワーク(CNN)を含み、
前記NNBDは、少なくとも(1)複製されたコードワード、(2)前記初期グラフ又は前記修正されたグラフ、及び(3)前記再構築されたデータ表現を使用して連結行列を生成するように構成され、
前記1つ以上のCNNは、前記連結行列を処理し、前記修正されたグラフ又は精緻化された修正されたグラフを生成するように構成されている、
請求項23に記載のNNBD。
【請求項26】
前記1つ以上のCNNは、前記生成された連結行列を使用して、一連の畳み込み層演算を実行するように構成され、
各畳み込み層演算のためのカーネルサイズは、(2n+1)×(2n+1)カーネルサイズであり、ここで、nは非負整数である、
請求項25に記載のNNBD。
【請求項27】
前記入力データ表現は、(1)点群、(2)画像、(3)ビデオ、又は(4)オーディオのうちのいずれかである、請求項23に記載のNNBD。
【請求項28】
前記NNBDはグラフ条件付きNNBDであり、
前記第1のNNモジュールは、複数の反復動作を実行するように構成されている、
請求項23に記載のNNBD。
【請求項29】
前記第2のNNモジュールは、1つ以上の畳み込みニューラルネットワーク(CNN)又は1つ以上の多層パーセプトロン(MLP)のうちのいずれかを含む、請求項23に記載のNNBD。
【請求項30】
前記第1のNNモジュールは、勾配情報を生成するように構成された1つ以上の多層パーセプトロン(MLP)を含み、
前記第2のNNモジュールは、前記1つ以上のMLPによって生成された前記勾配情報に基づいて、前記修正されたグラフを出力するように構成されている、
請求項23に記載のNNBD。
【請求項31】
前記修正されたグラフによって示される前記トポロジ情報に従って、(1)前記入力データ表現で表される1つ以上のオブジェクト、(2)前記オブジェクトの数、(3)前記入力データ表現で表されるオブジェクト表面、又は(4)前記入力データ表現で表されるオブジェクトに関連する動きベクトルのうちのいずれかを識別するように構成されている、請求項23に記載のNNBD。
【請求項32】
前記コードワードは、オブジェクト又は複数のオブジェクトを有するシーンを表す記述子ベクトルである、請求項23に記載のNNBD。
【請求項33】
前記初期グラフ及び前記修正されたグラフは、2次元(2D)点セットであり、
前記入力データ表現は点群であり、
前記第1のNNモジュールは、前記記述子ベクトルと、平面内の所定のサンプリングで初期化された前記2D点セットとに基づいて変形動作を実行するように構成されている、
請求項23に記載のNNBD。
【請求項34】
前記第1のNNモジュールは、前記点群の前記予備的再構築を生成するように構成されている、請求項33に記載のNNBD。
【請求項35】
前記第2のNNモジュールは、前記修正されたグラフを生成するために、前記点群、前記記述子ベクトル、及び前記初期グラフの前記予備的再構築に基づいて、分割動作を実行するように構成されている、請求項33に記載のNNBD。
【請求項36】
前記第2のNNモジュールは、前記修正されたグラフを局所接続グラフとして生成するように構成され、
前記NNBDは、前記入力データ表現の前記精緻化された再構築に対してグラフフィルタリングを実行し、前記入力データ表現の前記フィルタリングされ精緻化された再構築を、前記入力データ表現の最終再構築として出力するように構成されている、
請求項34に記載のNNBD。
【請求項37】
前記局所接続グラフは、前記初期グラフ又は閾値を上回る割り当てられた重みを有する前記修正されたグラフ内の最近傍のグラフエッジに基づいて構築される、請求項36に記載のNNBD。
【請求項38】
前記NNBDは、前記入力データ表現の前記最終再構築がグラフ領域において平滑化されるように、平滑化され再構築された入力データ表現を生成するように構成されている、請求項36に記載のNNBD。
【請求項39】
前記NNBDは、2段階訓練動作に従って前記NNBD内のニューラルネットワーク重みを設定するように更に構成されている、請求項23に記載のNNBD。
【請求項40】
前記2段階訓練動作の前記第1の段階において、前記NNBDは、第1の段階の損失関数に含まれるスーパーセット距離を使用して前記第1のNNモジュールを訓練するように構成され、
前記2段階訓練動作の前記第2の段階において、前記NNBDは、サブセット距離及び前記スーパーセット距離に基づいて、第2の段階の損失関数に含まれる面取り距離を使用して、前記第1のNNモジュール及び前記第2のNNモジュールを訓練するように構成されている、
請求項39に記載のNNBD。
【請求項41】
前記初期グラフは、各点が2D位置を示す点の行列を含む2Dグリッドであり、
前記2Dグリッドは多様体に関連し、各点は前記多様体上の固定位置を示し、
前記2Dグリッドは、2D平面からサンプリングされた点の固定セットである、
請求項23に記載のNNBD。
【請求項42】
前記NNBDは、
K×Dコードワード行列を生成するために、前記受信又は取得したコードワードをK回複製することであって、Kは前記初期グラフ内のノードの数であり、Dは前記コードワードの長さである、ことと、
前記K×Dコードワード行列と前記初期グラフとをKxN行列として連結して、Kx(D+N)連結行列を生成することと、
前記連結行列を前記NNBDの1つ以上の畳み込みニューラルネットワーク(CNN)又は多層パーセプトロン(MLP)に入力することと、
前記連結行列から前記NNBDの前記1つ以上のCNN又はMLPによって、前記修正されたグラフを生成することと、
前記修正されたグラフに基づいて前記入力データ表現の前記精緻化された再構築を更新して、前記入力データ表現の最終再構築を生成することと、を実行するように構成されている、請求項41に記載のNNBD。
【請求項43】
前記NNBDは、
前記コードワード行列を、連結された中間行列として、CNN層又はMLP層の第1のセットの前記出力に連結することと、
前記連結された中間行列を、CNN層又はMLP層の前記第1のセットに続くCNN層又はMLP層の次のセットに入力することと、を実行するように構成されている、請求項42に記載のNNBD。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2020年6月1日に出願され、2020年7月2日に再出願された米国特許出願第63/047,446号に対する優先権の利益を主張し、その内容は、本明細書に完全に記載されているかのように参照により組み込まれる。
【0002】
本明細書に開示される実施形態は、概して、データ表現の処理及び/又は圧縮及び再構築のためのオートエンコーダに関し、例えば、学習トポロジフレンドリ表現を使用して、例えば、点群(PC)、ビデオ、画像、及びオーディオを含むデータ表現を処理、分析、補間、表現、及び/又は理解するための方法、装置、及びシステムに関する。
【発明を実施するための形態】
【0003】
特定の実施形態では、教師なし学習プロセス、動作、方法、及び/又は機能は、とりわけ、TearingNet又はグラフ条件付きオートエンコーダ(GCAE)を使用して、例えば3D PC及び/又は他の実装形態のために実装され得る。例えば、教師なし学習動作は、ラベリング情報なしの、とりわけ、3D PC、ビデオ、画像、及び/又はオーディオのコンパクト表現の学習を含み得る。このように、代表的な特徴は、3D PC及び/又は他のデータ表現から抽出(例えば、自動的に抽出)されてもよく、補助情報及び/又は事前情報として任意の後続タスクに適用されてもよい。大量のデータ(例えば、PCデータ又は他のデータ)をラベル付けすることは、時間がかかることがあり、及び/又は高価であることがあるので、教師なし学習は有益であり得る。
【0004】
特定の実施形態では、オートエンコーダは、例えば、そのコンパクト表現及び/又はセマンティック記述子に基づいて、PCを再構築するために実装されてもよい。例えば、オブジェクトに対応するセマンティック記述子が与えられると、特定のオブジェクトを表すPCが復元され得る。そのような再構築は、一般的な教師なし学習フレームワーク(例えば、オートエンコーダ)内のデコーダとして実装(例えば、フィッティング)され得、ここで、エンコーダは、意味解釈をもつ特徴記述子を出力し得る。
【0005】
特定の実施形態では、オートエンコーダは、例えば、(例えば、トポロジ推論及び/又はトポロジ情報を介して)トポロジを考慮/使用するために実装され得る。PC再構築を扱う場合、グラフトポロジは、点間の関係を決定/考慮(例えば、明示的に決定/考慮)するために実装され得る。完全に接続されたグラフトポロジは、オブジェクト表面に追従しないため、PCトポロジの表現においてかなり不正確である可能性があり、高い種数を有するオブジェクト及び/又は複数のオブジェクトを有するシーンを扱う場合にはあまり効果的でない可能性がある。再構築されたPC内のN個の所与の点において、学習すべきN個のグラフパラメータ(グラフ重み)があるため、完全なグラフの学習はコストがかかる場合があり、及び/又は大量のメモリ及び/又は計算を使用する場合がある。
【0006】
いくつかの実施形態では、方法、装置、システム、及び/又は手順は、PCトポロジ表現を学習する(例えば、効果的に学習する)ように実装され得る。実装は、複雑なオブジェクト/シーンのためのPCの再構築において有益であり得るだけでなく、とりわけ、分類、セグメント化、及び/又は認識における弱教師ありPCタスクにも適用され得る。
【図面の簡単な説明】
【0007】
より詳細な理解は、以下の詳細な説明から、例示として添付の図面と併せて与えられ得る。説明中の図は例である。したがって、図及び詳細な説明は限定的であるとみなされるべきではなく、他の同様に効果的な例が可能であり、可能性が高い。また、図中の同様の参照番号は、同様の要素を示している。
図1A】1つ以上の開示された実施形態が実装され得る、例示的な通信システムを示すシステム図である。
図1B】一実施形態による、図1Aに示される通信システム内で使用され得る、例示的な無線送信/受信ユニット(WTRU)を示すシステム図である。
図1C】一実施形態による、図1Aに示される通信システム内で使用され得る、例示的な無線アクセスネットワーク(radio access network、RAN)及び例示的なコアネットワーク(core network、CN)を示すシステム図である。
図1D】一実施形態による、図1Aに示される通信システム内で使用され得る、更なる例示的なRAN及び更なる例示的なCNを示すシステム図である。
図2】代表的なオートエンコーダ(例えば、FoldingNet)を示す図である。
図3】別の代表的なオートエンコーダ(例えば、AtlasNet)を示す図である。
図4】更なる代表的なオートエンコーダ(例えば、FoldingNet++)を示す図である。
図5】例えばTearing Network(T-Net)モジュールを有する追加の代表的なオートエンコーダ(例えば、TearingNet)を示す図である。
図6】代表的なT-Netモジュールを示す図である。
図7A】入力PCと、結果として生じる引き裂かれた2Dグリッドと、再構築されたPCの一例を示す図である。
図7B】入力PCと、結果として生じる引き裂かれた2Dグリッドと、再構築されたPCの一例を示す図である。
図7C】入力PCと、結果として生じる引き裂かれた2Dグリッドと、再構築されたPCの一例を示す図である。
図8】例えばPC用のT-Netモジュールを使用する代表的なGCAEオートエンコーダを示す図である。
図9】例えば、一般化された動作において使用するための(例えば、とりわけ、PC、画像、ビデオ、及び/又はオーディオと共に使用するためなどの)T-Netモジュールを使用する代表的なGCAEを示す図である。
図10】(例えば、ニューラルネットワークベースのデコーダ(NNBD)によって実装される)代表的な方法を示すブロック図である。
図11】多段階訓練動作を使用する代表的な訓練方法を示すブロック図である。
図12】別の代表的な方法(例えば、NNBDによって実装される)を示すブロック図である。
図13】例えば、符号化ネットワーク(E-Net)モジュール及びNNBDを含む、(例えば、ニューラルネットワークベースのオートエンコーダ(NNBAE)によって実装される)更なる代表的な方法を示すブロック図である。
図14】追加の代表的な方法(例えば、NNBDによって実装される)を示すブロック図である。
図15】多段階訓練動作を使用する(例えば、ニューラルネットワーク(NN)によって実装される)別の代表的な訓練方法を示すブロック図である。
図16】(例えば、E-Netモジュール及びNNBDを含むNNBAEによって実装される)更に別の代表的な方法を示すブロック図である。 (発明を実施するための形態)
【0008】
実施形態を実施するための例示的なネットワーク
図1Aは、1つ以上の開示された実施形態が実装され得る、例示的な通信システム100を示す図である。通信システム100は、音声、データ、ビデオ、メッセージ伝達、ブロードキャストなどのコンテンツを、複数の無線ユーザに提供する、多重アクセスシステムであり得る。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じて、上記のようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム100は、符号分割多重アクセス(code division multiple access、CDMA)、時分割多重アクセス(time division multiple access、TDMA)、周波数分割多重アクセス(frequency division multiple access、FDMA)、直交FDMA(orthogonal FDMA、OFDMA)、シングルキャリアFDMA(single-carrier FDMA、SC-FDMA)、ゼロテールユニークワードDFT-Spread OFDM(zero-tail unique-word DFT-Spread OFDM、ZT UW DTS-s OFDM)、ユニークワードOFDM(unique word OFDM、UW-OFDM)、リソースブロックフィルタ処理OFDM、フィルタバンクマルチキャリア(filter bank multicarrier、FBMC)などの、1つ以上のチャネルアクセス方法を採用し得る。
【0009】
図1Aに示されるように、通信システム100は、無線送信/受信ユニット(WTRU)102a、102b、102c、102dと、RAN104/113と、CN106/115と、公衆交換電話網(public switched telephone network、PSTN)108と、インターネット110と、他のネットワーク112とを含み得るが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、及び/又はネットワーク要素を企図していることが理解されよう。WTRU102a、102b、102c、102dの各々は、無線環境において動作し、かつ/又は通信するように構成された、任意のタイプのデバイスであり得る。例として、それらのいずれも「局」及び/又は「STA」と称され得るWTRU102a、102b、102c、102dは、無線信号を送信及び/又は受信するように構成され得、ユーザ機器(user equipment、UE)、移動局、固定又は移動加入者ユニット、加入ベースのユニット、ページャ、セルラ電話、携帯情報端末(personal digital assistant、PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット又はMi-Fiデバイス、モノのインターネット(Internet of Things、IoT)デバイス、ウォッチ又は他のウェアラブル、ヘッドマウントディスプレイ(HMD)、車両、ドローン、医療デバイス及びアプリケーション(例えば、遠隔手術)、工業用デバイス及びアプリケーション(例えば、工業用及び/又は自動処理チェーンコンテキストで動作するロボット及び/又は他の無線デバイス)、家電デバイス、商業用及び/又は工業用無線ネットワークで動作するデバイスなどを含み得る。WTRU102a、102b、102c、及び102dのいずれも、互換的にUEと称され得る。
【0010】
通信システム100はまた、基地局114a及び/又は基地局114bを含み得る。基地局114a、114bの各々は、CN106/115、インターネット110、及び/又は他のネットワーク112など、1つ以上の通信ネットワークへのアクセスを容易にするために、WTRU102a、102b、102c、102dのうちの少なくとも1つと無線でインターフェース接続するように構成された、任意のタイプのデバイスであり得る。例として、基地局114a、114bは、基地局トランシーバ(base transceiver station、BTS)、ノードB、eNodeB(eNB)、ホームノードB(HNB)、ホームeNodeB(HeNB)、gNB、NR NodeB、サイトコントローラ、アクセスポイント(access point、AP)、無線ルータなどであり得る。基地局114a、114bは各々単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局及び/又はネットワーク要素を含み得ることが理解されるであろう。
【0011】
基地局114aは、基地局コントローラ(base station controller、BSC)、無線ネットワークコントローラ(radio network controller、RNC)、リレーノードなど、他の基地局及び/又はネットワーク要素(図示せず)も含み得る、RAN104/113の一部であり得る。基地局114a及び/又は基地局114bは、セル(図示せず)と称され得る、1つ以上のキャリア周波数で無線信号を送信及び/又は受信するように構成され得る。これらの周波数は、認可スペクトル、未認可スペクトル、又は認可及び未認可スペクトルの組み合わせであり得る。セルは、相対的に固定され得るか又は経時的に変化し得る特定の地理的エリアに、無線サービスのカバレッジを提供し得る。セルは、更にセルセクタに分割され得る。例えば、基地局114aと関連付けられたセルは、3つのセクタに分割され得る。したがって、一実施形態では、基地局114aは、3つのトランシーバを、すなわち、セルのセクタごとに1つのトランシーバを含み得る。一実施形態では、基地局114aは、多重入力多重出力(multiple-input multiple output、MIMO)技術を用い得、セルのセクタごとに複数のトランシーバを利用し得る。例えば、ビームフォーミングを使用して、所望の空間方向に信号を送信及び/又は受信し得る。
【0012】
基地局114a、114bは、エアインターフェース116を介して、WTRU102a、102b、102c、102dのうちの1つ以上と通信し得るが、このエアインターフェース116は、任意の好適な無線通信リンク(例えば、無線周波数(radio frequency、RF)、マイクロ波、センチメートル波、マイクロメートル波、赤外線(infrared、IR)、紫外線(ultraviolet、UV)、可視光など)であり得る。エアインターフェース116は、任意の好適な無線アクセス技術(radio access technology、RAT)を使用して確立され得る。
【0013】
より具体的には、上記のように、通信システム100は、多重アクセスシステムであり得、例えば、CDMA、TDMA、FDMA、OFDMA、SC-FDMAなどの、1つ以上のチャネルアクセススキームを用い得る。例えば、RAN104/113内の基地局114a、及びWTRU102a、102b、102cは、ユニバーサル移動体通信システム(Universal Mobile Telecommunications System、UMTS)地上無線アクセス(UMTS Terrestrial Radio Access、UTRA)などの無線技術を実装し得、これは広帯域CDMA(wideband CDMA、WCDMA)を使用してエアインターフェース115/116/117を確立し得る。WCDMAは、高速パケットアクセス(High-Speed Packet Access、HSPA)及び/又は進化型HSPA(HSPA+)などの通信プロトコルを含み得る。HSPAは、高速ダウンリンク(Downlink、DL)パケットアクセス(High-Speed Downlink Packet Access、HSDPA)及び/又は高速アップリンクパケットアクセス(High-Speed UL Packet Access、HSUPA)を含み得る。
【0014】
一実施形態では、基地局114a及びWTRU102a、102b、102cは、進化型UMTS地上無線アクセス(Evolved UMTS Terrestrial Radio Access、E-UTRA)などの無線技術を実装し得るが、これは、ロングタームエボリューション(LTE)及び/又はLTE-Advanced(LTE-A)及び/又はLTE-Advanced Pro(LTE-A Pro)を使用してエアインターフェース116を確立し得る。
【0015】
一実施形態では、基地局114a及びWTRU102a、102b、102cは、NR無線アクセスなどの無線技術を実装することができ、この技術は、New Radio(NR)を使用してエアインターフェース116を確立することができる。
【0016】
一実施形態では、基地局114a及びWTRU102a、102b、102cは、複数の無線アクセス技術を実装し得る。例えば、基地局114a及びWTRU102a、102b、102cは、例えば、デュアルコネクティビティ(dual connectivity、DC)原理を使用して、LTE無線アクセス及びNR無線アクセスを一緒に実装し得る。したがって、WTRU102a、102b、102cによって利用されるエアインターフェースは、複数のタイプの基地局(例えば、eNB及びgNB)に/から送信される複数のタイプの無線アクセス技術及び/又は送信によって特徴付けられ得る。
【0017】
他の実施形態では、基地局114a及びWTRU102a、102b、102cは、IEEE802.11(すなわち、無線フィデリティ(Wireless Fidelity、WiFi)、IEEE802.16(すなわち、ワイマックス(Worldwide Interoperability for Microwave Access、WiMAX)、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暫定規格2000(IS-2000)、暫定規格95(IS-95)、暫定規格856(IS-856)、汎欧州デジタル移動電話方式(Global System for Mobile communications、GSM)、GSM進化型高速データレート(Enhanced Data rates for GSM Evolution、EDGE)、GSM EDGE(GERAN)などの無線技術を実装し得る。
【0018】
図1Aの基地局114bは、例えば、無線ルータ、ホームノードB、ホームeNode B又はアクセスポイントであり得、事業所、家庭、車両、キャンパス、工業施設、(例えば、ドローンによる使用のための)空中回廊、道路などの場所などの局所的エリアにおける無線接続を容易にするために、任意の好適なRATを利用し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.11などの無線技術を実装して、無線ローカルエリアネットワーク(wireless local area network、WLAN)を確立し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.15などの無線技術を実装して、無線パーソナルエリアネットワーク(wireless personal area network、WPAN)を確立し得る。更に別の一実施形態では、基地局114b及びWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NRなど)を利用して、ピコセル又はフェムトセルを確立し得る。図1Aに示すように、基地局114bは、インターネット110への直接接続を有し得る。したがって、基地局114bは、CN106/115を介してインターネット110にアクセスする必要がない場合がある。
【0019】
RAN104/113は、CN106/115と通信し得、これは、音声、データ、アプリケーション、及び/又はボイスオーバインターネットプロトコル(voice over internet protocol、VoIP)サービスをWTRU102a、102b、102c、102dのうちの1つ以上に提供するように構成された、任意のタイプのネットワークであり得る。データは、例えば、異なるスループット要件、待ち時間要件、エラー許容要件、信頼性要件、データスループット要件、モビリティ要件などの、様々なサービス品質(quality of service、QoS)要件を有し得る。CN106/115は、呼制御、支払い請求サービス、移動体位置ベースのサービス、プリペイド呼、インターネット接続性、ビデオ配信などを提供し、かつ/又はユーザ認証などの高レベルセキュリティ機能を実行し得る。図1Aには示されていないが、RAN104/113及び/又はCN106/115は、RAN104/113と同じRAT又は異なるRATを採用する他のRANと、直接又は間接的に通信し得ることが理解されよう。例えば、NR無線技術を利用し得るRAN104/113に接続されていることに加えて、CN106/115はまた、GSM、UMTS、CDMA2000、WiMAX、E-UTRA、又はWiFi無線技術を採用して別のRAN(図示せず)と通信し得る。
【0020】
CN106/115はまた、PSTN108、インターネット110、及び/又は他のネットワーク112にアクセスするために、WTRU102a、102b、102c、102dのためのゲートウェイとしての機能を果たし得る。PSTN108は、基本電話サービス(plain old telephone service、POTS)を提供する公衆交換電話網を含み得る。インターネット110は、相互接続されたコンピュータネットワーク及びデバイスのグローバルシステムを含み得るが、これらのネットワーク及びデバイスは、送信制御プロトコル(transmission control protocol、TCP)、ユーザデータグラムプロトコル(user datagram protocol、UDP)、及び/又はTCP/IPインターネットプロトコルスイートのインターネットプロトコル(internet protocol、IP)などの、共通通信プロトコルを使用する。ネットワーク112は、他のサービスプロバイダによって所有及び/又は運営される、有線及び/又は無線通信ネットワークを含み得る。例えば、ネットワーク112は、RAN104/113と同じRAT又は異なるRATを採用し得る、1つ以上のRANに接続された別のCNを含み得る。
【0021】
通信システム100におけるWTRU102a、102b、102c、102dのいくつか又は全ては、マルチモード能力を含み得る(例えば、WTRU102a、102b、102c、102dは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数のトランシーバを含み得る)。例えば、図1Aに示されるWTRU102cは、セルラベースの無線技術を用い得る基地局114a、及びIEEE802無線技術を用い得る基地局114bと通信するように構成され得る。
【0022】
図1Bは、例示的なWTRU102を示すシステム図である。図1Bに示すように、WTRU102は、とりわけ、プロセッサ118、トランシーバ120、送信/受信要素122、スピーカ/マイクロフォン124、キーパッド126、ディスプレイ/タッチパッド128、非リムーバブルメモリ130、リムーバブルメモリ132、電源134、全地球測位システム(global positioning system、GPS)チップセット136、及び/又は他の周辺機器138を含み得る。WTRU102は、一実施形態との一貫性を有したまま、前述の要素の任意の部分的組み合わせを含み得ることが理解されよう。
【0023】
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、複数のマイクロプロセッサ、DSPコアと関連付けられた1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)回路、任意の他のタイプの集積回路(integrated circuit、IC)、状態機械などであり得る。プロセッサ118は、信号コーディング、データ処理、電力制御、入力/出力処理、及び/又はWTRU102が無線環境で動作することを可能にする任意の他の機能性を実行し得る。プロセッサ118は、送信/受信要素122に結合され得るトランシーバ120に結合され得る。図1Bは、プロセッサ118及びトランシーバ120を別個のコンポーネントとして示すが、プロセッサ118及びトランシーバ120は、電子パッケージ又はチップにおいて一緒に統合され得るということが理解されよう。
【0024】
送信/受信要素122は、エアインターフェース116を介して基地局(例えば、基地局114a)に信号を送信するか又は基地局(例えば、基地局114a)から信号を受信するように構成され得る。例えば、一実施形態では、送信/受信要素122は、RF信号を送信及び/又は受信するように構成されたアンテナであり得る。一実施形態では、送信/受信要素122は、例えば、IR、UV又は可視光信号を送信及び/又は受信するように構成されたエミッタ/検出器であり得る。更に別の実施形態では、送信/受信要素122は、RF信号及び光信号の両方を送信及び/又は受信するように構成され得る。送信/受信要素122は、無線信号の任意の組み合わせを送信及び/又は受信するように構成され得るということが理解されよう。
【0025】
送信/受信要素122は、単一の要素として図1Bに示されているが、WTRU102は、任意の数の送信/受信要素122を含み得る。より具体的には、WTRU102は、MIMO技術を用い得る。したがって、一実施形態では、WTRU102は、エアインターフェース116を介して無線信号を送受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含み得る。
【0026】
トランシーバ120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信される信号を復調するように構成され得る。上記のように、WTRU102は、マルチモード能力を有し得る。したがって、トランシーバ120は、例えばNR及びIEEE802.11などの複数のRATを介してWTRU102が通信することを可能にするための複数のトランシーバを含み得る。
【0027】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128(例えば、液晶ディスプレイ(liquid crystal display、LCD)表示ユニット若しくは有機発光ダイオード(organic light-emitting diode、OLED)表示ユニット)に結合され得、これらからユーザが入力したデータを受信し得る。プロセッサ118はまた、ユーザデータをスピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128に出力し得る。更に、プロセッサ118は、非リムーバブルメモリ130及び/又はリムーバブルメモリ132などの任意のタイプの好適なメモリから情報にアクセスし、当該メモリにデータを記憶し得る。非リムーバブルメモリ130は、ランダムアクセスメモリ(random-access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、ハードディスク又は任意の他のタイプのメモリ記憶デバイスを含み得る。リムーバブルメモリ132は、加入者識別モジュール(subscriber identity module、SIM)カード、メモリスティック、セキュアデジタル(secure digital、SD)メモリカードなどを含み得る。他の実施形態では、プロセッサ118は、サーバ又はホームコンピュータ(図示せず)上など、WTRU102上に物理的に配置されていないメモリの情報にアクセスし、かつ当該メモリにデータを記憶し得る。
【0028】
プロセッサ118は、電源134から電力を受信し得るが、WTRU102における他の構成要素に電力を分配し、かつ/又は制御するように構成され得る。電源134は、WTRU102に電力を供給するための任意の好適なデバイスであり得る。例えば、電源134は、1つ以上の乾電池(例えば、ニッケルカドミウム(nickel-cadmium、NiCd)、ニッケル亜鉛(nickel-zinc、NiZn)、ニッケル金属水素化物(nickel metal hydride、NiMH)、リチウムイオン(lithium-ion、Li-ion)など)、太陽セル、燃料セルなどを含み得る。
【0029】
プロセッサ118はまた、GPSチップセット136に結合され得、これは、WTRU102の現在の場所に関する場所情報(例えば、経度及び緯度)を提供するように構成され得る。GPSチップセット136からの情報に加えて又はその代わりに、WTRU102は、基地局(例えば、基地局114a、114b)からエアインターフェース116を介して場所情報を受信し、かつ/又は2つ以上の近くの基地局から受信されている信号のタイミングに基づいて、その場所を判定し得る。WTRU102は、一実施形態との一貫性を有したまま、任意の好適な位置判定方法によって位置情報を取得し得るということが理解されよう。
【0030】
プロセッサ118は、他の周辺機器138に更に結合され得、他の周辺機器138には、追加の特徴、機能、及び/又は有線若しくは無線接続を提供する1つ以上のソフトウェア及び/又はハードウェアモジュールが含まれ得る。例えば、周辺機器138には、加速度計、電子コンパス、衛星トランシーバ、(写真及び/又はビデオのための)デジタルカメラ、ユニバーサルシリアルバス(universal serial bus、USB)ポート、振動デバイス、テレビトランシーバ、ハンズフリーヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(frequency modulated、FM)無線ユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実及び/又は拡張現実(Virtual Reality/Augmented Reality、VR/AR)デバイス、アクティビティトラッカなどが含まれ得る。周辺機器138は、1つ以上のセンサを含み得、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方位センサ、近接センサ、温度センサ、時間センサ、ジオロケーションセンサ、高度計、光センサ、タッチセンサ、磁力計、気圧計、ジェスチャセンサ、生体認証センサ、及び/又は湿度センサのうちの1つ以上であり得る。
【0031】
WTRU 102のプロセッサ118は、本明細書で開示される代表的な実施形態を実装するために、例えば、1つ以上の加速度計、1つ以上のジャイロスコープ、USBポート、他の通信インターフェース/ポート、ディスプレイ及び/又は他の視覚/音声インジケータのうちのいずれかを含む様々な周辺機器138と動作可能に通信することができる。
【0032】
WTRU102は、(例えば、(例えば、送信のための)UL及び(例えば、受信のための)DLの両方の特定のサブフレームと関連付けられた)信号の一部又は全部の送受信が、同時及び/又は一緒であり得る、全二重無線機を含み得る。全二重無線機は、ハードウェア(例えば、チョーク)又はプロセッサを介した信号処理(例えば、別個のプロセッサ(図示せず)又はプロセッサ118を介して)を介して自己干渉を低減し、かつ又は実質的に排除するための干渉管理ユニットを含み得る。一実施形態では、WTRU102は、(例えば、(例えば、送信のための)UL又は(例えば、受信のための)DLのいずれかの特定のサブフレームと関連付けられた)信号の一部又は全部の送受信の半二重無線機を含み得る。
【0033】
図1Cは、一実施形態によるRAN104及びCN106を図示するシステム図である。上記のように、RAN104は、E-UTRA無線技術を用いて、エアインターフェース116を介してWTRU102a、102b、102cと通信し得る。RAN104はまた、CN106と通信し得る。
【0034】
RAN104は、eNodeB160a、160b、160cを含み得るが、RAN104は、一実施形態との一貫性を有しながら、任意の数のeNodeBを含み得るということが理解されよう。eNodeB160a、160b、160cは各々、エアインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、eNodeB160a、160b、160cは、MIMO技術を実装し得る。したがって、eNodeB160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、かつ/又はWTRU102aから無線信号を受信し得る。
【0035】
eNodeB160a、160b、160cの各々は、特定のセル(図示せず)と関連付けられ得、UL及び/又はDLにおいて、無線リソース管理決定、ハンドオーバ決定、ユーザのスケジューリングなどを処理するように構成され得る。図1Cに示すように、eNodeB160a、160b、160cは、X2インターフェースを介して互いに通信し得る。
【0036】
図1Cに示されるCN106は、モビリティ管理エンティティ(mobility management entity、MME)162、サービングゲートウェイ(serving gateway、SGW)164、及びパケットデータネットワーク(packet data network、PDN)ゲートウェイ(又はPGW)166を含み得る。前述の要素の各々は、CN106の一部として示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は操作され得ることが理解されよう。
【0037】
MME162は、S1インターフェースを介して、RAN104内のeNodeB160a、160b、160cの各々に接続され得、制御ノードとして機能し得る。例えば、MME162は、WTRU102a、102b、102cのユーザを認証すること、ベアラのアクティブ化/非アクティブ化、WTRU102a、102b、102cの初期アタッチ中に特定のサービス中のゲートウェイを選択すること、などの役割を果たし得る。MME162は、RAN104と、GSM及び/又はWCDMAなどの他の無線技術を採用する他のRAN(図示せず)との間で切り替えるための制御プレーン機能を提供し得る。
【0038】
SGW164は、S1インターフェースを介してRAN104におけるeNode-B160a、160b、160cの各々に接続され得る。SGW164は、概して、ユーザデータパケットをWTRU102a、102b、102cに/からルーティングし、転送し得る。SGW164は、eNode-B間ハンドオーバ中にユーザプレーンをアンカする機能、DLデータがWTRU102a、102b、102cに利用可能であるときにページングをトリガする機能、WTRU102a、102b、102cのコンテキストを管理及び記憶する機能などの、他の機能を実行し得る。
【0039】
SGW164は、PGW166に接続され得、PGW166は、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。
【0040】
CN106は、他のネットワークとの通信を容易にし得る。例えば、CN106は、WTRU102a、102b、102cと従来の地上回線通信デバイスとの間の通信を容易にするために、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。例えば、CN106は、CN106とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IP multimedia subsystem、IMS)サーバ)を含み得るか、又はそれと通信し得る。更に、CN106は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、他のネットワーク112は、他のサービスプロバイダによって所有及び/又は動作される他の有線及び/又は無線ネットワークを含み得る。
【0041】
WTRUは、無線端末として図1A図1Dに記載されているが、特定の代表的な実施形態では、そのような端末は、通信ネットワークとの(例えば、一時的又は永久的に)有線通信インターフェースを使用し得ることが企図される。
【0042】
代表的な実施形態では、他のネットワーク112は、WLANであり得る。
【0043】
インフラストラクチャ基本サービスセット(Basic Service Set、BSS)モードのWLANは、BSSのアクセスポイント(AP)及びAPと関連付けられた1つ以上のステーション(station、STA)を有し得る。APは、配信システム(Distribution System、DS)若しくはBSSに入る、かつ/又はBSSから出るトラフィックを搬送する別のタイプの有線/無線ネットワークへのアクセス又はインターフェースを有し得る。BSS外から生じる、STAへのトラフィックは、APを通って到達し得、STAに配信され得る。STAからBSS外の宛先への生じるトラフィックは、APに送信されて、それぞれの宛先に送信され得る。BSS内のSTAどうしの間のトラフィックは、例えば、APを介して送信され得、ソースSTAは、APにトラフィックを送信し得、APは、トラフィックを宛先STAに配信し得。BSS内のSTA間のトラフィックは、ピアツーピアトラフィックとしてみなされ、かつ/又は参照され得る。ピアツーピアトラフィックは、ソースSTAと宛先STAとの間で(例えば、それらの間で直接的に)、直接リンクセットアップ(direct link setup、DLS)で送信され得る。特定の代表的な実施形態では、DLSは、802.11e DLS又は802.11zトンネル化DLS(tunneled DLS、TDLS)を使用し得る。独立BSS(Independent BSS、IBSS)モードを使用するWLANは、APを有しない場合があり、IBSS内又はそれを使用するSTA(例えば、STAの全部)は、互いに直接通信し得る。通信のIBSSモードは、本明細書では、「アドホック」通信モードと称され得る。
【0044】
802.11acインフラストラクチャ動作モード又は同様の動作モードを使用するときに、APは、プライマリチャネルなどの固定チャネル上にビーコンを送信し得る。一次チャネルは、固定幅(例えば、20MHz幅の帯域幅)又はシグナリングを介して動的に設定される幅であり得る。プライマリチャネルは、BSSの動作チャネルであり得、APとの接続を確立するためにSTAによって使用され得る。特定の代表的な実施形態では、例えば、802.11システムにおいて、衝突回避を備えたキャリア感知多重アクセス(Carrier Sense Multiple Access/Collision Avoidance、CSMA/CA)が実装され得る。CSMA/CAの場合、APを含むSTA(例えば、全てのSTA)は、プライマリチャネルを感知し得る。プライマリチャネルが特定のSTAによってビジーであると感知され/検出され、かつ/又は判定される場合、特定のSTAはバックオフされ得る。1つのSTA(例えば、1つのステーションのみ)は、所与のBSSにおいて、任意の所与の時間に送信し得る。
【0045】
高スループット(High Throughput、HT)STAは、通信のための40MHz幅のチャネルを使用し得るが、この40MHz幅のチャネルは、例えば、プライマリ20MHzチャネルと、隣接又は非隣接の20MHzチャネルとの組み合わせを介して形成され得る。
【0046】
非常に高いスループット(Very High Throughput、VHT)のSTAは、20MHz、40MHz、80MHz、及び/又は160MHz幅のチャネルをサポートし得る。上記の40MHz及び/又は80MHz幅のチャネルは、連続する20MHzチャネルどうしを組み合わせることによって形成され得る。160MHzチャネルは、8つの連続する20MHzチャネルを組み合わせることによって、又は80+80構成と称され得る2つの連続していない80MHzチャネルを組み合わせることによって、形成され得る。80+80構成の場合、チャネル符号化後、データは、データを2つのストリームに分割し得るセグメントパーサを通過し得る。逆高速フーリエ変換(Inverse Fast Fourier Transform、IFFT)処理及び時間ドメイン処理は、各ストリームで別々に行われ得る。ストリームは、2つの80MHzチャネルにマッピングされ得、データは、送信STAによって送信され得る。受信STAの受信機では、80+80構成に対する上記で説明される動作を逆にされ得、組み合わされたデータを媒体アクセス制御(Medium Access Control、MAC)に送信し得る。
【0047】
サブ1GHzの動作モードは、802.11af及び802.11ahによってサポートされる。チャネル動作帯域幅及びキャリアは、802.11n及び802.11acで使用されるものと比較して、802.11af及び802.11ahでは低減される。802.11afは、TVホワイトスペース(TV White Space、TVWS)スペクトルにおいて、5MHz、10MHz及び20MHz帯域幅をサポートし、802.11ahは、非TVWSスペクトルを使用して、1MHz、2MHz、4MHz、8MHz、及び16MHz帯域幅をサポートする。代表的な実施形態によれば、802.11ahは、マクロカバレッジエリア内のMTCデバイスなど、メータタイプの制御/マシンタイプ通信をサポートし得る。MTCデバイスは、例えば、特定の、かつ/又は限定された帯域幅のためのサポート(例えば、そのためのみのサポート)を含む、特定の能力を有し得る。MTCデバイスは、(例えば、非常に長いバッテリ寿命を維持するために)閾値を超えるバッテリ寿命を有するバッテリを含み得る。
【0048】
複数のチャネル、並びに802.11n、802.11ac、802.11af、及び802.11ahなどのチャネル帯域幅をサポートし得るWLANシステムは、プライマリチャネルとして指定され得るチャネルを含む。プライマリチャネルは、BSSにおける全てのSTAによってサポートされる最大共通動作帯域幅に等しい帯域幅を有し得る。プライマリチャネルの帯域幅は、最小帯域幅動作モードをサポートするBSSで動作する全てのSTAの中から、STAによって設定され、かつ/又は制限され得る。802.11ahの例では、プライマリチャネルは、AP及びBSSにおける他のSTAが2MHz、4MHz、8MHz、16MHz、及び/又は他のチャネル帯域幅動作モードをサポートする場合であっても、1MHzモードをサポートする(例えば、それのみをサポートする)STA(例えば、MTCタイプデバイス)に対して1MHz幅であり得る。キャリア感知及び/又はネットワーク配分ベクトル(Network Allocation Vector、NAV)設定は、プライマリチャネルの状態に依存し得る。例えば、APに送信する(1MHz動作モードのみをサポートする)STAに起因して一次チャネルがビジーである場合、周波数帯域の大部分がアイドルのままであり、利用可能であり得るとしても、利用可能な周波数帯域全体がビジーであるとみなされ得る。
【0049】
米国では、802.11ahにより使用され得る利用可能な周波数帯域は、902MHz~928MHzである。韓国では、利用可能な周波数帯域は917.5MHz~923.5MHzである。日本では、利用可能な周波数帯域は916.5MHz~927.5MHzである。802.11ahに利用可能な総帯域幅は、国のコードに応じて6MHz~26MHzである。
【0050】
図1Dは、一実施形態によるRAN113及びCN115を例解するシステム図である。上記のように、RAN113は、NR無線技術を用いて、エアインターフェース116を介してWTRU102a、102b、102cと通信し得る。RAN113はまた、CN115と通信し得る。
【0051】
RAN113は、gNB180a、180b、180cを含み得るが、RAN113は、一実施形態との一貫性を維持しながら、任意の数のgNBを含み得ることが理解されよう。gNB180a、180b、180cは各々、エアインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、gNB180a、180b、180cは、MIMO技術を実装し得る。例えば、gNB180a、180bは、ビームフォーミングを利用して、gNB180a、180b、180cに信号を送信及び/又は受信し得る。したがって、gNB180aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、かつ/又はWTRU102aから無線信号を受信し得る。一実施形態では、gNB180a、180b、180cは、キャリアアグリゲーション技術を実装し得る。例えば、gNB180aは、複数のコンポーネントキャリアをWTRU102a(図示せず)に送信し得る。これらのコンポーネントキャリアのサブセットは、未認可スペクトル上にあり得、残りのコンポーネントキャリアは、認可スペクトル上にあり得る。一実施形態では、gNB180a、180b、180cは、多地点協調(Coordinated Multi-Point、CoMP)技術を実装し得る。例えば、WTRU102aは、gNB180a及びgNB180b(及び/又はgNB180c)からの協調送信を受信し得る。
【0052】
WTRU102a、102b、102cは、拡張可能なヌメロロジと関連付けられた送信を使用して、gNB180a、180b、180cと通信し得る。例えば、OFDMシンボル間隔及び/又はOFDMサブキャリア間隔は、無線送信スペクトルの異なる送信、異なるセル、及び/又は異なる部分に対して変化し得る。WTRU102a、102b、102cは、(例えば、様々な数のOFDMシンボルを含む、かつ/又は様々な長さの絶対時間が持続する)様々な又はスケーラブルな長さのサブフレーム又は送信時間間隔(transmission time interval、TTI)を使用して、gNB180a、180b、180cと通信し得る。
【0053】
gNB180a、180b、180cは、スタンドアロン構成及び/又は非スタンドアロン構成でWTRU102a、102b、102cと通信するように構成され得る。スタンドアロン構成では、WTRU102a、102b、102cは、他のRAN(例えば、eNodeB160a、160b、160cなど)にアクセスすることなく、gNB180a、180b、180cと通信し得る。スタンドアロン構成では、WTRU102a、102b、102cは、モビリティアンカポイントとしてgNB180a、180b、180cのうちの1つ以上を利用し得る。スタンドアロン構成では、WTRU102a、102b、102cは、未認可バンドにおける信号を使用して、gNB180a、180b、180cと通信し得る。非スタンドアロン構成では、WTRU102a、102b、102cは、gNB180a、180b、180cと通信し、これらに接続する一方で、eNodeB160a、160b、160cなどの別のRANとも通信し、これらに接続し得る。例えば、WTRU102a、102b、102cは、1つ以上のgNB180a、180b、180c及び1つ以上のeNodeB160a、160b、160cと実質的に同時に通信するためのDC原理を実装し得る。非スタンドアロン構成では、eNodeB160a、160b、160cは、WTRU102a、102b、102cのモビリティアンカとして機能し得るが、gNB180a、180b、180cは、WTRU102a、102b、102cをサービスするための追加のカバレッジ及び/又はスループットを提供し得る。
【0054】
gNB180a、180b、180cの各々は、特定のセル(図示せず)と関連付けられ得、無線リソース管理決定、ハンドオーバ決定、UL及び/又はDLにおけるユーザのスケジューリング、ネットワークスライシングのサポート、デュアルコネクティビティ、NRとE-UTRAとの間のインターワーキング、ユーザプレーン機能(User Plane Function、UPF)184a、184bへのユーザプレーンデータのルーティング、アクセス及びモビリティ管理機能(Access and Mobility Management Function、AMF)182a、182bへの制御プレーン情報のルーティングなどを処理するように構成され得る。図1Dに示すように、gNB180a、180b、180cは、Xnインターフェースを介して互いに通信し得る。
【0055】
図1Dに示されるCN115は、少なくとも1つのAMF182a、182b、少なくとも1つのUPF184a、184b、少なくとも1つのセッション管理機能(Session Management Function、SMF)183a、183b、及び場合によってはデータネットワーク(Data Network、DN)185a、185bを含み得る。前述の要素の各々は、CN115の一部として示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は操作され得ることが理解されよう。
【0056】
AMF182a、182bは、N2インターフェースを介してRAN113におけるgNB180a、180b、180cのうちの1つ以上に接続され得、制御ノードとして機能し得る。例えば、AMF182a、182bは、WTRU102a、102b、102cのユーザ認証、ネットワークスライシングのためのサポート(例えば、異なる要件を有する異なるプロトコルデータユニット(Protocol Data Unit、PDU)セッションの処理)、特定のSMF183a、183bを選択すること、登録エリアの管理、NAS信号伝送の終了、モビリティ管理などの役割を果たし得る。ネットワークスライスは、WTRU102a、102b、102cを利用しているサービスのタイプに基づいて、WTRU102a、102b、102cのCNサポートをカスタマイズするために、AMF182a、182bによって使用され得る。例えば、異なるネットワークスライスは、高信頼低遅延(ultra-reliable low latency、URLLC)アクセスに依存するサービス、高速大容量(enhanced massive mobile broadband、eMBB)アクセスに依存するサービス、マシンタイプ通信(machine type communication、MTC)アクセスのためのサービス、及び/又は同様のものなどの異なる使用事例のために確立され得る。AMF162は、RAN113と、LTE、LTE-A、LTE-A Pro、及び/又はWiFiなどの非3GPPアクセス技術などの他の無線技術を採用する他のRAN(図示せず)との間で切り替えるための制御プレーン機能を提供し得る。
【0057】
SMF183a、183bは、N11インターフェースを介して、CN115内のAMF182a、182bに接続され得る。SMF183a、183bはまた、N4インターフェースを介して、CN115内のUPF184a、184bに接続され得る。SMF183a、183bは、UPF184a、184bを選択及び制御し、UPF184a、184bを通るトラフィックのルーティングを構成し得る。SMF183a、183bは、UE IPアドレスを管理及び配分する機能、PDUセッションを管理する機能、ポリシー実施及びQoSを制御する機能、DLデータ通知を提供する機能などのような、他の機能を実行し得る。PDUセッションタイプは、IPベース、非IPベース、イーサネットベースなどであり得る。
【0058】
UPF184a、184bは、N3インターフェースを介して、RAN113内のgNB180a、180b、180cのうちの1つ以上に接続され得、これにより、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。UPF184、184bは、パケットのルーティング及び転送、ユーザプレーンポリシーの実施、マルチホームPDUセッションのサポート、ユーザプレーンQoSの処理、DLパケットのバッファリング、モビリティアンカリングなどの他の機能を実行し得る。
【0059】
CN115は、他のネットワークとの通信を容易にし得る。例えば、CN115は、CN115とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IP multimedia subsystem、IMS)サーバ)を含み得るか、又はそれと通信し得る。更に、CN115は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、他のネットワーク112は、他のサービスプロバイダによって所有及び/又は動作される他の有線及び/又は無線ネットワークを含み得る。一実施形態では、WTRU102a、102b、102cは、UPF184a、184bへのN3インターフェース、及びUPF184a、184bとDN185a、185bとの間のN6インターフェースを介して、UPF184a、184bを通じてローカルデータネットワーク(local Data Network、DN)185a、185bに接続され得る。
【0060】
図1A図1D、及び図1A図1Dの対応する説明を鑑みると、WTRU102a-d、基地局114a~b、eNodeB160a~c、MME162、SGW164、PGW166、gNB180a~c、AMF182a~ab、UPF 184a-b、SMF 183a-b、DN185a~b、及び/又は本明細書に記載の任意の他のデバイスのうちの1つ以上に関して本明細書に記載の機能のうちの1つ以上又は全ては、1つ以上のエミュレーションデバイス(図示せず)によって実行され得る。エミュレーションデバイスは、本明細書に説明される機能の1つ以上又は全てをエミュレートするように構成された1つ以上のデバイスであり得る。例えば、エミュレーションデバイスを使用して、他のデバイスを試験し、かつ/又はネットワーク及び/若しくはWTRU機能をシミュレートし得る。
【0061】
エミュレーションデバイスは、ラボ環境及び/又はオペレータネットワーク環境における他のデバイスの1つ以上の試験を実装するように設計され得る。例えば、1つ以上のエミュレーションデバイスは、通信ネットワーク内の他のデバイスを試験するために、有線及び/又は無線通信ネットワークの一部として完全に若しくは部分的に実装され、かつ/又は展開されている間、1つ以上若しくは全ての機能を実行し得る。1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として一時的に実装/展開されている間、1つ以上若しくは全ての機能を実行し得る。エミュレーションデバイスは、試験を目的として別のデバイスに直接結合され得、かつ/又は地上波無線通信を使用して試験を実行し得る。
【0062】
1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として実装/展開されていない間、全てを含む1つ以上の機能を実行し得る。例えば、エミュレーションデバイスは、1つ以上のコンポーネントの試験を実装するために、試験実験室での試験シナリオ、並びに/又は展開されていない(例えば、試験用の)有線及び/若しくは無線通信ネットワークにおいて利用され得る。1つ以上のエミュレーションデバイスは、試験機器であり得る。RF回路(例えば、1つ以上のアンテナを含み得る)を介した直接RF結合及び/又は無線通信は、データを送信及び/又は受信するように、エミュレーションデバイスによって使用され得る。
【0063】
WTRU 120は、WTRU 102において、本明細書で開示される様々な実施形態を可能にするために、オートエンコーダのデコーダ部分又はオートエンコーダ全体を含むことができる。
【0064】
代表的なPCデータフォーマット
点群(PC)データフォーマットは、自律運転、ロボット工学、拡張現実/仮想現実(AR/VR)、土木工学、コンピュータグラフィックス及び/又はアニメーション/映画を含む多くのビジネス領域にわたる汎用データフォーマットである。3D LIDARセンサは、自動運転車のために配備され得る。新興の手頃なLIDARセンサは、多数の製品、例えば、Apple iPad Pro 2020及び/又はIntel RealSense LIDARカメラL515に実装され得る。センシング技術の大幅な進歩により、3D PCデータは、これまで以上に実用的になり得、本明細書で説明されるアプリケーションにおいてイネーブラ(例えば、究極のイネーブラ)になり得る。
【0065】
PCデータは、(例えば、5Gネットワークを介して接続された自動車間で、及び/又はVR/ARなどの没入型通信のために)ネットワークトラフィックの大部分を消費し得ると考えられる。PCの理解及び通信は、より効率的な表現形式につながり得る。例えば、生のPCデータは、3D世界モデリング及び/又は感知の目的で、適切に編成される必要がある場合があり、又は編成及び処理される場合がある。
【0066】
PCは、1つ以上の移動オブジェクトを含み得る同じシーンの順次更新を表し得る。そのようなPCは、静的シーン又は静的オブジェクトから捕捉され得る静的PC(SPC)と比べて、動的PC(DPC)と呼ばれる。DPCは、通常、フレームに編成され、異なるフレームが異なる時間に捕捉される。
【0067】
PCデータの代表的な使用事例
自動車産業及び自動走行車もまた、PCが使用され得る分野である。自律走行車は、それらの環境を「プローブ」して、すぐ近く(例えば、自律走行車のすぐ隣/すぐ近くの環境の現実)に基づいて良好な運転決定を行うことができる。LIDARのような典型的なセンサは、決定エンジンによって使用され得るDPCを生成し得る。これらのPCは、人間が見ることを意図していなくてもよく、又は意図しておらず、PCは小さくてもよく、必ずしも色分けされていなくてもよく、かつ高い捕捉頻度で動的であってもよい。PCは、LIDARによって提供される反射率のような他の属性を有し得る。反射率は、感知されたオブジェクトの材料に関する良好な情報であり得、決定に関するより多くの情報(例えば、決定を行う際に役立ち得る)を提供し得る。
【0068】
PCを使用し得るVR及び没入型世界は、2Dフラットビデオの将来の置き換えとして多くの人によって予見されている。VR及び没入型世界の場合、視聴者は、(例えば、視聴者の周り全体囲で視聴可能である)環境に没入することができる。これは、視聴者が視聴者の前の仮想世界しか見ることができない標準的なTVとは対照的である。環境内の視聴者の自由度に応じて、没入性には、いくつかの段階がある。PCは、VR世界を配信するためのフォーマット(例えば、良いフォーマット候補)である。VR及び没入型世界で使用するためのPCは、静的又は動的であってもよく、例えば、一度に1億ポイントまでの範囲(例えば、一度に数百万ポイント以下)の平均サイズであってもよい。
【0069】
PCは、例えば、オブジェクトを送信及び/又は訪問することなくオブジェクトの空間構成を共有するため、及び/又はオブジェクトが破壊された場合(例えば、地震によって寺院が破壊された場合)にオブジェクトについての知識の保存を確実にするために、彫像又は建物のようなオブジェクトが3Dでスキャンされる文化遺産/建物などの様々な目的のために使用されてもよい。そのようなPCは、典型的には静的で、着色されており、サイズが大きい(例えば、巨大であり、例えば閾値サイズを超える)場合がある。
【0070】
PCは、3D表現及び/又はマップが平面に限定されず、起伏(隆起及び陥没の表示など)を含み得る、地形学及び/又は地図学において使用され得る。グーグルマップは、3Dマップの良い例である。PCは、3Dマップのための好適なデータフォーマットであり得、そのようなPCは、静的で、着色されており、及び/又は大型(例えば、閾値サイズを上回る、及び/又は巨大)であり得る。
【0071】
PCを介した世界モデリング及び感知は、例えば、本明細書で説明される用途のために機械がそれらの周りの3D世界に関する知識を得ることを可能にするための技術(例えば、有用な及び/又は必須の技術)であり得る。
【0072】
代表的なPCデータフォーマット。
3D空間における連続面の一般的な離散表現として、PCは、2つのカテゴリ、すなわち、例えばカメラ状3Dセンサ又は3Dレーザスキャナによって収集され、グリッド上に配置された組織化されたPC(OPC)と、組織化されていないPC(UPC)とに分類される。UPCは、例えば、複雑な構造を有し得る。UPCは、複数の視点からスキャンされ得、その後、一緒に融合され得、インデックスの順序付けの損失につながる。OPCは、下地となるグリッドが感知順序を反映し得る自然の空間的接続性を意味するため、より容易に処理することができる。UPCに対する処理は、(例えば、UPCが1D音声データ及び/又は2D画像とは異なることに起因して)より困難であり得、規則正しい格子に関連付けられている。UPCは、3D空間においてまばらかつ不規則に散在している可能性があり、又は通常は散在しており、これにより、従来の格子ベースのアルゴリズムは、3D PCを扱うことが困難になり得る。例えば、畳み込み演算子は、規則正しい格子上に明確に定義され、3D PCに直接適用することができない。
【0073】
特定の例では、離散化された3D PCは、例えば、PC(例えば、UPC)を、とりわけ、(1)3Dボクセル及び/又は(2)多視点画像のうちのいずれかに変換するために実装されてもよく、これは、体積冗長性及び/又は1つ以上の量子化アーチファクトを引き起こし得る。一例では、ディープニューラルネットワークベースの教師ありプロセスは、ポイントワイズ多層パーセプトロン(MLP)と、それに続くプーリング(例えば、最大プーリング)とを使用して、順列不変性を提供/保証し、3D PCの認識、セグメント化、及び意味的シーンセグメント化などの一連の教師あり学習タスクに対する成功を達成することができる。同様の技法が、3D PC検出、分類、及び/又はアップサンプリングなど、多くの他のタスクに適用され得ることを、当業者は理解する。
【0074】
いくつかの代表的な実施形態では、教師なし学習プロセス、動作、方法、及び/又は機能は、とりわけ、TearingNet又はグラフ条件付きオートエンコーダ(GCAE)を使用して、例えば3D PC及び/又は他の実装形態のために実装され得る。例えば、教師なし学習動作は、ラベリング情報なしの、とりわけ、3D PC、ビデオ、画像、及び/又はオーディオのコンパクト表現の学習を含み得る。このように、代表的な特徴は、3D PC及び/又は他のデータ表現から抽出(例えば、自動的に抽出)されてもよく、補助情報及び/又は事前情報として任意の後続タスクに適用されてもよい。大量のデータ(例えば、PCデータ又は他のデータ)をラベル付けすることは、時間がかかることがあり、及び/又は高価であることがあるので、教師なし学習は有益であり得る。
【0075】
いくつかの代表的な実施形態では、オートエンコーダは、例えば、そのコンパクト表現及び/又はセマンティック記述子に基づいて、PCを再構築するために実装されてもよい。例えば、オブジェクトに対応するセマンティック記述子が与えられると、特定のオブジェクトを表すPCが復元され得る。そのような再構築は、一般的な教師なし学習フレームワーク(例えば、オートエンコーダ)内のデコーダとして実装(例えば、フィッティング)され得、ここで、エンコーダは、意味解釈をもつ特徴記述子を出力し得る。
【0076】
いくつかの代表的な実施形態では、オートエンコーダは、例えば、(例えば、トポロジ推論及び/又はトポロジ情報を介して)トポロジを考慮/使用するために実装され得る。PC再構築を扱う場合、グラフトポロジは、点間の関係を決定/考慮(例えば、明示的に決定/考慮)するために実装され得る。完全に接続されたグラフトポロジは、オブジェクト表面に追従しないため、PCトポロジの表現においてかなり不正確である可能性があり、高い種数を有するオブジェクト及び/又は複数のオブジェクトを有するシーンを扱う場合にはあまり効果的でない可能性がある。再構築されたPC内のN個の所与の点において、学習すべきN個のグラフパラメータ(グラフ重み)があるため、完全なグラフの学習はコストがかかる場合があり、及び/又は大量のメモリ及び/又は計算を使用する場合がある。
【0077】
いくつかの代表的な実施形態では、方法、装置、システム、及び/又は手順は、PCトポロジ表現を学習する(例えば、効果的に学習する)ように実装され得る。実装は、複雑なオブジェクト/シーンのためのPCの再構築において有益であり得るだけでなく、とりわけ、分類、セグメント化、及び/又は認識における弱教師ありPCタスクにも適用され得る。
【0078】
本明細書で開示する例の多くはPC実装形態に関するが、画像、ビデオ、オーディオ、及びそれらに関連するトポロジを有し得る他のデータ表現のためのグラフトポロジの使用など、他の実装形態も同様に可能である。
【0079】
PCのための代表的な教師なし学習手順
PCのための教師なし学習は、エンコーダ-デコーダフレームワークを採用し得る。3D点は、3Dボクセルに離散化されてもよく、3D畳み込みは、エンコーダ及び/又はデコーダを設計及び/又は実装するために使用され得る。離散化は、不可避の離散化誤差につながる可能性があり、3D畳み込みの使用は高価である可能性がある。特定の例では、PointNetがエンコーダとして使用され、かつ全結合層がデコーダとして使用される場合、3D点が処理(例えば、直接処理)され得、効果的であり得る。いくつかの代表的な実施形態では、方法、装置、システム、及び/又は手順は、例えば、膨大な量の訓練パラメータを使用/要求することなくPC再構築を改善するためにグラフトポロジを使用し得るPC再構築のために実装され得る。
【0080】
PC用のFoldingNet及びAtlasNetなどのオートエンコーダを使用する代表的な手順
FoldingNetデコーダは、完全接続ネットワーク実装/設計と比較して低減された訓練パラメータを可能にする効率的なデコーダ設計/実装である。FoldingNetデコーダは、意味記述子を入力として(例えば、エンコーダから)受信し、2Dサンプル点のセットを3D空間にマッピングする射影関数を学習する。2D点のセットは、2Dグリッドにわたって定期的にサンプリングされ得る。これらの動作は、単純なトポロジを有する単一のオブジェクトに対しては効率的(例えば、非常に効率的)であるが、複雑なトポロジを有するオブジェクト又は複数のオブジェクトを有するシーンを扱う際には良好ではない。
【0081】
図2は、エンコーダ及びデコーダを含む代表的なオートエンコーダ(例えば、FoldingNetアーキテクチャ)の高レベル構造/アーキテクチャを示す図である。エンコーダ及びデコーダは両方とも、学習されたネットワークノードパラメータ/重みを生成し、記憶するニューラルネットワークを含む。
【0082】
図2を参照すると、代表的なオートエンコーダ200は、エンコーダ220及びデコーダ260を含み得る。エンコーダ220は、入力として点210のセット(例えば、3D点のセット及び/又は点群)を有し得、出力として記述子ベクトル230を有し得る。デコーダ260は、入力として記述子ベクトル230を有し得、出力として再構築点群270を有し得る。デコーダ260は、ニューラルネットワーク(NN)及び/又はフォールディングモジュール(FM)250を含み得る。NN/FM 250への入力は、記述子ベクトル230と、グリッド240(例えば、2Dグリッド)上で事前サンプリングされた点セットから構成されてもよく、及び/又はそれらを含んでもよい。
【0083】
図3は、別の代表的なオートエンコーダ構造/アーキテクチャ(例えば、AtlasNetタイプアーキテクチャ)を示す図である。
【0084】
図3を参照すると、代表的なオートエンコーダ300は、エンコーダ320及びデコーダ360を含み得る。エンコーダ320は、入力として点310のセット(例えば、3D点のセット及び/又は点群)を有し得、出力として記述子ベクトル330を有し得る。デコーダ360は、入力として記述子ベクトル330を有し得、出力として再構築点群370を有し得る。デコーダ360は、複数のNN/FM 350-1、350-2・・・350-Kを、例えば並列に含み得る。各NN/FMへの入力は、記述子ベクトル330と、N次元グリッド340上で事前サンプリングされた点セットから構成されてもよく、及び/又はそれらを含んでもよい(例えば、各NN/FMは、2Dグリッド340-1、340-2又は340-Kを含んでもよい)。特定の例では、グリッド340-1、340-2・・・340-Kは同じであり得る。他の例では、各グリッド340は異なっていてもよい。
【0085】
代表的なオートエンコーダ300(例えば、AtlasNetタイプオートエンコーダ及び/又はAtlasNet2タイプオートエンコーダ)は、デコーダ360に複数のK個のFM350を含めることによって複雑なトポロジを処理する単純な方法を提供する。AtlasNet型エンコーダでは、各FM350は、アトラスパッチ(2Dグリッド)をオブジェクト部分にマッピングする。パッチ数Kが変更されると、オートエンコーダ/NN300は再訓練されなければならない場合がある。FM350の数が(例えばK個のFMまで)増加すると、必要とされるネットワークサイズ及びメモリは、ネットワークパラメータ/データを記憶するために線形にスケールアップされ得る。事前にパッチ数Kを設定すると、広範囲の複雑さを有するPCをカバーするようにネットワークを適合させることが困難又は不可能になり得る。再構築性能は、パッチ数に敏感であり得る(例えば、視覚的品質は、パッチの数と共に向上し得るが、より多くのパラメータ化に伴って、より多くのアーチファクトが現れ得る)。
【0086】
特定の代表的な実施形態では、手順は、フォールディング手順/動作を改善するためにトポロジ情報(例えば、トポロジグラフ)を使用するように実装され得る。
【0087】
PC用の代表的なオートエンコーダ(例えば、グラフトポロジ推論を伴うFoldingNet++)
図4は、更なる代表的なオートエンコーダ(例えば、FoldingNet++)を示す図である。
【0088】
図4を参照すると、グラフトポロジ推論を伴う代表的なオートエンコーダ400(例えば、FoldingNet++型オートエンコーダ)は、トポロジ(例えば、点群PCトポロジ)の表現を可能にするように実装され得る。オートエンコーダ400は、エンコーダ420及びデコーダ460を含み得る。エンコーダ420は、入力として点410のセット(例えば、3D点のセット及び/又は点群)を有し得、出力として記述子ベクトル430を有し得る。デコーダ460は、入力として記述子ベクトル430を有してもよく、出力として再構築点群470及び/又は点群410に関連する完全接続グラフ455を有してもよい。デコーダ460は、NN/FM450及び/又はグラフ推論モジュール454を含む複数のモジュールを含み得る。NN/FM450への入力は、記述子ベクトル430と、グリッド440上で事前サンプリングされた点セットから構成されてもよく、及び/又はそれらを含んでもよい。グラフ推論モジュール454への入力は、グリッド状グラフトポロジを記述する隣接行列452(例えば、完全隣接行列)及び/又は記述子ベクトル430であってもよい。グラフ干渉モジュール454の出力は、別の隣接行列/接続グラフ455(例えば、学習された完全接続グラフの完全隣接行列)であってもよい。隣接行列/接続グラフ455及び/又は再構築点群470は、グラフフィルタリングモジュール480への入力であってもよい。グラフフィルタモジュール480は、再構築点群470をグラフ455でフィルタリングして、最終的な(例えば、精緻化された)再構築点群490を生成することができる。
【0089】
FM、グラフ推論モジュール及び/又はグラフフィルタリングモジュールは、1つ以上のNNであってもよく、又は1つ以上のNNを含んでもよいと考えられる。
【0090】
NNは、グラフトポロジを捕捉するように設計/実装され得る。例えば、任意の点対がグラフエッジによって接続され得る完全接続グラフ455が展開され得る。しかしながら、完全接続グラフトポロジは、離れた点対間の接続を可能にし、したがって、PCによって表される2D多様体に従わないため、(例えば、局所接続グラフトポロジと比較して)PCトポロジの良好な近似ではない。
【0091】
FoldingNetオートエンコーダ構造と比較して、FoldingNet++オートエンコーダは、グラフ推論モジュール454及びグラフフィルタリングモジュール480を含み得る。グラフ推論モジュール480への入力は、グリッド状グラフトポロジを記述する完全隣接行列であってもよく、グラフ干渉モジュール454の出力は、学習された完全接続グラフの別の完全隣接行列であると考えられる。グラフフィルタリングモジュール454は、フォールディングモジュール(例えば、変形モジュール)からの粗い再構築を修正し、点群(PC)410の最終再構築を出力することができる。
【0092】
AtlasNetオートエンコーダ構造と比較して、FoldingNet++オートエンコーダのグラフ推論モジュール454は、複雑なトポロジでスケールアップされない場合があり、それでも、膨大な数のグラフパラメータ(例えば、グラフ重み)に起因して、大きなメモリ及び大きな計算を使用する/必要とする場合がある。再構築されたPCにおける点の数がNであるとすると、グラフパラメータの数はNである。
【0093】
特定の代表的な実施形態では、方法、装置、システム、動作、及び/又は手順は、(例えば、TearingNetモジュールを有する)オートエンコーダアーキテクチャが(例えば、トポロジを有する他のデータ表現の中でもとりわけ、PC、画像、ビデオ、及び/又はオーディオのための)トポロジフレンドリ表現を学習することを可能にするように実装され得る。
【0094】
特定の代表的な実施形態では、方法、装置、システム、動作及び/又は手順は、データ表現のトポロジを提供するように実装され得る。例えば、1つの代表的な方法では、PCトポロジの明示的な表現は、2Dグリッドを複数のパッチに分割することによって実装され得る。互いに完全に独立しているAtlasNetオートエンコーダにおけるパッチとは異なり、これらの実施形態におけるパッチは、重複して又は重複せずに、同じ2D平面及び同じ座標系に含まれ得る。
【0095】
FoldingNetオートエンコーダの場合、2Dグリッドからサンプリングされた点セットが、意味的記述子からPCを再構築するためのフォールディング処理への入力として提供され、これは、完全接続ネットワークと比較して計算上効率的である。FoldingNetオートエンコーダにおける2Dグリッドからの初期サンプルの場合、初期サンプルは、種数0を有する最も単純なトポロジを表す。FoldingNetオートエンコーダは、複雑なトポロジを有するオブジェクト又は複数のオブジェクトを有するシーンを適切に扱うことができないことが観察される。2Dグリッドの過度に単純化されたトポロジが、そのような複雑なトポロジを扱うことができない理由であり得ると考えられる。
【0096】
グラフトポロジは、PCトポロジを近似するために使用され得るが、2つの弱点、すなわち、(1)完全接続グラフトポロジとPCトポロジとの間の不整合が存在すること、及び(2)グラフフィルタリング手順が、サーフェスの外側に誤ってマッピングされた点を補正するのに失敗する(例えば、しばしば失敗する)可能性があることが観察されている。
【0097】
特定の代表的な実施形態では、TearingNetオートエンコーダ(例えば、分割モジュール及び/又はトポロジ発展グリッド表現を有する)が実装されてもよく、2Dトポロジ(例えば、n-1次元グリッドトポロジ)を3Dトポロジ(例えば、n次元PCトポロジ又はデータ表現に関連する他のn次元トポロジ)と位置合わせすることができる。例えば、通常の2Dグリッドを複数のパッチに分割して、パッチを有する2Dグリッド(例えば、トポロジフレンドリな2Dグリッド及び/又はトポロジ発展グリッド表現)を提供することができる。
【0098】
特定の代表的な実施形態では、TearingNetオートエンコーダを実装することができ、3DのPCトポロジのより良好な近似として局所接続グラフを促進することができる。
【0099】
特定の代表的な実施形態では、TearingNetオートエンコーダを実装することができ、学習された2Dトポロジが3D PC再構築において直接カウント/考慮され得るように、修正されたトポロジを有する分割2Dグリッドをフォールディングモジュールへの入力として設定/使用し得る。例えば、通常の2Dグリッドは、最初に、フォールディングモジュールへの入力として使用されてもよく、その後、修正及び/又は発展2Dグリッドが、フォールディングモジュールへの次の入力として使用されてもよい。
【0100】
特定の代表的な実施形態では、T-Netモジュールを実装することができ、T-Netモジュールは、通常のグリッド(例えば、2Dグリッド)を、後続のフォールディングネットワーク(F-Net)モジュール又は変形モジュールの入力として機能することができる、分割されたグリッド(例えば、2Dグリッド、例えば、1つ以上のパッチを有する発展2Dグリッド)に分割することによって、トポロジ(例えば、PCトポロジ)を表す(例えば、明示的に表す)ことができる修正/発展グリッドを生成することができる。例えば、分割された2Dグリッドに基づいて、3Dトポロジ(例えば、3D PCトポロジ又は他の3Dトポロジ)に従うことができる局所接続グラフを構築することができる。構築された局所接続グラフは、出力PCを精緻化するために使用され得る。
【0101】
特定の代表的な実施形態では、オートエンコーダ(例えば、TearingNet)を実装することができ、様々なトポロジ構造を有するPC(例えば、異なる種数を有するオブジェクト及び/又は複数のオブジェクトを有するシーンを有するPC)のためのPC再構築を可能にし得る。オートエンコーダは、入力PCの基礎となるトポロジを反映する(例えば、よく反映する)表現(例えば、コードワード)を生成することができる。
【0102】
特定の代表的な実施形態では、例えば、面取り距離の使用によって引き起こされ得る点崩壊を解決するために、多段階(例えば、2つ以上の段階)訓練手順が実施され得る。
【0103】
特定の代表的な実施形態では、複数の反復(例えば、2回を超える反復)を有するTearingNetオートエンコーダ/グラフ条件付きオートエンコーダ(GCAE)を実装して、複雑なトポロジを有するPCシーン及び/又は他のシーン(例えば、とりわけビデオ及び/又はデータ表現)を処理することができる。
【0104】
代表的なTearingNetオートエンコーダ
図5は、追加のオートエンコーダ(例えば、TearingNetオートエンコーダ)と、TearingNetオートエンコーダと共に使用される教師なし訓練フレームワーク/手順とを示す図である。
【0105】
図5を参照すると、TearingNetオートエンコーダ500は、エンコーダ520及びデコーダ560を含み得る。エンコーダ520は、入力として点510のセット(例えば、3D点のセット及び/又は点群)を有し得、出力として記述子ベクトル530を有し得る。デコーダ560は、入力として記述ベクトル530を有してもよく、出力として再構築点群570及び/又は点群510に関連する局所接続グラフ558を有し得る。デコーダ560は、1つ以上のNN及び/又は複数のFM 550-1及び550-2及び/又は分割モジュール556を含む複数のモジュールを含み得る。第1のNN/FM 550-1への入力は、記述子ベクトル530と、グリッド540上で事前サンプリングされた点セットから構成されてもよく、及び/又はそれらを含んでもよい。分割モジュール556への入力は、グリッド540上で事前サンプリングされた点セット、記述子ベクトル530、及び/又は第1のNN/FM 550-1の出力を含み得る。分割モジュール556の出力は、局所接続グラフ558を生成するために、グリッド540上で事前サンプリングされた点セットと組み合わせられ、及び/又は合計され得る。第2のNN/FM 550-2への入力は、記述子ベクトル530及び/又は局所接続グラフ558から構成されてもよく、及び/又はそれらを含んでもよい。デコーダ560のNN/FM 550-1及び550-2は、同じニューラルネットワークアーキテクチャ及び同じ学習されたNNパラメータを共有してもよい。第2のNN/FM 550-2への出力は、再構築点群570を含んでもよい。局所接続グラフ558及び/又は再構築点群570は、グラフフィルタリングモジュール580への入力であってもよい。グラフフィルタモジュール580は、再構築点群570をグラフ558でフィルタリングして、最終的な(例えば、精緻化された)再構築点群590を生成することができる。
【0106】
FM、分割モジュール、及び/又はグラフフィルタリングモジュールは、1つ以上のNNであってもよく、又は1つ以上のNNを含んでもよいと考えられる。
【0107】
例えば、エンコーダ520は、(例えば、FoldingNet又はFoldingNet++エンコーダにおいて使用される)PointNetのようなエンコーダ、又は記述子ベクトル530を出力することができる任意の他のニューラルネットワークエンコーダであり得る。デコーダ560は、1つ以上のF-Net/変形モジュール550(例えば、1つ以上のF-Net/変形ニューラルネットワーク)と、1つ以上のT-Netモジュール556(例えば、1つ以上のT-Netニューラルネットワーク)と、2Dグリッド540とを含み得る。第1のF-Netモジュール550-1への入力は、記述子ベクトル530及び初期2-Dグリッド540を含み得る。T-Netモジュール556への入力は、記述子ベクトル530、初期2-Dグリッド540、及び第1のF-Netモジュール550-1の出力を含み得る。T-Netモジュール556の出力は、分割2Dグリッド558(例えば、発展2Dグリッド、及び/又はエンコーダを介して記述子ベクトルを生成するデータ表現のトポロジを表すパッチを有する2Dグリッド)を含み得る。同じニューラルネットワークアーキテクチャ及び同じ学習されたNNパラメータ/重みを有する第1のF-Netモジュール550-1への後続の入力又は別のF-Netモジュール550-2への入力は、記述子ベクトル540と、第1のT-Netモジュール558から出力された分割2Dグリッドとを含み得る。T-Netモジュール556の出力は、局所接続グラフ558を含み得る。
【0108】
F-Netモジュール550と同様に、変形モジュールは、F-Netモジュール及び変形モジュールが交換可能に使用され得るように、入力データ表現を再構築するために入力を変形し得る。
【0109】
最後のF-Netモジュール550-2及び最後の発展2Dグリッド558の出力は、グラフフィルタリングモジュール580への入力であってもよい。グラフフィルタリングモジュール580の出力は、最終再構築されたPC 590であり得る。
【0110】
2つのF-Netモジュール及び1つのT-Netモジュールが図5に示されているが、任意の数のF-Netモジュール(例えば、N個のF-Netモジュール)がデコーダに実装されてもよく、対応する数のT-Netモジュール(例えば、N個又はN-1個のT-Netモジュール)が実装されてもよい。特定の実施形態では、単一のF-Netモジュール及び単一のT-Netモジュールは、一連の発展した分割2Dグリッドを生成する反復プロセスを用いてデコーダ内に実装され得る。各分割2Dグリッドは、再構築されたPCの1つの反復のためのF-Netモジュールへの入力として使用され得る。
【0111】
TearingNetオートエンコーダを、図2及び図4にそれぞれ示すFoldingNetオートエンコーダ及びFoldingNet++オートエンコーダと比較すると、エンコーダ(E-Net)モジュール、フォールディング(F-Net)モジュール、F-Netモジュールの第1の実行への入力としての2D点セット、及びグラフフィルタリング(G-Filter)モジュールを含むいくつかのモジュールを同様に実装/設計することができる。
【0112】
特定の実装では、E-Netモジュールは、PCx=(xk,,z)を入力として取り、記述子ベクトルを出力する、PointNetに基づき得る。
【0113】
記述子ベクトルは、F-Netモジュール及びT-Netモジュールを含むデコーダに送信され得る。F-Netモジュール及びT-Netモジュールの両方は、インデックスk又はiを有する各2D点に対して呼び出され得る。
【0114】
F-Netモジュールの第1の実行の場合、入力は、事前定義されたサンプリング動作、例えば等間隔で均一にサンプリングされたものを使用して、記述子ベクトルfと2 Dグリッドu(0) =(u(0) ,v(0) )からの2 D点iとの連結として設定され得る。F-Netモジュールは、PCの第1の再構築x(1) =(x(1) ,y(1) ,z(1) )を出力することができる。次に、T-Netモジュールを呼び出すことができる。T-Netモジュールへの入力は、記述子ベクトルf、2 Dグリッドからサンプリングされた2D点iu(0) =(u(0) ,v(0) )、及びPCの第1の再構築x(1) =(x(1) ,y(1) ,z(1) )を含むことができる。例えば、入力は、以下の式1に示すように、u(0) =(u(0) ,v(0) )、x(1) =(x(1) ,y(1) ,z(1) )、及び6-dim勾配ベクトル∂x(1) /∂(0) からの連結ベクトルであってもよい。
【0115】
【数1】
【0116】
T-Netモジュールは、以下のように、u(0) =(u(0) ,v(0) )に追加される/上に追加される2 D点セット上の修正を出力(例えば、最終的な出力)することができ、式2に示すように修正された2 D点をもたらすことができる。
【0117】
【数2】
【0118】
F-Netモジュールの第2の実行を呼び出すことができる。この動作/実行におけるF-Netモジュール及び前の動作/実行からのF-Netモジュールは、共通のF-Netモジュールを使用/共有できると考えられる。この動作のために、入力は、記述子ベクトルfと修正2 Dグリッドu(1) =(u(1) ,v(1) )(例えば、修正2 D点又は修正2 Dサンプルのセット)との連結として設定されてもよい。F-Netモジュールは、PC x(2) =(x(2) ,y(2) ,z(2) )の第2の再構築を出力することができる。
【0119】
F-Netモジュールと同様に、T-Netモジュールは、パラメータが1つ以上のPCデータセット(例えば、訓練データセット)に基づく訓練を介して達成されるニューラルネットワークを介して実装され得る。
【0120】
修正された2 Dサンプルu(1) から、最近傍グラフG(例えば、局所接続グラフ)を構築することができる。第2の再構築されたPC x(2) =(x(2) ,y(2) ,z(2) )に対して、最近傍グラフGに基づくことができるグラフフィルタを使用して、グラフフィルタリングを実行することができる。グラフフィルタリングは、最終的なPC再構築
【0121】
【数3】
を出力することができる。
【0122】
TearingNet自動エンコーダ(例えば、TearingNetフレームワーク)を訓練するために、特定の実施態様では、式3に示す損失関数は、M点の入力PC X={xk}とN点の出力PC
【0123】
【数4】
との間の面取り距離に基づいて定義/使用することができる。
【0124】
【数5】
【0125】
損失関数は、面取り距離に基づくものとして示されているが、他の距離関連尺度(例えば、とりわけハウスドルフ距離又はアースムーバ距離)に基づく他の損失関数も可能である。
【0126】
代表的なTネットモジュール
図6は、代表的な分割(T-Net)モジュールの図である。
【0127】
図6を参照すると、代表的な分割/T-Netモジュール600は、他のタイプのニューラルネットワークの中でも、N×N畳み込みニューラルネットワーク(CNN)610及び620(例えば、3×3 CNN)の複数のセット(例えば、2つ以上のセット)並びに/又は1つ以上の多層パーセプトロン(MLP)(例えば、完全接続ニューラルネットワーク)を含み得る。
【0128】
コードワードf(例えば、記述子ベクトル530)は、N×512の行列630でN回複製することができる(例えば、コードワードfが512-dimである場合、とりわけ128、256、1024、2048又は4096などの他の次元も可能である)。fからの複製された行列630は、連結されて、第1の連結行列640を生成することができる(例えば、グリッド/点540(例えば、2Dグリッド/点u)からのN×2行列645を含むN×523行列、3D点xからのN×3行列、及び勾配650(例えば、勾配∂x/∂u)からのN×6行列)。3D点xは、F-Netモジュール550-1からの出力であり得る。第1の連結行列640の各行(例えば、N×523行列)は、分割/T-Netモジュール556の第1のニューラルネットワーク610(例えば、共有3×3 CNN又はMLP)に通され得る。第1のニューラルネットワーク610(例えば、第1のCNN)は、N個の層(例えば、3個の層)を含むか、又はそれから構成され得る。第1の連結行列640は、一連のCNN(図示せず)のうちの第1のCNN(図示せず)に入力され得る。第1の一連のCNNは、第1、第2及び第3の層に対してそれぞれ256、128及び64の出力次元を有し得る)。
【0129】
一連のニューラルネットワークのうちの第2のニューラルネットワーク620(例えば、第2のCNN)のための入力行列は、前の動作と同様に形成、生成、及び/又は構築することができ、第1の連結行列645と、第1のCNN 610から出力された前の動作からの64次元の特徴出力(例えば、N×64行列655)とを含む第2の連結行列660を含むことができる。第2の連結行列660(N×587行列であってもよい)は、第2のニューラルネットワーク620の入力行列N×587(例えば、系列内の第2のCNN又はMLP)であってもよい。入力行列の各行は、第2のCNN 620(例えば、共有3×3 CNN又はMLP)を通過し得る。第2の一連のCNNは、それぞれ第1、第2、及び第3の層に対して256、128及び2の出力次元を有する3つの層(図示せず)を含むか、又はそれらから構成され得る。分割/T-Netモジュール556の最終的な出力行列N×2665は、2 Dグリッド540(例えば、2 Dグリッドx)の修正/発展を表すことができる。
【0130】
FoldingNet++の複雑さと比較して、N点を有する2 Dグリッドの同じサイズでは、FoldingNet++の入力及び出力次元はN+512及びNであり、TearingNetの入力及び出力次元は11+512及び2である。AtlasNetとTearingNetの複雑さを比較すると、AtlasNetでは、F-Netモジュールの数はAtlasの事前設定されたサイズに等しく、これは実際のシーンのために大きくあるべきであるか、又は大きくなければならない。TearingNetは、シーンの複雑さにかかわらず、デコーダにおいて合計で1つのF-Netモジュール及び1つのT-Netモジュールを必要とする/使用するだけでよい。
【0131】
T-Netモジュールは、以下のようなマッピング関数としてニューラルネットワークを使用することができる。
【0132】
【数6】
【0133】
記述子fは、T-Netモジュールを駆動して、前記2Dグリッド/点をパッチに分割することができる。例えば、3つのオブジェクトを有するPCの場合、2Dグリッド/点は、3つのパッチに分割されてもよく、又は分割されており、T-Netモジュールは、修正/進化2Dグリッド/点を生成し得る。
【0134】
図7Aは、入力PCの一例を示す図である。図7Bは、図7Aの入力PCに関連する分割/進化2Dグリッドの一例を示す図である。図7Cは、図7Aの入力PCに関連する再構築されたPCの例を示す図である。図7Bの分割2Dグリッドは、パッチA1、B1、C1、及びD1を含み得る。分割/T-Netモジュール556は、分割/進化2Dグリッドを生成し得る。入力PCは、4つのオブジェクト(例えば、3つの車両(オブジェクトA、C及びD)及びサイクリスト(オブジェクトB))を含み、分割された2Dグリッドは、入力PC内の各オブジェクトの周りのエリアに概して対応する分割部分を含む。
【0135】
代表的なスカルプチャ訓練手順
特定の代表的な実施形態では、訓練手順(例えば、2段階スカルプチャ訓練手順)が、TearingNetを訓練するために、例えば距離尺度(例えば、面取り距離、土工機械の距離、又は他の距離メトリック)を使用して実装され得る。面取り距離は、土工機械の距離よりも複雑ではないが、点崩壊の問題を有する。式3の面取り距離を使用する損失関数は、以下のように、式5及び6に記載されているように書き直され得る。
【0136】
【数7】
ここで、max(.,.)の2つの距離項目は、それぞれ
【0137】
【数8】
として参照される。2つの距離項目は、PC評価に対して2つの異なる方法で寄与し得る。入力PCとしてXが固定され、探索中の再構築として
【0138】
【数9】
が評価されると考えられる。
【0139】
【数10】
は、スーパーセット距離として参照され、再構築PC
【0140】
【数11】
が入力PC Xのスーパーセットである限り緩和され得る。例えば、再構築が正確に入力のスーパーセットである場合、スーパーセット距離は0に等しくてもよく、Xの外側の残りの点は、スーパーセット距離を不利にしない。
【0141】
【数12】
は、サブセット距離として参照され、再構築PC
【0142】
【数13】
が入力PC Xのサブセットである限り緩和され得る。例えば、再構築が正確に入力のサブセットである場合、サブセット距離は0に等しくなる。
【0143】
訓練から始めると、ネットワークパラメータがランダムに初期化されるため、再構築された点が空間の周りで飛び散る。十分な数の点及び十分なトポロジ構造を有するデータセットが与えられると、サブセット距離は、スーパーセット距離よりも大きく、スーパーセット距離よりも優勢である可能性が高い。これは、潜在コードワードが与えられた場合に各空間位置における条件付き発生確率を学習するものとして再構築を扱うことによって解釈/決定することができる。訓練のために使用される形状(例えば、PC)が劇的に変動する場合、学習された分布は、空間にわたってより均一に広がり得る。したがって、再構築された点がグラウンドトゥルース入力PCの外側になる可能性がより多く存在する。サブセット距離は、スーパーセット距離よりも不利になる可能性があり、これにより、訓練中にサブセット距離が支配的になる可能性がある。
【0144】
支配的なサブセット距離を有するバランスの悪い面取り距離は、訓練の開始時であっても点崩壊につながる可能性がある。データセット内の全てのオブジェクトの間に単一の共有点が存在することを考慮すると、サブセット距離を最小化する(0にする)ための自明な解決策は、全ての点を共有点に折り畳むことである。オブジェクト形状間に交点が存在しない場合であっても、点は、サブセット距離を最小化するための自明な解決策のために、表面に近い単一の点推定量に崩壊する可能性がある。
【0145】
スカルプチャ訓練手順/戦略が実装されてもよく、少なくとも2つの訓練段階を含んでもよい。第1の段階では、スーパーセット距離(例えば、スーパーセット距離のみ)を訓練損失として使用して、予備的な形式を粗くすることができる。第2の段階では、サブセット距離を含む面取り距離が、再構築を洗練する(例えば、精緻化する)ために使用され得る。TearingNetを訓練するためのスカルプチャ訓練手順は、減法スカルプチャ手順/プロセスに似ていてもよい。第1の段階から粗いフォームが構築/生成された後、T-Netモジュールは、第2の段階において最終像のために不要な材料を切削してもよく(例えば、具体的に切削してもよく)、(例えば、図7Bに示すようなパッチを含む)分割2Dグリッドを生成してもよい。2段階スカルプチャ訓練手順は、例えば、以下を含むことができる。
(1)F-Netモジュールを、損失関数であるスーパーセット距離を用いてFoldingNetアーキテクチャの下で訓練すること(特定の実施形態では、学習率は、r=10-3に設定されてもよい)と、
(2)予め訓練されたF-NetモジュールをTearingNetアーキテクチャにロードし、損失関数としての面取り距離を用いてF-Netモジュール及びT-Netモジュールを訓練し続けること(例えば、スーパーセット距離とサブセット距離の両方をカウントし、学習率をより小さくなるように、例えば、r=10-3=10-6となるように調整することができる)。
【0146】
代表的な反復TearingNetアーキテクチャ/実装
図8は、複数の反復をサポートする代表的な反復TearingNetアーキテクチャを示す図である。図8を参照すると、反復TearingNet 800は、図6のモジュールと同じ又は類似のモジュールを含むことができる。例えば、反復TearingNet 800は、T-Netモジュール856及びF-Netモジュール850を含み得るエンコーダ820及びデコーダ860を含み得、進化2Dグリッド858を使用し得る。ループ構造を用いて、F-Netモジュール850及びT-Netモジュール856は、任意の回数の反復(例えば、いくつかの反復)を実行することができる。各反復において、F-Netモジュール850は、前の反復からT-Netモジュール850から出力された2Dグリッド858をF-Netモジュール850への1つの入力として取ることができ、T-Netモジュール856は、現在の反復からF-Netモジュール856から出力された3D点(及び勾配)をT-Netモジュール856への入力として取ることができる。複数の反復を伴うTearingNet 800は、困難な(例えば、更により困難な)オブジェクト/シーントポロジを扱うために使用され得る。
【0147】
エンコーダ820への入力は、例えば、点群810であってもよく、又はそれを含んでもよい。
【0148】
エンコーダ820は、記述子ベクトル830を出力し得る。第1のステップ破線として図8に示される、反復TearingNet 800の第1の反復の第1の動作/ステップにおいて、F-Netモジュール850は、記述子ベクトル830及び初期2Dグリッド858-1から入力を受信することができる。初期2 Dグリッド858-1は、局所接続グラフとして出力され得る。第2のステップ破線として図8に示される、反復TearingNet 800の第1の反復の第2の動作/ステップにおいて、T-Net 856は、入力として、第1の動作からのF-Net 850の出力、記述子ベクトル830、及び初期2Dグリッド858-1を受信することができる。第2の動作/ステップにおけるF-Net 850の出力は、再構築された点群870であり得る。第3のステップ破線として図8に示される、反復TearingNet 800の第1の反復の第3の動作/ステップにおいて、T-Net 856は、第1の修正された2Dグリッド858-2を出力することができる。
【0149】
第1のステップ破線として図8に示される、反復TearingNet 800の第2の反復の第1の動作/ステップにおいて、F-Netモジュール850は、記述子ベクトル830及び第1の修正された2Dグリッド858-2から入力を受信することができる。第1の修正された2Dグリッド858-2は、局所接続グラフとして出力され得る。第2のステップ破線として図8に示される、反復TearingNet 800の第2の反復の第2の動作/ステップにおいて、T-Net 856は、入力として、第2の反復における第1の動作からのF-Net 850の出力、記述子ベクトル830、及び第1の修正された2Dグリッド858-2を受信し得る。第2の反復の第2の動作/ステップにおけるF-Net 850の出力は、第1の修正された再構築された点群870であり得る。第3のステップ破線として図8に示される、反復TearingNet 800の第2の反復の第3の動作/ステップにおいて、T-Net 856は、第2の修正された2Dグリッド858-3を出力することができる。
【0150】
反復ごとに、2Dグリッド/修正された2Dグリッドの出力(例えば、現在の局所接続グラフ858-1、858-2、又は858-3、及び再構築又は修正された再構築点群870)は、グラフフィルタリングを提供し、最終再構築点群を生成するために、グラフフィルタリングモジュール880に入力されてもよい。
【0151】
図8には2回の反復が示されているが、TearingNet 800の任意の回数の反復が可能である。
【0152】
特定の代表的な実施形態では、初期点セットは、2Dグリッド(例えば、第1の/初期2Dグリッド858)にわたって定期的にサンプリングされ得る。球面又は立方体表面が、2Dグリッドを置換するために選択されてもよく、及び/又は2Dグリッドが、N次元グリッドと置換されてもよい。特定の実施形態では、別のサンプリング動作が、表面上の均一サンプリングを置き換えてもよい。
【0153】
TearingNet 800は、教師なし学習フレームワークを提供することができる。そのようなPCのデータ表現の再構築のための手順が本明細書に開示され、ニューラルネットワーク重み/パラメータがエンドツーエンド動作においてE-Netモジュール、T-Netモジュール、及びF-Netモジュールのために確立される初期学習動作を含み得る。初期学習動作の後、(例えば、ニューラルネットワーク重み/パラメータが確立された)オートエンコーダ800のエンコーダ820及びデコーダ860は、別々に動作され得る。記述子fは、トポロジ認識表現として機能することができると考えられる。TearingNet 800は、エンコーダ820に、オブジェクト/シーントポロジに対してよりフレンドリな特徴空間における記述子を出力させることができる。そのようなトポロジ認識表現は、ラベル付けされたデータの必要性を軽減することによって、オブジェクト分類、セグメント化、検出、シーン完成などの多くのタスクに利益をもたらし得る。TearingNetは、PCを再構築するための異なる方法を提供するので、PC圧縮において有用であり得る。
【0154】
特定の代表的な実施形態では、ニューラルネットワークは、例えば、とりわけ、PC、ビデオ、画像、及び/又はオーディオなどのデータ表現に関連するトポロジフレンドリ表現を学習するために、T-Netモジュールを用いて実装され得る。例えば、進化2Dグリッド/点を使用することによって、ニューラルネットワークは、複雑なトポロジを有するオブジェクト/シーンを扱うことができる。ニューラルネットワークは、教師なし学習のためのエンドツーエンドオートエンコーダのデコーダ部分内に存在し得る。他の代表的な実施形態では、スカルプチャ訓練手順/戦略は、例えば、より良好に調整されたニューラルネットワーク重み/パラメータを可能にすることができる。
【0155】
統合されたT-Net及び第2のF-Netモジュールの代表的な設計/アーキテクチャ
特定の実施形態では、T-Netモジュールの第1の反復及びF-Netモジュールの第2の反復に関連する機能は、統合されたアーキテクチャ/モジュール(例えば、組み合わされた分割フォールディングネットワーク(TF-Net)アーキテクチャ/モジュール)に実装され得る。TF-Netモジュールへの入力は、F-Netモジュールへの入力、例えば、潜在コードワード及び2Dグリッドからの2D点セットと同じように構成され得る。TF-Netモジュールの出力は、3D点の修正であってもよい。最終的なPC再構築のために、3D修正は、第1のF-Netモジュールからの出力に適用され得る。TF-Netモジュールは、2Dグリッドの分割の代わりに、3D空間における直接分割として見ることができる。例えば、TF-Netモジュール実装の利点は、図8のアーキテクチャと比較して、全体的なアーキテクチャを簡略化することであり得る。
【0156】
代表的なGCAE
図9は、代表的なGCAE 900を示す図である。図9を参照すると、GCAEは、複数の反復を伴うTearingNetにおけるような一般的なデータタイプのためのトポロジ学習を促進する方法を強調している。GCAE 900は、TearingNet 800と同じ又は同様のモジュール、例えば、エンコーダE及びデコーダDを含んでもよい。デコーダDは、フォールディングモジュールF及び分割モジュールTを含んでもよい。エンコーダEの出力は、デコーダDへの入力であってもよい記述子ベクトルcであってもよい。デコーダDの出力は、再構築されたデータ表現
【0157】
【数14】
(例えば、再構築されたPC、再構築されたビデオ、再構築された画像及び/又は再構築されたオーディオ)及び入力データ表現のトポロジを示すことができる進化グリッド
【0158】
【数15】
を含んでもよい。GCAE 900は、オートエンコーダ実装/設計における信号のトポロジの利用を促進することができる。GCAEアーキテクチャ/設計は、例えば、とりわけ画像/ビデオ符号化、画像処理、PC処理、及び/又はデータ処理などの関連用途においてトポロジが問題となる任意の信号(例えば、データ表現)に適用されてもよい。
【0159】
GCAE 900は、分割モジュールTを有するループ構造のフォールディングモジュールFを含んでもよい。フォールディングモジュールFへの入力は、反復ごとに修正されてもよい。最初に、2Dグリッドuは、フォールディングモジュールFに入力され得る。2回目以降の反復では、出力Δuが結合されて(例えば、最初の2Dグリッドuと合計されて)
【0160】
【数16】
が取得され、これがフォールディングモジュールFに入力される。
【0161】
2モジュールの従来のオートエンコーダの代わりに、GCAEは、エンコーダモジュール(例えば、E-Netモジュール(E))、フォールディングモジュール(例えば、F-Netモジュール(F))、及び分割モジュール(例えば、T-Netモジュール(T))を含み得る3モジュールアーキテクチャ/設計を含み得る。様々な図に示されるように、特定の初期化を伴うグラフも実装され得る。グラフは、復号動作(例えば、復号計算)におけるデータ表現のトポロジを明示的に表し得る。
【0162】
図9のオートエンコーダのデコーダDでは、F-Netモジュール及びT-Netモジュールがインターフェースされている(例えば、反復的に互いに対話する)。相互作用の間、F-Netモジュールは、再構築された信号にグラフトポロジを埋め込むことができる。例えば、信号(例えば、画像又はPC)が空間領域においてサンプリングされる場合、トポロジは、サンプリング点(ピクセル及び/又は点)の関係によって暗黙的に表され得る。T-Netモジュールは、再構築された信号から暗黙的トポロジを抽出することができ、グラフ領域においてトポロジを表すことができる。T-Netモジュールの出力(例えば、T-Netモジュールの直接出力)は、最適な構成のために訓練をより容易に収束させるために、元のグラフへの修正として選択され得る。
【0163】
実際のシステムでは、反復の数は、信号伝達されてもよく、明確であってもよく、又は予め決定されていてもよく、グラフトポロジは、反復の各々と共に発展すると考えられる。
【0164】
本明細書で開示されるPCオートエンコーダのTearingNetは、GCAEの一例であり、当業者は、PCなどの信号(例えば、データ表現)のトポロジフレンドリな表現を学習するためにGCAEがどのように利用され得るかをTearingNetから理解する。GCAEは、PCが高い種数を有するオブジェクト又は複数のオブジェクトを有するシーンに対するものである場合に、利益(例えば、明確な利益)を提供することができる。
【0165】
T-Netモジュールの代表的な設計/アーキテクチャ
T-Netモジュールは、構築ブロックとして、MLPネットワークの使用を含むいくつかの異なる方法で実装することができる。MLP実装では、グラフに対するF-Netモジュールの出力の勾配は、勾配が近傍情報を提供するので、有用であり得る。他の実施形態では、T-Netモジュールは、1つ以上のCNNを用いて(例えば、設計/アーキテクチャとして、例えば、3×3畳み込みカーネルを使用して、畳み込みニューラルネットワーク層を用いて)実装されてもよい。そのようなカーネルは、コンテキストをカウントしてもよく、T-Netモジュールへの入力としての勾配の導入/使用をスキップしてもしなくてもよい。
【0166】
人間の動作認識のための代表的なGCAE手順
人間の骨格は、様々な方法で検出することができる。これはしばしば人間の動作認識に使用される。オートエンコーダは、人間の動作認識のタスクのために考慮され得る。入力信号は、人間の骨格の2D(又は3D)座標のシーケンスであってもよく、E-Netモジュールからのコードワードは、動作認識のために使用されてもよく、GCAEデコーダ(F-Netモジュールを含む)及びT-Netモジュールは、コードワードから人間の骨格を再構築することができると考えられる。例えば、特定の実施形態では、このタスクのために、人体の関節接続に従って初期グラフトポロジが選択されてもよい。接続部上のグラフ重みは、T-Netモジュールの出力から更新され得る。F-Netモジュールは、グラフを入力として取り、骨格関節位置の座標を予測するように実装/設計されてもよい。骨格グラフは、かなり少数の点(関節)を含むので、F-Netモジュールへのグラフ入力は、グラフの隣接行列として配置することができる。F-Netモジュール及びT-Netモジュールの両方が、グラフに加えてコードワードを入力として受信することもできると考えられる。簡潔にするために、コードワード処理は詳細に検討されない。トポロジのコンテキストに焦点が当てられる。損失関数は、骨格に対する入力データ表現と骨格に対する出力データ表現との間の平均二乗誤差として定義され得る。例えば、各関節における誤差が計算されてもよく、次いで、平均二乗誤差が計算されてもよい。
【0167】
画像検索及び取得のための代表的なGCAE手順
画像検索及び取得アプリケーションの場合、画像データセットの中のコミュニティを識別することが有用/必要であり得る。画像検索及び取得アプリケーションでは、画像データセットをコンテキストとみなすことができる。GCAEを適用するために、画像をE-Netモジュールに入力してコードワードを出力することができる。デコーダは、データセット内の他の画像に対する入力画像の類似性を表すグラフを初期化することができる。F-Netモジュールは、画像データセット内の各画像に対する入力画像の類似性のスコアを予測することができる。T-Netモジュールは、予測スコアを入力として取ることができ、グラフが類似性トポロジをより良好に予測することができるようにグラフを更新することができる。最後に、損失関数は、入力画像と最も高いスコアを有する画像との間の画像類似度として定義され得る。画像データセットにわたるグラフトポロジは、実際には、検索及び取得アプリケーションのためのアセット(例えば、重要なアセット)である。GCAEを使用して、そのようなトポロジを構築し、精緻化することができる。したがって、グラフトポロジは、画像データセット内でクエリを実行した後のGCAEデコーダの出力であってもよい。
【0168】
画像分析のための代表的なGCAE手順
画像分析アプリケーションの場合、画像内のトポロジはアセット(例えば、キーアセット)である。画像表現記述をどのように抽出するかが、アプリケーションのターゲットであり得る。画像検索のための表現を学習するために、GCAE設計/アーキテクチャを実装することができる。E-Netモジュールは、画像を入力として取ってもよく、画像の潜在コードワードを生成してもよい。E-Netモジュールは、既知の画像特徴抽出器、例えば、AlexNet、ResNetなどを選択することができる。デコーダ設計/アーキテクチャは、エンドツーエンド訓練を介して、(例えば、訓練中のニューラルネットワーク重みの設定を介して)エンコーダの出力を駆動/修正することができる。画像ピクセルが2Dで編成されているので、グラフは、2Dグリッドとして初期化され得る。グラフエッジは、一定の重みを有する隣接ピクセル間(例えば、隣接ピクセル間のみ)に構築され得る。F-Netモジュールは、コードワードに加えてグラフを入力として取ることができ、出力として画像を生成することができる。T-Netモジュールは、出力画像からグラフ修正を推定することができる。
【0169】
入力画像と出力画像との間の損失関数は、平均二乗誤差(MSE)又は別の距離ベースの誤差関数に基づいて計算され得る。再サンプリングは、MSEの計算を容易にするために、入力解像度と出力解像度とを整合させると仮定される。
【0170】
画像符号化のための代表的なGCAE手順
画像検索及び取得アプリケーションと同様に、画像符号化の場合、冗長性を除去するための類似画像パッチの識別が有用/必要である。GCAEは、画像が符号化/圧縮(例えば、符号化/圧縮目的)のためにブロックに分割され得るブロックベースの画像符号化を容易にするように適合され得る。画像分析の実施形態に類似する実施形態に加えて、異なるグラフトポロジが学習されるように選択されてもよい。例えば、小さなピクチャを符号化するための画像ブロックとして、1Dグラフ(例えば、線グラフ)が適用され得る。例えば、小さなピクチャの撮像(例えば、画像コーディング)は、単一ストロークを使用して完了され得る。損失関数は、本明細書で先に述べたのと同じ方法で定義することができる。
【0171】
ビデオ符号化のための代表的なGCAE手順
画像符号化と比較して、ビデオ符号化は、例えば、第3の次元(例えば、時間方向)を導入するフレーム間予測に起因して異なる。いくつかの実施形態では、GCAEデコーダにおける反復によって生成される進化トポロジを使用して、画像フレーム間の動きフィールドを符号化することができる。1つのフレームワーク内でフレームのグループ及び/又はピクチャのグループ(GOP)を扱うことが考えられる。例えば、ビデオ符号化GCAEへの入力はGOPであってもよい。GCAEデコーダの各反復は、GOP内のフレームを出力することができる。この例では、グラフは、全てのピクセルが0に等しい画像として初期化され得る。T-Netモジュールは動きフィールドを復号することができ、F-Netモジュールは動きフィールドを前のフレームに適用することができる。特定の実施形態では、GOPは、時間方向にわたってより小さいボリュームに修正されてもよく、この修正されたGOPは、ブロックのグループ(GOB)と呼ばれてもよい。
【0172】
シーン分析のための代表的なGCAE手順
GCAE及び/又はTearingNetは、例えば、オブジェクトのカウント及び検出を含むシーン分析に使用され得る。エンコーダ(E-Net)モジュールから得られたコードワードは、入力シーンのトポロジを特徴付ける。例えば、類似のトポロジを有する2つのシーンは、類似のコードワードを有するはずである。GCAEによって作成/生成されたコードワードは、オブジェクトのカウント及び/又は検出などのシーン分析タスクを可能にすることができる。例えば、分類器は、コードワードを入力として取って訓練され得、シーン中のオブジェクトの数を出力し得る。分類器出力に加えて、又はその代わりに、分割2Dグリッドはまた、例えば、検出されたパッチに基づいて、オブジェクトのカウント及び/又は検出を行うために使用され得る。
【0173】
PC符号化のための代表的なGCAE手順
PC符号化に関して、当業者は、画像符号化及び/又はビデオ符号化に関する本明細書の例が適用される(例えば、原理的に適用される)ことを理解する。これらの手順は、静的PC及び/又は動的PCを符号化するために使用され得る。
【0174】
図10は、(例えば、ニューラルネットワークベースのデコーダ(NNBD)によって実装される)代表的な方法を示すブロック図である。
【0175】
図10を参照すると、代表的な方法1000は、ブロック1010において、NNBDが、入力データ表現の記述子としてコードワードを取得又は受信することを含み得る。ブロック1020において、NNBDの第1のニューラルネットワーク(NN)モジュールは、少なくともコードワード及び初期グラフに基づいて、入力データ表現の予備的再構築を決定することができる。ブロック1030において、NNBDは、少なくとも予備的再構築及びコードワードに基づいて、修正されたグラフを決定することができる。ブロック1040において、第1のNNモジュールは、少なくともコードワード及び修正されたグラフに基づいて、入力データ表現の精緻化された再構築を決定することができる。例えば、修正されたグラフは、入力データ表現に関連するトポロジ情報を示し得る。
【0176】
特定の代表的な実施形態では、修正されたグラフは、初期グラフと第2のNNモジュールの出力とを組み合わせることによって決定され得る。
【0177】
特定の代表的な実施形態では、修正されたグラフは、局所接続グラフであり得る。
【0178】
特定の代表的な実施形態では、NNBDは、少なくとも、(1)複製されたコードワード、(2)初期グラフ又は修正されたグラフ、及び(3)再構築されたデータ表現を連結することによって、1つ以上の畳み込みニューラルネットワーク(CNN)によって処理するための連結行列を生成することができる。例えば、NNBDは、生成された連結行列を使用して、一連の畳み込み層演算を実行してもよい。各畳み込み層演算のためのカーネルサイズは、(2n+1)×(2n+1)カーネルサイズであり得、ここで、nは非負整数である。
【0179】
特定の代表的実施形態では、入力データ表現は、(1)点群、(2)画像、(3)ビデオ、及び/又は(4)オーディオのうちのいずれかであってもよく、又はそれを含んでもよい。
【0180】
特定の代表的な実施形態では、NNBDは、グラフ条件付きNNBDであってもよく、又はそれを含んでもよい。
【0181】
特定の代表的な実施形態では、入力データ表現の精緻化された再構築の決定は、少なくとも第1のNNモジュールの複数の反復動作を介して実行されてもよい。
【0182】
特定の代表的な実施形態ではNNBDは、1つ以上の畳み込みニューラルネットワーク(CNN)又は1つ以上の多層パーセプトロン(MLP)のうちのいずれかを含んでもよい。
【0183】
特定の代表的な実施形態では、NNBDは、1つ以上の多層パーセプトロン(MLP)を含んでもよい。例えば、修正されたグラフ及び/又はデータ表現の精緻化された再構築は、1つ以上のMLPによって生成された勾配情報に基づくか、又は更に基づくことができる。
【0184】
特定の代表的な実施形態では、NNBDは、修正されたグラフによって示されるトポロジ情報に従って、以下のうちのいずれかを識別することができる。(1)入力データ表現で表される1つ以上のオブジェクト、(2)オブジェクトの数、(3)入力データ表現で表されるオブジェクト表面、及び/又は(4)入力データ表現で表されるオブジェクトに関連する動きベクトル。
【0185】
特定の代表的な実施形態ではコードワードは、オブジェクト又は複数のオブジェクトを有するシーンを表す記述子ベクトルであり得る。
【0186】
特定の代表的な実施形態では、初期グラフ及び修正されたグラフは、2次元(2D)点セットであり得る。入力データ表現は、点群であってもよい。
【0187】
特定の代表的な実施形態では、入力データ表現の予備的再構築の決定は、記述子ベクトルと、平面内の所定のサンプリングで初期化される2D点セットとに基づいて、NNBDが変形動作を実行することを含んでもよい。
【0188】
特定の代表的な実施形態では、入力データ表現の予備的再構築の決定は、NNBDが点群の予備的再構築を生成することを含み得る。
【0189】
特定の代表的な実施形態では、修正されたグラフの決定は、NNBDが、修正されたグラフを生成するために、点群、記述子ベクトル、及び初期グラフの予備的再構築に基づいて、分割動作を実行することを含み得る。
【0190】
特定の代表的な実施形態では、NNBDは、局所接続グラフとして、修正されたグラフを生成してもよい。
【0191】
特定の代表的な実施形態では、NNBDは、入力データ表現の精緻化された再構築に対してグラフフィルタリングを実行してもよく、及び/又は入力データ表現のフィルタリングされ精緻化された再構築を、入力データ表現の最終再構築として出力してもよい。
【0192】
特定の代表的な実施形態では、局所接続グラフは、以下に基づいて構築されもよい。(1)初期グラフ又は修正されたグラフ内の最近傍についてのグラフエッジの生成、(2)修正されたグラフ内の点距離に基づくグラフエッジ重みの割り当て、及び/又は(3)閾値よりも小さいグラフ重みを有するグラフエッジのプルーニング。
【0193】
特定の代表的な実施形態では、入力データ表現の精緻化された再構築に対するグラフフィルタリングの実行は、入力データ表現の最終再構築がグラフ領域において平滑化されるように、平滑化され再構築された入力データ表現の生成を含んでもよい。
【0194】
いくつかの代表的な実施形態では、NNBDは、2段階訓練動作に従ってNNBD内のニューラルネットワーク重みを設定することができる。例えば、2段階訓練動作の第1の段階において、第1のNNモジュールは、第1の段階損失関数に含まれるスーパーセット距離を用いて訓練されてよく、2段階訓練動作の第2の段階において、第1のNNモジュール及び第2のNNモジュールは、サブセット距離及びスーパーセット距離に基づいて、第2段階損失関数に含まれる面取り距離を用いて訓練されてもよい。
【0195】
特定の代表的な実施形態では初期グラフは、各点が2D位置を示す点の行列を含む2Dグリッドであってもよい。例えば、2Dグリッドは多様体に関連付けられてもよく、各点は多様体上の固定位置を示し、及び/又は2Dグリッドは2D平面からのサンプリングされた点の固定セットであってもよい。
【0196】
いくつかの代表的な実施形態では、修正されたグラフの決定は、1)KxDコードワード行列を生成するための、受信した又は取得したコードワードのK回の反復であって、Kは初期グラフ内のノードの数であり、Dはコードワードの長さである、ことと、(2)KxDコードワード行列と初期グラフとをKxN行列として連結してKx(D+N)連結行列を生成することと、(3)1つ以上のCNN及び/又はMLPへの連結行列の入力、(4)連結行列からの1つ以上のCNN又はMLPによる、修正されたグラフの生成、及び/又は(5)修正されたグラフに基づいて入力データ表現の精緻化された再構築を更新して、入力データ表現の最終再構築を生成することと、のうちのいずれかを含むことができる。
【0197】
特定の代表的な実施形態では、NNBDは、コードワード行列を、連結された中間行列として、CNN層又はMLP層の第1のセットの出力に連結することができ、及び/又は、連結された中間行列を、CNN層又はMLP層の第1のセットに続くCNN層又はMLP層の次のセットに入力することができる。
【0198】
図11は、多段階訓練動作を使用する代表的な訓練方法を示すブロック図である。
【0199】
図11を参照すると、代表的な方法1100は、ブロック1110において、多段階訓練動作の第1の段階において、第1のNN(例えば、第1のNNモジュール)が第1の損失関数を使用して訓練されることを含み得る。ブロック1120において、多段階訓練動作の第2の段階において、第1のNN(例えば、第1のNNモジュール)及び第1のNNにインターフェースされた第2のNN(例えば、第2のNNモジュール)は、第2の損失関数を使用して訓練されてもよい。例えば第1の損失関数はスーパーセット距離に基づいてもよく、第2の損失関数はサブセット距離及びスーパーセット距離に基づいてもよい。いくつかの例では、第1のNNはフォールディングモジュールを含むことができ、第2のNNは分割モジュールを含むことができる。
【0200】
特定の代表的な実施形態では、多段階訓練動作の第1の段階において、訓練は、入力データ表現と再構築された入力データ表現との間の差に関連する第1の損失条件を満たす第1のNN内のノードに関連するパラメータの値を反復的に決定することを含むことができ、及び/又は多段階訓練動作の第2の段階において、訓練は、入力データ表現と再構築された入力データ表現との間の差に関連する第2の損失条件を満たす第1及び第2のNN内のノードに関連するパラメータの値を反復的に決定することを含むことができる。例えば、多段階訓練動作の第1の段階における第1のNN内のノードに関連する決定された値は、多段階訓練動作の第2の段階における第1のNNのノードのために最初に使用された値であり得る。
【0201】
図12は、別の代表的な方法(例えば、NNBDによって実装される)を示すブロック図である。
【0202】
図12を参照すると、代表的な方法1200は、ブロック1210において、NNBDが、入力データ表現の記述子としてコードワードを取得又は受信することを含み得る。ブロック1220において、NNBDは、コードワードに基づいて、入力データ表現の予備的再構築を決定することができる。ブロック1230において、NNBDは、(1)入力データ表現に関連する初期グラフ、(2)入力データ表現の予備的再構築、及び(3)コードワードに基づいて、修正されたグラフを決定することができる。修正されたグラフは、入力データ表現に関連するトポロジ情報を示し得る。
【0203】
特定の代表的な実施形態では、修正されたグラフ、進化したグラフ、及び/又は精緻化され修正されたグラフが、入力データ表現に関連するトポロジ情報を提供するために出力され、使用され得る。
【0204】
特定の代表的な実施形態では、NNBDは、修正されたグラフによって示されるトポロジ情報に従って、以下のうちのいずれかを識別することができる。(1)入力データ表現で表される1つ以上のオブジェクト、(2)オブジェクトの数、(3)入力データ表現で表されるオブジェクト表面、及び/又は(4)入力データ表現で表されるオブジェクトの動きベクトル。
【0205】
特定の代表的な実施形態では、NNBDは、コードワード及び修正されたグラフに基づいて、入力データ表現の精緻化された再構築を決定することができ、及び/又は、(1)修正されたグラフ、(2)入力データ表現の精緻化された再構築、及び(3)コードワードに基づいて、精緻化された修正されたグラフを決定することができ、精緻化された修正されたグラフは、入力データ表現に関連する精緻化されたトポロジ情報を示すことができる。
【0206】
図13は、例えば、符号化ネットワーク(E-Net)モジュール及びニューラルネットワークベースのデコーダ(NNBD)を含む、(例えば、ニューラルネットワークベースのオートエンコーダ(NNBAE)によって実装される)更なる代表的な方法を示すブロック図である。
【0207】
図13を参照すると、代表的な方法1300は、ブロック1310において、NNBAEのE-Netモジュールが、入力データ表現に基づいて、コードワードを入力データ表現の記述子として決定することを含み得る。ブロック1320において、NNBAEのF-Net/フォールディングモジュールは、少なくともコードワード及びK個の点を有する初期グラフに基づいて、入力データ表現の予備的再構築を決定することができる。ブロック1330において、NNBDのT-Net/分割モジュールは、少なくともコードワード及び初期グラフに基づいて、初期グラフから発展した修正Nグラフを決定することができる。ブロック1340において、NNBDのF-Netモジュールは、少なくともコードワード及び修正されたグラフに基づいて、入力データ表現の精緻化された再構築を決定することができる。修正されたグラフは、入力データ表現に関連するトポロジ情報を示してもよく、E-Netモジュールは、NNBDと共同で訓練されてもよい。
【0208】
図14は、追加の代表的な方法(例えば、NNBDによって実装される)を示すブロック図である。
【0209】
図14を参照すると、代表的な方法1400は、ブロック1410において、NNBDが、入力データ表現の記述子としてコードワードを取得又は受信することを含み得る。ブロック1420において、第1のNN及び/又はフォールディングネットワーク(F-Net)モジュールは、少なくともコードワード及びK個の点を有するN次元点セットに基づいて、入力データ表現の予備的再構築を決定することができ、ここで、Nは整数である。ブロック1430において、NNBDは、少なくともコードワード及びN次元点セットに基づいて、N次元点セットから進化した修正されたN次元点セットを決定することができる。ブロック1440において、第1のNN及び/又はF-Netモジュールは、少なくともコードワード及び修正されたN次元点セットに基づいて、入力データ表現の精緻化された再構築を決定することができる。修正されたN次元点セットは、入力データ表現に関連するトポロジ情報を示し得る。
【0210】
いくつかの代表的な実施形態では、第2のNN及び/又は分割ネットワーク(T-Net)モジュールは、少なくともコードワード及びN次元点セットに基づいて、N次元点セットに対する修正を決定することができる。修正されたN次元点セットの決定は、修正されたN次元点セットを生成するために、M次元点セットをN次元点セットに対する修正と組み合わせることを含み得る。
【0211】
特定の代表的な実施形態では、N次元点セットに対する修正の決定は、(1)連結行列としての、複製されたコードワードとN次元点セットとの連結、(2)1つ以上のCNNへの連結行列の入力、(3)連結行列からの1つ以上のCNNによる、M次元特徴空間における第2の点セットの生成、(4)複製されたコードワード、N次元点セット、及び第2の点セットを第2の連結行列として連結すること、及び/又は(5)第2の連結行列からの1つ以上のCNNによる、N次元点セットに対する修正の生成、のうちのいずれかを含み得る。
【0212】
特定の代表的な実施形態ではNNBDは、1つ以上のNNを使用して連結行列に対して一連の畳み込み層演算を実行して、修正されたN次元点セットを生成することができ、各畳み込み層演算のカーネルサイズは、とりわけ、(1)1×1カーネルサイズ、(2)3×3カーネルサイズ、及び/又は(3)5×5カーネルサイズなどのいずれかとすることができる。
【0213】
特定の代表的実施形態では、入力データ表現は、(1)点群、(2)画像、(3)ビデオ、又は(4)オーディオのうちのいずれかであってもよく、又はそれを含んでもよい。
【0214】
特定の代表的な実施形態では、Nは2に等しく、入力データ表現は点群であってもよく、又は点群を含んでもよい。
【0215】
特定の代表的な実施形態では、NNBDは、グラフ条件付きNNBDであってもよく、又はそれを含む。
【0216】
いくつかの例では、入力データ表現の精緻化された再構築の決定は、少なくともF-Netモジュールの反復動作を介して実行されてもよい。
【0217】
特定の代表的な実施形態では、NNBDは、1つ以上のCNN及び/又は1つ以上のMLPのうちのいずれかを含んでもよい。
【0218】
特定の代表的な実施形態では、NNBDは、1つ以上のMLPを含んでもよい。例えば、修正されたN次元点セットは、1つ以上のMLPによって生成された勾配情報に更に基づき得る。
【0219】
特定の代表的な実施形態では、NNBDは、修正されたN次元点セットによって示されるトポロジ情報に従って、入力データ表現で表される1つ以上のオブジェクトを識別し得る。例えば、NNBD又は別のデバイスは、トポロジ情報を使用して、入力データ表現内の1つ以上のオブジェクトを識別し、及び/又は修正されたN次元点セットによって示されるトポロジ情報に従って入力データ表現で表されるいくつかのオブジェクトを識別することができる。
【0220】
別の例として、NNBD又は別のデバイスは、修正されたN次元点セットによって示されるトポロジ情報に従って、入力データ表現で表されるオブジェクト表面を識別し得る。
【0221】
特定の代表的な実施形態では、NNBDは、修正されたN次元点セットから、入力データ表現の異なるトポロジ領域を識別するパッチを決定し得る。
【0222】
特定の代表的な実施形態ではコードワードは、オブジェクト又は複数のオブジェクトを有するシーンを表す記述子ベクトルであってもよく、又はそれを含んでもよい。
【0223】
特定の代表的な実施形態では、N次元点セットは、2D点セットであってもよく、又はそれを含んでもよい。例えば、入力データ表現は、点群であってもよく、又はそれを含んでもよく、及び/又は入力データ表現の予備的再構築の決定は、記述子ベクトルと、平面内の所定のサンプリングで初期化される2D点セットとに基づく変形動作の実行を含んでもよい。
【0224】
特定の代表的な実施形態では、入力データ表現の予備的再構築の決定は、点群の予備的再構築の生成を含み得る。
【0225】
特定の代表的な実施形態では、2D点セットからの進化した修正されたN次元点セットの決定は、点群、記述子ベクトル、及び2D点セットの予備的再構築に基づく分割動作の実行、及び/又は2D点セットからの修正された2D点セットとしての修正されたN次元点セットの生成を含み得る。
【0226】
特定の代表的な実施形態では、NNBDは、2D点セット及び修正された2D点セットに基づいて局所接続グラフを生成することができる。
【0227】
特定の代表的な実施形態では、NNBD又は別のデバイス(例えばグラフフィルタなど)は、グラフフィルタリングを構築/実装してもよい(例えば、F-Netモジュールからの点群の精緻化された再構築に対して生成されたグラフフィルタを使用してグラフフィルタリングを実行してもよく、及び/又は点群のフィルタリングされ精緻化された再構築を出力してもよい)。
【0228】
特定の代表的な実施形態では、局所接続グラフは、以下に基づいて構築されもよい。(1)2D点セット内の最近傍についてのグラフエッジの生成、(2)修正された2D点セット内の点距離に基づくグラフエッジ重みの割り当て、及び/又は閾値よりも小さいグラフ重みを有するグラフエッジのプルーニング。
【0229】
特定の代表的な実施形態では、点群の精緻化された再構築に対するグラフフィルタリングの実行は、精緻化され再構築された点群がグラフ領域において平滑化され得るように、平滑化され再構築された精緻化された点群の生成を含み得る。
【0230】
いくつかの代表的な実施形態では、NNBDは、2段階訓練動作に従ってNNBD内のニューラルネットワーク重みを設定することができる。例えば、2段階訓練動作の第1の段階において、F-Netモジュールは、スーパーセット距離を損失関数として使用して訓練されてもよく、及び/又は、2段階訓練動作の第2の段階において、F-Netモジュール及びT-Netモジュールは、面取り距離をスーパーセット距離及びサブセット距離に基づく損失関数として使用して訓練されてもよい。
【0231】
特定の代表的な実施形態ではN次元点セットは、各点が2D位置を示し得る、点の行列を含む2Dグリッドであってもよく、又はそれを含んでもよい。例えば、2Dグリッドは多様体に関連付けられてもよく、各点は、多様体上の固定位置を示してもよく、及び/又は2Dグリッドは、多様体として、2D平面、球、又は立方体ボックス表面からサンプリングされた点の固定セットであってもよい。
【0232】
特定の代表的な実施形態では、NNBDは、受信又は取得したコードワードを複製して、2Dグリッドのサイズであり得る複製されたコードワードのコードワード行列を生成することができ、及び/又はコードワード行列を連結行列に連結することができる。
【0233】
特定の代表的な実施形態では、修正されたN次元点セットの決定は、K×(D+N)連結行列を生成するための、複製されたコードワードからのK×D行列とN次元点セットからのK×N行列との連結、1つ以上のCNN及び/又はMLPへの連結行列の入力、連結行列からの1つ以上のCNN及び/又はMLPによる、N次元点セットに対する修正の生成、及び/又は修正に基づいてN次元点セットを更新することによる、修正されたN次元点セットの生成、のうちのいずれかを含むことができる。
【0234】
特定の代表的な実施形態では、NNBDは、(1)複製されたコードワードからのK×D行列を第1のCNN層又はMLP層の出力に連結すること、及び/又は、(2)連結行列を第1のCNN層又はMLP層に続く次のCNN層又はMLP層に入力することのうちのいずれかを行うことができる。
【0235】
図15は、多段階訓練動作を使用する(例えば、ニューラルネットワーク(NN)によって実装される)代表的な訓練方法を示すブロック図である。
【0236】
図15を参照すると、代表的な方法1500は、ブロック1510において、多段階訓練動作の第1の段階において、スーパーセット距離を損失関数として使用して訓練されたNNの第1のニューラルネットワークを含み得る。ブロック1520において、多段階訓練動作の第2の段階において、第1のニューラルネットワーク及び第1のニューラルネットワークにインターフェースされた第2のニューラルネットワークは、スーパーセット距離及びサブセット距離に基づく損失関数として、面取り距離を使用して訓練され得る。
【0237】
図16は、(例えば、E-Netモジュール及びNNBDを含むNNBAEによって実装される)代表的な訓練方法を示すブロック図である。
【0238】
図16を参照すると、代表的な方法1600は、ブロック1610において、E-Netモジュールによって、入力データ表現に基づいて、コードワードを入力データ表現の記述子として決定することを含み得る。ブロック1620において、NNBDのF-Netモジュールは、少なくともコードワード及びK個の点を有するN次元点セットに基づいて、入力データ表現の予備的再構築を決定することができ、ここで、Nは整数である。ブロック1630において、NNBDは、少なくともコードワード及びN次元点セットに基づいて、N次元点セットから進化した修正されたN次元点セットを決定することができる。ブロック1640において、F-Netモジュールは、少なくともコードワード及び修正されたN次元点セットに基づいて、入力データ表現の精緻化された再構築を決定することができる。例えば、修正されたN次元点セットは、入力データ表現に関連するトポロジ情報を示してもよく、及び/又はE-Netは、NNBDと共同で訓練されてもよい。
【0239】
特定の代表的な実施形態では、NNBD又は別のデバイスは、トポロジフレンドリコードワードに埋め込まれたトポロジ情報に従って、入力データ表現で表される1つ以上のオブジェクトを識別し得る。
【0240】
特定の代表的な実施形態では、NNBD又は別のデバイスは、トポロジフレンドリコードワードに埋め込まれたトポロジ情報に従って、入力データ表現で表されるいくつかのオブジェクトを識別し得る。
【0241】
特定の代表的な実施形態では、分割ネットワーク(T-Net)モジュールは、少なくともコードワード及びN次元点セットに基づいて、N次元点セットへの修正を決定することができる。例えば、修正されたN次元点セットの決定は、修正されたN次元点セットを生成するために、M次元点セットをN次元点セットに対する修正と組み合わせることを含み得る。
【0242】
代表的な実施形態によるデータを処理するためのシステム及び方法は、メモリデバイスに含まれる命令のシーケンスを実行する1つ以上のプロセッサによって実行され得る。そのような命令は、2次データ記憶装置などの他のコンピュータ可読媒体からメモリデバイスに読み込まれてもよい。メモリデバイスに含まれる命令のシーケンスの実行により、プロセッサは、例えば上述したように動作する。代替の実施形態では、本発明を実施するために、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて、ハードワイヤ回路を使用することができる。
【0243】
ハードウェア(例えば、プロセッサ、GPU、又は他のハードウェア)及び適切なソフトウェアは、とりわけ、知覚ニューラルネットワークアーキテクチャ、フィードフォワードニューラルネットワークアーキテクチャ、ラジアル基底ネットワークアーキテクチャ、ディープフィードフォワードニューラルネットワークアーキテクチャ、リカレントニューラルネットワークアーキテクチャ、長期/短期記憶ニューラルネットワークアーキテクチャ、ゲーテッドリカレントユニットニューラルネットワークアーキテクチャ、オートエンコーダ(AE)ニューラルネットワークアーキテクチャ、バリエーションAEニューラルネットワークアーキテクチャ、ノイズ除去AEニューラルネットワークアーキテクチャ、スパースAEニューラルネットワークアーキテクチャ、マルコフ連鎖ニューラルネットワークアーキテクチャ、ホップフィールドネットワークニューラルネットワークアーキテクチャ、ボルツマンマシン(BM)ニューラルネットワークアーキテクチャ、制限BMニューラルネットワークアーキテクチャ、深層信念ネットワークニューラルネットワークアーキテクチャ、深層畳み込みネットワークニューラルネットワークアーキテクチャ、デコンボリューショナルネットワークアーキテクチャ、深層畳み込み逆グラフィックスネットワークkアーキテクチャ、敵対的生成ネットワークアーキテクチャ、液体状態機械ニューラルネットワークアーキテクチャ、極限学習機械ニューラルネットワークアーキテクチャ、エコー状態ネットワークアーキテクチャ、深層残差ネットワークアーキテクチャ、Kohonenネットワークアーキテクチャ、サポートベクターマシンニューラルネットワークアーキテクチャ、及びニューラルチューリングマシンニューラルネットワークアーキテクチャなどの様々なアーキテクチャを有する1つ以上のニューラルネットワークを実装し得る。様々なアーキテクチャにおける各セルは、バックフィードセル、入力セル、ノイジー入力セル、隠れセル、確率的隠れセル、スパイキング隠れセル、出力セル、マッチ入力出力セル、リカレントセル、メモリセル、異なるメモリセル、カーネルセル、又は畳み込み/プールセルとして実装され得る。ニューラルネットワークのセルのサブセットは、複数の層を形成し得る。これらのニューラルネットワークは、手動で、又は自動化された訓練プロセスを通して訓練され得る。
【0244】
特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。更に、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアに実装され得る。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びCD-ROMディスク及びデジタル多用途ディスク(DVD)などの光学媒体が挙げられるが、これらに限定されない。ソフトウェアと関連付けられたプロセッサを使用して、WTRU102、UE、端末、基地局、RNC、又は任意のホストコンピュータにおいて使用するための無線周波数トランシーバを実装し得る。
【0245】
更に、上記の実施形態では、処理プラットフォーム、コンピューティングシステム、コントローラ、及びプロセッサを含む他のデバイスが記載されている。これらのデバイスは、少なくとも1つの中央処理装置(「CPU」)及びメモリを含み得る。コンピュータプログラミングの技術分野における当業者の慣例によれば、動作、及び演算又は命令の記号表現の言及は、様々なCPU及びメモリによって実施され得る。そのような動作及び演算又は命令は、「実行される」、「コンピュータによって実行される」、又は「CPUによって実行される」と言及されることがある。
【0246】
当該技術分野における通常の技術を有する者には、動作及び記号的に表現された演算又は命令が、CPUによる電気信号の操作を含むことが理解されるであろう。電気システムは、電気信号の結果的な変換又は減少を引き起こすことができるデータビットを表し、メモリシステムのメモリ位置にデータビットを維持し、それによってCPUの動作及び他の信号の処理を再構成又は別の方法で変更する。データビットが維持されるメモリ位置は、データビットに対応する、又はデータビットを表す特定の電気的特性、磁気的特性、光学的特性、又は有機的特性を有する物理的位置である。代表的な実施形態は、上述のプラットフォーム又はCPUに限定されず、他のプラットフォーム及びCPUが、提供された方法をサポートし得るということを理解されたい。
【0247】
データビットはまた、磁気ディスク、光学ディスク、及び任意の他の揮発性(例えば、ランダムアクセスメモリ(「RAM」))又はCPUによって読み取り可能な不揮発性(例えば、読み取り専用メモリ(「ROM」))大容量記憶システムを含む、コンピュータ可読媒体上に維持され得る。コンピュータ可読媒体は、処理システム上に排他的に存在するか、又は処理システムに対してローカル又はリモートであり得る複数の相互接続された処理システム間で分散された、協調的又は相互接続されたコンピュータ可読媒体を含んでもよい。代表的な実施形態は、上述のメモリに限定されず、他のプラットフォーム及びメモリが、記載された方法をサポートし得るということが理解される。
【0248】
例示的な実施形態において、本明細書に記載されている動作、プロセスなどのいずれも、コンピュータ可読媒体に格納されたコンピュータ可読命令として実装されてもよい。コンピュータ可読命令は、移動体、ネットワーク要素、及び/又は任意の他のコンピューティングデバイスのプロセッサによって実行され得る。
【0249】
システムの態様のハードウェア実装とソフトウェア実装の間には、ほとんど区別がない。ハードウェア又はソフトウェアの使用は、一般に(常にではないが、特定の状況では、ハードウェアとソフトウェアとの間の選択が大きな意味を持ち得る)、コスト対効率のトレードオフを意味する設計上の選択事項である。本明細書に記載されているプロセス及び/又はシステム及び/又は他の技術が影響を受ける可能性があり得る様々なビークル(例えばハードウェア、ソフトウェア、及び/又はファームウェア)が存在し得、好ましいビークルは、プロセス及び/又はシステム及び/又は他の技術が配備される状況によって変化し得る。例えば、実装者が、速度及び正確性が最重要であると判断した場合、実装者は、主にハードウェア及び/又はファームウェアのビークルを選択することができる。柔軟性が最重要である場合、実装者は、主にソフトウェア実装を選択することができる。あるいは、実装者は、ハードウェア、ソフトウェア、及び/又はファームウェアの何らかの組み合わせを選択してもよい。
【0250】
前述の詳細な説明では、ブロック図、フローチャート、及び/又は例の使用を通じて、デバイス及び/又はプロセスの様々な実施形態を示した。そのようなブロック図、フローチャート、及び/又は例が1つ以上の機能及び/又は動作を含む限り、そのようなブロック図、フローチャート、又は例の中の各機能及び/又は各動作は、広範なハードウェア、ソフトウェア、ファームウェア、又はそれらの実質的に任意の組み合わせによって、個別にかつ/又は集合的に実装されてよいことが当業者には理解されるであろう。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと関連付けられた1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、特定用途用標準製品(ASSP)、フィールドプログラマブルゲートアレイ(FPGA)回路、任意の他のタイプの集積回路(IC)、及び/又は状態機械が挙げられる。
【0251】
上記では特徴及び要素が特定の組み合わせにおいて提供されているが、当該技術分野の通常の技術を有する者には、各特徴若しくは各要素を単独で使用する、又は他の特徴及び要素との任意の組み合わせにおいて使用できることが理解されるであろう。本開示は、本出願に記載されている特定の実施形態の観点において限定されるものではなく、これらの実施形態は、様々な態様の例示として意図されるものである。当業者には明らかなように、本発明の趣旨及び範囲から逸脱することなく、多くの修正及び変形を行うことができる。本出願の説明において使用されているいかなる要素、動作、又は指示も、そのように明示的に提示されていない限り、本発明にとって重要又は本質的であると解釈されるべきではない。本明細書に列挙したものに加えて、本開示の範囲内の機能的に等価な方法及び装置が、上述した説明から、当業者には明らかであろう。そのような修正及び変形は、添付の請求項の範囲に入ることが意図されている。本開示は、添付の請求項の条項によってのみ限定されるものであり、かかる請求項が権利を有する等価物の完全な範囲と共に、限定されるものである。本開示は、特定の方法又はシステムに限定されないことを理解されたい。
【0252】
本明細書で使用される用語は、特定の実施形態のみを説明する目的のためであり、限定することを意図するものではないということも理解されたい。本明細書で使用される場合、本明細書で言及される場合、「ステーション」及びその略語「STA」、「ユーザ機器」及びその略語「UE」は、(i)記載されたインフラストラクチャなどの無線送信及び/又は受信ユニット(WTRU)、(ii)記載されたインフラストラクチャのような、WTRUのいくつかの実施形態の任意のもの、(iii)例示されるようなWTRU(例えば記載されたインフラストラクチャなど)の一部又は全ての構造及び機能を有して構成された無線可能及び/又は有線可能な(例えば、テザー可能な)デバイス、(iii)記載されるようなWTRU(例えば記載されたインフラストラクチャなど)の、全てよりも少ない構造及び機能を有して構成された無線可能及び/又は有線可能デバイス、又は(iv)その他、を意味し得る、又は含み得る。本明細書に列挙される任意のUEを代表し得る例示的なWTRUの詳細が、図1A図1Dに関して以下に提供される。
【0253】
特定の代表的な実施形態では、本明細書に記載の主題のいくつかの部分は、特定用途用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、及び/又は他の統合フォーマットを介して実装され得る。しかしながら、本明細書に開示されている実施形態のいくつかの態様は、その全体又は一部が、1つ以上のコンピュータ上で動作する1つ以上のコンピュータプログラムとして(例えば1つ以上のコンピュータシステム上で動作する1つ以上のプログラムとして)、1つ以上のプロセッサ上で動作する1つ以上のプログラムとして(例えば1つ以上のマイクロプロセッサ上で動作する1つ以上のプログラムとして)、ファームウェアとして、又はこれらの実質的に任意の組み合わせとして、集積回路において等価的に実施され得ること、並びに、回路を設計すること、及び/又は、ソフトウェア及び/若しくはファームウェアのコードを書くことが、この開示に照らして当業者の技術の範囲内であることが、当業者には認識されるであろう。更に、本明細書に記載されている主題のメカニズムが、様々な形態のプログラム製品として配布され得ること、及び、本明細書に記載されている主題の例示的な実施形態が、配布を実際に行うために使用される特定のタイプの信号担持媒体にかかわらず適用されることが、当業者には理解されるであろう。信号担持媒体の例としては、フロッピーディスク、ハードディスクドライブ、CD、DVD、デジタルテープ、コンピュータメモリなどの記録可能型媒体、並びに、デジタル及び/又はアナログ通信媒体(例えば光ファイバケーブル、導波管、有線通信リンク、無線通信リンクなど)などの伝送型媒体が挙げられ、ただしこれらに限定されない。
【0254】
本明細書に記載されている主題は、場合によっては、異なる他の構成要素内に含まれるか、又は、異なる他の構成要素に接続されている、異なる構成要素を示していることがある。そのような図示されたアーキテクチャは単なる例であり、実際には、同じ機能を達成する他の多くのアーキテクチャが実施され得ることを理解されたい。概念的には、同じ機能を達成するための構成要素の任意の配置は、所望の機能が達成され得るように、効果的に「関連付けられる」。したがって、特定の機能を達成するために本明細書において組み合わされた、任意の2つの構成要素は、アーキテクチャ又は中間構成要素に関係なく、所望の機能が達成されるように、互いに「関連付けられた」として見ることができる。同様に、そのように関連付けられた任意の2つの構成要素は、所望の機能を達成するために互いに「動作可能に接続されている」、又は「動作可能に結合されている」とみなすこともでき、そのように関連付けることができる任意の2つの構成要素は、所望の機能を達成するために互いに「動作可能に結合可能」であるとみなすこともできる。動作可能に結合可能の具体例としては、物理的に嵌合可能かつ/若しくは物理的に相互作用する構成要素、及び/又は、無線で相互作用可能かつ/若しくは無線で相互作用する構成要素、及び/又は、論理的に相互作用するかつ/若しくは論理的に相互作用可能な構成要素が挙げられ、ただしこれらに限定されない。
【0255】
本明細書における実質的に任意の複数形及び/又は単数形の用語の使用に関して、当業者は、文脈及び/又は用途に適切であるように、複数形から単数形に、かつ/又は単数形から複数形に変換することができる。本明細書では、明瞭にする目的で、様々な単数形/複数形の並べ換えが明示的に記載され得る。
【0256】
一般に、本明細書、特に添付の請求項(例えば添付の請求項の本体)において使用されている用語は、一般に「非限定」用語として意図されることが当業者には理解されるであろう(例えば、用語「含んでいる」は、「含んでいるがそれらに限定されない」と解釈するべきであり、用語「有する」は、「を少なくとも有する」と解釈するべきであり、用語「含む」は、「含むがそれらに限定されない」と解釈するべきである)。更に、導入された請求項の特定の数の記載が意図される場合、そのような意図は請求項に明示的に記載されており、そのような記載がない場合、そのような意図は存在しないことが、当業者には理解されるであろう。例えば、1つの項目のみが意図される場合、「単一」という用語又は類似する言葉が使用され得る。理解を助けるために、以下の添付の請求項及び/又は本明細書の説明は、請求項の記載を導入するために「少なくとも1つの」及び「1つ以上の」という導入句の使用を含み得る。しかしながら、このような句の使用は、不定冠詞「a」又は「an」による請求項の記載の導入が、そのような導入された請求項の記載を含む任意の特定の請求項を、1つのそのような記載のみを含む実施形態に制限することを意味するものと解釈すべきではなく、たとえ同じ請求項に、導入句「1つ以上の」又は「少なくとも1つの」及び「a」又は「an」などの不定冠詞が含まれていても同様である(例えば「a」及び/又は「an」は「少なくとも1つの」又は「1つ以上」を意味するものと解釈すべきである)。請求項の記載を導入するために使用される定冠詞の使用も同様である。更に、導入された請求項の特定の数の記載が明示的に記載されている場合でも、かかる記載は少なくとも記載された数を意味するものと解釈されるべきであることが、当業者には認識されるであろう(例えば、他の修飾語なしの「2つの記載」という単純な記載は、少なくとも2つの記載、又は2つ以上の記載を意味する)。更に、「A、B、及びCのうちの少なくとも1つ」に類似する表記が使用される場合、一般に、そのような構造は、当業者がその表記を理解するであろう意味として意図される(例えば、「A、B、及びCのうちの少なくとも1つを有するシステム」は、Aのみ、Bのみ、Cのみ、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、並びに/又は、A、B、及びCを一緒に、有するシステムを含み、ただしこれらに限定されない)。「A、B、又はCのうちの少なくとも1つ」に類似する表記が使用される場合、一般に、そのような構造は、当業者がその表記を理解するであろう意味として意図される(例えば、「A、B、又はCのうちの少なくとも1つを有するシステム」は、Aのみ、Bのみ、Cのみ、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、並びに/又は、A、B、及びCを一緒に、有するシステムを含み、ただしこれらに限定されない)。説明、請求項、又は図面のいずれにおいても、2つ以上の代替的な用語を提示する実質的に任意の離接的な語及び/又は句は、用語の一方、用語のいずれか、又は両方の用語を含む可能性を企図するものと理解されるべきであることが、当業者には更に理解されるであろう。例えば、「A又はB」という句は、「A」若しくは「B」又は「A及びB」の可能性を含むものと理解されたい。更に、本明細書で使用される、複数の項目のリスト及び/又は複数の項目のカテゴリのリストが後ろに続く用語「~のいずれか」は、項目及び/又は項目のカテゴリの、「のいずれか」、「の任意の組み合わせ」、「の任意の複数」、及び/又は「の任意の複数の組み合わせ」を、個別に、又は他の項目及び/又は他の項目のカテゴリとの組み合わせにおいて、含むことを意図している。更に、本明細書で使用される場合、「セット/組」又は「グループ/群」という用語は、ゼロを含む任意の数のアイテムを含むことが意図される。更に、本明細書で使用される、用語「数」は、ゼロを含む任意の数を含むことを意図している。
【0257】
更に、本開示の特徴又は態様がMarkush群の観点から説明されている場合、当業者には、本開示がそれによってMarkush群の任意の個々のメンバー又はメンバーのサブグループの観点からも説明されることが認識されるであろう。
【0258】
当業者には理解されるように、書面による説明を提供するという観点など、あらゆる目的のために、本明細書に開示される全ての範囲は、その任意の可能な部分範囲及び部分範囲の組み合わせも包含している。任意の列挙された範囲は、同じ範囲が、少なくとも等しい2分の1、3分の1、4分の1、5分の1、10分の1などに分解されることを十分に説明して可能にするものとして、容易に認識することができる。非限定的な例として、本明細書に記載されている各範囲は、下位3分の1、中央の3分の1、及び上位3分の1などに容易に分解され得る。また、当業者には理解されるように、「まで」、「少なくとも」、「より大きい」、「より小さい」等の全ての言葉は、言及された数を含み、かつ、上述したように更に部分範囲に分解され得る範囲を意味する。最後に、当業者には理解されるように、範囲は個々の要素を含む。したがって、例えば、1~3個のセルを有するグループは、1個、2個、又は3個のセルを有するグループを指す。同様に、1~5個のセルを有するグループは、1個、2個、3個、4個、又は5個のセルを有するグループを指し、以下同様である。
【0259】
更に、請求項は、特にそのように記載されない限り、提供された順序又は提供された要素に限定されるものとして読まれるべきではない。更に、いかなる請求項においても、「ための手段」という用語の使用は、米国特許法第112条、第6項、又はミーンズプラスファンクションの請求項形式に訴えることを意図しており、「ための手段」という用語を有さないいかなる請求項もそのようには意図されていない。
【0260】
ソフトウェアに関連するプロセッサを使用して、無線送受信ユニット(WTRU)、ユーザ機器(UE)、端末、基地局、モビリティ管理エンティティ(MME)若しくは進化型パケットコア(Evolved Packet Core、EPC)、又は任意のホストコンピュータで使用するための、無線周波数トランシーバを実装し得る。WTRUは、例えば、ソフトウェア無線(Software Defined Radio、SDR)などのハードウェア及び/又はソフトウェアに実装されたモジュールと併せて使用されてもよく、また、カメラ、ビデオカメラモジュール、テレビ電話、スピーカ電話、振動デバイス、スピーカ、マイクロフォン、テレビトランシーバ、ハンズフリー式ヘッドセット、キーボード、ブルートゥース(登録商標)モジュール、周波数変調(FM)ラジオユニット、近距離無線通信(Near Field Communication、NFC)モジュール、LCDディスプレイユニット、有機発光ダイオード(OLED)ディスプレイユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、及び/又は無線ローカルエリアネットワーク(WLAN)又は超広帯域(Ultra Wide Band、UWB)モジュールなどの他のコンポーネントに実装されてもよい。
【0261】
本発明は、通信システムに関して説明されてきたが、システムは、マイクロプロセッサ/汎用コンピュータ(図示せず)上のソフトウェアに実装され得ることが企図される。特定の実施形態では、様々な構成要素の機能のうちの1つ以上は、汎用コンピュータを制御するソフトウェアに実装され得る。
【0262】
更に、本発明は、特定の実施形態を参照して本明細書に例示及び説明されるが、本発明は、示された詳細に限定されることを意図していない。むしろ、請求項の範囲及びその等価物の範囲内にいて、しかも本発明から逸脱することなく、詳細に様々な修正を行うことができる。
【0263】
本開示を通して、当業者は、ある特定の代表的な実施形態が、代替的又は他の代表的な実施形態と組み合わせて使用され得ることを理解する。
【0264】
特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。更に、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアに実装され得る。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びCD-ROMディスク及びデジタル多用途ディスク(DVD)などの光学媒体が挙げられるが、これらに限定されない。ソフトウェアと関連付けられたプロセッサを使用して、WTRU、UE、端末、基地局、RNC又は任意のホストコンピュータにおいて使用するための無線周波数トランシーバを実装し得る。
【0265】
更に、上記の実施形態では、処理プラットフォーム、コンピューティングシステム、コントローラ、及びプロセッサを含む他のデバイスが記載されている。これらのデバイスは、少なくとも1つの中央処理装置(「CPU」)及びメモリを含み得る。コンピュータプログラミングの技術分野における当業者の慣例によれば、動作、及び演算又は命令の記号表現の言及は、様々なCPU及びメモリによって実施され得る。そのような動作及び演算又は命令は、「実行される」、「コンピュータによって実行される」、又は「CPUによって実行される」と言及されることがある。
【0266】
当該技術分野における通常の技術を有する者には、動作及び記号的に表現された演算又は命令が、CPUによる電気信号の操作を含むことが理解されるであろう。電気システムは、電気信号の結果的な変換又は減少を引き起こすことができるデータビットを表し、メモリシステムのメモリ位置にデータビットを維持し、それによってCPUの動作及び他の信号の処理を再構成又は別の方法で変更する。データビットが維持されるメモリ位置は、データビットに対応する、又はデータビットを表す特定の電気的特性、磁気的特性、光学的特性、又は有機的特性を有する物理的位置である。
【0267】
データビットはまた、磁気ディスク、光学ディスク、及び任意の他の揮発性(例えば、ランダムアクセスメモリ(「RAM」))又はCPUによって読み取り可能な不揮発性(例えば、読み取り専用メモリ(「ROM」))大容量記憶システムを含む、コンピュータ可読媒体上に維持され得る。コンピュータ可読媒体は、処理システム上に排他的に存在するか、又は処理システムに対してローカル又はリモートであり得る複数の相互接続された処理システム間で分散された、協調的又は相互接続されたコンピュータ可読媒体を含んでもよい。代表的な実施形態は、上述のメモリに限定されず、他のプラットフォーム及びメモリが、記載された方法をサポートし得るということが理解される。
【0268】
好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと関連付けられた1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、特定用途用標準製品(ASSP)、フィールドプログラマブルゲートアレイ(FPGA)回路、任意の他のタイプの集積回路(IC)、及び/又は状態機械が挙げられる。
【0269】
本発明は、通信システムに関して説明されてきたが、システムは、マイクロプロセッサ/汎用コンピュータ(図示せず)上のソフトウェアに実装され得ることが企図される。特定の実施形態では、様々な構成要素の機能のうちの1つ以上は、汎用コンピュータを制御するソフトウェアに実装され得る。
【0270】
更に、本発明は、特定の実施形態を参照して本明細書に例示及び説明されるが、本発明は、示された詳細に限定されることを意図していない。むしろ、請求項の範囲及びその等価物の範囲内にいて、しかも本発明から逸脱することなく、詳細に様々な修正を行うことができる。
図1A
図1B
図1C
図1D
図2
図3
図4
図5
図6
図7A
図7B
図7C
図8
図9
図10
図11
図12
図13
図14
図15
図16
【手続補正書】
【提出日】2023-02-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ニューラルネットワークベースのデコーダ(NNBD)によって実装される方法であって、
前記NNBDによって、入力データ表現の記述子としてコードワードを取得又は受信することと、
第1のニューラルネットワークモジュールによって、少なくとも前記コードワード及び初期グラフに基づいて、前記入力データ表現の予備的再構築を決定することと、
第2のニューラルネットワークモジュールによって、少なくとも前記予備的再構築及び前記コードワードに基づいて、修正されたグラフを決定することと、
前記第1のニューラルネットワークモジュールによって、少なくとも前記コードワード及び前記修正されたグラフに基づいて、前記入力データ表現の精緻化された再構築を決定することであって、
前記修正されたグラフは、前記入力データ表現に関連するトポロジ情報を示す、ことと、を含む、方法。
【請求項2】
前記修正されたグラフは、前記初期グラフと前記第2のニューラルネットワークモジュールの出力とを組み合わせることによって決定される、請求項1に記載の方法。
【請求項3】
前記修正されたグラフは、局所接続グラフである、請求項1に記載の方法。
【請求項4】
少なくとも複製されたコードワード、前記初期グラフ又は前記修正されたグラフ、及び前記再構築されたデータ表現を連結することによって、1つ以上の畳み込みニューラルネットワーク(CNN)によって処理するための連結行列を生成することを更に含む、請求項1に記載の方法。
【請求項5】
前記NNBDはグラフ条件付きNNBDであり、
前記入力データ表現の前記精緻化された再構築を前記決定することは、少なくとも前記第1のニューラルネットワークモジュールの複数の反復動作を介して実行される、
請求項1に記載の方法。
【請求項6】
前記NNBDは、1つ以上の多層パーセプトロン(MLP)を含み、
前記修正されたグラフ及び前記データ表現の前記精緻化された再構築は、前記1つ以上のMLPによって生成された勾配情報に更に基づく、
請求項1に記載の方法。
【請求項7】
前記初期グラフ及び前記修正されたグラフは、2次元(2D)点セットであり、
前記入力データ表現は点群であり、
前記入力データ表現の前記予備的再構築を前記決定することは、前記記述子ベクトルと、平面内の所定のサンプリングで初期化される前記2D点セットとに基づいて、変形動作を実行することを含む、
請求項1に記載の方法。
【請求項8】
前記修正されたグラフを前記決定することは、
前記修正されたグラフを生成するために、前記入力データ表現、前記記述子ベクトル、及び前記初期グラフの前記予備的再構築に基づいて、分割動作を実行することを含む、請求項1に記載の方法。
【請求項9】
前記修正されたグラフを前記決定することは、
K×Dコードワード行列を生成するために、前記受信又は取得したコードワードをK回複製することであって、Kは前記初期グラフ内のノードの数であり、Dは前記コードワードの長さである、ことと、
前記K×Dコードワード行列と前記初期グラフとをKxN行列として連結して、Kx(D+N)連結行列を生成することと、
前記連結行列を1つ以上の畳み込みニューラルネットワーク(CNN)又は多層パーセプトロン(MLP)に入力することと、
前記連結行列から前記1つ以上のCNN又はMLPによって、前記修正されたグラフを生成することと、
前記修正されたグラフに基づいて前記入力データ表現の前記精緻化された再構築を更新して、前記入力データ表現の最終再構築を生成することと、を含む、請求項1に記載の方法。
【請求項10】
前記コードワード行列を、連結された中間行列として、CNN層又はMLP層の第1のセットの前記出力に連結することと、
前記連結された中間行列を、CNN層又はMLP層の前記第1のセットに続くCNN層又はMLP層の次のセットに入力することと、
を更に含む、請求項9に記載の方法。
【請求項11】
ニューラルネットワークベースのデコーダ(NNBD)であって、
入力データ表現の記述子としてコードワードを受信又は取得するように構成された受信機ユニットと、
少なくとも前記コードワード及び初期グラフに基づいて、前記入力データ表現の予備的再構築を決定するように構成された第1のニューラルネットワーク(NN)モジュールと、
少なくとも前記予備的再構築及び前記コードワードに基づいて、修正されたグラフを決定するように構成された第2のNNモジュールと、を含み、
前記第1のNNモジュールは、少なくとも前記コードワード及び前記修正されたグラフに基づいて、前記入力データ表現の精緻化された再構築を決定するように更に構成され、前記修正されたグラフは、前記入力データ表現に関連するトポロジ情報を示す、ニューラルネットワークベースのデコーダ(NNBD)。
【請求項12】
前記修正されたグラフは局所接続グラフである、請求項11に記載のNNBD。
【請求項13】
前記第2のNNモジュールは、1つ以上の畳み込みニューラルネットワーク(CNN)を含み、
前記NNBDは、少なくとも(1)複製されたコードワード、(2)前記初期グラフ又は前記修正されたグラフ、及び(3)前記再構築されたデータ表現を使用して連結行列を生成するように構成され、
前記1つ以上のCNNは、前記連結行列を処理し、前記修正されたグラフ又は精緻化された修正されたグラフを生成するように構成されている、
請求項11に記載のNNBD。
【請求項14】
前記NNBDはグラフ条件付きNNBDであり、
前記第1のNNモジュールは、複数の反復動作を実行するように構成されている、
請求項11に記載のNNBD。
【請求項15】
前記第1のNNモジュールは、勾配情報を生成するように構成された1つ以上の多層パーセプトロン(MLP)を含み、
前記第2のNNモジュールは、前記1つ以上のMLPによって生成された前記勾配情報に基づいて、前記修正されたグラフを出力するように構成されている、
請求項11に記載のNNBD。
【請求項16】
前記初期グラフ及び前記修正されたグラフは、2次元(2D)点セットであり、前記入力データ表現は点群であり、
前記第1のNNモジュールは、前記記述子ベクトルと、平面内の所定のサンプリングで初期化された前記2D点セットとに基づいて変形動作を実行するように構成されている、
請求項11に記載のNNBD。
【請求項17】
前記第2のNNモジュールは、前記修正されたグラフを生成するために、前記入力データ表現、前記記述子ベクトル、及び前記初期グラフの前記予備的再構築に基づいて、分割動作を実行するように構成されている、請求項16に記載のNNBD。
【請求項18】
前記初期グラフは、各点が2D位置を示す点の行列を含む2Dグリッドであり、
前記2Dグリッドは多様体に関連し、各点は前記多様体上の固定位置を示し、
前記2Dグリッドは、2D平面からサンプリングされた点の固定セットである、
請求項11に記載のNNBD。
【請求項19】
前記NNBDは、
K×Dコードワード行列を生成するために、前記受信又は取得したコードワードをK回複製することであって、Kは前記初期グラフ内のノードの数であり、Dは前記コードワードの長さである、ことと、
前記K×Dコードワード行列と前記初期グラフとをK×N行列として連結して、K×(D+N)連結行列を生成することと、
前記連結行列を前記NNBDの1つ以上の畳み込みニューラルネットワーク(CNN)又は多層パーセプトロン(MLP)に入力することと、
前記連結行列から前記NNBDの前記1つ以上のCNN又はMLPによって、前記修正されたグラフを生成することと、
前記修正されたグラフに基づいて前記入力データ表現の前記精緻化された再構築を更新して、前記入力データ表現の最終再構築を生成することと、を実行するように構成されている、請求項18に記載のNNBD。
【請求項20】
前記NNBDは、
前記コードワード行列を、連結された中間行列として、CNN層又はMLP層の第1のセットの前記出力に連結することと、
前記連結された中間行列を、CNN層又はMLP層の前記第1のセットに続くCNN層又はMLP層の次のセットに入力することと、を実行するように構成されている、請求項19に記載のNNBD。

【国際調査報告】