(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-09
(54)【発明の名称】映像圧縮アーティファクトのニューラルネットワーク補助付き除去
(51)【国際特許分類】
H04N 19/85 20140101AFI20241226BHJP
H03M 7/30 20060101ALI20241226BHJP
【FI】
H04N19/85
H03M7/30 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024535754
(86)(22)【出願日】2022-12-13
(85)【翻訳文提出日】2024-08-14
(86)【国際出願番号】 IB2022062153
(87)【国際公開番号】W WO2023111856
(87)【国際公開日】2023-06-22
(32)【優先日】2021-12-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521106348
【氏名又は名称】スペクトル オプティックス インコーポレイテッド
(74)【代理人】
【識別番号】100067736
【氏名又は名称】小池 晃
(74)【代理人】
【識別番号】100192212
【氏名又は名称】河野 貴明
(74)【代理人】
【識別番号】100200001
【氏名又は名称】北原 明彦
(72)【発明者】
【氏名】ゴードン,ケビン テイラー
(72)【発明者】
【氏名】ダモア,コリン トーマス
(72)【発明者】
【氏名】アール,エイダン マイケル
【テーマコード(参考)】
5C159
5J064
【Fターム(参考)】
5C159KK01
5C159KK51
5C159MC11
5C159PP04
5C159UA02
5C159UA05
5J064BB14
5J064BC02
5J064BC16
5J064BC18
(57)【要約】
データ圧縮システムは、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(NCARM)を含むことができる。非可逆圧縮モジュールは、前記ニューラル圧縮アーティファクト除去モジュールとのデータの受信及び送信の少なくとも1つを実行するように構成され、そして、復元モジュールは、前記ニューラル圧縮アーティファクト除去モジュールとのデータの受信及び送信の少なくとも1つを実行するように構成される。いくつかの実施形態において、前記ニューラル圧縮アーティファクト除去モジュールは、前記非可逆圧縮モジュールにデータを送信する。代替的に、前記ニューラル圧縮アーティファクト除去モジュールは、前記復元モジュールからデータを受信することができ、及び/又は、前記非可逆圧縮モジュールからデータを受信することができる。多くの非可逆データ圧縮スキームは、共通利用可能な音声及び映像圧縮方法を含み、アーティファクト除去から利益を得ることができる。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(NCARM)と、
前記ニューラル圧縮アーティファクト除去モジュールとのデータの受信及び送信の少なくとも1つを実行するように構成された非可逆圧縮モジュールと、
前記ニューラル圧縮アーティファクト除去モジュールとのデータの受信及び送信の少なくとも1つを実行するように構成された復元モジュールと、
を含むことを特徴とするデータ圧縮システム。
【請求項2】
前記ニューラル圧縮アーティファクト除去モジュールが前記非可逆圧縮モジュールにデータを送信することを特徴とする請求項1に記載のデータ圧縮システム。
【請求項3】
前記ニューラル圧縮アーティファクト除去モジュールが前記復元モジュールからデータを受信することを特徴とする請求項1に記載のデータ圧縮システム。
【請求項4】
前記ニューラル圧縮アーティファクト除去モジュールが前記非可逆圧縮モジュールからデータを受信することを特徴とする請求項1に記載のデータ圧縮システム。
【請求項5】
前記データが音声及び映像の少なくとも1つであることを特徴とする請求項1に記載のデータ圧縮システム。
【請求項6】
トランスコーダ及び非可逆圧縮モジュールの少なくとも1つの一部を形成し、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(NCARM)と、
前記ニューラル圧縮アーティファクト除去モジュールにそれぞれ接続されたデータエンコーダ及びデコーダと、
前記ニューラル圧縮アーティファクト除去モジュールとのデータの受信及び送信の少なくとも1つを実行するように構成されたNCARM調整モジュールと、
を含むことを特徴とするデータ圧縮システム。
【請求項7】
前記非可逆圧縮モジュールが高品質ストリーミングデータを受信することを特徴とする請求項6に記載のデータ圧縮システム。
【請求項8】
前記NCARM調整モジュールが高品質参照ストリーミングデータを受信することを特徴とする請求項6に記載のデータ圧縮システム。
【請求項9】
前記非可逆圧縮モジュールが復号化されたストリーミングデータを出力することを特徴とする請求項6に記載のデータ圧縮システム。
【請求項10】
前記データが音声及び映像の少なくとも1つであることを特徴とする請求項6に記載のデータ圧縮システム。
【請求項11】
トランスコーダ、非可逆圧縮モジュール、符号化モジュール、及び復号化モジュールの少なくとも1つの一部を形成し、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(NCARM)と、
前記ニューラル圧縮アーティファクト除去モジュールにそれぞれ接続されたデータエンコーダ及びデコーダと、
を含み、
NCARMニューラルネットワークが前記データエンコーダ及びデコーダの1つの一部を形成することを特徴とするデータ圧縮システム。
【請求項12】
前記非可逆圧縮モジュールが符号化されたストリーミングデータを受信することを特徴とする請求項11に記載のデータ圧縮システム。
【請求項13】
NCARM調整モジュールが圧縮されていないストリーミングデータを受信することを特徴とする請求項11に記載のデータ圧縮システム。
【請求項14】
前記非可逆圧縮モジュールが、符号化されたストリーミングデータ及び復号化されたストリーミングデータの少なくとも1つを出力することを特徴とする請求項11に記載のデータ圧縮システム。
【請求項15】
前記データが音声及び映像の少なくとも1つであることを特徴とする請求項11に記載のデータ圧縮システム。
【請求項16】
カメラと、
前記カメラに接続され、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(NCARM)と、
を含むことを特徴とするカメラデータ圧縮システム。
【請求項17】
前記ニューラル圧縮アーティファクト除去モジュールがカメラ上で動作可能であることを特徴とする請求項16に記載のカメラデータ圧縮システム。
【請求項18】
前記ニューラル圧縮アーティファクト除去モジュールが、前記カメラから圧縮可能なデータを受信するクラウド/VMSシステム上で動作可能であることを特徴とする請求項16に記載のカメラデータ圧縮システム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年12月14日に出願された、米国仮特許出願63/289,454号、発明の名称「Neural Network Assisted Removal of Video Compression Artifacts」の優先権を主張し、その全体は、参照により本書に組み込まれるものとする。
【0002】
本開示は、ニューラルネットワークを利用して、帯域幅要件を減少して画像品質を改善する為に、非可逆圧縮アーティファクトを除去するシステムに関する。
【背景技術】
【0003】
データ圧縮は、元の表現よりも少ないビット数を利用して情報を符号化することを含む。通常、データ圧縮は、符号化及び復号化の2つの分離したステップにより実行される。符号化ステップの間に、入力ストリームが圧縮スキームに従って符号化表現に変換される。復号化ステップの間に、逆変換が適用され、符号化表現が元の入力ストリームに復元されるか、又は、ほぼ復元される。データ圧縮の特別な場合は、トランスコードであり、第1の圧縮スキームにより圧縮されたデータが復号化され、その後、第2の圧縮スキームからのエンコーダを利用して再符号化される。
【0004】
データ圧縮は、可逆圧縮又は非可逆圧縮のいずれかであることができる。可逆圧縮は、統計冗長性を識別して除去することにより情報のビット数を減少する。可逆圧縮の間に、情報は実際には失われず、復号化(復元)プロセスの間に元の表現からの全てのビットを復元できる。対照的に、非可逆圧縮は、符号化の間に元の表現の全てのビットを保持せず、でもその代わりに、いくつかのメトリックに従って有用でない又は重要でないビットを除去する。このプロセスは、品質劣化と引き換えに、全体のビット数をかなり減少することができる。残念ながら、非可逆圧縮は、圧縮アーティファクトを結果的にもたらす。圧縮アーティファクトの例は、ブロッキングアーティファクト、コサイン又はウェーブレット変換アーティファクト、量子化アーティファクト、エイリアシングアーティファクト等を含む。
【0005】
デジタル画像又はビデオカメラは通常、画像処理アルゴリズム及びフィルタの利用により、画像センサにより受信された信号を利用可能な画像に変換するデジタル画像処理パイプラインを必要とする。関連するデジタル情報が大量であることにより、非可逆圧縮スキームを利用したデータ符号化、復号化、及びトランスコードは、ストリーミングデバイスとの接続をサポートする為によく利用される。
【発明の概要】
【発明が解決しようとする課題】
【0006】
帯域幅要件を減少して画像品質を改善する為に、非可逆圧縮アーティファクトを除去するシステム及び方法が必要である。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本願の特許請求の範囲に記載のデータ圧縮システム及びカメラデータ圧縮システムを提供するものである。
【0008】
本開示の非限定的かつ非網羅的な実施形態を説明する際に参照する以下の図において、同様の参照符号は、特段の指定がない限り、様々な図を通して同様の部分を指すものとする。
【図面の簡単な説明】
【0009】
【
図1A】非可逆圧縮及び復元前のニューラルネットワーク補助付き圧縮アーティファクト除去を示す図である。
【
図1B】非可逆圧縮及び復元後のニューラルネットワーク補助付き圧縮アーティファクト除去を示す図である。
【
図1C】非可逆圧縮後で復元前のニューラルネットワーク補助付き圧縮アーティファクト除去を示す図である。
【
図2A】ニューラルネットワーク補助付き圧縮アーティファクト除去及び調整の為のシステム及びプロセスを示す図である。
【
図2B】ニューラルネットワーク補助付き符号化及び調整の為の非可逆圧縮システム及びプロセスを示す図である。
【
図2C】ニューラルネットワーク補助付き復号化及び調整の為の非可逆圧縮システム及びプロセスを示す図である。
【
図2D】ニューラルネットワーク補助付き復号化及び調整を利用して高品質データストリームを修正する為の非可逆圧縮システム及びプロセスを示す図である。
【
図2E】ニューラルネットワーク補助付き圧縮アーティファクト除去が後に続くニューラルネットワーク補助付き復号化の為のシステム及びプロセスを示す図である。
【
図2F】ニューラルネットワーク補助付き圧縮アーティファクト除去をサポートするデコーダシステム及びプロセスを示す図である。
【
図2G】ニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセスを示す図である。
【
図2H】符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセスを示す図である。
【
図2I】符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された復号化を含むトランスコードシステム及びプロセスを示す図である。
【
図2J】復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された符号化の為のトランスコードシステム及びプロセスを示す図である。
【
図2K】復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び分離した符号化の為のトランスコードシステム及びプロセスを示す図である。
【
図3A】ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスによりサポートされた複数のカメラシステムを示す図である。
【
図3B】ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスにより各々のカメラがサポートされた複数のカメラシステムを示す図である。
【
図3C】ニューラルネットワーク補助付き圧縮アーティファクト除去、符号化及び復号化、並びにクラウドストレージを含むクラウドシステムを示す図である。
【
図3D】ニューラルネットワーク補助付き圧縮アーティファクト除去の為の復号化システム及びプロセスによりサポートされた各々のユーザデバイスを含む、複数のユーザデバイスシステムを示す図である。
【発明を実施するための形態】
【0010】
以下に説明する幾つかの実施形態では、ニューラルネットワーク処理を改善する方法、処理スキーム、及びシステムを説明する。より詳細に開示されるように、改善されたニューラルネットワーク処理は、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成されたニューラル圧縮アーティファクト除去モジュール(neural compression artifact removal module)(NCARM)を含むことができるデータ圧縮システムを含む。非可逆圧縮モジュールは、NCARMとのデータの受信及び送信の少なくとも1つを実行するように構成されることができ、復元モジュールは、NCARMとのデータの受信及び送信の少なくとも1つを実行するように構成されることができる。いくつかの実施形態において、NCARMは、非可逆圧縮モジュールにデータを送信する。代替的に、NCARMは、復元モジュールからデータを受信することができ、及び/又は、非可逆圧縮モジュールからデータを受信することができる。理解されるように、記載のシステムにより任意の非可逆圧縮可能なデータが処理されるが、いくつかの実施形態において、データは音声及び映像の少なくとも1つである。
【0011】
他の実施形態において、データ圧縮システムは、トランスコーダ及び非可逆圧縮モジュールの少なくとも1つの一部を形成するニューラル圧縮アーティファクト除去モジュール(NCARM)を含むことができ、NCARMは、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成される。データエンコーダ及びデコーダはそれぞれNCARMに接続され、NCARM調整モジュールは、NCARMとのデータの受信及び送信の少なくとも1つを実行するように構成される。
【0012】
他の実施形態において、データ圧縮システムは、トランスコーダ、非可逆圧縮モジュール、符号化モジュール、及び復号化モジュールの少なくとも1つの一部を形成するニューラル圧縮アーティファクト除去モジュール(NCARM)を含むことができ、NCARMは、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成される。データエンコーダ及びデコーダはそれぞれNCARMに接続される。NCARMニューラルネットワークは、データエンコーダ及びデコーダの1つの一部を形成する。
【0013】
さらに他の実施形態において、カメラデータ圧縮システムは、カメラ及びカメラに接続されたニューラル圧縮アーティファクト除去モジュール(NCARM)を含むことができる。NCARMは、圧縮可能なデータを受信して圧縮アーティファクトを除去したデータを出力するように構成される。いくつかの実施形態において、NCARMはカメラ上で動作可能であるが、他の実施形態において、NCARMは、カメラから圧縮可能なデータを受信するVMSシステム又はクラウド上で動作可能である。
【0014】
図1Aは、非可逆圧縮及び復元前のニューラルネットワーク補助付き圧縮アーティファクト除去(neural network assisted compression artifact removal)(NCARM)を示す図である。この実施形態において、システム100Aは、データ入力を受信し、データ入力は、ニューラルネットワーク介在圧縮アーティファクト除去を提供するモジュール110Aを利用して最初に処理される。処理されたデータは、データの非可逆圧縮を提供するモジュール120Aに提供される。記憶、送信、又はストリーミング後に、復元モジュール130Aは、圧縮されたデータを復号化でき、例えば、ユーザによる追加の処理又は再生を可能にする。
【0015】
1つの実施形態において、データは、広範囲の映像、音声、ストリーミング、センサ、又は制御データを含むことができるが、限定はされない。非可逆圧縮は、その大きな入力複雑性により、また、そのデータストリーム内の高度な冗長性により、そのような適用の一部によく利用される。この開示によるデータ処理は、画像品質、減少されたファイルサイズ及び帯域幅要件に役立つことができ、そして、改善されたダウンストリームマシン又は人工知能(AI)アプリケーション性能を与える。実際に、非可逆データ圧縮は、いくつかの信号損失を犠牲にして、ファイルサイズを減少する。信号損失に加えて、多くの場合、圧縮プロセスは、望ましくないアーティファクトももたらす。ニューラルネットワーク技術の利用は、圧縮アーティファクトを除去しながら、損失した信号の部分的回復も可能にする。記載のシステム及び方法は、信号忠実度を改善することができ、さらに、ファイルサイズ又は帯域幅要件を減少することができ、それにより、元の信号を損なうことなく積極的な圧縮を可能にする。
【0016】
理解されるように、この開示に記載のシステムには多種多様な圧縮スキームを利用することができる。例えば、(単一フレーム画像圧縮を利用する)フレーム内及び(1以上の前及び/又は後ろの連続するフレームを利用して現在のフレームのコンテンツを圧縮する)フレーム間映像圧縮システムの両方は、ニューラルネットワーク介在アーティファクト除去から利益を得ることができる。共通の圧縮スキームは、モーションJPEG(M-JPEG)、MPEG-1(CD、VCD)、MPEG-2(DVD)、MPEG-4、及びH.264ベースの圧縮(符号化)及び復元(復号化)スキームを含むが、限定はされない。
【0017】
1つの実施形態において、ニューラルネットワーク補助付き圧縮アーティファクト除去(NCARM)サービスを提供するモジュールは、データ忠実度を維持しながら入力複雑性及び圧縮アーティファクトを除去するように調整(訓練)されたニューラルネットワークである。画像及び映像の場合、ネットワークは入力として画像又は一連の画像を受信し、改善された画像又は一連の画像を出力する。システムアーキテクチャにより、符号化段階において、復号化段階において、又はトランスコード段階において、NCARM処理モジュールを適用することができる。さらに、モジュールは、スタンドアロンであることができ、又は、デコーダ又はエンコーダと統合されることができる。通常、処理サブモジュールは入力として、符号化されていないデータストリームを受信し、1)アーティファクトがより少なくなり符号化処理がより効果的になるように、又は、2)圧縮スキームにより結果的にもたらされたどんなアーティファクトも除去されるように、信号からデータ複雑性を除去する。
【0018】
いくつかの実施形態において、ニューラルネットワーク補助付き圧縮アーティファクト除去(NCARM)を提供するモジュールの調整は、手動又は自動パラメータを利用して実行することができる。このことは、処理サブモジュールのニューラルネットワークの訓練を介して達成することができ、いくつかの損失関数は最小化又は最大化される。いくつかの実施形態において、調整モジュールは、高忠実度信号と同様に符号化されて復号化された劣化した信号の両方を受信する。調整サブモジュールは、元の高忠実度信号のほとんどが復元されるように、処理サブモジュールのパラメータを調整する。「一対の」高忠実度/劣化信号が無い場合、参照高品質ストリームを利用することができる。この場合、調整サブモジュールは、劣化したストリームを高忠実度ストリームの同一のコピーに復元しようとはしないが、敵対的生成訓練等の方法により、劣化したストリームの統計分布が高忠実度ストリームの統計分布と一致するようにする。
【0019】
理解されるように、ニューラルネットワークの様々な実施形態を利用することができる。例えば、ニューラルネットワークは、完全畳み込み、回帰、敵対的生成、又は深層畳み込みネットワークを含むことができる。畳み込みニューラルネットワークは、ここに記載の画像処理アプリケーションに特に有用である。画像は、畳み込みピクセル動作により前処理することができ、又は、好ましくは最小限の修正と共に訓練された畳み込みニューラルネットワーク内に供給される。処理は、1以上の畳み込み層、プーリング層、完全接続層を通して進行することができ、符号化又は復号化に適した出力により終了する。動作において、1以上の畳み込み層は、入力に対して畳み込み動作を適用し、結果を次の層に伝達する。畳み込み後、ローカル又はグローバルプーリング層は、出力を次の層内の1つ又は少数のノードに結合する。畳み込みの繰返し、又は一対の畳み込み/プーリングの繰返しが可能である。ニューラルネットワーク処理の完了後、出力は、ニューラルネットワーク間を通過して他のローカルニューラルネットワークへ、又は、追加的に又は代替的に、追加的なニューラルネットワークベースの修正の為にニューラルネットワークベースのクラウドベースの処理に移行する。
【0020】
特定のユーティリティの1つのニューラルネットワークの実施形態は、完全畳み込み及び回帰ニューラルネットワークである。完全畳み込み及び回帰ニューラルネットワークは、通常ネットワークの終わりに見つけられる完全接続層が無い畳み込み層から成る。有利なことに、完全畳み込みニューラルネットワークは、画像サイズが自由であり、訓練又は輝点画像修正の為の入力として任意のサイズの画像を受け入れることができる。回帰ビヘイビアは、出力の少なくとも一部を畳み込み層内に戻す、又は、他の接続されたニューラルネットワークに供給することにより提供される。
【0021】
様々なニューラルネットワークは、多くのタイプのアーティファクトの為のデータ圧縮を識別して改善することができる。例えば、カメラセンサ及び現場の光を起因として取込されたノイズは共通のアーティファクトである。このノイズは、符号化処理により引き起こされたものではないが、信号複雑性(ファイルサイズ/帯域幅)及び品質に貢献する。取込されたノイズは、以下の2つのケースに分離することができる。1)ノイズが圧縮された映像アーティファクト内に適度に表現されており、「粒状性」として識別することができる低圧縮。2)ノイズが圧縮された映像内にあまり表現されておらず、不規則な垂直又は水平な線として、又は近くで見ると基板目状に識別される高圧縮。
【0022】
多くのアーティファクトは、量子化の利用及び基底関数により表現される。圧縮スキームは基底関数(ウェーブレット、離散コサイン等)の組合せとしてデータを表現することが多いので、量子化ノイズが存在する。限度内では、これらは映像を完全に表現することができる。しかしながら、多くの圧縮スキームは、人の知覚にほとんど影響を与えないので、高周波成分を減少又は除去する。信号を積極的に圧縮する場合、高周波成分は、水平、垂直、又は基板目状の小さなパッチとして現れる。これらは、いくつかのエラーを含む元の信号に近似する基底関数である。幸いにも、ニューラルネットワーク及び記載のNCARMシステム及び方法の利用により、そのようなアーティファクトエラーは訂正される。
【0023】
多くのタイプの圧縮スキームは可能な限り多くの情報を再利用することを目的としているので、ブロッキングアーティファクトとして知られる他のタイプのアーティファクトが発生する。1つの方法は、現在の又は近くのフレームから「パッチ」を取り、複数の他の領域内を参照する。パッチが他の領域を完全に表すことはないので、いくつかのエラーを補償しなければならない。積極的な圧縮において、このエラーの補償は、ファイルサイズと交換される。圧縮及び復元後、結果として得られる現在の映像データは、映像内に小さな方形パッチを含み、方形パッチの境界は、その隣接部分と完全には調和しない。この場合も、ニューラルネットワーク及び記載のNCARMシステム及び方法の利用により、そのようなアーティファクトエラーは訂正される。
【0024】
圧縮及び復元後に、エイリアシングとして知られる他のタイプのアーティファクトも発生する。エイリアシングは、付与された信号のギザギザ又はモアレパターンの為の限定された空間的サンプリング期間の結果である。ニューラルネットワーク及び記載のNCARMシステム及び方法の利用により、そのようなアーティファクトエラーは訂正される。
【0025】
アーティファクトは、機械知能技術を利用して自動的に識別することができ、又は、代替的に又は追加的に、訓練されたオペレータにより識別することができる。NCARMモジュールは、データセット内でアーティファクトが十分に表現されることを確保することにより、これらのアーティファクトを識別して除去するように訓練される。データラベラのチームは、各々のアーティファクトのデータベースを構築することができ、データベースは、NCARMモジュールへの訓練データとして直接供給することができ、又は、新たに取得されたデータのラベリングを自動化する、自動「アーティファクト分類子」アルゴリズムを訓練する為に利用される。さらに、訓練の目的で、(所望のアーティファクトが優勢になるように入力データ又は圧縮パラメータを修正し)いくつかの素材に積極的な圧縮を意図的に利用することにより、これらのアーティファクトを訓練データ内に「押し込む」ことができる。
【0026】
図1Bは、非可逆圧縮及び復元後のニューラルネットワーク補助付き圧縮アーティファクト除去を示す図である。この実施形態は、
図1Aに記載の実施形態の変形とみなされ、ニューラルネットワーク介在圧縮アーティファクト除去、非可逆圧縮、及び復元の為の各々のモジュールによるデータ処理の順番が異なる。この実施形態において、システム100Bは、データの非可逆圧縮を提供するモジュール120Bを利用して最初に処理されるデータ入力を受信する。非可逆圧縮されたデータはその後、圧縮されたデータを復号化できる復元モジュール130Bに提供される。復元されたデータは、ニューラルネットワーク介在圧縮アーティファクト除去を提供するモジュール110Bに提供される。
【0027】
図1Cは、非可逆圧縮後で復元前のニューラルネットワーク補助付き圧縮アーティファクト除去を示す図である。この実施形態は、
図1Aに記載の実施形態の変形とみなされ、ニューラルネットワーク介在圧縮アーティファクト除去、非可逆圧縮、及び復元の為の各々のモジュールによるデータ処理の順番が異なる。この実施形態において、システム100Cは、データの非可逆圧縮を提供するモジュール120Cを利用して最初に処理されるデータ入力を受信する。非可逆圧縮されたデータはその後、ニューラルネットワーク介在圧縮アーティファクト除去を提供するモジュール110Cに提供される。このデータは、圧縮されてアーティファクト除去されたデータを復号化できる復元モジュール130Cに提供される。
【0028】
図2Aは、ニューラルネットワーク補助付き圧縮アーティファクト除去及び調整の為のシステム及びプロセス200Aを示す図である。図示されているように、高品質データストリーム210Aの形式のデータは、エンコーダ212A及びNCARM調整モジュール220Aの両方に提供される。エンコーダ212Aにより符号化されたデータストリームは、NCARMトランスコーダ230に提供される。NCARMトランスコーダ230は、訓練及びNCARM調整モジュール220Aにより特定されたパラメータを利用して、データを復号化し、ニューラルネットワーク介在圧縮アーティファクト除去を提供するモジュール216Aを利用して処理し、そして、エンコーダ218Aによりデータを符号化する。符号化されたデータは、デコーダ240Aに供給され、そして、復号化されたストリーム242Aに変換され、同様に、長期システム性能の改善を補助する為に、NCARM調整モジュール220Aに再び供給される。
【0029】
図2Bは、ニューラルネットワーク補助付き符号化及び調整の為の非可逆圧縮システム及びプロセス200Bを示す図である。図示されているように、高品質データストリーム210Bの形式のデータは、非可逆圧縮モジュール218B及びNCARM調整モジュール220Bの両方に提供される。非可逆圧縮モジュール218B内で、高品質データストリーム210Bは、まずNCARMエンコーダ216Bに提供され、その後、デコーダ214Bに提供される。NCARMエンコーダ216Bは、訓練及びNCARM調整モジュール220Bにより特定されたパラメータを利用して、データを符号化する。非可逆圧縮モジュール218Bにおいて符号化されたデータは、復号化されたストリーム242Bに変換され、同様に、長期システム性能の改善を補助する為に、NCARM調整モジュール220Bに再び供給される。
【0030】
図2Cは、ニューラルネットワーク補助付き復号化及び調整の為の非可逆圧縮システム及びプロセス200Cを示す図である。図示されているように、高品質データストリーム210Cの形式のデータは、非可逆圧縮モジュール218C及びNCARM調整モジュール220Cの両方に提供される。非可逆圧縮モジュール218C内で、高品質データストリーム210Cは、まずエンコーダ212Cに提供され、その後、NCARMデコーダ214Cに提供される。NCARMデコーダ214Cは、訓練及びNCARM調整モジュール220Cにより特定されたパラメータを利用して、データを復号化する。非可逆圧縮モジュール218Cにおいて符号化されたデータは、復号化されたストリーム242Cに変換され、同様に、長期システム性能の改善を補助する為に、NCARM調整モジュール220Cに再び供給される。
【0031】
図2Dは、ニューラルネットワーク補助付き復号化及び調整を利用して高品質データストリームを修正する為の非可逆圧縮システム及びプロセス200Dを示す図である。図示されているように、高品質データストリーム210Dの形式のデータは、非可逆圧縮モジュール218Dに提供される。追加的に、高品質参照データストリーム211Dの形式のデータは、NCARM調整モジュール220Dに提供される。非可逆圧縮モジュール218D内で、高品質データストリーム210Dは、まずエンコーダ212Dに提供され、その後、NCARMデコーダ214Dに提供される。NCARMデコーダ214Dは、訓練及びNCARM調整モジュール220Dにより特定されたパラメータを利用して、データを復号化する。非可逆圧縮モジュール218Dにおいて符号化されたデータは、復号化されたストリーム242Dに変換され、同様に、長期システム性能の改善を補助する為に、NCARM調整モジュール220Dに再び供給される。
【0032】
図2Eは、ニューラルネットワーク補助付き圧縮アーティファクト除去が後に続くニューラルネットワーク補助付き復号化の為のシステム及びプロセス200Eを示す図である。図示されているように、符号化されたデータストリーム210Eの形式のデータは、NCARM復号化モジュール230Eに提供される。NCARM復号化モジュール230E内で、符号化されたデータストリーム210Eは、まずデコーダ212Eに提供され、その後、NCARMNNモジュール216Eに提供される。NCARM復号化モジュール230Eからのデータは、復号化されたストリーム242Eに変換される。
【0033】
図2Fは、ニューラルネットワーク補助付き圧縮アーティファクト除去をサポートするデコーダシステム及びプロセス200Fを示す図である。図示されているように、符号化されたデータストリーム210Fの形式のデータは、NCARM復号化モジュール230Fに提供される。NCARM復号化モジュール230F内で、符号化されたデータストリーム210Fはまず、内部NCARMNNモジュール216Fをサポートするデコーダ212Fに提供される。NCARM復号化モジュール230Fからのデータは、復号化されたストリーム242Fに変換される。
【0034】
図2Gは、ニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセス200Gを示す図である。図示されているように、圧縮されていないデータストリーム211Gの形式のデータは、NCARM符号化モジュール230Gに提供される。NCARM符号化モジュール230G内で、圧縮されていないデータストリーム211Gはまず、内部NCARMNNモジュール216Gをサポートするエンコーダ212Gに提供される。NCARM符号化モジュール230Gからのデータは、符号化されたストリーム242Gに変換される。
【0035】
図2Hは、符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセス200Hを示す図である。図示されているように、圧縮されていないデータストリーム211Hの形式のデータは、NCARM符号化モジュール230Hに提供される。NCARM符号化モジュール230H内で、圧縮されていないデータストリーム211Hは、まず内部NCARMNNモジュール216Hに提供され、その後、エンコーダ212Hに提供される。NCARM符号化モジュール230Hからのデータは、符号化されたストリーム242Hに変換される。
【0036】
図2Iは、符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された復号化を含むトランスコードシステム及びプロセス200Iを示す図である。図示されているように、符号化されたデータストリーム210Iの形式のデータは、NCARMトランスコードモジュール230Iに提供される。NCARMトランスコードモジュール230I内で、符号化されたデータストリーム210Iは、まず内部NCARMNNモジュール216Iを有するデコーダ212Iに提供され、その後、エンコーダ212Iに提供される。NCARMトランスコードモジュール230Iからのデータは、符号化されたストリーム242Iに変換される。
【0037】
図2Jは、復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された符号化の為のトランスコードシステム及びプロセス200Jを示す図である。図示されているように、符号化されたデータストリーム210Jの形式のデータは、NCARMトランスコードモジュール230Jに提供される。NCARMトランスコードモジュール230J内で、符号化されたデータストリーム210Jは、まずデコーダ212Jに提供され、その後、内部NCARMNNモジュール216Jを有するエンコーダ212Jに提供される。NCARMトランスコードモジュール230Jからのデータは、符号化されたストリーム242Jに変換される。
【0038】
図2Kは、復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び分離した符号化の為のトランスコードシステム及びプロセス200Kを示す図である。図示されているように、符号化されたデータストリーム210Kの形式のデータは、NCARMトランスコードモジュール230Kに提供される。NCARMトランスコードモジュール230K内で、符号化されたデータストリーム210Kは、まずデコーダ212Kに提供され、その後、内部NCARMNNモジュール216Kに提供され、その後、エンコーダ212Kに提供される。NCARMトランスコードモジュール230Kからのデータは、符号化されたストリーム242Kに変換される。
【0039】
図3Aは、ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスによりサポートされた複数のカメラシステム300Aを示す図である。図示されているように、複数のエッジカメラ(1、2、…N)は、映像及び任意の他のデータをクラウド/VMSシステム352Aに提供する。このデータは、各々のエッジカメラに関連するエンコーダモジュールにより処理される。クラウド/VMSシステム352Aには、NCARMトランスコードモジュール316A及びNCARMトランスコードモジュール316Aからデータを受信する接続されたストレージ350Aが内蔵される。1つの代替案として、NCARMトランスコードモジュール316Aからのデータは、1以上のエンドユーザデバイスへのリアルタイムストリーミング視聴として提供される。もう1つの代替案として、ストレージ350Aからのデータは、1以上のエンドユーザデバイスへのアーカイブデータ視聴として提供される。
【0040】
図3Bは、ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスにより各々のカメラがサポートされた複数のカメラシステム300Bを示す図である。図示されているように、複数のエッジカメラ(1、2、…N)は、映像及び任意の他のデータをクラウド/VMSシステム352Bに提供する。このデータは、各々のエッジカメラに関連するNCARMエンコーダモジュールにより処理される。クラウド/VMSシステム352Bには、接続されたストレージ350Bが内蔵される。1つの代替案として、エッジカメラからのNCARMモジュールからのデータは、1以上のエンドユーザデバイスへのリアルタイムストリーミング視聴として提供される。もう1つの代替案として、エッジカメラからのNCARMモジュールにより提供されたストレージ350Bからのデータは、1以上のエンドユーザデバイスへのアーカイブデータ視聴として提供される。
【0041】
図3Cは、ニューラルネットワーク補助付き圧縮アーティファクト除去、符号化及び復号化、並びにクラウドストレージを含むクラウドシステム300Cを示す図である。図示されているように、クラウド/VMSシステム352Cに内蔵された又は提供された音声、映像、又は他の圧縮可能データは、NCARMトランスコードモジュール316C及びNCARMトランスコードモジュール316Cからデータを受信する接続されたストレージ350Cに伝達される。このことは、様々な音声又は映像圧縮スキーム間の非可逆データの効果的な変換を可能にする。
【0042】
図3Dは、ニューラルネットワーク補助付き圧縮アーティファクト除去の為の復号化システム及びプロセスによりサポートされた各々のユーザデバイスを含む、複数のユーザデバイスシステム300Dを示す図である。図示されているように、クラウド/VMSシステム352Dに内蔵された又は提供されたデータは、ストレージ350D内に保持される。ストレージ350Dからの音声、映像、又は他の圧縮可能データは、NCARM復号化機能を含む1以上のエンドユーザデバイスにも提供される。
【0043】
以上から理解されるように、広範囲のスチールカメラ又はビデオカメラは、本開示に記載のニューラルネットワーク補助付き画像又は映像処理システム及び方法の利用により利益を得ることができる。カメラのタイプは、静止画又は映像機能を有する慣習的なデジタル一眼レフ(DSLR)、スマートフォン、タブレットカメラ、又はノートパソコンカメラ、専用ビデオカメラ、ウェブカメラ、又は監視カメラを含むことができるが、限定はされない。いくつかの実施形態において、赤外線カメラ、熱画像カメラ、ミリ波撮像システム、X線又は他の放射線撮像器等の特殊なカメラを利用することができる。実施形態は、ハイパースペクトル画像処理を可能にする赤外線、紫外線、又は他の波長を検出可能なセンサを有するカメラを含むこともできる。
【0044】
カメラは、スタンドアロン、携帯可能、又は固定システムであることができる。通常、カメラは、プロセッサ、メモリ、画像センサ、通信インタフェース、カメラ光学アクチュエータシステム、及びメモリストレージを含む。プロセッサは、カメラ光学センサシステムの動作等のカメラの全体の動作及び利用可能な通信インタフェースを制御する。カメラ光学センサシステムは、画像センサにより取込された画像の露出制御等のカメラの動作を制御する。カメラ光学センサシステムは、固定レンズシステム又は調整可能なレンズシステム(例えば、ズーム及び自動フォーカス機能)を含むことができる。カメラは、取り外し可能なメモリカード、有線USB、無線データ転送システム等のメモリストレージシステムをサポートすることができる。
【0045】
いくつかの実施形態において、ニューラルネットワーク処理は、専用ニューラルネットワーク処理システム、ノートパソコン、パソコン、サーバ、又はクラウドを含む遠隔計算資源への音声、映像、又は他の圧縮可能データの転送後に発生することができる。他の実施形態において、ニューラルネットワーク処理は、最適化ソフトウェア、ニューラル処理チップ、専用ASIC、カスタム集積回路、又はプログラム可能なFPGAシステムを利用して、カメラ内で発生することができる。
【0046】
以上から理解されるように、本明細書に記載のカメラシステム及び方法は、サーバ、デスクトップコンピュータ、ノートパソコン、タブレット、又はスマートフォン等のデバイスと相互作用する為に、これらの機器とローカルで接続してもよく、若しくは有線又は無線接続サブシステムのいずれかへの接続を介してこれらの機器と接続してもよい。無線ネットワーク、パーソナルエリアネットワーク、セルラーネットワーク、インターネット、又はクラウド媒介データソース等の様々な外部データソース間で、データ及び制御信号を受信、生成、又は伝送してもよい。さらに、ローカルデータのソース(例えば、ハードドライブ、ソリッドステートドライブ、フラッシュメモリ、若しくはSRAM又はDRAM等の動的メモリを含む任意の他の適切なメモリ)によって、ユーザ指定嗜好又はプロトコルのローカルデータを保存できる。ある特定の実施形態では、複数の通信システムを提供できる。例えば、直接のWi-Fi接続(802.11b/g/n)のみでなく、別個の4Gセルラー接続を使用できる。
【0047】
また、遠隔サーバに接続する実施形態を、クラウドコンピューティング環境において実装してもよい。クラウドコンピューティングとは、仮想化を介して速やかにプロビジョニングされ、最小限の管理努力又はサービスプロバイダとの相互作用によってリリースされ、その後適宜拡張される、構成可能な計算資源(例えば、ネットワーク、サーバ、ストレージ、アプリケーション、及びサービス)の共有プールへのユビキタスで、便利で、オンデマンドのネットワークアクセスを可能にするモデルとして定義できる。クラウドモデルは、様々な特徴(例えば、オンデマンドセルフサービス、ブロードネットワークアクセス、資源プーリング、迅速な拡張性、測定サービス等)、サービスモデル(例えば、サービスとしてのソフトウェア(「SaaS」)、サービスとしてのプラットフォーム(「PaaS」)、サービスとしてのインフラストラクチャ(「IaaS」)、及び展開モデル(例えば、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウド等)によって構成可能である。
【0048】
本明細書全体を通して「1つの実施形態」、「実施形態」、「一例」、又は「例」といった文言は、実施形態又は例に関連して説明される特定の特徴、構造、又は特性が、本開示の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体の様々な箇所で「1つの実施形態において」、「実施形態において」、「一例」、又は「例」という文言が出現しても、これらは、必ずしも全てが同じ実施形態又は例を指すとは限らない。さらに、特定の特徴、構造、データベース、又は特性は、1つ又は複数の実施形態又は例において、任意の適切な組み合わせ及び/又はサブコンビネーションとして組み合わせることができる。さらに、本明細書に添付する図面は、当業者への説明のためのものであり、図面は、必ずしも縮尺通りに描かれていない。
【0049】
添付の図面のフローチャート及びブロック図は、本開示の様々な実施形態に基づくシステム、方法、及びコンピュータプログラム製品の可能な具体例のアーキテクチャ、機能、及び動作を示すことを意図する。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部を表すことができる。なお、ブロック図及び/又はフローチャートの各ブロック、並びにブロック図及び/又はフローチャート内のブロックの組み合わせは、指定された機能又は動作を実行する専用ハードウェアベースのシステム、又は専用ハードウェアとコンピュータの命令の組み合わせによって実装してもよい。また、これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置に特定の方式で機能するように指示できるコンピュータ可読媒体に保存でき、すなわち、コンピュータ可読媒体に保存された命令は、フローチャート及び/又はブロック図のブロック又は複数のブロックで指定された機能/動作を実装する命令手段を含む製品を実現する。
【0050】
本開示に基づく実施形態は、装置、方法、又はコンピュータプログラム製品として具現化できる。したがって、本開示は、完全にハードウェアで構成される実施形態、完全にソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)で構成される実施形態、又は本明細書において総称的に「回路」、「モジュール」、又は「システム」と呼ぶソフトウェア及びハードウェアの態様を組み合わせた実施形態の形式で実現してもよい。さらに、本開示の実施形態は、媒体に組み込まれたコンピュータ使用可能プログラムコードを有する任意の有形の媒体に組み込まれたコンピュータプログラム製品の形式で実現することもできる。
【0051】
1つ又は複数のコンピュータ使用可能媒体又はコンピュータ可読媒体の任意の組合せを利用できる。例えば、コンピュータ可読媒体は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(random access memory:RAM)デバイス、読出専用メモリ(read-only memory:ROM)デバイス、消去可能プログラマブル読出専用メモリ(erasable programmable read-only memory:EPROM又はフラッシュメモリ)デバイス、携帯用コンパクトディスク読出専用メモリ(compact disc read-only memory:CD-ROM)、光記憶デバイス、及び磁気記憶デバイスのうちの1つ又は複数を含むことができる。本開示の動作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。このようなコードは、ソースコードから、コードが実行されることになるデバイス又はコンピュータに適したコンピュータ可読アセンブリ言語又はマシンコードにコンパイルしてもよい。
【0052】
以上の説明及び関連する図面に提示された教示に基づき、当業者は、本発明の多くの変形例及び他の実施形態を想到できる。したがって、本発明は、ここに開示する特定の実施形態に限定されるものではなく、これらの変形例及び他の実施形態も特許請求の範囲に含まれることは明らかである。また、本明細書に具体的に開示されていない要素/ステップを欠いていても、本発明の他の実施形態を実施することができる。
【符号の説明】
【0053】
100A~C システム
200A ニューラルネットワーク補助付き圧縮アーティファクト除去及び調整の為のシステム及びプロセス
200B ニューラルネットワーク補助付き符号化及び調整の為の非可逆圧縮システム及びプロセス
200C ニューラルネットワーク補助付き復号化及び調整の為の非可逆圧縮システム及びプロセス
200D ニューラルネットワーク補助付き復号化及び調整を利用して高品質データストリームを修正する為の非可逆圧縮システム及びプロセス
200E ニューラルネットワーク補助付き圧縮アーティファクト除去が後に続くニューラルネットワーク補助付き復号化の為のシステム及びプロセス
200F ニューラルネットワーク補助付き圧縮アーティファクト除去をサポートするデコーダシステム及びプロセス
200G ニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセス
200H 符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去を含むエンコーダシステム及びプロセス
200I 符号化が後に続くニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された復号化を含むトランスコードシステム及びプロセス
200J 復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び統合された符号化の為のトランスコードシステム及びプロセス
200K 復号化後のニューラルネットワーク補助付き圧縮アーティファクト除去及び分離した符号化の為のトランスコードシステム及びプロセス
300A ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスによりサポートされた複数のカメラシステム
300B ニューラルネットワーク補助付き圧縮アーティファクト除去の為のトランスコードシステム及びプロセスにより各々のカメラがサポートされた複数のカメラシステム
300C ニューラルネットワーク補助付き圧縮アーティファクト除去、符号化及び復号化、並びにクラウドストレージを含むクラウドシステム
300D ニューラルネットワーク補助付き圧縮アーティファクト除去の為の復号化システム及びプロセスによりサポートされた各々のユーザデバイスを含む、複数のユーザデバイスシステム
【国際調査報告】