(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-08
(45)【発行日】2025-01-17
(54)【発明の名称】画像処理方法、システム、エンコーダ、コンピュータ可読記憶媒体
(51)【国際特許分類】
H04N 19/90 20140101AFI20250109BHJP
【FI】
H04N19/90
(21)【出願番号】P 2023560610
(86)(22)【出願日】2021-12-02
(86)【国際出願番号】 CN2021134996
(87)【国際公開番号】W WO2022205987
(87)【国際公開日】2022-10-06
【審査請求日】2023-11-28
(31)【優先権主張番号】202110339327.1
(32)【優先日】2021-03-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】515003145
【氏名又は名称】チャイナ・テレコム・コーポレーション・リミテッド
【氏名又は名称原語表記】CHINA TELECOM CORPORATION LIMITED
【住所又は居所原語表記】31, JINRONG STREET, XICHENG DISTRICT, BEIJING 100033, CHINA
(74)【代理人】
【識別番号】100094112
【氏名又は名称】岡部 讓
(74)【代理人】
【識別番号】100101498
【氏名又は名称】越智 隆夫
(74)【代理人】
【識別番号】100107401
【氏名又は名称】高橋 誠一郎
(74)【代理人】
【識別番号】100120064
【氏名又は名称】松井 孝夫
(74)【代理人】
【識別番号】100182257
【氏名又は名称】川内 英主
(74)【代理人】
【識別番号】100202119
【氏名又は名称】岩附 秀幸
(72)【発明者】
【氏名】ワン,フーイフェン
(72)【発明者】
【氏名】チャン,ユアン
(72)【発明者】
【氏名】ヤン,ミンチュアン
(72)【発明者】
【氏名】シェン,レピン
【審査官】松永 隆志
(56)【参考文献】
【文献】国際公開第2021/050007(WO,A1)
【文献】特開2020-191077(JP,A)
【文献】米国特許出願公開第2018/0173994(US,A1)
【文献】Jong Hwan Ko ほか3名,Edge-Host Partitioning of Deep Neural Networks with Feature Space Encoding for Resource-Constrained Internet-of-Things Platforms,2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS),2018年11月27日,[令和6年10月日30検索],インターネット <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8639121>
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/90
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のための画像処理方法であって、その画像処理方法は、
前記特徴行列のエッジで同じ特徴値を有する1以上の行
と同じ特徴値を有する1以上の列
とを
、圧縮すべき1以上の行と圧縮すべき1以上の列として決定
することであって、前記中間層は入力層と出力層との間の層である、同じ特徴値を有する1以上の行と同じ特徴値を有する1以上の列を決定することと、
前記圧縮すべき1以上の行と前記圧縮すべき1以上の列との前記特徴値を削除し、残りの特徴値を
前記各チャンネルの前記特徴行列の保留値として保留
することと、
前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値
を圧縮
することと、
前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値
、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数
をエンコードし、前記
エンコードの結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列
を復元することと、を含む画像処理方法。
【請求項2】
前記特徴行列のエッジ
で同じ特徴値を有する1以上の行
と同じ特徴値を有する1以上の列
を決定
することは、
前記ニューラルネットワークの前記中間層から出力される前記画像のチャンネルの特徴行列を
、検出すべき特徴行列として選択
することと、
前記検出すべき特徴行列の最初の行から下方向へと、および前記検出すべき特徴行列の最後の行から上方向
へと、それぞれ、前記検出すべき特徴行列の前記
圧縮すべき1以上の行として、同じ特徴値を持つ1以上の行を検出し、前記検出すべき特徴行列の最初の列から後方へと、および前記検出すべき特徴行列の最後の列から前方へと、前記検出すべ
き特徴行列の前記
圧縮すべき1以上の列として、同じ特徴値を持つ1以上の列を検出
することと、
前記検出すべ
き特徴行列の
前記圧縮すべき1以上の行と同じ位置にある
前記各チャンネルの
前記特徴行列の1以上の行を、前記各チャンネルの前記特徴行列の圧縮すべき1以上の行として決定し、前記検出すべき前記特徴行列の
前記圧縮すべき1以上の列と同じ位置にある前記各チャンネルの前記特徴行列の1以上の列を、前記各チャンネルの前記特徴行列
の圧縮すべき1以上の列として決定する
ことと、を
含む請求項1に記載の画像処理方法。
【請求項3】
前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値
、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数をエンコードすることは、
前記各チャンネルの前記特徴行列の前記保留値
と前記1以上のエッジ値を事前に設定された方法で圧縮
することと、
前記各チャンネルの前記特徴行列の
前記圧縮された保留値と
前記圧縮された1以上のエッジ値
、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数をエンコードすることと、を含む請求項1に記載の画像処理方法。
【請求項4】
前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値を
前記事前に設定された方法で圧縮
することは、
前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の前記保留値
と前記1以上のエッジ値および事前
に設定されたビット深度値に応じて前記各チャンネルの前記特徴行列に対応する
大きさの指標を決定
することと、
前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値を、前記各チャンネルの前記特徴行列に対応する
前記大きさの指標に従って
量子化して
、前記各チャンネルの前記特徴行列の
前記圧縮された保留値および前記圧縮された1以上のエッジ値として
、量子化された保留値および
量子化された1以上
のエッジ値を取得する
ことと、を含む請求項3に記載の画像処理方法。
【請求項5】
前記検出すべき特徴行列の
最初の行から下方向
へと、および
前記検出すべき特徴行列の最後の行から上方向
へと、それぞれ
、同じ特徴値を有する1以上の行
を検出
することは、
(1)
前記検出すべき特徴行列に対し、圧縮すべき1以上の
頂部行の数を初期化してゼロと
することと、
(2)最初の行の特徴値が同じかどうかを判断し、もしも同じであれば、
前記圧縮すべ
き1以上の
頂部行の数を1つ増やし、次の行を現在の行として続行
することと、
(3
)現在の行の前記特徴値が前の行と同じかどうかを判断し、もしも同じである場合には、前記圧縮
すべき1以上の
頂部行の数を1
つ増やし、次の行を現在の行として続行
することと、
(4
)現在の行
の特徴値が前の行の特徴値と異なるま
で(3)
のステップを繰り返し、圧縮すべ
き1以上の
頂部行と
前記圧縮すべき
頂部行の数とを取得
することと、
前記検出すべ
き特徴行列を
鉛直方向に
ミラーリングしたことによって得られる行列
を検出すべき
新たな特徴行列として(1)から(4)
のステップを行って、
圧縮すべき1以上の底部行と前記圧縮すべき1以上の底部行の数として使用される、圧縮すべき1以上の
頂部行と
前記圧縮すべき1以上の
頂部行の数
とを取得
することと、を含む請求項2に記載の画像処理方法。
【請求項6】
前記検出すべ
き特徴行列の最初の列から後方へ
と、および
前記検出すべ
き特徴行列の最後の列から前方へ
と、
それぞれ、同じ特徴値を有する1以上の列
を検出する
ことは
、
前記検出すべ
き特徴行列
を転置することによって得られた行列を
検出すべき新たな特徴行列として(1)から(4)のステップを行って、圧縮すべき1以上の左列
と前記圧縮すべき1以上の左列の
数として使用される、
圧縮すべき1つ以上の頂部行と前記圧縮すべき1つ以上の頂部行の数とを取得することと、
前記検出すべ
き特徴行列を
転置した転置行列を鉛直方向にミラーリングすることによって得られた行列を検出すべき
新たな特徴行列として
(1)から(4)のステップを行って、圧縮すべき1以上の右列および前記圧縮すべき1以上の右列の
数として使用される、
圧縮すべき1以上の頂部行と前記圧縮すべき1以上の頂部行の数とを取得することと、を含む請求項5に記載の画像処理方法。
【請求項7】
前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値
を圧縮
することは、前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値を
前記各チャンネルの前記特徴行列の前記1以上のエッジ値として
一の値で表すことを
含む請求項1に記載の画像処理方法。
【請求項8】
前記エンコー
ドはエントロピエンコー
ドである
請求項1から7のいずれか一項に記載の像処理方法。
【請求項9】
前
記デコーダにより、前記圧縮すべき1以上の行
の数および前記圧縮すべき1以上の
列の数に加え
、前記各チャンネルの前記特徴行列の
前記圧縮された保留値と前記圧縮された
1以上のエッジ値を取得するため
に、受信データをデコード
することと、
前記デコーダにより、前記各チャンネルの
前記特徴行列の前記圧縮された保留値
と前記圧縮された1以上のエッジ値
との解凍を行
い、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された1以上のエッジ値を取得
することと、
前記各チャンネルの前記特徴行列に対して、前記デコーダにより、
前記各チャンネルの
前記特徴行列を取得するために
、前記圧縮すべき1以上の行の数と
前記圧縮すべき1以上の列の数に
応じて、
前記各チャンネルの
前記特徴行列の
前記解凍された保留値の周囲に、
前記解凍された保留値に対応する
前記解凍された
1以上のエッジ値を
パディングすることと、をさらに含む請求項3に記載の画像処理方法。
【請求項10】
前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの
指標であって、前記各チャンネルの前記特徴行列の
前記保留値
と前記1以上のエッジ値
および事前に設定
されたビット深度値に従って決定される
大きさの指標を含み、
前記デコーダによ
り、前記各チャンネルの
前記特徴行列の
前記圧縮された保留値
と前記圧縮された
1以上のエッジ値
を解凍
することは、
前記各チャンネルの前記特徴行列に対して、前記デコーダにより、前記各チャンネルの前記特徴行列に対応する
前記大きさの
指標に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前
記圧縮された
1以上のエッジ値
とをそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前
記解凍された
1以上のエッジ値を取得することを
含む請求項9に記載の画像処理方法。
【請求項11】
ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列
に対し、
前記特徴行列のエッジで同じ特徴値を有する1以上の行
と同じ特徴値を有する1以上の列
とを圧縮すべき1以上の行と圧縮すべき1以上の列として決定
する圧縮すべき情報決定モジュール
であって、前記中間層は入力層と出力層との間の層である、圧縮すべき情報決定モジュールと、
前記各チャンネルの前記特徴行列に対し、前記圧縮すべき1以上の行と前記圧縮すべき1以上の列との前記特徴値を削除し、残りの特徴値を
前記各チャンネルの前記特徴行列の保留値として保留
する保留値決定モジュールと、
前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値
を圧縮
するエッジ値圧縮モジュールと、
前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値
、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数
をエンコードし、前記
エンコードの結果をデコーダ
に送り
、前記デコーダにより前記各チャンネルの前記特徴行列
を復元するエンコードモジュールと、を備えるエンコーダ。
【請求項12】
プロセッサと、
命令を格納するために前記プロセッサに接続され
るメモリであって、
前記命令は前記プロセッサによって実行された際に、前記プロセッサに請求項1から8のいずれか一項に記載された前記画像処理方法を実行
させる
、メモリと、を備えるエンコーダ。
【請求項13】
コンピュータプログラムを格納するように備える
非一時的なコンピュータ可読記憶媒体であって、
前記プログラムはプロセッサによって実行された際に
、請求項1から10のいずれか一項に記載された前記画像処理方法の工程を実行
させる
非一時的なコンピュータ可読記憶媒体。
【請求項14】
請求項11または12に記載のエンコーダと、デコーダとを備える画像処理システムであって、
前記デコーダは前記エンコーダにより送信された受信データに応じて前記各チャンネルの前記特徴行列を復元する画像処理システム。
【請求項15】
前記デコーダは、前記圧縮すべき1以上の行
の数および前記圧縮すべき1以上の
列の数に加え、
前記各チャンネルの前記特徴行列の前記圧縮された保留値
と前記圧縮された
1以上のエッジ値を取得するために、
前記受信データ
をデコード
し、前記各チャンネル
の前記特徴行列の前記圧縮された保留値
と前記圧縮された1以上のエッジ値
との解凍を行
い、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された1以上のエッジ値
とを取得し、前記各チャンネルの前記特徴行列に対して、
前記各チャンネルの
前記特徴行列を取得するために前記圧縮すべき1以上の行の数と
前記圧縮すべき1以上の列の数に
応じて、
前記各チャンネルの
前記特徴行列の
前記解凍された保留値の周囲に、
前記解凍された保留値に対応する
前記解凍された
1以上のエッジ値を
パディングする
、請求項14に記載の画像処理システム。
【請求項16】
前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの
指標であって、前記各チャンネルの前記特徴行列の
前記保留値
と前記1以上のエッジ値
および事前に設定
されたビット深度値に従って決定される
大きさの指標を含み、
前記デコーダは、前記各チャンネルの前記特徴行列に対して、前記各チャンネルの前記特徴行列に対応する
前記大きさの
指標に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前
記圧縮された
1以上のエッジ値
とをそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前
記解凍された
1以上のエッジ値を取得する
、請求項15に記載の画像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2021年3月30日に出願された中国発明出願第202110339327.1号に基づいており、その優先権を主張しており、その開示内容全体が参照により本開示に組み込まれる。
【0002】
本開示は、コンピュータ技術の分野に関し、特に、画像処理方法、システム、エンコーダ、およびコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
ビデオコーディング フォア マシン(VCM)専門家グループは、圧縮ビデオまたはビデオから抽出されたフィーチャ コード ストリームのエンコード化技術を標準化することを目的としており、高い圧縮効率と知的業務性能を保留しながら、さまざまなマシンタスク(機械化業務)に使用でき、機械視覚(機械化展望)およびヒューマン-マシン ハイブリッド ビジョン アプリケーションに役立つ。
【発明の概要】
【発明が解決しようとする課題】
【0004】
機械視覚向けの深層学習機能のエンコードでは、エンコード対象のオブジェクトが配置されているニューラルネットワークの層を最初に決定でき、ニューラルネットワークの決定された層から特徴コードを出力し、これらはその後のさまざまなビデオ処理タスクで使用される。
【課題を解決するための手段】
【0005】
機械視覚の深層学習特徴エンコーディングで一般的に使用されるニューラルネットワークは、畳み込みニューラルネットワークを構成する。補充(パディング)操作は、多くの場合、畳み込みニューラルネットワークの畳み込みの前に導入され、画像の周囲にいくつかのピクセルを追加し、これらのピクセルを0のような予め設定された値に初期化する。
【0006】
本願発明の実施の形態によれば、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のための画像処理方法が提供され、その画像処理方法は、前記特徴行列のエッジで同じ特徴値を有する1以上の行と同じ特徴値を有する1以上の列とを、圧縮すべき1以上の行および圧縮すべき1以上の列として決定することであって、前記中間層は入力層と出力層との間の層である、同じ特徴値を有する1以上の行と同じ特徴値を有する1以上の列を決定することと、前記圧縮すべき1以上の行と前記圧縮すべき1以上の列との前記特徴値を削除し、残りの特徴値を前記各チャンネルの前記特徴行列の保留値として保留することと、前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値を圧縮することと、、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数のエンコードし、前記エンコードの結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列の復元することとを含む。
【0007】
いくらかの実施の形態においては、前記特徴行列のエッジで前記同じ特徴値を有する1以上の行と同じ特徴値を有する1以上の列を決定することは、前記ニューラルネットワークの前記中間層から出力される前記画像のチャンネルの特徴行列を、検出すべき特徴行列として選択することと、前記検出すべき前記特徴行列の最初の行から下方向へと、および前記検出すべき前記特徴行列の最後の行から上方向へと、それぞれ、前記検出すべき前記特徴行列の前記圧縮すべき1以上の行として、同じ特徴値を持つ1以上の行を検出し、前記検出すべき前記特徴行列の最初の列から後方へと、および前記検出すべき前記特徴行列の最後の列から前方へと、前記検出すべき特徴行列の前記圧縮すべき1以上の列として、同じ特徴値を持つ1以上の列を検出することと、前記検出すべき特徴行列の前記圧縮すべき1以上の行と同じ位置にある前記各チャンネルの前記特徴行列の1以上の行を、前記各チャンネルの前記特徴行列の前記圧縮すべき1以上の行として決定し、前記検出すべき前記特徴行列の前記圧縮すべき1以上の列と同じ位置にある前記各チャンネルの前記特徴行列の1以上の列を、前記各チャンネルの前記特徴行列の圧縮すべき1以上の列として、決定すると、を含む。
【0008】
いくらかの実施の形態においては、前記圧縮すべき1以上の行の数および前記圧縮すべき1以上の列の数に加えて、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値の前記エンコードを行うことは、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値を事前に設定された方法で圧縮することと、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数をエンコードすることと、を含む。
【0009】
いくらかの実施の形態においては、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値を前記事前に設定された方法で圧縮することは、前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値および事前に設定されたビット深度値に応じて前記各チャンネルの前記特徴行列に対応する大きさの指標(order of magnitude)を決定することと、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値を、前記各チャンネルの前記特徴行列に対応する前記大きさの指標に従って量子化して前記各チャンネルの前記特徴行列の前記圧縮された保留値および前記圧縮された1以上のエッジ値として、量子化された保留値および量子化された1以上のエッジ値を取得することと、を含む。
【0010】
いくらかの実施の形態においては、前記検出すべき前記特徴行列の最初の行から下方向へと、および検出すべき特徴行列の最後の行から上方向へと、それぞれ、同じ特徴値を有する1以上の行を検出することは、(1)前記検出すべき特徴行列に対し、圧縮すべき1以上の頂部行の数を初期化してゼロとすることと、(2)最初の行の特徴値が同じかどうかを判断し、もしも同じであれば、前記圧縮すべき1以上の頂部行の数を1つ増やし、次の行を現在の行として続行することと、(3)現在の行の前記特徴値が前の行と同じかどうかを判断し、もしも同じである場合には、前記圧縮すべき1以上の頂部行の数を1つ増やし、次の行を現在の行として続行することと、(4)現在の行の特徴値が前の行の特徴値と異なるまで(3)のステップを繰り返し、圧縮すべき1以上の頂部行と前記圧縮すべき頂部行の数とを取得することと、前記検出すべき特徴行列を鉛直方向にミラーリングしたことによって得られる行列を検出すべき新たな特徴行列として(1)から(4)のステップを行って、圧縮すべき1以上の底部行と前記圧縮すべき1以上の底部行の数として使用される、圧縮すべき1以上の頂部行と前記圧縮すべき1以上の頂部行の数とを取得することと、を含む。
【0011】
いくらかの実施の形態においては、前記検出すべき特徴行列の最初の列から後方へと、および前記検出すべき特徴行列の最後の列から前方へと、それぞれ、同じ特徴値を有する1以上の列を検出することは、前記検出すべき特徴行列を転置することによって得られた行列を検出すべき新たな特徴行列として(1)から(4)のステップを行って、圧縮すべき1以上の左列と前記圧縮すべき1以上の左列の数として使用される、圧縮すべき1つ以上の頂部行と前記圧縮すべき1つ以上の頂部行の数とを取得することと、前記検出すべき特徴行列を転置した転置行列を鉛直方向にミラーリングすることによって得られた行列を検出すべき新たな特徴行列として(1)から(4)のステップを行って、圧縮すべき1以上の右列および前記圧縮すべき1以上の右列の数として使用される、圧縮すべき1以上の頂部行と前記圧縮すべき1以上の頂部行の数とを取得することと、を含む。
【0012】
いくらかの実施の形態においては、前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値を圧縮することは、前記圧縮すべき1以上の行と前記圧縮すべき1以上の列との前記特徴値を前記各チャンネルの前記特徴行列の前記1以上のエッジ値としての一の値で表すことを備える。
【0013】
いくらかの実施の形態においては、前記エンコードはエントロピエンコードである。
【0014】
いくらかの実施の形態においては、前記方法は、前記デコーダにより、前記圧縮すべき1以上の行の数および前記圧縮すべき1以上の列の数に加え、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値を取得するために、受信データをデコードすることと、前記デコーダにより、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値との解凍を行い、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された1以上のエッジ値を取得することと、前記各チャンネルの前記特徴行列に対して、前記デコーダにより、前記各チャンネルの前記特徴行列を取得するために、前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数に応じて、前記各チャンネルの前記特徴行列の前記解凍された保留値の周囲に、前記解凍された保留値に対応する前記解凍された1以上のエッジ値をパディングすることと、をさらに含む。
【0015】
いくらかの実施の形態においては、さらに、前記各チャンネルの前記特徴行列に対応する大きさの指標であって、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値および事前に設定されたビット深度値に従って決定される大きさの指標を含み、前記デコーダにより、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値を解凍することは、前記各チャンネルの前記特徴行列に対して、前記デコーダにより、前記各チャンネルの前記特徴行列に対応する前記大きさの指標に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値とをそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記解凍された1以上のエッジ値を取得することを含む。
【0016】
本開示の他の実施の形態によれば、エンコーダが提供され、そのエンコーダは、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列に対し、前記特徴行列のエッジで同じ特徴値を有する1以上の行および同じ特徴値を有する1以上の列を、前記特徴行列のエッジで、圧縮すべき1以上の行および圧縮すべき1以上の列として決定する圧縮すべき情報決定モジュールであって、前記中間層は入力層と出力層との間の層である、圧縮すべき情報決定モジュールと、前記各チャンネルの前記特徴行列に対し、前記圧縮すべき1以上の行と前記圧縮すべき1以上の列との前記特徴値を削除し、残りの特徴値を前記各チャンネルの前記特徴行列の保留値として保留する保留値決定モジュールと、前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の1以上のエッジ値を取得するために前記圧縮すべき1以上の行と前記圧縮すべき1以上の列の前記特徴値を圧縮するエッジ値圧縮モジュールと、前記各チャンネルの前記特徴行列の前記保留値と前記1以上のエッジ値、および前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数をエンコードし、前記エンコードの結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列を復元するエンコードモジュールと、を備える。
【0017】
本開示のさらなる実施の形態によれば、エンコーダが提供され、そのエンコーダは、プロセッサと、命令を格納するために前記プロセッサに接続されるメモリであって、前記命令は、前記プロセッサによって実行された際に、前記プロセッサにこれまでの実施の形態に記載された前記画像処理方法を実行させる、メモリと、を備える。
【0018】
本開示の他の実施の形態によれば、非一時的なコンピュータ可読記憶媒体が提供され、その非一時的なコンピュータ可読記憶媒体は、コンピュータプログラムを格納するように備える非一時的なコンピュータ可読記憶媒体であって、プロセッサによって実行された際に、前記コンピュータプログラムがこれまでの実施の形態に記載された前記画像処理方法の工程を実行させる。
【0019】
本開示の他の実施の形態によれば、これまでの実施の形態に記載のエンコーダとデコーダとを備える画像処理システムが提供され、前記デコーダは前記エンコーダにより送信された受信データに応じて前記各チャンネルの前記特徴行列を復元する。
【0020】
いくらかの実施の形態においては、前記デコーダは、前記圧縮すべき1以上の行の数および前記圧縮すべき1以上の列の数に加え、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値を取得するために、前記受信データをデコードし、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上の前記エッジ値との解凍を行い、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された1以上のエッジ値とを取得し、前記各チャンネルの前記特徴行列に対して、前記各チャンネルの前記特徴行列を取得するために前記圧縮すべき1以上の行の数と前記圧縮すべき1以上の列の数に応じて、前記各チャンネルの前記特徴行列の前記解凍された保留値の周囲に、前記解凍された保留値に対応する前記解凍された1以上のエッジ値をパディングする。
【0021】
いくらかの実施の形態においては、前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの指標であって、前記各チャンネルの前記特徴行列の保留値と1以上のエッジ値および事前に設定されたビット深度値に従って決定される大きさの指標、を含み、前記デコーダは、前記各チャンネルの前記特徴行列に対して、前記各チャンネルの前記特徴行列に対応する前記大きさの指標に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記圧縮された1以上のエッジ値とをそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記解凍された1以上のエッジ値を取得する。
【0022】
本発明の他の特徴および利点は、添付の図面を参照した本発明の例示的な実施の形態の以下の詳細な説明から明らかになるであろう。
【0023】
添付の図面は、本開示のさらなる理解を提供するために構成され、本明細書に組み込まれ、その一部を構成し、本発明の実施の形態を例示し、本出願の例示的な実施の形態とともに本開示を説明するのに役立つが、本開示を限定するものではない。
【図面の簡単な説明】
【0024】
【
図1】本開示のいくつかの実施の形態による画像処理方法のフローチャートを示す。
【
図2】本開示の他の実施の形態による画像処理方法のフローチャートを示す。
【
図3】本発明のさらに他の実施の形態による画像処理方法のフローチャートである。
【
図4】本開示のいくつかの実施の形態によるエンコーダの構造図を示す。
【
図5】本発明の他の実施の形態によるエンコーダの構造図である。
【
図6】本発明のさらに他の実施の形態によるエンコーダの構造図である。
【
図7】本開示のいくつかの実施の形態による画像処理システムの構造図を示す。
【0025】
実施の形態の図を参照して、以下に、本開示の実施の形態の技術的解決策について明確かつ完全に説明する。明らかなことは、本開示がすべての実施の形態というわけではなく、本明細書には実施の形態のいくつかのみが記載される。少なくとも1つの例示的な実施の形態に関する以下の説明は、実際には単に例示的なものであり、本発明、その応用、または使用を決して限定することを意図したものではない。本開示の実施の形態に基づいて、当業者が創造的努力なしに取得した他のすべての実施の形態は、本開示の保護範囲内に含まれる。
【0026】
発明者らが発見したことは、機械視覚用の深層学習特徴エンコーディングにおいて、畳み込みニューラルネットワークにおけるパディング操作により、中間層から出力される画像の特徴コードには、エッジにパディングされた多くの特徴量が生成され、エッジでパディングされたこれらすべての特徴値をデコーダに送信すると、帯域幅の無駄が発生して送信効率が低下する可能性があることである。
【0027】
この点において、本開示によって解決される技術的課題は、いかに機械視覚用の深層学習特徴符号化において、デコーダへの送信効率を改善し、帯域幅の無駄を削減するかにある。
【0028】
この開示によれば、機械視覚のための深層学習特徴
エンコーディングでは、エンコーダがビデオ画像の特徴コードを抽出し、それを
デコードおよびその後の処理のためにデコーダに送信する。エンコーダとデコーダは個別に展開でき、エンコーダはニューラルネットワーク構造の一部を展開し、デコーダはニューラルネットワーク構造の他の一部を展開する。エンコーダの計算能力に基づいて、ニューラルネットワーク構造の一部を選択してエンコーダに展開できる。例えば、ニューラルネットワークのある中間層およびそれより前の層はエンコーダに配置され、ある中間層以降の層はデコーダに配置される。エンコーダは、特定の中間層によって出力された特徴を、後続の処理のためにデコーダに送信
する。本発明は、エンコーダからデコーダに大量のデータを送信することによる帯域の無駄と伝送効率の低下の問題を解決するための画像処理方法を提案する。これは、
図1から
図2を参照して説明される。
【0029】
図1は本開示のいくつかの実施の形態による画像処理方法の概略図である。
図1に示すように、これらの実施の形態の方法は、ステップS102からS108を備える。
【0030】
ステップS102では、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列について、特徴行列のエッジで同じ特徴量を有する1以上の行および同じ特徴量を有する1以上の列を圧縮すべき1以上の行と圧縮すべき1以上の列として決定する。
【0031】
発明者が気づいたことは、パディング操作の後に画像の特徴行列のエッジの行および列が特に類似した特徴値を有する、または複数の行および列が同じ特徴値を有することである。したがって、画像の特徴行列を圧縮することができる。中間層は、入力層と出力層との間の層である。機械視覚用の深層学習特徴エンコーディングでは、中間層はエンコーダに展開されるニューラルネットワークの最後の層であってもよく、エンコーダまたはその他の実際の処理能力に基づいて選択されてもよいが、ここでの特定の開示には限定されない。
【0032】
いくつかの実施の形態では、ニューラルネットワークの中間層から出力される画像のチャンネルの特徴行列が、検出すべき特徴行列として選択され、特徴行列の圧縮すべき行として、検出すべき特徴行列の最初の行から下方向と、検出すべき特徴行列の最後の行から上方向に、同じ特徴値を有する1以上の行を検出し、検出すべき特徴行列の最初の列から後方へ、及び検出すべき特徴行列の最後の列から前方へ、同じ特徴値を有する1以上の列が、検出すべき特徴行列の圧縮すべき1以上の列としてそれぞれ検出され、検出すべき特徴行列の圧縮すべき1以上の行と同じ位置にある各チャンネルの特徴行列の1以上の行が、各チャンネルの特徴行列の圧縮すべき1以上の行として決定され、検出すべき特徴行列の圧縮すべき1以上の列と同じ位置にある各チャンネルの特徴行列の1以上の列が、各チャンネルの特徴行列の圧縮すべき1以上の列として決定される。検出すべき特徴行列として、任意のチャンネルの特徴行列を選択することができる。
【0033】
検出すべき特徴行列の最初の行から下方向に圧縮すべき1以上の行を決定する方法のいくつかの実施の形態について、
図2を参照して以下に説明する。
【0034】
ステップS202では、検出すべき特徴行列について、圧縮すべき1以上の頂部行の数sameTopCntが0に初期化される。
【0035】
ステップS204では最初の行の特徴量が同じか否かを判定し、同じである場合にはステップS206に進み、異なる場合にはステップS212に進む。
【0036】
ステップS206ではsameTopCntが1だけ増加され、方法は次の行を現在の行としてステップS208に進む。
【0037】
ステップS208において現在の行の特徴量が前の行と同じか否かが判断され、同じである場合にはステップS210に進み、異なる場合にはステップS212に進む。
【0038】
ステップS210ではsameTopCntが1だけ増加され、方法は次の行を現在の行としてステップS208が繰り返される。
【0039】
ステップS212において、圧縮すべき1以上の頂部行と、圧縮すべき1以上の頂部行の数sameTopCntが決定される。
【0040】
いくつかの実施形態では、最後の行から上方に同じ特徴値を有する検出すべき特徴行列の1以上の行を検出する方法は、検出すべき特徴行列を鉛直方向にミラーリングした行列を新たな検出すべき特徴行列として、ステップS202からS208を実行して圧縮すべき1以上の頂部行および圧縮すべき1以上の頂部行の数を取得することを備え、それらは圧縮すべき1以上の底部行および圧縮すべき1以上の底部行の数sameBotCntとして使用される。
【0041】
いくつかの実施の形態では、最初の列から後方に同じ特徴値を有する検出すべき特徴行列の1以上の列を検出する方法は、検出対象特徴行列を転置した行列を新たな検出対象特徴行列としてステップS202からS208を実行して、圧縮すべき1以上の頂部行および圧縮すべき1以上の頂部行の数を取得することを備え、それらは圧縮すべき1以上の左列および圧縮すべき1以上の左列の数sameLeftCntとして使用される。
【0042】
いくつかの実施の形態では、最後の列から前方に同じ特徴値を有する検出すべき特徴行列の1以上の列を検出する方法は、検出すべき特徴行列の転置行列を鉛直方向にミラーリングした行列を新たな検出すべき特徴行列として、ステップS202からS208を実行して圧縮すべき1以上の頂部行および圧縮すべき1以上の頂部行の数を取得することを備え、それらは圧縮すべき1以上の右側の列および圧縮すべき1以上の右側の列の数sameRightCntとして使用される。
【0043】
ステップS104では、各チャンネルの特徴行列について、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴量を削除し、残りの特徴量をそのチャンネルの特徴行列の保留値として保存する。
【0044】
たとえば、特徴行列F(H*W、たとえばH行W列)のエッジにある特徴に対して切取操作が実行され、(H-sameTopCnt-sameBotCnt)*(W-sameLeftCnt-sameRightCnt)の範囲内の特徴値F’を特徴行列の保留値として残しながら、sameTopCntの頂部行、sameBotCntの底部行、sameLeftCntの左列、sameRightCntの右列が削除される。
【0045】
ステップS106では、各チャンネルの特徴行列について、圧縮すべき1以上の行と圧縮すべき1以上の列の特徴値を圧縮して、そのチャンネルの特徴行列の1以上のエッジ値を取得する。
【0046】
いくつかの実施の形態では、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴値は、各チャンネルの特徴行列の1以上のエッジ値として機能する値で表される。圧縮すべき1以上の頂部行、圧縮すべき1以上の底部行、圧縮すべき1以上の左側の列、および圧縮すべき1以上の右側の列がそれぞれ異なる特徴値に対応する場合には、圧縮すべき1以上の頂部行は値で表され、圧縮すべき1以上の底部行は値で表され、圧縮すべき1以上の左列は値で表され、圧縮すべき1以上の右列は値で表される。
【0047】
ステップS108において、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数、並びに各チャンネルの特徴行列の保留値および1以上のエッジ値はエンコードされて、デコーダによって各チャンネルの特徴行列をデコードするためにデコーダに送信される。
【0048】
たとえば、チャンネルiの特徴行列は
【数1】
であり、保留値は
【数2】
であり、1以上のエッジ値は
【数3】
として表され(1以上の圧縮すべき頂部行、圧縮すべき1以上の底部行、圧縮すべき1以上の左列、圧縮すべき1以上の右列が、異なる特徴値に対応するならば、複数のエッジ値が存在する)、圧縮すべき1以上の行の数は、圧縮すべき1以上の頂部行の数
【数4】
と圧縮すべき1以上の底部行の数
【数5】
とを備え、圧縮すべき1以上の列の数は、圧縮すべき1以上の左列の数
【数6】
と圧縮すべき1以上の右列の数
【数7】
を備える。各チャンネルは、圧縮すべき同じ数の行と同じ数の列
を有してもよい。
【0049】
各チャンネルの特徴行列の保留値および1以上のエッジ値、並びに圧縮すべき1以上の行の数および圧縮すべき1以上の列の数は、ビットストリームを形成するようにエンコードされたエントロピであってもよく、それはデコーダに送信される。
【0050】
上記実施の形態の方法では、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列について、特徴行列のエッジで同じ特徴量を有する1以上の行と、同じ特徴量を有する1以上の列とは圧縮すべき1以上の行および圧縮すべき1以上の列として決定され、各チャンネルの特徴行列の保留値を取得するために、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴値が削除され、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴値が圧縮されて、各チャンネルの特徴行列の1以上のエッジ値が得られ、圧縮すべき1以上の行の数と圧縮すべき1以上の列の数に加え、各チャンネルの特徴行列の保留値と1以上のエッジ値は、エンコードされてデコーダに送信される。デコーダは、受信した情報に基づいて、各チャンネルの特徴行列を復元できる。上記実施の形態の方法では、ニューラルネットワークの中間層が出力する特徴量の圧縮率を向上させることができる。機械視覚用の深層学習特徴エンコーディングでは、中間層が出力する各チャンネルの特徴行列が上記実施の形態の方法で圧縮され、後続のビデオ処理のために画像特徴コードとしてデコーダに送信でき、デコーダへの送信効率が向上し、送信遅延と帯域幅の無駄が削減される。
【0051】
いくつかの実施の形態では、各チャンネルの特徴行列の保留値および1以上のエッジ値は、予め設定された方法で圧縮され、ならびに圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に加え、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値がエンコードされる。圧縮は予め設定されたビット深度値に基づく線形量子化など、予め設定された方法に従って実行される。予め設定された方法は、線形量子化に限定されず、ベクトル量子化など、実際の必要に応じて選択することができ、特に上記の例に限定されるものではない。
【0052】
いくつかの実施の形態では、各チャンネルの特徴行列について、各チャンネルの特徴行列に対応する
大きさの指標が、各チャンネルの特徴行列の保留値および1以上のエッジ値とプリセットビット深度値に従って決定され、各チャンネルの特徴行列の保留値と圧縮された1以上のエッジ値は、各チャンネルの特徴行列に対応する
大きさの指標に応じて
量子化されて、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値として、量子化された保留値と1以上の量子化されたエッジ値
が取得される。たとえば、チャンネルの特徴行列の保留値と1以上のエッジ値が最大値Aと最小値Bを持つならば、量子化レベルはM=2
BDになり、ここで、BD(
予め設定されたビット深度)値は2を底とする指数であって、
大きさの指標は
【数8】
である。量子化された保留値および
量子化された1以
上のエッジ値は、チャンネルの特徴行列の保留値および1以上のエッジ値を
大きさの指標で除算し結果の値を切り捨てることによって得られる。
【0053】
上記実施の形態の方法はさらなるデータ圧縮を達成し、圧縮率を改善し、デコーダへの伝送効率をさらに改善し、帯域幅の無駄を削減することができる。
【0054】
いくつかの実施の形態では、デコーダは、受信データをデコードして、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に加えて、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値を獲得する。デコーダは、圧縮すべき1以上の行の数と、圧縮すべき1以上の列の数とに従って、各チャンネルの特徴行列の保留値の周囲に1以上のエッジ値をパディングして、各チャンネルの特徴行列を復元する。圧縮すべき1以上の行の数は、圧縮すべき1以上の頂部行の数と、圧縮すべき1以上の底部行の数とを備える。圧縮すべき列の数は、圧縮すべき1以上の左列の数と、圧縮すべき1以上の右列の数で構成される。
【0055】
たとえば、チャンネルiに対して、値
【数9】
のsameTopCnt行、値
【数10】
のsameBotCnt行、値
【数11】
のsameLeftCnt列、および値
【数12】
のsameRightCnt列が保留値
【数13】
の上下左右にそれぞれに追加
されて、特徴行列
【数14】
が元のサイズに復元
される。
【0056】
さらに、いくつかの実施の形態では、
図3に示すように、デコーダがデータを受信した後の処理方法は、ステップS302からS306を備える。
【0057】
ステップS302において、デコーダは受信データをデコードして、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に加え、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値を取得する。
【0058】
ステップS304において、デコーダは、各チャンネルの特徴行列の解凍された保留値および解凍された1以上のエッジ値を取得するために、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値を解凍する。
【0059】
上記実施の形態で説明した方法で圧縮する場合、デコーダは、例えば、逆量子化法を用いて解凍する必要がある。デコーダによって受信されたデータはまた、各チャンネルの特徴行列に対応する量子化パラメータ(大きさの指標など)を備える。例えば、各チャンネルの特徴行列について、各チャンネルの特徴行列に対応する大きさの指標が、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値によってそれぞれ乗算され、各チャンネルの特徴行列の解凍された保留値および解凍された1以上のエッジ値が取得される。
【0060】
ステップS306において、各チャンネルの特徴行列について、デコーダは、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に従って、各チャンネルの特徴行列の解凍された保留値の周りに解凍された保留値に対応する解凍された1以上のエッジ値をパディングして、各チャンネルの特徴行列を得る。
【0061】
いくつかの実施形態では、各チャンネルの特徴行列について、デコーダは、各チャンネルの圧縮された特徴行列を取得するために、圧縮すべき1以上の行の数と圧縮すべき1以上の列の数とに基づいて、各チャンネルの特徴行列の圧縮された保留値の周りに1以上の圧縮されたエッジ値でパディングし、そして圧縮された特徴行列を解凍して、各チャンネルの特徴行列を取得する。
【0062】
上記の実施形態の方法では、量子化による圧縮は、デコーダのデコーディング効率および解凍されたデータの後続の処理効率を改善するのに有利である。
【0063】
以下に応用例を説明する。
【0064】
この応用例では、Cascade RCNN ResNet101は、一例として、入力として5472×3078×3の大きさのRGB画像が使用され、エンコーディングプロセスは以下の通りである。
【0065】
1.最初の畳み込み正規化後に64×384×672の中間層特徴を抽出し、最初のチャンネルの特徴行列
【数15】
上で圧縮すべき行と圧縮すべき列を検出し、圧縮すべき頂部行の数と圧縮すべき底部行の数と圧縮すべき左行の数と圧縮すべき右列の数(sameTopCnt/sameBotCnt/sameLeftCnt/sameRightCnt)、たとえば(0/7/0/4)とを取得する。
【0066】
2.各チャンネルの特徴行列
【数16】
の
エッジの特徴において、64×(384-7)×(672-4)の範囲の特徴値
【数17】
を残して、底部行7行と右4列を削除する切
取操作を実行する。
【0067】
3.BD=8の条件で各チャンネルの特徴行列の保留値
【数17】
とエッジ値
【数18】
(i=0,1,・・・63)を線形量子化し、圧縮する行
の数と圧縮する列
の数に加えて、線形量子化された保留値
【数19】
、線形量子化されたエッジ値
【数21】
、に対してエントロピエンコーディングを実行してビットストリームSを取得する。
【0068】
デコーディングプロセスは以下の通りである。
【0069】
1.ビットストリーム
Sを
デコードして、量子化
された保留値
【数22】
、量子化
されたエッジ値
【数23】
、圧縮すべき行
の数、圧縮すべき列
の数、量子化パラメータを取得する。
【0070】
2.
底部と右側に量子化エッジ値
【数24】
を持つ7行
と4列をそれぞれ加算することにより、量子化された保留値
【数25】
においてエッジ加算演算を実行して、量子化
された特徴行列
【数26】
を元の大きさで復元する。
【0071】
3.特徴行列
【数27】
に
対して逆量子化を実行して各チャンネルの特徴行列を復元する。
【0072】
エッジ加算操作の前に、量子化
された保留値
【数28】
と量子化
されたエッジ値
【数29】
に
対して逆量子化を行うことも可能である。
【0073】
本開示の画像処理方法はエンコーダ上に実装することができる。以下、
図4を参照して、本発明の一実施の形態によるエンコーダの構造について説明する。
【0074】
図4は、本発明の実施の形態によるエンコーダの構造図である。
図4に示すように、本実施の形態のエンコーダ40は、圧縮すべき情報決定モジュール410と、保留値決定モジュール420と、エッジ値圧縮モジュール430と、符号化モジュール440とを備える。
【0075】
圧縮すべき情報決定モジュール410は、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列に対して、特徴行列のエッジで同じ特徴値を有する1以上の行と同じ特徴値を有する1以上の列とを、圧縮すべき1以上の行および圧縮すべき1以上の列として決定するように構成され、ここで、中間層は、入力層と出力層との間の層である。
【0076】
いくつかの実施の形態では、圧縮すべき情報決定モジュール410は、ニューラルネットワークの中間層から出力される画像のチャンネルの特徴行列を検出すべき特徴行列として選択し、検出すべき特徴行列の最初の行から下方向へと、検出すべき特徴行列の最後の行から上方向へと、それぞれ同じ特徴値を持つ1以上の行を検出すべき特徴行列の圧縮すべき1以上の行として検出し、検出すべき特徴行列の最初の列から後方へと、および検出すべき特徴行列の最後の列から前方へと、同じ特徴値を持つ1以上の列を検出すべき特徴行列の圧縮すべき1以上の列として検出し、検出すべき特徴行列の圧縮すべき1以上の行と同じ位置にある各チャンネルの特徴行列の1以上の行を、各チャンネルの特徴行列の圧縮すべき1以上の行として決定し、検出すべき特徴行列の圧縮すべき1以上の列と同じ位置にある各チャンネルの特徴行列の1以上の列を、各チャンネルの特徴行列の圧縮すべき1以上の列として検出することを決定するように構成される。
【0077】
いくつかの実施の形態では、圧縮すべき情報決定モジュール410は、以下のように構成される。
(1)検出すべき特徴行列について、圧縮すべき1以上の頂部行の数を0に初期化し、
(2)最初の行の特徴値が同じであるかどうかを判定し、同じであれば、圧縮すべき1以上の頂部行の数を1増やして、次の行を現在の行として継続し、
(3)現在の行の特徴値が前の行と同じかどうかを判断し、同じであれば、圧縮すべき1以上の頂部行の数を1増やして、次の行を現在の行として継続し、
(4)現在の行の特徴値が前の行の特徴値と異なるまでステップ(3)を繰り返し、圧縮すべき1以上の頂部行および圧縮すべき1以上の頂部行の数を取得し、検出すべき特徴行列を鉛直方向にミラーリングして得られた行列を検出すべき新たな特徴行列としてステップ(1)から(4)を実行し、圧縮すべき1以上の頂部行と圧縮すべき1以上の頂部行の数を取得し、そして、それらは圧縮すべき1以上の底部行および圧縮すべき1以上の底部行の数として使用される。
【0078】
いくつかの実施の形態では、圧縮すべき情報決定モジュール410は、検出すべき特徴行列を転置することによって得られる行列を検出すべき新たな特徴行列としてステップ(1)から(4)を実行し、圧縮すべき1以上の頂部行と圧縮すべき1以上の頂部行の数とを取得し、そして、それらは圧縮すべき1以上の左列および圧縮すべき1以上の左列の数として使用され、検出すべき特徴行列を転置しその転置行列を鉛直方向にミラーリングすることにより取得された行列を検出すべき新たな特徴行列としてステップ(1)から(4)を実行して、圧縮すべき1以上の頂部行と圧縮すべき1以上の頂部行の数とを取得するように構成され、そして、それらは圧縮すべき1以上の右列および圧縮すべき1以上の右列の数として使用される。
【0079】
保留値決定モジュール420は、各チャンネルの特徴行列において、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴量を削除して、残りの特徴値を各チャンネルの特徴行列の保留値として保留するように構成されている。
【0080】
エッジ値圧縮モジュール430は、各チャンネルの特徴行列に対して、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴値を圧縮して、各チャンネルの特徴行列の1以上のエッジ値を取得するように構成される。
【0081】
いくつかの実施形態では、エッジ値圧縮モジュール430は、圧縮すべき1以上の行および圧縮すべき1以上の列の特徴値を各チャンネルの特徴行列の1以上のエッジ値として表すように構成される。
【0082】
エンコードモジュール440は、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に加え、各チャンネルの特徴行列の保留値および1以上のエッジ値をエンコードし、デコーダによって各チャンネルの特徴行列を復号するためにデコーダにエンコードの結果を送るように構成される。
【0083】
いくつかの実施の形態では、エンコードはエントロピエンコードである。
【0084】
いくつかの実施形態では、エンコードモジュール440は、各チャンネルの特徴行列の保留値および1以上のエッジ値を事前に設定した方法で圧縮し、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値および圧縮すべき1以上の行の数および圧縮すべき1以上の列の数をエンコードするように構成される。
【0085】
いくつかの実施形態では、エンコードモジュール440は、各チャンネルの特徴行列において、各チャンネルの特徴行列の保留値および1以上のエッジ値および事前に設定されたビット深度値に従って、各チャンネルの特徴行列に対応する大きさの指標を決定し、各チャンネルの特徴行列の保留値および1以上のエッジ値を各チャンネルの特徴行列に対応する大きさの指標に従って量子化して、量子化された保留値および量子化された1以上のエッジ値を各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値として取得するように構成される。
【0086】
本開示のこの実施の形態のエンコーダおよびデコーダは、様々なコンピューティングデバイスまたはコンピュータシステムによって実装することができ、それらについては
図5および
図6を参照して以下に説明する。デコーダの構造については、エンコーダの構造を参照することができ、ここでは繰り返さない。
【0087】
図5は、本発明の実施の形態によるエンコーダの構造図である。
図5を参照すると、この実施の形態のエンコーダ50は、メモリ510と、メモリ510に接続されたプロセッサ520とを備え、プロセッサ520は、メモリ510に格納された命令に基づいて、本開示の実施の形態のいずれかによる画像処理方法を実行するように構成される。
【0088】
ここで、メモリ510は、例えば、システムメモリ、固定不揮発性記憶媒体などを備えることができる。システムメモリには、オペレーティングシステム、アプリケーション、ブートローダー、データベースおよびその他のプログラムが格納されている。
【0089】
図6は、本発明の他の実施の形態によるエンコーダの構造図である。
図6に示すように、この実施の形態のエンコーダ60は、メモリ510およびプロセッサ520のそれぞれと同様のメモリ610およびプロセッサ620を備える。
エンコーダ60は、入出力インターフェース630、ネットワークインターフェース640、ストレージインターフェース650などをさらに備えることができる。これらのインターフェース630、640、650、メモリ610、およびプロセッサ620は、例えばバス660を介して接続されてもよい。ここで、入出力インターフェース630は、ディスプレイ、マウス、キーボード、タッチスクリーンなどの入出力装置のための接続インターフェースを提供する。ネットワークインターフェース640は、さまざまなネットワークデバイスに接続インターフェースを提供し、例えば、データベースサーバまたはクラウドストレージサーバに接続することができる。ストレージインターフェース650は、SDカードおよびUSBフラッシュディスクのような外部記憶装置への接続インターフェースを提供する。
【0090】
本発明はまた、
図7を参照して以下に説明する画像処理システムも提供する。
【0091】
図7は、本開示のいくつかの実施の形態による画像処理システムの構造図である。
図7に示すように、本実施の形態のシステム7は、前述の実施の形態のいずれかによるエンコーダ40/50/60と、デコーダ72とを備える。
【0092】
デコーダ72は、受信データをデコードして、圧縮すべき1以上の行の数と圧縮すべき1以上の列の数、並びに各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値を取得し、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値を解凍して、各チャンネルの特徴行列の解凍された保留値および解凍された1以上のエッジ値を取得し、各チャンネルの特徴行列に対して、圧縮すべき1以上の行の数および圧縮すべき1以上の列の数に従って、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する解凍された1以上のエッジ値をパディングして、各チャンネルの特徴行列を取得するように構成される。
【0093】
いくつかの実施の形態では、受信データは、各チャンネルの特徴行列に対応する大きさの指標をさらに含み、それは各チャンネルの特徴行列の保留値および1以上のエッジ値と、事前に設定されたビット深度値に従って決定される。各チャンネルの特徴行列に対して、デコーダ72は、各チャンネルの特徴行列に対応する大きさの指標に、各チャンネルの特徴行列の圧縮された保留値および圧縮された1以上のエッジ値をそれぞれ乗算し、各チャンネルの特徴行列の解凍された保留値と解凍された1以上のエッジ値とを取得するように構成される。
【0094】
いくつかの実施の形態では、エンコーダはエッジコンピューティングノード上に配置され、デコーダはクラウド上に配置される。
【0095】
本開示はさらに、コンピュータプログラムが格納される非一時的なコンピュータ可読記憶媒体を提供し、それは、プログラムはプロセッサによって実行されて、前述の実施の形態のいずれか1つの画像処理方法を実現する。
【0096】
当業者は、本開示の実施の形態が方法、システム、またはコンピュータプログラム製品として提供され得ることを理解すべきである。したがって、本開示の実施の形態は、完全にハードウェアの実施の形態、完全にソフトウェアの実施の形態、またはハードウェア要素とソフトウェア要素の両方を含む実施の形態の形態をとることができる。さらに、本開示は、内部に具現化されたコンピュータで使用可能なプログラムコードを有する1以上の非一時的な記憶媒体(ディスク記憶装置、CD-ROM、光記憶装置などを含むがこれらに限定されない)上で具体化されるコンピュータプログラム製品の形態をとってもよい。
【0097】
本開示は、本開示の実施の形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明される。フローチャートおよび/またはブロック図における各プロセスおよび/またはブロック、およびフローチャートおよび/またはブロック図におけるプロセスおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって実装され得ることを理解されたい。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行される命令が、フローチャートの1以上のフローおよび/またはブロック図の1以上のブロックで指定された機能を実装する手段を生成するように、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、マシンを生成することができる。
【0098】
コンピュータプログラム命令は、コンピュータ可読記憶装置に記憶された命令が、フローチャートの1以上のフローおよび/またはブロック図の1以上のブロックで指定された機能を実装する命令手段を備える製品を生成するように、コンピュータまたは他のプログラム可能なデータ処理装置に特定の方法で動作するように指示できるコンピュータ可読記憶装置に格納することもできる。
【0099】
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートの1以上のフローおよび/またはブロック図の1以上のブロックで指定された機能を実装するステップを提供するように、コンピュータまたは他のプログラム可能なデバイスにロードして、コンピュータまたは他のプログラム可能なデバイス上で一連の操作ステップを実行して、コンピュータで実装されるプロセスを生成することもできる。ここまでの記載は、本開示の単なる好ましい実施の形態であり、本開示に限定されるものではない。本開示の思想および原則の範囲内で、いかなる修正、置換、改良等も本開示の保護範囲に含まれるものとする。