特表2024-512731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ チャイナ・テレコム・コーポレーション・リミテッドの特許一覧

特表2024-512731画像処理方法、システム、エンコーダ、コンピュータ可読記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-19

(54)【発明の名称】画像処理方法、システム、エンコーダ、コンピュータ可読記憶媒体

(51)【国際特許分類】

H04N 19/90 20140101AFI20240312BHJP

【ＦＩ】

H04N19/90

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023560610

(86)(22)【出願日】2021-12-02

(85)【翻訳文提出日】2023-11-28

(86)【国際出願番号】 CN2021134996

(87)【国際公開番号】W WO2022205987

(87)【国際公開日】2022-10-06

(31)【優先権主張番号】202110339327.1

(32)【優先日】2021-03-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】515003145

【氏名又は名称】チャイナ・テレコム・コーポレーション・リミテッド

【氏名又は名称原語表記】ＣＨＩＮＡＴＥＬＥＣＯＭＣＯＲＰＯＲＡＴＩＯＮＬＩＭＩＴＥＤ

【住所又は居所原語表記】３１，ＪＩＮＲＯＮＧＳＴＲＥＥＴ，ＸＩＣＨＥＮＧＤＩＳＴＲＩＣＴ，ＢＥＩＪＩＮＧ１０００３３，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100094112

【弁理士】

【氏名又は名称】岡部讓

(74)【代理人】

【識別番号】100101498

【弁理士】

【氏名又は名称】越智隆夫

(74)【代理人】

【識別番号】100107401

【弁理士】

【氏名又は名称】高橋誠一郎

(74)【代理人】

【識別番号】100120064

【弁理士】

【氏名又は名称】松井孝夫

(74)【代理人】

【識別番号】100182257

【弁理士】

【氏名又は名称】川内英主

(74)【代理人】

【識別番号】100202119

【弁理士】

【氏名又は名称】岩附秀幸

(72)【発明者】

【氏名】ワン，フーイフェン

(72)【発明者】

【氏名】チャン，ユアン

(72)【発明者】

【氏名】ヤン，ミンチュアン

(72)【発明者】

【氏名】シェン，レピン

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA04

5C159MC11

5C159ME01

5C159PP04

5C159TA17

5C159TB09

5C159TC02

5C159TC10

5C159TD08

5C159UA02

5C159UA05

(57)【要約】

本開示は、画像処理方法およびシステム、エンコーダ、コンピュータ可読記憶媒体、とコンピュータの技術分野に関する。本開示の方法は、ニューラルネットワークの中間層で出力される画像の様々なチャンネルの特徴行列に対し、中間層は入力層と出力層との間の層であって、同じ特徴値を有する行および列を前記特徴行列のエッジで圧縮すべき行および列として決定し、圧縮すべき行と列との特徴値を削除し残りの特徴値をチャンネルの特徴行列の保留値として保留し、圧縮すべき行と列の特徴値を圧縮し、チャンネルの特徴行列のエッジ値を取得し、チャンネルの特徴値の保留値とエッジ値と圧縮すべき行と列の量の符号化後、それをデコーダに送信し、デコーダがチャンネルの特徴行列を回復する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のための画像処理方法であって、その画像処理方法は、
前記中間層は入力層と出力層との間の層であって、同じ特徴値を有する１以上の行および同じ特徴値を有する１以上の列を、前記特徴行列のエッジで、圧縮すべき１以上の行および圧縮すべき１以上の列として決定を行い、
前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値を削除し、残りの特徴値を各チャンネルの前記特徴行列の保留値として保留を行い、
前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の圧縮を行って、
前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値および前記圧縮すべき１以上の行の数と前記圧縮すべき１以上の列の数の符号化を行い、前記符号化の結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列のデコードを行う画像処理方法。

【請求項2】

請求項１に記載の画像処理方法であって、
前記特徴行列のエッジにおける前記同じ特徴値を有する１以上の行と前記同じ特徴値を有する１以上の列との前記決定は、
前記ニューラルネットワークの前記中間層から出力される前記画像のチャンネルの特徴行列を検出すべき特徴行列として選択し、
前記検出すべき前記特徴行列の最初の行から下方向へと、および前記検出すべき前記特徴行列の最後の行から上方向に、それぞれ、前記検出すべき前記特徴行列の前記１以上の行として、同じ特徴値を持つ１以上の行を検出し、前記検出すべき前記特徴行列の最初の列から後方へと、および前記検出すべき前記特徴行列の最後の列から前方へと、前記検出すべき前記特徴行列の前記１以上の列として、同じ特徴値を持つ１以上の列を検出し、
前記検出すべき前記特徴行列の前記圧縮すべき１以上の行と同じ位置にある各チャンネルの特徴行列の１以上の行を、前記各チャンネルの前記特徴行列の前記圧縮すべき１以上の行として決定し、前記検出すべき前記特徴行列の圧縮すべき１以上の列と同じ位置にある前記各チャンネルの前記特徴行列の１以上の列を、前記各チャンネルの前記特徴行列の前記圧縮すべき１以上の列として、決定する、
ことを備える画像処理方法。

【請求項3】

請求項１に記載の画像処理方法であって、
圧縮すべき前記１以上の行の数および圧縮すべき前記１以上の列の数に加えて、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値の前記符号化を行うことは、
前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値を事前に設定された方法で圧縮し、
圧縮すべき前記１以上の行の数および圧縮すべき前記１以上の列の数に加えて、前記各チャンネルの前記特徴行列の圧縮された保留値と圧縮された１以上のエッジ値の符号化を行う方法。

【請求項4】

請求項３に記載の画像処理方法であって、
前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値の前記圧縮を行うことは、
前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の前記保留値と前記特徴行列の前記１以上のエッジ値および事前設定されたビット深度値に応じて前記各チャンネルの前記特徴行列に対応する大きさの次数の決定を行い、
各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値を、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に従って量子化して前記各チャンネルの前記特徴行列の圧縮された保留値および前記圧縮された１以上のエッジ値として定量化保留値および１以上の定量化エッジ値を取得する方法。

【請求項5】

請求項２に記載の画像処理方法であって、検出すべき前記特徴行列の第１行から下方向、および検出すべき特徴行列の最後の行から上方向に、それぞれ同じ特徴値を有する１以上の行の前記検出は、
（１）検出すべき前記特徴行列に対し、圧縮すべき１以上の先頭行の数を初期化してゼロとし、
（２）最初の行の特徴値が同じかどうかを判断し、もしも同じであれば、圧縮すべき前記１以上の先頭行の数を１つ増やし、次の行を現在の行として続行し、
（３）前記現在の行の前記特徴値が前の行と同じかどうかを判断し、もしも同じである場合には、圧縮する以上の先頭行の数を１だけ増やし、次の行を現在の行として続行し、
（４）前記現在の行の前記特徴値が前の行の特徴値と異なるまでステップ（３）を繰り返し、圧縮すべき前記１以上の最初の行と圧縮すべき前記１以上の最初の行の数とを取得し、
検出すべき前記特徴行列を上下にミラーした行列を新たな検出すべき前記特徴行列として（１）から（４）の処理を行って、圧縮すべき１以上最初の行と、圧縮すべき１以上の先頭行の数を取得し、そして、これは圧縮すべき１以上の行の最後の行と圧縮すべき１以上の最後の行の数として使用される方法。

【請求項6】

請求項５に記載の画像処理方法であって、検出すべき前記特徴行列の最初の列から後方へ、および検出すべき前記特徴行列の最後の列から前方へ、同じ特徴値を有する１以上の列の前記検出は、それぞれ、
圧縮すべき１以上の先頭行と圧縮すべき１以上の先頭行の数を取得するために、検出すべき前記特徴行列を新たに検出すべき特徴行列として転置することによって得られた行列であって圧縮すべき１以上の左列および前記圧縮すべき１以上の左列の数を持つものとして使用される行列で、前記ステップ（１）から（４）を実行し、
圧縮すべき１以上の先頭行と圧縮すべき１以上の先頭行の数を取得するために、検出すべき前記特徴行列を新たに検出すべき特徴行列として転置することによって得られた行列であって圧縮すべき１以上の右列および前記圧縮すべき１以上の右列の数を持つものとして使用される行列で、前記ステップ（１）から（４）を実行する画像処理方法。

【請求項7】

請求項１に記載の画像処理方法であって、
前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の前記圧縮は、前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値をそのチャンネルの前記特徴行列の前記１以上のエッジ値としてのある値で表すことを備える画像処理方法。

【請求項8】

請求項１に記載の画像処理方法であって、前記エンコーディングはエントロピエンコーディングである画像処理方法。

【請求項9】

請求項３に記載の画像処理方法であって、さらに、
前記圧縮すべき１以上の行および前記圧縮すべき１以上の行に加え、前記圧縮された保留値と前記各チャンネルの前記特徴行列の１以上の前記圧縮されたエッジ値を取得するために、前記デコーダにより、受信データのデコードを行い、
前記デコーダにより、前記各チャンネルの圧縮された保留値と前記特徴行列の前記圧縮された１以上のエッジ値の解凍を行って、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された１以上のエッジ値を取得し、
前記各チャンネルの前記特徴行列に対して、前記デコーダにより、各チャンネルの特徴行列を取得するために前記圧縮すべき１以上の行の数と圧縮すべき１以上の列の数に基づいて、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する１以上の解凍されたエッジ値を補填する画像処理方法。

【請求項10】

請求項９に記載の画像処理方法であって、
前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの順序であって、前記各チャンネルの前記特徴行列の保留値および１以上のエッジ値と、予設定ビット深度値に従って決定される順序、を備え、
前記デコーダによる各チャンネルの特徴行列の圧縮された保留値および前記１以上の圧縮されたエッジ値の前記解凍は、
前記各チャンネルの前記特徴行列に対して、前記デコーダにより、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記１以上の圧縮されたエッジ値をそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記１以上の解凍されたエッジ値を取得することを備える画像処理方法。

【請求項11】

ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のために、前記中間層は入力層と出力層との間の層であって、同じ特徴値を有する１以上の行および同じ特徴値を有する１以上の列を、前記特徴行列のエッジで、圧縮すべき１以上の行および圧縮すべき１以上の列として決定を行う圧縮すべき情報決定モジュールと、
前記各チャンネルの前記特徴行列に対し、前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値を削除し、残りの特徴値を各チャンネルの前記特徴行列の保留値として保留を行う保留値決定モジュールと、
前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の圧縮を行うエッジ値圧縮モジュールと、
前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値および前記圧縮すべき１以上の行の数と前記圧縮すべき１以上の列の数の符号化を行い、前記符号化の結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列のデコードを行う符号化モジュールと、を備えるエンコーダ。

【請求項12】

プロセッサと、
命令を格納するために前記プロセッサに接続され、前記プロセッサによって実行された際に、前記プロセッサに請求項１から８のいずれか一項に記載された前記画像処理方法を実行するメモリと、を備えるエンコーダ。

【請求項13】

コンピュータプログラムを格納するように備えるコンピュータ可読記憶媒体であって、プロセッサによって実行された際に、前記コンピュータプログラムが請求項１から１０のいずれか一項に記載された前記画像処理方法の工程を実行する不揮発性コンピュータ可読記憶媒体。

【請求項14】

請求項１１または１２に記載のエンコーダとデコーダとを備える画像処理システムであって、
前記デコーダは前記エンコーダにより送信された受信データに応じて前記各チャンネルの前記特徴行列を復元する画像処理システム。

【請求項15】

請求項１４に記載の画像処理システムであって、さらに、
前記デコーダは、前記圧縮すべき１以上の行および前記圧縮すべき１以上の行に加え、前記圧縮された保留値と前記各チャンネルの前記特徴行列の１以上の前記圧縮されたエッジ値を取得するために、受信データのデコードを行い、前記各チャンネルの圧縮された保留値と前記特徴行列の前記圧縮された１以上のエッジ値の解凍を行って、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された１以上のエッジ値を取得し、前記各チャンネルの前記特徴行列に対して、各チャンネルの特徴行列を取得するために前記圧縮すべき１以上の行の数と圧縮すべき１以上の列の数に基づいて、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する１以上の解凍されたエッジ値を補填する画像処理システム。

【請求項16】

請求項１５に記載の画像処理システムであって、
前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの順序であって、前記各チャンネルの前記特徴行列の保留値および１以上のエッジ値と、予設定ビット深度値に従って決定される順序、を備え、
前記デコーダは、前記各チャンネルの前記特徴行列に対して、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記１以上の圧縮されたエッジ値をそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記１以上の解凍されたエッジ値を取得する画像処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、２０２１年３月３０日に出願された中国発明出願第２０２１１０３３９３２７．１号に基づいており、その優先権を主張しており、その開示内容全体が参照により本開示に組み込まれる。

【0002】

本開示は、コンピュータ技術の分野に関し、特に、画像処理方法、システム、エンコーダ、およびコンピュータ可読記憶媒体に関する。

【背景技術】

【0003】

ビデオコーディングフォアマシン(ＶＣＭ)専門家グループは、圧縮ビデオまたはビデオから抽出されたフィーチャコードストリームの符号化技術を標準化することを目的としており、高い圧縮効率と知的業務性能を保留しながら、さまざまなマシンタスク（機械化業務）に使用でき、機械視覚（機械化展望）およびヒューマン－マシンハイブリッドビジョンアプリケーションに役立つ。

【発明の概要】

【発明が解決しようとする課題】

【0004】

機械視覚向けの深層学習機能の符号化では、符号化対象のオブジェクトが配置されているニューラルネットワークの層を最初に決定でき、ニューラルネットワークの決定された層から特徴コードを出力し、これらはその後のさまざまなビデオ処理タスクで使用される。

【課題を解決するための手段】

【0005】

機械視覚の深層学習機能エンコーディングで一般的に使用されるニューラルネットワークは、畳み込みニューラルネットワークを構成する。補充操作は、多くの場合、畳み込みニューラルネットワークの畳み込みの前に導入され、画像の周囲にいくつかのピクセルを追加し、これらのピクセルを０のようなプリセット値に初期化する。

【0006】

本願発明の実施の形態によれば、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のための画像処理方法が提供され、その画像処理方法は、前記中間層は入力層と出力層との間の層であって、同じ特徴値を有する１以上の行および同じ特徴値を有する１以上の列を、前記特徴行列のエッジで、圧縮すべき１以上の行および圧縮すべき１以上の列として決定を行い、前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値を削除し、残りの特徴値を各チャンネルの前記特徴行列の保留値として保留を行い、前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の圧縮を行って、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値および前記圧縮すべき１以上の行の数と前記圧縮すべき１以上の列の数の符号化を行い、前記符号化の結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列のデコードを行う。

【0007】

いくらかの実施の形態においては、前記特徴行列のエッジにおける前記同じ特徴値を有する１以上の行と前記同じ特徴値を有する１以上の列との前記決定は、前記ニューラルネットワークの前記中間層から出力される前記画像のチャンネルの特徴行列を検出すべき特徴行列として選択し、前記検出すべき前記特徴行列の最初の行から下方向へと、および前記検出すべき前記特徴行列の最後の行から上方向に、それぞれ、前記検出すべき前記特徴行列の前記１以上の行として、同じ特徴値を持つ１以上の行を検出し、前記検出すべき前記特徴行列の最初の列から後方へと、および前記検出すべき前記特徴行列の最後の列から前方へと、前記検出すべき前記特徴行列の前記１以上の列として、同じ特徴値を持つ１以上の列を検出し、前記検出すべき前記特徴行列の前記圧縮すべき１以上の行と同じ位置にある各チャンネルの特徴行列の１以上の行を、前記各チャンネルの前記特徴行列の前記圧縮すべき１以上の行として決定し、前記検出すべき前記特徴行列の圧縮すべき１以上の列と同じ位置にある前記各チャンネルの前記特徴行列の１以上の列を、前記各チャンネルの前記特徴行列の前記圧縮すべき１以上の列として、決定する。

【0008】

いくらかの実施の形態においては、圧縮すべき前記１以上の行の数および圧縮すべき前記１以上の列の数に加えて、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値の前記符号化を行うことは、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値を事前に設定された方法で圧縮し、圧縮すべき前記１以上の行の数および圧縮すべき前記１以上の列の数に加えて、前記各チャンネルの前記特徴行列の圧縮された保留値と圧縮された１以上のエッジ値の符号化を行う。

【0009】

いくらかの実施の形態においては、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値の前記圧縮を行うことは、前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の前記保留値と前記特徴行列の前記１以上のエッジ値および事前設定されたビット深度値に応じて前記各チャンネルの前記特徴行列に対応する大きさの次数の決定を行い、各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値を、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に従って量子化して前記各チャンネルの前記特徴行列の圧縮された保留値および前記圧縮された１以上のエッジ値として定量化保留値および１以上の定量化エッジ値を取得する。

【0010】

いくらかの実施の形態においては、検出すべき前記特徴行列の第１行から下方向、および検出すべき特徴行列の最後の行から上方向に、それぞれ同じ特徴値を有する１以上の行の前記検出は、（１）検出すべき前記特徴行列に対し、圧縮すべき１以上の先頭行の数を初期化してゼロとし、（２）最初の行の特徴値が同じかどうかを判断し、もしも同じであれば、圧縮すべき前記１以上の先頭行の数を１つ増やし、次の行を現在の行として続行し、（３）前記現在の行の前記特徴値が前の行と同じかどうかを判断し、もしも同じである場合には、圧縮する以上の先頭行の数を１だけ増やし、次の行を現在の行として続行し、（４）前記現在の行の前記特徴値が前の行の特徴値と異なるまでステップ（３）を繰り返し、圧縮すべき前記１以上の最初の行と圧縮すべき前記１以上の最初の行の数とを取得し、検出すべき前記特徴行列を上下にミラーした行列を新たな検出すべき前記特徴行列として（１）から（４）の処理を行って、圧縮すべき１以上最初の行と、圧縮すべき１以上の先頭行の数を取得し、そして、これは圧縮すべき１以上の行の最後の行と圧縮すべき１以上の最後の行の数として使用される。

【0011】

いくらかの実施の形態においては、検出すべき前記特徴行列の最初の列から後方へ、および検出すべき前記特徴行列の最後の列から前方へ、同じ特徴値を有する１以上の列の前記検出は、それぞれ、圧縮すべき１以上の先頭行と圧縮すべき１以上の先頭行の数を取得するために、検出すべき前記特徴行列を新たに検出すべき特徴行列として転置することによって得られた行列であって圧縮すべき１以上の左列および前記圧縮すべき１以上の左列の数を持つものとして使用される行列で、前記ステップ（１）から（４）を実行し、圧縮すべき１以上の先頭行と圧縮すべき１以上の先頭行の数を取得するために、検出すべき前記特徴行列を新たに検出すべき特徴行列として転置することによって得られた行列であって圧縮すべき１以上の右列および前記圧縮すべき１以上の右列の数を持つものとして使用される行列で、前記ステップ（１）から（４）を実行する。

【0012】

いくらかの実施の形態においては、前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の前記圧縮は、前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値をそのチャンネルの前記特徴行列の前記１以上のエッジ値としてのある値で表すことを備える。

【0013】

いくらかの実施の形態においては、エンコーディングはエントロピエンコーディングである。

【0014】

いくらかの実施の形態においては、前記圧縮すべき１以上の行および前記圧縮すべき１以上の行に加え、前記圧縮された保留値と前記各チャンネルの前記特徴行列の１以上の前記圧縮されたエッジ値を取得するために、前記デコーダにより、受信データのデコードを行い、前記デコーダにより、前記各チャンネルの圧縮された保留値と前記特徴行列の前記圧縮された１以上のエッジ値の解凍を行って、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された１以上のエッジ値を取得し、前記各チャンネルの前記特徴行列に対して、前記デコーダにより、各チャンネルの特徴行列を取得するために前記圧縮すべき１以上の行の数と圧縮すべき１以上の列の数に基づいて、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する１以上の解凍されたエッジ値を補填する。

【0015】

いくらかの実施の形態においては、前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの順序であって、前記各チャンネルの前記特徴行列の保留値および１以上のエッジ値と、予設定ビット深度値に従って決定される順序、を備え、前記デコーダによる各チャンネルの特徴行列の圧縮された保留値および前記１以上の圧縮されたエッジ値の前記解凍は、前記各チャンネルの前記特徴行列に対して、前記デコーダにより、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記１以上の圧縮されたエッジ値をそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記１以上の解凍されたエッジ値を取得することを備える。

【0016】

本開示の他の実施の形態によれば、エンコーダが提供され、そのエンコーダは、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列のために、前記中間層は入力層と出力層との間の層であって、同じ特徴値を有する１以上の行および同じ特徴値を有する１以上の列を、前記特徴行列のエッジで、圧縮すべき１以上の行および圧縮すべき１以上の列として決定を行う圧縮すべき情報決定モジュールと、前記各チャンネルの前記特徴行列に対し、前記圧縮すべき１以上の行と前記圧縮すべき１以上の列との前記特徴値を削除し、残りの特徴値を各チャンネルの前記特徴行列の保留値として保留を行う保留値決定モジュールと、前記各チャンネルの前記特徴行列に対し、前記各チャンネルの前記特徴行列の１以上のエッジ値を取得するために前記圧縮すべき１以上の行と前記圧縮すべき１以上の列の前記特徴値の圧縮を行うエッジ値圧縮モジュールと、前記各チャンネルの前記特徴行列の前記保留値と前記１以上のエッジ値および前記圧縮すべき１以上の行の数と前記圧縮すべき１以上の列の数の符号化を行い、前記符号化の結果をデコーダに送り、前記デコーダにより前記各チャンネルの前記特徴行列のデコードを行う符号化モジュールと、を備える。

【0017】

本開示のさらなる実施の形態によれば、エンコーダが提供され、そのエンコーダは、プロセッサと、命令を格納するために前記プロセッサに接続され、前記プロセッサによって実行された際に、前記プロセッサにこれまでの実施の形態に記載された前記画像処理方法を実行するメモリと、を備える。

【0018】

本開示の他の実施の形態によれば、不揮発性コンピュータ可読記憶媒体が提供され、その不揮発性コンピュータ可読記憶媒体は、コンピュータプログラムを格納するように備えるコンピュータ可読記憶媒体であって、プロセッサによって実行された際に、前記コンピュータプログラムがこれまでの実施の形態に記載された前記画像処理方法の工程を実行する。

【0019】

本開示の他の実施の形態によれば、これまでの実施の形態に記載のエンコーダとデコーダとを備える画像処理システムが提供され、前記デコーダは前記エンコーダにより送信された受信データに応じて前記各チャンネルの前記特徴行列を復元する。

【0020】

いくらかの実施の形態においては、前記デコーダは、前記圧縮すべき１以上の行および前記圧縮すべき１以上の行に加え、前記圧縮された保留値と前記各チャンネルの前記特徴行列の１以上の前記圧縮されたエッジ値を取得するために、受信データのデコードを行い、前記各チャンネルの圧縮された保留値と前記特徴行列の前記圧縮された１以上の前記エッジ値の解凍を行って、前記各チャンネルの前記特徴行列の解凍された保留値と解凍された１以上のエッジ値を取得し、前記各チャンネルの前記特徴行列に対して、各チャンネルの特徴行列を取得するために前記圧縮すべき１以上の行の数と圧縮すべき１以上の列の数に基づいて、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する１以上の解凍されたエッジ値を補填する。

【0021】

いくらかの実施の形態においては、前記受信データは、さらに、前記各チャンネルの前記特徴行列に対応する大きさの順序であって、前記各チャンネルの前記特徴行列の保留値および１以上のエッジ値と、予設定ビット深度値に従って決定される順序、を備え、前記デコーダは、前記各チャンネルの前記特徴行列に対して、前記各チャンネルの前記特徴行列に対応する大きさの前記順序に、前記各チャンネルの前記特徴行列の前記圧縮された保留値と前記１以上の圧縮されたエッジ値をそれぞれ乗じて、前記各チャンネルの前記特徴行列の前記解凍された保留値と前記１以上の解凍されたエッジ値を取得する。

【0022】

本発明の他の特徴および利点は、添付の図面を参照した本発明の例示的な実施の形態の以下の詳細な説明から明らかになるであろう。

【0023】

添付の図面は、本開示のさらなる理解を提供するために構成され、本明細書に組み込まれ、その一部を構成し、本発明の実施の形態を例示し、本出願の例示的な実施の形態とともに本開示を説明するのに役立つが、本開示を限定するものではない。

【図面の簡単な説明】

【0024】

【図1】本開示のいくつかの実施の形態による画像処理方法のフローチャートを示す。

【図2】本開示の他の実施の形態による画像処理方法のフローチャートを示す。

【図3】本発明のさらに他の実施の形態による画像処理方法のフローチャートである。

【図4】本開示のいくつかの実施の形態によるエンコーダの構造図を示す。

【図5】本発明の他の実施の形態によるエンコーダの構造図である。

【図6】本発明のさらに他の実施の形態によるエンコーダの構造図である。

【図7】本開示のいくつかの実施の形態による画像処理システムの構造図を示す。

【0025】

実施の形態の図を参照して、以下に、本開示の実施の形態の技術的解決策について明確かつ完全に説明する。明らかなことは、本開示がすべての実施の形態というわけではなく、本明細書には実施の形態のいくつかのみが記載される。少なくとも１つの例示的な実施の形態に関する以下の説明は、実際には単に例示的なものであり、本発明、その応用、または使用を決して限定することを意図したものではない。本開示の実施の形態に基づいて、当業者が創造的努力なしに取得した他のすべての実施の形態は、本開示の保護範囲内に含まれる。

【0026】

発明者らが発見したことは、機械視覚用の深層学習特徴エンコーディングにおいて、畳み込みニューラルネットワークにおける補充操作により、中間層から出力される画像の特徴コードには、エッジに詰められた多くの特徴量が生成され、エッジで補充されたこれらすべての特徴値をデコーダに送信すると、帯域幅の無駄が発生して送信効率が低下する可能性があることである。

【0027】

この点において、本開示によって解決される技術的課題は、いかに機械視覚用の深層学習特徴符号化において、デコーダへの送信効率を改善し、帯域幅の無駄を削減するかにある。

【0028】

この開示によれば、機械視覚のための深層学習特徴符号化では、エンコーダがビデオ画像の特徴コードを抽出し、それを復号化およびその後の処理のためにデコーダに送信する。エンコーダとデコーダは個別に展開でき、エンコーダはニューラルネットワーク構造の一部を展開し、デコーダはニューラルネットワーク構造の他の一部を展開する。エンコーダの計算能力に基づいて、ニューラルネットワーク構造の一部を選択してエンコーダに展開できる。例えば、ニューラルネットワークのある中間層およびそれより前の層はエンコーダに配置され、ある中間層以降の層はデコーダに配置される。エンコーダは、特定の中間層によって出力された特徴を、後続の処理のためにデコーダに送信します。本発明は、エンコーダからデコーダに大量のデータを送信することによる帯域の無駄と伝送効率の低下の問題を解決するための画像処理方法を提案する。これは、図１から図２を参照して説明される。

【0029】

図１は本開示のいくつかの実施の形態による画像処理方法の概略図である。図１に示すように、これらの実施の形態の方法は、ステップＳ１０２からＳ１０８を備える。

【0030】

ステップＳ１０２では、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列について、特徴行列の端で同じ特徴量を有する１以上の行および同じ特徴量を有する１以上の列を圧縮すべき１以上の行と圧縮すべき１以上の列として決定する。

【0031】

発明者が気づいたことは、補充操作の後に画像の特徴行列のエッジの行および列が特に類似した特徴値を有する、または複数の行および列が同じ特徴値を有することである。したがって、画像の特徴行列を圧縮することができる。中間層は、入力層と出力層との間の層である。機械視覚用の深層学習特徴符号化では、中間層はエンコーダに展開されるニューラルネットワークの最後の層であってもよく、エンコーダまたはその他の実際の処理能力に基づいて選択されてもよいが、ここでの特定の開示には限定されない。

【0032】

いくつかの実施の形態では、ニューラルネットワークの中間層から出力される画像のチャンネルの特徴行列が、検出すべき特徴行列として選択され、特徴行列の圧縮すべき行として、検出すべき特徴行列の最初の行から下方向と、検出すべき特徴行列の最後の行から上方向に、同じ特徴値を有する１以上の行を検出し、検出すべき特徴行列の最初の列から後方へ、及び検出すべき特徴行列の最後の列から前方へ、同じ特徴値を有する１以上の列が、検出すべき特徴行列の圧縮すべき１以上の列としてそれぞれ検出され、検出すべき特徴行列の圧縮すべき１以上の行と同じ位置にある各チャンネルの特徴行列の１以上の行が、各チャンネルの特徴行列の圧縮すべき１以上の行として決定され、検出すべき特徴行列の圧縮すべき１以上の列と同じ位置にある各チャンネルの特徴行列の１以上の列が、各チャンネルの特徴行列の圧縮すべき１以上の列として決定される。検出すべき特徴行列として、任意のチャンネルの特徴行列を選択することができる。

【0033】

検出すべき特徴行列の最初の行から下方向に圧縮すべき１以上の行を決定する方法のいくつかの実施の形態について、図２を参照して以下に説明する。

【0034】

ステップＳ２０２では、検出すべき特徴行列について、圧縮すべき１以上の先頭行の番号ｓａｍｅＴｏｐＣｎｔが０に初期化される。

【0035】

ステップＳ２０４では１行目の特徴量が同じか否かを判定し、同じである場合にはステップＳ２０６に進み、異なる場合にはステップＳ２１２に進む。

【0036】

ステップＳ２０６ではｓａｍｅＴｏｐＣｎｔが１だけ増加され、方法は次の行を現在の行としてステップＳ２０８に進む。

【0037】

ステップＳ２０８において現在の行の特徴量が前の行と同じか否かが判断され、同じである場合にはステップＳ２１０に進み、異なる場合にはステップＳ２１２に進む。

【0038】

ステップＳ２１０ではｓａｍｅＴｏｐＣｎｔが１だけ増加され、方法は次の行を現在の行としてステップＳ２０８が繰り返される。

【0039】

ステップＳ２１２において、圧縮すべき１以上の先頭行と、圧縮すべき１以上の先頭行の数ｓａｍｅＴｏｐＣｎｔが決定される。

【0040】

いくつかの実施形態では、最後の行から上方に同じ特徴値を有する検出すべき特徴行列の１以上の行を検出する方法は、検出すべき特徴行列が垂直にミラーリングした行列を新たな検出すべき特徴行列となるように、ステップＳ２０２からＳ２０８を実行して圧縮すべき１以上の先頭行および圧縮すべき１以上の先頭行の数を取得することを備え、それらは圧縮すべき１以上の最下位行および圧縮すべき１以上の最下位行の数ｓａｍｅＢｏｔＣｎｔとして使用される。

【0041】

いくつかの実施の形態では、最初の列から後方に同じ特徴値を有する検出すべき特徴行列の１以上の列を検出する方法は、検出対象特徴行列を転置した行列が新たな検出対象特徴行列となるようにステップＳ２０２からＳ２０８を実行して、圧縮すべき１以上の先頭行および圧縮すべき１以上の先頭行の数を取得することを備え、それらは圧縮すべき１以上の左列および圧縮すべき１以上の左列の数、ｓａｍｅＬｅｆｔＣｎｔとして使用される。

【0042】

いくつかの実施の形態では、最後の列から前方に同じ特徴値を有する検出すべき特徴行列の１以上の列を検出する方法は、検出すべき特徴行列の転置行列を垂直方向にミラーリングした行列が新たな検出すべき特徴行列となるように、ステップＳ２０２からＳ２０８を実行して圧縮すべき１以上の先頭行および圧縮すべき１以上の先頭行の数を取得することを備え、それらは圧縮すべき１以上の右側の列および圧縮すべき１以上の右側の列の数、ｓａｍｅＲｉｇｈｔＣｎｔとして使用される。

【0043】

ステップＳ１０４では、各チャンネルの特徴行列について、圧縮すべき１行以上および圧縮すべき１列以上の特徴量を削除し、残りの特徴量をそのチャンネルの特徴行列の保留値として保存する。

【0044】

たとえば、特徴行列Ｆ（Ｈ＊Ｗ、たとえばＨ行Ｗ列）のエッジにある特徴に対して切取操作が実行され、（Ｈ－ｓａｍｅＴｏｐＣｎｔ－ｓａｍｅＢｏｔＣｎｔ）＊（Ｗ－ｓａｍｅＬｅｆｔＣｎｔ－ｓａｍｅＲｉｇｈｔＣｎｔ）の範囲内の特徴値Ｆ’を特徴行列の保留値として残しながら、ｓａｍｅＴｏｐＣｎｔの頂部行、ｓａｍｅＢｏｔＣｎｔの底部行、ｓａｍｅＬｅｆｔＣｎｔの左列、ｓａｍｅＲｉｇｈｔＣｎｔの右列が削除される。

【0045】

ステップＳ１０６では、各チャンネルの特徴行列について、圧縮すべき１以上の行と圧縮すべき１以上の列の特徴値を圧縮して、そのチャンネルの特徴行列の１以上のエッジ値を取得する。

【0046】

いくつかの実施の形態では、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴値は、各チャンネルの特徴行列の１以上のエッジ値として機能する値で表される。圧縮すべき１以上の頂部行、圧縮すべき１以上の底部行、圧縮すべき１以上の左側の列、および圧縮すべき１以上の右側の列がそれぞれ異なる特徴値に対応する場合には、圧縮すべき１以上の頂部行は値で表され、圧縮すべき１以上の底部行は値で表され、圧縮すべき１以上の左列は値で表され、１以上の右列は値で表される。

【0047】

ステップＳ１０８において、圧縮すべき１以上の行の数および圧縮すべき１以上の列の数は言うまでもなく、各チャンネルの特徴行列の保留値および１以上のエッジ値は符号化されて、デコーダによって各チャンネルの特徴行列を復号化するためにデコーダに送信される。

【0048】

たとえば、チャンネルｉの特徴行列は

【数1】

であり、保留値は

【数2】

は、１以上のエッジ値は

【数3】

として表され(１以上の圧縮すべき頂部行、圧縮すべき１以上の底部行、圧縮すべき１以上の左列、圧縮すべき１以上の右列が、異なる特徴値に対応するならば、複数のエッジ値が存在する)、圧縮すべき１以上の行の数は、圧縮すべき１以上の頂部行の数

【数4】

と圧縮すべき１以上の底部行の数

【数5】

とを備え、圧縮すべき１以上の列の数は、圧縮すべき1以上の左列の数

【数6】

を備え、圧縮すべき１以上の行の数は、圧縮すべき1以上の右列の数

【数7】

を備える。各チャンネルは、圧縮すべき同じ数の行と同じ数の列であってもよい。

【0049】

各チャンネルの特徴行列の保留値および１以上のエッジ値は、圧縮すべき１以上の行の数および圧縮すべき１以上の列の数は言うまでもなく、ビットストリームを形成するように符号化されたエントロピであってもよく、それはデコーダに送信される。

【0050】

上記実施の形態の方法では、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列について、特徴行列のエッジにおける同じ特徴量を有する１以上の行と、同じ特徴量を有する１以上の列とは圧縮すべき１以上の行および圧縮すべき１以上の列として決定され、各チャンネルの特徴行列の保留値を取得するために、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴値が削除され、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴値が圧縮されて、各チャンネルの特徴行列の１以上のエッジ値が得られ、圧縮すべき１以上の行の数と圧縮すべき１以上の列の数に加え、各チャンネルの特徴行列の保留値と１以上のエッジ値は、符号化されてデコーダに送信される。デコーダは、受信した情報に基づいて、各チャンネルの特徴行列を復元できる。上記実施の形態の方法では、ニューラルネットワークの中間層が出力する特徴量の圧縮率を向上させることができる。機械視覚用の深層学習特徴符号化では、中間層が出力する各チャンネルの特徴行列が上記実施の形態の方法で圧縮され、後続のビデオ処理のために画像特徴コードとしてデコーダに送信でき、デコーダへの送信効率が向上し、送信遅延と帯域幅の無駄が削減される。

【0051】

いくつかの実施の形態では、各チャンネルの特徴行列の保留値および１以上のエッジ値は、予め設定された方法で圧縮され、ならびに圧縮すべき１以上の行の数および圧縮すべき１以上の列の数に加え、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値が符号化される。圧縮はプリセットビット深度値に基づく線形量子化など、予め設定された方法に従って実行される予め設定された方法は、線形量子化に限定されず、ベクトル量子化など、実際の必要に応じて選択することができ、特に上記の例に限定されるものではない。

【0052】

いくつかの実施の形態では、各チャンネルの特徴行列について、各チャンネルの特徴行列に対応する大きさの次数が、各チャンネルの特徴行列の保留値および１以上のエッジ値とプリセットビット深度値に従って決定され、各チャンネルの特徴行列の保留値と圧縮された１以上のエッジ値は、各チャンネルの特徴行列に対応する大きさの次数に応じて量子化されて、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値として、量子化された保留値と1以上の量子化されたエッジ値を獲得する。たとえば、チャンネルの特徴行列の保留値と１以上のエッジ値が最大値Ａと最小値Ｂを持つならば、量子化レベルはＭ＝２^ＢＤになり、ここで、ＢＤ(プリセットビット深度)値は２を底とする指数であって、大きさの次元は

【数8】

である。量子化された保留値および１以上の量子化されたエッジ値は、チャンネルの特徴行列の保留値および１以上のエッジ値を大きさの桁で除算し結果の値を切り捨てることによって得られる。

【0053】

上記実施の形態の方法はさらなるデータ圧縮を達成し、圧縮率を改善し、デコーダへの伝送効率をさらに改善し、帯域幅の無駄を削減することができる。

【0054】

いくつかの実施の形態では、デコーダは、受信データを復号して、圧縮すべき１以上の行の数および圧縮すべき列の数に加えて、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値を獲得する。デコーダは、各チャンネルの特徴行列の保留値の周りの１以上のエッジ値と、圧縮すべき１以上の行の数と、圧縮すべき１以上の列の数とを補充して、各チャンネルの特徴行列を復元する。圧縮される１以上の行の数は、圧縮すべき１以上の頂部行の数と、圧縮すべき１以上の底部行の数とを備える。圧縮すべき列の数は、圧縮すべき１以上の左列の数と、圧縮すべき１以上の右列の数で構成される。

【0055】

たとえば、チャンネルｉに対して、値

【数9】

のsameTopCnt行、値

【数10】

のsameBotCnt行、値

【数11】

のsameLeftCnt列、および値

【数12】

のsameRightCnt列が保留値

【数13】

の上下左右にそれぞれに追加して、特徴行列

【数14】

を元のサイズに復元する。

【0056】

さらに、いくつかの実施の形態では、図３に示すように、デコーダがデータを受信した後の処理方法は、ステップＳ３０２からＳ３０６を備える。

【0057】

ステップＳ３０２において、デコーダは受信データを復号して、圧縮すべき１以上の行の数および圧縮すべき列の数に加え、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値を取得する。

【0058】

ステップＳ３０４において、デコーダは、各チャンネルの特徴行列の解凍された保留値および１以上の解凍されたエッジ値を取得するために、各チャンネルの特徴行列の圧縮された保留値および１以上の圧縮されたエッジ値を解凍する。

【0059】

上記実施の形態で説明した方法で圧縮する場合、デコーダは、例えば、逆量子化法を用いて伸長する必要がある。デコーダによって受信されたデータはまた、各チャンネルの特徴行列に対応する量子化パラメータ(大きさのオーダーなど)を備える。例えば、各チャンネルの特徴行列について、各チャンネルの特徴行列に対応する大きさの次数が、各チャンネルの特徴行列の圧縮された保留値および１以上の圧縮されたエッジ値によってそれぞれ乗算され、各チャンネルの特徴行列の解凍された保留値および１以上の解凍されたエッジ値を取得する。

【0060】

ステップＳ３０６において、各チャンネルの特徴行列について、デコーダは、圧縮すべき１以上の行の数および圧縮すべき１以上の列の数に従って、各チャンネルの特徴行列の解凍された保留値の周りの解凍された保留値に対応する１以上の解凍されたエッジ値で補充して、各チャンネルの特徴行列を得る。

【0061】

いくつかの実施形態では、各チャンネルの特徴行列について、デコーダは、各チャンネルの圧縮された特徴行列を取得するために、圧縮すべき１以上の行の数と圧縮すべき１以上の列の数とに基づいて、各チャンネルの特徴行列の圧縮された保留値の周りの１以上の圧縮されたエッジ値で補充し、そして圧縮された特徴行列を解凍して、各チャンネルの特徴行列を取得する。

【0062】

上記の実施形態の方法では、量子化による圧縮は、復号器の復号効率および解凍されたデータの後続の処理効率を改善するのに有利である。

【0063】

以下に応用例を説明する。

【0064】

この応用例では、ＣａｓｃａｄｅＲＣＮＮＲｅｓＮｅｔ１０１は、一例として、入力として５４７２×３０７８×３の大きさのＲＧＢ画像が使用され、符号化プロセスは以下の通りである。

【0065】

１．最初の畳み込み正規化後に６４×３８４×６７２の中間層特徴を抽出し、最初のチャンネルの特徴行列

【数15】

上で圧縮すべき行と圧縮すべき列を検出し、圧縮すべき頂部行の数と圧縮すべき底部行の数と圧縮すべき左行の数と圧縮すべき右列の数(sameTopCnt/sameBotCnt/sameLeftCnt/sameRightCnt)、たとえば（０／７／０／４）とを取得する。

【0066】

２．各チャンネルの特徴行列

【数16】

の端の特徴において、６４×（３８４-７）×（６７２-４）の範囲の特徴値

【数17】

を残して、底部行７行と右４列を削除する切除操作を実行する。

【0067】

３．ＢＤ＝８の条件で各チャンネルの特徴行列の保留値

【数18】

とエッジ値

【数19】

（ｉ＝０，1,・・・６３）を線形量子化し、圧縮する行数と圧縮する列数に加えて、線形量子化された保留値

【数20】

、線形量子化されたエッジ値

【数21】

に対してエントロピエンコーディングを実行してビットストリームＳを取得する。

【0068】

デコーディングプロセスは以下の通りである。

【0069】

１．ビットストリームＳを復号して、量子化保留値

【数22】

、量子化エッジ値

【数23】

、圧縮すべき行数、圧縮すべき列数、量子化パラメータを取得する。

【0070】

２．頂部と右側に量子化エッジ値

【数24】

を持つ７行４列をそれぞれ加算することにより、量子化された保留値

【数25】

においてエッジ加算演算を実行して、量子化特徴行列

【数26】

を元の大きさで復元する。

【0071】

３．特徴行列

【数27】

において逆量子化を実行して各チャンネルの特徴行列を復元する。

【0072】

エッジ加算操作の前に、量子化保留値

【数28】

と量子化エッジ値

【数29】

において逆量子化を行うことも可能である。

【0073】

本開示の画像処理方法はエンコーダ上に実装することができる。以下、図４を参照して、本発明の一実施の形態によるエンコーダの構造について説明する。

【0074】

図４は、本発明の実施の形態によるエンコーダの構造図である。図４に示すように、本実施の形態のエンコーダ４０は、圧縮すべき情報決定モジュール４１０と、保留値決定モジュール４２０と、エッジ値圧縮モジュール４３０と、符号化モジュール４４０とを備える。

【0075】

圧縮すべき情報決定モジュール４１０は、ニューラルネットワークの中間層から出力される画像の各チャンネルの特徴行列に対して、同じ特徴値を有する１以上の行と、圧縮すべき１以上の行および圧縮すべき１以上の列としての特徴行列のエッジにおいての同じ特徴値を有する１以上の列とを決定するように構成され、ここで、中間層は、入力層と出力層との間の層である。

【0076】

いくつかの実施の形態では、圧縮すべき情報決定モジュール４１０は、ニューラルネットワークの中間層から出力される画像のチャンネルの特徴行列を検出すべき特徴行列として選択し、検出すべき特徴行列の最初の行から下方向へと、検出すべき特徴行列の最後の行から上方向へと、それぞれ同じ特徴値を持つ１以上の行を検出すべき特徴行列の圧縮すべき１以上の行として検出し、検出すべき特徴行列の最初の列から後方へと、および検出すべき特徴行列の最後の列から前方へと、同じ特徴値を持つ１以上の列を検出すべき特徴行列の圧縮すべき１以上の列として検出し、検出すべき特徴行列の圧縮すべき１以上の行と同じ位置にある各チャンネルの特徴行列の１以上の行を、各チャンネルの特徴行列の圧縮すべき１以上の行として検出することを決定し、検出すべき特徴行列の圧縮すべき１以上の列と同じ位置にある各チャンネルの特徴行列の１以上の列を、各チャンネルの特徴行列の圧縮すべき１以上の列として検出することを決定するように構成される。

【0077】

いくつかの実施の形態では、圧縮すべき情報決定モジュール４１０は、予め設定された方法で各チャンネルの特徴行列の保留値および１以上のエッジ値を圧縮し、各チャンネルの特徴行列の圧縮された保留値と圧縮された１以上のエッジ値、および圧縮すべき１以上の行の数と圧縮すべき１以上の列の数を符号化するように構成される。

【0078】

いくつかの実施の形態では、圧縮すべき情報決定モジュール４１０は、各チャンネルの特徴行列について、各チャンネルの特徴行列の保留値および１以上のエッジ値およびプリセットビット深度値に従って、各チャンネルの特徴行列に対応する大きさの次数を決定し、各チャンネルの特徴行列の保留値および１以上のエッジ値を、各チャンネルの特徴行列に対応する大きさの順に従って量子化し、量子化された保留値と１以上の量子化エッジ値を各チャンネルの特徴行列の圧縮された保留値と圧縮された１以上のエッジ値として取得する。

【0079】

いくつかの実施の形態では、圧縮すべき情報決定モジュール４１０は、以下のように構成される。
（１）検出すべき特徴行列について、圧縮すべき１以上の頂部行の数を０に初期化し、
（２）最初の行の特徴値が同じであるかどうかを判定し、同じであれば、圧縮すべき１以上の頂部行の数を１増やして、次の行を現在の行として継続し、
（３）現在の行の特徴値が前の行と同じかどうかを判断し、同じであれば、圧縮すべき１以上の頂部行の数を１増やして、次の行を現在の行として継続し、
（４）現在の行の特徴値が前の行の特徴値と異なるまでステップ（３）を繰り返し、圧縮すべき１以上の頂部行および圧縮すべき１以上の頂部行の数を取得し、新たに検出すべき特徴行列として検出すべき特徴行列を垂直方向にミラーリングして得られた行列でステップ(1)から(4)を実行し、圧縮すべき１以上の頂部行と圧縮すべき１以上の頂部行の数を取得し、そして、それらは圧縮すべき１以上の底部行および圧縮すべき１以上の底部行の数として使用される。

【0080】

いくつかの実施の形態では、圧縮すべき情報決定モジュール４１０は、検出すべき新たな特徴行列として検出すべき特徴行列を転置することによって得られる行列を用いてステップ（１）から（４）を実行するように構成され、圧縮すべき１以上の頂部行と圧縮すべき１以上の頂部行の数とを取得し、そして、それらは圧縮すべき１以上の左列および圧縮すべき１以上の左列の数として使用し、検出すべき特徴行列を転置しその転置行列を新たな検出すべき特徴行列として垂直方向にミラーリングすることにより所得された行列でステップ（１）から（４）を実行して、圧縮すべき１以上の先頭行と圧縮すべき１以上の先頭行の数とを取得して、そして、それらは圧縮すべき１以上の右列および圧縮すべき１以上の右列の数として使用される。

【0081】

保留値決定モジュール４２０は、各チャンネルの特徴行列において、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴量を削除して、残りの特徴値を各チャンネルの特徴行列の保留値として保留するように構成されている。

【0082】

エッジ値圧縮モジュール４３０は、各チャンネルの特徴行列に対して、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴値を圧縮して、各チャンネルの特徴行列の１以上のエッジ値を取得するように構成される。

【0083】

いくつかの実施形態では、エッジ値圧縮モジュール４３０は、圧縮すべき１以上の行および圧縮すべき１以上の列の特徴値を各チャンネルの特徴行列の１以上のエッジ値として表すように構成される。

【0084】

符号化モジュール４４０は、圧縮すべき１以上の行の数および圧縮すべき１以上の列の数に加え、各チャンネルの特徴行列の保留値および１以上のエッジ値を符号化し、デコーダによって各チャンネルの特徴行列を復号するためにデコーダに符号化の結果を送るように構成される。

【0085】

いくつかの実施の形態では、符号化はエントロピ符号化である。

【0086】

本開示のこの実施の形態のエンコーダおよびデコーダは、様々なコンピューティングデバイスまたはコンピュータシステムによって実装することができ、それらについては図５および図６を参照して以下に説明する。デコーダの構造については、エンコーダの構造を参照することができ、ここでは繰り返さない。

【0087】

図５は、本発明の実施の形態によるエンコーダの構造図である。図５を参照すると、この実施の形態のエンコーダ５０は、メモリ５１０と、メモリ５１０に接続されたプロセッサ５２０とを備え、プロセッサ５２０は、メモリ５１０に格納された命令に基づいて、本開示の実施の形態のいずれかによる画像処理方法を実行するように構成される。

【0088】

ここで、メモリ５１０は、例えば、システムメモリ、固定不揮発性記憶媒体などを備えることができる。システムメモリには、オペレーティングシステム、アプリケーション、ブートローダー、データベースおよびその他のプログラムが格納されている。

【0089】

図６は、本発明の他の実施の形態によるエンコーダの構造図である。図６に示すように、この実施の形態のエンコーダ６０は、メモリ５１０およびプロセッサ５２０のそれぞれと同様のメモリ６１０およびプロセッサ６２０を備える。それは、入出力インターフェース６３０、ネットワークインターフェース６４０、ストレージインターフェース６５０などをさらに備えることができる。これらのインターフェース６３０、６４０、６５０、メモリ６１０、およびプロセッサ６２０は、例えばバス６６０を介して接続されてもよい。ここで、入出力インターフェース６３０は、ディスプレイ、マウス、キーボード、タッチスクリーンなどの入出力装置のための接続インターフェースを提供する。ネットワークインターフェース６４０は、さまざまなネットワークデバイスに接続インターフェースを提供し、例えば、データベースサーバまたはクラウドストレージサーバに接続することができる。ストレージインターフェース６５０は、ＳＤカードおよびＵＳＢフラッシュディスクのような外部記憶装置への接続インターフェースを提供する。

【0090】

本発明はまた、図７を参照して以下に説明する画像処理システムも提供する。

【0091】

図７は、本開示のいくつかの実施の形態による画像処理システムの構造図である。図７に示すように、本実施の形態のシステム７は、前述の実施の形態のいずれかによるエンコーダ４０／５０／６０と、デコーダ７２とを備える。

【0092】

デコーダ７２は、受信データを復号して、圧縮すべき以上の行の数と圧縮すべき１以上の列の数は言うまでもなく、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値を取得するように構成され、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値を解凍して、各チャンネルの特徴行列の解凍された保留値および回答された１以上のエッジ値を取得し、各チャンネルの特徴行列に対して、圧縮すべき１以上の行の数および１以上の列の数に従って、各チャンネルの特徴行列の解凍された保留値の周囲に、解凍された保留値に対応する解凍された１以上のエッジ値で補充して、各チャンネルの特徴行列を取得する。

【0093】

いくつかの実施の形態では、受信データは、各チャンネルの特徴行列に対応する大きさの次数をさらに含み、それは各チャンネルの特徴行列の保留値および１以上のエッジ値と、プリセットビット深度値に従って決定される。各チャンネルの特徴行列に対して、デコーダ７２は、各チャンネルの特徴行列に対応する大きさ次数に、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値をそれぞれ乗算し、各チャンネルの特徴行列の解凍された保留値と１以上の解凍されたエッジ値とを取得するように構成される。

【0094】

いくつかの実施の形態では、エンコーダはエッジコンピューティングノード上に配置され、デコーダはクラウド上に配置される。

【0095】

本開示はさらに、コンピュータプログラムが格納される不揮発性コンピュータ可読記憶媒体を提供し、それは、プログラムはプロセッサによって実行されて、前述の実施の形態のいずれか１つの画像処理方法を実現する。

【0096】

当業者は、本開示の実施の形態が方法、システム、またはコンピュータプログラム製品として提供され得ることを理解すべきである。したがって、本開示の実施の形態は、完全にハードウェアの実施の形態、完全にソフトウェアの実施の形態、またはハードウェア要素とソフトウェア要素の両方を含む実施の形態の形態をとることができる。さらに、本開示は、内部に具現化されたコンピュータで使用可能なプログラムコードを有する１以上の不揮発性記憶媒体（ディスク記憶装置、ＣＤ－ＲＯＭ、光記憶装置などを含むがこれらに限定されない）上で具体化されるコンピュータプログラム製品の形態をとってもよい。

【0097】

本開示は、本開示の実施の形態による方法、装置（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して説明される。フローチャートおよび／またはブロック図における各プロセスおよび／またはブロック、およびフローチャートおよび／またはブロック図におけるプロセスおよび／またはブロックの組み合わせは、コンピュータプログラム命令によって実装され得ることを理解されたい。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行される命令が、フローチャートの１以上のフローおよび／またはブロック図の１以上のブロックで指定された機能を実装する手段を生成するように、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、マシンを生成することができる。

【0098】

コンピュータプログラム命令は、コンピュータ可読記憶装置に記憶された命令が、フローチャートの１以上の流れおよび／またはブロック図の１以上のブロックで指定された機能を実装する命令手段を備える製品を生成するように、コンピュータまたは他のプログラム可能なデータ処理装置に特定の方法で動作するように指示できるコンピュータ可読記憶装置に格納することもできる。

【0099】

これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートの１以上のフローおよび／またはブロック図の１以上のブロックで指定された機能を実装するステップを提供するように、コンピュータまたは他のプログラム可能なデバイスにロードして、コンピュータまたは他のプログラム可能なデバイス上で一連の操作ステップを実行して、コンピュータで実装されるプロセスを生成することもできる。ここまでの記載は、本開示の単なる好ましい実施の形態であり、本開示に限定されるものではない。本開示の思想および原則の範囲内で、いかなる修正、置換、改良等も本開示の保護範囲に含まれるものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2023-11-28

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

本開示は、コンピュータ技術の分野に関し、特に、画像処理方法、システム、エンコーダ、およびコンピュータ可読記憶媒体に関する。

【背景技術】

【0003】

ビデオコーディングフォアマシン（ＶＣＭ）専門家グループは、圧縮ビデオまたはビデオから抽出されたフィーチャコードストリームの符号化技術を標準化することを目的としており、高い圧縮効率と知的業務性能を保留しながら、さまざまなマシンタスク（機械化業務）に使用でき、機械視覚（機械化展望）およびヒューマン－マシンハイブリッドビジョンアプリケーションに役立つ。

【発明の概要】

【発明が解決しようとする課題】

【0004】

【課題を解決するための手段】

【0005】

【0006】

【0007】

【0008】

【0009】

【0010】

【0011】

【0012】

【0013】

いくらかの実施の形態においては、エンコーディングはエントロピエンコーディングである。

【0014】

【0015】

【0016】

【0017】

【0018】

【0019】

【0020】

【0021】

【0022】

本発明の他の特徴および利点は、添付の図面を参照した本発明の例示的な実施の形態の以下の詳細な説明から明らかになるであろう。

【0023】

【図面の簡単な説明】

【0024】

【図1】本開示のいくつかの実施の形態による画像処理方法のフローチャートを示す。

【図2】本開示の他の実施の形態による画像処理方法のフローチャートを示す。

【図3】本発明のさらに他の実施の形態による画像処理方法のフローチャートである。

【図4】本開示のいくつかの実施の形態によるエンコーダの構造図を示す。

【図5】本発明の他の実施の形態によるエンコーダの構造図である。

【図6】本発明のさらに他の実施の形態によるエンコーダの構造図である。

【図7】本開示のいくつかの実施の形態による画像処理システムの構造図を示す。

【0025】

【0026】

【0027】

【0028】

【0029】

【0030】

【0031】

【0032】

【0033】

【0034】

ステップＳ２０２では、検出すべき特徴行列について、圧縮すべき１以上の先頭行の番号ｓａｍｅＴｏｐＣｎｔが０に初期化される。

【0035】

【0036】

ステップＳ２０６ではｓａｍｅＴｏｐＣｎｔが１だけ増加され、方法は次の行を現在の行としてステップＳ２０８に進む。

【0037】

【0038】

ステップＳ２１０ではｓａｍｅＴｏｐＣｎｔが１だけ増加され、方法は次の行を現在の行としてステップＳ２０８が繰り返される。

【0039】

ステップＳ２１２において、圧縮すべき１以上の先頭行と、圧縮すべき１以上の先頭行の数ｓａｍｅＴｏｐＣｎｔが決定される。

【0040】

【0041】

【0042】

【0043】

【0044】

【0045】

【0046】

【0047】

【0048】

たとえば、チャンネルｉの特徴行列は

【数1】

であり、保留値は

【数2】

は、１以上のエッジ値は

【数3】

として表され（１以上の圧縮すべき頂部行、圧縮すべき１以上の底部行、圧縮すべき１以上の左列、圧縮すべき１以上の右列が、異なる特徴値に対応するならば、複数のエッジ値が存在する)、圧縮すべき１以上の行の数は、圧縮すべき１以上の頂部行の数

【数4】

と圧縮すべき１以上の底部行の数

【数5】

とを備え、圧縮すべき１以上の列の数は、圧縮すべき1以上の左列の数

【数6】

を備え、圧縮すべき１以上の行の数は、圧縮すべき1以上の右列の数

【数7】

を備える。各チャンネルは、圧縮すべき同じ数の行と同じ数の列であってもよい。

【0049】

【0050】

【0051】

【0052】

いくつかの実施の形態では、各チャンネルの特徴行列について、各チャンネルの特徴行列に対応する大きさの次数が、各チャンネルの特徴行列の保留値および１以上のエッジ値とプリセットビット深度値に従って決定され、各チャンネルの特徴行列の保留値と圧縮された１以上のエッジ値は、各チャンネルの特徴行列に対応する大きさの次数に応じて量子化されて、各チャンネルの特徴行列の圧縮された保留値および圧縮された１以上のエッジ値として、量子化された保留値と１以上の量子化されたエッジ値を獲得する。たとえば、チャンネルの特徴行列の保留値と１以上のエッジ値が最大値Ａと最小値Ｂを持つならば、量子化レベルはＭ＝２^ＢＤになり、ここで、ＢＤ(プリセットビット深度)値は２を底とする指数であって、大きさの次元は

【数8】

【0053】

【0054】

【0055】

たとえば、チャンネルｉに対して、値

【数9】

のsameTopCnt行、値

【数10】

のsameBotCnt行、値

【数11】

のsameLeftCnt列、および値

【数12】

のsameRightCnt列が保留値

【数13】

の上下左右にそれぞれに追加して、特徴行列

【数14】

を元のサイズに復元する。

【0056】

さらに、いくつかの実施の形態では、図３に示すように、デコーダがデータを受信した後の処理方法は、ステップＳ３０２からＳ３０６を備える。

【0057】

【0058】

【0059】

【0060】

【0061】

【0062】

上記の実施形態の方法では、量子化による圧縮は、復号器の復号効率および解凍されたデータの後続の処理効率を改善するのに有利である。

【0063】

以下に応用例を説明する。

【0064】

【0065】

１．最初の畳み込み正規化後に６４×３８４×６７２の中間層特徴を抽出し、最初のチャンネルの特徴行列

【数15】

【0066】

２．各チャンネルの特徴行列

【数16】

の端の特徴において、６４×（３８４-７）×（６７２-４）の範囲の特徴値

【数17】

を残して、底部行７行と右４列を削除する切除操作を実行する。

【0067】

３．ＢＤ＝８の条件で各チャンネルの特徴行列の保留値

【数17】

とエッジ値

【数18】

（ｉ＝０，1,・・・６３）を線形量子化し、圧縮する行数と圧縮する列数に加えて、線形量子化された保留値

【数19】

、線形量子化されたエッジ値

【数21】

、に対してエントロピエンコーディングを実行してビットストリームＳを取得する。

【0068】

デコーディングプロセスは以下の通りである。

【0069】

１．ビットストリームＳを復号して、量子化保留値

【数22】

、量子化エッジ値

【数23】

、圧縮すべき行数、圧縮すべき列数、量子化パラメータを取得する。

【0070】

２．頂部と右側に量子化エッジ値

【数24】

を持つ７行４列をそれぞれ加算することにより、量子化された保留値

【数25】

においてエッジ加算演算を実行して、量子化特徴行列

【数26】

を元の大きさで復元する。

【0071】

３．特徴行列

【数27】

において逆量子化を実行して各チャンネルの特徴行列を復元する。

【0072】

エッジ加算操作の前に、量子化保留値

【数28】

と量子化エッジ値

【数29】

において逆量子化を行うことも可能である。

【0073】

【0074】

【0075】

【0076】

【0077】

【0078】

【0079】

【0080】

【0081】

【0082】

【0083】

いくつかの実施の形態では、符号化はエントロピ符号化である。

【0084】

いくつかの実施形態では、符号化モジュール４４０は、各チャネルの特徴行列の保留値および１以上のエッジ値を事前に設定した方法で圧縮し、各チャネルの特徴行列の圧縮された保留値および１以上の圧縮されたエッジ値および圧縮すべき１以上の行の数および圧縮すべき１以上の列の数を符号化するように構成される。

【0085】

いくつかの実施形態では、符号化モジュール４４０は、各チャネルの特徴行列において、各チャネルの特徴行列の保留値および１以上のエッジ値およびプリセットビット深度値に従って、各チャネルの特徴行列に対応する大きさの次数を決定し、各チャネルの特徴行列の保留値および１以上のエッジ値を各チャネルの特徴行列に対応する大きさの次数に従って量子化して、量子化された保留値および１以上の量子化されたエッジ値を各チャネルの特徴行列の圧縮された保留値および１以上の圧縮されたエッジ値として取得するように構成される。

【0086】

【0087】

【0088】

【0089】

【0090】

本発明はまた、図７を参照して以下に説明する画像処理システムも提供する。

【0091】

【0092】

【0093】

【0094】

いくつかの実施の形態では、エンコーダはエッジコンピューティングノード上に配置され、デコーダはクラウド上に配置される。

【0095】