IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲発▼有限公司の特許一覧

特許7041284画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図3A
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図3B
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図3C
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-14
(45)【発行日】2022-03-23
(54)【発明の名称】画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220315BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
【請求項の数】 14
(21)【出願番号】P 2020568672
(86)(22)【出願日】2019-11-08
(65)【公表番号】
(43)【公表日】2021-12-02
(86)【国際出願番号】 CN2019116617
(87)【国際公開番号】W WO2021008023
(87)【国際公開日】2021-01-21
【審査請求日】2020-12-10
(31)【優先権主張番号】201910652025.2
(32)【優先日】2019-07-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519454811
【氏名又は名称】北京市商▲湯▼科技▲開▼▲発▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO., LTD.
【住所又は居所原語表記】Room 710-712, 7th Floor, 3rd Building, 1st Courtyard, Zhongguancun East Road, Haidian District, Beijing 100084 China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】楊 昆霖
(72)【発明者】
【氏名】候 軍
(72)【発明者】
【氏名】蔡 暁聡
(72)【発明者】
【氏名】伊 帥
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2019-101519(JP,A)
【文献】特開2012-043357(JP,A)
【文献】特開2011-054071(JP,A)
【文献】中国特許出願公開第105631880(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
G06N 3/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、
前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割することと、
前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得することと、
前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することと、を含むことを特徴とする画像処理方法。
【請求項2】
前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割することは、
前記第1特徴マップの空間次元のサイズ及び予め設定された分割規則に基づいて、空間次元において前記第1特徴マップを分割し、複数の第1サブ特徴マップを取得することを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得することは、
チャネル次元において各第1サブ特徴マップをグループ化し、前記第1サブ特徴マップの各グループのチャネルをそれぞれ正規化処理して、前記第1サブ特徴マップの第2サブ特徴マップを取得することを含むことを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することは、
前記複数の第1サブ特徴マップの前記第1特徴マップにおける位置に応じて、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することを含むことを特徴とする請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記分割規則は、特徴マップの分割対象となる次元、各分割対象となる次元の分割位置、各分割対象となる次元の分割数、各分割対象となる次元の分割サイズ、分割後のサブ特徴マップの数のうちの少なくとも1つを含むことを特徴とする請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、
前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することと、をさらに含むことを特徴とする請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、
m個(mは正の整数)の第2特徴マップをスケールダウンし、スケールダウン後のm個の特徴マップを取得することと、
前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、スケールが前記スケールダウン後のm個の特徴マップのスケールと同じであるm+1番目の特徴マップを取得することと、
前記m個の第2特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化及び融合を行い、符号化後のm+1個の特徴マップを取得することと、を含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することは、
符号化後のm+1個(mは正の整数)の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のm個の特徴マップを取得することと、
前記スケールアップ後のm個の特徴マップに対して特徴最適化及び融合を行い、前記処理対象となる画像の分類予測結果を取得することと、を含むことを特徴とする請求項6又は7に記載の方法。
【請求項9】
処理対象となる画像に対して特徴抽出を行うための特徴抽出ネットワークと、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行うための符号化ネットワークと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うための復号化ネットワークとを含むニューラルネットワークによって実現されることを特徴とする請求項1~8のいずれか1項に記載の方法。
【請求項10】
複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記ニューラルネットワークをトレーニングすることをさらに含むことを特徴とする請求項9に記載の方法。
【請求項11】
処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、
前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割するための分割モジュールと、
前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得するための正規化モジュールと、
前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するためのつなぎ合わせモジュールと、を含むことを特徴とする画像処理装置。
【請求項12】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1~10のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項13】
コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項1~10のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項14】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに請求項1~10のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータテクノロジーの分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
ディープラーニングネットワークにおいて、入力された特徴マップに対してある特定の次元で正規化計算を行うことができる。これにより、モデルの収束速度を加速できるだけでなく、ディープネットワークでの「勾配消失」の問題を緩和して、ディープニューラルネットワークのトレーニングを容易にし、より安定したネットワークを取得することができる。
【発明の概要】
【0003】
本開示は画像処理の発明を提案する。
【0004】
本開示の一側面では、処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割することと、前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得することと、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することと、を含む画像処理方法を提供する。
【0005】
1つの可能な実施形態では、前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割することは、前記第1特徴マップの空間次元のサイズ及び予め設定された分割規則に基づいて、空間次元において前記第1特徴マップを分割し、複数の第1サブ特徴マップを取得することを含む。
【0006】
1つの可能な実施形態では、前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得することは、チャネル次元において各第1サブ特徴マップをグループ化し、前記第1サブ特徴マップの各グループのチャネルをそれぞれ正規化処理して、前記第1サブ特徴マップの第2サブ特徴マップを取得することを含む。
【0007】
1つの可能な実施形態では、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することは、前記複数の第1サブ特徴マップの前記第1特徴マップにおける位置に応じて、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することを含む。
【0008】
1つの可能な実施形態では、前記分割規則は、特徴マップの分割対象となる次元、各分割対象となる次元の分割位置、各分割対象となる次元の分割数、各分割対象となる次元の分割サイズ、分割後のサブ特徴マップの数のうちの少なくとも1つを含む。
【0009】
1つの可能な実施形態では、前記方法は、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することと、をさらに含む。
【0010】
1つの可能な実施形態では、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、m個(mは正の整数)の第2特徴マップをスケールダウンし、スケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、スケールが前記スケールダウン後のm個の特徴マップのスケールと同じであるm+1番目の特徴マップを取得することと、前記m個の第2特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化及び融合を行い、符号化後のm+1個の特徴マップを取得することと、を含む。
【0011】
1つの可能な実施形態では、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することは、符号化後のm+1個(mは正の整数)の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のm個の特徴マップを取得することと、前記スケールアップ後のm個の特徴マップに対して特徴最適化及び融合を行い、前記処理対象となる画像の分類予測結果を取得することと、を含む。
【0012】
1つの可能な実施形態では、前記方法は、処理対象となる画像に対して特徴抽出を行うための特徴抽出ネットワークと、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行うための符号化ネットワークと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うための復号化ネットワークとを含むニューラルネットワークによって実現される。
【0013】
1つの可能な実施形態では、前記方法は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記ニューラルネットワークをトレーニングすることをさらに含む。
【0014】
本開示の別の側面では、処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割するための分割モジュールと、前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得するための正規化モジュールと、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するためのつなぎ合わせモジュールと、を含む画像処理装置を提供する。
【0015】
1つの可能な実施形態では、前記分割モジュールは、前記第1特徴マップの空間次元のサイズ及び予め設定された分割規則に基づいて、空間次元において前記第1特徴マップを分割し、複数の第1サブ特徴マップを取得するための分割サブモジュールを含む。
【0016】
1つの可能な実施形態では、前記正規化モジュールは、チャネル次元において各第1サブ特徴マップをグループ化し、前記第1サブ特徴マップの各グループのチャネルをそれぞれ正規化処理して、前記第1サブ特徴マップの第2サブ特徴マップを取得するための正規化サブモジュールを含む。
【0017】
1つの可能な実施形態では、前記つなぎ合わせモジュールは、前記複数の第1サブ特徴マップの前記第1特徴マップにおける位置に応じて、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するためのつなぎ合わせサブモジュールを含む。
【0018】
1つの可能な実施形態では、前記分割規則は、特徴マップの分割対象となる次元、各分割対象となる次元の分割位置、各分割対象となる次元の分割数、各分割対象となる次元の分割サイズ、分割後のサブ特徴マップの数のうちの少なくとも1つを含む。
【0019】
1つの可能な実施形態では、前記装置は、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得するための復号化モジュールとをさらに含む。
【0020】
1つの可能な実施形態では、前記符号化モジュールは、m個(mは正の整数)の第2特徴マップをスケールダウンし、スケールダウン後のm個の特徴マップを取得するための縮小サブモジュールと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、スケールが前記スケールダウン後のm個の特徴マップのスケールと同じであるm+1番目の特徴マップを取得するための第1融合サブモジュールと、前記m個の第2特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化及び融合を行い、符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含む。
【0021】
1つの可能な実施形態では、前記復号化モジュールは、符号化後のm+1個(mは正の整数)の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のm個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のm個の特徴マップに対して特徴最適化及び融合を行い、前記処理対象となる画像の分類予測結果を取得するための第3融合サブモジュールと、を含む。
【0022】
1つの可能な実施形態では、前記装置は、処理対象となる画像に対して特徴抽出を行うための特徴抽出ネットワークと、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行うための符号化ネットワークと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うための復号化ネットワークとを含むニューラルネットワークによって実現される。
【0023】
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記ニューラルネットワークをトレーニングするトレーニングモジュールをさらに含む。
【0024】
本開示の別の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
【0025】
本開示の別の側面では、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
【0026】
本開示の別の側面では、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実現するための命令を実行させるコンピュータプログラムを提供する。
【0027】
本開示の実施例において、特徴マップを分割しかつそれぞれ正規化処理して正規化後の複数のサブ特徴マップを取得し、正規化後の複数のサブ特徴マップを完全な特徴マップにつなぎ合わせることにより、ローカル特徴情報を保留し、完全な特徴マップを正規化する場合の統計誤差を減らし、抽出された特徴の有効性を向上させることができる。
【0028】
なお、以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解すべきである。以下に図面を参照しながら例示的な実施例を詳しく説明することにより、本開示のその他の特徴及び側面がより明確になる。
【図面の簡単な説明】
【0029】
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。
図1】本開示の実施例に係る画像処理方法のフローチャートを示す。
図2】本開示の実施例に係る画像処理方法の処理手順の模式図を示す。
図3A】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図3B】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図3C】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図4】本開示の実施例に係る画像処理装置のブロック図を示す。
図5】本開示の実施例に係る電子機器のブロック図を示す。
図6】本開示の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0030】
以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び側面を詳細に説明する。図面において、同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な側面を示すが、特に断りがない限り、比例に従って図面を描く必要がない。
【0031】
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0032】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0033】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0034】
図1は本開示の実施例に係る画像処理方法のフローチャートを示す。図1に示すように、前記画像処理方法は、処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するステップS11と、前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割するステップS12と、前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得するステップS13と、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するステップS14と、を含む。
【0035】
1つの可能な実施形態では、前記画像処理方法は、ユーザ機器(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバなどの他の種類の電子機器により実行されてもよい。前記方法はプロセッサによってメモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。あるいは、サーバーによって前記方法を実行してもよい。
【0036】
1つの可能な実施形態では、処理対象となる画像は、画像取得装置(例えば、カメラ)によって撮影された監視領域(例えば、交差点、ショッピングモールなどの領域)の画像であっもよいし、他の方法で取得された画像(例えば、ネットワークを介してダウンロードされた画像)であってもよい。処理対象となる画像には、一定数の対象物(例えば、歩行者、車両、顧客など)が含まれてもよい。本開示では、処理対象となる画像の種類、取得方法及び画像における対象物の種類については限定しない。
【0037】
1つの可能な実施形態では、ステップS11において、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、処理対象となる画像の第1特徴マップを取得するようにしてもよい。当該特徴抽出ネットワークは、例えば、畳み込みニューラルネットワークを含んでもよく、本開示では、特徴抽出ネットワークの具体的なネットワーク種類については限定しない。
【0038】
1つの可能な実施形態では、第1特徴マップは次元情報を有し、当該次元情報は、第1特徴マップの次元及び各次元のサイズを含むようにしてもよい。例えば、第1特徴マップは、高さH、幅W及びチャネルCという3つの次元を含み、ここで、高さHと幅Wは空間次元であり、チャネルCはチャネル次元である。各次元のサイズについて、例えば、高さHと幅Wをいずれも256とし、チャネルCを16(すなわち、16個のチャネル)とすると、H×W×C=256×256×16と表すことができる。本開示では、第1特徴マップの次元の数及び各次元の具体的なサイズについては限定しない。
【0039】
1つの可能な実施形態では、処理対象となる画像において各領域同士には差異があり、例えば、各領域の対象物(歩行者)の数が異なる場合、第1特徴マップを直接に正規化処理すれば、統計誤差が生じる可能性がある。この場合、第1特徴マップを分割し、領域毎に正規化処理して、誤差を減らすようにしてもよい。
【0040】
1つの可能な実施形態では、特徴マップに対する分割規則を予め設定して、分割規則に基づいて特徴マップを分割するようにしてもよく、例えば、特徴マップを複数のブロックに均一に分割したり、特定のサイズのブロックに分割したりするなどが挙げられる。全ての特徴マップに対して同一の分割規則を用いてもよいし、異なる特徴マップに対して異なる分割規則を用いてもよく、本開示では限定しない。
【0041】
1つの可能な実施形態では、分割規則は、特徴マップの分割対象となる次元、各分割対象となる次元の分割位置、各分割対象となる次元の分割数、各分割対象となる次元の分割サイズ、分割後のサブ特徴マップの数のうちの少なくとも1つを含んでもよい。
【0042】
1つの可能な実施形態では、分割対象となる次元は、特徴マップの分割べき次元を指示するためのものであり、例えば、空間次元における高さHと幅Wを分割する。各分割対象となる次元の分割位置は、特徴マップの各分割対象となる次元を分割する分割点の位置を指示するためのものであり、例えば、高さH(サイズが256)の分割位置は52、108及び160などを含む。各分割対象となる次元の分割数は、特徴マップの各分割対象となる次元を分割する数を指示するためのものであり、例えば、高さH(サイズが256)の次元方向に3つのブロックに均一に分割する。各分割対象となる次元の分割サイズは特徴マップの各分割対象となる次元を分割するサイズを指示するためのものであり、例えば、高さH(サイズが256)の次元方向にサイズの64で分割する。分割後のサブ特徴マップの数は、特徴マップを分割して取得したサブ特徴マップの数を指示するためのものであり、例えば、サブ特徴マップの数が9であれば、高さHと幅Wの次元方向にそれぞれ3つのブロックに分割するようにしてもよい。
【0043】
なお、当業者は実際の状況に応じて具体的な分割規則及びその内容を設定できると理解すべき、本開示では限定しない。
【0044】
1つの可能な実施形態では、ステップS12において、第1特徴マップの次元情報及び予め設定された分割規則に基づいて、第1特徴マップを複数の第1サブ特徴マップに分割するようにしてもよい。例えば、分割規則は、分割対象となる次元が高さHと幅Wであり、高さHと幅Wの次元方向にそれぞれ2つのブロックに分割することを指示すれば、第1特徴マップを4つの第1サブ特徴マップ(128×128×16)に分割することができる。
【0045】
1つの可能な実施形態では、ステップS13において、複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得するようにしてもよい。本開示では、正規化の具体的な方法については限定しない。
【0046】
1つの可能な実施形態では、ステップS14において、複数の第2サブ特徴マップをつなぎ合わせて、処理対象となる画像の第2特徴マップを取得するようにしてもよい。すなわち、正規化後の各サブ特徴マップの位置に応じて、複数のサブ特徴マップをつなぎ合わせて、完全な特徴マップ(第2特徴マップ)を取得して、後続の処理を行う。
【0047】
本開示の実施例によれば、特徴マップを分割しかつそれぞれ正規化処理して正規化後の複数のサブ特徴マップを取得し、正規化後の複数のサブ特徴マップを完全な特徴マップにつなぎ合わせることにより、ローカル特徴情報を保留し、完全な特徴マップを正規化する場合の統計誤差を減らし、抽出された特徴の有効性を向上させることができる。
【0048】
1つの可能な実施形態では、ステップS12は、前記第1特徴マップの空間次元のサイズ及び予め設定された分割規則に基づいて、空間次元において前記第1特徴マップを分割し、複数の第1サブ特徴マップを取得することを含んでもよい。
【0049】
例えば、予め設定された分割規則として、空間次元(HとW)において第1特徴マップを分割し、例えば、各次元方向にそれぞれ4つのブロックに均一に分割するように設定されてもよい。この場合、第1特徴マップの空間次元(HとW)のサイズ(256×256)に応じて、空間次元(HとW)において第1特徴マップをサイズが64×64の16個の第1サブ特徴マップに分割することができる。各第1サブ特徴マップの他の次元と第1特徴マップの他の次元とはスケールが同一である(例えば、チャネル数が共に16)。
【0050】
このような方法によれば、空間次元において特徴マップに対して領域分割を行って特徴マップを各空間領域のサブ特徴マップに分割し、特徴マップの各空間領域をそれぞれ正規化処理することにより、完全な特徴マップを正規化する場合の統計誤差を減らすことができる。
【0051】
1つの可能な実施形態では、ステップS13は、チャネル次元において各第1サブ特徴マップをグループ化し、前記第1サブ特徴マップの各グループのチャネルをそれぞれ正規化処理して、前記第1サブ特徴マップの第2サブ特徴マップを取得することを含んでもよい。
【0052】
例えば、関連技術では、バッチ正規化(Batch Normalization、BN)によって各バッチのデータを正規化することができる。しかし、トレーニング時に大きなバッチサイズ(batch size)を使用できないタスク、例えば、物体検出、セマンティックセグメンテーション、人込み密度推定では、バッチ正規化の効果が悪い。この場合、グループ正規化(Group Normalization、GN)の方法で特徴マップを正規化処理することができる。
【0053】
1つの可能な実施形態では、複数のサブ特徴マップを取得した後、チャネル(channel)次元Cにおいて各第1サブ特徴マップをグループ化するようにしてもよく、例えば、第1サブ特徴マップの16個のチャネルを2つのグループに分け、各グループは8個のチャネルを含む。その後、各グループのチャネルにおいてそれぞれ正規化処理を行う。すなわち、第1サブ特徴マップの各グループのチャネルの平均値と分散をそれぞれ統計し、さらに、第1サブ特徴マップの各グループのチャネルの各位置の値を正規化計算して正規化後の結果(第1サブ特徴マップの第2サブ特徴マップ)を取得する。これにより、複数の第1サブ特徴マップに対応する複数の第2サブ特徴マップを取得することができる。本開示では、チャネルのグループ化数及び各グループに含まれるチャネルの数については限定しない。
【0054】
このような方法によれば、サブ特徴マップの各グループのチャネルをそれぞれ正規化することにより、正規化時の統計誤差をさらに減らし、抽出された特徴の有効性を向上させることができる。
【0055】
1つの可能な実施形態では、ステップS14は、前記複数の第1サブ特徴マップの前記第1特徴マップにおける位置に応じて、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得することを含んでもよい。
【0056】
例えば、正規化後の複数の第2サブ特徴マップを取得した後、各第1サブ特徴マップの第1特徴マップにおける位置を対応する各第2サブ特徴マップの位置として決定し、つまり、つなぎ合わせる順序が分割順序と同じであるようにしてもよい。各第2サブ特徴マップの位置に応じて各第2サブ特徴マップをつなぎ合わせ、つなぎ合わせた後の第2特徴マップを取得する。
【0057】
このような方法によれば、第2特徴マップと第1特徴マップのローカル特徴情報の分布の一致性を確保できる。
【0058】
図2は本開示の実施例に係る画像処理方法の処理手順の模式図を示す。図2に示すように、第1特徴マップ21は、高さH、幅W及びチャネルCという3つの次元を含んでもよく、予め設定された分割規則は、空間次元Hにおいて2つのブロックに分割し、空間次元Wにおいて2つのブロックに分割するとされてもよい。第1特徴マップ21の次元情報及び当該分割規則に基づいて、第1特徴マップ21を4つの第1サブ特徴マップ22に分割するようにしてもよい。4つの第1サブ特徴マップ22をそれぞれグループ正規化処理し(チャネルCのグループ化)、取得された結果(4つの第2サブ特徴マップ)を分割順序につなぎ合わせて完全な第2特徴マップ23を取得して、後の操作を行うようにしてもよい。
【0059】
1つの可能な実施形態では、前記方法は、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することと、を含んでもよい。
【0060】
例えば、処理対象となる画像に対して特徴抽出を行ってスケールが異なる複数の第1特徴マップを取得してもよく、ステップS12~14の分割、正規化及びつなぎ合わせ処理を経て、複数の第2特徴マップを取得するようにしてもよい。後続の処理において、ニューラルネットワークの符号化ネットワークによって処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するようにしてもよい。これにより、各スケールにおいてグローバル情報とローカル情報を融合させることができ、抽出された特徴の有効性を高めることができる。
【0061】
1つの可能な実施形態では、符号化ネットワークは、例えば、畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。符号化ネットワークの第1畳み込み層(ストライド>1)によって第2特徴マップをスケールダウンしてスケールダウン後の特徴マップを取得する。第2畳み込み層(ストライド=1)及び/又は残差層によって第2特徴マップ及びスケールダウン後の特徴マップに対して特徴最適化を行い、特徴最適化後の複数の特徴マップを取得する。さらに、符号化ネットワークのアップサンプリング層、畳み込み層(ストライド>1)及び/又は融合層などによって特徴最適化後の複数の特徴マップを融合させて符号化後の複数の特徴マップを取得するようにしてもよい。
【0062】
1つの可能な実施形態では、符号化後の複数の特徴マップを取得した後、復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、処理対象となる画像の分類予測結果を取得するようにしてもよい。
【0063】
1つの可能な実施形態では、復号化ネットワークは、例えば、融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。復号化ネットワークの融合層によって符号化後の複数の特徴マップを融合させて融合後の複数の特徴マップを取得する。さらに、逆畳み込み層によって融合後の複数の特徴マップをスケールアップし、スケールアップ後の複数の特徴マップを取得する。融合層、畳み込み層(ストライド=1)及び/又は残差層などによって複数の特徴マップをそれぞれ融合、最適化して復号化後の特徴マップ(分類予測結果)を取得するようにしてもよい。本開示では、符号化ネットワーク及び復号化ネットワークの具体的なネットワーク構造については限定しない。
【0064】
1つの可能な実施形態では、各ネットワーク層の操作結果を正規化してネットワーク層の操作結果のロバスト性を高めるように、ステップS12~14の分割、正規化及びつなぎ合わせ処理は、符号化ネットワーク及び復号化ネットワークの任意のネットワーク層(融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層など)の後に行われてもよい。
【0065】
このように、符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、かつ復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカルの情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。
【0066】
1つの可能な実施形態では、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得するステップは、m個(mは正の整数)の第2特徴マップをスケールダウンし、スケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、スケールが前記スケールダウン後のm個の特徴マップのスケールと同じであるm+1番目の特徴マップを取得することと、前記m個の第2特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化及び融合を行い、符号化後のm+1個の特徴マップを取得することと、を含んでもよい。
【0067】
例えば、処理対象となる第2特徴マップがm個(mは任意の正の整数)であるとしてもよい。符号化ネットワークのm個の畳み込みサブネットワーク(各畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含む)によってm個の第2特徴マップをそれぞれスケールダウンし、スケールダウン後のm個の特徴マップを取得し、当該スケールダウン後のm個の特徴マップはスケールが同一であり、かつm番目の第2特徴マップのスケールよりも小さい(m+1番目の特徴マップのスケールと同じである)。融合層によって当該スケールダウン後のm個の特徴マップに対して特徴融合を行い、m+1番目の特徴マップを取得するようにしてもよい。
【0068】
1つの可能な実施形態では、各畳み込みサブネットワークは、少なくとも1つの第1畳み込み層を含み、第1畳み込み層は、畳み込みカーネルサイズが3×3で、ストライドが2であり、特徴マップをスケールダウンするのに用いられる。畳み込みサブネットワークの第1畳み込み層の数は、対応する特徴マップのスケールに関連付けられており、例えば、符号化後の1番目の第2特徴マップのスケールが4x(幅と高さはそれぞれ処理対象となる画像の1/4)で、生成対象であるm個の特徴マップのスケールが16x(幅と高さはそれぞれ処理対象となる画像の1/16)であれば、1番目の畳み込みサブネットワークは2つの第1畳み込み層を含む。なお、当業者は実際の状況に応じて畳み込みサブネットワークの第1畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定してもよく、本開示では限定しない。
【0069】
1つの可能な実施形態では、符号化ネットワークの融合層によって符号化されたm個の第2特徴マップに対してマルチスケール融合を行って融合後のm個の特徴マップを取得する。m+1個の特徴最適化サブネットワーク(各特徴最適化サブネットワークは第2畳み込み層及び/又は残差層を含む)によって融合後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得する。その後、m+1個の融合サブネットワークによって特徴最適化後のm+1個の特徴マップに対してそれぞれマルチスケール融合を行い、符号化後のm+1個の特徴マップを取得するようにしてもよい。
【0070】
1つの可能な実施形態では、マルチスケール融合後のm+1個の特徴マップに対して特徴最適化及びマルチスケール融合を再度行うことにより、抽出されたマルチスケール特徴の有効性をさらに高めるようにしてもよい。本開示では、特徴最適化及びマルチスケール融合の回数については限定しない。
【0071】
1つの可能な実施形態では、第2畳み込み層によって特徴マップを直接最適化するようにしてもよく、第2畳み込み層は畳み込みカーネルサイズが3×3で、ストライドが1である。第2畳み込み層及び残差層からなる基本ブロック(basic block)によって特徴マップを最適化するようにしてもよい。当該基本ブロックは、最適化を行う基本ユニットとして、2つの連続する第2畳み込み層を含み、残差層によって、入力された特徴マップと畳み込みによって取得された特徴マップとを加算して結果として出力するようにしてもよい。本開示では、特徴最適化の具体的な方法については限定しない。
【0072】
1つの可能な実施形態では、各特徴最適化サブネットワークは、少なくとも1つの基本ブロックを含んでもよい。各特徴最適化サブネットワークの基本ブロックによってm個の第2特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行って特徴最適化後のm+1個の特徴マップを取得するようにしてもよい。なお、当業者は実際の状況に応じて第2畳み込み層の数及び畳み込みカーネルサイズを設定してもよく、本開示では限定しない。
【0073】
このような方法によれば、抽出されたマルチスケール特徴の有効性をさらに高めることができる。
【0074】
1つの可能な実施形態では、符号化ネットワークのm+1個の融合サブネットワークはそれぞれ特徴最適化後のm+1個の特徴マップを融合させるようにしてもよい。m+1個の融合サブネットワークのk番目の融合サブネットワーク(kは整数で1≦k≦m+1)を例とすると、まず、当該k番目の融合サブネットワークは、m+1個の特徴マップのスケールを特徴最適化後のk番目の特徴マップのスケールに調整してもよい。1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも前のk-1個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも大きく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも前の特徴マップのスケールは4xと8xである。この場合、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンしてスケールダウン後のk-1個の特徴マップを取得するようにしてもよい。すなわち、スケールが4xと8xの特徴マップのそれぞれを16xの特徴マップに縮小するために、2つの第1畳み込み層によって4xの特徴マップをスケールダウンしてもよく、1つの第1畳み込み層によって8xの特徴マップをスケールダウンしてもよい。これにより、スケールダウン後のk-1個の特徴マップを取得することができる。
【0075】
1つの可能な実施形態では、1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも後のm+1-k個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも小さく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも後のm+1-k個の特徴マップは32xである。この場合、アップサンプリング層によって32xの特徴マップをスケールアップし、かつ第3畳み込み層(畳み込みカーネルサイズは1×1)によってスケールアップ後の特徴マップに対してチャネル調整を行ってスケールアップ後の特徴マップのチャネル数をk番目の特徴マップのチャネル数と同一にして、スケールが16xの特徴マップを取得するようにしてもよい。これにより、スケールアップ後のm+1-k個の特徴マップを取得することができる。
【0076】
1つの可能な実施形態では、k=1の場合、特徴最適化後の1番目の特徴マップよりも後のm個の特徴マップのスケールはいずれも特徴最適化後の1番目の特徴マップよりも小さく、後のm個の特徴マップのそれぞれに対してスケールアップ及びチャネル調整を行ってスケールアップ後のm個の特徴マップを取得するようにしてもよい。k=m+1の場合、特徴最適化後のm+1番目の特徴マップよりも前のm個の特徴マップのスケールはいずれも特徴最適化後のm+1番目の特徴マップよりも大きく、前のm個の特徴マップのそれぞれをスケールダウンしてスケールダウン後の前のm個の特徴マップを取得するようにしてもよい。
【0077】
1つの可能な実施形態では、k番目の融合サブネットワークはスケール調整後のm+1個の特徴マップを融合させるようにしてもよい。1<k<m+1の場合、スケール調整後のm+1個の特徴マップは、スケールダウン後のk-1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップを含む。スケールダウン後のk-1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップの三者を融合(加算)させて符号化後のk番目の特徴マップを取得するようにしてもよい。
【0078】
1つの可能な実施形態では、k=1の場合、スケール調整後のm+1個の特徴マップは、特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップを含む。特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップの両者を融合(加算)させて符号化後の1番目の特徴マップを取得するようにしてもよい。
【0079】
1つの可能な実施形態では、k=m+1の場合、スケール調整後のm+1個の特徴マップはスケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップを含む。スケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップの両者を融合(加算)させて符号化後のm+1番目の特徴マップを取得するようにしてもよい。
【0080】
図3A図3B及び図3Cは本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。図3A図3B及び図3Cでは、融合対象となる特徴マップが3個の場合を例に説明する。
【0081】
図3Aに示すように、k=1の場合、2番目と3番目の特徴マップのそれぞれに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って1番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3個の特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0082】
図3Bに示すように、k=2の場合、1番目の特徴マップをスケールダウンし(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)、3番目の特徴マップに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って、2番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0083】
図3Cに示すように、k=3の場合、1番目と2番目の特徴マップをスケールダウンする(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)ようにしてもよい。1番目の特徴マップと3番目の特徴マップとのスケール差は4倍であるため、2回の畳み込み(畳み込みカーネルサイズは3×3、ストライドは2)を行ってもよい。スケールダウン後、3番目の特徴マップのスケール及びチャネル数と同一の2個の特徴マップを取得して、さらに、この3個の特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0084】
このような方法によれば、スケールの異なる複数の特徴マップ間のマルチスケール融合を実現でき、各スケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケール特徴を抽出する。
【0085】
1つの可能な実施形態では、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得することは、符号化後のm+1個(mは正の整数)の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のm個の特徴マップを取得することと、前記スケールアップ後のm個の特徴マップに対して特徴最適化及び融合を行い、前記処理対象となる画像の分類予測結果を取得することと、を含んでもよい。
【0086】
例えば、先に符号化後のm+1個の特徴マップを融合させて、マルチスケール情報を融合させるとともに特徴マップの数を減らすようにしてもよい。符号化後のm+1個の特徴マップのうちの前のm個の特徴マップに対応するm個の第1融合サブネットワークを設置してもよい。例えば、融合対象となる特徴マップは、スケールが4x、8x、16x及び32xである4個の特徴マップを含めば、融合によってスケールが4x、8x及び16xである3つの特徴マップを取得するように、3個の第1融合サブネットワークを設置してもよい。
【0087】
1つの可能な実施形態では、復号化ネットワークのm個の第1融合サブネットワークのネットワーク構造は符号化ネットワークの融合サブネットワークのネットワーク構造と類似してもよい。q番目の第1融合サブネットワーク(1≦q≦m)については、q番目の第1融合サブネットワークはまずm+1個の特徴マップのスケールを復号化後のq番目の特徴マップのスケールに調整し、さらに、スケール調整後のm+1個の特徴マップを融合させ、融合後のq番目の特徴マップを取得するようにしてもよい。これにより、融合後のm個の特徴マップを取得することができる。スケールの調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
【0088】
1つの可能な実施形態では、復号化ネットワークの逆畳み込みサブネットワークによって融合後のm個の特徴マップをそれぞれスケールアップし、例えば、スケールが4x、8x及び16xである3個の融合後の特徴マップを2x、4x及び8xの3個の特徴マップに拡大するようにしてもよい。拡大した結果、スケールアップ後のm個の特徴マップを取得する。
【0089】
1つの可能な実施形態では、スケールアップ後のm個の特徴マップを取得した後、m個の第2融合サブネットワークによって当該m個の特徴マップに対してそれぞれスケール調整及び融合を行い、融合したm個の特徴マップを取得するようにしてもよい。スケールの調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
【0090】
1つの可能な実施形態では、復号化ネットワークの特徴最適化サブネットワークによって融合したm個の特徴マップをそれぞれ最適化してもよく、各特徴最適化サブネットワークはいずれも少なくとも1つの基本ブロックを含んでもよい。特徴最適化した結果、復号化されたm個の特徴マップを取得することができる。特徴最適化の具体的な過程については、ここで詳細な説明を省略する。
【0091】
1つの可能な実施形態では、スケールの異なるグローバル特徴とローカル特徴をさらに融合させるように、復号化ネットワークのマルチスケール融合及び特徴最適化の過程を複数回繰り返してもよい。本開示では、マルチスケール融合及び特徴最適化の回数については限定しない。
【0092】
1つの可能な実施形態では、スケールが処理対象となる画像と一致する対象物特徴マップを取得するように、復号化ネットワークの融合及びスケールアップの過程を複数回繰り返してもよい。さらに、対象物特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得するようにしてもよい。
【0093】
1つの可能な実施形態では、当該予測密度マップをそのまま処理対象となる画像の予測結果としてもよいし、当該予測密度マップをさらに処理(例えば、softmax層などによる処理)して処理対象となる画像の分類予測結果を取得してもよい。
【0094】
これにより、復号化ネットワークはスケールアップ過程においてグローバル情報とローカル情報を複数回融合させ、予測結果の品質を向上させる。
【0095】
1つの可能な実施形態では、本開示の実施例に係る画像処理方法は、処理対象となる画像に対して特徴抽出を行うための特徴抽出ネットワークと、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行うための符号化ネットワークと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うための復号化ネットワークとを含むニューラルネットワークによって実現されてもよい。特徴抽出ネットワーク、符号化ネットワーク及び復号化ネットワークの処理手順について、既に説明したので、ここで詳細な説明を省略する。
【0096】
1つの可能な実施形態では、本開示のニューラルネットワークを適用する前に、当該ニューラルネットワークをトレーニングするようにしてもよい。本開示の実施例に係る画像処理方法は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記ニューラルネットワークをトレーニングすることをさらに含む。
【0097】
例えば、複数のサンプル画像を予め設置してもよく、各サンプル画像は、例えば、サンプル画像における歩行者の位置、数などのラベル情報が付けられた。複数のラベル情報付きのサンプル画像でトレーニング群を構成して前記ニューラルネットワークをトレーニングするようにしてもよい。
【0098】
1つの可能な実施形態では、サンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワーク、符号化ネットワーク及び復号化ネットワークの処理により、サンプル画像の予測結果を出力する。サンプル画像の予測結果とラベル情報に基づいてニューラルネットワークのネットワーク損失を決定する。ネットワーク損失に応じて、ニューラルネットワークのネットワークパラメータを調整する。予め設定されたトレーニング条件を満たしている場合、トレーニングされたニューラルネットワークを得るようにしてもよい。本開示では、具体的なトレーニング方法については限定しない。
【0099】
これにより、高精度のニューラルネットワークが得られる。
【0100】
本開示の実施例の正規化方法によれば、空間次元において特徴マップに対して領域分割を行い、各空間領域をそれぞれ正規化することにより、特徴マップの局所の差異性を保留し、完全な特徴マップを正規化する場合の統計誤差を減らすことができる。本開示の実施例によれば、トレーニング時に小さなバッチサイズを使用してもネットワークの性能を確保でき、トレーニング時に小さなバッチサイズしか使用できないタスク(例えば、人込み密度推定、セマンティックセグメンテーションなど)に適用し、例えば人込み密度推定タスクのトレーニング時に正規化層を使用しないことによる勾配消失/爆発などの問題を解消することができる。
【0101】
本開示の実施例の画像処理方法によれば、ストライドを持った畳み込み操作によりスケールが小さな特徴マップを取得し、ネットワーク構造において、グローバル情報とローカルとの融合を継続的に行ってより有効なマルチスケール情報を抽出し、かつ他のスケールの情報により現在のスケール情報の抽出を促進し、ネットワークのマルチスケールの対象物(例えば、歩行者)への識別のロバスト性を向上させることができる。復号化ネットワークにおいて特徴マップを拡大するとともに、マルチスケール情報の融合を行って、マルチスケール情報を保留し、生成された密度マップの品質を向上させ、モデル予測の正確率を向上させることができる。
【0102】
本開示の実施例の画像処理方法によれば、スマートビデオ解析や防犯監視などの応用場面に適用でき、場面内の対象物(例えば、歩行者、車両など)を識別し、場面内の対象物の数や分布状況などを予測して、現在の場面における人込みの動作を解析することができる。
【0103】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの具体的な実行順序は、その機能と内部の可能な論理によって決定されることが理解される。
【0104】
また、本開示はさらに、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供する。これらはいずれも、本開示のいずれかの画像処理方法の実施に用いられることができる。かかる発明及び説明は、方法に関する説明のかかる記載を参照すればよく、詳細な説明を省略する。
【0105】
図4は本開示の実施例に係る画像処理装置のブロック図を示す。図4に示すように、前記画像処理装置は、処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュール41と、前記第1特徴マップの次元及び各次元のサイズを含む前記第1特徴マップの次元情報及び予め設定された分割規則に基づいて、前記第1特徴マップを複数の第1サブ特徴マップに分割するための分割モジュール42と、前記複数の第1サブ特徴マップをそれぞれ正規化処理し、複数の第2サブ特徴マップを取得するための正規化モジュール43と、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するためのつなぎ合わせモジュール44と、を含む。
【0106】
1つの可能な実施形態では、前記分割モジュールは、前記第1特徴マップの空間次元のサイズ及び予め設定された分割規則に基づいて、空間次元において前記第1特徴マップを分割し、複数の第1サブ特徴マップを取得するための分割サブモジュールを含む。
【0107】
1つの可能な実施形態では、前記正規化モジュールは、チャネル次元において各第1サブ特徴マップをグループ化し、前記第1サブ特徴マップの各グループのチャネルをそれぞれ正規化処理して、前記第1サブ特徴マップの第2サブ特徴マップを取得するための正規化サブモジュールを含む。
【0108】
1つの可能な実施形態では、前記つなぎ合わせモジュールは、前記複数の第1サブ特徴マップの前記第1特徴マップにおける位置に応じて、前記複数の第2サブ特徴マップをつなぎ合わせて、前記処理対象となる画像の第2特徴マップを取得するためのつなぎ合わせサブモジュールを含む。
【0109】
1つの可能な実施形態では、前記分割規則は、特徴マップの分割対象となる次元、各分割対象となる次元の分割位置、各分割対象となる次元の分割数、各分割対象となる次元の分割サイズ、分割後のサブ特徴マップの数のうちの少なくとも1つを含む。
【0110】
1つの可能な実施形態では、前記装置は、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行い、前記処理対象となる画像の分類予測結果を取得するための復号化モジュールとをさらに含む。
【0111】
1つの可能な実施形態では、前記符号化モジュールは、m個(mは正の整数)の第2特徴マップをスケールダウンし、スケールダウン後のm個の特徴マップを取得するための縮小サブモジュールと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、スケールが前記スケールダウン後のm個の特徴マップのスケールと同じであるm+1番目の特徴マップを取得するための第1融合サブモジュールと、前記m個の第2特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化及び融合を行い、符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールとを含む。
【0112】
1つの可能な実施形態では、前記復号化モジュールは、符号化後のm+1個(mは正の整数)の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のm個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のm個の特徴マップに対して特徴最適化及び融合を行い、前記処理対象となる画像の分類予測結果を取得するための第3融合サブモジュールとを含む。
【0113】
1つの可能な実施形態では、前記装置は、処理対象となる画像に対して特徴抽出を行うための特徴抽出ネットワークと、前記処理対象となる画像の少なくとも1つの第2特徴マップに対してスケールダウン及びマルチスケール融合を行うための符号化ネットワークと、前記符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うための復号化ネットワークとを含むニューラルネットワークによって実現される。
【0114】
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記ニューラルネットワークをトレーニングするトレーニングモジュールをさらに含む。
【0115】
いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明を省略する。
【0116】
本開示の実施例はさらに、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は、コンピュータ読み取り可能な不揮発性記憶媒体であってもよく、またはコンピュータ読み取り可能な揮発性記憶媒体であってもよい。
【0117】
本開示の実施例はさらに、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
【0118】
本開示の実施例はさらに、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実現するための命令を実行させるコンピュータプログラムを提供する。
【0119】
電子機器は、端末、サーバー又はその他の形態の機器として提供できる。
【0120】
図5は本開示の実施例に係る電子機器800のブロック図を示す。電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
【0121】
図5参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0122】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0123】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0124】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0125】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0126】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0127】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0128】
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0129】
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
【0130】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0131】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
【0132】
図6は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバーとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0133】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0134】
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
【0135】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0136】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0137】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0138】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0139】
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0140】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0141】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0142】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0143】
論理に反することなく、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例には重点を置いて説明したが、重点を置いて説明しなかった部分については、他の実施例の記載を参照すれば明らかである。
【0144】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【0145】
本願は2019年7月18日に中国特許庁に出願された、出願番号が201910652025.2で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容全体が援用により本開示に組み込まれる。
図1
図2
図3A
図3B
図3C
図4
図5
図6