IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

特表2022-516398画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体
<>
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図1
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図2a
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図2b
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図3
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図4
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図5
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図6a
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図6b
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図7
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図8
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図9
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図10
  • 特表-画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-28
(54)【発明の名称】画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220218BHJP
   G06T 1/40 20060101ALI20220218BHJP
   G06T 5/50 20060101ALI20220218BHJP
【FI】
G06T7/00 350C
G06T1/40
G06T5/50
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021521482
(86)(22)【出願日】2019-12-13
(85)【翻訳文提出日】2021-04-20
(86)【国際出願番号】 CN2019125297
(87)【国際公開番号】W WO2021103187
(87)【国際公開日】2021-06-03
(31)【優先権主張番号】201911182723.7
(32)【優先日】2019-11-27
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲陳▼航
(72)【発明者】
【氏名】朱烽
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CE06
5B057CE08
5B057CH09
5B057CH11
5B057DB02
5B057DB09
5B057DC40
5L096AA06
5L096BA02
5L096DA03
5L096EA39
5L096FA32
5L096FA33
5L096FA52
5L096FA62
5L096FA66
5L096FA69
5L096GA12
5L096GA51
5L096GA55
5L096HA11
5L096KA04
(57)【要約】
本願は、画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体を開示する。該方法は、処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得することであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、ことと、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることと、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることと、を含む。本願は対応する装置を更に開示する。
【特許請求の範囲】
【請求項1】
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得することであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、ことと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることと、を含む、画像処理方法。
【請求項2】
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、ことと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することと、を更に含み、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることを含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることは、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得ることと、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得ることと、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることと、を含むことを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得ることと、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとすることと、を含むことを特徴とする
請求項2又は3に記載の画像処理方法。
【請求項5】
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得ることを更に含み、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得ることを含み、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることは、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得ることを含むことを特徴とする
請求項2から4のうちいずれか一項に記載の画像処理方法。
【請求項6】
前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なることを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項7】
前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値であることを特徴とする
請求項6に記載の画像処理方法。
【請求項8】
前記画像処理方法は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得ることを更に含むことを特徴とする
請求項1から7のうちいずれか一項に記載の画像処理方法。
【請求項9】
前記画像処理方法は、群衆計数ネットワークに適用され、
前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含むことを特徴とする
請求項1から8のうちいずれか一項に記載の画像処理方法。
【請求項10】
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、前記画像処理方法は、
前記サンプル画像の実際群集密度画像を得ることを更に含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含むことを特徴とする
請求項9に記載の画像処理方法。
【請求項11】
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記画像処理方法は、
前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得ることを更に含み、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得ることは、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得ることであって、前記前処理された画像は、前記第3群衆密度画像に一対一に対応する、ことを含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含むことを特徴とする
請求項9に記載の画像処理方法。
【請求項12】
前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含むことを特徴とする
請求項11に記載の画像処理方法。
【請求項13】
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得するように構成される取得ユニットであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、取得ユニットと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得るように構成される畳み込み処理ユニットと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るように構成される融合処理ユニットと、を備える、画像処理装置。
【請求項14】
前記画像処理装置は、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得るように構成される特徴抽出処理ユニットであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、特徴抽出処理ユニットと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定するように構成される第1決定ユニットと、を更に備え、
前記融合処理ユニットは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成されることを特徴とする
請求項13に記載の画像処理装置。
【請求項15】
前記融合処理ユニットは具体的には、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成されることを特徴とする
請求項14に記載の画像処理装置。
【請求項16】
前記第1決定ユニットは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとするように構成されることを特徴とする
請求項14又は15に記載の画像処理装置。
【請求項17】
前記特徴抽出処理ユニットは更に、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得るように構成され、
前記畳み込み処理ユニットは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得るように構成され、
前記特徴抽出処理ユニットは更に、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得るように構成されることを特徴とする
請求項14から16のうちいずれか一項に記載の画像処理装置。
【請求項18】
前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なることを特徴とする
請求項13から17のうちいずれか一項に記載の画像処理装置。
【請求項19】
前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値であることを特徴とする
請求項18に記載の画像処理装置。
【請求項20】
前記画像処理装置は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得るように構成される第2決定ユニットを更に備えることを特徴とする
請求項13から19のうちいずれか一項に記載の画像処理装置。
【請求項21】
前記装置により実行される画像処理方法は、群衆計数ネットワークに適用され、
前記画像処理装置は、前記群衆計数ネットワークを訓練するように構成される訓練ユニットを更に備え、前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含むことを特徴とする
請求項12から20のうちいずれか一項に記載の画像処理装置。
【請求項22】
前記訓練ユニットは更に、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、バンプ関数、ガウスカーネル及び前記サンプル画像に基づいて、前記サンプル画像の実際群集密度画像を得、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成されることを特徴とする
請求項21に記載の画像処理装置。
【請求項23】
前記訓練ユニットは更に、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得、前記前処理された画像は、前記第3群衆密度画像に一対一に対応し、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成されることを特徴とする
請求項21に記載の画像処理装置。
【請求項24】
前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含むことを特徴とする
請求項23に記載の画像処理装置。
【請求項25】
請求項1から12のうちいずれか一項に記載の方法を実行するように構成される、プロセッサ。
【請求項26】
互いに接続されるプロセッサ及びメモリを備える電子機器であって、前記メモリは、コンピュータ命令を含むコンピュータプログラムコードを記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行して、請求項1から12のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項27】
電子機器のプロセッサにより実行されるときに、前記プロセッサに、請求項1から12のうちいずれか一項に記載の方法を実行させるプログラム命令を含むコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項28】
コンピュータで実行されるときに、コンピュータに、請求項1から12のうちいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年11月27日に中国特許局に提出された、出願番号が201911182723.7であり、発明名称が「画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、その全内容が参照として本願に組み込まれる。
【0002】
本願は、画像処理技術分野に関し、特に画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
公衆場所における交通流が大きすぎる場合、スタンピード事故のような公共事態が発生しやすい。従って、公衆場所に対して群衆計数を如何に行うかは、特に大きな意義を持つ。
【0004】
従来の方法において、深層学習技術に基づいて公衆場所の画像を処理し、画像における特徴情報を抽出し、該特徴情報に基づいて、公衆場所の画像に対応する群衆密度画像を決定し、更に、群衆密度画像に基づいて、該公衆場所の画像における人数を決定し、群衆計数を実現させることができる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、画像処理方法及び画像処理装置、プロセッサ、電子機器並びに記憶媒体を提供する。
【課題を解決するための手段】
【0006】
第1態様によれば、画像処理方法を提供する。前記画像処理方法は、
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得することであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、ことと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることと、を含む。
【0007】
該態様において、受容野が異なる第1畳み込みカーネルと第2畳み込みカーネルを用いて、処理されるべき画像に対してそれぞれ畳み込み処理を行い、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を抽出し、第1特徴画像及び第2特徴画像をそれぞれ得る。第1特徴画像と第2特徴画像に対して融合処理を行うことで、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を利用して、得られる、処理されるべき画像に対応する群衆密度画像の精度を更に向上させる。
【0008】
該実現可能な形態において、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、ことと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することと、を更に含み、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることを含む。
【0009】
該実現可能な形態において、処理されるべき画像に対してそれぞれ第1特徴抽出処理及び第2特徴抽出処理を行い、異なるスケールでの、処理されるべき画像の情報を抽出することで、第1セルフアテンション画像及び第2セルフアテンション画像を得る。第1セルフアテンション画像に基づいて第1特徴画像の第1重みを決定し、第2セルフアテンション画像に基づいて第2特徴画像の第2重みを決定し、第1重み及び第2重みに基づいて、第1特徴画像と第2特徴画像に対して融合処理を行うことで、得られる第1群衆密度画像の精度を向上させることができる。
【0010】
もう1つの実現可能な形態において、前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることは、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得ることと、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得ることと、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることと、を含む。
【0011】
また1つの実現可能な形態において、前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得ることと、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとすることと、を含む。
【0012】
該実現可能な形態において、第1セルフアテンション画像及び第2セルフアテンション画像に対して正規化処理を行うことで、第1セルフアテンション画像と第2セルフアテンション画像における同一位置の画素点の画素値の和を1にすることができる。更に、第1セルフアテンション画像を第1重みとし、第2セルフアテンション画像を第2重みとし、第1特徴画像と第2特徴画像に対して融合処理を行うことで、処理されるべき画像における異なる画像領域に対して、受容野が異なる畳み込み処理を行うことを実現させ、得られる第1群衆密度画像の精度を更に向上させることができる。
【0013】
また1つの実現可能な形態において、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得ることを更に含み、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得ることを含み、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることは、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得ることを含む。
【0014】
該実現可能な形態において、第1畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、第2畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、処理されるべき画像に対して第3特徴抽出処理を行い、処理されるべき画像の特徴情報を抽出し、第5特徴画像を得る。第1畳み込みカーネルを用いて、第5特徴画像に対して畳み込み処理を行い、第1特徴画像を得、第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得る。これにより、処理されるべき画像から、より豊かな特徴情報を抽出することができる。
【0015】
また1つの実現可能な形態において、前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なる。
【0016】
該実現可能な形態において、第1畳み込みカーネル及び第2畳み込みカーネルがいずれも拡張畳み込みカーネルである場合、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みを同じくすることができ、且つ第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野を異なるようにすることができる。このように、第1畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで得られた第1特徴画像に含まれる情報と第2畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで得られた第2特徴画像に含まれる情報は、スケールのみで相違している。第1特徴画像と第2特徴画像に対して融合処理を行う場合、異なるスケールでの処理されるべき画像の情報をより好適に利用して、得られる第1群衆密度画像の精度を向上させることができる。
【0017】
また1つの実現可能な形態において、前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値である。
【0018】
該実現可能な形態において、第1畳み込みカーネル又は第2畳み込みカーネルの拡張率を0(即ち、基準値)とすることで、第1畳み込みカーネル又は第2畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行う場合に、処理されるべき画像に対して、受容野が1である畳み込み処理を行うことを実現させ、処理されるべき画像におけるスケールが小さい画像領域の情報をより好適に抽出することができる。
【0019】
また1つの実現可能な形態において、前記画像処理方法は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得ることを更に含む。
【0020】
該実現可能な形態において、第1群衆密度画像に基づいて、処理されるべき画像における人数を決定することができる。
【0021】
また1つの実現可能な形態において、前記画像処理方法は、群衆計数ネットワークに適用され、
前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含む。
【0022】
該実現可能な形態において、訓練された群衆計数ネットワークを用いて、処理されるべき画像を処理することで、処理されるべき画像に対応する群衆密度画像を得ることができる。
【0023】
また1つの実現可能な形態において、前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、前記画像処理方法は、
バンプ関数、ガウスカーネル及び前記サンプル画像に基づいて、前記サンプル画像の実際群集密度画像を得ることを更に含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含む。
【0024】
該実現可能な形態において、該サンプル画像の実際群集密度画像を群衆計数ネットワークの教師データとして、実際群集密度画像と第2群衆密度画像との差異に基づいて、群衆計数ネットワークのネットワーク損失を決定することで、得られるネットワーク損失の精度を向上させ、群衆計数ネットワークの訓練効果を更に向上させることができる。
【0025】
また1つの実現可能な形態において、前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記画像処理方法は、
前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得ることを更に含み、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得ることは、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得ることであって、前記前処理された画像は、前記第3群衆密度画像に一対一に対応する、ことを含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含む。
【0026】
該実現可能な形態において、サンプル画像を群衆計数ネットワークに入力する前に、サンプル画像に対して前処理を行うことで、少なくとも1枚の前処理された画像を得、上記少なくとも1枚の前処理された画像を訓練データとして群衆計数ネットワークに入力する。これにより、群衆計数ネットワークの訓練データ集合を拡張するという効果を達成することができる。
【0027】
また1つの実現可能な形態において、前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含む。
【0028】
第2態様によれば、画像処理装置を提供する。前記画像処理装置は、
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得するように構成される取得ユニットであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、取得ユニットと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得るように構成される畳み込み処理ユニットと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るように構成される融合処理ユニットと、を備える。
【0029】
実現可能な形態において、前記画像処理装置は、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得るように構成される特徴抽出処理ユニットであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、特徴抽出処理ユニットと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定するように構成される第1決定ユニットと、を更に備え、
前記融合処理ユニットは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成される。
【0030】
もう1つの実現可能な形態において、前記融合処理ユニットは具体的には、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成される。
【0031】
また1つの実現可能な形態において、前記第1決定ユニットは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとするように構成される。
【0032】
また1つの実現可能な形態において、前記特徴抽出処理ユニットは更に、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得るように構成され、
前記畳み込み処理ユニットは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得るように構成され、
前記特徴抽出処理ユニットは更に、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得るように構成される。
【0033】
また1つの実現可能な形態において、前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なる。
【0034】
また1つの実現可能な形態において、前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値である。
【0035】
また1つの実現可能な形態において、前記画像処理装置は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得るように構成される第2決定ユニットを更に備える。
【0036】
また1つの実現可能な形態において、前記装置により実行される画像処理方法は、群衆計数ネットワークに適用され、
前記画像処理装置は、前記群衆計数ネットワークを訓練するように構成される訓練ユニットを更に備え、前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含む。
【0037】
また1つの実現可能な形態において、前記訓練ユニットは更に、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、バンプ関数、ガウスカーネル及び前記サンプル画像に基づいて、前記サンプル画像の実際群集密度画像を得、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成される。
【0038】
また1つの実現可能な形態において、前記訓練ユニットは更に、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得、前記前処理された画像は、前記第3群衆密度画像に一対一に対応し、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成される。
【0039】
また1つの実現可能な形態において、前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含む。
【0040】
第3態様によれば、プロセッサを提供する。前記プロセッサは、上記第1態様及びそのいずれか1つの実現可能な形態の方法を実行するように構成される。
【0041】
第4態様によれば、電子機器を提供する。前記電子機器は、互いに接続されるプロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記コンピュータ命令を実行するときに、前記電子機器は、上記第1態様及びそのいずれか1つの実現可能な形態の方法を実行する。
【0042】
第5態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令が電子機器のプロセッサにより実行されるときに、前記プロセッサに、上記第1態様及びそのいずれか1つの実現可能な形態の方法を実行させる。
【0043】
第6態様によれば、命令を含むコンピュータプログラムを提供する。前記コンピュータプログラムがコンピュータで実行されるときに、コンピュータに、上記第1態様及びそのいずれか1つの実現可能な形態の方法を実行させる。
【0044】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0045】
図1】本願の実施例による画像処理方法を示すフローチャートである。
図2a】本願の実施例による畳み込みカーネルを示す概略図である。
図2b】本願の実施例による畳み込みカーネルの重みを示す概略図である。
図3】本願の実施例による同一位置の要素を示す概略図である。
図4】本願の実施例による群衆画像を示す概略図である。
図5】本願の実施例によるもう1つの画像処理方法を示すフローチャートである。
図6a】本願の実施例による拡張畳み込みカーネルを示す概略図である。
図6b】本願の実施例によるもう1つの拡張畳み込みカーネルを示す概略図である。
図7】本願の実施例によるまた1つの拡張畳み込みカーネルを示す概略図である。
図8】本願の実施例による群衆計数ネットワークの構造を示す概略図である。
図9】本願の実施例によるスケール感知型畳み込み層の構造を示す概略図である。
図10】本願の実施例による画像処理装置の構造を示す概略図である。
図11】本願の実施例による画像処理装置のハードウェア構造を示す概略図である。
【発明を実施するための形態】
【0046】
本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、本願の実施例又は背景技術に必要な図面を説明する。
【0047】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【0048】
当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。本願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
【0049】
本願の明細書及び特許請求の範囲並びに上記図面に言及された「第1」、「第2」等の用語は、異なる対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明記されたステップ又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は装置固有の他のステップ又はユニットを任意選択的に含んでもよい。
【0050】
本明細書における「実施例」という記載は、当実施例に関して説明する特定の特徴、構造または特性が、本願の少なくとも1つの実施例に含まれることを意味する。明細書の各箇所で現れる該語句は、同一の実施例を指すものとは限らず、他の実施例と相互排他的である独立した実施例又は候補実施例を指すものではない。本明細書に記載の実施例は他の実施例とくみあわせられてもよいことは、当業者であれば、明示的又は暗黙的に理解すべきである。
【0051】
公衆場所(例えば、広場、スーパーマーケット、地下鉄駅、埠頭などの場所)において、交通流が大きすぎて、更に、群衆が密集し過ぎることがある。この場合、スタンピード事故のような公共事態が発生しやすい。従って、公衆場所に対して群衆計数を如何に行うかは、特に大きな意義を持つ。
【0052】
深層学習技術の進歩に伴い、深層学習方法で、画像における人数を決定し、群衆計数を実現させることができる。従来の深層学習方法は、1つの畳み込みカーネルを用いて画像全体に対して畳み込み処理を行うことで、画像における特徴情報を抽出し、特徴情報に基づいて画像における人数を決定する。1つの畳み込みカーネルの受容野が一定であるため、1つの畳み込みカーネルを用いて画像全体に対して畳み込み処理を行うと、画像におけるスケールが異なるコンテンツに対して受容野が同じである畳み込み処理を行うことに相当する。画像における異なる人物のスケールが異なるため、画像におけるスケール情報を効果的に抽出できなくなり、更に、決定される人数の誤差を招く。
【0053】
本願において、画像における近位の人物に対応する画像スケールが大きく、画像における遠位の人物に対応する画像スケールが大きい。本願の実施例における「遠」は、画像における人物に対応する真実人物と上記画像を収集するイメージング機器との距離が遠いことを意味し、「近」は、画像における人物に対応する真実人物と上記画像を収集するイメージング機器との距離が近いことを意味する。
【0054】
畳み込みニューラルネットワークにおいて、受容野(receptive field)の定義は、畳み込みニューラルネットワークの各層から出力された特徴マップ(feature map)における画素点が入力ピクチャにマッピングした領域の大きさである。本願において、畳み込みカーネルの受容野は、該畳み込みカーネルを用いて画像に対して畳み込み処理を行う受容野である。
【0055】
本願の実施例により提供される技術的解決手段は、画像におけるスケール情報を抽出し、決定される人数の精度を更に向上させることができる。
【0056】
以下、本願の実施例における図面を参照しながら、本願の実施例を説明する。
【0057】
図1を参照すると、図1は、本願の実施例(1)で提供される画像処理方法を示すフローチャートである。
【0058】
101において、処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得し、上記第1畳み込みカーネルの受容野は、上記第2畳み込みカーネルの受容野と異なる。
【0059】
本願の実施例の実行主体は、サーバ、携帯電話、コンピュータ、タブレットなどの端末ハードウェアであってもよい。本願の実施例により提供される方法は、プロセッサによりコンピュータによる実行可能なコードを実行することで行われてもよい。上記処理されるべき画像は、任意の画像であってもよい。例えば、処理されるべき画像は、人物対象を含んでもよい。ここで、処理されるべき画像は、胴体、四肢(以下、胴体及び四肢を人体と呼ぶ)を含まず、顔のみを含んでもよい。顔を含まず、人体のみを含んでもよい。下肢又は上肢のみを含んでもよい。本願は、処理されるべき画像に具体的に含まれる人体領域を限定しない。また例えば、処理されるべき画像は、動物を含んでもよい。また例えば、処理されるべき画像は、植物を含んでもよい。本願は、処理されるべき画像に含まれるコンテンツを限定しない。
【0060】
下記を説明する前に、まず、本願の実施例における畳み込みカーネルの重みを定義する。本願の実施例において、チャネルが1である畳み込みカーネルは、n*n行列の形態で存在する。該行列に、n*n個の要素が含まれる。各要素は、いずれも値を有する。該行列における要素の値は、畳み込みカーネルの重みである。図2aに示す3*3の畳み込みカーネルにおいて、要素aの値は、44であり、要素bの値は、118であり、要素cの値は、192であり、要素dの値は、32であり、要素eの値は、83であり、要素fの値は、204であり、要素gの値は、61であり、要素hの値は、174であり、要素iの値は、250である。従って、該3*3の畳み込みカーネルの重みは、図2bに示す3*3の行列である。
【0061】
本願の実施例において、第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野が異なる場合、第1畳み込みカーネル及び第2畳み込みカーネルはいずれも、任意の大きさの畳み込みカーネルであってもよく、また、第1畳み込みカーネルの重み及び第2畳み込みカーネルの重みはいずれも、任意の自然数であってもよい。本実施例は、第1畳み込みカーネルの大きさ、第2畳み込みカーネルの大きさ、第1畳み込みカーネルの重み及び第2畳み込みカーネルの重みを限定するものではない。
【0062】
処理されるべき画像の取得方式は、ユーザが入力アセンブルにより入力した処理されるべき画像を受信することであってもよく、端末から送信された処理されるべき画像を受信することであってもよい。第1畳み込みカーネルの取得方式は、ユーザが入力アセンブルにより入力した第1畳み込みカーネルを受信することであってもよく、端末から送信された第1畳み込みカーネルを受信することであってもよい。第2畳み込みカーネルの取得方式は、ユーザが入力アセンブルにより入力した第2畳み込みカーネルを受信することであってもよく、端末から送信された第2畳み込みカーネルを受信することであってもよい。上記入力アセンブリは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。上記端末は、携帯電話、コンピュータ、タブレット、サーバなどを含む。
【0063】
102において、上記第1畳み込みカーネルを用いて、上記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、上記第2畳み込みカーネルを用いて、上記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る。
【0064】
第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野が異なるため、第1畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、第2畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行うことは、異なる受容野で画像を「観察」し、異なるスケールでの画像情報を取得することに相当する。つまり、第1特徴画像及び第2特徴画像はいずれも、処理されるべき画像のコンテンツを記述するための情報を含むが、第1特徴画像に含まれる情報のスケールは、第2特徴画像に含まれる情報のスケールと異なる。
【0065】
103において、上記第1特徴画像と上記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る。
【0066】
本願の実施例において、群衆密度画像は、群衆密度情報を含む。群衆密度画像における各画素点の画素値は、該画素点での人数を表す。例を挙げると、群衆密度画像における画素点Aの画素値が0.05であると、画素点Aで、0.05人がいる。
【0067】
一人で覆われる画像領域は少なくとも1つの画素点を含むため、一人で覆われる画像領域が1つの画素点である時、該画素点に対応する画素値は、1であり、一人で覆われる画像領域が少なくとも2つの画素点である時、該少なくとも2つの画素点の画素値の和は、1であることが理解されるべきである。従って、群衆密度画像における画素値の範囲は、0以上であって1以下である。例を挙げると、人物Aで覆われる画像領域が画素点a、画素点b及び画素点cを含むと、画素点aの画素値+画素点bの画素値+画素点cの画素値=1である。
【0068】
上記第1群衆密度画像は、処理されるべき画像に対応する群衆密度画像であり、処理されるべき画像における群衆密度分布を表すことができる。第1群衆密度画像の寸法は、処理されるべき画像の寸法と同じである。本実施例における画像の寸法は、画像の幅及び高さを指す。第1群衆密度画像における第1画素点の画素値は、処理されるべき画像における第2画素点での人数を表すために用いられる。ここで、第1群衆密度画像における第1画素点の位置は、処理されるべき画像における第2画素点の位置と同じである。
【0069】
本願の実施例において、2枚の画像における同一の位置の画素点は、図3を参照する。図3に示すように、画像Aにおける画素点A11の位置は、画像Bにおける画素点B11の位置と同じであり、画像Aにおける画素点A12の位置は、画像B12における画素点kの位置と同じであり、画像Aにおける画素点A13の位置は、画像Bにおける画素点B13の位置と同じであり、画像Aにおける画素点A21の位置は、画像Bにおける画素点B21の位置と同じであり、画像Aにおける画素点A22の位置は、画像Bにおける画素点B22の位置と同じであり、画像Aにおける画素点A23の位置は、画像Bにおける画素点B23の位置と同じであり、画像Aにおける画素点A31の位置は、画像Bにおける画素点B31の位置と同じであり、画像Aにおける画素点A32の位置は、画像Bにおける画素点B32の位置と同じであり、画像Aにおける画素点A33の位置は、画像Bにおける画素点B33の位置と同じである。
【0070】
画像Xにおける画素点xの位置が画像Yにおける画素点yの位置と同じであると、記述の簡潔化を図るために、以下、画素点xを画像Xにおける、位置が画素点yの位置と同じである画素点と呼び、又は、画素点yを画像Yにおける、位置が画素点xの位置と同じである画素点と呼ぶ。
【0071】
第1特徴画像に含まれる、処理されるべき画像の画像コンテンツを記述する情報のスケールが、第2処理されるべき画像に含まれる、処理されるべき画像の画像コンテンツを記述する情報のスケールと異なるため、第1特徴画像と第2特徴画像に対して融合処理(例えば、対応位置の画素値の重み付け処理など)を行うことで、異なるスケールでの、処理されるべき画像の画像コンテンツを記述する情報を利用して、処理されるべき画像に対応する群衆密度画像である第1群衆密度画像を生成することができる。これにより、得られる、処理されるべき画像に対応する群衆密度画像の精度を向上させ、得られる、処理されるべき画像における人数の精度を更に向上させることができる。
【0072】
本実施例は、受容野が異なる2つの畳み込みカーネル(即ち、第1畳み込みカーネル及び第2畳み込みカーネル)により、処理されるべき画像に対してそれぞれ畳み込み処理を行い、2つのスケールでの、処理されるべき画像の画像コンテンツを記述する情報を得ることを説明する。実際の使用において、受容野が異なる3つ又は3つ以上の畳み込みカーネルにより処理されるべき画像に対してそれぞれ畳み込み処理を行い、3つ又は3つ以上のスケールでの、処理されるべき画像の画像コンテンツを記述する情報を得、該3つ又は3つ以上のスケールでの、処理されるべき画像の画像コンテンツを記述する情報を融合し、処理されるべき画像に対応する群衆密度画像を得ることもできる。
【0073】
任意選択的に、第1群衆密度画像を得た後、第1群衆密度画像における全ての画素点の画素値の和を決定することで、処理されるべき画像における人数を得ることができる。
【0074】
本実施例は、受容野が異なる第1畳み込みカーネルと第2畳み込みカーネルを用いて、処理されるべき画像に対してそれぞれ畳み込み処理を行い、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を抽出し、第1特徴画像及び第2特徴画像をそれぞれ得る。第1特徴画像と第2特徴画像に対して融合処理を行うことで、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を利用して、得られる、処理されるべき画像に対応する群衆密度画像の精度を向上させ、得られる、処理されるべき画像における人数の精度を更に向上させる。
【0075】
画像において、近位の人物で覆われる画像領域の面積は、遠位の人物で覆われる画像領域の面積よりも大きい。例えば、図4における人物Aは、人物Bと比較して近位の人物であり、且つ人物Aで覆われる画像領域の面積は、人物Bで覆われる画像領域の面積よりも大きい。近位の人物で覆われる画像領域のスケールが大きく、遠位の人物で覆われる画像領域のスケールが小さい。従って、人物で覆われる画像領域の面積は、人物で覆われる画像領域のスケールと正に相関する。勿論、畳み込み処理の受容野が人物で覆われる画像領域の面積と同じである場合、畳み込み処理により得られる人物で覆われる画像領域の情報は最も豊かである(以下、人物で覆われる画像領域の最も豊かな情報を取得できる受容野を、人物で覆われる領域の最適受容野と呼ぶ)。つまり、人物で覆われる画像領域のスケールは、人物で覆われる領域の最適受容野と正に相関する。
【0076】
実施例(1)において、受容野が異なる第1畳み込みカーネルと第2畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を得るが、第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野がいずれも一定のものであり、処理されるべき画像における異なる画像領域のスケールが異なる。従って、第1畳み込みカーネル及び第2畳み込みカーネルをそれぞれ用いて、処理されるべき画像に対して畳み込み処理を行う場合、処理されるべき画像における各画像領域の最適受容野を得ることができない。つまり、得られる、処理されるべき画像における異なる画像領域の情報をいずれも最も豊かにすることができない。このため、本願の実施例は、第1特徴画像と第2特徴画像に対して融合処理を行う時、第1特徴画像及び第2特徴画像を重み付けすることで、処理されるべき画像における異なるスケールの画像領域に対して、受容野が異なる畳み込み処理を行い、より豊かな情報を更に得ることを更に提供する。
【0077】
図5を参照すると、図5は、本願の実施例(2)で提供されるもう1つの画像処理方法を示すフローチャートである。
【0078】
501において、上記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、上記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得、上記第1セルフアテンション画像及び上記第2セルフアテンション画像はいずれも、上記処理されるべき画像のスケール情報を表すためのものであり、且つ、上記第1セルフアテンション画像で表されるスケール情報は、上記第2セルフアテンション画像で表されるスケール情報と異なる。
【0079】
本願の実施例において、特徴抽出処理は、畳み込み処理であってもよく、プーリング処理であってもよく、畳み込み処理とプーリング処理の組み合わせであってもよい。本願は、第1特徴抽出処理の実現形態及び第2特徴抽出処理の実現形態を限定しない。
【0080】
実現可能な形態において、多層の畳み込み層により、処理されるべき画像に対して、段階的畳み込み処理を順に行い、処理されるべき画像に対する第1特徴抽出処理を実現させ、第1セルフアテンション画像を得る。同様に、多層の畳み込み層により、処理されるべき画像に対して、段階的畳み込み処理を順に行い、処理されるべき画像に対する第2特徴抽出処理を実現させ、第2セルフアテンション画像を得る。
【0081】
任意選択的に、第1畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、第2畳み込みカーネルを用いて、処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、処理されるべき画像に対して第3特徴抽出処理を行い、処理されるべき画像の特徴情報を抽出し、第5特徴画像を得ることができる。第1畳み込みカーネルを用いて、第5特徴画像に対して畳み込み処理を行い、第1特徴画像を得、第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得る。これにより、処理されるべき画像から、より豊かな特徴情報を抽出することができる。
【0082】
上記第1セルフアテンション画像の寸法及び上記第2セルフアテンション画像の寸法はいずれも、処理されるべき画像の寸法と同じである。上記第1セルフアテンション画像及び上記第2セルフアテンション画像はいずれも、処理されるべき画像のスケール情報(即ち、処理されるべき画像における異なる画像領域のスケール)を表すために用いられ、且つ、第1セルフアテンション画像で表されるスケール情報は、第2セルフアテンション画像で表されるスケール情報と異なる。本願の実施例において、画像(上記第1特徴画像、上記第2特徴画像、上記第1セルフアテンション画像、上記第2セルフアテンション画像、以下に言及される第3セルフアテンション画像などを含む)のスケールは、処理されるべき画像に対して特徴抽出処理(上記第1特徴抽出処理、上記第2特徴抽出処理及び上記第3特徴抽出処理)を行う時に用いられる畳み込みカーネルの受容野に合致する。例えば、大きさが3*3である畳み込みカーネルを用いて画像に対して畳み込み処理を行うことで得られる画像のスケールはaであり、大きさが5*5である畳み込みカーネルを用いて画像に対して畳み込み処理を行うことで得られる画像のスケールはbであると、大きさが3*3である畳み込みカーネルを用いて、処理されるべき画像に対して特徴抽出処理を行うことで得られるセルフアテンション画像のスケールは、aであり(即ち、該セルフアテンション画像は、スケールaでの、処理されるべき画像の情報を表すことができる)、大きさが5*5である畳み込みカーネルを用いて、処理されるべき画像に対して特徴抽出処理を行うことで得られる特徴画像のスケールは、bである。
【0083】
例(例1)を挙げると、第1セルフアテンション画像は、スケールaでの、処理されるべき画像の情報を表し、第2セルフアテンション画像は、スケールbでの、処理されるべき画像の情報を表し、ここで、スケールaは、スケールbよりも大きい。
【0084】
第1セルフアテンション画像における画素点の画素値及び第2セルフアテンション画像における画素点の画素値の範囲はいずれも、0以上であって1以下である。第1セルフアテンション画像(又は、第2セルフアテンション画像)における1つの画素点の画素値が1に近づくほど、処理されるべき画像における、位置が該画素点の位置と同じである画素点の最適スケールは第1セルフアテンション画像(又は、第2セルフアテンション画像)で表されるスケールに近づくことを表す。本願の実施例において、最適スケールは、該画素点の最適受容野に対応するスケールである。
【0085】
例1に続いて例を挙げると、画素点a及び画素点bは、第1セルフアテンション画像における2つの異なる画素点であり、画素点cは、処理されるべき画像における位置が、第1セルフアテンション画像における画素点aの位置と同じである画素点であり、画素点dは、処理されるべき画像における位置が、第1セルフアテンション画像における画素点bの位置と同じである画素点である。画素点aの画素値が0.9であり、画素点bの画素値が0.7であると、画素点cの最適スケールとスケールcとの差異は、画素点dの最適スケールとスケールcとの差異よりも小さい。
【0086】
502において、上記第1セルフアテンション画像に基づいて、上記第1特徴画像の第1重みを決定し、上記第2セルフアテンション画像に基づいて、上記第2特徴画像の第2重みを決定する。
【0087】
任意選択的に、上記第1セルフアテンション画像で表されるスケールは、第1特徴画像のスケールと同じであり、上記第2セルフアテンション画像で表されるスケールは、第2特徴画像のスケールと同じである。従って、第1セルフアテンション画像における画素点の画素値が1に近づくほど、第1特徴画像における位置が、第1セルフアテンション画像における該画素点の位置と同じである画素点の最適スケールは第1特徴画像のスケールに近づくことを表し、第2セルフアテンション画像における画素点の画素値が1に近づくほど、第2特徴画像における位置が、第2セルフアテンション画像における該画素点の位置と同じである画素点の最適スケールは第2特徴画像のスケールに近づくことを表す。
【0088】
従って、第1セルフアテンション画像に基づいて、第1特徴画像の第1重みを決定し、第1特徴画像における画素点のスケールを調整し、第1特徴画像における画素点のスケールを最適スケールに更に近づけることができる。同様に、第2セルフアテンション画像に基づいて、第2特徴画像の第2重みを決定し、第2特徴画像における画素点のスケールを調整し、第2特徴画像における画素点のスケールを最適スケールに更に近づけることができる。
【0089】
実現可能な形態において、第1セルフアテンション画像及び第2セルフアテンション画像に対して正規化処理を行い、第1セルフアテンション画像に対応する第3セルフアテンション画像及び第2セルフアテンション画像に対応する第4セルフアテンション画像を得ることができる。第3セルフアテンション画像を上記第1重みとし、第4セルフアテンション画像を上記第2重みとする
上記実現可能な形態において、第1セルフアテンション画像及び第2セルフアテンション画像に対して正規化処理を行うことで、第1セルフアテンション画像と第2セルフアテンション画像における同一の位置の画素点の画素値の和を1にすることができる。例を挙げると、第1セルフアテンション画像における画素点aの位置は、第2セルフアテンション画像における画素点bの位置と同じであると、第1セルフアテンション画像及び第2セルフアテンション画像に対して正規化処理を行った後、画素点aと画素点bの画素値の和は、1である。例えば、第3セルフアテンション画像における画素点cの位置は、第1セルフアテンション画像における画素点aの位置と同じであり、第4セルフアテンション画像における画素点dの位置は、第2セルフアテンション画像における画素点bの位置と同じであると、画素値cの画素値と画素点dの画素値の和は1である。
【0090】
任意選択的に、上記正規化処理は、第1セルフアテンション画像及び第2セルフアテンション画像をそれぞれsoftmax関数に入力することで実現してもよい。第1セルフアテンション画像及び第2セルフアテンション画像がいずれも複数のチャネルの画像を含むと、第1セルフアテンション画像と第2セルフアテンション画像における同じチャネルの画像をそれぞれsoftmax関数に入力することが理解されるべきである。例えば、第1セルフアテンション画像及び第2セルフアテンション画像がいずれも2つのチャネルの画像を含むと、第1セルフアテンション画像及び第2セルフアテンション画像に対して正規化処理を行う場合、第1セルフアテンション画像における1つ目のチャネルの画像及び第2セルフアテンション画像における1つ目のチャネルの画像をsoftmax関数に入力し、第3セルフアテンション画像における1つ目のチャネルの画像及び第4セルフアテンション画像における1つ目のチャネルの画像を得ることができる。
【0091】
503において、上記第1重み及び上記第2重みに基づいて、上記第1特徴画像と上記第2特徴画像に対して融合処理を行い、上記第1群衆密度画像を得る。
【0092】
第1特徴画像を得るための畳み込み処理の受容野は第2特徴画像を得るための畳み込み処理の受容野と異なるため、第3セルフアテンション画像を第1特徴画像の第1重みとし、第4セルフアテンション画像を第2特徴画像の第2重みとし、第1特徴画像と第2特徴画像に対して融合処理を行うことで、処理されるべき画像における異なる画像領域に対して、最適受容野での畳み込み処理を行うことができる。これにより、処理されるべき画像における異なる画像領域の情報を十分n抽出し、得られる、処理されるべき画像に対応する群衆密度画像の精度をより高くすることができる。
【0093】
第1重み及び第2重みに基づいて、第1特徴画像と第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るための実現形態において、第1重みと第1特徴画像とのドット積を算出し、第3特徴画像を得、第2重みと第2特徴画像とのドット積を算出し、第4特徴画像を得る。第3特徴画像と第4特徴画像に対して融合処理(例えば、同一位置の画素値の加算)を行うことで、第1群衆密度画像を得ることができる。
【0094】
本実施例において、処理されるべき画像に対してそれぞれ第1特徴抽出処理及び第2特徴抽出処理を行い、異なるスケールでの、処理されるべき画像の情報を抽出することで、第1セルフアテンション画像及び第2セルフアテンション画像を得る。第1セルフアテンション画像に基づいて第1特徴画像の第1重みを決定し、第2セルフアテンション画像に基づいて第2特徴画像の第2重みを決定し、第1重み及び第2重みに基づいて、第1特徴画像と第2特徴画像に対して融合処理を行うことで、得られる第1群衆密度画像の精度を向上させることができる。
【0095】
実施例(1)及び実施例(2)における第1畳み込みカーネルの重みと第2畳み込みカーネルの重みが異なる場合、第1畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで抽出される特徴情報のキーポイントは、第2畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで抽出される特徴情報のキーポイントと異なる。例えば、第1畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行う場合のキーポイントは、処理されるべき画像における人物の属性特徴(例えば、衣類の色、ズボンの長さ)の抽出であり、第2畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行う場合のキーポイントは、処理されるべき画像における人物の輪郭特徴(該輪郭特徴は、処理されるべき画像に人物が含まれるかどうかを認識するために用いられる)の抽出である。第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野が異なることを更に考慮して、後続で、抽出された第1特徴画像と第2特徴画像に対して融合処理を行う場合、異なるスケールでの異なる特徴情報を融合する(例えば、スケールaでの属性特徴とスケールbでの輪郭特徴を融合する)必要がある。これにより、スケール情報の融合が難しくなる。
【0096】
このため、本願の実施例は、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みを同じくすることで、第1特徴画像と第2特徴画像に対して融合処理を行う場合の非スケール情報の融合を減少させ、スケール情報融合効果を向上させ、得られる第1群衆密度画像の精度を更に向上させるという技術的解決手段を更に提供する。
【0097】
第1畳み込みカーネル及び第2畳み込みカーネルが一般的な畳み込みカーネルであると、第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野が異なる場合、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みは同一であってはならない。従って、以下説明される技術的解決手段において、第1畳み込みカーネル及び第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ、第1畳み込みカーネルの大きさと第2畳み込みカーネルの大きさは同じであり、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みは同じであり、第1畳み込みカーネルの拡張率と第2畳み込みカーネルの拡張率は異なる。
【0098】
例を挙げると、図6a、図6bに示す2つの拡張畳み込みカーネルを参照する。上記2つの拡張畳み込みカーネルの大きさはいずれも3*3である。ここで、図6aに示す拡張畳み込みカーネル及び図6bに示す拡張畳み込みカーネルにおける黒色領域は、パラメータありを表し、黒色部分は、パラメータ無しを表す(つまり、パラメータが0である)。任意選択的に、図6aに示す拡張畳み込みカーネルの重みと図6bに示す拡張畳み込みカーネルの重みを同じくすることができる。なお、図面から分かるように、図6aに示す拡張畳み込みカーネルの拡張率が2であり、図6bに示す拡張畳み込みカーネルの拡張率が1であるため、図6aに示す拡張畳み込みカーネルの受容野は、図6bに示す拡張畳み込みカーネルの受容野と異なり、具体的には、図6aに示す拡張畳み込みカーネルの受容野(5*5)は、図6bに示す拡張畳み込みカーネルの受容野(3*3)よりも大きい。
【0099】
第1畳み込みカーネル及び第2畳み込みカーネルがいずれも拡張畳み込みカーネルである場合、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みを同じくすることができ、且つ第1畳み込みカーネルの受容野と第2畳み込みカーネルの受容野を異なるようにすることができる。このように、第1畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで得られた第1特徴画像に含まれる情報と第2畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで得られた第2特徴画像に含まれる情報は、スケールのみで相違している。第1特徴画像と第2特徴画像に対して融合処理を行う場合、異なるスケールでの処理されるべき画像の情報をより好適に利用して、得られる第1群衆密度画像の精度を向上させることができる。
【0100】
任意選択的に、第1畳み込みカーネルと第2畳み込みカーネルに同一組の重みを共有させることで、第1畳み込みカーネルの重みと第2畳み込みカーネルの重みを同じくすることができる。これにより、後続で、第1畳み込みカーネル及び第2畳み込みカーネルをそれぞれ用いて、処理されるべき画像に対して畳み込み処理を行う場合、処理を必要とするパラメータの数を減少させることができる。
【0101】
拡張畳み込みカーネルの大きさが一定である場合、拡張畳み込みカーネルの受容野は、拡張畳み込みカーネルの拡張率と正に相関する。拡張畳み込みカーネルの拡張率が1である場合、拡張畳み込みカーネルの受容野は、同じ大きさの一般的な畳み込みカーネルの受容野と同じである。例えば、図6bに示す拡張畳み込みカーネルの拡張率が1である。この場合、該拡張畳み込みカーネルの受容野は、大きさが3*3である一般的な畳み込みカーネルの受容野と同じである。
【0102】
処理されるべき画像に最適スケールが小さい画像領域が存在することを考慮して、より豊かな情報を抽出するために、これらのスケールが小さい画像領域に対して受容野が小さい畳み込み処理を行う必要がある。このため、本願の実施例は、拡張畳み込みカーネルの拡張率を0(即ち、基準値)とすることで、拡張畳み込みカーネルの受容野を一般的な畳み込みカーネルの受容野よりも小さくし、処理されるべき画像におけるスケールが小さい画像領域の情報をより好適に抽出することを更に提供する。
【0103】
以下、拡張率が0である拡張畳み込みカーネルが如何に実現するかを理論的に導き出す。
【0104】
大きさが3*3であり、拡張率がdである拡張畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うとすると、該畳み込み処理プロセスは、下記式を満たす。
【0105】
【化1】
【0106】
ここで、x及びyはそれぞれ、拡張畳み込みカーネルが処理されるべき画像における1つの画素点までにスライドする時の拡張畳み込みカーネルの中心画素点の位置である。
【0107】
【化2】
【0108】
は、処理されるべき画像での、処理されるべき画像におけるサンプリング点の座標である。
【0109】
【化3】
【0110】
は、拡張畳み込みカーネルの重みであり、bは、拡張畳み込みカーネルの偏差である。
【0111】
【化4】
【0112】
は、処理されるべき画像であり、
【0113】
【化5】
【0114】
は、拡張畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことで得られる特徴画像である。
【0115】
d=0である時、式(1)を下記式に変換することができる。
【0116】
【化6】
【0117】
ここで、
【0118】
【化7】
【0119】
は、大きさが1*1である一般的な畳み込みカーネルの重みを表し、
【0120】
【化8】
【0121】
は、大きさが1*1である一般的な畳み込みカーネルの偏差を表す。式(2)から分かるように、大きさが3*3であり、拡張率が0である1つの拡張畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行うことは、大きさが1*1である9つの一般的な畳み込みカーネルを用いて処理されるべき画像に対してそれぞれ畳み込み処理を行うことと等価である。従って、拡張率が0である拡張畳み込みカーネルの代わりに、9つの1*1の一般的な畳み込みカーネルを用いることができる。つまり、拡張率が0である拡張畳み込みカーネルにおける全ての重みは、いずれも拡張畳み込みカーネルにおける同一の位置にある。図7に、大きさが3*3であり、拡張率が0である拡張畳み込みカーネルを示す。図6に示す拡張畳み込みカーネルにおける黒色領域は、重みが存在する位置である。図6に示す拡張畳み込みカーネルから分かるように、拡張率が0である拡張畳み込みカーネルの受容野は1である。
【0122】
本願の実施例において、第1畳み込みカーネルが拡張畳み込みカーネルである場合、第1畳み込みカーネル拡張率を0とすることで、第1畳み込みカーネルを用いて処理されるべき画像に対して畳み込み処理を行う時、処理されるべき画像に対して、受容野が1である畳み込み処理を行うことを実現させ、処理されるべき画像におけるスケールが小さい画像領域の情報をより好適に抽出することができる。
【0123】
本願の実施例は、上記で言及された技術的解決手段を実現させるための群衆計数ネットワークを更に提供する。図8を参照すると、図8は、本願の実施例による群衆計数ネットワークの構造を示す概略図である。図8に示すように、群衆計数ネットワークにおけるネットワーク層は、順に直列接続され、計11層の畳み込み層、9層のプーリング層及び6層のスケール感知型畳み込み層を含む。
【0124】
処理されるべき画像を群衆計数ネットワークに入力し、第1層の畳み込み層により、処理されるべき画像を処理することで、第1層の畳み込み層から出力された画像を得、第1層の畳み込み層から出力された画像を第2層の畳み込み層により処理することで、第2層の畳み込み層から出力された画像を得、第2層の畳み込み層から出力された画像を第1層のプーリング層により処理することで、第1層のプーリング層から出力された画像を得、…、第10層の畳み込み層から出力された画像を第1層のスケール感知型畳み込み層により処理することで、第1層のスケール感知型畳み込み層から出力された画像を得、…、第9層のプーリング層から出力された画像を第11層の畳み込み層により処理することで、第1群衆密度画像を得る。
【0125】
任意選択的に、群衆計数ネットワークにおける、上記第11層の畳み込み層以外のすべての畳み込み層における畳み込みカーネルの大きさはいずれも3*3であってもよく、第11層の畳み込み層における畳み込みカーネルの大きさは、1*1である。第1層の畳み込み層における畳み込みカーネルの数及び第2層の畳み込み層における畳み込みカーネルの数はいずれも64であってもよく、第3層の畳み込み層における畳み込みカーネルの数及び第4層の畳み込み層における畳み込みカーネルの数はいずれも128であってもよく、第5層の畳み込み層における畳み込みカーネルの数、第6層の畳み込み層における畳み込みカーネルの数及び第7層の畳み込み層における畳み込みカーネルの数はいずれも256であってもよく、第8層の畳み込み層における畳み込みカーネルの数、第9層の畳み込み層における畳み込みカーネルの数及び第10層の畳み込み層における畳み込みカーネルの数はいずれも512であってもよく、第11層の畳み込み層における畳み込みカーネルの数は1である。
【0126】
群衆計数ネットワークにおけるプーリング層は最大プーリング層であってもよく、平均プーリング層であってもよく、本願は、これを限定しない。
【0127】
スケール感知型畳み込み層の構造の概略図は、図9を参照する。図9に示すように、スケール感知型畳み込み層は、3つの拡張畳み込みカーネル、1つのセルフアテンションモジュールを含む。上記3つの拡張畳み込みカーネルの構造は、図6a、図6b及び図7を参照する。ここで、詳細な説明を省略する。上記セルフアテンションモジュールは、3つの並列接続される畳み込み層を含む。
【0128】
スケール感知型畳み込み層の入力画像を受容野が異なる3つの拡張畳み込みカーネルによりそれぞれ処理し、第6特徴画像、第7特徴画像及び第8特徴画像をそれぞれ得る。
【0129】
スケール感知型畳み込み層の入力画像をセルフアテンションモジュールにおける3つの畳み込み層によりそれぞれ畳み込み処理し、第5セルフアテンション画像、第6セルフアテンション画像及び第7セルフアテンション画像をそれぞれ得る。
【0130】
第6特徴画像のスケールは第5セルフアテンション画像のスケールと同じであり、第7特徴画像のスケールは第6セルフアテンション画像のスケールと同じであり、第8特徴画像のスケールは第7セルフアテンション画像のスケールと同じである。第5セルフアテンション画像を第6特徴画像の重みとし、第6セルフアテンション画像を第7特徴画像の重みとし、第7セルフアテンション画像を第8特徴画像の重みとすることで、第6特徴画像、第7特徴画像及び第8特徴画像に対して融合処理を行い、スケール感知型畳み込み層の出力画像を得る。つまり、第5セルフアテンション画像と第6特徴画像とのドット積を算出することで、第9特徴画像を得、第6セルフアテンション画像と第7特徴画像とのドット積を算出することで、第10特徴画像を得、第7セルフアテンション画像と第8特徴画像とのドット積を算出することで、第11特徴画像を得る。第9特徴画像、第10特徴画像及び第11特徴画像に対して融合処理を行い、スケール感知型畳み込み層の出力画像を得る。任意選択的に、上記融合処理は、融合処理される2枚の画像における同一の位置の画素点の画素値を加算することであってもよい。
【0131】
図8に示す群衆計数ネットワークにおけるネットワーク層の具体的な数は一例だけであり、本願を限定するものではないことは、理解されるべきである。
【0132】
図8に示す群衆計数ネットワークを用いて、処理されるべき画像に対して群衆計数タスクを実行する前に、群衆計数ネットワークを訓練する必要がある。このため、本願は、群衆計数ネットワークの訓練方法を更に提供する。該訓練方法は、下記ステップを含んでもよい。サンプル画像を取得する。群衆計数ネットワークを用いてサンプル画像を処理し、第2群衆密度画像を得る。サンプル画像と第2群衆密度画像との差異に基づいて、ネットワーク損失を得る。ネットワーク損失に基づいて、群衆計数ネットワークのパラメータを調整する。
【0133】
上記サンプル画像は、任意のデジタル画像であってもよい。例えば、サンプル画像は、人物対象を含んでもよい。ここで、サンプル画像は、胴体、四肢(以下、胴体及び四肢を人体と呼ぶ)を含まず、顔のみを含んでもよい。顔を含まず、人体のみを含んでもよい。下肢又は上肢のみを含んでもよい。本願は、サンプル画像に具体的に含まれる人体領域を限定しない。また例えば、サンプル画像は、動物を含んでもよい。また例えば、サンプル画像は、植物を含んでもよい。本願は、サンプル画像に含まれるコンテンツを限定しない。
【0134】
群衆計数ネットワークによりサンプル画像を処理することで、サンプル画像に対応する第2群衆密度画像を得た後、サンプル画像と第2群衆密度画像との差異に基づいて、群衆計数ネットワークのネットワーク損失を決定することができる。上記差異は、サンプル画像と第2群衆密度画像における同一の位置の画素点の画素値間の差異であってもよい。本願の実施例において、サンプル画素点における画素点の画素値は、画素点で人物が存在するかどうかを表すために用いられる。例えば、サンプル画像において、人物Aで覆われる画像領域は、画素点a、画素点b、画素点cを含むと、画素点aの画素値、画素点bの画素値及び画素点cの画素値はいずれも1である。サンプル画像における画素点dは、人物で覆われる画像領域に属しないと、画素点の画素値は、0である。
【0135】
群衆計数ネットワークのネットワーク損失を決定した後、該ネットワーク損失に基づいて、逆勾配伝搬の方式で群衆計数ネットワークのパラメータを調整し、群衆計数ネットワークが収束して群衆計数ネットワークの訓練を完了するまで継続することができる。
【0136】
サンプル画像における画素点の画素値が0又は1であり、第2群衆密度画像における画素点の画素値が0以上であって1以下であるため、サンプル画像と第2群衆密度画像との差異に基づいて、群衆計数ネットワークのネットワーク損失を決定する場合、大きな差異が発生する。
【0137】
実際群集密度画像における画素点の画素値の範囲も0以上であって1以下であるため、任意選択的に、サンプル画像の実際群集密度画像を教師情報とし、実際群集密度画像と第2群衆密度画像との差異に基づいて、群衆計数ネットワークのネットワーク損失を決定することで、得られるネットワーク損失の精度を向上させることができる。
【0138】
実現可能な形態において、バンプ関数、ガウスカーネル及びサンプル画像に基づいて、上記サンプル画像の実際群集密度画像を得ることができる。
【0139】
該実現可能な形態において、バンプ関数に基づいてサンプル画像の人物タグ画像を得ることができる。該人物タグ画像における画素点の画素値は、画素点が人物で覆われる画像領域に属するかどうかを表すために用いられる。上記人物タグ画像は、下記式を満たす。
【0140】
【化9】
【0141】
Nは、サンプル画像における総人数である。
【0142】
【化10】
【0143】
は、サンプル画像における、人物で覆われる画像領域の中心の位置であり、該人物を表すためのものである。
【0144】
【化11】
【0145】
は、サンプル画像における、サンプル画像中の人物で覆われる画像領域の中心の位置のバンプ関数である。サンプル画像における箇所xに人物が存在すると、
【0146】
【化12】
【0147】
は、1に等しく、サンプル画像における箇所xに人物が存在しないと、
【0148】
【化13】
【0149】
は、0に等しい。
【0150】
ガウスカーネルを用いて上記人物タグ画像に対して畳み込み処理を行うことで、サンプル画像の実際群集密度画像を得ることができる。該プロセスは、下記式を満たす。
【0151】
【化14】
【0152】
【化15】
【0153】
上記
【0154】
【化16】
【0155】
は、ガウスカーネルであり、
【0156】
【化17】
【0157】
は、該ガウスカーネルの標準偏差である。
【0158】
【化18】
【0159】
は、正数である。
【0160】
【化19】
【0161】
は、人物
【0162】
【化20】
【0163】
に最も近いm個の人物と
【0164】
【化21】
【0165】
との距離の平均値である。
【0166】
【化22】
【0167】
が大きいほど、
【0168】
【化23】
【0169】
に対応する人物で覆われる画像領域の群衆密度が大きくなることが明らかである。サンプル画像における遠位の人物の
【0170】
【化24】
【0171】
は、近位の人物の
【0172】
【化25】
【0173】
よりも小さいため、ガウスカーネルの標準偏差に
【0174】
【化26】
【0175】
を満たさせることで、ガウスカーネルの標準偏差を人物で覆われる画像領域のスケールと正に相関させることができる。つまり、サンプル画像における異なる画像領域に対応するガウスカーネルの標準偏差は異なる。このように、ガウスカーネルを用いてサンプル画像に対して畳み込み処理を行うことで得られる実際群集密度画像の精度はより高くなる。
【0176】
例を挙げると、式(3)における
【0177】
【化27】
【0178】
は、サンプル画像における、サンプル画像中の人物の頭部で覆われる画像領域の中心(以下、人頭領域の中心と呼ばれる)の位置であり、
【0179】
【化28】
【0180】
は、サンプル画像における人頭領域の中心の位置のバンプ関数である。サンプル画像における箇所xで人頭が存在すれば、
【0181】
【化29】
【0182】
は、1に等しく、サンプル画像における箇所xで人頭が存在しなければ、
【0183】
【化30】
【0184】
は0に等しい。式(4)に基づいて、ガウスカーネルを用いて上記人物タグ画像に対して畳み込み処理を行い、サンプル画像の実際群集密度画像を得る。人物タグ画像における
【0185】
【化31】
【0186】
番目の人頭に対して畳み込み処理を行う時に用いられるガウスカーネルの標準偏差は、
【0187】
【化32】
【0188】
を満たす。ここで、
【0189】
【化33】
【0190】
は、人物タグ画像におけるi番目の人頭の中心とm個のターゲット人頭の中心(ここのターゲット人頭は、人物タグ画像における、i番目の人頭に最も近い人頭である)との平均距離である。一般的には、頭部の大きさは、混雑したシーンにおける隣接する二人の中心の間の距離に関わる。
【0191】
【化34】
【0192】
は、群衆が密集した場合、人頭の大きさにほぼ等しい。人物タグ画像における「近」位の人頭で覆われる画像領域の面積は、「遠」位の人頭で覆われる画像領域の面積よりも大きい。つまり、人物タグ画像における「近」位の2つの人頭の中心の間の距離は、「遠」位の2つの人頭の中心の間の距離よりも大きい。ガウスカーネルの標準偏差に
【0193】
【化35】
【0194】
を満たさせることで、ガウスカーネルの標準偏差を人物の頭部で覆われる画像領域のスケールと正に相関させるという効果を達成することができる。
【0195】
サンプル画像の実際群集密度画像を得た後、実際群集密度画像と第2群衆密度画像における同一の位置の画素点の画素値の間の差異に基づいて、群衆計数ネットワークのネットワーク損失を決定することができる。例えば、実際群集密度画像と第2群衆密度画像における全ての同一の位置の画素点の画素値の間の差異の和を群衆計数ネットワークのネットワーク損失とする。
【0196】
任意選択的に、サンプル画像を群衆計数ネットワークに入力する前に、サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得、上記少なくとも1枚の前処理された画像を訓練データとして群衆計数ネットワークに入力することができる。これにより、群衆計数ネットワークの訓練データ集合を拡張するという効果を達成することができる。
【0197】
上記前処理は、サンプル画像から、所定の寸法の画像を切り出すことと、サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含む。ここで、所定の寸法は、64*64であってもよい。サンプル画像に対する反転処理は、水平鏡像反転処理を含む。
【0198】
例えば、それぞれサンプル画像の水平中軸線及び垂直中軸線に沿ってサンプル画像を分割し、4枚の前処理された画像を得ることができる。それと同時に、サンプル画像から、5枚の所定の寸法の画像をランダムに切り出し、5枚の前処理された画像を得ることができる。これにより、9枚の前処理された画像を得る。該9枚の前処理された画像に対して水平鏡像反転処理を行い、9枚の反転した画像を得ることができる。つまり、別の9枚の前処理された画像を得る。これにより、18枚の前処理された画像を得ることができる。
【0199】
少なくとも1枚の前処理された画像を群衆計数ネットワークに入力することで、少なくとも1枚の第3群衆密度画像を得ることができる。ここで、各枚の前処理された画像はいずれも1枚の第3群衆密度画像に対応する。例えば(例2)、画像A、画像B、画像Cという3枚の前処理された画像をそれぞれ群衆計数ネットワークに入力し、画像Aに対応する群衆密度画像a、画像Bに対応する群衆密度画像b、画像Cに対応する群衆密度画像cをそれぞれ得る。ここで、群衆密度画像a、群衆密度画像b、群衆密度画像cはいずれも第3群衆密度画像と呼ばれてもよい。
【0200】
少なくとも1枚の前処理された画像のうちのターゲット画像とターゲット画像に対応する第3群衆密度画像との差異に基づいて、群衆計数ネットワークのネットワーク損失を得ることができる。例2に続いて例を挙げると、画像Aと画像aとの差異に基づいて、第1差異を得ることができ、画像Bと画像bとの差異に基づいて、第2差異を得ることができ、画像Cと画像cとの差異に基づいて、第3差異を得ることができる。第1差異、第2差異及び第3差異を加算することで、群衆計数ネットワークのネットワーク損失を得ることができる。
【0201】
本実施例は、群衆計数ネットワークを提供する。該群衆計数ネットワークを用いて処理されるべき画像を処理することで、処理されるべき画像に対応する群衆密度画像を得、処理されるべき画像における人数を更に決定することができる。
【0202】
本願の実施例により提供される技術的解決手段によれば、本願の実施例は、幾つかの実現可能な適用シーンを更に提供する。
【0203】
シーンAにおいて、上述したように、公衆場所において、交通流が大きすぎて、群衆が密集し過ぎることを招き、更に、公共事故が発生する。公衆場所において群衆計数を如何に行うかは、特に大きな意義を持つ。
【0204】
現在、仕事、生活及び社会的環境における安全性を向上させるために、各公衆場所に監視カメラ設備を取り付ける。これによりビデオストリーム情報に基づいて、安全保護を行う。本願の実施例により提供される技術的解決手段を利用して、監視カメラ設備により収集されたビデオストリームを処理することで、公衆場所の人数を決定し、公共事故の発生を更に効果的に予防することができる。
【0205】
例を挙げると、監視カメラ設備のビデオストリーム処理センターのサーバは、本願の実施例により提供される技術的解決手段を実行することができる。該サーバは、少なくとも1つの監視カメラに接続されてもよい。サーバは、監視カメラからのビデオストリームを取得した後、本願の実施例により提供される技術的解決手段を用いて、ビデオストリームにおける各フレームの画像を処理し、ビデオストリームにおける各フレームの画像の人数を決定することができる。画像における人数が人数閾値以上である場合、サーバは、関連機器に命令を送信し、リマインド又はアラートを行うことができる。例えば、サーバは、該画像を収集するカメラに命令を送信することができる。該命令は、アラートを行うことを、該画像を収集するカメラに指示するために用いられる。また例えば、サーバは、該画像を収集するカメラが位置する領域の制御者の端末に命令を送信することができる。該命令は、該端末を、人数が人数閾値を超えるリマインド情報を出力するようにリマインドするために用いられる。
【0206】
シーンBにおいて、デパートにおける異なる領域の交通流が異なる。推薦商品を交通流が大きい領域に放置して展示することで、推薦商品の販売量を効果的に向上させることができる。従って、デパートにおける異なる領域の交通流を如何に正確に決定するかは、販売者にとって特に大きな意義を持つ。例えば、デパートに領域A、領域B及び領域Cがある。ここで、領域Bの交通流が最も大きい。これに基づいて、販売者は、推薦商品を領域Bに放置して展示することで、推薦商品の販売量を向上させることができる。
【0207】
デパートの監視カメラのビデオストリーム制御センターのサーバは、本願の実施例により提供される技術的解決手段を実行することができる。該サーバは、少なくとも1つの監視カメラに接続されてもよい。サーバは、監視カメラからのビデオストリームを取得した後、本願の実施例により提供される技術的解決手段を用いて、ビデオストリームにおける各フレームの画像を処理し、ビデオストリームにおける各フレームの画像の人数を決定することができる。各フレームの画像における人数に基づいて、異なるカメラにより監視される領域の、ある時間帯にわたる交通流を決定し、更に、デパートにおける異なる領域の交通流を決定することができる。例えば、デパートに領域A、領域B、領域C、カメラA、カメラB及びカメラCがある。ここで、カメラAは、領域Aを監視し、カメラBは、領域Bを監視し、カメラCは、領域Cを監視する。サーバは、本願の実施例により提供される技術的解決手段を用いて、カメラAにより収集されたビデオストリームにおける画像を処理し、領域Aにおいて過去の一週間にわたる一日あたりの平均交通流が900であり、領域Bにおいて過去の一週間にわたる一日あたりの平均交通流が200であり、領域Bにおいて過去の一週間にわたる一日あたりの平均交通流が200であり、領域Cにおいて過去の一週間にわたる一日あたりの平均交通流が600であると決定する。当然ながら、領域Aの交通流が最も大きいため、販売者は、推薦商品を領域Aに放置して展示し、推薦商品の販売量を向上させることができる。
【0208】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
【0209】
上述において、本願の実施例の方法を詳しく説明したが、以下、本願の実施例の装置を提供する。
【0210】
図10を参照すると、図10は、本願の実施例による画像処理装置の構造を示す概略図である。該装置1は、取得ユニット11と、畳み込み処理ユニット12と、融合処理ユニット13と、特徴抽出ユニット14と、第1決定ユニット15と、第2決定ユニット16と、訓練ユニット17と、を備える。ここで、
取得ユニット11は、処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得するように構成され、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なり、
畳み込み処理ユニット12は、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得るように構成され、
融合処理ユニット13は、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るように構成される。
【0211】
実現可能な形態において、前記装置1は、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得るように構成される特徴抽出処理ユニット14であって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、特徴抽出処理ユニット14と、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定するように構成される第1決定ユニット15と、を更に備え、
前記融合処理ユニット13は、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成される。
【0212】
もう1つの実現可能な形態において、前記融合処理ユニット13は具体的には、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成される。
【0213】
また1つの実現可能な形態において、前記第1決定ユニット15は、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとするように構成される。
【0214】
また1つの実現可能な形態において、前記特徴抽出処理ユニット14は更に、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得るように構成され、
前記畳み込み処理ユニット12は、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得るように構成され、
前記特徴抽出処理ユニット14は更に、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得るように構成される。
【0215】
また1つの実現可能な形態において、前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なる。
【0216】
また1つの実現可能な形態において、前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値である。
【0217】
また1つの実現可能な形態において、前記装置1は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得るように構成される第2決定ユニット16を更に備える。
【0218】
また1つの実現可能な形態において、前記装置1により実行される画像処理方法は、群衆計数ネットワークに適用され、
前記装置1は、前記群衆計数ネットワークを訓練するように構成される訓練ユニット17を更に備え、前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含む。
【0219】
また1つの実現可能な形態において、前記訓練ユニット17は更に、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、バンプ関数、ガウスカーネル及び前記サンプル画像に基づいて、前記サンプル画像の実際群集密度画像を得、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成される。
【0220】
また1つの実現可能な形態において、前記訓練ユニット17は更に、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得、前記前処理された画像は、前記第3群衆密度画像に一対一に対応し、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成される。
【0221】
また1つの実現可能な形態において、前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含む。
【0222】
本実施例は、受容野が異なる第1畳み込みカーネルと第2畳み込みカーネルを用いて、処理されるべき画像に対してそれぞれ畳み込み処理を行い、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を抽出し、第1特徴画像及び第2特徴画像をそれぞれ得る。第1特徴画像と第2特徴画像に対して融合処理を行うことで、異なるスケールでの、処理されるべき画像のコンテンツを記述する情報を利用して、得られる、処理されるべき画像に対応する群衆密度画像の精度を更に向上させ、得られる、処理されるべき画像における人数の精度を更に向上させる。
【0223】
幾つかの実施例において、本願の実施例により提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、その具体的な実現形態は上記方法の実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0224】
図11は、本願の実施例による画像処理装置のハードウェア構造を示す概略図である。該画像処理装置2は、プロセッサ21と、メモリ22と、を備え、入力装置23と、出力装置24と、を更に備えてもよい。該プロセッサ21、メモリ22、入力装置23及び出力装置24は、コネクタを介して相互結合される。該コネクタは、種々のインタフェース、伝送線又はバスなどを含み、本願の実施例は、これを限定するものではない。本願の各実施例において、結合は、特定の方式で互いに繋げることであり、直接的な接続又は他の機器を介した間接的な接続を含む。例えば、種々のインタフェース、伝送線、バスなどを介して接続されてもよい。
【0225】
プロセッサ21は、1つ又は複数のグラフィックスプロセッサ(graphics processing unit:GPU)であってもよい。プロセッサ21が1つのGPUである場合、該GPUは、シングルコアGPUであってもよく、マルチコアGPUであってもよい。任意選択的に、プロセッサ21は、複数のGPUからなるプロセッサ群であってもよい。複数のプロセッサは、1つ又は複数のバスを介して互いに結合される。任意選択的に、該プロセッサは、他のタイプのプロセッサなどであってもよく、本願の実施例は、これを限定しない。
【0226】
メモリ22は、コンピュータプログラム命令を記憶し、本願の技術的解決手段のプログラムコードを含む種々のコンピュータプログラムコードを実行するように構成される。任意選択的に、メモリは、ランダムアクセスメモリ(random access memory:RAM)、読み出し専用メモリ(read-only memory:ROM)、消去可能なプログラマブル読み出し専用メモリ(erasable programmable read only memory:EPROM)、又はコンパクトディスク読み出し専用メモリ(compact disc read-only memory:CD-ROM)を含むが、これらに限定されない。該メモリは、関連命令及びデータを記憶するように構成される。
【0227】
入力装置23は、データ及び信号を入力するように構成され、出力装置24は、データ及び信号を出力するように構成される。入力装置23及び出力装置24は、独立したデバイスであってもよく、一体型デバイスであってもよい。
【0228】
本願の実施例において、メモリ22は、関連命令を記憶するように構成されてもよく、関連画像を記憶するように構成されてもよい。例えば、該メモリ22は、入力装置23により取得された処理されるべき画像を記憶するように構成される。又は、該メモリ22は更に、プロセッサ21により得られた第1群衆密度画像などを記憶するように構成される。本願の実施例は、該メモリに具体的に記憶されるデータを限定しない。
【0229】
図11に画像処理装置の簡略化した設計のみが示されることは理解されるべきである。実際の適用において、画像処理装置は、必要な他の素子を更に備えてもよく、任意の数の入力/出力装置、プロセッサ、メモリなどを含むが、これらに限定されない。本願の実施例を実現できる画像処理装置は全て本願の保護範囲内に含まれる。
【0230】
本願の実施例は、プロセッサを更に提供する。該プロセッサのフラッシュメモリに、コンピュータプログラムが記憶されてもよい。該コンピュータプログラムは、該プロセッサにより実行されるときに、該プロセッサは、実施例(1)及び実施例(2)で提供される技術的解決手段を実行することができ、又は、訓練された群衆計数ネットワークによる処理されるべき画像の処理を実現させることができる。
【0231】
本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本願は、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。これらの機能がハードウェアによって実行されるかそれともソフトウェアによって実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、各特定の適用について、説明された機能を様々な方法で実現させることができるが、このような実現は、本願の範囲を超えるとは認められない。
【0232】
便利で簡潔に説明するために、上記説明されたシステムと、装置とユニットとの具体的な作動過程は、前記方法の実施例における過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本願の各々の実施例に対する説明はそれぞれ偏りがあって、便利で簡潔に説明するために、同様又は類似した部分は異なる実施例において重複して説明されていないことがあるため、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることは、当業者にもはっきり理解されるべきである。
【0233】
本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0234】
分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0235】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。
【0236】
上記実施例において、全て又は一部は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより実現してもよい。ソフトウェアにより実現する場合、全て又は一部をコンピュータプログラム製品の形式で実現してもよい。前記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する時、本願の実施例に記載の手順又は機能が全部又は部分的に生成される。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は、前記コンピュータ可読記憶媒体により伝送されてもよい。前記コンピュータ命令を、1つのウェブサイト、コンピュータ、サーバ又はデータセンタから、有線(例えば、同軸ケーブル、光ファイバー、デジタル加入者回線(digital subscriber line:DSL))又は無線(例えば、赤外、無線、マイクロウェーブ等)の方式で、もう1つのウェブサイト、コンピュータ、サーバ又はデータセンタに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよく、又は、1つ又は複数の利用可能な媒体で集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体(例えば、フレキシブルディスク、ハードディスク、磁気ディスク)、光媒体(例えば、デジタルバーサタイルディスク(digital versatile disc:DVD))、又は半導体媒体(例えば、ソリッドステートドライブ(solid state disk:SSD))等であってもよい。
【0237】
上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行されるときに、上記各方法の実施例のプロセスを含んでもよい。前記記憶媒体は、読み出し専用メモリ(read-only memory:ROM)又はランダムアクセスメモリ(random access memory:RAM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
図1
図2a
図2b
図3
図4
図5
図6a
図6b
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2021-04-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得することであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、ことと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることと、を含む、画像処理方法。
【請求項2】
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、ことと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することと、を更に含み、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることを含むことを特徴とする
請求項1に記載の画像処理方法。
【請求項3】
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることは、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得ることと、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得ることと、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることと、を含むことを特徴とする
請求項2に記載の画像処理方法。
【請求項4】
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得ることと、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとすることと、を含むことを特徴とする
請求項2又は3に記載の画像処理方法。
【請求項5】
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得ることを更に含み、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得ることを含み、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることは、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得ることを含むことを特徴とする
請求項2から4のうちいずれか一項に記載の画像処理方法。
【請求項6】
前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なり、
及び/又は
前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値であることを特徴とする
請求項1から5のうちいずれか一項に記載の画像処理方法。
【請求項7】
前記画像処理方法は、群衆計数ネットワークに適用され、
前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含むことを特徴とする
請求項1からのうちいずれか一項に記載の画像処理方法。
【請求項8】
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、前記画像処理方法は、
前記サンプル画像の実際群集密度画像を得ることを更に含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含むことを特徴とする
請求項に記載の画像処理方法。
【請求項9】
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記画像処理方法は、
前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得ることを更に含み、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得ることは、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得ることであって、前記前処理された画像は、前記第3群衆密度画像に一対一に対応する、ことを含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含み、
前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含むことを特徴とする
請求項に記載の画像処理方法。
【請求項10】
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得するように構成される取得ユニットであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、取得ユニットと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得るように構成される畳み込み処理ユニットと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るように構成される融合処理ユニットと、を備える、画像処理装置。
【請求項11】
請求項1からのうちいずれか一項に記載の方法を実行するように構成される、プロセッサ。
【請求項12】
互いに接続されるプロセッサ及びメモリを備える電子機器であって、前記メモリは、コンピュータ命令を含むコンピュータプログラムコードを記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行して、請求項1からのうちいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項13】
電子機器のプロセッサにより実行されるときに、前記プロセッサに、請求項1からのうちいずれか一項に記載の方法を実行させるプログラム命令を含むコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項14】
コンピュータで実行されるときに、コンピュータに、請求項1からのうちいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム。

【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0044
【補正方法】変更
【補正の内容】
【0044】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
例えば、本願は以下の項目を提供する。
(項目1)
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得することであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、ことと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることと、を含む、画像処理方法。
(項目2)
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、ことと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することと、を更に含み、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得ることは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることを含むことを特徴とする
項目1に記載の画像処理方法。
(項目3)
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることは、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得ることと、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得ることと、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得ることと、を含むことを特徴とする
項目2に記載の画像処理方法。
(項目4)
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定することは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得ることと、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとすることと、を含むことを特徴とする
項目2又は3に記載の画像処理方法。
(項目5)
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記画像処理方法は、
前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得ることを更に含み、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得ることは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得ることを含み、
前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得ることは、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得ることを含むことを特徴とする
項目2から4のうちいずれか一項に記載の画像処理方法。
(項目6)
前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なることを特徴とする
項目1から5のうちいずれか一項に記載の画像処理方法。
(項目7)
前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値であることを特徴とする
項目6に記載の画像処理方法。
(項目8)
前記画像処理方法は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得ることを更に含むことを特徴とする
項目1から7のうちいずれか一項に記載の画像処理方法。
(項目9)
前記画像処理方法は、群衆計数ネットワークに適用され、
前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含むことを特徴とする
項目1から8のうちいずれか一項に記載の画像処理方法。
(項目10)
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、前記画像処理方法は、
前記サンプル画像の実際群集密度画像を得ることを更に含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含むことを特徴とする
項目9に記載の画像処理方法。
(項目11)
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記画像処理方法は、
前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得ることを更に含み、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得ることは、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得ることであって、前記前処理された画像は、前記第3群衆密度画像に一対一に対応する、ことを含み、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることは、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得ることを含むことを特徴とする
項目9に記載の画像処理方法。
(項目12)
前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含むことを特徴とする
項目11に記載の画像処理方法。
(項目13)
処理されるべき画像、第1畳み込みカーネル及び第2畳み込みカーネルを取得するように構成される取得ユニットであって、前記第1畳み込みカーネルの受容野は、前記第2畳み込みカーネルの受容野と異なる、取得ユニットと、
前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得るように構成される畳み込み処理ユニットと、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得るように構成される融合処理ユニットと、を備える、画像処理装置。
(項目14)
前記画像処理装置は、
前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、第1群衆密度画像を得る前に、前記処理されるべき画像に対して第1特徴抽出処理を行い、第1セルフアテンション画像を得、前記処理されるべき画像に対して第2特徴抽出処理を行い、第2セルフアテンション画像を得るように構成される特徴抽出処理ユニットであって、前記第1セルフアテンション画像及び前記第2セルフアテンション画像はいずれも、前記処理されるべき画像のスケール情報を表すためのものであり、且つ、前記第1セルフアテンション画像で表されるスケール情報は、前記第2セルフアテンション画像で表されるスケール情報と異なる、特徴抽出処理ユニットと、
前記第1セルフアテンション画像に基づいて、前記第1特徴画像の第1重みを決定し、前記第2セルフアテンション画像に基づいて、前記第2特徴画像の第2重みを決定するように構成される第1決定ユニットと、を更に備え、
前記融合処理ユニットは、
前記第1重み及び前記第2重みに基づいて、前記第1特徴画像と前記第2特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成されることを特徴とする
項目13に記載の画像処理装置。
(項目15)
前記融合処理ユニットは具体的には、
前記第1重みと前記第1特徴画像とのドット積を決定し、第3特徴画像を得、
前記第2重みと前記第2特徴画像とのドット積を決定し、第4特徴画像を得、
前記第3特徴画像と前記第4特徴画像に対して融合処理を行い、前記第1群衆密度画像を得るように構成されることを特徴とする
項目14に記載の画像処理装置。
(項目16)
前記第1決定ユニットは、
前記第1セルフアテンション画像及び前記第2セルフアテンション画像に対して正規化処理を行い、前記第1セルフアテンション画像に対応する第3セルフアテンション画像及び前記第2セルフアテンション画像に対応する第4セルフアテンション画像を得、
前記第3セルフアテンション画像を前記第1重みとし、前記第4セルフアテンション画像を前記第2重みとするように構成されることを特徴とする
項目14又は15に記載の画像処理装置。
(項目17)
前記特徴抽出処理ユニットは更に、前記第1畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記処理されるべき画像に対して畳み込み処理を行い、第2特徴画像を得る前に、前記処理されるべき画像に対して第3特徴抽出処理を行い、第5特徴画像を得るように構成され、
前記畳み込み処理ユニットは、
前記第1畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第1特徴画像を得、前記第2畳み込みカーネルを用いて、前記第5特徴画像に対して畳み込み処理を行い、前記第2特徴画像を得るように構成され、
前記特徴抽出処理ユニットは更に、
前記第5特徴画像に対して前記第1特徴抽出処理を行い、前記第1セルフアテンション画像を得、前記第5特徴画像に対して前記第2特徴抽出処理を行い、前記第2セルフアテンション画像を得るように構成されることを特徴とする
項目14から16のうちいずれか一項に記載の画像処理装置。
(項目18)
前記第1畳み込みカーネル及び前記第2畳み込みカーネルはいずれも拡張畳み込みカーネルであり、且つ前記第1畳み込みカーネルの大きさは、前記第2畳み込みカーネルの大きさと同じであり、前記第1畳み込みカーネルの重みは、前記第2畳み込みカーネルの重みと同じであり、前記第1畳み込みカーネルの拡張率は、前記第2畳み込みカーネルの拡張率と異なることを特徴とする
項目13から17のうちいずれか一項に記載の画像処理装置。
(項目19)
前記第1畳み込みカーネル又は前記第2畳み込みカーネルの拡張率は、基準値であることを特徴とする
項目18に記載の画像処理装置。
(項目20)
前記画像処理装置は、前記第1群衆密度画像における画素値の和を決定し、前記処理されるべき画像における人数を得るように構成される第2決定ユニットを更に備えることを特徴とする
項目13から19のうちいずれか一項に記載の画像処理装置。
(項目21)
前記装置により実行される画像処理方法は、群衆計数ネットワークに適用され、
前記画像処理装置は、前記群衆計数ネットワークを訓練するように構成される訓練ユニットを更に備え、前記群衆計数ネットワークの訓練プロセスは、
サンプル画像を取得することと、
前記群衆計数ネットワークを用いて前記サンプル画像を処理し、第2群衆密度画像を得ることと、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得ることと、
前記ネットワーク損失に基づいて、前記群衆計数ネットワークのパラメータを調整することと、を含むことを特徴とする
項目12から20のうちいずれか一項に記載の画像処理装置。
(項目22)
前記訓練ユニットは更に、
前記サンプル画像と前記第2群衆密度画像との差異に基づいて、ネットワーク損失を得る前に、バンプ関数、ガウスカーネル及び前記サンプル画像に基づいて、前記サンプル画像の実際群集密度画像を得、
前記実際群集密度画像と前記第2群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成されることを特徴とする
項目21に記載の画像処理装置。
(項目23)
前記訓練ユニットは更に、
前記群衆計数ネットワークにより前記サンプル画像を処理し、第2群衆密度画像を得る前に、前記サンプル画像に対して前処理を行い、少なくとも1枚の前処理された画像を得、
前記群衆計数ネットワークを用いて、前記少なくとも1枚の前処理された画像を処理し、少なくとも1枚の第3群衆密度画像を得、前記前処理された画像は、前記第3群衆密度画像に一対一に対応し、
前記少なくとも1枚の前処理された画像のうちのターゲット画像と前記ターゲット画像に対応する第3群衆密度画像との差異に基づいて、前記ネットワーク損失を得るように構成されることを特徴とする
項目21に記載の画像処理装置。
(項目24)
前記前処理は、前記サンプル画像から、所定の寸法の画像を切り出すことと、前記サンプル画像又は前記所定の寸法の画像に対して反転処理を行うことと、のうちの少なくとも1つを含むことを特徴とする
項目23に記載の画像処理装置。
(項目25)
項目1から12のうちいずれか一項に記載の方法を実行するように構成される、プロセッサ。
(項目26)
互いに接続されるプロセッサ及びメモリを備える電子機器であって、前記メモリは、コンピュータ命令を含むコンピュータプログラムコードを記憶するように構成され、前記プロセッサは、前記コンピュータ命令を実行して、項目1から12のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目27)
電子機器のプロセッサにより実行されるときに、前記プロセッサに、項目1から12のうちいずれか一項に記載の方法を実行させるプログラム命令を含むコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目28)
コンピュータで実行されるときに、コンピュータに、項目1から12のうちいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム。
【国際調査報告】