IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲発▼有限公司の特許一覧

特許7106679画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図2A
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図2B
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図2C
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-15
(45)【発行日】2022-07-26
(54)【発明の名称】画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06T 5/00 20060101AFI20220719BHJP
   G06N 3/04 20060101ALI20220719BHJP
【FI】
G06T5/00 700
G06N3/04
【請求項の数】 22
(21)【出願番号】P 2020563999
(86)(22)【出願日】2019-11-08
(65)【公表番号】
(43)【公表日】2021-12-02
(86)【国際出願番号】 CN2019116612
(87)【国際公開番号】W WO2021008022
(87)【国際公開日】2021-01-21
【審査請求日】2020-11-11
(31)【優先権主張番号】201910652028.6
(32)【優先日】2019-07-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519454811
【氏名又は名称】北京市商▲湯▼科技▲開▼▲発▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO., LTD.
【住所又は居所原語表記】Room 710-712, 7th Floor, 3rd Building, 1st Courtyard, Zhongguancun East Road, Haidian District, Beijing 100084 China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】楊 昆霖
(72)【発明者】
【氏名】顔 鯤
(72)【発明者】
【氏名】候 軍
(72)【発明者】
【氏名】蔡 暁聡
(72)【発明者】
【氏名】伊 帥
【審査官】村松 貴士
(56)【参考文献】
【文献】特開2018-181124(JP,A)
【文献】特表2020-535502(JP,A)
【文献】村上佳菜子,外5名,“U-Netおよびresidual U-Netを用いたCT画像中のびまん性肺疾患領域のセグメンテーション”,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年02月22日,MI2018-102,p.175-179
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 - 9/40
G06N 3/00 - 3/12
(57)【特許請求の範囲】
【請求項1】
特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、
M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、
N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
ここで、M、Nは1より大きい整数であることを特徴とする画像処理方法。
【請求項2】
M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、
第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、
第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、
第M段の符号化ネットワークによって第M-1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含み、
ここで、mは整数で1<m<Mであることを特徴とする請求項1に記載の方法。
【請求項3】
第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得することは、
前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、
前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することは、
第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m-1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、
前記第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含むことを特徴とする請求項2又は3に記載の方法。
【請求項5】
第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得することは、
第m段の符号化ネットワークの畳み込みサブネットワークによって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、
前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含むことを特徴とする請求項4に記載の方法。
【請求項6】
第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
第m段の符号化ネットワークの特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、
第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含むことを特徴とする請求項に記載の方法。
【請求項7】
前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、
前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、
前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応することを特徴とする請求項に記載の方法。
【請求項8】
m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk-1個の特徴マップを取得することと、及び/又は
アップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1-k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1-k個の特徴マップを取得することと、を含み、
ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1であることを特徴とする請求項7に記載の方法。
【請求項9】
第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、
前記スケールダウン後のk-1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含むことを特徴とする請求項8に記載の方法。
【請求項10】
N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、
第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得することと、
第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
ここで、nは整数で1<n<N≦Mであることを特徴とする請求項2~9のいずれか1項に記載の方法。
【請求項11】
第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得することは、
第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得することと、
前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含むことを特徴とする請求項10に記載の方法。
【請求項12】
第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、
前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項10又は11に記載の方法。
【請求項13】
第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得することは、
第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークによって第n-1段の復号化後のM-n+2個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、
第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM-n+1個の特徴マップを取得することと、を含むことを特徴とする請求項11に記載の方法。
【請求項14】
前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得することは、
第n段の復号化ネットワークのM-n+1個の第2融合サブネットワークによって前記スケールアップ後のM-n+1個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、
第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM-n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含むことを特徴とする請求項11又は13に記載の方法。
【請求項15】
前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、
前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、
前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項12に記載の方法。
【請求項16】
特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することは、
前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、
前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含むことを特徴とする請求項1~15のいずれか1項に記載の方法。
【請求項17】
前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であることを特徴とする請求項16に記載の方法。
【請求項18】
複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含むことを特徴とする請求項1~17のいずれか1項に記載の方法。
【請求項19】
特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、
M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、
N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、
ここで、M、Nは1より大きい整数であることを特徴とする画像処理装置。
【請求項20】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項1~18のいずれか1項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項21】
コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項1~18のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項22】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに請求項1~18のいずれか1項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータテクノロジーの分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
人工知能は、技術の継続的な発展に伴い、コンピュータビジョン、音声認識等のいずれにおいても優れた効果を収めている。場面内の対象物(例えば、歩行者、車両など)を識別するタスクでは、場面内の対象物の数や分布状況などを予測することが必要となる場合がある。
【発明の概要】
【0003】
本開示は画像処理の発明を提案する。
【0004】
本開示の一側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することと、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、M、Nは1より大きい整数である画像処理方法を提供する。
【0005】
1つの可能な実施形態では、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、第M段の符号化ネットワークによって第M-1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含み、ここで、mは整数で1<m<Mである。
【0006】
1つの可能な実施形態では、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得することは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含む。
【0007】
1つの可能な実施形態では、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することは、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m-1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、前記第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含む。
【0008】
1つの可能な実施形態では、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得することは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含む。
【0009】
1つの可能な実施形態では、第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含む。
【0010】
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
【0011】
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk-1個の特徴マップを取得することと、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1-k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1-k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
【0012】
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk-1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
【0013】
1つの可能な実施形態では、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得することと、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、nは整数で1<n<N≦Mである。
【0014】
1つの可能な実施形態では、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得することは、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得することと、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含む。
【0015】
1つの可能な実施形態では、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。
【0016】
1つの可能な実施形態では、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得することは、第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークによって第n-1段の復号化後のM-n+2個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM-n+1個の特徴マップを取得することと、を含む。
【0017】
1つの可能な実施形態では、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得することは、第n段の復号化ネットワークのM-n+1個の第2融合サブネットワークによって前記スケールアップ後のM-n+1個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM-n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含む。
【0018】
1つの可能な実施形態では、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。
【0019】
1つの可能な実施形態では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得することは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含む。
【0020】
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
【0021】
1つの可能な実施形態では、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含む。
【0022】
本開示の別の側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュールと、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、ここで、M、Nは1より大きい整数である画像処理装置を提供する。
【0023】
1つの可能な実施形態では、前記符号化モジュールは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1符号化サブモジュールと、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するための第2符号化サブモジュールと、第M段の符号化ネットワークによって第M-1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得するための第3符号化サブモジュールと、を含み、ここで、mは整数で1<m<Mである。
【0024】
1つの可能な実施形態では、前記第1符号化サブモジュールは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得するための第1縮小サブモジュールと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1融合サブモジュールと、を含む。
【0025】
1つの可能な実施形態では、前記第2符号化サブモジュールは、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m-1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得するための第2縮小サブモジュールと、前記第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含む。
【0026】
1つの可能な実施形態では、前記第2縮小サブモジュールは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得し、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得する。
【0027】
1つの可能な実施形態では、前記第2融合サブモジュールは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得し、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得する。
【0028】
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
【0029】
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk-1個の特徴マップを取得することと、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1-k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1-k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
【0030】
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk-1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
【0031】
1つの可能な実施形態では、前記復号化モジュールは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するための第1復号化サブモジュールと、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得するための第2復号化サブモジュールと、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第3復号化サブモジュールと、を含み、ここで、nは整数で1<n<N≦Mである。
【0032】
1つの可能な実施形態では、前記第2復号化サブモジュールは、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得するための第3融合サブモジュールと、を含む。
【0033】
1つの可能な実施形態では、前記第3復号化サブモジュールは、第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得するための第4融合サブモジュールと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含む。
【0034】
1つの可能な実施形態では、前記拡大サブモジュールは、第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークによって第n-1段の復号化後のM-n+2個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得し、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM-n+1個の特徴マップを取得する。
【0035】
1つの可能な実施形態では、前記第3融合サブモジュールは、第n段の復号化ネットワークのM-n+1個の第2融合サブネットワークによって前記スケールアップ後のM-n+1個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得し、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM-n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM-n+1個の特徴マップを取得する。
【0036】
1つの可能な実施形態では、前記結果決定サブモジュールは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定する。
【0037】
1つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得するための最適化サブモジュールと、を含む。
【0038】
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
【0039】
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含む。
【0040】
本開示の別の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
【0041】
本開示の別の側面では、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
【0042】
本開示の別の側面では、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。
【0043】
本開示の実施例において、M段の符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカル情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。
【0044】
以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解すべきである。以下に図面を参照しながら例示的な実施例を詳しく説明することにより、本開示のその他の特徴及び側面がより明確になる。
【図面の簡単な説明】
【0045】
ここで、本明細書の一部として組み込まれる図面は、本開示に適する実施例を示し、明細書と共に本開示の技術的解決手段の説明に用いられる。
図1】本開示の実施例に係る画像処理方法のフローチャートを示す。
図2A】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図2B】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図2C】本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。
図3】本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。
図4】本開示の実施例に係る画像処理装置のブロック図を示す。
図5】本開示の実施例に係る電子機器のブロック図を示す。
図6】本開示の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0046】
以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び側面を詳細に説明する。図面において、同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な側面を示すが、特に断りがない限り、比例に従って図面を描く必要がない。
【0047】
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0048】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0049】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0050】
図1は本開示の実施例に係る画像処理方法のフローチャートを示す。図1に示すように、前記画像処理方法は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するステップS11と、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するステップS12と、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップS13と、を含み、ここで、M、Nは1より大きい整数である。
【0051】
1つの可能な実施形態では、前記画像処理方法は、ユーザ機器(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバなどの他の種類の電子機器により実行されてもよい。前記方法はプロセッサによってメモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。あるいは、サーバーによって前記方法を実行してもよい。
【0052】
1つの可能な実施形態では、処理対象となる画像は、画像取得装置(例えば、カメラ)によって撮影された監視領域(例えば、交差点、ショッピングモールなどの領域)の画像であってもよいし、他の方法で取得された画像(例えば、ネットワークを介してダウンロードされた画像)であってもよい。処理対象となる画像には、一定数の対象物(例えば、歩行者、車両、顧客など)が含まれてもよい。本開示では、処理対象となる画像の種類、取得方法及び画像における対象物の種類については限定しない。
【0053】
1つの可能な実施形態では、ニューラルネットワーク(例えば、特徴抽出ネットワーク、符号化ネットワーク及び復号化ネットワークを含む)によって処理対象となる画像を解析して処理対象となる画像における対象物の数、分布状況などの情報を予測してもよい。当該ニューラルネットワークは、例えば、畳み込みニューラルネットワークを含んでもよく、本開示では、ニューラルネットワークの具体的な種類については限定しない。
【0054】
1つの可能な実施形態では、ステップS11において、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、処理対象となる画像の第1特徴マップを取得するようにしてもよい。当該特徴抽出ネットワークは少なくとも畳み込み層を含み、ストライドを持つ畳み込み層(ストライド>1)によって画像又は特徴マップのスケールを縮小し、ストライドを持たない畳み込み層(ストライド=1)によって特徴マップを最適化するようにしてもよい。特徴抽出ネットワークによる処理後、第1特徴マップが取得される。本開示では、特徴抽出ネットワークのネットワーク構造については限定しない。
【0055】
特徴マップのスケールが大きいほど、処理対象となる画像のローカル情報が多く含まれ、特徴マップのスケールが小さいほど、処理対象となる画像のグローバル情報が多く含まれるので、マルチスケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケールの特徴を抽出することができる。
【0056】
1つの可能な実施形態では、ステップS12において、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得する。これにより、各スケールにおいてグローバル情報とローカル情報を融合させ、抽出された特徴の有効性を向上させることができる。
【0057】
1つの可能な実施形態では、M段の符号化ネットワークにおける各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第1段の符号化ネットワークについて、第1段の符号化ネットワークの畳み込み層(ストライド>1)によって第1特徴マップをスケールダウンし、スケールダウン後の特徴マップ(第2特徴マップ)を取得するようにしてもよい。第1段の符号化ネットワークの畳み込み層(ストライド=1)及び/又は残差層によって第1特徴マップと第2特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1特徴マップと第2特徴マップを取得する。さらに、第1段の符号化ネットワークのアップサンプリング層、畳み込み層(ストライド>1)及び/又は融合層などによって特徴最適化後の第1特徴マップと第2特徴マップをそれぞれ融合させ、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
【0058】
1つの可能な実施形態では、第1段の符号化ネットワークと類似しているように、M段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の1段の符号化後の複数の特徴マップに対してスケールダウン及びマルチスケール融合を行い、グローバル情報とローカル情報を複数回融合させることにより、抽出された特徴の有効性をさらに向上させることができる。
【0059】
1つの可能な実施形態では、M段の符号化ネットワークによる処理後、M段の符号化後の複数の特徴マップが取得される。ステップS13において、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、処理対象となる画像のN段の復号化後の特徴マップを取得して処理対象となる画像の予測結果を取得するようにしてもよい。
【0060】
1つの可能な実施形態では、N段の復号化ネットワークにおける各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第1段の復号化ネットワークについて、第1段の復号化ネットワークの融合層によって符号化後の複数の特徴マップを融合させ、融合後の複数の特徴マップを取得するようにしてもよい。さらに、逆畳み込み層によって融合後の複数の特徴マップをスケールアップし、スケールアップ後の複数の特徴マップを取得する。融合層、畳み込み層(ストライド=1)及び/又は残差層などによって複数の特徴マップに対してそれぞれ融合及び最適化を行い、第1段の復号化後の複数の特徴マップを取得する。
【0061】
1つの可能な実施形態では、第1段の復号化ネットワークと類似しているように、N段の復号化ネットワークにおける各段の復号化ネットワークによって、各段の復号化ネットワークによって取得された特徴マップの数が順次減少するように直前の1段の復号化後の特徴マップに対してスケールアップ及びマルチスケール融合を順次行い、第N段の復号化ネットワークにより処理対象となる画像のスケールと一致する密度マップ(例えば、対象物の分布密度マップ)を取得し、予測結果を決定する。このように、スケールアップ過程においてグローバル情報とローカル情報を複数回融合させることにより、予測結果の品質を向上させることができる。
【0062】
本開示の実施例において、M段の符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカル情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。
【0063】
1つの可能な実施形態では、ステップS11は、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得することと、を含んでもよい。
【0064】
例えば、特徴抽出ネットワークは少なくとも1つの第1畳み込み層と少なくとも1つの第2畳み込み層を含んでもよい。第1畳み込み層は、ストライドを持ち(ストライド>1)、画像又は特徴マップのスケールを縮小するための畳み込み層であり、第2畳み込み層は、ストライドを持たず(ストライド=1)、特徴マップを最適化するための畳み込み層である。
【0065】
1つの可能な実施形態では、特徴抽出ネットワークは、連続する2つの第1畳み込み層を含んでもよく、第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2である。連続する2つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行った後、畳み込み後の特徴マップが取得され、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4となる。なお、当業者は実際の状況に応じて第1畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。
【0066】
1つの可能な実施形態では、特徴抽出ネットワークは連続する3つの第2畳み込み層を含んでもよく、第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。第1畳み込み層によって畳み込まれた後の特徴マップを連続する3つの第1畳み込み層によって最適化した後、処理対象となる画像の第1特徴マップが取得される。当該第1特徴マップにおいて、スケールは第1畳み込み層によって畳み込まれた後の特徴マップのスケールと同一であり、すなわち、第1特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4となる。なお、当業者は実際の状況に応じて第2畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。
【0067】
このような方法によれば、処理対象となる画像のスケールダウン及び最適化を実現し、特徴情報を有効に抽出することができる。
【0068】
1つの可能な実施形態では、ステップS12は、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得することと、第M段の符号化ネットワークによって第M-1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得することと、を含んでもよく、ここで、mは整数で1<m<Mである。
【0069】
例えば、M段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の1段の符号化後の特徴マップを処理してもよく、各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第1段の符号化ネットワークについて、第1段の符号化ネットワークによって第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するようにしてもよい。
【0070】
1つの可能な実施形態では、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得するステップは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得することと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得することと、を含んでもよい。
【0071】
例えば、第1段の符号化ネットワークの第1畳み込み層(畳み込みカーネルサイズが3×3、ストライドが2)によって第1特徴マップに対してスケールダウンを行い、スケールが第1特徴マップのスケールよりも小さい第2特徴マップを取得するようにしてもよい。第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)及び/又は残差層によって第1特徴マップと第2特徴マップをそれぞれ最適化し、最適化後の第1特徴マップと第2特徴マップを取得する。融合層によって第1特徴マップと第2特徴マップに対してそれぞれマルチスケール融合を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
【0072】
1つの可能な実施形態では、第2畳み込み層によって特徴マップを直接最適化してもよく、第2畳み込み層及び残差層からなる基本ブロック(basic block)によって特徴マップを最適化してもよい。当該基本ブロックは、最適化を行う基本ユニットとして、連続する2つの第2畳み込み層と残差層を含み、残差層によって、入力された特徴マップと畳み込みによって取得された特徴マップとを加算して結果として出力するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。
【0073】
1つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後の第1特徴マップ及び第2特徴マップに対して最適化及び融合を再度行い、再度最適化及び融合後の第1特徴マップ及び第2特徴マップを第1段の符号化後の第1特徴マップ及び第2特徴マップとする。本開示では、最適化及びマルチスケール融合の回数については限定しない。
【0074】
1つの可能な実施形態では、M段の符号化ネットワークにおける任意の1段の符号化ネットワーク(第m段の符号化ネットワークであり、mは整数で1<m<Mである)について、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するようにしてもよい。
【0075】
1つの可能な実施形態では、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するステップは、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m-1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得することと、前記第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含んでもよい。
【0076】
1つの可能な実施形態では、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、m+1番目の特徴マップを取得するステップは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得することと、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得することと、を含んでもよい。
【0077】
例えば、第m段の符号化ネットワークのm個の畳み込みサブネットワーク(各畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含む)によって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールダウン後のm個の特徴マップを取得するようにしてもよい。当該スケールダウン後のm個の特徴マップはスケールが同一であり、かつ第m-1段の符号化後のm番目の特徴マップのスケールよりも小さい(m+1番目の特徴マップのスケールと同じである)。融合層によって当該スケールダウン後のm個の特徴マップに対して特徴融合を行い、m+1番目の特徴マップを取得する。
【0078】
1つの可能な実施形態では、各畳み込みサブネットワークは、少なくとも1つの第1畳み込み層を含み、第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、特徴マップをスケールダウンするのに用いられる。畳み込みサブネットワークの第1畳み込み層の数は、対応する特徴マップのスケールに関連付けられており、例えば、第m-1段の符号化後の1番目の特徴マップのスケールが4x(幅と高さはそれぞれ処理対象となる画像の1/4)で、生成されるm個の特徴マップのスケールが16x(幅と高さはそれぞれ処理対象となる画像の1/16)であるとされると、1番目の畳み込みサブネットワークは2つの第1畳み込み層を含む。なお、当業者は実際の状況に応じて畳み込みサブネットワークの第1畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。
【0079】
1つの可能な実施形態では、第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するステップは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得することと、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することと、を含んでもよい。
【0080】
1つの可能な実施形態では、融合層によって第m-1段の符号化後のm個の特徴マップに対してマルチスケール融合を行い、融合後のm個の特徴マップを取得するようにしてもよい。m+1個の特徴最適化サブネットワーク(各特徴最適化サブネットワークは第2畳み込み層及び/又は残差層を含む)によって融合後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得する。その後、m+1個の融合サブネットワークによって特徴最適化後のm+1個の特徴マップに対してそれぞれマルチスケール融合を行い、第m段の符号化後のm+1個の特徴マップを取得する。
【0081】
1つの可能な実施形態では、m+1個の特徴最適化サブネットワーク(各特徴最適化サブネットワークは第2畳み込み層及び/又は残差層を含む)によって第m-1段の符号化後のm個の特徴マップを直接処理することもできる。すなわち、m+1個の特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得する。その後、m+1個の融合サブネットワークによって特徴最適化後のm+1個の特徴マップに対してそれぞれマルチスケール融合を行い、第m段の符号化後のm+1個の特徴マップを取得する。
【0082】
1つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後のm+1個の特徴マップに対して特徴最適化及びマルチスケール融合を再度行うようにしてもよい。本開示では、特徴最適化及びマルチスケール融合の回数については限定しない。
【0083】
1つの可能な実施形態では、各特徴最適化サブネットワークは、少なくとも2つの第2畳み込み層及び残差層を含んでもよい。前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。例えば、各特徴最適化サブネットワークはいずれも、少なくとも1つの基本ブロック(連続する2つの第2畳み込み層及び残差層)を含んでもよい。各特徴最適化サブネットワークの基本ブロックによって第m-1段の符号化後のm個の特徴マップとm+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得するようにしてもよい。なお、当業者は実際の状況に応じて第2畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。
【0084】
このような方法によれば、抽出されたマルチスケール特徴の有効性をさらに向上させることができる。
【0085】
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークはそれぞれ特徴最適化後のm+1個の特徴マップを融合させるようにしてもよい。m+1個の融合サブネットワーク内のk番目の融合サブネットワーク(kは整数で1≦k≦m+1)の場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk-1個の特徴マップを取得すること、及び/又は、アップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1-k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1-k個の特徴マップを取得することと、を含んでもよく、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
【0086】
例えば、まず、k番目の融合サブネットワークは、m+1個の特徴マップのスケールを特徴最適化後のk番目の特徴マップのスケールに調整するようにしてもよい。1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも前のk-1個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも大きく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも前の特徴マップのスケールは4xと8xである。この場合、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンしてスケールダウン後のk-1個の特徴マップを取得するようにしてもよい。すなわち、スケールが4xと8xの特徴マップのそれぞれを16xの特徴マップに縮小するために、2つの第1畳み込み層によって4xの特徴マップをスケールダウンし、1つの第1畳み込み層によって8xの特徴マップをスケールダウンするようにしてもよい。これにより、スケールダウン後のk-1個の特徴マップを取得することができる。
【0087】
1つの可能な実施形態では、1<k<m+1の場合、特徴最適化後のk番目の特徴マップよりも後のm+1-k個の特徴マップのスケールはいずれも特徴最適化後のk番目の特徴マップよりも小さく、例えば、k番目の特徴マップのスケールは16x(幅と高さはそれぞれ処理対象となる画像の1/16)であり、k番目の特徴マップよりも後のm+1-k個の特徴マップは32xである。この場合、アップサンプリング層によって32xの特徴マップをスケールアップし、第3畳み込み層(畳み込みカーネルサイズが1×1)によってスケールアップ後の特徴マップに対してチャネル調整を行ってスケールアップ後の特徴マップのチャネル数とk番目の特徴マップのチャネル数とを同一にして、スケールが16xの特徴マップを取得するようにしてもよい。これにより、スケールアップ後のm+1-k個の特徴マップを取得することができる。
【0088】
1つの可能な実施形態では、k=1の場合、特徴最適化後の1番目の特徴マップよりも後のm個の特徴マップのスケールはいずれも特徴最適化後の1番目の特徴マップよりも小さく、後のm個の特徴マップのそれぞれに対してスケールアップ及びチャネル調整を行って後のm個のスケールアップ後の特徴マップを取得するようにしてもよい。k=m+1の場合、特徴最適化後のm+1番目の特徴マップよりも前のm個の特徴マップのスケールはいずれも特徴最適化後のm+1番目の特徴マップよりも大きく、前のm個の特徴マップのそれぞれをスケールダウンして前のm個のスケールダウン後の特徴マップを取得するようにしてもよい。
【0089】
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得するステップは、前記スケールダウン後のk-1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含んでもよい。
【0090】
例えば、k番目の融合サブネットワークはスケール調整後のm+1個の特徴マップを融合させるようにしてもよい。1<k<m+1の場合、スケール調整後のm+1個の特徴マップは、スケールダウン後のk-1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップを含む。スケールダウン後のk-1個の特徴マップ、特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップの三者を融合させ(加算し)て第m段の符号化後のk番目の特徴マップを取得するようにしてもよい。
【0091】
1つの可能な実施形態では、k=1の場合、スケール調整後のm+1個の特徴マップは、特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップを含む。特徴最適化後の1番目の特徴マップとスケールアップ後のm個の特徴マップの両者を融合させ(加算し)て第m段の符号化後の1番目の特徴マップを取得するようにしてもよい。
【0092】
1つの可能な実施形態では、k=m+1の場合、スケール調整後のm+1個の特徴マップはスケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップを含む。スケールダウン後のm個の特徴マップと特徴最適化後のm+1番目の特徴マップの両者を融合させ(加算し)て第m段の符号化後のm+1番目の特徴マップを取得するようにしてもよい。
【0093】
図2A図2B及び図2Cは本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。図2A図2B及び図2Cでは、融合対象となる特徴マップが3つの場合を例に説明する。
【0094】
図2Aに示すように、k=1の場合、2番目と3番目の特徴マップのそれぞれに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って1番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0095】
図2Bに示すように、k=2の場合、1番目の特徴マップをスケールダウンし(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)、3番目の特徴マップに対してスケールアップ(アップサンプリング)及びチャネル調整(1×1畳み込み)を行って、2番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0096】
図2Cに示すように、k=3の場合、1番目と2番目の特徴マップをスケールダウンするようにしてもよい(畳み込みカーネルサイズが3×3、ストライドが2の畳み込み)。1番目の特徴マップと3番目の特徴マップとのスケール差が4倍であるため、2回の畳み込み(畳み込みカーネルサイズが3×3、ストライドが2)を行うようにしてもよい。スケールダウンにより3番目の特徴マップのスケール及びチャネル数と同一の2つの特徴マップを取得して、さらに、この3つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。
【0097】
このような方法によれば、スケールの異なる複数の特徴マップ間のマルチスケール融合を実現し、各スケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケール特徴を抽出することができる。
【0098】
1つの可能な実施形態では、M段の符号化ネットワークにおける最後の1段の(第M段の符号化ネットワーク)について、当該第M段の符号化ネットワークは第m段の符号化ネットワークの構造と類似してもよい。第M段の符号化ネットワークによる第M-1段の符号化後のM個の特徴マップへの処理手順も第m段の符号化ネットワークによる第m-1段の符号化後のm個の特徴マップへの処理手順と類似しているので、ここで詳細な説明を省略する。第M段の符号化ネットワークによる処理後、第M段の符号化後のM+1個の特徴マップが取得される。例えば、M=3の場合、スケールが4x、8x、16x及び32xの4つの特徴マップを取得することができる。本開示では、Mの具体的な数値については限定しない。
【0099】
このような方法によれば、M段の符号化ネットワークの処理手順全体を実現し、スケールが異なる複数の特徴マップを取得し、処理対象となる画像のグローバル特徴情報とローカル特徴情報をより有効に抽出することができる。
【0100】
1つの可能な実施形態では、ステップS13は、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得することと、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得することと、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含んでもよく、ここで、nは整数で1<n<N≦Mである。
【0101】
例えば、M段の符号化ネットワークによる処理後、第M段の符号化後のM+1個の特徴マップが取得される。N段の復号化ネットワークにおける各段の復号化ネットワークによって、順次、直前の1段の復号化後の特徴マップを処理し、各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第1段の復号化ネットワークについて、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するようにしてもよい。
【0102】
1つの可能な実施形態では、N段の復号化ネットワークにおける任意の1段の復号化ネットワーク(第n段の復号化ネットワークであり、nは整数で1<n<N≦M)について、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得するようにしてもよい。
【0103】
1つの可能な実施形態では、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得するステップは、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得することと、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含んでもよい。
【0104】
1つの可能な実施形態では、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得するステップは、第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークによって第n-1段の復号化後のM-n+2個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM-n+1個の特徴マップを取得することと、を含んでもよい。
【0105】
例えば、まず、第n-1段の復号化後のM-n+2個の特徴マップを融合させ、マルチスケール情報を融合させるとともに特徴マップの数を減らすようにしてもよい。M-n+2個の特徴マップのうちの前のM-n+1個の特徴マップに対応するM-n+1個の第1融合サブネットワークを設置してもよい。例えば、融合対象となる特徴マップは、スケールが4x、8x、16x及び32xの4つの特徴マップを含む場合、融合によってスケールが4x、8x及び16xの3つの特徴マップを取得するように、3つの第1融合サブネットワークを設置するようにしてもよい。
【0106】
1つの可能な実施形態では、第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークのネットワーク構造は第m段の符号化ネットワークのm+1個の融合サブネットワークのネットワーク構造と類似してもよい。例えば、q番目の第1融合サブネットワーク(1≦q≦M-n+1)について、q番目の第1融合サブネットワークは、まず、M-n+2個の特徴マップのスケールを第n-1段の復号化後のq番目の特徴マップのスケールに調整し、さらに、スケール調整後のM-n+2個の特徴マップを融合させ、融合後のq番目の特徴マップを取得する。これにより、融合後のM-n+1個の特徴マップを取得することができる。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
【0107】
1つの可能な実施形態では、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、例えば、スケールが4x、8x及び16xの3つの融合後の特徴マップを2x、4x及び8xの3つの特徴マップに拡大するようにしてもよい。拡大によりスケールアップ後のM-n+1個の特徴マップを取得する。
【0108】
1つの可能な実施形態では、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得するステップは、第n段の復号化ネットワークのM-n+1個の第2融合サブネットワークによって前記スケールアップ後のM-n+1個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得することと、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM-n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM-n+1個の特徴マップを取得することと、を含んでもよい。
【0109】
例えば、スケールアップ後のM-n+1個の特徴マップを取得した後、M-n+1個の第2融合サブネットワークによって当該M-n+1個の特徴マップに対してそれぞれスケール調整及び融合を行い、融合後のM-n+1個の特徴マップを取得するようにしてもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
【0110】
1つの可能な実施形態では、第n段の復号化ネットワークの特徴最適化サブネットワークによって融合後のM-n+1個の特徴マップをそれぞれ最適化し、各特徴最適化サブネットワークはいずれも少なくとも1つの基本ブロックを含んでもよい。特徴最適化により第n段の復号化後のM-n+1個の特徴マップを取得することができる。特徴最適化の具体的な過程については、ここで詳細な説明を省略する。
【0111】
1つの可能な実施形態では、スケールの異なるグローバル特徴とローカル特徴をさらに融合させるように、第n段の復号化ネットワークのマルチスケール融合及び特徴最適化の過程を複数回繰り返してもよい。本開示では、マルチスケール融合及び特徴最適化の回数については限定しない。
【0112】
このような方法によれば、複数のスケールの特徴マップを拡大し、かつ、同様に複数のスケールの特徴マップ情報を融合させることにより、特徴マップのマルチスケール情報を保留し、予測結果の品質を向上させることができる。
【0113】
1つの可能な実施形態では、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップは、第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得することと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。
【0114】
例えば、第N-1段の復号化ネットワークによる処理後、M-N+2個の特徴マップが取得され、当該M-N+2個の特徴マップにおいて、最大スケールの特徴マップのスケールが処理対象となる画像のスケールと同じである(スケールが1xの特徴マップ)。N段の復号化ネットワークの最後の1段の(第N段の復号化ネットワーク)について、第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行うようにしてもよい。N=Mの場合、第N-1段の復号化後の特徴マップが2つあり(例えば、スケールが1xと2xの特徴マップ)、N<Mの場合、第N-1段の復号化後の特徴マップが3つ以上ある(例えば、スケールが1x、2x及び4xの特徴マップ)。本開示では限定しない。
【0115】
1つの可能な実施形態では、第N段の復号化ネットワークの融合サブネットワークによってM-N+2個の特徴マップに対してマルチスケール融合(スケール調整及び融合)を行い、第N段の復号化後の対象特徴マップを取得するようにしてもよい。当該対象特徴マップのスケールは処理対象となる画像のスケールと一致してもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。
【0116】
1つの可能な実施形態では、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するステップは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。
【0117】
例えば、第N段の復号化後の対象特徴マップを取得した後、対象特徴マップの最適化を継続し、複数の第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)、複数の基本ブロック(第2畳み込み層及び残差層を含む)、少なくとも1つの第3畳み込み層(畳み込みカーネルサイズが1×1)のうちの少なくとも1つによって対象特徴マップを最適化し、処理対象となる画像の予測密度マップを取得するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。
【0118】
1つの可能な実施形態では、予測密度マップに基づいて、処理対象となる画像の予測結果を決定するようにしてもよい。当該予測密度マップをそのまま処理対象となる画像の予測結果としてもよい。当該予測密度マップをさらに処理し(例えば、softmax層などによる処理)て処理対象となる画像の予測結果を取得してもよい。
【0119】
このような方法によれば、N段の復号化ネットワークはスケールアップ過程においてグローバル情報とローカル情報を複数回融合させ、予測結果の品質を向上させる。
【0120】
図3は本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。図3に示すように、本開示の実施例に係る画像処理方法を実現するニューラルネットワークは、特徴抽出ネットワーク31、3段の符号化ネットワーク32(第1段の符号化ネットワーク321、第2段の符号化ネットワーク322及び第3段の符号化ネットワーク323を含む)及び3段の復号化ネットワーク33(第1段の復号化ネットワーク331、第2段の復号化ネットワーク332及び第3段の復号化ネットワーク333を含む)を含んでもよい。
【0121】
1つの可能な実施形態では、図3に示すように、処理対象となる画像34(スケールが1x)を特徴抽出ネットワーク31に入力して処理を行い、連続する2つの第1畳み込み層(畳み込みカーネルサイズが3×3、ストライドが2)によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップ(スケールが4xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/4である)を取得し、さらに、3つの第2畳み込み層(畳み込みカーネルサイズが3×3、ストライドが1)によって畳み込み後の特徴マップ(スケールが4x)を最適化し、第1特徴マップ(スケールが4x)を取得する。
【0122】
1つの可能な実施形態では、第1特徴マップ(スケールが4x)を第1段の符号化ネットワーク321に入力し、畳み込みサブネットワーク(第1畳み込み層を含む)によって第1特徴マップに対して畳み込みを行い(スケールダウンし)、第2特徴マップ(スケールが8xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/8である)を取得するようにしてもよい。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1特徴マップと第2特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1特徴マップと第2特徴マップを取得する。特徴最適化後の第1特徴マップと第2特徴マップに対してマルチスケール融合を行い、第1段の符号化後の第1特徴マップ及び第2特徴マップを取得する。
【0123】
1つの可能な実施形態では、第1段の符号化後の第1特徴マップ(スケールが4x)及び第2特徴マップ(スケールが8x)を第2段の符号化ネットワーク322に入力し、畳み込みサブネットワーク(少なくとも1つの第1畳み込み層を含む)によって第1段の符号化後の第1特徴マップと第2特徴マップに対してそれぞれ畳み込み(スケールダウン)及び融合を行い、第3特徴マップ(スケールが16xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/16である)を取得する。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1、第2及び第3特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1、第2及び第3特徴マップを取得する。特徴最適化後の第1、第2及び第3特徴マップに対してマルチスケール融合を行い、融合後の第1、第2及び第3特徴マップを取得する。その後、融合後の第1、第2及び第3特徴マップに対して最適化及び融合を再度行い、第2段の符号化後の第1、第2及び第3特徴マップを取得する。
【0124】
1つの可能な実施形態では、第2段の符号化後の第1、第2及び第3特徴マップ(4x、8x及び16x)を第3段の符号化ネットワーク323に入力し、畳み込みサブネットワーク(少なくとも1つの第1畳み込み層を含む)によって第2段の符号化後の第1、第2及び第3特徴マップに対してそれぞれ畳み込み(スケールダウン)及び融合を行い、第4特徴マップ(スケールが32xであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の1/32である)を取得する。特徴最適化サブネットワーク(少なくとも1つの基本ブロックであり、第2畳み込み層及び残差層を含む)によって第1、第2、第3及び第4特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第1、第2、第3及び第4特徴マップを取得する。特徴最適化後の第1、第2、第3及び第4特徴マップに対してマルチスケール融合を行い、融合後の第1、第2、第3及び第4特徴マップを取得する。その後、融合後の第1、第2及び第3特徴マップを再度最適化し、第3段の符号化後の第1、第2、第3及び第4特徴マップを取得する。
【0125】
1つの可能な実施形態では、第3段の符号化後の第1、第2、第3及び第4特徴マップ(スケールが4x、8x、16x及び32x)を第1段の復号化ネットワーク331に入力し、3つの第1融合サブネットワークによって第3段の符号化後の第1、第2、第3及び第4特徴マップを融合させ、融合後の3つの特徴マップ(スケールが4x、8x及び16x)を取得する。さらに、融合後の3つの特徴マップに対して逆畳み込みを行い(スケールアップし)、スケールアップ後の3つの特徴マップ(スケールが2x、4x及び8x)を取得する。スケールアップ後の3つの特徴マップに対してマルチスケール融合、特徴最適化、再度のマルチスケール融合及び再度の特徴最適化を行い、第1段の復号化後の3つの特徴マップ(スケールが2x、4x及び8x)を取得する。
【0126】
1つの可能な実施形態では、第1段の復号化後の3つの特徴マップ(スケールが2x、4x及び8x)を第2段の復号化ネットワーク332に入力し、2つの第1融合サブネットワークによって第1段の復号化後の3つの特徴マップを融合させ、融合後の2つの特徴マップ(スケールが2x及び4x)を取得する。さらに、融合後の2つの特徴マップに対して逆畳み込みを行い(スケールアップし)、スケールアップ後の2つの特徴マップ(スケールが1x及び2x)を取得する。スケールアップ後の2つの特徴マップに対してマルチスケール融合、特徴最適化及び再度のマルチスケール融合を行い、第2段の復号化後の2つの特徴マップ(スケールが1x及び2x)を取得する。
【0127】
1つの可能な実施形態では、第2段の復号化後の2つの特徴マップ(スケールが1x及び2x)、を第3段の復号化ネットワーク333に入力し、第1融合サブネットワークによって第2段の復号化後の2つの特徴マップを融合させ、融合後の特徴マップ(スケールが1x)を取得する。さらに、融合後の特徴マップを第2畳み込み層及び第3畳み込み層(畳み込みカーネルサイズが1×1)によって最適化し、処理対象となる画像の予測密度マップ(スケールが1x)を取得する。
【0128】
1つの可能な実施形態では、各畳み込み層の後に正規化層を追加し、各段の畳み込み結果に対して正規化処理を行い、正規化された畳み込み結果を取得することにより、畳み込み結果の精度を向上させるようにしてもよい。
【0129】
1つの可能な実施形態では、本開示のニューラルネットワークを適用する前に、当該ニューラルネットワークをトレーニングするようにしてもよい。本開示の実施例に係る画像処理方法は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングすることをさらに含む。
【0130】
例えば、複数のラベル付きのサンプル画像を予め設置してもよく、各サンプル画像は、例えば、サンプル画像における歩行者の位置、数などのラベル情報が付けられた。複数のラベル付きのサンプル画像をトレーニング群に構成して前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするようにしてもよい。
【0131】
1つの可能な実施形態では、サンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークの処理により、サンプル画像の予測結果を出力するようにしてもよい。サンプル画像の予測結果とラベル情報に基づいて特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークのネットワーク損失を決定する。ネットワーク損失に応じて、特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークのネットワークパラメータを調整する。予め設定されたトレーニング条件を満たしている場合、トレーニングされた特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークを得るようにしてもよい。本開示では、具体的なトレーニング過程については限定しない。
【0132】
このような方法によれば、高精度の特徴抽出ネットワーク、M段の符号化ネットワーク及びN段の復号化ネットワークが得られる。
【0133】
本開示の実施例の画像処理方法によれば、ストライドを持つ畳み込み操作によりスケールが小さな特徴マップを取得し、ネットワーク構造において、グローバル情報とローカル情報との融合を継続的に行ってより有効なマルチスケール情報を抽出し、かつ他のスケールの情報により現在のスケール情報の抽出を促進し、ネットワークのマルチスケールの対象物(例えば、歩行者)への識別のロバスト性を向上させることができる。復号化ネットワークにおいて特徴マップを拡大するとともに、マルチスケール情報の融合を行って、マルチスケール情報を保留し、生成された密度マップの品質を向上させ、モデル予測の正確率を向上させることができる。
【0134】
本開示の実施例の画像処理方法によれば、スマートビデオ解析や防犯監視などの応用場面に適用でき、場面内の対象物(例えば、歩行者、車両など)を識別し、場面内の対象物の数や分布状況などを予測して、現在の場面における人込みの動作を解析することができる。
【0135】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの具体的な実行順序は、その機能と内部の可能な論理によって決定されることが理解される。
【0136】
また、本開示はさらに、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供する。これらはいずれも、本開示のいずれかの画像処理方法の実施に用いられることができる。かかる発明及び説明は、方法に関する説明のかかる記載を参照すればよく、詳細な説明を省略する。
【0137】
図4は本開示の実施例に係る画像処理装置のブロック図を示す。図4に示すように、前記画像処理装置は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第1特徴マップを取得するための特徴抽出モジュール41と、M段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュール42と、N段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュール43と、を含み、ここで、M、Nは1より大きい整数である。
【0138】
1つの可能な実施形態では、前記符号化モジュールは、第1段の符号化ネットワークによって前記第1特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1符号化サブモジュールと、第m段の符号化ネットワークによって第m-1段の符号化後のm個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第m段の符号化後のm+1個の特徴マップを取得するための第2符号化サブモジュールと、第M段の符号化ネットワークによって第M-1段の符号化後のM個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第M段の符号化後のM+1個の特徴マップを取得するための第3符号化サブモジュールと、を含み、mは整数で1<m<Mである。
【0139】
1つの可能な実施形態では、前記第1符号化サブモジュールは、前記第1特徴マップをスケールダウンし、第2特徴マップを取得するための第1縮小サブモジュールと、前記第1特徴マップと前記第2特徴マップを融合させ、第1段の符号化後の第1特徴マップ及び第1段の符号化後の第2特徴マップを取得するための第1融合サブモジュールと、を含む。
【0140】
1つの可能な実施形態では、前記第2符号化サブモジュールは、第m-1段の符号化後のm個の特徴マップに対してスケールダウン及び融合を行い、スケールが第m-1段の符号化後のm個の特徴マップのスケールよりも小さいm+1番目の特徴マップを取得するための第2縮小サブモジュールと、前記第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップを融合させ、第m段の符号化後のm+1個の特徴マップを取得するための第2融合サブモジュールと、を含む。
【0141】
1つの可能な実施形態では、前記第2縮小サブモジュールは、第m段の符号化ネットワークの畳み込みサブネットワークによって第m-1段の符号化後のm個の特徴マップをそれぞれスケールダウンし、スケールが前記m+1番目の特徴マップのスケールと同じであるスケールダウン後のm個の特徴マップを取得し、前記スケールダウン後のm個の特徴マップに対して特徴融合を行い、前記m+1番目の特徴マップを取得する。
【0142】
1つの可能な実施形態では、前記第2融合サブモジュールは、第m段の符号化ネットワークの特徴最適化サブネットワークによって第m-1段の符号化後のm個の特徴マップ及び前記m+1番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のm+1個の特徴マップを取得し、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得する。
【0143】
1つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも1つの第1畳み込み層を含み、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記特徴最適化サブネットワークは少なくとも2つの第2畳み込み層及び残差層を含み、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1であり、前記m+1個の融合サブネットワークは最適化後のm+1個の特徴マップに対応する。
【0144】
1つの可能な実施形態では、m+1個の融合サブネットワーク内のk番目の融合サブネットワークの場合、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、少なくとも1つの第1畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも大きいk-1個の特徴マップをスケールダウンし、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールダウン後のk-1個の特徴マップを取得すること、及び/又はアップサンプリング層及び第3畳み込み層によってスケールが特徴最適化後のk番目の特徴マップよりも小さいm+1-k個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のk番目の特徴マップのスケールと同じであるスケールアップ後のm+1-k個の特徴マップを取得することと、を含み、ここで、kは整数で1≦k≦m+1であり、前記第3畳み込み層の畳み込みカーネルサイズは1×1である。
【0145】
1つの可能な実施形態では、第m段の符号化ネットワークのm+1個の融合サブネットワークによって前記特徴最適化後のm+1個の特徴マップをそれぞれ融合させ、第m段の符号化後のm+1個の特徴マップを取得することは、前記スケールダウン後のk-1個の特徴マップ、前記特徴最適化後のk番目の特徴マップ及び前記スケールアップ後のm+1-k個の特徴マップのうちの少なくとも2項を融合させ、第m段の符号化後のk番目の特徴マップを取得することをさらに含む。
【0146】
1つの可能な実施形態では、前記復号化モジュールは、第1段の復号化ネットワークによって第M段の符号化後のM+1個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第1段の復号化後のM個の特徴マップを取得するための第1復号化サブモジュールと、第n段の復号化ネットワークによって第n-1段の復号化後のM-n+2個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第n段の復号化後のM-n+1個の特徴マップを取得するための第2復号化サブモジュールと、第N段の復号化ネットワークによって第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第3復号化サブモジュールと、を含み、ここで、nは整数で1<n<N≦Mである。
【0147】
1つの可能な実施形態では、前記第2復号化サブモジュールは、第n-1段の復号化後のM-n+2個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のM-n+1個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のM-n+1個の特徴マップを融合させ、第n段の復号化後のM-n+1個の特徴マップを取得するための第3融合サブモジュールと、を含む。
【0148】
1つの可能な実施形態では、前記第3復号化サブモジュールは、第N-1段の復号化後のM-N+2個の特徴マップに対してマルチスケール融合を行い、第N段の復号化後の対象特徴マップを取得するための第4融合サブモジュールと、前記第N段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含む。
【0149】
1つの可能な実施形態では、前記拡大サブモジュールは、第n段の復号化ネットワークのM-n+1個の第1融合サブネットワークによって第n-1段の復号化後のM-n+2個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得し、第n段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のM-n+1個の特徴マップをそれぞれスケールアップし、スケールアップ後のM-n+1個の特徴マップを取得する。
【0150】
1つの可能な実施形態では、前記第3融合サブモジュールは、第n段の復号化ネットワークのM-n+1個の第2融合サブネットワークによって前記スケールアップ後のM-n+1個の特徴マップを融合させ、融合後のM-n+1個の特徴マップを取得し、第n段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のM-n+1個の特徴マップをそれぞれ最適化し、第n段の復号化後のM-n+1個の特徴マップを取得する。
【0151】
1つの可能な実施形態では、前記結果決定サブモジュールは、前記第N段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定する。
【0152】
1つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも1つの第1畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも1つの第2畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第1特徴マップを取得するための最適化サブモジュールとを含む。
【0153】
1つの可能な実施形態では、前記第1畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが2であり、前記第2畳み込み層は畳み込みカーネルサイズが3×3であり、ストライドが1である。
【0154】
1つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記M段の符号化ネットワーク及び前記N段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含む。
【0155】
いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明を省略する。
【0156】
本開示の実施例はさらに、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は、コンピュータ読み取り可能な不揮発性記憶媒体であってもよく、またはコンピュータ読み取り可能な揮発性記憶媒体であってもよい。
【0157】
本開示の実施例はさらに、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。
【0158】
本開示の実施例はさらに、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。
【0159】
電子機器は、端末、サーバー又はその他の形態の機器として提供できる。
【0160】
図5は本開示の実施例に係る電子機器800のブロック図を示す。電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
【0161】
図5参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0162】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0163】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0164】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0165】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0166】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0167】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0168】
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0169】
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標/BT)技術および他の技術によって実現できる。
【0170】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0171】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
【0172】
図6は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバーとして提供されてもよい。図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0173】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0174】
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
【0175】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0176】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0177】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0178】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0179】
ここで、本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0180】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0181】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0182】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0183】
論理に反することなく、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例には重点を置いて説明したが、重点を置いて説明しなかった部分については、他の実施例の記載を参照すれば明らかである。
【0184】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【0185】
本願は2019年7月18日に中国特許庁に出願された、出願番号が201910652028.6で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容全体が援用により本開示に組み込まれる。
図1
図2A
図2B
図2C
図3
図4
図5
図6