IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シェンチェン センスタイム テクノロジー カンパニー リミテッドの特許一覧

特表2022-532322画像処理方法及び装置、電子機器並びに記憶媒体
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-14
(54)【発明の名称】画像処理方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220707BHJP
   G06N 3/04 20060101ALI20220707BHJP
【FI】
G06T7/00 350C
G06N3/04
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021566025
(86)(22)【出願日】2021-03-19
(85)【翻訳文提出日】2021-11-05
(86)【国際出願番号】 CN2021081782
(87)【国際公開番号】W WO2021208667
(87)【国際公開日】2021-10-21
(31)【優先権主張番号】202010306929.2
(32)【優先日】2020-04-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
2.SMALLTALK
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】ワン シンジアン
(72)【発明者】
【氏名】ジャン シーロン
(72)【発明者】
【氏名】フォン リートン
(72)【発明者】
【氏名】ジャン ウェイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA03
5L096FA16
5L096GA30
5L096HA11
5L096JA11
5L096JA13
5L096JA22
5L096KA04
(57)【要約】
本開示の実施例は、画像処理方法、装置、電子機器、記憶媒体及びプログラム製品を提供し、前記画像処理方法は、処理対象画像に対してMレベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、Mは、1より大きい整数であることと、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含むことと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む。本開示の実施例は、目標検出効果を向上させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像処理方法であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、ことと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、ことと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む、
画像処理方法。
【請求項2】
第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、前記3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと前記3番目の第iレベルの第3特徴マップとの尺度は同じである、
請求項1に記載の画像処理方法。
【請求項3】
第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである、
請求項1又は2に記載の画像処理方法。
【請求項4】
第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである、
請求項1ないし3のいずれか一項に記載の画像処理方法。
【請求項5】
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項2ないし4のいずれか一項に記載の画像処理方法。
【請求項6】
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項3に記載の画像処理方法。
【請求項7】
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項4に記載の画像処理方法。
【請求項8】
前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む、
請求項5ないし7のいずれか一項に記載の画像処理方法。
【請求項9】
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、
j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、
P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む、
請求項5ないし8のいずれか一項に記載の画像処理方法。
【請求項10】
各レベルの融合ネットワークブロックは正規化層を更に含み、
前記j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、
前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、
前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む、
請求項9に記載の画像処理方法。
【請求項11】
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることは、
前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、
前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、ことと、を含む、
請求項1ないし10のいずれか一項に記載の画像処理方法。
【請求項12】
画像処理装置であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュールであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、特徴抽出モジュールと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュールであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、尺度調整及び融合モジュールと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュールと、を備える、
画像処理装置。
【請求項13】
第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、
前記尺度調整及び融合モジュールは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得るように構成される第1尺度縮小サブモジュールと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得るように構成される第1変換サブモジュールと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得るように構成される第1尺度拡大サブモジュールと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、前記3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得るように構成される第1融合サブモジュールと、を備え、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと前記3番目の第iレベルの第3特徴マップとの尺度は同じである、
請求項12に記載の画像処理装置。
【請求項14】
第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得るように構成される第2変換サブモジュールと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得るように構成される第2尺度拡大サブモジュールと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得るように構成される第2融合サブモジュールと、を備え、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである、
請求項12又は13に記載の画像処理装置。
【請求項15】
第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得るように構成される第2尺度縮小サブモジュールと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得るように構成される第3変換サブモジュールと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得るように構成される第3融合サブモジュールと、を備え、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである、
請求項12ないし14のいずれか一項に記載の画像処理装置。
【請求項16】
前記第1尺度縮小サブモジュールは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第1変換サブモジュールは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第1尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項13ないし15のいずれか一項に記載の画像処理装置。
【請求項17】
前記第2変換サブモジュールは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、前記第2尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項15に記載の画像処理装置。
【請求項18】
前記第2尺度縮小サブモジュールは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第3変換サブモジュールは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項16に記載の画像処理装置。
【請求項19】
前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む、
請求項16ないし18のいずれか一項に記載の画像処理装置。
【請求項20】
前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記尺度調整及び融合モジュールは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力するように構成される第1融合サブモジュールと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力するように構成される第2融合サブモジュールと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力するように構成される第3融合サブモジュールと、を備える、
請求項16ないし19のいずれか一項に記載の画像処理装置。
【請求項21】
各レベルの融合ネットワークブロックは正規化層を更に含み、前記第2融合サブモジュールは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得るように構成される、
請求項20に記載の画像処理装置。
【請求項22】
前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記目標検出モジュールは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定するように構成される回帰サブモジュールと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定するように構成される分類サブモジュールであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、分類サブモジュールと、を備える、
請求項13ないし21のいずれか一項に記載の画像処理装置。
【請求項23】
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して、請求項1ないし11のいずれか一項に記載の画像処理方法を実行するように構成される、
電子機器。
【請求項24】
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし11のいずれか一項に記載の画像処理方法を実現する、
コンピュータ可読記憶媒体。
【請求項25】
1つ又は複数の命令を含むコンピュータプログラム製品であって、
前記1つ又は複数の命令は、プロセッサに、請求項1ないし11のいずれか一項に記載の画像処理方法を実行させる、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、2020年04月17日に中国特許局に提出された、出願番号が202010306929.2である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本開示に組み込まれる。
[技術分野]
本開示は、コンピュータ技術分野に関し、特に、画像処理方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0002】
深層学習による画像への処理プロセスでは、通常、画像内の目標(例えば、物体、動物、歩行者)を検出して、画像内の目標の位置やカテゴリなどの情報を決定する必要がある。ただし、画像内の近距離と遠距離の羊のような、画像内の目標の尺度がかなり異なる場合がある。関連技術では、画像の尺度の差異が大きい目標の検出効果が芳しくない。
【発明の概要】
【0003】
本開示は、画像処理の技術方案を提案する。
【0004】
本開示の一態様によれば、画像処理方法を提供し、前記画像処理方法は、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なること、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、各特徴マップ組は、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含むことと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む。
【0005】
本開示のいくつかの実施例において、第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。
【0006】
このようにして、第iレベルの第1特徴マップに対応する特徴マップ組に対して、尺度の大きい第i-1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に縮小し、尺度の小さい第i+1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に拡大することにより、当該特徴マップ組の各特徴マップの尺度を統一することができる。
【0007】
本開示のいくつかの実施例において、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。
【0008】
このようにして、第1レベルの第1特徴マップの場合、前レベルの特徴マップがなく、第1レベルの第1特徴マップ自身と、隣接する第2レベルの第1特徴マップとだけを処理することができ、得られた1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとを加算して、第1レベルの第2特徴マップを得る。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。
【0009】
本開示のいくつかの実施例において、第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。
【0010】
このようにして、第Mレベルの第1特徴マップの場合、その次のレベルの特徴マップがなく、第Mレベルの第1特徴マップ自身と、隣接する第M-1レベルの第1特徴マップとだけを処理することができ、得られた1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとを加算して、第Mレベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。
【0011】
本開示のいくつかの実施例において、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズはnであり、N、nは、1より大きい整数であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0012】
このようにして、異なる畳み込み層を設定することにより、第iレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができ、後続の融合処理のために、特徴マップ組の各特徴マップの尺度を統一することができる。
【0013】
本開示のいくつかの実施例において、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、Nは、1より大きい整数であり、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0014】
このようにして、異なる畳み込み層を設定することにより、第1レベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。
【0015】
本開示のいくつかの実施例において、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズはnであり、N、nは、1より大きい整数であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0016】
このようにして、異なる畳み込み層を設定することにより、第Mレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。
【0017】
本開示のいくつかの実施例において、前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。
【0018】
このようにして、第2畳み込み層及び第3畳み込み層が変形可能な畳み込み層である場合、別途的な畳み込み層を設定することによってオフセットを学習し、その後、入力された特徴マップ及びオフセットを両方とも、変形可能な畳み込み層の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことができる。第2畳み込み層及び第3畳み込み層が膨張畳み込み層である場合、膨張畳み込みの膨張率を事前に設定することにより、畳み込みの受容野を適切に調整するのに役に立ち、特徴マップ融合の効果を更に向上させることができる。
【0019】
本開示のいくつかの実施例において、前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む。
【0020】
このようにして、直接接続されたPレベルの融合ネットワークブロックによって画像を処理することにより、融合効果を更に向上させることができる。
【0021】
本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは正規化層を更に含み、前記j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む。
【0022】
このようにして、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行することにより、トレーニングプロセスを効果的に安定させ、性能を更に向上させることができ、特に、検出タスクのバッチが比較的に小さい場合、聯合バッチ正規化によって優れる効果をもたらすことができる。
【0023】
本開示のいくつかの実施例において、前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含むことと、を含む。
【0024】
このようにして、回帰ネットワーク及び分類ネットワークはそれぞれ、目標検出の回帰タスク及び分類タスクを実現するために用いられる。
【0025】
本開示の一態様によれば、画像処理装置を提供し、前記画像処理装置は、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュールであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる特徴抽出モジュールと、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュールであって、特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む尺度調整及び融合モジュールと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュールと、を備える。
【0026】
本開示の一態様によれば、電子機器を提供し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令が記憶されているメモリと、を備え、ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記の画像処理方法を実行するように構成される。
【0027】
本開示の一態様によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の画像処理方法を実現する。
【0028】
本開示の一態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、1つ又は複数の命令を含み、前記1つ又は複数の命令は、プロセッサに、上記の画像処理方法を実行させる。
【0029】
本開示の実施例では、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。
【0030】
上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本開示を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴及び態様は明らかになる。
【図面の簡単な説明】
【0031】
図1a】本開示の実施例に係る画像処理方法のフローチャートを示す。
図1b】多次元の特徴の組み合わせを生成するための4つの異なる方法の概略図を示す。
図1c】変形可能な畳み込み層の動作原理の概略図を示す。
図2a】関連技術に係るバッチ正規化の概略図を示す。
図2b】関連技術に係るバッチ正規化の概略図を示す。
図2c】本開示の実施例に係る聯合バッチ正規化の概略図を示す。
図3a】関連技術に係る検出器の概略図を示す。
図3b】本開示の実施例に係る画像処理ネットワークの概略図を示す。
図4】本開示の実施例に係る画像処理装置のブロック図を示す。
図5】本開示の実施例に係る電子機器のブロック図を示す。
図6】本開示の実施例に係る電子機器のブロック図を示す。
【発明を実施するための形態】
【0032】
上記の図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本開示と合致する実施例を示し、明細書とともに本開示の技術的解決策を説明するために使用される。
【0033】
以下、本開示の様々な例示的な実施例、特徴及び態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じ又は類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
【0034】
明細書における「例示的」という記載は、「例、実施例又は説明として使用される」ことを意味する。ここで、「例示的」として記載される任意の実施例は、他の実施例より適切であるか又は優れると解釈される必要はない。
【0035】
本明細書における「及び/又は」という用語は、単に関連対象の関連関係を表し、3種類の関係が存在し得ることを示し、例えば、A及び/又はBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合のような3つの場合を表す。更に、本明細書における「少なくとも1つ」という用語は、複数のうちの1つ又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCで構成された集合から選択された任意の1つ又は複数の要素を含むことを示す。
【0036】
更に、本開示をよりよく説明するために、以下の実施形態において、多数の詳細が記載されている。当業者は、幾つかの詳細が記載されなくても本開示が実施できることを理解されたい。いくつかの実施例において、本開示の要旨を強調するために、当業者に周知の方法、手段、要素及び回路について詳細に説明しない。
【0037】
図1aは、本開示の実施例に係る画像処理方法のフローチャートを示し、図1aに示されたように、前記画像処理方法は、次のステップを含む。
【0038】
ステップS11において、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる。
【0039】
ステップS12において、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得、ここで、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む。
【0040】
ステップS13において、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得る。
【0041】
本開示のいくつかの実施例において、前記画像処理方法は、端末機器又はサーバなどの電子機器によって実行され、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよく、前記方法は、プロセッサがメモリに記憶されたコンピュータ読み取り可能な命令を呼び出す方式により実現されることができ、あるいは、サーバによって前記方法を実行することができる。
【0042】
例えば、処理対象画像は、目標(例えば、物体、動物、歩行者など)を含む画像であってもよいし、処理対象画像は、画像収集機器(例えば、カメラ)によって収集されたものであってもよいし、他の方式によって取得されたものであってもよく、本開示はこれらに対して特に限定しない。
【0043】
本開示のいくつかの実施例において、ステップS11において、例えば、特徴ピラミッドネットワークによって処理対象画像に対して複数レベルの特徴抽出を実行することにより、ネットワークの異なる層から特徴マップを抽出し、処理対象画像のM(Mは、1より大きい整数である)レベルの第1特徴マップ(特徴ピラミッドとも呼ばれる)を取得することができる。ここで、Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる。当該特徴ピラミッドネットワークは、少なくともM層の畳み込み層やプーリング層などを含み得、本開示は、特徴ピラミッドネットワークのネットワーク構造に対して特に限定しない。単一尺度画像を使用して検出することにより、ストレージと計算のコストを低減することができる。
【0044】
図1bは、多次元の特徴の組み合わせを生成するための4つの異なる方法の概略図であり、前記図1bは、特徴化された画像ピラミッドを示す図(a)と、単一尺度の特徴を示す図(b)と、ピラミッド特徴階層構造を示す図(c)と、特徴ピラミッドネットワークを示す図(d)とを含み、図1bに示されたように、図1bの図(a)特徴化された画像ピラミッドは、画像ピラミッドを用いて特徴ピラミッドを構築する。各尺度の画像で独立して特徴を計算し、予測出力の速度が遅い。図1bの図(b)が単一尺度特徴の場合を示しており、検出システムは、単一尺度特徴のみを使用することにより、検出速度を速くさせ、予測を出力する。図1bの図(c)がピラミッド特徴階層構造の場合を示しており、ピラミッド特徴階層構造を複数回使用して予測を出力する。図1bの図(d)に示される特徴ピラミッドネットワークは、図(b)及び図(c)と同じく予測を出力する速度が速く、しかもそれらよりも精度が高い。このようにして、特徴ピラミッドネットワークのトップダウンプロセスは、アップサンプリングすることにより、最上層の小さな特徴マップを隣接する特徴マップと同じサイズに拡大する。これの利点は、最上層の強いセマンティック特徴を使用するだけでなく、最下層の高解像度情報も使用することである。
【0045】
後続の処理では、Mレベルの第1特徴マップを直接に融合する時に、異なる層間のセマンティック情報を融合することができるが、隣接する層間の特徴の相関性を表すことができない。この場合、ステップS12により、各レベルの第1特徴マップと、それに隣接する第1特徴マップとの融合を実現することができる。
【0046】
本開示のいくつかの実施例において、ステップS12において、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることができ、各特徴マップ組は、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む。例えば、任意の第1特徴マップに対して、隣接する2q個の特徴マップ(つまり、前後の其々q(q≧1)個の特徴マップを取得する)の尺度を当該第1特徴マップと同じ尺度に調整し、調整後の2q個の特徴マップと当該第1特徴マップとを加算して、当該第1特徴マップに対応する第2特徴マップを得、本開示はqの値に対して特に限定しない。
【0047】
本開示のいくつかの実施例において、第1特徴マップの特徴マップ組(第1特徴マップ及び隣接する2q個の特徴マップを含む)の尺度を特定の尺度に統一してもよく、例えば、特徴マップ組のすべての特徴マップを第1特徴マップの尺度の何倍に拡大し、又は第1特徴マップの尺度の数分の一に縮小する。そして、調整後の各特徴マップを加算して、当該第1特徴マップに対応する第2特徴マップを得る。本開示は、特徴マップ組への尺度調整の尺度範囲及び方式に対して特に限定しない。
【0048】
このようにして、特徴マップ次元の相関性と空間的次元の相関を取得することができ、融合された特徴マップの精度を向上させることができる。
【0049】
本開示のいくつかの実施例において、ステップS13において、Mレベルの第2特徴マップに対して目標検出を実行して、処理対象画像の目標検出結果を得ることができる。例えば、Mレベルの第2特徴マップに対してそれぞれ回帰処理と分類処理を実行する。回帰処理後、処理対象画像内の目標の所在画像領域(つまり、検出枠)を決定することができ、分類処理後、処理対象画像内の目標のカテゴリを決定することができる。当該処理対象画像の目標検出結果は、処理対象画像内の目標の所在画像領域(つまり、検出枠)及び目標のカテゴリなどを含み得る。
【0050】
本開示の実施例によれば、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。
【0051】
本開示のいくつかの実施例において、ステップS11により取得されたMレベルの第1特徴マップの各レベルの第1特徴マップの尺度は逓減的なものであっても良く、例えば、第1レベルの第1特徴マップの尺度は512×512であり、第2レベルの第1特徴マップの尺度は256×256であり、第3レベルの第1特徴マップの尺度は128×128である。本開示は、Mレベルの第1特徴マップの尺度の値に対して特に限定しない。
【0052】
本開示のいくつかの実施例において、Mレベルの第1特徴マップの第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップについて、第iレベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む。ここで、ステップS12は、
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、
ここで、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。
【0053】
例えば、第iレベルの第1特徴マップに対応する特徴マップ組に対して、尺度の大きい第i-1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に縮小し、尺度の小さい第i+1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に拡大することにより、当該特徴マップ組の各特徴マップの尺度を統一することができる。
【0054】
本開示のいくつかの実施例において、第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることができ、第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることができ、第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることができる。ここで、1番目の第iレベルの第3特徴マップと、2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。
【0055】
本開示のいくつかの実施例において、畳み込みやダウンサンプリングなどの方式により、尺度の縮小を実現し、逆畳み込み、アップサンプリング、及びステップサイズが1より小さい畳み込みなどの方式により、尺度の拡大を実現し、ステップサイズが1である畳み込み又は他の処理方式により、尺度が変更されないような変換を実現することができ、本開示は、これらに対して特に限定しない。
【0056】
本開示のいくつかの実施例において、1番目の第iレベルの第3特徴マップ、2番目の第iレベルの第3特徴マップ及び3番目の第iレベルの第3特徴マップを直接加算し、又は事前設定された重みに従って加算及び融合することにより、第iレベルの第2特徴マップを得ることができ、当該第iレベルの第2特徴マップの尺度と第iレベルの第1特徴マップの尺度は同じである。これにより、隣接する特徴マップの融合を実現し、特徴の抽出効果を向上させることができる。
【0057】
本開示のいくつかの実施例において、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0058】
例えば、異なる畳み込み層を設定することにより、第iレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。
【0059】
本開示のいくつかの実施例において、第1畳み込み層によって、第i-1レベルの第1特徴マップを畳み込んで、1番目の第iレベルの第3特徴マップを得る。当該第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、畳み込むことにより尺度の縮小を実現する。例えば、第i-1レベルの第1特徴マップの尺度は256×256であり、第iレベルの第1特徴マップの尺度は128×128である場合、n=2であり、即ち、第i-1レベルの第1特徴マップの長さと幅が両方とも、第iレベルの第1特徴マップの長さと幅の2倍である。畳み込み後、取得された1番目の第iレベルの第3特徴マップの尺度は128×128である。ここで、Nは例えば3であり、本開示は、Nとnの値に対して特に限定しない。
【0060】
本開示のいくつかの実施例において、第2畳み込み層によって第iレベルの第1特徴マップを畳み込んで、2番目の第iレベルの第3特徴マップを得ることができ、当該第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、つまり、畳み込むことにより尺度が変更されないような変換を実現することができる。例えば、第iレベルの第1特徴マップの尺度は128×128であり、畳み込み後、取得された2番目の第iレベルの第3特徴マップの尺度は128×128である。理解できることとして、当業者は、他の方式を用いて尺度が変更されないような変換を実現することができ、本開示は、これらに対して特に限定しない。
【0061】
本開示のいくつかの実施例において、第3畳み込み層及びアップサンプリング層によって、第i+1レベルの第1特徴マップを畳み込んでn倍のアップサンプリングを行い、3番目の第iレベルの第3特徴マップを得ることができ、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、つまり畳み込み及びアップサンプリングすることにより尺度の拡大を実現することができる。例えば、第i+1レベルの第1特徴マップの尺度が64×64であり、第iレベルの第1特徴マップの尺度が128×128である場合、n=2である。畳み込み及び2倍のアップサンプリング後、取得された3番目の第iレベルの第3特徴マップの尺度は128×128である。理解できることとして、当業者は、逆畳み込みやステップサイズが1/nである畳み込みなど、他の方式を用いて尺度の拡大を実現することができ、本開示は、これらに対して特に限定しない。
【0062】
これにより、特徴マップ組の各特徴マップの尺度を統一することにより、後続の融合処理に役に立つことができる。
【0063】
本開示のいくつかの実施例において、1番目の第iレベルの第3特徴マップと、2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを直接加算して、第iレベルの第2特徴マップを得る。全体的な処理プロセスは、次の通りである。
【0064】
Y^i=Upsample(w^1*x^(i+1) )+w^0*x^i+ w^(-1) *_(s=2) x^(i-1) 式(1)
対応するコードは、次の通りである。
【0065】
【数1】
【0066】
式(1)では、Y^iは、第iレベルの第2特徴マップを表し、x^(i+1)、x^i及びx^(i-1)は、それぞれ、第i+1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i-1レベルの第1特徴マップを表し、w^1、w^0及びw^(-1)は、それぞれ、第3畳み込み層、第2畳み込み層及び第1畳み込み層の重みを表し、*は、畳み込み操作を表し、sは、ステップサイズを表し、Upsampleは、アップサンプリング操作を表す。
【0067】
式(1)の処理プロセスは、ピラミッド畳み込み又は尺度空間畳み込みとも呼ばれる。当該ピラミッド畳み込み処理は、隣接する層情報を融合した第2特徴マップを得ることができ、後続の目標検出効果を効果的に向上させることができる。
【0068】
本開示のいくつかの実施例において、Mレベルの第1特徴マップの第1レベルの第1特徴マップについて、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含む。ここで、ステップS12は、
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。
【0069】
例えば、第1レベルの第1特徴マップの場合、前レベルの特徴マップがなく、第1レベルの第1特徴マップ自身と、隣接する第2レベルの第1特徴マップとだけを処理することができる。
【0070】
本開示のいくつかの実施例において、第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得、第2レベルの第1特徴マップの尺度を拡大して、2番目の第iレベルの第3特徴マップを得ることができる。ここで、1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとの尺度は同じである。
【0071】
本開示のいくつかの実施例において、1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとを加算して、第1レベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。
【0072】
本開示のいくつかの実施例において、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0073】
つまり、異なる畳み込み層を設定することにより、第1レベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。第2畳み込み層によって第1レベルの第1特徴マップを畳み込んで、1番目の第1レベルの第3特徴マップを得、つまり畳み込みにより尺度が変更されないような変換を実現することができ、第3畳み込み層及びアップサンプリング層によって、第2レベルの第1特徴マップを畳み込んでn倍のアップサンプリングを行い、2番目の第1レベルの第3特徴マップを得、つまり畳み込み及びアップサンプリングすることにより尺度の拡大を実現することができる。処理方式は、上記の説明と同じであり、ここでは繰り返して記載しない。
この方式により、特徴マップ組の各特徴マップの尺度を統一し、後続に融合するのに便利をもたらすことができる。
【0074】
本開示のいくつかの実施例において、Mレベルの第1特徴マップの第Mレベルの第1特徴マップについて、第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含む。ここで、ステップS12は、
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、
ここで、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。
【0075】
例えば、第Mレベルの第1特徴マップの場合、その次のレベルの特徴マップがなく、第Mレベルの第1特徴マップ自身と、隣接する第M-1レベルの第1特徴マップとだけを処理することができる。
【0076】
本開示のいくつかの実施例において、第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることができ、第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることができる。ここで、1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとの尺度は同じである。
【0077】
本開示のいくつかの実施例において、1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとを加算して、第Mレベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。
【0078】
本開示のいくつかの実施例において、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
【0079】
つまり、異なる畳み込み層を設定することにより、第Mレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。第1畳み込み層によって、第M-1レベルの第1特徴マップを畳み込んで、1番目の第Mレベルの第3特徴マップを得、つまり畳み込むことにより尺度の縮小を実現し、第2畳み込み層によって第Mレベルの第1特徴マップを畳み込んで、2番目の第Mレベルの第3特徴マップを得、つまり畳み込むことにより尺度が変更されないように変換を実行することができる。処理方式は、上記の説明と同じであり、ここでは繰り返して記載しない。この方式により、特徴マップ組の各特徴マップの尺度を統一し、後続に融合するのに便利をもたらすことができる。
【0080】
本開示のいくつかの実施例において、第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。
【0081】
図1cは、変形可能な畳み込み層の動作原理の概略図であり、前記畳み込み層は、入力特徴マップ11、変形可能な畳み込み層12、畳み込み13、オフセット14及び出力特徴マップ15を含む。図1cに示されたように、先ず、別途的な畳み込み13を使用してオフセット14を学習し、入力特徴マップ11を共有する。その後、入力特徴マップ11及びオフセット14を両方とも、変形可能な畳み込み層12の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことにより、出力特徴マップ15を取得する。
【0082】
ピラミッド畳み込みが最下層に移動した後、ピラミッド畳み込みのうちの通常の畳み込みは、変形可能な畳み込み又は膨張畳み込みに置き換えることができるが、最下層の畳み込みと重みを共有する。これにより、特徴マップの異なる位置で受容野を動的に調整して、下層の特徴マップの通常の畳み込みとの位置合わせを実現することができる。この場合、調整後のピラミッド畳み込みは、均一の尺度を有するピラミッド畳み込みとも呼ばれる。
【0083】
つまり、第iレベルの第1特徴マップに対応する特徴マップ組の場合、第i-1レベルの第1特徴マップに対応する第1畳み込み層は通常の畳み込みであり、第iレベルの第1特徴マップに対応する第2畳み込み層及び第i+1レベルの第1特徴マップに対応する第3畳み込み層は、変形可能な畳み込み又は膨張畳み込みである。
【0084】
本開示のいくつかの実施例において、第2畳み込み層及び第3畳み込み層が変形可能な畳み込み層である場合、別途的な畳み込み層を設定することによってオフセットを学習した後、入力された特徴マップ及びオフセットを両方とも、変形可能な畳み込み層の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことができる。
【0085】
本開示のいくつかの実施例において、第2畳み込み層及び第3畳み込み層が膨張畳み込み層である場合、膨張畳み込みの膨張率を事前に設定することにより、畳み込みの受容野を適切に調整するのに役に立つことができる。本開示は、膨張率の設定に対して特に限定しない。
【0086】
これにより、畳み込みの受容野を適切に調整し、特徴マップの融合効果を更に向上させることができる。
【0087】
本開示のいくつかの実施例において、本開示の実施例に係る画像処理方法は、画像処理ネットワークによって実現されることができ、当該画像処理ネットワークは、処理対象画像に対して複数レベルの特徴抽出を実行するための特徴ピラミッドネットワークを含み得る。
【0088】
本開示のいくつかの実施例において、当該画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み得、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含む。
【0089】
本開示のいくつかの実施例において、尺度調整プロセス及び融合プロセスを複数回実行することができ、当該プロセスは、Pレベルの融合ネットワークブロックによって実現されることができ、各レベルの融合ネットワークブロック(PConvと略称できる)は、隣接する特徴マップで構成された各特徴マップ組を処理するための、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含む。Pは例えば4であり、本開示は、Pの値に対して特に限定しない。
【0090】
本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは、複数の特徴マップ組を処理することができ、各特徴マップ組は、特徴マップ組の各特徴マップを畳み込むための1つの畳み込み層組に対応する。例えば、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む特徴マップ組に対して、当該特徴マップ組に対応する畳み込み層組は、第1畳み込み層、第2畳み込み層、第3畳み込み層及びアップサンプリング層を含み、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップをそれぞれ畳み込むためのものである。
【0091】
本開示のいくつかの実施例において、ステップS12は、
前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、
j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、
P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む。
【0092】
例えば、Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目の尺度調整及び融合を実行して、1回目に融合されたMレベルの第4特徴マップを出力し、1回目に融合されたMレベルの第4特徴マップを次のレベルの融合ネットワークブロックに入力することができる。j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目の尺度調整及び融合を実行して、j回目に融合されたMレベルの第4特徴マップを出力することができる。P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、P回目の尺度調整及び融合を実行して、Mレベルの第2特徴マップを出力することができる。
【0093】
これにより、融合効果を更に向上させることができる。
【0094】
本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは、融合後の特徴マップを正規化するための正規化層を更に含む。ここで、j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、
前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、
前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む。
【0095】
例えば、j回目の尺度調整及び融合は、第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることができる。
【0096】
例えば、バッチ正規化の入力パラメータは、B={x1...m}、拡大倍数γ、オフセット係数β(学習されるパラメータ)である。
【0097】
バッチ正規化の出力は、次の通りである。
【0098】
【数2】
【0099】
学習される拡大倍数γ、オフセット係数βを戻す。
【0100】
ここで、式(2)は、標準化後のネットワークの応答の式であり、式(3)は、バッチ処理データの平均値を計算するための式であり、式(4)は、バッチ処理データの分散を計算するための式であり、式(5)は、正規化のための式であり、式(6)は、尺度変換及びオフセットのための式である。
【0101】
本開示のいくつかの実施例において、第jレベルの融合ネットワークブロックは、j-1回目に融合されたMレベルの第4特徴マップに対応する複数の特徴マップ組を処理することができ、各特徴マップ組は、特徴マップ組の各特徴マップを畳み込むための1つの畳み込み層組に対応する。例えば、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む特徴マップ組に対して、当該特徴マップ組に対応する畳み込み層組は、第1畳み込み層、第2畳み込み層、第3畳み込み層及びアップサンプリング層を含み、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップをそれぞれ畳み込むためのものである。
【0102】
本開示のいくつかの実施例において、正規化層によって、j回目に融合されたMレベルの中間特徴マップの統計値(例えば、平均値と分散)を統計し、j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行し、正規化された結果を、j回目に融合されたMレベルの第4特徴マップとして決定する。
【0103】
図2a及び図2bは、関連技術に係るバッチ正規化の概略図を示し、図2cは、本開示の実施例に係る聯合バッチ正規化の概略図を示す。ここで、畳み込み層21処理後、複数の特徴マップ(図2a、図2b及び図2cでは、2つの特徴マップを例として説明する)を出力し、バッチ正規化層(BNと略称)22によって、複数の特徴マップに対してそれぞれバッチ正規化を実行し、バッチ正規化後、活性化層(例えば、ReLU層)23によって活性化する。ここで、γ及びβは、それぞれ、拡大倍数及びオフセット係数を表し、これらは、学習することにより取得でき、μ及びσは、それぞれ、平均値及び標準偏差を表し、これらは統計で取得できる。
【0104】
関連技術において、図2aに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βを共有させて、各特徴マップの平均値μ及び標準偏差σをそれぞれ統計するようにすることができ、図2bに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βをそれぞれ学習させて、各特徴マップの平均値μ及び標準偏差σをそれぞれ統計することができる。
【0105】
本開示の実施例に係る聯合バッチ正規化処理において、図2cに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βを共有させて、全ての特徴マップの平均値μ及び標準偏差σを共同に統計するようにすることができる。
【0106】
全ての尺度の特徴マップの統計値を共同に統計することにより、トレーニングプロセスを効果的に安定させ、性能を更に向上させることができ、特に、検出タスクのバッチが比較的小さい場合、聯合バッチ正規化によって優れる効果をもたらすことができる。
【0107】
本開示のいくつかの実施例において、当該画像処理ネットワークは、目標検出の回帰タスク及び分類タスクを実現するための回帰ネットワーク及び分類ネットワークを更に含み得る。ここで、回帰ネットワーク及び分類ネットワークは、畳み込み層、活性化層、全結合層などを含み得、本開示は、回帰ネットワーク及び分類ネットワークのネットワーク構造に対して特に限定しない。
【0108】
本開示の実施例では、ステップS13は、
前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、
前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、ことと、を含み得る。
【0109】
例えば、Mレベルの第2特徴マップに従って目標検出の回帰タスク及び分類タスクを実現することができる。Mレベルの第2特徴マップを回帰ネットワークに入力して回帰処理することにより、処理対象画像内の目標に対応する画像枠を取得することができ、Mレベルの第2特徴マップを分類ネットワークに入力して処理することにより、処理対象画像内の目標のカテゴリを決定することができる。ここで、処理対象画像的目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含み得る。
【0110】
関連技術における検出器は、通常、回帰タスク及び分類タスクのために、それぞれ回帰ヘッダ及び分類ヘッダを設計する。本開示の実施例に係る画像処理ネットワークは、Pレベルの融合ネットワークブロック(ピラミッド畳み込みを使用する)を回帰タスクと分類タスクとの組み合わせヘッダとして利用し、受容野への2つのタスクの微弱な違いのみに従って、共有しない畳み込みを回帰ネットワーク及び分類ネットワークに追加し、これによって、計算量を大幅に低減させるとともに、性能も損なわない。
【0111】
図3aは、関連技術に係る検出器の概略図を示し、図3bは、本開示の実施例に係る画像処理ネットワークの概略図を示す。
【0112】
図3aに示されたように、関連技術における検出器は、回帰タスク及び分類タスクのために、それぞれ回帰ヘッダ31及び分類ヘッダ32を設計し、これらは、それぞれ、複数レベルのネットワークブロック(例えば、畳み込みブロック)によって特徴マップを処理し、最後のレベルのネットワークブロックで回帰タスク及び分類タスクを実現し、回帰タスクによって、画像内のK個の目標の検出枠の4つの頂点座標を取得し、分類タスクによって、画像内のK個の目標のカテゴリ(合計C個のカテゴリがあると設定する)を取得する。ここで、各レベルのネットワークブロックは、畳み込み層、活性化層、全結合層などを含み得、本開示は、これらに対して特に限定しない。
【0113】
図3bに示されたように、本開示の実施例に係る画像処理ネットワークは、Pレベルの融合ネットワークブロック(P畳み込みブロックとも呼ばれる)を回帰タスクと分類タスクとの組み合わせヘッダ33として使用し、Mレベルの第1特徴マップを組み合わせヘッダ33によって処理した後、Mレベルの第2特徴マップを得る。Mレベルの第2特徴マップを回帰ネットワーク及び分類ネットワークの各自の追加ヘッダ34のネットワークブロックに入力して処理し、最後のレベルのネットワークブロック(畳み込み層、活性化層、全結合層などを含む)で回帰タスク及び分類タスクを実現する。回帰ネットワーク及び分類ネットワークの追加ヘッダ34は、少なくとも1つの畳み込み層を含み得る。受容野への回帰タスクと分類タスクの微弱な違いに従って、2つの追加ヘッダ34の畳み込み層に対して、異なる畳み込みパラメータを設定することができ、本開示は、これらに対して特に限定しない。
【0114】
図3bに示されたように、回帰タスクによって、画像内のK個の目標の検出枠の4つの頂点座標を取得し、分類タスクによって、画像内のK個の目標のカテゴリ(合計C個のカテゴリがあると設定する)を取得する。本開示は、追加ヘッダ34のネットワークブロック及び最後のレベルのネットワークブロックのネットワーク構造に対して特に限定しない。
【0115】
これにより、本開示の実施例に係る画像処理ネットワークは、計算量を大幅に低減させるとともに、性能を損なわないことができる。
【0116】
本開示のいくつかの実施例において、本開示の実施例に係る画像処理ネットワークを適用する前に、画像処理ネットワークをトレーニングすることができる。即ち、トレーニング集合内のサンプル画像を画像処理ネットワークに入力し、特徴ピラミッドネットワーク、Pレベルの融合ネットワークブロック、回帰ネットワーク及び分類ネットワークによって処理することで、サンプル画像のサンプル目標検出結果を取得し、複数のサンプル画像のサンプル目標検出結果とラベル付けの結果との差異に従って、ネットワーク損失を決定し、ネットワーク損失に従って画像処理ネットワークのパラメータを調整し、トレーニング条件(例えば、ネットワーク収束)を満たす場合、トレーニング後の画像処理ネットワークを取得する。本開示は、トレーニングプロセスに対して特に限定しない。
【0117】
本開示のいくつかの実施例において、特徴ピラミッドの隣接層間の特徴の相関性を更に利用するために、3次元の畳み込み形式として、ピラミッド畳み込みを提案し、即ち、特徴マップの次元及び空間的次元の相関性に同時に注目する。本開示の実施例に係る画像処理方法は、空間的に尺度の大きいピラミッド畳み込みによって、特徴ピラミッドの隣接層間の特徴の関連情報を融合し、特徴マップ次元と空間的次元の相関性をよりよく取得することができる。これにより、物体検出分野において、特徴ピラミッドが異なる尺度の特徴を抽出する場合、隣接層間の特徴の相関性を見逃して、異なる層間のセマンティック情報だけに関心を持つという問題を解決する。
【0118】
本開示のいくつかの実施例において、聯合バッチ正規化と、尺度空間的畳み込みと自然に組み合わせることにより、すべての尺度特徴マップの統計を全体的に統計し、トレーニングプロセスを効果的に安定化させ、性能を更に向上させ、これによって、バッチが小さい場合でもバッチ正規化を適用することができる。これにより、バッチ正規化が実際の応用で、データバッチが小さいときに正確な統計を取得できないため、物体検出分野でいつも十分に適用されていないという問題を解決する。
【0119】
本開示のいくつかの実施例において、通常の特徴ピラミッドとガウスピラミッドの差異を減らすために、本開示の実施例に係る画像処理方法は、通常の畳み込みの代わりに変形可能な畳み込みを使用でき、ピラミッド畳み込みを尺度が均一である畳み込みに改善し、これによって、通常の特徴ピラミッドとガウスピラミッドの差異を減らすことにより、異なる尺度の抽出を処理するときにネットワークがより合理的で効率的に処理するようにする。1段式の検出器は、共有ヘッダモジュールを用いて更なる特徴抽出を実行し、これにより、計算量を大幅に低減するとともに性能を損なわず、推理速度を速くさせることができる。これにより、現在の特徴ピラミッド及び共有ヘッダモジュールのパラメータへの設計が不合理であるという問題を解決する。
【0120】
本開示のいくつかの実施例において、本開示の実施例に係る画像処理方法は、尺度変化の大きいデータ集合において、非常に小さい速度損失で1段式の検出器の性能を大幅に向上させるとともに、2段式の検出器も有効であることを検出することができる。
【0121】
本開示の実施例に係る画像処理方法は、物体検出、歩行者検出などの場面に適用することができ、物体の尺度変化の大きい場面(例えば、物体がカメラからの近距離と遠距離に位置する)の検出タスクを実現することができ、検出性能と検出速度を同時に向上させることができる。
【0122】
本開示で述べた上述の各方法の実施例は、原理及び論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、紙数に限りがあるので、本開示を繰り返して説明しないことを理解されたい。
【0123】
当業者は、実施形態の上記の方法において、各ステップの実行順序はそれらの機能と可能な内部ロジックによって決定されることを理解することができる。
【0124】
なお、本開示は、本開示で提供する任意の画像処理方法を実現するために使用されることができる、画像処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供し、対応する技術的解決策及び説明は、方法部分の対応する説明を参照することができ、ここでは繰り返して説明しない。
【0125】
図4は、本開示の実施例に係る画像処理装置のブロック図を示し、図4に示されたように、前記画像処理装置は、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュール41であって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、特徴抽出モジュール41と、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュール42であって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、尺度調整及び融合モジュール42と、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュール43と、を備える。
【0126】
本開示のいくつかの実施例において、第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得るように構成される第1尺度縮小サブモジュールと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得るように構成される第1変換サブモジュールと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得るように構成される第1尺度拡大サブモジュールと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得るように構成される第1融合サブモジュールと、を備え、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。本開示のいくつかの実施例において、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得るように構成される第2変換サブモジュールと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得るように構成される第2尺度拡大サブモジュールと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得るように構成される第2融合サブモジュールと、を備え、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得るように構成される第2尺度縮小サブモジュールと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得るように構成される第3変換サブモジュールと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得るように構成される第3融合サブモジュールと、を備え、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。本開示のいくつかの実施例において、前記第1尺度縮小サブモジュール配置は、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第1変換サブモジュールは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第1尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2変換サブモジュールは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、前記第2尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2尺度縮小サブモジュールは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第3変換サブモジュールは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。本開示のいくつかの実施例において、前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記尺度調整及び融合モジュールは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力するように構成される第1融合サブモジュールと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力するように構成される第2融合サブモジュールと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力するように構成される第3融合サブモジュールと、を備える。本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは正規化層を更に含み、前記第2融合サブモジュールは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得るように構成される。本開示のいくつかの実施例において、前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記目標検出モジュールは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定するように構成される回帰サブモジュールと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定するように構成される分類サブモジュールであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、分類サブモジュールと、を備える。
【0127】
いくつかの実施例において、本開示の実施例で提供される装置の機能又はモジュールは、上記の画像処理方法の実施例で説明された方法を実行するように構成されることができ、その実現は、上記の画像処理方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
【0128】
本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の画像処理方法を実現する。コンピュータ可読記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。本開示の実施例は、電子機器を更に提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品を更に提供し、コンピュータ読み取り可能なコードが機器で実行されると、当該機器におけるプロセッサは、上記のいずれか1つの実施例によって提供された画像処理方法を実現するための命令を実行する。本開示の実施例は、別のコンピュータプログラム製品を更に提供し、前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されると、コンピュータが上記のいずれか1つの実施例で提供された画像処理方法の操作を実行するようにする。電子機器は、端末、サーバ又は他の形の機器として提供されるできる。
【0129】
図5は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器又は携帯情報端末などの端末であってもよい。
【0130】
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つ又は複数のコンポーネントを備えることができる。
【0131】
処理コンポーネント802は、一般的に、電子機器800の全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント802は、上記の画像処理方法のステップのすべて又は一部を遂行するための命令を実行するための1つ又は複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つ又は複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。メモリ804は、電子機器800での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクなど、あらゆるタイプの揮発性又は不揮発性ストレージデバイス又はそれらの組み合わせによって実現されることができる。電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つ又は複数の電源、及び電子機器800のための電力の生成、管理及び配分に関する他のコンポーネントを備えることができる。マルチメディアコンポーネント808は、前記電子機器800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つ又は複数のタッチセンサを備える。前記タッチセンサは、タッチ又はスワイプの操作の境界を感知するだけでなく、前記タッチ又はスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラ及び/又はリアカメラを備える。電子機器800が撮影モード又はビデオモードなどの動作モードにあるとき、フロントカメラ及び/又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC)を備え、電子機器800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804に更に記憶されてもよく、又は通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、更に、オーディオ信号を出力するためのスピーカを備える。I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つ又は複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態と、電子機器800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814はまた、電子機器800又は電子機器800のコンポーネントの位置の変化、ユーザとの電子機器800の接触の有無、電子機器800の向き又は加速/減速、及び電子機器800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814はまた、撮像用途で使用するためのCMOS又はCCD画像センサなどの光センサを更に備えることができる。いくつかの実施例において、当該センサコンポーネント814は、更に、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを備えることができる。通信コンポーネント816は、電子機器800と他の装置の間の有線又は無線通信を容易にするように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、更に、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて表すことができる。例示的な実施例において、電子機器800は、上記の画像処理方法を実行するように構成される、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって具現されることができる。例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることにより、上記の画像処理方法を遂行することができる。
【0132】
図6は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されることができる。図6を参照すると、電子機器1900は、1つ又は複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが1組の命令に対応する1つ又は複数のモジュールを備えることができる。更に、処理コンポーネント1922は、命令を実行することにより、上記の画像処理方法を実行するように構成される。
【0133】
電子機器1900は、更に、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線又は無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似したものに基づいて操作されることができる。例示的な実施例において、コンピュータプログラム命令を含むメモリ1932などの、不揮発性コンピュータ可読記憶媒体を更に提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の画像処理方法を遂行することができる。
【0134】
本開示は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに、本開示の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。
【0135】
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持及び記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器又は前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体の例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記憶されたパンチカード又は溝の凸構造、及び前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、又はワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。
【0136】
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。
【0137】
本開示の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は以1つ又は複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコード又は目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」言語又は類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく、完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、又は、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本開示の各態様を実現することができる。
【0138】
ここで、本開示の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロックを参照して、本開示の各態様について説明したが、フローチャート及び/又はブロック図の各ブロック、及びフローチャート及び/又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。
【0139】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータ又は他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャート及び/又はブロック図における1つの又は複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置及び/又は他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャート及び/又はブロック図における1つ又は複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。
【0140】
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、又は他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置又は他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、又は他の機器で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロックで指定された機能/動作を実現することができる。
【0141】
添付の図面におけるフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、指定された論理機能を実現するための1つ又は複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行するハードウェアに基づく専用システムによって実現することができ、又は専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。
【0142】
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらを組み合わせることによって実現されることができる。例示的な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体で具現され、別の代替実施例において、コンピュータプログラム製品は、ソフトウェア開発キット(SDK:Software Development Kit)など、ソフトウェア製品で具現される。
【0143】
以上、本開示の各実施例を説明したが、以上の説明は、例示的なものであり、網羅的ではなく、開示された各実施例に限定されない。説明された各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用又は市場における技術の改善を最もよく説明するか、当業者が本明細書で開示された各実施例を理解することができるようにすることを意図する。
【産業上の利用可能性】
【0144】
本開示の実施例では、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。
図1a
図1b
図1c
図2a
図2b
図2c
図3a
図3b
図4
図5
図6
【手続補正書】
【提出日】2021-11-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理方法であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、ことと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、ことと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む、
画像処理方法。
【請求項2】
第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、前記3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと前記3番目の第iレベルの第3特徴マップとの尺度は同じである、
請求項1に記載の画像処理方法。
【請求項3】
第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである、
請求項1又は2に記載の画像処理方法。
【請求項4】
第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである、
請求項1ないし3のいずれか一項に記載の画像処理方法。
【請求項5】
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項2ないし4のいずれか一項に記載の画像処理方法。
【請求項6】
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項3に記載の画像処理方法。
【請求項7】
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項4に記載の画像処理方法。
【請求項8】
前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む、
請求項5ないし7のいずれか一項に記載の画像処理方法。
【請求項9】
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、
j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、
P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む、
請求項5ないし8のいずれか一項に記載の画像処理方法。
【請求項10】
各レベルの融合ネットワークブロックは正規化層を更に含み、
前記j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、
前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、
前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む、
請求項9に記載の画像処理方法。
【請求項11】
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることは、
前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、
前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、ことと、を含む、
請求項1ないし10のいずれか一項に記載の画像処理方法。
【請求項12】
画像処理装置であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュールであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、特徴抽出モジュールと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュールであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、尺度調整及び融合モジュールと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュールと、を備える、
画像処理装置。
【請求項13】
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して、請求項1ないし11のいずれか一項に記載の画像処理方法を実行するように構成される、
電子機器。
【請求項14】
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサに、請求項1ないし11のいずれか一項に記載の画像処理方法を実行させる
コンピュータ可読記憶媒体。
【請求項15】
1つ又は複数の命令を含むコンピュータプログラムであって、
前記1つ又は複数の命令は、プロセッサに、請求項1ないし11のいずれか一項に記載の画像処理方法を実行させる、
コンピュータプログラム。
【国際調査報告】