(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-15
(45)【発行日】2022-11-24
(54)【発明の名称】画像処理方法、画像処理装置、電子機器及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20221116BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021049222
(22)【出願日】2021-03-23
【審査請求日】2021-03-23
(31)【優先権主張番号】202010309211.9
(32)【優先日】2020-04-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】リー, インイン
(72)【発明者】
【氏名】タン, シャオ
(72)【発明者】
【氏名】ジャン, ミンユェ
(72)【発明者】
【氏名】スン, ハオ
【審査官】山田 辰美
(56)【参考文献】
【文献】山内 良介 他,色彩と輪郭線ならびにDNN特徴量を組合せた特徴量による画家推定,第11回データ工学と情報マネジメントに関するフォーラム (第17回日本データベース学会年次大会) [online],日本,2019年03月06日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力するステップ
であって、前記N次元の特徴とは、分類対象の画像に対応する特徴マップの空間次元における空間的特徴を指すステップと、
融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するように前記N次元の特徴のうちのM個の特徴を次元融合するステップと、
前記N次元の特徴のうちの他の未融合特徴と前記M次元の融合特徴に基づいて画像処理を行うステップと、
を含
み、
前記融合されたM次元の融合特徴を取得するように前記N次元の特徴のうちのM個の特徴を次元融合するステップが、
前記N次元の特徴の次元数に基づいて、前記N次元の特徴から前記M個の特徴を選択するステップと、
融合されたM次元の融合特徴を取得するように前記M個の特徴をそれぞれ次元融合するステップと、
を含み、
前記融合されたM次元の融合特徴を取得するように前記M個の特徴をそれぞれ次元融合するステップが、
M次元の特徴を形成するように前記M個の特徴を変換するステップと、
前記M次元の融合特徴を取得するように前記M次元の特徴を畳み込むステップと、
を含む画像処理方法。
【請求項2】
前記N次元の特徴の次元数に基づいて、前記N次元の特徴から前記M個の特徴を選択するステップが、前記N次元の特徴のうちの第1の次元の範囲及び第2の次元の範囲から、前記M個の特徴をそれぞれ選択するステップであって、前記第2の次元の範囲が前記第1の次元の範囲よりも大きいステップを含む請求項
1に記載の画像処理方法。
【請求項3】
前記M次元の融合特徴を取得するように前記M次元の特徴を畳み込むステップが、
前記M次元の特徴に対して、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、第1の畳み込み結果及び第2の畳み込み結果を形成するように、第1の畳み込み及び第2の畳み込みを行うステップS1と、
第iの融合結果(i=1)を生成するように、前記第1の畳み込み結果と前記第2の畳み込み結果を融合するステップS2と、
第i+2の畳み込み結果を形成するように、前記予め設定されたチャンネル及び前記予め設定された畳み込みカーネル値に従って前記第iの融合結果を畳み込むステップS3と、
第i+1の融合結果を生成するように、前記第1の畳み込み結果乃至前記第i+2の畳み込み結果を融合するステップS4と、
前記iが(前記予め設定された畳み込みカーネル値-2)よりも小さい場合、前記iをi=i+1に更新し、ステップS3~S4に戻って実行するステップS5と、
前記iが(前記予め設定された畳み込みカーネル値-2)に等しい場合、前記第i+1の融合結果を前記M次元の融合特徴として決定するステップS6と、
を含む請求項
1に記載の画像処理方法。
【請求項4】
N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力するための特徴生成モジュール
であって、前記N次元の特徴とは、分類対象の画像に対応する特徴マップの空間次元における空間的特徴を指す特徴生成モジュールと、
融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するように前記N次元の特徴のうちのM個の特徴を次元融合するための融合モジュールと、
前記N次元の特徴のうちの他の未融合特徴と前記M次元の融合特徴に基づいて画像処理を行うための処理モジュールと、
を備え
、
前記融合モジュールが、
前記N次元の特徴の次元数に基づいて、前記N次元の特徴から前記M個の特徴を選択するための選択ユニットと、
融合されたM次元の融合特徴を取得するように、前記M個の特徴をそれぞれ次元融合するための融合ユニットと、
を備え、
前記融合ユニットが、
M次元の特徴を形成するように前記M個の特徴を変換するための変換サブユニットと、
前記M次元の融合特徴を取得するように前記M次元の特徴を畳み込むための処理サブユニットと、
を備える画像処理装置。
【請求項5】
前記選択ユニットが、前記N次元の特徴のうちの第1の次元の範囲及び第2の次元の範囲から、前記M個の特徴をそれぞれ選択し、前記第2の次元の範囲が前記第1の次元の範囲よりも大きい請求項
4に記載の画像処理装置。
【請求項6】
前記処理サブユニットが、
前記M次元の特徴に対して、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、第1の畳み込み結果及び第2の畳み込み結果を形成するように、第1の畳み込み及び第2の畳み込みを行うステップS1と、
第iの融合結果(i=1)を生成するように、前記第1の畳み込み結果と前記第2の畳み込み結果を融合するステップS2と、
第i+2の畳み込み結果を形成するように、前記予め設定されたチャンネル及び前記予め設定された畳み込みカーネル値に従って前記第iの融合結果を畳み込むステップS3と、
第i+1の融合結果を生成するように、前記第1の畳み込み結果乃至前記第i+2の畳み込み結果を融合するステップS4と、
前記iが(前記予め設定された畳み込みカーネル値-2)よりも小さい場合、前記iをi=i+1に更新し、ステップS3~S4に戻って実行するステップS5と、
前記iが(前記予め設定された畳み込みカーネル値-2)に等しい場合、前記第i+1の融合結果を前記M次元の融合特徴として決定するステップS6と、
を実行する請求項
4に記載の画像処理装置。
【請求項7】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から
3のいずれか一項に記載の画像処理方法を実行するように、前記少なくとも1つのプロセッサによって実行される電子機器。
【請求項8】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令がコンピュータに請求項1から
3のいずれか一項に記載の画像処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項9】
コンピュータに請求項1から
3のいずれか一項に記載の画像処理方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施例は、概して、画像処理技術の分野に関し、より具体的には、コンピュータビジョンの分野に関する。
【背景技術】
【0002】
現在、深層学習画像分類ネットワークは、既に成熟している。従来の画像分類ネットワークは、主に畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)に基づいて画像特徴を抽出し、抽出された画像特徴に基づいて学習を行う。
【0003】
しかしながら、画像特徴に基づく学習は、画像分類ネットワークに空間次元上の特徴を融合させるだけであるため、画像分類ネットワークの学習効果が低く、画像分類ネットワークの正確性の高くなく、従って画像処理の正確性が高くない。
【発明の概要】
【0004】
画像分類ネットワークの学習効果を高め、画像処理の正確性を向上させるための画像処理方法、画像処理装置、電子機器及び記憶媒体を提供する。
【0005】
第1の態様によれば、画像処理方法を提供し、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力するステップと、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するように前記N次元の特徴のうちのM個の特徴を次元融合するステップと、前記N次元の特徴のうちの他の未融合特徴と前記M次元の融合特徴に基づいて画像処理を行うステップと、を含む。
【0006】
第2の態様によれば、画像処理装置を提供し、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力するための特徴生成モジュールと、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するように前記N次元の特徴のうちのM個の特徴を次元融合するための融合モジュールと、前記N次元の特徴のうちの他の未融合特徴と前記M次元の融合特徴に基づいて画像処理を行うための処理モジュールと、を備える。
【0007】
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが第1の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0008】
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記第1の態様に記載の方法を実行させる。
本出願の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記第1の態様に記載の方法を実行させる。
【発明の効果】
【0009】
本出願にて提供される画像処理方法、画像処理装置、電子機器及び記憶媒体は、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合し、前記N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うことにより、画像処理において画像の空間的特徴を抽出するだけでなく、異なる次元間の特徴の関係も考慮して、各空間的特徴の異なる次元間の次元融合特徴を抽出し、これにより学習効果を向上させ、画像処理の正確性を向上させることができ、従来技術において画像特徴に基づく学習は、画像分類ネットワークに空間次元上の特徴を融合させるだけで、画像分類ネットワークの学習効果が不良であり、画像分類ネットワークの正確性が高くなく、画像処理の正確性が高くないという技術的課題を解決する、という有益な効果を奏する。
【0010】
なお、このセクションに記載された内容は、本出願の実施例の主要な特徴又は重要な特徴を識別することを意図したものではなく、また、本出願の範囲を限定することを意図したものでもないことを理解されたい。本出願のその他の特徴は以下の明細書によって容易に理解される。
【図面の簡単な説明】
【0011】
図面は、本実施形態をより良く理解するために使用され、本出願の制限を構成するものではない。
【
図1】本出願の第1の実施例に係る画像処理方法のフローチャートである。
【
図2】本出願の第2の実施例に係る画像処理方法のフローチャートである。
【
図3】本出願の第3の実施例に係る画像処理方法のフローチャートである。
【
図4】本出願の第4の実施例に係る画像処理装置の構造概略図である。
【
図5】本出願の第5の実施例に係る画像処理装置の構造概略図である。
【
図6】本出願の第6の実施例に係る画像処理装置の構造概略図である。
【
図7】本出願の実施例の画像処理方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
本出願の例示的な実施例は、理解を容易にするために、本出願の実施例の様々な詳細を含む添付の図面と関連して以下に説明され、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。また、以下の説明では、説明の明確化のため、周知の機能及び構成についての記載は省略する。
【0013】
本出願の画像処理方法、画像処理装置、電子機器及び記憶媒体を、図面を参照しながら以下に説明する。
【0014】
従来の深度学習画像分類ネットワークは、主にCNNに基づいて画像特徴を抽出し、全結合層などのコンポーネントと組み合わせて、softmax多クラス分類器と多クラスの交差エントロピー損失関数を用いて学習を行い、画像を処理するためのネットワークモデルを取得する。
【0015】
しかし、既存のネットワーク構造設計のほとんどは、画像空間の特徴抽出及び融合に注目し、例えば、高解像度ネットワークHRNetは、空間解像度を保持する特徴融合スキームを提案し、EfficientNetネットワークは、解像度の異なる画像に応じて異なるネットワーク深度と幅を設計して特徴抽出を行い、深度残差ネットワークResNetは、ネットワークが特徴情報をより良く抽出するようにスキップ構造を提案し、深層集約ネットワークDLAは、異なる畳み込みブロック、異なる深度間の特徴融合を実現するなどがある。上記ネットワーク構造設計の畳み込み操作は、いずれもネットワークが画像空間次元において特徴の抽出融合をより良く行い、異なる次元間の特徴の関係を無視するため、ネットワークの学習効果が不良であり、正確性が高くなく、画像処理の正確性が高くない。
【0016】
上記問題について、本出願は、画像処理方法を開示し、N次元の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合されたM次元の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合し、MはN以下の正の整数であり、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うことにより、画像処理において画像の空間的特徴を抽出するだけでなく、異なる次元間の特徴の関係も考慮して、各空間的特徴の異なる次元間の次元融合特徴を抽出し、これにより学習効果を向上させ、画像処理の正確性を向上させることができる。
【0017】
図1は、本出願の第1の実施例に係る画像処理方法のフローチャートであり、この方法は、本出願により提供される画像処理装置で実行されてもよいし、サーバ、デスクトップ型コンピュータ、ラップトップ型コンピュータなどの端末機器などの電子機器で実行されてもよく、本出願はこれに限定されない。以下、本出願により提供される画像処理装置が本出願の画像処理方法を実行することを例に挙げて、本出願を説明する。
【0018】
図1に示すように、この画像処理方法は、ステップ101と、ステップ102と、ステップ103と、を含む。
【0019】
ステップ101において、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力する。
【0020】
本出願では、画像に含まれる物体の分類、検出、分割などの処理操作が必要な場合、分類対象の画像を対応する特徴抽出モデルに入力することができ、例えば、画像内の物体の分類が必要な場合、画像内の物体を分類するための特徴抽出モデルに分類対象の画像を入力して、画像分類処理を行うことができる。
【0021】
ここで、特徴抽出モデルは、HRNetネットワーク、ResNetネットワーク、EfficientNetネットワークなど、任意の画像分類ネットワークであってもよい。
【0022】
通常、各種の画像分類ネットワークは、いずれも多層の畳み込み層を有し、特徴の抽出と融合を行うように、入力された画像に対して特徴マップ上で畳み込み操作を行うためであり、各畳み込み層の出力は、入力された画像の空間的特徴である。従って、本出願の実施例では、複数の空間的特徴を生成するように、分類対象の画像を画像分類ネットワークに入力することができ、生成された空間的特徴の個数は、例えば、Nと記すことができ、Nは正の整数である。すなわち、本出願では、N次元の特徴を生成するように、分類対象の画像を画像分類ネットワークに入力することができ、Nの個数は、画像分類ネットワークにおける畳み込み層の層数に関連し、このN次元の特徴とは、分類対象の画像に対応する特徴マップの空間次元における空間的特徴を指す。
【0023】
ステップ102において、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合する。
【0024】
本実施例では、分類対象の画像のN個の特徴を得た後、これらN個の特徴からM個の特徴を選択して次元融合を行うことで、M次元の融合特徴を取得することができ、ここで、MはN以下の正の整数である。M個の特徴を選択する際、N個の特徴からM個の特徴をランダムに選択してもよく、連続的なM個の特徴を選択してもよく、又は、上位畳み込み層から一部の特徴を選択し、下位畳み込み層から一部の特徴を選択して、合わせてM個の特徴を選択してもよく、本出願はM個の特徴の選択方式を限定しない。
【0025】
次元融合を行う際、M個の特徴の各々に対して次元融合を行い、具体的には、各特徴に対して、予め設定された畳み込みカーネルサイズと予め設定されたチャンネル数により、この特徴の次元空間上で複数回の畳み込み及び融合を行い、この特徴に対応する次元融合特徴を取得することができる。ここで、各特徴に対して畳み込み及び融合を行う回数は、畳み込みカーネルサイズに関連する。
【0026】
なお、M次元の融合特徴を取得するように、M個の特徴を次元融合する詳細な過程は、後の実施例で説明し、ここでは詳しい説明を省略する。
【0027】
ステップ103において、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行う。
【0028】
本実施例では、選択されたM個の特徴を次元融合して、対応するM次元の融合特徴を得た後、分類対象の画像に対する分類、検出などの処理操作を完了させるように、残りのN-M個の未融合特徴と融合して得たM次元の融合特徴に基づいて画像処理を行うことができる。
【0029】
本出願の実施例では、画像処理は、画像分類、画像分割又は画像検出などの画像処理操作のいずれかを含むが、これらに限定されない。すなわち、本出願にて提供される画像処理方法は、分類、分割、検出などの多様な画像処理タスクに適用可能であり、柔軟性が高く、適用範囲が広い。
【0030】
画像処理を画像分類とした例をあげてみると、N次元の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合された次元融合特徴を取得するようにN個の特徴の一部又は全部を次元融合し、N個の特徴のうちの残りの特徴と生成した次元融合特徴を用いて画像分類処理を行うことで、画像分類を完了させる。次元融合特徴は、特徴の次元空間を畳み込み融合して得られたもので、特徴の異なる次元空間間の関係を考慮し、特徴マップの画像空間上で特徴の抽出と融合を単に行うだけではないため、次元融合特徴と残りの未融合特徴を用いて画像分類を行うことで、画像特徴の学習能力と学習効果を向上させ、画像分類の正確度を向上させることができる。
【0031】
本実施例の画像処理方法は、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合し、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うことにより、画像処理において画像の空間的特徴を抽出するだけでなく、異なる次元間の特徴の関係も考慮して、各空間的特徴の異なる次元間の次元融合特徴を抽出し、これにより学習効果を向上させ、画像処理の正確性を向上させることができる。
【0032】
以下、上記実施例において、融合されたM次元の融合特徴を取得するように、N次元の特徴のうちのM個の特徴を次元融合する具体的な実施過程をより明確に説明するために、
図2を参照して詳細に説明する。
【0033】
図2は、本出願の第2の実施例に係る画像処理方法のフローチャートである。
図2に示すように、
図1に示す実施例を基に、ステップ102は、ステップ201と、ステップ202と、を含み取得する。
【0034】
ステップ201において、N次元の特徴の次元数に基づいて、N次元の特徴からM個の特徴を選択する。
【0035】
本実施例では、次元融合対象のM個の特徴を選択する際に、N次元の特徴の次元数に基づいて選択することができる。ここで、ここでいう次元数とは、N次元の特徴を出力する畳み込み層の層数をいう。
【0036】
例えば、特徴抽出モデルをResNetネットワークとした例をあげてみると、ResNetネットワークについて、ネットワーク全体がconv1、conv2_x、conv3_x、conv4_x、conv5_x及びfc層(分類用)を含み、このネットワークが5つの畳み込み層を含むとすると、ResNetネットワークにより生成されたN次元の特徴の次元数は5となる。
【0037】
本実施例では、N次元の特徴の次元数に基づいてM個の特徴を選択する場合に、タスクの特徴とデータの相違に応じて、異なる方式で選択することができるが、本出願ではM個の特徴の選択方式を限定しない。
【0038】
可能な一実現形態として、N個の特徴の上位層から選択することができ、N個の特徴からM個の上位層の特徴を選択することができる。通常、下位層の特徴はより詳細な情報を学習し、上位層の特徴はより意味のある情報を学習し、画像分類タスクについて、画像がどのクラスに属するかを判断するのにより意味のある情報が必要となるため、画像処理が画像分類である場合、M個の上位層の特徴を選択して次元融合を行うことができる。ResNetネットワークを例にとると、conv3_x、conv4_x及びconv5_xの3つの畳み込み層により出力された特徴を、最終的に選択するM個の特徴として選択して、M個の特徴を次元融合する際により多くの意味のある情報を学習することを保証することで、画像分類の正確性を向上させることができる。
【0039】
可能な他の実現形態として、N個の特徴は、N個の特徴の次元数に基づいて、第1の次元の範囲と、第1の次元の範囲よりも大きい第2の次元の範囲に分けられ、N次元の特徴のうちの第1の次元の範囲及び第2の次元の範囲から、M個の特徴をそれぞれ選択することができる。すなわち、本実施形態では、N個の特徴は、下位層の特徴範囲(すなわち、第1の次元の範囲)と上位層の特徴範囲(すなわち、第2の次元の範囲)に分けられ、下位層の特徴範囲と上位層の特徴範囲からそれぞれ選択し、合わせてM個の特徴を選択することができる。なお、ResNetネットワークを例にとると、conv1とconv2_xにより出力された特徴が下位層の特徴範囲に対応し、conv3_x、conv4_x及びconv5_xにより出力された特徴が上位層の特徴範囲に対応すると仮定して、conv1、conv4_x及びconv5_xの3つの畳み込み層により出力された特徴を最終的に選択するM個の特徴として選択することができる。これにより、下位層の特徴と上位層の特徴の両方を選択することで、M個の特徴を次元融合する際に、上下層の情報を融合することを保証でき、細粒度識別タスクの完成を容易にし、画像詳細特徴識別の正確度を保証することができる。
【0040】
ステップ202において、融合されたM次元の融合特徴を取得するように、M個の特徴を次元融合する。
【0041】
本実施例では、N個の特徴からM個の特徴を抽出した後、対応するM次元の融合特徴を取得するように、M個の特徴をそれぞれ次元融合することができる。
【0042】
具体的には、まず、M次元の特徴を形成するように、M個の特徴を変換し、次にM次元の融合特徴を取得するように、M個の次元の特徴を畳み込むことで、M個の特徴の次元融合を完了させることができる。
【0043】
ここで、M個の特徴を変換することは、M個の特徴の各々について、特徴の特徴マップの次元数と、特徴マップのサイズを変換することであり、変換により得られた特徴を次元の特徴という。
【0044】
ResNet101ネットワークを例にとると、conv3_xの特徴出力は(512,28*28)、conv4_xの特徴出力は(1024,14*14)、conv5_xの特徴出力は(2048,7*7)であり、ここで、512、1024、2048によって示されたのは特徴マップの次元数であり、28*28、14*14、7*7によって示されたのは特徴マップサイズである。次元融合のために選択されたM個の特徴が(512,28*28)、(1024,14*14)、及び(2048,7*7)であると仮定すると、選択された各特徴を変換し、それぞれ(28*28,512)、(14*14,1024)、及び(7*7,2048)の対応する次元の特徴が得られる。
【0045】
変換により、特徴マップ空間と次元空間を変換することが可能になり、その後、次元空間における畳み込み演算を行って、次元空間の特徴抽出と融合を実現するために基盤を築く。
【0046】
次に、M個の特徴を変換してM個の次元の特徴を形成した後、M次元の融合特徴を取得するようにM次元の特徴を畳み込むことができる。以下、
図3を参照して、M次元の融合特徴を取得する具体的な手順について詳細に説明する。
【0047】
図3は、本出願の第3の実施例に係る画像処理方法のフローチャートである。
図3に示すように、M次元の融合特徴を取得するようにM次元の特徴を畳み込むことは、以下のステップ301と、ステップ302と、ステップ303と、ステップ304と、ステップ305と、ステップ306と、を含み取得する。
【0048】
ステップ301において、M次元の特徴に対して、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、第1の畳み込み結果及び第2の畳み込み結果を形成するように、第1の畳み込み及び第2の畳み込みを行う。
【0049】
ここで、予め設定されたチャンネル及び予め設定された畳み込みカーネル値はタスクの要求に応じて設定することができ、チャンネルと畳み込みカーネル値の柔軟な設定を実現して、方法の柔軟性と適用性を向上させる。
【0050】
ステップ302において、第iの融合結果(i=1)を生成するように、第1の畳み込み結果と第2の畳み込み結果を融合する。
【0051】
ステップ303において、第i+2の畳み込み結果を形成するように、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って第iの融合結果を畳み込む。
【0052】
ステップ304において、第i+1の融合結果を生成するように、第1の畳み込み結果乃至第i+2の畳み込み結果を融合する。
【0053】
ステップ305において、iが(予め設定された畳み込みカーネル値-2)よりも小さい場合、iをi=i+1に更新し、ステップ303~ステップ304に戻って実行する。
【0054】
ステップ306において、iが(予め設定された畳み込みカーネル値-2)に等しい場合、第i+1の融合結果をM次元の融合特徴として決定する。
【0055】
本実施例では、M次元の融合特徴を取得するようにM次元の特徴を畳み込む場合、畳み込み操作を行う回数と融合操作を行う回数は、予め設定された畳み込みカーネル値に関連し、より良い学習効果を取得するために、予め設定された畳み込みカーネル値は3以上に設定され、次元の融合特徴を生成する際に、畳み込み操作を行う回数は、予め設定された畳み込みカーネル値と同じであり、融合操作を行う回数は、(予め設定された畳み込みカーネル値-1)回である。
【0056】
(5,4*4)畳み込みを例にとると、ここで、5はチャンネル、4*4は畳み込みカーネルのサイズであり、M次元の特徴の各々に対して、次元の特徴(28*28,512)を例にとると、まず、予め設定されたチャンネルと畳み込みカーネルに従って、それに対して第1回の畳み込みと第2回の畳み込みを行い、第1の畳み込み結果と第2の畳み込み結果を得て、いずれも(5,512)であり、得られた2つの畳み込み結果を融合し、第1の融合結果(10,512)を得て、次に、予め設定されたチャンネル及び畳み込みカーネル値に従って、第1の融合結果を融合し、第3の畳み込み結果(5,512)を得て、3つの畳み込み結果を融合し、第2の融合結果(15,512)を得て、このとき、i=1であり、iの値が(畳み込みカーネル値-2=2)よりも小さい場合、iの値をi=i+1=2に更新し、第4の畳み込み結果を形成するように、予め設定されたチャンネル及び畳み込みカーネル値に従って、第2の融合結果を畳み込み、第4の畳み込み結果が(5,512)であり、第4の畳み込み結果を融合し、第3の融合結果(20,512)を得て、この時、i=2であり、iの値が(畳み込みカーネル値-2)に等しい場合、第3の融合結果(20,512)を、次元の特徴(28*28,512)を次元融合した次元融合特徴として決定する。
【0057】
なお、予め設定された畳み込みカーネル値が3以上である場合、上記実施過程を使用してM次元の特徴に対応するM次元の融合特徴を取得することができ、予め設定された畳み込みカーネル値が1である場合、融合することなく、M次元の特徴に対して1回の畳み込みを行うだけで、得られた畳み込み結果は次元の融合特徴であり、予め設定された畳み込みカーネル値が2である場合、各次元の特徴について、次元の特徴に対して2回の畳み込みを行って2つの畳み込み結果を得て、さらに2つの畳み込み結果を融合して融合結果を得て、この融合結果が次元の特徴に対応する次元融合特徴である。
【0058】
予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、M次元の融合特徴を取得するように、M次元の特徴を畳み込むことで、次元の特徴を十分に抽出して融合し、次元間の関係を十分に学習し、画像処理効果を高めることに寄与する。
【0059】
本実施例に係る画像処理方法は、N次元の特徴の次元数に応じて、N次元の特徴からM個の特徴を選択し、融合されたM次元の融合特徴を取得するように、M個の特徴をそれぞれ次元融合することで、実際のタスクの要求に応じて、次元融合対象の特徴を選択することに寄与し、方法の柔軟性及び適応性を向上させ、次元の融合特徴を取得するように特徴を次元融合することで、異なる次元間の関係を十分に学習することに寄与し、学習効果及び画像処理の正確性を向上させる。
【0060】
実際の応用では、本出願で提供される画像処理方法をネットワークモデルの訓練に応用することができ、既存のネットワークモデルを基に、次元の特徴学習を追加して、モデルの学習能力を向上させ、モデル効果を向上させ、訓練されたモデルを利用して画像処理、例えば、画像分類、分割、検出などを行うことで、画像処理の正確度を向上させることができる。
【0061】
ResNet101ネットワークを例にとると、conv3_xの特徴出力は(512、28*28)、conv4_xの特徴出力は(1024、14*14)、conv5_xの特徴出力は(2048、7*7)であり、これら3つの特徴を次元融合し、conv3_xを例にとると、(512、28*28)を(28*28,512)に変換し、(4、3*3)畳み込みを例にとると、それぞれ2回の畳み込みを行って2つの(4,512)の特徴を得て、得られた2つの(4,512)を(8,512)として融合し、さらに(8,512、)に対して1回の畳み込みを行って(4,512)を得て、その後、3回の畳み込みを行って得られた(4,512)を融合して次元の融合特徴(12,512)を取得する。以下、conv3_x、conv4_x、conv5_xについて、それぞれ上記手順で説明した特徴抽出と融合を行い、対応する次元の融合特徴としてそれぞれ(12,512)、(12,1024)、(12,2048)を得た。さらに、3つの層の抽出融合で得られた次元の融合特徴をそれぞれ全結合層に送り込み、損失関数と合わせてモデルを訓練し、複数回の反復を経て、訓練されたネットワークモデルを取得する。ここで、モデル訓練プロセスは、深層学習分野の従来技術であり、ここでは詳しく説明しない。なお、予測過程では、3回の出力を単純に統合してもよく、例えば、3回の出力を加算したり、重み付けをして加算したりして最終的な処理結果を取得するようにしてもよい。
【0062】
さらに、処理対象の画像を訓練されたモデルに入力すれば、正確な処理結果を取得することができる。訓練されたモデルは、画像空間特徴を抽出するだけでなく、特徴次元間の関係も十分に学習し、モデル学習効果が高いため、訓練されたモデルを用いて画像処理を行うことで、画像処理の正確率を向上させることができる。
【0063】
上記実施例を実現するために、本出願は、画像処理装置をさらに提供する。
【0064】
図4は、本出願の第4の実施例に係る画像処理装置の構造概略図である。
図4に示すように、この画像処理装置40は、特徴生成モジュール410と、融合モジュール420と、処理モジュール430と、を備える。
【0065】
特徴生成モジュール410は、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力するために用いられる。
【0066】
融合モジュール420は、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合するために用いられる。
【0067】
処理モジュール430は、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うために用いられる。
【0068】
ここで、画像処理は、画像分類、画像分割又は画像検出などの画像処理操作のいずれかを含むが、これらに限定されない。
【0069】
本出願の実施例の可能な一実現形態では、
図5に示すように、
図4に示す実施例を基に、融合モジュール420は、選択ユニット421と、融合ユニット422と、を備える。
【0070】
可能な一実現形態としては、選択ユニット421は、具体的には、N次元の特徴のうちの第1の次元の範囲及び第2の次元の範囲から、M個の特徴をそれぞれ選択するために用いられ、第2の次元の範囲が第1の次元の範囲よりも大きい。
【0071】
第1の次元の範囲及び第2の次元の範囲から、M個の特徴を選択し、第2の次元の範囲が第1の次元の範囲よりも大きく、これにより、下位層の特徴と上位層の特徴の両方を選択することで、M個の特徴を次元融合する際に、上下層の情報を融合することを保証でき、細粒度識別タスクの完成を容易にし、画像詳細特徴識別の正確度を保証することができる。
【0072】
融合ユニット422は、融合されたM次元の融合特徴を取得するように、M個の特徴をそれぞれ次元融合するために用いられる。
【0073】
本出願の実施例の可能な一実現形態では、
図6に示すように、
図5に示す実施例を基に、融合ユニット422は、変換サブユニット4221と、処理サブユニット4222と、を備える。
【0074】
変換サブユニット4221は、M次元の特徴を形成するようにM個の特徴を変換するために用いられる。
【0075】
処理サブユニット4222は、M次元の融合特徴を取得するようにM次元の特徴を畳み込むために用いられる。
【0076】
本実施例では、処理サブユニット4222は、具体的には、以下のS1、S2、S3、S4、S5及びS6を実行するために用いられる。
【0077】
S1において、M次元の特徴に対して、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、第1の畳み込み結果及び第2の畳み込み結果を形成するように、第1の畳み込み及び第2の畳み込みを行う。
【0078】
S2において、第iの融合結果(i=1)を生成するように、第1の畳み込み結果と第2の畳み込み結果を融合する。
【0079】
S3において、第i+2の畳み込み結果を形成するように、予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って第iの融合結果を畳み込む。
【0080】
S4において、第i+1の融合結果を生成するように、第1の畳み込み結果乃至第i+2の畳み込み結果を融合する。
【0081】
S5において、iが(予め設定された畳み込みカーネル値-2)よりも小さい場合、iをi=i+1に更新し、ステップS3~ステップS4に戻って実行する。
【0082】
S6において、iが(予め設定された畳み込みカーネル値-2)に等しい場合、第i+1の融合結果をM次元の融合特徴として決定する。
【0083】
なお、予め設定された畳み込みカーネル値が3以上である場合、処理サブユニット4222は、上記処理操作を実行して、M次元の特徴に対応するM次元の融合特徴を得てもよく、予め設定された畳み込みカーネル値が1である場合、処理サブユニット4222は、融合することなく、M次元の特徴に対して1回の畳み込みを行うだけで、得られた畳み込み結果は次元の融合特徴であり、予め設定された畳み込みカーネル値が2である場合、各次元の特徴について、処理サブユニット4222は、次元の特徴に対して2回の畳み込みを行って2つの畳み込み結果を得て、さらに、2つの畳み込み結果を融合して融合結果を得て、この融合結果は、すなわち、次元の特徴に対応する次元の融合特徴である。
【0084】
予め設定されたチャンネル及び予め設定された畳み込みカーネル値に従って、M次元の融合特徴を取得するように、M次元の特徴を畳み込むことで、次元の特徴を十分に抽出して融合し、次元間の関係を十分に学習し、画像処理効果を高めることに寄与する。
【0085】
本実施例の画像処理装置は、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合し、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うことにより、画像処理において画像の空間的特徴を抽出するだけでなく、異なる次元間の特徴の関係も考慮して、各空間的特徴の異なる次元間の次元融合特徴を抽出し、これにより学習効果を向上させ、画像処理の正確性を向上させることができる。
【0086】
本出願の実施例によれば、本出願は、電子機器、及びコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される画像処理方法を実行させる。
【0087】
図7に示すように、本出願の実施例の画像処理方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、さらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記述及び/又は要求される本出願の実現を限定することを意図しない。
【0088】
図7に示すように、この電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インタフェースと低速インタフェースとを備える、各コンポーネントを接続するためのインタフェースとを備える。各コンポーネントは、異なるバスで接続され、共通のマザーボードに実装されてもよいし、又は必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は外部入力/出力装置(例えば、インタフェースに結合されたディスプレイ機器)にGUIのグラフィック情報を表示させるようにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な動作の一部(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)を提供する複数の電子機器を接続することができる。
図7では、1つのプロセッサ701を例にする。
【0089】
メモリ702は、本出願にて提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願にて提供される画像処理方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶される。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、本出願にて提供される画像処理方法をコンピュータに実行させるために用いられるコンピュータ命令が記憶されている。
【0090】
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、例えば、本出願の実施例における画像処理方法に対応するプログラム命令/モジュール(例えば、
図4に示される特徴生成モジュール410、融合モジュール420及び処理モジュール430)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、を記憶するために用いられる。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における画像処理方法を実現する。
【0091】
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、画像処理方法を実行するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的な固体記憶デバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に配置されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して画像処理方法を実行するための電子機器に接続することができる。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
【0092】
画像処理方法を実行するための電子機器は、入力装置703と出力装置704とをさらに備えることができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式で接続することができ、
図7では、バスによる接続を例にする。
【0093】
入力装置703は、入力された数字又は文字情報を受信し、画像処理方法を実行するための電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又はそれ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置704は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを備えることができる。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備え得るが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。
【0094】
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこの記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に伝送することができる。
【0095】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施される。本明細書で使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。
【0096】
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこのポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
【0097】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0098】
コンピュータシステムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、互いに離れ、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
【0099】
本出願の実施例の技術案によれば、N次元(Nは正の整数である)の特徴を生成するように分類対象の画像を特徴抽出モデルに入力し、融合されたM次元(MはN以下の正の整数である)の融合特徴を取得するようにN次元の特徴のうちのM個の特徴を次元融合し、N次元の特徴のうちの他の未融合特徴とM次元の融合特徴に基づいて画像処理を行うことにより、画像処理において画像の空間的特徴を抽出するだけでなく、異なる次元間の特徴の関係も考慮して、各空間的特徴の異なる次元間の次元融合特徴を抽出し、これにより学習効果を向上させ、画像処理の正確性を向上させることができる。
【0100】
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることが理解されるであろう。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0101】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。