IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲發▼有限公司の特許一覧

特許7133045特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体
<>
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図1
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図2
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図3
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図4
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図5
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図6
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図7
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図8
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図9
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図10
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図11
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図12
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図13
  • 特許-特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-30
(45)【発行日】2022-09-07
(54)【発明の名称】特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220831BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
【請求項の数】 17
(21)【出願番号】P 2020572845
(86)(22)【出願日】2020-02-19
(65)【公表番号】
(43)【公表日】2021-10-21
(86)【国際出願番号】 CN2020075839
(87)【国際公開番号】W WO2020220797
(87)【国際公開日】2020-11-05
【審査請求日】2020-12-25
(31)【優先権主張番号】201910364870.X
(32)【優先日】2019-04-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520291939
【氏名又は名称】北京市商▲湯▼科技▲開▼▲發▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO.,LTD.
【住所又は居所原語表記】Room 1101-1117,11th Floor No.58 Northwest 4th Ring Road, Haidian District Beijing 100080 China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】王 佳▲チー▼
(72)【発明者】
【氏名】▲陳▼ ▲カイ▼
(72)【発明者】
【氏名】徐 瑞
(72)【発明者】
【氏名】▲劉▼ 子▲緯▼
(72)【発明者】
【氏名】▲呂▼ 健勤
(72)【発明者】
【氏名】林 ▲達▼▲華▼
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開2018-181124(JP,A)
【文献】米国特許出願公開第2018/0144209(US,A1)
【文献】国際公開第2018/116248(WO,A1)
【文献】国際公開第2018/039380(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06N 3/00- 3/12
(57)【特許請求の範囲】
【請求項1】
特徴マップ拡大方法であって、
拡大すべきソース特徴マップを受信するステップと、
前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得するステップと、
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップと、
前記ソース特徴マップにおけるソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するステップと、
前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、目標特徴マップを生成するステップと、を含み、
前記Nは、前記ソース特徴マップに対する拡大倍数の二乗であることを特徴とする特徴マップ拡大方法。
【請求項2】
前記ソース特徴マップに対して畳み込み処理を行うステップは、
up個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Cup個のチャンネルの再構成カーネル図を取得することと、
前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するCup個のチャンネルの畳み込み出力特徴をN部に均等に分け、各部を前記ソース位置に対応する1つの前記再構成カーネルとすることと、を含み、
前記Cupは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記1つの前記再構成カーネルは、Cup/N個のチャンネルの畳み込み出力特徴を含むことを特徴とする請求項1に記載の特徴マップ拡大方法。
【請求項3】
前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるCup/N個のチャンネルの畳み込み出力特徴をフラット化し、2次元の再構成カーネルを取得するステップと、
前記ソース位置を中心とする前記再構成領域を取得するステップと、を更に含み、
前記再構成領域のサイズは、前記2次元の再構成カーネルのサイズと同じであることを特徴とする請求項2に記載の特徴マップ拡大方法。
【請求項4】
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップは、
それぞれの前記再構成カーネルにおけるCup/N個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得することを含むことを特徴とする請求項2に記載の特徴マップ拡大方法。
【請求項5】
前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するステップは、
正規化後のN個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得することと、
前記N個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得することと、を含むことを特徴とする請求項1から4の何れか一項に記載の特徴マップ拡大方法。
【請求項6】
前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得することは、
前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの前記再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とすることを含むことを特徴とする請求項5に記載の特徴マップ拡大方法。
【請求項7】
前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、前記目標特徴マップを生成するステップは、
前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得することと、
前記N個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填することと、を含むことを特徴とする請求項1から6の何れか一項に記載の特徴マップ拡大方法。
【請求項8】
前記ソース特徴マップは、トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、
前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記特徴マップ拡大方法は、
前記目標特徴マップが生成された後、前記トレーニングすべきニューラルネットワークが前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するステップと、
前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップと、を更に含み、
前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含むことを特徴とする請求項1から7の何れか一項に記載の特徴マップ拡大方法。
【請求項9】
前記特徴マップ拡大方法は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、
前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップは、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整することを更に含むことを特徴とする請求項8に記載の特徴マップ拡大方法。
【請求項10】
前記ソース特徴マップは、トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、
前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップを更に含むことを特徴とする請求項1から7の何れか一項に記載の特徴マップ拡大方法。
【請求項11】
前記特徴マップ拡大方法は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、
前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含むことを特徴とする請求項10に記載の特徴マップ拡大方法。
【請求項12】
前記入力画像は、検出すべき少なくとも1つの目標物体を含み、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力することを含み、または
前記入力画像は、欠け部を含み、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力することを含むことを特徴とする請求項10又は11に記載の特徴マップ拡大方法。
【請求項13】
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力することを含み、または
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力することを特徴とする請求項10又は11に記載の特徴マップ拡大方法。
【請求項14】
特徴マップ拡大装置であって、
拡大すべきソース特徴マップを受信するためのソースマップ受信モジュールと、
前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得するためのカーネル生成モジュールと、
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するための正規化処理モジュールと、
前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するための特徴再構成モジュールと、
前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、目標特徴マップを生成するための目標マップ生成モジュールと、を備え、
前記Nは、前記ソース特徴マップに対する拡大倍数の二乗であることを特徴とする特徴マップ拡大装置。
【請求項15】
特徴マップ拡大機器であって、
メモリと、プロセッサとを備え、
前記メモリは、前記プロセッサで運転され得るコンピュータ指令を記憶し、
前記プロセッサは、前記コンピュータ指令を実行したときに、請求項1から13の何れか一項に記載の方法を実施することを特徴とする特徴マップ拡大機器。
【請求項16】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1から13の何れか一項に記載の方法実施されることを特徴とするコンピュータ可読記憶媒体。
【請求項17】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1から13の何れか一項に記載の方法実施されることを特徴とするコンピュータプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョン技術に関し、具体的に特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
コンピュータビジョンタスクでは、特徴マップ拡大が最も基本的な操作の1つである。例えば、物体検出、画像意味領域分割、画像修復等のような、密に予測される必要のあるタスクでは、ニューラルネットワークから出力された低解像度の特徴マップを拡大することで高解像度の予測結果を取得してニューラルネットワークの学習及びテストを行う必要がある。更に例えば、ニューラルネットワーク設計では、低解像度の特徴マップを拡大してから高解像度の特徴マップとマージすることも、よく見られる操作である。
【0003】
特徴マップ拡大を実現する方法は、最近傍補間、双線形補間及びデコンボリューション等を含んでもよい。ただし、最近傍補間及び双線形補間では、空間距離に応じて特徴マップを拡大したため、特徴マップに含まれる豊富な意味特徴が放棄されてしまった。デコンボリューションでは、特徴マップの意味特徴を利用して特徴マップを拡大してみたが、拡大された特徴マップの性能について改良する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、少なくとも特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体を提供する。
【課題を解決するための手段】
【0005】
第1態様は、特徴マップ拡大の方法を提供する。前記方法は、拡大すべきソース特徴マップを受信するステップと、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得するステップと、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップと、前記ソース特徴マップにおけるソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するステップと、前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、目標特徴マップを生成するステップと、を含み、前記Nは、前記ソース特徴マップに対する拡大倍数の二乗である。
【0006】
本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップに対して畳み込み処理を行うステップは、Cup個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Cup個のチャンネルの再構成カーネル図を取得することと、前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するCup個のチャンネルの畳み込み出力特徴をN部に均等に分け、各部を前記ソース位置に対応する1つの前記再構成カーネルとすることと、を含み、前記Cupは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記1つの前記再構成カーネルは、Cup/N個のチャンネルの畳み込み出力特徴を含む。
【0007】
本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるCup/N個のチャンネルの畳み込み出力特徴をフラット化し、2次元の再構成カーネルを取得するステップと、前記ソース位置を中心とする前記再構成領域を取得するステップと、を更に含み、前記再構成領域のサイズは、前記2次元の再構成カーネルのサイズと同じである。
【0008】
本発明に供される何れかの実施形態を組み合わせたうえで、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップは、それぞれの前記再構成カーネルにおけるCup/N個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得することを含む。
【0009】
本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するステップは、正規化後のN個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得することと、前記N個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得することと、を含む。
【0010】
本発明に供される何れかの実施形態を組み合わせたうえで、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得することは、前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの前記再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とすることを含む。
【0011】
本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、前記目標特徴マップを生成するステップは、前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得することと、前記N個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填することと、を含む。
【0012】
本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップは、トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニングすべきニューラルネットワークが前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するステップと、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップと、を更に含み、前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。
【0013】
本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップは、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整することを更に含む。
【0014】
本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップは、トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップを更に含む。
【0015】
本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含む。
【0016】
本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、検出すべき少なくとも1つの目標物体を含み、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力することを含む。
【0017】
本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、欠け部を含み、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。
【0018】
本発明に供される何れかの実施形態を組み合わせたうえで、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力することを含む。
【0019】
本発明に供される何れかの実施形態を組み合わせたうえで、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力することを含む。
【0020】
第2態様は、特徴マップ拡大装置を提供する。前記装置は、拡大すべきソース特徴マップを受信するためのソースマップ受信モジュールと、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得するためのカーネル生成モジュールと、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するための正規化処理モジュールと、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得するための特徴再構成モジュールと、前記ソース特徴マップのソース位置のそれぞれに対応する前記N個の再構成特徴に基づいて、目標特徴マップを生成するための目標マップ生成モジュールと、を備え、前記Nは、前記ソース特徴マップに対する拡大倍数の二乗である。
【0021】
本発明に供される何れかの実施形態を組み合わせたうえで、前記カーネル生成モジュールは、Cup個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Cup個のチャンネルの再構成カーネル図を取得し、前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するCup個のチャンネルの畳み込み出力特徴をN部に均等に分け、各部を前記ソース位置に対応する1つの前記再構成カーネルとし、前記Cupは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記1つの前記再構成カーネルは、Cup/N個のチャンネルの畳み込み出力特徴を含む。
【0022】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、更に、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるCup/N個のチャンネルの畳み込み出力特徴をフラット化し、2次元の前記再構成カーネルを取得し、前記ソース位置を中心とする前記再構成領域を取得し、前記再構成領域のサイズは、前記2次元の再構成カーネルのサイズと同じである。
【0023】
本発明に供される何れかの実施形態を組み合わせたうえで、前記正規化処理モジュールは、それぞれの前記再構成カーネルにおけるCup/N個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得する。
【0024】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、正規化後のN個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得し、前記N個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得する。
【0025】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とする。
【0026】
本発明に供される何れかの実施形態を組み合わせたうえで、前記目標マップ生成モジュールは、前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得し、前記N個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填する。
【0027】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、トレーニングすべきニューラルネットワークに含まれ、前記ソースマップ受信モジュールで受信されたソース特徴マップは、前記トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、前記カーネル生成モジュールは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記特徴マップ拡大装置は、目標特徴マップが前記目標マップ生成モジュールによって生成された後、前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するための予測処理モジュールと、前記サンプル画像のマーク結果と予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するためのパラメータ調整モジュールと、を更に備え、前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。
【0028】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュールを更に備え、前記カーネル処理モジュールは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行い、前記パラメータ調整モジュールは、更に、前記サンプル画像のマーク結果と予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整する。
【0029】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、トレーニング完了されたニューラルネットワークに含まれ、前記ソースマップ受信モジュールで受信されたソース特徴マップは、前記トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、前記カーネル生成モジュールは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記特徴マップ拡大装置は、前記目標特徴マップが前記目標マップ生成モジュールによって生成された後、前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するための結果出力モジュールを更に備える。
【0030】
本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュールを更に備え、前記カーネル処理モジュールは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行う。
【0031】
本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、検出すべき少なくとも1つの目標物体を含み、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力する。
【0032】
本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、欠け部を含み、前記結果出力モジュール前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。
【0033】
本発明に供される何れかの実施形態を組み合わせたうえで、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力する。
【0034】
本発明に供される何れかの実施形態を組み合わせたうえで、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力する。
【0035】
第3態様は、特徴マップ拡大機器を提供する。前記機器は、メモリと、プロセッサとを備える。ただし、前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに、本発明の何れかの実施例の特徴マップ拡大方法を実施する。
【0036】
第4態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されたときに、本発明の何れかの実施例の特徴マップ拡大方法は、実施される。
【発明の効果】
【0037】
本発明の1つ又は複数の実施例の特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なるソース位置において異なる再構成カーネルは取得される。換言すれば、本実施例の再構成カーネルは、ソース特徴マップにおける位置に対応し、ソース特徴マップの前記位置におけるコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。
【図面の簡単な説明】
【0038】
本発明の1つ又は複数の実施例や関連技術における技術案がより明瞭に説明されるように、以下では、実施例や関連技術の記述に必要な図面を簡単に紹介する。以下の記述に係る図面が単に本発明の1つ又は複数の実施例において記載された幾つかの実施例に過ぎず、当業者であれば、進歩性に値する労働を掛けずにこれらの図面から他の図面を取得可能である。
図1】本発明の少なくとも1つの実施例に係る特徴マップ拡大方法の模式的なフローチャートである。
図2】本発明の少なくとも1つの実施例に係る特徴マップ拡大ネットワークである。
図3】本発明の少なくとも1つの実施例に係るトレーニングすべきニューラルネットワークに適用される特徴マップ拡大方法の模式的なフローチャートである。
図4】本発明の少なくとも1つの実施例に係るソース特徴マップ拡大原理図である。
図5】本発明の少なくとも1つの実施例に係る別の特徴マップ拡大方法である。
図6】本発明の少なくとも1つの実施例に係る再構成カーネル図の生成原理の模式図である。
図7】本発明の少なくとも1つの実施例に係る再構成カーネル図の変換の模式図である。
図8】本発明の少なくとも1つの実施例に係る特徴再構成のフローチャートである。
図9】本発明の少なくとも1つの実施例に係る再構成特徴の生成の模式図である。
図10】本発明の少なくとも1つの実施例に係るトレーニング完了されたニューラルネットワークに適用される特徴マップ拡大方法の模式的なフローチャートである。
図11】本発明の少なくとも1つの実施例に係るFPNのネットワーク構造の模式図である。
図12】本発明の少なくとも1つの実施例に係る特徴マップ拡大装置の模式的なブロック図である。
図13】本発明の少なくとも1つの実施例に係る別の特徴マップ拡大装置の模式的なブロック図である。
図14】本発明の少なくとも1つの実施例に係る更に別の特徴マップ拡大装置の模式的なブロック図である。
【発明を実施するための形態】
【0039】
本発明の1つ又は複数の実施例における技術案がより良好に当業者に理解されるように、以下では、本発明の1つ又は複数の実施例の図面を組み合わせて本発明の1つ又は複数の実施例における技術案を明瞭で完全に記述する。記述される実施例が単に本発明の一部の実施例に過ぎず、全部の実施例ではない。本発明の1つ又は複数の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。
【0040】
特徴マップ拡大操作は、物体検出、画像意味領域分割等の複数種のタスクにおいて広く応用されている。本発明は、特徴マップ拡大方法を提供する。当該方法は、拡大すべき特徴マップの異なる位置でのコンテンツに基づいて、当該位置に対応する再構成カーネルを取得することができる。ただし、拡大すべき特徴マップをソース特徴マップと呼称し、拡大後の特徴マップを目標特徴マップと呼称すれば、再構成カーネルの役割は、ソース特徴マップにおける特徴に基づいて目標特徴マップにおける特徴を取得することである。
【0041】
当該方法は、特徴マップの異なる位置でのコンテンツに基づいて再構成カーネルを取得するもため、「コンテンツ検知に基づく特徴マップ拡大方法」、又は「コンテンツ検知に基づく特徴再構成アルゴリズム」(Content-Aware ReAssembly of Features、CARAFEと略称)と呼称されてもよい。
【0042】
図1は、本発明の特徴マップ拡大方法の模式的なフローチャートを例示する。図1に示すように、当該方法は、下記のステップを含む。
【0043】
ステップS100では、拡大すべきソース特徴マップを受信する。ただし、前記ソース特徴マップは、入力特徴マップ拡大ネットワークのトレーニング用のサンプル画像に対して特徴抽出を行って得られたものであってもよく、入力特徴拡大ネットワークの処理用の目標画像に対して特徴抽出を行って得られたものであってもよい。
【0044】
ステップS102では、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得する。
【0045】
本ステップでは、前記ソース位置は、ソース特徴マップにおける1つの画素であってもよい。前記Nは、ソース特徴マップに対する拡大倍数の二乗である。前記畳み込み処理は、畳み込み層を介してソース特徴マップに対して畳み込みを行うものであってもよく、1つのソース位置にN個の再構成カーネルが対応して得られる。
【0046】
ステップS104では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。
【0047】
例えば、softmaxを用いて再構成カーネルを正規化してもよい。実際の実施では、これに限定されない。
【0048】
ステップS106では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得する。ただし、再構成領域の特徴に対して再構成を行い、以下では、再構成領域に対して特徴再構成を行うと別称してもよい。
【0049】
本ステップでは、各再構成カーネルを用いてソース特徴マップの再構成領域に対して特徴再構成を行い、対応する1つの再構成特徴を取得する。こうして、N個の再構成カーネルは、合計でN個の再構成特徴を取得可能である。前記再構成領域は、例えば、ソース位置を中心とする1つの領域であり、且つ当該再構成領域のサイズは、再構成カーネルのサイズと同じである。
【0050】
ステップS108では、前記ソース特徴マップのソース位置のそれぞれに対応するN個の再構成特徴に基づいて、目標特徴マップを生成する。
【0051】
例えば、各ソース位置に対応するN個の再構成特徴を目標特徴マップにおける、ソース位置に対応する目標位置に充填してもよい。こうして、ソース特徴マップを拡大した目標特徴マップは、最終的に得られる。
【0052】
本実施例の特徴マップ拡大方法では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なるソース位置において異なる再構成カーネルは取得される。換言すれば、同一のソース特徴マップのあらゆる位置について同一のカーネルを採用する従来方式と区別し、本実施例の再構成カーネルは、ソース特徴マップにおける位置に対応し、ソース特徴マップの前記位置におけるコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成(つまり、拡大)を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。
【0053】
図2は、特徴マップ拡大ネットワークを例示する。当該特徴マップ拡大ネットワークは、図1に示す特徴マップ拡大方法を実行してもよい。図2に示すように、当該特徴マップ拡大ネットワークは、カーネル予測モジュール11及び再構成モジュール12を備えてもよい。拡大すべきソース特徴マップ13が当該特徴マップ拡大ネットワークに入力されたときに、まず、カーネル予測モジュール11は、当該ソース特徴マップ13のコンテンツに基づいて再構成カーネル14を取得してもよい。その後、再構成モジュール12は、当該再構成カーネル14を用いてソース特徴マップ13における特徴に対して再構成を行って再構成特徴を取得する。再構成特徴を目標特徴マップ15における対応する位置に充填すると、ソース特徴マップに対する拡大は、完成する。
【0054】
上記特徴マップ拡大ネットワークは、トレーニングを経てから実際のタスクに応用される。以下では、当該特徴マップ拡大ネットワークのトレーニング段階及び応用段階をそれぞれ記述する。ただし、トレーニングする際に、主に、特徴マップ拡大ネットワークにおけるカーネル予測モジュール11のパラメータ調整に係るが、再構成モジュール12は、パラメータ調整に係らなくてもよい。
ネットワークトレーニング
【0055】
図3は、本発明の特徴マップ拡大方法を例示する。当該方法では、トレーニングすべきニューラルネットワークは、入力されたサンプル画像に対して特徴抽出を行ってソース特徴マップを取得し、当該ソース特徴マップに対して特徴マップ拡大を行って目標特徴マップを取得した後、目標特徴マップに基づいてサンプル画像の予測結果についてネットワークパラメータ調整を行ってもよい。また、当該ニューラルネットワークのトレーニング中において、特徴マップ拡大ネットワークも、トレーニングを実施し、即ち、特徴マップ拡大ネットワークのパラメータを調整した。図3図2を参照し、当該方法は、下記の処理を含んでもよい。
【0056】
ステップ200では、拡大すべきソース特徴マップを受信する。ただし、前記ソース特徴マップは、ニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよい。
【0057】
本ステップでは、特徴マップ拡大ネットワークのトレーニング段階において、特徴マップ拡大ネットワークは、1つのトレーニングすべきニューラルネットワークに統合されてもよい。例えば、当該特徴マップ拡大ネットワークは、物体検出のためのFPN(Feature Pyramid Network)ネットワークに統合されてもよく、又は、当該特徴マップ拡大ネットワークは、画像修復のためのネットワークに統合されてもよい。即ち、当該特徴マップ拡大ネットワークは、ニューラルネットワークの一部として当該ニューラルネットワークのトレーニングに関与してもよい。
【0058】
当該ニューラルネットワークは、入力されたサンプル画像の特徴を抽出して前記ソース特徴マップを取得してもよい。次に、当該特徴マップ拡大ネットワークを介してソース特徴マップを目標特徴マップまで拡大した後、ニューラルネットワークは、更に、引き続き前記目標特徴マップに基づいてサンプル画像に対応する予測結果を取得してもよい。
【0059】
例えば、図2を参照し、ソース特徴マップの形状パラメータは、C*H*Wであってもよい。ただし、Cは、ソース特徴マップのチャンネル数であり、Hは、高さであり、Wは、幅である。xは、当該ソース特徴マップの識別子であってもよい。
【0060】
ステップ202では、コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得する。
【0061】
ただし、コンテンツ符号化畳み込み層は、特徴マップ拡大ネットワークの一部であり、トレーニングすべきニューラルネットワークの一部でもある。本ステップでは、特徴マップ拡大ネットワークのカーネル予測モジュール11は、「コンテンツ符号化畳み込み層」を含んでもよい。当該コンテンツ符号化畳み込み層は、畳み込みカーネルを介してソース特徴マップに対して畳み込み処理を行い、ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得してもよい。前記Nは、ソース特徴マップに対する拡大倍数の二乗である。
【0062】
例えば、特徴マップ拡大ネットワークがソース特徴マップを2倍拡大しようとすれば、拡大倍数は、2となる。ソース特徴マップにおけるソース位置ごとに、2*2=4つの再構成カーネルは、取得可能である。前記「1つのソース位置」は、ソース特徴マップにおける1つの画素であってもよい。
【0063】
再構成カーネルがコンテンツ符号化畳み込み層を介してソース特徴マップの異なる位置でのコンテンツに対して畳み込み処理を行って得られたものであるため、ソース特徴マップの異なる位置に関し、コンテンツが変化すると、再構成カーネルは、それとともに変化する。
【0064】
ステップ204では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。
【0065】
本ステップでは、各再構成カーネルは、複数の特徴を含んでもよく、各再構成カーネルの特徴の和が1となるように、同一の再構成カーネルに属する複数の特徴に対して正規化処理を行ってもよい。再構成カーネルが正規化されたため、ソース特徴マップの拡大時に、ソース特徴マップの特徴平均値は、変化しない。
【0066】
正規化された後、正規化された再構成カーネルを再構成モジュール12の特徴再構成処理に適用してもよい。
【0067】
ステップ206では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得する。
【0068】
上記ステップの処理を経て、ソース特徴マップの各ソース位置は、何れもN個の再構成カーネルに対応可能であり、且つ各再構成カーネルは、正規化処理される。
【0069】
本ステップでは、特徴再構成処理を行うときに、ソース特徴マップの何れかのソース位置について実行する処理は、下記のことを含んでもよい。
【0070】
まず、ソース位置を中心とする再構成領域を取得してもよい。当該再構成領域のサイズは、再構成カーネルのサイズと同じである。例えば、再構成カーネルが5*5のサイズであると仮定すれば、再構成領域も5*5のサイズとなる。
【0071】
次に、ソース位置に対応する正規化後のN個の再構成カーネルをそれぞれ用いて、ソース位置に基づいて特定された再構成領域に対して特徴再構成を行う。1つの再構成カーネルが1つの対応する再構成特徴を取得可能であるため、合計でN個の再構成特徴は、取得され得る。
【0072】
ステップ208では、前記ソース特徴マップのソース位置のそれぞれに対応するN個の再構成特徴に基づいて、目標特徴マップを生成する。
【0073】
本ステップでは、ステップ206で得られた前記ソース位置に対応するN個の再構成特徴を、目標特徴マップにおける、前記ソース位置に対応する目標位置に充填してもよい。前記目標位置は、前記ソース位置よりも面積が大きい。
【0074】
ソース特徴マップを2倍拡大することを例とすると、ソース特徴マップにおける1つの画素は、目標特徴マップにおける4つの画素に対応可能である。図4に示すように、拡大後の目標位置の高さ及び幅は、何れもソース位置の高さ及び幅の2倍である。当該ソース位置の1つの画素は、4つの再構成カーネル(図4は、単に模式的なものであり、実に、再構成カーネルのサイズは、ソース位置のサイズよりも大きくなってもよい)、それぞれ再構成カーネルa、b、c及びdに対応可能である。この4つの再構成カーネルは、それぞれ、ソース位置に対応する再構成領域とともに特徴再構成処理を行われ、合計で4つの再構成特徴を得る。例えば、再構成カーネルaと再構成領域とに対して特徴再構成処理を行った後、1つの再構成特徴が得られ、再構成カーネルbと再構成領域とに対して特徴再構成処理を行った後、もう1つの再構成特徴が得られる。当該4つの再構成特徴を目標位置のA、B、C及びDの4つの領域に充填すると、ソース位置を目標位置まで拡大することは、完了される。
【0075】
ソース特徴マップのソース位置ごとに、上記ステップ206及びステップ208の処理を行うと、ソース特徴マップを目標特徴マップに拡大することは、実現可能である。ただし、ソース位置がソース特徴マップのエッジに存在するときに、再構成領域における、ソース特徴マップからはみだす部分に0を充填してもよい。
【0076】
例えば、図2を参照し、目標特徴マップの形状パラメータは、C*σH*σWであってもよい。ただし、Cは、目標特徴マップのチャンネル数であり、σHは、高さであり、σWは、幅であり、σは、ソース特徴マップから目標特徴マップまでの拡大倍数である。xは、当該目標特徴マップの識別子であってもよい。
【0077】
ステップ210では、前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得する。
【0078】
本ステップでは、特徴マップ拡大ネットワークの所在するニューラルネットワークは、目標特徴マップに基づいて、サンプル画像に対応する予測結果を予測によって取得してもよい。ニューラルネットワークの具体的なシナリオが異なると、予測結果も異なってくる。例えば、予測結果は、物体の種別であってもよく、又はサンプル画像におけるある画素の所属する種別等であってもよい。
【0079】
ステップ212では、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記ニューラルネットワークのパラメータを調整する。ただし、前記ニューラルネットワークのパラメータは、前記特徴マップ拡大ネットワークにおけるコンテンツ符号化畳み込み層のパラメータを含む。
【0080】
本ステップでは、特徴マップ拡大ネットワークの所在するニューラルネットワークは、サンプル画像のマーク結果と、目標特徴マップに基づいてサンプル画像を予測した予測結果との間の差に基づいて、ニューラルネットワークを調整するパラメータを逆方向で伝送してもよい。ただし、特徴マップ拡大ネットワークは、ニューラルネットワークの一部であり、当該特徴マップ拡大ネットワークにおけるカーネル予測モジュールに含まれるコンテンツ符号化畳み込み層のパラメータは、トレーニング過程において調整されてもよい。
【0081】
本実施例の特徴マップ拡大ネットワークのトレーニング方法では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なる位置に異なる再構成カーネルを取得する。換言すれば、同一のソース特徴マップのあらゆる位置について同一のカーネルを採用する従来方式と区別し、本実施例の再構成カーネルは、ソース特徴マップにおける異なる位置に対応し、前記位置におけるソース特徴マップのコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成(つまり、拡大)を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。
【0082】
図5は、特徴マップ拡大ネットワークを介してソース特徴マップを目標特徴マップまで拡大する過程をより詳細に示す。ただし、当該図5は、図2に加えて、特徴マップ拡大操作性能をより良好にする幾つかの処理を追加し、且つ、特徴マップ拡大操作の各処理ステップについて例示的な実践処理方式をそれぞれ記述した。図5におけるカーネル予測モジュール及び再構成モジュールは、何れも特徴マップ拡大ネットワークの構成部分である。ただし、図5におけるソース特徴マップ及び目標特徴マップは、図2におけるものと同じである。
カーネル予測モジュールの処理
【0083】
図5を参照し、カーネル予測モジュール(Kernel Prediction Module)は、まず、入力されたソース特徴マップに対してチャンネル圧縮(Channel Compressor)を行ってもよい。具体的に、それは、チャンネル圧縮畳み込み層を介してソース特徴マップに対してチャンネル圧縮を行ってもよい。当該チャンネル圧縮畳み込み層は、1つの1*1の畳み込み層であってもよい。
【0084】
入力されたソース特徴マップのチャンネル数がCであるとすれば、チャンネル圧縮畳み込み層の処理を経た後、出力チャンネル数は、Cとなってもよい。ただし、C<Cである。ソース特徴マップに対してチャンネル圧縮を行うことにより、特徴マップ拡大アルゴリズムの効率を向上可能であり、且つ本発明のCARAFEアルゴリズムに大きな受容野範囲内のソース特徴マップコンテンツ情報を集約させ、アルゴリズム性能を更に向上させる。試験で分かるように、チャンネル圧縮は、アルゴリズム性能を損なうことがない。
【0085】
また、カーネル予測モジュールがチャンネル圧縮畳み込み層を追加した後、トレーニング過程において調整されるニューラルネットワークのパラメータは、上記コンテンツ符号化畳み込み層のパラメータだけでなく、当該チャンネル圧縮畳み込み層のパラメータも含む。
【0086】
引き続き図5を参照し、チャンネルが圧縮されたソース特徴マップは、カーネル予測モジュールのコンテンツ符号化畳み込み層を介して畳み込み処理(Content Encoder)を行われる。
【0087】
図6に示すように、前記コンテンツ符号化畳み込み層は、σ*kup =Cup個のフィルタ(Filter)を含む。ただし、σは、ソース特徴マップに対する拡大倍数の二乗であり、kup は、ある再構成カーネルのサイズであり、各フィルタは、C個の畳み込みカーネルを含み、各畳み込みカーネルのサイズは、kencoder*kencoderである。畳み込み処理を行うときに、各フィルタとソース特徴マップとに対して畳み込みを行い、1つのチャンネルの畳み込み出力特徴マップを得る。当該畳み込み出力特徴マップのサイズは、H*Wである。コンテンツ符号化畳み込み層は、合計でCup個のチャンネルの畳み込み出力特徴マップを取得可能である。図6に示すように、畳み込み処理によって、H*W*σ*kup の再構成カーネル図(Cup個のチャンネルの再構成カーネル図とも呼称されてもよい)は得られる。当該再構成カーネル図では、各層が1つのチャンネルであり、且つ各層が1つの畳み込み出力特徴マップと呼称される。
【0088】
再構成カーネル図が得られた後、引き続きソース特徴マップにおける位置のそれぞれに対応するN個の再構成カーネルを取得する。
【0089】
まず、1つの畳み込み出力特徴マップは、大量の画素を含んでもよく、各画素の特徴は、1つの畳み込み出力特徴と呼称されてもよい。例えば、図7は、畳み込み出力特徴マップにおける1つの畳み込み出力特徴61(図7における1つの小格子に対応する)、及びもう1つの畳み込み出力特徴62を例示する。
【0090】
次に、引き続き図7を参照し、再構成カーネル図の深度は、σ*kup であり、即ち、ソース特徴マップの各位置(例えば、各画素)は、個のチャンネルの畳み込み出力特徴に対応する。ソース特徴マップの拡大倍数がσであるときに、目標特徴マップの高さがσHであり、目標特徴マップの幅がσWであると、再構成カーネル図の深度は、kup と変更されてもよい。具体的に、σ*kup 個のチャンネルの再構成カーネル図は、深度方向において切り分け、N=σ部に均等に分けてもよい。図7では、拡大倍数が2であることを例とし、再構成カーネル図を4部に均等に分け、各部に含まれるチャンネル数がkup である。各部は、1つの再構成カーネルと呼称されてもよく、当該再構成カーネルは、kup 個のチャンネルの畳み込み特徴を含む。
【0091】
また、図7では、再構成カーネル図を深度方向において均等に分けた後、隣接するチャンネルを合成して1つの再構成カーネルを構成する。実際の実施では、それに限定されず、深度方向における各チャンネルを自由に組み合わせてもよく、最終的にチャンネル数が均等に分けられたN部として組み合わせられればよい。しかし、ソース特徴マップの異なる画素に対応するチャンネルについて同じ組み合わせ方式を採用することを保証する必要がある。例えば、4つのチャンネル、0~3がある場合に、チャンネル0とチャンネル2を1グループとし、チャンネル1とチャンネル3を1グループとすれば、全ての画素は、このようにグルーピングする必要がある。
【0092】
上記コンテンツ符号化畳み込み層の処理により、ソース特徴マップのソース位置ごとに、対応するN個の再構成カーネルは、取得可能である。また、試験で分かるように、畳み込みカーネルのサイズがkencoder*kencoderであり、前記再構成カーネルのサイズがkup*kupであるときに、前記kencoduer=kup-2と設定すると、「より大きい受容野を検知」と「アルゴリズムの効率を向上」との間のバランスは、良好に達成できる。無論、本実施例では、実際の実施におけるkencoderとkupの値について限定しない。しかし、kencoderを増加すると、畳み込みカーネルの受容野を向上可能であるため、より大きな領域範囲のソース特徴マップのコンテンツを検知可能であり、取得された再構成カーネルを特徴マップ拡大に用いる効果もより良好になる。
【0093】
引き続き図5を参照し、ソース特徴マップのソース位置のそれぞれに対応する再構成カーネルが得られた後、引き続き各再構成カーネルに対して正規化処理を行ってもよい(Kernel Normalizer)。上記のように、各再構成カーネルは、チャンネル数がkup である畳み込み出力特徴を含んでもよく、これらの畳み込み出力特徴に対して正規化を行ってもよい。本実施例では、正規化の具体的な方式について限定せず、例示として、softmax関数によって正規化を行ってもよい。
【0094】
ソース特徴マップの各ソース位置の再構成カーネルを取得して正規化した後、次に再構成モジュールを介して、正規化された再構成カーネルを用いてソース特徴マップの拡大処理を行ってもよい。
再構成モジュールの処理
【0095】
引き続き図5を参照し、再構成モジュール(Reassembly Modules)は、ソース特徴マップを拡大するときに、ソース特徴マップにおける各ソース位置に対して図8に示す処理を行ってもよい。
【0096】
ステップ700では、前記ソース位置に対応するN個の再構成カーネルを取得する。何れの再構成カーネルに対しても、ステップ702~708を実行する。
【0097】
本ステップでは、同一のソース位置は、N個の再構成カーネルに対応する。例えば、拡大倍数が2であるときに、N=4となり、1つのソース位置は、4つの再構成カーネルに対応する。各再構成カーネルを用いて再構成領域の特徴に対して再構成処理を行うと、対応する再構成特徴は、取得可能である。
【0098】
ステップ702では、前記再構成カーネルに含まれる各チャンネルの畳み込み出力特徴をフラット化し、2次元の再構成カーネルを取得する。
【0099】
図5に示すように、上記のように、1つの再構成カーネルは、kup 個のチャンネルの畳み込み出力特徴を含む。これらの畳み込み出力特徴は、1つの2次元の再構成カーネルとしてフラット化してもよく、2次元再構成カーネルのサイズは、kup*kupである。
【0100】
ステップ704では、前記ソース位置を中心とする再構成領域を取得し、前記再構成領域のサイズは、前記2次元の再構成カーネルのサイズと同じである。
【0101】
本ステップでは、再構成領域は、ソース位置を中心とし、且つサイズもkup*kupである。図5におけるN(x,kup)は、1つの特徴再構成の関数を示し、当該関数は、例えば、後述する加重加算であってもよい。xは、ソース位置l(i,j)を中心とする再構成領域を示し、kupは、当該再構成領域のサイズもkup*kupであることを示す。
【0102】
ステップ706では、前記2次元の再構成カーネルとソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、各チャンネルに対応するチャンネル特徴を取得する。
【0103】
本ステップでは、ソース特徴マップのチャンネル数は、Cである。注意すべきことは、再構成モジュールの処理が、チャンネル圧縮を行っていないソース特徴マップに対して行われるものであるが、上述したチャンネル圧縮が、カーネル予測モジュールによる畳み込み処理の前に実行され、主にコンテンツに基づいて生成された再構成カーネルの受容野範囲を拡張するために用いられる。
【0104】
1つの再構成カーネルとソース特徴マップの1つのチャンネルの再構成領域とに対して特徴再構成を行った後、1つの対応するチャンネル特徴は得られる。図9は、1つのチャンネル特徴81を例示し、当該チャンネル特徴81の面積が目標位置の1/Nに対応する。例えば、拡大倍数が2であるときに、チャンネル特徴81の面積は、目標位置面積の1/4に相当する。各チャンネルのチャンネル特徴を組み合わせると、図9に示す直方体の形状を形成可能であり、合計でC個のチャンネルがある。
【0105】
本ステップでは、1つの再構成カーネルと1つのチャンネルの再構成領域とに対して特徴再構成を行うときに、使用される特徴再構成方式は、以下に例示される2種を含むが、それらに限定されない。
【0106】
例えば、再構成カーネルと前記再構成領域における対応する位置の特徴とに対して加重加算を行い、再構成カーネルにおける各畳み込み出力特徴を重みとして、加重加算された結果を前記チャンネル特徴としてもよい。
ただし、
、wl’(n,m)は、再構成カーネルにおける何れか1つの位置を示し、例えば、図5の再構成カーネルwl’における何れか1つの小格子であってもよい。
【0107】
一般的に、デコンボリューションの畳み込みカーネルは、トレーニングするときに特定され、テスト過程において変更できない。換言すれば、テスト過程において、入力された画像がどの画像であっても、当該特定された畳み込みカーネルを用いて特徴マップ拡大を行う。それと対比し、本発明の特徴マップ拡大方法の再構成カーネルは、テストするときにソース特徴マップのコンテンツ畳み込み処理によって得られ、異なる特徴マップコンテンツに応じて、異なる畳み込み結果、即ち、再構成カーネルを得る。したがって、本発明の当該方法では、特徴マップ拡大過程において、拡大すべき画像のコンテンツに応じて、異なる再構成操作を行うことができる。実践で証明できるように、本発明の特徴マップ拡大方法の効果は、デコンボリューションよりも著しく優れる。
【0108】
更に例えば、再構成カーネルの複数の畳み込み出力特徴から数値が最も大きな畳み込み出力特徴を特定し、当該最大値の畳み込み出力特徴位置に対応する再構成領域における特徴を前記チャンネル特徴として見つけ出してもよい。
【0109】
ステップ708では、各チャンネルに対応するチャンネル特徴を組み合わせ、前記再構成カーネルに対応する1つの再構成特徴を取得する。例えば、図9は、1つの再構成特徴を示し、当該再構成特徴は、C個のチャンネルのチャンネル特徴を含む。
【0110】
各再構成カーネルは、1つの再構成特徴を取得可能であり、N個の再構成カーネルは、合計でN個の再構成特徴を取得する。1つのソース位置に対応するN個の再構成特徴は、目標特徴マップにおける、前記ソース位置に対応する目標位置に充填されてもよい。
【0111】
例えば、図4に示すものと類似し、4つの再構成特徴は、目標位置のA、B、CとDの4つの領域に充填されてもよい。本実施例では、前記4つの再構成特徴のこの4つの個領域における充填順番について限定せず、各画素が同じ充填順番を用いることを保証すればよい。ソース位置と目標位置との間の対応関係及び拡大倍数に基づいて、目標特徴マップにおける前記目標位置を取得してもよい。
【0112】
例えば、目標特徴マップにおける各位置l’(i’,j’)は、ソース特徴マップにおける位置l(i,j)に対応する。ただし、
σは、拡大倍数である。図4に示すものと類似し、ソース特徴マップにおける1つのソース位置は、目標特徴マップにおける1つの目標位置に対応し、且つ当該目標位置の領域面積は、ソース位置の領域面積のσ倍に対応する。
【0113】
ソース特徴マップのソース位置ごとに上記操作を行うと、ソース特徴マップを目標特徴マップまで拡大することは、実現可能である。
【0114】
特徴マップ拡大ネットワークのトレーニングが完了された後、如何なる特徴拡大に係る操作も当該特徴マップ拡大ネットワークを利用可能である。例えば、当該特徴マップ拡大ネットワークをある既存のニューラルネットワーク(例えば、FPN)に統合し、当該ニューラルネットワークにおける特徴拡大が用いられる操作を本実施例の特徴マップ拡大ネットワークのものに置き換えてもよい。
【0115】
上述したように、特徴マップ拡大ネットワークがニューラルネットワークに統合されたときに、当該ニューラルネットワークをトレーニングすることにより、当該ニューラルネットワークに統合された特徴マップ拡大ネットワークをトレーニング可能である。
ネットワーク応用
【0116】
上記本発明の何れかの実施例に記述された特徴マップ拡大ネットワークを用いて特徴マップの拡大を行ってもよい。例えば、図10は、一例の特徴マップ拡大方法を示し、当該方法は、トレーニング完了されたニューラルネットワークが入力画像からソース特徴マップを抽出し、当該ソース特徴マップに対して特徴マップ拡大を行った後の関連処理であってもよい。図10に示すように、当該方法は、下記のステップを含んでもよい。
【0117】
ステップ900では、トレーニング完了されたニューラルネットワークは、入力画像からソース特徴マップを抽出する。
【0118】
ただし、前記トレーニング完了されたニューラルネットワークは、本発明の何れかの実施例の前記方法を用いてトレーニングされるコンテンツ符号化畳み込み層を含む。
【0119】
前記ソース特徴マップは、ニューラルネットワークが直接入力画像に対して特徴抽出を行って得られたものであってもよい。また、当該ニューラルネットワークには、複数の特徴マップ拡大ネットワークが含まれてもよい。こうして、抽出して得られたソース特徴マップに対して、複数回拡大を行うことができる。例えば、ソース特徴マップを4倍拡大しようとする場合に、トレーニングされた特徴マップ拡大ネットワークがソース特徴マップを2倍拡大可能であると、当該特徴マップ拡大ネットワークは、2回連続使用されてもよい。換言すれば、特徴マップ拡大ネットワークを介してソース特徴マップを2倍拡大してから、特徴マップ拡大ネットワークを介して引き続き2倍拡大することができる。
【0120】
ステップ902では、コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得する。
【0121】
本ステップでは、トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を用いてソース特徴マップに対して畳み込み処理を行ってもよい。別の例において、畳み込み処理の前に、更に、トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行ってもよい。コンテンツ符号化畳み込み層は、チャンネル圧縮されたソース特徴マップに対して畳み込み処理を行ってもよい。
【0122】
トレーニング完了されたニューラルネットワークのパラメータが既に特定されたため、トレーニング完了されたニューラルネットワークに統合された特徴マップ拡大ネットワークのパラメータも特定され、特徴マップ拡大ネットワークにおけるコンテンツ符号化畳み込み層のパラメータ及びチャンネル圧縮畳み込み層のパラメータも既に特定された。
【0123】
ステップ904では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。
【0124】
ステップ906では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得する。
【0125】
ステップ908では、前記ソース特徴マップのソース位置のそれぞれに対応するN個の再構成特徴に基づいて、目標特徴マップを生成する。
【0126】
ステップ910では、前記目標特徴マップに基づいて、前記入力画像の処理結果を取得する。
【0127】
以下では、ニューラルネットワークが目標特徴マップに基づいて処理結果を得る幾つかの例を示す。
【0128】
例えば、物体検出のニューラルネットワークにおいて、入力画像は、検出すべき少なくとも1つの目標物体を含んでもよく、ニューラルネットワークは、まず入力画像の特徴を抽出してソース特徴マップを取得してもよい。次に、当該ニューラルネットワークは、当該特徴マップ拡大ネットワークを介して、当該ソース特徴マップを拡大した目標特徴マップを取得してもよい。その後、当該ニューラルネットワークは、当該目標特徴マップに基づいて引き続き処理し、入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別の確率を出力してもよい。
【0129】
更に例えば、画像修復のニューラルネットワークにおいて、入力画像は、欠け部を含んでもよく、ニューラルネットワークは、まず、その基幹ネットワークを介して入力画像の特徴を抽出してソース特徴マップを取得してもよい。次に、当該ニューラルネットワークは、当該特徴マップ拡大ネットワークを介して、当該ソース特徴マップを拡大した目標特徴マップを取得してもよい。その後、当該ニューラルネットワークは、当該目標特徴マップに基づいて引き続き処理し、前記入力画像の欠け部の画素を出力してもよい。
【0130】
より更に例えば、意味予測のニューラルネットワークにおいて、含まれる特徴マップ拡大ネットワークを介して、入力画像から抽出されたソース特徴マップを拡大することで、拡大後の目標特徴マップを取得し、当該目標特徴マップに基づいて引き続き処理し、前記入力画像における各画素の所属する種別を出力してもよい。
【0131】
また例えば、インスタンス分割のニューラルネットワークにおいて、含まれる特徴マップ拡大ネットワークを介して、入力画像から抽出されたソース特徴マップを拡大することで、拡大後の目標特徴マップを取得し、当該目標特徴マップに基づいて引き続き処理し、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力してもよい。
【0132】
上記本明細書の実施例に係る特徴マップ拡大アルゴリズムは、CARAFEアルゴリズムと呼称されてもよい。当該CARAFEの1種の応用場面は、FPN(feature pyramid network、特徴ピラミッドネットワーク)であり、この種のネットワークの構造は、図11に示される。FPNでは、まず入力画像の複数層の特徴(c2, c3, c4, c5)を取得する。ただし、特徴c2から、各層の特徴の大きさは、順に2倍縮小する。
【0133】
FPNは、ダウンサンプリングc5(例えば、max pool(最大値プーリング)、average pool(平均値プーリング))により、p6を取得する。その後、FPNは、各層の特徴を順に1つ上の層の特徴へ伝達する。伝達の手順は、小さい特徴マップを2倍拡大してから、大きな特徴マップと加算する。
【0134】
標準的なFPNでは、上記拡大操作が最近傍補間を用いて実施される。CARAFEを応用したFPNでは、最近傍補間をCARAFEで直接置き換え、トレーニング過程においてCARAFEのパラメータとFPNのパラメータとに対して同時に最適化する。
【0135】
FPNの1種の主な使用場面は、物体検出タスクにおけるFaster RCNNである。CARAFEを用いたFPNと元のFPNとをFaster RCNNにおいて対比する。MS COCO 2017データセットに、MS COCOの公式的な評価基準、即ち、IoU(intersection-over-union)0.5から0.95のmAP(mean average precision)平均値を使用する。ただし、IoUは、検出枠と目標枠との間の面積積集合/面積和集合を示し、mAPは、各種の平均精度(average precision)が各種における平均(mean)を示し、満点が100であり、最小が0である。また、目標枠ごとに、当該目標枠の種別の検出に成功した検出枠が少なくとも1つがあるとともに、当該目標枠とのiouが特定の閾値より大きい場合に、当該物体が検出されたと考えられる。テストセット(test-dev)において、CARAFEは、アルゴリズムの精度を36.9から38.1に増加してもよい。当該試験で分かるように、CARAFEをFPN構造に用いると、Faster RCNNのアルゴリズム精度は、著しく向上することができる。
【0136】
本明細書では、他のCARAFEの応用インスタンスを挙げない。実際の試験では、当該CARAFEアルゴリズムで計算されるリソースのオーバヘッドが小さく、運転速度が速くて、物体検出タスク、画像修復タスク、意味領域分割タスクとインスタンス分割タスク等の複数種のタスクのネットワーク構造に統合して運用されることが非常に容易である。また、複数種のタスクにおけるCARAFEアルゴリズムの挙動を評価して分かるように、当該アルゴリズムにより、各タスクが一致して安定する性能向上を得ることができる。
【0137】
図12は、特徴マップ拡大装置を提供する。図12に示すように、当該装置は、ソースマップ受信モジュール1201、カーネル生成モジュール1202、正規化処理モジュール1203、特徴再構成モジュール1204及び目標マップ生成モジュール1205を備えてもよい。
【0138】
ソースマップ受信モジュール1201は、拡大すべきソース特徴マップを受信する。前記ソース特徴マップは、入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよい。カーネル生成モジュール1202は、前記ソース特徴マップに対して畳み込み処理を行い、ソース特徴マップにおけるソース位置のそれぞれに対応するN個の再構成カーネルを取得する。前記Nは、ソース特徴マップに対する拡大倍数の二乗である。正規化処理モジュール1203は、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。特徴再構成モジュール1204は、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得する。目標マップ生成モジュール1205は、前記ソース特徴マップのソース位置のそれぞれに対応するN個の再構成特徴に基づいて、目標特徴マップを生成する。
【0139】
一例において、カーネル生成モジュール1202は、具体的に、Cup個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Cup個のチャンネルの再構成カーネル図を取得し、前記再構成カーネル図における、前記ソース特徴マップの同一ソース位置に対応するCup個のチャンネルの畳み込み出力特徴をN部に均等に分け、各部を1つの前記再構成カーネルとしてもよく、前記Cupは、前記拡大倍数と再構成カーネルのサイズとに基づいて特定されたものであり、1つの前記再構成カーネルは、Cup/N個のチャンネルの畳み込み出力特徴を含む。
【0140】
一例において、特徴再構成モジュール1204は、更に、前記ソース位置に対応する正規化後のN個の再構成カーネルを用いて、再構成領域の特徴に対して再構成を行う前に、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるCup/N個のチャンネルの畳み込み出力特徴をフラット化し、2次元の前記再構成カーネルを取得し、前記ソース位置を中心とする前記再構成領域を取得してもよい。前記再構成領域のサイズは、前記再構成カーネルのサイズと同じである。
【0141】
一例において、前記正規化処理モジュール1203は、具体的に、それぞれの再構成カーネルにおけるCup/N個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得してもよい。
【0142】
一例において、特徴再構成モジュール1204は、1つのソース位置に対応する正規化後のN個の再構成カーネルを用いて再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するN個の再構成特徴を取得する際に、前記再構成カーネルごとに、前記再構成カーネルのそれぞれとソース特徴マップの各チャンネルの前記再構成領域とに対して再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得し、前記再構成カーネルに対応する各チャンネルの前記チャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得してもよい。
【0143】
一例において、特徴再構成モジュール1204は、前記再構成カーネルのそれぞれとソース特徴マップの各チャンネルの前記再構成領域とに対して再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得する際に、チャンネルごとに、前記再構成カーネルと前記チャンネルの再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記チャンネルに対応するチャンネル特徴としてもよい。
【0144】
一例において、目標マップ生成モジュール1205は、具体的に、前記ソース位置と拡大倍数とに基づいて、目標特徴マップにおける、前記ソース位置に対応する前記目標位置を取得し、前記ソース位置に対応するN個の再構成特徴を、目標特徴マップにおける、前記ソース位置に対応する前記目標位置に充填してもよい。
【0145】
一例において、図13に示すように、図12の特徴マップ拡大装置がトレーニングすべきニューラルネットワークに含まれたときに、当該装置は、予測処理モジュール1306とパラメータ調整モジュール1307を更に備えてもよい。
【0146】
このような場合に、ソースマップ受信モジュール1201で受信されたソース特徴マップは、前記トレーニングすべきニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよく、カーネル生成モジュール1202は、前記ソース特徴マップに対して畳み込み処理を行うときに、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行ってもよい。
【0147】
予測処理モジュール1306は、目標特徴マップが目標マップ生成モジュール1205によって生成された後、前記目標特徴マップに基づいて前記サンプル画像の予測結果を取得し、前記パラメータ調整モジュール1307は、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整し、前記ニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。
【0148】
一例において、図13に示すように、当該装置は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュール1308を更に備える。このような場合に、前記カーネル生成モジュール1202は、ソース特徴マップに対して畳み込み処理を行うときに、コンテンツ符号化畳み込み層を介してチャンネル圧縮後のソース特徴マップに対して畳み込み処理を行ってもよい。また、前記パラメータ調整モジュール1307は、更に、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整する。
【0149】
一例において、図14に示すように、図12の特徴マップ拡大装置がトレーニング完了されたニューラルネットワークに含まれたときに、前記ソースマップ受信モジュール1201で受信されたソース特徴マップは、前記トレーニング完了された前記ニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよく、前記カーネル生成モジュール1202は、前記ソース特徴マップに対して畳み込み処理を行うときに、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行ってもよい。また、当該装置は、目標特徴マップが目標マップ生成モジュール1205によって生成された後、前記目標特徴マップに基づいて入力画像の処理結果を取得するための結果出力モジュール1406を更に備えてもよい。
【0150】
一例において、図14に示すように、当該装置は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュール1407を更に備えてもよい。このような場合に、前記カーネル生成モジュール1202は、ソース特徴マップに対して畳み込み処理を行うときに、前記コンテンツ符号化畳み込み層を介してチャンネル圧縮後のソース特徴マップに対して畳み込み処理を行ってもよい。
【0151】
一例において、前記入力画像は、検出すべき少なくとも1つの目標物体を含み、前記結果出力モジュール1406は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各目標物体の検出枠、及び前記目標物体の所属する種別を出力してもよい。
【0152】
一例において、前記入力画像は、欠け部を含み、結果出力モジュール1406は、具体的に、前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。
【0153】
一例において、結果出力モジュール1406は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力する。
【0154】
一例において、結果出力モジュール1406は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力する。
【0155】
本発明は、特徴マップ拡大機器を更に提供する。前記機器は、メモリと、プロセッサとを備える。前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実施例の特徴マップ拡大方法を実施する。
【0156】
本発明は、コンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例の特徴マップ拡大方法は、実施される。
【0157】
当業者であれば理解できるように、本発明の1つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本発明は、100%ハードウェアの実施例、100%ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本発明の1つ又は複数の実施例は、1つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
【0158】
本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。当該記憶媒体には、コンピュータプログラムが記憶されてもよく、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例に記載の文字識別のためのニューラルネットワークのトレーニング方法のステップ、及び/又は、本発明の何れかの実施例に記載の文字識別方法のためのステップは、実施される。ただし、前記「及び/又は」は、両者のうちの1つを少なくとも含むことを示す。例えば、「N及び/又はB」は、N、B、及び「NとB」という3つの形態を含む。
【0159】
本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特にデータ処理機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
【0160】
上記は、本発明の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。
【0161】
本発明における記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの1つ又は複数の組み合わせにおいて実現され得る。本発明に記述されたテーマの実施例は、1つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における1つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの1つ又は複数の組み合わせであってもよい。
【0162】
本発明に記述された処理及び論理フローは、1つ又は複数のコンピュータプログラムを実行する1つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGN(フィールドプログラマブルゲートアレイ)又はNSIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
【0163】
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び/又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための1つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための1つ又は複数の大容量記憶機器、例えば、磁気ディスク、磁光ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、2種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント(PDN)、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。
【0164】
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器(例えば、EPROM、EEPROMとフラッシュメモリ機器)、磁気ディスク(例えば、内部ハードディスク又はリムーバブルディスク)、磁光ディスク及びCD ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。
【0165】
本発明が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本発明の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの1つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。
【0166】
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。
【0167】
このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
【0168】
上述したのは、本発明の1つ又は複数の実施例の好適な実施例に過ぎず、本発明の1つ又は複数の実施例を制限するためのものではない。本発明の1つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の1つ又は複数の実施例の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14