IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7444235注意機構、画像認識システム、特徴変換方法およびプログラム
<>
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図1
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図2
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図3
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図4
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図5
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図6
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図7
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図8
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図9
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図10
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図11
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図12
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図13
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図14
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図15
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図16
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図17
  • 特許-注意機構、画像認識システム、特徴変換方法およびプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-27
(45)【発行日】2024-03-06
(54)【発明の名称】注意機構、画像認識システム、特徴変換方法およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240228BHJP
【FI】
G06T7/00 350Z
【請求項の数】 7
(21)【出願番号】P 2022504820
(86)(22)【出願日】2020-03-03
(86)【国際出願番号】 JP2020008953
(87)【国際公開番号】W WO2021176566
(87)【国際公開日】2021-09-10
【審査請求日】2022-08-17
【前置審査】
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】福井 宏
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2018-181124(JP,A)
【文献】特開2019-200512(JP,A)
【文献】WANG Xiaolong, et al.,Non-local Neural Networks,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,2018年
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
画像の特徴を示す特徴マップを取得する中間取得部と、
取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する埋込部と、
注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け部と、
逆畳み込み演算を用いて、前記重み付け特徴マップのスケールを逆変換する逆畳み込み部と、
逆変換された前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取る残差処理部と、
を有するコンピュータを備え、
前記埋込部は、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のクエリとして機能する埋込特徴マップを生成するクエリ埋込部と、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のキーとして機能する埋込特徴マップを生成するキー埋込部と、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のバリューとして機能する埋込特徴マップを生成するバリュー埋込部と、を備え、
前記重み付け部は、
前記クエリとして機能する埋込特徴マップと前記キーとして機能する埋込特徴マップとの行列積に基づいて、予測注意重み行列を算出する重み付け部と、
前記予測注意重み行列と前記バリューとして機能する埋込特徴マップとを用いて、行列積演算を行い、行列積演算の演算結果に基づいて行列変換を行うことで、前記重み付け特徴マップを生成する行列演算部とを備え
前記残差処理部は、前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取ることで、認識装置が前記画像に含まれる被写体を認識するための残差特徴マップを生成する注意機構。
【請求項2】
前記ブロックベースの特徴埋込演算は、カーネルの第1方向の画素数と同数の間隔で前記カーネルを適用させて、前記特徴マップに含まれる複数の画素値を畳み込む演算を含み、
前記カーネルの第1方向の画素数は、1より大きい
請求項1に記載の注意機構。
【請求項3】
前記埋込部は、
ブロックベースの第1特徴埋込演算を用いて取得した前記特徴マップをダウンサンプリングして、第1埋込特徴マップを生成する第1埋込部と、
第2特徴埋込演算を用いて、前記第1埋込特徴マップに基づいて前記注意機構アルゴリズムの入力行列となる第2埋込特徴マップを生成する第2埋込部と
を有する
請求項1または2に記載の注意機構。
【請求項4】
画像の特徴を示す特徴マップを取得する中間取得部と、取得した前記特徴マップに基づいて、ブロックベースの特徴埋込演算を用いて、スケールが縮小変換された埋込特徴マップを生成する埋込部と、注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け部と、を有する注意機構と、
前記重み付け特徴マップに基づく情報を用いて、前記画像に含まれる被写体を認識する認識装置と
逆畳み込み演算を用いて、前記重み付け特徴マップのスケールを逆変換する逆畳み込み部と、
逆変換された前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取る残差処理部と、
を備え、
前記埋込部は、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のクエリとして機能する埋込特徴マップを生成するクエリ埋込部と、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のキーとして機能する埋込特徴マップを生成するキー埋込部と、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のバリューとして機能する埋込特徴マップを生成するバリュー埋込部と、を備え、
前記重み付け部は、
前記クエリとして機能する埋込特徴マップと前記キーとして機能する埋込特徴マップとの行列積に基づいて、予測注意重み行列を算出する重み付け部と、
前記予測注意重み行列と前記バリューとして機能する埋込特徴マップとを用いて、行列積演算を行い、行列積演算の演算結果に基づいて行列変換を行うことで、前記重み付け特徴マップを生成する行列演算部とを備え
前記残差処理部は、前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取ることで、認識装置が前記画像に含まれる被写体を認識するための残差特徴マップを生成する画像認識システム。
【請求項5】
機械学習により、前記ブロックベースの特徴埋込演算のパラメータを最適化する学習装置をさらに備える
請求項4に記載の画像認識システム。
【請求項6】
コンピュータを用いて、特徴を変換する特徴変換方法であって、
前記特徴変換方法が、
画像の特徴を示す特徴マップを取得する段階と、
取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する段階と、
注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する段階と、
逆畳み込み演算を用いて、前記重み付け特徴マップのスケールを逆変換する段階と、
逆変換された前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取る段階と、
を備え、
前記埋込特徴マップを生成する段階では
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のクエリとして機能する埋込特徴マップを生成し、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のキーとして機能する埋込特徴マップを生成し、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のバリューとして機能する埋込特徴マップを生成し、
前記重み付け特徴マップを生成する段階では、
前記クエリとして機能する埋込特徴マップと前記キーとして機能する埋込特徴マップとの行列積に基づいて、予測注意重み行列を算出し、
前記予測注意重み行列と前記バリューとして機能する埋込特徴マップとを用いて、行列積演算を行い、行列積演算の演算結果に基づいて行列変換を行うことで、前記重み付け特徴マップを生成し、
前記差分を取る段階では、前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取ることで、認識装置が前記画像に含まれる被写体を認識するための残差特徴マップを生成する特徴変換方法。
【請求項7】
画像の特徴を示す特徴マップを取得する中間取得機能と、
取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する埋込機能と、
注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け機能と、
逆畳み込み演算を用いて、前記重み付け特徴マップのスケールを逆変換する機能と、
逆変換された前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取る機能と、
をコンピュータに実現させ、
前記埋込機能は
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のクエリとして機能する埋込特徴マップを生成し、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のキーとして機能する埋込特徴マップを生成し、
前記特徴マップから、前記注意機構アルゴリズムにおける入力行列のバリューとして機能する埋込特徴マップを生成し、
前記重み付け機能は、
前記クエリとして機能する埋込特徴マップと前記キーとして機能する埋込特徴マップとの行列積に基づいて、予測注意重み行列を算出し、
前記予測注意重み行列と前記バリューとして機能する埋込特徴マップとを用いて、行列積演算を行い、行列積演算の演算結果に基づいて行列変換を行うことで、前記重み付け特徴マップを生成し、
前記差分を取る機能は、前記重み付け特徴マップと取得した前記特徴マップとの間の差分を取ることで、認識装置が前記画像に含まれる被写体を認識するための残差特徴マップを生成するプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、特徴変換装置、画像認識システム、特徴変換方法および非一時的なコンピュータ可読媒体に関する。
【背景技術】
【0002】
対象画像の被写体認識において、対象画像から被写体を認識する際の注意の重みを算出し、抽出した対象画像の特徴マップに対して、注意の重みに応じた重み付けをする注意機構を使用することが知られている。たとえば非特許文献1には、このような注意機構において、特徴マップの行列積の演算を行うことにより、注意の重みを算出し、特徴マップを重み付けすることが開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】X. Wang, R. Girshick, A. Gupta, K. He, "Non-local Neural Networks", Computer Vision and Pattern Recognition, 2017年11月21日提出
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の目的は、関連する技術を改善することにある。
【課題を解決するための手段】
【0005】
本開示の一態様における特徴変換装置は、画像の特徴を示す特徴マップを取得する中間取得部と、取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する埋込部と、注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け部と、を備える。
【0006】
本開示の一態様における画像認識システムは、画像の特徴を示す特徴マップを取得する中間取得部と、取得した前記特徴マップに基づいて、ブロックベースの特徴埋込演算を用いて、スケールが縮小変換された埋込特徴マップを生成する埋込部と、注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け部と、を有する特徴変換装置と、前記重み付け特徴マップに基づく情報を用いて、前記画像に含まれる被写体を認識する認識装置と、を備える。
【0007】
本開示の一態様における特徴変換方法は、画像の特徴を示す特徴マップを取得する段階と、取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する段階と、注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する段階と、を備える。
【0008】
本開示の一態様における非一時的なコンピュータ可読媒体は、画像の特徴を示す特徴マップを取得する中間取得機能と、取得した前記特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する埋込機能と、注意機構アルゴリズムを用いて、前記埋込特徴マップに基づく情報から前記画像の位置に対応する前記特徴の注意重みを予測し、前記注意重みを用いて前記特徴マップに対応する重み付け特徴マップを生成する重み付け機能と、をコンピュータに実現させる特徴変換プログラムが格納されている。
【図面の簡単な説明】
【0009】
図1】実施形態1にかかる特徴変換装置の構成を示すブロック図である。
図2】実施形態2にかかる特徴変換装置が適用されることができる画像認識システムの一例を示す概略構成図である。
図3】実施形態2にかかる特徴変換装置の処理の効果を説明するための図である。
図4】実施形態2にかかる注意機構の処理の概要を説明するための図である。
図5】実施形態2にかかる注意機構の構成を示すブロック図である。
図6】実施形態2にかかる画像認識システムの処理を示すフローチャートである。
図7】実施形態2にかかる注意機構の処理を示すフローチャートである。
図8】実施形態2にかかる埋込部の特徴埋込処理を示すフローチャートである。
図9】実施形態2にかかる画像認識システムの学習処理を示すフローチャートである。
図10】実施形態3にかかる注意機構の構成を示すブロック図である。
図11】実施形態3にかかる埋込部の特徴埋込処理を示すフローチャートである。
図12】実施形態4にかかる注意機構の処理の概要を説明するための図である。
図13】実施形態4にかかる注意機構の構成を示すブロック図である。
図14】実施形態4にかかる注意機構の処理を示すフローチャートである。
図15】実施形態5にかかる注意機構の処理の概要を説明するための図である。
図16】実施形態5にかかる注意機構の構成を示すブロック図である。
図17】実施形態5にかかる注意機構の処理を示すフローチャートである。
図18】本実施形態のコンピュータの概略構成図である。
【発明を実施するための形態】
【0010】
(実施形態1)
以下、図面を参照して本開示の実施形態1について説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
【0011】
図1は、実施形態1にかかる特徴変換装置10の構成を示すブロック図である。特徴変換装置10は、中間取得部100と、埋込部120と、重み付け部160とを備える。
中間取得部100は、画像の特徴を示す特徴マップを取得する。
埋込部120は、取得した特徴マップに対してブロックベースの特徴埋込演算を行い、スケールが縮小変換された埋込特徴マップを生成する。
重み付け部160は、注意機構アルゴリズムを用いて、埋込特徴マップに基づく情報から画像の位置に対応する特徴の注意重みを予測し、注意重みを用いて特徴マップに対応する重み付け特徴マップを生成する。
【0012】
本実施形態1の構成によれば、特徴変換装置10は、取得した特徴マップからスケールが縮小変換された埋込特徴マップを生成し、注意機構アルゴリズムを用いて重み付け特徴マップを生成する。したがって、注意機構アルゴリズムにおける演算量(特に、行列積の演算量)を大幅に削減することができる。また特徴変換装置10は、ブロックベースで特徴マップのスケールを縮小させるため、注意機構アルゴリズムにおいて注意重みを算出する場合の受容野を広げることが可能となる。
【0013】
(実施形態2)
次に図2~9を用いて、本開示の実施形態2について説明する。図2は、実施形態2にかかる特徴変換装置2が適用されることができる画像認識システム1の一例を示す概略構成図である。
画像認識システム1は、入力画像Iに含まれる被写体を認識するコンピュータ等である。画像認識システム1は、特徴変換装置2と、認識装置5と、学習装置6とを備える。
特徴変換装置2は、入力画像Iから特徴マップMを生成し、認識装置5に入力するコンピュータ等である。ここで各特徴マップMは、入力画像Iの領域ごとの、後述する特徴抽出処理および注意機構処理等の特徴変換処理において用いられるカーネル(フィルタ)に対する反応の強さ(すなわち、特徴量)を示す行列である。すなわち各特徴マップMは、入力画像Iの特徴を示す。特徴変換装置2は、特徴抽出器22と、注意機構20とを有する。特徴抽出器22および注意機構20は、深層学習等の機械学習により学習されたパラメータを含むニューラルネットワークおよび畳み込みニューラルネットワークで用いられる畳み込み層または全結合層等の機能を有する。
【0014】
特徴抽出器22は、入力画像Iに対して各種処理を行うことにより入力画像Iの特徴を抽出し、1または複数の特徴マップMを生成するコンピュータ等である。特徴抽出器22は、学習したパラメータを用いて特徴を抽出するための畳み込み処理およびプーリング処理等の各種処理を行う。特徴抽出器22は、生成した特徴マップMを注意機構20に出力する。
【0015】
注意機構20は、特徴抽出器22から出力された特徴マップMから注意重みを算出し、特徴マップMに対して算出した注意重みで重み付けをし、重み付けがされた特徴マップMを生成するコンピュータ等である。ここで注意機構20は、入力画像Iに含まれる複数の領域の各々に、注意の重みである注意重みを算出し、それらの領域から抽出された特徴に対して注意重みに応じた注意を払う注意機構アルゴリズムを用いる。注意機構アルゴリズムは、2段階で行列積を演算するアルゴリズムである。注意重みは、入力画像Iの複数の領域の各々の特徴とその他の領域の特徴との間の相関の強さを示したものである。本明細書における注意重みは、入力画像I全体の巨視的な位置関係を考慮した重みである点で、畳み込み処理等に用いられるカーネルの各画素の重みと相違する。また重み付けがされた特徴マップMは、特徴マップMの各画素に対して、対応する注意重みで重み付けを行ったものであり、すなわち特徴量に強弱が付与されたものである。
注意機構20は、学習したパラメータを用いて、特徴マップMに特徴を埋め込み、重み付けがされた特徴マップMを生成する。本明細書で埋込とは、注意機構アルゴリズムにおける注意重みを算出するための入力行列および重み付けを行うため入力行列を生成するために特徴マップMの特徴量を当該入力行列の種別に応じて変換することと定義する。そして注意機構20は、重み付けられた特徴マップMを後続の装置に出力する。
【0016】
なお、本図では特徴変換装置2は、特徴抽出器22および注意機構20の組が複数個直列に接続される構成を有する。したがって、末端の注意機構20は、重み付けられた特徴マップMを認識装置5に出力し、それ以外の注意機構20は、後続の特徴抽出器22に出力する。なお特徴抽出器22と注意機構20とは、規則的に繰り返し接続されてもよく、特徴抽出器22→特徴抽出器22→注意機構20→…のように不規則に接続されてもよい。しかしこれに限らず、特徴変換装置2は、1組の特徴抽出器22および注意機構20のみを有してもよい。
【0017】
認識装置5は、重み付けがされた特徴マップMに基づく情報を用いて、入力画像Iに含まれる被写体を認識するコンピュータ等である。認識装置5は、入力画像Iに含まれる被写体を検出する処理、識別する処理、追跡する処理、分類する処理、およびその他の任意の認識処理のうちの1または複数を行い、出力値Oを出力する。認識装置5は、深層学習等の機械学習により学習されたパラメータを用いて、上記認識処理を行う。認識装置5も、ニューラルネットワークおよび畳み込みニューラルネットワークで用いられる畳み込み層または全結合層等の機能を有する。
【0018】
学習装置6は、特徴変換装置2の特徴抽出器22および注意機構20と、認識装置5とに接続され、これらの装置の処理に用いられる各種パラメータを学習により更新し、最適化するコンピュータ等である。学習装置6は、学習データを特徴変換装置2の最初の特徴抽出器22に入力し、認識装置5から出力された認識結果と正解ラベルとの差に基づいて、各種パラメータを更新する学習処理を行う。そして学習装置6は、最適化した各種パラメータを特徴抽出器22、注意機構20および認識装置5に出力する。なお本実施形態2では学習装置6は、学習データを記憶する学習データベース(不図示)を備える。しかしこれに限らず、学習データベースは、学習装置6と通信可能に接続された他の装置(不図示)等に含まれていてもよい。
【0019】
なお特徴変換装置2、認識装置5および学習装置6は、複数のコンピュータ等で構成されてもよく、単一のコンピュータ等で構成されてもよい。複数のコンピュータ等で構成される場合は、各装置が、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)等の各種ネットワークを通じて通信可能に接続されてよい。
【0020】
図3は、実施形態2にかかる特徴変換装置2の処理の効果を説明するための図である。本図に示すように特徴変換装置2は、入力画像Iの特徴を、複数の画素を含むブロック単位で捉え、複数のブロックの各々に対して特定のブロックとの間の相関の強さを示す注意重みを算出する。そして特徴変換装置2は、算出した注意重みに従って重み付け特徴マップを生成する。このように特徴変換装置2はブロック単位で注意重みを算出するため、受容野を拡張し、位置同士の相関の算出を効率化することができる。
【0021】
次に、特徴変換装置2の注意機構20の処理の概要について、図4を用いて説明する。図4は、実施形態2にかかる注意機構20の処理の概要を説明するための図である。
【0022】
まず注意機構20は、特徴抽出器22から特徴マップM(M0)を取得する。この特徴マップM0は、C×H×Wの3階テンソルである(C、HおよびWは自然数)。ここで、Cはチャンネル数を示し、Hは各特徴マップMの縦方向の画素数を示し、Wは各特徴マップMの横方向の画素数を示す。
【0023】
次に注意機構20は、後述するブロックベースの特徴埋込処理を用いて、スケールが縮小された埋込特徴マップM1’を生成する。ここでスケールは、各特徴マップMの縦方向または横方向の画素数の大きさを示す。またブロックは、本実施形態2ではS×Sの画素数を有する画素の集合体である(Sは自然数)。そして、埋込特徴マップM1’は、(H/S)×(W/S)の行列がC’チャンネルある構成をとり(C’は自然数)、すなわち埋込特徴マップM1’は、C’×(H/S)×(W/S)の3階テンソルである。そして注意機構20は、埋込特徴マップM1’に基づいて、埋込特徴マップM1を生成する。ここで埋込特徴マップM1は、C’×(H/S)(W/S)または(H/S)(W/S)×C’の行列である。
次に注意機構20は、埋込特徴マップM1に基づいて注意重みで重み付けをし、行列変換を行った重み付け特徴マップM2を生成する。重み付け特徴マップM2はC’×(H/S)×(W/S)の3階テンソルである。
【0024】
このような処理を行う注意機構20の構成について、図5を用いて説明する。図5は、実施形態2にかかる注意機構20の構成を示すブロック図である。注意機構20は、中間取得部200と、埋込部220と、重み付け部260と、中間出力部290とを備える。
【0025】
中間取得部200は、特徴抽出器22から特徴マップM0を取得する。中間取得部200は、取得した特徴マップM0を埋込部220に出力する。
【0026】
埋込部220は、取得した特徴マップM0に対してブロックベースの特徴埋込演算等を行い、スケールが縮小変換された埋込特徴マップM1を生成する。埋込部220は、クエリ埋込部222と、キー埋込部224と、バリュー埋込部226とを有する。
【0027】
クエリ埋込部222およびキー埋込部224はそれぞれ、後述する重み付け部260の注意重み算出部262に入力され、注意機構アルゴリズムにおける入力行列のクエリおよびキーとして機能する埋込特徴マップM1を生成する。クエリ埋込部222およびキー埋込部224はそれぞれ、学習装置6により最適化されたパラメータを用いて、特徴マップM0に対してブロックベースの特徴埋込演算処理等を行う。
【0028】
バリュー埋込部226は、後述する重み付け部260の行列演算部264に入力され、注意機構アルゴリズムにおける入力行列のバリューとして機能する埋込特徴マップM1を生成する。バリュー埋込部226は、クエリ埋込部222およびキー埋込部224と同様に、学習装置6により最適化されたパラメータを用いて、特徴マップM0に対してブロックベースの特徴埋込演算処理等を行う。
【0029】
重み付け部260は、クエリ、キーおよびバリューを入力行列とする注意機構アルゴリズムを用いる。本実施形態2では注意機構アルゴリズムは、自己注意機構アルゴリズムであってよいが、これに限らずソースターゲット注意機構アルゴリズム等の他の注意機構アルゴリズムであってもよい。重み付け部260は、注意機構アルゴリズムにおいて、クエリ埋込部222、キー埋込部224およびバリュー埋込部226から出力される埋込特徴マップM1から特徴マップM0に対応する重み付け特徴マップM2を生成する。重み付け部260は、注意重み算出部262と、行列演算部264とを有する。
【0030】
注意重み算出部262は、クエリ埋込部222およびキー埋込部224から出力される埋込特徴マップM1に基づく情報から、入力画像Iの位置に対応する特徴の注意重みを予測する。注意重み算出部262は、注意重みを行列演算部264に出力する。
【0031】
行列演算部264は、注意重みを用いてバリュー埋込部226から出力される埋込特徴マップM1に重み付けを行い、行列変換を行って重み付け特徴マップM2を生成する。行列演算部264は、重み付け特徴マップM2を中間出力部290に出力する。
【0032】
中間出力部290は、重み付け特徴マップM2を後続の装置等(認識装置5あるいは後続に特徴抽出器22が接続される場合、後続の特徴抽出器22)に出力する。
【0033】
次に画像認識システム1の処理について、図6を用いて説明する。図6は、実施形態2にかかる画像認識システム1の処理を示すフローチャートである。
まずS10において、特徴変換装置2の特徴抽出器22は、入力画像Iを取得する。
【0034】
次にS11において、特徴抽出器22、注意機構20および認識装置5は、学習装置6から後述の処理に用いる最適化された各種パラメータを取得する。
次にS12において、特徴抽出器22は畳み込み処理およびプーリング処理等を含む特徴抽出処理を行い、入力画像Iの特徴が抽出された特徴マップM0を生成する。特徴抽出器22は、特徴マップM0を注意機構20に出力する。
【0035】
次にS13において、注意機構20は、特徴マップM0に対して注意機構処理を行い、重み付け特徴マップM2を生成する。
S14において、注意機構20は、S12およびS13にかかる処理(特徴変換処理)を終了するか否かを判定する。注意機構20は、終了する場合(S14でY)、注意機構20は、重み付け特徴マップM2を認識装置5に出力し、処理をS15に進める。注意機構20は、終了しない場合(S14でN)、重み付け特徴マップM2を後続の特徴抽出器22に出力し、処理をS12に戻る。
次にS15において、認識装置5は、重み付け特徴マップM2に基づく情報を用いて、所定の認識処理を行う。そして認識装置5は、処理を終了する。
【0036】
図7は、実施形態2にかかる注意機構20の処理(図6に示すS13の注意機構処理)を示すフローチャートである。
まずS20において、注意機構20の中間取得部200は、特徴抽出器22から特徴マップM0を取得する。
【0037】
次にS22において、埋込部220は特徴埋込処理を行い、スケールが1/S倍に縮小変換された埋込特徴マップM1を生成する。ここでクエリ埋込部222は、S22aにおいて特徴埋込処理を行い、(H/S)(W/S)×C’の埋込特徴マップM1を生成する。またキー埋込部224は、S22bにおいて特徴埋込処理を行い、C’×(H/S)(W/S)の埋込特徴マップM1を生成する。またバリュー埋込部226は、S22cにおいて特徴埋込処理を行い、C’×(H/S)(W/S)の埋込特徴マップM1を生成する。なお、特徴埋込処理の詳細については、後述する。クエリ埋込部222およびキー埋込部224は、埋込特徴マップM1を注意重み算出部262に出力する。一方でバリュー埋込部226は、埋込特徴マップM1を行列演算部264に出力する。
【0038】
次にS23において、重み付け部260の注意重み算出部262は、クエリ埋込部222から出力される埋込特徴マップM1とキー埋込部224から出力される埋込特徴マップM1とを用いて1段階目の行列積の演算を行う。これにより注意重み算出部262は、(H/S)(W/S)×(H/S)(W/S)のスケールを有する予測注意重み行列を算出する。このとき注意重み算出部262は、行列積の演算結果に対してソフトマックス関数等の活性化関数を用いた正規化処理を行い、予測注意重み行列を算出してよい。注意重み算出部262は、予測注意重み行列を行列演算部264に出力する。
【0039】
S25において、行列演算部264は、予測注意重み行列と、バリュー埋込部226から出力された埋込特徴マップM1とを用いて2段階目の行列積の演算を行う。そして行列演算部264は、行列積の演算結果に基づいて行列変換を行い、3階テンソルの重み付け特徴マップM2を生成する。行列演算部264は、重み付け特徴マップM2を中間出力部290に出力する。
S26において中間出力部290は、重み付け特徴マップM2を後続の装置等に出力し、処理を終了する。
【0040】
このように埋込部220が注意重み算出部262の入力となる特徴マップのスケールを(1/S)倍に縮小変換することにより、注意重み算出部262における行列積の演算量を(1/S)倍に減少させることができる。またこれにより、行列演算部264における行列積の演算量をさらに(1/S)倍に減少させることができる。
【0041】
図8は、実施形態2にかかる埋込部220の特徴埋込処理(図7のS22に示す処理)を示すフローチャートである。
まずS30において埋込部220は、後続の処理に用いる最適化されたパラメータを学習装置6から取得する。当該パラメータは、後続のブロックベースの第1特徴埋込演算に用いられるカーネルの各画素の重みパラメータを含む。
【0042】
次にS32において埋込部220は、特徴マップM0に対してブロックベースの第1特徴埋込演算を行う。ここでブロックベースの第1特徴埋込演算は、カーネルの第1方向の画素数S(ただし、S>1)と同数の間隔(ストライド数)で当該カーネルを適用させて、特徴マップM0に含まれる複数の画素値を畳み込むまたはプーリングする演算を含む。第1方向は、縦または横方向である。つまり埋込部220は、S×Sの画素数を有するカーネルを特徴マップM0に対してSずつずらして適用させる。これにより、特徴マップをダウンサンプリングし、特徴マップのスケールを縮小変換させることができる。
【0043】
なお、埋込部220のクエリ埋込部222、キー埋込部224およびバリュー埋込部226に用いられるカーネルは、互いに独立した重みパラメータを有してよい。なお本実施形態2ではクエリ埋込部222、キー埋込部224およびバリュー埋込部226はそれぞれ、一層のブロックベースの畳み込み層またはプーリング層として機能するが、これに限らず複数層のブロックベースの畳み込み層またはプーリング層として機能してもよい。
【0044】
ここでS32において埋込部220は、特徴マップM0に対してゼロパディングを行わなくてよい。これにより、生成された埋込特徴マップM1にゼロ成分を含む特徴が含まれることを回避し、当該ゼロ成分を含む特徴が注意機構アルゴリズムにより全ての特徴にシェアされることを回避することができる。
これにより埋込部220は、C’×(H/S)×(W/S)の埋込特徴マップM1’を生成する。
【0045】
次にS34において埋込部220は、必要に応じて、埋込特徴マップM1’に対してベクトル変換を行い、注意機構の入力となる埋込特徴マップM1を生成する。たとえば埋込部220のクエリ埋込部222は、埋込特徴マップM1’に対して行列変換および転置変換等を行い、(H/S)(W/S)×C’の埋込特徴マップM1を生成してよい。またキー埋込部224およびバリュー埋込部226は、埋込特徴マップM1’に対して行列変換等を行い、C’×(H/S)(W/S)の埋込特徴マップM1を生成してよい。そして埋込部220は、処理を図7に示すS23に戻す。
【0046】
次に画像認識システム1の学習処理の概要について、図9を用いて説明する。図9は、実施形態2にかかる画像認識システム1の学習処理を示すフローチャートである。なお、図6に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
まずS40において学習装置6は、学習データベース(不図示)から大量の学習データを取得する。一例として学習データは、画像と当該画像の被写体の分類を示す正解ラベルとを含むデータセットであってよい。なお交差検定を行う場合は、学習データは訓練データとテストデータとに分類されていてよい。学習装置6は、特徴抽出器22に学習データに含まれる画像を入力し、処理をS11に進める。
【0047】
S45において学習装置6は、S15で認識装置5が認識処理を行ったことに応じて、出力値Oと学習データの正解ラベルとの間の誤差を算出する。
次にS46において学習装置6は、学習を終了するか否かを判定する。なお、本実施形態2において学習装置6は、更新回数が予め設定された回数に達したか否かを判定することにより、学習を終了するか否かを判定してよい。学習装置6は、学習を終了する場合(S46でY)処理をS48に進め、そうでなければ(S46でN)処理をS47に進める。
【0048】
S47において学習装置6は、算出した誤差に基づいて、特徴抽出器22、注意機構20および認識装置5に用いられる各種パラメータを更新する。各種パラメータは、注意機構20の埋込部220の第1特徴埋込演算に用いられるパラメータを含む。学習装置6は一例として誤差逆伝播法を用いて、各種パラメータを更新してよい。そして学習装置6は、処理をS12に戻す。
S48において学習装置6は、各種パラメータを決定する。そして学習装置6は処理を終了する。
【0049】
このように実施形態2によれば、特徴変換装置2の注意機構20は、ブロックベースの特徴埋込演算を用いてスケールが縮小変換された埋込特徴マップM1を生成し、注意機構アルゴリズムにより注意重みを算出する。したがって、注意機構アルゴリズムにおける演算量(特に、行列積の演算量)を大幅に削減することができる。また特徴変換装置2の注意機構20は、ブロックベースで特徴マップM0のスケールを縮小させるため、注意機構アルゴリズムにおける予測注意重み行列を算出する場合の受容野を広げることが可能となる。
【0050】
(実施形態3)
次に図10~11を用いて、本開示の実施形態3について説明する。実施形態3は、埋込部320が第1特徴埋込演算および第2特徴埋込演算を行うことに特徴を有する。
図10は、実施形態3にかかる注意機構30の構成を示すブロック図である。注意機構30は、実施形態2の注意機構20と基本的には同様の構成および機能を有するコンピュータ等である。ただし注意機構30は、埋込部220に代えて埋込部320を備える点で注意機構20と相違する。
【0051】
埋込部320は、埋込部220と基本的には同様の構成および機能を有する。ただし埋込部320は、第1埋込部330と、第2埋込部340とを有する。
第1埋込部330は、埋込部220と同様の構成および機能を有する。第1埋込部330は、第1クエリ埋込部332と、第1キー埋込部334と、第1バリュー埋込部336とを含む。第1クエリ埋込部332、第1キー埋込部334および第1バリュー埋込部336はそれぞれ、クエリ埋込部222、キー埋込部224およびバリュー埋込部226と同様の構成および機能を有する。第1埋込部330は、第1埋込特徴マップとして機能する埋込特徴マップM1’を生成し、これを正規化し、第2埋込部340に出力する。
【0052】
第2埋込部340は、第1埋込部330から出力された埋込特徴マップM1’に基づいて、第2特徴埋込演算を用いて、注意機構アルゴリズムの入力行列となる、第2埋込特徴マップとして機能する埋込特徴マップM1を生成する。第2埋込部340は、第2クエリ埋込部342と、第2キー埋込部344と、第2バリュー埋込部346とを含む。
【0053】
第2クエリ埋込部342は、第1クエリ埋込部332から出力された埋込特徴マップM1’から注意機構アルゴリズムのクエリとして機能する埋込特徴マップM1を生成する。そして第2クエリ埋込部342は、埋込特徴マップM1を注意重み算出部262に出力する。
第2キー埋込部344は、第1キー埋込部334から出力された埋込特徴マップM1’から注意機構アルゴリズムのキーとして機能する埋込特徴マップM1を生成する。そして第2キー埋込部344は、埋込特徴マップM1を注意重み算出部262に出力する。
第2バリュー埋込部346は、第1バリュー埋込部336から出力された埋込特徴マップM1’から注意機構アルゴリズムのバリューとして機能する埋込特徴マップM1を生成する。そして第2バリュー埋込部346は、埋込特徴マップM1を行列演算部264に出力する。
【0054】
図11は、実施形態3にかかる注意機構30の特徴埋込処理を示すフローチャートである。図11に示すステップは、図8に示すS30および32に代えて、S40~S43を有する。なお、図8に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
【0055】
S40において、埋込部320は、後続の処理に用いる最適化されたパラメータを学習装置6から取得する。当該パラメータは、後続の第1特徴埋込演算および第2特徴埋込演算のそれぞれに用いられるカーネルの各画素の重みパラメータを含む。
S41において、埋込部320の第1埋込部330は、図8のS32に示す処理と同様のブロックベースの第1特徴埋込処理を行い、埋込特徴マップM1’を生成する。
【0056】
S42において、第1埋込部330は、生成した埋込特徴マップM1’に対して、バッチノーマライゼーション(BN)を行う。これにより、パラメータ学習時の学習処理の効率化が可能となる。これに加えてまたはこれに代えて、第1埋込部330は、埋込特徴マップM1’に対して正規化線形関数(ReLU)を用いた正規化処理を行ってよい。これにより、パラメータ学習時の学習処理のさらなる効率化が可能となる。そして第1埋込部330は、第2埋込部340の対応する埋込部に埋込特徴マップM1’を出力する。
なおS42は必須ではなく、省略されてもよい。
【0057】
S43において、第2埋込部340は、第1埋込部330から出力された埋込特徴マップM1’に対して、第2特徴埋込演算を行い、C’×(H/S)×(W/S)の埋込特徴マップM1’’を生成する。本実施形態3では、第2特徴埋込演算は、第1方向の画素数が1であるカーネルを埋込特徴マップM1’に対して1の間隔(ストライド数)で適用させて、埋込特徴マップM1’に含まれる複数の画素値を畳み込む演算を含む。つまり本実施形態3では、第2特徴埋込演算により特徴マップのスケールは変化しない。このときS43において第2埋込部340は、埋込特徴マップM1’に対してゼロパディングを行わなくてよい。これにより、生成された埋込特徴マップM1’’にゼロ成分を含む特徴が含まれることを回避し、当該ゼロ成分を含む特徴が注意機構アルゴリズムにより全ての特徴にシェアされることを回避することができる。
【0058】
なお、第2埋込部340の第2クエリ埋込部342、第2キー埋込部344および第2バリュー埋込部346に用いられるカーネルは、互いに独立した重みパラメータを有してよい。なお本実施形態3では第2クエリ埋込部342、第2キー埋込部344および第2バリュー埋込部346はそれぞれ、1層の畳み込み層として機能するが、これに限らず複数層の畳み込み層として機能してもよい。
【0059】
なお第2特徴埋込演算は、これに代えてまたは加えて、カーネルの第1方向の画素数がN(Nは2以上の自然数)であり、ストライド数がN未満である畳み込み演算またはプーリング演算を含んでもよい。
そして第2埋込部340は、処理をS34に進める。
【0060】
このように実施形態3によれば、埋込部320は、特徴マップM0に対して、ブロックベースの第1特徴埋込演算を行い、その後ブロックベース以外の第2特徴埋込演算を行う。このように2段階の埋込演算を行うことにより、後続の注意重みの計算精度および認識装置5の認識処理の精度が向上する。
【0061】
(実施形態4)
次に図12~14を用いて、本開示の実施形態4について説明する。図12は、実施形態4にかかる注意機構40の処理の概要を説明するための図である。本図に示すように、本実施形態4の注意機構40は、重み付けをした重み付け特徴マップM2のスケールを逆変換することで、スケールを特徴マップM0と同等のスケールに戻した重み付け特徴マップM3を生成することに特徴を有する。
【0062】
このような処理を行う注意機構40の構成について、図13を用いて説明する。図13は、実施形態4にかかる注意機構40の構成を示すブロック図である。注意機構40は、実施形態3の注意機構30と基本的には同様の構成および機能を有するコンピュータ等である。ただし注意機構40は、注意機構30の構成に加えて逆畳み込み部470を備える。
逆畳み込み部470は、逆畳み込み演算を用いて、行列演算部264から出力された重み付け特徴マップM2のスケールを逆変換する。
【0063】
図14は、実施形態4にかかる注意機構40の処理を示すフローチャートである。図14に示すステップは、図7に示すステップに加えて、S50を有する。なお、図7に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
S50において、逆畳み込み部470は、S25で行列演算部264が重み付け特徴マップM2を出力したことに応じて、学習装置6から必要なパラメータを取得し、重み付け特徴マップM2に対して逆畳み込み処理を行う。本実施形態4において逆畳み込み部470は、取得したパラメータを含む、第1方向の画素数がS(ただし、S>1)のカーネルを用いて、重み付け特徴マップM2に対してストライド数Sで逆畳み込み演算を行う。これにより逆畳み込み部470は、C×H×Wの重み付け特徴マップM3を生成する。逆畳み込み部470は、この重み付け特徴マップM3を中間出力部290に出力し、処理をS26に進める。
【0064】
なお本実施形態4では図6に示す処理と基本的に同様の処理を行う。ただし特徴変換装置2の末端の注意機構40は、図6のS13において、特徴マップM0に対して特徴埋込処理を行い、重み付け特徴マップM2に代えて、重み付け特徴マップM3を生成し、重み付け特徴マップM3を認識装置5に出力する。
また図6のS14において、認識装置5は、重み付け特徴マップM2に代えて重み付け特徴マップM3に基づく情報を用いて、所定の認識処理を行う。そして認識装置5は、処理を終了する。
【0065】
このように本実施形態4によれば、注意機構40が、出力する特徴マップのスケールを元の特徴マップM0と同等のスケールに戻すため、学習中に発生しうる勾配減衰を防止し、注意機構40の後続処理の層を深くすることができる。これにより認識装置5の認識処理の精度が向上する。
【0066】
(実施形態5)
次に図15~17を用いて、本開示の実施形態5について説明する。
図15は、実施形態5にかかる注意機構50の処理の概要を説明するための図である。本図に示すように、本実施形態5の注意機構50は、逆変換した重み付け特徴マップM3からC×H×Wの残差特徴マップM4を生成することに特徴を有する。
【0067】
このような処理を行う注意機構50の構成について、図16を用いて説明する。図16は、実施形態5にかかる注意機構50の構成を示すブロック図である。注意機構50は、実施形態4の注意機構40と基本的には同様の構成および機能を有するコンピュータ等である。ただし注意機構50は、注意機構40の構成に加えて残差処理部580を備える。
【0068】
残差処理部580は、逆畳み込み部470および中間取得部200に接続され、逆畳み込み部470から出力された重み付け特徴マップM3と中間取得部200から出力された特徴マップM0との間の差分を取り、残差特徴マップM4を生成する。そして残差処理部580は、残差特徴マップM4を中間出力部290に出力する。
【0069】
図17は、実施形態5にかかる注意機構50の処理を示すフローチャートである。図17に示すステップは、図14に示すステップに加えて、S60を有する。なお、図14に示すステップと同様のステップについては、同一の記号を付して説明を省略する。
【0070】
S60において、残差処理部580は、S50で逆畳み込み部470が重み付け特徴マップM3を出力したことに応じて、中間取得部200から特徴マップM0を取得する。そして残差処理部580は、重み付け特徴マップM3と特徴マップM0との間の差分を算出し、C×H×Wの残差特徴マップM4を生成する。そして残差処理部580は、残差特徴マップM4を中間出力部290に出力し、処理をS26に進める。
【0071】
なお本実施形態5では図6のS13において、注意機構50は、特徴マップM0に対して特徴埋込処理を行い、重み付け特徴マップM2に代えて、残差特徴マップM4を生成し、残差特徴マップM4を認識装置5に出力する。
また図6のS14において、認識装置5は、重み付け特徴マップM2に代えて重み付け特徴マップM3に基づく残差特徴マップM4を用いて、所定の認識処理を行う。そして認識装置5は、処理を終了する。
【0072】
このように実施形態5によれば、注意機構50は重み付け特徴マップM3と特徴マップM0との間の差分を出力するため、学習中に発生しうる勾配減衰をさらに防止し、注意機構50の後続処理の層をさらに深くすることができる。これにより認識装置5の認識処理の精度が向上する。
【0073】
上述の実施形態1~5ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。
【0074】
なお上述の実施形態1~5では、この開示をハードウェアの構成として説明したが、この開示は、これに限定されるものではない。この開示は、上述の特徴抽出処理、注意機構処理、認識処理および学習処理等の各種処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
【0075】
図18は、実施形態1~5にかかるコンピュータ1900の概略構成図の一例である。図18に示すように、コンピュータ1900は、システム全体を制御するための制御部1000を備えている。この制御部1000には、データバス等のバスラインを介して、入力装置1050、記憶装置1200、記憶媒体駆動装置1300、通信制御装置1400、および入出力I/F1500が接続されている。
【0076】
制御部1000は、CPU1010と、ROM1020と、RAM1030とを備えている。
CPU1010は、ROM1020や記憶装置1200等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。
ROM1020は、CPU1010が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0077】
RAM1030は、CPU1010にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM1030には、本実施形態1~5による各種処理を行うための各種エリアが確保可能になっている。
【0078】
入力装置1050は、キーボード、マウスおよびタッチパネル等のユーザからの入力を受け付ける入力装置である。たとえばキーボードは、テンキー、各種機能を実行するための機能キーおよびカーソルキー等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置1100に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置1100の表面に配置される入力機器で、表示装置1100に画面表示された各種操作キーに対応した、ユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。
【0079】
表示装置1100は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、キーボードやマウスによる入力結果が表示されたり、最終的に検索されたイメージ情報が表示されたりするようになっている。また表示装置1100は、コンピュータ1900の各種機能に応じて、タッチパネルから必要な各種操作を行うための操作キーを画像表示する。
【0080】
記憶装置1200は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。
この記憶装置1200に使用される記憶媒体は、主としてハードディスク等が使用されるが、後述の記憶媒体駆動装置1300で使用される非一時的なコンピュータ可読媒体を使用するようにしてもよい。
記憶装置1200は、データ格納部1210、プログラム格納部1220および図示しないその他の格納部(例えば、この記憶装置1200内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。プログラム格納部1220には、本実施形態1~5における各種処理を実現するためのプログラムが格納されている。データ格納部1210には、本実施形態1~5にかかる各種データベースの各種データを格納する。
【0081】
記憶媒体駆動装置1300は、CPU1010が外部の記憶媒体(外部記憶媒体)からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。
ここで、外部記憶媒体とは、コンピュータプログラムやデータ等が記憶される非一時的なコンピュータ可読媒体をいう。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また各種プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路並びに記憶媒体駆動装置1300を介して、各種プログラムをコンピュータに供給できる。
【0082】
つまりコンピュータ1900は、制御部1000のCPU1010が、記憶媒体駆動装置1300にセットされた外部の記憶媒体から各種プログラムを読み込んで、記憶装置1200の各部に格納する。
【0083】
そして、コンピュータ1900が各種処理を実行する場合、記憶装置1200から該当プログラムをRAM1030に読み込み、実行するようになっている。但しコンピュータ1900は、記憶装置1200からではなく、記憶媒体駆動装置1300により外部の記憶媒体から直接RAM1030にプログラムを読み込んで実行することも可能である。また、コンピュータによっては各種プログラム等を予めROM1020に記憶させておき、これをCPU1010が実行するようにしてもよい。さらに、コンピュータ1900は、各種プログラムやデータを、通信制御装置1400を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0084】
通信制御装置1400は、コンピュータ1900と他のパーソナルコンピュータやワードプロセッサ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置1400は、これら各種外部電子機器からコンピュータ1900にアクセスすることを可能とする。
【0085】
入出力I/F1500は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続するためのインターフェースである。
【0086】
なお、CPU1010に代えてGPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)およびASIC(application specific integrated circuit)等が用いられてもよい。
【0087】
請求の範囲、明細書、および図面中において示したシステムおよび方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。請求の範囲、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。
【0088】
以上、実施形態を参照して本開示を説明したが、本開示は上記によって限定されるものではない。本開示の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0089】
1 画像認識システム、2,10 特徴変換装置、5 認識装置、6 学習装置、20,30,40,50 注意機構、22 特徴抽出器、100,200 中間取得部、120,220,320 埋込部、160,260 重み付け部、222 クエリ埋込部、224 キー埋込部、226 バリュー埋込部、262 注意重み算出部、264 行列演算部、290 中間出力部、330 第1埋込部、332 第1クエリ埋込部、334 第1キー埋込部、336 第1バリュー埋込部、340 第2埋込部、342 第2クエリ埋込部、344 第2キー埋込部、346 第2バリュー埋込部、470 逆畳み込み部、580 残差処理部、M,M0 特徴マップ、M1,M1’,M1’’ 埋込特徴マップ,M2,M3 重み付け特徴マップ、M4 残差特徴マップ、I 入力画像、O 出力値、1000 制御部、1010 CPU、1020 ROM、1030 RAM、1050 入力装置、1100 表示装置、1200 記憶装置、1210 データ格納部、1220 プログラム格納部、1300 記憶媒体駆動装置、1400 通信制御装置、1500 入出力I/F、1900 コンピュータ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18