(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-22
(45)【発行日】2024-07-30
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06N 3/0464 20230101AFI20240723BHJP
【FI】
G06N3/0464
(21)【出願番号】P 2023506783
(86)(22)【出願日】2022-01-13
(86)【国際出願番号】 JP2022000995
(87)【国際公開番号】W WO2022196060
(87)【国際公開日】2022-09-22
【審査請求日】2023-08-17
(31)【優先権主張番号】P 2021041852
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】福井 宏
【審査官】山本 俊介
(56)【参考文献】
【文献】SANG, Haiwei et al.,PCANet: Pyramid convolutional attention network for semantic segmentation,Image and Vision Computing,2020年08月07日,pp.1-8,[検索日:2022.03.16],インターネット<URL:https://www.sciencedirect.com/science/article/pii/S0262885620301293>
【文献】KUNDU, Souvik et al.,Attention-based Image Upsampling,arxiv:2012.09904v1,Cornell University,2020年12月17日,pp.1-10,[検索日:2022.03.16],インターネット<URL:https://arxiv.org/pdf/2012.09904.pdf>
【文献】KHAN, Salman et al.,Transformers in Vision : A Survey,arxiv:2101.01169v2,Cornell University,2021年02月22日,pp.1-28,[検索日:2022.03.16],インターネット<URL:https://arxiv.org/pdf/2101.01169v2.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する抽出手段と、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定する決定手段と、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映させる反映手段と、
を備えた情報処理装置。
【請求項2】
前記決定手段は、各前記第2構成要素が少なくとも1個の前記第1構成要素に対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
請求項1に記載の情報処理装置。
【請求項3】
前記決定手段は、前記第1特徴マップを複数の分割領域に分割し、各前記第2構成要素が少なくとも各前記分割領域におけるいずれか1個の前記第1構成要素に対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
請求項2に記載の情報処理装置。
【請求項4】
前記決定手段は、各前記第2構成要素が、各前記分割領域におけるいずれか1個の前記第1構成要素と対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
請求項3に記載の情報処理装置。
【請求項5】
前記決定手段は、全ての前記分割領域同士で、1対1に対応する前記第1構成要素を設定し、対応する前記第1構成要素同士について、前記グリッドパターンが前記第2特徴マップ上で同じ位置に配置されるよう、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
請求項4に記載の情報処理装置。
【請求項6】
前記決定手段は、所定の確率で、各前記第1構成要素の位置に応じて決定される前記グリッドパターンの前記第2特徴マップ上での位置をシャッフルすることで、前記対応関係を決定する、
請求項5に記載の情報処理装置。
【請求項7】
前記決定手段は、前記各分割領域を、複数個の前記第1構成要素を含む合同の図形で構成する、
請求項3乃至6のいずれか1項に記載の情報処理装置。
【請求項8】
前記抽出手段と、前記決定手段と、前記反映手段を有する注意機構ユニットを複数備える、
請求項1乃至7のいずれか1項に記載の情報処理装置。
【請求項9】
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出し、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定し、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映する、
ことを情報処理装置が実行する情報処理方法。
【請求項10】
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出し、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定し、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映する、
ことを情報処理装置に実行させるプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体に関する。
【背景技術】
【0002】
近年、機械学習を用いた各種技術が適用されている。例えば、特許文献1には、音源の全体区間ではない一部のハイライト区間を提供するために、音源、言語又は画像から抽出した特徴から分類情報との関係を学習するニューラルネットワークを利用することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
この開示は、先行技術文献に開示された技術を改善することを目的とする。
【課題を解決するための手段】
【0005】
本実施形態にかかる一態様の情報処理装置は、特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する抽出手段と、1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定する決定手段と、前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映させる反映手段を備える。
【0006】
本実施形態にかかる一態様の情報処理方法は、特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出し、1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定し、前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映することを情報処理装置が実行するものである。
【0007】
本実施形態にかかる一態様の非一時的なコンピュータ可読媒体は、特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出し、1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定し、前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映することを情報処理装置に実行させるプログラムが格納されたものである。
【図面の簡単な説明】
【0008】
【
図2】各実施の形態にかかる情報処理装置のハードウェア構成を示すブロック図である。
【
図3】実施の形態1にかかる情報処理装置の機能的構成を示すブロック図である。
【
図4】実施の形態1にかかる情報処理装置の動作の流れを示すフローチャートである。
【
図5】実施の形態2にかかる情報処理装置の機能的構成を示すブロック図である。
【
図6】実施の形態2にかかる情報処理装置の動作の流れを示すフローチャートである。
【
図7】実施の形態2にかかる情報処理装置の処理をより詳細に示す模式図である。
【
図8A】実施の形態2にかかるクエリとキーの特徴マップを示す図面である。
【
図8B】実施の形態2にかかるクエリとキーの特徴マップを示す図面である。
【
図8C】実施の形態2にかかるクエリとキーの特徴マップを示す図面である。
【
図8D】実施の形態2にかかるクエリとキーの特徴マップを示す図面である。
【
図9】実施の形態2にかかる演算部の詳細な動作の流れを示すフローチャートである。
【
図10】実施の形態3にかかる情報処理装置の機能的構成を示すブロック図である。
【
図11】実施の形態3にかかる情報処理装置の動作の流れを示すフローチャートである。
【
図12】実施の形態4にかかる情報処理装置の機能的構成を示すブロック図である。
【
図13】実施の形態4にかかる情報処理装置の動作の流れを示すフローチャートである。
【
図14】実施の形態5にかかる情報処理装置の機能的構成を示すブロック図である。
【
図15】実施の形態6にかかる情報処理装置の処理を示す模式図である。
【発明を実施するための形態】
【0009】
<関連技術>
まず、関連技術の概要について説明する。第1の関連技術として、非特許文献のX.Wang, R. Girshick, A. Gupta, K. He, “Non-Local Neural Networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7794-7803, 2018. は、畳み込みニューラルネットワークの畳み込み層から得られた特徴マップを用いて、注意機構によって特徴マップに重み付けをすることで特徴抽出を改善した技術を開示している。
【0010】
また、第2の関連技術として、非特許文献のH.Zhao, J.Jia, V.Koltun,“Exploring Self-Attention for Image Recognition”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.10076-10085, 2020. は、第1の関連技術と異なり、特徴マップの空間全体でなく、特徴マップの局所的な領域(7×7程度)を用いたパッチベースの注意機構を提案している。
【0011】
図1Aは、第1の関連技術を示す模式図である。
図1Aでは、クエリの1構成要素(例えばピクセル)iに対して、キーの特徴マップの空間全体が参照されることで特徴が抽出されることを示している。第1の関連技術では、キーの特徴マップの空間全体が考慮されるため、広域的な特徴抽出が可能となる。しかしながら、キーの特徴マップ全部についての計算が必要となるので、計算コストが大きくなってしまうという課題があった。
【0012】
図1Bは、第2の関連技術を示す模式図である。
図1Bでは、クエリの1構成要素iに対して、キーの特徴マップにおける部分領域ARが参照されることで特徴が抽出されることを示している。部分領域ARは、クエリの構成要素iに対応する、キーの構成要素i及びその周辺の近傍領域である。第2の関連技術は、2つの埋め込み特徴であるクエリとキー間の相関関係に関する計算において、計算対象となる領域が少なくなるので、第1の関連技術に比べて計算コストを下げることができる。しかしながら、部分領域ARはキーの特徴マップの局所的な領域なので、注意機構の本来の目的である広域的な特徴抽出という利点が劣化する可能性が生ずるという、別の課題が生じる。
【0013】
以降の実施の形態に記載される技術は、以上の関連技術に係る課題を解決することを、目的の一つとしている。つまり、この技術は、入力される特徴マップの空間全体を考慮した特徴抽出が可能で、少ない計算コストで計算が可能な情報処理装置等を提供することができる。
【0014】
図1Cは、この開示の一実施例を示す模式図である。
図1Cでは、クエリの1構成要素iに対して、キーの特徴マップの空間全体に分散されたグリッドパターン(チェッカーボードパターン)の領域が参照されることで特徴が抽出されることを示している。この開示において、グリッドパターンは、任意の次元のマップ上において、所定の方向における最近接の構成要素の参照領域同士の間隔が同一となる、複数の構成要素の参照領域からなるパターンである。例えば、2次元マップ上では、グリッドパターンは、1単位の長方形(例えば正方形)の各辺が任意の長さを有する格子状(grating)のパターンであり、参照領域は、格子柄における格子点を示すパターンであるともいえる。なお、グリッドパターンにおける参照領域の1単位は、キーの1構成要素で構成されても良いし、キーの複数の構成要素で構成されても良い。
【0015】
以上に示した手法では、キーの特徴マップの空間全体が考慮されるため、広域的な特徴抽出が可能となる。さらに、計算対象となる領域が、キーの特徴マップ全部ではなく一部となるため、必要な計算コストを下げることができる。例えば、
図1Cのグリッドパターンの領域面積を
図1Bの部分領域ARの面積と同じにする場合には、計算コストを、第2の関連技術に係る計算コストと同じにすることができる。ただし、この開示に記載の技術は、この実施例に限定されない。また、この手法は、後述の通り、様々な用途に適用可能である。
【0016】
<各実施の形態にかかるハードウェア構成>
各実施の形態について説明する前に、
図2を用いて、各実施の形態にかかる情報処理装置のハードウェア構成について説明する。
【0017】
図2に示すように、情報処理装置10は、プロセッサ101と、RAM(Random Access Memory)102と、ROM(Read Only Memory)103と、記憶装置104とを備えている。情報処理装置10は更に、入力装置105と、出力装置106とを備えていてもよい。プロセッサ101と、RAM102と、ROM103と、記憶装置104と、入力装置105と、出力装置106とは、データバス107を介して接続されている。このデータバス107は、接続された構成要素同士のデータの送受信に用いられる。
【0018】
プロセッサ101は、コンピュータプログラムを読み込む。例えば、プロセッサ101は、RAM102、ROM103及び記憶装置104のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ101は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ101は、ネットワークインタフェースを介して、情報処理装置10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、コンピュータプログラムを読み込んでもよい)。プロセッサ101は、読み込んだコンピュータプログラムを実行することで、RAM102、記憶装置104、入力装置105及び出力装置106を制御する。例えば、プロセッサ101が読み込んだコンピュータプログラムを実行することによって、プロセッサ101内には、特徴量に関する各種処理を実行するための機能ブロックが実現されてもよい。この機能ブロックについては、各実施の形態で詳述する。
【0019】
なお、プロセッサ101の一例として、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-programmable Gate Array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)が挙げられる。プロセッサ101は、上述した一例のうち一つを用いてもよいし、そのうちの複数を並列で用いてもよい。
【0020】
RAM102は、プロセッサ101が実行するコンピュータプログラムを一時的に記憶するメモリである。また、RAM102は、プロセッサ101がコンピュータプログラムを実行している際にプロセッサ101が一時的に使用するデータを一時的に記憶してもよい。RAM102は、例えば、DRAM (Dynamic Random Access Memory)、SRAM (Static Random Access Memory)等のRAMであってもよい。また、RAMに代えて、他の種類の揮発性メモリが用いられてもよい。
【0021】
ROM103は、プロセッサ101が実行するコンピュータプログラムを記憶するメモリである。ROM103は、その他に固定的なデータを記憶していてもよい。ROM103は、例えば、PROM (Programmable ROM)、EPROM (Erasable Programmable Read Only Memory)等のROMであってもよい。また、ROMに代えて、他の種類の不揮発性メモリが用いられてもよい。
【0022】
記憶装置104は、情報処理装置10が長期的に保存するデータを記憶する。記憶装置104は、プロセッサ101の一時記憶装置として動作してもよい。記憶装置104は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0023】
入力装置105は、情報処理装置10のユーザからの入力指示を受け取る装置である。入力装置105は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置105は、専用のコントローラ(操作端末)であってもよい。また、入力装置105は、ユーザが保有する端末(例えば、スマートフォンやタブレット端末等)を含んでいてもよい。入力装置105は、例えばマイクを含む音声入力が可能な装置であってもよい。
【0024】
出力装置106は、情報処理装置10に関する情報を外部に対して出力する装置である。例えば、出力装置106は、情報処理装置10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。ここでの表示装置は、テレビモニタ、パソコンモニタ、スマートフォンのモニタ、タブレット端末のモニタ、その他の携帯端末のモニタであってよい。また、表示装置は、店舗等の各種施設に設置される大型モニタやデジタルサイネージ等であってよい。また、出力装置106は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置106は、情報処理装置10に関する情報を音声で出力するスピーカであってもよい。
【0025】
以下、各実施の形態における機能的構成及び実行される処理について説明する。
【0026】
<実施の形態1>
まず、
図3、4を参照して、第1実施形態について説明する。
【0027】
(機能的構成)
図3は、第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。
図3に示すように、第1実施形態に係る情報処理装置11は、その機能を実現するための処理ブロックとして、注意機構ユニット110を備える。注意機構ユニット110は、抽出部111、決定部112及び反映部113を備えている。なお、抽出部111、決定部112及び反映部113の各々は、上述したプロセッサ101(
図2参照)によって実現されてよい。つまり、プロセッサ101は、コンピュータプログラムを読み込み、実行することで、抽出部111、決定部112及び反映部113の各々の構成要素として機能する。
【0028】
抽出部111は、注意機構ユニット110に入力された特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する。なお、第1の特徴、第2の特徴、第3の特徴は、例えば、それぞれクエリ、キー、バリューであっても良い。この場合、第1特徴マップ、第2特徴マップ、第3特徴マップは、それぞれクエリの特徴マップ、キーの特徴マップ、バリューの特徴マップとなる。ただし、各特徴及び特徴マップは、この例に限定されない。
【0029】
決定部112は、各第1構成要素について、対応する複数の第2構成要素を示す対応関係を決定する。詳細には、決定部112は、1個の第1構成要素に対応する複数個の第2構成要素を示すグリッドパターンを、各第1構成要素の位置に基づいて第2特徴マップ上でシフトすることにより、この対応関係を決定する。なお、グリッドパターンの定義は、上述の通りである。
【0030】
決定部112が決定した対応関係からは、第1の特徴と第2の特徴との相関関係が算出される。反映部113は、この相関関係を第3特徴マップに反映させる処理をする。以上のようにして、情報処理装置10は、入力された特徴マップにおける特徴を抽出することができる。
【0031】
(動作の流れ)
次に、
図4を参照しながら、第1実施形態に係る情報処理装置11の動作の流れについて説明する。
図4は、第2実施形態に係る情報処理装置11の動作の流れを示すフローチャートである。
【0032】
図4に示すように、情報処理装置11の動作が開始されると、まず、抽出部111は、注意機構ユニット110に入力された特徴マップから、第1の特徴に係る第1特徴マップ、第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する(ステップS11;抽出ステップ)。次に、決定部112は、各第1構成要素について、対応する複数の第2構成要素を示す対応関係を決定する(ステップS12;決定ステップ)。上述の通り、詳細には、決定部112は、グリッドパターンを各第1構成要素の位置に基づいて第2特徴マップ上でシフトすることにより、この対応関係を決定する。
【0033】
最後に、反映部113は、対応関係から算出された第1の特徴と第2の特徴との相関関係を、第3特徴マップに反映させる(ステップS13;反映ステップ)。
【0034】
(技術的効果)
次に、第1実施形態に係る情報処理装置11によって得られる技術的効果について説明する。上述で説明した通り、決定部112は、1個の第1構成要素に対応する複数個の第2構成要素を示すグリッドパターンを用いて、各第1構成要素について、対応する複数の第2構成要素を示す対応関係を決定する。反映部113は、決定部112が決定した対応関係から算出された相関関係を第3特徴マップに反映させる。そのため、情報処理装置11は、対応関係に基づく計算において、各第1構成要素について、第2特徴マップの全領域に関する計算をしなくて済むため、処理に必要な計算量を少なくすることができる。また、グリッドパターンにより、第2特徴マップの局所的な領域でなく、広範囲の領域を抽出することができるため、情報処理装置11は、第2特徴マップについて、広域的な特徴を抽出することができる。
【0035】
上述の通り、画像認識分野等において、特徴量を処理するために注意機構を用いる技術が知られている。注意機構は、抽出した特徴の相関関係を、その抽出した特徴へと反映させる技術である。この注意機構において、入力される特徴マップの空間全体を考慮した特徴抽出をしようとすると、計算コストが大きくなってしまい、逆に特徴マップの一部を考慮した特徴抽出をしようとすると、広域的な特徴抽出という注意機構の利点が劣化する可能性があるという課題があった。
【0036】
これに対し、第1実施形態に係る情報処理装置11は、入力される特徴マップの空間全体を考慮した特徴抽出が可能で、少ない計算コストで計算することが可能である。
【0037】
<実施の形態2>
次に、
図5、6を参照して、第2実施形態について説明する。第2実施形態では、第1実施形態の具体的な適用例について説明する。
【0038】
(機能的構成)
図5は、第2実施形態に係る情報処理装置の機能的構成を示すブロック図である。
図5に示すように、第2実施形態に係る情報処理装置12は、その機能を実現するための処理ブロックとして、注意機構ユニット120を備える。注意機構ユニット120は、抽出部121、演算部122、集計部123、出力部124を備えている。なお、抽出部121、演算部122、集計部123、出力部124の各々は、上述したプロセッサ101(
図1参照)によって実現されてよい。つまり、プロセッサ101は、コンピュータプログラムを読み込み、実行することで、抽出部121、演算部122、集計部123、出力部124の各々の構成要素として機能する。
【0039】
抽出部121は、第1実施形態における抽出部111に対応する。詳細には、抽出部121は、注意機構ユニット120への入力データである特徴マップ(特徴量)を取得し、取得した特徴マップから、注意機構の処理に必要な3つの埋め込み特徴である、クエリ、キー、バリューの各特徴マップを抽出する。抽出部121には、例えば畳み込みニューラルネットワークで用いられる畳み込み層又は全結合層が用いられても良い。さらに言えば、抽出部121の前段には、畳み込みニューラルネットワークを構成する任意の層が設けられ、その層からの入力が特徴マップとして抽出部121に入力されても良い。抽出部121は、抽出したクエリとキーを演算部122に出力し、バリューを集計部123に出力する。
【0040】
演算部122は、第1実施形態における決定部112に対応する。詳細には、演算部122は、抽出されたクエリとキーの埋め込み特徴を用いて、クエリとキー間の相関関係(例えばMatmul)を算出する。ここでは、演算部122はグリッドパターンを用いることで、計算の処理において、入力される特徴マップの空間全体を参照できる。なお、第2実施形態におけるグリッドパターンは、1単位が正方形で構成された格子状のパターンであって、1個の格子点(参照領域の1単位)が、キーの1構成要素で構成されているものである。
【0041】
演算部122は、クエリとキーの埋め込み特徴に対してテンソルの形状変換(reshape)を施したのちに、行列積を計算することで、相関関係を求めてもよい。また、演算部122は、クエリとキーの埋め込み特徴に対してテンソルの形状変換をした後に、この2つの埋め込み特徴を結合することで相関関係を求めてもよい。演算部122は、以上のように算出された行列積又は結合された特徴に、畳み込みと正規化線形関数(ReLU;Rectified Linear Unit)の計算を施すことで、最終的な相関関係を示した特徴マップを得る。
【0042】
なお、演算部122には、畳み込みのための畳み込み層がさらに設けられても良い。また、演算部122は、得られた相関関係を示した特徴マップを、シグモイド関数やソフトマックス関数等により0から1に正規化してもよいし、そのような正規化を施さなくてもよい。算出された相関関係を示した特徴マップは、集計部123へと入力される。
【0043】
集計部123は、第1実施形態における反映部113に対応する。詳細には、集計部123は、演算部122で算出された相関関係を示した特徴マップと、抽出部121で抽出した埋め込み特徴であるバリューを用いることで、クエリとキー間の相関関係をバリューの特徴マップへ反映する処理を行う。本処理は、演算部122で算出した相関関係(重み)の特徴マップと、バリューとをアダマール積で計算することで、相関関係を反映する。相関関係が反映された特徴マップは、出力部124へと入力される。
【0044】
出力部124は、算出された特徴マップを注意機構ユニット120後段の特徴抽出ユニットへ渡すための調整処理を行う。出力部124は、主に、調整処理として、線形変換処理と残差処理を実行する。出力部124は、線形変換処理として、1×1の畳み込み層、または全結合層を用いることで、特徴マップを処理してもよい。ただし、出力部124は、この線形変換処理を施さずに残差処理を実行してもよい。
【0045】
出力部124は、残差処理として、抽出部121に入力された特徴と集計部123が出力した特徴マップとを加算する処理をしてもよい。これは、相関関係が仮に算出されなかった場合でも、出力部124から特徴マップが生成されなくなるのを防ぐためである。相関関係(重み)として0が算出されると、バリュー値に対してその0が乗算されることにより、集計部123が出力した特徴マップにおいて、特徴値が0となる(消失する)ことになる。これを防ぐために、出力部124は、入力マップの特徴を加算する残差処理をここで実行することによって、相関関係として0が算出されても、特徴値が0とならないようにする。出力部124は、調整処理がなされた特徴マップを、出力データとして出力する。
【0046】
(動作の流れ)
次に、
図6を参照しながら、第2実施形態に係る情報処理装置12の動作の流れについて説明する。
図6は、第2実施形態に係る情報処理装置の動作の流れを示すフローチャートである。
【0047】
図6に示すように、第2実施形態に係る情報処理装置12の動作が開始されると、まず抽出部121が、入力された特徴マップから埋め込み特徴を抽出する(ステップS21)。次に、演算部122が、抽出した埋め込み特徴であるクエリとキーを用いて、両者の相関関係を示した特徴を算出する(ステップS22)。
【0048】
その後、集計部123が、相関関係を、入力された特徴であるバリューに対して反映する(ステップS23)。最後に、出力部124が、集計部123で抽出した特徴マップを出力するために、特徴マップの応答値を調整する(ステップS24)。
【0049】
図7は、情報処理装置12の処理をより詳細に示す模式図であり、この図を用いて、処理の詳細を説明する。注意機構ユニット120に入力された特徴マップは、抽出部121により、クエリ、キー、バリューのそれぞれの特徴マップに分けられる。そして、演算部122は、クエリとキーの相関関係を示した特徴を算出する。集計部123は、算出された相関関係を、抽出部121が抽出したバリューに対して反映し、特徴マップを生成する。出力部124は、特徴マップに対し、線形応答処理と残差処理を実行することにより、特徴マップの応答値を調整して、新たな特徴マップを生成する。なお、
図7に示された矢印は、本実施形態で説明されるデータの流れを端的に示したものであり、注意機構ユニット120内において、他の態様でデータ処理がなされることを妨げるものではない。つまり、
図7の描写は、注意機構ユニット120の各部において双方向的にデータが交換されることを排除するものではない。
【0050】
(キーの特徴マップ参照の詳細)
演算部122がキーの特徴マップを参照する方法の詳細について、さらに説明する。この開示に記載の技術では、クエリの特定位置iに対応するキーの参照位置を決定する際に、グリッドパターンを用いる。詳細には、演算部122は、クエリの特徴マップ(第1特徴マップ)内の小領域(分割領域)の中でグリッドパターンをずらしながらキーの特徴マップ(第2特徴マップ)を参照することにより、キーの空間内の特徴を全て参照することができる。加えて、クエリの小領域内でキーの空間内の全構成要素を参照できる特性を活かし、クエリの他の小領域内を繰り返しグリッドパターンでずらしながらキーの特徴マップを参照することで、演算部122は、クエリの各小領域内で、キーの空間全体を均等に参照できる。
【0051】
図8A~8Dに示したクエリとキーの特徴マップの図面を用いて、クエリとキーのそれぞれの参照位置についてさらに説明する。なお、
図8A~8Dの例では、入力データが画像データであり、その構成要素がピクセルである。また、
図8A~8Dでは、正方形の各特徴マップにおける横方向をx方向、縦方向をy方向と設定する。
【0052】
図8Aは、あるクエリ側の参照位置iを基準位置とした場合における、複数のキーの参照位置である基準位置を示す。
図8Aのクエリにおける太線で囲った領域が、クエリの小領域(ブロック領域)である正方形の3*3の領域Aを示しており、キーにおける太線で囲った領域が、クエリiにおける参照領域を示している。また、クエリの基準位置は、領域Aにおける左上のピクセルである。
【0053】
図8Aに示されたように、この開示に記載の技術では、演算部122は、キーの埋め込み特徴がグリッド状、かつ、全体的に粗くなるように参照している。
図8Aの具体例では、7*7のキーの参照領域中、実際にキーの参照対象となるキーは9ピクセルである。演算部122は、キーの参照位置を、クエリ及びキーの特徴マップのサイズN*Nと分割数Sを用いて決定する。クエリの破線領域の小領域のサイズB*Bは、B=N/Sで求まる。そして、キーにおける参照領域の飛ばし幅(グリッドのサイズ、すなわち、参照対象となる最近接のキーの構成要素同士に関する、x軸方向又はy軸方向の位置ずれ量)もBとなる。なお、
図8Aの例では特徴マップのサイズを9×9、分割数Sを3としているが、サイズや分割数の値はこれに限られない。このようにして、演算部122は、基準位置に係るグリッドパターンを算出する。
【0054】
図8Bに、領域A内におけるクエリの参照位置を基準位置からずらした場合のキーの参照位置を示す。クエリ側の位置1は、クエリの参照位置を基準位置からx軸方向に+1ずらした場合の位置であり、クエリ側の位置2は、クエリの参照位置を基準位置からx軸方向に+2、y軸方向に+2ずらした場合の位置である。このように、クエリの参照位置iを領域A内でずらした場合には、演算部122は、クエリのx軸とy軸のずれ量(移動量)と同じだけ、キーの参照位置をずらす。つまり、演算部122は、クエリの参照位置が位置1にある場合には、キーのグリッドパターン(参照位置)をx軸方向に+1だけずらした位置1とし、クエリの参照位置が位置2にある場合には、キーのグリッドパターン(参照位置)をx軸方向に+2、y軸方向に+2だけずらした位置2とする。以上の処理により、演算部122は、クエリの小領域内において、キー内の特徴マップの空間全てを参照することが可能となる。
【0055】
図8Cは、クエリの特徴マップを9の小領域A~Iで分割された状態を示す。演算部122は、小領域A内におけるクエリとキーの対応関係が上述のように設定された後、クエリの各小領域B~I内の各クエリについて、各小領域内の左上のブロックを基準位置としたx軸方向とy軸方向のずれ量を導出する。そして、演算部122は、各小領域B~I内の各クエリに対応するキーを、小領域A内の各クエリと同様に、キーの特徴マップにおいて、ずれ量を用いてずらしたグリッドパターンを参照することで決定する。このようにして、
図8Cのクエリのマップにおいて、同じハッチングが付された箇所は、キー内の特徴マップにおいて、グリッドパターンの同じ位置が参照される。これにより、演算部122は、クエリにおける各小領域内で、キーの埋め込み特徴マップの空間全体を万遍なく参照できる。
【0056】
(正則化方法の詳細)
さらに、この開示に記載の技術で導入される正則化方法について説明する。ここまでの処理では、クエリと対応するグリッドパターンの位置が固定されている。そのため、学習中の入力画像データに物体の姿勢変化や位置ずれが存在せず、運用中の入力画像データに物体の姿勢変化や位置ずれが生じるとき、演算部122が特徴を正確に抽出できない可能性がある。これを防ぐために、演算部122は、クエリに対応するキーのグリッドパターンをランダムに一定の確率でシャッフルする(入れ替える)処理を施す。
【0057】
図8Dは、
図8Cに示した例に対して、小領域B及びFの一部についてシャッフルがされたことを示す。小領域Bの一部についてシャッフルがされた領域は領域S1、小領域Fの一部についてシャッフルされた領域は領域S2で示される。演算部122は、このようなシャッフルをすることにより、クエリに対応するグリッドパターンのバリエーションを柔軟に変化させる(増やせる)ため、入力画像データ中における物体の姿勢変化や位置ずれに対して頑健な特徴抽出が可能になる。
【0058】
なお、シャッフル対象となる複数のキーは、同じ小領域内にあることが好ましい。これにより、演算部122は、確実にシャッフル処理を実行することができる。
【0059】
(詳細な動作の流れ)
次に、
図9を参照しながら、演算部122の詳細な動作の流れについて説明する。
図9は、演算部122の詳細な動作の流れを示すフローチャートである。
【0060】
まず初めに、演算部122は、キーの埋め込み特徴を用いて、基準位置用のグリッドパターンを算出する(ステップS25)。そして、演算部122は、算出したチェッカーボードパターンを、クエリの小領域内における基準位置からのずれ量を用いてずらすことで、クエリのある小領域内の全要素に対して、グリッドパターンを割り当てる(ステップS26)。
【0061】
その後、演算部122は、クエリの他の全小領域に対して、同様の方法でグリッドパターンを割り振る(ステップS27)。そして、演算部122は、キーのブロック内の任意の位置において、割り当てるグリッドパターンを一定の確率でシャッフルする処理を導入する(ステップS28)。なお、これらの各ステップの詳細は、それぞれ、
図8A~Dに関する説明で記載した通りである。以上のようにして、演算部122は、クエリの特徴マップの各位置に対して、クエリのグリッドパターンを割り当てる。
【0062】
(技術的効果)
次に、第2実施形態に係る情報処理装置12によって得られる技術的効果について説明する。
【0063】
関連技術である非特許文献1の注意機構は、クエリの特定位置のピクセルiに対して特徴量全体を参照するために、そのピクセルiに対して、キーの埋め込み特徴の全空間の位置を参照する必要がある。注意機構への入力が画像、またはその他の2次元の特徴マップの場合、実行する計算量が入力解像度に依存しやすくなるため、解像度が高い画像を取り扱う画像認識タスクでは、この注意機構の使用が困難になる。
【0064】
一方で、非特許文献2の注意機構は、解像度に依存する計算量を削減するために、クエリの特定位置のピクセルiに対して局所的な領域(7*7程度)のキーの位置を参照することで、実行する計算量を大幅に削減している。しかしながら、この技術では、特徴マップの空間全体を参照することが難しいため、注意機構における特徴抽出能力が下がる。
【0065】
これに対して、この開示に記載の技術では、グリッドパターンを効率的に用いることで、特徴マップの空間全体を、非特許文献1の技術よりも少ない計算量(例えば、非特許文献2と同等の計算量)で参照することが可能である。これにより、情報処理装置は、広域的な特徴空間を参照しやすくなるため、注意機構における特徴抽出能力を向上させることができる。
【0066】
情報の次元数が膨大な画像が注意機構に入力される場合、非特許文献1の技術では、注意機構の計算量が解像度の二乗に応じて増えるため、実応用の観点上、使用するのが困難になる。本実施形態に係る情報処理装置12は、演算処理の負荷が極めて大きくなってしまうこのような状態を抑制できるという、顕著な技術的効果を発揮する。
【0067】
また、演算部122(決定部)は、クエリの構成要素(第1構成要素)と、キーの構成要素(第2構成要素)との対応関係を、次のように決定することができる。演算部122は、キーの構成要素が少なくとも1個のクエリの構成要素に対応するように、グリッドパターンを各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトする。このようにして、演算部122は、キーの特徴マップの空間全体を満遍なく参照することができる。そのため、注意機構ユニット120は、入力データの全ての特徴を抽出することができる。
【0068】
また、演算部122は、クエリの構成要素と、キーの構成要素との対応関係を、次のように決定することができる。演算部122は、クエリの特徴マップ(第1特徴マップ)を複数の小領域(分割領域)に分割し、キーの構成要素が少なくとも小領域におけるいずれか1個のクエリの構成要素に対応するように、グリッドパターンをクエリの構成要素の位置に基づいてキーの特徴マップ上でシフトする。このようにして、演算部122は、クエリの小領域を参照する度に、キーの特徴マップの空間全体を満遍なく参照することができる。そのため、注意機構ユニット120は、入力データの特徴を偏りなく広域的に抽出することができる。
【0069】
また、演算部122は、キーの各構成要素が、各小領域におけるいずれか1個のクエリの構成要素と対応するように、グリッドパターンを各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトすることにより、対応関係を決定することができる。そのため、注意機構ユニット120は、入力データの特徴をさらに偏りなく抽出することができる。
【0070】
また、演算部122は、グリッドパターンをクエリの各構成要素の位置に基づいて、次のようにキーの特徴マップ上でシフトすることができる。すなわち、演算部122は、全ての小分割領域同士で、1対1に対応するクエリの構成要素を設定し、対応するクエリの構成要素同士について、グリッドパターンがキーの特徴マップ上で同じ位置に配置されるように設定することができる。演算部122は、グリッドパターンのシフト方法を、このようなシンプルな設定とすることで、入力データの特徴を満遍なく参照するための計算コストを削減することができる。
【0071】
また、演算部122は、所定の確率で、クエリの各構成要素の位置に応じて決定されるグリッドパターンのキーの特徴マップ上での位置をシャッフルすることで、対応関係を決定しても良い。これにより、注意機構ユニット120は、入力画像データ中における物体の姿勢変化や位置ずれに対して頑健な特徴抽出が可能になる。
【0072】
また、演算部122は、クエリの小領域を、複数個のキーの構成要素を含む合同の図形(例えば正方形)で構成することができる。これにより、演算部122は、小領域の設定をこのようにシンプルにすることで、入力データの特徴を満遍なく参照するための計算コストを削減することができる。
【0073】
<実施の形態3>
以下、図面を参照して、第3実施形態について説明する。第3実施形態では、第2実施形態で示した注意機構ユニット120が繰り返し積層されて設けられることで、情報処理装置11が一つのネットワークを構築する例を示す。なお、第3~第5実施形態では、第2実施形態で示した注意機構ユニット120の具体的な適用例について説明がなされる。そのため、第3~第5実施形態の説明では、第2実施形態と比較した際において異なる一部の構成及び処理が説明され、説明されないその他の構成及び処理については、第2実施形態と共通のものが適用されてもよい。また、第3~第5実施形態の説明において、同一の符号が付された構成要素は、同一の処理を実行するものである。
【0074】
(機能的構成)
図10を参照しながら、情報処理装置13を用いた第3実施形態について説明する。
図10は、情報処理装置13を用いた機能的構成を示すブロック図である。情報処理装置13は、畳み込みユニット(特徴抽出ユニット)200及び複数の注意機構ユニット120を備える。情報処理装置13において、最上段に畳み込みニューラルネットワークで用いられる畳み込みユニット200を設けることで、情報処理装置13が、入力された入力画像から特徴マップを抽出することができる。畳み込みユニット200は、キーの特徴マップに関しての局所的なカーネル(3×3程度)の畳み込み層を用いることで、特徴抽出を行うユニットである。その後、情報処理装置13内に、注意機構ユニット120を指定する回数だけ繰り返し配置する。最後に、入力画像に対する何かしらの結果を出力する出力層(不図示)を情報処理装置13内に配置することで、ネットワーク全体を構築する。
【0075】
(動作の流れ)
次に、
図11を参照しながら、第3実施形態に係る情報処理装置13の動作の流れについて説明する。
図11は、第3実施形態に係る情報処理装置13の動作の流れを示すフローチャートである。
【0076】
図11に示すように、情報処理装置13の動作が開始されると、まず畳み込みユニット200は、入力された画像データから特徴マップを抽出する(ステップS31)。続いて、ステップS31で出力された特徴マップは注意機構ユニット120に入力され、注意機構ユニット120内で新たな特徴マップへ変換される(ステップS32)。ステップS32は、指定した回数であるN回(つまり、注意機構ユニット120が設けられた回数)繰り返し実行されることで、新たな特徴マップが抽出される。続いて、注意機構ユニット120の処理をすべて終えた後で、情報処理装置13は、最終出力層からの応答値を得る(ステップS33)。
【0077】
(技術的効果)
次に、第3実施形態に係る情報処理装置13によって得られる技術的効果について説明する。
図10および
図11で説明したように、第3実施形態に係る情報処理装置13では、複数の注意機構ユニット120を用いてネットワークが構築されている。第1実施形態で記載した通り、注意機構ユニット120は、少ない計算量で、広域的な特徴空間を参照することができる。そのため、情報処理装置13によって、画像全体から特徴を抽出することに特化したネットワークを構築することが可能である。具体的には、情報処理装置13は、広域的な情報からの特徴抽出が必要なタスク、例として風景を認識する画像認識タスク等に対して特に有効であると考えられる。
【0078】
<実施の形態4>
以下、図面を参照して、第4実施形態について説明する。第4実施形態は、この開示に記載の技術である注意機構ユニット120と畳み込みユニット(特徴抽出ユニット)200を繰り返し積み重ねることでネットワークを構築する例を示す。畳み込みユニット200は、上述の通り、局所的なカーネル(3×3程度)の畳み込み層を用いて特徴抽出を行うユニットである。
【0079】
(機能的構成)
図12を参照しながら、注意機構ユニット120と畳み込みユニット200を用いた第4実施形態について説明する。
図12は、注意機構ユニット120と畳み込みユニット200を備えた情報処理装置14の機能的構成を示すブロック図である。情報処理装置14の最も前段に畳み込みユニット200Xを設けることで、情報処理装置14が、入力画像から特徴マップを抽出することができる。そして、その後段に、注意機構ユニット120と畳み込みユニット200を、指定する回数だけ繰り返し配置する。ここで、注意機構ユニット120と畳み込みユニット200を配置する順番、尚且つどちらを連続でどう配置するかは、設計者が自由に決めることができる。
図12の例では、注意機構ユニット120を前段に、畳み込みユニット200bがその後段に設けられた組が、情報処理装置14内に複数設けられている。最後に、入力画像に対する何かしらの結果を出力する出力層(不図示)を情報処理装置14内に配置することで、1つのネットワークを構築する。
【0080】
(動作の流れ)
次に、
図13を参照しながら、第4実施形態に係る情報処理装置14の動作の流れについて説明する。
図13は、第4実施形態に係る情報処理装置14の動作の流れを示すフローチャートである。
【0081】
図13に示すように、第4実施形態に係る情報処理装置14の動作が開始されると、まず最前段の畳み込みユニット200Xは、入力された画像データから特徴マップを抽出する(ステップS41)。続いて、ステップS41で出力された特徴マップは、後段の注意機構ユニット120または畳み込みユニット200に入力され、各ユニット中で新たな特徴マップへ変換される(ステップS42)。ステップS42は、指定した回数であるN回(つまり、注意機構ユニット120及び畳み込みユニット200が設けられた回数であるN回)繰り返し実行されることで、その度に新たな特徴マップが抽出される。最後に、ステップS42における特徴マップの抽出処理をすべて終えた段階で、情報処理装置14は、最終出力層からの応答値を得る(ステップS43)。
【0082】
(技術的効果)
次に、第4実施形態に係る情報処理装置14によって得られる技術的効果について説明する。
図12および
図13で説明したように、第4実施形態に係る情報処理装置14では、この開示に記載の技術の注意機構ユニット120と畳み込みユニット200が用いられることで、ネットワークが構築されている。畳み込みユニット200は、所定の範囲のカーネルとして、局所的なカーネル(3×3程度)の畳み込み層を用いて特徴抽出を行うため、データ中の局所的な領域に着目した特徴抽出が可能である。そのため、情報処理装置14によって、画像全体と画像の局所的な領域との2つの観点を考慮した特徴抽出を可能にしたネットワークを構築することができる。情報処理装置14は、様々な種類や大きさの物体が画像中に混在する状況での一般物体認識や物体検出等、様々な種類の認識性能を向上させることが可能である。
【0083】
<実施の形態5>
以下、図面を参照して、第5実施形態について説明する。第5実施形態は、この開示に記載の技術である注意機構ユニット120とパッチベース注意機構ユニット(特徴抽出ユニット)210を繰り返し積み重ねることでネットワークを構築する。パッチベース注意機構ユニット210は、非特許文献2に記載されたパッチベースの注意機構を適用したものであり、
図1Cに示した通り、キーの特徴マップに関して、一部領域のパッチ(7*7程度)の畳み込み層を用いて特徴抽出を行うユニットである。なお、非特許文献2に記載のパッチベースの注意機構に関する説明は、この開示において援用される。
【0084】
(機能的構成)
図14を参照しながら、注意機構ユニット120、畳み込みユニット200及びパッチベース注意機構ユニット210を用いた第4実施形態について説明する。
図14は、注意機構ユニット120、畳み込みユニット200及びパッチベース注意機構ユニット210を備えた情報処理装置15の機能的構成を示すブロック図である。情報処理装置15の最も前段に畳み込みユニット200を設けることで、入力画像から特徴マップを抽出することができる。そして、その後段に、注意機構ユニット120とパッチベース注意機構ユニット210を、指定する回数であるN回、繰り返し配置する。ここで、注意機構ユニット120とパッチベース注意機構ユニット210を配置する順番、尚且つどちらを連続でどう配置するかは、設計者が自由に決めることができる。
図14の例では、注意機構ユニット120を前段に、パッチベース注意機構ユニット210がその後段に設けられた組が、情報処理装置15内に複数設けられている。最後に、入力画像に対する何かしらの結果を出力する出力層(不図示)を情報処理装置15内に配置することで、ネットワーク全体を構築する。
【0085】
(動作の流れ)
次に、第5実施形態に係る情報処理装置15の動作の流れについて、
図13を用いて説明する。なお、第4実施形態に係る動作と同一の点については、説明を省略する。
【0086】
ステップS41で出力された特徴マップは、後段の注意機構ユニット120またはパッチベース注意機構ユニット210に入力され、その中で新たな特徴マップへ変換される(ステップS42)。ステップS42は、指定した回数であるN回(つまり、注意機構ユニット120及びパッチベース注意機構ユニット210が設けられた回数)繰り返し実行される。そして、情報処理装置15は、ステップS43の処理を行う。
【0087】
(技術的効果)
次に、第5実施形態に係る情報処理装置15によって得られる技術的効果について説明する。
図13および
図14で説明したように、第5実施形態に係る情報処理装置15では、注意機構ユニット120とパッチベース注意機構ユニット210を用いてネットワークが構築されている。パッチベース注意機構ユニット210は、所定の範囲のカーネルとして、局所的なカーネル(7×7程度)の畳み込み層を用いて特徴抽出を行うため、データ中の局所的な領域に着目した特徴抽出が可能である。パッチベース注意機構ユニット210は、局所領域から特徴抽出する点に関しては畳み込みユニット200と同じ機能を有するが、精度や計算量の観点で畳み込みユニット200より優れている。そのため、畳み込みユニット200の代用としてパッチベース注意機構ユニット210を用いることで、より高性能なネットワークを構築できる。これらの理由から、画像全体と画像の局所的な領域との2つの観点を考慮した特徴抽出を可能にしたネットワークを構築することができる。情報処理装置15の具体的な応用例は第4実施形態と同様で、様々な種類や大きさの物体が画像中に混在する状況での一般物体認識や物体検出等、様々な種類の認識性能を向上させることが可能であると考えられる。
【0088】
<実施の形態6>
以下、図面を参照して、第6実施形態について説明する。これまでの実施形態は、2次元の特徴マップを用いる画像系のタスクを例として、情報処理装置の動作を説明した。しかしながら、この開示の技術は、入力データが画像のような2次元データだけでなく、音声や自然言語処理のような1次元データである場合でも応用が可能である。
【0089】
(機能的構成)
図15を参照しながら、1次元特徴を用いる場合の情報処理装置16について説明する。この情報処理装置の機能的構成の概要は、
図3に示した通りであり、以下、第1実施形態と異なる点について、特に説明する。
【0090】
抽出部111は、注意機構ユニット110に入力された特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する。第6実施形態では、第1の特徴、第2の特徴、第3の特徴は、それぞれクエリ、キー、バリューである。また、各特徴マップは、1次元のマップである。
【0091】
決定部112は、各クエリの構成要素について、対応する複数のキーの構成要素を示す対応関係を決定する。詳細には、決定部112は、1個のクエリの構成要素に対応する複数個のキーの構成要素を示すグリッドパターンを、各クエリの構成要素の位置に基づいてキーの特徴マップ上でシフトすることにより、キーの構成要素が少なくとも1個のクエリの構成要素に対応するように、この対応関係を決定する。換言すれば、対応関係は、クエリの各構成要素について、対応する複数のキーの構成要素の対応関係を示す。この開示において、グリッドパターンは、1次元のマップ上において、最近接のキーの構成要素(参照領域)同士の間隔が同一となるパターンである。なお、
図15では、グリッドのサイズは3である。このように、1次元の特徴ベクトルに対してこの開示の技術を応用する場合でも、2次元の特徴マップの場合と同様に、決定部112は、最近接するキーの参照位置を等間隔として決定することができる。
【0092】
そして、反映部113は、決定部112が決定した対応関係から算出されたクエリとキーの相関関係を、バリューの特徴マップに反映させる処理をする。以上のようにして、情報処理装置10は、入力された特徴マップにおける特徴を抽出することができる。
【0093】
(動作の流れ)
まず、抽出部111は、注意機構ユニット110に入力された特徴マップから、クエリ、キー、バリューの各特徴マップを抽出する。決定部112は、クエリの特定の構成要素(基準位置)に対して、指定したグリッドパターンを参照する。
図15では、クエリの構成要素iに対して、グリッドパターン(1)が指定されている。
【0094】
その後、決定部112は、基準位置からずれたクエリの構成要素について、そのずらし量と同じずらし量でグリッドパターン(1)をずらしたグリッドパターン(2)又は(3)を、参照用のグリッドパターンとして指定し、割り当てる。このとき、決定部112は、2次元の特徴マップの場合と同様に、クエリの構成要素に対して、所定の確率で、参照するキーのグリッドパターンをランダムに変更してもよい。加えて、第3実施形態のように、ネットワークをこの開示に記載の注意機構ユニットで構築してもよく、第4、5形態のように、この開示に記載の注意機構ユニットと、それとは異なる特徴抽出ユニットとを組み合わせることにより、ネットワークを構築してもよい。決定部112が決定したこの対応関係からは、クエリとキーの相関関係が算出される。そして、反映部113は、その相関関係をバリューの特徴マップに反映させる。
【0095】
(技術的効果)
第6実施形態では、取り扱えるタスクを画像のみでなく、音声や自然言語処理のような1次元データのタスクにも応用できる。
【0096】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【0097】
例えば、第2実施形態において、グリッドパターンは、1単位が正方形で構成されていた。しかしながら、グリッドパターンの1単位は、正方形でなく、任意の形状の長方形であっても良い。
【0098】
第2実施形態では、(シャッフルされた場合を除き)クエリの各小領域内における同位置の構成要素には、同位置のグリッドパターンが対応している例を説明した。ただし、クエリの各小領域内において、満遍なくキーの特徴マップの空間全体が参照されるように対応関係を決定しつつ、2以上の小領域内において、同位置のグリッドパターンが対応するクエリの構成要素の位置を、小領域内での位置が異なるように設定されても良い。
【0099】
演算部122は、クエリの小領域を、複数個のキーの構成要素を含む合同の図形でなく、同じ面積を有する異なる形状の図形で構成してもよい。
【0100】
第3~第5実施形態において、注意機構ユニット120の代わりに注意機構ユニット110を、情報処理装置内に積層して設けても良い。また、2次元データ以外の任意の次元のデータ(例えば、1次元データや3次元データ)の処理をする場合でも、第3~第5実施形態で説明した例と同様に、この開示で説明された注意機構ユニットを、情報処理装置内に積層して設けることもできる。
【0101】
上述の実施形態における各装置が有する1又は複数のプロセッサは、各図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1又は複数のプログラムを実行する。この処理により、各実施の形態に記載された信号処理方法が実現できる。
【0102】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0103】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する抽出部と、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定する決定部と、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映させる反映部と、
を備えた情報処理装置。
(付記2)
前記決定部は、各前記第2構成要素が少なくとも1個の前記第1構成要素に対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
付記1に記載の情報処理装置。
(付記3)
前記決定部は、前記第1特徴マップを複数の分割領域に分割し、各前記第2構成要素が少なくとも各前記分割領域におけるいずれか1個の前記第1構成要素に対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
付記2に記載の情報処理装置。
(付記4)
前記決定部は、各前記第2構成要素が、各前記分割領域におけるいずれか1個の前記第1構成要素と対応するように、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
付記3に記載の情報処理装置。
(付記5)
前記決定部は、全ての前記分割領域同士で、1対1に対応する前記第1構成要素を設定し、対応する前記第1構成要素同士について、前記グリッドパターンが前記第2特徴マップ上で同じ位置に配置されるよう、前記グリッドパターンを各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、前記対応関係を決定する、
付記4に記載の情報処理装置。
(付記6)
前記決定部は、所定の確率で、各前記第1構成要素の位置に応じて決定される前記グリッドパターンの前記第2特徴マップ上での位置をシャッフルすることで、前記対応関係を決定する、
付記5に記載の情報処理装置。
(付記7)
前記決定部は、前記各分割領域を、複数個の前記第1構成要素を含む合同の図形で構成する、
付記3乃至6のいずれか1項に記載の情報処理装置。
(付記8)
前記抽出部と、前記決定部と、前記反映部を有する注意機構ユニットを複数備える、
付記1乃至7のいずれか1項に記載の情報処理装置。
(付記9)
所定の範囲のカーネルを用いた特徴抽出ユニット及び前記注意機構ユニットを複数備える、
付記8に記載の情報処理装置。
(付記10)
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する抽出ステップと、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定する決定ステップと、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映させる反映ステップと、
を情報処理装置が実行する情報処理方法。
(付記11)
特徴マップから、複数の第1構成要素で構成された第1の特徴に係る第1特徴マップ、複数の第2構成要素で構成された第2の特徴に係る第2特徴マップ、及び第3の特徴に係る第3特徴マップを抽出する抽出ステップと、
1個の前記第1構成要素に対応する複数個の前記第2構成要素を示すグリッドパターンを、各前記第1構成要素の位置に基づいて前記第2特徴マップ上でシフトすることにより、各前記第1構成要素について、対応する複数の前記第2構成要素を示す対応関係を決定する決定ステップと、
前記対応関係から算出された前記第1の特徴と前記第2の特徴との相関関係を前記第3特徴マップに反映させる反映ステップと、
を情報処理装置に実行させるプログラム。
【0104】
以上、実施の形態を参照してこの開示を説明したが、この開示は上記によって限定されるものではない。この開示の構成や詳細には、開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0105】
この出願は、2021年3月15日に出願された日本出願特願2021-041852を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【符号の説明】
【0106】
10~16 情報処理装置
101 プロセッサ
102 RAM
103 ROM
104 記憶装置
105 入力装置
106 出力装置
107 データバス
110 注意機構ユニット
111 抽出部
112 決定部
113 反映部
120 注意機構ユニット
121 抽出部
122 演算部
123 集計部
124 出力部
200 畳み込みユニット
210 パッチベース注意機構ユニット