(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168754
(43)【公開日】2024-12-05
(54)【発明の名称】情報処理装置、セグメンテーション方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241128BHJP
G06T 7/11 20170101ALI20241128BHJP
G06V 10/82 20220101ALI20241128BHJP
【FI】
G06T7/00 350C
G06T7/11
G06V10/82
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023085680
(22)【出願日】2023-05-24
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】オウ ショウ
(72)【発明者】
【氏名】中野 雄介
(72)【発明者】
【氏名】王 ▲ゆ▼博
(72)【発明者】
【氏名】大谷 淳
(72)【発明者】
【氏名】石井 裕之
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA19
5L096GA17
5L096HA11
5L096JA11
5L096JA13
(57)【要約】
【課題】空中画像に対するセグメンテーションを適切に行うための技術を提供する。
【解決手段】画像に対するセグメンテーションを行う情報処理装置であって、前記画像を入力する入力部と、前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成する演算部とを備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置。
【請求項2】
前記複数のマルチヘッドセルフアテンションモジュールは、カスケード接続されている
請求項1に記載の情報処理装置。
【請求項3】
前記複数のマルチヘッドセルフアテンションモジュールにおける各マルチヘッドセルフアテンションモジュールは、入力される特徴マップを複数のウィンドウに分割し、各ウィンドウでセルフアテンションを計算する
請求項1に記載の情報処理装置。
【請求項4】
カスケード接続される前記複数のマルチヘッドセルフアテンションモジュールにおいて、ある段のマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズは、当該マルチヘッドセルフアテンションモジュールの後段に接続されるマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズよりも小さい
請求項3に記載の情報処理装置。
【請求項5】
前記演算部は、特徴ピラミッドネットワークを用いて複数のレベルの前記第1特徴マップを生成する
請求項1に記載の情報処理装置。
【請求項6】
画像に対するセグメンテーションを行う情報処理装置が実行するセグメンテーション方法であって、
前記画像を入力するステップと、
前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成するステップと
を備えるセグメンテーション方法。
【請求項7】
コンピュータを、請求項1ないし5のうちいずれか1項に記載の情報処理装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、空中画像に対してセグメンテーションを行う技術に関連するものである。
【背景技術】
【0002】
以下の説明において、参考文献については[1]等の番号で表記し、番号に対応する文献名は明細書の最後に記載した。
【0003】
高空間解像度(HSR: High Spatial Resolution)リモートセンシング技術が知られている。当該技術により得られた画像には、建物、車両、船舶などを含む、興味の対象物の意味と位置情報を提供する地理空間情報が豊富に含まれているという特徴がある。これらの情報を理解することは、都市の監視、環境変化の監視、災害対応、ルート計画など、さまざまな実用的な目的に不可欠である。
【0004】
HSRリモートセンシング画像を効果的に活用するために、空中画像セグメンテーションが重要なコンピュータビジョンのタスクとなる。当該タスクは、空中の視点から見た各画像のピクセルに意味ラベルを割り当てる一方で、前景オブジェクトと背景領域を分離(セグメント化)することを目的としている。
【0005】
近年、多くのVision Transformerベースの手法がセマンティックセグメンテーション分野で提案されている。これらの手法により、微小で曖昧な物体に対して正確な予測を生成することができるが、空中画像における大きなスケール変動の問題を解決できていない。
【0006】
また、非特許文献2に開示された高密度のアフィニティ学習ベースの手法[9]では、そのセグメンテーション結果は複雑な背景とノイズコンテキストによって劣化する。Pointflow [9]は、空中画像セグメンテーション研究分野におけるSoTAセグメンテーション結果を示す最新の研究であり、非特許文献1に開示された特徴ピラミッドネットワーク(FPN)[4]における隣接するスケール特徴間の顕著な点を選択してマッチさせることによるスパースなアフィニティ学習を採用している。当該技術により、複雑な背景やノイズを扱うことができるが、この方法では、小さなオブジェクトが失われたり、大きなオブジェクトの境界の予測が弱くなったりすることがある。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017.
【非特許文献2】Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, and Zhouchen Lin. Pointflow: Flowing semantics through points for aerial image segmentation. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), 2021
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来のセマンティックセグメンテーション技術では、空中画像に対するセグメンテーション(領域識別)を適切に行うことができないという課題がある。
【0009】
本発明は上記の点に鑑みてなされたものであり、空中画像に対するセグメンテーションを適切に行うための技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
開示の技術によれば、画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置が提供される。
【発明の効果】
【0011】
開示の技術によれば、空中画像に対するセグメンテーションを適切に行うための技術が提供される。
【図面の簡単な説明】
【0012】
【
図2】情報処理装置100の動作を説明するためのフローチャートである。
【
図5】情報処理装置100のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0014】
以降の説明における「空中画像」は、空中写真、航空画像、航空写真等に置き換えてもよい。また、以下の「空中画像」は、上空(例えば飛行機や衛星)から、HSRリモートセンシング技術を用いて取得)(撮影)した画像であることを想定するが、これに限定されない。例えば、「空中画像」は、上空から一般的なカメラで撮影した画像であってもよい。
【0015】
また、「セグメンテーション」を、セマンティックセグメンテーション、セグメント化、領域分割、領域判別、領域識別、領域分類、等と呼んでもよい。本実施の形態に係る技術で空中画像に対するセグメンテーションを実行することで、例えば、空中画像における建物、自動車、飛行機、道路、地面等を識別できる。
【0016】
なお、本発明に係る技術は、空中画像以外の画像に対して適用することも可能である。
【0017】
(課題について)
セマンティックセグメンテーションについての多くの従来技術においては、自然なシーンでの一般的なセマンティックセグメンテーションタスクが実行されている。しかし、一般的なセマンティックセグメンテーションタスクとは異なり、空中画像セグメンテーションには下記の3つの課題がある。
【0018】
1)同じシーンにおいて、オブジェクトのスケールが大きく変化するという課題がある。すなわち、空中画像のオブジェクトのスケールは非常に広い範囲で変化するため、非常に小さなオブジェクトと非常に大きなオブジェクトとをセグメント化することが難しい。
【0019】
2)HSR画像等の空中画像においては、多数の小さなオブジェクトが広がっているという課題がある。すなわち、多数の小さなオブジェクトが大きな空中画像に広がっているため、それらを明確に認識してセグメント化することは、特に曖昧な境界がある場合に困難である。
【0020】
3)空中画像では、不均衡で複雑な背景があるという課題がある。すなわち、前景の比率は複雑な背景よりもはるかに少なく、そのことがモデリングにノイズをもたらし、一方で出力に重大な偽陽性を引き起こす可能性がある。
【0021】
以下、上記の課題を解決する本実施の形態に係る技術を詳細に説明する。
【0022】
(装置構成)
本実施の形態では、
図1に示す情報処理装置100が、空中画像に対するセグメンテーションを実行する。
【0023】
図1に示すように、情報処理装置100は、入力部110、演算部120、出力部130、及び記憶部140を有する。
【0024】
図2のフローチャートを参照して、情報処理装置100の動作概要を説明する。S101において、入力部110から、処理対象となる空中画像を入力する。入力された画像は記憶部140に格納される。
【0025】
S102において、演算部120は、記憶部140から空中画像を読み出して、セグメンテーション処理を実行する。S103において、出力部130は、セグメンテーションの処理結果(例えば領域毎(ピクセル毎)に意味付けされた画像)を出力する。
【0026】
本実施の形態では、演算部120は、ニューラルネットワークのモデルを用いてセグメンテーションを実行する。例えば、記憶部140に、学習済みのモデルパラメータが格納されている。演算部120は、記憶部140から当該モデルパラメータを読み出し、当該モデルパラメータを適用したモデルに空中画像を入力し、モデルの出力としてセグメンテーションの結果を得る。
【0027】
以下、上記のモデルについて詳細に説明する。
【0028】
(モデルの概要)
図3に、本実施の形態におけるモデルの構成例を示す。本実施の形態のモデルを、マルチスケールアテンションカスケード(MAC:Multi-scale Attention Cascade)モデルと呼ぶ。
図3に示すように、MACモデルは、Swin Transformer Tiny (Swin-T) [5]とFPN [4]をバックボーン121とネック122として持つ。
【0029】
MACモデルでは、マージされたピラミッドの特徴をさらに探求するために、FPNの各レベルの出力に対して、マルチスケールアテンションカスケード(mac)モジュールが適用される。macモジュールは、3つの連続した異なるスケールのローカルマルチヘッドセルフアテンション(MSA:multi-head self-attention)で構成される。
【0030】
各macモジュールの出力には、ECA(Efficient channel attention) [6]モジュールが適用され、チャネル間の相互作用の強化が実現される。モデルの最後において、マルチレベル特徴を同じサイズに再構成(リシェープ)し、次元を連結して、シンプルなセグメンテーションデコーダの後、セグメンテーション結果の出力を得る。
【0031】
以下、MACモデルをより詳細に説明する。
【0032】
(FPNベースのセグメンテーションフレームワーク)
まず、MACモデルで使用されるFPN[4]の概要を説明する。
【0033】
MACモデルに入力画像I∈RH×W×3が与えられると、マルチスケール及びマルチ解像度の特徴Ci={C2,・・・,C5}が、ボトムアップ経路を介してバックボーン121によって生成される[7,2,5]。
【0034】
ネック122において、FPNは横方向の接続fiとアップサンプリングUp2×を適用して、異なる特徴マップの形状及びチャネルを一致させる。
【0035】
その後、FPNは、隣接する特徴マップをピクセル単位(pixel-wise manner)で融合(追加)し、トップダウンの経路を介して伝播することで、特徴ピラミッドを構築する。上記のマルチスケールの特徴融合の後、エイリアス効果を解決するために、マージされた各特徴マップに1つの3×3畳み込み層が適用される。
【0036】
さらに、C5に対してピラミッドプーリングモジュール(PPM)[8]を適用することによって、追加のグローバルコンテキスト特徴が得られる。最後に、固定数のチャネル(通常は256-D(256次元))を持つピラミッド特徴Pi={P2,・・・,P6}が生成される。全体のプロセスを式で表すと下記のとおりとなる。
【0037】
【数1】
上記のような特徴相互作用と融合プロセスにより、マルチレベル特徴は様々な受容野をカバーし、FPNの各レベルの出力(すなわち、Pi)が異なるスケール範囲に対して十分なコンテキスト情報を含むようになる。すなわち、FPNにより、マルチスケールのターゲットオブジェクトをマルチスケールレンジに分割して分割統治方式で処理しながら、より良い特徴表現を実現することができる。
【0038】
(ウィンドウワイズMSA(Window-wise Multi-head Self-Attention))
次に、macモジュール内で使用されるウィンドウワイズMSAでの処理を説明する。ローカルMSAを計算するために、入力される特徴マップF∈RH×W×Cは多数の重複しないウィンドウMi={M1,・・・,Mn}∈RN×k×k×Cに均等に分割される。ここで、k×kは各ウィンドウのサイズ、N=h×w/k2はウィンドウの数である。各ウィンドウは、下記で表される1-D(一次元)シーケンスに平坦化される。
【0039】
【数2】
ウィンドウワイズMSAの最初のプロセスは、線形射影を用いてMiをマッピングし、次にそれを、下記に示すとおりにリシェープすることである。
【0040】
【数3】
ここで、Qはクエリーであり、Kはキーであり、Vはバリューであり、rはヘッドの数である。さらに、位置情報を取得するために下記の相対位置バイアスを加える。
【0041】
【0042】
【数5】
ここで、d=C/rであり、1/√dはスケールファクタである。
【0043】
【数6】
上記で表されるMSA特徴マップの形状は元に戻されてAttn´∈R
H×W×Cとなる。ウィンドウワイズMSAの出力F′∈R
H×W×Cは下記のとおり残差方式で得られる
F´=F+Attn´(3)
その後、ウィンドウワイズMSAの出力は、それに続くフィードフォワードネットワーク(FFN)によって処理される。詳細は次のようにして示される。
【0044】
【数7】
ここで、NormはLayerNorm(LN)[1]のレイヤであり、Mlpは線形レイヤとドロップアウトレイヤの2つの連続したコネクションで構成される。そして、下記の最終出力が得られる。
【0045】
【数8】
(mac(Multi-scale Attention Cascade)モジュール)
続いて、macモジュールについて説明する。MACの中心的なアイデアは、特徴ピラミッドによってカバーされる広いスケール範囲において、より詳細なスケール情報を活用することである。本実施の形態では、追加のクロスレベルインタラクションを実装する従来のアフィニティ学習ベースの方法とは異なり、macモジュールがFPNの各レベルで個別に動作する。
【0046】
macモジュール(及びそれに接続される1×1ConvとECAモジュール)を
図4に示す。
図4に示すように、macモジュールは3つのCasiステージ(i∈{1,2,3})を含み、各ステージにおいて、特徴マップは空間的に異なるサイズのウィンドウに分割される。各ステージiのウィンドウのサイズはki×ki={2×2,4×4,7×7}である。各ステージにおいて、これらの異なるサイズのウィンドウを使用する。
【0047】
すなわち、最初のステージでは、小さな領域(2×2)のそれぞれでセルフアテンションを計算し、次に領域を徐々に中(4×4)、大(7×7)へと拡張してセルフアテンションを計算する。
【0048】
レベルiのピラミッド特徴Pi∈Rhi×wi×256が入力されると、それは最初に1×1畳み込み層(1×1Conv)に入力され、次元が下記の値に縮小される。
【0049】
【数9】
そして、macモジュールが、下記の式で示される処理を実行する。
【0050】
【数10】
ここで、CasiはFFNとCas
i
out∈R
hi×wi×192を持つki×kiウィンドウワイズMSAを示す。
【0051】
上記の処理に加えて、各FPNレベルでクロスチャネルアテンションを達成するために、チャネル次元に沿って均質な特徴をコンパクトにするために、ECA[6]がCasi
outに適用される。
【0052】
最後に、ECAモジュールからの出力は、バイリニア補間によって入力画像I∈RH×W×3の1/4のサイズにリサイズされ、下記の式(6)に示すとおり、各FPNレベルのマルチスケールのコンテクスチュアル特徴Casi
out´∈RH/4×W/4×192が生成される。
【0053】
【数11】
ここで、Resizeはバイリニア補間による特徴のサイズ変更を示し、ECAはECAモジュールの適用を示す。
【0054】
(セグメンテーションデコーダ)
セグメンテーションデコーダは、マルチレベルの特徴Casi
out´∈RH/4×W/4×192,i={2,・・・,6}を融合して、最終的なセグメンテーション出力Out∈RH×W×classを生成する。ここで、classはセグメンテーションターゲットのカテゴリの数である。セグメンテーションデコーダの詳細は下記のとおりである。
【0055】
FPNにmacモジュールを適用した後、異なるレベル間にスケールの重複がある。したがって、異なるレベルにおける同じスケールをマッチさせるために、最初にチャネル連結を適用して、すべてのレベルの特徴を1つの特徴マップに融合する。その後、融合結果に対してSqueeze and Excitation (SE)モジュール[3]を適用して、グローバルなチャネルアテンションを実現する。最終的なセグメンテーション出力は1×1畳み込み層により得られる。上記の処理を式で表すと下記のとおりとなる。
【0056】
【数12】
ここで、〇の中にプラスを記載した記号はチャネル連結を示し、SEはSEモジュールの適用を示し、Convは1×1畳み込み層を示す。
【0057】
(ハードウェア構成例)
本実施の形態で説明したいずれの情報処理装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
【0058】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0059】
図5は、上記コンピュータのハードウェア構成例を示す図である。
図5のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、当該コンピュータは、更にGPUを備えてもよい。
【0060】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0061】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、情報処理装置100に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0062】
(実施の形態のまとめ、効果等)
以上説明したとおり、本実施の形態では、MACモデルを採用したことで、HSRリモートセンシング画像等の空中画像に対するセグメンテーションに関する従来技術の課題を解決することができる。
【0063】
また、複数サイズのウィンドウを使用するアテンションモジュールを使用することで、各FPNレベルのマルチスケール特徴表現を活用することができ、複雑で不均衡な背景を抑制しながらスケール変動が大きいという課題を解決できる。
【0064】
本実施の形態に係る手法(MAC)と、従来のトランスフォーマーベースの方法とを、iSAIDデータセットを用いて評価したところ、MACのほうがより優れた性能を得ることができた。MACにより、非常に小さな物体と非常に大きな物体の両方に対して、特に曖昧な境界部分について、正確なセグメンテーション結果を出力することができる。
【0065】
以上の実施形態に関し、更に以下の付記を開示する。
【0066】
<付記>
(付記項1)
画像に対するセグメンテーションを行う情報処理装置であって、
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
前記画像を入力し、
前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成する
情報処理装置。
(付記項2)
前記複数のマルチヘッドセルフアテンションモジュールは、カスケード接続されている
付記項1に記載の情報処理装置。
(付記項3)
前記複数のマルチヘッドセルフアテンションモジュールにおける各マルチヘッドセルフアテンションモジュールは、入力される特徴マップを複数のウィンドウに分割し、各ウィンドウでセルフアテンションを計算する
付記項1又は2に記載の情報処理装置。
(付記項4)
カスケード接続される前記複数のマルチヘッドセルフアテンションモジュールにおいて、ある段のマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズは、当該マルチヘッドセルフアテンションモジュールの後段に接続されるマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズよりも小さい
付記項3に記載の情報処理装置。
(付記項5)
前記プロセッサは、特徴ピラミッドネットワークを用いて複数のレベルの前記第1特徴マップを生成する
付記項1ないし4のうちいずれか1項に記載の情報処理装置。
(付記項6)
画像に対するセグメンテーションを行う情報処理装置が実行するセグメンテーション方法であって、
前記画像を入力するステップと、
前記画像から得られた複数のレベルの第1特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第2特徴マップを生成し、複数のレベルの前記第2特徴マップからセグメンテーション結果を生成するステップと
を備えるセグメンテーション方法。
(付記項7)
コンピュータを、付記項1ないし5のうちいずれか1項に記載の情報処理装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
【0067】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
[参考文献]
[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778, 2016.
[3] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 7132-7141, 2018.
[4] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017.
[5] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10012-10022, 2021.
[6] Pengfei Zhu Peihua Li Wangmeng Zuo Qilong Wang, Banggu Wu and Qinghua Hu. Eca-net: Efficient channel attention for deep convolutional neural networks. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 11534-11542, 2020.
[7] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[8] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2881-2890, 2017.
[9] Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, and Zhouchen Lin. Pointflow: Flowing semantics through points for aerial image segmentation. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), 2021
【符号の説明】
【0068】
100 情報処理装置
110 入力部
120 演算部
121 バックボーン
122 ネック
130 出力部
140 記憶部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置