特開2024-168754 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人早稲田大学の特許一覧

特開2024-168754情報処理装置、セグメンテーション方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024168754

(43)【公開日】2024-12-05

(54)【発明の名称】情報処理装置、セグメンテーション方法、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241128BHJP

G06T 7/11 20170101ALI20241128BHJP

G06V 10/82 20220101ALI20241128BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06V10/82

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023085680

(22)【出願日】2023-05-24

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】899000068

【氏名又は名称】学校法人早稲田大学

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】オウショウ

(72)【発明者】

【氏名】中野雄介

(72)【発明者】

【氏名】王 ▲ゆ▼博

(72)【発明者】

【氏名】大谷淳

(72)【発明者】

【氏名】石井裕之

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA19

5L096GA17

5L096HA11

5L096JA11

5L096JA13

(57)【要約】

【課題】空中画像に対するセグメンテーションを適切に行うための技術を提供する。
【解決手段】画像に対するセグメンテーションを行う情報処理装置であって、前記画像を入力する入力部と、前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する演算部とを備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置。

【請求項2】

前記複数のマルチヘッドセルフアテンションモジュールは、カスケード接続されている
請求項１に記載の情報処理装置。

【請求項3】

前記複数のマルチヘッドセルフアテンションモジュールにおける各マルチヘッドセルフアテンションモジュールは、入力される特徴マップを複数のウィンドウに分割し、各ウィンドウでセルフアテンションを計算する
請求項１に記載の情報処理装置。

【請求項4】

カスケード接続される前記複数のマルチヘッドセルフアテンションモジュールにおいて、ある段のマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズは、当該マルチヘッドセルフアテンションモジュールの後段に接続されるマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズよりも小さい
請求項３に記載の情報処理装置。

【請求項5】

前記演算部は、特徴ピラミッドネットワークを用いて複数のレベルの前記第１特徴マップを生成する
請求項１に記載の情報処理装置。

【請求項6】

画像に対するセグメンテーションを行う情報処理装置が実行するセグメンテーション方法であって、
前記画像を入力するステップと、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成するステップと
を備えるセグメンテーション方法。

【請求項7】

コンピュータを、請求項１ないし５のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、空中画像に対してセグメンテーションを行う技術に関連するものである。

【背景技術】

【0002】

以下の説明において、参考文献については［１］等の番号で表記し、番号に対応する文献名は明細書の最後に記載した。

【0003】

高空間解像度(HSR: High Spatial Resolution)リモートセンシング技術が知られている。当該技術により得られた画像には、建物、車両、船舶などを含む、興味の対象物の意味と位置情報を提供する地理空間情報が豊富に含まれているという特徴がある。これらの情報を理解することは、都市の監視、環境変化の監視、災害対応、ルート計画など、さまざまな実用的な目的に不可欠である。

【0004】

HSRリモートセンシング画像を効果的に活用するために、空中画像セグメンテーションが重要なコンピュータビジョンのタスクとなる。当該タスクは、空中の視点から見た各画像のピクセルに意味ラベルを割り当てる一方で、前景オブジェクトと背景領域を分離（セグメント化）することを目的としている。

【0005】

近年、多くのVision Transformerベースの手法がセマンティックセグメンテーション分野で提案されている。これらの手法により、微小で曖昧な物体に対して正確な予測を生成することができるが、空中画像における大きなスケール変動の問題を解決できていない。

【0006】

また、非特許文献２に開示された高密度のアフィニティ学習ベースの手法[9]では、そのセグメンテーション結果は複雑な背景とノイズコンテキストによって劣化する。Pointflow [9]は、空中画像セグメンテーション研究分野におけるSoTAセグメンテーション結果を示す最新の研究であり、非特許文献１に開示された特徴ピラミッドネットワーク(FPN)[4]における隣接するスケール特徴間の顕著な点を選択してマッチさせることによるスパースなアフィニティ学習を採用している。当該技術により、複雑な背景やノイズを扱うことができるが、この方法では、小さなオブジェクトが失われたり、大きなオブジェクトの境界の予測が弱くなったりすることがある。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017.

【非特許文献2】Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, and Zhouchen Lin. Pointflow: Flowing semantics through points for aerial image segmentation. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), 2021

【発明の概要】

【発明が解決しようとする課題】

【0008】

従来のセマンティックセグメンテーション技術では、空中画像に対するセグメンテーション（領域識別）を適切に行うことができないという課題がある。

【0009】

本発明は上記の点に鑑みてなされたものであり、空中画像に対するセグメンテーションを適切に行うための技術を提供することを目的とする。

【課題を解決するための手段】

【0010】

開示の技術によれば、画像に対するセグメンテーションを行う情報処理装置であって、
前記画像を入力する入力部と、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する演算部と
を備える情報処理装置が提供される。

【発明の効果】

【0011】

開示の技術によれば、空中画像に対するセグメンテーションを適切に行うための技術が提供される。

【図面の簡単な説明】

【0012】

【図1】情報処理装置１００の構成図である。

【図2】情報処理装置１００の動作を説明するためのフローチャートである。

【図3】MACモデルの構成図である。

【図4】macモジュールの構成図である。

【図5】情報処理装置１００のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0014】

以降の説明における「空中画像」は、空中写真、航空画像、航空写真等に置き換えてもよい。また、以下の「空中画像」は、上空（例えば飛行機や衛星）から、HSRリモートセンシング技術を用いて取得）（撮影）した画像であることを想定するが、これに限定されない。例えば、「空中画像」は、上空から一般的なカメラで撮影した画像であってもよい。

【0015】

また、「セグメンテーション」を、セマンティックセグメンテーション、セグメント化、領域分割、領域判別、領域識別、領域分類、等と呼んでもよい。本実施の形態に係る技術で空中画像に対するセグメンテーションを実行することで、例えば、空中画像における建物、自動車、飛行機、道路、地面等を識別できる。

【0016】

なお、本発明に係る技術は、空中画像以外の画像に対して適用することも可能である。

【0017】

（課題について）
セマンティックセグメンテーションについての多くの従来技術においては、自然なシーンでの一般的なセマンティックセグメンテーションタスクが実行されている。しかし、一般的なセマンティックセグメンテーションタスクとは異なり、空中画像セグメンテーションには下記の３つの課題がある。

【0018】

１）同じシーンにおいて、オブジェクトのスケールが大きく変化するという課題がある。すなわち、空中画像のオブジェクトのスケールは非常に広い範囲で変化するため、非常に小さなオブジェクトと非常に大きなオブジェクトとをセグメント化することが難しい。

【0019】

２）HSR画像等の空中画像においては、多数の小さなオブジェクトが広がっているという課題がある。すなわち、多数の小さなオブジェクトが大きな空中画像に広がっているため、それらを明確に認識してセグメント化することは、特に曖昧な境界がある場合に困難である。

【0020】

３）空中画像では、不均衡で複雑な背景があるという課題がある。すなわち、前景の比率は複雑な背景よりもはるかに少なく、そのことがモデリングにノイズをもたらし、一方で出力に重大な偽陽性を引き起こす可能性がある。

【0021】

以下、上記の課題を解決する本実施の形態に係る技術を詳細に説明する。

【0022】

（装置構成）
本実施の形態では、図１に示す情報処理装置１００が、空中画像に対するセグメンテーションを実行する。

【0023】

図１に示すように、情報処理装置１００は、入力部１１０、演算部１２０、出力部１３０、及び記憶部１４０を有する。

【0024】

図２のフローチャートを参照して、情報処理装置１００の動作概要を説明する。Ｓ１０１において、入力部１１０から、処理対象となる空中画像を入力する。入力された画像は記憶部１４０に格納される。

【0025】

Ｓ１０２において、演算部１２０は、記憶部１４０から空中画像を読み出して、セグメンテーション処理を実行する。Ｓ１０３において、出力部１３０は、セグメンテーションの処理結果（例えば領域毎（ピクセル毎）に意味付けされた画像）を出力する。

【0026】

本実施の形態では、演算部１２０は、ニューラルネットワークのモデルを用いてセグメンテーションを実行する。例えば、記憶部１４０に、学習済みのモデルパラメータが格納されている。演算部１２０は、記憶部１４０から当該モデルパラメータを読み出し、当該モデルパラメータを適用したモデルに空中画像を入力し、モデルの出力としてセグメンテーションの結果を得る。

【0027】

以下、上記のモデルについて詳細に説明する。

【0028】

（モデルの概要）
図３に、本実施の形態におけるモデルの構成例を示す。本実施の形態のモデルを、マルチスケールアテンションカスケード(MAC：Multi-scale Attention Cascade)モデルと呼ぶ。図３に示すように、MACモデルは、Swin Transformer Tiny (Swin-T) [5]とFPN [4]をバックボーン１２１とネック１２２として持つ。

【0029】

MACモデルでは、マージされたピラミッドの特徴をさらに探求するために、FPNの各レベルの出力に対して、マルチスケールアテンションカスケード(mac)モジュールが適用される。macモジュールは、３つの連続した異なるスケールのローカルマルチヘッドセルフアテンション(MSA：multi-head self-attention)で構成される。

【0030】

各macモジュールの出力には、ECA(Efficient channel attention) [6]モジュールが適用され、チャネル間の相互作用の強化が実現される。モデルの最後において、マルチレベル特徴を同じサイズに再構成（リシェープ）し、次元を連結して、シンプルなセグメンテーションデコーダの後、セグメンテーション結果の出力を得る。

【0031】

以下、MACモデルをより詳細に説明する。

【0032】

（FPNベースのセグメンテーションフレームワーク）
まず、MACモデルで使用されるFPN［４］の概要を説明する。

【0033】

MACモデルに入力画像Ｉ∈Ｒ^{Ｈ×Ｗ×３}が与えられると、マルチスケール及びマルチ解像度の特徴Ｃｉ＝｛Ｃ２，・・・，Ｃ５｝が、ボトムアップ経路を介してバックボーン１２１によって生成される［７，２，５］。

【0034】

ネック１２２において、FPNは横方向の接続ｆｉとアップサンプリングＵｐ２×を適用して、異なる特徴マップの形状及びチャネルを一致させる。

【0035】

その後、FPNは、隣接する特徴マップをピクセル単位（pixel-wise manner）で融合（追加）し、トップダウンの経路を介して伝播することで、特徴ピラミッドを構築する。上記のマルチスケールの特徴融合の後、エイリアス効果を解決するために、マージされた各特徴マップに１つの３×３畳み込み層が適用される。

【0036】

さらに、Ｃ５に対してピラミッドプーリングモジュール（PPM）［８］を適用することによって、追加のグローバルコンテキスト特徴が得られる。最後に、固定数のチャネル（通常は２５６－Ｄ（２５６次元））を持つピラミッド特徴Ｐｉ＝｛Ｐ２，・・・，Ｐ６｝が生成される。全体のプロセスを式で表すと下記のとおりとなる。

【0037】

【数1】

上記のような特徴相互作用と融合プロセスにより、マルチレベル特徴は様々な受容野をカバーし、FPNの各レベルの出力（すなわち、Ｐｉ）が異なるスケール範囲に対して十分なコンテキスト情報を含むようになる。すなわち、FPNにより、マルチスケールのターゲットオブジェクトをマルチスケールレンジに分割して分割統治方式で処理しながら、より良い特徴表現を実現することができる。

【0038】

（ウィンドウワイズＭＳＡ（Window-wise Multi-head Self-Attention））
次に、macモジュール内で使用されるウィンドウワイズＭＳＡでの処理を説明する。ローカルＭＳＡを計算するために、入力される特徴マップＦ∈Ｒ^{Ｈ×Ｗ×Ｃ}は多数の重複しないウィンドウＭｉ＝｛Ｍ１，・・・，Ｍｎ｝∈Ｒ^{Ｎ×ｋ×ｋ×Ｃ}に均等に分割される。ここで、ｋ×ｋは各ウィンドウのサイズ、Ｎ＝ｈ×ｗ／ｋ^２はウィンドウの数である。各ウィンドウは、下記で表される１－Ｄ（一次元）シーケンスに平坦化される。

【0039】

【数2】

ウィンドウワイズＭＳＡの最初のプロセスは、線形射影を用いてＭｉをマッピングし、次にそれを、下記に示すとおりにリシェープすることである。

【0040】

【数3】

ここで、Ｑはクエリーであり、Ｋはキーであり、Ｖはバリューであり、ｒはヘッドの数である。さらに、位置情報を取得するために下記の相対位置バイアスを加える。

【0041】

【数4】

そして、次のようにＭＳＡを計算する。

【0042】

【数5】

ここで、ｄ＝Ｃ／ｒであり、１／√ｄはスケールファクタである。

【0043】

【数6】

上記で表されるＭＳＡ特徴マップの形状は元に戻されてＡｔｔｎ´∈Ｒ^{Ｈ×Ｗ×Ｃ}となる。ウィンドウワイズＭＳＡの出力Ｆ′∈Ｒ^{Ｈ×Ｗ×Ｃ}は下記のとおり残差方式で得られる
Ｆ´＝Ｆ＋Ａｔｔｎ´（３）
その後、ウィンドウワイズＭＳＡの出力は、それに続くフィードフォワードネットワーク（ＦＦＮ）によって処理される。詳細は次のようにして示される。

【0044】

【数7】

ここで、NormはLayerNorm（ＬＮ）［１］のレイヤであり、Mlpは線形レイヤとドロップアウトレイヤの２つの連続したコネクションで構成される。そして、下記の最終出力が得られる。

【0045】

【数8】

（mac（Multi-scale Attention Cascade）モジュール）
続いて、macモジュールについて説明する。MACの中心的なアイデアは、特徴ピラミッドによってカバーされる広いスケール範囲において、より詳細なスケール情報を活用することである。本実施の形態では、追加のクロスレベルインタラクションを実装する従来のアフィニティ学習ベースの方法とは異なり、macモジュールがFPNの各レベルで個別に動作する。

【0046】

macモジュール（及びそれに接続される１×１ＣｏｎｖとＥＣＡモジュール）を図４に示す。図４に示すように、macモジュールは３つのＣａｓｉステージ（ｉ∈｛１，２，３｝）を含み、各ステージにおいて、特徴マップは空間的に異なるサイズのウィンドウに分割される。各ステージｉのウィンドウのサイズはｋｉ×ｋｉ＝｛２×２，４×４，７×７｝である。各ステージにおいて、これらの異なるサイズのウィンドウを使用する。

【0047】

すなわち、最初のステージでは、小さな領域（２×２）のそれぞれでセルフアテンションを計算し、次に領域を徐々に中（４×４）、大（７×７）へと拡張してセルフアテンションを計算する。

【0048】

レベルｉのピラミッド特徴Ｐｉ∈Ｒ^{ｈｉ×ｗｉ×２５６}が入力されると、それは最初に１×１畳み込み層（１×１Ｃｏｎｖ）に入力され、次元が下記の値に縮小される。

【0049】

【数9】

そして、macモジュールが、下記の式で示される処理を実行する。

【0050】

【数10】

ここで、ＣａｓｉはＦＦＮとＣａｓ^ｉ _ｏｕｔ∈Ｒ^{ｈｉ×ｗｉ×１９２}を持つｋｉ×ｋｉウィンドウワイズＭＳＡを示す。

【0051】

上記の処理に加えて、各FPNレベルでクロスチャネルアテンションを達成するために、チャネル次元に沿って均質な特徴をコンパクトにするために、ＥＣＡ［６］がＣａｓ^ｉ _ｏｕｔに適用される。

【0052】

最後に、ＥＣＡモジュールからの出力は、バイリニア補間によって入力画像Ｉ∈Ｒ^{Ｈ×Ｗ×３}の１／４のサイズにリサイズされ、下記の式（６）に示すとおり、各FPNレベルのマルチスケールのコンテクスチュアル特徴Ｃａｓ^ｉ _ｏｕｔ´∈Ｒ^{Ｈ／４×Ｗ／４×１９２}が生成される。

【0053】

【数11】

ここで、Ｒｅｓｉｚｅはバイリニア補間による特徴のサイズ変更を示し、ＥＣＡはＥＣＡモジュールの適用を示す。

【0054】

（セグメンテーションデコーダ）
セグメンテーションデコーダは、マルチレベルの特徴Ｃａｓ^ｉ _ｏｕｔ´∈Ｒ^{Ｈ／４×Ｗ／４×１９２}，ｉ＝｛２，・・・，６｝を融合して、最終的なセグメンテーション出力Ｏｕｔ∈Ｒ^{Ｈ×Ｗ×ｃｌａｓｓ}を生成する。ここで、ｃｌａｓｓはセグメンテーションターゲットのカテゴリの数である。セグメンテーションデコーダの詳細は下記のとおりである。

【0055】

FPNにmacモジュールを適用した後、異なるレベル間にスケールの重複がある。したがって、異なるレベルにおける同じスケールをマッチさせるために、最初にチャネル連結を適用して、すべてのレベルの特徴を１つの特徴マップに融合する。その後、融合結果に対してSqueeze and Excitation (SE)モジュール［３］を適用して、グローバルなチャネルアテンションを実現する。最終的なセグメンテーション出力は１×１畳み込み層により得られる。上記の処理を式で表すと下記のとおりとなる。

【0056】

【数12】

ここで、〇の中にプラスを記載した記号はチャネル連結を示し、ＳＥはＳＥモジュールの適用を示し、Ｃｏｎｖは１×１畳み込み層を示す。

【0057】

（ハードウェア構成例）
本実施の形態で説明したいずれの情報処理装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

【0058】

すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0059】

図５は、上記コンピュータのハードウェア構成例を示す図である。図５のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、当該コンピュータは、更にＧＰＵを備えてもよい。

【0060】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0061】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、情報処理装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0062】

（実施の形態のまとめ、効果等）
以上説明したとおり、本実施の形態では、MACモデルを採用したことで、HSRリモートセンシング画像等の空中画像に対するセグメンテーションに関する従来技術の課題を解決することができる。

【0063】

また、複数サイズのウィンドウを使用するアテンションモジュールを使用することで、各FPNレベルのマルチスケール特徴表現を活用することができ、複雑で不均衡な背景を抑制しながらスケール変動が大きいという課題を解決できる。

【0064】

本実施の形態に係る手法（MAC）と、従来のトランスフォーマーベースの方法とを、iSAIDデータセットを用いて評価したところ、MACのほうがより優れた性能を得ることができた。MACにより、非常に小さな物体と非常に大きな物体の両方に対して、特に曖昧な境界部分について、正確なセグメンテーション結果を出力することができる。

【0065】

以上の実施形態に関し、更に以下の付記を開示する。

【0066】

＜付記＞
（付記項１）
画像に対するセグメンテーションを行う情報処理装置であって、
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
前記画像を入力し、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成する
情報処理装置。
（付記項２）
前記複数のマルチヘッドセルフアテンションモジュールは、カスケード接続されている
付記項１に記載の情報処理装置。
（付記項３）
前記複数のマルチヘッドセルフアテンションモジュールにおける各マルチヘッドセルフアテンションモジュールは、入力される特徴マップを複数のウィンドウに分割し、各ウィンドウでセルフアテンションを計算する
付記項１又は２に記載の情報処理装置。
（付記項４）
カスケード接続される前記複数のマルチヘッドセルフアテンションモジュールにおいて、ある段のマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズは、当該マルチヘッドセルフアテンションモジュールの後段に接続されるマルチヘッドセルフアテンションモジュールにおけるウィンドウのサイズよりも小さい
付記項３に記載の情報処理装置。
（付記項５）
前記プロセッサは、特徴ピラミッドネットワークを用いて複数のレベルの前記第１特徴マップを生成する
付記項１ないし４のうちいずれか１項に記載の情報処理装置。
（付記項６）
画像に対するセグメンテーションを行う情報処理装置が実行するセグメンテーション方法であって、
前記画像を入力するステップと、
前記画像から得られた複数のレベルの第１特徴マップのそれぞれに対して、複数のマルチヘッドセルフアテンションモジュールを適用することにより第２特徴マップを生成し、複数のレベルの前記第２特徴マップからセグメンテーション結果を生成するステップと
を備えるセグメンテーション方法。
（付記項７）
コンピュータを、付記項１ないし５のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

【0067】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
［参考文献］
[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778, 2016.
[3] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 7132-7141, 2018.
[4] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017.
[5] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10012-10022, 2021.
[6] Pengfei Zhu Peihua Li Wangmeng Zuo Qilong Wang, Banggu Wu and Qinghua Hu. Eca-net: Efficient channel attention for deep convolutional neural networks. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 11534-11542, 2020.
[7] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[8] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), pages 2881-2890, 2017.
[9] Xiangtai Li, Hao He, Xia Li, Duo Li, Guangliang Cheng, Jianping Shi, Lubin Weng, Yunhai Tong, and Zhouchen Lin. Pointflow: Flowing semantics through points for aerial image segmentation. In Proceedings of the IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR), 2021

【符号の説明】

【0068】

１００情報処理装置
１１０入力部
１２０演算部
１２１バックボーン
１２２ネック
１３０出力部
１４０記憶部
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版