IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2024-74525パート特徴抽出装置、パート特徴抽出方法、及びプログラム
<>
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図1
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図2
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図3
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図4
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図5
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図6
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図7
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図8
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図9
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図10
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図11
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図12
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図13
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図14
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図15
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図16
  • 特開-パート特徴抽出装置、パート特徴抽出方法、及びプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024074525
(43)【公開日】2024-05-31
(54)【発明の名称】パート特徴抽出装置、パート特徴抽出方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240524BHJP
【FI】
G06T7/00 300F
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022185743
(22)【出願日】2022-11-21
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】田良島 周平
(72)【発明者】
【氏名】梅田 崇之
(72)【発明者】
【氏名】児玉 知也
(72)【発明者】
【氏名】▲きょう▼ 子臣
(72)【発明者】
【氏名】宇田 育弘
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA35
5L096FA01
5L096HA08
5L096HA11
5L096JA11
5L096KA04
5L096KA09
(57)【要約】
【課題】物体検索技術において、精度良くデータベースを検索することを可能とする技術を提供する。
【解決手段】パート特徴抽出装置において、入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、前記特徴マスキング部によりマスクがなされた特徴マップから、パート特徴を生成する特徴生成部とを備える。
【選択図】図6
【特許請求の範囲】
【請求項1】
入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、
前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、
前記特徴マスキング部によりマスクがなされた特徴マップから、パート特徴を生成する特徴生成部と
を備えるパート特徴抽出装置。
【請求項2】
前記パートマスク抽出部は、
前記画像から前記対象物体の姿勢を推定する姿勢推定部と、
前記姿勢推定部により得られる前記対象物体における各関節点の位置情報のうちの、前記特定の領域に対応する位置情報を用いて、前記パートマスクを抽出する抽出処理部と
を備える請求項1に記載のパート特徴抽出装置。
【請求項3】
前記パートマスク抽出部は、
前記画像から前記対象物体の各領域を推定するセグメンテーション部と、
前記セグメンテーション部により得られる前記対象物体における複数の領域のうちの、前記特定の領域に対応する領域を用いて、前記パートマスクを抽出する抽出処理部と
を備える請求項1に記載のパート特徴抽出装置。
【請求項4】
前記パートマスク抽出部は、前記画像から、前記対象物体における特定の領域を示す複数のパートマスクを抽出し、
前記特徴生成部は、各パートマスクを用いてマスクされた複数の特徴マップから複数のパート特徴を生成し、複数のパート特徴を統合することにより1つのパート特徴を生成する
請求項1に記載のパート特徴抽出装置。
【請求項5】
前記パート特徴を用いて、データベースを検索する検索部を更に備える
請求項1に記載のパート特徴抽出装置。
【請求項6】
入力された映像を構成する各画像フレームから、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、
各画像フレームから得られた各特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、
前記特徴マスキング部によりマスクがなされた複数の特徴マップから、複数のパート特徴を生成し、前記複数のパート特徴から1つのパート特徴を生成する特徴生成部と
を備えるパート特徴抽出装置。
【請求項7】
コンピュータが実行するパート特徴抽出方法であって、
入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出ステップと、
前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキングステップと、
前記特徴マスキングステップによりマスクがなされた特徴マップから、パート特徴を生成する特徴生成ステップと
を備えるパート特徴抽出方法。
【請求項8】
コンピュータを、請求項1ないし6のうちいずれか1項に記載のパート特徴抽出装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体検索技術に関連するものである。
【背景技術】
【0002】
物体検索技術は、人物等の物体が映り込むクエリに基づいて、データベース中の要素をクエリと類似する順にランキングする技術である。
【0003】
物体検索技術により、例えば、映像に映り込む人物や商品等の特定をしたり、物体の移動軌跡を抽出したりすることが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2017-215784号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来の物体検索技術においては、精度良くデータベースを検索することができないという課題があった。
【0006】
本発明は上記の点に鑑みてなされたものであり、物体検索技術において、精度良くデータベースを検索することを可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
開示の技術によれば、入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、
前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、
前記特徴マスキング部によりマスクがなされた特徴マップから、パート特徴を生成する特徴生成部と
を備えるパート特徴抽出装置が提供される。
【発明の効果】
【0008】
開示の技術によれば、物体検索技術において、精度良くデータベースを検索することを可能とする技術が提供される。
【図面の簡単な説明】
【0009】
図1】物体検索技術を説明するための図である。
図2】課題を説明するための図である。
図3】課題を説明するための図である。
図4】検索装置30の構成図である。
図5】パート特徴抽出装置10の構成図である。
図6】実施例1におけるパート特徴抽出部100の構成図である。
図7】特徴マップ抽出部110の処理内容を説明するための図である。
図8】第1の例におけるパートマスク抽出部120の構成図である。
図9】第2の例におけるパートマスク抽出部120の構成図である。
図10】学習装置20の構成図である。
図11】モデル学習を説明するための図である。
図12】データベース構築を説明するための図である。
図13】検索処理を説明するための図である。
図14】実施例2におけるパート特徴抽出部100の構成図である。
図15】実施例2におけるパートマスク抽出部120の構成と動作を説明するための図である。
図16】実施例3における検索処理を説明するための図である。
図17】装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0011】
本発明に係る技術により、物体検索技術において、精度良くデータベースを検索するこが可能になるが、本発明に係る技術の適用範囲は物体検索技術に限定されない。
【0012】
以下ではまず、本実施の形態に係る技術についてのユースケースの例、及び課題について詳細に説明し、その後に本実施の形態に係る技術を詳細に説明する。以下の説明における参考文献については[1]等の番号で表記し、番号に対応する参考文献名については明細書の最後にまとめて記載した。なお、参考文献に開示された内容そのものは公知であるが、下記のユースケースの説明、参考文献についての説明、及び課題の説明は必ずしも公知ではない。
【0013】
(ユースケースの例)
本実施の形態におけるユースケースの例として物体検索技術がある。これを、図1を参照して説明する。本実施の形態では、後述する検索装置30が、例えば人物等の物体が映り込むクエリに基づいて、データベース中の要素をクエリと類似する順にランキングする。
【0014】
例えばデータベース中の要素に予め属性(例えば、物体固有の名称など)を付与しておく。上記の物体検索技術を用いることで、クエリと特に類似したデータベース中の要素の属性を用いて、クエリの属性を判定することができる。これにより、映像に映り込む人物や商品等の特定をすることができる。
【0015】
また、ある時刻にあるカメラから取得される物体を捉えたデータをクエリとし、それ以外の時刻や他のカメラが物体を捉えたデータをデータベースに格納することで、時刻やカメラを横断して同一の個体を探し出すことが可能となる。これにより、物体の移動軌跡を抽出することができる。
【0016】
以上から、物体検索技術は様々な応用を実現するための必須要素技術であり、その産業応用性は極めて高いことが分かる。
【0017】
(課題について)
一般に、同一の物体であっても、その物体が存在する時刻あるいは場所により、その全貌の見えは必ずしも一貫していない。例えば図2に示すように、同一人物が異なる衣類を着用(図2上段の例)していたり、同一の衣類でもその着用方法が異なっていたり(図2下段の例)する場合、全貌の見えは大きく異なる。図2上段の例の場合、ジャケットを着用しているか否かが異なる。図2下段の例の場合、パーカの前面を閉じているか否か、またフードを被っているか否かが異なる。
【0018】
上記のように、同一の物体であっても、その物体が存在する時刻あるいは場所により、その全貌の見えが異なることについては、人物に限らず他の多くの物体で生じ得る。一般的に、物体検索技術は、このような同一物体の全貌の変化に対して頑健であることが望ましい。
【0019】
物体検索技術の公知の技術として、例えば[1]に開示された技術がある。当該技術では、畳み込みニューラルネットワーク(CNN)を用いてクエリ及びデータベースの各要素から特徴ベクトルを抽出し、クエリとデータベース全要素とで計算される特徴ベクトルの距離あるいは類似度に基づいてデータベース中の要素をランキングする。
【0020】
[1]に開示された技術では、入力クエリ全体から特徴抽出を行うため、物体の全貌の見えが変化してしまう場合に、クエリと同一の物体を上位にランキングする性能が低下してしまうという課題がある。また、多くの場合、クエリには特定物体とは無関係の背景が映り込んでいるが、特徴抽出がこの背景領域の影響を少なからず受けてしまうという課題もある。特徴抽出がこの背景領域の影響を強く受けてしまった場合、対象物体ではなく背景の類似性に基づいてデータベース要素がランキングされてしまい、望む検索結果との乖離が大きくなる可能性が高い。
【0021】
上記の課題を解決する単純なアプローチとして、物体を構成する一部分のうち変化の生じない箇所を事前に指定し、特徴抽出の入力とする方法が考えられる。
【0022】
例えば図3では、人物の下半身は着用する衣類が変化しないという仮定のもと、クエリ及びデータベースの各要素の下半分を切り出し、特徴抽出の入力とする場合の例を示している。この方法を用いることで、対象物体のうち見えに変化が生じ得る部分の影響を抑制することが可能になる。しかし、背景領域の影響は依然として抑制できていない。この課題は、例えば顔の部分に着目する場合など、着目する部分がクエリ全体の中で小さく映り込む場合に特に顕著である。
【0023】
以上をまとめると、従来の物体検索技術においては、対象物体の中で見えが変化した領域、及び、対象と無関係の背景領域、のうちの少なくとも一つ以上の影響を受けてしまうため、クエリと同一物体を捉えたデータベース中の要素を上位にランキングすることができないという課題があった。すなわち、従来の物体検索技術においては、精度良くデータベースを検索することができないという課題があった。
【0024】
以下、実施例1~3を用いて、上記の課題を解決するための装置構成と装置動作を詳細に説明する。
【0025】
(検索装置の構成例)
まず、実施例1~3に共通の検索装置30について説明する。図4に検索装置30の構成例を示す。
【0026】
図4に示すように、検索装置30は、入力部31、パート特徴抽出部100、検索部32、及び出力部33を備える。検索装置30は、例えば、図1を参照して説明した動作を実行する。ここでは、検索対象のデータベースについては、検索装置30の外部に備えられていることを想定するが、当該データベースが検索装置30の内部に備えられてもよい。
【0027】
図4に示すように、検索装置30は、入力部31、パート特徴抽出部100、検索部32、及び出力部33を有する。検索装置30の動作概要は下記のとおりである。なお、「画像」には「映像」の意味が含まれることとしてもよい。
【0028】
入力部31からクエリである画像が入力される。パート特徴抽出部100は、入力された画像からパート特徴を抽出する。検索部32は、パート特徴抽出部100により抽出されたパート特徴を用いて、データベースを検索する。出力部33は検索結果を出力する。
【0029】
なお、本実施の形態では、パート特徴抽出部100を、データベース検索に使用することを想定しているが、これは一例である。パート特徴抽出部100により得られるパート特徴は、任意の用途に使用することが可能である。
【0030】
例えば、パート特徴抽出部100は、パート特徴の抽出結果を出力とするパート特徴抽出装置10に使用されてもよい。図5に、パート特徴抽出装置10の構成例を示す。図5に示すように、パート特徴抽出装置10は、入力部200、パート特徴抽出部100、出力部300を有する。
【0031】
入力部200から画像が入力される。パート特徴抽出部100は、入力された画像からパート特徴を抽出する。出力部300は、抽出されたパート特徴を出力する。出力されたパート特徴はどのような用途に使用してもよい。例えば、パート特徴をデータベース構築に使用してもよい。
【0032】
なお、検索装置30は、パート特徴抽出を行うので、パート特徴抽出装置の一例である。つまり、検索装置30をパート特徴抽出装置と呼んでもよい。
【0033】
以下、検索装置30の詳細(特にパート特徴抽出部100の詳細)について、実施例1~3を用いて説明する。
【0034】
(実施例1)
まず、実施例1を説明する。実施例1では、検索装置30は、人物を捉えた画像をクエリとして入力し、人物の顔を対象パートとする検索を実施する。対象パートは顔以外であってもよく、また対象パートが複数指定されていてもよい。また、対象は人物以外の任意の物体であってもよい。
【0035】
<実施例1:パート特徴抽出部100>
実施例1におけるパート特徴抽出部100について説明する。図6に、実施例1におけるパート特徴抽出部100の構成例を示す。
【0036】
図6に示すように、実施例1におけるパート特徴抽出部100は、特徴マップ抽出部110、パートマスク抽出部120、特徴マスキング部130、及び特徴プーリング部140を有する。各部の概要は下記のとおりである。
【0037】
特徴マップ抽出部110は、入力された画像から特徴マップを抽出する。パートマスク抽出部120は、入力された画像から、対象物体のうちフォーカスする領域を示すパートマスクを抽出する。
【0038】
特徴マスキング部130は、パートマスクに基づいて特徴マップ中の特徴をマスキングする。特徴プーリング部140は、マスキングされた特徴マップをプーリングして一つの特徴ベクトルを出力する。
【0039】
パート特徴抽出部100は、例えばニューラルネットワークのモデル(パート特徴抽出モデルと呼ぶ)として実現できる。パート特徴抽出モデルのパラメータは、後述するモデル学習装置20により、学習データセットを用いることで学習される。
【0040】
パートマスク抽出部120に、特徴マップ抽出部110が含まれていてもよい。また、特徴プーリング部140を特徴生成部と呼んでもよい。
【0041】
<実施例1:パート特徴抽出部100の各部の詳細>
以下ではパート特徴抽出部100の各部をより詳細に説明する。
【0042】
特徴マップ抽出部110:
特徴マップ抽出部110は、図7に示すように、高さH、幅Wの入力画像(クエリ)から、H´×W´×C´の特徴マップを抽出する。ここでC´は、特徴マップの各位置における特徴量の次元と解釈することができる。特徴マップを抽出する手法としては任意の手法を用いることが可能であり、例えば[2]に開示された手法などを適用することができる。
【0043】
パートマスク抽出部120は、入力画像から、対象パート(本実施例では顔)が画像のどの位置に映り込むかを示したパートマスクH´×W´×1を出力する。パートマスクの各要素は0あるいは1をとり、1のときその位置は対象パートを含むことを示す。パートマスク抽出部120の構成例として、下記の第1の例と第2の例がある。
【0044】
パートマスク抽出部120の第1の例:
図8に、第1の例におけるパートマスク抽出部120の構成を示す。図8に示すように、第1の例におけるパートマスク抽出部120は、姿勢推定部121と抽出処理部122を有する。
【0045】
姿勢推定部121は、入力画像から対象物体の姿勢を推定する。抽出処理部122は、姿勢推定部121の中間出力として得られる各関節点の位置情報を示したヒートマップを入力として、フォーカスするパートを選択し、選択されたパートに対応するヒートマップの統合及び当該ヒートマップの量子化(例えば二値化)を行う。
【0046】
ここで、姿勢推定部121として、任意の技術を用いることが可能であり、例えば[3]に開示された技術などを適用することができる。
【0047】
実施例1では、姿勢推定部121は、目や鼻など顔のパートを構成する5点、及び肩や腰、足などの関節点12点からなる17点のキーポイントの位置を取得し、その中間出力として、各キーポイントに対し、入力画像上での位置にピークを持つヒートマップを出力する。
【0048】
抽出処理部120は、姿勢推定部121により得られたヒートマップ集合のうち、顔のパートを構成するものをまず選択し、選択されたヒートマップから、各位置での最大値をさらに選択することで、複数のヒートマップを1つのヒートマップに統合する。得られた1つのヒートマップを決められた閾値を用いて二値化することで、パートマスクを出力することができる。
【0049】
パートマスク抽出部120の第2の例:
図9に、第2の例におけるパートマスク抽出部120の構成を示す。図9に示すように、第2の例におけるパートマスク抽出部120は、セグメンテーション部123と抽出処理部124を有する。
【0050】
セグメンテーション部123は、入力画像から対象物体の各領域を推定する。抽出処理部124は、セグメンテーション部123の出力として得られるパートマスク集合を入力として、フォーカスするパートの選択及び選択されたパートに対応するマスクの統合を行う。
【0051】
セグメンテーション部123として、任意の技術を用いることが可能であり、例えば[4]に開示された技術を適用することができる。セグメンテーション部123は、物体を構成する所定のパートの画像中での位置を示すパートマスクの集合を直接出力する。
【0052】
図9の下側に示すセグメンテーション結果のイメージにおける上の部分が顔のパートに対応する。抽出処理部124は、顔のパートに対応する複数マスクを選択し、これらを統合することで1つのパートマスクを出力することができる。
【0053】
特徴マスキング部130:
特徴マスキング部130は、特徴マップ抽出部110で得られた特徴マップを、パートマスク抽出部120で得られたパートマスクでマスキングする。具体的には、特徴マップのうち、パートマスクが0をとる位置の特徴はその値を全て0で置き換える。
【0054】
特徴プーリング部140:
特徴プーリング部140は、特徴マスキング部130により得られたマスキングされた特徴マップを入力として、入力画像に対応するパート特徴を示す特徴ベクトルを抽出する。特徴プーリング部140として、任意の技術を使用することが可能であり、例えば最大値プーリングあるいは平均値プーリングを使用することができる。
【0055】
<実施例1:学習装置20>
図10に、パート特徴抽出モデルの学習を行う学習装置20の構成例を示す。図10に示すように、学習装置20は、入力部21、モデル学習部22、及びモデル格納部23を有する。
【0056】
入力部21から学習データセットが入力される。モデル学習部22は、学習データセットを用いてパート特徴抽出モデルの学習を行う。学習済みのモデル(具体的にはパラメータ)は、モデル格納部23に格納される。モデル格納部23に格納されたモデルは、例えば、検索装置30により読み出されて、パート特徴抽出部100において使用される。
【0057】
図11に、モデル学習の処理イメージを示す。図11に示すように、実施例1の学習データセットは、映り込む特定物体固有のIDが付与された複数の画像(IDごとの複数の画像)で構成される。モデル学習部23による学習方法として、どのような方法を用いてもよく、例えば、[5]に開示された方法を適用することができる。
【0058】
モデル学習部23では、例えば、学習データセットにおけるあるIDの画像を入力したパート特徴抽出モデルからの出力が、ある特徴ベクトルになるように(該当IDを特定できるように)、パート特徴抽出モデルのパラメータを調整する。パラメータの調整方法としては、例えば、誤差逆伝播法を用いることができる。
【0059】
<実施例1:データベースの構築について>
検索装置30が検索の対象とするデータベースの構築方法について説明する。検索対象となるデータベースを構築するには、学習済みのパート特徴抽出部100を備えるパート特徴抽出装置10を使用する。
【0060】
図12に示すように、データベースに登録する各画像をパート特徴抽出装置10への入力とする。パート特徴抽出装置10は、パート特徴抽出部100により、各画像の特徴ベクトルを抽出し、出力する。
【0061】
実施例1において、データベースに登録する各要素は、画像ごとの、固有のID、画像に対応するパート特徴(特徴ベクトル)、及び属性を有する。属性としては、任意の情報を登録することができ、例えば特定物体が人物の場合は人物の名称/性別/属性などを登録することができる。
【0062】
<実施例1:検索処理について>
検索装置30による検索処理の例を、図13を参照して説明する。S1において、クエリ画像をパート特徴抽出部100へ入力してパート特徴(クエリ特徴)を抽出する。
【0063】
S2において、検索部32は、パート特徴を、データベースに登録されている特徴と比較することでデータベース内の要素をランキングしその結果を出力する。
【0064】
検索部32において、クエリ特徴とデータベースにおける特徴とを比較する方法として、どのような方法を使用してもよいが、例えばクエリ特徴とデータベース全要素の特徴とのコサイン類似度を計算し、その類似度が高い順にデータベース内要素をランキングすればよい。
【0065】
(実施例2)
続いて、実施例2について説明する。実施例2においても実施例1と同様に、検索装置30は、人物を捉えた画像をクエリとして入力し、人物の顔を対象パートとする検索を実施する。対象パートは顔以外であってもよく、また対象パートが複数指定されていてもよい。また、対象は人物以外の任意の物体であってもよい。
【0066】
パート特徴抽出部100の構成と動作が実施例1と実施例2とで異なる。パート特徴抽出部100以外は、実施例1と実施例2で同じである。以下では、実施例2のパート特徴抽出部100について説明する。
【0067】
<実施例2:パート特徴抽出部100>
図14に、実施例2におけるパート特徴抽出部100の構成例を示す。図14に示すように、実施例2におけるパート特徴抽出部100は、特徴マップ抽出部110、パートマスク抽出部120、特徴マスキング部130、特徴プーリング部140、及び特徴統合部150を有する。各部の概要は下記のとおりである。
【0068】
特徴マップ抽出部110は、入力された画像から特徴マップを抽出する。パートマスク抽出部120は、入力された画像から対象物体のうちフォーカスする各領域を示すパートマスク集合を抽出する。
【0069】
特徴マスキング部130は、パートマスク集合に含まれる各パートマスクに基づいて特徴マップ中の特徴をマスキングする。特徴プーリング部140は、マスキングされた特徴マップの集合に含まれる各特徴マップをプーリングして特徴ベクトル集合を出力する。特徴統合部150は、特徴ベクトル集合を、その重要度を考慮した上で統合する。
【0070】
パートマスク抽出部120に、特徴マップ抽出部110が含まれていてもよい。また、「特徴プーリング部140+特徴統合部150」を特徴生成部と呼んでもよい。
【0071】
<実施例2:パート特徴抽出部100の各部の詳細>
以下ではパート特徴抽出部100の各部をより詳細に説明する。
【0072】
特徴マップ抽出部110:
特徴マップ抽出部110は、実施例1(図7)と同一である。
【0073】
パートマスク抽出部120:
実施例2のパートマスク抽出部120は、実施例1(図8図9)とその動作が異なり、複数のパートマスクを出力する。
【0074】
図15を参照して、実施例2におけるパートマスク抽出部120の構成と動作を説明する。図15に示すように、パートマスク抽出部120は、姿勢推定部121と抽出処理部122を有する。
【0075】
姿勢推定部121は実施例1と同じである。抽出処理部122は、例えば顔のパートを対象とする場合、顔を構成する5つのキーポイントに対応するヒートマップそれぞれについて、二値化処理を施すことで5つのパートマスクを出力する。ここで、5つのパートマスクに加え、ヒートマップ集合を統合して得られるものを二値化して得られるパートマスクを出力してもよい。
【0076】
図15は、実施例1において第1の例として説明した姿勢推定を行う場合の例を示している。実施例2でも、実施例1の第2の例(図9)と同様に、セグメンテーション部123を用いることで、パートマスク集合を出力することとしてもよい。
【0077】
特徴マスキング部130:
特徴マスキング部130は特徴マップ抽出部110で得られた特徴マップに対し、パートマスク抽出部120で得られた各パートマスクを独立に適用し、パートマスク抽出部120で得られたパートマスクと同数のマスキングされた特徴マップ(マスキングされた特徴マップ集合)を出力する。マスキング自体は実施例1と同じであり、特徴マップのうち、パートマスクが0をとる位置の特徴はその値を全て0で置き換える。
【0078】
特徴プーリング部140:
特徴プーリング部140は、特徴マスキング部130により得られたマスキングされた特徴マップの各々を独立にプーリングして特徴ベクトルの集合を出力する。プーリングの方法は、実施例1と同じでよい。
【0079】
特徴統合部150:
特徴統合部150は、特徴プーリング部140が出力する特徴ベクトルの集合を、各特徴ベクトルの重要度を考慮して重みづけした上で統合し、1つの特徴ベクトルを出力する。特徴ベクトルの集合を統合する方法としてはどのような方法を用いてもよいが、一例として、[6]に開示されているScaled-dot Self-attentionを用いて、特徴プーリング部140から出力された特徴ベクトル集合の平均として、特徴統合部150が出力する特徴ベクトルを計算することができる。
【0080】
(実施例3)
続いて、実施例3について説明する。以下、実施例1及び実施例2と異なる点を説明する。実施例3は、実施例1と実施例2のうちのいずれにも適用可能である。
【0081】
実施例1及び実施例2では、クエリ及びデータベースの要素単位を画像としていた。一方、実施例3では、特定物体を所定の時間捉えた映像(時間的に連続した複数の画像)を、クエリ及びデータベースの要素単位とする。
【0082】
実施例3において、パート特徴抽出部100は、実施例1及び実施例2における処理内容(図6図14)を、所定時間の映像を構成する各画像フレームに適用し、得られた特徴集合(複数画像フレームの特徴)をプーリングして1つの特徴ベクトルを抽出する。その他の構成及び処理内容は実施例1及び実施例2と同じである。
【0083】
すなわち、パートマスク抽出部120は、入力された映像を構成する各画像フレームから、対象物体における特定の領域を示すパートマスクを抽出する。特徴マスキング部130は、各画像フレームから得られた各特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする。特徴生成部(特徴プーリング部140、特徴プーリング部140+特徴統合部150)は、特徴マスキング部130によりマスクがなされた複数の特徴マップから、複数のパート特徴を生成し、当該複数のパート特徴から1つのパート特徴を生成する。
【0084】
実施例3における検索装置30による検索処理の例を、図16を参照して説明する。S11において、クエリとなる所定時間の映像をパート特徴抽出部100へ入力して、当該映像のパート特徴を抽出する。
【0085】
S12において、検索部32は、パート特徴を、データベースに登録されている特徴と比較することでデータベース内の要素をランキングしその結果を出力する。
【0086】
検索部32において、でクエリ特徴とデータベースにおける特徴とを比較する方法として、どのような方法を使用してもよいが、例えばクエリ特徴とデータベース全要素の特徴とのコサイン類似度を計算し、その類似度が高い順にデータベース内要素をランキングすればよい。
【0087】
(ハードウェア構成例)
本実施の形態で説明したいずれの装置(パート特徴抽出装置10、学習装置20、検索装置30)も、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
【0088】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0089】
図17は、上記コンピュータのハードウェア構成例を示す図である。図17のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、当該コンピュータは、更にGPUを備えてもよい。
【0090】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0091】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0092】
(実施の形態のまとめ、効果)
以上説明したとおおり、本実施の形態では、パート特徴抽出装置等において、画像から、予め決められた対象物体の部分領域にフォーカスした特徴を抽出するパート特徴抽出部100を備える。
【0093】
実施例1のパート特徴抽出部100は、画像から特徴マップを抽出する特徴マップ抽出部110と、画像から対象物体のうちフォーカスする領域を示すパートマスクを抽出するパートマスク抽出部120と、パートマスクに基づいて特徴マップ中の特徴をマスキングする特徴マスキング部120と、マスキングされた特徴マップをプーリングして1つの特徴ベクトルを出力する特徴プーリング部140とを備える。
【0094】
パート特徴抽出部100によって、対象物体の中で見えが変化した領域と、対象と無関係の背景領域のいずれの影響も抑制した特徴抽出が可能となる。
【0095】
パート特徴抽出部100を物体検索に利用した場合、精度良くデータベースを検索することができるようになる。つまり、対象物体の中で見えが変化した領域と、対象と無関係の背景領域のいずれの影響も抑制した物体検索を実現することができる。
【0096】
実施例2のパート特徴抽出部100は、画像から特徴マップを抽出する特徴マップ抽出部110と、画像から対象物体のうちフォーカスする各領域を示すパートマスク集合を抽出するパートマスク抽出部120と、パートマスク集合に含まれる各パートマスクに基づいて特徴マップ中の特徴をマスキングする特徴マスキング部130と、マスキングされた特徴マップの集合に含まれる各特徴マップをプーリングして特徴ベクトル集合を出力する特徴プーリング部140と、特徴ベクトル集合を統合する特徴統合部150とを有する。
【0097】
実施例2のパート特徴抽出部100によって、対象物体の中で見えが変化した領域と、対象と無関係の背景領域のいずれの影響も抑制しつつ、かつ、フォーカスするパートのうち特に検索に有効なパートをパート特徴抽出部100の中で重みづけすることが可能となり、検索の精度をより向上させることができる。
【0098】
パート特徴抽出部100を構成するパートマスク抽出部120は、例えば、入力画像から対象物体の姿勢を推定する姿勢推定部121と、姿勢推定部121の中間出力として得られる各関節点の位置情報を示したヒートマップを入力として、フォーカスするパートの選択・選択されたパートに対応するヒートマップの統合及びヒートマップの量子化を行う抽出処理部122を有する。
【0099】
上記の構成により、物体の関節点位置にフォーカスした特徴抽出を行うことが可能となり、検索の精度をより向上させることができる。
【0100】
パート特徴抽出部100を構成するパートマスク抽出部120は、例えば、入力画像から対象物体の各領域を推定するセグメンテーション部123と、セグメンテーション部123の出力として得られるパートマスク集合を入力として、フォーカスするパートの選択及び選択されたパートに対応するマスクの統合を行う抽出処理部124を有することとしてもよい。
【0101】
上記の構成によって、様々な形状のフォーカス領域に基づく特徴抽出を行うことが可能となり、検索の精度をより向上させることができる。
【0102】
また、クエリ及びデータベース要素として扱う情報を画像ではなく、特定物体を所定の時間捉えた映像(時間的に連続した複数の画像)としてもよい。これにより、対象物体の様々な見えを考慮した特徴抽出が可能となり、検索の精度をより向上させることができる。
【0103】
本実施の形態に係る技術により、対象物体の中で見えが変化した領域と、対象と無関係の背景領域のいずれの影響も抑制した物体検索を精度よく実現することができる。
【0104】
以上の実施形態に関し、更に以下の付記を開示する。
【0105】
<付記>
(付記項1)
入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、
前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、
前記特徴マスキング部によりマスクがなされた特徴マップから、パート特徴を生成する特徴生成部と
を備えるパート特徴抽出装置。
(付記項2)
前記パートマスク抽出部は、
前記画像から前記対象物体の姿勢を推定する姿勢推定部と、
前記姿勢推定部により得られる前記対象物体における各関節点の位置情報のうちの、前記特定の領域に対応する位置情報を用いて、前記パートマスクを抽出する抽出処理部と
を備える付記項1に記載のパート特徴抽出装置。
(付記項3)
前記パートマスク抽出部は、
前記画像から前記対象物体の各領域を推定するセグメンテーション部と、
前記セグメンテーション部により得られる前記対象物体における複数の領域のうちの、前記特定の領域に対応する領域を用いて、前記パートマスクを抽出する抽出処理部と
を備える付記項1に記載のパート特徴抽出装置。
(付記項4)
前記パートマスク抽出部は、前記画像から、前記対象物体における特定の領域を示す複数のパートマスクを抽出し、
前記特徴生成部は、各パートマスクを用いてマスクされた複数の特徴マップから複数のパート特徴を生成し、複数のパート特徴を統合することにより1つのパート特徴を生成する
付記項1ないし3のうちいずれか1項に記載のパート特徴抽出装置。
(付記項5)
前記パート特徴を用いて、データベースを検索する検索部を更に備える
付記項1ないし4のうちいずれか1項に記載のパート特徴抽出装置。
(付記項6)
入力された映像を構成する各画像フレームから、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出部と、
各画像フレームから得られた各特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキング部と、
前記特徴マスキング部によりマスクがなされた複数の特徴マップから、複数のパート特徴を生成し、前記複数のパート特徴から1つのパート特徴を生成する特徴生成部と
を備えるパート特徴抽出装置。
(付記項7)
コンピュータが実行するパート特徴抽出方法であって、
入力された画像から、対象物体における特定の領域を示すパートマスクを抽出するパートマスク抽出ステップと、
前記画像から得られた特徴マップにおける前記特定の領域以外の部分を、前記パートマスクを用いてマスクする特徴マスキングステップと、
前記特徴マスキングステップによりマスクがなされた特徴マップから、パート特徴を生成する特徴生成ステップと
を備えるパート特徴抽出方法。
(付記項8)
コンピュータを、付記項1ないし6のうちいずれか1項に記載のパート特徴抽出装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
【0106】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
[参考文献]
[1] Kaiyang Zhou, Yongxin Yang, Andrea Cavallaro, and Tao Xiang. Learning generalisable omni-scale representations for person re-identification. TPAMI, 2021.
[2] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
[3] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In CVPR, 2019.
[4] Xiaodan Liang, Ke Gong, Xiaohui Shen, and Liang Lin. Look into person: Joint body parsing & pose estimation network and a new benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.
[5] Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and Wei Jiang. Bag of tricks and a strong baseline for deep person re-identification. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2019.
[6] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
【符号の説明】
【0107】
10 パート特徴抽出装置
20 学習装置
21 入力部
22 モデル学習部
23 モデル格納部
30 検索装置
31 入力部
32 検索部
33 出力部
100 パート特徴抽出部
110 特徴マップ抽出部
120 パートマスク抽出部
121 姿勢推定部
122 抽出処理部
123 セグメンテーション部
124 抽出処理部
130 特徴マスキング部
140 特徴プーリング部
150 特徴統合部
200 入力部
300 出力部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17