IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2023-179247画像処理装置、画像処理方法およびプログラム
<>
  • 特開-画像処理装置、画像処理方法およびプログラム 図1
  • 特開-画像処理装置、画像処理方法およびプログラム 図2
  • 特開-画像処理装置、画像処理方法およびプログラム 図3
  • 特開-画像処理装置、画像処理方法およびプログラム 図4
  • 特開-画像処理装置、画像処理方法およびプログラム 図5
  • 特開-画像処理装置、画像処理方法およびプログラム 図6
  • 特開-画像処理装置、画像処理方法およびプログラム 図7
  • 特開-画像処理装置、画像処理方法およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023179247
(43)【公開日】2023-12-19
(54)【発明の名称】画像処理装置、画像処理方法およびプログラム
(51)【国際特許分類】
   G06F 16/53 20190101AFI20231212BHJP
   G06T 7/00 20170101ALI20231212BHJP
【FI】
G06F16/53
G06T7/00 350B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022092449
(22)【出願日】2022-06-07
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】ファン ヴェトクォク
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175KA12
5L096AA06
5L096DA01
5L096DA02
5L096EA39
5L096FA02
5L096FA16
5L096FA18
5L096FA74
5L096HA11
5L096KA04
(57)【要約】
【課題】画像から物体に対応する領域をより高精度に検出する。
【解決手段】画像処理装置は、画像受付部とクエリ受付部と単語ヒートマップ算出部と重み算出部とクエリヒートマップ算出部と検出部と出力制御部とを備える。画像受付部は、画像の入力を受け付ける。クエリ受付部は、1つ以上の単語を含むクエリの入力を受け付ける。単語ヒートマップ算出部は、単語ごとに、画像に含まれる各部分領域と単語とが関連する度合いを示す単語ヒートマップを算出する。重み算出部は、単語それぞれの重みを算出する。クエリヒートマップ算出部は、単語ヒートマップと重みとに基づいて、画像に含まれる各部分領域とクエリとが関連する度合いを示すクエリヒートマップを算出する。検出部は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、画像から検出する。出力制御部は、画像領域を出力する。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像の入力を受け付ける画像受付部と、
1つ以上の単語を含むクエリの入力を受け付けるクエリ受付部と、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出部と、
前記単語それぞれの重みを算出する重み算出部と、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出部と、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出部と、
前記画像領域を出力する出力制御部と、
を備える画像処理装置。
【請求項2】
前記クエリは複数の単語を含み、
前記重み算出部は、前記クエリ内の予め定められた特定単語を検出し、前記クエリ内で前記特定単語の前に出現する1つ以上の第1単語と、前記クエリ内で前記特定単語の後に出現する1つ以上の第2単語との間で異なる重みを算出する、
請求項1に記載の画像処理装置。
【請求項3】
前記重み算出部は、前記第1単語の重みを前記第2単語の重みより大きく算出する、
請求項2に記載の画像処理装置。
【請求項4】
前記クエリは複数の単語を含み、
前記重み算出部は、依存構造解析に基づいて、前記クエリに含まれる複数の単語間の依存構造を表す木構造で求め、前記木構造のルートに対応する単語に関連する第1単語と、前記第1単語以外の第2単語との間で異なる重みを算出する、
請求項1に記載の画像処理装置。
【請求項5】
前記重み算出部は、前記第1単語の重みを前記第2単語の重みより大きく算出する、
請求項4に記載の画像処理装置。
【請求項6】
前記クエリヒートマップ算出部は、前記重みを用いた前記単語ヒートマップの重み付け和により前記クエリヒートマップを算出する、
請求項1に記載の画像処理装置。
【請求項7】
前記検出部は、前記画像から、1つ以上の物体に対応する1つ以上の画像領域の候補を検出し、1つ以上の画像領域の候補のうち、前記クエリに関連する度合いが大きいことが前記クエリヒートマップにより示される前記部分領域を含む候補を、前記クエリに関連する物体に対応する画像領域として検出する、
請求項1に記載の画像処理装置。
【請求項8】
前記検出部は、前記クエリヒートマップを入力して前記クエリに関連する物体に対応する前記画像領域を出力するように学習されたモデルを用いて、前記画像領域を検出する、
請求項1に記載の画像処理装置。
【請求項9】
前記重み算出部は、前記単語それぞれの重みが相互に異なる複数のパターンで前記重みを算出し、
前記クエリヒートマップ算出部は、複数の前記パターンそれぞれに対応する複数の前記クエリヒートマップを算出し、
前記検出部は、複数の前記クエリヒートマップそれぞれに対応する複数の前記画像領域を検出し、
前記出力制御部は、複数の前記画像領域を出力する、
請求項1に記載の画像処理装置。
【請求項10】
画像処理装置で実行される画像処理方法であって、
画像の入力を受け付ける画像受付ステップと、
1つ以上の単語を含むクエリの入力を受け付けるクエリ受付ステップと、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出ステップと、
前記単語それぞれの重みを算出する重み算出ステップと、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出ステップと、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出ステップと、
前記画像領域を出力する出力制御ステップと、
を含む画像処理方法。
【請求項11】
コンピュータに、
画像の入力を受け付ける画像受付ステップと、
1つ以上の単語を含むクエリの入力を受け付けるクエリ受付ステップと、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出ステップと、
前記単語それぞれの重みを算出する重み算出ステップと、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出ステップと、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出ステップと、
前記画像領域を出力する出力制御ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、画像処理装置、画像処理方法およびプログラムに関する。
【背景技術】
【0002】
入力された画像から、検索条件として入力されたテキスト(クエリ)に適合する物体の画像領域を検出する技術が知られている。例えば、弱教師付きVisual Grounding(VG)と呼ばれる技術では、物体の画像領域に相当する矩形の教示を必要としない学習モデルを用いて、ある画像とクエリが提示されたときにクエリに対応した画像領域(矩形)が検出される。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Li et al. “Align before Fuse: Vision and Language Representation Learning with Momentum Distillation”, NeurIPS 2021.
【非特許文献2】Selvaraju et.al., “Grad-cam: Visual explanations from deep networks via gradient-based localization”, ICCV, pp. 618-626 2017.
【非特許文献3】Ren et.al., "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149, 1 June 2017.
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、画像から物体に対応する領域をより高精度に検出できる画像処理装置、画像処理方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
実施形態の画像処理装置は、画像受付部とクエリ受付部と単語ヒートマップ算出部と重み算出部とクエリヒートマップ算出部と検出部と出力制御部とを備える。画像受付部は、画像の入力を受け付ける。クエリ受付部は、1つ以上の単語を含むクエリの入力を受け付ける。単語ヒートマップ算出部は、単語ごとに、画像に含まれる各部分領域と単語とが関連する度合いを示す単語ヒートマップを算出する。重み算出部は、単語それぞれの重みを算出する。クエリヒートマップ算出部は、単語ヒートマップと重みとに基づいて、画像に含まれる各部分領域とクエリとが関連する度合いを示すクエリヒートマップを算出する。検出部は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、画像から検出する。出力制御部は、画像領域を出力する。
【図面の簡単な説明】
【0006】
図1】実施形態にかかる画像処理装置のブロック図。
図2】画像処理装置による処理の概要を示す図。
図3】モデルを学習する処理の例を示す図。
図4】単語ヒートマップの例を示す図。
図5】依存構造解析の結果の例を示す図。
図6】実施形態における画像処理のフローチャート。
図7】出力制御部による出力例を示す図。
図8】実施形態にかかる画像処理装置のハードウェア構成図。
【発明を実施するための形態】
【0007】
以下に添付図面を参照して、この発明にかかる画像処理装置の好適な実施形態を詳細に説明する。
【0008】
弱教師付きVGは、例えば、以下のような手順で実行することができる。
・事前に学習したテキスト・画像マッチングモデル(弱教師付きVGによるVGモデルなど)を用いて、クエリに含まれる単語それぞれについて単語ヒートマップを算出する。単語ヒートマップは、画像に含まれる部分領域(例えば1つ以上の画素)と、単語とが関連する度合い(関連性)を示す情報である。
・各単語の単語ヒートマップを足し合わせてクエリ全体についてのヒートマップ(クエリヒートマップ)を算出する。
・画像から、物体に対応する画像領域の候補を検出する。
・検出した候補の中から、クエリヒートマップのピークに適合する候補を特定し、特定した候補を物体に対応する画像領域として出力する。
【0009】
上記の手順では、クエリに含まれるすべての単語が同等に扱われる。すなわち、本来、クエリで検索されるべき対象物体(メインオブジェクト)に対応する単語と、対象物体以外の物体(サブオブジェクト)に対応する単語と、が区別されていない。このため、サブオブジェクトが誤って検出される場合がある。
【0010】
以下の実施形態では、単語の依存関係を解析することにより、メインオブジェクトに対応する単語と、サブオブジェクトに対応する単語と、を区別可能とする。そして、区別した単語間で相互に異なる重みを割り当てる。さらに、クエリヒートマップを単語ヒートマップの重み付け和として再定義する。例えば、単語間の関係を考慮して、メインオブジェクトに対応する単語に対する単語ヒートマップの重みを強調(大きく)する。これにより、メインオブジェクトをより検出しやすくすることができる。すなわち、弱教師付きVGなどによる、画像からの物体に対応する領域の検出をより高精度に実行可能となる。
【0011】
図1は、本実施形態にかかる画像処理装置100の構成の一例を示すブロック図である。図1に示すように、画像処理装置100は、画像受付部101と、クエリ受付部102と、単語ヒートマップ算出部103と、重み算出部104と、クエリヒートマップ算出部105と、検出部106と、出力制御部107と、記憶部121と、ディスプレイ122と、を備えている。
【0012】
画像処理装置100は、上記各部を用いて、入力された画像から、入力されたクエリに適合する画像領域(矩形)を検出して出力する。図2は、画像処理装置100による処理の概要を示す図である。
【0013】
画像処理装置100は、画像201およびクエリ202が入力される。図2では色が示されていないが、画像201は、例えば、青いジャケットを着た女性が右側に位置し、青以外の服を着た人物が左側に位置する画像であるものとする。画像処理装置100は、クエリ202である「woman in blue jacket」に適合する画像領域212を検出し、画像211と併せて例えばディスプレイ122に表示する。
【0014】
以下、図1を用いて、上記各部の詳細について説明する。記憶部121は、画像処理装置100で用いられる各種情報を記憶する。例えば記憶部121は、入力された画像、入力されたクエリ、および、ヒートマップの算出に用いられるモデルなどを記憶する。
【0015】
記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0016】
ここで、本実施形態で用いることができるモデルの例について説明する。図3は、モデルを学習する処理の例を示す図である。処理301は、教師付きVGによるVGモデルの学習処理の例を示す。処理302は、弱教師付きVGによるVGモデルの学習処理の例を示す。
【0017】
いずれの処理も、犬を含む画像と、「jumping dog」を表すクエリと、を用いてVGモデルが学習される。教師付きVGでは、画像内に矩形311が指定されるが、教師付きVGでは、矩形の教示は必要とされない。弱教師付きVGでは、矩形の教示がないため、クエリから画像領域への直接的なマッピングを学習できない。その代わりに、ヒートマップを用いて間接的に対象の矩形が推定される。
【0018】
図1に戻り、ディスプレイ122は、画像処理装置100で用いられる各種情報を表示するための表示装置である。ディスプレイ122は、例えば液晶ディスプレイ、および、タッチパネルなどにより実現される。
【0019】
画像受付部101は、画像の入力を受け付ける。画像の入力方法は、どのような方法であってもよいが、例えば、外部の装置からネットワークを介して受信する方法、および、記憶部121などの記憶媒体に記憶された画像のうち指定された画像を読み出す方法などを用いることができる。
【0020】
クエリ受付部102は、1つ以上の単語を含むクエリの入力を受け付ける。クエリの入力方法は、どのような方法であってもよいが、例えば、外部の装置からネットワークを介して受信する方法、および、キーボードなどの入力装置を用いてユーザにより入力されたクエリのテキストを受け付ける方法などを用いることができる。
【0021】
単語ヒートマップ算出部103は、例えば事前に学習され、記憶部121に記憶されたVGモデルを用いて、クエリに含まれる単語ごとに単語ヒートマップを算出する。クエリに含まれる単語は、例えば形態素解析などの技術により抽出することができる。単語ヒートマップはどのような方法で算出されてもよいが、例えば、GradCAM(Gradient-weighted Class Activation Mapping、非特許文献2)を用いることができる。
【0022】
図4は、算出される単語ヒートマップの例を示す図である。図4は、例えば「the woman is working on her computer at the desk」というクエリに含まれる一部の単語(woman、working、computer、desk)に対して算出される単語ヒートマップの例を示す。なお図4では、部分領域と単語とが関連する度合いを黒いドットの密度で表すヒートマップの例を示している。関連する度合いは、色の違いなどにより表されてもよい。
【0023】
画像401~404は、それぞれ「woman」、「working」、「computer」、「desk」に対して算出される単語ヒートマップを重畳させた画像の例である。画像401~404は、ピーク部411~414を有する単語ヒートマップを含む。ピーク部は、単語に対して関連する度合いが最大となる領域を含む部分である。例えば画像401では、「woman」に関連する領域である人物の顔の近傍領域にピーク部411が存在する。
【0024】
図1に戻り、重み算出部104は、クエリに含まれる単語それぞれの重みを算出する。まず重み算出部104は、例えば以下の2つの抽出方法のいずれかにより、クエリの中から、メインオブジェクト対応する1つ以上の単語WA(第1単語)、および、サブオブジェクトに対応する1つ以上の単語WB(第2単語)を抽出する。
【0025】
(抽出方法M1)
重み算出部104は、メインオブジェクトとサブオブジェクトとを接続する単語として予め定められた特定単語を、クエリの中から検索する。特定単語は、「in」、「holding」、「carry」、「with」、「on」、「by」、「near」のように、例えば前置詞などを含む。クエリに複数の特定単語が含まれる場合は、重み算出部104は、複数の特定単語のうちいずれか1つ(例えば最初に出現する特定単語)を検索する。
【0026】
重み算出部104は、クエリ内で特定単語の前に出現する1つ以上の単語、および、特定単語の後に出現する1つ以上の単語を、それぞれ単語WAおよび単語WBとして抽出する。
【0027】
(抽出方法M2)
重み算出部104は、依存構造解析に基づいて、クエリに含まれる複数の単語間の依存構造を表す木構造で求める。重み算出部104は、木構造のルートに対応する単語、および、この単語に関連する単語を単語WAとして抽出し、単語WA以外の単語を単語WBとして抽出する。
【0028】
例えば重み算出部104は、オープンソースとして適用される自然言語処理ライブラリであるspaCyの依存関係解析を用いて、クエリからメインオブジェクトに関連する単語(単語WA)を検出する。メインオブジェクトに関連する単語は、木構造のルートに対応する単語のみでなく、例えば当該単語を修飾する単語を含みうる。
【0029】
なお、文章における依存関係とは、単語および文節間の依存関係のことである。依存関係とは、修飾/被修飾関係および係り受け関係のことである。文章の依存関係を解析することは依存構造解析と呼ばれる。依存構造は、木構造で表現されることが多い。この木構造は、単語および文節をノードとして持っている。文節および単語は、修飾/被修飾の親子関係で表現される。
【0030】
図5は、依存構造解析の結果の例を示す図である。図5は、「suitcase with cat on it」というクエリに対する依存構造解析の結果の例である。この例では、「suitcase」がルートに対応する単語であり、単語WAとして抽出される。例えば「white suitcase」などのように、「suitcase」を修飾する単語がクエリに含まれる場合は、この単語も単語WAとして抽出される。単語WA以外の単語が担当WBとして抽出される。
【0031】
図1に戻り、重み算出部104は、単語WAと単語WBとの間で異なる重みを算出する。例えば重み算出部104は、抽出方法M1または抽出方法M2により算出された単語WAの重みを単語WBの重みより大きくするように、各単語の重みを算出する。例えば重み算出部104は、すべての単語WAに対して重みm(w)=α(α>1)を算出し、単語WBに対して重みm(w)=1を算出する。このように、重み算出部104は、メインオブジェクトに対応する単語WAの重みを強調する。
【0032】
クエリヒートマップ算出部105は、単語ヒートマップと重みとに基づいて、クエリヒートマップを算出する。クエリヒートマップは、画像に含まれる各部分領域と、クエリとが関連する度合いを示す情報に相当する。例えばクエリヒートマップ算出部105は、重みを用いた単語ヒートマップの重み付け和によりクエリヒートマップを算出する。
【0033】
以下の(1)式は、クエリヒートマップHeatmap(q)の算出例を示す。なおqはクエリを表す。Heatmap(w)は、単語wについての単語ヒートマップを表す。和(Σ)は、すべての単語wについての和を求めることを意味する。
Heatmap(q)=Σ(m(w)×Heatmap(w))・・・(1)
【0034】
上記のように、メインオブジェクトに対応する単語の重みの値が大きく算出される。このため、クエリヒートマップは、メインオブジェクトに関連する部分領域が強調されるように算出される。この結果、メインオブジェクトがより検出されやすくなる。
【0035】
検出部106は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、入力された画像から検出する。例えば検出部106は、まず、画像から、1つ以上の物体に対応する1つ以上の画像領域の候補を検出する。画像領域の候補を検出する方法としては、例えば、Region Proposal Networksを用いた方法(非特許文献3)などを適用することができる。
【0036】
検出部106は、1つ以上の画像領域の候補のうち、クエリに関連する度合いが大きいことがクエリヒートマップにより示される部分領域(例えば画素)を含む候補を、クエリに関連する物体に対応する画像領域として検出する。例えば検出部106は、画像領域の候補のうち、クエリヒートマップのピークに最も適合する候補を検出する。
【0037】
画像領域の検出方法は上記に限られず、クエリヒートマップを用いた方法であればどのような方法であってもよい。例えば検出部106は、クエリヒートマップを入力して画像領域を出力するように学習されたモデルを用いて画像領域を検出してもよい。
【0038】
出力制御部107は、画像処理装置100で用いられる各種情報の出力を制御する。例えば出力制御部107は、検出部106により検出された画像領域を、ディスプレイ122に出力(表示)する。
【0039】
出力する画像領域は、メインオブジェクトに対応する画像領域のみであってもよいが、さらにサブオブジェクトに対応する画像領域を出力可能としてもよい。
【0040】
この場合、重み算出部104は、単語WAおよび単語WBそれぞれの重みが相互に異なる複数のパターンで重みを算出する。以下に2つのパターンを用いる例を示す。
・パターンP1:単語WAの重みm(w)=α(α>1)、単語WBの重みm(w)=1
・パターンP2:単語WBの重みm(w)=α(α>1)、単語WAの重みm(w)=1
【0041】
クエリヒートマップ算出部105は、複数のパターンそれぞれに対応する複数のクエリヒートマップを算出する。検出部106は、複数のクエリヒートマップそれぞれに対応する複数の画像領域を検出する。出力制御部107は、このようにして検出された、複数のパターンそれぞれに対応する複数の画像領域を出力する。出力制御部107は、複数の画像領域を相互の異なる態様で出力してもよい。例えば、出力制御部107は、メインオブジェクトに対応する画像領域を囲む矩形と、サブオブジェクトに対応する画像領域を囲む矩形と、を異なる色で表示する。出力の態様は色に限られず、線の太さ、説明文、および、矩形の点滅方法などの、他のどのような態様であってもよい。
【0042】
上記各部(画像受付部101、クエリ受付部102、単語ヒートマップ算出部103、重み算出部104、クエリヒートマップ算出部105、検出部106、および、出力制御部107)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2つ以上を実現してもよい。
【0043】
次に、本実施形態にかかる画像処理装置100による画像処理について説明する。図6は、本実施形態における画像処理の一例を示すフローチャートである。
【0044】
画像受付部101は、画像の入力を受け付け、クエリ受付部102は、クエリの入力を受け付ける(ステップS101)。単語ヒートマップ算出部103は、クエリに含まれる単語それぞれについて、入力された画像を用いて単語ヒートマップを算出する(ステップS102)。
【0045】
重み算出部104は、クエリに含まれる単語それぞれについて重みを算出する(ステップS103)。クエリヒートマップ算出部105は、単語ヒートマップと、対応する重みと、を用いた重み付け和により、クエリヒートマップを算出する(ステップS104)。
【0046】
検出部106は、入力された画像から、クエリヒートマップのピークに対応する画像領域を検出する(ステップS105)。出力制御部107は、検出された画像領域を例えばディスプレイ122に出力し(ステップS106)、画像処理を終了する。
【0047】
図7は、出力制御部107による出力例を示す図である。図7は、画像701と、「suitcase with cat on it」というクエリ702と、が入力される場合の出力例を示す。なお、「suitcase」が、クエリ702で検索されるべき対象物体(メインオブジェクト)に対応する単語であり、「cat」が、対象物体以外の物体(サブオブジェクト)に対応する単語である。
【0048】
矢印の左は、本実施形態の手法を用いず(単語の重みを用いず)に算出されるクエリヒートマップを用いた出力例を表す。この場合、クエリヒートマップのピークが、猫の頭部付近に存在するため、猫を囲む矩形712が、検出された画像領域として出力される。なお矩形711は、本来出力されるべき、メインオブジェクト(「suitcase」)に対応する画像領域に相当する。
【0049】
矢印の右は、本実施形態の手法により、単語の重みを用いて算出されるクエリヒートマップを用いた出力例を表す。本実施形態によれば、メインオブジェクトに対応する単語「suitcase」の重みが大きく算出され、その結果、クエリヒートマップのピークが、スーツケースの角部付近に存在する。このため、メインオブジェクト(「suitcase」)に対応する画像領域を示す矩形721を正しく検出することができる。
【0050】
このように、本実施形態の画像処理装置は、単語の依存関係を解析して各単語の重みを算出し、単語ヒートマップの重み付け和としてクエリヒートマップを算出する。このようにして算出されたクエリヒートマップを用いることにより、画像から物体に対応する領域をより高精度に検出可能となる。
【0051】
次に、実施形態にかかる画像処理装置のハードウェア構成について図8を用いて説明する。図8は、実施形態にかかる画像処理装置のハードウェア構成例を示す説明図である。
【0052】
実施形態にかかる画像処理装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
【0053】
画像処理装置は、物理的に1つのハードウェア(パーソナルコンピュータ、サーバなど)により構成されてもよいし、物理的に2つ以上のハードウェアを組み合わせて構成されてもよい。画像処理装置は、クラウド環境上のサーバなどとして構築されてもよい。
【0054】
実施形態にかかる画像処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
【0055】
実施形態にかかる画像処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0056】
さらに、実施形態にかかる画像処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる画像処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0057】
実施形態にかかる画像処理装置で実行されるプログラムは、コンピュータを上述した画像処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0058】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0059】
100 画像処理装置
101 画像受付部
102 クエリ受付部
103 単語ヒートマップ算出部
104 重み算出部
105 クエリヒートマップ算出部
106 検出部
107 出力制御部
121 記憶部
122 ディスプレイ
図1
図2
図3
図4
図5
図6
図7
図8