2023-179247 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-179247画像処理装置、画像処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023179247

(43)【公開日】2023-12-19

(54)【発明の名称】画像処理装置、画像処理方法およびプログラム

(51)【国際特許分類】

G06F 16/53 20190101AFI20231212BHJP

G06T 7/00 20170101ALI20231212BHJP

【ＦＩ】

G06F16/53

G06T7/00 350B

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022092449

(22)【出願日】2022-06-07

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】ファンヴェトクォク

【テーマコード（参考）】

5B175

5L096

【Ｆターム（参考）】

5B175DA02

5B175KA12

5L096AA06

5L096DA01

5L096DA02

5L096EA39

5L096FA02

5L096FA16

5L096FA18

5L096FA74

5L096HA11

5L096KA04

(57)【要約】

【課題】画像から物体に対応する領域をより高精度に検出する。
【解決手段】画像処理装置は、画像受付部とクエリ受付部と単語ヒートマップ算出部と重み算出部とクエリヒートマップ算出部と検出部と出力制御部とを備える。画像受付部は、画像の入力を受け付ける。クエリ受付部は、１つ以上の単語を含むクエリの入力を受け付ける。単語ヒートマップ算出部は、単語ごとに、画像に含まれる各部分領域と単語とが関連する度合いを示す単語ヒートマップを算出する。重み算出部は、単語それぞれの重みを算出する。クエリヒートマップ算出部は、単語ヒートマップと重みとに基づいて、画像に含まれる各部分領域とクエリとが関連する度合いを示すクエリヒートマップを算出する。検出部は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、画像から検出する。出力制御部は、画像領域を出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

画像の入力を受け付ける画像受付部と、
１つ以上の単語を含むクエリの入力を受け付けるクエリ受付部と、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出部と、
前記単語それぞれの重みを算出する重み算出部と、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出部と、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出部と、
前記画像領域を出力する出力制御部と、
を備える画像処理装置。

【請求項2】

前記クエリは複数の単語を含み、
前記重み算出部は、前記クエリ内の予め定められた特定単語を検出し、前記クエリ内で前記特定単語の前に出現する１つ以上の第１単語と、前記クエリ内で前記特定単語の後に出現する１つ以上の第２単語との間で異なる重みを算出する、
請求項１に記載の画像処理装置。

【請求項3】

前記重み算出部は、前記第１単語の重みを前記第２単語の重みより大きく算出する、
請求項２に記載の画像処理装置。

【請求項4】

前記クエリは複数の単語を含み、
前記重み算出部は、依存構造解析に基づいて、前記クエリに含まれる複数の単語間の依存構造を表す木構造で求め、前記木構造のルートに対応する単語に関連する第１単語と、前記第１単語以外の第２単語との間で異なる重みを算出する、
請求項１に記載の画像処理装置。

【請求項5】

前記重み算出部は、前記第１単語の重みを前記第２単語の重みより大きく算出する、
請求項４に記載の画像処理装置。

【請求項6】

前記クエリヒートマップ算出部は、前記重みを用いた前記単語ヒートマップの重み付け和により前記クエリヒートマップを算出する、
請求項１に記載の画像処理装置。

【請求項7】

前記検出部は、前記画像から、１つ以上の物体に対応する１つ以上の画像領域の候補を検出し、１つ以上の画像領域の候補のうち、前記クエリに関連する度合いが大きいことが前記クエリヒートマップにより示される前記部分領域を含む候補を、前記クエリに関連する物体に対応する画像領域として検出する、
請求項１に記載の画像処理装置。

【請求項8】

前記検出部は、前記クエリヒートマップを入力して前記クエリに関連する物体に対応する前記画像領域を出力するように学習されたモデルを用いて、前記画像領域を検出する、
請求項１に記載の画像処理装置。

【請求項9】

前記重み算出部は、前記単語それぞれの重みが相互に異なる複数のパターンで前記重みを算出し、
前記クエリヒートマップ算出部は、複数の前記パターンそれぞれに対応する複数の前記クエリヒートマップを算出し、
前記検出部は、複数の前記クエリヒートマップそれぞれに対応する複数の前記画像領域を検出し、
前記出力制御部は、複数の前記画像領域を出力する、
請求項１に記載の画像処理装置。

【請求項10】

画像処理装置で実行される画像処理方法であって、
画像の入力を受け付ける画像受付ステップと、
１つ以上の単語を含むクエリの入力を受け付けるクエリ受付ステップと、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出ステップと、
前記単語それぞれの重みを算出する重み算出ステップと、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出ステップと、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出ステップと、
前記画像領域を出力する出力制御ステップと、
を含む画像処理方法。

【請求項11】

コンピュータに、
画像の入力を受け付ける画像受付ステップと、
１つ以上の単語を含むクエリの入力を受け付けるクエリ受付ステップと、
前記単語ごとに、前記画像に含まれる各部分領域と前記単語とが関連する度合いを示す単語ヒートマップを算出する単語ヒートマップ算出ステップと、
前記単語それぞれの重みを算出する重み算出ステップと、
前記単語ヒートマップと前記重みとに基づいて、前記画像に含まれる各部分領域と前記クエリとが関連する度合いを示すクエリヒートマップを算出するクエリヒートマップ算出ステップと、
前記クエリヒートマップに基づいて、前記クエリに関連する物体に対応する画像領域を、前記画像から検出する検出ステップと、
前記画像領域を出力する出力制御ステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、画像処理装置、画像処理方法およびプログラムに関する。

【背景技術】

【0002】

入力された画像から、検索条件として入力されたテキスト（クエリ）に適合する物体の画像領域を検出する技術が知られている。例えば、弱教師付きＶｉｓｕａｌＧｒｏｕｎｄｉｎｇ（ＶＧ）と呼ばれる技術では、物体の画像領域に相当する矩形の教示を必要としない学習モデルを用いて、ある画像とクエリが提示されたときにクエリに対応した画像領域（矩形）が検出される。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Li et al. “Align before Fuse: Vision and Language Representation Learning with Momentum Distillation”, NeurIPS 2021.

【非特許文献2】Selvaraju et.al., “Grad-cam: Visual explanations from deep networks via gradient-based localization”, ICCV, pp. 618-626 2017.

【非特許文献3】Ren et.al., "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149, 1 June 2017.

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明は、画像から物体に対応する領域をより高精度に検出できる画像処理装置、画像処理方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0005】

実施形態の画像処理装置は、画像受付部とクエリ受付部と単語ヒートマップ算出部と重み算出部とクエリヒートマップ算出部と検出部と出力制御部とを備える。画像受付部は、画像の入力を受け付ける。クエリ受付部は、１つ以上の単語を含むクエリの入力を受け付ける。単語ヒートマップ算出部は、単語ごとに、画像に含まれる各部分領域と単語とが関連する度合いを示す単語ヒートマップを算出する。重み算出部は、単語それぞれの重みを算出する。クエリヒートマップ算出部は、単語ヒートマップと重みとに基づいて、画像に含まれる各部分領域とクエリとが関連する度合いを示すクエリヒートマップを算出する。検出部は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、画像から検出する。出力制御部は、画像領域を出力する。

【図面の簡単な説明】

【0006】

【図1】実施形態にかかる画像処理装置のブロック図。

【図2】画像処理装置による処理の概要を示す図。

【図3】モデルを学習する処理の例を示す図。

【図4】単語ヒートマップの例を示す図。

【図5】依存構造解析の結果の例を示す図。

【図6】実施形態における画像処理のフローチャート。

【図7】出力制御部による出力例を示す図。

【図8】実施形態にかかる画像処理装置のハードウェア構成図。

【発明を実施するための形態】

【0007】

以下に添付図面を参照して、この発明にかかる画像処理装置の好適な実施形態を詳細に説明する。

【0008】

弱教師付きＶＧは、例えば、以下のような手順で実行することができる。
・事前に学習したテキスト・画像マッチングモデル（弱教師付きＶＧによるＶＧモデルなど）を用いて、クエリに含まれる単語それぞれについて単語ヒートマップを算出する。単語ヒートマップは、画像に含まれる部分領域（例えば１つ以上の画素）と、単語とが関連する度合い（関連性）を示す情報である。
・各単語の単語ヒートマップを足し合わせてクエリ全体についてのヒートマップ（クエリヒートマップ）を算出する。
・画像から、物体に対応する画像領域の候補を検出する。
・検出した候補の中から、クエリヒートマップのピークに適合する候補を特定し、特定した候補を物体に対応する画像領域として出力する。

【0009】

上記の手順では、クエリに含まれるすべての単語が同等に扱われる。すなわち、本来、クエリで検索されるべき対象物体（メインオブジェクト）に対応する単語と、対象物体以外の物体（サブオブジェクト）に対応する単語と、が区別されていない。このため、サブオブジェクトが誤って検出される場合がある。

【0010】

以下の実施形態では、単語の依存関係を解析することにより、メインオブジェクトに対応する単語と、サブオブジェクトに対応する単語と、を区別可能とする。そして、区別した単語間で相互に異なる重みを割り当てる。さらに、クエリヒートマップを単語ヒートマップの重み付け和として再定義する。例えば、単語間の関係を考慮して、メインオブジェクトに対応する単語に対する単語ヒートマップの重みを強調（大きく）する。これにより、メインオブジェクトをより検出しやすくすることができる。すなわち、弱教師付きＶＧなどによる、画像からの物体に対応する領域の検出をより高精度に実行可能となる。

【0011】

図１は、本実施形態にかかる画像処理装置１００の構成の一例を示すブロック図である。図１に示すように、画像処理装置１００は、画像受付部１０１と、クエリ受付部１０２と、単語ヒートマップ算出部１０３と、重み算出部１０４と、クエリヒートマップ算出部１０５と、検出部１０６と、出力制御部１０７と、記憶部１２１と、ディスプレイ１２２と、を備えている。

【0012】

画像処理装置１００は、上記各部を用いて、入力された画像から、入力されたクエリに適合する画像領域（矩形）を検出して出力する。図２は、画像処理装置１００による処理の概要を示す図である。

【0013】

画像処理装置１００は、画像２０１およびクエリ２０２が入力される。図２では色が示されていないが、画像２０１は、例えば、青いジャケットを着た女性が右側に位置し、青以外の服を着た人物が左側に位置する画像であるものとする。画像処理装置１００は、クエリ２０２である「woman in blue jacket」に適合する画像領域２１２を検出し、画像２１１と併せて例えばディスプレイ１２２に表示する。

【0014】

以下、図１を用いて、上記各部の詳細について説明する。記憶部１２１は、画像処理装置１００で用いられる各種情報を記憶する。例えば記憶部１２１は、入力された画像、入力されたクエリ、および、ヒートマップの算出に用いられるモデルなどを記憶する。

【0015】

記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0016】

ここで、本実施形態で用いることができるモデルの例について説明する。図３は、モデルを学習する処理の例を示す図である。処理３０１は、教師付きＶＧによるＶＧモデルの学習処理の例を示す。処理３０２は、弱教師付きＶＧによるＶＧモデルの学習処理の例を示す。

【0017】

いずれの処理も、犬を含む画像と、「jumping dog」を表すクエリと、を用いてＶＧモデルが学習される。教師付きＶＧでは、画像内に矩形３１１が指定されるが、教師付きＶＧでは、矩形の教示は必要とされない。弱教師付きＶＧでは、矩形の教示がないため、クエリから画像領域への直接的なマッピングを学習できない。その代わりに、ヒートマップを用いて間接的に対象の矩形が推定される。

【0018】

図１に戻り、ディスプレイ１２２は、画像処理装置１００で用いられる各種情報を表示するための表示装置である。ディスプレイ１２２は、例えば液晶ディスプレイ、および、タッチパネルなどにより実現される。

【0019】

画像受付部１０１は、画像の入力を受け付ける。画像の入力方法は、どのような方法であってもよいが、例えば、外部の装置からネットワークを介して受信する方法、および、記憶部１２１などの記憶媒体に記憶された画像のうち指定された画像を読み出す方法などを用いることができる。

【0020】

クエリ受付部１０２は、１つ以上の単語を含むクエリの入力を受け付ける。クエリの入力方法は、どのような方法であってもよいが、例えば、外部の装置からネットワークを介して受信する方法、および、キーボードなどの入力装置を用いてユーザにより入力されたクエリのテキストを受け付ける方法などを用いることができる。

【0021】

単語ヒートマップ算出部１０３は、例えば事前に学習され、記憶部１２１に記憶されたＶＧモデルを用いて、クエリに含まれる単語ごとに単語ヒートマップを算出する。クエリに含まれる単語は、例えば形態素解析などの技術により抽出することができる。単語ヒートマップはどのような方法で算出されてもよいが、例えば、ＧｒａｄＣＡＭ（Gradient-weighted Class Activation Mapping、非特許文献２）を用いることができる。

【0022】

図４は、算出される単語ヒートマップの例を示す図である。図４は、例えば「the woman is working on her computer at the desk」というクエリに含まれる一部の単語（woman、working、computer、desk）に対して算出される単語ヒートマップの例を示す。なお図４では、部分領域と単語とが関連する度合いを黒いドットの密度で表すヒートマップの例を示している。関連する度合いは、色の違いなどにより表されてもよい。

【0023】

画像４０１～４０４は、それぞれ「woman」、「working」、「computer」、「desk」に対して算出される単語ヒートマップを重畳させた画像の例である。画像４０１～４０４は、ピーク部４１１～４１４を有する単語ヒートマップを含む。ピーク部は、単語に対して関連する度合いが最大となる領域を含む部分である。例えば画像４０１では、「woman」に関連する領域である人物の顔の近傍領域にピーク部４１１が存在する。

【0024】

図１に戻り、重み算出部１０４は、クエリに含まれる単語それぞれの重みを算出する。まず重み算出部１０４は、例えば以下の２つの抽出方法のいずれかにより、クエリの中から、メインオブジェクト対応する１つ以上の単語ＷＡ（第１単語）、および、サブオブジェクトに対応する１つ以上の単語ＷＢ（第２単語）を抽出する。

【0025】

（抽出方法Ｍ１）
重み算出部１０４は、メインオブジェクトとサブオブジェクトとを接続する単語として予め定められた特定単語を、クエリの中から検索する。特定単語は、「in」、「holding」、「carry」、「with」、「on」、「by」、「near」のように、例えば前置詞などを含む。クエリに複数の特定単語が含まれる場合は、重み算出部１０４は、複数の特定単語のうちいずれか１つ（例えば最初に出現する特定単語）を検索する。

【0026】

重み算出部１０４は、クエリ内で特定単語の前に出現する１つ以上の単語、および、特定単語の後に出現する１つ以上の単語を、それぞれ単語ＷＡおよび単語ＷＢとして抽出する。

【0027】

（抽出方法Ｍ２）
重み算出部１０４は、依存構造解析に基づいて、クエリに含まれる複数の単語間の依存構造を表す木構造で求める。重み算出部１０４は、木構造のルートに対応する単語、および、この単語に関連する単語を単語ＷＡとして抽出し、単語ＷＡ以外の単語を単語ＷＢとして抽出する。

【0028】

例えば重み算出部１０４は、オープンソースとして適用される自然言語処理ライブラリであるｓｐａＣｙの依存関係解析を用いて、クエリからメインオブジェクトに関連する単語（単語ＷＡ）を検出する。メインオブジェクトに関連する単語は、木構造のルートに対応する単語のみでなく、例えば当該単語を修飾する単語を含みうる。

【0029】

なお、文章における依存関係とは、単語および文節間の依存関係のことである。依存関係とは、修飾／被修飾関係および係り受け関係のことである。文章の依存関係を解析することは依存構造解析と呼ばれる。依存構造は、木構造で表現されることが多い。この木構造は、単語および文節をノードとして持っている。文節および単語は、修飾／被修飾の親子関係で表現される。

【0030】

図５は、依存構造解析の結果の例を示す図である。図５は、「suitcase with cat on it」というクエリに対する依存構造解析の結果の例である。この例では、「suitcase」がルートに対応する単語であり、単語ＷＡとして抽出される。例えば「white suitcase」などのように、「suitcase」を修飾する単語がクエリに含まれる場合は、この単語も単語ＷＡとして抽出される。単語ＷＡ以外の単語が担当ＷＢとして抽出される。

【0031】

図１に戻り、重み算出部１０４は、単語ＷＡと単語ＷＢとの間で異なる重みを算出する。例えば重み算出部１０４は、抽出方法Ｍ１または抽出方法Ｍ２により算出された単語ＷＡの重みを単語ＷＢの重みより大きくするように、各単語の重みを算出する。例えば重み算出部１０４は、すべての単語ＷＡに対して重みｍ（ｗ）＝α（α＞１）を算出し、単語ＷＢに対して重みｍ（ｗ）＝１を算出する。このように、重み算出部１０４は、メインオブジェクトに対応する単語ＷＡの重みを強調する。

【0032】

クエリヒートマップ算出部１０５は、単語ヒートマップと重みとに基づいて、クエリヒートマップを算出する。クエリヒートマップは、画像に含まれる各部分領域と、クエリとが関連する度合いを示す情報に相当する。例えばクエリヒートマップ算出部１０５は、重みを用いた単語ヒートマップの重み付け和によりクエリヒートマップを算出する。

【0033】

以下の（１）式は、クエリヒートマップＨｅａｔｍａｐ（ｑ）の算出例を示す。なおｑはクエリを表す。Ｈｅａｔｍａｐ（ｗ）は、単語ｗについての単語ヒートマップを表す。和（Σ）は、すべての単語ｗについての和を求めることを意味する。
Ｈｅａｔｍａｐ（ｑ）＝Σ（ｍ（ｗ）×Ｈｅａｔｍａｐ（ｗ））・・・（１）

【0034】

上記のように、メインオブジェクトに対応する単語の重みの値が大きく算出される。このため、クエリヒートマップは、メインオブジェクトに関連する部分領域が強調されるように算出される。この結果、メインオブジェクトがより検出されやすくなる。

【0035】

検出部１０６は、クエリヒートマップに基づいて、クエリに関連する物体に対応する画像領域を、入力された画像から検出する。例えば検出部１０６は、まず、画像から、１つ以上の物体に対応する１つ以上の画像領域の候補を検出する。画像領域の候補を検出する方法としては、例えば、ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓを用いた方法（非特許文献３）などを適用することができる。

【0036】

検出部１０６は、１つ以上の画像領域の候補のうち、クエリに関連する度合いが大きいことがクエリヒートマップにより示される部分領域（例えば画素）を含む候補を、クエリに関連する物体に対応する画像領域として検出する。例えば検出部１０６は、画像領域の候補のうち、クエリヒートマップのピークに最も適合する候補を検出する。

【0037】

画像領域の検出方法は上記に限られず、クエリヒートマップを用いた方法であればどのような方法であってもよい。例えば検出部１０６は、クエリヒートマップを入力して画像領域を出力するように学習されたモデルを用いて画像領域を検出してもよい。

【0038】

出力制御部１０７は、画像処理装置１００で用いられる各種情報の出力を制御する。例えば出力制御部１０７は、検出部１０６により検出された画像領域を、ディスプレイ１２２に出力（表示）する。

【0039】

出力する画像領域は、メインオブジェクトに対応する画像領域のみであってもよいが、さらにサブオブジェクトに対応する画像領域を出力可能としてもよい。

【0040】

この場合、重み算出部１０４は、単語ＷＡおよび単語ＷＢそれぞれの重みが相互に異なる複数のパターンで重みを算出する。以下に２つのパターンを用いる例を示す。
・パターンＰ１：単語ＷＡの重みｍ（ｗ）＝α（α＞１）、単語ＷＢの重みｍ（ｗ）＝１
・パターンＰ２：単語ＷＢの重みｍ（ｗ）＝α（α＞１）、単語ＷＡの重みｍ（ｗ）＝１

【0041】

クエリヒートマップ算出部１０５は、複数のパターンそれぞれに対応する複数のクエリヒートマップを算出する。検出部１０６は、複数のクエリヒートマップそれぞれに対応する複数の画像領域を検出する。出力制御部１０７は、このようにして検出された、複数のパターンそれぞれに対応する複数の画像領域を出力する。出力制御部１０７は、複数の画像領域を相互の異なる態様で出力してもよい。例えば、出力制御部１０７は、メインオブジェクトに対応する画像領域を囲む矩形と、サブオブジェクトに対応する画像領域を囲む矩形と、を異なる色で表示する。出力の態様は色に限られず、線の太さ、説明文、および、矩形の点滅方法などの、他のどのような態様であってもよい。

【0042】

上記各部（画像受付部１０１、クエリ受付部１０２、単語ヒートマップ算出部１０３、重み算出部１０４、クエリヒートマップ算出部１０５、検出部１０６、および、出力制御部１０７）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

【0043】

次に、本実施形態にかかる画像処理装置１００による画像処理について説明する。図６は、本実施形態における画像処理の一例を示すフローチャートである。

【0044】

画像受付部１０１は、画像の入力を受け付け、クエリ受付部１０２は、クエリの入力を受け付ける（ステップＳ１０１）。単語ヒートマップ算出部１０３は、クエリに含まれる単語それぞれについて、入力された画像を用いて単語ヒートマップを算出する（ステップＳ１０２）。

【0045】

重み算出部１０４は、クエリに含まれる単語それぞれについて重みを算出する（ステップＳ１０３）。クエリヒートマップ算出部１０５は、単語ヒートマップと、対応する重みと、を用いた重み付け和により、クエリヒートマップを算出する（ステップＳ１０４）。

【0046】

検出部１０６は、入力された画像から、クエリヒートマップのピークに対応する画像領域を検出する（ステップＳ１０５）。出力制御部１０７は、検出された画像領域を例えばディスプレイ１２２に出力し（ステップＳ１０６）、画像処理を終了する。

【0047】

図７は、出力制御部１０７による出力例を示す図である。図７は、画像７０１と、「suitcase with cat on it」というクエリ７０２と、が入力される場合の出力例を示す。なお、「suitcase」が、クエリ７０２で検索されるべき対象物体（メインオブジェクト）に対応する単語であり、「cat」が、対象物体以外の物体（サブオブジェクト）に対応する単語である。

【0048】

矢印の左は、本実施形態の手法を用いず（単語の重みを用いず）に算出されるクエリヒートマップを用いた出力例を表す。この場合、クエリヒートマップのピークが、猫の頭部付近に存在するため、猫を囲む矩形７１２が、検出された画像領域として出力される。なお矩形７１１は、本来出力されるべき、メインオブジェクト（「suitcase」）に対応する画像領域に相当する。

【0049】

矢印の右は、本実施形態の手法により、単語の重みを用いて算出されるクエリヒートマップを用いた出力例を表す。本実施形態によれば、メインオブジェクトに対応する単語「suitcase」の重みが大きく算出され、その結果、クエリヒートマップのピークが、スーツケースの角部付近に存在する。このため、メインオブジェクト（「suitcase」）に対応する画像領域を示す矩形７２１を正しく検出することができる。

【0050】

このように、本実施形態の画像処理装置は、単語の依存関係を解析して各単語の重みを算出し、単語ヒートマップの重み付け和としてクエリヒートマップを算出する。このようにして算出されたクエリヒートマップを用いることにより、画像から物体に対応する領域をより高精度に検出可能となる。

【0051】

次に、実施形態にかかる画像処理装置のハードウェア構成について図８を用いて説明する。図８は、実施形態にかかる画像処理装置のハードウェア構成例を示す説明図である。

【0052】

実施形態にかかる画像処理装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0053】

画像処理装置は、物理的に１つのハードウェア（パーソナルコンピュータ、サーバなど）により構成されてもよいし、物理的に２つ以上のハードウェアを組み合わせて構成されてもよい。画像処理装置は、クラウド環境上のサーバなどとして構築されてもよい。

【0054】

実施形態にかかる画像処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0055】

実施形態にかかる画像処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0056】

さらに、実施形態にかかる画像処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる画像処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0057】

実施形態にかかる画像処理装置で実行されるプログラムは、コンピュータを上述した画像処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0058】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0059】

１００画像処理装置
１０１画像受付部
１０２クエリ受付部
１０３単語ヒートマップ算出部
１０４重み算出部
１０５クエリヒートマップ算出部
１０６検出部
１０７出力制御部
１２１記憶部
１２２ディスプレイ

【図1】