(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-21
(45)【発行日】2022-07-29
(54)【発明の名称】識別装置、識別方法及び識別プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220722BHJP
【FI】
G06T7/00 300F
(21)【出願番号】P 2019169863
(22)【出願日】2019-09-18
【審査請求日】2021-09-16
【早期審査対象出願】
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】岩崎 雅二郎
(72)【発明者】
【氏名】西村 修平
(72)【発明者】
【氏名】田口 拓明
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2019-087200(JP,A)
【文献】特開2015-057730(JP,A)
【文献】特許第6562492(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定部と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出部と、
前記識別領域に基づいて、
前記識別領域に含まれる撮影対象を識別する識別部と
を有することを特徴とする識別装置。
【請求項2】
前記抽出部は、
前記対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出する
ことを特徴とする請求項
1に記載の識別装置。
【請求項3】
前記抽出部は、
前記対象領域ごとに、重畳した他の対象領域の数に1を合計した値を、前記抽出画像の数で除算したスコアを算出する
ことを特徴とする請求項
2に記載の識別装置。
【請求項4】
前記抽出部は、
前記対象領域ごとに、当該対象領域と重畳する他の対象領域の数に1を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出する
ことを特徴とする請求項
2に記載の識別装置。
【請求項5】
前記抽出部は、
前記対象領域ごとに、当該対象領域に含まれる画素数が多い程より高い値のスコアを算出する
ことを特徴とする請求項
2~
4のうちいずれか1つに記載の識別装置。
【請求項6】
前記特定部は、
前記対象領域に含まれる撮影対象の種別をさらに特定し、
前記識別部は、
同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項1~
5のうちいずれか1つに記載の識別装置。
【請求項7】
前記特定部は、
前記対象領域に含まれる撮影対象の種別をさらに特定し、
前記識別部は、
重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別する
ことを特徴とする請求項1~
5のうちいずれか1つに記載の識別装置。
【請求項8】
前記識別部は、
同一の撮影対象が撮影された領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項1~
7のうちいずれか1つに記載の識別装置。
【請求項9】
前記識別部は、
前記複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項
8に記載の識別装置。
【請求項10】
前記識別部は、
前記複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項
8または
9に記載の識別装置。
【請求項11】
前記特定部は、
動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する
ことを特徴とする請求項1~
10のうちいずれか1つに記載の識別装置。
【請求項12】
識別装置が実行する識別方法であって、
動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定工程と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出工程と、
前記識別領域に基づいて、
前記識別領域に含まれる撮影対象を識別する識別工程と
を含むことを特徴とする識別方法。
【請求項13】
動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定手順と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出手順と、
前記識別領域に基づいて、
前記識別領域に含まれる撮影対象を識別する識別手順と
をコンピュータに実行させることを特徴とする識別プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、識別装置、識別方法及び識別プログラムに関する。
【背景技術】
【0002】
従来、クエリ画像と類似する画像を検索する技術が知られている。このような技術の一例として、端末装置が撮影した画像をクエリ画像として受信すると、クエリ画像に類似する画像を検索し、検索結果の画像が示す取引対象の情報を提供する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した技術では、検索精度を向上させる余地がある。
【0005】
例えば、上述した技術では、利用者が検索対象としたい物体が他の物体に隠れている場合や、撮影した画像の明度が低い場合等、端末装置が撮影した画像の撮影条件が好ましくない場合は、撮影した画像をクエリ画像とする類似画像検索を精度良く行うことができなくなる。この結果、上述した技術では、利用者が所望する物体と関連する取引対象の情報を適切に提供することができない恐れがある。
【0006】
本願は、上記に鑑みてなされたものであって、画像を用いた検索の検索精度を向上させることを目的とする。
【課題を解決するための手段】
【0007】
本願にかかる識別装置は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定部と、前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する識別部とを有することを特徴とする。
【発明の効果】
【0008】
実施形態の一態様によれば、画像を用いた検索の検索精度を向上させることができるといった効果を奏する。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態に係る識別処理の一例を示す図である。
【
図2】
図2は、実施形態に係るスコアの付与処理の一例を示す図である。
【
図3】
図3は、実施形態に係る情報提供システムの構成例を示す図である。
【
図4】
図4は、実施形態に係る情報提供装置の構成例を示す図である。
【
図5】
図5は、実施形態に係る画像データベースの一例を示す図である。
【
図6】
図6は、実施形態に係る識別処理の手順の一例を示すフローチャートである。
【
図7】
図7は、情報提供装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本願に係る識別装置、識別方法及び識別プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ説明する。なお、この実施形態により本願に係る識別装置、識別方法及び識別プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
〔1.実施形態〕
図1を用いて、本実施形態の識別装置等により実現される識別処理を説明する。
図1は、実施形態に係る識別処理の一例を示す図である。なお、
図1では、本願に係る識別装置の一例である情報提供装置10によって、実施形態に係る識別処理などが実現されるものとする。
【0012】
図1の説明に先立って、
図3を用いて、実施形態に係る情報提供システム1について説明する。
図3は、実施形態に係る情報提供システムの構成例を示す図である。
図3に示すように、実施形態に係る情報提供システム1は、情報提供装置10と、端末装置100とを含む。情報提供装置10及び端末装置100は、ネットワークNを介して有線または無線により相互に通信可能に接続される。ネットワークNは、例えば、インターネットなどのWAN(Wide Area Network)である。なお、
図3に示した情報提供システム1には、複数台の情報提供装置10及び複数台の端末装置100が含まれていてもよい。
【0013】
情報提供装置10は、端末装置100が撮影した動画像に含まれる撮影対象の識別結果を提供する情報処理装置である。例えば、情報提供装置10は、各種の画像認識技術を用いて、動画像から抽出した画像である抽出画像に含まれる撮影対象を識別する。なお、情報提供装置10は、画像認識に関するアプリケーションのデータそのものを配信するサーバであってもよい。また、情報提供装置10は、端末装置100に制御情報を配信する配信装置として機能してもよい。ここで、制御情報は、例えば、JavaScript(登録商標)等のスクリプト言語やCSS(Cascading Style Sheets)等のスタイルシート言語により記述される。なお、情報提供装置10から配信される画像認識に関するアプリケーションそのものを制御情報とみなしてもよい。
【0014】
端末装置100は、利用者によって利用される情報処理装置である。端末装置100は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。また、端末装置100は、端末装置100が備える撮像部により撮像した動画像)を情報提供装置10に送信する。また、端末装置100は、情報提供装置10によって提供される情報の表示処理を実現する制御情報を情報提供装置10から受け取った場合には、制御情報に従って表示処理を実現する。なお、
図1に示す例において、端末装置100は、利用者によって利用されるスマートフォンやタブレット等のスマートデバイスである場合を示す。
【0015】
以下、
図1を用いて、情報提供装置10が行う識別処理について説明する。なお、以下の説明では、端末装置100が利用者Uにより利用される例を示す。また、以下の説明では、端末装置100を利用者Uと同一視する場合がある。すなわち、以下では、利用者Uを端末装置100と読み替えることもできる。
【0016】
まず、端末装置100は、利用者Uの操作に応じて、動画像を撮影する(ステップS1)。なお、
図1の例において、利用者Uは、撮影位置を移動しながら、物体M1及びM2を撮影対象として動画像を所定時間(例えば、1秒、3秒)以上撮影したものとする。
【0017】
続いて、情報提供装置10は、端末装置100が撮影した動画像を取得する(ステップS2)。続いて、情報提供装置10は、動画像から抽出した抽出画像から、撮影対象が含まれる領域である対象領域を特定する(ステップS3)。例えば、
図1の例において、情報提供装置10は、ステップS2において取得した動画像から、時系列が連続する抽出画像P1~P4を抽出する。そして、情報提供装置10は、各抽出画像の中から物体M1、若しくは、物体M2が含まれる対象領域を、各種の画像認識技術を用いて特定する。
【0018】
具体的な例を挙げると、情報提供装置10は、各抽出画像の中から複数の特徴点を特定し、特定した特徴点から所定の範囲に含まれる画素の特徴を選択した特徴点の特徴量として算出する。そして、情報提供装置10は、算出した特徴量に基づき、物体M1、若しくは、物体M2が含まれる対象領域を各抽出画像から特定する。
【0019】
ここで、
図1に示す画像AI1~AI4は、それぞれ抽出画像P1~P4に対応し、情報提供装置10が各抽出画像から特定したものを模式的に示す図である。
図1の例において、情報提供装置10は、抽出画像P1から物体M1が含まれる対象領域A1-1、並びに、物体M2が含まれる対象領域A2-1を特定したものとする。また、情報提供装置10は、抽出画像P2から物体M2が含まれる対象領域A2-2を特定した一方で、物体M1が含まれる対象領域を特定できなかったものとする。また、情報提供装置10は、抽出画像P3から物体M1が含まれる対象領域A1-2を特定した一方で、物体M2が含まれる対象領域を特定できなかったものとする。また、情報提供装置10は、抽出画像P4から物体M2が含まれる対象領域A2-3を特定した一方で、物体M1が含まれる対象領域を特定できなかったものとする。
【0020】
なお、特徴量の算出には、GIST(http://ilab.usc.edu/siagian/Research/Gist/Gist.html)、カラーヒストグラム、色分布などの広域特徴量やSIFT(Scale-Invariant Feature Transform)、SURF(Speed-Up Robust Features)、局所特徴量等、画像が有する特徴量を算出する任意の技術が採用可能である。また、ニューラルネットで生成される特徴量も利用可能である。
【0021】
続いて、情報提供装置10は、抽出画像を重ね合わせた場合の対象領域の重畳態様を特定する(ステップS4)。例えば、
図1の例において、情報提供装置10は、抽出画像P1~P4のそれぞれに含まれる特徴点を照合し、抽出画像P1~P4間で一致する特徴点(例えば、特徴量の差が所定の閾値以内である特徴点)を抽出する。ここで、
図1の例において、情報提供装置10は、抽出画像P1~P4それぞれに含まれる特徴点PTを、抽出画像P1~P4間で一致する特徴点として抽出したものとする。この場合、情報提供装置10は、抽出画像P1~P4のそれぞれに含まれる特徴点PTの位置が一致するように抽出画像P1~P4を重畳させた場合に、いずれかの抽出画像に含まれる対象領域と、他の抽出画像に含まれる対象領域とが重畳する態様を示す重畳態様Cを特定する。
【0022】
続いて、情報提供装置10は、対象領域に重畳態様に応じた重み付けを行う(ステップS5)。例えば、
図1の例において、情報提供装置10は、重畳態様Cに基づき、対象領域に含まれる各領域に対し、他の対象領域が重畳する数に応じた重み付け(スコアの付与)を行う。言い換えると、情報提供装置10は、対象領域に含まれる領域と、撮影対象とが対応する確度を示すスコアの付与を行う。ここで、対象領域に含まれる各領域に対しスコアを付与する処理について、
図2を用いて詳細に説明する。
図2は、実施形態に係るスコアの付与処理の一例を示す図である。
【0023】
最初に、対象領域A1-2に含まれる領域に対しスコアを付与する処理について説明する。
図2に示すように、対象領域A1-2に含まれる領域の一部は、特定元の抽出画像P3以外の他の抽出画像に含まれない。この場合、情報提供装置10は、対象領域A1-2に含まれる領域に重畳する他の対象領域の数に1を合計した数を、当該領域を含む抽出画像の数で除算し、得られたスコアを、対象領域A1-2の各領域に付与する。
【0024】
具体的な例を挙げると、情報提供装置10は、対象領域A1-2に対象領域A1-1が重畳し、抽出画像P1~P4に含まれる領域AR1-1に対し、スコア「2/4(対象領域A1-1+1/抽出画像P1~P4)」を付与する。また、情報提供装置10は、対象領域A1-2に他の対象領域が重畳せず、抽出画像P1~P3に含まれる領域AR1-2に対し、スコア「1/3(重畳する他の対象領域なし(0)+1/抽出画像P1~P3)」を付与する。また、情報提供装置10は、対象領域A1-2に他の対象領域が重畳せず、抽出画像P3及びP4に含まれる領域AR1-3に対し、スコア「1/2(重畳する他の対象領域なし(0)+1/抽出画像P3及びP4)」を付与する。
【0025】
次に、対象領域A2-1に含まれる領域に対しスコアを付与する処理について説明する。
図2に示すように、対象領域A2-1は、特定元の抽出画像P1以外の他の抽出画像にも含まれる。この場合、情報提供装置10は、対象領域A2-1に含まれる領域に重畳する他の対象領域の数に1を合計した数を、抽出画像の数で除算し、得られたスコアを、対象領域A2-1の各領域に付与する。
【0026】
具体的な例を挙げると、情報提供装置10は、対象領域A2-1に対象領域A2-2及びA2-3が重畳する領域AR2-1に対し、スコア「3/4(対象領域A2-2及びA2-3+1/抽出画像P1~P4)」を付与する。また、情報提供装置10は、対象領域A2-1に対象領域A2-2のみが重畳する領域AR2-2に対し、スコア「2/4(対象領域A2-2+1/抽出画像P1~P4)」を付与する。また、情報提供装置10は、対象領域A2-3に他の対象領域が重畳しない領域AR2-3に対し、スコア「1/4(重畳する他の対象領域なし(0)+1/抽出画像P1~P4)」を付与する。
【0027】
なお、
図2の例において、情報提供装置10は、各抽出画像の領域のうち、対象領域A1-2及びA1-1、並びに、対象領域A2-1~A2-3のいずれも含まない領域に対しては、スコア「0」を付与してもよい。
【0028】
図1の説明に戻り、情報提供装置10は、撮影された撮影対象を識別する(ステップS6)。例えば、
図1の例において、情報提供装置10は、対象領域から算出する特徴量に対し重畳態様Cに応じた重み付けを行い、対象領域に含まれる撮影対象を識別する。具合的な例を挙げると、情報提供装置10は、対象領域に含まれる各領域に付与したスコアの高さに応じて、対応する領域から算出する特徴量に対する重み付けを大きく設定する。そして、情報提供装置10は、対象領域A1-1、並びに、対象領域A1-1に重畳する対象領域A1-2に含まれる各領域から算出した特徴量に基づいて、対象領域A1-1及び対象領域A1-2に含まれる撮影対象(物体M1)を識別する。また、情報提供装置10は、対象領域A2-1、並びに、対象領域A2-1に重畳する対象領域A2-2及びA2-3に含まれる各領域から算出した特徴量に基づいて、対象領域A2-1~A2-3に含まれる撮影対象(物体M2)を識別する。
【0029】
続いて、情報提供装置10は、識別結果に応じた情報を端末装置100に提供する(ステップS7)。例えば、
図1の例において、情報提供装置10は、物体M1及び物体M2の名称を示す情報を端末装置100に提供する。
【0030】
以上のように、実施形態に係る情報提供装置10は、撮影対象を撮影した動画像から抽出した複数の抽出画像に基づいて撮影対象の識別処理を行う。従来、画像の撮影条件が悪い場合(例えば、撮影場所が暗い、撮影対象の一部が他の物体に隠れている、など)、一の画像から撮影対象を識別する際に精度が低下するという問題点があった。これに対し、実施形態に係る情報提供装置10は、複数の抽出画像から特定した対象領域と、撮影対象とが対応する確度による重み付けを用いて、対象領域から撮影対象を識別する。これにより、実施形態に係る情報提供装置10は、撮影条件によって一の抽出画像から対象領域が誤って特定された場合であっても、他の抽出画像から特定した対象領域に基づいて、誤って特定された対象領域の重みを小さくすることができるため、撮影対象の識別の精度を向上できる。また、実施形態に係る情報提供装置10は、撮影条件によって一の抽出画像から撮影対象が特定できない場合であっても、他の抽出画像に基づいて撮影対象の識別を可能とする。すなわち、実施形態に係る情報提供装置10は、画像を用いた検索の検索精度を向上させることができる。
【0031】
〔2.情報提供装置の構成〕
次に、
図4を用いて、情報提供装置10の構成について説明する。
図4は、実施形態に係る情報提供装置の構成例を示す図である。
図4に示すように、情報提供装置10は、通信部20と、記憶部30と、制御部40とを有する。
【0032】
(通信部20について)
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、端末装置100等との間で情報の送受信を行う。
【0033】
(記憶部30について)
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
図4に示すように、記憶部30は、画像データベース31を有する。
【0034】
(画像データベース31について)
画像データベース31は、利用者が端末装置100を用いて撮影した画像(動画像、若しくは、静止画像)に関する情報を記憶する。ここで、
図5を用いて、画像データベース31が記憶する情報の一例を説明する。
図5は、実施形態に係る画像データベースの一例を示す図である。
図5の例では、画像データベース31は、「画像ID」、「抽出画像ID」、「抽出画像」、「特徴情報」、「対象領域情報」といった項目を有する。
【0035】
「画像ID」は、利用者が撮影した画像を識別するための識別情報を示す。「抽出画像ID」は、利用者が撮影した画像から抽出した抽出画像を識別するための識別情報を示す。「抽出画像」は、抽出画像に関する情報を示す。なお、
図5に示す例では、「抽出画像」に「抽出画像#1」といった概念的な情報が格納される例を示したが、実際には、抽出画像を示す静止画像や、抽出画像の所在を示すURL(Uniform Resource Locator)、格納場所を示すファイルパス名などが格納される。
【0036】
「特徴情報」は、抽出画像から抽出した商品の特徴に関する情報を示し、例えば、抽出画像に含まれる特徴点や、抽出画像の特徴量に関する情報が格納される。「対象領域情報」は、抽出画像のうち、撮影対象が含まれる領域である対象領域に関する情報であり、例えば、抽出画像内の対象領域を示す座標等が格納される。
【0037】
すなわち、
図5では、画像ID「ID#1」によって識別される画像から、抽出画像ID「AID#1」によって識別される抽出画像「抽出画像#1」が抽出され、「抽出画像#1」の特徴情報が「特徴情報#1」、対象領域情報が「対象領域情報#1」である例を示す。
【0038】
(制御部40について)
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部40は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。実施形態に係る制御部40は、
図4に示すように、特定部41と、抽出部42と、識別部43と、提供部44とを有し、以下に説明する情報処理の機能や作用を実現または実行する。
【0039】
(特定部41について)
特定部41は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。例えば、
図1の例において、特定部41は、端末装置100から取得した動画像から抽出画像P1~P4を抽出し、各抽出画像の中から物体M1、若しくは、物体M2が含まれる対象領域を、各種の画像認識技術を用いて特定する。そして、特定部41は、抽出画像及び対象領域に関する情報を画像データベース31に格納する。
【0040】
また、特定部41は、対象領域に含まれる撮影対象の種別をさらに特定してもよい。例えば、特定部41は、対象領域を各種の画像認識技術を用いて解析することにより、対象領域に含まれる撮影対象の種別を特定する。具体的な例を挙げると、特定部41は、
図1に示す対象領域A2-1に含まれる物体M2の種別を「リンゴ」と特定する。
【0041】
なお、特定部41は、対象領域に含まれる撮影対象が、情報提供装置10の管理者等により任意に設定された種別のいずれに分類されるかを特定してもよい。また、特定部41は、対象領域に含まれる撮影対象の具体的な名称を特定してもよい。また、特定部41は、抽出画像に含まれる複数の撮影対象をそれぞれ区別するための種別を特定してもよい。例えば、
図1の例において、特定部41は、対象領域A1-1及びA1-2に含まれる撮影対象の種別を「撮影対象1」と特定し、対象領域A2-1~A2-3に含まれる撮影対象の種別を「撮影対象2」と特定する。
【0042】
また、特定部41は、動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。例えば、
図1の例において、特定部41は、時系列が連続する抽出画像P1~P4ごとに、各抽出画像の中から物体M1、若しくは、物体M2が含まれる対象領域を、各種の画像認識技術を用いて特定する。
【0043】
(抽出部42について)
抽出部42は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する。例えば、
図1の例において、抽出部42は、抽出画像P1~P4のそれぞれに含まれる特徴点PTの位置が一致するように抽出画像P1~P4を重畳させた場合に、いずれかの抽出画像に含まれる対象領域と、他の抽出画像に含まれる対象領域とが重畳する態様を示す重畳態様Cを特定する。そして、抽出部42は、重畳態様Cに基づいて、抽出画像P1~P4に含まれる対象領域のうち、重畳する他の対象領域の数が最も多い領域を識別領域として抽出する。具体的な例を挙げると、
図1の例において、抽出部42は、対象領域A1-2及びA1-2に含まれる各領域のうち、対象領域A1-2に対象領域A1-1が重畳する領域AR1-1を識別領域として抽出する。また、抽出部42は、対象領域A2-1~A2-3に含まれる各領域のうち、対象領域A2-1に対象領域A2-2及びA2-3が重畳する領域AR2-1を識別領域として抽出する。
【0044】
また、抽出部42は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出してもよい。例えば、
図1の例において、抽出部42は、重畳態様Cに基づき、対象領域に含まれる各領域に対し、他の対象領域が重畳する数に応じて算出したスコアを付与する。そして、抽出部42は、スコアを付与した領域のうち、スコアが最も高い領域を識別領域として抽出する。具体的な例を挙げると、
図1の例において、抽出部42は、対象領域A1-2及びA1-2に含まれる各領域のうち、最も高いスコアを付与した領域AR1-1を識別領域として抽出する。また、抽出部42は、対象領域A2-1~A2-3に含まれる各領域のうち、最も高いスコアを付与した領域AR2-1を識別領域として抽出する。なお、抽出部42は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の閾値以上である対象領域を識別領域として抽出してもよい。
【0045】
また、抽出部42は、対象領域ごとに、重畳した他の対象領域の数に1を合計した値を、抽出画像の数で除算したスコアを算出してもよい。例えば、
図1の例において、抽出部42は、対象領域A2-1に含まれる領域に重畳する他の対象領域の数に1を合計した数を、抽出画像の数で除算したスコアを、対象領域A2-1の各領域に付与する。
【0046】
また、抽出部42は、対象領域ごとに、当該対象領域と重畳する他の対象領域の数に1を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出してもよい。例えば、
図1の例において、抽出部42は、対象領域A1-2に含まれる領域に重畳する他の対象領域の数に1を合計した数を、当該領域を含む抽出画像の数で除算したスコアを、対象領域A1-2の各領域に付与する。
【0047】
また、抽出部42は、対象領域ごとに、当該対象領域に含まれる画素数が多い程より高い値のスコアを算出してもよい。例えば、抽出部42は、動画像から抽出した抽出画像の画素数、若しくは、対象領域の画素数が多い程、対象領域と、撮影対象とが対応する確度を示すスコアを高く算出する。具体的な例を挙げると、抽出部42は、対象領域ごとに算出したスコアに対し、対応する画素数に応じた値を乗算する。
【0048】
なお、抽出部42は、対象領域ごとに、当該対象領域に含まれる画像数が多い程より高い値のスコアを算出してもよい。例えば、抽出部42は、動画像から抽出した抽出画像の数、若しくは、対象領域を含む抽出画像の数が多い程、当該対象領域と、撮影対象とが対応する確度を示すスコアを高く算出する。
【0049】
(識別部43について)
識別部43は、複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。例えば、
図1の例において、識別部43は、対象領域から算出する特徴量であって、重畳態様Cに応じた重み付けを行った特徴量に基づいて、対象領域に含まれる撮影対象を識別する。
【0050】
また、識別部43は、識別領域に含まれる撮影対象を識別してもよい。例えば、
図1の例において、識別部43は、対象領域A1-1、並びに、対象領域A1-1に重畳する対象領域A1-2に含まれる領域のうち、識別領域として抽出された領域AR1-1の特徴量に基づいて、領域AR1-1に含まれる撮影対象(言い換えると、対象領域A1-1及びA1-2に含まれる撮影対象)を識別する。また、
図1の例において、識別部43は、対象領域A2-1、並びに、対象領域A2-1に重畳する対象領域A2-2及びA2-3に含まれる領域のうち、識別領域として抽出された領域AR2-1の特徴量に基づいて、領域AR2-1に含まれる撮影対象(言い換えると、対象領域A2-1~A2-3に含まれる撮影対象)を識別する。
【0051】
また、識別部43は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、識別部43は、各抽出画像に含まれる対象領域のうち、同一種別と特定された撮影対象が含まれる各対象領域(言い換えると、同一の撮影対象を含むと特定された各対象領域)が重畳する態様に基づいて、当該撮影対象を識別する。
【0052】
また、識別部43は、重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別してもよい。例えば、
図1の例において、対象領域A2-1の種別が「梨」、対象領域A2-2及びA2-3の種別が「リンゴ」と特定された場合、対象領域A2-1~A2-3に含まれる撮影対象(物体M2)を「リンゴ」と識別する。
【0053】
また、識別部43は、同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、
図1の例において、識別部43は、物体M1が含まれる対象領域A1-1及びA1-2が重なり、物体M2が含まれる対象領域A2-1~A2-3が重なるように抽出画像P1~P4を重畳した場合の重畳態様を特定し、特定した重畳態様に基づいて、対象領域A1-1及びA1-2に含まれる撮影対象と、対象領域A2-1~A2-3に含まれる撮影対象とを特定する。なお、識別部43は、同一種別の撮影対象が含まれる対象領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。
【0054】
また、識別部43は、複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、
図1の例において、識別部43は、抽出画像P1~P4のそれぞれに含まれる特徴点を照合し、抽出画像P1~P4間で一致する特徴点PTを抽出する。そして、識別部43は、抽出画像P1~P4のそれぞれに含まれる特徴点PTの位置が一致するように抽出画像P1~P4を重畳させた重畳態様Cに基づいて、対象領域に含まれる撮影対象を識別する。
【0055】
また、識別部43は、複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、
図1の例において、識別部43は、抽出画像P1~P4に撮影された撮影対象の時間的に連続する動きをベクトル解析(例えば、オプティカルフローの技術を用いて解析)した解析結果を用いて、同一の撮影対象が撮影された領域が重なるように抽出画像P1~P4を重畳させた重畳態様を特定する。そして識別部43は、特定した重畳態様に基づき、対象領域に含まれる撮影対象を識別する。
【0056】
(提供部44について)
提供部44は、撮影対象の識別結果を提供する。例えば、
図1の例において、提供部44は、物体M1及び物体M2の名称を示す情報を端末装置100に提供する。
【0057】
〔3.識別処理のフロー〕
図6を用いて、実施形態に係る情報提供装置10の識別処理の手順について説明する。
図6は、実施形態に係る識別処理の手順の一例を示すフローチャートである。
【0058】
図6に示すように、情報提供装置10は、端末装置100から動画像を取得する(ステップS101)。続いて、情報提供装置10は、動画像から抽出した抽出画像ごとに、撮影対象が含まれる対象領域を特定する(ステップS102)。続いて、情報提供装置10は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する(ステップS103)。例えば、情報提供装置10は、対象領域のうち、重畳する他の対象領域の数が最も多い領域を識別領域として抽出する。
【0059】
続いて、情報提供装置10は、識別領域に含まれる撮影対象を識別する(ステップS104)。例えば、情報提供装置10は、識別領域として抽出された領域の特徴量に基づいて、識別領域に含まれる撮影対象を識別する。続いて、情報提供装置10は、識別結果に応じた情報を端末装置100に提供し(ステップS105)、処理を終了する。
【0060】
〔4.変形例〕
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
【0061】
〔4-1.抽出画像について〕
上述の実施形態において、特定部41が、動画像から抽出された複数の抽出画像から対象領域を特定する例を示したが、特定部41の機能はこのような例に限定されない。例えば、特定部41は、撮影対象を連続撮影した各画像から対象領域を特定してもよい。また、特定部41が対象領域を特定する各画像は、同一の撮影対象を含むものであれば、時系列が連続していなくともよい。
【0062】
〔4-2.対象領域について〕
上述の実施形態において、特定部41が、撮影対象が含まれる矩形を対象領域として抽出画像から特定する例を示したが、特定部41の機能はこのような例に限定されず、任意の形状の対象領域を特定してよい。例えば、特定部41は、ピクセル単位で表現される領域を対象領域として特定してもよい。
【0063】
〔4-3.抽出画像の重畳について〕
上述の実施形態において、各抽出画像に含まれる特徴点や、撮影対処の動きを示すベクトルに基づいて複数の抽出画像を重畳させる例を示したが、抽出画像を重畳させる手法はこのような例に限定されず、同一の撮影対象を含む対象領域が重畳する任意の手法が用いられてよい。例えば、重畳する対象領域に含まれる撮影対象が同一種別となるように、各抽出画像を重畳させてもよい。また、色相や明度、彩度等が一致するように各抽出画像を重畳させてもよい。
【0064】
〔5.効果〕
上述してきたように、実施形態に係る情報提供装置10は、特定部41と、抽出部42と、識別部43と、提供部44とを有する。特定部41は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。また、特定部41は、動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。抽出部42は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する。識別部43は、複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、識別部43は、識別領域に含まれる撮影対象を識別する。提供部44は、撮影対象の識別結果を提供する。
【0065】
これにより、実施形態に係る情報提供装置10は、複数の画像から特定された対象領域に基づき撮影対象を識別できるため、画像を用いた検索の検索精度を向上させることができる。
【0066】
また、実施形態に係る情報提供装置10において、例えば、抽出部42は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出する。また、抽出部42は、対象領域ごとに、重畳した他の対象領域の数に1を合計した値を、抽出画像の数で除算したスコアを算出する。また、抽出部42は、対象領域ごとに、当該対象領域と重畳する他の対象領域の数に1を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出する。また、抽出部42は、対象領域ごとに、当該対象領域に含まれる画像数が多い程より高い値のスコアを算出する。
【0067】
これにより、実施形態に係る情報提供装置10は、重畳の態様に応じて算出するスコアを用いて識別領域を抽出することにより、対象領域に含まれる領域と、撮影対象とが対応する確度が高い領域を抽出して撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。
【0068】
また、実施形態に係る情報提供装置10において、例えば、特定部41は、対象領域に含まれる撮影対象の種別をさらに特定する。そして、識別部43は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、特定部41は、対象領域に含まれる撮影対象の種別をさらに特定する。そして、識別部43は、重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別する。また、識別部43は、同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。
【0069】
これにより、実施形態に係る情報提供装置10は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。
【0070】
また、実施形態に係る情報提供装置10において、例えば、識別部43は、複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、識別部43は、複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。
【0071】
これにより、実施形態に係る情報提供装置10は、各抽出画像に含まれる対象領域のうち対応するものを重畳させ、撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。
【0072】
〔6.ハードウェア構成〕
また、上述してきた各実施形態に係る情報提供装置10は、例えば、
図7に示すような構成のコンピュータ1000によって実現される。以下、情報提供装置10を例に挙げて説明する。
図7は、情報提供装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0073】
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0074】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(実施形態のネットワークNに対応する)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
【0075】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
【0076】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0077】
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部40の機能を実現する。また、HDD1400には、情報提供装置10の記憶装置内の各データが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0078】
〔7.その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0079】
また、上述した情報提供装置10は、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0080】
また、特許請求の範囲に記載した「部」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。
【符号の説明】
【0081】
10 情報提供装置
20 通信部
30 記憶部
31 画像データベース
40 制御部
41 特定部
42 抽出部
43 識別部
44 提供部
100 端末装置