(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】映像検索システム、映像検索方法、及びコンピュータプログラム
(51)【国際特許分類】
G06F 16/78 20190101AFI20240110BHJP
【FI】
G06F16/78
(21)【出願番号】P 2021570644
(86)(22)【出願日】2020-09-30
(86)【国際出願番号】 JP2020037243
(87)【国際公開番号】W WO2021145030
(87)【国際公開日】2021-07-22
【審査請求日】2022-07-04
(32)【優先日】2020-01-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】本橋 洋介
(72)【発明者】
【氏名】武田 麻代
【審査官】吉田 誠
(56)【参考文献】
【文献】特開2008-092153(JP,A)
【文献】特開2005-202485(JP,A)
【文献】特開2018-169735(JP,A)
【文献】特開2000-236494(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、
検索クエリを取得する検索クエリ取得部と、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行うクラスタリング部と、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第1クラスタを取得する第1クラスタ取得部と、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第2クラスタを取得する第2クラスタ取得部と、
前記第1クラスタと前記第2クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部と
を備えることを特徴とする映像検索システム。
【請求項2】
前記第1クラスタは、前記物体タグを表現したベクトルに基づくクラスタであり、
前記第2クラスタは、前記検索クエリを表現したベクトルに基づくクラスタである
ことを特徴とする請求項
1に記載の映像検索システム。
【請求項3】
前記類似度算出部は、前記映像に前記物体が映り込んでいる時間の長さに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする請求項1
又は2に記載の映像検索システム。
【請求項4】
前記類似度算出部は、前記映像に映り込んでいる前記物体の大きさに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする請求項1から
3のいずれか一項に記載の映像検索システム。
【請求項5】
前記物体タグは、前記物体を個々に区別する固有識別情報を含むことを特徴とする請求項1から
4のいずれか一項に記載に映像検索システム。
【請求項6】
前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする請求項1から
5のいずれか一項に記載の映像検索システム。
【請求項7】
前記映像に付与されており、前記映像のシーンを示すシーン情報を取得するシーン情報取得部を更に備え、
前記類似度算出部は、前記物体タグ及び前記シーン情報と、前記検索クエリとの類似度を算出する
ことを特徴とする請求項1から
6のいずれか一項に記載の映像検索システム。
【請求項8】
少なくとも1つのコンピュータによって、
映像に映り込んでいる物体に紐付けられた物体タグを取得し、
検索クエリを取得し、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行い、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第1クラスタを取得し、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第2クラスタを取得し、
前記第1クラスタと前記第2クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出し、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する
ことを特徴とする映像検索方法。
【請求項9】
映像に映り込んでいる物体に紐付けられた物体タグを取得し、
検索クエリを取得し、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行い、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第1クラスタを取得し、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第2クラスタを取得し、
前記第1クラスタと前記第2クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出し、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像を検索する映像検索システム、映像検索方法、及びコンピュータプログラムの技術分野に関する。
【背景技術】
【0002】
この種のシステムとして、大量の映像データの中から所望の映像を検索するものが知られている。例えば特許文献1では、映像からフレームごとの画像特徴量を抽出して映像を検索する技術が開示されている。特許文献2では、検索クエリ用の静止画像を用いて映像を検索する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2015-114685号公報
【文献】特開2013-92941号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
検索方法の一例として、自然言語を用いるものが考えられる。しかしながら、上述した特許文献1及び2に記載されているような技術では、画像を用いた検索しか想定されておらず、自然言語を用いて映像を検索することができない。
【0005】
本発明は、上記問題点に鑑みてなされたものであり、所望の映像を適切に検索することが可能な映像検索システム、映像検索方法、及びコンピュータプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の映像検索システムの一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、検索クエリを取得する検索クエリ取得部と、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備える。
【0007】
本発明の映像検索方法の一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索する。
【0008】
本発明のコンピュータプログラムの一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させる。
【発明の効果】
【0009】
上述した映像検索システム、映像検索方法、及びコンピュータプログラムのそれぞれの一の態様によれば、所望の映像を適切に検索することが可能であり、特に、自然言語を用いた映像検索を適切に実行することができる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。
【
図2】第1実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
【
図4】第1実施形態に係る映像検索システムの変形例の構成を示すブロック図である。
【
図5】第1実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
【
図6】第2実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
【
図7】クラスタに対応する単語の一例を示す表である。
【
図8】第2実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
【
図9】第3実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
【
図10】第3実施形態に係る映像検索システムの変形例の構成を示すブロック図である。
【
図11】第3実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
【
図12】第4実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
【
図13】第4実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、映像検索システム、映像検索方法、及びコンピュータプログラムの実施形態について説明する。
【0012】
<第1実施形態>
まず、第1実施形態に係る映像検索システムについて、
図1から
図5を参照して説明する。
【0013】
(ハードウェア構成)
図1を参照しながら、第1実施形態に係る映像検索システムのハードウェア構成について説明する。
図1は、第1実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。
【0014】
図1に示すように、第1実施形態に係る映像検索システム10は、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。映像検索システム10は更に、入力装置15と、出力装置16とを備えていてもよい。CPU11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
【0015】
CPU11は、コンピュータプログラムを読み込む。例えば、CPU11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、CPU11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。CPU11は、ネットワークインタフェースを介して、映像検索システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。CPU11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、CPU11が読み込んだコンピュータプログラムを実行すると、CPU11内には、映像を検索するための機能ブロックが実現される。
【0016】
RAM12は、CPU11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、CPU11がコンピュータプログラムを実行している際にCPU11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
【0017】
ROM13は、CPU11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
【0018】
記憶装置14は、映像検索システム10が長期的に保存するデータを記憶する。記憶装置14は、CPU11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0019】
入力装置15は、映像検索システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
【0020】
出力装置16は、映像検索システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、映像検索システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
【0021】
(機能的構成)
続いて、
図2から
図4を参照しながら、第1実施形態に係る映像検索システム10の機能的構成について説明する。
図2は、第1実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
図3は、物体タグの一例を示す表である。
図4は、第1実施形態に係る映像検索システムの変形例の構成を示すブロック図である。
【0022】
図2に示すように、第1実施形態に係る映像検索システム10は、蓄積された映像から所望の映像(具体的には、ユーザによって入力される検索クエリに応じた映像)を検索可能に構成されている。検索対象となる映像には、例えば映像によるライフログが含まれるが、特に限定されない。なお、映像は、例えば記憶装置14(
図1参照)等に蓄積されていてもよいし、システム外部の記憶手段(例えば、サーバ等)に蓄積されていてもよい。映像検索システム10は、その機能を実現するための機能ブロックとして、物体タグ取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140とを備えて構成されている。これらの機能ブロックは、例えばCPU11(
図1参照)において実現される。
【0023】
物体タグ取得部110は、蓄積された映像から物体タグを取得可能に構成されている。物体タグは、映像に映り込んでいる物体に関する情報であり、映像中の各物体に紐付けられている。ただし、1つの物体に対して複数の物体タグが紐付けられていてもよい。物体タグは、典型的には一般名詞であるが、例えば同一性検査等を行って固有名詞として紐付けられていてもよい(即ち、物体を個々に識別する固有識別情報であってもよい)。また、物体タグは、物体の名称以外の情報(例えば、形状や性質等)を示す情報であってもよい。物体タグ取得部110は、例えば映像のフレーム単位で物体タグを取得してもよい。物体タグ取得部110は、取得した物体タグを記憶する記憶部を備えていてもよい。物体タグは、例えば
図3に示すように、各映像の各フレーム単位で記憶部に記憶されてよい。物体タグ取得部110で取得された物体タグは、類似度算出部130に出力される構成となっている。
【0024】
検索クエリ取得部120は、ユーザが入力する検索クエリを取得可能に構成されている。検索クエリは、ユーザが所望する映像(即ち、検索しようとする映像)に関する情報を含むものである。検索クエリは、例えば自然言語として入力される。この場合の検索クエリは、例えば複数の単語や句を含んでいてもよい。自然言語である検索クエリの一例としては、「コンピュータを使いながら食べたサンドイッチ」、「見学した蒸留窯」、及び「北海道で食べた昼食」等が挙げられる。ユーザは、例えば入力装置15(
図1参照等)を用いて検索クエリを入力することができる。検索クエリ取得部120で取得された検索クエリは、類似度算出部130に出力される構成となっている。
【0025】
類似度算出部130は、物体タグ取得部110で取得された物体タグと、検索クエリ取得部120で取得された検索クエリとを比較して、これらの類似度を算出可能に構成されている。ここでの「類似度」は、物体タグと検索クエリとが類似している程度を示す定量的なパラメータとして算出される。類似度は、複数の映像の各々について算出されてもよいし、映像の所定期間ごとに算出されてもよい。この場合の所定期間は、映像に応じて適宜定められればよく、可変であってもよい。類似度算出部130は、例えば辞書や形態素解析を用いて、検索クエリを複数の単語(検索語)に分解する機能を有していてもよい。この場合、類似度算出部130は、物体タグと検索語との一致件数を類似度として算出してもよい。物体タグと検索語との一致件数は、例えば予め設定された集計時間(例えば、1分や1時間等)単位で算出されてよい。類似度算出部130で算出された類似度は、映像検索部140に出力される構成となっている。
【0026】
なお、類似度算出部130は、物体が映像に映り込む際の態様に応じて類似度を算出してもよい。例えば、類似度算出部130は、物体が映像に映り込む期間の長さや映像に占める物体の大きさの割合等に基づいて類似度を算出してもよい。より具体的には、映像に長期間映り込んでいる物体や、大きく映り込んでいる物体、映像を撮像するカメラの近くで映り込んでいる物体に対して、類似度算出部130は、その物体タグに関する類似度を高く算出してもよい。逆に、映像に極めて短い時間しか映り込んでいない物体や、小さく映り込んでいる物体。映像を撮像するカメラから遠くで映り込んでいる物体に対して、類似度算出部130は、その物体タグに関する類似度を低く算出してもよい。このようにすれば、後述する類似度に基づいた映像検索の精度を高めることが可能である。
【0027】
映像検索部140は、類似度算出部130で算出された類似度に基づいて、検索クエリに応じた映像を検索する。映像検索部140は、例えば類似度が所定の条件を満たす映像を検索結果として出力する。この場合、出力される映像は複数であってもよい。或いは、映像検索部140は、類似度が最も高い映像を出力してもよいし、類似度の高い複数個の映像を検索結果として出力してもよい。更に、映像検索部140は、検索結果として出力した映像を再生する機能を有していてもよい。また、映像検索部140は、サムネイルのように、検索結果として出力した映像を示す画像を表示する機能を有していてもよい。
【0028】
図4に示すように、映像検索システム10は、物体タグ付与部150を備えて構成されてもよい。物体タグ付与部150は、例えば事前に機械学習された物体認識モデルを用いて、映像に映り込んでいる物体に物体タグを紐付ける。なお、物体を認識して物体タグを付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム10が物体タグ付与部150を備えている場合は、映像に物体タグが付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム10は、物体タグ付与部150が映像に物体タグを付与した上で、映像検索を行うことができる。一方、映像検索システム10が物体タグ付与部150を備えていない場合には、事前に物体タグを付与した映像を用意すればよい。この場合、物体タグは、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。
【0029】
(動作説明)
次に、
図5を参照しながら、第1実施形態に係る映像検索システム10の動作の流れについて説明する。
図5は、第1実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
【0030】
図4に示すように、第1実施形態に係る映像検索システム10が動作する際には、まず物体タグ取得部110が、蓄積された映像から物体タグを取得する(ステップS101)。なお、上述した物体タグ付与部150が備えられる構成では、ステップS101が実行される前に、物体タグ付与部150による物体タグの付与が実行されてもよい。
【0031】
続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、類似度算出部130が、物体タグ取得部110で取得された物体タグと、検索クエリ取得部120で取得された検索クエリとの類似度を算出する(ステップS103)。
【0032】
最後に、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。なお、映像検索システム10は、検索結果の絞り込みを可能に構成されていてもよい。この場合、検索クエリ取得部120によって新たな検索クエリが取得された後に、上述したステップS103の処理(即ち、類似度の算出)、及びステップS104の処理(即ち、類似度に基づいた映像検索)が再び実行されればよい。
【0033】
(技術的効果)
次に、第1実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
【0034】
図1から
図4で説明したように、第1実施形態に係る映像検索システム10では、物体タグと検索クエリとの類似度に基づいて映像検索が行われる。よって、検索クエリに応じた映像を適切に検索することができる。そして、本実施形態に係る映像検索システム10では特に、検索クエリが自然言語として入力された場合であっても、ユーザが所望する映像を適切に検索できる。
【0035】
なお、このような技術的効果は、例えばライフログ等の映像検索において顕著に発揮され得る。人はすべての行動や状況を明確に記憶することは難しく、断片的に且つ曖昧に記憶していることが多い。しかるに第1実施形態に係る映像検索システム10によれば、自然言語による検索クエリを用いた映像検索が行えるため、検索クエリに一部情報が欠如していたとしても、大量の映像の中から所望する映像を検索することが可能である。言い換えれば、多少の曖昧さを許容した上で、精度の高い映像検索を実現することができる。
【0036】
<第2実施形態>
次に、第2実施形態に係る映像検索システム10について、
図6から
図8を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作(具体的には、類似度の算出にクラスタを用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0037】
(機能的構成)
まず、
図6及び
図7を参照しながら、第2実施形態に係る映像検索システム10の機能的構成について説明する。
図6は、第2実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
図7は、クラスタに対応する単語の一例を示す表である。なお、
図6では、
図2で示した構成要素と同様のものに同一の符号を付している。
【0038】
図6に示すように、第2実施形態に係る映像検索システム10は、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、物体タグ取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、第1クラスタ取得部160と、第2クラスタ取得部170とを備えている。即ち、第2実施形態に係る映像検索システム10は、第1実施形態の構成(
図2参照)に加えて、単語ベクトル解析部50、単語クラスタリング部60、単語クラスタ情報記憶部70、第1クラスタ取得部160及び第2クラスタ取得部170を更に備えて構成されている。
【0039】
単語ベクトル解析部50は、文書データを解析して、文書に含まれる単語をベクトルデータ(以下、適宜「単語ベクトル」と称する)に変換可能に構成されている。文書データは、例えばwebサイトや時点などの一般的な文書であってもよいし、映像に関連する文書(例えば、映像の撮影者の業務やサービスに関する文書)等であってもよい。映像に関連する文書を用いた場合、一般的な単語の類似性ではなく、映像に関連する専門用語に基づいた類似性を解析することが可能となる。単語ベクトル解析部50は、例えば、word2vec等のwordEmbedding手法、又はdoc2vec等のdocEmbedding手法を用いて、単語ベクトルへの変換を行う。単語ベクトル解析部50で生成された単語ベクトルは、単語クラスタリング部60に出力される構成となっている。
【0040】
単語クラスタリング部60は、単語ベクトル解析部50で生成された単語ベクトルに基づいて、各単語をクラスタリング可能に構成されている。単語クラスタリング部60は、単語同士のベクトルの類似性に基づいてクラスタリングを行えばよい。単語クラスタリング部60は、例えば、単語ベクトル同士のcos類似度やユークリッド距離に基づいて、k-meansによるクラスタリングを行う。ただし、クラスタリングの手法については、特に限定されない。単語クラスタリング部60のクラスタリング結果は、単語クラスタ情報記憶部70に出力される構成となっている。
【0041】
単語クラスタ情報記憶部70は、単語クラスタリング部60によるクラスタリングの結果を記憶可能に構成されている。単語クラスタ情報記憶部70は、例えば
図7に示すように、各クラスタのIDと、各クラスタに属する単語とを記憶する。単語クラスタ情報記憶部70に記憶された情報は、第1クラスタ取得部160及び第2クラスタ取得部170により、適宜利用可能な状態で記憶されている。
【0042】
第1クラスタ取得部160は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、物体タグ取得部110で取得された物体タグに含まれる情報が属するクラスタ(以下、適宜「第1クラスタ」と称する)を取得可能に構成されている。物体タグに含まれる情報には、例えば物体タグに含まれる単語があるが、これには限られない。第1クラスタは、物体タグを表現したベクトルに基づくクラスタであってよい。第1クラスタ取得部160で取得された第1クラスタに関する情報は、類似度算出部130に出力される構成となっている。
【0043】
第2クラスタ取得部170は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、検索クエリ取得部120で取得された検索クエリに含まれる情報(典型的には、検索クエリに含まれる単語)が属するクラスタ(以下、適宜「第2クラスタ」と称する)を取得可能に構成されている。第2クラスタは、検索クエリを表現したベクトルに基づくクラスタであってよい。第2クラスタ取得部170で取得された第2クラスタに関する情報は、類似度算出部130に出力される構成となっている。
【0044】
(動作説明)
次に、
図8を参照しながら、第2実施形態に係る映像検索システム10の動作の流れについて説明する。
図8は、第2実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、
図8では、
図5で示した処理と同様の処理に同一の符号を付している。以下では、文書データを用いた単語のクラスタリング(即ち、単語ベクトル解析部50、及び単語クラスタリング部60による処理)が行われ、その結果が既に単語クラスタ情報記憶部70に記憶されている前提で説明を進める。
【0045】
図8に示すように、第2実施形態に係る映像検索システム10が動作する際には、まず物体タグ取得部110が、蓄積された映像から物体タグを取得する(ステップS101)。そして、第1クラスタ取得部160が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第1クラスタを取得する(ステップS102)。第1クラスタ取得部160は、例えば、映像から取得した物体タグに含まれる単語の各々について、単語クラスタ情報記憶部70に対する問い合わせを行い、各単語に対応するクラスタIDを取得する。
【0046】
続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、第2クラスタ取得部170が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第2クラスタを取得する(ステップS202)。第2クラスタ取得部170は、例えば、検索クエリに含まれる検索語の各々について、単語クラスタ情報記憶部70に対して問い合わせを行い、各検索語に対応するクラスタIDを取得する。
【0047】
続いて、類似度算出部130が、第1クラスタと第2クラスタとを比較することで、物体タグと検索クエリとの類似度を算出する(ステップS103)。言い換えれば、第2実施形態における類似度は、第1クラスタ(即ち、物体タグが属するクラスタ)と、第2クラスタ(即ち、検索クエリが属するクラスタ)との類似度として算出される。類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索して出力する(ステップS104)。
【0048】
なお、第1クラスタと第2クラスタとの類似度は、第1クラスタのクラスタ情報及び第2クラスタのクラスタ情報をそれぞれベクトルに見立てた場合の、cos類似度として算出することができる。例えば、第1クラスタのクラスタ情報をVa、第2クラスタのクラスタ情報をVbとした場合、第1クラスタと第2クラスタとの類似度は、下記式(1)を用いて算出できる。
(Va/||Va||)・(Vb/||Vb||) ・・・(1)
なお、||Va||及び||Vb||は、それぞれVa及びVbのノルムである。
【0049】
(技術的効果)
次に、第2実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
【0050】
図6から
図8で説明したように、第2実施形態に係る映像検索システム10では、物体タグ及び検索クエリに含まれる単語が属するクラスタを用いて類似度の算出が行われる。このようにすれば、物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。
【0051】
<第3実施形態>
次に、第3実施形態に係る映像検索システム10について、
図9から
図11を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作(具体的には、シーン情報を用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1及び第2実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0052】
(機能的構成)
まず、
図9及び
図10を参照しながら、第3実施形態に係る映像検索システム10の機能的構成について説明する。
図9は、第3実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。
図10は、第3実施形態に係る映像検索システムの変形例の構成を示すブロック図である。なお、
図9及び
図10では、
図2及び
図4で示した構成要素と同様のものに同一の符号を付している。
【0053】
図9に示すように、第3実施形態に係る映像検索システム10は、物体タグ取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、シーン情報取得部180とを備えている。即ち、第3実施形態に係る映像検索システム10は、第1実施形態の構成(
図2参照)に加えて、シーン情報取得部180を更に備えて構成されている。
【0054】
シーン情報取得部180は、映像のシーンを示すシーン情報を取得可能に構成されている。シーン情報は、例えば映像が撮像された場所情報、時間情報、映像が撮影された際の状況や雰囲気等を示す情報を含んでいる。シーン情報としては、映像のシーンと関係し得るその他の情報が含まれていてもよい。シーン情報のより具体的な例として、位置情報は、例えばGPS(Global Positioning System)等から得られる位置情報である。時間情報は、タイムスタンプ等から得られる日時に関する情報である。また、映像が撮影された際の状況や雰囲気等を示す情報としては、撮像者又は被撮像者の行動から得られる情報が含まれていてもよい。シーン情報は、1つの映像に1つずつ付与されたものであってもよいし、シーンが切り替わる映像については1つの映像に複数のシーン情報が付与されていてもよい。また、ある期間の映像に複数のシーン情報が付与されていてもよい。例えば、ある期間の映像に、タイムスタンプから得られた時間情報と、GPSから得られた位置情報とが、シーン情報として付与されてもよい。シーン情報取得部180は、取得したシーン情報を記憶する記憶部を備えていてもよい。シーン情報取得部180で取得されたシーン情報は、類似度算出部130に出力される構成となっている。
【0055】
第3実施形態に係る類似度算出部130は、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン範囲毎に類似度を算出してもよい。例えば、シーン範囲は、映像内のシーン情報の偏りを用いて設定されてよい。例えば、シーン情報として、映像を撮影した位置情報が取得されている場合、映像を所定時間(例えば、10秒)で区切り、区切った各映像(以下、適宜「区切り映像」と称する)の位置情報に含まれる緯度経度情報の平均値を算出する。そして、隣接する区切り映像について、算出した平均値の差分が所定値未満である場合は同じ区切りとして統合する(例えば、1,2,3,4,・・・と区切り映像があり、3と4との差分が所定値未満であった場合には、3及び4を5に統合して、1,2、5・・・とする)。その後、統合した区切り映像についても再度平均値を算出し、差分が所定値未満となるものがなくなるまで同様の処理を繰り返す。このようにすれば、比較的近い場所で撮影された映像が1つのシーンとして設定されることになる。
【0056】
また、シーン範囲は、物体タグの偏りを用いて設定されてよい。或いは、シーン範囲は、映像に一定期間以上映り込んでいる情報を用いて設定されてよい。例えば、同じ物体が一定期間以上連続して映り込んでいる期間については、1つのシーン範囲として設定してもよい。この場合、映像に映り込んでいる物体を識別するために、物体タグを用いてもよい。
【0057】
図10に示すように、映像検索システム10は、物体タグ付与部150と、シーン情報付与部190とを備えていてもよい。即ち、
図4に示した映像検索システムの変形例に、シーン情報付与部190を更に備えて構成されてもよい。
【0058】
シーン情報付与部190は、例えば事前に機械学習されたシーン認識モデルを用いて、映像のシーンを自動的に認識してシーン情報を付与する。なお、シーン情報を自動的に付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム10がシーン情報付与部190を備えている場合は、映像にシーン情報が付与されていない場合であっても、シーン情報を用いた映像検索を行うことができる。即ち、映像検索システム10は、シーン情報付与部190が映像にシーン情報を付与した上で、映像検索を行うことができる。一方、映像検索システム10がシーン情報付与部190を備えていない場合には、事前にシーン情報を付与した映像を用意すればよい。この場合、シーン情報は、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。
【0059】
(動作説明)
次に、
図11を参照しながら、第3実施形態に係る映像検索システム10の動作の流れについて説明する。
図11は、第3実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、
図11では、
図5で示した処理と同様の処理に同一の符号を付している。
【0060】
図11に示すように、第3実施形態に係る映像検索システム10が動作する際には、まず物体タグ取得部110が、蓄積された映像から物体タグを取得する(ステップS101)。また、シーン情報取得部180が、蓄積された映像からシーン情報を取得する(ステップS301)。更に、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。なお、上述したシーン情報付与部190が備えられる構成では、ステップS301が実行される前に、シーン情報付与部190によるシーン情報の付与が実行されてもよい。
【0061】
続いて、類似度算出部130は、物体タグ及びシーン情報と、検索クエリとの類似度を算出する(ステップS103)。ここでの類似度は、物体タグと検索クエリとの類似度、及びシーン情報と検索クエリとの類似度として別々に算出されてもよい(即ち、物体タグに関する類似度と、シーン情報に関する類似度との2種類の類似度が算出されてもよい)。或いは、類似度は、物体タグ及びシーン情報の両方と、検索クエリとの類似度としてまとめて算出されてもよい(即ち、物体タグ及びシーン情報の両方を考慮した1種類の類似度が算出されてもよい)。
【0062】
類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索して出力する(ステップS104)。なお、物体タグとの検索クエリとの類似度、及びシーン情報と検索クエリとの類似度とが別々に算出されている場合、それら2つの類似度から算出される総合的な類似度(例えば、2つの類似度の平均値等)に基づいて、検索クエリに応じた映像を検索すればよい。
【0063】
(技術的効果)
次に、第3実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
【0064】
図9から
図11で説明したように、第3実施形態に係る映像検索システム10では、更にシーン情報を用いて類似度が算出される。このようにすれば、映像が撮像された状況、場所、時間、雰囲気等を考慮して、映像を検索することができる。この結果、ユーザが所望する映像をより精度よく検索することが可能となる。
【0065】
<第4実施形態>
次に、第4実施形態に係る映像検索システム10について、
図12及び
図13を参照して説明する。なお、第4実施形態は、上述した第3実施形態と比べて一部の構成及び動作(具体的には、類似度の算出にクラスタを用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0066】
(機能的構成)
まず、
図12を参照しながら、第4実施形態に係る映像検索システム10の機能的構成について説明する。
図12は、第4実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。なお、
図12では、
図9で示した構成要素と同様のものに同一の符号を付している。
【0067】
図12に示すように、第4実施形態に係る映像検索システム10は、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、物体タグ取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、第1クラスタ取得部160と、第2クラスタ取得部170と、シーン情報取得部180と、第3クラスタ取得部200とを備えている。即ち、第4実施形態に係る映像検索システム10は、第3実施形態の構成(
図9参照)に加えて、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、第1クラスタ取得部160と、第2クラスタ取得部170と、第3クラスタ取得部200とを更に備えて構成されている。なお、第1クラスタ取得部160及び第2クラスタ取得部170については、第2実施形態の構成(
図6参照)と同様でよい。
【0068】
第3クラスタ取得部200は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、シーン情報取得部180で取得されたシーン情報に含まれる情報(典型的には、シーン情報に含まれる単語)が属するクラスタ(以下、適宜「第3クラスタ」と称する)を取得可能に構成されている。第3クラスタ取得部200で取得された第3クラスタに関する情報は、類似度算出部130に出力される構成となっている。
【0069】
(動作説明)
次に、
図13を参照しながら、第4実施形態に係る映像検索システム10の動作の流れについて説明する。
図13は、第4実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、
図13では、
図3、
図8及び
図11で示した処理と同様の処理に同一の符号を付している。
【0070】
図13に示すように、第4実施形態に係る映像検索システム10が動作する際には、まず物体タグ取得部110が、蓄積された映像から物体タグを取得する(ステップS101)。そして、第1クラスタ取得部160が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第1クラスタを取得する(ステップS102)。
【0071】
続いて、シーン情報取得部180が、蓄積された映像からシーン情報を取得する(ステップS301)。そして、第3クラスタ取得部200が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第3クラスタを取得する(ステップS401)。
【0072】
続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、第2クラスタ取得部170が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第2クラスタを取得する(ステップS202)。
【0073】
続いて、類似度算出部130は、第1クラスタ及び第3クラスタと第2クラスタとを比較することで、物体タグ及びシーン情報と、検索クエリとの類似度を算出する(ステップS103)。言い換えれば、第4実施形態における類似度は、第1クラスタ(即ち、物体タグが属するクラスタ)及び第3クラスタ(即ち、シーン情報が属するクラスタ)と、第2クラスタ(即ち、検索クエリが属するクラスタ)との類似度として算出される。類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。
【0074】
(技術的効果)
次に、第4実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
【0075】
図12及び
図13で説明したように、第4実施形態に係る映像検索システム10では、物体タグ、シーン情報、及び検索クエリに含まれる情報が属するクラスタに関する情報を用いて類似度の算出が行われる。このようにすれば、物体タグ及びシーン情報と検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。
【0076】
<付記>
以上説明した実施形態に関して、更に以下の付記を開示する。
【0077】
(付記1)
付記1に記載の映像検索システムは、映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、検索クエリを取得する検索クエリ取得部と、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備えることを特徴とする映像検索システムである。
【0078】
(付記2)
付記2に記載の映像検索システムは、前記物体タグに含まれる情報が属する第1クラスタを取得する第1クラスタ取得部と、前記検索クエリに含まれる情報が属する第2クラスタを取得する第2クラスタ取得部とを更に備え、前記類似度算出部は、前記第1クラスタと前記第2クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記1に記載の映像検索システムである。
【0079】
(付記3)
付記3に記載の映像検索システムは、前記第1クラスタは、前記物体タグを表現したベクトルに基づくクラスタであり、前記第2クラスタは、前記検索クエリを表現したベクトルに基づくクラスタであることを特徴とする付記2に記載の映像検索システムである。
【0080】
(付記4)
付記4に記載の映像検索システムは、前記類似度算出部は、前記映像に前記物体が映り込んでいる時間の長さに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記1から3のいずれか一項に記載の映像検索システムである。
【0081】
(付記5)
付記5に記載の映像検索システムは、前記類似度算出部は、前記映像に映り込んでいる前記物体の大きさに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記1から4のいずれか一項に記載の映像検索システムである。
【0082】
(付記6)
付記6に記載の映像検索システムは、前記物体タグは、前記物体を個々に区別する固有識別情報を含むことを特徴とする付記1から5のいずれか一項に記載に映像検索システムである。
【0083】
(付記7)
付記7に記載の映像検索システムは、前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする付記1から6のいずれか一項に記載の映像検索システムである。
【0084】
(付記8)
付記8に記載の映像検索システムは、前記映像のシーンを示すシーン情報を取得するシーン情報取得部を更に備え、前記類似度算出部は、前記物体タグ及び前記シーン情報と、前記検索クエリとの類似度を算出することを特徴とする付記1から7のいずれか一項に記載の映像検索システムである。
【0085】
(付記9)
付記9に記載の映像検索システムは、前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする付記8に記載の映像検索システムである。
【0086】
(付記10)
付記10に記載の映像検索システムは、前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする付記8又は9に記載の映像検索システムである。
【0087】
(付記11)
付記11に記載の映像検索システムは、前記検索クエリは自然言語であることを特徴とする付記1から10のいずれか一項に記載の映像検索システムである。
【0088】
(付記12)
付記12に記載の映像検索方法は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索することを特徴とする映像検索方法である。
【0089】
(付記13)
付記13に記載のコンピュータプログラムは、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
【0090】
(付記14)
付記14に記載の記録媒体は、付記13に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。
【0091】
本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像検索システム、映像検索方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。
【符号の説明】
【0092】
10 映像検索システム
50 単語ベクトル解析部
60 単語クラスタリング部
70 単語クラスタ情報記憶部
110 物体タグ取得部
120 検索クエリ取得部
130 類似度算出部
140 映像検索部
150 物体タグ付与部
160 第1クラスタ取得部
170 第2クラスタ取得部
180 シーン情報取得部
190 シーン情報付与部
200 第3クラスタ取得部