特許7416091 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7416091映像検索システム、映像検索方法、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】映像検索システム、映像検索方法、及びコンピュータプログラム

(51)【国際特許分類】

G06F 16/78 20190101AFI20240110BHJP

【ＦＩ】

G06F16/78

【請求項の数】 9

(21)【出願番号】P 2021570644

(86)(22)【出願日】2020-09-30

(86)【国際出願番号】 JP2020037243

(87)【国際公開番号】W WO2021145030

(87)【国際公開日】2021-07-22

【審査請求日】2022-07-04

(31)【優先権主張番号】62/960,334

(32)【優先日】2020-01-13

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】本橋洋介

(72)【発明者】

【氏名】武田麻代

【審査官】吉田誠

(56)【参考文献】

【文献】特開２００８－０９２１５３（ＪＰ，Ａ）

【文献】特開２００５－２０２４８５（ＪＰ，Ａ）

【文献】特開２０１８－１６９７３５（ＪＰ，Ａ）

【文献】特開２０００－２３６４９４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、
検索クエリを取得する検索クエリ取得部と、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行うクラスタリング部と、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第１クラスタを取得する第１クラスタ取得部と、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第２クラスタを取得する第２クラスタ取得部と、
前記第１クラスタと前記第２クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部と
を備えることを特徴とする映像検索システム。

【請求項2】

前記第１クラスタは、前記物体タグを表現したベクトルに基づくクラスタであり、
前記第２クラスタは、前記検索クエリを表現したベクトルに基づくクラスタである
ことを特徴とする請求項１に記載の映像検索システム。

【請求項3】

前記類似度算出部は、前記映像に前記物体が映り込んでいる時間の長さに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする請求項１又は２に記載の映像検索システム。

【請求項4】

前記類似度算出部は、前記映像に映り込んでいる前記物体の大きさに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする請求項１から３のいずれか一項に記載の映像検索システム。

【請求項5】

前記物体タグは、前記物体を個々に区別する固有識別情報を含むことを特徴とする請求項１から４のいずれか一項に記載に映像検索システム。

【請求項6】

前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする請求項１から５のいずれか一項に記載の映像検索システム。

【請求項7】

前記映像に付与されており、前記映像のシーンを示すシーン情報を取得するシーン情報取得部を更に備え、
前記類似度算出部は、前記物体タグ及び前記シーン情報と、前記検索クエリとの類似度を算出する
ことを特徴とする請求項１から６のいずれか一項に記載の映像検索システム。

【請求項8】

少なくとも１つのコンピュータによって、
映像に映り込んでいる物体に紐付けられた物体タグを取得し、
検索クエリを取得し、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行い、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第１クラスタを取得し、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第２クラスタを取得し、
前記第１クラスタと前記第２クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出し、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する
ことを特徴とする映像検索方法。

【請求項9】

映像に映り込んでいる物体に紐付けられた物体タグを取得し、
検索クエリを取得し、
前記物体タグ及び前記検索クエリに含まれ得る単語について、単語ベクトルに基づくクラスタリングを行い、
前記クラスタリングの結果に基づいて、前記物体タグに含まれる単語が属する第１クラスタを取得し、
前記クラスタリングの結果に基づいて、前記検索クエリに含まれる単語が属する第２クラスタを取得し、
前記第１クラスタと前記第２クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出し、
前記類似度に基づいて、前記検索クエリに対応した映像を検索する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像を検索する映像検索システム、映像検索方法、及びコンピュータプログラムの技術分野に関する。

【背景技術】

【0002】

この種のシステムとして、大量の映像データの中から所望の映像を検索するものが知られている。例えば特許文献１では、映像からフレームごとの画像特徴量を抽出して映像を検索する技術が開示されている。特許文献２では、検索クエリ用の静止画像を用いて映像を検索する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１５－１１４６８５号公報

【文献】特開２０１３－９２９４１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

検索方法の一例として、自然言語を用いるものが考えられる。しかしながら、上述した特許文献１及び２に記載されているような技術では、画像を用いた検索しか想定されておらず、自然言語を用いて映像を検索することができない。

【0005】

本発明は、上記問題点に鑑みてなされたものであり、所望の映像を適切に検索することが可能な映像検索システム、映像検索方法、及びコンピュータプログラムを提供することを課題とする。

【課題を解決するための手段】

【0006】

本発明の映像検索システムの一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、検索クエリを取得する検索クエリ取得部と、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備える。

【0007】

本発明の映像検索方法の一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索する。

【0008】

本発明のコンピュータプログラムの一の態様は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させる。

【発明の効果】

【0009】

上述した映像検索システム、映像検索方法、及びコンピュータプログラムのそれぞれの一の態様によれば、所望の映像を適切に検索することが可能であり、特に、自然言語を用いた映像検索を適切に実行することができる。

【図面の簡単な説明】

【0010】

【図1】第１実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。

【図2】第１実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。

【図3】物体タグの一例を示す表である。

【図4】第１実施形態に係る映像検索システムの変形例の構成を示すブロック図である。

【図5】第１実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

【図6】第２実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。

【図7】クラスタに対応する単語の一例を示す表である。

【図8】第２実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

【図9】第３実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。

【図10】第３実施形態に係る映像検索システムの変形例の構成を示すブロック図である。

【図11】第３実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

【図12】第４実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。

【図13】第４実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照しながら、映像検索システム、映像検索方法、及びコンピュータプログラムの実施形態について説明する。

【0012】

＜第１実施形態＞
まず、第１実施形態に係る映像検索システムについて、図１から図５を参照して説明する。

【0013】

（ハードウェア構成）
図１を参照しながら、第１実施形態に係る映像検索システムのハードウェア構成について説明する。図１は、第１実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。

【0014】

図１に示すように、第１実施形態に係る映像検索システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３と、記憶装置１４とを備えている。映像検索システム１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。ＣＰＵ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

【0015】

ＣＰＵ１１は、コンピュータプログラムを読み込む。例えば、ＣＰＵ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、ＣＰＵ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。ＣＰＵ１１は、ネットワークインタフェースを介して、映像検索システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。ＣＰＵ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、ＣＰＵ１１が読み込んだコンピュータプログラムを実行すると、ＣＰＵ１１内には、映像を検索するための機能ブロックが実現される。

【0016】

ＲＡＭ１２は、ＣＰＵ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、ＣＰＵ１１がコンピュータプログラムを実行している際にＣＰＵ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）であってもよい。

【0017】

ＲＯＭ１３は、ＣＰＵ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）であってもよい。

【0018】

記憶装置１４は、映像検索システム１０が長期的に保存するデータを記憶する。記憶装置１４は、ＣＰＵ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

【0019】

入力装置１５は、映像検索システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。

【0020】

出力装置１６は、映像検索システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、映像検索システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。

【0021】

（機能的構成）
続いて、図２から図４を参照しながら、第１実施形態に係る映像検索システム１０の機能的構成について説明する。図２は、第１実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図３は、物体タグの一例を示す表である。図４は、第１実施形態に係る映像検索システムの変形例の構成を示すブロック図である。

【0022】

図２に示すように、第１実施形態に係る映像検索システム１０は、蓄積された映像から所望の映像（具体的には、ユーザによって入力される検索クエリに応じた映像）を検索可能に構成されている。検索対象となる映像には、例えば映像によるライフログが含まれるが、特に限定されない。なお、映像は、例えば記憶装置１４（図１参照）等に蓄積されていてもよいし、システム外部の記憶手段（例えば、サーバ等）に蓄積されていてもよい。映像検索システム１０は、その機能を実現するための機能ブロックとして、物体タグ取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０とを備えて構成されている。これらの機能ブロックは、例えばＣＰＵ１１（図１参照）において実現される。

【0023】

物体タグ取得部１１０は、蓄積された映像から物体タグを取得可能に構成されている。物体タグは、映像に映り込んでいる物体に関する情報であり、映像中の各物体に紐付けられている。ただし、１つの物体に対して複数の物体タグが紐付けられていてもよい。物体タグは、典型的には一般名詞であるが、例えば同一性検査等を行って固有名詞として紐付けられていてもよい（即ち、物体を個々に識別する固有識別情報であってもよい）。また、物体タグは、物体の名称以外の情報（例えば、形状や性質等）を示す情報であってもよい。物体タグ取得部１１０は、例えば映像のフレーム単位で物体タグを取得してもよい。物体タグ取得部１１０は、取得した物体タグを記憶する記憶部を備えていてもよい。物体タグは、例えば図３に示すように、各映像の各フレーム単位で記憶部に記憶されてよい。物体タグ取得部１１０で取得された物体タグは、類似度算出部１３０に出力される構成となっている。

【0024】

検索クエリ取得部１２０は、ユーザが入力する検索クエリを取得可能に構成されている。検索クエリは、ユーザが所望する映像（即ち、検索しようとする映像）に関する情報を含むものである。検索クエリは、例えば自然言語として入力される。この場合の検索クエリは、例えば複数の単語や句を含んでいてもよい。自然言語である検索クエリの一例としては、「コンピュータを使いながら食べたサンドイッチ」、「見学した蒸留窯」、及び「北海道で食べた昼食」等が挙げられる。ユーザは、例えば入力装置１５（図１参照等）を用いて検索クエリを入力することができる。検索クエリ取得部１２０で取得された検索クエリは、類似度算出部１３０に出力される構成となっている。

【0025】

類似度算出部１３０は、物体タグ取得部１１０で取得された物体タグと、検索クエリ取得部１２０で取得された検索クエリとを比較して、これらの類似度を算出可能に構成されている。ここでの「類似度」は、物体タグと検索クエリとが類似している程度を示す定量的なパラメータとして算出される。類似度は、複数の映像の各々について算出されてもよいし、映像の所定期間ごとに算出されてもよい。この場合の所定期間は、映像に応じて適宜定められればよく、可変であってもよい。類似度算出部１３０は、例えば辞書や形態素解析を用いて、検索クエリを複数の単語（検索語）に分解する機能を有していてもよい。この場合、類似度算出部１３０は、物体タグと検索語との一致件数を類似度として算出してもよい。物体タグと検索語との一致件数は、例えば予め設定された集計時間（例えば、１分や１時間等）単位で算出されてよい。類似度算出部１３０で算出された類似度は、映像検索部１４０に出力される構成となっている。

【0026】

なお、類似度算出部１３０は、物体が映像に映り込む際の態様に応じて類似度を算出してもよい。例えば、類似度算出部１３０は、物体が映像に映り込む期間の長さや映像に占める物体の大きさの割合等に基づいて類似度を算出してもよい。より具体的には、映像に長期間映り込んでいる物体や、大きく映り込んでいる物体、映像を撮像するカメラの近くで映り込んでいる物体に対して、類似度算出部１３０は、その物体タグに関する類似度を高く算出してもよい。逆に、映像に極めて短い時間しか映り込んでいない物体や、小さく映り込んでいる物体。映像を撮像するカメラから遠くで映り込んでいる物体に対して、類似度算出部１３０は、その物体タグに関する類似度を低く算出してもよい。このようにすれば、後述する類似度に基づいた映像検索の精度を高めることが可能である。

【0027】

映像検索部１４０は、類似度算出部１３０で算出された類似度に基づいて、検索クエリに応じた映像を検索する。映像検索部１４０は、例えば類似度が所定の条件を満たす映像を検索結果として出力する。この場合、出力される映像は複数であってもよい。或いは、映像検索部１４０は、類似度が最も高い映像を出力してもよいし、類似度の高い複数個の映像を検索結果として出力してもよい。更に、映像検索部１４０は、検索結果として出力した映像を再生する機能を有していてもよい。また、映像検索部１４０は、サムネイルのように、検索結果として出力した映像を示す画像を表示する機能を有していてもよい。

【0028】

図４に示すように、映像検索システム１０は、物体タグ付与部１５０を備えて構成されてもよい。物体タグ付与部１５０は、例えば事前に機械学習された物体認識モデルを用いて、映像に映り込んでいる物体に物体タグを紐付ける。なお、物体を認識して物体タグを付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム１０が物体タグ付与部１５０を備えている場合は、映像に物体タグが付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム１０は、物体タグ付与部１５０が映像に物体タグを付与した上で、映像検索を行うことができる。一方、映像検索システム１０が物体タグ付与部１５０を備えていない場合には、事前に物体タグを付与した映像を用意すればよい。この場合、物体タグは、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。

【0029】

（動作説明）
次に、図５を参照しながら、第１実施形態に係る映像検索システム１０の動作の流れについて説明する。図５は、第１実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

【0030】

図４に示すように、第１実施形態に係る映像検索システム１０が動作する際には、まず物体タグ取得部１１０が、蓄積された映像から物体タグを取得する（ステップＳ１０１）。なお、上述した物体タグ付与部１５０が備えられる構成では、ステップＳ１０１が実行される前に、物体タグ付与部１５０による物体タグの付与が実行されてもよい。

【0031】

続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、類似度算出部１３０が、物体タグ取得部１１０で取得された物体タグと、検索クエリ取得部１２０で取得された検索クエリとの類似度を算出する（ステップＳ１０３）。

【0032】

最後に、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。なお、映像検索システム１０は、検索結果の絞り込みを可能に構成されていてもよい。この場合、検索クエリ取得部１２０によって新たな検索クエリが取得された後に、上述したステップＳ１０３の処理（即ち、類似度の算出）、及びステップＳ１０４の処理（即ち、類似度に基づいた映像検索）が再び実行されればよい。

【0033】

（技術的効果）
次に、第１実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

【0034】

図１から図４で説明したように、第１実施形態に係る映像検索システム１０では、物体タグと検索クエリとの類似度に基づいて映像検索が行われる。よって、検索クエリに応じた映像を適切に検索することができる。そして、本実施形態に係る映像検索システム１０では特に、検索クエリが自然言語として入力された場合であっても、ユーザが所望する映像を適切に検索できる。

【0035】

なお、このような技術的効果は、例えばライフログ等の映像検索において顕著に発揮され得る。人はすべての行動や状況を明確に記憶することは難しく、断片的に且つ曖昧に記憶していることが多い。しかるに第１実施形態に係る映像検索システム１０によれば、自然言語による検索クエリを用いた映像検索が行えるため、検索クエリに一部情報が欠如していたとしても、大量の映像の中から所望する映像を検索することが可能である。言い換えれば、多少の曖昧さを許容した上で、精度の高い映像検索を実現することができる。

【0036】

＜第２実施形態＞
次に、第２実施形態に係る映像検索システム１０について、図６から図８を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作（具体的には、類似度の算出にクラスタを用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第１実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

【0037】

（機能的構成）
まず、図６及び図７を参照しながら、第２実施形態に係る映像検索システム１０の機能的構成について説明する。図６は、第２実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図７は、クラスタに対応する単語の一例を示す表である。なお、図６では、図２で示した構成要素と同様のものに同一の符号を付している。

【0038】

図６に示すように、第２実施形態に係る映像検索システム１０は、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、物体タグ取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０とを備えている。即ち、第２実施形態に係る映像検索システム１０は、第１実施形態の構成（図２参照）に加えて、単語ベクトル解析部５０、単語クラスタリング部６０、単語クラスタ情報記憶部７０、第１クラスタ取得部１６０及び第２クラスタ取得部１７０を更に備えて構成されている。

【0039】

単語ベクトル解析部５０は、文書データを解析して、文書に含まれる単語をベクトルデータ（以下、適宜「単語ベクトル」と称する）に変換可能に構成されている。文書データは、例えばｗｅｂサイトや時点などの一般的な文書であってもよいし、映像に関連する文書（例えば、映像の撮影者の業務やサービスに関する文書）等であってもよい。映像に関連する文書を用いた場合、一般的な単語の類似性ではなく、映像に関連する専門用語に基づいた類似性を解析することが可能となる。単語ベクトル解析部５０は、例えば、ｗｏｒｄ２ｖｅｃ等のｗｏｒｄＥｍｂｅｄｄｉｎｇ手法、又はｄｏｃ２ｖｅｃ等のｄｏｃＥｍｂｅｄｄｉｎｇ手法を用いて、単語ベクトルへの変換を行う。単語ベクトル解析部５０で生成された単語ベクトルは、単語クラスタリング部６０に出力される構成となっている。

【0040】

単語クラスタリング部６０は、単語ベクトル解析部５０で生成された単語ベクトルに基づいて、各単語をクラスタリング可能に構成されている。単語クラスタリング部６０は、単語同士のベクトルの類似性に基づいてクラスタリングを行えばよい。単語クラスタリング部６０は、例えば、単語ベクトル同士のｃｏｓ類似度やユークリッド距離に基づいて、k－ｍｅａｎｓによるクラスタリングを行う。ただし、クラスタリングの手法については、特に限定されない。単語クラスタリング部６０のクラスタリング結果は、単語クラスタ情報記憶部７０に出力される構成となっている。

【0041】

単語クラスタ情報記憶部７０は、単語クラスタリング部６０によるクラスタリングの結果を記憶可能に構成されている。単語クラスタ情報記憶部７０は、例えば図７に示すように、各クラスタのＩＤと、各クラスタに属する単語とを記憶する。単語クラスタ情報記憶部７０に記憶された情報は、第１クラスタ取得部１６０及び第２クラスタ取得部１７０により、適宜利用可能な状態で記憶されている。

【0042】

第１クラスタ取得部１６０は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、物体タグ取得部１１０で取得された物体タグに含まれる情報が属するクラスタ（以下、適宜「第１クラスタ」と称する）を取得可能に構成されている。物体タグに含まれる情報には、例えば物体タグに含まれる単語があるが、これには限られない。第１クラスタは、物体タグを表現したベクトルに基づくクラスタであってよい。第１クラスタ取得部１６０で取得された第１クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

【0043】

第２クラスタ取得部１７０は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、検索クエリ取得部１２０で取得された検索クエリに含まれる情報（典型的には、検索クエリに含まれる単語）が属するクラスタ（以下、適宜「第２クラスタ」と称する）を取得可能に構成されている。第２クラスタは、検索クエリを表現したベクトルに基づくクラスタであってよい。第２クラスタ取得部１７０で取得された第２クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

【0044】

（動作説明）
次に、図８を参照しながら、第２実施形態に係る映像検索システム１０の動作の流れについて説明する。図８は、第２実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図８では、図５で示した処理と同様の処理に同一の符号を付している。以下では、文書データを用いた単語のクラスタリング（即ち、単語ベクトル解析部５０、及び単語クラスタリング部６０による処理）が行われ、その結果が既に単語クラスタ情報記憶部７０に記憶されている前提で説明を進める。

【0045】

図８に示すように、第２実施形態に係る映像検索システム１０が動作する際には、まず物体タグ取得部１１０が、蓄積された映像から物体タグを取得する（ステップＳ１０１）。そして、第１クラスタ取得部１６０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第１クラスタを取得する（ステップＳ１０２）。第１クラスタ取得部１６０は、例えば、映像から取得した物体タグに含まれる単語の各々について、単語クラスタ情報記憶部７０に対する問い合わせを行い、各単語に対応するクラスタＩＤを取得する。

【0046】

続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、第２クラスタ取得部１７０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第２クラスタを取得する（ステップＳ２０２）。第２クラスタ取得部１７０は、例えば、検索クエリに含まれる検索語の各々について、単語クラスタ情報記憶部７０に対して問い合わせを行い、各検索語に対応するクラスタＩＤを取得する。

【0047】

続いて、類似度算出部１３０が、第１クラスタと第２クラスタとを比較することで、物体タグと検索クエリとの類似度を算出する（ステップＳ１０３）。言い換えれば、第２実施形態における類似度は、第１クラスタ（即ち、物体タグが属するクラスタ）と、第２クラスタ（即ち、検索クエリが属するクラスタ）との類似度として算出される。類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索して出力する（ステップＳ１０４）。

【0048】

なお、第１クラスタと第２クラスタとの類似度は、第１クラスタのクラスタ情報及び第２クラスタのクラスタ情報をそれぞれベクトルに見立てた場合の、ｃｏｓ類似度として算出することができる。例えば、第１クラスタのクラスタ情報をＶａ、第２クラスタのクラスタ情報をＶｂとした場合、第１クラスタと第２クラスタとの類似度は、下記式（１）を用いて算出できる。
（Ｖａ／｜｜Ｖａ｜｜）・（Ｖｂ／｜｜Ｖｂ｜｜）・・・（１）
なお、｜｜Ｖａ｜｜及び｜｜Ｖｂ｜｜は、それぞれＶａ及びＶｂのノルムである。

【0049】

（技術的効果）
次に、第２実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

【0050】

図６から図８で説明したように、第２実施形態に係る映像検索システム１０では、物体タグ及び検索クエリに含まれる単語が属するクラスタを用いて類似度の算出が行われる。このようにすれば、物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。

【0051】

＜第３実施形態＞
次に、第３実施形態に係る映像検索システム１０について、図９から図１１を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態と比べて一部の構成及び動作（具体的には、シーン情報を用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第１及び第２実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

【0052】

（機能的構成）
まず、図９及び図１０を参照しながら、第３実施形態に係る映像検索システム１０の機能的構成について説明する。図９は、第３実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図１０は、第３実施形態に係る映像検索システムの変形例の構成を示すブロック図である。なお、図９及び図１０では、図２及び図４で示した構成要素と同様のものに同一の符号を付している。

【0053】

図９に示すように、第３実施形態に係る映像検索システム１０は、物体タグ取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、シーン情報取得部１８０とを備えている。即ち、第３実施形態に係る映像検索システム１０は、第１実施形態の構成（図２参照）に加えて、シーン情報取得部１８０を更に備えて構成されている。

【0054】

シーン情報取得部１８０は、映像のシーンを示すシーン情報を取得可能に構成されている。シーン情報は、例えば映像が撮像された場所情報、時間情報、映像が撮影された際の状況や雰囲気等を示す情報を含んでいる。シーン情報としては、映像のシーンと関係し得るその他の情報が含まれていてもよい。シーン情報のより具体的な例として、位置情報は、例えばＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）等から得られる位置情報である。時間情報は、タイムスタンプ等から得られる日時に関する情報である。また、映像が撮影された際の状況や雰囲気等を示す情報としては、撮像者又は被撮像者の行動から得られる情報が含まれていてもよい。シーン情報は、１つの映像に１つずつ付与されたものであってもよいし、シーンが切り替わる映像については１つの映像に複数のシーン情報が付与されていてもよい。また、ある期間の映像に複数のシーン情報が付与されていてもよい。例えば、ある期間の映像に、タイムスタンプから得られた時間情報と、ＧＰＳから得られた位置情報とが、シーン情報として付与されてもよい。シーン情報取得部１８０は、取得したシーン情報を記憶する記憶部を備えていてもよい。シーン情報取得部１８０で取得されたシーン情報は、類似度算出部１３０に出力される構成となっている。

【0055】

第３実施形態に係る類似度算出部１３０は、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン範囲毎に類似度を算出してもよい。例えば、シーン範囲は、映像内のシーン情報の偏りを用いて設定されてよい。例えば、シーン情報として、映像を撮影した位置情報が取得されている場合、映像を所定時間（例えば、１０秒）で区切り、区切った各映像（以下、適宜「区切り映像」と称する）の位置情報に含まれる緯度経度情報の平均値を算出する。そして、隣接する区切り映像について、算出した平均値の差分が所定値未満である場合は同じ区切りとして統合する（例えば、１，２，３，４，・・・と区切り映像があり、３と４との差分が所定値未満であった場合には、３及び４を５に統合して、１，２、５・・・とする）。その後、統合した区切り映像についても再度平均値を算出し、差分が所定値未満となるものがなくなるまで同様の処理を繰り返す。このようにすれば、比較的近い場所で撮影された映像が１つのシーンとして設定されることになる。

【0056】

また、シーン範囲は、物体タグの偏りを用いて設定されてよい。或いは、シーン範囲は、映像に一定期間以上映り込んでいる情報を用いて設定されてよい。例えば、同じ物体が一定期間以上連続して映り込んでいる期間については、１つのシーン範囲として設定してもよい。この場合、映像に映り込んでいる物体を識別するために、物体タグを用いてもよい。

【0057】

図１０に示すように、映像検索システム１０は、物体タグ付与部１５０と、シーン情報付与部１９０とを備えていてもよい。即ち、図４に示した映像検索システムの変形例に、シーン情報付与部１９０を更に備えて構成されてもよい。

【0058】

シーン情報付与部１９０は、例えば事前に機械学習されたシーン認識モデルを用いて、映像のシーンを自動的に認識してシーン情報を付与する。なお、シーン情報を自動的に付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム１０がシーン情報付与部１９０を備えている場合は、映像にシーン情報が付与されていない場合であっても、シーン情報を用いた映像検索を行うことができる。即ち、映像検索システム１０は、シーン情報付与部１９０が映像にシーン情報を付与した上で、映像検索を行うことができる。一方、映像検索システム１０がシーン情報付与部１９０を備えていない場合には、事前にシーン情報を付与した映像を用意すればよい。この場合、シーン情報は、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。

【0059】

（動作説明）
次に、図１１を参照しながら、第３実施形態に係る映像検索システム１０の動作の流れについて説明する。図１１は、第３実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図１１では、図５で示した処理と同様の処理に同一の符号を付している。

【0060】

図１１に示すように、第３実施形態に係る映像検索システム１０が動作する際には、まず物体タグ取得部１１０が、蓄積された映像から物体タグを取得する（ステップＳ１０１）。また、シーン情報取得部１８０が、蓄積された映像からシーン情報を取得する（ステップＳ３０１）。更に、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。なお、上述したシーン情報付与部１９０が備えられる構成では、ステップＳ３０１が実行される前に、シーン情報付与部１９０によるシーン情報の付与が実行されてもよい。

【0061】

続いて、類似度算出部１３０は、物体タグ及びシーン情報と、検索クエリとの類似度を算出する（ステップＳ１０３）。ここでの類似度は、物体タグと検索クエリとの類似度、及びシーン情報と検索クエリとの類似度として別々に算出されてもよい（即ち、物体タグに関する類似度と、シーン情報に関する類似度との２種類の類似度が算出されてもよい）。或いは、類似度は、物体タグ及びシーン情報の両方と、検索クエリとの類似度としてまとめて算出されてもよい（即ち、物体タグ及びシーン情報の両方を考慮した１種類の類似度が算出されてもよい）。

【0062】

類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索して出力する（ステップＳ１０４）。なお、物体タグとの検索クエリとの類似度、及びシーン情報と検索クエリとの類似度とが別々に算出されている場合、それら２つの類似度から算出される総合的な類似度（例えば、２つの類似度の平均値等）に基づいて、検索クエリに応じた映像を検索すればよい。

【0063】

（技術的効果）
次に、第３実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

【0064】

図９から図１１で説明したように、第３実施形態に係る映像検索システム１０では、更にシーン情報を用いて類似度が算出される。このようにすれば、映像が撮像された状況、場所、時間、雰囲気等を考慮して、映像を検索することができる。この結果、ユーザが所望する映像をより精度よく検索することが可能となる。

【0065】

＜第４実施形態＞
次に、第４実施形態に係る映像検索システム１０について、図１２及び図１３を参照して説明する。なお、第４実施形態は、上述した第３実施形態と比べて一部の構成及び動作（具体的には、類似度の算出にクラスタを用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第３実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

【0066】

（機能的構成）
まず、図１２を参照しながら、第４実施形態に係る映像検索システム１０の機能的構成について説明する。図１２は、第４実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。なお、図１２では、図９で示した構成要素と同様のものに同一の符号を付している。

【0067】

図１２に示すように、第４実施形態に係る映像検索システム１０は、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、物体タグ取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０と、シーン情報取得部１８０と、第３クラスタ取得部２００とを備えている。即ち、第４実施形態に係る映像検索システム１０は、第３実施形態の構成（図９参照）に加えて、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０と、第３クラスタ取得部２００とを更に備えて構成されている。なお、第１クラスタ取得部１６０及び第２クラスタ取得部１７０については、第２実施形態の構成（図６参照）と同様でよい。

【0068】

第３クラスタ取得部２００は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、シーン情報取得部１８０で取得されたシーン情報に含まれる情報（典型的には、シーン情報に含まれる単語）が属するクラスタ（以下、適宜「第３クラスタ」と称する）を取得可能に構成されている。第３クラスタ取得部２００で取得された第３クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

【0069】

（動作説明）
次に、図１３を参照しながら、第４実施形態に係る映像検索システム１０の動作の流れについて説明する。図１３は、第４実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図１３では、図３、図８及び図１１で示した処理と同様の処理に同一の符号を付している。

【0070】

図１３に示すように、第４実施形態に係る映像検索システム１０が動作する際には、まず物体タグ取得部１１０が、蓄積された映像から物体タグを取得する（ステップＳ１０１）。そして、第１クラスタ取得部１６０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第１クラスタを取得する（ステップＳ１０２）。

【0071】

続いて、シーン情報取得部１８０が、蓄積された映像からシーン情報を取得する（ステップＳ３０１）。そして、第３クラスタ取得部２００が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第３クラスタを取得する（ステップＳ４０１）。

【0072】

続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、第２クラスタ取得部１７０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第２クラスタを取得する（ステップＳ２０２）。

【0073】

続いて、類似度算出部１３０は、第１クラスタ及び第３クラスタと第２クラスタとを比較することで、物体タグ及びシーン情報と、検索クエリとの類似度を算出する（ステップＳ１０３）。言い換えれば、第４実施形態における類似度は、第１クラスタ（即ち、物体タグが属するクラスタ）及び第３クラスタ（即ち、シーン情報が属するクラスタ）と、第２クラスタ（即ち、検索クエリが属するクラスタ）との類似度として算出される。類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。

【0074】

（技術的効果）
次に、第４実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

【0075】

図１２及び図１３で説明したように、第４実施形態に係る映像検索システム１０では、物体タグ、シーン情報、及び検索クエリに含まれる情報が属するクラスタに関する情報を用いて類似度の算出が行われる。このようにすれば、物体タグ及びシーン情報と検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。

【0076】

＜付記＞
以上説明した実施形態に関して、更に以下の付記を開示する。

【0077】

（付記１）
付記１に記載の映像検索システムは、映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部と、検索クエリを取得する検索クエリ取得部と、前記物体タグと前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備えることを特徴とする映像検索システムである。

【0078】

（付記２）
付記２に記載の映像検索システムは、前記物体タグに含まれる情報が属する第１クラスタを取得する第１クラスタ取得部と、前記検索クエリに含まれる情報が属する第２クラスタを取得する第２クラスタ取得部とを更に備え、前記類似度算出部は、前記第１クラスタと前記第２クラスタとを比較して、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記１に記載の映像検索システムである。

【0079】

（付記３）
付記３に記載の映像検索システムは、前記第１クラスタは、前記物体タグを表現したベクトルに基づくクラスタであり、前記第２クラスタは、前記検索クエリを表現したベクトルに基づくクラスタであることを特徴とする付記２に記載の映像検索システムである。

【0080】

（付記４）
付記４に記載の映像検索システムは、前記類似度算出部は、前記映像に前記物体が映り込んでいる時間の長さに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記１から３のいずれか一項に記載の映像検索システムである。

【0081】

（付記５）
付記５に記載の映像検索システムは、前記類似度算出部は、前記映像に映り込んでいる前記物体の大きさに基づいて、前記物体タグと前記検索クエリとの類似度を算出することを特徴とする付記１から４のいずれか一項に記載の映像検索システムである。

【0082】

（付記６）
付記６に記載の映像検索システムは、前記物体タグは、前記物体を個々に区別する固有識別情報を含むことを特徴とする付記１から５のいずれか一項に記載に映像検索システムである。

【0083】

（付記７）
付記７に記載の映像検索システムは、前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする付記１から６のいずれか一項に記載の映像検索システムである。

【0084】

（付記８）
付記８に記載の映像検索システムは、前記映像のシーンを示すシーン情報を取得するシーン情報取得部を更に備え、前記類似度算出部は、前記物体タグ及び前記シーン情報と、前記検索クエリとの類似度を算出することを特徴とする付記１から７のいずれか一項に記載の映像検索システムである。

【0085】

（付記９）
付記９に記載の映像検索システムは、前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする付記８に記載の映像検索システムである。

【0086】

（付記１０）
付記１０に記載の映像検索システムは、前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする付記８又は９に記載の映像検索システムである。

【0087】

（付記１１）
付記１１に記載の映像検索システムは、前記検索クエリは自然言語であることを特徴とする付記１から１０のいずれか一項に記載の映像検索システムである。

【0088】

（付記１２）
付記１２に記載の映像検索方法は、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索することを特徴とする映像検索方法である。

【0089】

（付記１３）
付記１３に記載のコンピュータプログラムは、映像に映り込んでいる物体に紐付けられた物体タグを取得し、検索クエリを取得し、前記物体タグと前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

【0090】

（付記１４）
付記１４に記載の記録媒体は、付記１３に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。

【0091】

本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像検索システム、映像検索方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。

【符号の説明】

【0092】

１０映像検索システム
５０単語ベクトル解析部
６０単語クラスタリング部
７０単語クラスタ情報記憶部
１１０物体タグ取得部
１２０検索クエリ取得部
１３０類似度算出部
１４０映像検索部
１５０物体タグ付与部
１６０第１クラスタ取得部
１７０第２クラスタ取得部
１８０シーン情報取得部
１９０シーン情報付与部
２００第３クラスタ取得部

【図1】