(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】ルール生成装置、ルール生成方法及びルール生成プログラム
(51)【国際特許分類】
G06F 16/783 20190101AFI20221109BHJP
G06V 10/762 20220101ALI20221109BHJP
【FI】
G06F16/783
G06V10/762
(21)【出願番号】P 2018211716
(22)【出願日】2018-11-09
【審査請求日】2021-08-10
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】石田 勉
【審査官】早川 学
(56)【参考文献】
【文献】米国特許出願公開第2016/0217330(US,A1)
【文献】国際公開第2015/052896(WO,A1)
【文献】特開2011-109428(JP,A)
【文献】特開2006-244279(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06T 7/00-7/90
H04N 7/18
G06V 10/762
(57)【特許請求の範囲】
【請求項1】
複数のサンプル映像を取得する取得部と、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、
前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、
を有することを特徴とするルール生成装置。
【請求項2】
前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする請求項1に記載のルール生成装置。
【請求項3】
前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする請求項1または2に記載のルール生成装置。
【請求項4】
前記生成部は、前記頻度が最高である第1のクラスタが出現しないサンプル映像から得られた第2のクラスタのうち、前記第1のクラスタとの間で要素の一致度が所定の閾値以上である第2のクラスタを前記第1のクラスタと同定することを特徴とする請求項1、2または3に記載のルール生成装置。
【請求項5】
複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、
前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータが実行することを特徴とするルール生成方法。
【請求項6】
複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、
前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータに実行させることを特徴とするルール生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ルール生成装置、ルール生成方法及びルール生成プログラムに関する。
【背景技術】
【0002】
映像から特定のシーンを検索する技術が各種のソリューションに適用されることがある。例えば、監視カメラから得られる映像の中から、商店や広告等に関心がある動作、不審な動き、迷子、あるいは車両の追突事故などのシーンが検索されることがある。このような映像検索を実現する側面から、ディープラーニング(Deep Learning)により、特定のシーンを認識するモデル、例えばRNN(Recurrent Neural Networks)などが学習されることがある。
【先行技術文献】
【非特許文献】
【0003】
【文献】Li-Jia Li, Hao Su , Yongwhan Lim, Li Fei-Fei “Objects as Attributes for Scene Classification”
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ディープラーニングによりモデル学習を行う場合、訓練データのコストが増大する。例えば、ディープラーニングの場合、モデル学習に用いる訓練データを数千や数万といった規模のオーダで用意することが求められる。このような規模のオーダで訓練データを用意するのは困難であるという一面がある。さらに、教師あり学習の場合、各々の訓練データには、正解のラベルを付与せねばならず、ラベルの付与にも手間がかかるという側面もある。このように、ディープラーニングによりモデル学習を行う場合、数量や手間などの様々な面において訓練データのコストが増大する。
【0005】
1つの側面では、本発明は、訓練データのコストが削減された映像検索を実現できるルール生成装置、ルール生成方法及びルール生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
一態様では、複数のサンプル映像を取得する取得部と、前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、を有する。
【発明の効果】
【0007】
訓練データのコストが削減された映像検索を実現できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施例1に係るシステムに含まれるルール生成装置の機能的構成の一例を示すブロック図である。
【
図2】
図2は、ルールの生成方法の一例を示す図である。
【
図3】
図3は、学習済みモデルが出力する属性のラベルの一例を示す図である。
【
図4】
図4は、ルールの生成方法の一例を示す図である。
【
図5】
図5は、位置および時間の識別結果の一例を示す図である。
【
図6】
図6は、クラスタリングの一例を示す図である。
【
図9】
図9は、実施例1に係るルール生成処理の手順を示すフローチャートである。
【
図10】
図10は、実施例1及び実施例2に係るルール生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して本願に係るルール生成装置、ルール生成方法及びルール生成プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例1】
【0010】
[システム構成]
図1は、実施例1に係るシステムに含まれるルール生成装置の機能的構成の一例を示すブロック図である。
図1に示すシステム1では、映像から特定のシーンを抽出するのに用いるルールを生成するルール生成サービス、並びに、上記のルールにしたがって映像から特定のシーンを検索する映像検索サービスが提供される。
【0011】
図1に示すように、システム1には、ルール生成装置10と、映像検索装置30とが含まれる。ここで、
図1には、あくまで一例として、ルール生成装置10及び映像検索装置30の2つのマシンが別々に構築されるシステムを例に挙げる。この場合、ルール生成装置10及び映像検索装置30は、ネットワーク通信を介して、データを授受することができる。
【0012】
ルール生成装置10は、上記のルール生成サービスを提供するコンピュータの一例に対応する。
【0013】
一実施形態として、ルール生成装置10は、パッケージソフトウェア又はオンラインソフトウェアとして、上記のルール生成サービスに対応する機能を実現するルール生成プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、ルール生成装置10は、上記のルール生成サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記のルール生成サービスを提供するクラウドとして実装することとしてもかまわない。
【0014】
映像検索装置30は、上記の映像検索サービスを提供するコンピュータの一例に対応する。
【0015】
一実施形態として、映像検索装置30は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の映像検索サービスに対応する機能を実現する映像検索プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、映像検索装置30は、上記の映像検索サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記の映像検索サービスを提供するクラウドとして実装することとしてもかまわない。この他、上記の映像検索サービスが適用される映像の情報ソース、例えば監視カメラなどの最寄りに位置するエッジサーバが映像検索装置30として実装されることとしてもかまわない。
【0016】
これらルール生成サービス及び映像検索サービスは、必ずしも異なる事業者により提供されずともよく、同一の事業者により提供されることとしてもかまわない。この場合、ルール生成装置10及び映像検索装置30は、必ずしも個別に構築されずともよく、上記のルール生成サービス及び上記の映像検索サービスがパッケージされた一連のサービスをクラウドサービスとして提供することもできる。
【0017】
[課題の一側面]
上記の背景技術の欄でも説明した通り、ディープラーニングによりモデル学習を行う場合、訓練データのコストが増大する。例えば、数量の面で言えば、数千や数万といった規模のオーダでモデル学習に用いる訓練データの用意が必要となる。さらに、労力の面で言えば、各々の訓練データには、正解のラベルを付与せねばならず、ラベルの付与にも手間がかかる。
【0018】
[課題解決のアプローチの一側面]
このことから、本実施例に係るルール生成装置10では、ディープラーニングにより、特定のシーンを認識するモデルを学習するというアプローチは採用しない。その代わりに、本実施例に係るルール生成装置10では、映像が入力されることにより属性のラベルを出力する学習済みモデルを映像検索に用いるというアプローチを採用する。
【0019】
ここで、上記の学習済みモデルとは、機械学習が実行済みであるモデルを指し、例えば、ディープラーニングにより機械学習が行われたモデルが挙げられる。例えば、上記の学習済みモデルは、必ずしも上記のルール生成サービスを提供する事業者独自で開発されたものでなくともよく、モデルの構造およびパラメータがオンラインで公開されたオープンソースのライブラリ等であってかまわない。
【0020】
このように、上記の学習済みモデルは、機械学習が実行済みであれば任意のモデルであってよい一方で、映像が入力された学習済みモデルが出力する属性のラベルは、必ずしも特定のシーンを認識することに特化したものであると限らない。
【0021】
そこで、上記の学習済みモデルを用いて特定のシーンを認識する機能を実現する側面から、本実施例に係るルール生成装置10は、学習済みモデルが出力する属性のラベルの組合せに基づいて特定のシーンを検出できるルールを生成する。例えば、特定のシーンを含むサンプル映像を学習済みモデルに入力し、当該学習済みモデルから出力される属性のラベルの組合せからルールが生成される。このように生成されたルールと、任意の情報ソース、例えば監視カメラ等から取得された映像を学習済みモデルへ入力することにより得られた属性のラベルとを比較することにより、特定のシーンを含む映像を検索する。
【0022】
図2は、ルールの生成方法の一例を示す図である。
図2には、特定のシーンの一例として、2人の男性が握手をするシーンを含むサンプル映像s1が例示されている。さらに、
図2には、学習済みモデルの一例として、行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルが例示されている。なお、
図2には、ルール生成に3つの学習済みモデルを用いる例を挙げるが、学習済みモデルの数は1つ、2つ、あるいは4つ以上でもかまわず、他の種類の学習済みモデルであってもかまわない。
【0023】
このうち、行動認識モデルM1は、映像が入力されることにより、属性の一例として、「歩く」、「走る」、「握手」、「持つ」などといった行動要素のラベルを出力する学習済みモデルに対応する。また、外観判別モデルM2は、映像が入力されることにより、属性の一例として、「大人 男」、「大人 女」などといった外観、例えば「年代+性別」のラベルを出力する学習済みモデルに対応する。さらに、状況認識モデルM3は、映像が入力されることにより、属性の一例として、「屋外」、「屋内」、「ドア」、「木」、「草」、「道」などといった背景のラベルを出力する学習済みモデルに対応する。
【0024】
図2に示すように、サンプル映像s1が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力される。この結果、行動認識モデルM1は、行動要素「握手」のラベルL1を出力する。また、外観判別モデルM2は、外観「大人 男」のラベルL2および外観「大人 男」のラベルL3を出力する。一方、
図2に示すサンプル映像s1の例では背景が白色でマスクされているので、状況認識モデルM3からは出力を得られない。
【0025】
このように得られた行動要素「握手」のラベルL1、外観「大人 男」のラベルL2および外観「大人 男」のラベルL3からルールr1が生成される。例えば、
図2に示す例で言えば、行動要素「握手」のラベルL1、外観「大人 男」のラベルL2および外観「大人 男」のラベルL3がAND条件で接続されることにより、ルールr1が生成される。このようなルールr1により、行動認識モデルM1が行動要素「握手」のラベルを出力し、かつ外観判別モデルM2が外観「大人 男」のラベルおよび外観「大人 男」のラベルを出力するフレームの映像を抽出することが可能になる。
【0026】
このようなルールの生成によって、ディープラーニングによりモデルの機械学習が行われる場合に比べて、訓練データのコストを削減することが可能になる。例えば、ディープラーニングの場合、モデル学習に用いる訓練データを数千や数万といった規模のオーダで用意することが求められるが、属性のラベルを組み合わせてルールを生成する場合、一桁程度のオーダでサンプル映像を準備すれば足りる。さらに、ルールの生成に用いるサンプル映像には、特定のシーンが含まれていれば十分であり、正解のクラスに対応するラベルを付与する手間も不要である。
【0027】
このように、サンプル映像が入力された学習済みモデルが出力する属性のラベルを組み合わせてルールを生成する場合、訓練データのコストを削減できる一方で、特定のシーンを抽出するルールを適切に生成するのに創作の困難性がある。
【0028】
図3は、学習済みモデルが出力する属性のラベルの一例を示す図である。
図3には、特定のシーンの一例として、2人の男性m1及び男性m2が握手をするシーンが含まれると共に、特定のシーンとは無関係なシーンをノイズとして含むサンプル映像S1が例示されている。さらに、
図3には、
図2に示す例と同様、学習済みモデルの一例として、行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルが例示されている。
【0029】
図3に示すように、破線で2人の男性m1及び男性m2が握手をする様子が示された特定のシーン以外にも、特定のシーンとは無関係なシーンがノイズとして含まれる。例えば、サンプル映像S1には、サンプル映像S1のフレーム内を左から右へ歩く男性m3、サンプル映像S1のフレーム内を右から左へ走る男性m4及び女性w1、荷物を持つ男性m5が含まれる。このようなノイズがサンプル映像S1に含まれることにより、学習済みモデルが出力する属性のラベルにもノイズが生じる。
【0030】
例えば、サンプル映像S1が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力される場合、3つの学習済みモデルから次のような属性のラベルが出力される。すなわち、行動認識モデルM1は、行動要素「握手」のラベルL1、行動要素「走る」のラベルL2、行動要素「走る」のラベルL3、行動要素「歩く」のラベルL4および行動要素「持つ」のラベルL5を出力する。また、外観判別モデルM2は、外観「大人 男」のラベルL6、外観「大人 男」のラベルL7、外観「大人 男」のラベルL8、外観「大人 男」のラベルL9、外観「大人 男」のラベルL10および外観「大人 女」のラベルL11を出力する。なお、
図3に示すサンプル映像S1の例でも背景は白色にマスクされているので、状況認識モデルM3からは出力を得られない。
【0031】
ここで、サンプル映像S1からは、2人の男性m1及び男性m2が握手をする特定のシーンに対応する属性のラベル、すなわちラベルL1、ラベルL6及びラベルL7がルールの生成に用いられることが企図されている。ところが、属性のラベルL2~ラベルL5、ラベルL8~ラベルL11がノイズとなるので、特定のシーンに対応する属性のラベルL1、ラベルL6及びラベルL7だけを識別して使用するのは困難である。
【0032】
そこで、本実施例に係るルール生成装置10は、サンプル映像ごとにサンプル映像が入力された学習済みモデルが出力する属性に対応するオブジェクトがサンプル映像に出現する位置および時間に基づいて属性のラベルをクラスタリングする。その上で、本実施例に係るルール生成装置10は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成する。
【0033】
図4は、ルールの生成方法の一例を示す図である。
図4には、
図3と同様、特定のシーンの一例として、2人の男性m1及び男性m2が握手をするシーンが含まれると共に、特定のシーンとは無関係なシーンをノイズとして含むサンプル映像S1が例示されている。さらに、
図4には、
図2や
図3に示す例と同様、学習済みモデルの一例として、行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルが例示されている。
【0034】
図4に示すように、サンプル映像S1が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力される場合、3つの学習済みモデルからは、
図3に示す例と同様の属性のラベルが出力される。
【0035】
このように得られた属性のラベルごとに、本実施例に係るルール生成装置10は、当該属性に対応するオブジェクトがサンプル映像S1に出現する位置および時間を識別する。あくまで一例として、サンプル映像S1上で属性に対応するオブジェクトが矩形のオブジェクトとして検出される場合、当該矩形のオブジェクトの中心の座標を位置の一例として識別することができる。また、時間の一例として、サンプル映像S1に含まれるフレームのうち、属性に対応するオブジェクトが出現するフレームもしくはフレームに対応付けられた時刻の区間を識別することができる。
【0036】
ここで、以下では、あくまで一例として、サンプル映像S1の左下の頂点を原点とする座標系における座標を位置の識別に用いる場合を例に挙げる。さらに、以下では、あくまで一例として、サンプル映像S1に含まれるフレームのうち先頭のフレームの番号を「1」とし、以降に後続するフレームに付与されるシーケンス番号、いわゆるフレーム番号を時間の識別に用いる場合を例に挙げる。
【0037】
例えば、
図4に示す行動要素「握手」のラベルL1の例で言えば、行動要素「握手」に対応するオブジェクトが出現するサンプル映像S1のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値を計算する。これによって、行動要素「握手」に対応するオブジェクトがサンプル映像S1上で出現する位置(20,5)が識別される。さらに、行動要素「握手」に対応するオブジェクトが出現するサンプル映像のフレーム番号「5」~「10」の区間が時間(5,10)として識別される。このような位置および時間の識別が属性のラベルL1~L11ごとに行われる。
【0038】
このように属性のラベルL1~L11ごとに位置および時間が識別された後、本実施例に係るルール生成装置10は、属性のラベルL1~L11の位置および時間に基づいて属性のラベルL1~L11をクラスタリングする。
【0039】
図4に示す例で言えば、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7が同一のクラスタに同定される。さらに、行動要素「歩く」のラベルL4および外観「大人 男」のラベルL8が同一のクラスタに同定される。さらに、行動要素「持つ」のラベルL5および外観「大人 男」のラベルL9が同一のクラスタに同定される。さらに、行動要素「走る」のラベルL2、外観「大人 男」のラベルL10、行動要素「走る」のラベルL3、外観「大人 女」のラベルL11が同一のクラスタに同定される。
【0040】
このように、属性に対応するオブジェクトがサンプル映像S1に出現する位置および時間に基づいて属性のラベルをクラスタリングすることで、サンプル映像S1に複数のシーンが含まれる場合であっても、各シーンを分離することができる。例えば、属性のラベルL1~L11は、次の4つのクラスタに分離される。例えば、2人の男性m1及び男性m2が握手をする特定のシーンに対応するクラスタが含まれる。さらに、男性m3がサンプル映像S1のフレーム内を左から右へ歩くシーンに対応するクラスタが含まれる。さらに、男性m5が荷物を持つシーンに対応するクラスタが含まれる。さらに、男性m4および女性w1がサンプル映像S1のフレーム内を右から左へ走るシーンに対応するクラスタが含まれる。
【0041】
そして、本実施例に係るルール生成装置10は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群に基づいてルールを生成する。すなわち、
図4に示す例では、サンプル映像S1が3つの学習済みモデルへ入力される例を示したが、サンプル映像S1以外にも特定のシーンを含むサンプル映像が3つの学習済みモデルへ入力される。これらサンプル映像S1以外のサンプル映像においても、同様にクラスタリングが行われることによりクラスタ群が得られる。このようにサンプル映像ごとに得られたクラスタ群のうち、特定のシーンに対応するクラスタが各サンプル映像に出現する頻度は最高となる可能性が高い。その根拠として、特定のシーンが含まれる映像がサンプル映像として選択されること、さらには、サンプル映像にノイズとなるシーンが含まれていたとしても各サンプル映像でノイズの種類は異なる可能性が高いことなどが挙げられる。
【0042】
このことから、本実施例に係るルール生成装置10は、サンプル映像ごとに得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高となる最頻のクラスタをルールの生成に用いる。すなわち、
図4に示す例で言えば、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7の集合がルールの生成に用いられる。例えば、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7がAND条件で接続されることにより、ルールr1が生成される。このようなルールr1により、行動認識モデルM1が行動要素「握手」のラベルを出力し、かつ外観判別モデルM2が外観「大人 男」のラベルおよび外観「大人 男」のラベルを出力するフレームの映像を抽出することが可能になる。
【0043】
したがって、本実施例に係るルール生成装置10によれば、訓練データのコストを削減できる。さらに、本実施例に係るルール生成装置10によれば、サンプル映像に特定のシーン以外のノイズが含まれる場合でも、特定のシーンに対応する属性のラベルを組み合わせてルールを生成できる。
【0044】
[ルール生成装置10の構成]
次に、本実施例に係るルール生成装置10の機能的構成について説明する。
図1に示すように、ルール生成装置10は、通信I/F(InterFace)部11と、記憶部13と、制御部15とを有する。なお、
図1には、データの授受の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。
【0045】
通信I/F部11は、他の装置、例えば映像検索装置30などとの間で通信制御を行うインタフェースに対応する。
【0046】
一実施形態として、通信I/F部11には、LAN(Local Area Network)カードなどのネットワークインタフェースカードなどが対応する。例えば、通信I/F部11は、ルールの生成に用いるサンプル映像やルールの作成指示などを映像検索装置30から受け付けたり、また、サンプル映像から生成されたルールを通知したりする。
【0047】
記憶部13は、制御部15で実行されるOS(Operating System)を始め、ミドルウェアやアプリケーションプログラム、例えば上記のルール生成プログラムなどの各種プログラムに用いられるデータを記憶する機能部である。
【0048】
一実施形態として、記憶部13は、ルール生成装置10における補助記憶装置として実装することができる。例えば、記憶部13には、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などを採用できる。なお、記憶部13は、必ずしも補助記憶装置として実装されずともよく、ルール生成装置10における主記憶装置として実装することもできる。この場合、記憶部13には、各種の半導体メモリ素子、例えばRAM(Random Access Memory)やフラッシュメモリを採用できる。
【0049】
記憶部13は、制御部15で実行されるプログラムに用いられるデータの一例として、サンプル映像データ13Aと、モデルデータ13Bと、ルールデータ13Cとを記憶する。これらのデータ以外にも、記憶部13には、他の電子データ、例えば上記のルール生成サービスの利用者のアカウント等が記憶されることとしてもかまわない。なお、サンプル映像データ13A、モデルデータ13B及びルールデータ13Cの説明は、各データの取得、参照、生成または登録が行われる制御部15の説明と合わせて行うこととする。
【0050】
制御部15は、ルール生成装置10の全体制御を行う処理部である。
【0051】
一実施形態として、制御部15は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、CPUやMPUを例示したが、汎用型および特化型を問わず、任意のプロセッサ、例えばGPU(Graphics Processing Unit)やDSP(Digital Signal Processor)の他、DLU(Deep Learning Unit)やGPGPU(General-Purpose computing on Graphics Processing Units)により実装することができる。この他、制御部15は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることとしてもかまわない。
【0052】
制御部15は、図示しない主記憶装置として実装されるRAMのワークエリア上に、上記のルール生成プログラムを展開することにより、下記の処理部を仮想的に実現する。なお、ここでは、上記のルール生成サービスに対応する機能がパッケージ化されたルール生成プログラムが実行される例を挙げたが、上記の映像検索サービスに対応する機能をさらに含めてパッケージ化されたプログラムが実行されることとしてもよい。この他、上記のルール生成サービスが提供する機能のうち、一部の機能の単位でプログラムモジュールが実行されたり、ライブラリが参照されたりすることとしてもかまわない。
【0053】
図1に示すように、制御部15は、取得部15Aと、モデル実行部15Bと、識別部15Cと、クラスタリング部15Dと、生成部15Eと、通知部15Fとを有する。
【0054】
取得部15Aは、サンプル映像を取得する処理部である。
【0055】
1つの側面として、取得部15Aは、記憶部13に複数のサンプル映像を含むデータセットがサンプル映像データ13Aに追加登録された場合、あるいはルール生成のリクエストを受け付けた場合、処理を起動する。そして、取得部15Aは、記憶部13に記憶されたサンプル映像データ13Aを読み出すことにより、複数のサンプル映像を含むデータセットを取得する。このように取得されるサンプル映像には、映像から検索を希望する特定のシーン、例えば商店や広告等に関心がある動作、不審な動き、迷子、あるいは車両の追突事故などのシーンが含まれる。なお、ここでは、データセットが記憶部13から取得される例を挙げたが、ネットワークを介して接続される外部のコンピュータ、例えばファイルサーバの他、リムーバブルメディア等からデータセットが取得されることとしてもかまわない。
【0056】
モデル実行部15Bは、学習済みモデルを実行する処理部である。
【0057】
一実施形態として、モデル実行部15Bは、取得部15Aによりデータセットが取得された場合、記憶部13に記憶されたモデルデータ13Bを参照して、任意の数の学習済みモデルを図示しないワークエリア上に展開する。この学習済みモデルの展開には、ニューラルネットワークを形成する入力層、隠れ層及び出力層の各層のニューロンやシナプスなどのモデルの層構造を始め、各層の重みやバイアスなどのモデルのパラメータが参照される。その上で、モデル実行部15Bは、データセットに含まれるサンプル映像ごとに当該サンプル映像を学習済みモデルに入力する。これによって、学習済みモデルが出力する属性のラベルをサンプル映像ごとに得ることができる。
【0058】
識別部15Cは、学習済みモデルにより出力される属性のラベルごとに当該属性に対応するオブジェクトがサンプル映像に出現する位置および時間を識別する処理部である。
【0059】
一実施形態として、識別部15Cは、サンプル映像上で属性に対応するオブジェクトが矩形のオブジェクトとして検出される場合、当該矩形のオブジェクトの中心の座標を位置の一例として識別することができる。また、識別部15Cは、時間の一例として、サンプル映像S1に含まれるフレームのうち、属性に対応するオブジェクトが出現するフレームもしくはフレームに対応付けられた時刻の区間を識別することができる。このような位置および時間の識別が属性のラベルごとに行われる。
【0060】
より詳細には、識別部15Cは、属性に対応するオブジェクトが出現するサンプル映像のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値を計算する。これによって、属性に対応するオブジェクトが動体であっても、当該オブジェクトがサンプル映像上で出現する位置を識別できる。ここでは、あくまで一例として、位置の識別にオブジェクトの中心点の座標を用いる例を挙げたが、必ずしも中心点でなくともよく、重心や外心、内心、傍心などの他の五心などの代表点であってかまわない。さらに、識別部15Cは、属性に対応するオブジェクトが出現するサンプル映像のフレーム番号の区間を時間として識別する。ここでは、あくまで一例として、フレーム番号の区間により時間を識別する例を挙げたが、これに限定されない。例えば、上記の「時間」は、フレーム番号の集合で表されることとしてもかまわない。ここで言う「集合」は、フレーム番号の連続値の集合であってもよいし、フレーム番号の離散値の集合であってもかまわない。
【0061】
クラスタリング部15Dは、各属性のラベルの位置および時間に基づいて属性のラベルをクラスタリングする処理部である。ここで、属性のラベルのクラスタリングには、階層的クラスタリングや分割最適化クラスタリングなどの任意の手法を適用することができる。
【0062】
生成部15Eは、サンプル映像ごとに得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高である最頻のクラスタに基づいてルールを生成する処理部である。
【0063】
一実施形態として、生成部15Eは、サンプル映像ごとに得られたクラスタ群のうち最頻のクラスタをルールの生成に用いる。例えば、生成部15Eは、最頻のクラスタに含まれる属性のラベルをAND条件で接続することにより、ルールを生成する。このように生成されたルールがルールデータ13Cとして記憶部13に保存される。
【0064】
通知部15Fは、ルールを通知する処理部である。
【0065】
一実施形態として、通知部15Fは、生成部15Eにより生成されたルール、あるいは記憶部13に記憶されたルールデータ13Cを所定の出力先、例えば映像検索装置30に通知する。この他、通知部15Fは、記憶部13に記憶されたモデルデータ13Bのうち、ルールに含まれる属性のラベルを出力する学習済みモデルに対応する情報を所定の出力先に出力することもできる。
【0066】
[ルール生成方法の具体例]
以下、
図5~
図7を用いて、ルール生成方法の具体例について説明する。
図5は、位置および時間の識別結果の一例を示す図である。
図5の左側には、
図4に示されたサンプル映像S1が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力されることにより得られた属性のラベルL1~L11が示されている。なお、
図5~
図7では、映像検索の目的とする特定のシーン、例えば2人の男性m1及び男性m2が握手をするに対応する属性のラベルL1、L6及びL7には、ノイズとなるシーンに対応する属性のラベルとの間で区別がしやすいように外枠が太字で示されている。
【0067】
これら属性のラベルL1~L11のうち行動要素「握手」のラベルL1を例に挙げれば、行動要素「握手」に対応するオブジェクトが出現するサンプル映像S1のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値が計算される。これによって、行動要素「握手」に対応するオブジェクトがサンプル映像S1上で出現する位置(20,5)が識別される。さらに、行動要素「握手」に対応するオブジェクトが出現するサンプル映像のフレーム番号「5」~「10」の区間が時間(5,10)として識別される。その後、位置および時間の識別が属性のラベルL1~L11ごとに行われる。これによって、
図5の右側に示す通り、属性のラベルL1~L11ごとに位置および時間の識別結果が得られる。このように属性のラベルL1~L11ごとに位置および時間が識別された後、属性のラベルL1~L11の位置および時間に基づいて属性のラベルL1~L11がクラスタリングされる。
【0068】
図6は、クラスタリングの一例を示す図である。
図6の左側には、属性のラベルL1~L11ごとに識別された位置および時間が示されている。これら属性のラベルL1~L11の位置および時間に基づいてクラスタリングが行われた場合、
図6の右側に示す通り、サンプル映像S1から4つのクラスタが得られる。
【0069】
例えば、上から1つ目のクラスタの例で言えば、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7に対応するオブジェクトがサンプル映像上で出現する位置は、(20,5)、(17,8)、(22,8)である。これらラベルL1、ラベルL6およびラベルL7の間では、X方向の距離が±3以内に収まり、Y方向の距離も±3以内に収まる。このため、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7の間で位置が類似すると識別できる。さらに、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7が出現するサンプル映像のフレーム番号の範囲は、(5,10)、(2,20)、(2,20)である。このように、フレーム番号「5」~「10」にわたる6フレームにわたって同時に出現する。このため、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7の間で時間が類似すると識別できる。これら位置および時間の両面で類似することから、行動要素「握手」のラベルL1、外観「大人 男」のラベルL6および外観「大人 男」のラベルL7が同一のクラスタに同定される。なお、他の3つのクラスタにおいても、同様のクラスタリングが行われる。
【0070】
このようなクラスタリングによって、サンプル映像S1に複数のシーンが含まれる場合であっても、各シーンを各シーンに対応する属性のラベルの集合に分離することができる。例えば、2人の男性m1及び男性m2が握手をする特定のシーンに対応するクラスタを分離できる。さらに、男性m3がサンプル映像S1のフレーム内を左から右へ歩くシーンに対応するクラスタを分離できる。さらに、男性m5が荷物を持つシーンに対応するクラスタを分離できる。さらに、男性m4および女性w1がサンプル映像S1のフレーム内を右から左へ走るシーンに対応するクラスタを分離できる。
【0071】
このサンプル映像S1以外にも、データセットに含まれる他のサンプル映像からもクラスタ群が得られる。このようにサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高となるクラスタをルールの生成に用いる。
【0072】
図7は、クラスタ群の一例を示す図である。
図7には、
図4に示すサンプル映像S1から得られるクラスタ群の他、サンプル映像S2~サンプル映像S7ごとに得られるクラスタ群が示されている。例えば、
図7に示す例で言えば、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの集合であるクラスタが図示を省略したサンプル映像S3~サンプル映像S6を含む全てのサンプル映像S1~S7で出現する。この場合、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの集合であるクラスタの出現頻度は最高の「7」となる。
【0073】
したがって、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの集合がルールの生成に用いられる。例えば、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルがAND条件で接続されることにより、ルールR1が生成される。このようなルールR1により、行動認識モデルM1が行動要素「握手」のラベルを出力し、かつ外観判別モデルM2が外観「大人 男」のラベルおよび外観「大人 男」のラベルを出力するフレームの映像を抽出することが可能になる。
【0074】
なお、
図7に示す例では、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの集合が全てのサンプル映像S1~S7に出現する場合を例に挙げたが、必ずしも全てのサンプル映像S1~S7に出現しない場合も考えられる。
【0075】
例えば、全てのサンプル映像S1~S7において、特定のシーンに対応するクラスタに分離できるとは限らず、当該クラスタに余分な属性のラベルが含まれたり、あるいは一部の属性のラベルが欠けたりすることもある。
【0076】
このように過不足があるクラスタも特定のシーンに対応するクラスタの出現頻度として計上する側面から、次のような処理を実行することができる。例えば、全てのサンプル映像S1~S7から出現頻度が最高である最頻クラスタを抽出する。その上で、最頻クラスタが出現しないサンプル映像から得られたクラスタのうち、最頻クラスタとの間で要素の一致度が所定の閾値Th1、例えば3/4以上であるクラスタを最頻クラスタと同定する。例えば、最頻クラスタに対する要素の一致度は、最頻クラスタに含まれる要素の総数に対する、最頻クラスタと比較するクラスタの中で最頻クラスタの要素と一致する要素の数の第1の割合と、最頻クラスタと比較するクラスタの要素の総数に対する、最頻クラスタの要素と一致する要素の数の第2の割合とから算出することができる。
【0077】
サンプル映像S1[握手、大人 男、大人 男]
サンプル映像S2[握手、大人 男、大人 男]
サンプル映像S3[握手、大人 男、大人 男]
サンプル映像S4[握手、大人 男、大人 男]
サンプル映像S5[握手、大人 男、大人 男]
サンプル映像S6[握手、大人 男、大人 男]
サンプル映像S7[握手、大人 男、大人 女、大人 男]
【0078】
例えば、上記の例では、最頻クラスタは、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの集合となる。このようにサンプル映像S1~S6で出現する最頻クラスタと、サンプル映像S7で出現する行動要素「握手」のラベル、外観「大人 男」のラベル、外観「大人 女」のラベル及び外観「大人 男」のラベルを含むクラスタとの間で要素の一致度を算出する場合を例に挙げる。
【0079】
この場合、第1の割合は、次のように算出できる。すなわち、最頻クラスタに含まれる要素の総数は、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの3つである。そして、サンプル映像S7として例示したクラスタの中で最頻クラスタの要素と一致する要素は、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの3つである。このため、第1の割合は、3÷3の計算で「1」と算出できる。このような第1の割合によって、最頻クラスタに比べて要素が不足する度合いを評価できる。
【0080】
また、第2の割合は、次のように算出できる。すなわち、サンプル映像S7として例示したクラスタの総数は、行動要素「握手」のラベル、外観「大人 男」のラベル、外観「大人 女」のラベル及び外観「大人 男」のラベルの4つである。そして、サンプル映像S7として例示したクラスタの中で最頻クラスタの要素と一致する要素の数は、行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルの3つである。このため、第2の割合は、3÷4の計算で「3/4」と算出できる。このような第2の割合によって、最頻クラスタに比べて要素が過剰である度合いを評価できる。
【0081】
例えば、第1の割合および第2の割合を乗算する計算、すなわち1×(3/4)により、最頻クラスタに対する要素の一致度を3/4と算出できる。この場合、一致度が閾値Th1以上であるので、サンプル映像S7として例示したクラスタを最頻クラスタと同定することができる。この結果、最頻クラスタの出現頻度は、全てのサンプル映像S1~S7に対応する最高頻度の「7」と計上できる。
【0082】
[ルールの使用例]
以下、
図8を用いて、映像検索の一例について説明する。
図8は、映像検索の一例を示す図である。
図8には、
図7に示されたルールR1が映像検索装置30により使用される例が示されている。
図8の上側には、フレームI1を含むサンプル映像が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力される例が示されている。その一方で、
図8の下側には、フレームI2を含むサンプル映像が行動認識モデルM1、外観判別モデルM2および状況認識モデルM3の3つの学習済みモデルへ入力される例が示されている。
【0083】
例えば、フレームI1を含むサンプル映像が上記3つの学習済みモデルへ入力された場合、学習済みモデルは、次に挙げる6つのラベルを出力する。すなわち、行動要素「握手」のラベル、行動要素「挨拶」のラベル、外観「大人 男」のラベル、外観「大人 男」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルが得られる。この場合、ルールR1に定義された行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルが含まれる。それ故、サンプル映像から行動要素「握手」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルを含むフレームの映像を特定のシーンに対応する映像として検索することができる。
【0084】
一方、フレームI2を含むサンプル映像が上記3つの学習済みモデルへ入力された場合、学習済みモデルは、次に挙げる5つのラベルを出力する。すなわち、行動要素「話す」のラベル、行動要素「挨拶」のラベル、外観「大人 男」のラベル、外観「大人 男」のラベルおよび外観「大人 男」のラベルが得られる。この場合、ルールR1に定義された行動要素「握手」のラベルが含まれない。それ故、サンプル映像からは特定のシーンに対応する映像の検索結果は得られない。
【0085】
[処理の流れ]
図9は、実施例1に係るルール生成処理の手順を示すフローチャートである。この処理は、あくまで一例として、記憶部13に複数のサンプル映像を含むデータセットがサンプル映像データ13Aに追加登録された場合、あるいはルール生成のリクエストを受け付けた場合に開始される。
【0086】
図9に示すように、取得部15Aにより複数のサンプル映像を含むデータセットが取得されると(ステップS101)、モデル実行部15Bは、データセットに含まれる複数のサンプル映像の中から1つを選択する(ステップS102)。続いて、モデル実行部15Bは、ステップS102で選択されたサンプル映像を学習済みモデルに入力する(ステップS103)。
【0087】
その後、識別部15Cは、学習済みモデルが出力される属性のラベルごとに当該属性に対応するオブジェクトがサンプル映像に出現する位置および時間を識別する(ステップS104)。続いて、クラスタリング部15Dは、各属性のラベルの位置および時間に基づいて属性のラベルをクラスタリングする(ステップS105)。
【0088】
そして、全てのサンプル映像が選択されるまで(ステップS106No)、上記のステップS102~ステップS105までの処理が繰り返して実行される。その後、全てのサンプル映像が選択された場合(ステップS106Yes)、生成部15Eは、サンプル映像ごとに得られたクラスタのうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成し(ステップS107)、処理を終了する。
【0089】
[効果の一側面]
上述してきたように、本実施例に係るルール生成装置10は、サンプル映像ごとにサンプル映像が入力された学習済みモデルが出力する属性に対応するオブジェクトがサンプル映像に出現する位置および時間に基づいて属性のラベルをクラスタリングする。その上で、本実施例に係るルール生成装置10は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成する。
【0090】
したがって、本実施例に係るルール生成装置10によれば、訓練データのコストを削減することが可能である。さらに、本実施例に係るルール生成装置10によれば、サンプル映像に特定のシーン以外のノイズが含まれる場合でも、特定のシーンに対応する属性のラベルを組み合わせてルールを生成することが可能である。
【実施例2】
【0091】
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
【0092】
[学習済みモデルの数]
上記の実施例1では、あくまで一例として、3つの学習済みモデルを用いる例を説明したが、学習済みモデルの数は1つ、2つ、あるいは4つ以上でもかまわない。例えば、1つの学習済みモデルが出力する属性のラベルの組合せによりルールを生成する例を挙げる。あくまで特定のシーンの一例として、商業施設等において学生服を着た複数人の集団がいるというシーンの映像検索が行われるとしたとき、複数人の学生服を着たサンプル映像を用意し、サンプル映像に外観「学生服」のラベルが出力可能である外観判別モデルM2を適用することができる。これにより、外観「学生服」のラベルおよび外観「学生服」のラベルがAND条件で接続されたルールを生成できる。これによって、人手でルールが作成されるのであれば、ルールとなる候補が多い場合に、制服の色などを逐次選択するのにかかる手間を省略することが可能である。
【0093】
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部15A、モデル実行部15B、識別部15C、クラスタリング部15D、生成部15Eまたは通知部15Fをルール生成装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部15A、モデル実行部15B、識別部15C、クラスタリング部15D、生成部15Eまたは通知部15Fを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のルール生成装置10の機能を実現するようにしてもよい。
【0094】
[ルール生成プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、
図10を用いて、上記の実施例と同様の機能を有するルール生成プログラムを実行するコンピュータの一例について説明する。
【0095】
図10は、実施例1及び実施例2に係るルール生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。
図10に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110~180の各部はバス140を介して接続される。
【0096】
HDD170には、
図10に示すように、上記の実施例1で示した取得部15A、モデル実行部15B、識別部15C、クラスタリング部15D及び生成部15Eと同様の機能を発揮するルール生成プログラム170aが記憶される。このルール生成プログラム170aは、
図1に示した取得部15A、モデル実行部15B、識別部15C、クラスタリング部15D及び生成部15Eの各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
【0097】
このような環境の下、CPU150は、HDD170からルール生成プログラム170aを読み出した上でRAM180へ展開する。この結果、ルール生成プログラム170aは、
図10に示すように、ルール生成プロセス180aとして機能する。このルール生成プロセス180aは、RAM180が有する記憶領域のうちルール生成プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、ルール生成プロセス180aが実行する処理の一例として、
図9に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
【0098】
なお、上記のルール生成プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」にルール生成プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体からルール生成プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などにルール生成プログラム170aを記憶させておき、コンピュータ100がこれらからルール生成プログラム170aを取得して実行するようにしてもよい。
【0099】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0100】
(付記1)複数のサンプル映像を取得する取得部と、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、
を有することを特徴とするルール生成装置。
【0101】
(付記2)前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記1に記載のルール生成装置。
【0102】
(付記3)前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記1に記載のルール生成装置。
【0103】
(付記4)前記生成部は、前記頻度が最高である第1のクラスタが出現しないサンプル映像から得られた第2のクラスタのうち、前記第1のクラスタとの間で要素の一致度が所定の閾値以上である第2のクラスタを前記第1のクラスタと同定することを特徴とする付記1に記載のルール生成装置。
【0104】
(付記5)複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータが実行することを特徴とするルール生成方法。
【0105】
(付記6)前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記5に記載のルール生成方法。
【0106】
(付記7)前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記5に記載のルール生成方法。
【0107】
(付記8)前記生成する処理は、前記頻度が最高である第1のクラスタが出現しないサンプル映像から得られた第2のクラスタのうち、前記第1のクラスタとの間で要素の一致度が所定の閾値以上である第2のクラスタを前記第1のクラスタと同定することを特徴とする付記5に記載のルール生成方法。
【0108】
(付記9)複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータに実行させることを特徴とするルール生成プログラム。
【0109】
(付記10)前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記9に記載のルール生成プログラム。
【0110】
(付記11)前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記9に記載のルール生成プログラム。
【0111】
(付記12)前記生成する処理は、前記頻度が最高である第1のクラスタが出現しないサンプル映像から得られた第2のクラスタのうち、前記第1のクラスタとの間で要素の一致度が所定の閾値以上である第2のクラスタを前記第1のクラスタと同定することを特徴とする付記9に記載のルール生成プログラム。
【符号の説明】
【0112】
10 ルール生成装置
11 通信I/F部
13 記憶部
13A サンプル映像データ
13B モデルデータ
13C ルールデータ
15 制御部
15A 取得部
15B モデル実行部
15C 識別部
15D クラスタリング部
15E 生成部
15F 通知部
30 映像検索装置