特許7172472 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7172472ルール生成装置、ルール生成方法及びルール生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-08

(45)【発行日】2022-11-16

(54)【発明の名称】ルール生成装置、ルール生成方法及びルール生成プログラム

(51)【国際特許分類】

G06F 16/783 20190101AFI20221109BHJP

G06V 10/762 20220101ALI20221109BHJP

【ＦＩ】

G06F16/783

G06V10/762

【請求項の数】 6

(21)【出願番号】P 2018211716

(22)【出願日】2018-11-09

(65)【公開番号】P2020077343

(43)【公開日】2020-05-21

【審査請求日】2021-08-10

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】石田勉

【審査官】早川学

(56)【参考文献】

【文献】米国特許出願公開第２０１６／０２１７３３０（ＵＳ，Ａ１）

【文献】国際公開第２０１５／０５２８９６（ＷＯ，Ａ１）

【文献】特開２０１１－１０９４２８（ＪＰ，Ａ）

【文献】特開２００６－２４４２７９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｔ７／００－７／９０

Ｈ０４Ｎ７／１８

Ｇ０６Ｖ１０／７６２

(57)【特許請求の範囲】

【請求項1】

複数のサンプル映像を取得する取得部と、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、
を有することを特徴とするルール生成装置。

【請求項2】

前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする請求項１に記載のルール生成装置。

【請求項3】

前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする請求項１または２に記載のルール生成装置。

【請求項4】

前記生成部は、前記頻度が最高である第１のクラスタが出現しないサンプル映像から得られた第２のクラスタのうち、前記第１のクラスタとの間で要素の一致度が所定の閾値以上である第２のクラスタを前記第１のクラスタと同定することを特徴とする請求項１、２または３に記載のルール生成装置。

【請求項5】

複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータが実行することを特徴とするルール生成方法。

【請求項6】

複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、前記複数のサンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータに実行させることを特徴とするルール生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ルール生成装置、ルール生成方法及びルール生成プログラムに関する。

【背景技術】

【0002】

映像から特定のシーンを検索する技術が各種のソリューションに適用されることがある。例えば、監視カメラから得られる映像の中から、商店や広告等に関心がある動作、不審な動き、迷子、あるいは車両の追突事故などのシーンが検索されることがある。このような映像検索を実現する側面から、ディープラーニング（Deep Learning）により、特定のシーンを認識するモデル、例えばＲＮＮ（Recurrent Neural Networks）などが学習されることがある。

【先行技術文献】

【非特許文献】

【0003】

【文献】Li-Jia Li, Hao Su , Yongwhan Lim, Li Fei-Fei “Objects as Attributes for Scene Classification”

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、ディープラーニングによりモデル学習を行う場合、訓練データのコストが増大する。例えば、ディープラーニングの場合、モデル学習に用いる訓練データを数千や数万といった規模のオーダで用意することが求められる。このような規模のオーダで訓練データを用意するのは困難であるという一面がある。さらに、教師あり学習の場合、各々の訓練データには、正解のラベルを付与せねばならず、ラベルの付与にも手間がかかるという側面もある。このように、ディープラーニングによりモデル学習を行う場合、数量や手間などの様々な面において訓練データのコストが増大する。

【0005】

１つの側面では、本発明は、訓練データのコストが削減された映像検索を実現できるルール生成装置、ルール生成方法及びルール生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

一態様では、複数のサンプル映像を取得する取得部と、前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、を有する。

【発明の効果】

【0007】

訓練データのコストが削減された映像検索を実現できる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施例１に係るシステムに含まれるルール生成装置の機能的構成の一例を示すブロック図である。

【図2】図２は、ルールの生成方法の一例を示す図である。

【図3】図３は、学習済みモデルが出力する属性のラベルの一例を示す図である。

【図4】図４は、ルールの生成方法の一例を示す図である。

【図5】図５は、位置および時間の識別結果の一例を示す図である。

【図6】図６は、クラスタリングの一例を示す図である。

【図7】図７は、クラスタ群の一例を示す図である。

【図8】図８は、映像検索の一例を示す図である。

【図9】図９は、実施例１に係るルール生成処理の手順を示すフローチャートである。

【図10】図１０は、実施例１及び実施例２に係るルール生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。

【発明を実施するための形態】

【0009】

以下に添付図面を参照して本願に係るルール生成装置、ルール生成方法及びルール生成プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【実施例1】

【0010】

［システム構成］
図１は、実施例１に係るシステムに含まれるルール生成装置の機能的構成の一例を示すブロック図である。図１に示すシステム１では、映像から特定のシーンを抽出するのに用いるルールを生成するルール生成サービス、並びに、上記のルールにしたがって映像から特定のシーンを検索する映像検索サービスが提供される。

【0011】

図１に示すように、システム１には、ルール生成装置１０と、映像検索装置３０とが含まれる。ここで、図１には、あくまで一例として、ルール生成装置１０及び映像検索装置３０の２つのマシンが別々に構築されるシステムを例に挙げる。この場合、ルール生成装置１０及び映像検索装置３０は、ネットワーク通信を介して、データを授受することができる。

【0012】

ルール生成装置１０は、上記のルール生成サービスを提供するコンピュータの一例に対応する。

【0013】

一実施形態として、ルール生成装置１０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記のルール生成サービスに対応する機能を実現するルール生成プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、ルール生成装置１０は、上記のルール生成サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記のルール生成サービスを提供するクラウドとして実装することとしてもかまわない。

【0014】

映像検索装置３０は、上記の映像検索サービスを提供するコンピュータの一例に対応する。

【0015】

一実施形態として、映像検索装置３０は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の映像検索サービスに対応する機能を実現する映像検索プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、映像検索装置３０は、上記の映像検索サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記の映像検索サービスを提供するクラウドとして実装することとしてもかまわない。この他、上記の映像検索サービスが適用される映像の情報ソース、例えば監視カメラなどの最寄りに位置するエッジサーバが映像検索装置３０として実装されることとしてもかまわない。

【0016】

これらルール生成サービス及び映像検索サービスは、必ずしも異なる事業者により提供されずともよく、同一の事業者により提供されることとしてもかまわない。この場合、ルール生成装置１０及び映像検索装置３０は、必ずしも個別に構築されずともよく、上記のルール生成サービス及び上記の映像検索サービスがパッケージされた一連のサービスをクラウドサービスとして提供することもできる。

【0017】

［課題の一側面］
上記の背景技術の欄でも説明した通り、ディープラーニングによりモデル学習を行う場合、訓練データのコストが増大する。例えば、数量の面で言えば、数千や数万といった規模のオーダでモデル学習に用いる訓練データの用意が必要となる。さらに、労力の面で言えば、各々の訓練データには、正解のラベルを付与せねばならず、ラベルの付与にも手間がかかる。

【0018】

［課題解決のアプローチの一側面］
このことから、本実施例に係るルール生成装置１０では、ディープラーニングにより、特定のシーンを認識するモデルを学習するというアプローチは採用しない。その代わりに、本実施例に係るルール生成装置１０では、映像が入力されることにより属性のラベルを出力する学習済みモデルを映像検索に用いるというアプローチを採用する。

【0019】

ここで、上記の学習済みモデルとは、機械学習が実行済みであるモデルを指し、例えば、ディープラーニングにより機械学習が行われたモデルが挙げられる。例えば、上記の学習済みモデルは、必ずしも上記のルール生成サービスを提供する事業者独自で開発されたものでなくともよく、モデルの構造およびパラメータがオンラインで公開されたオープンソースのライブラリ等であってかまわない。

【0020】

このように、上記の学習済みモデルは、機械学習が実行済みであれば任意のモデルであってよい一方で、映像が入力された学習済みモデルが出力する属性のラベルは、必ずしも特定のシーンを認識することに特化したものであると限らない。

【0021】

そこで、上記の学習済みモデルを用いて特定のシーンを認識する機能を実現する側面から、本実施例に係るルール生成装置１０は、学習済みモデルが出力する属性のラベルの組合せに基づいて特定のシーンを検出できるルールを生成する。例えば、特定のシーンを含むサンプル映像を学習済みモデルに入力し、当該学習済みモデルから出力される属性のラベルの組合せからルールが生成される。このように生成されたルールと、任意の情報ソース、例えば監視カメラ等から取得された映像を学習済みモデルへ入力することにより得られた属性のラベルとを比較することにより、特定のシーンを含む映像を検索する。

【0022】

図２は、ルールの生成方法の一例を示す図である。図２には、特定のシーンの一例として、２人の男性が握手をするシーンを含むサンプル映像ｓ１が例示されている。さらに、図２には、学習済みモデルの一例として、行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルが例示されている。なお、図２には、ルール生成に３つの学習済みモデルを用いる例を挙げるが、学習済みモデルの数は１つ、２つ、あるいは４つ以上でもかまわず、他の種類の学習済みモデルであってもかまわない。

【0023】

このうち、行動認識モデルＭ１は、映像が入力されることにより、属性の一例として、「歩く」、「走る」、「握手」、「持つ」などといった行動要素のラベルを出力する学習済みモデルに対応する。また、外観判別モデルＭ２は、映像が入力されることにより、属性の一例として、「大人男」、「大人女」などといった外観、例えば「年代＋性別」のラベルを出力する学習済みモデルに対応する。さらに、状況認識モデルＭ３は、映像が入力されることにより、属性の一例として、「屋外」、「屋内」、「ドア」、「木」、「草」、「道」などといった背景のラベルを出力する学習済みモデルに対応する。

【0024】

図２に示すように、サンプル映像ｓ１が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力される。この結果、行動認識モデルＭ１は、行動要素「握手」のラベルＬ１を出力する。また、外観判別モデルＭ２は、外観「大人男」のラベルＬ２および外観「大人男」のラベルＬ３を出力する。一方、図２に示すサンプル映像ｓ１の例では背景が白色でマスクされているので、状況認識モデルＭ３からは出力を得られない。

【0025】

このように得られた行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ２および外観「大人男」のラベルＬ３からルールｒ１が生成される。例えば、図２に示す例で言えば、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ２および外観「大人男」のラベルＬ３がＡＮＤ条件で接続されることにより、ルールｒ１が生成される。このようなルールｒ１により、行動認識モデルＭ１が行動要素「握手」のラベルを出力し、かつ外観判別モデルＭ２が外観「大人男」のラベルおよび外観「大人男」のラベルを出力するフレームの映像を抽出することが可能になる。

【0026】

このようなルールの生成によって、ディープラーニングによりモデルの機械学習が行われる場合に比べて、訓練データのコストを削減することが可能になる。例えば、ディープラーニングの場合、モデル学習に用いる訓練データを数千や数万といった規模のオーダで用意することが求められるが、属性のラベルを組み合わせてルールを生成する場合、一桁程度のオーダでサンプル映像を準備すれば足りる。さらに、ルールの生成に用いるサンプル映像には、特定のシーンが含まれていれば十分であり、正解のクラスに対応するラベルを付与する手間も不要である。

【0027】

このように、サンプル映像が入力された学習済みモデルが出力する属性のラベルを組み合わせてルールを生成する場合、訓練データのコストを削減できる一方で、特定のシーンを抽出するルールを適切に生成するのに創作の困難性がある。

【0028】

図３は、学習済みモデルが出力する属性のラベルの一例を示す図である。図３には、特定のシーンの一例として、２人の男性ｍ１及び男性ｍ２が握手をするシーンが含まれると共に、特定のシーンとは無関係なシーンをノイズとして含むサンプル映像Ｓ１が例示されている。さらに、図３には、図２に示す例と同様、学習済みモデルの一例として、行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルが例示されている。

【0029】

図３に示すように、破線で２人の男性ｍ１及び男性ｍ２が握手をする様子が示された特定のシーン以外にも、特定のシーンとは無関係なシーンがノイズとして含まれる。例えば、サンプル映像Ｓ１には、サンプル映像Ｓ１のフレーム内を左から右へ歩く男性ｍ３、サンプル映像Ｓ１のフレーム内を右から左へ走る男性ｍ４及び女性ｗ１、荷物を持つ男性ｍ５が含まれる。このようなノイズがサンプル映像Ｓ１に含まれることにより、学習済みモデルが出力する属性のラベルにもノイズが生じる。

【0030】

例えば、サンプル映像Ｓ１が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力される場合、３つの学習済みモデルから次のような属性のラベルが出力される。すなわち、行動認識モデルＭ１は、行動要素「握手」のラベルＬ１、行動要素「走る」のラベルＬ２、行動要素「走る」のラベルＬ３、行動要素「歩く」のラベルＬ４および行動要素「持つ」のラベルＬ５を出力する。また、外観判別モデルＭ２は、外観「大人男」のラベルＬ６、外観「大人男」のラベルＬ７、外観「大人男」のラベルＬ８、外観「大人男」のラベルＬ９、外観「大人男」のラベルＬ１０および外観「大人女」のラベルＬ１１を出力する。なお、図３に示すサンプル映像Ｓ１の例でも背景は白色にマスクされているので、状況認識モデルＭ３からは出力を得られない。

【0031】

ここで、サンプル映像Ｓ１からは、２人の男性ｍ１及び男性ｍ２が握手をする特定のシーンに対応する属性のラベル、すなわちラベルＬ１、ラベルＬ６及びラベルＬ７がルールの生成に用いられることが企図されている。ところが、属性のラベルＬ２～ラベルＬ５、ラベルＬ８～ラベルＬ１１がノイズとなるので、特定のシーンに対応する属性のラベルＬ１、ラベルＬ６及びラベルＬ７だけを識別して使用するのは困難である。

【0032】

そこで、本実施例に係るルール生成装置１０は、サンプル映像ごとにサンプル映像が入力された学習済みモデルが出力する属性に対応するオブジェクトがサンプル映像に出現する位置および時間に基づいて属性のラベルをクラスタリングする。その上で、本実施例に係るルール生成装置１０は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成する。

【0033】

図４は、ルールの生成方法の一例を示す図である。図４には、図３と同様、特定のシーンの一例として、２人の男性ｍ１及び男性ｍ２が握手をするシーンが含まれると共に、特定のシーンとは無関係なシーンをノイズとして含むサンプル映像Ｓ１が例示されている。さらに、図４には、図２や図３に示す例と同様、学習済みモデルの一例として、行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルが例示されている。

【0034】

図４に示すように、サンプル映像Ｓ１が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力される場合、３つの学習済みモデルからは、図３に示す例と同様の属性のラベルが出力される。

【0035】

このように得られた属性のラベルごとに、本実施例に係るルール生成装置１０は、当該属性に対応するオブジェクトがサンプル映像Ｓ１に出現する位置および時間を識別する。あくまで一例として、サンプル映像Ｓ１上で属性に対応するオブジェクトが矩形のオブジェクトとして検出される場合、当該矩形のオブジェクトの中心の座標を位置の一例として識別することができる。また、時間の一例として、サンプル映像Ｓ１に含まれるフレームのうち、属性に対応するオブジェクトが出現するフレームもしくはフレームに対応付けられた時刻の区間を識別することができる。

【0036】

ここで、以下では、あくまで一例として、サンプル映像Ｓ１の左下の頂点を原点とする座標系における座標を位置の識別に用いる場合を例に挙げる。さらに、以下では、あくまで一例として、サンプル映像Ｓ１に含まれるフレームのうち先頭のフレームの番号を「１」とし、以降に後続するフレームに付与されるシーケンス番号、いわゆるフレーム番号を時間の識別に用いる場合を例に挙げる。

【0037】

例えば、図４に示す行動要素「握手」のラベルＬ１の例で言えば、行動要素「握手」に対応するオブジェクトが出現するサンプル映像Ｓ１のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値を計算する。これによって、行動要素「握手」に対応するオブジェクトがサンプル映像Ｓ１上で出現する位置（２０，５）が識別される。さらに、行動要素「握手」に対応するオブジェクトが出現するサンプル映像のフレーム番号「５」～「１０」の区間が時間（５，１０）として識別される。このような位置および時間の識別が属性のラベルＬ１～Ｌ１１ごとに行われる。

【0038】

このように属性のラベルＬ１～Ｌ１１ごとに位置および時間が識別された後、本実施例に係るルール生成装置１０は、属性のラベルＬ１～Ｌ１１の位置および時間に基づいて属性のラベルＬ１～Ｌ１１をクラスタリングする。

【0039】

図４に示す例で言えば、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７が同一のクラスタに同定される。さらに、行動要素「歩く」のラベルＬ４および外観「大人男」のラベルＬ８が同一のクラスタに同定される。さらに、行動要素「持つ」のラベルＬ５および外観「大人男」のラベルＬ９が同一のクラスタに同定される。さらに、行動要素「走る」のラベルＬ２、外観「大人男」のラベルＬ１０、行動要素「走る」のラベルＬ３、外観「大人女」のラベルＬ１１が同一のクラスタに同定される。

【0040】

このように、属性に対応するオブジェクトがサンプル映像Ｓ１に出現する位置および時間に基づいて属性のラベルをクラスタリングすることで、サンプル映像Ｓ１に複数のシーンが含まれる場合であっても、各シーンを分離することができる。例えば、属性のラベルＬ１～Ｌ１１は、次の４つのクラスタに分離される。例えば、２人の男性ｍ１及び男性ｍ２が握手をする特定のシーンに対応するクラスタが含まれる。さらに、男性ｍ３がサンプル映像Ｓ１のフレーム内を左から右へ歩くシーンに対応するクラスタが含まれる。さらに、男性ｍ５が荷物を持つシーンに対応するクラスタが含まれる。さらに、男性ｍ４および女性ｗ１がサンプル映像Ｓ１のフレーム内を右から左へ走るシーンに対応するクラスタが含まれる。

【0041】

そして、本実施例に係るルール生成装置１０は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群に基づいてルールを生成する。すなわち、図４に示す例では、サンプル映像Ｓ１が３つの学習済みモデルへ入力される例を示したが、サンプル映像Ｓ１以外にも特定のシーンを含むサンプル映像が３つの学習済みモデルへ入力される。これらサンプル映像Ｓ１以外のサンプル映像においても、同様にクラスタリングが行われることによりクラスタ群が得られる。このようにサンプル映像ごとに得られたクラスタ群のうち、特定のシーンに対応するクラスタが各サンプル映像に出現する頻度は最高となる可能性が高い。その根拠として、特定のシーンが含まれる映像がサンプル映像として選択されること、さらには、サンプル映像にノイズとなるシーンが含まれていたとしても各サンプル映像でノイズの種類は異なる可能性が高いことなどが挙げられる。

【0042】

このことから、本実施例に係るルール生成装置１０は、サンプル映像ごとに得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高となる最頻のクラスタをルールの生成に用いる。すなわち、図４に示す例で言えば、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７の集合がルールの生成に用いられる。例えば、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７がＡＮＤ条件で接続されることにより、ルールｒ１が生成される。このようなルールｒ１により、行動認識モデルＭ１が行動要素「握手」のラベルを出力し、かつ外観判別モデルＭ２が外観「大人男」のラベルおよび外観「大人男」のラベルを出力するフレームの映像を抽出することが可能になる。

【0043】

したがって、本実施例に係るルール生成装置１０によれば、訓練データのコストを削減できる。さらに、本実施例に係るルール生成装置１０によれば、サンプル映像に特定のシーン以外のノイズが含まれる場合でも、特定のシーンに対応する属性のラベルを組み合わせてルールを生成できる。

【0044】

［ルール生成装置１０の構成］
次に、本実施例に係るルール生成装置１０の機能的構成について説明する。図１に示すように、ルール生成装置１０は、通信Ｉ／Ｆ（InterFace）部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、データの授受の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。

【0045】

通信Ｉ／Ｆ部１１は、他の装置、例えば映像検索装置３０などとの間で通信制御を行うインタフェースに対応する。

【0046】

一実施形態として、通信Ｉ／Ｆ部１１には、ＬＡＮ（Local Area Network）カードなどのネットワークインタフェースカードなどが対応する。例えば、通信Ｉ／Ｆ部１１は、ルールの生成に用いるサンプル映像やルールの作成指示などを映像検索装置３０から受け付けたり、また、サンプル映像から生成されたルールを通知したりする。

【0047】

記憶部１３は、制御部１５で実行されるＯＳ（Operating System）を始め、ミドルウェアやアプリケーションプログラム、例えば上記のルール生成プログラムなどの各種プログラムに用いられるデータを記憶する機能部である。

【0048】

一実施形態として、記憶部１３は、ルール生成装置１０における補助記憶装置として実装することができる。例えば、記憶部１３には、ＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）などを採用できる。なお、記憶部１３は、必ずしも補助記憶装置として実装されずともよく、ルール生成装置１０における主記憶装置として実装することもできる。この場合、記憶部１３には、各種の半導体メモリ素子、例えばＲＡＭ（Random Access Memory）やフラッシュメモリを採用できる。

【0049】

記憶部１３は、制御部１５で実行されるプログラムに用いられるデータの一例として、サンプル映像データ１３Ａと、モデルデータ１３Ｂと、ルールデータ１３Ｃとを記憶する。これらのデータ以外にも、記憶部１３には、他の電子データ、例えば上記のルール生成サービスの利用者のアカウント等が記憶されることとしてもかまわない。なお、サンプル映像データ１３Ａ、モデルデータ１３Ｂ及びルールデータ１３Ｃの説明は、各データの取得、参照、生成または登録が行われる制御部１５の説明と合わせて行うこととする。

【0050】

制御部１５は、ルール生成装置１０の全体制御を行う処理部である。

【0051】

一実施形態として、制御部１５は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサ、例えばＧＰＵ（Graphics Processing Unit）やＤＳＰ（Digital Signal Processor）の他、ＤＬＵ（Deep Learning Unit）やＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）により実装することができる。この他、制御部１５は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

【0052】

制御部１５は、図示しない主記憶装置として実装されるＲＡＭのワークエリア上に、上記のルール生成プログラムを展開することにより、下記の処理部を仮想的に実現する。なお、ここでは、上記のルール生成サービスに対応する機能がパッケージ化されたルール生成プログラムが実行される例を挙げたが、上記の映像検索サービスに対応する機能をさらに含めてパッケージ化されたプログラムが実行されることとしてもよい。この他、上記のルール生成サービスが提供する機能のうち、一部の機能の単位でプログラムモジュールが実行されたり、ライブラリが参照されたりすることとしてもかまわない。

【0053】

図１に示すように、制御部１５は、取得部１５Ａと、モデル実行部１５Ｂと、識別部１５Ｃと、クラスタリング部１５Ｄと、生成部１５Ｅと、通知部１５Ｆとを有する。

【0054】

取得部１５Ａは、サンプル映像を取得する処理部である。

【0055】

１つの側面として、取得部１５Ａは、記憶部１３に複数のサンプル映像を含むデータセットがサンプル映像データ１３Ａに追加登録された場合、あるいはルール生成のリクエストを受け付けた場合、処理を起動する。そして、取得部１５Ａは、記憶部１３に記憶されたサンプル映像データ１３Ａを読み出すことにより、複数のサンプル映像を含むデータセットを取得する。このように取得されるサンプル映像には、映像から検索を希望する特定のシーン、例えば商店や広告等に関心がある動作、不審な動き、迷子、あるいは車両の追突事故などのシーンが含まれる。なお、ここでは、データセットが記憶部１３から取得される例を挙げたが、ネットワークを介して接続される外部のコンピュータ、例えばファイルサーバの他、リムーバブルメディア等からデータセットが取得されることとしてもかまわない。

【0056】

モデル実行部１５Ｂは、学習済みモデルを実行する処理部である。

【0057】

一実施形態として、モデル実行部１５Ｂは、取得部１５Ａによりデータセットが取得された場合、記憶部１３に記憶されたモデルデータ１３Ｂを参照して、任意の数の学習済みモデルを図示しないワークエリア上に展開する。この学習済みモデルの展開には、ニューラルネットワークを形成する入力層、隠れ層及び出力層の各層のニューロンやシナプスなどのモデルの層構造を始め、各層の重みやバイアスなどのモデルのパラメータが参照される。その上で、モデル実行部１５Ｂは、データセットに含まれるサンプル映像ごとに当該サンプル映像を学習済みモデルに入力する。これによって、学習済みモデルが出力する属性のラベルをサンプル映像ごとに得ることができる。

【0058】

識別部１５Ｃは、学習済みモデルにより出力される属性のラベルごとに当該属性に対応するオブジェクトがサンプル映像に出現する位置および時間を識別する処理部である。

【0059】

一実施形態として、識別部１５Ｃは、サンプル映像上で属性に対応するオブジェクトが矩形のオブジェクトとして検出される場合、当該矩形のオブジェクトの中心の座標を位置の一例として識別することができる。また、識別部１５Ｃは、時間の一例として、サンプル映像Ｓ１に含まれるフレームのうち、属性に対応するオブジェクトが出現するフレームもしくはフレームに対応付けられた時刻の区間を識別することができる。このような位置および時間の識別が属性のラベルごとに行われる。

【0060】

より詳細には、識別部１５Ｃは、属性に対応するオブジェクトが出現するサンプル映像のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値を計算する。これによって、属性に対応するオブジェクトが動体であっても、当該オブジェクトがサンプル映像上で出現する位置を識別できる。ここでは、あくまで一例として、位置の識別にオブジェクトの中心点の座標を用いる例を挙げたが、必ずしも中心点でなくともよく、重心や外心、内心、傍心などの他の五心などの代表点であってかまわない。さらに、識別部１５Ｃは、属性に対応するオブジェクトが出現するサンプル映像のフレーム番号の区間を時間として識別する。ここでは、あくまで一例として、フレーム番号の区間により時間を識別する例を挙げたが、これに限定されない。例えば、上記の「時間」は、フレーム番号の集合で表されることとしてもかまわない。ここで言う「集合」は、フレーム番号の連続値の集合であってもよいし、フレーム番号の離散値の集合であってもかまわない。

【0061】

クラスタリング部１５Ｄは、各属性のラベルの位置および時間に基づいて属性のラベルをクラスタリングする処理部である。ここで、属性のラベルのクラスタリングには、階層的クラスタリングや分割最適化クラスタリングなどの任意の手法を適用することができる。

【0062】

生成部１５Ｅは、サンプル映像ごとに得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高である最頻のクラスタに基づいてルールを生成する処理部である。

【0063】

一実施形態として、生成部１５Ｅは、サンプル映像ごとに得られたクラスタ群のうち最頻のクラスタをルールの生成に用いる。例えば、生成部１５Ｅは、最頻のクラスタに含まれる属性のラベルをＡＮＤ条件で接続することにより、ルールを生成する。このように生成されたルールがルールデータ１３Ｃとして記憶部１３に保存される。

【0064】

通知部１５Ｆは、ルールを通知する処理部である。

【0065】

一実施形態として、通知部１５Ｆは、生成部１５Ｅにより生成されたルール、あるいは記憶部１３に記憶されたルールデータ１３Ｃを所定の出力先、例えば映像検索装置３０に通知する。この他、通知部１５Ｆは、記憶部１３に記憶されたモデルデータ１３Ｂのうち、ルールに含まれる属性のラベルを出力する学習済みモデルに対応する情報を所定の出力先に出力することもできる。

【0066】

［ルール生成方法の具体例］
以下、図５～図７を用いて、ルール生成方法の具体例について説明する。図５は、位置および時間の識別結果の一例を示す図である。図５の左側には、図４に示されたサンプル映像Ｓ１が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力されることにより得られた属性のラベルＬ１～Ｌ１１が示されている。なお、図５～図７では、映像検索の目的とする特定のシーン、例えば２人の男性ｍ１及び男性ｍ２が握手をするに対応する属性のラベルＬ１、Ｌ６及びＬ７には、ノイズとなるシーンに対応する属性のラベルとの間で区別がしやすいように外枠が太字で示されている。

【0067】

これら属性のラベルＬ１～Ｌ１１のうち行動要素「握手」のラベルＬ１を例に挙げれば、行動要素「握手」に対応するオブジェクトが出現するサンプル映像Ｓ１のフレーム間でオブジェクトの中心点の座標の代表値、例えば平均値や中央値、最頻値などの統計値が計算される。これによって、行動要素「握手」に対応するオブジェクトがサンプル映像Ｓ１上で出現する位置（２０，５）が識別される。さらに、行動要素「握手」に対応するオブジェクトが出現するサンプル映像のフレーム番号「５」～「１０」の区間が時間（５，１０）として識別される。その後、位置および時間の識別が属性のラベルＬ１～Ｌ１１ごとに行われる。これによって、図５の右側に示す通り、属性のラベルＬ１～Ｌ１１ごとに位置および時間の識別結果が得られる。このように属性のラベルＬ１～Ｌ１１ごとに位置および時間が識別された後、属性のラベルＬ１～Ｌ１１の位置および時間に基づいて属性のラベルＬ１～Ｌ１１がクラスタリングされる。

【0068】

図６は、クラスタリングの一例を示す図である。図６の左側には、属性のラベルＬ１～Ｌ１１ごとに識別された位置および時間が示されている。これら属性のラベルＬ１～Ｌ１１の位置および時間に基づいてクラスタリングが行われた場合、図６の右側に示す通り、サンプル映像Ｓ１から４つのクラスタが得られる。

【0069】

例えば、上から１つ目のクラスタの例で言えば、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７に対応するオブジェクトがサンプル映像上で出現する位置は、（２０，５）、（１７，８）、（２２，８）である。これらラベルＬ１、ラベルＬ６およびラベルＬ７の間では、Ｘ方向の距離が±３以内に収まり、Ｙ方向の距離も±３以内に収まる。このため、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７の間で位置が類似すると識別できる。さらに、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７が出現するサンプル映像のフレーム番号の範囲は、（５，１０）、（２，２０）、（２，２０）である。このように、フレーム番号「５」～「１０」にわたる６フレームにわたって同時に出現する。このため、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７の間で時間が類似すると識別できる。これら位置および時間の両面で類似することから、行動要素「握手」のラベルＬ１、外観「大人男」のラベルＬ６および外観「大人男」のラベルＬ７が同一のクラスタに同定される。なお、他の３つのクラスタにおいても、同様のクラスタリングが行われる。

【0070】

このようなクラスタリングによって、サンプル映像Ｓ１に複数のシーンが含まれる場合であっても、各シーンを各シーンに対応する属性のラベルの集合に分離することができる。例えば、２人の男性ｍ１及び男性ｍ２が握手をする特定のシーンに対応するクラスタを分離できる。さらに、男性ｍ３がサンプル映像Ｓ１のフレーム内を左から右へ歩くシーンに対応するクラスタを分離できる。さらに、男性ｍ５が荷物を持つシーンに対応するクラスタを分離できる。さらに、男性ｍ４および女性ｗ１がサンプル映像Ｓ１のフレーム内を右から左へ走るシーンに対応するクラスタを分離できる。

【0071】

このサンプル映像Ｓ１以外にも、データセットに含まれる他のサンプル映像からもクラスタ群が得られる。このようにサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高となるクラスタをルールの生成に用いる。

【0072】

図７は、クラスタ群の一例を示す図である。図７には、図４に示すサンプル映像Ｓ１から得られるクラスタ群の他、サンプル映像Ｓ２～サンプル映像Ｓ７ごとに得られるクラスタ群が示されている。例えば、図７に示す例で言えば、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの集合であるクラスタが図示を省略したサンプル映像Ｓ３～サンプル映像Ｓ６を含む全てのサンプル映像Ｓ１～Ｓ７で出現する。この場合、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの集合であるクラスタの出現頻度は最高の「７」となる。

【0073】

したがって、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの集合がルールの生成に用いられる。例えば、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルがＡＮＤ条件で接続されることにより、ルールＲ１が生成される。このようなルールＲ１により、行動認識モデルＭ１が行動要素「握手」のラベルを出力し、かつ外観判別モデルＭ２が外観「大人男」のラベルおよび外観「大人男」のラベルを出力するフレームの映像を抽出することが可能になる。

【0074】

なお、図７に示す例では、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの集合が全てのサンプル映像Ｓ１～Ｓ７に出現する場合を例に挙げたが、必ずしも全てのサンプル映像Ｓ１～Ｓ７に出現しない場合も考えられる。

【0075】

例えば、全てのサンプル映像Ｓ１～Ｓ７において、特定のシーンに対応するクラスタに分離できるとは限らず、当該クラスタに余分な属性のラベルが含まれたり、あるいは一部の属性のラベルが欠けたりすることもある。

【0076】

このように過不足があるクラスタも特定のシーンに対応するクラスタの出現頻度として計上する側面から、次のような処理を実行することができる。例えば、全てのサンプル映像Ｓ１～Ｓ７から出現頻度が最高である最頻クラスタを抽出する。その上で、最頻クラスタが出現しないサンプル映像から得られたクラスタのうち、最頻クラスタとの間で要素の一致度が所定の閾値Ｔｈ１、例えば３／４以上であるクラスタを最頻クラスタと同定する。例えば、最頻クラスタに対する要素の一致度は、最頻クラスタに含まれる要素の総数に対する、最頻クラスタと比較するクラスタの中で最頻クラスタの要素と一致する要素の数の第１の割合と、最頻クラスタと比較するクラスタの要素の総数に対する、最頻クラスタの要素と一致する要素の数の第２の割合とから算出することができる。

【0077】

サンプル映像Ｓ１［握手、大人男、大人男］
サンプル映像Ｓ２［握手、大人男、大人男］
サンプル映像Ｓ３［握手、大人男、大人男］
サンプル映像Ｓ４［握手、大人男、大人男］
サンプル映像Ｓ５［握手、大人男、大人男］
サンプル映像Ｓ６［握手、大人男、大人男］
サンプル映像Ｓ７［握手、大人男、大人女、大人男］

【0078】

例えば、上記の例では、最頻クラスタは、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの集合となる。このようにサンプル映像Ｓ１～Ｓ６で出現する最頻クラスタと、サンプル映像Ｓ７で出現する行動要素「握手」のラベル、外観「大人男」のラベル、外観「大人女」のラベル及び外観「大人男」のラベルを含むクラスタとの間で要素の一致度を算出する場合を例に挙げる。

【0079】

この場合、第１の割合は、次のように算出できる。すなわち、最頻クラスタに含まれる要素の総数は、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの３つである。そして、サンプル映像Ｓ７として例示したクラスタの中で最頻クラスタの要素と一致する要素は、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの３つである。このため、第１の割合は、３÷３の計算で「１」と算出できる。このような第１の割合によって、最頻クラスタに比べて要素が不足する度合いを評価できる。

【0080】

また、第２の割合は、次のように算出できる。すなわち、サンプル映像Ｓ７として例示したクラスタの総数は、行動要素「握手」のラベル、外観「大人男」のラベル、外観「大人女」のラベル及び外観「大人男」のラベルの４つである。そして、サンプル映像Ｓ７として例示したクラスタの中で最頻クラスタの要素と一致する要素の数は、行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルの３つである。このため、第２の割合は、３÷４の計算で「３／４」と算出できる。このような第２の割合によって、最頻クラスタに比べて要素が過剰である度合いを評価できる。

【0081】

例えば、第１の割合および第２の割合を乗算する計算、すなわち１×（３／４）により、最頻クラスタに対する要素の一致度を３／４と算出できる。この場合、一致度が閾値Ｔｈ１以上であるので、サンプル映像Ｓ７として例示したクラスタを最頻クラスタと同定することができる。この結果、最頻クラスタの出現頻度は、全てのサンプル映像Ｓ１～Ｓ７に対応する最高頻度の「７」と計上できる。

【0082】

［ルールの使用例］
以下、図８を用いて、映像検索の一例について説明する。図８は、映像検索の一例を示す図である。図８には、図７に示されたルールＲ１が映像検索装置３０により使用される例が示されている。図８の上側には、フレームＩ１を含むサンプル映像が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力される例が示されている。その一方で、図８の下側には、フレームＩ２を含むサンプル映像が行動認識モデルＭ１、外観判別モデルＭ２および状況認識モデルＭ３の３つの学習済みモデルへ入力される例が示されている。

【0083】

例えば、フレームＩ１を含むサンプル映像が上記３つの学習済みモデルへ入力された場合、学習済みモデルは、次に挙げる６つのラベルを出力する。すなわち、行動要素「握手」のラベル、行動要素「挨拶」のラベル、外観「大人男」のラベル、外観「大人男」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルが得られる。この場合、ルールＲ１に定義された行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルが含まれる。それ故、サンプル映像から行動要素「握手」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルを含むフレームの映像を特定のシーンに対応する映像として検索することができる。

【0084】

一方、フレームＩ２を含むサンプル映像が上記３つの学習済みモデルへ入力された場合、学習済みモデルは、次に挙げる５つのラベルを出力する。すなわち、行動要素「話す」のラベル、行動要素「挨拶」のラベル、外観「大人男」のラベル、外観「大人男」のラベルおよび外観「大人男」のラベルが得られる。この場合、ルールＲ１に定義された行動要素「握手」のラベルが含まれない。それ故、サンプル映像からは特定のシーンに対応する映像の検索結果は得られない。

【0085】

［処理の流れ］
図９は、実施例１に係るルール生成処理の手順を示すフローチャートである。この処理は、あくまで一例として、記憶部１３に複数のサンプル映像を含むデータセットがサンプル映像データ１３Ａに追加登録された場合、あるいはルール生成のリクエストを受け付けた場合に開始される。

【0086】

図９に示すように、取得部１５Ａにより複数のサンプル映像を含むデータセットが取得されると（ステップＳ１０１）、モデル実行部１５Ｂは、データセットに含まれる複数のサンプル映像の中から１つを選択する（ステップＳ１０２）。続いて、モデル実行部１５Ｂは、ステップＳ１０２で選択されたサンプル映像を学習済みモデルに入力する（ステップＳ１０３）。

【0087】

その後、識別部１５Ｃは、学習済みモデルが出力される属性のラベルごとに当該属性に対応するオブジェクトがサンプル映像に出現する位置および時間を識別する（ステップＳ１０４）。続いて、クラスタリング部１５Ｄは、各属性のラベルの位置および時間に基づいて属性のラベルをクラスタリングする（ステップＳ１０５）。

【0088】

そして、全てのサンプル映像が選択されるまで（ステップＳ１０６Ｎｏ）、上記のステップＳ１０２～ステップＳ１０５までの処理が繰り返して実行される。その後、全てのサンプル映像が選択された場合（ステップＳ１０６Ｙｅｓ）、生成部１５Ｅは、サンプル映像ごとに得られたクラスタのうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成し（ステップＳ１０７）、処理を終了する。

【0089】

［効果の一側面］
上述してきたように、本実施例に係るルール生成装置１０は、サンプル映像ごとにサンプル映像が入力された学習済みモデルが出力する属性に対応するオブジェクトがサンプル映像に出現する位置および時間に基づいて属性のラベルをクラスタリングする。その上で、本実施例に係るルール生成装置１０は、サンプル映像ごとにクラスタリングの結果として得られたクラスタ群のうち各サンプル映像の間で出現する頻度が最高であるクラスタに基づいてルールを生成する。

【0090】

したがって、本実施例に係るルール生成装置１０によれば、訓練データのコストを削減することが可能である。さらに、本実施例に係るルール生成装置１０によれば、サンプル映像に特定のシーン以外のノイズが含まれる場合でも、特定のシーンに対応する属性のラベルを組み合わせてルールを生成することが可能である。

【実施例2】

【0091】

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

【0092】

［学習済みモデルの数］
上記の実施例１では、あくまで一例として、３つの学習済みモデルを用いる例を説明したが、学習済みモデルの数は１つ、２つ、あるいは４つ以上でもかまわない。例えば、１つの学習済みモデルが出力する属性のラベルの組合せによりルールを生成する例を挙げる。あくまで特定のシーンの一例として、商業施設等において学生服を着た複数人の集団がいるというシーンの映像検索が行われるとしたとき、複数人の学生服を着たサンプル映像を用意し、サンプル映像に外観「学生服」のラベルが出力可能である外観判別モデルＭ２を適用することができる。これにより、外観「学生服」のラベルおよび外観「学生服」のラベルがＡＮＤ条件で接続されたルールを生成できる。これによって、人手でルールが作成されるのであれば、ルールとなる候補が多い場合に、制服の色などを逐次選択するのにかかる手間を省略することが可能である。

【0093】

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部１５Ａ、モデル実行部１５Ｂ、識別部１５Ｃ、クラスタリング部１５Ｄ、生成部１５Ｅまたは通知部１５Ｆをルール生成装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部１５Ａ、モデル実行部１５Ｂ、識別部１５Ｃ、クラスタリング部１５Ｄ、生成部１５Ｅまたは通知部１５Ｆを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のルール生成装置１０の機能を実現するようにしてもよい。

【0094】

［ルール生成プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１０を用いて、上記の実施例と同様の機能を有するルール生成プログラムを実行するコンピュータの一例について説明する。

【0095】

図１０は、実施例１及び実施例２に係るルール生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１０に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

【0096】

ＨＤＤ１７０には、図１０に示すように、上記の実施例１で示した取得部１５Ａ、モデル実行部１５Ｂ、識別部１５Ｃ、クラスタリング部１５Ｄ及び生成部１５Ｅと同様の機能を発揮するルール生成プログラム１７０ａが記憶される。このルール生成プログラム１７０ａは、図１に示した取得部１５Ａ、モデル実行部１５Ｂ、識別部１５Ｃ、クラスタリング部１５Ｄ及び生成部１５Ｅの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

【0097】

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０からルール生成プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、ルール生成プログラム１７０ａは、図１０に示すように、ルール生成プロセス１８０ａとして機能する。このルール生成プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうちルール生成プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、ルール生成プロセス１８０ａが実行する処理の一例として、図９に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

【0098】

なお、上記のルール生成プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」にルール生成プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体からルール生成プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などにルール生成プログラム１７０ａを記憶させておき、コンピュータ１００がこれらからルール生成プログラム１７０ａを取得して実行するようにしてもよい。

【0099】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0100】

（付記１）複数のサンプル映像を取得する取得部と、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別する識別部と、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングするクラスタリング部と、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する生成部と、
を有することを特徴とするルール生成装置。

【0101】

（付記２）前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記１に記載のルール生成装置。

【0102】

（付記３）前記識別部は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記１に記載のルール生成装置。

【0103】

（付記４）前記生成部は、前記頻度が最高である第１のクラスタが出現しないサンプル映像から得られた第２のクラスタのうち、前記第１のクラスタとの間で要素の一致度が所定の閾値以上である第２のクラスタを前記第１のクラスタと同定することを特徴とする付記１に記載のルール生成装置。

【0104】

（付記５）複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータが実行することを特徴とするルール生成方法。

【0105】

（付記６）前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記５に記載のルール生成方法。

【0106】

（付記７）前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記５に記載のルール生成方法。

【0107】

（付記８）前記生成する処理は、前記頻度が最高である第１のクラスタが出現しないサンプル映像から得られた第２のクラスタのうち、前記第１のクラスタとの間で要素の一致度が所定の閾値以上である第２のクラスタを前記第１のクラスタと同定することを特徴とする付記５に記載のルール生成方法。

【0108】

（付記９）複数のサンプル映像を取得し、
前記複数のサンプル映像ごとに、前記サンプル映像が入力された学習済みモデルが出力する属性が前記サンプル映像に出現する位置および時間を識別し、
前記複数のサンプル映像ごとに、前記属性の位置および時間に基づいて前記属性のラベルをクラスタリングし、
前記複数のサンプル映像ごとに得られたクラスタ群のうち、各サンプル映像の間で出現する頻度が最高であるクラスタに含まれる属性のラベルを組み合わせることによりルールを生成する、
処理をコンピュータに実行させることを特徴とするルール生成プログラム。

【0109】

（付記１０）前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの間で各オブジェクトの中心点の座標の代表値を前記属性の位置として識別することを特徴とする付記９に記載のルール生成プログラム。

【0110】

（付記１１）前記識別する処理は、前記属性に対応するオブジェクトが出現するサンプル映像のフレームの集合を前記属性の時間として識別することを特徴とする付記９に記載のルール生成プログラム。

【0111】

（付記１２）前記生成する処理は、前記頻度が最高である第１のクラスタが出現しないサンプル映像から得られた第２のクラスタのうち、前記第１のクラスタとの間で要素の一致度が所定の閾値以上である第２のクラスタを前記第１のクラスタと同定することを特徴とする付記９に記載のルール生成プログラム。

【符号の説明】

【0112】

１０ルール生成装置
１１通信Ｉ／Ｆ部
１３記憶部
１３Ａサンプル映像データ
１３Ｂモデルデータ
１３Ｃルールデータ
１５制御部
１５Ａ取得部
１５Ｂモデル実行部
１５Ｃ識別部
１５Ｄクラスタリング部
１５Ｅ生成部
１５Ｆ通知部
３０映像検索装置

【図1】