(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-20
(45)【発行日】2022-01-28
(54)【発明の名称】映像に応じたコンテキスト識別エンジンを選択する映像識別プログラム、装置及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220121BHJP
G06T 7/20 20170101ALI20220121BHJP
G06F 16/70 20190101ALI20220121BHJP
G06F 16/75 20190101ALI20220121BHJP
【FI】
G06T7/00 300Z
G06T7/20
G06F16/70
G06F16/75
(21)【出願番号】P 2019002325
(22)【出願日】2019-01-10
【審査請求日】2020-12-14
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】田坂 和之
(72)【発明者】
【氏名】柳原 広昌
【審査官】佐田 宏史
(56)【参考文献】
【文献】米国特許出願公開第2015/0161474(US,A1)
【文献】特開2017-085564(JP,A)
【文献】特開2014-056343(JP,A)
【文献】特開2015-014819(JP,A)
【文献】小林 貴訓,“2.人の顔と頭の追跡技術”,映像情報メディア学会誌,日本,(社)映像情報メディア学会,2010年04月01日,Vol.64, No.4,pp.11-15
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06F 16/70,16/75
(57)【特許請求の範囲】
【請求項1】
映像に応じたコンテキスト識別エンジンを選択するようにコンピュータを機能させる映像識別プログラムであって、
映像から、それぞれ異なる所定コンテキストを識別する
べく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する物体検出エンジンと、
前記物体画像毎に、当該物体画像の物体種別
が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた
挙動識別エンジンを選択する選択手段と、
前記物体画像よりも広い画像となるべく映像からトリミングし直し、前記物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該
挙動識別エンジンへ入力する画像編集手段と
して機能させるようにコンピュータを機能させることを特徴とする映像識別プログラム。
【請求項2】
複数のコンテキスト識別エンジンは、エッジ識別エンジンを含んでおり、
選択手段は、前記物体画像毎に、複数のコンテキスト識別エンジンの中から、物体種別に応じたエッジ識別エンジンを選択し、
画像編集手段は、映像全体をそのまま、当該エッジ識別エンジンへ入力する
ように機能させるようにコンピュータを機能させることを特徴とする請求項1に記載の映像識別プログラム。
【請求項3】
複数のコンテキスト識別エンジンは、オブジェクト識別エンジンを含んでおり、
選択手段は、前記物体画像毎に、複数のコンテキスト識別エンジンの中から、物体種別に応じたオブジェクト識別エンジンを選択し、
画像編集手段は、前記物体画像をオブジェクト識別エンジンに適したフレームレート及び/又は解像度となる編集画像に編集し、当該オブジェクト識別エンジンへ入力する
ように機能させるようにコンピュータを機能させることを特徴とする請求項1又は2に記載の映像識別プログラム。
【請求項4】
サービス項目毎に、1つ以上のコンテキスト識別エンジンを割り当てており、識別されたコンテキストを利用するアプリケーションのサービス項目に応じて、1つ以上のコンテキスト識別エンジンを起動させる起動手段を
更に有するようにコンピュータを機能させることを特徴とする請求項
1から3のいずれか1項に記載の映像識別プログラム。
【請求項5】
前記物体種別毎に、1つ以上のコンテキスト識別エンジンを割り当てており、前記物体検出エンジンによって検出された1つ以上の物体種別に応じて、1つ以上のコンテキスト識別エンジンを予め起動させる起動手段を
更に有するようにコンピュータを機能させることを特徴とする請求項
1から3のいずれか1項に記載の映像識別プログラム。
【請求項6】
前記起動手段は、所定時間毎に、前記物体検出エンジンによって検出された1つ以上の前記物体種別に応じて、起動している1つ以上のコンテキスト識別エンジンを更新する
ようにコンピュータを機能させることを特徴とする請求項
5に記載の映像識別プログラム。
【請求項7】
所定時間帯毎に、1つ以上のコンテキスト識別エンジンを割り当てており、当該所定時間帯に応じて、1つ以上のコンテキスト識別エンジンを予め起動させる起動手段を
更に有するようにコンピュータを機能させることを特徴とする請求項
1から3のいずれか1項に記載の映像識別プログラム。
【請求項8】
前記物体検出エンジンは、バウンディングボックスを検出し、当該バウンディングボックス内の画像を前記物体画像とする
ようにコンピュータを機能させることを特徴とする請求項1から
7のいずれか1項に記載の映像識別プログラム。
【請求項9】
映像に応じたコンテキスト識別エンジンを選択する映像識別装置であって、
映像から、それぞれ異なる所定コンテキストを識別する
べく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する物体検出エンジンと、
前記物体画像毎に、当該物体画像の物体種別
が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた
挙動識別エンジンを選択する選択手段と、
前記物体画像よりも広い画像となるべく映像からトリミングし直し、前記物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該
挙動識別エンジンへ入力する画像編集手段と
を有することを特徴とする映像識別装置。
【請求項10】
映像に応じたコンテキスト識別エンジンを選択する装置の映像識別方法であって、
前記装置は、
映像から、それぞれ異なる所定コンテキストを識別する
べく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
物体検出エンジンを用いて、入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する第1のステップと、
前記物体画像毎に、当該物体画像の物体種別
が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた
挙動識別エンジンを選択する第2のステップと、
前記物体画像よりも広い画像となるべく映像からトリミングし直し、前記物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該
挙動識別エンジンへ入力する第3のステップと
を実行することを特徴とする映像識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習モデルを予め構築したコンテキスト識別エンジンを用いて、映像からコンテキストを識別する技術に関する。
【背景技術】
【0002】
従来、複数の機械学習モデルを実装し、各機械学習モデルの評価を自動で比較する技術がある(例えば特許文献1参照)。
同様に、複数の機械学習モデルを実装し、ルールベースを用いて、機械学習モデルを選択する技術もある(例えば特許文献2参照)。
また、複数のタスクを同一のモデルで学習・推論する技術もある(例えば特許文献3参照)。
更に、複数の機械学習モデルを用いて同時に識別する際に、複数の対象物の種類に関わらず、学習に不要な情報を除去することによって識別精度を向上させる技術もある(例えば特許文献4参照)。
【0003】
図1は、従来技術における映像識別装置の機能構成図である。
【0004】
図1によれば、映像識別装置1は、学習モデルを予め構築した複数のコンテキスト識別エンジンを有する。1つの映像を、異なるコンテキスト識別エンジンに入力し、各コンテキストの識別結果を同時に得ることができる。具体的には、物体種別の認識のみならず、具体的なオブジェグトやエッジ、挙動のような異なるコンテキストまでも同時に識別することができる。この場合、複数の対象物やその挙動が映り込む映像全体に対して、それぞれの機械学習モデルが、高精度に識別するように学習させておく必要がある。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2017-004509号公報
【文献】特許第6224811号公報
【文献】特開2018-055377号公報
【文献】特開2014-106685号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
前述した特許文献1によれば、対象となる映像を、全ての機械学習モデルに入力する必要があるために、機械学習モデルが多くなるほど、サーバの計算リソースも必要とする。
また、特許文献1及び2の両方とも、対象となる映像をそのまま、各機械学習モデルに入力するために、映像に含まれる不要な情報によって、識別精度が低下する場合もある。
更に、特許文献3によれば、新たなタスクを追加する場合には、その都度、学習モデルを構築し直す必要がある。
同様に、特許文献4も、入力される同一の映像に対して、多くの機械学習モデルを用意する必要がある。
【0007】
このように、同一の映像に対する各コンテキストの識別精度を高めるために、各コンテキストに専用の機械学習エンジンを用意すると共に、計算リソースを増加させる必要がある。また、映像に対して、コンテキストをリアルタイムに識別しようとするほど、計算リソースを更に増加させる必要がある。
【0008】
尚、他の課題として、例えば動物の写真が存在する室内を撮影した映像を機械学習エンジンで識別した場合、その動物を椅子と識別しただけでなく、その他の識別も誤って識別してしまうことがある。既存の機械学習エンジンによれば、所定のコンテキストに合わない物体が画像内に存在すると、物体検出自体を誤る傾向がある。即ち、その環境でそのコンテキストの識別自体がおかしい、として判断することが難しい。
【0009】
そこで、本発明は、映像から、複数のコンテキストを少ない計算リソースで高精度に識別することができる映像識別プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、映像に応じたコンテキスト識別エンジンを選択するようにコンピュータを機能させる映像識別プログラムであって、
映像から、それぞれ異なる所定コンテキストを識別するべく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する物体検出エンジンと、
物体画像毎に、当該物体画像の物体種別が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた挙動識別エンジンを選択する選択手段と、
物体画像よりも広い画像となるべく映像からトリミングし直し、物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該挙動識別エンジンへ入力する画像編集手段と
して機能させるようにコンピュータを機能させることを特徴とする。
また、本発明の映像識別プログラムにおける他の実施形態によれば、
複数のコンテキスト識別エンジンは、エッジ識別エンジンを含んでおり、
選択手段は、物体画像毎に、複数のコンテキスト識別エンジンの中から、物体種別に応じたエッジ識別エンジンを選択し、
画像編集手段は、映像全体をそのまま、当該エッジ識別エンジンへ入力する
ように機能させるようにコンピュータを機能させることも好ましい。
更に、本発明の映像識別プログラムにおける他の実施形態によれば、
複数のコンテキスト識別エンジンは、オブジェクト識別エンジンを含んでおり、
選択手段は、物体画像毎に、複数のコンテキスト識別エンジンの中から、物体種別に応じたオブジェクト識別エンジンを選択し、
画像編集手段は、物体画像をオブジェクト識別エンジンに適したフレームレート及び/又は解像度となる編集画像に編集し、当該オブジェクト識別エンジンへ入力する
ように機能させるようにコンピュータを機能させることも好ましい。
【0011】
本発明の映像識別プログラムにおける他の実施形態によれば、
サービス項目毎に、1つ以上のコンテキスト識別エンジンを割り当てており、識別されたコンテキストを利用するアプリケーションのサービス項目に応じて、1つ以上のコンテキスト識別エンジンを起動させる起動手段を
更に有するようにコンピュータを機能させることも好ましい。
【0012】
本発明の映像識別プログラムにおける他の実施形態によれば、
物体種別毎に、1つ以上のコンテキスト識別エンジンを割り当てており、物体検出エンジンによって検出された1つ以上の物体種別に応じて、1つ以上のコンテキスト識別エンジンを予め起動させる起動手段を
更に有するようにコンピュータを機能させることも好ましい。
【0013】
本発明の映像識別プログラムにおける他の実施形態によれば、
起動手段は、所定時間毎に、物体検出エンジンによって検出された1つ以上の物体種別に応じて、起動している1つ以上のコンテキスト識別エンジンを更新する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明の映像識別プログラムにおける他の実施形態によれば、
所定時間帯毎に、1つ以上のコンテキスト識別エンジンを割り当てており、当該所定時間帯に応じて、1つ以上のコンテキスト識別エンジンを予め起動させる起動手段を
更に有するようにコンピュータを機能させることも好ましい。
【0015】
本発明の映像識別プログラムにおける他の実施形態によれば、
物体検出エンジンは、バウンディングボックスを検出し、当該バウンディングボックス内の画像を物体画像とする
ようにコンピュータを機能させることも好ましい。
【0018】
本発明によれば、映像に応じたコンテキスト識別エンジンを選択する映像識別装置であって、
映像から、それぞれ異なる所定コンテキストを識別するべく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する物体検出エンジンと、
物体画像毎に、当該物体画像の物体種別が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた挙動識別エンジンを選択する選択手段と、
物体画像よりも広い画像となるべく映像からトリミングし直し、物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該挙動識別エンジンへ入力する画像編集手段と
を有することを特徴とする。
【0019】
本発明によれば、映像に応じたコンテキスト識別エンジンを選択する装置の映像識別方法であって、
装置は、
映像から、それぞれ異なる所定コンテキストを識別するべく、少なくとも挙動識別エンジンを含む複数のコンテキスト識別エンジンを予め起動しており、
物体検出エンジンを用いて、入力された映像から、物体を枠で囲む物体画像と、当該物体画像における物体種別とを検出する第1のステップと、
物体画像毎に、当該物体画像の物体種別が移動する物体である場合、複数のコンテキスト識別エンジンの中から、物体種別に応じた挙動識別エンジンを選択する第2のステップと、
物体画像よりも広い画像となるべく映像からトリミングし直し、物体画像を挙動識別エンジンに適したフレームレートとなる編集画像に編集し、当該挙動識別エンジンへ入力する第3のステップと
を実行することを特徴とする。
【発明の効果】
【0020】
本発明の映像識別プログラム、装置及び方法によれば、映像から、複数のコンテキストを少ない計算リソースで高精度に識別することができる。
【図面の簡単な説明】
【0021】
【
図1】従来技術における映像識別装置の機能構成図である。
【
図2】本発明における映像識別装置の機能構成図である。
【
図3】映像識別装置に入力される映像を表す説明図である。
【
図4】
図3の映像から、物体検出エンジンによって検出した物体を表す説明図である。
【
図5】選択部、画像編集部及びコンテキスト識別部の処理の流れを表す説明図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0023】
図2は、本発明における映像識別装置の機能構成図である。
【0024】
映像識別装置1は、映像に応じたコンテキスト識別エンジンを選択することができる。
図2によれば、映像識別装置1は、物体検出エンジン11と、選択部12と、画像編集部13と、複数のコンテキスト識別エンジン14と、起動部15と、アプリケーション16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、映像識別方法としても理解できる。
【0025】
映像識別装置1は、例えばインターネットに接続されたサーバとして機能するものであってもよい。その場合、映像識別装置1には、カメラを搭載した様々な端末2から、その撮影映像が入力される。例えば、以下のような端末2を想定することができる。
自動車に搭載されるドライブレコーダ
各ユーザによって所持されるスマートフォンや携帯端末
宅内に設置されたWebカメラ
勿論、映像識別装置1の機能自体が、端末2に組み込まれたものであってもよい。
【0026】
サーバとしての映像識別装置1は、撮影映像を、携帯電話網又は無線LANのようなアクセスネットワークを介して受信するものであってもよい。また、Webカメラによって撮影された映像を記録したSDカードから、その映像を入力するものであってもよい。映像識別装置1は、入力された映像から複数のコンテキストを識別し、そのコンテキストを様々なアプリケーションで利用することができる。
【0027】
図3は、映像識別装置に入力される映像を表す説明図である。
【0028】
図3によれば、映像識別装置1に入力される映像は、自動車に搭載されたドライブレコーダのカメラから、車外を撮影したものである。この映像には、以下のような物体が映り込んでいるとする。
道路側面に設置された「標識」
道路側面を歩行している「人物」
前方を走行する「車両」
駐車場に駐車している「車両」
【0029】
[物体検出エンジン11]
物体検出エンジン11は、入力された映像から、物体を枠で囲む「物体画像」と、当該物体画像における「物体種別」とを検出する。
「物体画像」としては、バウンディングボックスを検出し、当該バウンディングボックス内の画像を検出する。
「物体種別」としては、物体検出のカテゴリであってもよい。例えばドライブレコーダによって撮影された映像の場合、その映像から、例えば標識、人物、車両などの物体を検出する。
【0030】
物体検出エンジン11としては、例えばSSD(Single Shot Multibox Detector)がある。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの物体が収まる。
【0031】
図4は、
図3の映像から、物体検出エンジンによって検出した物体を表す説明図である。
【0032】
図4によれば、
図3の映像から、4つのバウンディングボックスで囲まれた物体画像と、それぞれの物体種別(標識ID、人物ID、車両ID)とが検出されている。
【0033】
[コンテキスト識別エンジン14]
前述した
図2によれば、例えば以下のようなコンテキストを識別する複数のコンテキスト識別エンジン14が、予め起動されているとする。
物体種別毎に専用のオブジェクト識別エンジン141
複数の物体種別に応じた各オブジェクトのエッジ識別エンジン142
物体種別毎に専用の挙動識別エンジン143
【0034】
<オブジェクト識別エンジン141>
オブジェクト識別エンジン141は、撮影映像に映り込むオブジェクト(対象物)を識別することができる。
オブジェクト識別エンジン141としては、例えばRGB認識に基づくCNN(Convolutional Neural Network)のようなニューラルネットワークであって、YOLO(You Only Look Once)(登録商標)がある。これは、前述した物体検出エンジンとしてのSSDと同様に、物体を識別する。
但し、ここでのオブジェクト識別エンジン141は、物体検出エンジン11と異なって、各物体種別に専用の学習モデルを構築したものであって、物体種別を詳細に識別する。物体検出エンジン11が、例えば物体種別として「標識ID」と識別した場合、オブジェクト識別エンジン141は、例えば「30km速度標識」「一旦停止標識」「工事中標識」のように、標識に特化して専用に学習モデルを構築したものである。
【0035】
<エッジ識別エンジン142>
エッジ識別エンジン142は、映像に対してピクセル毎に物体の各領域(エッジ)を識別することができる。
例えば人物が物体として検出された場合、その人物が、道路上の横断歩道に存在するのか、又は、横断歩道でないところに存在するのか、など、歩行者の位置を識別することができる。
【0036】
エッジ識別エンジンとしては、例えばセマンティック・セグメンテーションに基づくDeepLabV3(登録商標)がある。これは、画像系ディープラーニングの一種で、画素レベルで物体を分類することができる。一般的には、画素情報をクラスの次元に落とし込んで分類するのに対し、セマンティック・セグメンテーションでは、それを画素(ピクセル)単位で分類することができる。即ち、ピクセル毎に、それが何かをラベル付け(アノテーション)することができる。
【0037】
<挙動識別エンジン143>
挙動識別エンジン143は、物体の挙動から、どのような行動をとっているかを識別することができる。映像におけるRGB画像に加えて、移動特徴量を用いて、物体検出エンジン11によって検出された物体種別の移動を識別する。
【0038】
挙動識別エンジン143としては、例えばTwo-StreamCNN(登録商標)がある。これは、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランスの特徴と、水平方向成分と垂直成分の系列における動きの特徴との両方を抽出する。例えば車両の場合、「右左している、フラフラしている」のような挙動を識別することができる。
【0039】
図5は、選択部、画像編集部及びコンテキスト識別部の処理の流れを表す説明図である。
【0040】
[選択部12]
選択部12は、物体種別毎に、1つ以上のコンテキスト識別エンジン14を割り当てたテーブルを保持する。その上で、選択部12は、物体画像(バウンディングボックス)毎に、当該物体画像の物体種別に応じた1つ以上のコンテキスト識別エンジン14を選択する。例えば物体種別とコンテキスト識別エンジンとは、以下のように紐付けられているとする。
<物体種別> -> <コンテキスト識別エンジン>
標識ID -> オブジェクト識別エンジン
人物ID -> エッジ識別エンジン
車両ID -> 挙動識別エンジン
尚、このテーブルは、後述する起動部15によって起動中のコンテキスト識別エンジン14によって更新される。
【0041】
[画像編集部13]
画像編集部13は、物体画像(バウンディングボックス)毎に、選択された各コンテキスト識別エンジン14に適した編集画像に編集し、選択部12によって選択された当該コンテキスト識別エンジン14へ入力する。これによって、各コンテキスト識別エンジン14における識別精度を維持することができる。
【0042】
オブジェクト識別エンジン141に対しては、物体画像(バウンディングボックス)の解像度を拡大する。具体的には、物体画像から、所定比率で拡大した拡大ボックスを「囲み領域」として導出する。また、オブジェクト識別エンジン141は、RGB画像に基づいて識別するために、物体画像のフレームレートを、例えば1fpsのように間引くように画像を編集するものであってもよい。
【0043】
エッジ識別エンジン142に対しては、物体画像でなく、映像識別装置1に入力された元の映像全体をそのまま、入力する。例えば物体検出エンジン11によって人物が検出された場合、その歩行者と道路との位置関係も必要となるために、バウンディングボックスのみの物体画像では不十分となるためである。
【0044】
挙動識別エンジン143に対しては、物体画像よりも広い範囲で、元の映像からトリミングし直すと共に、識別すべき挙動に応じたフレームレートに編集する。例えば物体画像が車両である場合、その挙動を高精度に認識するべく、入力されたフレームレートそのままで、且つ、左右への動作も考慮して物体画像よりも広くトリミングし直す。
尚、挙動識別エンジン143は、フレーム間で同一の特徴点が動いている箇所を抽出し、物体の動きを「ベクトル」として識別するものであってもよい。
【0045】
[起動部15]
起動部15は、例えば以下の3つのパターンによって、1つ以上のコンテキスト識別エンジン14を起動させる。
(起動パターン1)起動部15は、サービス項目毎に、1つ以上のコンテキスト識別エンジン14を割り当てている。この場合、識別されたコンテキストを利用するアプリケーションのサービス項目に応じて、1つ以上のコンテキスト識別エンジンを起動させる。
例えばアプリケーションとしては「ドライブレコーダ」であり、サービス項目が「道路上の交通流把握」である場合、道路上に映り込むコンテキスト(例えば車両と人物等)のみを詳細に識別できればよい。
【0046】
(起動パターン2)起動部15は、物体種別毎に、1つ以上のコンテキスト識別エンジン14を割り当てている。この場合、物体検出エンジン11によって検出された1つ以上の物体種別に応じて、1つ以上のコンテキスト識別エンジン14を起動させる。
このとき、起動部15は、所定時間(例えば10分)毎に、物体検出エンジン11によって検出された1つ以上の物体種別に応じて、起動させる1つ以上のコンテキスト識別エンジン14を更新する。
【0047】
このように、映像に映り込んでいない物体に基づくコンテキストについては、識別する必要もないために、そのコンテキスト識別エンジン14自体も実行する必要がない。
【0048】
(起動パターン3)起動部15は、所定時間帯毎に、1つ以上のコンテキスト識別エンジンを割り当てている。この場合、当該所定時間帯に応じて、1つ以上のコンテキスト識別エンジン14を起動させる。例えば道路上を撮影した映像の場合、カメラの特性上、日中のみに起動すべきコンテキスト識別エンジン14と、夜中のみに起動すべきコンテキスト識別エンジン14とを切り替えることもできる。
【0049】
起動部15は、起動中のコンテキスト識別エンジン14を、選択部12へ通知する。
一方で、起動部15は、起動させる必要がないと判定したコンテキスト識別エンジン14を停止させる。
これによって、起動させるコンテキスト識別エンジン14を制限し、全体的な計算リソースを抑えることができる。
【0050】
以上、詳細に説明したように、本発明の映像識別プログラム、装置及び方法によれば、入力される映像に応じて、コンテキスト識別エンジンを選択することができ、複数のコンテキストを少ない計算リソースで高精度に識別することができる。
【0051】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0052】
1 映像識別装置
11 物体検出エンジン
12 選択部
13 画像編集部
14 コンテキスト識別エンジン
141 オブジェクト識別エンジン
142 エッジ識別エンジン
143 挙動識別エンジン
15 起動部
16 アプリケーション
2 端末