(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-05
(45)【発行日】2022-12-13
(54)【発明の名称】行動認識学習装置、行動認識学習方法、行動認識装置、及びプログラム
(51)【国際特許分類】
G06T 7/246 20170101AFI20221206BHJP
G06T 7/00 20170101ALI20221206BHJP
【FI】
G06T7/246
G06T7/00 350B
(21)【出願番号】P 2019200642
(22)【出願日】2019-11-05
【審査請求日】2022-02-10
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】細野 峻司
(72)【発明者】
【氏名】孫 泳青
(72)【発明者】
【氏名】早瀬 和也
(72)【発明者】
【氏名】島村 潤
(72)【発明者】
【氏名】澤田 清仁
【審査官】藤原 敬利
(56)【参考文献】
【文献】国際公開第2018/163555(WO,A1)
【文献】特開2001-056861(JP,A)
【文献】国際公開第2015/186436(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 -20/90
G06V 30/418
G06V 40/16 ,40/20
(57)【特許請求の範囲】
【請求項1】
入力部と、検出部と、方向算出部と、正規化部と、最適化部とを含み、
前記入力部は、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、
前記検出部は、前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
前記方向算出部は、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
前記正規化部は、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、
前記最適化部は、入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する
行動認識学習装置。
【請求項2】
前記正規化部は、回転及び反転の少なくとも1つを行うことにより、前記学習用映像を正規化する
請求項1記載の行動認識学習装置。
【請求項3】
前記方向算出部は、前記基準物体の輪郭の法線の角度に基づいて、物体方向を推定する
請求項1又は請求項2記載の行動認識学習装置。
【請求項4】
前記正規化部は、前記基準物体の向きが所定方向となるように、前記学習用映像を回転させ、前記基準物体と、前記他の物体との位置関係が前記所定の関係となるように、前記回転させた前記学習用映像を反転させることにより、前記正規化を行う
請求項1~請求項3の何れか1項記載の行動認識学習装置。
【請求項5】
入力部と、検出部と、方向算出部と、正規化部と、認識部とを含み、
前記入力部は、入力映像の入力を受け付け、
前記検出部は、前記入力映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
前記方向算出部は、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
前記正規化部は、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記入力映像を正規化し、
前記認識部は、請求項1~請求項4の何れか1項記載の行動認識学習装置により学習された行動認識器を用いて、入力された映像内の物体の行動を推定する
行動認識装置。
【請求項6】
前記入力部は、更に、前記学習用映像に含まれるフレーム画像の各々に対応する動きの特徴を示すオプティカルフローの入力を受け付け、
前記行動認識器は、映像と前記映像に対応するオプティカルフローとを入力として、入力された前記映像内の物体の行動を推定するモデルであり、
前記正規化部は、前記基準物体と、前記他の物体との位置関係が前記所定の関係となるように、前記学習用映像及び前記学習用映像に対応するオプティカルフローを正規化し、
前記最適化部は、前記行動認識器に、前記正規化部により正規化された前記学習用映像と、前記正規化部により正規化された前記オプティカルフローとを入力して推定される行動と、前記行動ラベルが示す行動とが一致するように、前記行動認識器のパラメータを最適化する
請求項1~請求項4の何れか1項記載の行動認識学習装置。
【請求項7】
入力部が、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、
検出部が、前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
方向算出部が、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
正規化部が、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、
最適化部が、入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する
行動認識学習方法。
【請求項8】
コンピュータを、請求項1~請求項4の何れか1項、若しくは請求項6記載の行動認識学習装置、又は請求項5記載の行動認識装置を構成する各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、行動認識学習装置、行動認識学習方法、行動認識装置、及びプログラムに関する。
【背景技術】
【0002】
従来から、入力された映像中の物体(例えば、人や車等)がどのような行動を取っているかを機械で認識する行動認識技術が研究されている。行動認識技術は、監視カメラやスポーツ映像の解析、ロボットの人間行動理解等、幅広い産業応用を持つ。特に、「人が車に荷物を積む」や「ロボットが工具を持つ」等複数物体のインタラクションにより発生する行動を認識することは映像中の事象を機械が深く理解するために重要な機能となる。
【0003】
公知の行動認識技術では、
図1に示すように、入力された映像を、予め学習された行動認識器を用いて、どのような行動であるかを示す行動ラベルを出力することにより、行動認識を実現する。例えば、非特許文献1では、Convolutional Neural Network(CNN)等の深層学習を活用することにより、高い認識精度を実現している。具体的には、非特許文献1では、入力映像からフレーム画像群と、当該フレーム画像群に対応する動き特徴であるオプティカルフロー群を抽出する。そして、抽出したフレーム画像群とオプティカルフロー群とに対して、時空間フィルタを畳み込む3D CNNを用いることにより、行動認識器の学習及び行動認識を行う。
【先行技術文献】
【非特許文献】
【0004】
【文献】J. Carreira and A. Zisserman, “Quo vadis, action recognition? a new model and the kinetics dataset”, in Proc. on Int. Conf. on Computer Vision and Pattern Recognition, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1のようなCNNを活用した手法で高い性能を発揮するためには、大量の学習データが必要となる、という問題があった。この要因の1つとして、複数物体のインタラクションによる行動の場合における、物体の相対位置の多様性が挙げられる。例えば、
図2に示すように、「人が車に荷物を積む」という行動に限った場合でも、映像の上にある車に人が下から荷物を積む場合(
図2の左図)、映像の左にある車に人が右から荷物を積む場合(
図2の中図)、映像の右にある車に、人が左から荷物を積む場合(
図2の右図)等、物体(人と車)の相対位置の多様性により無数の見えのパターンが存在し得る。このような様々な見えのパターンに頑健な認識器を構築するために、公知の技術では大量の学習データが必要となってしまう。
【0006】
一方、行動認識器の学習データを構築するには、行動の種別、発生時刻、位置を映像に付与する必要がある。このような学習データの構築作業の人的コストは高く、十分な学習データを準備することは容易ではない、という問題があった。また、小規模な学習データを用いた場合、認識対象の行動がデータセットに含まれない確率が増え、認識精度が劣化してしまう、という問題があった。
【0007】
開示の技術は、上記の点に鑑みてなされたものであり、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができる行動認識学習装置、行動認識学習方法、及びプログラムを提供することを目的とする。
【0008】
また、開示の技術は、少量の学習データで高精度に行動認識をすることができる行動認識装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本開示の第1態様は、行動認識学習装置であって、入力部と、検出部と、方向算出部と、正規化部と、最適化部とを含み、前記入力部は、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、前記検出部は、前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、前記方向算出部は、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、前記正規化部は、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、前記最適化部は、入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する。
【0010】
本開示の第2態様は、行動認識装置であって、入力部と、検出部と、方向算出部と、正規化部と、認識部とを含み、前記入力部は、入力映像の入力を受け付け、前記検出部は、前記入力映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、前記方向算出部は、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、前記正規化部は、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記入力映像を正規化し、前記認識部は、上記行動認識学習装置により学習された行動認識器を用いて、入力された映像内の物体の行動を推定する。
【0011】
本開示の第3態様は、行動認識学習方法であって、入力部が、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、検出部が、前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、方向算出部が、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、正規化部が、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、最適化部が、入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する。
【0012】
本開示の第4態様は、プログラムであって、コンピュータを、上記行動認識学習装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0013】
開示の技術によれば、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができる。また、開示の技術によれば、高精度に行動認識をすることができる。
【図面の簡単な説明】
【0014】
【
図2】複数物体のインタラクションによる行動の場合における、物体の相対位置の多様性の例を示す図である。
【
図3】本開示の行動認識装置の概要を示す図である。
【
図4】本開示の行動認識装置として機能するコンピュータの概略構成を示すブロック図である。
【
図5】本開示の行動認識装置の機能構成の例を示すブロック図である。
【
図6】基準物体の向きを算出する処理の概要を示す図である。
【
図9】実験例の学習・推定方法の概要を示す図である。
【
図10】本開示の行動認識装置の学習処理ルーチンを示すフローチャートである。
【
図11】本開示の行動認識装置の行動認識処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0015】
<本開示の実施形態の概要>
まず、本開示の実施形態の概要について説明する。本開示の技術では、見えのパターンの多様性の影響を抑制するために、複数物体の相対位置が、ある1つの位置関係になるように、入力映像を正規化させる(
図3)。具体的には、まず、事前に定められた映像中の基準となる物体である基準物体の向きが一定の方向になるよう、映像中の基準物体の角度を推定し、その角度が一定(例えば90度)になるよう映像を回転する。次に、物体の左右の位置関係が一定(例えば車が左、人が右)となるよう、必要に応じて映像を左右反転する。このような正規化処理を行うことにより、映像により異なる複数の物体の位置関係が、正規化後の映像間で概ね一定となることが望める。このようにして正規化された映像を学習時及び行動認識時の入力とする。本開示の技術は、このような構成により、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができる。
【0016】
<本開示の技術の実施形態に係る行動認識装置の構成>
以下、開示の技術の実施形態の例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0017】
図4は、本実施形態に係る行動認識装置10のハードウェア構成を示すブロック図である。
図4に示すように、行動認識装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
【0018】
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、学習処理及び行動認識処理を実行するためのプログラムが記憶されている。
【0019】
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0020】
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
【0021】
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
【0022】
通信インタフェース17は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
【0023】
次に、行動認識装置10の機能構成について説明する。
図5は、行動認識装置10の機能構成の例を示すブロック図である。
図5に示すように、行動認識装置10は、機能構成として、入力部101と、検出部102と、方向算出部103と、正規化部104と、最適化部105と、記憶部106と、認識部107と、出力部108とを有する。各機能構成は、CPU11がROM12又はストレージ14に記憶されたプログラムを読み出し、RAM13に展開して実行することにより実現される。以下、学習時の機能構成と、行動認識時の機能構成とを分けて説明する。
【0024】
<<学習時の機能構成>>
学習時の機能構成について説明する。入力部101は、学習用映像と、物体の行動を示す行動ラベルと、学習用映像に含まれるフレーム画像の各々に対応する動きの特徴を示すオプティカルフローとの組を学習データとして入力を受け付ける。そして、入力部101は、学習用映像を、検出部102に渡す。また、入力部101は、行動ラベルとオプティカルフローとを最適化部105に渡す。
【0025】
検出部102は、学習用映像に含まれるフレーム画像の各々について、当該フレーム画像に含まれる物体を複数検出する。本実施形態では、検出部102が検出する物体が人及び車である場合を例に説明する。具体的には、検出部102は、フレーム画像に含まれる物体の領域及び位置を検出する。次に、検出部102は、検出した物体が人か車かを示す種別を検出する。物体検出方法には有為なものを用いることができる。例えば下記参考文献1に記載の物体検出手法を各フレーム画像に施すことで実施することができる。また、1フレームに対する物体検出結果に、参考文献2に記されるような物体追跡手法を用いることで、2フレーム目以降の物体種別・位置を推定する構成としてもよい。
[参考文献1]K. He, G. Gkioxari, P. Dollar and R.Girshick, “Mask R-CNN”, in Proc. IEEE Int Conf. on Computer Vision, 2017.
[参考文献2]A. Bewley, Z. Ge, L. Ott, F. Ramos, B. Upcroft, “Simple online and realtime tracking”, in Proc. IEEE Int. Conf. on Image Processing, 2017.
【0026】
そして、検出部102は、学習用映像と、検出した複数の物体の位置及び物体種別を、方向算出部103に渡す。
【0027】
方向算出部103は、検出部102が検出した複数の物体のうち、基準とする物体である基準物体の向きを算出する。
図6に、方向算出部103による基準物体の向きを算出する処理の概要を示す。まず、方向算出部103は、各フレーム画像に含まれる基準物体の領域Rについて、基準物体の輪郭の勾配強度を算出する。本開示では、基準物体を、物体種別に基づいて設定する。例えば、検出された複数の物体のうち、物体種別が「車」である物体を、基準物体とする。
【0028】
次に、方向算出部103は、基準物体の領域Rの勾配強度に基づいて、基準物体の輪郭の法線ベクトルを算出する。基準物体の輪郭の法線ベクトルを算出するには、有為な方法を用いることができる。例えば、ソーベルフィルタを用いる場合、ソーベルフィルタの応答から、iフレーム目の画像中のある位置x∈Rについて縦方向のエッジ成分vi,x,と横方向のエッジ成分hi,x,を求めことができる。これらの値を局座標変換することにより、法線方向を算出することができる。このとき、各エッジ成分の符号は物体と背景との明暗差に依存するため、映像によって正負が逆転し、物体方向が映像毎に異なるおそれがある。そこで、下記式(1)及び(2)のように、縦方向エッジ成分vi,x,が負の値を持つ場合、vi,x,とhi,x,の正負を共に反転させてから局座標変換を施し、下記式(3)のように各画素における法線方向θi,x,を算出する。
【0029】
【0030】
【0031】
【0032】
次に、方向算出部103は、基準物体の輪郭の法線の角度に基づいて、基準物体の向きθを推定する。物体の形状が同様であれば、物体輪郭の法線方向の最頻値は物体間で同一となる。例えば、車であれば概ね直方体であるため、床‐屋根方向が最頻値となる。このような考えのもと、方向算出部103は、物体輪郭の法線方向の最頻値を基準物体の向きθとして算出する。そして、方向算出部103は、学習用映像と、検出した複数の物体の位置及び物体種別と、算出した基準物体の向きθとを、正規化部104に渡す。
【0033】
正規化部104は、基準物体と、他の物体との位置関係が所定の関係となるように、学習用映像を正規化する。具体的には、正規化部104は、
図7に示すように、基準物体の向きθが所定方向となるように、学習用映像を回転させ、基準物体と、他の物体との位置関係が所定の関係となるように、回転させた学習用映像を反転させることにより、正規化を行う。
【0034】
より具体的には、正規化部104では、検出された物体と基準物体の向きθに基づいて、検出された人と車との位置関係が一定となるよう学習用映像を回転及び反転する。本開示では、所定の関係を、基準物体である車の方向が上向き(90度)である場合に、車の右に人が位置する関係であるものとする。以下、正規化部104が、当該所定の関係となるように、学習用映像を正規化する場合について説明する。
【0035】
まず、正規化部104は、方向算出部103により算出された基準物体の向きθを用いて、映像中の各フレーム画像とオプティカルフローとを、θ-90度時計回りに回転する。次に、正規化部104は、物体の検出結果を用いて、人及び車の左右の位置関係が、所定の関係となっていない場合、回転した各フレーム画像を反転する。具体的には、正規化部104は、映像の初期のフレーム画像において、人の領域の中心座標が車領域の中心座標よりも左に位置する場合、所定の関係となっていない。このため、正規化部104は、各フレーム画像を左右反転させる。すなわち、左右反転させることにより、正規化部104は、人が車の右に位置するよう変換する。
【0036】
ここで、人又は車が複数映像中に存在する場合は、位置関係が一意に定まらない恐れがある。例えば、映像内において、人-車-人の順で並んでいる場合等である。映像中に写っているが行動をしていない物体の場合、行動を行なっている物体、又は行動の対象となっている物体に比べ動きが小さくなると考えられる。例えば、荷物を積んでいない人の動きは荷物を積んでいる人よりも小さいと考えられる。そのため、オプティカルフローを活用することで対象となる物体を絞り込むことができる。具体的には、正規化部104は、映像中の複数の物体の各々の領域について、オプティカルフローの移動ベクトルのL2-ノルムの和を算出する。そして、正規化部104は、物体種別の各々について、算出したノルムの和が最大となる領域のみを用いて、物体種別同士の位置関係を判定する。
【0037】
図8に正規化を行う前の映像の例(
図8上図)と、正規化を行った後の映像の例(
図8下図)を示す。
図8に示すように、正規化を行った場合には、車と人との位置関係が揃うこととなる。そして、正規化部104は、正規化した学習用映像を、最適化部105に渡す。
【0038】
最適化部105は、入力された映像内の物体の行動を推定するための行動認識器に、正規化部104により正規化された学習用映像を入力して推定される行動と、行動ラベルが示す行動とに基づいて、行動認識器のパラメータを最適化する。具体的には、行動認識器は、入力された映像内の物体の行動を推定するモデルであり、例えばCNNを採用することができる。
【0039】
最適化部105は、まず、記憶部106から、現在の行動認識器のパラメータを取得する。次に、最適化部105は、正規化された学習用映像と、オプティカルフローとを、行動認識器に入力することにより、学習用映像内の物体の行動を推定する。最適化部105は、推定された行動と、入力された行動ラベルとに基づいて、行動認識器のパラメータを最適化する。最適化のアルゴリズムは、例えば非特許文献1に記載されている方法等、有為なアルゴリズムを採用することができる。そして、最適化部105は、最適化した行動認識器のパラメータを、記憶部106に格納する。
【0040】
記憶部106には、最適化部105により最適化された行動認識器のパラメータが格納されている。
【0041】
学習時において、予め定めた終了条件を満たすまで、入力部101、検出部102、方向算出部103、正規化部104、及び最適化部105による各処理を繰り返すことにより、行動認識器のパラメータが最適化される。このような構成により、入力部101に入力される学習データが少量であっても、高精度に行動認識をすることができる行動認識器を学習することができるのである。
【0042】
<<行動認識時の機能構成>>
行動認識時の機能構成について説明する。入力部101は、入力映像と当該入力映像のオプティカルフローとの入力を受け付ける。そして、入力部101は、入力映像とオプティカルフローとを、検出部102に渡す。なお、行動認識時において、検出部102、方向算出部103、及び正規化部104の処理は、学習時の処理と同様である。正規化部104は、正規化した入力映像とオプティカルフローとを、認識部107に渡す。
【0043】
認識部107は、学習された行動認識器を用いて、入力された映像内の物体の行動を推定する。具体的には、認識部107は、まず、最適化部105により最適化された行動認識器のパラメータを取得する。次に、認識部107は、正規化部104により正規化された入力映像とオプティカルフローとを行動認識器に入力することにより、入力映像内の物体の行動を推定する。そして、認識部107は、推定した物体の行動を、出力部108に渡す。
【0044】
出力部108は、認識部107により推定された物体の行動を出力する。
【0045】
<本開示の実施形態に係る行動認識装置を用いた実験例>
次に、本開示の実施形態に係る行動認識装置10を用いた実験例について説明する。
図9に、本実験例の学習・推定方法の概要を示す。本実験例において、行動認識は、映像とオプティカルフローとをInflated 3D ConvNets(I3D)(非特許文献1)に入力した際の5層目の出力をConvolutional Recurrent Neural Network (Conv. RNN)に入力し、行動種別を分類することにより行なった。このとき、オプティカルフローの算出には、TV-L1アルゴリズム(参考文献3)を用いた。また、I3Dのネットワークパラメターは、公開されているKinetics Dataset(参考文献4)により学習済みのパラメータを用いた。行動認識器の学習は、Conv. RNNに対してのみ行ない、Conv. RNNのネットワークモデルは参考文献5で公開されているものを用いた。物体領域は人手で与え、それらを物体検出等で推定されたものと仮定した。
[参考文献3]C. Zach, T. Pock, H. Bischof, “A Duality Based Approach for Realtime TV-L1 Optical Flow,” Pattern Recognition, vol. 4713, 2017, pp.214-223.
[参考文献4]W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, A. Zisserman, “The Kinetics Human Action Video Dataset,” arXiv preprint, arXiv:1705.06950, 2017.
[参考文献5]インターネット<URL:https://github.com/marshimarocj/conv_rnn_trn>
【0046】
評価用のデータには、ActEVデータセット(参考文献6)を用いた。本データセットには、18種類の行動を捉えた映像が計2466本あり、そのうち1338本を学習に、残りを精度評価に用いた。この学習データは一般的な行動認識に比べて少数であり、本開示の技術が、学習データが少数である場合に有効であることの検証に適している。例えば、参考文献4では、行動一種に付き400本以上の学習データがあることから、18種類の行動では7200本の学習データが必要であることと比べても、本実験例の学習データが少数であることが分かる。本データセットには、上記にて対象とした人と車とのインタラクションによる行動が8種、それ以外の行動が10種含まれる。本実験例では、前者8種の行動についてのみ、物体位置正規化を施し、それら以外の行動については入力映像とオプティカルフローとを直接行動認識部に入力した。評価指標には、各行動種別における適合率(正解率)と、各行動種別の適合率を平均した平均適合率を用いた。また、比較手法には、本開示の技術から正規化部104を除いたものを用いることで、当該処理の有効性を評価した。
[参考文献6]G. Awad, A. Butt, K. Curtis, Y. Lee, J. Fiscus, A. Godil, D. Joy, A. Delgado, A.F. Smeaton, Y. Graham, W. Kraaij, G. Quenot, J. Magalhaes, D. Semedo, S. Blasi, “TRECVID 2018: Benchmarking Video Activity Detection, Video Captioning and Matching, Video Storytelling Linking and Video Search,” TRECVID2018, 2018.
【0047】
<<評価結果>>
評価結果を下記表1に示す。なお、表1において、太字の数値は、各行における最大値である。
【0048】
【0049】
表1より、本開示の正規化処理を加えることで、多くの行動で適合率が向上していることが分かる。また、平均適合率も約0.02向上していることがわかる。また、正規化を行った人と車とのインタラクションによる行動のみに絞った場合、平均適合率(人・車行動のみ)(表1下から二行目)も向上している。以上のことから本開示の行動認識装置10により、開示の技術により、行動認識の精度が向上することを確認できた。また、本開示の行動認識装置10により、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができることが分かった。
【0050】
<本開示の技術の実施形態に係る行動認識装置の作用>
次に、行動認識装置10の作用について説明する。
図10は、行動認識装置10による学習処理ルーチンの流れを示すフローチャートである。CPU11がROM12又はストレージ14からプログラムを読み出して、RAM13に展開して実行することにより、学習処理ルーチンが行なわれる。
【0051】
ステップS101において、CPU11は、入力部101として、学習用映像と、物体の行動を示す行動ラベルと、学習用映像に含まれるフレーム画像の各々に対応する動きの特徴を示すオプティカルフローとの組を学習データとして入力を受け付ける。
【0052】
ステップS102において、CPU11は、検出部102として、学習用映像に含まれるフレーム画像の各々について、当該フレーム画像に含まれる物体を複数検出する。
【0053】
ステップS103において、CPU11は、方向算出部103として、上記ステップS102により検出した複数の物体のうち、基準とする物体である基準物体の向きを算出する。
【0054】
ステップS104において、CPU11は、正規化部104として、基準物体と、他の物体との位置関係が所定の関係となるように、学習用映像を正規化する。
【0055】
ステップS105において、CPU11は、最適化部105として、入力された映像内の物体の行動を推定するための行動認識器に、上記ステップS104により正規化された学習用映像を入力して、行動を推定する。
【0056】
ステップS106において、CPU11は、最適化部105として、上記ステップS105により推定された行動と、行動ラベルが示す行動とに基づいて、行動認識器のパラメータを最適化する。
【0057】
ステップS107において、CPU11は、最適化部105として、最適化した行動認識器のパラメータを、記憶部106に格納し、処理を終了する。なお、学習時には、行動認識装置10は、終了条件を満たすまで、ステップS101~ステップS107を繰り返す。
【0058】
図11は、行動認識装置10による行動認識処理ルーチンの流れを示すフローチャートである。CPU11がROM12又はストレージ14からプログラムを読み出して、RAM13に展開して実行することにより、行動認識処理ルーチンが行なわれる。なお、学習処理ルーチンと同様の処理については、同一の符号を付して説明を省略する。
【0059】
ステップS201において、CPU11は、入力部101として、入力映像と当該入力映像のオプティカルフローとの入力を受け付ける。
【0060】
ステップS204において、CPU11は、認識部107として、学習処理により最適化された行動認識器のパラメータを取得する。
【0061】
ステップS205において、CPU11は、認識部107として、上記ステップS104により正規化された入力映像とオプティカルフローとを行動認識器に入力することにより、入力映像内の物体の行動を推定する。
【0062】
ステップS206において、CPU11は、出力部108として、上記ステップS205により推定した物体の行動を出力し、処理を終了する。
【0063】
以上説明したように、本開示の実施形態に係る行動認識装置によれば、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、学習用映像に含まれるフレーム画像の各々について、当該フレーム画像に含まれる物体を複数検出し、検出した複数の物体のうち、基準とする物体である基準物体の向きを算出し、基準物体と、他の物体との位置関係が所定の関係となるように、学習用映像を正規化し、入力された映像内の物体の行動を推定するための行動認識器に、正規化された学習用映像を入力して推定される行動と、行動ラベルが示す行動とに基づいて、行動認識器のパラメータを最適化するため、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができる。
【0064】
また、本開示の実施形態に係る行動認識装置によれば、入力映像の入力を受け付け、入力映像に含まれるフレーム画像の各々について、当該フレーム画像に含まれる物体を複数検出し、検出した複数の物体のうち、基準とする物体である基準物体の向きを算出し、基準物体と、他の物体との位置関係が所定の関係となるように、入力映像を正規化し、本開示の技術により学習された行動認識器を用いて、入力された映像内の物体の行動を推定するため、高精度に行動認識をすることができる。
【0065】
また、正規化により、見えのパターンの多様性による学習及び行動認識に対する影響を抑制することができる。また、オプティカルフローを用いることにより、映像中において、ある物体種別について物体が複数存在する場合であっても、対象となる物体を適切に絞り込むことができる。このため、映像中に物体が複数存在する場合であっても、学習データとして用いることができることにより、少量の学習データで高精度に行動認識をすることができる行動認識器を学習することができる。
【0066】
なお、本開示は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0067】
例えば、上記実施形態では、行動認識器への入力にオプティカルフローが入力されるものとして説明したが、オプティカルフローが無い構成としてもよい。この場合、正規化部104は、単に複数の物体位置の平均値や最大値を人又は車の位置とした後に、位置関係の判定を行う構成とすればよい。
【0068】
また、上記実施形態では、行動認識装置10において、行動認識器の学習と、行動認識とを行うこととしたが、これに限定されるものではない。行動認識器の学習と、行動認識を行う装置を別の装置として構成してもよい。この場合、行動認識器の学習を行う行動認識学習装置と、行動認識を行う行動認識装置との間で、行動認識器のパラメータのやり取りを行うことができれば、行動認識器のパラメータは行動認識学習装置、行動認識装置、及び他の記憶装置の何れに格納されてもよい。
【0069】
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行したプログラムを、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、プログラムを、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0070】
また、上記各実施形態では、プログラムがROM12又はストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0071】
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、
前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、
入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する
ように構成されている行動認識装置。
【0072】
(付記項2)
学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、
前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、
入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する
ことをコンピュータに実行させるプログラムを記憶した非一時的記憶媒体。
【0073】
(付記項3)
入力部が、学習用映像と、物体の行動を示す行動ラベルとの入力を受け付け、
検出部が、前記学習用映像に含まれるフレーム画像の各々について、前記フレーム画像に含まれる物体を複数検出し、
方向算出部が、前記検出部が検出した前記複数の物体のうち、基準とする物体である基準物体の向きを算出し、
正規化部が、前記基準物体と、他の物体との位置関係が所定の関係となるように、前記学習用映像を正規化し、
最適化部が、入力された映像内の物体の行動を推定するための行動認識器に、前記正規化部により正規化された前記学習用映像を入力して推定される行動と、前記行動ラベルが示す行動とに基づいて、前記行動認識器のパラメータを最適化する
ことを含む処理をコンピュータに実行させるためのプログラム。
【符号の説明】
【0074】
10 行動認識装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 表示部
17 通信インタフェース
19 バス
101 入力部
102 検出部
103 方向算出部
104 正規化部
105 最適化部
106 記憶部
107 行動認識部
108 出力部