(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022187870
(43)【公開日】2022-12-20
(54)【発明の名称】学習装置、推論装置、学習方法、推論方法、及びプログラム
(51)【国際特許分類】
G06T 7/20 20170101AFI20221213BHJP
G06T 7/00 20170101ALI20221213BHJP
G06N 3/04 20060101ALI20221213BHJP
【FI】
G06T7/20 300Z
G06T7/00 350C
G06N3/04
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021096082
(22)【出願日】2021-06-08
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】田良島 周平
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA04
5L096DA02
5L096HA02
5L096HA11
5L096JA11
5L096JA13
5L096JA16
5L096KA15
(57)【要約】
【課題】シンプルなアーキテクチャを用いて処理コストを低減させた行動認識技術を提供する。
【解決手段】行動認識のための学習を行う学習装置において、映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果及び動作分類結果を出力する分類部と、出力と正解データとの誤差が最小となるように、モデルパラメータを更新するモデルパラメータ更新部とを備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
行動認識のための学習を行う学習装置であって、
映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、
前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、
前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、
前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力する第1分類部と、
前記関係モデリング部から出力された特徴に基づいて、動作分類結果を出力する第2分類部と、
前記位置特徴マップ、前記サイズ特徴、前記再同定特徴、前記集団行動分類結果、及び前記動作分類結果と、正解データとの誤差が最小となるように、前記畳込みニューラルネットワーク、前記特徴選択部、前記関係モデリング部、前記第1分類部、及び前記第2分類部のモデルパラメータを更新するモデルパラメータ更新部と
を備える学習装置。
【請求項2】
前記関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換する、又は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
請求項1に記載の学習装置。
【請求項3】
前記関係モデリング部は、第1関係モデリング部と第2関係モデリング部を備え、前記第1関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換し、前記第2関係モデリング部は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
請求項1に記載の学習装置。
【請求項4】
行動認識のための推論を行う推論装置であって、
映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、
前記位置特徴マップから得られた点位置データ、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、
前記点位置データと前記サイズ特徴から得られる検出結果、及び前記再同定特徴を入力し、追跡結果を出力する追跡部と、
前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、
前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力する集団行動分類部と、
前記関係モデリング部から出力された特徴と前記追跡結果に基づいて、動作分類結果を出力する動作分類部と
を備える推論装置。
【請求項5】
前記関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換する、又は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
請求項4に記載の推論装置。
【請求項6】
前記関係モデリング部は、第1関係モデリング部と第2関係モデリング部を備え、前記第1関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換し、前記第2関係モデリング部は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
請求項4に記載の推論装置。
【請求項7】
行動認識のための学習を行う学習装置が実行する学習方法であって、
畳込みニューラルネットワークが、映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力するステップと、
特徴選択部が、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力するステップと、
関係モデリング部が、前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力するステップと、
第1分類部が、前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力するステップと、
第2分類部が、前記関係モデリング部から出力された特徴に基づいて、動作分類結果を出力するステップと、
前記位置特徴マップ、前記サイズ特徴、前記再同定特徴、前記集団行動分類結果、及び前記動作分類結果と、正解データとの誤差が最小となるように、前記畳込みニューラルネットワーク、前記特徴選択部、前記関係モデリング部、前記第1分類部、及び前記第2分類部のモデルパラメータを更新するステップと
を備える学習方法。
【請求項8】
行動認識のための推論を行う推論装置が実行する推論方法であって、
畳込みニューラルネットワークが、映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力するステップと、
特徴選択部が、前記位置特徴マップから得られた点位置データ、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力するステップと、
追跡部が、前記点位置データと前記サイズ特徴から得られる検出結果、及び前記再同定特徴とを入力し、追跡結果を出力するステップと、
関係モデリング部が、前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力するステップと、
集団行動分類部が、前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力するステップと、
動作分類部が、前記関係モデリング部から出力された特徴と前記追跡結果に基づいて、動作分類結果を出力するステップと、
を備える推論方法。
【請求項9】
コンピュータを、請求項1ないし3のうちいずれか1項に記載の学習装置として機能させるためのプログラム。
【請求項10】
コンピュータを、請求項4ないし6のうちいずれか1項に記載の推論装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された映像に写る物体を検出・追跡し、各々の追跡対象がとる動作を識別するとともに、複数の物体が映り込む場合に、その集団によって形成される行動である集団行動を識別する技術に関するものである。
【背景技術】
【0002】
上記のような集団行動を識別する技術の例を
図1に示す。
図1に示す例では、入力された映像に写る人物を検出・追跡し、各々の追跡対象がとる動作(個人の動作)を識別するとともに、複数の物体が映り込む場合に、その集団によって形成される集団行動を識別する。
【0003】
図1には、1つ目と2つ目の追跡結果の動作が"Moving"、3つ目の動作が"Waiting"と識別され、かつ、それらで形成される集団がとる行動は"Moving"と識別される例が示されている。以下では、以下、上記の問題を「行動認識」と呼ぶ。
【0004】
上記の行動認識が実現されると、映像に映り込む個人の動作を自動で認識することが可能になる。これは、例えば市中に設置されたカメラ映像からの異常な行動の監視に応用できる。また同時に、個々の動作のみならず、複数の対象で構成される集団がとる行動も自動で認識できるようになる。これにより、スポーツにおける複数選手の連携で構成されるセットプレーの認識や、市中カメラに写る集団がとる異常行動の検知も可能となり、スポーツ映像や監視映像の分析応用の幅を拡げることができる。
【0005】
以上から、行動認識の産業応用性は極めて高いことがわかる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016.
【非特許文献2】L. Chen, H. Ai, Z. Zhuang, and C. Shang. Real-time multiple people tracking with deeply learned candidate selection and person re-identification. In ICME, 2018.
【非特許文献3】J. Wu, L. Wang, L. Wang, J. Guo, and G. Wu. Learning actor relation graphs for group activity recognition. InCVPR, 2019.
【非特許文献4】F. Yu, D. Wang, E. Shelhamer, and T. Darrell. Deep layer aggregation. In CVPR, 2018.
【非特許文献5】K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In CVPR, 2019.
【非特許文献6】J. L. Ba, J. R. Kiros, and G. E Hinton. Layer normalization. arXiv preprint arxiv:1607.06450, 2016.
【非特許文献7】N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: a simple way toprevent neural networks from overfitting. JMLR, 2014.
【非特許文献8】Y. Zhang, C. Wang, X. Wang, W. Zeng, and W. Liu. Fairmot: On the fairness of detection and re-identification in multiple object tracking. In arXiv preprint arXiv:, 2020.
【非特許文献9】F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.
【非特許文献10】D. P. Kingma and J. L. Ba. Adam: a method for stochastic optimization. In ICLR, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記のような行動認識を、従来技術を用いて行う場合、全体のアーキテクチャが複雑かつ冗長になってしまい、処理に時間がかかり、行動認識の性能が低いという課題がある。
【0008】
本発明は上記の点に鑑みてなされたものであり、シンプルなアーキテクチャを用いて処理コストを低減させた行動認識技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
開示の技術によれば、行動認識のための学習を行う学習装置であって、
映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、
前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、
前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、
前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力する第1分類部と、
前記関係モデリング部から出力された特徴に基づいて、動作分類結果を出力する第2分類部と、
前記位置特徴マップ、前記サイズ特徴、前記再同定特徴、前記集団行動分類結果、及び前記動作分類結果と、正解データとの誤差が最小となるように、前記畳込みニューラルネットワーク、前記特徴選択部、前記関係モデリング部、前記第1分類部、及び前記第2分類部のモデルパラメータを更新するモデルパラメータ更新部と
を備える学習装置が提供される。
【発明の効果】
【0010】
開示の技術によれば、シンプルなアーキテクチャを用いて処理コストを低減させた行動認識技術を提供することが可能となる。
【図面の簡単な説明】
【0011】
【
図2】公知技術から想定される方式と本発明に係る技術を示す図である。
【
図3】畳込みニューラルネットワークを示す図である。
【
図4】1映像シーケンスあたりの学習データを示す図である。
【
図11】装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。以下では、まず、課題についてより詳細に説明し、その後に本実施の形態に係る学習装置と推論装置について説明する。
【0013】
(課題について)
背景技術において説明した行動認識は、複数のサブタスクで構成される。具体的には、映像を構成する各フレーム対象物体の検出、検出結果のフレーム間での対応付け(追跡)、各検出あるいは追跡結果の動作の識別、および、検出/追跡結果総体がなす集団行動の識別を行う必要がある。
【0014】
公知の技術を用いて行動認識を行う場合の処理構成例を
図2の左側に示す。なお、
図2の左側に示す構成自体は公知ではない。
図2左側に示すとおり、公知の技術を用いて行動認識を行うためには、上記のサブタスクを独立に解く複数の方法が出力する結果を組み合わせることになる。具体例をあげると以下のようになる。
【0015】
まず、非特許文献1で開示されている方法で映像各フレームから対象物体を検出する。続いて、得られた検出結果から非特許文献2で開示されている方法で追跡結果を出力する。並行して、非特許文献3で開示されている方法を用いて、各検出結果の動作と集団の行動を識別する。最後に、各検出結果の動作識別結果と追跡結果とを突合し、各追跡結果の動作を出力する。
【0016】
上記の方法には大きく3つの課題がある。第一の課題として、全体としてのアーキテクチャが複雑で、かつ全体の計算コストが高い点が挙げられる。上であげた各サブタスクを解く公知の技術である非特許文献1-3に開示された技術には、共通の畳み込みニューラルネットワーク(CNN)の構造を含んでいることに注意すると、全体アーキテクチャが過度に冗長であることも明らかである。
【0017】
第二の課題として、上述のサブタスクは相互に関連し合っているが、独立した方法を単純に結合して行動認識を行う場合、タスク間の相互作用を明示的に考慮できない点が挙げられる。例えば、追跡と動作認識について、短い時間間隔のもとで一つの物体(すなわち、追跡結果)は同じ動作を継続している可能性が高く、逆に、動作を判定するにあたり対象物体の同一性は有益な情報である可能性が高い。しかし独立した方法を単純結合する方法では、これらの相互作用を考慮することができず、結果、行動認識全体の性能を向上させることができない。
【0018】
第三の課題として、サブタスクは相互に関連し合っているゆえ、ある一つのサブタスクの性能劣化が、それ以外の性能に強く影響を及ぼすことが挙げられる。最も顕著な例として、物体検出サブタスクがそのほかに与える影響が挙げられる。物体検出は、対象の全貌が隠れてしまうとき、すなわちオクルージョンが発生しているときに失敗してしまうことが多い。しかしながら、物体検出の結果を入力とするサブタスクの公知の技術では、これらの検出失敗の可能性が考慮されずにモデルが学習されているため、不完全な検出結果が入力された場合、その影響を大きく受けてしまいかねない。
【0019】
以上をまとめると、公知の技術をサブタスクとして組み合わせる手法では、全体のアーキテクチャが複雑かつ冗長で処理に時間がかかり、またサブタスク間の相互作用が考慮されていないため行動認識の性能が低いという課題があった。
【0020】
(実施の形態の概要)
以下、上記の課題を解決するための技術について説明する。最初に、当該技術の特徴として、5つの特徴を説明する。
【0021】
<第1の特徴>
第1の特徴は、行動認識を構成するサブタスクに係る複数の特徴表現を、入力映像を構成するフレームからワンショットで出力する畳み込みニューラルネットワーク(CNN)を用いることである。具体的には、このCNNは、
図3を参照して後述するように、入力フレームから特徴マップを抽出するバックボーン1と、特徴マップから対象物体の点位置を示す位置特徴マップを出力する位置特徴ブランチ2と、各位置での対象物体の大きさを示すサイズ特徴マップを出力するサイズ特徴ブランチ3と、特徴マップから異なるフレーム間で同一物体を再同定するための再同定特徴マップを出力する再同定ブランチ4と、個人の動作および集団の行動を認識するための動作特徴マップを出力する動作特徴ブランチ5とから構成されることを特徴とする。
【0022】
物体検出、再同定に基づく追跡、および動作・行動の識別に必要な特徴抽出器の構成を共有することで、
図2右側に示すように、アーキテクチャがシンプルになりかつ処理コストを低下させることができる。
【0023】
<第2の特徴>
第2の特徴は、
図5等を参照して後述する関係モデリング部14である。関係モデリング部14による処理では、入力映像シーケンスから抽出される動作特徴および再同定特徴を入力として、動作特徴を、再同定特徴を補助情報としつつ、特徴間の相互作用が考慮されたものへと変形する。これにより、第二の課題において言及した、動作を判定するにあたり対象物体の同一性に関する情報を考慮することが可能となり、結果、動作分類ならびに集団行動分類の性能を向上させることができる。
【0024】
なお、関係モデリング部14での処理は、再同定特徴を、動作特徴を補助情報として変換することにも適用することができる(
図7、
図8において後述)。更に、関係モデリング部14の処理による変換は、動作特徴と再同定特徴とに同時に適用することも可能である(
図9、
図10において後述)。
【0025】
これにより、第二の課題のところで言及した、短い時間間隔のもとでの動作の一貫性に関する情報を再同定特徴の変換に活用することが可能となり、追跡の性能、ひいては行動認識全体の性能を向上させることが可能になる。
【0026】
<第3の特徴>
第3の特徴は、
図5等を参照して後述する特徴選択部12の処理である。特徴選択部12では、モデル全体のうち特に再同定に基づく追跡、動作分類、および集団行動分類に係る部分を学習するにあたり、全ての正解対象物体の中から、その一部を、各々の隠れている度合に基づいて選択し、不完全な物体検出結果をシミュレートする。
【0027】
この方法を用いてモデルを学習することにより、仮に物体検出結果がいくつかの物体を検出し損なったとしても、頑健に各々の動作および集団の行動を識別することが可能となる。
【0028】
<第4の特徴>
第4の特徴は、
図5等を参照して後述するモデルパラメータ更新部17の処理において、本実施の形態におけるモデルのうち学習で決定される全てのパラメータを、位置特徴マップに係る誤差関数と、サイズ特徴に係る誤差関数と、再同定特徴に係る誤差関数と、動作分類結果と、集団行動分類結果に係る誤差関数とから構成される誤差関数を最小化するように更新することである。第1、第2、第3の特徴と合わせて用いることで、サブタスク間の関係性を考慮しつつモデルを学習することが可能となり、結果、行動認識の性能を向上させることができる。
【0029】
<第5の特徴>
第5の特徴は、
図6等を参照して後述する動作分類部16である。動作分類部16の処理では、各検出結果の動作を、検出結果が捉える個体の一貫性を考慮した上で分類することにより、動作分類の性能を向上させることができる。
【0030】
<実施の形態の効果>
以上の5つの特徴を備える実施の形態に係る技術により、低い処理コストでかつ精度良く行動認識を行うことができる。なお、このような効果を得るために、5つの特徴の全部を用いることは必須ではない。5つの特徴のうちの一部の特徴でもこのような効果を得ることができる。
【0031】
以下、より具体的な装置構成とその動作の例について、実施例1~3により説明する。以下で説明する各実施例における機能は、ニューラルネットワークのモデルにより実装されることを想定している。ただし、ニューラルネットワークを用いることは一例であり、ニューラルネットワーク以外の機械学習の手法を使用してもよい。また、ニューラルネットワークとニューラルネットワーク以外の手法が混在してもよい。
【0032】
(実施例1)
まず、実施例1を説明する。
図5は、実施例1の学習装置100の構成を示し、
図6は、実施例1の推論装置200の構成を示す。
【0033】
学習装置100は、学習データ所与のもとモデルを学習する。推論装置200は、学習装置100で得られたモデルを用いて入力映像データに対し推論、すなわち、映像データを構成する各フレームに写る対象物体の検出、検出物体の追跡、各追跡結果の動作の識別および追跡結果集団がとる行動の識別、を行う。
【0034】
なお、学習装置100の中にピーク検出部18、検出後処理部19、追跡部20を加えることで、学習装置100を推論装置200として使用してもよい。また、推論装置200にモデルパラメータ更新部17を加えることで、推論装置200のみで学習と推論を行うこととしてもよい。
【0035】
なお、モデルとは、学習および推論を行うにあたり、手動で設定されるもの以外の全パラメータの集合である。
【0036】
<学習データについて>
学習で用いられる学習データの例を
図4に示す。
図4は1映像シーケンスあたりの学習データを示す。
図4に示すように、映像シーケンスとそれに対応する正解データを単位要素とする。学習データに含まれる単位要素の数は1以上の任意の数でよい。映像シーケンスは、時間順に並んだT個の画像フレームである。Tは任意であり、またシーケンスごとに異なっていてもよい。
【0037】
一つのシーケンスに対応する正解データは、
図4に示すように、検出正解ラベル、追跡正解ラベル、動作正解ラベル、および集団行動正解ラベルで構成される。検出正解ラベルは、映像シーケンスの各フレームに写る対象物体の位置に関するラベルであり、各々は、例えば、対象を過不足なく囲う矩形として定義できる。追跡正解ラベルは、検出正解ラベル各々に付与されるidであり、同一の個体を捉えた検出正解ラベルには同一かつ固有のidが付与されているものとする。動作正解ラベルは、各追跡idに付与される動作のラベルである。
【0038】
図4の例では、id1とid2に対し"Moving"という動作ラベル、id3に"Waiting"という動作ラベルが付与されている。なお動作ラベルは、
図4のように追跡対象毎に付与する以外にも、各検出正解ラベル単位で付与してもよい。最後に、集団行動ラベルは映像シーケンスあたりに付与され、
図4の例では"Moving"というラベルが付与されている。
【0039】
<学習装置の構成と処理の流れ>
図5に示すように、学習装置100は、畳込みニューラルネットワーク11、特徴選択部12、プーリング部13、関係モデリング部14、分類部15、分類部16、モデルパラメータ更新部17を備える。また、学習データを格納したデータベース30が存在する。なお、
図5に示す構成は一例である。ある機能部が他の機能部を含んでもよい。例えば、分類部15がプーリング部13を含んでもよい。各部の詳細は後述する。以下、
図5を参照して処理の流れを説明する。
【0040】
まず、学習データのうち映像シーケンスを構成する各画像フレームが畳み込みニューラルネットワーク11に入力され、ニューラルネットワーク11が、位置特徴マップ、サイズ特徴マップ、再同定特徴マップおよび動作特徴マップを出力する。
【0041】
映像シーケンスを構成する全画像フレームに対応するサイズ特徴マップ、再同定特徴マップおよび動作特徴マップについては、学習データから生成される正解位置データに対応し、かつ、オクルージョンの影響を受けていないと判定された位置の特徴のみが特徴選択部12で選択され、サイズ特徴、再同定特徴、動作特徴が出力される。
【0042】
動作特徴は、関係モデリング部14に入力され、関係モデリング部14で対象間の関係性やインタラクションを考慮した特徴変換が施される。ここで、関係モデリング部14における動作特徴の変換には、再同定特徴が補助情報として用いられる。得られた動作特徴はプーリング部13に入力され、プーリングを施すことで、集団行動特徴が出力される。
【0043】
動作特徴および集団行動特徴はそれぞれ分類部16,15に入力され、動作分類結果、集団行動分類結果が出力される。すなわち、特徴選択部12で選択された各正解位置に対応する対象物体の動作、および映像シーケンスに対応する集団行動が、あらかじめ決められた動作カテゴリおよび集団行動カテゴリのいずれかに分類される。
【0044】
ここまでの処理で出力された、位置特徴マップ、サイズ特徴、再同定特徴、動作分類結果および集団行動分類結果は、正解データ(例:
図4)とともにモデルパラメータ更新部17に入力され、現在のモデル出力と正解との誤差が最小となるようにモデルのパラメータが更新される。
【0045】
<推論装置200の構成と処理の流れ>
図6に、実施例1における推論装置200の構成を示す。
図6に示すとおり、実施例1の推論装置200は、畳込みニューラルネットワーク11、特徴選択部12、プーリング部13、関係モデリング部14、集団行動分類部15、動作分類部16、ピーク検出部18、検出後処理部19、追跡部20を備える。なお、
図6に示す構成は一例である。ある機能部が他の機能部を含んでもよい。例えば、集団分類部15がプーリング部13を含んでもよい。各部の詳細は後述する。以下、
図6を参照して処理の流れを説明する。
【0046】
推論対象となる入力映像シーケンスを構成する各画像フレームが畳み込みニューラルネットワーク11に入力され、位置特徴マップ、サイズ特徴マップ、再同定特徴マップおよび動作特徴マップが出力される。推論処理では学習処理と異なり、対象物体の点位置が、ピーク検出部18により処理で、位置特徴マップのピーク位置として検出される。この点位置と、サイズ特徴マップ、再同定特徴マップおよび動作特徴マップが特徴選択部12に入力され、全画像フレームについて各点位置に対応する特徴集合が、サイズ特徴、再同定特徴、動作特徴として出力される。
【0047】
点位置データおよびサイズ特徴は、検出後処理部19での処理を経て検出結果として出力される。再同定特徴と検出結果とを入力として追跡部20により追跡処理が行われ、追跡結果が出力される。動作特徴は、学習処理と同様に、関係モデリング部14において、再同定特徴を補助情報としつつ変換が行われる。関係モデリング部14から出力された動作特徴はプーリング部13に入力され、プーリング部13から集団行動特徴が出力される。
【0048】
動作特徴と追跡結果は動作分類部16に入力され、各追跡結果における動作ラベルの一貫性が保たれるよう、各追跡結果の動作ラベルが出力される。また集団行動特徴は集団行動分類部15に入力され、集団行動分類結果が出力される。
【0049】
<学習装置100における各部の詳細>
以下、
図5に示す学習装置100の各部について詳細に説明する。
【0050】
<学習装置100の畳込みニューラルネットワーク11>
畳込みニューラルネットワーク(CNN)11の構成例は、
図3に示したとおりである。畳込みニューラルネットワークは、映像シーケンスを入力として、それを構成する各画像フレームに対応する位置特徴マップ、サイズ特徴マップ、再同定特徴マップ、および動作特徴マップを出力する。
【0051】
位置特徴マップは、入力画像フレームで対象物体が存在する位置でスコアが高くなるような特徴マップであり、サイズ特徴マップは入力画像フレーム内各位置が捉える物体のサイズを出力する特徴マップであり、再同定特徴マップは入力画像フレーム内各位置が捉える物体を異なるフレーム間で対応付けるための特徴を出力する特徴マップであり、動作特徴マップは入力画像フレーム内各位置が捉える物体の動作および集団行動を識別するための特徴を出力する特徴マップである。
【0052】
このようなCNNは、公知のエンコーダー・デコーダ型CNNのバックボーン出力を入力として、上記の各特徴マップを出力するブランチとして、畳み込み処理層を並列に接続することによって実現できる。エンコーダー・デコーダ型CNNには任意の技術、例えば非特許文献4,5の技術を用いることができる。畳み込み処理層を定義する方法も任意であり、3×3のフィルタサイズを持つ畳み込み処理層の後段に非線形処理層、例えばReLUなどを適用し、その後に1×1フィルタサイズの畳み込み処理層を接続することで、所望のチャンネルサイズの出力特徴マップが得られる。
【0053】
以下の例では、シーケンスに含まれるサイズH×W×3の画像フレームを入力として、H´×W´×1の位置特徴マップ、H´×W´×2のサイズ特徴マップ、H´×W´×dreidの再同定特徴マップ、H´×W´×dactの動作特徴マップが得られるものとする。dreidとdactは任意のパラメータあり、例えばどちらも128などと設定することができる。
【0054】
<学習装置100の特徴選択部12>
特徴選択部12は、畳込みニューラルネットワーク11からの出力のうち、サイズ特徴マップ、再同定特徴マップ、および動作特徴マップを入力し、正解データから計算される物体点位置に対応する特徴を抽出し、サイズ特徴、再同定特徴、動作特徴を出力する。
【0055】
正解データから計算される物体点位置を計算する方法は任意である。物体位置が矩形で定義されている場合、その中心座標を計算し、入力画像フレームサイズと出力特徴マップサイズのスケール比率に応じて物体点位置を算出すればよい。
【0056】
加えて、学習処理の中では、特徴選択部12は、正解データから計算される物体点のうち、オクルージョンの影響を受けていないもののみを選択してもよい。オクルージョンの影響を受けていないものを選択する方法は任意であり、例えば以下の方法を用いることができる。まず、各画像フレームの正解物体位置の重複度を総当たりで計算する。
【0057】
続いて、各正解物体をカメラから見て手前にある順に並べる。最後に、手前にあるものから順に、より手前に位置する物体との重複度が所定の閾値以下である場合のみ、特徴選択の対象となる物体位置であると判定する。
【0058】
ここで、重複度の計算にはIntersection-over-Union(IoU)、手前にある物体順に並べるための基準としては矩形下側の座標位置を用いればよい。閾値は、あらかじめ定数を手動で決めてもよいし、あるいは、各試行毎にランダムに設定してもよい。
【0059】
いま、映像シーケンスの全画像フレームから選択された位置データの総数をNseqとすると、全てのサイズ特徴マップからはNseq×2のサイズ特徴が抽出され、全ての再同定特徴マップからはNseq×dreidの再同定特徴が抽出され、全ての動作特徴マップからはNseq×dactの動作特徴が抽出される。
【0060】
<学習装置100の関係モデリング部14>
関係モデリング部14は、特徴選択部12からの出力である動作特徴と再同定特徴を入力として、特徴間の関連性を考慮した変形が施された動作特徴を出力する。
【0061】
いま、ある入力シーケンス内の全特徴の数をNseqとする。関係モデリング部14における処理は、例えば以下のように定義される。
【0062】
動作特徴集合をXact∈RN_seq×d_act、再同定特徴集合をXreid∈RN_seq×d_reidとして、関係モデリング部14が出力する動作特徴集合を^Xtgt∈RN_seq×d_actとする。^Xtgtは、以下の式1-4で定義される処理を経て得られる。
【0063】
【0064】
【0065】
【0066】
【数4】
ここで、W
Q
act∈R
d_act×d_reid/2,W
K
act∈R
d_act×d_act/2,W
V
act∈R
dact×d_act/2,W
Q
reid∈R
d_reid×d_act/2,W
K
reid∈R
d_reid×d_act/2,W
V
reid∈R
d_reid×d_act/2,W
O∈R
d_act×d_act,はパラメータであり、学習処理の中で最適化される。なお、明細書テキストの記載の関係上、上記の右肩の添字である「d_act×d_reid/2」は、「d
act×d
reid/2」を意図している。他も同様である。LayerNorm()は非特許文献6で開示されている正規化層、Dropout()は非特許文献7で開示されている層である。
【0067】
<学習装置100のプーリング部13>
プーリング部13は、関係モデリング部14が出力する動作特徴を入力として、シーケンスの中で行われている集団行動を識別するための集団行動特徴を出力する。Nseq×dactの動作特徴をプーリングして、1×dactの集団行動特徴が抽出される。
【0068】
プーリング処理には任意の方法を用いることが可能であり、例えば最大プーリングや、平均値プーリングを用いることができる。
【0069】
<学習装置100の分類部15、分類部16>
分類部16は、関係モデリング部14が出力する動作特徴を入力として、対象の動作を、あらかじめ決められた動作カテゴリのいずれかに分類する。分類部15は、プーリング部13が出力する集団行動特徴を入力として、集団行動を、あらかじめ決められた集団行動カテゴリのいずれかに分類する。
【0070】
分類処理には任意の方法を用いることができる。いま、動作カテゴリの総数をNactionとすると、Nseq×dactの行列で定義される動作特徴に、Nact×dactionの変換行列を右から適用すればよい。このとき各要素は、出力される行列各行で最大値をとるインデクスに対応する動作をとっていると解釈できる。
【0071】
<学習装置100のモデルパラメータ更新部17>
モデルパラメータ更新部17は、畳み込みニューラルネットワーク11が出力する位置特徴マップ、特徴選択部12が出力するサイズ特徴および再同定特徴、分類部16,15が出力する動作分類結果および集団行動分類結果をそれぞれ、正解データと突合し、その合計誤差が最小となるようにモデル一部ないしは全体のパラメータを更新する。以下では、位置特徴マップに係る誤差関数をLhm、サイズ特徴に係る誤差関数をLsize、再同定特徴に係る誤差関数をLreid、動作分類結果に係る誤差関数をLaction、集団行動分類結果に係る誤差関数をLactivityとする。
【0072】
上記の各誤差関数の計算には公知の方法を用いることができる。例えば、位置特徴マップに係る誤差関数Lhmには非特許文献8で開示されているFocal loss、サイズ特徴に係る誤差関数Lsizeには非特許文献8で開示されているL1 loss、再同定特徴に係る誤差関数Lreidには非特許文献9で開示されているTriplet loss、動作分類結果に係る誤差関数Lactionおよび集団行動分類結果に係る誤差関数Lactivityにはcross entropy loss を用いればよい。
【0073】
全体の誤差関数は、Lhm、Lsize、Lreid、Laction、Lactivityの重み和として定義できる。ここで、各々の項に対応する重みは手動で決定してもよいし、あるいは学習パラメータとして学習処理の中で最適化してもよい。学習処理の中で最適化する場合、目的関数は以下の式5のようになる。whm、wsize、wreid、waction、wactivityは、それぞれ学習の中で最適化されるパラメータである。
【0074】
【数5】
上述の誤差関数に基づくモデルのパラメータ更新には公知の方法を用いることができる。例えば非特許文献10で開示されているAdamで勾配を計算し、誤差逆伝播法でモデル各層のパラメータを更新すればよい。
【0075】
<推論装置200における各部の詳細>
以下、
図6に示す推論装置200の各部について詳細に説明する。
【0076】
畳込みニューラルネットワーク11、特徴選択部12、関係モデリング部14、プーリング部13については、推論装置200と学習装置100とで同一である。また、推論装置200の集団行動分類部15は、学習装置100の分類部15と同一である。以下、学習装置100にない機能部、あるいは学習装置100におけるものとは異なる機能部について説明する。
【0077】
<推論装置200のピーク検出部18>
ピーク検出部18は、畳込みニューラルネットワーク11の出力のうち、各画像フレームに対応する位置特徴マップから、対象物体の点位置を出力する。点位置は、位置特徴マップの中で、あらかじめ設定した閾値以上の値が出力されている位置として出力することができる。位置特徴マップの中で近接する位置の出力は同一物体を捉えている可能性が高いことを鑑み、冗長な出力を抑制するために事前にNMS(Non-Maximum Suppression)処理などを施してもよい。
【0078】
<推論装置200の検出後処理部19>
検出後処理部19は、ピーク検出部18が出力する点位置データと特徴選択部12が出力するサイズ特徴とから、各画像フレームについて対象物体検出結果を出力する。今、ピーク検出部19が出力するある点位置を(x,y)、その点に対応するサイズ特徴を(w,h)とすると、物体検出結果、すなわち矩形(x1,y1,x2,y2)は、(x-w/2,y-h/2,x+w/2,y+h/2)と計算される。
【0079】
<推論装置200の追跡部20>
追跡部20は、特徴選択部12が出力する再同定特徴と、検出後処理部19が出力する検出結果を入力として、異なる画像フレーム間で同一の個体を捉えた検出結果を対応付け、追跡結果として出力する。
【0080】
追跡処理には公知の方法を用いることが可能であり、例えば非特許文献8で開示されている方法を用いることができる。
【0081】
<推論装置200の動作分類部16>
動作分類部16は、関係モデリング部14が出力する動作特徴と、追跡部20が出力する追跡結果とを入力として、対象の動作をあらかじめ決められた動作カテゴリのいずれかに分類する。動作分類には任意の方法を用いることができ、例えば学習装置100の分類部15,16で説明した方法と同様の方法を用いることができる。
【0082】
あるいは、追跡結果ごとに同一の動作をとっていることが保証されている場合には、各追跡結果内での動作の一貫性を考慮してもよい。動作の一貫性を保証する方法は、例えば、一つの追跡結果を構成する各検出結果について、学習装置100の分類部15,16で説明した方法と同様の方法で動作ラベルを出力したうえで、追跡結果内で多数決をとり、当該追跡結果内の全検出の動作ラベルを、もっとも多く出現した動作ラベルに置き換えることで実現できる。
【0083】
以下、実施例2、3を説明するが、実施例2、3は実施例1をベースとしており、以下では、実施例1と異なる部分を主に説明する。
【0084】
(実施例2)
実施例2における学習装置100を
図7に示し、実施例2における推論装置200を
図8に示す。
【0085】
実施例2では、特徴選択部12が出力する再同定特徴が、動作特徴を補助情報としつつ、関係モデリング部14で特徴間の関連性を考慮した変形が施される。この点が実施例1と異なる。動作特徴を補助情報とした再同定特徴の関係モデリング部14の処理は、実施例1の関係モデリング部14の処理における動作特徴Xactと再同定特徴Xreidとの役割が反転したものとして定義できる。
【0086】
(実施例3)
実施例3における学習装置100を
図9に示し、実施例3における推論装置200を
図10に示す。
【0087】
実施例3では、特徴選択部12が出力する動作特徴と再同定特徴それぞれが、他方を補助情報としつつ、関係モデリング部14-1、14-2で特徴間の関連性を考慮した変形が施される。この点が実施例1、2と異なる。関係モデリング部14-1、14-2それぞれの処理は、実施例1,2で示したものと同じ方法を用いることができる。
【0088】
(ハードウェア構成例)
本実施の形態における学習装置100と推論装置200(これらを総称して装置と呼ぶ)はそれぞれ、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
【0089】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0090】
図11は、上記コンピュータのハードウェア構成例を示す図である。
図11のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
【0091】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0092】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0093】
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の学習装置、推論装置、学習方法、推論方法、及びプログラムが開示されている。
(第1項)
行動認識のための学習を行う学習装置であって、
映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、
前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、
前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、
前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力する第1分類部と、
前記関係モデリング部から出力された特徴に基づいて、動作分類結果を出力する第2分類部と、
前記位置特徴マップ、前記サイズ特徴、前記再同定特徴、前記集団行動分類結果、及び前記動作分類結果と、正解データとの誤差が最小となるように、前記畳込みニューラルネットワーク、前記特徴選択部、前記関係モデリング部、前記第1分類部、及び前記第2分類部のモデルパラメータを更新するモデルパラメータ更新部と
を備える学習装置。
(第2項)
前記関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換する、又は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
第1項に記載の学習装置。
(第3項)
前記関係モデリング部は、第1関係モデリング部と第2関係モデリング部を備え、前記第1関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換し、前記第2関係モデリング部は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
第1項に記載の学習装置。
(第4項)
行動認識のための推論を行う推論装置であって、
映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力する畳込みニューラルネットワークと、
前記位置特徴マップから得られた点位置データ、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力する特徴選択部と、
前記点位置データと前記サイズ特徴から得られる検出結果、及び前記再同定特徴を入力し、追跡結果を出力する追跡部と、
前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力する関係モデリング部と、
前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力する集団行動分類部と、
前記関係モデリング部から出力された特徴と前記追跡結果に基づいて、動作分類結果を出力する動作分類部と
を備える推論装置。
(第5項)
前記関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換する、又は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
第4項に記載の推論装置。
(第6項)
前記関係モデリング部は、第1関係モデリング部と第2関係モデリング部を備え、前記第1関係モデリング部は、前記再同定特徴を補助情報として使用することにより前記動作特徴を変換し、前記第2関係モデリング部は、前記動作特徴を補助情報として使用することにより前記再同定特徴を変換する
第4項に記載の推論装置。
(第7項)
行動認識のための学習を行う学習装置が実行する学習方法であって、
畳込みニューラルネットワークが、映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力するステップと、
特徴選択部が、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力するステップと、
関係モデリング部が、前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力するステップと、
第1分類部が、前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力するステップと、
第2分類部が、前記関係モデリング部から出力された特徴に基づいて、動作分類結果を出力するステップと、
前記位置特徴マップ、前記サイズ特徴、前記再同定特徴、前記集団行動分類結果、及び前記動作分類結果と、正解データとの誤差が最小となるように、前記畳込みニューラルネットワーク、前記特徴選択部、前記関係モデリング部、前記第1分類部、及び前記第2分類部のモデルパラメータを更新するステップと
を備える学習方法。
(第8項)
行動認識のための推論を行う推論装置が実行する推論方法であって、
畳込みニューラルネットワークが、映像シーケンスを構成する各画像フレームを入力し、動作特徴マップ、再同定特徴マップ、サイズ特徴マップ、及び位置特徴マップを出力するステップと、
特徴選択部が、前記位置特徴マップから得られた点位置データ、前記動作特徴マップ、前記再同定特徴マップ、及び前記サイズ特徴マップを入力し、動作特徴、再同定特徴、及びサイズ特徴を出力するステップと、
追跡部が、前記点位置データと前記サイズ特徴から得られる検出結果、及び前記再同定特徴とを入力し、追跡結果を出力するステップと、
関係モデリング部が、前記動作特徴と前記再同定特徴とを入力し、特徴間の相互作用が考慮された特徴を出力するステップと、
集団行動分類部が、前記関係モデリング部から出力された特徴に基づいて、集団行動分類結果を出力するステップと、
動作分類部が、前記関係モデリング部から出力された特徴と前記追跡結果に基づいて、動作分類結果を出力するステップと、
を備える推論方法。
(第9項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の学習装置として機能させるためのプログラム。
(第10項)
コンピュータを、第4項ないし第6項のうちいずれか1項に記載の推論装置として機能させるためのプログラム。
【0094】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0095】
11 畳込みニューラルネットワーク
12 特徴選択部
13 プーリング部
14 関係モデリング部
15 分類部
16 分類部
17 モデルパラメータ更新部
18 ピーク検出部
19 検出後処理部
20 追跡部
100 学習装置
200 推論装置
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置