特表2018-538631(P2018-538631A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧
特表2018-538631シーン内のオブジェクトのアクションを検出する方法及びシステム
<>
  • 特表2018538631-シーン内のオブジェクトのアクションを検出する方法及びシステム 図000005
  • 特表2018538631-シーン内のオブジェクトのアクションを検出する方法及びシステム 図000006
  • 特表2018538631-シーン内のオブジェクトのアクションを検出する方法及びシステム 図000007
  • 特表2018538631-シーン内のオブジェクトのアクションを検出する方法及びシステム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2018-538631(P2018-538631A)
(43)【公表日】2018年12月27日
(54)【発明の名称】シーン内のオブジェクトのアクションを検出する方法及びシステム
(51)【国際特許分類】
   G06T 7/215 20170101AFI20181130BHJP
   G06T 7/00 20170101ALI20181130BHJP
   G06T 7/20 20170101ALI20181130BHJP
【FI】
   G06T7/215
   G06T7/00 350C
   G06T7/20 300Z
【審査請求】有
【予備審査請求】未請求
【全頁数】18
(21)【出願番号】特願2018-532185(P2018-532185)
(86)(22)【出願日】2017年1月24日
(85)【翻訳文提出日】2018年6月18日
(86)【国際出願番号】JP2017003079
(87)【国際公開番号】WO2017150032
(87)【国際公開日】20170908
(31)【優先権主張番号】15/058,264
(32)【優先日】2016年3月2日
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100111648
【弁理士】
【氏名又は名称】梶並 順
(74)【代理人】
【識別番号】100122437
【弁理士】
【氏名又は名称】大宅 一宏
(74)【代理人】
【識別番号】100147566
【弁理士】
【氏名又は名称】上田 俊一
(74)【代理人】
【識別番号】100161171
【弁理士】
【氏名又は名称】吉田 潤一郎
(72)【発明者】
【氏名】ジョーンズ、マイケル・ジェイ
(72)【発明者】
【氏名】マークス、ティム
(72)【発明者】
【氏名】チュゼル、オンセル
(72)【発明者】
【氏名】シン、バラト
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA02
5L096EA39
5L096FA16
5L096FA32
5L096GA30
5L096GA51
5L096HA04
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
方法及びシステムが、まず、シーンのビデオを画像のシーケンスとして取得することによって、シーン内のオブジェクトのアクションを検出する。各画像はピクセルを含み、ビデオはチャンクに分割される。ビデオ内のオブジェクトが追跡される。ビデオの各オブジェクト及び各チャンクについて、オブジェクトにわたって位置するバウンディングボックス内のピクセルの軌道が追跡され、バウンディングボックスを用いて、チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像が生成される。次に、クロップされた軌道及びクロップされた画像が、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡される。
【特許請求の範囲】
【請求項1】
シーン内のオブジェクトのアクションを検出する方法であって、
前記シーンのビデオを画像のシーケンスとして取得するステップであって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、ステップと、
前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定するステップと、
前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成するステップと、
前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すステップと、
を更に含む、ステップと、
を含み、前記ステップはプロセッサにおいて実行される、方法。
【請求項2】
前記RNNは、畳み込みニューラルネットワーク層及び1つ以上のリカレントニューラルネットワーク層を含む、請求項1に記載の方法。
【請求項3】
前記畳み込みニューラルネットワーク層は、前記クロップされた軌道及び前記クロップされた画像、並びに前記ビデオの全空間範囲を有する軌道及び画像を含む複数のストリームに対し動作する、請求項2に記載の方法。
【請求項4】
前記リカレントニューラルネットワーク層は、長期短期記憶(LSTM)セルを含む、請求項2に記載の方法。
【請求項5】
前記リカレントニューラルネットワーク層は、双方向長期短期記憶(LSTM)セルを含む、請求項3に記載の方法。
【請求項6】
前記軌道は、ピクセル軌道として符号化される、請求項1に記載の方法。
【請求項7】
前記軌道は、スタックオプティカルフローとして符号化される、請求項1に記載の方法。
【請求項8】
前記追跡するステップは、前記バウンディングボックス内部の前記スタックオプティカルフローの大きさを最大にするバウンディングボックスを選択するステップを含む、請求項1に記載の方法。
【請求項9】
前記追跡するステップは、
前記バウンディングボックス内部の前記スタックオプティカルフローの大きさが閾値よりも大きい場合、前記バウンディングボックスのロケーションを更新するステップを更に含む、請求項8に記載の方法。
【請求項10】
前記ピクセルの前記軌道は、前記チャンク内の中央画像から、K個の前の画像及びK個の後続の画像の各々まで決定される、請求項1に記載の方法。
【請求項11】
Kは3である、請求項10に記載の方法。
【請求項12】
各ピクセルの運動パターンが1×2K畳み込みカーネルを用いて決定される、請求項10に記載の方法。
【請求項13】
前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項1に記載の方法。
【請求項14】
前記方法は、前記検出するステップの前に前記RNNをトレーニングするステップを含む、請求項1に記載の方法。
【請求項15】
前記RNNは、以前にトレーニングされている、請求項1に記載の方法。
【請求項16】
前記検出するステップは、時間的アクション検出を含む、請求項1に記載の方法。
【請求項17】
前記検出するステップは、時空間的アクション検出を含む、請求項1に記載の方法。
【請求項18】
前記ビデオは、画像のシーケンス以外の何らかの形態で初期に取得され、画像のシーケンスに変換される、請求項1に記載の方法。
【請求項19】
前記オブジェクトは、人物である、請求項1に記載の方法。
【請求項20】
前記オブジェクトは、ロボットである、請求項1に記載の方法。
【請求項21】
前記オブジェクトは、産業ロボットである、請求項1に記載の方法。
【請求項22】
シーン内のオブジェクトのアクションを検出するシステムであって、
前記シーンのビデオを画像のシーケンスとして取得する手段であって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、手段と、
前記ビデオ内の前記オブジェクトを追跡するように構成されるプロセッサであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、前記ビデオの各オブジェクト及び各チャンクについて、前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定し、前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成し、前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すように更に構成される、プロセッサと、
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオ内の或る特定の関心アクションを行う、人等のオブジェクトのインスタンスを検出することに関する。
【背景技術】
【0002】
コンピュータービジョン及びカメラ監視用途において、頻繁に生じる問題は、人、機械、車両、ロボット等のオブジェクトによって行われる或る特定のアクションを認識及び検出することである。ビデオ内のアクションを解析する一般問題に対するかなりの量の取り組みが行われてきたが、従来技術のほとんどは、アクション検出ではなくアクション認識に焦点を当ててきた。
【0003】
アクション認識とは、アクションの始まりにおいて又はその付近で開始し、アクションの終了時に又はその付近で終了するように時間的にトリミングされたビデオセグメントにおいて、いずれのアクションが行われているかを分類する、すなわち認識することを指す。時間的にトリミングされたという用語を用いて、そのようなビデオセグメントを指す。アクション検出とは、長い、すなわち時間的にトリミングされていないビデオシーケンスにおいて生じる、アクションクラスの既知の組からの各アクションの全ての発生を、時間的に又は時空間的にロケーション特定することを指す。
【0004】
アクション検出に対する早期の取り組みは、外観及び運動パターンを解析することによって歩行者を検出する方法を含む。時空間関心点、マルチインスタンス学習、又はパーツベースのモデルを用いてアクションを検出するためのいくつかの方法が既知である。
【0005】
アクション認識には、アクティビティ認識のタスクが関連している。アクティビティ認識タスクにおいて、プレイ中の特定のスポーツ等のアクティビティを描写するビデオセグメントが解析され、目標は、いずれのアクティビティ(例えば、いずれのスポーツ)がビデオ内に描写されているかを判断することである。
【0006】
精密アクション検出とは、検出されるアクションのクラス間の差異が小さいアクション検出を指す。例えば、料理のシナリオにおいて、みじん切り、すりおろし、及び皮むき等の類似したアクションを含む組からアクションを検出することが、精密アクション検出の一例である。
【0007】
アクション認識、イベント検出、及びビデオ検索等のビデオ解析タスクのための従来の方法は、通常、勾配方向ヒストグラム(HOG)、運動境界ヒストグラム(MBH)、及びオプティカルフローヒストグラム(HOF)等の、人が設計した特徴を用いる。1つの方法は、各入力ビデオにおける改善密度軌道(IDT:Improved Dense Trajectories)を計算し、次に、ビデオのためのフィッシャーベクトルを計算し、サポートベクターマシン(SVM)を用いて分類を行う。実際には、フィッシャーベクトルを用いた浅いアーキテクチャーにより、アクション及びアクティビティ認識のための良好な結果が得られる。
【0008】
結果は、上述した特徴等の人が設計した特徴が、ニューラルネットワークによって決定される「深い」特徴と置き換えられるときに改善することができる。ニューラルネットワークへの入力は、軌道に沿った画像及びスタックオプティカルフローを含むことができる。1つの方法は、2ストリームネットワークを用い、このネットワークにおいて、画像(第1のストリーム)と、僅かな数の画像にわたって決定されるスタックオプティカルフローフィールド(第2のストリーム)とが、アクション認識のために深層ニューラルネットワークに入力される。類似のアーキテクチャーを用いて、空間的ロケーション特定を、時間的にトリミングされたビデオにおけるアクション認識のタスクに組み込むことができる。しかしながら、これらのネットワークは、ビデオからの長期シーケンス情報を学習しない。
【0009】
リカレントニューラルネットワーク
リカレントニューラルネットワーク(RNN)は、データ駆動方式で長期シーケンス情報を学習することができるため、RNNは、アクション認識に用いられてきた。長期短期記憶(LSTM)分類器が後続する3D畳み込みニューラルネットワークを、アクション認識に用いることができる。LSTMは、アクション認識のために、2ストリームネットワークを上回って性能を改善することができる。3次元人体関節座標のシーケンスからアクションを認識するのに、双方向LSTMが用いられてきた。
【0010】
アクション認識の場合、アクション認識のために深層ニューラルネットワーク及びLSTMを用いる方法は、人が設計した特徴から生成された浅いフィッシャーベクトルを用いる方法よりも僅かにしか良好に機能しない。
【0011】
アクション認識においてかなりの進歩がなされてきたが、時間的にトリミングされていないより長いビデオにおけるアクション検出、すなわち、アクションの時間的又は時空間的ロケーション特定に対しては、それほど多くの取り組みが行われていない。スポーツビデオにおけるアクションの空間的ロケーション特定に役立つように追跡が用いられてきた。追跡では、提案される軌道が生成され、次に、軌道にわたって、人が設計した特徴が決定される。
【0012】
インタラクトされているオブジェクトの注釈を用いるか、又は行われている高レベルのアクティビティに対し文法を強制することは、通常有用であるが、これらの技法は、オブジェクトの追加の検出器を学習し、高レベルのアクティビティに関する事前知識を有することを必要とする可能性がある。
【0013】
精密アクション検出の場合、対象の時空間領域から密な軌道を抽出すること、又は人物の手の軌道を用いることにより、性能を大幅に改善することができる。
【0014】
ビデオ内のアクションの自動解析のための従来技術による方法の主要な欠点のうちの1つは、アクション検出に焦点を当てていないことである。代わりに、ほとんどの従来技術による方法は、アクション認識に焦点を当て、これは、ほとんどの方法が、アクションを時間的に又は時空間的にロケーション特定することができないことを意味する。これは、アクション認識が、アクション検出よりも容易な問題であることに起因する場合がある。
【0015】
しかしながら、アクション認識は、アクション検出よりもはるかに実用的価値が低い。なぜなら、単一のアクションのみを含むようにビデオセグメントを時間的にトリミングすることがアクション認識に必須であるが、これを行うために、ビデオがトリミングされる前にアクションが既に検出されていなくてはならないためである。現実の用途において、時間的にトリミングされていないビデオが、はるかに一般的である。
【0016】
アクション検出のための従来技術の方法の別の欠点は、相対的に低い精度である。すなわち、従来技術のアクション検出方法の性能は、ほとんどのコンピュータービジョン用途にとって十分良好でない。
【発明の概要】
【0017】
本発明の実施形態は、ビデオにおけるオブジェクトのアクションを検出する方法及びシステムを提供する。ここで、オブジェクトは、人、動物、機械、車両、ロボット等とすることができる。例えば、オブジェクトは、工場設定における人物又は産業ロボットであり得る。本発明によって対処される主要な問題は、時間的にトリミングされていないビデオにおいて生じるオブジェクトのアクションについて、より正確なアクション検出を提供することである。
【0018】
実施形態は、リカレント接続を有する深層ニューラルネットワークを用い、追跡されるオブジェクトの周りのバウンディングボックスを用いてクロップされたクロップ画像、及び複数のビデオフレームにわたって追跡されるクロップ画像内の運動を特徴付けるクロップされたオプティカルフローフィールドのシーケンスを入力としてとる、ビデオにおけるアクション検出の方法を提供する。
【0019】
ここで、取得されるビデオを、画像のシーケンスとみなす。いくつかの実施形態では、ビデオを、最初に、何らかの他の形態で取得し、その後、画像のシーケンスに変換することができる。場合によっては、ビデオを、ビデオシーケンス又は画像シーケンスと呼ぶ。ビデオを構成する画像を、ビデオ画像若しくはビデオフレーム、又はより簡単に、画像若しくはフレームと呼ぶ。
【0020】
本方法の特徴
本方法の様々な実施形態に含まれる特徴は、以下を含む。
【0021】
ビデオ画像内でアクションが生じる場所を空間的にロケーション特定するオブジェクトトラッカー(例えば、人物トラッカー)。ほとんどの従来技術による方法は、画像の全空間範囲にわたって運動及び外観を解析する。これは多くの場合に、ロケーション特定されたアクションと無関係の過度に多くの情報を含む。
【0022】
ピクセル軌道。これは、シーン点がビデオ内で動いている(例えば、人物の可動部)場合であっても、複数のフレームにわたって各シーン点の変位が同じ画像ロケーションに表される、運動情報の表現である。ピクセル軌道は、ビデオ画像にわたる点対応を直接表す。対照的に、ほとんどの従来技術による方法は、単純なスタックオプティカルフローを用いて運動情報を表し、これは、画像にわたる点対応を表さない。
【0023】
異なるアクションを検出するのに役立つ多くのビデオ画像にわたる重要な時間的動力学を学習するリカレントニューラルネットワーク(RNN)。
【0024】
マルチストリーム畳み込みニューラルネットワーク。これは、オブジェクトトラッカーからの出力に基づいて各画像においてクロップされたビデオについての(第1のストリームにおける)運動の重要な特徴及び(第2のストリームにおける)外観の特徴を計算することに加えて、ビデオ画像の全空間範囲、すなわちクロップされていない画像を含むビデオフレームについての(第3のストリームにおける)運動の特徴及び(第4のストリームにおける)外観の特徴も計算する。ここで、マルチストリームは、4つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオの運動ストリーム及び外観ストリーム、並びにフル画像ビデオの運動ストリーム及び外観ストリームを指す。
【0025】
従来のRNNを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、RNNの1つ以上の層として含まれる長期短期記憶(LSTM)ネットワーク。本方法は、双方向LSTMを用いたより良好な性能を提供することができ、これは、方法が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することを意味する。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク(CNN)と、単数又は複数の最終層としての長期短期記憶(LSTM)ネットワークとを含むリカレントニューラルネットワーク(RNN)の概略図である。
図2】本発明の実施形態による、従来のスタックオプティカルフローと比較した本方法のピクセル軌道を比較する概略図である。
図3】本発明の実施形態によるLSTMセルの概略図である。
図4】本発明の実施形態によるオブジェクトのアクションを検出する方法及びシステムの概略図である。
【発明を実施するための形態】
【0027】
本発明の実施形態は、ビデオ内のオブジェクトのアクションを検出する方法及びシステムを提供する。
【0028】
本方法は、トレーニング段階と試験段階とを含む。いくつかの実施形態は、試験段階のみを含む。例えば、以前にトレーニングされたRNNを利用する、試験段階のみを有する方法が小型デバイスに埋め込まれ得る。
【0029】
トレーニング段階中、図1に示すような、4つの独立した畳み込みニューラルネットワーク(CNN)120をトレーニングする。各CNNは、4つのストリーム110、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム111及び外観ストリーム112、並びにフルフレーム(空間的にクロップされていない)ビデオ画像の運動ストリーム113及び外観ストリーム114のうちの1つを処理する。いくつかの実施形態は、2つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム111及び外観ストリーム112のみを有する。これは、例えば、背景シーンが、ノイズを多く含むか、特徴がないか、又はそうでない場合オブジェクトによって行われているアクションに無関係である事例に有用であり得る。
【0030】
好ましい実施形態では、各畳み込みネットワーク(CNN)は、VGG(ビジュアルジオメトリグループ)アーキテクチャーを用いる。これについては、Simonyan他「Two-stream convolutional networks for action recognition in videos」Advances in Neural Information Processing Systems, pages 568-576, 2014を参照されたい。しかしながら、各ストリームについて、AlexNetアーキテクチャー等の他のCNNアーキテクチャーも用いられ得る。これについては、Krizhevsky他「ImageNet Classification with Deep Convolutional Neural Networks」Advances in Neural Information Processing Systems, 2012を参照されたい。
【0031】
4つのネットワークは、ビデオ100の連続した小さなチャンク101に対し、アクション分類のタスクを行う。例えば、各チャンクは、6つの連続ビデオフレームからなり得る。CNNの後に、投影層130が続く。この投影層は、全てのストリームのCNNの出力を、単一の空間及び長期短期記憶(LSTM)セル140内に投影する。各チャンクの出力は、N個のアクションクラスA,A,...,Aの組からの検出されたアクションクラス150である。
【0032】
それぞれ画像及び運動に1つずつの2つの畳み込みニューラルネットワーク(CNN)が、追跡されるオブジェクトのバウンディングボックスにクロップされたビデオフレームからなるチャンクに対しトレーニングされる。クロップされたフレームは、アクションの近傍に制限されたバウンディングボックスをアクションに提供し、これは、アクションの分類に役立つ。いくつかの実施形態では、このバウンディングボックスは、ピクセル単位の固定サイズを有し、これは、アクションの複数の実行にわたってオブジェクトをアラインするのに役立つ。
【0033】
いくつかの好ましい実施形態において、それぞれ画像及び運動に1つずつの2つの追加のCNNが、空間的にクロップされていないビデオフレームからなるチャンクに対しトレーニングされる。すなわち、各フレームはビデオのフルフレームであり、このため、シーン内で行われているアクションの空間コンテキストが保持される。ネットワークを、マルチストリームニューラルネットワークと呼ぶ。なぜなら、このネットワークは、各々がビデオからの異なる情報ストリームを保有する複数の(例えば、4つの)CNNを有するためである。
【0034】
これらの4つのネットワーク120がトレーニングされた後、4つのネットワークのfc7層出力の上の、完全に連結された投影層130を学習し、これらの独立したストリームの共同表現を生成する。fc7層は、VGGネットワークにおける最後の完全に連結された層である。マルチストリームネットワークに、チャンク101の時系列として配列されたフルレングスビデオ100が提供され、次に、投影層の出力の対応する時系列が、2つの方向で機能する長期短期記憶(LSTM)ネットワーク140内に供給される。すなわち、LSTMネットワークは、双方向性である。
【0035】
双方向LSTMネットワークは、2つの指向性LSTMネットワーク(一方は時間において前方に連結され、他方は時間において後方に連結される)からなる。いくつかの実施形態では、2つの指向性LSTMネットワークの各々の後に、明確にするために図1には示されていない、各指向性LSTMネットワークの隠れ状態の各々の上の完全に連結された層が続き、その後にsoftmax層が続き、各アクションに対応する中間スコアが得られる。最終的に、2つの指向性LSTMのスコアが組み合わされ、例えば平均され、各特定のアクションのスコアが得られる。
【0036】
アクション検出パイプラインにおいて、良好な性能を達成するのに重要な複数のコンポーネントが存在する。このタスクにおいて、ビデオ内に存在する空間情報及び長期時間情報を特徴付けるモデルを用いる。
【0037】
バウンディングボックスを用いて決定されたオブジェクト軌道は、入力表現からロケーション変動を取り除くことによって多くのアクションの学習を容易にする基準画像を提供する。しかしながら、いくつかのアクションは、ロケーションに依拠する。静的ビデオカメラを用いて取得されるシーンの場合、これらのアクションは、常に、同じ画像ロケーションにおいて生じる。例えば、洗浄及びゆすぎは、ほとんど常にシンクの付近で行われ、ドアの開放は、冷蔵庫又は食器棚の付近で行われる可能性が最も高い。これらの理由により、ピクセル軌道及びビデオフレームのクロップされたチャンク及びクロップされていないチャンクにおいて2つの別個の深層ネットワークをトレーニングする。
【0038】
最初の2つのCNNが、オブジェクトトラッカーからのボックスを用いてクロップされたクロップ画像に対しトレーニングされ、背景ノイズが低減され、軌道及び画像領域のためのオブジェクト中心基準画像が提供される。他の2つのCNNは、大域空間コンテキストを保持するために全体(空間的にフルフレームの)画像に対しトレーニングされる。
【0039】
図2に示されるように、ピクセル軌道210を用いた短期運動情報を表す。ここで、各移動シーン点は、いくつかの画像220にわたって、当該移動シーン点自体に位置的に対応する。このアライメントは、ピクセル軌道が、従来のスタックオプティカルフローフィールド230よりもはるかに豊富な運動情報を特徴付けることを可能にする。
【0040】
検出されるアクションは、多岐にわたる持続時間を有することができるので、本方法は、LSTM140を用いて、データ駆動形の方式でアクションの持続時間及び長期時間コンテキストを学習する。結果は、LSTMが、精密アクション検出のために長期時間コンテキストを学習する際に極めて効果的であることを実証する。
【0041】
精密アクション検出のための追跡
ロケーションに無関係の独立した(クロップされた)外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内のオプティカルフローの大きさが最大になるようにする。オプティカルフローの大きさが閾値を超える場合、バウンディングボックスのロケーションが、オプティカルフローの大きさを最大にするロケーションに一致するように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられる。バウンディングボックスのロケーションは、チャンク101(例えば、6つの画像)が処理され、チャンクに対するフロー及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。
【0042】
本発明の追跡方法は、カメラが静止しており、オブジェクトのサイズに関する妥当な推定値を有するときに効果的に適用することができる。これは、小売店、個人の自宅、又は精密アクション検出が用いられる可能性が高い監視設定において撮影される多くのビデオにとって実用的な仮定である。より難解な追跡状況では、より高度なトラッカーを用いることができる。
【0043】
好ましい実施形態では、バウンディングボックスは、オブジェクトを含む矩形領域であるが、バウンディングボックスは矩形である必要はない。より一般的には、バウンディングボックスは、追跡されているオブジェクトを含むか又はその大部分を含み、さらに、オブジェクトの周りの小さな領域を含む場合もある任意の形状の領域である。
【0044】
ピクセル軌道
オプティカルフローを深層ネットワークへの入力としてスタックすることが、運動ベースのネットワークをトレーニングするための従来の慣例であった。しかしながら、スタックオプティカルフローにおいて、シーン内の特定の移動点、例えば、指の先端に対応する運動ベクトルは、ピクセルロケーションを1つの画像から次の画像に変更する。このため、畳み込みニューラルネットワークは、アクションを分類するために、オプティカルフローの空間的動きを学習する必要がある。完全な運動情報は、より高次の層においてネットワークによって学習され得るが、これにはより多くのパラメーター及びデータを学習する必要がある。
【0045】
図2に示されているように、(例えば、チャンクにおける)画像220のシーケンスにおける運動の表現は、中心画像IからK個の前の画像及びK個の後続の画像(例えば、K=3)の各々へのオプティカルフローを決定することである。運動のこの表現を、ピクセル軌道210と呼ぶ。ピクセル軌道の2K個全ての画像において、各ピクセルから画像I内の対応するピクセルへのフロー値が、全て画像I内のピクセルのロケーションに位置する。ピクセル軌道210において、オプティカルフロー画像(垂直方向におけるオプティカルフローの大きさを表す)の強度のみが変化するのに対し、空間レイアウトは固定である。しかしながら、スタックオプティカルフロー230において、ピクセル間の空間対応が失われる。例えば、後頭部(シルエットの最も低い点)が後続のピクセル軌道画像において同じロケーションに留まるが、後続のスタックオプティカルフロー画像において、左上に動く。このため、ネットワークは、スタックオプティカルフローフィールドを用いて可能であるよりも容易に、ピクセル軌道から各ピクセルの時間フィルターを学習することができる。
【0046】
画像I内の各ピクセルについて、短い時間間隔にわたる完全な運動情報を有する。各ピクセルの運動パターンを決定するために、ピクセル軌道における1×2Kの畳み込みカーネルが、各ピクセルの移動のための特徴マップを生成することができる。対照的に、例えば、スタックオプティカルフローにおける3×3×2Kのカーネルを用いてスタックオプティカルフローを入力するネットワーク層は、2K個の画像にわたって3個を超えるピクセルの変位を有するピクセルについて第1の畳み込み層を用いて運動パターンを学習することができない。静止カメラを用いた精密アクション検出について、ピクセル軌道が、スタックオプティカルフローよりも良好に機能することを実証した。
【0047】
双方向LSTMネットワークを用いた長いシーケンスにおけるアクション検出
ここで、リカレントニューラルネットワーク(RNN)及び長期短期記憶(LSTM)セルの簡単な説明を与える。入力シーケンスx=(x,...,x)を所与として、RNNは、隠れ状態表現h=(h,...,h)を用い、RNNが入力xを出力シーケンスy=(y,...,y)にマッピングできるようにする。
【0048】
この表現を求めるために、RNNは、以下の再帰方程式を反復する。
【数1】
ここで、gは、活性化関数であり、Wxhは、入力を隠れ状態にマッピングする重み行列であり、Whhは、2つの隣接する時間ステップにおける隠れ状態間の遷移行列であり、Whyは、隠れ状態hを出力yにマッピングする行列であり、b及びbは、バイアス項である。
【0049】
離散隠れ状態表現を用いる隠れマルコフモデル(HMM)と異なり、リカレントニューラルネットワークは、隠れ状態のための連続空間表現を用いる。しかしながら、トレーニングは、時間を通じた後方伝播を用いてネットワークをアンロールすることによって行われるため、長期シーケンス情報を学習するようにRNNをトレーニングすることは困難である。この結果、勾配消失問題又は勾配爆発問題が生じる。
【0050】
図3に示すように、この問題を回避するために、LSTMセルは、メモリセルcと、LSTMがいつ前の状態を保持し、いつその状態を忘却するかを学習するのに役立つ忘却ゲートfとを有する。これによって、LSTMネットワークは、長期時間情報を学習することが可能になる。LSTMセルのための重み更新方程式は以下のとおりである。
【数2】
ここで、σは、シグモイド関数であり、tanhは、双曲線正接関数であり、i、f、o、及びcはそれぞれ、入力ゲート、忘却ゲート、出力ゲート、及びメモリセル活性化ベクトルである。
【0051】
忘却ゲートfは、いつ(及びどの)情報がメモリセルcからクリアされるかを判定する。入力ゲートiは、いつ(及びどの)新たな情報がメモリに組み込まれるかを判定する。tanh層gは、入力ゲートによって許可されるときにメモリセルに追加される値の候補組を生成する。
【0052】
忘却ゲートf、入力ゲートi及び新たな候補値gの出力に基づいて、メモリセルcが更新される。出力ゲートoは、メモリセル内のいずれの情報が、隠れ状態のための表現として用いられるかを制御する。隠れ状態は、メモリセル状態の関数と出力ゲートとの積として表される。
【0053】
RNNのためのLSTMアーキテクチャーは、画像、ビデオからテキストへの文作成のために、及び音声認識において用いられることに成功している。しかしながら、アクション認識のタスクの場合、LSTMネットワークの性能は、依然として、改善された密な軌道にわたって生成されたフィッシャーベクトルに基づく分類器の性能に近い。これは、LSTMを用いるRNNがビデオからのアクション検出に用いられていない、ビデオからのアクション認識における精彩を欠いた性能に依拠する場合がある。
【0054】
一般的に用いられるアクション認識データセットにおいて、ビデオは、各アクションの開始時点及び終了時点において又はその付近で開始及び終了するようにトリミングされる。時間的にトリミングされたビデオは、通常、長さが短く、例えば、2秒〜20秒である。このため、アクション認識タスクにおいて、データ駆動方式で学習されるのに十分な長期コンテキストが存在しない。この長期コンテキストは、アクションの予測持続時間、いずれのアクションが別のアクションに後続又は先行するか、及び時間的にアクション境界を越えて延在する他の長期運動パターン等の特性を含むことができる。
【0055】
このため、アクション認識タスクにおいて、LSTMネットワークは、長期時間コンテキストにほとんどアクセスを有していない。しかしながら、精密アクション検出において、ビデオは通常、約数分又は数時間である。このため、LSTMは、シーケンスにおいて長期時間動力学をモデル化するので、LSTMネットワークは、(以前に適用されていた)アクション認識よりも(本発明において適用する)アクション検出により適しているという重要な洞察が得られた。
【0056】
双方向LSTMネットワークは、未来のチャンク及び過去のチャンクの双方からの情報を統合して、ビデオシーケンスにおける各チャンクの予測を行う。したがって、双方向LSTMネットワークが、アクションの時間的境界(すなわち、開始及び終了)の予測において、単方向LSTMよりも良好であることを予測した。
【0057】
本明細書に記載されるように、前方LSTMネットワーク及び後方LSTMネットワークは、各々、全てのアクションクラスのためのsoftmaxスコアを生成し、2つのLSTMネットワークのsoftmaxスコアを平均して、各アクションのスコア(確率)を得る。
【0058】
長いシーケンスにおいてLSTMネットワークをトレーニングする間、時間を通じた後方伝播は、チャンクの短いシーケンスを用いて、固定ステップ数までのみ行うことができる。長期コンテキストを保持するために、後続のシーケンスにおいてトレーニングする際に、前のシーケンスにおける最後の要素の隠れ状態を保持する。
【0059】
方法及びシステムの概観
上記で説明したように、方法のトレーニング段階は、リカレントニューラルネットワーク(RNN)のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたRNNが用いられる。
【0060】
図4は、特定のアクションを行うシーン内の人の検出等、オブジェクトのアクションを検出するための方法及びシステムの基本的動作を示す。ビデオ401は、画像415のシーケンスとしてシーン402から取得され(410)、各画像はピクセルを含む。シーンは、アクションを行う1つ以上のオブジェクト403、例えば、階段を駆け上がる人物を含むことができる。オブジェクトのうちの1つ以上が追跡され(420)、追跡されるオブジェクトのバウンディングボックス425が、ビデオ画像の各チャンク内で推定される。例えば、チャンクは、一連の6つの画像とすることができる。
【0061】
画像は、バウンディングボックスの範囲までクロップされ、バウンディングボックス内でピクセル軌道が計算される(430)。結果として得られるクロップされた軌道及びクロップされた画像440は、各対象アクションの相対スコア460を出力するようにトレーニングされたリカレントニューラルネットワーク(RNN)450に渡される。
【0062】
ステップは、当該技術分野において既知のメモリ、カメラ及び入出力インタフェースに接続されたプロセッサ100において行うことができる。
図1
図2
図3
図4
【手続補正書】
【提出日】2018年6月18日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
シーン内のオブジェクトのアクションを検出する方法であって、
前記シーンのビデオを画像のシーケンスとして取得するステップであって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、ステップと、
前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、
前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定するステップと、
前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成するステップと、
前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すステップと、
を更に含む、ステップと、
を含み、前記ステップはプロセッサにおいて実行される、方法。
【請求項2】
リカレントニューラルネットワーク層は、長期短期記憶(LSTM)セルを含む、請求項に記載の方法。
【請求項3】
リカレントニューラルネットワーク層は、双方向長期短期記憶(LSTM)セルを含む、請求項に記載の方法。
【請求項4】
前記軌道は、ピクセル軌道として符号化される、請求項1に記載の方法。
【請求項5】
前記追跡するステップは、前記バウンディングボックス内部のオプティカルフローの大きさを最大にするバウンディングボックスを選択するステップを含む、請求項1に記載の方法。
【請求項6】
前記追跡するステップは、
前記バウンディングボックス内部のオプティカルフローの大きさが閾値よりも大きい場合、前記バウンディングボックスのロケーションを更新するステップを更に含む、請求項5に記載の方法。
【請求項7】
前記ピクセルの前記軌道は、前記チャンク内の中央画像から、K個の前の画像及びK個の後続の画像の各々まで決定される、請求項1に記載の方法。
【請求項8】
Kは3である、請求項に記載の方法。
【請求項9】
各ピクセルの運動パターンが1×2K畳み込みカーネルを用いて決定される、請求項に記載の方法。
【請求項10】
前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項1に記載の方法。
【請求項11】
前記方法は、前記検出するステップの前に前記RNNをトレーニングするステップを含む、請求項1に記載の方法。
【請求項12】
前記検出するステップは、時間的アクション検出を含む、請求項1に記載の方法。
【請求項13】
前記検出するステップは、時空間的アクション検出を含む、請求項1に記載の方法。
【請求項14】
前記ビデオは、画像のシーケンス以外の何らかの形態で初期に取得され、画像のシーケンスに変換される、請求項1に記載の方法。
【請求項15】
前記オブジェクトは、人物である、請求項1に記載の方法。
【請求項16】
前記オブジェクトは、ロボットである、請求項1に記載の方法。
【請求項17】
前記オブジェクトは、産業ロボットである、請求項1に記載の方法。
【請求項18】
シーン内のオブジェクトのアクションを検出するシステムであって、
前記シーンのビデオを画像のシーケンスとして取得する手段であって、各画像はピクセルを含み、前記ビデオはチャンクに分割される、手段と、
前記ビデオ内の前記オブジェクトを追跡するように構成されるプロセッサであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、前記ビデオの各オブジェクト及び各チャンクについて、前記オブジェクトにわたって位置するバウンディングボックス内の前記ピクセルの軌道を決定し、前記バウンディングボックスを用いて、前記チャンク内の1つ以上の画像についてクロップされた軌道及びクロップされた画像を生成し、前記クロップされた軌道及び前記クロップされた画像を、各対象アクションの相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すように更に構成される、プロセッサと、
を備える、システム。
【国際調査報告】