IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニムの特許一覧

特表2022-551886別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法
<>
  • 特表-別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法 図1
  • 特表-別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法 図2
  • 特表-別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-14
(54)【発明の名称】別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221207BHJP
   G06V 10/82 20220101ALI20221207BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022521520
(86)(22)【出願日】2019-10-09
(85)【翻訳文提出日】2022-06-06
(86)【国際出願番号】 IB2019001142
(87)【国際公開番号】W WO2021069945
(87)【国際公開日】2021-04-15
(81)【指定国・地域】
(71)【出願人】
【識別番号】511312997
【氏名又は名称】トヨタ モーター ヨーロッパ
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ジャンピエロ フランチェスカ
(72)【発明者】
【氏名】ルカ ミンチュッロ
(72)【発明者】
【氏名】ロレンツォ ガラットーニ
(72)【発明者】
【氏名】スリジャン ダス
(72)【発明者】
【氏名】タイ ルイ
(72)【発明者】
【氏名】フランソワ ブルモン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096CA04
5L096EA39
5L096FA66
5L096FA67
5L096FA69
5L096HA11
5L096MA07
(57)【要約】
一連のフレーム(100)での人物の活動を認識するための装置及び方法であって、連続する3D姿勢(103)のセットを取得することと、特徴マップ(102)を取得することと、時空間特徴のベクトルを取得することと、空間的注意の重みの行列を取得することと、時間的注意の重みの行列(110)を取得することと、空間的注意の重みの行列を使用して特徴マップを変調して、空間的に変調された特徴マップを取得すること(106)と、時間的注意の重みのベクトルを使用して特徴マップを変調して、時間的に変調された特徴マップを取得すること(111)と、空間的に変調された特徴マップと時間的に変調された特徴マップの畳み込み(114)を実施して、畳み込み特徴マップを取得することと、動画内の人物の活動を判定するために、畳み込み特徴マップを使用して分類(115)を実施することと、を含む、装置及び方法。
【選択図】図1
【特許請求の範囲】
【請求項1】
一連のフレーム(100)を含む動画内の人物の活動を認識するための方法であって、各フレームは、前記人物の少なくとも一部を示し、前記方法は、
前記一連のフレームを使用して前記人物の連続する3D姿勢(103)のセットを取得することであって、各姿勢は、前記一連のフレームのうちのフレームからの前記人物の姿勢を示す、ことと、
第1のエンコーダニューラルネットワーク(101)を使用して作成された特徴マップ(102)を取得するであって、前記第1のエンコーダニューラルネットワークは、前記一連のフレームを入力として受信し、時間、空間及びチャネル数に関連する次元を有する前記特徴マップを出力するように構成される、ことと、
第2の再帰型ニューラルネットワーク(121、…、123)を使用して時空間特徴のベクトルを取得することであって、前記第2の再帰型ニューラルネットワークは、前記時空間特徴のベクトルを出力し、連続する姿勢のセットを入力として受信する、ことと、
前記時空間特徴のベクトルと第3のニューラルネットワーク(124)とを使用して、空間的注意の重み(105)の行列を取得することであって、各重みは、前記行列内の位置の重要性を示す、ことと、
前記時空間特徴のベクトルと第4のニューラルネットワーク(129)とを使用して、時間的注意の重み(110)の行列を取得することであって、各重みは瞬間の重要性を示す、ことと、
前記空間的注意の重みの行列を使用して前記特徴マップを変調して、空間的に変調された特徴マップを取得すること(106)と、
前記時間的注意の重みのベクトルを使用して前記特徴マップを変調して、時間的に変調された特徴マップを取得すること(111)と、
前記空間的に変調された特徴マップと前記時間的に変調された特徴マップの畳み込み(114)を実施して、畳み込み特徴マップを取得することと、
前記動画内の前記人物の活動を判定するために、前記畳み込み特徴マップを使用して分類(115)を実施することと、
を含む、方法。
【請求項2】
前記第1のエンコーダニューラルネットワークは、膨張した3D畳み込みニューラルネットワークの一部を含む、請求項1に記載の方法。
【請求項3】
前記畳み込みを実施する前に、前記空間的に変調された特徴マップ及び前記時間的に変調された特徴マップに対してグローバル平均プーリングを実施することをさらに含む、請求項1又は2に記載の方法。
【請求項4】
前記畳み込みは、1×1×1畳み込みを含む、請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記分類はソフトマックスを使用して実施される、請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記一連のフレームのうちのフレームからの前記人物の姿勢を示す各姿勢は、所与の骨格の関節の位置を示す3D座標(xj)のセットを含む、請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記第2のニューラルネットワークは、少なくとも1つの長短期記憶層を含む、請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記第3のニューラルネットワークは、第1の完全に接続された層(125)、双曲線正接層(126)、第2の完全に接続された層(127)及び正規化層(128)を含み、
前記第4のニューラルネットワークは、第1の完全に接続された層(130)、双曲線正接層(131)、第2の完全に接続された層(132)及び正規化層(133)を含む、請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記第1のニューラルネットワーク及び/又は前記第2のニューラルネットワーク及び/又は前記第3のニューラルネットワーク及び/又は前記第4のニューラルネットワークの予備訓練ステップを含む、請求項1から8のいずれか1項に記載の方法。
【請求項10】
損失を、クロスエントロピー損失、前記空間的注意の重みに基づく損失及び前記時間的注意の重みに基づく損失を使用して判定する、前記第1、第2、第3及び第4のニューラルネットワークの予備訓練ステップを含む、請求項9に記載の方法。
【請求項11】
一連のフレームを含む動画内の人物の活動を認識するための装置であって、各フレームは、前記人物の少なくとも一部を示し、前記装置は、
前記一連のフレームを使用して前記人物の連続する3D姿勢のセットを取得するためのモジュール(303、305)であって、各姿勢は、前記一連のフレームのうちのフレームからの前記人物の姿勢を示す、モジュールと、
第1のエンコーダニューラルネットワークを使用して作成された特徴マップを取得するためのモジュール(303、306)であって、前記第1のエンコーダニューラルネットワークは、前記一連のフレームを入力として受信し、時間、空間及びチャネル数に関連付けられた次元を有する特徴マップを出力するように構成される、モジュールと、
第2のニューラルネットワークを使用して時空間特徴のベクトルを取得するためのモジュール(303、307)であって、前記第2のニューラルネットワークは、前記時空間特徴のベクトルを出力し、前記連続する姿勢のセットを入力として受信する、モジュールと、
前記時空間特徴のベクトルと第3のニューラルネットワークとを使用して、空間的注意の重みの行列を取得するためのモジュール(303、308)であって、各重みは前記行列内の位置の重要性を示す、モジュールと、
前記時空間特徴のベクトルと第4のニューラルネットワークとを使用して、時間的注意の重みの行列を取得するためのモジュール(303、309)であって、各重みは瞬間の重要性を示す、モジュールと、
前記空間的注意の重みの行列を使用して前記特徴マップを変調して、空間的に変調された特徴マップを取得するためのモジュール(303、310)と、
前記時間的注意の重みのベクトルを使用して前記特徴マップを変調して、時間的に変調された特徴マップを取得するためのモジュール(303、311)と、
前記空間的に変調された特徴マップと前記時間的に変調された特徴マップの畳み込みを実施して、畳み込み特徴マップを取得するためのモジュール(303、312)と、
前記動画内の前記人物の活動を判定するために、前記畳み込み特徴マップを使用して分類を実施するためのモジュール(303、313)と、
を具備する、装置。
【請求項12】
前記動画を取得するための動画獲得モジュール(302)を備えた、請求項11に記載の装置を含むシステム。
【請求項13】
コンピュータプログラムであって、該プログラムがコンピュータによって実施されるときに、請求項1から10のいずれか1項に記載の方法のステップを実施するための命令を含む、コンピュータプログラム。
【請求項14】
コンピュータによって読み取り可能な記録媒体であって、請求項1から10のいずれか1項に記載の方法のステップを実行するための命令を含むコンピュータプログラムを記録した、記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、動画での人物活動認識の分野に関する。
【背景技術】
【0002】
動画での人物活動認識のタスクは、動画のフレームに表示される人物の活動を認識することに関するものである。例えば、複数の人物がフレームでさまざまな活動を実施することがある。
【0003】
従来技術から、動画内の人物の活動を認識するためのさまざまなソリューションが提案されてきた。
【0004】
当業者には、日常生活動作(ADL)と、高密度軌道、2つのストリームネットワーク又は長期再帰型畳み込みネットワーク(LRCN)などのソリューションについて説明している文献が既知である。
【0005】
非特許文献1(Carreiraらによる、「Quo Vasis、Action recognition? A new model and the kinetics dataset(行動認識?新たなモデルと動力学データセット)」、CVPR、2017年、4724~4733ページ)では、大規模なインターネット動画の活動認識に効率的な時空間畳み込み演算を作成するI3Dと呼ばれる方法を提案している。このような時空間演算は、2Dカーネル(I3D)から拡張され、ImageNet及びKineticsで事前訓練されて、さまざまな活動を高精度で認識する。しかし、そのような3D畳み込みニューラルネットワークは、時間と空間にて、動画の顕著な部分を活用しない。
【0006】
この文献のソリューションでは、3D関節座標又はRGBハンドパッチのいずれかで空間的注意及び時間的注意の両方の注意メカニズムが拡張されている。
【0007】
このほか、非特許文献2(「Glimpse clouds:Human activity recognition from unstructured feature points(非構造化特徴点からの人間活動認識)」(F.Baradel、C.Wolf、J.Mille及びG.W.Taylor、コンピュータビジョン及びパターン認識(CVPR)に関するIEEE会議、2018年6月))に記載されているように、長短期記憶(LSTM)などの深層ネットワークに加えて注意メカニズムが提案されている。この文献では、画像の顕著な部分に焦点を合わせるために、Spatial Transformer Networksを使用して空間的注意メカニズムを適用することが提案される。文献の著者は、さまざまな再帰型ニューラルネットワークを使用して一時的な注意を喚起する。
【0008】
本発明の発明者は、先行技術のいくつかのソリューションが、類似する外観及び少ない運動を伴う活動を認識することができないことを観察した。
【発明の概要】
【0009】
本開示は、一連のフレームを含む動画内の人物の活動を認識するための方法であって、各フレームは、人物の少なくとも一部を示す方法を提案することによって、従来技術の1つ又は複数の欠陥を克服する。この方法は、
一連のフレームを使用して人物の連続する3D姿勢のセットを取得することであって、各姿勢は、一連のフレームのうちのフレームからの人物の姿勢を示す、ことと、
第1のエンコーダニューラルネットワークを使用して作成された特徴マップを取得することであって、第1のエンコーダニューラルネットワークは、一連のフレームを入力として受信し、時間、空間及びチャネル数に関連する次元を有する特徴マップを出力するように構成される、ことと、
第2の再帰型ニューラルネットワークを使用して時空間特徴のベクトルを取得することであって、第2の再帰型ニューラルネットワークは、時空間特徴のベクトルを出力し、連続する姿勢のセットを入力として受信する、ことと、
時空間特徴のベクトルと第3のニューラルネットワークとを使用して、空間的注意の重みの行列を取得することであって、各重みは、行列内の位置の重要性を示す、ことと、
時空間特徴のベクトルと第4のニューラルネットワークとを使用して、時間的注意の重みの行列を取得することであって、各重みは瞬間(典型的には、各3D姿勢の瞬間、即ち、フレームに関連する瞬間)の重要性を示す、ことと、
空間的注意の重みの行列を使用して特徴マップを変調して、空間的に変調された特徴マップを取得することと、
時間的注意の重みのベクトルを使用して特徴マップを変調して、時間的に変調された特徴マップを取得することと、
空間的に変調された特徴マップと時間的に変調された特徴マップの畳み込みを実施して、畳み込み特徴マップを取得することと、
動画内の人物の活動を判定するために、畳み込み特徴マップを使用して分類を実施することと、を含む。
【0010】
本発明のニューラルネットワークでは、2つの異なる入力、即ち、動画の一連のフレームと3D姿勢が使用される。
【0011】
姿勢を入力として使用して最も重要な特徴を取得することは、人間の活動と人間の姿勢(即ち、3D姿勢)との間に強い相関関係があるため、特に効率的であることが本発明の発明者によって観察されている。姿勢情報を使用することは、動画クリップから識別可能な画像領域とフレームを自動的に検出する最も自然な方法であることが観察されている。
【0012】
このほか、別の方法で空間と時間に対する注意の重みを取得すると、結果がさらに良好になることが観察されている。
【0013】
当業者は、一連のフレームから姿勢を取得する方法を知っているであろう。このほか、各姿勢はフレームに関連付けられているが、全フレームが姿勢に関連付けられているわけではない場合があることに留意されたい(姿勢の数はフレームの数よりも少ない場合がある)。
【0014】
このほか、当業者は、どのタイプの(再帰型)ニューラルネットワークを使用することができるかを知っているであろう。
【0015】
注意の重みが当業者に周知である。
【0016】
このほか、分類は、可能性のある活動のさまざまなクラスにスコアを割り当てることであって、スコアが最も高い活動は、その人物が実施した活動である、ことによって実施することができる。
【0017】
特定の実施形態によれば、第1のエンコーダニューラルネットワークは、膨張した3D(I3D)畳み込みニューラルネットワークの一部を含む。
【0018】
I3Dは、時間、空間(典型的には2次元)及びチャネル数(例えば、1024チャネル)に関連付けられた次元を有する動画に基づいて、4次元の特徴マップを提供することができることが発明者によって観察されている。
【0019】
特定の実施形態によれば、この方法は、畳み込みを実行する前に、空間的に変調された特徴マップ及び時間的に変調された特徴マップに対してグローバル平均プーリング(GAP)を実行することをさらに含む。
【0020】
例えば、GAPは次元縮小に使用されてもよい。
【0021】
特定の実施形態によれば、畳み込みは、1×1×1畳み込みを含む。
【0022】
この畳み込みにより、例えば、当業者にそれ自体がよく知られているソフトマックス関数を使用して、分類を実行することができる。
【0023】
特定の実施形態によれば、分類は、ソフトマックスを使用して実施される。
【0024】
特定の実施形態によれば、一連のフレームのうちのフレームからの人物の姿勢を示す各姿勢には、所与の骨格の関節の位置を示すセットの3D座標が含まれる。
【0025】
例として、3D座標のセットによって規定されたそのような骨格は、米国のMicrosoft社によるKinectセンサを使用して取得される場合がある。
【0026】
特定の実施形態によれば、第2のニューラルネットワークは、少なくとも1つの長短期記憶(LSTM)層を含む。
【0027】
例えば、3つのLSTM層を使用して、さらに良好な結果を得る場合がある。
【0028】
このようなLSTMは、姿勢の順序などの順序から特徴を取得する場合に特に役立つ。
【0029】
特定の実施形態によれば、第3のニューラルネットワークは、第1の完全に接続された層、双曲線正接層、第2の完全に接続された層及び正規化層を含み、
第4のニューラルネットワークは、第1の完全に接続された層、双曲線正接層、第2の完全に接続された層及び正規化層を含む。
【0030】
特定の実施形態によれば、この方法は、第1のニューラルネットワーク及び/又は第2のニューラルネットワーク及び/又は第3のニューラルネットワーク及び/又は第4のニューラルネットワークの予備訓練ステップを含む。
【0031】
特定の実施形態によれば、この方法は、損失を、クロスエントロピー損失、空間的注意の重みに基づく損失及び時間的注意の重みに基づく損失を使用して判定する、第1、第2、第3及び第4のニューラルネットワークの予備訓練ステップを含む。
【0032】
この訓練では、注意の重みを考慮に入れることができる。
【0033】
本発明はこのほか、一連のフレームを含む動画内の人物の活動を認識するための装置であって、各フレームは、人物の少なくとも一部を示す、装置を提案する。この装置は、
一連のフレームを使用して人物の連続する3D姿勢のセットを取得するためのモジュールであって、各姿勢は、一連のフレームのうちのフレームからの人物の姿勢を示す、モジュールと、
第1のエンコーダニューラルネットワークを使用して作成された特徴マップを取得するためのモジュールであって、第1のエンコーダニューラルネットワークは、一連のフレームを入力として受信し、時間、空間及びチャネル数に関連付けられた次元を有する特徴マップを出力するように構成される、モジュールと、
第2のニューラルネットワークを使用して時空間特徴のベクトルを取得するためのモジュールであって、第2のニューラルネットワークは、時空間特徴のベクトルを出力し、連続する姿勢のセットを入力として受信する、モジュールと、
時空間特徴のベクトルと第3のニューラルネットワークとを使用して、空間的注意の重みの行列を取得するためのモジュールであって、各重みは行列内の位置の重要性を示す、モジュールと、
時空間特徴のベクトルと第4のニューラルネットワークとを使用して、時間的注意の重みの行列を取得するためのモジュールであって、各重みは瞬間の重要性を示す、モジュールと、
空間的注意の重みの行列を使用して特徴マップを変調して、空間的に変調された特徴マップを取得するためのモジュールと、
時間的注意の重みのベクトルを使用して特徴マップを変調して、時間的に変調された特徴マップを取得するためのモジュールと、
空間的に変調された特徴マップと時間的に変調された特徴マップの畳み込みを実施して、畳み込み特徴マップを取得するためのモジュールと、
動画内の人物の活動を判定するために、畳み込み特徴マップを使用して分類を実施するためのモジュールと、を備える。
【0034】
この装置は、上記で規定された方法の全実施形態を実施するように構成されてもよい。
【0035】
本発明はこのほか、上記で規定された装置を備え、動画を取得するための動画獲得モジュールを装備したシステムを提案する。
【0036】
例として、システムは、家(典型的にはスマートホーム)又は車両であってもよい。
【0037】
特定の一実施形態では、方法のステップは、コンピュータプログラム命令によって決定される。
【0038】
その結果、本発明はこのほか、このプログラムがコンピュータによって実行されるときに、上記のような方法のステップを実行するためのコンピュータプログラムに関する。
【0039】
このプログラムは、任意のプログラミング言語を使用することができ、ソースコード、オブジェクトコード、あるいは部分的にコンパイルされた形式又は他の任意の望ましい形式など、ソースコードとオブジェクトコードの中間のコードの形態をとることができる。
【0040】
本発明はこのほか、上記のようなコンピュータプログラムの命令を含むコンピュータ可読情報媒体に関する。
【0041】
情報媒体は、プログラムを保存することができる任意の実体又は装置であることがある。例えば、媒体は、ROMなどの記憶手段、例えば、CD-ROM又はマイクロ電子回路ROM、あるいは磁気記憶手段、例えば、ディスケット(フロッピー(登録商標)ディスク)又はハードディスクを含むことができる。
【0042】
これとは別に、情報媒体は、プログラムが組み込まれている集積回路であることがあり、この回路は、問題になっている方法を実施するか、その実施に使用されるように構成されている。
【図面の簡単な説明】
【0043】
本開示の追加の特徴及び利点が、以下の添付の図面を参照して、限定ではなく例示のみとして提供された、その特定の実施形態の以下の説明から明らかになるであろう。
【0044】
図1】一例による方法のステップの概略図である。
図2】注意の重みを取得するためのステップのさらに詳細なバージョンの図である。
図3】一例によるシステムの概略図である。
【発明を実施するための形態】
【0045】
ここで本開示の例示的な実施形態を詳細に参照し、その例を添付の図面に示す。可能な限り、同一又は類似の部品を参照するために、図面全体で同一の参照番号を使用することになる。
【0046】
この詳細な説明では、人物の活動を認識する方法の例を示す。例として、本明細書に記載の方法を使用して、人物が家で実施することができる活動(飲酒、調理など)を検出することができる。例として、本明細書に記載の方法は、以下のURL:https://project.inria.fr/toyotasmarthome/でダウンロードし得るトヨタスマートホームのデータセットなどのデータセットで使用されてもよい。
【0047】
図1では、人物の活動を認識する方法のステップが表されている。
【0048】
この方法を適用し得る第1の入力とは、(図上で入力クリップとして示している)一連のフレーム100を含む動画である。一連のフレーム100の各フレームは、1人の人物の少なくとも一部、あるいは少なくとも1人の人物の一部を示す。例えば、一連のフレーム100は、1人の人物の少なくとも一部を示す64個のフレームを含んでもよい。一連のフレームを取得することは、人物周りの動画をトリミング(cropping)することを含んでもよい。
【0049】
例として、人物周りの動画をトリミングすることには、例えば「SSD:Single Shot Multibox Detector(シングルショットマルチボックス検出器)」(Liu、Weiら、コンピュータビジョンに関する欧州会議、Springer、Cham、2016年)の方法を使用して、この人物周りの2D境界ボックスの位置を決定することが含まれる。
【0050】
さらに、文献「Slowfast networks for video recognition(動画認識のためのSlowfastネットワーク)」(C.Feichtenhofer、H.Fan、J.Malik及びK.He.CoRR、abs/1812.03982、2018年)の方法を使用して、動画100を加工してもよい。
【0051】
第1のステップ101では、一連のフレーム100は、第1のエンコーダニューラルネットワーク、例えば、予備訓練ステップでの活動検出のために訓練された第1のエンコーダニューラルネットワークに入力される。
【0052】
第1のエンコーダニューラルネットワークは、エンコーダ及びデコーダを含むニューラルネットワークの一部であってもよい。本発明の方法では、時間、空間及びチャネル数に関連する次元を有する特徴マップを取得するために、このステップが実施されることから、エンコーダ部分のみが必要とされる。当業者は、そのような特徴マップを取得するために第1のエンコーダニューラルネットワークを選択することができるであろう。
【0053】
図示の例では、第1のエンコーダニューラルネットワークは、文献(Carreiraら、「Quo Vasis、Action Recognition?A new model and the kinetics dataset(行動認識?新たなモデルと動力学データセット)」、CVPR、2017年、4724-4733ページ)に記載されているように、膨張した3D畳み込みニューラルネットワークの一部である。例として、膨張した3D畳み込みニューラルネットワークは、この文献でのMixed_5cとして指定された層の後に取得されてもよい。さらに正確には、I3Dネットワークのエンコーダ部分は、このI3Dネットワークの第1のGAP層に拡張するが、第1のGAP層を含まないI3Dの第1の部分を含んでもよい。
【0054】
第1のエンコーダニューラルネットワークは、次元t×m×cを有する特徴マップ102を出力する。ここで、tは時間に関連付けられ、m及びnは、入力フレーム100の高さ及び幅とは異なる可能性がある空間次元である。特徴マップ102はこのほか、畳み込み特徴マップと呼ばれる場合がある。例として、mとnは7に等しく、cは1024に等しい場合がある。
【0055】
方法への第2の入力は、一連のフレームで示される人物の連続する3D姿勢103のセットである。図では、このセットは骨格入力として指定されている。セット103は、一連のフレームが処理される予備ステップにて取得されてもよい。例えば、骨格は、Microsoft社のKinectメソッドを使用して取得された骨格であってもよい。
【0056】
セット103は、x=(x1,…,xj)の形式の3D姿勢(又は骨格)を含んでもよく、以下の数式は空間座標である。xでは、各xjは、Kinectメソッドとほぼ同じ方法で、骨格の関節の空間内の位置である。
【数1】
【0057】
この図では、2つの異なるステップで使用される3D姿勢103のセットが2回示されている。
【0058】
ステップ104では、時空間特徴のベクトルが、入力として3D姿勢のセットを受信する第2の再帰型ニューラルネットワークを使用して取得される。このほか、このステップでは、第3のニューラルネットワークを使用して、空間的注意の重みの行列105を取得する。ここで、各重みは、行列内の位置の重要性を示す。ステップ104を、図2を参照して、以下でさらに詳細に説明する。
【0059】
次に、空間的注意の重みの行列105はステップ106で使用される。このステップでは、行列105は、特徴マップ102を変調するために使用される。さらに正確には、ステップ106では、以下の演算が実施される。
gs=reshape(α)*g
ここで、gは特徴マップ102、αは空間注意マップ105、reshape(x)は特徴マップgの次元に一致するようにxを変換する演算、gsはステップ106の後に取得された、空間的に変調された特徴マップである。
【0060】
ステップ106の出力は、グローバル平均プーリング(GAP)層107によって処理されてもよい。GAP層は、当業者に知られており、簡潔にするために、さらに詳細に説明することはしない。
【0061】
GAP層107の出力は、図の参照108に影響を及ぼす。
【0062】
3D姿勢のセットはこのほか、ステップ109にて使用される。このステップでは、3D姿勢のセットを入力として受信する第2の再帰型ニューラルネットワークを使用して、時空間特徴のベクトルが取得される(このステップはステップ104と109の両方に共通であってもよい)。このほか、このステップでは、第4のニューラルネットワークを使用して、時間的注意の重みの行列110(又はマップ)を取得する。ここで、各重みは、瞬間の重要性を示す。
【0063】
各瞬間は、3D姿勢のセットからの3D姿勢に関連付けられ、各姿勢はこのほか、一連のフレームのうちのフレームに関連付けられる場合もある。このため、時間的注意の重みの行列は、一連のフレームのどの瞬間が重要であるか(あるいは顕著であるか)を示す。
【0064】
次に、ステップ111にて以下のように変調が実施される。
gt=reshape(β)*g
ここで、gtは、ステップ111の後に取得される時間的に変調された特徴マップであり、βは、時間的注意の重みの行列110である。ステップ106に関して、行列110が1次元のみを有するときに関数reshape(x)を適応させる。
【0065】
GAPステップ112を実施して、出力113を取得する。
【0066】
2つのGAP層108及び113の出力は連結され、次に1×1×1の畳み込み演算を使用して畳み込まれる。次に、ステップ115にて分類を実施し、活動を分類する。典型的には、分類の出力は、所与のクラス(例えば、飲酒、調理など)に関連付けられた一連のスコア又は確率を含む。
【0067】
分類はソフトマックス関数を使用して実施され得ることに留意されたい。
【0068】
ここで、ステップ104及び109を、図2を参照することによってさらに詳細に説明する。
【0069】
この図では、3D姿勢のセット又は骨格103が両ステップへの入力として使用される。次に、ステップ104と109の両方に共通する3つのステップが実施される。この3つのステップは、3D姿勢のセットを第1の長短期記憶層(図の121、LSTM)に連続して入力することと、第1のLSTM層121の第2のLSTM層122への出力を入力することと、第2のLSTM層122の第3のLSTM層123への出力を入力して、時空間特徴のベクトルを取得することと、から構成される。
【0070】
3つのLSTM層は、第2の再帰型ニューラルネットワークを形成する。この再帰型ニューラルネットワークは、3D姿勢と既知の姿勢の所与のセットを使用して予備ステップにて訓練されてもよい。この目的のために、この予備訓練ステップ中に、ソフトマックスを用いて全体的に接続された層を3つのLSTM層に追加して、分類スコアを出力し、この3つのLSTM層を訓練するために損失の計算を可能にすることができる。
【0071】
例えば、第1のLSTM層は512個のLSTMユニットを含んでもよく、第2のLSTM層は512個のLSTMユニットを含んでもよく、第3のLSTM層は128個のLSTMユニットを含んでもよい。
【0072】
本発明の発明者によって、空間的及び時間的な注意の重みを2つの別個の分岐に分離することは、時空間的注意の重みを取得しようとするよりも実施が容易であり、結果がさらに良好になることが観察された。
【0073】
このため、ステップ104では、空間的注意マップ105を取得することは、第1の完全に接続された層125、双曲線正接層126、第2の完全に接続された層127及びシグモイド層128を含む第3のニューラルネットワーク124を使用することを含む。
【0074】
第1の完全に接続された層125は、以下の演算を実施する。
Wh1h*+bh1
ここで、h*は時空間特徴のベクトルにて検出される隠れたベクトルであり、Wh1は予備訓練ステップ中に検出される可能性のある値を有するパラメータであり、bh1は、このほかに予備訓練ステップ中に検出される可能性のある値を有するバイアスである。
【0075】
次に、双曲線正接層126は、以下の演算を実施する。
tanh(Wh1h*+bh1)
この演算は、当業者によって双曲線正接tanhスカッシングと呼ばれる場合がある。
【0076】
次に、第2の完全に接続された層127を使用して、以下の演算を実施し、第1のスコアs1を取得する。
s1=Ws1tanh(Wh1h*+bh1)+bs1
ここで、Ws1は予備訓練ステップ中に検出される可能性のある値を有するパラメータであり、bs1は、このほかに予備訓練ステップ中に検出される可能性のある値を有するバイアスである。
【0077】
注意の重みを取得するために、スコアs1は、(上記の変調関数でも使用される)空間的注意の重みαを取得するために以下の演算を実施するシグモイド層128にて以下で使用される。
α=σ(Wσs1+bσ)
ここで、σ(x)はシグモイド関数であり、Wσは予備訓練ステップ中に検出される可能性のある値を有するパラメータであり、bσは、このほかに予備訓練ステップ中に検出される可能性のある値を有するバイアスである。
【0078】
シグモイド関数は、勾配消失につながる可能性のあるソフトマックスなどの他の関数よりも、空間的注意の重みに対していっそう優れた正規化を実施することが発明者によって観察されている。
【0079】
時間的注意の重みに関して、ステップ109では、時間的注意マップ110を取得することは、第1の完全に接続された層130、双曲線正接層131、第2の完全に接続された層132及びソフトマックス層133を含む第4のニューラルネットワーク129を使用することを含む。
【0080】
第1の完全に接続された層130は、以下の演算を実施する。
Wh2h*+bh2
ここで、h*は時空間特徴のベクトルにて検出される隠れたベクトルであり、Wh2は予備訓練ステップ中に検出される可能性のある値を有するパラメータであり、bh2は、このほかに予備訓練ステップ中に検出される可能性のある値を有するバイアスである。
【0081】
次に、双曲線正接層131は以下の演算を実施する。
tanh(Wh2h*+bh2)
この演算は、当業者によって双曲線正接tanhスカッシングと呼ばれる場合がある。
【0082】
次に、第2の完全に接続された層132を使用して、以下の演算を実施し、第2のスコアs2を取得する。
s2=Ws2tanh(Wh2h*+bh2)+bs2
ここで、Ws2は予備訓練ステップ中に検出される可能性のある値を有するパラメータであり、bs2はバイアスである。
【0083】
注意の重みを取得するために、スコアs2は、以下でソフトマックス層133にて使用され、この層は、以下の演算を実施して、空間的注意の重みβkを取得する(この重みはこのほか、簡潔にするために、上記の変調関数にてβとして使用され、kは、瞬間を示す1とtとの間に含まれるインデックスである)。
【数2】
【0084】
上記の方法のニューラルネットワークの訓練を、上記のトヨタスマートホームのデータセットなどのデータセットに基づいて実施してもよい。
【0085】
さらに正確には、第1、第2、第3及び第4のニューラルネットワークを共同で訓練することが可能である。訓練フェーズは、第2から第4のニューラルネットワーク(即ち、注意の重み)を考慮せずに、第1のエンコーダニューラルネットワークを微調整することを含んでもよい。これは、活動分類に使用することができる第1のエンコーダニューラルネットワークを取得するために実施されてもよく、クロスエントロピー損失をこの目的に使用してもよい。この段階では、訓練データセットは、既知の活動を実施している人物の動画のみを含んでもよい。
【0086】
続いて、(第1から第4のニューラルネットワークを含む)ネットワーク全体を、クロスエントロピー損失と、空間的注意の重みに基づく損失と、時間的注意の重みに基づく損失と、を使用して訓練することができる。例えば、このエンドツーエンドの訓練は、以下の関数を使用して実施することができる。
【数3】
ここで、Lcはcの活動ラベルのクロスエントロピー損失であり、λ1とλ2は(0.00001に設定され得る)正則化パラメータである。
【0087】
λ1を掛けた第1の正則化項は、その急増を回避するために、学習された空間的注意の重みαをl2のノルム(当業者にはそれ自体が既知である)で正則化することが観察された。
【0088】
λ2を掛けた第2の正則化項は、モデル(即ち、ニューラルネットワーク)に、特徴マップのあらゆる区分又は瞬間に注意を向けさせることが観察されている。そのようにしなければ、時間的次元の区分を無視する傾向があるためである。このような区分は、モデリング活動に大きく貢献する可能性がある。例として、訓練フェーズ中に以下の数式を課すことが可能である。
【数4】
【0089】
このほか、ニューラルネットワークを訓練することは、「A method forstochastic optimization(確立的最適化の方法)」(D.P.Kingma及びJ.Ba.AdamCoRR、abs/1412.6980、2014年)に記載されているAdam Optimizerを使用することを含む場合がある。
【0090】
図3は、図1及び図2に関連して記載した方法を実施するように構成された装置301を備える家又は車両などのシステム300の概略図である。
【0091】
システム300は、動画100を獲得することができる動画獲得モジュール302を備え、獲得された動画は、装置301に入力され、さらに正確には、装置のプロセッサ303に入力される。
【0092】
図示の例では、この方法は、不揮発性メモリ304に保存され、プロセッサ303によって実施されると、命令305、306、307、307、309、310、311、312及び313のセットを含むコンピュータプログラムを使用して実施される。ここに挙げた命令はそれぞれ、
・一連のフレームを使用して人物の連続する3D姿勢のセットを取得するためのモジュールであって、各姿勢は、一連のフレームのうちのフレームからの人物の姿勢を示す、モジュール、
・第1のエンコーダニューラルネットワークを使用して作成された特徴マップを取得するためのモジュールであって、第1のエンコーダニューラルネットワークは、一連のフレームを入力として受信し、時間、空間及びチャネル数に関連付けられた次元を有する特徴マップを出力するように構成される、モジュール、
・第2のニューラルネットワークを使用して時空間特徴のベクトルを取得するためのモジュールであって、第2のニューラルネットワークは、時空間特徴のベクトルを出力し、連続する姿勢のセットを入力として受信する、モジュール、
・時空間特徴のベクトルと第3のニューラルネットワークとを使用して、空間的注意の重みの行列を取得するためのモジュールであって、各重みは行列内の位置の重要性を示す、モジュール、
・時空間特徴のベクトルと第4のニューラルネットワークとを使用して、時間的注意の重みの行列を取得するためのモジュールであって、各重みは瞬間の重要性を示す、モジュール、
・空間的注意の重みの行列を使用して特徴マップを変調して、空間的に変調された特徴マップを取得するためのモジュール、
・時間的注意の重みのベクトルを使用して特徴マップを変調して、時間的に変調された特徴マップを取得するためのモジュール、
・空間的に変調された特徴マップと時間的に変調された特徴マップの畳み込みを実施して、畳み込み特徴マップを取得するためのモジュール、
・動画内の人物の活動を判定するために、畳み込み特徴マップを使用して分類を実施するためのモジュール、を形成する。
【0093】
本発明を、ある特定の実施形態を参照して上記で説明してきたが、本発明は、特定の実施形態の特殊性によって限定されないことが理解されよう。添付の特許請求の範囲内で、上記の実施形態では、多数の変形、修正及び開発を実施する場合がある。
図1
図2
図3
【国際調査報告】