IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 地方独立行政法人東京都立産業技術研究センターの特許一覧

特許7458635行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体
<>
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図1
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図2
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図3
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図4
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図5
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図6
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図7
  • 特許-行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-22
(45)【発行日】2024-04-01
(54)【発明の名称】行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240325BHJP
   G06T 7/00 20170101ALI20240325BHJP
【FI】
G06T7/20 300Z
G06T7/00 350C
【請求項の数】 10
(21)【出願番号】P 2020144857
(22)【出願日】2020-08-28
(65)【公開番号】P2022039704
(43)【公開日】2022-03-10
【審査請求日】2023-05-30
【新規性喪失の例外の表示】特許法第30条第2項適用 ウェブサイトの掲載日 令和2年2月26日 ウェブサイトのアドレス(URL)https://openaccess.thecvf.com/WACV2020
【新規性喪失の例外の表示】特許法第30条第2項適用 〔刊行物等〕開催日 令和2年3月1日~令和2年3月5日(発表日:令和2年3月2日) 集会名、開催場所 IEEE Computer Society/CVF Winter Conference on Applications of Computer Vision(WACV2020)(開催場所:The Westin Snowmass Resort in Snowmass village,Colorado)
(73)【特許権者】
【識別番号】506209422
【氏名又は名称】地方独立行政法人東京都立産業技術研究センター
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100124062
【弁理士】
【氏名又は名称】三上 敬史
(74)【代理人】
【識別番号】100171583
【弁理士】
【氏名又は名称】梅景 篤
(72)【発明者】
【氏名】三木 大輔
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2017-228100(JP,A)
【文献】米国特許第09600717(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
行動を識別する行動識別モデルを学習させる行動識別モデル学習装置であって、
人物を撮像することによって得られた動画像を学習データとして取得する取得部と、
前記学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を前記行動識別モデルに入力し、前記行動識別モデルから前記複数のフレームのそれぞれに対するスコアを得る計算部と、
前記スコアに基づいて、前記行動識別モデルのパラメータを最適化することで前記行動識別モデルを学習させる学習部と、
を備え、
前記取得部は、前記行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、前記対象行動を含まない負の学習データと、を取得し、
前記学習部は、前記正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、前記負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、前記パラメータを最適化する、行動識別モデル学習装置。
【請求項2】
前記学習部は、前記第1最大値から前記第2最大値を減算することによって得られる差分を最大化するように前記パラメータを最適化する、請求項1に記載の行動識別モデル学習装置。
【請求項3】
前記スコアは、0から1の範囲内の値であって、
前記学習部は、前記差分を1に近づけるように前記パラメータを最適化する、請求項2に記載の行動識別モデル学習装置。
【請求項4】
前記学習部は、前記差分を1から減算することによって得られる値と、過学習を防ぐための正則化項と、を加算することによって得られる損失値を最小化する、請求項3に記載の行動識別モデル学習装置。
【請求項5】
前記正則化項は、前記複数のフレームが時系列に配列されたときに互いに隣り合う2つのフレームに対する前記スコアの変動を抑えるための平滑化項を含む、請求項4に記載の行動識別モデル学習装置。
【請求項6】
前記正則化項は、前記複数のフレームに対する前記スコアを全体的に小さくするためのスパース項を含む、請求項4又は請求項5に記載の行動識別モデル学習装置。
【請求項7】
前記学習データに含まれる連続する複数のフレームのそれぞれから前記人物の姿勢を示す姿勢情報を生成する検出部と、
前記姿勢情報から、前記特徴量を抽出する抽出部と、
を更に備える、請求項1~請求項6のいずれか一項に記載の行動識別モデル学習装置。
【請求項8】
行動を識別する行動識別モデルを学習させる行動識別モデル学習方法であって、
人物を撮像することによって得られた動画像を学習データとして取得するステップと、
前記学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を前記行動識別モデルに入力し、前記行動識別モデルから前記複数のフレームのそれぞれに対するスコアを得るステップと、
前記スコアに基づいて、前記行動識別モデルのパラメータを最適化することで前記行動識別モデルを学習させるステップと、
を備え、
前記取得するステップでは、前記行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、前記対象行動を含まない負の学習データと、が取得され、
前記学習させるステップでは、前記正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、前記負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、前記パラメータが最適化される、行動識別モデル学習方法。
【請求項9】
行動を識別する行動識別モデルを学習させるようにコンピュータを動作させる行動識別モデル学習プログラムであって、
人物を撮像することによって得られた動画像を学習データとして取得するステップと、
前記学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を前記行動識別モデルに入力し、前記行動識別モデルから前記複数のフレームのそれぞれに対するスコアを得るステップと、
前記スコアに基づいて、前記行動識別モデルのパラメータを最適化することで前記行動識別モデルを学習させるステップと、
をコンピュータに実行させ、
前記取得するステップでは、前記行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、前記対象行動を含まない負の学習データと、が取得され、
前記学習させるステップでは、前記正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、前記負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、前記パラメータが最適化される、行動識別モデル学習プログラム。
【請求項10】
行動を識別する行動識別モデルを学習させるようにコンピュータを動作させる行動識別モデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記行動識別モデル学習プログラムは、
人物を撮像することによって得られた動画像を学習データとして取得するステップと、
前記学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を前記行動識別モデルに入力し、前記行動識別モデルから前記複数のフレームのそれぞれに対するスコアを得るステップと、
前記スコアに基づいて、前記行動識別モデルのパラメータを最適化することで前記行動識別モデルを学習させるステップと、
をコンピュータに実行させ、
前記取得するステップでは、前記行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、前記対象行動を含まない負の学習データと、が取得され、
前記学習させるステップでは、前記正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、前記負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、前記パラメータが最適化される、記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体に関する。
【背景技術】
【0002】
映像中の人物の動作(行動)を解析する技術が、現在活発に研究されている。この技術がビデオ監視、ヒューマン・コンピュータ・インタラクション、及びエンターテインメント等の分野に応用されることが期待されている。例えば、特許文献1には、動画像データから全身の関節点で規定される行動の特徴量の時系列データを抽出し、特徴量の時系列データに基づいて認識対象の各行動の尤度を出力する行動認識装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-228100号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一連の時系列データを用いてニューラルネットワーク(行動識別モデル)を学習させる場合、時系列データにおけるどのフレームが行動識別に重要なフレームであるか特定することが困難であり、各フレームの出力値(スコア)の正解値を与えることが困難であった。
【0005】
本開示は、各フレームのスコアの正解値を明示的に与えることなく、行動識別モデルを学習させることが可能な行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体を説明する。
【課題を解決するための手段】
【0006】
本開示の一側面に係る行動識別モデル学習装置は、行動を識別する行動識別モデルを学習させる装置である。この行動識別モデル学習装置は、人物を撮像することによって得られた動画像を学習データとして取得する取得部と、学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから複数のフレームのそれぞれに対するスコアを得る計算部と、スコアに基づいて、行動識別モデルのパラメータを最適化することで行動識別モデルを学習させる学習部と、を備える。取得部は、行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、対象行動を含まない負の学習データと、を取得する。学習部は、正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、パラメータを最適化する。
【0007】
本開示の別の側面に係る行動識別モデル学習方法は、行動を識別する行動識別モデルを学習させる方法である。この行動識別モデル学習方法は、人物を撮像することによって得られた動画像を学習データとして取得するステップと、学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから複数のフレームのそれぞれに対するスコアを得るステップと、スコアに基づいて、行動識別モデルのパラメータを最適化することで行動識別モデルを学習させるステップと、を備える。取得するステップでは、行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、対象行動を含まない負の学習データと、が取得される。学習させるステップでは、正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、パラメータが最適化される。
【0008】
本開示の更に別の側面に係る行動識別モデル学習プログラムは、行動を識別する行動識別モデルを学習させるようにコンピュータを動作させるプログラムである。この行動識別モデル学習プログラムは、人物を撮像することによって得られた動画像を学習データとして取得するステップと、学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから複数のフレームのそれぞれに対するスコアを得るステップと、スコアに基づいて、行動識別モデルのパラメータを最適化することで行動識別モデルを学習させるステップと、をコンピュータに実行させるためのプログラムである。取得するステップでは、行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、対象行動を含まない負の学習データと、が取得される。学習させるステップでは、正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、パラメータが最適化される。
【0009】
本開示の更に別の側面に係る記録媒体は、行動を識別する行動識別モデルを学習させるようにコンピュータを動作させる行動識別モデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体である。行動識別モデル学習プログラムは、人物を撮像することによって得られた動画像を学習データとして取得するステップと、学習データに含まれる連続する複数のフレームから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから複数のフレームのそれぞれに対するスコアを得るステップと、スコアに基づいて、行動識別モデルのパラメータを最適化することで行動識別モデルを学習させるステップと、をコンピュータに実行させるためのプログラムである。取得するステップでは、行動識別モデルの識別対象となる行動である対象行動を含む正の学習データと、対象行動を含まない負の学習データと、が取得される。学習させるステップでは、正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、パラメータが最適化される。
【0010】
これらの行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体においては、対象行動を含む正の学習データ及び対象行動を含まない負の学習データが取得され、これらの学習データに含まれる連続する複数のフレームから得られた時系列の特徴量が行動識別モデルに入力され、行動識別モデルから複数のフレームのそれぞれに対するスコアが得られる。正の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第1最大値が、負の学習データに含まれる複数のフレームのそれぞれに対するスコアの最大値である第2最大値よりも大きくなるように、行動識別モデルのパラメータを最適化することによって、行動識別モデルが学習される。第1最大値に対応するフレームは、対象行動を決定付けるフレームであると考えられるので、行動識別モデルのパラメータが最適化されることによって対象行動を決定付けるフレームに対するスコアは大きくなる。一方、行動識別モデルのパラメータが最適化されることによって、第2最大値は第1最大値よりも小さくなるので、負の学習データに含まれる複数のフレームに対応するスコアは全体的に小さくなる。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。以上のように、各フレームのスコアの正解値を明示的に与えることなく、行動識別モデルを学習させることが可能となる。
【0011】
学習部は、第1最大値から第2最大値を減算することによって得られる差分を最大化するようにパラメータを最適化してもよい。この場合、正の学習データに含まれる、対象行動を決定付けるフレームに対するスコアは大きくなり、負の学習データに含まれる複数のフレームのそれぞれに対するスコアは小さくなる。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。
【0012】
スコアは、0から1の範囲内の値であってもよい。学習部は、差分を1に近づけるようにパラメータを最適化してもよい。この場合、正の学習データに含まれる、対象行動を決定付けるフレームに対するスコアは1に近づき、負の学習データに含まれる複数のフレームのそれぞれに対するスコアは0に近づく。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。
【0013】
学習部は、差分を1から減算することによって得られる値と、過学習を防ぐための正則化項と、を加算することによって得られる損失値を最小化してもよい。この場合、過学習が抑制されるので、行動識別モデルの識別精度を向上させることが可能となる。
【0014】
正則化項は、複数のフレームが時系列に配列されたときに互いに隣り合う2つのフレームに対するスコアの変動を抑えるための平滑化項を含んでもよい。この場合、対象行動を決定付けるフレームから離れるに従い、スコアが徐々に小さくなる。対象行動がある時間幅をもって連続的に行われていることが仮定できる状況下において、上記第1最大値に対応するフレーム周辺においても同様の対象行動が行われている可能性がある。つまり、平滑化項によってフレーム前後のスコア差を小さくすることにより、それらの行動が検出されない可能性を低減することが可能となる。同様に、周辺のフレームにおいて低いスコアが得られる場合、対象行動が行われていない可能性が高い。したがって、平滑化項によってフレーム前後のスコア差を小さくすることにより、誤検出の可能性を低減することが可能となる。
【0015】
正則化項は、複数のフレームに対するスコアを全体的に小さくするためのスパース項を含んでもよい。この場合、対象行動を決定付けるフレーム及びその近傍のフレームにおいてのみ、スコアの値を大きくすることができる。したがって、行動識別モデルが誤識別する可能性を低減することが可能となる。
【0016】
上記行動識別モデル学習装置は、学習データに含まれる連続する複数のフレームのそれぞれから人物の姿勢を示す姿勢情報を生成する検出部と、姿勢情報から特徴量を抽出する抽出部と、を更に備えてもよい。この場合、学習データに含まれる連続する複数のフレームのそれぞれから姿勢情報が生成され、姿勢情報から特徴量が抽出される。したがって、学習データから、行動識別モデルに入力するための時系列の特徴量を生成することができる。
【発明の効果】
【0017】
本開示によれば、各フレームの出力値の正解値を明示的に与えることなく、行動識別モデルを学習させることができる。
【図面の簡単な説明】
【0018】
図1図1は、一実施形態に係る行動識別モデル学習装置の機能ブロック図である。
図2図2は、図1に示される行動識別モデル学習装置のハードウェア構成を示す図である。
図3図3の(a)は、平滑化項が小さい場合における、時系列に配列されたフレームのスコアを示す波形を示す図である。図3の(b)は、平滑化項が大きい場合における、時系列に配列されたフレームのスコアを示す波形を示す図である。
図4図4の(a)は、スパース項が小さい場合における、時系列に配列されたフレームのスコアを示す波形を示す図である。図4の(b)は、スパース項が大きい場合における、時系列に配列されたフレームのスコアを示す波形を示す図である。
図5図5の(a)は、スコアの初期値が高い場合の学習回数とスコア及び損失値との関係を示す図である。図5の(b)は、スコアの初期値が低い場合の学習回数とスコア及び損失値との関係を示す図である。
図6図6は、パラメータが最適化された行動識別モデルによって出力されるスコアの一例を示す図である。
図7図7は、図1に示される行動識別モデル学習装置が行う行動識別モデル学習方法の一連の処理を示すフローチャートである。
図8図8は、記録媒体に記録された行動識別モデル学習プログラムの構成を示す図である。
【発明を実施するための形態】
【0019】
以下、図面を参照しながら本開示の実施形態が詳細に説明される。なお、図面の説明において同一要素には同一符号が付され、重複する説明は省略される。
【0020】
図1は、一実施形態に係る行動識別モデル学習装置の機能ブロック図である。図1に示される行動識別モデル学習装置10は、行動識別モデルを学習させる装置である。行動識別モデルは、行動を識別するための機械学習モデルであり、例えば、ニューラルネットワークによって構成されている。本実施形態では、行動識別モデルは、ニューラルネットワーク(Neural Network:NN)によって構成されている。本実施形態の行動識別モデルは、1種類の行動を識別可能に構成されている。ここでは、人間の行動が識別される。識別対象となる行動(以下、「対象行動」と称する場合がある。)の種類の例としては、「手を振る」、「座る」、及び「携帯電話で通話をする」等が挙げられる。
【0021】
図2は、図1に示される行動識別モデル学習装置のハードウェア構成図である。図2に示されるように、行動識別モデル学習装置10は、物理的には、1又は複数のプロセッサ101、主記憶装置102、補助記憶装置103、通信装置104、入力装置105、及び出力装置106等のハードウェアを備えるコンピュータとして構成され得る。プロセッサ101の例としては、CPU(Central Processing Unit)が挙げられる。主記憶装置102は、RAM(Random Access Memory)及びROM(Read Only Memory)等で構成される。補助記憶装置103の例としては、半導体メモリ、及びハードディスク装置が挙げられる。補助記憶装置103は、行動識別モデル学習プログラムP(図8参照)を格納している。
【0022】
通信装置104は、他の装置とデータの送受信を行う装置である。通信装置104は、例えば、ネットワークインタフェースカード(NIC)又は無線通信モジュールで構成される。入力装置105は、ユーザが行動識別モデル学習装置10を操作する際に用いられる装置である。入力装置105は、例えば、タッチパネル、キーボード、及びマウスで構成される。出力装置106は、各種情報を出力する装置である。出力装置106は、例えば、ディスプレイ、及びスピーカで構成される。
【0023】
プロセッサ101が、補助記憶装置103に格納されている行動識別モデル学習プログラムPを、主記憶装置102に読み出して実行することにより、プロセッサ101の制御のもとで各ハードウェアが動作し、主記憶装置102及び補助記憶装置103におけるデータの読み出し及び書き込みが行われる。これにより、行動識別モデル学習装置10の図1に示される各機能部が実現される。
【0024】
図1に示されるように、行動識別モデル学習装置10は、機能的には、学習データ格納部11と、取得部12と、検出部13と、抽出部14と、計算部15と、学習部16と、を備えている。
【0025】
学習データ格納部11は、複数の学習データを格納する機能部である。各学習データは、例えば、人物を撮像することによって得られた動画像である。動画像は、時間的に連続するT(Tは2以上の整数)個のフレームを含む。Tは、例えば、数十から数百である。各学習データには、対象行動の種類を示すラベルが付与されている。対象行動を含まない学習データには、対象行動を含まないことを示すラベルが付与されている。対象行動を含む学習データは、正の学習データと称され、対象行動を含まない学習データは、負の学習データと称される。なお、本実施形態では、対象行動は1種類の行動であるので、正の学習データには、対象行動を含むことを示す正解ラベルが付与されてもよく、負の学習データには、対象行動を含まないことを示す不正解ラベルが付与されてもよい。
【0026】
学習データは、予め準備され、学習データ格納部11に格納されている。学習データの準備は、任意の方法によって行われる。例えば、学習データは、ビデオカメラによって撮像された動画像を構成するM(MはTよりも大きい整数)個のフレームを分割することによって得られる。具体的には、時系列に配列されたM個のフレームから、時間的に連続するT個のフレームが抽出される。このT個のフレームに対象行動が含まれている場合には、当該対象行動の種類を示すラベルが付与される。一方、T個のフレームに対象行動が含まれていない場合には、対象行動を含まないことを示すラベルが付与される。
【0027】
取得部12は、人物を撮像することによって得られた動画像を学習データとして取得する機能部である。取得部12は、学習データ格納部11から、正の学習データと、負の学習データと、を取得する。取得部12は、取得した学習データを1つずつ検出部13に出力する。
【0028】
検出部13は、姿勢を検出する機能部である。検出部13は、取得部12から受け取った各学習データに含まれるT個のフレームのそれぞれから、人物の姿勢を示す姿勢情報を生成する。具体的に説明すると、検出部13は、各フレームにおける人物の画像領域である人物領域を抽出する。人物領域の抽出は、機械学習等に基づく公知の手法によって行われる。そして、検出部13は、人物領域を用いて、姿勢情報を生成する。姿勢情報は、全身の関節位置の座標を示す情報である。姿勢情報は、機械学習等に基づく公知の手法によって生成される。このようにして、検出部13は、学習データごとに、時系列の姿勢情報を得る。検出部13は、各学習データの時系列の姿勢情報を抽出部14に出力する。
【0029】
抽出部14は、各姿勢情報から特徴量を抽出する機能部である。抽出部14は、例えば、1つのフレームにおける各関節位置の相対的な位置関係と、連続する2つのフレーム間における関節位置の移動量と、を特徴量として抽出する。抽出部14は、姿勢情報によって示される関節位置の座標をそのまま特徴量としてもよい。抽出部14は、複数の学習データのそれぞれから得られた時系列の特徴量を計算部15に出力する。
【0030】
計算部15は、学習データに含まれる連続するT個のフレームから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから当該学習データに含まれるT個のフレームのそれぞれに対するスコアを得る機能部である。本実施形態では、行動識別モデルは、1つの学習データに含まれる連続するT個のフレームから得られたT個の特徴量を入力として受け取り、T個のフレームのそれぞれに対するスコアを出力する。スコアは、実数値である。スコアの値が高いほど、そのスコアに対応するフレームが、対象行動を決定付ける上で重要であることを示す。ここでは、スコアは、0から1の範囲内の値を取り得る。
【0031】
ここで、正の学習データに含まれるT個のフレームのそれぞれに対するスコアを時系列に配列したベクトルを、スコアyposと表記し、負の学習データに含まれるT個のフレームのそれぞれに対するスコアを時系列に配列したベクトルを、スコアynegと表記する。正の学習データに含まれるT個のフレームのt番目のフレームに対するスコアを、スコアy posと表記し、負の学習データに含まれるT個のフレームのt番目のフレームに対するスコアを、スコアy negと表記する。tは1~Tの範囲内の整数値である。計算部15は、スコアypos及びスコアynegを学習部16に出力する。
【0032】
学習部16は、行動識別モデルを学習させる機能部である。学習部16は、スコアypos及びスコアynegに基づいて、行動識別モデルのパラメータを最適化することで行動識別モデルを学習させる。学習部16は、スコアy posが高くなり、スコアy negが低くなるように、行動識別モデルを学習させる。行動識別モデルの学習は行動識別モデルを構成するニューラルネットワークのパラメータを最適化(調整)することによって行われる。
【0033】
以下、パラメータの最適化手法を具体的に説明する。正の学習データにおいて、対象行動を決定付けるフレームは未知である。そこで、学習部16は、式(1)を満たすように、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。つまり、学習部16は、正の学習データに含まれるT個のフレームのそれぞれに対するスコアy posのうちの最大値(第1最大値、以下「スコアyposの最大値」と称する場合がある。)が、負の学習データに含まれるT個のフレームのそれぞれに対するスコアy negのうちの最大値(第2最大値、以下「スコアynegの最大値」と称する場合がある。)よりも大きくなるように、パラメータを最適化する。
【数1】
【0034】
ここで、学習を安定して行うために、学習部16は、式(2)に示される損失関数を用い、損失値Lを最小化することによって、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。式(2)の右辺第1項に着目すると、学習部16は、スコアyposの最大値からスコアynegの最大値を減算した差分を1に近づけるようにパラメータを最適化する。なお、スコアが0から1の範囲内の値である場合には、スコアyposの最大値からスコアynegの最大値を減算した差分が1よりも大きくなることは無い。この場合、式(2)の右辺第1項は、スコアyposの最大値からスコアynegの最大値を減算した差分を、1から減算することによって得られる値に置き換えられてもよい。言い換えると、学習部16は、スコアyposの最大値からスコアynegの最大値を減算した差分を、1から減算することによって得られる値と、正則化項λと、を加算することによって得られる損失値Lを最小化する。
【数2】
【0035】
正則化項λは、過学習を防ぎ学習を安定させるための項であり、式(3)によって表される。
【数3】
【0036】
平滑化項λsmoothは、T個のフレームが時系列に配列されたときに互いに隣り合う2つのフレームに対する出力値(スコア)の変動を抑えるための項であり、ハイパパラメータμを用いて式(4)によって表される。ハイパパラメータμは、平滑化項λsmoothの大きさを制御するパラメータである。
【数4】
【0037】
スパース項λsparseは、T個のフレームに対する出力値(スコア)を全体的に小さくし、誤識別を防ぐための項であり、ハイパパラメータμを用いて式(5)によって表される。ハイパパラメータμは、スパース項λsparseの大きさを制御するパラメータである。
【数5】
【0038】
平滑化項λsmoothが大きい場合、あるフレームにおけるスコアと、その前後のフレームにおけるスコアとの差が大きくなる。この場合、図3の(b)に示されるように、時系列に配列されたフレームのスコアを示す波形が乱れることがある。一方、平滑化項λsmoothが小さい場合、あるフレームにおけるスコアと、その前後のフレームにおけるスコアとの差が小さくなる。したがって、図3の(a)に示されるように、時系列に配列されたフレームのスコアを示す波形は、滑らかな波形となる。
【0039】
図4の(b)に示されるように、スパース項λsparseが大きい場合、スコアが全体的に大きい値となる。この場合、対象行動を決定付ける上で重要でないフレームのスコアが大きくなるおそれがあり、誤識別の可能性が高まる。一方、図4の(a)に示されるように、スパース項λsparseが小さい場合、スコアが全体的に小さい値となる。この場合、対象行動を決定付けるフレームの近傍のフレームにおいてのみ、スコアの値が大きくなる。したがって、誤識別が低減され得る。
【0040】
以上のように、学習部16は、損失値Lを最小化することによって、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。例えば、図5の(a)に示されるように、学習前の行動識別モデルから得られたスコアy pos及びスコアy negの初期値がいずれも高い場合、スコアyposの最大値からスコアynegの最大値を減算することによって得られる差分は0に近いので、当該差分を1から減算することによって得られる値は1に近い値となる。損失値Lが最小となるように、行動識別モデルを構成するニューラルネットワークのパラメータが最適化されるので、学習回数が増えるに従い、上記差分は1に近づき、当該差分を1から減算することによって得られる値は0に近づく。言い換えると、学習回数が増えるに従い、対象行動を決定付けるフレーム以外のフレームのスコアが徐々に減少する。
【0041】
図5の(b)に示されるように、学習前の行動識別モデルから得られたスコアy pos及びスコアy negの初期値がいずれも低い場合においても、スコアyposの最大値からスコアynegの最大値を減算することによって得られる差分は0に近いので、当該差分を1から減算することによって得られる値は1に近い値となる。損失値Lが最小となるように、行動識別モデルを構成するニューラルネットワークのパラメータが最適化されるので、学習回数が増えるに従い、上記差分は1に近づき、当該差分を1から減算することによって得られる値は0に近づく。言い換えると、学習回数が増えるに従い、対象行動を決定付けるフレームのスコアが徐々に増加する。
【0042】
図6に示されるように、行動識別モデルを構成するニューラルネットワークのパラメータが最適化されると、対象行動を決定付けるフレームのスコアは高い値となり、それ以外のフレームのスコアは低い値となる。したがって、行動識別モデル学習装置10によって学習された行動識別モデルは、連続するT個のフレームから得られたT個の特徴量を入力として受け取り、T個のフレームのそれぞれに対しより正確なスコアを出力する。これにより、対象行動がいつ発生したかがわかる。
【0043】
次に、図7を参照して、行動識別モデル学習装置10が行う行動識別モデル学習方法を説明する。図7は、図1に示される行動識別モデル学習装置が行う行動識別モデル学習方法の一連の処理を示すフローチャートである。図7に示される一連の処理は、任意のタイミングで開始される。
【0044】
まず、取得部12が学習データを取得する(ステップS11)。ステップS11では、取得部12は、学習データ格納部11から、正の学習データと、負の学習データと、を取得する。そして、取得部12は、正の学習データ及び負の学習データを検出部13に出力する。
【0045】
続いて、検出部13は、人物の姿勢を検出する(ステップS12)。具体的に説明すると、検出部13は、取得部12から正の学習データ及び負の学習データを受け取ると、各学習データに含まれるT個のフレームのそれぞれから、人物の姿勢を示す姿勢情報を生成する。これにより、検出部13は、学習データごとに、時系列の姿勢情報を得る。そして、検出部13は、正の学習データから得られた時系列の姿勢情報、及び負の学習データから得られた時系列の姿勢情報を抽出部14に出力する。
【0046】
続いて、抽出部14は、特徴量を抽出する(ステップS13)。具体的に説明すると、抽出部14は、正の学習データから得られた時系列の姿勢情報、及び負の学習データから得られた時系列の姿勢情報を検出部13から受け取ると、各姿勢情報から特徴量を抽出する。そして、抽出部14は、正の学習データから得られた時系列の特徴量、及び負の学習データから得られた時系列の特徴量を計算部15に出力する。
【0047】
続いて、計算部15は、スコアを計算する(ステップS14)。具体的に説明すると、計算部15は、正の学習データから得られた時系列の特徴量、及び負の学習データから得られた時系列の特徴量を抽出部14から受け取ると、正の学習データから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから正の学習データに含まれるT個のフレームのそれぞれに対するスコアy posを得る。さらに、計算部15は、負の学習データから得られた時系列の特徴量を行動識別モデルに入力し、行動識別モデルから負の学習データに含まれるT個のフレームのそれぞれに対するスコアy negを得る。そして、計算部15は、スコアypos及びスコアynegを学習部16に出力する。
【0048】
続いて、学習部16は、行動識別モデルを学習させる(ステップS15)。具体的に説明すると、学習部16は、スコアypos及びスコアynegを計算部15から受け取ると、式(1)を満たすように、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。より具体的には、学習部16は、式(1)を満たすために、式(2)に示される損失関数を用い、損失値Lを最小化することによって、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。
【0049】
以上により、行動識別モデル学習方法の一連の処理が終了する。上記一連の処理が繰り返されることによって、行動識別モデルの精度が向上する。
【0050】
次に、図8を参照しながら、コンピュータを行動識別モデル学習装置10として機能させるための行動識別モデル学習プログラムP及び行動識別モデル学習プログラムPを記録する記録媒体MDを説明する。図8は、記録媒体に記録された行動識別モデル学習プログラムの構成を示す図である。
【0051】
図8に示されるように、行動識別モデル学習プログラムPは、メインモジュールP10、取得モジュールP12、検出モジュールP13、抽出モジュールP14、計算モジュールP15、及び学習モジュールP16を備える。メインモジュールP10は、行動識別モデル学習に係る処理を統括的に制御する部分である。取得モジュールP12、検出モジュールP13、抽出モジュールP14、計算モジュールP15、及び学習モジュールP16を実行することにより実現される機能はそれぞれ、上記実施形態における取得部12、検出部13、抽出部14、計算部15、及び学習部16の機能と同様である。
【0052】
行動識別モデル学習プログラムPは、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、及び半導体メモリ等のコンピュータ読み取り可能な記録媒体MDによって提供される。行動識別モデル学習プログラムPは、データ信号としてネットワークを介して提供されてもよい。
【0053】
行動識別モデル学習装置10、行動識別モデル学習方法、行動識別モデル学習プログラムP、及び行動識別モデル学習プログラムPを記録した記録媒体の作用効果を説明する。人物の行動(動作)は、3次元空間における時系列の姿勢情報の組み合わせとして表現することができる。しかし、動画像中の各フレームにおける人物の姿勢情報は、その人物の行動を決定付ける上で必ずしも重要とは限らない。例えば、「携帯電話で通話をする」という行動を識別するとき、「手を耳に近づける動作」は、その行動を決定付ける上で重要である。一方、「ポケットからものを取り出す動作」は、他の行動にも共通して含まれているので(例えば、携帯電話で調べものをする等)、行動を決定付けるには至らない。つまり、人物の行動を識別する上で、空間的な姿勢情報(静止画中の人物の姿勢)のみならず、時間的な姿勢情報(人物の姿勢の時間変化)にも、行動を決定付ける上で重要な部分とそうでない部分がある。一般的なニューラルネットワークの最適化では、一連の時系列データ(フレーム)に対して、その出力値(スコア)の正解値が与えられる。しかしながら、どのフレームが行動を決定付ける上で重要なフレームであるか特定することが困難であり、各フレームに対するスコアの正解値を与えることが困難であった。仮に各フレームに対するスコアの正解値を得ることができたとしても、各スコアに正解値を手作業で付与することは煩雑である。
【0054】
一方、行動識別モデル学習装置10、行動識別モデル学習方法、行動識別モデル学習プログラムP、及び行動識別モデル学習プログラムPを記録した記録媒体においては、対象行動を含む正の学習データ及び対象行動を含まない負の学習データが取得される。そして、正の学習データに含まれる連続するT個のフレームから得られた時系列の特徴量が行動識別モデルに入力され、行動識別モデルからT個のフレームのそれぞれに対するスコアy posが得られる。同様に、負の学習データに含まれる連続するT個のフレームから得られた時系列の特徴量が行動識別モデルに入力され、行動識別モデルからT個のフレームのそれぞれに対するスコアy negが得られる。スコアyposの最大値がスコアynegの最大値よりも大きくなるように、行動識別モデルのパラメータを最適化することによって、行動識別モデルが学習される。
【0055】
スコアyposの最大値に対応するフレームは、対象行動を決定付けるフレームであると考えられるので、行動識別モデルのパラメータが最適化されることによって対象行動を決定付けるフレームに対するスコアは大きくなる。一方、行動識別モデルのパラメータが最適化されることによって、スコアynegの最大値はスコアyposの最大値よりも小さくなるので、負の学習データに含まれるT個のフレームに対応するスコアy negは全体的に小さくなる。言い換えると、各学習データには、当該学習データに含まれる行動を示す単一のラベルが付与されており、これらの学習データを用いて、行動を決定付ける上で時間的に重要なフレームに対するスコアy posが高くなるように、行動識別モデルが学習される。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。以上のように、各フレームのスコアの正解値を明示的に与えることなく、行動識別モデルを学習させることが可能となる。
【0056】
学習部16は、スコアyposの最大値からスコアynegの最大値を減算することによって得られる差分を最大化するようにパラメータを最適化する。この構成によれば、正の学習データに含まれる、対象行動を決定付けるフレームに対するスコアは大きくなり、負の学習データに含まれるT個のフレームのそれぞれに対するスコアは小さくなる。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。
【0057】
スコアは、0から1の範囲内の値である。学習部16は、スコアyposの最大値からスコアynegの最大値を減算することによって得られる差分を1に近づけるようにパラメータを最適化する。この構成によれば、正の学習データに含まれる、対象行動を決定付けるフレームに対するスコアは1に近づき、負の学習データに含まれるT個のフレームのそれぞれに対するスコアは0に近づく。したがって、行動識別モデルの学習が繰り返されることによって、行動識別モデルの識別精度を向上させることが可能となる。
【0058】
学習部16は、損失値Lを最小化する。損失値Lは、スコアyposの最大値からスコアynegの最大値を減算することによって得られる差分を、1から減算することによって得られる値と、過学習を防ぐための正則化項λと、を加算することによって得られる。この構成においては、正則化項λが小さくなるので、過学習を抑制することができ、行動識別モデルの識別精度を向上させることが可能となる。
【0059】
正則化項λは、T個のフレームが時系列に配列されたときに互いに隣り合う2つのフレームに対するスコアの変動を抑えるための平滑化項λsmoothを含んでいる。平滑化項λsmoothを小さくすることによって、対象行動を決定付けるフレームから離れるに従い、スコアが徐々に小さくなる。対象行動がある時間幅をもって連続的に行われていることが仮定できる状況下において、スコアyposの最大値に対応するフレーム周辺においても同様の対象行動が行われている可能性がある。つまり、平滑化項λsmoothによってフレーム前後のスコア差を小さくすることにより、それらの行動が検出されない可能性を低減することが可能となる。同様に、周辺のフレームにおいて低いスコアが得られる場合、対象行動が行われていない可能性が高い。したがって、平滑化項λsmoothによってフレーム前後のスコア差を小さくすることにより、誤検出の可能性を低減することが可能となる。
【0060】
正則化項λは、T個のフレームに対するスコアを全体的に小さくするためのスパース項λsparseを含んでいる。スパース項λsparseを小さくすることによって、対象行動を決定付けるフレーム及びその近傍のフレームにおいてのみ、スコアの値を大きくすることができる。したがって、行動識別モデルが誤識別する可能性を低減することが可能となる。
【0061】
行動識別モデル学習装置10は、学習データに含まれる連続するT個のフレームのそれぞれから人物の姿勢を示す姿勢情報を生成する検出部13と、姿勢情報から特徴量を抽出する抽出部14と、を備えている。この構成においては、学習データに含まれる連続するT個のフレームのそれぞれから姿勢情報が生成され、姿勢情報から特徴量が抽出される。したがって、学習データから、行動識別モデルに入力するための時系列の特徴量を生成することができる。
【0062】
なお、本開示に係る行動識別モデル学習装置、行動識別モデル学習方法、行動識別モデル学習プログラム、及び記録媒体は上記実施形態に限定されない。
【0063】
上記実施形態では、行動識別モデルは、1種類の行動を識別可能に構成されているが、複数種類(N種類)の行動を識別可能に構成されてもよい。Nは2以上の整数である。
【0064】
この場合、行動識別モデルの出力がN次元に拡張される。つまり、行動識別モデルは、1つの学習データに含まれる連続するT個のフレームから得られたT個の特徴量を入力として受け取り、T個のフレームのそれぞれに対し、N種類の行動のスコアを出力する。言い換えると、行動識別モデルは、N×T個のスコアを出力する。
【0065】
学習部16は、式(2)に示される損失関数に代えて、式(6)に示される一般化された損失関数を用い、損失値Lを最小化することによって、行動識別モデルを構成するニューラルネットワークのパラメータを最適化する。
【数6】
【0066】
なお、式(7)に示されるように、スコアYknは、T個のフレームのそれぞれに対するスコアy knのうちの最大値である。
【数7】
【0067】
ここで、インデックスk,kは、学習データの集合Kからランダムに選択されたインデックスの対である。ラベルφkn及びラベルψknは、Nクラス識別のために導入されたn次元のラベルであり、それぞれ式(8)及び式(9)によって表される。ここで、クラスは、行動の種類である。ラベルφknは、学習データがn番目の種類の行動に属する(学習データにn番目の種類の行動が含まれる)場合には1となり、それ以外の場合には0となる。ラベルψknは、学習データがn番目の種類の行動に属する(学習データにn番目の種類の行動が含まれる)場合には1となり、それ以外の場合には-1となる。
【数8】

【数9】
【0068】
正則化項λは、式(3)によって表される。平滑化項λsmoothは式(10)によって表され、スパース項λsparseは、式(11)によって表される。なお、正則化項λは、クロスエントロピー誤差の項を更に含んでもよい。
【数10】

【数11】
【0069】
以上のように、損失関数を一般化することによって、複数種類の行動の識別が可能となるように、行動識別モデルを学習させることができる。複数種類の行動識別は、複数の行動識別モデルに対して、それぞれ異なる種類の行動を識別可能に学習させることによっても実現できる。しかしながら、これらの複数の行動識別モデルを記憶しておくために、多くのメモリ容量が消費され、行動識別に要する計算時間が長くなる。これに対し、上記変形例では、複数種類の行動の識別が可能となるように、行動識別モデルが学習される。この構成によれば、メモリ容量の消費量を低減することができ、行動識別に要する計算時間を短縮することができる。
【0070】
上記変形例の行動識別モデル学習装置10によって学習された行動識別モデルは、連続するT個のフレームから得られたT個の特徴量を入力として受け取り、T個のフレームのそれぞれに対し、N種類の行動のより正確なスコアを出力する。したがって、N種類の行動がいつ発生したかがわかる。
【符号の説明】
【0071】
10…行動識別モデル学習装置、11…学習データ格納部、12…取得部、13…検出部、14…抽出部、15…計算部、16…学習部、MD…記録媒体、P…行動識別モデル学習プログラム。
図1
図2
図3
図4
図5
図6
図7
図8