特開2024-72180 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-72180訓練データ生成プログラム、情報処理装置および訓練データ生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024072180

(43)【公開日】2024-05-27

(54)【発明の名称】訓練データ生成プログラム、情報処理装置および訓練データ生成方法

(51)【国際特許分類】

G06V 40/20 20220101AFI20240520BHJP

G06T 7/00 20170101ALI20240520BHJP

G06V 10/74 20220101ALI20240520BHJP

G06V 10/774 20220101ALI20240520BHJP

【ＦＩ】

G06V40/20

G06T7/00 350B

G06V10/74

G06V10/774

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022182896

(22)【出願日】2022-11-15

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】齊藤孝広

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096GA59

5L096HA13

5L096JA03

5L096JA11

5L096KA04

(57)【要約】

【課題】訓練データを生成する際に、動画中の所定の行動を行っている開始・終了フレームを、手間をかけず正確に指定する。
【解決手段】情報処理装置１は、所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出し、該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出し、該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出し、該算出した対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する。例えば、所定の行動を行っている開始・終了フレームを指定した訓練データの生成に適用できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出し、
該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出し、
該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出し、
該算出した対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する
処理をコンピュータに実行させる訓練データ生成プログラム。

【請求項2】

該生成する処理は、第１の訓練データと第２の訓練データとを示す２つの訓練データに対するそれぞれの前記予め設定された境界フレームから開始し、前記対応関係に基づいて、前記第１の訓練データにおけるフレームと、前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームとを比較し、予め定められた前か後かを示す時間方向のフレームを前記第１の訓練データにおける境界フレームの候補とする第１の処理と、
前記対応関係に基づいて、前記第２の訓練データにおけるフレームと、前記第１の訓練データにおける前記境界フレームの候補に対応する、前記第２の訓練データにおけるフレームとを比較し、前記時間方向のフレームを前記第２の訓練データにおける境界フレームの候補とする第２の処理と、
前記対応関係に基づいて、前記第１の訓練データにおけるフレームが前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームと一致しない場合には、前記第１の処理および前記第２の処理とを繰り返し、
前記第１の訓練データにおけるフレームが前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームと一致する場合には、前記第１の訓練データにおける境界フレームの候補を新たな境界フレームとした前記第１の訓練データを生成し、前記第２の訓練データにおける境界フレームの候補を新たな境界フレームとした前記第２の訓練データを生成する
ことを特徴とする請求項１に記載の訓練データ生成プログラム。

【請求項3】

さらに、新たな境界フレームを設定された訓練データを入力することで、前記所定の行動の発生を判定する機械学習モデルを学習する
ことを特徴とする請求項１に記載の訓練データ生成プログラム。

【請求項4】

前記特徴量ベクトル列は、フレームごとの骨格情報から生成される
ことを特徴とする請求項１に記載の訓練データ生成プログラム。

【請求項5】

所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出する抽出部と、
前記抽出部によって抽出された２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出する第１の算出部と、
前記第１の算出部によって算出された類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出する第２の算出部と、
前記第２の算出部によって算出された対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する生成部と、
を有することを特徴とする情報処理装置。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、訓練データ生成プログラムなどに関する。

【背景技術】

【0002】

動画中に所定の行動を行っている開始・終了フレームを指定した訓練データを用いた機械学習により、所定の行動の発生を判定する分類器を生成する技術がある。訓練データとして指定される開始・終了フレームは、例えば、人手によって指定される。

【0003】

開始・終了フレームを指定しなくても、所定の行動（ジェスチャ動作）を検出することが可能なジェスチャ検出装置の技術が開示されている（特許文献１参照）。かかる技術では、ジェスチャ検出装置は、撮像データから操作者の手が存在する手領域を特定し、全体画像から手領域を切り取った手領域画像の特徴量と全体画像の特徴量とに基づいてジェスチャ動作が行われているジェスチャ区間を抽出し、ジェスチャ動作を検出する。

【0004】

また、セグメント数が異なるモーションキャプチャデータに対して、ＤＴＷ（Dynamic Time Warping）による対応関係に基づき、セグメント数が同一になるようにセグメント境界を修正する技術が開示されている（特許文献２参照）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２１－０７２０５９号公報

【特許文献2】特開２０１４－２１５６７８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、訓練データを生成する際に、動画中の所定の行動を行っている開始・終了フレームを、手間をかけず正確に指定するのは難しいという問題がある。

【0007】

例えば、訓練データとして開始・終了フレームが人手によって指定される場合には、１フレームごとに開始・終了フレームをチェックすることが必要であるので、手間がかかる。

【0008】

また、開始・終了フレームを指定しないで、所定の行動を検出する技術では、そもそも開始・終了フレームを指定する技術ではない。

【0009】

また、セグメント境界を修正する技術では、セグメント数が同一になるようにセグメント境界を修正するが、開始・終了フレームを正確に指定する技術ではない。

【0010】

なお、動画中の所定の行動を行っている開始・終了フレームを曖昧に指定した訓練データを用いて学習を行うと、適切な分類器が作成できない。例えば、ほとんど同じ特徴量を持った複数のフレームに対して異なる分類ラベルが付与された場合、分類器はこれら複数のフレームを区別するための情報として対象の行動とは全く関係のない些細な違いを採用してしまう。この結果、新規データでは適切な分類ができない分類器が作成されてしまう。つまり、ほとんど同じ特徴量を持つ、換言すれば非常に類似するフレームは同じ分類ラベルが付与されているような訓練データが、適切な分析器を生成するための重要な条件の一つであるといえる。

【0011】

本発明は、１つの側面では、訓練データを生成する際に、動画中の所定の行動を行っている開始・終了フレームを、手間をかけず正確に指定することを目的とする。

【課題を解決するための手段】

【0012】

１つの態様では、訓練データ生成プログラムは、所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出し、該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出し、該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出し、該算出した対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する、処理をコンピュータに実行させる。

【発明の効果】

【0013】

１実施態様によれば、訓練データを生成する際に、動画中の所定の行動を行っている境界フレームを、手間をかけず正確に指定できる。

【図面の簡単な説明】

【0014】

【図1】図１は、実施例に係る情報処理装置の機能構成を示すブロック図である。

【図2】図２は、実施例に係る抽出処理の一例を示す図である。

【図3】図３は、実施例に係る類似度行列の一例を示す図である。

【図4】図４は、実施例に係る対応関係算出処理の一例を示す図である。

【図5A】図５Ａは、実施例に係る修正処理の一例を示す図（１）である。

【図5B】図５Ｂは、実施例に係る修正処理の一例を示す図（２）である。

【図5C】図５Ｃは、実施例に係る修正処理の一例を示す図（３）である。

【図5D】図５Ｄは、実施例に係る修正処理の一例を示す図（４）である。

【図6】図６は、訓練データが３つの場合の訓練データ生成処理の一例を示す図である。

【図7】図７は、実施例に係る訓練データ生成処理のフローチャートの一例を示す図である。

【図8】図８は、訓練データ生成プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0015】

以下に、本願の開示する訓練データ生成プログラム、情報処理装置および訓練データ生成方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【0016】

図１は、実施例に係る情報処理装置の機能構成を示すブロック図である。図１に示す情報処理装置１は、所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量列を抽出し、特徴量列間の類似度を基にＤＴＷによりフレーム間の対応関係を算出する。そして、情報処理装置１は、算出した対応関係に基づいて新たな境界フレームを設定された訓練データを生成する。ここでいう所定の行動とは、例えば、人間の動作を表す行動を意味し、一例として、手を挙げるという動作を表す行動である。ここでいう所定の境界フレームとは、所定の行動の開始フレームや終了フレームを意味する。なお、実施例では、境界フレームを所定の行動の開始・終了フレームであるとして説明する。

【0017】

情報処理装置１は、制御部１０と、記憶部２０とを有する。制御部１０は、抽出部１１、類似度算出部１２、対応関係算出部１３、修正部１４および学習部１５を有する。記憶部２０は、類似度行列２１、対応関係情報２２および訓練データ２３を記憶する。なお、抽出部１１は、抽出部の一例である。類似度算出部１２は、第１の算出部の一例である。対応関係算出部１３は、第２の算出部の一例である。修正部１４は、生成部の一例である。学習部１５は、学習部の一例である。

【0018】

類似度行列２１は、２つの訓練データに含まれるそれぞれのフレーム間の類似度を示す行列である。１つのフレーム間の類似度は、対象の２つのフレームについて、行動に関わる特徴量ベクトルを用いて算出される。特徴量ベクトル間の類似度は、例えばコサイン類似度を用いても良く、いかなる手法によって求められても良い。なお、類似度行列２１は、後述する類似度算出部１２によって生成される。類似度行列２１の一例は、後述する。

【0019】

対応関係情報２２は、２つの訓練データに含まれるそれぞれのフレーム間の類似度が所定値以上のフレーム間を関係付けた情報である。なお、対応関係情報２２は、後述する対応関係算出部１３によって生成される。対応関係情報２２の一例は、後述する。

【0020】

訓練データ２３は、修正後の訓練データである。すなわち、訓練データ２３は、新たな境界フレーム（開始・終了フレーム）を設定された訓練データである。なお、訓練データ２３は、修正部１４によって生成される。

【0021】

抽出部１１は、所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出する。例えば、抽出部１１は、修正対象の訓練データであって所定の行動が撮像された２つの訓練データを取得する。そして、抽出部１１は、取得された２つの訓練データに対して、ユーザによって設定された開始フレームを中心に前後の所定フレーム数分の特徴量ベクトル列を抽出する。また、抽出部１１は、取得された２つの訓練データに対して、ユーザによって設定された終了フレームを中心に前後の所定フレーム数分の特徴量ベクトル列を抽出する。

【0022】

ここでいう特徴量ベクトル列は、所定の行動が手を挙げるという動作を示す行動である場合には、フレームごとの骨格情報から生成される。骨格情報は、例えば、手のひらについてＸ、Ｙ方向の移動量、腕について回転や捻じれを示す情報を含む。特徴量ベクトル列の各特徴量ベクトルは、骨格情報を示す各要素を特徴量としてベクトル化したものである。特徴量ベクトルの各要素は、正規化される。正規化されるのは、後述する特徴量ベクトル列間の類似度を適切に算出するためである。なお、特徴量ベクトルは、いかなる従来技術を用いて算出されても良い。

【0023】

ここでいう前後の所定フレーム数には、例えば認識結果の許容される時間のズレ以下になるような値が予め与えられる。例えば、この認識結果を不審行動検知に用いるといった応用を想定する場合、不審行動の発生時間を正確にする意義は薄く、不審行動を正確に検知することが重視される。このような場合は、前記所定フレーム数として例えば10秒といった長い時間に相当するフレーム数を設定可能である。また、前後の所定フレーム数は、訓練データに与える行動期間の訓練データの精度に基づいて自動で設定されることも可能である。一例として、行動期間の訓練データの精度が秒の粒度である場合には、このデータには最大±０．５秒の誤差が含まれていると推定されるので前後の所定のフレーム数には、前後０．５秒に相当する分のフレーム数の値が与えられる。

【0024】

類似度算出部１２は、２つの特徴量ベクトル列を用いて類似度行列２１を算出する。例えば、類似度算出部１２は、抽出部１１によって抽出された２つの特徴量ベクトル列のベクトル列間の類似度行列２１を算出する。

【0025】

ここで、抽出部１１が処理する抽出処理の一例を、図２を参照して説明する。図２は、実施例に係る抽出処理の一例を示す図である。図２に示すように、２つの訓練データＡ，Ｂが表されている。訓練データＡ，Ｂは、一例として、手を挙げるという動作を示す行動を含むデータである。訓練データＡは、ａ１～ａ１０のフレームからなる。訓練データＢは、ｂ１～ｂ１０のフレームからなる。訓練データＡのフレームａ６は、対象の行動の開始フレームとして予め設定される。すなわち、訓練データＡは、フレームａ６を開始フレームに設定された訓練データである。また、訓練データＢのフレームｂ６は、対象の行動の開始フレームとして予め設定される。すなわち、訓練データＢは、フレームｂ６を開始フレームに設定された訓練データである。

【0026】

抽出部１１は、訓練データＡ，Ｂに対して、予め設定された開始フレームを中心に前後の所定フレーム数分の特徴量ベクトル列を抽出する。ここでは、前後の所定フレーム数は、「５」であるとする。すると、抽出部１１は、訓練データＡに対して、開始フレームａ６を中心に前後の５フレーム分の特徴量ベクトル列を抽出する。また、抽出部１１は、訓練データＢに対して、監視フレームｂ６を中心に前後の５フレーム分の特徴量ベクトル列を抽出する。

【0027】

ここで、類似度算出部１２によって生成される類似度行列２１の一例を、図３を参照して説明する。図３は、実施例に係る類似度行列の一例を示す図である。図３に示すＸ＝｛ｘ_ｉｊ｝（ｉ，ｊ＝１～１０）は、例えば、図２で示した訓練データＡ，Ｂの類似度行列２１である。訓練データＡは、フレームａ_ｉ（ｉ＝１～１０）で構成される。訓練データＢは、フレームｂ_ｊ（ｊ＝１～１０）で構成される。一例として、ａ_１とｂ_１との類似度は、ｘ_１１である。ａ_１とｂ_２との類似度は、ｘ_１２である。類似度算出部１２は、２つの訓練データＡ，Ｂに対するそれぞれの特徴量ベクトル列のベクトル列間の１０行１０列の類似度行列２１を算出する。

【0028】

図１に戻って、対応関係算出部１３は、類似度行列２１を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出する。ＤＴＷは、動的時間伸縮法であり、時系列データの要素間の対応関係を算出する手法である。すなわち、対応関係算出部１３は、類似度行列２１を基に、ＤＴＷによってフレーム間の対応関係を算出する。なお、対応関係には、一方のフレームに他方の複数のフレームが対応する場合もある。例えば、対応関係算出部１３は、類似度行列２１を用いて、ＤＴＷにより、対応するフレーム間の類似度（特徴量ベクトル間の類似度）の合計が最も大きくなるような対応関係を算出する。そして、対応関係算出部１３は、算出された対応関係を対応関係情報２２に保存する。

【0029】

ここで、対応関係算出部１３が処理する対応関係算出処理の一例を、図４を参照して説明する。図４は、実施例に係る対応関係算出処理の一例を示す図である。なお、図２で示す訓練データＡ，Ｂに対して、対応関係算出処理を実施した場合について説明する。

【0030】

図４には、訓練データＡと訓練データＢとの、ＤＴＷによるフレーム間の対応関係が表されている。すなわち、対応関係算出部１３は、類似度行列２１を用いて、ＤＴＷにより、訓練データＡ，Ｂの対応するフレーム間の類似度（特徴量ベクトル間の類似度）の合計が最も大きくなるような対応関係を算出する。対応関係には、例えば、一方の訓練データＢにおけるフレームｂ３に、他方の訓練データＡにおけるフレームａ２，ａ３，ａ４がそれぞれ対応している。

【0031】

なお、フレームｂ３は、フレームａ２，ａ３，ａ４よりフレームａ９の方がより特徴量ベクトル間の類似度ｘ_９３が高いかもしれない。しかしながら、フレームｂ３とフレームａ９との対応関係が採用されると、フレームｂ３に後続するフレームｂ４については、ＤＴＷによりフレームａ９に後続するフレームａ１０からの対応となってしまい、対応するフレーム間の類似度の全体合計が最も大きくならない。そこで、対応関係算出部１３は、類似度行列２１を用いて、ＤＴＷによりフレーム間の類似度の合計が最も大きくなるようなフレーム間の対応を選択する。

【0032】

図１に戻って、修正部１４は、フレーム間の対応関係に基づいて、新たな境界フレームを設定された訓練データ２３を生成する。すなわち、修正部１４は、境界フレームの設定を修正する。例えば、修正部１４は、対応関係情報２２に基づいて、修正対象の２つの訓練データＡ，Ｂに対するそれぞれの境界フレームから以下の処理を開始する。修正部１４は、訓練データＡにおけるフレームと、訓練データＢにおけるフレームに対応する、訓練データＡにおけるフレームとを比較し、予め定められた前（早い方）か後（遅い方）かを示す時間方向のフレームを訓練データＡにおける境界フレームの候補とする（第１の処理）。また、修正部１４は、訓練データＢにおけるフレームと、訓練データＡにおける境界フレームの候補に対応する、訓練データＢにおけるフレームとを比較し、第１の処理で用いられた時間方向と同じ時間方向のフレームを訓練データＢにおける境界フレームの候補とする（第２の処理）。そして、修正部１４は、訓練データＡにおけるフレームが訓練データＢにおけるフレームに対応する、訓練データＡにおけるフレームと一致するか否かを判定する。そして、修正部１４は、一致しないと判定される場合には、第１の処理と第２の処理とを繰り返す。修正部１４は、一致すると判定される場合には、訓練データＡにおける境界フレームの候補を新たな境界フレームとした訓練データＡ（２３）を生成する。加えて、修正部１４は、訓練データＢにおける境界フレームの候補を新たな境界フレームとした訓練データＢ（２３）を生成する。

【0033】

これにより、修正部１４は、訓練データ２３を生成する際に、動画中の所定の行動を行っている境界フレームを、手間をかけず正確に指定できる。言い換えれば、修正部１４は、所定の行動について類似度が高い特徴量を持った２つのフレームに対して同じ分類ラベルを付与することができる。この結果、修正部１４は、ほとんど同じ特徴量を持った２つのフレームに対して異なる分類ラベルが付与されると、機械学習モデルは２つのフレームを区別するための情報として対象の行動とは全く関係のない些細な違いを採用してしまうことを避けることができる。

【0034】

なお、境界フレームの候補の選択は、例えば、以下の基準でなされても良い。境界フレームが開始フレームである場合には、前（早い方）のフレームを選択するという基準が採用できる。また、境界フレームが終了フレームである場合には、後（遅い方）のフレームを選択するという基準が採用できる。また、対応関係の類似度に基づき、新たな境界フレームの候補を選択するという基準も考えることができる。

【0035】

学習部１５は、新たな境界フレームを設定された訓練データ２３を機械学習モデルに、入力することで、所定の行動の発生を判定する機械学習モデルを学習する。

【0036】

ここで、修正部１４が処理する修正処理の一例を、図５Ａ～図５Ｄを参照して説明する。図５Ａ～図５Ｄは、実施例に係る修正処理の一例を示す図である。なお、図５Ａ～図５Ｄでは、境界フレームが開始フレームの場合を説明する。また、境界フレームの候補の選択は、時間方向として前（早い方）のフレームを選択するという基準が採用されるとする。また、図５Ａ～図５Ｄで示す片側の矢印は、境界フレームの候補を表す。

【0037】

図５Ａに示すように、修正部１４は、対応関係情報２２に基づいて、２つの訓練データＡ，Ｂに対するそれぞれの境界フレームａ６，ｂ６から処理を開始する。図５Ａでは、予め設定された境界フレームａ６の上部、フレームｂ６の下部に、境界フレームの候補であるとして片側の矢印が付けられている。修正部１４は、訓練データＡにおけるフレームａ６と、訓練データＢにおけるフレームｂ６に対応する、訓練データＡにおけるフレームａ９とを比較する。そして、修正部１４は、前のフレームａ６を訓練データＡにおける境界フレームの候補とする（第１の処理）。

【0038】

次に、図５Ｂでは、フレームａ６の上部、フレームｂ６の下部に境界フレームの候補であるとして片側の矢印が付けられている。図５Ｂに示すように、修正部１４は、訓練データＢにおけるフレームｂ６と、訓練データＡにおける境界フレームの候補ａ６に対応する、訓練データＢにおけるフレームｂ４とを比較する。そして、修正部１４は、前のフレームｂ４を訓練データＢにおける境界フレームの候補とする（第２の処理）。

【0039】

次に、図５Ｃでは、フレームａ６の上部、フレームｂ４の下部に境界フレームの候補であるとして片側の矢印が付けられている。図５Ｃに示すように、修正部１４は、訓練データＡにおけるフレームａ６が訓練データＢにおけるフレームｂ４に対応する、訓練データＡにおけるフレームと一致するか否かを判定する。ここでは、フレームｂ４に対応する、訓練データＡにおけるフレームは、フレームａ５，ａ６の２つ存在する。すなわち、訓練データＡにおけるフレームａ６が訓練データＢにおけるフレームｂ４に対応するフレームと一致しない。そこで、修正部１４は、一致しないと判定される場合には、第１の処理を繰り返す。

【0040】

そして、修正部１４は、第１の処理を行う。すなわち、修正部１４は、訓練データＡにおけるフレームａ６と、訓練データＢにおけるフレームｂ４に対応する、訓練データＡにおけるフレームとを比較する。フレームｂ４に対応する、訓練データＡにおけるフレームは、フレームａ５，ａ６の２つ存在する。そこで、修正部１４は、前のフレームａ５を訓練データＡにおける境界フレームの候補とする（第１の処理）。

【0041】

次に、図５Ｄでは、フレームａ５の上部、フレームｂ４の下部に境界フレームの候補であるとして片側の矢印が付けられている。図５Ｄに示すように、修正部１４は、訓練データＢにおけるフレームｂ４が訓練データＡにおけるフレームａ５に対応する、訓練データＢにおけるフレームと一致するか否かを判定する。ここでは、フレームｂ４が、フレームａ５に対応するフレームと一致する。そこで、修正部１４は、訓練データＡにおける境界フレームの候補ａ５を新たな境界フレームとした訓練データＡを生成する。加えて、修正部１４は、訓練データＢにおける境界フレームの候補ｂ４を新たな境界フレームとした訓練データＢを生成する。

【0042】

【0043】

図５Ａ～図５Ｄでは、修正部１４は、２つの修正対象の訓練データに対して、新たな境界フレームを設定された訓練データ２３を生成する場合を説明した。しかしながら、修正部１４は、２つの修正対象の訓練データに限定されず、３つ以上の修正対象の訓練データに対して、新たな境界フレームを設定された訓練データ２３を生成する場合であっても良い。かかる場合には、類似度算出部１２は、修正対象の全ての訓練データの組に対して、２つの特徴量ベクトル列を用いて類似度行列２１を算出する。そして、対応関係算出部１３は、全ての訓練データの組に対して、類似度行列２１を用いたＤＴＷによりフレーム間の対応関係を算出する。そして、修正部１４は、全ての訓練データの組に対して、組ごとのフレーム間の対応関係を用いて、新たな境界フレームを設定された訓練データを生成（修正）する。そして、修正部１４は、修正対象の訓練データの組がなくなるまで、すなわち、全ての訓練データで境界フレームの修正がなくなるまで、訓練データの組に対して修正処理を繰り返す。そして、修正部１４は、修正対象の訓練データの組がなくなると、新たな境界フレームをそれぞれ設定された訓練データ２３を生成できる。

【0044】

なお、この実施例では特に対応関係の選別は行っていないが、所定の閾値を設定し、この値以上の類似度を持つ対応関係のみを用いて上記の処理を行っても良い。このような対応関係の選別処理を設ける事で、処理速度の向上が図れると共に、境界フレームの更新処理を必要最小限に抑える事ができる。

【0045】

図６は、訓練データが３つの場合の訓練データ生成処理の一例を示す図である。図６では、境界フレームが開始フレームの場合を説明する。また、境界フレームの候補の選択は、時間方向として前（早い方）のフレームを選択するという基準が採用されている。

【0046】

図６に示すように、例えば、修正部１４は、訓練データＢおよび訓練データＣの組に対して、当該組のフレーム間の対応関係を用いて、開始フレームの修正を実施する。次に、修正部１４は、訓練データＡおよび訓練データＢの組に対して、修正された開始フレームから、当該組のフレーム間の対応関係を用いて、開始フレームの修正を実施する。さらに、修正部１４は、訓練データＡおよび訓練データＣの組に対して、修正された開始フレームから、当該組のフレーム間の対応関係を用いて、開始フレームの修正を実施する。そして、修正部１４は、修正対象の訓練データの組がなくなるまで、修正処理を繰り返す。そして、修正部１４は、修正対象の訓練データの組がなくなると、新たな開始フレームをそれぞれ設定された訓練データ２３を生成できる。

【0047】

図７は、実施例に係る訓練データ生成処理のフローチャートの一例を示す図である。なお、図７では、抽出部１１が、所定の行動が撮像された複数の修正対象の訓練データを取得したものとする。

【0048】

図７に示すように、抽出部１１は、対象のフレーム列を抽出する（ステップＳ１０）。例えば、抽出部１１は、所定の行動が撮像された複数の修正対象の訓練データに対して、予め設定された境界フレームを中心に前後の所定フレーム数分の特徴量ベクトル列を抽出する。

【0049】

そして、類似度算出部１２は、フレーム列の全組ごとに、類似度行列２１を算出する（ステップＳ２０）。例えば、類似度算出部１２は、フレーム列の全組ごとに、各組の２つの特徴量ベクトル列のベクトル列間の類似度行列２１を算出する。

【0050】

そして、対応関係算出部１３は、フレーム列の全組ごとに、フレーム間の対応関係を算出する（ステップＳ３０）。例えば、対応関係算出部１３は、フレーム列の全組ごとに、類似度行列２１を用いたＤＴＷによりフレーム間の対応関係を算出する。

【0051】

そして、修正部１４は、修正処理の対象とするフレーム列の組を選択する（ステップＳ４０）。修正部１４は、修正処理の対象とするフレーム列の組を選択できたか否かを判定する（ステップＳ５０）。修正処理の対象とするフレーム列の組を選択できたと判定した場合には（ステップＳ５０；Ｙｅｓ）、修正部１４は、選択できたフレーム列の組について修正処理を適用する（ステップＳ６０）。例えば、修正部１４は、選択できたフレーム列の組に対するフレーム間の対応関係に基づいて、新たな境界フレームを設定された訓練データ２３を生成する。そして、修正部１４は、次の組を選択すべく、ステップＳ４０に移行する。

【0052】

一方、修正処理の対象とするフレーム列の組を選択できないと判定した場合には（ステップＳ５０；Ｎｏ）、修正部１４は、修正処理を終了する。すなわち、修正部１４は、修正処理の対象とするフレーム列の組がなくなると、すなわち、全てのフレーム列で境界フレームの修正がなくなると、新たな境界フレームをそれぞれ設定された訓練データ２３を生成できたことになり、修正処理を終了する。

【0053】

［実施例の効果］
上記実施例によれば、情報処理装置１は、所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出する。情報処理装置１は、該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列２１を算出する。情報処理装置１は、該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係情報２２を算出する。そして、情報処理装置１は、該算出した対応関係情報２２に基づいて、新たな境界フレームを設定された訓練データ２３を生成する。かかる構成によれば、情報処理装置１は、訓練データ２３を生成する際に、動画中の所定の行動を行っている境界フレームを、手間をかけず正確に指定できる。

【0054】

また、上記実施例によれば、情報処理装置１は、第１の訓練データと第２の訓練データとを示す２つの訓練データに対するそれぞれの予め設定された境界フレームから開始し、対応関係情報２２に基づいて、第１の訓練データにおけるフレームと、第２の訓練データにおけるフレームに対応する、第１の訓練データにおけるフレームとを比較し、予め定められた前か後かを示す時間方向のフレームを第１の訓練データにおける境界フレームの候補とする第１の処理を実行する。情報処理装置１は、対応関係情報２２に基づいて、第２の訓練データにおけるフレームと、第１の訓練データにおける境界フレームの候補に対応する、第２の訓練データにおけるフレームとを比較し、第１の処理と同じ時間方向のフレームを前記第２の訓練データにおける境界フレームの候補とする第２の処理を実行する。情報処理装置１は、対応関係情報２２に基づいて、第１の訓練データにおけるフレームが第２の訓練データにおけるフレームに対応する、第１の訓練データにおけるフレームと一致しない場合には、第１の処理および第２の処理とを繰り返す。そして、情報処理装置１は、第１の訓練データにおけるフレームが第２の訓練データにおけるフレームに対応する、第１の訓練データにおけるフレームと一致する場合には、第１の訓練データにおける境界フレームの候補を新たな境界フレームとした第１の訓練データを生成し、第２の訓練データにおける境界フレームの候補を新たな境界フレームとした第２の訓練データを生成する。かかる構成によれば、情報処理装置１は、２つの訓練データの対応するフレーム同士をそれぞれの新たな境界フレームとすることで、適切な訓練データ２３を生成できる。

【0055】

また、かかる構成によれば、情報処理装置１は、さらに、新たな境界フレームを設定された訓練データを入力することで、前記所定の行動の発生を判定する機械学習モデルを学習する。かかる構成によれば、情報処理装置１は、適切な機械学習モデルを生成できる。

【0056】

また、情報処理装置１によって抽出される特徴量ベクトル列は、フレームごとの骨格情報から生成される。これにより、情報処理装置１は、フレーム全体の特徴量を抽出する場合と比較して、動画中の所定の行動に特化した特徴量を抽出できるので、動画中の所定の行動を行っている境界フレームを正確に指定できる。

【0057】

［その他］
なお、上記実施例では、図示した情報処理装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、抽出部１１と類似度算出部１２とを１つの機能部に統合しても良い。また、記憶部２０を情報処理装置１の外部装置としてネットワーク経由で接続するようにしても良い。さらに、制御部１０および記憶部２０をクラウド上に置き、利用者は端末などからネットワークを介して当該クラウドに接続して、制御部１０により実行される処理を利用することも可能である。このようにすることで、本発明の処理をサービスとして提供することができるようになる。

【0058】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した情報処理装置１と同様の機能を実現する訓練データ生成プログラムを実行するコンピュータの一例を説明する。図８は、訓練データ生成プログラムを実行するコンピュータの一例を示す図である。

【0059】

図８に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ（Central Processing Unit）２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信Ｉ／Ｆ（Interface）２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示装置２０９、ドライブ装置２１３、入力装置２１５、通信Ｉ／Ｆ２１７は、バス２１９で接続されている。

【0060】

ドライブ装置２１３は、例えばリムーバブルディスク２１１用の装置である。ＨＤＤ２０５は、訓練データ生成プログラム２０５ａおよび訓練データ生成処理関連情報２０５ｂを記憶する。通信Ｉ／Ｆ２１７は、ネットワークと装置内部とのインターフェースを司り、他のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ２１７には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

【0061】

表示装置２０９は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。表示装置２０９は、例えば、液晶ディスプレイや有機ＥＬ（Electroluminescence）ディスプレイなどを採用することができる。

【0062】

ＣＰＵ２０３は、訓練データ生成プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは情報処理装置１の各機能部に対応する。訓練データ生成処理関連情報２０５ｂには、例えば、類似度行列２１、対応関係情報２２および訓練データ２３が含まれる。そして、例えばリムーバブルディスク２１１が、訓練データ生成プログラム２０５ａなどの各情報を記憶する。

【0063】

なお、訓練データ生成プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから訓練データ生成プログラム２０５ａを読み出して実行するようにしても良い。

【0064】

また、上記実施例で説明した情報処理装置１が行う訓練データ生成処理は、例えば、動画を入力して所定行動の発生を判定する分類器を生成する際、所定行動を行っている開始・終了フレームを指定した訓練データの生成に適用することができる。

【0065】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0066】

（付記１）所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出し、
該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出し、
該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出し、
該算出した対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する
処理をコンピュータに実行させる訓練データ生成プログラム。

【0067】

（付記２）該生成する処理は、第１の訓練データと第２の訓練データとを示す２つの訓練データに対するそれぞれの前記予め設定された境界フレームから開始し、前記対応関係に基づいて、前記第１の訓練データにおけるフレームと、前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームとを比較し、予め定められた前か後かを示す時間方向のフレームを前記第１の訓練データにおける境界フレームの候補とする第１の処理と、
前記対応関係に基づいて、前記第２の訓練データにおけるフレームと、前記第１の訓練データにおける前記境界フレームの候補に対応する、前記第２の訓練データにおけるフレームとを比較し、前記時間方向のフレームを前記第２の訓練データにおける境界フレームの候補とする第２の処理と、
前記対応関係に基づいて、前記第１の訓練データにおけるフレームが前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームと一致しない場合には、前記第１の処理および前記第２の処理とを繰り返し、
前記第１の訓練データにおけるフレームが前記第２の訓練データにおけるフレームに対応する、前記第１の訓練データにおけるフレームと一致する場合には、前記第１の訓練データにおける境界フレームの候補を新たな境界フレームとした前記第１の訓練データを生成し、前記第２の訓練データにおける境界フレームの候補を新たな境界フレームとした前記第２の訓練データを生成する
ことを特徴とする付記１に記載の訓練データ生成プログラム。

【0068】

（付記３）さらに、新たな境界フレームを設定された訓練データを入力することで、前記所定の行動の発生を判定する機械学習モデルを学習する
ことを特徴とする付記１に記載の訓練データ生成プログラム。

【0069】

（付記４）前記特徴量ベクトル列は、フレームごとの骨格情報から生成される
ことを特徴とする付記１に記載の訓練データ生成プログラム。

【0070】

（付記５）所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出する抽出部と、
前記抽出部によって抽出された２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出する第１の算出部と、
前記第１の算出部によって算出された類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出する第２の算出部と、
前記第２の算出部によって算出された対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する生成部と、
を有することを特徴とする情報処理装置。

【0071】

（付記６）さらに、新たな境界フレームを設定された訓練データを入力することで、前記所定の行動の発生を判定する機械学習モデルを学習する学習部
を有することを特徴とする付記５に記載の情報処理装置。

【0072】

（付記７）所定の行動が撮像された２つの訓練データに対して、予め設定された所定の境界フレームを含む所定フレーム数分の前後フレームの特徴量ベクトル列を抽出し、
該抽出した２つの特徴量ベクトル列を用いて特徴量ベクトル列間の類似度行列を算出し、
該算出した類似度行列を用いたＤＴＷ（Dynamic Time Warping）によりフレーム間の対応関係を算出し、
該算出した対応関係に基づいて、新たな境界フレームを設定された訓練データを生成する
処理をコンピュータが実行する訓練データ生成方法。

【符号の説明】

【0073】

１情報処理装置
１０制御部
１１抽出部
１２類似度算出部
１３対応関係算出部
１４修正部
１５学習部
２０記憶部
２１類似度行列
２２対応関係情報
２３訓練データ

【図1】