(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022168632
(43)【公開日】2022-11-08
(54)【発明の名称】学習データ生成装置、学習データ生成方法、および学習データ生成プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221031BHJP
G06T 7/254 20170101ALI20221031BHJP
G06N 20/00 20190101ALI20221031BHJP
【FI】
G06T7/00 350B
G06T7/254 A
G06N20/00
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2021074232
(22)【出願日】2021-04-26
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】谷 洸明
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA59
5L096GA08
5L096GA51
5L096JA11
5L096KA04
(57)【要約】
【課題】対象の行動認識用の効果的な学習データを提供する。
【解決手段】学習データ生成装置10Aは、取得部12Aと、注目度導出部12Bと、選択部12Cと、を備える。取得部12Aは、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部12Bは、学習済モデル12B1を用いて、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部12Cは、注目度に基づいて、時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する取得部と、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する注目度導出部と、
前記注目度に基づいて、前記時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する選択部と、
を備える学習データ生成装置。
【請求項2】
前記選択部は、
前記注目度の大きさ、および、時系列に連続する前記フレーム間の前記注目度の変化量の少なくとも一方に基づいて、前記時系列データに含まれる1または複数のフレームを前記学習用フレームとして選択する、
請求項1に記載の学習データ生成装置。
【請求項3】
前記選択部は、
前記注目度の大きさが高い順に予め定めた数のフレーム、
前記注目度の大きさが高い順に予め定め割合のフレーム、
前記注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレーム、
前記注目度の前記変化量が閾値以上のフレーム、
および、
前記注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレーム、
の何れか1つの条件を満たすフレームを前記学習用フレームとして選択する、
請求項2に記載の学習データ生成装置。
【請求項4】
前記選択部は、
前記学習用フレームに、前記学習済モデルから導出される該学習用フレームに対応する行動ラベルを付与する、
請求項1~請求項3の何れか1項に記載の学習データ生成装置。
【請求項5】
前記学習済モデルは、
前記時系列データまたは前記時系列データとは異なる他の時系列データを用いて予め学習された、学習モデルである、
請求項1~請求項4の何れか1項に記載の学習データ生成装置。
【請求項6】
フレームと、該フレームの前記注目度と、を含む表示画面を表示部に表示する表示制御部と、
フレームの選択を受付ける受付部と、
を備え、
前記選択部は、受付けたフレームを前記学習用フレームとして選択する、
請求項1~請求項5の何れか1項に記載の学習データ生成装置。
【請求項7】
前記受付部は、
フレームに付与する行動ラベルの入力を受付け、
前記選択部は、
選択を受付けたフレームに入力を受付けた前記行動ラベルを付与する、
請求項6に記載の学習データ生成装置。
【請求項8】
前記注目度導出部は、
前記学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの時間軸方向の特徴量である前記注目度を導出する、
請求項6または請求項7に記載の学習データ生成装置。
【請求項9】
前記表示制御部は、
フレームと、該フレームに含まれる前記対象の前記注目度と、を含む前記表示画面を前記表示部に表示する、
請求項8に記載の学習データ生成装置。
【請求項10】
前記表示制御部は、
フレームと、該フレームに含まれる前記対象の前記注目度と、前記対象の行動の大きさ情報と、を含む前記表示画面を前記表示部に表示する、
請求項8または請求項9に記載の学習データ生成装置。
【請求項11】
前記表示制御部は、
フレームと、該フレームに含まれる前記対象の特徴量に類似する予め記憶された記憶特徴量に対応する行動ラベルの画像と、を含む前記表示画面を前記表示部に表示する、
請求項8~請求項10の何れか1項に記載の学習データ生成装置。
【請求項12】
前記学習用フレームを出力する出力制御部、をさらに備える、
請求項1~請求項11の何れか1項に記載の学習データ生成装置。
【請求項13】
前記出力制御部は、
前記学習用フレームと、行動ラベルおよび該学習用フレームから導出される付加情報の少なくとも一方と、を対応付けて出力する、
請求項12に記載の学習データ生成装置。
【請求項14】
前記時系列データは、
画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、前記対象の関節位置を表す骨格情報の時系列データ、および、前記対象の加速度の時系列データ、の少なくとも1つである、
請求項1~請求項13の何れか1項に記載の学習データ生成装置。
【請求項15】
前記対象は、移動体である
請求項1~請求項14の何れか1項に記載の学習データ生成装置。
【請求項16】
対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得し、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出し、
前記注目度に基づいて、前記時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する、
学習データ生成方法。
【請求項17】
対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得するステップと、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出するステップと、
前記注目度に基づいて、前記時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択するステップと、
をコンピュータに実行させるための学習データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施の形態は、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムに関する。
【背景技術】
【0002】
人物などの対象の行動認識に関する学習モデルの生成が行われている。例えば、時系列データを構成する複数のフレームの内、物体検出により検出した対象を含むフレームを、学習データとして用いる事が行われている。
【0003】
しかし、従来技術では、対象の行動に拘わらず、単に対象を含むフレームが選択されていた。このため、従来技術では、対象の行動認識用の効果的な学習データが提供されていなかった。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data [Sijie et al. AAAI 2017]
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、上記に鑑みてなされたものであって、対象の行動認識用の効果的な学習データを提供することができる、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
実施の形態の学習データ生成装置は、取得部と、注目度導出部と、選択部と、を備える。取得部は、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部は、学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部は、前記注目度に基づいて、前記時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する。
【図面の簡単な説明】
【0008】
【
図5】学習データ生成装置で実行する情報処理のフローチャート。
【
図9】学習データ生成装置で実行する情報処理のフローチャート。
【
図14】学習データ生成装置で実行する情報処理のフローチャート。
【
図18】学習データ生成装置で実行する情報処理のフローチャート。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムを詳細に説明する。
【0010】
(第1の実施の形態)
図1は、本実施の形態の学習データ生成装置10Aの構成の一例を示すブロック図である。
【0011】
学習データ生成装置10Aは、学習データ生成装置10の一例である。学習データ生成装置10は、学習データを生成する情報処理装置である。
【0012】
学習データは、対象の行動認識に関する学習モデルの学習に用いられるデータである。
【0013】
対象とは、行動認識の対象となる物である。対象は、具体的には、移動体である。移動体とは、移動する物である。移動体は、例えば、人物、動物、自動車、船舶、ロボット、ドローンなどである。本実施形態では、対象が人物である場合を一例として説明する。
【0014】
行動とは、対象の動きである。行動認識とは、対象の行動を認識することを意味する。
【0015】
対象の行動認識に関する学習モデルは、フレームを入力とし、対象の行動認識に関する情報を出力とする、学習モデルである。学習モデルは、CNN(Convolutional Neural Network)、GCN(Graph Convolutional Network)、またはRNN(Recurrent Neural Network)などのニューラルネットワークで構成される深層学習モデルである。
【0016】
フレームとは、対象に関する情報である。フレームの詳細は後述する。対象の行動認識に関する情報は、例えば、フレームの特徴量、フレームに含まれる対象の特徴量、特徴量を用いて複数のフレームをクラス分類したクラス分類結果およびクラスラベル、などである。クラス分類結果およびクラスラベルを出力する学習モデルは、クラス分類器と称される場合がある。
【0017】
学習データ生成装置10Aは、学習用フレームを生成する。学習用フレームは、学習モデルの学習に用いる学習データとして選択されたフレームである。
【0018】
学習データ生成装置10Aは、制御部12と、通信部14と、記憶部16と、入力部18と、表示部20と、を備える。制御部12と、通信部14、記憶部16、入力部18、および表示部20とは、バス22を介して通信可能に接続されている。
【0019】
通信部14は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。
【0020】
記憶部16は、各種のデータを記憶する。記憶部16は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部16は、学習データ生成装置10Aの外部に設けられた記憶装置であってもよい。また、記憶部16は、プログラムや各種の情報を、LAN(Local Area Network)やインターネットなどを介してダウンロードして記憶または一時記憶した記憶媒体であってもよい。
【0021】
入力部18は、ユーザによる各種の操作を受付ける。入力部18は、例えば、キーボード、マウス、ポインティングデバイス、マイクロフォン、などである。
【0022】
表示部20は、各種の情報を表示する。表示部20は、例えば、ディスプレイ、投影装置、などである。表示部20と入力部18とを一体的に構成し、タッチパネルとして構成してもよい。
【0023】
記憶部16および制御部12の少なくとも一方を、ネットワークおよび通信部14を介して接続されたサーバ装置などの外部の情報処理装置に搭載した構成としてもよい。また、制御部12に含まれる後述する機能部の少なくとも1つを、ネットワークおよび通信部14を介して制御部12に接続された、サーバ装置などの外部の情報処理装置に搭載してもよい。
【0024】
次に、制御部12について詳細に説明する。制御部12は、学習データ生成装置10Aにおいて各種の情報処理を実行する。
【0025】
制御部12は、取得部12Aと、注目度導出部12Bと、選択部12Cと、出力制御部12Dと、を備える。
【0026】
取得部12A、注目度導出部12B、選択部12C、および出力制御部12Dは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0027】
取得部12Aは、時系列データを取得する。取得部12Aは、対象を検出するセンサから時系列データを取得する。センサは、例えば、撮影装置、加速度計、などのセンシングデバイスである。取得部12Aは、記憶部16から時系列データを取得してもよい。また、取得部12Aは、通信部14を介して外部の情報処理装置などから時系列データを取得してもよい。
【0028】
時系列データとは、時系列に連続する複数のフレームを含むデータである。時系列データは、例えば、画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、対象の関節位置を表す骨格情報の時系列データ、および、対象の加速度の時系列データ、の少なくとも1つである。上述したように、フレームとは、対象に関する情報である。具体的には、フレームは、対象を含む静止画像、対象の骨格情報、対象の加速度、などである。
【0029】
画像の時系列データは、例えば、動画像データである。時系列データが動画像データである場合、例えば、取得部12Aは、動画像を撮影する撮影装置から時系列データを取得する。動画像データを時系列データとして取得する場合、取得部12Aは、静止画像、または静止画像に含まれる対象ごとの対象領域をフレームとする時系列データを取得する。例えば、外部の情報処理装置は、静止画像に含まれる対象を物体検出および一般物体追跡などの検出技術を用いて検出し、検出した対象の領域である対象領域をフレームとする時系列列データを生成する。対象領域は、例えば、静止画像における対象の、位置、大きさ、および範囲などによって表される。取得部12Aは、情報処理装置から時系列データを取得すればよい。
【0030】
骨格情報または加速度の時系列データを取得する場合、取得部12Aは、対象の骨格情報または対象の加速度をフレームとする時系列データを取得する。例えば、外部の情報処理装置は、静止画像に含まれる対象の骨格情報を公知の画像処理技術を用いて抽出し、抽出した骨格情報をフレームとする時系列データ生成する。また、例えば、外部の情報処理装置は、静止画像に含まれる対象の加速度を公知の画像処理技術等を用いて検出し、検出した対象の加速度をフレームとする時系列データを生成する。取得部12Aは、これらの情報処理装置から時系列データを取得すればよい。
【0031】
なお、取得部12Aが、静止画像に含まれる対象領域を物体検出および一般物体追跡などの検出技術を用いて検出することで、対象領域をフレームとする時系列データを取得してもよい。また、取得部12Aが、静止画像に含まれる対象の骨格情報または対象の加速度を公知の画像処理技術を用いて抽出することで、対象の骨格情報または加速度をフレームとする時系列データを取得してもよい。
【0032】
注目度導出部12Bは、学習済モデルを用いて、取得部12Aで取得した時系列データに含まれる複数のフレームの各々の注目度を導出する。
【0033】
注目度とは、フレームの時間軸方向の特徴量である。このため、注目度は、フレームに含まれる対象が行動しているらしいほど大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。
【0034】
なお、注目度は、フレームに含まれる対象の時間軸方向の特徴量であってもよい。本実施形態では、注目度が、フレームの時間軸方向の特徴量である形態を一例として説明する。
【0035】
学習済モデルとは、フレームを入力とし、対象の行動認識に関する情報を出力とする、学習済の学習モデルである。学習済モデルは、CNN、GCN、またはRNNなどのニューラルネットワークで構成される深層学習モデルである。学習済モデルは、学習用フレームを学習データとして用いる上記学習モデルと同じモデルであってもよいし、異なるモデルであってもよい。
【0036】
学習済モデルのパラメータは、KineticsやNTU RGB+Dなどの行動認識向けの学習データを用いて事前に学習したものを使用する。学習済モデルが事前学習に使用する時系列データは、取得部12Aが取得する時系列データであってもよいし、該時系列データとは異なる時系列データであってもよい。すなわち、学習済モデルは、取得部12Aで取得する時系列データまたは該時系列データとは異なる他の時系列データを用いて予め学習された、学習モデルである。
【0037】
学習済モデルから出力される対象の行動認識に関する情報は、フレームの特徴量、フレームに含まれる対象の特徴量、特徴量を用いて複数のフレームをクラス分類したクラス分類結果および行動ラベル、などである。行動ラベルは、行動のクラスに付与されるクラスラベルである。行動ラベルは、フレームに含まれる対象の行動を表す情報などである。具体的には、例えば、行動ラベルは、対象が様々な方向に動き回ることを表す「うろうろ」、対象の視線が揺れ動くことを表す「きょろきょろ」、などであるが、これらに限定されない。
【0038】
図2は、注目度導出部12Bの機能的構成の一例のブロック図である。注目度導出部12Bは、学習済モデル12B1とプーリング処理部12B2とを含む。
【0039】
注目度導出部12Bは、時系列データを学習済モデル12B1へ入力することで、学習済モデル12B1からフレームごとの特徴量を導出する。注目度導出部12Bは、学習済モデル12B1から導出した特徴量における時間軸方向のベクトル値を、注目度として導出する。
【0040】
図3は、注目度導出部12Bによる注目度導出の一例の説明図である。例えば、学習済モデル12B1が、時系列データを入力とし、フレームのクラス分類結果および行動ラベルを出力とするモデルである場合を想定して説明する。すなわち、学習済モデル12B1がクラス分類器である場合を想定する。注目度導出部12Bは、学習済モデル12B1へ時系列データを入力する。学習済モデル12B1は、結果出力の過程でフレームごとの特徴量を算出する。注目度導出部12Bは、この特徴量を取得する。
【0041】
詳細には、例えば、学習済モデル12B1は、公知の畳み込み演算の繰返しなどにより、時系列データのフレームの各々から複数のテンソルを導出する。注目度導出部12Bは、学習済モデル12B1が結果を出力する最終層より前の層から単数あるいは複数のテンソルをフレームごとに抽出する。そして、注目度導出部12Bは、フレームごとに抽出した1または複数のテンソルから、フレームの特徴量を導出する。1つのフレームに対して複数のテンソルを抽出した場合には、注目度導出部12Bは、抽出した複数のテンソルの足し合わせなどの統合処理を行った後に、フレームの特徴量を導出する。
【0042】
導出された特徴量は、多次元ベクトルで表される。例えば、
図3に示すように、フレームの特徴量(
図3中、符号FV参照)は、時間、高さ、横幅、の多次元ベクトルで表される。
【0043】
プーリング処理部12B2は、多次元ベクトルで表される特徴量を、1次元のベクトルに変換することで、注目度を導出する。詳細には、プーリング処理部12B2は、プーリング処理を行うことで、多次元ベクトルで表される特徴量を、時間軸方向のみの一次元の特徴量である注目度(
図3中、符号D参照)に変換する。すなわち、プーリング処理部12B2は、時間軸方向以外の次元の特徴量を除去することで、時間軸方向の一次元の特徴量である注目度を導出する。プーリング処理には、除去する次元に沿って平均値をとるGlobal Average Pooling、最大値をとるMax Poolingなどを適用すればよい。時間軸方向の特徴量である注目度は、フレームに含まれる対象が行動しているらしいほど大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。
【0044】
図1に戻り説明を続ける。選択部12Cは、注目度導出部12Bで導出された注目度に基づいて、時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する。
【0045】
詳細には、選択部12Cは、注目度の大きさ、および、時系列に連続するフレーム間の注目度の変化量の少なくとも一方に基づいて、時系列データに含まれる1または複数のフレームを学習用フレームとして選択する。
【0046】
具体的には、選択部12Cは、注目度の大きさが高い順に予め定めた数のフレーム、注目度の大きさが高い順に予め定め割合のフレーム、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレーム、注目度の変化量が閾値以上のフレーム、および、注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレーム、の何れか1つの条件を満たすフレームを学習用フレームとして選択する。
【0047】
学習用フレームとして選択する条件は、予め設定すればよい。選択する条件は、例えば、ユーザによる入力部18の操作指示等により適宜変更可能とすればよい。
【0048】
図4A~
図4Dは、選択部12Cによる学習用フレームの選択の一例の説明図である。
図4A~
図4D中、横軸はフレーム番号を示す。縦軸は注目度を示す。フレーム番号は、時系列データを構成する複数のフレームを時系列順に並べたときに、連続する番号となるように付与される数値である。なお、フレーム番号は、フレームを一意に識別可能な情報であればよい。本実施形態では、フレーム番号が、時系列順に連続する番号である形態を一例として説明する。
【0049】
図4Aは、注目度の大きさが高い順に予め定めた数のフレームを選択する場合の一例の説明図である。例えば、選択部12Cは、時系列データに含まれる複数のフレームの内、注目度の大きい順に上位A個のフレームを学習用フレームとして選択する。Aは、1以上の整数であり、且つ、時系列データに含まれるフレームの数未満の数値である。
【0050】
図4Bは、注目度の大きさが高い順に予め定め割合のフレームを選択する場合の一例の説明図である。例えば、選択部12Cは、時系列データに含まれる複数のフレームの各々の注目度を、複数のフレームの注目度の内の最大値で除算する。この除算によって、選択部12Cは、時系列データに含まれる複数のフレームの各々の注目度を正規化する。そして、選択部12Cは、時系列データに含まれる複数のフレームの内、正規化した注目度がB%以上のフレームを、学習用フレームとして選択する。なお、Bは、0より大きく100未満の実数である。
【0051】
図4Cは、注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレームを選択する場合の一例の説明図である。例えば、選択部12Cは、時系列データに含まれる複数のフレームの内、注目度が極大となる1つのフレーム、または、該フレームの前後に連続するC個のフレームを学習用フレームとして選択する。前後に連続する、とは、時系列方向の上流側および下流側に連続することを意味する。Cは、1以上の整数であり、且つ、時系列データに含まれるフレームの数から1を減算した数未満の数値である。
【0052】
図4Dは、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレームを選択する場合の一例の説明図である。例えば、選択部12Cは、時系列データに含まれる複数のフレームの内、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレームを学習用フレームとして選択する。変化点は、二階微分から算出される変曲点、または、一階微分から算出される傾きが閾値以上になった点、とすればよい。
【0053】
なお、選択部12Cは、時系列データに含まれる複数のフレームの内、注目度の変化量が閾値以上のフレームを、学習用フレームとして選択してもよい。閾値は、予め設定すればよい。また、閾値は、ユーザによる入力部18の操作指示などによって変更可能としてもよい。
【0054】
なお、選択部12Cは、複数のフレームを学習用フレームとして選択する場合、時系列に連続する複数のフレームを選択してもよいし、上記条件の何れかを満たす隣接しない間欠な複数のフレームを選択してもよい。
【0055】
図1に戻り説明を続ける。選択部12Cは、選択した学習用フレームを出力制御部12Dへ出力する。
【0056】
なお、選択部12Cは、選択した学習用フレームに、行動ラベルを付与してもよい。例えば、注目度導出部12Bで用いる学習済モデル12B1が、時系列データを入力とし、フレームのクラス分類結果および行動ラベルを出力とするクラス分類器である場合を想定する。この場合、選択部12Cは、選択した学習用フレームに、学習済モデル12B1から導出された該学習用フレームに対応する行動ラベルを付与すればよい。または、予め時系列データに準備されている行動ラベルを付与してもよい。
【0057】
この場合、ユーザによる操作を介することなく、自動的に学習用フレームに行動ラベルを付与することができる。
【0058】
出力制御部12Dは、選択部12Cから受付けた学習用フレームを出力する。出力とは、記憶部16への記憶、注目度導出部12Bへの出力、および、通信部14を介して外部の情報処理装置への送信、の少なくとも1つを意味する。
【0059】
例えば、出力制御部12Dは、学習用フレームを学習データとして記憶部16へ記憶する。記憶部16へ記憶された学習用フレームは、例えば、対象の行動認識用の学習モデルの学習、時系列データの代表画像、などに用いられる。代表画像は、サムネイルと称される場合がある。
【0060】
また、出力制御部12Dは、学習用フレームを、通信部14を介して外部の情報処理装置へ送信してもよい。また、出力制御部12Dは、学習用フレームを、注目度導出部12Bへ出力してもよい。この場合、注目度導出部12Bは、出力制御部12Dから受付けた学習用フレームを学習データとして用いて、学習済モデル12B1を更に学習してもよい。
【0061】
なお、出力制御部12Dは、選択部12Cから学習用フレームと行動ラベルとを受付けた場合、学習用フレームと行動ラベルとを対応付けて出力すればよい。
【0062】
また、出力制御部12Dは、学習用フレームと、行動ラベルおよび該学習用フレームから導出される付加情報の少なくとも一方と、を対応付けて出力してもよい。付加情報とは、学習用フレームに関する情報である。例えば、付加情報は、学習用フレームに含まれる、対象の対象領域を表す情報、対象の骨格情報、対象の加速度、などである。出力制御部12Dは、取得部12Aからこれらの付加情報を取得し、学習用フレームに対応付けて出力すればよい。
【0063】
次に、本実施形態の学習データ生成装置10Aで実行する情報処理の一例を説明する。
【0064】
図5は、本実施形態の学習データ生成装置10Aで実行する情報処理の一例を示すフローチャートである。
【0065】
取得部12Aが、時系列データを取得する(ステップS100)。注目度導出部12Bは、学習済モデル12B1を用いて、ステップS100で取得した時系列データに含まれる複数のフレームの各々の注目度を導出する(ステップS102)。また、注目度導出部12Bは、学習済モデル12B1を用いて、ステップS100で取得した時系列データに含まれる複数のフレームの各々の行動ラベルを導出する(ステップS104)。
【0066】
選択部12Cは、ステップS102で導出された注目度に基づいて、ステップS100で取得した時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する(ステップS106)。
【0067】
選択部12Cは、ステップS106で選択した学習用フレームに、ステップS104で導出された行動ラベルを付与する(ステップS108)。
【0068】
出力制御部12Dは、ステップS106で選択された学習用フレームとステップS108で付与された行動ラベルとを対応付けて、記憶部16などへ出力する(ステップS110)。そして、本ルーチンを終了する。
【0069】
以上説明したように、本実施形態の学習データ生成装置10Aは、取得部12Aと、注目度導出部12Bと、選択部12Cと、を備える。取得部12Aは、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部12Bは、学習済モデル12B1を用いて、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部12Cは、注目度に基づいて、時系列データに含まれる1または複数のフレームを、学習データに用いる学習用フレームとして選択する。
【0070】
このように、本実施形態の学習データ生成装置10Aは、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度に基づいて、時系列データに含まれる1または複数のフレームを学習用フレームとして選択する。
【0071】
このため、本実施形態の学習データ生成装置10Aは、対象の行動によって変化する時間軸方向の特徴量である注目度に応じたフレームを、学習用フレームとして選択し、学習データとして提供することができる。
【0072】
従って、本実施形態の学習データ生成装置10Aは、対象の行動認識用の効果的な学習データを提供することができる。
【0073】
また、注目度は、時間軸方向の特徴量である。注目度は、時間軸方向の特徴量であるため、フレームに含まれる対象が行動しているらしいほど、大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。本実施形態の学習データ生成装置10Aでは、注目度を用いることで、時系列データに含まれる複数のフレームの内、対象が行動しているフレームを学習用データとして選択する。このため、学習データ生成装置10Aは、時系列データに含まれる複数のフレームから、対象の行動に無関係なフレームを除いたフレームを、学習用フレームとして選択することができる。
【0074】
このため、本実施形態の学習データ生成装置10Aは、上記効果に加えて、学習に不要なフレームを取り除き、学習に効果的な学習用フレームを、学習データとして提供することができる。また、本実施形態の学習データ生成装置10Aは、対象の行動を効果的に確認可能な学習用フレームを提供することができるため、監視作業などの効果的な補助を図ることができる。
【0075】
また、本実施形態の学習データ生成装置10Aは、注目度を用いることで、時系列データに含まれる複数のフレームの内、対象が行動しているフレームを学習用フレームとして選択する。このため、少ないフレーム数のデータを学習データとして用いる学習モデルにも適用可能な、学習データを提供することができる。
【0076】
また、本実施形態の学習データ生成装置10Aは、学習済の学習モデルである学習済モデル12B1を用いて、時系列データに含まれるフレームの注目度を導出する。すなわち、本実施形態の学習データ生成装置10Aは、既存の学習モデルを用い、且つ、取得した時系列データを本実施形態で用いるデータ用に特別な加工処理などを行うことなく用いる。このため、本実施形態では、上記効果に加えて、汎用性の高い学習データ生成装置10Aを提供することができる。
【0077】
また、本実施形態の学習データ生成装置10Aでは、選択部12Cは、注目度の大きさ、および、時系列に連続するフレーム間の注目度の変化量に基づいて、時系列データに含まれる1または複数のフレームを学習用フレームとして選択する。
【0078】
このように、本実施形態の学習データ生成装置10Aは、注目度の大きさや変化量に基づいて学習用フレームを選択する。このため、本実施形態の学習データ生成装置10Aは、上記効果に加えて、対象が行動しているフレームを自動的に抜き出して選択することができる。
【0079】
また、時系列データは、画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、対象の関節位置を表す骨格情報の時系列データ、および、対象の加速度の時系列データ、の少なくとも1つである。
【0080】
このように、本実施形態の学習データ生成装置10Aでは、動画像などの画像の時系列データに限定されず、骨格情報や加速度などの様々な時系列データを用いることができる。このため、本実施形態の学習データ生成装置10Aは、上記効果に加えて、様々な環境で用いる学習モデルに適用可能な学習データを提供することができる。また、本実施形態の学習データ生成装置10Aは、様々な時系列データを用いることで、環境変化に頑健な注目度を用いて、学習用フレームを選択することができる。
【0081】
また、対象は、行動認識の対象となる物であればよく、人物に限定されない。上述したように、対象は、具体的には、人物、動物、自動車、船舶、ロボット、ドローンなどの移動体である。
【0082】
このため、本実施形態の学習データ生成装置10Aは、人物のみに限定されず、動物やロボットなどの様々な移動体を対象とすることができ、幅広いアプリケーションに応用することができる。
【0083】
また、本実施形態の学習データ生成装置10Aでは、出力制御部12Dが、選択された学習用フレームを、記憶部16、外部の情報処理装置、および注目度導出部12Bなどへ出力する。
【0084】
このため、本実施形態の学習データ生成装置10Aは、選択された学習用フレームを、学習モデルの学習や、時系列データの確認などのために提供することができる。
【0085】
(第2の実施形態)
本実施形態では、ユーザによるフレームの選択を受付け、受付けたフレームを学習用フレームとして選択する形態を説明する。
【0086】
図6は、本実施形態の学習データ生成装置10Bの一例を示すブロック図である。学習データ生成装置10Bは、学習データ生成装置10の一例である。
【0087】
なお、本実施形態の学習データ生成装置10Bにおいて、上記実施形態の学習データ生成装置10Aと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。
【0088】
学習データ生成装置10Bは、制御部24と、通信部14と、記憶部16と、入力部18と、表示部20と、を備える。制御部24と、通信部14、記憶部16、入力部18、および表示部20とは、バス22を介して通信可能に接続されている。学習データ生成装置10Bは、制御部12に替えて制御部24を備える点以外は、学習データ生成装置10Aと同様である。
【0089】
制御部24は、学習データ生成装置10Bにおいて各種の情報処理を実行する。
【0090】
制御部24は、取得部12Aと、注目度導出部12Bと、表示制御部24Eと、受付部24Fと、選択部24Cと、出力制御部12Dと、を備える。取得部12A、注目度導出部12B、および出力制御部12Dは、上記実施形態と同様である。
【0091】
表示制御部24Eは、時系列データに含まれるフレームと、フレームの注目度と、を含む表示画面を表示部20に表示する。
【0092】
図7は、表示画面30の一例の模式図である。表示画面30は、例えば、表示領域30Aと、表示領域30Bと、設定表示領域30Cと、を含む。
【0093】
表示領域30Aは、選択されたフレームを表示するための表示領域である。
図7には、対象A、対象B、および対象Cの3つの対象を含むフレームが表示領域30Aに表示された形態を一例として示した。
【0094】
表示領域30Bは、フレームの注目度の表示領域である。例えば、表示領域30Bには、取得部12Aで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームの注目度と、を表すグラフなどの画像が表示される。
【0095】
設定表示領域30Cは、表示領域30Aに表示されているフレームの設定を表示するための領域である。例えば、設定表示領域30Cには、表示領域30Aに表示されているフレームの、注目度、フレーム番号、および行動ラベルが表示される。
【0096】
ユーザは、入力部18を操作することで、設定表示領域30Cに表示されているフレーム番号を変更する。この変更操作により、表示領域30Aに表示するフレームのフレーム番号が設定される。表示制御部24Eは、設定されたフレーム番号のフレームの注目度を、設定表示領域30Cに表示する。表示制御部24Eは、設定されたフレーム番号のフレームを、表示領域30Aに表示する。また、表示制御部24Eは、表示領域30Aに表示されたフレームが何れのフレーム番号であるかを表す情報を、表示領域30Bに表示する。
図7には、表示領域30Aに表示されているフレームのフレーム番号に相当する位置に、「表示中」の文字を表示する形態を一例として示した。
【0097】
このため、ユーザは、設定表示領域30Cに表示されるフレーム番号の設定を変更することで、時系列データに含まれるフレームの各々の注目度を容易に確認することができる。
【0098】
また、表示制御部24Eは、表示領域30Aに表示されているフレームに付与する行動ラベルを選択可能に設定表示領域30Cに表示する。例えば、表示制御部24Eは、取得部12Aで取得した時系列データを用いて学習済モデル12B1で導出された1または複数の行動ラベルを、選択可能に設定表示領域30Cに表示する。ユーザは、入力部18を操作することで、設定表示領域30Cに表示された行動ラベルから、表示領域30Aに表示されているフレームに付与する行動ラベルを設定することができる。なお、ユーザが入力部18を操作することで、任意の名称の行動ラベルを設定表示領域30Cに入力する形態であってもよい。
【0099】
ユーザは、表示画面30に表示された注目度を参照しながら入力部18を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとして選択する対象のフレームが表示領域30Aに表示されている状態で、入力部18を操作して選択ボタン30Dを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。
【0100】
図6に戻り説明を続ける。受付部24Fは、入力部18からフレームの選択を受付ける。例えば、受付部24Fは、選択ボタン30Dが操作されたときに表示領域30Aに表示されていたフレームのフレーム番号を、表示制御部24Eから受付ける。このとき、受付部24Fは、該フレームの行動ラベルを更に受付けてもよい。すなわち、受付部24Fは、入力部18の操作によって選択ボタン30Dが操作されたときに、設定表示領域30Cに表示されていたフレーム番号および行動ラベルを受付ける。
【0101】
選択部24Cは、受付部24Fで受付けたフレームを、学習用フレームとして選択する。詳細には、選択部24Cは、受付部24Fで新たなフレーム番号を受付ける毎に、受付けたフレーム番号によって識別されるフレームを、学習用フレームとして選択する。このため、選択部24Cは、表示部20に表示された注目度に応じてユーザによって選択された1または複数のフレームを、学習用フレームとして選択することができる。
【0102】
なお、選択部24Cは、フレーム番号および行動ラベルを受付けた場合には、選択を受付けたフレーム番号によって識別されるフレームを学習用フレームとして選択するとともに、該学習用フレームに受付けた行動ラベルを付与すればよい。
【0103】
なお、表示制御部24Eが表示部20に表示する表示画面30は、
図7に示す形態に限定されない。例えば、表示制御部24Eは、注目度の高い順に複数のフレームを表示部20に表示してもよい。
【0104】
図8は、表示画面32の一例の模式図である。表示画面32は、例えば、表示領域32Aと、表示領域32Bと、を含む。
【0105】
表示領域32Aは、選択されたフレームを表示するための表示領域である。
図8には、対象A、対象B、および対象Cの3つの対象を含むフレームが表示領域32Aに表示された形態を一例として示した。なお、表示制御部24Eは、フレームに含まれる対象以外の領域である背景領域を、対象より薄い色または高い透明度で表示してもよい。この場合、表示制御部24Eは、フレームに含まれる対象をユーザに分かりやすく表示することができる。
【0106】
表示領域32Bは、時系列データに含まれる複数のフレームを表示するための表示領域である。表示制御部24Eは、時系列データに含まれる複数のフレームを、注目度の高い順に配列して表示領域32Bに表示する。ユーザは入力部18を操作することで、表示領域32Bに表示された複数のフレームの内、所望のフレームを選択する。表示制御部24Eは、表示領域32Bに表示された複数のフレームの内、ユーザによって選択されたフレームを表示領域32Aへ表示する。
【0107】
表示領域32Aには、行動ラベルの選択領域が設けられていてもよい。表示制御部24Eは、
図7の設定表示領域30Cと同様に、表示領域32Aに表示されているフレームに付与する行動ラベルを選択可能に表示すればよい。なお、ユーザが入力部18を操作することで、任意の名称の行動ラベルを入力する形態であってもよい。
【0108】
ユーザは入力部18を操作することで、注目度の高い順に配列されて表示領域32Bに表示された複数のフレームの中から、学習用フレームとするフレームを選択する。この操作により、表示制御部24Eは、表示領域32Bに表示され複数のフレームの内、ユーザによって選択されたフレームを表示領域32Aへ表示する。ユーザは、学習用フレームとして選択する対象のフレームが表示領域32Aに表示されている状態で、入力部18を操作して選択ボタン32Cを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。
【0109】
受付部24Fは、入力部18からフレームの選択を受付ける。また、受付部24Fは、該フレームの行動ラベルを更に受付けてもよい。詳細には、受付部24Fは、選択されたフレームのフレーム番号および行動ラベルを受付ける。選択部24Cは、受付部24Fで受付けたフレームを学習用フレームとして選択し、受付けた行動ラベルを付与する。詳細には、選択部24Cは、受付部24Fで新たなフレーム番号および行動ラベルを受付ける毎に、受付けたフレーム番号によって識別されるフレームを学習用フレームとして選択し行動ラベルを付与する。
【0110】
このように、表示制御部24Eは、時系列データに含まれる複数のフレームを、注目度の高い順に配列して表示部20へ表示してもよい。この場合、ユーザは、表示領域32Bに表示されたフレームの配列を確認することで、フレームの各々の注目度を確認することができる。このため、この場合、ユーザは、フレームの注目度の値を確認することなく、フレームの配列順を確認することで、容易に注目度に応じたフレームを学習用フレームとして選択することができる。
【0111】
次に、本実施形態の学習データ生成装置10Bで実行する情報処理の一例を説明する。
【0112】
図9は、本実施形態の学習データ生成装置10Bで実行する情報処理の一例を示すフローチャートである。
【0113】
取得部12Aが、時系列データを取得する(ステップS200)。注目度導出部12Bは、学習済モデル12B1を用いて、ステップS200で取得した時系列データに含まれる複数のフレームの各々の注目度を導出する(ステップS202)。また、注目度導出部12Bは、学習済モデル12B1を用いて、ステップS200で取得した時系列データに含まれる複数のフレームの各々の行動ラベルを導出する(ステップS204)。
【0114】
表示制御部24Eは、ステップS200で取得した時系列データに含まれるフレームと、フレームの注目度と、を含む表示画面30を表示部20に表示する(ステップS206)。
【0115】
受付部24Fは、フレームの選択を入力部18および表示制御部24Eから受付ける(ステップS208)。本実施形態では、フレームおよび行動ラベルの選択を受付けた場合を想定して説明する。
【0116】
選択部24Cは、ステップS208で受付けたフレームを、学習用フレームとして選択する(ステップS210)。選択部24Cは、ステップS210で選択した学習用フレームに、ステップS208で受付けた行動ラベルを付与する(ステップS212)。
【0117】
なお、複数のフレームの選択を受付けた場合には、新たなフレームの選択を受付けるごとに、ステップ208~ステップS212の処理を繰り返し実行すればよい。
【0118】
出力制御部12Dは、ステップS210で選択された学習用フレームとステップS212で付与された行動ラベルとを対応付けて、記憶部16などへ出力する(ステップS110)。そして、本ルーチンを終了する。
【0119】
以上説明したように、本実施形態の学習データ生成装置10Bは、表示制御部24Eが、フレームと、フレームの注目度と、を含む表示画面30または表示画面32を表示部20へ表示する。受付部24Fは、フレームの選択を受付ける。選択部24Cは、受付部24Fで受付けたフレームを学習用フレームとして選択する。
【0120】
本実施形態の学習データ生成装置10Bでは、ユーザが、表示部20に表示されたフレームおよび注目度を参照することで、注目度に基づいて学習用フレームとするフレームを選択する。受付部24Fは、ユーザによる選択を受付け、選択部24Cは、受付部24Fで受付けたフレームを学習用フレームとして選択する。
【0121】
このため、本実施形態の学習データ生成装置10Bは、上記実施形態の効果に加えて、注目度に応じてユーザによって選択されたフレームを、学習用フレームとして選択することができる。
【0122】
また、本実施形態の学習データ生成装置10Bでは、ユーザは、表示部20に表示された注目度を確認しながら、学習用フレームとするフレームおよび行動ラベルを選択することができる。このため、ユーザは、フレームに含まれる対象の行動の重要度を指標する値である注目度に基づいて、容易に学習用フレームとするフレームを選択することができる。
【0123】
(第3の実施形態)
上記実施形態では、注目度が、フレームの時間軸方向の特徴量である形態を一例として説明した。しかし、上述したように、注目度は、フレームに含まれる対象の時間軸方向の特徴量であってもよい。本実施形態では、注目度が、フレームに含まれる対象の時間軸方向の特徴量である形態を一例として説明する。
【0124】
図10は、本実施形態の学習データ生成装置10Cの一例を示すブロック図である。学習データ生成装置10Cは、学習データ生成装置10の一例である。
【0125】
なお、本実施形態の学習データ生成装置10Cにおいて、上記実施形態の学習データ生成装置10Aまたは学習データ生成装置10Bと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。
【0126】
学習データ生成装置10Cは、制御部26と、通信部14と、記憶部16と、入力部18と、表示部20と、を備える。制御部26と、通信部14、記憶部16、入力部18、および表示部20とは、バス22を介して通信可能に接続されている。学習データ生成装置10Cは、制御部12または制御部24に替えて制御部26を備える点以外は、学習データ生成装置10Aまたは学習データ生成装置10Bと同様である。
【0127】
制御部26は、学習データ生成装置10Cにおいて各種の情報処理を実行する。
【0128】
制御部26は、取得部12Aと、注目度導出部26Bと、表示制御部26Eと、受付部26Fと、選択部24Cと、出力制御部12Dと、を備える。取得部12Aおよび出力制御部12Dは、上記実施形態と同様である。
【0129】
注目度導出部26Bは、学習済モデル12B1を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの、時間軸方向の特徴量である注目度を導出する。
【0130】
例えば、撮影装置で撮影された映像中に対象が単数且つ十分な大きさで映る場合がある。この場合、注目度は、フレーム全体の時間軸方向の特徴量であることが好ましい。一方、映像中に複数の対象が含まれる場合、または、対象が小さいサイズで映る場合がある。この場合、注目度は、フレームに含まれる対象ごとの時間軸方向の特徴量であることが好ましい。対象ごとの時間軸方向の特徴量を用いることで、背景領域の影響の少ない注目度とすることができる。また、対象以外の領域の影響を除去した注目度とすることができる。また、対象ごとの加速度がセンシングされた場合、対象ごとに、加速度から導出された注目度とすることができる。
【0131】
注目度導出部26Bは、時系列データに含まれる対象のサイズや数などの対象の状態に応じて、フレームごとの注目度、および、対象ごとの注目度、の何れを導出するかを選択してもよい。フレームごとの注目度を導出する場合、注目度導出部26Bは、上記実施形態の注目度導出部12Bと同様の処理を実行すればよい。本実施形態では、注目度導出部26Bが、フレームに含まれる対象ごとに注目度を導出する形態を説明する。
【0132】
注目度導出部26Bは、時系列データを学習済モデル12B1へ入力することで、学習済モデル12B1からフレームの各々に含まれる対象ごとの特徴量を導出する。注目度導出部26Bは、学習済モデル12B1から導出した対象の特徴量における、時間軸方向のベクトル値を、対象の注目度として導出する。なお、注目度導出部26Bは、フレームの注目度と、フレームに含まれる対象の注目度と、の双方を導出してもよい。
【0133】
表示制御部26Eは、時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面を表示部20に表示する。
【0134】
図11は、表示画面34の一例の模式図である。表示画面34は、例えば、表示領域34Aと、表示領域34Bと、設定表示領域34Cと、を含む。
【0135】
表示領域34Aは、選択されたフレームを表示するための表示領域である。
図11には、対象A、対象B、および対象Cの3つの対象を含むフレームが表示領域34Aに表示された形態を一例として示した。また、
図11には、対象Aが選択された状態を一例として示した。
【0136】
表示領域34Bは、フレームの注目度の表示領域である。例えば、表示領域34Bには、取得部12Aで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームの注目度と、を表すグラフなどの画像が表示される。なお、表示領域34Bは、フレームに含まれる対象の注目度の表示領域であってもよい。
【0137】
設定表示領域34Cは、表示領域34Aに表示されているフレームに含まれる対象の設定を表示するための領域である。例えば、設定表示領域34Cには、表示領域34Aに表示されているフレームに含まれる対象、対象の注目度、フレーム番号、および対象の行動ラベルが表示される。
【0138】
ユーザは、入力部18を操作することで、設定表示領域34Cに表示されているフレーム番号を変更する。この変更操作により、表示領域34Aに表示するフレームのフレーム番号が設定される。表示制御部26Eは、設定されたフレーム番号のフレームを、表示領域34Aに表示する。また、表示制御部26Eは、表示領域34Aに表示されたフレームが何れのフレーム番号であるかを表す情報を、表示領域34Bに表示する。
図11には、表示領域34Aに表示されているフレームのフレーム番号に相当する位置に、「表示中」の文字を表示する形態を一例として示した。
【0139】
また、ユーザは、入力部18を操作することで、設定表示領域34Cに表示されている対象の設定を変更する。この変更操作により、注目度を表示する対象が設定される。表示制御部26Eは、設定された対象の注目度を設定表示領域34Cへ表示する。
図11には、一例として、対象Aが設定され、対象Aの注目度が設定表示領域34Cへ表示された状態を示した。
【0140】
また、表示制御部26Eは、選択されている対象を表す画像を表示領域34Aに表示する。
図11には、表示領域34Aに、対象Aを囲む枠線を表示した形態を一例として示した。
【0141】
ユーザは、設定表示領域34Cに表示されるフレーム番号および対象の設定を変更することで、設定したフレーム番号のフレームに含まれる設定した対象の注目度を、容易に確認することができる。
【0142】
また、表示制御部26Eは、設定されている対象に付与する行動ラベルを選択可能に設定表示領域34Cに表示する。例えば、表示制御部26Eは、取得部12Aで取得した時系列データを用いて学習済モデル12B1で導出された対象の行動ラベルを、選択可能に設定表示領域34Cに表示する。ユーザは、入力部18を操作することで、設定表示領域34Cに表示された行動ラベルから、設定されている対象に付与する行動ラベルを設定することができる。なお、ユーザが入力部18を操作することで、任意の名称の行動ラベルを設定表示領域34Cに入力する形態であってもよい。
【0143】
ユーザは、表示画面34に表示された対象の注目度を参照しながら入力部18を操作することで、学習用フレームとするフレームを選択する。すなわち、ユーザは、表示部20に表示された対象の注目度を確認しながら、フレームを確認し選択することができる。
【0144】
例えば、ユーザは、学習用フレームとして選択する対象のフレームが表示領域34Aに表示されている状態で、入力部18を操作して選択ボタン34Dを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。
【0145】
なお、表示制御部26Eが表示部20に表示する表示画面34は、
図11に示す形態に限定されない。例えば、表示制御部24Eは、フレームに含まれる対象の注目度をグラフで表示してもよい。
【0146】
図12は、表示画面36の一例の模式図である。表示画面36は、例えば、表示領域36Aと、表示領域36Bと、表示領域36Cと、を含む。
【0147】
表示領域36Aは、選択されたフレームおよび対象の注目度を表示するための表示領域である。
図12には、対象A、対象B、および対象Cの3つの対象を含むフレームが表示領域36Aに表示された形態を一例として示した。また、
図12には、対象Aが選択された状態を一例として示した。
図12に示すように、表示領域36Aに含まれる対象の表示領域の各々に、対象の注目度を表示してもよい。
【0148】
表示領域36Bは、対象の注目度の表示領域である。例えば、表示領域36Bには、取得部12Aで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームに含まれる、選択された対象の注目度と、を表すグラフなどの画像が表示される。
図12には、対象Aが選択され、対象Aの注目度が表示された状態を一例として示した。
【0149】
なお、
図12には、1つのフレームに複数の対象が含まれる場合を一例として示した。そして、
図12には、表示制御部26Eは、複数の対象の各々の注目度を表すグラフを表示領域36Bに表示し、選択された対象の注目度を実線で表示した例を示した。なお、表示領域36Bには、選択された1つの対象の注目度を示すグラフを表示する形態であってもよい。また、1つのフレームに複数の対象が含まれる場合には、表示制御部26Eは、複数の対象の各々の注目度の平均値、または、これらの注目度の合計値を表すグラフを、表示領域36Bに表示してもよい。
【0150】
ユーザは、入力部18を操作することで、表示領域36Bに表示されているフレーム番号および対象を変更する。この変更操作により、表示領域36Aに表示するフレームのフレーム番号が設定される。表示制御部26Eは、設定されたフレーム番号のフレームを、表示領域34Aに表示する。このとき、表示制御部26Eは、フレームに含まれる対象の各々の注目度を、表示領域36Aに表示する。
【0151】
そして、ユーザは、表示画面36に表示された対象の注目度を参照しながら入力部18を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとする対象のフレームが表示領域36Aに表示されている状態で、入力部18を操作して選択ボタン36Dを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。
【0152】
このため、ユーザは、表示画面36を視認することで、対象の注目度を確認しながら、注目度の大きい対象を含むフレームを容易に確認することができる。また、ユーザは、表示部20に表示された対象の注目度を確認しながら、学習用フレームとするフレームを選択することができる。
【0153】
注目度の大きい対象を含むフレームは、何等かのイベントが発生したフレームである可能性が高い。このため、表示制御部26Eは、対象の注目度を表示することで、何等かのイベントが発生している可能性の高いフレームを、ユーザに対して容易に特定可能に提供することができる。また、このようなフレームが学習用フレームとして選択されることで、学習データ生成装置10Cは、監視作業にも適用可能な学習用フレームを提供することができる。
【0154】
なお、表示制御部26Eは、フレームと、フレームに含まれる対象の注目度と、対象の行動の大きさ情報と、を含む表示画面を表示部20へ表示してもよい。
【0155】
対象の行動の大きさ情報とは、フレームに含まれる対象の行動の大きさを表す情報である。対象の行動の大きさ情報には、例えば、異なる2つの時刻のフレームから計算されるオプティカルフロー、異なる2つの時刻の骨格情報の座標の変化量、などを用いればよい。対象の行動の大きさ情報は、注目度導出部26Bで算出すればよい。
【0156】
対象の注目度と、対象の行動の大きさ情報と、を表示部20へ表示することで、ユーザは、対象の行動の大きさと注目度を考慮して、学習用フレームとするフレームを選択することができる。また、ユーザは、対象の行動の大きさ情報を視認することで、行動の大きい対象を含むフレーム、すなわち、何等かのイベントが発生しているフレームを容易に発見することができる。
【0157】
なお、表示制御部26Eは、行動ラベルごとに注目度を表示してもよい。表示制御部26Eは、Grad-CAMなどのクラスラベルに対応する注目度を算出する技術を利用することで、行動ラベルごとの注目度を算出し、表示すればよい。
【0158】
図13は、表示画面38の一例の模式図である。表示画面38は、例えば、表示領域38Aと、表示領域38Bと、を含む。
【0159】
表示領域38Aは、選択されたフレームおよび対象の注目度を表示するための表示領域である。
図13には、対象A、対象B、および対象Cの3つの対象を含むフレームが表示領域38Aに表示された形態を一例として示した。また、
図13には、対象Aが選択された状態を一例として示した。また、表示領域38Aには、選択された対象A、該対象Aに付与された行動ラベル、表示領域38Aに表示されているフレームのフレーム番号、該対象Aの注目度、が表示される。
【0160】
表示領域38Bは、行動ラベルごとの注目度の表示領域である。例えば、表示領域38Bには、取得部12Aで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームに含まれる対象の行動ラベルの注目度と、を行動ラベルごとに表すグラフなどの画像が表示される。
図13の表示領域38Bには、「うろうろ」および「きょろきょろ」等の行動ラベルごとの注目度のグラフが表示された例を一例として示した。
【0161】
ユーザは、表示画面38に表示された行動ラベルごとの注目度を参照しながら入力部18を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとする対象のフレームが表示領域38Aに表示されている状態で、入力部18を操作して選択ボタン38Cを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。
【0162】
このため、ユーザは、表示画面38を視認することで、行動ラベルごとの注目度を確認しながら、学習用フレームとするフレームおよび行動ラベルを選択することができる。すなわち、ユーザは、何等かのイベントが発生している可能性の高いフレームと、何が発生しているかを表す行動ラベルと、を容易に確認することができる。
【0163】
次に、本実施形態の学習データ生成装置10Cで実行する情報処理の一例を説明する。
【0164】
図14は、本実施形態の学習データ生成装置10Cで実行する情報処理の一例を示すフローチャートである。
【0165】
取得部12Aが、時系列データを取得する(ステップS300)。注目度導出部26Bは、学習済モデル12B1を用いて、ステップS300で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の注目度を導出する(ステップS302)。また、注目度導出部12Bは、学習済モデル12B1を用いて、ステップS300で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の行動ラベルを導出する(ステップS304)。
【0166】
表示制御部26Eは、ステップS300で取得した時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面34を表示部20に表示する(ステップS306)。なお、表示制御部26Eは、表示画面36または表示画面38を表示部20に表示してもよい。ここでは、表示画面34を表示部20に表示した場面を想定して説明を続ける。
【0167】
受付部26Fは、フレームの選択を入力部18および表示制御部26Eから受付ける(ステップS308)。本実施形態では、フレームおよびフレームに含まれる対象の行動ラベルの選択を受付けた場合を想定して説明する。
【0168】
選択部26Cは、ステップS308で受付けたフレームを、学習用フレームとして選択する(ステップS310)。選択部26Cは、ステップS310で選択した学習用フレームに含まれる対象に、ステップS308で受付けた行動ラベルを付与する(ステップS312)。
【0169】
出力制御部12Dは、ステップS310で選択された学習用フレームとステップS312で該学習用フレームに含まれる対象に付与された行動ラベルとを対応付けて、記憶部16などへ出力する(ステップS314)。そして、本ルーチンを終了する。
【0170】
以上説明したように、本実施形態の学習データ生成装置10Cでは、注目度導出部26Bが、学習済モデル26B1を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの注目度を導出する。表示制御部26Eは、フレームと、該フレームに含まれる対象の注目度と、を含む表示画面を表示部20に表示する。
【0171】
注目度の大きい対象を含むフレームは、何等かのイベントが発生したフレームである可能性が高い。このため、本実施形態の学習データ生成装置10Cでは、対象の注目度を表示することで、何等かのイベントが発生している可能性の高いフレームを、ユーザに対して容易に特定可能に提供することができる。また、このようなフレームが学習用フレームとして選択されることで、学習データ生成装置10Cは、監視作業にも適用可能な学習用フレームを提供することができる。
【0172】
(第4の実施形態)
本実施形態では、行動ラベルの画像を表示部20に表示する形態を説明する。
【0173】
図10は、本実施形態の学習データ生成装置10Dの一例を示すブロック図である。学習データ生成装置10Dは、学習データ生成装置10の一例である。
【0174】
なお、本実施形態の学習データ生成装置10Dにおいて、上記実施形態の学習データ生成装置10A、学習データ生成装置10B、または学習データ生成装置10Cと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。
【0175】
学習データ生成装置10Dは、制御部28と、通信部14と、記憶部16と、入力部18と、表示部20と、を備える。制御部28と、通信部14、記憶部16、入力部18、および表示部20とは、バス22を介して通信可能に接続されている。学習データ生成装置10Cは、制御部12、制御部24、または制御部26に替えて制御部28を備える点以外は、学習データ生成装置10A、学習データ生成装置10B、または学習データ生成装置10Cと同様である。
【0176】
制御部28は、学習データ生成装置10Dにおいて各種の情報処理を実行する。
【0177】
制御部28は、取得部12Aと、注目度導出部28Bと、表示制御部28Eと、受付部28Fと、選択部28Cと、出力制御部12Dと、を備える。取得部12Aおよび出力制御部12Dは、上記実施形態と同様である。
【0178】
注目度導出部28Bは、学習済モデル12B1を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの、時間軸方向の特徴量である注目度を導出する。注目度導出部28Bは、上記実施形態の注目度導出部26Bと同様にして、対象ごとの注目度を導出すればよい。
【0179】
本実施形態では、注目度導出部28Bは、更に、対象ごとの行動ラベルとして、行動ラベルの画像を導出する。行動ラベルの画像とは、行動ラベルを付与された対象の静止画像または動画像である。例えば、行動ラベルの画像は、行動ラベルを付与された対象を含むフレームの画像、フレームの画像に含まれる対象の対象領域を抽出した画像、などである。
【0180】
注目度導出部28Bは、学習済モデル12B1を用いて、時系列データに含まれる複数のフレームの各々ごとに、フレームに含まれる対象ごとの特徴量と、対象ごとの行動ラベルと、を導出する。そして、注目度導出部28Bは、フレームのフレームIDと、対象IDと、特徴量と、行動ラベルと、行動ラベルの画像と、を対応付けて行動ラベルDB(データベース)に登録する。フレームIDは、フレームの識別情報である。フレームIDは、例えば、上述したフレーム番号を用いてよい。対象IDは、対象を識別する識別情報である。行動ラベルの画像は、上述したように、例えば、対応するフレームIDによって識別されるフレームの画像などである。
【0181】
図15は、行動ラベルDBのデータ構成の一例を示す模式図である。注目度導出部28Bは、フレームIDと、対象IDと、対象の特徴量と、対象の行動ラベルと、対象の行動ラベルの画像と、を対応付けて行動ラベルDBに登録する。行動ラベルDBは、例えば、記憶部16に記憶すればよい。
【0182】
図10に戻り説明を続ける。表示制御部28Eは、時系列データに含まれるフレームと、フレームに含まれる対象の行動ラベルの画像と、を含む表示画面を表示部20に表示する。
【0183】
図16は、表示制御部28Eの機能的構成の一例を示すブロック図である。表示制御部28Eは、探索部28E1と、表示制御部28E2と、を含む。
【0184】
探索部28E1は、時系列データに含まれるフレームの各々に含まれる、対象の特徴量を特定する。なお、探索部28E1は、ユーザによる入力部18の操作指示によって選択部28Cで選択された、学習用フレームに含まれる対象の特徴量を特定してもよい。本実施形態では、探索部28E1は、選択部28Cで選択された学習用フレームに含まれる対象の特徴量を特定する形態を一例として説明する。探索部28E1は、選択された学習用フレームに含まれる対象の特徴量を注目度導出部26Bから取得することで、対象の特徴量を特定すればよい。
【0185】
そして、探索部28E1は、特定した特徴量に類似する記憶特徴量を、行動ラベルDBから探索する。記憶特徴量とは、行動ラベルDBに登録されている特徴量である。表示制御部28Eは、学習用フレームに含まれる対象の特徴量に類似する記憶特徴量を行動ラベルDBから探索することで、学習用フレームに含まれる対象の行動に類似する類似行動を探索する。
【0186】
例えば、探索部28E1は、特徴量と記憶特徴量との間のコサイン類似度などの距離評価を用いた最近傍探索などによって、類似する記憶特徴量を行動ラベルDBから探索すればよい。
【0187】
そして、探索部28E1は、探索した記憶特徴量に対応する行動ラベルの画像を行動ラベルDBから特定する。すなわち、探索部28E1は、学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像を、行動ラベルDBから探索する。そして、表示制御部28Eは、学習用フレームと、該学習用フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像と、を表示部20へ表示する。すなわち、表示制御部28Eは、学習用フレームと、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像と、を表示部20に表示する。
【0188】
図17は、表示制御部28Eが表示部20に表示する表示画面40の一例を示す模式図である。
【0189】
表示画面40は、表示領域40Aと、表示領域40Bと、を含む。表示領域40Aは、選択された学習用フレームを表示するための表示領域である。
図17には、対象Aを含む学習用フレームが表示領域40Aに表示された形態を一例として示した。また、
図17には、対象Aが選択された状態を一例として示した。
【0190】
表示領域40Bは、行動ラベルの画像の一覧を表示する表示領域である。
【0191】
表示制御部28Eは、ユーザによる入力部18の操作指示によって選択された学習用フレームを表示領域40Aに表示し、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像の一覧を、表示領域40Bへ表示する。例えば、表示制御部28Eは、行動ラベルの画像の一覧を、特徴量の類似度が高い順に表示領域40Bへ表示する。
【0192】
なお、表示制御部28Eは、ユーザによる入力部18の操作指示などによって特定の行動ラベルの画像が選択されると、選択された行動ラベルの画像に関する詳細情報を更に表示してもよい。詳細情報は、例えば、行動ラベルの詳細を表す情報などである。なお、表示領域40Aに表示される行動ラベルの画像に、類似行動の対象以外の画像が含まれる場合がある。この場合、表示制御部28Eは、行動ラベルの画像に含まれる類似行動の対象以外の領域を、類似行動の対象より薄い色または高い透明度で表示してもよい。この場合、表示制御部28Eは、誤った行動ラベルの画像が選択されることを抑制することができる。
【0193】
ユーザは、入力部18を操作することで、行動ラベルの画像の一覧の中から、表示領域40Aに表示されている学習用フレームに含まれる対象に付与する行動ラベルの画像を選択する。表示領域40Bに表示された行動ラベルの画像の一覧の中から、1つの行動ラベルの画像が選択され、選択ボタン40Cが操作された場合を想定する。受付部28Fは、行動ラベルの画像を受付ける。
【0194】
図10に戻り説明を続ける。選択部28Cは、選択した学習用フレームに、受付部28Fで受付けた行動ラベルの画像に対応する行動ラベルを付与する。選択部28Cは、受付部28Fで受け付けた行動ラベルの画像に対応する行動ラベルを、行動ラベルDBから取得し、学習用フレームに付与すればよい。
【0195】
次に、本実施形態の学習データ生成装置10Dで実行する情報処理の一例を説明する。
【0196】
図18は、本実施形態の学習データ生成装置10Dで実行する情報処理の一例を示すフローチャートである。
【0197】
取得部12Aが、時系列データを取得する(ステップS400)。注目度導出部28Bは、学習済モデル12B1を用いて、ステップS400で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の注目度を導出する(ステップS402)。また、注目度導出部12Bは、学習済モデル12B1を用いて、ステップS400で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の行動ラベルおよび行動ラベルの画像を導出する(ステップS404)。
【0198】
そして、注目度導出部12Bは、ステップS402で注目度の導出に用いたフレームのフレームIDと、対象IDと、特徴量と、行動ラベルと、行動ラベルの画像と、を対応付けて行動ラベルDBへ登録する(ステップS406)。
【0199】
表示制御部26Eは、ステップS400で取得した時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面を表示部20に表示する(ステップS408)。
【0200】
受付部28Fは、ユーザによる入力部18の操作指示によって選択された、学習用フレームとするフレームの選択を受付ける(ステップS410)。選択部28Cは、ステップS410で受付けたフレームを、学習用フレームとして選択する(ステップS412)。
【0201】
表示制御部28Eの探索部28E1は、ステップS412で選択された学習用フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像を、行動ラベルDBから探索する(ステップS414)。すなわち、探索部28E1は、学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像を、行動ラベルDBから探索する。
【0202】
そして、表示制御部28Eは、ステップS412で選択した学習用フレームと、ステップS144で探索した行動ラベルの画像と、を表示部20へ表示する(ステップS416)。すなわち、表示制御部28Eは、学習用フレームと、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像と、を表示部20に表示する。
【0203】
受付部28Fは、ステップS416で表示した行動ラベルの画像の内、選択された行動ラベルの画像の選択を受付ける(ステップS418)。受付部28Fは、ステップS418で受付けた行動ラベルの画像に対応する行動ラベルを、ステップS412で選択した学習用フレームへ付与する(ステップS420)。
【0204】
なお、複数の学習用フレームの選択を受付けた場合、1つの学習用フレームの選択を受付けるごとに、ステップS410~ステップS420の処理を繰り返し実行すればよい。
【0205】
出力制御部12Dは、ステップS412で選択された学習用フレームとステップS420で該学習用フレームに含まれる対象に付与された行動ラベルとを対応付けて、記憶部16などへ出力する(ステップS422)。そして、本ルーチンを終了する。
【0206】
以上説明したように、本実施形態の学習データ生成装置10Dは、フレームと、フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像と、を含む表示画面40を表示部20に表示する。
【0207】
対象の行動には、言語では表現しにくい行動や動作がある。また、行動ラベルの言葉の定義があいまいな場合がある。このため、行動ラベルを表す文字を選択可能に表示した場合、ユーザは対象に付与すべき行動ラベルを選択することが難しい場合がある。一方、本実施形態では、表示制御部28Eは、学習用フレームに含まれる対象に付与する行動ラベルの画像の一覧を表示部20へ表示する。このため、ユーザは、目視で行動ラベルの画像を確認することで、行動ラベルを付与する対象に視覚的に類似する類似行動を表す行動ラベルの画像を、容易に特定することができる。すなわち、ユーザは、行動ラベルを容易に指定することができる。
【0208】
従って、本実施形態の学習データ生成装置10Dは、上記効果に加えて、学習用フレームに含まれる対象に付与する行動ラベルを容易に選択可能に提供することができる。
【0209】
次に、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dのハードウェア構成の一例を説明する。
【0210】
図19は、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dの一例のハードウェア構成図である。
【0211】
上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dは、CPU(Central Processing Unit)86、ROM(Read Only Memory)88、RAM(Random Access Memory)90、およびI/F92等がバス94により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
【0212】
CPU86は、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dを制御する演算装置である。ROM88は、CPU86による情報処理を実現するプログラム等を記憶する。RAM90は、CPU86による各種処理に必要なデータを記憶する。I/F82は、通信部14、記憶部16、入力部18、および表示部20などに接続し、データを送受信するためのインターフェースである。
【0213】
上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dでは、CPU86が、ROM88からプログラムをRAM90上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。
【0214】
なお、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dで実行される上記各処理を実行するためのプログラムは、HDD(ハードディスクドライブ)に記憶されていてもよい。また、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dで実行される上記各処理を実行するためのプログラムは、ROM88に予め組み込まれて提供されていてもよい。
【0215】
また、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dで実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM、CD-R、メモリカード、DVD(Digital Versatile Disk)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dで実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施の形態の学習データ生成装置10A、学習データ生成装置10B、学習データ生成装置10C、および学習データ生成装置10Dで実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。
【0216】
なお、上記には、実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0217】
10、10A、10B、10C、10D 学習データ生成装置
12A 取得部
12B、26B、28B 注目度導出部
12C、24C、26C、28C 選択部
12D 出力制御部
24E、26E、28E 表示制御部
24F、26F、28F 受付部