特開2022-168632 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2022-168632学習データ生成装置、学習データ生成方法、および学習データ生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
4C
4D
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022168632

(43)【公開日】2022-11-08

(54)【発明の名称】学習データ生成装置、学習データ生成方法、および学習データ生成プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221031BHJP

G06T 7/254 20170101ALI20221031BHJP

G06N 20/00 20190101ALI20221031BHJP

【ＦＩ】

G06T7/00 350B

G06T7/254 A

G06N20/00

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2021074232

(22)【出願日】2021-04-26

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】谷洸明

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA59

5L096GA08

5L096GA51

5L096JA11

5L096KA04

(57)【要約】

【課題】対象の行動認識用の効果的な学習データを提供する。
【解決手段】学習データ生成装置１０Ａは、取得部１２Ａと、注目度導出部１２Ｂと、選択部１２Ｃと、を備える。取得部１２Ａは、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部１２Ｃは、注目度に基づいて、時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する。
【選択図】図１

【特許請求の範囲】

【請求項1】

対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する取得部と、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する注目度導出部と、
前記注目度に基づいて、前記時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する選択部と、
を備える学習データ生成装置。

【請求項2】

前記選択部は、
前記注目度の大きさ、および、時系列に連続する前記フレーム間の前記注目度の変化量の少なくとも一方に基づいて、前記時系列データに含まれる１または複数のフレームを前記学習用フレームとして選択する、
請求項１に記載の学習データ生成装置。

【請求項3】

前記選択部は、
前記注目度の大きさが高い順に予め定めた数のフレーム、
前記注目度の大きさが高い順に予め定め割合のフレーム、
前記注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレーム、
前記注目度の前記変化量が閾値以上のフレーム、
および、
前記注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレーム、
の何れか１つの条件を満たすフレームを前記学習用フレームとして選択する、
請求項２に記載の学習データ生成装置。

【請求項4】

前記選択部は、
前記学習用フレームに、前記学習済モデルから導出される該学習用フレームに対応する行動ラベルを付与する、
請求項１～請求項３の何れか１項に記載の学習データ生成装置。

【請求項5】

前記学習済モデルは、
前記時系列データまたは前記時系列データとは異なる他の時系列データを用いて予め学習された、学習モデルである、
請求項１～請求項４の何れか１項に記載の学習データ生成装置。

【請求項6】

フレームと、該フレームの前記注目度と、を含む表示画面を表示部に表示する表示制御部と、
フレームの選択を受付ける受付部と、
を備え、
前記選択部は、受付けたフレームを前記学習用フレームとして選択する、
請求項１～請求項５の何れか１項に記載の学習データ生成装置。

【請求項7】

前記受付部は、
フレームに付与する行動ラベルの入力を受付け、
前記選択部は、
選択を受付けたフレームに入力を受付けた前記行動ラベルを付与する、
請求項６に記載の学習データ生成装置。

【請求項8】

前記注目度導出部は、
前記学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの時間軸方向の特徴量である前記注目度を導出する、
請求項６または請求項７に記載の学習データ生成装置。

【請求項9】

前記表示制御部は、
フレームと、該フレームに含まれる前記対象の前記注目度と、を含む前記表示画面を前記表示部に表示する、
請求項８に記載の学習データ生成装置。

【請求項10】

前記表示制御部は、
フレームと、該フレームに含まれる前記対象の前記注目度と、前記対象の行動の大きさ情報と、を含む前記表示画面を前記表示部に表示する、
請求項８または請求項９に記載の学習データ生成装置。

【請求項11】

前記表示制御部は、
フレームと、該フレームに含まれる前記対象の特徴量に類似する予め記憶された記憶特徴量に対応する行動ラベルの画像と、を含む前記表示画面を前記表示部に表示する、
請求項８～請求項１０の何れか１項に記載の学習データ生成装置。

【請求項12】

前記学習用フレームを出力する出力制御部、をさらに備える、
請求項１～請求項１１の何れか１項に記載の学習データ生成装置。

【請求項13】

前記出力制御部は、
前記学習用フレームと、行動ラベルおよび該学習用フレームから導出される付加情報の少なくとも一方と、を対応付けて出力する、
請求項１２に記載の学習データ生成装置。

【請求項14】

前記時系列データは、
画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、前記対象の関節位置を表す骨格情報の時系列データ、および、前記対象の加速度の時系列データ、の少なくとも１つである、
請求項１～請求項１３の何れか１項に記載の学習データ生成装置。

【請求項15】

前記対象は、移動体である
請求項１～請求項１４の何れか１項に記載の学習データ生成装置。

【請求項16】

対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得し、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出し、
前記注目度に基づいて、前記時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する、
学習データ生成方法。

【請求項17】

対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得するステップと、
学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出するステップと、
前記注目度に基づいて、前記時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択するステップと、
をコンピュータに実行させるための学習データ生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施の形態は、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムに関する。

【背景技術】

【0002】

人物などの対象の行動認識に関する学習モデルの生成が行われている。例えば、時系列データを構成する複数のフレームの内、物体検出により検出した対象を含むフレームを、学習データとして用いる事が行われている。

【0003】

しかし、従来技術では、対象の行動に拘わらず、単に対象を含むフレームが選択されていた。このため、従来技術では、対象の行動認識用の効果的な学習データが提供されていなかった。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０２０－５３０１６２号公報

【非特許文献】

【0005】

【非特許文献1】ＡｎＥｎｄ－ｔｏ－ＥｎｄＳｐａｔｉｏ－ＴｅｍｐｏｒａｌＡｔｔｅｎｔｉｏｎＭｏｄｅｌｆｏｒＨｕｍａｎＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎｆｒｏｍＳｋｅｌｅｔｏｎＤａｔａ［Ｓｉｊｉｅｅｔａｌ．ＡＡＡＩ２０１７］

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、上記に鑑みてなされたものであって、対象の行動認識用の効果的な学習データを提供することができる、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

実施の形態の学習データ生成装置は、取得部と、注目度導出部と、選択部と、を備える。取得部は、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部は、学習済モデルを用いて、前記時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部は、前記注目度に基づいて、前記時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する。

【図面の簡単な説明】

【0008】

【図1】学習データ生成装置のブロック図。

【図2】注目度導出部の機能的構成のブロック図。

【図3】注目度導出の説明図。

【図4A】学習用フレームの選択の説明図。

【図4B】学習用フレームの選択の説明図。

【図4C】学習用フレームの選択の説明図。

【図4D】学習用フレームの選択の説明図。

【図5】学習データ生成装置で実行する情報処理のフローチャート。

【図6】学習データ生成装置のブロック図。

【図7】表示画面の模式図。

【図8】表示画面の模式図。

【図9】学習データ生成装置で実行する情報処理のフローチャート。

【図10】学習データ生成装置を示すブロック図。

【図11】表示画面の模式図。

【図12】表示画面の模式図。

【図13】表示画面の模式図。

【図14】学習データ生成装置で実行する情報処理のフローチャート。

【図15】行動ラベルＤＢのデータ構成の模式図。

【図16】表示制御部の機能的構成のブロック図。

【図17】表示画面の模式図。

【図18】学習データ生成装置で実行する情報処理のフローチャート。

【図19】ハードウェア構成図。

【発明を実施するための形態】

【0009】

以下に添付図面を参照して、学習データ生成装置、学習データ生成方法、および学習データ生成プログラムを詳細に説明する。

【0010】

（第１の実施の形態）
図１は、本実施の形態の学習データ生成装置１０Ａの構成の一例を示すブロック図である。

【0011】

学習データ生成装置１０Ａは、学習データ生成装置１０の一例である。学習データ生成装置１０は、学習データを生成する情報処理装置である。

【0012】

学習データは、対象の行動認識に関する学習モデルの学習に用いられるデータである。

【0013】

対象とは、行動認識の対象となる物である。対象は、具体的には、移動体である。移動体とは、移動する物である。移動体は、例えば、人物、動物、自動車、船舶、ロボット、ドローンなどである。本実施形態では、対象が人物である場合を一例として説明する。

【0014】

行動とは、対象の動きである。行動認識とは、対象の行動を認識することを意味する。

【0015】

対象の行動認識に関する学習モデルは、フレームを入力とし、対象の行動認識に関する情報を出力とする、学習モデルである。学習モデルは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、またはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などのニューラルネットワークで構成される深層学習モデルである。

【0016】

フレームとは、対象に関する情報である。フレームの詳細は後述する。対象の行動認識に関する情報は、例えば、フレームの特徴量、フレームに含まれる対象の特徴量、特徴量を用いて複数のフレームをクラス分類したクラス分類結果およびクラスラベル、などである。クラス分類結果およびクラスラベルを出力する学習モデルは、クラス分類器と称される場合がある。

【0017】

学習データ生成装置１０Ａは、学習用フレームを生成する。学習用フレームは、学習モデルの学習に用いる学習データとして選択されたフレームである。

【0018】

学習データ生成装置１０Ａは、制御部１２と、通信部１４と、記憶部１６と、入力部１８と、表示部２０と、を備える。制御部１２と、通信部１４、記憶部１６、入力部１８、および表示部２０とは、バス２２を介して通信可能に接続されている。

【0019】

通信部１４は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。

【0020】

記憶部１６は、各種のデータを記憶する。記憶部１６は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１６は、学習データ生成装置１０Ａの外部に設けられた記憶装置であってもよい。また、記憶部１６は、プログラムや各種の情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶した記憶媒体であってもよい。

【0021】

入力部１８は、ユーザによる各種の操作を受付ける。入力部１８は、例えば、キーボード、マウス、ポインティングデバイス、マイクロフォン、などである。

【0022】

表示部２０は、各種の情報を表示する。表示部２０は、例えば、ディスプレイ、投影装置、などである。表示部２０と入力部１８とを一体的に構成し、タッチパネルとして構成してもよい。

【0023】

記憶部１６および制御部１２の少なくとも一方を、ネットワークおよび通信部１４を介して接続されたサーバ装置などの外部の情報処理装置に搭載した構成としてもよい。また、制御部１２に含まれる後述する機能部の少なくとも１つを、ネットワークおよび通信部１４を介して制御部１２に接続された、サーバ装置などの外部の情報処理装置に搭載してもよい。

【0024】

次に、制御部１２について詳細に説明する。制御部１２は、学習データ生成装置１０Ａにおいて各種の情報処理を実行する。

【0025】

制御部１２は、取得部１２Ａと、注目度導出部１２Ｂと、選択部１２Ｃと、出力制御部１２Ｄと、を備える。

【0026】

取得部１２Ａ、注目度導出部１２Ｂ、選択部１２Ｃ、および出力制御部１２Ｄは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0027】

取得部１２Ａは、時系列データを取得する。取得部１２Ａは、対象を検出するセンサから時系列データを取得する。センサは、例えば、撮影装置、加速度計、などのセンシングデバイスである。取得部１２Ａは、記憶部１６から時系列データを取得してもよい。また、取得部１２Ａは、通信部１４を介して外部の情報処理装置などから時系列データを取得してもよい。

【0028】

時系列データとは、時系列に連続する複数のフレームを含むデータである。時系列データは、例えば、画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、対象の関節位置を表す骨格情報の時系列データ、および、対象の加速度の時系列データ、の少なくとも１つである。上述したように、フレームとは、対象に関する情報である。具体的には、フレームは、対象を含む静止画像、対象の骨格情報、対象の加速度、などである。

【0029】

画像の時系列データは、例えば、動画像データである。時系列データが動画像データである場合、例えば、取得部１２Ａは、動画像を撮影する撮影装置から時系列データを取得する。動画像データを時系列データとして取得する場合、取得部１２Ａは、静止画像、または静止画像に含まれる対象ごとの対象領域をフレームとする時系列データを取得する。例えば、外部の情報処理装置は、静止画像に含まれる対象を物体検出および一般物体追跡などの検出技術を用いて検出し、検出した対象の領域である対象領域をフレームとする時系列列データを生成する。対象領域は、例えば、静止画像における対象の、位置、大きさ、および範囲などによって表される。取得部１２Ａは、情報処理装置から時系列データを取得すればよい。

【0030】

骨格情報または加速度の時系列データを取得する場合、取得部１２Ａは、対象の骨格情報または対象の加速度をフレームとする時系列データを取得する。例えば、外部の情報処理装置は、静止画像に含まれる対象の骨格情報を公知の画像処理技術を用いて抽出し、抽出した骨格情報をフレームとする時系列データ生成する。また、例えば、外部の情報処理装置は、静止画像に含まれる対象の加速度を公知の画像処理技術等を用いて検出し、検出した対象の加速度をフレームとする時系列データを生成する。取得部１２Ａは、これらの情報処理装置から時系列データを取得すればよい。

【0031】

なお、取得部１２Ａが、静止画像に含まれる対象領域を物体検出および一般物体追跡などの検出技術を用いて検出することで、対象領域をフレームとする時系列データを取得してもよい。また、取得部１２Ａが、静止画像に含まれる対象の骨格情報または対象の加速度を公知の画像処理技術を用いて抽出することで、対象の骨格情報または加速度をフレームとする時系列データを取得してもよい。

【0032】

注目度導出部１２Ｂは、学習済モデルを用いて、取得部１２Ａで取得した時系列データに含まれる複数のフレームの各々の注目度を導出する。

【0033】

注目度とは、フレームの時間軸方向の特徴量である。このため、注目度は、フレームに含まれる対象が行動しているらしいほど大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。

【0034】

なお、注目度は、フレームに含まれる対象の時間軸方向の特徴量であってもよい。本実施形態では、注目度が、フレームの時間軸方向の特徴量である形態を一例として説明する。

【0035】

学習済モデルとは、フレームを入力とし、対象の行動認識に関する情報を出力とする、学習済の学習モデルである。学習済モデルは、ＣＮＮ、ＧＣＮ、またはＲＮＮなどのニューラルネットワークで構成される深層学習モデルである。学習済モデルは、学習用フレームを学習データとして用いる上記学習モデルと同じモデルであってもよいし、異なるモデルであってもよい。

【0036】

学習済モデルのパラメータは、ＫｉｎｅｔｉｃｓやＮＴＵＲＧＢ＋Ｄなどの行動認識向けの学習データを用いて事前に学習したものを使用する。学習済モデルが事前学習に使用する時系列データは、取得部１２Ａが取得する時系列データであってもよいし、該時系列データとは異なる時系列データであってもよい。すなわち、学習済モデルは、取得部１２Ａで取得する時系列データまたは該時系列データとは異なる他の時系列データを用いて予め学習された、学習モデルである。

【0037】

学習済モデルから出力される対象の行動認識に関する情報は、フレームの特徴量、フレームに含まれる対象の特徴量、特徴量を用いて複数のフレームをクラス分類したクラス分類結果および行動ラベル、などである。行動ラベルは、行動のクラスに付与されるクラスラベルである。行動ラベルは、フレームに含まれる対象の行動を表す情報などである。具体的には、例えば、行動ラベルは、対象が様々な方向に動き回ることを表す「うろうろ」、対象の視線が揺れ動くことを表す「きょろきょろ」、などであるが、これらに限定されない。

【0038】

図２は、注目度導出部１２Ｂの機能的構成の一例のブロック図である。注目度導出部１２Ｂは、学習済モデル１２Ｂ１とプーリング処理部１２Ｂ２とを含む。

【0039】

注目度導出部１２Ｂは、時系列データを学習済モデル１２Ｂ１へ入力することで、学習済モデル１２Ｂ１からフレームごとの特徴量を導出する。注目度導出部１２Ｂは、学習済モデル１２Ｂ１から導出した特徴量における時間軸方向のベクトル値を、注目度として導出する。

【0040】

図３は、注目度導出部１２Ｂによる注目度導出の一例の説明図である。例えば、学習済モデル１２Ｂ１が、時系列データを入力とし、フレームのクラス分類結果および行動ラベルを出力とするモデルである場合を想定して説明する。すなわち、学習済モデル１２Ｂ１がクラス分類器である場合を想定する。注目度導出部１２Ｂは、学習済モデル１２Ｂ１へ時系列データを入力する。学習済モデル１２Ｂ１は、結果出力の過程でフレームごとの特徴量を算出する。注目度導出部１２Ｂは、この特徴量を取得する。

【0041】

詳細には、例えば、学習済モデル１２Ｂ１は、公知の畳み込み演算の繰返しなどにより、時系列データのフレームの各々から複数のテンソルを導出する。注目度導出部１２Ｂは、学習済モデル１２Ｂ１が結果を出力する最終層より前の層から単数あるいは複数のテンソルをフレームごとに抽出する。そして、注目度導出部１２Ｂは、フレームごとに抽出した１または複数のテンソルから、フレームの特徴量を導出する。１つのフレームに対して複数のテンソルを抽出した場合には、注目度導出部１２Ｂは、抽出した複数のテンソルの足し合わせなどの統合処理を行った後に、フレームの特徴量を導出する。

【0042】

導出された特徴量は、多次元ベクトルで表される。例えば、図３に示すように、フレームの特徴量（図３中、符号ＦＶ参照）は、時間、高さ、横幅、の多次元ベクトルで表される。

【0043】

プーリング処理部１２Ｂ２は、多次元ベクトルで表される特徴量を、１次元のベクトルに変換することで、注目度を導出する。詳細には、プーリング処理部１２Ｂ２は、プーリング処理を行うことで、多次元ベクトルで表される特徴量を、時間軸方向のみの一次元の特徴量である注目度（図３中、符号Ｄ参照）に変換する。すなわち、プーリング処理部１２Ｂ２は、時間軸方向以外の次元の特徴量を除去することで、時間軸方向の一次元の特徴量である注目度を導出する。プーリング処理には、除去する次元に沿って平均値をとるＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ、最大値をとるＭａｘＰｏｏｌｉｎｇなどを適用すればよい。時間軸方向の特徴量である注目度は、フレームに含まれる対象が行動しているらしいほど大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。

【0044】

図１に戻り説明を続ける。選択部１２Ｃは、注目度導出部１２Ｂで導出された注目度に基づいて、時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する。

【0045】

詳細には、選択部１２Ｃは、注目度の大きさ、および、時系列に連続するフレーム間の注目度の変化量の少なくとも一方に基づいて、時系列データに含まれる１または複数のフレームを学習用フレームとして選択する。

【0046】

具体的には、選択部１２Ｃは、注目度の大きさが高い順に予め定めた数のフレーム、注目度の大きさが高い順に予め定め割合のフレーム、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレーム、注目度の変化量が閾値以上のフレーム、および、注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレーム、の何れか１つの条件を満たすフレームを学習用フレームとして選択する。

【0047】

学習用フレームとして選択する条件は、予め設定すればよい。選択する条件は、例えば、ユーザによる入力部１８の操作指示等により適宜変更可能とすればよい。

【0048】

図４Ａ～図４Ｄは、選択部１２Ｃによる学習用フレームの選択の一例の説明図である。図４Ａ～図４Ｄ中、横軸はフレーム番号を示す。縦軸は注目度を示す。フレーム番号は、時系列データを構成する複数のフレームを時系列順に並べたときに、連続する番号となるように付与される数値である。なお、フレーム番号は、フレームを一意に識別可能な情報であればよい。本実施形態では、フレーム番号が、時系列順に連続する番号である形態を一例として説明する。

【0049】

図４Ａは、注目度の大きさが高い順に予め定めた数のフレームを選択する場合の一例の説明図である。例えば、選択部１２Ｃは、時系列データに含まれる複数のフレームの内、注目度の大きい順に上位Ａ個のフレームを学習用フレームとして選択する。Ａは、１以上の整数であり、且つ、時系列データに含まれるフレームの数未満の数値である。

【0050】

図４Ｂは、注目度の大きさが高い順に予め定め割合のフレームを選択する場合の一例の説明図である。例えば、選択部１２Ｃは、時系列データに含まれる複数のフレームの各々の注目度を、複数のフレームの注目度の内の最大値で除算する。この除算によって、選択部１２Ｃは、時系列データに含まれる複数のフレームの各々の注目度を正規化する。そして、選択部１２Ｃは、時系列データに含まれる複数のフレームの内、正規化した注目度がＢ％以上のフレームを、学習用フレームとして選択する。なお、Ｂは、０より大きく１００未満の実数である。

【0051】

図４Ｃは、注目度が最も高いフレームと該フレームに時系列に連続する予め定めた数のフレームを選択する場合の一例の説明図である。例えば、選択部１２Ｃは、時系列データに含まれる複数のフレームの内、注目度が極大となる１つのフレーム、または、該フレームの前後に連続するＣ個のフレームを学習用フレームとして選択する。前後に連続する、とは、時系列方向の上流側および下流側に連続することを意味する。Ｃは、１以上の整数であり、且つ、時系列データに含まれるフレームの数から１を減算した数未満の数値である。

【0052】

図４Ｄは、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレームを選択する場合の一例の説明図である。例えば、選択部１２Ｃは、時系列データに含まれる複数のフレームの内、注目度の上がり始めの変化点から下がり終わりの変化点までの期間のフレームを学習用フレームとして選択する。変化点は、二階微分から算出される変曲点、または、一階微分から算出される傾きが閾値以上になった点、とすればよい。

【0053】

なお、選択部１２Ｃは、時系列データに含まれる複数のフレームの内、注目度の変化量が閾値以上のフレームを、学習用フレームとして選択してもよい。閾値は、予め設定すればよい。また、閾値は、ユーザによる入力部１８の操作指示などによって変更可能としてもよい。

【0054】

なお、選択部１２Ｃは、複数のフレームを学習用フレームとして選択する場合、時系列に連続する複数のフレームを選択してもよいし、上記条件の何れかを満たす隣接しない間欠な複数のフレームを選択してもよい。

【0055】

図１に戻り説明を続ける。選択部１２Ｃは、選択した学習用フレームを出力制御部１２Ｄへ出力する。

【0056】

なお、選択部１２Ｃは、選択した学習用フレームに、行動ラベルを付与してもよい。例えば、注目度導出部１２Ｂで用いる学習済モデル１２Ｂ１が、時系列データを入力とし、フレームのクラス分類結果および行動ラベルを出力とするクラス分類器である場合を想定する。この場合、選択部１２Ｃは、選択した学習用フレームに、学習済モデル１２Ｂ１から導出された該学習用フレームに対応する行動ラベルを付与すればよい。または、予め時系列データに準備されている行動ラベルを付与してもよい。

【0057】

この場合、ユーザによる操作を介することなく、自動的に学習用フレームに行動ラベルを付与することができる。

【0058】

出力制御部１２Ｄは、選択部１２Ｃから受付けた学習用フレームを出力する。出力とは、記憶部１６への記憶、注目度導出部１２Ｂへの出力、および、通信部１４を介して外部の情報処理装置への送信、の少なくとも１つを意味する。

【0059】

例えば、出力制御部１２Ｄは、学習用フレームを学習データとして記憶部１６へ記憶する。記憶部１６へ記憶された学習用フレームは、例えば、対象の行動認識用の学習モデルの学習、時系列データの代表画像、などに用いられる。代表画像は、サムネイルと称される場合がある。

【0060】

また、出力制御部１２Ｄは、学習用フレームを、通信部１４を介して外部の情報処理装置へ送信してもよい。また、出力制御部１２Ｄは、学習用フレームを、注目度導出部１２Ｂへ出力してもよい。この場合、注目度導出部１２Ｂは、出力制御部１２Ｄから受付けた学習用フレームを学習データとして用いて、学習済モデル１２Ｂ１を更に学習してもよい。

【0061】

なお、出力制御部１２Ｄは、選択部１２Ｃから学習用フレームと行動ラベルとを受付けた場合、学習用フレームと行動ラベルとを対応付けて出力すればよい。

【0062】

また、出力制御部１２Ｄは、学習用フレームと、行動ラベルおよび該学習用フレームから導出される付加情報の少なくとも一方と、を対応付けて出力してもよい。付加情報とは、学習用フレームに関する情報である。例えば、付加情報は、学習用フレームに含まれる、対象の対象領域を表す情報、対象の骨格情報、対象の加速度、などである。出力制御部１２Ｄは、取得部１２Ａからこれらの付加情報を取得し、学習用フレームに対応付けて出力すればよい。

【0063】

次に、本実施形態の学習データ生成装置１０Ａで実行する情報処理の一例を説明する。

【0064】

図５は、本実施形態の学習データ生成装置１０Ａで実行する情報処理の一例を示すフローチャートである。

【0065】

取得部１２Ａが、時系列データを取得する（ステップＳ１００）。注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ１００で取得した時系列データに含まれる複数のフレームの各々の注目度を導出する（ステップＳ１０２）。また、注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ１００で取得した時系列データに含まれる複数のフレームの各々の行動ラベルを導出する（ステップＳ１０４）。

【0066】

選択部１２Ｃは、ステップＳ１０２で導出された注目度に基づいて、ステップＳ１００で取得した時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する（ステップＳ１０６）。

【0067】

選択部１２Ｃは、ステップＳ１０６で選択した学習用フレームに、ステップＳ１０４で導出された行動ラベルを付与する（ステップＳ１０８）。

【0068】

出力制御部１２Ｄは、ステップＳ１０６で選択された学習用フレームとステップＳ１０８で付与された行動ラベルとを対応付けて、記憶部１６などへ出力する（ステップＳ１１０）。そして、本ルーチンを終了する。

【0069】

以上説明したように、本実施形態の学習データ生成装置１０Ａは、取得部１２Ａと、注目度導出部１２Ｂと、選択部１２Ｃと、を備える。取得部１２Ａは、対象を含み且つ時系列に連続する複数のフレームを含む時系列データを取得する。注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度を導出する。選択部１２Ｃは、注目度に基づいて、時系列データに含まれる１または複数のフレームを、学習データに用いる学習用フレームとして選択する。

【0070】

このように、本実施形態の学習データ生成装置１０Ａは、時系列データに含まれる複数のフレームの各々の時間軸方向の特徴量である注目度に基づいて、時系列データに含まれる１または複数のフレームを学習用フレームとして選択する。

【0071】

このため、本実施形態の学習データ生成装置１０Ａは、対象の行動によって変化する時間軸方向の特徴量である注目度に応じたフレームを、学習用フレームとして選択し、学習データとして提供することができる。

【0072】

従って、本実施形態の学習データ生成装置１０Ａは、対象の行動認識用の効果的な学習データを提供することができる。

【0073】

また、注目度は、時間軸方向の特徴量である。注目度は、時間軸方向の特徴量であるため、フレームに含まれる対象が行動しているらしいほど、大きい値となる。すなわち、注目度は、フレームに含まれる対象の行動を認識する際の重要度を指標する値となる。本実施形態の学習データ生成装置１０Ａでは、注目度を用いることで、時系列データに含まれる複数のフレームの内、対象が行動しているフレームを学習用データとして選択する。このため、学習データ生成装置１０Ａは、時系列データに含まれる複数のフレームから、対象の行動に無関係なフレームを除いたフレームを、学習用フレームとして選択することができる。

【0074】

このため、本実施形態の学習データ生成装置１０Ａは、上記効果に加えて、学習に不要なフレームを取り除き、学習に効果的な学習用フレームを、学習データとして提供することができる。また、本実施形態の学習データ生成装置１０Ａは、対象の行動を効果的に確認可能な学習用フレームを提供することができるため、監視作業などの効果的な補助を図ることができる。

【0075】

また、本実施形態の学習データ生成装置１０Ａは、注目度を用いることで、時系列データに含まれる複数のフレームの内、対象が行動しているフレームを学習用フレームとして選択する。このため、少ないフレーム数のデータを学習データとして用いる学習モデルにも適用可能な、学習データを提供することができる。

【0076】

また、本実施形態の学習データ生成装置１０Ａは、学習済の学習モデルである学習済モデル１２Ｂ１を用いて、時系列データに含まれるフレームの注目度を導出する。すなわち、本実施形態の学習データ生成装置１０Ａは、既存の学習モデルを用い、且つ、取得した時系列データを本実施形態で用いるデータ用に特別な加工処理などを行うことなく用いる。このため、本実施形態では、上記効果に加えて、汎用性の高い学習データ生成装置１０Ａを提供することができる。

【0077】

また、本実施形態の学習データ生成装置１０Ａでは、選択部１２Ｃは、注目度の大きさ、および、時系列に連続するフレーム間の注目度の変化量に基づいて、時系列データに含まれる１または複数のフレームを学習用フレームとして選択する。

【0078】

このように、本実施形態の学習データ生成装置１０Ａは、注目度の大きさや変化量に基づいて学習用フレームを選択する。このため、本実施形態の学習データ生成装置１０Ａは、上記効果に加えて、対象が行動しているフレームを自動的に抜き出して選択することができる。

【0079】

また、時系列データは、画像の時系列データ、画像に含まれる対象の対象領域の時系列データ、対象の関節位置を表す骨格情報の時系列データ、および、対象の加速度の時系列データ、の少なくとも１つである。

【0080】

このように、本実施形態の学習データ生成装置１０Ａでは、動画像などの画像の時系列データに限定されず、骨格情報や加速度などの様々な時系列データを用いることができる。このため、本実施形態の学習データ生成装置１０Ａは、上記効果に加えて、様々な環境で用いる学習モデルに適用可能な学習データを提供することができる。また、本実施形態の学習データ生成装置１０Ａは、様々な時系列データを用いることで、環境変化に頑健な注目度を用いて、学習用フレームを選択することができる。

【0081】

また、対象は、行動認識の対象となる物であればよく、人物に限定されない。上述したように、対象は、具体的には、人物、動物、自動車、船舶、ロボット、ドローンなどの移動体である。

【0082】

このため、本実施形態の学習データ生成装置１０Ａは、人物のみに限定されず、動物やロボットなどの様々な移動体を対象とすることができ、幅広いアプリケーションに応用することができる。

【0083】

また、本実施形態の学習データ生成装置１０Ａでは、出力制御部１２Ｄが、選択された学習用フレームを、記憶部１６、外部の情報処理装置、および注目度導出部１２Ｂなどへ出力する。

【0084】

このため、本実施形態の学習データ生成装置１０Ａは、選択された学習用フレームを、学習モデルの学習や、時系列データの確認などのために提供することができる。

【0085】

（第２の実施形態）
本実施形態では、ユーザによるフレームの選択を受付け、受付けたフレームを学習用フレームとして選択する形態を説明する。

【0086】

図６は、本実施形態の学習データ生成装置１０Ｂの一例を示すブロック図である。学習データ生成装置１０Ｂは、学習データ生成装置１０の一例である。

【0087】

なお、本実施形態の学習データ生成装置１０Ｂにおいて、上記実施形態の学習データ生成装置１０Ａと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。

【0088】

学習データ生成装置１０Ｂは、制御部２４と、通信部１４と、記憶部１６と、入力部１８と、表示部２０と、を備える。制御部２４と、通信部１４、記憶部１６、入力部１８、および表示部２０とは、バス２２を介して通信可能に接続されている。学習データ生成装置１０Ｂは、制御部１２に替えて制御部２４を備える点以外は、学習データ生成装置１０Ａと同様である。

【0089】

制御部２４は、学習データ生成装置１０Ｂにおいて各種の情報処理を実行する。

【0090】

制御部２４は、取得部１２Ａと、注目度導出部１２Ｂと、表示制御部２４Ｅと、受付部２４Ｆと、選択部２４Ｃと、出力制御部１２Ｄと、を備える。取得部１２Ａ、注目度導出部１２Ｂ、および出力制御部１２Ｄは、上記実施形態と同様である。

【0091】

表示制御部２４Ｅは、時系列データに含まれるフレームと、フレームの注目度と、を含む表示画面を表示部２０に表示する。

【0092】

図７は、表示画面３０の一例の模式図である。表示画面３０は、例えば、表示領域３０Ａと、表示領域３０Ｂと、設定表示領域３０Ｃと、を含む。

【0093】

表示領域３０Ａは、選択されたフレームを表示するための表示領域である。図７には、対象Ａ、対象Ｂ、および対象Ｃの３つの対象を含むフレームが表示領域３０Ａに表示された形態を一例として示した。

【0094】

表示領域３０Ｂは、フレームの注目度の表示領域である。例えば、表示領域３０Ｂには、取得部１２Ａで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームの注目度と、を表すグラフなどの画像が表示される。

【0095】

設定表示領域３０Ｃは、表示領域３０Ａに表示されているフレームの設定を表示するための領域である。例えば、設定表示領域３０Ｃには、表示領域３０Ａに表示されているフレームの、注目度、フレーム番号、および行動ラベルが表示される。

【0096】

ユーザは、入力部１８を操作することで、設定表示領域３０Ｃに表示されているフレーム番号を変更する。この変更操作により、表示領域３０Ａに表示するフレームのフレーム番号が設定される。表示制御部２４Ｅは、設定されたフレーム番号のフレームの注目度を、設定表示領域３０Ｃに表示する。表示制御部２４Ｅは、設定されたフレーム番号のフレームを、表示領域３０Ａに表示する。また、表示制御部２４Ｅは、表示領域３０Ａに表示されたフレームが何れのフレーム番号であるかを表す情報を、表示領域３０Ｂに表示する。図７には、表示領域３０Ａに表示されているフレームのフレーム番号に相当する位置に、「表示中」の文字を表示する形態を一例として示した。

【0097】

このため、ユーザは、設定表示領域３０Ｃに表示されるフレーム番号の設定を変更することで、時系列データに含まれるフレームの各々の注目度を容易に確認することができる。

【0098】

また、表示制御部２４Ｅは、表示領域３０Ａに表示されているフレームに付与する行動ラベルを選択可能に設定表示領域３０Ｃに表示する。例えば、表示制御部２４Ｅは、取得部１２Ａで取得した時系列データを用いて学習済モデル１２Ｂ１で導出された１または複数の行動ラベルを、選択可能に設定表示領域３０Ｃに表示する。ユーザは、入力部１８を操作することで、設定表示領域３０Ｃに表示された行動ラベルから、表示領域３０Ａに表示されているフレームに付与する行動ラベルを設定することができる。なお、ユーザが入力部１８を操作することで、任意の名称の行動ラベルを設定表示領域３０Ｃに入力する形態であってもよい。

【0099】

ユーザは、表示画面３０に表示された注目度を参照しながら入力部１８を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとして選択する対象のフレームが表示領域３０Ａに表示されている状態で、入力部１８を操作して選択ボタン３０Ｄを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。

【0100】

図６に戻り説明を続ける。受付部２４Ｆは、入力部１８からフレームの選択を受付ける。例えば、受付部２４Ｆは、選択ボタン３０Ｄが操作されたときに表示領域３０Ａに表示されていたフレームのフレーム番号を、表示制御部２４Ｅから受付ける。このとき、受付部２４Ｆは、該フレームの行動ラベルを更に受付けてもよい。すなわち、受付部２４Ｆは、入力部１８の操作によって選択ボタン３０Ｄが操作されたときに、設定表示領域３０Ｃに表示されていたフレーム番号および行動ラベルを受付ける。

【0101】

選択部２４Ｃは、受付部２４Ｆで受付けたフレームを、学習用フレームとして選択する。詳細には、選択部２４Ｃは、受付部２４Ｆで新たなフレーム番号を受付ける毎に、受付けたフレーム番号によって識別されるフレームを、学習用フレームとして選択する。このため、選択部２４Ｃは、表示部２０に表示された注目度に応じてユーザによって選択された１または複数のフレームを、学習用フレームとして選択することができる。

【0102】

なお、選択部２４Ｃは、フレーム番号および行動ラベルを受付けた場合には、選択を受付けたフレーム番号によって識別されるフレームを学習用フレームとして選択するとともに、該学習用フレームに受付けた行動ラベルを付与すればよい。

【0103】

なお、表示制御部２４Ｅが表示部２０に表示する表示画面３０は、図７に示す形態に限定されない。例えば、表示制御部２４Ｅは、注目度の高い順に複数のフレームを表示部２０に表示してもよい。

【0104】

図８は、表示画面３２の一例の模式図である。表示画面３２は、例えば、表示領域３２Ａと、表示領域３２Ｂと、を含む。

【0105】

表示領域３２Ａは、選択されたフレームを表示するための表示領域である。図８には、対象Ａ、対象Ｂ、および対象Ｃの３つの対象を含むフレームが表示領域３２Ａに表示された形態を一例として示した。なお、表示制御部２４Ｅは、フレームに含まれる対象以外の領域である背景領域を、対象より薄い色または高い透明度で表示してもよい。この場合、表示制御部２４Ｅは、フレームに含まれる対象をユーザに分かりやすく表示することができる。

【0106】

表示領域３２Ｂは、時系列データに含まれる複数のフレームを表示するための表示領域である。表示制御部２４Ｅは、時系列データに含まれる複数のフレームを、注目度の高い順に配列して表示領域３２Ｂに表示する。ユーザは入力部１８を操作することで、表示領域３２Ｂに表示された複数のフレームの内、所望のフレームを選択する。表示制御部２４Ｅは、表示領域３２Ｂに表示された複数のフレームの内、ユーザによって選択されたフレームを表示領域３２Ａへ表示する。

【0107】

表示領域３２Ａには、行動ラベルの選択領域が設けられていてもよい。表示制御部２４Ｅは、図７の設定表示領域３０Ｃと同様に、表示領域３２Ａに表示されているフレームに付与する行動ラベルを選択可能に表示すればよい。なお、ユーザが入力部１８を操作することで、任意の名称の行動ラベルを入力する形態であってもよい。

【0108】

ユーザは入力部１８を操作することで、注目度の高い順に配列されて表示領域３２Ｂに表示された複数のフレームの中から、学習用フレームとするフレームを選択する。この操作により、表示制御部２４Ｅは、表示領域３２Ｂに表示され複数のフレームの内、ユーザによって選択されたフレームを表示領域３２Ａへ表示する。ユーザは、学習用フレームとして選択する対象のフレームが表示領域３２Ａに表示されている状態で、入力部１８を操作して選択ボタン３２Ｃを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。

【0109】

受付部２４Ｆは、入力部１８からフレームの選択を受付ける。また、受付部２４Ｆは、該フレームの行動ラベルを更に受付けてもよい。詳細には、受付部２４Ｆは、選択されたフレームのフレーム番号および行動ラベルを受付ける。選択部２４Ｃは、受付部２４Ｆで受付けたフレームを学習用フレームとして選択し、受付けた行動ラベルを付与する。詳細には、選択部２４Ｃは、受付部２４Ｆで新たなフレーム番号および行動ラベルを受付ける毎に、受付けたフレーム番号によって識別されるフレームを学習用フレームとして選択し行動ラベルを付与する。

【0110】

このように、表示制御部２４Ｅは、時系列データに含まれる複数のフレームを、注目度の高い順に配列して表示部２０へ表示してもよい。この場合、ユーザは、表示領域３２Ｂに表示されたフレームの配列を確認することで、フレームの各々の注目度を確認することができる。このため、この場合、ユーザは、フレームの注目度の値を確認することなく、フレームの配列順を確認することで、容易に注目度に応じたフレームを学習用フレームとして選択することができる。

【0111】

次に、本実施形態の学習データ生成装置１０Ｂで実行する情報処理の一例を説明する。

【0112】

図９は、本実施形態の学習データ生成装置１０Ｂで実行する情報処理の一例を示すフローチャートである。

【0113】

取得部１２Ａが、時系列データを取得する（ステップＳ２００）。注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ２００で取得した時系列データに含まれる複数のフレームの各々の注目度を導出する（ステップＳ２０２）。また、注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ２００で取得した時系列データに含まれる複数のフレームの各々の行動ラベルを導出する（ステップＳ２０４）。

【0114】

表示制御部２４Ｅは、ステップＳ２００で取得した時系列データに含まれるフレームと、フレームの注目度と、を含む表示画面３０を表示部２０に表示する（ステップＳ２０６）。

【0115】

受付部２４Ｆは、フレームの選択を入力部１８および表示制御部２４Ｅから受付ける（ステップＳ２０８）。本実施形態では、フレームおよび行動ラベルの選択を受付けた場合を想定して説明する。

【0116】

選択部２４Ｃは、ステップＳ２０８で受付けたフレームを、学習用フレームとして選択する（ステップＳ２１０）。選択部２４Ｃは、ステップＳ２１０で選択した学習用フレームに、ステップＳ２０８で受付けた行動ラベルを付与する（ステップＳ２１２）。

【0117】

なお、複数のフレームの選択を受付けた場合には、新たなフレームの選択を受付けるごとに、ステップ２０８～ステップＳ２１２の処理を繰り返し実行すればよい。

【0118】

出力制御部１２Ｄは、ステップＳ２１０で選択された学習用フレームとステップＳ２１２で付与された行動ラベルとを対応付けて、記憶部１６などへ出力する（ステップＳ１１０）。そして、本ルーチンを終了する。

【0119】

以上説明したように、本実施形態の学習データ生成装置１０Ｂは、表示制御部２４Ｅが、フレームと、フレームの注目度と、を含む表示画面３０または表示画面３２を表示部２０へ表示する。受付部２４Ｆは、フレームの選択を受付ける。選択部２４Ｃは、受付部２４Ｆで受付けたフレームを学習用フレームとして選択する。

【0120】

本実施形態の学習データ生成装置１０Ｂでは、ユーザが、表示部２０に表示されたフレームおよび注目度を参照することで、注目度に基づいて学習用フレームとするフレームを選択する。受付部２４Ｆは、ユーザによる選択を受付け、選択部２４Ｃは、受付部２４Ｆで受付けたフレームを学習用フレームとして選択する。

【0121】

このため、本実施形態の学習データ生成装置１０Ｂは、上記実施形態の効果に加えて、注目度に応じてユーザによって選択されたフレームを、学習用フレームとして選択することができる。

【0122】

また、本実施形態の学習データ生成装置１０Ｂでは、ユーザは、表示部２０に表示された注目度を確認しながら、学習用フレームとするフレームおよび行動ラベルを選択することができる。このため、ユーザは、フレームに含まれる対象の行動の重要度を指標する値である注目度に基づいて、容易に学習用フレームとするフレームを選択することができる。

【0123】

（第３の実施形態）
上記実施形態では、注目度が、フレームの時間軸方向の特徴量である形態を一例として説明した。しかし、上述したように、注目度は、フレームに含まれる対象の時間軸方向の特徴量であってもよい。本実施形態では、注目度が、フレームに含まれる対象の時間軸方向の特徴量である形態を一例として説明する。

【0124】

図１０は、本実施形態の学習データ生成装置１０Ｃの一例を示すブロック図である。学習データ生成装置１０Ｃは、学習データ生成装置１０の一例である。

【0125】

なお、本実施形態の学習データ生成装置１０Ｃにおいて、上記実施形態の学習データ生成装置１０Ａまたは学習データ生成装置１０Ｂと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。

【0126】

学習データ生成装置１０Ｃは、制御部２６と、通信部１４と、記憶部１６と、入力部１８と、表示部２０と、を備える。制御部２６と、通信部１４、記憶部１６、入力部１８、および表示部２０とは、バス２２を介して通信可能に接続されている。学習データ生成装置１０Ｃは、制御部１２または制御部２４に替えて制御部２６を備える点以外は、学習データ生成装置１０Ａまたは学習データ生成装置１０Ｂと同様である。

【0127】

制御部２６は、学習データ生成装置１０Ｃにおいて各種の情報処理を実行する。

【0128】

制御部２６は、取得部１２Ａと、注目度導出部２６Ｂと、表示制御部２６Ｅと、受付部２６Ｆと、選択部２４Ｃと、出力制御部１２Ｄと、を備える。取得部１２Ａおよび出力制御部１２Ｄは、上記実施形態と同様である。

【0129】

注目度導出部２６Ｂは、学習済モデル１２Ｂ１を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの、時間軸方向の特徴量である注目度を導出する。

【0130】

例えば、撮影装置で撮影された映像中に対象が単数且つ十分な大きさで映る場合がある。この場合、注目度は、フレーム全体の時間軸方向の特徴量であることが好ましい。一方、映像中に複数の対象が含まれる場合、または、対象が小さいサイズで映る場合がある。この場合、注目度は、フレームに含まれる対象ごとの時間軸方向の特徴量であることが好ましい。対象ごとの時間軸方向の特徴量を用いることで、背景領域の影響の少ない注目度とすることができる。また、対象以外の領域の影響を除去した注目度とすることができる。また、対象ごとの加速度がセンシングされた場合、対象ごとに、加速度から導出された注目度とすることができる。

【0131】

注目度導出部２６Ｂは、時系列データに含まれる対象のサイズや数などの対象の状態に応じて、フレームごとの注目度、および、対象ごとの注目度、の何れを導出するかを選択してもよい。フレームごとの注目度を導出する場合、注目度導出部２６Ｂは、上記実施形態の注目度導出部１２Ｂと同様の処理を実行すればよい。本実施形態では、注目度導出部２６Ｂが、フレームに含まれる対象ごとに注目度を導出する形態を説明する。

【0132】

注目度導出部２６Ｂは、時系列データを学習済モデル１２Ｂ１へ入力することで、学習済モデル１２Ｂ１からフレームの各々に含まれる対象ごとの特徴量を導出する。注目度導出部２６Ｂは、学習済モデル１２Ｂ１から導出した対象の特徴量における、時間軸方向のベクトル値を、対象の注目度として導出する。なお、注目度導出部２６Ｂは、フレームの注目度と、フレームに含まれる対象の注目度と、の双方を導出してもよい。

【0133】

表示制御部２６Ｅは、時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面を表示部２０に表示する。

【0134】

図１１は、表示画面３４の一例の模式図である。表示画面３４は、例えば、表示領域３４Ａと、表示領域３４Ｂと、設定表示領域３４Ｃと、を含む。

【0135】

表示領域３４Ａは、選択されたフレームを表示するための表示領域である。図１１には、対象Ａ、対象Ｂ、および対象Ｃの３つの対象を含むフレームが表示領域３４Ａに表示された形態を一例として示した。また、図１１には、対象Ａが選択された状態を一例として示した。

【0136】

表示領域３４Ｂは、フレームの注目度の表示領域である。例えば、表示領域３４Ｂには、取得部１２Ａで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームの注目度と、を表すグラフなどの画像が表示される。なお、表示領域３４Ｂは、フレームに含まれる対象の注目度の表示領域であってもよい。

【0137】

設定表示領域３４Ｃは、表示領域３４Ａに表示されているフレームに含まれる対象の設定を表示するための領域である。例えば、設定表示領域３４Ｃには、表示領域３４Ａに表示されているフレームに含まれる対象、対象の注目度、フレーム番号、および対象の行動ラベルが表示される。

【0138】

ユーザは、入力部１８を操作することで、設定表示領域３４Ｃに表示されているフレーム番号を変更する。この変更操作により、表示領域３４Ａに表示するフレームのフレーム番号が設定される。表示制御部２６Ｅは、設定されたフレーム番号のフレームを、表示領域３４Ａに表示する。また、表示制御部２６Ｅは、表示領域３４Ａに表示されたフレームが何れのフレーム番号であるかを表す情報を、表示領域３４Ｂに表示する。図１１には、表示領域３４Ａに表示されているフレームのフレーム番号に相当する位置に、「表示中」の文字を表示する形態を一例として示した。

【0139】

また、ユーザは、入力部１８を操作することで、設定表示領域３４Ｃに表示されている対象の設定を変更する。この変更操作により、注目度を表示する対象が設定される。表示制御部２６Ｅは、設定された対象の注目度を設定表示領域３４Ｃへ表示する。図１１には、一例として、対象Ａが設定され、対象Ａの注目度が設定表示領域３４Ｃへ表示された状態を示した。

【0140】

また、表示制御部２６Ｅは、選択されている対象を表す画像を表示領域３４Ａに表示する。図１１には、表示領域３４Ａに、対象Ａを囲む枠線を表示した形態を一例として示した。

【0141】

ユーザは、設定表示領域３４Ｃに表示されるフレーム番号および対象の設定を変更することで、設定したフレーム番号のフレームに含まれる設定した対象の注目度を、容易に確認することができる。

【0142】

また、表示制御部２６Ｅは、設定されている対象に付与する行動ラベルを選択可能に設定表示領域３４Ｃに表示する。例えば、表示制御部２６Ｅは、取得部１２Ａで取得した時系列データを用いて学習済モデル１２Ｂ１で導出された対象の行動ラベルを、選択可能に設定表示領域３４Ｃに表示する。ユーザは、入力部１８を操作することで、設定表示領域３４Ｃに表示された行動ラベルから、設定されている対象に付与する行動ラベルを設定することができる。なお、ユーザが入力部１８を操作することで、任意の名称の行動ラベルを設定表示領域３４Ｃに入力する形態であってもよい。

【0143】

ユーザは、表示画面３４に表示された対象の注目度を参照しながら入力部１８を操作することで、学習用フレームとするフレームを選択する。すなわち、ユーザは、表示部２０に表示された対象の注目度を確認しながら、フレームを確認し選択することができる。

【0144】

例えば、ユーザは、学習用フレームとして選択する対象のフレームが表示領域３４Ａに表示されている状態で、入力部１８を操作して選択ボタン３４Ｄを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。

【0145】

なお、表示制御部２６Ｅが表示部２０に表示する表示画面３４は、図１１に示す形態に限定されない。例えば、表示制御部２４Ｅは、フレームに含まれる対象の注目度をグラフで表示してもよい。

【0146】

図１２は、表示画面３６の一例の模式図である。表示画面３６は、例えば、表示領域３６Ａと、表示領域３６Ｂと、表示領域３６Ｃと、を含む。

【0147】

表示領域３６Ａは、選択されたフレームおよび対象の注目度を表示するための表示領域である。図１２には、対象Ａ、対象Ｂ、および対象Ｃの３つの対象を含むフレームが表示領域３６Ａに表示された形態を一例として示した。また、図１２には、対象Ａが選択された状態を一例として示した。図１２に示すように、表示領域３６Ａに含まれる対象の表示領域の各々に、対象の注目度を表示してもよい。

【0148】

表示領域３６Ｂは、対象の注目度の表示領域である。例えば、表示領域３６Ｂには、取得部１２Ａで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームに含まれる、選択された対象の注目度と、を表すグラフなどの画像が表示される。図１２には、対象Ａが選択され、対象Ａの注目度が表示された状態を一例として示した。

【0149】

なお、図１２には、１つのフレームに複数の対象が含まれる場合を一例として示した。そして、図１２には、表示制御部２６Ｅは、複数の対象の各々の注目度を表すグラフを表示領域３６Ｂに表示し、選択された対象の注目度を実線で表示した例を示した。なお、表示領域３６Ｂには、選択された１つの対象の注目度を示すグラフを表示する形態であってもよい。また、１つのフレームに複数の対象が含まれる場合には、表示制御部２６Ｅは、複数の対象の各々の注目度の平均値、または、これらの注目度の合計値を表すグラフを、表示領域３６Ｂに表示してもよい。

【0150】

ユーザは、入力部１８を操作することで、表示領域３６Ｂに表示されているフレーム番号および対象を変更する。この変更操作により、表示領域３６Ａに表示するフレームのフレーム番号が設定される。表示制御部２６Ｅは、設定されたフレーム番号のフレームを、表示領域３４Ａに表示する。このとき、表示制御部２６Ｅは、フレームに含まれる対象の各々の注目度を、表示領域３６Ａに表示する。

【0151】

そして、ユーザは、表示画面３６に表示された対象の注目度を参照しながら入力部１８を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとする対象のフレームが表示領域３６Ａに表示されている状態で、入力部１８を操作して選択ボタン３６Ｄを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。

【0152】

このため、ユーザは、表示画面３６を視認することで、対象の注目度を確認しながら、注目度の大きい対象を含むフレームを容易に確認することができる。また、ユーザは、表示部２０に表示された対象の注目度を確認しながら、学習用フレームとするフレームを選択することができる。

【0153】

注目度の大きい対象を含むフレームは、何等かのイベントが発生したフレームである可能性が高い。このため、表示制御部２６Ｅは、対象の注目度を表示することで、何等かのイベントが発生している可能性の高いフレームを、ユーザに対して容易に特定可能に提供することができる。また、このようなフレームが学習用フレームとして選択されることで、学習データ生成装置１０Ｃは、監視作業にも適用可能な学習用フレームを提供することができる。

【0154】

なお、表示制御部２６Ｅは、フレームと、フレームに含まれる対象の注目度と、対象の行動の大きさ情報と、を含む表示画面を表示部２０へ表示してもよい。

【0155】

対象の行動の大きさ情報とは、フレームに含まれる対象の行動の大きさを表す情報である。対象の行動の大きさ情報には、例えば、異なる２つの時刻のフレームから計算されるオプティカルフロー、異なる２つの時刻の骨格情報の座標の変化量、などを用いればよい。対象の行動の大きさ情報は、注目度導出部２６Ｂで算出すればよい。

【0156】

対象の注目度と、対象の行動の大きさ情報と、を表示部２０へ表示することで、ユーザは、対象の行動の大きさと注目度を考慮して、学習用フレームとするフレームを選択することができる。また、ユーザは、対象の行動の大きさ情報を視認することで、行動の大きい対象を含むフレーム、すなわち、何等かのイベントが発生しているフレームを容易に発見することができる。

【0157】

なお、表示制御部２６Ｅは、行動ラベルごとに注目度を表示してもよい。表示制御部２６Ｅは、Ｇｒａｄ－ＣＡＭなどのクラスラベルに対応する注目度を算出する技術を利用することで、行動ラベルごとの注目度を算出し、表示すればよい。

【0158】

図１３は、表示画面３８の一例の模式図である。表示画面３８は、例えば、表示領域３８Ａと、表示領域３８Ｂと、を含む。

【0159】

表示領域３８Ａは、選択されたフレームおよび対象の注目度を表示するための表示領域である。図１３には、対象Ａ、対象Ｂ、および対象Ｃの３つの対象を含むフレームが表示領域３８Ａに表示された形態を一例として示した。また、図１３には、対象Ａが選択された状態を一例として示した。また、表示領域３８Ａには、選択された対象Ａ、該対象Ａに付与された行動ラベル、表示領域３８Ａに表示されているフレームのフレーム番号、該対象Ａの注目度、が表示される。

【0160】

表示領域３８Ｂは、行動ラベルごとの注目度の表示領域である。例えば、表示領域３８Ｂには、取得部１２Ａで取得した時系列データに含まれるフレームのフレーム番号と、フレーム番号によって識別されるフレームに含まれる対象の行動ラベルの注目度と、を行動ラベルごとに表すグラフなどの画像が表示される。図１３の表示領域３８Ｂには、「うろうろ」および「きょろきょろ」等の行動ラベルごとの注目度のグラフが表示された例を一例として示した。

【0161】

ユーザは、表示画面３８に表示された行動ラベルごとの注目度を参照しながら入力部１８を操作することで、学習用フレームとするフレームを選択する。例えば、ユーザは、学習用フレームとする対象のフレームが表示領域３８Ａに表示されている状態で、入力部１８を操作して選択ボタン３８Ｃを操作する。この操作により、ユーザは、学習用フレームとして用いるフレームを選択する。

【0162】

このため、ユーザは、表示画面３８を視認することで、行動ラベルごとの注目度を確認しながら、学習用フレームとするフレームおよび行動ラベルを選択することができる。すなわち、ユーザは、何等かのイベントが発生している可能性の高いフレームと、何が発生しているかを表す行動ラベルと、を容易に確認することができる。

【0163】

次に、本実施形態の学習データ生成装置１０Ｃで実行する情報処理の一例を説明する。

【0164】

図１４は、本実施形態の学習データ生成装置１０Ｃで実行する情報処理の一例を示すフローチャートである。

【0165】

取得部１２Ａが、時系列データを取得する（ステップＳ３００）。注目度導出部２６Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ３００で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の注目度を導出する（ステップＳ３０２）。また、注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ３００で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の行動ラベルを導出する（ステップＳ３０４）。

【0166】

表示制御部２６Ｅは、ステップＳ３００で取得した時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面３４を表示部２０に表示する（ステップＳ３０６）。なお、表示制御部２６Ｅは、表示画面３６または表示画面３８を表示部２０に表示してもよい。ここでは、表示画面３４を表示部２０に表示した場面を想定して説明を続ける。

【0167】

受付部２６Ｆは、フレームの選択を入力部１８および表示制御部２６Ｅから受付ける（ステップＳ３０８）。本実施形態では、フレームおよびフレームに含まれる対象の行動ラベルの選択を受付けた場合を想定して説明する。

【0168】

選択部２６Ｃは、ステップＳ３０８で受付けたフレームを、学習用フレームとして選択する（ステップＳ３１０）。選択部２６Ｃは、ステップＳ３１０で選択した学習用フレームに含まれる対象に、ステップＳ３０８で受付けた行動ラベルを付与する（ステップＳ３１２）。

【0169】

出力制御部１２Ｄは、ステップＳ３１０で選択された学習用フレームとステップＳ３１２で該学習用フレームに含まれる対象に付与された行動ラベルとを対応付けて、記憶部１６などへ出力する（ステップＳ３１４）。そして、本ルーチンを終了する。

【0170】

以上説明したように、本実施形態の学習データ生成装置１０Ｃでは、注目度導出部２６Ｂが、学習済モデル２６Ｂ１を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの注目度を導出する。表示制御部２６Ｅは、フレームと、該フレームに含まれる対象の注目度と、を含む表示画面を表示部２０に表示する。

【0171】

注目度の大きい対象を含むフレームは、何等かのイベントが発生したフレームである可能性が高い。このため、本実施形態の学習データ生成装置１０Ｃでは、対象の注目度を表示することで、何等かのイベントが発生している可能性の高いフレームを、ユーザに対して容易に特定可能に提供することができる。また、このようなフレームが学習用フレームとして選択されることで、学習データ生成装置１０Ｃは、監視作業にも適用可能な学習用フレームを提供することができる。

【0172】

（第４の実施形態）
本実施形態では、行動ラベルの画像を表示部２０に表示する形態を説明する。

【0173】

図１０は、本実施形態の学習データ生成装置１０Ｄの一例を示すブロック図である。学習データ生成装置１０Ｄは、学習データ生成装置１０の一例である。

【0174】

なお、本実施形態の学習データ生成装置１０Ｄにおいて、上記実施形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、または学習データ生成装置１０Ｃと同様の構成部分には同じ符号を付与し、詳細な説明を省略する。

【0175】

学習データ生成装置１０Ｄは、制御部２８と、通信部１４と、記憶部１６と、入力部１８と、表示部２０と、を備える。制御部２８と、通信部１４、記憶部１６、入力部１８、および表示部２０とは、バス２２を介して通信可能に接続されている。学習データ生成装置１０Ｃは、制御部１２、制御部２４、または制御部２６に替えて制御部２８を備える点以外は、学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、または学習データ生成装置１０Ｃと同様である。

【0176】

制御部２８は、学習データ生成装置１０Ｄにおいて各種の情報処理を実行する。

【0177】

制御部２８は、取得部１２Ａと、注目度導出部２８Ｂと、表示制御部２８Ｅと、受付部２８Ｆと、選択部２８Ｃと、出力制御部１２Ｄと、を備える。取得部１２Ａおよび出力制御部１２Ｄは、上記実施形態と同様である。

【0178】

注目度導出部２８Ｂは、学習済モデル１２Ｂ１を用いて、時系列データに含まれる複数のフレームの各々に含まれる対象の各々ごとの、時間軸方向の特徴量である注目度を導出する。注目度導出部２８Ｂは、上記実施形態の注目度導出部２６Ｂと同様にして、対象ごとの注目度を導出すればよい。

【0179】

本実施形態では、注目度導出部２８Ｂは、更に、対象ごとの行動ラベルとして、行動ラベルの画像を導出する。行動ラベルの画像とは、行動ラベルを付与された対象の静止画像または動画像である。例えば、行動ラベルの画像は、行動ラベルを付与された対象を含むフレームの画像、フレームの画像に含まれる対象の対象領域を抽出した画像、などである。

【0180】

注目度導出部２８Ｂは、学習済モデル１２Ｂ１を用いて、時系列データに含まれる複数のフレームの各々ごとに、フレームに含まれる対象ごとの特徴量と、対象ごとの行動ラベルと、を導出する。そして、注目度導出部２８Ｂは、フレームのフレームＩＤと、対象ＩＤと、特徴量と、行動ラベルと、行動ラベルの画像と、を対応付けて行動ラベルＤＢ（データベース）に登録する。フレームＩＤは、フレームの識別情報である。フレームＩＤは、例えば、上述したフレーム番号を用いてよい。対象ＩＤは、対象を識別する識別情報である。行動ラベルの画像は、上述したように、例えば、対応するフレームＩＤによって識別されるフレームの画像などである。

【0181】

図１５は、行動ラベルＤＢのデータ構成の一例を示す模式図である。注目度導出部２８Ｂは、フレームＩＤと、対象ＩＤと、対象の特徴量と、対象の行動ラベルと、対象の行動ラベルの画像と、を対応付けて行動ラベルＤＢに登録する。行動ラベルＤＢは、例えば、記憶部１６に記憶すればよい。

【0182】

図１０に戻り説明を続ける。表示制御部２８Ｅは、時系列データに含まれるフレームと、フレームに含まれる対象の行動ラベルの画像と、を含む表示画面を表示部２０に表示する。

【0183】

図１６は、表示制御部２８Ｅの機能的構成の一例を示すブロック図である。表示制御部２８Ｅは、探索部２８Ｅ１と、表示制御部２８Ｅ２と、を含む。

【0184】

探索部２８Ｅ１は、時系列データに含まれるフレームの各々に含まれる、対象の特徴量を特定する。なお、探索部２８Ｅ１は、ユーザによる入力部１８の操作指示によって選択部２８Ｃで選択された、学習用フレームに含まれる対象の特徴量を特定してもよい。本実施形態では、探索部２８Ｅ１は、選択部２８Ｃで選択された学習用フレームに含まれる対象の特徴量を特定する形態を一例として説明する。探索部２８Ｅ１は、選択された学習用フレームに含まれる対象の特徴量を注目度導出部２６Ｂから取得することで、対象の特徴量を特定すればよい。

【0185】

そして、探索部２８Ｅ１は、特定した特徴量に類似する記憶特徴量を、行動ラベルＤＢから探索する。記憶特徴量とは、行動ラベルＤＢに登録されている特徴量である。表示制御部２８Ｅは、学習用フレームに含まれる対象の特徴量に類似する記憶特徴量を行動ラベルＤＢから探索することで、学習用フレームに含まれる対象の行動に類似する類似行動を探索する。

【0186】

例えば、探索部２８Ｅ１は、特徴量と記憶特徴量との間のコサイン類似度などの距離評価を用いた最近傍探索などによって、類似する記憶特徴量を行動ラベルＤＢから探索すればよい。

【0187】

そして、探索部２８Ｅ１は、探索した記憶特徴量に対応する行動ラベルの画像を行動ラベルＤＢから特定する。すなわち、探索部２８Ｅ１は、学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像を、行動ラベルＤＢから探索する。そして、表示制御部２８Ｅは、学習用フレームと、該学習用フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像と、を表示部２０へ表示する。すなわち、表示制御部２８Ｅは、学習用フレームと、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像と、を表示部２０に表示する。

【0188】

図１７は、表示制御部２８Ｅが表示部２０に表示する表示画面４０の一例を示す模式図である。

【0189】

表示画面４０は、表示領域４０Ａと、表示領域４０Ｂと、を含む。表示領域４０Ａは、選択された学習用フレームを表示するための表示領域である。図１７には、対象Ａを含む学習用フレームが表示領域４０Ａに表示された形態を一例として示した。また、図１７には、対象Ａが選択された状態を一例として示した。

【0190】

表示領域４０Ｂは、行動ラベルの画像の一覧を表示する表示領域である。

【0191】

表示制御部２８Ｅは、ユーザによる入力部１８の操作指示によって選択された学習用フレームを表示領域４０Ａに表示し、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像の一覧を、表示領域４０Ｂへ表示する。例えば、表示制御部２８Ｅは、行動ラベルの画像の一覧を、特徴量の類似度が高い順に表示領域４０Ｂへ表示する。

【0192】

なお、表示制御部２８Ｅは、ユーザによる入力部１８の操作指示などによって特定の行動ラベルの画像が選択されると、選択された行動ラベルの画像に関する詳細情報を更に表示してもよい。詳細情報は、例えば、行動ラベルの詳細を表す情報などである。なお、表示領域４０Ａに表示される行動ラベルの画像に、類似行動の対象以外の画像が含まれる場合がある。この場合、表示制御部２８Ｅは、行動ラベルの画像に含まれる類似行動の対象以外の領域を、類似行動の対象より薄い色または高い透明度で表示してもよい。この場合、表示制御部２８Ｅは、誤った行動ラベルの画像が選択されることを抑制することができる。

【0193】

ユーザは、入力部１８を操作することで、行動ラベルの画像の一覧の中から、表示領域４０Ａに表示されている学習用フレームに含まれる対象に付与する行動ラベルの画像を選択する。表示領域４０Ｂに表示された行動ラベルの画像の一覧の中から、１つの行動ラベルの画像が選択され、選択ボタン４０Ｃが操作された場合を想定する。受付部２８Ｆは、行動ラベルの画像を受付ける。

【0194】

図１０に戻り説明を続ける。選択部２８Ｃは、選択した学習用フレームに、受付部２８Ｆで受付けた行動ラベルの画像に対応する行動ラベルを付与する。選択部２８Ｃは、受付部２８Ｆで受け付けた行動ラベルの画像に対応する行動ラベルを、行動ラベルＤＢから取得し、学習用フレームに付与すればよい。

【0195】

次に、本実施形態の学習データ生成装置１０Ｄで実行する情報処理の一例を説明する。

【0196】

図１８は、本実施形態の学習データ生成装置１０Ｄで実行する情報処理の一例を示すフローチャートである。

【0197】

取得部１２Ａが、時系列データを取得する（ステップＳ４００）。注目度導出部２８Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ４００で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の注目度を導出する（ステップＳ４０２）。また、注目度導出部１２Ｂは、学習済モデル１２Ｂ１を用いて、ステップＳ４００で取得した時系列データに含まれる複数のフレームの各々に含まれる、対象の各々の行動ラベルおよび行動ラベルの画像を導出する（ステップＳ４０４）。

【0198】

そして、注目度導出部１２Ｂは、ステップＳ４０２で注目度の導出に用いたフレームのフレームＩＤと、対象ＩＤと、特徴量と、行動ラベルと、行動ラベルの画像と、を対応付けて行動ラベルＤＢへ登録する（ステップＳ４０６）。

【0199】

表示制御部２６Ｅは、ステップＳ４００で取得した時系列データに含まれるフレームと、フレームに含まれる対象の注目度と、を含む表示画面を表示部２０に表示する（ステップＳ４０８）。

【0200】

受付部２８Ｆは、ユーザによる入力部１８の操作指示によって選択された、学習用フレームとするフレームの選択を受付ける（ステップＳ４１０）。選択部２８Ｃは、ステップＳ４１０で受付けたフレームを、学習用フレームとして選択する（ステップＳ４１２）。

【0201】

表示制御部２８Ｅの探索部２８Ｅ１は、ステップＳ４１２で選択された学習用フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像を、行動ラベルＤＢから探索する（ステップＳ４１４）。すなわち、探索部２８Ｅ１は、学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像を、行動ラベルＤＢから探索する。

【0202】

そして、表示制御部２８Ｅは、ステップＳ４１２で選択した学習用フレームと、ステップＳ１４４で探索した行動ラベルの画像と、を表示部２０へ表示する（ステップＳ４１６）。すなわち、表示制御部２８Ｅは、学習用フレームと、該学習用フレームに含まれる対象に類似する類似行動に付与された行動ラベルの画像と、を表示部２０に表示する。

【0203】

受付部２８Ｆは、ステップＳ４１６で表示した行動ラベルの画像の内、選択された行動ラベルの画像の選択を受付ける（ステップＳ４１８）。受付部２８Ｆは、ステップＳ４１８で受付けた行動ラベルの画像に対応する行動ラベルを、ステップＳ４１２で選択した学習用フレームへ付与する（ステップＳ４２０）。

【0204】

なお、複数の学習用フレームの選択を受付けた場合、１つの学習用フレームの選択を受付けるごとに、ステップＳ４１０～ステップＳ４２０の処理を繰り返し実行すればよい。

【0205】

出力制御部１２Ｄは、ステップＳ４１２で選択された学習用フレームとステップＳ４２０で該学習用フレームに含まれる対象に付与された行動ラベルとを対応付けて、記憶部１６などへ出力する（ステップＳ４２２）。そして、本ルーチンを終了する。

【0206】

以上説明したように、本実施形態の学習データ生成装置１０Ｄは、フレームと、フレームに含まれる対象の特徴量に類似する記憶特徴量に対応する行動ラベルの画像と、を含む表示画面４０を表示部２０に表示する。

【0207】

対象の行動には、言語では表現しにくい行動や動作がある。また、行動ラベルの言葉の定義があいまいな場合がある。このため、行動ラベルを表す文字を選択可能に表示した場合、ユーザは対象に付与すべき行動ラベルを選択することが難しい場合がある。一方、本実施形態では、表示制御部２８Ｅは、学習用フレームに含まれる対象に付与する行動ラベルの画像の一覧を表示部２０へ表示する。このため、ユーザは、目視で行動ラベルの画像を確認することで、行動ラベルを付与する対象に視覚的に類似する類似行動を表す行動ラベルの画像を、容易に特定することができる。すなわち、ユーザは、行動ラベルを容易に指定することができる。

【0208】

従って、本実施形態の学習データ生成装置１０Ｄは、上記効果に加えて、学習用フレームに含まれる対象に付与する行動ラベルを容易に選択可能に提供することができる。

【0209】

次に、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄのハードウェア構成の一例を説明する。

【0210】

図１９は、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄの一例のハードウェア構成図である。

【0211】

上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８６、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８８、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０、およびＩ／Ｆ９２等がバス９４により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

【0212】

ＣＰＵ８６は、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄを制御する演算装置である。ＲＯＭ８８は、ＣＰＵ８６による情報処理を実現するプログラム等を記憶する。ＲＡＭ９０は、ＣＰＵ８６による各種処理に必要なデータを記憶する。Ｉ／Ｆ８２は、通信部１４、記憶部１６、入力部１８、および表示部２０などに接続し、データを送受信するためのインターフェースである。

【0213】

上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄでは、ＣＰＵ８６が、ＲＯＭ８８からプログラムをＲＡＭ９０上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。

【0214】

なお、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄで実行される上記各処理を実行するためのプログラムは、ＨＤＤ（ハードディスクドライブ）に記憶されていてもよい。また、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄで実行される上記各処理を実行するためのプログラムは、ＲＯＭ８８に予め組み込まれて提供されていてもよい。

【0215】

また、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄで実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄで実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施の形態の学習データ生成装置１０Ａ、学習データ生成装置１０Ｂ、学習データ生成装置１０Ｃ、および学習データ生成装置１０Ｄで実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

【0216】

なお、上記には、実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0217】

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ学習データ生成装置
１２Ａ取得部
１２Ｂ、２６Ｂ、２８Ｂ注目度導出部
１２Ｃ、２４Ｃ、２６Ｃ、２８Ｃ選択部
１２Ｄ出力制御部
２４Ｅ、２６Ｅ、２８Ｅ表示制御部
２４Ｆ、２６Ｆ、２８Ｆ受付部

【図1】