特開2024-162845 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 学校法人明星学苑の特許一覧

特開2024-162845情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024162845

(43)【公開日】2024-11-21

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06V 10/774 20220101AFI20241114BHJP

G06T 7/00 20170101ALI20241114BHJP

G06V 10/82 20220101ALI20241114BHJP

G06N 3/09 20230101ALI20241114BHJP

G06N 20/00 20190101ALI20241114BHJP

【ＦＩ】

G06V10/774

G06T7/00 350C

G06V10/82

G06N3/09

G06N20/00 130

【審査請求】有

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2023078779

(22)【出願日】2023-05-11

(11)【特許番号】

(45)【特許公報発行日】2024-10-01

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(71)【出願人】

【識別番号】500132214

【氏名又は名称】学校法人明星学苑

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】岡本秀明

(72)【発明者】

【氏名】堀隆之

(72)【発明者】

【氏名】鈴木裕真

(72)【発明者】

【氏名】宅島寛貴

(72)【発明者】

【氏名】田之上隼人

(72)【発明者】

【氏名】植木一也

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA01

5L096FA64

5L096FA69

5L096GA34

5L096HA02

5L096HA11

5L096JA03

5L096KA04

(57)【要約】

【課題】行動検出モデルの汎化性能を向上させることを可能とする。
【解決手段】本願に係る情報処理装置は、行動検出用の教師データを取得する取得部と、教師データに含まれる第１動画像を構成する複数の第１フレーム画像の各々から抽出された複数の第１物体領域に基づく動画像である第１領域動画像の中から、第１ラベル情報に関する情報と第２ラベル情報に関する情報との類似性に基づいて、第２動画像に埋め込む対象となる第１領域動画像である対象領域動画像を選択する選択部と、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第２動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第１ラベル情報を第２ラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得部と、
前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１のラベル情報に関する情報と前記第２のラベル情報に関する情報との類似性に基づいて、前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を選択する選択部と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、
を備える情報処理装置。

【請求項2】

前記選択部は、
前記第１のラベル情報に関する情報として、前記第１の物体の種類を示す情報と、前記第２のラベル情報に関する情報として、前記第２の物体の種類を示す情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項3】

前記選択部は、
前記第１のラベル情報に関する情報として、前記第１の位置情報に基づく前記第１の物体領域の移動方向に関する情報と、前記第２のラベル情報に関する情報として、前記第２の位置情報に基づく前記第２の物体領域の移動方向に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項4】

前記選択部は、
前記第１のラベル情報に関する情報として、前記第１の位置情報に基づく前記第１の物体領域の移動速度に関する情報と、前記第２のラベル情報に関する情報として、前記第２の位置情報に基づく前記第２の物体領域の移動速度に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項5】

前記選択部は、
前記第１のラベル情報に関する情報として、前記第１のサイズ情報と、前記第２のラベル情報に関する情報として、前記第２のサイズ情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項6】

前記選択部は、
前記第１のラベル情報に関する情報として、前記第１のサイズ情報に基づく前記第１の物体領域のサイズの時間変化に関する情報と、前記第２のラベル情報に関する情報として、前記第２のサイズ情報に基づく前記第２の物体領域のサイズの時間変化に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項7】

前記選択部は、
前記対象領域動画像として、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域の各々の面積が所定の面積以上である前記第１の領域動画像を選択する、
請求項１に記載の情報処理装置。

【請求項8】

第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得部と、
前記第１のサイズ情報および前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズを、前記第２の物体領域のサイズの範囲内で決定する決定部と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、
を備える情報処理装置。

【請求項9】

前記決定部は、
最初の埋め込み対象として選択された前記第１の物体領域である第１の起点領域のサイズを、最初の埋め込み先として選択された前記第２のフレーム画像である第２の起点フレーム画像に含まれる前記第２の物体領域である第２の起点領域のサイズの範囲内で決定し、
前記生成部は、
前記決定部によって決定された前記第１の起点領域のサイズに加工された加工後の前記第１の起点領域を前記第２の起点フレーム画像に埋め込んだ前記合成動画像を生成する、
請求項８に記載の情報処理装置。

【請求項10】

前記決定部は、
前記第１のサイズ情報に基づく前記第１の物体領域のサイズの時間変化に関する情報に基づいて、前記対象領域動画像に含まれる前記第１の起点領域以外の前記第１の物体領域である第１の後続領域のサイズを決定し、
前記生成部は、
前記第１の位置情報に基づく前記第１の物体領域の移動方向に関する情報に基づいて
前記決定部によって決定された前記第１の後続領域のサイズに加工された加工後の前記第１の後続領域の各々を前記第２の動画像に含まれる前記第２の起点フレーム画像以外の前記第２のフレーム画像である第２の後続フレーム画像の各々に埋め込んだ前記合成動画像を生成する、
請求項９に記載の情報処理装置。

【請求項11】

前記生成部は、
前記合成動画像に含まれる前記第１の物体領域のうち少なくとも一部の領域である第１の部分領域と前記第２の物体領域のうち少なくとも一部の領域である第２の部分領域とが重なる場合、前記第１の物体領域のうち前記第１の部分領域以外の領域の面積と前記第２の部分領域の面積との比に基づく前記第１のラベル情報を、前記第２の物体領域のうち前記第２の部分領域以外の領域の面積と前記第１の部分領域の面積との比に基づく前記第２のラベル情報と組み合わせた前記合成ラベル情報を生成する、
請求項１または８に記載の情報処理装置。

【請求項12】

第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１の動画像を構成する前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のラベル情報に関する情報と前記第１のラベル情報に関する情報との類似性に基づいて選択された前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、
を備える情報処理装置。

【請求項13】

第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１のサイズ情報、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズであって、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、
を備える情報処理装置。

【請求項14】

前記生成部によって生成された前記行動検出モデルを用いて、前記対象動画像から前記対象動画像に撮像された前記対象物体の行動に関する情報を検出する検出部
をさらに備える請求項１２または１３に記載の情報処理装置。

【請求項15】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得工程と、
前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１のラベル情報に関する情報と前記第２のラベル情報に関する情報との類似性に基づいて、前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を選択する選択工程と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成工程と、
を含む情報処理方法。

【請求項16】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得工程と、
前記第１のサイズ情報および前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズを、前記第２の物体領域のサイズの範囲内で決定する決定工程と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成工程と、
を含む情報処理方法。

【請求項17】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１の動画像を構成する前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のラベル情報に関する情報と前記第１のラベル情報に関する情報との類似性に基づいて選択された前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得工程と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成工程と、
を含む情報処理方法。

【請求項18】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１のサイズ情報、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズであって、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得工程と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成工程と、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

一般的に、教師データに対する過剰適合（Overfitting）を防ぎ、機械学習モデルの汎化性能を向上させるには、多様な特徴を含む多量の教師データを機械学習モデルに学習させることが有効である。しかしながら、実際には多様な特徴を含む多量の教師データを収集することが難しい場合がある。

【0003】

そこで、従来、オリジナルの教師データに基づいて、オリジナルの教師データとは異なる特徴を含む擬似的な教師データを生成するデータ拡張（Data Augmentation）の技術が知られている。データ拡張の技術を用いることにより、多様な特徴を含む教師データを多量に生成することができる。なお、以下では、オリジナルの教師データのことを単に「教師データ」と記載する場合がある。

【0004】

例えば、画像分類、物体検出、または、セグメンテーションなどに代表される画像認識に用いられる機械学習モデル（以下、「画像認識モデル」と記載する場合がある。）の学習に用いられる教師データ（以下、「画像認識用の教師データ」と記載する場合がある。）に対する様々なデータ拡張の技術が知られている。例えば、教師データに含まれる画像を回転、左右反転または拡大した擬似的な画像を生成する技術が知られている。

【0005】

また、教師データに含まれる画像の一部の領域を切り取った擬似的な画像を生成するCutout（非特許文献１参照）や２枚の画像を合成した擬似的な画像を生成するMixup（非特許文献２参照）と呼ばれる技術が知られている。また、CutoutとMixupを融合したCutMix（非特許文献３参照）と呼ばれる技術が知られている。CutMixは、２枚の画像のうち、一方の画像から一部の領域を切り取り、切り取った一部の領域を他方の画像に貼り付けた擬似的な画像を生成する技術である。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】“Improved Regularization of Convolutional Neural Networks with Cutout”，Terrance DeVries1， Graham W. Taylor,＜インターネット＞https://arxiv.org/pdf/1708.04552.pdf（令和５年４月２５日検索）

【非特許文献2】“Mixup: Beyond Empirical Risk Minimization,”，Hongyi Zhang， Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz,＜インターネット＞https://arxiv.org/pdf/1710.09412.pdf（令和５年４月２５日検索）

【非特許文献3】“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”, Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, Youngjoon Yoo, ＜インターネット＞https://arxiv.org/pdf/1905.04899.pdf（令和５年４月２５日検索）

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、上記の従来技術では、教師データに含まれる画像に基づいて擬似的な画像を生成するにすぎないため、行動検出モデルの汎化性能を向上させることを可能とすることができるとは限らない。

【0008】

本願は、行動検出モデルの汎化性能を向上させることを可能とすることができる情報処理装置及び情報処理方法を提供することを目的とする。

【課題を解決するための手段】

【0009】

本願に係る情報処理装置は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得部と、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１のラベル情報に関する情報と前記第２のラベル情報に関する情報との類似性に基づいて、前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を選択する選択部と、処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。

【0010】

また、本願に係る情報処理装置は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データ、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データを取得する取得部と、前記第１のサイズ情報および前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズを、前記第２の物体領域のサイズの範囲内で決定する決定部と、処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。

【0011】

また、本願に係る情報処理装置は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１の動画像を構成する前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のラベル情報に関する情報と前記第１のラベル情報に関する情報との類似性に基づいて選択された前記第２の動画像に埋め込む対象となる前記第１の領域動画像である対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、を備える。

【0012】

また、本願に係る情報処理装置は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、前記第１の物体の行動の種類を示す情報、前記第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および前記第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と前記第１の動画像との組である第１の教師データに含まれる前記第１のサイズ情報、ならびに、前記第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、前記第２の物体の行動の種類を示す情報、前記第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および前記第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と前記第２の動画像との組である第２の教師データに含まれる前記第２のサイズ情報に基づいて、前記複数の第１のフレーム画像の各々から抽出された複数の前記第１の物体領域に基づく動画像である第１の領域動画像の中から前記第２の動画像に埋め込む対象として選択された前記第１の領域動画像である対象領域動画像に含まれる前記第１の物体領域のサイズであって、前記第２の物体領域のサイズの範囲内で決定された前記第１の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第２の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第１のラベル情報を前記第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、を備える。

【発明の効果】

【0013】

実施形態の一態様によれば、行動検出モデルの汎化性能を向上させることを可能とすることができる。

【図面の簡単な説明】

【0014】

【図1】図１は、実施形態に係るBoxMixの情報処理の概要について説明するための図である。

【図2】図２は、実施形態に係る情報処理装置の構成例を示す図である。

【図3】図３は、実施形態に係る合成教師データの生成処理の一例を示すフローチャートである。

【図4】図４は、変形例に係る選択処理について説明するための図である。

【図5】図５は、変形例に係る決定処理について説明するための図である。

【図6】図６は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0015】

以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0016】

（実施形態）
〔１．はじめに〕
従来、画像認識モデルの学習に用いられる画像認識用の教師データに対する様々なデータ拡張の技術が知られている。例えば、最もシンプルな技術としては、教師データに含まれる画像を回転、左右反転または拡大した擬似的な画像を生成する技術が知られている。画像を回転、左右反転または拡大した擬似的な画像を生成する技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが教師データに対して過剰適合することを防ぎ、画像認識モデルの汎化性能を向上させることができるということが知られている。

【0017】

また、教師データに含まれる画像の一部の領域を切り取った擬似的な画像を生成するCutout（非特許文献１参照）と呼ばれる技術が知られている。Cutoutの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが画像中の物体の特徴的な部位（例えば、物体が生物である場合であれば、生物の顔の部位など）に注目して学習を行うことを防ぐことを可能とするができる。また、異なる２枚の画像を合成した擬似的な画像を生成するMixup（非特許文献２参照）と呼ばれる技術が知られている。Mixupの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが異なる２枚の画像にそれぞれ撮像された物体それぞれの特徴の差分を学習することを可能とすることができる。また、CutoutやMixupは、画像を回転、左右反転または拡大した擬似的な画像を生成する技術と比べると、画像認識モデルの汎化性能をより向上させることができるということが知られている。

【0018】

さらに、CutoutとMixupを融合したCutMix（非特許文献３参照）と呼ばれる技術が知られている。CutMixは、画像認識用の教師データに含まれる異なる２枚の画像のうち、一方の画像から画像の一部分に対応する領域（以下、「部分領域」と記載する場合がある。）を切り取り、切り取った部分領域を他方の画像に貼り付けた擬似的な画像を生成する。また、CutMixは、一方の画像から部分領域を切り取る際に、一方の画像に対応するラベル情報から部分領域に対応する部分的なラベル情報を切り取り、切り取った部分領域を他方の画像に貼り付ける際に、他方の画像に対応するラベル情報と切り取った部分的なラベル情報とを組み合わせた擬似的なラベル情報を生成する。このように、CutMixは、画像認識用の教師データに基づいて、擬似的な画像と擬似的なラベル情報との組を含む擬似的な教師データを生成する。また、CutMixは、画像認識用の教師データに擬似的な教師データを加えた新たな教師データを生成する。

【0019】

また、CutMixの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルがCutoutの利点とMixupの利点の両方を享受することを可能とすることができる。すなわち、画像認識モデルが画像中の物体の特徴的な部位に注目して学習を行うことを防ぐことを可能とするとともに、画像認識モデルが異なる２枚の画像にそれぞれ撮像された物体それぞれの特徴の差分を学習することを可能とすることができる。これにより、CutMixは、CutoutまたはMixupと比べると、画像認識モデルの汎化性能をより向上させることができるということが知られている。

【0020】

しかしながら、CutMixは、画像認識用の教師データを対象とするデータ拡張の技術である。言い換えると、CutMixは、静止画像に基づいて擬似的な静止画像を生成する技術である。これに対し、動画認識に用いられる機械学習モデル（以下、「動画認識モデル」と記載する場合がある。）の学習に用いられる教師データ（以下、「動画認識用の教師データ」）に対するデータ拡張の技術が望まれている。例えば、動画認識の一例として、行動検出に用いられる機械学習モデル（以下、「行動検出モデル」と記載する場合がある。）の学習に用いられる教師データ（以下、「行動検出用の教師データ」と記載する場合がある。）に対するデータ拡張の技術が望まれている。

【0021】

そこで、本発明者は、CutMixを行動検出用の教師データに拡張した”BoxMix”と称する新たなデータ拡張の技術を提案する。BoxMixは、CutMixを時間方向に拡張したデータ拡張の技術である。なお、本明細書における行動検出は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出するタスク全般を含む概念であってよい。例えば、本明細書における行動検出は、行動分類の概念を含んでもよい。

【0022】

なお、本明細書における行動検出モデルとは、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出するように学習された機械学習モデルのことを指す。具体的には、行動検出モデルは、畳み込みニューラルネットワーク（CNN；Convolutional Neural Network）またはTransformerを含む機械学習モデルであってよい。例えば、行動検出モデルは、SSD（Single Shot Multibox Detector）、YOLO（You Only Look Once）、２次元畳み込みニューラルネットワーク（Two-stream ConvNets等）、３次元畳み込みニューラルネットワーク（3D ResNet等）、DETR（DEtection with TRansformers）、TimeSformer、または、ViViT（Video Vision Transformer）等を含む機械学習モデルであってよい。

【0023】

ここで、行動検出モデルは、動画像に撮像された物体の背景や状況などのコンテキスト（以下、「動画像のコンテキスト」と記載する場合がある。）と物体の行動とを切り離して学習することが難しい場合がある。言い換えると、行動検出モデルは、動画像のコンテキストと物体の行動との組合せをセットで学習してしまう場合がある。例えば、行動検出モデルは、雨が降っている状況で人物が手を振っている様子を撮像した動画像から「人物が手を振っている」行動を学習すると、雨が降っているという特定の状況で人物が手を振っている行動が「人物が手を振っている」行動であると学習してしまう場合がある。このように、行動検出モデルは、動画像の特定のコンテキストにおける物体の行動をその物体の行動であると誤って学習する場合がある。そのため、従来は、行動検出モデルの汎化性能を向上させることが難しい場合があった。

【0024】

これに対し、本発明者が提案するBoxMixは、行動検出用の教師データに含まれる２枚の動画像のうち、一方の動画像から一方の動画像に含まれる物体領域に基づく動画像である領域動画像を切り取り、切り取った領域動画像を他方の動画像に貼り付けた擬似的な動画像（以下、「合成動画像」と記載する場合がある。）を生成する。また、BoxMixは、一方の動画像から領域動画像を切り取る際に、一方の動画像に対応するラベル情報から領域動画像に対応する部分的なラベル情報を切り取り、他方の動画像に対応するラベル情報と切り取った部分的なラベル情報とを組み合わせた擬似的なラベル情報（以下、「合成ラベル情報」と記載する場合がある。）を生成する。このようにして、BoxMixは、行動検出用の教師データに基づいて、合成動画像と合成ラベル情報との組を含む擬似的な教師データを生成する。また、BoxMixは、行動検出用の教師データに擬似的な教師データを加えた新たな教師データを生成する。

【0025】

このように、BoxMixは、行動検出用の教師データに含まれる２枚の動画像のうち、一方の動画像に含まれる領域動画像を一方の動画像とは異なるコンテキストを有する他方の動画像に貼り付けた合成画像を生成する。これにより、BoxMixは、行動検出用の教師データにおける動画像のコンテキストと物体の行動との組合せの多様性を増すことができる。すなわち、BoxMixは、動画像のコンテキストと物体の行動との多様な組合せを含む行動検出用の教師データを生成することができる。また、BoxMixの技術により生成された行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことができる。言い換えると、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことができる。すなわち、BoxMixの技術により生成された行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが動画像のコンテキストに依らずに物体の行動に注目して学習することを可能とすることができる。また、BoxMixは、行動検出モデルが動画像のコンテキストに依らずに物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが物体の行動を精度よく検出することを可能とすることができる。したがって、BoxMixは、行動検出モデルの汎化性能を向上させることができる。

【0026】

〔２．情報処理の概要〕
図１を用いて、実施形態に係るBoxMixの情報処理の概要について説明する。図１は、実施形態に係るBoxMixの情報処理の概要について説明するための図である。図１で説明するBoxMixの情報処理は、実施形態に係る情報処理装置１００（図２参照）によって実行される。

【0027】

また、図１では、動画像を立方体として表現する。具体的には、立方体の幅は、動画像を構成する各フレーム画像の幅に対応する。また、立方体の高さは、動画像を構成する各フレーム画像の高さに対応する。また、立方体の奥行は、動画像の再生時間に対応する。立方体の奥行方向には、手前から奥に向かって、動画像を構成する１枚目のフレーム画像、２枚目のフレーム画像、…、動画像を構成する最後のフレーム画像であるｉ（ｉは３以上の自然数。例えば、ｉは数千～数万）枚目のフレーム画像が順番に並んでいるものとする。

【0028】

まず、情報処理装置１００は、入手可能な全ての行動検出用の教師データを取得する。具体的には、情報処理装置１００は、行動検出用の教師データとして、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類（物体クラスともいう）を示す情報、物体の行動の種類（行動クラスともいう）を示す情報、物体に対応する矩形領域の位置を示す位置情報および矩形領域のサイズを示すサイズ情報を含む情報である矩形情報の集合であるラベル情報と動画像との組である教師データを取得してよい。ここで、矩形領域とは、各フレーム画像から公知の物体検出の技術を用いて検出された物体を囲む長方形の枠であるバウンディングボックスによって囲まれた領域のことを指す。なお、以下では、行動検出用の教師データのことを単に「教師データ」と記載する場合がある。

【0029】

また、情報処理装置１００は、入手可能な全ての教師データを取得した場合、教師データの各々に含まれる動画像の中から、貼り付け先の動画像をランダムに選択する。図１では、情報処理装置１００は、貼り付け先の動画像として、道路の両脇に複数の住宅が立ち並んでいる背景において、道路の脇に立ち止まっている大人の人物および子どもの人物、ならびに、道路の手前から奥に向かって走っている車を撮像した動画像Ｖ２を選択する。

【0030】

また、情報処理装置１００は、貼り付け先の動画像を選択した場合、選択された貼り付け先の動画像と、貼り付け先の動画像と組になっているラベル情報（以下、「貼り付け先のラベル情報」と記載する場合がある。）を取得する。すなわち、情報処理装置１００は、貼り付け先の動画像と貼り付け先のラベル情報との組である行動検出用の教師データ（以下、「貼り付け先の教師データ」と記載する場合がある。）を取得する。例えば、情報処理装置１００は、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け先のラベル情報を取得する。

【0031】

図１では、情報処理装置１００は、動画像Ｖ２を選択した場合、動画像Ｖ２と、貼り付け先のラベル情報として、動画像Ｖ２と組になっているラベル情報Ｌ２を取得する。すなわち、情報処理装置１００は、貼り付け先の教師データとして、動画像Ｖ２とラベル情報Ｌ２との組である行動検出用の教師データＴ２を取得する。具体的には、情報処理装置１００は、ラベル情報Ｌ２として、動画像Ｖ２を構成する複数のフレーム画像の各々に含まれる大人の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２１と、子どもの人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２２と、車に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２３を取得する。

【0032】

例えば、情報処理装置１００は、動画像Ｖ２を構成する１枚目のフレーム画像Ｆ２１について、大人の人物に対応する矩形領域Ｒ２１に関する矩形情報Ｂ２１を取得する。例えば、情報処理装置１００は、大人の人物である物体の種類を示す情報として「人物」を示す情報、大人の人物である物体の行動の種類を示す情報として「立ち止まっている」ことを示す情報、ならびに、矩形領域Ｒ２１の位置情報および矩形領域Ｒ２１のサイズ情報を含む矩形情報Ｂ２１を取得する。同様にして、情報処理装置１００は、動画像Ｖ２を構成する２枚目以降のフレーム画像の各々について、矩形領域Ｒ２１に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置１００は、動画像Ｖ２を構成する複数のフレーム画像の各々に含まれる大人の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２１を取得する。

【0033】

また、情報処理装置１００は、動画像Ｖ２を構成する１枚目のフレーム画像Ｆ２１について、子どもの人物に対応する矩形領域Ｒ２２に関する矩形情報Ｂ２２を取得する。例えば、情報処理装置１００は、子どもの人物である物体の種類を示す情報として「子ども」を示す情報、子どもの人物である物体の行動の種類を示す情報として「立ち止まっている」ことを示す情報、ならびに、矩形領域Ｒ２２の位置情報および矩形領域Ｒ２２のサイズ情報を含む矩形情報Ｂ２２を取得する。同様にして、情報処理装置１００は、動画像Ｖ２を構成する２枚目以降のフレーム画像の各々について、矩形領域Ｒ２２に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置１００は、動画像Ｖ２を構成する複数のフレーム画像の各々に含まれる子どもの人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２２を取得する。

【0034】

また、情報処理装置１００は、動画像Ｖ２を構成する１枚目のフレーム画像Ｆ２１について、車に対応する矩形領域Ｒ２３に関する矩形情報Ｂ２３を取得する。例えば、情報処理装置１００は、車に対応する物体の種類を示す情報として「車」を示す情報、車に対応する物体の行動の種類を示す情報として「走っている」ことを示す情報、ならびに、矩形領域Ｒ２３の位置情報および矩形領域Ｒ２３のサイズ情報を含む矩形情報Ｂ２３取得する。同様にして、情報処理装置１００は、動画像Ｖ２を構成する２枚目以降のフレーム画像の各々について、矩形領域Ｒ２３に含まれる車と同一の車に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置１００は、動画像Ｖ２を構成する複数のフレーム画像の各々に含まれる車に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ２３を取得する。

【0035】

また、情報処理装置１００は、貼り付け先の教師データを取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け先の動画像とは異なる動画像（以下、「貼り付け元の動画像」と記載する場合がある。）をランダムに選択する。図１では、情報処理装置１００は、行動検出用の教師データＴ２を取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け元の動画像として、動画像Ｖ２とは異なる動画像Ｖ１を選択する。例えば、情報処理装置１００は、道路の両脇が密林である背景において、道路の脇に立ち止まって手を振っている人物である第１の人物、手を振っている人物の隣に立っていて、手を首に当てている第２の人物、および道路の手前から奥に向かって走っている車を撮像した動画像Ｖ１を選択する。

【0036】

また、情報処理装置１００は、貼り付け元の動画像を選択した場合、選択された貼り付け元の動画像と、貼り付け元の動画像と組になっているラベル情報（以下、「貼り付け元のラベル情報」と記載する場合がある。）を取得する。すなわち、情報処理装置１００は、貼り付け元の動画像と貼り付け元のラベル情報との組である行動検出用の教師データ（以下、「貼り付け元の教師データ」と記載する場合がある。）を取得する。例えば、情報処理装置１００は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け元のラベル情報を取得する。

【0037】

図１では、情報処理装置１００は、動画像Ｖ１を選択した場合、貼り付け元のラベル情報として、動画像Ｖ１と組になっているラベル情報Ｌ１を取得する。すなわち、情報処理装置１００は、貼り付け元の教師データとして、動画像Ｖ１とラベル情報Ｌ１との組である行動検出用の教師データＴ１を取得する。具体的には、情報処理装置１００は、ラベル情報Ｌ１として、動画像Ｖ１を構成する複数のフレーム画像の各々に含まれる第１の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ１１と、車に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ１２を取得する。

【0038】

例えば、情報処理装置１００は、動画像Ｖ１を構成する１枚目のフレーム画像Ｆ１１について、第１の人物に対応する矩形領域Ｒ１１に関する矩形情報Ｂ１１を取得する。例えば、情報処理装置１００は、第１の人物である物体の種類を示す情報として「人物」を示す情報、第１の人物である物体の行動の種類を示す情報として「手を振っている」ことを示す情報、ならびに、矩形領域Ｒ１１の位置情報および矩形領域Ｒ１１のサイズ情報を含む矩形情報Ｂ１１を取得する。同様にして、情報処理装置１００は、動画像Ｖ１を構成する２枚目以降のフレーム画像の各々について、矩形領域Ｒ１１に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置１００は、動画像Ｖ１を構成する複数のフレーム画像の各々に含まれる第１の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ１１を取得する。

【0039】

また、情報処理装置１００は、動画像Ｖ１を構成する１枚目のフレーム画像Ｆ１１について、車に対応する矩形領域Ｒ１２に関する矩形情報Ｂ１２を取得する。例えば、情報処理装置１００は、車である物体の種類を示す情報として「車」を示す情報、車である物体の行動の種類を示す情報として「走っている」ことを示す情報、ならびに、矩形領域Ｒ１２の位置情報および矩形領域Ｒ１２のサイズ情報を含む矩形情報Ｂ１２を取得する。同様にして、情報処理装置１００は、動画像Ｖ１を構成する２枚目以降のフレーム画像の各々について、矩形領域Ｒ１２に含まれる車と同一の車に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置１００は、動画像Ｖ１を構成する複数のフレーム画像の各々に含まれる車に対応する矩形領域に関する矩形情報の集合であるラベル情報Ｌ１２を取得する。

【0040】

また、情報処理装置１００は、貼り付け先の教師データと貼り付け元の教師データを取得した場合、貼り付け先のラベル情報と貼り付け元のラベル情報との比較に基づいて、貼り付け先のラベル情報と貼り付け元のラベル情報との類似性を判定する。続いて、情報処理装置１００は、貼り付け元の動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する領域動画像を貼り付け先の動画像に貼り付ける対象として選択する。以下では、貼り付け先の動画像に貼り付ける対象として選択された領域動画像のことを「対象領域動画像」と記載する場合がある。情報処理装置１００は、対象領域動画像を選択した場合、貼り付け元の動画像から対象領域動画像を切り取る。なお、本明細書では、「画像を切り取る」ことを「画像を抽出する」と記載する場合がある。

【0041】

ここで、領域動画像とは、１つの動画像を構成する複数のフレーム画像の各々から切り取られた同一物体に対応する複数の物体領域によって構成される動画像のことを指す。例えば、動画像がフレーム画像の集合であるとすると、領域動画像は同一物体に対応する物体領域の集合である。また、動画像が複数のフレーム画像を時間方向に並べたものであるとすると、領域動画像は同一物体に対応する物体領域を時間方向に並べたものである。すなわち、領域動画像は、１つの動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域に基づく動画像である。例えば、物体領域は、各フレーム画像から公知の物体検出の技術を用いて検出された物体に対応する矩形領域であってよい。以下では、領域動画像が、矩形領域によって構成される動画像である場合について説明する。

【0042】

図１では、情報処理装置１００は、行動検出用の教師データＴ２と行動検出用の教師データＴ１を取得した場合、ラベル情報Ｌ２とラベル情報Ｌ１との類似性を判定する。例えば、情報処理装置１００は、ラベル情報Ｌ２１とラベル情報Ｌ１１との比較に基づいて、ラベル情報Ｌ２１に含まれる物体の種類を示す情報である「人物」と、ラベル情報Ｌ１１に含まれる物体の種類を示す情報である「人物」とが一致するので、ラベル情報Ｌ２１とラベル情報Ｌ１１との類似性が高いと判定する。情報処理装置１００は、ラベル情報Ｌ２１とラベル情報Ｌ１１との類似性が高いと判定した場合、動画像Ｖ１の中から、ラベル情報Ｌ２１との類似性が高いと判定されたラベル情報Ｌ１１に対応する領域動画像ＰＶ１１を対象領域動画像として選択する。

【0043】

また、情報処理装置１００は、領域動画像ＰＶ１１を対象領域動画像として選択した場合、動画像Ｖ１から領域動画像ＰＶ１１を切り取る。具体的には、情報処理装置１００は、動画像Ｖ１を構成する１枚目のフレーム画像Ｆ１１から、第１の人物に対応する矩形領域Ｒ１１を切り取る。同様にして、情報処理装置１００は、動画像Ｖ１を構成する２枚目以降のフレーム画像の各々から、矩形領域Ｒ１１に含まれる人物と同一の人物に対応する矩形領域をそれぞれ切り取る。このようにして、情報処理装置１００は、動画像Ｖ１から、動画像Ｖ１を構成する複数のフレーム画像の各々から切り取られた第１の人物に対応する矩形領域の集合である領域動画像ＰＶ１１を抽出する。

【0044】

また、情報処理装置１００は、ラベル情報Ｌ２３とラベル情報Ｌ１２との比較に基づいて、ラベル情報Ｌ２３に含まれる物体の種類を示す情報である「車」と、ラベル情報Ｌ１２に含まれる物体の種類を示す情報である「車」とが一致するので、ラベル情報Ｌ２３とラベル情報Ｌ１２との類似性が高いと判定する。情報処理装置１００は、ラベル情報Ｌ２３とラベル情報Ｌ１２との類似性が高いと判定した場合、動画像Ｖ１の中から、ラベル情報Ｌ２３との類似性が高いと判定されたラベル情報Ｌ１２に対応する領域動画像ＰＶ１２を対象領域動画像として選択する。

【0045】

また、情報処理装置１００は、領域動画像ＰＶ１２を対象領域動画像として選択した場合、動画像Ｖ１から領域動画像ＰＶ１２を切り取る。具体的には、情報処理装置１００は、動画像Ｖ１を構成する１枚目のフレーム画像Ｆ１１から、車に対応する矩形領域Ｒ１２を切り取る。同様にして、情報処理装置１００は、動画像Ｖ１を構成する２枚目以降のフレーム画像の各々から、矩形領域Ｒ１２に含まれる車と同一の車に対応する矩形領域をそれぞれ切り取る。このようにして、情報処理装置１００は、動画像Ｖ１から、動画像Ｖ１を構成する複数のフレーム画像の各々から切り取られた車に対応する矩形領域の集合である領域動画像ＰＶ１２を抽出する。

【0046】

また、情報処理装置１００は、貼り付け元の動画像から対象領域動画像を切り取った場合、貼り付け先の動画像に貼り付ける際の対象領域動画像のサイズを決定する。具体的には、情報処理装置１００は、対象領域動画像を構成する複数の矩形領域の中から、最初の貼り付け対象となる矩形領域である起点領域を選択する。また、情報処理装置１００は、貼り付け先の動画像を構成する複数のフレーム画像の中から、最初の貼り付け先となるフレーム画像である起点フレーム画像を選択する。また、情報処理装置１００は、起点領域および起点フレーム画像を選択した場合、貼り付け元のラベル情報に含まれる起点領域のサイズ情報および貼り付け先のラベル情報に含まれる起点フレーム画像に含まれる矩形領域のサイズ情報に基づいて、起点フレーム画像に貼り付ける際の起点領域のサイズを決定する。具体的には、情報処理装置１００は、起点フレーム画像に貼り付ける際の起点領域のサイズを起点フレーム画像に含まれる矩形領域のサイズの範囲内で決定する。また、情報処理装置１００は、起点フレーム画像に貼り付ける際の起点領域のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域を起点フレーム画像に貼り付ける。なお、本明細書では、「画像を貼り付ける」ことを「画像を埋め込む」と記載する場合がある。

【0047】

図１では、情報処理装置１００は、動画像Ｖ１から領域動画像ＰＶ１１を切り取った場合、領域動画像ＰＶ１１を構成する複数の矩形領域の中から、矩形領域Ｒ１１を起点領域として選択する。以下では、矩形領域Ｒ１１のことを起点領域Ｒ１１と記載する場合がある。また、情報処理装置１００は、動画像Ｖ２を構成する複数のフレーム画像の中から、フレーム画像Ｆ２１を起点フレーム画像として選択する。以下では、フレーム画像Ｆ２１のことを起点フレーム画像Ｆ２１と記載する場合がある。また、情報処理装置１００は、起点領域Ｒ１１および起点フレーム画像Ｆ２１を選択した場合、ラベル情報Ｌ１１に含まれる起点領域Ｒ１１のサイズ情報およびラベル情報Ｌ２１に含まれる矩形領域Ｒ２１のサイズ情報に基づいて、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１１のサイズを決定する。例えば、情報処理装置１００は、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１１のサイズを矩形領域Ｒ２１のサイズの範囲内で決定する。また、情報処理装置１００は、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１１のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域Ｒ１１´を起点フレーム画像Ｆ２１に貼り付ける。

【0048】

また、情報処理装置１００は、動画像Ｖ１から領域動画像ＰＶ１２を切り取った場合、領域動画像ＰＶ１２を構成する複数の矩形領域の中から、矩形領域Ｒ１２を起点領域として選択する。以下では、矩形領域Ｒ１２のことを起点領域Ｒ１２と記載する場合がある。また、情報処理装置１００は、動画像Ｖ２を構成する複数のフレーム画像の中から、フレーム画像Ｆ２１を起点フレーム画像として選択する。また、情報処理装置１００は、起点領域Ｒ１２および起点フレーム画像Ｆ２１を選択した場合、ラベル情報Ｌ１２に含まれる起点領域Ｒ１２のサイズ情報およびラベル情報Ｌ２３に含まれる矩形領域Ｒ２３のサイズ情報に基づいて、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１２のサイズを決定する。例えば、情報処理装置１００は、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１２のサイズを矩形領域Ｒ２３のサイズの範囲内で決定する。また、情報処理装置１００は、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１２のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域Ｒ１２´を起点フレーム画像Ｆ２１に貼り付ける。

【0049】

また、情報処理装置１００は、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、対象領域動画像を構成する複数の矩形領域のうち、起点領域の後に続く複数の矩形領域の各々である複数の後続領域の各々のサイズを決定する。ここで、起点領域および複数の後続領域は、対象領域動画像を構成する複数の矩形領域のうち、時間方向に連続する矩形領域の集合を形成する。また、情報処理装置１００は、後続領域の各々のサイズを決定した場合、決定されたサイズに加工された加工後の後続領域の各々を、貼り付け先の動画像を構成する複数のフレーム画像のうち、起点フレーム画像の後に続く複数のフレーム画像の各々である複数の後続フレーム画像の各々に対して貼り付ける。なお、起点フレーム画像および複数の後続フレーム画像は、貼り付け先の動画像を構成する複数のフレーム画像のうち、時間方向に連続するフレーム画像の集合を形成する。

【0050】

図１では、情報処理装置１００は、動画像Ｖ１に含まれる領域動画像ＰＶ１１を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、領域動画像ＰＶ１１を構成する複数の矩形領域のうち、起点領域Ｒ１１の後に続く複数の後続領域の各々のサイズを決定する。また、情報処理装置１００は、領域動画像ＰＶ１１を構成する複数の後続領域の各々のサイズを決定した場合、決定されたサイズに加工された複数の加工後の後続領域の各々を起点フレーム画像Ｆ２１の後に続く複数の後続フレーム画像の各々に貼り付ける。具体的には、情報処理装置１００は、動画像Ｖ１に含まれる領域動画像ＰＶ１１に対応する複数の矩形領域の各々の移動方向に関する情報に基づいて、複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付ける。

【0051】

また、情報処理装置１００は、動画像Ｖ１に含まれる領域動画像ＰＶ１２を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、領域動画像ＰＶ１２を構成する複数の矩形領域のうち、起点領域Ｒ１２の後に続く複数の後続領域の各々のサイズを決定する。また、情報処理装置１００は、複数の後続領域の各々のサイズを決定した場合、決定されたサイズに加工された複数の加工後の後続領域の各々を起点フレーム画像Ｆ２１の後に続く複数の後続フレーム画像の各々に貼り付ける。具体的には、情報処理装置１００は、動画像Ｖ１に含まれる領域動画像ＰＶ１２に対応する複数の矩形領域の各々の移動方向に関する情報に基づいて、複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付ける。

【0052】

このように、情報処理装置１００は、決定されたサイズに加工された加工後の対象領域動画像を貼り付け先の動画像に貼り付けた動画像である合成動画像を生成する。図１では、情報処理装置１００は、決定されたサイズに加工された加工後の領域動画像ＰＶ１１´および加工後の領域動画像ＰＶ１２´を動画像Ｖ２に貼り付けた合成動画像Ｖ３を生成する。また、情報処理装置１００は、貼り付け先の動画像に貼り付けられた加工後の対象領域動画像に対応するラベル情報を貼り付け先のラベル情報と組み合わせた合成ラベル情報を生成する。図１では、情報処理装置１００は、動画像Ｖ２に貼り付けられた加工後の領域動画像ＰＶ１１´に対応するラベル情報Ｌ１１´および加工後の領域動画像ＰＶ１２´に対応するラベル情報Ｌ１２´をラベル情報Ｌ２と組み合わせた合成ラベル情報Ｌ３を生成する。また、情報処理装置１００は、合成動画像Ｖ３と合成ラベル情報Ｌ３との組である合成教師データＴ３を生成する。

【0053】

なお、図１では、情報処理装置１００が、貼り付け先の動画像として動画像Ｖ２を選択し、貼り付け元の動画像として動画像Ｖ１を選択する場合について説明したが、情報処理装置１００は、動画像Ｖ２以外の動画像を貼り付け先の動画像として選択し、動画像Ｖ１以外の動画像を貼り付け元の動画像として選択してよい。また、情報処理装置１００は、動画像Ｖ２以外の動画像と動画像Ｖ１以外の動画像に基づいて、合成動画像と合成ラベル情報との組である合成教師データを生成してよい。例えば、情報処理装置１００は、行動検出モデルをミニバッチ学習させる毎に複数の合成教師データを生成してよい。

【0054】

このようにして、情報処理装置１００は、複数の合成教師データを生成した場合、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、複数の合成教師データを用いて学習させた行動検出モデルを生成する。また、情報処理装置１００は、生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。

【0055】

上述したように、情報処理装置１００は、例えば、手を振っている人物を含む領域動画像ＰＶ１１´および走っている車を含む領域動画像ＰＶ１２´を、動画像Ｖ１の背景（道路の両脇が森である背景）とは異なる背景（道路の両脇に複数の住宅が立ち並んでいる背景）を含む動画像Ｖ２に貼り付けた合成動画像Ｖ３を含む合成教師データＴ３を生成する。すなわち、情報処理装置１００は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を、貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置１００は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。

【0056】

また、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置１００は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置１００は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができる。

【0057】

〔３．情報処理装置の構成〕
図２は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

【0058】

（通信部１１０）
通信部１１０は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。通信部１１０は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置１００以外の他の情報処理装置との間で情報の送受信を行う。

【0059】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部１２０は、各種データを記憶する。例えば、記憶部１２０は、行動検出用の教師データに関する情報を記憶する。また、記憶部１２０は、各種プログラムを記憶する。例えば、記憶部１２０は、生成部１３４によって生成された行動検出モデルに関する情報を記憶する。

【0060】

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0061】

制御部１３０は、取得部１３１と、選択部１３２と、決定部１３３と、生成部１３４と、検出部１３５を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１３０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0062】

（取得部１３１）
取得部１３１は、入手可能な全ての行動検出用の教師データを取得してよい。具体的には、取得部１３１は、行動検出用の教師データとして、Kinetics（＜インターネット＞https://www.deepmind.com/open-source/kinetics（令和５年４月２５日検索））やAVA（＜インターネット＞https://research.google.com/ava/（令和５年４月２５日検索））等の公知のデータセットを取得してよい。例えば、取得部１３１は、通信部１１０を介して、行動検出用の教師データを格納する外部の情報処理装置から行動検出用の教師データ（以下、「教師データ」と記載する場合がある。）を取得してよい。

【0063】

より具体的には、取得部１３１は、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報、物体の行動の種類を示す情報、物体に対応する物体領域の位置を示す位置情報および物体領域のサイズを示すサイズ情報を含むラベル情報と動画像との組である教師データを取得してよい。例えば、物体領域は、各フレーム画像から公知の物体検出の技術を用いて検出された物体を囲む長方形の枠であるバウンディングボックスによって囲まれた領域である矩形領域であってよい。また、物体領域の位置を示す位置情報は、各フレーム画像から検出された物体に対応する矩形領域の位置を示す位置情報であってよい。例えば、矩形領域の位置を示す位置情報は、各フレーム画像におけるバウンディングボックスに対応する長方形の対角線上に位置する２つの角それぞれの位置座標、または、バウンディングボックスに対応する長方形の中心の位置座標を示す情報であってよい。また、物体領域のサイズを示すサイズ情報は、各フレーム画像から検出された物体に対応する矩形領域のサイズを示すサイズ情報であってよい。例えば、矩形領域のサイズを示すサイズ情報は、各フレーム画像におけるバウンディングボックスの幅および高さを示す情報であってよい。

【0064】

すなわち、取得部１３１は、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報、物体の行動の種類を示す情報、物体に対応する矩形領域の位置を示す位置情報および矩形領域のサイズを示すサイズ情報を含む情報である矩形情報の集合であるラベル情報と動画像との組である教師データを取得してよい。

【0065】

なお、物体領域は、矩形領域に限られない。例えば、物体領域は、各フレーム画像から、セマンティックセグメンテーション、インスタンスセグメンテーションまたはパノプティックセグメンテーション等の公知のセグメンテーションの技術を用いて検出された領域であってもよい。

【0066】

また、取得部１３１は、入手可能な全ての教師データを取得した場合、教師データの各々に含まれる動画像の中から、貼り付け先の動画像をランダムに選択してよい。また、取得部１３１は、貼り付け先の動画像を選択した場合、選択された貼り付け先の動画像と、貼り付け先の動画像と組になっているラベル情報である貼り付け先のラベル情報を取得してよい。すなわち、取得部１３１は、貼り付け先の動画像と貼り付け先のラベル情報との組である貼り付け先の教師データを取得してよい。例えば、取得部１３１は、貼り付け先のラベル情報として、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報（以下、「貼り付け先の物体の種類を示す情報」と略記する場合がある。）、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体の行動の種類を示す情報（以下、「貼り付け先の物体の行動の種類を示す情報」と略記する場合がある。）、ならびに、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域の位置を示す位置情報（以下、「貼り付け先の位置情報」と略記する場合がある。）および物体領域のサイズを示すサイズ情報（以下、「貼り付け先のサイズ情報」と略記する場合がある。）を含むラベル情報を取得してよい。例えば、取得部１３１は、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け先のラベル情報を取得してよい。なお、以下では、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のことを「貼り付け先の物体領域」と記載する場合がある。

【0067】

また、取得部１３１は、貼り付け先の教師データを取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け先の動画像とは異なる動画像である貼り付け元の動画像をランダムに選択してよい。また、取得部１３１は、貼り付け元の動画像を選択した場合、選択された貼り付け元の動画像と、貼り付け元の動画像と組になっているラベル情報である貼り付け元のラベル情報を取得してよい。すなわち、取得部１３１は、貼り付け元の動画像と貼り付け元のラベル情報との組である貼り付け元の教師データを取得してよい。例えば、取得部１３１は、貼り付け元のラベル情報として、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報（以下、「貼り付け元の物体の種類を示す情報」と略記する場合がある。）、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体の行動の種類を示す情報（以下、「貼り付け元の物体の行動の種類を示す情報」と略記する場合がある。）、ならびに、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域の位置を示す位置情報（以下、「貼り付け元の位置情報」と略記する場合がある。）および物体領域のサイズを示すサイズ情報（以下、「貼り付け元のサイズ情報」と略記する場合がある。）を含むラベル情報を取得してよい。例えば、取得部１３１は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け元のラベル情報を取得してよい。なお、以下では、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のことを「貼り付け元の物体領域」と記載する場合がある。

【0068】

このように、取得部１３１は、第１の動画像（貼り付け元の動画像に相当）を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域（貼り付け元の物体領域に相当）の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報（貼り付け元のラベル情報に相当）と第１の動画像との組である第１の教師データ（貼り付け元の教師データに相当）、ならびに、第１の動画像とは異なる第２の動画像（貼り付け先の動画像に相当）を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域（貼り付け先の物体領域に相当）の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報（貼り付け先のラベル情報に相当）と第２の動画像との組である第２の教師データ（貼り付け元の教師データに相当）を取得する。

【0069】

（選択部１３２）
選択部１３２は、取得部１３１によって貼り付け先の教師データおよび貼り付け元の教師データが取得された場合、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似性を判定してよい。具体的には、選択部１３２は、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似度を算出してよい。続いて、選択部１３２は、算出した類似度が所定の閾値を超える場合に、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似度が高いと判定してよい。

【0070】

例えば、選択部１３２は、貼り付け先のラベル情報に含まれる矩形情報の集合それぞれに関する情報と、貼り付け元のラベル情報に含まれる矩形情報の集合それぞれに関する情報との類似性を判定してよい。選択部１３２は、貼り付け先のラベル情報に含まれる矩形情報の集合それぞれに関する情報と、貼り付け元のラベル情報に含まれる矩形情報の集合それぞれに関する情報との類似度を算出してよい。続いて、選択部１３２は、算出した類似度が所定の閾値を超える場合に、貼り付け先のラベル情報に含まれる矩形情報の集合に関する情報と貼り付け元のラベル情報に含まれる矩形情報の集合に関する情報との類似度が高いと判定してよい。

【0071】

また、選択部１３２は、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似性を判定した場合、判定した類似性に基づいて、貼り付け元の動画像の中から、貼り付け先の動画像に貼り付ける対象となる領域動画像である対象領域動画像を選択してよい。具体的には、選択部１３２は、貼り付け元の動画像に含まれる領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する領域動画像である対象領域動画像を選択してよい。より具体的には、選択部１３２は、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域に基づく動画像である領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する物体領域に基づく領域動画像を対象領域動画像として選択してよい。例えば、選択部１３２は、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の矩形領域によって構成される領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する矩形領域に基づく領域動画像を対象領域動画像として選択してよい。

【0072】

このように、選択部１３２は、第１の動画像（貼り付け元の動画像に相当）を構成する複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域（貼り付け元の物体領域に相当）に基づく動画像である第１の領域動画像の中から、第１のラベル情報（貼り付け元のラベル情報に相当）に関する情報と第２のラベル情報（貼り付け先のラベル情報に相当）に関する情報との類似性に基づいて、第２の動画像（貼り付け先の動画像に相当）に埋め込む対象となる第１の領域動画像である対象領域動画像を選択する。

【0073】

例えば、選択部１３２は、貼り付け元のラベル情報に関する情報として、貼り付け元の物体の種類を示す情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の物体の種類を示す情報との類似性を判定してよい。例えば、選択部１３２は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似度を算出してよい。例えば、選択部１３２は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似度が第１閾値を超える場合、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似性が高いと判定してよい。例えば、選択部１３２は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報とが一致する場合、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似性が高いと判定してよい。

【0074】

このように、選択部１３２は、第１のラベル情報（貼り付け元のラベル情報に相当）に関する情報として、第１の物体の種類を示す情報（貼り付け元の物体の種類を示す情報に相当）と、第２のラベル情報（貼り付け先のラベル情報に相当）に関する情報として、第２の物体の種類を示す情報（貼り付け先の物体の種類を示す情報に相当）との類似性に基づいて、対象領域動画像を選択する。

【0075】

また、選択部１３２は、対象領域動画像を選択した場合、貼り付け元の動画像から対象領域動画像を切り取ってよい。具体的には、選択部１３２は、貼り付け元の動画像を構成する複数のフレーム画像それぞれから、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する物体領域それぞれを切り取ってよい。例えば、選択部１３２は、貼り付け元の動画像を構成する複数のフレーム画像それぞれから、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する矩形領域それぞれを切り取ってよい。このようにして、選択部１３２は、貼り付け元の動画像から、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域の集合である領域動画像を抽出してよい。例えば、選択部１３２は、貼り付け元の動画像から、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された矩形領域の集合である領域動画像を抽出してよい。

【0076】

（決定部１３３）
決定部１３３は、選択部１３２によって貼り付け元の動画像から対象領域動画像が切り取られた場合、貼り付け先の動画像に貼り付ける際の対象領域動画像のサイズを決定してよい。具体的には、決定部１３３は、対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報、および、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のサイズを示すサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを、貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。ここで、対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のサイズを示すサイズ情報（すなわち、貼り付け元のサイズ情報）に相当する。すなわち、決定部１３３は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。例えば、決定部１３３は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像を構成する複数の物体領域それぞれのサイズを貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体領域のサイズの範囲内で決定してよい。

【0077】

このように、決定部１３３は、第１のサイズ情報（貼り付け元のサイズ情報に相当）および第２のサイズ情報（貼り付け先のサイズ情報に相当）に基づいて、第１の動画像（貼り付け元の動画像に相当）を構成する複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域（貼り付け元の物体領域に相当）に基づく動画像である第１の領域動画像の中から第２の動画像（貼り付け先の動画像に相当）に埋め込む対象として選択された第１の領域動画像である対象領域動画像に含まれる第１の物体領域のサイズを、第２の物体領域（貼り付け先の物体領域に相当）のサイズの範囲内で決定する。

【0078】

より具体的には、決定部１３３は、対象領域動画像を構成する複数の物体領域の中から、最初の貼り付け対象（埋め込み対象ともいう）となる物体領域である起点領域を選択してよい。また、決定部１３３は、貼り付け先の動画像を構成する複数のフレーム画像の中から、最初の貼り付け先（埋め込み先ともいう）となるフレーム画像である起点フレーム画像を選択してよい。また、決定部１３３は、起点領域および起点フレーム画像を選択した場合、貼り付け元のラベル情報に含まれる起点領域のサイズ情報および貼り付け先のラベル情報に含まれる起点フレーム画像に含まれる物体領域のサイズ情報に基づいて、起点フレーム画像に含まれる物体領域のサイズに応じて起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。例えば、決定部１３３は、起点フレーム画像に含まれる物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。例えば、決定部１３３は、貼り付け元のラベル情報との類似性が高いと判定された貼り付け先のラベル情報に対応する物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。

【0079】

このように、決定部１３３は、最初の埋め込み対象として選択された第１の物体領域（貼り付け元の物体領域に相当）である第１の起点領域のサイズを、最初の埋め込み先として選択された第２のフレーム画像である第２の起点フレーム画像に含まれる第２の物体領域（貼り付け先の物体領域に相当）である第２の起点領域のサイズの範囲内で決定する。

【0080】

また、決定部１３３は、起点領域および起点フレーム画像を選択した場合、貼り付け先の動画像を構成する複数のフレーム画像のうち、起点フレーム画像の後に続く複数のフレーム画像の各々である複数の後続フレーム画像の各々に対して、対象領域動画像を構成する複数の物体領域のうち、起点領域の後に続く複数の物体領域の各々である複数の後続領域の各々を貼り付けることを決定してよい。ここで、起点領域および複数の後続領域は、対象領域動画像を構成する複数の物体領域のうち、時間方向に連続する物体領域の集合を形成する。また、起点フレーム画像および複数の後続フレーム画像は、貼り付け先の動画像を構成する複数のフレーム画像のうち、時間方向に連続するフレーム画像の集合を形成する。

【0081】

また、決定部１３３は、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の物体領域それぞれのサイズの時間変化に関する情報を算出してよい。例えば、決定部１３３は、複数の物体領域それぞれのサイズの時間変化に関する情報として、複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報を算出してよい。続いて、決定部１３３は、複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報および起点フレーム画像に貼り付ける際の起点領域のサイズに関する情報に基づいて、複数の後続領域それぞれのサイズを決定してよい。

【0082】

このように、決定部１３３は、第１のサイズ情報（貼り付け元のサイズ情報に相当）に基づく第１の物体領域（貼り付け元の物体領域に相当）のサイズの時間変化に関する情報に基づいて、対象領域動画像に含まれる第１の起点領域以外の第１の物体領域である第１の後続領域のサイズを決定する。

【0083】

また、決定部１３３は、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の物体領域それぞれの移動方向に関する情報を算出してよい。例えば、決定部１３３は、複数の物体領域それぞれの移動方向に関する情報として、複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。続いて、決定部１３３は、複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報および起点フレーム画像に貼り付けられた起点領域の位置に関する情報に基づいて、複数の後続フレーム画像の各々における複数の後続領域の各々の貼り付け位置を決定してよい。なお、決定部１３３は、起点フレーム画像における起点領域の貼り付け位置をランダムに決定してよい。

【0084】

（生成部１３４）
生成部１３４は、選択部１３２によって選択された対象領域動画像を貼り付け先（埋め込み先ともいう）の動画像に貼り付けた（埋め込んだともいう）動画像である合成動画像を生成してよい。具体的には、生成部１３４は、決定部１３３によって決定されたサイズに加工された加工後の対象領域動画像を貼り付け先（埋め込み先ともいう）の動画像に貼り付けた（埋め込んだともいう）合成動画像を生成してよい。より具体的には、生成部１３４は、決定部１３３によって決定されたサイズに加工された加工後の起点領域を起点フレーム画像に貼り付けてよい。例えば、生成部１３４は、決定部１３３によって決定された貼り付け位置に加工後の起点領域を貼り付けてよい。また、生成部１３４は、決定部１３３によって決定されたサイズに加工された複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付けてよい。例えば、生成部１３４は、決定部１３３によって決定された貼り付け位置に複数の後続領域の各々を貼り付けてよい。このように、生成部１３４は、決定部１３３によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々を貼り付け先（埋め込み先ともいう）の動画像を構成する複数のフレーム画像の各々に貼り付ける（埋め込むともいう）ことにより、合成動画像を生成してよい。また、生成部１３４は、決定部１３３によって決定された貼り付け位置に加工後の対象領域動画像を構成する複数の物体領域の各々を貼り付けることにより、合成動画像を生成してよい。

【0085】

このように、生成部１３４は、決定部１３３によって決定された第１の起点領域のサイズに加工された加工後の第１の起点領域を第２の起点フレーム画像に埋め込んだ合成動画像を生成する。また、生成部１３４は、第１の位置情報（貼り付け元の位置情報に相当）に基づく第１の物体領域（貼り付け元の物体領域に相当）の移動方向に関する情報に基づいて、決定部１３３によって決定された第１の後続領域のサイズに加工された加工後の第１の後続領域の各々を第２の動画像に含まれる第２の起点フレーム画像以外の第２のフレーム画像である第２の後続フレーム画像の各々に埋め込んだ合成動画像を生成する。

【0086】

また、生成部１３４は、対象領域動画像に対応するラベル情報を貼り付け先のラベル情報と組み合わせた合成ラベル情報を生成してよい。具体的には、生成部１３４は、決定部１３３によって決定されたサイズに加工された加工後の対象領域動画像に対応するラベル情報である加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。また、生成部１３４は、決定部１３３によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像に対応するラベル情報である加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。例えば、生成部１３４は、取得部１３１によって取得された貼り付け元のラベル情報に含まれる貼り付け元の物体の種類を示す情報および貼り付け元の物体の行動の種類を示す情報、ならびに、決定部１３３によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報および決定部１３３によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像を構成する複数の物体領域の各々の位置を示す位置情報を含む加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。

【0087】

なお、以下では、決定部１３３によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々であって、決定部１３３によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像を構成する複数の物体領域の各々のことを「加工後の物体領域」と記載する場合がある。

【0088】

また、生成部１３４は、合成動画像に含まれる加工後の物体領域のうち少なくとも一部の領域である第１の部分領域と貼り付け先の物体領域のうち少なくとも一部の領域である第２の部分領域とが重なるか否かを判定してよい。生成部１３４は、第１の部分領域と第２の部分領域とが重なると判定した場合、加工後の物体領域のうち第１の部分領域以外の領域の面積と第２の部分領域の面積との比を算出してよい。具体的には、生成部１３４は、合成動画像に含まれる複数の加工後の物体領域それぞれに含まれる第１の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第２の部分領域の総面積との比を算出してよい。例えば、図１に示す合成動画像Ｖ３に含まれる加工後の領域動画像ＰＶ１１´を構成する複数の加工後の矩形領域に含まれる一部の加工後の矩形領域のうち少なくとも一部の領域である第１の部分領域と、起点領域Ｒ２３を含む複数の矩形領域に含まれる一部の矩形領域のうち少なくとも一部の領域である第２の部分領域とが重複する場合について考える。生成部１３４は、加工後の領域動画像ＰＶ１１´を構成する複数の加工後の矩形領域それぞれに含まれる第１の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第２の部分領域の総面積との比を「８：２」であると算出したとする。生成部１３４は、複数の加工後の矩形領域それぞれに含まれる第１の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第２の部分領域の総面積との比を「８：２」であると算出した場合、加工後の領域動画像ＰＶ１１´に対応するラベル情報Ｌ１１´として、物体の種類を示す情報が「人物を０．８の割合で含み、車を０．２の割合で含む」ことを示す情報であるラベル情報Ｌ１１´を生成してよい。このように、生成部１３４は、加工後の物体領域に対応するラベル情報として、合成動画像に含まれる複数の加工後の物体領域それぞれに含まれる第１の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第２の部分領域の総面積との比に基づく第１のラベル情報を生成してよい。

【0089】

また、生成部１３４は、第１の部分領域と第２の部分領域とが重なると判定した場合、貼り付け先の物体領域のうち第２の部分領域以外の領域の面積と第１の部分領域の面積との比を算出してよい。具体的には、生成部１３４は、合成動画像に含まれる複数の貼り付け先の物体領域それぞれに含まれる第２の部分領域以外の領域の総面積と複数の貼り付け先の物体領域それぞれと重なる第１の部分領域の総面積との比を算出してよい。例えば、図１に示す合成動画像Ｖ３に含まれる加工後の領域動画像ＰＶ１１´を構成する複数の加工後の矩形領域に含まれる一部の加工後の矩形領域のうち少なくとも一部の領域である第１の部分領域と、起点領域Ｒ２３を含む複数の矩形領域に含まれる一部の矩形領域のうち少なくとも一部の領域である第２の部分領域とが重複する場合について考える。生成部１３４は、起点領域Ｒ２３を含む複数の矩形領域それぞれに含まれる第２の部分領域以外の領域の総面積と起点領域Ｒ２３を含む複数の矩形領域それぞれと重なる第１の部分領域の総面積との比を「７：３」であると算出したとする。生成部１３４は、起点領域Ｒ２３を含む複数の矩形領域それぞれに含まれる第２の部分領域以外の領域の総面積と起点領域Ｒ２３を含む複数の矩形領域それぞれと重なる第１の部分領域の総面積との比を「７：３」であると算出した場合、起点領域Ｒ２３を含む複数の矩形領域に対応するラベル情報Ｌ２３として、物体の種類を示す情報が「車を０．７の割合で含み、人物を０．３の割合で含む」ことを示す情報であるラベル情報Ｌ２３を生成してよい。このように、生成部１３４は、貼り付け先の物体領域に対応するラベル情報として、合成動画像に含まれる複数の貼り付け先の物体領域それぞれに含まれる第２の部分領域以外の領域の総面積と複数の貼り付け先の物体領域それぞれと重なる第１の部分領域の総面積との比に基づく第２のラベル情報を生成してよい。

【0090】

このように、生成部１３４は、合成動画像に含まれる第１の物体領域（加工後の物体領域に相当）のうち少なくとも一部の領域である第１の部分領域と第２の物体領域（貼り付け先の物体領域に相当）のうち少なくとも一部の領域である第２の部分領域とが重なる場合、第１の物体領域のうち第１の部分領域以外の領域の面積と第２の部分領域の面積との比に基づく第１のラベル情報を、第２の物体領域のうち第２の部分領域以外の領域の面積と第１の部分領域の面積との比に基づく第２のラベル情報と組み合わせた合成ラベル情報を生成する。

【0091】

また、生成部１３４は、合成動画像に含まれる一の加工後の物体領域のうち少なくとも一部の領域である第３の部分領域と他の加工後の物体領域のうち少なくとも一部の領域である第４の部分領域とが重なるか否かを判定してよい。生成部１３４は、第３の部分領域と第４の部分領域とが重なると判定した場合、一の加工後の物体領域のうち第３の部分領域以外の領域の面積と第４の部分領域の面積との比を算出してよい。具体的には、生成部１３４は、一の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第３の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第４の部分領域の総面積との比を算出してよい。また、生成部１３４は、一の加工後の物体領域に対応するラベル情報として、一の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第３の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第４の部分領域の総面積との比に基づく第３のラベル情報を生成してよい。

【0092】

また、生成部１３４は、第３の部分領域と第４の部分領域とが重なると判定した場合、他の加工後の物体領域のうち第４の部分領域以外の領域の面積と第３の部分領域の面積との比を算出してよい。具体的には、生成部１３４は、他の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第４の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第３の部分領域の総面積との比を算出してよい。また、生成部１３４は、他の加工後の物体領域に対応するラベル情報として、他の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第４の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第３の部分領域の総面積との比に基づく第３のラベル情報を生成してよい。

【0093】

また、生成部１３４は、合成動画像および合成ラベル情報を生成した場合、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成動画像と合成ラベル情報との組である合成教師データを生成してよい。

【0094】

このように、生成部１３４は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第２の動画像（貼り付け先の動画像に相当）に埋め込んだ合成動画像と、対象領域動画像に対応する第１のラベル情報（貼り付け元のラベル情報に相当）を第２のラベル情報（貼り付け先のラベル情報に相当）と組み合わせた合成ラベル情報との組である合成教師データを生成する。

【0095】

また、生成部１３４は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、第２の物体領域（貼り付け先の物体領域に相当）のサイズの範囲内で決定された第１の物体領域（貼り付け元の物体領域に相当）のサイズに基づいて加工された加工後の対象領域動画像を第２の動画像（貼り付け先の動画像に相当）に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第１のラベル情報（加工後のラベル情報に相当）を第２のラベル情報（貼り付け先のラベル情報に相当）と組み合わせた合成ラベル情報との組である合成教師データを生成する。

【0096】

また、取得部１３１は、生成部１３４によって生成された合成教師データを取得してよい。具体的には、取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データに含まれる第１の動画像を構成する複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データに含まれる第２のラベル情報に関する情報と第１のラベル情報に関する情報との類似性に基づいて選択された第２の動画像に埋め込む対象となる第１の領域動画像である対象領域動画像を第２の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。

【0097】

より具体的には、取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データに含まれる第１のサイズ情報、ならびに、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データに含まれる第２のサイズ情報に基づいて、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から第２の動画像に埋め込む対象として選択された第１の領域動画像である対象領域動画像に含まれる第１の物体領域のサイズであって、第２の物体領域のサイズの範囲内で決定された第１の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第２の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。

【0098】

また、生成部１３４は、取得部１３１によって取得された合成教師データに基づいて学習させた行動検出モデルを生成してよい。生成部１３４は、合成教師データに基づいて学習させた学習済みの行動検出モデルを生成してよい。具体的には、生成部１３４は、合成動画像が入力情報として入力された場合に、合成ラベル情報を出力情報として出力するように学習させた行動検出モデルを生成してよい。このように、生成部１３４は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。

【0099】

（検出部１３５）
検出部１３５は、生成部１３４によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出してよい。例えば、検出部１３５は、通信部１１０を介して、外部の情報処理装置から対象動画像を取得してよい。検出部１３５は、対象動画像を取得した場合、生成部１３４によって生成された行動検出モデルに対象動画像を入力することにより、行動検出モデルから出力された対象物体の行動に関する情報を検出結果として得てよい。具体的には、検出部１３５は、対象物体の行動に関する情報として、対象動画像を構成する複数のフレーム画像の各々に含まれる対象物体の種類を示す情報、対象物体の行動の種類を示す情報、対象物体に対応する物体領域の位置を示す位置情報および物体領域のサイズを示すサイズ情報を含む情報を検出してよい。このようにして、検出部１３５は、生成部１３４によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。

【0100】

図３は、実施形態に係る合成教師データの生成処理について説明するための図である。図３では、取得部１３１は、第１の動画像と第１のラベル情報との組である第１の教師データ、および、第２の動画像と第２のラベル情報との組である第２の教師データを取得する（ステップＳ１０１）。また、選択部１３２は、第１のラベル情報に関する情報と第２のラベル情報に関する情報との類似性に基づいて、第２の動画像に埋め込む対象となる第１の領域動画像である対象領域動画像を選択する（ステップＳ１０２）。また、決定部１３３は、第１のサイズ情報および第２のサイズ情報に基づいて、対象領域動画像に含まれる第１の物体領域のサイズを、第２の物体領域のサイズに応じて決定する（ステップＳ１０３）。また、生成部１３４は、対象領域動画像を第２の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する（ステップＳ１０４）。

【0101】

〔４．変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。。

【0102】

〔４－１．第１の変形例〕
上述した実施形態では、選択部１３２が、貼り付け元のラベル情報に関する情報として、貼り付け元の物体の種類を示す情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の物体の種類を示す情報との類似性に基づいて対象領域動画像を選択する場合について説明した。これに対し、変形例では、選択部１３２が、貼り付け元のラベル情報に関する情報として、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体領域の移動方向に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体領域の移動方向に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。

【0103】

図４は、変形例に係る選択処理について説明するための図である。図４に示す動画像Ｖ２は、図１で説明した動画像Ｖ２と同じものである。図４では、選択部１３２が、動画像Ｖ２に含まれる矩形領域Ｒ２１を含む複数の矩形領域それぞれの移動方向に関する情報と、動画像Ｖ１に含まれる矩形領域Ｒ１１を含む複数の矩形領域それぞれの移動方向に関する情報との類似性に基づいて、領域動画像ＰＶ１１を対象領域動画像として選択する点が図１と異なる。

【0104】

具体的には、選択部１３２は、貼り付け先の位置情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれの移動方向に関する情報（以下、「貼り付け先の移動方向に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け先の移動方向に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。

【0105】

図４では、選択部１３２は、動画像Ｖ２に含まれる矩形領域Ｒ２１を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域Ｒ２１の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。また、選択部１３２は、算出されたベクトルをつなげたベクトルＤ２１を推定してよい。図４に示すベクトルＤ２１は、矩形領域Ｒ２１を起点として、画像の右側から左側へ向かうベクトルである。

【0106】

また、選択部１３２は、動画像Ｖ２に含まれる矩形領域Ｒ２３を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域Ｒ２３の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。また、選択部１３２は、算出されたベクトルをつなげたベクトルＤ２３を推定してよい。図４に示すベクトルＤ２３は、矩形領域Ｒ２３を終点として、画面の手前側から奥側へ向かうベクトルである。なお、選択部１３２は、ベクトルＤ２３および動画像Ｖ２に撮像された２車線の道路に基づいて、動画像Ｖ２に含まれる矩形領域Ｒ２３を含む複数の矩形領域それぞれの移動方向に関する情報として、ベクトルＤ２３と反対方向のベクトルＤ２２を推定してよい。すなわち、ベクトルＤ２２は、矩形領域Ｒ２３を始点として、画面の奥側から手前側へ向かうベクトルである。

【0107】

また、選択部１３２は、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれの移動方向に関する情報（以下、「貼り付け元の移動方向に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け元の移動方向に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。

【0108】

また、図示は省略するが、選択部１３２は、動画像Ｖ１に含まれる矩形領域Ｒ１１を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域Ｒ１１の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。また、選択部１３２は、選択部１３２によって算出されたベクトルをつなげたベクトルＤ１３を推定してよい。例えば、選択部１３２は、矩形領域Ｒ１１を起点として、画像の左側から右側へ向かうベクトルＤ１３を推定してよい。

【0109】

また、図示は省略するが、選択部１３２は、動画像Ｖ１に含まれる矩形領域Ｒ１２を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域Ｒ１２の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報（例えば、ベクトル）を算出してよい。また、選択部１３２は、選択部１３２によって算出されたベクトルをつなげたベクトルＤ１４を推定してよい。例えば、選択部１３２は、矩形領域Ｒ１２を起点として、画像の手前側から奥側へ向かうベクトルＤ１４を推定してよい。

【0110】

また、選択部１３２は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報を算出した場合、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似性を判定してよい。例えば、選択部１３２は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似度を算出してよい。例えば、選択部１３２は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似度が第２閾値を超える場合、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似性が高いと判定してよい。

【0111】

図４では、選択部１３２は、ベクトルＤ２１とベクトルＤ１３との類似度が第２閾値を超えるので、ベクトルＤ２１とベクトルＤ１３との類似性が高いと判定する。選択部１３２は、ベクトルＤ２１とベクトルＤ１３との類似性が高いと判定した場合、動画像Ｖ１の中から、ベクトルＤ２１との類似性が高いと判定されたベクトルＤ１３に対応する領域動画像ＰＶ１１を対象領域動画像として選択する。

【0112】

また、選択部１３２は、ベクトルＤ２３とベクトルＤ１４との類似度が第２閾値を超えるので、ベクトルＤ２３とベクトルＤ１４との類似性が高いと判定する。選択部１３２は、ベクトルＤ２３とベクトルＤ１４との類似性が高いと判定した場合、動画像Ｖ１の中から、ベクトルＤ２３との類似性が高いと判定されたベクトルＤ１４に対応する領域動画像ＰＶ１２を対象領域動画像として選択する。

【0113】

このように、選択部１３２は、第１のラベル情報に関する情報として、第１の位置情報に基づく第１の物体領域の移動方向に関する情報（貼り付け元の移動方向に関する情報に相当）と、第２のラベル情報に関する情報として、第２の位置情報に基づく第２の物体領域の移動方向に関する情報（貼り付け先の移動方向に関する情報）との類似性に基づいて、対象領域動画像を選択する。

【0114】

〔４－２．第２の変形例〕
第２の変形例では、選択部１３２が、貼り付け元のラベル情報に関する情報として、貼り付け元の移動速度に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の移動速度に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。

【0115】

具体的には、選択部１３２は、貼り付け元のラベル情報に関する情報として、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれの移動速度に関する情報（以下、「貼り付け元の移動速度に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け元の移動速度に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化量をフレームレートの逆数で除した値を算出してよい。また、選択部１３２は、貼り付け先のラベル情報に関する情報として、貼り付け先の位置情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれの移動速度に関する情報（以下、「貼り付け先の移動速度に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け先の移動速度に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化量をフレームレートの逆数で除した値を算出してよい。

【0116】

また、選択部１３２は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報を算出した場合、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似性を判定してよい。例えば、選択部１３２は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似度を算出してよい。例えば、選択部１３２は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似度が第３閾値を超える場合、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似性が高いと判定してよい。

【0117】

このように、選択部１３２は、第１のラベル情報に関する情報として、第１の位置情報に基づく第１の物体領域の移動速度に関する情報（貼り付け元の移動速度に関する情報にに相当）と、第２のラベル情報に関する情報として、第２の位置情報に基づく第２の物体領域の移動速度に関する情報（貼り付け先の移動速度に関する情報に相当）との類似性に基づいて、対象領域動画像を選択する。

【0118】

〔４－３．第３の変形例〕
第３の変形例では、選択部１３２が、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズ情報と、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズ情報との類似性に基づいて対象領域動画像を選択する場合について説明する。

【0119】

具体的には、選択部１３２は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似性を判定してよい。例えば、選択部１３２は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似度を算出してよい。例えば、選択部１３２は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似度との類似度が第４閾値を超える場合、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似性が高いと判定してよい。

【0120】

このように、選択部１３２は、第１のラベル情報に関する情報として、第１のサイズ情報（貼り付け元のサイズ情報に相当）と、第２のラベル情報に関する情報として、第２のサイズ情報（貼り付け先のサイズ情報に相当）との類似性に基づいて、対象領域動画像を選択する。

【0121】

〔４－４．第４の変形例〕
第４の変形例では、選択部１３２が、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズの時間変化に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズの時間変化に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。

【0122】

具体的には、選択部１３２は、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズの時間変化に関する情報（以下、「貼り付け元のサイズの時間変化に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け元のサイズの時間変化に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合を算出してよい。また、選択部１３２は、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズ情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれのサイズの時間変化に関する情報（以下、「貼り付け先のサイズの時間変化に関する情報」と記載する場合がある。）を算出してよい。例えば、選択部１３２は、貼り付け先のサイズの時間変化に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合を算出してよい。

【0123】

また、選択部１３２は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報を算出した場合、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似性を判定してよい。例えば、選択部１３２は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似度を算出してよい。例えば、選択部１３２は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似度との類似度が第５閾値を超える場合、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似性が高いと判定してよい。

【0124】

このように、選択部１３２は、第１のラベル情報に関する情報として、第１のサイズ情報に基づく第１の物体領域のサイズの時間変化に関する情報（貼り付け元のサイズの時間変化に関する情報に相当）と、第２のラベル情報に関する情報として、第２のサイズ情報に基づく第２の物体領域のサイズの時間変化に関する情報（貼り付け先のサイズの時間変化に関する情報に相当）との類似性に基づいて、対象領域動画像を選択する。

【0125】

〔４－５．第５の変形例〕
上述した実施形態では、決定部１３３が、起点フレーム画像に含まれる物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定する場合について説明した。これに対し、第５の変形例では、決定部１３３が、貼り付け先のサイズ情報に基づく貼り付け先の物体領域のサイズの時間変化に関する情報に基づいて、起点フレーム画像に貼り付ける際の起点領域のサイズを決定する場合について説明する。

【0126】

図５は、変形例に係る決定処理について説明するための図である。図５に示す合成動画像Ｖ３は、図１に示す合成動画像Ｖ３と同じものである。図５では、決定部１３３が、矩形領域Ｒ２３を含む複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、起点フレーム画像Ｆ２１に貼り付ける際の起点領域Ｒ１２のサイズを決定する点が図１と異なる。

【0127】

具体的には、決定部１３３は、貼り付け先のサイズ情報に基づいて、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる複数の矩形領域それぞれのサイズの時間変化に関する情報を算出してよい。図５では、決定部１３３は、矩形領域Ｒ２３を含む複数の矩形領域それぞれのサイズの時間変化に関する情報として、矩形領域Ｒ２３の後に続く複数の矩形領域である複数の後続領域それぞれよりも一つ前の矩形領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報を算出してよい。続いて、決定部１３３は、複数の後続領域それぞれよりも一つ前の矩形領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報に基づいて、起点フレーム画像よりも前に遡った時刻における矩形領域Ｒ２３に対応する矩形領域のサイズを推定してよい。続いて、決定部１３３は、起点フレーム画像よりも前に遡った時刻における矩形領域Ｒ２３に対応する矩形領域のサイズのうち、起点フレーム画像に含まれる道路の道幅の範囲内である矩形領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。このように、決定部１３３は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。

【0128】

上述した実施形態および第１～第５の変形例において、選択部１３２は、対象領域動画像として、貼り付け元の物体領域の各々の面積が所定の面積以上である貼り付け元の物体領域によって構成される領域動画像を選択してよい。例えば、選択部１３２は、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズが所定のサイズ以上であるか否かを判定してよい。選択部１３２は、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズが所定のサイズ以上であると判定した場合、複数の物体領域それぞれのサイズが所定のサイズ以上であると判定された複数の物体領域によって構成される領域動画像を対象領域動画像として選択してよい。

【0129】

このように、選択部１３２は、対象領域動画像として、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域（貼り付け元の物体領域に相当）の各々の面積が所定の面積以上である第１の領域動画像を選択する。

【0130】

〔５．効果〕
上述したように、実施形態に係る情報処理装置１００は、取得部１３１と選択部１３２と生成部１３４を備える。取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データ、ならびに、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データを取得する。選択部１３２は、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から、第１のラベル情報に関する情報と第２のラベル情報に関する情報との類似性に基づいて、第２の動画像に埋め込む対象となる第１の領域動画像である対象領域動画像を選択する。生成部１３４は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第２の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する。

【0131】

このように、情報処理装置１００は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。すなわち、情報処理装置１００は、実際の動画像により近い自然な合成動画像を生成可能とすることができる。また、情報処理装置１００は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置１００は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。また、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置１００は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置１００は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0132】

また、選択部１３２は、第１のラベル情報に関する情報として、第１の物体の種類を示す情報と、第２のラベル情報に関する情報として、第２の物体の種類を示す情報との類似性に基づいて、対象領域動画像を選択する。

【0133】

これにより、情報処理装置１００は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。

【0134】

また、選択部１３２は、第１のラベル情報に関する情報として、第１の位置情報に基づく第１の物体領域の移動方向に関する情報と、第２のラベル情報に関する情報として、第２の位置情報に基づく第２の物体領域の移動方向に関する情報との類似性に基づいて、対象領域動画像を選択する。

【0135】

【0136】

また、選択部１３２は、第１のラベル情報に関する情報として、第１の位置情報に基づく第１の物体領域の移動速度に関する情報と、第２のラベル情報に関する情報として、第２の位置情報に基づく第２の物体領域の移動速度に関する情報との類似性に基づいて、対象領域動画像を選択する。

【0137】

【0138】

また、選択部１３２は、第１のラベル情報に関する情報として、第１のサイズ情報と、第２のラベル情報に関する情報として、第２のサイズ情報との類似性に基づいて、対象領域動画像を選択する。

【0139】

【0140】

また、選択部１３２は、第１のラベル情報に関する情報として、第１のサイズ情報に基づく第１の物体領域のサイズの時間変化に関する情報と、第２のラベル情報に関する情報として、第２のサイズ情報に基づく第２の物体領域のサイズの時間変化に関する情報との類似性に基づいて、対象領域動画像を選択する。

【0141】

【0142】

また、選択部１３２は、対象領域動画像として、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域の各々の面積が所定の面積以上である第１の領域動画像を選択する。

【0143】

これにより、情報処理装置１００は、画像の解像度が高い自然な合成動画像を生成可能とすることができる。

【0144】

また、情報処理装置１００は、取得部１３１と決定部１３３と生成部１３４を備える。取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データ、ならびに、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データを取得する。決定部１３３は、第１のサイズ情報および第２のサイズ情報に基づいて、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から第２の動画像に埋め込む対象として選択された第１の領域動画像である対象領域動画像に含まれる第１の物体領域のサイズを、第２の物体領域のサイズの範囲内で決定する。生成部１３４は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、第２の物体領域のサイズの範囲内で決定された第１の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第２の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する。

【0145】

このように、情報処理装置１００は、貼り付け先の動画像に貼り付けた際の違和感が少ないサイズに加工された領域動画像を貼り付けることができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。すなわち、情報処理装置１００は、実際の動画像により近い自然な合成動画像を生成可能とすることができる。また、情報処理装置１００は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置１００は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。また、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置１００は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置１００は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0146】

また、決定部１３３は、最初の埋め込み対象として選択された第１の物体領域である第１の起点領域のサイズを、最初の埋め込み先として選択された第２のフレーム画像である第２の起点フレーム画像に含まれる第２の物体領域である第２の起点領域のサイズの範囲内で決定する。生成部１３４は、決定部１３３によって決定された第１の起点領域のサイズに加工された加工後の第１の起点領域を第２の起点フレーム画像に埋め込んだ合成動画像を生成する。

【0147】

これにより、情報処理装置１００は、貼り付け先の動画像に貼り付けた際の違和感が少ないサイズに加工された領域動画像を貼り付けることができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。

【0148】

また、決定部１３３は、第１のサイズ情報に基づく第１の物体領域のサイズの時間変化に関する情報に基づいて、対象領域動画像に含まれる第１の起点領域以外の第１の物体領域である第１の後続領域のサイズを決定する。生成部１３４は、第１の位置情報に基づく第１の物体領域の移動方向に関する情報に基づいて、決定部１３３によって決定された第１の後続領域のサイズに加工された加工後の第１の後続領域の各々を第２の動画像に含まれる第２の起点フレーム画像以外の第２のフレーム画像である第２の後続フレーム画像の各々に埋め込んだ合成動画像を生成する。

【0149】

【0150】

また、生成部１３４は、合成動画像に含まれる第１の物体領域のうち少なくとも一部の領域である第１の部分領域と第２の物体領域のうち少なくとも一部の領域である第２の部分領域とが重なる場合、第１の物体領域のうち第１の部分領域以外の領域の面積と第２の部分領域の面積との比に基づく第１のラベル情報を、第２の物体領域のうち第２の部分領域以外の領域の面積と第１の部分領域の面積との比に基づく第２のラベル情報と組み合わせた合成ラベル情報を生成する。

【0151】

これにより、情報処理装置１００は、貼り付け元の物体領域と貼り付け先の物体領域との重なり具合に応じて適切なラベル情報を生成することができる。

【0152】

また、情報処理装置１００は、取得部１３１と生成部１３４を備える。取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データに含まれる第１の動画像を構成する複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データに含まれる第２のラベル情報に関する情報と第１のラベル情報に関する情報との類似性に基づいて選択された第２の動画像に埋め込む対象となる第１の領域動画像である対象領域動画像を第２の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。生成部１３４は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。

【0153】

これにより、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置１００は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置１００は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置１００は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置１００は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0154】

また、情報処理装置１００は、取得部１３１と生成部１３４を備える。取得部１３１は、第１の動画像を構成する複数の第１のフレーム画像の各々に含まれる第１の物体の種類を示す情報、第１の物体の行動の種類を示す情報、第１の物体に対応する第１の物体領域の位置を示す第１の位置情報および第１の物体領域のサイズを示す第１のサイズ情報を含む第１のラベル情報と第１の動画像との組である第１の教師データに含まれる第１のサイズ情報、ならびに、第１の動画像とは異なる第２の動画像を構成する複数の第２のフレーム画像の各々に含まれる第２の物体の種類を示す情報、第２の物体の行動の種類を示す情報、第２の物体に対応する第２の物体領域の位置を示す第２の位置情報および第２の物体領域のサイズを示す第２のサイズ情報を含む第２のラベル情報と第２の動画像との組である第２の教師データに含まれる第２のサイズ情報に基づいて、複数の第１のフレーム画像の各々から抽出された複数の第１の物体領域に基づく動画像である第１の領域動画像の中から第２の動画像に埋め込む対象として選択された第１の領域動画像である対象領域動画像に含まれる第１の物体領域のサイズであって、第２の物体領域のサイズの範囲内で決定された第１の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第２の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第１のラベル情報を第２のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。生成部１３４は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。

【0155】

【0156】

また、情報処理装置１００は、検出部１３５をさらに備える。検出部１３５は、生成部１３４によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。

【0157】

これにより、情報処理装置１００は、汎化性能が高い行動検出モデルを用いることにより、行動検出の精度を向上させることができる。

【0158】

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図６に示すような構成のコンピュータ１０００によって実現される。図６は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0159】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0160】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0161】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

【0162】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0163】

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0164】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0165】

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0166】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0167】

例えば、上述した実施形態では、情報処理装置１００が、取得部１３１と、選択部１３２と、決定部１３３と、生成部１３４と、検出部１３５を機能部として有する場合について説明したが、各部はそれぞれ別々の装置に分散して構成することができる。例えば、情報処理装置１００は、対象動画像から対象動画像に撮像された対象物体の行動の種類に関する情報を検出する情報処理装置として、取得部１３１と、検出部１３５を機能部として有することができる。また、情報処理装置１００以外の情報処理装置（以下、「生成装置」と記載する）は、合成教師データおよび行動検出モデルを生成する情報処理装置として、取得部１３１と、選択部１３２と、決定部１３３と、生成部１３４を機能部として有することができる。このとき、情報処理装置１００と生成装置とは、各種ネットワークと有線または無線で接続され、相互に情報の送受信を行ってよい。例えば、情報処理装置１００は、生成装置によって生成された行動検出モデルに関する情報を生成装置から受信してよい。また、情報処理装置１００は、生成装置から取得した行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動の種類に関する情報を検出してよい。

【0168】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【符号の説明】

【0169】

１００情報処理装置
１１０通信部
１２０記憶部
１３０制御部
１３１取得部
１３２選択部
１３３決定部
１３４生成部
１３５検出部

【図1】