IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 学校法人明星学苑の特許一覧

<>
  • 特開-情報処理装置及び情報処理方法 図1
  • 特開-情報処理装置及び情報処理方法 図2
  • 特開-情報処理装置及び情報処理方法 図3
  • 特開-情報処理装置及び情報処理方法 図4
  • 特開-情報処理装置及び情報処理方法 図5
  • 特開-情報処理装置及び情報処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162845
(43)【公開日】2024-11-21
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
   G06V 10/774 20220101AFI20241114BHJP
   G06T 7/00 20170101ALI20241114BHJP
   G06V 10/82 20220101ALI20241114BHJP
   G06N 3/09 20230101ALI20241114BHJP
   G06N 20/00 20190101ALI20241114BHJP
【FI】
G06V10/774
G06T7/00 350C
G06V10/82
G06N3/09
G06N20/00 130
【審査請求】有
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2023078779
(22)【出願日】2023-05-11
(11)【特許番号】
(45)【特許公報発行日】2024-10-01
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(71)【出願人】
【識別番号】500132214
【氏名又は名称】学校法人明星学苑
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】岡本 秀明
(72)【発明者】
【氏名】堀 隆之
(72)【発明者】
【氏名】鈴木 裕真
(72)【発明者】
【氏名】宅島 寛貴
(72)【発明者】
【氏名】田之上 隼人
(72)【発明者】
【氏名】植木 一也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA01
5L096FA64
5L096FA69
5L096GA34
5L096HA02
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
【課題】行動検出モデルの汎化性能を向上させることを可能とする。
【解決手段】本願に係る情報処理装置は、行動検出用の教師データを取得する取得部と、教師データに含まれる第1動画像を構成する複数の第1フレーム画像の各々から抽出された複数の第1物体領域に基づく動画像である第1領域動画像の中から、第1ラベル情報に関する情報と第2ラベル情報に関する情報との類似性に基づいて、第2動画像に埋め込む対象となる第1領域動画像である対象領域動画像を選択する選択部と、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第2動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第1ラベル情報を第2ラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得部と、
前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1のラベル情報に関する情報と前記第2のラベル情報に関する情報との類似性に基づいて、前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を選択する選択部と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、
を備える情報処理装置。
【請求項2】
前記選択部は、
前記第1のラベル情報に関する情報として、前記第1の物体の種類を示す情報と、前記第2のラベル情報に関する情報として、前記第2の物体の種類を示す情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、
前記第1のラベル情報に関する情報として、前記第1の位置情報に基づく前記第1の物体領域の移動方向に関する情報と、前記第2のラベル情報に関する情報として、前記第2の位置情報に基づく前記第2の物体領域の移動方向に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項4】
前記選択部は、
前記第1のラベル情報に関する情報として、前記第1の位置情報に基づく前記第1の物体領域の移動速度に関する情報と、前記第2のラベル情報に関する情報として、前記第2の位置情報に基づく前記第2の物体領域の移動速度に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項5】
前記選択部は、
前記第1のラベル情報に関する情報として、前記第1のサイズ情報と、前記第2のラベル情報に関する情報として、前記第2のサイズ情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項6】
前記選択部は、
前記第1のラベル情報に関する情報として、前記第1のサイズ情報に基づく前記第1の物体領域のサイズの時間変化に関する情報と、前記第2のラベル情報に関する情報として、前記第2のサイズ情報に基づく前記第2の物体領域のサイズの時間変化に関する情報との類似性に基づいて、前記対象領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項7】
前記選択部は、
前記対象領域動画像として、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域の各々の面積が所定の面積以上である前記第1の領域動画像を選択する、
請求項1に記載の情報処理装置。
【請求項8】
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得部と、
前記第1のサイズ情報および前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズを、前記第2の物体領域のサイズの範囲内で決定する決定部と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、
を備える情報処理装置。
【請求項9】
前記決定部は、
最初の埋め込み対象として選択された前記第1の物体領域である第1の起点領域のサイズを、最初の埋め込み先として選択された前記第2のフレーム画像である第2の起点フレーム画像に含まれる前記第2の物体領域である第2の起点領域のサイズの範囲内で決定し、
前記生成部は、
前記決定部によって決定された前記第1の起点領域のサイズに加工された加工後の前記第1の起点領域を前記第2の起点フレーム画像に埋め込んだ前記合成動画像を生成する、
請求項8に記載の情報処理装置。
【請求項10】
前記決定部は、
前記第1のサイズ情報に基づく前記第1の物体領域のサイズの時間変化に関する情報に基づいて、前記対象領域動画像に含まれる前記第1の起点領域以外の前記第1の物体領域である第1の後続領域のサイズを決定し、
前記生成部は、
前記第1の位置情報に基づく前記第1の物体領域の移動方向に関する情報に基づいて
前記決定部によって決定された前記第1の後続領域のサイズに加工された加工後の前記第1の後続領域の各々を前記第2の動画像に含まれる前記第2の起点フレーム画像以外の前記第2のフレーム画像である第2の後続フレーム画像の各々に埋め込んだ前記合成動画像を生成する、
請求項9に記載の情報処理装置。
【請求項11】
前記生成部は、
前記合成動画像に含まれる前記第1の物体領域のうち少なくとも一部の領域である第1の部分領域と前記第2の物体領域のうち少なくとも一部の領域である第2の部分領域とが重なる場合、前記第1の物体領域のうち前記第1の部分領域以外の領域の面積と前記第2の部分領域の面積との比に基づく前記第1のラベル情報を、前記第2の物体領域のうち前記第2の部分領域以外の領域の面積と前記第1の部分領域の面積との比に基づく前記第2のラベル情報と組み合わせた前記合成ラベル情報を生成する、
請求項1または8に記載の情報処理装置。
【請求項12】
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1の動画像を構成する前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のラベル情報に関する情報と前記第1のラベル情報に関する情報との類似性に基づいて選択された前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、
を備える情報処理装置。
【請求項13】
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1のサイズ情報、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズであって、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、
を備える情報処理装置。
【請求項14】
前記生成部によって生成された前記行動検出モデルを用いて、前記対象動画像から前記対象動画像に撮像された前記対象物体の行動に関する情報を検出する検出部
をさらに備える請求項12または13に記載の情報処理装置。
【請求項15】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得工程と、
前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1のラベル情報に関する情報と前記第2のラベル情報に関する情報との類似性に基づいて、前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を選択する選択工程と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成工程と、
を含む情報処理方法。
【請求項16】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得工程と、
前記第1のサイズ情報および前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズを、前記第2の物体領域のサイズの範囲内で決定する決定工程と、
処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成工程と、
を含む情報処理方法。
【請求項17】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1の動画像を構成する前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のラベル情報に関する情報と前記第1のラベル情報に関する情報との類似性に基づいて選択された前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得工程と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成工程と、
を含む情報処理方法。
【請求項18】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1のサイズ情報、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズであって、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得工程と、
対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成工程と、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
一般的に、教師データに対する過剰適合(Overfitting)を防ぎ、機械学習モデルの汎化性能を向上させるには、多様な特徴を含む多量の教師データを機械学習モデルに学習させることが有効である。しかしながら、実際には多様な特徴を含む多量の教師データを収集することが難しい場合がある。
【0003】
そこで、従来、オリジナルの教師データに基づいて、オリジナルの教師データとは異なる特徴を含む擬似的な教師データを生成するデータ拡張(Data Augmentation)の技術が知られている。データ拡張の技術を用いることにより、多様な特徴を含む教師データを多量に生成することができる。なお、以下では、オリジナルの教師データのことを単に「教師データ」と記載する場合がある。
【0004】
例えば、画像分類、物体検出、または、セグメンテーションなどに代表される画像認識に用いられる機械学習モデル(以下、「画像認識モデル」と記載する場合がある。)の学習に用いられる教師データ(以下、「画像認識用の教師データ」と記載する場合がある。)に対する様々なデータ拡張の技術が知られている。例えば、教師データに含まれる画像を回転、左右反転または拡大した擬似的な画像を生成する技術が知られている。
【0005】
また、教師データに含まれる画像の一部の領域を切り取った擬似的な画像を生成するCutout(非特許文献1参照)や2枚の画像を合成した擬似的な画像を生成するMixup(非特許文献2参照)と呼ばれる技術が知られている。また、CutoutとMixupを融合したCutMix(非特許文献3参照)と呼ばれる技術が知られている。CutMixは、2枚の画像のうち、一方の画像から一部の領域を切り取り、切り取った一部の領域を他方の画像に貼り付けた擬似的な画像を生成する技術である。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】“Improved Regularization of Convolutional Neural Networks with Cutout”,Terrance DeVries1, Graham W. Taylor,<インターネット>https://arxiv.org/pdf/1708.04552.pdf(令和5年4月25日検索)
【非特許文献2】“Mixup: Beyond Empirical Risk Minimization,”,Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz,<インターネット>https://arxiv.org/pdf/1710.09412.pdf(令和5年4月25日検索)
【非特許文献3】“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”, Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, Youngjoon Yoo, <インターネット>https://arxiv.org/pdf/1905.04899.pdf(令和5年4月25日検索)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上記の従来技術では、教師データに含まれる画像に基づいて擬似的な画像を生成するにすぎないため、行動検出モデルの汎化性能を向上させることを可能とすることができるとは限らない。
【0008】
本願は、行動検出モデルの汎化性能を向上させることを可能とすることができる情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願に係る情報処理装置は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得部と、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1のラベル情報に関する情報と前記第2のラベル情報に関する情報との類似性に基づいて、前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を選択する選択部と、処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。
【0010】
また、本願に係る情報処理装置は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データ、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データを取得する取得部と、前記第1のサイズ情報および前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズを、前記第2の物体領域のサイズの範囲内で決定する決定部と、処理対象の動画像から前記処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する生成部と、を備える。
【0011】
また、本願に係る情報処理装置は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1の動画像を構成する前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のラベル情報に関する情報と前記第1のラベル情報に関する情報との類似性に基づいて選択された前記第2の動画像に埋め込む対象となる前記第1の領域動画像である対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、を備える。
【0012】
また、本願に係る情報処理装置は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、前記第1の物体の行動の種類を示す情報、前記第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および前記第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と前記第1の動画像との組である第1の教師データに含まれる前記第1のサイズ情報、ならびに、前記第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、前記第2の物体の行動の種類を示す情報、前記第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および前記第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と前記第2の動画像との組である第2の教師データに含まれる前記第2のサイズ情報に基づいて、前記複数の第1のフレーム画像の各々から抽出された複数の前記第1の物体領域に基づく動画像である第1の領域動画像の中から前記第2の動画像に埋め込む対象として選択された前記第1の領域動画像である対象領域動画像に含まれる前記第1の物体領域のサイズであって、前記第2の物体領域のサイズの範囲内で決定された前記第1の物体領域のサイズに基づいて加工された加工後の前記対象領域動画像を前記第2の動画像に埋め込んだ合成動画像と、前記加工後の前記対象領域動画像に対応する前記第1のラベル情報を前記第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する取得部と、対象動画像から前記対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、前記合成教師データを用いて学習させた前記行動検出モデルを生成する生成部と、を備える。
【発明の効果】
【0013】
実施形態の一態様によれば、行動検出モデルの汎化性能を向上させることを可能とすることができる。
【図面の簡単な説明】
【0014】
図1図1は、実施形態に係るBoxMixの情報処理の概要について説明するための図である。
図2図2は、実施形態に係る情報処理装置の構成例を示す図である。
図3図3は、実施形態に係る合成教師データの生成処理の一例を示すフローチャートである。
図4図4は、変形例に係る選択処理について説明するための図である。
図5図5は、変形例に係る決定処理について説明するための図である。
図6図6は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0015】
以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0016】
(実施形態)
〔1.はじめに〕
従来、画像認識モデルの学習に用いられる画像認識用の教師データに対する様々なデータ拡張の技術が知られている。例えば、最もシンプルな技術としては、教師データに含まれる画像を回転、左右反転または拡大した擬似的な画像を生成する技術が知られている。画像を回転、左右反転または拡大した擬似的な画像を生成する技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが教師データに対して過剰適合することを防ぎ、画像認識モデルの汎化性能を向上させることができるということが知られている。
【0017】
また、教師データに含まれる画像の一部の領域を切り取った擬似的な画像を生成するCutout(非特許文献1参照)と呼ばれる技術が知られている。Cutoutの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが画像中の物体の特徴的な部位(例えば、物体が生物である場合であれば、生物の顔の部位など)に注目して学習を行うことを防ぐことを可能とするができる。また、異なる2枚の画像を合成した擬似的な画像を生成するMixup(非特許文献2参照)と呼ばれる技術が知られている。Mixupの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルが異なる2枚の画像にそれぞれ撮像された物体それぞれの特徴の差分を学習することを可能とすることができる。また、CutoutやMixupは、画像を回転、左右反転または拡大した擬似的な画像を生成する技術と比べると、画像認識モデルの汎化性能をより向上させることができるということが知られている。
【0018】
さらに、CutoutとMixupを融合したCutMix(非特許文献3参照)と呼ばれる技術が知られている。CutMixは、画像認識用の教師データに含まれる異なる2枚の画像のうち、一方の画像から画像の一部分に対応する領域(以下、「部分領域」と記載する場合がある。)を切り取り、切り取った部分領域を他方の画像に貼り付けた擬似的な画像を生成する。また、CutMixは、一方の画像から部分領域を切り取る際に、一方の画像に対応するラベル情報から部分領域に対応する部分的なラベル情報を切り取り、切り取った部分領域を他方の画像に貼り付ける際に、他方の画像に対応するラベル情報と切り取った部分的なラベル情報とを組み合わせた擬似的なラベル情報を生成する。このように、CutMixは、画像認識用の教師データに基づいて、擬似的な画像と擬似的なラベル情報との組を含む擬似的な教師データを生成する。また、CutMixは、画像認識用の教師データに擬似的な教師データを加えた新たな教師データを生成する。
【0019】
また、CutMixの技術を用いて生成された教師データに基づいて画像認識モデルを学習させることにより、画像認識モデルがCutoutの利点とMixupの利点の両方を享受することを可能とすることができる。すなわち、画像認識モデルが画像中の物体の特徴的な部位に注目して学習を行うことを防ぐことを可能とするとともに、画像認識モデルが異なる2枚の画像にそれぞれ撮像された物体それぞれの特徴の差分を学習することを可能とすることができる。これにより、CutMixは、CutoutまたはMixupと比べると、画像認識モデルの汎化性能をより向上させることができるということが知られている。
【0020】
しかしながら、CutMixは、画像認識用の教師データを対象とするデータ拡張の技術である。言い換えると、CutMixは、静止画像に基づいて擬似的な静止画像を生成する技術である。これに対し、動画認識に用いられる機械学習モデル(以下、「動画認識モデル」と記載する場合がある。)の学習に用いられる教師データ(以下、「動画認識用の教師データ」)に対するデータ拡張の技術が望まれている。例えば、動画認識の一例として、行動検出に用いられる機械学習モデル(以下、「行動検出モデル」と記載する場合がある。)の学習に用いられる教師データ(以下、「行動検出用の教師データ」と記載する場合がある。)に対するデータ拡張の技術が望まれている。
【0021】
そこで、本発明者は、CutMixを行動検出用の教師データに拡張した”BoxMix”と称する新たなデータ拡張の技術を提案する。BoxMixは、CutMixを時間方向に拡張したデータ拡張の技術である。なお、本明細書における行動検出は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出するタスク全般を含む概念であってよい。例えば、本明細書における行動検出は、行動分類の概念を含んでもよい。
【0022】
なお、本明細書における行動検出モデルとは、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出するように学習された機械学習モデルのことを指す。具体的には、行動検出モデルは、畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)またはTransformerを含む機械学習モデルであってよい。例えば、行動検出モデルは、SSD(Single Shot Multibox Detector)、YOLO(You Only Look Once)、2次元畳み込みニューラルネットワーク(Two-stream ConvNets等)、3次元畳み込みニューラルネットワーク(3D ResNet等)、DETR(DEtection with TRansformers)、TimeSformer、または、ViViT(Video Vision Transformer)等を含む機械学習モデルであってよい。
【0023】
ここで、行動検出モデルは、動画像に撮像された物体の背景や状況などのコンテキスト(以下、「動画像のコンテキスト」と記載する場合がある。)と物体の行動とを切り離して学習することが難しい場合がある。言い換えると、行動検出モデルは、動画像のコンテキストと物体の行動との組合せをセットで学習してしまう場合がある。例えば、行動検出モデルは、雨が降っている状況で人物が手を振っている様子を撮像した動画像から「人物が手を振っている」行動を学習すると、雨が降っているという特定の状況で人物が手を振っている行動が「人物が手を振っている」行動であると学習してしまう場合がある。このように、行動検出モデルは、動画像の特定のコンテキストにおける物体の行動をその物体の行動であると誤って学習する場合がある。そのため、従来は、行動検出モデルの汎化性能を向上させることが難しい場合があった。
【0024】
これに対し、本発明者が提案するBoxMixは、行動検出用の教師データに含まれる2枚の動画像のうち、一方の動画像から一方の動画像に含まれる物体領域に基づく動画像である領域動画像を切り取り、切り取った領域動画像を他方の動画像に貼り付けた擬似的な動画像(以下、「合成動画像」と記載する場合がある。)を生成する。また、BoxMixは、一方の動画像から領域動画像を切り取る際に、一方の動画像に対応するラベル情報から領域動画像に対応する部分的なラベル情報を切り取り、他方の動画像に対応するラベル情報と切り取った部分的なラベル情報とを組み合わせた擬似的なラベル情報(以下、「合成ラベル情報」と記載する場合がある。)を生成する。このようにして、BoxMixは、行動検出用の教師データに基づいて、合成動画像と合成ラベル情報との組を含む擬似的な教師データを生成する。また、BoxMixは、行動検出用の教師データに擬似的な教師データを加えた新たな教師データを生成する。
【0025】
このように、BoxMixは、行動検出用の教師データに含まれる2枚の動画像のうち、一方の動画像に含まれる領域動画像を一方の動画像とは異なるコンテキストを有する他方の動画像に貼り付けた合成画像を生成する。これにより、BoxMixは、行動検出用の教師データにおける動画像のコンテキストと物体の行動との組合せの多様性を増すことができる。すなわち、BoxMixは、動画像のコンテキストと物体の行動との多様な組合せを含む行動検出用の教師データを生成することができる。また、BoxMixの技術により生成された行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことができる。言い換えると、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことができる。すなわち、BoxMixの技術により生成された行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが動画像のコンテキストに依らずに物体の行動に注目して学習することを可能とすることができる。また、BoxMixは、行動検出モデルが動画像のコンテキストに依らずに物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが物体の行動を精度よく検出することを可能とすることができる。したがって、BoxMixは、行動検出モデルの汎化性能を向上させることができる。
【0026】
〔2.情報処理の概要〕
図1を用いて、実施形態に係るBoxMixの情報処理の概要について説明する。図1は、実施形態に係るBoxMixの情報処理の概要について説明するための図である。図1で説明するBoxMixの情報処理は、実施形態に係る情報処理装置100(図2参照)によって実行される。
【0027】
また、図1では、動画像を立方体として表現する。具体的には、立方体の幅は、動画像を構成する各フレーム画像の幅に対応する。また、立方体の高さは、動画像を構成する各フレーム画像の高さに対応する。また、立方体の奥行は、動画像の再生時間に対応する。立方体の奥行方向には、手前から奥に向かって、動画像を構成する1枚目のフレーム画像、2枚目のフレーム画像、…、動画像を構成する最後のフレーム画像であるi(iは3以上の自然数。例えば、iは数千~数万)枚目のフレーム画像が順番に並んでいるものとする。
【0028】
まず、情報処理装置100は、入手可能な全ての行動検出用の教師データを取得する。具体的には、情報処理装置100は、行動検出用の教師データとして、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類(物体クラスともいう)を示す情報、物体の行動の種類(行動クラスともいう)を示す情報、物体に対応する矩形領域の位置を示す位置情報および矩形領域のサイズを示すサイズ情報を含む情報である矩形情報の集合であるラベル情報と動画像との組である教師データを取得してよい。ここで、矩形領域とは、各フレーム画像から公知の物体検出の技術を用いて検出された物体を囲む長方形の枠であるバウンディングボックスによって囲まれた領域のことを指す。なお、以下では、行動検出用の教師データのことを単に「教師データ」と記載する場合がある。
【0029】
また、情報処理装置100は、入手可能な全ての教師データを取得した場合、教師データの各々に含まれる動画像の中から、貼り付け先の動画像をランダムに選択する。図1では、情報処理装置100は、貼り付け先の動画像として、道路の両脇に複数の住宅が立ち並んでいる背景において、道路の脇に立ち止まっている大人の人物および子どもの人物、ならびに、道路の手前から奥に向かって走っている車を撮像した動画像V2を選択する。
【0030】
また、情報処理装置100は、貼り付け先の動画像を選択した場合、選択された貼り付け先の動画像と、貼り付け先の動画像と組になっているラベル情報(以下、「貼り付け先のラベル情報」と記載する場合がある。)を取得する。すなわち、情報処理装置100は、貼り付け先の動画像と貼り付け先のラベル情報との組である行動検出用の教師データ(以下、「貼り付け先の教師データ」と記載する場合がある。)を取得する。例えば、情報処理装置100は、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け先のラベル情報を取得する。
【0031】
図1では、情報処理装置100は、動画像V2を選択した場合、動画像V2と、貼り付け先のラベル情報として、動画像V2と組になっているラベル情報L2を取得する。すなわち、情報処理装置100は、貼り付け先の教師データとして、動画像V2とラベル情報L2との組である行動検出用の教師データT2を取得する。具体的には、情報処理装置100は、ラベル情報L2として、動画像V2を構成する複数のフレーム画像の各々に含まれる大人の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L21と、子どもの人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L22と、車に対応する矩形領域に関する矩形情報の集合であるラベル情報L23を取得する。
【0032】
例えば、情報処理装置100は、動画像V2を構成する1枚目のフレーム画像F21について、大人の人物に対応する矩形領域R21に関する矩形情報B21を取得する。例えば、情報処理装置100は、大人の人物である物体の種類を示す情報として「人物」を示す情報、大人の人物である物体の行動の種類を示す情報として「立ち止まっている」ことを示す情報、ならびに、矩形領域R21の位置情報および矩形領域R21のサイズ情報を含む矩形情報B21を取得する。同様にして、情報処理装置100は、動画像V2を構成する2枚目以降のフレーム画像の各々について、矩形領域R21に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置100は、動画像V2を構成する複数のフレーム画像の各々に含まれる大人の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L21を取得する。
【0033】
また、情報処理装置100は、動画像V2を構成する1枚目のフレーム画像F21について、子どもの人物に対応する矩形領域R22に関する矩形情報B22を取得する。例えば、情報処理装置100は、子どもの人物である物体の種類を示す情報として「子ども」を示す情報、子どもの人物である物体の行動の種類を示す情報として「立ち止まっている」ことを示す情報、ならびに、矩形領域R22の位置情報および矩形領域R22のサイズ情報を含む矩形情報B22を取得する。同様にして、情報処理装置100は、動画像V2を構成する2枚目以降のフレーム画像の各々について、矩形領域R22に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置100は、動画像V2を構成する複数のフレーム画像の各々に含まれる子どもの人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L22を取得する。
【0034】
また、情報処理装置100は、動画像V2を構成する1枚目のフレーム画像F21について、車に対応する矩形領域R23に関する矩形情報B23を取得する。例えば、情報処理装置100は、車に対応する物体の種類を示す情報として「車」を示す情報、車に対応する物体の行動の種類を示す情報として「走っている」ことを示す情報、ならびに、矩形領域R23の位置情報および矩形領域R23のサイズ情報を含む矩形情報B23取得する。同様にして、情報処理装置100は、動画像V2を構成する2枚目以降のフレーム画像の各々について、矩形領域R23に含まれる車と同一の車に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置100は、動画像V2を構成する複数のフレーム画像の各々に含まれる車に対応する矩形領域に関する矩形情報の集合であるラベル情報L23を取得する。
【0035】
また、情報処理装置100は、貼り付け先の教師データを取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け先の動画像とは異なる動画像(以下、「貼り付け元の動画像」と記載する場合がある。)をランダムに選択する。図1では、情報処理装置100は、行動検出用の教師データT2を取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け元の動画像として、動画像V2とは異なる動画像V1を選択する。例えば、情報処理装置100は、道路の両脇が密林である背景において、道路の脇に立ち止まって手を振っている人物である第1の人物、手を振っている人物の隣に立っていて、手を首に当てている第2の人物、および道路の手前から奥に向かって走っている車を撮像した動画像V1を選択する。
【0036】
また、情報処理装置100は、貼り付け元の動画像を選択した場合、選択された貼り付け元の動画像と、貼り付け元の動画像と組になっているラベル情報(以下、「貼り付け元のラベル情報」と記載する場合がある。)を取得する。すなわち、情報処理装置100は、貼り付け元の動画像と貼り付け元のラベル情報との組である行動検出用の教師データ(以下、「貼り付け元の教師データ」と記載する場合がある。)を取得する。例えば、情報処理装置100は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け元のラベル情報を取得する。
【0037】
図1では、情報処理装置100は、動画像V1を選択した場合、貼り付け元のラベル情報として、動画像V1と組になっているラベル情報L1を取得する。すなわち、情報処理装置100は、貼り付け元の教師データとして、動画像V1とラベル情報L1との組である行動検出用の教師データT1を取得する。具体的には、情報処理装置100は、ラベル情報L1として、動画像V1を構成する複数のフレーム画像の各々に含まれる第1の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L11と、車に対応する矩形領域に関する矩形情報の集合であるラベル情報L12を取得する。
【0038】
例えば、情報処理装置100は、動画像V1を構成する1枚目のフレーム画像F11について、第1の人物に対応する矩形領域R11に関する矩形情報B11を取得する。例えば、情報処理装置100は、第1の人物である物体の種類を示す情報として「人物」を示す情報、第1の人物である物体の行動の種類を示す情報として「手を振っている」ことを示す情報、ならびに、矩形領域R11の位置情報および矩形領域R11のサイズ情報を含む矩形情報B11を取得する。同様にして、情報処理装置100は、動画像V1を構成する2枚目以降のフレーム画像の各々について、矩形領域R11に含まれる人物と同一の人物に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置100は、動画像V1を構成する複数のフレーム画像の各々に含まれる第1の人物に対応する矩形領域に関する矩形情報の集合であるラベル情報L11を取得する。
【0039】
また、情報処理装置100は、動画像V1を構成する1枚目のフレーム画像F11について、車に対応する矩形領域R12に関する矩形情報B12を取得する。例えば、情報処理装置100は、車である物体の種類を示す情報として「車」を示す情報、車である物体の行動の種類を示す情報として「走っている」ことを示す情報、ならびに、矩形領域R12の位置情報および矩形領域R12のサイズ情報を含む矩形情報B12を取得する。同様にして、情報処理装置100は、動画像V1を構成する2枚目以降のフレーム画像の各々について、矩形領域R12に含まれる車と同一の車に対応する矩形領域に関する矩形情報をそれぞれ取得する。このようにして、情報処理装置100は、動画像V1を構成する複数のフレーム画像の各々に含まれる車に対応する矩形領域に関する矩形情報の集合であるラベル情報L12を取得する。
【0040】
また、情報処理装置100は、貼り付け先の教師データと貼り付け元の教師データを取得した場合、貼り付け先のラベル情報と貼り付け元のラベル情報との比較に基づいて、貼り付け先のラベル情報と貼り付け元のラベル情報との類似性を判定する。続いて、情報処理装置100は、貼り付け元の動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する領域動画像を貼り付け先の動画像に貼り付ける対象として選択する。以下では、貼り付け先の動画像に貼り付ける対象として選択された領域動画像のことを「対象領域動画像」と記載する場合がある。情報処理装置100は、対象領域動画像を選択した場合、貼り付け元の動画像から対象領域動画像を切り取る。なお、本明細書では、「画像を切り取る」ことを「画像を抽出する」と記載する場合がある。
【0041】
ここで、領域動画像とは、1つの動画像を構成する複数のフレーム画像の各々から切り取られた同一物体に対応する複数の物体領域によって構成される動画像のことを指す。例えば、動画像がフレーム画像の集合であるとすると、領域動画像は同一物体に対応する物体領域の集合である。また、動画像が複数のフレーム画像を時間方向に並べたものであるとすると、領域動画像は同一物体に対応する物体領域を時間方向に並べたものである。すなわち、領域動画像は、1つの動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域に基づく動画像である。例えば、物体領域は、各フレーム画像から公知の物体検出の技術を用いて検出された物体に対応する矩形領域であってよい。以下では、領域動画像が、矩形領域によって構成される動画像である場合について説明する。
【0042】
図1では、情報処理装置100は、行動検出用の教師データT2と行動検出用の教師データT1を取得した場合、ラベル情報L2とラベル情報L1との類似性を判定する。例えば、情報処理装置100は、ラベル情報L21とラベル情報L11との比較に基づいて、ラベル情報L21に含まれる物体の種類を示す情報である「人物」と、ラベル情報L11に含まれる物体の種類を示す情報である「人物」とが一致するので、ラベル情報L21とラベル情報L11との類似性が高いと判定する。情報処理装置100は、ラベル情報L21とラベル情報L11との類似性が高いと判定した場合、動画像V1の中から、ラベル情報L21との類似性が高いと判定されたラベル情報L11に対応する領域動画像PV11を対象領域動画像として選択する。
【0043】
また、情報処理装置100は、領域動画像PV11を対象領域動画像として選択した場合、動画像V1から領域動画像PV11を切り取る。具体的には、情報処理装置100は、動画像V1を構成する1枚目のフレーム画像F11から、第1の人物に対応する矩形領域R11を切り取る。同様にして、情報処理装置100は、動画像V1を構成する2枚目以降のフレーム画像の各々から、矩形領域R11に含まれる人物と同一の人物に対応する矩形領域をそれぞれ切り取る。このようにして、情報処理装置100は、動画像V1から、動画像V1を構成する複数のフレーム画像の各々から切り取られた第1の人物に対応する矩形領域の集合である領域動画像PV11を抽出する。
【0044】
また、情報処理装置100は、ラベル情報L23とラベル情報L12との比較に基づいて、ラベル情報L23に含まれる物体の種類を示す情報である「車」と、ラベル情報L12に含まれる物体の種類を示す情報である「車」とが一致するので、ラベル情報L23とラベル情報L12との類似性が高いと判定する。情報処理装置100は、ラベル情報L23とラベル情報L12との類似性が高いと判定した場合、動画像V1の中から、ラベル情報L23との類似性が高いと判定されたラベル情報L12に対応する領域動画像PV12を対象領域動画像として選択する。
【0045】
また、情報処理装置100は、領域動画像PV12を対象領域動画像として選択した場合、動画像V1から領域動画像PV12を切り取る。具体的には、情報処理装置100は、動画像V1を構成する1枚目のフレーム画像F11から、車に対応する矩形領域R12を切り取る。同様にして、情報処理装置100は、動画像V1を構成する2枚目以降のフレーム画像の各々から、矩形領域R12に含まれる車と同一の車に対応する矩形領域をそれぞれ切り取る。このようにして、情報処理装置100は、動画像V1から、動画像V1を構成する複数のフレーム画像の各々から切り取られた車に対応する矩形領域の集合である領域動画像PV12を抽出する。
【0046】
また、情報処理装置100は、貼り付け元の動画像から対象領域動画像を切り取った場合、貼り付け先の動画像に貼り付ける際の対象領域動画像のサイズを決定する。具体的には、情報処理装置100は、対象領域動画像を構成する複数の矩形領域の中から、最初の貼り付け対象となる矩形領域である起点領域を選択する。また、情報処理装置100は、貼り付け先の動画像を構成する複数のフレーム画像の中から、最初の貼り付け先となるフレーム画像である起点フレーム画像を選択する。また、情報処理装置100は、起点領域および起点フレーム画像を選択した場合、貼り付け元のラベル情報に含まれる起点領域のサイズ情報および貼り付け先のラベル情報に含まれる起点フレーム画像に含まれる矩形領域のサイズ情報に基づいて、起点フレーム画像に貼り付ける際の起点領域のサイズを決定する。具体的には、情報処理装置100は、起点フレーム画像に貼り付ける際の起点領域のサイズを起点フレーム画像に含まれる矩形領域のサイズの範囲内で決定する。また、情報処理装置100は、起点フレーム画像に貼り付ける際の起点領域のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域を起点フレーム画像に貼り付ける。なお、本明細書では、「画像を貼り付ける」ことを「画像を埋め込む」と記載する場合がある。
【0047】
図1では、情報処理装置100は、動画像V1から領域動画像PV11を切り取った場合、領域動画像PV11を構成する複数の矩形領域の中から、矩形領域R11を起点領域として選択する。以下では、矩形領域R11のことを起点領域R11と記載する場合がある。また、情報処理装置100は、動画像V2を構成する複数のフレーム画像の中から、フレーム画像F21を起点フレーム画像として選択する。以下では、フレーム画像F21のことを起点フレーム画像F21と記載する場合がある。また、情報処理装置100は、起点領域R11および起点フレーム画像F21を選択した場合、ラベル情報L11に含まれる起点領域R11のサイズ情報およびラベル情報L21に含まれる矩形領域R21のサイズ情報に基づいて、起点フレーム画像F21に貼り付ける際の起点領域R11のサイズを決定する。例えば、情報処理装置100は、起点フレーム画像F21に貼り付ける際の起点領域R11のサイズを矩形領域R21のサイズの範囲内で決定する。また、情報処理装置100は、起点フレーム画像F21に貼り付ける際の起点領域R11のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域R11´を起点フレーム画像F21に貼り付ける。
【0048】
また、情報処理装置100は、動画像V1から領域動画像PV12を切り取った場合、領域動画像PV12を構成する複数の矩形領域の中から、矩形領域R12を起点領域として選択する。以下では、矩形領域R12のことを起点領域R12と記載する場合がある。また、情報処理装置100は、動画像V2を構成する複数のフレーム画像の中から、フレーム画像F21を起点フレーム画像として選択する。また、情報処理装置100は、起点領域R12および起点フレーム画像F21を選択した場合、ラベル情報L12に含まれる起点領域R12のサイズ情報およびラベル情報L23に含まれる矩形領域R23のサイズ情報に基づいて、起点フレーム画像F21に貼り付ける際の起点領域R12のサイズを決定する。例えば、情報処理装置100は、起点フレーム画像F21に貼り付ける際の起点領域R12のサイズを矩形領域R23のサイズの範囲内で決定する。また、情報処理装置100は、起点フレーム画像F21に貼り付ける際の起点領域R12のサイズを決定した場合、決定されたサイズに加工された加工後の起点領域R12´を起点フレーム画像F21に貼り付ける。
【0049】
また、情報処理装置100は、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、対象領域動画像を構成する複数の矩形領域のうち、起点領域の後に続く複数の矩形領域の各々である複数の後続領域の各々のサイズを決定する。ここで、起点領域および複数の後続領域は、対象領域動画像を構成する複数の矩形領域のうち、時間方向に連続する矩形領域の集合を形成する。また、情報処理装置100は、後続領域の各々のサイズを決定した場合、決定されたサイズに加工された加工後の後続領域の各々を、貼り付け先の動画像を構成する複数のフレーム画像のうち、起点フレーム画像の後に続く複数のフレーム画像の各々である複数の後続フレーム画像の各々に対して貼り付ける。なお、起点フレーム画像および複数の後続フレーム画像は、貼り付け先の動画像を構成する複数のフレーム画像のうち、時間方向に連続するフレーム画像の集合を形成する。
【0050】
図1では、情報処理装置100は、動画像V1に含まれる領域動画像PV11を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、領域動画像PV11を構成する複数の矩形領域のうち、起点領域R11の後に続く複数の後続領域の各々のサイズを決定する。また、情報処理装置100は、領域動画像PV11を構成する複数の後続領域の各々のサイズを決定した場合、決定されたサイズに加工された複数の加工後の後続領域の各々を起点フレーム画像F21の後に続く複数の後続フレーム画像の各々に貼り付ける。具体的には、情報処理装置100は、動画像V1に含まれる領域動画像PV11に対応する複数の矩形領域の各々の移動方向に関する情報に基づいて、複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付ける。
【0051】
また、情報処理装置100は、動画像V1に含まれる領域動画像PV12を構成する複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、領域動画像PV12を構成する複数の矩形領域のうち、起点領域R12の後に続く複数の後続領域の各々のサイズを決定する。また、情報処理装置100は、複数の後続領域の各々のサイズを決定した場合、決定されたサイズに加工された複数の加工後の後続領域の各々を起点フレーム画像F21の後に続く複数の後続フレーム画像の各々に貼り付ける。具体的には、情報処理装置100は、動画像V1に含まれる領域動画像PV12に対応する複数の矩形領域の各々の移動方向に関する情報に基づいて、複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付ける。
【0052】
このように、情報処理装置100は、決定されたサイズに加工された加工後の対象領域動画像を貼り付け先の動画像に貼り付けた動画像である合成動画像を生成する。図1では、情報処理装置100は、決定されたサイズに加工された加工後の領域動画像PV11´および加工後の領域動画像PV12´を動画像V2に貼り付けた合成動画像V3を生成する。また、情報処理装置100は、貼り付け先の動画像に貼り付けられた加工後の対象領域動画像に対応するラベル情報を貼り付け先のラベル情報と組み合わせた合成ラベル情報を生成する。図1では、情報処理装置100は、動画像V2に貼り付けられた加工後の領域動画像PV11´に対応するラベル情報L11´および加工後の領域動画像PV12´に対応するラベル情報L12´をラベル情報L2と組み合わせた合成ラベル情報L3を生成する。また、情報処理装置100は、合成動画像V3と合成ラベル情報L3との組である合成教師データT3を生成する。
【0053】
なお、図1では、情報処理装置100が、貼り付け先の動画像として動画像V2を選択し、貼り付け元の動画像として動画像V1を選択する場合について説明したが、情報処理装置100は、動画像V2以外の動画像を貼り付け先の動画像として選択し、動画像V1以外の動画像を貼り付け元の動画像として選択してよい。また、情報処理装置100は、動画像V2以外の動画像と動画像V1以外の動画像に基づいて、合成動画像と合成ラベル情報との組である合成教師データを生成してよい。例えば、情報処理装置100は、行動検出モデルをミニバッチ学習させる毎に複数の合成教師データを生成してよい。
【0054】
このようにして、情報処理装置100は、複数の合成教師データを生成した場合、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、複数の合成教師データを用いて学習させた行動検出モデルを生成する。また、情報処理装置100は、生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。
【0055】
上述したように、情報処理装置100は、例えば、手を振っている人物を含む領域動画像PV11´および走っている車を含む領域動画像PV12´を、動画像V1の背景(道路の両脇が森である背景)とは異なる背景(道路の両脇に複数の住宅が立ち並んでいる背景)を含む動画像V2に貼り付けた合成動画像V3を含む合成教師データT3を生成する。すなわち、情報処理装置100は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を、貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置100は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。
【0056】
また、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置100は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置100は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置100は、行動検出モデルの汎化性能を向上させることができる。
【0057】
〔3.情報処理装置の構成〕
図2は、実施形態に係る情報処理装置100の構成例を示す図である。情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0058】
(通信部110)
通信部110は、NIC(Network Interface Card)やアンテナ等によって実現される。通信部110は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置100以外の他の情報処理装置との間で情報の送受信を行う。
【0059】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部120は、各種データを記憶する。例えば、記憶部120は、行動検出用の教師データに関する情報を記憶する。また、記憶部120は、各種プログラムを記憶する。例えば、記憶部120は、生成部134によって生成された行動検出モデルに関する情報を記憶する。
【0060】
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0061】
制御部130は、取得部131と、選択部132と、決定部133と、生成部134と、検出部135を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部130の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。
【0062】
(取得部131)
取得部131は、入手可能な全ての行動検出用の教師データを取得してよい。具体的には、取得部131は、行動検出用の教師データとして、Kinetics(<インターネット>https://www.deepmind.com/open-source/kinetics(令和5年4月25日検索))やAVA(<インターネット>https://research.google.com/ava/(令和5年4月25日検索))等の公知のデータセットを取得してよい。例えば、取得部131は、通信部110を介して、行動検出用の教師データを格納する外部の情報処理装置から行動検出用の教師データ(以下、「教師データ」と記載する場合がある。)を取得してよい。
【0063】
より具体的には、取得部131は、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報、物体の行動の種類を示す情報、物体に対応する物体領域の位置を示す位置情報および物体領域のサイズを示すサイズ情報を含むラベル情報と動画像との組である教師データを取得してよい。例えば、物体領域は、各フレーム画像から公知の物体検出の技術を用いて検出された物体を囲む長方形の枠であるバウンディングボックスによって囲まれた領域である矩形領域であってよい。また、物体領域の位置を示す位置情報は、各フレーム画像から検出された物体に対応する矩形領域の位置を示す位置情報であってよい。例えば、矩形領域の位置を示す位置情報は、各フレーム画像におけるバウンディングボックスに対応する長方形の対角線上に位置する2つの角それぞれの位置座標、または、バウンディングボックスに対応する長方形の中心の位置座標を示す情報であってよい。また、物体領域のサイズを示すサイズ情報は、各フレーム画像から検出された物体に対応する矩形領域のサイズを示すサイズ情報であってよい。例えば、矩形領域のサイズを示すサイズ情報は、各フレーム画像におけるバウンディングボックスの幅および高さを示す情報であってよい。
【0064】
すなわち、取得部131は、動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報、物体の行動の種類を示す情報、物体に対応する矩形領域の位置を示す位置情報および矩形領域のサイズを示すサイズ情報を含む情報である矩形情報の集合であるラベル情報と動画像との組である教師データを取得してよい。
【0065】
なお、物体領域は、矩形領域に限られない。例えば、物体領域は、各フレーム画像から、セマンティックセグメンテーション、インスタンスセグメンテーションまたはパノプティックセグメンテーション等の公知のセグメンテーションの技術を用いて検出された領域であってもよい。
【0066】
また、取得部131は、入手可能な全ての教師データを取得した場合、教師データの各々に含まれる動画像の中から、貼り付け先の動画像をランダムに選択してよい。また、取得部131は、貼り付け先の動画像を選択した場合、選択された貼り付け先の動画像と、貼り付け先の動画像と組になっているラベル情報である貼り付け先のラベル情報を取得してよい。すなわち、取得部131は、貼り付け先の動画像と貼り付け先のラベル情報との組である貼り付け先の教師データを取得してよい。例えば、取得部131は、貼り付け先のラベル情報として、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報(以下、「貼り付け先の物体の種類を示す情報」と略記する場合がある。)、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体の行動の種類を示す情報(以下、「貼り付け先の物体の行動の種類を示す情報」と略記する場合がある。)、ならびに、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域の位置を示す位置情報(以下、「貼り付け先の位置情報」と略記する場合がある。)および物体領域のサイズを示すサイズ情報(以下、「貼り付け先のサイズ情報」と略記する場合がある。)を含むラベル情報を取得してよい。例えば、取得部131は、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け先のラベル情報を取得してよい。なお、以下では、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のことを「貼り付け先の物体領域」と記載する場合がある。
【0067】
また、取得部131は、貼り付け先の教師データを取得した場合、入手可能な全ての教師データの各々に含まれる動画像の中から、貼り付け先の動画像とは異なる動画像である貼り付け元の動画像をランダムに選択してよい。また、取得部131は、貼り付け元の動画像を選択した場合、選択された貼り付け元の動画像と、貼り付け元の動画像と組になっているラベル情報である貼り付け元のラベル情報を取得してよい。すなわち、取得部131は、貼り付け元の動画像と貼り付け元のラベル情報との組である貼り付け元の教師データを取得してよい。例えば、取得部131は、貼り付け元のラベル情報として、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体の種類を示す情報(以下、「貼り付け元の物体の種類を示す情報」と略記する場合がある。)、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体の行動の種類を示す情報(以下、「貼り付け元の物体の行動の種類を示す情報」と略記する場合がある。)、ならびに、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域の位置を示す位置情報(以下、「貼り付け元の位置情報」と略記する場合がある。)および物体領域のサイズを示すサイズ情報(以下、「貼り付け元のサイズ情報」と略記する場合がある。)を含むラベル情報を取得してよい。例えば、取得部131は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる矩形領域に対応する矩形情報の集合である貼り付け元のラベル情報を取得してよい。なお、以下では、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のことを「貼り付け元の物体領域」と記載する場合がある。
【0068】
このように、取得部131は、第1の動画像(貼り付け元の動画像に相当)を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域(貼り付け元の物体領域に相当)の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報(貼り付け元のラベル情報に相当)と第1の動画像との組である第1の教師データ(貼り付け元の教師データに相当)、ならびに、第1の動画像とは異なる第2の動画像(貼り付け先の動画像に相当)を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域(貼り付け先の物体領域に相当)の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報(貼り付け先のラベル情報に相当)と第2の動画像との組である第2の教師データ(貼り付け元の教師データに相当)を取得する。
【0069】
(選択部132)
選択部132は、取得部131によって貼り付け先の教師データおよび貼り付け元の教師データが取得された場合、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似性を判定してよい。具体的には、選択部132は、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似度を算出してよい。続いて、選択部132は、算出した類似度が所定の閾値を超える場合に、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似度が高いと判定してよい。
【0070】
例えば、選択部132は、貼り付け先のラベル情報に含まれる矩形情報の集合それぞれに関する情報と、貼り付け元のラベル情報に含まれる矩形情報の集合それぞれに関する情報との類似性を判定してよい。選択部132は、貼り付け先のラベル情報に含まれる矩形情報の集合それぞれに関する情報と、貼り付け元のラベル情報に含まれる矩形情報の集合それぞれに関する情報との類似度を算出してよい。続いて、選択部132は、算出した類似度が所定の閾値を超える場合に、貼り付け先のラベル情報に含まれる矩形情報の集合に関する情報と貼り付け元のラベル情報に含まれる矩形情報の集合に関する情報との類似度が高いと判定してよい。
【0071】
また、選択部132は、貼り付け先のラベル情報に関する情報と貼り付け元のラベル情報に関する情報との類似性を判定した場合、判定した類似性に基づいて、貼り付け元の動画像の中から、貼り付け先の動画像に貼り付ける対象となる領域動画像である対象領域動画像を選択してよい。具体的には、選択部132は、貼り付け元の動画像に含まれる領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する領域動画像である対象領域動画像を選択してよい。より具体的には、選択部132は、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域に基づく動画像である領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する物体領域に基づく領域動画像を対象領域動画像として選択してよい。例えば、選択部132は、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の矩形領域によって構成される領域動画像の中から、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する矩形領域に基づく領域動画像を対象領域動画像として選択してよい。
【0072】
このように、選択部132は、第1の動画像(貼り付け元の動画像に相当)を構成する複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域(貼り付け元の物体領域に相当)に基づく動画像である第1の領域動画像の中から、第1のラベル情報(貼り付け元のラベル情報に相当)に関する情報と第2のラベル情報(貼り付け先のラベル情報に相当)に関する情報との類似性に基づいて、第2の動画像(貼り付け先の動画像に相当)に埋め込む対象となる第1の領域動画像である対象領域動画像を選択する。
【0073】
例えば、選択部132は、貼り付け元のラベル情報に関する情報として、貼り付け元の物体の種類を示す情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の物体の種類を示す情報との類似性を判定してよい。例えば、選択部132は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似度を算出してよい。例えば、選択部132は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似度が第1閾値を超える場合、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似性が高いと判定してよい。例えば、選択部132は、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報とが一致する場合、貼り付け元の物体の種類を示す情報と貼り付け先の物体の種類を示す情報との類似性が高いと判定してよい。
【0074】
このように、選択部132は、第1のラベル情報(貼り付け元のラベル情報に相当)に関する情報として、第1の物体の種類を示す情報(貼り付け元の物体の種類を示す情報に相当)と、第2のラベル情報(貼り付け先のラベル情報に相当)に関する情報として、第2の物体の種類を示す情報(貼り付け先の物体の種類を示す情報に相当)との類似性に基づいて、対象領域動画像を選択する。
【0075】
また、選択部132は、対象領域動画像を選択した場合、貼り付け元の動画像から対象領域動画像を切り取ってよい。具体的には、選択部132は、貼り付け元の動画像を構成する複数のフレーム画像それぞれから、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する物体領域それぞれを切り取ってよい。例えば、選択部132は、貼り付け元の動画像を構成する複数のフレーム画像それぞれから、貼り付け先のラベル情報との類似性が高いと判定された貼り付け元のラベル情報に対応する矩形領域それぞれを切り取ってよい。このようにして、選択部132は、貼り付け元の動画像から、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された複数の物体領域の集合である領域動画像を抽出してよい。例えば、選択部132は、貼り付け元の動画像から、貼り付け元の動画像を構成する複数のフレーム画像の各々から抽出された矩形領域の集合である領域動画像を抽出してよい。
【0076】
(決定部133)
決定部133は、選択部132によって貼り付け元の動画像から対象領域動画像が切り取られた場合、貼り付け先の動画像に貼り付ける際の対象領域動画像のサイズを決定してよい。具体的には、決定部133は、対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報、および、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のサイズを示すサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを、貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。ここで、対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報は、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体に対応する物体領域のサイズを示すサイズ情報(すなわち、貼り付け元のサイズ情報)に相当する。すなわち、決定部133は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。例えば、決定部133は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像を構成する複数の物体領域それぞれのサイズを貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体領域のサイズの範囲内で決定してよい。
【0077】
このように、決定部133は、第1のサイズ情報(貼り付け元のサイズ情報に相当)および第2のサイズ情報(貼り付け先のサイズ情報に相当)に基づいて、第1の動画像(貼り付け元の動画像に相当)を構成する複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域(貼り付け元の物体領域に相当)に基づく動画像である第1の領域動画像の中から第2の動画像(貼り付け先の動画像に相当)に埋め込む対象として選択された第1の領域動画像である対象領域動画像に含まれる第1の物体領域のサイズを、第2の物体領域(貼り付け先の物体領域に相当)のサイズの範囲内で決定する。
【0078】
より具体的には、決定部133は、対象領域動画像を構成する複数の物体領域の中から、最初の貼り付け対象(埋め込み対象ともいう)となる物体領域である起点領域を選択してよい。また、決定部133は、貼り付け先の動画像を構成する複数のフレーム画像の中から、最初の貼り付け先(埋め込み先ともいう)となるフレーム画像である起点フレーム画像を選択してよい。また、決定部133は、起点領域および起点フレーム画像を選択した場合、貼り付け元のラベル情報に含まれる起点領域のサイズ情報および貼り付け先のラベル情報に含まれる起点フレーム画像に含まれる物体領域のサイズ情報に基づいて、起点フレーム画像に含まれる物体領域のサイズに応じて起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。例えば、決定部133は、起点フレーム画像に含まれる物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。例えば、決定部133は、貼り付け元のラベル情報との類似性が高いと判定された貼り付け先のラベル情報に対応する物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。
【0079】
このように、決定部133は、最初の埋め込み対象として選択された第1の物体領域(貼り付け元の物体領域に相当)である第1の起点領域のサイズを、最初の埋め込み先として選択された第2のフレーム画像である第2の起点フレーム画像に含まれる第2の物体領域(貼り付け先の物体領域に相当)である第2の起点領域のサイズの範囲内で決定する。
【0080】
また、決定部133は、起点領域および起点フレーム画像を選択した場合、貼り付け先の動画像を構成する複数のフレーム画像のうち、起点フレーム画像の後に続く複数のフレーム画像の各々である複数の後続フレーム画像の各々に対して、対象領域動画像を構成する複数の物体領域のうち、起点領域の後に続く複数の物体領域の各々である複数の後続領域の各々を貼り付けることを決定してよい。ここで、起点領域および複数の後続領域は、対象領域動画像を構成する複数の物体領域のうち、時間方向に連続する物体領域の集合を形成する。また、起点フレーム画像および複数の後続フレーム画像は、貼り付け先の動画像を構成する複数のフレーム画像のうち、時間方向に連続するフレーム画像の集合を形成する。
【0081】
また、決定部133は、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の物体領域それぞれのサイズの時間変化に関する情報を算出してよい。例えば、決定部133は、複数の物体領域それぞれのサイズの時間変化に関する情報として、複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報を算出してよい。続いて、決定部133は、複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報および起点フレーム画像に貼り付ける際の起点領域のサイズに関する情報に基づいて、複数の後続領域それぞれのサイズを決定してよい。
【0082】
このように、決定部133は、第1のサイズ情報(貼り付け元のサイズ情報に相当)に基づく第1の物体領域(貼り付け元の物体領域に相当)のサイズの時間変化に関する情報に基づいて、対象領域動画像に含まれる第1の起点領域以外の第1の物体領域である第1の後続領域のサイズを決定する。
【0083】
また、決定部133は、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる対象領域動画像を構成する複数の物体領域それぞれの移動方向に関する情報を算出してよい。例えば、決定部133は、複数の物体領域それぞれの移動方向に関する情報として、複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。続いて、決定部133は、複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報および起点フレーム画像に貼り付けられた起点領域の位置に関する情報に基づいて、複数の後続フレーム画像の各々における複数の後続領域の各々の貼り付け位置を決定してよい。なお、決定部133は、起点フレーム画像における起点領域の貼り付け位置をランダムに決定してよい。
【0084】
(生成部134)
生成部134は、選択部132によって選択された対象領域動画像を貼り付け先(埋め込み先ともいう)の動画像に貼り付けた(埋め込んだともいう)動画像である合成動画像を生成してよい。具体的には、生成部134は、決定部133によって決定されたサイズに加工された加工後の対象領域動画像を貼り付け先(埋め込み先ともいう)の動画像に貼り付けた(埋め込んだともいう)合成動画像を生成してよい。より具体的には、生成部134は、決定部133によって決定されたサイズに加工された加工後の起点領域を起点フレーム画像に貼り付けてよい。例えば、生成部134は、決定部133によって決定された貼り付け位置に加工後の起点領域を貼り付けてよい。また、生成部134は、決定部133によって決定されたサイズに加工された複数の加工後の後続領域の各々を複数の後続フレーム画像の各々に貼り付けてよい。例えば、生成部134は、決定部133によって決定された貼り付け位置に複数の後続領域の各々を貼り付けてよい。このように、生成部134は、決定部133によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々を貼り付け先(埋め込み先ともいう)の動画像を構成する複数のフレーム画像の各々に貼り付ける(埋め込むともいう)ことにより、合成動画像を生成してよい。また、生成部134は、決定部133によって決定された貼り付け位置に加工後の対象領域動画像を構成する複数の物体領域の各々を貼り付けることにより、合成動画像を生成してよい。
【0085】
このように、生成部134は、決定部133によって決定された第1の起点領域のサイズに加工された加工後の第1の起点領域を第2の起点フレーム画像に埋め込んだ合成動画像を生成する。また、生成部134は、第1の位置情報(貼り付け元の位置情報に相当)に基づく第1の物体領域(貼り付け元の物体領域に相当)の移動方向に関する情報に基づいて、決定部133によって決定された第1の後続領域のサイズに加工された加工後の第1の後続領域の各々を第2の動画像に含まれる第2の起点フレーム画像以外の第2のフレーム画像である第2の後続フレーム画像の各々に埋め込んだ合成動画像を生成する。
【0086】
また、生成部134は、対象領域動画像に対応するラベル情報を貼り付け先のラベル情報と組み合わせた合成ラベル情報を生成してよい。具体的には、生成部134は、決定部133によって決定されたサイズに加工された加工後の対象領域動画像に対応するラベル情報である加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。また、生成部134は、決定部133によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像に対応するラベル情報である加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。例えば、生成部134は、取得部131によって取得された貼り付け元のラベル情報に含まれる貼り付け元の物体の種類を示す情報および貼り付け元の物体の行動の種類を示す情報、ならびに、決定部133によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々のサイズを示すサイズ情報および決定部133によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像を構成する複数の物体領域の各々の位置を示す位置情報を含む加工後のラベル情報と貼り付け先のラベル情報とを含む合成ラベル情報を生成してよい。
【0087】
なお、以下では、決定部133によって決定されたサイズに加工された加工後の対象領域動画像を構成する複数の物体領域の各々であって、決定部133によって決定された貼り付け位置に貼り付けられた加工後の対象領域動画像を構成する複数の物体領域の各々のことを「加工後の物体領域」と記載する場合がある。
【0088】
また、生成部134は、合成動画像に含まれる加工後の物体領域のうち少なくとも一部の領域である第1の部分領域と貼り付け先の物体領域のうち少なくとも一部の領域である第2の部分領域とが重なるか否かを判定してよい。生成部134は、第1の部分領域と第2の部分領域とが重なると判定した場合、加工後の物体領域のうち第1の部分領域以外の領域の面積と第2の部分領域の面積との比を算出してよい。具体的には、生成部134は、合成動画像に含まれる複数の加工後の物体領域それぞれに含まれる第1の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第2の部分領域の総面積との比を算出してよい。例えば、図1に示す合成動画像V3に含まれる加工後の領域動画像PV11´を構成する複数の加工後の矩形領域に含まれる一部の加工後の矩形領域のうち少なくとも一部の領域である第1の部分領域と、起点領域R23を含む複数の矩形領域に含まれる一部の矩形領域のうち少なくとも一部の領域である第2の部分領域とが重複する場合について考える。生成部134は、加工後の領域動画像PV11´を構成する複数の加工後の矩形領域それぞれに含まれる第1の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第2の部分領域の総面積との比を「8:2」であると算出したとする。生成部134は、複数の加工後の矩形領域それぞれに含まれる第1の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第2の部分領域の総面積との比を「8:2」であると算出した場合、加工後の領域動画像PV11´に対応するラベル情報L11´として、物体の種類を示す情報が「人物を0.8の割合で含み、車を0.2の割合で含む」ことを示す情報であるラベル情報L11´を生成してよい。このように、生成部134は、加工後の物体領域に対応するラベル情報として、合成動画像に含まれる複数の加工後の物体領域それぞれに含まれる第1の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第2の部分領域の総面積との比に基づく第1のラベル情報を生成してよい。
【0089】
また、生成部134は、第1の部分領域と第2の部分領域とが重なると判定した場合、貼り付け先の物体領域のうち第2の部分領域以外の領域の面積と第1の部分領域の面積との比を算出してよい。具体的には、生成部134は、合成動画像に含まれる複数の貼り付け先の物体領域それぞれに含まれる第2の部分領域以外の領域の総面積と複数の貼り付け先の物体領域それぞれと重なる第1の部分領域の総面積との比を算出してよい。例えば、図1に示す合成動画像V3に含まれる加工後の領域動画像PV11´を構成する複数の加工後の矩形領域に含まれる一部の加工後の矩形領域のうち少なくとも一部の領域である第1の部分領域と、起点領域R23を含む複数の矩形領域に含まれる一部の矩形領域のうち少なくとも一部の領域である第2の部分領域とが重複する場合について考える。生成部134は、起点領域R23を含む複数の矩形領域それぞれに含まれる第2の部分領域以外の領域の総面積と起点領域R23を含む複数の矩形領域それぞれと重なる第1の部分領域の総面積との比を「7:3」であると算出したとする。生成部134は、起点領域R23を含む複数の矩形領域それぞれに含まれる第2の部分領域以外の領域の総面積と起点領域R23を含む複数の矩形領域それぞれと重なる第1の部分領域の総面積との比を「7:3」であると算出した場合、起点領域R23を含む複数の矩形領域に対応するラベル情報L23として、物体の種類を示す情報が「車を0.7の割合で含み、人物を0.3の割合で含む」ことを示す情報であるラベル情報L23を生成してよい。このように、生成部134は、貼り付け先の物体領域に対応するラベル情報として、合成動画像に含まれる複数の貼り付け先の物体領域それぞれに含まれる第2の部分領域以外の領域の総面積と複数の貼り付け先の物体領域それぞれと重なる第1の部分領域の総面積との比に基づく第2のラベル情報を生成してよい。
【0090】
このように、生成部134は、合成動画像に含まれる第1の物体領域(加工後の物体領域に相当)のうち少なくとも一部の領域である第1の部分領域と第2の物体領域(貼り付け先の物体領域に相当)のうち少なくとも一部の領域である第2の部分領域とが重なる場合、第1の物体領域のうち第1の部分領域以外の領域の面積と第2の部分領域の面積との比に基づく第1のラベル情報を、第2の物体領域のうち第2の部分領域以外の領域の面積と第1の部分領域の面積との比に基づく第2のラベル情報と組み合わせた合成ラベル情報を生成する。
【0091】
また、生成部134は、合成動画像に含まれる一の加工後の物体領域のうち少なくとも一部の領域である第3の部分領域と他の加工後の物体領域のうち少なくとも一部の領域である第4の部分領域とが重なるか否かを判定してよい。生成部134は、第3の部分領域と第4の部分領域とが重なると判定した場合、一の加工後の物体領域のうち第3の部分領域以外の領域の面積と第4の部分領域の面積との比を算出してよい。具体的には、生成部134は、一の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第3の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第4の部分領域の総面積との比を算出してよい。また、生成部134は、一の加工後の物体領域に対応するラベル情報として、一の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第3の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第4の部分領域の総面積との比に基づく第3のラベル情報を生成してよい。
【0092】
また、生成部134は、第3の部分領域と第4の部分領域とが重なると判定した場合、他の加工後の物体領域のうち第4の部分領域以外の領域の面積と第3の部分領域の面積との比を算出してよい。具体的には、生成部134は、他の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第4の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第3の部分領域の総面積との比を算出してよい。また、生成部134は、他の加工後の物体領域に対応するラベル情報として、他の加工後の物体領域に対応する複数の加工後の物体領域それぞれに含まれる第4の部分領域以外の領域の総面積と複数の加工後の物体領域それぞれと重なる第3の部分領域の総面積との比に基づく第3のラベル情報を生成してよい。
【0093】
また、生成部134は、合成動画像および合成ラベル情報を生成した場合、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成動画像と合成ラベル情報との組である合成教師データを生成してよい。
【0094】
このように、生成部134は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第2の動画像(貼り付け先の動画像に相当)に埋め込んだ合成動画像と、対象領域動画像に対応する第1のラベル情報(貼り付け元のラベル情報に相当)を第2のラベル情報(貼り付け先のラベル情報に相当)と組み合わせた合成ラベル情報との組である合成教師データを生成する。
【0095】
また、生成部134は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、第2の物体領域(貼り付け先の物体領域に相当)のサイズの範囲内で決定された第1の物体領域(貼り付け元の物体領域に相当)のサイズに基づいて加工された加工後の対象領域動画像を第2の動画像(貼り付け先の動画像に相当)に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第1のラベル情報(加工後のラベル情報に相当)を第2のラベル情報(貼り付け先のラベル情報に相当)と組み合わせた合成ラベル情報との組である合成教師データを生成する。
【0096】
また、取得部131は、生成部134によって生成された合成教師データを取得してよい。具体的には、取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データに含まれる第1の動画像を構成する複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データに含まれる第2のラベル情報に関する情報と第1のラベル情報に関する情報との類似性に基づいて選択された第2の動画像に埋め込む対象となる第1の領域動画像である対象領域動画像を第2の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。
【0097】
より具体的には、取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データに含まれる第1のサイズ情報、ならびに、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データに含まれる第2のサイズ情報に基づいて、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から第2の動画像に埋め込む対象として選択された第1の領域動画像である対象領域動画像に含まれる第1の物体領域のサイズであって、第2の物体領域のサイズの範囲内で決定された第1の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第2の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。
【0098】
また、生成部134は、取得部131によって取得された合成教師データに基づいて学習させた行動検出モデルを生成してよい。生成部134は、合成教師データに基づいて学習させた学習済みの行動検出モデルを生成してよい。具体的には、生成部134は、合成動画像が入力情報として入力された場合に、合成ラベル情報を出力情報として出力するように学習させた行動検出モデルを生成してよい。このように、生成部134は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。
【0099】
(検出部135)
検出部135は、生成部134によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出してよい。例えば、検出部135は、通信部110を介して、外部の情報処理装置から対象動画像を取得してよい。検出部135は、対象動画像を取得した場合、生成部134によって生成された行動検出モデルに対象動画像を入力することにより、行動検出モデルから出力された対象物体の行動に関する情報を検出結果として得てよい。具体的には、検出部135は、対象物体の行動に関する情報として、対象動画像を構成する複数のフレーム画像の各々に含まれる対象物体の種類を示す情報、対象物体の行動の種類を示す情報、対象物体に対応する物体領域の位置を示す位置情報および物体領域のサイズを示すサイズ情報を含む情報を検出してよい。このようにして、検出部135は、生成部134によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。
【0100】
図3は、実施形態に係る合成教師データの生成処理について説明するための図である。図3では、取得部131は、第1の動画像と第1のラベル情報との組である第1の教師データ、および、第2の動画像と第2のラベル情報との組である第2の教師データを取得する(ステップS101)。また、選択部132は、第1のラベル情報に関する情報と第2のラベル情報に関する情報との類似性に基づいて、第2の動画像に埋め込む対象となる第1の領域動画像である対象領域動画像を選択する(ステップS102)。また、決定部133は、第1のサイズ情報および第2のサイズ情報に基づいて、対象領域動画像に含まれる第1の物体領域のサイズを、第2の物体領域のサイズに応じて決定する(ステップS103)。また、生成部134は、対象領域動画像を第2の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する(ステップS104)。
【0101】
〔4.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。。
【0102】
〔4-1.第1の変形例〕
上述した実施形態では、選択部132が、貼り付け元のラベル情報に関する情報として、貼り付け元の物体の種類を示す情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の物体の種類を示す情報との類似性に基づいて対象領域動画像を選択する場合について説明した。これに対し、変形例では、選択部132が、貼り付け元のラベル情報に関する情報として、貼り付け元の動画像を構成する複数のフレーム画像の各々に含まれる物体領域の移動方向に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる物体領域の移動方向に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。
【0103】
図4は、変形例に係る選択処理について説明するための図である。図4に示す動画像V2は、図1で説明した動画像V2と同じものである。図4では、選択部132が、動画像V2に含まれる矩形領域R21を含む複数の矩形領域それぞれの移動方向に関する情報と、動画像V1に含まれる矩形領域R11を含む複数の矩形領域それぞれの移動方向に関する情報との類似性に基づいて、領域動画像PV11を対象領域動画像として選択する点が図1と異なる。
【0104】
具体的には、選択部132は、貼り付け先の位置情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれの移動方向に関する情報(以下、「貼り付け先の移動方向に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け先の移動方向に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。
【0105】
図4では、選択部132は、動画像V2に含まれる矩形領域R21を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域R21の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。また、選択部132は、算出されたベクトルをつなげたベクトルD21を推定してよい。図4に示すベクトルD21は、矩形領域R21を起点として、画像の右側から左側へ向かうベクトルである。
【0106】
また、選択部132は、動画像V2に含まれる矩形領域R23を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域R23の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。また、選択部132は、算出されたベクトルをつなげたベクトルD23を推定してよい。図4に示すベクトルD23は、矩形領域R23を終点として、画面の手前側から奥側へ向かうベクトルである。なお、選択部132は、ベクトルD23および動画像V2に撮像された2車線の道路に基づいて、動画像V2に含まれる矩形領域R23を含む複数の矩形領域それぞれの移動方向に関する情報として、ベクトルD23と反対方向のベクトルD22を推定してよい。すなわち、ベクトルD22は、矩形領域R23を始点として、画面の奥側から手前側へ向かうベクトルである。
【0107】
また、選択部132は、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれの移動方向に関する情報(以下、「貼り付け元の移動方向に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け元の移動方向に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。
【0108】
また、図示は省略するが、選択部132は、動画像V1に含まれる矩形領域R11を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域R11の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。また、選択部132は、選択部132によって算出されたベクトルをつなげたベクトルD13を推定してよい。例えば、選択部132は、矩形領域R11を起点として、画像の左側から右側へ向かうベクトルD13を推定してよい。
【0109】
また、図示は省略するが、選択部132は、動画像V1に含まれる矩形領域R12を含む複数の矩形領域それぞれの移動方向に関する情報として、起点領域R12の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化を示す情報(例えば、ベクトル)を算出してよい。また、選択部132は、選択部132によって算出されたベクトルをつなげたベクトルD14を推定してよい。例えば、選択部132は、矩形領域R12を起点として、画像の手前側から奥側へ向かうベクトルD14を推定してよい。
【0110】
また、選択部132は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報を算出した場合、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似性を判定してよい。例えば、選択部132は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似度を算出してよい。例えば、選択部132は、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似度が第2閾値を超える場合、貼り付け先の移動方向に関する情報と貼り付け元の移動方向に関する情報との類似性が高いと判定してよい。
【0111】
図4では、選択部132は、ベクトルD21とベクトルD13との類似度が第2閾値を超えるので、ベクトルD21とベクトルD13との類似性が高いと判定する。選択部132は、ベクトルD21とベクトルD13との類似性が高いと判定した場合、動画像V1の中から、ベクトルD21との類似性が高いと判定されたベクトルD13に対応する領域動画像PV11を対象領域動画像として選択する。
【0112】
また、選択部132は、ベクトルD23とベクトルD14との類似度が第2閾値を超えるので、ベクトルD23とベクトルD14との類似性が高いと判定する。選択部132は、ベクトルD23とベクトルD14との類似性が高いと判定した場合、動画像V1の中から、ベクトルD23との類似性が高いと判定されたベクトルD14に対応する領域動画像PV12を対象領域動画像として選択する。
【0113】
このように、選択部132は、第1のラベル情報に関する情報として、第1の位置情報に基づく第1の物体領域の移動方向に関する情報(貼り付け元の移動方向に関する情報に相当)と、第2のラベル情報に関する情報として、第2の位置情報に基づく第2の物体領域の移動方向に関する情報(貼り付け先の移動方向に関する情報)との類似性に基づいて、対象領域動画像を選択する。
【0114】
〔4-2.第2の変形例〕
第2の変形例では、選択部132が、貼り付け元のラベル情報に関する情報として、貼り付け元の移動速度に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先の移動速度に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。
【0115】
具体的には、選択部132は、貼り付け元のラベル情報に関する情報として、貼り付け元の位置情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれの移動速度に関する情報(以下、「貼り付け元の移動速度に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け元の移動速度に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化量をフレームレートの逆数で除した値を算出してよい。また、選択部132は、貼り付け先のラベル情報に関する情報として、貼り付け先の位置情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれの移動速度に関する情報(以下、「貼り付け先の移動速度に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け先の移動速度に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域の位置に対する複数の後続領域それぞれの位置の変化量をフレームレートの逆数で除した値を算出してよい。
【0116】
また、選択部132は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報を算出した場合、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似性を判定してよい。例えば、選択部132は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似度を算出してよい。例えば、選択部132は、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似度が第3閾値を超える場合、貼り付け先の移動速度に関する情報と貼り付け元の移動速度に関する情報との類似性が高いと判定してよい。
【0117】
このように、選択部132は、第1のラベル情報に関する情報として、第1の位置情報に基づく第1の物体領域の移動速度に関する情報(貼り付け元の移動速度に関する情報にに相当)と、第2のラベル情報に関する情報として、第2の位置情報に基づく第2の物体領域の移動速度に関する情報(貼り付け先の移動速度に関する情報に相当)との類似性に基づいて、対象領域動画像を選択する。
【0118】
〔4-3.第3の変形例〕
第3の変形例では、選択部132が、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズ情報と、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズ情報との類似性に基づいて対象領域動画像を選択する場合について説明する。
【0119】
具体的には、選択部132は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似性を判定してよい。例えば、選択部132は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似度を算出してよい。例えば、選択部132は、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似度との類似度が第4閾値を超える場合、貼り付け元のサイズ情報と貼り付け先のサイズ情報との類似性が高いと判定してよい。
【0120】
このように、選択部132は、第1のラベル情報に関する情報として、第1のサイズ情報(貼り付け元のサイズ情報に相当)と、第2のラベル情報に関する情報として、第2のサイズ情報(貼り付け先のサイズ情報に相当)との類似性に基づいて、対象領域動画像を選択する。
【0121】
〔4-4.第4の変形例〕
第4の変形例では、選択部132が、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズの時間変化に関する情報と、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズの時間変化に関する情報との類似性に基づいて対象領域動画像を選択する場合について説明する。
【0122】
具体的には、選択部132は、貼り付け元のラベル情報に関する情報として、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズの時間変化に関する情報(以下、「貼り付け元のサイズの時間変化に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け元のサイズの時間変化に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合を算出してよい。また、選択部132は、貼り付け先のラベル情報に関する情報として、貼り付け先のサイズ情報に基づいて、貼り付け先の動画像に含まれる複数の物体領域それぞれのサイズの時間変化に関する情報(以下、「貼り付け先のサイズの時間変化に関する情報」と記載する場合がある。)を算出してよい。例えば、選択部132は、貼り付け先のサイズの時間変化に関する情報として、起点領域の後に続く複数の後続領域それぞれよりも一つ前の物体領域のサイズに対する複数の後続領域それぞれのサイズの割合を算出してよい。
【0123】
また、選択部132は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報を算出した場合、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似性を判定してよい。例えば、選択部132は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似度を算出してよい。例えば、選択部132は、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似度との類似度が第5閾値を超える場合、貼り付け元のサイズの時間変化に関する情報と貼り付け先のサイズの時間変化に関する情報との類似性が高いと判定してよい。
【0124】
このように、選択部132は、第1のラベル情報に関する情報として、第1のサイズ情報に基づく第1の物体領域のサイズの時間変化に関する情報(貼り付け元のサイズの時間変化に関する情報に相当)と、第2のラベル情報に関する情報として、第2のサイズ情報に基づく第2の物体領域のサイズの時間変化に関する情報(貼り付け先のサイズの時間変化に関する情報に相当)との類似性に基づいて、対象領域動画像を選択する。
【0125】
〔4-5.第5の変形例〕
上述した実施形態では、決定部133が、起点フレーム画像に含まれる物体領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定する場合について説明した。これに対し、第5の変形例では、決定部133が、貼り付け先のサイズ情報に基づく貼り付け先の物体領域のサイズの時間変化に関する情報に基づいて、起点フレーム画像に貼り付ける際の起点領域のサイズを決定する場合について説明する。
【0126】
図5は、変形例に係る決定処理について説明するための図である。図5に示す合成動画像V3は、図1に示す合成動画像V3と同じものである。図5では、決定部133が、矩形領域R23を含む複数の矩形領域それぞれのサイズの時間変化に関する情報に基づいて、起点フレーム画像F21に貼り付ける際の起点領域R12のサイズを決定する点が図1と異なる。
【0127】
具体的には、決定部133は、貼り付け先のサイズ情報に基づいて、貼り付け先の動画像を構成する複数のフレーム画像の各々に含まれる複数の矩形領域それぞれのサイズの時間変化に関する情報を算出してよい。図5では、決定部133は、矩形領域R23を含む複数の矩形領域それぞれのサイズの時間変化に関する情報として、矩形領域R23の後に続く複数の矩形領域である複数の後続領域それぞれよりも一つ前の矩形領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報を算出してよい。続いて、決定部133は、複数の後続領域それぞれよりも一つ前の矩形領域のサイズに対する複数の後続領域それぞれのサイズの割合に関する情報に基づいて、起点フレーム画像よりも前に遡った時刻における矩形領域R23に対応する矩形領域のサイズを推定してよい。続いて、決定部133は、起点フレーム画像よりも前に遡った時刻における矩形領域R23に対応する矩形領域のサイズのうち、起点フレーム画像に含まれる道路の道幅の範囲内である矩形領域のサイズの範囲内で起点フレーム画像に貼り付ける際の起点領域のサイズを決定してよい。このように、決定部133は、貼り付け元のサイズ情報および貼り付け先のサイズ情報に基づいて、対象領域動画像に含まれる物体領域のサイズを貼り付け先の動画像に含まれる物体領域のサイズに応じて決定してよい。
【0128】
上述した実施形態および第1~第5の変形例において、選択部132は、対象領域動画像として、貼り付け元の物体領域の各々の面積が所定の面積以上である貼り付け元の物体領域によって構成される領域動画像を選択してよい。例えば、選択部132は、貼り付け元のサイズ情報に基づいて、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズが所定のサイズ以上であるか否かを判定してよい。選択部132は、貼り付け元の動画像に含まれる複数の物体領域それぞれのサイズが所定のサイズ以上であると判定した場合、複数の物体領域それぞれのサイズが所定のサイズ以上であると判定された複数の物体領域によって構成される領域動画像を対象領域動画像として選択してよい。
【0129】
このように、選択部132は、対象領域動画像として、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域(貼り付け元の物体領域に相当)の各々の面積が所定の面積以上である第1の領域動画像を選択する。
【0130】
〔5.効果〕
上述したように、実施形態に係る情報処理装置100は、取得部131と選択部132と生成部134を備える。取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データ、ならびに、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データを取得する。選択部132は、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から、第1のラベル情報に関する情報と第2のラベル情報に関する情報との類似性に基づいて、第2の動画像に埋め込む対象となる第1の領域動画像である対象領域動画像を選択する。生成部134は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、対象領域動画像を第2の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する。
【0131】
このように、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。すなわち、情報処理装置100は、実際の動画像により近い自然な合成動画像を生成可能とすることができる。また、情報処理装置100は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置100は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。また、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置100は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置100は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置100は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置100は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。
【0132】
また、選択部132は、第1のラベル情報に関する情報として、第1の物体の種類を示す情報と、第2のラベル情報に関する情報として、第2の物体の種類を示す情報との類似性に基づいて、対象領域動画像を選択する。
【0133】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0134】
また、選択部132は、第1のラベル情報に関する情報として、第1の位置情報に基づく第1の物体領域の移動方向に関する情報と、第2のラベル情報に関する情報として、第2の位置情報に基づく第2の物体領域の移動方向に関する情報との類似性に基づいて、対象領域動画像を選択する。
【0135】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0136】
また、選択部132は、第1のラベル情報に関する情報として、第1の位置情報に基づく第1の物体領域の移動速度に関する情報と、第2のラベル情報に関する情報として、第2の位置情報に基づく第2の物体領域の移動速度に関する情報との類似性に基づいて、対象領域動画像を選択する。
【0137】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0138】
また、選択部132は、第1のラベル情報に関する情報として、第1のサイズ情報と、第2のラベル情報に関する情報として、第2のサイズ情報との類似性に基づいて、対象領域動画像を選択する。
【0139】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0140】
また、選択部132は、第1のラベル情報に関する情報として、第1のサイズ情報に基づく第1の物体領域のサイズの時間変化に関する情報と、第2のラベル情報に関する情報として、第2のサイズ情報に基づく第2の物体領域のサイズの時間変化に関する情報との類似性に基づいて、対象領域動画像を選択する。
【0141】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ない領域動画像を選択することができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0142】
また、選択部132は、対象領域動画像として、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域の各々の面積が所定の面積以上である第1の領域動画像を選択する。
【0143】
これにより、情報処理装置100は、画像の解像度が高い自然な合成動画像を生成可能とすることができる。
【0144】
また、情報処理装置100は、取得部131と決定部133と生成部134を備える。取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データ、ならびに、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データを取得する。決定部133は、第1のサイズ情報および第2のサイズ情報に基づいて、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から第2の動画像に埋め込む対象として選択された第1の領域動画像である対象領域動画像に含まれる第1の物体領域のサイズを、第2の物体領域のサイズの範囲内で決定する。生成部134は、処理対象の動画像から処理対象の動画像に撮像された物体の行動の種類に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、第2の物体領域のサイズの範囲内で決定された第1の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第2の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを生成する。
【0145】
このように、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ないサイズに加工された領域動画像を貼り付けることができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。すなわち、情報処理装置100は、実際の動画像により近い自然な合成動画像を生成可能とすることができる。また、情報処理装置100は、貼り付け元の動画像に含まれる物体の行動を含む領域動画像を貼り付け元の動画像とは異なるコンテキストを有する貼り付け先の動画像に貼り付けた合成画像を含む合成教師データを生成する。これにより、情報処理装置100は、動画像のコンテキストと物体の行動との多様な組合せを含む新たな行動検出用の教師データを生成することができる。また、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置100は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置100は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置100は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置100は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。
【0146】
また、決定部133は、最初の埋め込み対象として選択された第1の物体領域である第1の起点領域のサイズを、最初の埋め込み先として選択された第2のフレーム画像である第2の起点フレーム画像に含まれる第2の物体領域である第2の起点領域のサイズの範囲内で決定する。生成部134は、決定部133によって決定された第1の起点領域のサイズに加工された加工後の第1の起点領域を第2の起点フレーム画像に埋め込んだ合成動画像を生成する。
【0147】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ないサイズに加工された領域動画像を貼り付けることができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0148】
また、決定部133は、第1のサイズ情報に基づく第1の物体領域のサイズの時間変化に関する情報に基づいて、対象領域動画像に含まれる第1の起点領域以外の第1の物体領域である第1の後続領域のサイズを決定する。生成部134は、第1の位置情報に基づく第1の物体領域の移動方向に関する情報に基づいて、決定部133によって決定された第1の後続領域のサイズに加工された加工後の第1の後続領域の各々を第2の動画像に含まれる第2の起点フレーム画像以外の第2のフレーム画像である第2の後続フレーム画像の各々に埋め込んだ合成動画像を生成する。
【0149】
これにより、情報処理装置100は、貼り付け先の動画像に貼り付けた際の違和感が少ないサイズに加工された領域動画像を貼り付けることができるので、違和感の少ない自然な合成動画像を生成可能とすることができる。
【0150】
また、生成部134は、合成動画像に含まれる第1の物体領域のうち少なくとも一部の領域である第1の部分領域と第2の物体領域のうち少なくとも一部の領域である第2の部分領域とが重なる場合、第1の物体領域のうち第1の部分領域以外の領域の面積と第2の部分領域の面積との比に基づく第1のラベル情報を、第2の物体領域のうち第2の部分領域以外の領域の面積と第1の部分領域の面積との比に基づく第2のラベル情報と組み合わせた合成ラベル情報を生成する。
【0151】
これにより、情報処理装置100は、貼り付け元の物体領域と貼り付け先の物体領域との重なり具合に応じて適切なラベル情報を生成することができる。
【0152】
また、情報処理装置100は、取得部131と生成部134を備える。取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データに含まれる第1の動画像を構成する複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データに含まれる第2のラベル情報に関する情報と第1のラベル情報に関する情報との類似性に基づいて選択された第2の動画像に埋め込む対象となる第1の領域動画像である対象領域動画像を第2の動画像に埋め込んだ合成動画像と、対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。生成部134は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。
【0153】
これにより、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置100は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置100は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置100は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置100は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。
【0154】
また、情報処理装置100は、取得部131と生成部134を備える。取得部131は、第1の動画像を構成する複数の第1のフレーム画像の各々に含まれる第1の物体の種類を示す情報、第1の物体の行動の種類を示す情報、第1の物体に対応する第1の物体領域の位置を示す第1の位置情報および第1の物体領域のサイズを示す第1のサイズ情報を含む第1のラベル情報と第1の動画像との組である第1の教師データに含まれる第1のサイズ情報、ならびに、第1の動画像とは異なる第2の動画像を構成する複数の第2のフレーム画像の各々に含まれる第2の物体の種類を示す情報、第2の物体の行動の種類を示す情報、第2の物体に対応する第2の物体領域の位置を示す第2の位置情報および第2の物体領域のサイズを示す第2のサイズ情報を含む第2のラベル情報と第2の動画像との組である第2の教師データに含まれる第2のサイズ情報に基づいて、複数の第1のフレーム画像の各々から抽出された複数の第1の物体領域に基づく動画像である第1の領域動画像の中から第2の動画像に埋め込む対象として選択された第1の領域動画像である対象領域動画像に含まれる第1の物体領域のサイズであって、第2の物体領域のサイズの範囲内で決定された第1の物体領域のサイズに基づいて加工された加工後の対象領域動画像を第2の動画像に埋め込んだ合成動画像と、加工後の対象領域動画像に対応する第1のラベル情報を第2のラベル情報と組み合わせた合成ラベル情報との組である合成教師データを取得する。生成部134は、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する機械学習モデルである行動検出モデルを学習させるための教師データとして、合成教師データを用いて学習させた行動検出モデルを生成する。
【0155】
これにより、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが特定の動画像のコンテキストと物体の行動との組合せを過学習することを防ぐことを可能とすることができる。すなわち、情報処理装置100は、行動検出モデルが特定の動画像のコンテキストにおける物体の行動をその物体の行動であると誤って学習することを防ぐことを可能とすることができる。言い換えると、情報処理装置100は、新たな行動検出用の教師データに基づいて行動検出モデルを学習させることにより、行動検出モデルが、動画像のコンテキストではなく、物体の行動に注目して学習することを可能とすることができる。また、情報処理装置100は、行動検出モデルが物体の行動に注目して学習することを可能とすることができるため、行動検出モデルが多様な動画像のコンテキストにおける物体の行動を精度よく検出することを可能とすることができる。したがって、情報処理装置100は、行動検出モデルの汎化性能を向上させることができる。また、情報処理装置100は、行動検出モデルの汎化性能を向上させることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。
【0156】
また、情報処理装置100は、検出部135をさらに備える。検出部135は、生成部134によって生成された行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動に関する情報を検出する。
【0157】
これにより、情報処理装置100は、汎化性能が高い行動検出モデルを用いることにより、行動検出の精度を向上させることができる。
【0158】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0159】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0160】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0161】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0162】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0163】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0164】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0165】
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0166】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0167】
例えば、上述した実施形態では、情報処理装置100が、取得部131と、選択部132と、決定部133と、生成部134と、検出部135を機能部として有する場合について説明したが、各部はそれぞれ別々の装置に分散して構成することができる。例えば、情報処理装置100は、対象動画像から対象動画像に撮像された対象物体の行動の種類に関する情報を検出する情報処理装置として、取得部131と、検出部135を機能部として有することができる。また、情報処理装置100以外の情報処理装置(以下、「生成装置」と記載する)は、合成教師データおよび行動検出モデルを生成する情報処理装置として、取得部131と、選択部132と、決定部133と、生成部134を機能部として有することができる。このとき、情報処理装置100と生成装置とは、各種ネットワークと有線または無線で接続され、相互に情報の送受信を行ってよい。例えば、情報処理装置100は、生成装置によって生成された行動検出モデルに関する情報を生成装置から受信してよい。また、情報処理装置100は、生成装置から取得した行動検出モデルを用いて、対象動画像から対象動画像に撮像された対象物体の行動の種類に関する情報を検出してよい。
【0168】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【符号の説明】
【0169】
100 情報処理装置
110 通信部
120 記憶部
130 制御部
131 取得部
132 選択部
133 決定部
134 生成部
135 検出部
図1
図2
図3
図4
図5
図6