特開2023-127389 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 学校法人明星学苑の特許一覧

特開2023-127389情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023127389

(43)【公開日】2023-09-13

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06T 13/80 20110101AFI20230906BHJP

G06T 7/00 20170101ALI20230906BHJP

G06T 7/269 20170101ALI20230906BHJP

【ＦＩ】

G06T13/80 B

G06T7/00 350B

G06T7/269

【審査請求】有

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022031159

(22)【出願日】2022-03-01

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(71)【出願人】

【識別番号】500132214

【氏名又は名称】学校法人明星学苑

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】堀隆之

(72)【発明者】

【氏名】鈴木裕真

(72)【発明者】

【氏名】岡本秀明

(72)【発明者】

【氏名】植木一也

【テーマコード（参考）】

5B050

5L096

【Ｆターム（参考）】

5B050AA00

5B050BA06

5B050BA08

5B050CA01

5B050DA04

5B050EA06

5B050EA07

5B050EA19

5B050EA24

5B050FA02

5B050FA05

5L096CA02

5L096FA18

5L096FA64

5L096FA67

5L096FA69

5L096GA19

5L096GA30

5L096HA04

5L096KA04

5L096MA07

(57)【要約】

【課題】映像解析の精度を向上させることを可能とする。
【解決手段】本願に係る情報処理装置は、撮像装置により対象物を撮像した静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、推定部によって推定された方向情報、および、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、
前記推定部によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、
を備える情報処理装置。

【請求項2】

前記推定部は、
前記方向情報として、前記静止画像に対応する領域である画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する、
請求項１に記載の情報処理装置。

【請求項3】

前記推定部は、
前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する、
請求項２に記載の情報処理装置。

【請求項4】

前記推定部は、
前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する、
請求項２または３に記載の情報処理装置。

【請求項5】

前記推定部は、
前記静止画像を第１機械学習モデルに入力した場合に、前記方向情報または前記方向情報と対応する情報を出力するよう学習された前記第１機械学習モデルを用いて、前記静止画像から、前記方向情報を推定する、
請求項１～４のいずれか１つに記載の情報処理装置。

【請求項6】

前記生成部は、
前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する、
請求項１～５のいずれか１つに記載の情報処理装置。

【請求項7】

前記生成部は、
前記画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、前記方向ベクトルの向き、および、前記方向ベクトルの大きさに応じて、前記方向ベクトルをクラスタに分類し、前記クラスタに分類された前記方向ベクトルの特徴に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項６に記載の情報処理装置。

【請求項8】

前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における特定の方向を示す特定ベクトルと前記方向ベクトルとがなす角度が第１角度を下回る前記方向ベクトルを第１クラスタに分類し、前記第１クラスタに分類された前記方向ベクトルの特徴を示す前記特定ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記特定ベクトルの向きと反対の向きに移動させる、
請求項７に記載の情報処理装置。

【請求項9】

前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第１の点を中心とする第１の円の円周方向を示す円周ベクトルと前記方向ベクトルとがなす角度が第２角度を下回る前記方向ベクトルを第２クラスタに分類し、前記第２クラスタに分類された前記方向ベクトルの特徴を示す前記円周ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記円周ベクトルの向きと反対の向きに移動させる、
請求項７または８に記載の情報処理装置。

【請求項10】

前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第２の点を中心とする第２の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第３角度を下回る前記方向ベクトルを第３クラスタに分類し、前記第３クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる、
請求項７～９のいずれか１つに記載の情報処理装置。

【請求項11】

前記生成部は、
前記方向ベクトルを第２機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第２機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する、
請求項７～１０のいずれか１つに記載の情報処理装置。

【請求項12】

前記生成部は、
前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項７～１１のいずれか１つに記載の情報処理装置。

【請求項13】

前記推定部は、
前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する、
前記生成部は、
前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する、
請求項１～１２のいずれか１つに記載の情報処理装置。

【請求項14】

前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、
前記生成部は、
前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する、
請求項１～１３のいずれか１つに記載の情報処理装置。

【請求項15】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定工程と、
前記推定工程によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、
を含む情報処理方法。

【請求項16】

撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定手順と、
前記推定手順によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、
をコンピュータに実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

近年、防犯カメラやドライブレコーダー、スマートフォンに搭載されたカメラ等の普及により、カメラ（撮像装置）によって撮像された映像の数が急増している。また、映像の急増に伴い、機械学習により学習された学習モデル（以下、機械学習モデルと記載する）を用いて映像の内容を自動で解析し、内容に応じて映像を整理・管理する必要性がますます高まっている。また、機械学習モデルによる映像解析の精度を向上させることが望まれている。

【0003】

ところで、機械学習モデルによる映像解析の精度は、教師あり学習（Supervised learning）の場合、映像の内容を示す正解ラベルと映像の組を含む映像データセット（以下、動画データセットと記載する）の量および質に依存する。すなわち、精度の高い解析結果を得るためには、多様なパターンの映像を網羅した大量の動画データセットを機械学習モデルに学習させる必要がある。

【0004】

しかしながら、多様なパターンの映像を網羅した大量の動画データセットを作成することは容易ではない。例えば、多様な条件の組み合わせを網羅した膨大な数の映像それぞれに対して、映像の内容を示す正解ラベルを人手によって付与することで大量の動画データセットを作成するのは非常に困難である。以下では、「映像」のことを「動画」と記載する場合がある。

【0005】

そこで、正解ラベルが付与されていないデータを用いて学習する教師なし学習の一種である自己教師あり学習(Self-Supervised Learning)を映像解析に用いられる機械学習モデルの学習に用いる技術が知られている。例えば、正解ラベルが付与されていない動画として、静止画像におけるウィンドウを動かして、静止画像に撮像された対象物の擬似的な動きを含む疑似動画を生成する。そして、自己教師あり学習の手法を用いて、生成された疑似動画を映像解析に用いられる機械学習モデルの学習に用いる技術が知られている。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Ziyuan Huang、他５名、“Self-supervised Motion Learning from Static Images”、［online］、April 2021、CVPR 2021、［令和４年２月１８日検索］、インターネット＜URL：https://arxiv.org/abs/2104.00240＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

映像解析の精度を向上させることを可能とする技術が求められている。

【0008】

本願は、映像解析の精度を向上させることを可能とすることができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0009】

本願に係る情報処理装置は、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、前記推定部によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、を備える。

【0010】

前記推定部は、前記方向情報として、前記静止画像に対応する領域である画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する。

【0011】

前記推定部は、前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する。

【0012】

前記推定部は、前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する。

【0013】

前記推定部は、前記静止画像を第１機械学習モデルに入力した場合に、前記方向情報または前記方向情報と対応する情報を出力するよう学習された前記第１機械学習モデルを用いて、前記静止画像から、前記方向情報を推定する。

【0014】

前記生成部は、前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する。

【0015】

前記生成部は、前記画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、前記方向ベクトルの向き、および、前記方向ベクトルの大きさに応じて、前記方向ベクトルをクラスタに分類し、前記クラスタに分類された前記方向ベクトルの特徴に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる。

【0016】

前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における特定の方向を示す特定ベクトルと前記方向ベクトルとがなす角度が第１角度を下回る前記方向ベクトルを第１クラスタに分類し、前記第１クラスタに分類された前記方向ベクトルの特徴を示す前記特定ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記特定ベクトルの向きと反対の向きに移動させる。

【0017】

前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第１の点を中心とする第１の円の円周方向を示す円周ベクトルと前記方向ベクトルとがなす角度が第２角度を下回る前記方向ベクトルを第２クラスタに分類し、前記第２クラスタに分類された前記方向ベクトルの特徴を示す前記円周ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記円周ベクトルの向きと反対の向きに移動させる。

【0018】

前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第２の点を中心とする第２の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第３角度を下回る前記方向ベクトルを第３クラスタに分類し、前記第３クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる。

【0019】

前記生成部は、前記方向ベクトルを第２機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第２機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する。

【0020】

前記生成部は、前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる。

【0021】

前記推定部は、前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する。前記生成部は、前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する。

【0022】

前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、前記生成部は、前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する。

【0023】

本願に係る情報処理方法は、情報処理装置が実行するプログラムにより実現される情報処理方法であって、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定工程と、前記推定工程によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、を含む。

【0024】

本願に係る情報処理プログラムは、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定手順と、前記推定手順によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、をコンピュータに実行させる。

【発明の効果】

【0025】

実施形態の一態様によれば、映像解析の精度を向上させることを可能とすることができる。

【図面の簡単な説明】

【0026】

【図1】図１は、実施形態に係る情報処理装置の構成例を示す図である。

【図2】図２は、実施形態に係る平行移動を含む擬似動画の生成処理の一例について説明するための図である。

【図3】図３は、実施形態に係る回転移動を含む擬似動画の生成処理の一例について説明するための図である。

【図4】図４は、実施形態に係るカメラ方向の移動を含む擬似動画の生成処理の一例について説明するための図である。

【図5】図５は、実施形態に係る情報処理手順を示すフローチャートである。

【図6】図６は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0027】

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0028】

（実施形態）
〔１．はじめに〕
本明細書における「動画」とは、カメラ（撮像装置）によって撮像された「映像」を意味するものとする。また、本明細書における「対象物」は、人物、動物、車両、機器などいかなる物体であってもよい。

【0029】

近年、画像を扱う機械学習に用いられる大規模な画像データセットが公開されている。ところが、静止画像の内容を示す正解ラベルと静止画像の組を含む画像データセットの数と比べると、動画の内容を示す正解ラベルと動画の組を含む動画データセットの数はまだまだ少ない。

【0030】

そこで、上述したように、自己教師あり学習の手法を用いて、正解ラベルが付与されていない動画を用いて、画像処理に用いられる機械学習モデルを学習させる技術が知られている。具体的には、自己教師あり学習により学習された機械学習モデルを用いて、画像の一部をマスクした上でそこに何があるかを推定することや、画像を分割して個々の分割画像が元画像のどこに位置するか推定することが行われている。このように、自己教師あり学習により学習された機械学習モデルを用いた映像解析の解析レベルは、教師あり学習により学習された機械学習モデルを用いた映像解析の解析レベルにはまだまだ及ばない点がある。

【0031】

これに対し、本願の一実施形態に係る情報処理装置は、撮像装置により対象物を撮像した静止画像と静止画像の内容を示す正解ラベルの組を含む画像データセットを取得してよい。続いて、一実施形態に係る情報処理装置は、取得された画像データセットに含まれる一の静止画像を取得し、一の静止画像におけるオプティカルフロー（Optical Flow）を推定してよい。

【0032】

ここで、オプティカルフローとは、静止画像における各画素に対応する色情報が、静止画像に対応する領域である画像領域において、近い将来移動すると推定される移動方向を示すベクトルである。例えば、対象物を撮像した静止画像におけるオプティカルフローは、静止画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像領域において近い将来移動すると推定される移動方向を示している。また、２次元の画像領域における対象物領域の色情報の移動は、３次元の空間における撮像装置と対象物との相対的な位置の変化に対応している。このように、一実施形態に係る情報処理装置は、オプティカルフローを用いることで、撮像装置と対象物との相対的な位置のより自然な変化を推定することができる。

【0033】

また、一実施形態に係る情報処理装置は、静止画像に対応する領域である画像領域におけるオプティカルフローの位置、向き、および大きさに基づいて、推定されたオプティカルフローをクラスタに分類してよい。続いて、一実施形態に係る情報処理装置は、なるべく同じクラスタのオプティカルフローだけを囲むようなターゲット枠を生成して画像領域に設定してよい。続いて、一実施形態に係る情報処理装置は、各クラスタに分類されたオプティカルフローの特徴に基づいて、画像領域におけるターゲット枠の位置または大きさを変化させることにより、複数のフレーム画像を生成してよい。続いて、一実施形態に係る情報処理装置は、複数のフレーム画像に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成してよい。続いて、一実施形態に係る情報処理装置は、先に取得された静止画像に対応する正解ラベルと生成された疑似動画の組を含む動画データセットを生成してよい。

【0034】

これにより、一実施形態に係る情報処理装置は、対象物を撮像した静止画像におけるオプティカルフローを用いることにより、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。また、一実施形態に係る情報処理装置は、一の静止画像から多様なパターンの動画を大量に生成することができる。また、一実施形態に係る情報処理装置は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。また、一実施形態に係る情報処理装置は、多様なパターンの動画を網羅した大量の動画データセットを用いて機械学習モデルを学習させることができるので、映像解析の精度を向上させることを可能とすることができる。

【0035】

〔２．情報処理装置の構成〕
図１は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、入力部１３０と、出力部１４０と、制御部１５０とを有する。

【0036】

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、画像データセットを保持する外部のデータベースからや、情報処理装置１００が生成した動画データセットの提供先となる外部の情報処理装置との間で情報の送受信を行う。

【0037】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部１２０は、各種プログラム（情報処理プログラムの一例）を記憶する。また、記憶部１２０は、取得部１５１によって取得された画像データセットを記憶する。また、記憶部１２０は、生成部１５３によって生成された各種データを記憶する。例えば、記憶部１２０は、生成部１５３によって生成された動画データセットを記憶する。また、記憶部１２０は、取得部１５１によって取得された既存の動画データセットを記憶する。

【0038】

（入力部１３０）
入力部１３０は、利用者から各種操作が入力される。例えば、入力部１３０は、タッチパネル機能により表示面（例えば出力部１４０）を介して利用者からの各種操作を受け付けてもよい。また、入力部１３０は、情報処理装置１００に設けられたボタンや、情報処理装置１００に接続されたキーボードやマウスからの各種操作を受け付けてもよい。

【0039】

（出力部１４０）
出力部１４０は、例えば、液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部１４０は、制御部１５０の制御に従って、各種情報を表示する。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部１３０と出力部１４０とは一体化される。また、以下の説明では、出力部１４０を画面と記載する場合がある。

【0040】

（制御部１５０）
制御部１５０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１５０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0041】

制御部１５０は、取得部１５１と、推定部１５２と、生成部１５３と、出力制御部１５４を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部１５０の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１５０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0042】

（取得部１５１）
取得部１５１は、撮像装置により対象物を撮像した静止画像と静止画像の内容を示す正解ラベルの組を含む画像データセットを取得してよい。具体的には、取得部１５１は、画像データセットを保持する外部のデータベースから画像データセットを取得してよい。例えば、取得部１５１は、静止画像の内容を示す正解ラベルとして、静止画像に撮像された対象物が、どのような場所で、どのような動作を行っているかといった静止画像の内容を説明した文章（キャプション）を含む画像データセットを取得してよい。

【0043】

（推定部１５２）
推定部１５２は、取得部１５１によって取得された静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定してよい。ここで、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報について説明する。以下では、理解を助けるため、３次元の空間において、撮像装置の位置が固定されており、撮像装置に対して対象物が動いている場合について説明する。例えば、撮像装置と対象物との距離を一定に保ったまま、撮像装置に対して対象物が特定の方向に平行移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で特定の方向に平行移動するように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の平行移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部１５２は、方向情報として、対象物領域の移動方向を示す特定の方向を示す方向ベクトルを推定してよい。

【0044】

また、例えば、撮像装置と対象物との距離を一定に保ったまま、撮像装置に対して対象物が回転移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で回転移動するように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の回転移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部１５２は、方向情報として、対象物領域の回転移動の軌跡に対応する円の円周方向を示す方向ベクトルを推定してよい。

【0045】

また、例えば、撮像装置に向かって対象物が近づいてくる様子（または、撮像装置から対象物が遠ざかる様子）を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で拡大（または、縮小）するように見える。つまり、撮像装置に向かって対象物が近づいてくるときは、画像領域における対象物領域の面積が大きくなるように見える。撮像装置から対象物が遠ざかるときは、画像領域における対象物領域の面積が小さくなるように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の伸縮方向を示す方向ベクトルを推定してよい。例えば、推定部１５２は、撮像装置に向かって対象物が近づいてくるときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が拡大する方向（所定の点から発散する方向）を示す方向ベクトルを推定してよい。また、推定部１５２は、撮像装置から対象物が遠ざかるときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が縮小する方向（所定の点に向かって集中する方向）を示す方向ベクトルを推定してよい。

【0046】

上述した例では、３次元の空間において、撮像装置の位置が固定されており、撮像装置に対して対象物が動いている場合について説明した。次に、３次元の空間において、対象物の位置が固定されており、対象物に対して撮像装置が動いている場合について説明する。例えば、撮像装置と対象物との距離を一定に保ったまま、対象物に対して撮像装置が特定の方向に平行移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で特定の方向と反対の方向に平行移動するように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の平行移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部１５２は、方向情報として、対象物領域の移動方向を示す特定の方向と反対の方向を示す方向ベクトルを推定してよい。

【0047】

また、例えば、撮像装置と対象物との距離を一定に保ったまま、対象物に対して撮像装置が回転移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で撮像装置の回転方向と反対の方向に回転移動するように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の回転移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部１５２は、方向情報として、対象物領域の回転移動の軌跡に対応する円の円周方向を示す方向ベクトルを推定してよい。

【0048】

また、例えば、対象物に向かって撮像装置が近づきながら（または、対象物から撮像装置が遠ざかりながら）対象物を撮像装置により撮像する。このとき、撮像装置によって撮像された２次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で拡大（または、縮小）するように見える。つまり、対象物に向かって撮像装置が近づきながら対象物を撮像したときは、画像領域における対象物領域の面積が大きくなるように見える。対象物から撮像装置が遠ざかりながら対象物を撮像したときは、画像領域における対象物領域の面積が小さくなるように見える。そこで、推定部１５２は、方向情報として、画像領域における対象物領域の伸縮方向を示す方向ベクトルを推定してよい。また、推定部１５２は、対象物から撮像装置が遠ざかりながら対象物を撮像したときは、例えば、推定部１５２は、対象物に向かって撮像装置が近づきながら対象物を撮像したときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が拡大する方向（所定の点から発散する方向）を示す方向ベクトルを推定してよい。また、推定部１５２は、対象物から撮像装置が遠ざかりながら対象物を撮像したときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が縮小する方向（所定の点に向かって集中する方向）を示す方向ベクトルを推定してよい。

【0049】

より具体的には、推定部１５２は、方向ベクトルとして、所定サイズの単位領域（例えば、１画素であってもよいし、Ｍ×Ｎ画素（Ｍ、Ｎともに１以上の整数）であってもよい）に分割された静止画像の各単位領域に対応する色情報の画像領域における移動方向を示すベクトルを推定してよい。例えば、推定部１５２は、方向ベクトルとして、静止画像におけるオプティカルフローを推定してよい（参考URL: https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Walker_Dense_Optical_Flow_ICCV_2015_paper.pdf）。例えば、推定部１５２は、静止画像を第１機械学習モデルに入力した場合に、オプティカルフローまたはオプティカルフローと対応する情報を出力するよう学習された第１機械学習モデルを用いて、静止画像から、オプティカルフローを推定してよい。例えば、推定部１５２は、オプティカルフローと対応する情報として、オプティカルフローとして推定され得るベクトルごとの確からしさを示す確率を出力してよい。

【0050】

なお、実施形態に係る機械学習モデル（第１機械学習モデルおよび後述する第２機械学習モデル）は、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークによる機械学習によって生成されるが、かかる例に限定されない。例えば、実施形態に係る機械学習モデルは、ニューラルネットワークに代えて、線形回帰またはロジスティック回帰といった学習アルゴリズムによる機械学習を用いて生成されてもよい。

【0051】

なお、推定部１５２は、方向情報として、オプティカルフロー以外の方向ベクトルを推定してよい。例えば、推定部１５２は、静止画像を第１機械学習モデルに入力した場合に、対象物領域の色情報の移動方向または伸縮方向を示す一の方向ベクトルまたは一の方向ベクトルと対応する情報を出力するよう学習された第１機械学習モデルを用いて、静止画像から、一の方向ベクトルを推定してよい。例えば、推定部１５２は、一の方向ベクトルと対応する情報として、一の方向ベクトルとして推定され得るベクトルごとの確からしさを示す確率を出力してよい。

【0052】

（生成部１５３）
生成部１５３は、推定部１５２によって推定された方向情報に基づいて、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域を生成してよい。続いて、生成部１５３は、ターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成してよい。具体的には、生成部１５３は、方向情報によって示される変化方向に応じて、画像領域におけるターゲット領域の位置または大きさを変化させることにより、各位置または各大きさのターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、疑似動画を生成してよい。

【0053】

より具体的には、生成部１５３は、画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、方向ベクトルの向き、および、方向ベクトルの大きさに応じて、方向ベクトルをクラスタに分類し、クラスタに分類された方向ベクトルの特徴に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。以下では、図２～図４を用いて、方向ベクトルのクラスタリングおよび擬似動画の生成方法について詳しく説明する。

【0054】

図２は、実施形態に係る平行移動を含む擬似動画の生成処理の一例について説明するための図である。図２では、３次元の空間において、撮像装置の位置が固定されており、撮像装置と対象物О１との距離を一定に保ったまま、撮像装置に対して対象物О１が特定の方向に平行移動する様子を撮像装置により撮像した静止画像Ｇ１から擬似動画を生成する場合について説明する。取得部１５１は、静止画像Ｇ１と静止画像Ｇ１の内容を示す正解ラベルの組を含む画像データセットを取得してよい。

【0055】

推定部１５２は、静止画像Ｇ１からオプティカルフローＯＦ１を推定してよい（ステップＳ１１）。例えば、推定部１５２は、静止画像Ｇ１に対応する画像領域Ａ１における対象物領域の移動方向を示すオプティカルフローＯＦ１を推定してよい。図２では、対象物領域の移動方向が、画像領域Ａ１における特定の方向を示す特定ベクトルＶ１１の方向であるとする。このとき、推定部１５２が推定した各オプティカルフローＯＦ１の向きは、大体がベクトルＶ１１の方向に揃っている。

【0056】

生成部１５３は、対象物領域の位置から所定の範囲内に位置するオプティカルフローＯＦ１であって、画像領域Ａ１における特定ベクトルＶ１１とオプティカルフローＯＦ１とがなす角度が第１角度を下回るオプティカルフローＯＦ１を一のクラスタに分類する。生成部１５３は、例えば、ｋ－ｍｅａｎｓなどの任意のクラスタリング手法を採用することができる。例えば、生成部１５３は、オプティカルフローを第２機械学習モデルに入力した場合に、オプティカルフローの位置、向きおよび大きさに応じて、オプティカルフローをクラスタに分類した分類結果または分類結果と対応する情報を出力するよう学習された第２機械学習モデルを用いて、オプティカルフローＯＦ１をクラスタに分類する。生成部１５３は、オプティカルフローＯＦ１をクラスタに分類した場合、できるだけ同じクラスタのオプティカルフローだけを囲むようにターゲット枠Ｔ１を生成する（ステップＳ１２）。

【0057】

続いて、生成部１５３は、クラスタに分類されたオプティカルフローＯＦ１の特徴を示す特定ベクトルＶ１１に基づいて、画像領域Ａ１におけるターゲット枠Ｔ１の位置を特定ベクトルＶ１１の向きと反対の向きに移動させる。図２では、生成部１５３は、画像領域Ａ１におけるターゲット枠Ｔ１の位置を特定ベクトルＶ１１の向きを示す反対ベクトルＶ１２の向きに移動させる（ステップＳ１３）。このように、生成部１５３は、ターゲット枠Ｔ１の位置をオプティカルフローＯＦ１の特徴を示す特定ベクトルＶ１１の向きと反対の向きに移動させることにより、画像領域Ａ１のうちターゲット枠Ｔ１に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部１５３は、ターゲット枠Ｔ１の位置をオプティカルフローＯＦ１の特徴を示す特定ベクトルＶ１１の向きと反対の向きに移動させることにより、ターゲット枠Ｔ１に対する対象物Ｏ１の相対的な位置が特定ベクトルＶ１１の方向に平行移動するように見えるフレーム画像を複数枚生成することができる。

【0058】

続いて、生成部１５３は、画像領域Ａ１における各位置のターゲット枠Ｔ１に囲まれたターゲット領域に対応する静止画像であるフレーム画像を複数生成する（ステップＳ１４）。図２では、生成部１５３は、ターゲット枠Ｔ１の移動を開始した時点における位置のターゲット枠Ｔ１‐１に囲まれたターゲット領域に対応するフレーム画像、移動中の位置のターゲット枠Ｔ１‐２に囲まれたターゲット領域に対応するフレーム画像、および移動を終了した時点における位置のターゲット枠Ｔ１‐３に囲まれたターゲット領域に対応するフレーム画像を時系列順に示す。図示は省略するが、生成部１５３は、実際には、３枚より多い数のフレーム画像を生成してよい。続いて、生成部１５３は、生成した複数のフレーム画像に基づいて、疑似動画を生成する。また、生成部１５３は、取得部１５１によって取得された静止画像Ｇ１の正解ラベルと、生成された疑似動画の組を含む動画データセットを生成する。

【0059】

なお、図２では、簡単のため、静止画像に撮像された対象物が１つである場合について説明したが、複数の対象物が静止画像に撮像されている場合には、推定部１５２は、静止画像から複数の対象物それぞれのオプティカルフローを推定する。一般的に、複数の対象物が静止画像に撮像されている場合には、複数の対象物それぞれの移動方向を示すオプティカルフローの分布が対象物領域の周囲の位置において推定される。また、生成部１５３は、複数の対象物領域それぞれの位置から所定の範囲内に位置するオプティカルフローであって、画像領域における各特定ベクトルとオプティカルフローとがなす角度が第１角度を下回るオプティカルフローをそれぞれ同じクラスタに分類する。

【0060】

図３は、実施形態に係る回転移動を含む擬似動画の生成処理の一例について説明するための図である。図３では、３次元の空間において、撮像装置の位置が固定されており、撮像装置と対象物О２１およびО２２との距離を一定に保ったまま、撮像装置に対して対象物О２１およびО２２が時計回りに回転移動する様子を撮像装置により撮像した静止画像Ｇ２から擬似動画を生成する場合について説明する。なお、図３では、図２と同じ説明は省略する。

【0061】

推定部１５２は、静止画像Ｇ２からオプティカルフローＯＦ２１およびＯＦ２２を推定してよい。例えば、推定部１５２は、静止画像Ｇ２に対応する画像領域Ａ２における対象物О２１の対象物領域の移動方向を示すオプティカルフローＯＦ２１を推定してよい。また、推定部１５２は、画像領域Ａ２における対象物О２２の対象物領域の移動方向を示すオプティカルフローＯＦ２２を推定してよい。

【0062】

図３では、生成部１５３は、対象物О２１およびО２２それぞれの対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域Ａ２における第１の点Ｐ１を中心とする第１の円Ｃ１の円周方向を示す円周ベクトルとオプティカルフローとがなす角度が第２角度を下回るオプティカルフローをクラスタに分類する。例えば、生成部１５３は、対象物О２１の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域Ａ２における第１の点Ｐ１を中心とする第１の円Ｃ１の円周方向を示す一の円周ベクトルＶ２１とオプティカルフローとがなす角度が第２角度を下回るオプティカルフローＯＦ２１を一のクラスタに分類する。また、生成部１５３は、対象物О２２の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域Ａ２における第１の点Ｐ１を中心とする第１の円Ｃ１の円周方向を示す他の円周ベクトルＶ２１´とオプティカルフローとがなす角度が第２角度を下回るオプティカルフローＯＦ２２を他のクラスタに分類する。ここで、円周ベクトルとは、円周上の各位置における円の接線方向を示す接線ベクトルであってよい。続いて、生成部１５３は、できるだけ一のクラスタのオプティカルフローＯＦ２１だけを囲むようにターゲット枠Ｔ２１を生成する。また、生成部１５３は、できるだけ他のクラスタのオプティカルフローＯＦ２２だけを囲むようにターゲット枠Ｔ２２を生成する（ステップＳ２２）。

【0063】

続いて、生成部１５３は、一のクラスタに分類されたオプティカルフローＯＦ２１の特徴を示す円周ベクトルＶ２１に基づいて、画像領域Ａ２におけるターゲット枠Ｔ２１の位置を円周ベクトルＶ２１の向きと反対の向きに移動させる（ステップＳ２３）。図３では、生成部１５３は、画像領域Ａ２におけるターゲット枠Ｔ２１の位置を円周ベクトルＶ２１の向きと反対の向きを示す反対ベクトルＶ２２の向きに移動させる。このように、生成部１５３は、ターゲット枠Ｔ２１の位置をオプティカルフローＯＦ２１の特徴を示す円周ベクトルＶ２１の向きと反対の向きに移動させることにより、画像領域Ａ２のうちターゲット枠Ｔ２１に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部１５３は、ターゲット枠Ｔ２１の位置をオプティカルフローＯＦ２１の特徴を示す円周ベクトルＶ２１の向きと反対の向きに移動させることにより、ターゲット枠Ｔ２１に対する対象物Ｏ２１の相対的な位置が円周ベクトルＶ２１の方向に回転移動するように見えるフレーム画像を複数枚生成することができる。

【0064】

同様にして、生成部１５３は、他のクラスタに分類されたオプティカルフローＯＦ２２の特徴を示す円周ベクトルＶ２１´に基づいて、画像領域Ａ２におけるターゲット枠Ｔ２２の位置を円周ベクトルＶ２１´の向きと反対の向きに移動させる（ステップＳ２３）。図３では、生成部１５３は、画像領域Ａ２におけるターゲット枠Ｔ２２の位置を円周ベクトルＶ２１´の向きと反対の向きを示す反対ベクトルＶ２２´の向きに移動させる。このように、生成部１５３は、ターゲット枠Ｔ２２の位置をオプティカルフローＯＦ２２の特徴を示す特定ベクトルＶ２１´の向きと反対の向きに移動させることにより、画像領域Ａ２のうちターゲット枠Ｔ２２に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部１５３は、ターゲット枠Ｔ２２の位置をオプティカルフローＯＦ２２の特徴を示す特定ベクトルＶ２１´の向きと反対の向きに移動させることにより、ターゲット枠Ｔ２２に対する対象物Ｏ２２の相対的な位置が円周ベクトルＶ２１´の方向に回転移動するように見えるフレーム画像を複数枚生成することができる。

【0065】

図４は、実施形態に係るカメラ方向の移動を含む擬似動画の生成処理の一例について説明するための図である。図４では、３次元の空間において、対象物О３の位置が固定されており、対象物О３から撮像装置が遠ざかりながら対象物О３を撮像装置により撮像した静止画像Ｇ３から擬似動画を生成する場合について説明する。なお、図４では、図２および図３と同じ説明は省略する。

【0066】

推定部１５２は、静止画像Ｇ３からオプティカルフローＯＦ３を推定してよい。例えば、推定部１５２は、静止画像Ｇ３に対応する画像領域Ａ３における対象物О３の対象物領域の縮小方向を示すオプティカルフローＯＦ３を推定してよい。

【0067】

図４では、生成部１５３は、対象物О３の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域Ａ３における第２の点Ｐ２を中心とする第２の円Ｃ２の半径方向を示す半径ベクトルとオプティカルフローとがなす角度が第３角度を下回るオプティカルフローＯＦ３を一のクラスタに分類する。ここで、半径ベクトルとは、円周上の各位置から円の中心へ向かう方向を示すベクトルであってよい。図４に示す半径ベクトルＶ３１～Ｖ３４は、それぞれ、画像領域Ａ３における円Ｃ２の円周上の各位置から円の中心である点Ｐ２に向かう方向を示している。

【0068】

続いて、生成部１５３は、できるだけ一のクラスタのオプティカルフローＯＦ３だけを囲むようにターゲット枠Ｔ３を生成する（ステップＳ３２）。なお、生成部１５３は、画像領域Ａ３の面積に対して、ターゲット枠Ｔ３によって囲まれるターゲット領域の面積が所定の閾値を下回るようにターゲット枠Ｔ３を生成してよい。

【0069】

続いて、生成部１５３は、一のクラスタに分類されたオプティカルフローＯＦ３の特徴を示す半径ベクトルに基づいて、画像領域Ａ３におけるターゲット枠Ｔ３の大きさを半径ベクトルの向きと反対の向きに拡大させる。例えば、生成部１５３は、画像領域Ａ３におけるターゲット枠Ｔ３の４つの辺それぞれを半径ベクトルＶ３１～Ｖ３４の向きと反対の向きを示す反対ベクトルＶ４１～Ｖ３４それぞれの向きに移動させることで、ターゲット枠Ｔ３の大きさを拡大させる。このように、生成部１５３は、ターゲット枠Ｔ３の大きさをオプティカルフローＯＦ３の特徴を示す半径ベクトルの向きと反対の向きに伸縮させることにより、画像領域Ａ３のうちターゲット枠Ｔ３に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部１５３は、ターゲット枠Ｔ３の大きさをオプティカルフローＯＦ３の特徴を示す半径ベクトルの向きと反対の向きに移動させることにより、対象物О３から撮像装置が遠ざかる方向へ移動するように見えるフレーム画像を複数枚生成することができる。

【0070】

なお、生成部１５３は、四角形以外の任意の形状のターゲット領域に基づいてフレーム画像を生成してもよい。例えば、生成部１５３は、円状、三角形状など任意の形状のターゲット枠に基づく任意の形状のターゲット領域に対応するフレーム画像を複数枚生成してよい。

【0071】

（出力制御部１５４）
出力制御部１５４は、生成部１５３によって生成された動画データセットを出力してよい。例えば、出力制御部１５４は、生成部１５３によって生成された動画データセットを、動画データセットの提供先となる外部の情報処理装置に対して送信してよい。

【0072】

〔３．情報処理の手順〕
図５は、実施形態に係る情報処理手順を示すフローチャートである。図５に示す例では、情報処理装置１００の推定部１５２は、静止画像からオプティカルフローを推定する（ステップＳ１０１）。情報処理装置１００の生成部１５３は、推定部１５２によって推定されたオプティカルフローをクラスタに分類する（ステップＳ１０２）。続いて、生成部１５３は、同じクラスタのオプティカルフローを囲むようにターゲット枠を生成する（ステップＳ１０３）。続いて、生成部１５３は、画像領域におけるターゲット枠の位置または大きさを変化させることにより、複数のフレーム画像を生成する（ステップＳ１０４）。続いて、生成部１５３は、複数のフレーム画像に基づいて、疑似動画を生成する（ステップＳ１０５）。

【0073】

〔４．変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。

【0074】

〔４－１．物体検出のバウンディングボックスの利用〕
上述した実施形態では、情報処理装置１００が、できるだけ一のクラスタのオプティカルフローだけを囲むように生成したターゲット枠に基づいてフレーム画像を生成する場合について説明したが、情報処理装置１００は、物体検出のバウンディングボックスを利用したターゲット枠に基づいてフレーム画像を生成してもよい。

【0075】

具体的には、推定部１５２は、静止画像に対する物体検出を行い、静止画像における対象物を検出する。続いて、推定部１５２は、対象物を検出した場合、既存の動画データセットを取得する。続いて、推定部１５２は、既存の動画データセットに含まれる動画の中から、検出された対象物と類似する類似対象物を含む動画を抽出する。続いて、推定部１５２は、抽出した動画から、動画における類似対象物のオプティカルフローを推定する。続いて、推定部１５２は、推定された類似対象物のオプティカルフローを、検出された対象物のオプティカルフローとして推定する。生成部１５３は、推定部１５２によって推定されたオプティカルフローをクラスタに分類する。

【0076】

また、生成部１５３は、推定部１５２によって検出された対象物を囲むバウンディングボックスをターゲット枠として用いることを決定する。生成部１５３は、ターゲット枠として用いることを決定したバウンディングボックスに囲まれたターゲット領域に基づいて、疑似動画を生成してよい。

【0077】

〔４－２．クラスタリングの割合に応じたターゲット領域の移動または伸縮〕
上述した実施形態では、情報処理装置１００が、できるだけ一のクラスタのオプティカルフローだけを囲むように生成したターゲット枠に基づいてフレーム画像を生成する場合について説明したが、情報処理装置１００は、オプティカルフローが各クラスタへ分類され得る確率の比率に応じてターゲット枠の位置または大きさを変化させてよい。

【0078】

具体的には、推定部１５２は、静止画像から、静止画像に関するオプティカルフローが複数のクラスタそれぞれに分類され得る確率を推定する。例えば、推定部１５２は、例えば、所定の対象物に関するオプティカルフローについて、分類されるオプティカルフローの特徴が平行移動であるクラスタに分類される確率が７０％、回転移動であるクラスタに分類される確率が３０％であると推定する。生成部１５３は、オプティカルフローが複数のクラスタに分類され得る場合、オプティカルフローが複数のクラスタそれぞれに分類され得る確率の比率に基づいて、画像領域におけるターゲット枠の位置または大きさを変化させる。例えば、生成部１５３は、推定部１５２によって平行移動であるクラスタに分類される確率が７０％、回転移動であるクラスタに分類される確率が３０％であると推定された場合、平行移動に対応する特定ベクトルの割合が７０％、回転移動に対応する円周ベクトルの割合が３０％であるような合成ベクトルを生成する。続いて、生成部１５３は、画像領域におけるターゲット枠の位置を生成された合成ベクトルの方向に移動させる。

【0079】

〔５．効果〕
上述したように、実施形態に係る情報処理装置１００は、推定部１５２と生成部１５３を備える。推定部１５２は、撮像装置により対象物を撮像した静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定する。生成部１５３は、推定部１５２によって推定された方向情報、および、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成する。

【0080】

これにより、情報処理装置１００は、対象物を撮像した静止画像におけるオプティカルフローを用いることにより、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。また、情報処理装置１００は、一の静止画像から多様なパターンの動画を大量に生成することができる。また、情報処理装置１００は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。また、情報処理装置１００は、多様なパターンの動画を網羅した大量の動画データセットを用いて機械学習モデルを学習させることができるので、映像解析の精度を向上させることを可能とすることができる。また、情報処理装置１００は、映像解析の精度を向上させることを可能とすることができるため、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0081】

また、推定部１５２は、方向情報として、静止画像に対応する領域である画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する。

【0082】

これにより、情報処理装置１００は、２次元の画像領域における対象物領域の色情報の移動方向に基づいて、３次元の空間における撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成することができる。

【0083】

また、推定部１５２は、方向ベクトルとして、所定サイズの単位領域に分割された静止画像の各単位領域に対応する色情報の画像領域における移動方向を示すベクトルを推定する。

【0084】

これにより、情報処理装置１００は、対象物領域全体の移動方向だけでなく、対象物領域を分割した各領域の移動方向に基づいて、３次元の空間における撮像装置と対象物との相対的な位置のより細かな変化を含む疑似動画を生成することができる。

【0085】

また、推定部１５２は、方向ベクトルとして、静止画像におけるオプティカルフローを推定する。

【0086】

これにより、情報処理装置１００は、オプティカルフローを用いることで、撮像装置と対象物との相対的な位置のより自然な変化を推定することができる。

【0087】

また、推定部１５２は、静止画像を第１機械学習モデルに入力した場合に、方向情報または方向情報と対応する情報を出力するよう学習された第１機械学習モデルを用いて、静止画像から、方向情報を推定する。

【0088】

これにより、情報処理装置１００は、機械学習モデルを用いることで、より精度よく方向情報を推定することができる。

【0089】

また、生成部１５３は、方向情報によって示される変化方向に応じて、静止画像に対応する領域である画像領域におけるターゲット領域の位置または大きさを変化させることにより、各位置または各大きさのターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、疑似動画を生成する。

【0090】

これにより、情報処理装置１００は、方向情報によって示される変化方向に応じて、撮像装置と対象物との相対的な位置が変化するように見える擬似動画を生成することができる。

【0091】

また、生成部１５３は、画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、方向ベクトルの向き、および、方向ベクトルの大きさに応じて、方向ベクトルをクラスタに分類し、クラスタに分類された方向ベクトルの特徴に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。

【0092】

これにより、情報処理装置１００は、例えば、複数の対象物が撮像された静止画像から、複数の対象物それぞれについて、撮像装置と対象物との相対的な位置が変化するように見える擬似動画を生成することができる。

【0093】

また、生成部１５３は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における特定の方向を示す特定ベクトルと方向ベクトルとがなす角度が第１角度を下回る方向ベクトルを第１クラスタに分類し、第１クラスタに分類された方向ベクトルの特徴を示す特定ベクトルに基づいて、画像領域におけるターゲット領域の位置を特定ベクトルの向きと反対の向きに移動させる。

【0094】

これにより、情報処理装置１００は、撮像装置または対象物の位置が特定ベクトルの方向に平行移動するように見える擬似動画を生成することができる。

【0095】

また、生成部１５３は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における第１の点を中心とする第１の円の円周方向を示す円周ベクトルと方向ベクトルとがなす角度が第２角度を下回る方向ベクトルを第２クラスタに分類し、第２クラスタに分類された方向ベクトルの特徴を示す円周ベクトルに基づいて、画像領域におけるターゲット領域の位置を円周ベクトルの向きと反対の向きに移動させる。

【0096】

これにより、情報処理装置１００は、撮像装置または対象物の位置が円周ベクトルの方向に回転移動するように見える擬似動画を生成することができる。

【0097】

また、生成部１５３は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における第２の点を中心とする第２の円の半径方向を示す半径ベクトルと方向ベクトルとがなす角度が第３角度を下回る方向ベクトルを第３クラスタに分類し、第３クラスタに分類された方向ベクトルの特徴を示す半径ベクトルに基づいて、画像領域におけるターゲット領域の大きさを半径ベクトルの向きと反対の向きに伸縮させる。

【0098】

これにより、情報処理装置１００は、対象物が撮像装置から遠ざかる（または、対象物が撮像装置に対して近づく）方向へ移動するように見える擬似動画、または、対象物から撮像装置が遠ざかる（または対象物に対して撮像装置が近づく）方向へ移動するように見える擬似動画を生成することができる。

【0099】

また、生成部１５３は、方向ベクトルを第２機械学習モデルに入力した場合に、方向ベクトルをクラスタに分類した分類結果または分類結果と対応する情報を出力するよう学習された第２機械学習モデルを用いて、方向ベクトルをクラスタに分類する。

【0100】

これにより、情報処理装置１００は、機械学習モデルを用いることで、より精度よく方向ベクトルをクラスタに分類することができる。

【0101】

また、生成部１５３は、方向ベクトルが複数のクラスタに分類され得る場合、方向ベクトルが複数のクラスタそれぞれに分類され得る確率の比率に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。

【0102】

これにより、情報処理装置１００は、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。

【0103】

また、推定部１５２は、静止画像に対する物体検出を行い、静止画像における対象物を検出する。生成部１５３は、推定部１５２によって検出された対象物を囲むバウンディングボックスを用いたターゲット領域に基づいて、疑似動画を生成する。

【0104】

これにより、情報処理装置１００は、バウンディングボックスを利用することで、ターゲット枠を生成する手間を省くことができる。

【0105】

また、情報処理装置１００は、取得部１５１をさらに備える。取得部１５１は、静止画像の内容を示す正解ラベルと静止画像の組を含む画像データセットを取得する。生成部１５３は、取得部１５１によって取得された正解ラベルと疑似動画の組を含む動画データセットを生成する。

【0106】

これにより、情報処理装置１００は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。

【0107】

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図６に示すような構成のコンピュータ１０００によって実現される。図６は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0108】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0109】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0110】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

【0111】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0112】

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0113】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0114】

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0115】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0116】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0117】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。

【符号の説明】

【0118】

１００情報処理装置
１１０通信部
１２０記憶部
１３０入力部
１４０出力部
１５０制御部
１５１取得部
１５２推定部
１５３生成部
１５４出力制御部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-08-03

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

撮像装置により対象物を撮像した一の静止画像を第１機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第１機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定部と、
前記推定部によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、
を備える情報処理装置。

【請求項2】

前記推定部は、
前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する、
請求項１に記載の情報処理装置。

【請求項3】

前記推定部は、
前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する、
請求項１または２に記載の情報処理装置。

【請求項4】

前記生成部は、
前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する、
請求項１～３のいずれか１つに記載の情報処理装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第２の点を中心とする第２の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第３角度を下回る前記方向ベクトルを第３クラスタに分類し、前記第３クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる、
請求項５～７のいずれか１つに記載の情報処理装置。

【請求項9】

前記生成部は、
前記方向ベクトルを第２機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第２機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する、
請求項５～８のいずれか１つに記載の情報処理装置。

【請求項10】

前記生成部は、
前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項５～９のいずれか１つに記載の情報処理装置。

【請求項11】

前記推定部は、
前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する、
前記生成部は、
前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する、
請求項１～１０のいずれか１つに記載の情報処理装置。

【請求項12】

前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、
前記生成部は、
前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する、
請求項１～１１のいずれか１つに記載の情報処理装置。

【請求項13】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像装置により対象物を撮像した一の静止画像を第１機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第１機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定工程と、
前記推定工程によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、
を含む情報処理方法。

【請求項14】

撮像装置により対象物を撮像した一の静止画像を第１機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第１機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定手順と、
前記推定手順によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、
をコンピュータに実行させる情報処理プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版