(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023127389
(43)【公開日】2023-09-13
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
G06T 13/80 20110101AFI20230906BHJP
G06T 7/00 20170101ALI20230906BHJP
G06T 7/269 20170101ALI20230906BHJP
【FI】
G06T13/80 B
G06T7/00 350B
G06T7/269
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022031159
(22)【出願日】2022-03-01
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(71)【出願人】
【識別番号】500132214
【氏名又は名称】学校法人明星学苑
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】堀 隆之
(72)【発明者】
【氏名】鈴木 裕真
(72)【発明者】
【氏名】岡本 秀明
(72)【発明者】
【氏名】植木 一也
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050AA00
5B050BA06
5B050BA08
5B050CA01
5B050DA04
5B050EA06
5B050EA07
5B050EA19
5B050EA24
5B050FA02
5B050FA05
5L096CA02
5L096FA18
5L096FA64
5L096FA67
5L096FA69
5L096GA19
5L096GA30
5L096HA04
5L096KA04
5L096MA07
(57)【要約】
【課題】映像解析の精度を向上させることを可能とする。
【解決手段】本願に係る情報処理装置は、撮像装置により対象物を撮像した静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、推定部によって推定された方向情報、および、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、
前記推定部によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、
を備える情報処理装置。
【請求項2】
前記推定部は、
前記方向情報として、前記静止画像に対応する領域である画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記推定部は、
前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する、
請求項2に記載の情報処理装置。
【請求項4】
前記推定部は、
前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する、
請求項2または3に記載の情報処理装置。
【請求項5】
前記推定部は、
前記静止画像を第1機械学習モデルに入力した場合に、前記方向情報または前記方向情報と対応する情報を出力するよう学習された前記第1機械学習モデルを用いて、前記静止画像から、前記方向情報を推定する、
請求項1~4のいずれか1つに記載の情報処理装置。
【請求項6】
前記生成部は、
前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する、
請求項1~5のいずれか1つに記載の情報処理装置。
【請求項7】
前記生成部は、
前記画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、前記方向ベクトルの向き、および、前記方向ベクトルの大きさに応じて、前記方向ベクトルをクラスタに分類し、前記クラスタに分類された前記方向ベクトルの特徴に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項6に記載の情報処理装置。
【請求項8】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における特定の方向を示す特定ベクトルと前記方向ベクトルとがなす角度が第1角度を下回る前記方向ベクトルを第1クラスタに分類し、前記第1クラスタに分類された前記方向ベクトルの特徴を示す前記特定ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記特定ベクトルの向きと反対の向きに移動させる、
請求項7に記載の情報処理装置。
【請求項9】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第1の点を中心とする第1の円の円周方向を示す円周ベクトルと前記方向ベクトルとがなす角度が第2角度を下回る前記方向ベクトルを第2クラスタに分類し、前記第2クラスタに分類された前記方向ベクトルの特徴を示す前記円周ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記円周ベクトルの向きと反対の向きに移動させる、
請求項7または8に記載の情報処理装置。
【請求項10】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第2の点を中心とする第2の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第3角度を下回る前記方向ベクトルを第3クラスタに分類し、前記第3クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる、
請求項7~9のいずれか1つに記載の情報処理装置。
【請求項11】
前記生成部は、
前記方向ベクトルを第2機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第2機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する、
請求項7~10のいずれか1つに記載の情報処理装置。
【請求項12】
前記生成部は、
前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項7~11のいずれか1つに記載の情報処理装置。
【請求項13】
前記推定部は、
前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する、
前記生成部は、
前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する、
請求項1~12のいずれか1つに記載の情報処理装置。
【請求項14】
前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、
前記生成部は、
前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する、
請求項1~13のいずれか1つに記載の情報処理装置。
【請求項15】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定工程と、
前記推定工程によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、
を含む情報処理方法。
【請求項16】
撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定手順と、
前記推定手順によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、
をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
近年、防犯カメラやドライブレコーダー、スマートフォンに搭載されたカメラ等の普及により、カメラ(撮像装置)によって撮像された映像の数が急増している。また、映像の急増に伴い、機械学習により学習された学習モデル(以下、機械学習モデルと記載する)を用いて映像の内容を自動で解析し、内容に応じて映像を整理・管理する必要性がますます高まっている。また、機械学習モデルによる映像解析の精度を向上させることが望まれている。
【0003】
ところで、機械学習モデルによる映像解析の精度は、教師あり学習(Supervised learning)の場合、映像の内容を示す正解ラベルと映像の組を含む映像データセット(以下、動画データセットと記載する)の量および質に依存する。すなわち、精度の高い解析結果を得るためには、多様なパターンの映像を網羅した大量の動画データセットを機械学習モデルに学習させる必要がある。
【0004】
しかしながら、多様なパターンの映像を網羅した大量の動画データセットを作成することは容易ではない。例えば、多様な条件の組み合わせを網羅した膨大な数の映像それぞれに対して、映像の内容を示す正解ラベルを人手によって付与することで大量の動画データセットを作成するのは非常に困難である。以下では、「映像」のことを「動画」と記載する場合がある。
【0005】
そこで、正解ラベルが付与されていないデータを用いて学習する教師なし学習の一種である自己教師あり学習(Self-Supervised Learning)を映像解析に用いられる機械学習モデルの学習に用いる技術が知られている。例えば、正解ラベルが付与されていない動画として、静止画像におけるウィンドウを動かして、静止画像に撮像された対象物の擬似的な動きを含む疑似動画を生成する。そして、自己教師あり学習の手法を用いて、生成された疑似動画を映像解析に用いられる機械学習モデルの学習に用いる技術が知られている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Ziyuan Huang、他5名、“Self-supervised Motion Learning from Static Images”、[online]、April 2021、CVPR 2021、[令和4年2月18日検索]、インターネット<URL:https://arxiv.org/abs/2104.00240>
【発明の概要】
【発明が解決しようとする課題】
【0007】
映像解析の精度を向上させることを可能とする技術が求められている。
【0008】
本願は、映像解析の精度を向上させることを可能とすることができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本願に係る情報処理装置は、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定部と、前記推定部によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、を備える。
【0010】
前記推定部は、前記方向情報として、前記静止画像に対応する領域である画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する。
【0011】
前記推定部は、前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する。
【0012】
前記推定部は、前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する。
【0013】
前記推定部は、前記静止画像を第1機械学習モデルに入力した場合に、前記方向情報または前記方向情報と対応する情報を出力するよう学習された前記第1機械学習モデルを用いて、前記静止画像から、前記方向情報を推定する。
【0014】
前記生成部は、前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する。
【0015】
前記生成部は、前記画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、前記方向ベクトルの向き、および、前記方向ベクトルの大きさに応じて、前記方向ベクトルをクラスタに分類し、前記クラスタに分類された前記方向ベクトルの特徴に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる。
【0016】
前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における特定の方向を示す特定ベクトルと前記方向ベクトルとがなす角度が第1角度を下回る前記方向ベクトルを第1クラスタに分類し、前記第1クラスタに分類された前記方向ベクトルの特徴を示す前記特定ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記特定ベクトルの向きと反対の向きに移動させる。
【0017】
前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第1の点を中心とする第1の円の円周方向を示す円周ベクトルと前記方向ベクトルとがなす角度が第2角度を下回る前記方向ベクトルを第2クラスタに分類し、前記第2クラスタに分類された前記方向ベクトルの特徴を示す前記円周ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記円周ベクトルの向きと反対の向きに移動させる。
【0018】
前記生成部は、前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第2の点を中心とする第2の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第3角度を下回る前記方向ベクトルを第3クラスタに分類し、前記第3クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる。
【0019】
前記生成部は、前記方向ベクトルを第2機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第2機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する。
【0020】
前記生成部は、前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる。
【0021】
前記推定部は、前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する。前記生成部は、前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する。
【0022】
前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、前記生成部は、前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する。
【0023】
本願に係る情報処理方法は、情報処理装置が実行するプログラムにより実現される情報処理方法であって、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定工程と、前記推定工程によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、を含む。
【0024】
本願に係る情報処理プログラムは、撮像装置により対象物を撮像した静止画像から、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報を推定する推定手順と、前記推定手順によって推定された前記方向情報、および、前記静止画像における前記対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、をコンピュータに実行させる。
【発明の効果】
【0025】
実施形態の一態様によれば、映像解析の精度を向上させることを可能とすることができる。
【図面の簡単な説明】
【0026】
【
図1】
図1は、実施形態に係る情報処理装置の構成例を示す図である。
【
図2】
図2は、実施形態に係る平行移動を含む擬似動画の生成処理の一例について説明するための図である。
【
図3】
図3は、実施形態に係る回転移動を含む擬似動画の生成処理の一例について説明するための図である。
【
図4】
図4は、実施形態に係るカメラ方向の移動を含む擬似動画の生成処理の一例について説明するための図である。
【
図5】
図5は、実施形態に係る情報処理手順を示すフローチャートである。
【
図6】
図6は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0027】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0028】
(実施形態)
〔1.はじめに〕
本明細書における「動画」とは、カメラ(撮像装置)によって撮像された「映像」を意味するものとする。また、本明細書における「対象物」は、人物、動物、車両、機器などいかなる物体であってもよい。
【0029】
近年、画像を扱う機械学習に用いられる大規模な画像データセットが公開されている。ところが、静止画像の内容を示す正解ラベルと静止画像の組を含む画像データセットの数と比べると、動画の内容を示す正解ラベルと動画の組を含む動画データセットの数はまだまだ少ない。
【0030】
そこで、上述したように、自己教師あり学習の手法を用いて、正解ラベルが付与されていない動画を用いて、画像処理に用いられる機械学習モデルを学習させる技術が知られている。具体的には、自己教師あり学習により学習された機械学習モデルを用いて、画像の一部をマスクした上でそこに何があるかを推定することや、画像を分割して個々の分割画像が元画像のどこに位置するか推定することが行われている。このように、自己教師あり学習により学習された機械学習モデルを用いた映像解析の解析レベルは、教師あり学習により学習された機械学習モデルを用いた映像解析の解析レベルにはまだまだ及ばない点がある。
【0031】
これに対し、本願の一実施形態に係る情報処理装置は、撮像装置により対象物を撮像した静止画像と静止画像の内容を示す正解ラベルの組を含む画像データセットを取得してよい。続いて、一実施形態に係る情報処理装置は、取得された画像データセットに含まれる一の静止画像を取得し、一の静止画像におけるオプティカルフロー(Optical Flow)を推定してよい。
【0032】
ここで、オプティカルフローとは、静止画像における各画素に対応する色情報が、静止画像に対応する領域である画像領域において、近い将来移動すると推定される移動方向を示すベクトルである。例えば、対象物を撮像した静止画像におけるオプティカルフローは、静止画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像領域において近い将来移動すると推定される移動方向を示している。また、2次元の画像領域における対象物領域の色情報の移動は、3次元の空間における撮像装置と対象物との相対的な位置の変化に対応している。このように、一実施形態に係る情報処理装置は、オプティカルフローを用いることで、撮像装置と対象物との相対的な位置のより自然な変化を推定することができる。
【0033】
また、一実施形態に係る情報処理装置は、静止画像に対応する領域である画像領域におけるオプティカルフローの位置、向き、および大きさに基づいて、推定されたオプティカルフローをクラスタに分類してよい。続いて、一実施形態に係る情報処理装置は、なるべく同じクラスタのオプティカルフローだけを囲むようなターゲット枠を生成して画像領域に設定してよい。続いて、一実施形態に係る情報処理装置は、各クラスタに分類されたオプティカルフローの特徴に基づいて、画像領域におけるターゲット枠の位置または大きさを変化させることにより、複数のフレーム画像を生成してよい。続いて、一実施形態に係る情報処理装置は、複数のフレーム画像に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成してよい。続いて、一実施形態に係る情報処理装置は、先に取得された静止画像に対応する正解ラベルと生成された疑似動画の組を含む動画データセットを生成してよい。
【0034】
これにより、一実施形態に係る情報処理装置は、対象物を撮像した静止画像におけるオプティカルフローを用いることにより、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。また、一実施形態に係る情報処理装置は、一の静止画像から多様なパターンの動画を大量に生成することができる。また、一実施形態に係る情報処理装置は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。また、一実施形態に係る情報処理装置は、多様なパターンの動画を網羅した大量の動画データセットを用いて機械学習モデルを学習させることができるので、映像解析の精度を向上させることを可能とすることができる。
【0035】
〔2.情報処理装置の構成〕
図1は、実施形態に係る情報処理装置100の構成例を示す図である。情報処理装置100は、通信部110と、記憶部120と、入力部130と、出力部140と、制御部150とを有する。
【0036】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、画像データセットを保持する外部のデータベースからや、情報処理装置100が生成した動画データセットの提供先となる外部の情報処理装置との間で情報の送受信を行う。
【0037】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部120は、各種プログラム(情報処理プログラムの一例)を記憶する。また、記憶部120は、取得部151によって取得された画像データセットを記憶する。また、記憶部120は、生成部153によって生成された各種データを記憶する。例えば、記憶部120は、生成部153によって生成された動画データセットを記憶する。また、記憶部120は、取得部151によって取得された既存の動画データセットを記憶する。
【0038】
(入力部130)
入力部130は、利用者から各種操作が入力される。例えば、入力部130は、タッチパネル機能により表示面(例えば出力部140)を介して利用者からの各種操作を受け付けてもよい。また、入力部130は、情報処理装置100に設けられたボタンや、情報処理装置100に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0039】
(出力部140)
出力部140は、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部140は、制御部150の制御に従って、各種情報を表示する。なお、情報処理装置100にタッチパネルが採用される場合には、入力部130と出力部140とは一体化される。また、以下の説明では、出力部140を画面と記載する場合がある。
【0040】
(制御部150)
制御部150は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部150は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0041】
制御部150は、取得部151と、推定部152と、生成部153と、出力制御部154を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部150の内部構成は、
図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部150の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。
【0042】
(取得部151)
取得部151は、撮像装置により対象物を撮像した静止画像と静止画像の内容を示す正解ラベルの組を含む画像データセットを取得してよい。具体的には、取得部151は、画像データセットを保持する外部のデータベースから画像データセットを取得してよい。例えば、取得部151は、静止画像の内容を示す正解ラベルとして、静止画像に撮像された対象物が、どのような場所で、どのような動作を行っているかといった静止画像の内容を説明した文章(キャプション)を含む画像データセットを取得してよい。
【0043】
(推定部152)
推定部152は、取得部151によって取得された静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定してよい。ここで、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報について説明する。以下では、理解を助けるため、3次元の空間において、撮像装置の位置が固定されており、撮像装置に対して対象物が動いている場合について説明する。例えば、撮像装置と対象物との距離を一定に保ったまま、撮像装置に対して対象物が特定の方向に平行移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で特定の方向に平行移動するように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の平行移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部152は、方向情報として、対象物領域の移動方向を示す特定の方向を示す方向ベクトルを推定してよい。
【0044】
また、例えば、撮像装置と対象物との距離を一定に保ったまま、撮像装置に対して対象物が回転移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で回転移動するように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の回転移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部152は、方向情報として、対象物領域の回転移動の軌跡に対応する円の円周方向を示す方向ベクトルを推定してよい。
【0045】
また、例えば、撮像装置に向かって対象物が近づいてくる様子(または、撮像装置から対象物が遠ざかる様子)を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が画像に対応する領域である画像領域に対応する面内で拡大(または、縮小)するように見える。つまり、撮像装置に向かって対象物が近づいてくるときは、画像領域における対象物領域の面積が大きくなるように見える。撮像装置から対象物が遠ざかるときは、画像領域における対象物領域の面積が小さくなるように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の伸縮方向を示す方向ベクトルを推定してよい。例えば、推定部152は、撮像装置に向かって対象物が近づいてくるときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が拡大する方向(所定の点から発散する方向)を示す方向ベクトルを推定してよい。また、推定部152は、撮像装置から対象物が遠ざかるときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が縮小する方向(所定の点に向かって集中する方向)を示す方向ベクトルを推定してよい。
【0046】
上述した例では、3次元の空間において、撮像装置の位置が固定されており、撮像装置に対して対象物が動いている場合について説明した。次に、3次元の空間において、対象物の位置が固定されており、対象物に対して撮像装置が動いている場合について説明する。例えば、撮像装置と対象物との距離を一定に保ったまま、対象物に対して撮像装置が特定の方向に平行移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で特定の方向と反対の方向に平行移動するように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の平行移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部152は、方向情報として、対象物領域の移動方向を示す特定の方向と反対の方向を示す方向ベクトルを推定してよい。
【0047】
また、例えば、撮像装置と対象物との距離を一定に保ったまま、対象物に対して撮像装置が回転移動する様子を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で撮像装置の回転方向と反対の方向に回転移動するように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の回転移動の移動方向を示す方向ベクトルを推定してよい。例えば、推定部152は、方向情報として、対象物領域の回転移動の軌跡に対応する円の円周方向を示す方向ベクトルを推定してよい。
【0048】
また、例えば、対象物に向かって撮像装置が近づきながら(または、対象物から撮像装置が遠ざかりながら)対象物を撮像装置により撮像する。このとき、撮像装置によって撮像された2次元の画像上では、画像に撮像された対象物に対応する領域である対象物領域の色情報が、画像に対応する領域である画像領域に対応する面内で拡大(または、縮小)するように見える。つまり、対象物に向かって撮像装置が近づきながら対象物を撮像したときは、画像領域における対象物領域の面積が大きくなるように見える。対象物から撮像装置が遠ざかりながら対象物を撮像したときは、画像領域における対象物領域の面積が小さくなるように見える。そこで、推定部152は、方向情報として、画像領域における対象物領域の伸縮方向を示す方向ベクトルを推定してよい。また、推定部152は、対象物から撮像装置が遠ざかりながら対象物を撮像したときは、例えば、推定部152は、対象物に向かって撮像装置が近づきながら対象物を撮像したときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が拡大する方向(所定の点から発散する方向)を示す方向ベクトルを推定してよい。また、推定部152は、対象物から撮像装置が遠ざかりながら対象物を撮像したときは、方向情報として、画像領域における所定の点を中心として対象物領域の面積が縮小する方向(所定の点に向かって集中する方向)を示す方向ベクトルを推定してよい。
【0049】
より具体的には、推定部152は、方向ベクトルとして、所定サイズの単位領域(例えば、1画素であってもよいし、M×N画素(M、Nともに1以上の整数)であってもよい)に分割された静止画像の各単位領域に対応する色情報の画像領域における移動方向を示すベクトルを推定してよい。例えば、推定部152は、方向ベクトルとして、静止画像におけるオプティカルフローを推定してよい(参考URL: https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Walker_Dense_Optical_Flow_ICCV_2015_paper.pdf)。例えば、推定部152は、静止画像を第1機械学習モデルに入力した場合に、オプティカルフローまたはオプティカルフローと対応する情報を出力するよう学習された第1機械学習モデルを用いて、静止画像から、オプティカルフローを推定してよい。例えば、推定部152は、オプティカルフローと対応する情報として、オプティカルフローとして推定され得るベクトルごとの確からしさを示す確率を出力してよい。
【0050】
なお、実施形態に係る機械学習モデル(第1機械学習モデルおよび後述する第2機械学習モデル)は、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークによる機械学習によって生成されるが、かかる例に限定されない。例えば、実施形態に係る機械学習モデルは、ニューラルネットワークに代えて、線形回帰またはロジスティック回帰といった学習アルゴリズムによる機械学習を用いて生成されてもよい。
【0051】
なお、推定部152は、方向情報として、オプティカルフロー以外の方向ベクトルを推定してよい。例えば、推定部152は、静止画像を第1機械学習モデルに入力した場合に、対象物領域の色情報の移動方向または伸縮方向を示す一の方向ベクトルまたは一の方向ベクトルと対応する情報を出力するよう学習された第1機械学習モデルを用いて、静止画像から、一の方向ベクトルを推定してよい。例えば、推定部152は、一の方向ベクトルと対応する情報として、一の方向ベクトルとして推定され得るベクトルごとの確からしさを示す確率を出力してよい。
【0052】
(生成部153)
生成部153は、推定部152によって推定された方向情報に基づいて、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域を生成してよい。続いて、生成部153は、ターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成してよい。具体的には、生成部153は、方向情報によって示される変化方向に応じて、画像領域におけるターゲット領域の位置または大きさを変化させることにより、各位置または各大きさのターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、疑似動画を生成してよい。
【0053】
より具体的には、生成部153は、画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、方向ベクトルの向き、および、方向ベクトルの大きさに応じて、方向ベクトルをクラスタに分類し、クラスタに分類された方向ベクトルの特徴に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。以下では、
図2~
図4を用いて、方向ベクトルのクラスタリングおよび擬似動画の生成方法について詳しく説明する。
【0054】
図2は、実施形態に係る平行移動を含む擬似動画の生成処理の一例について説明するための図である。
図2では、3次元の空間において、撮像装置の位置が固定されており、撮像装置と対象物О1との距離を一定に保ったまま、撮像装置に対して対象物О1が特定の方向に平行移動する様子を撮像装置により撮像した静止画像G1から擬似動画を生成する場合について説明する。取得部151は、静止画像G1と静止画像G1の内容を示す正解ラベルの組を含む画像データセットを取得してよい。
【0055】
推定部152は、静止画像G1からオプティカルフローOF1を推定してよい(ステップS11)。例えば、推定部152は、静止画像G1に対応する画像領域A1における対象物領域の移動方向を示すオプティカルフローOF1を推定してよい。
図2では、対象物領域の移動方向が、画像領域A1における特定の方向を示す特定ベクトルV11の方向であるとする。このとき、推定部152が推定した各オプティカルフローOF1の向きは、大体がベクトルV11の方向に揃っている。
【0056】
生成部153は、対象物領域の位置から所定の範囲内に位置するオプティカルフローOF1であって、画像領域A1における特定ベクトルV11とオプティカルフローOF1とがなす角度が第1角度を下回るオプティカルフローOF1を一のクラスタに分類する。生成部153は、例えば、k-meansなどの任意のクラスタリング手法を採用することができる。例えば、生成部153は、オプティカルフローを第2機械学習モデルに入力した場合に、オプティカルフローの位置、向きおよび大きさに応じて、オプティカルフローをクラスタに分類した分類結果または分類結果と対応する情報を出力するよう学習された第2機械学習モデルを用いて、オプティカルフローOF1をクラスタに分類する。生成部153は、オプティカルフローOF1をクラスタに分類した場合、できるだけ同じクラスタのオプティカルフローだけを囲むようにターゲット枠T1を生成する(ステップS12)。
【0057】
続いて、生成部153は、クラスタに分類されたオプティカルフローOF1の特徴を示す特定ベクトルV11に基づいて、画像領域A1におけるターゲット枠T1の位置を特定ベクトルV11の向きと反対の向きに移動させる。
図2では、生成部153は、画像領域A1におけるターゲット枠T1の位置を特定ベクトルV11の向きを示す反対ベクトルV12の向きに移動させる(ステップS13)。このように、生成部153は、ターゲット枠T1の位置をオプティカルフローOF1の特徴を示す特定ベクトルV11の向きと反対の向きに移動させることにより、画像領域A1のうちターゲット枠T1に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部153は、ターゲット枠T1の位置をオプティカルフローOF1の特徴を示す特定ベクトルV11の向きと反対の向きに移動させることにより、ターゲット枠T1に対する対象物O1の相対的な位置が特定ベクトルV11の方向に平行移動するように見えるフレーム画像を複数枚生成することができる。
【0058】
続いて、生成部153は、画像領域A1における各位置のターゲット枠T1に囲まれたターゲット領域に対応する静止画像であるフレーム画像を複数生成する(ステップS14)。
図2では、生成部153は、ターゲット枠T1の移動を開始した時点における位置のターゲット枠T1‐1に囲まれたターゲット領域に対応するフレーム画像、移動中の位置のターゲット枠T1‐2に囲まれたターゲット領域に対応するフレーム画像、および移動を終了した時点における位置のターゲット枠T1‐3に囲まれたターゲット領域に対応するフレーム画像を時系列順に示す。図示は省略するが、生成部153は、実際には、3枚より多い数のフレーム画像を生成してよい。続いて、生成部153は、生成した複数のフレーム画像に基づいて、疑似動画を生成する。また、生成部153は、取得部151によって取得された静止画像G1の正解ラベルと、生成された疑似動画の組を含む動画データセットを生成する。
【0059】
なお、
図2では、簡単のため、静止画像に撮像された対象物が1つである場合について説明したが、複数の対象物が静止画像に撮像されている場合には、推定部152は、静止画像から複数の対象物それぞれのオプティカルフローを推定する。一般的に、複数の対象物が静止画像に撮像されている場合には、複数の対象物それぞれの移動方向を示すオプティカルフローの分布が対象物領域の周囲の位置において推定される。また、生成部153は、複数の対象物領域それぞれの位置から所定の範囲内に位置するオプティカルフローであって、画像領域における各特定ベクトルとオプティカルフローとがなす角度が第1角度を下回るオプティカルフローをそれぞれ同じクラスタに分類する。
【0060】
図3は、実施形態に係る回転移動を含む擬似動画の生成処理の一例について説明するための図である。
図3では、3次元の空間において、撮像装置の位置が固定されており、撮像装置と対象物О21およびО22との距離を一定に保ったまま、撮像装置に対して対象物О21およびО22が時計回りに回転移動する様子を撮像装置により撮像した静止画像G2から擬似動画を生成する場合について説明する。なお、
図3では、
図2と同じ説明は省略する。
【0061】
推定部152は、静止画像G2からオプティカルフローOF21およびOF22を推定してよい。例えば、推定部152は、静止画像G2に対応する画像領域A2における対象物О21の対象物領域の移動方向を示すオプティカルフローOF21を推定してよい。また、推定部152は、画像領域A2における対象物О22の対象物領域の移動方向を示すオプティカルフローOF22を推定してよい。
【0062】
図3では、生成部153は、対象物О21およびО22それぞれの対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域A2における第1の点P1を中心とする第1の円C1の円周方向を示す円周ベクトルとオプティカルフローとがなす角度が第2角度を下回るオプティカルフローをクラスタに分類する。例えば、生成部153は、対象物О21の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域A2における第1の点P1を中心とする第1の円C1の円周方向を示す一の円周ベクトルV21とオプティカルフローとがなす角度が第2角度を下回るオプティカルフローOF21を一のクラスタに分類する。また、生成部153は、対象物О22の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域A2における第1の点P1を中心とする第1の円C1の円周方向を示す他の円周ベクトルV21´とオプティカルフローとがなす角度が第2角度を下回るオプティカルフローOF22を他のクラスタに分類する。ここで、円周ベクトルとは、円周上の各位置における円の接線方向を示す接線ベクトルであってよい。続いて、生成部153は、できるだけ一のクラスタのオプティカルフローOF21だけを囲むようにターゲット枠T21を生成する。また、生成部153は、できるだけ他のクラスタのオプティカルフローOF22だけを囲むようにターゲット枠T22を生成する(ステップS22)。
【0063】
続いて、生成部153は、一のクラスタに分類されたオプティカルフローOF21の特徴を示す円周ベクトルV21に基づいて、画像領域A2におけるターゲット枠T21の位置を円周ベクトルV21の向きと反対の向きに移動させる(ステップS23)。
図3では、生成部153は、画像領域A2におけるターゲット枠T21の位置を円周ベクトルV21の向きと反対の向きを示す反対ベクトルV22の向きに移動させる。このように、生成部153は、ターゲット枠T21の位置をオプティカルフローOF21の特徴を示す円周ベクトルV21の向きと反対の向きに移動させることにより、画像領域A2のうちターゲット枠T21に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部153は、ターゲット枠T21の位置をオプティカルフローOF21の特徴を示す円周ベクトルV21の向きと反対の向きに移動させることにより、ターゲット枠T21に対する対象物O21の相対的な位置が円周ベクトルV21の方向に回転移動するように見えるフレーム画像を複数枚生成することができる。
【0064】
同様にして、生成部153は、他のクラスタに分類されたオプティカルフローOF22の特徴を示す円周ベクトルV21´に基づいて、画像領域A2におけるターゲット枠T22の位置を円周ベクトルV21´の向きと反対の向きに移動させる(ステップS23)。
図3では、生成部153は、画像領域A2におけるターゲット枠T22の位置を円周ベクトルV21´の向きと反対の向きを示す反対ベクトルV22´の向きに移動させる。このように、生成部153は、ターゲット枠T22の位置をオプティカルフローOF22の特徴を示す特定ベクトルV21´の向きと反対の向きに移動させることにより、画像領域A2のうちターゲット枠T22に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部153は、ターゲット枠T22の位置をオプティカルフローOF22の特徴を示す特定ベクトルV21´の向きと反対の向きに移動させることにより、ターゲット枠T22に対する対象物O22の相対的な位置が円周ベクトルV21´の方向に回転移動するように見えるフレーム画像を複数枚生成することができる。
【0065】
図4は、実施形態に係るカメラ方向の移動を含む擬似動画の生成処理の一例について説明するための図である。
図4では、3次元の空間において、対象物О3の位置が固定されており、対象物О3から撮像装置が遠ざかりながら対象物О3を撮像装置により撮像した静止画像G3から擬似動画を生成する場合について説明する。なお、
図4では、
図2および
図3と同じ説明は省略する。
【0066】
推定部152は、静止画像G3からオプティカルフローOF3を推定してよい。例えば、推定部152は、静止画像G3に対応する画像領域A3における対象物О3の対象物領域の縮小方向を示すオプティカルフローOF3を推定してよい。
【0067】
図4では、生成部153は、対象物О3の対象物領域の位置から所定の範囲内に位置するオプティカルフローであって、画像領域A3における第2の点P2を中心とする第2の円C2の半径方向を示す半径ベクトルとオプティカルフローとがなす角度が第3角度を下回るオプティカルフローOF3を一のクラスタに分類する。ここで、半径ベクトルとは、円周上の各位置から円の中心へ向かう方向を示すベクトルであってよい。
図4に示す半径ベクトルV31~V34は、それぞれ、画像領域A3における円C2の円周上の各位置から円の中心である点P2に向かう方向を示している。
【0068】
続いて、生成部153は、できるだけ一のクラスタのオプティカルフローOF3だけを囲むようにターゲット枠T3を生成する(ステップS32)。なお、生成部153は、画像領域A3の面積に対して、ターゲット枠T3によって囲まれるターゲット領域の面積が所定の閾値を下回るようにターゲット枠T3を生成してよい。
【0069】
続いて、生成部153は、一のクラスタに分類されたオプティカルフローOF3の特徴を示す半径ベクトルに基づいて、画像領域A3におけるターゲット枠T3の大きさを半径ベクトルの向きと反対の向きに拡大させる。例えば、生成部153は、画像領域A3におけるターゲット枠T3の4つの辺それぞれを半径ベクトルV31~V34の向きと反対の向きを示す反対ベクトルV41~V34それぞれの向きに移動させることで、ターゲット枠T3の大きさを拡大させる。このように、生成部153は、ターゲット枠T3の大きさをオプティカルフローOF3の特徴を示す半径ベクトルの向きと反対の向きに伸縮させることにより、画像領域A3のうちターゲット枠T3に囲まれたターゲット領域に対応するフレーム画像を複数枚生成する。また、生成部153は、ターゲット枠T3の大きさをオプティカルフローOF3の特徴を示す半径ベクトルの向きと反対の向きに移動させることにより、対象物О3から撮像装置が遠ざかる方向へ移動するように見えるフレーム画像を複数枚生成することができる。
【0070】
なお、生成部153は、四角形以外の任意の形状のターゲット領域に基づいてフレーム画像を生成してもよい。例えば、生成部153は、円状、三角形状など任意の形状のターゲット枠に基づく任意の形状のターゲット領域に対応するフレーム画像を複数枚生成してよい。
【0071】
(出力制御部154)
出力制御部154は、生成部153によって生成された動画データセットを出力してよい。例えば、出力制御部154は、生成部153によって生成された動画データセットを、動画データセットの提供先となる外部の情報処理装置に対して送信してよい。
【0072】
〔3.情報処理の手順〕
図5は、実施形態に係る情報処理手順を示すフローチャートである。
図5に示す例では、情報処理装置100の推定部152は、静止画像からオプティカルフローを推定する(ステップS101)。情報処理装置100の生成部153は、推定部152によって推定されたオプティカルフローをクラスタに分類する(ステップS102)。続いて、生成部153は、同じクラスタのオプティカルフローを囲むようにターゲット枠を生成する(ステップS103)。続いて、生成部153は、画像領域におけるターゲット枠の位置または大きさを変化させることにより、複数のフレーム画像を生成する(ステップS104)。続いて、生成部153は、複数のフレーム画像に基づいて、疑似動画を生成する(ステップS105)。
【0073】
〔4.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。
【0074】
〔4-1.物体検出のバウンディングボックスの利用〕
上述した実施形態では、情報処理装置100が、できるだけ一のクラスタのオプティカルフローだけを囲むように生成したターゲット枠に基づいてフレーム画像を生成する場合について説明したが、情報処理装置100は、物体検出のバウンディングボックスを利用したターゲット枠に基づいてフレーム画像を生成してもよい。
【0075】
具体的には、推定部152は、静止画像に対する物体検出を行い、静止画像における対象物を検出する。続いて、推定部152は、対象物を検出した場合、既存の動画データセットを取得する。続いて、推定部152は、既存の動画データセットに含まれる動画の中から、検出された対象物と類似する類似対象物を含む動画を抽出する。続いて、推定部152は、抽出した動画から、動画における類似対象物のオプティカルフローを推定する。続いて、推定部152は、推定された類似対象物のオプティカルフローを、検出された対象物のオプティカルフローとして推定する。生成部153は、推定部152によって推定されたオプティカルフローをクラスタに分類する。
【0076】
また、生成部153は、推定部152によって検出された対象物を囲むバウンディングボックスをターゲット枠として用いることを決定する。生成部153は、ターゲット枠として用いることを決定したバウンディングボックスに囲まれたターゲット領域に基づいて、疑似動画を生成してよい。
【0077】
〔4-2.クラスタリングの割合に応じたターゲット領域の移動または伸縮〕
上述した実施形態では、情報処理装置100が、できるだけ一のクラスタのオプティカルフローだけを囲むように生成したターゲット枠に基づいてフレーム画像を生成する場合について説明したが、情報処理装置100は、オプティカルフローが各クラスタへ分類され得る確率の比率に応じてターゲット枠の位置または大きさを変化させてよい。
【0078】
具体的には、推定部152は、静止画像から、静止画像に関するオプティカルフローが複数のクラスタそれぞれに分類され得る確率を推定する。例えば、推定部152は、例えば、所定の対象物に関するオプティカルフローについて、分類されるオプティカルフローの特徴が平行移動であるクラスタに分類される確率が70%、回転移動であるクラスタに分類される確率が30%であると推定する。生成部153は、オプティカルフローが複数のクラスタに分類され得る場合、オプティカルフローが複数のクラスタそれぞれに分類され得る確率の比率に基づいて、画像領域におけるターゲット枠の位置または大きさを変化させる。例えば、生成部153は、推定部152によって平行移動であるクラスタに分類される確率が70%、回転移動であるクラスタに分類される確率が30%であると推定された場合、平行移動に対応する特定ベクトルの割合が70%、回転移動に対応する円周ベクトルの割合が30%であるような合成ベクトルを生成する。続いて、生成部153は、画像領域におけるターゲット枠の位置を生成された合成ベクトルの方向に移動させる。
【0079】
〔5.効果〕
上述したように、実施形態に係る情報処理装置100は、推定部152と生成部153を備える。推定部152は、撮像装置により対象物を撮像した静止画像から、撮像装置と対象物との相対的な位置の変化方向を示す情報である方向情報を推定する。生成部153は、推定部152によって推定された方向情報、および、静止画像における対象物に対応する領域である対象物領域を含む領域であるターゲット領域に基づいて、撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成する。
【0080】
これにより、情報処理装置100は、対象物を撮像した静止画像におけるオプティカルフローを用いることにより、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。また、情報処理装置100は、一の静止画像から多様なパターンの動画を大量に生成することができる。また、情報処理装置100は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。また、情報処理装置100は、多様なパターンの動画を網羅した大量の動画データセットを用いて機械学習モデルを学習させることができるので、映像解析の精度を向上させることを可能とすることができる。また、情報処理装置100は、映像解析の精度を向上させることを可能とすることができるため、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。
【0081】
また、推定部152は、方向情報として、静止画像に対応する領域である画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルを推定する。
【0082】
これにより、情報処理装置100は、2次元の画像領域における対象物領域の色情報の移動方向に基づいて、3次元の空間における撮像装置と対象物との相対的な位置の変化を含む疑似動画を生成することができる。
【0083】
また、推定部152は、方向ベクトルとして、所定サイズの単位領域に分割された静止画像の各単位領域に対応する色情報の画像領域における移動方向を示すベクトルを推定する。
【0084】
これにより、情報処理装置100は、対象物領域全体の移動方向だけでなく、対象物領域を分割した各領域の移動方向に基づいて、3次元の空間における撮像装置と対象物との相対的な位置のより細かな変化を含む疑似動画を生成することができる。
【0085】
また、推定部152は、方向ベクトルとして、静止画像におけるオプティカルフローを推定する。
【0086】
これにより、情報処理装置100は、オプティカルフローを用いることで、撮像装置と対象物との相対的な位置のより自然な変化を推定することができる。
【0087】
また、推定部152は、静止画像を第1機械学習モデルに入力した場合に、方向情報または方向情報と対応する情報を出力するよう学習された第1機械学習モデルを用いて、静止画像から、方向情報を推定する。
【0088】
これにより、情報処理装置100は、機械学習モデルを用いることで、より精度よく方向情報を推定することができる。
【0089】
また、生成部153は、方向情報によって示される変化方向に応じて、静止画像に対応する領域である画像領域におけるターゲット領域の位置または大きさを変化させることにより、各位置または各大きさのターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、疑似動画を生成する。
【0090】
これにより、情報処理装置100は、方向情報によって示される変化方向に応じて、撮像装置と対象物との相対的な位置が変化するように見える擬似動画を生成することができる。
【0091】
また、生成部153は、画像領域における対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、方向ベクトルの向き、および、方向ベクトルの大きさに応じて、方向ベクトルをクラスタに分類し、クラスタに分類された方向ベクトルの特徴に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。
【0092】
これにより、情報処理装置100は、例えば、複数の対象物が撮像された静止画像から、複数の対象物それぞれについて、撮像装置と対象物との相対的な位置が変化するように見える擬似動画を生成することができる。
【0093】
また、生成部153は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における特定の方向を示す特定ベクトルと方向ベクトルとがなす角度が第1角度を下回る方向ベクトルを第1クラスタに分類し、第1クラスタに分類された方向ベクトルの特徴を示す特定ベクトルに基づいて、画像領域におけるターゲット領域の位置を特定ベクトルの向きと反対の向きに移動させる。
【0094】
これにより、情報処理装置100は、撮像装置または対象物の位置が特定ベクトルの方向に平行移動するように見える擬似動画を生成することができる。
【0095】
また、生成部153は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における第1の点を中心とする第1の円の円周方向を示す円周ベクトルと方向ベクトルとがなす角度が第2角度を下回る方向ベクトルを第2クラスタに分類し、第2クラスタに分類された方向ベクトルの特徴を示す円周ベクトルに基づいて、画像領域におけるターゲット領域の位置を円周ベクトルの向きと反対の向きに移動させる。
【0096】
これにより、情報処理装置100は、撮像装置または対象物の位置が円周ベクトルの方向に回転移動するように見える擬似動画を生成することができる。
【0097】
また、生成部153は、対象物領域の位置から所定の範囲内に位置する方向ベクトルであって、画像領域における第2の点を中心とする第2の円の半径方向を示す半径ベクトルと方向ベクトルとがなす角度が第3角度を下回る方向ベクトルを第3クラスタに分類し、第3クラスタに分類された方向ベクトルの特徴を示す半径ベクトルに基づいて、画像領域におけるターゲット領域の大きさを半径ベクトルの向きと反対の向きに伸縮させる。
【0098】
これにより、情報処理装置100は、対象物が撮像装置から遠ざかる(または、対象物が撮像装置に対して近づく)方向へ移動するように見える擬似動画、または、対象物から撮像装置が遠ざかる(または対象物に対して撮像装置が近づく)方向へ移動するように見える擬似動画を生成することができる。
【0099】
また、生成部153は、方向ベクトルを第2機械学習モデルに入力した場合に、方向ベクトルをクラスタに分類した分類結果または分類結果と対応する情報を出力するよう学習された第2機械学習モデルを用いて、方向ベクトルをクラスタに分類する。
【0100】
これにより、情報処理装置100は、機械学習モデルを用いることで、より精度よく方向ベクトルをクラスタに分類することができる。
【0101】
また、生成部153は、方向ベクトルが複数のクラスタに分類され得る場合、方向ベクトルが複数のクラスタそれぞれに分類され得る確率の比率に基づいて、画像領域におけるターゲット領域の位置または大きさを変化させる。
【0102】
これにより、情報処理装置100は、撮像装置と対象物との相対的な位置のより自然な変化を含む擬似動画を生成することができる。
【0103】
また、推定部152は、静止画像に対する物体検出を行い、静止画像における対象物を検出する。生成部153は、推定部152によって検出された対象物を囲むバウンディングボックスを用いたターゲット領域に基づいて、疑似動画を生成する。
【0104】
これにより、情報処理装置100は、バウンディングボックスを利用することで、ターゲット枠を生成する手間を省くことができる。
【0105】
また、情報処理装置100は、取得部151をさらに備える。取得部151は、静止画像の内容を示す正解ラベルと静止画像の組を含む画像データセットを取得する。生成部153は、取得部151によって取得された正解ラベルと疑似動画の組を含む動画データセットを生成する。
【0106】
これにより、情報処理装置100は、生成した動画の正解ラベルとして、一の静止画像に対応する正解ラベルを流用することにより、多様なパターンの動画を網羅した大量の動画データセットを自動で生成することができる。
【0107】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば
図6に示すような構成のコンピュータ1000によって実現される。
図6は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0108】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0109】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0110】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0111】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0112】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部150の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0113】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0114】
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0115】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0116】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0117】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
【符号の説明】
【0118】
100 情報処理装置
110 通信部
120 記憶部
130 入力部
140 出力部
150 制御部
151 取得部
152 推定部
153 生成部
154 出力制御部
【手続補正書】
【提出日】2023-08-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
撮像装置により対象物を撮像した一の静止画像を第1機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第1機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定部と、
前記推定部によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成部と、
を備える情報処理装置。
【請求項2】
前記推定部は、
前記方向ベクトルとして、所定サイズの単位領域に分割された前記静止画像の各単位領域に対応する色情報の前記画像領域における移動方向を示すベクトルを推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記推定部は、
前記方向ベクトルとして、前記静止画像におけるオプティカルフローを推定する、
請求項1または2に記載の情報処理装置。
【請求項4】
前記生成部は、
前記方向情報によって示される前記変化方向に応じて、前記静止画像に対応する領域である画像領域における前記ターゲット領域の位置または大きさを変化させることにより、各位置または各大きさの前記ターゲット領域に対応する静止画像であるフレーム画像を複数生成し、生成した複数のフレーム画像に基づいて、前記疑似動画を生成する、
請求項1~3のいずれか1つに記載の情報処理装置。
【請求項5】
前記生成部は、
前記画像領域における前記対象物領域の移動方向または伸縮方向を示す方向ベクトルの位置、前記方向ベクトルの向き、および、前記方向ベクトルの大きさに応じて、前記方向ベクトルをクラスタに分類し、前記クラスタに分類された前記方向ベクトルの特徴に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項4に記載の情報処理装置。
【請求項6】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における特定の方向を示す特定ベクトルと前記方向ベクトルとがなす角度が第1角度を下回る前記方向ベクトルを第1クラスタに分類し、前記第1クラスタに分類された前記方向ベクトルの特徴を示す前記特定ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記特定ベクトルの向きと反対の向きに移動させる、
請求項5に記載の情報処理装置。
【請求項7】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第1の点を中心とする第1の円の円周方向を示す円周ベクトルと前記方向ベクトルとがなす角度が第2角度を下回る前記方向ベクトルを第2クラスタに分類し、前記第2クラスタに分類された前記方向ベクトルの特徴を示す前記円周ベクトルに基づいて、前記画像領域における前記ターゲット領域の位置を前記円周ベクトルの向きと反対の向きに移動させる、
請求項5または6に記載の情報処理装置。
【請求項8】
前記生成部は、
前記対象物領域の位置から所定の範囲内に位置する前記方向ベクトルであって、前記画像領域における第2の点を中心とする第2の円の半径方向を示す半径ベクトルと前記方向ベクトルとがなす角度が第3角度を下回る前記方向ベクトルを第3クラスタに分類し、前記第3クラスタに分類された前記方向ベクトルの特徴を示す前記半径ベクトルに基づいて、前記画像領域における前記ターゲット領域の大きさを前記半径ベクトルの向きと反対の向きに伸縮させる、
請求項5~7のいずれか1つに記載の情報処理装置。
【請求項9】
前記生成部は、
前記方向ベクトルを第2機械学習モデルに入力した場合に、前記方向ベクトルをクラスタに分類した分類結果または前記分類結果と対応する情報を出力するよう学習された前記第2機械学習モデルを用いて、前記方向ベクトルを前記クラスタに分類する、
請求項5~8のいずれか1つに記載の情報処理装置。
【請求項10】
前記生成部は、
前記方向ベクトルが複数のクラスタに分類され得る場合、前記方向ベクトルが前記複数のクラスタそれぞれに分類され得る確率の比率に基づいて、前記画像領域における前記ターゲット領域の位置または大きさを変化させる、
請求項5~9のいずれか1つに記載の情報処理装置。
【請求項11】
前記推定部は、
前記静止画像に対する物体検出を行い、前記静止画像における前記対象物を検出する、
前記生成部は、
前記推定部によって検出された前記対象物を囲むバウンディングボックスを用いた前記ターゲット領域に基づいて、前記疑似動画を生成する、
請求項1~10のいずれか1つに記載の情報処理装置。
【請求項12】
前記静止画像の内容を示す正解ラベルと前記静止画像の組を含む画像データセットを取得する取得部をさらに備え、
前記生成部は、
前記取得部によって取得された前記正解ラベルと前記疑似動画の組を含む動画データセットを生成する、
請求項1~11のいずれか1つに記載の情報処理装置。
【請求項13】
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像装置により対象物を撮像した一の静止画像を第1機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第1機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定工程と、
前記推定工程によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成工程と、
を含む情報処理方法。
【請求項14】
撮像装置により対象物を撮像した一の静止画像を第1機械学習モデルに入力した場合に、前記撮像装置と前記対象物との相対的な位置の変化方向を示す情報である方向情報として、前記一の静止画像に対応する領域である画像領域における前記対象物に対応する領域である対象物領域の移動方向または伸縮方向を示す方向ベクトルを出力するよう学習された前記第1機械学習モデルを用いて、前記一の静止画像から、前記方向ベクトルを推定する推定手順と、
前記推定手順によって推定された前記方向ベクトル、および、前記一の静止画像における前記対象物領域を含む領域であるターゲット領域に基づいて、前記撮像装置と前記対象物との相対的な位置の変化を含む疑似動画を生成する生成手順と、
をコンピュータに実行させる情報処理プログラム。