(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-17
(45)【発行日】2024-06-25
(54)【発明の名称】動画データの記録方法及び動画データの再生方法
(51)【国際特許分類】
G06T 13/40 20110101AFI20240618BHJP
H04N 5/92 20060101ALI20240618BHJP
【FI】
G06T13/40
H04N5/92 010
(21)【出願番号】P 2020156647
(22)【出願日】2020-09-17
【審査請求日】2023-05-18
(73)【特許権者】
【識別番号】302066869
【氏名又は名称】株式会社ネクストシステム
(73)【特許権者】
【識別番号】520362398
【氏名又は名称】長澤 幹夫
(74)【代理人】
【識別番号】100114627
【氏名又は名称】有吉 修一朗
(74)【代理人】
【識別番号】230110397
【氏名又は名称】田中 雅敏
(74)【代理人】
【識別番号】100182501
【氏名又は名称】森田 靖之
(74)【代理人】
【識別番号】100175271
【氏名又は名称】筒井 宣圭
(74)【代理人】
【識別番号】100190975
【氏名又は名称】遠藤 聡子
(72)【発明者】
【氏名】長澤 幹夫
【審査官】中田 剛史
(56)【参考文献】
【文献】特開2019-009752(JP,A)
【文献】国際公開第2010/050110(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/40
H04N 5/92
(57)【特許請求の範囲】
【請求項1】
所定の低解像度の動画データから動体領域データを検知する動体領域検知ステップと、
前記動体領域データにノイズ除去処理を行うと共に、二分木アルゴリズムに基づき、少なくとも5つの矩形領域データに分割し、分類する矩形領域分類ステップとを備え、
前記矩形領域データから、各矩形領域の所定の境界点の座標データを抽出すると共に、一定のフレームレートにおける前記所定の境界点の座標データを時系列に並べて、1つの連続写真データとして記録し、
前記動画データを撮像する撮像手段であるカメラのカメラ視点の座標データと、前記撮像手段の視点の並進移動座標、及び、同撮像手段の回転移動座標で構成されたカメラ視点移動データとを、前記連続写真データと共に記録する
動画データの記録方法。
【請求項2】
前記矩形領域データは、それぞれの矩形領域を、頭部、両手及び両足に分類した擬人化モデルである
請求項1に記載の
動画データの記録方法。
【請求項3】
前記矩形領域分類ステップは、階層的に、所定の閾値条件を満たす時間変化があった領域をトリミング抽出する
請求項1または請求項2に記載の
動画データの記録方法。
【請求項4】
前記連続写真データを記録媒体にデジタルデータとして記録する
請求項1~3のいずれかに記載の動画データの記録方法。
【請求項5】
請求項1~4に記載の前記所定の境界点の座標データを時系列に並べたデータである境界点時系列データ、または、前記連続写真データを到達目標点とする運動シミュレーション演算に基づき、前記境界点時系列データまたは前記連続写真データを、力学的に弾性結合した格子座標配列である力学テクスチャの動きとして再生表示する
動画データの再生方法。
【請求項6】
前記力学テクスチャに、同力学テクスチャより高解像度の画像テクスチャを貼り付けて、その動きを再生表示する
請求項5に記載の動画データの再生方法。
【請求項7】
前記カメラ視点移動データに基づき、前記力学テクスチャ及び前記画像テクスチャを組み合わせて、三次元配置での動きを再生表示する
請求項6に記載の動画データの再生方法。
【請求項8】
スケールが異なる2以上の前記力学テクスチャを合成して、その動きを再生表示する
請求項5~7のいずれかに記載の動画データの再生方法。
【請求項9】
請求項1~4に記載の前記所定の境界点の座標データを時系列に並べたデータである境界点時系列データ、または、前記連続写真データを、二次元のデジタル楽譜データに写像変換して、前記デジタル楽譜データに基づき音を再生演奏する
動画データの再生方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画データの記録方法及び動画データの再生方法に関する。詳しくは、低解像度のカメラ動画から抽出した動き情報を圧縮して、少ないデータ容量と、少ない演算処理量で、動き情報の記録、保存または再生が可能な動画データの記録方法及び動画データの再生方法に係るものである。
【背景技術】
【0002】
近年、人または対象物の動き情報を用いた技術が、様々な分野で利用されている。
【0003】
例えば、監視カメラやAIカメラ等で撮像した動画データ、CGまたはVRのアバター、モーションキャプチャ、モーション認識等に由来する、人または対象物の動き情報に対して、機械学習で動きのパターンをモデル化して、人物等の動き情報を識別利用することが行われている。
【0004】
また、低解像度の歩行映像から、その姿や歩き方に基づき人物を特定する歩容認証等、撮像画像から検出する対象動作を限定した内容の識別技術も用いられている。
【0005】
さらに、動き情報の通信技術として、高次元の動きを効率良く転送することを試みる方法が提案されている(例えば、特許文献1及び特許文献2を参照)。
【0006】
この特許文献1または特許文献2に記載された方法では、ポリゴンや法線ベクトル等の三次元CGの差分転送を行い、三次元動画データを効率良く転送するものとなっている。
【先行技術文献】
【特許文献】
【0007】
【文献】第2909625号明細書
【文献】特開平11-272885号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ここで、従前の機械学習による動き情報の識別利用では、高解像度の入力画像と、機械学習のための大量の学習データが必要となっている。そのため、動き情報の処理にあたり、情報処理能に優れた高性能な端末を要すると共に、情報処理に長時間を要していた。
【0009】
また、歩容認証では、低解像度の映像を用いることができるが、検知のための専用のデータベースが必要となる。また、歩行以外の任意の動作に対してそのまま利用することができず、汎用性に乏しかった。さらに、データベースを要することから、システム全体として可搬性にも欠けていた。
【0010】
また、特許文献1または特許文献2に記載された方法は、三次元CGを効率良く転送し、三次元CGを再生表示することを目的としたものであり、監視カメラやAIカメラ等のカメラ画像入力に対応していなかった。
【0011】
本発明は、以上の点に鑑みて創案されたものであり、低解像度のカメラ動画から抽出した動き情報を圧縮して、少ないデータ容量と、少ない演算処理量で、動き情報の記録、保存または再生が可能な動画データの記録方法及び動画データの再生方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記の目的を達成するために、本発明の動画データの処理方法は、所定の低解像度の動画データから動体領域データを検知する動体領域検知ステップと、前記動体領域データにノイズ除去処理を行うと共に、二分木アルゴリズムに基づき、少なくとも5つの矩形領域データに分割し、分類する矩形領域分類ステップとを備える。
【0013】
ここで、動体領域検知ステップで、所定の低解像度の動画データから動体領域データを検知することによって、データ容量の小さな動画データに対して、撮像画像中の動きがある領域を検知することができる。なお、ここでいう所定の低解像度とは、例えば、128×128ピクセルの解像度を含んでいる。また、ここでいう所定の低解像度の動画データは、高解像度の動画データ、または、水平方向に視点移動する監視カメラ等の動画データから、一部の範囲を切り出したデータであってもよい。
【0014】
また、ここでいう動体領域データの検知とは、動画データを構成するフレームにおいて、前のフレームから、次のフレームにかけて、値の変化する差分ピクセルを検知することを意味する。
【0015】
また、矩形領域分類ステップで、動体領域データにノイズ除去処理を行うことによって、撮像画像の中から、ノイズによる差分ピクセルを除去した動体領域データを抽出することが可能となる。また、ノイズ除去処理を行うことで、ノイズによる動体領域の細分化を避け、二分木アルゴリズムの反復適用を少ない回数に抑えた矩形領域分割が可能となる。
【0016】
また、矩形領域分類ステップで、二分木アルゴリズムに基づき、少なくとも5つの矩形領域データに分割し、分類することによって、低解像度の動画データの撮像範囲の中から、大きな動きのある範囲を、少なくとも5つの矩形領域データとして抽出することができる。これにより、所定の低解像度の動画データから、更にデータ容量の小さな矩形領域データを生成して、動きの特徴を反映した情報として利用可能となる。また、少なくとも5つの矩形領域データとして生成することで、個々の矩形領域を特定して、各々を区別することができる。これにより、区別した各矩形領域を関連づけて、対象物の全体の動きの特徴を反映した情報として利用可能となる。
【0017】
また、矩形領域データが、それぞれの矩形領域を、頭部、両手及び両足に分類した擬人化モデルである場合には、人の動きを撮像した動画データに対して、頭部、両手及び両足の各部分の動きを矩形領域データとして抽出して、人の全身の動きの特徴を反映した情報として利用可能となる。
【0018】
また、矩形領域分類ステップで、階層的に、所定の閾値条件を満たす時間変化があった領域をトリミング抽出する場合には、複数の矩形領域データについて、大きな矩形領域から小さな矩形領域へと、矩形領域データをより詳細に階層化しやすくなる。なお、ここでいう所定の閾値条件とは、例えば、時間変化しているピクセルに対して、動いている領域と、動いていない領域を区別するための閾値を意味する。
【0019】
また、上記の目的を達成するために、本発明の動画データの記録方法は、請求項1~3に記載の動画データ処理方法で分類した矩形領域データから、各矩形領域の所定の境界点の座標データを抽出すると共に、一定のフレームレートにおける前記所定の境界点の座標データを時系列に並べて、1つの連続写真データとして記録する。
【0020】
ここで、矩形領域データから、各矩形領域の所定の境界点の座標データを抽出すると共に、一定のフレームレートにおける所定の境界点の座標データを時系列に並べることによって、各矩形領域データの動きを、境界点の座標データという二次元情報の時系列変化のみで表すことが可能となる。即ち、各矩形領域データの動きを、X座標とY座標の二次元座標値からなる配列として表すことができる。このことによれば、矩形領域データより更にデータ容量の小さな数値情報として、動き情報を取り扱い可能となる。なお、ここでいう所定の境界点とは、低解像度の動画データの撮像範囲において、矩形領域の4つの角のうち、例えば、各矩形領域の面積重みから算出した重心からの距離が最も遠い角に該当する部分である。
【0021】
また、一定のフレームレートにおける所定の境界点の座標データを時系列に並べて、1つの連続写真データとして記録することによって、動画データの中に表れた一連の動きを、1つのデータとして取り扱いが可能となる。即ち、動き情報を1区切りにまとめて、1つのデータとして記録、保存、または、これに基づく再生を行うことができる。
【0022】
また、連続写真データを記録媒体にデジタルデータとして記録する場合には、動き情報を反映した動き座標数値の時系列データを文字符号化して、少ないデータ容量で保存することが可能となる。また、記録媒体を読み込み可能な端末において、デジタルデータに基づき、動き情報を様々な方法で出力、再生することが可能となる。なお、ここでいう記録媒体は、電磁的記録媒体及び紙媒体の両方を含むものである。
【0023】
また、動画データを撮像する撮像手段であるカメラのカメラ視点の座標データと、撮像手段の視点の並進移動座標、及び、撮像手段の回転移動座標で構成されたカメラ視点移動データとを、連続写真データと共に記録する場合には、撮像画像中で見られる対象物の動きに対して、被写体自体の動きと、撮像手段自体の動きとを区別することが可能となる。即ち、高解像度の撮像画像や、撮像手段が動きながら撮像した撮像画像における大きなフレームの中の、所定の低解像度の撮像画像の位置を示す情報が、カメラ視点の座標データである。また、被写体の一連の動きの撮像中に、カメラの視線方向の変化があった際に、カメラの撮像範囲の矩形の緯度差分または経度差分の極座標値が、カメラ視点移動データである。これらの情報に基づき、被写体自体が動いているのか、カメラが動いているのかが判別可能となる。
【0024】
また、上記の目的を達成するために、本発明の動画データの再生方法は、請求項4~6に記載の前記所定の境界点の座標データを時系列に並べたデータである境界点時系列データ、または、前記連続写真データを到達目標点とする運動シミュレーション演算に基づき、前記境界点時系列データまたは前記連続写真データを、力学的に弾性結合した格子座標配列である力学テクスチャの動きとして再生表示する。
【0025】
ここで、所定の境界点の座標データを時系列に並べたデータである境界点時系列データを、力学的に弾性結合した格子座標配列である力学テクスチャの動きとして再生表示することによって、動きの特徴を反映したデータ容量の小さな境界点時系列データから、入力された動き情報を、データ容量の小さな力学テクスチャで再生することができる。これにより、少ない演算処理量で、動き情報を出力可能となる。また、境界点時系列データを転送して、送信先で、力学テクスチャを再生することができる。なお、ここでいう力学的に弾性結合した格子座標配列である力学テクスチャとは、例えば、17×17のドット及びバネの集合体で表されるシミュレーターによる表示態様である。
【0026】
また、境界点時系列データを到達目標点とする運動シミュレーション演算に基づき、力学テクスチャの動きを再生表示することによって、運動学的に整合した、自然で滑らかな動きで力学テクスチャを動かすことが可能となる。
【0027】
また、力学テクスチャに、力学テクスチャより高解像度の画像テクスチャを貼り付けて、その動きを再生表示する場合には、高解像度の画像が動いているように、動き情報を出力することができる。即ち、例えば、境界点時系列データ、または、連続写真データを転送して、送信先で、高解像度の画像が動くような、質の高い再生表示を行うことも可能となる。
【0028】
また、撮像手段の視点の並進移動座標、及び、撮像手段の回転移動座標で構成されたカメラ視点移動データに基づき、力学テクスチャ及び画像テクスチャを組み合わせて、三次元配置での動きを再生表示する場合には、高解像度の画像の動きを三次元的に表すことができ、入力された動き情報を、より実際の動きに近い、リアルな表現で再生表示することが可能となる。即ち、二次元情報として記録された動画データを、三次元的に表示することができる。
【0029】
また、スケールが異なる2以上の力学テクスチャを合成して、その動きを再生表示する場合には、撮像された対象物における、スケールが異なる部位の動き情報を組み合わせて、1つ力学テクスチャの動きとして出力することができる。即ち、例えば、ヒトの全身を撮像した画像と、手の部分を撮像した画像の、それぞれに由来する力学テクスチャを合成して、全身から手の動きまでを表現した再生表示が可能となる。
【0030】
また、上記の目的を達成するために、本発明の動画データの再生方法は、請求項4~6に記載の前記所定の境界点の座標データを時系列に並べたデータである境界点時系列データ、または、前記連続写真データを、二次元のデジタル楽譜データに写像変換して、前記デジタル楽譜データに基づき音を再生演奏する。
【0031】
ここで、所定の境界点の座標データを時系列に並べたデータである境界点時系列データ、または、連続写真データを、二次元のデジタル楽譜データに写像変換して、デジタル楽譜データに基づき音を再生演奏することによって、入力された動き情報を、音に変換して再生表示することが可能となる。即ち、動きの特徴を、音の特徴として再生することができる。また、入力された動き情報を二次元のデジタル楽譜データとして保存することができる。
【発明の効果】
【0032】
本発明に係る動画データの記録方法及び動画データの再生方法は、低解像度のカメラ動画から抽出した動き情報を圧縮して、少ないデータ容量と、少ない演算処理量で、動き情報の記録、保存または再生が可能なものとなっている。
【図面の簡単な説明】
【0033】
【
図1】本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例を用いて、動画データの処理を行うデータ処理システムの構成を示す概略図である。
【
図2】動画データの入力、5つの矩形領域データの抽出、及び、各種の再生表示の一例を示す概略イメージ図である。
【
図3】所定の動きデータから抽出された1枚の連続写真データ(動き画像符号)を示す概略図である
【
図4】(a)及び(b)は、階層化合成による動きデータの再生表示を行う際の、全身及び左手の矩形領域データの例を示す概略図である。
【
図5】(a)及び(b)は、音声による動きデータの再生表示を行う際の、全身及び左手の矩形領域データ及び二次元のデジタル楽譜データの例を示す概略図である。
【
図6】本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例を用いた動画データの処理の主な流れを示すフロー図である。
【発明を実施するための形態】
【0034】
以下、本発明の実施の形態について図面を参照しながら説明し、本発明の理解に供する。
図1は、本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例を用いて、動画データの処理を行うデータ処理システムの構成を示す概略図である。
【0035】
[1.全体の装置構成について]
本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例を用いて動画データの処理を行うデータ処理システムAは、映像情報処理部1と、情報記録部2と、情報出力部3を有している(
図1参照)。
【0036】
このデータ処理システムAは、撮像手段4から入力された映像信号から、動きデータの特徴を5つの二次元時系列データで表して抽出する処理を行うシステムである。また、データ処理システムAは、5つの二次元時系列データに基づくデータを記録、保存、または再生する機能を有するシステムである。
【0037】
この、データ処理システムAは、汎用の情報処理機器に導入可能であり、組み込まれた情報処理機器は、本発明を実施するために必要な各情報処理機能を発揮する。なお、情報処理機器とは、CPU等の演算部と、RAMやROM等の記憶部と、液晶画面等の表示画面や、キーボードとカメラ等の入力部、スピーカー等の音源再生部、インターネット等との通信を制御する通信部等を備えたものである。例えば、汎用のパーソナルコンピュータ等(以下、「端末」と称する。)である。また、情報処理機器としては、例えば、既存の画像解析処理システムも対象となり、データ処理システムAがこれらに組み込まれて使用されるものでもよい。
【0038】
また、以下に示す構造は、本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例を実施するためのシステム構成であり、本発明の内容はこれに限定されるものではない。例えば、本発明の実施するために必要な各情報処理機能を外部サーバに持たせ、外部サーバで処理された各種情報を、端末側で再生表示させる態様であってもよい。
【0039】
ここで、映像情報処理部1は、撮像手段4から入力された映像信号から、動きデータの特徴を反映した、5つの二次元時系列データ、その連続写真データ121、または、これらの符号化データを生成する部分である。なお、連続写真データ121の詳細については後述する。
【0040】
また、撮像手段4は、例えば、監視カメラ、Webカメラ等、マーカーレス非接触入力映像信号として、撮像範囲の映像情報を取得する部材である。撮像手段は、後述する低解像度の動画データ(128×128ピクセル)が抽出可能なものであれば、その具体的な種類は特に限定されるものではない。
【0041】
また、情報記録部2は、映像情報処理部1が生成した5つの二次元時系列データ、その連続写真データ121、または、これらの符号化データを記録する部分である。
【0042】
また、情報出力部3は、映像情報処理部1が生成した5つの二次元時系列データ、その連続写真データ121、または、これらの符号化データを受信して、種々の方法で、再生表示する部分である。なお、情報出力部3による再生表示の詳細については後述する。
【0043】
また、データ処理システムAは、映像情報処理部1と、情報記録部2と、情報出力部3を、それぞれ異なる端末に備えた構成となっている。
【0044】
即ち、映像情報処理部1、情報記録部2、及び、情報出力部3は、各端末間で、5つの二次元時系列データ、その連続写真データ121、または、これらの符号化データの送受信が可能に構成されており、動きデータの特徴を反映した、データ容量の小さな二次元データについて、少ない演算処理量で、情報の通信、記録、保存、及び、再生を行うものとなっている。
【0045】
ここで、必ずしも、映像情報処理部1と、情報記録部2と、情報出力部3が、それぞれ異なる端末に備えられる必要はない。例えば、1つの端末において、全てを備える構成とすることもできる。また、映像情報処理部1及び情報記録部2を備える端末と、情報出力部3を備える端末の組み合わせや、映像情報処理部1を備える端末と、情報記録部2及び情報出力部3を備える端末の組み合わせが採用されてもよい。
【0046】
図1に示すように、映像情報処理部1は、信号受信部10と、抽出情報生成部11と、撮像情報抽出部12と、符号化処理部13、条件設定部14、及び、情報送信部15を有する。
【0047】
また、信号受信部10は、撮像手段4が撮像した映像情報に関する映像信号を受信する受信部である。
【0048】
また、抽出情報生成部11は、撮像手段4から受信した映像信号から、撮像範囲における動きのある領域を検知して、その動きの特徴を反映した二次元化データを生成する部分である。
【0049】
この抽出情報生成部11は、さらに、動画領域分類部110と、時系列処理部111と、連続写真生成部112を有する(
図1参照)。
【0050】
また、動画領域分類部110は、撮像手段4から受信した映像信号から、撮像範囲のン中で、被写体の動きのある領域を検知して、低解像度の動画データを抽出する部分である。この低解像度の動画データは、128×128ピクセルの解像度のデータ容量の小さな動画データである。
【0051】
また、低解像度の動画データの情報源となる映像信号は、例えば、ハイビジョン画像や、広範囲を撮像した監視カメラ等の撮像画像等、高解像度の撮像画像に由来する映像信号が採用しうる。また、情報源となる映像信号は、パン方向又はチルト方向等に駆動して、撮像範囲が変わる移動カメラの撮像画像に由来する映像信号も採用しうる。
【0052】
即ち、動画領域分類部110は、高解像度の撮像画像や、移動カメラの撮像画像における撮像範囲の中から、被写体の動きのある領域が含まれた撮像範囲を、低解像度の動画データとして抽出するように構成されている。
【0053】
また、動画領域分類部110は、低解像度の動画データの撮像範囲の中から、被写体の動きのある領域である動体領域を検知して、動体領域データとして抽出する部分である。また、動画領域分類部110は、検知した動体領域データに対してノイズ除去処理を行う部分である。
【0054】
ここで、動画領域分類部110による動体領域の検知とは、動画データを構成するフレームにおいて、前のフレームから、次のフレームにかけて、被写体が動いている差分のあるピクセルを検知する作業(時間変化するピクセル領域を抽出する作業)である。
【0055】
また、動画領域分類部110による動体領域データに対するノイズ除去処理とは、検知された動体領域データに対して、さらに、一定条件で、動きのある領域と、動きのない領域に区別して、任意の解像度の動画データの中から、動きのある領域の抽出を、より精度高く行う作業である。
【0056】
なお、動画領域分類部110による動体領域データの抽出及びノイズ除去処理は、既存の動画データ処理技術により行うことが可能であり、その詳細な説明は省略する。
【0057】
また、動画領域分類部110は、ノイズ除去処理した動体領域データについて、5つの矩形領域データに分割し、これらを、被写体の頭、右手、左手、右足及び左足の5つの部位に分類して、擬人化モデルの5つの矩形領域データ120としてトリミング抽出する部分である(
図2参照)。
【0058】
ここで、動画領域分類部110による5つの矩形領域データへの分割は、二分木アルゴリズムの反復に基づき、ノイズ除去処理した動体領域データを階層的に、5つの矩形領域データに分ける作業である。
【0059】
この5つの矩形領域データへの分割では、個々のピクセルに対して、閾値条件を設けて、閾値を超えるピクセル領域(複数のピクセルで構成された範囲)を矩形で囲んで、矩形に囲まれた領域を抽出する。この作業を、階層的に複数回行い、5つの矩形領域データとして抽出する。
【0060】
また、この5つの矩形領域データへ分割する作業は、動画データを構成するフレーム画像に対して、任意のフレーム間隔で行われる。例えば、フレームレートごとに1枚、1秒ごとに1枚等、所望の設定時間で分割作業を行うことができる。
【0061】
また、動画領域分類部110による擬人化モデルの5つの矩形領域データ120への分類は、分割作業で抽出した5つの矩形領域データに対して、その位置関係から、頭部矩形データ、右手矩形データ、左手矩形データ、右足矩形データ、及び、左足矩形データのそれぞれに区別して、5つの矩形領域データ120として分類する作業である。
【0062】
この分類後の5つの矩形領域データ120は、低解像度の動画データの撮像範囲の中で、被写体の動きに対して、その動きの特徴が見られた範囲(撮像画像の中で、大きな動きがあった範囲)に該当するものである。また、分類した5つの矩形領域データ120は、トリミング抽出され、次の時系列に並べる処理に供される。
【0063】
なお、
図2においては、上段左側の図が、動体領域データの検知の対象となる低解像度の動画データ100を模した図であり、上段右側の図が、左側の動画データの被写体の動きから抽出された5つの矩形領域データ120を模した図である。なお、
図2では、被写体として、ヒトの全身の代わりに、ヒトの手を撮像した画像と、ここから抽出された5つの矩形領域データ120を示している。
【0064】
ここで、必ずしも、ノイズ除去処理した動体領域データは、5つの矩形領域データに分割されるものではなく、6つ以上の矩形領域データに分割することも可能である。但し、動きデータを抽出する対象を、擬人化された動きに設定することを考慮すると、頭部、両手及び両足で矩形領域データを区別して、その全身の動きを捉えやすくなることから、少なくとも5つの矩形領域データに分割することが好ましい。
【0065】
さらに、6つ以上の矩形領域データに分割する際には、左手領域の中から、さらに指の動きデータを抽出するように、6つ目以降の矩形データとして、より細かい矩形領域を設定することも可能である。
【0066】
また、必ずしも、5つの矩形領域データが、頭部矩形データ、右手矩形データ、左手矩形データ、右足矩形データ、及び、左足矩形データのそれぞれに区別して、5つの矩形領域データ120として分類される必要はない。例えば、動きデータを抽出する対象に併せて、分類と区別する箇所の名称を設定することが可能である。例えば、分類対象が四つ足動物の動きであれば、頭部、左右前足、及び、左右後足の5つの矩形領域データを区別して分類することも可能である。
【0067】
また、
図1に示す時系列処理部111は、分類された5つの矩形領域データ120につき、各矩形領域の境界点の座標を抽出して、これらを時系列順に並べる処理を行う部分である。
【0068】
この矩形領域の「境界点」とは、矩形領域の4つの角のうち、5つの矩形領域データ120の重心からの距離が最も通り部分(角)である。また、境界点の座標とは、低解像度の動画データの撮像範囲における境界点のX座標及びY座標の情報である。また、ここでいう重心は、5つの矩形領域データ120の面積重みから算出することができる。
【0069】
また、各矩形領域の境界点の座標を時系列に並べる処理とは、低解像度の動画データにおいて、被写体の動きが検出された時間の中で、5つの矩形領域データ120の各境界点の座標を、経過時間の順番で並べる作業である。
【0070】
例えば、動きが検出された時間が10秒間で、5つの矩形領域データ120を、1秒ごとに抽出する設定条件であれば、5つの境界点のXY座標が10セット分、経過時間の順に並べられるものとなる。なお、時系列に並べる設定条件は、適宜設定することができる。
【0071】
この時系列処理部111の作業により、5つの矩形領域データ120について、各矩形領域データの動きを、境界点の座標データという二次元情報の時系列変化のみで表すことが可能となる。即ち、5つの矩形領域データ120に由来するX座標とY座標の動き座標数値と、その変化で表すことができる。
【0072】
ここで、矩形領域の境界点の設定として、5つの矩形領域データ120の重心の代わりに、上述した、5つの矩形領域データへの分割作業における、第一階層の矩形(一番初めの矩形領域の抽出時)の幾何学中心を用いることもできる。即ち、矩形領域の4つの角のうち、第一階層の幾何学中心からの距離が最も通り部分(角)を、矩形領域の境界点とすることもできる。なお、幾何学中心は、第一階層の矩形の中心点を意味する。
【0073】
また、
図1に示す連続写真生成部112は、5つの矩形領域データ120の境界点の二次元時系列データを、1枚の連続写真データ121にまとめた情報を生成する部分である。1枚の連続写真データ121とは、低解像度の動画データから抽出された被写体の一連の動きにおける、5つの矩形領域データ120の境界点の二次元時系列データを、1枚の画像上に表したものである(
図2の中段左側の図参照)。
【0074】
この1枚の連続写真データ121に表す「一連の動き」とは、被写体が動きだす前の静止状態から、動いている状態、及び、被写体の動きが止まる静止状態までの、一連の流れを、1つにまとめたものが基本の構成となる。
【0075】
また、1枚の連続写真データ121に表す「一連の動き」は、処理対象となる動きデータの時間が長い場合には、一定時間ごとに分けて、複数の連続写真データ121により、全体の動きを表すこともできる。
【0076】
例えば、8秒ごとに1枚の連続写真データ121を生成して、これを複数枚にわたって生成することで、長時間の動作を連続写真データとして取り扱うことが可能となる。なお、1枚の連続写真データ121を生成する時間条件は、適宜設定することができる。
【0077】
このように、低解像度の動画データから検知された動きデータは、5つの矩形領域データ120の境界点の二次元時系列データ、または、1枚の連続写真データとして、その動きの特徴を反映した二次元化情報として取扱いが可能となる。即ち、元々の動画データに比べて、データ容量が大幅に圧縮された情報として、通信、記録、保存、または再生表示することができる。
【0078】
また、
図1に示す撮像情報抽出部12は、撮像手段4の映像信号から、カメラ視点の座標データ及びカメラ視点移動データを抽出する部分である。即ち、撮像情報抽出部12により、移動カメラの撮像範囲について、被写体自体の動きと、カメラ自体の動きとを区別するための情報を抽出する。
【0079】
ここで、カメラ視点の座標データとは、撮像画像の範囲の中で、撮像手段の視点中心がどこにあったかを示す情報である。例えば、高解像度のハイビジョン画像の中で、小さな範囲(128×128)の場所を見たときに、その小さな範囲がハイビジョン画像の中で、どの位置にあったかという情報である。また、撮像手段4が移動カメラである場合に、そのカメラがどこを向いている時に、撮影した画像かを示す情報である。
【0080】
また、カメラ視点移動データとは、撮像手段の視点の並進移動座標、及び、撮像手段の回転移動座標で構成される情報である。例えば、被写体の一連の動きの撮像中に、撮像手段4(移動カメラ)の視線方向の変化があった際に、その撮像範囲の矩形の緯度差分または経度差分の極座標値が、撮像手段のカメラ視点移動データとなる。
【0081】
この撮像情報抽出部12が抽出した撮像手段4のカメラ視点の座標データ及びカメラ視点移動データは、それぞれ、二次元情報として、これに対応するフレームにおける、5つの矩形領域データ120の境界点の座標の情報に紐づけられて、動きデータの情報として取り扱われる。
【0082】
この5つの矩形領域データ120の境界点の座標の情報と、撮像手段4のカメラ視点の座標データ及びカメラ視点移動データを組み合わせた、7組の二次元化情報について、後述するように、符号化(デジタル記録)することができる。
【0083】
なお、撮像手段4のカメラ視点の座標データ及びカメラ視点移動データは、撮像手段4が、撮像範囲が動かない、固定設置カメラの場合には不要となる。即ち、後述するように、5つの矩形領域データ120の境界点の座標の情報を、128×128の圧縮符号に落とし込むことを考慮すると、固定設置カメラの場合、(128×128×5)×(動きフレーム数)の抽出データが、動きデータとしての記録対象となる。また、撮像手段4が移動カメラの場合、撮像手段4のカメラ視点の座標データ及びカメラ視点移動データも加えて、(128×128×7)×(動きフレーム数)の抽出データが、動きデータとしての記録対象となる。
【0084】
また、
図1に示す符号化処理部13は、被写体の一連の動きを撮像した動画データを構成する各フレームにおける、5つの矩形領域データ120の境界点の座標の情報を、文字コードに変換して、圧縮符号化(文字符号化)する部分である。
【0085】
即ち、頭部、両手、両足の5つの矩形領域データ120の境界点の座標は、一連の動きを撮像した動画データのフレームごとに、5組の二次元座標からなるため、この座標の情報(座標値)を、文字コードに変換することができる。
【0086】
ここで、5つの矩形領域データ120の境界点の座標は、低解像度の動画データ(128×128ピクセル)から抽出されるため、境界点の座標値の文字コードへの変換も、128×128の整数値座標が基本となる。
【0087】
この境界点の座標である128×128の整数値座標を、既知のエンコード方式の文字種類に基づき文字表現することで、文字コードへの変換(文字符号化)が行われる。例えば、base64形式をUNICODEまで拡張した文字種類により、128×128の整数値座標を文字符号化することができる。
【0088】
例えば、一例として、
図3に示す、所定の動きデータから抽出された1枚の連続写真データ121a(動き画像符号)を文字符号化した内容を表1に示す。なお、本発明では、上述したように128×128の整数値座標を基本とするが、ここに示す一例では、説明の便宜上、文字化けを避けて記述するため、64×64の解像度にまるめた事例を説明する。即ち、表1では、base64形式の64文字を利用して、1枚の連続写真データ121aの座標整数値が、256種類の文字コードで表現されている。
【0089】
また、5つの矩形領域データ120の境界点の座標が文字符号化される際、1フレームにつき、頭部、右手、左手、右足、及び左足の、それぞれの矩形領域データの境界点の水平座標の対応する文字と、その垂直座標に対応する文字の2文字ずつ、合計10文字に文字コード変換される。また、この1フレームあたり合計10文字の文字コードが、一連の動きに含まれるフレーム数だけ連結される。
【0090】
また、この表1に示す文字符号は、縦方向に5種類の境界点を並べ、横方向に、毎フレーム2文字ずつ追加される形式で表示することで、可読性を高めた記録形式としている。
【0091】
また、一旦、文字符号化した情報は、頻出値に短い符号を割り当てたり、ランレングス圧縮したりする等、通常の符号圧縮手法を用いることが可能となる。これにより、さらに、データ容量を小さくして取り扱うことが可能となる。
【0092】
【0093】
このように、5つの矩形領域データ120の境界点の座標を、1フレームごと、文字コード変換して、一連の動きのフレーム数だけ連結して記録することで、被写体の一連の動きを撮像した動画データを、文字符号化した情報として、圧縮することができる。この文字符号化した情報として、情報を取り扱うことで、より少ないデータ容量と、少ない演算処理量で、動き情報の記録、保存、通信または再生を行うことが可能となる。
【0094】
また、
図1に示す条件設定部14は、本発明に関する各種情報処理の条件を適宜設定、または保存する部分である。例えば、フレーム画像において、5つの矩形領域データへ分割する作業における閾値条件や、1枚の連続写真データ121を生成する時間条件を、所望の条件に設定することができる。
【0095】
また、
図1に示す情報送信部15は、映像処理部1を有する端末から、被写体の動きの特徴を表した、5つの矩形領域データ120の境界点の座標の二次元時系列データ、その連続写真データ121、または、これらの文字符号化データを、外部の端末に送信する部分である。即ち、情報送信部15は、各種情報を、情報記録部2を有する端末や、情報出力部3を有する端末に送信する。
【0096】
また、
図1に示す情報記録部2は、5つの矩形領域データ120の境界点の座標の二次元時系列データ、その連続写真データ121、または、これらの文字符号化データを、記録する部分である。
【0097】
また、
図1に示す情報出力部3は、5つの矩形領域データ120の境界点の座標の二次元時系列データ、その連続写真データ121、または、これらの文字符号化データを受信して、各種の方法で再生表示する部分である。以下、二次元化された動きデータを再生表示する具体的な内容を説明する。
【0098】
なお、情報出力部3における各種の動きデータの再生表示は、一連の動きを表した連続写真データ121、または、これらの文字符号化データだけでなく、デジタル的に通信可能であれば、5つの矩形領域データ120の境界点の座標の二次元時系列データ(以下、「境界点の二次元時系列データ」と称する)を用いて、再生表示を行うことが可能である。
【0099】
[擬人化モデル]
まず、情報出力部3で、境界点の二次元時系列データ等を受信して、これらのデータに基づき、擬人化モデル30の動きとして、検知した一連の動きを再生表示することができる(
図1の中段中央の図参照)。
【0100】
この擬人化モデル30は、頭部、両手及び両足の各矩形領域データ120の境界点の座標と、座標を中心とした円形と、境界点の座標を線で繋いだ、人型を模したシミュレーターである。また、擬人化モデル30は、肘、胸、腰、膝等の中間関節領域を補って表示した態様としてもよい。検知した一連の動きを、擬人化モデル30の動きで再生表示することができる。
【0101】
[力学テクスチャ]
また、情報出力部3で、境界点の二次元時系列データ等を受信して、これらのデータに基づき、低解像度の力学テクスチャ31の動きとして、検知した一連の動きを再生表示することができる(
図1の中段右側の図参照)。
【0102】
この力学テクスチャ31は、17×17のドット及びバネの集合体で表されるシミュレーターである。また、力学テクスチャ31の動きは、一連の動きにおける境界点の二次元時系列データ、または、1枚の連続写真データ121を到達目標点(動きの目標)とする運動シミュレーション演算に基づき、各ドットが動くものとなっている。
【0103】
即ち、境界点の二次元時系列データ等の動きデータを目指して、運動学的に整合した動きに落とし込んで、力学テクスチャ31が動くようにすることで、滑らかな自然な動きとして再生表示することができる。
【0104】
換言すれば、境界点の二次元時系列データ等の動きデータを到達目標点とする運動シミュレーション演算を行うことで、17×17のドットのように、低解像度のシミュレーターを用いても、充分きれいな動きとして再生可能となる。
【0105】
ここで、本発明における力学テクスチャは、17×17のドット及びバネの集合体で表されるシミュレーターに限定されるものではなく、低解像度のシミュレーターであれば、その内容は特に限定されるものではない。
【0106】
[画像テクスチャ写像]
また、上述した、低解像度の力学テクスチャ31に対して、高解像度の細かい画像(テクスチャ)を貼り付けて生成した画像テクスチャ写像32の動きとして、検知した一連の動きを再生表示することができる(
図1の下段右側の図参照)。
【0107】
この画像テクスチャ写像32の動きは、力学テクスチャ31を動かすことで、高解像度の画像が動いているように再生表示ができる。即ち、低解像度の力学テクスチャ31を用いて、画像だけを高品質にして、動きデータを再生できる。
【0108】
また、更なる態様として、所望の静止画像データを取り込み、力学テクスチャ31の動きのデータと合成することで静止画像を動かすような再生表示が可能となる。
【0109】
このように、本発明では、動きデータと、これを再生表示する際の見た目の画像データを分けて、映像信号から抽出した被写体の動きの特徴の再生処理を行うことができる。このことによれば、被写体の一連の動きから抽出された動きの特徴を反映したデータの容量を小さく抑えることで、転送が容易になり、また、動きデータを受信した側の端末等において、所望の見た目で動きデータを再生表示することが可能となる。
【0110】
[三次元再生写像]
また、上述した、画像テクスチャ写像32と、撮像手段4(カメラ)のカメラ視点移動データを組み合わせることで、画像テクスチャ写像32を三次元的に配置して、カメラの向きに合わせて再生することができる。この場合、被写体の動きにあった、よりリアルな三次元再生写像33での再生表示が可能になる(
図1の下段左側の図参照)。
【0111】
[階層化合成]
また、本発明では、スケールが異なる2以上の力学テクスチャについて、階層化合成して、1つにまとめて、その動きを再生表示することも可能である。
【0112】
例えば、
図4(a)及び
図4(b)に示すように、ヒトの全身の動きを撮像した低解像度の動画データ100aに対して、頭部、両手及び両足の5つの矩形領域データ120aを抽出すると共に、左手矩形領域データに対して、さらに、複数の矩形領域データ120bへと分類し、左手の動きとしてトリミング抽出する。
【0113】
そして、全身(頭部、両手及び両足)の5つの矩形領域データ120aと、左手の矩形領域データ120bのそれぞれの境界点の二次元時系列データを抽出して、それぞれの力学テクスチャを生成し、スケールの異なる2つの力学テクスチャを連結合成(階層化合成)することができる。
【0114】
これにより、スケールが異なる複数の矩形領域データに由来する動きデータを重ね合わせた、ダイナミックレンジの高い、高解像度の合成再生が可能となる。
【0115】
[音源再生]
また、本発明では、被写体の動きの特徴を反映した動きデータを、音に変換して再生することも可能である。
【0116】
ここでは、矩形領域データの境界点の二次元時系列データ、または、1枚の連続写真データ121を、音階とビート等の二次元のデジタル楽譜データに写像変換して、このデジタル楽譜データに基づき音を、音響シンセサイザー等で再生演奏することによって、入力された動きデータを、音に変換して再生することができる。
【0117】
即ち、動きの特徴を、音の特徴として再生することができる。また、入力された動き情報を二次元のデジタル楽譜データとして保存することも可能となる。
【0118】
例えば、
図5(a)及び
図5(b)に示すように、ヒトの全身の動きを撮像した低解像度の動画データ100bに対して、頭部、両手及び両足の5つの矩形領域データ120bを抽出し、その境界点の二次元時系列データを抽出して、二次元のデジタル楽譜データ34に写像変換することで、二次元時系列データの内容に応じた音を再生することができる。
【0119】
以上のように、本発明を適用した動画データの再生方法では、動きの特徴を反映した境界点の二次元時系列データ等に基づき、種々の方法で、動きデータを再生することができる。
【0120】
[動画データの処理の流れ]
以下、
図6を参照しながら、本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法の一例に関する、動画データの処理の主な流れを説明する。
【0121】
まず、撮像手段4で撮像した映像情報の映像信号を、信号受信部10で受信する(ステップS1)。
【0122】
次に、動画領域分類部110が、撮像手段4から受信した映像信号から、撮像範囲の中で、被写体の動きのある動体領域を検知して、低解像度の動画データ(128×128ピクセル)を抽出する(ステップS2)。また、検知した動体領域データに対してノイズ除去処理を行う。
【0123】
また、動画領域分類部110が、ノイズ除去処理した動体領域データについて、5つの矩形領域データに分割し、これらを、被写体の頭、右手、左手、右足及び左足の5つの部位に分類して、擬人化モデルの5つの矩形領域データ120としてトリミング抽出する(ステップS3)。
【0124】
次に、時系列処理部111が、分類された5つの矩形領域データ120につき、各矩形領域の境界点の座標を抽出する(ステップS4)。被写体の一連の動きの動画データにつき、これを構成するフレームごとに、5つの矩形領域データ120の境界点の座標を抽出する。また、抽出した5つの矩形領域データ120の境界点の座標を時系列順に並べる(二次元時系列データの生成)。
【0125】
続いて、連続写真生成部112が、5つの矩形領域データ120の境界点の座標の二次元時系列データを、1枚の画像データにまとめて、1枚の連続写真データ121を生成する(ステップS5)。なお、一連の動きが長い場合には、一定時間ごとに、1枚の連続写真データ121を生成し、複数枚の連続写真データ121で一連の動きを表す。
【0126】
また、撮像手段4が移動カメラである場合には、撮像情報抽出部12が、撮像手段4の映像信号から、撮像手段4のカメラ視点の座標データ及びカメラ視点移動データを抽出する(ステップS6)。
【0127】
また、符号化処理部13が、被写体の一連の動きの動画データを構成する各フレームにおける、5つの矩形領域データ120の境界点の座標の情報を、文字コードに変換して、圧縮符号化(文字符号化)する(ステップ7)。また、撮像手段4のカメラ視点の座標データ及びカメラ視点移動データを抽出した場合には、これらの座標の情報についても、文字コードに変換して、圧縮符号化する。
【0128】
ここまでの流れで、被写体の一連の動きの動画データから、その動きの特徴を反映した5つの矩形領域データ120の境界点の二次元時系列データ、連続写真データ121及び文字符号化したデータを生成することができる。
【0129】
この境界点の二次元時系列データ、連続写真データ121及び文字符号化したデータは、情報送信部15を介して、情報記録部2を有する端末に転送して、情報記録部2に保存することができる(ステップ8)。
【0130】
また、境界点の二次元時系列データ、連続写真データ121及び文字符号化したデータは、情報送信部15を介して、情報出力部3を有する端末に転送して、情報記録部3にて、種々の態様で、再生表示することができる(ステップ9)。
【0131】
[発明のメリット]
本発明を適用した動画データ処理方法、動画データの記録方法及び動画データの再生方法を用いることで、以下のような利点が生じる。
【0132】
まず、撮像手段4が撮像した映像信号から、動きの特徴を反映した5つの矩形領域データ120の境界点の座標の二次元時系列データの抽出においては、従前の機械学習システムのような学習教師データの準備が不要となる。即ち、撮像手段4が撮像した入力データに対して、都度、その一連の動きの特徴を反映した動きデータを、1:1で抽出して、保存することができる。また、被写体と特定することで、個人動作の履歴の情報として、動きデータを記録可能となる。
【0133】
また、特定の動作(舞踊所作または花押運筆)を決め、その動作を記録、保存することで、個人の識別や個人認証の技術として利用することができる。
【0134】
また、低解像度の動画データから動きデータの抽出を行い、二次元化した動きデータ、または、文字符号化したデータを転送して、低解像度の力学テクスチャで再生表示することができるため、データの入力処理から出力処理までのストリーム通信が可能となる。これにより、リアルタイムで流れるような、高速性に優れたデータ処理が実現できる。
【0135】
また、被写体の一連の動きを1枚の連続写真データ121として表示印刷ができる。この1枚の連続写真データ121は、例えば、音楽の楽譜のように、これを見れば、一連の動きの内容が分かるような視認性を有する情報となる。
【0136】
また、連続写真データ121を印刷する装置をモーションプリンタとして位置付けて、印刷装置や再生装置を、専用のハードウェア化することができる。
【0137】
また、抽出された動きデータは、5組または7組の二次元情報列(画像)であるため、従前のポリゴンアニメやMPEG(Moving Picture Experts Group)等の動画規格に比べて、データ容量を著しく小さくすることができる。また、シンプルな固定長のフォーマットにできるので、可搬性に優れたものとなる。
【0138】
さらには、5つの矩形領域データ120を、ヒトの全身ではなく、5本指として分類することで、カメラで5本指の動きを、文字入力動作等に変換する非接触型マウスパッドとして活用することが可能である。
【0139】
また、手の動きだけでなく、顔のパーツの動き、即ち、表情の変化から動きデータを抽出することができる。そのため、手の動きを介さず、表情の変化を、文字入力動作等に変換する非接触型の入力機器とすることができる。
【0140】
さらに、連続写真データの内容ごとに、意味メタデータと組み合わせることで、特定の動きで意味を伝える、コミュニケーションのツールとして用いることもできる。このように、抽出した動きデータを、様々な態様で出力することで、拡張性を有する情報として活用することができる。
【0141】
以上のように、本発明を適用した動画データの記録方法及び動画データの再生方法は、低解像度のカメラ動画から抽出した動き情報を圧縮して、少ないデータ容量と、少ない演算処理量で、動き情報の記録、保存または再生が可能なものとなっている。
【符号の説明】
【0142】
A データ処理システム
1 映像情報処理部
10 信号受信部
100 低解像度の動画データ
11 抽出情報生成部
110 動画領域分類部
111 時系列処理部
112 連続写真生成部
12 撮像情報抽出部
120 矩形領域データ
121 連続写真データ
13 符号化処理部
14 条件設定部
15 情報送信部
2 情報記録部
3 情報出力部
31 力学テクスチャ
32 画像テクスチャ写像
33 三次元再生写像
34 二次元のデジタル楽譜データ
4 撮像手段