(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-17
(45)【発行日】2023-04-25
(54)【発明の名称】映像変換方法、装置およびプログラム
(51)【国際特許分類】
H04N 5/926 20060101AFI20230418BHJP
A63B 69/00 20060101ALI20230418BHJP
H04N 5/915 20060101ALI20230418BHJP
G06T 7/20 20170101ALI20230418BHJP
【FI】
H04N5/926 100
A63B69/00 A
H04N5/915
G06T7/20 300
(21)【出願番号】P 2020012385
(22)【出願日】2020-01-29
【審査請求日】2022-01-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】田坂 和之
【審査官】松元 伸次
(56)【参考文献】
【文献】特開2004-120384(JP,A)
【文献】特開2017-074350(JP,A)
【文献】特開2012-048362(JP,A)
【文献】特開2019-161350(JP,A)
【文献】特開2009-065323(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61B5/06-5/22
A63B69/00-71/16
G06T1/00-1/40
3/00-7/90
G06V10/00-20/90
30/418
40/16
40/20
H04N5/76-5/775
5/80-5/956
(57)【特許請求の範囲】
【請求項1】
人物を被写体とする動画映像のデータ量を変換する映像変換装置において、
各フレームから人物の骨格情報を抽出する抽出手段と、
前記動画映像に基づいて人物の動きの種別を判定する手段と、
前記動きの種別の判定結果に基づいて評価部位を決定する手段と、
骨格情報に基づいて
、前記決定した評価部位のフレーム間での動き量を計算する計算手段と、
前記評価部位の動き量に基づいて解析区間を決定する決定手段と、
非解析区間のビットレートを解析区間のビットレートよりも低いビットレートに変換する変換手段とを具備しことを特徴とする映像変換装置。
【請求項2】
前記変換手段は、前記解析区間のビットレートを維持したまま非解析区間のビットレートを低下させることを特徴とする請求項1に記載の映像変換装置。
【請求項3】
前記変換手段は、前記解析区間および非解析区間の各ビットレートを、非解析区間のビットレートが解析区間のビットレートよりも低くなるように、いずれも低下させるようにしたことを特徴とする請求項1に記載の映像変換装置。
【請求項4】
前記変換手段は、非解析区間のフレームレートを解析区間のフレームレートよりも低いフレームレートに変換することを特徴とする請求項1ないし3のいずれかに記載の映像変換装置。
【請求項5】
評価部位の指定を受け付ける手段を具備し、
前記計算手段は、指定された評価部位の動き量を計算することを特徴とする請求項1ないし4のいずれかに記載の映像変換装置。
【請求項6】
前記決定手段は、評価部位の動き量が所定の閾値を超えている区間を解析区間に決定することを特徴とする請求項1ないし
5のいずれかに記載の映像変換装置。
【請求項7】
前記決定手段は、
評価部位の動き量が所定の第1の閾値を超えたタイミングを解析区間の開始タイミングに決定し、
評価部位の動き量が所定の第2の閾値以下となったタイミングを解析区間の終了タイミングに決定し、
前記第1の閾値が第2の閾値よりも低いことを特徴とする請求項1ないし
5のいずれかに記載の映像変換装置。
【請求項8】
前記決定手段は、評価部位の動き量が前記所定の閾値を超えたタイミングよりも所定の時間だけ前のタイミングを解析区間の開始タイミングとみなすことを特徴とする請求項
6に記載の映像変換装置。
【請求項9】
コンピュータが、人物を被写体とする動画映像のデータ量を変換する映像変換方法において、
各フレームから人物の骨格情報を抽出し、
前記動画映像に基づいて人物の動きの種別を判定し、
前記動きの種別の判定結果に基づいて評価部位を決定し、
骨格情報に基づいて
、前記決定した評価部位のフレーム間での動き量を計算し、
前記評価部位の動き量に基づいて解析区間を決定し、
非解析区間のビットレートを解析区間のビットレートよりも低いビットレートに変換することを特徴とする映像変換方法。
【請求項10】
人物を被写体とする動画映像のデータ量を変換する映像変換プログラムにおいて、
各フレームから人物の骨格情報を抽出する手順と、
前記動画映像に基づいて人物の動きの種別を判定する手順と、
前記動きの種別の判定結果に基づいて評価部位を決定する手順と、
骨格情報に基づいて
、前記決定した評価部位のフレーム間での動き量を計算する手順と、
前記評価部位の動き量に基づいて解析区間を決定する手順と、
非解析区間のビットレートを解析区間のビットレートよりも低いビットレートに変換する手順と、
をコンピュータに実行させる映像変換プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画の映像を解析する映像変換方法、装置およびプログラムに係り、特に、動画映像を高品質での解析が望ましい解析区間とそれ以外の非解析区間とに分類し、分類結果に応じてビットレートを変換する映像変換方法、装置およびプログラムに関する。
【背景技術】
【0002】
野球、ラグビーあるいはゴルフのように骨格の動きが上達を左右するスポーツでは、体全体の動きのみならず骨格の位置や動きが重要となる。したがって、その上達には専門化の指導が有効となることが多い。しかしながら、スタジオやスクールに出向いて専門家から指導を受けるためには、相応のコスト負担を強いられ、また時間的かつ場所的な拘束も増すことになる。
【0003】
特許文献1には、カメラ映像に映る人物の運動を認識する認識部と、認識された運動の有効性に応じて異なる仮想オブジェクトを入力画像に重畳する表示制御部とを備え、認識部により認識される運動の有効性を示すスコアを算出し、算出結果を入力画像に重畳することで、運動の有効性に関するフィードバックを目に見える形でユーザに呈示する画像処理装置が提案されている。
【0004】
しかしながら、特許文献1では、ユーザのトレーニング映像をユーザ自身が確認し、更には重畳表示される仮想オブジェクトの動きと比較することでトレーニングを主観的に評価することが可能になるものの、専門家の具体的な指導を受けることはできない。したがって、ユーザ自身が専門知識を有していない限り有効はトレーニングを実現できない。
【0005】
このような技術課題に対して、本発明の発明者等は、複数のトレーニングメニューを記憶するデータベースからトレーニングメニューを選択し、選択されたトレーニングメニューをユーザ端末へ配信し、トレーニングメニューを実施するユーザを撮影したトレーニング映像をユーザ端末から取得し、トレーニング映像からユーザの骨格情報を抽出し、骨格情報に基づいてユーザのトレーニングを評価し、トレーニングの評価をユーザ端末へ配信するトレーニング支援方法および装置を発明し、特許出願した(特許文献2)。
【0006】
特許文献3には、車両に搭載される映像記録装置において、駐車中に車両周囲を撮影するカメラからの映像信号に基づいて記録用の映像データを生成する一方、カメラによる撮影映像を解析し、その映像変化に基づき映像データの映像品質を制御することにより、記憶ユニットに格納する映像データの量を制御する技術が開示されている。
【0007】
特許文献4には、情報処理装置と接続可能な電子黒板において、ユーザからの画面に対する入力を受け付け、情報処理装置から映像信号を取得して画像データを生成し、ユーザからの入力を受け付けた場合に画像データのフレームレートを入力受け付け前よりも低い値に変更する技術が開示されている。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2013-103010号公報
【文献】特願2018-181304号
【文献】特開2019-161350号公報
【文献】特開2019-159261号公報
【非特許文献】
【0009】
【文献】Z. Cao, T. Simon, S. Wei and Y. Sheikh, "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 1302-1310.
【発明の概要】
【発明が解決しようとする課題】
【0010】
特許文献2によれば、ユーザは、配信されたトレーニングメニューを実施する自身のトレーニング映像をユーザ端末で撮影、送信するだけで、専門家が常駐するトレーニングジム等の施設に出向くことなく、自宅などで専門的なトレーニングを手軽に受けられるようになる。
【0011】
一方、特許文献2ではトレーニング映像をユーザ端末で撮影して送信する必要があるが、動画はデータ量が大きいのでトラヒック量が増加する。また、評価側でも多数のユーザから同時刻に動画を配信されるとネットワークに輻輳が生じ、サーバの負荷が増大する。
【0012】
特許文献3,4によれば動画映像のデータ量が削減できるので、映像の伝送によるネットワークの輻輳やサーバの負荷増大を軽減できる。しかしながら、データ量を削減すると映像品質が低下するため、その解析に支障をきたす可能性があった。
【0013】
本発明の目的は、上記の技術課題を解決し、動画映像の解析に支障をきたさない様に、そのビットレートを低下させてデータ量を削減できる映像変換方法、装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0014】
上記の目的を達成するために、本発明は、人物を被写体とする動画映像のデータ量を変換する映像変換装置において、以下の構成を具備した点に特徴がある。
【0015】
(1) 各フレームから人物の骨格情報を抽出する抽出手段と、骨格情報に基づいて所定の評価部位のフレーム間での動き量を計算する計算手段と、前記評価部位の動き量に基づいて解析区間を決定する決定手段と、非解析区間のビットレートを解析区間のビットレートよりも低いビットレートに変換する変換手段とを具備した。
【0016】
(2) 変換手段は、解析区間のビットレートを維持したまま非解析区間のビットレートを低下させるようにした。
【0017】
(3) 変換手段は、解析区間および非解析区間の各ビットレートを、非解析区間のビットレートが解析区間のビットレートよりも低くなるように、いずれも低下させるようにした。
【0018】
(4) 変換手段は、非解析区間のフレームレートを解析区間のフレームレートよりも低いフレームレートに変換するようにした。
【0019】
(5) 評価部位の指定を受け付ける手段を具備し、計算手段は、指定された評価部位の動き量を計算するようにした。
【0020】
(6) 動画映像に基づいて人物の動きの種別を判定する手段と、動きの判定結果に基づいて評価部位を決定する手段とを具備し、計算手段は、決定された評価部位の動き量を計算するようにした。
【0021】
(7) 決定手段は、評価部位の動き量が所定の第1の閾値を超えたタイミングを解析区間の開始タイミングに決定し、評価部位の動き量が所定の第2の閾値以下となったタイミングを解析区間の終了タイミングに決定し、第1の閾値を第2の閾値よりも低くした。
【0022】
(8) 決定手段は、評価部位の動き量が所定の閾値を超えている区間を解析区間に決定する際、評価部位の動き量が閾値を超えたタイミングよりも所定の時間だけ前のタイミングを解析区間の開始タイミングとみなすようにした。
【発明の効果】
【0023】
(1) 人物を被写体とする動画映像のデータ量を変換する映像変換装置において、各フレームから人物の骨格情報を抽出する抽出手段と、骨格情報に基づいて所定の評価部位のフレーム間での動き量を計算する計算手段と、前記評価部位の動き量に基づいて解析区間を決定する決定手段と、非解析区間のビットレートを解析区間のビットレートよりも低いビットレートに変換する変換手段とを具備したので、動画映像の解析に支障をきたすことなく動画映像のデータ量を削減できるようになる。
【0024】
(2) 変換手段は、解析区間のビットレートを維持したまま非解析区間のビットレートを低下させるようにしたので、解析区間の映像品質を低下させることなく動画映像のデータ量を削減できるようになる。
【0025】
(3) 変換手段は、解析区間および非解析区間の各ビットレートを、非解析区間のビットレートが解析区間のビットレートよりも低くなるように、いずれも低下させるようにしたので、解析区間の映像品質の低下を抑えながら動画映像のデータ量を削減できるようになる。
【0026】
(4) 変換手段は、非解析区間のフレームレートを解析区間のフレームレートよりも低いフレームレートに変換するようにしたので、解析区間の映像品質を低下させることなく動画映像のデータ量を削減できるようになる。
【0027】
(5) 評価部位の指定を受け付ける手段を具備し、計算手段は、指定された評価部位の動き量を計算するようにしたので、評価部位をユーザの意志で設定できるようになる。
【0028】
(6) 動画映像に基づいて人物の動きの種別を判定する手段と、動きの判定結果に基づいて評価部位を決定する手段とを具備し、計算手段は、決定された評価部位の動き量を計算するようにしたので、ユーザに専門知識や負担を強いることなく最適な評価部位を自動的に設定することができ、最適な解析区間を決定できるようになる。
【0029】
(7) 決定手段は、評価部位の動き量が所定の第1の閾値を超えたタイミングを解析区間の開始タイミングに決定し、評価部位の動き量が所定の第2の閾値以下となったタイミングを解析区間の終了タイミングに決定し、第1の閾値を第2の閾値よりも低くしたので、解析区間の開始タイミングを適切に設定できるようになる。
【0030】
(8) 決定手段は、評価部位の動き量が所定の閾値を超えている区間を解析区間に決定する際、評価部位の動き量が閾値を超えたタイミングよりも所定の時間だけ前のタイミングを解析区間の開始タイミングとみなすようにしたので、解析区間の開始タイミングを適切に設定できるようになる。
【図面の簡単な説明】
【0031】
【
図1】本発明が適用される映像分析システムの構成を示したブロック図である。
【
図2】ローカル端末の第1実施形態の構成を示した機能ブロック図である。
【
図4】解析区間の決定方法を示した図(その1)である。
【
図5】解析区間の決定方法を示した図(その2)である。
【
図6】解析区間の決定方法を示した図(その3)である。
【
図7】解析区間の決定する閾値の設定例を示した図である。
【
図8】ローカル端末の第2実施形態の構成を示した機能ブロック図である。
【発明を実施するための形態】
【0032】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明が適用される映像分析システムの構成を示したブロック図であり、カメラおよび通信機能に加えて本発明に係る動画変換機能を備えたローカル端末1と、ローカル端末1が撮影したカメラ映像を、例えばWi-Fi、無線基地局BSおよびネットワークNW経由で取得し、分析する映像分析サーバ2とを主要な構成としている。ただし、ローカル端末1の処理能力が十分に高ければ、ローカル端末1のみで映像分析システムを構成することもできる。
【0033】
ローカル端末1は、運動、演舞あるいはトレーニング等するユーザのカメラ映像を骨格レベルで解析し、ユーザの動きを詳細に分析すべき解析区間とそれ以外の非解析区間とに分類する。ローカル端末1は更に、非解析区間のビットレートが解析区間のビットレートよりも低下するようにカメラ映像を変換し、変換後カメラ映像を蓄積し、更には映像分析サーバ2へ配信する。
【0034】
本実施形態では、非解析区間のビットレートが減ぜられた結果、変換後のカメラ映像のデータ量は変換前のカメラ映像のデータ量よりも減ぜられるので、ローカル端末1がカメラ映像の保存に要する記憶容量を減じ、またローカル端末1から映像分析サーバ2への映像配信に係るトラヒック量を減じることができる。
【0035】
前記映像分析サーバ2では、受信した変換後カメラ映像を専門家等がモニター上で確認する。このとき、解析区間の映像はビットレートが低下していないので十分な映像品質を維持している。したがって、専門家等は高品位の映像を参照しながらユーザの動きを細かく分析し、正確なアドバイスやコーチングをユーザに提供できるようになる。
【0036】
図2は、前記ローカル端末1の第1実施形態の機能ブロック図であり、映像取得部101、人物領域抽出部102、骨格情報抽出部103、動き量計算部104、解析区間決定部105および映像変換部106を主要な構成としている。
【0037】
このようなローカル端末1は、汎用のコンピュータやモバイル端末に、後述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはプログラム化した専用機や単能機としても構成できる。本実施形態では、ローカル端末1をスマートフォンやタブレット端末で代用する場合を例にして説明する。
【0038】
前記映像取得部101は、ローカル端末1のカメラ機能が撮影したユーザのカメラ映像(動画像)をフレーム単位で取得する。人物領域抽出部102は、カメラ映像の各フレーム画像から人物領域を抽出する。人物領域の抽出には、例えばSSD (Single Shot Multibox Detector) を用いることができる。
【0039】
骨格情報抽出部103は、フレーム画像の人物領域から、予め抽出対象として登録されている骨格を抽出し、その位置情報や他の骨格との連結状態を骨格情報として登録する。骨格情報の抽出には、既存の骨格抽出技術 (Cascaded Pyramid Network) を用いることができる。
【0040】
図3は、前記骨格情報抽出部103が抽出対象とする骨格を示した図であり、左右の肘関節P3,P6、左右の手首関節P4,P7、左右の膝関節P9,P12および左右の足首関節P10,P13ならびにこれらの関節を連結する骨などが抽出される。
【0041】
なお、骨格の抽出手法は、上記のように予め抽出した人物領域を対象とする方法に限定されない。例えば、非特許文献1に開示されるように、フレーム画像から抽出した特徴マップに対して、身体パーツの位置をエンコードするConfidence Mapおよび身体パーツ間の連結性をエンコードするPart Affinity Fields(PAFs)を用いた二つの逐次予測プロセスを順次に適用し、フレーム画像から抽出した人物オブジェクト(ユーザ)の身体パーツの位置および連結性をボトムアップ的アプローチにより一回の推論で推定することでスケルトンモデルを構築してもよい。
【0042】
このとき、異なる部分領域から抽出した身体パーツの連結性を推定対象外とする処理を実装することで、身体パーツの位置および連結性を部分領域ごとに、すなわちユーザごとにオブジェクトのスケルトンモデルを推定できるようになる。
【0043】
動き量計算部104は、ユーザが指定した評価部位を評価部位指定受付部104aで受け付け、指定された評価部位に対応した骨格のフレーム間での動き量Pを前記骨格情報に基づいて計算する。解析区間決定部105は、
図4に示したように、前記動き量計算部104が計算した評価部位の動き量Pが所定の閾値Prefを超える映像区間を解析区間に決定し、それ以外の映像区間を非解析区間に決定する。
【0044】
なお、解析区間を漏れなく抽出するためには、特に開始タイミングを確実に検知する必要があり、そのためには閾値Prefを十分に低く設定することが考えられる。しかしながら、閾値Prefを下げると終了タイミングも遅くなるので解析区間が長くなり、トラヒック量の削減効果が薄れかねない。
【0045】
そこで、
図5に示したように、開始タイミングを決定する閾値Pref1が終了タイミングを決定する閾値Pref2よりも低くなるように各閾値Pref1,Pref2に差を設けても良い。あるいは
図6に示したように、共通の閾値Prefに基づいて開始タイミングが検知されると、解析区間が当該タイミングよりも所定時間αだけ遡るようにしても良い。
【0046】
図7は、ユーザのゴルフスイング映像を例にして閾値Prefの設定方法を説明するための図であり、ここでは評価部位としてゴルフスイングの評価に好適な左手首関節P7が指定されているものとする。
【0047】
ゴルフスイングの評価では、特にバックスイングからダウンスイングに切り替わった直後からフォロースイングが終了するまでの区間の左手の動きに注目する必要があることから、本実施形態でも当該区間が解析区間に決定されるように、左手首関節P7の動き量Pがバックスイングからダウンスイングに切り替わる時刻t1で閾値Pref(またはPref1)を上回り、フォローススイングが終了する時刻t2で閾値Pref(またはPref2)を下回るように、前記各閾値Pref,Pref1,Pref2あるいは所定時間αが設定される。
【0048】
映像変換部106は、非解析区間のビットレートが解析区間のビットレートよりも相対的に低下するようにカメラ映像のビットレートを低下させる。このとき、映像変換部106は解析区間のビットレートを撮影時のビットレートに維持したまま、非解析区間のビットレートのみを選択的に低下させることができる。あるいは解析区間および非解析区間のビットレートをいずれも低下させ、その際、非解析区間のビットレートが解析区間のビットレートよりも相対的に低くなるようにしても良い。
【0049】
前記映像変換部106はビットレートの変換にあたり、非解析区間のフレームレートを解析区間のフレームレートよりも低下させることができる。例えば、カメラ映像が30fpsのフレームレートで撮影されていれば、解析区間は30fpsのフレームレートを維持したまま非解析区間のフレームレートのみを、例えば10fpsまで低下させるようにしても良い。
【0050】
あるいは、解析区間のフレームレートは20fpsまで低下させる一方、非解析区間のフレームレートは10fpsまで低下させるというように、フレームレートの低下率を異ならせるようにしても良い。
【0051】
さらに、カメラ映像がカラー画像であれば非解析区間のみをモノクロ映像に変換することでビットレートを変換しても下げても良いし、あるいは非解析区間の解像度を解析区間よりも低解像に変換することでビットレートを下げても良い。
【0052】
本実施形態によれば、高品質映像による分析が要請されない非解析区間のビットレートを、高品質映像による分析が要請される解析区間のビットレートよりも低下させるので、映像分析の精度や確度に影響を与えることなくカメラ映像の転送データ量や記憶容量を削減できるようになる。
【0053】
図8は、ローカル端末1の第2実施形態の機能ブロック図であり、
図2と同一の符号は同一または同等部分を表しているので、その説明は省略する。本実施形態は、動き量計算部104が動き種別判別部104bおよび評価部位決定部104cを具備し、評価部位がカメラ映像に基づいて自動的に設定されるようにした点に特徴がある。
【0054】
動き種別判別部104bは、カメラ映像を予め学習した推定モデルに適用することでユーザの動き種別を判別する。例えば、前記
図7を参照して説明したゴルフスイングのカメラ映像が入力されるとユーザの動き種別を「ゴルフスイング」と判別する。
【0055】
評価部位決定部104cは、ユーザの動き種別の判別結果に基づいて、当該動き種別に対する解析区間の決定指標となる評価部位を、予め登録されている動き種別と評価部位との対応関係に基づいて決定する。例えば、ユーザの動き種別が「ゴルフスイング」と判別されると評価部位が「左手首関節」に決定される。
【0056】
本実施形態によれば、カメラ映像に基づいて、解析区間の決定指標となる評価部位が自動的に決定されるので、ユーザに専門知識や負担を強いることなく、所望のユーザの動き種別や最適な評価部位を自動的に設定することができ、最適な解析区間を決定できるようになる。
【0057】
なお、上位の実施形態では解析区間の決定指標となる評価部位が一つであるものとして説明したが、本発明はこれのみに限定されるものではなく、複数の評価部位を用いることができる。この場合、動き量Pの前記閾値(Pref,Pref1,Pref2)も評価部位ごとに用意し、複数の評価部位の動き量Pのいずれかが閾値を超えている期間、あるいは複数の評価部位の動き量Pのいずれもが閾値を超えている期間を解析区間に決定することができる。
【0058】
さらに、データの変換対象となるカメラ映像はカメラからリアルタイムで出力される動映像に限定されるものではなく、予めカメラで撮影し、一時的に記憶解体等に記憶されていた動画映像であっても良い。
【符号の説明】
【0059】
1…ローカル端末,2…映像分析サーバ,101…映像取得部,102…人物領域抽出部,103…骨格情報抽出部,104…動き量計算部,104a…評価部位指定受付部,104b…動き種別判別部,104c…評価部位決定部,105…解析区間決定部,106…映像変換部