IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特許-骨格抽出方法、装置およびプログラム 図1
  • 特許-骨格抽出方法、装置およびプログラム 図2
  • 特許-骨格抽出方法、装置およびプログラム 図3
  • 特許-骨格抽出方法、装置およびプログラム 図4
  • 特許-骨格抽出方法、装置およびプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-11
(45)【発行日】2022-07-20
(54)【発明の名称】骨格抽出方法、装置およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220712BHJP
【FI】
G06T7/00 660B
【請求項の数】 9
(21)【出願番号】P 2019105055
(22)【出願日】2019-06-05
(65)【公開番号】P2020198019
(43)【公開日】2020-12-10
【審査請求日】2021-02-26
【前置審査】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】田坂 和之
(72)【発明者】
【氏名】徐 建鋒
【審査官】佐田 宏史
(56)【参考文献】
【文献】米国特許第10296102(US,B1)
【文献】特開2018-119833(JP,A)
【文献】特開2015-106281(JP,A)
【文献】Tomas Simon et al.,"Hand Keypoint Detection in Single Images Using Multiview Bootstrapping",2017 IEEE Conference on Computer Vision andPattern Recognition (CVPR),米国,IEEE,2017年07月21日,pp.4645-4653
【文献】Zhe Cao et al.,"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields",arXiv,米国,Cornell University,2019年05月30日,pp.1-14,https://arxiv.org/abs/1812.08008v2
【文献】鳴海 克弥、外5名,“手話認識のためのOpenPoseを用いた手の領域分割”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年02月25日,Vol.118, No.468,pp.165-168
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
(57)【特許請求の範囲】
【請求項1】
カメラ映像の人物領域から抽出した各骨格の連結に基づいて骨格情報を抽出する手段と、
抽出した骨格情報に基づいて、小骨格を含む小骨格領域を推定する手段と、
前記骨格情報に基づいて小骨格領域内に小骨格の基準点を定義する手段と、
小骨格ごとに画像特徴と基準点との関係を学習させて基準点が定義された小骨格の画像から小骨格情報を抽出する予測モデルと、
前記小骨格領域の画像特徴及び基準点を前記予測モデルに適用して小骨格情報を抽出する手段とを具備し
前記骨格情報を抽出する手段は、肩関節、肘関節および手首関節を抽出し、
前記小骨格領域を推定する手段は、前記抽出した各関節の位置に基づいて、肘関節から手首関節までの前腕長に対する手首関節から手のひらの基準点までの距離の比率である第一の比率、前腕長または上腕長に対する手領域の大きさの比率である第二の比率、及び前腕長に対する上腕長の比率である第三の比率を算出し、当該3つの比率に基づいて手の小骨格領域を推定することを特徴とする骨格抽出装置。
【請求項2】
カメラ映像から人物領域を推定する手段を更に具備し、
前記骨格情報を抽出する手段は、前記人物領域から骨格情報を抽出することを特徴とする請求項に記載の骨格抽出装置。
【請求項3】
前記小骨格領域を推定する手段は、抽出した骨格情報に基づいて当該小骨格領域の大きさを推定することを特徴とする請求項1または2に記載の骨格抽出装置。
【請求項4】
前記小骨格領域を推定する手段は、抽出した骨格情報に基づいて基準点を定義し、前記小骨格領域の位置を前記基準点との相対的な位置関係に基づいて推定することを特徴とする請求項1ないしのいずれかに記載の骨格抽出装置。
【請求項5】
前記小骨格領域を推定する手段は、手指を含む手領域を推定し、
前記小骨格情報を抽出する手段は、前記手領域から手指の骨格情報を抽出することを特徴とする請求項1ないしのいずれかに記載の骨格抽出装置。
【請求項6】
前記小骨格領域を推定する手段は、足指を含む足領域を推定し、
前記小骨格情報を抽出する手段は、前記足領域から足指の骨格情報を抽出することを特徴とする請求項1ないしのいずれかに記載の骨格抽出装置。
【請求項7】
前記骨格情報と小骨格情報とを統合する手段を更に具備したことを特徴とする請求項1ないしのいずれかに記載の骨格抽出装置。
【請求項8】
カメラ映像からコンピュータが骨格情報を抽出する方法において、
カメラ映像の人物領域から抽出した各骨格の連結に基づいて骨格情報を抽出する手順と、
抽出した骨格情報に基づいて、小骨格を含む小骨格領域を推定する手順と、
前記骨格情報に基づいて前記小骨格領域内に小骨格の基準点を定義する手順と、
小骨格ごとに画像特徴と基準点との関係を学習させて基準点が定義された小骨格の画像から小骨格情報を抽出する予測モデルに、前記小骨格領域の画像特徴及び基準点を適用して小骨格情報を抽出する手順とを含み、
前記骨格情報を抽出する手順では、肩関節、肘関節および手首関節を抽出し、
前記小骨格領域を推定する手順では、前記抽出した各関節の位置に基づいて、肘関節から手首関節までの前腕長に対する手首関節から手のひらの基準点までの距離の比率である第一の比率、前腕長または上腕長に対する手領域の大きさの比率である第二の比率、及び前腕長に対する上腕長の比率である第三の比率を算出し、当該3つの比率に基づいて手の小骨格領域を推定することを特徴とする骨格抽出方法。
【請求項9】
カメラ映像から骨格情報を抽出するプログラムにおいて、
カメラ映像の人物領域から抽出した各骨格の連結に基づいて骨格情報を抽出する手順と、
抽出した骨格情報に基づいて、小骨格を含む小骨格領域を推定する手順と、
前記骨格情報に基づいて前記小骨格領域内に小骨格の基準点を定義する手順と、
小骨格ごとに画像特徴と基準点との関係を学習させて基準点が定義された小骨格の画像から小骨格情報を抽出する予測モデルに、前記小骨格領域の画像特徴及び基準点を適用して小骨格情報を抽出する手順とをコンピュータに実行させ
前記骨格情報を抽出する手順では、肩関節、肘関節および手首関節を抽出し、
前記小骨格領域を推定する手順では、前記抽出した各関節の位置に基づいて、肘関節から手首関節までの前腕長に対する手首関節から手のひらの基準点までの距離の比率である第一の比率、前腕長または上腕長に対する手領域の大きさの比率である第二の比率、及び前腕長に対する上腕長の比率である第三の比率を算出し、当該3つの比率に基づいて手の小骨格領域を推定することを特徴とする骨格抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、骨格抽出方法、装置およびプログラムに係り、特に、手指や足指のように末梢部位に位置する小さな関節の骨格抽出に好適な骨格抽出方法、装置およびプログラム装置に関する。
【背景技術】
【0002】
ダンスやバレーのように細やかな表現力が求められる演舞、野球、ラグビーあるいはゴルフのように手指の動きが上達を左右するスポーツ、あるいは手指で演奏するピアノやギターなどの楽器演奏では、体全体の動きのみならず、手指や足指の位置や動きが重要となる。したがって、その上達には専門化の指導が有効となることが多い。しかしながら、スタジオやスクールに出向いて専門家から指導を受けるためには、相応のコスト負担を強いられ、また時間的な拘束も増すことになる。
【0003】
このような技術課題に対して、特許文献1には、入力画像に映る人物の運動を認識する認識部と、認識された運動の有効性に応じて異なる仮想オブジェクトを入力画像に重畳する表示制御部とを備え、認識部により認識される運動の有効性を示すスコアを算出し、算出結果を入力画像に重畳することで、運動の有効性に関するフィードバックを目に見える形でユーザに呈示する画像処理装置が提案されている。
【0004】
また、動画像などから行動認識において、より高精度に認識するために、非特許文献1には、RGB画像に加え、移動の特徴量(オプティカルフロー)を用いる方法が提案されている。さらに細かいユーザの動きを動画像のみから把握可能とするため、非特許文献2では、ユーザのスケルトン情報(関節とその連携部分の特徴)を抽出する方法が提案されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2013-103010号公報
【非特許文献】
【0006】
【文献】Karen Simonyan, Andrew Zisserman: Two-Stream Convolutional Networks for Action Recognition in Videos.https://arxiv.org/pdf/1406.2199.pdf
【文献】Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.https://arxiv.org/pdf/1611.08050.pdf
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の骨格抽出手法では、カメラ映像から予め人物領域を抽出し、人物領域ごとにポーズ推定を実行する。このため、複数人のポーズ推定を同時に行おうとすると計算負荷が増大し、所定時間内での推定では高い精度が得られないという問題があった。
【0008】
非特許文献2によれば、人物数の増加による計算負荷の増加が解消されるが、手指や足指の骨格は腕、足、腰などの骨格に比べて小さく、抽出対象も増えるため、これらを正確に推定しようとすると高い画像解像度が要求される。
【0009】
したがって、従来の骨格抽出手法を手指や足指の骨格抽出にそのまま適用すると、計算負荷が増大し、短時間では骨格抽出を正確に行えないため、特にリアルタイム性が求められる用途では骨格を正確に抽出できないという問題があった。
【0010】
本発明の目的は、上記の技術課題を解決し、手指や足指のように体の末梢部位に位置する比較的小さな骨格を少ない計算負荷で正確に抽出できる骨格抽出方法、装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0011】
上記の目的を達成するために、本発明は、カメラ映像から骨格情報を抽出する装置において、以下の構成を具備した点に特徴がある。
【0012】
(1) カメラ映像から骨格情報を抽出する手段と、抽出した骨格情報に基づいて小骨格を含む小骨格領域を推定する手段と、前記小骨格領域から小骨格情報を抽出する手段とを具備した。
【0013】
(2) カメラ映像から人物領域を推定する手段を更に具備し、骨格情報を抽出する手段は、人物領域から骨格情報を抽出するようにした。
【0014】
(3) 小骨格領域を推定する手段は、抽出した骨格情報に基づいて当該小骨格領域の大きさを推定するようにした。
【0015】
(4) 小骨格領域を推定する手段は、抽出した骨格情報に基づいて基準点を定義し、小骨格領域の位置を基準点との相対的な位置関係に基づいて推定するようにした。
【0016】
(5) 小骨格領域を推定する手段は、手指を含む手領域を推定し、小骨格情報を抽出する手段は、手領域から手指の骨格情報を抽出するようにした。
【0017】
(6) 小骨格領域を推定する手段は、足指を含む足領域を推定し、小骨格情報を抽出する手段は、足領域から足指の骨格情報を抽出するようにした。
【0018】
(7) 小骨格領域を推定する手段は、足の踵を含む足領域を推定し、小骨格情報を抽出する手段は、足領域から踵の骨格情報を抽出するようにした。
【0019】
(8) 小骨格領域を抽出する手段は、前記骨格情報として抽出した肩関節、肘関節および手首関節に基づいて手領域を推定するようにした。
【0020】
(9) 骨格情報と小骨格情報とを統合する手段を更に設けた。
【発明の効果】
【0021】
本発明によれば、以下のような効果が達成される。
【0022】
(1) 手指や足指といった小さくて関節数の多い骨格(小骨格)を、大きな人物領域からではなく、小骨格が含まれると推定される小骨格領域(手領域または足領域)から抽出するので、少ない計算負荷で正確な骨格抽出が可能になる。
【0023】
(2) 小骨格領域を、人物領域から抽出した骨格情報に基づいて推定するので、小骨格領域を正確に推定できるようになる。
【0024】
(3) 人物領域から抽出した骨格情報に基づいて、小骨格領域の基準となる基準点を定義し、小骨格領域を各基準点との相対的な位置関係に基づいて推定するので、小骨格領域の位置を正確に推定できるようになる。
【0025】
(4) 人物領域から抽出した骨格情報に基づいて小骨格領域の大きさを推定するので、小骨格領域の大きさを正確に推定できるようになる。
【0026】
(5) 骨格情報と小骨格情報とを統合することで、被写体ユーザの体全体の動きを同時に観測できるので、体の動きと指先の動きとのバランスや一貫性を簡単に認識できるようになる。
【図面の簡単な説明】
【0027】
図1】本発明を適用した骨格抽出システムの構成を示したブロック図である。
図2】骨格抽出装置の主要部の構成を示した図である。
図3】骨格抽出の手順を示した図である。
図4】一般的な骨格抽出により抽出される骨格を示した図である。
図5】手領域の抽出方法を示した図である。
【発明を実施するための形態】
【0028】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明を適用した骨格抽出システムの構成を示したブロック図であり、カメラ、ディスプレイおよび通信機能を備えたユーザ端末2と、このユーザ端末2が撮影したカメラ映像をWi-Fi、無線基地局BSおよびネットワークNW経由で取得し、骨格情報の抽出結果をユーザ端末2あるいは他のシステムへ適宜に提供する骨格抽出装置1とを主要な構成としている。
【0029】
前記ユーザ端末2は、スマートフォンやタブレット端末で代替できる。前記骨格抽出装置1は、汎用のコンピュータやサーバに、後述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはプログラム化した専用機や単能機としても構成できる。
【0030】
図2は、前記骨格抽出装置1の主要部の構成を示した図であり、映像取得部101、人物領域抽出部102、骨格情報抽出部103、小骨格領域推定部104、予測モデル記憶部105、小骨格情報抽出部106および骨格情報統合部107を含む。
【0031】
前記映像取得部101は、ユーザ端末2がユーザを撮影したカメラ映像(動画像)をフレーム単位で取得する。人物領域抽出部102は、図3(a)に示したように、カメラ映像の各フレーム画像から矩形の人物領域P1を抽出する。人物領域P1の抽出には、例えばSSD (Single Shot Multibox Detector) を用いることができる。
【0032】
骨格情報抽出部103は、図3(b)に示したように、フレーム画像の人物領域P1から、予め抽出対象として登録されている骨格を抽出し、その位置情報や他の骨格との連結状態を骨格情報として登録する。骨格情報の抽出には、既存の骨格抽出技術 (Cascaded Pyramid Network) を用いることができる。
【0033】
図4は、前記骨格情報抽出部103が抽出対象とする骨格を示した図であり、左右の肘関節P3,P6、左右の手首関節P4,P7、左右の膝関節P9,P12および左右の足首関節P10,P13ならびにこれらの関節を連結する骨など、認識が容易な骨格のみが抽出対象とされ、手指や足指のように、人物の全体領域からは認識が困難な小骨格は抽出対象とされていない。
【0034】
なお、骨格の抽出手法は、上記のように予め抽出した人物領域を対象とする方法に限定されない。例えば、非特許文献1に開示されるように、フレーム画像から抽出した特徴マップに対して、身体パーツの位置をエンコードするConfidence Mapおよび身体パーツ間の連結性をエンコードするPart Affinity Fields(PAFs)を用いた二つの逐次予測プロセスを順次に適用し、フレーム画像から抽出した人物オブジェクト(ユーザ)の身体パーツの位置および連結性をボトムアップ的アプローチにより一回の推論で推定することでスケルトンモデルを構築してもよい。
【0035】
このとき、異なる部分領域から抽出した身体パーツの連結性を推定対象外とする処理を実装することで、身体パーツの位置および連結性を部分領域ごとに、すなわちユーザごとにオブジェクトのスケルトンモデルを推定できるようになる。
【0036】
小骨格領域推定部104は、手領域推定部104Aおよび足領域推定部104Bを含む。手領域推定部104Aは、図3(c)に示したように、前記骨格情報抽出部103が抽出した肩関節、肘関節および手首関節の相対位置および相対距離に基づいて、手指を含む矩形の手領域(小領域)P2を抽出する。前記足領域推定部104Bは、前記骨格情報抽出部103が抽出した膝関節および足首関節の相対位置および相対距離に基づいて、足指を含む矩形の足領域(小領域)を抽出する。
【0037】
図5は、前記手領域推定部104Aによる手領域の推定方法を示した図であり、ここでは肩関節S、肘関節Eおよび手首関節Wの抽出結果ならびに3つの比率ratio 1,ratio 2およびratio 3に基づいて矩形の手領域P2が抽出される。本実施形態では、前記手領域P2が正方形であり、その位置は手のひらの基準点Hで定義され、その大きさは一辺の長さLで定義される。
【0038】
第1比率ratio 1は、肘から手首までの距離(前腕長EW)に対する手首から手のひらの基準点Hまでの距離の一般的な比率であり、予め学習されている。手のひらの基準点Hは、ratio 1を用いて後述する式(1)で算出される。
【0039】
第2比率ratio 2は、腕の基準長(本実施形態では、前腕長EWまたは上腕長SE)に対する手領域P2の大きさの一般的な比率であり、予め学習されている。第3比率ratio 3は、前腕長EWに対する上腕長SEの一般的な比率であり、後述する観点で予め学習されている。手領域P2(正方形)の一片の長さLは、ratio 2、ratio 3を用いて後述する式(2)で算出される。
【0040】
前記第3比率ratio 3について、式(2)の「max (EW, ratio3×SE)」は、上腕長SEと第3比率ratio3との積および前腕長EWのうち長い方(max)をとることを意味する。これは、原則としてLは前腕長EWを基準に計算するが、前腕の向きと撮影角度との関係で前腕長EWが短く観察される場合でも、上腕長SEで前腕長EWを代替できるようにするためである。腕長EWに対する上腕長SEの一般的な比率ratio3を上腕長SEに乗じることで、前腕長EWが短く映っている場合でも、上腕長SEが正確に映っていれば、Lを実質的に前腕長EWを基準にして計算できるようになる。
【0041】
本実施形態では、初めに骨格情報抽出部103による人物領域を対象とした骨格抽出により肩関節S、肘関節Eおよび手首関節Wが抽出される。次いで、各関節の相対位置および相対距離に基づいて手のひらの基準点Hが算出される。
【0042】
また、本実施形態では、肘関節Eと手首関節Wとを結ぶ線分の延長線上の所定位置に基準点Hが存在すると仮定し、肘関節Eから手首Wまでの距離EW(前腕長)と前記第1比率ratio 1との積が、手首関節Wから基準点Hまでの距離WHとなるように、次式(1)に基づいて基準点Hの座標が計算される。
【0043】
WH=ratio 1×EW …(1)
【0044】
次いで、正方形の矩形枠で示した手領域P2が、前腕長EWおよび肩関節Sから肘関節Eまでの距離SE(上腕長SE)をパラメータとして、次式(2)に基づいて計算される。本実施形態では、上腕長SEと第3比率ratio3との積および前腕長EWのうち長い方(max)と第2比率ratio 2との積が、手領域P2の一辺の長さLとして算出され、基準点Hを中心とした一辺の長さがLの矩形領域が手領域P2とされる。
【0045】
L= ratio 2×max (EW, ratio3×SE)…(2)
【0046】
このように、本実施形態によれば手領域や足領域などの小骨格領域を、人物領域から抽出した骨格情報に基づいて推定するので、小骨格領域を正確に推定できるようになる。
【0047】
このとき、本実施形態では人物領域から抽出した骨格情報に基づいて、小骨格領域の基準となる基準点Hを定義し、手領域や足領域などの小骨格領域を基準点Hとの相対的な位置関係に基づいて推定するので、小骨格領域の位置を正確に推定できるようになる。また、本実施形態では人物領域から抽出した骨格情報に基づいて小骨格領域の大きさを推定するので、小骨格領域の位置に加えて大きさも正確に推定できるようになる。
【0048】
図2へ戻り、予測モデル記憶部105には、手指予測モデルMa、足指予測モデルMbおよび踵予測モデルMcが記憶されている。
【0049】
手指予測モデルMaは、手指および基準点Hが予め定義されている大量の手領域画像を対象に、その画像特徴を基準点Hとの関係で機械学習することにより構築され、任意の手領域画像から、その基準点Hおよび画像特徴に基づいて各手指の骨格情報(小骨格情報)を抽出できる。
【0050】
足指予測モデルMbは、足指および基準点が予め定義されている大量の足領域画像を対象に、その画像特徴を基準点との関係で機械学習することにより構築され、任意の足領域画像から、その基準点および画像特徴に基づいて各足指の骨格情報(小骨格情報)を抽出できる。
【0051】
踵予測モデルMcは、踵および基準点が予め定義されている大量の足領域画像を対象に、その画像特徴を基準点との関係で機械学習することにより構築され、任意の足領域画像から、その基準点および画像特徴に基づいて踵の骨格情報(小骨格情報)を抽出できる。
【0052】
小骨格情報抽出部106において、手指骨格情報抽出部106Aは、図5に示したように、基準点Hの定義された手領域P2の画像に対して前記手指予測モデルMaを適用することで手指の骨格情報を抽出する。
【0053】
同様に、足指骨格情報抽出部106Bは、基準点の定義された足領域画像に対して前記足指予測モデルMbを適用することで足指の骨格情報を抽出する。踵骨格情報抽出部106Cは、基準点の定義された足領域画像に対して前記踵予測モデルMcを適用することで踵の骨格情報を抽出する。
【0054】
骨格情報統合部107は、前記骨格情報抽出部103が抽出した骨格情報と前記小骨格情報抽出部106が抽出した小骨格情報とを統合し、図3(d)に示したように、統合された骨格情報を出力する。
【0055】
このように、本実施形態では骨格情報と小骨格情報とを統合することで、被写体ユーザの体全体の動きを同時に観測できるようになるので、体の動きと指先の動きとのバランスや一貫性を簡単に認識できるようになる。なお、本実施形態では、手領域の推定に肘関節Eや手首関節Wの骨格情報を使用しており、これらの骨格の座標と手指骨格の座標との関係が既知なので、各骨格情報を容易に統合できる。
【0056】
本実施形態によれば、腕や足などの識別し易い骨格情報の抽出プロセスと、手指や足指などの識別し難い小骨格の骨格情報報の抽出プロセスとを分離し、識別し難い小骨格情報報は、識別し易い骨格情報に基づいて定義した小さな小骨格領域(手領域、足領域)のみを対象に骨格抽出を実行するので、少ない計算負荷で高精度な骨格抽出が可能になる。
【0057】
なお、本実施形態では負荷分散を目的として、骨格抽出装置1がネットワーク上に配置される場合を例にして説明するが、ユーザ端末2のハードウェア資源に余裕があり、十分な処理能力を備えていれば、骨格抽出装置1の機能をユーザ端末2に実装し、ユーザ端末2のみで骨格抽出が行われるようにしても良い。
【符号の説明】
【0058】
101…映像取得部,102…人物領域抽出部,103…骨格情報抽出部,104…小骨格領域推定部,104A…手領域推定部,104B…足領域推定部,105…予測モデル記憶部,106…小骨格情報抽出部,106A…手指骨格情報抽出部,106B…足指骨格情報抽出部,106C…踵骨格情報抽出部,107…骨格情報統合部,Ma…手指予測モデル,Mb…足指予測モデル,Mc…踵予測モデル
図1
図2
図3
図4
図5