IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7502957触覚メタデータ生成装置、映像触覚連動システム、及びプログラム
<>
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図1
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図2
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図3
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図4
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図5
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図6
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図7
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図8
  • 特許-触覚メタデータ生成装置、映像触覚連動システム、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-11
(45)【発行日】2024-06-19
(54)【発明の名称】触覚メタデータ生成装置、映像触覚連動システム、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240612BHJP
   G06T 7/20 20170101ALI20240612BHJP
【FI】
G06T7/00 350C
G06T7/20 300Z
【請求項の数】 7
(21)【出願番号】P 2020170229
(22)【出願日】2020-10-08
(65)【公開番号】P2022062313
(43)【公開日】2022-04-20
【審査請求日】2023-09-07
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100143568
【弁理士】
【氏名又は名称】英 貢
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】東 真希子
(72)【発明者】
【氏名】半田 拓也
(72)【発明者】
【氏名】佐野 雅規
(72)【発明者】
【氏名】山内 結子
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2014-194765(JP,A)
【文献】特開2020-135747(JP,A)
【文献】田靡雅基 外4名,スポーツ映像解析ソリューション,パナソニック技報【11月号】NOVEMBER2015[online],Panasonic,2015年11月16日,第61巻 第2号,pp.78~83
【文献】角淳之介 外3名,投手の打ちづらさとは何か -機械学習に基づく投球印象解析-,映像情報メディア学会技術報告,日本,(一社)映像情報メディア学会 ,2018年12月10日,第42巻 第44号,pp.39~42
【文献】閔庚甫 外2名,ビデオ画像における人間の歩行動作の3次元トラッキング,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2006年05月18日,第106巻 第74号,pp.7~12
【文献】Phyo Cho Nilar et al.,“Skeleton motion history based human action recognition using deep learning”,2017 IEEE 6th Global Conference on Consumer Electronics (GCCE)[online],IEEE,2017年,pp.1-2,[検索日 2024.5.7], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8229448>,DOI: 10.1109/GCCE.2017.8229448
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048 - 3/0489
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
H04N 7/10
H04N 7/14 - 7/173
H04N 7/20 - 7/56
H04N 21/00 - 21/858
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、
入力された映像について、現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出する複数フレーム抽出手段と、
当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成する人物骨格抽出手段と、
当該複数フレーム画像の各々について、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成する人物識別手段と、
前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第2の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成する骨格軌跡特徴画像生成手段と、
前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、
前記現フレーム画像に対応して、当該衝撃提示用の情報を含む触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、
を備えることを特徴とする触覚メタデータ生成装置。
【請求項2】
前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した1枚の画像とすることを特徴とする、請求項1に記載の触覚メタデータ生成装置。
【請求項3】
前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した1枚の画像とすることを特徴とする、請求項1又は2に記載の触覚メタデータ生成装置。
【請求項4】
前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする、請求項1から3のいずれか一項に記載の触覚メタデータ生成装置。
【請求項5】
当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を更に備え、
前記人物動作認識手段は、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする、請求項1から4のいずれか一項に記載の触覚メタデータ生成装置。
【請求項6】
請求項1から5のいずれか一項に記載の触覚メタデータ生成装置と、
触覚刺激を提示する触覚提示デバイスと、
前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、
を備えることを特徴とする映像触覚連動システム。
【請求項7】
コンピュータを、請求項1から5のいずれか一項に記載の触覚メタデータ生成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。
【背景技術】
【0002】
放送映像等の一般的なカメラ映像の映像コンテンツは、視覚と聴覚の2つの感覚に訴える情報を提供するメディアである。しかし、視覚障害者や聴覚障害者に対しては視聴覚情報だけでは不十分であり、番組コンテンツの状況を正確に伝えることができない。そのため、テレビを持っていない、若しくは持っていても視聴しない障害者も多い。そこで、映像コンテンツに対し、視覚・聴覚以外の“触覚”で感じられる情報を提示することで、視覚又は聴覚の障害者もテレビ放送を理解できるシステムの構築が望まれる。
【0003】
また、視覚・聴覚の感覚を有する健常者にとっても、また、触覚刺激を提示することにより放送番組の視聴時の臨場感や没入感の向上が期待できる。特に、スポーツコンテンツにおける人物の動きは重要な情報であり、これを触覚刺激で提示することにより、コンテンツ視聴における臨場感が高まる。
【0004】
例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第3の感覚として期待されている。
【0005】
特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、プレーの種類、タイミング、状況などに関する選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。そして、視覚又は聴覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。
【0006】
このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。
【0007】
しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。
【0008】
収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。
【0009】
近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを3次元的に追跡し、ジャッジに絡むIN/OUTの判定を行っている。また2014年のFIFAワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設定し、フィールド内の全選手をリアルタイムに追跡するTRACABシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。
【0010】
一方で、動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている(例えば、特許文献1,2,3参照)。
【0011】
例えば、特許文献1では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の3次元位置を計測する装置が開示されている。また、特許文献2では、体操競技などの映像とモーションキャプチャデータから得られる情報を利用し、動作認識を施す技術が開示されており、隠れマルコフモデルを利用し、動作の時間的長短の制約を取り除いていることに特長を有している。また、特許文献3には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。
【0012】
また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている(例えば、特許文献4参照)。特許文献4の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設定したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。
【0013】
ところで、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。即ち、通常のカメラ映像から選手の姿勢を計測することで、競技に影響を与えず、触覚刺激に関する情報を取得することが可能である。
【0014】
骨格情報の取得により、人物の姿勢を計測することは可能であるが、その姿勢の意味付けには認識処理が必要となる。例えば、柔道の映像を入力した際、当該フレームで行われている動作内容が「組み合い」なのか「投げ技」なのか「寝技」なのかは、画像特徴や骨格特徴から判別する必要がある。画像処理における認識処理で広く用いられているのがConvolutional Neural Network (CNN)である。CNNは、何段もの深い層を持つニューラルネットワークで、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。
【0015】
一般的なニューラルネットワークでは層状にニューロンを配置し、前後の層に含まれるニューロン同士は網羅的に結線するのが普通であるが、この畳み込みニューラルネットワークではこのニューロン同士の結合をうまく制限し、尚且つウェイト共有という手法を使うことで、画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現している。この層は「畳み込み層」と呼ばれ、CNNの最大の特徴となっている。また、この畳み込みニューラルネットワークにおいて、もうひとつ大きな特徴が、「プーリング層」である。CNNにおいて、「畳み込み層」が画像からのエッジ抽出等の特徴抽出の役割を果たしているとすると、「プーリング層」はそうした抽出された特徴が、平行移動などでも影響を受けないようにロバスト性を与えている。
【0016】
他方では、骨格情報を利用する以外にも、画像から動作を認識する手法として、Motion History Image(MHI)と呼ばれる画像が従来使われてきた(例えば、非特許文献1、特許文献5参照)。MHIは、フレームごとに輝度差分が生じた領域を高い輝度で塗りつぶし、以降のフレームでは徐々にその輝度を下げて描画した画像であり、動オブジェクトの動きの向きの情報を持つ1枚の画像となっている。
【0017】
特許文献5では、画像認識技術を用いて野球映像から投球動作を検出する技術が開示されており、野球映像に対してMotion History Image(MHI)を作成し、投球動作を検出するものとなっている。ただし、特許文献5に開示される技法のMHIは骨格検出を行っておらず、詳細な動作の認識は困難である。
【0018】
そこで、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像(ボーン画像)についてMHIを生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image(Skl MHI)と称される技術も開示されている(例えば、非特許文献2参照)。
【先行技術文献】
【特許文献】
【0019】
【文献】特開2002-8063号公報
【文献】特開2002-253718号公報
【文献】特開2020-38440号公報
【文献】特開2018-187383号公報
【文献】特開2008-22142号公報
【非特許文献】
【0020】
【文献】“Motion History Image”、[online]、[令和2年9月15日検索]、インターネット〈https://web.cse.ohio-state.edu/~davis.1719/CVL/Research/MHI/mhi.html〉
【文献】C. N. Ohyo, T. T. Zin, P. Tin., “Skeleton motion history based human action recognition using deep learning”、[online]、[令和2年9月15日検索]、インターネット〈https://ieeexplore.ieee.org/document/8229448〉
【発明の概要】
【発明が解決しようとする課題】
【0021】
上述したように、従来、一般的には、映像コンテンツに触覚情報を付与する際は、刺激の種類やタイミングを人手で編集する必要があった。そのため、生放送番組での触覚情報提示は不可能であった。リアルタイム映像解析により、触覚情報抽出を自動化できれば、生放送番組でも触覚情報を提供できる。そして、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。
【0022】
特に、スポーツ中継はリアルタイム性が重視されるコンテンツである。そのため、競技に関する触覚情報もリアルタイムで付与され、映像と同時に提示される必要がある。選手の動きに同期した触覚刺激が効果的な場合が多く、映像から触覚メタデータを抽出する場合には、カメラ映像からリアルタイムで選手の動きを解析する必要がある。競技に影響を与えないため、マーカー装着によるモーションキャプチャーや、撮影距離に制限のある深度センサなどは用いず、通常の放送カメラ映像から触覚メタデータを抽出することが望ましい。
【0023】
つまり、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト(選手等)の動きに関する触覚メタデータを生成する技法が望まれる。
【0024】
また、人物オブジェクトの動きを高精度に検出するために、人物以外の動オブジェクト(例えば、バドミントン競技であればシャトル、ラケット)を参考する技法も考えられるが、参考とする人物以外の動オブジェクトが存在しない競技(例えば、柔道やレスリング等)においても、人物オブジェクトの動きを高精度に検出する技法が望まれる。
【0025】
尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト(選手等)の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。
【0026】
ところで、動作認識の機械学習として、旧来の教師あり学習手法であるSVMなどを用いることで高速に動作認識できるものの、近年発展が望ましい深層学習を利用することで、更なる精度向上が期待できる。映像解析に基づく動作認識にはCNNが用いられることが多い。しかし、CNNは静止画像ベースの識別アルゴリズムであり、時間軸が考慮されない。映像シーンの動作内容を理解するには、人物の動きに関する特徴量を扱う必要があるが、静止画には時間軸の情報が含まれないため、CNNの動作内容を高精度な識別は期待できない。
【0027】
このため、CNNにより画像から動作を認識する手法として、Motion History Image(MHI)と呼ばれる画像を利用することが考えられる。このMHIを解析することで、 “腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを認識判定することが可能になる。ただし、MHIは人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。例えば、特許文献5に開示されるような、野球映像に対してMotion History Image(MHI)を作成し、投球動作を検出するには、背景に含まれるノイズの影響を抑えるために投手の領域を高精度に検出する必要があり、更に、骨格検出を行うものではないため詳細な動作の認識は困難である。
【0028】
そこで、非特許文献2に開示されるように、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像(ボーン画像)についてMotion History Image(MHI)を生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image(Skl MHI)と称される技術により、動作認識の精度向上が実現されるが、より一層の動作認識の精度向上が要望される。
【0029】
本発明の目的は、上述の問題に鑑みて、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。
【課題を解決するための手段】
【0030】
本発明の触覚メタデータ生成装置は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、入力された映像について、現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出する複数フレーム抽出手段と、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成する人物骨格抽出手段と、当該複数フレーム画像の各々について、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成する人物識別手段と、前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第2の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成する骨格軌跡特徴画像生成手段と、前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、前記現フレーム画像に対応して、当該衝撃提示用の情報を含む触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、を備えることを特徴とする。
【0031】
また、本発明の触覚メタデータ生成装置において、前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した1枚の画像とすることを特徴とする。
【0032】
また、本発明の触覚メタデータ生成装置において、前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した1枚の画像とすることを特徴とする。
【0033】
また、本発明の触覚メタデータ生成装置において、前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする。
【0034】
また、本発明の触覚メタデータ生成装置において、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を更に備え、前記人物動作認識手段は、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする。
【0035】
また、本発明の映像触覚連動システムは、本発明の触覚メタデータ生成装置と、触覚刺激を提示する触覚提示デバイスと、前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。
【0036】
更に、本発明のプログラムは、コンピュータを、本発明の触覚メタデータ生成装置として機能させるためのプログラムとして構成する。
【発明の効果】
【0037】
本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができる。特に、スポーツ映像のリアルタイム視聴時での触覚刺激提示が可能となる。視覚・聴覚への情報提供のみならず、触覚にも提示することで、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。また、一般の晴眼者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。
【図面の簡単な説明】
【0038】
図1】本発明による一実施形態の触覚メタデータ生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。
図2】本発明による一実施形態の触覚メタデータ生成装置の処理例を示すフローチャートである。
図3】本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する説明図である。
図4】(a)は1フレーム画像を例示する図であり、(b)は本発明による一実施形態の触覚メタデータ生成装置における1フレーム画像における人物骨格抽出例を示す図である。
図5】(a),(b)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。
図6】(a)は、本発明に係る骨格軌跡特徴画像(STI:Skeleton Trajectory Image)の画像例を示す図であり、(b)は、その軌跡特徴画像(STI)の説明図である。
図7】(a)は1フレーム画像例を模擬的に示した図であり、(b)は従来技術のボーン画像例、(c)は従来技術のSkl MHI(Skeleton Motion History Image)の画像例、(d)は本発明に係る骨格軌跡特徴画像(STI)の画像例を示す図である。
図8】従来技術のボーン画像、従来技術のSkl MHI、及び本発明に係る骨格軌跡特徴画像(STI)の人物動きの検出精度の比較評価を示す図である。
図9】本発明による一実施形態の映像触覚連動システムにおける制御ユニットの概略構成を示すブロック図である。
【発明を実施するための形態】
【0039】
(システム構成)
以下、図面を参照して、本発明による一実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1について詳細に説明する。図1は、本発明による一実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1の概略構成を示すブロック図である。
【0040】
図1に示す映像触覚連動システム1は、カメラや記録装置等の映像出力装置10から映像を入力し、入力された映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータ(第1の触覚メタデータと第2の触覚メタデータの2種類)を同期して自動生成する触覚メタデータ生成装置12と、生成した触覚メタデータを基に、本例では2台の触覚提示デバイス14L,14Rと、各触覚提示デバイス14L,14Rを個別に駆動制御する制御ユニット13と、を備える。
【0041】
まず、映像出力装置10が出力する映像は、一例として柔道競技をリアルタイムで撮影されたものとしてディスプレイ11に表示され、ユーザUによって視覚されるものとする。
【0042】
柔道競技は、二人の選手が組み合って、「抑え込み」や「投げ」などの技を競うスポーツであり、各人物に衝撃が生じた瞬間や各人物の動きの状況変化を触覚提示デバイス14L,14Rにより触覚刺激としてユーザUに提示することで、より臨場感を高め、また視聴覚障害者にも試合状況を伝えることが可能である。
【0043】
特に、柔道競技では、映像上で選手同士の重なりやオクルージョンが多数生じるため、各選手に生じる衝撃の種類に応じたタイミングと速さ以外にも、各選手の押し引きなどの組み合い、投げ等に係る動作状況を連続的に触覚提示できるようにすることで、視覚や聴覚の障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。
【0044】
そこで、ユーザUは、左手HLで触覚提示デバイス14Lを把持し、右手HRで触覚提示デバイス14Rを把持して、本例では映像解析に同期した振動刺激が提示されるものとする。制御ユニット13は、触覚メタデータ生成装置12から得られる各人物オブジェクトOp1,Op2に生じる衝撃の種類に応じたタイミングと速さを示す衝撃提示用の情報を含む触覚メタデータを基に、各人物オブジェクトOp1,Op2に対応付けられた2台の触覚提示デバイス14L,14Rの触覚提示を個別に制御する。ただし、制御ユニット13は、1台の触覚提示デバイスに対してのみ駆動制御する形態でもよいし、3台以上の触覚提示デバイスに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット13は、映像内の人物オブジェクトOp1(選手)の動きに対応した振動刺激は触覚提示デバイス14Lで、人物オブジェクトOp2(選手)の動きに対応した振動刺激は触覚提示デバイス14Rで提示するように分類して制御するものとする。
【0045】
触覚提示デバイス14L,14Rは、球状のケース141内に、制御ユニット13の制御によって振動刺激を提示可能な振動アクチュエーター142が収容されている。尚、触覚提示デバイス14L,14Rは、振動刺激の他、電磁気パルス刺激を提示するものでもよい。本例では、制御ユニット13と各触覚提示デバイス14L,14Rとの間は有線接続され、触覚メタデータ生成装置12と制御ユニット13との間も有線接続されている形態を例に説明するが、それぞれ近距離無線通信で無線接続されている形態としてもよい。
【0046】
触覚メタデータ生成装置12は、複数フレーム抽出部121、人物骨格抽出部122、人物識別部123、骨格軌跡特徴画像生成部124、動オブジェクト検出部125、人物動作認識部126、及びメタデータ生成部127を備える。
【0047】
複数フレーム抽出部121は、映像出力装置10から入力された映像について、現フレーム画像とT(Tは1以上の整数)フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出し、人物骨格抽出部122及び動オブジェクト検出部125に出力する。
【0048】
人物骨格抽出部122は、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト(以下、単に「人物」とも称する。)Op1,Op2の骨格座標集合P (n:検出人数、b:骨格ID)を生成し、現フレーム画像を含む当該複数フレーム画像とともに、人物識別部123に出力する。
【0049】
人物識別部123は、当該複数フレーム画像の各々について、骨格座標集合P を基に探索範囲(詳細は後述する。)を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成し、骨格軌跡特徴画像生成部124に出力する。
【0050】
骨格軌跡特徴画像生成部124は、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合P を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成し、人物動作認識部126に出力する。ここで、骨格軌跡特徴画像について、その詳細は後述するが、本願明細書中、STI(Skeleton Trajectory Image)と名付けている。
【0051】
動オブジェクト検出部125は、本例のような柔道競技の動きの認識のためには必ずしも設ける必要はないが、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち骨格軌跡特徴画像生成部124から得られる骨格軌跡特徴画像(STI)と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像生成部124に出力する。この場合、骨格軌跡特徴画像生成部124は、骨格軌跡特徴画像(STI)上に、動オブジェクト軌跡画像を追加して描画(合成)したものを人物動作認識部126に出力する。
【0052】
人物動作認識部126は、骨格軌跡特徴画像(STI)を入力とするCNN(畳み込みニューラルネットワーク)により、人物の特定動作を認識し、触覚提示デバイス14L,14Rを作動させる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を検出し、メタデータ生成部127に出力する。
【0053】
メタデータ生成部127は、現フレーム画像に対応して、人物動作認識部126から得られる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む触覚メタデータ(衝撃提示用)を生成し、フレーム単位で制御ユニット13に出力する。
【0054】
以下、より具体的に、図2を基に、図3乃至図6を参照しながら、触覚メタデータ生成装置12における触覚メタデータ生成処理について説明する。
【0055】
(触覚メタデータ生成処理)
図2は、本発明による一実施形態の触覚メタデータ生成装置12の処理例を示すフローチャートである。そして、図3は、触覚メタデータ生成装置12における人物骨格抽出処理に関する説明図である。また、図4(a)は1フレーム画像を例示する図であり、図4(b)は触覚メタデータ生成装置12における1フレーム画像における人物骨格抽出例を示す図である。図5(a),(b)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置12における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。図6(a)は、本発明に係る骨格軌跡特徴画像(STI)の画像例を示す図であり、図6(b)は、その軌跡特徴画像(STI)の説明図である。
【0056】
図2に示すように、触覚メタデータ生成装置12は、まず、複数フレーム抽出部121により、映像出力装置10から入力された映像について、現フレーム画像とT(Tは1以上の整数)フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出する(ステップS1)。
【0057】
続いて、触覚メタデータ生成装置12は、人物骨格抽出部122により、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトOp1,Op2の骨格座標集合P (n:検出人数、b:骨格ID)を生成する(ステップS2)。
【0058】
近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose(NextSystem社)に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部122は、VisionPoseを用いて、図3に示すように、フレーム画像毎に人物の骨格30点を検出し、その位置座標を示す骨格座標集合P を生成する。
【0059】
VisionPoseでは、図3において、P :“頭”、P :“鼻”、P :“左目”、P :“右目”、P :“左耳”、P :“右耳”、P :“首”、P :“背骨(肩)”、P :“左肩”、P 10:“右肩”、P 11:“左肘”、P 12:“右肘”、P 13:“左手首”、P 14:“右手首”、P 15:“左手”、P 16:“右手”、P 17:“左親指”、P 18:“右親指”、P 19:“左指先”、P 20:“右指先”、P 21:“背骨(中央)”、P 22:“背骨(基端部)”、P 23:“左尻部”、P 24:“右尻部”、P 25:“左膝”、P 26:“右膝”、P 27:“左足首”、P 28:“右足首”、P 29:“左足”、及び、P 30:“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。
【0060】
このVisionPoseの骨格検出アルゴリズムに基づき、図4(a)に示す柔道競技の1フレーム画像Fに対して、人物の骨格抽出を行ったフレーム画像Faを図4(b)に示している。図4(a)に示すフレーム画像Fには、各人物オブジェクトOp1,Op2(選手)のみが映り込んでいる様子を示しているが、その他の人物オブジェクトである審判の動オブジェクトが映り込むことや、別のスポーツ競技であれば人物以外の動オブジェクト(バドミントン競技であればラケットやシャトル等)、或いは観客等のオブジェクト(実質的には、静オブジェクト)が写り込むことがある。しかし、VisionPoseの骨格検出アルゴリズムを適用すると、選手及び審判の人物オブジェクトの人物についてのみ人物の骨格抽出を抽出することができる。本例では、図4(b)に示すように、人物オブジェクトOp1,Op2にそれぞれ対応する骨格座標集合P ,P を推定して生成することができる。図4(b)からも理解されるように、柔道競技においても、比較的精度よく各人物の骨格を推定できる。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚メタデータ生成装置12は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を1枚の骨格軌跡特徴画像(STI)に描画し、CNNにより時間軸を考慮した高精度な動作認識を行う。
【0061】
続いて、触覚メタデータ生成装置12は、人物識別部123により、当該複数フレーム画像の各々について、骨格座標集合P を基に探索範囲を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する(ステップS3)。
【0062】
前述した人物骨格抽出部122により、当該複数フレーム画像の各々について、骨格座標集合P として、1以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合P では、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合P の座標付近の画像情報を利用する。即ち、人物識別部123は、骨格座標集合P を基に、各人物の骨格の位置及びサイズと、その周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を抽出することにより、人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する。
【0063】
例えば、柔道では白と青の道着で試合が行われるが、各骨格座標集合P の骨格の位置付近の画像情報として、フレーム画像Fにおける色情報を参照することで、選手の識別が可能になる。また、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合P の骨格の位置がフレーム画像Fにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。
【0064】
従って、人物骨格抽出部122における骨格検出アルゴリズムは静止画単位での推定に留まるが、骨格座標集合P を基に動オブジェクトとしての人物を認識することができる。
【0065】
尚、前述した人物骨格抽出部122では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。
【0066】
ところで、本実施形態の人物識別部123は、各人物の重なりやオクルージョンにも対応するため、フレーム画像単位で探索範囲(人物探索範囲R及び注目探索範囲Rb)を可変設定する。例えば、図5(a)に示す人物オブジェクトOp1,Op2(選手)と、人物オブジェクトOp3(審判)について、人物骨格抽出部122により各骨格座標集合P (図示略)の抽出が行われると、人物識別部123は、フレーム画像単位で人物探索範囲R及び注目探索範囲Rbを可変設定することができる。この探索範囲Rは、図5(a)において、人物ID(i)ごとに設定し、フレーム画像の画像座標上での人物の位置座標、及び人物の大きさ(幅及び高さ)を有するものとして外接矩形で表している。また、各人物の腰領域(P 22,P 23,P 24)を囲む領域を注目探索範囲Rbとして表している。
【0067】
より具体的には、本実施形態の人物識別部123は、各フレーム画像で人物の探索範囲を、最大で人物骨格の全体を囲む人物探索範囲Rに限定し、最小で人物骨格のうち所定領域(本例では腰領域(P 22,P 23,P 24)を囲む領域)を注目探索範囲Rbとして定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rbを含むように探索範囲を決定して、当該人物オブジェクトを識別する処理を行う。これにより、例えば図5(b)に示すように各人物の動作が変化した場合やフレーム画像に対する相対的な人物の大きさが変化した場合でも、他の人物の誤認識を防ぎ、また処理速度も向上できる。特に、柔道のように識別対象の人物の重なりが激しく、背景も複雑な映像から精度よく選手を識別するには探索範囲の利用が有効である。
【0068】
つまり、本実施形態の人物識別部123は、各選手及び審判の人物オブジェクトのOp1,Op2,Op3における各骨格座標集合P のうち、色識別を可能とする所定範囲(本例では腰領域(P 22,P 23,P 24)の色(青、白、茶色))を注目探索範囲Rbとして予め定めているので、検出した複数の人物の骨格座標集合P が重なる場合には注目探索範囲Rbに絞って探索することで、各フレーム画像で精度よく人物を抽出・追跡できる。尚、背景に解析対象以外の骨格を検出する場合もあるため、解析対象の人物の骨格には、人物ID(i)を付与して判別することで、追跡対象の人物の骨格座標P を識別できる。
【0069】
そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の広さや形の決定は、カルマンフィルタやパーティクルフィルタなどの状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rb(本例では、各人物の腰領域)を含むように決定する。
【0070】
そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の安定検出時には範囲を狭め、検出が不安定な際には範囲を広げることができ、例えば、人物ID(i)ごとに人物の骨格の状態遷移推定値に基づいて定めた探索範囲を設定し、その状態遷移推定値が直前フレームから所定値以内であれば安定とし、そうでなければ不安定とすることや、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、Tフレーム分の時間窓間に、検出に成功した割合を計算し、その割合が所定値以上であれば安定とし、当該所定値を下回った場合に不安定とすることで、探索範囲を可変設定することができる。
【0071】
続いて、触覚メタデータ生成装置12は、骨格軌跡特徴画像生成部124により、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合P を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像(STI)を生成する(ステップS4)。
【0072】
ここで、骨格軌跡特徴画像(STI)の描画生成にあたって、まず、任意のフレーム画像における骨格座標集合P をP (t)とし、現フレーム画像をt=0として現フレーム画像における骨格座標集合P をP (0)で表し、過去Tフレームのフレーム画像における骨格座標集合P をP (T)で表す。つまり、骨格軌跡特徴画像生成部124は、現フレーム画像のフレーム番号をt=0として、過去Tフレームまでのフレーム番号をt=Tで表すと、現フレーム画像を基準に、t=0,1,…,Tの各フレーム画像Fを用いて、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像(STI)を生成することができる。骨格軌跡特徴画像(STI)は、いわば現フレーム画像を基準に過去のオプティカルフローを連結し、1枚の画像として時間軸の情報を含んだものである。
【0073】
この骨格軌跡特徴画像(STI)における軌跡特徴量のデュレーションとなるTは、任意に設定可能である。また、1枚の骨格軌跡特徴画像(STI)の生成に用いる骨格座標は、必ずしも図3に示す30点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。
【0074】
骨格軌跡特徴画像(STI)は、現フレーム画像から過去Tフレーム分のフレーム画像における各人物の骨格座標を利用し、各人物の骨格座標ごとに連結した軌跡を描画するものとし、且つこの描画の際に、過去に向かうほど輝度を下げか、又は上げて描画して生成した1枚の画像とする。好適には、骨格軌跡特徴画像(STI)は、現フレームからTフレーム分の過去のフレーム画像における各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き(遷移)をフレーム単位で時系列に階調するよう描画したものとする。
【0075】
例えば、現フレームから過去Tフレームまで、各人物の骨格座標ごとに連結した軌跡を描画する際に、その輝度bを
b=255×(T-t)/T
として定めたものとする。
【0076】
また、過去に遡るほど輝度を上げるように描画してもよく、この場合には、
b=255×t/T
とすることができる。
【0077】
ここで、t=0を現フレーム画像とし過去Tフレーム分を処理対象とするとき(t=0~T)、bを0~255とし、その値を、各人物の骨格座標ごとに色分けして表現するのが好適である。例えば、図6(a)は、本発明に係る骨格軌跡特徴画像(STI)の画像例を示す図である。図6(a)ではグレイスケール表示として認識処理に用いるとしているが、好適には、図6(b)に示す軌跡特徴画像(STI)の説明図に示すように、例えば背景は輝度として最低値の“黒”(若しくは輝度として最高値の“白”でもよい。)、いずれの人物オブジェクトOp1,Op2についても、例えば“頭”(P ),(P )の色を“青”に、“左指先” (P 19),(P 19)の色を“赤”とするなど、予め区別可能とする色で色分けして描画する。また、本実施例では、図6(b)に示すように人物オブジェクトOp1,Op2を区別する色分けを施していないが、各人物オブジェクトOp1,Op2をも色分けするとしてもよく、例えば2名の人物に対し最大30点の骨格座標を色分けするには、60色を定義すればよい。そして、本発明に係る骨格軌跡特徴画像(STI)は、各人物の骨格座標ごとに色を固定したまま、輝度のみが元フレーム画像から過去へ遡るほど暗く(もしくは明るく)描画するものとする。
【0078】
従って、骨格軌跡特徴画像生成部124は、骨格軌跡特徴画像(STI)として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き(遷移)をフレーム単位で時系列に階調するよう描画したものとする。
【0079】
また、骨格軌跡特徴画像生成部124は、動オブジェクト検出部125の機能により、球技の場合はボールなど、人物骨格以外の軌跡を併せて骨格軌跡特徴画像(STI)上に描画することができる。この場合、ボールの移動方向などが特徴量に付加されるため、動作認識の判定精度が向上する。
【0080】
即ち、触覚メタデータ生成装置12は、動オブジェクト検出部125により、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち骨格軌跡特徴画像生成部124から得られる骨格軌跡特徴画像(STI)と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像生成部124に出力する。この場合、骨格軌跡特徴画像生成部124は、骨格軌跡特徴画像(STI)上に、動オブジェクト軌跡画像を追加して描画(合成)したものを人物動作認識部126に出力する(ステップS5)。
【0081】
即ち、動オブジェクト検出部125は、競技に関わる人物以外の動オブジェクトが存在しない、柔道競技のような場合では必要とされないが(処理として設けていても弊害が無い。)、競技に関わる人物以外の動オブジェクトが存在する場合(例えばバドミントン競技のシャトルやラケット、卓球やテニス競技のボールやラケット等)、その人物以外の動オブジェクトの動きの軌跡を検出し、動オブジェクト軌跡画像として生成し、骨格軌跡特徴画像生成部124に対して、骨格軌跡特徴画像(STI)上に、動オブジェクト軌跡画像を追加して描画(合成)させる。これにより、例えば競技に関わる人物以外の動オブジェクトが存在する場合、競技に関わる人物の動きに関わる情報が増えるため、後段の人物動作認識部126における人物動作の認識精度が向上する。このため、動オブジェクト検出部125を設けておくことで、任意の競技に対して同処理で対応できるため、汎用性のある触覚メタデータ生成装置12を構成できる。
【0082】
続いて、触覚メタデータ生成装置12は、人物動作認識部126により、骨格軌跡特徴画像(STI)を入力とするCNN(畳み込みニューラルネットワーク)により、人物の特定動作を認識し、触覚提示デバイス14L,14Rを作動させる所定の衝撃提示用の情報を検出する(ステップS6)。衝撃提示用の情報には、現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報が含まれる。
【0083】
尚、CNNによる機械学習時には、事前に学習用の骨格軌跡特徴画像(STI)を作成して学習させておく。このように、人物動作認識部126における認識処理には、深層学習の一つであるCNN(畳み込みニューラルネットワーク)を用いる。CNNは、何段もの深い層を持つニューラルネットワークであり、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。「畳み込み層」の処理により高い精度を、「プーリング層」の処理により撮影画角に依存しない汎用性を実現している。
【0084】
このCNNを用いて骨格軌跡特徴画像(STI)を解析することで、「組み合い」や「投げ」、「寝技」などの動作イベントを、選手の撮影サイズや位置に依存せずに高い精度で識別することが可能となり、これらの情報を基に触覚デバイス14L,14Rを制御するための触覚メタデータを生成することで、スポーツ映像のリアルタイム視聴時でも触覚刺激を提示することが可能となる。
【0085】
最終的に、触覚メタデータ生成装置12は、メタデータ生成部127により、現フレーム画像に対応して、人物動作認識部126から得られる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む触覚メタデータ(衝撃提示用)を生成し、フレーム単位で制御ユニット13に出力する(ステップS7)。
【0086】
(実験検証)
本発明に係る触覚メタデータ生成装置12の有効性を示すため、評価実験を行った。
図7(a)は1フレーム画像例を模擬的に示した図であり、図7(b)は従来技術のボーン画像例、図7(c)は従来技術のSkl MHI(Skeleton Motion History Image)の画像例、図7(d)は本発明に係る骨格軌跡特徴画像(STI)の画像例を示す図である。また、図8は、従来技術のボーン画像、従来技術のSkl MHI、及び本発明に係る骨格軌跡特徴画像(STI)の人物動きの検出精度の比較評価を示す図である。
【0087】
まず、比較評価する前に、柔道の試合映像(図7(a)参照)から、従来技術のボーン画像(図7(b)参照)、従来技術のSkl MHI(図7(c)参照)、及び本発明に係る骨格軌跡特徴画像(STI)(図7(d)参照)について、正例、負例それぞれ約2,000枚の画像を作成して、それぞれCNNによる事前学習を行った。
【0088】
そして、別の試合映像で識別した結果を図8に示している。図8では、「立ち合い」、「投げ」、「寝技」、「待て」の4つの試合状況(シーン分類)の識別結果と、「投げ」動作の検出結果の比較として、適合率、再現率、及びこれらの統合的指標であるF値(F-Measure)の値を示した。4つの試合状況(シーン分類)の状態の識別判定、及び「投げ」の検出精度のいずれの場合においても、本発明に係る骨格軌跡特徴画像(STI)を用いて学習した場合が最もよい結果が得られた。従って、従来技術のボーン画像や、従来技術のSkl MHIを用いた動作認識よりも、本発明に係る骨格軌跡特徴画像(STI)を用いる触覚メタデータ生成装置12の有効性を確認できた。尚、Skl MHIについても骨格座標ごとに色分けを行って評価したが、それでも本発明に係る骨格軌跡特徴画像(STI)を用いた方が動作認識の精度として向上する理由として、Skl MHI(ボーン画像も同様)では、各骨格を結ぶ接続線が動作認識に悪影響を及ぼしていると考えられる。
【0089】
(制御ユニット)
図9は、本発明による一実施形態の映像触覚連動システム1における制御ユニット13の概略構成を示すブロック図である。制御ユニット13は、メタデータ受信部131、解析部132、記憶部133、及び駆動部134‐1,134‐2を備える。
【0090】
メタデータ受信部131は、触覚メタデータ生成装置12から触覚メタデータ(衝撃提示用)を入力し、解析部132に出力する機能部である。触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、(及びチーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む。
【0091】
解析部132は、触覚メタデータ生成装置12から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、駆動部134‐1,134‐2を介して、対応する各触覚提示デバイス14L,14Rの振動アクチュエーター142を駆動するよう制御する機能部である。例えば、解析部132は、触覚メタデータにおける人物の識別、位置座標、(及びチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さから、予め定めた駆動基準データを参照して、触覚提示デバイス14Lの振動アクチュエーター142の作動タイミング、強さ、及び動作時間を決定して駆動制御する。
【0092】
記憶部133は、触覚メタデータに基づいた駆動部134‐1,134‐2の駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、触覚メタデータに対応付けられた触覚刺激としての振動アクチュエーター142の作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部133は、制御ユニット13の機能を実現するためのプログラムを記憶している。即ち、制御ユニット13を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット13の機能を実現する。
【0093】
駆動部134‐1,134‐2は、各触覚提示デバイス14L,14Rの振動アクチュエーター142を駆動するドライバである。
【0094】
このように、本実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させることができるようになる。
【0095】
特に、本実施形態の触覚メタデータ生成装置12は、カメラの映像を入力とし、その映像を解析して前述のような触覚メタデータを出力するため、まず映像を解析して映像中の人物骨格を検出し、検出した骨格情報を用いて解析対象とする人物を特定し、その後、対象人物の骨格位置の履歴から骨格軌跡特徴画像(STI)を描画生成する。この骨格軌跡特徴画像(STI)上で、ボールなど人物以外の動オブジェクトの軌跡画像を合成してもよい。
【0096】
そして、本実施形態の触覚メタデータ生成装置12は、この骨格軌跡特徴画像(STI)を入力とするCNNにより、選手の動作イベント(「投げ」、「組み合い」等)、及びその動作の状況を認識し、対応する人物動作の触覚メタデータ(衝撃提示用)を生成する。そして、制御ユニット13は、本実施形態の触覚メタデータ生成装置12から得られる触覚メタデータ(衝撃提示用)を基に、映像内の人物オブジェクトOp1(選手)の動きに対応した振動刺激は触覚提示デバイス14Lで、人物オブジェクトOp2(選手)の動きに対応した振動刺激は触覚提示デバイス14Rで提示するように分類して制御する。
【0097】
従って、本実施形態の映像触覚連動システム1は、「投げ」のような動作イベント以外にも、選手の押し引きなどの状況を連続的に伝えることが可能となり、障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。
【0098】
ところで、従来のMotion History Image(MHI)と呼ばれる画像を解析することで、“腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを判定することが可能になるが、人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。一方、本発明に係る骨格軌跡特徴画像(STI)は、このMHIの改善版ともいえる画像特徴量を示す画像であり、各人物の骨格の軌跡、もしくはこれに加えて追跡対象となる人物以外の動オブジェクトの軌跡情報を描画したものとすることで、背景に含まれるノイズの影響を抑えた高精度な認識が可能となる。また、各人物の骨格座標の推移を利用して画像を作成しているため、全身運動のみならず、手や足の部分的な動作の認識も、高い精度で行うことができる。
【0099】
特に、骨格検出アルゴリズムは静止画単位での姿勢推定に留まるが、本発明に係る骨格軌跡特徴画像(STI)は、各骨格位置の推移を軌跡特徴として扱い、この軌跡特徴量を1枚の画像で表現することにより、CNNによる動作の識別を可能としている。つまり、CNNでは困難であった時間軸方向の特徴を、本発明に係る骨格軌跡特徴画像(STI)を入力として用いることで高精度な人物動きの動作認識を可能としている。
【0100】
尚、上述した一実施形態の触覚メタデータ生成装置12をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態の触覚メタデータ生成装置12の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。
【0101】
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主として柔道競技の映像解析を例に説明したが、バドミントンや卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。
【産業上の利用可能性】
【0102】
本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させる用途に有用である。
【符号の説明】
【0103】
1 映像触覚連動システム
10 映像出力装置
11 ディスプレイ
12 触覚メタデータ生成装置
13 制御ユニット
14L,14R 触覚提示デバイス
121 複数フレーム抽出部
122 人物骨格抽出部
123 人物識別部
124 骨格軌跡特徴画像生成部
125 動オブジェクト検出部
126 人物動作認識部
127 メタデータ生成部
131 メタデータ受信部
132 解析部
133 記憶部
134‐1,134‐2 駆動部
141 ケース
142 振動アクチュエーター
図1
図2
図3
図4
図5
図6
図7
図8
図9