特許7502957 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7502957触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-11

(45)【発行日】2024-06-19

(54)【発明の名称】触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240612BHJP

G06T 7/20 20170101ALI20240612BHJP

【ＦＩ】

G06T7/00 350C

G06T7/20 300Z

【請求項の数】 7

(21)【出願番号】P 2020170229

(22)【出願日】2020-10-08

(65)【公開番号】P2022062313

(43)【公開日】2022-04-20

【審査請求日】2023-09-07

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100143568

【弁理士】

【氏名又は名称】英貢

(72)【発明者】

【氏名】高橋正樹

(72)【発明者】

【氏名】東真希子

(72)【発明者】

【氏名】半田拓也

(72)【発明者】

【氏名】佐野雅規

(72)【発明者】

【氏名】山内結子

【審査官】伊知地和之

(56)【参考文献】

【文献】特開２０１４－１９４７６５（ＪＰ，Ａ）

【文献】特開２０２０－１３５７４７（ＪＰ，Ａ）

【文献】田靡雅基外４名，スポーツ映像解析ソリューション，パナソニック技報【１１月号】ＮＯＶＥＭＢＥＲ２０１５［ｏｎｌｉｎｅ］，Panasonic，2015年11月16日，第61巻第2号，pp.78～83

【文献】角淳之介外３名，投手の打ちづらさとは何か－機械学習に基づく投球印象解析－，映像情報メディア学会技術報告，日本，（一社）映像情報メディア学会，2018年12月10日，第42巻第44号，pp.39～42

【文献】閔庚甫外２名，ビデオ画像における人間の歩行動作の３次元トラッキング，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，2006年05月18日，第106巻第74号，pp.7～12

【文献】Phyo Cho Nilar et al.，“Skeleton motion history based human action recognition using deep learning”，2017 IEEE 6th Global Conference on Consumer Electronics (GCCE)[online]，IEEE，2017年，pp.1-2，[検索日 2024.5.7], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8229448>，DOI: 10.1109/GCCE.2017.8229448

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８－３／０４８９

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

Ｈ０４Ｎ７／１０

Ｈ０４Ｎ７／１４－７／１７３

Ｈ０４Ｎ７／２０－７／５６

Ｈ０４Ｎ２１／００－２１／８５８

ＣＳＤＢ（日本国特許庁）

(57)【特許請求の範囲】

【請求項1】

映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、
入力された映像について、現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出する複数フレーム抽出手段と、
当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、
当該複数フレーム画像の各々について、前記第１の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、
前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第２の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す１枚の骨格軌跡特徴画像を生成する骨格軌跡特徴画像生成手段と、
前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、
前記現フレーム画像に対応して、当該衝撃提示用の情報を含む触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、
を備えることを特徴とする触覚メタデータ生成装置。

【請求項2】

前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した１枚の画像とすることを特徴とする、請求項１に記載の触覚メタデータ生成装置。

【請求項3】

前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した１枚の画像とすることを特徴とする、請求項１又は２に記載の触覚メタデータ生成装置。

【請求項4】

前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする、請求項１から３のいずれか一項に記載の触覚メタデータ生成装置。

【請求項5】

当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を更に備え、
前記人物動作認識手段は、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする、請求項１から４のいずれか一項に記載の触覚メタデータ生成装置。

【請求項6】

請求項１から５のいずれか一項に記載の触覚メタデータ生成装置と、
触覚刺激を提示する触覚提示デバイスと、
前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、
を備えることを特徴とする映像触覚連動システム。

【請求項7】

コンピュータを、請求項１から５のいずれか一項に記載の触覚メタデータ生成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。

【背景技術】

【0002】

放送映像等の一般的なカメラ映像の映像コンテンツは、視覚と聴覚の２つの感覚に訴える情報を提供するメディアである。しかし、視覚障害者や聴覚障害者に対しては視聴覚情報だけでは不十分であり、番組コンテンツの状況を正確に伝えることができない。そのため、テレビを持っていない、若しくは持っていても視聴しない障害者も多い。そこで、映像コンテンツに対し、視覚・聴覚以外の“触覚”で感じられる情報を提示することで、視覚又は聴覚の障害者もテレビ放送を理解できるシステムの構築が望まれる。

【0003】

また、視覚・聴覚の感覚を有する健常者にとっても、また、触覚刺激を提示することにより放送番組の視聴時の臨場感や没入感の向上が期待できる。特に、スポーツコンテンツにおける人物の動きは重要な情報であり、これを触覚刺激で提示することにより、コンテンツ視聴における臨場感が高まる。

【0004】

例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第３の感覚として期待されている。

【0005】

特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、プレーの種類、タイミング、状況などに関する選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。そして、視覚又は聴覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。

【0006】

このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

【0007】

しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。

【0008】

収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。

【0009】

近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを３次元的に追跡し、ジャッジに絡むＩＮ／ＯＵＴの判定を行っている。また２０１４年のＦＩＦＡワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設定し、フィールド内の全選手をリアルタイムに追跡するＴＲＡＣＡＢシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。

【0010】

一方で、動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている（例えば、特許文献１，２，３参照）。

【0011】

例えば、特許文献１では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の３次元位置を計測する装置が開示されている。また、特許文献２では、体操競技などの映像とモーションキャプチャデータから得られる情報を利用し、動作認識を施す技術が開示されており、隠れマルコフモデルを利用し、動作の時間的長短の制約を取り除いていることに特長を有している。また、特許文献３には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。

【0012】

また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている（例えば、特許文献４参照）。特許文献４の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設定したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。

【0013】

ところで、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。即ち、通常のカメラ映像から選手の姿勢を計測することで、競技に影響を与えず、触覚刺激に関する情報を取得することが可能である。

【0014】

骨格情報の取得により、人物の姿勢を計測することは可能であるが、その姿勢の意味付けには認識処理が必要となる。例えば、柔道の映像を入力した際、当該フレームで行われている動作内容が「組み合い」なのか「投げ技」なのか「寝技」なのかは、画像特徴や骨格特徴から判別する必要がある。画像処理における認識処理で広く用いられているのがConvolutional Neural Network （ＣＮＮ）である。ＣＮＮは、何段もの深い層を持つニューラルネットワークで、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。

【0015】

一般的なニューラルネットワークでは層状にニューロンを配置し、前後の層に含まれるニューロン同士は網羅的に結線するのが普通であるが、この畳み込みニューラルネットワークではこのニューロン同士の結合をうまく制限し、尚且つウェイト共有という手法を使うことで、画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現している。この層は「畳み込み層」と呼ばれ、ＣＮＮの最大の特徴となっている。また、この畳み込みニューラルネットワークにおいて、もうひとつ大きな特徴が、「プーリング層」である。ＣＮＮにおいて、「畳み込み層」が画像からのエッジ抽出等の特徴抽出の役割を果たしているとすると、「プーリング層」はそうした抽出された特徴が、平行移動などでも影響を受けないようにロバスト性を与えている。

【0016】

他方では、骨格情報を利用する以外にも、画像から動作を認識する手法として、Motion History Image（ＭＨＩ）と呼ばれる画像が従来使われてきた（例えば、非特許文献１、特許文献５参照）。ＭＨＩは、フレームごとに輝度差分が生じた領域を高い輝度で塗りつぶし、以降のフレームでは徐々にその輝度を下げて描画した画像であり、動オブジェクトの動きの向きの情報を持つ１枚の画像となっている。

【0017】

特許文献５では、画像認識技術を用いて野球映像から投球動作を検出する技術が開示されており、野球映像に対してMotion History Image（ＭＨＩ）を作成し、投球動作を検出するものとなっている。ただし、特許文献５に開示される技法のＭＨＩは骨格検出を行っておらず、詳細な動作の認識は困難である。

【0018】

そこで、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像（ボーン画像）についてＭＨＩを生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image（ＳｋｌＭＨＩ）と称される技術も開示されている（例えば、非特許文献２参照）。

【先行技術文献】

【特許文献】

【0019】

【文献】特開２００２－８０６３号公報

【文献】特開２００２－２５３７１８号公報

【文献】特開２０２０－３８４４０号公報

【文献】特開２０１８－１８７３８３号公報

【文献】特開２００８－２２１４２号公報

【非特許文献】

【0020】

【文献】“Motion History Image”、［online］、［令和２年９月１５日検索］、インターネット〈https://web.cse.ohio-state.edu/~davis.1719/CVL/Research/MHI/mhi.html〉

【文献】C. N. Ohyo, T. T. Zin, P. Tin., “Skeleton motion history based human action recognition using deep learning”、［online］、［令和２年９月１５日検索］、インターネット〈https://ieeexplore.ieee.org/document/8229448〉

【発明の概要】

【発明が解決しようとする課題】

【0021】

上述したように、従来、一般的には、映像コンテンツに触覚情報を付与する際は、刺激の種類やタイミングを人手で編集する必要があった。そのため、生放送番組での触覚情報提示は不可能であった。リアルタイム映像解析により、触覚情報抽出を自動化できれば、生放送番組でも触覚情報を提供できる。そして、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

【0022】

特に、スポーツ中継はリアルタイム性が重視されるコンテンツである。そのため、競技に関する触覚情報もリアルタイムで付与され、映像と同時に提示される必要がある。選手の動きに同期した触覚刺激が効果的な場合が多く、映像から触覚メタデータを抽出する場合には、カメラ映像からリアルタイムで選手の動きを解析する必要がある。競技に影響を与えないため、マーカー装着によるモーションキャプチャーや、撮影距離に制限のある深度センサなどは用いず、通常の放送カメラ映像から触覚メタデータを抽出することが望ましい。

【0023】

つまり、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成する技法が望まれる。

【0024】

また、人物オブジェクトの動きを高精度に検出するために、人物以外の動オブジェクト（例えば、バドミントン競技であればシャトル、ラケット）を参考する技法も考えられるが、参考とする人物以外の動オブジェクトが存在しない競技（例えば、柔道やレスリング等）においても、人物オブジェクトの動きを高精度に検出する技法が望まれる。

【0025】

尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。

【0026】

ところで、動作認識の機械学習として、旧来の教師あり学習手法であるＳＶＭなどを用いることで高速に動作認識できるものの、近年発展が望ましい深層学習を利用することで、更なる精度向上が期待できる。映像解析に基づく動作認識にはＣＮＮが用いられることが多い。しかし、ＣＮＮは静止画像ベースの識別アルゴリズムであり、時間軸が考慮されない。映像シーンの動作内容を理解するには、人物の動きに関する特徴量を扱う必要があるが、静止画には時間軸の情報が含まれないため、ＣＮＮの動作内容を高精度な識別は期待できない。

【0027】

このため、ＣＮＮにより画像から動作を認識する手法として、Motion History Image（ＭＨＩ）と呼ばれる画像を利用することが考えられる。このＭＨＩを解析することで、 “腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを認識判定することが可能になる。ただし、ＭＨＩは人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。例えば、特許文献５に開示されるような、野球映像に対してMotion History Image（ＭＨＩ）を作成し、投球動作を検出するには、背景に含まれるノイズの影響を抑えるために投手の領域を高精度に検出する必要があり、更に、骨格検出を行うものではないため詳細な動作の認識は困難である。

【0028】

そこで、非特許文献２に開示されるように、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像（ボーン画像）についてMotion History Image（ＭＨＩ）を生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image（ＳｋｌＭＨＩ）と称される技術により、動作認識の精度向上が実現されるが、より一層の動作認識の精度向上が要望される。

【0029】

本発明の目的は、上述の問題に鑑みて、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。

【課題を解決するための手段】

【0030】

本発明の触覚メタデータ生成装置は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、入力された映像について、現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出する複数フレーム抽出手段と、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、当該複数フレーム画像の各々について、前記第１の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第２の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す１枚の骨格軌跡特徴画像を生成する骨格軌跡特徴画像生成手段と、前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、前記現フレーム画像に対応して、当該衝撃提示用の情報を含む触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、を備えることを特徴とする。

【0031】

また、本発明の触覚メタデータ生成装置において、前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した１枚の画像とすることを特徴とする。

【0032】

また、本発明の触覚メタデータ生成装置において、前記骨格軌跡特徴画像生成手段は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した１枚の画像とすることを特徴とする。

【0033】

また、本発明の触覚メタデータ生成装置において、前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする。

【0034】

また、本発明の触覚メタデータ生成装置において、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を更に備え、前記人物動作認識手段は、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする。

【0035】

また、本発明の映像触覚連動システムは、本発明の触覚メタデータ生成装置と、触覚刺激を提示する触覚提示デバイスと、前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。

【0036】

更に、本発明のプログラムは、コンピュータを、本発明の触覚メタデータ生成装置として機能させるためのプログラムとして構成する。

【発明の効果】

【0037】

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができる。特に、スポーツ映像のリアルタイム視聴時での触覚刺激提示が可能となる。視覚・聴覚への情報提供のみならず、触覚にも提示することで、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。また、一般の晴眼者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。

【図面の簡単な説明】

【0038】

【図1】本発明による一実施形態の触覚メタデータ生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。

【図2】本発明による一実施形態の触覚メタデータ生成装置の処理例を示すフローチャートである。

【図3】本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する説明図である。

【図4】（ａ）は１フレーム画像を例示する図であり、（ｂ）は本発明による一実施形態の触覚メタデータ生成装置における１フレーム画像における人物骨格抽出例を示す図である。

【図5】（ａ），（ｂ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。

【図6】（ａ）は、本発明に係る骨格軌跡特徴画像（ＳＴＩ：Skeleton Trajectory Image）の画像例を示す図であり、（ｂ）は、その軌跡特徴画像（ＳＴＩ）の説明図である。

【図7】（ａ）は１フレーム画像例を模擬的に示した図であり、（ｂ）は従来技術のボーン画像例、（ｃ）は従来技術のＳｋｌＭＨＩ（Skeleton Motion History Image）の画像例、（ｄ）は本発明に係る骨格軌跡特徴画像（ＳＴＩ）の画像例を示す図である。

【図8】従来技術のボーン画像、従来技術のＳｋｌＭＨＩ、及び本発明に係る骨格軌跡特徴画像（ＳＴＩ）の人物動きの検出精度の比較評価を示す図である。

【図9】本発明による一実施形態の映像触覚連動システムにおける制御ユニットの概略構成を示すブロック図である。

【発明を実施するための形態】

【0039】

（システム構成）
以下、図面を参照して、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１について詳細に説明する。図１は、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１の概略構成を示すブロック図である。

【0040】

図１に示す映像触覚連動システム１は、カメラや記録装置等の映像出力装置１０から映像を入力し、入力された映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータ（第１の触覚メタデータと第２の触覚メタデータの２種類）を同期して自動生成する触覚メタデータ生成装置１２と、生成した触覚メタデータを基に、本例では２台の触覚提示デバイス１４Ｌ，１４Ｒと、各触覚提示デバイス１４Ｌ，１４Ｒを個別に駆動制御する制御ユニット１３と、を備える。

【0041】

まず、映像出力装置１０が出力する映像は、一例として柔道競技をリアルタイムで撮影されたものとしてディスプレイ１１に表示され、ユーザＵによって視覚されるものとする。

【0042】

柔道競技は、二人の選手が組み合って、「抑え込み」や「投げ」などの技を競うスポーツであり、各人物に衝撃が生じた瞬間や各人物の動きの状況変化を触覚提示デバイス１４Ｌ，１４Ｒにより触覚刺激としてユーザＵに提示することで、より臨場感を高め、また視聴覚障害者にも試合状況を伝えることが可能である。

【0043】

特に、柔道競技では、映像上で選手同士の重なりやオクルージョンが多数生じるため、各選手に生じる衝撃の種類に応じたタイミングと速さ以外にも、各選手の押し引きなどの組み合い、投げ等に係る動作状況を連続的に触覚提示できるようにすることで、視覚や聴覚の障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。

【0044】

そこで、ユーザＵは、左手ＨＬで触覚提示デバイス１４Ｌを把持し、右手ＨＲで触覚提示デバイス１４Ｒを把持して、本例では映像解析に同期した振動刺激が提示されるものとする。制御ユニット１３は、触覚メタデータ生成装置１２から得られる各人物オブジェクトＯｐ１，Ｏｐ２に生じる衝撃の種類に応じたタイミングと速さを示す衝撃提示用の情報を含む触覚メタデータを基に、各人物オブジェクトＯｐ１，Ｏｐ２に対応付けられた２台の触覚提示デバイス１４Ｌ，１４Ｒの触覚提示を個別に制御する。ただし、制御ユニット１３は、１台の触覚提示デバイスに対してのみ駆動制御する形態でもよいし、３台以上の触覚提示デバイスに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット１３は、映像内の人物オブジェクトＯｐ１（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｌで、人物オブジェクトＯｐ２（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｒで提示するように分類して制御するものとする。

【0045】

触覚提示デバイス１４Ｌ，１４Ｒは、球状のケース１４１内に、制御ユニット１３の制御によって振動刺激を提示可能な振動アクチュエーター１４２が収容されている。尚、触覚提示デバイス１４Ｌ，１４Ｒは、振動刺激の他、電磁気パルス刺激を提示するものでもよい。本例では、制御ユニット１３と各触覚提示デバイス１４Ｌ，１４Ｒとの間は有線接続され、触覚メタデータ生成装置１２と制御ユニット１３との間も有線接続されている形態を例に説明するが、それぞれ近距離無線通信で無線接続されている形態としてもよい。

【0046】

触覚メタデータ生成装置１２は、複数フレーム抽出部１２１、人物骨格抽出部１２２、人物識別部１２３、骨格軌跡特徴画像生成部１２４、動オブジェクト検出部１２５、人物動作認識部１２６、及びメタデータ生成部１２７を備える。

【0047】

複数フレーム抽出部１２１は、映像出力装置１０から入力された映像について、現フレーム画像とＴ（Ｔは１以上の整数）フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出し、人物骨格抽出部１２２及び動オブジェクト検出部１２５に出力する。

【0048】

人物骨格抽出部１２２は、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト（以下、単に「人物」とも称する。）Ｏｐ１，Ｏｐ２の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成し、現フレーム画像を含む当該複数フレーム画像とともに、人物識別部１２３に出力する。

【0049】

人物識別部１２３は、当該複数フレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に探索範囲（詳細は後述する。）を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成し、骨格軌跡特徴画像生成部１２４に出力する。

【0050】

骨格軌跡特徴画像生成部１２４は、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合Ｐ^ｉ _ｂを基に、識別した人物骨格毎の動きの方向のみを示す１枚の骨格軌跡特徴画像を生成し、人物動作認識部１２６に出力する。ここで、骨格軌跡特徴画像について、その詳細は後述するが、本願明細書中、ＳＴＩ（Skeleton Trajectory Image）と名付けている。

【0051】

動オブジェクト検出部１２５は、本例のような柔道競技の動きの認識のためには必ずしも設ける必要はないが、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち骨格軌跡特徴画像生成部１２４から得られる骨格軌跡特徴画像（ＳＴＩ）と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像生成部１２４に出力する。この場合、骨格軌跡特徴画像生成部１２４は、骨格軌跡特徴画像（ＳＴＩ）上に、動オブジェクト軌跡画像を追加して描画（合成）したものを人物動作認識部１２６に出力する。

【0052】

人物動作認識部１２６は、骨格軌跡特徴画像（ＳＴＩ）を入力とするＣＮＮ（畳み込みニューラルネットワーク）により、人物の特定動作を認識し、触覚提示デバイス１４Ｌ，１４Ｒを作動させる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を検出し、メタデータ生成部１２７に出力する。

【0053】

メタデータ生成部１２７は、現フレーム画像に対応して、人物動作認識部１２６から得られる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む触覚メタデータ（衝撃提示用）を生成し、フレーム単位で制御ユニット１３に出力する。

【0054】

以下、より具体的に、図２を基に、図３乃至図６を参照しながら、触覚メタデータ生成装置１２における触覚メタデータ生成処理について説明する。

【0055】

（触覚メタデータ生成処理）
図２は、本発明による一実施形態の触覚メタデータ生成装置１２の処理例を示すフローチャートである。そして、図３は、触覚メタデータ生成装置１２における人物骨格抽出処理に関する説明図である。また、図４（ａ）は１フレーム画像を例示する図であり、図４（ｂ）は触覚メタデータ生成装置１２における１フレーム画像における人物骨格抽出例を示す図である。図５（ａ），（ｂ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置１２における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。図６（ａ）は、本発明に係る骨格軌跡特徴画像（ＳＴＩ）の画像例を示す図であり、図６（ｂ）は、その軌跡特徴画像（ＳＴＩ）の説明図である。

【0056】

図２に示すように、触覚メタデータ生成装置１２は、まず、複数フレーム抽出部１２１により、映像出力装置１０から入力された映像について、現フレーム画像とＴ（Ｔは１以上の整数）フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出する（ステップＳ１）。

【0057】

続いて、触覚メタデータ生成装置１２は、人物骨格抽出部１２２により、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトＯｐ１，Ｏｐ２の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成する（ステップＳ２）。

【0058】

近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose（NextSystem社）に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部１２２は、VisionPoseを用いて、図３に示すように、フレーム画像毎に人物の骨格３０点を検出し、その位置座標を示す骨格座標集合Ｐ^ｎ _ｂを生成する。

【0059】

VisionPoseでは、図３において、Ｐ^ｎ _１：“頭”、Ｐ^ｎ _２：“鼻”、Ｐ^ｎ _３：“左目”、Ｐ^ｎ _４：“右目”、Ｐ^ｎ _５：“左耳”、Ｐ^ｎ _６：“右耳”、Ｐ^ｎ _７：“首”、Ｐ^ｎ _８：“背骨（肩）”、Ｐ^ｎ _９：“左肩”、Ｐ^ｎ _１０：“右肩”、Ｐ^ｎ _１１：“左肘”、Ｐ^ｎ _１２：“右肘”、Ｐ^ｎ _１３：“左手首”、Ｐ^ｎ _１４：“右手首”、Ｐ^ｎ _１５：“左手”、Ｐ^ｎ _１６：“右手”、Ｐ^ｎ _１７：“左親指”、Ｐ^ｎ _１８：“右親指”、Ｐ^ｎ _１９：“左指先”、Ｐ^ｎ _２０：“右指先”、Ｐ^ｎ _２１：“背骨（中央）”、Ｐ^ｎ _２２：“背骨（基端部）”、Ｐ^ｎ _２３：“左尻部”、Ｐ^ｎ _２４：“右尻部”、Ｐ^ｎ _２５：“左膝”、Ｐ^ｎ _２６：“右膝”、Ｐ^ｎ _２７：“左足首”、Ｐ^ｎ _２８：“右足首”、Ｐ^ｎ _２９：“左足”、及び、Ｐ^ｎ _３０：“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。

【0060】

このVisionPoseの骨格検出アルゴリズムに基づき、図４（ａ）に示す柔道競技の１フレーム画像Ｆに対して、人物の骨格抽出を行ったフレーム画像Ｆａを図４（ｂ）に示している。図４（ａ）に示すフレーム画像Ｆには、各人物オブジェクトＯｐ１，Ｏｐ２（選手）のみが映り込んでいる様子を示しているが、その他の人物オブジェクトである審判の動オブジェクトが映り込むことや、別のスポーツ競技であれば人物以外の動オブジェクト（バドミントン競技であればラケットやシャトル等）、或いは観客等のオブジェクト（実質的には、静オブジェクト）が写り込むことがある。しかし、VisionPoseの骨格検出アルゴリズムを適用すると、選手及び審判の人物オブジェクトの人物についてのみ人物の骨格抽出を抽出することができる。本例では、図４（ｂ）に示すように、人物オブジェクトＯｐ１，Ｏｐ２にそれぞれ対応する骨格座標集合Ｐ^１ _ｂ，Ｐ^２ _ｂを推定して生成することができる。図４（ｂ）からも理解されるように、柔道競技においても、比較的精度よく各人物の骨格を推定できる。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚メタデータ生成装置１２は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を１枚の骨格軌跡特徴画像（ＳＴＩ）に描画し、ＣＮＮにより時間軸を考慮した高精度な動作認識を行う。

【0061】

続いて、触覚メタデータ生成装置１２は、人物識別部１２３により、当該複数フレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に探索範囲を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する（ステップＳ３）。

【0062】

前述した人物骨格抽出部１２２により、当該複数フレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂとして、１以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合Ｐ^ｎ _ｂでは、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合Ｐ^ｎ _ｂの座標付近の画像情報を利用する。即ち、人物識別部１２３は、骨格座標集合Ｐ^ｎ _ｂを基に、各人物の骨格の位置及びサイズと、その周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を抽出することにより、人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する。

【0063】

例えば、柔道では白と青の道着で試合が行われるが、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置付近の画像情報として、フレーム画像Ｆにおける色情報を参照することで、選手の識別が可能になる。また、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置がフレーム画像Ｆにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。

【0064】

従って、人物骨格抽出部１２２における骨格検出アルゴリズムは静止画単位での推定に留まるが、骨格座標集合Ｐ^ｎ _ｂを基に動オブジェクトとしての人物を認識することができる。

【0065】

尚、前述した人物骨格抽出部１２２では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。

【0066】

ところで、本実施形態の人物識別部１２３は、各人物の重なりやオクルージョンにも対応するため、フレーム画像単位で探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）を可変設定する。例えば、図５（ａ）に示す人物オブジェクトＯｐ１，Ｏｐ２（選手）と、人物オブジェクトＯｐ３（審判）について、人物骨格抽出部１２２により各骨格座標集合Ｐ^ｎ _ｂ（図示略）の抽出が行われると、人物識別部１２３は、フレーム画像単位で人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉを可変設定することができる。この探索範囲Ｒ^ｉは、図５（ａ）において、人物ＩＤ（ｉ）ごとに設定し、フレーム画像の画像座標上での人物の位置座標、及び人物の大きさ（幅及び高さ）を有するものとして外接矩形で表している。また、各人物の腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）を囲む領域を注目探索範囲Ｒｂ^ｉとして表している。

【0067】

より具体的には、本実施形態の人物識別部１２３は、各フレーム画像で人物の探索範囲を、最大で人物骨格の全体を囲む人物探索範囲Ｒ^ｉに限定し、最小で人物骨格のうち所定領域（本例では腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）を囲む領域）を注目探索範囲Ｒｂ^ｉとして定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Ｒｂ^ｉを含むように探索範囲を決定して、当該人物オブジェクトを識別する処理を行う。これにより、例えば図５（ｂ）に示すように各人物の動作が変化した場合やフレーム画像に対する相対的な人物の大きさが変化した場合でも、他の人物の誤認識を防ぎ、また処理速度も向上できる。特に、柔道のように識別対象の人物の重なりが激しく、背景も複雑な映像から精度よく選手を識別するには探索範囲の利用が有効である。

【0068】

つまり、本実施形態の人物識別部１２３は、各選手及び審判の人物オブジェクトのＯｐ１，Ｏｐ２，Ｏｐ３における各骨格座標集合Ｐ^ｎ _ｂのうち、色識別を可能とする所定範囲（本例では腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）の色（青、白、茶色））を注目探索範囲Ｒｂ^ｉとして予め定めているので、検出した複数の人物の骨格座標集合Ｐ^ｎ _ｂが重なる場合には注目探索範囲Ｒｂ^ｉに絞って探索することで、各フレーム画像で精度よく人物を抽出・追跡できる。尚、背景に解析対象以外の骨格を検出する場合もあるため、解析対象の人物の骨格には、人物ＩＤ（ｉ）を付与して判別することで、追跡対象の人物の骨格座標Ｐ^ｉ _ｂを識別できる。

【0069】

そして、探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）の広さや形の決定は、カルマンフィルタやパーティクルフィルタなどの状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Ｒｂ^ｉ（本例では、各人物の腰領域）を含むように決定する。

【0070】

そして、探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）の安定検出時には範囲を狭め、検出が不安定な際には範囲を広げることができ、例えば、人物ＩＤ（ｉ）ごとに人物の骨格の状態遷移推定値に基づいて定めた探索範囲を設定し、その状態遷移推定値が直前フレームから所定値以内であれば安定とし、そうでなければ不安定とすることや、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、Ｔフレーム分の時間窓間に、検出に成功した割合を計算し、その割合が所定値以上であれば安定とし、当該所定値を下回った場合に不安定とすることで、探索範囲を可変設定することができる。

【0071】

続いて、触覚メタデータ生成装置１２は、骨格軌跡特徴画像生成部１２４により、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合Ｐ^ｉ _ｂを基に、識別した人物骨格毎の動きの方向のみを示す１枚の骨格軌跡特徴画像（ＳＴＩ）を生成する（ステップＳ４）。

【0072】

ここで、骨格軌跡特徴画像（ＳＴＩ）の描画生成にあたって、まず、任意のフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（ｔ）とし、現フレーム画像をｔ＝０として現フレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（０）で表し、過去Ｔフレームのフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（Ｔ）で表す。つまり、骨格軌跡特徴画像生成部１２４は、現フレーム画像のフレーム番号をｔ＝０として、過去Ｔフレームまでのフレーム番号をｔ＝Ｔで表すと、現フレーム画像を基準に、ｔ＝０，１，…，Ｔの各フレーム画像Ｆを用いて、識別した人物骨格毎の動きの方向のみを示す１枚の骨格軌跡特徴画像（ＳＴＩ）を生成することができる。骨格軌跡特徴画像（ＳＴＩ）は、いわば現フレーム画像を基準に過去のオプティカルフローを連結し、１枚の画像として時間軸の情報を含んだものである。

【0073】

この骨格軌跡特徴画像（ＳＴＩ）における軌跡特徴量のデュレーションとなるＴは、任意に設定可能である。また、１枚の骨格軌跡特徴画像（ＳＴＩ）の生成に用いる骨格座標は、必ずしも図３に示す３０点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。

【0074】

骨格軌跡特徴画像（ＳＴＩ）は、現フレーム画像から過去Ｔフレーム分のフレーム画像における各人物の骨格座標を利用し、各人物の骨格座標ごとに連結した軌跡を描画するものとし、且つこの描画の際に、過去に向かうほど輝度を下げか、又は上げて描画して生成した１枚の画像とする。好適には、骨格軌跡特徴画像（ＳＴＩ）は、現フレームからＴフレーム分の過去のフレーム画像における各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き（遷移）をフレーム単位で時系列に階調するよう描画したものとする。

【0075】

例えば、現フレームから過去Ｔフレームまで、各人物の骨格座標ごとに連結した軌跡を描画する際に、その輝度ｂを
ｂ＝２５５×（Ｔ－ｔ）／Ｔ
として定めたものとする。

【0076】

また、過去に遡るほど輝度を上げるように描画してもよく、この場合には、
ｂ＝２５５×ｔ／Ｔ
とすることができる。

【0077】

ここで、ｔ＝０を現フレーム画像とし過去Ｔフレーム分を処理対象とするとき（ｔ＝０～Ｔ）、ｂを０～２５５とし、その値を、各人物の骨格座標ごとに色分けして表現するのが好適である。例えば、図６（ａ）は、本発明に係る骨格軌跡特徴画像（ＳＴＩ）の画像例を示す図である。図６（ａ）ではグレイスケール表示として認識処理に用いるとしているが、好適には、図６（ｂ）に示す軌跡特徴画像（ＳＴＩ）の説明図に示すように、例えば背景は輝度として最低値の“黒”（若しくは輝度として最高値の“白”でもよい。）、いずれの人物オブジェクトＯｐ１，Ｏｐ２についても、例えば“頭”（Ｐ^１ _１），（Ｐ^２ _１）の色を“青”に、“左指先” （Ｐ^１ _１９），（Ｐ^２ _１９）の色を“赤”とするなど、予め区別可能とする色で色分けして描画する。また、本実施例では、図６（ｂ）に示すように人物オブジェクトＯｐ１，Ｏｐ２を区別する色分けを施していないが、各人物オブジェクトＯｐ１，Ｏｐ２をも色分けするとしてもよく、例えば２名の人物に対し最大３０点の骨格座標を色分けするには、６０色を定義すればよい。そして、本発明に係る骨格軌跡特徴画像（ＳＴＩ）は、各人物の骨格座標ごとに色を固定したまま、輝度のみが元フレーム画像から過去へ遡るほど暗く（もしくは明るく）描画するものとする。

【0078】

従って、骨格軌跡特徴画像生成部１２４は、骨格軌跡特徴画像（ＳＴＩ）として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き（遷移）をフレーム単位で時系列に階調するよう描画したものとする。

【0079】

また、骨格軌跡特徴画像生成部１２４は、動オブジェクト検出部１２５の機能により、球技の場合はボールなど、人物骨格以外の軌跡を併せて骨格軌跡特徴画像（ＳＴＩ）上に描画することができる。この場合、ボールの移動方向などが特徴量に付加されるため、動作認識の判定精度が向上する。

【0080】

即ち、触覚メタデータ生成装置１２は、動オブジェクト検出部１２５により、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち骨格軌跡特徴画像生成部１２４から得られる骨格軌跡特徴画像（ＳＴＩ）と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像生成部１２４に出力する。この場合、骨格軌跡特徴画像生成部１２４は、骨格軌跡特徴画像（ＳＴＩ）上に、動オブジェクト軌跡画像を追加して描画（合成）したものを人物動作認識部１２６に出力する（ステップＳ５）。

【0081】

即ち、動オブジェクト検出部１２５は、競技に関わる人物以外の動オブジェクトが存在しない、柔道競技のような場合では必要とされないが（処理として設けていても弊害が無い。）、競技に関わる人物以外の動オブジェクトが存在する場合（例えばバドミントン競技のシャトルやラケット、卓球やテニス競技のボールやラケット等）、その人物以外の動オブジェクトの動きの軌跡を検出し、動オブジェクト軌跡画像として生成し、骨格軌跡特徴画像生成部１２４に対して、骨格軌跡特徴画像（ＳＴＩ）上に、動オブジェクト軌跡画像を追加して描画（合成）させる。これにより、例えば競技に関わる人物以外の動オブジェクトが存在する場合、競技に関わる人物の動きに関わる情報が増えるため、後段の人物動作認識部１２６における人物動作の認識精度が向上する。このため、動オブジェクト検出部１２５を設けておくことで、任意の競技に対して同処理で対応できるため、汎用性のある触覚メタデータ生成装置１２を構成できる。

【0082】

続いて、触覚メタデータ生成装置１２は、人物動作認識部１２６により、骨格軌跡特徴画像（ＳＴＩ）を入力とするＣＮＮ（畳み込みニューラルネットワーク）により、人物の特定動作を認識し、触覚提示デバイス１４Ｌ，１４Ｒを作動させる所定の衝撃提示用の情報を検出する（ステップＳ６）。衝撃提示用の情報には、現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報が含まれる。

【0083】

尚、ＣＮＮによる機械学習時には、事前に学習用の骨格軌跡特徴画像（ＳＴＩ）を作成して学習させておく。このように、人物動作認識部１２６における認識処理には、深層学習の一つであるＣＮＮ（畳み込みニューラルネットワーク）を用いる。ＣＮＮは、何段もの深い層を持つニューラルネットワークであり、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。「畳み込み層」の処理により高い精度を、「プーリング層」の処理により撮影画角に依存しない汎用性を実現している。

【0084】

このＣＮＮを用いて骨格軌跡特徴画像（ＳＴＩ）を解析することで、「組み合い」や「投げ」、「寝技」などの動作イベントを、選手の撮影サイズや位置に依存せずに高い精度で識別することが可能となり、これらの情報を基に触覚デバイス１４Ｌ，１４Ｒを制御するための触覚メタデータを生成することで、スポーツ映像のリアルタイム視聴時でも触覚刺激を提示することが可能となる。

【0085】

最終的に、触覚メタデータ生成装置１２は、メタデータ生成部１２７により、現フレーム画像に対応して、人物動作認識部１２６から得られる所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む触覚メタデータ（衝撃提示用）を生成し、フレーム単位で制御ユニット１３に出力する（ステップＳ７）。

【0086】

（実験検証）
本発明に係る触覚メタデータ生成装置１２の有効性を示すため、評価実験を行った。
図７（ａ）は１フレーム画像例を模擬的に示した図であり、図７（ｂ）は従来技術のボーン画像例、図７（ｃ）は従来技術のＳｋｌＭＨＩ（Skeleton Motion History Image）の画像例、図７（ｄ）は本発明に係る骨格軌跡特徴画像（ＳＴＩ）の画像例を示す図である。また、図８は、従来技術のボーン画像、従来技術のＳｋｌＭＨＩ、及び本発明に係る骨格軌跡特徴画像（ＳＴＩ）の人物動きの検出精度の比較評価を示す図である。

【0087】

まず、比較評価する前に、柔道の試合映像（図７（ａ）参照）から、従来技術のボーン画像（図７（ｂ）参照）、従来技術のＳｋｌＭＨＩ（図７（ｃ）参照）、及び本発明に係る骨格軌跡特徴画像（ＳＴＩ）（図７（ｄ）参照）について、正例、負例それぞれ約２，０００枚の画像を作成して、それぞれＣＮＮによる事前学習を行った。

【0088】

そして、別の試合映像で識別した結果を図８に示している。図８では、「立ち合い」、「投げ」、「寝技」、「待て」の４つの試合状況（シーン分類）の識別結果と、「投げ」動作の検出結果の比較として、適合率、再現率、及びこれらの統合的指標であるＦ値（F-Measure）の値を示した。４つの試合状況（シーン分類）の状態の識別判定、及び「投げ」の検出精度のいずれの場合においても、本発明に係る骨格軌跡特徴画像（ＳＴＩ）を用いて学習した場合が最もよい結果が得られた。従って、従来技術のボーン画像や、従来技術のＳｋｌＭＨＩを用いた動作認識よりも、本発明に係る骨格軌跡特徴画像（ＳＴＩ）を用いる触覚メタデータ生成装置１２の有効性を確認できた。尚、ＳｋｌＭＨＩについても骨格座標ごとに色分けを行って評価したが、それでも本発明に係る骨格軌跡特徴画像（ＳＴＩ）を用いた方が動作認識の精度として向上する理由として、ＳｋｌＭＨＩ（ボーン画像も同様）では、各骨格を結ぶ接続線が動作認識に悪影響を及ぼしていると考えられる。

【0089】

（制御ユニット）
図９は、本発明による一実施形態の映像触覚連動システム１における制御ユニット１３の概略構成を示すブロック図である。制御ユニット１３は、メタデータ受信部１３１、解析部１３２、記憶部１３３、及び駆動部１３４‐１，１３４‐２を備える。

【0090】

メタデータ受信部１３１は、触覚メタデータ生成装置１２から触覚メタデータ（衝撃提示用）を入力し、解析部１３２に出力する機能部である。触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、（及びチーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む。

【0091】

解析部１３２は、触覚メタデータ生成装置１２から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、駆動部１３４‐１，１３４‐２を介して、対応する各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するよう制御する機能部である。例えば、解析部１３２は、触覚メタデータにおける人物の識別、位置座標、（及びチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さから、予め定めた駆動基準データを参照して、触覚提示デバイス１４Ｌの振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間を決定して駆動制御する。

【0092】

記憶部１３３は、触覚メタデータに基づいた駆動部１３４‐１，１３４‐２の駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、触覚メタデータに対応付けられた触覚刺激としての振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部１３３は、制御ユニット１３の機能を実現するためのプログラムを記憶している。即ち、制御ユニット１３を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット１３の機能を実現する。

【0093】

駆動部１３４‐１，１３４‐２は、各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するドライバである。

【0094】

このように、本実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させることができるようになる。

【0095】

特に、本実施形態の触覚メタデータ生成装置１２は、カメラの映像を入力とし、その映像を解析して前述のような触覚メタデータを出力するため、まず映像を解析して映像中の人物骨格を検出し、検出した骨格情報を用いて解析対象とする人物を特定し、その後、対象人物の骨格位置の履歴から骨格軌跡特徴画像（ＳＴＩ）を描画生成する。この骨格軌跡特徴画像（ＳＴＩ）上で、ボールなど人物以外の動オブジェクトの軌跡画像を合成してもよい。

【0096】

そして、本実施形態の触覚メタデータ生成装置１２は、この骨格軌跡特徴画像（ＳＴＩ）を入力とするＣＮＮにより、選手の動作イベント（「投げ」、「組み合い」等）、及びその動作の状況を認識し、対応する人物動作の触覚メタデータ（衝撃提示用）を生成する。そして、制御ユニット１３は、本実施形態の触覚メタデータ生成装置１２から得られる触覚メタデータ（衝撃提示用）を基に、映像内の人物オブジェクトＯｐ１（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｌで、人物オブジェクトＯｐ２（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｒで提示するように分類して制御する。

【0097】

従って、本実施形態の映像触覚連動システム１は、「投げ」のような動作イベント以外にも、選手の押し引きなどの状況を連続的に伝えることが可能となり、障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。

【0098】

ところで、従来のMotion History Image（ＭＨＩ）と呼ばれる画像を解析することで、“腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを判定することが可能になるが、人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。一方、本発明に係る骨格軌跡特徴画像（ＳＴＩ）は、このＭＨＩの改善版ともいえる画像特徴量を示す画像であり、各人物の骨格の軌跡、もしくはこれに加えて追跡対象となる人物以外の動オブジェクトの軌跡情報を描画したものとすることで、背景に含まれるノイズの影響を抑えた高精度な認識が可能となる。また、各人物の骨格座標の推移を利用して画像を作成しているため、全身運動のみならず、手や足の部分的な動作の認識も、高い精度で行うことができる。

【0099】

特に、骨格検出アルゴリズムは静止画単位での姿勢推定に留まるが、本発明に係る骨格軌跡特徴画像（ＳＴＩ）は、各骨格位置の推移を軌跡特徴として扱い、この軌跡特徴量を１枚の画像で表現することにより、ＣＮＮによる動作の識別を可能としている。つまり、ＣＮＮでは困難であった時間軸方向の特徴を、本発明に係る骨格軌跡特徴画像（ＳＴＩ）を入力として用いることで高精度な人物動きの動作認識を可能としている。

【0100】

尚、上述した一実施形態の触覚メタデータ生成装置１２をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置（ＣＰＵ）などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態の触覚メタデータ生成装置１２の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。

【0101】

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主として柔道競技の映像解析を例に説明したが、バドミントンや卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。

【産業上の利用可能性】

【0102】

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させる用途に有用である。

【符号の説明】

【0103】

１映像触覚連動システム
１０映像出力装置
１１ディスプレイ
１２触覚メタデータ生成装置
１３制御ユニット
１４Ｌ，１４Ｒ触覚提示デバイス
１２１複数フレーム抽出部
１２２人物骨格抽出部
１２３人物識別部
１２４骨格軌跡特徴画像生成部
１２５動オブジェクト検出部
１２６人物動作認識部
１２７メタデータ生成部
１３１メタデータ受信部
１３２解析部
１３３記憶部
１３４‐１，１３４‐２駆動部
１４１ケース
１４２振動アクチュエーター

【図1】