IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-17904触覚提示装置、自己速度推定装置及びプログラム
<>
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図1
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図2
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図3
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図4
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図5
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図6
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図7
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図8
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図9
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図10
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図11
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図12
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図13
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図14
  • 特開-触覚提示装置、自己速度推定装置及びプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017904
(43)【公開日】2024-02-08
(54)【発明の名称】触覚提示装置、自己速度推定装置及びプログラム
(51)【国際特許分類】
   H04N 21/41 20110101AFI20240201BHJP
【FI】
H04N21/41
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022120856
(22)【出願日】2022-07-28
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】佐々木 桃子
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】望月 貴裕
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164GA07
5C164PA31
5C164PA41
5C164UA51P
5C164UB02S
5C164UB08S
5C164UB41S
5C164YA21
(57)【要約】
【課題】視聴者が一人称視点映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する。
【解決手段】触覚提示装置1の自己速度推定部11は、一人称視点映像Eをサンプリングして複数のフレームを取得し、所定の物体をマスクしたマスク画像を生成し、NN31を用いて、所定数のフレーム及びこれに対応する同じ数のマスク画像に基づき、並進ベクトルを推定し、自己速度vを推定する。音量制御部12は、全てのフレームの自己速度vから最大速度vmaxを抽出し、一人称視点映像Eから低周波音声信号Sを抽出し、自己速度vが所定の閾値以下の場合、最大速度vmax及び自己速度vに基づき、当該自己速度vのフレームに対応する低周波音声信号Sの音量Aを下げることで、新たな低周波音声信号S’を生成する。触覚提示部13は、低周波音声信号S’を触覚デバイス7へ出力する。
【選択図】図1
【特許請求の範囲】
【請求項1】
カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、
前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度とし、当該フレームにおける前記自己速度が予め設定されているとして、
前記一人称視点映像から前記低周波音声信号を抽出し、前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部と、
前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、
を備えたことを特徴とする触覚提示装置。
【請求項2】
カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、
前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度として、
前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成し、所定のNN(ニューラルネットワーク)を用いて、連続する所定数のフレーム及び前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定部と、
前記一人称視点映像から前記低周波音声信号を抽出し、前記自己速度推定部により算出された前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部と、
前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、
を備えたことを特徴とする触覚提示装置。
【請求項3】
請求項1または2に記載の触覚提示装置において、
前記音量制御部は、
前記一人称視点映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、
前記フレームにおける前記自己速度が前記所定の閾値以下の場合、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号の音量を下げて、新たな低周波音声信号を生成し、前記フレームにおける前記自己速度が前記所定の閾値よりも大きい場合、前記フレームに対応する前記低周波音声信号をそのまま前記新たな低周波音声信号として設定する音量低下制御部と、
前記音量低下制御部により生成または設定された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、を備え、
前記触覚提示部は、
前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする触覚提示装置。
【請求項4】
請求項3に記載の触覚提示装置において、
前記音量制御部は、さらに、
前記複数のフレームにおけるぞれぞれの前記自己速度から、最大速度を抽出する最大速度抽出部を備え、
前記音量低下制御部は、
前記最大速度抽出部により抽出された最大速度をvmaxとし、前記フレームにおける前記自己速度をvとし、前記低周波音声信号の音量をAとし、前記新たな低周波音声信号の音量をAnewとして、前記フレームにおける前記自己速度が所定の閾値以下の場合、以下の式:
new=(v/vmax)A
により、前記低周波音声信号の音量を下げて、前記新たな低周波音声信号を生成する、ことを特徴とする触覚提示装置。
【請求項5】
請求項3に記載の触覚提示装置において、
前記音量低下制御部は、
予め設定された最大速度をvmaxとし、前記フレームにおける前記自己速度をvとし、前記低周波音声信号の音量をAとし、前記新たな低周波音声信号の音量をAnewとして、前記フレームにおける前記自己速度が所定の閾値以下の場合、以下の式:
new=(v/vmax)A
により、前記低周波音声信号の音量を下げて、前記新たな低周波音声信号を生成する、ことを特徴とする触覚提示装置。
【請求項6】
請求項2に記載の触覚提示装置において、
前記自己速度推定部は、
前記複数のフレームのそれぞれに対し、予め設定された固定座標の枠にてトリミングを行い、トリミング後の前記複数のフレームのそれぞれについて前記マスク画像を生成し、前記所定のNNを用いて、前記所定数のフレーム及び前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する、ことを特徴とする触覚提示装置。
【請求項7】
カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、
前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度とし、当該フレームにおける前記自己速度が予め設定されているとして、
前記一人称視点映像から前記低周波音声信号を抽出し、前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部、及び、
前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させるためのプログラム。
【請求項8】
カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像における前記視聴者の移動速度を自己速度として推定する自己速度推定装置において、
前記一人称視点映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成するマスク画像生成処理部と、
所定のNN(ニューラルネットワーク)を用いて、前記フレームサンプリング処理部によりサンプリングされた連続する所定数のフレーム、及び前記マスク画像生成処理部により生成された前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定処理部と、
を備えたことを特徴とする自己速度推定装置。
【請求項9】
請求項8に記載の自己速度推定装置において、
さらに、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれに対し、予め設定された固定座標の枠にてトリミングを行うトリミング処理部を備え、
前記マスク画像生成処理部は、
前記トリミング処理部によりトリミングが行われたトリミング後の前記複数のフレームのそれぞれから、前記マスク画像を生成する、ことを特徴とする自己速度推定装置。
【請求項10】
カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像における前記視聴者の移動速度を自己速度として推定する自己速度推定装置を構成するコンピュータを、
前記一人称視点映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成するマスク画像生成処理部、及び、
所定のNN(ニューラルネットワーク)を用いて、前記フレームサンプリング処理部によりサンプリングされた連続する所定数のフレーム、及び前記マスク画像生成処理部により生成された前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定処理部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一人称視点映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する技術、及び一人称視点映像における視聴者の移動速度を自己速度として推定する技術に関する。
【背景技術】
【0002】
従来、映像は主として視覚及び聴覚に関するメディアであるが、第三の感覚として触覚刺激を提示する技術が注目を浴びている。例えば、音楽と連動した触覚刺激を提示する仕組みを椅子に設けた体感音響システムが知られており、また、音を振動に変換する触覚デバイスも知られている。
【0003】
具体的には、この体感音響システムは、椅子に振動子を組み込んでおき、音楽から低音成分を抽出し、振動子により低音成分を振動の触覚情報に変換することで、音楽の聴取者に対し振動の触覚刺激を提示するものである(例えば特許文献1を参照)。
【0004】
また、振動子を椅子に組み込んだ体感音響システムの他、テーマパーク、映画館等において、従来の映像音声に加え、振動等の触覚刺激、及び移動感等の体性感覚刺激を提示する技術も知られている。また、放送通信連携サービスを用いることで、テレビ放送の映像音声に加え、収録した振動の触覚情報を通信経由で伝送する技術も知られている。
【0005】
また、視覚的なディスプレイを用いるゲーム装置において、視的表示と共に、プレイヤーに対し体感を与える技術も知られている(例えば特許文献2を参照)。具体的には、このゲーム装置は、特定の視的表示のタイミングにて、ハイパワーアンプで増幅された信号を低域スピーカへ出力することで、低域スピーカにより、低域音源となる体感をプレイヤーへ提示するものである。
【0006】
また、体感音響システムにおいて、長時間利用しても、視聴者に対し不快感または圧迫感を生じさせることのない技術が知られている(例えば特許文献3を参照)。具体的には、この体感音響システムは、背もたれ及び座部を有するシートと、入力された音声信号を帯域分割して第1の音声信号及び第2の音声信号を出力する帯域分割回路と、第1の音声信号に応じて振動すると共に、振動方向が背もたれのユーザ側表面に対して平行となるように、背もたれ内に配置された第1の振動素子と、第2の音声信号に応じて振動すると共に、振動方向が座部のユーザ側表面に対して平行となるように、座部内に配置された第2の振動素子とを有するものである。
【0007】
このように、映像を視聴しているときに、視覚及び聴覚に加え、第三の感覚である触覚にも刺激を与えることにより、より没入感及び臨場感の高い映像視聴を実現することができる。つまり、音声信号を入力して触覚情報に変換し、連続的に触覚刺激を提示することにより、映像コンテンツへの没入感及び臨場感を高めることができる。
【0008】
このような音声信号を触覚情報に変換し、触覚刺激を視聴者へ提示する試みは、以前から行われている。以下、音声信号を入力して触覚情報に変換し、触覚刺激を提示する方式を「音声入力方式」という。
【0009】
この「音声入力方式」の例として、いす型触覚提示システムがある。このいす型触覚提示システムは、例えばフレキシブルディスプレイにより180度の視野角に表示したトラム等の車両の一人称視点映像に連動し、いす型触覚デバイスが、音声信号を触覚情報に変換して触覚刺激を提示する。これにより、一人称視点映像から受ける視覚刺激及び聴覚刺激、並びに座面及び足元から受ける触覚刺激により、高い没入感を得ることができる。
【0010】
一方で、トラム等の車両から外部を撮影した映像に基づいて、車両の速度を推定する装置が知られている(例えば特許文献4を参照)。この速度推定装置は、過去の映像及び現在の映像から、車両の周囲にある被写体上の特徴点をそれぞれ抽出し、特徴点に基づいて車両の並進方位角を推定し、並進方位角に基づいて車両の速度を推定するものである。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開平3-102499号公報
【特許文献2】特開平6-339576号公報
【特許文献3】特開2008-141477号公報
【特許文献4】特開2014-44093号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
前述の体感音響システムによる音声入力方式は、音声信号を触覚情報に変換し、触覚刺激を提示するものである。この音声入力方式では、実際の音声をベースにしているため、映像音声に対して違和感のない触覚刺激を提示することができる。
【0013】
しかしながら、実際の音声には、環境音及びBGM等の背景音が含まれていることが多く、その音声を用いることで、余分な振動が生じてしまう。
【0014】
例えばトラム等の車両から外部を撮影した車載カメラ映像等の一人称視点映像において、車両が低速で移動または停止しているにもかかわらず、環境音及びBGM等の背景音によって触覚刺激が提示され続けることがあり、映像による視覚と振動による触覚との間でミスマッチが生じてしまうという問題があった。
【0015】
ここで、例えば車両が低速で移動または停止しているか否かを判定するために、前述の速度推定装置を用いることが考えられる。この速度推定装置は、映像内の被写体上の特徴点を検出することで、車両の速度(車両に乗っている人の自己速度)を推定するものである。このため、特徴点が検出される被写体が、車両とは関係なく独立して動く場合には、車両の速度を精度高く推定できないことがあり得るという問題があった。
【0016】
このように、体感音響システムによる音声入力方式においては、没入感をより向上させるために、車両が低速で移動または停止している場合であっても、映像の内容に連動した振動制御を行うことが所望されていた。また、車両速度(車両に乗っている人の自己速度)を推定する場合には、精度の高い速度推定を実現することが所望されていた。
【0017】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、視聴者が一人称視点映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する触覚提示装置及びプログラムを提供することにある。
【0018】
また、本発明の目的は、一人称視点映像から精度の高い自己速度を推定可能な自己速度推定装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0019】
前記課題を解決するために、請求項1の触覚提示装置は、カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度とし、当該フレームにおける前記自己速度が予め設定されているとして、前記一人称視点映像から前記低周波音声信号を抽出し、前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部と、前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、を備えたことを特徴とする。
【0020】
また、請求項2の触覚提示装置は、カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度として、前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成し、所定のNN(ニューラルネットワーク)を用いて、連続する所定数のフレーム及び前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定部と、前記一人称視点映像から前記低周波音声信号を抽出し、前記自己速度推定部により算出された前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部と、前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、を備えたことを特徴とする。
【0021】
また、請求項3の触覚提示装置は、請求項1または2に記載の触覚提示装置において、前記音量制御部が、前記一人称視点映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、前記フレームにおける前記自己速度が前記所定の閾値以下の場合、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号の音量を下げて、新たな低周波音声信号を生成し、前記フレームにおける前記自己速度が前記所定の閾値よりも大きい場合、前記フレームに対応する前記低周波音声信号をそのまま前記新たな低周波音声信号として設定する音量低下制御部と、前記音量低下制御部により生成または設定された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、を備え、前記触覚提示部が、前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする。
【0022】
また、請求項4の触覚提示装置は、請求項3に記載の触覚提示装置において、前記音量制御部が、さらに、前記複数のフレームにおけるぞれぞれの前記自己速度から、最大速度を抽出する最大速度抽出部を備え、前記音量低下制御部が、前記最大速度抽出部により抽出された最大速度をvmaxとし、前記フレームにおける前記自己速度をvとし、前記低周波音声信号の音量をAとし、前記新たな低周波音声信号の音量をAnewとして、前記フレームにおける前記自己速度が所定の閾値以下の場合、以下の式:Anew=(v/vmax)Aにより、前記低周波音声信号の音量を下げて、前記新たな低周波音声信号を生成する、ことを特徴とする。
【0023】
また、請求項5の触覚提示装置は、請求項3に記載の触覚提示装置において、前記音量低下制御部が、予め設定された最大速度をvmaxとし、前記フレームにおける前記自己速度をvとし、前記低周波音声信号の音量をAとし、前記新たな低周波音声信号の音量をAnewとして、前記フレームにおける前記自己速度が所定の閾値以下の場合、以下の式:Anew=(v/vmax)Aにより、前記低周波音声信号の音量を下げて、前記新たな低周波音声信号を生成する、ことを特徴とする。
【0024】
また、請求項6の触覚提示装置は、請求項2に記載の触覚提示装置において、前記自己速度推定部が、前記複数のフレームのそれぞれに対し、予め設定された固定座標の枠にてトリミングを行い、トリミング後の前記複数のフレームのそれぞれについて前記マスク画像を生成し、前記所定のNNを用いて、前記所定数のフレーム及び前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する、ことを特徴とする。
【0025】
さらに、請求項7のプログラムは、カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、前記一人称視点映像に含まれる時系列の複数のフレームのそれぞれについて、当該フレームにおける前記視聴者の移動速度を自己速度とし、当該フレームにおける前記自己速度が予め設定されているとして、前記一人称視点映像から前記低周波音声信号を抽出し、前記フレームにおける前記自己速度が所定の閾値以下の場合、前記フレームに対応する前記低周波音声信号の音量を下げる音量制御部、及び、前記音量制御部により前記音量が下げられた前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させることを特徴とする。
【0026】
さらに、請求項8の自己速度推定装置は、カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像における前記視聴者の移動速度を自己速度として推定する自己速度推定装置において、前記一人称視点映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成するマスク画像生成処理部と、所定のNN(ニューラルネットワーク)を用いて、前記フレームサンプリング処理部によりサンプリングされた連続する所定数のフレーム、及び前記マスク画像生成処理部により生成された前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定処理部と、を備えたことを特徴とする。
【0027】
また、請求項9の自己速度推定装置は、請求項8に記載の自己速度推定装置において、さらに、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれに対し、予め設定された固定座標の枠にてトリミングを行うトリミング処理部を備え、前記マスク画像生成処理部が、前記トリミング処理部によりトリミングが行われたトリミング後の前記複数のフレームのそれぞれから、前記マスク画像を生成する、ことを特徴とする。
【0028】
さらに、請求項10のプログラムは、カメラの位置を視聴者の位置として前記カメラが移動することで撮影された一人称視点映像を入力し、前記一人称視点映像における前記視聴者の移動速度を自己速度として推定する自己速度推定装置を構成するコンピュータを、前記一人称視点映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成するマスク画像生成処理部、及び、所定のNN(ニューラルネットワーク)を用いて、前記フレームサンプリング処理部によりサンプリングされた連続する所定数のフレーム、及び前記マスク画像生成処理部により生成された前記所定数のフレームに対応する同じ数のマスク画像に基づき、前記一人称視点映像における前記視聴者の並進ベクトルを推定し、前記並進ベクトルに基づいて、前記フレームにおける前記自己速度を算出する自己速度推定処理部として機能させることを特徴とする。
【発明の効果】
【0029】
以上のように、本発明によれば、視聴者が一人称視点映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成することができる。また、本発明によれば、一人称視点映像から精度の高い自己速度を推定することができる。
【図面の簡単な説明】
【0030】
図1】第1の触覚提示装置の構成例を示すブロック図である。
図2図1に示す触覚提示装置の処理例を示すフローチャートである。
図3】自己速度推定部の構成例を示すブロック図である。
図4図3に示す自己速度推定部の処理例を示すフローチャートである。
図5】自己速度推定処理部の構成例を示すブロック図である。
図6】自己速度推定部の他の構成例を示すブロック図である。
図7】音量制御部の構成例を示すブロック図である。
図8図7に示す音量制御部の処理例を示すフローチャートである。
図9】5.1ch形式の一人称視点映像Eを再生する場合の触覚提示部の構成例を示す図である。
図10】一人称視点映像Eのフレームの例及びマスク画像の例を示す図である。
図11】自己速度vの推定結果を示す図である。
図12】一人称視点映像E1のフレームの例及びトリミング後のフレームの例を示す図である。
図13】第2の触覚提示装置の構成例を示すブロック図である。
図14】第1の自己速度推定装置の構成例を示すブロック図である。
図15】第2の自己速度推定装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0031】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔触覚提示装置/第1の例〕
まず、第1の触覚提示装置について説明する。図1は、第1の触覚提示装置の構成例を示すブロック図であり、図2は、図1に示す触覚提示装置の処理例を示すフローチャートである。
【0032】
この触覚提示装置1は、自己速度推定部11、音量制御部12及び触覚提示部13を備えている。触覚提示装置1は、一人称視点映像Eから自己速度vを推定し、自己速度vに基づいて、振動の元となる低周波音声信号Sの音量Aを制御して音量制御済映像E’を生成し、音量制御済映像E’から制御後の低周波音声信号S’を抽出して触覚デバイス7へ出力する。これにより、視聴者による一人称視点映像Eの視聴時の没入感を向上させることができる。
【0033】
自己速度推定部11は、一人称視点映像Eを入力し(ステップS201)、一人称視点映像Eをサンプリングし、一人称視点映像Eに含まれる時系列の複数のフレームのそれぞれについて、所定の物体を検出し、所定の物体をマスクしたマスク画像を生成する(ステップS202)。
【0034】
一人称視点映像Eに含まれる時系列の複数のフレームは、一人称視点映像Eを構成する全てのフレームであってもよいし、所定間隔でサンプリングされたフレーム群であってもよい。一人称視点映像Eは、カメラの位置を、当該一人称視点映像Eを視聴する視聴者の位置として、当該カメラにより撮影された映像であって、かつカメラが移動することで撮影された映像である。
【0035】
自己速度推定部11は、複数のフレームのそれぞれについて、後述するNN(ニューラルネットワーク)31を用いて、連続する所定数のフレーム、及び当該所定数のフレームに対応する同じ数のマスク画像に基づき、一人称視点映像Eにおける視聴者の並進ベクトルを推定し、並進ベクトルに基づいて自己速度vを推定する(ステップS203)。そして、自己速度推定部11は、サンプリングされたフレーム毎の自己速度vを音量制御部12に出力する。
【0036】
ここで、自己速度vは、一人称視点映像Eにおいて、当該一人称視点映像Eを撮影したカメラ(視聴者の視点)の動きによる相対的な速度(一人称視点映像Eにおける視聴者の移動速度)である。例えばトラムの車載カメラ映像を一人称視点映像Eとした場合、トラムが完全に停止しているときに自己速度v=0となり、トラムが動いているときに自己速度v>0となる。
【0037】
これにより、一人称視点映像Eの最初のフレームから最後のフレームまでの間で、一人称視点映像Eに含まれる時系列の複数のフレームのそれぞれについて、自己速度vが算出される。自己速度推定部11の詳細については後述する。
【0038】
音量制御部12は、自己速度推定部11からサンプリングされたフレーム毎の自己速度vを入力し、自己速度vを後述するメモリ41に格納する(ステップS204)。これにより、一人称視点映像Eに含まれる複数のフレームのそれぞれについての自己速度vが、メモリ41に格納される。
【0039】
音量制御部12は、視聴者による操作に従い、一人称視点映像E(自己速度推定部11が入力した一人称視点映像Eと同じ映像)の視聴開始の操作があったか否かを判定する(ステップS205)。音量制御部12は、ステップS205において、視聴開始の操作がないと判定した場合(ステップS205:N)、当該操作があるまで待機する。
【0040】
音量制御部12は、ステップS205において、視聴開始の操作があったと判定した場合(ステップS205:Y)、一人称視点映像Eを入力する(ステップS206)。そして、音量制御部12は、一人称視点映像Eから、低周波音声信号S、映像信号、及び低周波音声信号S以外の音声信号を抽出する(ステップS207)。
【0041】
例えば一人称視点映像Eに、低周波のチャンネルの音声信号が含まれる場合、音量制御部12は、一人称視点映像Eから当該チャンネルの音声信号を取り出すことで、当該チャンネルの音声信号を低周波音声信号Sとして抽出する。また、一人称視点映像Eが映像信号及び音声信号からなり、音声信号が高周波成分及び低周波成分を含む信号である場合、音量制御部12は、一人称視点映像Eに含まれる音声信号から低周波成分を取り出すことにより、低周波成分を低周波音声信号Sとして抽出する。
【0042】
音量制御部12は、後述するメモリ41から、ステップS207にて抽出が行われた一人称視点映像Eの低周波音声信号Sに対応する映像信号のフレームにおける自己速度vを読み出す(ステップS208)。これにより、低周波音声信号Sに対応して、メモリ41に格納された自己速度vが順番に読み出される。
【0043】
音量制御部12は、メモリ41から読み出された自己速度vについて、当該自己速度vが所定の閾値以下の場合、当該自己速度vのフレームに対応する低周波音声信号Sの音量Aを下げることで、新たな低周波音声信号S’を生成する(ステップS209)。ここで、自己速度vに対応する低周波音声信号Sとは、自己速度vのフレームから当該フレームの次のフレーム(メモリ41に格納された複数のフレームのうち当該フレームの次のフレーム)の直前までの間の音声信号である。
【0044】
音量制御部12は、ステップS209にて生成された低周波音声信号S’、並びにステップS207にて抽出された映像信号、及び低周波音声信号S以外の音声信号を合成することで、音量制御済映像E’を求める(ステップS210)。そして、音量制御部12は、音量制御済映像E’を触覚提示部13に出力する。音量制御部12の詳細については後述する。
【0045】
触覚提示部13は、音量制御部12から音量制御済映像E’を入力し、音量制御済映像E’から低周波音声信号S’を抽出し、低周波音声信号S’を触覚デバイス7へ出力する(ステップS211)。触覚提示部13の詳細については後述する。
【0046】
これにより、自己速度vが所定の閾値以下の場合に、触覚デバイス7には、音量Aを下げた低周波音声信号S’が入力され、振動を小さくすることができる。つまり、自己速度vが0または小さい場合に、環境音及びBGM等の背景音が反映された振動による触覚刺激を抑えることができる。
【0047】
したがって、一人称視点映像Eを視聴する際に、触覚提示装置1により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、自己速度vが低速または停止の範囲において、背景音の影響を抑えた振動刺激を受けることができ、没入感を向上させることができる。
【0048】
(自己速度推定部11)
次に、図1に示した自己速度推定部11について詳細に説明する。図3は、自己速度推定部11の構成例を示すブロック図であり、図4は、図3に示す自己速度推定部11の処理例を示すフローチャートである。
【0049】
この自己速度推定部11-1は、フレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23を備えている。
【0050】
フレームサンプリング処理部21は、一人称視点映像Eを入力し(ステップS401)、一人称視点映像Eを、所定間隔にて時系列の複数のフレームにサンプリングする(ステップS402)。所定間隔にてサンプリングすることにより、以降の処理の計算等の負荷を低減することができる。ここで、フレームサンプリング処理部21は、一人称視点映像Eを構成する全てのフレームにサンプリングしてもよい。
【0051】
フレームサンプリング処理部21は、サンプリング後の複数のフレームのそれぞれ(フレーム0,・・・,n,・・・,N)を、マスク画像生成処理部22及び自己速度推定処理部23に出力する。Nは1以上の整数であり、nは0≦n≦Nである。フレームnは、フレーム番号がnのフレームを示す。
【0052】
マスク画像生成処理部22は、フレームサンプリング処理部21から複数のフレームのそれぞれを入力し、複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成する(ステップS403)。そして、マスク画像生成処理部22は、マスク画像を自己速度推定処理部23に出力する。
【0053】
これにより、N枚のフレームからN枚のマスク画像が生成される(フレーム0からマスク画像0が生成され、・・・、フレームnからマスク画像nが生成され、・・・、フレームNからマスク画像Nが生成される)。
【0054】
具体的には、マスク画像生成処理部22は、複数のフレームのそれぞれに対し、Mask R-CNN等の一般的なインスタンスセグメンテーション手法を適用し、マスク対象の物体の種類を指定することで、マスク画像を生成する。マスク画像は、予め設定された物体(自己速度vに関係のない動きをする物体(移動する物体)、すなわち自己速度vを算出する際に影響を与える(ノイズとなる)可能性のある対向車、歩行者等)がマスクされる画像である。マスク対象の物体の種類として、例えば車、人が指定される。看板、木等のような移動しない物体は、自己速度vを算出する際に影響を与えることがないため、指定する必要がない。
【0055】
図10は、一人称視点映像Eのフレームの例及びマスク画像の例を示す図である。図10の左側は、一人称視点映像Eのフレームの例を示し、右側は、左側に示すフレームから生成されたマスク画像の例を示す。
【0056】
マスク画像生成処理部22により、左側に示すフレームから複数の対向車が検出され、これらの複数の対向車のそれぞれを区別可能な形態の図形で表したマスク画像が生成される。
【0057】
図3及び図4に戻って、自己速度推定処理部23は、フレームサンプリング処理部21からフレームを入力すると共に、マスク画像生成処理部22から当該フレームに対応するマスク画像を入力する。
【0058】
自己速度推定処理部23は、NN31を用いて、所定数(例えば3枚)のフレーム及びこれに対応する同じ数のマスク画像から、マスク画像にてマスクされた物体を除外するように、並進ベクトルtranslation(x,y,z)等を推定する(ステップS404)。並進ベクトルtranslation(x,y,z)は、所定数のフレームにおいて、視聴者の移動方向を示すデータである。
【0059】
これにより、マスク画像を用いることで、自己速度vの算出に用いる並進ベクトルtranslation(x,y,z)を推定する際に影響を与える可能性のある対向車、歩行者等が除外され、精度の高い並進ベクトルtranslation(x,y,z)を得ることができる。したがって、後述するステップS405において、精度の高い自己速度vを算出することができる。
【0060】
自己速度推定処理部23は、並進ベクトルtranslation(x,y,z)に基づいて、自己速度vを算出する(ステップS405)。これにより、フレームサンプリング処理部21から入力した複数のフレームのそれぞれについて、自己速度vが算出される。そして、自己速度推定処理部23は、自己速度vを音量制御部12に出力する(ステップS406)。
【0061】
図5は、自己速度推定処理部23の構成例を示すブロック図である。この自己速度推定処理部23は、NN31及び自己速度算出部32を備えている。
【0062】
NN31は、フレームサンプリング処理部21から、例えば連続した3枚のフレームを入力すると共に、マスク画像生成処理部22から、当該3枚のフレームに対応する3枚のマスク画像を入力する。そして、NN31は、当該NN31の演算を行い、並進ベクトルtranslation(x,y,z)及び深度画像を推定し、並進ベクトルtranslation(x,y,z)を自己速度算出部32に出力する。
【0063】
例えば、フレーム0,・・・,n,・・・,Nのうち3枚のフレーム0,1,2、及びこれらに対応するマスク画像0,・・・,n,・・・,Nのうち3枚のマスク画像0,1,2から、フレーム1についての並進ベクトルtranslation(x,y,z)が推定される。そして、3枚のフレーム1,2,3及び3枚のマスク画像1,2,3からフレーム2についての並進ベクトルtranslation(x,y,z)が推定され、・・・、3枚のフレームN-2,N-1,N及び3枚のマスク画像N-2,N-1,NからフレームN-1についての並進ベクトルtranslation(x,y,z)が推定される。
【0064】
自己速度算出部32は、NN31から並進ベクトルtranslation(x,y,z)を入力し、以下の式により、自己速度vを算出する。
[数1]
v=√(x2+y2+z2) ・・・(1)
【0065】
尚、自己速度vを推定する際に用いるNN31は、特定のネットワーク構成に限定されない。例えば、以下の文献に示す単眼カメラ深度推定モデル等の並進ベクトルtranslation(x,y,z)を推定するニューラルネットワークと同様の構成、またはこれらのアーキテクチャに基づいて改良したものが用いられる。
[非特許文献] Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova,“Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos.”,the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)
【0066】
これにより、自己速度推定部11-1にて、一人称視点映像Eから所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれについて、一人称視点映像Eにおける視聴者の移動速度を示す自己速度vが推定される。
【0067】
図11は、自己速度vの推定結果を示す図であり、自己速度推定部11-1により推定された自己速度vを示す。縦軸は自己速度vであり、横軸は時間(フレーム番号)を示す。
【0068】
自己速度推定部11-1により、図11に示す自己速度vが推定され、自己速度vは、後段の音量制御部12に出力される。
【0069】
(自己速度推定部11の他の例)
図6は、図1に示した自己速度推定部11の他の構成例を示すブロック図である。この自己速度推定部11-2は、フレームサンプリング処理部21、マスク画像生成処理部22、自己速度推定処理部23及びトリミング処理部24を備えている。
【0070】
図3に示した自己速度推定部11-1とこの自己速度推定部11-2とを比較すると、両自己速度推定部11-1,11-2は、フレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23を備えている点で共通するが、自己速度推定部11-2は、さらにトリミング処理部24を備えている点で、自己速度推定部11-1と相違する。図6において、図3と共通する部分には図3と同一の符号を付し、その詳しい説明は省略する。
【0071】
自己速度推定部11-2は、自己速度推定部11-1が入力する一人称視点映像E(図10に示した一人称視点映像E)とは異なる一人称視点映像E1(自己速度vの推定処理に悪影響を及ぼす可能性のある画像を含む映像)を入力する。
【0072】
フレームサンプリング処理部21は、一人称視点映像E1を入力し、図3に示したフレームサンプリング処理部21と同様の処理を行い、所定間隔にてサンプリングされた時系列の複数のフレームをトリミング処理部24に出力する。
【0073】
トリミング処理部24は、フレームサンプリング処理部21から複数のフレームを入力し、複数のフレームのそれぞれに対し、予め設定された固定座標の枠にてトリミングを行うことで、トリミング後のフレームを生成する。そして、トリミング処理部24は、トリミング後のフレームをマスク画像生成処理部22及び自己速度推定処理部23に出力する。
【0074】
予め設定された固定座標の枠は、一人称視点映像E1の画像内において、トリミング対象の左上の座標、x軸方向の幅及びy軸方向の高さにより指定される。また、トリミングの処理は、既存の動画編集ソフトを用いて行うことができる。
【0075】
例えば一人称視点映像E1がトラムの車載カメラ映像の場合、トラム内が映り過ぎていると自己速度vの推定に悪影響を及ぼす可能性が高い。このため、トリミング処理部24は、主に窓の外が映る画像となるように、予め設定された固定座標の枠を用いて、一人称視点映像E1のフレームに対してトリミングを行う。
【0076】
尚、トリミング処理部24が入力する全てのフレームについて、予め設定された固定座標の枠は変更しない。
【0077】
図12は、一人称視点映像E1のフレームの例及びトリミング後のフレームの例を示す図である。
【0078】
トリミング処理部24により、図12に示すように、一人称視点映像E1のフレームからトリミング後のフレームが抽出される。この一人称視点映像E1のフレームは、トラム内が映り過ぎているため、自己速度vの推定精度を考慮した場合に、除外した方が良い物体(車両の枠等)が含まれている。このため、図12に示す予め設定された固定座標の枠を用いてトリミングが行われ、自己速度vの推定精度を考慮したトリミング後のフレームが抽出される。
【0079】
図6に戻って、マスク画像生成処理部22は、トリミング処理部24からトリミング後のフレームを入力し、図3に示したマスク画像生成処理部22と同様の処理を行う。
【0080】
自己速度推定処理部23は、トリミング処理部24から所定数(例えば3枚)のトリミング後のフレームを入力すると共に、マスク画像生成処理部22からトリミング後のフレームに対応する同じ数のマスク画像を入力する。そして、自己速度推定処理部23は、図3に示した自己速度推定処理部23と同様の処理を行い、自己速度vを音量制御部12に出力する。
【0081】
これにより、自己速度推定部11-2にて、一人称視点映像E1から所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれがトリミングされ、トリミング後のフレームについて、一人称視点映像E1における視聴者の移動速度を示す自己速度vが推定される。つまり、トリミング処理により、フレームから、自己速度vの推定に悪影響を及ぼす可能性が高い領域を除外することができるため、一層精度の高い自己速度vを得ることができる。
【0082】
(音量制御部12)
次に、図1に示した音量制御部12について詳細に説明する。図7は、音量制御部12の構成例を示すブロック図であり、図8は、図7に示す音量制御部12の処理例を示すフローチャートである。
【0083】
この音量制御部12は、メモリ41、最大速度抽出部42、低周波音声抽出部43、音量低下制御部44及び合成部45を備えている。
【0084】
音量制御部12は、自己速度推定部11からサンプリングされたフレーム毎の自己速度vを入力し、自己速度vをメモリ41に格納する(ステップS801)。これにより、一人称視点映像Eからサンプリングされた時系列の複数のフレーム(全てのフレーム)の自己速度vが、メモリ41に格納される。
【0085】
最大速度抽出部42は、サンプリングされた全てのフレームの自己速度vがメモリ41に格納されると、メモリ41から、サンプリングされた全てのフレームの自己速度vを読み出し、これらの自己速度vから最大速度vmaxを抽出する(ステップS802)。そして、最大速度抽出部42は、最大速度vmaxを音量低下制御部44に出力する。
【0086】
音量制御部12は、視聴者による操作に従い、一人称視点映像E(図1に示した自己速度推定部11が入力した一人称視点映像Eと同じ映像)の視聴開始の操作があったか否かを判定する(ステップS803)。音量制御部12は、ステップS803において、視聴開始の操作がないと判定した場合(ステップS803:N)、当該操作があるまで待機する。
【0087】
音量制御部12は、ステップS803において、視聴開始の操作があったと判定した場合(ステップS803:Y)、低周波音声抽出部43は、一人称視点映像Eを入力し、一人称視点映像Eから、低周波音声信号S、映像信号、及び低周波音声信号S以外の音声信号を抽出する(ステップS804)。
【0088】
この場合、低周波音声抽出部43は、低周波音声信号Sとして、予め低周波のみを収録した音源の音声信号を抽出するようにしてもよい。
【0089】
例えば、8Kの映像信号及び22.2chの音声信号からなる一人称視点映像Eでは、0.2chに、LFE(低音増強(Low Frequency Effect)用チャンネル)と呼ばれる120Hz以下の低周波音声が用いられる。この場合、低周波音声抽出部43は、低周波音声信号Sとして、このLFEの音声信号を抽出することにより、後段の触覚デバイス7においてLFEの音声信号を利用することで、視聴者は、振動に適した触覚刺激を得ることができる。
【0090】
また、LFEのような低周波音声を用意できない場合、ミックスされた音声信号を利用するようにしてもよい。つまり、低周波音声抽出部43は、ミックスされた音声信号の低周波成分を強調し、高周波部分を抑えるようにイコライジングすることで、低周波音声信号Sを疑似的に生成することができる。
【0091】
低周波音声抽出部43は、低周波音声信号Sを音量低下制御部44に出力し、映像信号、及び低周波音声信号S以外の音声信号(その他の音声信号)を合成部45に出力する。
【0092】
音量低下制御部44は、最大速度抽出部42から最大速度vmaxを入力すると共に、低周波音声抽出部43から低周波音声信号Sを入力する。また、音量低下制御部44は、メモリ41から、サンプリングされた全てのフレームにつき最初から順番に、自己速度vを読み出す(ステップS805)。そして、音量低下制御部44は、メモリ41から読み出された自己速度vが、所定の(予め設定された)閾値以下であるか否かを判定する(ステップS806)。
【0093】
音量低下制御部44は、ステップS806において、自己速度vが閾値以下であると判定した場合(ステップS806:Y)、自己速度v及び最大速度vmaxに基づき、自己速度vに対応するフレームの低周波音声信号Sの音量Aを下げて、新たな低周波音声信号S’を生成し(ステップS807)、ステップS809へ移行する。そして、音量低下制御部44は、新たな低周波音声信号S’を合成部45に出力する。
【0094】
例えば音量低下制御部44は、以下の式により、自己速度vの大きさに比例するように、自己速度vに対応するフレームの低周波音声信号Sの音量Aを下げて、音量Anewを有する新たな低周波音声信号S’を生成する。
[数2]
new=(v/vmax)A ・・・(2)
【0095】
ここで、自己速度vに対応するフレームの低周波音声信号Sとは、自己速度vに対応するフレームの時点から、次のフレームの直前の時点までの間における音声信号である。
【0096】
一方、音量低下制御部44は、ステップS806において、自己速度vが閾値以下でない、すなわち自己速度vが閾値よりも大きいと判定した場合(ステップS806:N)、低周波音声信号Sの音量Aを変えることなく、低周波音声信号Sをそのまま新たな低周波音声信号S’として設定し(ステップS808)、ステップS809へ移行する。つまり、音量低下制御部44は、低周波音声信号Sを、音量Anew=Aを有する新たな低周波音声信号S’として設定する。そして、音量低下制御部44は、新たな低周波音声信号S’を合成部45に出力する。
【0097】
これにより、自己速度vが閾値以下の場合、視聴者は、この速度状態において減速、停止、加速中等とみなされ、低周波音声信号Sの音量Aが下がることとなる。つまり、音量低下制御部44により、自己速度vに連動して、減速、停止、加速中等の音量Aを低減した低周波音声信号S’が生成される。一方、自己速度vが閾値よりも大きい場合、低周波音声信号Sの音量Aを変えることなる、同じ音量Anew=Aに設定される。
【0098】
合成部45は、ステップS807,S808から移行して、音量低下制御部44から低周波音声信号S’を入力すると共に、低周波音声抽出部43から、映像信号、及び低周波音声信号S以外の音声信号を入力する。そして、合成部45は、低周波音声信号S’、映像信号、及び低周波音声信号S以外の音声信号を合成し、音量制御済映像E’を求める(ステップS809)。音量制御部12は、音量制御済映像E’を触覚提示部13に出力する(ステップS810)。
【0099】
これにより、音量制御部12にて、一人称視点映像Eのフレームにおける自己速度vが低速または停止の範囲において、低周波音声信号Sの音量Aを下げることで、音量Aを小さくした低周波音声信号S’を含む音量制御済映像E’が生成される。
【0100】
尚、図7に示した音量制御部12は、さらに、メモリ41の前段に平滑化部を備えるようにしてもよい。平滑化部は、自己速度推定部11からサンプリングされたフレーム毎の自己速度vを入力する。
【0101】
平滑化部は、自己速度vが安定していない場合(例えば自己速度vの変化率が所定値以上である場合)、前後(近傍)の所定数のフレームを用いて、当該フレームの自己速度vのスムージング(平滑化)を行う。そして、平滑化部は、平滑化後の自己速度vをメモリ41に格納する。
【0102】
(触覚提示部13)
次に、図1に示した触覚提示部13について詳細に説明する。図9は、5.1ch形式の一人称視点映像Eを再生する場合の触覚提示部13の構成例を示す図である。この例は、5.1ch形式(L,R,C,SL,SR,LFE)の音声信号のうち、L,R,LFEの3チャンネルの音声信号を使用している場合を示している。
【0103】
この触覚提示部13は、抽出部51及び増幅部52を備えている。尚、図9では、映像信号及びL,Rの音声信号を増幅する構成については省略してある。
【0104】
抽出部51は、音量制御部12から音量制御済映像E’を入力し、音量制御済映像E’から、低周波音声信号S’としてLFEの音声信号を抽出すると共に、映像信号及びL(左),R(右)の音声信号を抽出する。抽出部51は、LFEの音声信号を増幅部52に出力し、増幅部52は、LFEの音声信号を増幅して触覚デバイス7及びスピーカ9へ出力する。また、抽出部51は、映像信号をディスプレイ8へ出力し、L,Rの音声信号をスピーカ9へ出力する。
【0105】
触覚デバイス7は、増幅部52からLFEの音声信号を入力し、LFEの音声信号の音量Anewが小さいほど、小さい振動を視聴者へ提示し、LFEの音声信号の音量Anewが大きいほど、大きい振動を視聴者へ提示する。
【0106】
これにより、視聴者は、触覚提示部13からLFEの音声信号を入力した触覚デバイス7、映像信号を入力したディスプレイ8、及びL,R,LFEの音声信号を入力したスピーカ9を介して、一人称視点映像Eを視聴すると共に、一人称視点映像Eに連動した触覚刺激を受けることができる。
【0107】
特に、一人称視点映像Eのフレームにおける自己速度vが高速の範囲において、低周波音声信号Sの音量Aが変わらないため、視聴者は、通常の触覚刺激を受けることができる。一方、一人称視点映像Eのフレームにおける自己速度vが低速または停止の範囲において、低周波音声信号Sの音量Aが下がることで、視聴者は、通常よりも弱い触覚刺激を受けることができる。
【0108】
ここで、LFEの音声信号である低周波音声信号S’が触覚デバイス7へ出力され、低周波音声信号S’が触覚刺激に変換されるのは、一般に、人間が200Hz以下程度の低い周波数でのみ触覚刺激を受けることができ、音声信号の周波数が高い場合は、適した触覚刺激を受けることができないからである。
【0109】
尚、抽出部51は、音量制御済映像E’から、低周波音声信号S’としてLFEの音声信号を抽出すると共に、映像信号及びL(左),R(右)の音声信号を抽出し、LFEの音声信号を、増幅部52を経由して触覚デバイス7へ出力し、映像信号をディスプレイ8へ出力し、L(左),R(右)の音声信号をスピーカ9へ出力するようにしてもよい。
【0110】
以上のように、第1の触覚提示装置1によれば、自己速度推定部11は、一人称視点映像Eをサンプリングして時系列の複数のフレームを取得し、複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成する。そして、自己速度推定部11は、NN31を用いて、連続する所定数のフレーム及びこれに対応する同じ数のマスク画像に基づき、並進ベクトルtranslation(x,y,z)を推定し、並進ベクトルtranslation(x,y,z)に基づいて自己速度vを推定する。
【0111】
音量制御部12は、サンプリングされた全てのフレームの自己速度vから、最大速度vmaxを抽出し、視聴開始の操作があると、一人称視点映像Eから低周波音声信号S等を抽出する。そして、音量制御部12は、自己速度vが所定の閾値以下の場合、最大速度vmax及び自己速度vに基づき、当該自己速度vのフレームに対応する低周波音声信号Sの音量Aを下げることで、新たな低周波音声信号S’を生成し、低周波音声信号S’を含む音量制御済映像E’を合成する。
【0112】
触覚提示部13は、音量制御済映像E’から低周波音声信号S’を抽出し、低周波音声信号S’を触覚デバイス7へ出力する。
【0113】
これにより、自己速度vが所定の閾値以下の場合に(低速または停止の範囲において)、触覚デバイス7には、音量Aを下げた低周波音声信号S’が入力され、振動を小さくすることができる。つまり、自己速度vが0または小さい場合に、環境音及びBGM等の背景音が反映された振動による触覚刺激を抑えることができ、映像による視覚と振動による触覚とのマッチングを図ることができる。
【0114】
したがって、視聴者が一人称視点映像Eを視聴する際に、触覚提示装置1により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、自己速度vが低速または停止の範囲において、背景音の影響を抑えた振動刺激を受けることができ、没入感を向上させることができる。
【0115】
〔触覚提示装置/第2の例〕
次に、第2の触覚提示装置について説明する。図13は、第2の触覚提示装置の構成例を示すブロック図である。この触覚提示装置2は、音量制御部12及び触覚提示部13を備えている。
【0116】
触覚提示装置2は、一人称視点映像Eに含まれる時系列の複数のフレームの予め設定された自己速度vを入力すると共に、一人称視点映像Eを入力し、自己速度vに基づいて、振動の元となる低周波音声信号Sの音量Aを制御して音量制御済映像E’を生成し、音量制御済映像E’から制御後の低周波音声信号S’を抽出して触覚デバイス7へ出力する。これにより、視聴者による一人称視点映像Eの視聴時の没入感を向上させることができる。
【0117】
図1に示した触覚提示装置1とこの触覚提示装置2とを比較すると、両触覚提示装置1,2は、音量制御部12及び触覚提示部13を備えている点で共通し、触覚提示装置2は、自己速度推定部11を備えていない点で触覚提示装置1と相違する。
【0118】
つまり、図1に示した触覚提示装置1は、自己速度推定部11において、一人称視点映像Eを入力し、当該一人称視点映像Eからサンプリングされたフレーム毎の自己速度vを推定する。これに対し、触覚提示装置2は、自己速度vを推定する処理を行わず、予め設定された、一人称視点映像Eからサンプリングされたフレーム毎の自己速度vを入力する。
【0119】
音量制御部12及び触覚提示部13は、図1に示した音量制御部12及び触覚提示部13と同じ処理を行うため、詳細な説明は省略する。
【0120】
以上のように、第2の触覚提示装置2によれば、第1の触覚提示装置1と同様に、視聴者が一人称視点映像Eを視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、自己速度vが低速または停止の範囲において、背景音の影響を抑えた振動刺激を受けることができ、没入感を向上させることができる。
【0121】
〔自己速度推定装置/第1の例〕
次に、自己速度推定装置について説明する。自己速度推定装置は、一人称視点映像Eにおける視聴者の移動速度を自己速度vとして推定する技術分野に属する装置である。まず、第1の自己速度推定装置について説明する。
【0122】
図14は、第1の自己速度推定装置の構成例を示すブロック図である。この自己速度推定装置3は、フレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23を備えている。
【0123】
自己速度推定装置3は、一人称視点映像Eから所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成し、NN31を用いて、連続する所定数のフレーム及びこれに対応する同じ数のマスク画像に基づき、並進ベクトルtranslation(x,y,z)を推定し、並進ベクトルtranslation(x,y,z)に基づいて自己速度vを推定することで、精度の高い自己速度vを得るものである。
【0124】
この自己速度推定装置3は、図3に示した自己速度推定部11-1と同じ構成の下で同じ処理を行い、一人称視点映像Eからサンプリングされたフレーム毎の自己速度vを出力する。
【0125】
フレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23は、図3に示したフレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23と同じであるため、詳細な説明は省略する。
【0126】
以上のように、第1の自己速度推定装置3によれば、フレームサンプリング処理部21は、一人称視点映像Eから所定間隔にて時系列の複数のフレームをサンプリングし、マスク画像生成処理部22は、複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成する。
【0127】
自己速度推定処理部23は、NN31を用いて、所定数(例えば3枚)のフレーム及びこれに対応する同じ数のマスク画像から、マスク画像にてマスクされた物体を除外するように、並進ベクトルtranslation(x,y,z)等を推定し、並進ベクトルtranslation(x,y,z)に基づいて、自己速度vを算出する。
【0128】
これにより、マスク画像を用いることで、自己速度vの算出に用いる並進ベクトルtranslation(x,y,z)を推定する際に影響を与える可能性のある対向車、歩行者等が除外されるため、精度の高い並進ベクトルtranslation(x,y,z)を得ることができ、結果として、精度の高い自己速度vを得ることができる。
【0129】
〔自己速度推定装置/第2の例〕
次に、第2の自己速度推定装置について説明する。図15は、第2の自己速度推定装置の構成例を示すブロック図である。この自己速度推定装置4は、フレームサンプリング処理部21、マスク画像生成処理部22、自己速度推定処理部23及びトリミング処理部24を備えている。
【0130】
自己速度推定装置4は、一人称視点映像E1を入力し、一人称視点映像E1から所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれについて、トリミングを行い、トリミング後のフレームについて、所定の物体をマスクしたマスク画像を生成し、NN31を用いて、連続する所定数のトリミング後のフレーム及びこれに対応する同じ数のマスク画像に基づき、並進ベクトルtranslation(x,y,z)を推定し、並進ベクトルtranslation(x,y,z)に基づいて自己速度vを推定することで、一層精度の高い自己速度vを得るものである。
【0131】
この自己速度推定装置4は、図6に示した自己速度推定部11-2と同じ構成の下で同じ処理を行い、一人称視点映像E1からサンプリング及びトリミングされたフレーム毎の自己速度vを出力する。
【0132】
フレームサンプリング処理部21、マスク画像生成処理部22、自己速度推定処理部23及びトリミング処理部24は、図6に示したフレームサンプリング処理部21、マスク画像生成処理部22、自己速度推定処理部23及びトリミング処理部24と同じであるため、詳細な説明は省略する。
【0133】
以上のように、第2の自己速度推定装置4によれば、フレームサンプリング処理部21は、一人称視点映像E1から所定間隔にて時系列の複数のフレームをサンプリングし、トリミング処理部24は、複数のフレームのそれぞれに対してトリミングを行い、マスク画像生成処理部22は、トリミング後の複数のフレームのそれぞれについて、所定の物体をマスクしたマスク画像を生成する。
【0134】
自己速度推定処理部23は、NN31を用いて、所定数(例えば3枚)のフレーム及びこれに対応する同じ数のマスク画像から、マスク画像にてマスクされた物体を除外するように、並進ベクトルtranslation(x,y,z)等を推定し、並進ベクトルtranslation(x,y,z)に基づいて、自己速度vを算出する。
【0135】
これにより、自己速度推定装置3と同様に、マスク画像を用いることで、自己速度vの算出に用いる並進ベクトルtranslation(x,y,z)を推定する際に影響を与える可能性のある対向車、歩行者等が除外されるため、精度の高い並進ベクトルtranslation(x,y,z)を得ることができ、結果として、精度の高い自己速度vを得ることができる。
【0136】
また、トリミング処理部24により、フレームから、自己速度vの推定に悪影響を及ぼす可能性が高い領域を除外することができるため、一層精度の高い自己速度vを得ることができる。
【0137】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0138】
例えば図2及び図8に示した例では、触覚提示装置1の音量制御部12は、サンプリングされた全てのフレームの自己速度vをメモリ41に格納するようにした。そして、音量制御部12の最大速度抽出部42は、メモリ41からサンプリングされた全てのフレームの自己速度vを読み出して最大速度vmaxを抽出し、視聴者による視聴開始の操作があると、音量低下制御部44は、自己速度vが閾値以下である場合に、自己速度v及び最大速度vmaxに基づき、低周波音声信号Sの音量Aを下げるようにした。
【0139】
これに対し、音量低下制御部44は、最大速度抽出部42により抽出された最大速度vmaxを用いるのではなく、予め設定された最大速度vmaxを用いて、低周波音声信号Sの音量Aを下げるようにしてもよい。この場合、音量制御部12は、図7に示した構成例において、メモリ41及び最大速度抽出部42を備える必要がない。
【0140】
つまり、音量制御部12が視聴者による視聴開始の操作を待つことなく、音量低下制御部44は、自己速度vが閾値以下であるときに、自己速度推定部11により推定された自己速度v及び予め設定された最大速度vmaxに基づき、低周波音声信号Sの音量Aを下げる。
【0141】
これにより、自己速度推定部11が一人称視点映像Eを入力して自己速度vを推定し、音量制御部12が低周波音声信号Sの音量Aを下げて音量制御済映像E’を生成し、触覚提示部13が低周波音声信号S’を触覚デバイス7へ出力するまでの一連の処理をリアルタイムで実現することができる。
【0142】
また、図2及び図8に示した例では、触覚提示装置1の音量制御部12は、視聴者による視聴開始の操作があったと判定した場合に、一人称視点映像Eから低周波音声信号S等を抽出し、低周波音声信号Sの音量Aを下げて音量制御済映像E’を生成し、触覚提示部13は、音量制御済映像E’から低周波音声信号S’を抽出して触覚デバイス7へ出力するようにした。
【0143】
これに対し、音量制御部12は、生成した音量制御済映像E’を図7には図示しないメモリに格納しておき、触覚提示部13は、視聴者による視聴開始の操作がある度に、当該メモリに格納された音量制御済映像E’を繰り返し利用するようにしてもよい。
【0144】
尚、触覚提示装置1,2のハードウェア構成としては、通常のコンピュータを使用することができる。触覚提示装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。自己速度推定装置3,4についても同様である。
【0145】
触覚提示装置1に備えた自己速度推定部11、音量制御部12及び触覚提示部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、触覚提示装置2に備えた音量制御部12及び触覚提示部13の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0146】
また、自己速度推定装置3に備えたフレームサンプリング処理部21、マスク画像生成処理部22及び自己速度推定処理部23の各機能、さらに、自己速度推定装置4に備えたフレームサンプリング処理部21、マスク画像生成処理部22、自己速度推定処理部23及びトリミング処理部24に備えた各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0147】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0148】
1,2 触覚提示装置
3,4 自己速度推定装置
7 触覚デバイス
8 ディスプレイ
9 スピーカ
11 自己速度推定部
12 音量制御部
13 触覚提示部
21 フレームサンプリング処理部
22 マスク画像生成処理部
23 自己速度推定処理部
24 トリミング処理部
31 NN(ニューラルネットワーク)
32 自己速度算出部
41 メモリ
42 最大速度抽出部
43 低周波音声抽出部
44 音量低下制御部
45 合成部
51 抽出部
52 増幅部
E,E1 一人称視点映像
E’ 音量制御済映像
v 自己速度
max 最大速度
S,S’ 低周波音声信号
A,Anew 音量
translation(x,y,z) 並進ベクトル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15