IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開-触覚提示装置及びプログラム 図1
  • 特開-触覚提示装置及びプログラム 図2
  • 特開-触覚提示装置及びプログラム 図3
  • 特開-触覚提示装置及びプログラム 図4
  • 特開-触覚提示装置及びプログラム 図5
  • 特開-触覚提示装置及びプログラム 図6
  • 特開-触覚提示装置及びプログラム 図7
  • 特開-触覚提示装置及びプログラム 図8
  • 特開-触覚提示装置及びプログラム 図9
  • 特開-触覚提示装置及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017905
(43)【公開日】2024-02-08
(54)【発明の名称】触覚提示装置及びプログラム
(51)【国際特許分類】
   H04R 1/00 20060101AFI20240201BHJP
   H04N 21/439 20110101ALI20240201BHJP
   H04N 21/44 20110101ALI20240201BHJP
   H04S 7/00 20060101ALI20240201BHJP
【FI】
H04R1/00 310G
H04N21/439
H04N21/44
H04S7/00 300
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022120857
(22)【出願日】2022-07-28
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】佐々木 桃子
(72)【発明者】
【氏名】望月 貴裕
(72)【発明者】
【氏名】高橋 正樹
【テーマコード(参考)】
5C164
5D017
5D162
【Fターム(参考)】
5C164GA07
5C164PA41
5C164UA51S
5C164UB01P
5C164UB08P
5D017AA11
5D162AA05
5D162CA04
5D162CA17
(57)【要約】
【課題】視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する。
【解決手段】触覚提示装置1の映像解析部11は、映像Eをサンプリングして時系列の複数のフレームを取得し、複数のフレームのそれぞれについて、1または複数の物体の矩形座標を検出し、面積が最大の物体の矩形データv(矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n))を算出し、最大矩形データvmaxを抽出し、矩形データv及び最大矩形データvmaxに基づいて音量増幅量a(n)を算出する。音量制御部12は、映像Eから低周波音声信号S等を抽出し、低周波音声信号Sの音量Aに音量増幅量a(n)を乗算することで、音量Aを増幅した新たな低周波音声信号S’を生成する。触覚提示部13は、低周波音声信号S’を触覚デバイス7へ出力する。
【選択図】図1
【特許請求の範囲】
【請求項1】
映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、
前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のNN(ニューラルネットワーク)を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも1つのデータを算出し、前記少なくとも1つのデータに基づいて音量増幅量を算出する映像解析部と、
前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部と、
前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、
を備えたことを特徴とする触覚提示装置。
【請求項2】
請求項1に記載の触覚提示装置において、
前記映像解析部は、
前記複数のフレームのそれぞれについて、前記所定のNNを用いて前記物体を検出し、前記物体の移動量、面積及び拡大率を算出し、前記物体の移動量、面積及び拡大率に基づいて前記音量増幅量を算出する、ことを特徴とする触覚提示装置。
【請求項3】
請求項2に記載の触覚提示装置において、
前記映像解析部は、
前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のNNを用いて1または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、
前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記1または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第1の矩形データ、当該物体の面積に関する第2の矩形データ及び当該物体の拡大率に関する第3の矩形データを算出する矩形算出部と、
前記複数のフレームにおける前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データから、それぞれ第1の矩形データの最大値、第2の矩形の最大値及び第3の矩形データの最大値を抽出する最大値抽出部と、
前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データを、前記最大値抽出部により抽出された前記第1の矩形データの最大値、前記第2の矩形データの最大値及び前記第3の矩形データの最大値でそれぞれ正規化し、正規化後の第1の矩形データ、第2の矩形データ及び第3の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、
を備えたことを特徴とする触覚提示装置。
【請求項4】
請求項2に記載の触覚提示装置において、
前記映像解析部は、
前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のNNを用いて1または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、
前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記1または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第1の矩形データ、当該物体の面積に関する第2の矩形データ及び当該物体の拡大率に関する第3の矩形データを算出する矩形算出部と、
前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データを、前記第1の矩形データの予め設定された最大値、前記第2の矩形データの予め設定された最大値及び前記第3の矩形データの予め設定された最大値でそれぞれ正規化し、正規化後の第1の矩形データ、第2の矩形データ及び第3の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、
を備えたことを特徴とする触覚提示装置。
【請求項5】
請求項1から4までのいずれか一項に記載の触覚提示装置において、
前記音量制御部は、
前記映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、
前記映像解析部により算出された前記フレームについての前記音量増幅量を、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号に乗算し、新たな低周波音声信号を生成する音量増幅制御部と、
前記音量増幅制御部により生成された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、
前記触覚提示部は、
前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする触覚提示装置。
【請求項6】
映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、
前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のNN(ニューラルネットワーク)を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも1つのデータを算出し、前記少なくとも1つのデータに基づいて音量増幅量を算出する映像解析部、
前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部、及び、
前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置及びプログラムに関する。
【背景技術】
【0002】
従来、映像は主として視覚及び聴覚に関するメディアであるが、第三の感覚として触覚刺激を提示する技術が注目を浴びている。例えば、音楽と連動した触覚刺激を提示する仕組みを椅子に設けた体感音響システムが知られており、また、音を振動に変換する触覚デバイスも知られている。
【0003】
具体的には、この体感音響システムは、椅子に振動子を組み込んでおき、音楽から低音成分を抽出し、振動子により低音成分を振動の触覚情報に変換することで、音楽の聴取者に対し振動の触覚刺激を提示するものである(例えば特許文献1を参照)。
【0004】
また、振動子を椅子に組み込んだ体感音響システムの他、テーマパーク、映画館等において、従来の映像音声に加え、振動等の触覚刺激、及び移動感等の体性感覚刺激を提示する技術も知られている。また、放送通信連携サービスを用いることで、テレビ放送の映像音声に加え、収録した振動の触覚情報を通信経由で伝送する技術も知られている。
【0005】
また、視覚的なディスプレイを用いるゲーム装置において、視的表示と共に、プレイヤーに対し体感を与える技術も知られている(例えば特許文献2を参照)。具体的には、このゲーム装置は、特定の視的表示のタイミングにて、ハイパワーアンプで増幅された信号を低域スピーカへ出力することで、低域スピーカにより、低域音源となる体感をプレイヤーへ提示するものである。
【0006】
また、体感音響システムにおいて、長時間利用しても、視聴者に対し不快感または圧迫感を生じさせることのない技術が知られている(例えば特許文献3を参照)。具体的には、この体感音響システムは、背もたれ及び座部を有するシートと、入力された音声信号を帯域分割して第1の音声信号及び第2の音声信号を出力する帯域分割回路と、第1の音声信号に応じて振動すると共に、振動方向が背もたれのユーザ側表面に対して平行となるように、背もたれ内に配置された第1の振動素子と、第2の音声信号に応じて振動すると共に、振動方向が座部のユーザ側表面に対して平行となるように、座部内に配置された第2の振動素子とを有するものである。
【0007】
このように、映像を視聴しているときに、視覚及び聴覚に加え、第三の感覚である触覚にも刺激を与えることにより、より没入感及び臨場感の高い映像視聴を実現することができる。つまり、音声信号を入力して触覚情報に変換し、連続的に触覚刺激を提示することにより、映像コンテンツへの没入感及び臨場感を高めることができる。
【0008】
このような音声信号を触覚情報に変換し、触覚刺激を視聴者へ提示する試みは、以前から行われている。以下、音声信号を入力して触覚情報に変換し、触覚刺激を提示する方式を「音声入力方式」という。
【0009】
この「音声入力方式」の例として、いす型触覚提示システムがある。このいす型触覚提示システムは、フレキシブルディスプレイにより180度の視野角に表示したトラム等の車両の映像に連動し、いす型触覚デバイスが、音声信号を触覚情報に変換して触覚刺激を提示する。これにより、フレキシブルディスプレイに表示された映像からの視覚刺激、並びにいすの座面及び足元からの振動の触覚刺激にて、高い没入感を得ることができる。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平3-102499号公報
【特許文献2】特開平6-339576号公報
【特許文献3】特開2008-141477号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
前述の体感音響システムによる音声入力方式は、音声信号を触覚情報に変換し、触覚刺激を提示するものである。この音声入力方式では、実際の音声をベースにしているため、映像音声に対して違和感のない触覚刺激を提示することができる。
【0012】
しかしながら、実際の音声には、環境音及びBGM等の背景音が含まれていることが多いため、実際の音声を用いたとして、必ずしも適切な振動を得ることができるとは限らない。
【0013】
ここで、例えば映像内の動物等の動きに合わせて振動を制御することができれば、迫力があり、かつ没入感の高い体験を提供することができると考えられる。
【0014】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する触覚提示装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0015】
前記課題を解決するために、請求項1の触覚提示装置は、映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のNN(ニューラルネットワーク)を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも1つのデータを算出し、前記少なくとも1つのデータに基づいて音量増幅量を算出する映像解析部と、前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部と、前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、を備えたことを特徴とする。
【0016】
また、請求項2の触覚提示装置は、請求項1に記載の触覚提示装置において、前記映像解析部が、前記複数のフレームのそれぞれについて、前記所定のNNを用いて前記物体を検出し、前記物体の移動量、面積及び拡大率を算出し、前記物体の移動量、面積及び拡大率に基づいて前記音量増幅量を算出する、ことを特徴とする。
【0017】
また、請求項3の触覚提示装置は、請求項2に記載の触覚提示装置において、前記映像解析部が、前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のNNを用いて1または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記1または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第1の矩形データ、当該物体の面積に関する第2の矩形データ及び当該物体の拡大率に関する第3の矩形データを算出する矩形算出部と、前記複数のフレームにおける前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データから、それぞれ第1の矩形データの最大値、第2の矩形の最大値及び第3の矩形データの最大値を抽出する最大値抽出部と、前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データを、前記最大値抽出部により抽出された前記第1の矩形データの最大値、前記第2の矩形データの最大値及び前記第3の矩形データの最大値でそれぞれ正規化し、正規化後の第1の矩形データ、第2の矩形データ及び第3の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、を備えたことを特徴とする。
【0018】
また、請求項4の触覚提示装置は、請求項2に記載の触覚提示装置において、前記映像解析部が、前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のNNを用いて1または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記1または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第1の矩形データ、当該物体の面積に関する第2の矩形データ及び当該物体の拡大率に関する第3の矩形データを算出する矩形算出部と、前記矩形算出部により算出された前記第1の矩形データ、前記第2の矩形データ及び前記第3の矩形データを、前記第1の矩形データの予め設定された最大値、前記第2の矩形データの予め設定された最大値及び前記第3の矩形データの予め設定された最大値でそれぞれ正規化し、正規化後の第1の矩形データ、第2の矩形データ及び第3の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、を備えたことを特徴とする。
【0019】
また、請求項5の触覚提示装置は、請求項1から4までのいずれか一項に記載の触覚提示装置において、前記音量制御部が、前記映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、前記映像解析部により算出された前記フレームについての前記音量増幅量を、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号に乗算し、新たな低周波音声信号を生成する音量増幅制御部と、前記音量増幅制御部により生成された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、前記触覚提示部が、前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする。
【0020】
さらに、請求項6のプログラムは、映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のNN(ニューラルネットワーク)を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも1つのデータを算出し、前記少なくとも1つのデータに基づいて音量増幅量を算出する映像解析部、前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部、及び、前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させることを特徴とする。
【発明の効果】
【0021】
以上のように、本発明によれば、視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成することができる。
【図面の簡単な説明】
【0022】
図1】本発明の実施形態による触覚提示装置の構成例を示すブロック図である。
図2図1に示す触覚提示装置の処理例を示すフローチャートである。
図3】映像解析部の構成例を示すブロック図である。
図4図3に示す映像解析部の処理例を示すフローチャートである。
図5】音量増幅量算出処理部の構成例を示すブロック図である。
図6】音量制御部の構成例を示すブロック図である。
図7図6に示す音量制御部の処理例を示すフローチャートである。
図8】5.1ch形式の映像Eを再生する場合の触覚提示部の構成例を示す図である。
図9】映像Eのフレームの例及び矩形座標k1,k2,k3の例を示す図である。
図10】音量増幅量a(n)の算出結果を示す図である。
【発明を実施するための形態】
【0023】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔触覚提示装置〕
図1は、本発明の実施形態による触覚提示装置の構成例を示すブロック図であり、図2は、図1に示す触覚提示装置の処理例を示すフローチャートである。
【0024】
この触覚提示装置1は、映像解析部11、音量制御部12及び触覚提示部13を備えている。触覚提示装置1は、映像Eから物体の移動量等に比例する音量増幅量aを算出し、音量増幅量aに基づいて、振動の元となる低周波音声信号Sの音量を制御して音量制御済映像E’を生成し、音量制御済映像E’から制御後の低周波音声信号S’を抽出して触覚デバイス7へ出力する。これにより、視聴者による映像Eの視聴時の没入感を向上させることができる。
【0025】
映像解析部11は、1または複数の物体を含む映像Eを入力する(ステップS201)。そして、映像解析部11は、映像Eをサンプリングし、映像Eに含まれる時系列の複数のフレームのそれぞれについて、1または複数の物体を検出し、面積が最大の物体を選定し、当該物体の移動量、面積及び拡大率に関する矩形データvを算出する(ステップS202)。
【0026】
映像Eに含まれる時系列の複数のフレームは、映像Eを構成する全てのフレームであってもよいし、所定間隔でサンプリングされたフレーム群であってもよい。
【0027】
映像解析部11は、複数のフレームのそれぞれについて、矩形データvに基づいて、移動量等に比例する音量増幅量aを算出する(ステップS203)。そして、映像解析部11は、音量増幅量aを音量制御部12に出力する。
【0028】
これにより、映像Eの最初のフレームから最後のフレームまでの間で、映像Eに含まれる時系列の複数のフレームのそれぞれについて、矩形データvが算出され、音量増幅量aが算出される。映像解析部11の詳細については後述する。
【0029】
音量制御部12は、映像解析部11からサンプリングされたフレーム毎の音量増幅量aを入力し、音量増幅量aを後述するメモリ41に格納する(ステップS204)。これにより、映像Eに含まれる複数のフレームのそれぞれについての音量増幅量aが、メモリ41に格納される。
【0030】
音量制御部12は、視聴者による操作に従い、映像E(映像解析部11が入力した映像Eと同じ映像)の視聴開始の操作があったか否かを判定する(ステップS205)。音量制御部12は、ステップS205において、視聴開始の操作がないと判定した場合(ステップS205:N)、当該操作があるまで待機する。
【0031】
音量制御部12は、ステップS205において、視聴開始の操作があったと判定した場合(ステップS205:Y)、映像Eを入力する(ステップS206)。そして、音量制御部12は、映像Eから、低周波音声信号S、映像信号、及び低周波音声信号S以外の音声信号を抽出する(ステップS207)。
【0032】
例えば映像Eに、低周波のチャンネルの音声信号が含まれる場合、音量制御部12は、映像Eから当該チャンネルの音声信号を取り出すことで、当該チャンネルの音声信号を低周波音声信号Sとして抽出する。また、映像Eが映像信号及び音声信号からなり、音声信号が高周波成分及び低周波成分を含む信号である場合、音量制御部12は、映像Eに含まれる音声信号から低周波成分を取り出すことにより、低周波成分を低周波音声信号Sとして抽出する。
【0033】
音量制御部12は、後述するメモリ41から、ステップS207にて抽出が行われた映像Eの低周波音声信号Sに対応する映像信号のフレームにおける音量増幅量aを読み出す(ステップS208)。これにより、低周波音声信号Sに対応して、メモリ41に格納された音量増幅量aが順番に読み出される。
【0034】
音量制御部12は、メモリ41から読み出された音量増幅量aに基づいて、当該音量増幅量aのフレームに対応する低周波音声信号Sの音量Aを増幅することで、新たな低周波音声信号S’を生成する(ステップS209)。ここで、音量増幅量aに対応する低周波音声信号Sとは、音量増幅量aのフレームから当該フレームの次のフレーム(メモリ41に格納された複数のフレームのうち当該フレームの次のフレーム)の直前までの間の音声信号である。
【0035】
ここで、矩形データvの値が大きいほど、音量増幅量aの値も大きくなり、矩形データvの値が小さいほど、音量増幅量aの値も小さくなる。矩形データvは、物体の移動量、面積及び拡大率に関するデータであるため、これらのデータが大きいほど、音量増幅量aの値も大きくなり、これらのデータが小さいほど、音量増幅量aの値も小さくなる。
【0036】
そして、音量増幅量aの値が大きいほど、増幅後の新たな低周波音声信号S’の音量Anewは、増幅前の音量Aよりも一層大きくなり、音量増幅量aの値が小さいほど、増幅後の新たな低周波音声信号S’の音量Anewは、増幅前の音量Aよりも一層小さくなる。
【0037】
つまり、物体の移動量、面積及び拡大率が大きいほど、増幅後の新たな低周波音声信号S’の音量Anewは大きくなる。また、物体の移動量、面積及び拡大率が小さいほど、増幅後の新たな低周波音声信号S’の音量Anewは小さくなる。
【0038】
音量制御部12は、ステップS209にて生成された低周波音声信号S’、並びにステップS207にて抽出された映像信号、及び低周波音声信号S以外の音声信号を合成することで、音量制御済映像E’を求める(ステップS210)。そして、音量制御部12は、音量制御済映像E’を触覚提示部13に出力する。音量制御部12の詳細については後述する。
【0039】
触覚提示部13は、音量制御部12から音量制御済映像E’を入力し、音量制御済映像E’から低周波音声信号S’を抽出し、低周波音声信号S’を触覚デバイス7へ出力する(ステップS211)。触覚提示部13の詳細については後述する。
【0040】
これにより、物体の移動量、面積及び拡大率が大きいほど、触覚デバイス7には、音量Aを大きくした低周波音声信号S’が入力され、振動を大きくすることができる。一方、物体の移動量、面積及び拡大率が小さいほど、触覚デバイス7には、音量Aを小さくした低周波音声信号S’が入力され、振動を小さくすることができる。つまり、映像E内の物体(例えば動物)の動き等に合わせて振動を制御することができ、迫力があり、かつ没入感の高い体験を視聴者に提供することができる。
【0041】
したがって、映像Eを視聴する際に、触覚提示装置1により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、映像E内の物体の動き等に合わせて振動刺激を受けることができ、没入感を向上させることができる。尚、図1及び図2においては、音量増幅量aが映像解析部11から音量制御部12へ出力されるが、後述する図3等においては、音量増幅量a(n)が出力されるものとして説明する。nはフレームの番号を示す。
【0042】
(映像解析部11)
次に、図1に示した映像解析部11について詳細に説明する。図3は、映像解析部11の構成例を示すブロック図であり、図4は、図3に示す映像解析部11の処理例を示すフローチャートである。
【0043】
この映像解析部11は、フレームサンプリング処理部21、物体検出処理部22及び音量増幅量算出処理部23を備えている。
【0044】
フレームサンプリング処理部21は、映像Eを入力し(ステップS401)、映像Eを、所定間隔にて時系列の複数のフレームにサンプリングする(ステップS402)。所定間隔にてサンプリングすることにより、以降の処理の計算等の負荷を低減することができる。ここで、フレームサンプリング処理部21は、映像Eを構成する全てのフレームにサンプリングしてもよい。
【0045】
フレームサンプリング処理部21は、サンプリング後の複数のフレームのそれぞれ(フレーム0,・・・,n,・・・,N)を、物体検出処理部22に出力する。Nは1以上の整数であり、nは0≦n≦Nである。フレームnは、フレーム番号がnのフレームを示す。
【0046】
物体検出処理部22は、フレームサンプリング処理部21から複数のフレームのそれぞれを入力する。そして、物体検出処理部22は、複数のフレームのそれぞれについて、所定のNN(ニューラルネットワーク)を用いて、当該フレームに含まれる物体を検出し、検出した1または複数の物体毎の矩形座標及び物体毎の識別クラスを推定する(ステップS403)。そして、物体検出処理部22は、当該フレームに含まれる物体毎の矩形座標を音量増幅量算出処理部23に出力する。
【0047】
矩形座標は、物体を最大限に含む矩形を特定するための座標であり、例えば左上頂点の座標値及び右下頂点の座標値からなる。この場合、矩形座標は、左上頂点の座標値、x軸方向(横方向)の幅及びy軸方向(縦方向)の高さからなるようにしてもよい。
【0048】
これにより、N枚のフレームのそれぞれについて、物体毎の矩形座標が得られる(フレーム0についての物体毎の矩形座標、・・・、フレームnについての物体毎の矩形座標、・・・、フレームNについての物体毎の矩形座標が得られる)。
【0049】
尚、物体検出処理部22が用いるNNは、特定のネットワーク構成に限定されない。例えば、以下の文献に示す物体検出モデルと同様の構成、またはこれらのアーキテクチャに基づいて改良したものが用いられる。
[非特許文献] Ge Zheng, et al.,“Yolox: Exceeding yolo series in 2021.”, arXiv preprint arXiv:2107.08430 (2021).
【0050】
図9は、映像Eのフレームの例及び矩形座標k1,k2,k3の例を示す図である。物体検出処理部22により、映像Eのフレームについて、NNを用いて当該フレームに含まれる3つの物体が検出され、それぞれの物体を含む矩形座標k1,k2,k3及び物体の識別クラス(この例では、全ての物体の識別クラス「象」)が推定される。
【0051】
図3及び図4に戻って、音量増幅量算出処理部23は、複数のフレームのそれぞれについて、物体毎の矩形座標を入力する。そして、音量増幅量算出処理部23は、後述するステップS404~S409の処理を行う。
【0052】
図5は、音量増幅量算出処理部23の構成例を示すブロック図である。この音量増幅量算出処理部23は、物体選定部31、矩形算出部32、メモリ33、最大値抽出部34及び音量増幅量算出部35を備えている。
【0053】
図4及び図5を参照して、物体選定部31は、複数のフレームのそれぞれについて、物体毎の矩形座標を入力し、物体毎の矩形座標に基づいて物体毎の矩形面積を算出し、当該フレームに含まれる1または複数の物体のうち、矩形面積が最大の物体を選定する(ステップS404)。物体選定部31は、複数のフレームのそれぞれについて、矩形面積が最大の物体の矩形座標を矩形算出部32に出力する。
【0054】
図9に示した例では、物体選定部31により、矩形座標k1,k2,k3をそれぞれ有する3つの物体のうち、矩形面積が最大の矩形座標k1を有する物体が選定される。
【0055】
図4及び図5に戻って、矩形算出部32は、物体選定部31から、複数のフレームのそれぞれについて、矩形面積が最大の物体の矩形座標を入力する。そして、矩形算出部32は、複数のフレームのそれぞれについて、矩形面積が最大の物体について、当該物体の矩形座標に基づいて、物体の移動量等の矩形データv(n)を算出する(ステップS405)。
【0056】
ここで、フレームnについての矩形データv(n)は、矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)からなる。矩形データv(n)は、矩形座標から算出され、矩形座標は、物体を最大限に含む矩形を特定するための座標である。このため、物体の移動量、物体の面積及び物体の拡大率を特定するために、それぞれ矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)を代用することができる。
【0057】
例えば矩形算出部32は、フレームn前後の所定数のフレームにおける矩形面積が最大の物体の矩形座標(所定数と同じ数の矩形座標)を用いて、フレームnにおける矩形中心の移動量v1(n)及び矩形拡大率v3(n)を算出する。また、矩形算出部32は、フレームnにおける矩形面積が最大の物体の矩形座標を用いて、矩形面積v2(n)を算出する。
【0058】
ここで、矩形算出部32は、物体検出処理部22により物体が検出されなかった場合、矩形データv(n)=0、すなわちv1(n)=v2(n)=v3(n)=0とする。
【0059】
また、矩形算出部32は、フレームn-1における矩形面積が最大の物体(物体αとする。)と、フレームnにおける矩形面積が最大の物体(物体βとする)との間の重なり率を、それぞれの矩形座標に基づいて算出する。
【0060】
物体αを含むフレームn-1と物体βを含むフレームnとを重ねた場合に、物体α,βが存在する領域の面積をS1とし、物体α,βが重なっている領域の面積をS2とすると、重なり率は、以下の式で表される。
[数1]
重なり率=S2/S1 ・・・(1)
【0061】
そして、矩形算出部32は、重なり率が所定値(例えば0.75)以下の場合、物体αと物体βとが異なると判断し、フレームnにおける物体βの矩形中心の移動量v1(n)=0に設定すると共に、矩形拡大率v3(n)=0に設定する。つまり、矩形面積が最大の物体が変わった場合(同じ識別クラスの異なる物体に変わった場合、または異なる識別クラスの物体に変わった場合)、矩形中心の移動量v1(n)及び矩形拡大率v3(n)がリセットされる。一方、矩形算出部32は、重なり率が所定値(例えば0.75)よりも大きい場合、物体αと物体βとが同じであると判断する。
【0062】
矩形算出部32は、複数のフレームのそれぞれについて、矩形データv(n)である矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)をメモリ33に格納する(ステップS406)。
【0063】
これにより、メモリ33には、映像Eからサンプリングされた時系列の複数のフレーム(全てのフレーム)の矩形データv(n)が格納されることとなる。つまり、メモリ33には、フレーム0の矩形データv(0)(v1(0),v2(0),v3(0))、・・・、フレームnの矩形データv(n)(v1(n),v2(n),v3(n))、・・・、フレームNの矩形データv(N)(v1(N),v2(N),v3(N))が格納される。
【0064】
最大値抽出部34は、サンプリングされた全てのフレームの矩形データv(n)がメモリ33に格納されると、メモリ33から、サンプリングされた全てのフレームの矩形データv(n)を読み出す。そして、最大値抽出部34は、これらの矩形データv(n)に含まれる矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)のそれぞれについて最大値を抽出し、最大矩形データvmaxを設定する(ステップS407)。
【0065】
具体的には、最大値抽出部34は、全てのフレームにおける矩形中心の移動量v1(0),・・・,v1(n),・・・,v1(N)のうち最大の矩形中心の移動量を抽出し、これをv1maxとする。また、最大値抽出部34は、全てのフレームにおける矩形面積v2(0),・・・,v2(n),・・・,v2(N)のうち最大の矩形面積を抽出し、これをv2maxとする。また、最大値抽出部34は、全てのフレームにおける矩形拡大率v3(0),・・・,v3(n),・・・,v3(N)のうち最大の矩形拡大率を抽出し、これをv3maxとする。そして、最大値抽出部34は、矩形中心の最大移動量v1max、最大矩形面積v2max及び最大矩形拡大率v3maxからなる最大矩形データvmaxを設定する。
【0066】
最大値抽出部34は、最大矩形データvmaxである矩形中心の最大移動量v1max、最大矩形面積v2max及び最大矩形拡大率v3maxを音量増幅量算出部35に出力する。
【0067】
音量増幅量算出部35は、最大値抽出部34から最大矩形データvmaxを入力する。また、音量増幅量算出部35は、メモリ33から、サンプリングされた全てのフレームにつき最初から順番に矩形データv(n)を読み出し、矩形データv(n)を最大矩形データvmaxで正規化し、正規化後の矩形データv(n)に基づいて音量増幅量a(n)を算出する(ステップS408)。そして、音量増幅量算出部35は、音量増幅量a(n)を音量制御部12に出力する(ステップS409)。
【0068】
具体的には、音量増幅量算出部35は、メモリ33から読み出した矩形中心の移動量v1(n)を、矩形中心の最大移動量v1maxにて正規化し、正規化後の矩形中心の移動量v’1(n)を求める。また、音量増幅量算出部35は、メモリ33から読み出した矩形面積v2(n)を、最大矩形面積v2maxにて正規化し、正規化後の矩形面積v’2(n)を求める。また、音量増幅量算出部35は、メモリ33から読み出した矩形拡大率v3(n)を、最大矩形拡大率v3maxにて正規化し、正規化後の矩形拡大率v’3(n)を求める。
【0069】
音量増幅量算出部35は、以下の式により、フレームnの音量増幅量a(n)を算出する。
[数2]
a(n)=(w1v’1(n)+w2v’2(n)+w3v’3(n))/(w1+w2+w3
・・・(2)
1,w2,w3は、それぞれ予め設定された矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)の重み係数である。
【0070】
これにより、映像解析部11にて、映像Eから所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれについて、音量増幅量a(n)が得られる。
【0071】
図10は、音量増幅量a(n)の算出結果を示す図であり、映像解析部11により算出された音量増幅量a(n)を示す。縦軸は音量増幅量a(n)であり、横軸は時間(フレーム番号:n)を示す。
【0072】
映像解析部11により、図10に示す音量増幅量a(n)が算出され、音量増幅量a(n)は、後段の音量制御部12に出力される。
【0073】
(音量制御部12)
次に、図1に示した音量制御部12について詳細に説明する。図6は、音量制御部12の構成例を示すブロック図であり、図7は、図6に示す音量制御部12の処理例を示すフローチャートである。
【0074】
この音量制御部12は、メモリ41、低周波音声抽出部42、音量増幅制御部43及び合成部44を備えている。
【0075】
音量制御部12は、映像解析部11からサンプリングされたフレーム毎の音量増幅量a(n)を入力し、音量増幅量a(n)をメモリ41に格納する(ステップS701)。これにより、映像Eからサンプリングされた時系列の複数のフレーム(全てのフレーム)の音量増幅量a(n)が、メモリ41に格納される。
【0076】
音量制御部12は、視聴者による操作に従い、映像E(図1に示した映像解析部11が入力した映像Eと同じ映像)の視聴開始の操作があったか否かを判定する(ステップS702)。音量制御部12は、ステップS702において、視聴開始の操作がないと判定した場合(ステップS702:N)、当該操作があるまで待機する。
【0077】
音量制御部12は、ステップS702において、視聴開始の操作があったと判定した場合(ステップS702:Y)、低周波音声抽出部42は、映像Eを入力し、映像Eから、低周波音声信号S、映像信号、及び低周波音声信号S以外の音声信号を抽出する(ステップS703)。
【0078】
この場合、低周波音声抽出部42は、低周波音声信号Sとして、予め低周波のみを収録した音源の音声信号を抽出するようにしてもよい。
【0079】
例えば、8Kの映像信号及び22.2chの音声信号からなる映像Eでは、0.2chに、LFE(低音増強(Low Frequency Effect)用チャンネル)と呼ばれる120Hz以下の低周波音声が用いられる。この場合、低周波音声抽出部42は、低周波音声信号Sとして、このLFEの音声信号を抽出することにより、後段の触覚デバイス7においてLFEの音声信号を利用することで、視聴者は、振動に適した触覚刺激を得ることができる。
【0080】
また、LFEのような低周波音声を用意できない場合、ミックスされた音声信号を利用するようにしてもよい。つまり、低周波音声抽出部42は、ミックスされた音声信号の低周波成分を強調し、高周波成分を抑えるようにイコライジングすることで、低周波音声信号Sを疑似的に生成することができる。
【0081】
低周波音声抽出部42は、低周波音声信号Sを音量増幅制御部43に出力し、映像信号、及び低周波音声信号S以外の音声信号(その他の音声信号)を合成部44に出力する。
【0082】
音量増幅制御部43は、低周波音声抽出部42から低周波音声信号Sを入力すると共に、メモリ41から、サンプリングされた全てのフレームにつき最初から順番に、音量増幅量a(n)を読み出す(ステップS704)。そして、音量増幅制御部43は、メモリ41から読み出された音量増幅量a(n)に基づいて、低周波音声信号Sの音量Aを増幅し、新たな低周波音声信号S’を生成する(ステップS705)。音量増幅制御部43は、新たな低周波音声信号S’を合成部44に出力する。
【0083】
例えば音量増幅制御部43は、以下の式により、音量増幅量a(n)に比例するように、音量増幅量a(n)に対応するフレームの低周波音声信号Sの音量Aを増幅し、音量Anewを有する新たな低周波音声信号S’を生成する。
[数3]
new=a(n)A+c ・・・(3)
【0084】
ここで、cは、音量Anewを底上げするための定数(最小値)である。また、音量増幅量a(n)に対応するフレームの低周波音声信号Sとは、音量増幅量a(n)に対応するフレームの時点から、次のフレームの直前の時点までの間における音声信号である。
【0085】
これにより、音量増幅量a(n)が小さいほど、すなわち矩形面積が最大の物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が小さいほど、低周波音声信号Sの音量Aを小さくすることができる。一方、音量増幅量a(n)が大きいほど、すなわち矩形面積が最大の物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が大きいほど、低周波音声信号Sの音量Aを大きくすることができる。
【0086】
合成部44は、音量増幅制御部43から低周波音声信号S’を入力すると共に、低周波音声抽出部42から、映像信号、及び低周波音声信号S以外の音声信号を入力する。そして、合成部44は、低周波音声信号S’、映像信号、及び低周波音声信号S以外の音声信号を合成し、音量制御済映像E’を求める(ステップS706)。合成部44は、音量制御済映像E’を触覚提示部13に出力する(ステップS707)。
【0087】
これにより、音量制御部12にて、映像Eのフレームにおける音量増幅量a(n)が小さい場合、低周波音声信号Sの音量Aを小さくすることで、新たな音量Anewの低周波音声信号S’を含む音量制御済映像E’が生成される。また、映像Eのフレームにおける音量増幅量a(n)が大きい場合、低周波音声信号Sの音量Aを大きくすることで、新たな音量Anewの低周波音声信号S’を含む音量制御済映像E’が生成される。
【0088】
尚、図7に示した音量制御部12は、さらに、メモリ41の前段に平滑化部を備えるようにしてもよい。平滑化部は、映像解析部11からサンプリングされたフレーム毎の音量増幅量a(n)を入力する。
【0089】
平滑化部は、音量増幅量a(n)が安定していない場合(例えば音量増幅量a(n)の変化率が所定値以上である場合)、前後(近傍)の所定数のフレームを用いて、当該フレームの音量増幅量a(n)のスムージング(平滑化)を行う。そして、平滑化部は、平滑化後の音量増幅量a(n)をメモリ41に格納する。
【0090】
(触覚提示部13)
次に、図1に示した触覚提示部13について詳細に説明する。図8は、5.1ch形式の映像Eを再生する場合の触覚提示部13の構成例を示す図である。この例は、5.1ch形式(L,R,C,SL,SR,LFE)の音声信号のうち、L,R,LFEの3チャンネルの音声信号を使用している場合を示している。
【0091】
この触覚提示部13は、抽出部51及び増幅部52を備えている。尚、図8では、映像信号及びL,Rの音声信号を増幅する構成については省略してある。
【0092】
抽出部51は、音量制御部12から音量制御済映像E’を入力し、音量制御済映像E’から、低周波音声信号S’としてLFEの音声信号を抽出すると共に、映像信号及びL(左),R(右)の音声信号を抽出する。抽出部51は、LFEの音声信号を増幅部52に出力し、増幅部52は、LFEの音声信号を増幅して触覚デバイス7及びスピーカ9へ出力する。また、抽出部51は、映像信号をディスプレイ8へ出力し、L,Rの音声信号をスピーカ9へ出力する。
【0093】
触覚デバイス7は、増幅部52からLFEの音声信号を入力し、LFEの音声信号の音量が小さいほど、小さい振動を視聴者へ提示し、LFEの音声信号の音量が大きいほど、大きい振動を視聴者へ提示する。
【0094】
これにより、視聴者は、触覚提示部13からLFEの音声信号を入力した触覚デバイス7、映像信号を入力したディスプレイ8、及びL,R,LFEの音声信号を入力したスピーカ9を介して、映像Eを視聴すると共に、映像Eに連動した触覚刺激を受けることができる。
【0095】
特に、映像Eのフレームにおいて、矩形面積が最大の物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が小さい場合、低周波音声信号Sの音量Aが小さくなることで、視聴者は、通常よりも弱い触覚刺激を受けることができる。一方、矩形面積が最大の物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が大きい場合、低周波音声信号Sの音量Aが大きくなることで、視聴者は、通常よりも強い触覚刺激を受けることができる。
【0096】
ここで、LFEの音声信号である低周波音声信号S’が触覚デバイス7へ出力され、低周波音声信号S’が触覚刺激に変換されるのは、一般に、人間が200Hz以下程度の低い周波数でのみ触覚刺激を受けることができ、音声信号の周波数が高い場合は、適した触覚刺激を受けることができないからである。
【0097】
尚、抽出部51は、音量制御済映像E’から、低周波音声信号S’としてLFEの音声信号を抽出すると共に、映像信号及びL(左),R(右)の音声信号を抽出し、LFEの音声信号を、増幅部52を経由して触覚デバイス7へ出力し、映像信号をディスプレイ8へ出力し、L(左),R(右)の音声信号をスピーカ9へ出力するようにしてもよい。
【0098】
以上のように、本発明の実施形態の触覚提示装置1によれば、映像解析部11は、映像Eをサンプリングして時系列の複数のフレームを取得し、複数のフレームのそれぞれについて、1または複数の物体の矩形座標を検出し、面積が最大の物体を選定し、当該物体の矩形データv(矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n))を算出する。そして、映像解析部11は、サンプリングされた全てのフレームの矩形データvから最大矩形データvmaxを抽出し、矩形データv及び最大矩形データvmaxに基づいて音量増幅量a(n)を算出する。
【0099】
音量制御部12は、視聴開始の操作があると、映像Eから低周波音声信号S等を抽出し、低周波音声信号Sの音量Aに音量増幅量a(n)を乗算することで、低周波音声信号Sの音量Aを増幅した新たな低周波音声信号S’を生成する。そして、音量制御部12は、低周波音声信号S’を含む音量制御済映像E’を合成する。
【0100】
触覚提示部13は、音量制御済映像E’から低周波音声信号S’を抽出し、低周波音声信号S’を触覚デバイス7へ出力する。
【0101】
これにより、フレームに含まれる物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が大きいほど、音量増幅量a(n)が大きくなり、音量Aを大きくした新たな音量Anewの低周波音声信号S’が生成され、触覚デバイス7による振動を大きくすることができる。一方、フレームに含まれる物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)が小さいほど、音量増幅量a(n)が小さくなり、音量Aを小さくした新たな音量Anewの低周波音声信号S’が生成され、触覚デバイス7による振動を小さくすることができる。
【0102】
つまり、視聴者は、触覚デバイス7を介して、映像Eに含まれる物体の動き等に応じた振動刺激を受けることができる。視聴者は、例えば物体の動きが大きいほど、大きな振動刺激を受けることができ、物体の動きが小さいほど、小さな振動刺激を受けることができる。
【0103】
したがって、映像Eを視聴する際に、触覚提示装置1により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、映像E内の物体の動き等に合わせて振動刺激を受けることができ、没入感を向上させることができる。
【0104】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0105】
例えば前記実施形態では、映像解析部11に備えた音量増幅量算出処理部23の音量増幅量算出部35は、物体の矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)をそれぞれの最大値で正規化し、正規化後の矩形中心の移動量v’1(n)、矩形面積v’2(n)及び矩形拡大率v’3(n)を重み付けすることで、音量増幅量a(n)を算出するようにした。これに対し、音量増幅量算出部35は、矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)のうちの少なくとも1つのデータを用いて、音量増幅量a(n)を算出するようにしてもよい。
【0106】
例えば音量増幅量算出部35は、矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)のうちの2つのデータをそれぞれの最大値で正規化し、正規化後の2つのデータを重み付けすることで、音量増幅量a(n)を算出する。
【0107】
また、音量増幅量算出部35は、矩形中心の移動量v1(n)、矩形面積v2(n)及び矩形拡大率v3(n)のうちの1つのデータをその最大値で正規化し、正規化後のデータを音量増幅量a(n)とする。この場合、音量増幅量算出部35は、正規化後のデータの値に比例するように、音量増幅量a(n)を算出するようにしてもよい。
【0108】
また、例えば図2及び図7に示した例では、触覚提示装置1の映像解析部11に備えた音量増幅量算出処理部23の矩形算出部32は、サンプリングされた全てのフレームの矩形データv(n)をメモリ33に格納するようにした。そして、最大値抽出部34は、メモリ33からサンプリングされた全てのフレームの矩形データv(n)を読み出して最大矩形データvmaxを抽出し、音量増幅量算出部35は、矩形データv(n)及び最大矩形データvmaxに基づいて音量増幅量a(n)を算出する。そして、視聴者による視聴開始の操作があると、音量制御部12の音量増幅制御部43は、音量増幅量a(n)に基づいて低周波音声信号Sの音量Aを増幅するようにした。
【0109】
これに対し、音量増幅量算出部35は、最大値抽出部34により抽出された最大矩形データvmaxを用いるのではなく、予め設定された最大矩形データvmaxを用いて、音量増幅量a(n)を算出するようにしてもよい。この場合、映像解析部11の音量増幅量算出処理部23は、図5に示した構成例において、メモリ33及び最大値抽出部34を備える必要がない。
【0110】
つまり、音量制御部12が視聴者による視聴開始の操作を待つことなく、音量増幅制御部43は、時間インタリーブ処理部35により算出された音量増幅量a(n)に基づいて、低周波音声信号Sの音量Aを増幅する。
【0111】
これにより、映像解析部11が映像Eを入力して音量増幅量a(n)を算出し、音量制御部12が低周波音声信号Sの音量Aを増幅して音量制御済映像E’を生成し、触覚提示部13が低周波音声信号S’を触覚デバイス7へ出力するまでの一連の処理をリアルタイムで実現することができる。
【0112】
また、図2及び図7に示した例では、触覚提示装置1の音量制御部12は、視聴者による視聴開始の操作があったと判定した場合に、映像Eから低周波音声信号S等を抽出し、低周波音声信号Sの音量Aを増幅して音量制御済映像E’を生成し、触覚提示部13は、音量制御済映像E’から低周波音声信号S’を抽出して触覚デバイス7へ出力するようにした。
【0113】
これに対し、音量制御部12は、生成した音量制御済映像E’を図6には図示しないメモリに格納しておき、触覚提示部13は、視聴者による視聴開始の操作がある度に、当該メモリに格納された音量制御済映像E’を繰り返し利用するようにしてもよい。
【0114】
尚、触覚提示装置1のハードウェア構成としては、通常のコンピュータを使用することができる。触覚提示装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0115】
触覚提示装置1に備えた映像解析部11、音量制御部12及び触覚提示部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0116】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0117】
1 触覚提示装置
7 触覚デバイス
8 ディスプレイ
9 スピーカ
11 映像解析部
12 音量制御部
13 触覚提示部
21 フレームサンプリング処理部
22 物体検出処理部
23 音量増幅量算出処理部
31 物体選定部
32 矩形算出部
33,41 メモリ
34 最大値抽出部
35 音量増幅量算出部
42 低周波音声抽出部
43 音量増幅制御部
44 合成部
51 抽出部
52 増幅部
E 映像
E’ 音量制御済映像
k1,k2,k3 矩形座標
a 音量増幅量
v 矩形データ
max 最大矩形データ
1(n) 矩形中心の移動量
2(n) 矩形面積
3(n) 矩形拡大率
S,S’ 低周波音声信号
A,Anew 音量
α,β 物体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10