IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開-映像音声再生装置及びそのプログラム 図1
  • 特開-映像音声再生装置及びそのプログラム 図2
  • 特開-映像音声再生装置及びそのプログラム 図3
  • 特開-映像音声再生装置及びそのプログラム 図4
  • 特開-映像音声再生装置及びそのプログラム 図5
  • 特開-映像音声再生装置及びそのプログラム 図6
  • 特開-映像音声再生装置及びそのプログラム 図7
  • 特開-映像音声再生装置及びそのプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025007132
(43)【公開日】2025-01-17
(54)【発明の名称】映像音声再生装置及びそのプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20250109BHJP
   H04N 21/439 20110101ALI20250109BHJP
   H04N 21/44 20110101ALI20250109BHJP
   G06T 19/00 20110101ALI20250109BHJP
【FI】
H04S7/00 300
H04N21/439
H04N21/44
G06T19/00 300A
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023108329
(22)【出願日】2023-06-30
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】大久保 洋幸
(72)【発明者】
【氏名】杉本 岳大
(72)【発明者】
【氏名】小倉 知美
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】岩崎 泰士
【テーマコード(参考)】
5B050
5C164
5D162
【Fターム(参考)】
5B050BA09
5B050CA07
5B050DA04
5B050DA05
5B050EA07
5B050EA13
5B050FA05
5B050FA10
5C164PA46
5C164UB05P
5C164UB08P
5C164UB41S
5C164UD44S
5C164YA11
5C164YA21
5D162AA14
5D162CA21
5D162CC08
5D162DA51
5D162EG02
(57)【要約】
【課題】映像と音声のずれを補正できる映像音声再生装置を提供する。
【解決手段】映像音声再生装置10は、ガイドオブジェクト配置部11と、映像レンダラー12と、音声レンダラー13と、撮影画像に含まれるガイドオブジェクトの第1座標を検出する座標検出部14と、ガイドオブジェクトの第1座標と第2座標との差分を算出する差分算出部15と、差分算出部15が算出した差分に基づいて、音声レンダラー13が再生する音声を遅延させる遅延補正部16とを備える。
【選択図】図5
【特許請求の範囲】
【請求項1】
ユーザの操作に応じた仮想空間内での視点位置が入力され、入力された前記視点位置に応じて映像及び音声を同期して再生する映像音声再生装置であって、
座標検出用のガイドオブジェクトを仮想空間内に予め配置するガイドオブジェクト配置部と、
映像ストリームが入力され、入力された前記映像ストリームに映像レンダリングを施すことで、前記視点位置に対応した映像を再生する映像レンダラーと、
音声ストリームが入力され、入力された前記音声ストリームに音声レンダリングを施すことで、前記視点位置に対応した音声を再生する音声レンダラーと、
前記映像を再生している表示手段を撮影した撮影画像が入力され、入力された前記撮影画像に含まれるガイドオブジェクトの第1座標を検出する座標検出部と、
前記音声レンダリングで定まるガイドオブジェクトの第2座標と前記座標検出部が検出したガイドオブジェクトの第1座標との差分を算出する差分算出部と、
前記差分算出部が算出した差分に基づいて、前記音声レンダラーが再生する音声を遅延させる遅延補正部と、
を備えることを特徴とする映像音声再生装置。
【請求項2】
前記遅延補正部は、前記差分算出部が算出した差分を所定の視距離における角度差に変換し、変換した前記角度差が予め設定した閾値を超える場合、前記差分を時間差に変換し、前記時間差に基づいて、前記音声レンダラーが再生する音声を遅延させることを特徴とする請求項1に記載の映像音声再生装置。
【請求項3】
ユーザの操作に応じた仮想空間内での視点位置が入力され、入力された前記視点位置に応じて映像及び音声を同期して再生する映像音声再生装置であって、
座標検出用のガイドオブジェクトを仮想空間内に予め配置するガイドオブジェクト配置部と、
映像ストリームが入力され、入力された前記映像ストリームに映像レンダリングを施すことで、前記視点位置に対応した映像を再生する映像レンダラーと、
音声ストリームが入力され、入力された前記音声ストリームに音声レンダリングを施すことで、前記視点位置に対応した音声を再生する音声レンダラーと、
前記映像を再生している表示手段を撮影した撮影画像が入力され、入力された前記撮影画像に含まれるガイドオブジェクトの第1座標を検出する座標検出部と、
予め配置された前記ガイドオブジェクトの第2座標と前記座標検出部が検出したガイドオブジェクトの第1座標との差分を算出する差分算出部と、
前記差分算出部が算出した差分に基づいて、前記音声レンダラーが再生する音声を遅延させる遅延補正部と、
を備えることを特徴とする映像音声再生装置。
【請求項4】
前記遅延補正部は、前記差分算出部が算出した差分を時間差に変換し、変換した前記時間差が予め設定した閾値を超える場合、前記時間差に基づいて、前記音声レンダラーが再生する音声を遅延させることを特徴とする請求項3に記載の映像音声再生装置。
【請求項5】
コンピュータを、請求項1から請求項4の何れか一項に記載の映像音声再生装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、VRで映像及び音声を再生する映像音声再生装置及びそのプログラムに関する。
【背景技術】
【0002】
6軸の自由度を持つ6DoF(Degree of Freedom)に対応したVR(Virtual Reality)サービスが広がりつつある。このVRサービスでは、ユーザのインタラクティブな操作に応じて、任意の視点でVRコンテンツを再生できる。
【0003】
VR映像音声再生システムでは、映像と音声の「ずれ」が生じることがある。このずれに対応すべく、幾つかの従来技術が提案されている。特許文献1では、複数の音声チャンネル同士の遅延を補正する手法が提案されている。また、特許文献2では、サーバが映像信号と音声信号を送出する際、同期誤差を受信側で補正する手法が提案されている。また、特許文献3,4では、映像及び音声のストリームを受信する際、パケットに付与されたタイムスタンプを利用して伝送時間の差を補正する手法が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013-201669号公報
【特許文献2】特開2005-229168号公報
【特許文献3】特開2020-149398号公報
【特許文献4】国際公開第2020/008716号
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に、VR映像音声再生システムは、映像と音声で独立したレンダラーを有しており、各レンダラーの処理遅延の相違によっても、映像と音声にずれが生じてしまう。しかし、前記した従来技術は、伝送遅延を想定した手法であり、各レンダラーの処理遅延の相違を想定しておらず、これに起因したずれを補正できない。
【0006】
本発明は、各レンダラーの処理遅延の相違に起因した、映像と音声のずれを補正できる映像音声再生装置及びそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る映像音声再生装置は、ユーザの操作に応じた仮想空間内での視点位置が入力され、入力された視点位置に応じて映像及び音声を同期して再生する映像音声再生装置であって、ガイドオブジェクト配置部と、映像レンダラーと、音声レンダラーと、座標検出部と、差分算出部と、遅延補正部と、を備える構成とした。
【0008】
かかる構成によれば、ガイドオブジェクト配置部は、座標検出用のガイドオブジェクトを仮想空間内に予め配置する。
映像レンダラーは、映像ストリームが入力され、入力された映像ストリームに映像レンダリングを施すことで、視点位置に対応した映像を再生する。
音声レンダラーは、音声ストリームが入力され、入力された音声ストリームに音声レンダリングを施すことで、視点位置に対応した音声を再生する。
【0009】
座標検出部は、映像を再生している表示手段を撮影した撮影画像が入力され、入力された撮影画像に含まれるガイドオブジェクトの第1座標を検出する。このガイドオブジェクトの第1座標は、実際に表示されている画面上の座標に相当し、映像レンダラーの処理遅延が含まれている。
差分算出部は、音声レンダリングで定まるガイドオブジェクトの第2座標と座標検出部が検出したガイドオブジェクトの第1座標との差分を算出する。このガイドオブジェクトの第2座標は、本来表示されるべき画面上の座標に相当し、映像レンダラーの処理遅延が含まれていない。
遅延補正部は、差分算出部が算出した差分に基づいて、音声レンダラーが再生する音声を遅延させる。
【0010】
映像の複雑さに応じて、映像レンダリングの処理負荷が変化するため、本来表示されるべき画面に対して、実際に表示されている画面がずれてしまう。また、映像レンダリングに比べて、音声レンダリングの処理遅延が無視できる程に小さい。そこで、映像音声再生装置は、音声レンダリングで定まるガイドオブジェクトの座標を用いて、映像と音声のずれを補正する。
【0011】
また、前記課題を解決するため、本発明に係る映像音声再生装置は、ユーザの操作に応じた仮想空間内での視点位置が入力され、入力された視点位置に応じて映像及び音声を同期して再生する映像音声再生装置であって、ガイドオブジェクト配置部と、映像レンダラーと、音声レンダラーと、座標検出部と、差分算出部と、遅延補正部と、を備える構成とした。
【0012】
かかる構成によれば、ガイドオブジェクト配置部は、座標検出用のガイドオブジェクトを仮想空間内に予め配置する。
映像レンダラーは、映像ストリームが入力され、入力された映像ストリームに映像レンダリングを施すことで、視点位置に対応した映像を再生する。
音声レンダラーは、音声ストリームが入力され、入力された音声ストリームに音声レンダリングを施すことで、視点位置に対応した音声を再生する。
【0013】
座標検出部は、映像を再生している表示手段を撮影した撮影画像が入力され、入力された撮影画像に含まれるガイドオブジェクトの第1座標を検出する。このガイドオブジェクトの第1座標は、実際に表示されている画面上の座標に相当し、映像レンダラーの処理遅延が含まれている。
差分算出部は、予め配置されたガイドオブジェクトの第2座標と座標検出部が検出したガイドオブジェクトの第1座標との差分を算出する。このガイドオブジェクトの第2座標は、本来表示されるべき画面上の座標に相当し、映像レンダラーの処理遅延が含まれていない。
遅延補正部は、差分算出部が算出した差分に基づいて、音声レンダラーが再生する音声を遅延させる。
【0014】
映像の複雑さに応じて、映像レンダリングの処理負荷が変化するため、本来表示されるべき画面に対して、実際に表示されている画面がずれてしまう。そこで、映像音声再生装置は、ガイドオブジェクトの第1座標及び第2座標の差分に基づいて音声を遅延させることで、映像と音声のずれを補正できる。
【0015】
なお、本発明は、コンピュータを、前記した映像音声再生装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0016】
本発明によれば、各レンダラーの処理遅延の相違に起因した、映像と音声のずれを補正できる。
【図面の簡単な説明】
【0017】
図1】実施形態において、ガイドオブジェクトの配置を説明する説明図である。
図2】実施形態において、座標変換を説明する説明図である。
図3】実施形態において、映像レンダリングの処理遅延を説明する説明図である。
図4】実施形態において、ガイドオブジェクトの検出を説明する説明図である。
図5】第1実施形態に係る映像音声再生装置の構成を示すブロック図である。
図6】第1実施形態に係る映像音声再生装置の動作を示すフローチャートである。
図7】第2実施形態に係る映像音声再生装置の構成を示すブロック図である。
図8】第2実施形態に係る映像音声再生装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の各実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
【0019】
[映像と音声のずれを補正する原理]
以下、各実施形態を説明する前提として、映像と音声のずれを補正する原理について説明する。
【0020】
図1に示すように、VRで再現する仮想空間SPには、仮想的なオブジェクト(例えば、人物)Aが配置され、仮想視点Vが予め設定されている。仮想視点Vは、仮想空間SPを仮想的に撮影する仮想カメラの位置であり、仮想空間SP内での視点位置に相当する。また、仮想視点Vは、ユーザが操作手段2(図5)を操作する、又は、HMDを装着したユーザが頭部の姿勢を変化させることで、ユーザがインタラクティブに操作可能である。
【0021】
また、仮想空間SPには、座標検出用のガイドオブジェクトGを予め配置する。このガイドオブジェクトGは、実際に表示されている画面上の座標(第1座標)を検出するためのオブジェクトである。例えば、ガイドオブジェクトGは、ユーザの視聴を妨げないように、赤外映像又は電子透かしにより、不可視なオブジェクトとすることが好ましい(参考文献1,2参照)。
【0022】
参考文献1:小林他、電子透かしによる著作権保護への取り組み、情報管理、2017、vol.60、No.2、p.89-99
参考文献2:“肉眼では見えないQRコードを埋め込む技術、米MITと米Metaが開発”、[online]、2022年2月3日、[令和5年5月27日検索],インターネット <URL:https://www.itmedia.co.jp/news/articles/2202/03/news042.html>
【0023】
また、ガイドオブジェクトGは、仮想空間SPの演出になじむものであれば、建物、樹木、ボールといった可視なオブジェクトでもよい。ガイドオブジェクトGは、仮想視点Vが様々方向に変化した場合でも必ず映像に含まれるように配置する。図1に示すように、各ガイドオブジェクトGは、「111」、「211」といった識別番号を付与するなど、個別に識別可能である。x軸上でi番目、y軸上でj番目、z軸上でk番目のガイドオブジェクトGをGi,j,kとする(但し、i,j,kは、1以上の整数)。図1の例では、ガイドオブジェクトG1,1,1,G1,2,1,…,Gi,j,kが等間隔で格子状に配置されている。
【0024】
仮想空間SP内のオブジェクトA及びガイドオブジェクトGは、それぞれ、仮想空間SP内のある1点を原点とし、x軸、y軸及びz軸に沿った3次元座標(x,y,z)を有する。CGを制作する際、仮想空間SP内に任意に設定された世界座標系で仮想空間SP内のオブジェクトA及びガイドオブジェクトGを定義する。
【0025】
ガイドオブジェクトGi,j,kの世界座標は、以下の式(1)に示すように、仮想空間SP内に予め設定される。
【0026】
【数1】
【0027】
映像レンダリングによって、仮想空間SP内の所定位置にガイドオブジェクトGi,j,kがレンダリング(描画)される。映像レンダリングでは、ユーザによるインタラクティブな操作により、以下の式(2)だけ仮想視点Vの位置が変化する。
【0028】
【数2】
【0029】
図2及び以下の式(3)に示すように、映像レンダリングにおいて、ガイドオブジェクトGi,j,kの世界座標GImage,Gi,j,kをカメラ座標G´Image,Gi,j,k=(x´Image,Gi,j,k,y´Image,Gi,j,k,z´Image,Gi,j,k)で表すことができる。なお、カメラ座標とは、仮想空間SP内の仮想視点Vに配置された仮想カメラを基準とする3次元座標系のことである。
【0030】
【数3】
【0031】
Rは、仮想視点Vを基準とした座標系に変換するための回転行列である。また、右辺第2項の(tGi,j,k,tGi,j,k,tGi,j,k)は、仮想視点Vへの平行移動ベクトルである。これら回転行列R及び平行移動ベクトルは、予め設定する。
【0032】
ユーザの視線上に位置するガイドオブジェクトGi,j,kを仮想空間SP内の仮想カメラで捉えた場合を考える。以下の式(4)に示すように、ガイドオブジェクトGi,j,kのカメラ座標G´Image,Gi,j,kが、インタラクティブな操作によって、カメラ座標G^Image,Gi,j,k=(x^Image,Gi,j,k,y^Image,Gi,j,k,z^Image,Gi,j,k)に移動したことを表す。
【0033】
【数4】
【0034】
図3に示すように、映像及び音声は別々にレンダリングされ、それぞれの処理時間が異なる。また、映像レンダリングの処理遅延が大きい一方、音声レンダリングの処理遅延は無視できる程小さいので、映像と音声にずれが生じてしまう。そこで、以下で説明するように、映像と音声のずれを補正する。
【0035】
図4に示すように、ユーザがインタラクティブな操作を行った後、ガイドオブジェクトGを撮影できる撮影カメラ(例えば、赤外光カメラ)4で表示手段3を撮影することで、表示手段3上でのガイドオブジェクトGの第1座標を検出する。
【0036】
インタラクティブな操作後において、ガイドオブジェクトGi,j,kの第1座標は、以下の式(5)に示すように、画像座標(uGImage,i,j,k,vGImage,i,j,k)で表すことができる。このガイドオブジェクトGi,j,kの第1座標には、映像レンダリングの処理遅延が含まれており、実際に表示されている画面上の座標を表す。なお、画像座標とは、仮想カメラで撮影した画像の2次元座標、つまり、ユーザが視聴する画像の2次元座標のことである。
【0037】
【数5】
【0038】
インタラクティブな操作後において、ガイドオブジェクトGi,j,kの正規化画像座標を(x^Image,Gi,j,k,y^Image,Gi,j,k)で表す。なお、正規化画像座標とは、仮想カメラを基準とする2次元座標のことである。
【0039】
インタラクティブな操作後において、ガイドオブジェクトGi,j,kの画像座標(uGImage,i,j,k,vGImage,i,j,k)と正規化画像座標(x^Image,Gi,j,k,y^Image,Gi,j,k)の関係は、以下の式(6)及び式(7)で表される。つまり、式(6)及び式(7)を用いて、ガイドオブジェクトGi,j,kの正規化画像座標(x^Image,Gi,j,k,y^Image,Gi,j,k)を画像座標(uGImage,i,j,k,vGImage,i,j,k)に変換できる。
【0040】
【数6】
【数7】
【0041】
なお、fは仮想空間SP内の仮想カメラの焦点距離(仮想カメラとオブジェクトAとの距離)、δu,Gi,j,kは横方向の仮想カメラの画素サイズ、δv,Gi,j,kは縦方向の仮想カメラの画素サイズを表す。また、cu,Gi,j,kは画像座標系における光軸と画像面(投影面)との交点の横方向位置、cv,Gi,j,kは画像座標系における光軸と画像面(投影面)との交点の縦方向位置を表す。
【0042】
また、インタラクティブな操作後における正規化画像座標(x^Image,Gi,j,k,y^Image,Gi,j,k)は、カメラ座標(x^Image,Gi,j,k,y^Image,Gi,j,k,z^Image,Gi,j,k)の一部となっており、カメラ座標が既知となれば正規化画像座標も既知となる。
【0043】
音声レンダリングでは、ステレオ再生、マルチチャンネルサラウンド再生又はバイノーラル再生によって、音像が再生される。音声レンダリングでは、映像レンダリングと同様、ユーザによるインタラクティブな操作によって、前記式(2)だけ仮想視点Vの位置が変化する。
【0044】
また、音声レンダリングで再現される音場において、ガイドオブジェクトGi,j,kの世界座標GAudio, Gi,j,k=(xAudio,Gi,j,k,yAudio,Gi,j,k,zAudio,Gi,j,k)は、前記式(3)と同様、カメラ座標G´Audio, Gi,j,k=(x´Audio,Gi,j,k,y´Audio,Gi,j,k,z´Audio,Gi,j,k)に変換できる。また、前記式(4)と同様、ガイドオブジェクトGi,j,kのカメラ座標G´Audio, Gi,j,kが、インタラクティブな操作によって、カメラ座標G^Audio, Gi,j,k=(x^Audio,Gi,j,k,y^Audio,Gi,j,k,z^Audio,Gi,j,k)に移動する。
【0045】
以下の式(8)及び式(9)に示すように、インタラクティブな操作後において、ガイドオブジェクトGi,j,kの正規化画像座標(x^Audio,Gi,j,k,y^Audio,Gi,j,k)を画像座標(uGAudio,i,j,k,vGAudio,i,j,k)に変換できるので、これを第2座標とする。なお、音声レンダリングで定まるガイドオブジェクトGの座標には、映像レンダリングの処理遅延が含まれず、本来表示されるべき画面上の座標に相当する。
【0046】
【数8】
【数9】
【0047】
ここで、映像レンダリングで処理遅延が発生するため、ガイドオブジェクトGi,j,kの第1座標(uGImage,i,j,k,vGImage,i,j,k)には、映像レンダリングの処理遅延が含まれる。これに対し、音声レンダリングで定まるガイドオブジェクトGの第2座標(uGAudio,i,j,k,vGAudio,i,j,k)には、映像レンダリングの処理遅延が含まれず、本来表示されるべき画面上の座標に相当する。
【0048】
そこで、以下の式(10)に示すように、ガイドオブジェクトGi,j,kの画像座標(uGImage,i,j,k,vGImage,i,j,k)と第2座標(uGAudio,i,j,k,vGAudio,i,j,k)との差分に応じて、ずれを補正すればよい。
【0049】
【数10】
【0050】
ここで、インタラクティブな操作後において、撮影画像から検出したガイドオブジェクトGi,j,kの第1座標を、以下の式(11)に示すように、画像座標(u^GImage,i,j,k,v^GImage,i,j,k)で表すこととする。
【0051】
【数11】
【0052】
具体的には、ガイドオブジェクトGi,j,kの第1座標(u^GImage,i,j,k,v^GImage,i,j,k)と第2座標(uGAudio,i,j,k,vGAudio,i,j,k)との差分を所定の視距離dにおける角度差に変換する。一定の視距離dにいるユーザが認識できるずれ(第1座標と第2座標との角度差)は、以下の式(12)で定義される。なお、視距離dとは、ユーザの肉眼と表示手段3との距離のことである。
【0053】
【数12】
【0054】
この角度差が11度を超える場合、ユーザの許容限度を超えることが知られている(参考文献3)。そこで、角度差が予め設定した閾値(例えば、11度)を超える場合、ずれを補正すればよい。なお、角度差の閾値は、11度に限定されないことは言うまでもない。
【0055】
参考文献3:S.Komiyama: “An Application of the 3-1 Sound System to HDTV Home Receiver”, ICCE, FAM-19.5, (June 1990)
【0056】
具体的には、ずれを補正するため、ガイドオブジェクトGi,j,kの第1座標(u^GImage,i,j,k,v^GImage,i,j,k)と第2座標(uGAudio,i,j,k,vGAudio,i,j,k)との差分から、遅延時間(時間差Δt)を求める。具体的には、以下の式(13)を用いて、角度差を時間差(映像の処理遅延)Δtに変換する。その後、音声を時間差Δtだけ遅延させればよい。
【0057】
【数13】
【0058】
なお、時間差Δtが時々刻々と変化する場合、一時的な音声の断や不連続が生じ、ノイズとして聞こえてしまうことが考えられる。この場合、信号処理により不連続な部分を平滑化するか、又は、音声のブロック(発音されているひとまとまりの時間)単位で遅延を施せばよい。
【0059】
前記した例では、映像レンダリングと音声レンダリングとの差分から遅延を求めているが、これに限定されない。仮想空間SP内に予め配置されたガイドオブジェクトGi,j,kの世界座標は、映像レンダリングの処置遅延が含まれないので、音声レンダリングで定まるガイドオブジェクトGの第2座標と同様、差分の算出に利用できる。
【0060】
仮想空間SP内に予め配置されたガイドオブジェクトGi,j,kの画像座標は、音声レンダリングで定まるガイドオブジェクトGの第2座標と同様、以下の式(14)に示すように、画像座標(uGImage,i,j,k,vGImage,i,j,k)で表すことができる。
【0061】
【数14】
【0062】
インタラクティブな操作後において、撮影画像から検出したガイドオブジェクトGi,j,kの画像座標(第1座標)は、前記式(11)に示すように、画像座標(u^GImage,i,j,k,v^GImage,i,j,k)で表すことができる。
【0063】
そこで、以下の式(15)に示すように、ガイドオブジェクトGi,j,kの画像座標(u^GImage,i,j,k,v^GImage,i,j,k)と前記式(14)で示す画像座標(uGImage,i,j,k,vGImage,i,j,k)との差分に応じて、ずれを補正すればよい。
【0064】
【数15】
【0065】
ガイドオブジェクトGi,j,kの画像座標(u^GImage,i,j,k,v^GImage,i,j,k)と前記式(14)で示す画像座標(uGImage,i,j,k,vGImage,i,j,k)との差分を所定の視距離dにおける角度差に変換する。一定の視距離dにいるユーザが認識できるずれ(第1座標と第2座標との角度差)は、以下の式(16)で定義される。
【0066】
【数16】
【0067】
具体的には、ずれを補正するため、ガイドオブジェクトGi,j,kの第1座標(u^GImage,i,j,k,v^GImage,i,j,k)と第2座標(uGImage,i,j,k,vGImage,i,j,k)との差分から、遅延時間(時間差Δt)を求める。具体的には、以下の式(17)を用いて、角度差を時間差(映像の処理遅延)Δtに変換する。その後、音声を時間差Δtだけ遅延させればよい。
【0068】
【数17】
【0069】
(第1実施形態)
[映像音声再生システムの概要]
図5参照し、第1実施形態に係る映像音声再生システム1の概要について説明する。
映像音声再生システム1は、VRサービスとして、映像及び音声を再生するものである。第1実施形態では、映像音声再生システム1が、映像及び音声のずれを第1手法で補正することとする。図5に示すように、映像音声再生システム1は、操作手段2と、表示手段3と、撮影カメラ4と、スピーカ5と、映像音声再生装置10とを備える。
【0070】
操作手段2は、ユーザが仮想視点Vの位置及び方向を操作するものである。例えば、操作手段2は、ジョイスティックであり、ユーザが仮想視点Vの位置及び方向をインタラクティブに操作できる。操作手段2は、仮想視点Vの位置及び方向を映像音声再生装置10に出力する。
【0071】
表示手段3は、映像音声再生装置10から入力された映像、つまり、ユーザが操作した仮想視点Vでの映像を表示するものである。例えば、表示手段3は、液晶ディスプレイ、有機ELディスプレイ等の平面ディスプレイである。
【0072】
撮影カメラ4は、映像を再生している表示手段3を撮影するものであり、映像に含まれるガイドオブジェクトGを撮影可能なカメラである。例えば、撮影カメラ4は、ガイドオブジェクトGが赤外映像で表される場合、赤外線カメラである。撮影カメラ4は、表示手段3を撮影した撮影画像を映像音声再生装置10に出力する。
【0073】
スピーカ5は、映像音声再生装置10から入力された音声、つまり、ユーザが操作した仮想視点Vでの音声(音場)を再生するものである。例えば、スピーカ5は、ステレオスピーカである。
【0074】
[映像音声再生装置の構成]
続いて、映像音声再生装置10の構成について説明する。
映像音声再生装置10は、ユーザの操作に応じた仮想空間SP内での視点位置(仮想視点V)が入力され、入力された視点位置に応じて映像及び音声を同期して再生するものである。図5に示すように、映像音声再生装置10は、ガイドオブジェクト配置部11と、映像レンダラー12と、音声レンダラー13と、座標検出部14と、差分算出部15と、遅延補正部16とを備える。
【0075】
ガイドオブジェクト配置部11は、座標検出用のガイドオブジェクトGを仮想空間SP内に予め配置するものである。例えば、ガイドオブジェクト配置部11では、ユーザが、図示を省略したマウス及びキーボードを用いて、仮想空間SP内にガイドオブジェクトGを手動で配置する(図1参照)。
【0076】
映像レンダラー12は、映像ストリームが入力され、入力された映像ストリームに映像レンダリングを施すことで、視点位置に対応した映像を再生するものである。つまり、映像レンダラー12は、操作手段2から入力された仮想視点Vにおいて、オブジェクトA及びガイドオブジェクトGが配置された仮想空間SPを仮想カメラで撮影した映像をレンダリング(描画)する。映像レンダラー12は、映像レンダリングした映像を表示手段3に出力する。
【0077】
音声レンダラー13は、音声ストリームが入力され、入力された音声ストリームに音声レンダリングを施すことで、視点位置に対応した音声を再生するものである。つまり、音声レンダリングでは、操作手段2から入力された仮想視点Vにおける音場が再現される。そして、音声レンダラー13は、後記する遅延補正部16からの指令に従って、音声の再生タイミングを遅延させてスピーカ5に出力する。さらに、音声レンダラー13は、前記式(8)及び式(9)に示すように、映像レンダリングの処置遅延が含まれないガイドオブジェクトGの第2座標(画像座標)を差分算出部15に出力する。
【0078】
座標検出部14は、映像を再生している表示手段3を撮影した撮影画像が入力され、入力された撮影画像に含まれるガイドオブジェクトGの第1座標を検出するものである。図4に示すように、座標検出部14は、ガイドオブジェクトGi,j,kが赤外映像で表される場合、撮影画像に含まれる各赤外領域の中心位置を各ガイドオブジェクトGi,j,kの第1座標を検出する(前記式(5)~式(7)参照)。座標検出部14は、検出したガイドオブジェクトGi,j,kの第1座標を差分算出部15に出力する。
【0079】
差分算出部15は、音声レンダリングで定まるガイドオブジェクトGの第2座標と座標検出部14が検出したガイドオブジェクGトの第1座標との差分を算出するものである。つまり、差分算出部15は、前記式(10)を用いて、音声レンダラー13から入力されたガイドオブジェクトGi,j,kの第2座標と、座標検出部14から入力されたガイドオブジェクトGi,j,kの第1座標との差分を算出する。差分算出部15は、算出した差分を遅延補正部16に出力する。
【0080】
遅延補正部16は、差分算出部15が算出した差分に基づいて、音声レンダラー13が再生する音声を遅延させるものである。具体的には、遅延補正部16は、前記式(12)を用いて、差分算出部15が算出した差分を所定の視距離dにおける角度差に変換する。
【0081】
そして、遅延補正部16は、変換した角度差が予め設定した閾値(例えば、11度)を超える場合、前記式(13)を用いて、差分を時間差Δtに変換する。さらに、遅延補正部16は、時間差Δtに基づいて、音声レンダラー13が再生する音声を遅延させる。例えば、遅延補正部16は、時間差Δtだけ音声ストリームを遅延させる指令を音声レンダラー13に出力する。
【0082】
なお、遅延補正部16は、変換した角度差が閾値以下の場合、音声を遅延させる必要はない。この場合、音声レンダラー13は、音声ストリームに音声レンダリングを施したら、音声の再生タイミングを遅延させずにスピーカ5に出力する。
【0083】
[映像音声再生装置の動作]
図6を参照し、映像音声再生装置10の動作について説明する。
なお、ガイドオブジェクトGは、仮想空間SP内に予め配置されていることとする。
図6に示すように、ステップS1において、映像レンダラー12には、映像ストリームが入力される。また、音声レンダラー13には、音声ストリームが入力される。
【0084】
ステップS2において、映像レンダラー12は、映像ストリームに映像レンダリングを施すことで、仮想視点Vに対応した映像を再生する。また、音声レンダラー13は、音声ストリームに音声レンダリングを施すことで、仮想視点Vに対応した音声を再生する。
【0085】
ステップS3において、座標検出部14には、撮影カメラ4から、映像を再生している表示手段3を撮影した撮影画像が入力される。
ステップS4において、座標検出部14は、前記式(5)~式(7)を用いて、映像レンダリングにおけるガイドオブジェクトGの第1座標を検出する。
【0086】
ステップS5において、差分算出部15は、前記式(8)及び式(9)を用いて、音声レンダラー13からガイドオブジェクトGの第2座標を取得する。
ステップS6において、差分算出部15は、前記式(10)を用いて、音声レンダリングにおけるガイドオブジェクトGの画像座標(第2座標)と、撮影画像から検出したガイドオブジェクトの画像座標(第1座標)との差分を算出する。
【0087】
ステップS7において、遅延補正部16は、前記式(12)を用いて、ステップS7で算出した差分を所定の視距離dにおける角度差に変換する。
【0088】
ステップS8において、遅延補正部16は、ステップS7で変換した角度差が閾値(例えば、11度)を超えるか否かを判定する。
角度差が閾値を超える場合(ステップS8でYES)、映像音声再生装置10は、ステップS9の処理に進む。
角度差が閾値以下の場合(ステップS8でNO)、映像音声再生装置10は、ステップS1の処理に戻る。
【0089】
ステップS9において、遅延補正部16は、前記式(13)を用いて、ステップS7で求めた差分を時間差Δtに変換する。
ステップS10において、遅延補正部16は、時間差Δtに基づいて、音声レンダラー13が再生する音声を遅延させる。
【0090】
[作用・効果]
以上のように、第1実施形態に係る映像音声再生装置10は、映像レンダラー12と音声レンダラー13との処理遅延の相違に起因した、映像と音声のずれを補正できる。
【0091】
映像の複雑さに応じて、映像レンダリングの処理負荷が変化するため、本来表示されるべき画面に対して、実際に表示されている画面がずれてしまう。そこで、映像音声再生装置10は、ガイドオブジェクトGの第1座標及び第2座標の差分に基づいて音声を遅延させることで、映像と音声のずれを補正できる。
【0092】
(第2実施形態)
[映像音声再生装置の構成]
第2実施形態に係る映像音声再生装置10Bの構成について、第1実施形態と異なる点を説明する。
【0093】
第2実施形態では、音声レンダリングで定まるガイドオブジェクトGの第2座標の代わりに、前記式(14)で予め定まるガイドオブジェクトGの第2座標を利用する点が、第1実施形態と異なる。つまり、前記式(14)で定まるガイドオブジェクトGの座標は、映像レンダリングの処置遅延が含まれないので、音声レンダリングで定まるガイドオブジェクトGの第2座標と同様、差分の算出に利用できる。
【0094】
図7に示すように、映像音声再生装置10Bは、ガイドオブジェクト配置部11Bと、映像レンダラー12と、音声レンダラー13Bと、座標検出部14と、差分算出部15Bと、遅延補正部16Bとを備える。
【0095】
ガイドオブジェクト配置部11Bは、前記式(14)で定まるガイドオブジェクトGの座標を第2座標として差分算出部15Bに出力する。他の点、ガイドオブジェクト配置部11Bは、第1実施形態と同様のため、説明を省略する。
【0096】
音声レンダラー13Bは、ガイドオブジェクトGの第2座標を差分算出部15Bに出力しない。他の点、音声レンダラー13Bは、第1実施形態と同様のため、説明を省略する。
【0097】
差分算出部15Bは、予め配置されたガイドオブジェクトGの第2座標と座標検出部14が検出したガイドオブジェクトGの第1座標との差分を算出するものである。つまり、差分算出部15Bは、前記式(15)を用いて、ガイドオブジェクト配置部11Bから入力されたガイドオブジェクトGの第2座標と、座標検出部14から入力されたガイドオブジェクトGの第1座標との差分を算出する。他の点、差分算出部15Bは、第1実施形態と同様のため、説明を省略する。
【0098】
遅延補正部16Bは、差分算出部15Bが算出した差分に基づいて、音声レンダラー13Bが再生する音声を遅延させるものである。具体的には、遅延補正部16Bは、前記式(16)及び式(17)を用いて、差分算出部15Bが算出した差分を時間差Δtに変換する。
【0099】
この時間差Δtが400msを超える場合、音声が大きく先行したようと感じられることが知られている(参考文献4)。そこで、時間差Δtが予め設定した閾値(例えば、400ms)以上の場合、音声を時間差Δtだけ遅延させればよい。なお、時間差Δtの閾値は、400msに限定されないことは言うまでもない。
【0100】
参考文献4:大久保,織田,火山,小宮山:「インタラクティブ3Dオーディオ再生システム」,AES東京コンベンション2001予稿集,I-1,pp.238-241(2001)
【0101】
つまり、遅延補正部16Bは、時間差Δtが閾値(例えば、400ms)を超える場合、時間差Δtに基づいて、音声レンダラー13Bが再生する音声を遅延させる。例えば、遅延補正部16Bは、時間差Δtだけ音声ストリームを遅延させる指令を音声レンダラー13Bに出力する。
【0102】
なお、遅延補正部16Bは、変換した時間差が閾値以下の場合、音声を遅延させる必要はない。この場合、音声レンダラー13Bは、音声ストリームに音声レンダリングを施したら、音声の再生タイミングを遅延させずにスピーカ5に出力する。
【0103】
[映像音声再生装置の動作]
図8を参照し、映像音声再生装置10Bの動作について説明する。
ステップS1~S4の処理は、第1実施形態と同様のため、説明を省略する。
【0104】
図8に示すように、ステップS20において、差分算出部15Bは、前記式(15)を用いて、予め配置されたガイドオブジェクトGの第2座標と座標検出部14が検出したガイドオブジェクトGの第1座標との差分を算出する
ステップS21において、遅延補正部16Bは、前記式(16)及び式(17)を用いて、差分算出部15Bが算出した差分を時間差Δtに変換する。
【0105】
ステップS22において、遅延補正部16Bは、ステップS21で変換した時間差Δtが閾値(例えば、400ms)を超えるか否かを判定する。
時間差Δtが閾値を超える場合(ステップS22でYES)、映像音声再生装置10Bは、ステップS23の処理に進む。
時間差Δtが閾値以下の場合(ステップS22でNO)、映像音声再生装置10Bは、ステップS1の処理に戻る。
【0106】
ステップS23において、遅延補正部16Bは、時間差Δtに基づいて、音声レンダラー13Bが再生する音声を遅延させる。
【0107】
[作用・効果]
以上のように、第2実施形態に係る映像音声再生装置10Bは、映像レンダラー12と音声レンダラー13Bとの処理遅延の相違に起因した、映像と音声のずれを補正できる。
【0108】
映像の複雑さに応じて、映像レンダリングの処理負荷が変化するため、本来表示されるべき画面に対して、実際に表示されている画面がずれてしまう。そこで、映像音声再生装置10Bは、ガイドオブジェクトGの第1座標及び第2座標の差分に基づいて音声を遅延させることで、映像と音声のずれを補正できる。
【0109】
(変形例)
以上、各実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0110】
前記した各実施形態では、表示手段が平面ディスプレイであることとして説明したが、これに限定されない。例えば、表示手段は、仮想視点の映像をそのまま投影できるデバイス(例えば、HMD)であってもよい。この場合、映像音声再生装置では、前記式(8)及び式(9)の変換を行う必要はない。また、ガイドオブジェクトを検出するための小型カメラをHMDの内部に配置し、その撮影画像を映像音声再生装置に出力すればよい。
【0111】
前記した各実施形態では、第1座標と第2座標との差分を2次元座標系で算出することとして説明したが、これに限定されない。つまり、映像音声再生装置は、第1座標と第2座標との差分を3次元座標系で算出してもよい。
【0112】
前記した各実施形態では、映像音声再生装置の動作を二通り説明したが、一つの動作として扱ってもよい。つまり、図6及び図8の動作でそれぞれ時間差Δtを算出し、大きな方の時間差Δtを用いて音声を遅延させてもよい。
【0113】
前記した各実施形態では、映像音声再生装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した映像音声再生装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0114】
1 映像音声再生システム
2 操作手段
3 表示手段
4 撮影カメラ
5 スピーカ
10、10B 映像音声再生装置
11,11B ガイドオブジェクト配置部
12 映像レンダラー
13,13B 音声レンダラー
14 座標検出部
15,15B 差分算出部
16,16B 遅延補正部
図1
図2
図3
図4
図5
図6
図7
図8