(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022188830
(43)【公開日】2022-12-22
(54)【発明の名称】オブジェクトベース音響用座標変換装置及びプログラム
(51)【国際特許分類】
H04N 21/439 20110101AFI20221215BHJP
H04N 21/442 20110101ALI20221215BHJP
H04S 7/00 20060101ALI20221215BHJP
【FI】
H04N21/439
H04N21/442
H04S7/00 300
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021097055
(22)【出願日】2021-06-10
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】大出 訓史
【テーマコード(参考)】
5C164
5D162
【Fターム(参考)】
5C164PA41
5C164UA31S
5C164UB08P
5C164UB41P
5C164YA11
5C164YA21
5D162AA15
5D162BA13
5D162CA06
5D162CC06
5D162CC12
5D162CD08
5D162DA52
5D162EG02
(57)【要約】
【課題】視聴時の映像表示に合うように、番組制作時の音声オブジェクトの位置を補正する。
【解決手段】オブジェクトベース音響用座標変換装置1の映像位置変換部10は、制作時の音声が想定する映像有効表示範囲Aのうち視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心と一致するように、変換前座標及び変換後座標の組からなる座標変換テーブル11を生成する。音声信号位置変換部12は、座標変換テーブル11を用いて、音声信号の座標である変換前座標に対応する変換後座標を特定し、変換後座標を変換後の音声信号の座標とする。音声信号処理部13は、変換前の音声信号の座標及び変換後の音声信号の座標を用いて、音声信号のレンダリングを行うことで、入力音声信号を出力音声信号に変換し、出力音声信号を提示する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オブジェクトベース音響に用いる音声信号の座標を変換するオブジェクトベース音響用座標変換装置において、
番組制作時の音声が想定する映像の範囲を映像有効表示範囲Aとし、前記映像有効表示範囲Aのうち視聴時の表示装置に表示される映像の範囲を映像有効表示範囲Bとし、視聴時の音声が想定する前記表示装置に表示される映像の範囲を映像有効表示範囲Cとして、
前記映像有効表示範囲Aに含まれる前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、前記映像有効表示範囲C及び当該映像有効表示範囲Cの中心に一致するように、番組制作時の音声信号の座標を視聴時の音声信号の座標に変換する変換規則を生成する映像位置変換部と、
前記映像位置変換部により生成された前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する音声信号位置変換部と、
前記番組制作時の音声信号を入力音声信号とし、前記視聴時の音声信号を出力音声信号として、前記入力音声信号を、前記音声信号位置変換部により変換された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する音声信号処理部と、
を備えたことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項2】
請求項1に記載のオブジェクトベース音響用座標変換装置において、
前記映像を平面映像とし、
前記音声信号位置変換部は、
前記映像有効表示範囲Bの両端における前記番組制作時の音声信号の座標と、前記映像有効表示範囲Cの両端における前記視聴時の音声信号の座標とが対応するように固定して、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項3】
請求項1に記載のオブジェクトベース音響用座標変換装置において、
前記映像を360度映像とし、前記表示装置にて前記360度映像を視聴するユーザが、前記表示装置を回転させた後、ズーム操作を行った場合に、
前記音声信号位置変換部は、
前記映像有効表示範囲Bの中心と、前記映像有効表示範囲Cにおける0度の位置を示す中心とが対応するように回転させた後、前記ズーム操作に応じた前記映像有効表示範囲Cの見開き角に対応するように、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項4】
請求項1に記載のオブジェクトベース音響用座標変換装置において、
前記音声信号位置変換部は、
前記映像有効表示範囲Cの示す見開き角xが予め設定された見開き角θを下回る場合、前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、予め設定された座標に一致するように、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項5】
請求項1に記載のオブジェクトベース音響用座標変換装置において、
前記番組制作時の音声信号に対し、前記映像と連動するか否かを示す連動/非連動の識別子が付与されている場合に、
前記音声信号位置変換部は、
前記番組制作時の音声信号に付与された前記識別子が前記連動を示している場合、前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換し、
前記番組制作時の音声信号に付与された前記識別子が前記非連動を示している場合、前記番組制作時の音声信号の座標を変換しないで、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標とするか、または、前記番組制作時の音声信号の座標を、予め設定された固定の座標に変換し、当該固定の座標を前記視聴時の音声信号の座標とする、ことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項6】
請求項1に記載のオブジェクトベース音響用座標変換装置において、
前記音声信号位置変換部は、
前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する変換処理を行う際に、前記映像有効表示範囲Cが予め設定された時間内で変化している場合、
予め設定された時間が経過した後に、前記変換規則に従って前記変換処理を行い、前記視聴時の音声信号の座標を出力するか、または、
前記変換処理により求めた所定数の前記視聴時の音声信号の座標を平均化し、平均化した視聴時の音声信号の座標を出力し、
前記音声信号処理部は、
前記入力音声信号を、前記音声信号位置変換部により出力された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する、ことを特徴とするオブジェクトベース音響用座標変換装置。
【請求項7】
オブジェクトベース音響に用いる音声信号の座標を変換するオブジェクトベース音響用座標変換装置を構成するコンピュータを、
番組制作時の音声が想定する映像の範囲を映像有効表示範囲Aとし、前記映像有効表示範囲Aのうち視聴時の表示装置に表示される映像の範囲を映像有効表示範囲Bとし、視聴時の音声が想定する前記表示装置に表示される映像の範囲を映像有効表示範囲Cとして、
前記映像有効表示範囲Aに含まれる前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、前記映像有効表示範囲C及び当該映像有効表示範囲Cの中心に一致するように、番組制作時の音声信号の座標を視聴時の音声信号の座標に変換する変換規則を生成する映像位置変換部、
前記映像位置変換部により生成された前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する音声信号位置変換部、及び、
前記番組制作時の音声信号を入力音声信号とし、前記視聴時の音声信号を出力音声信号として、前記入力音声信号を、前記音声信号位置変換部により変換された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する音声信号処理部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声オブジェクトの位置情報に基づいて、再生するスピーカに割り当てる音声信号の信号レベルを規定するオブジェクトベース音響に用いるオブジェクトベース音響用座標変換装置及びプログラムに関する。
【背景技術】
【0002】
従来、音声オブジェクトの位置情報に基づいて、再生するスピーカに割り当てる音声信号の信号レベルを規定するオブジェクトベース音響の導入が進んでいる(例えば、非特許文献1,2を参照)。
【0003】
一般に、番組制作では映像に合わせて音も制作されるが、映像が番組制作時とは異なる大きさの表示装置へ提示されたり、360度映像またはVR(virtual reality:仮想現実)のように、ユーザにより視点を変えて映像が提示されたりすることがある。
【0004】
また、映像が携帯端末へ提示される場合には、ユーザ操作により、携帯端末である表示装置が回転して縦横比が変わったり、映像の一部が切り出されたりすることもある。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Recommendation ITU-R BS.2076-2(10/2019),“Audio Definition Model”
【非特許文献2】Recommendation ITU-R BS.2127-0(06/2019),“Audio Definition Model renderer for advanced sound systems”
【発明の概要】
【発明が解決しようとする課題】
【0006】
このように、映像が番組制作時とは異なる大きさの表示装置へ提示されたり、視点や縦横比が変わって提示されたりする等、番組制作時とは異なる大きさ、視点または構図の映像が表示されるのに、番組制作時と同じ位置へ音を提示した場合には、音声エンジニアの意図とは異なる音が提示されてしまうことがある。
【0007】
すなわち、番組制作時とは異なる表示装置へ映像が提示されたり、異なる提示条件で映像が表示されたりした場合には、音声エンジニアの意図とは異なる位置に音声オブジェクトが定位することがある。つまり、番組制作時の映像表示に対する音声オブジェクトの定位位置と、視聴時の映像表示に対する音声オブジェクトの定位位置とが合致しないことがあり得る。
【0008】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、視聴時の映像表示に合うように、番組制作時の音声オブジェクトの位置を補正可能なオブジェクトベース音響用座標変換装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0009】
前記課題を解決するために、請求項1のオブジェクトベース音響用座標変換装置は、オブジェクトベース音響に用いる音声信号の座標を変換するオブジェクトベース音響用座標変換装置において、番組制作時の音声が想定する映像の範囲を映像有効表示範囲Aとし、前記映像有効表示範囲Aのうち視聴時の表示装置に表示される映像の範囲を映像有効表示範囲Bとし、視聴時の音声が想定する前記表示装置に表示される映像の範囲を映像有効表示範囲Cとして、前記映像有効表示範囲Aに含まれる前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、前記映像有効表示範囲C及び当該映像有効表示範囲Cの中心に一致するように、番組制作時の音声信号の座標を視聴時の音声信号の座標に変換する変換規則を生成する映像位置変換部と、前記映像位置変換部により生成された前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する音声信号位置変換部と、前記番組制作時の音声信号を入力音声信号とし、前記視聴時の音声信号を出力音声信号として、前記入力音声信号を、前記音声信号位置変換部により変換された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する音声信号処理部と、を備えたことを特徴とする。
【0010】
また、請求項2のオブジェクトベース音響用座標変換装置は、請求項1に記載のオブジェクトベース音響用座標変換装置において、前記映像を平面映像とし、前記音声信号位置変換部が、前記映像有効表示範囲Bの両端における前記番組制作時の音声信号の座標と、前記映像有効表示範囲Cの両端における前記視聴時の音声信号の座標とが対応するように固定して、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とする。
【0011】
また、請求項3のオブジェクトベース音響用座標変換装置は、請求項1に記載のオブジェクトベース音響用座標変換装置において、前記映像を360度映像とし、前記表示装置にて前記360度映像を視聴するユーザが、前記表示装置を回転させた後、ズーム操作を行った場合に、前記音声信号位置変換部が、前記映像有効表示範囲Bの中心と、前記映像有効表示範囲Cにおける0度の位置を示す中心とが対応するように回転させた後、前記ズーム操作に応じた前記映像有効表示範囲Cの見開き角に対応するように、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とする。
【0012】
また、請求項4のオブジェクトベース音響用座標変換装置は、請求項1に記載のオブジェクトベース音響用座標変換装置において、前記音声信号位置変換部が、前記映像有効表示範囲Cの示す見開き角xが予め設定された見開き角θを下回る場合、前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、予め設定された座標に一致するように、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する、ことを特徴とする。
【0013】
また、請求項5のオブジェクトベース音響用座標変換装置は、請求項1に記載のオブジェクトベース音響用座標変換装置において、前記番組制作時の音声信号に対し、前記映像と連動するか否かを示す連動/非連動の識別子が付与されている場合に、前記音声信号位置変換部が、前記番組制作時の音声信号に付与された前記識別子が前記連動を示している場合、前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換し、前記番組制作時の音声信号に付与された前記識別子が前記非連動を示している場合、前記番組制作時の音声信号の座標を変換しないで、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標とするか、または、前記番組制作時の音声信号の座標を、予め設定された固定の座標に変換し、当該固定の座標を前記視聴時の音声信号の座標とする、ことを特徴とする。
【0014】
また、請求項6のオブジェクトベース音響用座標変換装置は、請求項1に記載のオブジェクトベース音響用座標変換装置において、前記音声信号位置変換部が、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する変換処理を行う際に、前記映像有効表示範囲Cが予め設定された時間内で変化している場合、予め設定された時間が経過した後に、前記変換規則に従って前記変換処理を行い、前記視聴時の音声信号の座標を出力するか、または、前記変換処理により求めた所定数の前記視聴時の音声信号の座標を平均化し、平均化した視聴時の音声信号の座標を出力し、前記音声信号処理部が、前記入力音声信号を、前記音声信号位置変換部により出力された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する、ことを特徴とする。
【0015】
さらに、請求項7のプログラムは、オブジェクトベース音響に用いる音声信号の座標を変換するオブジェクトベース音響用座標変換装置を構成するコンピュータを、番組制作時の音声が想定する映像の範囲を映像有効表示範囲Aとし、前記映像有効表示範囲Aのうち視聴時の表示装置に表示される映像の範囲を映像有効表示範囲Bとし、視聴時の音声が想定する前記表示装置に表示される映像の範囲を映像有効表示範囲Cとして、前記映像有効表示範囲Aに含まれる前記映像有効表示範囲B及び当該映像有効表示範囲Bの中心が、前記映像有効表示範囲C及び当該映像有効表示範囲Cの中心に一致するように、番組制作時の音声信号の座標を視聴時の音声信号の座標に変換する変換規則を生成する映像位置変換部、前記映像位置変換部により生成された前記変換規則に従い、前記番組制作時の音声信号の座標を前記視聴時の音声信号の座標に変換する音声信号位置変換部、及び、前記番組制作時の音声信号を入力音声信号とし、前記視聴時の音声信号を出力音声信号として、前記入力音声信号を、前記音声信号位置変換部により変換された前記視聴時の音声信号の座標にレンダリングし、前記出力音声信号を生成する音声信号処理部として機能させることを特徴とする。
【発明の効果】
【0016】
以上のように、本発明によれば、視聴時の映像表示に合うように、番組制作時の音声オブジェクトの位置を補正することができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態によるオブジェクトベース音響用座標変換装置の構成例を示すブロック図である。
【
図2】制作時の音声が想定する映像有効表示範囲A、及び視聴時に表示される映像有効表示範囲Bを説明する図である。
【
図6】回転時の音声信号位置の変換例を説明する図である。
【
図7】回転及びズーム時の音声信号位置の変換例を説明する図である。
【
図8】ズーム前後の視聴時の見開き角等を説明する図である。
【
図9】30度回転時の座標変換テーブルの例を説明する図である。
【
図10】30度回転及び見開き角x1=40度をx2=60度にズームした時の座標変換テーブルの例を説明する図である。
【
図11】本発明の他の実施形態によるオブジェクトベース音響用座標変換装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、番組制作時の音声が想定する映像有効表示範囲Aのうち視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心と一致するように、番組制作時の映像に対する音声オブジェクトの座標を変換し、音声オブジェクトをレンダリングすることを特徴とする。
【0019】
これにより、視聴時の映像表示に合うように、番組制作時の音声オブジェクトの位置を補正することができる。
【0020】
〔オブジェクトベース音響用座標変換装置〕
まず、本発明の実施形態によるオブジェクトベース音響用座標変換装置について説明する。
図1は、本発明の実施形態によるオブジェクトベース音響用座標変換装置の構成例を示すブロック図である。
【0021】
このオブジェクトベース音響用座標変換装置1は、映像位置変換部10、座標変換テーブル11、音声信号位置変換部12及び音声信号処理部13を備えている。
【0022】
オブジェクトベース音響用座標変換装置1は、音響メタデータ(音声信号の座標及び番組制作時(以下、「制作時」という。)の映像情報(制作時の音声が想定する映像有効表示範囲A))、映像信号の補助情報(視聴時に表示される映像有効表示範囲B)、画面サイズ(視聴時の音声が想定する映像有効表示範囲C)、スピーカ位置情報及び入力音声信号を入力する。
【0023】
オブジェクトベース音響用座標変換装置1は、制作時の音声が想定する映像有効表示範囲A、視聴時に表示される映像有効表示範囲B、視聴時の音声が想定する映像有効表示範囲C、スピーカ位置情報に基づいて、音声信号の座標を変換する。そして、オブジェクトベース音響用座標変換装置1は、変換後の音声信号の座標に基づいて、入力音声信号を出力音声信号に変換し、出力音声信号を出力する。
【0024】
制作時の音声が想定する映像有効表示範囲Aは、制作時において、音声を基準として映像が表示される範囲であり、制作時に付与された情報として、例えば放送局から送信される。
【0025】
制作時において、例えば8K映像全体(16:9)の中心に視点があり、視聴者が150インチで画面を見ている想定の場合、制作時の音声が想定する映像有効表示範囲Aは、左右及び上下の画面の角度等である。
【0026】
また、通常の制作では、実際に見ている画面サイズに関わることなく、ステレオの場合は±30度、22.2ch音響の場合は±45度または±60度が画面の両サイドと一致するように、制作時の音声が想定する映像有効表示範囲Aが設定される。
【0027】
また、ユーザがHMD(ヘッドマウントディスプレイ)を装着してVRコンテンツの映像を視聴する場合、すなわち360度映像の場合、正面の0度を規定し、映像における角度と音声における角度とが一致するように、制作時の音声が想定する映像有効表示範囲Aが設定される。
【0028】
視聴時に表示される映像有効表示範囲Bは、例えばユーザがオブジェクトベース音響用座標変換装置1である携帯端末(表示装置)に表示される映像を視聴する場合、制作時の音声が想定する映像有効表示範囲Aのうち、視聴時の携帯端末に表示される映像の範囲である。視聴時に表示される映像有効表示範囲Bは、映像信号の補助情報として付与され、例えば放送局から送信され、または携帯端末のユーザにより設定される。視聴時に表示される映像有効表示範囲Bが複数ある場合は、オブジェクトベース音響用座標変換装置1により、複数のうちの1つが選択される。
【0029】
尚、ユーザがHMDを装着して360度映像を視聴する場合、オブジェクトベース音響用座標変換装置1は、HMDから視点情報を受信し、視点情報に応じた表示範囲を、視聴時に表示される映像有効表示範囲Bとして設定するようにしてもよい。
【0030】
視聴時の音声が想定する映像有効表示範囲Cは、例えばオブジェクトベース音響用座標変換装置1である携帯端末を用いた視聴時において、音声を基準として携帯端末に映像が表示される範囲であり、例えば携帯端末の仕様に応じた固定の範囲が予め設定され、またはユーザにより設定される。
【0031】
音声信号の座標及び入力音声信号は、制作時に付与される信号として、例えば放送局から送信される。音声オブジェクトが複数の音声信号により構成される場合、複数の音声信号のそれぞれについての座標がオブジェクトベース音響用座標変換装置1に入力される。
【0032】
スピーカ位置情報は、例えばオブジェクトベース音響用座標変換装置1が携帯端末である場合、携帯端末の仕様に応じた固定の情報が予め設定される。スピーカ位置情報は、例えば携帯端末の画面の左右両端の位置を示す情報、または、画面の左右両端から所定距離若しくは所定角度だけ離れた位置を示す情報等である。
【0033】
映像位置変換部10は、制作時の音声が想定する映像有効表示範囲A及び視聴時に表示される映像有効表示範囲Bを入力すると共に、視聴時の音声が想定する映像有効表示範囲C及びスピーカ位置情報を入力する。
【0034】
映像位置変換部10は、これらのデータを用いて、制作時の音声が想定する映像有効表示範囲Aのうち視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心と一致するように、視聴時に表示される映像有効表示範囲Bの映像位置等を、視聴時の音声が想定する映像有効表示範囲Cの映像位置等に変換し、音声信号の座標を変換するための座標変換テーブル11を生成する。
【0035】
座標変換テーブル11は、制作時の音声信号の座標を視聴時の音声信号の座標に変換するための、変換前座標から変換後座標への変換規則が定義されたテーブルである。座標変換テーブル11の具体例については後述する。
【0036】
音声信号位置変換部12は、音声信号の座標を入力し、座標変換テーブル11を用いて、入力した音声信号の座標である変換前座標に対応する変換後座標を特定し、変換後座標を変換後の音声信号の座標として音声信号処理部13に出力する。つまり、音声信号位置変換部12は、座標変換テーブル11を用いて、制作時の音声信号の座標を視聴時の音声信号の座標に変換し、視聴時の音声信号の座標である変換後の音声信号の座標を音声信号処理部13に出力する。
【0037】
音声信号処理部13は、入力音声信号(制作時の音声信号)を入力すると共に、音声信号位置変換部12から変換後の音声信号の座標を入力する。そして、音声信号処理部13は、変換前の音声信号の座標に位置する入力音声信号を、変換後の音声信号の座標にレンダリングし、出力音声信号(視聴時の音声信号)を生成して出力する。このような音声信号のレンダリングにより、入力音声信号が出力音声信号に変換され、当該出力音声信号がユーザへ提示される。
【0038】
例えば、オブジェクトベース音響用座標変換装置1に入力されるスピーカ位置情報を(-30度,30度)(θ0=30度)とし、音声信号の座標を15度(θ=15度)とする。オブジェクトベース音響用座標変換装置1により、スピーカ位置情報(-30度,30度)が示す±30度の位置に設置されたスピーカにてステレオ再生する場合を想定する。また、出力音声信号のゲインとして、左のスピーカに入力される出力音声信号のゲインをGL、右のスピーカに入力される出力音声信号のゲインをGRとする。
【0039】
この場合の出力音声信号であるゲインGL,GRは、以下の式にて表される。
[数1]
(GL-GR)/(GL+GR)=sinθ/sinθ0 ・・・(1)
【0040】
ここで、音声信号が20度の位置から再生されるとすると、変換後の音声信号の座標がθ=20度となり、前記式(1)から、出力音声信号であるゲインGL,GRが算出される。
【0041】
図2は、制作時の音声が想定する映像有効表示範囲A、及び視聴時に表示される映像有効表示範囲Bを説明する図である。(a)は、映像(平面映像)の全てを表示する場合を説明する図である。(b)は、360度映像のうち、中心0度及び見開き角60度の映像を表示する場合を説明する図である。(c)は、映像(平面映像)の一部を表示する場合を説明する図である。(d)は、360度映像のうち、中心β度及び見開き角60度の映像を表示する場合を説明する図である。
【0042】
図2(a)及び(c)に示すとおり、16:9の画素7680×4320からなる平面映像は、例えば画面の両サイドが左右スピーカの位置(±30度)に一致するように制作される。
【0043】
図2(a)において、画面左下の座標を(0,0)とすると、制作時の音声が想定する映像有効表示範囲Aの座標は(0,0~7680,4320)であり、その中心位置の座標は(3840,2160)である。これに対応する音声信号の水平位置の角度は(-30度~30度)、中心位置は0度である。すなわち、制作時の音声が想定する映像有効表示範囲Aは、角度で表すと(-30度~30度)となり、視聴時に表示される映像有効表示範囲Bも(-30度~30度)となる。
【0044】
図2(a)に示すように、平面映像の一部が切り出されることなく、想定される携帯端末の画面に映像が表示される。
【0045】
図2(b)を参照して、360度映像の場合、例えば視聴時に表示される映像有効表示範囲Bとして、360度映像の中心を0度とし、見開き角を60度とした範囲(中心0度、見開き角60度)が設定される。この場合の制作時の音声が想定する映像有効表示範囲Aは、(中心0度、見開き角360度)である。
【0046】
図2(c)を参照して、携帯端末に平面映像の一部を切り出して表示する場合、携帯端末には、制作時とは異なる映像が表示される。この場合の表示範囲としては、
図2(c)に示す視聴時に表示される映像有効表示範囲Bが設定される。
【0047】
図2(d)を参照して、0度以外に視点がある360度映像の場合、携帯端末には、制作時とは異なる映像が表示される。この場合の視聴時に表示される映像有効表示範囲Bとしては、例えば360度映像の中心をβ度とし、見開き角を60度とした範囲(中心β度、見開き角60度)が設定される。
【0048】
<平面映像の場合>
次に、
図2(c)に示した平面映像を対象とした場合の映像位置変換部10の処理例、及び座標変換テーブル11のデータ構成例について説明する。
図3は、映像位置の変換例を説明する図であり、
図4は、音声信号位置の変換例を説明する図であり、
図5は、座標変換テーブル11の例を説明する図である。
【0049】
図3~
図5は、
図2(c)に示した平面映像を対象とし、映像位置変換部10により座標変換テーブル11が生成される場合に、音声が想定する映像有効表示範囲を固定としたときの例を示している。つまり、視聴時に表示される映像有効表示範囲Bの両端における制作時の音声信号の座標と、視聴時の音声が想定する映像有効表示範囲Cの両端における視聴時の音声信号の座標とが対応するように、固定にしたときの例である。
【0050】
図3(a)及び
図4(a)は、制作時の音声が想定する映像有効表示範囲A、及び視聴時に表示される映像有効表示範囲Bを示している。
図3(b)及び
図4(b)は、携帯端末が想定するスピーカ位置情報、及び視聴時の音声が想定する映像有効表示範囲Cを示している。
図3(a)及び(b)において、太陽のマークは、音声信号が変換される座標位置の例を示している。また、
図4(a)及び(b)において、点線の矢印は、音声信号が変換される座標位置の例を示している。後述する
図6~
図8についても同様である。
【0051】
ここで、制作時の音声が想定する映像有効表示範囲A等における角度(L1,α1,γ1等)は、
図4(a)及び(b)を参照して、視聴者100を中心とした1周の360度の範囲において、視聴者100から映像を見たときのそれぞれの位置を示している。
【0052】
図3(a)及び
図4(a)を参照して、制作時の音声が想定する映像有効表示範囲Aは、L1=-30度~R1=30度であり、視聴時に表示される映像有効表示範囲Bは、α1=-25度~β1=-5度である。視聴時に表示される映像有効表示範囲Bの中心は、γ1=-15度である。
【0053】
図3(b)及び
図4(b)を参照して、携帯端末において、スピーカ位置情報は、L2=-30度~R2=30度であり、視聴時の音声が想定する映像有効表示範囲Cは、α2=-20度~β2=20度である。視聴時の音声が想定する映像有効表示範囲Cの中心は、γ2=0度である。
【0054】
この場合、映像位置変換部10は、制作時の音声が想定する映像有効表示範囲A(L1=-30度~R1=30度)、視聴時に表示される映像有効表示範囲B(α1=-25度~β1=-5度)、視聴時の音声が想定する映像有効表示範囲C(α2=-20度~β2=20度)及びスピーカ位置情報(L2=-30度~R2=30度)を用いて、視聴時に表示される映像有効表示範囲B及びその中心(γ1=-15度)が、視聴時の音声が想定する映像有効表示範囲C及びその中心(γ2=0度)と一致するように、映像位置を変換し、座標変換テーブル11を生成する。
【0055】
すなわち、映像位置変換部10は、L1からα1までの範囲がL2からα2の範囲に、α1からγ1を介してβ1までの範囲(視聴時に表示される映像有効表示範囲B)がα2からγ2を介してβ2までの範囲(視聴時の音声が想定する映像有効表示範囲C)に、β1からR1まで範囲がβ2からR2の範囲にそれぞれ対応するように、映像位置を変換し、座標変換テーブル11を生成する。
【0056】
これにより、例えば制作時のγ1=-15度の座標(変換前座標)が視聴時のγ2=0度の座標(変換後座標)に変換され、制作時のα1=-25度及びβ1=-5度の座標(変換前座標)が視聴時の携帯端末の画面の両端であるα2=-20度及びβ2=20度の座標(変換後座標)に変換されるように、
図5に示す座標変換テーブル11が生成される。つまり、視聴時に表示される映像有効表示範囲Bの両端における制作時の音声信号の座標と、視聴時の音声が想定する映像有効表示範囲Cの両端における視聴時の音声信号の座標とが対応するように固定することで、座標変換テーブル11が生成される。
【0057】
図5を参照して、この座標変換テーブル11は、変換前座標(度)、及びこれに対応する変換後座標(度)から構成される。具体的には、座標変換テーブル11は、(L1(-30度),L2(-30度)),・・・,(α1(-25度),α2(-20度)),・・・,(γ1(-15度),γ2(0度)),・・・,(β1(-5度),β2(20度)),・・・,(R1(30度),R2(30度))の対応データからなる。
【0058】
ここで、変換前座標における視聴時に表示される映像有効表示範囲B(α1=-25度~β1=-5度)と、変換後座標における視聴時の音声が想定する映像有効表示範囲C(α2=-20度~β2=20度)とは、等角度の関係にある。また、変換前座標におけるL1~α1の範囲及び変換後座標におけるL2~α2の範囲、並びに、変換前座標におけるβ1~R1の範囲及び変換後座標におけるβ2~R2の範囲も等角度の関係にある。
【0059】
つまり、座標変換テーブル11を用いた音声信号位置変換部12は、視聴時に表示される映像有効表示範囲Bの両端における座標と、視聴時の音声が想定する映像有効表示範囲Cの両端における座標とが対応するように固定して、これらの範囲内で等角度の関係になるように、音声信号の座標を変換することとなる。
【0060】
等角度の関係にある(等角度になるように変換する)とは、第1の範囲内の3つの座標(第1a角度、第1b角度及び第1c角度)が第2の範囲内の3つの座標(第2a角度、第2b角度及び第2c角度)に変換される場合、第1a角度及び第1b角度の差と第1b角度及び第1c角度の差が同じであるとき、第2a角度及び第2b角度の差と第2b角度及び第2c角度の差が同じであることをいう。
【0061】
尚、
図2(a)(c)、
図3及び
図4に示したとおり、平面映像の場合、制作時の音声が想定する映像有効表示範囲A等は、角度で表すようにした。
【0062】
これに対し、例えば制作時の音声が想定する映像有効表示範囲A及びスピーカ位置情報の示す範囲を-1から1までの値(距離)に正規化し、視聴時に表示される映像有効表示範囲B及び視聴時の音声が想定する映像有効表示範囲Cを、-1から1までの間の値(距離)で表すようにしてもよい。
【0063】
この場合、座標変換テーブル11は、画面上で等距離の関係の変換前座標及び変換後座標から構成され、座標変換テーブル11を用いた音声信号位置変換部12は、等距離の関係になるように、音声信号の座標を変換することとなる。
【0064】
等距離の関係にある(等距離になるように変換する)とは、第1の範囲内の3つの位置を表す値(第1a値、第1b値及び第1c値)が第2の範囲内の3つの位置を表す値(第2a値、第2b値及び第2c値)に変換される場合、第1a値及び第1b値の差(距離)と第1b値及び第1c値の差(距離)が同じ場合、第2a値及び第2b値の差(距離)と第2b値及び第2c値の差(距離)が同じであることをいう。
【0065】
また、座標変換テーブル11は、間隔が連続的になるように非線形の関係の変換前座標及び変換後座標から構成されるようにしてもよい。この場合、座標変換テーブル11を用いた音声信号位置変換部12は、非線形の関係になるように、音声信号の座標を変換することとなる。
【0066】
ここで、第1の範囲内の4つの角度(第1a角度、第1b角度、第1c角度及び第1d角度)が第2の範囲内の4つの角度(第2a角度、第2b角度、第2c角度及び第2d角度)に変換される場合を想定する。
【0067】
この場合、非線形の関係にある(非線形になるように変換する)とは、第1a角度及び第1b角度の差、第1b角度及び第1c角度の差、並びに第1c角度及び第1d角度の差が同じ場合、例えば第2a角度及び第2b角度の差、第2b角度及び第2c角度、並びに第2c角度及び第2d角度の差が徐々に小さくなる、または大きくなることをいう。
【0068】
<360度映像の場合>
次に、
図2(d)に示した360度映像を対象とした場合の映像位置変換部10の処理例、及び座標変換テーブル11のデータ構成例について説明する。
図6は、回転時の音声信号位置の変換例を説明する図であり、
図7は、回転及びズーム時の音声信号位置の変換例を説明する図である。
【0069】
図6及び
図7、並びに後述する
図8~
図10は、
図2(d)に示した360度映像を対象とし、映像位置変換部10により座標変換テーブル11が生成される場合に、音声が想定する映像有効表示範囲を固定しないときの例を示している。
【0070】
図6(a)及び
図7(a)は、制作時の音声が想定する映像有効表示範囲A、及び視聴時に表示される映像有効表示範囲Bを示している。
図6(b)は、視聴時の音声が想定する映像有効表示範囲C1を示している。
図7(b)は、ズーム前の視聴時の音声が想定する映像有効表示範囲C1を示しており、
図7(c)は、ズーム後の視聴時の音声が想定する映像有効表示範囲C2を示している。
【0071】
ここで、制作時の音声が想定する映像有効表示範囲A等における角度(α1,β1等)は、
図4(a)及び(b)にて説明した角度と同様である。視聴時に表示される映像有効表示範囲B及び視聴時の音声が想定する映像有効表示範囲C1,C2において、見開き角x1(及び、後述するズーム後の見開き角x2)は、例えばHMD等の表示装置の仕様、またはユーザによる調整値により設定される。後述するズーム後の見開き角x2は、例えば携帯端末の画面を触って、映像を広げる操作により設定される。
【0072】
図6(a)を参照して、制作時の音声が想定する映像有効表示範囲Aは、α1~δ1であり、視聴時に表示される映像有効表示範囲Bは、中心β1=-30度及び見開き角x1=60度(-60度~0度)である。この場合の見開き角x1は、-60度から0度までの間を示している。
【0073】
図6(a)の状態において、360度映像を視聴するユーザが向きを変えることで、携帯端末を回転させた場合を想定すると、
図6(b)の状態となる。
図6(b)を参照して、携帯端末において、視聴時の音声が想定する映像有効表示範囲C1は、中心β2=0度及び見開き角x1=60度(-30度~30度)である。この場合の見開き角x1は、-30度から30度までの間を示している。
【0074】
これにより、ユーザは、携帯端末に表示された
図6(a)の中心β1=-30度及び見開き角x1=60度(-60度~0度)の映像(
図6(a)に示した黒塗の太線の箇所)に対し、携帯端末を30度回転させると、
図6(b)の中心β2=0度及び見開き角x1=60度(-30度~30度)の映像(
図6(b)に示した黒塗りの太線の箇所)を視聴することとなる。
【0075】
この場合、映像位置変換部10は、制作時の音声が想定する映像有効表示範囲A(α1~δ1)、視聴時に表示される映像有効表示範囲B(中心β1=-30度及び見開き角x1=60度(-60度~0度))、視聴時の音声が想定する映像有効表示範囲C1(中心β2=0度及び見開き角x1=60度(-30度~30度))及びスピーカ位置情報(360度映像の場合は360度)を用いて、視聴時に表示される映像有効表示範囲B及びその中心(β1=-30度)が、視聴時の音声が想定する映像有効表示範囲C1及びその中心(β2=0度)と一致するように、映像位置を変換し、座標変換テーブル11を生成する。
【0076】
すなわち、映像位置変換部10は、360度の範囲において、右回りの-60度から0度の範囲(視聴時に表示される映像有効表示範囲B)が右回りの-30度から30度の範囲(視聴時の音声が想定する映像有効表示範囲C1)に、それ以外の右回りの0度から-60度の範囲が右回りの30度から-30度の範囲にそれぞれ対応するように、映像位置を変換し、座標変換テーブル11を生成する。
【0077】
これにより、例えば制作時の-60度、β1=30度及び0度の座標(変換前座標)が視聴時の-30度、β2=0度及び30度の座標(変換後座標)にそれぞれ変換され、制作時のα1,γ1,δ1,ζ1,η1の座標が視聴時のα2,γ2,δ2,ζ2,η2の座標にそれぞれ変換されるように、後述する
図9に示す座標変換テーブル11が生成される。
【0078】
図7(a)及び(b)の場合も、
図7(a)及び(b)に対応した座標変換テーブル11が生成される。尚、
図7(a)及び(b)において、視聴時に表示される映像有効表示範囲Bは、中心β1=-15度及び見開き角x1=20度(-25度~-5度)である。また、視聴時の音声が想定する映像有効表示範囲C1は、中心β2=0度及び見開き角x1=20度(-10度~10度)である。
【0079】
図6(a)及び(b)では、携帯端末を30度回転させたときの例が示されているが、
図7(a)及び(b)では、携帯端末を15度回転させたときの例が示されている。
【0080】
これにより、例えば制作時の-25度、β1=-15度及び-5度の座標(変換前座標)が視聴時の-10度、β2=0度及び10度の座標(変換後座標)にそれぞれ変換され、制作時のα1,γ1,δ1,ζ1,η1の座標が視聴時のα2,γ2,δ2,ζ2,η2の座標にそれぞれ変換されるように、座標変換テーブル11が生成される。
【0081】
次に、ユーザによるズーム操作に従い、
図7(b)の状態から
図7(c)の状態へ移行する場合について説明する。
図7(b)を参照して、携帯端末に表示されている映像は、視聴時の音声が想定する映像有効表示範囲C1(中心β2=0度及び見開き角x1=20度(-10度~10度))の映像である。
【0082】
図7(b)の状態でユーザが有効範囲を広げてズーム操作を行った場合を想定すると、
図7(c)の状態となる。具体的には、見開き角x1=20度を見開き角x2=60度に広げたとする。
図7(c)を参照して、携帯端末において、視聴時の音声が想定する映像有効表示範囲C2は、中心β3=0度及び見開き角x2=60度(-30度~30度)となり、この範囲の映像が携帯端末に表示される。
【0083】
これにより、ユーザは、携帯端末に表示された
図7(b)の中心β2=0度及び見開き角x1=20度(-10度~10度)の映像(
図7(b)に示した黒塗の太線の箇所)に対し、ズーム操作を行うと、
図7(c)の中心β3=0度及び見開き角x2=60度(-30度~30度)の映像(
図7(c)に示した黒塗りの太線の箇所)を視聴することとなる。
【0084】
この場合、映像位置変換部10は、制作時の音声が想定する映像有効表示範囲A(α1~δ1)、視聴時に表示される映像有効表示範囲B(中心β1=-15度及び見開き角x1=20度(-25度~-5度))、視聴時の音声が想定する映像有効表示範囲C2(中心β3=0度及び見開き角x2=60度(-30度~30度))及びスピーカ位置情報(360度映像の場合は360度)を用いて、視聴時に表示される映像有効表示範囲B及びその中心(β1=-15度)が、ズーム後の視聴時の音声が想定する映像有効表示範囲C2及びその中心(β3=0度)と一致するように、映像位置を変換し、座標変換テーブル11を生成する。
【0085】
すなわち、映像位置変換部10は、360度の範囲において、右回りの-25度から-5度の範囲(視聴時に表示される映像有効表示範囲B)が右回りの-30度から30度の範囲(視聴時の音声が想定する映像有効表示範囲C2)に、それ以外の右回りの-5度から-25度の範囲が右回りの30度から-30度の範囲にそれぞれ対応するように、映像位置を変換し、座標変換テーブル11を生成する。
【0086】
これにより、例えば制作時の-25度、β1=-15度及び-5度の座標(変換前座標)がズーム後の視聴時の-30度、β3=0度及び30度の座標(変換後座標)にそれぞれ変換され、制作時のα1,γ1,δ1,ζ1,η1の座標が視聴時のα3,γ3及び図示しないδ3,ζ3,η3の座標にそれぞれ変換されるように、座標変換テーブル11が生成される。
【0087】
次に、座標変換テーブル11のデータ構成例について説明する。
図8は、ズーム前後の視聴時の見開き角等を説明する図であり、
図9は、30度回転時の座標変換テーブル11の例を説明する図であり、
図10は、30度回転及び見開き角x1=40度をx2=60度にズームした時の座標変換テーブル11の例を説明する図である。
【0088】
まず、
図8を参照して、ユーザが向きを変えることで携帯端末が30度回転し、
図8(b)の状態になった場合を想定する。
図8(b)を参照して、携帯端末において、視聴時の音声が想定する映像有効表示範囲C1は、中心0度及び見開き角x1=40度(-20度~20度)である。
【0089】
この場合、映像位置変換部10により、
図9に示す座標変換テーブル11が生成される。
図9を参照して、この座標変換テーブル11は、変換前座標(度)、及び、これに対応して当該変換前座標から30度を加算した結果を示す変換後座標(度)から構成される。
【0090】
具体的に、座標変換テーブル11には、視聴時の音声が想定する映像有効表示範囲C1である(-50度,-20度),・・・,(-30度,0度),・・・,(-10度,20度)の見開き角x1=40度に渡る範囲において、10度間隔の変換前座標に対応して、10度間隔の変換後座標が等角度に設定されている。また、座標変換テーブル11には、視聴時の音声が想定する映像有効表示範囲C1以外の320度に渡る範囲において、10度間隔の変換前座標に対応して、10度間隔の変換後座標が等角度に設定されている。
【0091】
つまり、座標変換テーブル11を用いた音声信号位置変換部12は、これらの範囲内で等角度の関係になるように、音声信号の座標を変換することとなる。
【0092】
次に、
図8を参照して、
図8(b)の状態でユーザが有効範囲を広げてズーム操作を行い、
図8(c)の状態になった場合を想定する。具体的には、見開き角x1=40度を見開き角x2=60度に広げたとする。
図8(c)を参照して、携帯端末において、視聴時の音声が想定する映像有効表示範囲C2は、中心0度及び見開き角x2=60度(-30度~30度)である。
【0093】
この場合、映像位置変換部10により、
図10に示す座標変換テーブル11が生成される。
図10を参照して、この座標変換テーブル11は、変換前座標(度)、及びこれに対応する変換後座標(度)から構成される。
【0094】
ここで、座標変換テーブル11は、まず、携帯端末が30度回転して
図8(b)の状態になり、その後、ズーム操作により
図8(c)の状態になった時点において生成されたテーブルである。つまり、変換前座標(度)は、携帯端末が30度回転する前の初期状態における座標である。
【0095】
具体的には、映像位置変換部10は、視聴時に表示される映像有効表示範囲Bの中心と、視聴時の音声が想定する映像有効表示範囲C2の中心(0度)とが対応するように回転させた後、ズーム操作に応じた、視聴時の音声が想定する映像有効表示範囲C2の見開き角x2に対応するように、座標変換テーブル11を生成する、
【0096】
図10に示すように、座標変換テーブル11には、視聴時の音声が想定する映像有効表示範囲C2である(-50度,-30.0度),・・・,(-30度,0.0度),・・・,(-10度,30.0度)の見開き角x2=60度に渡る範囲において、10度間隔の変換前座標に対応して、15度間隔の変換後座標が等角度に設定されている。
【0097】
また、座標変換テーブル11には、視聴時の音声が想定する映像有効表示範囲C2以外の300度の範囲において、10度間隔の変換前座標に対応して、9.4度間隔の変換後座標が等角度に設定されている。ここで、9.4度は、
図8(c)に示した視聴時の音声が想定する映像有効表示範囲C2以外の300度を、
図8(b)に示した視聴時の音声が想定する映像有効表示範囲C1以外の320度で除算した結果の角度に相当する。
【0098】
つまり、座標変換テーブル11を用いた音声信号位置変換部12は、映像有効表示範囲Bの中心と、映像有効表示範囲C2における0度の位置を示す中心とが対応するように回転させた後、ズーム操作に応じた視聴時の音声が想定する映像有効表示範囲Cの見開き角x2に対応し、視聴時の音声が想定する映像有効表示範囲C2の範囲内で等角度の関係となり、かつそれ以外の範囲内で等角度の関係となるように、音声信号の座標を変換することとなる。
【0099】
尚、ユーザによるズーム操作が行われる毎に、
図10に示したような座標変換テーブル11が生成される。
【0100】
また、
図6~
図10に示したとおり、360度映像の場合、制作時の音声が想定する映像有効表示範囲A、視聴時に表示される映像有効表示範囲B、視聴時の音声が想定する映像有効表示範囲C、座標変換テーブル11等は、角度で表すようにしたが、平面映像の場合と同様に、距離で表すようにしてもよい。
【0101】
また、座標変換テーブル11は、平面映像の場合と同様に、画面上で等距離の関係の変換前座標及び変換後座標から構成されるようにしてもよいし、間隔が連続的になるように非線形の関係の変換前座標及び変換後座標から構成されるようにしてもよい。
【0102】
ここで、
図10に示した座標変換テーブル11は、変換後座標が、視聴時の音声が想定する映像有効表示範囲C2内において15度間隔に設定され、それ以外において9.4度間隔に設定されている。非線形の関係の座標変換テーブル11は、視聴時の音声が想定する映像有効表示範囲C2内において、例えば14度、11度、9度、8度と徐々に間隔を狭め、間隔が突然切替わらないように設定されている場合をいう。
【0103】
以上のように、本発明の実施形態によるオブジェクトベース音響用座標変換装置1によれば、映像位置変換部10は、制作時の音声が想定する映像有効表示範囲Aのうち視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心と一致するように、変換前座標及び変換後座標の組からなる座標変換テーブル11を生成する。
【0104】
音声信号位置変換部12は、座標変換テーブル11を用いて、音声信号の座標である変換前座標に対応する変換後座標を特定し、変換後座標を変換後の音声信号の座標とする。音声信号処理部13は、変換前の音声信号の座標及び変換後の音声信号の座標を用いて、音声信号のレンダリングを行うことで、入力音声信号を出力音声信号に変換し、出力音声信号を提示する。
【0105】
これにより、映像位置と音声位置とが関連付けられ、制作時の音声位置が視聴時の音声位置に変換される。つまり、制作時の音声信号の座標が、視聴時の映像表示に合うように、視聴時の音声信号の座標に変換される。したがって、視聴時の映像表示に合うように、制作時の音声オブジェクトの位置を補正することができる。
【0106】
〔オブジェクトベース音響用座標変換装置の他の例〕
次に、本発明の他の実施形態によるオブジェクトベース音響用座標変換装置について説明する。
図11は、本発明の他の実施形態によるオブジェクトベース音響用座標変換装置の構成例を示すブロック図である。
【0107】
このオブジェクトベース音響用座標変換装置2は、音声信号位置変換部14及び音声信号処理部13を備えている。
【0108】
図1に示したオブジェクトベース音響用座標変換装置1と
図11に示すオブジェクトベース音響用座標変換装置2とを比較すると、両オブジェクトベース音響用座標変換装置1,2は、音声信号処理部13を備えている点で共通する。
【0109】
一方、オブジェクトベース音響用座標変換装置2は、音声信号位置変換部14を備えている点で、映像位置変換部10、座標変換テーブル11及び音声信号位置変換部12を備えたオブジェクトベース音響用座標変換装置1と相違する。
【0110】
オブジェクトベース音響用座標変換装置2は、
図1に示したオブジェクトベース音響用座標変換装置1と同様に、音響メタデータ(音声信号の座標及び制作時の映像情報(制作時の音声が想定する映像有効表示範囲A))、映像信号の補助情報(視聴時に表示される映像有効表示範囲B)、画面サイズ(視聴時の音声が想定する映像有効表示範囲C)、スピーカ位置情報及び入力音声信号を入力する。
【0111】
オブジェクトベース音響用座標変換装置2は、制作時の音声が想定する映像有効表示範囲A、視聴時に表示される映像有効表示範囲B、視聴時の音声が想定する映像有効表示範囲C、及びスピーカ位置情報に基づいて、音声信号の座標を変換し、入力音声信号を出力音声信号に変換し、出力音声信号を出力する。
【0112】
音声信号位置変換部14は、制作時の音声が想定する映像有効表示範囲A及び視聴時に表示される映像有効表示範囲Bを入力すると共に、視聴時の音声が想定する映像有効表示範囲C及びスピーカ位置情報を入力する。また、音声信号位置変換部14は、音声信号の座標を入力する。
【0113】
音声信号位置変換部14は、これらのデータを用いて、制作時の音声が想定する映像有効表示範囲Aのうち視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心と一致するように、入力した音声信号の座標を変換する。そして、音声信号位置変換部14は、変換後の音声信号の座標を音声信号処理部13に出力する。
【0114】
音声信号処理部13は、
図1に示した音声信号処理部13と同様であるため、ここでは説明を省略する。
【0115】
以上のように、本発明の他の実施形態によるオブジェクトベース音響用座標変換装置2によれば、座標変換テーブル11を生成することなく、視聴時の映像表示に合うように、制作時の音声オブジェクトの位置を補正することができる。
【0116】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0117】
(見開き角xの下限値)
例えば前記実施形態では、視聴時の映像の表示サイズ(携帯端末の画面の表示サイズ)に関わることなく、音声信号の座標を変換する例を示したが、表示サイズが予め設定された下限値の見開き角θ(例えば20度)を下回る場合は、音声信号の座標を、予め設定された座標に変換するようにしてもよい。
【0118】
具体的には、オブジェクトベース音響用座標変換装置1の映像位置変換部10は、視聴時の音声が想定する映像有効表示範囲Cの示す見開き角xが予め設定された見開き角θ(例えば20度)を下回るか否かを判定する。
【0119】
映像位置変換部10は、見開き角xが見開き角θを下回らないと判定した場合、前述の処理と同様に、視聴時に表示される映像有効表示範囲B及びその中心が、視聴時の音声が想定する映像有効表示範囲C及びその中心に一致するように、座標変換テーブル11を生成する。
【0120】
一方、映像位置変換部10は、見開き角xが見開き角θを下回ると判定した場合、視聴時に表示される映像有効表示範囲B及びその中心が、予め設定された座標(例えば視聴時の音声が想定する映像有効表示範囲Cの中心)に一致するように、座標変換テーブル11を生成する。これにより、視聴時に表示される映像有効表示範囲B内の音声信号の座標が、予め設定された座標に変換される。
【0121】
例えば
図3を参照して、α2=-8度、γ2=0度及びβ2=8度である場合には、映像位置変換部10は、視聴時の音声が想定する映像有効表示範囲Cの示す見開き角xが16度であり、見開き角θ=20度を下回るとして、変換前座標のα1=-25度からβ1=-5度までの角度に対応して、予め設定された角度(例えば0度)となるように、座標変換テーブル11を生成する。
【0122】
つまり、音声信号位置変換部12は、視聴時の音声が想定する映像有効表示範囲Cの示す見開き角xが予め設定された見開き角θを下回る場合、視聴時に表示される映像有効表示範囲B及びその中心が、予め設定された座標に一致するように、変換前座標を変換後座標に変換する。
【0123】
これにより、視聴時の音声が想定する映像有効表示範囲Cの示す見開き角xが下限値を下回る場合に、すなわち携帯端末の表示サイズが小さい場合に、これに対応する範囲(視聴時に表示される映像有効表示範囲B)の全ての音声信号を、予め設定された座標に変換することができるため、処理を軽減することができる。
【0124】
ここで、オブジェクトベース音響用座標変換装置1において、360度映像を対象とした回転時、並びに回転時及びズーム時についても同様であり、
図11に示したオブジェクトベース音響用座標変換装置2においても同様である。
【0125】
(音声信号に連動/非連動の識別子を付与)
また、前記実施形態では、全ての音声信号の座標を変換する例を示したが、全ての音声信号(制作時の音声信号、入力音声信号)のそれぞれに対し、映像表示と連動するか否かを示す連動/非連動の識別子を付与するようにしてもよい。この場合、オブジェクトベース音響用座標変換装置1,2は、非連動の識別子が付与された音声信号(例えばナレーション、警告音)に対し、制作時の音声が想定する映像有効表示範囲A等とは関係なく、常に同じ座標の出力音声信号を生成して出力する。
【0126】
具体的には、オブジェクトベース音響用座標変換装置1の音声信号位置変換部12は、音響メタデータに含まれる音声信号に対する連動/非連動の識別子を入力し、識別子が連動を示しているか、または非連動を示しているかを判定する。
【0127】
音声信号位置変換部12は、識別子が連動を示していると判定した場合、当該音声信号に対し、座標変換テーブル11を用いた変換処理を行い、変換後の音声信号の座標を音声信号処理部13に出力する。
【0128】
一方、音声信号位置変換部12は、識別子が非連動を示していると判定した場合、当該音声信号に対して変換処理を行わず、音声信号の座標を、そのまま変換後の音声信号の座標として音声信号処理部13に出力するか、または、音声信号の座標を、予め設定された固定の座標に変換し、当該座標を変換後の音声信号の座標として音声信号処理部13に出力する。
【0129】
これにより、非連動の識別子が付与されたナレーション、警告音等の音声信号については、視聴時において、常に同じ位置から再生させることができる。
図11に示したオブジェクトベース音響用座標変換装置2の音声信号位置変換部14においても同様である。
【0130】
(音声信号の座標変化の抑制)
また、前記実施形態では、常時、視聴時の音声が想定する映像有効表示範囲Cに合わせて、音声信号の座標を変換する変換処理の例を示した。これに対し、ユーザが、例えば短時間に携帯端末の画面を(左右方向へ)回転させることで、視聴時の音声が想定する映像有効表示範囲Cを変更した場合に、オブジェクトベース音響用座標変換装置1は、音声信号の座標を変換しない、または、時間をかけてゆっくりと変換するようにしてもよい。
【0131】
具体的には、オブジェクトベース音響用座標変換装置1の音声信号位置変換部12は、当該オブジェクトベース音響用座標変換装置1の入力する視聴時の音声が想定する映像有効表示範囲Cが、予め設定された時間内で変化しているか否かを判定する。
【0132】
音声信号位置変換部12は、視聴時の音声が想定する映像有効表示範囲Cが当該時間内で変化していると判定した場合、予め設定された時間の間、前述の変換処理を行わないように当該変換処理を停止し、予め設定された時間が経過した後に、前述の変換処理を行う。
【0133】
または、音声信号位置変換部12は、視聴時の音声が想定する映像有効表示範囲Cが当該時間内で変化していると判定した場合、時間をかけてゆっくりと、音声信号の変換処理を行う。例えば、視聴時の音声が想定する映像有効表示範囲Cが1秒間に1回変化したとすると、音声信号の変換処理は、5秒間に1回の割合で、過去30秒間の平均値(変換後座標の平均値)を算出して出力する等、スムージングをかけるようにする。
【0134】
具体例で示すと、音声信号位置変換部12による前述の変換処理により得られた変換後座標が0→30→60→20→50→30・・・とする。音声信号位置変換部12は、所定数(例えば過去3回分)の変換後座標を平均化し、平均化した0→10→30→37→43→33・・・の変換後座標を、変換後の音声信号の座標として音声信号処理部13に出力する。
【0135】
これにより、視聴時の音声が想定する映像有効表示範囲Cが短時間内に変更された場合には、音声信号の座標変換処理は、これに追従しないこととなるため、携帯端末の画面が回転したときに、音声信号の座標が急激に変動することがない。例えばユーザが、頭部を固定して携帯端末に表示された映像を視聴している状態で、画面を回転させた場合に、音声信号の座標が急激に変動しないため、ユーザの受ける違和感を軽減することができる。
図11に示したオブジェクトベース音響用座標変換装置2の音声信号位置変換部14においても同様である。
【0136】
尚、本発明の実施形態によるオブジェクトベース音響用座標変換装置1,2のハードウェア構成としては、通常のコンピュータを使用することができる。オブジェクトベース音響用座標変換装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0137】
オブジェクトベース音響用座標変換装置1に備えた映像位置変換部10、座標変換テーブル11、音声信号位置変換部12及び音声信号処理部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0138】
また、オブジェクトベース音響用座標変換装置2に備えた音声信号位置変換部14及び音声信号処理部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0139】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0140】
1,2 オブジェクトベース音響用座標変換装置
10 映像位置変換部
11 座標変換テーブル
12,14 音声信号位置変換部
13 音声信号処理部
100 視聴者
A 制作時の音声が想定する映像有効表示範囲
B 視聴時に表示される映像有効表示範囲
C,C1,C2 視聴時の音声が想定する映像有効表示範囲
x,x1,x2 見開き角