特許第5944840号(P5944840)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サムスン エレクトロニクス カンパニー リミテッドの特許一覧

<>
  • 特許5944840-立体音響の再生方法及びその装置 図000007
  • 特許5944840-立体音響の再生方法及びその装置 図000008
  • 特許5944840-立体音響の再生方法及びその装置 図000009
  • 特許5944840-立体音響の再生方法及びその装置 図000010
  • 特許5944840-立体音響の再生方法及びその装置 図000011
  • 特許5944840-立体音響の再生方法及びその装置 図000012
  • 特許5944840-立体音響の再生方法及びその装置 図000013
  • 特許5944840-立体音響の再生方法及びその装置 図000014
  • 特許5944840-立体音響の再生方法及びその装置 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5944840
(24)【登録日】2016年6月3日
(45)【発行日】2016年7月5日
(54)【発明の名称】立体音響の再生方法及びその装置
(51)【国際特許分類】
   H04S 5/02 20060101AFI20160621BHJP
【FI】
   H04S5/02 G
   H04S5/02 D
【請求項の数】17
【全頁数】19
(21)【出願番号】特願2012-558085(P2012-558085)
(86)(22)【出願日】2011年3月17日
(65)【公表番号】特表2013-523006(P2013-523006A)
(43)【公表日】2013年6月13日
(86)【国際出願番号】KR2011001849
(87)【国際公開番号】WO2011115430
(87)【国際公開日】20110922
【審査請求日】2014年3月17日
(31)【優先権主張番号】10-2011-0022886
(32)【優先日】2011年3月15日
(33)【優先権主張国】KR
(31)【優先権主張番号】61/315,511
(32)【優先日】2010年3月19日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】503447036
【氏名又は名称】サムスン エレクトロニクス カンパニー リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】チョウ,ヨン−チュン
(72)【発明者】
【氏名】キム,ソン−ミン
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2006−128816(JP,A)
【文献】 特開2009−278381(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 5/02
(57)【特許請求の範囲】
【請求項1】
映像信号内の少なくとも1つの映像オブジェクトと基準位置との間の距離を示す映像深度情報を獲得する段階と、
前記映像信号を構成する各映像区間の代表深度値を利用して、音響信号内の少なくとも1つの音響オブジェクトと基準位置との間の距離を示す音響深度情報を獲得する段階と、
前記音響深度情報に基づいて、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する段階と、を含むことを特徴とする立体音響の再生方法。
【請求項2】
前記音響深度情報を獲得する段階は、
前記映像信号を構成する映像区間それぞれに係わる最大深度値を獲得する段階と、
前記最大深度値に基づいて、前記少なくとも1つの音響オブジェクトに係わる音響深度値を獲得する段階と、を含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項3】
前記音響深度値を獲得する段階は、
前記最大深度値が第1臨界値未満であるならば、前記音響深度値を最低値として決定し、前記最大深度値が第2臨界値以上であるならば、前記音響深度値を最大値として決定する段階を含むことを特徴とする請求項2に記載の立体音響の再生方法。
【請求項4】
前記音響深度値を獲得する段階は、
前記最大深度値が第1臨界値以上であって第2臨界値未満であるならば、前記最大深度値に比例して、前記音響深度値を決定する段階をさらに含むことを特徴とする請求項3に記載の立体音響の再生方法。
【請求項5】
映像信号内の少なくとも1つの映像オブジェクトと基準位置との間の距離を示す映像深度情報を獲得する段階と、
前記映像深度情報に基づいて、音響信号内の少なくとも1つの音響オブジェクトと基準位置との間の距離を示す音響深度情報を獲得する段階と、
前記音響深度情報に基づいて、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する段階と、を含み、
前記音響深度情報を獲得する段階は、
前記映像信号内の少なくとも1つの映像オブジェクトに係わる位置情報と前記音響信号内の少なくとも1つの音響オブジェクトに係わる位置情報とを獲得する段階と、
前記少なくとも1つの映像オブジェクトの位置と、前記少なくとも1つの音響オブジェクトの位置とが一致するか否かを判断する段階と、
前記判断結果に基づいて、前記音響深度情報を獲得する段階と、を含むことを特徴とする立体音響の再生方法。
【請求項6】
前記音響深度情報を獲得する段階は、
前記映像信号を構成する映像区間それぞれに係わる平均深度値を獲得する段階と、
前記平均深度値に基づいて、前記少なくとも1つの音響オブジェクトに係わる音響深度値を獲得する段階と、を含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項7】
前記音響深度値を決定する段階は、
前記平均深度値が第3臨界値未満であるならば、前記音響深度値を最低値として決定する段階を含むことを特徴とする請求項6に記載の立体音響の再生方法。
【請求項8】
前記音響深度値を決定する段階は、
以前区間の平均深度値と、現在区間の平均深度値との差が第4臨界値未満であるならば、前記音響深度値を最低値として決定する段階を含むことを特徴とする請求項6に記載の立体音響の再生方法。
【請求項9】
前記音響遠近感を付与する段階は、
前記音響深度情報に基づいて、前記音響オブジェクトのパワー、前記音響オブジェクトが反射して生じる反射信号の利得及び遅延時間、及び前記音響オブジェクトの低域成分の大きさの中で少なくとも一つを調整する段階を含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項10】
前記音響遠近感を付与する段階は、
第1スピーカから出力される前記音響オブジェクトの位相と、第2スピーカから出力される前記音響オブジェクトの位相との差を調整する段階を含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項11】
前記遠近感が付与された音響オブジェクトを、左側サラウンドスピーカ及び右側サラウンドスピーカを介して出力するか、あるいは左側フロントスピーカ及び右側フロントスピーカを介して出力する段階をさらに含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項12】
前記方法は、
前記音響信号を利用し、スピーカの外郭に音像を正位させる段階をさらに含むことを特徴とする請求項1に記載の立体音響の再生方法。
【請求項13】
前記音響深度情報を獲得する段階は、
前記少なくとも1つの映像オブジェクトそれぞれの大きさ及び前記少なくとも1つの映像オブジェクトの分布のうち少なくとも一つに基づいて、前記少なくとも1つの音響オブジェクトに係わる音響深度値を決定する段階を含むことを特徴とする請求項に記載の立体音響の再生方法。
【請求項14】
映像信号内の少なくとも1つの映像オブジェクトと基準位置との間の距離を示す映像深度情報を獲得する映像深度情報獲得部と、
前記映像信号を構成する各映像区間の代表深度値を利用して、音響信号内の少なくとも1つの音響オブジェクトと基準位置との間の距離を示す音響深度情報を獲得する音響深度情報獲得部と、
前記音響深度情報に基づいて、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する遠近感付与部と、を含むことを特徴とする立体音響再生装置。
【請求項15】
請求項1ないし請求項13のうち、いずれか一項に記載の方法を具現するためのプログラムが記録されたコンピュータで読み取り可能な記録媒体。
【請求項16】
前記判断結果に基づいて、前記音響深度情報を獲得する段階は、前記音響オブジェクトに対応する映像オブジェクトのサイズが閾値を上回るとき、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する段階を含むことを特徴とする、請求項5に記載の立体音響の再生方法。
【請求項17】
前記映像信号内の少なくとも1つの映像オブジェクトに係わる位置情報と前記音響信号内の少なくとも1つの音響オブジェクトに係わる位置情報とを獲得する段階は、
前記音響信号からプライマリ成分とアンビエンス成分とを分離する段階と、
前記プライマリ成分と前記アンビエンス成分とを比較する段階と、
前記音響信号内の少なくとも1つの音響オブジェクトに係わる位置情報を獲得する段階と、
を含むことを特徴とする、請求項5に記載の立体音響の再生方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、立体音響の再生方法及びその装置に係り、特に、音響オブジェクトに対して遠近感を付与する立体音響の再生方法及びその装置に係わる。
【背景技術】
【0002】
映像技術の発展に後押しされ、ユーザは、三次元立体映像が視聴可能になった。三次元立体映像は、両眼視差を考慮し、左視点映像データを左目に露出させ、右視点映像データを右目に露出させる。ユーザは、三次元映像技術を介して、スクリーンから飛び出したり、あるいはスクリーンの奥に入り込むオブジェクトを実感をもって認識することができる。
【0003】
一方、映像技術の発展と共に、音響に対するユーザの関心が高まっており、特に、立体音響技術が目立って発展している。立体音響技術は、ユーザの周りに複数個のスピーカを配置し、ユーザに正位感及び臨場感を感じさせる。しかし、立体音響技術では、ユーザに近づいたり、あるいはユーザから遠ざかる映像オブジェクトを効果的に表現することができないので、立体映像に符合する音響効果を提供することができない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記の問題点を解決するための本発明の目的は、効果的に立体音響を再生する方法及びその装置を提供することであり、特に、音響オブジェクトに対して遠近感を付与し、ユーザに近づいたり、あるいは遠ざかる音響を効果的に表現する立体音響の再生方法及びその装置を提供するところにある。
【課題を解決するための手段】
【0005】
前記の目的を果たすための本発明の一実施形態が有する1つの特徴は、立体映像信号内の少なくとも1つの映像オブジェクトと基準点との間の距離を示す映像深度情報を獲得する段階と、前記映像深度情報に基づいて、音響信号内の少なくとも1つの音響オブジェクトと基準点との間の距離を示す音響深度情報を獲得する段階と、前記音響深度情報に基づいて、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する段階と、を含むものである。
【0006】
前記音響深度情報を獲得する段階は、前記立体映像信号内で、前記基準点との距離が最も近い映像オブジェクトの深度値である最大深度値を獲得する段階と、前記最大深度値に基づいて、前記少なくとも1つの音響オブジェクトの音響深度値を獲得する段階と、を含んでもよい。
【0007】
前記音響深度値を獲得する段階は、前記最大深度値が第1臨界値未満であるならば、前記音響深度値を最低値として決定し、前記最大深度値が第2臨界値以上であるならば、前記音響深度値を最大値として決定する段階を含んでもよい。
【0008】
前記音響深度値を獲得する段階は、前記最大深度値が第1臨界値以上であって第2臨界値未満であるならば、前記最大深度値に比例して、前記音響深度値を決定する段階をさらに含んでもよい。
【0009】
前記音響深度情報を獲得する段階は、前記少なくとも1つの映像オブジェクトの位置情報と前記音響信号とから、前記少なくとも1つの音響オブジェクトの位置情報を獲得する段階と、前記少なくとも1つの映像オブジェクトの位置と、前記少なくとも1つの音響オブジェクトの位置とが一致するか否かを判断する段階と、前記判断結果に基づいて、前記音響深度情報を獲得する段階と、を含んでもよい。
【0010】
前記立体映像信号は、前記音響深度情報を獲得する段階は、前記立体映像信号内の複数個の区間別に平均深度値を獲得する段階と、前記平均深度値に基づいて、前記音響深度値を決定する段階と、を含んでもよい。
【0011】
前記音響深度値を決定する段階は、前記平均深度値が第3臨界値未満であるならば、前記音響深度値を最低深度値として決定する段階を含んでもよい。前記音響深度値を決定する段階は、以前区間での平均深度値と、現在区間での平均深度値との差が第4臨界値未満であるならば、前記音響深度値を最低深度値として決定する段階を含んでもよい。
【0012】
前記音響遠近感を付与する段階は、前記音響深度情報に基づいて、前記オブジェクトのパワーを調整する段階を含んでもよい。
【0013】
前記遠近感を付与する段階は、前記音響深度情報に基づいて、前記音響オブジェクトが反射して生じる反射信号の利得及び遅延時間を調整する段階を含んでもよい。
【0014】
前記音響遠近感を付与する段階は、前記音響深度情報に基づいて、前記音響オブジェクトの低域成分の大きさを調整する段階を含んでもよい。前記音響遠近感を付与する段階は、第1スピーカから出力される前記音響オブジェクトの位相と、第2スピーカから出力される前記音響オブジェクトの位相との差を調整することができる。
【0015】
前記遠近感が付与された音響オブジェクトを、左側サラウンドスピーカ及び右側サラウンドスピーカを介して出力するか、あるいは左側フロントスピーカ及び右側フロントスピーカを介して出力する段階をさらに含んでもよい。
【0016】
前記音響信号を利用し、スピーカの外郭に音像を正位させる段階をさらに含んでもよい。前記音響深度情報を獲得する段階は、前記少なくとも1つの映像オブジェクトそれぞれの大きさに基づいて、前記少なくとも1つの音響オブジェクトに係わる音響深度値を決定する段階を含んでもよい。
【0017】
前記音響深度情報を獲得する段階は、前記少なくとも1つの映像オブジェクトの分布に基づいて、前記少なくとも1つの音響オブジェクトに係わる音響深度値を決定する段階を含んでもよい。
【0018】
本発明の他の実施形態が有する1つの特徴は、立体映像信号内の少なくとも1つの映像オブジェクトと基準点との間の距離を示す映像深度情報を獲得する映像深度情報獲得部と、前記映像深度情報に基づいて、音響信号内の少なくとも1つの音響オブジェクトと基準点との間の距離を示す音響深度情報を獲得する音響深度情報獲得部と、前記音響深度情報に基づいて、前記少なくとも1つの音響オブジェクトに音響遠近感を付与する遠近感付与部と、を含むものである。
【図面の簡単な説明】
【0019】
図1】本発明の一実施形態による立体音響再生装置に係わるブロック図である。
図2図1に図示された本発明の一実施形態による音響深度情報獲得部に係わる詳細なブロック図である。
図3図1に図示された本発明の他の実施形態による音響深度情報獲得部に係わる詳細なブロック図である。
図4】本発明の一実施形態による決定部で、音響深度値を決定するのに使われる所定の関数に係わる事例を示すグラフである。
図5】本発明の一実施形態によるステレオ音響信号を利用して立体音響を提供する遠近感提供部に係わるブロック図である。
図6】本発明の一実施形態による立体映像再生装置で、立体音響を提供する事例を示す図面である。
図7】本発明の一実施形態による音響信号に基づいて、音響オブジェクトの位置を検出する方法に係わるフローチャートである。
図8】本発明の一実施形態による音響信号から、音響オブジェクトの位置を検出する事例を示す図面である。
図9】本発明の一実施形態による立体音響の再生方法に係わるフローチャートである。
【発明を実施するための形態】
【0020】
以下、添付された図面を参照しつつ、本発明の望ましい実施形態について詳細に説明する。
【0021】
まず、説明の便宜のために、本明細書で使われる用語を簡単に定義する。
【0022】
映像オブジェクトは映像信号内に含まれた事物や、人、動物、植物等の被写体を指す。
音響オブジェクトは、音響信号に含まれた音響成分それぞれを指す。1つの音響信号には、多様な音響オブジェクトが含まれもする。例えば、オーケストラの公演実況を録音して生成された音響信号には、ギター、バイオリン、オーボエなどの多様な楽器から生じた多様な音響オブジェクトが含まれる。
【0023】
音源は、音響オブジェクトを生成した対象(例えば、楽器、声帯)を指す。本明細書では、音響オブジェクトを実際に生成した対象と、ユーザが音響オブジェクトを生成したと認識する対象をいずれも音源という。一例として、ユーザが映画を視聴していて、リンゴがスクリーンからユーザの方で飛んでくるならば、リンゴが飛んでくるときに生じる音(音響オブジェクト)が音響信号に含まれるであろう。前記音響オブジェクトは、実際にリンゴが投げられて飛ぶ音を録音したものでもあり、あらかじめ録音された音響オブジェクトを単に再生するものでもある。しかし、いずれにせよユーザは、リンゴが前記音響オブジェクトを発生させたと認識するであろうから、リンゴも本明細書で定義する音源に該当する。
【0024】
映像深度情報は、背景と基準位置との間の距離、及びオブジェクトと基準位置との間の距離を示す情報である。基準位置は、映像が出力されるディスプレイ装置の表面であってもよい。音響深度情報は、音響オブジェクトと基準位置との間の距離を示す情報である。具体的には、音響深度情報は、音響オブジェクトが生じた位置(音源の位置)と基準位置との間の距離を示す。
【0025】
上述の例でのように、ユーザが映画を視聴していて、リンゴがスクリーンからユーザ側に飛んでくるならば、音源とユーザとの距離が近くなるであろう。リンゴが近づいてくるということを効果的に表現するためには、映像オブジェクトに対応する音響オブジェクトの発生位置がだんだんとユーザにさらに近づくと表現しなければならず、このために、情報が音響深度情報に含まれる。基準位置は、所定の音源の位置、スピーカの位置、ユーザの位置など、実施形態によって多様である。
【0026】
音響遠近感は、ユーザが音響オブジェクトを介して感じる感覚の一種である。ユーザは、音響オブジェクトを聴取することにより、音響オブジェクトが生じた位置、すなわち、音響オブジェクトを生成した音源の位置を認識する。このとき、ユーザが認識する音源との距離感を音響遠近感という。
【0027】
図1は、本発明の一実施形態による立体音響再生装置100に係わるブロック図を示している。本発明の一実施形態による立体音響再生装置100は、映像深度情報獲得部110、音響深度情報獲得部120及び遠近感提供部130を含む。
【0028】
映像深度情報獲得部110は、映像信号内の少なくとも1つの映像オブジェクトと基準位置との間の距離を示す映像深度情報を獲得する。映像深度情報は、映像オブジェクトまたは背景を構成するそれぞれのピクセルの深度値を示す深度マップであってもよい。
【0029】
音響深度情報獲得部120は、映像深度情報に基づいて、音響オブジェクトと基準位置との間の距離を示す音響深度情報を獲得する。映像深度情報を利用して、音響深度情報を生成する方法は多様なものがあり、以下では、音響深度情報を生成する2つの方法について説明する。しかし、本発明がこれらに限定されるものではない。
【0030】
第1実施形態で、音響深度情報獲得部120は、音響オブジェクトそれぞれに係わる音響深度値を獲得することができる。音響深度情報獲得部120は、映像深度情報、映像オブジェクトに係わる位置情報及び音響オブジェクトに係わる位置情報を獲得し、これら位置情報に基づいて、映像オブジェクトと音響オブジェクトとをマッチングさせる。その後、映像深度情報及びマッチング情報に基づいて、音響深度情報を生成することができる。第1実施形態に係わる詳細な説明は、図2で後述する。
【0031】
第2実施形態で、音響深度情報獲得部120は、音響信号を構成する音響区間別に音響深度値を獲得することができる。第2実施形態による場合、1つの区間内の音響信号は、同一の音響深度値を有する。すなわち、異なる音響オブジェクトについても、同一の音響深度値が適用されるのである。音響深度情報獲得部120は、映像信号を構成する映像区間それぞれについて映像深度値を獲得する。映像区間は、映像信号をフレーム単位で分割したり、あるいはシーン単位で分割したものであってもよい。音響深度情報獲得部120は、それぞれの映像区間での代表深度値(例えば、区間内の最大深度値、最小深度値または平均深度値)を獲得し、これを利用して、映像区間に対応する音響区間での音響深度値を決定する。第2実施形態に係わる詳細な説明は、図3で後述する。
【0032】
遠近感提供部130は、音響深度情報に基づいて、ユーザが音響遠近感を感じるように音響信号を処理する。遠近感提供部130は、映像オブジェクトに対応する音響オブジェクトを抽出した後、音響オブジェクト別に音響遠近感を付与するか、あるいは音響信号に含まれたチャネル別に音響遠近感を付与するか、あるいは全体音響信号に対して音響遠近感を付与することができる。
【0033】
遠近感提供部130は、ユーザに音響遠近感を効果的に感じさせるために、次の4種の作業を遂行する。しかし、遠近感提供部120で遂行する4種の作業は一例に過ぎず、本発明がこれらに限定されるものではない。
【0034】
i)遠近感提供部130は、音響深度情報に基づいて、音響オブジェクトのパワーを調整する。音響オブジェクトがユーザ近くで生じるほど、音響オブジェクトのパワーが大きくなる。
【0035】
ii)遠近感提供部130は、音響深度情報に基づいて、反射信号の利得及び遅延時間を調整する。ユーザは、障害物に反射しない直接音響信号と、障害物に反射して生成された反射音響信号とをいずれも聴取する。反射音響信号は、直接音響信号に比べて大きさが小さく、直接音響に比べて一定時間遅延されてユーザに逹するのが一般的である。特に、音響オブジェクトがユーザの近くで生じた場合には、反射音響信号は、直接音響信号に比べて、相当に遅く到着することになり、大きさもさらに多く縮小される。
【0036】
iii)遠近感提供部130は、音響深度情報に基づいて、音響オブジェクトの低域成分を調整する。音響オブジェクトがユーザの近くで生じることになれば、ユーザは、低域成分を大きく認識することになる。
【0037】
iv)遠近感提供部130は、音響深度情報に基づいて、音響オブジェクトの位相を調節する。第1スピーカから出力される音響オブジェクトの位相と、第2スピーカから出力される音響オブジェクトの位相との差が大きければ大きいほど、ユーザは、音響オブジェクトがブラーリング(blurring)されることにより、認識することになる。
【0038】
遠近感提供部130の動作に係わる詳細な説明は、図5を参照して後述する。
【0039】
図2は、図1に図示された本発明の一実施形態による音響深度情報獲得部120に係わる詳細なブロック図を示している。音響深度情報獲得部120は、第1位置獲得部210、第2位置獲得部220、マッチング部230及び決定部240を含む。
【0040】
第1位置獲得部210は、映像深度情報に基づいて、映像オブジェクトの位置情報を獲得する。第1位置獲得部210は、映像信号内で左右または先後への動きが感知される映像オブジェクトに係わる位置情報のみを獲得することができる。
【0041】
第1位置獲得部210は、次の数式(1)に基づいて、連続する映像フレームに係わる深度マップを比べて、深度値の変化が大きい座標を確認する。
【0042】
【数1】
数式(1)でIは、フレームの番号を示し、x,yは、座標を示す。従って、Ix,yは、I番目フレームの(x,y)座標での深度値を示す。
【0043】
第1位置獲得部210は、すべての座標に対して、DIffx,y値が計算されれば、DIffx,y値が臨界値以上の座標を検索する。第1位置獲得部210は、DIffx,y値が臨界値以上である座標に対応する映像オブジェクトを、動きが感知される映像オブジェクトとして決定し、当該座標を映像オブジェクトの位置として決定する。
【0044】
第2位置獲得部220は、音響信号に基づいて、音響オブジェクトに係わる位置情報を獲得する。第2位置獲得部220が音響オブジェクトに係わる位置情報を獲得する方法は、多様である。
【0045】
一例として、第2位置獲得部220は、音響信号からプライマリ成分とアンビエンス成分とを分離し、プライマリ成分とアンビエンス成分とを比べて、音響オブジェクトの位置情報を獲得するか、あるいは音響信号のチャネル別パワーを比べて、音響オブジェクトの位置情報を獲得することができる。この方法による場合、音響オブジェクトの左右位置が分かる。
【0046】
他の例として、第2位置獲得部220は、音響信号を複数個の区間に分割し、それぞれの区間で周波数帯域別パワーを計算し、周波数帯域別パワーに基づいて、共通周波数帯域を決定する。共通周波数帯域は、以前区間と現在区間とでのパワー変化が小さい周波数帯域を意味する。ディスプレイ装置の深度方向に、映像オブジェクトの位置が変われば、映像オブジェクトに対応する音響オブジェクトのパワーが変わる。この場合、音響オブジェクトに対応する周波数帯域のパワーが変わるので、周波数帯域別パワーの変化を観察し、音響オブジェクトの深度方向での位置が分かる。
【0047】
マッチング部230は、映像オブジェクトに係わる位置情報と、音響オブジェクトに係わる位置情報とに基づいて、映像オブジェクトと音響オブジェクトとをマッチングする。マッチング部230は、映像オブジェクトの座標と、音響オブジェクトの座標との差が臨界値以内であるならば、映像オブジェクトと音響オブジェクトとがマッチングされると判断する。一方、映像オブジェクトの座標と、音響オブジェクトの座標との差が臨界値以上であるならば、映像オブジェクトと音響オブジェクトとがマッチングされないと判断する。
【0048】
決定部240は、マッチング部230の判断に基づいて、音響オブジェクトに係わる音響深度値を決定する。一例として、マッチングされる映像オブジェクトが存在すると判断された音響オブジェクトは、映像オブジェクトの深度値によって音響深度値を決定し、マッチングされる映像オブジェクトが存在しないと判断された音響オブジェクトは、音響深度値を最小値として決定する。音響深度値が最小値として決定されれば、遠近感提供部130は、音響オブジェクトに対して音響遠近感を付与しない。
【0049】
決定部240は、映像オブジェクトと音響オブジェクトとの位置が一致する場合にも、所定の例外状況では、音響オブジェクトに対して音響遠近感を付与しないこともある。
【0050】
一例として、映像オブジェクトの個数が一定数以上であり、映像オブジェクトが特定空間に集中しているのであれば、決定部240は、映像オブジェクトに対応する音響オブジェクトに対して音響遠近感を付与しないこともある。映像フレーム内のほとんどのオブジェクトが、スクリーン上に飛び出す場合には、ユーザに立体効果を強調する必要がないから、一部オブジェクト(全体オブジェクトではない)が、スクリーン上に飛び出す場合にのみ、対応する音響オブジェクトに対して音響遠近感を付与する。
【0051】
他の例として、映像オブジェクトの大きさが臨界値以下であるならば、決定部240は、映像オブジェクトに対応する音響オブジェクトに対して音響遠近感を付与しないこともある。大きさが小さすぎる映像オブジェクトは、ユーザが立体感を感じるのに及ぼす影響力が小さいと見られるので、当該音響オブジェクトに対しては、音響遠近感を付与しない。
【0052】
図3は、図1に図示された本発明の他の実施形態による音響深度情報獲得部120に係わる詳細なブロック図を示している。
【0053】
本発明の他の実施形態による音響深度情報獲得部120は、区間深度情報獲得部310及び決定部320を含む。
【0054】
区間深度情報獲得部310は、映像深度情報に基づいて、映像区間別深度情報を獲得する。映像信号は、複数個の区間に区分されもする。一例として、映像信号は、場面が転換されるシーン単位で区分されるか、あるいは映像フレーム単位で区分されるか、あるいはGOP(group of picture)単位で区分されもする。
【0055】
区間深度情報獲得部310は、それぞれの区間に対応する映像深度値を獲得する。区間深度情報獲得部310は、次の数式(2)に基づいて、それぞれの区間に対応する映像深度値を獲得することができる。
【0056】
【数2】
数式(2)のIx,yは、I番目フレームのx,y座標に位置したピクセルが示す深度値を意味する。Depthは、I番目フレームに対応する映像深度値であり、I番目フレーム内のすべてのピクセルの深度値を平均して獲得する。
【0057】
数式(2)は、一実施形態に過ぎず、各区間内の最大深度値、最小深度値、以前区間との変化が最大であるピクセルの深度値などを、区間の代表深度値として決定することができる。
【0058】
決定部320は、各区間の代表深度値に基づいて、映像区間に対応する音響区間に係わる音響深度値を決定する。決定部320は、区間の代表深度値を入力にする所定の関数によって音響深度値を決定する。決定部320は、入力値と出力値とが正比例する関数、入力値によって出力値が指数的に増加する関数を所定の関数として使うことができる。他の実施形態では、入力値の範囲によって異なる関数を、所定の関数として使うことができる。決定部320が音響深度値を決定するために使う所定の関数に係わる事例は、図4で後述する。
【0059】
決定部320は、音響区間に音響遠近感を付与する必要がないと判断されれば、当該音響区間での音響深度値を最小値として決定することができる。
【0060】
決定部320は、次の数式(3)によって、隣接するI番目映像フレームと、I+1番目映像フレームとでの深度値の差を獲得することができる。
【0061】
【数3】
Diff_Depthは、I番目フレームでの平均映像深度値と、I+1番目での平均映像深度値との差を示す。
【0062】
決定部320は、次の数式(4)によって、I番目映像フレームに対応する音響区間で、音響遠近感を付与するか否かを決定する。
【0063】
【数4】
R_Flagは、I番目フレームに対応する音響区間に、音響遠近感を付与するか否かを示すフラグである。R_Flagが0の値を有せば、当該音響区間で音響遠近感を付与し、R_Flagが1の値を有せば、当該音響区間に音響遠近感を付与しない。
【0064】
以前フレームでの平均映像深度値と、次のフレームでの平均映像深度値との差が大きい場合には、次のフレームからスクリーン外に飛び出す映像オブジェクトの存在する確率が高いと判断することができる。従って、決定部320は、Diff_Depthが臨界値以上である場合にのみ、映像フレームに対応する音響区間に音響遠近感を付与するように決定することができる。
【0065】
決定部320は、次の数式(5)によって、I番目映像フレームに対応する音響区間に、音響遠近感を付与するか否かを決定する。
【0066】
【数5】
R_Flagは、I番目フレームに対応する音響区間に、音響遠近感を付与するか否かを示すフラグである。R_Flagが0の値を有せば、当該音響区間で音響遠近感を付与し、R_Flagが1の値を有せば、当該音響区間で音響遠近感を付与しない。
【0067】
以前フレームと次のフレームとの平均映像深度値の差が大きいといっても、次のフレーム内の平均映像深度値が臨界値以下であるならば、次のフレームには、スクリーン外に飛び出す映像オブジェクトが存在しない可能性が高い。従って、決定部320は、Depthが臨界値以上(例えば、図4では、28)である場合にのみ、映像フレームに対応する音響区間で音響遠近感を付与するように決定することができる。
【0068】
図4は、本発明の一実施形態による決定部240,320で、音響深度値を決定するのに使われる所定の関数に係わる事例を示している。
【0069】
図4に図示された所定の関数から、横軸は、映像深度値を示し、縦軸は、音響深度値を示す。映像深度値は、0〜255までの値を有することができる。
【0070】
映像深度値が0以上28未満である場合には、音響深度値を最小値として決定する。音響深度値が最小値に設定されれば、音響オブジェクトまたは音響区間には、音響遠近感が付与されない。
【0071】
映像深度値が28ないし124未満である場合には、映像深度値の変化量による音響深度値の変化量が一定(すなわち、傾きが一定)である。実施形態によっては、映像深度値による音響深度値が線形的に変化せずに、指数的やログ的に変わることがある。
【0072】
他の実施形態では、映像深度値が28ないし56未満である場合には、音響深度値を、ユーザが自然な立体音響を聴取することができる固定された音響深度値(例えば、58)として決定することができる。
【0073】
映像深度値が124以上である場合には、音響深度値を最大値として決定する。
【0074】
図5は、本発明の一実施形態によるステレオ音響信号を利用し、立体音響を提供する遠近感提供部130に係わるブロック図を示している。
【0075】
もし入力信号が多チャネル音響信号であるならば、ステレオ信号でダウンミキシングを遂行した後、本発明を適用することができる。
【0076】
FFT(Fast Fourie Transform)部510は、入力信号に対して高速フーリエ変換を遂行する。
【0077】
IFFT 520は、フーリエ変換された信号に対して、逆フーリエ変換を遂行する。
【0078】
センター信号抽出部530は、ステレオ信号からセンターチャネルに該当する信号であるセンター信号を抽出する。センター信号抽出部530は、ステレオ信号で、相関度が高い信号をセンターチャネル信号として抽出する。図5では、センターチャネル信号に対して音響遠近感を付与すると仮定した。しかし、センターチャネル信号ではない左右フロントチャネル信号、または左右サラウンドチャネル信号のような他のチャネル信号に対して音響遠近感を付与するか、あるいは特定音響オブジェクトに対して音響遠近感を付与するか、あるいは全体音響信号に対して音響遠近感を付与することもできる。
【0079】
音場拡張部(sound stage extension)550は、音場を拡張する。音場拡張部550は、ステレオ信号に時間差や位相差を人為的に付与し、音像をスピーカより外側に正位させる。
【0080】
音響深度情報獲得部560は、映像深度情報に基づいて、音響深度情報を獲得する。
【0081】
パラメーター計算部570は、音響深度情報に基づいて、音響オブジェクトに音響遠近感を提供するのに必要な制御パラメータ値を決定する。
【0082】
レベル制御部571は、入力信号の大きさを制御する。位相制御部572は、入力信号の位相を調整する。反射効果提供部573は、入力信号が壁などによって反射して生じる反射信号をモデリングする。近距離効果提供部574は、ユーザと隣接した距離で生じた音響信号をモデリングする。ミキシング部580は、一つ以上の信号をミキシングしてスピーカに出力する。
【0083】
以下では、経時的に、立体音響再生装置500の動作について説明する。
【0084】
まず、多チャネル音響信号が入力される場合、ダウンミキサ(図示せず)を介して、ステレオ信号に変換する。FFT 510は、ステレオ信号に対して、高速フーリエ変換を遂行した後、センター抽出部520に出力する。
【0085】
センター信号抽出部520は、変換されたステレオ信号を比べ、相関度の高い信号をセンターチャネル信号として出力する。
【0086】
音響深度情報獲得部560では、映像深度情報に基づいて、音響深度情報を獲得する。音響深度情報獲得部560が音響深度情報を獲得する事例は、図2及び図3に図示された通りである。具体的には、音響深度情報獲得部560は、音響オブジェクトの位置と、映像オブジェクトの位置とを比べて、音響深度情報を獲得するか、あるいは映像信号内の区間別深度情報を利用し、音響深度情報を獲得することができる。
【0087】
パラメーター計算部570は、インデックス値に基づいて、音響遠近感を付与するためのモジュールに適用するパラメーターを計算する。
【0088】
位相制御部571は、センターチャネル信号を2つの信号にコピーした後、計算されたパラメーターによって、コピーされた信号の位相を調節する。位相の異なる音響信号を左側スピーカと右側スピーカとで再生すれば、ブラーリング現象が生じる。ブラーリング現象がはなはだしければはなはだしいほど、ユーザが音響オブジェクトが生じた位置を正確に認識し難い。音響オブジェクトの発生位置がユーザに近接するほど(または、発生位置がユーザに早く近づくほど)、位相制御部571は、コピーされた信号の位相差をさらに大きく設定するのである。位相が調整されたコピー信号は、IFFT 520を経て、反射効果提供部573に伝達する。
【0089】
反射効果提供部573は、反射信号をモデリングする。音響オブジェクトがユーザから遠く離れたところで発生すれば、壁などによって反射せずに、ユーザに直接伝達する直接音響と、壁などによって反射して生成された反射音響との大きさが類似しており、直接音響と反射音響とがユーザに到着する時間差がほとんどない。しかし、音響オブジェクトがユーザの近くで発生すれば、直接音響と反射音響との大きさが異なり、直接音響と反射音響とがユーザに到着する時間差が大きい。従って、音響オブジェクトが、ユーザから近い距離で生じるほど、反射効果提供部573は、反射信号の利得値をさらに大きく低減させ、時間遅延をさらに増大させる。反射効果提供部573は、反射信号が考慮されたセンターチャネル信号を近距離効果提供部574に伝送する。
【0090】
近距離効果提供部574は、パラメーター計算部570で計算されたパラメーター値に基づいて、ユーザと接した距離で生じた音響オブジェクトをモデリングする。音響オブジェクトがユーザと近い位置で発生すれば、低域成分が目立つ。近距離効果提供部574は、オブジェクトの生じた地点がユーザと近ければ近いほど、センター信号の低域成分を増加させる。
【0091】
一方、ステレオ入力信号を受信した音場拡張部550は、スピーカの外側に音像が正位されるように、ステレオ信号を処理する。スピーカ間の位置が適当に遠くなれば、ユーザは、現場感ある立体音響を聴取することができる。
【0092】
音場拡張部550は、ステレオ信号をワイドニング・ステレオ信号に変換する。音場拡張部は550は、左/右バイノーラル合成(binaural synthesis)とクロストーク・キャンセラとをコンボルーションしたワイドニング・フィルタと、ワイドニング・フィルタと左/右ダイレクト・フィルタとをコンボルーションした1つのパノラマ・フィルタと、を含んでもよい。このとき、ワイドフィルタは、ステレオ信号について、所定の位置で測定した頭部伝達関数(HRTF)を基に、任意の位置に係わる仮想音源に形成し、頭部伝達関数を反映したフィルタ係数に基づいて、仮想音源のクロストークをキャンセリングする。左右ダイレクト・フィルタは、本来のステレオ信号と、クロストーク・キャンセリングされた仮想音源との利得及び遅延のような信号特性を調整する。
【0093】
レベル制御部560は、パラメーター計算部570で計算された音響深度値に基づいて、音響オブジェクトのパワーサイズを調整する。レベル制御部560は、音響オブジェクトがユーザの近くで生じるほど、音響オブジェクトの大きさを増加させるのである。
【0094】
ミキシング部580は、レベル制御部560から送信されたステレオ信号と、近距離効果提供部574から送信されたセンター信号とを結合してスピーカに出力する。
【0095】
図6は、本発明の一実施形態による立体映像再生装置100で、立体音響を提供する事例を示している。図6の(a)は、本発明の一実施形態による立体音響オブジェクトが動作しない場合を示している。
【0096】
ユーザは、一つ以上のスピーカを介して、音響オブジェクトを聴取する。ユーザが1つのスピーカを利用して、モノ信号を再生する場合には、立体感を感じることができず、2以上のスピーカを利用して、ステレオ信号を再生する場合には、立体感を感じることができる。
【0097】
図6の(b)は、本発明の一実施形態による音響深度値が「0」である音響オブジェクトを再生する場合を示している。図4で、音響深度値は「0」から「1」の値を有すると仮定する。ユーザにさらに近いところで生じると表現しなければならない音響オブジェクトであるほど、音響深度値の値が大きくなる。
【0098】
音響オブジェクトの音響深度値が「0」であるので、音響オブジェクトに遠近感を付与する作業を遂行しない。ただし、スピーカの外側に音像が正位されることにより、ユーザがステレオ信号を介して、良好に立体感を感じることができる。実施形態によっては、スピーカの外側に音像を正位させる技術を「ワイドニング」という。
【0099】
一般的には、ステレオ信号を再生するためには、複数個のチャネルの音響信号が必要である。従って、モノ信号が入力される場合には、アップミキシングを介して、2以上のチャネルに該当する音響信号を生成する。
【0100】
ステレオ信号は、左側スピーカを介して、第1チャネルの音響信号を再生し、右側スピーカを介して、第2チャネルの音響を再生する。ユーザは、異なる位置で生じる2以上の音響を聴取することにより、立体感を感じることができる。
【0101】
しかし、左側スピーカと右側スピーカとが過度に接して位置すれば、ユーザは、同一の位置で音響が生じると認識することになるので、立体感を感じることができない。その場合、実際スピーカの位置ではないスピーカの外側で音響が生じるように認識されるように音響信号を処理する。
【0102】
図6の(c)は、本発明の一実施形態による音響深度値が「0.3」である音響オブジェクトを再生する場合を示している。
【0103】
音響オブジェクトの音響深度値が0より大きいから、ワイドニング技術と共に、音響オブジェクトに、音響深度値「0.3」に対応する遠近感を付与する。従って、ユーザは、図3の(b)に比べて、音響オブジェクトがユーザにさらに近いところで生じたと感じることができる。
【0104】
例えば、ユーザが三次元映像データを視聴しており、このとき、映像オブジェクトがスクリーン外に飛び出すように表現されたと仮定する。図6の(c)では、映像オブジェクトに対応する音響オブジェクトに遠近感を付与し、音響オブジェクトがユーザ側に近づくように処理する。ユーザは、視覚的に映像オブジェクトが飛び出すことを感じつつ、音響オブジェクトがユーザに近づくように感じることになるので、さらに現実的な立体感を感じることになる。
【0105】
図6の(d)は、本発明の一実施形態による音響深度値が「1」である音響オブジェクトを再生する場合を示している。
【0106】
音響オブジェクトの音響深度値が0より大きいから、ワイドニング技術と共に、音響オブジェクトに、音響深度値「1」に対応する遠近感を付与する。図6の(c)での音響オブジェクトに比べても、図6の(d)での音響オブジェクトの音響深度値が大きいから、ユーザは、図6の(c)に比べて、音響オブジェクトがユーザにもっと近いところで生じたと感じる。
【0107】
図7は、本発明の一実施形態による音響信号に基づいて、音響オブジェクトの位置を検出する方法に係わるフローチャートである。段階S710では、音響信号を構成する複数個の区間それぞれについて、周波数帯域別パワーを計算する。段階S720では、周波数帯域別パワーに基づいて、共通周波数帯域を決定する。
【0108】
複数個の以前区間で、パワー変化が臨界値以下である周波数帯域を、共通周波数帯域として決定することができる。このとき、パワーが小さい周波数帯域は、ノイズのような意味のない音響オブジェクトに該当するので、パワーが小さい周波数帯域は、共通周波数帯域から除外される。例えば、パワーが大きい順に、所定個数の周波数帯域を選定した後、選定された周波数帯域のうち、共通周波数帯域を決定することができる。
【0109】
段階S730では、以前区間での共通周波数帯域のパワーと、現在区間での共通周波数帯域のパワーとを比べて、比較結果に基づいて、音響深度値を決定する。以前区間での共通周波数帯域のパワーに比べて、現在区間での共通周波数帯域のパワーがさらに大きければ、共通周波数帯域に該当する音響オブジェクトが、ユーザにさらに近接した位置で生じたと判断する。
【0110】
図8は、本発明の一実施形態による音響信号から、音響オブジェクトの位置を検出する事例を示している。図8の(a)は、時間軸で複数個の区間に区分された音響信号を示す。図8の(b)ないし図8の(d)は、第1区間ないし第3区間での周波数帯域別パワーを示している。図8の(b)ないし図8の(d)で、第1区間801と第2区間802は、以前区間であり、第3区間803が現在区間である。
【0111】
図8の(b)及び図8の(c)を参照すれば、第1区間801ないし第2区間802で、3,000〜4,000Hz周波数帯域、4,000〜5,000Hz周波数帯域、5,000〜6,000Hz周波数帯域のパワーが類似している。従って、3,000〜4,000HZ周波数帯域、4,000〜5,000HZ周波数帯域、5,000〜6,000HZ周波数帯域が共通周波数帯域として決定される。
【0112】
図8の(c)及び図8の(d)を参照すれば、第2区間802で、3,000〜4,000HZ周波数帯域、4,000〜5,000HZ周波数帯域のパワーと、第3区間803で、3,000〜4,000HZ周波数帯域、4,000〜5,000HZ周波数帯域のパワーは、類似している。従って、3,000〜4,000HZ周波数帯域、4,000〜5,000HZ周波数帯域に該当する音響オブジェクトの音響深度値は、「0」に決定される。
【0113】
しかし、第2区間802で、5,000〜6,000HZ周波数帯域のパワーに比べ、第3区間803で、5,000〜6,000HZ周波数帯域のパワーは、大きく増大した。従って、5,000〜6,000HZ周波数帯域に該当する音響オブジェクトの音響深度値は、「0」以上に決定される。実施形態によっては、音響オブジェクトの音響深度値をさらに精巧に決定するために、映像深度マップを参照することもできる。
【0114】
例えば、第3区間で、5,000〜6,000HZ周波数帯域のパワーが、第2区間802に比べて大きく増大した。場合によっては、5,000〜6,000HZ周波数帯域に対応する音響オブジェクトの生じた位置が、ユーザに近くなるのではなく、同一の位置で、パワーの大きさだけ増大した場合でもある。このとき、映像深度マップを参照し、第3区間803に対応する映像フレームから、スクリーン外に飛び出す映像オブジェクトが存在するとしたら、5,000〜6,000HZ周波数帯域に該当する音響オブジェクトが、映像オブジェクトに対応する確率が高いのである。その場合、音響オブジェクトの生じた位置が、ユーザにだんだんと近づくことが望ましいので、音響オブジェクトの音響深度値を「0」以上に設定する。一方、第3区間803に対応する映像フレームから、スクリーン外に飛び出す映像オブジェクトが存在するのでなければ、音響オブジェクトは、同一の位置で、パワーだけが増大したと見ることができるので、音響オブジェクトの音響深度値を「0」に設定することができる。
【0115】
図9は、本発明の一実施形態による立体音響の再生方法に係わるフローチャートである。段階S910では、映像深度情報を獲得する。映像深度情報は、立体映像信号内の少なくとも1つの映像オブジェクト及び背景と、基準点との間の距離を示している。段階S920では、音響深度情報を獲得する。音響深度情報は、音響信号内の少なくとも1つの音響オブジェクトと、基準点との間の距離を示している。段階S930では、音響深度情報に基づいて、少なくとも1つの音響オブジェクトに音響遠近感を付与する。
【0116】
一方、上述の本発明の実施形態は、コンピュータで実行されるプログラムで作成可能であり、コンピュータで読み取り可能な記録媒体を利用し、前記プログラムを動作させる汎用デジタルコンピュータで具現されもする。
【0117】
前記コンピュータで読み取り可能な記録媒体は、マグネチック記録媒体(例えば、ROM(read-only memory)、フロッピー(登録商標)ディスク、ハードディスクなど)、光学的判読媒体(例えば、CD−ROM、DVD(digital versatile disc))及びキャリアウエーブ(例えば、インターネットを介する送信)のような記録媒体を含む。
【0118】
以上、本発明について、その望ましい実施形態を中心に説明した。本発明が属する技術分野で当業者であるならば、本発明が本発明の本質的な特性から外れない範囲で変形された形態で具現される可能性があることを理解することができるであろう。従って、開示された実施形態は、限定的な観点ではなく、説明的な観点から考慮されなければならない。本発明の範囲は、前述の説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にあるあらゆる差異は、本発明に含まれたものであると解釈されなければならないのである。
図1
図2
図3
図4
図5
図6
図7
図8
図9