(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5720897
(24)【登録日】2015年4月3日
(45)【発行日】2015年5月20日
(54)【発明の名称】下位音声形式を生成する方法及び装置
(51)【国際特許分類】
H04S 5/02 20060101AFI20150430BHJP
【FI】
H04S5/02 H
【請求項の数】3
【全頁数】11
(21)【出願番号】特願2011-535047(P2011-535047)
(86)(22)【出願日】2009年11月7日
(65)【公表番号】特表2012-508489(P2012-508489A)
(43)【公表日】2012年4月5日
(86)【国際出願番号】EP2009007971
(87)【国際公開番号】WO2010054780
(87)【国際公開日】20100520
【審査請求日】2012年8月27日
(31)【優先権主張番号】102008056704.3
(32)【優先日】2008年11月11日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】511109386
【氏名又は名称】インスティテュート フューア ランドファンクテクニック ゲーエムベーハー
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】ストール、ガーハード
(72)【発明者】
【氏名】グロー、ジェンズ
(72)【発明者】
【氏名】リンク、マーティン
(72)【発明者】
【氏名】デイグモラー、ジョーグ
(72)【発明者】
【氏名】ルノウ、バーンフライド
(72)【発明者】
【氏名】ケイル、マーティン
【審査官】
菊池 充
(56)【参考文献】
【文献】
特表2008−509600(JP,A)
【文献】
特開平10−051253(JP,A)
【文献】
特表2008−505368(JP,A)
【文献】
特開2008−226315(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
多チャネル音声形式から下位互換性のある音声形式を生成する方法であって、左チャネル(L)、右チャネル(R)、中央チャネル(C)、後方左チャネル(Ls)、および、後方右チャネル(Rs)という複数の音声チャネルの5チャネル音声形式から右チャネル(R
IRT)および左チャネル(L
IRT)の2チャネル音声形式を生成する方法であって、
前記中央チャネル(C)のレベルを低減し、
レベルを低減させた前記中央チャネル(C)のレベルを前記左チャネル(L)のレベルに分配して、前記左チャネル(L)を生成して、第1の加算結果信号(L`)を生成し、
前記後方左チャネル(Ls)のレベルを低減して、
レベルを低減させた前記後方左チャネル(Ls)のレベルを前記第1の加算結果信号のレベルに分配して、前記2チャネル音声形式の前記左チャネル(L
IRT)に対応する第3の加算結果信号を生成し、
レベルを低減させた前記中央チャネル(C)のレベルを前記右チャネル(R)のレベルに分配して第2の加算結果信号(R
`)を生成し、
前記後方右チャネル(Rs)のレベルを低減し、
レベルを低減させた前記後方右チャネル(Rs)のレベルを前記第2の加算結果信号のレベルに分配して、前記2チャネル音声形式の前記右チャネル(R
IRT)に対応する第4の加算結果信号を生成する方法であって、
前記第1の加算結果信号(L`)および前記第2の加算結果信号(R`)を生成する場合に、重複時間ウィンドウのスペクトル値をそれぞれ、前記左チャネル(L)および前記右チャネル(R)のk個のサンプルで動的に修正し、
前記第3の加算結果信号および前記第4の加算結果信号を生成する場合に、重複時間ウィンドウのスペクトル値をそれぞれ、前記第1の加算結果信号(L`)および前記第2の加算結果信号(R`)のk個のサンプルで動的に修正し、
前記左チャネル(L)および前記右チャネル(R)の前記スペクトル値をそれぞれ動的に修正する前に、
|l(k)|は、
前記左チャネル(L)のスペクトル値の絶対値であり、
|c(k)|は、
前記中央チャネル(C)のスペクトル値の絶対値であり、
|r(k)|は、
前記右チャネル(R)のスペクトル値の絶対値である場合に、
【数9】
で表される所望値(A
soll,l、A
soll,r)と前記スペクトル値のそれぞれの合計とを比較し、
前記第1の加算結果信号(L`)および前記第2の加算結果信号(R`)の前記スペクトル値をそれぞれ動的に修正する前に、
|r
`(k)|は、
前記第
2の加算結果信号(R`)のスペクトル値の絶対値であり、
|l`(k)|は、
前記第1の加算結果信号(L`)のスペクトル値の絶対値であり、
|rs(k)|は、
前記後方右チャネル(Rs)のスペクトル値の絶対値であり、
|ls(k)|は、
前記後方左チャネル(Ls)のスペクトル値の絶対値である場合に、
【数10】
で表される所望値(A
soll,ls、A
soll,rs)と前記スペクトル値のそれぞれの合計とを比較し、
前記所望値(A
soll,l、A
soll,r、Asoll,ls、Asoll,rs)の方が小さい場合には、
【数11】
にしたがって、周波数成分を加算して、加算結果を低減し、
Asoll(k)が、Asoll,l、Asoll,r、Asoll,ls、およびAsoll,rsのk番目の値であり、
前記所望値(A
soll,l、A
soll,r、Asoll,ls、Asoll,rs)の方が大きい場合には、修正すべき信号のスペクトル値を乗数(m(k)、m(k)∈
)で乗算し、
前記乗数(m(k)、m(k)∈
)は、
A(k)が、r`、l`、lおよびrのk番目のスペクトル値であり、A(k)∈
であり、
【数12】
であり、
B(k)が、rs、ls、および、cのk番目のスペクトル値であり、B(k)∈
であり、wは、−1<w<1の範囲内のスケーリング係数であり、w∈
である場合に、
【数13】
で表される
方法。
【請求項2】
nは、0.1よりも大きく、0.4よりも小さい請求項1に記載の方法。
【請求項3】
請求項1または2に記載の方法を実行する手段を備える、下位互換性のある音声形式を生成する装置。
【発明の詳細な説明】
【背景技術】
【0001】
一般的な放送、インターネットおよび家庭向けに今日では、2チャネルのステレオおよびモノラルに加えて5.1チャネルステレオ等の音声形式が定着している。利用可能な音声形式が増えるにつれて、音声生成技術分野の発展努力が増している。特に、複数の音声形式を録音および合成するための取り組みが為されている。また、再生装置は、異なる装置間で必ず互換性が必要であるので、音声チャネルの数に関わらずどの音声形式でも再生可能に構成する必要がある。
【0002】
音声チャネル数が最大である音声形式を送信することが可能性の1つとして挙げられる。必要であれば、受信側で信号を自動的に変換して音声チャネル数を減らした音声形式を生成する(自動ダウンミックス)。
【0003】
音声生成時点において既に全形式で生成して、全形式を同時に放送することも可能である(サイマル放送)。この場合、各音声形式は別々に生成することができる。しかし、このような音声合成は生成時に甚大な労力が必要となる。多くの場合には、人的資源の追加、作業時間の長大化、または、複数の設備(例えば、生中継の場合)が必要となる。このため、生成にかかる労力は、到底受け入れられるものではない。これに代えて、上述した方法のように、自動ダウンミックスが採用され得る。
【0004】
このように音声形式を自動的に変換する方法は既に開発されているが、多岐にわたる素材について満足のいく質を実現するためにはさらなる改善が必要となっている。
【0005】
自動ダウンミックス方法には大きく分けて、アクティブ方式およびパッシブ方式がある。アクティブ方式では素材に応じて自動変換を適用するが、パッシブ方式では信号とは無関係に行なう。公知のパッシブ方式ダウンミックス方法は、放送基準ITU−R BS.775に基づいた方法であり、
図1を参照しつつ説明する。
【0006】
公知のダウンミックス方法は、左チャネル(L)、右チャネル(R)、中央チャネル(C)、後方左チャネル(Ls)、および後方右チャネル(Rs)という複数の音声チャネルを持つ5チャネル音声形式に基づいており、減衰機能50、60、70によって−3dBだけ、中央チャネル(C)、後方左チャネル(Ls)および後方右チャネル(Rs)のレベルを低減するように設計されている。−3dB低減された中央チャネルは、加算機能10または20を介して左チャネルおよび右チャネルに分配され、第1の加算結果信号(加算機能10からの出力)および第2の加算結果信号(加算機能20からの出力)を生成する。−3dB低減されたレベルの後方左信号(Ls)および後方右信号(Rs)は、加算機能30および40を介して、第1の加算結果信号および第2の加算結果信号に分配され、所望されている2チャネル音声形式の左チャネル(L`0)および右チャネル(R`0)を生成する。
【0007】
アクティブ方式の場合、
図1のブロック図に示した加算機能は、加算結果音声信号の特性を確認し、不要な音声を破棄するべく修正される場合もある。このため、コーディング・テクノロジー(Coding Technology)社は、
図1を参照しつつ説明したITUに準拠したダウンミックス方法に基づき、全ての加算結果信号のエネルギー内容を28個の周波数帯域/部分帯域で分析して、5チャネル音声形式のエネルギー内容と比較するダウンミックスアルゴリズムを提案している。このようにすることで、エネルギー内容の増加および低減を特定することができ、部分帯域における振幅を修正することで補償することができる。この場合、コムフィルタ効果による音色の変化を抑制することが出来る。修正は、サフィックス(suffixing)信号によって修正係数が無限になるので、意味のあるレベルまでを限界として進められる。コーディング・テクノロジー(Coding Technology)社のダウンミックスアルゴリズムによれば、結果として得られる2チャネル音声形式の左チャネルと右チャネルとの間でファントム音源をシフトさせることができ、特に、5チャネル形式の素材ではファントム音源が本来どこにあったかに関わらず可能となる。
【0008】
このようなファントム音源のシフトを減らすべく、レキシコン(Lexicon)社は、ダウンミックスに加えてアップミックスも可能であるロジック7(Logic 7)と呼ばれる方法を提案している。多チャネル音声は、モノラル信号およびステレオ信号にダウンミックスすることが可能である。また、例えば、ステレオダウンミックスから最多で8チャネルを復号することが可能である。このため、中央チャネルダウンミックスの一部分は可変係数で制御され、後方右チャネルおよび後方左チャネルの一部分は別の係数を用いる。左チャネルについては、後方左チャネルのうち0.91が後方右チャネルのうち−0.38と共に用いられる。これにしたがって右チャネルの合成も進められる。この方法によれば、後方左チャネルおよび後方右チャネルのレベルは共に、変化しない。面を90度シフトさせると、左チャネルおよび右チャネルから後方左チャネルおよび後方右チャネルを後で分離させることが可能となる。しかし、ロジック7法では、面のシフトによるコムフィルタ効果に起因する音色の変化を抑制することはできない。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、ファントム音源のシフト、コヒーレント信号部分とインコヒーレント信号部分との間のレベルの差の変化、および、音色の変化の大部分を補償することを目的とする。
上記の目的は、請求項1に記載の特徴を持つ方法および請求項2に記載の方法を実行する装置によって実現される。
【課題を解決するための手段】
【0010】
本発明の基本的な考え方は、第1の加算結果信号(L`)および第2の加算結果信号(R`)を生成する際に、重複時間ウィンドウのスペクトル値をそれぞれ、左チャネル(L)および右チャネル(R)の(k)個のサンプルで、動的に修正するというものである。さらに、第3の加算結果信号および第4の加算結果信号を生成する際に、重複時間ウィンドウのスペクトル値をそれぞれ、第1の加算結果信号(L`)および第2の加算結果信号(R`)の(k)個のサンプルで、動的に修正する。
【図面の簡単な説明】
【0011】
図2から
図6に示す実施形態のいずれかに基づき本発明をさらに説明する。図面は以下の通りである。
【0012】
【
図1】公知のパッシブ方式ダウンミックス方法を説明するための図である。
【
図2】本発明に係る方法を実行する装置を示す一般的なブロック図である。
【
図3】目的の機能を実行する分析および修正ブロックを説明するためのフローチャートである。
【
図4】目的の機能を実行する分析および修正ブロックを説明するためのフローチャートである。
【
図5】目的の機能を実行する分析および修正ブロックを説明するためのフローチャートである。
【
図6】目的の機能を実行する分析および修正ブロックを説明するためのフローチャートである。
【発明を実施するための形態】
【0013】
図2に示したブロック図は、
図1に示したブロック図と同様であるが、第1の加算結果信号L`および第2の加算結果信号R`を生成するための加算機能100および200、ならびに、2チャネル音声形式の左信号L
IRTおよび右信号R
IRTを生成する加算機能300および400は、加算以外にも、分析および修正1−4を行なうという大きな違いがある。中央信号C、ならびに、後方右信号Rsおよび後方左信号Lsは、減衰機能50、60、または70によって、
図1のブロック図にしたがってブロック
図2に応じて、例えば−3dB低減される。しかし、特に、5チャネル形式のソース信号の分類または内容に応じて、−3dB以外の値で減衰を行なうとしてもよい。
【0014】
図2の修正ブロック100、200、300、および、400における分析機能については、ブロック100は
図3、ブロック200は
図4、ブロック300は
図5、そして、ブロック400は
図6を参照して説明する。
【0015】
図3に示すブロック100は、例えば、FFT101を用いてスペクトル値に、入力された左信号Lおよび中央信号Cを最初に変換するように構成されている。生成されたスペクトル値l(k)、c(k)は、加算機能102において加算される。これらのスペクトル値の絶対値の和Sl(k)を、所望値A
soll,l(k)よりも大きいか否かを判断する判断ブロック103において評価する。所望値A
soll,l(k)は以下の式で表される。
【数1】
絶対値の和がA
soll,l(k)よりも大きければブロック104に進み、以下の式で表される信号が生成される。
【数2】
式中、nは0.1よりも大きく0.4よりも小さい係数である。絶対値の和が所望値A
soll,l(k)以下であれば、ブロック105に示すように、左チャネルのスペクトル値l(k)に係数m
l(k)を乗算する。係数m
l(k)は、1よりも大きく、上述した係数nと同様にレベルを調整するべく利用される。m
l(k)*l(k)の積は中央チャネルのスペクトル値c(k)と加算される(m
l(k)*l(k)+c)。
【0016】
ブロック100では、判断ブロック103の結果、レベル調整済信号l`(k)が、m
l(k)*l(k)+c(k)またはA
soll,l(k)+(ll(k)+c(k)l−A
soll,l(k))*nとなり、この後に第1の加算結果信号L`を生成するべく逆変換106が実行される。
【0017】
図4に示すブロック200は、例えば、FFT201を用いてスペクトル値に、入力された右信号Rおよび中央信号Cを最初に変換するように構成されている。生成されたスペクトル値r(k)およびc(k)は、加算機能202において加算される。これらのスペクトル値の絶対値の和Sr(k)を続いて、所望値A
soll,r(k)よりも大きいか否かを判断する判断ブロック203において評価する。所望値A
soll,r(k)は以下の式で表される。
【数3】
絶対値の和がA
soll,r(k)よりも大きければブロック204に進み、以下の式で表される信号が生成される。
【数4】
式中、nは0.1よりも大きく0.4よりも小さい係数である。絶対値の和が所望値A
soll,r(k)以下であれば、ブロック205に示すように、右チャネルのスペクトル値r(k)に係数m
r(k)を乗算する。係数m
r(k)は、1よりも大きく、上述した係数nと同様にレベルを調整するべく利用される。m
r(k)*rの積は中央チャネルのスペクトル値c(k)と加算される(m
r(k)*r(k)+c(k))。ブロック200では、判断ブロック203の結果、レベル調整済信号c´(k)が、m
r(k)*r(k)+c(k)またはA
soll,r(k)+(lr(k)+c(k)l−A
soll,r(k))*nとなり、この後に第2の加算結果信号R`を生成するべく逆変換206が実行される。
【0018】
図5に示すブロック300は、例えば、FFT301を用いてスペクトル値に、入力された後方左信号Lsおよび第1の加算結果信号L`を最初に変換するように構成されている。生成されたスペクトル値ls(k)およびl`(k)は、加算機能302において加算される。これらのスペクトル値の絶対値の和Sls(k)を続いて、所望値A
soll,ls(k)よりも大きいか否かを判断する判断ブロック304において評価する。所望値A
soll,ls(k)は以下の式で表される。
【数5】
絶対値の和がA
soll,ls(k)よりも大きければブロック304に進み、以下の式で表される信号が生成される。
【数6】
式中、nは0.1よりも大きく0.4よりも小さい係数である。絶対値の和が所望値A
soll,ls(k)以下であれば、ブロック305に示すように、第1の加算結果信号のスペクトル値l`(k)に係数m
ls(k)を乗算する。係数m
ls(k)は、1よりも大きく、上述した係数nと同様にレベルを調整するべく利用される。m
ls(k)*l`(k)の積は後方左チャネルのスペクトル値ls(k)と加算される(m
ls(k)*l`(k)+ls(k))。ブロック300では、判断ブロック303の結果、レベル調整済信号l`(k)が、m
ls(k)*l`(k)+ls(k)またはA
soll,ls(k)+(ll`(k)+ls(k)l−A
soll,ls(k))*nとなり、この後に第3の加算結果信号つまり左出力信号Lを生成するべく逆変換306が実行される。
【0019】
図6に示すブロック400は、例えば、FFT401を用いてスペクトル値に、入力された後方左チャネルRsおよび第2の加算結果信号R`を最初に変換するように構成されている。生成されたスペクトル値rs(k)およびr`(k)は、加算機能402において加算される。これらのスペクトル値の絶対値の和Srs(k)を続いて、所望値A
soll,rs(k)よりも大きいか否かを判断する判断ブロック403において評価する。所望値A
soll,rs(k)は以下の式で表される。
【数7】
絶対値の和がA
soll,ls(k)よりも大きければ、以下の式で表される信号が生成される。
【数8】
【0020】
式中、nは0.1よりも大きく0.4よりも小さい係数である。絶対値の和が所望値A
soll,rs(k)以下であれば、ブロック405に示すように、第1の加算結果信号のスペクトル値r´(k)に係数m
rs(k)を乗算する。係数m
rs(k)は、1よりも大きく、上述した係数nと同様にレベルを調整するべく利用される。m
rs(k)*r`(k)の積は後方右チャネルのスペクトル値rs(k)と加算される(m
rs(k)*r`(k)+rs(k))。
【0021】
ブロック400では、判断ブロック403の結果、レベル調整済信号が、m
rs(k)*r`(k)+rs(k)またはA
soll,rs(k)+(lr`(k)+rs(k)l−A
soll,rs(k))*nとなり、この後に第4の加算結果信号つまり右出力信号Rを生成するべく逆変換406が実行される。
尚、本発明は、5チャネル音声形式を2チャネル音声形式にダウンミックスすることに限定されるものではないと理解されたい。本発明が提供する手段には、2チャネル音声形式(ステレオ)を1チャネル音声形式(モノラル)にダウンミックスする手段も含まれる。
乗数(m(k)、m(k)∈
)は、
A(k)が、r`、l`、lおよびrのk番目のスペクトル値であり、A(k)∈
であり、
【数14】
であり、
B(k)が、rs、ls、および、cのk番目のスペクトル値であり、B(k)∈
であり、wは、−1<w<1の範囲内のスケーリング係数であり、w∈
である場合に、
【数15】
で表される。