(58)【調査した分野】(Int.Cl.,DB名)
入力される前記第1の信号レベルと前記第2の信号レベルとからなる音響信号は、予め設定される聴覚の臨界帯域幅を用いて前記発話音又は前記効果音に分離されていることを特徴とする請求項4に記載の音響信号変換装置。
【発明を実施するための形態】
【0027】
<本発明について>
本発明は、例えば、3次元音響方式等の多数の音響チャンネル(第1のチャンネル数)を有する多チャンネル音響コンテンツの制作と同時並行して、多チャンネル音響信号コンテンツから2チャンネル音響信号や5.1チャンネルサラウンドコンテンツの音響信号等のチャンネル数(第2のチャンネル数)の音響信号コンテンツに自動的に変換(ダウンミックス)する。また、本発明では、多数の音響チャンネルを有する番組コンテンツとこれに付随して生成されたメタデータを用いて、受信側において、上述したメタデータに基づいて2チャンネル音響信号や5.1チャンネルサラウンド音響信号等、受信側の音響設備等に対応した音響信号に変換(ダウンミックス)する。なお、本発明では、上述した音響信号の変換において、発話音と効果音とのバランス調整を行うための機能を有する。
【0028】
次に、上述したような特徴を有する本発明における音響信号変換装置及び音響信号変換プログラムを好適に実施した形態について、図面等を用いて詳細に説明する。なお、以下の実施形態では、制作側で多チャンネル音響信号と同時並行してダウンミックスにより2チャンネル音響信号を制作する場合、及び、受信側で多チャンネル音響信号からダウンミックスにより2チャンネル音響信号を制作する場合について説明する。なお、本実施形態では、以下に説明する2チャンネル音響信号を他のチャンネル数からなる音響信号(例えば、5.1チャンネルサラウンド音響信号等)に容易に置き換えることができる。
【0029】
<音響信号変換システム:第1の実施形態>
図1は、第1の実施形態における音響信号変換システムの一例を示す図である。
図1に示す音響信号変換システム10は、音響収録再生装置11と、音声入力手段としてのマイク12と、音響ミキシング装置13と、音響信号変換装置14とを有するよう構成されている。音響信号変換装置14は、発話音/効果音バランス測定装置21と、ゲイン調整量算出手段22と、ゲイン調整手段23と、合成手段24とを有している。
【0030】
なお、
図1に示す音響信号変換システム10は、制作側において、多数の音響チャンネルを有する音響コンテンツの制作と同時並行して行われる2チャンネル音響信号の自動ダウンミックス手法の一例を示している。
【0031】
図1に示す音響信号変換システム10において、音響収録再生装置11は、予め収録されているナレーション、スピーチ等の発話音やBGM等の効果音等の音響信号について、それぞれの音の種類等の音響内容を把握するために予め設定された属性データ「発話音/効果音識別」を付加した音響信号を生成する。
【0032】
また、マイク12は、アナウンサー等のナレーション、スピーチ等の発話音や環境音等の効果音を直接入力し、それぞれの入力に対して上述した属性データ「発話音/効果音識別」を付加した音響信号を生成する。つまり、音響収録再生装置11及びマイク12から得られる音源素材は、音響信号の意味内容に関する属性「発話音/効果音識別」が音響信号毎に付加されて出力される。
【0033】
ここで、属性データとしての「発話音/効果音識別」とは、例えば、音響チャンネル信号毎にチャンネルの音響内容が、例えば「発話音」か「効果音」の何れかを示す識別情報である。第1の実施形態の場合、音響収録再生装置11及びマイク12には、通常「発話音」又は「効果音」の何れか1つの音響信号が入力されるため、入力される音響信号に対して予め設定された対応する識別情報を付加することができる。
【0034】
例えば、音響収録再生装置11には「効果音」に相当する音響信号が入力され、マイク12には「発話音」に相当する音響信号が入力される場合、それぞれ対応する識別情報の属性データを付加することになる。なお、本実施形態においては、これに限定されるものではなく、例えば音響収録再生装置11に「発話音」の音響信号が入力されてもよく、マイク12に「効果音」の音響信号が入力されてもよい。また、本実施形態では、音響収録再生装置11及びマイク12がそれぞれ1又は複数有しているため、それぞれの入力に対してその音響信号に対応する1つの識別情報を付加して音響ミキシング装置13に出力される。
【0035】
音響ミキシング装置13は、1又は複数の音響収録再生装置11又はマイク12から1又は複数の音響信号(音源素材)を入力し、入力した音響信号を用いて3次元音響方式等の多数の音響チャンネルを有する音響コンテンツを生成するために音響調整者が予め設定する条件等によりミキシングを行い、目的とする多数の音響チャンネル(例えば、22.2チャンネル等)に対応した音響コンテンツを生成する。また、音響ミキシング装置13は、生成された多チャンネル音響信号コンテンツ31を出力する。
【0036】
なお、
図1の例では、音響ミキシング装置13が制作する多チャンネル音響信号コンテンツ31は、例えば番組のジャンル等によって設定される番組制作者の意図に沿った発話音/効果音のバランスを音響調整者が調整することで最適な音響信号が制作される。
【0037】
また、音響ミキシング装置13は、制作した多チャンネル音響信号コンテンツ31に対して、上述した属性データ「発話音/効果音識別」を用いて、発話音及び効果音毎に分別し、発話音及び効果音毎に対して予め設定された変換式等を用いて、2チャンネル音響信号にダウンミックス(音響信号変換)を行い、発話音ダウンミックス信号32及び効果音ダウンミックス信号33を出力する。
【0038】
また、上述した変換式としては、例えば、上述した非特許文献1に示すような規定された変換式を用いることができるが、本発明においてはこの変換式に限定されるものではなく、例えば受信側での音響設備の環境(空間や音声を出力するスピーカの性能等)、音響を聞く人(ユーザ)か難聴者であるか高齢者であるか等に応じて他の変換式を用いることができる。なお、変換式を用いたダウンミックスの具体例については後述する。
【0039】
上述したように音響ミキシング装置13は、番組制作者の意図及び訓練された音響調整者の操作するミキシング情報に基づいて、番組制作者の意図に沿った最適な発話音/効果音のバランスで制作された多チャンネル音響の音響コンテンツ31を出力すると共に、上述した2チャンネル音響の2種類のダウンミックス信号(発話音ダウンミックス信号32及び効果音ダウンミックス信号33)を出力する。
【0040】
音響信号変換装置14において、発話音/効果音バランス測定装置21は、発話音ダウンミックス信号32及び効果音ダウンミックス信号33を入力して、例えば上述した特許文献1や特許文献2に示されるミキシングバランス表示装置や表示システムに入力し、発話音/効果音のバランスを測定する。
【0041】
具体的には、特許文献1に示すように、第1及び第2の音信号(発話音ダウンミックス信号32及び効果音ダウンミックス信号33)のレベルを所定時間間隔のフレーム毎に検出し、第1の音信号と第2の音信号とのレベル差を算出し、レベル差に対して第1の音信号のレベルに応じた重み付けを行って重み付きレベル差を算出し、現フレームから過去のn個のフレームまでの間において重み付きレベル差の値の大きいものから順にm個の値の平均値を算出し、現フレームから過去の所定数のフレームまでの間における第1の音信号のレベル平均値を算出し、それぞれの算出結果により第1の音信号と第2の音信号とのミキシングバランスの状態を示す表示値を決定する。
【0042】
また、特許文献2に示すように、第1及び第2の音信号(発話音ダウンミックス信号32及び効果音ダウンミックス信号33)のエネルギレベルを周波数バンド毎に算出し、第1の音信号のエネルギレベルと第2の音信号のエネルギレベルとの差に基づいて感音性難聴者の聴覚マスキング特性を模擬するためのマスキング補正量を周波数バンド毎に算出し、第1の音信号のエネルギレベルと第2の音信号のエネルギレベルとの和に基づいて感音性難聴者のリクルートメント現象を模擬するためのリクルートメント補正量を周波数バンド毎に算出し、マスキング補正量及びリクルートメント補正量に基づいて第1及び第2の音信号にそれぞれ対応する感音性難聴者の聴覚特性を模擬した第1及び第2の聴覚特性模擬信号を算出する。
【0043】
また、発話音/効果音バランス測定装置21は、発話音/効果音のそれぞれのバランス測定結果(信号レベル等)をゲイン調整量算出手段22に出力する。
【0044】
ゲイン調整量算出手段22は、発話音/効果音バランス測定装置21から得られる発話音/効果音のバランスの測定結果に基づき、発話音ダウンミックス信号32のレベルに対するゲイン調整量を算出する。なお、本発明においてはこれに限定されるものではなく、ゲイン調整量算出手段22は、例えば発話音/効果音のバランスの測定結果に基づき、効果音ダウンミックス信号33のレベルに対するゲイン調整量を算出してもよい。更には、発話音/効果音のバランスの測定結果に基づき、発話音ダウンミックス信号32及び効果音ダウンミックス信号33の両方の信号レベルに対してゲイン調整量を算出してもよい。なお、本実施形態におけるゲイン調整量の算出手法については後述する。ゲイン調整量算出手段22は、得られたゲイン調整量をゲイン調整手段23に出力する。
【0045】
ゲイン調整手段23は、ゲイン調整量算出手段22により得られるゲイン調整量に基づいて、発話音ダウンミックス信号32に対してゲイン調整を行う。なお、本発明においてはこれに限定されるものではなく、ゲイン調整手段23は、例えばゲイン調整量算出手段22により効果音ダウンミックス信号33のレベルに対するゲイン調整量を算出しているのであれば、効果音ダウンミックス信号33に対してゲイン調整を行う。更に、ゲイン調整手段23は、ゲイン調整量算出手段22により発話音ダウンミックス信号32及び効果音ダウンミックス信号33の両方の信号レベルに対してゲイン調整量を算出しているのであれば、発話音ダウンミックス信号32及び効果音ダウンミックス信号33に対してゲイン調整を行う。
【0046】
更に、ゲイン調整手段23は、発話音ダウンミックス信号32のゲイン調整による時間的な連続性を保つため、例えば番組内又はある一定時間内においてゲイン調整値の急激な変動を起こさないようにする。具体的には、ゲイン調整手段23は、ゲイン調整量に応じた調整時間を設定し、例えばゲイン調整量の増加幅又は減少量が大きい場合には、その大きさに応じて調整時間を長く設定し、時間をかけて急激な変動がないように調整する。
【0047】
合成手段24は、ゲイン調整手段23によりゲイン調整された発話音ダウンミックス信号32と、効果音ダウンミックス信号33とを合成することで、番組制作者の意図に沿った発話音/効果音のバランスを有する2チャンネル音響信号コンテンツ34を出力する。なお、合成手段24において合成される発話音ダウンミックス信号32及び効果音ダウンミックス信号33は、一方又は両方がゲイン調整されていてもよい。
【0048】
ここで、
図1に示す実施形態においては、発話音ダウンミックス信号32のゲイン調整を行う場合に、その調整量が大きいと合成手段24による合成を行ったダウンミックス音響のレベルが上昇又は下降してしまう場合がある。したがって、本実施形態における合成手段24は、ゲイン調整手段23によりゲイン調整された音響信号(発話音ダウンミックス信号32)の変化量に応じて、例えば合成後のトータル音量がほぼ一定に保たれるように、発話音ダウンミックス信号32と効果音ダウンミックス信号33の合成前又は合成後に音量の調整を行う。例えば、合成手段24は、発話音ダウンミックス信号32のゲイン調整により信号レベルを上昇させた場合には、合成前の効果音ダウンミックス信号33の信号レベルを上昇の割合に対応させて下降させてもよく、また合成後の2チャンネル音響信号の信号レベルをトータル音量がほぼ一定になるように下降させてよい。
【0049】
上述した第1の実施形態によれば、多チャンネル音響の音響コンテンツ制作のための音源素材(又は多チャンネル音響の音響コンテンツ)からダウンミックスにより自動制作することができる。また、第1の実施形態によれば、制作側で多チャンネル音響信号と同時並行してダウンミックスにより2チャンネル音響信号を制作することができる。
【0050】
したがって、第1の実施形態にて得られる多チャンネル音響信号コンテンツ31と2チャンネル音響信号コンテンツ34とをそれぞれ異なる用途で使用することができ、また多チャンネル音響信号コンテンツ31と2チャンネル音響信号コンテンツ34を同時に伝送してサイマルキャスト方式として音響信号コンテンツをユーザに提供することができる。
【0051】
上述した第1の実施形態によれば、制作側における自動ダウンミックスにおいて、3次元音響方式等の多数の音響チャンネルを有する音響コンテンツの制作と同時並行して、適切な発話音/効果音のバランスが保たれた2チャンネル音響や5.1チャンネルサラウンド音響等の音響コンテンツを自動的にダウンミックス制作することができる。また、規定のダウンミックスの計算式及び音響信号の意味内容に関する発話音/効果音識別信号に則って、発話音のダウンミックス信号及び効果音のダウンミックス信号を生成し、また、発話音信号及び効果音信号から発話音/効果音のバランスを測定し、発話音/効果音のバランス測定結果に基づき、発話音信号のレベルをゲイン調整し、ゲイン調整した発話音信号と効果音信号を合成して、適切な発話音/効果音のバランスが保たれたダウンミックス信号を制作することができる。
【0052】
<変換式を用いたダウンミックスの具体例>
ここで、上述した変換式を用いたダウンミックスの具体例について図を用いて説明する。なお、以下の説明では、多チャンネル音響の一例として、22.2チャンネル音響を用いこととするが、本発明においてはこれに限定されるものではない。
【0053】
図2は、22.2チャンネル時における音響スピーカ(サウンドシステム)の配置例を示す図である。また、
図3は、22.2チャンネルの音響信号からダウンミックスする際の計算式の一例を示す図である。
【0054】
なお、
図3(a)は、22.2チャンネルから2チャンネルへのダウンミックス式とベース音響チャンネルの例を示し、
図3(b)は、22.2チャンネルから5.1chへのダウンミックス式とベース音響チャンネルの例を示している。
【0055】
例えば、22.2チャンネルでは、
図2に示すように、テレビスクリーン(TV Screen)に対する立体空間上のスピーカの配置において、トップ層に9チャンネル(TpFL,TpFC,TpFR,TpSiL,TpC,TpSiR,TpBL,TpBC,TpBR)、ミドル層に10チャンネル(FL,FLc,FC,FRc,FR,SiR,BR,BC,BL,SiL)、ボトム層に3チャンネル(BtFL,BtFC,BtFR)、LFE(Low Frequency Effect;低域効果音)に2チャンネル(LFE1,LFE2)を有している。
【0056】
この場合、22.2チャンネルから2チャンネルにダウンミックスする場合には、例えば
図3(a)に示す(1),(2)式を用いることにより、ベース音響チャンネルである2チャンネル(L,R)の音響信号を算出することができる。
【0057】
なお、本実施形態によれば、同様に他のチャンネルにもダウンミックスすることができ、例えば22.2チャンネルから5.1チャンネルにダウンミックスする場合には、
図3(b)に示す(3)〜(7)式を用いて計算することにより、ベース音響チャンネルである5.1チャンネル(L,R,C,LS,RS,LFE)の音響信号を算出することができる。
【0058】
なお、
図3に示すようなダウンミックス式は、例えば上述した非特許文献1等に示されている。
【0059】
<本実施形態に適用可能なチャンネル数の例>
ここで、上述した本実施形態における音響信号変換(ダウンミックス)を行うために入力可能な音響信号については、上述した22.2チャンネルに限定されるものではなく、例えば12.2チャンネル、10.2チャンネル、9.1チャンネル、8.1チャンネル、7.1チャンネル、6.1チャンネル等を用いることができる。
【0060】
また、ダウンミックスされるチャンネル数としては、例えば一般家庭において実現可能な音響設備のチャンネル数に対応していることが好ましく、例えば上述した2チャンネルや5.1チャンネル、更には1チャンネルや3チャンネル、5チャンネル(LFEなし)等でも適用することができる。
【0061】
<ゲイン調整量の算出例>
次に、ゲイン調整量算出手段22におけるゲイン調整量算出例について図を用いて説明する。
図4は、本実施形態におけるゲイン調整量算出例を説明するための図である。なお、
図4では、発話音信号(発話音ダウンミックス信号32)レベルのゲイン調整値関数の例を示している。
【0062】
図4に示すように、横軸を重み付き相対レベル差(「効果音」−「発話音」)とし、縦軸をゲイン調整量(dB)とした場合、例えば、重み付き相対レベル差が「−6」から「0」に増加するに従い、ゲイン調整量(dB)を「0」から「6」に線形に増加させるようにゲイン調整を行っている。上述したように、予め設定されるゲイン調整値関数を用いることにより、発話音/効果音のバランスの測定結果に基づいて、対応する調整量を容易に算出することができる。
【0063】
なお、
図4に示す例では、発話音信号レベルのゲイン調整値関数の例を示しているが、本発明においてはこれに限定されるものではなく、例えば効果音信号(効果音ダウンミックス信号33)レベルのゲイン調整値関数を設定しておき、効果音信号レベルを調整してもよく、上述した関数を用いて発話音信号レベル及び効果音信号レベルの両方の調整を行ってもよい。
【0064】
また、
図4に示す関数は、発話音信号レベル及び効果音信号レベル毎に別の関数を設定し、またダウンミックスされるチャンネル数に応じて別の関数を設定しておくことで、音の種類やチャンネル数に応じて最適なレベル調整を実現することができる。
【0065】
なお、本実施形態において、発話音信号のゲイン調整に伴うダウンミックス音のレベル上昇は、トータルの音量が保たれるように、例えば発話音信号と効果音信号の合成後(ダウンミックス後)又は合成前に調整する。また、発話音信号のゲイン調整による時間的な連続性を保つため、番組内又はある一定時間内でゲイン調整値の急激な変動を起こさないようにする。
【0066】
<音響信号変換システム:第2の実施形態>
次に、音響信号変換システムの第2の実施形態について図を用いて説明する。
図5は、第2の実施形態における音響信号変換システム(送信側)の一例を示す図である。また、
図6は、第2の実施形態における音響信号変換システム(受信側)の一例を示す図である。つまり、第2の実施形態における音響信号変換システム40は、
図5に示す送信側の音響信号変換システム40−1と、
図6に示す受信側の音響信号変換システム40−2とに大別される。
【0067】
第2の実施形態では、音響信号変換装置で多チャンネル音響信号からダウンミックスにより2チャンネル音響信号を生成してユーザに提供するため、送信側の音響信号制作装置においてミキシングメタデータの生成を行い、受信側の音響信号変換装置において、音響信号制作装置から伝送されたミキシングメタデータを受信し、そのミキシングメタデータを用いた2チャンネル音響ダウンミックス信号を生成する例を示している。
【0068】
なお、以下の説明において、上述した
図1に示す第1の実施形態における同様の機能構成については、同一の符号を付するものとし、ここでの具体的な説明は省略する。
【0069】
<音響信号変換システムの送信側の構成について>
図5に示す音響信号変換システム40−1は、音響収録再生装置11と、音声入力手段としてのマイク12と、音響ミキシング装置43と、音響信号制作装置44とを有するよう構成されている。音響信号制作装置44は、発話音/効果音バランス測定装置21と、ゲイン調整量算出手段22と、ミキシングメタデータ多重手段45とを有している。
【0070】
図5に示す送信側の音響信号変換システム40−1では、上述した第1の実施形態で示すように、1又は複数の音響収録再生装置11及びマイク12により出力される1又は複数の音響信号(音源素材)を音響ミキシング装置43で入力する。なお、多チャンネル音響の音響コンテンツ制作のための音源素材には、上述したように音響信号の意味内容に関する属性データである「発話音/効果音識別」が入力される音響信号毎に事前に付加されている。
【0071】
音響ミキシング装置43は、番組制作者の意図に沿った最適な発話音/効果音のバランスの多チャンネル音響の音響コンテンツを作成する。つまり、制作時においては、番組制作者の意図等に応じて訓練された音響調整者が操作するミキシング情報に基づいて、番組制作者の意図等に沿った最適な発話音/効果音のバランスで制作された多チャンネル音響の音響コンテンツが制作される。
【0072】
また、音響ミキシング装置43は、上述した第1の実施形態と同様に多チャンネル音響信号コンテンツ31、発話音ダウンミックス信号32、及び効果音ダウンミックス信号33を出力し、更に発話音/効果音識別メタデータ51を出力する。つまり、第2の実施形態では、音響ミキシング装置43にて制作される多チャンネル音響信号には、音響調整者が操作したミキシング情報に基づいてチャンネル音響信号毎に発話音/効果音識別メタデータ51が生成される。
【0073】
具体的に説明すると、発話音ゲインメタデータ及びチャンネル音響信号毎に付随される発話音/効果音識別メタデータ51は、まず、事前に付加されている属性データの「発話音/効果音識別」と音響調整者が操作したミキシング情報とに基づいて、設定される各音響チャンネル信号毎の発話音/効果音識別メタデータ51を生成する。なお、そのチャンネル信号の音響内容が「発話音」と「効果音」の両方を含む場合には、周波数帯域を例えば聴覚の臨界帯域幅を有する複数の周波数帯域に分割し、分割した周波数帯域の信号毎に「発話音/効果音識別」を付加することもできる。「発話音/効果音識別」の付加例については後述する。
【0074】
次に、音響ミキシング装置43は、事前に付加されている属性データ「発話音/効果音識別」に従い発話音の2チャンネル音響ダウンミックス及び効果音の2チャンネル音響ダウンミックスの2種類のダウンミックス信号を、音響調整者の操作するミキシング情報及び
図3(a),(b)に示すような規定のダウンミックスの計算式に則って生成する。
【0075】
音響信号制作装置44の発話音/効果音バランス測定装置21は、入力された発話音ダウンミックス信号32と、効果音ダウンミックス信号33とに基づいて、バランス測定を行う。なお、第2の本実施形態では、発話音信号及び効果音信号を、例えば特許文献1や特許文献2に示されるミキシングバランス表示装置等に入力し、発話音/効果音のバランスを測定する。
【0076】
また、ゲイン調整量算出手段22は、入力される発話音/効果音のバランス測定結果に基づき、上述したように、例えば発話音信号のレベルをゲイン調整するための、2チャンネル音響ダウンミックス信号用の発話音ゲインメタデータからなるゲイン調整量52を算出する。
【0077】
ここで、「発話ゲインメタデータ」とは、例えば、上述する
図4と同様に発話音/効果音のバランス測定結果に基づいた発話音信号レベルのゲイン調整値の関数の出力値で構成される。
【0078】
なお、第2の実施形態でも上述した第1の実施形態と同様に、効果音ダウンミックス信号33の信号レベルについてのゲイン調整量52を算出したり、発話音ダウンミックス信号32及び効果音ダウンミックス信号33の信号レベルについてのゲイン調整量52を算出してもよい。
【0079】
したがって、第2の実施形態では、ゲイン調整量算出手段22から、例えば全音響チャンネルに1つ付随される発話音ゲインメタデータとしてのゲイン調整量52が生成されて出力される。
【0080】
また、第2の実施形態におけるゲイン調整値は、例えば受信側で、難聴者や高齢者、ユーザ毎の音の好み等、各ユーザの条件等に応じてレベルを変更できるように、複数のゲイン調整値を含めてもよい。このように複数のゲイン調整値を含めることにより、受信側でユーザ等が自分に合った音響を選択することができる。
【0081】
ミキシングメタデータ多重手段45は、多チャンネル音響信号コンテンツ31に、ミキシングメタデータとして、チャンネル音響信号毎の発話音/効果音識別メタデータ51、及び全音響チャンネルに1つのゲイン調整量52等を用いて多重化し、多重化したミキシング信号が音響信号変換装置60側に送信する。
【0082】
なお、ミキシングメタデータ多重手段45により多チャンネル音響信号コンテンツ31に、発話音/効果音識別メタデータ51及びゲイン調整量52を多重されるタイミングは、例えば予め設定された時間間隔毎であることが好ましい。これにより、例えば、受信側で番組の途中で他の番組に切り替えた場合でも、迅速に調整された最適な音響をユーザに提供することができる。なお、本発明においてはこれに限定されるものではなく、例えば提供される複数の番組(音響コンテンツ)の切り替わり毎であってもよく、受信側からの音響調整要求があったときでもよい。
【0083】
<音響信号変換システムの受信側の構成について>
次に、
図6を用いて音響信号変換システム40−1の音響信号制作装置44から送信されたミキシング信号を受信し、受信した信号をスピーカ等の音響出力手段等を用いて出力する受信側の音響信号変換システム40−2である音響信号変換装置60の機能構成について図を用いて説明する。
【0084】
図6に示す音響信号変換装置60は、ミキシングメタデータ分離手段61と、チャンネル分離手段62と、ゲイン調整手段63と、合成手段64とを有するよう構成されている。なお、
図6に示す音響信号変換装置60は、2チャンネル音響信号71を出力する。なお、本発明においてはこれに限定されるものではなく、例えば上述した5.1チャンネル音響信号を出力してもよい。
【0085】
音響信号変換装置60は、音響信号変換システム40から送信されたミキシング信号を受信すると、ミキシングメタデータ分離手段61は、ミキシングメタデータを分離し、上述したゲイン調整量52、発話音/効果音識別メタデータ51、及び多チャンネル音響信号コンテンツ31を取得する。
【0086】
また、チャンネル分離手段62は、多チャンネル音響信号コンテンツ31を入力し、発話音/効果音識別メタデータ51を用いて発話音ダウンミックス信号32と効果音ダウンミックス信号33とに分離して出力する。
【0087】
ここで、ゲイン調整手段63は、発話音ダウンミックス信号32を入力し、ゲイン調整量52に基づいて信号レベルの調整を行う。なお、本実施形態においては、信号レベルの調整だけではなく、上述したように発話音ダウンミックス信号32及び効果音ダウンミックス信号33の信号レベルを調整してもよい。また、スピーチレベルと効果音レベルの両方を調整してもよい。
【0088】
また、ゲイン調整手段63は、入力されるゲイン調整量52に複数の調整値が含まれている場合には、ユーザが何れかの調整値を設定することで、難聴者や高齢者、ユーザ毎の音の好み等に対して、自分に適した音響にゲイン調整することができる。
【0089】
また、合成手段64は、ゲイン調整手段63から得られる発話音ダウンミックス信号32と、効果音ダウンミックス信号33とを合成し、2チャンネル音響信号71を出力する。
【0090】
上述したように、第2の実施形態では、まず制作側で、3次元音響方式等の多数の音響チャンネルを有する音響コンテンツの制作に並行して、「発話音/効果音のバランス」の劣化を改善するために必要なミキシングメタデータを、音響信号の意味内容に関する属性「発話音/効果音識別」データ、及び各音響チャンネルのミキシングレベル情報及び発話音/効果音のバランス測定結果に基づいて自動的に生成し、次に、多数の音響チャンネルを有する番組コンテンツとこれに付随するミキシングメタデータを伝送する。これに対し受信側では、番組コンテンツの音響信号とこれに付随したミキシングメタデータに基づいて2チャンネル音響信号にダウンミックスすることにより、最適な発話音/効果音のバランスの音響信号を聞くことができる。
【0091】
つまり、受信側では、多チャンネル音響信号とこれに付随したミキシングメタデータを受信し、このミキシングメタデータに基づいて2チャンネル音響信号にダウンミックスするが、このミキシングメタデータを利用した2チャンネル音響ダウンミックスは、番組制作者の意図に沿った「発話音/効果音のバランス」が実現され、「発話音/効果音のバランス」の劣化が改善される。
【0092】
<「発話音/効果音識別」の付加例>
次に、上述した属性データとしての「発話音/効果音識別」の付加例について具体的に説明する。
【0093】
本実施形態では、送信される多チャンネル音響信号の各音響チャンネルは、「発話音」又は「効果音」の内容のみを含む場合と、「発話音」と「効果音」の両者を含む場合がある。ここで、全周波数帯域にわたり「発話音」又は「効果音」の内容のみを含む場合は、当該チャンネルに1度だけ音響内容が「発話音」又は「効果音」の何れかを示す「発話音/効果音識別」を音響信号に付加して送付する。
【0094】
一方、「発話音」と「効果音」の両者を含む場合は、例えば、周波数帯域を予め設定される聴覚の臨界帯域幅を有する複数の周波数帯域に分割し、分割した各周波数帯域に対応させて「発話音」又は「効果音」の何れかを示す「発話音/効果音識別」を音響信号に付加して送付する。したがって、「発話音/効果音識別」において、「発話音」識別が付けられた周波数帯域信号は発話音成分とし、「効果音」識別が付けられた周波数帯域信号は効果音成分とみなす。これにより、当該チャンネルの音響信号を発話音信号と効果音信号の両者のうち何れかに分離することができる。なお、どの周波数帯域を「発話音」とし、どの周波数帯域を「効果音」とするかについては、番組制作者の意図や音響信号の内容等に応じて予め設定しておくものとする。
【0095】
上述した聴覚の臨界帯域幅とは、例えば「E.ヴィッカー/原著者、山田由紀子/訳者、心理音響学、原書名:PSYCHOAKUSTIK、P.74」等の文献に記載されている臨界周波数表等を用いることができる。
【0096】
図7は、臨界帯域番号と周波数との関係の一例を示す図である。なお、
図7では、臨界帯域番号と周波数の関係の他にも臨界帯域幅△fgとその中止周波数fmの関係も示している。なお、中心周波数fmに属する臨界帯域番号zも同様に掲げてある。臨界帯域幅に属する互いに隣接した臨界帯域の境界周波数fuとf0は、2列目に示された値に相当する。
【0097】
図7に示すように、帯域番号zと周波数fとの関係は、聴覚の働きを理解するのに非常に重要である。そのため、この臨界帯域幅を用いて高精度にチャンネルの音響信号を発話音信号と効果音信号の何れかに分離することができる。
【0098】
ここで、上述した第1及び第2の実施形態は、本発明においてはこれに限定されるものではなく、例えば第1及び第2の実施形態を組み合わせた実施形態でもよい。
【0099】
<音響信号変換プログラム>
なお、上述した実施形態は、上述した音響信号変換システムにおける専用の装置構成により、本発明における上述した音響信号変換手順を行うこともできるが、上述した音響信号変換手順に関する各処理をコンピュータに実行させることができる実行プログラム(音響信号変換プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に音響信号変換プログラムをインストールすることにより本発明における音響信号変換が実現可能となる。
【0100】
つまり、上述した音響信号変換システム10や音響信号変換装置14,44は、CPU、RAM(Random Access Memory)等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェースを備えたコンピュータによって構成することができる。
【0101】
したがって、音響信号変換システムや音響信号変換装置14,44が有する各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
【0102】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(音響信号変換プログラム)を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、コンピュータを、上述した音響信号変換システムや音響信号変換装置として機能させることができる。
【0103】
ここで、上述した第1及び第2の実施形態に対応させた音響信号変換プログラムによる音響信号変換処理を流れについてフローチャート又はシーケンス図を用いて説明する。
【0104】
<音響信号変換処理手順:第1の実施形態>
図8は、第1の実施形態における音響信号変換処理手順の一例を示すフローチャートである。
図8において、まず1又は複数の音響信号(「発話音/効果音識別」等の属性データ付き)を取得し(S01)、得られた音響信号等から多チャンネル音響信号コンテンツを制作する(S02)。このとき、多チャンネル音響信号コンテンツは、音響調整者等により最適な音響に調整されている。
【0105】
次に、多チャンネル音響信号コンテンツの制作と並行して、上述したように変換式等により発話音ダウンミックス信号と効果音ダウンミックス信号を生成し(S03)、生成した発話音ダウンミックス信号と効果音ダウンミックス信号に基づいて、バランス測定を行う(S04)。また、S04の処理により得られたバランス測定結果から2チャンネル音響等のダウンミックスされた音響信号に対応するゲイン調整量を算出し(S05)、算出されたゲイン調整量に基づいてゲイン調整を行う(S06)。
【0106】
次に、S06の処理によりゲイン調整された発話音ダウンミックス信号と効果音ダウンミックス信号の合成を行い(S07)、合成された2チャンネル音響信号コンテンツを出力する(S08)。
【0107】
<音響信号変換処理手順:第2の実施形態>
図9は、第2の実施形態における音響信号変換処理手順の一例を示すシーケンス図である。
図9において、まず送信側の音響信号制作装置44において、1又は複数の音響信号(「発話音/効果音識別」等の属性データ付き)を取得し(S11)、得られた音響信号等から多チャンネル音響信号コンテンツを制作する(S12)。このとき、多チャンネル音響信号コンテンツは、音響調整者等により最適な音響に調整されている。また、発話音/効果音の識別メタデータを生成する(S13)。
【0108】
次に、多チャンネル音響信号コンテンツの制作と並行して、上述したように変換式等により発話音ダウンミックス信号と効果音ダウンミックス信号を生成し(S14)、生成した発話音ダウンミックス信号と効果音ダウンミックス信号に基づいて、バランス測定を行う(S15)。また、S15の処理により得られたバランス測定結果から2チャンネル音響等のダウンミックスされた音響信号に対応するゲイン調整量を算出し(S16)、算出されたゲイン調整量と、多チャンネル音響信号コンテンツと、発話音/効果音識別メタデータとを多重化し(S17)、多重化したミキシング信号を受信側に送信する(S18)。
【0109】
次に、受信側の音響信号変換装置60において、音響信号制作装置44から送信されたミキシング信号について、ミキシングメタデータの分離処理を行い(S19)、ゲイン調整量と、多チャンネル音響信号コンテンツと、発話音/効果音識別メタデータとを分離する。次に、分離された多チャンネル音響信号コンテンツと、発話音/効果音識別メタデータに基づいてチャンネル分離処理を行い(S20)、発話音ダウンミックス信号と効果音ダウンミックス信号を取得し、得られた発話音ダウンミックス信号に対して、更にS19の処理で得られたゲイン調整量による調整を行う(S21)。次に、S21の処理によりゲイン調整された発話音ダウンミックス信号と効果音ダウンミックス信号の合成を行い(S22)、合成された2チャンネル音響信号コンテンツを出力する(S23)。
【0110】
上述したように、実行プログラムをコンピュータにインストールすることにより、容易に上述した音響信号変換処理を実現することができる。
【0111】
上述したように本発明によれば、多チャンネル音響信号をダウンミックスする場合に、発話音と効果音とのバランスを劣化させずに最適な音響に変換することができる。具体的には、従来のダウンミックスを行うと、「発話音/効果音のバランス」が劣化し、例えばBGM音によりナレーション音が聞きづらくなる等、番組制作者の意図に沿った「発話音/効果音のバランス」とはならない場合があったが、本発明を適用することにより、3次元音響方式等の多数の音響チャンネルを有する番組コンテンツの制作と同時並行して、適切な「発話音/効果音のバランス」が保たれた2チャンネル音響信号や5.1チャンネルサラウンド音響信号等を自動的にダウンミックス制作することが可能となる。
【0112】
また、音響信号変換装置においては、本発明を適用することにより、3次元音響方式等の多数の音響チャンネルを有する番組コンテンツの音響信号とこれに付随した当該ミキシングメタデータを受信し、2チャンネル音響信号や5.1チャンネルサラウンド音響信号等にダウンミックスする場合、規定のダウンミックスで発生する「発話音/効果音のバランス」の劣化を改善することが可能となる。
【0113】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。