(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-30
(45)【発行日】2024-05-10
(54)【発明の名称】音信号処理装置及び音信号処理方法
(51)【国際特許分類】
H04S 1/00 20060101AFI20240501BHJP
【FI】
H04S1/00 200
(21)【出願番号】P 2020134704
(22)【出願日】2020-08-07
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】514315159
【氏名又は名称】株式会社ソシオネクスト
(74)【代理人】
【識別番号】100189430
【氏名又は名称】吉川 修一
(74)【代理人】
【識別番号】100190805
【氏名又は名称】傍島 正朗
(72)【発明者】
【氏名】小林 開
(72)【発明者】
【氏名】藤田 剛史
(72)【発明者】
【氏名】宮阪 修二
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2009-065436(JP,A)
【文献】特開2005-333429(JP,A)
【文献】特開平04-035499(JP,A)
【文献】米国特許出願公開第2006/0147056(US,A1)
【文献】特開平07-222298(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
H04R 3/00-3/14
(57)【特許請求の範囲】
【請求項1】
第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去部と、
前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド処理部と、
前記除去部の前段もしくは前記除去部と前記サラウンド処理部との間に接続される、又は、前記除去部もしくは前記サラウンド処理部の一部として構成される、入力された信号を第2の係数に基づく増幅率で増幅する増幅部と、
前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成部と、
前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成部と、
前記第1の係数及び前記第2の係数を設定する設定部とを備え、
前記設定部は、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する
音信号処理装置。
【請求項2】
前記設定部は、前記第1の合成部及び前記第2の合成部により合成された信号に基づく音声の明瞭度合いを示すボーカル明瞭度に応じて、前記第1の係数及び前記第2の係数を設定する
請求項1に記載の音信号処理装置。
【請求項3】
前記除去部は、ハイパスフィルタを有し、
前記設定部は、前記明瞭度合いが高いほど、前記ハイパスフィルタのカットオフ周波数が高くなるように前記第1の係数を設定し、かつ、前記増幅率が高くなるように前記第2の係数を設定する
請求項2に記載の音信号処理装置。
【請求項4】
前記除去部は、ハイパスフィルタを有し、
前記ボーカル明瞭度は、前記ハイパスフィルタのカットオフ周波数を横軸、前記増幅部の前記増幅率を縦軸としたときに単調増加のグラフで表され、
前記設定部は、前記ボーカル明瞭度と、前記単調増加のグラフとに基づいて、前記第1の係数及び第2の係数を設定する
請求項2に記載の音信号処理装置。
【請求項5】
前記単調増加のグラフは、対数のグラフである
請求項4に記載の音信号処理装置。
【請求項6】
前記単調増加のグラフは、直線のグラフである
請求項4に記載の音信号処理装置。
【請求項7】
前記ボーカル明瞭度をユーザから受け付けるためのユーザインタフェースをさらに備える
請求項2~6のいずれか1項に記載の音信号処理装置。
【請求項8】
前記設定部は、さらに、前記サラウンド効果の付加に対するユーザの好みを示すサラウンド感に応じて、前記第2の係数を設定する
請求項2~6のいずれか1項に記載の音信号処理装置。
【請求項9】
前記ボーカル明瞭度及び前記サラウンド感をユーザから受け付けるためのユーザインタフェースをさらに備える
請求項8に記載の音信号処理装置。
【請求項10】
前記除去部は、
前記第1チャネルの音信号及び前記第2チャネルの音信号の差を示す差信号を生成する第1の信号生成部と、
前記第1の係数に基づくボーカル帯域の周波数成分を前記差信号から除去することで前記第1の出力信号を生成するフィルタ部とを有し、
前記サラウンド処理部は、
前記第1の出力信号に前記サラウンド効果を付加することでサラウンド信号を生成する第2の信号生成部と、
前記第2の係数に基づく増幅率で前記サラウンド信号を増幅することで前記第2の出力信号を生成する前記増幅部とを有する
請求項1~9のいずれか1項に記載の音信号処理装置。
【請求項11】
第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去ステップと、
前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド信号処理ステップと、
前記除去ステップの前段もしくは前記除去ステップと前記サラウンド信号処理ステップとの間に実行される、又は、前記除去ステップもしくは前記サラウンド信号処理ステップの一部として実行される、入力された信号を第2の係数に基づく増幅率で増幅する増幅ステップと、
前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成ステップと、
前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成ステップと、
前記第1の係数及び前記第2の係数を設定する設定ステップとを含み、
前記設定ステップでは、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する
音信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音信号処理装置及び音信号処理方法に関する。
【背景技術】
【0002】
従来、音信号を再生する際、音に立体感又は奥行き感を出すために、音信号にサラウンド効果を付加する技術が知られている。また、サラウンド効果を付加するためのサラウンド信号処理が行われる音信号には、台詞、歌詞等のボーカル成分(音声成分)が含まれていないことが望まれる。特許文献1には、バンドエリミネートフィルタを用いてボーカル成分が除去された音信号に対してサラウンド信号処理を行う音信号処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の技術では、サラウンド効果を適切に付加できないことがある。
【0005】
そこで、サラウンド効果を適切に付加することができる音信号処理装置等を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様に係る音信号処理装置は、第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去部と、前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド処理部と、前記除去部の前段もしくは前記除去部と前記サラウンド処理部との間に接続される、又は、前記除去部もしくは前記サラウンド処理部の一部として構成される、入力された信号を第2の係数に基づく増幅率で増幅する増幅部と、前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成部と、前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成部と、前記第1の係数及び前記第2の係数を設定する設定部とを備え、前記設定部は、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する。
【0007】
本開示の一態様に係る音信号処理方法は、第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去ステップと、前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド信号処理ステップと、前記除去ステップの前段もしくは前記除去ステップと前記サラウンド信号処理ステップとの間に実行される、又は、前記除去ステップもしくは前記サラウンド信号処理ステップの一部として実行される、入力された信号を第2の係数に基づく増幅率で増幅する増幅ステップと、前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成ステップと、前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成ステップと、前記第1の係数及び前記第2の係数を設定する設定ステップとを含み、前記設定ステップでは、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する。
【発明の効果】
【0008】
本開示の一態様に係る音信号処理装置等によれば、サラウンド効果を適切に付加することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施の形態1に係る音信号処理装置の機能構成を示すブロック図である。
【
図2】
図2は、実施の形態1に係る音信号処理装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。
【
図3】
図3は、実施の形態1に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第1例を示す図である。
【
図4】
図4は、実施の形態1に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第2例を示す図である。
【
図5】
図5は、実施の形態1に係るサラウンド感に対する官能実験の結果を示す図である。
【
図6】
図6は、実施の形態1に係るボーカル明瞭度に対する官能実験の結果を示す図である。
【
図7】
図7は、実施の形態1に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第3例を示す図である。
【
図8】
図8は、実施の形態1に係る音信号処理装置の動作を示すフローチャートである。
【
図9】
図9は、実施の形態2に係る音信号処理装置の機能構成を示すブロック図である。
【
図10】
図10は、実施の形態2に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第1例を示す図である。
【
図11】
図11は、実施の形態2に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第2例を示す図である。
【発明を実施するための形態】
【0010】
(本開示に至った経緯)
本開示の実施の形態の説明に先立ち、本開示の基礎に至った経緯について説明する。
【0011】
特許文献1の技術では、Lチャネルの音信号及びRチャネルの音信号を加算した加算信号に対して、バンドエリミネートフィルタを用いてボーカル成分の除去が行われる。バンドエリミネートフィルタがローパスフィルタ(LPF)及びハイパスフィルタ(HPF)を含んで構成される場合、LPF及びHPFのカットオフ周波数がボーカル成分を除去可能な周波数に設定されることで、加算信号からボーカル成分を除去することが可能となる。なお、Lチャネルの音信号とは、L側スピーカに入力される音信号であり、Rチャネルの音信号とは、R側スピーカに入力される音信号である。L側スピーカ及びR側スピーカは、同一空間における互いに異なる位置に配置されたスピーカであり、例えば、L側スピーカは基準位置に対して左側に配置されており、R側スピーカは基準位置に対して右側に配置されている。
【0012】
なお、ボーカル成分を含む加算信号にサラウンド効果を付加するサラウンド信号処理が行われると、ボーカル成分にも立体感等が付加されるので不明瞭な(例えばボケた)音声が出音されてしまい、臨場感が低下する又はユーザが違和感を感じることがある。そのため、サラウンド信号処理が行われる前に、上記のようにボーカル成分を除去する処理が行われる。
【0013】
ここで、LPF及びHPFを通過した加算信号は、ボーカル成分に加えて当該ボーカル成分と同じ周波数帯のボーカル成分以外の成分も除去された音信号となる。ボーカル成分をより確実に除去するためにLPFのカットオフ周波数をより低く、かつ、HPFのカットオフ周波数をより高く設定するとボーカル成分以外の成分の除去量が増えるので、サラウンド信号処理される加算信号の強度(絶対量)は、LPF及びHPFを通過する前の加算信号に比べてとても小さくなり得る。そのような加算信号にサラウンド信号処理を行い、Lチャネルの音信号及びRチャネルの音信号に合成しても、サラウンド信号処理された加算信号の強度がLチャネルの音信号及びRチャネルの音信号に比べて小さいので、付加されるサラウンド効果も小さくなる。つまり、特許文献1の技術では、サラウンド効果を適切に付加することが困難である。
【0014】
なお、ボーカル成分以外の成分は、例えば、効果音、演奏音、背景音(いわゆるBGM(background music)などの音声を含まない音の成分である。
【0015】
また、加算信号の強度の低下を抑制するためにLPFのカットオフ周波数をより高く、かつ、HPFのカットオフ周波数をより低く設定すると、ボーカル成分が除去されにくくなるので、音声が不明瞭に聞こえてしまう。このように、特許文献1の技術では、サラウンド効果を適切に付加すること、及び、音声の不明瞭を抑制することを両立することも困難である。
【0016】
そこで、本願発明者らは、Lチャネルの音信号及びRチャネルの音信号に対してサラウンド効果を適切に付加することができる、さらには、サラウンド効果を適切に付加しつつ、音声の不明瞭を抑制することができる音信号処理装置等について鋭意検討を行い、以下に説明する音信号処理装置等を創案した。
【0017】
本開示の一態様に係る音信号処理装置は、第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去部と、前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド処理部と、前記除去部の前段もしくは前記除去部と前記サラウンド処理部との間に接続される、又は、前記除去部もしくは前記サラウンド処理部の一部として構成される、入力された信号を第2の係数に基づく増幅率で増幅する増幅部と、前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成部と、前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成部と、前記第1の係数及び前記第2の係数を設定する設定部とを備え、前記設定部は、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する。
【0018】
これにより、音信号処理装置は、除去するボーカル帯域が広くなり第1の出力信号の強度が小さくなる場合に、増幅部による増幅率が高くなるので、第2の出力信号の強度が小さくなることを抑制することができる。つまり、音信号処理装置は、第1チャネルの音信号及び第2チャネルの音信号に対して第2の出力信号の強度が相対的に小さくなることを抑制することができるので、合成後の信号においてサラウンド効果が弱くなることを抑制することができる。よって、音信号処理装置は、除去するボーカル帯域が広くなっても増幅部の増幅率が変化しない場合に比べて、サラウンド効果を適切に付加することができる。
【0019】
また、例えば、前記設定部は、前記第1の合成部及び前記第2の合成部により合成された信号に基づく音声の明瞭度合いを示すボーカル明瞭度に応じて、前記第1の係数及び前記第2の係数を設定してもよい。
【0020】
これにより、音信号処理装置は、所望のボーカル明瞭度の音声を出音可能な信号を生成することができる。
【0021】
また、例えば、前記除去部は、ハイパスフィルタを有し、前記設定部は、前記明瞭度合いが高いほど、前記ハイパスフィルタのカットオフ周波数が高くなるように前記第1の係数を設定し、かつ、前記増幅率が高くなるように前記第2の係数を設定してもよい。また、例えば、前記除去部は、ハイパスフィルタを有し、前記ボーカル明瞭度は、前記ハイパスフィルタのカットオフ周波数を横軸、前記増幅部の前記増幅率を縦軸としたときに単調増加のグラフで表され、前記設定部は、前記ボーカル明瞭度と、前記単調増加のグラフとに基づいて、前記第1の係数及び第2の係数を設定してもよい。
【0022】
これにより、音信号処理装置は、第2の係数が第1の係数の変化によるサラウンド効果の変化を低減するように設定されるので、サラウンド効果の変化を抑制しつつ、ボーカル明瞭度に応じた音声を出音可能な信号を生成することができる。
【0023】
また、例えば、前記単調増加のグラフは、対数のグラフであってもよい。
【0024】
これにより、ボーカル明瞭度の変化幅に対する、出音される音声の明瞭度の変化幅を等しくすることができる。
【0025】
また、例えば、前記単調増加のグラフは、直線のグラフであってもよい。
【0026】
これにより、音信号処理装置は、フィルタ部(例えば、ハイパスフィルタを含むフィルタ部)のカットオフ周波数が高周波領域(例えば、2000Hz以上)に設定され、高周波領域における信号成分の除去量が低周波領域における信号成分の除去量に比べて少ない場合に、サラウンド効果をより強くすることができる。また、より簡易な計算により第1の係数及び第2の係数を設定することができるので、音信号処理装置における処理量を低減することができる。
【0027】
また、例えば、前記ボーカル明瞭度をユーザから受け付けるためのユーザインタフェースをさらに備えてもよい。
【0028】
これにより、音信号処理装置は、さらにユーザが指定するボーカル明瞭度を得ることができる音声を出音可能な信号を生成することができる。
【0029】
また、例えば、前記設定部は、さらに、前記サラウンド効果の付加に対するユーザの好みを示すサラウンド感に応じて、前記第2の係数を設定してもよい。
【0030】
これにより、音信号処理装置は、サラウンド感に応じて、増幅部の増幅率を変化させるので、さらにサラウンド感に応じた音を出音可能な信号を生成することができる。つまり、音信号処理装置は、さらにユーザの好みの音を出音可能な信号を生成することができる。
【0031】
また、例えば、前記ボーカル明瞭度及び前記サラウンド感をユーザから受け付けるためのユーザインタフェースをさらに備えてもよい。
【0032】
これにより、係数決定部は、ユーザインタフェースから取得したボーカル明瞭度及びサラウンド感を用いて、第2の係数を決定することができる。つまり、音信号処理装置は、外部の装置と通信等することなく第2の係数の決定に用いるボーカル明瞭度及びサラウンド感を取得することができるので通信量の削減につながる。
【0033】
また、例えば、前記除去部は、前記第1チャネルの音信号及び前記第2チャネルの音信号の差を示す差信号を生成する第1の信号生成部と、前記第1の係数に基づくボーカル帯域の周波数成分を前記差信号から除去することで前記第1の出力信号を生成するフィルタ部とを有し、前記サラウンド処理部は、前記第1の出力信号に前記サラウンド効果を付加することでサラウンド信号を生成する第2の信号生成部と、前記第2の係数に基づく増幅率で前記サラウンド信号を増幅することで前記第2の出力信号を生成する前記増幅部とを有してもよい。
【0034】
これにより、第1の信号生成部、フィルタ部、第2の信号生成部及び増幅部を備える音信号処理装置において、サラウンド効果を適切に付加することができる。
【0035】
本開示の一態様に係る音信号処理方法は、第1チャネルの音信号及び第2チャネルの音信号と、除去するボーカル帯域を示す第1の係数とに基づいて、ボーカル成分が除去された第1の出力信号を生成する除去ステップと、前記第1の出力信号にサラウンド効果を付加することで第2の出力信号を生成するサラウンド信号処理ステップと、前記除去ステップの前段もしくは前記除去ステップと前記サラウンド信号処理ステップとの間に実行される、又は、前記除去ステップもしくは前記サラウンド信号処理ステップの一部として実行される、入力された信号を第2の係数に基づく増幅率で増幅する増幅ステップと、前記第2の出力信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の一方とを合成する第1の合成ステップと、前記第2の出力信号を反転させた信号と、前記第1チャネルの音信号及び前記第2チャネルの音信号の他方とを合成する第2の合成ステップと、前記第1の係数及び前記第2の係数を設定する設定ステップとを含み、前記設定ステップでは、前記第1の係数に基づいて除去されるボーカル帯域が第1の帯域より広い第2の帯域である場合の前記増幅率が、前記第1の帯域の場合の前記増幅率より大きくなるように前記第2の係数を設定する。
【0036】
これにより、上記音信号処理装置と同様の効果を奏する。
【0037】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0038】
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、特許請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0039】
また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する。
【0040】
また、本明細書において、等しい、一定、同じなどの要素間の関係性を示す用語、並びに、数値、および、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
【0041】
(実施の形態1)
[1-1.音信号処理装置の構成]
まず、本実施の形態に係る音信号処理装置の構成について、
図1及び
図2を参照しながら説明する。
図1は、本実施の形態に係る音信号処理装置1の機能構成を示すブロック図である。音信号処理装置1は、Lチャネルの入力信号(音信号)及びRチャネルの入力信号(音信号)に基づいて、サラウンド感のある音を出音するための信号を生成する装置である。また、音信号処理装置1が搭載される音響装置は、例えば、L側スピーカ及びR側スピーカの2つのスピーカを備える。なお、サラウンド感のある音とは、当該音を聞いているユーザ(聴取者)が音の立体感、奥行き感又は広がり感などを感じることができる音である。
【0042】
図1に示すように、音信号処理装置1は、ボーカル除去部10と、サラウンド処理部20と、ユーザインタフェース30(UI)と、係数決定部40と、合成部50と、反転部60とを備える。
【0043】
ボーカル除去部10は、Lチャネルの入力信号及びRチャネルの入力信号に基づいて、当該Lチャネルの入力信号及びRチャネルの入力信号に含まれるボーカル成分を除去する処理を行う。具体的には、ボーカル除去部10は、Lチャネルの入力信号及びRチャネルの入力信号と、除去するボーカル帯域を示すフィルタ係数とに基づいて、ボーカル成分が除去されたボーカル除去信号を生成する。より具体的には、ボーカル除去部10は、Lチャネルの入力信号及びRチャネルの入力信号の差信号と、除去するボーカル帯域を示すフィルタ係数とに基づいて、差信号からボーカル成分が除去されたボーカル除去信号を生成する。ボーカル除去部10は、ボーカル成分にも立体感等が付加されてしまい不明瞭な音声が出音されるのを抑制するために、サラウンド処理部20によるサラウンド信号処理が行われる音信号に対して、前処理を行うとも言える。
【0044】
Lチャネルの入力信号は、第1チャネルの音信号の一例であり、Rチャネルの入力信号は、第2チャネルの音信号の一例であり、ボーカル除去信号は、第1の音信号の一例である。また、ボーカル除去部10は、除去部の一例である。
【0045】
ボーカル除去部10は、差信号生成部11とフィルタ部12とを有する。
【0046】
差信号生成部11は、Lチャネルの入力信号及びRチャネルの入力信号が入力され、2つの入力信号の差分をとった差信号を生成する。差信号は、Lチャネルの入力信号及びRチャネルの入力信号の差を示す信号である。差信号生成部11は、第1の信号生成部の一例である。
【0047】
ここで、Lチャネルの入力信号及びRチャネルの入力信号は、ステレオ音を出音するための音信号である。Lチャネルの入力信号は、L側スピーカから出音される音(音声及び音声以外の音)を含む音信号であり、Rチャネルの入力信号は、R側スピーカから出音される音(音声及び音声以外の音)を含む音信号である。Lチャネルの入力信号及びRチャネルの入力信号におけるボーカル成分(音声の信号成分)は、ほぼ同じである。また、Lチャネルの入力信号及びRチャネルの入力信号におけるボーカル成分以外の成分は、Lチャネル及びRチャネルで互いに異なる信号成分である。
【0048】
差信号生成部11がLチャネルの入力信号及びRチャネルの入力信号の差分をとることで、Lチャネルの入力信号及びRチャネルの入力信号に共通で含まれるボーカル成分(センターの成分)をキャンセルさせることができる。よって、差信号生成部11により生成された差信号にはボーカル成分はほとんど含まれないが、コンテンツ等によっては差信号にボーカル成分が残ることがある。例えば、Lチャネルの入力信号及びRチャネルの入力信号の一方に出音タイミングを意図的にずらすための遅延(エフェクト)処理が行われている場合などには、差信号にボーカル成分が含まれることがある。
【0049】
フィルタ部12は、差信号が入力され、差信号に含まれるボーカル成分を除去することでボーカル除去信号を生成する。フィルタ部12は、係数決定部40が決定したフィルタ係数に基づくボーカル帯域の周波数成分を差信号から除去することでボーカル除去信号を生成する。
【0050】
フィルタ部12は、例えば、IIR(Infinite Impulse Response)フィルタ(無限インパルス応答型フィルタ)を含んで構成されるが、これに限定されない。本実施の形態では、フィルタ部12は、例えば、ハイパスフィルタ(HPF)を含んで構成されるが、ローパスフィルタ(LPF)を含んで構成されてもよいし、HPF及びLPFの両方を含んで構成されてもよい。フィルタ部12は、例えば、低周波領域の音声にサラウンド信号処理する場合、ローパスフィルタを含んで構成されるとよい。フィルタ部12は、差信号からボーカル成分を除去可能であれば、いかなるフィルタを含んで構成されてもよい。以下では、フィルタ部12は、HPFを含んで構成される例について説明する。
【0051】
フィルタ部12は、係数決定部40が決定したフィルタ係数に基づくカットオフ周波数でボーカル成分を除去する。カットオフ周波数が大きくなると、除去されるボーカル成分の帯域は広くなる。つまり、カットオフ周波数が大きくなると、ボーカル除去信号の強度は小さくなる。なお、ボーカル成分の周波数帯は、例えば、主に300Hz~2000Hz程度であるが、これに限定されない。また、フィルタ係数は、除去するボーカル帯域を示す第1の係数の一例である。
【0052】
ボーカル除去部10は、差信号生成部11及びフィルタ部12により、ほとんどのボーカル成分が除去されたボーカル除去信号を生成することができる。
【0053】
サラウンド処理部20は、ボーカル除去部10からのボーカル除去信号にサラウンド効果を付加するためのサラウンド信号処理等を行うことで、調整信号を生成する。サラウンド処理部20は、サラウンド信号生成部21と増幅部22とを有する。
【0054】
サラウンド信号生成部21は、ボーカル除去信号にサラウンド信号処理を行うことでサラウンド信号を生成する。サラウンド信号生成部21は、ボーカル除去信号にサラウンド効果を付加することでサラウンド信号を生成するとも言える。なお、サラウンド信号処理は、ボーカル除去信号に対してサラウンド効果を付加することができれば、既知のいかなる処理が行われてもよい。サラウンド信号生成部21は、第2の信号生成部の一例である。また、サラウンド信号は、第2の出力信号の一例である。
【0055】
増幅部22は、入力された信号を係数決定部40が決定した増幅係数に基づくゲイン値(増幅率の一例)で増幅する。本実施の形態では、増幅部22は、サラウンド信号生成部21と合成部50との間に接続されるので、サラウンド信号が入力され、サラウンド信号を増幅係数に基づくゲイン値で増幅することで調整信号を生成する。増幅部22は、Lチャネルの入力信号及びRチャネルの入力信号に合成されるサラウンド信号の強度を調整するとも言える。サラウンド信号の強度は、サラウンド効果が付加された信号の絶対量(積分値)である。また、サラウンド信号の強度は、音響装置から出音される音声以外の音の立体感、奥行き感又は広がり感などの強さであるとも言える。
【0056】
増幅部22は、係数決定部40が決定した増幅係数に基づく増幅率でサラウンド信号を増幅する。増幅部22は、サラウンド信号のゲイン値を係数決定部40からの増幅係数に基づいて変更することで、サラウンド信号の強度を調整する。ゲイン値が大きくなると、サラウンド信号の強度は強くなる。
【0057】
このように、本実施の形態では、サラウンド処理部20は、ボーカル除去信号に対するサラウンド効果の付加と、サラウンド信号の強度の調整とを行う。
【0058】
ユーザインタフェース30は、ユーザから音信号処理に関する入力を受け付ける。ユーザインタフェース30は、例えば、ユーザの好みの音質に関する情報を取得し、取得した情報を係数決定部40に出力する。本実施の形態では、ユーザインタフェース30は、ボーカル明瞭度の入力を受け付ける。ボーカル明瞭度は、音声の明瞭度合いを示し、本実施の形態では、L側スピーカ及びR側スピーカから出音される音における、音声の明瞭度合いを示す。ボーカル明瞭度は、音声におけるユーザの好みの音質を指定した度合いである。ボーカル明瞭度が高いことは、例えば、音声がハッキリ聞こえる、つまり音声が明瞭であることである。また、ボーカル明瞭度は、0~100までの数値で表されるが、これに限定されない。
【0059】
なお、ユーザインタフェース30は、音信号処理装置1に必須の構成ではない。
【0060】
係数決定部40は、フィルタ部12のフィルタ係数、及び、増幅部22の増幅係数を決定する。本実施の形態では、係数決定部40は、ユーザインタフェース30からボーカル明瞭度を取得し、取得したボーカル明瞭度に応じてフィルタ係数及び増幅係数を決定する。係数決定部40は、フィルタ係数と増幅係数とを関係づけて決定する。係数決定部40は、フィルタ係数及び増幅係数を設定する設定部の一例である。
【0061】
係数決定部40は、例えば、フィルタ係数に基づくカットオフ周波数(HPFのカットオフ周波数)が大きくなるとボーカル除去信号の絶対量が小さくなり、結果的にサラウンド信号の強度も小さくなるので、ゲイン値を大きくすることでサラウンド信号の強度を増幅する。係数決定部40は、例えば、フィルタ係数をカットオフ周波数が大きくなる値に決定した場合、増幅係数をゲイン値が大きくなる値に決定する。係数決定部40は、例えば、フィルタ係数に基づいて除去されるボーカル帯域が第一の帯域より広い第二の帯域である場合、第二の帯域のときのゲイン値が第一の帯域のときのゲイン値より大きくなるように増幅係数を決定する。係数決定部40は、フィルタ部12のフィルタ処理によるボーカル除去信号の強度の変化を打ち消すような増幅率となるように第2の係数を決定する。
【0062】
また、係数決定部40は、ボーカル明瞭度に基づく音声の明瞭度合いが高いほど、HPFのカットオフ周波数が高くなるようにフィルタ係数を決定し、かつ、増幅部22のゲイン値が高くなるように増幅係数を設定する。
【0063】
係数決定部40におけるフィルタ係数及び増幅係数の決定については、後述する。なお、係数決定部40は、例えば、1つのコンテンツに対して1つのフィルタ係数及び増幅係数の組を決定する。つまり、係数決定部40は、コンテンツの再生中にフィルタ係数及び増幅係数を変化させない。なお、コンテンツは、音を出力させるための音情報を含むコンテンツであれば特に限定されず、音声コンテンツであってもよいし、動画コンテンツであってもよい。
【0064】
合成部50は、サラウンド処理部20から出力される調整信号を、Lチャネルの入力信号及びRチャネルの入力信号に戻す処理を行う。合成部50は、調整信号と、Lチャネルの入力信号及びRチャネルの入力信号とを合成し、合成した信号をL側スピーカ及びR側スピーカに出力する。合成部50は、第1の合成部51と、第2の合成部52とを有する。第1の合成部51及び第2の合成部52のそれぞれは、例えば、加算器である。
【0065】
第1の合成部51は、調整信号をLチャネルの入力信号に合成することで、L側合成信号を生成する。L側合成信号は、例えば、Lチャネルの入力信号と、調整信号との和をとった信号である。第1の合成部51は、L側合成信号をL側スピーカに出力する。L側合成信号は、第1の合成信号の一例である。
【0066】
第2の合成部52は、反転部60により反転された調整信号をRチャネルの入力信号に合成することで、R側合成信号を生成する。R側合成信号は、例えば、Rチャネルの入力信号と、反転された調整信号との和をとった信号である。第2の合成部52は、R側合成信号をR側スピーカに出力する。R側合成信号は、第2の合成信号の一例である。
【0067】
反転部60は、入力された信号を反転して出力する。本実施の形態では、反転部60は、サラウンド処理部20から出力される調整信号の位相を反転させて、第2の合成部52に出力する。反転部60は、調整信号を周期だけ遅延させる処理を行うとも言える。
【0068】
なお、反転部60は、サラウンド処理部20と第1の合成部51との間、及び、サラウンド処理部20と第2の合成部52との間のいずれか一方に接続されていればよい。反転部60は、Lチャネルの入力信号及びRチャネルの入力信号のいずれか一方に入力される調整信号の位相を反転可能に接続されていればよい。反転部60は、例えば、サラウンド処理部20から出力される調整信号の位相を反転させて、第1の合成部51に出力してもよい。
【0069】
なお、上記では、増幅部22をサラウンド処理部20の構成要素として説明したが、これに限定されない。増幅部22は、例えば、ボーカル除去部10とサラウンド処理部20との間に接続され、フィルタ部12からのボーカル除去信号を増幅してサラウンド処理部20に出力してもよい。また、増幅部22は、例えば、差信号生成部11及びフィルタ部12の間に接続され(ボーカル除去部10の一部として構成され)、差信号生成部11からの差信号を増幅してフィルタ部12に出力してもよい。また、増幅部22は、例えば、差信号生成部11とLチャネルの入力信号及びRチャネルの入力信号を伝達する信号線との間に接続され(ボーカル除去部10の前段に接続され)、Lチャネルの入力信号及びRチャネルの入力信号を増幅して差信号生成部11に出力してもよい。このように、増幅部22が接続される位置は、特に限定されない。
【0070】
この場合、増幅部22は、ボーカル除去信号、差信号、又は、Lチャネルの入力信号及びRチャネルの入力信号のいずれかを増幅することになるが、これらの信号の増幅により結果的にサラウンド信号の強度も増幅される。このように、増幅部22は、サラウンド信号の強度を間接的に調整してもよい。
【0071】
上記の音信号処理装置1を構成する構成要素のハードウェア構成は、特に限定されないが、例えば、コンピュータで構成されてもよい。このようなハードウェア構成例について、
図2を用いて説明する。
図2は、本実施の形態に係る音信号処理装置1の機能をソフトウェアにより実現するコンピュータ1000のハードウェア構成の一例を示す図である。
【0072】
図2に示すように、コンピュータ1000は、入力装置1001と、出力装置1002と、CPU1003と、内蔵ストレージ1004と、RAM1005及びバス1009とを備えるコンピュータである。入力装置1001と、出力装置1002と、CPU1003と、内蔵ストレージ1004及びRAM1005とは、バス1009により接続される。
【0073】
入力装置1001は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置1001は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。入力装置1001は、例えば、
図1に示すユーザインタフェース30に対応する。また、入力装置1001は、例えば、
図1に示すLチャネルの入力信号およびRチャネルの入力信号を入力する装置に対応する。
【0074】
出力装置1002は、コンピュータ1000からの信号を出力する装置であり、信号出力端子の他、スピーカ、ディスプレイなどといったユーザインタフェースとなる装置であってもよい。出力装置1002は、
図1に示すL側合成信号およびR側信号を出力する装置に対応する。また、出力装置1002には、
図1に示すL側スピーカ及びR側スピーカに相当するスピーカが含まれてもよい。
【0075】
内蔵ストレージ1004は、フラッシュメモリなどである。また、内蔵ストレージ1004は、音信号処理装置1の機能を実現するためのプログラム、及び、音信号処理装置1の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。
【0076】
RAM1005は、ランダムアクセスメモリ(Random Access Memory)であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。
【0077】
CPU1003は、中央演算処理装置(Central Processing Unit)であり、内蔵ストレージ1004に記憶されたプログラム、アプリケーションをRAM1005にコピーし、そのプログラム又はアプリケーションに含まれる命令をRAM1005から順次読み出して実行する。
【0078】
コンピュータ1000は、例えば、デジタル信号からなる第1の音信号(例えば、Lチャネルの入力信号)、及び、第2の音信号(例えば、Rチャネルの入力信号)を、本実施の形態に係るボーカル除去部10、サラウンド処理部20及び係数決定部40と同様に処理してもよい。
【0079】
[1-2.係数決定部における各係数の決定]
続いて、係数決定部40における各係数の決定について、
図3~
図7を参照しながら説明する。
図3は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数(Fc)及びゲイン値との相関関係の第1例を示す図である。
図3は、ボーカル明瞭度の値に対するカットオフ周波数(Fc)及びゲイン値の対応関係を示すとも言える。
【0080】
図3に示すように、ボーカル明瞭度の値に対するカットオフ周波数及びゲイン値は、線形な相関関係を有していてもよい。この場合、カットオフ周波数が高くなると当該カットオフ周波数に対応するゲイン値もカットオフ周波数に比例して高くなる。また、ボーカル明瞭度が取得されると、当該ボーカル明瞭度に応じたカットオフ周波数及びゲイン値が一意に決定可能である。
【0081】
なお、
図3に示すボーカル明瞭度がDryとは、ボーカル明瞭度が高い(例えば、100に近い)ことを示しており、HPFのカットオフ周波数が高い値に決定され、それに伴いゲイン値も高い値に決定される。これにより、フィルタ部12のフィルタリング処理によりサラウンド信号の強度が小さくなる場合に、増幅部22によりサラウンド信号の強度を大きくすることができる。よって、ボーカル明瞭度を高くするようなフィルタ係数が決定された場合に、サラウンド信号の強度が小さくなることによりサラウンド感が弱くなることが抑制され得る。
【0082】
また、
図3に示すボーカル明瞭度がWetとは、ボーカル明瞭度が低い(例えば、0に近い)ことを示しており、HPFのカットオフ周波数が低い値に決定され、それに伴いゲイン値も低い値に決定される。
【0083】
係数決定部40は、例えば、
図3に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定する。係数決定部40は、例えば、以下の式1に基づいてカットオフ周波数を算出することで、カットオフ周波数を決定する。
【0084】
Fc[Hz]=ボーカル明瞭度×A+B 式(1)
【0085】
Aは傾きであり、Bは切片である。コンテンツなどに応じて傾きA及び切片Bは適宜決定されるが、例えば、傾きAは40であってもよく、切片Bは200であってもよい。
【0086】
また、係数決定部40は、例えば、以下の式2に基づいてゲイン値を算出することで、ゲイン値を決定する。
【0087】
ゲイン値[dB]=(Fc[Hz])×C+D 式(2)
【0088】
Cは傾きであり、Dは切片である。コンテンツなどに応じて傾きC及び切片Dは適宜決定されるが、例えば、傾きCは1/350であってもよく、切片Dは-10/7であってもよい。
【0089】
なお、相関関係は、線形であることに限定されない。
図4は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第2例を示す図である。
【0090】
図4に示すように、ボーカル明瞭度の値に対するカットオフ周波数及びゲイン値は、非線形な相関関係を有していてもよい。相関関係は、例えば、上に凸となる関数により表されてもよい。また、カットオフ周波数とボーカル明瞭度との相関関係は、例えば、以下の式3に示すように指数関数により表されてもよい。これにより、ボーカル明瞭度の変化幅に対する音声の明瞭度の変化幅を等しくすることができる。例えば、低周波領域においてボーカル明瞭度を所定幅変化させたときの音声の明瞭度の変化幅と、高周波領域においてボーカル明瞭度を所定幅変化させたときの音声の明瞭度の変化幅とを等しくすることができる。
【0091】
Fc[Hz]=EXP(ボーカル明瞭度×E)×F 式(3)
【0092】
Eはべき乗を算出するための係数であり、Fは切片である。コンテンツなどに応じて係数E及び切片Fは適宜決定されるが、例えば、係数Eは0.03あってもよく、切片Fは200であってもよい。なお、式3における底は、例えば、ネイピア数である。
【0093】
また、カットオフ周波数とゲイン値との相関関係は、例えば、上に凸となる関数により表されてもよい。カットオフ周波数とゲイン値との相関関係は、例えば、以下の式4に示すように対数関数により表されてもよい。これにより、サラウンド感をより一定に保った状態で、ボーカル明瞭度を変更することができる。つまり、サラウンド感をより一定に保った状態で、ボーカル明瞭度に応じたカットオフ周波数及びゲイン値を決定することができる。
【0094】
ゲイン値[dB]=ln(Fc[Hz])×G+H 式(4)
【0095】
Gは真数を算出するための係数であり、Hは切片である。コンテンツなどに応じて係数G及び切片Hは適宜決定されるが、例えば、係数Gは3.0686あってもよく、切片Hは-18.327であってもよい。なお、式4における底は、例えば、ネイピア数である。
【0096】
なお、サラウンド感とは、ユーザが主観的に感じるサラウンドの効果を示す。サラウンド感が強いとは、ユーザがサラウンドの効果を強く感じている(例えば、音の立体感を強く感じている)ことを示し、サラウンド感が弱いとは、ユーザがサラウンドの効果をあまり感じていないことを示す。
【0097】
図3及び
図4に示すように、ボーカル明瞭度は、フィルタ部12(例えば、ハイパスフィルタ)のカットオフ周波数を横軸、増幅部22のゲイン値を縦軸としたときに単調増加のグラフで表されてもよい。また、単調増加のグラフは、具体的には、対数のグラフであってもよいし、直線のグラフであってもよい。係数決定部40は、
図3又は
図4に示す単調増加のグラフの関係を用いることで、フィルタ係数に連動して増幅係数を決定することができる。言い換えると、係数決定部40は、差信号から除去するボーカルの帯域に連動してサラウンド信号の強度を決定することができる。係数決定部40は、差信号から除去される信号の除去量(例えば、除去される信号の積分値)に連動してサラウンド信号の強度を決定することができるとも言える。
【0098】
ここで、式4を導出するための官能実験について、
図5及び
図6を参照しながら説明する。
図5は、本実施の形態に係るサラウンド感に対する官能実験の結果を示す図である。
図6は、本実施の形態に係るボーカル明瞭度に対する官能実験の結果を示す図である。
【0099】
官能実験では、フィルタ部12のカットオフ周波数を、200Hz、300Hz、400Hz、500Hz、800Hz、1000Hz、1500Hz、2000Hz、2500HZ、3000Hz、4000Hzに設定し、それぞれのカットオフ周波数のときに増幅部22のゲイン値を、-5~+6dBまで1dB間隔で変化させた、132パターンの条件で実験を行っている。それぞれのパターンでサラウンド感を主観的に評価した結果を
図5に示しており、それぞれのパターンでボーカル明瞭度を主観的に評価した結果を
図6に示している。なお、実験では、ラテン系の楽曲を音源として用いている。
【0100】
図5では、サラウンド感が強すぎる条件を「×1」、サラウンド感が強い条件を「△1」、サラウンド感が良い条件を「〇」、サラウンド感が弱い条件を「△2」、サラウンド感を感じない(弱すぎる)条件を「×2」で示している。
【0101】
図5に示すように、サラウンド感は、ゲイン値が低く、かつ、カットオフ周波数が高い条件において、弱く感じられる傾向があり、ゲイン値が高く、かつ、カットオフ周波数が低い条件において、強く感じられる傾向がある。
【0102】
図6では、ボーカルがはっきり聞こえる条件(音声がはっきり聞こえる条件)を「〇」、ボーカルがぼんやり聞こえる条件を「△」、ボーカルが不明瞭である条件を「×」で示している。なお、ぼんやり聞こえるとは、例えば、意味が理解できる程度に音声がボケていることを示し、不明瞭であるとは、例えば、少なくとも一部の意味が理解できない程度に音声がボケていることを示す。
【0103】
図6に示すように、ボーカル明瞭度は、ゲイン値が高く、かつ、カットオフ周波数が低い条件において、不明瞭となる傾向がある。
【0104】
図5及び
図6に示す太枠は、サラウンド感及ボーカル明瞭度が両方とも「〇」である条件を示している。係数決定部40は、太枠内のカットオフ周波数及びゲイン値となるようにフィルタ係数及び増幅係数を決定することで、ボーカル明瞭度及びサラウンド感を両立することが可能である。
【0105】
さらに、太枠内の条件において、カットオフ周波数を変更してもサラウンド感が同等に感じられるカットオフ周波数とゲイン値との組を、カットオフ周波数ごとにプロットしたものを
図7に示す。
図7は、本実施の形態に係るボーカル明瞭度と、カットオフ周波数及びゲイン値との相関関係の第3例を示す図である。
【0106】
図7は、
図5及び
図6におけるカットオフ周波数が400Hzでゲイン値が0dBのときのサラウンド感を基準(以降において、基準サラウンド感とも記載する)とし、400Hzのときのサラウンド感と同等となるサラウンド感を得られるゲイン値を400Hz以外の各周波数において評価した結果をプロットした図である。例えば、カットオフ周波数300Hzでは、太枠内のうちゲイン値が-1dBのときのサラウンド感が、基準サラウンド感と同等であるように感じられることを示している。また、例えば、カットオフ周波数3000Hzでは、太枠内のうちゲイン値が+6dBのときのサラウンド感が、基準サラウンド感と同等に感じられることを示している。なお、基準サラウンド感は、400Hzのときのサラウンド感に限定されない。
【0107】
ここで、プロットされたデータ列を近似する近似式を算出すると、
図7に示すように、以下の式5となる。
【0108】
ゲイン値[dB]=3.0686ln(Fc)-18.327 式(5)
【0109】
式5は、式4における係数Gが3.0686あり、切片Hが-18.327である関数である。この近似式を用いることで、サラウンド感をより一定に保った状態で、ボーカル明瞭度を変えることが可能となる。
【0110】
なお、上記の式1~式5は、一例であり、これに限定されない。例えば、式5に示す近似式は、一例であり、音源の種類、ユーザの属性(年齢、性別など)などに応じて変化し得る。
【0111】
なお、上記で説明した式のいずれかは、音信号処理装置1が有する記憶部(例えば、
図2に示す内蔵ストレージ1004)に予め記憶されている。
【0112】
[1-3.音信号処理装置の動作]
続いて、上記のような音信号処理装置1の動作について、
図8を参照しながら説明する。
図8は、本実施の形態に係る音信号処理装置1の動作を示すフローチャートである。なお、以下では、音信号処理装置1が有する記憶部には、式3及び4が予め記憶されているとする。
【0113】
図8に示すように、ユーザインタフェース30は、ユーザからボーカル明瞭度を取得する(S101)。ユーザインタフェース30は、例えば、0~100までの数値をボーカル明瞭度として取得する。なお、ボーカル明瞭度の取得は、コンテンツを再生するときに行われてもよいし、予め取得され音信号処理装置1が有する記憶部(例えば、
図2に示す内蔵ストレージ1004)に記憶されていてもよい。ユーザインタフェース30は、取得したボーカル明瞭度を係数決定部40に出力する。
【0114】
なお、ユーザインタフェース30は、ボーカル明瞭度を数値ではなく「高」、「中」、「低」などのランクをユーザから取得してもよい。
【0115】
次に、係数決定部40は、ボーカル明瞭度に基づいて、フィルタ係数及びフィルタ係数に応じた増幅係数を決定する(S102)。係数決定部40は、記憶部から式3を読み出し、式3にボーカル明瞭度を代入することで、ボーカル明瞭度を実現するカットオフ周波数を算出し、算出したカットオフ周波数に応じたフィルタ係数を決定する。また、係数決定部40は、記憶部から式4を読み出し、式4に決定したフィルタ係数に対応するカットオフ周波数を代入することで、所望のサラウンド感を実現するゲイン値を算出し、算出したゲイン値に応じた増幅係数、つまりフィルタ係数に応じた増幅係数を決定する。そして、係数決定部40は、決定したフィルタ係数をフィルタ部12に出力し、決定した増幅係数を増幅部22に出力する。ステップS102は、設定ステップの一例である。
【0116】
次に、差信号生成部11は、入力されたLチャネルの入力信号及びRチャネルの入力信号の差である差信号を生成する(S103)。差信号生成部11は、生成した差信号をフィルタ部12に出力する。
【0117】
次に、フィルタ部12は、差信号及びフィルタ係数に基づいて、ボーカル除去信号を生成する(S104)。フィルタ部12は、差信号に対してフィルタ係数に基づくカットオフ周波数により、差信号から高周波成分を抽出することで、ボーカル除去信号を生成する。フィルタ部12は、ボーカル除去信号をサラウンド信号生成部21に出力する。ステップS104は、除去ステップの一例である。
【0118】
次に、サラウンド信号生成部21は、ボーカル除去信号に対して、サラウンド信号処理を実行する(S105)ことで、サラウンド信号を生成する。サラウンド信号生成部21は、生成したサラウンド信号を増幅部22に出力する。ステップS105は、サラウンド信号処理ステップの一例である。
【0119】
次に、増幅部22は、増幅係数及びサラウンド信号に基づいて調整信号を生成する(S106)。係数決定部40により、カットオフ周波数が高い値に決定される場合、サラウンド信号の強度が小さい(サラウンド信号の絶対量が小さい)のでゲイン値が高くなるように増幅係数が決定される。これにより、増幅部22は、フィルタ部12のフィルタ処理により強度が小さくなったサラウンド信号の強度を大きくすることができる。ステップS106は、増幅ステップの一例である。
【0120】
このように増幅部22は、Lチャネルの入力信号及びRチャネルの入力信号に合成される信号の強度を調整する。増幅部22は、調整信号を合成部50に向けて出力する。
【0121】
次に、合成部50は、調整信号に基づく信号を、Lチャネルの入力信号及びRチャネルの入力信号に合成する(S107)。本実施の形態では、第1の合成部51は、調整信号に基づく信号として、調整信号そのものをLチャネルの入力信号に合成することでL側合成信号を生成する。また、第2の合成部52は、調整信号に基づく信号として、反転部60で位相が反転された調整信号をRチャネルの入力信号に合成することでR側合成信号を生成する。第1の合成部51は、生成したL側合成信号をL側スピーカに出力し、第2の合成部52は、生成したR側合成信号をR側スピーカに出力する。ステップS107は、第1の合成ステップ及び第2の合成ステップの一例である。
【0122】
これにより、音信号処理装置1からL側スピーカ及びR側スピーカに出力される信号はそれぞれ、所望のサラウンド効果の強さを有する信号となる。つまり、所望のサラウンド感が得られる信号となる。よって、音響装置は、所望のサラウンド再生を行うことができる。音響装置は、例えば、L側スピーカ及びR側スピーカの配置位置より広い領域に音像が定位するような音を出音することができる。
【0123】
(実施の形態2)
[2-1.音信号処理装置の構成]
まず、本実施の形態に係る音信号処理装置の構成について、
図9を参照しながら説明する。
図9は、本実施の形態に係る音信号処理装置100の機能構成を示すブロック図である。本実施の形態に係る音信号処理装置100は、主に係数決定部140がさらにサラウンド感にも基づいてフィルタ係数及び増幅係数を決定する点において、実施の形態1に係る音信号処理装置1と相違する。以降において、本実施の形態に係る音信号処理装置100について、実施の形態1に係る音信号処理装置1との相違点を中心に説明する。
【0124】
以降において、実施の形態1に係る音信号処理装置1と同一又は類似の構成については、実施の形態1に係る音信号処理装置1と同一の符号を付し、説明を省略又は簡略化する。また、音信号処理装置100を構成する構成要素のハードウェア構成は、特に限定されないが、例えば、実施の形態1において
図2を用いて説明したコンピュータ1000のハードウェア構成と同じであってもよい。
【0125】
図9に示すように、音信号処理装置100は、実施の形態1に係る音信号処理装置1の係数決定部40に代えて、係数決定部140を備える。また、ユーザインタフェース30は、ボーカル明瞭度に加えてサラウンド感の入力をユーザから受け付ける。サラウンド感は、ユーザの好みの音質の一例であり、ユーザの好みのサラウンド効果の強さを示しており、例えば、0~100までの数値で表される。例えば、サラウンド感が100である又は100に近いことは、サラウンド効果が強い(例えば、音声以外の音の立体感、奥行き感又は広がり感が強い)ことを示している。また、例えば、サラウンド感が0である又は0に近いことは、サラウンド効果が弱い(例えば、音声以外の音の立体感、奥行き感又は広がり感が弱い)ことを示している。なお、サラウンド感は、数値で表されることに限定されない。
【0126】
係数決定部140は、ボーカル明瞭度及びサラウンド感に応じてフィルタ係数及び増幅係数を決定する。係数決定部140は、例えば、ユーザインタフェース30からボーカル明瞭度及びサラウンド感を取得し、取得したボーカル明瞭度に応じてフィルタ係数を決定し、取得したボーカル明瞭度及びサラウンド感に応じて増幅係数を決定する。
【0127】
[2-2.係数決定部における各係数の決定]
続いて、係数決定部140における各係数の決定について、
図10及び
図11を参照しながら説明する。図
10は、本実施の形態に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第1例を示す図である。
図10は、ボーカル明瞭度の値に対するカットオフ周波数(Fc)及びゲイン値の対応関係、及び、サラウンド感の値に対するゲイン値の対応関係を示す。
【0128】
図10に示すように、カットオフ周波数とゲイン値とは、ボーカル明瞭度に対して線形な相関関係を有しており、サラウンド感に対してゲイン値の軸と平行な相関関係を有している。つまり、ボーカル明瞭度に応じてカットオフ周波数が決定され、ボーカル明瞭度及びサラウンド感に応じてゲイン値が決定される。言い換えると、サラウンド感は、カットオフ周波数を決定することには用いられない。
【0129】
なお、
図10に示すサラウンド感がElegantとは、サラウンド感が小さい(例えば、0に近い)ことを示しており、ゲイン値が低い値に決定される。また、サラウンド感がAggresiveとは、サラウンド感が大きい(例えば、100に近い)ことを示しており、ゲイン値が高い値に決定される。
【0130】
係数決定部140は、例えば、
図10に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定してもよい。係数決定部140は、例えば、以下の式6に基づいてゲイン値を算出することで、ゲイン値を決定してもよい。なお、係数決定部140がカットオフ周波数を算出する式は、実施の形態1の式1と同じであり説明を省略する。
【0131】
ゲイン値[dB]=(Fc[Hz])×C+D+サラウンド感×E+F 式(6)
【0132】
Eはサラウンド感に対する傾きであり、Fはサラウンド感に対する切片である。コンテンツなどに応じて、傾きC及びEと、切片D及びFとは適宜決定されるが、例えば、傾きCは1/350であってもよく、切片Dは-10/7であってもよく、傾きEは1/25であってもよく、切片Fは-2であってもよい。なお、ゲイン値に対する切片は、切片D及びFを加算することで算出可能である。
【0133】
なお、ボーカル明瞭度の値に対するカットオフ周波数(Fc)及びゲイン値の相関関係は、線形であることに限定されない。
図11は、本実施の形態に係るボーカル明瞭度及びサラウンド感と、カットオフ周波数及びゲイン値との関係の第2例を示す図である。
【0134】
図11に示すように、カットオフ周波数とゲイン値とは、ボーカル明瞭度に対して線非線形な相関関係を有していてもよい。カットオフ周波数とゲイン値とのボーカル明瞭度に対する相関関係は、例えば、上に凸となる関数により表されてもよい。
【0135】
係数決定部140は、例えば、
図11に示す相関関係を示す式を用いて、カットオフ周波数及びゲイン値を決定してもよい。係数決定部140は、例えば、以下の式7に基づいてゲイン値を算出することで、ゲイン値を決定してもよい。なお、係数決定部140がカットオフ周波数を算出する式は、実施の形態1の式3と同じであり説明を省略する。
【0136】
ゲイン値[dB]=log(Fc[Hz])×C+D
+サラウンド感×E+F 式(7)
【0137】
傾きC及びEと、切片D及びFとは、式6と同様である。
【0138】
図10及び
図11に示すように、サラウンド感は、フィルタ部12(ハイパスフィルタ)のカットオフ周波数を横軸、増幅部22のゲイン値を縦軸としたときにゲイン値の軸に平行なグラフで表されてもよい。
【0139】
係数決定部140は、式3で算出されたカットオフ周波数と式7とを用いてゲイン値を決定することで、ボーカル明瞭度を一定に保ったまま、サラウンド感をユーザの好みに調整することができる。このように決定されたゲイン値に対応する増幅係数は、ボーカル明瞭度及びサラウンド感に応じて決定された増幅係数の一例である。
【0140】
(その他の実施の形態)
以上、各実施の形態(以降において、実施の形態等とも記載する)について説明したが、本開示は、このような実施の形態等に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、各実施の形態における一部の構成要素を組み合わせて構築される別の形態も、本開示の範囲内に含まれる。
【0141】
例えば、上記各実施の形態では、係数決定部は、ユーザインタフェースから取得したボーカル明瞭度、又は、ボーカル明瞭度及びサラウンド感に応じて、フィルタ係数及び増幅係数を決定する例について説明したが、各係数の決定方法はこれに限定されない。例えば、音信号処理装置の記憶部は、音源に関する情報又はユーザの識別情報とフィルタ係数及び増幅係数とが対応付けられたテーブルを記憶しており、現在取得した音源に関する情報又はユーザの識別情報と当該テーブルとに基づいて、取得した情報に対応するフィルタ係数及び増幅係数を決定してもよい。音源に関する情報は、音源のジャンル、音源の用途(映画用、カラオケ用など)などであるがこれに限定されない。ユーザの識別情報は、ユーザを特定するための情報である。この場合、テーブルにおいて、フィルタ係数が大きくなると増幅係数も大きくなるように、フィルタ係数及び増幅係数が対応付けられている。
【0142】
また、上記実施の形態等における式2、4、6は、カットオフ周波数とゲイン値との相関関係を示す式である例について説明したがこれに限定されず、ボーカル明瞭度とゲイン値との相関関係を示す式であってもよい。
【0143】
また、上記実施の形態に係る係数決定部は、Lチャネルの入力信号及びRチャネルの入力信号にボーカル成分が含まれていない場合、差信号の成分を除去しないように、フィルタ係数を決定してもよい。つまり、係数決定部は、差信号をそのまま通過させるようにフィルタ係数を決定してもよい。係数決定部は、ユーザインタフェースなどを介して再生する音に関する情報を取得し、取得した情報に基づいて、再生する音にボーカル成分が含まれるか否かを判定し、判定結果に応じて、フィルタ係数を決定する処理を行ってもよい。
【0144】
また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【0145】
また、上記実施の形態等のフローチャートで説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。
【0146】
上記の音信号処理装置を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。上記RAMには、コンピュータプログラムが記憶されている。上記マイクロプロセッサが、上記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
【0147】
上記の音信号処理装置を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。上記ICカード又は上記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。上記ICカード又は上記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記ICカード又は上記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
【0148】
また、上記の音信号処理装置を構成する構成要素の一部は、上記コンピュータプログラム又は上記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている上記デジタル信号であるとしてもよい。
【0149】
また、上記の音信号処理装置を構成する構成要素の一部は、上記コンピュータプログラム又は上記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
【0150】
本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、上記コンピュータプログラムからなるデジタル信号であるとしてもよい。
【0151】
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムにしたがって動作するとしてもよい。
【0152】
また、上記プログラム又は上記デジタル信号を上記記録媒体に記録して移送することにより、又は上記プログラム又は上記デジタル信号を、上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
【0153】
また、実施の形態等をそれぞれ組み合わせるとしてもよい。
【産業上の利用可能性】
【0154】
本開示は、サラウンド再生を行う音響装置などに適用可能である。
【符号の説明】
【0155】
1、100 音信号処理装置
10 ボーカル除去部(除去部)
11 差信号生成部(第1の信号生成部)
12 フィルタ部
20 サラウンド処理部
21 サラウンド信号生成部(第2の信号生成部)
22 増幅部
30 ユーザインタフェース
40、140 係数決定部
50 合成部
51 第1の合成部
52 第2の合成部
60 反転部
1000 コンピュータ
1001 入力装置
1002 出力装置
1003 CPU
1004 内蔵ストレージ
1005 RAM
1009 バス