(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024152722
(43)【公開日】2024-10-25
(54)【発明の名称】ソース分離に基づく仮想低音強化
(51)【国際特許分類】
H04R 3/00 20060101AFI20241018BHJP
G10L 21/0308 20130101ALI20241018BHJP
H03G 5/02 20060101ALN20241018BHJP
【FI】
H04R3/00 310
G10L21/0308 Z
H03G5/02
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024065364
(22)【出願日】2024-04-15
(31)【優先権主張番号】23168140.4
(32)【優先日】2023-04-15
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】523074537
【氏名又は名称】インベンタム セミコンダクター ソシエタ ア レスポンサビリタ リミタータ
【氏名又は名称原語表記】INVENTVM Semiconductor SRL
(71)【出願人】
【識別番号】501193001
【氏名又は名称】ポリテクニコ ディ ミラノ
【氏名又は名称原語表記】POLITECNICO DI MILANO
【住所又は居所原語表記】Piazza Leonardo da Vinci,3220133 MILANO-Italy
(74)【代理人】
【識別番号】100104433
【弁理士】
【氏名又は名称】宮園 博一
(72)【発明者】
【氏名】メッツァ、アレッサンドロ イリッチ
(72)【発明者】
【氏名】ジャンピッコロ、リカルド
(72)【発明者】
【氏名】ベルナルディーニ、アルベルト
(72)【発明者】
【氏名】サルティ、アウグスト
【テーマコード(参考)】
5D220
5J030
【Fターム(参考)】
5D220AB01
5J030AA07
5J030AC09
(57)【要約】 (修正有)
【課題】スピーカの低音域または低周波数領域におけるオーディオ特性を改善するために入力音声信号における仮想低音を強化する仮想低音強化(VBE)装置を提供する。
【解決手段】仮想低音強化装置1000は、入力音声信号INから、入力音声信号INにおける一の音響ソース又は一群の音響ソースに対応する少なくとも1つの音声チャンネル1110~111Nを抽出する分離部1100と、音声チャンネル1110~111Nにおける低音認識の強化のための倍音を生成する少なくとも1つの仮想低音強化部1210~121Nと、強化音声信号OUTを生成するために、入力音声信号INに倍音を加算するように構成されている少なくとも1つの加算器1310~131Nと、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力音声信号(IN)における仮想低音の強化のための仮想低音強化装置(1000、2000、3000、5000)であって、
前記入力音声信号(IN)から、前記入力音声信号(IN)における一の音響ソースまたは一群の音響ソースに対応する少なくとも1つの音声チャンネル(1110~111N)を抽出するように構成されている分離部(1100)と、
前記音声チャンネル(1110~111N)における低音認識の強化のための倍音を生成するように構成されている少なくとも1つの仮想低音強化部(1210~121N、4210)と、
強化音声信号(OUT)を生成するために、前記入力音声信号(IN)に前記倍音を加算するように構成されている少なくとも1つの加算器(1310~131N)と、を備える、仮想低音強化装置(1000、2000、3000)。
【請求項2】
前記分離部(1100)は、前記入力音声信号(IN)から、少なくとも1つの前記音声チャンネル(1110~111N)を抽出するように学習された少なくとも1つのニューラルネットワークを含む、請求項1に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項3】
前記分離部(1100)は、前記入力音声信号(IN)から、複数の前記音声チャンネル(1110~111N)をそれぞれ抽出するように学習された複数のニューラルネットワークを含む、請求項1または2に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項4】
少なくとも1つの前記音声チャンネル(1110~111N)にフィルタを掛けるとともに、少なくとも1つのフィルタが掛けられた前記音声チャンネル(1110~111N)を出力するように構成されている少なくとも1つのフィルタ部(2410~241N)をさらに備え、
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、フィルタが掛けられた前記音声チャンネル(1110~111N)における前記低音認識の強化のための前記倍音を生成するように構成されている、請求項1~3のいずれか1項に記載の仮想低音強化装置(2000、3000、5000)。
【請求項5】
前記仮想低音強化部(1210~121N、4210)は、時間領域仮想低音強化部(1210~121N、4210)である、請求項1~4のいずれか1項に記載の仮想低音強化装置(2000、3000、5000)。
【請求項6】
少なくとも1つの前記フィルタ部(2410~241N)は、線形位相デジタルフィルタ、または、ゼロ位相デジタルフィルタである、請求項4または5に記載の仮想低音強化装置(2000、3000、5000)。
【請求項7】
前記入力音声信号(IN)からフィルタが掛けられた少なくとも1つの前記音声チャンネル(1110~111N)を減算するように構成されている少なくとも1つの減算器(3510~351N)をさらに備える、請求項3~6のいずれか1項に記載の仮想低音強化装置(3000、5000)。
【請求項8】
少なくとも1つの前記仮想低音強化部(4210)は、正規化部(4211)、非線形デバイス(4212)、および、増幅部(4213)を含む、請求項1~7のいずれか1項に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項9】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、区間(0,1]において1よりも小さい値を持つ連続した1次導関数および2次導関数を有する関数f(x)を少なくとも実行するように構成されている、請求項1~8のいずれか1項に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項10】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、関数f(x)=tanh(kx)を少なくとも実行するように構成されている、請求項9に記載の仮想低音強化装置(1000、2000、3000、5000)。
なお、kは、所定の値であって、好ましくは、1と等しい値、および/または、1よりも大きい値である。
【請求項11】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、式(1)による関数f(x)を少なくとも実行するように構成されている、請求項9に記載の仮想低音強化装置(1000、2000、3000、5000)。
【数1】
ここで、
「k」は、2.25に等しい定数であって、
「tanh」は、双曲線正接関数であり、
「atsr」は、逆正接平方根関数である。
【請求項12】
入力として前記強化音声信号(OUT)を受け取るとともに、フィルタが掛けられた前記強化音声信号を出力するハイパスフィルタ(5610)と、
フィルタが掛けられた前記強化音声信号に対して作用するピーク正規化部(5620)およびラウドネス正規化部(5630)と、をさらに備える、請求項1~11のいずれか1項に記載の仮想低音強化装置(5000)。
【請求項13】
カットオフ周波数を有するトランスデューサと共に用いられるように構成されており、
前記ハイパスフィルタ(5610)は、前記トランスデューサのカットオフ周波数に対応するカットオフ周波数を有している、請求項11に記載の仮想低音強化装置(5000)。
【請求項14】
前記音響ソースは、ドラム、ボーカル、または、楽器のいずれかを含む、請求項1~13のいずれか1項に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項15】
入力音声信号(IN)における仮想低音の強化のための仮想低音強化装置(1000、2000、3000、5000)であって、処理部および記憶部を含み、
前記記憶部は、前記入力音声信号(IN)から、前記入力音声信号(IN)における一の音響ソースまたは一群の音響ソースに対応する少なくとも1つの音声チャンネル(1110~111N)を抽出するように構成されている分離部(1100)を、前記処理部に実行させる命令を含み、
前記記憶部は、前記音声チャンネル(1110~111N)における低音認識の強化のための倍音を生成するように構成されている少なくとも1つの仮想低音強化部(1210~121N、4210)を、前記処理部に実行させる命令をさらに含み、
前記記憶部は、強化音声信号(OUT)を生成するために、前記入力音声信号(IN)に前記倍音を加算するように構成されている少なくとも1つの加算器(1310~131N)を、前記処理部に実行させる命令をさらに含む、仮想低音強化装置(1000、2000、3000、5000)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理の分野に関する。特に、本発明は、スピーカの低音域、または、低周波数領域におけるオーディオ特性を改善するための方法および装置に関する。
【背景技術】
【0002】
物理的な制限に起因して、小型スピーカは、特に低周波数において、音響の応答が悪いという特徴がある。スマートフォンおよびノートパソコンなどの携帯型電子機器に見られるような一般的な小型スピーカは、動電型スピーカでは約150Hz、圧電スピーカでは約300Hzのカットオフ周波数を示す。これにより、カットオフ周波数よりも低い20Hzから300Hzの範囲であると通常は認識されている低音域における音声信号の再生が損なわれることとなる。
【0003】
イコライザのような線形フィルタに基づく一般的な手法は、トランスデューサに損傷を与える可能性があり、望ましくない歪みを引き起こし、そして、結局のところ、この問題を解決することができない。
【0004】
この問題は、以下の2つの主なアプローチによって対処されている。一方のアプローチとして、装置設計に則って動作する際の上記の物理的な制限を克服する新しいトランスデューサが開発されている。他方のアプローチとして、トランスデューサの音響性能を強化するために、信号処理のアルゴリズムが開発されている。後者のアプローチでは、デジタル信号処理のアルゴリズムの一種として、仮想低音強化(virtual bass enhancement:VBE)が知られている。
【0005】
VBEは、音響心理効果のアイデアが取り組まれ始めた90年代に遡る。特に、従来技術において知られているいくつかのアルゴリズムは、いわゆるミッシングファンダメンタル現象に基づいている。この効果によれば、人の脳は、低い周波数が物理的には再生されていない場合にも、高調波の周期性により低い周波数が存在するものとして認識することができる。すなわち、人の脳は、高調波からミッシングファンダメンタル(欠落した基本波)を再構築することができる。
【0006】
過去数十年に渡って、異なるVBEアルゴリズムが提案されている。これらは、時間領域手法と周波数領域手法との主に2つのカテゴリーに分けることができる。
【0007】
時間領域方法は、単純で、軽く、トランジェントにおいてよい結果を示す。この方法では、通常、クロスオーバーネットワークによって音声トラックからローエンドが抽出される。そして、非線形デバイス(Nonlinear Device:NLD)が倍音を生成するために適用され、最終的に、高調波的に増強されたトラックが重み付けされて、元の信号のハイパスバージョンに加算されることによって、低音が強調された音声トラックが出力される。
【0008】
時間領域VBEアルゴリズムは、たとえば、下記の非特許文献1~5により知られている。
【0009】
周波数領域アプローチは、一方で、フェーズボコーダに基づいており、トランジェントよりも音色成分においてよい結果を示す。このアプローチでは、一般的に、周波数スペクトルにおいてもともとトランスデューサのカットオフ周波数よりも低い周波数を、より高い領域にマッピングするためのピッチシフトが適用される。そして、新しく導入された高調波が、周波数エンベロープ、または、等ラウドネス曲線に沿って重み付けされる。
【0010】
最終的に、2つのアプローチの利点を組み合わせるために、複合手法が提案されている。この手法は、トランジェントに時間領域方法を適用して、音声トラックの音色部分に周波数領域方法を適用することを目的としている。これは、通常、周波数の領域においてこのような分割を適用することによって実現される。複合手法は、多くの場合、計算コストが高いことによりリアルタイムシナリオには適用できないという特徴がある。
【0011】
周波数領域および複合VBEアルゴリズムは、たとえば、下記の非特許文献6~8により知られている。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley and Sons, Ltd, 2004
【非特許文献2】D. Ben-Tzur, “The effect of the maxxbass 1 psychoacoustic bass enhancement system on loudspeaker design,” in Proceedings of the 106th Audio Engineering Society Convention, 5 1999
【非特許文献3】N. Oo, W.-S. Gan, and M. O. J. Hawksford, “Perceptually-motivated objective grading of nonlinear processing in virtual-bass systems,” Journal of the Audio Engineering Society, vol. 59, pp. 804-824, 12 2011
【非特許文献4】N. Oo and W.-S. Gan, “Harmonic analysis of nonlinear devices for virtual bass system,” in Proc. Int. Conf. Audio, Language, and Image Processing, 8 2008, pp. 279-284
【非特許文献5】R. Giampiccolo, A. Bernardini, and A. Sarti, “A Time-Domain Virtual Bass Enhancement Circuital Model for Real-Time Music Applications,”IEEE 24th International Workshop on Multimedia Signal Processing (MMSP), Shanghai, China, 26-28 September 2022
【非特許文献6】M. R. Bai and W.-C. Lin, “Synthesis and implementation of virtual bass system with a phase-vocoder approach,” Journal of the Audio Engineering Society, vol. 54, pp. 1077-1091, 2006
【非特許文献7】E. Moliner, J. Ramo, and V. Valimaki, “Virtual bass system with fuzzy separation of tones and transients,” in Proceedings of the 23rd International Conference on Digital Audio Effects (DAFx2020), 9 2020
【非特許文献8】A. J. Hill and M. O. J. Hawksford, “A hybrid virtual bass system for optimized steady-state and transient performance,” in Proceedings of the 2nd Computer Science and Electronic Engineering Conference (CEEC), 9 2010, pp. 1-6
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかしながら、既知の時間領域手法では、相互変調歪み(Intermodulation Distortion:IMD)が問題となる。特に、NLDなどの非線形関数に、元の音声トラック(たとえば、楽器の多声の混成)のローパスバージョンを入れると、一度に複数の周波数成分の倍音が生成され、必然的に不快な不調和歪みが生成されることとなる。
【0014】
周波数領域手法では、一方で、フレームごとの処理により生じる不鮮明効果が問題となる。不鮮明効果は、結果として、時間分解能が低下することによってトランジェントおよびオンセットの知覚に悪影響を及ぼす。さらに、倍音の生成における制御が改善されるという特徴があるものの、通常、計算負荷が高くなる。
【0015】
したがって、信号に歪みを生じさせることなく、かつ、扱いやすい演算の複雑さで、スピーカの物理的な性能よりも小さい低周波数の音をリスナーに認識させることが可能な改善された仮想低音強化のアルゴリズムが必要とされている。
【課題を解決するための手段】
【0016】
一般に、本発明は、従来知られている仮想低音強化の手法が、音声信号の全体に適用するのではなく、入力音声信号における選択された部分に適用することにより改善され得るという考察に基づいている。さらにより具体的には、本発明は、そのような選択された部分が、入力音声信号からどのように抽出されるかに基づいている。
【0017】
特に、入力音声信号の一部(たとえば、クロスオーバーネットワークによりもたらされるローパス信号)に作用する従来知られている方法に反して、本発明は、VBEを切り分けられた音楽ステムに適用する。言い換えれば、本発明は、VBEを、たとえば、複数のボーカルライン、パーカッション、ストリングアンサンブルなどの共通のサウンド制作メカニズムを共有する切り分けられた音響ソース、または、その音響ソースのグループに適用することに関する。言い換えれば、本発明は、いずれの部分を他から独立してVBEに適用させるかを特徴とする。以下の記載により明らかにされるように、そのような成分を抽出するために音楽分離モデルを使用することによって、これを有利に得ることができる。このようにして、相互変調歪みを避けることができる。
【0018】
さらに、信号処理パイプラインに異なる前処理および後処理の段階を追加することができ、低音強化をさらに改善することができる。
【0019】
したがって、実施形態は、入力音声信号における仮想低音の強化のための仮想低音強化装置であって、入力音声信号から、入力音声信号における一の音響ソースまたは一群の音響ソースに対応する少なくとも1つの音声チャンネルを抽出するように構成されている分離部と、音声チャンネルにおける低音認識の強化のための倍音を生成するように構成されている少なくとも1つの仮想低音強化部と、強化音声信号を生成するために、入力音声信号に倍音を加算するように構成されている少なくとも1つの加算器と、を備える、仮想低音強化装置に関し得る。
【0020】
いくつかの実施形態において、分離部は、入力音声信号から、少なくとも1つの音声チャンネルを抽出するように学習された少なくとも1つのニューラルネットワークを含み得る。
【0021】
いくつかの実施形態において、分離部は、入力音声信号から、複数の音声チャンネルをそれぞれ抽出するように学習された複数のニューラルネットワークを含み得る。
【0022】
いくつかの実施形態において、仮想低音強化装置は、少なくとも1つの音声チャンネルにフィルタを掛けるとともに、少なくとも1つのフィルタが掛けられた音声チャンネルを出力するように構成されている少なくとも1つのフィルタ部をさらに備え得るとともに、少なくとも1つの仮想低音強化部は、フィルタが掛けられた音声チャンネルにおける低音認識の強化のための倍音を生成するように構成され得る。
【0023】
いくつかの実施形態において、仮想低音強化部は、時間領域仮想低音強化部であり得る。
【0024】
いくつかの実施形態において、少なくとも1つのフィルタ部は、線形位相デジタルフィルタ、または、ゼロ位相デジタルフィルタであり得る。
【0025】
いくつかの実施形態において、仮想低音強化装置は、入力音声信号からフィルタが掛けられた少なくとも1つの音声チャンネルを減算するように構成されている少なくとも1つの減算器をさらに備え得る。
【0026】
いくつかの実施形態において、少なくとも1つの仮想低音強化部は、正規化部、非線形デバイス、および、増幅部を含み得る。
【0027】
いくつかの実施形態において、少なくとも1つの仮想低音強化部は、区間(0,1]において1よりも小さい値を持つ連続した1次導関数および2次導関数を有する関数f(x)を少なくとも実行するように構成され得る。
【0028】
いくつかの実施形態において、少なくとも1つの仮想低音強化部は、関数f(x)=tanh(kx)を少なくとも実行するように構成され得る。なお、kは、所定の値であって、好ましくは、1と等しい値、および/または、1よりも大きい値である。
【0029】
いくつかの実施形態において、少なくとも1つの仮想低音強化部は、式(2)による関数f(x)を少なくとも実行するように構成され得る。
【数2】
ここで、
「k」は、2.25に等しい定数であって、
「tanh」は、双曲線正接関数であり、
「atsr」は、逆正接平方根関数である。
【0030】
いくつかの実施形態において、仮想低音強化装置は、入力として強化音声信号を受け取るとともに、フィルタが掛けられた強化音声信号を出力するハイパスフィルタと、フィルタが掛けられた強化音声信号に対して作用するピーク正規化部およびラウドネス正規化部と、をさらに備え得る。
【0031】
いくつかの実施形態において、仮想低音強化装置は、カットオフ周波数を有するトランスデューサと共に用いられるように構成され得るとともに、ハイパスフィルタは、トランスデューサのカットオフ周波数に対応するカットオフ周波数を有し得る。
【0032】
いくつかの実施形態において、音響ソースは、ドラム、ボーカル、または、楽器のいずれかを含む。
【図面の簡単な説明】
【0033】
【
図1】
図1は、仮想低音強化装置1000を模式的に示している。
【
図2】
図2は、複数のフィルタ部2410~241Nをさらに備えることにより仮想低音強化装置1000とは異なる仮想低音強化装置2000を模式的に示している。
【
図3】
図3は、複数の減算器3510~351Nをさらに備えることにより仮想低音強化装置2000とは異なる仮想低音強化装置3000を模式的に示している。
【
図4】
図4は、仮想低音強化部4210を模式的に示している。
【
図5】
図5は、後処理要素5610、5620、5630をさらに備えることにより仮想低音強化装置1000、2000、3000のいずれとも異なる仮想低音強化装置5000を模式的に示している。
【発明を実施するための形態】
【0034】
図1は、仮想低音強化装置1000を模式的に示している。仮想低音強化装置1000は、一般的に、入力音声信号INの仮想低音を強化するように構成されている。入力音声信号INは、アナログ信号またはデジタル信号とすることができ、後述するフィルタなどの要素はそれに応じて構成され得ることが、当業者には理解されるだろう。
【0035】
入力音声信号INは、一般的に、単一の音声信号において複数の音響ソース(音源)が組み合わされた結果である。たとえば、ドラム、ベース、ギター、および、ボーカルを含むバンドが、これらの音響ソースの組み合わせた結果として音声トラックに録音され得る。したがって、本出願の文脈において、音響ソースという用語は、たとえば、物理的な、または、合成された、楽器または声に対応するものとして理解され得る。
【0036】
好ましい実施形態において、音響ソースは、ドラム、ボーカル、または、楽器のいずれかを含み得る。特に好ましい実施形態において、音響ソースは、ドラムを含み得る。特に好ましい実施形態において、音響ソースは、スペクトルエネルギーの大部分が500Hzより小さく、好ましくは250Hzより小さい周波数に位置するいずれかの楽器を含み得る。それに替えて、または、それに加えて、特に好ましい実施形態において、音響ソースは、ピーク放射周波数が500Hzより小さく、好ましくは250Hzより小さい周波数に位置するいずれかの楽器を含み得る。ピーク放射周波数は、振幅が最も高い放射周波数として理解され得る。さらにそれに替えて、または、それに加えて、特に好ましい実施形態では、音響ソースは、基本周波数を有するいずれかの楽器を含み得るとともに、さらに好ましくは、その楽器の主基本周波数が500Hzより小さく、好ましくは250Hzより小さい周波数に位置するいずれかの楽器を含み得る。ここで、主基本周波数は、複数の基本周波数が含まれる場合に最も振幅の大きいものとして理解され得る。
【0037】
以下において明らかになるように、入力音声信号INの全体、または、様々なフィルタによる出力結果としての成分のいずれかに対してVBE処理が適用される従来技術との対比において、本発明は、入力音声信号INから少なくとも1つの音響ソースを分離し、その結果分離された少なくとも1つの音響ソースにVBE処理を適用するという革新的な態様を提供する。
【0038】
そのために、仮想低音強化装置1000は、分離部1100を備えている。分離部1100は、一般的に、入力音声信号INから、少なくとも1つの音声チャンネル1110~111Nを抽出するように構成されている。音声チャンネル1110~111Nは、入力音声信号INにおいて、たとえば、ドラムまたはベースギターなどの単一の音響ソース、または、たとえば、ドラムセットにおけるドラムとシンバルとの全体などの一群の音響ソースに対応し得る。所与の音声チャンネル1110~111Nにおいて、単一の音響ソースに分離することにより、信号処理、特にVBE処理の柔軟性および細分性をより高めることができ、そして、特定の音響ソースに適用することができる。逆に、たとえば、ドラムやベースのように単一の音声チャンネルにおいて複数の音響ソースが含まれる場合は、細分性が小さくなる可能性があるものの、演算処理の負担は小さくなる。
【0039】
入力音声信号INを複数の音声チャンネルに分離するためにいくつかの方法が利用できることは、当業者にとって明らかであろう。以下の好ましい実施形態では、一または複数の学習済みのニューラルネットワークを用いることが分離部1100の説明として記載されているが、本発明はこれに限られないことは明らかであろう。
【0040】
仮想低音強化装置1000は、少なくとも1つの仮想低音強化部1210~121N、好ましくは、時間領域仮想低音強化部1210~121Nを備えているが、本発明はこれに限定されず、替わりに、周波数領域仮想低音強化部が用いられ得る。少なくとも1つの仮想低音強化部1210~121Nは、音声チャンネル1110~111Nにおける低音認識の強化のための倍音を生成するように構成されている。好ましくは、仮想低音強化部1210~121Nの個数は、音声チャンネル1110~111Nの個数に対応しているか、または、仮想低音の強調のための倍音の生成が音声チャンネル1110~111Nのうちのいくつかのみに望まれる場合には、音声チャンネル1110~111Nの個数よりも小さい。
【0041】
信号の低音特性を強化、または、向上することを目的とした倍音の生成のためにいくつかの方法が利用できることは、当業者にとって明らかであろう。時間領域VBEアルゴリズムに限定される場合にも、いくつかのそのようなアルゴリズムが利用可能である。別段の指示がないかぎり、または、他の要素と技術的に矛盾しないかぎり、それらのうちのいずれもが本発明において採用され得ることは明らかである。
【0042】
仮想低音強化装置1000は、強化音声信号OUTを生成するために、入力音声信号INに倍音を加算するように構成されている少なくとも1つの加算器1310~131Nをさらに備える。好ましくは、加算器1310~131Nの個数は、音声チャンネル1110~111Nの個数に対応している。このように、強化音声信号OUTは、1つまたは複数がVBEアルゴリズムを介して処理された後の様々な音声チャンネル1110~111Nを含み得る。
【0043】
言い換えると、
図1の実施形態により、入力音声信号INが様々な音響ソースに対応する複数の音声チャンネルに分割または分離され、それらの音声チャンネルのうちの少なくとも1つにVBE処理が適用され、そして、音声チャンネルが再度結合されて、強化音声信号OUTが取得される。好ましくは、音声チャンネルの全てが結合されて強化音声信号OUTが取得される。
【0044】
このアプローチにより、所与の音響ソース、または、VBE処理に共に適用した場合に許容可能なレベルの不調和歪み(IMD)が生成されることがわかっている一群の音響ソースに対して、独立してVBE処理からの倍音が生成されるため、不快な不調和歪み(IMD)が発生することを回避することが有利に可能となる。
【0045】
したがって、このアプローチは、既知のVBEアルゴリズムにおける全ての利点、特に、演算処理の要求が低いことと、トランジェントにおいて動作することとを維持しながら、既知のVBEアルゴリズムのうちの特に時間領域に基づく手法の主な欠点のうちの1つを克服する。
【0046】
上記のように、音響ソースまたは楽器ソースのそれぞれに基づいて音声信号を複数のチャンネルに分離するために、当業者にとってさまざなな方法が知られている。本出願の好ましい実施形態では、分離部1100は、入力信号INから少なくとも1つの音声チャンネル1110~111Nを抽出するように学習された少なくとも1つのニューラルネットワークを含み得る。
【0047】
ニューラルネットワークが、異なる音響ソースを異なるそれぞれのチャンネルに正しく分離するのに特に効果的であるということが見出されたことから、このアプローチは特に有利である。
【0048】
さらに、単一のニューラルネットワークでも複数の音響ソースを認識して分割するように学習され得るのに対して、各々が1つまたは複数の音響ソースを認識して分割するように学習された複数のニューラルネットワークによって、様々な音響ソースの分割が首尾よく実行され得るということが見出された。したがって、いくつかの実施形態では、分離部1100は、入力信号INから、複数の音声チャンネル1110~111Nをそれぞれ抽出するように学習された複数のニューラルネットワークを含み得る。好ましくは、複数のニューラルネットワークの各々、さらに好ましくは全てのニューラルネットワークの各々が、単一の対応する音響ソースを認識するとともに分割するように学習され得る。
【0049】
このように、1つはボーカルに、もう1つはドラムに、またもう1つはベースに、などのように、音声チャンネル1110~111Nごとに1つのニューラルネットワークを学習することが有利に可能となる。これは、ボーカルなどの1つの音響ソースを認識するために求められる学習の種類が、ドラムなどのもう1つの音響ソースを認識するために求められる種類とはたいてい異なるため、特に有利であることが見出された。
【0050】
好ましい実施形態では、チャンネルの個数は、少ないよりも多い方が好ましい。実際に、入力信号INをより多くのチャンネルに分割することによって、一般的に、各々の独立した楽器、音響ソース、または、ステムに適用される処理をよりよく制御することができる。原則として、既存の分離モデルにおけるチャンネルの個数は、学習データの使用可能性のみにより制限され、分離部は、本質的に楽器の特定のセットにより制限されるものではない。しかしながら、全ての楽器が周波数スペクトルのローエンド部分、または、低音部分に有意なエネルギーを含んでいるわけではない。したがって、それらの楽器、または、音響ソースは、提案されたシステムへの影響がほとんどまたは全く無くなるように、単一の「その他」のチャンネルに割り当てられてもよい。
【0051】
図2は、複数のフィルタ部2410~241Nをさらに備えることにより仮想低音強化装置1000とは異なる仮想低音強化装置2000を模式的に示している。
【0052】
特に、仮想低音強化装置2000は、少なくとも1つの音声チャンネル1110~111Nにそれぞれフィルタを掛けるとともに、それぞれフィルタが掛けられた音声チャンネル1110~111Nを出力するように構成されている少なくとも1つのフィルタ部2410~241Nをさらに備えている。そして、対応する仮想低音強化部1210~121Nは、たとえば、低音認識の強化のための倍音を生成するように、それぞれフィルタが掛けられた音声チャンネル1110~111Nに対して動作するように構成され得る。
【0053】
この特定のアプローチにより、たとえば、低音部とより関連が深い部分などの音声チャンネル1110~111Nの特定の部分のために倍音が生成され得る。フィルタ部2410~241Nは、特定のチャンネルの音の特性に応じて構成され得る。たとえば、好ましい実施形態では、ローパスフィルタが、ドラムチャンネルオーディオからローエンドを抽出するために用いられ得る。それに替わって、または、それに加えて、他のチャンネルに平坦な伝達関数を用いることができる。すなわち、フィルタが適用されないようにしてもよい。場合によっては、周波数スペクトルの全体においてそれぞれのチャンネルを動作させることが望まれる場合があるため、これは有利に働く。フィルタ部2410~241Nを取り外すことによって同様の効果が得られることは明らかであろう。
【0054】
いくつかの好ましい実施形態では、仮想低音強化部1210~121Nおよび4210は、時間領域仮想低音強化部1210~121Nおよび4210である。上記のように、周波数領域仮想低音強化部もまた、時間領域仮想低音強化部1210~121Nおよび4210として用いられ得る。いくつかのさらなる実施形態では、仮想低音強化部1210~121Nおよび4210のうちのいくつかが、時間領域に基づき得るとともに、いくつかが周波数領域に基づき得る。
【0055】
好ましくは、少なくとも1つのフィルタ部2410~241N、また好ましくは、それらの過半数、さらに好ましくは、それらの全てが、線形位相デジタルフィルタ、または、ゼロ位相デジタルフィルタである。これにより、波形の形状を変化させ得る位相歪みが生じることが避けられることにより、たとえば、加算器1310~131Nを通過する場合などの信号の加算処理または減算処理のように、下流における動作の結果が妨げられることが避けられるので、特に有利となる。
【0056】
図3は、少なくとも1つの減算器3510~351Nをさらに備えることにより仮想低音強化装置2000とは異なる仮想低音強化装置3000を模式的に示している。
【0057】
特に、少なくとも1つの減算器3510~351Nは、入力音声信号INからフィルタが掛けられた少なくとも1つの音声チャンネル1110~111Nを減算するように構成され得るとともに、好ましくは、フィルタが掛けられる前の音声チャンネル1110~111N、または、それぞれの仮想低音強化部により処理されたフィルタが掛けられた音声チャンネル1110~111Nが、入力音声信号INに再度加算される。
【0058】
このアプローチにより、フィルタがかけられた音声チャンネル1110~111Nが二重に考慮されるのを避けることが有利に可能となる。また、フィルタ部2410~241Nがローパスフィルタである実施形態では、特に、音声信号の低周波数部分がVBE処理に用いられ得る一方で、それら自身は、強化音声信号OUTに含まれないこととなる。
【0059】
これまでに説明した実施形態では、原理的には、仮想低音強化部1210~121Nに既知の仮想低音強化アルゴリズムのいずれもが用いられ得るとともに、好ましくは時間領域アルゴリズムが用いられ得ると説明した。これに加えて、
図4は、仮想低音強化部1210~121Nのいずれかを実行することができる仮想低音強化部4210を模式的に示している。
【0060】
より具体的には、
図4に示すように、仮想低音強化部4210は、正規化部4211、非線形デバイス4212、および、増幅部4213のいずれかを含んでいる。これらの要素のいずれもが、その他の要素なしで実行可能であることは明らかであろう。
【0061】
正規化部4211の目的は、一般的に、信号を正規化することであって、好ましくは、所与のタイムウィンドウ内において、信号を正規化することである。これにより、非線形デバイス(non-linear device:NLD)4212の動作が向上するので、有利である。特に、NLD4212は、入力信号が準線形領域とも言われる非線形挙動があまり顕著ではない範囲の値を取る場合に、個数および/または振幅の量がより少ない高調波を生成することができる。逆に、NLDの非線形挙動がより顕著になる範囲にまたがる信号は、より大きな高調波の増強を受ける。
【0062】
したがって、好ましい実施形態では、正規化部4211は、一般的に、正規化された信号がNLD4212の準線形領域に限定されない値を有するように、好ましくは、正規化された信号がNLD4212の準線形領域の外側の値を有するように、信号を正規化するように構成され得る。
【0063】
好ましい実施形態では、これは、入力信号をフレームごとに正規化することによって達成される。たとえば、デジタル実装の場合、正規化は、新たなサンプルに処理が行われるときに、入力信号上をスライドする長さMのタイムウィンドウに含まれる全てのデジタルサンプルに適用され得るとともに、可能な限り一度に1つのサンプルに適用され得る。すなわち、正規化は、所定の期間のタイムスライディングウィンドウにおけるサンプルに対して実行され得る。これにより、正規化のパラメーターが過去のM個のサンプルに依存することにより時間の経過とともに更新される時間変動正規化が決定される。所与のウィンドウ内において、複数の正規化アルゴリズムが採用され得ることは明らかであろう。
【0064】
いくつかの好ましい実施形態では、正規化部4211は、適応リスケーリングにより実行され得る。たとえば、実現可能な実装において、正規化部4211は、ウィンドウ内の短時間信号の極値が±1になるように、過去のM個のサンプルにおける絶対値の最大値で入力サンプルを除算するように構成され得る。正規化部4211は、信号が所望の範囲、特にNLD4212の準線形領域の外側の値を取ることを確実にするために、このようにして得られた各サンプルを所定の正の値で乗算するようにさらに構成され得る。
【0065】
いくつかのさらに好ましい実施形態では、現在のウィンドウに適用される正規化は、少なくとも一部において、以前のウィンドウのリスケーリングパラメータにも依存する可能性がある。たとえば、指数移動平均更新規則が使用され得る。この方法では、正規化強度、すなわち次のNLDによる高調波強化は、前のウィンドウと比較してあるウィンドウで急激に変化することはない。好ましい実施形態では、上記のタイムウィンドウのいずれもが、数秒の長さ、例えば少なくとも2秒とされ得る。
【0066】
非線形デバイス4212は、たとえばデジタル実装において、たとえば正規化部4211の出力である信号x[k]のサンプルを入力とし、処理されたサンプルy[k]を出力する非線形関数f(x)(好ましくは瞬間的)を、実行するように構成され得る。ここで、y[k]=f(x[k])であり、kは、時間インデックスである。好ましい実施形態では、非線形関数が瞬間的である場合、x[k]における各々のサンプルは、全てのkにおいて、互いに独立して処理される。
【0067】
非線形関数f(x)に対する各種の定式化が実装され得るとともに、実際にいくつかが従来から知られている。それに加えて、区間(0,1]において1よりも小さい値を持つ連続した1次導関数および2次導関数を有するNLD関数が、動電型スピーカなどの低いカットオフ周波数を特徴とする装置に対してより優れた性能を発揮することが見出された。
【0068】
NLD関数f(x)の特に有利な例は、tanh(kx)である。ここで、kは、所定の値であって、好ましくは、1と等しい値、および/または、1よりも大きい値である。
【0069】
上記の定式化は、小型スピーカに適用される場合に特に効果的であることがさらに見出された。同時に、これらは圧電トランスデューサにも非常に適していることもまた見出された。特にtanhを用いた特定の実装は、より強力な低音の強化につながるとともに、圧電式のトランスデューサにとって好ましいことが見出された。これは、圧電トランスデューサは、より高いカットオフ周波数をもつ傾向があるためであり、両サイド飽和挙動を特徴とするNLD関数f(x)を採用することにより、より多くの高調波を生成することができ、動電型スピーカと比べてVBE効果を向上させることが見出された。本明細書において、「両サイド」という用語は、正および負の両方の半波形の飽和を指すものとして理解され得る。tanh(x)の使用により、高振幅の信号が供給された場合に、知覚的な低音の強化と可聴歪みの間で特に有利なトレードオフが提供されることが見出された。これは、tanh(x)が、音楽処理でよく見られる対称ダイオードクリッピングおよび/またはオーバードライブユニットなどの典型的な飽和ユニットに似ているためと考えられる。
【0070】
f(x)のさらなる例として、下記の式(3)による定式化が特に効果的であると見出された。
【数3】
ここで、
「k」は、2.25に等しい定数であって、
「tanh」は、双曲線正接関数であり、
「atsr」は、逆正接平方根関数である。
【0071】
この実装により、正および負の半波形の極端に不均衡な重み付けを避けられるので、特に有利であることが見出された。一般に、正および負の半波形における不均衡な重み付けは、それ自体が否定的ではない。実際、VBEに関する限り、非対称関数が好ましい場合がよくある。しかしながら、従来の様々なNLD関数は、正および負の半波形に対して非常に不均衡な効果を有しており、一方が他方に比べてより効果を得る。それとは対照的に、上記したNLD関数の一つの利点は、一方の半波形を他方に対して不均衡に増幅しないことである。
【0072】
さらなる一つの有利な点は、NLD関数が非対称的であることにより偶数と奇数との両方の高調波を生成することである。実際、ミッシングファンダメンタル現象は、偶数と奇数との両方の高調波が存在している場合により効果的に引き起こされる。
【0073】
増幅部4213は、振幅を調整するための所定のゲイン値によって、たとえばNLD4212の出力である自身の入力を乗算するように構成され得る。これにより、処理された音声成分のレベルを制御することができる。
【0074】
いくつかの好ましい実施形態では、ゲイン値は、正規化部4211における正規化パラメータの関数であり得る。好ましい実装において、ゲイン値は、前のタイムウィンドウおよび/または後続のタイムウィンドウにおける信号と比較して、より顕著な高調波の生成を受けた信号のレベルを低下させるように構成され得る。
【0075】
したがって、上記から、本発明により、入力信号INから互いに別個に複数の音響ソースを抽出できることが明らかである。結果として、これらの音響ソースが個別に処理され、そのため、互いに異なるように処理される。これにより、従来技術に関して、より高度なモジュール性、細分性、および、制御が得られる。
【0076】
このような細分性は、信号処理チェーンのいずれの部分においても適用され得る。たとえば、所与のチャンネル1110~111Nのスペクトル成分に応じて、理想的なフィルタ部2410~241Nを適切に構成することができる。それに替えて、または、それに加えて、正規化は、互いに異なる可能性がある様々な信号に対して独立して動作するように構成されているので、異なる音響ソースに対して異なるように正規化部4211を動作させることができる。
【0077】
さらに、考慮中の音楽トラックに応じて、独立したチャンネルにおける音響ソースの分割によって、非線形デバイス4212において、所与のNLD関数の機能を所与のチャンネルに適用し、異なるNLD関数の機能を別のチャンネルに適用することが可能となる。特に、NLD特性は、VBEシステムが設計されているトランスデューサに関して選択され得る。より具体的には、NLD特性は、たとえば、導入された高調波の数、タイプ、振幅、および、エネルギーなどに関して、所与のチャンネルにおける音響ソースに最も適した非線形性のうちから選択され得る。
【0078】
さらに、増幅部4213もまた、異なるチャンネルに対して異なるように動作し得る。これにより、本発明では、低音の強化をチャンネルごとに調整および調節することが可能となる。
【0079】
たとえば、好ましい実施形態では、ドラムチャンネルは、ローパスフィルタにより適用され得るとともに、他のフィルタ部241Nは、ユニタリフラット変換関数を有するように構成され得る。これは、ベースチャンネルなど、一般的に低音の知覚に関連する音響ソースに対しても好ましく、本願発明者は、いくつかの実施形態において、そのスペクトルのサブバンドに焦点を当てる替わりに、その全体において有利に処理されることを見出した。
【0080】
したがって、入力信号INの複数のチャンネルへの分離により、仮想低音強化装置の設計者は、各音響ソースの知覚的特性および音色特性に合わせて調整されたVBEアルゴリズムを、他のものとは独立して構成することができる。これにより、IMDを低減できるという利点のみならず、それぞれの音響ソースに最適な仮想低音強化部1210~121Nまたは4210において、特定のVBEアルゴリズムを選択する際の柔軟性と細分性を向上させることができる。
【0081】
図5は、強化音声信号OUTのための後処理要素5610、5620、5630をさらに備えることにより仮想低音強化装置1000、2000、3000のいずれとも異なる仮想低音強化装置5000を模式的に示している。単一の実施形態において共に説明されているものの、これらの要素のいずれかが互いに個別に実装され得ること、および/または、これらの要素の内のいずれかの組み合わせが実装され得ることは、明らかだろう。
【0082】
特に、仮想低音強化装置5000は、図示されたように、強化音声信号OUTを生成するための上記の仮想低音強化装置のいずれかの要素と、入力として強化音声信号OUTを取得するとともにフィルタが掛けられた強化音声信号を出力するハイパスフィルタ5610とを備えている。
【0083】
好ましい実施形態では、仮想低音強化装置は、カットオフ周波数を有するトランスデューサと共に用いられるように構成されている。ハイパスフィルタ5610は、カットオフ周波数を有するように設定されており、好ましくは、トランスデューサのカットオフ周波数と等しいカットオフ周波数を有するように設定される。これは、ハイパスフィルタ5610により除去された周波数が、少なくとも適切なレベルで、かつ/または、顕著な歪みを伴わずに、スピーカにより適切に再生され得るものではないため、特に有利である。加えて、それらの周波数成分が後の正規化に影響を与えないために、それらの周波数成分の除去は有利である。トランスデューサ、特に小型のトランスデューサのカットオフ周波数は、それ以下の周波数ではトランスデューサが正常に動作できない周波数として理解され得る。これは、最小出力周波数として理解され得る。
【0084】
仮想低音強化装置5000は、図示されたように、フィルタが掛けられた強化音声信号において動作するピーク正規化部5620および/またはラウドネス正規化部5630をさらに備えている。これらの要素は、ピークおよびラウドネスの正規化のためのいずれかの既知のアルゴリズムを採用し得る。
【0085】
これらの正規化のいずれか、特にこれらの組み合わせにより、クリッピングが回避され、かつ/または、知覚されるラウドネスが元のトラックのままとされる。さらに、これらによりスピーカに損傷を与え得る急なエネルギー上昇が避けられる。
【0086】
特に、VBEの目的の1つは、新たに生成された高調波を信号に導入し、リスナーに再生されていない低音周波数の感覚を提供することである。これにより、結果として信号のエネルギーが増加する。スピーカの駆動において、特に小型の場合、高エネルギー信号では、トランスデューサの機械部品にストレスがかかり、最終的に損傷や破損を引き起こす可能性がある。損傷は、加法イコライゼーションによって得られるような低周波振幅の単純なブーストにより生成される高歪みによっても引き起こされ得る。エネルギーの増加がバーストで発生する場合これがさらなる問題となる。
【0087】
音楽トラックのキックドラムが一例となり得る。キックドラムのヒット音は、ローエンドを多く含み、これに対応して生成される高調波成分が多くなる。これらの高調波を強化された信号に含めることは、キックドラムが再生されるたびに毎回エネルギーを増加させ、スピーカを損傷する可能性のある急激な機械的な昂ぶりを引き起こす。
【0088】
ピーク正規化およびラウドネス正規化を適用することは、この問題に対処し、本発明の実施形態として実施され得る。しかしながら、信号のフィルタリングが何も行われない場合には、トランスデューサが再生できない周波数範囲のエネルギーが正規化の処理において考慮されるため、全体的な音量が低下し得る。
【0089】
したがって、好ましい実施形態では、トランスデューサが再生できない周波数帯のエネルギーは、ハイパスフィルタ5610により除去されるのが有利である。そして、結果として得られた信号は、ピークおよび/またはラウドネスの正規化によって正規化される。これにより、トランスデューサが過度に高い振幅の信号により駆動されることがなくなる。同時に、信号がハイパスフィルタ5610によってフィルタリングされるため、ピーク正規化部5620および/またはラウドネス正規化部5630における正規化は、それらの周波数成分の影響を受けない。これにより、本発明は、ハイパスフィルタ5610がない場合に比べてより大きな信号を達成できる。
【0090】
さらに好ましい実施形態では、ピーク正規化部5620および/またはラウドネス正規化部5630における正規化は、正規化された音声信号の音圧レベル(Sound pressure level:SPL)が入力音声信号INのSPLと同じになるように構成され得る。
【0091】
上記の実施形態では、仮想低音強化装置は、物理的な部品および/またはソフトウェアにより実装可能であると理解され得る。したがって、純粋なソフトウェアの実装では、仮想低音強化装置は、処理部(プロセッサ)および記憶部(メモリ)を備え得るとともに、記憶部は、上記したいずれかの構成または要素を処理部に実行させる命令を含み得る。
【0092】
このように、改善された仮想低音強化処理を実現するために、様々な実施形態がどのようにして実行され得るかを説明した。様々な実施形態の各々において、特定の特徴を説明したが、いずれかの実施形態における1または複数の特徴が他の任意の実施形態における1または複数の特徴と組み合わされ得るとともに、特に、それぞれの実施形態の残りの特徴から切り離して組み合わせ得ることは、当業者にとって、明らかであろう。
【符号の説明】
【0093】
1000 仮想低音強化装置
1100 分離部
1110~111N 音声チャンネル
1210~121N 仮想低音強化部
1310~131N 加算器
IN 入力音声信号
OUT 強化音声信号
2000 仮想低音強化装置
2410~241N フィルタ部
3000 仮想低音強化装置
3510~351N 減算器
4210 仮想低音強化部
4211 正規化部
4212 非線形デバイス
4213 増幅部
5000 仮想低音強化装置
5610 ハイパスフィルタ
5620 ピーク正規化部
5630 ラウドネス正規化部
【手続補正書】
【提出日】2024-05-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
入力音声信号(IN)における仮想低音の強化のための仮想低音強化装置(1000、2000、3000、5000)であって、
前記入力音声信号(IN)から、前記入力音声信号(IN)における一の音響ソースまたは一群の音響ソースに対応する少なくとも1つの音声チャンネル(1110~111N)を抽出するように構成されている分離部(1100)と、
前記音声チャンネル(1110~111N)における低音認識の強化のための倍音を生成するように構成されている少なくとも1つの仮想低音強化部(1210~121N、4210)と、
強化音声信号(OUT)を生成するために、前記入力音声信号(IN)に前記倍音を加算するように構成されている少なくとも1つの加算器(1310~131N)と、を備える、仮想低音強化装置(1000、2000、3000)。
【請求項2】
前記分離部(1100)は、前記入力音声信号(IN)から、少なくとも1つの前記音声チャンネル(1110~111N)を抽出するように学習された少なくとも1つのニューラルネットワークを含む、請求項1に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項3】
前記分離部(1100)は、前記入力音声信号(IN)から、複数の前記音声チャンネル(1110~111N)をそれぞれ抽出するように学習された複数のニューラルネットワークを含む、請求項1または2に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項4】
少なくとも1つの前記音声チャンネル(1110~111N)にフィルタを掛けるとともに、少なくとも1つのフィルタが掛けられた前記音声チャンネル(1110~111N)を出力するように構成されている少なくとも1つのフィルタ部(2410~241N)をさらに備え、
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、フィルタが掛けられた前記音声チャンネル(1110~111N)における前記低音認識の強化のための前記倍音を生成するように構成されている、請求項1または2に記載の仮想低音強化装置(2000、3000、5000)。
【請求項5】
前記仮想低音強化部(1210~121N、4210)は、時間領域仮想低音強化部(1210~121N、4210)である、請求項1または2に記載の仮想低音強化装置(2000、3000、5000)。
【請求項6】
少なくとも1つの前記フィルタ部(2410~241N)は、線形位相デジタルフィルタ、または、ゼロ位相デジタルフィルタである、請求項4に記載の仮想低音強化装置(2000、3000、5000)。
【請求項7】
前記入力音声信号(IN)からフィルタが掛けられた少なくとも1つの前記音声チャンネル(1110~111N)を減算するように構成されている少なくとも1つの減算器(3510~351N)をさらに備える、請求項4に記載の仮想低音強化装置(3000、5000)。
【請求項8】
少なくとも1つの前記仮想低音強化部(4210)は、正規化部(4211)、非線形デバイス(4212)、および、増幅部(4213)を含む、請求項1または2に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項9】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、区間(0,1]において1よりも小さい値を持つ連続した1次導関数および2次導関数を有する関数f(x)を少なくとも実行するように構成されている、請求項1または2に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項10】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、関数f(x)=tanh(kx)を少なくとも実行するように構成されている、請求項9に記載の仮想低音強化装置(1000、2000、3000、5000)。
なお、kは、所定の値であって、好ましくは、1と等しい値、および/または、1よりも大きい値である。
【請求項11】
少なくとも1つの前記仮想低音強化部(1210~121N、4210)は、式(1)による関数f(x)を少なくとも実行するように構成されている、請求項9に記載の仮想低音強化装置(1000、2000、3000、5000)。
【数1】
ここで、
「k」は、2.25に等しい定数であって、
「tanh」は、双曲線正接関数であり、
「atsr」は、逆正接平方根関数である。
【請求項12】
入力として前記強化音声信号(OUT)を受け取るとともに、フィルタが掛けられた前記強化音声信号を出力するハイパスフィルタ(5610)と、
フィルタが掛けられた前記強化音声信号に対して作用するピーク正規化部(5620)およびラウドネス正規化部(5630)と、をさらに備える、請求項1または2に記載の仮想低音強化装置(5000)。
【請求項13】
カットオフ周波数を有するトランスデューサと共に用いられるように構成されており、
前記ハイパスフィルタ(5610)は、前記トランスデューサのカットオフ周波数に対応するカットオフ周波数を有している、請求項12に記載の仮想低音強化装置(5000)。
【請求項14】
前記音響ソースは、ドラム、ボーカル、または、楽器のいずれかを含む、請求項1または2に記載の仮想低音強化装置(1000、2000、3000、5000)。
【請求項15】
入力音声信号(IN)における仮想低音の強化のための仮想低音強化装置(1000、2000、3000、5000)であって、処理部および記憶部を含み、
前記記憶部は、前記入力音声信号(IN)から、前記入力音声信号(IN)における一の音響ソースまたは一群の音響ソースに対応する少なくとも1つの音声チャンネル(1110~111N)を抽出するように構成されている分離部(1100)を、前記処理部に実行させる命令を含み、
前記記憶部は、前記音声チャンネル(1110~111N)における低音認識の強化のための倍音を生成するように構成されている少なくとも1つの仮想低音強化部(1210~121N、4210)を、前記処理部に実行させる命令をさらに含み、
前記記憶部は、強化音声信号(OUT)を生成するために、前記入力音声信号(IN)に前記倍音を加算するように構成されている少なくとも1つの加算器(1310~131N)を、前記処理部に実行させる命令をさらに含む、仮想低音強化装置(1000、2000、3000、5000)。
【外国語明細書】