(58)【調査した分野】(Int.Cl.,DB名)
前記帯域レベル設定手段は、前記2以上の周波数帯域のうちの少なくとも2つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも2つの周波数帯域の各々のレベルと、前記ソース音データの当該少なくとも2つの周波数帯域の各々の設定前のレベルに対する設定後のレベルの比であるゲインと、の関係が異なる前記所定の規則となるように、前記ソース音データの当該少なくとも2つの周波数帯域のレベルの設定を行う
請求項1に記載のマスキング音データ生成装置。
前記帯域レベル設定手段は、前記2以上の周波数帯域のうちの少なくとも2つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも2つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる前記所定の規則となるように、前記ソース音データの当該少なくとも2つの周波数帯域のレベルの設定を行う
請求項1または2に記載のマスキング音データ生成装置。
【発明を実施するための形態】
【0014】
[1.実施形態]
以下に本発明の一実施形態に係るマスキング音生成システム1の構成および動作を説明する。
図1は、マスキング音生成システム1の構成を示したブロック図である。マスキング音生成システム1は、マスキング音を示す音データ(以下、「マスキング音データ」という)を生成するマスキング音データ生成装置11と、話者Aの音声(マスキング対象の音声)を収音し音データ(以下、「話者音データ」という)を生成する収音装置であるマイク12と、マスキング音データを生成するために素材として用いられる音を示す音データ(以下、「ソース音データ」という)を記憶する記憶装置13と、聴者B(話者Aの音声の内容の伝達を阻害したい対象となる相手)がいる空間に対してマスキング音データ生成装置11が生成するマスキング音データが示す音をマスキング音として放音する放音装置であるスピーカ14と、を備えている。
【0015】
記憶装置13に記憶されるソース音データは、例えば、低音の声の人と高音の声の人、男性と女性、大人と子ども等のように各々属性の異なる人が、母音および子音を概ね均等に網羅する標準的な日本語の文章を読み上げた音声を示す音データに、音声の無意味化のための処理(例えば、一定長の時間長に分割したブロック内におけるデータを時間軸方向に反転したり、またはブロックの順序を入れ替えたりする処理)を施して生成されたデータである。
【0016】
マスキング音データ生成装置11は、マイク12が生成する話者音データの入力を受ける入力IF(Interface)111と、入力IF111に入力された話者音データをm個(m≧2)の周波数帯域に分割し周波数帯域毎の音データ(以下、「帯域話者音データ」という)を生成するバンドパスフィルタ(Bandpass Filter)群であるBPF112−1〜m(以下、これらを総称して「BPF112」という)と、BPF112が生成した帯域話者音データの各々のレベルを特定するレベル検知回路(Level Detector)であるLD113−1〜m(以下、これらを総称して「LD113」という)と、を備える。ここで、入力IF111は話者音データ取得手段を構成し、BPF112及びLD113は帯域レベル特定手段を構成する。
【0017】
さらに、マスキング音データ生成装置11は、記憶装置13に記憶されているソース音データの入力を受ける入力IF114と、入力IF114に入力されたソース音データを順次読み出して出力する再生部115と、再生部115が出力したソース音データをm個の周波数帯域に分割し周波数帯域毎の音データ(以下、「帯域ソース音データ」という)を生成するバンドパスフィルタ群であるBPF116−1〜m(以下、これらを総称して「BPF116」という)と、LD113−1〜mのうち同じ枝番のLD113が特定した帯域話者音データのレベルに基づき、BPF116−1〜mのうち同じ枝番のBPF116が生成した帯域ソース音データのレベルを変更する回路(レベルコントローラ、Level Controller)であるLC117−1〜m(以下、これらを総称して「LC117」という)と、を備える。ここで、入力IF114はソース音データ取得手段を構成する。
【0018】
さらに、マスキング音データ生成装置11は、LC117によりレベルの変更された帯域ソース音データを加算してマスキング音を示す音データ(以下、「マスキング音データ」という)を生成する加算器118と、加算器118が生成したマスキング音データをスピーカ14に出力する出力IF119と、を備える。ここで、加算器118は、BPF116及びLC117と共に帯域レベル設定手段を構成する。
【0019】
2
また、BPF112、LD113、BPF116、LC117の各帯域は、それぞれ1対1で対応する。具体的には、kを1≦k≦mである任意の自然数とするとき、LD113−kはBPF112−kから帯域話者音データを取得し、当該帯域話者音データのレベルを特定する。また、LC117−kはBPF116−kから帯域ソース音データを取得し、LD113−kが特定した帯域話者音データのレベルに基づき、当該帯域ソース音データのレベルを変更する。
【0020】
LC117−1〜mの各々はメモリを備え、当該メモリはLC117−1〜mの各々に設定されたレベル変更パラメータを記憶している。LC117−1〜mの各々に応じたレベル変更パラメータは、ゲイン特定関数GR−1〜m(以下、これらを総称して「ゲイン特定関数GR」という)と時定数TC−1〜m(以下、これらを総称して「時定数TC」という)を含んでいる。
【0021】
ゲイン特定関数GR−1〜mは、LD113−1〜mの各々が特定する帯域話者音データのレベル(以下、「参照信号レベル」という)と、BPF116−1〜mの各々が取得する帯域ソース音データのレベルをLC117−1〜mが変更する場合のゲインの収束値(以下、「目標ゲイン」という)との対応関係を示す関数である。また、時定数TC−1〜mは、LC117−1〜mのレベル変更におけるゲインが、ゲイン特定関数GR−1〜mで決定される目標ゲインへ収束するまでの応答の速さを示す数値である。LC117−1〜mの各々は、ゲイン特定関数GRが示す参照信号レベルに応じた目標ゲインへ時定数TCが示す応答の速さで収束するように、帯域ソース音データのレベルを各周波数帯域で制御する。なお、望ましいマスキング音データを得るために、ゲイン特定関数GR−1〜mの少なくとも2つが互いに異なっている。また、時定数TC−1〜mに関しても、望ましいマスキング音データを得るために、時定数TC−1〜mの少なくとも2つが互いに異なっている。
【0022】
図2は、ゲイン特定関数GRの3つの例((a)〜(c))を各々グラフで示したものである。
図2中のグラフ(a)には目標ゲインに下限が設けられており、参照信号レベルがl
2以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。(b)にも目標ゲインに下限が設けられており、参照信号レベルl
1以下(l
1<l
2)において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。(c)には目標ゲインに上限が設けられており、参照信号レベルがl
3以上(l
2<l
3)において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
2(g
1<g
2)を出力する。
【0023】
図2中のグラフ(a)〜(c)が示す3つのゲイン特定関数GRを比較した場合、参照信号レベルの全ての領域において、同じ参照信号レベルの入力に対し、(a)よりも(b)が、また(b)よりも(c)が、同一又はより大きい目標ゲインを出力する。従って、音声マスキングにおいて、伝達を阻害すべき音声の情報の重要度が低い周波数帯域のLC117には、例えば、(a)のゲイン特定関数GRをレベル変更パラメータとして設定し、伝達を阻害すべき音声の情報の重要度が高い周波数帯域のLC117には、例えば、(c)のゲイン特定関数GRをレベル変更パラメータとして設定する。
【0024】
音声の情報の重要度が高い周波数帯域としては、例えば、マスキングされるべき音声のフォルマントや子音の周波数成分を多く含む周波数帯域が挙げられる。
【0025】
図3は、ゲイン特定関数GRの他の3つの例((a)〜(c))を各々グラフで示したものである。
図3中のグラフ(a)〜(c)のいずれにも、目標ゲインに下限および上限が設けられている。すなわち、(a)〜(c)のいずれも、参照信号レベルl
1以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。また、(a)〜(c)のいずれも、参照信号レベルl
2以上(l
1<l
2)において、参照信号レベルの大小に関わらず目標ゲインとして一定値を出力する。ただし、参照信号レベルl
2以上(l
1<l
2)において(a)〜(c)の各々が出力する目標ゲインの値は異なっており、(a)は一定値g
2を、(b)は一定値g
3を、(c)は一定値g
4を、各々出力する
(g
1<g
2<g
3<g
4)。
【0026】
図3中のグラフ(a)〜(c)が示す3つのゲイン特定関数GRを比較した場合、参照信号レベルl
1以上において、同じ参照信号レベルの入力に対し、(a)よりも(b)のゲイン特定関数GRが、また(b)よりも(c)のゲイン特定関数GRが、より大きい目標ゲインを出力する。マスキングされるべき音声のレベルが大きい程、当該音声の内容が聴者に漏れ聞こえる危険性も高まるため、情報伝達の阻止の重要度が高まる。従って、これらの3つのゲイン特定関数GRを用いる場合、例えば、重要度の低い周波数帯域のLC117には参照信号レベルが大きい領域において小さい目標ゲインを出力する(a)のゲイン特定関数GRをレベル変更パラメータとして設定し、重要度の高い周波数帯域のLC117には参照信号レベルが大きい領域において大きい目標ゲインを出力する(c)のゲイン特定関数GRをレベル変更パラメータとして設定する。
【0027】
このように、音声マスキングにおいて、伝達を阻害すべき音声の情報の重要度に応じて、周波数帯域毎に最適なゲイン特定関数GRを設定することにより、マスキング音データ生成装置11により生成されるマスキング音データのマスキング効果を高めることができる。
【0028】
なお、マスキング音データ生成装置11が話者音データをマイク12から受け取った後、当該話者音データの周波数帯域毎のレベルに応じて生成したマスキング音をスピーカ14に出力するまでに若干の処理時間がかかる。従って、マスキング音データ生成装置11が話者音データを取得した時の周波数帯域毎の参照信号レベルと、マスキング音が放音される時のマスキングされる音声の周波数帯域毎のレベルとは、若干異なる。しかしながら、マスキング音データ生成装置11における処理時間等が十分に短ければ、マスキング音データ生成装置11が話者音データを取得した時の周波数帯域毎の参照信号レベルは、概ねマスキング音が放音される時のマスキングされる音声の周波数帯域毎のレベルを示すと考えて差し支えない。
【0029】
また、ゲイン特定関数GRは、
図2や
図3に例示するもののように線形に変化するものに限られず、例えば
図4に例示するもののように、非線形なものであってもよい。
なお、LC117のメモリに記憶されるゲイン特定関数GRを示すデータは、例えば関数式を示すデータや参照信号レベルと目標ゲインとの対応表を示すデータ等のいずれの形式であってもよい。また、LC117は、参照信号レベルの入力に対しゲイン特定関数GRが示す目標ゲインを出力するアナログ回路やデジタル回路として構成されてもよい。
【0030】
LC117に設定されるもう一つのレベル変更パラメータである時定数TCは、入力される参照信号レベルに応じてゲイン特定関数GRに従い出力される目標ゲインに達するまでの応答の速さである。従って、大きい時定数TCが設定されているLC117は、入力される参照信号レベルに対する追従が遅く、参照信号レベルが急速に変化しても、LC117が帯域ソース音データのレベルを変化させる際のゲインは緩慢に変化することになる。一方、小さい時定数TCが設定されているLC117は、入力される参照信号レベルに対する追従が速く、参照信号レベルが急速に変化すれば、LC117が帯域ソース音データのレベルを変化させる際のゲインも急速に変化することになる。
【0031】
例えば、子音の周波数成分を多く含む周波数帯域に関しては、急速にレベルが変化する子音をマスキングするために、マスキング音におけるレベルを参照信号レベルに応じて急速に変化させることがマスキング効果の観点から望ましい。従って、子音の周波数成分を多く含む周波数帯域のLC117には小さい時定数TCを設定することで、マスキング音データ生成装置11により生成されるマスキング音データのマスキング効果を高めることができる。
【0032】
また、例えば概ね30〜200Hzの周波数帯域のレベルが小刻みに変化する音を聴くと、聴者が乗り物酔いに似た違和感や不快感をもつことがある。このため、概ね30〜200Hzの周波数帯域に関しては、マスキング音におけるレベルを参照信号レベルの変化に比べ緩慢に変化させることが、聴者の違和感や不快感の低減の観点から望ましい。従って、概ね30〜200Hzの周波数帯域のLC117には大きい時定数TCを設定することで、マスキング音データ生成装置11により生成されるマスキング音データが聴者に与える違和感や不快感を低減することができる。
【0033】
マスキング音生成システム1の動作は以下のとおりである。まず、BPF112−1〜mの各々は、入力IF111を介して、マイク12から話者Aの音声を示す話者音データを継続的に受け取る。BPF112−1〜mはマイク12から受け取った話者音データをフィルタ処理して帯域話者音データを生成し、LD113−1〜mに引き渡す。LD113−1〜mはBPF112−1〜mから受け取った帯域話者音データが示す音のスペクトルラムの包絡線を求め、そのレベルを特定する。LD113−1〜mは、特定したレベルを参照信号レベルとしてLC117−1〜mに引き渡す。
【0034】
入力IF111、BPF112およびLD113による上記の処理と並行して、再生部115は、入力IF114を介して記憶装置13からソース音データを順次読み出してBPF116−1〜mに引き渡す。BPF116−1〜mは受け取ったソース音データをフィルタ処理して帯域ソース音データを生成し、LC117−1〜mに引き渡す。
【0035】
LC117−1〜mは、LD113−1〜mから順次引き渡される参照信号レベルを受け取り、BPF116−1〜mから順次引き渡される帯域ソース音データを受け取る。LC117−1〜mは、受け取った参照信号レベルに応じた目標ゲインをゲイン特定関数GR−1〜mに基づき特定し、時定数TC−1〜mに示される応答速度で特定した目標ゲインに達するように、現在のゲインを決定する。LC117は、決定したゲインとなるように、BPF116−1〜mから受け取った帯域ソース音データのレベルを変更し、レベルを変更した帯域ソース音データを加算器118に引き渡す。
【0036】
加算器118は、LC117−1〜mの各々から受け取った帯域ソース音データを加算してマスキング音データを生成する。加算器118は生成したマスキング音データを、出力IF119を介してスピーカ14に出力する。スピーカ14は、マスキング音データ生成装置11から入力されるマスキング音データに従い、マスキング音を聴者Bのいる空間に放音する。その結果、話者Aの音声の内容の聴者Bに対する漏れ聞こえが防止される。
【0037】
以上のように、マスキング音生成システム1によれば、周波数帯域毎に設定されたゲイン特定関数GRと時定数TCに従い、周波数帯域毎に、話者音データのレベルに応じてレベル調整のされたマスキング音データが生成される。従って、各周波数帯域に対し適切なゲイン特定関数GRと時定数TCを設定することにより、マスキング効果の高いマスキング音や、聴者にとって不快感や違和感の少ないマスキング音が放音される。
【0038】
[2.変形例]
以下に上述した実施形態の変形例を説明する。なお、以下の説明において、上述したマスキング音生成システム1が備える構成部と共通するものには同じ符号を用いる。また、変形例に係るマスキング音生成システムが上述したマスキング音生成システム1と異なる点を主に説明し、共通する点については適宜その説明を省略する。
【0039】
[2.1.第1変形例]
図5は、第1変形例に係るマスキング音生成システム2の構成を示したブロック図である。マスキング音生成システム2は、マスキング音生成システム1が備える記憶装置13に代えて、記憶装置23を備える。記憶装置23は、複数の周波数帯域に予め分割されたソース音を示す帯域ソース音データを記憶する。また、マスキング音生成システム2は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置21を備える。マスキング音データ生成装置21は、マスキング音データ生成装置11が備えるBPF116−1〜mを備えず、再生部115が入力IF114を介して記憶装置23から読み出す帯域ソース音データを、対応するLC117−1〜mに直接引き渡す。
【0040】
以上の構成により、マスキング音生成システム2によれば、マスキング音データ生成装置21はソース音データを周波数帯域に分割する処理を行う必要がなく、処理負荷が少なくて済む。またマスキング音生成システム1においては、BPF116により1つのソー
ス音データから帯域分割された複数の帯域ソース音データが用いられるため、複数の帯域ソース音データの元となるソース音データを周波数帯域毎に異ならせることはできない。これに対し、マスキング音生成システム2においては、周波数帯域毎に異なるソース音データから帯域分割された帯域ソース音データを利用することができる。このため、マスキング音生成システム2によれば、周波数帯域毎に最適なソース音データから帯域分割された帯域ソース音データを用いることで、より望ましいマスキング音が放音される。
【0041】
[2.2.第2変形例]
図6は、第2変形例に係るマスキング音生成システム3の構成を示したブロック図である。マスキング音生成システム3は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置31を備える。マスキング音データ生成装置31は、マスキング音データ生成装置11が備える再生部115に代えて、無意味化処理部315を備える。無意味化処理部315は、入力IF111を介してマイク12から入力される話者音データに対し、話者音データが有する音声的または言語的な意味を無意味化する処理を施す処理部である。すなわち、マスキング音生成システム3は、予め用意されたソース音データに代えて、マイク12がリアルタイムに収音する話者Aの音声を示す話者音データが無意味化されたものを、ソース音データとして利用する。そのため、マスキング音生成システム3は、予め用意されたソース音データを記憶するための記憶装置13を備えない。
【0042】
無意味化処理部315は、入力IF111を介してマイク12から話者音データを順次リアルタイムで取得すると、取得した話者音データを一時的にバッファ(一時記憶手段)に記憶するとともに、一定長の時間長のブロックに分割し、分割したブロック内で時間軸方向にデータを反転させた後、例えばランダムに、それらのブロックの順序を入れ替えて、ソース音データを生成する。なお、無意味化処理部315が行う無意味化の処理はこれに限られず、既知の様々な無意味化処理が採用され得る。無意味化処理部315は生成したソース音データをBPF116−1〜mの各々に引き渡す。ここで、BPF116はソース音データ取得手段を構成する。
【0043】
一般的に、マスキングされる音声と音響特性の類似度が高いマスキング音程、マスキング効果が高い。従って、マスキング音が無意味化されていれば、マスキング音として、マスキングされる話者の音声と音響特性の類似度が高い同じ話者の音声を基に生成したマスキング音を用いることが好ましい。上記の構成を備えるマスキング音生成システム3は、話者Aの音声を示す話者音データを基にソース音データを生成し、マスキング音データの生成に用いる。その結果、マスキング音生成システム3によれば、マスキング音生成システム1と比較して、よりマスキング効果の高いマスキング音が放音される。
【0044】
なお、マスキング音生成システム3においては、リアルタイムに収音された話者Aの音声がソース音として用いられる。従って、LC117によるレベル調整前の帯域ソース音データのレベルは、マスキングされるべき話者Aの音声のレベルに連動して変化する。
【0045】
一般的に、マスキングされるべき音声のレベルが大きい程、マスキングに要するマスキング音のレベルも大きくなる。従って、マスキング音のレベルがマスキングされるべき音声のレベルに連動して変化することは望ましい。しかしながら、参照信号レベルが高い程、ゲイン特定関数GRに従いLC117が特定する目標ゲインは大きくなるため、時定数TCが小さいと、LC117は話者Aの音声のレベルが大きい場合に、既にレベルが大きい帯域ソース音データのレベルを、話者Aの音声のレベルの増大に応じてさらに増加させることがある。その結果、必要以上に大きな音量のマスキング音データが生成されてしまう場合がある。
【0046】
このような不都合を回避するため、例えば無意味化処理部315における無意味化処理において話者音データに対し、もしくはBPF116による帯域分割が行われた後の帯域ソース音データに対し、レベルを所定値以下に制限するレベル制限部をマスキング音データ生成装置21に設ける構成としてもよい。
【0047】
[2.3.第3変形例]
図7は、第3変形例に係るマスキング音生成システム4の構成を示したブロック図である。マスキング音生成システム4は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置41を備える。マスキング音データ生成装置41は、重要周波数帯域特定部401およびパラメータ設定部402を備える。ここで、パラメータ設定部402はBPF116、LC117、及び加算器118と共に帯域レベル設定手段を構成する。
【0048】
重要周波数帯域特定部401は、入力IF111を介してマイク12から入力される話者音データを解析し、話者音データが示す話者Aの音声に対して、音声マスキングを実行するうえで特に重要となる周波数帯域(例えば、第1フォルマントや子音の成分が所定の閾値以上のレベルで含まれる周波数帯域。以下、「重要周波数帯域」という)を所定の時間間隔(例えば、100〜500ms毎)で特定し、特定した重要周波数帯域を識別する重要帯域識別データを順次、パラメータ設定部402に引き渡す。
【0049】
パラメータ設定部402は、重要帯域識別データを受け取る毎に、当該重要帯域識別データにより識別される周波数帯域のLC117に対して、重要周波数帯域に適するゲイン特定関数GR(例えば
図2中の(c)や
図3中の(c)に示されるゲイン特定関数GR)や時定数TC(例えば、重要周波数帯域が子音の周波数成分を多く含む場合、小さい時定数TC)を設定する。また、パラメータ設定部402は、それまで重要周波数帯域として特定されていた周波数帯域が重要周波数帯域でなくなった場合、当該周波数帯域に応じたLC117に対しては、当該LC117のデフォルトのゲイン特定関数GRや時定数TCを設定する。従って、LC117は、対応する周波数帯域が重要周波数帯域であるか否かに応じて異なるレベル変更パラメータに従い帯域ソース音データのレベルの変更を行うことになる。
【0050】
以上の構成により、マスキング音生成システム4は、現在の話者の音声における重要周波数帯域を特定し、重要周波数帯域であると特定した周波数帯域に対応するLC117に対し、重要周波数帯域に適したレベル変更パラメータを動的に設定する。このため、マスキング音生成システム4によれば、話者によって音声における重要周波数帯域が異なる場合であっても、話者の変化にかかわらずマスキング効果の高いマスキング音が放音される。
なお、重要周波数帯域特定部401は、上記のように話者音データを解析してリアルタイムに重要周波数帯域を特定するという方法以外に、次のような方法で重要周波数帯域を特定してもよい。
例えば、重要周波数帯域が予め固定的に決められている場合、重要周波数帯域特定部401は、その重要周波数帯域を識別する重要帯域識別データを記憶しておき、パラメータ設定部402に引き渡すようにしてもよい。また、パラメータ設定部402に、重要周波数帯域を識別する重要帯域識別データを記憶しておいてもよい。この場合、パラメータ設定部402が重要周波数帯域特定部401の機能を兼ねることになる。
また、重要周波数帯域特定部401は、第1フォルマントや子音以外に、話者乃至話者音声の特徴、例えば、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高又は話者音声の音量などの特徴に基づいて重要周波数帯域を特定する。例えば、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量といった話者乃至話者音声の特徴ごとに、重要周波数帯域が予め決められており、重要周波数帯域特定部401は、上記の話者乃至話者音声の特徴ごとに、対応する重要周波数帯域を識別する重要帯域識別データを記憶している。そして、マスキング音生成システム4のユーザ(例えば話者)が、話者乃至話者音声の特徴をマスキング音生成システム4に対して入力すると、重要周波数帯域特定部401は、入力された上記特徴に対応する重要帯域識別データをパラメータ設定部402に引き渡す。また、話者乃至話者音声の特徴の入力に依らず、重要周波数帯域特定部401が話者音データを解析して、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量といった話者乃至話者音声の特徴を特定してもよい。
【0051】
[2.4.第4変形例]
図8は、第4変形例に係るマスキング音生成システム5の構成を示したブロック図である。マスキング音生成システム5は、話者Aの音声を収音するマイク12に加え、話者Aのいる空間(もしくは聴者Bのいる空間)の暗騒音を収音し音データ(以下、「暗騒音データ」という)を生成するマイク52を備えている。
【0052】
また、マスキング音生成システム5は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置51を備える。マスキング音データ生成装置51は、マイク52が生成する暗騒音データの入力を受ける入力IF501と、入力IF501に入力された暗騒音データをn個(ただし、nは1を除くmの約数)の周波数帯域に分割し周波数帯域毎の音データ(以下、「帯域暗騒音データ」という)を生成するバンドパスフィルタ群であるBPF502−1〜n(以下、これらを総称して「BPF502」という)と、BPF502が生成した帯域暗騒音データの各々のレベルを特定するレベル検知回路であるLD503−1〜n(以下、これらを総称して「LD503」という)と、を備える。ここで、入力IF501は暗騒音データ取得手段を構成し、BPF502及びLD503はBPF112及びLD113とともに帯域レベル特定手段を構成する。
【0053】
さらに、マスキング音データ生成装置51は、LC117−1〜mを隣接する(m/n)個毎にグループ化して得られるn個のグループの各々に応じて設けられ、グループ内の(m/n)個のLC117によりレベルの変更された帯域ソース音データを加算して出力する加算器504−1〜n(以下、これらを総称して「加算器504」という)と、加算器504−1〜nの各々に応じて設けられ、加算器504から出力される加算された帯域ソース音データのレベルを、LD503−1〜nが特定した帯域暗騒音データのレベルに基づき変更するLC505−1〜n(以下、これらを総称して「LC505」という)と、を備える。
【0054】
さらに、マスキング音データ生成装置51は、マスキング音データ生成装置11が備える加算器118に代えて、加算器504−1〜nにより加算された後、LC505−1〜nによりレベルの変更されたn個の帯域ソース音データを加算してマスキング音データを生成し、出力IF119を介してスピーカ14に出力する加算器518を備えている。ここで、加算器518は、BPF116、LC117、加算器504、及びLC505と共に帯域レベル設定手段を構成する。
【0055】
ここで、BPF502−1〜nの各々に応じたn個の周波数帯域は、それぞれ、BPF116−1〜mの各々に応じたm個の周波数帯域を連続する(m/n)個毎にグループ化して統合したn個の周波数帯域に一致する。即ち、例えば、m=12であり、n=4である場合、BPF502−1の周波数帯域は、BPF116−1〜3に応じた3個の連続する周波数帯域に一致し、BPF502−2の周波数帯域は、BPF116−4〜6に応じた3個の連続する周波数帯域に一致し、BPF502−3の周波数帯域は、BPF116−7〜9に応じた3個の連続する周波数帯域に一致し、BPF502−4の周波数帯域は、BPF116−10〜12に応じた3個の連続する周波数帯域に一致する。
【0056】
また、LC505−1〜nの各々はメモリを備え、当該メモリはLC505−1〜nの各々に設定されたゲイン特定関数GRと時定数TCをレベル変更パラメータとして記憶している。LC505−1〜nの各々は、LD503−1〜nのうち同じ枝番のLD503により特定されたレベルを参照信号レベルとして受け取り、予め設定されているゲイン特定関数GRが示す参照信号レベルに応じた目標ゲインへと予め設定されている時定数TCが示す応答の速さで収束するように、加算器504−1〜nのうち同じ枝番の加算器504によりミキシングされた帯域ソース音データのレベルを制御する。
【0057】
以上の構成により、マスキング音生成システム5においては、暗騒音の周波数帯域毎のレベルに応じて、マスキング音データの周波数帯域毎のレベルの調整が行われる。例えば、暗騒音のレベルが大きい周波数帯域に関しては、比較的大きいレベルのマスキング音を放音しても聴者にとって耳障りとなりにくい。従って、マスキング音生成システム5によれば、
図2中のグラフ(c)や
図3中のグラフ(c)に示されるようなゲイン特定関数GRをLC505−1〜nに設定することにより、聴者の不快感を増大させることなくマスキング効果の高いマスキング音が放音される。
【0058】
また、マスキング音生成システム5においては、話者Aの音声を示す話者音データに応じたソース音データのレベル調整における周波数帯域の数mと比べて、暗騒音を示す暗騒音データに応じたソース音データのレベル調整における周波数帯域の数nが小さい構成としている。これは、暗騒音はマスキングされる音ではないので、マスキングされる音である話者Aの音声と比較し、細かい周波数帯域毎の制御は不要であるためである。このように、nをmより小さくすることで、nをmと同じ数とする場合と比較し、BPF502、LD503およびLC505の数を減らすことができ、マスキング音データ生成装置51の構成をより簡潔にすると共に、処理負荷を小さくすることができる。ただし、マスキング音データ生成装置51が十分な処理能力を備える場合、nとmと同じ数としてもよい。その場合、加算器504は不要となる。
【0059】
また、LC505に設定される時定数TCは、LC117に設定される時定数TCよりも大きい値が設定される。暗騒音にはマスキングする必要のない衝撃音が含まれることがあり、衝撃音に敏速に追従してレベルの変化するマスキング音を放音することは、不必要に聴者の不快感を増大させ望ましくないためである。特に、高い周波数帯域のLC505に、低い周波数帯域のLC505よりも大きい値の時定数TCを設定すれば、暗騒音に含まれる衝撃音によるマスキング音に対する影響を小さくすることができ、聴者の不快感が低減され望ましい。マスキング音生成システム5によれば、話者の音声に対しては周波数帯域毎のレベルの追従が敏速であり、暗騒音に対してはその追従が緩慢なマスキング音の放音が行われることになる。
【0060】
[2.5.第5変形例]
図9は、第5変形例に係るマスキング音生成システム6の構成を示したブロック図である。マスキング音生成システム6は、マスキング音生成システム1が備える記憶装置13に代えて、異なる2つのソース音データ(第1ソース音データと第2ソース音データ)を記憶する記憶装置63を備える。記憶装置63が記憶している第1ソース音データは、記憶装置13が記憶するソース音データと同様に、音声データに無意味化処理を施した音データである。一方、第2ソース音データは、例えばさざ波の音や鳥のさえずりの音などのような、過度に注意を引かない、不快感のない、自然や環境に存在する音(以下、「環境音」という)を示す音データである。第2ソース音データは、話者の音声をマスキングするためではなく、マスキング音の不快感を低減するために、マスキング音データの生成の際に加算される。
【0061】
また、マスキング音生成システム6は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置61を備える。マスキング音データ生成装置61は、記憶装置63に記憶されている第1ソース音データの入力を受ける入力IF114に加え、記憶装置63に記憶されている第2ソース音データの入力を受ける入力IF600を備える。また、マスキング音データ生成装置61は、入力IF600に入力された第2ソース音データを順次読み出して出力する再生部601を備える。
【0062】
さらに、マスキング音データ生成装置61は、再生部601が出力した第2ソース音データをm個の周波数帯域に分割し周波数帯域毎の音データ(以下、「帯域第2ソース音データ」という)を生成するバンドパスフィルタ群であるBPF602−1〜m(以下、これらを総称して「BPF602」という)と、LD113−1〜mのうち同じ枝番のLD113が特定した帯域話者音データのレベルに基づき、BPF602−1〜mのうち同じ枝番のBPF602が生成した帯域第2ソース音データのレベルを変更する回路であるLC603−1〜m(以下、これらを総称して「LC603」という)と、を備える。
【0063】
さらに、マスキング音データ生成装置61は、LC603によりレベルの変更された帯域第2ソース音データを加算して、マスキング音に加算される環境音を示す環境音データを生成する加算器604と、加算器118が生成したマスキング音データと加算器604が生成した環境音データを加算して不快感の少ないマスキング音を示すマスキング音データを生成し、出力IF119を介してスピーカ14に出力する加算器605と、を備えている。ここで、加算器604及び加算器605は、BPF116、LC117、加算器118、BPF602、及びLC603と共に帯域レベル設定手段を構成する。
【0064】
LC603−1〜mの各々はメモリを備え、当該メモリはLC603−1〜mの各々に設定されたゲイン特定関数GRと時定数TCをレベル変更パラメータとして記憶している。LC603−1〜mの各々は、LD113−1〜mのうち同じ枝番のLD113により特定されたレベルを参照信号レベルとして受け取り、予め設定されているゲイン特定関数GRが示す参照信号レベルに応じた目標ゲインへと予め設定されている時定数TCが示す応答の速さで収束するように、BPF602−1〜mのうち同じ枝番のBPF602から引き渡される帯域第2ソース音データのレベルを制御する。
【0065】
ここで、LC603に設定される時定数TCとしては、LC117に設定される時定数TCよりも大きい値が設定される。環境音は、マスキングされる空間において暗騒音を創り出す役割を果たすので、無意味化された音声をソース音とするマスキング音と比較し、マスキングされる音声のレベルの変化に敏速に追従してレベルを変化させる必要がなく、仮にマスキングされる音声のレベルの変化に敏速に追従して小刻みにレベルが変化すると無意味に聴者の不快感を増大させ望ましくないためである。
【0066】
以上の構成により、マスキング音生成システム6においては、無意味化された音声と、環境音が加算されたマスキング音が放音される。その際、無意味化された音声と環境音とで互いに異なるパラメータ(時定数TC)に従い、話者Aの音声のレベルに応じて周波数帯域毎のレベルの変更が行われる。その結果、マスキング音生成システム6によれば、マスキング効率が高く、聴者にとっての不快感の少ないマスキング音が放音される。
【0067】
[2.6.第6変形例]
図10は、第6変形例に係るマスキング音生成システム7の構成を示したブロック図である。マスキング音生成システム7は、概ね上述した第4変形例のマスキング音生成システム5の構成(
図8)と第5変形例のマスキング音生成システム6の構成(
図9)を組み合わせた構成を備えている。従って、
図10において、マスキング音生成システム5もしくはマスキング音生成システム6の構成部と共通するものには同じ符号を付している。
【0068】
マスキング音生成システム7は、マスキング音生成システム5と同様に、話者A(もしくは聴者B)のいる空間の暗騒音を収音するマイク52を備える。また、マスキング音生成システム7は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置71を備える。マスキング音データ生成装置71は、マスキング音データ生成装置51と同様に、マイク52から暗騒音データの入力を受ける入力IF501と、入力IF501を介してマイク52から入力された暗騒音データをn個の帯域暗騒音データに分割するBPF502−1〜nと、BPF502−1〜nの各々に対応し帯域暗騒音データのレベルを特定するLD503−1〜nと、を備える。
【0069】
また、マスキング音生成システム7は、マスキング音生成システム6と同様に、無意味化処理の施された音声を示す第1ソース音データと環境音を示す第2ソース音データを記憶する記憶装置63を備える。また、マスキング音データ生成装置71は、マスキング音データ生成装置61と同様に、記憶装置63に記憶されている第2ソース音データの入力を受ける入力IF600と、第2ソース音データを再生する再生部601と、第2ソース音データを複数の帯域第2ソース音データに分割する複数のBPF602と、これらのBPF602の各々に対応し帯域第2ソース音データのレベルを調整する複数のLC603と、を備える。ただし、マスキング音データ生成装置71が備えるBPF602およびLC603の数は、マスキング音データ生成装置61と異なり、n個である。
【0070】
マスキング音データ生成装置71のLC603−1〜nは各々、LD503−1〜nのうち枝番の同じLD503により特定されたレベル、すなわち、帯域暗騒音データのレベルを参照信号レベルとして受け取り、環境音を示す第2ソース音データの周波数帯域毎のレベル変更を行う。
【0071】
また、マスキング音データ生成装置71は、マスキング音データ生成装置61と同様に、LC603−1〜nによりレベルの変更された帯域第2ソース音データを加算して環境音データを生成する加算器604と、加算器118が生成したマスキング音データと加算器604が生成した環境音データを加算して不快感の少ないマスキング音を示すマスキング音データを生成し、出力IF119を介してスピーカ14に出力する加算器605と、を備える。
【0072】
以上の構成により、マスキング音生成システム7によれば、無意味化された音声と、環境音が加算された不快感の少ないマスキング音が放音される。その際、無意味化された音声は話者Aの音声のレベルに応じて周波数帯域毎に調整され、環境音は暗騒音のレベルに応じて周波数帯域毎に、話者Aの音声のレベルに応じた調整とは独立して調整される。その結果、マスキングされる音声に対し、当該音声のレベルに追従してレベルが変化する無意味化された音声が放音されることにより高いマスキング効率が得られると同時に、暗騒音に対し、当該暗騒音のレベルに追従してレベルが変化する環境音が放音されることにより暗騒音と環境音との自然な混合が行われ、聴者にとって不快感の少ない音声マスキングが行われる。
【0073】
[2.7.第7変形例]
図11は、第7変形例に係るマスキング音生成システム8の構成を示したブロック図である。マスキング音生成システム8の構成は、マスキング音生成システム7の構成(
図10)と類似しており、概ね上述した第4変形例のマスキング音生成システム5の構成(
図8)と第5変形例のマスキング音生成システム6の構成(
図9)を組み合わせた構成を備えている。従って、
図11においても
図10と同様に、マスキング音生成システム5もしくはマスキング音生成システム6の構成部と共通するものには同じ符号を付している。
【0074】
マスキング音生成システム8においては、話者Aの音声と暗騒音とを加算した音の周波数帯域毎のレベルに応じて、無意味化された音声(第1ソース音データ)と環境音(第2ソース音データ)の各々の周波数帯域毎のレベルが変更され、レベルの変更された無意味化された音声と環境音が加算されて、マスキング音が生成される。ここで、話者Aの音声と暗騒音とを加算する際のレベル比率が、無意味化された音声のレベル変更のために用いるものと、環境音のレベル変更のために用いるものとで個別に設定されている。
【0075】
上記の機能を実現するために、マスキング音生成システム8は、マスキング音生成システム7と同様に、暗騒音の収音を行うマイク52と、第1ソース音データおよび第2ソース音データを記憶する記憶装置63を備える。また、マスキング音生成システム8は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、マスキング音データ生成装置81を備える。マスキング音データ生成装置81は、マスキング音データ生成装置71と同様に、マイク52が生成する暗騒音データを処理するための入力IF501と複数のBPF502を備えている。ただし、マスキング音データ生成装置81が備えるBPF502の数はm個である。
【0076】
マスキング音データ生成装置81は、BPF112−1〜mが生成した帯域話者音データと、BPF502−1〜mが生成した帯域暗騒音データとを、同じ周波数帯域毎に加算する加算器801−1〜mおよび加算器802−1〜mを備えている。すなわち、加算器801−1〜mの各々は、BPF112−1〜mのうち同じ枝番のBPF112が生成した帯域話者音データと、BPF502−1〜mのうち同じ枝番のBPF502が生成した帯域暗騒音データを加算する。同様に、加算器802−1〜mもまた、BPF112−1〜mのうち同じ枝番のBPF112が生成した帯域話者音データと、BPF502−1〜mのうち同じ枝番のBPF502が生成した帯域暗騒音データを加算する。加算器801−1〜mの各々には帯域話者音データと帯域暗騒音データの加算時のレベル比率が個別に設定されている。同様に、加算器802−1〜mの各々にも帯域話者音データと帯域暗騒音データの加算時のレベル比率が個別に設定されている。
【0077】
マスキング音データ生成装置81は、マスキング音データ生成装置11が備えるLD113−1〜mに代えて、加算器801−1〜mが加算して生成した音データのレベルを特定するLD803−1〜mを備える。LD803−1〜mが特定したレベルは、参照信号レベルとしてLC117−1〜mに引き渡され、第1ソース音データ(無意味化された音声を示す音データ)から分割された帯域ソース音データのレベルの変更に用いられる。
【0078】
また、マスキング音データ生成装置81は、加算器802−1〜mが加算して生成した音データのレベルを特定するLD804−1〜mを備える。LD804−1〜mが特定したレベルは、参照信号レベルとしてLC603−1〜mに引き渡され、第2ソース音データ(環境音を示す音データ)から分割された帯域第2ソース音データのレベルの変更に用いられる。
【0079】
LC117−1〜mによりレベルの変更された帯域ソース音データは加算器118により加算されてマスキング音データとなり、LC603−1〜mによりレベルの変更された帯域第2ソース音データは加算器604により加算されて環境音データとなる。加算器118が生成したマスキング音データと加算器604が生成した環境音データは加算器605により加算された後、出力IF119を介してスピーカ14に出力される。
【0080】
なお、上記の構成のマスキング音データ生成装置81は、マイク12により生成された話者音データとマイク52により生成された暗騒音データの各々を帯域分割した後、それらを周波数帯域毎に加算する。これに代えて、帯域分割する前の話者音データと暗騒音データを加算した後に帯域分割する構成としてもよい。この場合、周波数帯域毎に個別の加算時のレベル比率を設定することはできないが、
図11に示した構成のものと比べ加算器の数を減らすことができ、マスキング音データ生成装置81の構成をより簡潔にすると共に、処理負荷を小さくすることができる。
【0081】
以上の構成により、マスキング音生成システム8においては、無意味化された音声と、環境音が加算されたマスキング音が放音される。その際、無意味化された音声のレベルの変更において参照される話者Aの音声と暗騒音の加算された音における話者Aの音声と暗騒音のレベル比率は、周波数帯域毎に個別に設定されたレベル比率に従う。従って、これらのレベル比率の設定を調整することにより、マスキング音に含まれる無意味化された音声のレベルが話者Aの音声のレベルに応じて変化する程度と暗騒音のレベルに応じて変化する程度とのバランスを周波数帯域毎に調整できる。また、環境音のレベルの変更において参照される話者Aの音声と暗騒音の加算された音における話者Aの音声と暗騒音のレベル比率もまた、周波数帯域毎に個別に設定されたレベル比率に従う。従って、これらのレベル比率の設定を調整することにより、マスキング音に含まれる環境音のレベルが話者Aの音声のレベルに応じて変化する程度と暗騒音のレベルに応じて変化する程度のバランスを周波数帯域毎に調整できる。その結果、マスキング音生成システム8によれば、マスキング効率と聴者にとっての不快感の低減という2つの点のバランスが取れたマスキング音の放音が可能となる。
【0082】
[2.8.第8変形例]
第8変形例においては、コンピュータがプログラムに従う処理を行うことにより、
図1に示した構成を備えるマスキング音データ生成装置11として動作する。
図12は、第8変形例に係るマスキング音生成システム9の構成を示したブロック図である。
【0083】
マスキング音生成システム9は、マスキング音生成システム1が備えるマスキング音データ生成装置11に代えて、コンピュータ10を備えている。コンピュータ10は、一般的なコンピュータであり、BIOSやOSおよびアプリケーションプログラム等に従い各種演算を行うとともに他の構成部を制御するCPU101と、上記BIOS、OS、アプリケーションプログラムやユーザデータ等の各種データを記憶するROMやRAMあるいはハードディスクやSSD等を含むメモリ102と、外部の装置との間でデータの入出力を行う入出力IF103を備えている。CPU101、メモリ102、入出力IF103は、バス109を介して互いに接続されている。入出力IF103には、外部の装置として、マイク12、記憶装置13、スピーカ14、読取装置15が接続される。
【0084】
読取装置15は、本変形例に係るアプリケーションプログラムを記録する記録媒体16から当該アプリケーションプログラム(以下、単に「アプリケーションプログラム」という)を読み取る装置である。記録媒体16は、データを、読取装置15を介してコンピュータ10により読み取り可能に記録する不揮発性の記録媒体であり、例えばCD−ROM、DVD−ROM、フラッシュメモリ等のいずれであってもよい。
【0085】
CPU101は、メモリ102に記憶されているプログラムに従い、例えば入出力I/F103に接続されているキーボード等(図示略)を用いたユーザの操作に応じて、読取装置15に対し、読取装置15に装填された記録媒体16からアプリケーションプログラムの読み取りを指示する。この指示に従い読取装置15により記録媒体16から読み取られたアプリケーションプログラムは、入出力I/F103を介してメモリ102に引き渡され、記憶される。
【0086】
その後、CPU101がメモリ102に記憶されているアプリケーションプログラムに従い各種データ処理を行うことにより、コンピュータ10は、
図1に示される構成を備えるマスキング音データ生成装置11として機能する。すなわち、記録媒体16に記録され、コンピュータ10に読み取られて用いられるアプリケーションプログラムは、コンピュータに、マスキング音データ生成装置11が備える構成部の各々が行う処理を実行させるためのプログラムである。
【0087】
なお、CPU101が第1変形例〜第7変形例に応じたアプリケーションプログラムのいずれかに従う処理を行うことにより、コンピュータ10が
図5〜
図11に示されるマスキング音データ生成装置21〜マスキング音データ生成装置81のいずれかとして機能する構成としてもよい。また、上記の本変形例の構成においては、CPU101がアプリケーションプログラムに従う処理を行う際、記録媒体16からメモリ102にコピーされたアプリケーションプログラムをメモリ102から読み出す。これに代えて、CPU101がアプリケーションプログラムに従う処理を行う際、記録媒体16に記録されているアプリケーションプログラムを読取装置15を介して読み出す構成としてもよい。また、コンピュータ10が、読取装置15を介してアプリケーションプログラムを記録媒体16から読み出す代わりに、アプリケーションプログラムを記憶する装置からネットワークを介してアプリケーションプログラムを受信してメモリ102に記憶し、これを用いる構成としてもよい。
【0088】
[2.9.その他の変形例]
上述した実施形態もしくは変形例において、さらに以下のような変形を行ってもよい。
【0089】
(1)実施形態に係るマスキング音データ生成装置11は、ソース音データを帯域分割して得られるm個の帯域ソース音データのレベルを、話者音データを帯域分割して得られるm個の帯域話者音データの各々のレベルに応じて設定した後に加算することで、マスキング音データを生成する。マスキング音データ生成装置11がマスキング音データの生成において用いる帯域ソース音データの数は2以上であればいずれの数であってもよい。また、マスキング音データ生成装置11がマスキング音データの生成において用いる相異なる2以上の帯域ソース音データの周波数帯域は互いに隙間なく連続している必要はなく、隙間があってもよいし、重複する部分があってもよい。第1変形例〜第7変形例における帯域ソース音データおよび帯域話者音データや、第4変形例、第6変形例または第7変形例における帯域暗騒音データについても同様に、2以上の相異なる周波通帯域の音データであれば、帯域の数や配置は限定されない。
【0090】
(2)実施形態に係るマスキング音データ生成装置11および第1変形例〜第4変形例に係るマスキング音データ生成装置21〜マスキング音データ生成装置51は、それらが備えるレベルコントローラ(LC117、505)に設定されるパラメータ(ゲイン特定関数GRおよび時定数TC)を様々に変更することにより、異なる特性のマスキング音データを生成する。また、第5変形例〜第7変形例に係るマスキング音データ生成装置61〜マスキング音データ生成装置81は、それが備えるレベルコントローラ(LC117、603)に設定されるパラメータ(ゲイン特定関数GRおよび時定数TC)と加算器に設定されるパラメータ(加算におけるレベル比率)を様々に変更することにより、異なる特性のマスキング音データを生成する。
【0091】
そこで、予めパラメータの組み合わせをテンプレートとして複数準備し、例えば記憶装置13、記憶装置23または記憶装置63に記憶させておき、ユーザがそれらのテンプレートの中から、例えば聴感やマスキング効率等の観点から望ましいと思うテンプレートを選択し、マスキング音データ生成装置11〜マスキング音データ生成装置81(以下、これらを総称して「マスキング音データ生成装置」という)がユーザにより選択されたテンプレートに従いパラメータの設定を行って、マスキング音データの生成を行う構成としてもよい。
【0092】
(3)マイク12は話者Aの音声を収音するためのものであるが、話者Aのいる空間の暗騒音も同時に収音する。従って、例えば話者Aの近くで大きな物音がした場合、マスキング音データ生成装置が生成するマスキング音データのレベルは、その物音のレベルの影響を受ける。特に小さい時定数TCが設定されている周波数帯域においてはその影響が大きい。音声のレベルを参照信号レベルとしてレベルの変更を行うようにパラメータの設定が行われたレベルコントローラに対し、音声以外の物音等のレベルが参照信号レベルとして入力されると、その結果生成されるマスキング音データは望ましくないマスキング音を示すものとなる可能性がある。そのような不都合を回避するために、例えば入力IF111を介してマイク12から入力される話者音データ、もしくはBPF112により帯域分割された後の帯域話者音データの各々に対し、当該話者音データもしくは帯域話者音データが示す音に含まれる音声以外の音の成分を低減するように信号処理を施すフィルタ(イコライザ等の周波数特性調整手段)をマスキング音データ生成装置に設けてもよい。
【0093】
(4)上述した実施形態および変形例の説明においては、マイク12(およびマイク52)、記憶装置13(または記憶装置23、記憶装置63)およびスピーカ14はマスキング音データ生成装置に対し外付けの装置として接続される構成としたが、これらの装置の少なくとも1つがマスキング音データ生成装置に内蔵されてもよい。また、マイク12(およびマイク52)、記憶装置13(または記憶装置23、記憶装置63)およびスピーカ14がマスキング音データ生成装置に接続される形態は有線、無線のいずれであってもよく、また直接接続されてもネットワークを介して接続されてもよい。
【0094】
(5)上述した実施形態または変形例に係るマスキング音データ生成装置が備える構成部のうち2以上の構成部が統合された1つの構成部として構成されてもよい。例えば、マスキング音データ生成装置11が備えるLD113−1〜mとLC117−1〜mは各々個別の装置として説明したが、LD113−1〜mの各々と、LC117−1〜mのうちの同じ枝番のLC117とが1つの統合された回路として構成されてもよい。また、上述した実施形態または変形例に係るマスキング音データ生成装置が備える1つの構成部が、互いに協働する2以上の構成部の集合体として構成されてもよい。
【0095】
(6)上述した実施形態または変形例の説明においてマスキング音データ生成装置に内蔵されるものとした構成部の一部を、マスキング音データ生成装置に対し外付けで接続される装置として構成されてもよい。例えば、マスキング音データ生成装置11が備える再生部115は、マスキング音データ生成装置11に対し外付けの装置として接続されてもよい。
【0096】
(7)上述した実施形態または変形例に係るマスキング音データ生成装置は、レベルコントローラに対し入力される参照信号レベルとして、帯域話者音データもしくは帯域暗騒音データの包絡線のレベルを用いるものとしたが、参照信号レベルとして、帯域話者音データもしくは帯域暗騒音データのレベルの大小を示す指標であれば、例えば、パワースペクトル平均値等、いずれの指標が用いられてもよい。
【0097】
(8)上述した実施形態または変形例に係るマスキング音生成システム1〜9が備える構成部の数や、それらが処理するデータの数は任意に変更可能である。例えば、マイク12やマイク52の数を2以上に増やして、それらの各々により収音された音に関し同種の処理を個別に行う構成としたり、記憶装置13が複数のソース音データを、記憶装置23が複数組の帯域ソース音データを、または記憶装置63が複数の第1ソース音データおよび複数の第2ソース音データを記憶し、それらのデータに関し同種の処理を個別に行う構成としたりしてもよい。
【0098】
(9)上述した実施形態または変形例において採用されているデータ処理の順序の一部は、同等もしくは類似の結果を得る他の順序で置き換えられてもよい。例えば、帯域分割を行った後の音データを加算しても、帯域分割を行う前の音データを加算した後に帯域分割をしても、それらにより得られるデータが同等もしくは類似である限り、いずれが採用されてもよい。
【0099】
(10)上述した第4変形例、第6変形例および第7変形例において、マイク52を用いて収音した暗騒音を用いる代わりに、マイク12により収音された音(主として話者Aの音声を含む)に含まれる暗騒音を、例えば既知のフィルタ処理により取り出して用いる構成としてもよい。
【0100】
(11)マスキング音データ生成装置および記憶装置13(または記憶装置23、記憶装置63)の配置場所は限定されない。例えば、マスキング音データ生成装置は話者Aのいる空間(もしくは聴者Bのいる空間)に配置され、記憶装置13(または記憶装置23、記憶装置63)は、ネットワークを介して、話者Aのいる空間および聴者Bのいる空間から地理的に離れた場所に配置されてもよい。この場合、マスキング音データ生成装置が記憶装置13に記憶されているソース音データ(または、記憶装置23に記憶されている帯域ソース音データ、もしくは記憶装置63に記憶されている第1ソース音データおよび第2ソース音データ)をマスキング音データの生成処理の開始前に、例えばメモリ102に全てダウンロードして用いてもよいし、マスキング音データの生成処理の実行と平行して、必要な部分を順次、記憶装置13(または、記憶装置23、記憶装置63)から受信して用いてもよい。
【0101】
また、例えば、記憶装置13(または記憶装置23、記憶装置63)に加え、マスキング音データ生成装置もまた、ネットワークを介して、話者Aのいる空間および聴者Bのいる空間から地理的に離れた場所に配置されてもよい。この場合、マイク12が生成する話者音データ(およびマイク52が生成する暗騒音データ)はネットワークを介してマスキング音データ生成装置に送信され、マスキング音データの生成に用いられる。また、マスキング音データ生成装置により生成されたマスキング音データはネットワークを介してスピーカ14に送信され、マスキング音の放音に用いられる。
【0102】
(12)上述した実施形態または変形例において、レベルコントローラ(LC117、505、603)の各々には帯域ソース音データ(または帯域第2ソース音データ)のレベルを変更する規則を特定するためのパラメータとして、ゲイン特定関数GRと時定数TCが設定され、レベルコントローラの各々は、レベル検知回路(LD113、503、803、804)により特定された帯域話者音データまたは帯域暗騒音データのレベルに応じてゲイン特定関数GRに従い特定される目標ゲインを、時定数TCが示す応答の速度で達成するように、レベルの変更を行う。レベルコントローラが帯域ソース音データ(または帯域第2ソース音データ)のレベルを変更する規則はこれに限られず、レベル検知回路により特定されたレベルに基づき帯域ソース音データ(または帯域第2ソース音データ)の変更後のレベルを特定する規則であれば、他の様々な規則が採用され得る。
【0103】
例えば、レベルコントローラの各々には、パラメータとしてゲイン特定関数GRのみを個別に設定し、全てのレベルコントローラが同じ応答の速度で目標ゲインを達成するようにレベルの変更を行う構成としてもよい。また、レベルコントローラの各々には、パラメータとして時定数TCのみを個別に設定し、全てのレベルコントローラが同じゲイン特定関数GRに従い特定される目標ゲインを、個別に設定された時定数TCが示す応答の速度で達成するようにレベルの変更を行う構成としてもよい。
【0104】
また、レベルコントローラの各々に、ゲイン特定関数GRに代えて、例えば帯域話者音データ(または帯域暗騒音データ)に応じた帯域ソース音データ(または帯域第2ソース音データ)のゲイン(またはレベルの増分等)を示す関数や対応表をパラメータとして設定し、レベルコントローラが、これらの関数や対応表に従い特定されるゲイン(またはレベルの増分等)を時定数TCが示す応答の速度(または全てのレベルコントローラに関し同じ時定数が示す応答の速度)で達成するように、帯域ソース音データ(または帯域第2ソース音データ)のレベルの変更を行う構成としてもよい。
【0105】
(13)もちろん、ゲイン特定関数GRは
図2〜4の例示に限定されない。念のため、その他のゲイン特定関数GRのバリエーションを
図13〜16に例示する。
図13中のグラフ(a)〜(c)には目標ゲインに下限及び上限が設けられており、(a)〜(c)は、参照信号レベルがl
1以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力し、参照信号レベルがl
2(l
1<l
2)以上において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
2を出力する。ただし、参照信号レベルl
1〜l
2において、(a)の傾き<(b)の傾き<(c)の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、(a)〜(c)の各々が出力する目標ゲインの値は異なっている。
【0106】
図14中のグラフ(a)には目標ゲインに下限が設けられており、参照信号レベルがl
3以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。(b)にも目標ゲインに下限が設けられており、参照信号レベルl
2以下(l
2<l
3)において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。(c)にも目標ゲインに下限が設けられており、参照信号レベルl
1以下(l
1<l
2)において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
1を出力する。また、(a)〜(c)には目標ゲインに上限が設けられており、参照信号レベルがl
4以上(l
3<l
4)において、参照信号レベルの大小に関わらず目標ゲインとして一定値g
2を出力する。ただし、参照信号レベルl
1〜l
4において、(a)の傾き>(b)の傾き>(c)の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、(a)〜(c)の各々が出力する目標ゲインの値は異なっている。
【0107】
図15中のグラフ(a)、(b)、(c)には目標ゲインに下限及び上限が設けられており、参照信号レベルがl
1以下において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値g
11、g
12、g
13(g
11<g
12<g
13)を出力し、参照信号レベルがl
2(l
1<l
2)以上において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値g
2、g
3、g
4(g
13<g
2<g
3<g
4)を出力する。参照信号レベルl
1〜l
2において、(a)、(b)、(c)の参照信号レベルの増分に対する目標ゲインの増分の傾きは同じである。
【0108】
図16中のグラフ(a)、(b)、(c)には目標ゲインに下限及び上限が設けられており、参照信号レベルがl
1以下において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値g
11、g
12、g
13(g
11<g
12<g
13)を出力し、参照信号レベルがl
2(l
1<l
2)以上において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値g
4(g
13<g
4)を出力する。参照信号レベルl
1〜l
2において、(a)の傾き>(b)の傾き>(c)の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、(a)〜(c)の各々が出力する目標ゲインの値は異なっている。
【0109】
また、
図2〜4及び
図13〜16のそれぞれに例示したゲイン特定関数GRの何れかのゲイン特定関数GRを相互に組み合わせてもよいことは当然である。例えば、伝達を阻害すべき音声の情報の重要度が低い周波数帯域のLC117には、
図2(a)のゲイン特定関数GRをレベル変更パラメータとして設定し、伝達を阻害すべき音声の情報の重要度が高い周波数帯域のLC117には、
図3(c)のゲイン特定関数GRをレベル変更パラメータとして設定する、といった例である。また、マスキング音データ生成装置11〜81は、話者乃至話者音声の特徴に応じて、上述したゲイン特定関数GRを適宜選択してもよい。このとき用いる話者乃至話者音声の特徴は、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量など、どのようなものであってもよい。
【0110】
また、マスキング音データ生成装置11〜81は、
図2〜4及び
図13〜16にそれぞれ例示したゲイン特定関数GRのうち共通の特性があるゲイン特定関数GR(例えば、
図2(a)〜(c)の場合には、参照信号レベルと目標ゲインとが比例関係にある領域があるという共通の特性がある)から、いずれかのゲイン特定関数GRを選択してレベル変更パラメータとして設定してもよい。また、マスキング音データ生成装置11〜81は、共通の特性が少ないゲイン特定関数GRからいずれかのゲイン特定関数GRを選択して(つまり、
図2〜4及び
図13〜16を相互に跨っていずれかのゲイン特定関数GRを)レベル変更パラメータとして設定してもよい。
【0111】
以上に説明したように、本発明において、帯域レベル設定手段は、2以上の周波数帯域の各々について、ソース音データの当該周波数帯域のレベルを、話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する。ここでいう所定の規則とは、上述したような、様々な特性を持つゲイン特定関数GRのいずれかをレベル変更パラメータとして設定するための規則を含んでいる。
【0112】
(14)本発明において、帯域レベル設定手段は、2以上の周波数帯域のうちの少なくとも2つの周波数帯域について、話者音データの当該少なくとも2つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる所定の規則となるように、ソース音データの当該少なくとも2つの周波数帯域のレベルの設定を行う。ここで、「話者音データの当該少なくとも2つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる所定の規則」として、上述した時定数TC−1〜m(つまりLC117−1〜mのレベル変更におけるゲインが、ゲイン特定関数GR−1〜mで決定される目標ゲインへ収束するまでの応答の速さを示す数値)を用いていた。
【0113】
この時定数TC−1〜mに代えて、レベルコントローラ(LC117、505、603)に話者音データが入力されてから、レベルコントローラ(LC117、505、603)からソース音データが出力されるまでの遅延時間(ディレイ量)を用いてもよい。例えば、
図1において、LC117−1〜mの各々は、LC117−1〜mの各々に設定されたレベル変更パラメータとして、前述したゲイン特定関数GR−1〜mのほか、遅延時間DL−1〜mをメモリに記憶している。LC117−1〜mの各々は、レベルコントローラ(LC117、505、603)からソース音データが出力されると、各々に設定された遅延時間DL−1〜mが経過したタイミングでソース音データを加算器118に出力する。つまり、この遅延時間DL−1〜mは、ゲイン特定関数GR−1〜mで決定される目標ゲインに相当する帯域ソース音データを出力するまでの時間、つまり、入力される参照信号レベルに応じてゲイン特定関数GRに従い出力される目標ゲインに達するまでの応答の速さを意味している。各LC117−1〜mに記憶された遅延時間DL−1〜mは、望ましいマスキング音データを得るために、少なくとも2つが互いに異なっている。この遅延時間DL−1〜mは、例えば、日本語の場合は1音韻(一般に50msec〜200msec)の半分程度の時間であり、この遅延時間を話者音データの周波数帯域ごとに最適化すれば、話者音の時間的な抑揚の緩和や平準化が期待できる。このような遅延は、前述した重要周波数帯域に対してのみ行うようにしてもよい。
【0114】
(15)マスキング音データ生成装置11〜81の動作の概要について、
図17を用い、マスキング音データ生成装置51の動作を例に挙げて説明する。
図17において、工程S1〜S3間の順序は
図17に示した順序に限定されず、任意である。また、これらのうち少なくともいずれか2つの工程が同時に行われてもよい。工程S1では、マスキング音データ生成装置51は、マスキング音データの生成に用いられる音を示すソース音データを取得する(ソース音データ取得ステップ)。工程S2では、マスキング音データ生成装置51は、マスキング対象の話者の音声を示す話者音データを取得する(話者音データ取得ステップ)。工程S3では、マスキング音データ生成装置51は、暗騒音を示す暗騒音データを取得する(暗騒音データ取得ステップ)。工程S4では、マスキング音データ生成装置51は、話者音データにおける2以上の周波数帯域の各々のレベルを特定する(帯域レベル特定ステップ)。工程S5では、マスキング音データ生成装置51は、2以上の周波数帯域の各々について、ソース音データの当該周波数帯域のレベルを、帯域レベル特定手段が特定した話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する(帯域レベル設定ステップ)。この工程S5において、マスキング音データ生成装置51は、ソース音データにおける2以上の周波数帯域のうちの少なくとも2つの周波数帯域の各々のレベルを、互いに異なる所定の規則に従い設定する。
なお、マスキング音データ生成装置51を除く、マスキング音データ生成装置11〜41,61〜81の動作の概要は、
図17から工程S3の暗騒音データ取得ステップを省いた動作となる。
本発明は、上記のような方法によって実現してもよい。