(58)【調査した分野】(Int.Cl.,DB名)
前記マスカ音出力手段は、最初に出力する前記撹乱音および前記背景音の折り返し時間が装置毎に異なることを特徴とする請求項3または請求項4に記載のマスカ音出力装置。
前記マスカ音出力手段は、前記撹乱音または前記背景音をクロスフェードして繰り返し出力することを特徴とする請求項3乃至請求項6のいずれかに記載のマスカ音出力装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、複数台の装置を設置する場合、同じ音が異なる装置で同じタイミング、あるいは少しずれたタイミングで再生されるため、聴取位置によっては音波の干渉によって音圧分布に偏りが生じ、特定の場所だけ強調される場合や逆に聞こえ難くなる場合がある。
【0006】
そこで、本発明は、複数の装置で同じマスカ音を出力する場合においても、音圧分布の偏りを防止するマスカ音出力装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
この発明のマスカ音出力装置は、マスカ音を生成するマスカ音生成手段と、装置毎に異なるタイミングで前記マスカ音を繰り返し出力するマスカ音出力手段と、を備えたことを特徴とする。
【0008】
この様に、装置毎に異なるタイミングでマスカ音を繰り返し出力することで、干渉による音圧分布の偏りを分散させ、音響空間の広がり感を与えることができる。したがって、銀行や調剤薬局等の対話カウンターのように、近接した位置で複数の会話がなされている場合においても、周囲の第三者に対して均一で一様なマスカ音を出力することができ、 場所によってマスカ音が聞こえなかったり、マスカ音が大きすぎて不快に感じたりすることがなくなる。
【0009】
また、マスカ音は、マスキング対象となる音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなり、撹乱音および背景音は、装置毎に異なる時間分だけ出力してから折り返し出力し、演出音は、所定時間分出力した後、装置毎に異なる無音区間を挿入して繰り返し出力する態様であることが望ましい。
【0010】
撹乱音は、例えば、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものである。背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が注目し難く、不快感のない音である。撹乱音および演出音は、定常的な音であり、同じ音データを繰り返し再生した場合であっても、聴取者が繰り返し再生していると認識し難いものである。そのため、所定時間分の音データを全て再生するのではなく、途中で折り返し再生したとしても違和感はない。なお、折り返し再生とは、例えば1分の音データを、先頭から30秒程度経過するまで再生した後、再度先頭から再生を行うことである。一方で、演出音は、演出性の高い音(例えばメロディ的な音)であるため、途中で途切れると違和感がある。そこで、演出音については、途中で折り返し再生を行わずに、予め定めた時間分出力した後に、装置毎に異なる無音区間を挿入して繰り返すことで音圧分布の偏りを分散させる。
【0011】
また、演出音は断続的に発生する音であるため、短い時間間隔で複数の装置から出力されるとエコーのように聞こえる可能性がある。そこで、エコーとして認識できない程度の十分な時間ずれとなるように無音区間が調整されることが望ましい。
【0012】
また、撹乱音および背景音は、最初に出力する音の折り返し時間が装置毎に異なる態様であればよい。その後、同じ折り返し時間で繰り返したとしても、繰り返し再生していると認識し難く、かつ音圧分布の均一さを維持することができる。
【0013】
一方、演出音は、ピッチ(音程)を有する音が時系列的に複数個連続するため、聴取者が繰り返し再生していることを認識し易い音である。そのため無音区間を乱数等を用いてランダムに変化させ、聴取者に繰り返しを感じさせないようにすることが好ましい。
【0014】
また、撹乱音や背景音は、クロスフェードして繰り返し出力することが好ましい。特に、背景音は、定常的な自然音であるが、例えば鳥のさえずり等の非定常な音も含まれる可能性があるため、クロスフェードにより折り返しの違和感を低減する。
【0015】
また、機器間でマスカ音の出力タイミングをずらすには、例えば、機器毎に固有の値(製造番号等)を用いて乱数を発生させ、この乱数に基づいて折り返し再生したり、無音区間を挟んだりする。
【0016】
また、撹乱音、背景音、および演出音をそれぞれ個別に記憶しておき、各音の出力タイミングを調整して都度組み合わせることにより各機器の出力タイミングをずらす態様とする。これにより、各機器で異なる音データ(再生時間が異なる音データ)を用意する必要はなく、各機器で記憶している音データを全く同じものとすることが可能である。
【発明の効果】
【0017】
この発明によれば、複数の装置で同じマスカ音を出力する場合においても、音圧分布の偏りを防止することができる、
【発明を実施するための形態】
【0019】
図1(A)は、本発明のマスカ音出力装置1Aを用いたマスキングシステムの構成概要図(平面配置図)であり、
図1(B)は、マスカ音出力装置1Aの構成を示すブロック図である。マスカ音出力装置1Aは、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。
図1(A)においては、3つのカウンターが存在し、各カウンターに話者H1が2名存在し、マスカ音出力装置1A、マスカ音出力装置1B、およびマスカ音出力装置1Cがそれぞれ独立して設置されている例を示し、第三者(聴取者)H2が4名である例を示す。ただし、話者や聴取者の数はこの例に限るものではない。また、マスカ音出力装置の数もこの例に限るものではない。
【0020】
図1(B)においては、代表してマスカ音出力装置1Aについての構成を示し、主にマスカ音出力装置1Aの機能について説明するが、他のマスカ音出力装置1Bおよびマスカ音出力装置1Cについても同じ構成および機能を有する。
マスカ音出力装置1Aは、マスカ音生成部11、記憶部12、ユーザインタフェース(I/F)13、D/A変換部14、およびスピーカ15を備えている。
【0021】
マスカ音生成部11は、記憶部12から各種音データを読み出し、マスカ音に係る音声信号(デジタル音声信号)を生成する。生成したマスカ音に係るデジタル音声信号は、D/A変換部14でアナログ音声信号に変換される。アナログ音声信号に変換されたマスカ音は、スピーカ15から放音され、聴取者H2に聴取される。なお、音声信号を増幅する構成は図示を省略しているが、アナログ音声信号を増幅する態様としてもよいし、デジタル音声信号を増幅する態様としてもよい。なお、マスカ音生成部11は、記憶部12から各種音データを読み出して、マスカ音を出力するのではなく、記憶部12からマスカ音の基となる各種音データを読み出して、読み出した各種音データを改変することでマスカ音を生成し、生成したマスカ音を出力してもよい。
【0022】
マスカ音生成部11は、本発明のマスカ音生成手段、およびマスカ音出力手段に相当し、記憶部12に記憶されている音データに基づいてマスカ音信号を生成し、出力する。マスカ音は、音声をマスクすることが可能な音であればどの様な音であってもよいが、例えば、記憶部12に記憶されている撹乱音、背景音、および演出音を組み合わせて生成する。
【0023】
撹乱音は、マスキング対象となる音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものである。また、撹乱音は、人の音声の音響的特徴を基に、マスカ音の基となる各種音を改変して生成された音でもよい。このように、撹乱音は、人の声質を有するものの、人から発せられた会話音声としては認識することができないものであり、聴取する環境によっては違和感を覚える場合がある。この違和感のある音声を聞き続ける、あるいは過大な音量で聞くことにより不快感が生じる場合もある。そこで、マスカ音生成部11は、撹乱音に背景音および演出音を組み合わせることが好ましい。
【0024】
背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴覚的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくすることで不快感を低減する。また、演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音を聴取者H2に聴取させることで、話者H1の音声をマスクしつつ、聴取者H2の不快感を低減することが可能となる。
【0025】
背景音は定常的に発生する環境音であり、演出音は断続的に発生する演出性の高い音であればどの様な音を用いてもよいものであるが、撹乱音を阻害しない(撹乱音のマスキング効果を阻害しない)特性を有し、撹乱音を聴取者に有意なレベルで聞かせながら、かつ聴感上の不快感を低減させることが好ましい。ここで「阻害しない」とは、撹乱音そのものが有している固有のマスキング効果を低下させないことである。本実施形態では、撹乱音そのものが有している固有のマスキング効果に加え、背景音および演出音の効果(撹乱音の違和感や不快感を低減すること)が、独立して付加される。ただし、撹乱音に背景音および演出音が加わると、撹乱音だけの場合よりもマスカ音としての音圧レベルが若干上昇する。このため、この音圧レベルの若干の上昇(マスカ音の音圧レベルが上がること)によってマスキング効果は多少増加する可能性がある。しかし、背景音および演出音の周波数特性は、撹乱音の周波数特性とは異なるため、前記の音圧レベルの上昇がそのままマスキング効果の増加に直接影響する訳ではない。
【0026】
図2は、撹乱音、背景音、および演出音の周波数特性を示す図である。ただし、同図に示す周波数特性は、説明のための一例として模式的に表したものであり、実際の音声信号の周波数特性を表したものではない。また、縦軸のレベルの数値は、撹乱音、背景音、および演出音の相対的な周波数特性レベルを表すもので、絶対値ではない。
【0027】
撹乱音は、上述の様に、人の音声を時間軸上あるいは周波数軸上で改変したものであるため、人の音声と同様の周波数特性を有する。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声(男性および女性を含む複数人の音声)を録音し、所定時間毎に一定長の区間に分割した音声信号を各区間で逆方向に読み出す等して、語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク(フォルマント)を抽出し、語彙に影響する特定のフォルマントを変更(例えばピークからディップに反転させる等)して語彙的に意味をなさない音声に変更する。撹乱音は、男性および女性を含む複数人の音声を用いた汎用的なものであってもよいし、話者本人の音声を用いたものであってもよい。また、マスカ音出力装置にマイクを設け、設置場所における話者の音声を取得して、取得した音声に基づいて都度、撹乱音を生成する態様としてもよい。
【0028】
図2においては、撹乱音として、男性および女性を含む複数人の音声を時間軸上で改変したものを用いた例を示し、250Hz付近に最も高レベルのピークを有し、100Hz〜1kHz程度の帯域(人の音声と同様の帯域)を有する周波数特性を示している。音程が変化すればピーク周波数も変化するが、撹乱音は人の音声に基づくものであるため、概ね100〜400Hz程度の周波数に最も高レベルのピークを有することになる。
【0029】
背景音は、上述の様に、小川のせせらぎや木々のざわめき等、帯域が広く、心理的に刺激の少ない音である。背景音は、撹乱音のピーク(
図2の例では250Hz)よりも高い周波数にピークを有する。
図2の例では、500Hz付近に最も高レベルのピークを有し、200〜2kHz程度の帯域を有する周波数特性を示している。これにより、撹乱音を有意なレベルで聞かせながらも撹乱音の違和感を低減することができる。ただし、背景音は、撹乱音の周波数主成分よりも高い周波数主成分を有していればよく、ピークの周波数や帯域はこの例に限るものではない。例えばさらに高周波数(例えば1kHz付近等)にピークを有する特性であってもよいし、帯域はさらに広く(例えば100Hz〜4kHz等)てもよい。また、主成分の指標となるものは周波数特性のピークに限らず、周波数特性の主成分を表すものであればどの様なものであってもよい。例えば、周波数特性の重心等の他のパラメータであってもよい。
【0030】
演出音は、背景音よりもさらに高域側にピークを有する構成として、最も聴感上目立つ音とし、聴取者の注意を向けさせる態様としている。また、演出音は、撹乱音よりも狭帯域として、聴感上耳につきやすい音としている。また、楽音(楽器の音または楽曲の音)として認識される音である。これにより、聴取者の注意を向けさせ、心理的に撹乱音を目立たせない態様としている。
図2の例では、ピアノの音を用いた例を示しており、1kHz付近に最も高レベルのピークを有し、700Hz〜1.5kHz程度の狭帯域の周波数特性を有する。ただし、演出音も、撹乱音の周波数主成分よりも高い周波数主成分を有していればよく、ピークの周波数はこの例に限るものではない。例えばさらに高い周波数(例えば2kHz付近等)や低い周波数(例えば背景音と同じ500Hz付近)にピークを有する特性であってもよい。また、帯域は、撹乱音の帯域よりも狭くすればよく、
図2の例よりも広く(例えば200Hz〜1kHz等)してもよい。また、主成分の指標となるものはピークに限らず、例えば、周波数特性の重心であってもよい。
【0031】
また、撹乱音、背景音、および演出音は、それぞれのピークレベルが大きく変わらないか、
図2の例に示すように、それぞれのピークレベルは略等しくなっており、
図2の例では−30dB程度となっている。または、背景音および演出音のピークレベルは、撹乱音のピークレベルを超えないレベルとする態様も可能となっている。ただし、演出音は撹乱音および背景音よりも相対的に狭帯域で非定常音であり、撹乱音や背景音よりも等価騒音レベルが低く、低音量とされるため、聴取者の注意を向けさせながらも、不快感を低減する態様としている。
【0032】
以上の様な撹乱音、背景音、および演出音を組み合わせてマスカ音とすることで、聴取者が話者の発した音声の内容を理解できないようにし、かつこの撹乱音のマスキング効果を阻害せずに撹乱音の違和感を低減する音を聴取させることで、人の音声をマスキング対象とする場合においても、聴取者の不快感を低減することができる。
【0033】
次に、マスカ音の生成処理について具体的に説明する。
図3は、マスカ音生成部11の機能ブロック図である。マスカ音生成部11は、機能的に、再生処理部111A、再生処理部111B、再生処理部111C、レベル調整部112A、レベル調整部112B、レベル調整部112C、および合成部113を備えている。
【0034】
再生処理部111Aは、記憶部12から撹乱音に係る音データを読み出し、再生処理を行う。このとき、再生処理部111Aは、撹乱音に係る音データがエンコードされた圧縮データである場合、デコード処理を行い、デジタル音声信号に変換する。同様に、再生処理部111Bは、記憶部12から背景音に係る音データを読み出し、再生処理を行う。再生処理部111Cは、記憶部12から演出音に係る音データを読み出し、再生処理を行う。
【0035】
ここで、再生処理部111A、再生処理部111B、および再生処理部111Cは、音データの再生タイミング(音声信号を出力するタイミング)を調整する。これにより、本発明のマスカ音出力手段を実現する。
図4は、撹乱音、背景音、および演出音の再生態様を示す概念図である。
【0036】
まず、撹乱音については、語彙的に意味をなさない定常的な音(人の音声に基づく音)であり、繰り返し再生した場合であっても、聴取者が繰り返し再生していると認識し難いものであるため、比較的短い所定の時間(
図4(A)の例では1分)の音データを繰り返し再生する態様とする。
【0037】
背景音については、定常的な自然音であるが、例えば木々のざわめきが一旦途切れたり、鳥のさえずりが挿入されたりして、非定常的な音も含まれる可能性があるため、比較的長い、すなわち撹乱音の音データの再生時間よりも長い所定の時間(
図4(B)の例では5分)の音データを繰り返し再生する態様としている。なお、前記所定の5分の繰り返し再生の際には、繰り返し毎に再生レベルや音色を変更させてもよい。
【0038】
ここで、撹乱音および背景音は、前記所定の時間分を全て再生する前に、所定のタイミングで折り返し再生を行う。折り返し再生とは、音データを先頭から全て再生するのではなく、先頭からある程度の時間(例えば30秒程度)経過するまで再生した後、再度先頭から再生を行うことである。例えば、
図4(A)に示すように、撹乱音は、最初に繰り返し再生を行うとき、前記所定の時間(1分)が経過する前に途中で折り返し再生を行う。2回目の再生以降、撹乱音は、前記所定の時間分の繰返し再生を行う。
【0039】
この折り返し再生のタイミングは、装置毎に異なる。例えばマスカ音出力装置1Aでは、3秒経過後に折り返し、マスカ音出力装置1Bでは5秒経過後に折り返し、マスカ音出力装置1Cでは7秒経過後に折り返す、等である。これにより、各装置の電源を同時にオンしたとしても、撹乱音の出力タイミングは、装置間で数秒程度のずれが生じる。
【0040】
装置毎に折り返し再生のタイミングをずらすには、例えば、機器毎に固有の乱数を用いる。例えば、製造番号等の機器毎に固有の値を用いて乱数Rn(Rn=0〜1)を発生し、この乱数に基づく時間tを算出することで各装置に固有な時間を得る。すなわち、t=a+(b−a)・Rn(aは最小値、bは最大値であり、例えばa=1秒、b=10秒)で表される式により、最初に再生する音データの再生時間を決定する。なお、製造番号等の機器毎に固有の値は、記憶部12や不図示のROM等に記憶されている。
【0041】
また、背景音も、
図4(B)に示すように、最初に繰り返し再生を行うとき、前記所定の時間(5分)が経過する前に途中で折り返し再生を行う。2回目の再生以降、背景音は、前記所定の時間分の繰返し再生を行う。上述と同様に、製造番号等の機器毎に固有の値を用いて乱数Rn(Rn=0〜1)を発生し、この乱数に基づく時間tを算出することで各装置に固有な時間を得る。すなわち、t=a+(b−a)・Rn(例えばa=1秒、b=10秒)で表される式により、最初に再生する音データの再生時間を決定する。ただし、撹乱音の時間tと背景音の時間tは、乱数によって異なるものとなり、異なるタイミングで折り返し再生されることになる。このため、1つの装置内においても、撹乱音と背景音の出力タイミングにはずれが生じる。
【0042】
また、背景音は、上述したように非定常的な音も含まれる可能性がある。このため、例えば、鳥のさえずりが途中で途切れて違和感が生じるような状況も考えられる。そのため、背景音は、クロスフェードして繰り返し出力して、折り返しの違和感を低減することが好ましい。なお、他の音(例えば撹乱音)についてもクロスフェードして繰り返し出力してもよい。
【0043】
一方、演出音は、上述の様に断続的に発生する音であるため、比較的短い、すなわち撹乱音の音データの再生時間よりも長く、かつ背景音の音データの再生時間よりも短い所定の時間(
図4(C)の例では2分)の音データを繰り返し再生する態様とする。ただし、演出音は、ピアノの音等のメロディ的な音となる可能性があるため、
図4(C)に示すように、撹乱音や背景音の様に折り返し再生を行うことなく、無音区間を挿入して再生タイミングを調整する。特に、演出音は、ピッチ(音程)を有する音が時系列的に複数個連続するため、聴取者が繰り返し再生していることを認識し易い音である。そのため、この無音区間をランダムに変化させて、聴取者に繰り返しを感じさせないようにする。無音区間をランダムに変化させるには、上述と同様に、機器毎に固有の製造番号等の数値を用いて乱数Rn(Rn=0〜1)を発生し、この乱数に基づく時間tを算出することで各装置に固有な時間を得る。すなわち、時間t=a+(b−a)・Rnを無音区間とすることで各装置に固有かつランダムな無音区間を決定する。ただし、演出音については、a=数十秒、b=数分程度として、ある程度の長さの無音区間が挿入されることが望ましい。例えば、複数の装置でわずかに時間がずれて同じ演出音(同じメロディ等)が出力されると、聴取者には、同じ音がわずかにずれて聞こえることになり、エコーのように気になる音として認識される場合がある。そこで、聴取者がエコーとして認識できない程度の十分な時間ずれとなるように無音区間が調整されることが望ましい。
【0044】
また、この無音区間tについても、乱数に基づく時間であるため、撹乱音および演出音の繰り返し時間tとは異なるものとなる。このため、1つの装置内においても、撹乱音、背景音、および演出音の出力タイミングにはずれが生じる。
【0045】
以上のようにして、撹乱音、背景音、および演出音の出力タイミングを調整することで、通信機能等を持たずに独立して設置された同じ装置(複数のマスカ音出力装置1A〜1C)を同時に電源をオンしたとしても、各装置間で出力される撹乱音、背景音、および演出音は、時間的なずれが生じ、音圧分布の偏りを分散させることができる。
【0046】
図5は、音圧分布の計算値を示す図である。
図5(A)は、マスカ音出力装置1A、マスカ音出力装置1B、およびマスカ音出力装置1Cから同時に同じマスカ音(ここでは撹乱音のみである場合を示す。)が出力された場合の音圧分布を示すものである。このように、複数の装置を同時に電源をオンして同じ音が同じタイミングで出力されると、位置によっては強調されて音圧レベルが高くなる場合や、逆に音圧レベルが低くなる場合がある。
【0047】
一方、
図5(B)は、上述のように、撹乱音、背景音、および演出音の出力タイミングを調整して、同時に同じマスカ音が出力されないようにした場合の音圧分布を示すものである。このように、本実施形態のマスキングシステムでは、装置間の撹乱音、背景音、および演出音の出力タイミングにずれが生じるため、干渉による音圧分布の偏りを分散させ、均一な音圧分布を実現している。したがって、銀行や調剤薬局等の対話カウンターのように、近接した位置で複数の会話がなされている場合においても、周囲の第三者に対して均一で一様なマスカ音を出力することができ、特定の装置に音像の定位が偏ることがなく音響空間の広がり感を与える(マスカ音が空間全体に響いているように知覚させる)ため、場所によってマスカ音が聞こえなかったり、マスカ音が大きすぎて不快に感じたりすることがなくなる。
【0048】
また、マスカ音出力装置は、撹乱音、背景音、および演出音をそれぞれ個別に記憶し、複数の装置がそれぞれ、撹乱音、背景音、および演出音の出力タイミングを調整してマスカ音を生成し、出力するため、各機器で記憶している撹乱音、背景音、および演出音をそれぞれ異なる音データ(再生時間の異なる音データ)とする必要はなく、それぞれ同じ音データとすることが可能である。また、通信機能を用いて各装置間で出力タイミングを調整する必要もなく、各装置が互いに独立して設置された状態でも出力タイミングをずらすことができる。
【0049】
なお、上述の例では、製造番号等の機器毎の固有の値を用いて乱数を発生し、乱数に基づく時間を算出する態様としたが、例えば機器毎に固有の乱数を記憶部12や不図示のROM等に予め記憶しておき、この記憶された乱数を読み出すことで、撹乱音や背景音の最初の再生時間、および演出音の無音区間を決定する態様とすることも可能である。また、回路上の雑音をA/D変換して乱数の初期値とする、あるいは乱数そのものとして取り込む態様としてもよい。また、ユーザI/F13を用いて、装置毎にユーザが撹乱音や背景音の最初の再生時間、および演出音の無音区間を指定する態様としてもよい。あるいは、マスカ音出力装置とパーソナルコンピュータ等の他の処理装置を接続し、この処理装置からマスカ音出力装置毎に異なる値(番号等)を与え、再生時間および無音区間をずらすようにしてもよい。
【0050】
なお、上述の例では、各機器においては、再生タイミングに周波数特性を持たず、どの周波数であっても再生タイミングが同じである場合を示したが、例えばオールパスフィルタ(全域通過濾波器)を用いて、機器毎に固有の位相特性(位相の周波数特性)を持たせ、周波数によって再生タイミングが異なるようにしてもよい。このようにすれば、音圧分布の偏りが、全帯域で一斉に発生することがなく、周波数によって分散するので、マスカ音の音圧分布の偏りを、更に効果的に防止することができる。
【0051】
なお、上述の例では、製造番号等の機器毎に固有の値を用いて乱数を発生させているが、乱数を発生させるための基となる値が機器毎に固有の値であるため、発生させた乱数についても必ず機器毎に異なる値となる。
【0052】
なお、上述の例では、撹乱音および背景音は、定常的な音であるため、最初に繰り返し再生を行うときだけ途中で折り返し再生を行い、その後は同じ折り返し時間で繰り返したとしても、繰り返し再生していると認識し難く、かつ音圧分布の均一さを維持することができるものであるが、2回目以降の繰り返し再生時に折り返し再生を行うようにしてもよいし、無論、毎回ランダムに途中で折り返し再生をするようにしてもよい。また、撹乱音や背景音ではなく、各音を合成したマスカ音全体として、折り返し再生を行うようにしてもよい。
【0053】
以上の様にして再生された撹乱音、背景音、および演出音は、レベル調整部112A、レベル調整部112B、およびレベル調整部112Cにそれぞれ入力される。レベル調整部112A、レベル調整部112B、およびレベル調整部112Cは、それぞれ撹乱音、背景音、および演出音のレベル調整を行い、合成部113に出力する。撹乱音、背景音、および演出音のレベル調整量は、例えば、
図2に示したように、ピークレベルが略等しくなるように予め規定されている。ただし、ユーザI/F13からレベル指定操作を受け付け、受け付けた操作内容に応じてレベル調整を行ってもよい。また、演出音(または背景音)についてはオン、オフする操作を受け付けてもよい。オフする操作を受け付けた場合、レベル調整部112C(またはレベル調整部112B)がレベル0とする処理を行う、あるいは再生処理部111C(または再生処理部111B)が再生処理を停止する。
合成部113は、撹乱音、背景音、および演出音を合成し、後段のD/A変換部14に出力する。
【0054】
ここで、記憶部12に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ1つに限らず、複数の音データであってもよい。この場合、マスカ音生成部11は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、ユーザI/F13からユーザに指定された音データを選択する態様としてもよいし、予め規定された組み合わせテーブル(記憶部12に記憶されたテーブル)に従って選択する態様としてもよい。
【0055】
図6(A)、
図6(B)、および
図6(C)は、組み合わせテーブルの例を示す図である。これらのテーブルは、記憶部12に記憶され、マスカ音生成部11によって参照される。まず、
図6(A)のように、各撹乱音にそれぞれ個別の背景音や演出音が対応づけられている例を示す。この場合、ユーザがユーザI/F13を用いて組み合わせ番号を指定する。例えば、組み合わせ番号1を選択すれば、撹乱音A、背景音A、および演出音Aの組み合わせが選択される。そこで、マスカ音生成部11は、記憶部12から撹乱音A、背景音A、および演出音Aに係る音データを読み出し、マスカ音を生成する。一方で、組み合わせ番号2を選択すれば、撹乱音B、背景音B、および演出音Bの組み合わせが選択され、マスカ音が変更される。例えば撹乱音Aが男性および女性を含む複数人の音声を用いた汎用的なものであり、撹乱音Bが話者本人の音声を用いたものである場合、マスキング効果が変化することになる。また、背景音が異なる音に変化すると、場の雰囲気が変化することになる。
【0056】
組み合わせを変更する場合、同時に同じ組み合わせ態様に変更するものでなければ干渉が発生する可能性は低いが、変更後の最初に再生する撹乱音および背景音についても、変更後の最初に再生する撹乱音および背景音を途中で折り返し再生をすることが好ましい。 また、変更前に計算した折り返しタイミング(最初の再生時間)をそのまま使用して折り返し再生をしてもよいが、組み合わせを変更する度に再度乱数を発生させ、再生時間を計算し直してもよい。
【0057】
このとき、組み合わせテーブルには、各音のレベル調整量が記載されていてもよい。各組み合わせによって生成されるマスカ音は、音量が同じであれば、撹乱音の聴取者における聴感上の音量が変化しないことが好ましい。したがって、選択される撹乱音によって、違和感が生じず、かつ音量感が変化しない背景音や演出音が再生されるように、レベルバランスを予め実験等によって規定しておく。
【0058】
また、この様に、音データを個別に複数記憶しておくことで、撹乱音だけを変更したり、背景音だけを変更したりすることができる。例えば、
図6(B)に示すように、組み合わせ番号1から組み合わせ番号4に変更し、撹乱音だけを変更すれば、場の雰囲気は変わらずにマスキング効果だけが変更され、組み合わせ番号1から組み合わせ番号2に変更し、背景音だけを変更すればマスキング効果は変わらずに、場の雰囲気だけが変更される。このとき、音量が一定であれば、異なるマスカ音(撹乱音+背景音や、撹乱音+背景音+演出音の組合せ)を選んだ場合であっても、マスキング効果が変化しないように聴感上の音量が調整されていることが望ましい。例えば、マスキング対象となる音声が一定の音量である場合、(ある位置で)異なるマスカ音が選ばれた場合でも、音声の聞き取りにくさが変わらないように撹乱音、背景音、および演出音のレベルバランス、あるいはマスカ音の最終的な音量を管理する。
【0059】
また、
図6(C)に示すように、1つの撹乱音に複数の背景音をミックスする態様としてもよいし、演出音を再生しない、という態様とすることも可能である。複数の背景音をミックスする場合も、各背景音の最初の再生時間は異なるものとする。また、組み合わせ番号3のように背景音を再生しない、という態様も可能であるし、組み合わせ番号nのように撹乱音だけとする態様も可能である。
【0060】
なお、本実施形態では、撹乱音、背景音、および演出音を個別に記憶しておき、出力時に都度合成する態様を示したが、予め合成済みのマスカ音に係る音データを記憶しておき、再生するように構成することも可能である。
【0061】
なお、マスカ音出力装置1は、専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。パーソナルコンピュータ等の汎用的な処理装置に、上述のマスカ音出力装置の動作を実行させるプログラムを用いることで実現可能である。
【0062】
また、上記プログラムは、磁気記録媒体(磁気テープ、HDD、FD等)、光記録媒体(CD、DVD等)、光磁気記録媒体、または半導体メモリ等、コンピュータ読み取り可能な記録媒体に記録した状態で提供することも可能である。また、当該プログラムは、インターネットのようなネットワーク経由でダウンロードさせることも可能である。