特許第5747490号(P5747490)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許5747490マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
<>
  • 特許5747490-マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム 図000002
  • 特許5747490-マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム 図000003
  • 特許5747490-マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム 図000004
  • 特許5747490-マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム 図000005
  • 特許5747490-マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5747490
(24)【登録日】2015年5月22日
(45)【発行日】2015年7月15日
(54)【発明の名称】マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
(51)【国際特許分類】
   G10K 11/178 20060101AFI20150625BHJP
【FI】
   G10K11/16 H
【請求項の数】12
【全頁数】11
(21)【出願番号】特願2010-272090(P2010-272090)
(22)【出願日】2010年12月7日
(65)【公開番号】特開2012-123070(P2012-123070A)
(43)【公開日】2012年6月28日
【審査請求日】2013年10月22日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】特許業務法人 楓国際特許事務所
(72)【発明者】
【氏名】山川 高史
(72)【発明者】
【氏名】小池 舞
(72)【発明者】
【氏名】秦 雅人
【審査官】 下林 義明
(56)【参考文献】
【文献】 特開2005−084645(JP,A)
【文献】 実開平05−064894(JP,U)
【文献】 特開平09−319389(JP,A)
【文献】 特開2008−233670(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/00 − 13/00
G10L 13/00 − 13/10
G10L 19/00 − 99/00
(57)【特許請求の範囲】
【請求項1】
マスカ音を生成するマスカ音生成手段を備えたマスカ音生成装置であって、
前記マスカ音は、音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなり、
前記背景音および演出音は、前記撹乱音のマスキング効果を阻害しない特性を有することを特徴とするマスカ音生成装置。
【請求項2】
マスカ音を生成するマスカ音生成手段を備えたマスカ音生成装置であって、
前記マスカ音は、音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなり、
前記背景音および演出音は、前記撹乱音の周波数主成分よりも高域側に周波数主成分を有することを特徴とするマスカ音生成装置。
【請求項3】
前記演出音は、前記背景音の周波数主成分よりも高域側に周波数主成分を有することを特徴とする請求項1または請求項2に記載のマスカ音生成装置。
【請求項4】
前記演出音は、前記撹乱音よりも狭帯域であることを特徴とする請求項1乃至請求項3のいずれかに記載のマスカ音生成装置。
【請求項5】
前記演出音は、前記撹乱音よりも低音量であることを特徴とする請求項1乃至請求項4のいずれかに記載のマスカ音生成装置。
【請求項6】
前記演出音は、無音区間がランダムに挿入されることを特徴とする請求項1乃至請求項5のいずれかに記載のマスカ音生成装置。
【請求項7】
前記撹乱音、前記背景音、および前記演出音を個別に複数記憶する記憶手段を備え、
前記マスカ音生成手段は、前記記憶手段に記憶されている前記撹乱音、前記背景音、および前記演出音を読み出して組み合わせることにより、前記マスカ音を生成することを特徴とする請求項1乃至請求項6のいずれかに記載のマスカ音生成装置。
【請求項8】
前記マスカ音生成手段は、前記撹乱音の聴取者における聴感上の音量が変化しないように前記撹乱音、前記背景音、および前記演出音を読み出して組み合わせることを特徴とする請求項7に記載のマスカ音生成装置。
【請求項9】
前記マスカ音生成手段は、前記マスカ音のマスキング効果が変化しないように前記撹乱音、前記背景音、および前記演出音を読み出して組み合わせることを特徴とする請求項7または請求項8に記載のマスカ音生成装置。
【請求項10】
請求項1乃至請求項9のいずれかに記載のマスカ音生成手段が生成したマスカ音を放音する放音手段を備えたマスカ音出力装置。
【請求項11】
マスカ音を生成するマスカ音生成処理を処理装置に実行させるマスカ音生成プログラムであって、
前記マスカ音は、音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなり、
前記背景音および演出音は、前記撹乱音のマスキング効果を阻害しない特性を有することを特徴とするマスカ音生成プログラム。
【請求項12】
マスカ音を生成するマスカ音生成処理を処理装置に実行させるマスカ音生成プログラムであって、
前記マスカ音は、音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなり、
前記背景音および演出音は、前記撹乱音の周波数主成分よりも高域側に周波数主成分を有することを特徴とするマスカ音生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、マスカ音を生成するマスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラムに関するものである。
【背景技術】
【0002】
従来、機器ノイズ等の不快感のある音をマスクするために、環境音を出力し、聴取者の不快感を低減するものが提案されている(例えば特許文献1を参照)。
【0003】
特許文献1の装置では、環境音として、小川のせせらぎ等の心理的に刺激の少ない単調な音と、鳥の鳴き声等の断続的に発生する音とが用いられている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平09−319389号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、人の音声のように語彙的に意味のあるものがマスキングの対象となる場合、聴取者が環境音よりも人の音声に注目して内容を聞き分けることになるため、適切にマスクすることができなかった。仮に、この様な人の音声が聴取者に聞こえないようにするためには、大音量の環境音を出力する必要があり、結局は不快感を低減することができないという課題があった。
【0006】
そこで、本発明は、人の音声をマスキングの対象とする場合においても、聴取者の不快感を低減することが可能であるマスカ音を生成するマスカ音生成装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
この発明のマスカ音生成装置は、マスカ音を生成するマスカ音生成手段を備え、マスカ音は、音声を撹乱する撹乱音と、連続的に発生する背景音と、断続的に発生する演出音と、からなる。撹乱音としては、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものを用いる。撹乱音は、人の声質を有するものの、人から発せられた会話音声としては認識できないものであり、聴取する環境によっては違和感を覚える場合がある。この違和感のある音声を聞き続ける、あるいは過大な音量で聞くことにより不快感が生じる場合もある。そこで、本発明は、撹乱音に背景音および演出音を組み合わせる態様とする。背景音とは、例えば小川のせせらぎや木々のざわめき等、聴取者が注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音を目立たなくすることで撹乱音の違和感を低減し、不快感を低減する。また、演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。そして、背景音および演出音は、撹乱音を阻害しない(撹乱音そのものが有している固有のマスキング効果を低下させない)特性を有することを特徴とする。
【0008】
このように、撹乱音を用いてマスキングの対象となる音声を撹乱することにより、聴取者がマスキングの対象となる音声の内容を理解できないようにし、かつこの撹乱音のマスキング効果を阻害せずに目立たないようにする音を聴取させることで、人の音声をマスキングの対象とする場合においても、聴取者の不快感を低減することが可能となる。
【0009】
背景音および演出音は、具体的には、撹乱音の周波数主成分(例えばピーク周波数)よりも高域側に周波数主成分を有することが望ましい。撹乱音は、上述の様に人の声を改変したものであるため、人の音声と同じ周波数特性を有する。一般的には100Hz〜数kHz程度の帯域を有し、250Hz程度までの周波数に主成分を有する。したがって、この主成分よりも高域側(例えば500Hz程度)に主成分を有する周波数特性の背景音および演出音を用いることで、撹乱音を聴取者に有意なレベルで聞かせながら、かつ聴感上の不快感を低減させることができる。
【0010】
また、演出音は、背景音よりも高域側にピークを有する構成として、最も聴感上目立つ音とし、より聴取者の注意を向けさせることが望ましい。さらに、演出音は、撹乱音よりも狭帯域であることが望ましい。狭帯域であれば、強く聴感上耳につきやすい音となり、聴取者の注意を向けさせることができる。また、演出音は、撹乱音よりも低音量とし、より撹乱音を阻害しないようにすることが望ましい。ただし、撹乱音よりもピーク周波数のレベルを低くする必要はなく、等価騒音レベルを低くして、聴取者の注意を向けさせながらも、不快感を低減することが望ましい。
【0011】
さらに、演出音は、無音区間がランダムに挿入されることにより、断続的に発生することが望ましい。これにより、聴取者が耳慣れをし、注目しなくなることを防止する。
【0012】
また、撹乱音、背景音、および演出音は、個別に複数記憶され、これらを読み出して組み合わせることにより、マスカ音を生成する態様としてもよい。個別に複数記憶しておくことで、撹乱音だけを変更したり、背景音だけを変更したりすることができる。例えば撹乱音を変更すれば雰囲気は変わらずにマスキング効果だけが変更され、背景音を変更すればマスキング効果は変わらずに雰囲気だけが変更される。
【0013】
なお、マスカ音生成手段は、撹乱音の聴取者における聴感上の音量が変化しないように撹乱音、背景音、および演出音のレベルバランスやマスカ音の音量を管理することが望ましい。また、マスカ音のマスキング効果が変化しないように撹乱音、背景音、および演出音のレベルバランスやマスカ音の音量を管理することが望ましい。
【発明の効果】
【0014】
この発明によれば、人の音声をマスキングの対象とする場合においても、聴取者の不快感を低減することが可能であるマスカ音を生成することができる。
【図面の簡単な説明】
【0015】
図1】マスカ音出力装置を用いたマスキングシステムの構成概要図、およびマスカ音出力装置の構成を示すブロック図である。
図2】撹乱音、背景音、および演出音の周波数特性を示す図である。
図3】マスカ音生成部の機能ブロック図である。
図4】撹乱音、背景音、および演出音の再生態様を示す概念図である。
図5】撹乱音、背景音、および演出音の組み合わせ例を示す図である。
【発明を実施するための形態】
【0016】
図1(A)は、本発明のマスカ音出力装置1を用いたマスキングシステムの構成概要図(平面配置図)であり、図1(B)は、マスカ音出力装置1の構成を示すブロック図である。マスカ音出力装置1は、例えば銀行や調剤薬局等の対話カウンターに設置され、カウンターを挟んで会話を行う者の発言内容を第三者に理解できないようにするマスカ音を当該第三者に対して放音するものである。図1(A)においては、話者H1が2名、第三者(聴取者)H2が1名である例を示すが、話者や聴取者の数はこの例に限るものではない。また、マスカ音出力装置も1つに限らず、複数を設置してもよい。
【0017】
マスカ音出力装置1は、マスカ音生成部11、記憶部12、ユーザインタフェース(I/F)13、D/A変換部14、およびスピーカ15を備えている。
【0018】
マスカ音生成部11は、記憶部12から各種音データを読み出し、マスカ音に係る音声信号(デジタル音声信号)を生成する。生成したマスカ音に係るデジタル音声信号は、D/A変換部14でアナログ音声信号に変換される。アナログ音声信号に変換されたマスカ音は、スピーカ15から放音され、聴取者H2に聴取される。なお、音声信号を増幅する構成は図示を省略しているが、アナログ音声信号を増幅する態様としてもよいし、デジタル音声信号を増幅する態様としてもよい。
【0019】
マスカ音生成部11は、記憶部12に記憶されている撹乱音、背景音、および演出音を組み合わせてマスカ音を生成し、出力する。撹乱音は、マスキング対象となる音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものである。このように、撹乱音は、人の声質を有するものの、人から発せられた会話音声としては認識することができないものであり、聴取する環境によっては違和感を覚える場合がある。この違和感のある音声を聞き続ける、あるいは過大な音量で聞くことにより不快感が生じる場合もある。そこで、マスカ音生成部11は、撹乱音に背景音および演出音を組み合わせる態様とする。背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴感的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくすることで不快感を低減する。また、演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音を聴取者H2に聴取させることで、話者H1の音声をマスクしつつ、聴取者H2の不快感を低減することが可能となる。
【0020】
ここで、背景音および演出音は、撹乱音を阻害しない(撹乱音のマスキング効果を阻害しない)特性を有し、撹乱音を聴取者に有意なレベルで聞かせながら、かつ聴感上の不快感を低減させるものである。ここで「阻害しない」とは、撹乱音そのものが有している固有のマスキング効果を低下させないことである。本実施形態では、撹乱音そのものが有している固有のマスキング効果に加え、背景音および演出音の効果(撹乱音の違和感や不快感を低減すること)が、独立して付加される。ただし、撹乱音に背景音および演出音が加わると、撹乱音だけの場合よりもマスカ音としての音圧レベルが若干上昇する。このため、この音圧レベルの若干の上昇(マスカ音の音圧レベルが上がること)によってマスキング効果は多少増加する可能性がある。しかし、背景音および演出音の周波数特性は、撹乱音の周波数特性とは異なるため、前記の音圧レベルの上昇がそのままマスキング効果の増加に直接影響する訳ではない。
【0021】
図2は、撹乱音、背景音、および演出音の周波数特性を示す図である。ただし、同図に示す周波数特性は、説明のための一例として模式的に表したものであり、実際の音声信号の周波数特性を表したものではない。また、縦軸のレベルの数値は、撹乱音、背景音、および演出音の相対的な周波数特性レベルを表すもので、絶対値ではない。
【0022】
撹乱音は、上述の様に、人の音声を時間軸上あるいは周波数軸上で改変したものであるため、人の音声と同様の周波数特性を有する。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声(男性および女性を含む複数人の音声)を録音し、所定時間毎に一定長の区間に分割した音声信号を、各区間で逆方向に読み出す等して語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク(フォルマント)を抽出し、語彙に影響する特定のフォルマントを変更(例えばピークからディップに反転させる等)して語彙的に意味をなさない音声に変更する。撹乱音は、男性および女性を含む複数人の音声を用いた汎用的なものであってもよいし、話者本人の音声を用いたものであってもよい。また、マスカ音出力装置にマイクを設け、設置場所における話者の音声を取得して、取得した音声に基づいて都度、撹乱音を生成する態様としてもよい。
【0023】
図2においては、撹乱音として、男性および女性を含む複数人の音声を時間軸上で改変したものを用いた例を示し、250Hz付近に最も高レベルのピークを有し、100Hz〜1kHz程度の帯域(人の音声と同様の帯域)を有する周波数特性を示している。音程が変化すればピーク周波数も変化するが、撹乱音は人の音声に基づくものであるため、概ね100〜400Hz程度の周波数に最も高レベルのピークを有することになる。
【0024】
背景音は、上述の様に、小川のせせらぎや木々のざわめき等、帯域が広く、心理的に刺激の少ない音である。背景音は、撹乱音のピーク(図2の例では250Hz)よりも高い周波数にピークを有する。図2の例では、500Hz付近に最も高レベルのピークを有し、200〜2kHz程度の帯域を有する周波数特性を示している。これにより、撹乱音を有意なレベルで聞かせながらも撹乱音の違和感を低減することができる。ただし、背景音は、撹乱音の周波数主成分よりも高い周波数主成分を有していればよく、ピークの周波数や帯域はこの例に限るものではない。例えばさらに高周波数(例えば1kHz付近等)にピークを有する特性であってもよいし、帯域はさらに広く(例えば100Hz〜4kHz等)てもよい。また、主成分の指標となるものはピークに限らず、例えば、周波数特性の重心等の他のパラメータであってもよい。
【0025】
演出音は、背景音よりもさらに高域側にピークを有する構成として最も聴感上目立つ音とし、聴取者の注意を向けさせる態様としている。また、演出音は、撹乱音よりも狭帯域として、聴感上耳につきやすい音としている。また、楽音(楽器の音または楽曲の音)として認識される音である。これにより、聴取者の注意を向けさせ、心理的に撹乱音を目立たせない態様としている。図2の例では、ピアノの音を用いた例を示しており、1kHz付近に最も高レベルのピークを有し、700Hz〜1.5kHz程度の狭帯域の周波数特性を有する。ただし、演出音も、撹乱音の周波数主成分よりも高い周波数主成分を有していればよく、ピークの周波数はこの例に限るものではない。例えばさらに高い周波数(例えば2kHz付近等)や低い周波数(例えば背景音と同じ500Hz付近)にピークを有する特性であってもよい。また、帯域は、撹乱音の帯域よりも狭くすればよく、図2の例よりも広く(例えば200Hz〜1kHz等)してもよい。また、主成分の指標となるものはピークに限らず、例えば、周波数特性の重心であってもよい。
【0026】
また、撹乱音、背景音、および演出音は、それぞれのピークレベルが大きく変わらないか、図2の例に示すように、それぞれのピークレベルは略等しくなっており、図2の例では−30dB程度となっている。または、背景音および演出音のピークレベルは、撹乱音のピークレベルを超えないレベルとする態様もなっている。ただし、演出音は撹乱音および背景音よりも相対的に狭帯域で非定常音であり、撹乱音や背景音よりも等価騒音レベルが低く、低音量とされるため、聴取者の注意を向けさせながらも、不快感を低減する態様としている。
【0027】
以上の様な撹乱音、背景音、および演出音を組み合わせてマスカ音とすることで、聴取者が話者の発した音声の内容を理解できないようにし、かつこの撹乱音のマスキング効果を阻害せずに撹乱音の違和感を低減する音を聴取させることで、人の音声をマスキング対象とする場合においても、聴取者の不快感を低減することができる。
【0028】
次に、マスカ音の生成処理について具体的に説明する。図3は、マスカ音生成部11の機能ブロック図である。マスカ音生成部11は、機能的に、再生処理部111A、再生処理部111B、再生処理部111C、レベル調整部112A、レベル調整部112B、レベル調整部112C、および合成部113を備えている。
【0029】
再生処理部111Aは、記憶部12から撹乱音に係る音データを読み出し、再生処理を行う。このとき、再生処理部111Aは、撹乱音に係る音データがエンコードされた圧縮データである場合、デコード処理を行い、デジタル音声信号に変換する。同様に、再生処理部111Bは、記憶部12から背景音に係る音データを読み出し、再生処理を行う。再生処理部111Cは、記憶部12から演出音に係る音データを読み出し、再生処理を行う。
【0030】
ここで、再生処理部111A、再生処理部111B、および再生処理部111Cは、音データの再生タイミング(音声信号を出力するタイミング)を調整する。図4は、撹乱音、背景音、および演出音の再生態様を示す概念図である。
【0031】
まず、撹乱音については、語彙的に意味をなさない定常的な音(人の音声に基づく音)であり、繰り返し再生した場合であっても、聴取者が繰り返し再生していると認識し難いものであるため、比較的短い所定の時間(図4(A)の例では1分)の音データを繰り返し再生する態様とする。ただし、最初に繰り返し再生を行うとき、前記所定の1分が経過する前に途中で折り返し再生を行う。2回目の再生以降、撹乱音は、前記所定の時間分の繰返し再生を行う。この折り返しタイミング(最初の撹乱音の再生時間)は、製造番号等の機器固有の数値を用いてマスカ音出力装置毎に異なることが好ましい。特に、この折り返し再生は、マスカ音出力装置が単体である場合はなくてもよいが、複数台設置する場合に行うことが好ましい。複数台設置する場合、同じ音が異なる機器で同じタイミングで再生されるため、聴取位置によっては干渉によって強調される場合や逆に聞こえ難くなる場合がある、あるいはエコーのように聞こえたり、違和感があるように聞こえたりする可能性がある。そこで、異なる機器からは時間的にある程度ずれたタイミングでそれぞれ再生させることが好ましい。
【0032】
背景音については、定常的な自然音であるが、例えば木々のざわめきが一旦途切れたり、鳥のさえずりが挿入されたりして、非定常的な音も含まれる可能性があるため、比較的長い所定の時間(図4(B)の例では5分)の音データを繰り返し再生する態様としている。2回目の再生以降、背景音は、前記所定の時間分の繰返し再生を行う。なお、前記所定の5分の繰り返し再生の際には、繰り返し毎に再生レベルや音色を変更させてもよい。また、背景音についても、撹乱音と同様に、最初に繰り返し再生を行うとき、製造番号等の機器固有の数値を用いて5分経過する前に途中で折り返し再生を行うことが好ましい。
【0033】
演出音は、上述の様に断続的に発生する音であるため、比較的短い時間(例えば図4(C)の例では2分)の音データを繰り返し再生する態様とする。ただし、演出音は、ピアノの音等のメロディ的な音となる可能性があるため、図4(C)に示すように、撹乱音や背景音の様に途中で折り返しを行うことなく、無音区間を挿入して再生タイミングを調整する。特に、演出音は、ピッチ(音程)を有する音が時系列的に複数個連続するため、聴取者が繰り返し再生していることを認識し易い音である。そのため、この無音区間は、乱数等を用いてランダムに変化させ、聴取者に繰り返しを感じさせないようにすることが好ましい。この乱数も機器間で異なることが好ましい。また、撹乱音、背景音、および演出音のそれぞれの繰返し再生のタイミングも、同一機器において異なるタイミングとなるように制御することが好ましい。
【0034】
以上の様にして再生された撹乱音、背景音、および演出音は、レベル調整部112A、レベル調整部112B、およびレベル調整部112Cにそれぞれ入力される。レベル調整部112A、レベル調整部112B、およびレベル調整部112Cは、それぞれ撹乱音、背景音、および演出音のレベル調整を行い、合成部113に出力する。撹乱音、背景音、および演出音のレベル調整量は、例えば、図2に示したように、ピークレベルが略等しくなるように予め規定されている。ただし、ユーザI/F13からレベル指定操作を受け付け、受け付けた操作内容に応じてレベル調整を行ってもよい。また、演出音(または背景音)についてはオン、オフする操作を受け付けてもよい。オフする操作を受け付けた場合、レベル調整部112C(またはレベル調整部112B)がレベル0とする処理を行う、あるいは再生処理部111C(または再生処理部111B)が再生処理を停止する。
【0035】
合成部113は、撹乱音、背景音、および演出音を合成し、後段のD/A変換部14に出力する。
【0036】
ここで、記憶部12に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ1つに限らず、複数の音データであってもよい。この場合、マスカ音生成部11は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、ユーザI/F13からユーザに指定された音データを選択する態様としてもよいし、予め規定された組み合わせテーブル(記憶部12に記憶されたテーブル)に従って選択する態様としてもよい。
【0037】
図5(A)、図5(B)、および図5(C)は、組み合わせテーブルの例を示す図である。これらのテーブルは、記憶部12に記憶され、マスカ音生成部11によって参照される。まず、図5(A)のように、各撹乱音にそれぞれ個別の背景音や演出音が対応づけられている例を示す。この場合、ユーザがユーザI/F13を用いて組み合わせ番号を指定する。例えば、組み合わせ番号1を選択すれば、撹乱音A、背景音A、および演出音Aの組み合わせが選択される。そこで、マスカ音生成部11は、記憶部12から撹乱音A、背景音A、および演出音Aに係る音データを読み出し、マスカ音を生成する。一方で、組み合わせ番号2を選択すれば、撹乱音B、背景音B、および演出音Bの組み合わせが選択され、マスカ音が変更される。例えば撹乱音Aが男性および女性を含む複数人の音声を用いた汎用的なものであり、撹乱音Bが話者本人の音声を用いたものである場合、マスキング効果が変化することになる。また、背景音が異なる音に変化すると、場の雰囲気が変化することになる。
【0038】
このとき、組み合わせテーブルには、各音のレベル調整量が記載されていてもよい。各組み合わせによって生成されるマスカ音は、音量が同じであれば、撹乱音の聴取者における聴感上の音量が変化しないことが好ましい。したがって、選択される撹乱音によって、違和感が生じず、かつ音量感が変化しない背景音や演出音が再生されるように、レベルバランスを予め実験等によって規定しておく。
【0039】
また、この様に、音データを個別に複数記憶しておくことで、撹乱音だけを変更したり、背景音だけを変更したりすることができる。例えば、図5(B)に示すように、組み合わせ番号1から組み合わせ番号4に変更し、撹乱音だけを変更すれば、場の雰囲気は変わらずにマスキング効果だけが変更され、組み合わせ番号1から組み合わせ番号2に変更し、背景音だけを変更すればマスキング効果は変わらずに、場の雰囲気だけが変更される。このとき、音量が一定であれば、異なるマスカ音(撹乱音+背景音や、撹乱音+背景音+演出音の組合せ)を選んだ場合であっても、マスキング効果が変化しないように聴感上の音量が調整されていることが望ましい。例えば、マスキング対象となる音声が一定の音量である場合、(ある位置で)異なるマスカ音が選ばれた場合でも、音声の聞き取りにくさが変わらないように撹乱音、背景音、および演出音のレベルバランス、あるいはマスカ音の最終的な音量を管理する。
【0040】
また、図5(C)に示すように、1つの撹乱音に複数の背景音をミックスする態様としてもよいし、演出音を再生しない、という態様とすることも可能である。また、組み合わせ番号3のように背景音を再生しない、という態様も可能であるし、組み合わせ番号nのように撹乱音だけとする態様も可能である。
【0041】
なお、本実施形態では、撹乱音、背景音、および演出音を個別に記憶しておき、出力時に都度合成する態様を示したが、予め合成済みのマスカ音に係る音データを記憶しておき、再生するように構成することも可能である。
【0042】
なお、マスカ音出力装置1は、専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。パーソナルコンピュータ等の汎用的な処理装置に、上述のマスカ音出力装置の動作を実行させるプログラムを用いることで実現可能である。
【符号の説明】
【0043】
H1…話者
H2…聴取者
1…マスカ音出力装置
11…マスカ音生成部
12…記憶部
14…D/A変換部
15…スピーカ
図1
図2
図3
図4
図5