(58)【調査した分野】(Int.Cl.,DB名)
前記マスカ音選択手段は、前記抽出手段が抽出した音響特徴量と前記読み出したマスカ音に係る音データとを、新たに対応づけて前記対応付けテーブルに記載することを特徴とする請求項2に記載のマスカ音出力装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、聴取者の周囲全ての音をマスクしているため、聴取者が不快と感じない音又は必要とする音までもがマスクされる。このため、無駄な処理が行われ、また、聴取者が必要な情報を聞き逃すといった問題がある。
【0005】
そこで、本発明の目的は、マスクする音又はタイミングを選択することができるマスカ音出力装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明に係るマスカ音出力装置は、入力手段、抽出手段、指示受付手段、および出力手段を備えている。入力手段は、収音された音に係る収音信号を入力する。抽出手段は、収音信号の音響特徴量を抽出する。音響特徴量とは、音の特徴を示す物理量であり、例えばスペクトル(各周波数のレベル)や、スペクトル包絡のピークの周波数(基本周波数、フォルマント等)を表す。指示受付手段は、マスカ音の出力開始の指示を受け付ける。出力手段は、指示受付手段が前記出力開始の指示を受け付けた場合に、前記抽出手段が抽出した音響特徴量に対応するマスカ音を出力する。
【0007】
この構成では、収音信号に係る音響特徴量を抽出し、ユーザ又は自動設定によりマスカ音の出力開始指示が行われた場合、抽出した音響特徴量に対応するマスカ音を出力する。これにより、例えばユーザが聞きたくない音が聞こえたときにマスカ音の出力開始指示の操作を行うことで、聞きたくない音だけをマスクすることができる。その結果、ユーザは、マスクしたい音を選択することで、マスクの必要のない音がマスクされることを回避でき、必要な情報を聞き逃すといった問題を回避できる。また、マスクをする必要のない音に対してマスカ音を生成するといった無駄な処理を軽減できる。
【0008】
また、本発明に係るマスカ音出力装置は、音響特徴量とマスカ音の対応付けを示した対応付けテーブルと、抽出手段が抽出した音響特徴量で前記対応付けテーブルを参照し、対応するマスカ音を選択するマスカ音選択手段と、を備えた態様も可能である。この場合、出力手段は、前記マスカ音選択手段が選択したマスカ音を出力する。
【0009】
この構成では、収音された音に係る音響特徴量と、出力すべきマスカ音との対応付けを示したテーブルを参照することで、収音した音に対応するマスカ音が自動的に出力されることになる。
【0010】
また、音響特徴量には複数のマスカ音が対応付けられ、マスカ音選択手段は、前記対応付けテーブルで対応付けられた複数のマスカ音から、ランダムにマスカ音を選択することにより、出力するマスカ音を
ランダムに変化させる態様も可能である。
【0011】
この構成では、例えば、朝には、朝に適した爽快な音、夜には、ユッタリとした音とするなど、同じ音をマスクする場合であっても、条件に応じて異なるマスカ音を出力する。したがって、ユーザの使用状況に応じた適切なマスカ音が出力されることになる。
【0012】
また、本発明に係るマスカ音出力装置は、マスカ音に係る音データを記憶するマスカ音データ記憶手段を備えた態様も可能である。この場合、マスカ音選択手段は、前記指示受付手段が前記出力開始の指示を受け付け、かつ前記抽出手段が抽出した音響特徴量が前記対応付けテーブルに記載されていないと判定した場合に、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、対応するマスカ音に係るデータを前記マスカ音データ記憶手段から読み出して前記出力手段に出力する。
【0013】
この構成では、マスカ音に係る音データを記憶しておくことで、収音した音に対応するマスカ音が存在しなかった場合でも、抽出した音響特徴量に適したマスカ音(例えば類似する音響特徴量を有するもの)を自動的に出力することができる。
【0014】
なお、マスカ音選択手段は、抽出手段が抽出した音響特徴量と読み出したマスカ音に係る音データとを、新たに対応づけて対応付けテーブルに記載することが好ましい。
【0015】
これにより、以降に同じ音響特徴量を有するマスカ音を収音した際に、以前に出力したマスカ音と同じものを自動的に出力させることができる。
【0016】
さらに、マスカ音出力装置は、
複数の音声で、語彙的に意味のない音声からなる汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段をさらに備え、前記抽出手段が抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段を備え、前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音が含まれているこ
とが好ましい。
【0017】
この構成では、記憶している汎用マスカ音を、収音信号の音響特徴量に合わせて加工し、撹乱音を生成する。汎用マスカ音は、例えば男女複数人の音声で内容が理解できない(語彙的に何ら意味をなさない)ものである。撹乱音は、この汎用マスカ音の特徴量を収音した音声の特徴量に近づけたものである。撹乱音は、汎用マスカ音と同様に語彙的に何ら意味をなさない音であり、かつ、マスク対象の音に近い音質(声質)や音高を有することになるため、高いマスキング効果を得ることができる。
【0020】
なお、上記本発明におけるマスカ音は、連続的な
定常音及び断続的な
非定常音を合成させたものが含まれていることが好ましい。
【0021】
連続的な
定常音は、上記のような撹乱音や、例えば、川のせせらぎ音や木々のざわめき音等の背景音(定常的な自然音)等が含まれる。撹乱音は、上述のように、音韻を崩したものであるため、違和感を覚える場合がある。そこで、背景音により暗騒音レベルを上げ、上記の撹乱音のような音を目立たなくすることで撹乱音の違和感を低減する。また、断続的な
非定常音は、例えば、断続的に発生するメロディ音等の演出性の高い音(演出音)である。この演出音により、聴取者の注意を引き、聴覚心理的に撹乱音の違和感を目立たなくする。
【0022】
また、マスカ音に含まれる連続的な
定常音及び断続的な
非定常音の組み合わせ態様は、当該マスカ音を出力する時に応じて変更されることが好ましい。
【0023】
マスカ音を出力する時間又は時期(季節)などに応じて、マスカ音の組み合わせ態様を変更すると、より快適なマスカ音の出力が可能となる。例えば、朝には、鳥の鳴き声が含まれた背景音を出力して目覚めを良くし、夜には、演出音を消してリラックスできるようにする、等である。
【発明の効果】
【0024】
本発明によれば、マスクする音を選択することで、必要な音がマスクされることで必要な情報を聞き逃したり、無駄なマスカ音の生成処理を行ったりすることを回避することができる。
【発明を実施するための形態】
【0026】
以下、本発明に係るマスカ音出力装置の好適な実施形態について図面を参照して説明する。本実施形態に係るマスカ音出力装置は、ユーザ(聴取者)がスイッチをオンにするなどの操作を行った際に、マイクロフォン(以下、マイクという)で収音した音を解析し、解析結果に応じた適切なマスカ音を出力する。すなわち、本実施形態では、聴取者がマスクしたい音又はタイミングを選択することで、聞きたくない音声(空調機器の騒音又は室外の騒音などを含む)がマスクされた快適な環境空間を形成することができる。なお、以下では、話者の音声を聞きたくない聴取者をマスカ音出力置のユーザとして説明するが、自身の会話の内容を聴取者に聞かれたくない話者がマスカ音出力装置のユーザであってもよい。
【0027】
図1は、本実施形態に係るマスカ音出力装置の構成を模式的に示すブロック図である。マスカ音出力装置1は、制御部2、記憶部3、操作部4、音声入力部5、信号処理部6及び音声出力部7を備えている。制御部2は、例えばCPU(Central Processing Unit)であって、マスカ音出力装置1の動作を制御する。記憶部3は、ROM(Read Only Memory)又はRAM(Random Access Memory)等であって、制御部2及び信号処理部6などにより読み出される必要なプログラム又はデータなどを記憶する。操作部4は、ユーザの操作を受け付ける。操作部4は、例えばマスカ音出力装置1の電源スイッチ、及びユーザが不快と感じたときにマスカ音の出力の開始を指示するスイッチなどである。
【0028】
音声入力部5は、図示しないA/Dコンバータを有しており、マイク5Aが接続されている。音声入力部5は、マイク5Aから入力された収音信号をA/DコンバータでA/D変換し、信号処理部6へ出力する。なお、マイク5Aが収音する音声には、話者の音声、空調機器の騒音又は室外の騒音などを含む。
【0029】
信号処理部6は、例えばDSP(Digital Signal Processor)からなり、収音信号に対して信号処理を行い、音響特徴量を抽出する。
図2は、制御部2、信号処理部6及び記憶部3の構成を模式的に示すブロック図である。信号処理部6は、FFT(Fast Fourier Transform)61および特徴量抽出部62を備える。制御部2は、マスカ音選択部21を備える。FFT61は、音声入力部5からの収音信号に対してフーリエ変換を行い、時間領域の信号を周波数領域の信号に変換する。
【0030】
特徴量抽出部62は、FFT61によりフーリエ変換された収音信号の特徴量(スペクトル)を抽出する。具体的には、特徴量抽出部62は、周波数毎に信号強度を算出し、算出した信号強度が閾値以上のスペクトルを抽出し、音響特徴量(以下、単に特徴量とも言う。)を抽出する。特徴量は、音の特徴を表す物理量であり、スペクトルそのもの(各周波数のレベル)や、スペクトル包絡の各ピークの周波数を表すもの(各ピークの中心周波数とレベル)等である。なお、特徴量抽出部62は、信号強度が閾値未満のスペクトルを不要成分と判定し、そのスペクトルを「0」としてもよい。閾値は、騒音など様々な音を含む入力音から、少なくとも聴取者が知覚可能なレベルに対応する値である。閾値は、予め設定されていてもよいし、操作部4から入力されてもよい。
【0031】
マスカ音選択部21は、特徴量抽出部62が抽出した特徴量に対応するマスカ音に係る音声データ(以下、マスカ音データという)を記憶部3から選択し、音声出力部7へ出力する。記憶部3には、マスカ音記憶部31及びマスカ音選択テーブル32を備えている。マスカ音記憶部31は、複数の時間軸波形のマスカ音データを記憶している。マスカ音データは、予め(例えば工場出荷時から)マスカ音記憶部31に記憶しておいてもよいし、都度、ネットワーク等を経由して外部から取得し、マスカ音記憶部31に記憶してもよい。マスカ音選択テーブル32は、収音信号の特徴量と、マスカ音記憶部31に記憶されたマスカ音データとを対応付けるデータテーブルである。
【0032】
図3は、マスカ音選択テーブル32を模式的に示す図である。マスカ音選択テーブル32は、特徴量欄、時間欄及びマスカ音欄を有し、各欄の情報をそれぞれ対応付けている。特徴量欄には、特徴量抽出部62で抽出された収音信号の特徴量が格納される。マスカ音欄には、特徴量欄に格納された特徴量に対応するマスカ音が格納される。具体的には、マスカ音欄には、攪乱音欄、背景音欄及び演出音欄からなり、各欄には、各データが記憶されているマスカ音記憶部31のアドレスが格納される。時間欄には、対応するマスカ音の出力に適した時間が格納される。
攪乱音欄には、マスキング効果の主となる攪乱音が記憶されている。攪乱音は、例えば、話者の音声が加工されて生成された内容が理解できない会話音(語彙的に何ら意味をなさない音)である。マスカ音データは、少なくともこの攪乱音を含んでいる。背景音欄には、定常的(連続的)な背景音が記憶されている。背景音は、例えばBGM、川のせせらぎ、木々のざわめきなどの音である。演出音欄には、ピアノ音やチャイム音、鐘の音等の非定常的(断続的)に発生する演出性の高い音(演出音)が記憶されている。なお、背景音は、繰り返し再生出力される。演出音は、ランダムに、または、繰り返し再生出力される背景音の繰り返し開始時に出力される。また、演出音は、出力される時間がデータテーブルにより決められていてもよい。撹乱音は、語彙的に意味をなさないものであるため、違和感を覚える場合がある。そこで、背景音により暗騒音レベルを上げ、上記の撹乱音のような音を目立たなくすることで撹乱音による聴感上の違和感を低減する。また、演出音により、聴取者の注意を引き、聴覚心理的に撹乱音の違和感を目立たなくする。
【0033】
図3に示す特徴量Aに対応付けられたマスカ音データは、攪乱音Aに、BGMの背景音、及び、ピアノ音やチャイム音などの演出音が合成されている。BGMは、スローテンポの静かな曲、又は、アップテンポの曲などであり、マスカ音の出力時間に適したものが、攪乱音Aに合成される。例えば、
図3に示すように、10時から12時の朝には、スローテンポのBGM1が、14時から15時の昼過ぎには、アップテンポのBGM2等が、攪乱音Aに合成される。また、マスカ音の出力時間に適した演出音として、例えば朝にはチャイム音、昼過ぎにはピアノ音が攪乱音Aにさらに合成される。また、特徴量Bには、攪乱音B(例えば、話者の音声)に、川の音としての背景音、及び、鐘の音としての演出音が合成されたマスカ音データが対応付けられている。
【0034】
マスカ音選択部21は、マスカ音選択テーブル32から選択したマスカ音に係るアドレスを参照し、マスカ音記憶部31からマスカ音データを取得する。例えば、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、特徴量欄に格納される特徴量とのマッチング(相互相関による比較等)を行い、一致する又は略一致すると判断できる程度類似する特徴量を検索する。検索した結果、例えば特徴量抽出部62が抽出した特徴量が特徴量Aに略一致し、現在時刻が11時のとき、マスカ音選択部21は、マスカ音選択テーブル32を参照して、特徴量A及び現在時刻(11時)に対応するマスカ音「攪乱音A+BGM1+チャイム音」を選択する。現在時刻がテーブル内の時間欄に該当しない場合、例えば現在時刻が16時である場合、マスカ音選択部21は、テーブル内のうち、時間欄が空白であるマスカ音「攪乱音A+木々のざわめき音」を選択する。これにより、マスカ音選択部21が選択したマスカ音が出力されると、攪乱音によって、対象の音を攪乱して聞こえ難く(内容を理解できなく)しつつ、背景音や演出音などによって、攪乱する際に生じる不快感を聴取者に与えないようにできる。なお、一の特徴量に複数のマスカ音が対応している場合、ユーザが手動で操作部4から希望するマスカ音を選択できるようにしてもよい。
【0035】
図3に示すマスカ音選択テーブル32は、マスカ音選択部21により各情報が登録される。具体的には、ユーザにより操作部4からマスカ音の出力開始操作が行われた場合に、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量がマスカ音選択テーブル32に格納されているか否かを判定する。格納されていないと判定した場合、マスカ音選択部21は、その特徴量に適したマスカ音データをマスカ音記憶部31から選択する。例えば、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、マスカ音記憶部31に記憶されるマスカ音データのうち、複数のマスカ音データの特徴量との相互相関をそれぞれ算出し、最も相関が高いマスカ音データを選択する。あるいは、マスカ音選択部21は、相関の高いものから順に複数のマスカ音データを選択してもよい。このとき、マスカ音記憶部31に記憶されているマスカ音データは時間軸波形であるため、マスカ音選択部21が各マスカ音データを信号処理部6に入力し、信号処理部6が都度、周波数領域の信号に変換して特徴量を抽出してもよいが、マスカ音記憶部31が記憶するマスカ音データに、マスカ音データの特徴量を示す情報(例えば、スペクトルのピーク値など)をヘッダとして付加するようにしてもよい。この場合、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、マスカ音記憶部31に記憶される各マスカ音データのヘッダ(特徴量を示す情報)との相関を求めるだけで済み、マスカ音選択部21が行うマスカ音記憶部31からのマスカ音データの選択処理を短縮することができる。
【0036】
マスカ音選択部21は、以上のようにして特徴量抽出部62が抽出した特徴量と相関が高い特徴量を有するマスカ音データを選択し、選択したマスカ音データが記憶されたアドレスと抽出した特徴量とを対応付けて、マスカ音選択テーブル32に新たに格納(登録)する。このとき、時間欄には、マスカ音選択テーブル32に特徴量等を格納した時間や季節が格納されてもよいし、選択されたマスカ音データに予め設定された時間や季節が格納されてもよい。また、一の特徴量に複数のマスカ音データが選択された場合、ユーザが操作部4から各マスカ音データの出力させる時間や季節を設定できるようにしてもよい。
【0037】
また、特徴量抽出部62が抽出した特徴量に最適なマスカ音データ(相関の高いマスカ音データ)がマスカ音記憶部31に記憶されていない場合、マスカ音選択部21は、外部装置から相関の高いマスカ音データを取得できるようにしてもよい。外部装置は、例えば、マスカ音出力装置と接続するパーソナルコンピュータ(以下、パソコンという)であってもよいし、ネットワークを経由して接続されるサーバ装置であってもよい。
【0038】
このように、一度マスカ音選択テーブル32に特徴量を格納(登録)しておけば、以降同じ特徴量の音声を収音した場合に、マスカ音選択部21は、抽出した特徴量に適したマスカ音データを自動的に選択できる。仮に、抽出した特徴量をマスカ音選択テーブル32に登録しない場合、マスカ音選択部21は、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択する処理(複数のマスカ音データとの相互相関算出等)を、マスカ音を出力する都度、行う必要があり、その処理に時間を要する。これに対し、マスカ音選択テーブル32に登録しておけば、対応するマスカ音データを読み出すだけでよいため、マスカ音が出力されるまでの時間を短縮でき、話者の音声がマスクされた快適な環境空間をより早く形成することができる。また、一の特徴量に複数のマスカ音データを対応付け、ランダムに変化させることで、同じ音声を収音した場合であっても、常に同じマスカ音が出力されることがないため、カクテルパーティ効果を抑え、常に適切にマスクすることができる。さらに、朝、昼、晩などの時間毎に適したマスカ音データを対応付けることを可能とすることで、より快適な環境空間を形成することができる。
【0039】
なお、信号処理部6は、記憶部3に記憶された音データを取得し、その音データを加工するようにしてもよい。
図4は、記憶された音データを加工する場合における、制御部2および信号処理部6が有する機能を模式的に示すブロック図である。
図4に示す信号処理部6は、
図2に示した信号処理部6の構成に加えて、マスカ音加工部64を備えている。記憶部3には、汎用マスカ音(例えば、男女複数人の音声で内容が理解できないもの)データを記憶する汎用マスカ音記憶部33、背景音データ(BGMなど)を記憶する背景音記憶部34、及び演出音データ(断続的に発生するメロディ等)を記憶する演出音記憶部35をそれぞれ記憶されている。
【0040】
マスカ音選択部21は、汎用マスカ音記憶部33から汎用マスカ音データを取得し、マスカ音加工部64に出力する。マスカ音加工部64は、入力したマスカ音データを周波数領域の信号に変換し、マスカ音選択部21から入力される収音信号の特徴量に合わせて、マスカ音データの周波数特性を加工する。例えば、汎用マスカ音のフォルマントを、収音信号のフォルマントと一致させる。そして、加工したマスカ音データを時間領域の信号に変換し、マスカ音選択部21に出力する。これにより、特に収音信号が話者の音声である場合、出力する汎用マスカ音を、話者の音声の特徴により近づける。そして、マスカ音選択部21は、背景音記憶部34及び演出音記憶部35から、BGMやピアノ音などを任意に、又はユーザの指示により選択し、加工した汎用マスカ音データに合成し、音声出力部7へ出力する。これにより、話者の音声を、話者の音声に近い汎用マスカ音で攪乱しつつ、背景音や演出音などによって、マスクする際に生じる不快感を聴取者に与えないようにできる。この場合においても、一度抽出した収音信号の特徴量と記憶部3から取得した各データとを対応付け、
図3のようなテーブルに記憶するようにしてもよい。これにより、以降、背景音や演出音の選択処理を指示する必要がなくなる。
【0041】
また、本実施形態において、信号処理部6は、収音信号を加工してマスカ音データに含めて出力してもよい。この場合、信号処理部6は、収音信号を時間軸上、又は周波数軸上で改変し、内容が理解できない音声に変換する。
図5は、収音信号を周波数軸で改変する場合に、制御部2および信号処理部6が有する機能を模式的に示すブロック図である。信号処理部6は、
図2に示した信号処理部6の構成に加えて、マスカ音加工部65、IFFT(Inverse FFT)66を備えている。マスカ音加工部65は、特徴量抽出部62が抽出した特徴量のうち、例えば、収音信号からフォルマント周波数を抽出し、高次フォルマントを反転等して音韻を崩し、攪乱音とする。IFFT66は、マスカ音加工部65が加工した周波数領域の信号を時間軸領域の信号に変換する。制御部2のマスカ音選択部21は、記憶部3の背景音記憶部34及び演出音記憶部35に記憶されている背景音や演出音などを、時間や季節、又はユーザの指示に従って取得する。そして、制御部2は、IFFT66により時間軸領域の信号に変換された撹乱音と、マスカ音選択部が取得した背景音及び演出音を合成して、音声出力部7へ出力する。これにより、マスカ音出力装置のユーザを聴取者とした場合、聞きたくない話者の会話の内容を意味のない音声に変換することができ、さらに背景音及び演出音によりマスクする際に生じる不快感を聴取者に与えないようにできるため、聴取者にとって快適な環境空間を形成することができる。この場合においても、
図4で説明したように、一度抽出した収音信号の特徴量と記憶部3から取得した各データとを対応付け、
図3のようなテーブルに記憶するようにしてもよい。
【0042】
また、
図5の場合、マスカ音出力装置1は、音声入力部5からの収音信号に対してエコーを除去するエコーキャンセル部8を備えている。
図5のマスカ音出力装置1は、スピーカ7Aからマスカ音が出力された場合、マイク5Aがそのマスカ音の回り込み成分を収音することで、収音信号にエコーが含まれることとなる。このため、エコーキャンセル部8は、適応フィルタを備え、音声出力部7からマスカ音(時間領域の信号)を入力してフィルタ処理することにより、スピーカ7Aから出力されたマスカ音がマイク5Aへ回り込む成分の擬似信号である擬似回帰音信号を生成し、収音信号から擬似回帰音信号を差し引くことで、エコーを除去する。これにより、後段の信号処理部6は、収音信号からマイク5Aに回り込んだマスカ音を除去でき、話者の音声を正確に抽出できる。なお、このエコーキャンセル部8は、
図1及び
図2に示す構成でも、音声入力部5の後段に設けられていてもよい。
【0043】
なお、
図2、
図4および
図5の例では、信号処理部6が特徴量を抽出したり、音データを加工したりする例を示したが、制御部2が記憶部3に格納されるプログラムを実行することで、これらの信号処理部6の機能を実現するようにしてもよい。
【0044】
音声出力部7は、図示しないD/Aコンバータ及びアンプを有し、スピーカ7Aが接続されている。音声出力部7は、信号処理部6で決定されたマスカ音データに係る信号を、D/AコンバータでD/A変換し、アンプで振幅(ボリューム)を最適な値に調整した後、スピーカ7Aからマスカ音として出力する。
【0045】
次に、マスカ音出力装置1における動作について説明する。
図6は、マスカ音出力装置1で実行される処理の手順を示すフローチャートである。
図6に示す処理は、制御部2および信号処理部6で実行される。
【0046】
制御部2(または信号処理部6)は、音声入力部5から、有音と判定できる程度のレベルの収音信号が入力されたか否かを判定する(S1)。収音信号が入力されていない場合(S1:NO)、
図6の動作を終了する。収音信号が入力された場合(S1:YES)、信号処理部6は、FFT61でフーリエ変換を行った後、収音信号の特徴量を抽出する(S2)。次に、制御部2は、操作部4からマスカ音の出力開始指示を受け付けたか否かを判定する(S3)。出力開始指示を受け付けていない場合(S3:NO)、
図6の動作を終了する。
【0047】
開始指示を受け付けた場合(S3:YES)、制御部2は、マスカ音選択テーブル32からS2で抽出した特徴量を検索する(S4)。制御部2は、S2で抽出した特徴量がマスカ音選択テーブル32に格納されているか否かを判定する(S5)。格納されていない場合(S5:NO)、すなわち、これまでにマスク対象としていない音声をマスクする場合、制御部2は、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択する(S6)。制御部2は、抽出した特徴量に最も類似するマスカ音データを選択するようにしてもよいし、複数のマスカ音データを選択するようにしてもよい。また、制御部2は、ユーザが選択したマスカ音データを選択するようにしてもよい。
【0048】
制御部2は、抽出した特徴量及び選択したマスカ音データが記憶されたアドレスを、マスカ音選択テーブル32に格納して、マスカ音選択テーブル32を更新する(S7)。次に、制御部2は、抽出した特徴量に対応するマスカ音データをマスカ音記憶部31から取得する(S8)。具体的には、制御部2は、マスカ音選択テーブル32を参照して、抽出した特徴量に対応するマスカ音を選択し、選択したマスカ音のマスカ音データが記憶されたアドレスを取得し、そのアドレスに記憶されているデータ(マスカ音データ)を取得する。制御部2は、取得したマスカ音データを音声出力部7へ出力し(S9)、スピーカ7Aからマスカ音として出力する。
【0049】
一方、S5において、S2で抽出した特徴量がマスカ音選択テーブル32に格納されている場合(S5:YES)、すなわち、これまでにマスク対象としている音声をマスクする場合、制御部2は、S2で抽出した特徴量に対応するマスカ音データを、マスカ音記憶部31から取得する(S8)。この場合、マスカ音選択テーブル32が更新されることはない。その後、制御部2は、取得したマスカ音データを音声出力部7へ出力し(S9)、スピーカ7Aからマスカ音として出力する。
【0050】
なお、
図6のS3において、制御部2は、ユーザの開始指示によって、マスカ音の出力を手動で開始しているが、マスカ音選択テーブル32に既に格納されている特徴量が抽出された場合には、自動でマスカ音を出力するようにしてもよい。
図7は、自動でマスカ音の出力を開始する場合に、マスカ音出力装置1で実行される処理の手順を示すフローチャートである。
【0051】
制御部2は、音声入力部5から、有音と判定できる程度のレベルの収音信号が入力されたか否かを判定する(S11)。収音信号が入力されていない場合(S11:NO)、
図7に示す動作を終了する。収音信号が入力された場合(S11:YES)、制御部2は、自動でマスカ音の出力を開始するよう設定されているか否かを判定する(S12)。自動でマスカ音の出力を開始するか否かは、ユーザが操作部4から選択できるように構成されることが好ましい。自動でマスカ音の出力を開始するよう設定されていない場合(S12:NO)、
図7に示す動作を終了する。自動でマスカ音の出力を開始するよう設定されている場合(S12:YES)、信号処理部6が収音信号の特徴量を抽出する(S13)。
【0052】
次に、制御部2は、信号処理部6が抽出した特徴量をマスカ音選択テーブル32から検索し、マスカ音選択テーブル32に抽出した特徴量が格納されているか否かを判定する(S14)。特徴量が格納されていない場合(S14:NO)、
図7に示す動作を終了する。格納されている場合(S14:YES)、制御部2は、S13で抽出した特徴量に対応するマスカ音データを、マスカ音記憶部31から取得する(S15)。制御部2は、取得したマスカ音データを音声出力部7へ出力し(S16)、スピーカ7Aからマスカ音として出力し、本処理を終了する。このように、マスカ音出力装置1は、ユーザからマスカ音の出力開始指示を受け付けない場合であっても、既にマスカ音選択テーブル32に登録されている特徴量を持つ音声がマイク5Aから入力されると、自動でマスカ音の出力を開始することができる。
【0053】
なお、
図7のS14において、特徴量がマスカ音選択テーブル32に格納されていない場合には、処理を終了しているが、
図6のS6及びS7と同様に、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択し、抽出した特徴量及び選択したマスカ音データが記憶されたアドレスを、マスカ音選択テーブル32に格納して、マスカ音選択テーブル32を更新するようにしてもよい。また、
図7の処理中に、ユーザの開始指示が行われた場合、
図7に示す処理を中止し、
図6に示すS4以降の処理を行い、マスカ音を出力すればよい。
【0054】
以上説明したように、本実施形態では、聴取者のマスカ音の出力開始指示を受け付けた場合に、収音した音のマスカ音を出力する。すなわち、聴取者がマスクしたい音又はタイミングを選択することができる。その結果、ユーザによって不快と感じる音は異なるが、各ユーザが不快と感じる音だけをマスクすることができ、各ユーザに最適な環境空間を実現することができる。また、全ての音がマスクされることで、聴取者が必要な情報を聞き逃したりするおそれを回避できる。さらに、マスクの必要のない音に対してマスカ音を生成するといった無駄な処理を軽減できる。また、時間に応じて出力するマスカ音を変更できるため、より快適な環境空間を聴取者に提供することができる。
【0055】
以上、好適な実施形態について説明したが、マスカ音出力装置1の具体的構成などは、適宜設計変更可能であり、上述の実施形態に記載された作用及び効果は、本発明から生じる最も好適な作用及び効果を列挙したに過ぎず、本発明による作用及び効果は、上述の実施形態に記載されたものに限定されるものではない。
【0056】
例えば、上述の実施形態では、時間毎に出力するマスカ音を対応付けているが、季節毎に出力すべきマスカ音を対応付けるようにしてもよい。上述の実施形態では、操作部4からのマスカ音の出力開始指示を受け付けていない場合であっても、自動でマスカ音を出力する構成としているが、マスカ音の出力開始指示を受け付けていない場合には、マスカ音を出力しない構成としてもよい。この場合、無駄な処理を軽減させるために、特徴量抽出部62は、マスカ音の出力開始指示を受け付けた場合にのみ特徴量を抽出するようにしてもよい。
【0057】
上述の実施形態において、マスカ音出力装置1は、自身が記憶したマスカ音データを取得する構成としているが、外部に記憶されたマスカ音データを取得する構成であってもよい。例えば、マスカ音出力装置1は、パソコンに接続可能とし、パソコンに記憶されたマスカ音データを取得し、記憶部3に蓄積記憶する構成であってもよい。また、マスカ音出力装置1は、マイク5A及びスピーカ7Aを一体的に備えずに、汎用のマイク及びスピーカが接続可能な構成としてもよい。さらに、マスカ音出力装置1は、マスカ音を発生させる専用装置としているが、携帯電話機、PDA(Personal Digital Assistant)又はパソコンなどであってもよい。