【新規性喪失の例外の表示】特許法第30条第1項適用 社団法人 日本音響学会(発行者)、日本音響学会2010年春季研究発表会講演論文集(刊行物)、平成22年3月1日(発行年月日) 日本音響学会2010年春季研究発表会(研究集会名)、社団法人 日本音響学会(主催者)、平成22年3月9日(開催日)
(58)【調査した分野】(Int.Cl.,DB名)
前記部分変更部によって変更された変更対象部分の信号が前記出力部から出力されるタイミングを、前記発話中の音声の伝搬にかかる時間に応じて調整するタイミング調整部をさらに備えることを特徴とする請求項1または2に記載の音声変更装置。
【発明を実施するための形態】
【0022】
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。
【0023】
特にオフィスなどにおいては、オープンプランの空間が有する開放性やコミュニケーションの円滑性を損なわずに音声情報、つまり音声の内容だけが隠蔽されることが望ましい。しかしながら、従来のBGMやマスキングを使用する技術は、基本的には原音声とは性質の異なる、別過程で作成した音を原音声とは脈絡なく加えるので、聴覚的な違和感や室内の暗騒音を上昇させてしまうという嫌いがあった。本発明の実施の形態はマイクロホンなどにより集音した音声信号そのものの構造を実質的に実時間で変更することにより室内の暗騒音を上昇させることなく会話の内容を、理想的には会話の内容のみを、隠蔽し、円滑で快適な秘話環境を実現する。
【0024】
図1は、マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。(a)は、電気音響を用いたSR(Sound Reinforcement)/PA(Public Address)である。これらは音量や明瞭度を高めて「よく聞こえるようにする」従来技術である。(f)は、遮音(Sound Insulation)であり、空間を音響的に分離しできるだけ「聞こえないようにする」従来技術である。これらに対して実施の形態に係るアプローチは(e)のSD(Speech Deformation)であり、会話者本人の原音声を処理して準実時間で出力することにより、聞こえる聞こえないではなく会話内容を「分からなくする」一種の音声情報撹乱(聴覚翻弄)技術である。また、従来技術による(b)EMや(c)SSや(d)IMが多かれ少なかれ室内あるいは対象空間領域の騒音レベルを上昇させて不快感や違和感を増加させ得るのに対し、(e)のSDではほとんど騒音レベルの上昇を伴わない。
【0025】
本発明の実施の形態の主な立脚点は、言語の認識・理解が、特に日本語の場合は、音声の子音部分に大きく依存するという本発明者の認識である。この子音部分が変化すると、たとえば「雲(KUMO)」は「RUTO」となり、言葉として理解することができない。
また、聴覚音声認識(HSR:Human Speech Recognition)が音声信号のキャリア(搬送波)より包絡線遷移などのアーティキュレーションにより強く依存することに基づき、原音声の包絡線の「略一山」を処理対象単位として時間反転または時間回転すると、スペクトルも包絡線形状も原音声と類似するので音声情報撹乱が効果的に機能する。
【0026】
本発明の実施の形態では、音声認識・理解のこのような側面に着目し、あるモードでは原音声の子音部分を変更・削除・置換する。子音部分の処理が主となるので、原音声と比較して音圧レベル(音量)の上昇は小さい。さらに原音声(以下、マスキーと称す)に処理音声(以下、マスカーと称す)を加えた全体の音量を更に低減するために、以下の併用/工夫が可能である。
(i)マスカーの生成において、母音部分を無音に置き換え、処理された子音部分だけを元のタイミングで出力する。
(ii)マスカーの情報隠蔽効果を高めるために、ANC(Active Noise Control)またはパラメータ固定のPNC(Passive Noise Control)技術を併用する。
【0027】
図2は、実施の形態に係る音声情報秘話システム100が設けられたブース2を模式的に示す斜視図である。
図3は、
図2の音声情報秘話システム100の機能および構成を模式的に示すブロック図である。
音声情報秘話システム100は、銀行の相談カウンターなど、簡易パーティションで区画されたブース2に設けられる。音声情報秘話システム100は、マイクロホンMicと、SDコントローラ部SDと、2つのパワーアンプPAと、2つのスピーカSPと、を備える。スピーカSPおよびSDコントローラ部SDは、ブース間を視覚的に隔てるITパーティション4に組み込まれてもよい。
【0028】
相談員と会話を行っている顧客6を発話者とする。この発話者のマスキーH'(t)はカウンター部分またはその近傍に設けられたマイクロホンMicによって集音される。マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、SDコントローラ部SDに送られる。この音声信号がSDコントローラ部SDによって変更、削除、置換、または時間的に反転/回転される。SDコントローラ部SDにおける処理を経た音声信号はパワーアンプPAを経てスピーカSPから左右の隣接ブース2’にマスカーH(t)として出力される。
【0029】
隣接ブース2’にはマスキーH'(t)が空中を回り込んでくるので、顧客6が発話中の音声は隣接ブース2’内にいる受聴者8(顧客6とは異なる者)によって受聴されうる。しかしながら本実施の形態では、空中を回り込んで漏洩するマスキーH'(t)はマスカーH(t)と合成されて隣接ブース2’内の受聴者8に届く。したがってマスカーH(t)による擾乱により、受聴者8はマスキーH'(t)に含まれる会話の内容を理解することができない。
【0030】
スピーカSPは、SDコントローラ部SDやマイクロホンMicが設置されているブース2の隣の隣接ブース2’に向けてマスカーH(t)を出力する。ここで隣接ブース2’は、空中を回り込んで漏洩するマスキーH'(t)が受聴されている領域である。つまり、マスキーH'(t)とマスカーH(t)とが実質的に実時間で受聴者8に届くように、マスカーH(t)がスピーカSPから出力される。この実時間性を保証する主体はSDコントローラ部SDであってもスピーカSPであってもよいが、以下ではSDコントローラ部SDがマスキーH'(t)とマスカーH(t)との実時間性を考慮して音声信号を処理する場合について説明する。
【0031】
図4は、
図2のITパーティション4の構成を示す側面図である。ITパーティション4は、第1吸音層42と、遮音層44と、第2吸音層46と、をこの順に積層してなる積層構造を有する。第1吸音層42および第2吸音層46はそれぞれ厚さが20mmのグラスウールの層である。遮音層44は厚さが12mmの石膏ボードである。
【0032】
図5は、
図3のSDコントローラ部SDの機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのCPU(central processing unit)をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
【0033】
SDコントローラ部SDは、記憶装置10と、A/D部20と、部分抽出部30と、部分変更部90と、出力部72と、ノイズ生成部80と、子音ライブラリ更新部82と、母音ライブラリ更新部84と、を含む。記憶装置10は、子音ライブラリ12と、母音ライブラリ14と、共通ライブラリ16と、を含む。部分抽出部30は、音素抽出部38と、略1山抽出部52と、ランダム抽出部60と、を有する。音素抽出部38は、音声判別部36と、子音抽出部32と、母音抽出部34と、を有する。略1山抽出部52は、自乗音圧取得部54と、ローパスフィルタ56と、第1決定部58と、を有する。ランダム抽出部60は、信号分割部62と、第2決定部64と、を有する。部分変更部90は、子音処理部40と、母音処理部50と、時間処理部66と、を有する。出力部72は、遅延調整部68と、D/A部70と、を有する。
【0034】
子音ライブラリ12は、子音部分の種類ごとにその波形データを記憶する。母音ライブラリ14は、母音部分の種類ごとにその波形データを記憶する。共通ライブラリ16は、子音部分の種類ごとに所定のサンプル波形データを記憶する。この共通ライブラリ16に記憶される子音部分のサンプル波形データは、男性、女性、子供、大人などに分類されている。
【0035】
部分抽出部30は、A/D部20でA/D変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する。部分変更部90は、部分抽出部30によって抽出された変更対象部分の信号を変更する。出力部72は、部分変更部90によって変更された変更対象部分の信号をD/A変換し、スピーカSPに出力する。
【0036】
SDコントローラ部SDは少なくとも、子音のみ置換モード、子音母音置換モード、実時間モード、の3つの動作モードを有する。以下各動作モードごとに関連するブロックの機能を説明する。
【0037】
(1)子音のみ置換モード
マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ(不図示)を経てA/D部20に入力される。A/D部20は、アナログ信号である音声信号をデジタル信号に変換する。音声判別部36は、A/D部20でデジタル化された音声信号の波形を過去の発話音声波形と比較することにより、その音声信号の子音部分と母音部分とを判別する。子音抽出部32は、その判別結果を使用して子音部分の信号を抽出する。
【0038】
子音ライブラリ更新部82は、子音抽出部32によって抽出された子音部分の信号の波形データをその種類ごとに子音ライブラリ12に蓄積する。ここで子音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように子音ライブラリ12に蓄積される子音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。
【0039】
ノイズ生成部80は、子音抽出部32で抽出された子音部分の信号を基に、それとスペクトルが重なるか違う音を生成する。
【0040】
子音処理部40は、音声信号のうち子音抽出部32で抽出された子音部分の信号を処理する。子音処理部40は、子音抽出部32によって抽出された子音部分の信号を子音ライブラリ12から選出したほぼ同じ長さの別の子音部分の信号に置換する。子音処理部40は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。ここで子音部分の長さに長短があることの例としては、「s」に相当する子音部分の継続時間は比較的長く、「t」や「p」に相当する子音部分の継続時間は短いことがある。
【0041】
なお、子音処理部40は、子音ライブラリ12を使用して子音部分の信号を置換する代わりに、子音抽出部32によって抽出された子音部分の信号をノイズ生成部80によって生成された子音ノイズと置換してもよい。この場合、マスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。また子音処理部40は、子音ライブラリ12を使用して子音部分の信号を置換する代わりに、子音抽出部32によって抽出された子音部分の信号を削除してもよい。
【0042】
発話開始から数秒〜数十秒程度(以下、発話開始期間と称す)は、子音ライブラリ12に発話者本人の音声から採取した子音部分が十分に蓄積されていない可能性がある。そこでこの発話開始期間の間は、子音処理部40は共通ライブラリ16から対応する子音部分の信号を選出して子音抽出部32によって抽出された子音部分の信号と置換する。あるいはまた、発話開始期間の間、子音処理部40は子音抽出部32によって抽出された子音部分の信号をノイズ生成部80によって生成された子音ノイズと置換する。あるいはまた、発話開始期間の間、子音処理部40は子音抽出部32によって抽出された子音部分の信号を時間方向に反転する。
【0043】
発話開始期間の間に用いられるこれらの子音部分変更アルゴリズムでは、発話者本人の子音ライブラリ12を使用する場合よりも自然さにおいて劣る。しかしながら発話開始後の短い時間だけなのでそれほど問題とはならない。
【0044】
D/A部70は子音処理部40において処理された音声信号を、スピーカSPを駆動するためのアナログの音声信号に変換してパワーアンプPAに出力する。D/A部70は特に、子音処理部40によって置換された子音部分の信号と、その子音部分に対応する変更されていない母音部分の信号とを含む音声信号をアナログ信号に変換して出力する。
【0045】
なお、マスキーH'(t)をマイクロホンMicで集音してからSDコントローラ部SDで処理しスピーカSPから対応するマスカーH(t)を出力するまでの時間、つまりSD処理時間T
SDは、T+t以内とされる。ここでTはマスキーH'(t)が発せられた時点からそれが受聴者8に届くまでの時間であり、tはマスキーH'(t)とマスカーH(t)が受聴者8位置において顕著なエコーを発生させないような遅れ時間、もしくは受聴者8に届く合成音声が受聴者8にとって理解不能となる最大の遅れ時間である。tの具体的な値は実験により定められるが、代表的には数100ms程度である。
【0046】
マスキーH'(t)とマスカーH(t)とを受聴者8位置で合成して情報隠蔽を行うためには上述の通りSDコントローラ部SDでのSD処理を実時間もしくは準実時間で行わなければならない。この時間的な制約の存在、つまりSD処理時間T
SDを短い時間であるT+t以下としなければならないこと、により、子音部分の信号の抽出及び置換・反転などの処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定/予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。
【0047】
(2)母音置換モード
上述の子音部分の変更に加えて、母音部分も変更するモードである。母音抽出部34は、子音抽出部32で子音部分の信号が抽出された音声信号から母音部分の信号を抽出する。
【0048】
母音ライブラリ更新部84は、母音抽出部34によって抽出された母音部分の信号の波形データをその種類ごとに母音ライブラリ14に蓄積する。ここで母音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように母音ライブラリ14に蓄積される母音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。
【0049】
ノイズ生成部80は、母音抽出部34で抽出された母音部分の信号を基に、それとスペクトルが類似する母音ノイズを生成する。
【0050】
母音処理部50は、子音処理部40において子音部分の信号が処理された後の音声信号のうち、母音抽出部34で抽出された母音部分の信号を処理する。特に騒音レベルの上昇を極力抑える必要がある場合には、母音処理部50は母音抽出部34で抽出された母音部分を無音部分に置換する。この場合、D/A部70、スピーカSPを経て出力されるマスカーH(t)は子音部分と子音部分とに挟まれた無音部分を有する構成となる。つまりマスカーH(t)の子音部分は同期するマスキーH'(t)の母音部分と連結してひとつの音韻を構成することとなる。これにより全体の音量はマスカーH(t)で無音とした母音部分の分だけ低減され、室内の騒音レベルも低減される。
【0051】
なお、母音処理部50は、母音部分を無音部分で置き換える代わりに、ライブラリベースの置換を行ってもよい。つまり、母音処理部50は、母音抽出部34によって抽出された母音部分の信号を母音ライブラリ14から選出した別の母音部分の信号に置換してもよい。母音処理部50は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。発話開始期間における母音部分変更アルゴリズムについては子音部分のそれと同様である。
【0052】
または、母音処理部50は、母音部分を無音部分で置き換える代わりに、母音処理部50によって抽出された母音部分の信号をノイズ生成部80によって生成された母音ノイズと置換してもよい。この場合、やはりマスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。
【0053】
また、子音母音の処理の順番、つまり子音処理部40における処理と母音処理部50における処理の順番を入れ替えてもよい。
【0054】
図6は、子音ライブラリ12を示すデータ構造図である。子音ライブラリ12は、音素としての子音112とその子音の波形データ114とを対応付けて記憶する。母音ライブラリ14および共通ライブラリ16もまた子音ライブラリ12と同様のデータ構造を有する。
【0055】
図7は、マスキーH'(t)の一例を表す音声信号の波形を示す波形図である。
図7の波形は「あの、彼とはそうと(う)長いんだよね、実は(ANO KARETOWA SO-TONAGAINDAYONE ZITSUWA)」という原音声をマイクロホンMicで音声信号に変換したものである。
図7の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。
図7において縦の破線で区画された領域ひとつひとつが音素に対応し、対応する音素がローマ字で明示されている。また、「-」は音声休止部を表す。包絡線102は実線で示される。ここで包絡線は音声サンプルを自乗音圧領域で数10msecの時定数をかけ平方根をとったものである。
【0056】
図7における母音、子音、無音の別を表1に示す。音声開始前のある時刻を時刻の原点(t=0)として定める。
【0057】
【表1】
なお、子音、母音、無音の別は、エネルギやゼロ交差数、PARCOR(PARtial auto-CORrelation)の第1係数(スペクトル傾斜)などにより判別することが可能である。
【0058】
図8は、
図7の音声信号をSDコントローラ部SDにおいて子音のみ置換モードで処理することで生成される音声信号の波形を示す波形図である。区画104で示される子音部が置換された子音部である。これらの置換に際し切り出し時間長や再挿入時レベル(dB)を調整している。
置換後の包絡線106は実線で示される。
図7の包絡線102と
図8の包絡線106とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら
図8の音声信号がスピーカSPで音声に変換され、マスカーH(t)として出力されると、受聴者8サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い(他の音に聞こえる場合もある)。
【0059】
図5に戻る。
(3)実時間モード
マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ(不図示)を経てA/D部20に入力される。A/D部20は、アナログ信号である音声信号をデジタルデータに変換する。A/D部20でデジタル化された音声信号は、例えば音圧の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。
【0060】
部分抽出部30は、A/D部20でデジタル化された音声信号から変更対象部分の信号を抽出する。部分抽出部30は、変更対象部分の信号として子音部分の信号を抽出してもよい。あるいはまた、部分抽出部30は、変更対象部分の信号として母音部分の信号を抽出してもよい。子音部分および母音部分の抽出については上述の通りである。
【0061】
あるいはまた、部分抽出部30は、変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出してもよい。あるいはまた、部分抽出部30は、音声信号をランダムな長さを有する期間で分割し、分割後の1区間に対応する信号を変更対象部分の信号として抽出してもよい。
【0062】
部分抽出部30が変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出する場合を説明する。略1山抽出部52は、音声信号の包絡線を示すデータを取得する。このデータは、例えば包絡線の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。以下、包絡線を示すデータを単に包絡線と称す。
【0063】
自乗音圧取得部54は、A/D部20でデジタル化された音声信号の自乗音圧波形を取得する。自乗音圧取得部54は、音声信号を自乗し、必要に応じて所定の係数を乗ずることにより自乗音圧波形を得る。
【0064】
ローパスフィルタ56は、自乗音圧取得部54によって取得された自乗音圧波形を数msecから数100msecの時定数で平均化する。すなわちローパスフィルタ56は自乗音圧波形に対してローパスフィルタ処理をする。これにより、自乗音圧波形から時定数程度よりも速い変化が取り除かれ、滑らかな波形が得られる。本実施の形態では、この滑らかな波形が音声信号の包絡線である。なお、他の方法で音声信号の包絡線を求めてもよいことは、本明細書に触れた当業者には理解される。また、本実施の形態において包絡線は、広義には音声信号の平均エネルギ(振幅)の変化を示すデータである。
ローパスフィルタ56は、必要であればローパスフィルタ処理されたデータの平方根をとる。
【0065】
第1決定部58は、ローパスフィルタ56によって得られた音声信号の包絡線のうち、数dB〜数10dB、例えば5dB以上連続して上昇する上昇部分を検出する。次に第1決定部58は、上昇部分の後で数dB〜数10dB、例えば5dB以上連続して下降する下降部分を検出する。第1決定部58は、上昇部分とそれに対応する下降部分との間の音声信号を変更対象部分の信号として決定する。このようにして決定される変更対象部分の信号の包絡線は略1山状となることが多い。
【0066】
図9は、第1決定部58における変更対象部分の信号の決定基準を説明するための説明図である。
図9(a)は、第1決定部58において上昇部分と下降部分の検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。
図9(a)は、例示としての音声信号の波形211とその包絡線208とを示す。第1決定部58は、包絡線208の変化率に基づき上昇部分202を検出する。次に第1決定部58は上昇部分202の後の下降部分204を検出する。第1決定部58は、上昇部分202と下降部分204とで挟まれる区間206(ピーク203より前の時刻t1とピーク203より後の時刻t2とで挟まれる区間)の音声信号を変更対象部分の信号として決定する。
【0067】
なお、第1決定部58は、他の方法で変更対象部分の信号を決定してもよい。例えば、第1決定部58は、包絡線が膨らんでいる部分を検出し、その部分に対応する音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第1決定部58は、包絡線のピークを検出し、その前後に所定の長さを有する区間の音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第1決定部58は、包絡線が所定のレベルを越えている連続的な区間の音声信号を変更対象部分の信号として決定してもよい。
【0068】
図9(b)は、第1決定部58においてピークの検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。
図9(b)は、例示としての音声信号の波形212とその包絡線214とを示す。第1決定部58は、包絡線214のピーク216を検出する。第1決定部58は、ピーク216の前後に所定の長さを有する区間218の音声信号を変更対象部分の信号として決定する。
【0069】
図9(c)は、第1決定部58において包絡線のレベルに基づいて変更対象部分の信号が決定される場合を説明するための説明図である。
図9(c)は、例示としての音声信号の波形220とその包絡線222とを示す。第1決定部58は、包絡線222が所定のレベル224を越えている連続的な区間226を検出し、その区間226の音声信号を変更対象部分の信号として決定する。この場合、所定のレベルの取り方によっては、変更対象部分の信号が2以上のピークを含む場合がある。
【0070】
以上のように変更対象部分の信号の決定手法は種々考えられる。このように選択肢が多いことは、SDによる会話内容の隠蔽をより効果的とするための大きな自由度を提供するという意味で好適である。
【0071】
また、これら種々の決定手法に通じて言えることは、音声信号の波形に基づいて、特にその統計的な性質に基づいて信号のひとまとまりが判別され、そのように判別されたひとまとまりの信号が変更対象部分の信号として決定されていることである。すなわち、入来する音声信号に応じて適応的に変更対象部分が決定される。この場合、本発明者の当業者としての経験および予備的な実験によると、例えば予め定められた一定の間隔で音声信号を切り出す場合と比べてより会話内容擾乱効果が高いことが見出された。特に、本発明者によって行われた実験によると、包絡線の略1山を変更単位として抽出する場合は、例えば一定周期で切り出す場合や子音や母音を変更単位とする場合と比べて擾乱効果が高いことが見出された。
【0072】
図5に戻る。
第1決定部58は、音声信号のうち変更対象部分の信号として決定されなかった部分を遅延調整部68に出力する。
【0073】
部分抽出部30が音声信号をランダムな長さを有する期間で分割し、分割後の1区間に対応する信号を変更対象部分の信号として抽出する場合について説明する。
信号分割部62は、A/D部20でデジタル化された音声信号をランダムな長さを有する期間で分割する。期間の長さは数10msec〜数100msecの間で変動する。または期間の長さは一定周期に対して±数10%〜数100%の範囲で変動する。例えば、期間の長さは、…、11msec、10msec,12msec、…、と変化する。
【0074】
第2決定部64は、音声信号のうち信号分割部62で分割された期間のひとつに対応する信号を変更対象部分の信号として決定する。第2決定部64は、分割された全ての期間を変更対象部分として選択してもよいし、例えば1つおきに変更対象部分として選択してもよい。後者の場合、第2決定部64は変更対象部分として選択されなかった期間に対応する部分の音声信号を遅延調整部68に出力する。
この場合、期間の長さにランダム性が加味されているので、マスカーH(t)の自然性が向上する。
【0075】
時間処理部66は、部分抽出部30によって抽出された変更対象部分の信号を、その時間軸に沿った波形に基づいて処理する。時間処理部66は、変更対象部分の信号に対して時間反転または時間回転を施す。
【0076】
時間反転について、時間処理部66は、抽出された変更対象部分の信号を時間について反転する。すなわち、時間処理部66は、変更対象部分の信号から時間を逆行させた信号を生成する。より具体的に説明すると、時間処理部66は、変更対象部分の信号の時刻t
i(0≦i≦N、t
0<t
1<…<t
N、Nは自然数、t
0≡0)における電圧値f(t
i)に対して関数h(f(t
i))=f(t
N−t
i)を作用させる。その結果、時間処理部66における時間反転処理を経た変更対象部分の信号の波形は、元の波形をその中心を通り時間軸と垂直な線に対して折り返した形状を有する。
【0077】
時間回転について、時間処理部66は、抽出された変更対象部分の信号の時間軸に沿った波形を回転させる。より具体的に説明すると、時間処理部66は、上述の通り変更対象部分の信号に対して時間反転を施す。加えて時間処理部66は、時間反転が施された変更対象部分の信号の符号を反転する。その結果、時間処理部66における時間回転処理を経た変更対象部分の信号の波形は、元の波形をその時間軸上の中心に対して180度回転した形状を有する。
【0078】
出力部72は、時間処理部66からは時間反転または時間回転処理された変更対象部分の信号を、部分抽出部30からは変更対象部分でない信号を、取得する。出力部72は、それらをアナログ信号に変換し、パワーアンプPAを介してスピーカSPに出力する。
【0079】
遅延調整部68は、時間反転または時間回転処理された変更対象部分の信号と変更対象部分でない信号とをつなぎ合わせて出力すべき出力音声信号を生成する。遅延調整部68は、出力音声信号が出力部72から出力されるタイミングを、マスキーH'(t)の伝搬にかかる時間に応じて調整する。特に遅延調整部68は、出力音声信号に対して所定の遅延を与える。この遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがマスキーH'(t)とマスカーH(t)とが実質的に実時間と言える程度の範囲内に収まるように設定される。
【0080】
マスキーH'(t)とマスカーH(t)とが実質的に実時間であることは、例えばマスキーH'(t)とマスカーH(t)とが隣接ブース2’内で少なくとも部分的に重畳することである。あるいはまた、出力部72から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、マスキーH'(t)が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。あるいはまた、出力部72から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、当該変更対象部分の信号に対応するマスキーH'(t)の部分が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。これは言い換えると、変更対象部分の信号に対応するマスキーH'(t)の部分と、当該変更対象部分の信号に対応するマスカーH(t)の部分とが隣接ブース2’内で少なくとも部分的に重畳することである。
【0081】
音声情報秘話システム100を導入する際、マイクロホンMicおよびスピーカSPの位置は決まり、想定される顧客6の位置および想定される受聴者8の位置もある程度は決まる。また、SDコントローラ部SDにおける処理時間もある程度見積もることができる。したがって、音声情報秘話システム100の導入時に、顧客6から受聴者8へのマスキーH'(t)の伝搬時間およびマスカーH(t)の伝搬時間をある程度見積もることができる。遅延調整部68における遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れの所望値から逆算して設定される。
【0082】
マスキーH'(t)に対するマスカーH(t)の遅れが大きいと、受聴者8位置においてエコーや残響が生じる虞がある。したがって、遅延調整部68は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがそのような違和感を生じさせない程度の値となるような遅延を出力音声信号に対して与える。この遅延は実験により定められるが、代表的には数100msec以下である。
【0083】
また、マイクロホンMic、スピーカSP、顧客6、受聴者8の位置関係によっては、遅延調整部68で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりもかなり遅く受聴者8位置に到達することもある。この場合、マスキーH'(t)とマスカーH(t)とを受聴者8位置で実質的に実時間で合成して情報隠蔽を行うためには、SDコントローラ部SDでのSD処理時間を短縮しなければならない。この時間的な制約の存在、つまりSD処理時間を短縮しなければならないことにより、時間処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定/予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。
【0084】
D/A部70は、遅延調整部68によって遅延が付与された出力音声信号を、スピーカSPを駆動するためのアナログの音声信号に変換してパワーアンプPAに出力する。
【0085】
図10は、受聴者8位置におけるマスキーH'(t)および時間回転処理されたマスカーH(t)を表す音声信号の波形を示す波形図である。
図10(a)は、マスキーH'(t)を表す音声信号の波形を示す波形図である。
図10(a)の波形は原音声をマイクロホンMicで音声信号に変換したものである。
図10(a)の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。
図10(b)は、
図10(a)の音声信号に対して、SDコントローラ部SDにおいて略1山単位で時間回転を施して生成される音声信号の波形を示す波形図である。例えば、SDコントローラ部SDは、
図10(a)の円150で示される略1山の音声信号を変更対象部分の信号として抽出し、その略1山の音声信号に時間回転を施して
図10(b)の円152で示される音声信号を生成、出力する。
【0086】
図10(a)の包絡線と
図10(b)の包絡線とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら
図10(b)の音声信号がスピーカSPで音声に変換され、マスカーH(t)として出力されると、受聴者8サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い。
【0087】
図11は、音声情報秘話システム100における一連の処理を示すフローチャートである。マイクロホンMicは、マスキーH'(t)を収集し、音声信号を生成する(ステップ302)。A/D部20は、マスキーH'(t)を表す音声信号をマイクロホンMicから取得する(ステップ304)。部分抽出部30は、A/D部20によって取得されA/D変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する(ステップ306)。部分変更部90は、部分抽出部30によって抽出された変更対象部分の信号を変更する(ステップ308)。出力部72は、部分変更部90によって変更された変更対象部分の信号をスピーカSPに出力する(ステップ310)。スピーカSPは、受け取った信号を音声に変換してマスカーH(t)とし、そのマスカーH(t)をマスキーH'(t)が受聴されている隣接ブース2’に出力する(ステップ312)。
【0088】
以上の構成による音声情報秘話システム100の動作を説明する。銀行のブース2に顧客6が座り、銀行の相談員と例えばローンについて相談する場合を考える。この際、ブース2の隣の隣接ブース2’には受聴者8がいて口座の開設を申請しているとする。顧客6は自己の事業の資金繰りが悪化したなどローンを申請する事情を説明している。無論このような話は受聴者8に漏れ聞こえないほうがよく、特に本実施の形態に係る音声情報秘話システム100では顧客6の発話音声のうち子音部分の信号が変換されたものや時間回転が施されたものが受聴者8に届くので、受聴者8は顧客6の発話内容を理解できない。加えて顧客6の発話がない場合はスピーカSPから隣接ブース2’への出力は実質的にないため、隣接ブース2’内の騒音レベルを不必要に上昇させることもない。
【0089】
上述の実施の形態において、記憶装置10の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各ブロックを、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。
【0090】
本実施の形態に係る音声情報秘話システム100によると、以下の作用効果を得ることができる。
【0091】
(1)本実施の形態に係る音声情報秘話システム100によると、会話の存在そのものの隠蔽や抹消ではなく、その内容、つまり会話音声に含まれる情報が隠蔽される。この点に関し本発明者は以下を認識した。
オープンプランのオフィスや銀行や証券会社のロビーカウンター、特に簡易パーティションにより仕切られた接客カウンターなどでは、会話している人以外の人にその会話の中身を理解不能とすれば、会話内容の隠蔽という点では十分にその目的が果たされる。つまり会話の内容さえ漏れなければ音声そのものは聞こえてもよい。むしろ発話者の存在が視認できる場合などは、音声のスペクトルや包絡線(音質やイントネーション、抑揚)が保存されたほうが自然である。本実施の形態に係る音声情報秘話システム100は、以上の視点・ニーズに対応し、より自然な形で会話内容を隠蔽する。
【0092】
(2)部分抽出部30において子音部分が抽出される場合、マスカーH(t)は発話者本人のマスキーH'(t)を基にその子音部分に着目して作成され、原音声と並行してスピーカから出力される。したがって、特に子音のみ置換モードではマスキーH'(t)のスペクトルや包絡線はマスカーH(t)となっても保存されうる。その結果、マスカーH(t)のスペクトルやイントネーションはマスキーH'(t)のそれとほぼ同じとなるので、違和感はそれ程無く自然に聞き手に受け取られる。
【0093】
(3)部分抽出部30において子音部分が抽出される場合、マスカーH(t)はマスキーH'(t)に対し子音部分のみを置換して、あるいは子音部分を置換したうえで母音部分を無音部分に置き換えたり処理したりして生成される。したがって、マスカーH(t)の音量(音圧レベル)ひいては室内騒音レベルの上昇を極力抑えることができる。
【0094】
(4)時間軸上でマスキーH'(t)がないとき、つまり会話がないときはマスカーH(t)も出力されない。つまり両者は時間的に実質的に重畳する。したがって、音声発生のない「無音時」におけるマスカーH(t)による室内騒音レベルの上昇は抑えられる。
【0095】
(5)従来の技術を使用した場合に発生しうるマスカー断続やレベル変動(会話停止時に断〜レベル低減)による違和感や、会話とは関係のない別の音(騒音・音楽)を放射することによる発話者・会話者・その他の在室者に対する違和感が抑えられる。
【0096】
(6)従来の技術における物理的な遮音や個室化に対しては、空間的な遮断や移動を必要としないので、開放感やコミュニケーションが妨げられにくくなる。
【0097】
(7)SDコントローラ部SDおよびスピーカSPはITパーティション4に組み込まれるので、システムの設置や取付を大幅に簡略化できる。場合によってはマイクロホンMicをITパーティション4に組み込んでもよい。この場合、さらに簡略化される。
【0098】
(8)ITパーティション4はそれ自体が吸音処理されている。したがって、ブース内での会話音声の明瞭度を上げつつ隣接ブースへの音漏れを低減できる。
【0099】
(9)マスカーH(t)は置換・削除・反転・回転などの処理によりマスキーH'(t)(原音声)とは電気信号的な相関がそれ程高くない信号となる。したがって、音声情報秘話システム100の動作時においてハウリングなどのフィードバックに起因する異常が生じにくい。
【0100】
(10)本実施の形態に係るSDコントローラ部SDの実時間モードでは、変更対象部分の信号に時間反転または時間回転が施される。時間反転が施される場合、信号の包絡線を保存しつつ情報攪乱に効果的なマスカーH(t)を生成できる。ただし、時間反転の場合はマスキーH'(t)とマスカーH(t)とにそれほど聴感的な差が生じない場合もある。これに対して時間回転が施される場合は、マスキーH'(t)とマスカーH(t)との聴覚的な印象が微妙に変わってくることが本発明者による実験により分かっている。
【0101】
情報隠蔽/聴覚翻弄のためには、マスキーH'(t)とマスカーH(t)とが聴覚的に類似すぎるのは問題であるが、異なりすぎるのも問題である。聴覚には、性質の異なるもの同士は区別して認識する、という性質があるからである。したがって、上記時間回転の場合は、聴覚的に近すぎずまた遠すぎない、情報隠蔽に丁度良いマスカーH(t)が提供されうる。
【0102】
(11)部分抽出部30において、略1山状の信号が変更対象部分の信号として抽出される場合、マスキーH'(t)の信号レベルが小さい部分で切り取りや貼り付けが行われるので、時間反転・回転処理によるクリック雑音などが低減される。すなわち、マスキーH'(t)が時間的に連続であればマスカーH(t)もほぼ連続となるので、一定時間で区画する場合には生じうる遮断部分におけるクリック雑音や、その低減を目的とした窓掛け処理による包絡線形状の崩壊(イントネーションの崩壊)も生じにくい。
【0103】
(12)部分抽出部30において、略1山状の信号が変更対象部分の信号として抽出され、そのように抽出された信号に時間回転処理が施される場合、マスカーのスペクトルや包絡線の形状はほぼ保存され、マスキーのそれらと類似のものとなる。したがって、室内の騒音レベルの上昇やクリック雑音を最低限に抑えたまま効果的に音場情報撹乱(音声内容の隠蔽)を機能させることができる。
【0104】
以上、実施の形態に係る音声情報秘話システム100およびそれに含まれるSDコントローラ部SDの構成と動作について説明した。この実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0105】
実施の形態では、隣接ブースの片側からマスカーH(t)が出力される場合について説明したが、これに限られない。例えば、信号加算によりマスカーH(t)が隣接ブースの左右両側から出力されてもよい。
図12は、第1変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第1変形例に係る音声情報秘話システムは、マイクロホンMicと、SDコントローラ部SDと、4つのスピーカSPa〜SPd(SPdは不図示)と、4つのパワーアンプPAa〜PAd(PAdは不図示)と、4つの加算器210a〜210d(210dは不図示)と、を備える。
【0106】
SDコントローラ部SDにおける処理を経た音声信号は、ブース2の左のスピーカSPaに対応する加算器210aと、ブース2の右のスピーカSPbに対応する加算器210bと、ブース2の左隣の隣接ブース2’の左のスピーカSPcに対応する加算器210cと、ブース2の右隣の隣接ブースの右のスピーカSPd(不図示)に対応する加算器210d(不図示)と、に入力される。それぞれの加算器210a〜210dに入力された音声信号は対応するパワーアンプPAa〜PAdを経てスピーカSPa〜SPdから出力される。加算器はそれが接続されたスピーカが音声を出力するブースの両隣のブースから、SDコントローラ部SDにおける処理を経た音声信号を取得して加算する。
本変形例によると、マスカーH(t)が隣接ブース2’の左右両側から出力されるので、ブース2における会話内容が受聴者8により伝わりにくくなる。
【0107】
また、マスキーH'(t)のレベルを低減するためにPNC(Passive Noise Controller)を併用してもよい。PNCは公知のANC(Active Noise Control)を調整時に適応処理させ、運用時には設定されたパラメータを固定して使用することを意図するものである。
図13は、第2変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。本変形例では、
図12のSDコントローラ部SDを
図13の破線で囲まれた部分で置き換える。この部分ではSDコントローラ部SDとPNC部PNCとが並列に設けられ、マイクロホンMicからの音声信号がSDコントローラ部SDとPNC部PNCとに入力される。SDコントローラ部SDの出力側にはスイッチSW1が設けられ、スイッチSW1によってSDコントローラ部SDの動作のオンオフが制御される。そのスイッチSW1の出力とPNC部PNCの出力とは加算器406で加算され、パワーアンプPAを介してスピーカSPから音声として出力される。
【0108】
本変形例では、音源402とアンプ404を介して接続されたヘッドトルソシミュレータHATS(HATS: Head and Torso Simulator)などを発話者位置Pに置いて、PNC部PNCの同定を行う。スイッチSW1を開いてSDコントローラ部SDの動作を切り、HATSから適切な音声信号を放射して隣接ブース2’の受聴者位置Qに置いたマイクロホンMic’の出力が最小になるようにPNC部PNCを適応動作させてシステム同定を行う。
【0109】
このときマイクロホンMicおよびスピーカSPを含むインパルス応答は-h(x)となり、絶対値がPNC発話者−受聴者間のそれh(x)にほぼ等しくなる。その後スイッチSW1を閉じ、同定されたパラメータを固定した状態でPNC部を稼動させる。すると発話者と受聴者の位置P、QおよびマイクロホンMicとスピーカSPの位置はほぼ固定されているので、マスキーH'(t)のレベルは効果的に低減され、マスカーH(t)が優勢となる。その結果、情報隠蔽(Information Masking)の効果が強められる。必要に応じてマスカーH(t)のレベルを下げると、マスキーH'(t)を含むシステム全体のレベル、つまり室内の騒音レベルをさらに低減することもできる。
なお、上述のPNC機能はSDコントローラ部SDが組み込まれているコンピュータに組み込まれてもよい。
【0110】
ANC/PNCは既存の技術であるが、広い音場を3次元にわたりくまなく制御するのには向いていない。一方でカウンターのパーティションで囲まれた狭い空間のほぼ定まった位置に受聴者の頭が存在するようなケースでは3次元でも有効な音響低減手段となる。
【0111】
実施の形態における子音部分などの変更対象部分の置換または削除にあたり、ハニング窓などの時間窓やゼロクロス検出を併用して、切り取り時に発生しうるクリック音などを除去してもよい。この場合、受聴者8あるいは在室者に与えうる違和感がさらに低減される。
【0112】
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
例えば、原音声に複数の処理音声を重ねて放射したりすることも考えられる手法の例である。