特許第5662712号(P5662712)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本板硝子環境アメニティ株式会社の特許一覧

特許5662712音声変更装置、音声変更方法および音声情報秘話システム
<>
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000002
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000003
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000004
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000005
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000006
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000007
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000008
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000009
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000010
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000011
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000012
  • 特許5662712-音声変更装置、音声変更方法および音声情報秘話システム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5662712
(24)【登録日】2014年12月12日
(45)【発行日】2015年2月4日
(54)【発明の名称】音声変更装置、音声変更方法および音声情報秘話システム
(51)【国際特許分類】
   G10K 11/178 20060101AFI20150115BHJP
   G10L 21/0332 20130101ALI20150115BHJP
【FI】
   G10K11/16 H
   G10L21/0332
【請求項の数】6
【全頁数】20
(21)【出願番号】特願2010-145039(P2010-145039)
(22)【出願日】2010年6月25日
(65)【公開番号】特開2012-8392(P2012-8392A)
(43)【公開日】2012年1月12日
【審査請求日】2013年1月9日
【新規性喪失の例外の表示】特許法第30条第1項適用 社団法人 日本音響学会(発行者)、日本音響学会2010年春季研究発表会講演論文集(刊行物)、平成22年3月1日(発行年月日) 日本音響学会2010年春季研究発表会(研究集会名)、社団法人 日本音響学会(主催者)、平成22年3月9日(開催日)
(73)【特許権者】
【識別番号】594075765
【氏名又は名称】日本板硝子環境アメニティ株式会社
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】中井 孝芳
(72)【発明者】
【氏名】川上 福司
【審査官】 渡邊 正宏
(56)【参考文献】
【文献】 特開平02−190044(JP,A)
【文献】 特開2008−209785(JP,A)
【文献】 特開2008−103851(JP,A)
【文献】 特開平09−198091(JP,A)
【文献】 特開平11−338480(JP,A)
【文献】 特開2007−143202(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/00−13/00
G10L 13/00−13/10
G10L 15/00−17/26
G10L 19/00−19/26
G10L 21/00−21/18
G10L 25/00−25/93
G10L 99/00
H04R 3/00− 3/14
(57)【特許請求の範囲】
【請求項1】
発話中の音声を表す音声信号から変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、
少なくとも前記非線形変更部によって変更された変更対象部分の信号を、前記発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備え
前記部分抽出部は、前記音声信号の波形の包絡線のピークより前の第1時刻と当該ピークより後の第2時刻とで挟まれる区間の信号であって略1山状の信号を、前記変更対象部分の信号として決定することを特徴とする音声変更装置。
【請求項2】
前記非線形変更部は、
前記部分抽出部によって抽出された変更対象部分の信号から、その波形の包絡線を示す情報を取得する包絡線取得部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して処理する非線形処理部と、を含み、
前記非線形変更部は、前記包絡線取得部によって取得された包絡線を示す情報と、前記非線形処理部によって処理された変更対象部分の信号と、に基づいて前記部分抽出部によって抽出された変更対象部分の信号を変更することを特徴とする請求項1に記載の音声変更装置。
【請求項3】
前記非線形変更部は、前記部分抽出部によって抽出された変更対象部分の信号にフォルマント変換を施すことを特徴とする請求項1に記載の音声変更装置。
【請求項4】
前記非線形変更部によって変更された変更対象部分の信号が前記出力部から出力されるタイミングを、前記発話中の音声の伝搬にかかる時間に応じて調整するタイミング調整部をさらに備えることを特徴とする請求項1からのいずれかに記載の音声変更装置。
【請求項5】
発話中の音声を受け、それを表す音声信号を生成する集音手段と、
前記集音手段によって生成された音声信号を変更する音声変更装置と、
前記音声変更装置によって変更された音声信号を音声に変換して前記発話中の音声が受聴されている領域に出力する音声出力手段と、を備え、
前記音声変更装置は、
前記集音手段によって生成された音声信号から変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、
少なくとも前記非線形変更部によって変更された変更対象部分の信号を前記音声出力手段に出力する出力部と、を含み、
前記部分抽出部は、前記音声信号の波形の包絡線のピークより前の第1時刻と当該ピークより後の第2時刻とで挟まれる区間の信号であって略1山状の信号を、前記変更対象部分の信号として決定することを特徴とする音声情報秘話システム。
【請求項6】
発話中の音声を表す音声信号から変更対象部分の信号を抽出するステップと、
抽出された変更対象部分の信号を非線形関数を使用して変更するステップと、
変更された変更対象部分の信号を音声に変換し、変換された音声を前記発話中の音声が受聴されている領域に出力するステップと、を含み、
前記抽出するステップは、前記音声信号の波形の包絡線のピークより前の第1時刻と当該ピークより後の第2時刻とで挟まれる区間の信号であって略1山状の信号を、前記変更対象部分の信号として決定するステップを含むことを特徴とする音声変更方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、非線形関数を使用して音声を変更する音声変更装置、音声変更方法およびその音声変更装置を備える音声情報秘話システムに関する。
【背景技術】
【0002】
個人情報保護法などの施行により銀行やオフィスにおける会話情報の保護の必要性が高まっている。その手段として、従来から物理的に空間を分ける遮音・防音や、オープンプランオフィスなどにおいて会話音声を別の雑音・音楽などで隠蔽するBGM・マスキングシステムなどが提案されてきた。
【0003】
音声情報の隠蔽という目的については従来から、
(1)対象音声を他の定常的な雑音で隠蔽するマスキングシステム(Masking System)
(2)室内の暗騒音や空調騒音で隠蔽するシェーディングシステム(Shading System)
(3)遮音・防音(対象室を空間的に区画し、音響的に分離する)
等があった。(1)の例は音声の存在そのものを(無理やり)消し去ろうとするもので、エネルギマスキング(Energy Masking)と位置付けられる。これは例えばオープンプランオフィスのブースや会議室に使用されている。
【0004】
(1)のシステムの例が非特許文献1に報告されている。そこでは、天井内部などに専用のジェネレータやスピーカを設置し、マスキング音を発生して音声の隠蔽を行っている。その原理は、会話の邪魔にならない程度の(会話とは脈絡のない)音楽や雑音を生成し、いわゆるS/Nを低減して音声の内容を隠蔽したり、明瞭度・了解度を低減したりして、会話内容を理解できない程度まで隠蔽しようとするものである。システムには会話レベルや室内暗騒音などに応じてマスキング音を最適レベルに制御する制御装置(信号処理装置)・電力増幅器などが含まれる。
【0005】
また、この技術を利用した例としては、パーティションからブース内へマスキング用のノイズを放射し、対象空間領域をブースに限定することにより、室内全体の騒音レベルが上昇するのを抑えようとしたものがある。
【0006】
(2)のシステムの例が非特許文献2に報告されている。そこでは、放射するマスキングノイズとして、室内の暗騒音そのものや、日常的に身近な空調騒音を使用した「Sound Shading System」が報告されている。このシステムでは、銀行の窓口などにおけるプライバシーの確保を目的とした視覚遮断的なパーティションに対し、会話のプライバシー保護を目的としてパーティション頂部にスピーカを設置する。このスピーカからマスキング音を再生し、それによりパーティションの反対側にいる人への会話内容の漏洩・伝達の阻止を図る。再生する音には街の雑踏をもとに生成した音や、その部屋の空調騒音を使用する。
【0007】
(3)のシステムの例としては、別室として区画する遮音や、パーティションなどで区画する防音がある。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008−233671号公報
【非特許文献】
【0009】
【非特許文献1】コクヨ社プレスリリース、サウンドマスキング、2006年10月18日
【非特許文献2】杉本明子、中村隆宏、伊勢史郎、「会話のしやすさとプライバシーを考慮した音場を生成する Sound Shading System の評価」、日本音響学会2005年春季研究発表会 講演論文集、p.817
【非特許文献3】電子情報通信学会、聴覚と音声、1973年、p.370−371
【非特許文献4】梶田、小林、武田、板倉、「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、1997年5月1日、53(5)、p.337−345
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明者は、上述のマスキング/シェーディング技術に関して以下の課題を認識した。
(I)原音声とは脈絡のない新たな音を放射するので、違和感を伴い室内空間の騒音レベルを上昇させ得る。
(II)音声発生のないいわゆる「無音時」にも騒音、つまりマスキング音が聞こえ得る。
(III)会話とは関係のない別の音(騒音・音楽)を放射することにより、発声者・会話者・その他の在室者に少なからず違和感を与え得る。
(IV)音声の情報隠蔽は、性質の異なるもの同士は区別して認識する、という聴覚の性質により、雑音やBGMでは奏功しにくいという基本的な問題を含む(包絡線(エンベロープ)やスペクトルが似通った音声波形同士の方が聴覚認識上、区別されにくい)。
【0011】
(I)については、経験上原音声を完全にマスクするのに必要な雑音の相対レベルは略15dBである(非特許文献3参照)。この視点から見ると、雑音や音楽を流すことにより音声を隠蔽するという方法(masking approach)では、原音声に対してそれ以上のかなり大きな音量の雑音や音楽が必要となり、maskingであれshadingであれ、室内騒音レベルを大きく上昇させ得る。
【0012】
(II)については、発話がない時にも音がするという違和感を伴う。またそもそも発話がない時に雑音や音楽を流すことは会話内容の隠蔽の観点からは無駄と言える。また無駄であるばかりでなく、室の等価騒音レベル(LAeq:A-weighted equivalent sound level=A特性で補正した音声信号の一定区間の自乗平均音圧レベル、つまり平均的な騒音レベル)を上昇させる結果となりうる。雑音の代わりに音楽や音声から作成した「HSL雑音(Human Speech-like noise)」(非特許文献4参照)を流した場合でも、一般的なBGMとの区別は困難である。
【0013】
また、(3)のアプローチについては、費用的にかなり大きなものとなり、また開放感を阻害するのでオープンプランオフィスなどでの使用には適さない。
【0014】
また、特許文献1に記載のサウンドマスキングシステムでは、入力音(声)の話速を分析し、これに応じたフレーム長で分割して処理し、処理音声を合成する方法が述べられている。しかしながら、このシステムは「約2秒単位で入力音(声)を一時記憶し一連の処理を行う」ので、処理音声はそれがマスキング対象とする音声とは別の、過去の音声から生成される。したがって、処理音声とそれがマスキング対象とする音声との関連性は薄く、マスキング効果は十分とは言えない。
【0015】
本発明はこうした課題に鑑みてなされたものであり、その目的は、騒音レベルや受聴者の不快感の増長を抑えた上で、実時間或いは実時間に準ずる処理速度で音声の内容を隠蔽する技術の提供にある。
【課題を解決するための手段】
【0016】
本発明のある態様は、音声変更装置に関する。この音声変更装置は、発話中の音声を表す音声信号から変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、少なくとも非線形変更部によって変更された変更対象部分の信号を、発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備える。
【0017】
この態様によると、発話中の音声が受聴されている領域に、その発話中の音声に非線形処理を施した音声を実質的に実時間で出力することができる。
【0018】
本発明の別の態様は、音声情報秘話システムである。この音声情報秘話システムは、発話中の音声を受け、それを表す音声信号を生成する集音手段と、集音手段によって生成された音声信号を変更する音声変更装置と、音声変更装置によって変更された音声信号を音声に変換して発話中の音声が受聴されている領域に出力する音声出力手段と、を備える。音声変更装置は、集音手段によって生成された音声信号から変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を非線形関数を使用して変更する非線形変更部と、少なくとも非線形変更部によって変更された変更対象部分の信号を音声出力手段に出力する出力部と、を含む。
【0019】
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
【発明の効果】
【0020】
本発明によれば、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽できる。
【図面の簡単な説明】
【0021】
図1】マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。
図2】実施の形態に係る音声情報秘話システムが設けられたブースを模式的に示す斜視図である。
図3図2の音声情報秘話システムの機能および構成を模式的に示すブロック図である。
図4図2のITパーティションの構成を示す側面図である。
図5図3のSDコントローラ部SDの機能および構成を示すブロック図である。
図6】部分決定部における変更対象部分の信号の決定基準を説明するための説明図である。
図7】第2変更部における処理の一例を示す説明図である。
図8】受聴者位置におけるマスキーおよびマスカーを表す音声信号の波形を示す波形図である。
図9】SDコントローラ部およびスピーカにおける一連の処理を示すフローチャートである。
図10】マスカーとマスキーの違いと認識率との関係を示すグラフである。
図11】第1変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。
図12】第2変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。
【0023】
特にオフィスなどにおいては、オープンプランの空間が有する開放性やコミュニケーションの円滑性を損なわずに音声情報、つまり音声の内容だけが隠蔽されることが望ましい。しかしながら、従来のBGMやマスキングを使用する技術は、基本的には音声とは性質の異なる別の音を加えるので、聴覚的な違和感や室内の暗騒音を上昇させてしまうという嫌いがあった。本発明の実施の形態は、マイクロホンなどにより集音した音声信号そのものの構造を非線形関数を使用して変更し、変更された音声を原音声に対して実質的に実時間で出力することにより室内の暗騒音を上昇させることなく会話の内容を、理想的には会話の内容のみを、隠蔽/遮断し、円滑で快適な秘話環境を実現する。
【0024】
図1は、マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。(a)は、電気音響を用いたSR(Sound Reinforcement)/PA(Public Address)である。これらは音量や明瞭度を高めて「よく聞こえるようにする」従来技術である。(f)は、遮音(Sound Insulation)であり、空間を音響的に分離しできるだけ「聞こえないようにする」従来技術である。これらに対して実施の形態に係るアプローチは(e)のSD(Speech Deformation)であり、会話者本人の原音声を処理して準実時間で出力することにより、聞こえる聞こえないではなく会話内容を「分からなくする」一種の音声情報撹乱(聴覚翻弄)技術である。また、従来技術による(b)EMや(c)SSや(d)IMが多かれ少なかれ室内あるいは対象空間領域の騒音レベルを上昇させて不快感や違和感を増加させ得るのに対し、(e)のSDではほとんど騒音レベルの上昇を伴わない。
【0025】
本発明の実施の形態では、発話中の音声である原音声(以下、マスキーと称す)に処理音声(以下、マスカーと称す)を加えた全体の音量を低減するために、以下の併用/工夫が可能である。
マスカーの情報隠蔽効果を高めるために、ANC(Active Noise Control)またはパラメータ固定のPNC(Passive Noise Control)技術を併用する。
【0026】
図2は、実施の形態に係る音声情報秘話システム100が設けられたブース2を模式的に示す斜視図である。図3は、図2の音声情報秘話システム100の機能および構成を模式的に示すブロック図である。
音声情報秘話システム100は、銀行の相談カウンターなど、簡易パーティションで区画されたブース2に設けられる。音声情報秘話システム100は、マイクロホンMicと、SDコントローラ部SDと、2つのパワーアンプPAと、2つのスピーカSPと、を備える。スピーカSPおよびSDコントローラ部SDは、ブース間を視覚的に隔てるITパーティション4に組み込まれてもよい。
【0027】
相談員と会話を行っている顧客6を発話者とする。この発話者のマスキーH'(t)はカウンター部分またはその近傍に設けられたマイクロホンMicによって集音される。マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、SDコントローラ部SDに送られる。この音声信号はSDコントローラ部SDによって非線形的に変更される。SDコントローラ部SDにおける非線形処理を経た音声信号はパワーアンプPAを経てスピーカSPから左右の隣接ブース2’にマスカーH(t)として出力される。
【0028】
隣接ブース2’にはマスキーH'(t)が空中を回り込んでくるので、顧客6が発話中の音声は隣接ブース2’内にいる受聴者8(顧客6とは異なる別の者)によって受聴されうる。しかしながら本実施の形態では、空中を回り込んで漏洩するマスキーH'(t)はマスカーH(t)と合成されて隣接ブース2’内の受聴者8に届く。したがってマスカーH(t)による擾乱により、受聴者8はマスキーH'(t)に含まれる会話の内容を理解することができない。
【0029】
スピーカSPは、それが接続されているSDコントローラ部SDやマイクロホンMicが設置されているブース2の隣の隣接ブース2’に向けてマスカーH(t)を出力する。ここで隣接ブース2’は、空中を回り込んで漏洩するマスキーH'(t)が受聴されている領域である。言い換えると、マスキーH'(t)とマスカーH(t)とが実質的に実時間で受聴者8に届くように、マスカーH(t)がスピーカSPから出力される。この実時間性を保証する主体はSDコントローラ部SDであってもスピーカSPであってもよいが、以下ではSDコントローラ部SDがマスキーH'(t)とマスカーH(t)との実時間性を考慮し、変更された音声信号をスピーカSPに出力する場合について説明する。
【0030】
図4は、図2のITパーティション4の構成を示す側面図である。ITパーティション4は、第1吸音層142と、遮音層144と、第2吸音層146と、をこの順に積層してなる積層構造を有する。第1吸音層142および第2吸音層146はそれぞれ厚さが20mmのグラスウールの層である。遮音層144は厚さが12mmの石膏ボードである。
【0031】
図5は、図3のSDコントローラ部SDの機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのCPU(central processing unit)をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
【0032】
SDコントローラ部SDは、A/D部20と、部分抽出部30と、非線形変更部40と、出力部50と、を備える。
【0033】
マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ(不図示)を経てA/D部20に入力される。A/D部20は、アナログ信号である音声信号をデジタルデータに変換する。A/D部20でデジタル化された音声信号は、例えば音圧の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。
【0034】
部分抽出部30は、A/D部20でデジタル化された音声信号から変更対象部分の信号を抽出する。部分抽出部30は、信号分割部32と、部分決定部34と、第1包絡線取得部36と、第1スイッチ39と、を含む。
部分抽出部30は、変更対象部分の信号の抽出に関し、少なくとも略1山抽出モードおよびランダム分割モードの2つのモードを有する。部分抽出部30において両モードは選択可能に構成される。本実施の形態では、ユーザは第1スイッチ39を切り替えることでモードを切り替える。なお、第1スイッチ39はハードウエアスイッチとして実装されてもよく、またソフトウエアスイッチとして実装されてもよい。
【0035】
(略1山抽出モード)
第1スイッチ39がA/D部20と第1包絡線取得部36とを接続するように設定されている場合、部分抽出部30は略1山抽出モードで動作する。略1山抽出モードでは、第1包絡線取得部36は、音声信号の包絡線を示すデータを取得する。このデータは、例えば包絡線の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。以下、包絡線を示すデータを単に包絡線と称す。第1包絡線取得部36は、自乗音圧取得部37と、ローパスフィルタ38と、を有する。
【0036】
自乗音圧取得部37は、A/D部20でデジタル化された音声信号の自乗音圧波形を取得する。自乗音圧取得部37は、音声信号を自乗し、必要に応じて所定の係数を乗ずることにより自乗音圧波形を得る。
【0037】
ローパスフィルタ38は、自乗音圧取得部37によって取得された自乗音圧波形を数msecから数100msecの時定数で平均化する。すなわちローパスフィルタ38は自乗音圧波形に対してローパスフィルタ処理をする。これにより、自乗音圧波形から時定数程度よりも速い変化が取り除かれ、滑らかな波形が得られる。本実施の形態では、この滑らかな波形が音声信号の包絡線である。なお、他の方法で音声信号の包絡線を求めてもよいことは、本明細書に触れた当業者には理解される。また、本実施の形態において包絡線は、広義には音声信号の振幅の変化を示すデータである。
ローパスフィルタ38は、必要であればローパスフィルタ処理されたデータの平方根をとる。
【0038】
部分決定部34は、ローパスフィルタ38によって得られた音声信号の包絡線のうち、数dB〜数10dB、例えば5dB以上連続して上昇する上昇部分を検出する。次に部分決定部34は、上昇部分の後で数dB〜数10dB、例えば5dB以上連続して下降する下降部分を検出する。部分決定部34は、上昇部分とそれに対応する下降部分との間の音声信号を変更対象部分の信号として決定する。このようにして決定される変更対象部分の信号の包絡線は略1山状となることが多い。
【0039】
図6は、部分決定部34における変更対象部分の信号の決定基準を説明するための説明図である。図6(a)は、部分決定部34において上昇部分と下降部分の検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図6(a)は、例示としての音声信号の波形211とその包絡線208とを示す。部分決定部34は、包絡線208の変化率に基づき上昇部分202を検出する。次に部分決定部34は上昇部分202の後の下降部分204を検出する。部分決定部34は、上昇部分202と下降部分204とで挟まれる区間206(ピーク203より前の時刻t1とピーク203より後の時刻t2とで挟まれる区間)の音声信号を変更対象部分の信号として決定する。
【0040】
なお、部分決定部34は、他の方法で変更対象部分の信号を決定してもよい。例えば、部分決定部34は、包絡線が膨らんでいる部分を検出し、その部分に対応する音声信号を変更対象部分の信号として決定してもよい。あるいはまた、部分決定部34は、包絡線のピークを検出し、その前後に所定の長さを有する区間の音声信号を変更対象部分の信号として決定してもよい。あるいはまた、部分決定部34は、包絡線が所定のレベルを越えている連続的な区間の音声信号を変更対象部分の信号として決定してもよい。
【0041】
図6(b)は、部分決定部34においてピークの検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図6(b)は、例示としての音声信号の波形212とその包絡線214とを示す。部分決定部34は、包絡線214のピーク216を検出する。部分決定部34は、ピーク216の前後に所定の長さを有する区間218の音声信号を変更対象部分の信号として決定する。
【0042】
図6(c)は、部分決定部34において包絡線のレベルに基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図6(c)は、例示としての音声信号の波形220とその包絡線222とを示す。部分決定部34は、包絡線222が所定のレベル224を越えている連続的な区間226を検出し、その区間226の音声信号を変更対象部分の信号として決定する。この場合、所定のレベルの取り方によっては、変更対象部分の信号が2以上のピークを含む場合がある。
【0043】
以上のように変更対象部分の信号の決定手法は種々考えられる。このように選択肢が多いことは、SDによる会話内容の隠蔽をより効果的とするための大きな自由度を提供するという意味で好適である。
【0044】
また、これら種々の決定手法に通じて言えることは、音声信号の波形に基づいて、特にその統計的な性質に基づいて信号のひとまとまりが判別され、そのように判別されたひとまとまりの信号が変更対象部分の信号として決定されていることである。すなわち、入来する音声信号に応じて適応的に変更対象部分が決定される。この場合、本発明者の当業者としての経験および予備的な実験によると、例えば予め定められた一定の間隔で音声信号を切り出す場合と比べてより会話内容擾乱効果が高いことが見出された。特に、本発明者によって行われた実験によると、包絡線の略1山を変更単位として抽出する場合は、例えば一定周期で切り出す場合や子音や母音を変更単位とする場合と比べて擾乱効果が高いことが見出された。
【0045】
図5に戻る。
部分決定部34は、音声信号のうち変更対象部分の信号として決定されなかった部分を遅延調整部52に出力する。
【0046】
(ランダム分割モード)
第1スイッチ39がA/D部20と信号分割部32とを接続するように設定されている場合、部分抽出部30はランダム分割モードで動作する。ランダム分割モードでは、信号分割部32は、A/D部20でデジタル化された音声信号をランダムな長さを有する期間で分割する。期間の長さは数10msec〜数100msecの間で変動する。または期間の長さは一定周期に対して±数10%〜数100%の範囲で変動する。例えば、期間の長さは、…、11msec、10msec,12msec、…、と変化する。
【0047】
部分決定部34は、音声信号のうち信号分割部32で分割された期間のひとつに対応する信号を変更対象部分の信号として決定する。部分決定部34は、分割された全ての期間を変更対象部分として選択してもよいし、例えば1つおきに変更対象部分として選択してもよい。後者の場合、部分決定部34は変更対象部分として選択されなかった期間に対応する部分の音声信号を遅延調整部52に出力する。
ランダム分割モードでは、期間の長さにランダム性が加味されているので、マスカーH(t)の自然性が向上する。
【0048】
非線形変更部40は、部分抽出部30によって抽出された変更対象部分を非線形関数を使用して実時間、或いは準実時間で変更する。非線形変更部40は、第1変更部42と、第2変更部44と、第3変更部46と、第2スイッチ48と、を含む。
非線形変更部40は、少なくとも第1変更モード、第2変更モード、第3変更モードの3つのモードを有する。非線形変更部40においてそれらのモードは選択可能に構成される。本実施の形態では、ユーザは第2スイッチ48を切り替えることでモードを切り替える。なお、第2スイッチ48はハードウエアスイッチとして実装されてもよく、またソフトウエアスイッチとして実装されてもよい。
【0049】
(第1変更モード)
第2スイッチ48が部分決定部34と第1変更部42とを接続するように設定されている場合、非線形変更部40は第1変更モードで動作する。第1変更モードでは、第1変更部42は、部分決定部34において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第1変更部42は、第2包絡線取得部62と、第1非線形処理部64と、積算部66と、を有する。
【0050】
第2包絡線取得部62は、第1包絡線取得部36と同様の構成を有する。すなわち、第2包絡線取得部62は、部分抽出部30によって抽出された変更対象部分の信号から包絡線を取得する。あるいはまた、部分抽出部30において略1山モードが使用される場合、第2包絡線取得部62は第1包絡線取得部36によって取得された包絡線から変更対象部分の信号に対応する包絡線を取得してもよい。
【0051】
第1非線形処理部64は、部分抽出部30によって抽出された変更対象部分の信号を非線形関数を使用して処理する。非線形関数としては、例えば絶対値と対数変換を基礎とする関数が使用される。特に第1非線形処理部64は、変更対象部分の信号(y(t))の絶対値(|y(t)|)の底2に対する対数(log|y(t)|)を演算する。
【0052】
積算部66は、第2包絡線取得部62によって取得された包絡線に基づいて、第1非線形処理部64によって処理された変更対象部分の信号を変更する。特に積算部66は、第2包絡線取得部62によって取得された包絡線と第1非線形処理部64における演算結果とを積算する。これにより、第1非線形処理部64における処理によって包絡線の形状が崩れる場合でも、積算部66における処理によって包絡線の形状を回復することができる。
【0053】
第1変更部42は、部分決定部34において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部52に出力する。
【0054】
(第2変更モード)
第2スイッチ48が部分決定部34と第2変更部44とを接続するように設定されている場合、非線形変更部40は第2変更モードで動作する。第2変更モードでは、第2変更部44は、部分決定部34において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第2変更部44は、置換部68と、第2非線形処理部70と、を有する。
【0055】
置換部68は、変更対象部分の信号内で、ある時刻の信号値と別の時刻の信号値とを置換する。
第2非線形処理部70は、置換部68によって置換された変更対象部分の信号を非線形関数を使用して処理する。
【0056】
図7は、第2変更部44における処理の一例を示す説明図である。図7の横軸は時間、縦軸は電圧を示す。図7の実線228は、A/D部20に入力されるアナログ信号としての音声信号の波形を示す。部分抽出部30によって区間230の音声信号が変更対象部分の信号として抽出されたとする。変更対象部分の信号はデジタルデータであり、時刻t、t、…、t(Nは自然数)のそれぞれに対応する電圧値y=f(t)、y=f(t)、…、y=f(t)を有する。ここではt<tとし、各時刻は等間隔で並ぶものとする。
図7では、第1データ点232は(t、y)、第2データ点234は(tN-i、yN-i)(iは自然数、0≦i≦N)、第3データ点236は(t、y)、を示す。
【0057】
置換部68は、変更対象部分の信号を準関数y’=f(t−t)を使用して変更する。例えば時刻tについては、置換部68はyをy’=f(t−t)=f(tN−i)=yN−iで置き換える。このように置換した後の第4データ点238は(t、y’=yN−i)で示される。図7の一点鎖線240は、置換部68で置換された信号の波形を示す。
【0058】
第2非線形処理部70は、置換部68で置換された信号を、対数などの非線形関数Y=g(y’)を使用して変更する。例えば、第4データ点238については、第2非線形処理部70はy’をY=g(y’)=g(yN−i)とする。このように変更した後の第5データ点242は(t、Y=g(yN−i))で示される。図7の2点鎖線244は、第2非線形処理部70で変更された信号の波形を示す。
【0059】
図5に戻る。
第2変更部44は、部分決定部34において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部52に出力する。
なお、第2変更部44における処理は上述の処理に限られない。例えば、tとtとの大小関係や準関数fの形として他のものを採用してもよい。
【0060】
(第3変更モード)
第2スイッチ48が部分決定部34と第3変更部46とを接続するように設定されている場合、非線形変更部40は第3変更モードで動作する。第3変更モードでは、第3変更部46は、部分決定部34において決定された変更対象部分の信号を取得し、それに非線形処理を施す。第3変更部46は、前処理部72と、LPC分析部74と、残差処理部76と、周波数特性変換部78と、合成部80と、を有する。
【0061】
第3変更部46は、変更対象部分の信号にフォルマント変換を施す。フォルマント変換技術はヘリウムガスを用いた深海作業などで、変性音声をもとの原音声に近いものに戻す時などに用いられるものである。
【0062】
フォルマント変換処理は以下のように行われる。前処理部72は、変更対象部分の信号にプリエンファシスを施す。LPC分析部74は、前処理部72においてプリエンファシスが施された信号を線形予測(LPC)分析し、声道の周波数特性と音源(残差信号)とに分ける。周波数特性変換部78は、声道の周波数特性を変形する。残差処理部76は、残差信号に対して所望の周波数になるようにダウンサンプリングを行う。あるいはまた、残差処理部76は残差信号をそのまま使用する。合成部80は、周波数特性変換部78の出力と残差処理部76の出力とを合成する。合成部80において合成された信号は、もとの変更対象部分の信号と比較した場合、ピッチ周波数(音声の基本周波数)は同じだがフォルマントが変更された変形処理音声を示す信号である。したがって、この変形処理音声の内容は一般的に理解不能となる。
【0063】
第3変更部46は、部分決定部34において決定される変更対象部分の信号ごとに上記処理を繰り返し、そのように処理された信号を遅延調整部52に出力する。
【0064】
出力部50は、非線形変更部40からは非線形処理された変更対象部分の信号を、部分抽出部30からは変更対象部分でない信号を、取得する。出力部50は、それらをアナログ信号に変換し、パワーアンプPAを介してスピーカSPに出力する。出力部50は、遅延調整部52と、D/A部54と、を含む。
【0065】
遅延調整部52は、非線形処理された変更対象部分の信号と変更対象部分でない信号とをつなぎ合わせて出力すべき出力音声信号を生成する。遅延調整部52は、出力音声信号が出力部50から出力されるタイミングを、マスキーH'(t)の伝搬にかかる時間に応じて調整する。特に遅延調整部52は、出力音声信号に対して所定の遅延を与える。この遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがマスキーH'(t)とマスカーH(t)とが実質的に実時間と言える程度の範囲内に収まるように設定される。
【0066】
マスキーH'(t)とマスカーH(t)とが実質的に実時間(準実時間)であることは、例えばマスキーH'(t)とマスカーH(t)とが隣接ブース2’内で少なくとも部分的に重畳することである。あるいはまた、出力部50から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、マスキーH'(t)が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。あるいはまた、出力部50から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、当該変更対象部分の信号に対応するマスキーH'(t)の部分が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。これは言い換えると、変更対象部分の信号に対応するマスキーH'(t)の部分と、当該変更対象部分の信号に対応するマスカーH(t)の部分とが隣接ブース2’内で少なくとも部分的に重畳することである。
【0067】
音声情報秘話システム100を導入する際、マイクロホンMicおよびスピーカSPの位置は決まり、想定される顧客6の位置および想定される受聴者8の位置もある程度は決まる。また、SDコントローラ部SDにおける処理時間もある程度見積もることができる。したがって、音声情報秘話システム100の導入時に、顧客6から受聴者8へのマスキーH'(t)の伝搬時間およびマスカーH(t)の伝搬時間をある程度見積もることができる。遅延調整部52における遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れの所望値から逆算して設定される。
【0068】
マスキーH'(t)に対するマスカーH(t)の遅れが大きいと、受聴者8位置においてエコーや残響が生じる虞がある。したがって、遅延調整部52は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがそのような違和感を生じさせない程度の値となるような遅延を出力音声信号に対して与える。この遅延は実験により定められるが、代表的には約100msec以下である。
また、上述のように本発明者は、音声情報の理解を制御するためには、音声信号を略1山単位で取り扱うと有利であることに想到した。この観点からは、遅延調整部52における遅延は音声信号の略1山の部分の時間幅に応じた、特にそれよりも小さな値とされると好ましい。マスカーの略1山部分とマスキーの略1山部分との相互作用が期待されるからである。
【0069】
D/A部54は、遅延調整部52によって遅延が付与された出力音声信号を、スピーカSPを駆動するためのアナログの音声信号に変換してパワーアンプPAに出力する。
【0070】
図8は、受聴者8位置におけるマスキーH'(t)およびマスカーH(t)を表す音声信号の波形を示す波形図である。図8(a)は、マスキーH'(t)を表す音声信号の波形を示す波形図である。図8(a)の波形は「あのー、彼とはもう相当長いんだよ、実は(ANO KARETOWA MOSOTONAGAINDAYO ZITSUWA)」という原音声をマイクロホンMicで音声信号に変換したものである。図8(a)の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図8(b)は、図8(a)の音声信号をSDコントローラ部SDにおいて略1山抽出モードおよび第1変更モードを使用して処理することで生成される音声信号の波形を示す波形図である。図8(b)に示される波形のNで示される部分は、図8(a)に示される波形のMで示される部分に対応する。図8(c)も同様である。図8(b)の音声信号と図8(c)の音声信号との違いは、遅延調整部52で付与される遅延の値である。
【0071】
図8(a)の包絡線と図8(b)や図8(c)の包絡線とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図8(b)や図8(c)の音声信号がスピーカSPで音声に変換され、マスカーH(t)として出力されると、受聴者8サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い(他の音に聞こえる場合もある)。
【0072】
マイクロホンMic、スピーカSP、顧客6、受聴者8の位置関係によっては、遅延調整部52で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりも早く受聴者8位置に到達することもある。すなわち、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れが負となる場合がある。ここで遅延調整部52で付与する遅延を小さくすると、例えば図8(c)に示される通り、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れが−D1(D1は正)となりうる。この場合、受聴者8は、未だ聴いていない未来のマスキーH'(t)を基に生成されたマスカーH(t)を聴いていることとなる。
【0073】
遅延調整部52で付与する遅延を大きくしていくと、ある値で受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがゼロとなり、その後増加していく。例えば図8(b)に示される通り、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがD2(D2は正)となりうる。時間マスキング(temporal masking)の視点からは、マスカーとマスキーを同タイミングとするよりマスカーを僅かに遅らせた方がマスキング効果が高い場合もある。聴覚には、音声の包絡線の時間変化で内容を理解する一面もあるからである。したがって、そのような場合は遅延調整部52で付与する遅延を大きくして受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れを正とすると好適である。
【0074】
また、マイクロホンMic、スピーカSP、顧客6、受聴者8の位置関係によっては、遅延調整部52で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりもかなり遅く受聴者8位置に到達することもある。この場合、マスキーH'(t)とマスカーH(t)とを受聴者8位置で実質的に実時間で合成して情報隠蔽を行うためには、SDコントローラ部SDでのSD処理時間を短縮しなければならない。この時間的な制約の存在、つまりSD処理時間を短縮しなければならないことにより、非線形処理の精度を犠牲にしなけらばならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定/予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。
【0075】
図9は、音声情報秘話システム100における一連の処理を示すフローチャートである。マイクロホンMicは、マスキーH'(t)を収集し、音声信号を生成する(ステップ302)。A/D部20は、マスキーH'(t)を表す音声信号をマイクロホンMicから取得する(ステップ304)。部分抽出部30は、A/D部20によって取得されA/D変換された音声信号から変更対象部分の信号を抽出する(ステップ306)。非線形変更部40は、部分抽出部30によって抽出された変更対象部分の信号を非線形関数を使用して変更する(ステップ308)。出力部50は、非線形変更部40によって変更された変更対象部分の信号をスピーカSPに出力する(ステップ310)。スピーカSPは、受け取った信号を音声に変換してマスカーH(t)とし、そのマスカーH(t)をマスキーH'(t)が受聴されている隣接ブース2’に出力する(ステップ312)。
【0076】
以上の構成による音声情報秘話システム100の動作を説明する。銀行のブース2に顧客6が座り、銀行の相談員と例えばローンについて相談する場合を考える。この際、ブース2の隣の隣接ブース2’には受聴者8がいて口座の開設を申請しているとする。顧客6は自己の事業の資金繰りが悪化したなどローンを申請する事情を説明している。無論このような話は受聴者8に漏れ聞こえないほうがよく、特に本実施の形態に係る音声情報秘話システム100では主に顧客6が発話中の音声を非線形処理したものが準実時間で受聴者8に届くので、受聴者8は顧客6の発話内容を理解できない。加えて顧客6の発話がない場合はスピーカSPから隣接ブース2’への出力は実質的にないため、隣接ブース2’内の騒音レベルを不必要に上昇させることもない。
【0077】
上述の実施の形態において、SDコントローラ部SDは記憶装置を備えてもよく、そのような記憶装置の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各ブロックを、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。
【0078】
本実施の形態に係る音声情報秘話システム100によると、以下の作用効果を得ることができる。
【0079】
(1)本実施の形態に係る音声情報秘話システム100によると、会話の存在そのものの隠蔽や抹消ではなく、その内容、つまり会話音声に含まれる情報が隠蔽される。この点に関し本発明者は以下を認識した。
オープンプランのオフィスや銀行や証券会社のロビーカウンター、特に簡易パーティションにより仕切られた接客カウンターなどでは、会話している人以外の人にその会話の中身を理解不能とすれば、会話内容の隠蔽という点では十分にその目的が果たされる。つまり会話の内容さえ漏れなければ音声そのものは聞こえてもよい。むしろ発話者の存在が視認できる場合などは、音声のスペクトルや包絡線(音質やイントネーション、抑揚)が保存されたほうが自然である。本実施の形態に係る音声情報秘話システム100は、以上の視点・ニーズに対応し、より自然な形で会話内容を隠蔽する。
【0080】
なお、包絡線が保存されるとはいえ、本実施の形態ではその保存の程度は、例えばマスカーの包絡線がマスキーの包絡線に対して時間的に少しずれることや、両包絡線の形状が少し異なることを許す。つまり、マスカーの包絡線とマスキーの包絡線とが類似する程度に保存されるということである。本発明者の当業者としての経験および予備的な実験によると、マスカーの包絡線とマスキーの包絡線とが、等しいとまでは言えないが類似している程度である場合に、音声情報攪乱効果がより高いことが見出された。
【0081】
図10は、マスカーとマスキーの違いと認識率との関係を示すグラフである。図10の縦軸は認識率を任意の単位(図10の例ではパーセント(%))で示し、横軸はマスカーとマスキーの違いの度合いを任意の単位で示す。認識率は、マスカーとマスキーの両者を受聴している状態での自立語の認識率である。マスカーとマスキーの違いは、ここでは、両者の包絡線の違いを示す。
マスカーとマスキーの違いがゼロに近い場合は、認識率は高い(ほぼ100%)。また、マスカーとマスキーの違いが大きい場合も、聴覚が両者を区別して認識しやすくなるため、認識率は高い。本発明者は、それらの間に、マスカーとマスキーとが異なるものではあるが区別もされにくく、したがって最も認識率が低くなるところがあることに想到した。そこではいわば聴覚が翻弄されるわけである。本実施の形態では、例えば遅延調整部52における遅延を調整し、マスカーとマスキーの違いがそのような認識率の極小値を与える程度となるようにすることも可能である。
【0082】
(2)例えば隣接ブース2’で受聴されているマスキーH'(t)との関連性が薄い音声、例えば過去の音声、から生成された処理音声をその隣接ブース2’に流してマスキングを図ろうとする場合、無音部分の位置の違いやアーティキュレーションの違いなどにより思ったほど情報隠蔽効果を得ることはできず、また、不自然さが増大する。これに対して本実施の形態に係る音声情報秘話システム100では、非線形処理されたマスカーH(t)がマスキーH'(t)と実質的に実時間で受聴者8の耳に届く。したがって、上記の場合と比較して、情報隠蔽の度合いは高く、かつ不自然さは低い。
【0083】
(3)実施の形態の略1山モードでは、変更対象部分の信号として略1山状の信号が抽出される。この場合、マスキーH'(t)の信号レベルが小さい部分で切り取りや貼り付けが行われるので、非線形処理によるクリック雑音などが低減される。すなわち、マスキーH'(t)が時間的に連続であればマスカーH(t)もほぼ連続となるので、一定時間で区画する場合には生じうる遮断部分におけるクリック雑音や、その低減を目的とした窓掛け処理による包絡線形状の崩壊(イントネーションの崩壊)も生じにくい。
【0084】
(4)マスカーH(t)は発話者本人のマスキーH'(t)を基に作成され、原音声と並行してスピーカから出力される。したがって、特に第1変更モードや第2変更モードではマスキーH'(t)のスペクトルや包絡線はマスカーH(t)となってもある程度保存されうる。その結果、マスカーH(t)のスペクトルやイントネーションはマスキーH'(t)のそれとほぼ同じとなるので、違和感はそれ程無く自然に聞き手に受け取られる。
【0085】
(5)時間軸上でマスキーH'(t)がないとき、つまり会話がないときはマスカーH(t)も出力されない。つまり両者は時間的に実質的に重畳する。したがって、音声発生のない「無音時」におけるマスカーH(t)による室内騒音レベルの上昇は抑えられる。
【0086】
(6)従来の技術を使用した場合に発生しうるマスカー断続やレベル変動(会話停止時に断〜レベル低減)による違和感や、会話とは関係のない別の音(騒音・音楽)を放射することによる発話者・会話者・その他の在室者に対する違和感が抑えられる。
【0087】
(7)従来の技術における物理的な遮音や個室化に対しては、空間的な遮断や移動を必要としないので、開放感やコミュニケーションが妨げられにくくなる。
【0088】
(8)SDコントローラ部SDおよびスピーカSPはITパーティション4に組み込まれるので、システムの設置や取付を大幅に簡略化できる。場合によってはマイクロホンMicをITパーティション4に組み込んでもよい。この場合、さらに簡略化される。
【0089】
(9)ITパーティション4はそれ自体が吸音処理されている。したがって、ブース内での会話音声の明瞭度を上げつつ隣接ブースへの音漏れを低減できる。
【0090】
(10)マスカーH(t)は非線形処理によりマスキーH'(t)(原音声)とは電気信号的な相関がそれ程高くない信号となる。したがって、音声情報秘話システム100の動作時においてハウリングなどのフィードバックに起因する異常が生じにくい。
【0091】
(11)実施の形態の第1変更モードや第2変更モードでは、マスキーH'(t)を表す音声信号の包絡線をほぼ保存したままそのキャリアに非線形処理を施していると言える。したがって、そのような変更処理を短い時間で行うことが可能となる。
【0092】
以上、実施の形態に係る音声情報秘話システム100およびそれに含まれるSDコントローラ部SDの構成と動作について説明した。この実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0093】
実施の形態では、隣接ブースの片側からマスカーH(t)が出力される場合について説明したが、これに限られない。例えば、信号加算によりマスカーH(t)が隣接ブースの左右両側から出力されてもよい。図11は、第1変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第1変形例に係る音声情報秘話システムは、マイクロホンMicと、SDコントローラ部SDと、4つのスピーカSPa〜SPd(SPdは不図示)と、4つのパワーアンプPAa〜PAd(PAdは不図示)と、4つの加算器210a〜210d(210dは不図示)と、を備える。
【0094】
SDコントローラ部SDにおける処理を経た音声信号は、ブース2の左のスピーカSPaに対応する加算器210aと、ブース2の右のスピーカSPbに対応する加算器210bと、ブース2の左隣の隣接ブース2’の左のスピーカSPcに対応する加算器210cと、ブース2の右隣の隣接ブースの右のスピーカSPd(不図示)に対応する加算器210d(不図示)と、に入力される。それぞれの加算器210a〜210dに入力された音声信号は対応するパワーアンプPAa〜PAdを経てスピーカSPa〜SPdから出力される。加算器はそれが接続されたスピーカが音声を出力するブースの両隣のブースから、SDコントローラ部SDにおける処理を経た音声信号を取得して加算する。
本変形例によると、マスカーH(t)が隣接ブース2’の左右両側から出力されるので、ブース2における会話内容が受聴者8により伝わりにくくなる。
【0095】
また、マスキーH'(t)のレベルを低減するためにPNC(Passive Noise Controller)を併用してもよい。PNCは公知のANC(Active Noise Control)を調整時に適応処理させ、運用時には設定されたパラメータを固定して使用することを意図するものである。
図12は、第2変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。本変形例では、図11のSDコントローラ部SDを図12の破線で囲まれた部分で置き換える。この部分ではSDコントローラ部SDとPNC部PNCとが並列に設けられ、マイクロホンMicからの音声信号がSDコントローラ部SDとPNC部PNCとに入力される。SDコントローラ部SDの出力側にはスイッチSW1が設けられ、スイッチSW1によってSDコントローラ部SDの動作のオンオフが制御される。そのスイッチSW1の出力とPNC部PNCの出力とは加算器406で加算され、パワーアンプPAを介してスピーカSPから音声として出力される。
【0096】
本変形例では、音源402とアンプ404を介して接続されたヘッドトルソシミュレータHATS(HATS: Head and Torso Simulator)などを発話者位置Pに置いて、PNC部PNCの同定を行う。スイッチSW1を開いてSDコントローラ部SDの動作を切り、HATSから適切な音声信号を放射して隣接ブース2’の受聴者位置Qに置いたマイクロホンMic’の出力が最小になるようにPNC部PNCを適応動作させてシステム同定を行う。
【0097】
このときマイクロホンMicおよびスピーカSPを含むインパルス応答は-h(x)となり、絶対値がPNC発話者−受聴者間のそれh(x)にほぼ等しくなる。その後スイッチSW1を閉じ、同定されたパラメータを固定した状態でPNC部を稼動させる。すると発話者と受聴者の位置P、QおよびマイクロホンMicとスピーカSPの位置はほぼ固定されているので、マスキーH'(t)のレベルは効果的に低減され、マスカーH(t)が優勢となる。その結果、情報隠蔽(Information Masking)の効果が強められる。必要に応じてマスカーH(t)のレベルを下げると、マスキーH'(t)を含むシステム全体のレベル、つまり室内の騒音レベルをさらに低減することもできる。
なお、上述のPNC機能はSDコントローラ部SDが組み込まれているコンピュータに組み込まれてもよい。
【0098】
ANC/PNCは既存の技術であるが、広い音場を3次元にわたりくまなく制御するのには向いていない。一方でカウンターのパーティションで囲まれた狭い空間のほぼ定まった位置に受聴者の頭が存在するようなケースでは3次元でも有効な音響低減手段となる。
【0099】
実施の形態における変更対象部分の信号の処理にあたり、ハニング窓などの時間窓やゼロクロス検出を併用して、切り取り時に発生しうるクリック音などを除去してもよい。この場合、受聴者8あるいは在室者に与えうる違和感がさらに低減される。
【0100】
実施の形態では、部分抽出部30は、略1山抽出モードまたはランダム分割モードにより音声信号から変更対象部分の信号を抽出する場合について説明したが、これに限られない。例えば、部分抽出部は、マスキーH'(t)の無音部分または一定レベル以下の部分を「無音部」として変更対象部分から外してもよい。出力部50は、無音部として変更対象部分から外された部分をそのまま無音部として出力してもよい。この場合、マスカーH(t)の音量(音圧レベル)ひいては室内騒音レベルの上昇を極力抑えることができる。また反対に、撹乱効果を強調する必要がある場合などは、抽出された包絡線に対数圧縮・伸長などの処理を施してもよい。また、部分抽出部は、音声信号の全体を変更対象部分の信号として抽出してもよい。
【0101】
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
【符号の説明】
【0102】
2 ブース、 4 ITパーティション、 6 顧客、 8 受聴者、 20 A/D部、 30 部分抽出部、 40 非線形変更部、 50 出力部、 100 音声情報秘話システム。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12