IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特許7532791音響処理装置、音響処理プログラム及び音響処理方法
<>
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図1
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図2
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図3
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図4
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図5
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図6
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図7
  • 特許-音響処理装置、音響処理プログラム及び音響処理方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】音響処理装置、音響処理プログラム及び音響処理方法
(51)【国際特許分類】
   G10K 11/175 20060101AFI20240806BHJP
   G10L 21/007 20130101ALI20240806BHJP
【FI】
G10K11/175
G10L21/007
【請求項の数】 8
(21)【出願番号】P 2020020057
(22)【出願日】2020-02-07
(65)【公開番号】P2021124684
(43)【公開日】2021-08-30
【審査請求日】2022-11-08
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】川畑 尚也
【審査官】佐久 聖子
(56)【参考文献】
【文献】特表2005-534061(JP,A)
【文献】特開2008-233672(JP,A)
【文献】特開2012-008393(JP,A)
【文献】特開2014-199445(JP,A)
【文献】特開2021-032989(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/00-13/00
G10L 13/00-13/10
G10L 15/00-17/26
G10L 19/00-99/00
(57)【特許請求の範囲】
【請求項1】
対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積する入力信号蓄積手段と、
前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力する信号選択手段と、
前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力するマスカー信号生成手段と
を有することを特徴とする音響処理装置。
【請求項2】
前記マイク入力信号のピッチ推定値を算出するピッチ推定手段をさらに備え、
前記入力信号蓄積手段は、それぞれの前記蓄積用フレームについて前記ピッチ推定手段が算出した前記ピッチ推定値に基づくピッチ推定情報と共に蓄積し、
前記信号選択手段は、それぞれの前記蓄積用フレームの前記ピッチ推定情報に基づいて作成した前記蓄積用フレームのピッチを示す値である蓄積用フレームピッチを取得し、現在の前記マイク入力信号の前記ピッチ推定値と、それぞれの前記蓄積用フレームの前記蓄積用フレームピッチとの比較結果に基づいて、いずれかの前記蓄積用フレームを前記マスカー素片信号として選択する
ことを特徴とする請求項1に記載の音響処理装置。
【請求項3】
前記信号選択手段は、現在の前記マイク入力信号のピッチ推定値と、より近い前記蓄積用フレームピッチとなる前記蓄積用フレームを、前記マスカー素片信号として選択することを特徴とする請求項2に記載の音響処理装置。
【請求項4】
前記マスカー素片信号を遅延させる遅延時間を算出する遅延時間計算手段をさらに備え、
前記マスカー信号生成手段は、前記信号選択手段が選択した前記マスカー素片信号を、前記遅延時間計算手段で算出した前記遅延時間の分遅延させた遅延信号を用いて、前記マスカー信号を生成することを特徴とする請求項1~3のいずれかに記載の音響処理装置。
【請求項5】
前記遅延時間計算手段は、現在の前記マイク入力信号と前記信号選択手段が選択した前記マスカー素片信号に基づいて前記遅延時間を算出することを特徴とする請求項4に記載の音響処理装置。
【請求項6】
前記マスカー信号生成手段が出力した前記マスカー信号を前記対象話者以外のマスキング対象者に向けて放出するスピーカをさらに有することを特徴とする請求項1~5のいずれかに記載の音響処理装置。
【請求項7】
コンピュータを、
対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積する入力信号蓄積手段と、
前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力する信号選択手段と、
前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力するマスカー信号生成手段と
して機能させることを特徴とする音響処理プログラム。
【請求項8】
音響処理装置が行う音響処理方法において、
入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、
前記入力信号蓄積手段は、対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積し、
前記信号選択手段は、前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力し、
前記マスカー信号生成手段は、前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力する
ことを特徴とする音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。
【背景技術】
【0002】
近年、不特定多数の人が存在する施設(例えば、病院、薬局、銀行等)の受付カウンター、窓口、打合せスペース等で、話者と会話の相手が会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。
【0003】
第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。
【0004】
マスキング効果とは、ある音(以下、対象音)が聞こえている状態で、対象音に近い音響特性(例えば、周波数特性、ピッチ、フォルマント等)を持つ別の音が存在した場合、その対象音が聞き取りにくくなる(マスクされる)現象である。一般的にマスクする音をマスカー、マスクされる対象音をマスキーと呼ばれている。
【0005】
このマスキング効果を利用して第三者に会話内容の漏洩を防止(スピーチプライバシーを保護)する技術が特許文献1によって提案されている。
【0006】
特許文献1に記載の音声処理方法は、マイクの入力音声信号のスペクトル包絡とスペクトル微細構造を抽出し、抽出したスペクトル包絡を変形して変形スペクトル包絡を生成する。そして、変形スペクトル包絡及び抽出したスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて生成した信号を「マスカー信号」として出力することで会話音声の内容が第三者に聞かれないようにする音声処理方法である。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2006-243178号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に記載の音声処理方法では、マイクの入力音声信号のスペクトル包絡を抽出し、スペクトル包絡を変形させて変形スペクトル包絡を生成し、スペクトル微細構造と合成してマスカー信号生成に使用する信号として使用している。このため、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。
【0009】
さらに、音声のスペクトル包絡は時間とともに変化しているので、スペクトル包絡を抽出するには、処理周期を短時間(約80ミリ秒から160ミリ秒)で行う必要がある。このため、処理周期が短時間でスペクトル包絡を変形させた信号がマスカー信号として出力され続けるので、さらに人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。
【0010】
以上のような問題に鑑みて、音声を発話する話者(以下、「対象話者」と呼ぶ)の音響特徴量の解析を行わずに高いマスキング効果を実現できる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。
【課題を解決するための手段】
【0011】
第1の本発明の音響処理装置は、(1)対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積する入力信号蓄積手段と、(2)前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力する信号選択手段と、(3)前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力するマスカー信号生成手段とを有することを特徴とする。
【0012】
第2の本発明の音響処理装置は、コンピュータを、(1)対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積する入力信号蓄積手段と、(2)前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力する信号選択手段と、(3)前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力するマスカー信号生成手段として機能させることを特徴とする。
【0013】
第3の本発明は、音響処理装置が行う音響処理方法において、(1)入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、(2)前記入力信号蓄積手段は、対象話者が発話中の音声を収音するマイクから供給されたマイク入力信号を音声信号と認識可能な所定の長さの蓄積用フレーム単位で蓄積し、(3)前記信号選択手段は、前記対象話者が発話中に前記入力信号蓄積手段に蓄積されている過去の蓄積用フレームから、前記対象話者が発話した音声を聞き取りにくくさせるマスカー信号の生成に使用するマスカー素片信号を選択し、選択結果を出力し、(4)前記マスカー信号生成手段は、前記対象話者が発話中に前記信号選択手段が選択した前記マスカー素片信号を用いて、前記マスカー信号を生成して出力することを特徴とする。
【発明の効果】
【0014】
本発明によれば、マスカー信号を生成するために使用する信号の長さを長くすることで、生成したマスカー信号が人工的な音にならないので、マスカー信号の不快感を軽減できる音響処理装置、音響処理プログラム及び音響処理方法を提供することができる。
【図面の簡単な説明】
【0015】
図1】第1の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
図2】第1の実施形態に係るサウンドマスキング装置のハードウェア構成の例について示したブロック図である。
図3】第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を出力するイメージ図(その1)である。
図4】第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を出力するイメージ図(その2)である。
図5】第2の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
図6】第3の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
図7】第4の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
図8】第5の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0016】
(A)第1の実施形態
以下、本発明による音響処理装置、音響処理プログラム、及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
【0017】
(A-1)第1の実施形態の構成
図1は、この実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
【0018】
サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、DA変換器104、スピーカアンプ105、スピーカ106、及びサウンドマスキング処理部200を有している。
【0019】
マイク101は、人の音声や音等の空気振動を電気信号に変換するものである。
【0020】
マイクアンプ102は、マイク101により受音(収音)された電気信号を増幅するものである。
【0021】
AD変換器103は、マイクアンプ102により増幅された電気信号(アナログ信号)をデジタル信号に変換するものである。以下、AD変換器103から出力されるデジタル信号を「マイク入力信号」と呼ぶものとする。
【0022】
サウンドマスキング処理部200は、入力されたマイク入力信号から、マイク入力信号をマスクする信号マスカー信号を生成し、出力する。
【0023】
DA変換器104は、サウンドマスキング処理部200から出力された出力信号(デジタル信号)を電気信号(アナログ信号)に変換するものである。
【0024】
スピーカアンプ105は、DA変換器104から出力される電気信号を増幅するものである。
【0025】
スピーカ106は、電気信号を空気の振動に変換して音として出力するものである。
【0026】
次に、サウンドマスキング処理部200の詳細な構成を説明する。
【0027】
サウンドマスキング処理部200は、フレーム分割部201、長時間フレーム信号作成部202、DB(データベース)書込み部203、入力信号DB204、フレーム信号DB205、フレーム信号選択部206、遅延時間計算部207、マスカー信号生成部208、音入力端子IN、及び音出力端子OUTを有している。
【0028】
音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)のである。
【0029】
フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(以下、「フレーム長L1」と表す)のフレーム(以下、「分割フレーム」と呼ぶ)に分割して出力する。フレーム長L1は、一般的に音声を解析するのに適した長さを適用することが望ましい。例えば、フレーム分割部201において、フレーム長L1は、100~200msecとしても良い。そして、フレーム分割部201は、分割したフレーム信号(以下、「分割フレーム信号」と呼ぶ)を出力する。
【0030】
長時間フレーム信号作成部202は、分割フレーム信号を所定の長さ(以下、「フレーム長L2」と表す)のフレーム(以下、「長時間フレーム」と呼ぶ)に結合して出力する。フレーム長L2(分割フレームを結合する長さ;分割フレームを結合する数)は、音声信号の単語,もしくは文章として認識できる程度の長さ(人間が耳で聞いたときに人間が発話した単語若しくは文章の一部であると認識できる程度の長さ)を適用することが望ましい。例えば、長時間フレーム信号作成部202において、フレーム長L2は、分割フレーム信号を3フレームから5フレーム結合した長さ(例えば、L2=L2×3からL2=L2×5)としても良く、音の分節単位(例えば、モーラの長さ1モーラから2モーラ)の長さになるように結合しても良く、時間単位(例えば、300ms~1000msecの範囲のいずれかの長さ)としても良い。そして、長時間フレーム信号作成部202は、結合した長時間のフレーム信号(以下、「長時間フレーム信号」と呼ぶ)を出力する。
【0031】
DB書込み部203は、長時間フレーム信号を入力信号DB204のフレーム信号DB205に書込む。入力信号DB204は、過去の各長時間フレーム信号を長時間フレーム毎に蓄積(保持)する記憶手段である。入力信号DB204内のデータ形式については限定されないものであるが、ここでは、入力信号DB204は、過去の長時間フレーム信号を蓄積するフレーム信号DB205で構成されているものとする。フレーム信号選択部206は、入力信号DB204のフレーム信号DB205に蓄積されている過去の長時間フレーム信号を、マスカー信号を生成するために使用する信号(以下、「マスカー素片信号」と呼ぶ)として、複数フレーム選択し、選択結果を出力する。
【0032】
遅延時間計算部207は、フレーム信号選択部206の選択結果を基に、選択された過去の長時間フレーム信号をマスカー素片信号として入力信号DB204のフレーム信号DB205から複数フレーム読み出し、読み出した複数フレームのマスカー素片信号と現在の分割フレーム信号に基づいて、マスキング効果が最も高くなるマスカー素片信号の遅延時間を算出し、算出した遅延時間を出力する。
【0033】
マスカー信号生成部208は、フレーム信号選択部206の選択結果と遅延時間計算部207で算出したマスカー素片信号の遅延時間を基に、選定されたマスカー素片信号を入力信号DB204のフレーム信号DB205から複数フレームの読み出し、読み出した複数フレームのマスカー素片信号を遅延時間計算部207で計算した遅延時間だけ遅延させた信号を使用してマスカー信号を生成し、出力する。
【0034】
音出力端子OUTは、マスカー信号生成部210で生成したマスカー信号をDA変換器104に出力するインタフェース(オーディオインタフェース)である。
【0035】
サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部200は、例えば、メモリ及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。
【0036】
なお、この実施形態では、AD変換器103及びDA変換器104を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103及びDA変換器104を搭載した構成としても良い。
【0037】
図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。
【0038】
図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。
【0039】
図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。
【0040】
一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。
【0041】
二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。
【0042】
この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)でありば、二次記憶部303については除外した構成としても良い。
【0043】
(A-2)第1の実施形態の動作
次に、以上のような構成を有するこの第1の実施形態のサウンドマスキング装置100の動作(実施形態の音響処理方法)を説明する。
【0044】
サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の対象話者U1がマイク101に向かって音声を発話すると、マイク101に音声信号が入力される。
【0045】
マイク101に入力されたアナログの音声信号は、電気信号(アナログ信号)に変換され、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時系列を示すパラメータである。
【0046】
サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
【0047】
フレーム分割部201は、マイク入力信号x(n)を分割フレーム信号のフレーム長L1に分割する。フレーム分割部201は、例えば、(1)式に従い、マイク入力信号x(n)を分割フレーム毎に分割する。
【数1】
【0048】
(1)式で、x_fram(l;m)は分割フレーム信号、lはフレーム番号、mは当該分割フレーム内の時間(m=0、1、2、・・・、L1-1)である。
【0049】
フレーム分割部201は、分割フレーム信号x_fram(l;m)を、長時間フレーム信号作成部202、及び遅延時間計算部207に出力する。
【0050】
長時間フレーム信号作成部202は、分割フレーム信号を長時間フレーム信号のフレーム長L2に結合する。長時間フレーム信号作成部202が長時間フレームを作成する具体的手法については限定されないものであり種々の方式を適用することができる。長時間フレーム信号作成部202は、例えば、分割フレーム信号を分割フレームで結合する場合は、(2)式に従い、長時間フレーム信号x_fram_long(s)を作成するようにしても良い。
【数2】
【0051】
(2)式で、iはインデックス(i=0、1、2、・・・、I-1)、Iは長時間フレーム信号に用いられる分割フレームの数(以下、「使用フレーム数」と呼ぶ)である(I=L2/L1)。
【0052】
また、長時間フレーム信号x_fram_long(s)の作成手法は、例えば、(3)式、(4)式に従い、長時間フレーム信号x_fram_long(s)を作成するようにしても良い。
【数3】
【0053】
(3)式で、sは長時間フレーム内の時間(s=0、1、2、・・・、L2-L1-1)、である。(3)式は、長時間フレーム力信号x_fram_long(s)を分割フレーム長L1だけ前にシフトし、(4)式は、長時間フレーム信号x_fram_long(s)の後ろに分割フレーム信号x_fram(l;m)を格納するという式である。また、分割フレーム信号x_fram(l;m)を時間単位で結合しても良い。
【0054】
長時間フレーム信号作成部202は、長時間フレーム信号x_fram_long(s)をDB書込み部203に出力する。
【0055】
DB書込み部203は、長時間フレーム信号x_fram_long(t)を入力信号DB204のフレーム信号DB205に書込む。DB書込み部203は、例えば、(5)式に従い、長時間フレーム信号x_fram_long(t)を長時間フレーム毎に入力信号DB204のフレーム信号DB205DB_singal(j;t)に書込む。
【数4】
【0056】
(5)式で、tは長時間フレーム内の時間(t=0、1、2、・・・、L2-1)、jは入力信号DB204のフレーム信号DB205に長時間フレーム信号が書込まれるとインクリメン卜されるインデックス(j=0、1、2、・・・、DB_LEN-1;主キー;長時間フレームの識別子)、DB_LENはデータベース長である。(5)式と(6)式に示すように、フレーム信号DB205DB_singal(j;t)に長時間フレーム毎に長時間フレーム信号x_fram_long(s)が蓄積される。
【0057】
入力信号DB204は、過去の各長時間フレーム信号を蓄積(保持)する記憶手段である。
【0058】
上述の通り、この実施形態の入力信号DB204には、フレーム信号DB205が含まれている。ここでは、フレーム信号DB205に各長時間フレーム信号x_fram_long(t)が蓄積されることになる。
【0059】
フレーム信号選択部206は、入力信号DB204のフレーム信号DB205に蓄積されている過去の長時間フレーム信号をマスカー素片信号として複数フレーム選択する。フレーム信号選択部206がマスカー素片信号の選択する具体的手法については限定されないものであり種々の方式を適用することができる。フレーム信号選択部206は、例えば、(7)式に示すようにフレーム選択結果T(p)を選択する。
【数5】
【0060】
(7)式で、p(p=0、1・・・、SEL_NUM-1)は選択したフレーム選択結果T(p)のインデックス、SEL_NUM(SEL_NUM<=DB_LEN-1)はマスカー素片信号の選択数、jは(6)式のデータベースのインデックスである。(7)式は、入力信号DB204のフレーム信号DB205に保持されている長時間フレーム信号を時間的に新しい順番で選択し、選択した長時間フレーム信号が保持されているデータベースのインデックス番号をT(p)に代入するという式である。
【0061】
また、マスカー素片信号の選択手法は、例えば、(8)式に従いマスカー素片信号を選択するようにしても良い。
【数6】
【0062】
(8)式で、rand(p)は自然数pに対して乱数を生成する関数である。(8)式は、MOD関数を使用してrand(p)で生成した乱数をDB_LEN-1で除割ったときの剰余を返すことで、入力信号DB204のフレーム信号DB205に保持されている長時間フレーム信号からランダムに選択される。
【0063】
以上のように、フレーム信号選択部206は、フレーム信号DB205に保持されている長時間フレーム信号から複数フレーム選択し、選定結果T(p)を遅延時間計算部207とマスカー信号生成部208に出力する。
【0064】
遅延時間計算部207は、フレーム信号選択部206の選定結果T(p)を基に入力信号DB204のフレーム信号DB205からマスカー素片信号を読出し、マスカー素片信号とフレーム分割部201から出力された分割フレーム信号x_fram(l;m)に基づいて、マスキング効果が最も高くなるようにマスカー素片信号の遅延時間を算出し、算出した遅延時間を出力する。遅延時間計算部207、例えば、(9)式に従い、遅延量delay(l;p)を算出するようにしても良い。
【数7】
【0065】
(9)式で、τ1(τ1=0、1・・・、L1-1)は相互相関関数の遅延量、cross_corr(l;τ1)はマスカー素片信号の相互相関関数である。(9)式と(10)式は、マスカー素片信号と分割フレーム信号x_fram(l;m)の相互相関関数cross_corr(l;k)を求め、相互相関関数cross_corr(l;k)が最大になるインデックスτ1を求めて遅延量delay(l;p)に代入するという式である。
【0066】
遅延時間計算部207は、算出した遅延量delay(l;p)をマスカー信号生成部208に出力する。
【0067】
マスカー信号生成部208は、フレーム信号選択部206の選択結果T(p)を基に、マスカー素片信号を入力信号DB204のフレーム信号DB205から複数フレーム読み出し、遅延時間計算部207で計算された遅延量delay(l;p)だけ遅延させマスカー信号を生成する。マスカー信号生成部208がマスカー信号を生成する具体的手法については限定されないものであり種々の方式を適用することができる。マスカー信号生成部210は、例えば、(11)式に従い、マスカー信号h(l;t)を生成する。
【数8】
【0068】
(11)式は、フレーム信号選択部206で選定された複数のマスカー素片信号を入力信号DB204のフレーム信号DB205から読み出し、読み出したマスカー素片信号を遅延量delay(l;p)だけ遅延させから重畳して、マスカー信号h(l;t)を生成する式である。
【0069】
そして、マスカー信号生成部208は、(12)式に従い、マスカー信号h(l;t)をオーバーラップ加算処理して出力信号y(n)として音出力端子OUTに出力する。
【数9】
【0070】
サウンドマスキング処理部200の音出力端子OUTから出力されるマスカー信号y(n)は、DA変換器104でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ106から出力される。
【0071】
図3図4は、マイク101と、マイク101に向かって発話する対象話者U1と、対象話者U1の後ろ側に立っている対象話者U1以外の人(対象話者U1の発話する音声をマスカー信号で聞き取りづらくする対象の人:以下、「マスキング対象者」と呼ぶ)U2と、スピーカ106との配置関係(スピーカ106の配置構成)の例について示した図である。
【0072】
図3図4では、スピーカ106から出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3では、直接音が床FR(FLOOR)に反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。
【0073】
図3では、スピーカ106は、対象話者U1の前方で膝程度の高さ、スピーカ106の振動面が下方向で、床FRの表面に対して斜め方向に設置されていることで、直接音DSが床FRに反射し、反射した反射音RSが対象話者U1の後方にいるマスキング対象者U2に伝わるように向けられた状態となっている。そして、スピーカ106から放射されたマスカー信号は、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、床FRで反射したマスカー信号は、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。
【0074】
以上のように、スピーカ106の設置方法は、マスカー信号が対象話者U1に聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図4(a)に示しているように、対象話者U1の後ろにスピーカ106を設置できるスペースがあれば、対象話者U1の後ろにスピーカを設置して、直接スピーカ106の振動面をマスキング対象者U2に向けて出力するようにしても良いし、図4(b)に示しているように、マスキング対象者U2の近くの床FRにスピーカ106を埋め込むスペースがあれば、床FRにスピーカ106を埋め込むようにして直接スピーカの106の振動面をマスキング対象者U2に向けてマスカー信号を出力するようにしても良いし、図4(c)に示しているように、マスキング対象者U2の近くの天井CE(CEILING)にスピーカ106を設置できるスペースがあれば、天井CEにスピーカ106を設置して、直接スピーカの106の振動面をマスキング対象者U2に向けてマスカー信号を出力するようにしても良い。
【0075】
(A-3)第1の実施形態の効果
以上のように、第1の実施形態によれば、サウンドマスキング装置100は、生成したマスカー信号を人工的な音(機械的な音)にしないため、対象話者の音声を音声信号として認識できる程度の長さ(人間が耳で聞いたときに人間が発話した単語若しくは文章の一部であると認識できる程度の長さ)である長時間フレーム長L2で入力信号DB204に蓄積し、入力信号DB2054蓄積されている過去の長時間フレーム信号を変形せずにマスカー素片信号として使用している。
【0076】
さらに、マスカー素片信号と分割フレーム信号の相関関数が最も大きくなる遅延量を計算し、遅延させてからマスカー信号を生成することで、対象話者の音声と生成したマスカー信号の相関が高くなりマスキング効果がより高くなるという効果を奏する。
【0077】
(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
【0078】
(B-1)第2の実施形態の構成
図5は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図5では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
【0079】
以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。
【0080】
第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。
【0081】
サウンドマスキング処理部200Aでは、音声区間判定部209とDB蓄積判定部210とマスカー信号生成判定部211が追加され、さらに、DB書込み部203とフレーム信号選択部206とマスカー信号生成部208が、DB書込み部203Aとフレーム信号選択部206Aとマスカー信号生成部208Aに置き換わっている点で、第1の実施形態と異なっている。
【0082】
第2の実施形態のサウンドマスキング装置100Aでは、音声区間判定部209とDB蓄積判定部210が追加され、DB書込み部203Aに置き換わったことにより、入力信号DB204のフレーム信号DB205に蓄積される長時間フレーム信号の蓄積方法が異なる点と、マスカー信号生成判定部211が追加されたことにより、マスカー信号の生成方法が異なる点と、フレーム信号選択部206Aに置き換わったことによりとマスカー素片信号の選択方法が異なる点と、マスカー信号生成部208Aに置き換わったことによりマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
【0083】
サウンドマスキング処理部200Aの詳細な構成を説明する。
【0084】
サウンドマスキング処理部200Aは、フレーム分割部201、長時間フレーム信号作成部202、音声区間判定部209、DB蓄積判定部210、DB書込み部203A、入力信号DB204、フレーム信号DB205、マスカー信号生成判定部211、フレーム信号選択部206A、遅延時間計算部207、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有している。
【0085】
音声区間判定部209は、分割フレーム信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。
【0086】
DB蓄積判定部210は、音声区間判定部209の判定結果を基に、長時間フレーム信号をDBに書込んで蓄積するか蓄積しないかを判定し、判定結果を出力する。
【0087】
DB書込み部203Aは、DB蓄積判定部210の分割フレーム信号をDBに書込んで蓄積するか蓄積しないかを判定結果を基に、長時間フレーム信号を入力信号DB204のフレーム信号DB205に書込む。
【0088】
マスカー信号生成判定部211は、音声区間判定部209の判定結果を基に、マスカー信号を生成するかしないかを判定し、判定結果を出力する。
【0089】
フレーム信号選択部206Aは、マスカー信号生成判定部211の判定結果を基に、入力信号DB204のフレーム信号DB205に蓄積されている過去の長時間フレーム信号から、複数フレームマスカー素片信号を選択し、選択結果を出力する。
【0090】
なお、第2の実施形態において、マスカー信号生成判定部211を除外した構成としても良い。
【0091】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
【0092】
第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
【0093】
以下では、第1の実施形態と異なる点である音声区間判定部209、DB蓄積判定部210、DB書込み部203A、マスカー信号生成判定部211、フレーム信号選択部206A、マスカー信号生成判定部2011における動作を中心に詳細に説明する。
【0094】
フレーム分割部201は、マイク入力信号x(n)を分割フレーム信号のフレーム長L1に分割し、分割フレーム信号x_fram(l;m)を、長時間フレーム信号作成部202、音声区間判定部209、及び遅延時間計算部207に出力する。
【0095】
音声区間判定部209は、分割フレーム信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間判定部209が音声区間か非音声区間かを判定する具体的手法については限定されないものであり種々の方式を適用することができる。音声区間判定部209は、例えば、(13)式と(14)式に従い音声区間か非音声区間かを判定する。
【数10】
【0096】
(13)式と(14)式で、x_fram_amp(l)は分割フレーム信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。(13)式は、分割フレーム信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式であり、(14)式は、(13)式で求めた分割フレーム信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。
【0097】
(14)式の閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、(15)式に示すように、サウンドマスキング装置100Aが動作し始めてから所定の長さ(以下、「フレーム長L3」と表す)のフレーム(以下、「初期フレーム」と呼ぶ)を無音区間とし、その初期フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良いし、(16)式に示すように、x_fram_amp(l)に時定数フィルタを用いて分割フレーム毎に変動する閾値TH(l)を用いても良い。
【数11】
【0098】
(16)式で、aは時定数フィルタの係数であり、0以上、1以下の値となる。(16)式において、閾値の更新を遅くしたい場合aは1に近い値が望ましく(例えばa=0.9等の値)、閾値の更新を速くしたい場合aは0に近い値が望ましい(例えばa=0.1等の値)。
【0099】
なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、分割フレーム信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。
【0100】
音声区間判定部209は、音声区間判定結果VAD(l)をDB蓄積判定部210とマスカー信号生成判定部211に出力する。
【0101】
DB蓄積判定部210は、音声区間判定部209の音声区間判定結果VAD(l)を基に、長時間フレーム信号x_fram_long(s)を入力信号DB203のフレーム信号DB204に蓄積するかしないかを判定する。判定手段は、例えば、(17)式に従い判定する。
【数12】
【0102】
(17)式で、DB_flag(l)は蓄積するかしないかの判定結果である。(17)式は、音声区間判定結果VAD(l)が1のとき、DBに蓄積すると判定し、判定結果DB_flag(l)に1を代入する。一方、音声区間判定結果VAD(l)が0のとき、DBに蓄積しないと判定し、判定結果DB_flag(l)に0を代入するという式である。
【0103】
DB蓄積判定部210は、DBに蓄積するかしないかの判定結果DB_flag(l)をDB書込み部203Aに出力する。
【0104】
DB書込み部203Aは、DB蓄積判定部210から出力された判定結果DB_flag(l)が1のときのみ、例えば、(5)式と(6)式に従い、長時間フレーム信号x_fram_long(t)を入力信号DB204のフレーム信号DB205に書込む。一方、DB蓄積判定部210の判定結果DB_flag(l)が0のとき、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に書込まない。
【0105】
マスカー信号生成判定部211は、音声区間判定部209の音声区間判定結果VAD(l)を基に、マスカー信号を生成するかしないかを判定する。判定手段は、例えば、(18)式に従い判定する。
【数13】
【0106】
(18)式で、mask_flag(l)はマスカー信号を生成するかしないかの判定結果である。(18)式は、音声区間判定結果VAD(l)が1のとき、マスカー信号を生成すると判定し、判定結果mask_flag(l)に1を代入する。一方、音声区間判定結果VAD(l)が0のとき、マスカー信号を生成しないと判定し、判定結果mask_flag(l)に0を代入するという式である。
【0107】
マスカー信号生成判定部211は、マスカー信号を生成するかしないかの判定結果mask_flag(l)をフレーム信号選択部206Aとマスカー信号生成部208Aに出力する。
【0108】
フレーム信号選択部206Aは、マスカー信号生成判定部211から出力されたマスカー信号を生成するかしないかの判定結果mask_flag(l)が1のときのみ、例えば、(7)式や(8)式に従いフレーム選択結果T(p)を選択する。一方、マスカー信号を生成するかしないかの判定結果mask_flag(l)が0のとき、複数フレーム選択しない。
【0109】
以上のように、フレーム信号選択部206は、マスカー信号を生成するかしないかの判定結果mask_flag(l)が1のときのみ、フレーム信号DB205に保持されている長時間フレーム信号から複数フレーム選択し、選定結果T(p)を遅延時間計算部207とマスカー信号生成部208Aに出力する。
【0110】
マスカー信号生成部208Aは、マスカー信号生成判定部211から出力されたマスカー信号を生成するかしないかの判定結果mask_flag(l)とフレーム信号選択部206の選択結果T(p)を基に、入力信号DB204のフレーム信号DB205から過去の長時間フレーム信号をマスカー素片信号として読み出し、遅延時間計算部207で計算された遅延量delay(l;p)だけ遅延さてマスカー信号を生成し出力する。マスカー信号生成部208Aは、例えば、(19)式に従い、マスカー信号ha(l;t)を生成する。
【数14】
【0111】
(19)式は、マスカー信号生成判定部211から出力されたマスカー信号を生成するかしないかの判定結果mask_flag(l)が1のときのみ、マスカー信号h(l;t)を生成しha(l;t)に代入する。一方、マスカー信号を生成するかしないかの判定結果mask_flag(l)が0のとき、ha(l;t)に0(無音)を代入するという式である。
【0112】
以上のように、マスカー信号生成部208Aは、マスカー信号を生成するかしないかの判定結果mask_flag(l)が1のときのみ、マスカー信号を生成する。
【0113】
そして、マスカー信号生成部208Aは、(20)式に従い、マスカー信号ha(l;t)をオーバーラップ加算処理して出力信号y(n)として音出力端子OUTに出力する。
【数15】
【0114】
(B-3)第2の実施形態の効果
以上のように、第2の実施形態によれば、第2の実施形態のサウンドマスキング装置100Aでは、生成したマスカー信号を人工的な音(機械的な音)にしないため、音声信号として認識できる程度の長さで入力信号DB204に蓄積し、入力信号DB204に蓄積されている過去の長時間フレーム信号を変形せずにマスカー素片信号として使用し、マスカー素片信号を遅延させてからマスカー信号を生成することで、対象話者の音声と生成したマスカー信号の相関が高くなりマスキング効果がより高くなるという効果を奏する。
【0115】
また、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB204のフレーム信号DB205に蓄積することで、音声区間のみ入力信号DB204に蓄積されるので、音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。さらに、音声区間と判定されたときのみマスカー信号を生成するので、対象話者U1の音声が入力されているときだけマスカー信号を生成し、出力することができるので、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
【0116】
(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
【0117】
(C-1)第3の実施形態の構成
図6は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図6では、上述の図1図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
【0118】
以下では、第3の実施形態について、第1、及び第2の実施形態との差異を中心に説明し、第1と第2の実施形態と重複する部分については説明を省略する。
【0119】
第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。
【0120】
サウンドマスキング処理部200Bでは、ピッチ推定部212が追加され、DB蓄積判定部210とマスカー信号生成判定部211がそれぞれDB蓄積判定部210Bとマスカー信号生成判定部211Bに置き換わっている点で、第2の実施形態と異なっている。
【0121】
第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部212が追加されたことにより分割フレーム信号のピッチを推定することが異なる点と、DB蓄積判定部210Bに置き換わったことにより入力信号DB204のフレーム信号DB205に蓄積される長時間フレーム信号の蓄積方法が異なる点と、マスカー信号生成判定部211Bに置き換わったことによりマスカー信号の生成方法が異なる点が第2の実施形態のサウンドマスキング装置100と異なる。
【0122】
サウンドマスキング処理部200Bの詳細な構成を説明する。
【0123】
サウンドマスキング処理部200Bは、フレーム分割部201、長時間フレーム信号作成部202、音声区間判定部209、ピッチ推定部212、DB蓄積判定部210B、DB書込み部203A、入力信号DB204、フレーム信号DB205、マスカー信号生成判定部211B、フレーム信号選択部206A、遅延時間計算部207、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有している。
【0124】
ピッチ推定部212は、音声区間判定部209から出力されるの音声区間判定の結果を基に、音声区間と判定されたときにのみ分割フレーム信号のピッチ(音声の高さ)を推定し、ピッチ推定結果(以下、「ピッチの推定値」と呼ぶ)を出力する。
【0125】
DB蓄積判定部210Bは、ピッチ推定部212のピッチの推定値を基に、分割フレーム信号を入力信号DB204のフレーム信号DB205に蓄積するか蓄積しないかを判定し、判定結果を出力する。
【0126】
マスカー信号生成判定部211Bは、ピッチ推定部212のピッチの推定値を基に、マスカー信号を生成するかしないかを判定し、判定結果を出力する。
【0127】
なお、第3の実施形態において、第1の実施形態と同様にマスカー信号生成判定部211Bを除外した構成としても良い。
【0128】
(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
【0129】
第3の実施形態に係るサウンドマスキング処理部200Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
【0130】
以下では、第2の実施形態と異なる点であるピッチ推定部212、DB蓄積判定部210B、マスカー信号生成判定部211Bにおける処理動作を中心に詳細に説明する。
【0131】
音声区間判定部209は、分割フレーム信号x_fram(l;m)が音声区間か非音声区間かを、例えば、(13)式から(15)式に従って判定し、音声区間判定結果VAD(l)をピッチ推定部212に出力する。
【0132】
ピッチ推定部212は、音声区間判定部209で音声区間と判定された分割フレーム(VAD(l)=1の分割フレーム)のみ、分割フレーム信号x_fram(l;m)のピッチを推定する。ピッチ推定部212がピッチを推定する具体的手法については限定されないものであり種々の方式を適用することができる。ピッチ推定部212は、例えば、(21)式から(23)式に従い判定する。
【数16】
【0133】
(21)式で、τ2(τ2=0、1・・・、L1-1)は自己相関の遅延量、(22)式で、fsはサンプリング周波数、tmp_pitch(l)は一時的にピッチの推定値を保持する変数、(23)式で、pitch(l)はピッチの推定値である。(21)式は、分割フレーム信号x_fram(l;m)の自己相関関数x_fram_corr(l;τ2)を求め、(22)式で、自己相関関数x_fram_corr(l;τ2)が最大になる遅延量τ2を求めてサンプリング周波数fsで割ることでピッチを推定し、一時的にtmp_pitch(l)に代入している。そして、(23)式で、音声区間判定結果VAD(l)が1のとき(音声区間のとき)ピッチの推定値pitch(l)にピッチの推定値を代入し、音声区間判定結果VAD(l)が0のとき(非音声区間のとき)ピッチの推定値pitch(l)に0を代入するという式である。
【0134】
なお、ピッチの推定手法は、種々の方法を広く適用することができ、例えば、分割フレーム信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。
【0135】
ピッチ推定部212は、ピッチの推定値pitch(l)をDB蓄積判定部210Bとマスカー信号生成判定部211Bに出力する。
【0136】
DB蓄積判定部210Bは、ピッチ推定部212のピッチの推定値pitch(l)を基に、長時間フレーム信号x_fram_long(s)を入力信号DB204のフレーム信号DB205に蓄積するかしないかを判定する。判定手段は、例えば、(24)式に従い判定する。
【数17】
【0137】
(24)式でDB_flag(l)は蓄積するかしないかの判定結果、TH_PITCHはDBに蓄積するかしないかの判定に用いられる閾値である。(24)式は、ピッチの推定値picth(l)が閾値TH_PITCHより値が大きければDBに蓄積すると判定し判定結果DB_flag(l)に1を代入する。一方,閾値TH_PITCHより値が小さければDBに蓄積しないと判定し判定結果DB_flag(l)に0を代入するという式である。
【0138】
閾値TH_PITCHは、DBに蓄積するかしないかを判定できれば良く、種々の方法を広く適用することができ、例えば、ピッチ推定部212でpicth(l)が0以外のときはDBに蓄積するとしてTH_PITCH=0としも良いし、人の音声の基本周波数の下限値(例えば、100Hz)以上としてTH_PITCH=100としても良い。
【0139】
DB蓄積判定部210Bは、DBに蓄積するかしないかの判定結果DB_flag(l)をDB書込み部203Aに出力する。
【0140】
マスカー信号生成判定部211Bは、ピッチ推定部212のピッチの推定値pitch(l)を基に、マスカー信号を生成するかしないかを判定する。判定手段は、例えば、(25)式に従い判定する。
【数18】
【0141】
(25)式で、mask_flag(l)はマスカー信号を生成するかしないかの判定結果、TH2_PITCHは蓄積するかしないかの判定に用いられる閾値である。(25)式は、ピッチの推定値picth(l)が閾値TH2_PITCHより値が大きければDBに蓄積すると判定し、判定結果DB_flag(l)に1を代入する。一方、閾値TH2_PITCHより値が小さければマスカー信号を生成しないと判定し、判定結果mask_flag(l)に0を代入するという式である。
【0142】
閾値TH2_PITCHは、DBに蓄積するかしないかを判定できれば良く、種々の方法を広く適用することができ、例えば、ピッチ推定部212でpicth(l)が0以外のときはDBに蓄積するとしてTH2_PITCH=0としも良いし、人の音声の基本周波数の下限値(例えば、100Hz)以上としてTH2_PITCH=100としても良い。また、蓄積判定部209Aで使用している(24)式の閾値TH_PITCHと同じとしてTH2_PITCH=TH_PITCHDBとしても良い。
【0143】
マスカー信号生成判定部211は、マスカー信号を生成するかしないかの判定結果mask_flag(l)をフレーム信号選択部206Aに出力する。
【0144】
(C-3)第3の実施形態の効果
以上のように、第3の実施形態によれば、第3の実施形態のサウンドマスキング装置100Bでは、生成したマスカー信号を人工的な音(機械的な音)にしないため、音声信号として認識できる程度の長さで入力信号DB204に蓄積し、入力信号DB204に蓄積されている過去の長時間フレーム信号を変形せずにマスカー素片信号として使用し、マスカー素片信号を遅延させてからマスカー信号を生成することで、対象話者の音声と生成したマスカー信号の相関が高くなりマスキング効果がより高くなるという効果を奏する。
【0145】
また、対象話者U1の音声のピッチを推定し、ピッチの推定値をDB蓄積判定部210Bやマスカー信号生成判定部211Bに使用することで、音声区間で有声音のみ入力信号DB204に蓄積されるので、音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。さらに、音声区間で有声音と判定されるときのみマスカー信号を生成するので、対象話者U1の音声が入力されているときだけマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
【0146】
(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
【0147】
(D-1)第4の実施形態の構成
図7は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図7では、上述の図1図5、及び図6と同一部分又は対応部分には、同一符号又は対応符号を付している。
【0148】
以下では、第4の実施形態について、第1、第2、及び第3の実施形態との差異を中心に説明し、第1、第2、及び第3の実施形態と重複する部分については説明を省略する。
【0149】
第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第2の実施形態と異なっている。
【0150】
サウンドマスキング処理部200Cでは、長時間ピッチ推定情報作成部213とピッチ情報DB214が追加されている点と、さらに、DB書込み部203Aと入力信号DB204とフレーム信号選択部206Aが、DB書込み部203Cと入力信号DB204Cとフレーム信号選択部206Cに置き換っている点で、第3の実施形態と異なっている。
【0151】
第4の実施形態のサウンドマスキング装置100Cでは、長時間ピッチ推定情報作成部213と、ピッチ情報DB214が追加され、入力信号DB204Cに置き換わったことにより、入力信号DBにピッチが蓄積されるようになった点と、DB書込み部203Cに置き換わったことにより入力信号DB204Cの蓄積方法が異なる点と、フレーム信号選択部206Cに置き換わったことによりとマスカー素片信号の選択方法が異なる点が第3の実施形態のサウンドマスキング処理部200Bと異なる。
【0152】
サウンドマスキング処理部200Cの詳細な構成を説明する。
【0153】
サウンドマスキング処理部200Cは、フレーム分割部201、長時間フレーム信号作成部202、音声区間判定部209、ピッチ推定部212、長時間ピッチ推定情報作成部213、DB蓄積判定部210B、DB書込み部203C、入力信号DB204C、フレーム信号DB205、ピッチ推定情報DB214、マスカー信号生成判定部211B、フレーム信号選択部206C、遅延時間計算部207、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有している。
【0154】
長時間ピッチ推定情報作成部213は、ピッチ推定部212で推定された分割フレームごとのピッチの推定値に基づいて長時間フレームのピッチ推定情報(以下、「長時間ピッチ推定情報」と呼ぶ)を作成し、長時間ピッチ推定情報を出力する。
【0155】
DB書込み部203Cは、DB蓄積判定部210BのDBに蓄積するか蓄積しないかを判定結果を基に、長時間フレーム信号を入力信号DB204Cのフレーム信号DB205に、長時間ピッチ推定情報を入力信号DB204Cのピッチ推定情報DB214に書込む。
【0156】
入力信号DB204Cは、過去の長時間フレーム信号と、過去の各長時間ピッチ推定情報を長時間フレーム毎に対応づけて蓄積(保持)する記憶手段である。入力信号DB204C内のデータ形式については限定されないものであるが、ここでは、入力信号DB204Cは、過去の長時間フレーム信号を蓄積したフレーム信号DB205と、過去の長時間ピッチ推定情報を蓄積したピッチ情報DB214で構成されているものとする。
【0157】
フレーム信号選択部206Cは、マスカー信号生成判定部211Bの判定結果と、ピッチ推定部212のピッチの推定値と入力信号DB204Cのピッチ推定情報DB214に蓄積されている過去の長時間ピッチ推定情報との比較結果を基に、入力信号DB204Cのフレーム信号DB205からマスカー素片信号を選択し、選択結果を出力する。
【0158】
なお、第4の実施形態において、第1の実施形態と同様にマスカー信号生成判定部211Bを除外した構成としても良い。
【0159】
(D-2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態に係る音響処理方法)について詳細に説明する。
【0160】
第4の実施形態に係るサウンドマスキング処理部200Cにおけるサウンドマスキング処理の基本的な動作は、第1、第3、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
【0161】
以下では、第3の実施形態と異なる点である長時間ピッチ推定情報作成部213、DB書込み部203C、入力信号DB204C、フレーム信号選択部206Cにおける処理動作を中心に詳細に説明する。
【0162】
ピッチ推定部212は、分割フレーム信号x_fram(l;m)のピッチを推定し、ピッチの推定値pitch(l)を長時間ピッチ推定情報作成部213とDB蓄積判定部210Bとマスカー信号生成判定部211Bとフレーム信号選択部206Cに出力する。
【0163】
長時間ピッチ推定情報作成部213は、ピッチ推定部212で推定された分割フレーム信号のピッチの推定値pitch(l)を結合して、長時間フレーム信号x_fram_long(s)の長時間ピッチ推定情報を作成する。長時間ピッチ推定情報作成部204は、例えば、(26)式に従い、ピッチの推定値を結合して長時間ピッチ推定情報pitch_long(i)を作成するようにしても良い。
【0164】
(26)式では、長時間フレーム信号を作成するときに使用されてた分割フレーム信号のピッチの推定値pitch(l)を結合して長時間ピッチ推定情報pitch_long(i)を作成する処理を行うことを示している。
【数19】
【0165】
そして、長時間ピッチ推定情報作成部213は作成した長時間ピッチ推定情報pitch_long(i)をDB書込み部203Cに出力する。DB書込み部203Cは、DB蓄積判定部210Bから出力された判定結果DB_flag(l)に基づいて、長時間フレームx_fram_long(t)と長時間ピッチ推定情報pitch_long(i)とを入力信号DB204のフレーム信号DB205とピッチ推定情報DB214に対応付けて書き込む。DB書込み部203Cは、DB蓄積判定部210Bから出力された判定結果DB_flag(l)が1のときのみ、例えば、(5)式、(27)式、(6)式に従い、長時間フレーム信号x_fram_long(t)をフレーム信号DB205のDB_singal(j;t)に書込まれ、同時に長時間ピッチ推定情報pitch_long(i)をピッチ推定情報DB214DB_pitch(i)に書込む。一方、DB蓄積判定部210Bの判定結果DB_flag(l)が0のとき、長時間フレーム信号x_fram_long(s)と長時間ピッチ推定情報pitch_long(i)を入力信号DB204Cのフレーム信号DB205とピッチ推定情報DB214に書込まない。
【数20】
【0166】
入力信号DB204Cは、長時間フレームx_fram_long(t)と長時間ピッチ推定情報pitch_long(i)とを入力信号DB204のフレーム信号DB205とピッチ推定情報DB214に対応付けて蓄積(保持)する。
【0167】
上述の通り、この実施形態の入力信号DB204Cには、フレーム信号DB205とピッチ情報DB214とが含まれている。ここでは、フレーム信号DB205に各長時間フレーム信号x_fram_long(t)が記録され、ピッチ情報DB214には、長時間ピッチ推定情報pitch_long(i)が記録されることになる。
【0168】
フレーム信号選択部206Cは、マスカー信号生成判定部211から出力されたマスカー信号を生成するかしないかの判定結果mask_flag(l)を基に、ピッチ推定部212のピッチの推定値(現在の分割フレームに基づくピッチ)と、入力信号DB204Cのピッチ情報DB214に蓄積されている過去の長時間ピッチ推定情報を比較し、ピッチ推定部212のピッチの推定値と近いピッチ情報(近いピッチの値)を持つ長時間フレーム信号をマスカー素片信号として選択する。フレーム信号選択部206Cは、マスカー信号生成判定部211から出力されたマスカー信号を生成するかしないかの判定結果mask_flag(l)が1のときのみ、例えば、(28)式や(29)式に従い、フレーム選択結果Tc(p)を選択する。一方、マスカー信号を生成するかしないかの判定結果mask_flag(l)が0のとき、フレーム選択結果Tc(p)を選択しない。
【数21】
【0169】
(28)式で、DB_pitch_ave(i)は過去の長時間ピッチ推定情報の平均値、(29)式で、Sub_pitch(j)はピッチの推定値pitch(l)と過去の長時間ピッチ推定情報の平均値とDB_pitch_ave(i)の差の絶対値、(30)式で、Tc(p)は選択したフレーム番号、p(p=0、1・・・、SEL_NUM-1)は、選択フレーム数である。また、(30)式のsmall(x(k)、p)は、配列x(k)でp番目に小さいx(k_p)のインデックスk_pを出力する関数である。(26)式と(27)式は、インデックスjごとにピッチ情報DB214に蓄積されている過去の長時間ピッチ推定情報の平均値DB_pitch_ave(i)を算出し、ピッチ推定部212のピッチの推定値pitch(l)と過去のピッチ推定情報の平均値DB_pitch_ave(i)の差の絶対値が最も小さいインデックスj(長時間フレーム)をマスカー素片信号として複数フレーム選択する式である。
【0170】
なお、フレーム信号選択部206Cは、ピッチ情報DB214に蓄積されている過去の長時間フレームごとに、長時間ピッチ推定情報に基づく当該長時間フレーム全体のピッチを示す値(以下、「長時間フレームピッチ」と呼ぶ)を算出し、ピッチ推定部212のピッチの推定値と長時間フレームピッチとの比較結果に基づいてマスカー素片信号として選択する長時間フレームを選択するようにしても良い。例えば、フレーム信号選択部206Cは、ピッチ推定部212のピッチの推定値と近い値の長時間フレームピッチを備える長時間フレームを、マスカー素片信号として選択するようにしても良い。
【0171】
以上のように、フレーム信号選択部206Cは、ピッチ推定部212のピッチの推定値と近いピッチ情報(近いピッチの値)を持つ長時間フレーム信号(インデックス)をマスカー素片信号として選定し、フレーム選択結果Tc(p)を出力する。
【0172】
(D-3)第4の実施形態の効果
以上のように、第4の実施形態によれば、第4の実施形態のサウンドマスキング装置100Cでは、生成したマスカー信号を人工的な音(機械的な音)にしないため、音声信号として認識できる程度の長さで入力信号DB204Cに蓄積し、入力信号DB204Cに蓄積されている過去の長時間フレーム信号を変形せずにマスカー素片信号として使用し、マスカー素片信号を遅延させてからマスカー信号を生成することで、対象話者の音声と生成したマスカー信号の相関が高くなりマスキング効果がより高くなるという効果を奏する。
【0173】
また、対象話者U1の音声のピッチを推定し、ピッチの推定値から長時間ピッチ情報を作成して入力信号DB204Cに蓄積し、フレーム信号選択部で使用することで、ピッチが近い長時間フレーム信号をフレーム信号DB205から選択することができ、スカー信号の周波数特性が対象話者U1の音声のピッチに近くなり、マスキング効果が高いマスカー信号を生成することができる。
【0174】
(E-1)第5の実施形態の構成
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第5の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
【0175】
(E-1)第5の実施形態の構成
図8は、第5の実施形態に係るサウンドマスキング装置100Dの機能的構成について示したブロック図である。図8では、上述の図1図5図6、及び図7と同一部分又は対応部分には、同一符号又は対応符号を付している。
【0176】
以下では、第5の実施形態について、第1、第2、第3、及び第4の実施形態との差異を中心に説明し、第1、第2、第3、及び第4の実施形態と重複する部分については説明を省略する。
【0177】
第5の実施形態のサウンドマスキング装置100Dでは、サウンドマスキング処理部200Cがサウンドマスキング処理部200Dに置き換わっている点で、第2の実施形態と異なっている。
【0178】
サウンドマスキング処理部200Dでは、遅延時間計算部207が遅延時間計算部207Dに置き換っている点で、第4の実施形態と異なっている。
【0179】
第5の実施形態のサウンドマスキング装置100Dでは、遅延時間計算部207Dに置き換わったことにより、遅延時間の計算方法が異なる点が第4の実施形態のサウンドマスキング処理部200Cと異なる。
【0180】
サウンドマスキング処理部200Dの詳細な構成を説明する。
【0181】
サウンドマスキング処理部200Dは、フレーム分割部201、長時間フレーム信号作成部202、音声区間判定部209、ピッチ推定部212、長時間ピッチ推定情報作成部213、DB蓄積判定部210B、DB書込み部203C、入力信号DB204C、フレーム信号DB205、ピッチ推定情報DB214、マスカー信号生成判定部211B、フレーム信号選択部206C、遅延時間計算部207D、マスカー信号生成部208A、音入力端子IN、及び音出力端子OUTを有している。
【0182】
遅延時間計算部207Dは、フレーム信号選択部206Cで選択された長時間フレームをマスカー素片信号として入力信号DB205の信号DB206から読み出し、読みだしたマスカー素片信号と現在の分割フレーム信号に基づいてマスカー素片信号の遅延時間をマスキング効果が最も高くなるように計算し、計算した遅延時間を出力する。
【0183】
なお、第5の実施形態において、第1の実施形態と同様にマスカー信号生成判定部211Bを除外した構成としても良い。
【0184】
(E-2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態におけるサウンドマスキング装置100Dの動作(実施形態に係る音響処理方法)について詳細に説明する。
【0185】
第5の実施形態に係るサウンドマスキング処理部200Dにおけるサウンドマスキング処理の基本的な動作は、第1、第2、第3、及び第4の実施形態で説明したサウンドマスキング処理と同様である。
【0186】
以下では、第4の実施形態と異なる点である遅延時間計算部207Dにおける処理動作を中心に詳細に説明する。
【0187】
ピッチ推定部212は、分割フレーム信号x_fram(l;m)のピッチを推定し、ピッチの推定値を長時間ピッチ推定情報作成部213とDB蓄積判定部210Bとマスカー信号生成判定部211Bとフレーム信号選択部206C、遅延時間計算部207Dに出力する。
【0188】
遅延時間計算部207Dは、フレーム信号選択部206Cで選定されたマスカー素片信号として選択された長時間フレーム信号を入力信号DB204Cのフレーム信号DB205から読出し、ピッチ推定部212のピッチの推定値と入力信号DB204Cのピッチ推定情報DB214DB_pitch(j;i)に基づいて、マスカー素片信号の遅延時間をマスキング効果が最も高くなるように計算し、計算した遅延時間を出力する。遅延時間計算部207D、例えば、(29)式と(32)式に従い、遅延量delay_D(l;p)を算出するようにしても良い。
【数22】
【0189】
(31)式で、Sub_pitch2(p;l)はピッチの推定値pitch(l)と過去の長時間ピッチ推定情報DB_pitch(j;i)の差の絶対値、delay_D(l;p)は算出した遅延量である。(31)式と(32)式は、ピッチの推定値pitch(l)と過去の長時間ピッチ推定情報DB_pitch(j;i)の差の絶対値Sub_pitch2(p;l)が最も小さいインデックスiを遅延量とし、遅延量delay_D(l;p)に代入するという式である。
【0190】
遅延時間計算部207Dは、算出した遅延量delay_D(l;p)をマスカー信号生成部210に供給する。
【0191】
(E-3)第1の実施形態の効果
以上のように、第5の実施形態によれば、第5の実施形態のサウンドマスキング装置100Dでは、生成したマスカー信号を人工的な音(機械的な音)にしないため、音声信号として認識できる程度の長さで入力信号DB204Cに蓄積し、入力信号DB204Cに蓄積されている過去の長時間フレーム信号を変形せずにマスカー素片信号として使用し、マスカー素片信号を遅延させてからマスカー信号を生成することで、対象話者の音声と生成したマスカー信号の相関が高くなりマスキング効果がより高くなるという効果を奏する。
【0192】
また、対象話者U1の音声のピッチを推定し、ピッチの推定値から長時間ピッチ情報を作成して入力信号DB204Cに蓄積し、遅延時間計算部207Dで使用することで、ピッチが近くなるようにマスカー素片信号を遅延する出来るようになり、マスキング効果が高いマスカー信号を生成することができる。
【0193】
(F)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0194】
(F-1)例えば、上記の実施形態のサウンドマスキング装置100を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止する装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。
【0195】
(F-2)上記の実施形態において、サウンドマスキング装置100の、サウンドマスキング処理部200は、ネットワーク上の処理装置(例えば、サーバなど)で処理される構成としても良い。
【0196】
(F-3)上記の実施形態において、サウンドマスキング装置100には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置100からオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置100には、少なくともサウンドマスキング処理部200が含まれる構成としても良い。
【0197】
(F-4)上記の実施形態のサウンドマスキング装置100では、複数の分割フレームを用いて長期フレームを構成しているが、マイク入力信号から直接同様の長期フレームを取得して入力信号DB204(フレーム信号DB205)に蓄積するようにしても良い。その際、長時間ピッチ推定情報作成部213は、長期フレームを1つのフレームとみなして、分割フレームと同様の処理によりピッチを推定する処理を行い、その推定結果を長時間ピッチ推定情報として入力信号DB204(ピッチ推定情報DB214)に蓄積するようにしても良い。
【符号の説明】
【0198】
100、100A、100B、100C、100D…サウンドマスキング装置、101…マイク、102…マイクアンプ、103…AD変換器、104…DA変換器、106…スピーカ、105…スピーカアンプ、200、200A、200B、200C、200D…サウンドマスキング処理部、201…フレーム分割部、202…長時間フレーム信号作成部203、203A、203C…DB書込み部、204、204C…入力信号DB、205…フレーム信号DB、206、206A、206C…フレーム信号選択部、207、207D…遅延時間計算部、208、208A…マスカー信号生成部、209…音声区間判定部、210、210B…DB蓄積判定部、211、211B…マスカー信号生成判定部、212…ピッチ推定部、213…長時間ピッチ推定情報作成部、214…ピッチ推定情報DB、IN…音入力端子、OUT…音出力端子、300…コンピュータ、301…プロセッサ、302…一次記憶部、303…二次記憶部。
図1
図2
図3
図4
図5
図6
図7
図8