(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】発話の音声マスキング
(51)【国際特許分類】
G10K 11/175 20060101AFI20241112BHJP
H04R 1/02 20060101ALI20241112BHJP
B60R 11/02 20060101ALI20241112BHJP
【FI】
G10K11/175
H04R1/02 102B
B60R11/02 S
B60R11/02 M
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024524500
(86)(22)【出願日】2022-10-18
(85)【翻訳文提出日】2024-06-04
(86)【国際出願番号】 EP2022078926
(87)【国際公開番号】W WO2023066908
(87)【国際公開日】2023-04-27
(32)【優先日】2021-10-18
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2022-10-17
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】524150753
【氏名又は名称】オーディオ モービル エレクトロニク ゲーエムベーハー
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】ストッタン, トーマス
(72)【発明者】
【氏名】ハティーア, トーマス
(72)【発明者】
【氏名】ゾンタッキ, アロイス
【テーマコード(参考)】
3D020
5D017
5D061
【Fターム(参考)】
3D020BA02
3D020BA10
3D020BB01
3D020BC11
3D020BD03
3D020BD05
3D020BE03
5D017AE18
5D061FF02
(57)【要約】
【課題】ゾーンベース音声システムにおいて、会話の望ましくない漏聞を減少し、かつ同時に不快な障害を示さないマスキング信号を生成すること。
【解決手段】ゾーンベース音声システムでスピーチ信号をマスキングする方法であって、音声ゾーンでマスキングすべきスピーチ信号を検出することと、当該検出されたスピーチ信号をスペクトル帯域に変換することと、少なくとも2つのスペクトル帯域のスペクトル値を整流することと、整流されたスペクトル値に基づいてノイズ信号を生成することと、ノイズ信号を他の音声ゾーンのスピーチ信号のマスキング信号として出力することとを含む。
【選択図】
図5
【特許請求の範囲】
【請求項1】
ゾーンベース音声システムでスピーチ信号をマスキングする方法であって、
音声ゾーンでマスキングすべきスピーチ信号を検出することと、
前記検出されたスピーチ信号をスペクトル帯域に変換することと、
少なくとも2つのスペクトル帯域のスペクトル値を整流することと、
前記整流されたスペクトル値に基づいてノイズ信号を生成することと、
前記ノイズ信号を他の音声ゾーンの前記スピーチ信号のマスキング信号として出力することとを含む、方法。
【請求項2】
前記整流されたスペクトル値に基づいてノイズ信号を生成することが、
広帯域ノイズ信号を生成することと、
前記生成されたノイズ信号を前記周波数領域に変換することと、
前記整流されたスペクトル値を考慮しながら、前記ノイズ信号の前記周波数表現を前記スピーチ信号の周波数表現で乗算することと
を含む、請求項1に記載の方法。
【請求項3】
前記スピーチ信号の前記周波数表現が、スペクトル値の整流に続く前記帯域の前記スペクトル値を補間することによって生成される、請求項2に記載の方法。
【請求項4】
背景ノイズスペクトルを推定することと、
前記スピーチ信号のスペクトル値を前記背景ノイズスペクトルと比較することと、
前記背景ノイズスペクトルの対応するスペクトル値よりも大きい前記スピーチ信号のスペクトル値を専ら考慮することと
をさらに含む、先行する請求項の1つに記載の方法。
【請求項5】
前記検出されたスピーチ信号が、前記スピーチ信号のブロックのスペクトル帯域へと、かつメルフィルタバンクによって変換され、かつオプションとして前記メルバンドの前記スペクトル値の時間的平滑化が実行される、先行する請求項の1つに記載の方法。
【請求項6】
前記ノイズ信号が、マルチチャンネル再生によって、好ましくは音響伝達関数の両耳スペクトルによる乗算によって、前記出力において空間的に表現される、先行する請求項の1つに記載の方法。
【請求項7】
前記ノイズ信号が、マスキングすべき前記スピーチ信号の前記話者の前記卓越方向から発しているように思われるように、前記他の音声ゾーンで空間的に出力される、請求項6に記載の方法。
【請求項8】
発話明瞭度に関連する前記スピーチ信号の時点を決定することと、
決定された前記時点の撹乱信号を生成することと、
前記決定された時点の前記撹乱信号を前記他の音声ゾーンの別のマスキング信号として出力すること
をさらに含む、先行する請求項の1つに記載の方法。
【請求項9】
発話明瞭度に関連する前記時点が、前記スピーチ信号のスペクトル関数の極値を使用して決定され、前記スペクトル関数が、前記周波数軸上で、オプションで平均化された、スペクトル値の加算に基づいて決定される、請求項8に記載の方法。
【請求項10】
発話明瞭度に関連する時点が、ゼロ交差率、短時間エネルギー及び/又はスペクトル重心のような前記スピーチ信号のパラメータを使用して検証される、請求項8又は9に記載の方法。
【請求項11】
前記特定の時点の前記撹乱信号が、所定の撹乱信号の集合からランダムに選択され、並びに/又はスペクトル特性及び/若しくはそのエネルギーの点で前記スピーチ信号に適合される、請求項8~10の1つに記載の方法。
【請求項12】
ゾーンベース音声システムでスピーチ信号をマスキングする方法であって、
音声ゾーンでマスキングすべきスピーチ信号を検出することと、
発話明瞭度に関連する前記スピーチ信号の時点を決定することと、
決定された前記時点について撹乱信号を生成し、前記撹乱信号が、スペクトル特性及び/又はそのエネルギーの点で前記スピーチ信号に適合されることと、
前記撹乱信号を他の音声ゾーンにおける前記特定の時点のマスキング信号として出力することとを含む、方法。
【請求項13】
発話明瞭度に関連する前記時点が、前記スピーチ信号のスペクトル関数の極値を使用して決定され、前記スペクトル関数が、前記周波数軸上の、オプションで平均化された、スペクトル値の加算に基づいて決定される、請求項12に記載の方法。
【請求項14】
発話明瞭度に関連する前記時点が、ゼロ交差率、短時間エネルギー及び/又はスペクトル重心のような前記スピーチ信号のパラメータを使用して検証される、請求項12又は13に記載の方法。
【請求項15】
前記特定の時点の前記撹乱信号が、所定の撹乱信号の集合からランダムに選択される、請求項12~14の1つに記載の方法。
【請求項16】
前記キャプチャされたスピーチ信号をスペクトル帯域に変換することと、
少なくとも2つのスペクトル帯域の前記スペクトル値を整流することと、
前記整流されたスペクトル値に基づいてノイズ信号を生成することと、
前記ノイズ信号を前記他の音声ゾーンにおける前記スピーチ信号のための追加のマスキング信号として出力することと
をさらに含む、請求項12~15の1つに記載の方法。
【請求項17】
前記整流されたスペクトル値に基づいてノイズ信号を生成することが、
広帯域ノイズ信号を生成することと、
前記生成されたノイズ信号を前記周波数領域に変換することと、
前記整流されたスペクトル値を考慮しながら、前記ノイズ信号の前記周波数表現を前記スピーチ信号の周波数表現で乗算することと
を含む、請求項16に記載の方法。
【請求項18】
背景ノイズスペクトルを推定することと、
前記スピーチ信号のスペクトル値を前記背景ノイズスペクトルと比較することと、
前記背景ノイズスペクトルの対応するスペクトル値より大きい前記スピーチ信号のスペクトル値のみを考慮することと
をさらに含む、請求項16~17の1つに記載の方法。
【請求項19】
前記キャプチャされたスピーチ信号のスペクトル帯域への変換は、前記スピーチ信号のブロックについてのものであり、メルフィルタバンクを使用して実行され、オプションとして前記メルバンド用の前記スペクトル値の時間的平滑化が実行される、請求項16~18の1つに記載の方法。
【請求項20】
前記マスキング信号が、好ましくは音響伝達関数の両耳スペクトルによる乗算によって、前記他の音声ゾーンにおけるマルチチャンネル再生を使用した前記出力において、空間的に表現される、請求項1~19の1つに記載の方法。
【請求項21】
前記マスキング信号が、前記他の音声ゾーンでランダムな方向から、かつ/又はリスナーの頭部付近から発しているように思われるように、前記他の音声ゾーンで空間的に出力される、請求項20に記載の方法。
【請求項22】
マスキングすべきスピーチ信号を受信し、かつ前記スピーチ信号に基づいて前記マスキング信号を生成するゾーンベース音声システムでマスキング信号を生成する装置であって、
前記検出されたスピーチ信号をスペクトル帯域に変換する手段と、
少なくとも2つのスペクトル帯域のスペクトル値を整流する手段と、
前記整流されたスペクトル値に基づくマスキング信号としてノイズ信号を生成する手段とを備える、装置。
【請求項23】
発話明瞭度に関連する前記スピーチ信号における時点を決定する手段と、
前記時点についての撹乱信号を生成する手段と、
前記ノイズ信号と前記撹乱信号を加算し、かつ当該合算信号をマスキング信号として出力する手段と
をさらに備える、請求項22に記載の装置。
【請求項24】
音声ゾーンでマスキングすべきスピーチ信号を受信し、かつ前記スピーチ信号に基づいてマスキング信号を生成する、ゾーンベース音声システムでマスキング信号を生成する装置であって、
発話明瞭度に関連する前記スピーチ信号における時点を決定する手段と、
前記関連する時点についての撹乱信号を生成する手段であって、前記撹乱信号が、スペクトル特性及び/又はそのエネルギーに関して前記スピーチ信号に適合される手段と、
前記撹乱信号を、他の音声ゾーンにおける前記特定の時点のマスキング信号として出力する手段と
を備える、装置。
【請求項25】
前記検出されたスピーチ信号をスペクトル帯域に変換する手段と、
少なくとも2つのスペクトル帯域のスペクトル値を整流する手段と、
前記整流されたスペクトル値に基づくマスキング信号としてノイズ信号を生成する手段と、
前記ノイズ信号と前記撹乱信号を加算し、かつ当該合算信号をマスキング信号として出力する手段と
をさらに備える、請求項24に記載の装置。
【請求項26】
前記マスキング信号のマルチチャネル表現を生成して、前記マスキング信号の空間的再生を可能にする手段をさらに備える、請求項22~25の1つに記載の装置。
【請求項27】
複数の音声ゾーンを備えるゾーンベース音声システムであって、
1つの音声ゾーンが、スピーチ信号を検出するための少なくとも1つのマイクロフォンを備え、他の音声ゾーンが、少なくとも1つのラウドスピーカを備え、前記マイクロフォン及びラウドスピーカは、好ましくは車両の乗客用の座席のヘッドレストに配置され、前記音声システムが、請求項22~26に記載のマスキング信号を生成するための装置であって、前記1つの音声ゾーンのマイクロフォンからスピーチ信号を受信し、かつ前記マスキング信号を前記他の音声ゾーンの前記1つまたは複数のラウドスピーカに送信する装置を備える、ゾーンベース音声システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ゾーンベース音声システムにおける発話用のマスキング信号の生成に関する。
【背景技術】
【0002】
従来技術の通信手段及びその対象範囲が絶えず増大していることにより、例えば電話の通話形態で、ほぼあらゆる場所での通信が可能になっている。公共の場では、他の人がこのような通話を漏れ聞いてその内容を理解できることが多い。これは、機密性の高いプライベート又はビジネスの通話では特に問題となる。このような状況は、電車や飛行機などの公共交通機関で発生する可能性があるが、タクシーやレンタルリムジンなどのプライベートな車両でも発生する可能性がある。これらの場合、話者に加えて、例えば、割り当てられた座席には他の人がいる。このような座席は、関連する音声システム又は少なくともその部品を有していることが多い。例えば、これらの座席には、例えばヘッドレストに一体化された、音声内容を個別に再生するためのラウドスピーカを設けることができ、これはゾーンベース音声システムとも呼ばれる。
【0003】
電話の会話に加えて、望ましくない漏れ聞きの問題は、人と人との会話でも発生する可能性がある。例えば、タクシーの後部座席にいる2人の乗客が、運転手によって聞かれることが望ましくない機密事項について話している場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術では、大きなノイズを再生することによって、望ましくない漏聞を減少できることが知られている。しかし、これは関係者全員のノイズレベルを増加し、不快な障害として認識されるため、注意力や反応能力にも影響を及ぼす可能性があり、これは道路交通においては特に望ましくない。
【0005】
本発明の技術的目的は、ゾーンベース音声システムにおいて、会話の望ましくない漏聞を減少し、かつ同時に不快な障害を示さないマスキング信号を生成することである。
この目的は、独立項の特徴によって解決されるであろう。有利な実施形態は、従属項に記載される。
【課題を解決するための手段】
【0006】
第1の態様によれば、ゾーンベース音声システムにおいてスピーチ信号をマスキングする方法が開示される。この方法は、音声ゾーンにおいてマスキングすべきスピーチ信号を、例えば、座席のヘッドレストに配置し得る1つ以上の適切に配置されたマイクロフォンによって検出することを含む。スピーチ信号は、電話での会話のローカルスピーカーから発せられるか、又はその場にいる人々の間の会話に属することができる。次に、検出されたスピーチ信号は、例えば、FFT及びメルフィルタを使用して実行することができる、スペクトル帯域に変換される。この方法はまた、少なくとも2つのスペクトル帯域のスペクトル値を整流することを伴い、これは、その全体のエネルギー含有量を変更することなくスピーチ信号のスペクトル構造を変更する。次に、ノイズ信号(可能な限り広い帯域)が、整流されたスペクトル値に基づいて生成される。生成されたノイズ信号は、スピーチ信号のスペクトルとある種の類似性を示すが、スピーチ信号のスペクトル構造が帯域の整流によってもはや完全には保存されないため、完全には一致しない。スピーチ信号と類似しているが同一ではないスペクトルを有するこのようなノイズ信号は、スピーチ信号のマスキング信号としてよく適している。また、留意すべき点として、任意の数の帯域(例えば、それらのすべて)を整流することができ、帯域の整流が増える結果として、ノイズスペクトルの変動が大きくなる。最後に、ノイズ信号は、他の音声ゾーンにおいて可能な限り低いエネルギー入力でマスキング信号として出力され、傍聴位置にいる人の発話明瞭度を下げることによって会話を漏聞することをより困難にする。
【0007】
整流されたスペクトル値に基づいてノイズ信号を生成することは、例えばノイズジェネレータを使用して広帯域ノイズ信号を生成し、かつ生成されたノイズ信号を周波数領域に変換することを伴うことができる。さらに、整流されたスペクトル値を考慮しながら、ノイズ信号の周波数表現とスピーチ信号の周波数表現との乗算を行うことができる。周波数領域での乗算は、スペクトル帯域が整流された後で、スピーチ信号のノイズスペクトルに本質的に対応するノイズスペクトルを生成する、すなわち、発話スペクトルとは類似しているが同一ではない。同様の効果は、時間領域の畳み込みによっても達成することができる。
【0008】
スピーチ信号の周波数表現は、スペクトル値を整流した後で、帯域のスペクトル値を補間することによって(例えば、メル範囲に存在するように)生成することができる。帯域の(比較的少ない)スペクトル値からの補間は、ノイズスペクトルで乗算するための周波数サポート値で必要な値を生成する。
【0009】
この方法は、背景ノイズスペクトルを(好ましくは傍聴位置で)推定することと、スピーチ信号のスペクトル値を背景ノイズスペクトルと比較することとをさらに含む。スペクトル値の比較は、スペクトル帯域(例えば、メルバンド)の範囲で行われることが好ましい(しかし必須ではない)が、これは、背景ノイズスペクトルもスペクトル帯域に表示されなければならないことを意味する。さらに、背景ノイズスペクトルの対応するスペクトル値よりも大きい(又は所定の比率である)スピーチ信号のスペクトル値のみを、追加の手順(例えば、上述の補間)のために考慮することができる。背景ノイズによって既にマスキングされているスピーチ信号のスペクトル成分は、マスキング信号の生成について考慮する必要はなく、マスキングすることができる(例えば、それらを0に設定することによって)。背景ノイズの考慮は、スペクトル値の整流の前と後の両方で行うことができる。前者の場合、比較されるスペクトル帯域は依然として正確に一致し、背景ノイズは正しく取られる。後者の場合、スピーチ信号における帯域の整流と低エネルギー帯域のマスキングは、ノイズスペクトルに追加の変動をもたらし、この結果、マスキングの増加となり得る。これにより、背景又は環境に適合されたマスキング信号を可能にし、漏聞者の音声ゾーンにおいて可能な限り最も低いエネルギー入力で出力することができる。
【0010】
キャプチャされたスピーチ信号のスペクトル帯域への変換は、メルフィルタバンクを使用してスピーチ信号のブロックに対して実行することができる。オプションとして、例えば浮動平均の形で、メルバンドのスペクトル値の時間的平滑化を実行することができる。
【0011】
本発明の別の実施形態では、マルチチャネル(すなわち、少なくとも2チャネル)の再生を使用して、ノイズ信号を出力において空間的に表現することができる。この目的のために、マスキング信号の空間的再生を可能にするマスキング信号のマルチチャネル表現を生成することができる。2チャネルシステムの場合、これは、音響伝達関数の両耳スペクトルによる乗算によって好適に実行可能である。空間的再生は、特に他の音声ゾーンにおけるノイズ信号が、マスキングすべきスピーチ信号の話者の方向から発しているように思われるように、空間内で出力される場合に、傍聴位置における発話を不明瞭にするマスキング信号の効果を増大させる。
【0012】
スピーチ信号に適合された広帯域ノイズ信号に基づく上記のマスキング信号に加えて、マスキング信号用に別の成分を生成することができ、これは第2の音声ゾーンの漏聞者に対して共に出力される。この目的のために、前記方法は、発話明瞭度(例えば、スピーチ信号における子音の存在)に関連するスピーチ信号内の時点を決定し、かつ特定の時点について適切な撹乱信号を生成することを含むことができる。そして、特定の時間における撹乱信号の出力は、他の音声ゾーン内の別のマスキング信号として発生し得るものであり、よって、発話オンセット時の会話の内容の選択的な追加の不明瞭化(マスキング)を提供する。撹乱信号は、特定の関連する時点でのみ発信されるので、全体的な音レベルを有意に増加させず、有意な障害を引き起こさない。
【0013】
発話明瞭度に関連する時点は、スピーチ信号のスペクトル関数の極値(例えば、局所的最大値、オンセット)を使用して決定することができ、スペクトル関数は、周波数軸を越えたスペクトル値の加算に基づいて決定される。スペクトル値は、時間方向及び/又は周波数方向で事前に平滑化することができる。周波数軸を越えてスペクトル値を加算した後で、合計値をオプションで対数化することができる。関連する時点の検出のための局所的最大値を生成するために、オプションで対数化された、合計値を時間微分することができる。
【0014】
さらに、発話明瞭度に関連する時点は、ゼロ交差率、短時間エネルギー、及び/又はスペクトル重心などのスピーチ信号のパラメータを使用して検証することができる。また、事前に定義された最小タイムスパンを必要とするような、極値についての制限を受けることも可能である。
【0015】
次に、特定の時間についての撹乱信号を、所定の撹乱信号の集合からランダムに選択することができる。これらは、選択の準備ができたメモリに維持することができる。撹乱信号が、スペクトル特性及び/又はそのエネルギーに関してスピーチ信号に適合されると有利であることが判明している。このようにして、撹乱信号のスペクトル重心を、例えば単側波帯変調によって、特定の時間における対応する発話セグメントのスペクトル重心に適合させることができる。従って、高いスペクトル重心を有する発話セグメントは、同じくらい高いスペクトル重心(場合によっては、同じスペクトル重心である可能性さえある)を有する撹乱信号を使用してマスキングすることができ、これにより、より高いマスキング効果が得られる。大きすぎて過度に妨害するマスキング信号を生成しないようにするために、撹乱信号のエネルギーを発話セグメントのエネルギーに適合させることもできる。
【0016】
本発明の別の実施形態では、撹乱信号は、マルチチャネル空間再生を使用して、好ましくは音響伝達関数の両耳スペクトルによる乗算を使用して、出力で表すことができ、それによって、撹乱信号の空間再生を可能にする撹乱信号のマルチチャネル(少なくとも2チャネル)の表現を生成する。空間再生は、特に他の音声ゾーン内の撹乱信号が他の音声ゾーン内のランダムな方向からかつ/又はリスナーの頭部の近くから発しているように思われるような方法で空間的に出力される場合、共聴位置での発話難読化に対する撹乱信号の効果を増大させる。この空間化は、発話及び撹乱信号の識別可能性を減少させ、又は撹乱信号によりスピーチ信号を漏聞することをより困難にし、従って、撹乱信号のエネルギーを減少させることができる。
【0017】
上述のスピーチ信号処理及びマスキング信号生成は、デジタル領域で行うことが好ましい。この目的のためには、アナログ・デジタル変換及びデジタル・アナログ変換のような本明細書では詳細に説明しないステップが必要であるが、本開示を検討した当業者には明らかであろう。さらに、上述の方法の全部又は一部は、特に必要に応じてデジタル信号処理装置及びアナログ・デジタル変換器を備えるプログラム可能な装置を使用して実現することができる。
【0018】
本発明の別の態様によれば、マスキングすべきスピーチ信号を受信して、かつスピーチ信号に基づいてマスク信号を生成するゾーンベース音声システムにおいてマスキング信号を生成するための装置が提案される。この装置は、検出されたスピーチ信号をスペクトル帯域に変換する手段と、スペクトル値を少なくとも2つのスペクトル帯域から整流する手段と、整流されたスペクトル値に基づくマスキング信号としてノイズ信号を生成する手段とを備える。
【0019】
そこに記載される通りの方法の上記実施形態は、この装置にも適用することができる。従って、この装置はさらに、発話明瞭度に関連するスピーチ信号における時点を決定する手段と、当該関連する時点について撹乱信号を生成する手段と、ノイズ信号と撹乱信号を加算し、その合算信号をマスキング信号として出力する手段とを備えることができる。
【0020】
本装置の別の実施形態では、この装置は、マスキング信号のマルチチャネル表現を生成する手段も備え、マスキング信号の空間的再生を可能にする。
【0021】
本発明のさらに別の態様によれば、複数の音声ゾーンを有するゾーンベース音声システムが開示され、少なくとも1つの音声ゾーンは、ボイス信号を検出するためのマイクロフォンを備え、他の音声ゾーンは、少なくとも1つのラウドスピーカを備える。マイクロフォン及びラウドスピーカは、車両の乗客用のシートのヘッドレストに配置することができる。また、両方の音声ゾーンがマイクロフォン及びラウドスピーカを有することも可能である。音声システムは、上記の通りマスキング信号を生成する装置を有し、当該装置は、前記1つの音声ゾーンのマイクロフォンからスピーチ信号を受信し、マスキング信号を他の音声ゾーンの1つ又は複数のラウドスピーカに送信する。
【0022】
本開示のさらに別の態様は、上述の通り上述のノイズ信号とは独立してマスキング信号として撹乱信号を生成することに関する。ゾーンベース音声システムにおいてスピーチ信号をマスキングするための適切な方法は、1つの音声ゾーンにおいてマスキングすべきスピーチ信号を検出することと、発話明瞭度に関連するスピーチ信号における時点を決定することと、決定された時点について撹乱信号を生成することであって、この撹乱信号は、スペクトル特性及び/又はそのエネルギーに関してスピーチ信号に適合させ得ることと、他の音声ゾーンにおいてマスキング信号として決定された時点で撹乱信号を出力することとを含む。本方法の可能な実施形態は、生成されたノイズ信号と組み合わせた上記の実施形態に対応する。
【0023】
ゾーンベース音声システムにおいて撹乱信号をマスキング信号として生成するための適切な装置も開示されており、この装置は、マスキングすべきスピーチ信号を受信し、かつスピーチ信号に基づいてマスキング信号を生成する。この装置は、発話明瞭度に関連するスピーチ信号における時点を決定する手段と、関連する時点について撹乱信号を生成する手段であって、スペクトル特性及び/又はそのエネルギーに関して撹乱信号をスピーチ信号に適合させ得る手段と、撹乱信号をマスキング信号として出力する手段とを備える。オプションとして、マスキング信号のマルチチャネル表現を生成する手段を提供することができ、マスキング信号の空間再生を可能にする。
【0024】
上記の特徴は、このような組み合わせが特に言及されていない場合でも、多くの方法で互いに組み合わせることができる。特に、方法について説明されている特徴は、関連する装置にも使用でき、その逆も可能である。
【図面の簡単な説明】
【0025】
以下では、本発明の実施形態について、概略図を参照しながら詳細に説明する。
【
図1】ゾーンベース音声システムの一例の概略図である。
【
図2】ゾーンベース音声システムの別の例の概略図である。
【
図3】2つのゾーンを有するゾーンベース音声システムの別の例の概略図である。
【
図4】数個のゾーンを有するゾーンベース音声システムの別の例の概略図である。
【
図5】発話難読化用の広帯域マスキング信号を生成するためのブロック図の一例である。
【
図6】発話難読化用の撹乱信号を生成するためのブロック図の一例である。
【発明を実施するための形態】
【0026】
下記の実施形態は限定的なものではなく、純粋に例示的なものである。例示的な目的のために、下記の実施形態は、本発明に必須ではない追加の要素を含む。本発明の範囲は、添付の請求項の範囲によってのみ定義される。
【0027】
以下の実施形態は、任意の座席位置にいる車両の乗客が、車両外の他の人との電話など、邪魔されないプライベートな会話を行うことを可能にする。この目的のために、音声マスキング信号が生成され、他の車両の乗客に提供されて、これにより、他の乗客が会話を聞くことが防止され、プライベートな会話を聞くことがより困難に、最善の状態では不可能になるようにする。このようにして、話者のプライバシーが形成され、話者は、他の車両の乗客が機密情報を傍受できるリスクなしに邪魔されずにプライベートな会話を行うこともできる。会話は、例えば、電話通話又は車両の乗客間の会話であり得る。後者の場合、2人の話者は、他の乗客が理解できないようなスピーチ信号を交互に発信するが、当然ながら、2人の会話参加者間の発話明瞭度が損なわれるべきではない。
【0028】
同様の状況は、一般的に、複数の人が部屋の音響ゾーン又は音響環境内に位置し、それぞれが個別の音響再生装置によって音が提供される場合に生じる。例えば、このような音響ゾーンは、車両、電車、バス、飛行機、フェリーなどの輸送手段に存在することができ、そこで乗客は、それぞれが音響再生装置を備えた座席に位置する。しかし、プライベートな音響ゾーンを作成するために提案されたアプローチは、これらの例に限定されない。これは、より一般的には、複数の人が部屋のそれぞれの場所(例えば、劇場や映画館の座席)に位置し、個別の音響再生手段によって音に晒される可能性があり、かつ他の人たちによって理解されることを意図しない発話の話者のスピーチ信号をキャプチャすることが可能な状況に適用することができる。
【0029】
一実施形態では、ゾーンベース音声システムが提供されて、車両の各乗客の座席に又はより一般的には音響環境に、プライベートな音響ゾーンを形成する。音声システムの個々の部品は相互に接続され、情報/信号を対話的に交換することができる。
図1は、このようなゾーンベース音声システム1の一例を概略的に示している。ユーザ又は乗客は、ヘッドレスト3を備えた座席2に着座し、ヘッドレストは、2つのラウドスピーカ4と2つのマイクロフォン5を有する。
【0030】
このようなゾーンベース音声システムは、個人的かつ個別の音声信号を能動的に音響再生するための、1つの(好ましくは少なくとも2つの)ラウドスピーカ4を有し、これは、隣接するゾーンによって全く又はわずかにしか知覚されてはならない。ラウドスピーカ4は、ヘッドレスト3、シート2自体、又は車両のヘッドライナーに取り付けることができる。ラウドスピーカは、適切な音響設計を有し、かつ隣接するゾーンに対する音響影響を最小限に抑えるために適切な信号処理を介して制御することができる。
【0031】
さらに、このような音声ゾーンは、隣接するゾーン及びその中で能動的に再生される信号から独立して、第1の音響ゾーンの乗客の発話を記録する能力を有する。
この目的のために、
図2に概略的に示されるように、1つ以上のマイクロフォン5を座席2又はヘッドレスト3に一体化するか、又はゾーン及び乗客の直接的な音響環境内に取り付けることができる。好ましくは、マイクロフォン5は、電話を使用している乗客の発話を可能な限り検出できるように配置される。話している人の口のすぐ近くにマイクロフォンを配置できる場合は(
図2の中央マイクロフォンなど)、一般的には単一のマイクロフォンで話している人の音声信号を十分な品質でキャプチャするのに十分である。例えば、電話ヘッドセットのマイクロフォンを使用してスピーチ信号をキャプチャすることができる。そうでなければ、以下で説明するように、発話をより効果的に、とりわけデジタル信号処理を使用して、より的を絞った態様で記録するように音声をキャプチャするためには、2つ以上のマイクロフォンが有利である。
【0032】
話者の音声ゾーンは、できる限り妨害を少なくし、かつ隣接ゾーン及び環境における支配的な妨害(風、ローリングノイズ、換気等)の影響を受けずに主要な乗客のボイス信号を記録するために、適切な信号処理を有することができる。
【0033】
従って、電話中の車両乗客のボイス信号は、座席位置で記録されるか(それに応じて配置されたマイクロフォンによって直接、又は適切な信号処理を備えた1つ以上の遠隔マイクロフォンによって間接的に)、かつ背景ノイズなどの干渉信号から分離される。
【0034】
このスピーチ信号から、以下で発話難読化信号とも呼ばれるマスキング信号を、漏聞している乗客のために生成することができる。実施形態例では、難読化すべき発話に適合された広帯域マスキング信号が、この乗客のために生成される。加えて又はあるいは、主要な話者の発話内の個々の発話オンセット時に撹乱信号を生成することもできる。これらは、発話明瞭度のために重要であり、かつ難読化すべき発話に適合されることも可能な、特定の発話セグメントで発信される短い干渉信号である。これらの撹乱信号は、全体の音レベルを大幅に増加させることなく、リスナーのための情報内容を減少させ、発話又はその解釈の明瞭度を損なうように(情報マスキング)、発話明瞭度に関連する発話セグメントとオーバーラップするように発信される。
【0035】
これらの難読化信号は、それぞれの局所的な音響要件に適合され、難読化信号の空間認知が作成されるように、空間的な態様(マルチチャネル)で配信することができる。このようにして、リスナーの着席位置での漏聞を可能な限り回避することができる。
【0036】
上記で提案されたアプローチを使用すると、大きなノイズを単に出力して発話を覆うアプローチ(エネルギーマスキング)とは対照的に、傍聴している乗客の座席での全体的な音圧レベルは最小限にしか増加されず、かつ乗客の不快感は増加しないか、又は局所的なリスニングの快適性が可能な限り最良の方法で維持される。
【0037】
図3は、2つの音声ゾーンについての実施形態例の機能性及び基本システム構造の一例である。第1の音響ゾーンIにおける乗客のスピーチ信号は、話者のヘッドレスト3に配置されたこのゾーンのマイクロフォン5によって記録され、主要な乗客のスピーチ信号を可能な限り干渉を受けず、かつ隣接ゾーン及び環境内の支配的な妨害(風、ローリングノイズ、換気等)の影響を受けずに記録するために、第1のデジタル信号処理Aの対象になる。あるいは、マイクロフォン5は、
図2に示すように、話者の前に、例えば、前方の乗客のヘッドレストの後部に、又はヘッドライナー、ハンドルもしくはダッシュボードに配置することもできる。図示の例では、漏聞者は話者のすぐ前の座席に着席しているが、これは必ずしもそうである必要はなく、漏聞者は車両内の任意の他の場所に位置することができる。
【0038】
次に、このようにして処理されたスピーチ信号は、第2の信号処理Bに供給され、第2の信号処理Bは、漏聞している乗客の発話明瞭度が下がるように適切な発話難読化信号を生成する。そして、発話難読化信号は、第2音響ゾーンIIのラウドスピーカ4’を介して出力される。これらは、可能な限り発話難読化信号の最も直接的で妨害されない再生を達成するように、例えば漏聞している乗客のヘッドレスト3’内に配置される。既に示したように、発話難読化信号は、主要な乗客のスピーチ信号に適合された広帯域マスキング信号、及び/又は個々の発話オンセット時に開始する撹乱信号を有することができる。このようにして、音響ゾーンの境界を越えた望ましくない漏聞が著しくより困難になるように、音響ゾーンをプライベートなものにすることができる。
【0039】
能動的なノイズ抑制と同様の代替アプローチにおいて、それぞれのリスニング位置又はマイクロフォン位置における推定スピーチ信号は、適合クリア信号を能動的に追加することによって減少される。
【0040】
しかし、リスニング位置は実際にはわずかに可変であり、かつリスニング位置とマイクロフォン位置は数センチメートル離れているため、約1.5kHzまでのスピーチ信号成分のみを能動的に減少することができる。しかし、発話明瞭度は、子音によって、従って2kHzを超える周波数の信号成分によって主に支配されるため、このアプローチだけでは不十分であり、また、最善な状況でも重要であると考えるべきであるが、これは、チューニングが不適切(例えば、頭部位置の調整が不正確)である場合には、クリアリング信号は、関連するプライベートな情報を正確に伝達し、かつそれを増幅する可能性さえあるため、発話明瞭度は下がるのではなく、高められてしまう。対照的に、開示されたアプローチは、子音のようなより高い周波数の発話成分の場合でも、話者と漏聞者の正確な頭部の位置に対する感度が低く、かつ発話明瞭度が下がることを可能にする。
【0041】
開示されたアプローチのモジュール性により、複数の音声ゾーンに関わる実施形態例は、例えば、大量輸送(鉄道、飛行機、列車)又は他の応用分野(娯楽、映画など)においても考えられる。
図4は、6つの音響ゾーンが提供される多列の車両を使用するこのようなマルチゾーンのアプローチを概略的に示している。前述のように、ラウドスピーカとマイクロフォンは乗客のヘッドレストに一体化されるが、マイクロフォンは、スピーチ信号をキャプチャするための好ましい配置にするために、それぞれの話者の前の他の位置に配置することもできる。
図3と同様に、この例では、話者が望ましくない漏聞をしている乗客(この場合は運転者)の後ろに座っていると想定する。しかし、発話している乗客のボイス信号は、運転者以外の乗客のための、かつ数人の望ましくない漏聞者のためのマスキング又は難読化信号を生成するために、同じように使用することができる。当然ながら、話者は、
図4に示す例とは異なる車内の位置にいることもできる。本明細書に開示されたアプローチは、話者の発話を検出することができ、かつ生成された発話難読化信号を、望ましくない一人又は複数の漏聞者に向けて出力できるというすべての状況に、一般的に適用することができる。
【0042】
最初に説明したように、ボイス信号は、話者が、音響ゾーンが配置されている部屋の外にいる外部の人と行う電話会話であり得る。あるいは、会話は、部屋にいる人々の間、例えば、
図4に示す話者とその右側の乗客との間であり得る。この場合、示されている話者と同じ信号処理が、ゾーンベース音声システムの第2の話者にも提供されなければならず、これにより、第2の話者の発話も検出かつ処理されて、一人又は複数人の漏聞者のために適切な難読化信号が生成される。2人の話者が交互に話す場合、現在の話者のみを決定し、この話者に関連付けられた難読化信号を出力する必要がある。両方の話者が同時に話す場合、両方の難読化信号を同時に出力することもできる。
【0043】
以下では、必要な信号処理ステップを例示的なアプリケーションで説明する。このアプリケーションでは、左後部座席に座っている車両の乗客が、車内の話者として車外の人に電話をかけている。車内の話者の発話に加えて、例えば、車内の話者のヘッドレストのラウドスピーカから発信される車外の話者の発話(遠端話者信号)も、難読化すべき発話として記録することができる。これは、「左前」の位置で漏聞している運転者のために修正又は難読化される。当然のことながら、これは1つの可能な状況にすぎず、提案された手順は、一般的に話者の位置及びリスニング位置の配置の可能な構成のために使用することができる。
【0044】
難読化すべきスピーチ信号についてデジタル信号処理Aによって推定された信号sigestは、後続のマスキング又は難読化信号の生成のための基本変数を提供する。マスキングすべきスピーチ信号は、車両内のアクティブな車内の話者及び/又は車外の話者であり得る。難読化信号は、広帯域マスキング信号及び/又は撹乱信号であり得る。これらの生成された信号(送信先:LS左及びLS右)は、傍聴位置のアクティブなヘッドレストを介して再生される。実施形態例では、両方の難読化信号が生成され、加算され、そして一緒に再生されて、漏聞に対して増幅された効果を与え、その明瞭度に影響を及ぼす。2つの難読化信号の組み合わせは、発話明瞭度を下げる際に、これらの信号の相乗効果を生み出す。連続的な広帯域マスキング信号は背景ノイズを生成し、それによって、単一のノイズ信号のみの出力と比較して信号の量(エネルギー)を減少させ、より少ない妨害効果が達成される。撹乱信号を時間通りに適切な位置(発話オンセット)で出力することによって、これらの発話セグメントの発話明瞭度(例えば、子音について)は、難読化信号の全体的なエネルギーを大幅に増加させたり、リスナーに対して追加の不快な効果を引き起こしたりすることなく、目標とする態様で妨害される。ノイズ信号と一緒に提示された場合は、撹乱信号はより不快でないと知覚されることさえ分かっている。
【0045】
図5は、広帯域スピーチ信号に依存したマスキングを生成するための概略ブロック図である。入力信号は、マスキングすべきスピーチ信号sig
estである。結果として得られる2チャンネルの出力信号(アウト:LS左及びLS右)は、漏聞位置のアクティブなネックレストに送信され、必要に応じて撹乱信号と重畳され、かつネックレストに又はその中に取り付けられたラウドスピーカによって漏聞者に出力される。
【0046】
以下では、一実施形態例に係る発話マスキング用の広帯域ノイズ信号を生成するための信号処理ステップについて詳細に説明する。留意すべき基点として、デジタル信号処理の当業者にとって既知であるように、必ずしもすべてのステップを実行する必要はなく、いくつかのステップを異なる順序で実行してもよい。また、いくつかの計算は、周波数領域又は時間領域で同等に実行することもできる。
【0047】
まず、スピーチ信号sigestを周波数領域に変換し、時間方向と周波数方向の両方で平滑化する。この目的のために、最初にセクション100で、スピーチ信号sigestを複数のブロックに分割する(例えば、fs=44.1kHzのサンプリングレートの512個のサンプルが、11.6msの継続時間と50%のオーバーラップの複数のブロックに配置される)。次に、セクション105で、各信号ブロックをNFFT1=1024ポイントのフーリエ変換を使用して周波数領域に変換する。
【0048】
さらにステップ110では、フーリエスペクトルはM=24帯域のメルフィルタバンクでフィルタリングされる、すなわち、スペクトルはメルフィルタバンクによってスペクトル圧縮される。フィルタバンクは、三角周波数応答を有するオーバーラップ帯域で構成され得る。帯域の中心周波数は、メルスケールに亘って等間隔に分割される。フィルタバンクの最低周波数帯域は0Hzで始まり、最高周波数帯域はサンプリングレート(fs)の半分で終わる。短時間のエネルギー値(個々のメルバンドのRMSレベル又は特定のラウドネス曲線)は、ブロック図のセクション115で、フィルタバンクの全帯域の各信号ブロックについて計算される。これらの短時間のエネルギー値は、セクション120で、スライド平均(移動平均、約700msに対応する120ブロック)の形でMA=120ブロックにわたって時間とともに平均化される。
【0049】
実施形態例では、セクション125で、これらの動的ラウドネス曲線は、即時的周波数環境で整流される(スクランブリング)。この目的のために、帯域のラウドネス値は、以下の表に従って整流され、帯域「in」の割り当ては、下の行「out」の対応する位置から得られる。例えば、帯域番号2のラウドネス値は、帯域番号4に割り当てられる。帯域番号4と帯域値4が帯域5に割り当てられ、帯域5の値は帯域3に割り当てられる、等。この結果、ラウドネス値は、隣接する帯域又は次の帯域で整流される、すなわち、メルバンドと整流された帯域の差は、この例では最大2メルバンドである。もちろん、示されている表は、帯域をいかにして整流できるかのただ1つの可能な例にすぎず、他の実現も可能である。
【0050】
【0051】
提案された帯域整流によって、ラウドネス値は、関連する発話セグメントのラウドネス値の分布に特定の「無秩序」が生じるように「スクランブル化」され、それによって、発話セグメントの全体的なエネルギー又はラウドネスを変更することなく、スペクトルエネルギー又はそのラウドネス分布の説明を変更する。例えば、ある帯域の特に顕著なエネルギー含有量が別の帯域にシフトされるか、又はある帯域の低いエネルギー(ラウドネス)が隣接する帯域に変換される。エネルギーを隣接する帯域に再分配することによって、特に効果的な広帯域ノイズ信号を生成することができ、これが、帯域整流を行わない場合よりも、関連する発話セグメントの明瞭度を下げることが示されている。マスキング帯域の時間的に動的な進行のビンのシーケンスを整流/反転することによって、ノイズ信号における発話情報の送信が回避される。発話エネルギーが周波数帯域(例えば、上記のメルバンド)でキャプチャされ、これらの時間的エネルギー曲線の振幅がノイズ信号に直接変調され、また等しい周波数帯域に分割される場合、発話コンテンツは可聴となり、かつ狭い周波数帯域が使用される場合は、なおさら明瞭度が高くなる。この効果は、ラウドネス値の帯域整流によって大幅に減少する。
【0052】
必要に応じて整流される動的ラウドネス曲線は、ブロック図のセクション130で、背景ノイズ及び周囲の状況を評価するために、現在の背景スペクトル(すべての背景ノイズを含む)を使用して調整することができる。この目的のために、背景ノイズは、例えば監視位置で検出され、かつスピーチ信号と同様に、背景スペクトルは、周波数変換及び時間と周波数の平均化を用いて決定される。好ましくは、リスニング位置に配置されたマイクロフォンがこの目的のために使用される。あるいは、監視位置で背景ノイズをキャプチャするために、他の場所(但し、好ましくは監視位置の近く)に配置されたマイクロフォンを使用することができる。マスキング信号を生成する際には、背景スペクトルより上にあるスピーチ信号の帯域のみを考慮する必要がある。そのエネルギーが対応する背景ノイズ帯域のエネルギーよりも低い発話帯域は無視することができるが、これは、発話明瞭度における役割を果たさないか、又は既に背景ノイズによってマスキングされているからである。これは、例えば、このような発話帯域のラウドネス値を0に設定することによって行うことができる。言い換えると、ある周波数帯域が強い背景ノイズによって既にマスキングされている場合は、この周波数帯域では追加のマスキング信号は生成されない。従って、発話を難読化するために広帯域マスキングノイズのどの信号成分が使用されるかについての決定は、状況に応じて行われる。
【0053】
セクション135では、結果として得られる共聴閾値の補間(メルフィルタバンクの24個の中心周波数に対応する24個の周波数でサンプリングされた周波数軸)は、フーリエ変換のすべての周波数サンプリングポイントで行われる。補間は、フーリエ変換の全周波数範囲のスピーチ信号のスペクトル値、例えば、NFFT1=1024ポイントの上記フーリエ変換については1024値を生成する。
【0054】
最後に、セクション155では、このようにして生成された周波数値の周波数グリッドポイント(又は時間領域の畳み込み)のポイント毎の乗算がノイズスペクトルを使用して実行される。これは、ノイズジェネレータ(図示されていない)によって取得することができ、そのノイズ信号は、スピーチ信号と同じ態様で同じ次元のブロック分割145及びフーリエ変換150を通過する。このようにして、広帯域ノイズ信号は、スピーチ信号と同様の周波数特性(セクション125及び130の整流及びゼロ化を除く)を有するマスキング信号として生成される。あるいは、マスキング信号は、上記のように処理され(セクション100~135を参照)時間領域に変換されたスピーチ信号のスペクトル値でノイズ信号を畳み込むことによって、時間領域で生成することもできる。周波数領域と時間領域とを切り替えることにより、様々な処理ステップで、異なる周波数分解能又は継続時間を使用することができる。あるいは、処理全体を周波数領域で実行することも可能である。このようにして、ブロックの発話セグメントに適合された広帯域ノイズスペクトルが、スピーチ信号のブロック毎に生成される。
【0055】
実施形態例では、セクション160の後に、周波数グリッドポイント(又は時間領域の畳み込み、上記参照)と漏聞者から見た話者の音源方向(又はマスキングすべきスピーチ信号のエネルギー重心の主要な方向)に対応する音響伝達関数の両耳スペクトルとのポイント毎の乗算を使用する空間処理が続く。話者の音源方向は、音響ゾーンの空間的な配置から知られる。
図4に示す例では、話者の音源方向は、漏聞者の真後ろである。マスキング信号の空間的方向性での実施形態例では、マルチチャネル再生(例えば、2台のラウドスピーカを使用)が必要である。そうでなければ、シングルチャネル再生で十分であり、これは、漏聞者のネックレストに配置された2台のラウドスピーカによって行われるのが好ましい。
【0056】
従って、広帯域マスキング信号を空間的に再生し、かつ直接信号の目標方向又は話者の顕著に知覚される方向に適合させることができる。両耳ラウドネスの追加により、マスキングが大幅に改善され、マスキングノイズのレベル超過がより低くなる。
【0057】
セクション165では、結果として得られる2つのスペクトル(空間再生用)(ブロック毎)を時間領域に逆変換(IFFT)し、かつオーバーラップ加算法を使用してブロックのオーバーラップを実行する(セクション170を参照)。留意すべき点として、空間再生では、マルチチャンネル信号が生成され、これは例えばステレオ再生によって再生される。先行するステップが時間領域で既に実行されている場合には、ブロックの逆変換及びオーバーラップは省略されることが理解される。
【0058】
結果として得られる時間信号は、漏聞者のそれぞれのアクティブなネックレストに送信される。そこで、撹乱信号も生成される実施形態例では、マスキング信号は、ネックレストの話者を介して出力される前に撹乱信号と合算することができる。
【0059】
既に示したように、信号処理は部分的に周波数領域又は時間領域で行うことも可能であるが、周波数領域で全体の処理を行うことも十分可能である。上記の特定の値は、可能な構成の一例に過ぎず、多くの方法で変更することができる。例えば、1024ポイント未満のFFT変換の周波数分解能、又は24個を超えるもしくは未満のフィルタによるメルフィルタの分割が可能である。また、ノイズ信号の周波数変換は、スピーチ信号のブロックサイズ及び/又はFFTとは異なる構成で行うことも可能である。この場合、セクション135の補間を適宜調整して、適切な周波数値を生成する必要がある。さらに別の変形例では、ブロック単位で計算されたマスキングノイズは、最初に、補間後に時間領域に再変換され、次に、おそらく異なるスペクトル分解能で空間化を可能にするために周波数領域に戻される。当業者は、本開示を検討した後で、広帯域スピーチ信号に依存するマスキング信号を生成するための本発明による手順のこのような変形例を認識するであろう。
実施形態例では、ノイズをマスキングする代わりに、短時間の撹乱信号が使用されるが、これは、時間及び/又は周波数の点で特に明瞭度に関連するスピーチ信号のセクションに適合される。一例として、このような撹乱信号の生成について以下に説明する。
図6は、スピーチ信号に依存する撹乱信号を生成するためのブロック図の一例を概略的に示している。漏聞者の妨害は、信号に依存する定義済みの時点で行われる。この目的のために、臨界時点(t
i,distact)が、スピーチ信号の3つの情報パラメータであるスペクトル重心「SC」(ピッチにほぼ対応)、短時間エネルギー「RMS」(音量にほぼ対応)、及びゼロ交差数「ZCR」(スピーチ信号/背景ノイズを区別するため)を使用して決定される。
【0060】
追加の予備的分析によって収集された、関連するパラメータ(SC及びRMS)を有する一連の事前選択された撹乱信号(例えば、鳥の鳴き声、さえずり等)は、デジタルメモリに格納される。適切な撹乱信号は、以下の特性を有することが好ましい。一方では、それらは、他の状況/日常生活からのリスナーに馴染みのある自然な信号であり、従って、マスキングすべき信号及び文脈とは関連しない。さらに、それらは、短い継続時間の音響的に特徴的な信号であり、かつ可能な限り幅広いスペクトルを有するという事実によって特徴づけられる。このような信号の他の例は、水が滴るノイズ、又は水の波の衝撃、又は短い突風である。通常、撹乱信号は、それらを完全にカバーする関連する発話セグメント(例えば、子音)よりも長い。また、異なる長さの撹乱信号を格納し、かつ現在の重要な瞬間の継続時間に合わせて選択することも可能である。
【0061】
ある撹乱信号が選択され、かつ時間と周波数の点で現在の発話セグメントに適合される。次に、適合された撹乱信号は、仮想空間位置から漏聞者に対して再生される。空間化(BRTF)については、短いインパルス応答(256ポイント)を使用して外耳伝達関数をシミュレートすることができ、これにより、これらの撹乱信号は、漏聞者によって可能な限り頭部の近くに存在する場所に限定され、強力な撹乱効果を達成する。空間再生のためには、マルチチャネル(例えば、ステレオ)再生が必要である。
【0062】
以下では、実施形態例による離散的で空間的に分散した短い撹乱信号を生成するための信号処理ステップを詳細に説明する。留意すべき点として、すべてのステップが常に必要とされるわけではなく、当業者が認識するように、いくつかのステップは異なる順序で実行してもよい。また、いくつかの計算は、周波数領域又は時間領域で同等に実行されてもよい。処理ステップのいくつかは、広帯域マスキング信号を生成するためのステップに対応し、従って、発話難読化のために両タイプの信号を使用する実施形態例では、2回目は実行する必要はない。
【0063】
セクション200では、スピーチ信号sigestは、11.6msの継続時間と50%のオーバーラップ(ホップサイズ=256)を持つブロック(ブロック長=512サンプル、fs=44.1kHz)に分割される(セクション100を参照)。
【0064】
n=ブロックインデックス及びm=時間サンプルである、これらのブロックXBuffern(m)から、信号ブロックあたりのゼロ交差の数(ゼロ交差率ZCR)が、セクション205で決定される。これは、次の式を使用して実行することができる。
【0065】
【0066】
セクション210では、各信号ブロックをNFFT2=1024ポイントでフーリエ変換する(セクション105を参照)。
【0067】
これらのスペクトルS(k,n)(k=周波数指数、n=ブロック指数)から、さらに2つのパラメータである短時間エネルギー(RMS)とスペクトル重心(SC)がセクション215及び200で計算される。
【0068】
【0069】
短時間エネルギーRMS及びゼロ交差率ZCRのコースは、信号に依存する閾値を使用してフィルタリングすることもでき、これらの閾値を満たさない領域は無視することができる(例えば、0に設定する)。閾値は、例えば、信号値の特定のパーセンテージがそれらより上又は下になるように選択することができる。
【0070】
各スペクトルは、セクション225で、再帰的な一次離散時間フィルタを使用して、「H(z)=Bs(z)/As(z)」と、スペクトル的に平滑化される。ここで、Bs=0.3及びAs(z)=1-(Bs-1)*z-1、両方向(=acau―sales、二次ゼロ位相フィルタ)である。
【0071】
結果として得られるスペクトルは、セクション230で、再帰的な一次離散時間フィルタを使用して、「H(z)=Bt(z)/At(z)」と、時間的に平滑化される。ここで、Bt=0.3及びAt(z)=1-(Bt-1)*z-1である。
【0072】
発話明瞭度に関連するスピーチ信号セクション(オンセット)の検出(オンセット検出)のために、まずセクション235でオンセット検出関数を決定する。この目的のために、スペクトル的かつ時間的に平均化されたスペクトルを、周波数軸を越えて加算する。結果として得られる信号は対数化かつ時間微分され、負の値は0に設定される。0値を回避するためには、対数化の前に正則化(例えば、すべての周波数グリッドポイントにおける少数の追加)を実行することができる。
【0073】
このオンセット検出関数は局所的最大値についてスキャンされ、局所的最大値は、少なくとも指定されたブロック数だけ離れている必要がある。このようにして検出された最大値は、特に顕著な最大値のみが残るように、信号に依存する閾値を使用してさらにフィルタリングすることができる。このようにして決定されたオンセット検出関数の局所的最大値は、撹乱信号を使用して選択的に妨害すべきスピーチ信号の知覚的に関連するセグメントの候補である。
【0074】
実施形態例では、セクション240でこのように決定されたオンセット検出関数の最大値は、パラメータZCR、RMS及びSCを使用して論理ユニットを介して妥当性についてチェックされる。これらの値が定義された範囲内にある場合にのみ、これらの最大値は、関連する臨界時点ti,distactとして設定される。これは、例えば、オンセット検出関数の決定された最大値の時点で、RMS、SC及び/又はZCRの値が特定の論理条件(例:RMS>X1;X2<SC<X3;ZCR>X4、所定の閾値はX1~X4)を満たさなければならない場合に起こり得る。実施形態例では、例えば、RMS及びZCRに関する上記のフィルタ条件(つまり、非表示の範囲にはない)を満たす期間に位置する最大値のみが考慮される。ZCR及びRMSが特定の閾値条件を同時に満たさなければならないという条件は、閾値条件が満たされたときにSCの値を保持し、かつ挿入された値を補間又は補外することによって、SCのコースをフィルタリングするために使用することもでき、その結果、関数SCintが得られる。
【0075】
決定された時点ti,distactにおいて、1つの撹乱信号が、メモリ250内にデジタル的に格納されたN個の撹乱信号の選択の中からランダムに選択される(セクション245を使用)。メモリ250は、これらの撹乱信号のための追加のメタデータであるSC及びRMS値を含む。
【0076】
選択された撹乱信号は、セクション255で複数ブロックに分割され(ブロック長2及びホップサイズ=ブロック長2又はオーバーラップ=0で、それぞれ上記を参照)、次に、セクション260でNFFT2ポイントを用いてフーリエ変換される。この周波数変換のパラメータは、マスクすべきスピーチ信号に関する上記バージョンとは異なり、かつ上記バージョンから独立し得る。あるいは、撹乱信号の周波数表現を周波数領域に直接格納することもできる。
【0077】
結果として得られるスペクトルは、セクション265で、周波数位置におけるSCパラメータ比を使用して(例えば、単側波帯変調によって)かつ/又はゲインにおけるRMSパラメータ比を使用して、それぞれの時間ti,distactにおけるsigestからの信号に応じて適合させることができる。この目的のために、オンセット時間ti,distactにおけるそれぞれのスピーチ信号セクションのスペクトル重心SCと、関連する撹乱信号との比が形成され、撹乱信号の周波数位置は、スピーチ信号の周波数位置と可能な限り近く一致するように調整される。これは、オンセット時間における補間されたスペクトル重心SCint{ti,distact}の関数SCintの値を、選択された撹乱信号のSC値と比較し、かつ離調パラメータを決定することによって実行することができ、この離調パラメータの正の値は、単側波帯変調による撹乱信号のピッチの増加を意味し、負の値はピッチの低下をもたらす。
【0078】
撹乱信号のエネルギー(RMS)をスピーチ信号部分のエネルギーにも適合することにより、撹乱信号のスピーチ信号に対する所定のエネルギー比が達成される。発話明瞭度を下げる効果が高いため、撹乱信号を低音量で再生することができ、その結果、漏聞している乗客の座席位置における全体的な音圧レベルの増加が最小限に抑えられ、かつ乗客の不快感や障害が増加せず、又は局所的なリスニングの快適性が最良の態様で維持される。
【0079】
実施形態例では、結果として得られる撹乱信号の修正されたスペクトルは、対応するスペクトルの周波数グリッドポイント(又は時間領域における畳み込み)のポイントワイズ乗算を使用して、セクション270におけるti,distact時点ごとのランダムな方向選択に応じて、両耳空間伝達関数(BRTF)によって空間的に可変にマッピングされる。さらに、セクション275で、偏向信号について方向がランダムに選択される。メモリ280は、可能な方向と一致する両耳空間伝達関数(BRTF)を含む。マスキングノイズについて記述したように、空間化は、周波数領域又は時間領域において実行することができる。時間領域では、畳み込みが、選択された外耳伝達関数のインパルス応答を用いて実行される。撹乱信号の空間化は、撹乱信号が漏聞者によって可能な限り頭部の近くに存在するように局所化されることで、強い散乱効果を達成するように実行されることが好ましい。空間再生にはマルチチャネル(例えば、ステレオ)再生が必要であり、そうでなければシングルチャネル再生で十分であるが、これは、ヘッドレストに一体化された2つのラウドスピーカを使用して達成されることも好ましい。
【0080】
周波数ドメインにおける撹乱信号の空間化の場合、畳み込みの結果は、セクション285で、NFFT2ポイントを用いた逆フーリエ変換(IFFT)によって時間領域に逆変換される。逆変換された時間ブロックは、セクション290で、オーバーラップ加算法を使用して時間信号に結合される。先行するステップが既に時間領域で実行されている場合は、ブロックの逆変換とオーバーラップを省略できることは明らかである。
【0081】
結果として得られる時間信号は、漏聞者のそれぞれのアクティブなネックレストに送信される。マスキングノイズ信号も生成される実施形態例では、マスキング信号は、ネックレストのスピーカを介して出力される前に撹乱信号と合算することができる。
【0082】
スピーチ信号と一致した撹乱信号は、信号レベルに永続的に大きな影響を与えることなくスピーチターゲット信号を改善するランダムに分布した励起/トリガ情報を生成する。
【0083】
既述のように、信号処理は、周波数領域又は時間領域で部分的に実行することができる。上記の特定の値は、周波数変換の任意の可能な構成の例に過ぎず、多くの方法で変更することができる。一つの可能な変形例では、エネルギーと周波数が一致したスペクトル(セクション265を参照)は、最初に時間領域に逆変換され、次におそらく異なるスペクトル分解能を用いて、空間化を説明するために再び周波数領域に戻される。しかし、周波数領域で処理全体を実行することも可能である。デジタル信号処理の当業者は、本開示を検討した後に、スピーチ信号に依存する撹乱信号を生成するための本発明に係る手順のこのような変形例を認識するであろう。
【0084】
実施形態例では、広帯域マスキングノイズ信号と撹乱信号の両方の難読化信号は、出力されかつ共再生される前に合算される。話者の方向から知覚されることが好ましいマスキングノイズは、それぞれの発話セグメントのスペクトル特性に適合した広帯域ノイズ信号を生成し、それに対して短い撹乱信号が、特に関連する点で(時間及び周波数に関して)選択的に重畳される。これらの撹乱信号は、たとえ低音量又は低エネルギーで再生されたとしても、頭部の空間的に近くで知覚され、発話明瞭度を特に効果的に低下させる。しかし、広帯域マスキングノイズとの組み合わせにより、撹乱信号の短いオン及びオフの切り替えは、妨害又は障害がより少ないと知覚される。漏聞している乗客の座席位置での全体的な音圧レベルは最小限にしか増加せず、乗客の不快感又は障害は増加しないか、又は局所的なリスニングの快適性が可能な限り最善に維持される。
【0085】
実施形態例についての上記の説明は、特許請求の範囲によって定義される本発明にとって本質的ではない様々な詳細を有する。実施形態例の説明は、本発明を理解することを意図しており、純粋に例示的であり、かつ保護の範囲に対する効果を制限するものではない。記載された要素及びそれらの技術的効果は、異なる態様で互いに組み合わせることができ、その結果、特許請求の範囲によってカバーされるさらなる実施形態例が生じ得ることは、当業者には明らかであろう。さらに、記載された技術的特徴は、例えばプログラム可能な装置によって実施される装置及び方法において使用可能である。特に、それらは、ハードウェア要素又はソフトウェアによって実施可能である。周知のように、デジタル信号処理の実施は、特別に設計された信号プロセッサによって実行されることが好ましい。記載された装置の個々の部品間の通信は、有線(例えば、バスシステム)又は無線(例えば、Bluetooth又はWifi)によって発生可能である。保護は、コンピュータによって実施された実現、及びデータキャリアの形式又はダウンロード可能な表現での関連するプログラム又はマシンコードについても明示的に主張される。
【国際調査報告】