【文献】
竹林 健一,狭小空間による携帯電話音声の聴き取りにくさ物理指標算出の試み,日本音響学会 2013年 秋季研究発表会講演論文集CD−ROM,日本,一般社団法人日本音響学会,2013年 9月17日,p.997-1000
【文献】
矢入 幹記,携帯電話音声の聴き取りにくさにおよぼす建築空間の影響とその予測,日本音響学会 2014年 秋季研究発表会講演論文集CD−ROM,日本,一般社団法人日本音響学会,2014年 8月26日,p.1089-1092
(58)【調査した分野】(Int.Cl.,DB名)
第1空間内で音源から生成された音声が前記第1空間内でマイクにて集音され、集音された音声の信号が生成源符号化方式で符号化され、符号化された信号を用いて音声が再生される場合に、再生された音声の聴き取りにくさを評価するための音声伝送性能評価指標を算定する評価値算定方法であって、
前記音源から前記マイクまでの伝達経路のインパルス応答波形を取得する取得ステップと、
前記取得ステップにて取得された前記インパルス応答波形をSchroederの減衰曲線で除算して減衰除去インパルス応答波形を算出する減衰除去ステップと、
前記減衰除去ステップにて算出された前記減衰除去インパルス応答波形を用いて、前記音声伝送性能評価指標を算定する算定ステップと、
を備える評価値算定方法。
前記減衰除去ステップでは、前記減衰曲線が直接音の音量から所定音量減衰した時間で前記減衰除去インパルス応答波形を算出する処理を打ち切り、前記所定音量は、音声を再生する装置のダイナミックレンジに基づいて決定される請求項1に記載の評価値算定方法。
請求項1〜3の何れか一項に記載の評価値算定方法で算出された前記音声伝送性能評価指標を用いた空間特性設計方法であって、前記音声伝送性能評価指標を用いて前記第1空間の空間特性を設計する設計ステップを備える空間特性設計方法。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、上述した音声情報処理が音源と受音点との間に介在すると、音源から受音点までの伝達特性を示すインパルス応答波形を取得することが困難となり、結果として音声伝送性能評価指標を算出することができない場合がある。例えば、携帯電話などを用いて発話者と受聴者が会話する場合には、音源(発話者の口)と受音点(受聴者の耳)との間に生成源符号化方式を採用した信号処理が介在することになる。この場合、音の波形が発話者と受聴者との間で伝送されないため、インパルス応答という概念そのものを適用することができなくなり、結果として音声伝送性能評価指標の算出そのものを行うことができない。
【0006】
本発明は、音源と受音点との間に生成源符号化方式の信号処理が介在する伝送系において、音声伝送性能評価指標を算定することができる評価値算定方法を提供することを目的とする。また、本発明は、当該方法により算定された音声伝送性能評価指標を用いた空間特性設計方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明者は、音源と受音点との間に生成源符号化方式の信号処理が介在する伝送系において、音源が配置された空間の音響特性が受音点での音声の聴き取りにくさに影響を及ぼしている、との知見を得た。そして、本発明者は、さらに鋭意研究を重ねた結果、音源が配置された空間のインパルス応答波形の反射音構造が、受音点での音声の聴き取りにくさに影響を及ぼしていることを見出し、本発明をするに至った。
【0008】
すなわち、本発明は、第1空間内で音源から生成された音声が第1空間内でマイクにて集音され、集音された音声の信号が生成源符号化方式で符号化され、符号化された信号を用いて音声が再生される場合に、再生された音声の聴き取りにくさを評価するための音声伝送性能評価指標を算定する評価値算定方法であって、音源からマイクまでの伝達経路のインパルス応答波形を取得する取得ステップと、取得ステップにて取得されたインパルス応答波形をSchroederの減衰曲線で除算して減衰除去インパルス応答波形を算出する減衰除去ステップと、減衰除去ステップにて算出された減衰除去インパルス応答波形を用いて、音声伝送性能評価指標を算定する算定ステップと、を備える。
【0009】
この評価値算定方法では、第1空間内における音源からマイクまでの伝達経路のインパルス応答波形をSchroederの減衰曲線で除算して、減衰除去インパルス応答波形を算出する。算出された減衰除去インパルス応答波形では、インパルス応答波形に内在し、かつ、減衰していた反射音構造の特徴が強調される。このような減衰除去インパルス応答波形を音声伝送性能評価指標の算出の入力とすることで、受音点での音声の聴き取りにくさに影響を及ぼす反射音構造を、音声伝送性能評価指標に明確に反映させることができる。よって、算出された音声伝送性能評価指標が音声の聴き取りにくさに対して高い尺度性を示すようにすることが可能となる。
【0010】
また、減衰除去ステップでは、減衰曲線が直接音の音量から所定音量減衰した時間で減衰除去インパルス応答波形を算出する処理を打ち切ってもよい。そして、所定音量は、音声を再生する装置のダイナミックレンジに基づいて決定されてもよい。このように構成することで、音声を再生する装置のダイナミックレンジに合わせて処理をすることができる。よって、不必要な情報を取り除いた情報で音声伝送性能評価指標を算出することが可能となるので、処理コスト及び演算速度を向上させることができる。
【0011】
また、評価値算定方法は、第1空間内で音源から生成された音声の音声スペクトルを取得する音声取得ステップを備え、算定ステップでは、減衰除去ステップにて算出された減衰除去インパルス応答波形及び音声取得ステップにて取得された音声スペクトルを用いて前記音声伝送性能評価指標を算定する際に、前記減衰除去ステップにて算出された前記減衰除去インパルス応答波形又は前記音声取得ステップにて取得された前記音声スペクトルに対して音声の信号の伝送帯域の波形成分を通過させる帯域通過処理を施し、帯域通過処理を施した波形成分を用いて前記音声伝送性能評価指標を算定してもよい。このように構成することで、音声の信号の伝送帯域に合わせて処理をすることができる。よって、不必要な情報を取り除いた情報で音声伝送性能評価指標を算出することが可能となる。
【0012】
さらに、本発明に係る空間特性設計方法は、上記評価値算定方法で算出された音声伝送性能評価指標を用いて、第1空間の空間特性を設計する設計ステップを備える。この設計方法によれば、音源と受音点との間に生成源符号化方式の信号処理が介在する伝送系において、音声伝送性能評価指標によって受聴者側の聴き取りにくさを適切に評価して、発話者側の第1空間の空間特性を設計することができる。
【発明の効果】
【0013】
以上説明したように、本発明によれば、音源と受音点との間に生成源符号化方式の信号処理が介在する伝送系において、音声伝送性能評価指標を算定することができる方法、及び空間の設計方法が提供される。
【発明を実施するための形態】
【0015】
以下、添付図面を参照して本発明の実施形態について説明する。なお、各図において同一又は相当部分には同一の符号を付し、重複する説明を省略する。
【0016】
[第1実施形態]
本実施形態に係る評価値算定方法は、特定のシーンにおける音声伝送性能評価指標(以下、単にSTIという。)を算定する方法である。特定のシーンとは、音源と受音点との間に生成源符号化方式の信号処理が介在する場面である。具体的には、発話者と受聴者との両者が携帯電話を介して会話する場面、発話者が携帯電話を介して会話し、受聴者が固定電話を介して会話する場面、発話者が固定電話を介して会話し、受聴者が携帯電話を介して会話する場面などが挙げられる。以下では、一例として、両者が携帯電話を介して会話する場合を説明するが、この場面に限定されるものではない。
【0017】
図1は、発話者と受聴者との両者が携帯電話を介して会話する場面を説明するための図である。
図1に示すように、発話者1と受聴者2とが携帯電話3、4を用いて会話する。発話者1は、携帯電話ブース5内で会話している。携帯電話ブース5は、例えば、医療施設やオフィスなどに設置され、携帯電話などで会話するための発話空間(第1空間)をその内部に画成した構造物である。発話空間の容積は、例えば2m
3〜5m
3程度である。発話者1の音声は、携帯電話3を介して基地局6へ伝送され、基地局6から受聴者の携帯電話4へ伝送され、受聴者へ到達する。
【0018】
上記場面において、受聴者2が感じる音声の「聴き取りにくさ」を、STIを用いて予測するためには、発話者1の口(音源)から受聴者2の耳(受音点)までの伝達系におけるインパルス応答が必要となる。発話者1から受聴者2までの伝達系は、例えば
図2に示す模式図で示すことができる。
図2では、発話者1の口を第1スピーカ(音源)1a、携帯電話3のマイクを第1マイク3a、携帯電話通信網を通信系6a、携帯電話4のスピーカを第2スピーカ4a、受聴者2の耳を第2マイク2aとして表現している。つまり、発話空間5a内で第1スピーカ1aから生成された音声が発話空間5a内で第1マイク3aにて集音され、通信系6aで伝送される。
【0019】
ここで、通信系6aは、音源と調音との分離を前提とする生成源符号化方式の信号処理を含む。つまり、通信系6aにて符号化された信号を用いて第2スピーカ4aにて音声が再生される。このように、発話者1と受聴者2との間の伝送系に生成源符号化方式の信号処理が介在する場合には、インパルス応答取得のために第1マイク3aへパルスを入力しても、入力されたパルスがそのまま第2スピーカ4aから出力される可能性があり、発話者1から受聴者2までの伝達系全体の実効的なインパルス応答波形を取得することはできない。
【0020】
上記前提を踏まえて、本実施形態に係る評価値算定方法を説明する。音源と受音点との間に生成源符号化方式の信号処理が介在する伝送系においては、音源が配置された空間の音響特性が受音点での音声の聴き取りにくさに少なからず影響を与えている。このため、本実施形態に係る評価値算定方法では、発話者1から受聴者2までの伝達系の一部を表す発話空間5a内のインパルス応答波形を用いて、STIを算出する。さらに、発話空間5a内のインパルス応答波形に含まれる反射音成分の特徴が、生成源符号化方式の信号処理に影響を与えると予測されるため、発話空間5a内のインパルス応答波形に含まれる反射音成分の特徴が強調された波形となるように加工し、STI算出のための入力情報とする。
図3は、本実施形態に係る評価値算定方法のフローチャートである。なお、当該フローチャートの主体は、人であってもよいし、CPUなどを有しプログラムを読み出して動作する機器などであってもよい。
【0021】
図3に示すように、最初にインパルス応答波形取得処理(S10:取得ステップ)が実行される。S10で示すインパルス応答波形取得処理では、発話空間5a内の発話者1の口(第1スピーカ1a)を音源とし、携帯電話3の第1マイク3aを受音点として、第1スピーカ1aから第1マイク3aまでの伝達経路のインパルス応答波形が取得される。なお、取得の方法は、実測により取得してもよいし、幾何音響や波動音響解析などを用いて計算により導出してもよい。インパルス応答波形取得処理によって、例えば
図4の(A)に示すインパルス応答波形が取得される。
図4の(A)の横軸は時間、縦軸は大きさ[dB]である。インパルス応答波形は、直接音成分Iと、反射音成分Raとを含む。インパルス応答波形取得処理が終了すると、減衰除去処理(S12:減衰除去ステップ)へ処理が移行する。
【0022】
S12で示す減衰除去処理では、S10で示すインパルス応答波形取得処理にて取得されたインパルス応答波形を発話空間(第1空間)における減衰曲線で除算して減衰除去インパルス応答波形が算出される。
図4の(A)に示すように、インパルス応答波形は、時間の経過とともに減衰する。この減衰の様子は、Schroederの減衰曲線Zで表現することができる。Schroederの減衰曲線は、発話空間のインパルス応答波形をr(t)とすると、以下の数式(1)で表される。
【数1】
このように、インパルス応答波形r(t)からSchroederの減衰曲線を得ることができる。そして、減衰除去インパルス応答波形p(t)は、以下の数式(2)で表される。
【数2】
(羽入敏樹,星和磨,鈴木諒一,非直線減衰を持つ室内音場の減衰除去インパルス応答の計算 日本音響学会講演論文集 参照)
【0023】
S12で示す減衰除去処理によって、例えば
図4の(B)に示す減衰除去インパルス応答波形が取得される。
図4の(B)に示す減衰除去インパルス応答波形は、
図4の(A)に基づいて生成された減衰除去インパルス応答波形を模式的に示しており、横軸は時間、縦軸は大きさ[dB]である。減衰除去インパルス応答波形は、直接音成分Iと、反射音成分Raから減衰を除去して得られた減衰除去反射音成分Rbとを含む。減衰除去反射音成分Rbは、減衰を除去することにより、反射音成分Raに含まれる反射音構造の特徴を強調させた波形となる。
【0024】
なお、S12で示す減衰除去処理において、
図4の(A)に示すように、減衰曲線Zが直接音成分Iの音量から所定音量Xだけ減衰した時間Taで減衰除去インパルス応答波形を算出する処理を打ち切ってもよい。所定音量Xは、携帯電話3(音声を再生する装置)のダイナミックレンジに基づいて決定されてもよい。例えば、所定音量Xは、30dB〜40dB程度とされる。このように構成することで、音声を再生する装置のダイナミックレンジに合わせて処理をすることができる。減衰除去処理が終了すると、算定処理(S14:算定ステップ)へ処理が移行する。
【0025】
S14に示す算定処理では、S12に示す減衰除去処理にて算出された減衰除去インパルス応答波形を用いて、STIが算定される。STIは公知の手法により算出される。
【0026】
なお、S14に示す算定処理よりも前に、第1空間内で音源から生成された音声の音声スペクトルを取得する音声取得ステップを備えてもよい。音声取得ステップでは、例えば、第1空間内で音源から生成された音声の実測値であってもよいし、シミュレーション値であってもよい。そして、算定ステップでは、減衰除去ステップにて算出された減衰除去インパルス応答波形及び音声取得ステップにて取得された音声スペクトルを用いてSTIを算定する際に、減衰除去ステップにて算出された減衰除去インパルス応答波形又は音声取得ステップにて取得された音声スペクトルに対して音声の信号の伝送帯域の波形成分を通過させる帯域通過処理を施し、帯域通過処理を施した波形成分を用いてSTIを算定してもよい。通信系6aの伝送帯域は、例えば300Hz〜3.2kHzである。このため、通信系6aの伝送帯域以外の情報を含んでSTIを算定すると、STIを用いた聴き取りにくさの予測精度が低下するおそれがある。このため、音声の信号の伝送帯域(例えば300Hz〜3.2kHz)以外の伝送帯域については、フィルタリングすることが考えられる。ここで、所定の帯域において、インパルス応答、音声のスペクトル及び暗騒音レベルの少なくとも1つのデータが存在しない場合には、当該帯域のSTIは、算出することができない。つまり、減衰除去インパルス応答波形又は音声スペクトルの少なくとも一方に対して帯域通過処理を施すことで、音声の信号の伝送帯域(例えば300Hz〜3.2kHz)以外のデータがSTIの算定に用いられることを回避することができる。このため、音声の信号の伝送帯域に合わせたSTIを算定することができる。算定処理が終了すると、
図3に示す処理が終了する。
【0027】
以上、本実施形態に係る評価値算定方法では、発話空間5aにおける第1スピーカ1aから第1マイク3aまでの伝達経路のインパルス応答波形(
図4の(A))が減衰曲線Zで除算されて、減衰除去インパルス応答波形(
図4の(B))が算出される。算出された減衰除去インパルス応答波形では、インパルス応答波形に内在し、かつ、減衰していた反射音成分Raの構造特徴が強調される。このような減衰除去インパルス応答波形をSTI算出の入力とすることで、受聴者2(受音点)での音声の聴き取りにくさに影響を及ぼす反射音構造を、STIに明確に反映させることができる。よって、算出されたSTIが音声の聴き取りにくさに対して高い尺度性を示すようにすることが可能となる。
【0028】
[第2実施形態]
本実施形態に係る空間特性設計方法は、第1実施形態に係る評価値算定方法にて算出されたSTIを用いて、発話空間(第1空間)の空間特性を設計する方法である。
【0029】
図5は、本実施形態に係る空間特性設計方法のフローチャートである。
図5に示すように、最初に目標設定処理(S20)が行われる。S20に示す目標設定処理では、対象とする建築物(構造物)をどの程度の聴き取りにくさとするか目標が設定される。例えば、「聴き取りにくさ」が「聴き取りにくくない」「少し聴き取りにくい」「かなり聴き取りにくい」「非常に聴き取りにくい」などの所定のカテゴリに分類されており、これらのカテゴリを用いて目標が設定されてもよい。なお、対象とする建築物(構造物)は、発話空間(第1空間)をその内部に画成した構造物であって、発話空間の容積は、例えば2m
3〜5m
3程度である。そして、ここでは、聴き取りにくさが「困難でない」と「少し困難」との境界程度になるという目標が設定されたとする。
【0030】
次に、設計目標値取得処理(S22)が行われる。S22に示す設計目標値取得処理では、設計目標値として、減衰除去インパルス応答波形から求めたSTIが取得される。具体的には、「聴き取りにくさ」と減衰除去インパルス応答波形から求めたSTIとを関連付けしたグラフ又はテーブルなどの関連情報を予め用意しておき、関連情報に基づいて目標設定処理で設定された目標の「聴き取りにくさ」(「困難でない」と「少し困難」との境界程度)に対応するSTIが取得される。次に、空間設計処理(S24:設計ステップ)が行われる。S24に示す空間設計処理では、目標とするSTIに合わせて吸音材の枚数、配置等が設計される。例えば、設計のやり方としては、予め定められた初期値(又は推定値)の枚数の吸音材を、予め定められた初期パターンに則って配置し、吸音材を配置した当該空間のSTIを算定する。そして、目標とするSTIと実測したSTIとの差が小さくなるように、吸音材の枚数及び配置を初期値又は初期パターンから除々に変更していくことで、目標とするSTIに合わせた吸音材の枚数、配置等が設計される。空間設計処理が終了すると、
図5に示す処理が終了する。
【0031】
以上、本実施形態に係る空間特性設計方法によれば、第1実施形態にて算出されたSTIによって受聴者2側の聴き取りにくさを適切に評価して、発話空間5a(第1空間)の空間特性を設計することができる。
【0032】
なお、上述した各実施形態は本発明に係る評価値算定方法及び空間特性設計方法の一例を示すものである。本発明に係る評価値算定方法及び空間特性設計方法は、実施形態に限られるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、又は他のものに適用したものであってもよい。
【0033】
例えば、第1実施形態において、
図1中では、携帯電話ブース5が発話者1の頭部を覆う構造となっている例を示しているが、発話者1の全身が入ることができるブースであってもよい。
【0034】
また、本発明に係る空間設計方法は、第2実施形態の
図5のフローチャートに記載された方法に限られず、種々の方法を適用することができる。例えば、
図5のフローチャートでは、目標の「聴き取りにくさ」から目標とするSTIを導出し、目標とするSTIに基づいて設計を行う例を説明したが、S22に示す設計目標値取得処理において、S20の処理結果を用いることなく、例えば基準となる目標値などを取得してもよい。この場合、
図5のS20の目標設定処理は実行しなくてもよい。
【実施例】
【0035】
以下、上記効果を説明すべく本発明者が実施した実施例について述べる。
【0036】
[減衰除去インパルス応答波形]
幾何音響解析により、発話空間のインパルス応答波形と、減衰除去インパルス応答波形とを算出した。発話空間を5m
3とした。結果を
図6に示す。
図6の(A)は、算出されたインパルス応答波形であり、
図6の(B)は、
図6の(A)に示すインパルス応答波形から算出した減衰除去インパルス応答波形である。
図6のグラフは、横軸が時間[s]、縦軸が強度である。
図6の(A),(B)の比較より、減衰除去インパルス応答波形(特に0.025〜0.125[s]の間)では、インパルス応答波形の特徴的な反射音構造が強調されることが確認された。
【0037】
[評価値算定方法の効果]
発話空間5aのインパルス応答波形をシミュレーションにより算出した。また、発話空間5aの体積V及び平均吸音率をパラメータとして36種類のインパルス応答波形を算出した。体積V及び平均吸音率の組合せは以下のとおりである。
体積V:1m
3,5m
3,18m
3,74m
3,294m
3,1178m
3
平均吸音率:0.01,0.02,0.04,0.08,0.16,0.32
次に、それぞれ畳み込んだ36種類のインパルス応答波形を、アッテネータ(減衰器)を経由して携帯電話3の第1マイク3aへ入力し、通信系を介して携帯電話4へ伝送し、携帯電話4の第2スピーカ4aから出力させて録音した。この録音した音を被験者に聴かせて「聴き取りにくさ」の回答を得た。
【0038】
(比較例1)
発話空間5aのインパルス応答波形から求めたSTIと、聴き取りにくさとの関係をプロットした。結果を
図7の(A)に示す。
図7の(A)は、横軸がSTI、縦軸が「聴き取りにくさ」を示している。なお、縦軸は、「聴き取りにくくない」の境界下限値を0とし、「非常に聴き取りにくい」の代表値を1として、「聴き取りにくくない」「少し聴き取りにくい」「かなり聴き取りにくい」「非常に聴き取りにくい」のカテゴリ全体が0〜1の範囲に納まるように数値を調整した。
図7の(A)では、プロットした点の回帰直線を実線L1、弁別閾を一点鎖線L2、95%予測区間を破線L3で示している。なお、弁別閾は、TukeyのHDS(α=0.05)の範囲(±0.13)を示したものであり、「聴き取りにくさに明確な差異があると判断できる最小の心理的距離」である。
図7の(A)に示すとおり、回帰直線y=−1.86x+2.07の決定係数R
2は0.86と比較的高く、STIと聴き取りにくさとの間には高い負の相関が認められる。しかしながら、95%予測区間はHDSの範囲を超えている。このため、発話空間5aのインパルス応答波形から求めたSTIは、聴き取りにくさを予測するためには精度が十分であるとはいえない。
【0039】
(実施例1)
第1実施形態に係る評価値算定方法にて算出したSTIと聴き取りにくさとの関係をプロットした。結果を
図7の(B)に示す。
図7の(B)は、
図7の(A)と同様に、横軸がSTI、縦軸が「聴き取りにくさ」を示している。
図7の(B)では、プロットした点の回帰直線を実線L4、弁別閾を一点鎖線L5、95%予測区間を破線L6で示している。弁別閾は、
図7の(A)と同様に、TukeyのHDS(α=0.05)の範囲(±0.13)を示したものである。
図7の(B)に示すとおり、回帰直線y=−1.43x+1.13の決定係数R
2は0.92と比較例1に比べて高く、STIと聴き取りにくさとの間には非常に高い負の相関が認められる。さらに、95%予測区間はHDSの範囲とほぼ同様である。このため、第1実施形態に係る評価値算定方法にて算出したSTIは、聴き取りにくさを予測するために十分な精度であることが確認された。