(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025099403
(43)【公開日】2025-07-03
(54)【発明の名称】音処理装置および音処理プログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20250626BHJP
H04R 1/32 20060101ALI20250626BHJP
【FI】
H04R3/00 320
H04R1/32 320
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023216042
(22)【出願日】2023-12-21
(71)【出願人】
【識別番号】000004260
【氏名又は名称】株式会社デンソー
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】520124752
【氏名又は名称】株式会社ミライズテクノロジーズ
(74)【代理人】
【識別番号】110001128
【氏名又は名称】弁理士法人ゆうあい特許事務所
(72)【発明者】
【氏名】島ノ江 修平
(72)【発明者】
【氏名】高沢 剛史
(72)【発明者】
【氏名】種村 友貴
(72)【発明者】
【氏名】川内 正明
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】音の認識精度の低下を抑制する音処理装置および音処理プログラムを提供する。
【解決手段】音処理装置は、音源からマイクロホンアレイ20までの距離、音源から反射体までの距離およびマイクロホンアレイ20から反射体までの距離に基づいて、直接音をマイクロホンアレイ20に収音させる直接音用指向性を形成するとともに、音源からマイクロホンアレイ20までの距離および音源から反射体までの距離に基づいて、反射音をマイクロホンアレイ20に収音させる反射音用指向性を形成し、直接音用指向性および反射音用指向性が形成された状態でマイクロホンアレイ20にて収音された音のデータから、直接音および反射音を抽出し、直接音および反射音について認識を行う。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音源(12)から収音部(20)までの距離に関する値(d)、前記音源から、前記音源からの音を反射する反射体(14)までの距離に関する値(x1)および前記収音部から前記反射体までの距離に関する値(x2)に基づいて、前記音源から直接前記収音部に向かって伝搬する音である直接音を前記収音部に収音させる直接音用指向性を形成するとともに、前記音源から前記収音部までの距離に関する値(d)および前記音源から前記反射体までの距離に関する値(x1)に基づいて、前記音源からの音が前記反射体に反射して前記収音部に伝搬する音である反射音を前記収音部に収音させる反射音用指向性を形成する指向性形成部(S106)と、
前記直接音用指向性および前記反射音用指向性が形成された状態で前記収音部にて収音された音のデータから、前記直接音および前記反射音を抽出する抽出部(S112)と、
前記直接音および前記反射音について認識を行う認識部(S118)と、
を備える音処理装置。
【請求項2】
前記音処理装置は、
前記直接音の音圧に関する値が前記反射音の音圧に関する値以上であるとき、前記直接音を選択し、
前記直接音の音圧に関する値が前記反射音の音圧に関する値未満であるとき、前記反射音を選択する選択部(S114)をさらに備え、
前記認識部は、前記選択部によって選択された音について認識を行う請求項1に記載の音処理装置。
【請求項3】
前記選択部は、前記直接音の音圧に関する値、前記反射音の音圧に関する値、および、前記直接音の音圧と前記反射音の音圧とを平均した音の音圧に関する値のうち、値が最も大きい音を選択する請求項2に記載の音処理装置。
【請求項4】
前記認識部は、前記音源および前記収音部を結んだ直線と、前記音源が音を発する方向に延びる直線とでなす角度(θ)が第1閾値以上、第2閾値以下であるとき、前記反射音について認識を行う請求項1に記載の音処理装置。
【請求項5】
前記音源および前記収音部は、室内に配置されている請求項1、2、4のいずれか1つに記載の音処理装置。
【請求項6】
前記反射体は、ガラスを含む請求項1、2、4のいずれか1つに記載の音処理装置。
【請求項7】
前記反射体は、樹脂を含む請求項1、2、4のいずれか1つに記載の音処理装置。
【請求項8】
前記音処理装置は、前記音源および前記反射体の位置に基づいて、前記収音部の位置を変更させる制御部(S120)をさらに備える請求項1に記載の音処理装置。
【請求項9】
前記反射体は、前記音源および前記収音部とは反対側に向かって凸に湾曲しており、前記音源からの音を反射する曲面(145)を有する請求項1に記載の音処理装置。
【請求項10】
音処理装置を、
音源(12)から収音部(20)までの距離に関する値(d)、前記音源から、前記音源からの音を反射する反射体(14)までの距離に関する値(x1)および前記収音部から前記反射体までの距離に関する値(x2)に基づいて、前記音源から直接前記収音部に向かって伝搬する音である直接音を前記収音部に収音させる直接音用指向性を形成するとともに、前記音源から前記収音部までの距離に関する値(d)および前記音源から前記反射体までの距離に関する値(x1)に基づいて、前記音源からの音が前記反射体に反射して前記収音部に伝搬する音である反射音を前記収音部に収音させる反射音用指向性を形成する指向性形成部(S106)、
前記直接音用指向性および前記反射音用指向性が形成された状態で前記収音部にて収音された音のデータから、前記直接音および前記反射音を抽出する抽出部(S112)、および、
前記直接音および前記反射音について認識を行う認識部(S118)として機能させる音処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音処理装置および音処理プログラムに関するものである。
【背景技術】
【0002】
従来、特許文献1に記載されているように、収音部から入力された音声信号を音源からの直接音と反射音に分離する音源分離部と、分離した直接音の音声を認識する音声認識部とを備える音声処理装置が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された音声処理装置では、車室内のような室内にて収音された音から分離された反射音は、音声認識部の認識対象から除外される。しかし、音源の向きによって、例えば、音源が収音部に正対していない場合、直接音が反射音よりも収音部に到達しにくくなることから、反射音の音圧は、直接音の音圧よりも大きくなる。これにより、特許文献1に記載された音声処理装置のように反射音が音声認識部の認識対象から除外されると、音圧が比較的小さい直接音を認識することとなるため、音声認識精度が低下する。
【0005】
本開示は、音の認識精度の低下を抑制する音処理装置および音処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、音源(12)から収音部(20)までの距離に関する値(d)、音源から、音源からの音を反射する反射体(14)までの距離に関する値(x1)および収音部から反射体までの距離に関する値(x2)に基づいて、音源から直接収音部に向かって伝搬する音である直接音を収音部に収音させる直接音用指向性を形成するとともに、音源から収音部までの距離に関する値(d)および音源から反射体までの距離に関する値(x1)に基づいて、音源からの音が反射体に反射して収音部に伝搬する音である反射音を収音部に収音させる反射音用指向性を形成する指向性形成部(S106)と、直接音用指向性および反射音用指向性が形成された状態で収音部にて収音された音のデータから、直接音および反射音を抽出する抽出部(S112)と、直接音および反射音について認識を行う認識部(S118)と、を備える音処理装置である。
また、請求項10に記載の発明は、音処理装置を、音源(12)から収音部(20)までの距離に関する値(d)、音源から、音源からの音を反射する反射体(14)までの距離に関する値(x1)および収音部から反射体までの距離に関する値(x2)に基づいて、音源から直接収音部に向かって伝搬する音である直接音を収音部に収音させる直接音用指向性を形成するとともに、音源から収音部までの距離に関する値(d)および音源から反射体までの距離に関する値(x1)に基づいて、音源からの音が反射体に反射して収音部に伝搬する音である反射音を収音部に収音させる反射音用指向性を形成する指向性形成部(S106)、直接音用指向性および反射音用指向性が形成された状態で収音部にて収音された音のデータから、直接音および反射音を抽出する抽出部(S112)、および、直接音および反射音について認識を行う認識部(S118)として機能させる音処理プログラムである。
【0007】
これにより、直接音用指向性および反射音用指向性が形成されることから、直接音および反射音のSNRが向上する。また、直接音の音圧が比較的小さいときであっても、反射音は、除外されないで、反射音についてシグナルとして認識が行われる。このため、比較的小さい音を認識することが抑制される。したがって、音の認識精度の低下が抑制される。なお、SNRは、Signal Noise Ratioの略である。
【0008】
なお、各構成要素等に付された括弧付きの参照符号は、その構成要素等と後述する実施形態に記載の具体的な構成要素等との対応関係の一例を示すものである。
【図面の簡単な説明】
【0009】
【
図1】第1実施形態の音処理装置が用いられる車両の車室内を示す図。
【
図4】車室内を伝搬する音の指向性を説明するための図。
【
図5】時刻に対する直接音の音圧、反射音の音圧、直接音と反射音の平均音圧を示す図。
【
図6】音源角度に対する直接音の等価音圧レベルおよび反射音の等価音圧レベルを示す図。
【
図7】第2実施形態の音処理装置が用いられる車両の車室内を示す図。
【
図8】第3実施形態の音処理装置が用いられる車両の車室内を示す図。
【
図9】第4実施形態の音処理装置が用いられる車両の構成ブロック図。
【
図11】第5実施形態の音処理装置が用いられる車両の車室内を示す図。
【
図12】音処理装置が用いられる車両の車室内を示す図。
【発明を実施するための形態】
【0010】
以下、実施形態について図面を参照しつつ説明する。なお、以下の各実施形態相互において、互いに同一もしくは均等である部分には、同一符号を付し、その説明を省略する。
【0011】
(第1実施形態)
本実施形態の音処理装置は、音の認識精度の低下を抑制する。この音処理装置は、例えば、車両に用いられる。まず、この車両について説明する。
【0012】
図1に示すように、車両10には、乗員12が搭乗されている。乗員12の口が、ここでは、音源とされている。また、車両10は、乗員12の声を反射する反射体14を備える。反射体14は、車両10の窓やドアの内壁等である。このため、反射体14は、ガラスや樹脂を含む。さらに、
図2に示すように、車両10は、マイクロホンアレイ20、センサ25および音処理装置30を備える。
【0013】
マイクロホンアレイ20は、収音部に相当しており、例えば、
図1に示すように、乗員12の前方に配置されている。また、マイクロホンアレイ20は、複数配列されたマイクロホンを有することにより、乗員12の声等を含む車両10の車室内の音を収音する。さらに、
図2に戻って、マイクロホンアレイ20は、収音した音のデータを、後述の音処理装置30に出力する。
【0014】
センサ25は、例えば、カメラ等の画像センサを有する。また、センサ25は、画像認識、教師データおよび機械学習等を用いることにより、音源の位置および向き、ここでは、乗員12の口の位置および向きを検出する。さらに、センサ25は、この検出した乗員12の口の位置および向きに応じた信号を、後述の音処理装置30に出力する。
【0015】
ここで、
図1に示すように、乗員12の口からマイクロホンアレイ20の中心までの最短距離をアレイ距離dとする。乗員12の口からマイクロホンアレイ20に向かう方向と直交する方向における、乗員12の口から反射体14までの距離を第1距離x1とする。乗員12の口からマイクロホンアレイ20に向かう方向と直交する方向における、マイクロホンアレイ20の中心から反射体14までの距離を第2距離x2とする。なお、ここでは、第1距離x1および第2距離x2は、車両10の左右方向の距離とされている。
【0016】
図2に戻って、音処理装置30は、マイコン等を主体として構成されており、CPU、ROM、フラッシュメモリ、RAM、I/O、A/Dコンバータおよびこれらの構成を接続するバスライン等を備えている。また、音処理装置30は、ROMに記憶されたプログラムを実行する。これにより、音処理装置30は、センサ25によって検出された乗員12の口の位置、予め設定されたマイクロホンアレイ20の中心の位置および予め設定された反射体14の位置に基づいて、アレイ距離d、第1距離x1および第2距離x2を算出する。なお、ここでは、マイクロホンアレイ20の中心および反射体14の位置は、予め設定されているところ、予め設定されていることに限定されないで、センサ25によって検出されてもよい。音処理装置30は、センサ25によって検出された、乗員12の口、マイクロホンアレイ20の中心および反射体14の位置に基づいて、アレイ距離d、第1距離x1および第2距離x2を算出してもよい。
【0017】
さらに、音処理装置30は、これらの算出したアレイ距離d、第1距離x1および第2距離x2に基づいて、直接音用指向性および反射音用指向性を形成する。なお、直接音は、音源から直接マイクロホンアレイ20に向かって伝搬する音である。直接音用指向性は、直接音をマイクロホンアレイ20に収音させる指向性である。指向性とは、ここでは、マイクロホンアレイ20がどの方向から収音できるかという特性をいう。反射音は、音源からの音が反射体14にて反射してマイクロホンアレイ20に伝搬する音である。反射音用指向性は、反射音をマイクロホンアレイ20に収音させる指向性である。また、反射音の反射回数は、ここでは、音の減衰性や音の方向の特定困難性から、3回以下とされている。このため、4回以上の反射が生じた場合の音は、ここでは、ノイズとされている。
【0018】
さらに、音処理装置30は、上記直接音用指向性および反射音用指向性が形成された状態でマイクロホンアレイ20にて収音された音のデータから、直接音および反射音を抽出する。また、音処理装置30は、これらの抽出した直接音および反射音について認識を行う。なお、音処理装置30の処理の詳細については、後述する。
【0019】
以上のように、第1実施形態の音処理装置30を備える車両10は、構成されている。次に、音処理装置30のプログラムが実行されたときの処理について、
図3のフローチャートを参照して説明する。なお、音処理装置30のプログラムは、例えば、車両10の電源がオンされたとき、実行される。さらに、音処理装置30のステップS100の処理が開始されてからステップS100の処理に戻るまでの一連の動作の期間を音処理装置30の制御周期とする。
【0020】
ステップS100において、音処理装置30は、音源の位置および向き、ここでは、乗員12の口の位置および向きをセンサ25から取得する。
【0021】
続いて、ステップS102において、音処理装置30は、ステップS100にて取得した乗員12の口の位置および前回制御周期の乗員12の口の位置を比較する。これにより、音処理装置30は、音源の位置が変更されたか否かを判定する。
【0022】
例えば、音処理装置30は、前回制御周期の乗員12の口の位置座標と今回制御周期の乗員12の口の位置座標との変化量が変化閾値以上であるとき、音源の位置変化が大きいため、音源の位置が変更されたと判定する。このとき、音処理装置30の処理は、ステップS104に移行する。また、音処理装置30は、今回制御周期の乗員12の口の位置座標と前回制御周期の乗員12の口の位置座標との変化量が変化閾値未満であるとき、音源の位置変化が小さいため、音源の位置が変更されていないと判定する。このとき、音処理装置30の処理は、ステップS106に移行する。なお、上記変化閾値は、音源の位置が変更されたか否かが判定されるように、実験やシミュレーション等によって設定される。
【0023】
ステップS102に続くステップS104において、音源の位置が変更されたことから、後述の指向性を形成し直すため、音処理装置30は、アレイ距離d、第1距離x1および第2距離x2を算出する。
【0024】
具体的には、音処理装置30は、ステップS100にて取得した乗員12の口の位置と、予め設定されたマイクロホンアレイ20の中心の位置とから、アレイ距離dを算出する。さらに、音処理装置30は、ステップS100にて取得した乗員12の口の位置と、予め設定された反射体14の位置とから、第1距離x1を算出する。また、音処理装置30は、予め設定されたマイクロホンアレイ20の中心の位置と、予め設定された反射体14の位置とから、第2距離x2を算出する。なお、上記したように、マイクロホンアレイ20の中心および反射体14の位置は、センサ25によって検出されてもよい。音処理装置30は、センサ25によって検出された、乗員12の口、マイクロホンアレイ20の中心および反射体14の位置に基づいて、アレイ距離d、第1距離x1および第2距離x2を算出してもよい。
【0025】
ステップS106において、音源の位置が変更された場合、音処理装置30は、今回制御周期のステップS104にて算出したアレイ距離d、第1距離x1および第2距離x2に基づいて、直接音用指向性および反射音用指向性を形成する。また、音源の位置が変更されていない場合、音処理装置30は、前回制御周期のステップS106にて形成したア直接音用指向性および反射音用指向性を用いる。
【0026】
具体的には、音処理装置30は、アレイ距離d、第1距離x1および第2距離x2を下記関係式(1-1)に代入する。これにより、音処理装置30は、
図4に示すように、直接音を収音させる指向性に関する角度である直接音用角度Φdを算出する。また、音処理装置30は、この算出した直接音用角度Φdおよび遅延和ビームフォーマ等のビームフォーミングを用いて、直接音用指向性を形成する。さらに、ここでは、反射音は、音源の鏡像、すなわち、乗員12の鏡像からマイクロホンアレイ20に伝搬するものとされる。そして、音処理装置30は、アレイ距離dおよび第1距離x1を下記関係式(1-2)に代入する。これにより、音処理装置30は、反射音を収音させる指向性に関する角度である反射音用角度Φrを算出する。また、音処理装置30は、この算出した反射音用角度Φrおよび遅延和ビームフォーマ等のビームフォーミングを用いて、反射音用指向性を形成する。なお、
図4では、直接音用角度Φdが0ラジアンとされている。
【0027】
【0028】
図3のフローチャートに戻り、続いて、ステップS108において、音処理装置30は、ステップS106の直接音用指向性および反射音用指向性が形成された状態でマイクロホンアレイ20にて収音された音のデータを取得する。
【0029】
続いて、ステップS110において、音処理装置30は、VAD等のSEDを用いて、ステップS108にて取得した音データのうち、音が発せられている区間を検出する。なお、VADは、Voice Activity Detectionの略である。SEDは、Sound Event Detectionの略である。
【0030】
ここで、直接音がマイクロホンアレイ20に到達する時間と、反射音がマイクロホンアレイ20に到達する時間とは、異なる。また、この時間差は、音源の向き、ここでは、乗員12の口の向きによって異なる。
【0031】
したがって、ステップS110に続くステップS112において、音処理装置30は、例えば、ステップS100にて取得した音源の向きおよびステップS110にて検出した音区間の時間から、
図5に示すように、直接音および反射音を抽出する。
【0032】
図3のフローチャートに戻り、続いて、ステップS114において、音処理装置30は、下記関係式(1-3)を用いて、ステップS112にて抽出した直接音の等価音圧レベルを算出する。また、音処理装置30は、下記関係式(1-4)を用いて、ステップS112にて抽出した反射音の等価音圧レベルを算出する。さらに、音処理装置30は、ステップS112にて抽出した直接音および反射音の音圧の平均、例えば、加算平均を算出する。また、音処理装置30は、下記関係式(1-5)を用いて、この直接音の音圧と反射音の音圧とを平均した音の等価音圧レベルを算出する。なお、下記関係式において、sは、サンプル数または時刻である。poは、基準音圧であって、例えば、空気中である場合の20μPaである。Lp_dは、直接音の等価音圧レベルである。sd1は、直接音が開始されるときのサンプル数または時刻である。sd2は、直接音が終了するときのサンプル数または時刻である。pd(s)は、sに対する直接音の音圧である。Lp_rは、反射音の等価音圧レベルである。sr1は、反射音が開始されるときのサンプル数または時刻である。sr2は、反射音が終了するときのサンプル数または時刻である。pr(s)は、sに対する反射音の音圧である。Lp_aveは、直接音の音圧と反射音の音圧とを平均した音の等価音圧レベルである。s1は、直接音の音圧と反射音の音圧とを平均した音が開始されるときのサンプル数または時刻である。s2は、直接音の音圧と反射音の音圧とを平均した音が終了するときのサンプル数または時刻である。pave(s)は、sに対する直接音の音圧と反射音の音圧とを平均した音の音圧である。
【0033】
【0034】
また、音処理装置30は、上記にて算出した直接音、反射音および直接音の音圧と反射音の音圧とを平均した音の等価音圧レベルを比較する。これにより、音処理装置30は、後述の音認識を行う音を選択する。具体的には、音処理装置30は、直接音、反射音および直接音の音圧と反射音の音圧とを平均した音のうち、等価音圧レベルが最も大きい音を選択する。例えば、直接音の等価音圧レベルが反射音の等価音圧レベルおよび直接音の音圧と反射音の音圧とを平均した音の等価音圧レベル以上であるとき、音処理装置30は、直接音を選択する。また、反射音の等価音圧レベルが直接音の等価音圧レベルおよび直接音の音圧と反射音の音圧とを平均した音の等価音圧レベル以上であるとき、音処理装置30は、反射音を選択する。さらに、直接音の音圧と反射音の音圧とを平均した音の等価音圧レベルが直接音の等価音圧レベルおよび反射音の等価音圧レベル以上であるとき、音処理装置30は、直接音の音圧と反射音の音圧とを平均した音を選択する。
【0035】
続いて、ステップS116において、音処理装置30は、ステップS114にて選択した音に対して、NMF等を用いて、BSS等の音源分離を行う。これにより、音処理装置30は、ステップS114にて選択した音に含まれるノイズを除去する。なお、NMFは、Nonnegative Matrix Factorizationの略である。BSSは、Blind Source Separationの略である。
【0036】
続いて、ステップS118において、音処理装置30は、ステップS116にて音源分離を行った音に対して、音の認識を行う。例えば、音処理装置30は、音声認識エンジン等を用いることにより、ステップS116にて音源分離を行った音を文字データに変換する。また、音処理装置30は、変換した文字データを図示しないディスプレイに出力する。これにより、車室内の乗員12の音声等の音に対応する文字が図示しないディスプレイに表示される。その後、音処理装置30の処理は、ステップS100に戻る。
【0037】
以上のように、音処理装置30は、処理を行う。次に、音処理装置30による音の認識精度の低下抑制について説明する。
【0038】
ここで、
図4に示すように、乗員12の口およびマイクロホンアレイ20の中心を結んだ直線と、乗員12が音を発する方向に延びる直線とでなす角度を音源角度θとする。音を発する方向とは、例えば、音の主たるエネルギーを放射する方向、または、音圧が最も大きい成分の方向である。また、例えば、アレイ距離dが第1距離x1の2倍、かつ、直接音用角度Φdが0ラジアンであるとする。このとき、
図6に示すように、音源角度θの変化に伴って、直接音および反射音の等価音圧レベルが変化する。さらに、直接音が反射音よりもマイクロホンアレイ20に到達しにくくなる音源角度θの範囲があることから、反射音の等価音圧レベルが直接音の等価音圧レベルよりも大きくなる音源角度θの範囲がある。これにより、特許文献1に記載された音声処理装置のように反射音が音声認識部の認識対象から除外されると、音圧が比較的小さい直接音を認識することとなるため、音声認識精度が低下する。
【0039】
これに対して、本実施形態の音処理装置30は、ステップS106にて、アレイ距離d、第1距離x1および第2距離x2に基づいて、直接音用指向性を形成する。また、音処理装置30は、アレイ距離dおよび第1距離x1に基づいて、反射音用指向性を形成する指向性形成部としての役割を果たす。さらに、音処理装置30は、ステップS112にて、直接音用指向性および反射音用指向性が形成された状態でマイクロホンアレイ20にて収音された音のデータから、直接音および反射音を抽出する抽出部としての役割を果たす。また、音処理装置30は、ステップS118にて、直接音および反射音について認識を行う認識部としての役割を果たす。
【0040】
これにより、直接音用指向性および反射音用指向性が形成されることから、直接音および反射音のSNRが向上する。また、直接音の音圧が比較的小さいときであっても、反射音は、除外されないで、反射音についてシグナルとして認識が行われる。このため、比較的小さい音を認識することが抑制される。したがって、音の認識精度の低下が抑制される。
【0041】
また、ここで、特開2019-176430号公報に記載されているように、車両に搭載される音声認識装置が知られている。この音声認識装置は、複数のマイクに入力される音圧および着座センサからの信号に基づいて、音声入力に使用するマイクを選択し、選択したマイクに対応するランプを点灯させる。さらに、この音声認識装置は、ランプの点灯により、発話者の向きをマイクに向けさせる。
【0042】
しかし、ランプの点灯は、車外の風景を楽しみたい人や座席でくつろいでいる人に対して阻害となったり、不快となったりする。また、ランプが点灯したとしても、発話者がマイクに向かって発話するとは限らない。
【0043】
これに対して、本実施形態の音処理装置30では、直接音用指向性および反射音用指向性が形成されることから、音源の向きにかかわらず、SNRが向上する。このため、特開2019-176430号公報に記載された音声認識装置のように、音源の向きをマイクに向けさせる必要がなくなる。
【0044】
また、第1実施形態では、以下に記載する効果も奏する。
【0045】
[1-1]音処理装置30は、ステップS114にて、直接音、反射音および直接音の音圧と反射音の音圧とを平均した音のうち、等価音圧レベルが最も大きい音を選択する選択部としての役割を果たす。
【0046】
これにより、音圧が比較的小さい音の認識が行われることが抑制される。したがって、音の認識精度の低下が抑制される。また、直接音の音圧と反射音の音圧とを平均した音が用いられるため、ノイズがホワイトノイズである場合には、ノイズ成分が平滑化されることにより低減される。このため、認識が行われる音が強調されやすくなる。
【0047】
[1-2]音源に相当する乗員12およびマイクロホンアレイ20は、車室内のような室内に配置されている。
【0048】
これにより、音源およびマイクロホンアレイ20が室外に配置される場合と比較して、音が反射体14にて反射されやすい。このため、マイクロホンアレイ20は、反射音を収音しやすくなる。したがって、反射音についての認識精度低下が抑制される。
【0049】
[1-3]音を反射する反射体14は、ガラスや樹脂を含む。これにより、反射体14が音を吸収しやすいゴム等で形成される場合と比較して、反射体14が音を反射しやすくなる。このため、マイクロホンアレイ20は、反射音を収音しやすくなる。したがって、反射音についての認識精度低下が抑制される。
【0050】
(変形例1)
上記第1実施形態では、音処理装置30は、直接音、反射音および直接音の音圧と反射音の音圧とを平均した音のうち、等価音圧レベルが最も大きい音を選択する。これに対して、音処理装置30は、直接音の音圧と反射音の音圧とを平均した音を用いないで、直接音および反射音から選択してもよい。
【0051】
具体的には、音処理装置30は、ステップS114にて、直接音の等価音圧レベルが反射音の等価音圧レベル以上であるとき、直接音を選択する。また、音処理装置30は、直接音の等価音圧レベルが反射音の等価音圧レベル未満であるとき、反射音を選択する。このような形態であっても、第1実施形態と同様の効果を奏する。
【0052】
また、音処理装置30は、ステップS114の選択を行わないで、直接音、反射音および直接音の音圧と反射音の音圧とを平均した音のそれぞれに対して、音源分離および認識を行ってもよい。すなわち、ステップS114の処理がなくてもよい。このような形態であっても、第1実施形態と同様の効果を奏する。
【0053】
(変形例2)
ここで、
図6に示すように、反射音の等価音圧レベルが直接音の等価音圧レベルよりも大きくなる音源角度θの範囲がある。このため、音処理装置30は、ステップS114にて、音源角度θが第1閾値以上、第2閾値以下であるとき、反射音について認識を行う。このような形態であっても、第1実施形態と同様の効果を奏する。なお、第1閾値および第2閾値は、反射音の等価音圧レベルが直接音の等価音圧レベルよりも大きくなる音源角度θの範囲が設定されるように、実験やシミュレーション等によって設定される。例えば、アレイ距離dが第1距離x1の2倍、かつ、直接音用角度Φdが0ラジアンである場合、第1閾値は、1/4×πラジアン付近の値である。また、第2閾値は、πラジアン付近の値である。
【0054】
(第2実施形態)
第2実施形態では、音を反射する反射体14の形態が第1実施形態と異なる。また、音源の姿勢が第1実施形態と異なる。これら以外は、第1実施形態と同様である。
【0055】
反射体14は、車両10の窓やドアの内壁等に代えて、
図7に示すように、車両10の天井やサンルーフ等である。このため、ここでは、第1距離x1および第2距離x2は、車両10の上下方向の距離とされている。また、車両10の座席の背もたれ部が倒されていることにより、音源に相当する乗員12は、横たわっている。なお、
図7では、直接音用角度Φdが0ラジアンとされている。
【0056】
以上のように、第2実施形態の音処理装置30は、構成されている。この第2実施形態においても、第1実施形態と同様の効果を奏する。
【0057】
(第3実施形態)
第3実施形態では、音を反射する反射体14の形態が第1実施形態と異なる。また、音処理装置30の処理が第1実施形態と異なる。これら以外は、第1実施形態と同様である。
【0058】
反射体14は、
図8に示すように、第1反射体141および第2反射体142を含む。第1反射体141は、乗員12に比較的近い場所に位置している。第1距離x1は、乗員12の口からマイクロホンアレイ20に向かう方向と直交する方向における、乗員12の口から第1反射体141までの距離に対応する。第2距離x2は、乗員12の口からマイクロホンアレイ20に向かう方向と直交する方向における、マイクロホンアレイ20の中心から第1反射体141までの距離に対応する。なお、
図8では、直接音用角度Φdが0ラジアンとされている。
【0059】
第2反射体142は、乗員12から第1反射体141よりも離れている場所、例えば、第1反射体141とは反対側に位置している。また、ここで、乗員12の口からマイクロホンアレイ20に向かう方向と直交する方向における、乗員12の口から第2反射体142までの距離を第3距離x3とする。
【0060】
以上のように、第3実施形態の音処理装置30は、構成されている。次に、第3実施形態における音処理装置30の処理について説明する。
【0061】
音処理装置30のステップS100からステップS104までの処理は、上記第1実施形態と同様に行われる。
【0062】
ステップS106において、音処理装置30は、直接音用指向性および第1反射音用指向性を上記第1実施形態と同様に形成する。さらに、音処理装置30は、第2反射音用指向性を形成する。なお、第1反射音用指向性は、上記反射音用指向性に対応する。第1反射音は、音源からの音が第1反射体141に反射してマイクロホンアレイ20に伝搬する音である。第2反射音用指向性は、第2反射音をマイクロホンアレイ20に収音させる指向性である。第2反射音は、音源からの音が第2反射体142に反射してマイクロホンアレイ20に伝搬する音である。
【0063】
具体的には、音処理装置30は、アレイ距離dおよび第3距離x3を下記関係式(2)に代入する。これにより、音処理装置30は、
図8に示すように、第2反射音を収音させる指向性に関する角度である第2反射音用角度Φsを算出する。また、音処理装置30は、この算出した第2反射音用角度Φsおよび遅延和ビームフォーマ等のビームフォーミングを用いて、第2反射音用指向性を形成する。
【0064】
【0065】
ステップS106に続くステップS108からステップS110までの処理は、上記第1実施形態と同様に行われる。
【0066】
ステップS110に続くステップS112において、音処理装置30は、ステップS110にて検出した音区間から、直接音、第1反射音および第2反射音を抽出する。
【0067】
続いて、ステップS114において、音処理装置30は、上記第1実施形態と同様に、直接音および第1反射音の等価音圧レベルを算出する。さらに、音処理装置30は、第2反射音の等価音圧レベルを算出する。また、音処理装置30は、直接音の音圧と第1反射音の音圧と第2反射音の音圧とを平均した音の等価音圧レベルを算出する。
【0068】
さらに、音処理装置30は、直接音、第1反射音、第2反射音、および、直接音の音圧と第1反射音の音圧と第2反射音の音圧とを平均した音のうち、等価音圧レベルが最も大きい音を選択する。
【0069】
ステップS114に続くステップS116からステップS118までの処理は、上記第1実施形態と同様に行われる。
【0070】
以上のように、第3実施形態の音処理装置30は、処理を行う。このような第3実施形態においても、第1実施形態と同様の効果を奏する。
【0071】
(第4実施形態)
第4実施形態では、車両10は、
図9に示すように、アレイ移動装置35をさらに備える。また、音処理装置30の処理が第1実施形態と異なる。これら以外は、第1実施形態と同様である。
【0072】
アレイ移動装置35は、直動ガイドやモータ等を有することにより、後述の音処理装置30からの信号に基づいて、マイクロホンアレイ20の位置および向きを変更する。
【0073】
次に、第4実施形態の音処理装置30の処理について、
図10のフローチャートを参照して説明する。
【0074】
ステップS100において、音処理装置30は、乗員12および反射体14の位置をセンサ25から取得する。なお、ここでは、反射体14の位置は、センサ25によって検出されたものであるところ、これに限定されないで、予め設定されてもよい。
【0075】
ステップS100に続くステップS120において、音処理装置30は、乗員12および反射体14の位置に基づいて、アレイ移動装置35を制御する。これにより、音処理装置30は、乗員12および反射体14の位置に基づいて、マイクロホンアレイ20の位置を変更させる。例えば、音処理装置30は、マイクロホンアレイ20が反射音を収音しやすい位置に、マイクロホンアレイ20の位置を変更させる。
【0076】
ステップS120に続くステップS104において、音処理装置30は、ステップS100にて取得した音源および反射体14の位置と、ステップS120にて移動させたマイクロホンアレイ20の位置とから、各距離を算出する。なお、各距離は、アレイ距離d、第1距離x1および第2距離x2である。
【0077】
ステップS104に続くステップS106からステップS118までの処理は、上記第1実施形態と同様に行われる。
【0078】
以上のように、第4実施形態の音処理装置30は、処理を行う。このような第4実施形態においても、第1実施形態と同様の効果を奏する。また、第4実施形態では、以下に記載する効果も奏する。
【0079】
[2]音処理装置30は、音源および反射体14の位置に基づいて、マイクロホンアレイ20の位置を変更させる制御部としての役割を果たす。
【0080】
これにより、音源および反射体14の位置が変化しても、マイクロホンアレイ20が反射音を収音しやすい位置に、マイクロホンアレイ20の位置を変更させることができる。このため、マイクロホンアレイ20は、反射音を収音しやすくなる。したがって、反射音についての認識精度低下が抑制される。
【0081】
(第5実施形態)
第5実施形態では、反射体14の形態が第1実施形態と異なる。これ以外は、第1実施形態と同様である。
【0082】
反射体14は、
図11および
図12に示すように、乗員12およびマイクロホンアレイ20とは反対側、ここでは、車両10の車室外側に向かって凸に湾曲しており、音源からの音を反射する曲面145を有する。なお、この場合、音処理装置30は、アレイ距離d、第1距離x1および第2距離x2に加えて、曲面145の曲率を用いて、直接音用角度Φdを算出する。このため、
図11および
図12では、直接音用角度Φdが0ラジアンとされている。
【0083】
以上のように、第5実施形態の音処理装置30は、構成されている。この第5実施形態においても、第1実施形態と同様の効果を奏する。また、第5実施形態では、以下に記載する効果も奏する。
【0084】
[3]反射体14の曲面145により、音源からの音は、反射体14が平面状である場合と比較して、反射体14にて反射されやすい。このため、マイクロホンアレイ20は、反射音を収音しやすくなる。したがって、反射音についての認識精度低下が抑制される。
【0085】
(他の実施形態)
本開示は、上記実施形態に限定されるものではなく、上記実施形態に対して、適宜変更が可能である。また、上記各実施形態において、実施形態を構成する要素は、特に必須であると明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
【0086】
本開示に記載の指向性形成部、抽出部、認識部、選択部、制御部等およびその手法は、コンピュータプログラムにより具体化された一つ乃至は複数の機能を実行するようにプログラムされたプロセッサおよびメモリを構成することによって提供された専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の指向性形成部、抽出部、認識部、選択部、制御部等およびその手法は、一つ以上の専用ハードウエア論理回路によってプロセッサを構成することによって提供された専用コンピュータにより、実現されてもよい。もしくは、本開示に記載の指向性形成部、抽出部、認識部、選択部、制御部等およびその手法は、一つ乃至は複数の機能を実行するようにプログラムされたプロセッサおよびメモリと一つ以上のハードウエア論理回路によって構成されたプロセッサとの組み合わせにより構成された一つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。
【0087】
上記各実施形態では、音処理装置30は、車両10における音に用いられる。これに対して、音処理装置30は、車両10における音に用いられることに限定されない。例えば、音処理装置30は、住宅等の建物における音に用いられてもよく、音源およびマイクロホンアレイ20が建物の室内に配置されてもよい。
【0088】
上記各実施形態では、音を選択する際に用いられる音圧に関する値として、等価音圧レベルが挙げられている。これに対して、音圧に関する値は、等価音圧レベルであることに限定されないで、単に音圧等が用いられてもよい。
【0089】
上記各実施形態では、センサ25は、カメラ等の画像センサにより、音源の位置としての乗員12の口の位置を検出する。これに対して、音源の位置の検出手段は、カメラ等の画像センサであることに限定されない。例えば、センサ25は、着座センサ、シート位置検出センサおよびリクライニング角度センサを有する。着座センサは、乗員12がどの座席に着座しているかを検出する。シート位置検出センサは、乗員12の座席の位置座標を検出する。リクライニング角度センサは、乗員12の座席の背もたれ部の角度を検出する。そして、センサ25は、これらによって検出された乗員12の座席の位置座標および座席の背もたれ部の角度から、乗員12の頭の位置を検出する。また、センサ25は、この検出した乗員12の頭の位置を、音源の位置として音処理装置30に出力してもよい。さらに、この場合、音源の位置に誤差があるため、音処理装置30は、例えば、直接音用角度Φdをゼロとして直接音用指向性を形成してもよい。
【0090】
上記各実施形態および各変形例は、適宜組み合わされてもよい。
【符号の説明】
【0091】
10 車両
12 音源
14 反射体
20 マイクロホンアレイ
30 音処理装置