IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-音信号処理方法および音信号処理装置 図1
  • 特開-音信号処理方法および音信号処理装置 図2
  • 特開-音信号処理方法および音信号処理装置 図3
  • 特開-音信号処理方法および音信号処理装置 図4
  • 特開-音信号処理方法および音信号処理装置 図5
  • 特開-音信号処理方法および音信号処理装置 図6
  • 特開-音信号処理方法および音信号処理装置 図7
  • 特開-音信号処理方法および音信号処理装置 図8
  • 特開-音信号処理方法および音信号処理装置 図9
  • 特開-音信号処理方法および音信号処理装置 図10
  • 特開-音信号処理方法および音信号処理装置 図11
  • 特開-音信号処理方法および音信号処理装置 図12
  • 特開-音信号処理方法および音信号処理装置 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022062876
(43)【公開日】2022-04-21
(54)【発明の名称】音信号処理方法および音信号処理装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20220414BHJP
【FI】
H04R3/00 320
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2020171052
(22)【出願日】2020-10-09
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】特許業務法人 楓国際特許事務所
(72)【発明者】
【氏名】鵜飼 訓史
(72)【発明者】
【氏名】田中 良
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC02
5D220BC08
(57)【要約】
【課題】話者の姿勢に応じて適切に話者の音声を取得できる音信号処理方法および音信号処理装置を提供する。
【解決手段】音信号処理方法は、話者の音声に係る音信号を入力し、話者画像を取得し、前記話者画像から前記話者の姿勢情報を推定し、推定した前記姿勢情報に応じた補正フィルタを生成し、前記補正フィルタに係るフィルタ処理を前記音信号に施し、前記フィルタ処理を施した後の音信号を出力する。
【選択図】図10
【特許請求の範囲】
【請求項1】
話者の音声に係る音信号を入力し、
話者画像を取得し、
前記話者画像から前記話者の姿勢情報を推定し、
推定した前記姿勢情報に応じた補正フィルタを生成し、
前記補正フィルタに係るフィルタ処理を前記音信号に施し、
前記フィルタ処理を施した後の音信号を出力する、
音信号処理方法。
【請求項2】
前記姿勢情報は、前記話者の顔の向きを含み、
前記補正フィルタは、前記顔の向きに応じて減衰するレベルを補償する処理を含む、
請求項1に記載の音信号処理方法。
【請求項3】
前記補正フィルタは、イコライザを含む、
請求項1または請求項2に記載の音信号処理方法。
【請求項4】
前記姿勢情報は、顔の左右の向きを示す情報を含み、
前記顔の左右の向きに応じて前記補正フィルタを生成する、
請求項1乃至請求項3のいずれか1項に記載の音信号処理方法。
【請求項5】
前記補正フィルタは、前記顔の左右の向きが大きいほど高域のレベルを高くする、または低域のレベルを低くする処理を含む、
請求項4に記載の音信号処理方法。
【請求項6】
前記姿勢情報は、後ろ向きの姿勢の情報を含む、
請求項1乃至請求項5のいずれか1項に記載の音信号処理方法。
【請求項7】
前記話者画像から前記話者の位置情報を推定し、
前記位置情報に基づいて前記補正フィルタを生成し、
前記位置情報の推定速度は、前記姿勢情報の推定速度よりも速く、
前記補正フィルタは、前記位置情報を推定した時、および前記姿勢情報を推定した時、のそれぞれのタイミングで生成される、
請求項1乃至請求項6のいずれか1項に記載の音信号処理方法。
【請求項8】
話者の音声に係る音信号を入力する音信号入力部と、
話者画像を取得する画像取得部と、
前記話者画像から前記話者の姿勢情報を推定する位置推定部と、
推定した前記姿勢情報に応じた補正フィルタを生成するフィルタ生成部と、
前記補正フィルタに係るフィルタ処理を前記音信号に施す音信号処理部と、
前記フィルタ処理を施した後の音信号を出力する出力部と、
備えた音信号処理装置。
【請求項9】
前記姿勢情報は、前記話者の顔の向きを含み、
前記補正フィルタは、前記顔の向きに応じて減衰するレベルを補償する処理を含む、
請求項8に記載の音信号処理装置。
【請求項10】
前記補正フィルタは、イコライザを含む、
請求項8または請求項9に記載の音信号処理装置。
【請求項11】
前記姿勢情報は、顔の左右の向きを示す情報を含み、
前記フィルタ生成部は、前記顔の左右の向きに応じて前記補正フィルタを生成する、
請求項8乃至請求項10のいずれか1項に記載の音信号処理装置。
【請求項12】
前記補正フィルタは、前記顔の左右の向きが大きいほど高域のレベルを高くする、または低域のレベルを低くする処理を含む、
請求項11に記載の音信号処理装置。
【請求項13】
前記姿勢情報は、後ろ向きの姿勢の情報を含む、
請求項8乃至請求項12のいずれか1項に記載の音信号処理装置。
【請求項14】
前記話者画像から前記話者の位置情報を推定する位置推定部を備え、
前記フィルタ生成部は、前記位置情報に基づいて前記補正フィルタを生成し、
前記位置情報の推定速度は、前記姿勢情報の推定速度よりも速く、
前記補正フィルタは、前記位置情報を推定した時、および前記姿勢情報を推定した時、のそれぞれのタイミングで生成される、
請求項8乃至請求項13のいずれか1項に記載の音信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音源の位置に基づいてマイクで取得した音信号を処理する音信号処理方法および音信号処理装置に関する。
【背景技術】
【0002】
特許文献1には、カメラで撮影した映像から話者の位置情報を検出し、検出した位置情報に基づいて、話者の音声が増強されるような処理を行なう音処理システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012-29209号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
話者の音声は、話者の姿勢に応じて変化する。しかし、特許文献1の音処理システムは、話者の姿勢を考慮していない。
【0005】
そこで、本発明の一実施形態の目的は、話者の姿勢に応じて適切に話者の音声を取得できる音信号処理方法および音信号処理装置を提供することにある。
【課題を解決するための手段】
【0006】
音信号処理方法は、音信号処理方法は、話者の音声に係る音信号を入力し、話者画像を取得し、前記話者画像から前記話者の姿勢情報を推定し、推定した前記姿勢情報に応じた補正フィルタを生成し、前記補正フィルタに係るフィルタ処理を前記音信号に施し、前記フィルタ処理を施した後の音信号を出力する。
【発明の効果】
【0007】
本発明の一実施形態によれば、話者の姿勢に応じて適切に話者の音声を取得できる。
【図面の簡単な説明】
【0008】
図1】音信号処理装置の構成を示すブロック図である。
図2】音信号処理方法の動作を示すフローチャートである。
図3】音信号処理装置の機能的構成を示すブロック図である。
図4】カメラ11が撮影した画像の一例を示す図である。
図5】話者の位置情報の一例を示す図である。
図6】音信号処理部51の機能的構成を示すブロック図である。
図7】残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。
図8】机Tの認識結果に応じて補正フィルタを生成する場合の例を示す図である。
図9】姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理方法の動作を示すフローチャートである。
図10】音信号処理装置の機能的構成を示すブロック図である。
図11】姿勢情報の一例を示す図である。
図12】音信号処理部51の機能的構成を示すブロック図である。
図13】残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0009】
(第1実施形態)
図1は、音信号処理装置1の構成を示すブロック図である。図2は、音信号処理方法の動作を示すフローチャートである。
【0010】
音信号処理装置1は、カメラ11、CPU12、DSP13、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信部19を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。
【0011】
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器(不図示)の上または下に配置される。カメラ11は、表示器(不図示)の前に居る利用者の画像を取得する。マイク18A~18Fは、表示器(不図示)の前に居る利用者の音声を取得する。スピーカ17は、表示器(不図示)の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。DSP13は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
【0012】
CPU12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、音信号処理装置1の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ14に記憶しておく必要はない。CPU12は、例えばサーバ等から都度ダウンロードしてRAM15に読み出してもよい。
【0013】
DSP13は、CPU12の制御に従って、映像信号および音信号をそれぞれ処理する信号処理部である。DSP13は、例えば映像信号から話者の画像を切り出すフレーミング処理を行なう画像処理部として機能する。また、DSP13は、例えば話者の音声の減衰を補償するための補正フィルタ処理を行うフィルタ処理部としても機能する。
【0014】
通信部19は、DSP13により処理された後の映像信号および音信号を、他の装置に送信する。また、通信部19は、他の装置から映像信号および音信号を受信する。通信部19は、受信した映像信号を表示器(不図示)に出力する。通信部19は、受信した音信号をスピーカ17に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ17は、他の装置のマイクで取得した話者の音声を出力する。他の装置は、例えば遠隔地に設置された音信号処理装置である。これにより、音信号処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
【0015】
図3は、音信号処理装置1の機能的ブロック図である。これら機能的構成は、CPU12およびDSP13により実現される。図3に示す様に、音信号処理装置1は、機能的に、音信号入力部50、音信号処理部51、出力部52、画像取得部100、位置推定部101、およびフィルタ生成部102を備えている。
【0016】
音信号入力部50は、マイク18A~18Fから音信号を入力する(S11)。また、画像取得部100は、カメラ11から話者画像を含む画像を取得する(S12)。位置推定部101は、取得した話者画像から話者の位置情報を推定する(S13)。
【0017】
位置情報の推定は、人物の顔認識処理を含む。人物の顔認識処理は、例えばニューラルネットワーク等の所定のアルゴリズムにより、カメラ11が撮影した画像から複数の人物の顔の位置を認識する処理である。以下、本実施形態において話者とは、会議に参加しかつ現在会話している人を意味し、利用者とは会議に参加している人を意味し、話者を含む。非利用者とは、会議に参加していない人を意味し、人物とは、カメラ11に映る全ての人を意味する。
【0018】
図4は、カメラ11が撮影した画像の一例を示す図である。図4の例では、カメラ11は、机Tの長手方向(奥行き方向)に沿って居る複数の人物の顔画像を撮影している。
【0019】
机Tは、平面視して長方形状である。カメラ11は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る非利用者を撮影している。
【0020】
位置推定部101は、この様なカメラ11の撮影した画像から人物の顔を認識する。図4の例では、画像の左下に居る利用者A1が発話している。位置推定部101は、複数フレームの画像に基づいて、発話中の利用者A1の顔を、話者の顔として認識する。なお、他の人物A2~A5は、顔認識されているが、話者ではない。したがって、位置推定部101は、利用者A1の顔を、話者の顔として認識する。
【0021】
位置推定部101は、認識した話者の顔の位置に図中の四角で示す様な境界ボックス(Bounding Box)を設定する。位置推定部101は、境界ボックスの大きさに基づいて話者との距離を求める。フラッシュメモリ14には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。位置推定部101は、設定した境界ボックスの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、話者との距離を求める。
【0022】
位置推定部101は、設定した境界ボックスの2次元座標(X,Y座標)および話者との距離を、話者の位置情報として求める。図5は、話者の位置情報の一例を示す図である。話者の位置情報は、話者を示すラベル名、2次元座標、および距離を含む。2次元座標は、カメラ11の撮影した画像の所定位置(例えば左下)を原点としたX,Y座標(直交座標)である。距離は、例えばメートル等で示す値である。位置推定部101は、フィルタ生成部102に、話者の位置情報を出力する。なお、位置推定部101は、複数の話者の顔を認識した場合、複数の話者の位置情報を出力する。
【0023】
なお、位置推定部101は、カメラ11で撮影した画像だけでなく、さらにマイク18A~18Fで取得した音信号に基づいて人物の位置情報を推定してもよい。この場合、位置推定部101は、マイク18A~18Fで取得した音信号を音信号入力部50から入力する。例えば、位置推定部101は、複数のマイクで取得した音信号の相互相関を求めることにより、人物の音声がマイクに到達したタイミングを求めることができる。位置推定部101は、各マイクの位置関係および音声の到達タイミングに基づいて、人物の音声の到来方向を求めることができる。この場合、位置推定部101は、カメラ11の撮影した画像から、顔認識を行なうだけでもよい。例えば図4の例では、位置推定部101は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る非利用者の顔画像を認識する。そして、位置推定部101は、これらの顔画像から、話者の音声の到来方向に一致する顔画像を話者の位置情報として推定する。
【0024】
また、位置推定部101は、カメラ11の撮影した画像から人物の身体を推定し、人物の位置情報を推定してもよい。位置推定部101は、ニューラルネットワーク等の所定のアルゴリズムにより、カメラ11の撮影した画像から人の骨格(ボーン)を求める。ボーンは、目、鼻、首、肩、および手足等を含む。フラッシュメモリ14には、予めボーンの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。位置推定部101は、認識したボーンの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、人物との距離を求める。
【0025】
次に、フィルタ生成部102は、話者の位置情報に応じて、補正フィルタを生成する(S14)。補正フィルタは、音声の減衰を補償するためのフィルタを含む。補正フィルタは、例えばゲイン補正、イコライザ、およびビームフォーミングを含む。話者の音声は、遠い距離ほど減衰する。また、話者の音声の高域成分は、話者の音声の低域成分に比べて、遠い距離ほど減衰する。したがって、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成する。また、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど高域のレベルを高くする様なイコライザのフィルタを生成してもよい。また、フィルタ生成部102は、話者の座標に指向性を向けるビームフォーミング処理を行なう補正フィルタを生成してもよい。
【0026】
音信号処理部51は、フィルタ生成部102で生成された補正フィルタに係るフィルタ処理を音信号に施す(S15)。出力部52は、フィルタ処理後の音信号を通信部19に出力する(S16)。音信号処理部51は、例えばデジタルフィルタからなる。音信号処理部51は、音信号を周波数軸上の信号に変換して、各周波数の信号のレベルを変更することにより、各種のフィルタ処理を行なう。
【0027】
図6は、音信号処理部51の機能的構成を示すブロック図である。音信号処理部51は、ビームフォーミング処理部501、ゲイン補正部502、およびイコライザ503を構成する。ビームフォーミング処理部501は、マイク18A~18Fで取得した音信号に、それぞれフィルタ処理を施して合成することによりビームフォーミングを行う。ビームフォーミングに係る信号処理は、遅延和(Delay Sum)方式、Griffiths Jim型、Sidelobe Canceller型、あるいはFrost型Adaptive Beamformer等、どの様な手法であってもよい。
【0028】
ゲイン補正部502は、ビームフォーミング処理後の音信号のゲインを補正する。イコライザ503は、ゲイン補正後の音信号の周波数特性を調整する。ビームフォーミング処理のフィルタ、ゲイン補正部502のフィルタ、およびイコライザ503のフィルタは、全て補正フィルタに対応する。フィルタ生成部102は、話者の位置情報に応じて、補正フィルタを生成する。
【0029】
フィルタ生成部102は、話者の位置に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。これにより、音信号処理装置1は、話者の音声を高い精度で取得することができる。
【0030】
また、フィルタ生成部102は、話者の位置情報に基づいて、ゲイン補正部502のゲインを設定する。上述した様に、話者の音声は、遠い距離ほど減衰する。したがって、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。これにより、音信号処理装置1は、話者との距離に関わらず、安定したレベルで話者の音声を取得することができる。
【0031】
また、フィルタ生成部102は、話者の位置情報に基づいて、イコライザ503の周波数特性を設定する。上述した様に、フィルタ生成部102は、話者の位置情報のうち距離の値が大きいほど高域のレベルを高くする様なイコライザのフィルタを生成する。これにより、音信号処理装置1は、話者との距離に関わらず、安定した音質で話者の音声を取得することができる。
【0032】
また、フィルタ生成部102は、ビームフォーミング処理部501から音声の到来方向の情報を取得してもよい。上述の様に、音声の到来方向は、複数のマイクの音信号に基づいて求めることができる。フィルタ生成部102は、人物の位置情報と、音声の到来方向の情報と、を対比して、ゲイン補正部502のゲインを設定してもよい。例えば、フィルタ生成部102は、話者の位置情報の示す話者の位置と、音声の到来方向との差(離角)が大きくなるほどゲインの値を小さく設定する。つまり、フィルタ生成部102は、離角に反比例するようなゲインを設定する。あるいは、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。あるいは、フィルタ生成部102は、離角が所定の閾値以上となった場合にゲインが0になるような設定を行なってもよい。これにより、音信号処理装置1は、話者の音声をさらに高い精度で取得することができる。
【0033】
また、フィルタ生成部102は、室内の残響特性を取得し、取得した残響特性に応じて補正フィルタを生成してもよい。図7は、残響特性を取得する場合の音信号処理部51の機能的構成を示すブロック図である。図7に示す音信号処理部51は、さらに適応エコーキャンセラ(AEC)701を備えている。
【0034】
AEC701は、スピーカ17から出力された音のうちマイク18A~18Fに帰還する成分(エコー成分)を推定し、推定したエコー成分をキャンセルする。エコー成分は、スピーカ17に出力する信号に適応フィルタ処理を施すことで生成する。適応フィルタは、所定の適応アルゴリズムにより、室内の残響特性を模擬したFIRフィルタを構成する。適応フィルタは、当該FIRフィルタでスピーカ17に出力する信号をフィルタ処理することによりエコー成分を生成する。
【0035】
フィルタ生成部102は、AEC701の適応フィルタで模擬された残響特性(残響情報)を取得する。フィルタ生成部102は、取得した残響情報に応じて補正フィルタを生成する。例えば、フィルタ生成部102は、残響特性のパワーを求める。フィルタ生成部102は、残響特性のパワーに応じてゲイン補正部502のゲインを設定する。上述した様に、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。また、フィルタ生成部102は、残響特性のパワーがより大きくなるほど減衰指数をよりゆっくり減衰するように設定してもよい。これらの場合、フィルタ生成部102は、残響特性のパワーが大きくなるほど閾値を大きく設定する。当該閾値を大きくすると、ビームフォーミング処理部501で生成されるビームの指向性が鈍化する。すなわち、フィルタ生成部102は、残響成分が大きい場合には、指向性を鈍化させる。残響成分が大きい場合、実際の話者の方向以外からも音声が到来するため、到来方向の推定精度が低下する。つまり、推定した到来方向以外に人物が存在する可能性があり、上記離角の値が大きくなる場合がある。したがって、フィルタ生成部102は、残響成分が大きい場合には指向性を鈍化させて、話者音声を取得できないことを防止する。
【0036】
なお、フィルタ生成部102は、人物の位置情報に加えて、さらに、フレーミング処理の結果を補正フィルタに反映してもよい。利用者A1は、ユーザI/F16を用いてカメラ11の撮影した画像の中から特定の領域を切り出す操作を行なう。DSP13は、指定された領域を切り出すフレーミング処理を行なう。フィルタ生成部102は、切り出した領域の境界角度と、音声の到来方向応じてゲイン補正部502のゲインを設定する。フィルタ生成部102は、音声の到来方向が、切り出した領域の境界角度を超えて、切り出した領域から出た場合にゲインを0にする。あるいは、フィルタ生成部102は、音声の到来方向が、切り出した領域の境界角度を超えて、切り出した領域から出た場合に、切り出した領域の境界角度を大きく超えれば超えるほどより0に近づくようなゲインを与えてもよい。また、境界角度は、左右両方に設けてもよいし、左右上下4方向に設けてもよい。これにより、音信号処理装置1は、利用者の指定した領域の話者の音声を高い精度で取得することができる。
【0037】
また、フィルタ生成部102は、特定のオブジェクトの認識結果に応じて補正フィルタを生成してもよい。例えば、位置推定部101は、特定のオブジェクトとして机Tを認識してもよい。図8は、机Tの認識結果に応じて補正フィルタを生成する場合の例を示す図である。位置推定部101は、ニューラルネットワーク等の所定のアルゴリズムにより、机Tを特定のオブジェクトとして認識する。位置推定部101は、机Tの位置情報をフィルタ生成部102に出力する。
【0038】
フィルタ生成部102は、机Tの位置情報に応じて補正フィルタを生成する。例えば、図8に示す様に、机Tの位置より上で、かつ机Tを短手方向に挟んで左側および右側の領域S1および領域S2に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。あるいは、フィルタ生成部102は、領域S1および領域S2の位置と、音声の到来方向との差(離角)に応じてゲイン補正部502のゲインを設定してもよい。フィルタ生成部102は、離角が大きくなるほどゲインの値を小さく設定する。あるいは、フィルタ生成部102は、離角に応じて指数的にゲインが小さくなるような設定を行なってもよい。あるいは、フィルタ生成部102は、離角が所定の閾値以上となった場合にゲインが0になるような設定を行なってもよい。あるいは、フィルタ生成部102は、人物の位置が領域S1および領域S2の内部に存在するか外部に存在するかを判定して、人物の位置が外部に存在する場合にゲインが0になるようにゲイン補正部502のゲインを設定してもよい。
【0039】
これにより、音信号処理装置1は、机の位置より上でかつ机Tを短手方向に挟んで左側および右側の領域S1および領域S2の音声を高い精度で取得することができる。例えば、図8の例で あれば、音信号処理装置1は、利用者A3の音声を取得せず、利用者A1,A2,A4,A5の音声のみ取得することができる。
【0040】
また、フィルタ生成部102は、人物と机との距離が所定値以上である場合に、対応する人物の音声をカットする補正フィルタを生成してもよい。例えば、図8の例で、利用者A3が発話した場合、位置推定部101は、利用者A3の位置を話者の位置情報として推定する。しかし、フィルタ生成部102は、人物との距離が所定値以上であるとして、利用者A3の音声をカットする補正フィルタを生成する。
【0041】
なお、所定値は、特定のオブジェクトの認識結果に基づいて求めてもよい。例えば図8の例では、フィルタ生成部102は、机Tよりも遠い位置の音声をカットする補正フィルタを生成する。
【0042】
(第2実施形態)
次に、図9は、姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理方法の動作を示すフローチャートである。図10は、姿勢情報に基づいて補正フィルタを生成する場合の、音信号処理装置1の機能的構成を示すブロック図である。この例の音信号処理装置1は、位置推定部101に代えて、姿勢推定部201を備える。ハードウェア構成は、図1に示した構成と同一である。
【0043】
図9の例では、位置推定部101の位置推定処理(S13)に代えて、姿勢推定部201は、取得した話者画像から話者の姿勢情報を推定する(S23)。その他の処理は、図2に示したフローチャートと同様である。
【0044】
姿勢情報の推定は、話者の顔認識処理を含む。話者の顔認識処理は、位置情報の推定と同様であり、例えばニューラルネットワーク等の所定のアルゴリズムにより、カメラ11が撮影した画像から話者の顔の位置を認識する処理である。姿勢推定部201は、カメラ11の撮影した画像から話者の顔を認識する。また、姿勢推定部201は、認識した顔のうち目の位置、口の位置、および鼻の位置等から、話者の向いている方向を推定する。例えば、フラッシュメモリ14には、顔に対する目の位置、口の位置、および鼻の位置のずれ(オフセット)と、姿勢情報とを対応付けたテーブルまたは関数等を記憶している。姿勢推定部201は、顔に対する目の位置、口の位置、および鼻の位置のオフセットと、フラッシュメモリ14に記憶されているテーブルとを比較し、話者の姿勢を求める。なお、姿勢推定部201は、顔の位置を認識しても目、口、および鼻を認識できない場合、後ろ向きの姿勢であると推定する。
【0045】
図11は、姿勢情報の一例を示す図である。話者の姿勢は、顔の左右の向き(角度)を示す情報である。例えば、姿勢推定部201は、利用者A1の姿勢を15度と認識している。この例では、姿勢推定部201は、向かって正面に向いている場合を0度とし、向かって右側に向いている場合を正の角度、向かって左側に向いている場合を負の角度、真後ろを向いている場合を180度(または-180度)と認識する。
【0046】
なお、姿勢推定部201は、カメラ11の撮影した画像から話者の身体を推定し、姿勢情報を推定してもよい。姿勢推定部201は、ニューラルネットワーク等の所定のアルゴリズムにより、カメラ11の撮影した画像から鼻のボーンと、身体(首、肩、および手足等)のボーンを認識する。フラッシュメモリ14には、予め鼻のボーンと、身体のボーンのずれ(オフセット)と、姿勢情報とを対応付けたテーブルまたは関数等を記憶している。姿勢推定部201は、身体のボーンに対する鼻のボーンのオフセットと、フラッシュメモリ14に記憶されているテーブルとを比較し、話者の姿勢を求めてもよい。
【0047】
フィルタ生成部102は、姿勢情報に応じて、補正フィルタを生成する。補正フィルタは、顔の向きに応じて減衰するレベルを補償するためのフィルタを含む。補正フィルタは、例えばゲイン補正、イコライザ、およびビームフォーミングを含む。
【0048】
図12は、音信号処理部51の機能的構成を示すブロック図である。図12に示すブロック図は、フィルタ生成部102が姿勢情報を入力する点以外は、図6に示したブロック図と同一の構成である。
【0049】
話者の音声は、真正面を向いている場合に最も高いレベルを示し、左右の向きが大きくなるほど減衰する。また、左右の向きが大きくなるほど高域が低域に比べてより減衰する。したがって、フィルタ生成部102は、左右の向き(角度)が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。また、フィルタ生成部102は、左右の向き(角度)が大きいほど高域のレベルを高くする、あるいは低域のレベルを低くする様なイコライザのフィルタを生成し、イコライザ503に設定してもよい。
【0050】
これにより、音信号処理装置1は、話者の姿勢に関わらず、安定したレベル、安定した音質で話者の音声を取得することができる。
【0051】
また、フィルタ生成部102は、姿勢情報に基づいてビームフォーミング処理部501の指向性を制御してもよい。残響成分は、話者が真正面を向いている場合に最も低いレベルを示し、左右の向きが大きくなるほど大きくなる。したがって、フィルタ生成部102は、左右の向き(角度)が大きい場合には、残響成分が大きいと判断して、指向性を鈍化させてもよい。これにより、音信号処理装置1は、話者の音声を高い精度で取得することができる。
【0052】
また、図13に示す様に、フィルタ生成部102は、残響情報を取得してもよい。図13の構成は、図7の例と同様である。フィルタ生成部102は、AEC701から残響情報を取得する。フィルタ生成部102は、取得した残響情報に応じて補正フィルタを生成する。例えば、フィルタ生成部102は、残響特性のパワーを求める。フィルタ生成部102は、残響特性のパワーに応じてゲイン補正部502のゲインを設定してもよい。
【0053】
第1実施形態の音信号処理装置1は、位置情報に基づいて補正フィルタを生成する例を示し、第2実施形態の音信号処理装置1は、姿勢情報に基づいて補正フィルタを生成した。無論、音信号処理装置1は、位置情報および姿勢情報の両方に基づいて補正フィルタを生成してもよい。ただし、位置情報の推定速度と、姿勢情報の推定速度は、異なる場合がある。第1実施形態の音信号処理装置1における位置情報の推定速度は、第2実施形態の姿勢情報の推定速度よりも速い。この場合、フィルタ生成部102は、位置推定部101が位置情報を推定した時、および姿勢推定部201が姿勢情報を推定した時、のそれぞれのタイミングで補正フィルタを生成すればよい。
【0054】
第1実施形態および第2実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0055】
1…音信号処理装置
11…カメラ
12…CPU
13…DSP
14…フラッシュメモリ
15…RAM
16…ユーザI/F
17…スピーカ
18A~18F…マイク
19…通信部
50…音信号入力部
51…音信号処理部
52…出力部
100…画像取得部
101…位置推定部
102…フィルタ生成部
201…姿勢推定部
501…ビームフォーミング処理部
502…ゲイン補正部
503…イコライザ
701…AEC
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13