(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022062874
(43)【公開日】2022-04-21
(54)【発明の名称】話者予測方法、話者予測装置、およびコミュニケーションシステム
(51)【国際特許分類】
G10L 25/51 20130101AFI20220414BHJP
G10L 17/00 20130101ALI20220414BHJP
H04R 3/00 20060101ALI20220414BHJP
【FI】
G10L25/51
G10L17/00 200Z
G10L25/51 400
H04R3/00 320
【審査請求】未請求
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2020171050
(22)【出願日】2020-10-09
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】特許業務法人 楓国際特許事務所
(72)【発明者】
【氏名】鵜飼 訓史
(72)【発明者】
【氏名】田中 良
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC01
5D220BC05
5D220BC08
(57)【要約】 (修正有)
【課題】現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供する。
【解決手段】音声処理装置は、遠端側音信号を受信する音声取得部100と、遠端側話者画像を受信する画像取得部101と、遠端側音信号および遠端側話者画像に基づいて遠端側の話者を特定する遠端話者特定部104と、特定した話者を指す識別子とその順番を会話履歴として記録する会話履歴記録部103と、特定した話者と会話履歴に基づいて次に発話する話者を予測する予測部51と、を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
複数の話者の音声を取得し、
前記複数の話者の会話履歴を記録する、
話者予測方法であって、
音声を取得し、
取得した前記音声の話者を特定し、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する、
話者予測方法。
【請求項2】
前記予測の結果に基づいて、カメラの撮影する画像の制御を行なう、
請求項1に記載の話者予測方法。
【請求項3】
前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう、
請求項1または請求項2に記載の話者予測方法。
【請求項4】
前記画像の制御は、フレーミング処理を含む、
請求項2に記載の話者予測方法。
【請求項5】
前記音信号処理は、ビームフォーミング処理を含む、
請求項3に記載の話者予測方法。
【請求項6】
前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
請求項1乃至請求項5のいずれか1項に記載の話者予測方法。
【請求項7】
音声の到来方向を推定し、
前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
請求項1乃至請求項6のいずれか1項に記載の話者予測方法。
【請求項8】
カメラの画像を取得し、
前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
請求項1乃至請求項7のいずれか1項に記載の話者予測方法。
【請求項9】
前記会話履歴から前記特定した話者が発話した箇所を検出し、
前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
請求項1乃至請求項8のいずれか1項に記載の話者予測方法。
【請求項10】
前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
請求項1乃至請求項9のいずれか1項に記載の話者予測方法。
【請求項11】
複数の話者の音声を取得する音声取得部と、
前記複数の話者の会話履歴を記録する会話履歴記録部と、
を備えた話者予測装置であって、
前記音声取得部は、音声を取得し、
取得した前記音声の話者を特定する話者特定部と、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
を備えた話者予測装置。
【請求項12】
前記予測の結果に基づいて、カメラの撮影する画像の制御を行なうカメラ画像制御部を備えた、
請求項11に記載の話者予測装置。
【請求項13】
前記予測の結果に基づいて、マイクで取得した音信号の音信号処理を行なう音信号処理部を備えた、
請求項11または請求項12に記載の話者予測装置。
【請求項14】
前記画像の制御は、フレーミング処理を含む、
請求項12に記載の話者予測装置。
【請求項15】
前記音信号処理は、ビームフォーミング処理を含む、
請求項13に記載の話者予測装置。
【請求項16】
前記話者特定部は、前記取得した前記音声の音声特徴量に基づいて、取得した前記音声の話者を特定する、
請求項11乃至請求項15のいずれか1項に記載の話者予測装置。
【請求項17】
前記話者特定部は、音声の到来方向を推定し、前記音声の到来方向に基づいて、取得した前記音声の話者を特定する、
請求項11乃至請求項16のいずれか1項に記載の話者予測装置。
【請求項18】
カメラの画像を取得する画像取得部を備え、
前記話者特定部は、前記カメラの画像に基づいて、取得した前記音声の話者を特定する、
請求項11乃至請求項17のいずれか1項に記載の話者予測装置。
【請求項19】
前記予測部は、前記会話履歴から前記特定した話者が発話した箇所を検出し、前記検出した箇所の次に発話している話者の発話確率に応じて前記次に発話する話者を予測する、
請求項11乃至請求項18のいずれか1項に記載の話者予測装置。
【請求項20】
前記会話履歴は、遠端側および近端側の話者の会話履歴を含み、
前記予測部は、少なくとも遠端側の話者の音声を特定して、次に発話する近端側の話者を予測する、
請求項11乃至請求項19のいずれか1項に記載の話者予測装置。
【請求項21】
遠端側から話者の音声を受信する通信部と、
近端側の話者の音声を取得するマイクと、
前記通信部で受信した音声および前記マイクで取得した音声を含む複数の話者の会話履歴を記録する会話履歴記録部と、
を備えたコミュニケーションシステムであって、
前記通信部で受信した前記遠端側の前記音声、または前記マイクで取得した前記近端側の前記音声の話者を特定する話者特定部と、
前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する予測部と、
を備えたコミュニケーションシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、話者を予測する話者予測方法、話者予測装置、およびコミュニケーションシステムに関する。
【背景技術】
【0002】
特許文献1には、複数の人物の中から次に話す話者を予測する発話者予測装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在の話者が話している間に、次に話す話者をより高い精度で予測することが望まれている。
【0005】
そこで、本発明の一実施形態の目的は、現在の話者が話している間に、次に話す話者を高い精度で予測することができる話者予測方法、話者予測装置、およびコミュニケーションシステムを提供することにある。
【課題を解決するための手段】
【0006】
話者予測方法は、複数の話者の音声を取得し、前記複数の話者の会話履歴を記録する、話者予測方法であって、音声を取得し、取得した前記音声の話者を特定し、前記特定した話者と前記会話履歴に基づいて、前記複数の話者の中から、次に発話する話者を予測する。
【発明の効果】
【0007】
本発明の一実施形態によれば、現在の話者が話している間に、次に話す話者を高い精度で予測することができる。
【図面の簡単な説明】
【0008】
【
図1】音信号処理装置1の構成を示すブロック図である。
【
図2】音信号処理装置1の機能的ブロック図である。
【
図3】音信号処理装置1の機能的ブロック図である。
【
図4】音信号処理装置1の機能的ブロック図である。
【
図5】音信号処理方法の動作を示すフローチャートである。
【
図6】音信号処理方法の動作を示すフローチャートである。
【
図7】音信号処理方法の動作を示すフローチャートである。
【
図8】カメラ11が撮影した画像の一例を示す図である。
【
図10】音信号処理を行なう場合の音信号処理装置1の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0009】
図1は、音信号処理装置1の構成を示すブロック図である。音信号処理装置1は、カメラ11、CPU12、DSP13、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信部19を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。
【0010】
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器(不図示)の上または下に配置される。カメラ11は、表示器(不図示)の前に居る利用者の画像を取得する。マイク18A~18Fは、表示器(不図示)の前に居る利用者の音声を取得する。スピーカ17は、表示器(不図示)の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。DSP13は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
【0011】
CPU12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、音信号処理装置1の動作を統括的に制御する制御部として機能する。なお、プログラムは自装置のフラッシュメモリ14に記憶しておく必要はない。CPU12は、例えばサーバ等から都度ダウンロードしてRAM15に読み出してもよい。
【0012】
DSP13は、CPU12の制御に従って、映像信号および音信号をそれぞれ処理する信号処理部である。DSP13は、例えば映像信号から話者の画像を切り出すフレーミング処理を行なう画像処理部として機能する。また、DSP13は、例えばビームフォーミングを行う音信号処理部としても機能する。
【0013】
通信部19は、DSP13により処理された後の近端側の映像信号および音信号を、他の装置に送信する。他の装置とは、インターネット等を介して接続される遠端側の音信号処理装置である。また、通信部19は、他の装置から映像信号および音信号を受信する。通信部19は、受信した映像信号を表示器(不図示)に出力する。通信部19は、受信した音信号をスピーカ17に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ17は、他の装置のマイクで取得した話者の音声を出力する。これにより、音信号処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
【0014】
図2、
図3、および
図4は、音信号処理装置1の機能的ブロック図である。
図5、
図6、および
図7は、音信号処理方法の動作を示すフローチャートである。
図2、
図3、および
図4に示す機能的構成は、CPU12およびDSP13により実現される。
【0015】
音信号処理装置1は、機能的に、音声取得部100、画像取得部101、近端話者特定部102、会話履歴記録部103、遠端話者特定部104、カメラ画像制御部105、および予測部51を備えている。
【0016】
近端話者特定部102および遠端話者特定部104は、本発明の話者特定部に対応する。
図2は、近端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、
図5はその場合の動作を示す。
【0017】
音声取得部100は、マイク18A~18Fから音信号を近端側音信号として入力する(S11)。また、画像取得部101は、カメラ11から映像信号を近端側話者画像として取得する(S12)。近端話者特定部102は、近端側音信号および近端側話者画像に基づいて、近端側の話者を特定する(S13)。会話履歴記録部103は、近端話者特定部102の特定した話者を指す識別子とその発話順番を会話履歴として記録する(S14)。
【0018】
近端話者特定部102は、例えば音声特徴量に基づいて、話者を特定する。音声特徴量は、話者毎に異なる固有の情報である。音声特徴量は、例えば平均音量(パワー)、最高ピッチ周波数、最低ピッチ周波数、あるいは話速等を含む。近端話者特定部102は、例えばニューラルネットワーク等を用いた所定のアルゴリズムにより、音信号から音声特徴量を抽出して話者を特定する。 また、近端話者特定部102は、音声の到来方向に基づいて話者を特定してもよい。例えば、近端話者特定部102は、複数のマイクで取得した音信号の相互相関を求めることにより、話者の音声がマイクに到達したタイミングを求めることができる。近端話者特定部102は、各マイクの位置関係および音声の到達タイミングに基づいて、話者の音声の到来方向を求めることができる。
【0019】
また、近端話者特定部102は、話者の顔認識処理を行なうことにより、話者を特定してもよい。話者の顔認識処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、近端側話者画像から話者の顔の位置を認識する処理である。
【0020】
図8は、カメラ11が撮影した画像の一例を示す図である。
図8の例では、カメラ11は、机Tの長手方向(奥行き方向)に沿って居る複数の利用者の顔画像を撮影している。
【0021】
机Tは、平面視して長方形状である。カメラ11は、机Tを短手方向に挟んで左側および右側に居る4人の利用者、および机Tよりも遠い位置に居る利用者を撮影している。
【0022】
近端話者特定部102は、この様なカメラ11の撮影した画像から話者の顔を認識する。
図8の例では、画像の左下に居る利用者A1が発話している。近端話者特定部102は、複数フレームの画像に基づいて、例えば口の画像に変化がある顔画像を、話者の顔として認識する。なお、
図8の例では、他の利用者A2~A5は、顔認識されているが、話者ではない。したがって、近端話者特定部102は、利用者A1の顔を、話者の顔として認識する。
【0023】
また、近端話者特定部102は、認識した話者の顔の位置に図中の四角で示す様な境界ボックス(Bounding Box)を設定してもよい。近端話者特定部102は、境界ボックスの大きさに基づいて話者との距離を求めることもできる。フラッシュメモリ14には、予め境界ボックスの大きさと距離との関係を示したテーブルまたは関数等が記憶されている。近端話者特定部102は、設定した境界ボックスの大きさと、フラッシュメモリ14に記憶されているテーブルを比較し、話者との距離を求めることもできる。
【0024】
近端話者特定部102は、設定した境界ボックスの2次元座標(X,Y座標)および話者との距離を、話者の位置情報として求める。会話履歴記録部103は、話者の位置情報も記録する。
【0025】
図3は、遠端側の映像信号および音信号に基づいて話者特定を行ない、会話履歴として記録する場合の構成を示し、
図6はその場合の動作を示す。音声取得部100は、通信部19を介して遠端側音信号を受信する(S21)。また、画像取得部101は、通信部19を介して遠端側話者画像を受信する(S22)。遠端話者特定部104は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する(S23)。会話履歴記録部103は、遠端話者特定部104の特定した話者を指す識別子とその順番を会話履歴として記録する(S24)。
【0026】
遠端話者特定部104の話者特定の手法は、近端話者特定部102の話者特定の手法と同様である。遠端話者特定部104は、例えば音声特徴量に基づいて、話者を特定する。あるいは、遠端話者特定部104は、受信した遠端側話者画像から話者の顔認識処理を行なうことにより、話者を特定してもよい。
【0027】
なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部104は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部104は、受信した情報に基づいて遠端側の話者を特定することができる。
【0028】
また、近端話者特定部102および遠端話者特定部104は、ある一人の話者による複数の発話に対して、必ずしも単一の話者(同じ話者の発話)であると特定する必要はない。例えば、近端話者特定部102および遠端話者特定部104は、音声特徴量の似た発話であっても異なる話者として特定してもよい。近端話者特定部102および遠端話者特定部104は、少しでも音声特徴量等が異なる場合に、異なる話者として特定してもよい。仮に近端話者特定部102および遠端話者特定部104が同じ話者を異なる話者として特定して会話履歴を記録しても、予測部51が次の話者を予測することは可能である。つまり、近端話者特定部102および遠端話者特定部104は、次の話者を予測できる程度に、あるいは、一人の話者が異なる話者と特定される程度に、過剰に細分化した要素に基づいて話者を特定してもよい。また、近端話者特定部102および遠端話者特定部104は、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものを、話者特定の結果として、会話履歴に記録してもよい。
【0029】
なお、本実施形態では、遠端側の装置が1つであり、1対1の通信を行なう例を示しているが、音信号処理装置1は、多地点の遠端側の装置と通信を行ない、多地点のコミュニケーションシステムとしても機能する。多地点の遠端側の装置と通信を行なう場合、遠端話者特定部104は、遠端側の装置毎に話者を特定する処理を行ない、全ての遠端側話者を特定する。
【0030】
図9は、会話履歴の一例を示す図である。会話履歴記録部103は、時系列に会話履歴を記録する。例えば、
図9の例では、時刻t1から時刻t2まで近端側の話者A1が発話し、時刻t2から時刻t3まで遠端側の話者B1が発話している。時刻t3から時刻t4まで近端側の話者A2が発話し、時刻t4から時刻t5まで遠端側の話者B2が発話している。時刻t5から時刻t6まで近端側の話者A1が発話し、時刻t6から時刻t7まで遠端側の話者B1が発話している。時刻t7から時刻t8まで近端側の話者A2が発話し、時刻t8から時刻t9まで遠端側の話者B1が発話している。その後、時刻t9から近端側の話者A4が発話している。なお、時刻情報を記録することは必須ではない。会話履歴記録部103は、話者が誰であったかを表す識別子とその話者の順番(番号)を記録するだけでもよい。
【0031】
音信号処理装置1は、会話履歴に基づいて次に発話する話者を予測する。音信号処理装置1は、話者予測装置として機能する。
図4は、予測を行なう場合の音信号処理装置1の機能的構成を示し、
図7はその場合の動作を示す。
図7の例は、現在、遠端側の話者が発話している場合の予測の動作(話者予測方法の動作)を示す。
【0032】
音声取得部100は、通信部19を介して遠端側音信号を受信する(S31)。また、画像取得部101は、通信部19を介して遠端側話者画像を受信する(S32)。遠端話者特定部104は、遠端側音信号および遠端側話者画像に基づいて、遠端側の話者を特定する(S33)。なお、遠端側の装置が、自装置と同じ様に話者を特定することができる装置である場合、遠端話者特定部104は、遠端側の装置から話者を特定する情報を受信してもよい。この場合、遠端話者特定部104は、受信した情報に基づいて遠端側の話者を特定することができる。
【0033】
その後、予測部51は、会話履歴記録部103の記録した会話履歴を参照して(S34)、次に発話する話者を予測する(S35)。具体的には、予測部51は、会話履歴から、遠端話者特定部104で特定した遠端側話者が発話した箇所を検出し、検出した箇所の次に発話している話者の発話確率に応じて次に発話する話者を予測する。例えば、遠端話者特定部104が遠端側の話者B1を特定した場合、予測部51は、
図9に示す会話履歴では、時刻t2~t3、t6~t7、およびt8~t9を検出する。そして、予測部51は、これらの時刻の次に発話する話者の履歴に基づいて、各話者の発話確率を求める。
図9の例では、話者B1の発話後に話者A2が2回発話し、話者A4が1回発話している。したがって、話者A2の発話確率が66.7%、話者A4の発話確率が33.3%となる。予測部51は、発話確率に応じて、次に発話する話者がA2であると予測する。
【0034】
また、予測部51は、近端話者特定部102あるいは遠端話者特定部104が、話者の音声特徴量そのもの、話者の音声特徴量そのもの、話者の音声の到来方位そのもの、話者の顔画像そのもの、または話者の位置情報そのものなどを話者特定結果として会話履歴に記録していた場合は、現在の話者特定結果に近い話者特定結果を会話履歴記録部103から検索する。そして、予測部51は、これらの検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果に基づいて、次に発話する話者を会話履歴記録部103の記録している話者特定結果から予測してもよい。この場合、予測部51は、例えば、検索された現在の話者特定結果の記録された時刻の次に記録されている複数の話者特定結果の平均を話者予測の結果としてもよい。あるいは、予測部51は、他の話者予測結果との差分量の総和が最も小さくなるような話者特定結果を代表値として話者予測の結果としてもよい。
【0035】
なお、予測部51は、さらに、通信部19で受信した画像またはカメラ11の撮影した画像に基づいて、次に発話する話者を予測してもよい。例えば、手を挙げている人は次に発話する話者であると予測する。あるいは、目を見開いている人は次に発話する話者であると予測する。また、予測部51は、通信部19で受信した音信号またはマイク18A~18Fで取得した音信号に基づいて次に発話する話者を予測してもよい。例えば、予測部51は、「あー」、「えー」等の特定の発言を認識した場合に、対応する話者が次に発話すると予測する。ただし、予測部51は、会話履歴に基づく予測を優先する。予測部51は、発話確率が同じか、近い(例えば10%以内)である話者が複数存在した場合に、さらに受信した画像に基づいて次に発話する話者を予測することが好ましい。
【0036】
その後、カメラ画像制御部105は、予測部51の予測結果に応じてカメラ11の撮影した画像の制御を行なう(S36)。画像の制御は、例えばフレーミング処理である。カメラ画像制御部105は、画像取得部101で取得したカメラ11の画像から話者A4の顔画像を切り出すフレーミング処理を行なう。各話者の位置は、会話履歴記録部103に記録されている。カメラ画像制御部105は、予測された話者に対応する位置の画像を切り出す。カメラ画像制御部105は、フレーミング処理後の画像を通信部19に出力する。通信部19は、フレーミング処理後の画像を遠端側に送信する。
【0037】
これにより、遠端側の表示器(不図示)には、話者A2の顔画像が表示される。したがって、遠端側の話者B1は、次に発話する可能性の高い話者を見ながら発言することができる。
【0038】
なお、上記では、カメラ画像制御部105の行なうカメラ11の撮影した画像から、予測した話者の画像を切り出すフレーミング処理を示したが、カメラ画像制御部105は、例えば予測した話者以外の位置をぼかす処理を行なってもよい。また、カメラ画像制御部105は、カメラ11の撮影方向およびズームを制御することで、予測した話者の顔を拡大して撮影する様に制御してもよい。
【0039】
なお、近端話者特定部102が近端側の話者を特定した場合、カメラ画像制御部105は、特定した近端側の話者を切り出すフレーミング処理を行なう。したがって、遠端側の装置には、現在発話中の話者の画像が送信される。
【0040】
ただし、予測部51は、近端話者特定部102が近端側の話者を特定した場合でも、次に発話する話者を予測してもよい。カメラ画像制御部105は、次に発話すると予測した話者の画像を切り出し、通信部19を介して遠端側の装置に送信してもよい。予測部51が次に発話すると予測した話者が近端側の話者である場合、カメラ画像制御部105は、カメラ11の画像から近端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部105は、切り出した近端側の話者の画像を遠端側の装置に送信する。
【0041】
予測部51が次に発話すると予測した話者が遠端側の話者である場合、カメラ画像制御部105は、通信部19を介して受信した画像から遠端側の話者の顔画像を切り出すフレーミング処理を行なう。カメラ画像制御部105は、切り出した遠端側の話者の画像を表示器(不図示)に表示する。
【0042】
ただし、カメラ画像制御部105は、切り出した近端側の話者の画像を遠端側の装置に送信する場合、現在発話している近端側の話者の画像と、次に発話すると予想した近端側の話者の画像と、を定期的に切り替えて、遠端側の装置に送信することが好ましい。例えば、カメラ画像制御部105は、10秒に1回程度、次に発話すると予想した近端側の話者の画像を送信する。あるいは、カメラ画像制御部105は、現在発話している話者の画像の中に小さく、次に発話すると予想した話者の画像を合成して、遠端側の装置に送信してもよい。
【0043】
なお、音信号処理装置1は、予測部51の予測結果に基づいてマイクで取得した音信号の音信号処理を行なってもよい。
図10は、予測結果に基づいて音信号処理を行なう場合の音信号処理装置1の機能的構成を示すブロック図である。音信号処理装置1は、機能的に、フィルタ生成部52および音信号処理部53を備えている。また、音信号処理部53は、機能的に、ビームフォーミング処理部501、ゲイン補正部502、およびイコライザ503を備えている。これらの機能的構成は、CPU12およびDSP13により実現される。
【0044】
フィルタ生成部52は、予測部51の予測結果に基づいて、補正フィルタを生成する。補正フィルタは、少なくともビームフォーミング処理部501におけるフィルタ処理を含む。
【0045】
ビームフォーミング処理部501は、マイク18A~18Fで取得した音信号に、それぞれフィルタ処理を施して合成することによりビームフォーミングを行う。ビームフォーミングに係る信号処理は、遅延和(Delay Sum)方式、Griffiths Jim型、Sidelobe Canceller型、あるいはFrost型Adaptive Beamformer等、どの様な手法であってもよい。
【0046】
フィルタ生成部52は、次に発話すると予測した話者の位置に向けて指向性を形成する様なフィルタ係数を生成し、ビームフォーミング処理部501に設定する。これにより、音信号処理装置1は、次に発話すると予測した話者の音声を発話の冒頭から高いSN比で取得することができる。
【0047】
また、フィルタ生成部52は、予測部51の予測結果に基づいて、ゲイン補正部502のゲインを設定する。話者の音声は、マイクとの距離が遠いほど減衰する。したがって、フィルタ生成部52は、次に発話すると予測した話者との距離が大きいほど音信号のレベルを高くする様なゲイン補正フィルタを生成し、ゲイン補正部502に設定する。これにより、音信号処理装置1は、話者との距離に関わらず、安定したレベルで次に発話すると予測した話者の音声を取得することができる。
【0048】
また、フィルタ生成部52は、次に発話すると予測した話者との距離が大きいほど高域のレベルを高くする様なイコライザ503の周波数特性を設定してもよい。話者の音声は、マイクとの距離が遠いほど、高域が低域よりも大きく減衰する傾向がある。したがって、音信号処理装置1は、話者との距離に関わらず、安定した音質で次に発話すると予測した話者の音声を取得することができる。
【0049】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0050】
1…音信号処理装置
11…カメラ
12…CPU
13…DSP
14…フラッシュメモリ
15…RAM
16…ユーザI/F
17…スピーカ
18A~18F…マイク
19…通信部
51…予測部
52…フィルタ生成部
53…音信号処理部
100…音声取得部
101…画像取得部
102…近端話者特定部
103…会話履歴記録部
104…遠端話者特定部
105…カメラ画像制御部
501…ビームフォーミング処理部
502…ゲイン補正部
503…イコライザ