(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】音響装置および音響処理方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240806BHJP
H04M 1/60 20060101ALI20240806BHJP
H04R 3/02 20060101ALI20240806BHJP
【FI】
H04R3/00 310
H04R3/00 320
H04M1/60 C
H04R3/02
(21)【出願番号】P 2019106860
(22)【出願日】2019-06-07
【審査請求日】2022-04-19
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】川合 窒登
(72)【発明者】
【氏名】門脇 侑資
(72)【発明者】
【氏名】大泉 好史
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2007-060429(JP,A)
【文献】特開2007-097087(JP,A)
【文献】特開2016-174233(JP,A)
【文献】特表2006-519554(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G10L 13/00-13/10
G10L 15/00-17/26
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93、99/00
H03G 3/20
H04N 5/00
H04M 1/00-1/82
H04M 9/00- 9/10、99/00
H04R 3/00- 3/14
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
マイクと、
前記マイクで収音した音
声信号のパワーから音声特徴量を抽出し、前記音声特徴量
が所定の条件を満たす場合に、前記音声信号のパワーから雑音特徴量を抽出し、前記雑音特徴量に基づいてノイズ区間を検出する特徴量抽出部と、
前記雑音特徴量からノイズレベルを取得するノイズレベル取得部と、
所定のノイズレベルが記憶された記憶部と、
遠端側の他装置から音信号を受信する音信号受信部と、
前記ノイズ区間である場合に、前記所定のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、
前記音声特徴量と、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、
を備え、
前記記憶部は、前記ノイズレベル取得部で取得したノイズレベルを記憶し、
前記ゲイン決定部は、前記記憶部に記憶された過去のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した前記音信号のゲインを決定する、
音響装置。
【請求項2】
利用者から音量調整を受け付ける音量調整受付部を備え、
前記記憶部は、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶する、
請求項1に記載の音響装置。
【請求項3】
前記マイクで収音した音からエコー成分を除去するエコーキャンセラを備え、
前記ノイズレベル取得部は、前記エコーキャンセラで前記エコー成分を除去した音から前記ノイズレベルを取得する、
請求項1又は請求項2に記載の音響装置。
【請求項4】
前記ゲイン決定部が決定したゲインで前記音信号を調整し、スピーカに出力するゲイン調整器を備えた、
請求項
1乃至請求項3のいずれか1項に記載の音響装置。
【請求項5】
マイクで収音した音
声信号のパワーから音声特徴量を抽出し、前記音声特徴量
が所定の条件を満たす場合に、前記音声信号のパワーから雑音特徴量を抽出し、前記雑音特徴量に基づいてノイズ区間を検出することと、
前記雑音特徴量からノイズレベルを取得することと、
所定のノイズレベルを記憶することと、
遠端側の他装置から音信号を受信することと、
前記ノイズ区間である場合に、記憶された前記所定のノイズレベルと、取得した現在のノイズレベルと、
前記音声特徴量と、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定することと、
取得した前記ノイズレベルを記憶することと、
を備え、
前記ゲインを決定することは、記憶された過去のノイズレベルと、前記ノイズレベルを取得することで取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した前記音信号のゲインを決定する、
音響処理方法。
【請求項6】
利用者から音量調整を受け付けることを備え、
前記記憶することは、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶する、
請求項
5に記載の音響処理方法。
【請求項7】
前記マイクで収音した音からエコー成分を除去すること、を備え、
前記ノイズレベルを取得することは、エコーキャンセラで前記エコー成分を除去した音から前記ノイズレベルを取得する、
請求項
5又は請求項
6に記載の音響処理方法。
【請求項8】
ゲイン決定部が決定したゲインで前記音信号を調整し、スピーカに出力すること、
を備えた、
請求項
5乃至請求項7のいずれか1項に記載の音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音響装置および音響処理方法に関する。
【背景技術】
【0002】
特許文献1は、話者の音量に応じてスピーカから出力する音のレベルを調整する手法を開示している。
【0003】
特許文献2は、周囲の雑音量に応じてスピーカから出力する音のレベルを調整する手法を開示している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2004-20733号公報
【文献】特開平07-039114号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1および特許文献2は、いずれも、単にスピーカから出力される音のレベルを調整する技術に関する。特許文献1および特許文献2には、遠端側の装置から受信した音信号を調整する技術は開示されていない。
【0006】
そこで、本発明の一実施形態の目的の一つは、遠端側から受信した音信号を適切なレベルに調整する音響装置および音響処理方法を提供することにある。
【課題を解決するための手段】
【0007】
音響装置は、マイクと、前記マイクで収音した音から特徴量を抽出する特徴量抽出部と、遠端側の他装置から音信号を受信する音信号受信部と、前記音声特徴量抽出部で抽出された前記特徴量に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。
【発明の効果】
【0008】
本発明の一実施形態によれば、遠端側から受信した音信号を適切なレベルに調整することができる。
【図面の簡単な説明】
【0009】
【
図1】音響システムの構成を示すブロック図である。
【
図2】音響装置1の主要な構成を示すブロック図である。
【
図3】音響装置1の機能的構成を示すブロック図である。
【
図5】変形例に係る音響装置1の機能的構成を示すブロック図である。
【
図7】遠方雑音を検出する場合の、音響装置1の機能的構成を示す図である。
【
図8】変形例1に係る音響装置1の動作を示すフローチャートである。
【
図9】音響装置1Aの機能的構成を示すブロック図である。
【
図10】音響装置1Aの機能的構成を示すブロック図である。
【
図11】音響装置1Aの動作を示すフローチャートである。
【
図12】音響装置1の主要な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
(第1実施形態)
第1実施形態に係る音響装置は、マイクと、前記マイクで収音した音から音声特徴量を抽出する音声特徴量抽出部と、遠端側の他装置から音信号を受信する音信号受信部と、前記音声特徴量抽出部で抽出された前記音声特徴量に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。
【0011】
音声特徴量とは、例えば、音声信号のパワーを含む。第1実施形態に係る音響装置は、近端側の話者の音声に応じて、遠端側の話者の音声のレベルを決定する。一例として、近端側の話者は、周囲の雑音レベルが高い場合には、声を大きくする。このとき、遠端側の話者の音声のレベルが低いと、近端側の利用者は、遠端側の音声を聞きづらい。したがって、一例として、音響装置は、近端側の話者の音声のレベルが高ければ、遠端側の音声のレベルも高くする。よって、音響装置は、遠端側から受信した音声を適切な音量で出力できる。
【0012】
第1実施形態に係る音響装置は、前記マイクで収音した前記音から雑音特徴量を取得する雑音特徴量取得部を備え、前記ゲイン決定部は、前記音声特徴量および前記雑音特徴量に基づいて、前記ゲインを決定することが好ましい。
【0013】
雑音特徴量とは、例えば、雑音信号のパワーを含む。この場合、音響装置は、さらに近端側の雑音に応じて、遠端側の音声のレベルを決定する。例えば、雑音の音量が低ければ、遠端側の話者の音声のレベルを低くしても、聞き取りづらいことがない。したがって、音響装置は、近端側の話者の音声のレベルが高くとも、雑音の音量が低ければ、遠端側の話者の音声のレベルを低くする。
【0014】
なお、音響装置は、前記マイクで収音した前記音からエコー成分を除去するエコーキャンセラを備え、前記雑音特徴量取得部は、前記エコーキャンセラでエコー成分を除去した音から前記雑音特徴量を取得することが好ましい。
【0015】
音響装置は、エコー成分を除去することで、遠端側の音声を雑音として誤認しない。従って、音響装置は、より高精度に雑音特徴量を取得できる。
【0016】
なお、音響装置は、音声区間を判定する判定部を備え、前記ゲイン決定部は、前記判定部が判定した音声区間において前記ゲインを決定することが好ましい。音響装置は、音声区間に限定して処理を行なうため、より高精度にゲインを決定できる。
【0017】
以下、第1実施形態に係る音響装置について具体的に説明する。
図1は、音響処理システム100の構成を示す図である。音響処理システム100は、ネットワーク2を介して互いに接続される複数の(
図1では2つの)音響装置1および音響装置3を備えている。
【0018】
音響装置1は、第1の地点に設置されている。音響装置3は、第2の地点に設置されている。すなわち、音響装置1および音響装置3は、互いに遠隔地に設置されている。
【0019】
音響装置1および音響装置3は、遠隔地をネットワークを介して接続し、遠隔地間の双方向コミュニケーションを行うシステムに用いられる。例えば、遠隔地における会議システムに用いられる。音響装置1は、例えば、音響装置1の利用者の音声を、音響装置3の利用者に、ネットワーク2を介して送信する。また、音響装置3は、例えば、音響装置3の利用者の音声を、音響装置1の利用者に、ネットワーク2を介して送信する。
【0020】
以下の説明では、音響装置1の利用者を近端側の利用者と称する。また、以下の説明では、音響装置3の利用者を遠端側の利用者と称する。
【0021】
図2は、音響装置1の主要な構成を示すブロック図である。なお、音響装置3は、音響装置1と同じ構成および同じ機能を有するので、説明を省略する。
【0022】
音響装置1は、通信部11、CPU12、RAM13、メモリ14、マイク15、スピーカ16、およびユーザインタフェース(I/F)17を備えている。通信部11は、本発明の音信号受信部を構成する。
【0023】
CPU12は、記憶媒体であるメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。
【0024】
メモリ14は、フラッシュメモリまたはハードディスクドライブ(HDD)等からなる。メモリ14は、上記のようにCPU12の動作用プログラムを記憶している。また、メモリ14は、特徴量抽出プログラム、ゲイン決定プログラム、および音信号受信プログラムを記憶している。特徴量抽出プログラムは、後述の音声特徴量抽出部51を構成するためのプログラムである。ゲイン決定プログラムは、後述のゲイン決定部52を構成するためのプログラムである。音信号受信プログラムは、後述の音信号受信部53を構成するためのプログラムである。
【0025】
マイク15は、周囲の音を音信号として取得する。周囲の音には、話者の音声および雑音を含む。マイク15は、取得した音信号をデジタル変換する。マイク15は、デジタル変換した音信号をCPU12に出力する。
【0026】
CPU12は、マイク15から入力した音信号に信号処理を施す。CPU12は、信号処理を施した音信号を通信部11に出力する。なお、音響装置1は、信号処理の専用プロセッサ(DSP:Digital Signal Processor)を備えていてもよい。この場合、CPU12の指示に従って、DSPが信号処理を行なう。
【0027】
CPU12は、信号処理を行なった後の音信号を通信部11に出力する。通信部11は、ネットワーク2に接続されている。通信部11は、ネットワーク2を介して、遠端側の音響装置3に音信号を送信する。
【0028】
また、通信部11は、ネットワーク2を介して音響装置3から音信号を受信する。通信部11は、受信した音信号をCPU12に出力する。CPU12は、通信部11から入力した音信号に信号処理を施す。CPU12は、信号処理を行なった後の音信号をスピーカ16に出力する。
【0029】
スピーカ16は、CPU12から入力した音信号に基づいて放音する。なお、スピーカ16は、デジタル信号を入力した場合、D/A変換を行ってから音信号を放音する。
【0030】
ユーザI/F17は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば、スピーカの音量の調整等である。
【0031】
図3は、音響装置1の機能的構成を示すブロック図である。音響装置1は、機能的構成として、マイク15、音声特徴量抽出部51、ゲイン決定部52、音信号受信部53、およびゲイン調整器54を備えている。
【0032】
音声特徴量抽出部51、ゲイン決定部52、ゲイン調整器54、および音信号受信部53は、CPU12のプログラムにより実現する。音信号受信部53は、通信部11により構成されてもよい。
【0033】
音声特徴量抽出部51は、入力した音信号のパワーを求める。パワーは、例えば、時間軸の音信号の2乗平均平方根により算出する。パワーは、音声特徴量の一例である。音声特徴量の抽出は、所定帯域(FFT帯域、オクターブ帯域、メル帯域またはバーク帯域等)に限定して行なってもよい。例えば、音声特徴量抽出部51は、1kHzから4kHzのパワーを算出する。この様に、音声特徴量の抽出は、人の声の成分が多く含まれる帯域に限定することが好ましい。また、音声特徴量の抽出は、複数の帯域で行なってもよい。
【0034】
なお、音信号のパワーは、時間軸上で平均化することが好ましい。音声特徴量抽出部51は、音信号のパワーを時間軸上で平均化することで、突発的に高いノイズ音が入力された場合でも、音声であると誤認することがない。
【0035】
ゲイン決定部52は、音声特徴量抽出部51で抽出した音声特徴量に基づいてゲインを決定する。
図4は、音声特徴量とゲインの関係を示す図である。
図4に示す様に、ゲイン決定部52は、音信号のパワーが高いほどゲインを高く設定する。ゲイン決定部52は、音信号のパワーが低いほどゲインを低く設定する。
【0036】
ゲイン決定部52は、決定したゲインをゲイン調整器54に設定する。音信号受信部53は、遠端側の装置から音信号を受信する。ゲイン調整器54は、設定されたゲインで音信号受信部53から音信号を入力し、スピーカ16に出力する。この様にして、ゲイン決定部52は、音声特徴量抽出部51で抽出された音声特徴量に基づいて、遠端側の他装置から受信した音信号のゲインを決定する。
【0037】
したがって、音響装置1は、近端側の話者の音声のレベルが高ければ、遠端側の音声のレベルも高くする。音響装置1は、近端側の話者の音声のレベルが低ければ、遠端側の音声のレベルも低くする。話者は、周囲の環境が静かな場合、静かに話す場合が多い。本実施形態によれば、話者が静かに話せば、スピーカ16から出力される音も小さくなる。よって、スピーカ16から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。
【0038】
なお、ゲイン決定部52は、決定したゲインを時間軸上で平均化することが好ましい。ゲイン決定部52は、ゲインを時間軸上で平均化することで、急激な音量の変化を抑え、利用者の違和感を低減する。
【0039】
なお、音響装置1は、音声区間を検出し、検出した音声区間に限り、ゲインを調整してもよい。例えば、音響装置1は、遠端シングルトーク時にゲインを変更しないことが好ましい。この場合、音響装置1は、音信号受信部53で所定の閾値以上のレベルを有する音信号を受信し、かつマイク15から入力した音信号のパワーが所定値未満である場合に、遠端シングルトークであると判定する。
【0040】
なお、音響装置1は、
図5に示す様に、エコーキャンセラ501でエコー成分を除去してもよい。エコーキャンセラ501は、遠端側から受信した音信号を、音響装置1の設置された環境における伝達特性でフィルタリングすることにより、擬似エコー成分を生成する。エコーキャンセラ501は、擬似エコー成分をマイク15で取得した音信号から減算することで、エコー成分を除去する。音声特徴量抽出部51は、エコーキャンセラでエコー成分を除去した後の音信号を用いて、音声特徴量を抽出する。この場合、遠端シングルトーク時にもゲインを調整してもよい。なお、エコーキャンセラは、ハードウェアであってもよいし、CPU12がメモリ14からエコーキャンセルプログラムを読み出して実行することで実現してもよい。
【0041】
次に、
図6は、変形例に係る音響装置1の機能的構成を示すブロック図である。
図3と共通する構成については同一の符号を付し、説明を省略する。音響装置1は、さらに雑音特徴量抽出部55を備えている。雑音特徴量抽出部55も、CPU12のプログラムにより実現する。
【0042】
雑音特徴量抽出部55は、入力した音信号から雑音特徴量を抽出する。雑音特徴量抽出部55は、雑音特徴量の一例として、ノイズレベルを求める。より具体的には、雑音特徴量抽出部55は、雑音に係る音信号のパワーを求める。
【0043】
雑音特徴量抽出部55は、雑音が入力されていると判断した場合に、音信号のパワーを求めることで、ノイズレベルを求める。雑音特徴量抽出部55は、雑音が入力されているか否かを、例えば、近端シングルトーク、遠端シングルトーク、およびダブルトークを判定することにより判断する。雑音特徴量抽出部55は、音信号受信部53で所定の閾値以上のレベルを有する音信号を受信し、かつマイク15から入力した音信号のパワーが所定値以下である場合に、遠端シングルトークであると判定する。雑音特徴量抽出部55は、音信号受信部53で所定の閾値以上のレベルを有する音信号を受信し、かつマイク15から入力した音信号のパワーが所定値以上である場合に、ダブルトークであると判定する。雑音特徴量抽出部55は、音信号受信部53で所定の閾値未満のレベルを有する音信号を受信し、かつマイク15から入力した音信号のパワーが所定値以上である場合に、近端シングルトークであると判定する。
【0044】
雑音特徴量抽出部55は、近端シングルトーク、遠端シングルトーク、およびダブルトークのいずれにも該当しない場合に、雑音特徴量を求める。より具体的には、雑音特徴量抽出部55は、音信号受信部53で所定の閾値未満のレベルを有する音信号を受信し、かつマイク15から入力した音信号のパワーが所定値以下である場合に、雑音特徴量として、入力した音信号のパワーを求める。ただし、雑音特徴量抽出部55は、エコーキャンセラ501でエコー成分を除去する場合、遠端シングルトーク時に入力した音信号のパワーを雑音特徴量としてもよい。なお、雑音特徴量も、時間軸上で平均化することが好ましい。
【0045】
なお、音声特徴量抽出部51は、雑音特徴量抽出部55で抽出した雑音特徴量に基づいて、ノイズキャンセル処理を行なってもよい。例えば、音声特徴量抽出部51は、雑音特徴量抽出部55が求めた音信号のパワーを、音声特徴量から差分する。これにより、音声特徴量抽出部51は、ノイズ音が除去された音信号に基づいて、音声に係る音信号のパワーをより高精度に求めることができる。
【0046】
ゲイン決定部52は、音声特徴量抽出部51および雑音特徴量抽出部55で抽出した音声特徴量および雑音特徴量に基づいてゲインを決定する。
図7は、音声特徴量とゲインの関係を示す図である。
図7に示す様に、ゲイン決定部52は、音声特徴量が高いほどゲインを高く設定する。ゲイン決定部52は、音声特徴量が低いほどゲインを低く設定する。さらに、ゲイン決定部52は、雑音特徴量が高いほどゲインを高く設定する。ゲイン決定部52は、雑音特徴量が低いほどゲインを低く設定する。
【0047】
したがって、変形例に係る音響装置1は、近端側の話者の音声のレベルが高くとも、ノイズレベルが低ければ、遠端側の音声のレベルも低くする。音響装置1は、近端側の話者の音声のレベルが低くとも、ノイズレベルが高ければ、遠端側の音声のレベルを高くする。変形例によれば、話者の音声が大きくても、周囲の環境が静かな場合、スピーカ16から出力される音は小さくなる。よって、スピーカ16から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。また、変形例によれば、話者の音声が小さくても、周囲の環境が騒がしい場合、スピーカ16から出力される音は大きくなる。よって、スピーカ16から出力される音だけが小さくなることがない。つまり、話者は、騒がしい環境で小さい声で話しても、遠端側の音声を聴き取ることができる。
【0048】
なお、雑音特徴量抽出部55は、遠方雑音をさらに検出してもよい。これにより、音響装置1は、音響装置1から離れた位置に利用者以外の話者がいても、近端側の話者の音声と誤認するおそれを低減する。
【0049】
図8は、遠方雑音を検出する場合の、音響装置1の機能的構成を示す図である。音響装置1は、
図7の構成に加えて、第2のマイク15Bおよび相関算出部57をさらに備えている。
【0050】
相関算出部57は、マイク15およびマイク15Bから音信号を入力する。相関算出部57は、2つの音信号の相関を求める。相関は、例えば白色化相互相関により求める。
【0051】
遠方の音は、多くの間接音の成分を含み、到来方向の定まらない音である。例えば、マイク15が指向性であり、マイク15Bが無指向性である場合には、遠方の音に対する収音性能が大きく異なる。したがって、相関は、遠方の音源の音の場合に小さくなり、装置に近い音源の音の場合に大きくなる。
【0052】
雑音特徴量抽出部55は、相関算出部57で求めた相関が小さい場合、遠方の音源の音を検出したと判定して、入力した音信号のパワーを雑音特徴量とする。音声特徴量抽出部51は、相関算出部57で求めた相関が大きい場合、話者の音声を検出したと判定して、入力した音信号のパワーを音声特徴量とする。これにより、音響装置1は、より高精度に雑音特徴量および音声特徴量を求めることができる。
【0053】
図9は、変形例1に係る音響装置1の動作を示すフローチャートである。音響装置1は、まず近端シングルトーク、遠端シングルトーク、およびダブルトークを判定する(S11)。
【0054】
音響装置1は、遠端シングルトークと判定した場合、処理を終える。すなわち、音響装置1は、ゲインの変更をしない。
【0055】
音響装置1は、遠端シングルトーク以外の場合に、入力した音信号から背景雑音を検出する(S12)。
【0056】
音響装置1は、検出した背景雑音に係る音信号のパワーを求め、音信号から雑音成分を除去する(S13)。その後、音響装置1は、雑音特徴量として、入力した音信号のパワーを求める(S14)。最後に、音響装置1は、音声特徴量および雑音特徴量に基づいて、遠端側から受信した音信号のゲインを決定する(S15)。
【0057】
S11、S12、およびS14の処理は、本発明において必須ではない。音響装置1は、S13において、雑音特徴量を使わずに、音声特徴量抽出部51で抽出した音声特徴量に基づいてゲインを決定してもよい。
【0058】
なお、第1実施形態に係る音響装置は、音声特徴量を使わずに、雑音特徴量抽出部55で抽出した雑音特徴量に基づいてゲインを決定してもよい。例えば、音響装置1は、雑音信号のパワーが高い場合にゲインを高くする。すなわち、第1実施形態に係る音響装置は、マイクで収音した音から特徴量を抽出し、抽出した特徴量に基づいて、遠端側の他装置から受信した音信号のゲインを決定すればよい。
【0059】
(第2実施形態)
第2実施形態に係る音響装置は、マイクと、前記マイクで収音した音からノイズレベルを取得するノイズレベル取得部と、所定のノイズレベルが記憶された記憶部と、遠端側の他装置から音信号を受信する音信号受信部と、前記所定のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。
【0060】
第2実施形態に係る音響装置は、予め記憶しておいたノイズレベルと現在のノイズレベルとに基づいて遠端側の音声のレベルを決定する。第2実施形態に係る音響装置は、基準となるノイズレベルに対するスピーカの音量が自動的に決まるため、近端側の利用者は聞き取りづらいことがない。また、音響装置は、基準となるノイズレベルに対して、現在のノイズレベルが低下すれば、遠端側の音声のレベルも低くする。よって、スピーカ16から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。
【0061】
より好ましくは、前記記憶部は、前記ノイズレベル取得部で取得したノイズレベルを記憶し、前記ゲイン決定部は、前記記憶部に記憶された過去のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、遠端側の他装置から受信した音信号のゲインを決定する。
【0062】
この場合、音響装置は、装置の周囲の雑音を取得し、取得したノイズ音のレベルを基準としてスピーカの音量を決める。したがって、音響装置は、より実際の環境に合わせてスピーカの音量を調整できる。
【0063】
また、利用者から音量調整を受け付ける音量調整受付部を備え、前記記憶部は、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶してもよい。
【0064】
この場合、音響装置は、利用者が手動で調整した、スピーカの音量とノイズレベルとの比を基準としてスピーカの音量を決める。よって、スピーカの音量は、利用者が適切と感じた音量に自動で調整される。
【0065】
なお、音響装置は、音声区間を判定する判定部を備え、前記ゲイン決定部は、前記判定部が判定した音声区間において前記ゲインを決定することが好ましい。音響装置は、音声区間に限定して処理を行なうため、より高精度にゲインを決定できる。
【0066】
以下、第2実施形態に係る音響装置1Aについて具体的に説明する。
図10は、音響装置1Aの機能的構成を示すブロック図である。
図6の第1実施形態の音響装置1と共通する構成については同一の符号を付し、説明を省略する。
【0067】
音響装置1Aは、音量調整受付部71と、雑音特徴量抽出部55が抽出した雑音特徴量を記憶する記憶部72とをさらに備えている。音響装置1Aのハードウェア構成は、
図2に示したハードウェア構成と同一である。記憶部72は、メモリ14により構成される。音量調整受付部71は、ユーザI/F17により構成される。音量調整受付部71は、CPU12がメモリ14に記憶された音量調整受付プログラムを読み出して実行することで実現してもよい。
【0068】
音量調整受付部71は、利用者から音量調整の操作を受け付ける。音量調整受付部71は、受け付けた音量調整の操作に基づいて、ゲイン調整器54のゲインを調整する。
【0069】
雑音特徴量抽出部55は、ノイズレベル取得部の一例である。雑音特徴量抽出部55は、特徴量抽出プログラムにより構成される。雑音特徴量抽出部55は、雑音特徴量を求める。雑音特徴量の求め方は、第1実施形態と同様であり、例えばノイズレベルを求める。雑音特徴量抽出部55は、音量調整受付部71が音量調整の操作を受け付けた場合に、ノイズレベルを記憶部72に出力する。記憶部72は、利用者が音量調整を行なったときに、ノイズレベルを記憶する。雑音特徴量抽出部55は、ノイズレベルをゲイン決定部52に出力する。ゲイン決定部52は、記憶部72に記憶されている過去のノイズレベルと、雑音特徴量抽出部55から出力された現在のノイズレベルとに基づいて、ゲインを決定する。例えば、ゲイン決定部52は、過去のノイズレベルよりも現在のノイズレベルが高い場合に、ゲインを高くする。これにより、基準となるノイズレベルに対するスピーカの音量が自動的に決まる。
【0070】
図11は、音響装置1Aの動作を示すフローチャートである。音響装置1Aは、まずノイズ区間であるか否かを判断する(S101)。
図11に示す様に、音響装置1Aは、近端シングルトーク、遠端シングルトーク、およびダブルトークのいずれの状況でもない場合に、ノイズ区間であると判定する。音響装置1Aは、近端シングルトーク、遠端シングルトーク、またはダブルトークであると判定した場合、処理を終える。すなわち、音響装置1Aは、ノイズ区間でない場合、ゲイン調整を行なわない。
【0071】
なお、音響装置1Aは、エコーキャンセラ501でエコー成分を除去する場合、遠端シングルトーク時もノイズ区間として判定してもよい。
【0072】
音響装置1Aは、ノイズ区間であると判定した場合、雑音特徴量として、例えばノイズレベルを取得する(S102)。次に、音響装置1Aは、利用者から音量調整を受け付けたか否かを判断する(S103)。音響装置1Aは、利用者から音量調整を受け付けた場合、取得したノイズレベルを記憶する(S104)。音響装置1Aは、音量調整を受け付けていない場合、記憶した過去のノイズレベルと、取得した現在のノイズレベルとに基づいて、ゲインを決定する(S105)。例えば、音響装置1Aは、過去のノイズレベルよりも現在のノイズレベルが高い場合に、ゲインを高くする。これにより、基準となるノイズレベルに対するスピーカの音量が自動的に決まる。
【0073】
なお、ゲイン調整は、全帯域に行なってもよいし、所定帯域(FFT帯域、オクターブ帯域、メル帯域またはバーク帯域等)に限定して行なってもよい。例えば、音声特徴量抽出部51は、声の感度に影響の大きい1kHzから4kHzの帯域において、ゲイン調整を行なってもよい。
【0074】
また、音響装置1Aは、取得した雑音特徴量に基づいて、ゲイン調整を行なってもよい。例えば、音響装置1Aは、ノイズスペクトルに合わせてゲイン調整を行なう。音響装置1Aは、ノイズレベルの高い帯域は、ゲインを高く設定する。これにより、利用者以外の周囲の人は、スピーカ16から出力される音をうるさく感じにくい。
【0075】
また、音響装置1Aは、人の聴感特性(ラウドネス特性)に合わせて、ゲイン調整をしてもよい。例えば、低域および高域のゲインは、ノイズレベルの変化に関わらず大きく変更しない。
【0076】
第1実施形態および第2実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【0077】
例えば、音声特徴量は、パワーに限らない。例えば、音響装置1は、音信号のスペクトラムをさらにフーリエ変換したケプストラムの低域成分のピークを算出してもよい。音響装置1は、ケプストラムの低域成分のピーク値を正規化して、0~1の値に変換し、音声特徴量として抽出してもよい。同様に、雑音特徴量も、パワーに限らない。
【0078】
また、記憶部は、音響装置1Aに内蔵されている必要はない。例えば、記憶部は、サーバに設けられていてもよい。この場合、音響装置1Aは、サーバの記憶部からノイズレベルを取得する。
【0079】
なお、本発明の構成は、全てFPGA等のハードウェアにより実現してもよい。例えば、
図12に示すように、音響装置1または音響装置1Aは、音声特徴量抽出部51または雑音特徴量抽出部55に対応する特徴量抽出回路51A、ゲイン決定部52に対応するゲイン決定回路52A、音信号受信部53に対応する音信号受信回路53Aを備えていてもよい。無論、本発明の構成は、適宜ハードウェアおよびソフトウェアを組み合わせて実現してもよい。
【符号の説明】
【0080】
1,1A,3…音響装置
2…ネットワーク
11…通信部
12…CPU
13…RAM
14…メモリ
15,15B…マイク
16…スピーカ
17…ユーザI/F
51…音声特徴量抽出部
52…ゲイン決定部
53…音信号受信部
54…ゲイン調整器
55…雑音特徴量抽出部
57…相関算出部
71…音量調整受付部
72…記憶部
100…音響処理システム
501…エコーキャンセラ