特許7532748 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤマハ株式会社の特許一覧

特許7532748音響装置および音響処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-05

(45)【発行日】2024-08-14

(54)【発明の名称】音響装置および音響処理方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20240806BHJP

H04M 1/60 20060101ALI20240806BHJP

H04R 3/02 20060101ALI20240806BHJP

【ＦＩ】

H04R3/00 310

H04R3/00 320

H04M1/60 C

H04R3/02

【請求項の数】 8

(21)【出願番号】P 2019106860

(22)【出願日】2019-06-07

(65)【公開番号】P2020202448

(43)【公開日】2020-12-17

【審査請求日】2022-04-19

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】川合窒登

(72)【発明者】

【氏名】門脇侑資

(72)【発明者】

【氏名】大泉好史

【審査官】佐久聖子

(56)【参考文献】

【文献】特開２００７－０６０４２９（ＪＰ，Ａ）

【文献】特開２００７－０９７０８７（ＪＰ，Ａ）

【文献】特開２０１６－１７４２３３（ＪＰ，Ａ）

【文献】特表２００６－５１９５５４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１５／００－１７／２６

Ｇ１０Ｌ１９／００－１９／２６

Ｇ１０Ｌ２１／００－２１／１８

Ｇ１０Ｌ２５／００－２５／９３、９９／００

Ｈ０３Ｇ３／２０

Ｈ０４Ｎ５／００

Ｈ０４Ｍ１／００－１／８２

Ｈ０４Ｍ９／００－９／１０、９９／００

Ｈ０４Ｒ３／００－３／１４

Ｈ０４Ｓ１／００－７／００

(57)【特許請求の範囲】

【請求項1】

マイクと、
前記マイクで収音した音声信号のパワーから音声特徴量を抽出し、前記音声特徴量が所定の条件を満たす場合に、前記音声信号のパワーから雑音特徴量を抽出し、前記雑音特徴量に基づいてノイズ区間を検出する特徴量抽出部と、
前記雑音特徴量からノイズレベルを取得するノイズレベル取得部と、
所定のノイズレベルが記憶された記憶部と、
遠端側の他装置から音信号を受信する音信号受信部と、
前記ノイズ区間である場合に、前記所定のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、前記音声特徴量と、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、
を備え、
前記記憶部は、前記ノイズレベル取得部で取得したノイズレベルを記憶し、
前記ゲイン決定部は、前記記憶部に記憶された過去のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した前記音信号のゲインを決定する、
音響装置。

【請求項2】

利用者から音量調整を受け付ける音量調整受付部を備え、
前記記憶部は、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶する、
請求項１に記載の音響装置。

【請求項3】

前記マイクで収音した音からエコー成分を除去するエコーキャンセラを備え、
前記ノイズレベル取得部は、前記エコーキャンセラで前記エコー成分を除去した音から前記ノイズレベルを取得する、
請求項１又は請求項２に記載の音響装置。

【請求項4】

前記ゲイン決定部が決定したゲインで前記音信号を調整し、スピーカに出力するゲイン調整器を備えた、
請求項１乃至請求項３のいずれか１項に記載の音響装置。

【請求項5】

マイクで収音した音声信号のパワーから音声特徴量を抽出し、前記音声特徴量が所定の条件を満たす場合に、前記音声信号のパワーから雑音特徴量を抽出し、前記雑音特徴量に基づいてノイズ区間を検出することと、
前記雑音特徴量からノイズレベルを取得することと、
所定のノイズレベルを記憶することと、
遠端側の他装置から音信号を受信することと、
前記ノイズ区間である場合に、記憶された前記所定のノイズレベルと、取得した現在のノイズレベルと、前記音声特徴量と、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定することと、
取得した前記ノイズレベルを記憶することと、
を備え、
前記ゲインを決定することは、記憶された過去のノイズレベルと、前記ノイズレベルを取得することで取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した前記音信号のゲインを決定する、
音響処理方法。

【請求項6】

利用者から音量調整を受け付けることを備え、
前記記憶することは、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶する、
請求項５に記載の音響処理方法。

【請求項7】

前記マイクで収音した音からエコー成分を除去すること、を備え、
前記ノイズレベルを取得することは、エコーキャンセラで前記エコー成分を除去した音から前記ノイズレベルを取得する、
請求項５又は請求項６に記載の音響処理方法。

【請求項8】

ゲイン決定部が決定したゲインで前記音信号を調整し、スピーカに出力すること、
を備えた、
請求項５乃至請求項７のいずれか１項に記載の音響処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、音響装置および音響処理方法に関する。

【背景技術】

【0002】

特許文献１は、話者の音量に応じてスピーカから出力する音のレベルを調整する手法を開示している。

【0003】

特許文献２は、周囲の雑音量に応じてスピーカから出力する音のレベルを調整する手法を開示している。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００４－２０７３３号公報

【文献】特開平０７－０３９１１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１および特許文献２は、いずれも、単にスピーカから出力される音のレベルを調整する技術に関する。特許文献１および特許文献２には、遠端側の装置から受信した音信号を調整する技術は開示されていない。

【0006】

そこで、本発明の一実施形態の目的の一つは、遠端側から受信した音信号を適切なレベルに調整する音響装置および音響処理方法を提供することにある。

【課題を解決するための手段】

【0007】

音響装置は、マイクと、前記マイクで収音した音から特徴量を抽出する特徴量抽出部と、遠端側の他装置から音信号を受信する音信号受信部と、前記音声特徴量抽出部で抽出された前記特徴量に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。

【発明の効果】

【0008】

本発明の一実施形態によれば、遠端側から受信した音信号を適切なレベルに調整することができる。

【図面の簡単な説明】

【0009】

【図1】音響システムの構成を示すブロック図である。

【図2】音響装置１の主要な構成を示すブロック図である。

【図3】音響装置１の機能的構成を示すブロック図である。

【図4】音声特徴量とゲインの関係を示す図である。

【図5】変形例に係る音響装置１の機能的構成を示すブロック図である。

【図6】音声特徴量とゲインの関係を示す図である。

【図7】遠方雑音を検出する場合の、音響装置１の機能的構成を示す図である。

【図8】変形例１に係る音響装置１の動作を示すフローチャートである。

【図9】音響装置１Ａの機能的構成を示すブロック図である。

【図10】音響装置１Ａの機能的構成を示すブロック図である。

【図11】音響装置１Ａの動作を示すフローチャートである。

【図12】音響装置１の主要な構成を示すブロック図である。

【発明を実施するための形態】

【0010】

（第１実施形態）
第１実施形態に係る音響装置は、マイクと、前記マイクで収音した音から音声特徴量を抽出する音声特徴量抽出部と、遠端側の他装置から音信号を受信する音信号受信部と、前記音声特徴量抽出部で抽出された前記音声特徴量に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。

【0011】

音声特徴量とは、例えば、音声信号のパワーを含む。第１実施形態に係る音響装置は、近端側の話者の音声に応じて、遠端側の話者の音声のレベルを決定する。一例として、近端側の話者は、周囲の雑音レベルが高い場合には、声を大きくする。このとき、遠端側の話者の音声のレベルが低いと、近端側の利用者は、遠端側の音声を聞きづらい。したがって、一例として、音響装置は、近端側の話者の音声のレベルが高ければ、遠端側の音声のレベルも高くする。よって、音響装置は、遠端側から受信した音声を適切な音量で出力できる。

【0012】

第１実施形態に係る音響装置は、前記マイクで収音した前記音から雑音特徴量を取得する雑音特徴量取得部を備え、前記ゲイン決定部は、前記音声特徴量および前記雑音特徴量に基づいて、前記ゲインを決定することが好ましい。

【0013】

雑音特徴量とは、例えば、雑音信号のパワーを含む。この場合、音響装置は、さらに近端側の雑音に応じて、遠端側の音声のレベルを決定する。例えば、雑音の音量が低ければ、遠端側の話者の音声のレベルを低くしても、聞き取りづらいことがない。したがって、音響装置は、近端側の話者の音声のレベルが高くとも、雑音の音量が低ければ、遠端側の話者の音声のレベルを低くする。

【0014】

なお、音響装置は、前記マイクで収音した前記音からエコー成分を除去するエコーキャンセラを備え、前記雑音特徴量取得部は、前記エコーキャンセラでエコー成分を除去した音から前記雑音特徴量を取得することが好ましい。

【0015】

音響装置は、エコー成分を除去することで、遠端側の音声を雑音として誤認しない。従って、音響装置は、より高精度に雑音特徴量を取得できる。

【0016】

なお、音響装置は、音声区間を判定する判定部を備え、前記ゲイン決定部は、前記判定部が判定した音声区間において前記ゲインを決定することが好ましい。音響装置は、音声区間に限定して処理を行なうため、より高精度にゲインを決定できる。

【0017】

以下、第１実施形態に係る音響装置について具体的に説明する。図１は、音響処理システム１００の構成を示す図である。音響処理システム１００は、ネットワーク２を介して互いに接続される複数の（図１では２つの）音響装置１および音響装置３を備えている。

【0018】

音響装置１は、第１の地点に設置されている。音響装置３は、第２の地点に設置されている。すなわち、音響装置１および音響装置３は、互いに遠隔地に設置されている。

【0019】

音響装置１および音響装置３は、遠隔地をネットワークを介して接続し、遠隔地間の双方向コミュニケーションを行うシステムに用いられる。例えば、遠隔地における会議システムに用いられる。音響装置１は、例えば、音響装置１の利用者の音声を、音響装置３の利用者に、ネットワーク２を介して送信する。また、音響装置３は、例えば、音響装置３の利用者の音声を、音響装置１の利用者に、ネットワーク２を介して送信する。

【0020】

以下の説明では、音響装置１の利用者を近端側の利用者と称する。また、以下の説明では、音響装置３の利用者を遠端側の利用者と称する。

【0021】

図２は、音響装置１の主要な構成を示すブロック図である。なお、音響装置３は、音響装置１と同じ構成および同じ機能を有するので、説明を省略する。

【0022】

音響装置１は、通信部１１、ＣＰＵ１２、ＲＡＭ１３、メモリ１４、マイク１５、スピーカ１６、およびユーザインタフェース（Ｉ／Ｆ）１７を備えている。通信部１１は、本発明の音信号受信部を構成する。

【0023】

ＣＰＵ１２は、記憶媒体であるメモリ１４からプログラムを読み出し、ＲＡＭ１３に一時記憶することで、種々の動作を行う。

【0024】

メモリ１４は、フラッシュメモリまたはハードディスクドライブ（ＨＤＤ）等からなる。メモリ１４は、上記のようにＣＰＵ１２の動作用プログラムを記憶している。また、メモリ１４は、特徴量抽出プログラム、ゲイン決定プログラム、および音信号受信プログラムを記憶している。特徴量抽出プログラムは、後述の音声特徴量抽出部５１を構成するためのプログラムである。ゲイン決定プログラムは、後述のゲイン決定部５２を構成するためのプログラムである。音信号受信プログラムは、後述の音信号受信部５３を構成するためのプログラムである。

【0025】

マイク１５は、周囲の音を音信号として取得する。周囲の音には、話者の音声および雑音を含む。マイク１５は、取得した音信号をデジタル変換する。マイク１５は、デジタル変換した音信号をＣＰＵ１２に出力する。

【0026】

ＣＰＵ１２は、マイク１５から入力した音信号に信号処理を施す。ＣＰＵ１２は、信号処理を施した音信号を通信部１１に出力する。なお、音響装置１は、信号処理の専用プロセッサ（ＤＳＰ：Digital Signal Processor）を備えていてもよい。この場合、ＣＰＵ１２の指示に従って、ＤＳＰが信号処理を行なう。

【0027】

ＣＰＵ１２は、信号処理を行なった後の音信号を通信部１１に出力する。通信部１１は、ネットワーク２に接続されている。通信部１１は、ネットワーク２を介して、遠端側の音響装置３に音信号を送信する。

【0028】

また、通信部１１は、ネットワーク２を介して音響装置３から音信号を受信する。通信部１１は、受信した音信号をＣＰＵ１２に出力する。ＣＰＵ１２は、通信部１１から入力した音信号に信号処理を施す。ＣＰＵ１２は、信号処理を行なった後の音信号をスピーカ１６に出力する。

【0029】

スピーカ１６は、ＣＰＵ１２から入力した音信号に基づいて放音する。なお、スピーカ１６は、デジタル信号を入力した場合、Ｄ／Ａ変換を行ってから音信号を放音する。

【0030】

ユーザＩ／Ｆ１７は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば、スピーカの音量の調整等である。

【0031】

図３は、音響装置１の機能的構成を示すブロック図である。音響装置１は、機能的構成として、マイク１５、音声特徴量抽出部５１、ゲイン決定部５２、音信号受信部５３、およびゲイン調整器５４を備えている。

【0032】

音声特徴量抽出部５１、ゲイン決定部５２、ゲイン調整器５４、および音信号受信部５３は、ＣＰＵ１２のプログラムにより実現する。音信号受信部５３は、通信部１１により構成されてもよい。

【0033】

音声特徴量抽出部５１は、入力した音信号のパワーを求める。パワーは、例えば、時間軸の音信号の２乗平均平方根により算出する。パワーは、音声特徴量の一例である。音声特徴量の抽出は、所定帯域（ＦＦＴ帯域、オクターブ帯域、メル帯域またはバーク帯域等）に限定して行なってもよい。例えば、音声特徴量抽出部５１は、１ｋＨｚから４ｋＨｚのパワーを算出する。この様に、音声特徴量の抽出は、人の声の成分が多く含まれる帯域に限定することが好ましい。また、音声特徴量の抽出は、複数の帯域で行なってもよい。

【0034】

なお、音信号のパワーは、時間軸上で平均化することが好ましい。音声特徴量抽出部５１は、音信号のパワーを時間軸上で平均化することで、突発的に高いノイズ音が入力された場合でも、音声であると誤認することがない。

【0035】

ゲイン決定部５２は、音声特徴量抽出部５１で抽出した音声特徴量に基づいてゲインを決定する。図４は、音声特徴量とゲインの関係を示す図である。図４に示す様に、ゲイン決定部５２は、音信号のパワーが高いほどゲインを高く設定する。ゲイン決定部５２は、音信号のパワーが低いほどゲインを低く設定する。

【0036】

ゲイン決定部５２は、決定したゲインをゲイン調整器５４に設定する。音信号受信部５３は、遠端側の装置から音信号を受信する。ゲイン調整器５４は、設定されたゲインで音信号受信部５３から音信号を入力し、スピーカ１６に出力する。この様にして、ゲイン決定部５２は、音声特徴量抽出部５１で抽出された音声特徴量に基づいて、遠端側の他装置から受信した音信号のゲインを決定する。

【0037】

したがって、音響装置１は、近端側の話者の音声のレベルが高ければ、遠端側の音声のレベルも高くする。音響装置１は、近端側の話者の音声のレベルが低ければ、遠端側の音声のレベルも低くする。話者は、周囲の環境が静かな場合、静かに話す場合が多い。本実施形態によれば、話者が静かに話せば、スピーカ１６から出力される音も小さくなる。よって、スピーカ１６から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。

【0038】

なお、ゲイン決定部５２は、決定したゲインを時間軸上で平均化することが好ましい。ゲイン決定部５２は、ゲインを時間軸上で平均化することで、急激な音量の変化を抑え、利用者の違和感を低減する。

【0039】

なお、音響装置１は、音声区間を検出し、検出した音声区間に限り、ゲインを調整してもよい。例えば、音響装置１は、遠端シングルトーク時にゲインを変更しないことが好ましい。この場合、音響装置１は、音信号受信部５３で所定の閾値以上のレベルを有する音信号を受信し、かつマイク１５から入力した音信号のパワーが所定値未満である場合に、遠端シングルトークであると判定する。

【0040】

なお、音響装置１は、図５に示す様に、エコーキャンセラ５０１でエコー成分を除去してもよい。エコーキャンセラ５０１は、遠端側から受信した音信号を、音響装置１の設置された環境における伝達特性でフィルタリングすることにより、擬似エコー成分を生成する。エコーキャンセラ５０１は、擬似エコー成分をマイク１５で取得した音信号から減算することで、エコー成分を除去する。音声特徴量抽出部５１は、エコーキャンセラでエコー成分を除去した後の音信号を用いて、音声特徴量を抽出する。この場合、遠端シングルトーク時にもゲインを調整してもよい。なお、エコーキャンセラは、ハードウェアであってもよいし、ＣＰＵ１２がメモリ１４からエコーキャンセルプログラムを読み出して実行することで実現してもよい。

【0041】

次に、図６は、変形例に係る音響装置１の機能的構成を示すブロック図である。図３と共通する構成については同一の符号を付し、説明を省略する。音響装置１は、さらに雑音特徴量抽出部５５を備えている。雑音特徴量抽出部５５も、ＣＰＵ１２のプログラムにより実現する。

【0042】

雑音特徴量抽出部５５は、入力した音信号から雑音特徴量を抽出する。雑音特徴量抽出部５５は、雑音特徴量の一例として、ノイズレベルを求める。より具体的には、雑音特徴量抽出部５５は、雑音に係る音信号のパワーを求める。

【0043】

雑音特徴量抽出部５５は、雑音が入力されていると判断した場合に、音信号のパワーを求めることで、ノイズレベルを求める。雑音特徴量抽出部５５は、雑音が入力されているか否かを、例えば、近端シングルトーク、遠端シングルトーク、およびダブルトークを判定することにより判断する。雑音特徴量抽出部５５は、音信号受信部５３で所定の閾値以上のレベルを有する音信号を受信し、かつマイク１５から入力した音信号のパワーが所定値以下である場合に、遠端シングルトークであると判定する。雑音特徴量抽出部５５は、音信号受信部５３で所定の閾値以上のレベルを有する音信号を受信し、かつマイク１５から入力した音信号のパワーが所定値以上である場合に、ダブルトークであると判定する。雑音特徴量抽出部５５は、音信号受信部５３で所定の閾値未満のレベルを有する音信号を受信し、かつマイク１５から入力した音信号のパワーが所定値以上である場合に、近端シングルトークであると判定する。

【0044】

雑音特徴量抽出部５５は、近端シングルトーク、遠端シングルトーク、およびダブルトークのいずれにも該当しない場合に、雑音特徴量を求める。より具体的には、雑音特徴量抽出部５５は、音信号受信部５３で所定の閾値未満のレベルを有する音信号を受信し、かつマイク１５から入力した音信号のパワーが所定値以下である場合に、雑音特徴量として、入力した音信号のパワーを求める。ただし、雑音特徴量抽出部５５は、エコーキャンセラ５０１でエコー成分を除去する場合、遠端シングルトーク時に入力した音信号のパワーを雑音特徴量としてもよい。なお、雑音特徴量も、時間軸上で平均化することが好ましい。

【0045】

なお、音声特徴量抽出部５１は、雑音特徴量抽出部５５で抽出した雑音特徴量に基づいて、ノイズキャンセル処理を行なってもよい。例えば、音声特徴量抽出部５１は、雑音特徴量抽出部５５が求めた音信号のパワーを、音声特徴量から差分する。これにより、音声特徴量抽出部５１は、ノイズ音が除去された音信号に基づいて、音声に係る音信号のパワーをより高精度に求めることができる。

【0046】

ゲイン決定部５２は、音声特徴量抽出部５１および雑音特徴量抽出部５５で抽出した音声特徴量および雑音特徴量に基づいてゲインを決定する。図７は、音声特徴量とゲインの関係を示す図である。図７に示す様に、ゲイン決定部５２は、音声特徴量が高いほどゲインを高く設定する。ゲイン決定部５２は、音声特徴量が低いほどゲインを低く設定する。さらに、ゲイン決定部５２は、雑音特徴量が高いほどゲインを高く設定する。ゲイン決定部５２は、雑音特徴量が低いほどゲインを低く設定する。

【0047】

したがって、変形例に係る音響装置１は、近端側の話者の音声のレベルが高くとも、ノイズレベルが低ければ、遠端側の音声のレベルも低くする。音響装置１は、近端側の話者の音声のレベルが低くとも、ノイズレベルが高ければ、遠端側の音声のレベルを高くする。変形例によれば、話者の音声が大きくても、周囲の環境が静かな場合、スピーカ１６から出力される音は小さくなる。よって、スピーカ１６から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。また、変形例によれば、話者の音声が小さくても、周囲の環境が騒がしい場合、スピーカ１６から出力される音は大きくなる。よって、スピーカ１６から出力される音だけが小さくなることがない。つまり、話者は、騒がしい環境で小さい声で話しても、遠端側の音声を聴き取ることができる。

【0048】

なお、雑音特徴量抽出部５５は、遠方雑音をさらに検出してもよい。これにより、音響装置１は、音響装置１から離れた位置に利用者以外の話者がいても、近端側の話者の音声と誤認するおそれを低減する。

【0049】

図８は、遠方雑音を検出する場合の、音響装置１の機能的構成を示す図である。音響装置１は、図７の構成に加えて、第２のマイク１５Ｂおよび相関算出部５７をさらに備えている。

【0050】

相関算出部５７は、マイク１５およびマイク１５Ｂから音信号を入力する。相関算出部５７は、２つの音信号の相関を求める。相関は、例えば白色化相互相関により求める。

【0051】

遠方の音は、多くの間接音の成分を含み、到来方向の定まらない音である。例えば、マイク１５が指向性であり、マイク１５Ｂが無指向性である場合には、遠方の音に対する収音性能が大きく異なる。したがって、相関は、遠方の音源の音の場合に小さくなり、装置に近い音源の音の場合に大きくなる。

【0052】

雑音特徴量抽出部５５は、相関算出部５７で求めた相関が小さい場合、遠方の音源の音を検出したと判定して、入力した音信号のパワーを雑音特徴量とする。音声特徴量抽出部５１は、相関算出部５７で求めた相関が大きい場合、話者の音声を検出したと判定して、入力した音信号のパワーを音声特徴量とする。これにより、音響装置１は、より高精度に雑音特徴量および音声特徴量を求めることができる。

【0053】

図９は、変形例１に係る音響装置１の動作を示すフローチャートである。音響装置１は、まず近端シングルトーク、遠端シングルトーク、およびダブルトークを判定する（Ｓ１１）。

【0054】

音響装置１は、遠端シングルトークと判定した場合、処理を終える。すなわち、音響装置１は、ゲインの変更をしない。

【0055】

音響装置１は、遠端シングルトーク以外の場合に、入力した音信号から背景雑音を検出する（Ｓ１２）。

【0056】

音響装置１は、検出した背景雑音に係る音信号のパワーを求め、音信号から雑音成分を除去する（Ｓ１３）。その後、音響装置１は、雑音特徴量として、入力した音信号のパワーを求める（Ｓ１４）。最後に、音響装置１は、音声特徴量および雑音特徴量に基づいて、遠端側から受信した音信号のゲインを決定する（Ｓ１５）。

【0057】

Ｓ１１、Ｓ１２、およびＳ１４の処理は、本発明において必須ではない。音響装置１は、Ｓ１３において、雑音特徴量を使わずに、音声特徴量抽出部５１で抽出した音声特徴量に基づいてゲインを決定してもよい。

【0058】

なお、第１実施形態に係る音響装置は、音声特徴量を使わずに、雑音特徴量抽出部５５で抽出した雑音特徴量に基づいてゲインを決定してもよい。例えば、音響装置１は、雑音信号のパワーが高い場合にゲインを高くする。すなわち、第１実施形態に係る音響装置は、マイクで収音した音から特徴量を抽出し、抽出した特徴量に基づいて、遠端側の他装置から受信した音信号のゲインを決定すればよい。

【0059】

（第２実施形態）
第２実施形態に係る音響装置は、マイクと、前記マイクで収音した音からノイズレベルを取得するノイズレベル取得部と、所定のノイズレベルが記憶された記憶部と、遠端側の他装置から音信号を受信する音信号受信部と、前記所定のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、前記遠端側の他装置から受信した音信号のゲインを決定するゲイン決定部と、を備える。

【0060】

第２実施形態に係る音響装置は、予め記憶しておいたノイズレベルと現在のノイズレベルとに基づいて遠端側の音声のレベルを決定する。第２実施形態に係る音響装置は、基準となるノイズレベルに対するスピーカの音量が自動的に決まるため、近端側の利用者は聞き取りづらいことがない。また、音響装置は、基準となるノイズレベルに対して、現在のノイズレベルが低下すれば、遠端側の音声のレベルも低くする。よって、スピーカ１６から出力される音だけが大きくなることがない。つまり、話者は、周囲の環境に気を遣って手動で音量調整を行なう必要ない。

【0061】

より好ましくは、前記記憶部は、前記ノイズレベル取得部で取得したノイズレベルを記憶し、前記ゲイン決定部は、前記記憶部に記憶された過去のノイズレベルと、前記ノイズレベル取得部で取得した現在のノイズレベルと、に基づいて、遠端側の他装置から受信した音信号のゲインを決定する。

【0062】

この場合、音響装置は、装置の周囲の雑音を取得し、取得したノイズ音のレベルを基準としてスピーカの音量を決める。したがって、音響装置は、より実際の環境に合わせてスピーカの音量を調整できる。

【0063】

また、利用者から音量調整を受け付ける音量調整受付部を備え、前記記憶部は、前記利用者が音量調整を行なったときに、前記ノイズレベルを記憶してもよい。

【0064】

この場合、音響装置は、利用者が手動で調整した、スピーカの音量とノイズレベルとの比を基準としてスピーカの音量を決める。よって、スピーカの音量は、利用者が適切と感じた音量に自動で調整される。

【0065】

【0066】

以下、第２実施形態に係る音響装置１Ａについて具体的に説明する。図１０は、音響装置１Ａの機能的構成を示すブロック図である。図６の第１実施形態の音響装置１と共通する構成については同一の符号を付し、説明を省略する。

【0067】

音響装置１Ａは、音量調整受付部７１と、雑音特徴量抽出部５５が抽出した雑音特徴量を記憶する記憶部７２とをさらに備えている。音響装置１Ａのハードウェア構成は、図２に示したハードウェア構成と同一である。記憶部７２は、メモリ１４により構成される。音量調整受付部７１は、ユーザＩ／Ｆ１７により構成される。音量調整受付部７１は、ＣＰＵ１２がメモリ１４に記憶された音量調整受付プログラムを読み出して実行することで実現してもよい。

【0068】

音量調整受付部７１は、利用者から音量調整の操作を受け付ける。音量調整受付部７１は、受け付けた音量調整の操作に基づいて、ゲイン調整器５４のゲインを調整する。

【0069】

雑音特徴量抽出部５５は、ノイズレベル取得部の一例である。雑音特徴量抽出部５５は、特徴量抽出プログラムにより構成される。雑音特徴量抽出部５５は、雑音特徴量を求める。雑音特徴量の求め方は、第１実施形態と同様であり、例えばノイズレベルを求める。雑音特徴量抽出部５５は、音量調整受付部７１が音量調整の操作を受け付けた場合に、ノイズレベルを記憶部７２に出力する。記憶部７２は、利用者が音量調整を行なったときに、ノイズレベルを記憶する。雑音特徴量抽出部５５は、ノイズレベルをゲイン決定部５２に出力する。ゲイン決定部５２は、記憶部７２に記憶されている過去のノイズレベルと、雑音特徴量抽出部５５から出力された現在のノイズレベルとに基づいて、ゲインを決定する。例えば、ゲイン決定部５２は、過去のノイズレベルよりも現在のノイズレベルが高い場合に、ゲインを高くする。これにより、基準となるノイズレベルに対するスピーカの音量が自動的に決まる。

【0070】

図１１は、音響装置１Ａの動作を示すフローチャートである。音響装置１Ａは、まずノイズ区間であるか否かを判断する（Ｓ１０１）。図１１に示す様に、音響装置１Ａは、近端シングルトーク、遠端シングルトーク、およびダブルトークのいずれの状況でもない場合に、ノイズ区間であると判定する。音響装置１Ａは、近端シングルトーク、遠端シングルトーク、またはダブルトークであると判定した場合、処理を終える。すなわち、音響装置１Ａは、ノイズ区間でない場合、ゲイン調整を行なわない。

【0071】

なお、音響装置１Ａは、エコーキャンセラ５０１でエコー成分を除去する場合、遠端シングルトーク時もノイズ区間として判定してもよい。

【0072】

音響装置１Ａは、ノイズ区間であると判定した場合、雑音特徴量として、例えばノイズレベルを取得する（Ｓ１０２）。次に、音響装置１Ａは、利用者から音量調整を受け付けたか否かを判断する（Ｓ１０３）。音響装置１Ａは、利用者から音量調整を受け付けた場合、取得したノイズレベルを記憶する（Ｓ１０４）。音響装置１Ａは、音量調整を受け付けていない場合、記憶した過去のノイズレベルと、取得した現在のノイズレベルとに基づいて、ゲインを決定する（Ｓ１０５）。例えば、音響装置１Ａは、過去のノイズレベルよりも現在のノイズレベルが高い場合に、ゲインを高くする。これにより、基準となるノイズレベルに対するスピーカの音量が自動的に決まる。

【0073】

なお、ゲイン調整は、全帯域に行なってもよいし、所定帯域（ＦＦＴ帯域、オクターブ帯域、メル帯域またはバーク帯域等）に限定して行なってもよい。例えば、音声特徴量抽出部５１は、声の感度に影響の大きい１ｋＨｚから４ｋＨｚの帯域において、ゲイン調整を行なってもよい。

【0074】

また、音響装置１Ａは、取得した雑音特徴量に基づいて、ゲイン調整を行なってもよい。例えば、音響装置１Ａは、ノイズスペクトルに合わせてゲイン調整を行なう。音響装置１Ａは、ノイズレベルの高い帯域は、ゲインを高く設定する。これにより、利用者以外の周囲の人は、スピーカ１６から出力される音をうるさく感じにくい。

【0075】

また、音響装置１Ａは、人の聴感特性（ラウドネス特性）に合わせて、ゲイン調整をしてもよい。例えば、低域および高域のゲインは、ノイズレベルの変化に関わらず大きく変更しない。

【0076】

第１実施形態および第２実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

【0077】

例えば、音声特徴量は、パワーに限らない。例えば、音響装置１は、音信号のスペクトラムをさらにフーリエ変換したケプストラムの低域成分のピークを算出してもよい。音響装置１は、ケプストラムの低域成分のピーク値を正規化して、０～１の値に変換し、音声特徴量として抽出してもよい。同様に、雑音特徴量も、パワーに限らない。

【0078】

また、記憶部は、音響装置１Ａに内蔵されている必要はない。例えば、記憶部は、サーバに設けられていてもよい。この場合、音響装置１Ａは、サーバの記憶部からノイズレベルを取得する。

【0079】

なお、本発明の構成は、全てFPGA等のハードウェアにより実現してもよい。例えば、図１２に示すように、音響装置１または音響装置１Ａは、音声特徴量抽出部５１または雑音特徴量抽出部５５に対応する特徴量抽出回路５１Ａ、ゲイン決定部５２に対応するゲイン決定回路５２Ａ、音信号受信部５３に対応する音信号受信回路５３Ａを備えていてもよい。無論、本発明の構成は、適宜ハードウェアおよびソフトウェアを組み合わせて実現してもよい。

【符号の説明】

【0080】

１，１Ａ，３…音響装置
２…ネットワーク
１１…通信部
１２…ＣＰＵ
１３…ＲＡＭ
１４…メモリ
１５，１５Ｂ…マイク
１６…スピーカ
１７…ユーザＩ／Ｆ
５１…音声特徴量抽出部
５２…ゲイン決定部
５３…音信号受信部
５４…ゲイン調整器
５５…雑音特徴量抽出部
５７…相関算出部
７１…音量調整受付部
７２…記憶部
１００…音響処理システム
５０１…エコーキャンセラ

【図1】