特開2020-202545 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

特開2020-202545音声信号処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2020-202545(P2020-202545A)

(43)【公開日】2020年12月17日

(54)【発明の名称】音声信号処理装置

(51)【国際特許分類】

H04R 3/02 20060101AFI20201120BHJP

H04B 3/23 20060101ALI20201120BHJP

【ＦＩ】

H04R3/02

H04B3/23

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

【全頁数】17

(21)【出願番号】特願2019-110676(P2019-110676)

(22)【出願日】2019年6月13日

(71)【出願人】

【識別番号】000237592

【氏名又は名称】株式会社デンソーテン

(72)【発明者】

【氏名】▲高▼橋真琴

【テーマコード（参考）】

5D220

5K046

【Ｆターム（参考）】

5D220BA30

5D220BC08

5D220CC06

5K046BB01

5K046HH11

5K046HH42

5K046HH44

5K046HH61

5K046HH69

5K046HH72

5K046HH79

(57)【要約】

【課題】スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することを課題とする。
【解決手段】音声信号処理装置２０において、通信部２１は、音源であるスマートフォン９から受話音声信号３１を受信する。相関値算出部２４は、受話音声信号３１と、受話音声信号３１に由来するエコー信号を含む送話音声信号４３との相関関係を示す相関値２８を算出する。判断部２５は、相関値２８が所定の抑圧閾値を下回る場合、受話音声信号３１を抑圧することを決定する。判断部２５が受話音声信号３１の抑圧が決定された場合、抑圧部２２は、受話音声信号３１を抑圧し、抑圧された受話音声信号３１を音量調整装１３に出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

音源からの第１音声信号を取得し、前記取得された第１音声信号を調整部に出力する音声信号処理装置であって、
前記取得された第１音声信号と、前記取得された第１音声信号に由来するエコー信号を含む第２音声信号との相関関係を示す相関値を算出する相関値算出部と、
前記相関値算出部により算出された相関値に基づいて、前記取得された第１音声信号のレベルを抑圧するか否かを判断する判断部と、
前記判断部が前記レベルを抑圧すると判断した場合、前記取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する抑圧部と、を備える音声信号処理装置。

【請求項2】

音源からの第１音声信号を取得し、前記取得された第１音声信号を調整部に出力する音声信号処理装置であって、
前記取得された第１音声信号と、前記調整部が前記第１音声信号のレベルを調整することにより生成された第２音声信号との相関関係を示す相関値を算出する相関値算出部と、
前記相関値算出部により算出された相関値に基づいて、前記取得された第１音声信号のレベルを抑圧するか否かを判断する判断部と、
前記判断部が前記レベルを抑圧すると判断した場合、前記取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を前記調整部に出力する抑圧部と、を備える音声信号処理装置。

【請求項3】

請求項１又は２に記載の音声信号処理装置であって、
前記相関値算出部は、前記取得された第１音声信号の周波数スペクトルと前記第２音声信号の周波数スペクトルとに基づいて、前記相関値を算出する、音声信号処理装置。

【請求項4】

請求項１〜３のいずれか１項に記載の音声信号処理装置であって、
前記算出された相関値が所定の抑圧閾値以下である場合、前記判断部は、前記レベルを抑圧することを決定する、音声信号処理装置。

【請求項5】

請求項１〜４のいずれか１項に記載の音声信号処理装置であって、
前記判断部が前記レベルを抑圧すると判断し、かつ、前記レベルが所定の閾値以上である場合、前記抑圧部は、前記取得された第１音声信号のレベルを抑圧する、音声信号処理装置。

【請求項6】

音源からの第１音声信号を取得し、前記取得された第１音声信号を調整部に出力する音声信号処理方法であって、
前記取得された第１音声信号と、前記取得された第１音声信号に由来するエコー信号を含む第２音声信号との相関関係を示す相関値を算出する相関値算出ステップと、
前記相関値算出ステップにより算出された相関値に基づいて、前記取得された第１音声信号のレベルを抑圧するか否かを判断する判断ステップと、
前記判断ステップが前記レベルを抑圧すると判断した場合、前記取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する抑圧ステップと、を備える音声信号処理方法。

【請求項7】

音源からの第１音声信号を取得し、前記取得された第１音声信号を調整部に出力する音声信号処理方法であって、
前記取得された第１音声信号と、前記調整部が前記第１音声信号のレベルを調整することにより生成された第２音声信号との相関関係を示す相関値を算出する相関値算出ステップと、
前記相関値算出ステップにより算出された相関値に基づいて、前記取得された第１音声信号のレベルを抑圧するか否かを判断する判断ステップと、
前記判断ステップが前記レベルを抑圧すると判断した場合、前記取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を前記調整部に出力する抑圧ステップと、を備える音声信号処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声信号処理装置に関する。

【背景技術】

【0002】

エコーは、電話等を用いた音声通信において、品質を低下させる要因の１つである。
音声通信における品質低下を防ぐために、エコーキャンセラと呼ばれる音声信号処理装置が、電話等の音声通信装置に搭載されている。

【0003】

特許文献１は、ハンズフリー装置で用いられるエコーキャンセラを開示している。特許文献１に係るエコーキャンセラにおいて、非線形特性回路は、アナログ出力ボリューム部及びそれ以降で生じる非線形特性に類似する特性を、適応フィルタに入力される音声信号に与える。適応フィルタから出力される音声信号が、マイクロフォンにより収音された音声信号から差し引かれることにより、収音された音声信号に含まれるエコーが消去される。

【0004】

非線形特性は、例えば、アナログ出力ボリューム部等の調整部に含まれる増幅器において音声信号が飽和することにより発生する。音声信号が非線形特性を含むことにより、スピーカから出力される音声が割れる場合がある。スピーカから出力される音声が割れた場合、ユーザは、音声を聞き取ることが困難となる。

【0005】

しかし、上記特許文献１に係るエコーキャンセラは、調整部から出力される音声信号の歪みを抑制することを想定していない。つまり、上記特許文献１に係るエコーキャンセラは、スピーカに入力される音声信号の歪みを抑制することができない。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０００−３５３９８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、上記問題点に鑑み、スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

上記問題点に鑑み、第１の発明は、音源からの第１音声信号を取得し、取得された第１音声信号を調整部に出力する音声信号処理装置であって、相関値算出部と、判断部と、抑圧部とを備える。相関値算出部は、取得された第１音声信号と、取得された第１音声信号に由来するエコー信号を含む第２音声信号との相関関係を示す相関値を算出する。判断部は、相関値算出部により算出された相関値に基づいて、取得された第１音声信号のレベルを抑圧するか否かを判断する。抑圧部は、判断部がレベルを抑圧すると判断した場合、取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する。

【0009】

第１の発明によれば、判断部は、音源からの第１音声信号と、エコー信号を含む第２音声信号との相関関係を示す相関値に基づいて、第１音声信号を抑圧するか否かを判断する。第１の発明は、第１音声信号の歪みが調整部において発生しているか否かに基づいて、第１音声信号のレベルを抑圧することができるため、スピーカに入力される音声信号の歪みを抑制することができる。

【0010】

第２の発明は、音源からの第１音声信号を取得し、取得された第１音声信号を調整部に出力する音声信号処理装置であって、相関値算出部と、判断部と、抑圧部とを備える。相関値算出部は、取得された第１音声信号と、調整部が第１音声信号のレベルを調整することにより生成された第２音声信号との相関関係を示す相関値を算出する。判断部は、相関値算出部により算出された相関値に基づいて、取得された第１音声信号のレベルを抑圧するか否かを判断する。抑圧部は、判断部がレベルを抑圧すると判断した場合、取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する。

【0011】

第２の発明によれば、判断部は、第１音声信号と、調整部が第１音声信号から生成した第２音声信号との相関関係を示す相関値に基づいて、第１音声信号を抑圧するか否かを判断する。第２の発明は、第１音声信号の歪みが調整部において発生しているか否かに基づいて、第１音声信号のレベルを抑圧することができるため、第２の発明は、スピーカに入力される音声信号の歪みを抑制することができる。

【0012】

第３の発明は、第１又は第２の発明であって、相関値算出部は、取得された第１音声信号の周波数スペクトルと第２音声信号の周波数スペクトルとに基づいて、相関値を算出する。

【0013】

第３の発明によれば、相関値算出部は、相関値を高い精度で算出することができる。

【0014】

第４の発明は、第１〜第３の発明のいずれかであって、算出された相関値が所定の抑圧閾値以下である場合、判断部は、レベルを抑圧することを決定する。

【0015】

第４の発明によれば、第１音声信号と第２音声信号との相関が低い場合、第１音声信号のレベルが抑圧される。これにより、第４の発明は、第２音声信号が第１音声信号を基準として歪んだ場合に、スピーカに入力される音声信号の歪みをさらに効果的に抑制することができる。

【0016】

第５の発明は、第１〜第４の発明のいずれかであって、判断部がレベルを抑圧すると判断し、かつ、レベルが所定の閾値以上である場合、抑圧部は、取得された第１音声信号のレベルを抑圧する。

【0017】

第５の発明によれば、ユーザがスピーカから出力される音声を聞き取ることができない状況が発生することを防ぐことができる。

【0018】

第６の発明は、音源からの第１音声信号を取得し、取得された第１音声信号を調整部に出力する音声信号処理方法であって、相関値算出ステップと、判断ステップと、抑圧ステップとを備える。相関値算出ステップは、取得された第１音声信号と、取得された第１音声信号に由来するエコー信号を含む第２音声信号との相関関係を示す相関値を算出する。判断ステップは、相関値算出ステップにより算出された相関値に基づいて、取得された第１音声信号のレベルを抑圧するか否かを判断する。抑圧ステップは、判断ステップがレベルを抑圧すると判断した場合、取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する。

【0019】

第６の発明は、第１の発明に用いられる。

【0020】

第７の発明は、音源からの第１音声信号を取得し、取得された第１音声信号を調整部に出力する音声信号処理方法であって、相関値算出ステップと、判断ステップと、抑圧ステップとを備える。相関値算出ステップは、取得された第１音声信号と、調整部が第１音声信号のレベルを調整することにより生成された第２音声信号との相関関係を示す相関値を算出する。判断ステップは、相関値算出ステップにより算出された相関値に基づいて、取得された第１音声信号のレベルを抑圧するか否かを判断する。抑圧ステップは、判断ステップがレベルを抑圧すると判断した場合、取得された第１音声信号のレベルを抑圧し、レベルが抑圧された第１音声信号を調整部に出力する。

【0021】

第７の発明は、第２の発明に用いられる。

【発明の効果】

【0022】

本発明は、スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することができる。

【図面の簡単な説明】

【0023】

【図1】本発明の第１の実施の形態に係る音声信号処理装置を備える車載ハンズフリーシステムの構成を示す機能ブロック図である。

【図2】図１に示す音声信号処理装置の構成を示す機能ブロック図である。

【図3】図１に示す音声信号処理装置の動作を示すフローチャートである。

【図4】図２に示す判断部が抑圧を決定した場合における、抑圧前の受話音声信号のレベルと、抑圧後の受話音声信号のレベルとの関係を示す図である。

【図5】本発明の第２の実施の形態に係る音声信号処理装置の構成を示す機能ブロック図である。

【図6】本発明の第３の実施の形態に係る音声信号処理装置を備える音声認識システムの構成を示す機能ブロック図である。

【図7】図６に示す音声信号処理装置の構成を示す機能ブロック図である。

【図8】ＣＰＵバス構成を示す図である。

【発明を実施するための形態】

【0024】

以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。

【0025】

［１．構成］
［１．１．車載ハンズフリーシステム１００の構成］
図１は、本発明の第１の実施の形態に係る音声信号処理装置２０を備える車載ハンズフリーシステム１００の構成を示す機能ブロック図である。

【0026】

図１を参照して、車載ハンズフリーシステム１００は、自動車等の車両に搭載される。車載ハンズフリーシステム１００は、ラジオ１１と、ＣＤ（Compact Disc）プレーヤ１２と、音量調整装置１３と、アンプ１４及び１７と、スピーカ１５と、マイクロフォン１６と、音声信号処理装置２０とを備える。本実施の形態において、音声信号処理装置２０は、車両に取り付けられるハンズフリー装置である。

【0027】

ラジオ１１は、ラジオ放送を受信して、音声信号１１Ａを生成する。音声信号１１Ａは、デジタル信号である。ラジオ１１は、生成した音声信号１１Ａを音量調整装置１３に出力する。

【0028】

ＣＤプレーヤ１２は、図示しないＣＤを再生して、音声信号１２Ａを生成する。音声信号１２Ａは、デジタル信号である。ＣＤプレーヤ１２は、生成した音声信号１２Ａを音量調整装置１３に出力する。

【0029】

音量調整装置１３は、ラジオ１１、ＣＤプレーヤ１２及び音声信号処理装置２０のうち、車両の運転者により指定された装置から音声信号を受ける。音量調整装置１３は、その受けた音声信号のレベルを、運転者が指定するレベルに調整し、レベルが調整された音声信号をデジタルからアナログに変換する。音量調整装置１３は、アナログに変換された音声信号をアンプ１４に出力する。音量調整装置１３は、本実施の形態において、音声信号処理装置２０からの受話音声信号３２のレベルを調整する調整部として機能する。

【0030】

以下、運転者により指定された装置が音声信号処理装置２０である場合を例にして、アンプ１４、スピーカ１５及びマイクロフォン１６を説明する。この場合、音量調整装置１３は、音量が調整された受話音声信号３２を受話音声信号３３としてアンプ１４に出力する。また、音声信号の「レベル」とは、スピーカ１５から出力される音声の大きさに相当する。

【0031】

アンプ１４は、音量調整装置１３から受けた受話音声信号３３を増幅する。アンプ１４は、その増幅された受話音声信号３３を、受話音声信号３４としてスピーカ１５及び音声信号処理装置２０に出力する。つまり、アンプ１４は、本実施の形態において、音声信号処理装置２０からの受話音声信号３２のレベルを調整する調整部として機能する。

【0032】

スピーカ１５は、受話音声信号３４をアンプ１４から受ける。スピーカ１５は、受けた受話音声信号３４を音声に変換して、車室内へ出力する。

【0033】

マイクロフォン１６は、車室内の音声を入力して送話音声信号４１を生成する。マイクロフォン１６は、生成した送話音声信号４１をアンプ１７に出力する。

【0034】

アンプ１７は、送話音声信号４１をマイクロフォン１６から受け、その受けた送話音声信号４１を増幅する。アンプ１７は、増幅された送話音声信号４１を送話音声信号４２として音声信号処理装置２０に出力する。

【0035】

音声信号処理装置２０は、スマートフォン９から受話音声信号３１を受信し、受話音声信号３２を音量調整装置１３に出力する。スマートフォン９が、音声信号処理装置２０における音源に相当する。受話音声信号３２は、スマートフォン９からの受話音声信号３１と同じ信号であるか、あるいは、受話音声信号３１のレベルが抑圧された信号であるかのいずれかである。

【0036】

音声信号処理装置２０は、アンプ１４から受話音声信号３４を取得し、アンプ１７から送話音声信号４２を取得する。音声信号処理装置２０は、取得した送話音声信号４２に含まれるエコー信号を、スマートフォン９から受信した受話音声信号３１を用いて除去する。エコー信号は、マイクロフォン１６に入力される音声のうち、スピーカ１５から出力される音声に起因する音声信号である。音声信号処理装置２０は、エコー信号のキャンセルの結果取得される送話音声信号４４をスマートフォン９に送信する。

【0037】

［１．２．音声信号処理装置２０の構成］
図２は、図１に示す音声信号処理装置２０の構成を示す機能ブロック図である。図２を参照して、音声信号処理装置２０は、通信部２１と、抑圧部２２と、Ａ／Ｄ（Analog Digital）コンバータ２３と、相関値算出部２４と、判断部２５と、エコーキャンセル部２６とを備える。

【0038】

通信部２１は、運転者が所持するスマートフォン９と、近距離無線通信又は有線通信を用いて通信する。近距離無線通信は、例えば、無線ＬＡＮ（Local Area Network）や、Ｂｌｕｅｔｏｏｔｈ（登録商標）である。有線通信は、例えば、ＵＳＢ（登録商標）通信等である。通信部２１は、受話音声信号３１をスマートフォン９から受信し、その受信した受話音声信号３１を抑圧部２２及び相関値算出部２４に出力する。通信部２１は、送話音声信号４４をエコーキャンセル部２６から取得し、その取得した送話音声信号４４をスマートフォン９に送信する。

【0039】

抑圧部２２は、受話音声信号３１を通信部２１から受け、受話音声信号３１を抑圧するか否かを示す抑圧判断結果２９を判断部２５から受ける。受けた抑圧判断結果２９が受話音声信号３１の抑圧を示す場合、抑圧部２２は、受けた受話音声信号３１を抑圧する。抑圧部２２は、抑圧された受話音声信号３１を受話音声信号３２として音量調整装置１３に出力する。受けた抑圧判断結果２９が受話音声信号３１の抑圧を示さない場合、抑圧部２２は、受けた受話音声信号３１を受話音声信号３２として、そのまま音量調整装置１３に出力する。

【0040】

Ａ／Ｄコンバータ２３は、アンプ１４から受けた受話音声信号３４をＡ／Ｄ変換して、参照音声信号３５を生成する。生成された参照音声信号３５は、エコーキャンセル部２６に出力される。Ａ／Ｄコンバータ２３は、アンプ１７から受けた送話音声信号４２をＡ／Ｄ変換して、送話音声信号４３を生成する。Ａ／Ｄコンバータ２３は、生成された送話音声信号４３を相関値算出部２４及びエコーキャンセル部２６に出力する。

【0041】

なお、Ａ／Ｄコンバータ２３は、受話音声信号３４をＡ／Ｄ変換するためのコンバータと、送話音声信号４２をＡ／Ｄ変換するためのコンバータとを含んでいてもよい。

【0042】

相関値算出部２４は、受話音声信号３１を通信部２１から受け、送話音声信号４３をＡ／Ｄコンバータ２３から受ける。相関値算出部２４は、受けた受話音声信号３１と受けた総音声信号４３との相関関係を示す相関値２８を算出する。相関値算出部２４は、算出した相関値２８を判断部２５に出力する。

【0043】

判断部２５は、相関値算出部２４から受けた相関値２８に基づいて、スマートフォン９から受信した受話音声信号３１を抑圧するか否かを判断する。判断部２５は、受話音声信号３１を抑圧するか否かを示す抑圧判断結果２９を抑圧部２２に出力する。

【0044】

エコーキャンセル部２６は、Ａ／Ｄコンバータ２３から受けた送話音声信号４３に含まれるエコー信号を、Ａ／Ｄコンバータ２３から受けた参照音声信号３５を用いて除去する。エコーキャンセル部２６は、エコー信号が除去された送話音声信号４３を送話音声信号４４として通信部２１に出力する。

【0045】

［２．動作］
［２．１．概略］
図２を参照して、音声信号処理装置２０は、送話音声信号４３をエコーバック信号として取得し、スピーカ１５に入力される受話音声信号３４を参照音声信号として取得する。参照音声信号は、音量調整装置１３により音量を調整された音声信号に相当する。相関値算出部２４は、受話音声信号３１と、参照音声信号４３との相関関係を示す相関値２８を算出し、その算出した相関値２８を判断部２５に出力する。判断部２５は、相関値２８が所定の抑圧閾値よりも低い場合、受話音声信号３１を抑圧することを決定する。

【0046】

この場合、抑圧部２２が受話音声信号３１を抑圧するため、音声クリッピングがスピーカ１５で発生することを防ぐことができる。また、抑圧部２２が受話音声信号３１を抑圧することにより、送話音声信号４３に含まれるエコー信号の線形性を保つことができる。この結果、スピーカ１５から出力される音声のレベルを大きくした場合であっても、音声信号処理装置２０は、エコーキャンセルの際に、送話音声信号に含まれるエコー信号が残留することを防ぐことができる。

【0047】

また、音量調整装置１３が、ラジオ１１と、ＣＤプレーヤ１２と、音声信号処理装置２０とを含む複数のオーディオ装置の音量をまとめて調整する場合であっても、音声信号処理装置２０は、音量調整装置１３の特性を考慮することなく、送話音声信号に含まれる音声信号を除去することができる。

【0048】

［２．２．詳細動作］
図３は、図１に示す音声信号処理装置２０の動作を示すフローチャートである。以下、図３を参照しながら、音声信号処理装置２０の動作を詳しく説明する。

【0049】

通信部２１がスマートフォン９の通話開始を示すオフフック信号を受信した場合、音声信号処理装置２０は、図３に示す処理を開始する。

【0050】

相関値算出部２４は、相関値の算出に用いる受話音声信号３１を取得する（ステップＳ１１）。具体的には、相関値算出部２４は、受話音声信号３１を通信部２１から取得し、取得した受話音声信号３１を遅延させる。遅延時間は、例えば、音量調整装置１３が受話音声信号３２のレベルを調整するために要する調整時間と、スピーカ１５からマイクロフォン１６までの距離とに基づいて決定される。通信部２１により受信された受話音声信号３１が、エコー信号として送話音声信号４３に含まれるまでの時間が、調整時間と上記の距離とに依存するためである。相関値算出部２４は、遅延させた受話音声信号３１のうち、所定のサンプリング期間における受話音声信号３１を取得する。

【0051】

相関値算出部２４は、送話音声信号４３を取得する（ステップＳ１２）。具体的には、Ａ／Ｄコンバータ２３は、アンプ１７から受けた送話音声信号４２をＡ／Ｄ変換することにより、送話音声信号４３を生成する。相関値算出部２４は、Ａ／Ｄコンバータ２３により生成された送話音声信号４３のうち、所定のサンプリング期間における送話音声信号４３を取得する。

【0052】

相関値算出部２４は、ステップＳ１１で取得した受話音声信号３１と、ステップＳ１２で取得した送話音声信号４３との相関関係を示す相関値２８を算出する（ステップＳ１３）。具体的には、相関値算出部２４は、受話音声信号３１の音量レベルを予め設定された周波数の間隔で区分することにより、受話音声信号３１の周波数スペクトルを取得する。同様に、相関値算出部２４は、送話音声信号４３の周波数スペクトルを取得する。相関値算出部２４は、２つ周波数スペクトルを用いて、相関値２８を算出する。相関値２８は、受話音声信号３１と、送話音声信号４３に含まれるエコー信号との相関関係を示す。相関値算出部２４は、相関値２８の算出に周波数スペクトルを用いることにより、受話音声信号３１と送話音声信号４３との相関関係を高い精度で把握することができる。相関値算出部２４は、取得した２つの周波数スペクトルの相関関係を示す相互相関係数を算出する。算出された相互相関係数が、相関値２８として用いられる。相関値算出部２４は、ステップＳ１３で算出した相関値２８を判断部２５に出力する。

【0053】

本実施の形態において、相関値２８は、０以上１以下の数値である。２つの周波数スペクトルの相関が高くなるにつれて、相関値２８は１に近づく。つまり、相関値２８が１に近づくにつれて、受話音声信号３１の波形と送話音声信号４３に含まれるエコー信号の波形との類似度が高くなる。

【0054】

判断部２５は、相関値算出部２４により算出された相関値２８が予め設定された抑圧閾値よりも低いか否かを判断する（ステップＳ１４）。抑圧閾値は、例えば、０．６である。

【0055】

相関値２８が抑圧閾値よりも高い場合（ステップＳ１４においてＹｅｓ）、判断部２５は、通信部２１が受信した受話音声信号３１を抑圧しないことを決定する（ステップＳ１５）。判断部２５は、受話音声信号３１を抑圧しないことを示す抑圧判断結果２９を抑圧部２２に出力する。抑圧判断結果２９が受話音声信号３１を抑圧しないことを示す場合、抑圧部２２は、通信部２１が受信した受話音声信号３１を受話音声信号３２として音量調整装置１３に出力する（ステップＳ１６）。その後、音声信号処理装置２０は、後述するステップＳ１７を実行する。

【0056】

相関値２８が抑圧閾値よりも高い場合に、受話音声信号３１を抑圧しない理由を説明する。相関値２８が抑圧閾値よりも高い場合、受話音声信号３１の波形は、送話音声信号４３に含まれるエコー信号との波形の類似している。この場合、音量調整装置１３が、受話音声信号３１のレベルを調整したとしても、歪みが、スピーカ１５から出力される音声に発生しない。従って、相関値２８が抑圧閾値よりも高い場合、判断部２５は、受話音声信号３１を抑圧することなく、送話音声信号４３に含まれるエコー信号をキャンセルできると判断する。

【0057】

図４は、判断部２５が受話音声信号３１の抑圧を決定した場合における、受話音声信号３１のレベルと、受話音声信号３２のレベルとの関係を示す図である。

【0058】

図４を参照して、判断部２５が受話音声信号３１を抑圧しないことを決定した場合、抑圧部２２は、通信部２１から受けた受話音声信号３１を、受話音声信号３２としてそのまま音量調整装置１３に出力する。この場合、受話音声信号３２のレベルは、受話音声信号３１のレベルと一致する。特性線６１が、受話音声信号３１が抑圧されない場合における、受話音声信号３１のレベルと受話音声信号３２のレベルとの対応関係を示す。特性線６１は、図４に示すグラフの原点を通り、かつ、傾きが１である直線である。

【0059】

図２に示すステップＳ１４の説明に戻る。相関値２８が抑圧閾値以下である場合（ステップＳ１４においてＮｏ）、判断部２５は、受話音声信号３１を抑圧することを決定する（ステップＳ１８）。判断部２５は、受話音声信号３１の抑圧を指示する抑圧判断結果２９を抑圧部２２に出力する。抑圧部２２は、抑圧判断結果２９を受けて、受話音声信号３１のレベルに基づいて受話音声信号３１を抑圧する（ステップＳ１９）。

【0060】

相関値２８が抑圧閾値以下である場合に、受話音声信号３１を抑圧する理由を説明する。相関値２８が抑圧閾値以下である場合、受話音声信号３１と、送話音声信号４３に含まれるエコー信号との相関関係が弱い。つまり、送話音声信号４３に含まれるエコー信号が、受話音声信号３１を基準にして歪んでいるためである。エコー信号の歪みは、音量調整装置１３が受話音声信号３１のレベルを調整することに起因して発生する。この場合、エコーキャンセル部２６が、受話音声信号３１を用いて送話音声信号４３に含まれるエコー信号を除去したとしても、エコー信号が十分に除去されない。音量調整装置１３に起因する歪みは、受話音声信号３１のレベルが高くなるにつれて発生しやすい。そこで、判断部２５は、抑圧された受話音声信号３１を音量調整装置１３に供給することにより、音量調整装置１３で発生する歪みを抑制することを決定する。

【0061】

抑圧部２２は、図４に示す特性線６２に従って、通信部２１から受けた受話音声信号３１を抑圧する。抑圧部２２は、特性線６２に対応するテーブルを保持しており、このテーブルに従って受話音声信号３１を抑圧する。

【0062】

具体的には、受話音声信号３１のレベルが範囲Ａである場合、特性線６２の傾きは１である。範囲Ａは、０（ｄＢ）以上であり、かつ、Ｐ１（ｄＢ）よりも低い。抑圧部２２は、受話音声信号３１のレベルがＰ１（ｄＢ）よりも低い場合、判断部２５による判断結果に関係なく、受話音声信号３１を抑圧しない。受話音声信号３１のレベルがＰ１（ｄＢ）よりも低い場合、スピーカ１５から出力される音声の音量は比較的小さい。この場合、通話の相手方は、送話音声信号４４に含まれるエコー成分を認識できない可能性が高い。それにもかかわらず、受話音声信号３１を抑圧した場合、運転者が、スピーカ１５から出力される音声を聞き取れない虞がある。抑圧部２２は、判断部２５による判断結果に関係なく、音声の聞き取りやすさを優先する。

【0063】

受話音声信号３１のレベルが範囲Ｂである場合、特性線６２の傾きは、受話音声信号３１のレベルが大きくなるにつれて、０に近づく。範囲Ｂは、Ｐ１（ｄＢ）以上であり、かつ、Ｐ２（ｄＢ）よりも低い。抑圧部２２は、受話音声信号３２のレベルが受話音声信号３１のレベルよりも小さくなるように、受話音声信号３１を抑圧する。具体的には、抑圧部２２は、受話音声信号３１のレベルと、図４に示す特性線６２とに基づいて、受話音声信号３２のレベルを決定する。抑圧部２２は、受話音声信号３２のレベルが決定したレベルに一致するように、受話音声信号３１を抑圧する。

【0064】

受話音声信号３１のレベルがＰ１（ｄＢ）以上である場合、通話の相手方は、送話音声信号４４に含まれるエコー信号を無視できず、送話音声信号の品質が劣化していると感じる。抑圧部２２は、受話音声信号３１を上述のように抑圧することにより、歪みが音量調整装置１３で発生することを抑制する。これにより、受話音声信号３４と、送話音声信号４３に含まれるエコー信号とで発生する歪みを小さくできる。音声信号処理装置２０は、歪みの小さい受話音声信号３４を用いて歪みの小さいエコー信号をキャンセルすることにより、送話音声信号４４において、エコー信号が残存することを防ぐことができる。

【0065】

また、特性線６２の傾きは、上述のように、受話音声信号３１のレベルが大きくなるにつれて、０に近づく。スピーカ１５から出力される音量が、音量を大きくする操作に伴って増加するため、運転者が音量を大きくする操作とスピーカ１５から出力される音量との関係に違和感を抱くことを防ぐことができる。

【0066】

受話音声信号３１のレベルが範囲Ｃである場合、特性線６２の傾きは、受話音声信号３１のレベルに関係なく、０である。範囲Ｃは、Ｐ２（ｄＢ）以上である。この場合、抑圧部２２は、通信部２１が受けた受話音声信号３１のレベルに関係なく、受話音声信号３２のレベルをＱ２（ｄＢ）に固定する。これにより、参照音声信号３５と、送話音声信号４３に含まれるエコー信号とは、歪みの少ない受話音声信号３４から生成される。音声信号処理装置２０は、歪みの小さい受話音声信号３４を用いて歪みの小さいエコー信号をキャンセルすることにより、エコーキャンセル部２６から出力される送話音声信号４３において、エコー成分が残存することを防ぐことができる。

【0067】

再び、図３を参照する。音声信号処理装置２０は、ステップＳ１６又はＳ１９の後に、通信部２１がスマートフォン９の通話が終了したか否かを判断する（ステップＳ１７）。

【0068】

具体的には、通信部２１が、通話終了を示すオンフック信号をスマートフォン９から受信した場合、通話が終了したと判断する（ステップＳ１７においてＹｅｓ）。この場合、音声信号処理装置２０は、図３に示す処理を終了する。通信部２１が、オンフック信号を受信していない場合、音声信号処理装置２０は、ステップＳ１１の処理に戻る。

【0069】

以上説明したように、音声信号処理装置２０は、受話音声信号３１と送話音声信号４３との相関関係を示す相関値２８を算出し、算出した相関値２８に基づいて、受話音声信号３１を抑圧するか否かを決定する。これにより、音声信号処理装置２０は、音量調整装置を１３の特性を考慮することなく、送話音声信号４３に含まれるエコー信号を、スマートフォン９の通話先がエコー信号を認識できない程度に、除去することができる。

【0070】

［第２の実施の形態］
（構成）
図５は、本発明の第２の実施の形態に係る音声信号処理装置２０Ａの構成を示す機能ブロック図である。音声信号処理装置２０Ａに関する説明のうち、上記実施の形態に係る音声信号処理装置２０に関する説明と重複する部分については、その説明を省略する。

【0071】

図５を参照して、音声信号処理装置２０Ａは、相関値算出部２４に代えて、相関値算出部２４Ａを備える。相関値算出部２４Ａは、通信部２１から受話音声信号３１を受け、Ａ／Ｄコンバータ２３から参照音声信号３５を受ける。相関値算出部２４Ａは、受話音声信号３１、参照音声信号３５との相関関係を示す相関値２８Ａを算出し、算出した相関値２８Ａを判断部２５に出力する。相関値２８Ａの算出アルゴリズムは、上記実施の形態で説明した相関値２８の算出アルゴリズムと同じである。

【0072】

（動作）
図４を参照して、音声信号処理装置２０Ａの動作を説明する。音声信号処理装置２０Ａは、ステップＳ１２及びＳ１３の各々において、音声信号処理装置２０と異なる動作を実行する。

【0073】

相関値算出部２４Ａは、通信部２１から受話音声信号３１を取得する（ステップＳ１１）。相関値算出部２４Ａは、ステップＳ１２に代えて、参照音声信号３５を取得する処理を実行する。参照音声信号３５は、音量調整装置１３から出力される受話音声信号３４から生成される。従って、参照音声信号３５は、音量調整装置１３に起因する歪みを含む。

【0074】

相関値算出部２４Ａは、ステップＳ１３に代えて、取得した受話音声信号３１と、取得した参照音声信号３５との相関関係を示す相関値２８Ａを算出する処理を実行する。相関値算出部２４Ａは、算出した相関値２８Ａを判断部２５に出力する。

【0075】

判断部２５は、相関値算出部２４Ａから受けた相関値２８Ａが抑圧閾値よりも高いか否かを判断する（ステップＳ１４）。

【0076】

相関値２８Ａが抑圧閾値よりも高い場合（ステップＳ１４においてＹｅｓ）、受話音声信号３１を基準とした場合における送話音声信号４３に含まれるエコー信号の歪みが比較的小さい。歪みが小さい受話音声信号３４が、アンプ１４からスピーカ１５へ供給されるためである。この場合、判断部２５は、受話音声信号３１を抑圧しないことを決定する（ステップＳ１５）。抑圧部２２は、判断部２５の判断結果に基づいて、通信部２１から受けた受話音声信号３１を、受話音声信号３２としてそのまま音量調整装置１３に出力する（ステップＳ１６）。

【0077】

相関値２８Ａが抑圧閾値以下である場合（ステップＳ１４においてＮｏ）、受話音声信号３１を基準とした場合における送話音声信号４３に含まれるエコー信号の歪みが大きい。この場合、エコーキャンセル部２６は、送話音声信号４３に含まれるエコー信号を十分に除去することができない。判断部２５は、送話音声信号４３に含まれるエコー信号の歪みを低減するために、受話音声信号３１を抑圧することを決定する（ステップＳ１８）。抑圧部２２は、判断部２５の判断結果を受けて、受話音声信号３１を抑圧する（ステップＳ１９）。

【0078】

音量調整装置１３が、レベルが抑圧された受話音声信号３２を用いて音量を調整するため、送話音声信号４３に含まれるエコー信号の歪みが低減される。エコーキャンセル部２６は、スマートフォン９の通話先がエコー信号を認識できない程度に、送話音声信号４３に含まれるエコー信号を除去することができる。

【0079】

［第３の実施の形態］
図６は、本発明の第３の実施の形態に係る音声信号処理装置２０Ｂを備える音声認識システム３００の構成を示す機能ブロック図である。図６を参照して、音声認識システム３００は、例えば、自動車等の車両に搭載される。音声認識システム３００は、車両に搭載されたナビゲーション装置を操作するための音声入力インタフェースとして用いられる。

【0080】

音声認識システム３００は、ラジオ１１と、ＣＤプレーヤ１２と、音量調整装置１３と、アンプ１４及び１７と、スピーカ１５と、マイクロフォン１６と、音声認識装置１８と、音声信号処理装置２０Ｂとを備える。

【0081】

ラジオ１１は、ラジオ放送を受信して音声信号１１Ａを生成する。ＣＤプレーヤ１２は、図示しないＣＤを再生して、音声信号１２Ａを生成する。

【0082】

音量調整装置１３は、音声信号１１Ａ及び１２Ａのうち、運転者により指定された装置からの音声信号を受ける。音量調整装置１３は、受けた音声信号の音量を、運転者の指定する音量に調整して、音量調整信号５１を音声信号処理装置２０Ｂに出力する。

【0083】

アンプ１４は、音量調整信号５２を音声信号処理装置２０Ｂから受け、その受けた音量調整信号５２を増幅する。アンプ１４は、その増幅された音量調整信号５２を音量調整信号５３として、スピーカ１５及び音声信号処理装置２０Ｂに出力する。

【0084】

スピーカ１５は、音量調整信号５３をアンプ１４から受ける。スピーカ１５は、受けた音量調整信号５３を音声に変換して、車室へ出力する。

【0085】

マイクロフォン１６は、車室内の音声を入力して送話音声信号４１を生成し、その生成した送話音声信号４１をアンプ１７に出力する。アンプ１７は、マイクロフォン１６から受けた送話音声信号４１を増幅し、増幅された送話音声信号４１を送話音声信号４２として音声信号処理装置２０Ｂに出力する。

【0086】

音声認識装置１８は、音声信号処理装置２０Ｂから送話音声信号４４を受け、その受けた送話音声信号４４を用いて、運転者が入力した音声を認識する。音声認識装置１８は、音声の認識結果を、図示しないナビゲーション装置に出力する。

【0087】

音声信号処理装置２０Ｂは、音量調整信号５１を音量調整装置１３から受け、音量調整信号５３をアンプ１４から受け、送話音声信号４２をアンプ１７から受ける。音声信号処理装置２０Ｂは、受けた音量調整信号５３を用いて、送話音声信号４２に含まれるエコー信号を除去する。ラジオ１１及びＣＤプレーヤ１２が、音声信号処理装置２０Ｂにおける音源に相当する。

【0088】

音声信号処理装置２０Ｂは、受けた音量調整信号５１と受けた送話音声信号４２との相関関係を示す相関値に基づいて、受けた音量調整信号５１を抑圧するか否かを判断する。音声信号処理装置２０Ｂは、受けた音量調整信号５１を抑圧しないことを決定した場合、受けた音量調整信号５１を、音量調整信号５２としてそのままアンプ１４に出力する。音声信号処理装置２０Ｂは、受けた音量調整信号５１を抑圧することを決定した場合、受けた音量調整信号５１を抑圧し、抑圧した音量調整信号５１を音量調整信号５２としてアンプ１４に出力する。

【0089】

図７は、図６に示す音声信号処理装置２０Ｂの構成を示す機能ブロック図である。図６を参照して、音声信号処理装置２０Ｂは、通信部２１を備えない点を除いて、図２に示す音声信号処理装置２０と同様の構成を有する。図７において、音量調整信号５１が、受話音声信号３１に対応する。音量調整信号５２が、受話音声信号３２に対応する。音量調整信号５３が、受話音声信号３４に対応する。

【0090】

音声認識システム３００及び音声信号処理装置２０Ｂが、上記の構成を備えることにより、音声認識システム３００は、ラジオ１１又はＣＤプレーヤ１２の音量を下げなることなく、運転者の音声を認識することができる。以下、具体的に説明する。

【0091】

例えば、アンプ１４が、ラジオ１１からの音声信号１１Ａから生成された音量調整信号５２を増幅することにより、スピーカ１５から出力される音声が歪む場合を考える。この場合、歪んだ音声がマイクロフォン１６に入力されるため、送話音声信号４３に含まれるエコー信号が歪む。

【0092】

上記実施の形態でも説明したように、スピーカ１５に入力される音声信号が、歪んだ場合、音声信号処理装置２０Ｂは、送話音声信号４３に含まれるエコー信号を効果的に除去できない。このため、音声信号処理装置２０Ｂは、図４に示す処理を実行することにより、送話音声信号４３に含まれるエコー信号を除去する。

【0093】

このように、送話音声信号４３が、スピーカ１５から出力されるラジオの音声に起因するエコー信号を含んだとしても、音声信号処理装置２０Ｂは、ラジオの音声に起因するエコー信号を除去することができる。運転者が音声を音声認識システム３００に入力する際に、音量調整装置１３は、ラジオ１１からの音声信号１１Ａ及びＣＤプレーヤ１２からの音声信号１２Ａのレベルを小さくしなくてもよい。

【0094】

［変形例］
上記実施の形態では、抑圧部２２が、受話音声信号３１のレベルがＰ１（ｄＢ）以下である場合、受話音声信号３１を抑圧する例を説明した。しかし、抑圧部２２は、受話音声信号３１のレベルに関係なく、受話音声信号３２のレベルが受話音声信号３１のレベルよりも低くなるように、受話音声信号３１のレベルを調整してもよい。例えば、抑圧部２２は、図４に示す特性線６３に従って、受話音声信号３１を抑圧してもよい。受話音声信号３１のレベルが大きくなるにつれて、特性線６３の接線の傾きは、０に近づく。この場合であっても、音量調整装置１３に起因する歪みの発生を抑制することができる。

【0095】

上記実施の形態では、音声信号処理装置がハンズフリー装置又は音声認識装置に搭載される例を説明したが、これに限られない。音声信号処理装置が搭載される機器は、特に限定されない。例えば、上記実施の形態に係る音声信号処理装置をＩＣＣ（In Car Communication）装置その他のオーディオ装置に搭載されてもよい。

【0096】

上記実施の形態では、音声信号処理装置がエコーキャンセル部２６を備える例を説明したが、これに限られない。音声信号処理装置は、エコーキャンセル部２６を備えなくてもよい。この場合、スピーカから出力される音声が歪むことが防止されるため、ユーザは、スピーカから出力される音声を容易に認識することができる。

【0097】

また、上記実施の形態で説明した音声信号処理装置において、各機能ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。

【0098】

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

【0099】

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

【0100】

また、上記各実施の形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施の形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

【0101】

また、上記実施の形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

【0102】

例えば、上記実施の形態（変形例を含む）の各機能ブロックを、ソフトウェアにより実現する場合、図８に示したハードウェア構成（例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

【0103】

また、上記実施の形態における処理方法の実行順序は、必ずしも、上記実施の形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

【0104】

前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

【0105】

上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

【0106】

以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。

【符号の説明】

【0107】

２０、２０Ａ、２０Ｂ音声信号処理装置
２１通信部
２２抑圧部
２３Ａ／Ｄコンバータ
２４相関値算出部
２５判断部
２６エコーキャンセル部

【図1】