特開2020-202545(P2020-202545A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通テン株式会社の特許一覧

<>
  • 特開2020202545-音声信号処理装置 図000003
  • 特開2020202545-音声信号処理装置 図000004
  • 特開2020202545-音声信号処理装置 図000005
  • 特開2020202545-音声信号処理装置 図000006
  • 特開2020202545-音声信号処理装置 図000007
  • 特開2020202545-音声信号処理装置 図000008
  • 特開2020202545-音声信号処理装置 図000009
  • 特開2020202545-音声信号処理装置 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-202545(P2020-202545A)
(43)【公開日】2020年12月17日
(54)【発明の名称】音声信号処理装置
(51)【国際特許分類】
   H04R 3/02 20060101AFI20201120BHJP
   H04B 3/23 20060101ALI20201120BHJP
【FI】
   H04R3/02
   H04B3/23
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】17
(21)【出願番号】特願2019-110676(P2019-110676)
(22)【出願日】2019年6月13日
(71)【出願人】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(72)【発明者】
【氏名】▲高▼橋 真琴
【テーマコード(参考)】
5D220
5K046
【Fターム(参考)】
5D220BA30
5D220BC08
5D220CC06
5K046BB01
5K046HH11
5K046HH42
5K046HH44
5K046HH61
5K046HH69
5K046HH72
5K046HH79
(57)【要約】
【課題】スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することを課題とする。
【解決手段】音声信号処理装置20において、通信部21は、音源であるスマートフォン9から受話音声信号31を受信する。相関値算出部24は、受話音声信号31と、受話音声信号31に由来するエコー信号を含む送話音声信号43との相関関係を示す相関値28を算出する。判断部25は、相関値28が所定の抑圧閾値を下回る場合、受話音声信号31を抑圧することを決定する。判断部25が受話音声信号31の抑圧が決定された場合、抑圧部22は、受話音声信号31を抑圧し、抑圧された受話音声信号31を音量調整装13に出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
音源からの第1音声信号を取得し、前記取得された第1音声信号を調整部に出力する音声信号処理装置であって、
前記取得された第1音声信号と、前記取得された第1音声信号に由来するエコー信号を含む第2音声信号との相関関係を示す相関値を算出する相関値算出部と、
前記相関値算出部により算出された相関値に基づいて、前記取得された第1音声信号のレベルを抑圧するか否かを判断する判断部と、
前記判断部が前記レベルを抑圧すると判断した場合、前記取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する抑圧部と、を備える音声信号処理装置。
【請求項2】
音源からの第1音声信号を取得し、前記取得された第1音声信号を調整部に出力する音声信号処理装置であって、
前記取得された第1音声信号と、前記調整部が前記第1音声信号のレベルを調整することにより生成された第2音声信号との相関関係を示す相関値を算出する相関値算出部と、
前記相関値算出部により算出された相関値に基づいて、前記取得された第1音声信号のレベルを抑圧するか否かを判断する判断部と、
前記判断部が前記レベルを抑圧すると判断した場合、前記取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を前記調整部に出力する抑圧部と、を備える音声信号処理装置。
【請求項3】
請求項1又は2に記載の音声信号処理装置であって、
前記相関値算出部は、前記取得された第1音声信号の周波数スペクトルと前記第2音声信号の周波数スペクトルとに基づいて、前記相関値を算出する、音声信号処理装置。
【請求項4】
請求項1〜3のいずれか1項に記載の音声信号処理装置であって、
前記算出された相関値が所定の抑圧閾値以下である場合、前記判断部は、前記レベルを抑圧することを決定する、音声信号処理装置。
【請求項5】
請求項1〜4のいずれか1項に記載の音声信号処理装置であって、
前記判断部が前記レベルを抑圧すると判断し、かつ、前記レベルが所定の閾値以上である場合、前記抑圧部は、前記取得された第1音声信号のレベルを抑圧する、音声信号処理装置。
【請求項6】
音源からの第1音声信号を取得し、前記取得された第1音声信号を調整部に出力する音声信号処理方法であって、
前記取得された第1音声信号と、前記取得された第1音声信号に由来するエコー信号を含む第2音声信号との相関関係を示す相関値を算出する相関値算出ステップと、
前記相関値算出ステップにより算出された相関値に基づいて、前記取得された第1音声信号のレベルを抑圧するか否かを判断する判断ステップと、
前記判断ステップが前記レベルを抑圧すると判断した場合、前記取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する抑圧ステップと、を備える音声信号処理方法。
【請求項7】
音源からの第1音声信号を取得し、前記取得された第1音声信号を調整部に出力する音声信号処理方法であって、
前記取得された第1音声信号と、前記調整部が前記第1音声信号のレベルを調整することにより生成された第2音声信号との相関関係を示す相関値を算出する相関値算出ステップと、
前記相関値算出ステップにより算出された相関値に基づいて、前記取得された第1音声信号のレベルを抑圧するか否かを判断する判断ステップと、
前記判断ステップが前記レベルを抑圧すると判断した場合、前記取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を前記調整部に出力する抑圧ステップと、を備える音声信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理装置に関する。
【背景技術】
【0002】
エコーは、電話等を用いた音声通信において、品質を低下させる要因の1つである。
音声通信における品質低下を防ぐために、エコーキャンセラと呼ばれる音声信号処理装置が、電話等の音声通信装置に搭載されている。
【0003】
特許文献1は、ハンズフリー装置で用いられるエコーキャンセラを開示している。特許文献1に係るエコーキャンセラにおいて、非線形特性回路は、アナログ出力ボリューム部及びそれ以降で生じる非線形特性に類似する特性を、適応フィルタに入力される音声信号に与える。適応フィルタから出力される音声信号が、マイクロフォンにより収音された音声信号から差し引かれることにより、収音された音声信号に含まれるエコーが消去される。
【0004】
非線形特性は、例えば、アナログ出力ボリューム部等の調整部に含まれる増幅器において音声信号が飽和することにより発生する。音声信号が非線形特性を含むことにより、スピーカから出力される音声が割れる場合がある。スピーカから出力される音声が割れた場合、ユーザは、音声を聞き取ることが困難となる。
【0005】
しかし、上記特許文献1に係るエコーキャンセラは、調整部から出力される音声信号の歪みを抑制することを想定していない。つまり、上記特許文献1に係るエコーキャンセラは、スピーカに入力される音声信号の歪みを抑制することができない。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2000−353989号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上記問題点に鑑み、スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記問題点に鑑み、第1の発明は、音源からの第1音声信号を取得し、取得された第1音声信号を調整部に出力する音声信号処理装置であって、相関値算出部と、判断部と、抑圧部とを備える。相関値算出部は、取得された第1音声信号と、取得された第1音声信号に由来するエコー信号を含む第2音声信号との相関関係を示す相関値を算出する。判断部は、相関値算出部により算出された相関値に基づいて、取得された第1音声信号のレベルを抑圧するか否かを判断する。抑圧部は、判断部がレベルを抑圧すると判断した場合、取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する。
【0009】
第1の発明によれば、判断部は、音源からの第1音声信号と、エコー信号を含む第2音声信号との相関関係を示す相関値に基づいて、第1音声信号を抑圧するか否かを判断する。第1の発明は、第1音声信号の歪みが調整部において発生しているか否かに基づいて、第1音声信号のレベルを抑圧することができるため、スピーカに入力される音声信号の歪みを抑制することができる。
【0010】
第2の発明は、音源からの第1音声信号を取得し、取得された第1音声信号を調整部に出力する音声信号処理装置であって、相関値算出部と、判断部と、抑圧部とを備える。相関値算出部は、取得された第1音声信号と、調整部が第1音声信号のレベルを調整することにより生成された第2音声信号との相関関係を示す相関値を算出する。判断部は、相関値算出部により算出された相関値に基づいて、取得された第1音声信号のレベルを抑圧するか否かを判断する。抑圧部は、判断部がレベルを抑圧すると判断した場合、取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する。
【0011】
第2の発明によれば、判断部は、第1音声信号と、調整部が第1音声信号から生成した第2音声信号との相関関係を示す相関値に基づいて、第1音声信号を抑圧するか否かを判断する。第2の発明は、第1音声信号の歪みが調整部において発生しているか否かに基づいて、第1音声信号のレベルを抑圧することができるため、第2の発明は、スピーカに入力される音声信号の歪みを抑制することができる。
【0012】
第3の発明は、第1又は第2の発明であって、相関値算出部は、取得された第1音声信号の周波数スペクトルと第2音声信号の周波数スペクトルとに基づいて、相関値を算出する。
【0013】
第3の発明によれば、相関値算出部は、相関値を高い精度で算出することができる。
【0014】
第4の発明は、第1〜第3の発明のいずれかであって、算出された相関値が所定の抑圧閾値以下である場合、判断部は、レベルを抑圧することを決定する。
【0015】
第4の発明によれば、第1音声信号と第2音声信号との相関が低い場合、第1音声信号のレベルが抑圧される。これにより、第4の発明は、第2音声信号が第1音声信号を基準として歪んだ場合に、スピーカに入力される音声信号の歪みをさらに効果的に抑制することができる。
【0016】
第5の発明は、第1〜第4の発明のいずれかであって、判断部がレベルを抑圧すると判断し、かつ、レベルが所定の閾値以上である場合、抑圧部は、取得された第1音声信号のレベルを抑圧する。
【0017】
第5の発明によれば、ユーザがスピーカから出力される音声を聞き取ることができない状況が発生することを防ぐことができる。
【0018】
第6の発明は、音源からの第1音声信号を取得し、取得された第1音声信号を調整部に出力する音声信号処理方法であって、相関値算出ステップと、判断ステップと、抑圧ステップとを備える。相関値算出ステップは、取得された第1音声信号と、取得された第1音声信号に由来するエコー信号を含む第2音声信号との相関関係を示す相関値を算出する。判断ステップは、相関値算出ステップにより算出された相関値に基づいて、取得された第1音声信号のレベルを抑圧するか否かを判断する。抑圧ステップは、判断ステップがレベルを抑圧すると判断した場合、取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する。
【0019】
第6の発明は、第1の発明に用いられる。
【0020】
第7の発明は、音源からの第1音声信号を取得し、取得された第1音声信号を調整部に出力する音声信号処理方法であって、相関値算出ステップと、判断ステップと、抑圧ステップとを備える。相関値算出ステップは、取得された第1音声信号と、調整部が第1音声信号のレベルを調整することにより生成された第2音声信号との相関関係を示す相関値を算出する。判断ステップは、相関値算出ステップにより算出された相関値に基づいて、取得された第1音声信号のレベルを抑圧するか否かを判断する。抑圧ステップは、判断ステップがレベルを抑圧すると判断した場合、取得された第1音声信号のレベルを抑圧し、レベルが抑圧された第1音声信号を調整部に出力する。
【0021】
第7の発明は、第2の発明に用いられる。
【発明の効果】
【0022】
本発明は、スピーカに入力される音声信号の歪みを抑制できる音声信号処理装置を提供することができる。
【図面の簡単な説明】
【0023】
図1】本発明の第1の実施の形態に係る音声信号処理装置を備える車載ハンズフリーシステムの構成を示す機能ブロック図である。
図2図1に示す音声信号処理装置の構成を示す機能ブロック図である。
図3図1に示す音声信号処理装置の動作を示すフローチャートである。
図4図2に示す判断部が抑圧を決定した場合における、抑圧前の受話音声信号のレベルと、抑圧後の受話音声信号のレベルとの関係を示す図である。
図5】本発明の第2の実施の形態に係る音声信号処理装置の構成を示す機能ブロック図である。
図6】本発明の第3の実施の形態に係る音声信号処理装置を備える音声認識システムの構成を示す機能ブロック図である。
図7図6に示す音声信号処理装置の構成を示す機能ブロック図である。
図8】CPUバス構成を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
【0025】
[1.構成]
[1.1.車載ハンズフリーシステム100の構成]
図1は、本発明の第1の実施の形態に係る音声信号処理装置20を備える車載ハンズフリーシステム100の構成を示す機能ブロック図である。
【0026】
図1を参照して、車載ハンズフリーシステム100は、自動車等の車両に搭載される。車載ハンズフリーシステム100は、ラジオ11と、CD(Compact Disc)プレーヤ12と、音量調整装置13と、アンプ14及び17と、スピーカ15と、マイクロフォン16と、音声信号処理装置20とを備える。本実施の形態において、音声信号処理装置20は、車両に取り付けられるハンズフリー装置である。
【0027】
ラジオ11は、ラジオ放送を受信して、音声信号11Aを生成する。音声信号11Aは、デジタル信号である。ラジオ11は、生成した音声信号11Aを音量調整装置13に出力する。
【0028】
CDプレーヤ12は、図示しないCDを再生して、音声信号12Aを生成する。音声信号12Aは、デジタル信号である。CDプレーヤ12は、生成した音声信号12Aを音量調整装置13に出力する。
【0029】
音量調整装置13は、ラジオ11、CDプレーヤ12及び音声信号処理装置20のうち、車両の運転者により指定された装置から音声信号を受ける。音量調整装置13は、その受けた音声信号のレベルを、運転者が指定するレベルに調整し、レベルが調整された音声信号をデジタルからアナログに変換する。音量調整装置13は、アナログに変換された音声信号をアンプ14に出力する。音量調整装置13は、本実施の形態において、音声信号処理装置20からの受話音声信号32のレベルを調整する調整部として機能する。
【0030】
以下、運転者により指定された装置が音声信号処理装置20である場合を例にして、アンプ14、スピーカ15及びマイクロフォン16を説明する。この場合、音量調整装置13は、音量が調整された受話音声信号32を受話音声信号33としてアンプ14に出力する。また、音声信号の「レベル」とは、スピーカ15から出力される音声の大きさに相当する。
【0031】
アンプ14は、音量調整装置13から受けた受話音声信号33を増幅する。アンプ14は、その増幅された受話音声信号33を、受話音声信号34としてスピーカ15及び音声信号処理装置20に出力する。つまり、アンプ14は、本実施の形態において、音声信号処理装置20からの受話音声信号32のレベルを調整する調整部として機能する。
【0032】
スピーカ15は、受話音声信号34をアンプ14から受ける。スピーカ15は、受けた受話音声信号34を音声に変換して、車室内へ出力する。
【0033】
マイクロフォン16は、車室内の音声を入力して送話音声信号41を生成する。マイクロフォン16は、生成した送話音声信号41をアンプ17に出力する。
【0034】
アンプ17は、送話音声信号41をマイクロフォン16から受け、その受けた送話音声信号41を増幅する。アンプ17は、増幅された送話音声信号41を送話音声信号42として音声信号処理装置20に出力する。
【0035】
音声信号処理装置20は、スマートフォン9から受話音声信号31を受信し、受話音声信号32を音量調整装置13に出力する。スマートフォン9が、音声信号処理装置20における音源に相当する。受話音声信号32は、スマートフォン9からの受話音声信号31と同じ信号であるか、あるいは、受話音声信号31のレベルが抑圧された信号であるかのいずれかである。
【0036】
音声信号処理装置20は、アンプ14から受話音声信号34を取得し、アンプ17から送話音声信号42を取得する。音声信号処理装置20は、取得した送話音声信号42に含まれるエコー信号を、スマートフォン9から受信した受話音声信号31を用いて除去する。エコー信号は、マイクロフォン16に入力される音声のうち、スピーカ15から出力される音声に起因する音声信号である。音声信号処理装置20は、エコー信号のキャンセルの結果取得される送話音声信号44をスマートフォン9に送信する。
【0037】
[1.2.音声信号処理装置20の構成]
図2は、図1に示す音声信号処理装置20の構成を示す機能ブロック図である。図2を参照して、音声信号処理装置20は、通信部21と、抑圧部22と、A/D(Analog Digital)コンバータ23と、相関値算出部24と、判断部25と、エコーキャンセル部26とを備える。
【0038】
通信部21は、運転者が所持するスマートフォン9と、近距離無線通信又は有線通信を用いて通信する。近距離無線通信は、例えば、無線LAN(Local Area Network)や、Bluetooth(登録商標)である。有線通信は、例えば、USB(登録商標)通信等である。通信部21は、受話音声信号31をスマートフォン9から受信し、その受信した受話音声信号31を抑圧部22及び相関値算出部24に出力する。通信部21は、送話音声信号44をエコーキャンセル部26から取得し、その取得した送話音声信号44をスマートフォン9に送信する。
【0039】
抑圧部22は、受話音声信号31を通信部21から受け、受話音声信号31を抑圧するか否かを示す抑圧判断結果29を判断部25から受ける。受けた抑圧判断結果29が受話音声信号31の抑圧を示す場合、抑圧部22は、受けた受話音声信号31を抑圧する。抑圧部22は、抑圧された受話音声信号31を受話音声信号32として音量調整装置13に出力する。受けた抑圧判断結果29が受話音声信号31の抑圧を示さない場合、抑圧部22は、受けた受話音声信号31を受話音声信号32として、そのまま音量調整装置13に出力する。
【0040】
A/Dコンバータ23は、アンプ14から受けた受話音声信号34をA/D変換して、参照音声信号35を生成する。生成された参照音声信号35は、エコーキャンセル部26に出力される。A/Dコンバータ23は、アンプ17から受けた送話音声信号42をA/D変換して、送話音声信号43を生成する。A/Dコンバータ23は、生成された送話音声信号43を相関値算出部24及びエコーキャンセル部26に出力する。
【0041】
なお、A/Dコンバータ23は、受話音声信号34をA/D変換するためのコンバータと、送話音声信号42をA/D変換するためのコンバータとを含んでいてもよい。
【0042】
相関値算出部24は、受話音声信号31を通信部21から受け、送話音声信号43をA/Dコンバータ23から受ける。相関値算出部24は、受けた受話音声信号31と受けた総音声信号43との相関関係を示す相関値28を算出する。相関値算出部24は、算出した相関値28を判断部25に出力する。
【0043】
判断部25は、相関値算出部24から受けた相関値28に基づいて、スマートフォン9から受信した受話音声信号31を抑圧するか否かを判断する。判断部25は、受話音声信号31を抑圧するか否かを示す抑圧判断結果29を抑圧部22に出力する。
【0044】
エコーキャンセル部26は、A/Dコンバータ23から受けた送話音声信号43に含まれるエコー信号を、A/Dコンバータ23から受けた参照音声信号35を用いて除去する。エコーキャンセル部26は、エコー信号が除去された送話音声信号43を送話音声信号44として通信部21に出力する。
【0045】
[2.動作]
[2.1.概略]
図2を参照して、音声信号処理装置20は、送話音声信号43をエコーバック信号として取得し、スピーカ15に入力される受話音声信号34を参照音声信号として取得する。参照音声信号は、音量調整装置13により音量を調整された音声信号に相当する。相関値算出部24は、受話音声信号31と、参照音声信号43との相関関係を示す相関値28を算出し、その算出した相関値28を判断部25に出力する。判断部25は、相関値28が所定の抑圧閾値よりも低い場合、受話音声信号31を抑圧することを決定する。
【0046】
この場合、抑圧部22が受話音声信号31を抑圧するため、音声クリッピングがスピーカ15で発生することを防ぐことができる。また、抑圧部22が受話音声信号31を抑圧することにより、送話音声信号43に含まれるエコー信号の線形性を保つことができる。この結果、スピーカ15から出力される音声のレベルを大きくした場合であっても、音声信号処理装置20は、エコーキャンセルの際に、送話音声信号に含まれるエコー信号が残留することを防ぐことができる。
【0047】
また、音量調整装置13が、ラジオ11と、CDプレーヤ12と、音声信号処理装置20とを含む複数のオーディオ装置の音量をまとめて調整する場合であっても、音声信号処理装置20は、音量調整装置13の特性を考慮することなく、送話音声信号に含まれる音声信号を除去することができる。
【0048】
[2.2.詳細動作]
図3は、図1に示す音声信号処理装置20の動作を示すフローチャートである。以下、図3を参照しながら、音声信号処理装置20の動作を詳しく説明する。
【0049】
通信部21がスマートフォン9の通話開始を示すオフフック信号を受信した場合、音声信号処理装置20は、図3に示す処理を開始する。
【0050】
相関値算出部24は、相関値の算出に用いる受話音声信号31を取得する(ステップS11)。具体的には、相関値算出部24は、受話音声信号31を通信部21から取得し、取得した受話音声信号31を遅延させる。遅延時間は、例えば、音量調整装置13が受話音声信号32のレベルを調整するために要する調整時間と、スピーカ15からマイクロフォン16までの距離とに基づいて決定される。通信部21により受信された受話音声信号31が、エコー信号として送話音声信号43に含まれるまでの時間が、調整時間と上記の距離とに依存するためである。相関値算出部24は、遅延させた受話音声信号31のうち、所定のサンプリング期間における受話音声信号31を取得する。
【0051】
相関値算出部24は、送話音声信号43を取得する(ステップS12)。具体的には、A/Dコンバータ23は、アンプ17から受けた送話音声信号42をA/D変換することにより、送話音声信号43を生成する。相関値算出部24は、A/Dコンバータ23により生成された送話音声信号43のうち、所定のサンプリング期間における送話音声信号43を取得する。
【0052】
相関値算出部24は、ステップS11で取得した受話音声信号31と、ステップS12で取得した送話音声信号43との相関関係を示す相関値28を算出する(ステップS13)。具体的には、相関値算出部24は、受話音声信号31の音量レベルを予め設定された周波数の間隔で区分することにより、受話音声信号31の周波数スペクトルを取得する。同様に、相関値算出部24は、送話音声信号43の周波数スペクトルを取得する。相関値算出部24は、2つ周波数スペクトルを用いて、相関値28を算出する。相関値28は、受話音声信号31と、送話音声信号43に含まれるエコー信号との相関関係を示す。相関値算出部24は、相関値28の算出に周波数スペクトルを用いることにより、受話音声信号31と送話音声信号43との相関関係を高い精度で把握することができる。相関値算出部24は、取得した2つの周波数スペクトルの相関関係を示す相互相関係数を算出する。算出された相互相関係数が、相関値28として用いられる。相関値算出部24は、ステップS13で算出した相関値28を判断部25に出力する。
【0053】
本実施の形態において、相関値28は、0以上1以下の数値である。2つの周波数スペクトルの相関が高くなるにつれて、相関値28は1に近づく。つまり、相関値28が1に近づくにつれて、受話音声信号31の波形と送話音声信号43に含まれるエコー信号の波形との類似度が高くなる。
【0054】
判断部25は、相関値算出部24により算出された相関値28が予め設定された抑圧閾値よりも低いか否かを判断する(ステップS14)。抑圧閾値は、例えば、0.6である。
【0055】
相関値28が抑圧閾値よりも高い場合(ステップS14においてYes)、判断部25は、通信部21が受信した受話音声信号31を抑圧しないことを決定する(ステップS15)。判断部25は、受話音声信号31を抑圧しないことを示す抑圧判断結果29を抑圧部22に出力する。抑圧判断結果29が受話音声信号31を抑圧しないことを示す場合、抑圧部22は、通信部21が受信した受話音声信号31を受話音声信号32として音量調整装置13に出力する(ステップS16)。その後、音声信号処理装置20は、後述するステップS17を実行する。
【0056】
相関値28が抑圧閾値よりも高い場合に、受話音声信号31を抑圧しない理由を説明する。相関値28が抑圧閾値よりも高い場合、受話音声信号31の波形は、送話音声信号43に含まれるエコー信号との波形の類似している。この場合、音量調整装置13が、受話音声信号31のレベルを調整したとしても、歪みが、スピーカ15から出力される音声に発生しない。従って、相関値28が抑圧閾値よりも高い場合、判断部25は、受話音声信号31を抑圧することなく、送話音声信号43に含まれるエコー信号をキャンセルできると判断する。
【0057】
図4は、判断部25が受話音声信号31の抑圧を決定した場合における、受話音声信号31のレベルと、受話音声信号32のレベルとの関係を示す図である。
【0058】
図4を参照して、判断部25が受話音声信号31を抑圧しないことを決定した場合、抑圧部22は、通信部21から受けた受話音声信号31を、受話音声信号32としてそのまま音量調整装置13に出力する。この場合、受話音声信号32のレベルは、受話音声信号31のレベルと一致する。特性線61が、受話音声信号31が抑圧されない場合における、受話音声信号31のレベルと受話音声信号32のレベルとの対応関係を示す。特性線61は、図4に示すグラフの原点を通り、かつ、傾きが1である直線である。
【0059】
図2に示すステップS14の説明に戻る。相関値28が抑圧閾値以下である場合(ステップS14においてNo)、判断部25は、受話音声信号31を抑圧することを決定する(ステップS18)。判断部25は、受話音声信号31の抑圧を指示する抑圧判断結果29を抑圧部22に出力する。抑圧部22は、抑圧判断結果29を受けて、受話音声信号31のレベルに基づいて受話音声信号31を抑圧する(ステップS19)。
【0060】
相関値28が抑圧閾値以下である場合に、受話音声信号31を抑圧する理由を説明する。相関値28が抑圧閾値以下である場合、受話音声信号31と、送話音声信号43に含まれるエコー信号との相関関係が弱い。つまり、送話音声信号43に含まれるエコー信号が、受話音声信号31を基準にして歪んでいるためである。エコー信号の歪みは、音量調整装置13が受話音声信号31のレベルを調整することに起因して発生する。この場合、エコーキャンセル部26が、受話音声信号31を用いて送話音声信号43に含まれるエコー信号を除去したとしても、エコー信号が十分に除去されない。音量調整装置13に起因する歪みは、受話音声信号31のレベルが高くなるにつれて発生しやすい。そこで、判断部25は、抑圧された受話音声信号31を音量調整装置13に供給することにより、音量調整装置13で発生する歪みを抑制することを決定する。
【0061】
抑圧部22は、図4に示す特性線62に従って、通信部21から受けた受話音声信号31を抑圧する。抑圧部22は、特性線62に対応するテーブルを保持しており、このテーブルに従って受話音声信号31を抑圧する。
【0062】
具体的には、受話音声信号31のレベルが範囲Aである場合、特性線62の傾きは1である。範囲Aは、0(dB)以上であり、かつ、P1(dB)よりも低い。抑圧部22は、受話音声信号31のレベルがP1(dB)よりも低い場合、判断部25による判断結果に関係なく、受話音声信号31を抑圧しない。受話音声信号31のレベルがP1(dB)よりも低い場合、スピーカ15から出力される音声の音量は比較的小さい。この場合、通話の相手方は、送話音声信号44に含まれるエコー成分を認識できない可能性が高い。それにもかかわらず、受話音声信号31を抑圧した場合、運転者が、スピーカ15から出力される音声を聞き取れない虞がある。抑圧部22は、判断部25による判断結果に関係なく、音声の聞き取りやすさを優先する。
【0063】
受話音声信号31のレベルが範囲Bである場合、特性線62の傾きは、受話音声信号31のレベルが大きくなるにつれて、0に近づく。範囲Bは、P1(dB)以上であり、かつ、P2(dB)よりも低い。抑圧部22は、受話音声信号32のレベルが受話音声信号31のレベルよりも小さくなるように、受話音声信号31を抑圧する。具体的には、抑圧部22は、受話音声信号31のレベルと、図4に示す特性線62とに基づいて、受話音声信号32のレベルを決定する。抑圧部22は、受話音声信号32のレベルが決定したレベルに一致するように、受話音声信号31を抑圧する。
【0064】
受話音声信号31のレベルがP1(dB)以上である場合、通話の相手方は、送話音声信号44に含まれるエコー信号を無視できず、送話音声信号の品質が劣化していると感じる。抑圧部22は、受話音声信号31を上述のように抑圧することにより、歪みが音量調整装置13で発生することを抑制する。これにより、受話音声信号34と、送話音声信号43に含まれるエコー信号とで発生する歪みを小さくできる。音声信号処理装置20は、歪みの小さい受話音声信号34を用いて歪みの小さいエコー信号をキャンセルすることにより、送話音声信号44において、エコー信号が残存することを防ぐことができる。
【0065】
また、特性線62の傾きは、上述のように、受話音声信号31のレベルが大きくなるにつれて、0に近づく。スピーカ15から出力される音量が、音量を大きくする操作に伴って増加するため、運転者が音量を大きくする操作とスピーカ15から出力される音量との関係に違和感を抱くことを防ぐことができる。
【0066】
受話音声信号31のレベルが範囲Cである場合、特性線62の傾きは、受話音声信号31のレベルに関係なく、0である。範囲Cは、P2(dB)以上である。この場合、抑圧部22は、通信部21が受けた受話音声信号31のレベルに関係なく、受話音声信号32のレベルをQ2(dB)に固定する。これにより、参照音声信号35と、送話音声信号43に含まれるエコー信号とは、歪みの少ない受話音声信号34から生成される。音声信号処理装置20は、歪みの小さい受話音声信号34を用いて歪みの小さいエコー信号をキャンセルすることにより、エコーキャンセル部26から出力される送話音声信号43において、エコー成分が残存することを防ぐことができる。
【0067】
再び、図3を参照する。音声信号処理装置20は、ステップS16又はS19の後に、通信部21がスマートフォン9の通話が終了したか否かを判断する(ステップS17)。
【0068】
具体的には、通信部21が、通話終了を示すオンフック信号をスマートフォン9から受信した場合、通話が終了したと判断する(ステップS17においてYes)。この場合、音声信号処理装置20は、図3に示す処理を終了する。通信部21が、オンフック信号を受信していない場合、音声信号処理装置20は、ステップS11の処理に戻る。
【0069】
以上説明したように、音声信号処理装置20は、受話音声信号31と送話音声信号43との相関関係を示す相関値28を算出し、算出した相関値28に基づいて、受話音声信号31を抑圧するか否かを決定する。これにより、音声信号処理装置20は、音量調整装置を13の特性を考慮することなく、送話音声信号43に含まれるエコー信号を、スマートフォン9の通話先がエコー信号を認識できない程度に、除去することができる。
【0070】
[第2の実施の形態]
(構成)
図5は、本発明の第2の実施の形態に係る音声信号処理装置20Aの構成を示す機能ブロック図である。音声信号処理装置20Aに関する説明のうち、上記実施の形態に係る音声信号処理装置20に関する説明と重複する部分については、その説明を省略する。
【0071】
図5を参照して、音声信号処理装置20Aは、相関値算出部24に代えて、相関値算出部24Aを備える。相関値算出部24Aは、通信部21から受話音声信号31を受け、A/Dコンバータ23から参照音声信号35を受ける。相関値算出部24Aは、受話音声信号31、参照音声信号35との相関関係を示す相関値28Aを算出し、算出した相関値28Aを判断部25に出力する。相関値28Aの算出アルゴリズムは、上記実施の形態で説明した相関値28の算出アルゴリズムと同じである。
【0072】
(動作)
図4を参照して、音声信号処理装置20Aの動作を説明する。音声信号処理装置20Aは、ステップS12及びS13の各々において、音声信号処理装置20と異なる動作を実行する。
【0073】
相関値算出部24Aは、通信部21から受話音声信号31を取得する(ステップS11)。相関値算出部24Aは、ステップS12に代えて、参照音声信号35を取得する処理を実行する。参照音声信号35は、音量調整装置13から出力される受話音声信号34から生成される。従って、参照音声信号35は、音量調整装置13に起因する歪みを含む。
【0074】
相関値算出部24Aは、ステップS13に代えて、取得した受話音声信号31と、取得した参照音声信号35との相関関係を示す相関値28Aを算出する処理を実行する。相関値算出部24Aは、算出した相関値28Aを判断部25に出力する。
【0075】
判断部25は、相関値算出部24Aから受けた相関値28Aが抑圧閾値よりも高いか否かを判断する(ステップS14)。
【0076】
相関値28Aが抑圧閾値よりも高い場合(ステップS14においてYes)、受話音声信号31を基準とした場合における送話音声信号43に含まれるエコー信号の歪みが比較的小さい。歪みが小さい受話音声信号34が、アンプ14からスピーカ15へ供給されるためである。この場合、判断部25は、受話音声信号31を抑圧しないことを決定する(ステップS15)。抑圧部22は、判断部25の判断結果に基づいて、通信部21から受けた受話音声信号31を、受話音声信号32としてそのまま音量調整装置13に出力する(ステップS16)。
【0077】
相関値28Aが抑圧閾値以下である場合(ステップS14においてNo)、受話音声信号31を基準とした場合における送話音声信号43に含まれるエコー信号の歪みが大きい。この場合、エコーキャンセル部26は、送話音声信号43に含まれるエコー信号を十分に除去することができない。判断部25は、送話音声信号43に含まれるエコー信号の歪みを低減するために、受話音声信号31を抑圧することを決定する(ステップS18)。抑圧部22は、判断部25の判断結果を受けて、受話音声信号31を抑圧する(ステップS19)。
【0078】
音量調整装置13が、レベルが抑圧された受話音声信号32を用いて音量を調整するため、送話音声信号43に含まれるエコー信号の歪みが低減される。エコーキャンセル部26は、スマートフォン9の通話先がエコー信号を認識できない程度に、送話音声信号43に含まれるエコー信号を除去することができる。
【0079】
[第3の実施の形態]
図6は、本発明の第3の実施の形態に係る音声信号処理装置20Bを備える音声認識システム300の構成を示す機能ブロック図である。図6を参照して、音声認識システム300は、例えば、自動車等の車両に搭載される。音声認識システム300は、車両に搭載されたナビゲーション装置を操作するための音声入力インタフェースとして用いられる。
【0080】
音声認識システム300は、ラジオ11と、CDプレーヤ12と、音量調整装置13と、アンプ14及び17と、スピーカ15と、マイクロフォン16と、音声認識装置18と、音声信号処理装置20Bとを備える。
【0081】
ラジオ11は、ラジオ放送を受信して音声信号11Aを生成する。CDプレーヤ12は、図示しないCDを再生して、音声信号12Aを生成する。
【0082】
音量調整装置13は、音声信号11A及び12Aのうち、運転者により指定された装置からの音声信号を受ける。音量調整装置13は、受けた音声信号の音量を、運転者の指定する音量に調整して、音量調整信号51を音声信号処理装置20Bに出力する。
【0083】
アンプ14は、音量調整信号52を音声信号処理装置20Bから受け、その受けた音量調整信号52を増幅する。アンプ14は、その増幅された音量調整信号52を音量調整信号53として、スピーカ15及び音声信号処理装置20Bに出力する。
【0084】
スピーカ15は、音量調整信号53をアンプ14から受ける。スピーカ15は、受けた音量調整信号53を音声に変換して、車室へ出力する。
【0085】
マイクロフォン16は、車室内の音声を入力して送話音声信号41を生成し、その生成した送話音声信号41をアンプ17に出力する。アンプ17は、マイクロフォン16から受けた送話音声信号41を増幅し、増幅された送話音声信号41を送話音声信号42として音声信号処理装置20Bに出力する。
【0086】
音声認識装置18は、音声信号処理装置20Bから送話音声信号44を受け、その受けた送話音声信号44を用いて、運転者が入力した音声を認識する。音声認識装置18は、音声の認識結果を、図示しないナビゲーション装置に出力する。
【0087】
音声信号処理装置20Bは、音量調整信号51を音量調整装置13から受け、音量調整信号53をアンプ14から受け、送話音声信号42をアンプ17から受ける。音声信号処理装置20Bは、受けた音量調整信号53を用いて、送話音声信号42に含まれるエコー信号を除去する。ラジオ11及びCDプレーヤ12が、音声信号処理装置20Bにおける音源に相当する。
【0088】
音声信号処理装置20Bは、受けた音量調整信号51と受けた送話音声信号42との相関関係を示す相関値に基づいて、受けた音量調整信号51を抑圧するか否かを判断する。音声信号処理装置20Bは、受けた音量調整信号51を抑圧しないことを決定した場合、受けた音量調整信号51を、音量調整信号52としてそのままアンプ14に出力する。音声信号処理装置20Bは、受けた音量調整信号51を抑圧することを決定した場合、受けた音量調整信号51を抑圧し、抑圧した音量調整信号51を音量調整信号52としてアンプ14に出力する。
【0089】
図7は、図6に示す音声信号処理装置20Bの構成を示す機能ブロック図である。図6を参照して、音声信号処理装置20Bは、通信部21を備えない点を除いて、図2に示す音声信号処理装置20と同様の構成を有する。図7において、音量調整信号51が、受話音声信号31に対応する。音量調整信号52が、受話音声信号32に対応する。音量調整信号53が、受話音声信号34に対応する。
【0090】
音声認識システム300及び音声信号処理装置20Bが、上記の構成を備えることにより、音声認識システム300は、ラジオ11又はCDプレーヤ12の音量を下げなることなく、運転者の音声を認識することができる。以下、具体的に説明する。
【0091】
例えば、アンプ14が、ラジオ11からの音声信号11Aから生成された音量調整信号52を増幅することにより、スピーカ15から出力される音声が歪む場合を考える。この場合、歪んだ音声がマイクロフォン16に入力されるため、送話音声信号43に含まれるエコー信号が歪む。
【0092】
上記実施の形態でも説明したように、スピーカ15に入力される音声信号が、歪んだ場合、音声信号処理装置20Bは、送話音声信号43に含まれるエコー信号を効果的に除去できない。このため、音声信号処理装置20Bは、図4に示す処理を実行することにより、送話音声信号43に含まれるエコー信号を除去する。
【0093】
このように、送話音声信号43が、スピーカ15から出力されるラジオの音声に起因するエコー信号を含んだとしても、音声信号処理装置20Bは、ラジオの音声に起因するエコー信号を除去することができる。運転者が音声を音声認識システム300に入力する際に、音量調整装置13は、ラジオ11からの音声信号11A及びCDプレーヤ12からの音声信号12Aのレベルを小さくしなくてもよい。
【0094】
[変形例]
上記実施の形態では、抑圧部22が、受話音声信号31のレベルがP1(dB)以下である場合、受話音声信号31を抑圧する例を説明した。しかし、抑圧部22は、受話音声信号31のレベルに関係なく、受話音声信号32のレベルが受話音声信号31のレベルよりも低くなるように、受話音声信号31のレベルを調整してもよい。例えば、抑圧部22は、図4に示す特性線63に従って、受話音声信号31を抑圧してもよい。受話音声信号31のレベルが大きくなるにつれて、特性線63の接線の傾きは、0に近づく。この場合であっても、音量調整装置13に起因する歪みの発生を抑制することができる。
【0095】
上記実施の形態では、音声信号処理装置がハンズフリー装置又は音声認識装置に搭載される例を説明したが、これに限られない。音声信号処理装置が搭載される機器は、特に限定されない。例えば、上記実施の形態に係る音声信号処理装置をICC(In Car Communication)装置その他のオーディオ装置に搭載されてもよい。
【0096】
上記実施の形態では、音声信号処理装置がエコーキャンセル部26を備える例を説明したが、これに限られない。音声信号処理装置は、エコーキャンセル部26を備えなくてもよい。この場合、スピーカから出力される音声が歪むことが防止されるため、ユーザは、スピーカから出力される音声を容易に認識することができる。
【0097】
また、上記実施の形態で説明した音声信号処理装置において、各機能ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部又は全部を含むように1チップ化されても良い。
【0098】
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0099】
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
【0100】
また、上記各実施の形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施の形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。
【0101】
また、上記実施の形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。
【0102】
例えば、上記実施の形態(変形例を含む)の各機能ブロックを、ソフトウェアにより実現する場合、図8に示したハードウェア構成(例えば、CPU、ROM、RAM、入力部、出力部等をバスBusにより接続したハードウェア構成)を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。
【0103】
また、上記実施の形態における処理方法の実行順序は、必ずしも、上記実施の形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。
【0104】
前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、大容量DVD、次世代DVD、半導体メモリを挙げることができる。
【0105】
上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
【0106】
以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。
【符号の説明】
【0107】
20、20A、20B 音声信号処理装置
21 通信部
22 抑圧部
23 A/Dコンバータ
24 相関値算出部
25 判断部
26 エコーキャンセル部
図1
図2
図3
図4
図5
図6
図7
図8