(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024133969
(43)【公開日】2024-10-03
(54)【発明の名称】音質補正装置、音質補正方法、およびプログラム
(51)【国際特許分類】
G10L 21/0388 20130101AFI20240926BHJP
G10L 21/0364 20130101ALI20240926BHJP
H04R 25/00 20060101ALI20240926BHJP
H04R 3/04 20060101ALI20240926BHJP
H04R 1/10 20060101ALN20240926BHJP
【FI】
G10L21/0388 100
G10L21/0364
H04R25/00 L
H04R3/04
H04R1/10 104Z
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023044013
(22)【出願日】2023-03-20
(71)【出願人】
【識別番号】000004444
【氏名又は名称】ENEOS株式会社
(71)【出願人】
【識別番号】522237542
【氏名又は名称】NTTソノリティ株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】門脇 正天
(72)【発明者】
【氏名】小林 和則
(72)【発明者】
【氏名】滝澤 拓斗
(72)【発明者】
【氏名】柿山 陽一郎
【テーマコード(参考)】
5D005
5D220
【Fターム(参考)】
5D005BA00
5D220AA02
5D220AB01
5D220BA04
(57)【要約】
【課題】利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させる。
【解決手段】音質補正装置は、利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく第1出力音声信号を出力する。ここで、補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である。
【選択図】
図3
【特許請求の範囲】
【請求項1】
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、前記補正音声信号に基づく第1出力音声信号を出力する音質補正部を有し、
前記補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタであり、
前記参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正装置。
【請求項2】
請求項1の音質補正装置であって、
前記比率は、前記周波数区間ごとに一様である、音質補正装置。
【請求項3】
請求項1の音質補正装置であって、
前記参照音声信号は、前記第2音声信号および前記標準的な音声に基づく信号である、音質補正装置。
【請求項4】
請求項1の音質補正装置であって、
前記参照音声信号は、前記第2音声信号および前記利用者の周囲の雑音を表す第2雑音信号に基づく信号である、音質補正装置。
【請求項5】
請求項1の音質補正装置であって、
前記音質補正部は、
前記入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、
前記擬似広帯域信号に基づく前記第1出力音声信号を出力する、音質補正装置。
【請求項6】
請求項5の音質補正装置であって、
前記強調高域信号は、前記入力音声信号に含まれる前記第1周波数よりも低い信号成分に基づいて得られる前記第1周波数よりも高い高域信号に、前記参照音声信号の大きさに対する前記基準音声信号の大きさの比率、に応じた重みを与えて得られる信号である、音質補正装置。
【請求項7】
請求項6の音質補正装置であって、
前記音質補正部は、前記補正フィルタを用い、前記比率に応じた前記重みを前記高域信号に与えて前記強調高域信号を得る、音質補正装置。
【請求項8】
請求項5の音質補正装置であって、
前記強調高域信号は、前記補正音声信号に含まれる前記第1周波数よりも低い信号成分に基づく信号である、音質補正装置。
【請求項9】
請求項5の音質補正装置であって、
前記音質補正部は、
前記入力音声信号に含まれる第2周波数よりも低い信号成分に前記補正フィルタを適用して前記補正音声信号を得、
前記補正音声信号に含まれる前記第1周波数よりも低い信号成分に基づいて前記強調高域信号を得、
前記補正音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に前記強調高域信号を混合して前記擬似広帯域信号を得、
前記擬似広帯域信号に基づく前記第1出力音声信号を出力する、音質補正装置。
【請求項10】
請求項9の音質補正装置であって、
前記入力音声信号は、前記第1音声信号と前記利用者の周囲の雑音を表す第1雑音信号とを含み、
前記入力音声信号に含まれる前記第1雑音信号に対する前記第1音声信号の比率が第1値である場合の前記第2周波数は、前記入力音声信号に含まれる前記第1雑音信号に対する前記第1音声信号の比率が前記第1値よりも大きな第2値である場合の前記第2周波数よりも低い、音質補正装置。
【請求項11】
請求項5の音質補正装置であって、
前記入力音声信号は、前記第1音声信号と前記利用者の周囲の雑音を表す第1雑音信号とを含み、
前記音質補正部は、
前記入力音声信号に含まれる前記第1雑音信号に対する前記第1音声信号の比率が第1値である場合に、前記補正音声信号に基づかず、前記擬似広帯域信号に基づく前記第1出力音声信号を出力し、
前記入力音声信号に含まれる前記第1雑音信号に対する前記第1音声信号の比率が前記第1値よりも大きな第2値である場合に、前記補正音声信号に基づく前記第1出力音声信号を出力する、音質補正装置。
【請求項12】
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第1出力音声信号を出力する音質補正部を有し、
前記強調高域信号は、前記入力音声信号に含まれる前記第1周波数よりも低い信号成分に基づいて得られる前記第1周波数よりも高い高域信号に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であり、
前記参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正装置。
【請求項13】
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第1出力音声信号を出力する音質補正部を有する、音質補正装置。
【請求項14】
請求項1から11の何れかの音質補正装置であって、
前記第1出力音声信号と、雑音下で空気伝搬された第3音声信号に基づく第2出力音声信号とを、混合重みで重み付け混合した混合出力信号を得て出力する混合部をさらに有し、
前記雑音の大きさが第1レベルであるときの前記第1出力音声信号の混合重みに対する前記第2出力音声信号の混合重みの比率は、前記雑音の大きさが前記第1レベルよりも大きな第2レベルであるときの前記第1出力音声信号の混合重みに対する前記第2出力音声信号の混合重みの比率よりも大きい、音質補正装置。
【請求項15】
請求項14の音質補正装置であって、
前記第1出力音声信号に含まれる第3周波数よりも低い信号成分の混合重みは、前記雑音の大きさにかかわらず一定である、音質補正装置。
【請求項16】
音質補正装置による音質補正方法であって、
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、前記補正音声信号に基づく第1出力音声信号を出力する音質補正ステップを有し、
前記補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタであり、
前記参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正方法。
【請求項17】
音質補正装置による音質補正方法であって、
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第1出力音声信号を出力する音質補正ステップを有し、
前記強調高域信号は、前記入力音声信号に含まれる前記第1周波数よりも低い信号成分に基づいて得られる前記第1周波数よりも高い高域信号に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であり、
前記参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正方法。
【請求項18】
音質補正装置による音質補正方法であって、
利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第1出力音声信号を出力する音質補正ステップを有する、音質補正方法。
【請求項19】
請求項1から13の何れかの音質補正装置としてコンピュータを機能させるためのプログラム。
【請求項20】
請求項14の音質補正装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、集音技術に関し、特に、集音した音声を補正する技術に関する。
【背景技術】
【0002】
騒音環境下で利用者の音声を集音するために、外部の音を集音するマイクロホン(外部マイクロホン)を用いると、周囲の騒音に対する利用者の音声の比率が小さくなってしまい、利用者の音声をクリアに集音することができない。
【0003】
この問題を解決するため、利用者の外耳道またはその近傍(外耳道とつながっている部分)に装着されたマイクロホン(耳内マイクロホン)を用いて音声を集音する技術が知られている(例えば、非特許文献1等参照)。ここで、耳内マイクロホンに到達する騒音はイヤホン等に遮られて音圧が小さくなっている。一方、利用者が発した音声は、空気中のみならず、利用者の身体をも伝わって耳内マイクロホンに到達する。空気中を伝わる音声は騒音と同様にイヤホン等に遮られて音圧が小さくなるが、身体を伝わる音声はさほど減衰しない。これにより、耳内マイクロホンは、騒音環境下において、外部マイクロホンよりも高いS/N比で音声を集音できる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】“三洋・日鉄エレ、「耳でしゃべる」イヤホンマイク“e耳くん”を発売”,[online],2007年12月18日,日鉄エレックス,[2023年1月25日検索],インターネット<https://www.phileweb.com/news/d-av/200712/18/19995.html>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、身体を介して伝達された音声は、その高周波成分が大きく減衰する。そのため、このような音声は明瞭性が低く聞き取りにくい。このような問題は、騒音環境下で耳内マイクロホンを用いて音声を集音する場合に限られるものではなく、しゃべり声のあるオフィスやカフェなどのざわめき環境下で利用者の身体を介して伝達された音声を集音する場合にも共通するものである。以下、工場や車のたくさん走っている道路、線路脇、駅などの大きな環境音(80dBSPL以上を目安)を騒音とよび、オフィスやカフェなど、それよりも小さい環境音をざわめきとよぶ。また、騒音とざわめきを含む環境音の総称を雑音とよぶ。
【0006】
本発明は、このような点に鑑みてなされたものであり、利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させる技術を提供する。
【課題を解決するための手段】
【0007】
音質補正装置は、利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく第1出力音声信号を出力する。ここで、補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。参照音声信号は、第2身体を介して伝達された第2音声信号に基づく信号であり、基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である。
【発明の効果】
【0008】
これにより、利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させることができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態の音声通信システムを例示するための図である。
【
図2】
図2は、実施形態の音声通信システムを例示するための図である。
【
図3】
図3は、第1実施形態の音質補正装置を例示するためのブロック図である。
【
図4】
図4は、利用者の口元に装着された外部マイクロホンで観測された音声信号の感度X、当該利用者の耳元に装着された外部マイクロホンで観測された音声信号の感度Y、および、当該利用者の外耳道またはその近傍に装着された耳内マイクロホンで観測された音声信号の感度Aを例示した図である。音声信号の「感度」とは、利用者の口元に装着された外部マイクロホンで観測された当該利用者の音声信号の周波数スペクトルで正規化された音声信号の周波数スペクトルを意味する。
図4の横軸は周波数(Frequency [Hz])を表し、縦軸は感度(Sensitivity [dB])を表す。
【
図5】
図5は、第2実施形態の音質補正装置を例示するためのブロック図である。
【
図6】
図6は、第2実施形態の擬似広帯域化部を例示するためのブロック図である。
【
図7】
図7は、第3実施形態およびその変形例の音質補正装置を例示するためのブロック図である。
【
図8】
図8Aは、利用者の音声信号の感度を例示した図である。
図8Bは、音声信号の低域側に補正フィルタを適用して得られる音声信号の感度を例示した図である。
図8Cは、
図8Bの音声信号の擬似広帯域信号を例示した図である。
【
図9】
図9は、第4実施形態の音質補正装置を例示するためのブロック図である。
【
図10】
図10は、第5実施形態の音質補正装置を例示するためのブロック図である。
【
図11】
図11は、第6実施形態の音質補正装置を例示するためのブロック図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態を説明する。
[第1実施形態]
第1実施形態では、利用者の身体を介して伝達された音声を集音(観測)し、補正フィルタを用いてその音質を改善する。すなわち、本実施形態の音質補正装置は、利用者の身体(第1身体)を介して伝達された音声信号(第1音声信号)に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく音声信号(第1出力音声信号)を出力する。ここで「補正フィルタ」は、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。「参照音声信号」は、或る身体(第2身体)を介して伝達された音声信号(第2音声信号)に基づく信号であり、このような音声信号に基づく周波数スペクトルを持つ。「基準音声信号」は、空気伝搬された音声または標準的な音声に基づく信号であり、このような音声に基づく周波数スペクトルを持つ。このような「補正フィルタ」は、利用者の身体を伝達したことによって減衰した信号成分を強調(増幅)するものである。これによって、入力音声信号の明瞭性を向上させた第1出力音声信号が得られる。
【0011】
「第1身体」は、例えば、利用者の頭部であるが、これは本発明を限定しない。例えば、利用者の頭部とその他の身体部位(例えば、首、胴体、腕、手等)が「第1身体」であってもよい。「第1音声信号」は、例えば、利用者の外耳道またはその近傍(外耳道とつながっている部分)に装着されたマイクロホン(耳内マイクロホン)で集音された音声信号であるが、これは本発明を限定しない。例えば、「第1音声信号」が、利用者の首部分に装着された咽喉マイクロホンで集音された音声信号であってもよいし、利用者の頭部、喉、胴体、腕、手等に装着された骨伝導マイクロホンで集音された音声信号等であってもよい。「入力音声信号」は、このような第1音声信号に基づく信号である。「第1音声信号に基づく信号」は、例えば、「第1音声信号」の時間領域信号であってもよいし、「第1音声信号」の時間周波数領域信号であってもよい。
【0012】
「第2身体」は「第1身体」と同一であってもよいし、同一でなくてもよい。例えば、「第2身体」は、上述した利用者の身体部位であってもよいし、上述した利用者以外のヒトの身体部位であってもよいし、人体を模擬したHATS(Head and Torso Simulator)でもよい。例えば、「第2身体」は、「第1身体」に相当する身体部位であってもよいし、「第1身体」と異なる身体部位であってもよい。例えば、「第2身体」は、頭部であってもよいし、頭部とその他の身体部位(例えば、首、胴体、腕、手等)等であってもよい。「第2音声信号」は、例えば、利用者またはその他のヒトの外耳道またはその近傍(外耳道とつながっている部分)に装着されたマイクロホン(耳内マイクロホン)で集音された音声信号であるが、これは本発明を限定しない。例えば、「第2音声信号」が、利用者またはその他のヒトの首部分に装着された咽喉マイクロホンで集音された音声信号であってもよいし、利用者またはその他のヒトの頭部、喉、胴体、腕、手等に装着された骨伝導マイクロホンで集音された音声信号等であってもよい。「参照音声信号」は、このような第2音声信号に基づく信号である。例えば、「参照音声信号」は、「第2音声信号」の時間領域信号であってもよいし、「第2音声信号」に対する関数値の時間領域信号であってもよいし、「第2音声信号」の時間周波数領域信号であってもよいし、「第2音声信号」に対する関数値の時間周波数領域信号であってもよい。「参照音声信号」が、複数のヒトについて得られた「第2音声信号」の平均値に基づく信号であってもよい。例えば、「参照音声信号」は、「第2音声信号」の平均値の時間領域信号であってもよいし、「第2音声信号」の平均値に対する関数値の時間領域信号であってもよいし、「第2音声信号」の平均値の時間周波数領域信号であってもよいし、「第2音声信号」の平均値に対する関数値の時間周波数領域信号であってもよい。
【0013】
「空気伝搬された音声」は、例えば、上述した利用者の口から発せられた音声が空気伝搬されたものであってもよいし、上述した利用者以外のヒトの口から発せられた音声が空気伝搬されたものであってもよい。「空気伝搬された音声」は、例えば、上述した利用者または当該利用者以外のヒトの耳元に装着されたマイクロホン(外部マイクロホン)で観測された音声であるが、これは本発明を限定しない。例えば、「空気伝搬された音声」が、上述した利用者または当該利用者以外のヒトやHATSの口元に装着されたマイクロホン(外部マイクロホン)で観測された音声であってもよいし、その他の位置に配置された外部マイクロホンで観測された音声であってもよい。「標準的な音声」は、例えば、予め収録された標準的な音声データベース(例えば、ATR多数話者音声データベース)の音声や、ITU-T P.50のArtificial Voiceや、ITU-T P.501のテスト音声である。また「空気伝搬された音声または標準的な音声に基づく信号」は、例えば、空気伝搬された音声の音声信号であってもよいし、空気伝搬された音声に音響処理を施して得られる音声信号であってもよいし、標準的な音声の音声信号であってもよいし、標準的な音声に音響処理を施して得られる音声信号であってもよいし、このような音声信号の平均であってもよい。
【0014】
「補正フィルタ」は、参照音声信号の大きさに対する基準音声信号の大きさの比率(以下、単に「比率」)の周波数特性を周波数領域で実現するフィルタであってもよいし、「比率」の周波数特性を時間領域で実現するフィルタ(例えば、FIR(Finite Impulse Response)フィルタやIIR(Infinite Impulse Response)フィルタ等)であってもよい。
【0015】
前者の場合、補正フィルタは、例えば、各周波数区間fでの当該比率G(f)の集合Gである。音質補正装置は、例えば、時間周波数領域において、入力音声信号A(τ,ω)に、この補正フィルタG(f)を適用し、補正音声信号U(τ,ω)を得る(式(1))。
U(τ,ω)=G(f)A(τ,ω) (1)
ここで、fは各周波数区間を表すインデックスであり、ωは周波数区間fに属する離散周波数(例えば、周波数ビン)を表すインデックスであり(ω∈f)、τは各時間区間を表すインデックスである。大きなfほど周波数の高い周波数区間を表し、大きなωほど高い離散周波数を表し、大きなτほど後の時間区間を表す。U(τ,ω)は時間周波数領域で表現された各時間区間τおよび各離散周波数ωでの「補正音声信号」であり、G(f)は補正フィルタGに含まれる各周波数区間fに対応する成分であり、A(τ,ω)は時間周波数領域で表現された各時間区間τおよび各離散周波数ωでの「入力音声信号」である。ここで、G(f)は以下を満たす。
G(f)=amp(Y”(f))/amp(A”(f)) (2)
ここで、Y”(f)は周波数区間fでの「基準音声信号」であり、A”(f)は周波数区間fでの「参照音声信号」である。これらはいずれも周波数領域の信号である。またamp(・)は・の大きさを表す。amp(・)は、・の大きさに対して単調増加する値であればどのようなものでもよく、例えば、・の振幅の絶対値であってもよいし、・のパワーであってもよい。
【0016】
式(2)を式(1)に代入すると、以下のようになる。
U(τ,ω)={amp(Y”(f))/amp(A”(f))}A(τ,ω) (3)
ここで、空気伝搬された音声または標準的な音声の大きさに対する、利用者の身体を介して伝達された音声信号の大きさの比率が小さい周波数区間fほど、比率G(f)=amp(Y”(f))/amp(A”(f))が大きくなる傾向にある。すなわち、利用者の身体を伝達することによる減衰量が大きい周波数区間fほど、amp(Y”(f))/amp(A”(f))が大きくなる傾向がある。そのため、補正音声信号U(τ,ω)は、入力音声信号A(τ,ω)(ω∈f)のうち、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正した信号となる。
【0017】
後者の場合、補正フィルタは、例えば、G(f)の周波数特性を時間領域で実現する補正フィルタg=[g0,…,gM-1]Tである。音質補正装置は、例えば、A(τ,f)を時間領域に逆周波数変換して得られる離散時間t,…,t-M+1での入力音声信号a(t),…,a(t-M+1)に、この補正フィルタgを適用し、U(τ,f)を時間領域に逆周波数変換して得られる離散時間tでの補正音声信号u(t)を得る(式(4))。
u(t)=gTat (4)
ここで、tは離散時間を表すインデックスであり、大きなtほど後の時間区間を表す。Mはフィルタ長を表す正整数であり、at=[a(t),…,a(t-M+1)]Tであり、g0,…,gM-1は実数のフィルタ係数であり、・Tは・の転置を表す。補正音声信号u(t)は、入力音声信号a(t),…,a(t-M+1)のうち、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正した信号となる。
【0018】
その他、「補正フィルタ」が複数のヒトについての「比率」の平均に基づくものであってもよい。例えば、「補正フィルタ」が複数のヒトについての「比率」の平均の周波数特性を周波数領域で実現するフィルタであってもよいし、「比率」の平均の周波数特性を時間領域で実現するフィルタであってもよい。
【0019】
上述したように、「補正フィルタ」は、前述の「比率」(例えば、amp(Y”(f))/amp(A”(f)))に基づくフィルタである。ここで、各周波数区間fに複数の離散周波数ωが属する場合であっても、この「比率」が同じ周波数区間fで一様であることが望ましい。例えば、「比率」のそれぞれは、周波数区間fのそれぞれで平均化されていることが望ましい。なぜなら、この「比率」を各離散周波数ω∈fごとに個々に設定してしまうと、入力音声信号のディップ(周波数特性の谷)を各離散周波数ωで逐一強調することになり、SNRの悪い帯域が逐一増幅され、「補正音声信号」のSNRが低下してしまうからである。すなわち、各周波数区間fは、例えば、2個以上の離散周波数ωを含むことが望ましい。周波数区間fは、例えば、1/3オクターブバンド幅、1/6オクターブバンド幅、ヒトの聴覚の臨界帯域幅、または、これらの何れかに近似する幅の周波数区間である。なお、ディップの影響が小さい用途においては、f=ωとし、この「比率」を離散周波数ωごとに個々に設定してもよい。
【0020】
また、前述した「参照音声信号」が、前述の「第2音声信号」および「標準的な音声」に基づく信号であってもよい。これによって「第2音声信号」のディップが「標準的な音声」の周波数特性に吸収され、ディップの影響を減らすことができる。例えば、「参照音声信号」が「第2音声信号」および「標準的な音声」の関数値であってもよい。例えば、「参照音声信号」が「第2音声信号」および「標準的な音声」の重み付け和であってもよい。例えば、周波数区間fにおける、第2音声信号A’(f)および標準的な音声の信号C’(f)に対し、参照音声信号A”(f)を以下のように設定してもよい(式(5))。
A”(f)=A’(f)+αC’(f) (5)
ここで、αは0<α≦1を満たす実数係数(定数)であり、C’(f)は周波数領域の信号である。好ましくは、αは1よりも十分に小さく、例えば、0<α<0.3または0<α<0.1を満たす。この場合、前述した式(2)のG(f)は、以下のようになる(式(6))。
G(f)=amp(Y”(f))/amp(A’(f)+αC’(f)) (6)
【0021】
また、前述した「参照音声信号」が、前述の「第2音声信号」、および、利用者の周囲の雑音を表す雑音信号(「第2雑音信号」)に基づく信号であってもよい。なお、雑音は、例えば、騒音や騒音よりも音圧レベルの低いざわめきである。これにより、前述の「入力音声信号」のうち、雑音が大きく、SNRが低い周波数区間fの成分が強調され、「補正音声信号」のSNRが低下することを防止できる。例えば、「参照音声信号」が「第2音声信号」および「第2雑音信号」の関数値であってもよい。例えば、「参照音声信号」が「第2音声信号」および「第2雑音信号」の重み付け和であってもよい。例えば、周波数区間fにおける、第2音声信号A’(f)および第2雑音信号N’(f)に対し、参照音声信号A”(f)を以下のように設定してもよい(式(7))。
A”(f)=A’(f)+βN’(f) (7)
ここで、βは0<βを満たす実数係数(定数)であり、N’(f)は周波数領域の信号である。好ましくは、βは1または1の近傍である。例えば、0.7<β≦1または1.0<β≦1.5である。この場合、前述した式(2)のG(f)は、以下のようになる(式(8))。
G(f)=amp(Y”(f))/amp(A’(f)+βN’(f)) (8)
【0022】
以下、図面を参照して本発明の第1実施形態を説明する。以下では、説明を簡略化するため、「第1身体」が利用者の頭部であり、「第1音声信号」が耳内マイクロホンで集音された音声信号である例を説明する。しかし、これは本発明を限定するものではない。また以降では、既に説明した事項については同じ参照記号を用い、説明を簡略化する。
【0023】
<構成>
図1に例示するように、本実施形態では、雑音環境下(例えば、騒音環境下やそれよりも音圧レベルが低いざわめき環境下で、集音システム1を装着した利用者1000の発話音(音声)を集音する。集音された音声の用途に限定はない。例えば、集音された音声が、他者との音声通信に用いられてもよいし、機器の音声操作に用いられてもよいし、履歴として記録されてもよい。
【0024】
図2に例示するように、本実施形態の集音システム1は、音質補正装置11、スピーカ12、マイクロホン13(耳内マイクロホン)、マイクロホン14(外部マイクロホン)、筐体15、およびイヤーチップ16(イヤーピース、イヤーパッド)を有する。この例の筐体15は、中空の中空部151,152および先端部153を有している。先端部153の径は中空部152の径よりも小さく、中空部152の先端部153側の領域はテーパー状に形成され、中空部152につながっている。先端部153の端部は開放端153aとなっており、この開放端153aを通じて中空部152および先端部153の内部が開放端153aの外方に開放されている。先端部153の外側には、先端部153を囲むイヤーチップ16が取り付けられている。中空部151と中空部152の間にはスピーカ12が取り付けられている。スピーカ12は、例えば中空部152側に外部の雑音を相殺するための逆相の擬似雑音信号を放出するように配置されている。先端部153の内部にはマイクロホン13が取り付けられている。
図2の例では、先端部153内部の中空部152側の位置にマイクロホン13が取り付けられている。しかし、これは本発明を限定するものではない。また、中空部151にはさらに音孔15aが設けられている。音孔15aは筐体15の壁よりも音を透過しやすい孔であり、例えば、貫通孔等である。マイクロホン14は、筐体15の中空部151の内側に取り付けられている。マイクロホン14の受音位置は、音孔15aの近傍であり、マイクロホン14はこの音孔15aを通じて筐体15の外部の音を集音できるように構成されている。中空部151の内部には音質補正装置11が取り付けられ、音質補正装置11はマイクロホン13,14と電気的に接続されている。本実施形態の集音システム1は、利用者1000の耳1010に装着される。すなわち、開放端153aを利用者1000の鼓膜1012側に向けた状態で、イヤーチップ16が取り付けられた先端部153が耳1010の外耳道1011に挿入される。これにより、先端部153の内部に取り付けられたマイクロホン13が、外耳道1011の近傍または外耳道1011の中に配置される。これにより、マイクロホン13では、主に利用者1000の身体を介して伝達された音声信号が観測される。一方、マイクロホン14の受音位置は、マイクロホン13の位置よりも、空気伝搬した利用者1000の音声信号の音圧が高い位置である。また、このマイクロホン14の受音位置は、マイクロホン13の位置よりも、利用者1000の身体を伝達した音声信号の音圧が低い位置である。例えば、マイクロホン13の位置では、利用者1000の身体を伝達した音声信号は観測されるが、マイクロホン14の受音位置では、利用者1000の身体を伝達した音声信号は観測されないか、ほとんど観測されない。また、マイクロホン14の受音位置は、マイクロホン13の位置よりも、筐体15の外部の雑音信号の音圧が高い位置である。例えば、装着時における、外耳道1011からマイクロホン14の受音位置までの距離は、外耳道1011からマイクロホン13の受音位置までの距離よりも長い。なお、集音システム1は、例えば、イヤホンやヘッドホン等として実装可能である。
【0025】
筐体15の外部で発せられた雑音信号nout(t)および利用者1000が発した音声信号sout(t)は、空気中を伝搬して筐体15の外部に到達する。これらの雑音信号nout(t)および音声信号sout(t)は、筐体15の音孔15aを通じてマイクロホン14の受音位置に到達する。ここで、マイクロホン14で観測された雑音信号nout(t)および音声信号sout(t)の混合信号を入力音声信号y(t)=sout(t)+nout(t)と表現する。雑音信号nout(t)および音声信号sout(t)は、さらに筐体15の壁等を透過し、筐体15の内部に伝搬されてマイクロホン13に到達する。この過程で雑音信号nout(t)および音声信号sout(t)は大きく減衰する。そのため、雑音信号nin(t)の音圧レベルは雑音信号nout(t)の音圧レベルよりも低い。このようにマイクロホン13に到達した雑音信号nout(t)をnin(t)と表現する。また、マイクロホン13に到達する音声信号sout(t)は十分小さいとみなして無視することにする。また、利用者1000から発せられた音声信号は、さらに利用者1000の身体を伝達してマイクロホン13に到達する。このように利用者1000の身体(第1身体)を伝搬された音声信号(第1音声信号)をsin(t)と表現する。マイクロホン13で観測された雑音信号nin(t)および音声信号sin(t)の混合信号を入力音声信号a(t)=sin(t)+nin(t)と表現する。
【0026】
図3に例示するように、本実施形態の音質補正装置11は、利用者1000の身体(第1身体)を介して伝達された音声信号(第1音声信号)に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく出力音声信号(第1出力音声信号)を出力する音質補正部111を有する。音質補正部111は、補正フィルタ部111aおよび補正フィルタ生成部111bを有する。補正フィルタ生成部111bは、周波数分析部111ba,111bc、平均化部111bb,111bd、および補正フィルタ特性計算部111beを有する。
【0027】
<事前処理>
事前処理では、利用者1000が集音システム1を装着し、マイクロホン13およびマイクロホン14で、入力音声信号a(t)および入力音声信号y(t)をそれぞれ観測する。すなわち、マイクロホン13は、利用者1000の身体(第2身体)を介してマイクロホン13に到達した音声信号(第2音声信号)sin(t)と、空気伝搬した後に筐体15の壁等を透過してマイクロホン13に到達した雑音信号nin(t)と、の混合信号である入力音声信号a(t)=sin(t)+nin(t)を観測する。一方、マイクロホン14は、空気中を伝搬してきた雑音信号nout(t)と音声信号sout(t)との混合信号である入力音声信号y(t)=sout(t)+nout(t)を観測する。マイクロホン13で観測された入力音声信号a(t)は周波数分析部111baに入力される。周波数分析部111baは、入力音声信号a(t)の周波数分析によって、入力音声信号a(t)の時間周波数領域信号である入力音声信号A(τ,ω)を得て出力する。マイクロホン14で観測された入力音声信号y(t)は周波数分析部111bcに入力される。周波数分析部111bcは、入力音声信号y(t)の周波数分析によって、入力音声信号y(t)の時間周波数領域信号である入力音声信号Y(τ,ω)を得て出力する。これらの周波数分析には、例えば、短時間フーリエ変換(STFT:Short-time Fourier Transform)、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)等の公知の方法を用いればよい。入力音声信号A(τ,ω)は平均化部111bbに入力され、入力音声信号Y(τ,ω)は平均化部111bdに入力される。
【0028】
平均化部111bbは、入力音声信号A(τ,ω)を周波数区間fごとに平均し、周波数区間fごとに一様な入力音声信号A’(τ,f)を生成して出力する。同様に、平均化部111bdは、入力音声信号Y(τ,ω)を周波数区間fごとに平均し、周波数区間fごとに一様な入力音声信号Y’(τ,f)を生成して出力する。入力音声信号A’(τ,f)および入力音声信号Y’(τ,f)は、補正フィルタ特性計算部111beに送られる。
【0029】
補正フィルタ特性計算部111beは、入力音声信号A’(τ,f)に基づく参照音声信号A”(f)(第2身体を介して伝達された第2音声信号に基づく信号)と、入力音声信号Y’(τ,f)に基づく基準音声信号Y”(f)(空気伝搬された音声に基づく信号)とを用い、G(f)=amp(Y”(f))/amp(A”(f))(式(2))の周波数特性を時間領域で実現する補正フィルタg=[g0,…,gM-1]T(複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタ)を得て出力する。例えば、補正フィルタ特性計算部111beは、入力音声信号A’(τ,f)を時間平均して参照音声信号A”(f)(例えば、A’(τ,f)の平均パワースペクトル)を得、入力音声信号Y’(τ,f)を時間平均して基準音声信号Y”(f)(例えば、Y’(τ,f)の平均パワースペクトル)を得、これらを用いてG(f)の周波数特性を時間領域で実現する補正フィルタgを得て出力する。補正フィルタgは、補正フィルタ部111aに送られ、補正フィルタ部111aに設定される。
【0030】
<音質補正処理>
本実施形態の音質補正処理は、事前処理を前提とし、前述した音声通信等の用途で実行される。利用者1000は集音システム1を装着し、マイクロホン13で入力音声信号a(t)を観測する。入力音声信号a(t)は補正フィルタ部11aに送られる。前述のようにa(t)=sin(t)+nin(t)であり、sin(t)は利用者1000の身体(第1身体)を伝搬された音声信号(第1音声信号)である。補正フィルタ部11aは、離散時間t,…,t-M+1での入力音声信号a(t),…,a(t-M+1)(利用者の第1身体を介して伝達された第1音声信号に基づく入力音声信号)に、この補正フィルタgを適用して補正音声信号u(t)を得(式(4))、この補正音声信号u(t)(補正音声信号に基づく第1出力音声信号)を出力する。
【0031】
<本実施形態の特徴>
図4は、利用者1000の口元に装着された外部マイクロホンで観測された音声信号の感度X、当該利用者1000の耳元に装着されたマイクロホン14で観測された音声信号の感度Y、および、当該利用者1000の外耳道1011またはその近傍に装着されたマイクロホン13で観測された音声信号の感度Aを例示した図である。なお、音声信号の「感度」とは、利用者1000の口元に装着された外部マイクロホンで観測された当該利用者1000の音声信号の周波数スペクトルで正規化された音声信号の周波数スペクトルを意味する。
図4の横軸は周波数(Frequency [Hz])を表し、縦軸は感度(Sensitivity [dB])を表す。
図4に示すように、利用者1000の身体を介して伝達され、マイクロホン13で観測された音声信号の感度Aは、周波数が高くなるほど低くなる。一方、空気伝搬され、マイクロホン14で観測された音声信号の感度Yは、周波数が高くなっても高い。
【0032】
本実施形態では、G(f)=amp(Y”(f))/amp(A”(f))に基づく補正フィルタgを、利用者1000の身体を伝搬された音声信号sin(t)に基づく入力音声信号a(t)に適用して、補正音声信号u(t)を得た。ここで、G(f)=amp(Y”(f))/amp(A”(f))は、各周波数区間fでの感度Aに対する感度Yの比率に相当する。すなわち、補正フィルタgは、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正するものである。そのため、入力音声信号a(t)に補正フィルタgを適用して得られる補正音声信号u(t)は、利用者1000の身体を伝達した音声を補正し、その明瞭性を向上させたものとなる。これにより、騒音等の雑音環境下であっても、利用者1000の音声を明瞭に集音し、他者との音声通信、機器の音声操作、音声記録等を行うことができる。
【0033】
[第1実施形態の変形例1]
ここでは、補正フィルタ部111aが補正音声信号u(t)を出力した。しかし、補正フィルタ部111aが、補正音声信号u(t)の周波数分析によって、時間周波数領域の補正音声信号U(τ,ω)を得、この補正音声信号U(τ,ω)(補正音声信号に基づく第1出力音声信号)を出力してもよい。
【0034】
[第1実施形態の変形例2]
また、補正フィルタ生成部111bは、G(f)=amp(Y”(f))/amp(A”(f))(式(2))の周波数特性を時間領域で実現する補正フィルタgを生成して出力した。しかし、補正フィルタ生成部111bが各周波数区間fでのG(f)の集合Gを補正フィルタとして出力してもよい(式(1))。この場合、補正フィルタGが、補正フィルタ部111aに送られ、補正フィルタ部111aに設定される。補正フィルタ部111aは、a(t)を時間周波数領域に変換して得られる入力音声信号A(τ,ω)に、この補正フィルタGを適用し、補正音声信号U(τ,ω)を得(式(1))、この補正音声信号U(τ,ω)(補正音声信号に基づく第1出力音声信号)を出力してもよい。あるいは、補正フィルタ部111aは、この補正音声信号U(τ,ω)の逆変換(例えば、逆短時間フーリエ変換等)によって、補正音声信号U(τ,ω)を時間領域に変換した正音声信号u(t)を得、この補正音声信号u(t)(補正音声信号に基づく第1出力音声信号)を出力してもよい。
【0035】
[第1実施形態の変形例3]
事前処理において、利用者1000が集音システム1を装着するのではなく、その他のヒトが集音システム1を装着し、マイクロホン13およびマイクロホン14で、入力音声信号a(t)および入力音声信号y(t)をそれぞれ観測してもよい。この場合、補正フィルタ生成部111bは、これらを用い、上述のように補正フィルタgまたは補正フィルタGを生成して出力してもよい。
【0036】
[第1実施形態の変形例4]
事前処理において、入力音声信号y(t)に代えて、利用者1000またはその他のヒトの口元やその他の位置に配置されたマイクロホン14’(外部マイクロホン)で観測された入力音声信号x(t)=s’out(t)+n’out(t)が用いられてもよい。ここで、s’out(t)はマイクロホン14’で観測された利用者1000の音声であり、n’out(t)はマイクロホン14’で観測された雑音信号である。または、事前処理において、入力音声信号y(t)に代えて、予め収録された標準的な音声信号が用いられてもよい。これにより、身体を伝達することによって減衰した成分を、この標準的な音声の周波数スペクトルに近いレベルにまで補正できる。
【0037】
[第1実施形態の変形例5]
事前処理において、複数のヒトについて得られた補正フィルタの平均を、補正フィルタgや補正フィルタGとして、補正フィルタ部111aに設定してもよい。あるいは、複数のヒトについて得られた入力音声信号a(t)の平均を用いて補正フィルタgや補正フィルタGが生成されてもよい。あるいは、複数のヒトに装着された外部マイクロホンで得られた入力音声信号y(t)の平均や入力音声信号x(t)の平均を用い、補正フィルタgや補正フィルタGが生成されてもよい。また、事前処理において、前述の式(6)や式(8)のG(f)を用いて補正フィルタgや補正フィルタGが生成されてもよい。
【0038】
[第1実施形態の変形例6]
また、補正フィルタgや補正フィルタGが生成され、補正フィルタ部111aに設定されているのであれば、補正フィルタ生成部111bやその事前処理が省略されてもよい。
【0039】
[第2実施形態]
第2実施形態では、利用者の身体を介して伝達された音声を集音し、擬似広帯域化によってその音質を改善する。すなわち、本実施形態の音質補正装置は、利用者の身体(第1身体)を介して伝達された音声信号(第1音声信号)に基づく入力音声信号に含まれる、ある周波数(第1周波数)よりも低い信号成分に基づく強調高域信号を、この入力音声信号に含まれる当該周波数(第1周波数)よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、この擬似広帯域信号に基づく音声信号(第1出力音声信号)を出力する。擬似広帯域化の技術は、例えば、特開2009-134260号公報(参考文献1)等に開示されている。しかし、参考文献1等に記載されているように、通常の擬似広帯域化では、入力音響信号にゲイン係数を乗じて高域領域の音響信号を生成し、それを入力音響信号には含まれていなかった高域領域の信号として混合して擬似広帯域化する。これに対し、第2実施形態では、入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号を、入力音声信号に含まれていた第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得る。これにより、利用者の身体を伝達したことによって減衰した信号成分を強調(増幅)し、入力音声信号の明瞭性を向上させた第1出力音声信号を得ることができる。
【0040】
このように、本実施形態では、通常の擬似広帯域化と異なり、入力音声信号に含まれていた第1周波数よりも高い信号成分に基づく信号成分に強調高域信号を混合する。そのため、強調高域信号を得るためのゲイン係数(重み)は、入力音声信号に含まれていた第1周波数よりも高い信号成分に基づくことが望ましい。好ましくは、前述の比率G(f)=amp(Y”(f))/amp(A”(f))(式(2))に基づいてゲイン係数(重み)を定めることが望ましい。すなわち、「強調高域信号」は、入力音声信号に含まれる第1周波数よりも低い信号成分に基づいて得られる第1周波数よりも高い「高域信号」に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であることが望ましい。「高域信号」は、例えば、入力音声信号に含まれる第1周波数よりも低い信号成分を複製して得られる「複製信号」を、第1周波数よりも高い領域にシフト(周波数変換)して得られるものである。前述のように、空気伝搬された音声または標準的な音声の大きさに対する、利用者の身体を介して伝達された音声信号の大きさの比率が小さい周波数区間fほど、比率G(f)が大きくなる傾向にある。このような比率G(f)に基づいて重みを定めることにより、身体を伝達することに基づく減衰量の大きな周波数区間fの重みを大きくし、減衰量の小さな周波数区間fの重みを小さくできる。その結果、適切な周波数スペクトル(例えば、空気伝搬された音声や標準的な音声に近い周波数スペクトル)の擬似広帯域信号を得ることができる。このような比率G(f)に応じた重みは、例えば、比率G(f)に対して単調増加する関係にある重みである。例えば、γG(f)をこの重みとしてもよい。ここで、γは0<γ<1を満たす実数の係数である。以下、図面を参照して本発明の第2実施形態を説明する。
【0041】
<構成>
図1に例示するように、本実施形態では、雑音環境下で、集音システム2を装着した利用者1000の発話音(音声)を集音する。
図2に例示するように、本実施形態の集音システム2は、音質補正装置21、スピーカ12、マイクロホン13、マイクロホン14、筐体15、およびイヤーチップ16を有する。
【0042】
図5に例示するように、本実施形態の音質補正装置21は、利用者の身体(第1身体)を介して伝達された音声信号(第1音声信号)に基づく入力音声信号に含まれるある周波数(第1周波数)よりも低い信号成分に基づく強調高域信号を、入力音声信号に含まれるこの周波数(第1周波数)よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、この擬似広帯域信号に基づく出力音声信号(第1出力音声信号)を出力する音質補正部211を有する。音質補正部211は、
図6に例示する擬似広帯域化部211aを有する。
図6に例示するように、本実施形態の擬似広帯域化部211aは、周波数分析部211aa、高域信号生成部211ab、重み決定部211ac、重み付け部211ad、混合部211ae、および逆変換部211afを有する。
【0043】
<音質補正処理>
利用者1000は集音システム2を装着し、マイクロホン13で入力音声信号a(t)を観測する。入力音声信号a(t)は、擬似広帯域化部211aの周波数分析部211aaに入力される(
図6)。周波数分析部211aaは、入力音声信号a(t)の周波数分析によって、入力音声信号a(t)の入力音声信号A(τ,ω)を得て出力する。入力音声信号A(τ,ω)は、高域信号生成部211abおよび混合部211aeに入力される。
【0044】
高域信号生成部211abは、入力音声信号A(τ,ω)に含まれるある周波数(第1周波数)f1よりも低い信号成分に基づいて、周波数f1よりも高い高域信号P(τ,ωj+K)(入力音声信号に含まれる第1周波数よりも低い信号成分に基づいて得られる第1周波数よりも高い高域信号)を得て出力する。ただし、j=0,…,J-1であり、Jは正整数である。Kは正整数であり、ωj+Kは周波数f1よりも高い離散周波数を表す。例えば、高域信号生成部211abは、A(τ,ω)に含まれる周波数f1より低い単数または複数の信号成分A(τ,ωj)を複製して複製信号Ac(τ,ωj)を得、複製信号Ac(τ,ωj)を周波数f1よりも高い周波数の信号に変換して高域信号P(τ,ωj+K)を得る。周波数f1は、例えば、2kHz以上3kHz以下の範囲に属する周波数である。また、離散周波数ω0+K,…,ωJ-1+K(周波数f1よりも高い高域信号P(τ,ωj+K))は、例えば、3kHz以上4kHz以下の範囲に属する。
【0045】
高域信号P(τ,ωj+K)は重み付け部211adに入力される。また、重み決定部211acは、高域信号P(τ,ωj+K)に与える重みh(ωj+K)を決定して出力する。重み決定部211acは、例えば、標準的な音声のスペクトルに基づいて重みh(ωj+K)を決定する。重みh(ωj+K)は、重み付け部211adに入力される。重み付け部211adは、入力された高域信号P(τ,ωj+K)に重みh(ωj+K)を与えて(乗じて)、強調高域信号Q(τ,ωj+K)=h(ωj+K)P(τ,ωj+K)(入力音声信号に含まれる第1周波数よりも低い信号成分に基づく強調高域信号)を得て出力する。強調高域信号Q(τ,ωj+K)は混合部211aeに入力される。
【0046】
混合部211aeは、入力された入力音声信号A(τ,ω)に強調高域信号Q(ωj+K)を混合して擬似広帯域信号V(τ,ω)を得る。すなわち、混合部211aeは、離散周波数ω=ωj+K(ただし、j=0,…,J-1)についてV(τ,ωj+K)=A(τ,ωj+K)+Q(τ,ωj+K)と混合し(強調高域信号を入力音声信号に含まれる第1周波数よりも高い信号成分に基づく信号成分に混合し)、ω0+K,…,ωJ-1+K以外の離散周波数ω=ωiについてV(τ,ωi)=A(τ,ωi)とし、擬似広帯域信号V(τ,ω)を得る。
V(τ,ωj+K)=A(τ,ωj+K)+Q(τ,ωj+K) for ω=ωj+K
V(τ,ωi)=A(τ,ωi) for ω=ωi
【0047】
擬似広帯域信号V(τ,ω)は、逆変換部211afに入力される。逆変換部211afは、擬似広帯域信号V(τ,ω)の逆変換によって、擬似広帯域信号V(τ,ω)を時間領域に変換した擬似広帯域信号v(t)を得、この擬似広帯域信号v(t)(擬似広帯域信号に基づく第1出力音声信号)を出力する。
【0048】
<本実施形態の特徴>
本実施形態の音質補正装置21は、入力音声信号a(t)に含まれる周波数f1(第1周波数)よりも低い信号成分に基づく強調高域信号Q(ωj+K)を、入力音声信号a(t)に含まれる周波数f1(第1周波数)よりも高い信号成分に基づく信号成分A(τ,ωj+K)(すなわち、A(τ,ω)に含まれる周波数f1よりも高い信号成分A(τ,ωj+K))に混合して擬似広帯域信号V(τ,ω)を得、擬似広帯域信号V(τ,ω)に基づく擬似広帯域信号v(t)(第1出力音声信号)を出力する。前述のように、利用者1000の身体を伝達した入力音声信号a(t)は、その高域成分が減衰している。本実施形態では、その減衰した高域成分を強調高域信号Q(ωj+K)によって補う。これにより、利用者1000の身体を伝達した音声を補正し、その明瞭性を向上させることができる。
【0049】
[第2実施形態の変形例1]
重み付け部211adが、比率G(f)=amp(Y”(f))/amp(A”(f))(式(2))に応じた重みh(ωj+K)を高域信号P(τ,ωj+K)に与えて強調高域信号Q(τ,ωj+K)を得てもよい。ただし、ωj+K∈fである。このような強調高域信号Q(τ,ωj+K)を入力音声信号A(τ,ω)に混合することで、適切な周波数スペクトル(例えば、空気伝搬された音声や標準的な音声に近い周波数スペクトル)の擬似広帯域信号V(τ,ω)を得ることができる。
【0050】
この場合、擬似広帯域化部211aは(
図6)、さらに周波数分析部211agを有する。周波数分析部211agには入力音声信号y(t)が入力される。周波数分析部211agは、入力音声信号y(t)の周波数分析によって、入力音声信号y(t)の入力音声信号Y(τ,ω)を得て出力する。周波数分析部211agから出力された入力音声信号Y(τ,ω)、および、前述のように周波数分析部211aaから出力された入力音声信号A(τ,ω)は、重み決定部211acに入力される。重み決定部211acは、入力音声信号Y(τ,ω),A(τ,ω)に基づいて、比率G(f)=amp(Y”(f))/amp(A”(f))を得る。この処理は第1実施形態およびその変形例で説明した通りである。さらに、重み決定部211acは、比率G(f)に応じた重みh(ω
j+K)を得て出力する。例えば、重み決定部211acは、h(ω
j+K)=γG(f)を得て出力する。ただし、ω
j+K∈fである。重みh(ω
j+K)は重み付け部211adに入力される。その他は、第2実施形態と同様である。
【0051】
[第2実施形態の変形例2]
第2実施形態の変形例1において、入力音声信号y(t)に代えて、利用者1000またはその他のヒトまたはHATSの口元やその他の位置に配置された外部マイクロホンで観測された入力音声信号x(t)が用いられてもよい。または、入力音声信号y(t)に代えて、予め収録された標準的な音声信号が用いられてもよい。
【0052】
[第2実施形態の変形例3]
混合部211aeが擬似広帯域信号V(τ,ω)(擬似広帯域信号に基づく第1出力音声信号)を擬似広帯域化部211aの外部に出力してもよい。この場合、逆変換部211afが省略されてもよい。
【0053】
[第3実施形態]
第3実施形態では、第1実施形態およびその変形例で説明した補正フィルタによる音質改善と、第2実施形態およびその変形例で説明した擬似広帯域化による音質改善と、を組み合わせる。すなわち、本実施形態の音質補正装置は、(1)利用者の身体(第1身体)を介して伝達された音声信号(第1音声信号)に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、(2)この入力音声信号に含まれる、ある周波数(第1周波数)よりも低い信号成分に基づく強調高域信号を、この入力音声信号に含まれる当該周波数(第1周波数)よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、(3)補正音声信号および擬似広帯域信号に基づく音声信号(第1出力音声信号)を出力する。これにより、さらなる音質の向上が期待される。
【0054】
補正フィルタによる音質改善を行った後に、擬似広帯域化による音質改善を行ってもよいし、擬似広帯域化による音質改善を行った後に、補正フィルタによる音質改善を行ってもよい。しかし、好ましくは、補正フィルタによる音質改善を行った後に、擬似広帯域化による音質改善を行った方がよい。すなわち、音質補正装置が、第1音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に含まれる第1周波数よりも低い信号成分に基づいて強調高域信号を得、この強調高域信号を補正音声信号に含まれる第1周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得ることが望ましい。補正フィルタは音声信号の大きさのみを変化させるものであるのに対し、擬似広帯域化は音声信号の一部を複製し、さらに周波数を変化させた後に重みを与えて混合するものである。そのため、補正フィルタによる音質改善の方が、擬似広帯域化による音質改善よりも、自然な音声を生成できる。よって、前者で音質改善を行い、そこで改善しきれなかった成分を後者で音質改善する方が、全体として自然な音質が得られる。
【0055】
また、減衰が大きな高域側の信号成分を補正フィルタによって補正するとSNRの悪い補正音声信号が得られ、高域側の音質が低下してしまう。そのため、入力音声信号のうち、減衰が小さい低域側で補正フィルタによる音質改善を行い、減衰が大きい高域側に対して擬似広帯域化による音質改善を行ってもよい。すなわち、音質補正装置が、入力音声信号に含まれるある周波数(第2周波数)よりも低い信号成分に補正フィルタを適用して補正音声信号を得、この補正音声信号に含まれる第1周波数よりも低い信号成分に基づいて強調高域信号を得、この補正音声信号に含まれる第1周波数よりも高い信号成分に基づく信号成分に強調高域信号を混合して擬似広帯域信号を得、擬似広帯域信号に基づく第1出力音声信号を出力してもよい。
【0056】
以下、図面を参照して本発明の第3実施形態を説明する。ここでは、一例として、入力音声信号のうち、減衰が小さい低域側で補正フィルタによる音質改善を行った後、減衰が大きい高域側に対して擬似広帯域化による音質改善を行う例を説明する。
【0057】
<構成>
図1に例示するように、本実施形態では、雑音環境下で、集音システム3を装着した利用者1000の発話音(音声)を集音する。
図2に例示するように、本実施形態の集音システム3は、音質補正装置31、スピーカ12、マイクロホン13、マイクロホン14、筐体15、およびイヤーチップ16を有する。
図7に例示するように、本実施形態の音質補正装置31は、音質補正部311を有し、音質補正部311は、補正フィルタ部111a、補正フィルタ生成部111b、および擬似広帯域化部211aを有する。
【0058】
<事前処理>
補正フィルタ生成部111bは、第1実施形態またはその変形例で説明した事前処理を実行する。事前処理で生成された補正フィルタgまたは補正フィルタGは補正フィルタ部111aに設定される。また、補正フィルタgまたは補正フィルタGが既に設定されている場合、補正フィルタ生成部111bや事前処理が省略されてもよい。
【0059】
<音質補正処理>
マイクロホン13で観測された入力音声信号a(t)は補正フィルタ部111aに送られる。補正フィルタ部111aは、入力音声信号a(t),…,a(t-M+1)に補正フィルタgを適用して補正音声信号u(t)を得るか、a(t)を時間周波数領域に変換して得られる入力音声信号A(τ,ω)に補正フィルタGを適用して補正音声信号U(τ,ω)を得、補正音声信号u(t)または補正音声信号U(τ,ω)を出力する。この処理は、第1実施形態またはその変形例で説明した通りである。ただし、本実施形態の例では、補正フィルタ部111aは、入力音声信号に含まれる周波数(第2周波数)f2よりも低い信号成分に補正フィルタgまたは補正フィルタGを適用して補正音声信号u(t)または補正音声信号U(τ,ω)を得、補正音声信号u(t)または補正音声信号U(τ,ω)を出力する。例えば、
図8Aおよび
図8Bに例示するように、補正フィルタ部11aは、入力音声信号A(τ,ω)のうち、周波数f2よりも低い信号成分に補正フィルタGを適用して補正音声信号U(τ,ω)を得て出力する。周波数f2は、例えば、3kHz以上4kHz以下の範囲に属する周波数である。
【0060】
補正音声信号u(t)または補正音声信号U(τ,ω)は、擬似広帯域化部211aに入力される。擬似広帯域化部211aは、入力された補正音声信号u(t)を周波数分析して得られる補正音声信号U(τ,ω)、または、入力された補正音声信号U(τ,ω)を用い、擬似広帯域信号V(τ,ω)または擬似広帯域信号v(t)を得て出力する。すなわち、
図8Bおよび
図8Cに例示するように、擬似広帯域化部211aは、補正音声信号U(τ,ω)に含まれる周波数f1(第1周波数)よりも低い信号成分に基づいて強調高域信号Q(τ,ω
j+K)を得、補正音声信号U(τ,ω)に含まれるf1(第1周波数)よりも高い信号成分に基づく信号成分に強調高域信号Q(τ,ω
j+K)を混合して擬似広帯域信号V(τ,ω)を得る。その後、擬似広帯域信号V(τ,ω)の逆変換によって擬似広帯域信号v(t)が得られてもよい。これらの処理は、第2実施形態またはその変形例の「入力音声信号A(τ,ω)」を「補正音声信号U(τ,ω)」に置換したものである。また、周波数f1と周波数f2は同一であってもよいし(例えば、
図8Aから
図8C)、同一でなくてもよい。ただし、f1≦f2であることが望ましい。この場合、補正フィルタによる音質改善を行った成分のみに基づいて強調高域信号が生成されるからである。擬似広帯域化部211aは、擬似広帯域信号V(τ,ω)または擬似広帯域信号v(t)(擬似広帯域信号に基づく第1出力音声信号)を出力する。
【0061】
<本実施形態の特徴>
本実施形態では、補正フィルタによる音質改善と擬似広帯域化による音質改善とを組み合わせることで、さらなる音質の向上が期待される。特に、減衰が大きな高域側ではSNRが低下し、補正フィルタによる音質改善効果が表れにくいことがある。このような場合であっても、減衰が小さい低域側で補正フィルタによる音質改善を行い、高域側に対しては擬似広帯域化による音質改善を行うことで、広い帯域で音質を改善することが可能である。
【0062】
[第3実施形態の変形例1]
擬似広帯域化部211aの重み決定部211ac(
図6)が、補正フィルタgまたは補正フィルタGを流用して重みh(ω
j+K)を決定してもよい。すなわち、音質補正部311の擬似広帯域化部211a(
図7)が、補正フィルタ生成部111bから出力された補正フィルタgまたは補正フィルタGを用い、それが表す比率G(f)に応じた重みh(ω
j+K)を、補正音声信号U(τ,ω)に含まれる周波数f1(第1周波数)よりも低い信号成分に基づいて、周波数f1よりも高い高域信号P(τ,ω
j+K)に与えて強調高域信号Q(τ,ω
j+K)を得てもよい。例えば、補正フィルタ生成部111bから出力された補正フィルタgまたは補正フィルタGは、擬似広帯域化部211a(
図6)の重み決定部211acに入力される。重み決定部211acは、補正フィルタgまたは補正フィルタGに基づき、比率G(f)=amp(Y”(f))/amp(A”(f))に応じた重みh(ω
j+K)を決定して出力する。例えば、重み決定部211acは、h(ω
j+K)=γG(f)を得て出力する。ただし、ω
j+K∈fである。その後、重み付け部211adは、入力された高域信号P(τ,ω
j+K)に重みh(ω
j+K)を与えて、強調高域信号Q(τ,ω
j+K)=h(ω
j+K)P(τ,ω
j+K)を得て出力する。
【0063】
[第3実施形態の変形例2]
入力音声信号a(t)のSNRに応じて、周波数(第2周波数)f2を切り替え、補正フィルタを適用する範囲を切り替えてもよい。すなわち、SNRが低い場合には周波数f2を低くして補正フィルタを適用する範囲を狭くし、SNRが高い場合には周波数f2を高くして補正フィルタを適用する範囲を広くしてもよい。つまり、前述のように、入力音声信号a(t)は、利用者1000の音声信号s
in(t)(第1音声信号)と利用者1000の周囲の雑音を表す雑音信号n
in(t)(第1雑音信号)とを含む(
図2)。ここで、入力音声信号a(t)に含まれる雑音信号n
in(t)に対する音声信号s
in(t)の比率(SNR)がSNR1(第1値)である場合の周波数f2(第2周波数)を、入力音声信号a(t)に含まれる雑音信号n
in(t)に対す音声信号s
in(t)の比率がSNR1よりも大きなSNR2(第2値)である場合の周波数f2よりも低くしてもよい。
f2(for SNR1)<f2(for SNR2>SNR1)
入力音声信号a(t)のSNRが低い場合、高域側に補正フィルタを適用しても雑音成分を増幅してしまい、かえって音質が低下してしまう場合がある。一方、入力音声信号a(t)のSNRが高い場合には、補正フィルタを適用する範囲を広くすることで音質を向上させることができる。よって、入力音声信号a(t)のSNRに応じて、周波数f2を切り替えることで、全体として音質を向上させることができる。
【0064】
この場合、音質補正装置31はさらに切り替え部311aを有する(
図7)。音質補正装置31には、入力音声信号a(t)が入力される。切り替え部311aは、入力音声信号a(t)に基づいて入力音声信号a(t)のSNRを推定する。切り替え部311aは、例えば、所定の時間区間b
32ごとに入力音声信号a(t)のSNRを推定する。SNRの推定は、例えば、全時間区間での入力音声信号a(t)の大きさの平均を雑音信号の大きさとみなし、時間区間b
32での入力音声信号a(t)の平均を音声信号の大きさとみなして行う。または、標準的な音声信号の大きさを入力音声信号a(t)に含まれる音声信号の大きさとみなしてSNRを推定してもよい。切り替え部311aは、推定した各時間区間b
32のSNRに基づいて、その時間区間b
32での周波数f2(第2周波数)を決定し、補正フィルタ部111aに設定する。例えば、切り替え部311aは、SNRが小さいほど周波数f2を小さくしてもよいし、SNRが大きいほど周波数f2を大きくしてもよいし、SNRが閾値TH2以下であるときにf2=SNR1とし、SNRが閾値TH2よりも大きいときにf2=SNR2(ただし、SNR2>SNR1)としてもよい。
【0065】
[第3実施形態の変形例3]
入力音声信号a(t)のSNRに応じて、補正フィルタによる音質改善を行うか否かを切り替えてもよい。すなわち、入力音声信号a(t)のSNRが非常に小さい場合、補正フィルタを適用しても雑音成分を増幅してしまい、かえって音質が低下してしまうことがある。そのような場合には、補正フィルタによる音質改善を全く行わず、擬似広帯域化のみによって音質改善を行う方がよい。そのため、入力音声信号a(t)のSNRが小さい場合には、擬似広帯域化のみによって音質改善を行ってもよい。一方、入力音声信号a(t)のSNRが大きい場合には、補正フィルタによる音質改善のみを行うか、補正フィルタによる音質改善と擬似広帯域化による音質改善とを組み合わせてもよい。つまり、前述のように、入力音声信号a(t)は、利用者1000の音声信号s
in(t)(第1音声信号)と利用者1000の周囲の雑音を表す雑音信号n
in(t)(第1雑音信号)とを含む(
図2)。ここで、入力音声信号a(t)に含まれる雑音信号n
in(t)に対する音声信号s
in(t)の比率(SNR)がSNR1(第1値)である場合に、音質補正装置31が、補正音声信号に基づかず、擬似広帯域信号に基づく出力音声信号(第1出力音声信号)を出力してもよい。一方、入力音声信号a(t)に含まれる雑音信号n
in(t)に対する音声信号s
in(t)の比率(SNR)がSNR1(第1値)よりも大きなSNR2(第2値)である場合には、音質補正装置31が、補正音声信号に基づく出力音声信号(第1出力音声信号)を出力してもよい。
【0066】
この場合、音質補正装置31はさらに切り替え部311aを有する(
図7)。音質補正装置31には入力音声信号a(t)が入力され、切り替え部311aは、入力音声信号a(t)に基づいて入力音声信号a(t)のSNRを推定する。切り替え部311aは、例えば、所定の時間区間b
33ごとに入力音声信号a(t)のSNRを推定する。ここで、時間区間b
33のSNRが閾値TH3以下であった場合、その時間区間b
33では補正フィルタ部111aの処理は実行されず、第2実施形態またはその変形例で説明したような擬似広帯域化部211aの処理が実行される。これにより、擬似広帯域化部211aは、擬似広帯域信号v(t)または擬似広帯域信号V(τ,ω)(擬似広帯域信号に基づく第1出力音声信号)を出力する。一方、時間区間b
33のSNRが閾値TH3よりも大きかった場合、その時間区間b
33では第1実施形態またはその変形例で説明したような補正フィルタ部111aの処理が実行され、補正フィルタ部111aは、補正音声信号u(t)または補正音声信号U(τ,ω)(補正音声信号に基づく第1出力音声信号)を出力する。あるいは、SNRが閾値TH3よりも大きかった場合、第3実施形態またはその変形例1,2の補正フィルタ部111aおよび擬似広帯域化部211aの処理が実行され、擬似広帯域化部211aから擬似広帯域信号v(t)または擬似広帯域信号V(τ,ω)(擬似広帯域信号に基づく第1出力音声信号)が出力されてもよい。
【0067】
[第4実施形態]
音質補正装置が、第1実施形態から第3実施形態またはそれらの変形例で得られた補正音声信号または擬似広帯域信号に基づく出力音声信号(第1出力音声信号)と、雑音下で空気伝搬された音声信号(第3音声信号)に基づく出力音声信号(第2出力音声信号)とを、混合重み(ミックスゲイン)で重み付け混合した混合出力信号を出力してもよい。ここで、雑音が大きいのであれば、第1出力音声信号を優先した方が音質がよい。一方、雑音が小さいのであれば、第2出力音声信号を優先した方が音質がよい。そのため、雑音の大きさに応じて、混合重みで重みを調整する。すなわち、雑音が小さいときには第2出力音声信号の混合重みr2(b)(r2(b)>0)を重くし、雑音が大きいときには第1出力音声信号の混合重みr1(b)(r1(b)>0)を重くする。言い換えると、雑音の大きさがL1(第1レベル)であるときの第1出力音声信号の混合重みr1(b)に対する第2出力音声信号の混合重みr2(b)の比率r2(b)/r1(b)は、雑音の大きさがL1よりも大きなL2(第2レベル)であるときの第1出力音声信号の混合重みr1(b)に対する第2出力音声信号の混合重みr2(b)の比率r2(b)/r1(b)よりも大きい。
r2(b)/r1(b)(for L1)>r2(b)/r1(b)(for L2)
L1<L2
これにより、音質のよい混合出力信号が得られる。なお、bは時間区間を表すインデックスである。時間区間bが離散時間tと一対一で対応していてもよいし、時間区間bに複数の離散時間tが含まれていてもよい。以下、図面を参照して本発明の第4実施形態を説明する。
【0068】
<構成>
図1に例示するように、本実施形態では、雑音環境下で、集音システム4を装着した利用者1000の発話音(音声)を集音する。
図2に例示するように、本実施形態の集音システム4は、音質補正装置41、スピーカ12、マイクロホン13、マイクロホン14、筐体15、およびイヤーチップ16を有する。
【0069】
図9に例示するように、本実施形態の音質補正装置41は、音質補正部111(211,311)、雑音レベル推定部412、混合重み設定部413、および混合部414を有する。音質補正部111(211,311)は、第1実施形態から第3実施形態またはそれらの変形例の何れかで説明したものである。混合部414は、混合重み付け部414a,414bおよび合成部414cを有する。
【0070】
<重み付け混合処理>
マイクロホン13で観測された入力音声信号a(t)は、音質補正部111(211,311)に入力される。音質補正部111(211,311)は、前述のように補正音声信号u(t)または擬似広帯域信号v(t)(第1出力音声信号)を出力する。記載の簡略化のため、音質補正部111(211,311)から出力されるu(t)およびv(t)を出力音声信号d(t)(第1出力音声信号)と総称する。出力音声信号d(t)は混合重み付け部414bに入力される。
【0071】
マイクロホン14で観測された入力音声信号y(t)=sout(t)+nout(t)(第2出力音声信号)またはマイクロホン14’で観測された入力音声信号x(t)=s’out(t)+n’out(t)は、雑音レベル推定部412および混合重み付け部414aに入力される。ここで、sout(t)およびs’out(t)は第3音声信号に相当する。記載の簡略化のため、入力音声信号x(t)および入力音声信号y(t)を出力音声信号z(t)(第2出力音声信号)と総称する。
【0072】
雑音レベル推定部412は、出力音声信号z(t)に基づいて、時間区間bごとに出力音声信号z(t)の雑音レベル(例えば、騒音レベル)L(b)を推定する。雑音レベルL(b)は雑音の大きさまたはその推定値を表す。たとえば、雑音レベル推定部412は、時間区間bごとに出力音声信号z(t)の大きさ(例えば、振幅の絶対値やパワー)を時間平均し、時間区間bでの出力音声信号z(t)の大きさの時間平均値を雑音レベルL(b)とする。雑音レベルL(b)は混合重み設定部413に送られる。
【0073】
混合重み設定部413は、雑音レベルL(b)に基づいて、出力音声信号d(t)(第1出力音声信号)の混合重みr1(b)(r1(b)>0)、および、出力音声信号z(t)(第2出力音声信号)の混合重みr2(b)(r2(b)>0)を設定する。混合重み設定部413は、雑音レベルL(b)が小さいときには混合重みr2(b)を重くし、雑音レベルL(b)が大きいときには混合重みr1(b)を重くする。混合重み設定部413は、例えば、雑音レベルL(b)が小さいほど、比率r2(b)/r1(b)を大きくしてもよいし、雑音レベルL(b)が大きいほど、比率r2(b)/r1(b)を小さくしてもよい。または、混合重み設定部413は、例えば、雑音レベルL(b)が閾値TH4以下であるときに、比率r2(b)/r1(b)をRlargeとし、雑音レベルL(b)が閾値TH4よりも大きいときに、比率r2(b)/r1(b)をRsmallとしてもよい。ただし、0<Rsmall<Rlargeである。すなわち、雑音レベルL(b)(雑音の大きさ)がL1(第1レベル)であるときの比率r2(b)/r1(b)は、雑音の大きさがL1よりも大きなL2(第2レベル)であるときの比率r2(b)/r1(b)よりも大きい。
r2(b)/r1(b)(for L1)>r2(b)/r1(b)(for L2)
L1<L2
混合重みr1(b)は混合重み付け部414bに入力され、混合重みr2(b)は混合重み付け部414aに入力される。
【0074】
混合重み付け部414bは、時間区間bに属する出力音声信号d(t)に混合重みr1(b)を乗じた重み付け音声信号r1(b)d(t)(ただし、t∈b)を得て出力する。混合重み付け部414aは、時間区間bに属する出力音声信号z(t)に混合重みr2(b)を乗じた重み付け音声信号r2(b)z(t)(ただし、t∈b)を得て出力する。重み付け音声信号r1(b)d(t),r2(b)z(t)は、合成部414cに入力される。合成部414cは、これらを以下の式(9)のように重み付け混合して混合出力信号w(t)を得て出力する。
w(t)=r1(b)d(t)+r2(b)z(t) (9)
【0075】
<本実施形態の特徴>
本実施形態では、補正音声信号または擬似広帯域信号に基づく第1出力音声信号と、雑音下で空気伝搬された音声信号に基づく第2出力音声信号とを、外部の雑音の大きさに応じた混合重みで重み付け混合する。ここで、外部の雑音が小さいときには空気伝搬された第2出力音声信号が優先され、外部の雑音が大きいときには身体を伝達された音声信号を音質補正部で補正した第1出力音声信号が優先される。これにより、外部の雑音の大きさに応じ、明瞭化された最適な音声を得ることができる。
【0076】
[第4実施形態の変形例1]
第4実施形態では、音質補正装置41が、時間領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置41が、時間周波数領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置41から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。
【0077】
[第4実施形態の変形例2]
混合重み付け部414aが、出力音声信号z(t)に代え、出力音声信号z(t)にハイパスフィルタを適用して得られる出力音声信号z’(t)に混合重みr2(b)を乗じた重み付け音声信号r2(b)z’(t)(ただし、t∈b)を得て出力してもよい。ハイパスフィルタのカットオフ周波数は、例えば、2kHz以上4kHz以下の範囲に属する周波数である。この場合、混合出力信号w(t)は以下の式(10)のようになる。
w(t)=r1(b)d(t)+r2(b)z’(t) (10)
【0078】
[第5実施形態]
図4等に例示したように、身体を伝達した音声信号であっても低域側では減衰量はさほど多くない。そのため、出力音声信号d(t)の低域側での音質は、外部の雑音の大きさにかかわらず比較的明瞭である。そのため、出力音声信号d(t)(第1出力音声信号)に含まれる周波数f3(第3周波数)よりも低い信号成分の混合重みr1(b)は、雑音の大きさにかかわらず一定であってもよい。例えば、出力音声信号d(t)に含まれる周波数f3よりも低い信号成分の混合重みr1(b)を1に固定してもよい。以下、図面を参照して本発明の第5実施形態を説明する。ここでは、混合重みr1(b)を1に固定した例を説明する。
【0079】
<構成>
図1に例示するように、本実施形態では、雑音環境下で、集音システム5を装着した利用者1000の発話音(音声)を集音する。
図2に例示するように、本実施形態の集音システム4は、音質補正装置51、スピーカ12、マイクロホン13、マイクロホン14、筐体15、およびイヤーチップ16を有する。
【0080】
図10に例示するように、本実施形態の音質補正装置51は、音質補正部111(211,311)、雑音レベル推定部412、HPF(ハイパスフィルタ)部511、混合重み設定部513、および混合部514を有する。音質補正部111(211,311)は、第1実施形態から第3実施形態またはそれらの変形例の何れかで説明したものである。混合部514は、混合重み付け部414aおよび合成部514cを有する。HPF部511のハイパスフィルタのカットオフ周波数は、例えば、2kHz以上4kHz以下の範囲に属する周波数である。なお、本実施形態では、HPF部511のハイパスフィルタのカットオフ周波数が周波数f3(第3周波数)に相当する。
【0081】
<重み付け混合処理>
マイクロホン13で観測された入力音声信号a(t)は、音質補正部111(211,311)に入力される。音質補正部111(211,311)は、出力音声信号d(t)を出力する。出力音声信号d(t)は合成部514cに入力される。
【0082】
マイクロホン14またはマイクロホン14’で観測された出力音声信号z(t)は、雑音レベル推定部412およびHPF部511に入力される。雑音レベル推定部412は、雑音レベルL(b)を推定して混合重み設定部513に送る。HPF部511は、出力音声信号z(t)にハイパスフィルタを作用させた出力音声信号z(t)’(第2出力音声信号)を出力する。出力音声信号z(t)’は、混合重み付け部414aに入力される。
【0083】
混合重み設定部513は、雑音レベルL(b)に基づいて、出力音声信号z’(t)(第2出力音声信号)の混合重みr2(b)(r2(b)>0)を設定する。混合重み設定部513は、雑音レベルL(b)が小さいときには混合重みr2(b)を重くする。混合重み設定部513は、例えば、雑音レベルL(b)が小さいほど、比率r2(b)を大きくしてもよいし、雑音レベルL(b)が大きいほど、比率r2(b)を小さくしてもよい。または、混合重み設定部513は、例えば、雑音レベルL(b)が閾値TH4以下であるときに、比率r2(b)をRlargeとし、雑音レベルL(b)が閾値TH4よりも大きいときに、比率r2(b)をRsmallとしてもよい。ただし、0<Rsmall<Rlargeである。すなわち、雑音レベルL(b)(雑音の大きさ)がL1(第1レベル)であるときの比率r2(b)/r1(b)(ただし、r1(b)=1)は、雑音の大きさがL1よりも大きなL2(第2レベル)であるときの比率r2(b)/r1(b)(ただし、r1(b)=1よりも大きい。
r2(b)(for L1)>r2(b)(for L2、L1<L2)
混合重みr2(b)は混合重み付け部414aに入力される。
【0084】
混合重み付け部414aは、時間区間bに属する出力音声信号z’(t)に混合重みr2(b)を乗じた重み付け音声信号r2(b)z’(t)(ただし、t∈b)を得て出力する。重み付け音声信号r2(b)z’(t)は、合成部514cに入力される。合成部514cは、これらを以下の式(11)のように重み付け混合して混合出力信号w(t)を得て出力する。
w(t)=d(t)+r2(b)z’(t) (11)
【0085】
<本実施形態の特徴>
本実施形態では、補正音声信号または擬似広帯域信号に基づく第1出力音声信号と、雑音下で空気伝搬された音声信号に基づく第2出力音声信号とを、外部の雑音の大きさに応じた混合重みで重み付け混合する。ここで、外部の雑音が小さいときには空気伝搬された第2出力音声信号が優先され、外部の雑音が大きいときには身体を伝達された音声信号を音質補正部で補正した第1出力音声信号が優先される。低域側では、外部の雑音にかかわらず、身体を伝達された音声信号を音質補正部で補正した第1出力音声信号が使用される。低域側では身体を伝達された音声信号であってもさほど減衰せず、良い音質が期待される。これにより、雑音レベル推定部412での雑音レベルの誤判定等により、実際には出力音声信号z(t)のSNRが低いにもかかわらず、大きな混合重みr2(b)が設定されてしまっても、低域側では安定した音質を維持できる。
【0086】
[第5実施形態の変形例1]
第5実施形態では、音質補正装置51が、時間領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置51が、時間周波数領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置51から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。
【0087】
[第5実施形態の変形例2]
出力音声信号z(t)のSNRに基づいて、HPF部511のハイパスフィルタのカットオフ周波数を切り替えてもよい。すなわち、出力音声信号z(t)のSNRが大きいときには、HPF部511のハイパスフィルタのカットオフ周波数を低くし、出力音声信号z(t)のSNRが小さいときには、HPF部511のカットオフ周波数を高くしてもよい。例えば、出力音声信号z(t)のSNRがSNR11であるときにカットオフ周波数をf11とし、出力音声信号z(t)のSNRがSNR12(ただし、SNR12<SNR11)であるときにカットオフ周波数をf12(ただし、f12>f11)としてもよい。あるいは、事前にある時間区間での混合出力信号w(t)のSNRが最も高くなるように、カットオフ周波数が設定されてもよい。
【0088】
[第6実施形態]
第6実施形態でも、出力音声信号d(t)(第1出力音声信号)に含まれる周波数f3(第3周波数)よりも低い信号成分の混合重みr1(b)が、雑音の大きさにかかわらず一定である例を説明する。
【0089】
<構成>
図1に例示するように、本実施形態では、雑音環境下で、集音システム6を装着した利用者1000の発話音(音声)を集音する。
図2に例示するように、本実施形態の集音システム4は、音質補正装置61、スピーカ12、マイクロホン13、マイクロホン14、筐体15、およびイヤーチップ16を有する。
【0090】
図11に例示するように、本実施形態の音質補正装置61は、音質補正部111(211,311)、雑音レベル推定部412、HPF(ハイパスフィルタ)部511,612、LPF(ローパスフィルタ)部613、混合重み設定部413、および混合部614を有する。音質補正部111(211,311)は、第1実施形態から第3実施形態またはそれらの変形例の何れかで説明したものである。混合部614は、混合重み付け部414a,414bおよび合成部614cを有する。HPF部511,612のハイパスフィルタおよびLPF部613のローパスフィルタのカットオフ周波数は、例えば、2kHz以上4kHz以下の範囲に属する周波数である。なお、本実施形態では、LPF部613のローパスフィルタのカットオフ周波数が周波数f3(第3周波数)に相当する。
【0091】
<重み付け混合処理>
マイクロホン13で観測された入力音声信号a(t)は、音質補正部111(211,311)に入力される。音質補正部111(211,311)は、出力音声信号d(t)を出力する。出力音声信号d(t)は、HPF612およびLPF613に入力される。HPF612は、出力音声信号d(t)にハイパスフィルタを作用させた出力音声信号d’(t)を出力する。出力音声信号d’(t)は、混合重み付け部414bに入力される。LPF613は、出力音声信号d(t)にローパスフィルタを作用させた出力音声信号d”(t)を出力する。出力音声信号d”(t)は、合成部614cに入力される。
【0092】
マイクロホン14またはマイクロホン14’で観測された出力音声信号z(t)は、雑音レベル推定部412およびHPF部511に入力される。雑音レベル推定部412は、雑音レベルL(b)を推定して混合重み設定部413に送る。混合重み設定部413は、雑音レベルL(b)に基づいて、混合重みr1(b)(r1(b)>0)、および、混合重みr2(b)(r2(b)>0)を設定する。混合重みr1(b)は混合重み付け部414bに入力され、混合重みr2(b)は混合重み付け部414aに入力される。HPF部511は、出力音声信号z(t)にハイパスフィルタを作用させた出力音声信号z(t)’(第2出力音声信号)を出力する。出力音声信号z(t)’は、混合重み付け部414aに入力される。
【0093】
混合重み付け部414bは、時間区間bに属する出力音声信号d’(t)に混合重みr1(b)を乗じた重み付け音声信号r1(b)d’(t)(ただし、t∈b)を得て出力する。混合重み付け部414aは、時間区間bに属する出力音声信号z’(t)に混合重みr2(b)を乗じた重み付け音声信号r2(b)z’(t)(ただし、t∈b)を得て出力する。重み付け音声信号r1(b)d’(t),r2(b)z’(t)は、合成部614cに入力される。合成部614cは、重み付け音声信号r1(b)d’(t),r2(b)z’(t)と出力音声信号d”(t)を、以下の式(12)のように重み付け混合して混合出力信号w(t)を得て出力する。
w(t)=r1(b)d’(t)+r2(b)z’(t)+d”(t) (12)
【0094】
<本実施形態の特徴>
本実施形態では、補正音声信号または擬似広帯域信号に基づく第1出力音声信号と、雑音下で空気伝搬された音声信号に基づく第2出力音声信号とを、外部の雑音の大きさに応じた混合重みで重み付け混合する。ここで、高域側では、外部の雑音が小さいときには空気伝搬された第2出力音声信号が優先され、外部の雑音が大きいときには身体を伝達された音声信号を音質補正部で補正した第1出力音声信号が優先される。低域側では、外部の雑音にかかわらず、身体を伝達された音声信号を音質補正部で補正した第1出力音声信号が使用される。低域側では身体を伝達された音声信号であってもさほど減衰せず、良い音質が期待される。これにより、雑音レベル推定部412での雑音レベルの誤判定等により、実際には出力音声信号z(t)のSNRが低いにもかかわらず、大きな混合重みr2(b)が設定されてしまっても、低域側では安定した音質を維持できる。
【0095】
[第6実施形態の変形例1]
第6実施形態では、音質補正装置61が、時間領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置61が、時間周波数領域において第1出力音声信号と第2出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置61から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。
【0096】
[第6実施形態の変形例2]
出力音声信号z(t)のSNRに基づいて、HPF部511,612のハイパスフィルタのカットオフ周波数を切り替えてもよい。すなわち、出力音声信号z(t)のSNRが大きいときには、HPF部511のハイパスフィルタのカットオフ周波数を低くし、出力音声信号z(t)のSNRが小さいときには、HPF部511のカットオフ周波数を高くしてもよい。例えば、出力音声信号z(t)のSNRがSNR11であるときにカットオフ周波数をf11とし、出力音声信号z(t)のSNRがSNR12(ただし、SNR12<SNR11)であるときにカットオフ周波数をf12(ただし、f12>f11)としてもよい。あるいは、事前にある時間区間での混合出力信号w(t)のSNRが最も高くなるように、カットオフ周波数が設定されてもよい。
【0097】
[第7実施形態]
音質補正装置が、マイクロホン13で観測された入力音声信号a(t)のSNRと、マイクロホン14で観測された入力音声信号y(t)のSNRとを比較し、入力音声信号a(t)のSNRの方が入力音声信号y(t)のSNRよりも高い場合にd(t)を出力し、そうでない場合に入力音声信号y(t)を出力してもよい。SNRの推定は、例えば、全時間区間での入力音声信号a(t)(または入力音声信号y(t))の大きさの平均を雑音信号の大きさとみなし、時間区間b32での入力音声信号a(t)(または入力音声信号y(t))の平均を音声信号の大きさとみなして行う。または、標準的な音声信号の大きさを、入力音声信号a(t)(または入力音声信号y(t))に含まれる音声信号の大きさとみなしてSNRを推定してもよい。
【0098】
また、音質補正装置が、周波数区間ごとに、マイクロホン13で観測された入力音声信号a(t)のSNRと、マイクロホン14で観測された入力音声信号y(t)のSNRとを比較し、周波数区間ごとに、入力音声信号a(t)のSNRの方が入力音声信号y(t)のSNRよりも高い場合にd(t)を出力し、そうでない場合に入力音声信号y(t)を出力してもよい。
【0099】
[ハードウェア構成]
各実施形態における音質補正装置11,21,31,41,51,61は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。すなわち、各実施形態における音質補正装置11,21,31,41,51,61は、例えば、それぞれが有する各部を実装するように構成された処理回路(processing circuitry)を有する。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
【0100】
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
【0101】
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0102】
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0103】
[その他の変形例]
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各実施形態では、音質補正装置11,21,31,41,51,61が集音システム1,2,3,4,5,6に組み込まれていた。しかし、集音システム1,2,3,4,5,6に音質補正装置11,21,31,41,51,61が組み込まれておらず、音質補正装置11,21,31,41,51,61が集音システム1,2,3,4,5,6の外部に配置されていてもよい。
【0104】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【符号の説明】
【0105】
1~6 集音システム
11~61 音質補正装置
111~311 音質補正部
111a 補正フィルタ部
111b 補正フィルタ生成部
211a 擬似広帯域化部
311a 切り替え部
414~614 混合部