特開2024-133969 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＪＸ日鉱日石エネルギー株式会社の特許一覧 ▶ ＮＴＴソノリティ株式会社の特許一覧

特開2024-133969音質補正装置、音質補正方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024133969

(43)【公開日】2024-10-03

(54)【発明の名称】音質補正装置、音質補正方法、およびプログラム

(51)【国際特許分類】

G10L 21/0388 20130101AFI20240926BHJP

G10L 21/0364 20130101ALI20240926BHJP

H04R 25/00 20060101ALI20240926BHJP

H04R 3/04 20060101ALI20240926BHJP

H04R 1/10 20060101ALN20240926BHJP

【ＦＩ】

G10L21/0388 100

G10L21/0364

H04R25/00 L

H04R3/04

H04R1/10 104Z

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2023044013

(22)【出願日】2023-03-20

(71)【出願人】

【識別番号】000004444

【氏名又は名称】ＥＮＥＯＳ株式会社

(71)【出願人】

【識別番号】522237542

【氏名又は名称】ＮＴＴソノリティ株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】門脇正天

(72)【発明者】

【氏名】小林和則

(72)【発明者】

【氏名】滝澤拓斗

(72)【発明者】

【氏名】柿山陽一郎

【テーマコード（参考）】

5D005

5D220

【Ｆターム（参考）】

5D005BA00

5D220AA02

5D220AB01

5D220BA04

(57)【要約】

【課題】利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させる。
【解決手段】音質補正装置は、利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく第１出力音声信号を出力する。ここで、補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である。
【選択図】図３

【特許請求の範囲】

【請求項1】

利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、前記補正音声信号に基づく第１出力音声信号を出力する音質補正部を有し、
前記補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタであり、
前記参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正装置。

【請求項2】

請求項１の音質補正装置であって、
前記比率は、前記周波数区間ごとに一様である、音質補正装置。

【請求項3】

請求項１の音質補正装置であって、
前記参照音声信号は、前記第２音声信号および前記標準的な音声に基づく信号である、音質補正装置。

【請求項4】

請求項１の音質補正装置であって、
前記参照音声信号は、前記第２音声信号および前記利用者の周囲の雑音を表す第２雑音信号に基づく信号である、音質補正装置。

【請求項5】

請求項１の音質補正装置であって、
前記音質補正部は、
前記入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、
前記擬似広帯域信号に基づく前記第１出力音声信号を出力する、音質補正装置。

【請求項6】

請求項５の音質補正装置であって、
前記強調高域信号は、前記入力音声信号に含まれる前記第１周波数よりも低い信号成分に基づいて得られる前記第１周波数よりも高い高域信号に、前記参照音声信号の大きさに対する前記基準音声信号の大きさの比率、に応じた重みを与えて得られる信号である、音質補正装置。

【請求項7】

請求項６の音質補正装置であって、
前記音質補正部は、前記補正フィルタを用い、前記比率に応じた前記重みを前記高域信号に与えて前記強調高域信号を得る、音質補正装置。

【請求項8】

請求項５の音質補正装置であって、
前記強調高域信号は、前記補正音声信号に含まれる前記第１周波数よりも低い信号成分に基づく信号である、音質補正装置。

【請求項9】

請求項５の音質補正装置であって、
前記音質補正部は、
前記入力音声信号に含まれる第２周波数よりも低い信号成分に前記補正フィルタを適用して前記補正音声信号を得、
前記補正音声信号に含まれる前記第１周波数よりも低い信号成分に基づいて前記強調高域信号を得、
前記補正音声信号に含まれる前記第１周波数よりも高い信号成分に基づく信号成分に前記強調高域信号を混合して前記擬似広帯域信号を得、
前記擬似広帯域信号に基づく前記第１出力音声信号を出力する、音質補正装置。

【請求項10】

請求項９の音質補正装置であって、
前記入力音声信号は、前記第１音声信号と前記利用者の周囲の雑音を表す第１雑音信号とを含み、
前記入力音声信号に含まれる前記第１雑音信号に対する前記第１音声信号の比率が第１値である場合の前記第２周波数は、前記入力音声信号に含まれる前記第１雑音信号に対する前記第１音声信号の比率が前記第１値よりも大きな第２値である場合の前記第２周波数よりも低い、音質補正装置。

【請求項11】

請求項５の音質補正装置であって、
前記入力音声信号は、前記第１音声信号と前記利用者の周囲の雑音を表す第１雑音信号とを含み、
前記音質補正部は、
前記入力音声信号に含まれる前記第１雑音信号に対する前記第１音声信号の比率が第１値である場合に、前記補正音声信号に基づかず、前記擬似広帯域信号に基づく前記第１出力音声信号を出力し、
前記入力音声信号に含まれる前記第１雑音信号に対する前記第１音声信号の比率が前記第１値よりも大きな第２値である場合に、前記補正音声信号に基づく前記第１出力音声信号を出力する、音質補正装置。

【請求項12】

利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第１出力音声信号を出力する音質補正部を有し、
前記強調高域信号は、前記入力音声信号に含まれる前記第１周波数よりも低い信号成分に基づいて得られる前記第１周波数よりも高い高域信号に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であり、
前記参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正装置。

【請求項13】

利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第１出力音声信号を出力する音質補正部を有する、音質補正装置。

【請求項14】

請求項１から１１の何れかの音質補正装置であって、
前記第１出力音声信号と、雑音下で空気伝搬された第３音声信号に基づく第２出力音声信号とを、混合重みで重み付け混合した混合出力信号を得て出力する混合部をさらに有し、
前記雑音の大きさが第１レベルであるときの前記第１出力音声信号の混合重みに対する前記第２出力音声信号の混合重みの比率は、前記雑音の大きさが前記第１レベルよりも大きな第２レベルであるときの前記第１出力音声信号の混合重みに対する前記第２出力音声信号の混合重みの比率よりも大きい、音質補正装置。

【請求項15】

請求項１４の音質補正装置であって、
前記第１出力音声信号に含まれる第３周波数よりも低い信号成分の混合重みは、前記雑音の大きさにかかわらず一定である、音質補正装置。

【請求項16】

音質補正装置による音質補正方法であって、
利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、前記補正音声信号に基づく第１出力音声信号を出力する音質補正ステップを有し、
前記補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタであり、
前記参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正方法。

【請求項17】

音質補正装置による音質補正方法であって、
利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号を、前記入力音声信号に含まれる前記第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、前記擬似広帯域信号に基づく第１出力音声信号を出力する音質補正ステップを有し、
前記強調高域信号は、前記入力音声信号に含まれる前記第１周波数よりも低い信号成分に基づいて得られる前記第１周波数よりも高い高域信号に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であり、
前記参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、
前記基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である、音質補正方法。

【請求項18】

【請求項19】

請求項１から１３の何れかの音質補正装置としてコンピュータを機能させるためのプログラム。

【請求項20】

請求項１４の音質補正装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、集音技術に関し、特に、集音した音声を補正する技術に関する。

【背景技術】

【0002】

騒音環境下で利用者の音声を集音するために、外部の音を集音するマイクロホン（外部マイクロホン）を用いると、周囲の騒音に対する利用者の音声の比率が小さくなってしまい、利用者の音声をクリアに集音することができない。

【0003】

この問題を解決するため、利用者の外耳道またはその近傍（外耳道とつながっている部分）に装着されたマイクロホン（耳内マイクロホン）を用いて音声を集音する技術が知られている（例えば、非特許文献１等参照）。ここで、耳内マイクロホンに到達する騒音はイヤホン等に遮られて音圧が小さくなっている。一方、利用者が発した音声は、空気中のみならず、利用者の身体をも伝わって耳内マイクロホンに到達する。空気中を伝わる音声は騒音と同様にイヤホン等に遮られて音圧が小さくなるが、身体を伝わる音声はさほど減衰しない。これにより、耳内マイクロホンは、騒音環境下において、外部マイクロホンよりも高いＳ／Ｎ比で音声を集音できる。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】“三洋・日鉄エレ、「耳でしゃべる」イヤホンマイク“ｅ耳くん”を発売”，[online]，2007年12月18日，日鉄エレックス，[2023年1月25日検索]，インターネット＜https://www.phileweb.com/news/d-av/200712/18/19995.html＞

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、身体を介して伝達された音声は、その高周波成分が大きく減衰する。そのため、このような音声は明瞭性が低く聞き取りにくい。このような問題は、騒音環境下で耳内マイクロホンを用いて音声を集音する場合に限られるものではなく、しゃべり声のあるオフィスやカフェなどのざわめき環境下で利用者の身体を介して伝達された音声を集音する場合にも共通するものである。以下、工場や車のたくさん走っている道路、線路脇、駅などの大きな環境音（８０ｄＢＳＰＬ以上を目安）を騒音とよび、オフィスやカフェなど、それよりも小さい環境音をざわめきとよぶ。また、騒音とざわめきを含む環境音の総称を雑音とよぶ。

【0006】

本発明は、このような点に鑑みてなされたものであり、利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させる技術を提供する。

【課題を解決するための手段】

【0007】

音質補正装置は、利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく第１出力音声信号を出力する。ここで、補正フィルタは、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。参照音声信号は、第２身体を介して伝達された第２音声信号に基づく信号であり、基準音声信号は、空気伝搬された音声または標準的な音声に基づく信号である。

【発明の効果】

【0008】

これにより、利用者の身体を介して伝達された音声を補正し、その明瞭性を向上させることができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施形態の音声通信システムを例示するための図である。

【図2】図２は、実施形態の音声通信システムを例示するための図である。

【図3】図３は、第１実施形態の音質補正装置を例示するためのブロック図である。

【図4】図４は、利用者の口元に装着された外部マイクロホンで観測された音声信号の感度Ｘ、当該利用者の耳元に装着された外部マイクロホンで観測された音声信号の感度Ｙ、および、当該利用者の外耳道またはその近傍に装着された耳内マイクロホンで観測された音声信号の感度Ａを例示した図である。音声信号の「感度」とは、利用者の口元に装着された外部マイクロホンで観測された当該利用者の音声信号の周波数スペクトルで正規化された音声信号の周波数スペクトルを意味する。図４の横軸は周波数（Frequency [Hz]）を表し、縦軸は感度（Sensitivity [dB]）を表す。

【図5】図５は、第２実施形態の音質補正装置を例示するためのブロック図である。

【図6】図６は、第２実施形態の擬似広帯域化部を例示するためのブロック図である。

【図7】図７は、第３実施形態およびその変形例の音質補正装置を例示するためのブロック図である。

【図8】図８Ａは、利用者の音声信号の感度を例示した図である。図８Ｂは、音声信号の低域側に補正フィルタを適用して得られる音声信号の感度を例示した図である。図８Ｃは、図８Ｂの音声信号の擬似広帯域信号を例示した図である。

【図9】図９は、第４実施形態の音質補正装置を例示するためのブロック図である。

【図10】図１０は、第５実施形態の音質補正装置を例示するためのブロック図である。

【図11】図１１は、第６実施形態の音質補正装置を例示するためのブロック図である。

【発明を実施するための形態】

【0010】

以下、本発明の実施形態を説明する。
［第１実施形態］
第１実施形態では、利用者の身体を介して伝達された音声を集音（観測）し、補正フィルタを用いてその音質を改善する。すなわち、本実施形態の音質補正装置は、利用者の身体（第１身体）を介して伝達された音声信号（第１音声信号）に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく音声信号（第１出力音声信号）を出力する。ここで「補正フィルタ」は、複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタである。「参照音声信号」は、或る身体（第２身体）を介して伝達された音声信号（第２音声信号）に基づく信号であり、このような音声信号に基づく周波数スペクトルを持つ。「基準音声信号」は、空気伝搬された音声または標準的な音声に基づく信号であり、このような音声に基づく周波数スペクトルを持つ。このような「補正フィルタ」は、利用者の身体を伝達したことによって減衰した信号成分を強調（増幅）するものである。これによって、入力音声信号の明瞭性を向上させた第１出力音声信号が得られる。

【0011】

「第１身体」は、例えば、利用者の頭部であるが、これは本発明を限定しない。例えば、利用者の頭部とその他の身体部位（例えば、首、胴体、腕、手等）が「第１身体」であってもよい。「第１音声信号」は、例えば、利用者の外耳道またはその近傍（外耳道とつながっている部分）に装着されたマイクロホン（耳内マイクロホン）で集音された音声信号であるが、これは本発明を限定しない。例えば、「第１音声信号」が、利用者の首部分に装着された咽喉マイクロホンで集音された音声信号であってもよいし、利用者の頭部、喉、胴体、腕、手等に装着された骨伝導マイクロホンで集音された音声信号等であってもよい。「入力音声信号」は、このような第１音声信号に基づく信号である。「第１音声信号に基づく信号」は、例えば、「第１音声信号」の時間領域信号であってもよいし、「第１音声信号」の時間周波数領域信号であってもよい。

【0012】

「第２身体」は「第１身体」と同一であってもよいし、同一でなくてもよい。例えば、「第２身体」は、上述した利用者の身体部位であってもよいし、上述した利用者以外のヒトの身体部位であってもよいし、人体を模擬したＨＡＴＳ(Head and Torso Simulator)でもよい。例えば、「第２身体」は、「第１身体」に相当する身体部位であってもよいし、「第１身体」と異なる身体部位であってもよい。例えば、「第２身体」は、頭部であってもよいし、頭部とその他の身体部位（例えば、首、胴体、腕、手等）等であってもよい。「第２音声信号」は、例えば、利用者またはその他のヒトの外耳道またはその近傍（外耳道とつながっている部分）に装着されたマイクロホン（耳内マイクロホン）で集音された音声信号であるが、これは本発明を限定しない。例えば、「第２音声信号」が、利用者またはその他のヒトの首部分に装着された咽喉マイクロホンで集音された音声信号であってもよいし、利用者またはその他のヒトの頭部、喉、胴体、腕、手等に装着された骨伝導マイクロホンで集音された音声信号等であってもよい。「参照音声信号」は、このような第２音声信号に基づく信号である。例えば、「参照音声信号」は、「第２音声信号」の時間領域信号であってもよいし、「第２音声信号」に対する関数値の時間領域信号であってもよいし、「第２音声信号」の時間周波数領域信号であってもよいし、「第２音声信号」に対する関数値の時間周波数領域信号であってもよい。「参照音声信号」が、複数のヒトについて得られた「第２音声信号」の平均値に基づく信号であってもよい。例えば、「参照音声信号」は、「第２音声信号」の平均値の時間領域信号であってもよいし、「第２音声信号」の平均値に対する関数値の時間領域信号であってもよいし、「第２音声信号」の平均値の時間周波数領域信号であってもよいし、「第２音声信号」の平均値に対する関数値の時間周波数領域信号であってもよい。

【0013】

「空気伝搬された音声」は、例えば、上述した利用者の口から発せられた音声が空気伝搬されたものであってもよいし、上述した利用者以外のヒトの口から発せられた音声が空気伝搬されたものであってもよい。「空気伝搬された音声」は、例えば、上述した利用者または当該利用者以外のヒトの耳元に装着されたマイクロホン（外部マイクロホン）で観測された音声であるが、これは本発明を限定しない。例えば、「空気伝搬された音声」が、上述した利用者または当該利用者以外のヒトやＨＡＴＳの口元に装着されたマイクロホン（外部マイクロホン）で観測された音声であってもよいし、その他の位置に配置された外部マイクロホンで観測された音声であってもよい。「標準的な音声」は、例えば、予め収録された標準的な音声データベース（例えば、ＡＴＲ多数話者音声データベース）の音声や、ITU-T P.50のArtificial Voiceや、ITU-T P.501のテスト音声である。また「空気伝搬された音声または標準的な音声に基づく信号」は、例えば、空気伝搬された音声の音声信号であってもよいし、空気伝搬された音声に音響処理を施して得られる音声信号であってもよいし、標準的な音声の音声信号であってもよいし、標準的な音声に音響処理を施して得られる音声信号であってもよいし、このような音声信号の平均であってもよい。

【0014】

「補正フィルタ」は、参照音声信号の大きさに対する基準音声信号の大きさの比率（以下、単に「比率」）の周波数特性を周波数領域で実現するフィルタであってもよいし、「比率」の周波数特性を時間領域で実現するフィルタ（例えば、ＦＩＲ（Finite Impulse Response）フィルタやＩＩＲ（Infinite Impulse Response）フィルタ等）であってもよい。

【0015】

前者の場合、補正フィルタは、例えば、各周波数区間ｆでの当該比率Ｇ（ｆ）の集合Ｇである。音質補正装置は、例えば、時間周波数領域において、入力音声信号Ａ（τ，ω）に、この補正フィルタＧ（ｆ）を適用し、補正音声信号Ｕ（τ，ω）を得る（式（１））。
Ｕ（τ，ω）＝Ｇ（ｆ）Ａ（τ，ω）（１）
ここで、ｆは各周波数区間を表すインデックスであり、ωは周波数区間ｆに属する離散周波数（例えば、周波数ビン）を表すインデックスであり（ω∈ｆ）、τは各時間区間を表すインデックスである。大きなｆほど周波数の高い周波数区間を表し、大きなωほど高い離散周波数を表し、大きなτほど後の時間区間を表す。Ｕ（τ，ω）は時間周波数領域で表現された各時間区間τおよび各離散周波数ωでの「補正音声信号」であり、Ｇ（ｆ）は補正フィルタＧに含まれる各周波数区間ｆに対応する成分であり、Ａ（τ，ω）は時間周波数領域で表現された各時間区間τおよび各離散周波数ωでの「入力音声信号」である。ここで、Ｇ（ｆ）は以下を満たす。
Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））（２）
ここで、Ｙ”（ｆ）は周波数区間ｆでの「基準音声信号」であり、Ａ”（ｆ）は周波数区間ｆでの「参照音声信号」である。これらはいずれも周波数領域の信号である。またａｍｐ（・）は・の大きさを表す。ａｍｐ（・）は、・の大きさに対して単調増加する値であればどのようなものでもよく、例えば、・の振幅の絶対値であってもよいし、・のパワーであってもよい。

【0016】

式（２）を式（１）に代入すると、以下のようになる。
Ｕ（τ，ω）＝｛ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））｝Ａ（τ，ω）（３）
ここで、空気伝搬された音声または標準的な音声の大きさに対する、利用者の身体を介して伝達された音声信号の大きさの比率が小さい周波数区間ｆほど、比率Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））が大きくなる傾向にある。すなわち、利用者の身体を伝達することによる減衰量が大きい周波数区間ｆほど、ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））が大きくなる傾向がある。そのため、補正音声信号Ｕ（τ，ω）は、入力音声信号Ａ（τ，ω）（ω∈ｆ）のうち、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正した信号となる。

【0017】

後者の場合、補正フィルタは、例えば、Ｇ（ｆ）の周波数特性を時間領域で実現する補正フィルタｇ＝［ｇ_０，…，ｇ_Ｍ－１］^Ｔである。音質補正装置は、例えば、Ａ（τ，ｆ）を時間領域に逆周波数変換して得られる離散時間ｔ，…，ｔ－Ｍ＋１での入力音声信号ａ（ｔ），…，ａ（ｔ－Ｍ＋１）に、この補正フィルタｇを適用し、Ｕ（τ，ｆ）を時間領域に逆周波数変換して得られる離散時間ｔでの補正音声信号ｕ（ｔ）を得る（式（４））。
ｕ（ｔ）＝ｇ^Ｔａ_ｔ（４）
ここで、ｔは離散時間を表すインデックスであり、大きなｔほど後の時間区間を表す。Ｍはフィルタ長を表す正整数であり、ａ_ｔ＝［ａ（ｔ），…，ａ（ｔ－Ｍ＋１）］^Ｔであり、ｇ_０，…，ｇ_Ｍ－１は実数のフィルタ係数であり、・^Ｔは・の転置を表す。補正音声信号ｕ（ｔ）は、入力音声信号ａ（ｔ），…，ａ（ｔ－Ｍ＋１）のうち、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正した信号となる。

【0018】

その他、「補正フィルタ」が複数のヒトについての「比率」の平均に基づくものであってもよい。例えば、「補正フィルタ」が複数のヒトについての「比率」の平均の周波数特性を周波数領域で実現するフィルタであってもよいし、「比率」の平均の周波数特性を時間領域で実現するフィルタであってもよい。

【0019】

上述したように、「補正フィルタ」は、前述の「比率」（例えば、ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ）））に基づくフィルタである。ここで、各周波数区間ｆに複数の離散周波数ωが属する場合であっても、この「比率」が同じ周波数区間ｆで一様であることが望ましい。例えば、「比率」のそれぞれは、周波数区間ｆのそれぞれで平均化されていることが望ましい。なぜなら、この「比率」を各離散周波数ω∈ｆごとに個々に設定してしまうと、入力音声信号のディップ（周波数特性の谷）を各離散周波数ωで逐一強調することになり、ＳＮＲの悪い帯域が逐一増幅され、「補正音声信号」のＳＮＲが低下してしまうからである。すなわち、各周波数区間ｆは、例えば、２個以上の離散周波数ωを含むことが望ましい。周波数区間ｆは、例えば、１／３オクターブバンド幅、１／６オクターブバンド幅、ヒトの聴覚の臨界帯域幅、または、これらの何れかに近似する幅の周波数区間である。なお、ディップの影響が小さい用途においては、ｆ＝ωとし、この「比率」を離散周波数ωごとに個々に設定してもよい。

【0020】

また、前述した「参照音声信号」が、前述の「第２音声信号」および「標準的な音声」に基づく信号であってもよい。これによって「第２音声信号」のディップが「標準的な音声」の周波数特性に吸収され、ディップの影響を減らすことができる。例えば、「参照音声信号」が「第２音声信号」および「標準的な音声」の関数値であってもよい。例えば、「参照音声信号」が「第２音声信号」および「標準的な音声」の重み付け和であってもよい。例えば、周波数区間ｆにおける、第２音声信号Ａ’（ｆ）および標準的な音声の信号Ｃ’（ｆ）に対し、参照音声信号Ａ”（ｆ）を以下のように設定してもよい（式（５））。
Ａ”（ｆ）＝Ａ’（ｆ）＋αＣ’（ｆ）（５）
ここで、αは０＜α≦１を満たす実数係数（定数）であり、Ｃ’（ｆ）は周波数領域の信号である。好ましくは、αは１よりも十分に小さく、例えば、０＜α＜０．３または０＜α＜０．１を満たす。この場合、前述した式（２）のＧ（ｆ）は、以下のようになる（式（６））。
Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ’（ｆ）＋αＣ’（ｆ））（６）

【0021】

また、前述した「参照音声信号」が、前述の「第２音声信号」、および、利用者の周囲の雑音を表す雑音信号（「第２雑音信号」）に基づく信号であってもよい。なお、雑音は、例えば、騒音や騒音よりも音圧レベルの低いざわめきである。これにより、前述の「入力音声信号」のうち、雑音が大きく、ＳＮＲが低い周波数区間ｆの成分が強調され、「補正音声信号」のＳＮＲが低下することを防止できる。例えば、「参照音声信号」が「第２音声信号」および「第２雑音信号」の関数値であってもよい。例えば、「参照音声信号」が「第２音声信号」および「第２雑音信号」の重み付け和であってもよい。例えば、周波数区間ｆにおける、第２音声信号Ａ’（ｆ）および第２雑音信号Ｎ’（ｆ）に対し、参照音声信号Ａ”（ｆ）を以下のように設定してもよい（式（７））。
Ａ”（ｆ）＝Ａ’（ｆ）＋βＮ’（ｆ）（７）
ここで、βは０＜βを満たす実数係数（定数）であり、Ｎ’（ｆ）は周波数領域の信号である。好ましくは、βは１または１の近傍である。例えば、０．７＜β≦１または１．０＜β≦１．５である。この場合、前述した式（２）のＧ（ｆ）は、以下のようになる（式（８））。
Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ’（ｆ）＋βＮ’（ｆ））（８）

【0022】

以下、図面を参照して本発明の第１実施形態を説明する。以下では、説明を簡略化するため、「第１身体」が利用者の頭部であり、「第１音声信号」が耳内マイクロホンで集音された音声信号である例を説明する。しかし、これは本発明を限定するものではない。また以降では、既に説明した事項については同じ参照記号を用い、説明を簡略化する。

【0023】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下（例えば、騒音環境下やそれよりも音圧レベルが低いざわめき環境下で、集音システム１を装着した利用者１０００の発話音（音声）を集音する。集音された音声の用途に限定はない。例えば、集音された音声が、他者との音声通信に用いられてもよいし、機器の音声操作に用いられてもよいし、履歴として記録されてもよい。

【0024】

図２に例示するように、本実施形態の集音システム１は、音質補正装置１１、スピーカ１２、マイクロホン１３（耳内マイクロホン）、マイクロホン１４（外部マイクロホン）、筐体１５、およびイヤーチップ１６（イヤーピース、イヤーパッド）を有する。この例の筐体１５は、中空の中空部１５１，１５２および先端部１５３を有している。先端部１５３の径は中空部１５２の径よりも小さく、中空部１５２の先端部１５３側の領域はテーパー状に形成され、中空部１５２につながっている。先端部１５３の端部は開放端１５３ａとなっており、この開放端１５３ａを通じて中空部１５２および先端部１５３の内部が開放端１５３ａの外方に開放されている。先端部１５３の外側には、先端部１５３を囲むイヤーチップ１６が取り付けられている。中空部１５１と中空部１５２の間にはスピーカ１２が取り付けられている。スピーカ１２は、例えば中空部１５２側に外部の雑音を相殺するための逆相の擬似雑音信号を放出するように配置されている。先端部１５３の内部にはマイクロホン１３が取り付けられている。図２の例では、先端部１５３内部の中空部１５２側の位置にマイクロホン１３が取り付けられている。しかし、これは本発明を限定するものではない。また、中空部１５１にはさらに音孔１５ａが設けられている。音孔１５ａは筐体１５の壁よりも音を透過しやすい孔であり、例えば、貫通孔等である。マイクロホン１４は、筐体１５の中空部１５１の内側に取り付けられている。マイクロホン１４の受音位置は、音孔１５ａの近傍であり、マイクロホン１４はこの音孔１５ａを通じて筐体１５の外部の音を集音できるように構成されている。中空部１５１の内部には音質補正装置１１が取り付けられ、音質補正装置１１はマイクロホン１３，１４と電気的に接続されている。本実施形態の集音システム１は、利用者１０００の耳１０１０に装着される。すなわち、開放端１５３ａを利用者１０００の鼓膜１０１２側に向けた状態で、イヤーチップ１６が取り付けられた先端部１５３が耳１０１０の外耳道１０１１に挿入される。これにより、先端部１５３の内部に取り付けられたマイクロホン１３が、外耳道１０１１の近傍または外耳道１０１１の中に配置される。これにより、マイクロホン１３では、主に利用者１０００の身体を介して伝達された音声信号が観測される。一方、マイクロホン１４の受音位置は、マイクロホン１３の位置よりも、空気伝搬した利用者１０００の音声信号の音圧が高い位置である。また、このマイクロホン１４の受音位置は、マイクロホン１３の位置よりも、利用者１０００の身体を伝達した音声信号の音圧が低い位置である。例えば、マイクロホン１３の位置では、利用者１０００の身体を伝達した音声信号は観測されるが、マイクロホン１４の受音位置では、利用者１０００の身体を伝達した音声信号は観測されないか、ほとんど観測されない。また、マイクロホン１４の受音位置は、マイクロホン１３の位置よりも、筐体１５の外部の雑音信号の音圧が高い位置である。例えば、装着時における、外耳道１０１１からマイクロホン１４の受音位置までの距離は、外耳道１０１１からマイクロホン１３の受音位置までの距離よりも長い。なお、集音システム１は、例えば、イヤホンやヘッドホン等として実装可能である。

【0025】

筐体１５の外部で発せられた雑音信号ｎ_ｏｕｔ（ｔ）および利用者１０００が発した音声信号ｓ_ｏｕｔ（ｔ）は、空気中を伝搬して筐体１５の外部に到達する。これらの雑音信号ｎ_ｏｕｔ（ｔ）および音声信号ｓ_ｏｕｔ（ｔ）は、筐体１５の音孔１５ａを通じてマイクロホン１４の受音位置に到達する。ここで、マイクロホン１４で観測された雑音信号ｎ_ｏｕｔ（ｔ）および音声信号ｓ_ｏｕｔ（ｔ）の混合信号を入力音声信号ｙ（ｔ）＝ｓ_ｏｕｔ（ｔ）＋ｎ_ｏｕｔ（ｔ）と表現する。雑音信号ｎ_ｏｕｔ（ｔ）および音声信号ｓ_ｏｕｔ（ｔ）は、さらに筐体１５の壁等を透過し、筐体１５の内部に伝搬されてマイクロホン１３に到達する。この過程で雑音信号ｎ_ｏｕｔ（ｔ）および音声信号ｓ_ｏｕｔ（ｔ）は大きく減衰する。そのため、雑音信号ｎ_ｉｎ（ｔ）の音圧レベルは雑音信号ｎ_ｏｕｔ（ｔ）の音圧レベルよりも低い。このようにマイクロホン１３に到達した雑音信号ｎ_ｏｕｔ（ｔ）をｎ_ｉｎ（ｔ）と表現する。また、マイクロホン１３に到達する音声信号ｓ_ｏｕｔ（ｔ）は十分小さいとみなして無視することにする。また、利用者１０００から発せられた音声信号は、さらに利用者１０００の身体を伝達してマイクロホン１３に到達する。このように利用者１０００の身体（第１身体）を伝搬された音声信号（第１音声信号）をｓ_ｉｎ（ｔ）と表現する。マイクロホン１３で観測された雑音信号ｎ_ｉｎ（ｔ）および音声信号ｓ_ｉｎ（ｔ）の混合信号を入力音声信号ａ（ｔ）＝ｓ_ｉｎ（ｔ）＋ｎ_ｉｎ（ｔ）と表現する。

【0026】

図３に例示するように、本実施形態の音質補正装置１１は、利用者１０００の身体（第１身体）を介して伝達された音声信号（第１音声信号）に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に基づく出力音声信号（第１出力音声信号）を出力する音質補正部１１１を有する。音質補正部１１１は、補正フィルタ部１１１ａおよび補正フィルタ生成部１１１ｂを有する。補正フィルタ生成部１１１ｂは、周波数分析部１１１ｂａ，１１１ｂｃ、平均化部１１１ｂｂ，１１１ｂｄ、および補正フィルタ特性計算部１１１ｂｅを有する。

【0027】

＜事前処理＞
事前処理では、利用者１０００が集音システム１を装着し、マイクロホン１３およびマイクロホン１４で、入力音声信号ａ（ｔ）および入力音声信号ｙ（ｔ）をそれぞれ観測する。すなわち、マイクロホン１３は、利用者１０００の身体（第２身体）を介してマイクロホン１３に到達した音声信号（第２音声信号）ｓ_ｉｎ（ｔ）と、空気伝搬した後に筐体１５の壁等を透過してマイクロホン１３に到達した雑音信号ｎ_ｉｎ（ｔ）と、の混合信号である入力音声信号ａ（ｔ）＝ｓ_ｉｎ（ｔ）＋ｎ_ｉｎ（ｔ）を観測する。一方、マイクロホン１４は、空気中を伝搬してきた雑音信号ｎ_ｏｕｔ（ｔ）と音声信号ｓ_ｏｕｔ（ｔ）との混合信号である入力音声信号ｙ（ｔ）＝ｓ_ｏｕｔ（ｔ）＋ｎ_ｏｕｔ（ｔ）を観測する。マイクロホン１３で観測された入力音声信号ａ（ｔ）は周波数分析部１１１ｂａに入力される。周波数分析部１１１ｂａは、入力音声信号ａ（ｔ）の周波数分析によって、入力音声信号ａ（ｔ）の時間周波数領域信号である入力音声信号Ａ（τ，ω）を得て出力する。マイクロホン１４で観測された入力音声信号ｙ（ｔ）は周波数分析部１１１ｂｃに入力される。周波数分析部１１１ｂｃは、入力音声信号ｙ（ｔ）の周波数分析によって、入力音声信号ｙ（ｔ）の時間周波数領域信号である入力音声信号Ｙ（τ，ω）を得て出力する。これらの周波数分析には、例えば、短時間フーリエ変換（STFT：Short-time Fourier Transform）、修正離散コサイン変換（MDCT：Modified Discrete Cosine Transform）等の公知の方法を用いればよい。入力音声信号Ａ（τ，ω）は平均化部１１１ｂｂに入力され、入力音声信号Ｙ（τ，ω）は平均化部１１１ｂｄに入力される。

【0028】

平均化部１１１ｂｂは、入力音声信号Ａ（τ，ω）を周波数区間ｆごとに平均し、周波数区間ｆごとに一様な入力音声信号Ａ’（τ，ｆ）を生成して出力する。同様に、平均化部１１１ｂｄは、入力音声信号Ｙ（τ，ω）を周波数区間ｆごとに平均し、周波数区間ｆごとに一様な入力音声信号Ｙ’（τ，ｆ）を生成して出力する。入力音声信号Ａ’（τ，ｆ）および入力音声信号Ｙ’（τ，ｆ）は、補正フィルタ特性計算部１１１ｂｅに送られる。

【0029】

補正フィルタ特性計算部１１１ｂｅは、入力音声信号Ａ’（τ，ｆ）に基づく参照音声信号Ａ”（ｆ）（第２身体を介して伝達された第２音声信号に基づく信号）と、入力音声信号Ｙ’（τ，ｆ）に基づく基準音声信号Ｙ”（ｆ）（空気伝搬された音声に基づく信号）とを用い、Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））（式（２））の周波数特性を時間領域で実現する補正フィルタｇ＝［ｇ_０，…，ｇ_Ｍ－１］^Ｔ（複数の周波数区間それぞれにおける、参照音声信号の大きさに対する基準音声信号の大きさの比率、に基づくフィルタ）を得て出力する。例えば、補正フィルタ特性計算部１１１ｂｅは、入力音声信号Ａ’（τ，ｆ）を時間平均して参照音声信号Ａ”（ｆ）（例えば、Ａ’（τ，ｆ）の平均パワースペクトル）を得、入力音声信号Ｙ’（τ，ｆ）を時間平均して基準音声信号Ｙ”（ｆ）（例えば、Ｙ’（τ，ｆ）の平均パワースペクトル）を得、これらを用いてＧ（ｆ）の周波数特性を時間領域で実現する補正フィルタｇを得て出力する。補正フィルタｇは、補正フィルタ部１１１ａに送られ、補正フィルタ部１１１ａに設定される。

【0030】

＜音質補正処理＞
本実施形態の音質補正処理は、事前処理を前提とし、前述した音声通信等の用途で実行される。利用者１０００は集音システム１を装着し、マイクロホン１３で入力音声信号ａ（ｔ）を観測する。入力音声信号ａ（ｔ）は補正フィルタ部１１ａに送られる。前述のようにａ（ｔ）＝ｓ_ｉｎ（ｔ）＋ｎ_ｉｎ（ｔ）であり、ｓ_ｉｎ（ｔ）は利用者１０００の身体（第１身体）を伝搬された音声信号（第１音声信号）である。補正フィルタ部１１ａは、離散時間ｔ，…，ｔ－Ｍ＋１での入力音声信号ａ（ｔ），…，ａ（ｔ－Ｍ＋１）（利用者の第１身体を介して伝達された第１音声信号に基づく入力音声信号）に、この補正フィルタｇを適用して補正音声信号ｕ（ｔ）を得（式（４））、この補正音声信号ｕ（ｔ）（補正音声信号に基づく第１出力音声信号）を出力する。

【0031】

＜本実施形態の特徴＞
図４は、利用者１０００の口元に装着された外部マイクロホンで観測された音声信号の感度Ｘ、当該利用者１０００の耳元に装着されたマイクロホン１４で観測された音声信号の感度Ｙ、および、当該利用者１０００の外耳道１０１１またはその近傍に装着されたマイクロホン１３で観測された音声信号の感度Ａを例示した図である。なお、音声信号の「感度」とは、利用者１０００の口元に装着された外部マイクロホンで観測された当該利用者１０００の音声信号の周波数スペクトルで正規化された音声信号の周波数スペクトルを意味する。図４の横軸は周波数（Frequency [Hz]）を表し、縦軸は感度（Sensitivity [dB]）を表す。図４に示すように、利用者１０００の身体を介して伝達され、マイクロホン１３で観測された音声信号の感度Ａは、周波数が高くなるほど低くなる。一方、空気伝搬され、マイクロホン１４で観測された音声信号の感度Ｙは、周波数が高くなっても高い。

【0032】

本実施形態では、Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））に基づく補正フィルタｇを、利用者１０００の身体を伝搬された音声信号ｓ_ｉｎ（ｔ）に基づく入力音声信号ａ（ｔ）に適用して、補正音声信号ｕ（ｔ）を得た。ここで、Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））は、各周波数区間ｆでの感度Ａに対する感度Ｙの比率に相当する。すなわち、補正フィルタｇは、身体を伝達することによって減衰した成分を、空気伝搬された音声または標準的な音声の周波数スペクトルに近いレベルにまで補正するものである。そのため、入力音声信号ａ（ｔ）に補正フィルタｇを適用して得られる補正音声信号ｕ（ｔ）は、利用者１０００の身体を伝達した音声を補正し、その明瞭性を向上させたものとなる。これにより、騒音等の雑音環境下であっても、利用者１０００の音声を明瞭に集音し、他者との音声通信、機器の音声操作、音声記録等を行うことができる。

【0033】

［第１実施形態の変形例１］
ここでは、補正フィルタ部１１１ａが補正音声信号ｕ（ｔ）を出力した。しかし、補正フィルタ部１１１ａが、補正音声信号ｕ（ｔ）の周波数分析によって、時間周波数領域の補正音声信号Ｕ（τ，ω）を得、この補正音声信号Ｕ（τ，ω）（補正音声信号に基づく第１出力音声信号）を出力してもよい。

【0034】

［第１実施形態の変形例２］
また、補正フィルタ生成部１１１ｂは、Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））（式（２））の周波数特性を時間領域で実現する補正フィルタｇを生成して出力した。しかし、補正フィルタ生成部１１１ｂが各周波数区間ｆでのＧ（ｆ）の集合Ｇを補正フィルタとして出力してもよい（式（１））。この場合、補正フィルタＧが、補正フィルタ部１１１ａに送られ、補正フィルタ部１１１ａに設定される。補正フィルタ部１１１ａは、ａ（ｔ）を時間周波数領域に変換して得られる入力音声信号Ａ（τ，ω）に、この補正フィルタＧを適用し、補正音声信号Ｕ（τ，ω）を得（式（１））、この補正音声信号Ｕ（τ，ω）（補正音声信号に基づく第１出力音声信号）を出力してもよい。あるいは、補正フィルタ部１１１ａは、この補正音声信号Ｕ（τ，ω）の逆変換（例えば、逆短時間フーリエ変換等）によって、補正音声信号Ｕ（τ，ω）を時間領域に変換した正音声信号ｕ（ｔ）を得、この補正音声信号ｕ（ｔ）（補正音声信号に基づく第１出力音声信号）を出力してもよい。

【0035】

［第１実施形態の変形例３］
事前処理において、利用者１０００が集音システム１を装着するのではなく、その他のヒトが集音システム１を装着し、マイクロホン１３およびマイクロホン１４で、入力音声信号ａ（ｔ）および入力音声信号ｙ（ｔ）をそれぞれ観測してもよい。この場合、補正フィルタ生成部１１１ｂは、これらを用い、上述のように補正フィルタｇまたは補正フィルタＧを生成して出力してもよい。

【0036】

［第１実施形態の変形例４］
事前処理において、入力音声信号ｙ（ｔ）に代えて、利用者１０００またはその他のヒトの口元やその他の位置に配置されたマイクロホン１４’（外部マイクロホン）で観測された入力音声信号ｘ（ｔ）＝ｓ’_ｏｕｔ（ｔ）＋ｎ’_ｏｕｔ（ｔ）が用いられてもよい。ここで、ｓ’_ｏｕｔ（ｔ）はマイクロホン１４’で観測された利用者１０００の音声であり、ｎ’_ｏｕｔ（ｔ）はマイクロホン１４’で観測された雑音信号である。または、事前処理において、入力音声信号ｙ（ｔ）に代えて、予め収録された標準的な音声信号が用いられてもよい。これにより、身体を伝達することによって減衰した成分を、この標準的な音声の周波数スペクトルに近いレベルにまで補正できる。

【0037】

［第１実施形態の変形例５］
事前処理において、複数のヒトについて得られた補正フィルタの平均を、補正フィルタｇや補正フィルタＧとして、補正フィルタ部１１１ａに設定してもよい。あるいは、複数のヒトについて得られた入力音声信号ａ（ｔ）の平均を用いて補正フィルタｇや補正フィルタＧが生成されてもよい。あるいは、複数のヒトに装着された外部マイクロホンで得られた入力音声信号ｙ（ｔ）の平均や入力音声信号ｘ（ｔ）の平均を用い、補正フィルタｇや補正フィルタＧが生成されてもよい。また、事前処理において、前述の式（６）や式（８）のＧ（ｆ）を用いて補正フィルタｇや補正フィルタＧが生成されてもよい。

【0038】

［第１実施形態の変形例６］
また、補正フィルタｇや補正フィルタＧが生成され、補正フィルタ部１１１ａに設定されているのであれば、補正フィルタ生成部１１１ｂやその事前処理が省略されてもよい。

【0039】

［第２実施形態］
第２実施形態では、利用者の身体を介して伝達された音声を集音し、擬似広帯域化によってその音質を改善する。すなわち、本実施形態の音質補正装置は、利用者の身体（第１身体）を介して伝達された音声信号（第１音声信号）に基づく入力音声信号に含まれる、ある周波数（第１周波数）よりも低い信号成分に基づく強調高域信号を、この入力音声信号に含まれる当該周波数（第１周波数）よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、この擬似広帯域信号に基づく音声信号（第１出力音声信号）を出力する。擬似広帯域化の技術は、例えば、特開２００９－１３４２６０号公報（参考文献１）等に開示されている。しかし、参考文献１等に記載されているように、通常の擬似広帯域化では、入力音響信号にゲイン係数を乗じて高域領域の音響信号を生成し、それを入力音響信号には含まれていなかった高域領域の信号として混合して擬似広帯域化する。これに対し、第２実施形態では、入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号を、入力音声信号に含まれていた第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得る。これにより、利用者の身体を伝達したことによって減衰した信号成分を強調（増幅）し、入力音声信号の明瞭性を向上させた第１出力音声信号を得ることができる。

【0040】

このように、本実施形態では、通常の擬似広帯域化と異なり、入力音声信号に含まれていた第１周波数よりも高い信号成分に基づく信号成分に強調高域信号を混合する。そのため、強調高域信号を得るためのゲイン係数（重み）は、入力音声信号に含まれていた第１周波数よりも高い信号成分に基づくことが望ましい。好ましくは、前述の比率Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））（式（２））に基づいてゲイン係数（重み）を定めることが望ましい。すなわち、「強調高域信号」は、入力音声信号に含まれる第１周波数よりも低い信号成分に基づいて得られる第１周波数よりも高い「高域信号」に、参照音声信号の大きさに対する基準音声信号の大きさの比率、に応じた重みを与えて得られる信号であることが望ましい。「高域信号」は、例えば、入力音声信号に含まれる第１周波数よりも低い信号成分を複製して得られる「複製信号」を、第１周波数よりも高い領域にシフト（周波数変換）して得られるものである。前述のように、空気伝搬された音声または標準的な音声の大きさに対する、利用者の身体を介して伝達された音声信号の大きさの比率が小さい周波数区間ｆほど、比率Ｇ（ｆ）が大きくなる傾向にある。このような比率Ｇ（ｆ）に基づいて重みを定めることにより、身体を伝達することに基づく減衰量の大きな周波数区間ｆの重みを大きくし、減衰量の小さな周波数区間ｆの重みを小さくできる。その結果、適切な周波数スペクトル（例えば、空気伝搬された音声や標準的な音声に近い周波数スペクトル）の擬似広帯域信号を得ることができる。このような比率Ｇ（ｆ）に応じた重みは、例えば、比率Ｇ（ｆ）に対して単調増加する関係にある重みである。例えば、γＧ（ｆ）をこの重みとしてもよい。ここで、γは０＜γ＜１を満たす実数の係数である。以下、図面を参照して本発明の第２実施形態を説明する。

【0041】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下で、集音システム２を装着した利用者１０００の発話音（音声）を集音する。図２に例示するように、本実施形態の集音システム２は、音質補正装置２１、スピーカ１２、マイクロホン１３、マイクロホン１４、筐体１５、およびイヤーチップ１６を有する。

【0042】

図５に例示するように、本実施形態の音質補正装置２１は、利用者の身体（第１身体）を介して伝達された音声信号（第１音声信号）に基づく入力音声信号に含まれるある周波数（第１周波数）よりも低い信号成分に基づく強調高域信号を、入力音声信号に含まれるこの周波数（第１周波数）よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、この擬似広帯域信号に基づく出力音声信号（第１出力音声信号）を出力する音質補正部２１１を有する。音質補正部２１１は、図６に例示する擬似広帯域化部２１１ａを有する。図６に例示するように、本実施形態の擬似広帯域化部２１１ａは、周波数分析部２１１ａａ、高域信号生成部２１１ａｂ、重み決定部２１１ａｃ、重み付け部２１１ａｄ、混合部２１１ａｅ、および逆変換部２１１ａｆを有する。

【0043】

＜音質補正処理＞
利用者１０００は集音システム２を装着し、マイクロホン１３で入力音声信号ａ（ｔ）を観測する。入力音声信号ａ（ｔ）は、擬似広帯域化部２１１ａの周波数分析部２１１ａａに入力される（図６）。周波数分析部２１１ａａは、入力音声信号ａ（ｔ）の周波数分析によって、入力音声信号ａ（ｔ）の入力音声信号Ａ（τ，ω）を得て出力する。入力音声信号Ａ（τ，ω）は、高域信号生成部２１１ａｂおよび混合部２１１ａｅに入力される。

【0044】

高域信号生成部２１１ａｂは、入力音声信号Ａ（τ，ω）に含まれるある周波数（第１周波数）ｆ１よりも低い信号成分に基づいて、周波数ｆ１よりも高い高域信号Ｐ（τ，ω_ｊ＋Ｋ）（入力音声信号に含まれる第１周波数よりも低い信号成分に基づいて得られる第１周波数よりも高い高域信号）を得て出力する。ただし、ｊ＝０，…，Ｊ－１であり、Ｊは正整数である。Ｋは正整数であり、ω_ｊ＋Ｋは周波数ｆ１よりも高い離散周波数を表す。例えば、高域信号生成部２１１ａｂは、Ａ（τ，ω）に含まれる周波数ｆ１より低い単数または複数の信号成分Ａ（τ，ω_ｊ）を複製して複製信号Ａｃ（τ，ω_ｊ）を得、複製信号Ａｃ（τ，ω_ｊ）を周波数ｆ１よりも高い周波数の信号に変換して高域信号Ｐ（τ，ω_ｊ＋Ｋ）を得る。周波数ｆ１は、例えば、２ｋＨｚ以上３ｋＨｚ以下の範囲に属する周波数である。また、離散周波数ω_０＋Ｋ，…，ω_Ｊ－１＋Ｋ（周波数ｆ１よりも高い高域信号Ｐ（τ，ω_ｊ＋Ｋ））は、例えば、３ｋＨｚ以上４ｋＨｚ以下の範囲に属する。

【0045】

高域信号Ｐ（τ，ω_ｊ＋Ｋ）は重み付け部２１１ａｄに入力される。また、重み決定部２１１ａｃは、高域信号Ｐ（τ，ω_ｊ＋Ｋ）に与える重みｈ（ω_ｊ＋Ｋ）を決定して出力する。重み決定部２１１ａｃは、例えば、標準的な音声のスペクトルに基づいて重みｈ（ω_ｊ＋Ｋ）を決定する。重みｈ（ω_ｊ＋Ｋ）は、重み付け部２１１ａｄに入力される。重み付け部２１１ａｄは、入力された高域信号Ｐ（τ，ω_ｊ＋Ｋ）に重みｈ（ω_ｊ＋Ｋ）を与えて（乗じて）、強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）＝ｈ（ω_ｊ＋Ｋ）Ｐ（τ，ω_ｊ＋Ｋ）（入力音声信号に含まれる第１周波数よりも低い信号成分に基づく強調高域信号）を得て出力する。強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）は混合部２１１ａｅに入力される。

【0046】

混合部２１１ａｅは、入力された入力音声信号Ａ（τ，ω）に強調高域信号Ｑ（ω_ｊ＋Ｋ）を混合して擬似広帯域信号Ｖ（τ，ω）を得る。すなわち、混合部２１１ａｅは、離散周波数ω＝ω_ｊ＋Ｋ（ただし、ｊ＝０，…，Ｊ－１）についてＶ（τ，ω_ｊ＋Ｋ）＝Ａ（τ，ω_ｊ＋Ｋ）＋Ｑ（τ，ω_ｊ＋Ｋ）と混合し（強調高域信号を入力音声信号に含まれる第１周波数よりも高い信号成分に基づく信号成分に混合し）、ω_０＋Ｋ，…，ω_Ｊ－１＋Ｋ以外の離散周波数ω＝ω_ｉについてＶ（τ，ω_ｉ）＝Ａ（τ，ω_ｉ）とし、擬似広帯域信号Ｖ（τ，ω）を得る。
Ｖ（τ，ω_ｊ＋Ｋ）＝Ａ（τ，ω_ｊ＋Ｋ）＋Ｑ（τ，ω_ｊ＋Ｋ）ｆｏｒ ω＝ω_ｊ＋Ｋ
Ｖ（τ，ω_ｉ）＝Ａ（τ，ω_ｉ）ｆｏｒ ω＝ω_ｉ

【0047】

擬似広帯域信号Ｖ（τ，ω）は、逆変換部２１１ａｆに入力される。逆変換部２１１ａｆは、擬似広帯域信号Ｖ（τ，ω）の逆変換によって、擬似広帯域信号Ｖ（τ，ω）を時間領域に変換した擬似広帯域信号ｖ（ｔ）を得、この擬似広帯域信号ｖ（ｔ）（擬似広帯域信号に基づく第１出力音声信号）を出力する。

【0048】

＜本実施形態の特徴＞
本実施形態の音質補正装置２１は、入力音声信号ａ（ｔ）に含まれる周波数ｆ１（第１周波数）よりも低い信号成分に基づく強調高域信号Ｑ（ω_ｊ＋Ｋ）を、入力音声信号ａ（ｔ）に含まれる周波数ｆ１（第１周波数）よりも高い信号成分に基づく信号成分Ａ（τ，ω_ｊ＋Ｋ）（すなわち、Ａ（τ，ω）に含まれる周波数ｆ１よりも高い信号成分Ａ（τ，ω_ｊ＋Ｋ））に混合して擬似広帯域信号Ｖ（τ，ω）を得、擬似広帯域信号Ｖ（τ，ω）に基づく擬似広帯域信号ｖ（ｔ）（第１出力音声信号）を出力する。前述のように、利用者１０００の身体を伝達した入力音声信号ａ（ｔ）は、その高域成分が減衰している。本実施形態では、その減衰した高域成分を強調高域信号Ｑ（ω_ｊ＋Ｋ）によって補う。これにより、利用者１０００の身体を伝達した音声を補正し、その明瞭性を向上させることができる。

【0049】

［第２実施形態の変形例１］
重み付け部２１１ａｄが、比率Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））（式（２））に応じた重みｈ（ω_ｊ＋Ｋ）を高域信号Ｐ（τ，ω_ｊ＋Ｋ）に与えて強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）を得てもよい。ただし、ω_ｊ＋Ｋ∈ｆである。このような強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）を入力音声信号Ａ（τ，ω）に混合することで、適切な周波数スペクトル（例えば、空気伝搬された音声や標準的な音声に近い周波数スペクトル）の擬似広帯域信号Ｖ（τ，ω）を得ることができる。

【0050】

この場合、擬似広帯域化部２１１ａは（図６）、さらに周波数分析部２１１ａｇを有する。周波数分析部２１１ａｇには入力音声信号ｙ（ｔ）が入力される。周波数分析部２１１ａｇは、入力音声信号ｙ（ｔ）の周波数分析によって、入力音声信号ｙ（ｔ）の入力音声信号Ｙ（τ，ω）を得て出力する。周波数分析部２１１ａｇから出力された入力音声信号Ｙ（τ，ω）、および、前述のように周波数分析部２１１ａａから出力された入力音声信号Ａ（τ，ω）は、重み決定部２１１ａｃに入力される。重み決定部２１１ａｃは、入力音声信号Ｙ（τ，ω），Ａ（τ，ω）に基づいて、比率Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））を得る。この処理は第１実施形態およびその変形例で説明した通りである。さらに、重み決定部２１１ａｃは、比率Ｇ（ｆ）に応じた重みｈ（ω_ｊ＋Ｋ）を得て出力する。例えば、重み決定部２１１ａｃは、ｈ（ω_ｊ＋Ｋ）＝γＧ（ｆ）を得て出力する。ただし、ω_ｊ＋Ｋ∈ｆである。重みｈ（ω_ｊ＋Ｋ）は重み付け部２１１ａｄに入力される。その他は、第２実施形態と同様である。

【0051】

［第２実施形態の変形例２］
第２実施形態の変形例１において、入力音声信号ｙ（ｔ）に代えて、利用者１０００またはその他のヒトまたはＨＡＴＳの口元やその他の位置に配置された外部マイクロホンで観測された入力音声信号ｘ（ｔ）が用いられてもよい。または、入力音声信号ｙ（ｔ）に代えて、予め収録された標準的な音声信号が用いられてもよい。

【0052】

［第２実施形態の変形例３］
混合部２１１ａｅが擬似広帯域信号Ｖ（τ，ω）（擬似広帯域信号に基づく第１出力音声信号）を擬似広帯域化部２１１ａの外部に出力してもよい。この場合、逆変換部２１１ａｆが省略されてもよい。

【0053】

［第３実施形態］
第３実施形態では、第１実施形態およびその変形例で説明した補正フィルタによる音質改善と、第２実施形態およびその変形例で説明した擬似広帯域化による音質改善と、を組み合わせる。すなわち、本実施形態の音質補正装置は、（１）利用者の身体（第１身体）を介して伝達された音声信号（第１音声信号）に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、（２）この入力音声信号に含まれる、ある周波数（第１周波数）よりも低い信号成分に基づく強調高域信号を、この入力音声信号に含まれる当該周波数（第１周波数）よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得、（３）補正音声信号および擬似広帯域信号に基づく音声信号（第１出力音声信号）を出力する。これにより、さらなる音質の向上が期待される。

【0054】

補正フィルタによる音質改善を行った後に、擬似広帯域化による音質改善を行ってもよいし、擬似広帯域化による音質改善を行った後に、補正フィルタによる音質改善を行ってもよい。しかし、好ましくは、補正フィルタによる音質改善を行った後に、擬似広帯域化による音質改善を行った方がよい。すなわち、音質補正装置が、第１音声信号に基づく入力音声信号に補正フィルタを適用して補正音声信号を得、この補正音声信号に含まれる第１周波数よりも低い信号成分に基づいて強調高域信号を得、この強調高域信号を補正音声信号に含まれる第１周波数よりも高い信号成分に基づく信号成分に混合して擬似広帯域信号を得ることが望ましい。補正フィルタは音声信号の大きさのみを変化させるものであるのに対し、擬似広帯域化は音声信号の一部を複製し、さらに周波数を変化させた後に重みを与えて混合するものである。そのため、補正フィルタによる音質改善の方が、擬似広帯域化による音質改善よりも、自然な音声を生成できる。よって、前者で音質改善を行い、そこで改善しきれなかった成分を後者で音質改善する方が、全体として自然な音質が得られる。

【0055】

また、減衰が大きな高域側の信号成分を補正フィルタによって補正するとＳＮＲの悪い補正音声信号が得られ、高域側の音質が低下してしまう。そのため、入力音声信号のうち、減衰が小さい低域側で補正フィルタによる音質改善を行い、減衰が大きい高域側に対して擬似広帯域化による音質改善を行ってもよい。すなわち、音質補正装置が、入力音声信号に含まれるある周波数（第２周波数）よりも低い信号成分に補正フィルタを適用して補正音声信号を得、この補正音声信号に含まれる第１周波数よりも低い信号成分に基づいて強調高域信号を得、この補正音声信号に含まれる第１周波数よりも高い信号成分に基づく信号成分に強調高域信号を混合して擬似広帯域信号を得、擬似広帯域信号に基づく第１出力音声信号を出力してもよい。

【0056】

以下、図面を参照して本発明の第３実施形態を説明する。ここでは、一例として、入力音声信号のうち、減衰が小さい低域側で補正フィルタによる音質改善を行った後、減衰が大きい高域側に対して擬似広帯域化による音質改善を行う例を説明する。

【0057】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下で、集音システム３を装着した利用者１０００の発話音（音声）を集音する。図２に例示するように、本実施形態の集音システム３は、音質補正装置３１、スピーカ１２、マイクロホン１３、マイクロホン１４、筐体１５、およびイヤーチップ１６を有する。図７に例示するように、本実施形態の音質補正装置３１は、音質補正部３１１を有し、音質補正部３１１は、補正フィルタ部１１１ａ、補正フィルタ生成部１１１ｂ、および擬似広帯域化部２１１ａを有する。

【0058】

＜事前処理＞
補正フィルタ生成部１１１ｂは、第１実施形態またはその変形例で説明した事前処理を実行する。事前処理で生成された補正フィルタｇまたは補正フィルタＧは補正フィルタ部１１１ａに設定される。また、補正フィルタｇまたは補正フィルタＧが既に設定されている場合、補正フィルタ生成部１１１ｂや事前処理が省略されてもよい。

【0059】

＜音質補正処理＞
マイクロホン１３で観測された入力音声信号ａ（ｔ）は補正フィルタ部１１１ａに送られる。補正フィルタ部１１１ａは、入力音声信号ａ（ｔ），…，ａ（ｔ－Ｍ＋１）に補正フィルタｇを適用して補正音声信号ｕ（ｔ）を得るか、ａ（ｔ）を時間周波数領域に変換して得られる入力音声信号Ａ（τ，ω）に補正フィルタＧを適用して補正音声信号Ｕ（τ，ω）を得、補正音声信号ｕ（ｔ）または補正音声信号Ｕ（τ，ω）を出力する。この処理は、第１実施形態またはその変形例で説明した通りである。ただし、本実施形態の例では、補正フィルタ部１１１ａは、入力音声信号に含まれる周波数（第２周波数）ｆ２よりも低い信号成分に補正フィルタｇまたは補正フィルタＧを適用して補正音声信号ｕ（ｔ）または補正音声信号Ｕ（τ，ω）を得、補正音声信号ｕ（ｔ）または補正音声信号Ｕ（τ，ω）を出力する。例えば、図８Ａおよび図８Ｂに例示するように、補正フィルタ部１１ａは、入力音声信号Ａ（τ，ω）のうち、周波数ｆ２よりも低い信号成分に補正フィルタＧを適用して補正音声信号Ｕ（τ，ω）を得て出力する。周波数ｆ２は、例えば、３ｋＨｚ以上４ｋＨｚ以下の範囲に属する周波数である。

【0060】

補正音声信号ｕ（ｔ）または補正音声信号Ｕ（τ，ω）は、擬似広帯域化部２１１ａに入力される。擬似広帯域化部２１１ａは、入力された補正音声信号ｕ（ｔ）を周波数分析して得られる補正音声信号Ｕ（τ，ω）、または、入力された補正音声信号Ｕ（τ，ω）を用い、擬似広帯域信号Ｖ（τ，ω）または擬似広帯域信号ｖ（ｔ）を得て出力する。すなわち、図８Ｂおよび図８Ｃに例示するように、擬似広帯域化部２１１ａは、補正音声信号Ｕ（τ，ω）に含まれる周波数ｆ１（第１周波数）よりも低い信号成分に基づいて強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）を得、補正音声信号Ｕ（τ，ω）に含まれるｆ１（第１周波数）よりも高い信号成分に基づく信号成分に強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）を混合して擬似広帯域信号Ｖ（τ，ω）を得る。その後、擬似広帯域信号Ｖ（τ，ω）の逆変換によって擬似広帯域信号ｖ（ｔ）が得られてもよい。これらの処理は、第２実施形態またはその変形例の「入力音声信号Ａ（τ，ω）」を「補正音声信号Ｕ（τ，ω）」に置換したものである。また、周波数ｆ１と周波数ｆ２は同一であってもよいし（例えば、図８Ａから図８Ｃ）、同一でなくてもよい。ただし、ｆ１≦ｆ２であることが望ましい。この場合、補正フィルタによる音質改善を行った成分のみに基づいて強調高域信号が生成されるからである。擬似広帯域化部２１１ａは、擬似広帯域信号Ｖ（τ，ω）または擬似広帯域信号ｖ（ｔ）（擬似広帯域信号に基づく第１出力音声信号）を出力する。

【0061】

＜本実施形態の特徴＞
本実施形態では、補正フィルタによる音質改善と擬似広帯域化による音質改善とを組み合わせることで、さらなる音質の向上が期待される。特に、減衰が大きな高域側ではＳＮＲが低下し、補正フィルタによる音質改善効果が表れにくいことがある。このような場合であっても、減衰が小さい低域側で補正フィルタによる音質改善を行い、高域側に対しては擬似広帯域化による音質改善を行うことで、広い帯域で音質を改善することが可能である。

【0062】

［第３実施形態の変形例１］
擬似広帯域化部２１１ａの重み決定部２１１ａｃ（図６）が、補正フィルタｇまたは補正フィルタＧを流用して重みｈ（ω_ｊ＋Ｋ）を決定してもよい。すなわち、音質補正部３１１の擬似広帯域化部２１１ａ（図７）が、補正フィルタ生成部１１１ｂから出力された補正フィルタｇまたは補正フィルタＧを用い、それが表す比率Ｇ（ｆ）に応じた重みｈ（ω_ｊ＋Ｋ）を、補正音声信号Ｕ（τ，ω）に含まれる周波数ｆ１（第１周波数）よりも低い信号成分に基づいて、周波数ｆ１よりも高い高域信号Ｐ（τ，ω_ｊ＋Ｋ）に与えて強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）を得てもよい。例えば、補正フィルタ生成部１１１ｂから出力された補正フィルタｇまたは補正フィルタＧは、擬似広帯域化部２１１ａ（図６）の重み決定部２１１ａｃに入力される。重み決定部２１１ａｃは、補正フィルタｇまたは補正フィルタＧに基づき、比率Ｇ（ｆ）＝ａｍｐ（Ｙ”（ｆ））／ａｍｐ（Ａ”（ｆ））に応じた重みｈ（ω_ｊ＋Ｋ）を決定して出力する。例えば、重み決定部２１１ａｃは、ｈ（ω_ｊ＋Ｋ）＝γＧ（ｆ）を得て出力する。ただし、ω_ｊ＋Ｋ∈ｆである。その後、重み付け部２１１ａｄは、入力された高域信号Ｐ（τ，ω_ｊ＋Ｋ）に重みｈ（ω_ｊ＋Ｋ）を与えて、強調高域信号Ｑ（τ，ω_ｊ＋Ｋ）＝ｈ（ω_ｊ＋Ｋ）Ｐ（τ，ω_ｊ＋Ｋ）を得て出力する。

【0063】

［第３実施形態の変形例２］
入力音声信号ａ（ｔ）のＳＮＲに応じて、周波数（第２周波数）ｆ２を切り替え、補正フィルタを適用する範囲を切り替えてもよい。すなわち、ＳＮＲが低い場合には周波数ｆ２を低くして補正フィルタを適用する範囲を狭くし、ＳＮＲが高い場合には周波数ｆ２を高くして補正フィルタを適用する範囲を広くしてもよい。つまり、前述のように、入力音声信号ａ（ｔ）は、利用者１０００の音声信号ｓ_ｉｎ（ｔ）（第１音声信号）と利用者１０００の周囲の雑音を表す雑音信号ｎ_ｉｎ（ｔ）（第１雑音信号）とを含む（図２）。ここで、入力音声信号ａ（ｔ）に含まれる雑音信号ｎ_ｉｎ（ｔ）に対する音声信号ｓ_ｉｎ（ｔ）の比率（ＳＮＲ）がＳＮＲ１（第１値）である場合の周波数ｆ２（第２周波数）を、入力音声信号ａ（ｔ）に含まれる雑音信号ｎ_ｉｎ（ｔ）に対す音声信号ｓ_ｉｎ（ｔ）の比率がＳＮＲ１よりも大きなＳＮＲ２（第２値）である場合の周波数ｆ２よりも低くしてもよい。
ｆ２（ｆｏｒＳＮＲ１）＜ｆ２（ｆｏｒＳＮＲ２＞ＳＮＲ１）
入力音声信号ａ（ｔ）のＳＮＲが低い場合、高域側に補正フィルタを適用しても雑音成分を増幅してしまい、かえって音質が低下してしまう場合がある。一方、入力音声信号ａ（ｔ）のＳＮＲが高い場合には、補正フィルタを適用する範囲を広くすることで音質を向上させることができる。よって、入力音声信号ａ（ｔ）のＳＮＲに応じて、周波数ｆ２を切り替えることで、全体として音質を向上させることができる。

【0064】

この場合、音質補正装置３１はさらに切り替え部３１１ａを有する（図７）。音質補正装置３１には、入力音声信号ａ（ｔ）が入力される。切り替え部３１１ａは、入力音声信号ａ（ｔ）に基づいて入力音声信号ａ（ｔ）のＳＮＲを推定する。切り替え部３１１ａは、例えば、所定の時間区間ｂ_３２ごとに入力音声信号ａ（ｔ）のＳＮＲを推定する。ＳＮＲの推定は、例えば、全時間区間での入力音声信号ａ（ｔ）の大きさの平均を雑音信号の大きさとみなし、時間区間ｂ_３２での入力音声信号ａ（ｔ）の平均を音声信号の大きさとみなして行う。または、標準的な音声信号の大きさを入力音声信号ａ（ｔ）に含まれる音声信号の大きさとみなしてＳＮＲを推定してもよい。切り替え部３１１ａは、推定した各時間区間ｂ_３２のＳＮＲに基づいて、その時間区間ｂ_３２での周波数ｆ２（第２周波数）を決定し、補正フィルタ部１１１ａに設定する。例えば、切り替え部３１１ａは、ＳＮＲが小さいほど周波数ｆ２を小さくしてもよいし、ＳＮＲが大きいほど周波数ｆ２を大きくしてもよいし、ＳＮＲが閾値ＴＨ２以下であるときにｆ２＝ＳＮＲ１とし、ＳＮＲが閾値ＴＨ２よりも大きいときにｆ２＝ＳＮＲ２（ただし、ＳＮＲ２＞ＳＮＲ１）としてもよい。

【0065】

［第３実施形態の変形例３］
入力音声信号ａ（ｔ）のＳＮＲに応じて、補正フィルタによる音質改善を行うか否かを切り替えてもよい。すなわち、入力音声信号ａ（ｔ）のＳＮＲが非常に小さい場合、補正フィルタを適用しても雑音成分を増幅してしまい、かえって音質が低下してしまうことがある。そのような場合には、補正フィルタによる音質改善を全く行わず、擬似広帯域化のみによって音質改善を行う方がよい。そのため、入力音声信号ａ（ｔ）のＳＮＲが小さい場合には、擬似広帯域化のみによって音質改善を行ってもよい。一方、入力音声信号ａ（ｔ）のＳＮＲが大きい場合には、補正フィルタによる音質改善のみを行うか、補正フィルタによる音質改善と擬似広帯域化による音質改善とを組み合わせてもよい。つまり、前述のように、入力音声信号ａ（ｔ）は、利用者１０００の音声信号ｓ_ｉｎ（ｔ）（第１音声信号）と利用者１０００の周囲の雑音を表す雑音信号ｎ_ｉｎ（ｔ）（第１雑音信号）とを含む（図２）。ここで、入力音声信号ａ（ｔ）に含まれる雑音信号ｎ_ｉｎ（ｔ）に対する音声信号ｓ_ｉｎ（ｔ）の比率（ＳＮＲ）がＳＮＲ１（第１値）である場合に、音質補正装置３１が、補正音声信号に基づかず、擬似広帯域信号に基づく出力音声信号（第１出力音声信号）を出力してもよい。一方、入力音声信号ａ（ｔ）に含まれる雑音信号ｎ_ｉｎ（ｔ）に対する音声信号ｓ_ｉｎ（ｔ）の比率（ＳＮＲ）がＳＮＲ１（第１値）よりも大きなＳＮＲ２（第２値）である場合には、音質補正装置３１が、補正音声信号に基づく出力音声信号（第１出力音声信号）を出力してもよい。

【0066】

この場合、音質補正装置３１はさらに切り替え部３１１ａを有する（図７）。音質補正装置３１には入力音声信号ａ（ｔ）が入力され、切り替え部３１１ａは、入力音声信号ａ（ｔ）に基づいて入力音声信号ａ（ｔ）のＳＮＲを推定する。切り替え部３１１ａは、例えば、所定の時間区間ｂ_３３ごとに入力音声信号ａ（ｔ）のＳＮＲを推定する。ここで、時間区間ｂ_３３のＳＮＲが閾値ＴＨ３以下であった場合、その時間区間ｂ_３３では補正フィルタ部１１１ａの処理は実行されず、第２実施形態またはその変形例で説明したような擬似広帯域化部２１１ａの処理が実行される。これにより、擬似広帯域化部２１１ａは、擬似広帯域信号ｖ（ｔ）または擬似広帯域信号Ｖ（τ，ω）（擬似広帯域信号に基づく第１出力音声信号）を出力する。一方、時間区間ｂ_３３のＳＮＲが閾値ＴＨ３よりも大きかった場合、その時間区間ｂ_３３では第１実施形態またはその変形例で説明したような補正フィルタ部１１１ａの処理が実行され、補正フィルタ部１１１ａは、補正音声信号ｕ（ｔ）または補正音声信号Ｕ（τ，ω）（補正音声信号に基づく第１出力音声信号）を出力する。あるいは、ＳＮＲが閾値ＴＨ３よりも大きかった場合、第３実施形態またはその変形例１，２の補正フィルタ部１１１ａおよび擬似広帯域化部２１１ａの処理が実行され、擬似広帯域化部２１１ａから擬似広帯域信号ｖ（ｔ）または擬似広帯域信号Ｖ（τ，ω）（擬似広帯域信号に基づく第１出力音声信号）が出力されてもよい。

【0067】

［第４実施形態］
音質補正装置が、第１実施形態から第３実施形態またはそれらの変形例で得られた補正音声信号または擬似広帯域信号に基づく出力音声信号（第１出力音声信号）と、雑音下で空気伝搬された音声信号（第３音声信号）に基づく出力音声信号（第２出力音声信号）とを、混合重み（ミックスゲイン）で重み付け混合した混合出力信号を出力してもよい。ここで、雑音が大きいのであれば、第１出力音声信号を優先した方が音質がよい。一方、雑音が小さいのであれば、第２出力音声信号を優先した方が音質がよい。そのため、雑音の大きさに応じて、混合重みで重みを調整する。すなわち、雑音が小さいときには第２出力音声信号の混合重みｒ２（ｂ）（ｒ２（ｂ）＞０）を重くし、雑音が大きいときには第１出力音声信号の混合重みｒ１（ｂ）（ｒ１（ｂ）＞０）を重くする。言い換えると、雑音の大きさがＬ１（第１レベル）であるときの第１出力音声信号の混合重みｒ１（ｂ）に対する第２出力音声信号の混合重みｒ２（ｂ）の比率ｒ２（ｂ）／ｒ１（ｂ）は、雑音の大きさがＬ１よりも大きなＬ２（第２レベル）であるときの第１出力音声信号の混合重みｒ１（ｂ）に対する第２出力音声信号の混合重みｒ２（ｂ）の比率ｒ２（ｂ）／ｒ１（ｂ）よりも大きい。
ｒ２（ｂ）／ｒ１（ｂ）（ｆｏｒＬ１）＞ｒ２（ｂ）／ｒ１（ｂ）（ｆｏｒＬ２）
Ｌ１＜Ｌ２
これにより、音質のよい混合出力信号が得られる。なお、ｂは時間区間を表すインデックスである。時間区間ｂが離散時間ｔと一対一で対応していてもよいし、時間区間ｂに複数の離散時間ｔが含まれていてもよい。以下、図面を参照して本発明の第４実施形態を説明する。

【0068】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下で、集音システム４を装着した利用者１０００の発話音（音声）を集音する。図２に例示するように、本実施形態の集音システム４は、音質補正装置４１、スピーカ１２、マイクロホン１３、マイクロホン１４、筐体１５、およびイヤーチップ１６を有する。

【0069】

図９に例示するように、本実施形態の音質補正装置４１は、音質補正部１１１（２１１，３１１）、雑音レベル推定部４１２、混合重み設定部４１３、および混合部４１４を有する。音質補正部１１１（２１１，３１１）は、第１実施形態から第３実施形態またはそれらの変形例の何れかで説明したものである。混合部４１４は、混合重み付け部４１４ａ，４１４ｂおよび合成部４１４ｃを有する。

【0070】

＜重み付け混合処理＞
マイクロホン１３で観測された入力音声信号ａ（ｔ）は、音質補正部１１１（２１１，３１１）に入力される。音質補正部１１１（２１１，３１１）は、前述のように補正音声信号ｕ（ｔ）または擬似広帯域信号ｖ（ｔ）（第１出力音声信号）を出力する。記載の簡略化のため、音質補正部１１１（２１１，３１１）から出力されるｕ（ｔ）およびｖ（ｔ）を出力音声信号ｄ（ｔ）（第１出力音声信号）と総称する。出力音声信号ｄ（ｔ）は混合重み付け部４１４ｂに入力される。

【0071】

マイクロホン１４で観測された入力音声信号ｙ（ｔ）＝ｓ_ｏｕｔ（ｔ）＋ｎ_ｏｕｔ（ｔ）（第２出力音声信号）またはマイクロホン１４’で観測された入力音声信号ｘ（ｔ）＝ｓ’_ｏｕｔ（ｔ）＋ｎ’_ｏｕｔ（ｔ）は、雑音レベル推定部４１２および混合重み付け部４１４ａに入力される。ここで、ｓ_ｏｕｔ（ｔ）およびｓ’_ｏｕｔ（ｔ）は第３音声信号に相当する。記載の簡略化のため、入力音声信号ｘ（ｔ）および入力音声信号ｙ（ｔ）を出力音声信号ｚ（ｔ）（第２出力音声信号）と総称する。

【0072】

雑音レベル推定部４１２は、出力音声信号ｚ（ｔ）に基づいて、時間区間ｂごとに出力音声信号ｚ（ｔ）の雑音レベル（例えば、騒音レベル）Ｌ（ｂ）を推定する。雑音レベルＬ（ｂ）は雑音の大きさまたはその推定値を表す。たとえば、雑音レベル推定部４１２は、時間区間ｂごとに出力音声信号ｚ（ｔ）の大きさ（例えば、振幅の絶対値やパワー）を時間平均し、時間区間ｂでの出力音声信号ｚ（ｔ）の大きさの時間平均値を雑音レベルＬ（ｂ）とする。雑音レベルＬ（ｂ）は混合重み設定部４１３に送られる。

【0073】

混合重み設定部４１３は、雑音レベルＬ（ｂ）に基づいて、出力音声信号ｄ（ｔ）（第１出力音声信号）の混合重みｒ１（ｂ）（ｒ１（ｂ）＞０）、および、出力音声信号ｚ（ｔ）（第２出力音声信号）の混合重みｒ２（ｂ）（ｒ２（ｂ）＞０）を設定する。混合重み設定部４１３は、雑音レベルＬ（ｂ）が小さいときには混合重みｒ２（ｂ）を重くし、雑音レベルＬ（ｂ）が大きいときには混合重みｒ１（ｂ）を重くする。混合重み設定部４１３は、例えば、雑音レベルＬ（ｂ）が小さいほど、比率ｒ２（ｂ）／ｒ１（ｂ）を大きくしてもよいし、雑音レベルＬ（ｂ）が大きいほど、比率ｒ２（ｂ）／ｒ１（ｂ）を小さくしてもよい。または、混合重み設定部４１３は、例えば、雑音レベルＬ（ｂ）が閾値ＴＨ４以下であるときに、比率ｒ２（ｂ）／ｒ１（ｂ）をＲ_{ｌａｒｇｅ}とし、雑音レベルＬ（ｂ）が閾値ＴＨ４よりも大きいときに、比率ｒ２（ｂ）／ｒ１（ｂ）をＲ_{ｓｍａｌｌ}としてもよい。ただし、０＜Ｒ_{ｓｍａｌｌ}＜Ｒ_{ｌａｒｇｅ}である。すなわち、雑音レベルＬ（ｂ）（雑音の大きさ）がＬ１（第１レベル）であるときの比率ｒ２（ｂ）／ｒ１（ｂ）は、雑音の大きさがＬ１よりも大きなＬ２（第２レベル）であるときの比率ｒ２（ｂ）／ｒ１（ｂ）よりも大きい。
ｒ２（ｂ）／ｒ１（ｂ）（ｆｏｒＬ１）＞ｒ２（ｂ）／ｒ１（ｂ）（ｆｏｒＬ２）
Ｌ１＜Ｌ２
混合重みｒ１（ｂ）は混合重み付け部４１４ｂに入力され、混合重みｒ２（ｂ）は混合重み付け部４１４ａに入力される。

【0074】

混合重み付け部４１４ｂは、時間区間ｂに属する出力音声信号ｄ（ｔ）に混合重みｒ１（ｂ）を乗じた重み付け音声信号ｒ１（ｂ）ｄ（ｔ）（ただし、ｔ∈ｂ）を得て出力する。混合重み付け部４１４ａは、時間区間ｂに属する出力音声信号ｚ（ｔ）に混合重みｒ２（ｂ）を乗じた重み付け音声信号ｒ２（ｂ）ｚ（ｔ）（ただし、ｔ∈ｂ）を得て出力する。重み付け音声信号ｒ１（ｂ）ｄ（ｔ），ｒ２（ｂ）ｚ（ｔ）は、合成部４１４ｃに入力される。合成部４１４ｃは、これらを以下の式（９）のように重み付け混合して混合出力信号ｗ（ｔ）を得て出力する。
ｗ（ｔ）＝ｒ１（ｂ）ｄ（ｔ）＋ｒ２（ｂ）ｚ（ｔ）（９）

【0075】

【0076】

［第４実施形態の変形例１］
第４実施形態では、音質補正装置４１が、時間領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置４１が、時間周波数領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置４１から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。

【0077】

［第４実施形態の変形例２］
混合重み付け部４１４ａが、出力音声信号ｚ（ｔ）に代え、出力音声信号ｚ（ｔ）にハイパスフィルタを適用して得られる出力音声信号ｚ’（ｔ）に混合重みｒ２（ｂ）を乗じた重み付け音声信号ｒ２（ｂ）ｚ’（ｔ）（ただし、ｔ∈ｂ）を得て出力してもよい。ハイパスフィルタのカットオフ周波数は、例えば、２ｋＨｚ以上４ｋＨｚ以下の範囲に属する周波数である。この場合、混合出力信号ｗ（ｔ）は以下の式（１０）のようになる。
ｗ（ｔ）＝ｒ１（ｂ）ｄ（ｔ）＋ｒ２（ｂ）ｚ’（ｔ）（１０）

【0078】

［第５実施形態］
図４等に例示したように、身体を伝達した音声信号であっても低域側では減衰量はさほど多くない。そのため、出力音声信号ｄ（ｔ）の低域側での音質は、外部の雑音の大きさにかかわらず比較的明瞭である。そのため、出力音声信号ｄ（ｔ）（第１出力音声信号）に含まれる周波数ｆ３（第３周波数）よりも低い信号成分の混合重みｒ１（ｂ）は、雑音の大きさにかかわらず一定であってもよい。例えば、出力音声信号ｄ（ｔ）に含まれる周波数ｆ３よりも低い信号成分の混合重みｒ１（ｂ）を１に固定してもよい。以下、図面を参照して本発明の第５実施形態を説明する。ここでは、混合重みｒ１（ｂ）を１に固定した例を説明する。

【0079】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下で、集音システム５を装着した利用者１０００の発話音（音声）を集音する。図２に例示するように、本実施形態の集音システム４は、音質補正装置５１、スピーカ１２、マイクロホン１３、マイクロホン１４、筐体１５、およびイヤーチップ１６を有する。

【0080】

図１０に例示するように、本実施形態の音質補正装置５１は、音質補正部１１１（２１１，３１１）、雑音レベル推定部４１２、ＨＰＦ（ハイパスフィルタ）部５１１、混合重み設定部５１３、および混合部５１４を有する。音質補正部１１１（２１１，３１１）は、第１実施形態から第３実施形態またはそれらの変形例の何れかで説明したものである。混合部５１４は、混合重み付け部４１４ａおよび合成部５１４ｃを有する。ＨＰＦ部５１１のハイパスフィルタのカットオフ周波数は、例えば、２ｋＨｚ以上４ｋＨｚ以下の範囲に属する周波数である。なお、本実施形態では、ＨＰＦ部５１１のハイパスフィルタのカットオフ周波数が周波数ｆ３（第３周波数）に相当する。

【0081】

＜重み付け混合処理＞
マイクロホン１３で観測された入力音声信号ａ（ｔ）は、音質補正部１１１（２１１，３１１）に入力される。音質補正部１１１（２１１，３１１）は、出力音声信号ｄ（ｔ）を出力する。出力音声信号ｄ（ｔ）は合成部５１４ｃに入力される。

【0082】

マイクロホン１４またはマイクロホン１４’で観測された出力音声信号ｚ（ｔ）は、雑音レベル推定部４１２およびＨＰＦ部５１１に入力される。雑音レベル推定部４１２は、雑音レベルＬ（ｂ）を推定して混合重み設定部５１３に送る。ＨＰＦ部５１１は、出力音声信号ｚ（ｔ）にハイパスフィルタを作用させた出力音声信号ｚ（ｔ）’（第２出力音声信号）を出力する。出力音声信号ｚ（ｔ）’は、混合重み付け部４１４ａに入力される。

【0083】

混合重み設定部５１３は、雑音レベルＬ（ｂ）に基づいて、出力音声信号ｚ’（ｔ）（第２出力音声信号）の混合重みｒ２（ｂ）（ｒ２（ｂ）＞０）を設定する。混合重み設定部５１３は、雑音レベルＬ（ｂ）が小さいときには混合重みｒ２（ｂ）を重くする。混合重み設定部５１３は、例えば、雑音レベルＬ（ｂ）が小さいほど、比率ｒ２（ｂ）を大きくしてもよいし、雑音レベルＬ（ｂ）が大きいほど、比率ｒ２（ｂ）を小さくしてもよい。または、混合重み設定部５１３は、例えば、雑音レベルＬ（ｂ）が閾値ＴＨ４以下であるときに、比率ｒ２（ｂ）をＲ_{ｌａｒｇｅ}とし、雑音レベルＬ（ｂ）が閾値ＴＨ４よりも大きいときに、比率ｒ２（ｂ）をＲ_{ｓｍａｌｌ}としてもよい。ただし、０＜Ｒ_{ｓｍａｌｌ}＜Ｒ_{ｌａｒｇｅ}である。すなわち、雑音レベルＬ（ｂ）（雑音の大きさ）がＬ１（第１レベル）であるときの比率ｒ２（ｂ）／ｒ１（ｂ）（ただし、ｒ１（ｂ）＝１）は、雑音の大きさがＬ１よりも大きなＬ２（第２レベル）であるときの比率ｒ２（ｂ）／ｒ１（ｂ）（ただし、ｒ１（ｂ）＝１よりも大きい。
ｒ２（ｂ）（ｆｏｒＬ１）＞ｒ２（ｂ）（ｆｏｒＬ２、Ｌ１＜Ｌ２）
混合重みｒ２（ｂ）は混合重み付け部４１４ａに入力される。

【0084】

混合重み付け部４１４ａは、時間区間ｂに属する出力音声信号ｚ’（ｔ）に混合重みｒ２（ｂ）を乗じた重み付け音声信号ｒ２（ｂ）ｚ’（ｔ）（ただし、ｔ∈ｂ）を得て出力する。重み付け音声信号ｒ２（ｂ）ｚ’（ｔ）は、合成部５１４ｃに入力される。合成部５１４ｃは、これらを以下の式（１１）のように重み付け混合して混合出力信号ｗ（ｔ）を得て出力する。
ｗ（ｔ）＝ｄ（ｔ）＋ｒ２（ｂ）ｚ’（ｔ）（１１）

【0085】

＜本実施形態の特徴＞
本実施形態では、補正音声信号または擬似広帯域信号に基づく第１出力音声信号と、雑音下で空気伝搬された音声信号に基づく第２出力音声信号とを、外部の雑音の大きさに応じた混合重みで重み付け混合する。ここで、外部の雑音が小さいときには空気伝搬された第２出力音声信号が優先され、外部の雑音が大きいときには身体を伝達された音声信号を音質補正部で補正した第１出力音声信号が優先される。低域側では、外部の雑音にかかわらず、身体を伝達された音声信号を音質補正部で補正した第１出力音声信号が使用される。低域側では身体を伝達された音声信号であってもさほど減衰せず、良い音質が期待される。これにより、雑音レベル推定部４１２での雑音レベルの誤判定等により、実際には出力音声信号ｚ（ｔ）のＳＮＲが低いにもかかわらず、大きな混合重みｒ２（ｂ）が設定されてしまっても、低域側では安定した音質を維持できる。

【0086】

［第５実施形態の変形例１］
第５実施形態では、音質補正装置５１が、時間領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置５１が、時間周波数領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置５１から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。

【0087】

［第５実施形態の変形例２］
出力音声信号ｚ（ｔ）のＳＮＲに基づいて、ＨＰＦ部５１１のハイパスフィルタのカットオフ周波数を切り替えてもよい。すなわち、出力音声信号ｚ（ｔ）のＳＮＲが大きいときには、ＨＰＦ部５１１のハイパスフィルタのカットオフ周波数を低くし、出力音声信号ｚ（ｔ）のＳＮＲが小さいときには、ＨＰＦ部５１１のカットオフ周波数を高くしてもよい。例えば、出力音声信号ｚ（ｔ）のＳＮＲがＳＮＲ１１であるときにカットオフ周波数をｆ１１とし、出力音声信号ｚ（ｔ）のＳＮＲがＳＮＲ１２（ただし、ＳＮＲ１２＜ＳＮＲ１１）であるときにカットオフ周波数をｆ１２（ただし、ｆ１２＞ｆ１１）としてもよい。あるいは、事前にある時間区間での混合出力信号ｗ（ｔ）のＳＮＲが最も高くなるように、カットオフ周波数が設定されてもよい。

【0088】

［第６実施形態］
第６実施形態でも、出力音声信号ｄ（ｔ）（第１出力音声信号）に含まれる周波数ｆ３（第３周波数）よりも低い信号成分の混合重みｒ１（ｂ）が、雑音の大きさにかかわらず一定である例を説明する。

【0089】

＜構成＞
図１に例示するように、本実施形態では、雑音環境下で、集音システム６を装着した利用者１０００の発話音（音声）を集音する。図２に例示するように、本実施形態の集音システム４は、音質補正装置６１、スピーカ１２、マイクロホン１３、マイクロホン１４、筐体１５、およびイヤーチップ１６を有する。

【0090】

図１１に例示するように、本実施形態の音質補正装置６１は、音質補正部１１１（２１１，３１１）、雑音レベル推定部４１２、ＨＰＦ（ハイパスフィルタ）部５１１，６１２、ＬＰＦ（ローパスフィルタ）部６１３、混合重み設定部４１３、および混合部６１４を有する。音質補正部１１１（２１１，３１１）は、第１実施形態から第３実施形態またはそれらの変形例の何れかで説明したものである。混合部６１４は、混合重み付け部４１４ａ，４１４ｂおよび合成部６１４ｃを有する。ＨＰＦ部５１１，６１２のハイパスフィルタおよびＬＰＦ部６１３のローパスフィルタのカットオフ周波数は、例えば、２ｋＨｚ以上４ｋＨｚ以下の範囲に属する周波数である。なお、本実施形態では、ＬＰＦ部６１３のローパスフィルタのカットオフ周波数が周波数ｆ３（第３周波数）に相当する。

【0091】

＜重み付け混合処理＞
マイクロホン１３で観測された入力音声信号ａ（ｔ）は、音質補正部１１１（２１１，３１１）に入力される。音質補正部１１１（２１１，３１１）は、出力音声信号ｄ（ｔ）を出力する。出力音声信号ｄ（ｔ）は、ＨＰＦ６１２およびＬＰＦ６１３に入力される。ＨＰＦ６１２は、出力音声信号ｄ（ｔ）にハイパスフィルタを作用させた出力音声信号ｄ’（ｔ）を出力する。出力音声信号ｄ’（ｔ）は、混合重み付け部４１４ｂに入力される。ＬＰＦ６１３は、出力音声信号ｄ（ｔ）にローパスフィルタを作用させた出力音声信号ｄ”（ｔ）を出力する。出力音声信号ｄ”（ｔ）は、合成部６１４ｃに入力される。

【0092】

マイクロホン１４またはマイクロホン１４’で観測された出力音声信号ｚ（ｔ）は、雑音レベル推定部４１２およびＨＰＦ部５１１に入力される。雑音レベル推定部４１２は、雑音レベルＬ（ｂ）を推定して混合重み設定部４１３に送る。混合重み設定部４１３は、雑音レベルＬ（ｂ）に基づいて、混合重みｒ１（ｂ）（ｒ１（ｂ）＞０）、および、混合重みｒ２（ｂ）（ｒ２（ｂ）＞０）を設定する。混合重みｒ１（ｂ）は混合重み付け部４１４ｂに入力され、混合重みｒ２（ｂ）は混合重み付け部４１４ａに入力される。ＨＰＦ部５１１は、出力音声信号ｚ（ｔ）にハイパスフィルタを作用させた出力音声信号ｚ（ｔ）’（第２出力音声信号）を出力する。出力音声信号ｚ（ｔ）’は、混合重み付け部４１４ａに入力される。

【0093】

混合重み付け部４１４ｂは、時間区間ｂに属する出力音声信号ｄ’（ｔ）に混合重みｒ１（ｂ）を乗じた重み付け音声信号ｒ１（ｂ）ｄ’（ｔ）（ただし、ｔ∈ｂ）を得て出力する。混合重み付け部４１４ａは、時間区間ｂに属する出力音声信号ｚ’（ｔ）に混合重みｒ２（ｂ）を乗じた重み付け音声信号ｒ２（ｂ）ｚ’（ｔ）（ただし、ｔ∈ｂ）を得て出力する。重み付け音声信号ｒ１（ｂ）ｄ’（ｔ），ｒ２（ｂ）ｚ’（ｔ）は、合成部６１４ｃに入力される。合成部６１４ｃは、重み付け音声信号ｒ１（ｂ）ｄ’（ｔ），ｒ２（ｂ）ｚ’（ｔ）と出力音声信号ｄ”（ｔ）を、以下の式（１２）のように重み付け混合して混合出力信号ｗ（ｔ）を得て出力する。
ｗ（ｔ）＝ｒ１（ｂ）ｄ’（ｔ）＋ｒ２（ｂ）ｚ’（ｔ）＋ｄ”（ｔ）（１２）

【0094】

＜本実施形態の特徴＞
本実施形態では、補正音声信号または擬似広帯域信号に基づく第１出力音声信号と、雑音下で空気伝搬された音声信号に基づく第２出力音声信号とを、外部の雑音の大きさに応じた混合重みで重み付け混合する。ここで、高域側では、外部の雑音が小さいときには空気伝搬された第２出力音声信号が優先され、外部の雑音が大きいときには身体を伝達された音声信号を音質補正部で補正した第１出力音声信号が優先される。低域側では、外部の雑音にかかわらず、身体を伝達された音声信号を音質補正部で補正した第１出力音声信号が使用される。低域側では身体を伝達された音声信号であってもさほど減衰せず、良い音質が期待される。これにより、雑音レベル推定部４１２での雑音レベルの誤判定等により、実際には出力音声信号ｚ（ｔ）のＳＮＲが低いにもかかわらず、大きな混合重みｒ２（ｂ）が設定されてしまっても、低域側では安定した音質を維持できる。

【0095】

［第６実施形態の変形例１］
第６実施形態では、音質補正装置６１が、時間領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力した。しかしながら、音質補正装置６１が、時間周波数領域において第１出力音声信号と第２出力音声信号とを混合重みで重み付け混合した混合出力信号を得て出力してもよい。また、音質補正装置６１から出力される混合出力信号は、時間領域の信号であってもよいし、時間周波数領域の信号であってもよい。

【0096】

［第６実施形態の変形例２］
出力音声信号ｚ（ｔ）のＳＮＲに基づいて、ＨＰＦ部５１１，６１２のハイパスフィルタのカットオフ周波数を切り替えてもよい。すなわち、出力音声信号ｚ（ｔ）のＳＮＲが大きいときには、ＨＰＦ部５１１のハイパスフィルタのカットオフ周波数を低くし、出力音声信号ｚ（ｔ）のＳＮＲが小さいときには、ＨＰＦ部５１１のカットオフ周波数を高くしてもよい。例えば、出力音声信号ｚ（ｔ）のＳＮＲがＳＮＲ１１であるときにカットオフ周波数をｆ１１とし、出力音声信号ｚ（ｔ）のＳＮＲがＳＮＲ１２（ただし、ＳＮＲ１２＜ＳＮＲ１１）であるときにカットオフ周波数をｆ１２（ただし、ｆ１２＞ｆ１１）としてもよい。あるいは、事前にある時間区間での混合出力信号ｗ（ｔ）のＳＮＲが最も高くなるように、カットオフ周波数が設定されてもよい。

【0097】

［第７実施形態］
音質補正装置が、マイクロホン１３で観測された入力音声信号ａ（ｔ）のＳＮＲと、マイクロホン１４で観測された入力音声信号ｙ（ｔ）のＳＮＲとを比較し、入力音声信号ａ（ｔ）のＳＮＲの方が入力音声信号ｙ（ｔ）のＳＮＲよりも高い場合にｄ（ｔ）を出力し、そうでない場合に入力音声信号ｙ（ｔ）を出力してもよい。ＳＮＲの推定は、例えば、全時間区間での入力音声信号ａ（ｔ）（または入力音声信号ｙ（ｔ））の大きさの平均を雑音信号の大きさとみなし、時間区間ｂ_３２での入力音声信号ａ（ｔ）（または入力音声信号ｙ（ｔ））の平均を音声信号の大きさとみなして行う。または、標準的な音声信号の大きさを、入力音声信号ａ（ｔ）（または入力音声信号ｙ（ｔ））に含まれる音声信号の大きさとみなしてＳＮＲを推定してもよい。

【0098】

また、音質補正装置が、周波数区間ごとに、マイクロホン１３で観測された入力音声信号ａ（ｔ）のＳＮＲと、マイクロホン１４で観測された入力音声信号ｙ（ｔ）のＳＮＲとを比較し、周波数区間ごとに、入力音声信号ａ（ｔ）のＳＮＲの方が入力音声信号ｙ（ｔ）のＳＮＲよりも高い場合にｄ（ｔ）を出力し、そうでない場合に入力音声信号ｙ（ｔ）を出力してもよい。

【0099】

［ハードウェア構成］
各実施形態における音質補正装置１１，２１，３１，４１，５１，６１は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。すなわち、各実施形態における音質補正装置１１，２１，３１，４１，５１，６１は、例えば、それぞれが有する各部を実装するように構成された処理回路（processing circuitry）を有する。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

【0100】

上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

【0101】

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0102】

各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【0103】

［その他の変形例］
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各実施形態では、音質補正装置１１，２１，３１，４１，５１，６１が集音システム１，２，３，４，５，６に組み込まれていた。しかし、集音システム１，２，３，４，５，６に音質補正装置１１，２１，３１，４１，５１，６１が組み込まれておらず、音質補正装置１１，２１，３１，４１，５１，６１が集音システム１，２，３，４，５，６の外部に配置されていてもよい。

【0104】

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

【符号の説明】

【0105】

１～６集音システム
１１～６１音質補正装置
１１１～３１１音質補正部
１１１ａ補正フィルタ部
１１１ｂ補正フィルタ生成部
２１１ａ擬似広帯域化部
３１１ａ切り替え部
４１４～６１４混合部

【図1】