特開2022-48050 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社三井光機製作所の特許一覧

特開2022-48050マスク音声改良装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022048050

(43)【公開日】2022-03-25

(54)【発明の名称】マスク音声改良装置

(51)【国際特許分類】

G10L 21/007 20130101AFI20220317BHJP

A41D 13/11 20060101ALI20220317BHJP

A62B 18/08 20060101ALI20220317BHJP

【ＦＩ】

G10L21/007

A41D13/11 Z

A62B18/08 A

【審査請求】未請求

【請求項の数】5

【出願形態】書面

(21)【出願番号】P 2020167324

(22)【出願日】2020-09-14

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ブルートゥース

(71)【出願人】

【識別番号】515333271

【氏名又は名称】株式会社三井光機製作所

(72)【発明者】

【氏名】三井辰郎

(72)【発明者】

【氏名】久米田琢磨

(72)【発明者】

【氏名】柴田悟

【テーマコード（参考）】

2E185

【Ｆターム（参考）】

2E185AA07

2E185BA20

2E185DA17

(57)【要約】

【課題】マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出す音声音質改良装置を提供する。
【解決手段】この発明に係るマスク会話音改良装置は、マスクのメッシュ径が略５μｍ以下のマスクを介した音声入力に対し、略２ＫＨ以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設ける。また、前記周波数特性補正手段の出力信号よりマスク無しでの音声信号Ｘ（ｂ）とマスクを介しての音声信号Ｘ（ａ）とを減算し、その差分信号Ｇ（ｃ）を生成する第一差分信号生成手段と、前記差分信号Ｇ（ｃ）とマスクを介しての音声信号Ｘ（ａ’）とを減算し、その差分信号αを生成する第二差分生成手段とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

マスクのメッシュ径が略５μｍ以下のマスクを介した音声入力に対し、略２ＫＨ以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設けたことを特徴とするマスク音声改良装置。

【請求項2】

マスク無しでの音声信号Ｘ（ｂ）とマスクを介しての音声信号Ｘ（ａ）とを減算し、その差分信号Ｇ（ｃ）を生成する第一差分信号生成手段と、
前記差分信号Ｇ（ｃ）とマスクを介しての音声信号Ｘ（ａ’）とを減算し、その差分信号αを生成する第二差分生成手段とを備えることを特徴とする請求項１記載のマスク音声改良装置。

【請求項3】

前記差分信号αは、前記装置の利用者により予め学習させ、記憶させることを特徴とする請求２記載のマスク音声改良装置。

【請求項4】

前記差分信号αは、利用者の特性（老若男女、年齢）または前記マスクの材質に応じたパターン毎にモデル化されていることを特徴とする請求項３記載のマスク音声改良装置。

【請求項5】

請求項１ないし請求項４記載のマスク音声改良装置の一部または全部を組み込んだマスクおよびマスク用付属装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、不明瞭な音声の音質を改善する音質改善装置であって、さらに詳しくは、マスクをつけて会話する場合の音声を明瞭化するマスク音声改良装置に関する。

【背景技術】

【0002】

近年、感染症の蔓延により世界的にパンデミック宣言が世界保健機構（ＷＨＯ）より発せられウイルス感染防止のためにマスク着用が常態化している。多くのマスクは感染症の病原菌であるウイルス類、細菌類、真菌類やその飛沫拡散を防止したり、侵入したりするのを防ぐために不織布などを材料とする家庭用マスクでは５μｍ程度のフィルターを形成している。また、サージカルマスクや産業用マスクとして使用されるＮ９５、ＤＳ２、ＫＮ９５などは、粒子径３μｍ以下で９５％以上の濾過効率を上げる構造となっている。

【0003】

そのためにマスクを着用して会話する場合、音声が不明瞭となり不都合が生じている。また、マスク着用は、手術、航空機、工事現場、建設現場、ごみ処理、工場など騒音が激しい現場などでも会話、通信する必要があり、特にこれらの現場での会話、通信は、正確さを求められる。また、日常生活や社会生活においてもスマートフォンや各種電子機器の入力手段として音声入力が普及しており、マスク装着時でも明瞭な発音を行う必要がある。

【0004】

このようなマスク装着時に不明瞭となる音声を改善するために従来種々の技術が開示されている。音声を明確にするためにマスクの口部分だけフィルターのメッシュを荒くしたり、穴をあけたりする工夫が数多くなされている（特許文献１および特許文献２など）。しかし、このような技術では音声を明瞭化する代わりにマスクとしてのフィルター効果を犠牲にしている。また、マスク内にマイクを備えマイク入力音声を拡大する方法として特許文献３などがある。また特許文献４では、マスクの外側近傍の咽頭部にマイクを備え音声拡大している。このような方法は咽頭部の振動音を拡大するためマイクの取り付けや構成が複雑となる。更に、音声成分に重畳された雑音を除去して明瞭化する方法としてスペクトル・サブトラクション（ＳＳ）法、ウェルナーフィルター法（コムフィルター法）などがあるが、音声に重畳されたノイズ成分を除去してもマスクを介しての音声明瞭度の向上には難があった。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１７－２４５４号公報

【特許文献2】特開２０１９－２６９９９号公報

【特許文献3】特開２０１７－５０５９４号公報

【特許文献4】特開２００２－２７１８８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

従来技術においては、マスクの繊維構造を口の部分だけ粗くしたり、穴をあけるなどしてマスク音声をより明瞭にしているがマスクの防菌、防塵、フィルター効果を低下させていたり、単にマイクロフォンで音声を収集して拡大化しているだけであり、マスク装着時の音声を明瞭化するには至っていない。そのため、手術時や騒音時の工事現場などで重要な伝達事項を行う場合やスマーフォンなどに音声入力するような場合は、マスクを外して伝えるような状況が生じている。そのため、マスクを装着した状態でマスクのフィルター効果は犠牲にせず、会話音を明瞭にすることが求められている。

【0007】

この発明は、上述の状況に鑑みて提供されるものであって、以下のような音声明瞭化装置およびそのような装置を応用したマスクの提供を目的とする。
（１）マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出す音声音質改良装置。
（２）会話音声を明瞭化する装置を組み込んだマスクおよびマスク音声改良補助装置。

【課題を解決するための手段】

【0008】

前述の課題を解決するために、本発明に係るマスク音声改良装置は、マスクのメッシュ径が略５μｍ以下のマスクを介した音声入力に対し、略２ＫＨ以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設けたことを特徴とする。

【0009】

また、本発明に係るマスク音声改良装置は、前記周波数特性補正手段の出力信号よりマスク無しでの音声信号Ｘ（ｂ）とマスクを介しての音声信号Ｘ（ａ）とを減算し、その差分信号Ｇ（ｃ）を生成する第一差分信号生成手段と、前記差分信号Ｇ（ｃ）とマスクを介しての音声信号Ｘ（ａ’）とを減算し、その差分信号αを生成する第二差分生成手段とを備えることを特徴とする。

【0010】

また、本発明に係るマスク音声改良装置において、前記差分信号αは、前記装置の利用者により予め学習させ、記憶させることができる。

【0011】

また、本発明に係るマスク音声改良装置において、前記差分信号αは、利用者の特性（老若男女、年齢）または前記マスクの材質に応じたパターン毎にモデル化されて利用することができる。

【0012】

また、本発明に係るマスク音声改良装置の一部または全部を組み込んだマスクおよびマスク用付属装置として利用することができる。

【発明の効果】

【0013】

本発明によるマスク音声改良装置およびそのような装置を組み込んだマスクを利用することにより、マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出すことが可能となる。このことにより、手術中、工事・建設現場、騒音現場などの雑音環境下であってもマスクをしたままで会話、通信が容易となり、ネットワークを介してスマーフォンなどへの配信や音声入力が容易となる。

【図面の簡単な説明】

【0014】

【図1】本発明を適用した、実施例１の態様を示す概略ブロック説明図である。

【図2】フォルマント周波数特性の説明図である。

【図3】本発明を適用した、実施例２の態様を示す概略ブロック説明図である。

【図4】実施例における周波数特性補正例の説明図である。

【図5】本発明に適用しうるデュアルマイク取り付け例を示す図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施形態について、図面を参照して詳細に説明する。なお、以下の実施例に記載されているいずれの図面も本発明の説明用に概略的または模式図として描かれており、実際の寸法や形状は特に限定するものではない。また、構成要素の回路構成、寸法、材質、形状、その相対配置等は、特に記載がない限り発明の技術的範囲をそれらのみに限定する趣旨のものではない。

【0016】

音声明瞭化および音声ノイズ低減法としては、人の音声帯域に相当するフィルターを使用して音声部分のみを強調するフィルター法、雑音スペクトルの平均値を推定し、雑音を含む元信号から引いてノイズ低減するスペクトラル・サブトラクション法、櫛形フィルターや線形フィルターでノイズ分を低減するウィーナーフィルタリング法などが提案されている。このようなノイズ低減法は、モーター音、電車のノイズ、などコンスタントな定常ノイズおよび常に変化する風音、衝撃音、工事現場の雑音などの非定常ノイズに対して適用され、ノイズ音の低減化は効果的であるが、マスク音声そのものの明瞭化に対してはノイズ低減だけでは不十分である。マスク装着時の音声（以下「マスク音またはマスク音声」という）の認識は、定常ノイズおよび非定常ノイズの低減に加えてマスク音声の明瞭化を考慮する必要がある。マスクはその材質により会話音質、音圧レベルが大きく異なる上に、利用者の違い（老若男女や年齢など）により会話周波数帯域も異なっている。

【0017】

家庭用マスクの多くは不織布、ガーゼ、綿材が一般的であるが、近来、ポリプロピレン、ポリウレタンなどの汎用樹脂の製品およびそのようなマスク製品に吸汗、速乾、防菌、肌ざわり感などの機能を加工した機能性マスクなどが市販されており、これらの素材により会話音声の明瞭度が違ってくる。また、サージカルマスクや産業用マスクでは防菌性、防塵性を重要視しているため、マスクを介しての会話は、極めて困難である。そのため、サージカルマスクや産業用マスクを着用しての会話はマイクを介し増幅して行われる必要がある。

【0018】

最も一般的である不織布による家庭用マスクでは、前述の通り約５μｍ程度の網目（メッシュ）径であり、市販の汎用不織布マスクによる音声遮断特性を測定すると略２ＫＨｚ以下の周波数帯域を吸音せず、２ＫＨｚ以上の周波数帯域が吸音（遮音）されることが分かった。また、医療用、工事用などの産業用のマスクにおいてはより網目が細かく３μｍ以下となる場合がある。このようなマスクにおいては、材質にもよるが、不織布マスクより全体として音声レベルがほぼ全帯域に亘って遮音される傾向にあることが分かった。このためマスク装着時の音声は高音域が減衰する「こもり音」として聞こえる傾向にあり、明瞭性に欠ける音声となる。この「こもり音」は、マスクの材質や網目の大きさ、利用者の音声の特性などにより異なってくる。

【0019】

人の音声の音源は、声帯の振動である。声帯振動により発せられた声は声道（咽頭喉頭）を通り、口腔、鼻腔、副鼻腔などの共鳴により口から発声される。口から発生された音声は、多くの倍音を含んでいる。会話における人の音声明瞭化を示す要素としては、客観的指標（音質、音声の高さ、音圧、ノイズなど）と主観的指標（言語、アクセント、話す速度、話の間など）とを考慮する必要があるが、マスク音の明瞭化の場合、主として客観的指標の改善に注目する。特に、マスク音声による会話では話者の音質を大きく変更しないで、誰が話しているかを認識しうるようにすることも重要である。そのため音声合成による音声明瞭化手段とは異なるアプローチを行う。

【0020】

マスク音声による「こもり音」の改善は、上述の音質、音声の高さ（発生音の周波数特性）、音圧（声の強弱レベル）およびノイズ除去がポイントなる。ここでの音質改善には、聞き手の認識率を上げるための音質改善であり、特に母音（あ、い、う、え、お）の識別に重要とされるフォルマント識別をどの程度まで含めるかを検討する。従来のアナログ電話回線での音声帯域は、母音の第一フォルマントおよび第二フォルマントが大きく左右されるので第二フォルマントまでを十分カバーする帯域を確保するという根拠に基づき、３００Ｈｚから３．４ＫＨｚであるが、２．５ＫＨｚ附近から減衰しており、第三フォルマント以上を十分カバーする帯域とはなっていない。マスク音声の「こもり音」においては、この母音認識の音質を改善する必要がある。

【0021】

図２は、例示的にいくつかの母音のスペクトル分解を示している。これに女性歌手が発声する母音「い」を、基音（Ｘ_ｆ１）４４０Ｈｚで発声したフォルマント周波数で表すと、第三フォルマント（Ｘ_ｆ３）の３ＫＨｚ付近にピークが現れている。この第三フォルマント（Ｘ_ｆ３）は、第二フォルマント以上のレベルである。しかし、それ以上の高いフォルマントにおける周波数ではほぼ目覚ましいピークは生じていない。これは、主に口腔、鼻腔による基音の共鳴により第三フォルマントにピークが生じたものである。つまり、音声の基音に対し少なくとも第三フォルマントは音質に大きく寄与していることが分かる。

【0022】

一般的に言われている音声帯域の中心帯域は、男性が１００から２００Ｈｚ、女性が２００から４００Ｈｚである。これから、第三フォルマントの周波数までまで帯域を確保しつつ、不織布マスク音では発声音が減衰する２ＫＨｚ以上のレベルを持ち上げ、第三フォルマントを含む３ＫＨｚ以上で４．５ＫＨｚ程度までは維持する方が望ましい。それ以上の高域周波数では、音声認識率は向上しないだけでなく、音割れやノイズ的な耳障りな音声として認識されるため減衰してもかまわない。また、医療用、工事用などのフィルター網目（メッシュ）がより細かいマスク音は、マスク材質にもよるが一般的に音圧レベルが低下するのに加えて、フォルマント基音の周波数が若干低下するため、不織布マスクより全体の音圧レベルを上げると共に高域のピーキングをより高くする方が望ましい。

【0023】

マスク音の明瞭度向上には、上記高音域の補正に加え、ノイズ抑制も大きな要素となる。医療用、工事用などのサージカルマスクのマスク音では、音圧レベルが低いため、単純に音圧レベルを上げると環境ノイズも増幅され、マスク音の明瞭度が大幅に下がってしまう。手術室や工事現場での環境ノイズとしては、空調モーター音、施術機器やバイタル測定器の警告音、工事破壊音、風切り音、電車、車などのノイズが定常ノイズや衝撃ノイズとして現れる。これらの環境ノイズ除去には、種々の方法が既に提案されている。代表的な手法としては、追加マイクにより外部音を取り込み、取り込んだ外部音を出力音から差分をとりだすアクティブノイズ制御（ＡＮＣ：ＡｃｔｉｖｅＮｏｉｓｅＣｏｎｔｒｏｌ）法がある。また、定常ノイズが多く含まれる場合であればパッシブノイズキャンセル（ＣＶＣ：ＣｌｅａｒＶｏｉｃｅＣａｐｔｕｒｅ）法といわれる特定周波数を除去する方法もある。

【0024】

これらノイズキャンセルはマスクの利用環境に応じ、ノイズの多い場合や環境ノイズが複雑な場合はＡＮＣ法を使用し、特定の定常ノイズ抑制の場合は、ＣＶＣを使用しても良い。また、マスク音の明瞭化の場合、音声のみを取り出すのが目的であるため、後述するようにデュアルマイクを使用して主として音声のみを取り出す方法も考えられる。

【実施例0025】

上述した知見に基づき本発明の具体的実施例を説明する。図１は、本発明を適用した、実施例１の態様を示す概略ブロック説明図である。マスク音改良装置は、マスク音補正回路１と差分処理回路２とを含んで構成される。本装置を使用するにあたっては、予めマスク装着時の音声（マスク音）とマスク無し直接音とのサンプル音取得によりマスク固有の「こもり音」成分特性を取り出す。そのために、利用者は、マスクの有無の状態で適当な会話音（例えば、あ、い、う、え、お、など）を発声し音声サンプルを取得する。この音声サンプルは、マスク音（ａ）とマスク無し直接音（ｂ）で同じ会話音をマイク１０により取得するが、主にマスクによる遮蔽音声の成分特性を取得するためのもので通常の会話音声でも良く、両方の位相合わせも必要でない。

【0026】

マスク音（ａ）とマスク無し直接音（ｂ）とはスイッチ１１により切り替える。マイク１０により取り出した入力音は会話音声サンプルを集音するが、周辺雑音も合わせ含んでいる。入力処理手段１２においては、入力信号が増幅され、平滑化されると共にマスク音（ａ）とマスク無し直接音（ｂ）との大凡のレベル合わせを行う。また、入力処理手段１２は、ＡＬＣ（ＡｕｔｏｍａｔｉｃＬｅｖｅｌＣｏｎｔｒｏｌ）回路を含んでおり、それぞれの音声信号が歪まないようにレベル合わせを行う。その出力は、ノイズ抑制手段１３へ供給される。この段階でのノイズ抑制は、バズ音や衝撃音ノイズを取り除くものでＣＶＣ（ＣｌｅａｒＶｏｉｃｅＣａｐｔｕｒｅ）などのパッシブノイズキャンセル法が適用できる。

【0027】

ノイズ抑制手段１３の出力は、周波数特性補正手段１４に供給される。この周波数特性補正手段１４においては、前述の通り、家庭用不織布マスクの場合、網目（メッシュ）の大きさに応じて減衰される高域成分（略２ＫＨｚ以上）を持ち上げ、第三フォルマント成分を含み、それより高次のフォルマントをカットするように設定する。例示として、メッシュ５μｍ程度の不織布マスクの場合、略２ＫＨｚから４．５ＫＨｚの周波数ピーキング補正特性が好ましい結果を得ている。また、医療用、工事用などのメッシュ径が不織布より細かく３μｍより細いマスクの場合、前述の通り、全体の音圧レベルを上げつつ高域周波数のピーキングをより高い特性とする。それぞれの特性は、マスク材質やメッシュ径の大きさにより異なるため、サンプリングの段階ではいくつかの周波数補正特性を適用して適切なものを選択する。図４では、いくつかのマスクサンプルで施した周波数特性補正例（レベルは基準に対する相対的大きさであり、絶対量でない）を示している。マスク音補正回路１で補正された音声信号は、次段の差分処理回路２の入力側Ａへ供給される。

【0028】

周波数特性補正手段１４により周波数補正を施されたマスク音Ｘ（ａ）とマスク無し直接音Ｘ（ｂ）とは、スイッチ１５によりマスク音記憶回路１６およびマスク無し直接音記憶回路１７とにそれぞれ記憶・保持される。ここで、入力時のスイッチ１１とスイッチ１５とは同期している。保持されたマスク音Ｘ（ａ）とマスク無し直接音Ｘ（ｂ）とは減算回路１８および差分信号生成手段１９により差分信号Ｇ（ｃ）を取り出す。この差分信号Ｇ（ｃ）は、マスクの材質、利用者により異なるためそれぞれの利用者の固有レファレンスとして使用する。また、このレファレンスは、おおまかな差分「こもり音」成分であるため何度か学習しながらそれぞれの利用者に適応した差分値を見出すことが望ましい。そのため、記憶学習手段２０において利用の都度レファレンスを取得し、都度更新しながらレファレンス信号を形成する。

【0029】

このようにして取得した差分信号Ｇ（ｃ）は、利用者の特性（老若男女、年齢など）およびマスクの特性（メッシュ径、材質など）によりモデル化回路２１において標準パターンを作成する。つまり、それぞれの差分信号の特性は利用者の特性、マスクの特性、利用環境に応じて適正モデル信号（ａ，ｂ，ｃ，ｄ，・・・）を作成し、用意することができる。このように予め作成した、マスク音Ｘ（ａ）とマスク無し音Ｘ（ｂ）との差分は、通常のマスク音声Ｘ（ａ）に対する差分信号のレファレンスとして使用する。ここで、記憶学習手段２０およびモデル化回路２１によるレファレンス信号学習機能は、予め利用者の特性やマスク特性が適切に把握されていれば必ずしも必須というものでない。

【0030】

生成した差分信号レファレンスＧ（ｃ）は利用者の特性、マスクの特性、利用環境の音声およびノイズファクターを含んだものとなっている。このため、実際のマスク着用時のマスク音Ｘ（ａ’）と差分信号レファレンスＧ（ｃ）との差分信号（α）を減算回路２２および差分信号生成手段２３により取り出すことにより、得られた差分信号（α）は、マスク音に付加された余剰ノイズ成分をある程度除去した、直接音に近い音声を取得できる。差分信号（α）は、出力信号としてスイッチ２６を介して出力手段２７へ供給される。

【0031】

しかし、レファレンス差分信号Ｇ（ｃ）におけるマスク音Ｘ（ａ）と実際のマスク着用時のマスク音Ｘ（ａ’）とは会話音声内容、使用時点が異なるためその差分残余信号［Ｘ（ａ）－Ｘ（ａ’）］が打ち消されることはない。しかし、記憶学習手段２０では、差分残余信号を評価し、都度入力されたサンプルレファレンスの差分残余信号が最小化されたものを記憶するように設定される。そのため、差分信号（α）は、マスク無し直接音Ｘ（ｂ）とは異なるものの、差分信号を使用する都度サンプル信号を取得し、記憶学習手段２０により記録学習を重ねることで差分残余信号［Ｘ（ａ）－Ｘ（ａ’）］を評価し、最小化するように常に更新する。

【0032】

このようにして取得した差分出力信号は、出力信号（α）２４として出力する。また、差分出力信号（α）を生成せず音声出力（β）２５を出力する場合も生じる。この音声出力（β）２５は、マスクによる「こもり音」がノイズ抑制手段１３および周波数補正手段１４のみで十分補正され会話に支障が生じない場合などに用いられる。状況や利用環境に応じてスイッチ２６により差分出力信号（α）２４と直接音声出力（β）２５とは選択的に出力され、出力手段２７へ供給される。

【0033】

出力手段２７では、増幅器によりスピーカ２８で会話音声として出力する。また、この出力信号を通信手段２９によりネットワーク３０を介して他の機器との通信や話者自信のヘッドセットやスピーカとの無線通信を行うように設定することもできる。この通信手段２９はＷｉＦｉやブルートゥースなどの通信手段により達成することができる。

【0034】

出力手段２７の出力信号をと協働して、種々のノイズ除去手段３１とを組み合わせることでより明瞭化した音声を得ることができる。このノイズ除去手段３１は、前述のマスク音に適用されるノイズ抑制手段１３や差分信号生成手段２３で除去が不十分であったノイズ音を除去するものである。マスクの利用環境により環境ノイズは異なるもので、ノイズの種類が特定できる場合は、特定されたノイズに的確なノイズ除去手段を組み合わせることが望ましい。例えば、電源由来ノイズ（ブーンノイズ）やモーターノイズ音などはノッチフィルターで電源特定周波数を除去し、サーノイズやホワイトノイズなどは適応フィルターなどで音声のみを区間抽出する。また、ポップノイズや工事現場などの衝撃ノイズは、リミッターで除去する。多くの種類のノイズに適用できるノイズ除去としては、アクティブノイズ制御（ＡＮＣ）が望ましい。ＡＮＣでは、環境音取得マイク３２により環境ノイズを取得し、環境ノイズ成分を逆位相として出力信号に印加することで環境ノイズを低減するもので、市販の汎用ＡＮＣのいずれであっても適用できる。

【実施例0035】

図３は、本発明を適用した、実施例２の態様を示す概略ブロック説明図である。図１においてマイクが単一であるのに対し、実施例２においてはマイク２個を使用したデュアルマイク方式の具体例である。２個のマイク４１（Ｍ－Ｒ）およびマイク４２（Ｍ－Ｌ）は、図５に示すように、左右のヘッドセットまたはマスクやフェイス・シールドにマイクをそれぞれ取り付けたり、肩掛け方式で首周りに取り付けても構わない。いずれの場合も発声される口が２個のマイクの中央に位置するように設定する。マイク４１および４２で集音された音声は、入力処理手段４３および４４へそれぞれ入力され、そこで入力信号は増幅され、平滑化されると共にＡＬＣ（ＡｕｔｏｍａｔｉｃＬｅｖｅｌＣｏｎｔｒｏｌ）回路により、それぞれの音声信号が歪まないようにレベル合わせを行う。入力処理手段の出力は、正規化手段４５へ供給される。この正規化手段（ノーマライザー）は、デジタル処理などで位相ずれした波形を調整し、音圧を平坦化するための手段であるが、入力処理でレベル合わせや位相ずれがなければ必ずしも必要というものではない。

【0036】

正規化手段４５で平坦化された左右のマイク音Ｍ－ＲおよびＭ－Ｌは、減算回路４６において左右のマイク音の信号の差分信号を取り出す。これにより同相の音声信号は打ち消され主として環境ノイズ成分を多く含む信号Ｃが取り出される。また、左右のマイク音は、加算回路４７において加算される。加算回路４７においては、同相の音声信号は増強される。加算回路４７の出力信号はレベル低減回路４８によりレベル低減され、減算回路４９に供給される。減算回路４９においては、加算回路４７の出力信号をレベル低減回路４８でレベル低減された信号から減算回路４６の出力信号が減算される。これにより、減算回路４９の出力信号は、より環境ノイズ成分が低減され、音声中心の成分を含む信号Ｄが取り出される。

【0037】

上記の回路構成により取り出したノイズ成分を多く含む信号Ｃと音声成分を多く含む信号Ｄは、適応フィルター手段５０へ供給される。信号ＣはＡ／Ｄコンバータ５１でデジタル変換され適応フィルタ回路５２へ供給され、その出力は減算回路５４へ提供される。一方、音声成分を多く含む信号ＤはＡ／Ｄコンバータ５３でデジタル変換され減算回路５４へ供給される。減算回路５４は適応フィルター５２と協働して音声信号Ｄを多く含む区間のみを通過させるよう適応的にフィルタリングする。この適応フィルター手段５０を挿入することで無音声区間のノイズが低減される。

【0038】

適応フィルター５０の出力は、音声信号が抽出されたものとなり、この出力信号はマスク音の周波数特性補正手段５５へ送られる。周波数特性補正手段５５の補正特性は、図４で示すものと同様の周波数補正を行うものであり、マスクの種類、話者の個人特性を考慮した補正特性を選択する。このようにして取得したデュアルマイクによるマスク音補正回路出力Ｅは、図１における差分処理回路２の入力Ａへ供給される。その後の差分処理回路以降は図１と同様であり説明を省略する。

【0039】

実施例２におけるマスク音（ａ）およびマスク無し直接音（ｂ）のレファレンス信号取得法も実施例１と同様であり、予め利用者は、マスク着用時のマスク音とマスク無しの直接音の状態で適当な会話音（例えば、あ、い、う、え、お、など）を発声し音声サンプルを取得して使用する。この場合、マスク特性、利用環境、利用者の特性（老若男女、年齢など）が判明していれば、モデル化されたサンプル・レファレンス信号から選択して利用することも可能である。実施例２のように２個のマイクを使用することで音声抽出が容易に、かつ効果的に単純な回路で構成することができ、ノイズ区間を除去したクリアーな音声にマスク音に伴う「こもり音」除去が可能となる。そのため、環境ノイズが大きい所での利用に適している。

【0040】

実施例では、マスク近傍のマスク外にマイクや処理装置を配置しているが、実施例１や実施例２、またはその他の実施例であっても、マイクおよびブルートゥースなどの送信手段のみをマスク内やマスク近傍に配置し、マスク音声改良装置を外部に備えても良い。また、マスク内に限らず、マスクを覆うようなフェースシールドやマウスシールド、マスクカバー、メガネ形状アタッチメント、首掛けペンダント、帽子などに組み込んでマスク音声改良付属装置として使用することもできる。また、回路構成は、アナログであっても音声をデジタル化したデジタル信号処理で行っても構わない。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版