(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022048050
(43)【公開日】2022-03-25
(54)【発明の名称】マスク音声改良装置
(51)【国際特許分類】
G10L 21/007 20130101AFI20220317BHJP
A41D 13/11 20060101ALI20220317BHJP
A62B 18/08 20060101ALI20220317BHJP
【FI】
G10L21/007
A41D13/11 Z
A62B18/08 A
【審査請求】未請求
【請求項の数】5
【出願形態】書面
(21)【出願番号】P 2020167324
(22)【出願日】2020-09-14
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
(71)【出願人】
【識別番号】515333271
【氏名又は名称】株式会社三井光機製作所
(72)【発明者】
【氏名】三井 辰郎
(72)【発明者】
【氏名】久米田 琢磨
(72)【発明者】
【氏名】柴田 悟
【テーマコード(参考)】
2E185
【Fターム(参考)】
2E185AA07
2E185BA20
2E185DA17
(57)【要約】
【課題】 マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出す音声音質改良装置を提供する。
【解決手段】 この発明に係るマスク会話音改良装置は、マスクのメッシュ径が略5μm以下のマスクを介した音声入力に対し、略2KH以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設ける。また、前記周波数特性補正手段の出力信号よりマスク無しでの音声信号X(b)とマスクを介しての音声信号X(a)とを減算し、その差分信号G(c)を生成する第一差分信号生成手段と、前記差分信号G(c)とマスクを介しての音声信号X(a’)とを減算し、その差分信号αを生成する第二差分生成手段とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
マスクのメッシュ径が略5μm以下のマスクを介した音声入力に対し、略2KH以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設けたことを特徴とするマスク音声改良装置。
【請求項2】
マスク無しでの音声信号X(b)とマスクを介しての音声信号X(a)とを減算し、その差分信号G(c)を生成する第一差分信号生成手段と、
前記差分信号G(c)とマスクを介しての音声信号X(a’)とを減算し、その差分信号αを生成する第二差分生成手段とを備えることを特徴とする請求項1記載のマスク音声改良装置。
【請求項3】
前記差分信号αは、前記装置の利用者により予め学習させ、記憶させることを特徴とする請求2記載のマスク音声改良装置。
【請求項4】
前記差分信号αは、利用者の特性(老若男女、年齢)または前記マスクの材質に応じたパターン毎にモデル化されていることを特徴とする請求項3記載のマスク音声改良装置。
【請求項5】
請求項1ないし請求項4記載のマスク音声改良装置の一部または全部を組み込んだマスクおよびマスク用付属装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、不明瞭な音声の音質を改善する音質改善装置であって、さらに詳しくは、マスクをつけて会話する場合の音声を明瞭化するマスク音声改良装置に関する。
【背景技術】
【0002】
近年、感染症の蔓延により世界的にパンデミック宣言が世界保健機構(WHO)より発せられウイルス感染防止のためにマスク着用が常態化している。多くのマスクは感染症の病原菌であるウイルス類、細菌類、真菌類やその飛沫拡散を防止したり、侵入したりするのを防ぐために不織布などを材料とする家庭用マスクでは5μm程度のフィルターを形成している。また、サージカルマスクや産業用マスクとして使用されるN95、DS2、KN95などは、粒子径3μm以下で95%以上の濾過効率を上げる構造となっている。
【0003】
そのためにマスクを着用して会話する場合、音声が不明瞭となり不都合が生じている。また、マスク着用は、手術、航空機、工事現場、建設現場、ごみ処理、工場など騒音が激しい現場などでも会話、通信する必要があり、特にこれらの現場での会話、通信は、正確さを求められる。また、日常生活や社会生活においてもスマートフォンや各種電子機器の入力手段として音声入力が普及しており、マスク装着時でも明瞭な発音を行う必要がある。
【0004】
このようなマスク装着時に不明瞭となる音声を改善するために従来種々の技術が開示されている。音声を明確にするためにマスクの口部分だけフィルターのメッシュを荒くしたり、穴をあけたりする工夫が数多くなされている(特許文献1および特許文献2など)。しかし、このような技術では音声を明瞭化する代わりにマスクとしてのフィルター効果を犠牲にしている。また、マスク内にマイクを備えマイク入力音声を拡大する方法として特許文献3などがある。また特許文献4では、マスクの外側近傍の咽頭部にマイクを備え音声拡大している。このような方法は咽頭部の振動音を拡大するためマイクの取り付けや構成が複雑となる。更に、音声成分に重畳された雑音を除去して明瞭化する方法としてスペクトル・サブトラクション(SS)法、ウェルナーフィルター法(コムフィルター法)などがあるが、音声に重畳されたノイズ成分を除去してもマスクを介しての音声明瞭度の向上には難があった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2017-2454号公報
【特許文献2】特開2019-26999号公報
【特許文献3】特開2017-50594号公報
【特許文献4】特開2002-271881号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術においては、マスクの繊維構造を口の部分だけ粗くしたり、穴をあけるなどしてマスク音声をより明瞭にしているがマスクの防菌、防塵、フィルター効果を低下させていたり、単にマイクロフォンで音声を収集して拡大化しているだけであり、マスク装着時の音声を明瞭化するには至っていない。そのため、手術時や騒音時の工事現場などで重要な伝達事項を行う場合やスマーフォンなどに音声入力するような場合は、マスクを外して伝えるような状況が生じている。そのため、マスクを装着した状態でマスクのフィルター効果は犠牲にせず、会話音を明瞭にすることが求められている。
【0007】
この発明は、上述の状況に鑑みて提供されるものであって、以下のような音声明瞭化装置およびそのような装置を応用したマスクの提供を目的とする。
(1)マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出す音声音質改良装置。
(2)会話音声を明瞭化する装置を組み込んだマスクおよびマスク音声改良補助装置。
【課題を解決するための手段】
【0008】
前述の課題を解決するために、本発明に係るマスク音声改良装置は、マスクのメッシュ径が略5μm以下のマスクを介した音声入力に対し、略2KH以上であって入力音声の第三フォルマント以上を含む帯域を上昇させる周波数特性補正手段を設けたことを特徴とする。
【0009】
また、本発明に係るマスク音声改良装置は、前記周波数特性補正手段の出力信号よりマスク無しでの音声信号X(b)とマスクを介しての音声信号X(a)とを減算し、その差分信号G(c)を生成する第一差分信号生成手段と、前記差分信号G(c)とマスクを介しての音声信号X(a’)とを減算し、その差分信号αを生成する第二差分生成手段とを備えることを特徴とする。
【0010】
また、本発明に係るマスク音声改良装置において、前記差分信号αは、前記装置の利用者により予め学習させ、記憶させることができる。
【0011】
また、本発明に係るマスク音声改良装置において、前記差分信号αは、利用者の特性(老若男女、年齢)または前記マスクの材質に応じたパターン毎にモデル化されて利用することができる。
【0012】
また、本発明に係るマスク音声改良装置の一部または全部を組み込んだマスクおよびマスク用付属装置として利用することができる。
【発明の効果】
【0013】
本発明によるマスク音声改良装置およびそのような装置を組み込んだマスクを利用することにより、マスクを装着したままの会話であっても音声や音質を改善し、明瞭な会話音声を取り出すことが可能となる。このことにより、手術中、工事・建設現場、騒音現場などの雑音環境下であってもマスクをしたままで会話、通信が容易となり、ネットワークを介してスマーフォンなどへの配信や音声入力が容易となる。
【図面の簡単な説明】
【0014】
【
図1】本発明を適用した、実施例1の態様を示す概略ブロック説明図である。
【
図3】本発明を適用した、実施例2の態様を示す概略ブロック説明図である。
【
図4】実施例における周波数特性補正例の説明図である。
【
図5】本発明に適用しうるデュアルマイク取り付け例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について、図面を参照して詳細に説明する。なお、以下の実施例に記載されているいずれの図面も本発明の説明用に概略的または模式図として描かれており、実際の寸法や形状は特に限定するものではない。また、構成要素の回路構成、寸法、材質、形状、その相対配置等は、特に記載がない限り発明の技術的範囲をそれらのみに限定する趣旨のものではない。
【0016】
音声明瞭化および音声ノイズ低減法としては、人の音声帯域に相当するフィルターを使用して音声部分のみを強調するフィルター法、雑音スペクトルの平均値を推定し、雑音を含む元信号から引いてノイズ低減するスペクトラル・サブトラクション法、櫛形フィルターや線形フィルターでノイズ分を低減するウィーナーフィルタリング法などが提案されている。このようなノイズ低減法は、モーター音、電車のノイズ、などコンスタントな定常ノイズおよび常に変化する風音、衝撃音、工事現場の雑音などの非定常ノイズに対して適用され、ノイズ音の低減化は効果的であるが、マスク音声そのものの明瞭化に対してはノイズ低減だけでは不十分である。マスク装着時の音声(以下「マスク音またはマスク音声」という)の認識は、定常ノイズおよび非定常ノイズの低減に加えてマスク音声の明瞭化を考慮する必要がある。マスクはその材質により会話音質、音圧レベルが大きく異なる上に、利用者の違い(老若男女や年齢など)により会話周波数帯域も異なっている。
【0017】
家庭用マスクの多くは不織布、ガーゼ、綿材が一般的であるが、近来、ポリプロピレン、ポリウレタンなどの汎用樹脂の製品およびそのようなマスク製品に吸汗、速乾、防菌、肌ざわり感などの機能を加工した機能性マスクなどが市販されており、これらの素材により会話音声の明瞭度が違ってくる。また、サージカルマスクや産業用マスクでは防菌性、防塵性を重要視しているため、マスクを介しての会話は、極めて困難である。そのため、サージカルマスクや産業用マスクを着用しての会話はマイクを介し増幅して行われる必要がある。
【0018】
最も一般的である不織布による家庭用マスクでは、前述の通り約5μm程度の網目(メッシュ)径であり、市販の汎用不織布マスクによる音声遮断特性を測定すると略2KHz以下の周波数帯域を吸音せず、2KHz以上の周波数帯域が吸音(遮音)されることが分かった。また、医療用、工事用などの産業用のマスクにおいてはより網目が細かく3μm以下となる場合がある。このようなマスクにおいては、材質にもよるが、不織布マスクより全体として音声レベルがほぼ全帯域に亘って遮音される傾向にあることが分かった。このためマスク装着時の音声は高音域が減衰する「こもり音」として聞こえる傾向にあり、明瞭性に欠ける音声となる。この「こもり音」は、マスクの材質や網目の大きさ、利用者の音声の特性などにより異なってくる。
【0019】
人の音声の音源は、声帯の振動である。声帯振動により発せられた声は声道(咽頭喉頭)を通り、口腔、鼻腔、副鼻腔などの共鳴により口から発声される。口から発生された音声は、多くの倍音を含んでいる。会話における人の音声明瞭化を示す要素としては、客観的指標(音質、音声の高さ、音圧、ノイズなど)と主観的指標(言語、アクセント、話す速度、話の間など)とを考慮する必要があるが、マスク音の明瞭化の場合、主として客観的指標の改善に注目する。特に、マスク音声による会話では話者の音質を大きく変更しないで、誰が話しているかを認識しうるようにすることも重要である。そのため音声合成による音声明瞭化手段とは異なるアプローチを行う。
【0020】
マスク音声による「こもり音」の改善は、上述の音質、音声の高さ(発生音の周波数特性)、音圧(声の強弱レベル)およびノイズ除去がポイントなる。ここでの音質改善には、聞き手の認識率を上げるための音質改善であり、特に母音(あ、い、う、え、お)の識別に重要とされるフォルマント識別をどの程度まで含めるかを検討する。従来のアナログ電話回線での音声帯域は、母音の第一フォルマントおよび第二フォルマントが大きく左右されるので第二フォルマントまでを十分カバーする帯域を確保するという根拠に基づき、300Hzから3.4KHzであるが、2.5KHz附近から減衰しており、第三フォルマント以上を十分カバーする帯域とはなっていない。マスク音声の「こもり音」においては、この母音認識の音質を改善する必要がある。
【0021】
図2は、例示的にいくつかの母音のスペクトル分解を示している。これに女性歌手が発声する母音「い」を、基音(X
f1)440Hzで発声したフォルマント周波数で表すと、第三フォルマント(X
f3)の3KHz付近にピークが現れている。この第三フォルマント(X
f3)は、第二フォルマント以上のレベルである。しかし、それ以上の高いフォルマントにおける周波数ではほぼ目覚ましいピークは生じていない。これは、主に口腔、鼻腔による基音の共鳴により第三フォルマントにピークが生じたものである。つまり、音声の基音に対し少なくとも第三フォルマントは音質に大きく寄与していることが分かる。
【0022】
一般的に言われている音声帯域の中心帯域は、男性が100から200Hz、女性が200から400Hzである。これから、第三フォルマントの周波数までまで帯域を確保しつつ、不織布マスク音では発声音が減衰する2KHz以上のレベルを持ち上げ、第三フォルマントを含む3KHz以上で4.5KHz程度までは維持する方が望ましい。それ以上の高域周波数では、音声認識率は向上しないだけでなく、音割れやノイズ的な耳障りな音声として認識されるため減衰してもかまわない。また、医療用、工事用などのフィルター網目(メッシュ)がより細かいマスク音は、マスク材質にもよるが一般的に音圧レベルが低下するのに加えて、フォルマント基音の周波数が若干低下するため、不織布マスクより全体の音圧レベルを上げると共に高域のピーキングをより高くする方が望ましい。
【0023】
マスク音の明瞭度向上には、上記高音域の補正に加え、ノイズ抑制も大きな要素となる。医療用、工事用などのサージカルマスクのマスク音では、音圧レベルが低いため、単純に音圧レベルを上げると環境ノイズも増幅され、マスク音の明瞭度が大幅に下がってしまう。手術室や工事現場での環境ノイズとしては、空調モーター音、施術機器やバイタル測定器の警告音、工事破壊音、風切り音、電車、車などのノイズが定常ノイズや衝撃ノイズとして現れる。これらの環境ノイズ除去には、種々の方法が既に提案されている。代表的な手法としては、追加マイクにより外部音を取り込み、取り込んだ外部音を出力音から差分をとりだすアクティブノイズ制御(ANC: Active Noise Control)法がある。また、定常ノイズが多く含まれる場合であればパッシブノイズキャンセル(CVC:Clear Voice Capture)法といわれる特定周波数を除去する方法もある。
【0024】
これらノイズキャンセルはマスクの利用環境に応じ、ノイズの多い場合や環境ノイズが複雑な場合はANC法を使用し、特定の定常ノイズ抑制の場合は、CVCを使用しても良い。また、マスク音の明瞭化の場合、音声のみを取り出すのが目的であるため、後述するようにデュアルマイクを使用して主として音声のみを取り出す方法も考えられる。
【実施例0025】
上述した知見に基づき本発明の具体的実施例を説明する。
図1は、本発明を適用した、実施例1の態様を示す概略ブロック説明図である。マスク音改良装置は、マスク音補正回路1と差分処理回路2とを含んで構成される。本装置を使用するにあたっては、予めマスク装着時の音声(マスク音)とマスク無し直接音とのサンプル音取得によりマスク固有の「こもり音」成分特性を取り出す。そのために、利用者は、マスクの有無の状態で適当な会話音(例えば、あ、い、う、え、お、など)を発声し音声サンプルを取得する。この音声サンプルは、マスク音(a)とマスク無し直接音(b)で同じ会話音をマイク10により取得するが、主にマスクによる遮蔽音声の成分特性を取得するためのもので通常の会話音声でも良く、両方の位相合わせも必要でない。
【0026】
マスク音(a)とマスク無し直接音(b)とはスイッチ11により切り替える。マイク10により取り出した入力音は会話音声サンプルを集音するが、周辺雑音も合わせ含んでいる。入力処理手段12においては、入力信号が増幅され、平滑化されると共にマスク音(a)とマスク無し直接音(b)との大凡のレベル合わせを行う。また、入力処理手段12は、ALC(Automatic Level Control)回路を含んでおり、それぞれの音声信号が歪まないようにレベル合わせを行う。その出力は、ノイズ抑制手段13へ供給される。この段階でのノイズ抑制は、バズ音や衝撃音ノイズを取り除くものでCVC(Clear Voice Capture)などのパッシブノイズキャンセル法が適用できる。
【0027】
ノイズ抑制手段13の出力は、周波数特性補正手段14に供給される。この周波数特性補正手段14においては、前述の通り、家庭用不織布マスクの場合、網目(メッシュ)の大きさに応じて減衰される高域成分(略2KHz以上)を持ち上げ、第三フォルマント成分を含み、それより高次のフォルマントをカットするように設定する。例示として、メッシュ5μm程度の不織布マスクの場合、略2KHzから4.5KHzの周波数ピーキング補正特性が好ましい結果を得ている。また、医療用、工事用などのメッシュ径が不織布より細かく3μmより細いマスクの場合、前述の通り、全体の音圧レベルを上げつつ高域周波数のピーキングをより高い特性とする。それぞれの特性は、マスク材質やメッシュ径の大きさにより異なるため、サンプリングの段階ではいくつかの周波数補正特性を適用して適切なものを選択する。
図4では、いくつかのマスクサンプルで施した周波数特性補正例(レベルは基準に対する相対的大きさであり、絶対量でない)を示している。マスク音補正回路1で補正された音声信号は、次段の差分処理回路2の入力側Aへ供給される。
【0028】
周波数特性補正手段14により周波数補正を施されたマスク音X(a)とマスク無し直接音X(b)とは、スイッチ15によりマスク音記憶回路16およびマスク無し直接音記憶回路17とにそれぞれ記憶・保持される。ここで、入力時のスイッチ11とスイッチ15とは同期している。保持されたマスク音X(a)とマスク無し直接音X(b)とは減算回路18および差分信号生成手段19により差分信号G(c)を取り出す。この差分信号G(c)は、マスクの材質、利用者により異なるためそれぞれの利用者の固有レファレンスとして使用する。また、このレファレンスは、おおまかな差分「こもり音」成分であるため何度か学習しながらそれぞれの利用者に適応した差分値を見出すことが望ましい。そのため、記憶学習手段20において利用の都度レファレンスを取得し、都度更新しながらレファレンス信号を形成する。
【0029】
このようにして取得した差分信号G(c)は、利用者の特性(老若男女、年齢など)およびマスクの特性(メッシュ径、材質など)によりモデル化回路21において標準パターンを作成する。つまり、それぞれの差分信号の特性は利用者の特性、マスクの特性、利用環境に応じて適正モデル信号(a, b, c, d,・・・)を作成し、用意することができる。このように予め作成した、マスク音X(a)とマスク無し音X(b)との差分は、通常のマスク音声X(a)に対する差分信号のレファレンスとして使用する。ここで、記憶学習手段20およびモデル化回路21によるレファレンス信号学習機能は、予め利用者の特性やマスク特性が適切に把握されていれば必ずしも必須というものでない。
【0030】
生成した差分信号レファレンスG(c)は利用者の特性、マスクの特性、利用環境の音声およびノイズファクターを含んだものとなっている。このため、実際のマスク着用時のマスク音X(a’)と差分信号レファレンスG(c)との差分信号(α)を減算回路22および差分信号生成手段23により取り出すことにより、得られた差分信号(α)は、マスク音に付加された余剰ノイズ成分をある程度除去した、直接音に近い音声を取得できる。差分信号(α)は、出力信号としてスイッチ26を介して出力手段27へ供給される。
【0031】
しかし、レファレンス差分信号G(c)におけるマスク音X(a)と実際のマスク着用時のマスク音X(a’)とは会話音声内容、使用時点が異なるためその差分残余信号[X(a)-X(a’)]が打ち消されることはない。しかし、記憶学習手段20では、差分残余信号を評価し、都度入力されたサンプルレファレンスの差分残余信号が最小化されたものを記憶するように設定される。そのため、差分信号(α)は、マスク無し直接音X(b)とは異なるものの、差分信号を使用する都度サンプル信号を取得し、記憶学習手段20により記録学習を重ねることで差分残余信号[X(a)-X(a’)]を評価し、最小化するように常に更新する。
【0032】
このようにして取得した差分出力信号は、出力信号(α)24として出力する。また、差分出力信号(α)を生成せず音声出力(β)25を出力する場合も生じる。この音声出力(β)25は、マスクによる「こもり音」がノイズ抑制手段13および周波数補正手段14のみで十分補正され会話に支障が生じない場合などに用いられる。状況や利用環境に応じてスイッチ26により差分出力信号(α)24と直接音声出力(β)25とは選択的に出力され、出力手段27へ供給される。
【0033】
出力手段27では、増幅器によりスピーカ28で会話音声として出力する。また、この出力信号を通信手段29によりネットワーク30を介して他の機器との通信や話者自信のヘッドセットやスピーカとの無線通信を行うように設定することもできる。この通信手段29はWiFiやブルートゥースなどの通信手段により達成することができる。
【0034】
出力手段27の出力信号をと協働して、種々のノイズ除去手段31とを組み合わせることでより明瞭化した音声を得ることができる。このノイズ除去手段31は、前述のマスク音に適用されるノイズ抑制手段13や差分信号生成手段23で除去が不十分であったノイズ音を除去するものである。マスクの利用環境により環境ノイズは異なるもので、ノイズの種類が特定できる場合は、特定されたノイズに的確なノイズ除去手段を組み合わせることが望ましい。例えば、電源由来ノイズ(ブーンノイズ)やモーターノイズ音などはノッチフィルターで電源特定周波数を除去し、サーノイズやホワイトノイズなどは適応フィルターなどで音声のみを区間抽出する。また、ポップノイズや工事現場などの衝撃ノイズは、リミッターで除去する。多くの種類のノイズに適用できるノイズ除去としては、アクティブノイズ制御(ANC)が望ましい。ANCでは、環境音取得マイク32により環境ノイズを取得し、環境ノイズ成分を逆位相として出力信号に印加することで環境ノイズを低減するもので、市販の汎用ANCのいずれであっても適用できる。
正規化手段45で平坦化された左右のマイク音M-RおよびM-Lは、減算回路46において左右のマイク音の信号の差分信号を取り出す。これにより同相の音声信号は打ち消され主として環境ノイズ成分を多く含む信号Cが取り出される。また、左右のマイク音は、加算回路47において加算される。加算回路47においては、同相の音声信号は増強される。加算回路47の出力信号はレベル低減回路48によりレベル低減され、減算回路49に供給される。減算回路49においては、加算回路47の出力信号をレベル低減回路48でレベル低減された信号から減算回路46の出力信号が減算される。これにより、減算回路49の出力信号は、より環境ノイズ成分が低減され、音声中心の成分を含む信号Dが取り出される。
上記の回路構成により取り出したノイズ成分を多く含む信号Cと音声成分を多く含む信号Dは、適応フィルター手段50へ供給される。信号CはA/Dコンバータ51でデジタル変換され適応フィルタ回路52へ供給され、その出力は減算回路54へ提供される。一方、音声成分を多く含む信号DはA/Dコンバータ53でデジタル変換され減算回路54へ供給される。減算回路54は適応フィルター52と協働して音声信号Dを多く含む区間のみを通過させるよう適応的にフィルタリングする。この適応フィルター手段50を挿入することで無音声区間のノイズが低減される。
実施例2におけるマスク音(a)およびマスク無し直接音(b)のレファレンス信号取得法も実施例1と同様であり、予め利用者は、マスク着用時のマスク音とマスク無しの直接音の状態で適当な会話音(例えば、あ、い、う、え、お、など)を発声し音声サンプルを取得して使用する。この場合、マスク特性、利用環境、利用者の特性(老若男女、年齢など)が判明していれば、モデル化されたサンプル・レファレンス信号から選択して利用することも可能である。実施例2のように2個のマイクを使用することで音声抽出が容易に、かつ効果的に単純な回路で構成することができ、ノイズ区間を除去したクリアーな音声にマスク音に伴う「こもり音」除去が可能となる。そのため、環境ノイズが大きい所での利用に適している。
実施例では、マスク近傍のマスク外にマイクや処理装置を配置しているが、実施例1や実施例2、またはその他の実施例であっても、マイクおよびブルートゥースなどの送信手段のみをマスク内やマスク近傍に配置し、マスク音声改良装置を外部に備えても良い。また、マスク内に限らず、マスクを覆うようなフェースシールドやマウスシールド、マスクカバー、メガネ形状アタッチメント、首掛けペンダント、帽子などに組み込んでマスク音声改良付属装置として使用することもできる。また、回路構成は、アナログであっても音声をデジタル化したデジタル信号処理で行っても構わない。