IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルインコ株式会社の特許一覧

特開2023-61676ハウリング防止回路、マイクロホン装置及び電子機器
<>
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図1
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図2
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図3
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図4
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図5
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図6
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図7
  • 特開-ハウリング防止回路、マイクロホン装置及び電子機器 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023061676
(43)【公開日】2023-05-02
(54)【発明の名称】ハウリング防止回路、マイクロホン装置及び電子機器
(51)【国際特許分類】
   H04R 3/02 20060101AFI20230425BHJP
   G10L 21/0208 20130101ALI20230425BHJP
   G10L 25/30 20130101ALI20230425BHJP
   G10L 25/84 20130101ALI20230425BHJP
【FI】
H04R3/02
G10L21/0208 100Z
G10L25/30
G10L25/84
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021171752
(22)【出願日】2021-10-20
(71)【出願人】
【識別番号】000101662
【氏名又は名称】アルインコ株式会社
(74)【代理人】
【識別番号】100101454
【弁理士】
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】國分 二郎
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220CC06
(57)【要約】
【課題】比較的簡単な構成で、高い精度でハウリングを防止することができるハウリング防止回路等を提供する。
【解決手段】ハウリング防止回路は、入力される音声を音声信号に変換するマイクロホンからの音声信号の音声の少なくとも一部がマイクロホンに入力されるときに発生するハウリングを防止する。ハウリング防止回路は、マイクロホンからの音声信号からノイズを除去して音声信号のみを出力するノイズキャンセル部を備える。ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う。ノイズキャンセル部は、深層学習モデル部の判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力される音声を音声信号に変換するマイクロホンからの前記音声信号の音声の少なくとも一部が前記マイクロホンに入力されるときに発生するハウリングを防止するハウリング防止回路であって、
前記マイクロホンからの音声信号からノイズを除去して音声信号のみを出力するノイズキャンセル部を備え、
前記ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行い、
前記ノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える、
ハウリング防止回路。
【請求項2】
前記深層学習モデル部は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、所定のニューラルネットワークにより構成される、
請求項1に記載のハウリング防止回路。
【請求項3】
前記ノイズキャンセル部は、
前記音声信号処理部の前段に設けられ、前記マイクロホンからの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる音声信号前置処理部をさらに備える、
請求項1又は2に記載のハウリング防止回路。
【請求項4】
請求項1~3のうちのいずれか1つに記載の前記ハウリング防止回路を備える、
マイクロホン装置。
【請求項5】
請求項1~3のうちのいずれか1つに記載の前記ハウリング防止回路を備える、
電子機器。
【請求項6】
前記電子機器は、拡声装置、通信装置、会議装置、電話機、スマートホン、又はコンピュータである、請求項5に記載の電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハウリングを防止するためのハウリング防止回路と、前記ハウリング防止回路を備えるマイクロホン装置と、前記ハウリング防止回路を備える電子機器とに関する。
【背景技術】
【0002】
図8は従来例の拡声装置110Aにおける構成例及び問題点を示すブロック図である。
【0003】
図8に示すように、拡声装置(もしくは、会議装置、又は通信装置など)110Aのマイクロホンとスピーカとの組み合わせで、ユーザがマイクロホンに向かって話した音声の音声信号を増幅してスピーカから出力した場合(会議装置又は通信装置のときは、送受信分離用ハイブリッド回路(二線四線変換器)での一部漏洩によるハウリングの発生、もしくは、別の通信装置の受信機のスピーカから出力した場合のハウリングの発生)、マイクロホン、音声増幅部、及びスピーカの間でループ回路が形成され、回り込み音の音声信号の増幅がループ回路内で繰り返されてハウリングが発生する。
【0004】
例えば、特許文献1では、ハンドセット(送受話器)を用いずにスピーカとマイクロホンにて通話ができる拡声電話機が開示されている。この従来例に係る拡声電話機は、特に、スピーカから出た音が室内の壁などで反射してマイクロホンに入ることにより発生するハウリングを防止するために、反響消去回路を備えたことを特徴とする。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平1-198155号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述のハウリングを防止するためには、回り込む音声信号の利得を一定レベルに抑えるために、入力される音声信号を一定レベル以下に制限するリミッタに通過させることで解決されるが、当該リミッタでの音質変化又は音量変化が発生するため、ハウリングではない本来の音声の音質も変化するという問題点があった。
【0007】
また、マイクロホンから入力される第1の音声信号とスピーカに出力される第2の音声信号を使う、ハウリングの除去方法として以下の方法がある。
(1)例えば、マイクロホンからの第1の音声信号の反転信号を、第2の音声信号に加算することで打ち消す。もしくは、
(2)第1の音声信号をデジタルデータに変換して、マイクロホンからの第1の音声信号のみを第2の音声信号から除去する。
【0008】
これらの方法では音声入力部と音声出力部の両方でこれらのハウリング除去の制御が必要となり、システム構成が複雑になり製品の小型化が困難になる。
【0009】
本発明の目的は以上の問題点を解決し、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができるハウリング防止回路と、前記ハウリング防止回路を備えたマイクロホン装置と、前記ハウリング防止回路を備えた電子機器とを提供することにある。
【課題を解決するための手段】
【0010】
本発明の一態様に係るハウリング防止回路は、
入力される音声を音声信号に変換するマイクロホンからの前記音声信号の音声の少なくとも一部が前記マイクロホンに入力されるときに発生するハウリングを防止するハウリング防止回路であって、
前記マイクロホンからの音声信号からノイズを除去して音声信号のみを出力するノイズキャンセル部を備え、
前記ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行い、
前記ノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える。
【発明の効果】
【0011】
従って、本発明に係るハウリング防止回路等によれば、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。
【図面の簡単な説明】
【0012】
図1】実施形態1に係る拡声装置110の構成例を示すブロック図である。
図2図1のノイズキャンセル部102の詳細構成例を示すブロック図である。
図3図2の深層学習モデル部35の詳細構成例を示すブロック図である。
図4】実施形態2に係る拡声システム113の構成例を示すブロック図である。
図5】実施形態3に係る会議装置120の構成例を示すブロック図である。
図6】実施形態4に係る無線通信装置130の構成例を示すブロック図である。
図7図1の拡声装置110の構成例及び動作例を示すブロック図である。
図8】従来例の拡声装置110Aにおける構成例及び問題点を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明に係る実施形態及び変形例について図面を参照して説明する。なお、同一又は同様の構成要素については同一の符号を付している。
【0014】
(実施形態1)
図1は、実施形態1に係る拡声装置110の構成例を示すブロック図である。
【0015】
図1において、拡声装置110は、マイクロホン101と、ノイズキャンセル部102と、音声信号増幅部103と、スピーカ104とを備えて構成される。
【0016】
拡声装置110において、マイクロホン101に入力された音声は電気信号に変換された後、ノイズキャンセル部102に入力される。ノイズキャンセル部102は、後述する深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、処理後の音声信号を音声信号増幅部103に出力する。音声信号増幅部103は入力される音声信号を増幅してスピーカ104に出力し、スピーカ104は入力される音声信号を音声に変換して出力する。
【0017】
図2図1のノイズキャンセル部102の詳細構成例を示すブロック図である。
【0018】
図2を参照して、深層学習モデル部35を用いた図1のノイズキャンセル部102の構成及び動作について以下に説明する。
【0019】
ここで、「音素」という用語は、特定の言語において1つの単語を他の単語から区別する音の単位を意味し、「振動レート」という用語は、各秒におけるデジタル化された振動データの0と1の間の移動の数を意味し、「振動計数値(VC)」という用語は、各フレーム内のデジタル化された振動データの値の合計を意味する。また、「振動パターン」とは、時間軸に沿った所定のフレーム数ごとに算出された振動数の総和のデータ分布を意味する。深層学習モデル部35では、異なる振動パターン、すなわち異なる振動計数値の総和(VS値)のデータ分布の違いを考慮して、ノイズキャンセル処理を行っており、振動レートは振動計数値に類似しているが、振動レートが大きいほど、振動計数値も大きくなる。
【0020】
音声信号の振幅と振動レートは共に観測可能である。ノイズキャンセル部102の特徴は、音声信号の振幅と振動率に応じて音声イベントを検出することである。また、別の特徴は、デジタル化された振動データの振動計数値の総和を、あらかじめ定義されたフレーム数分だけ計測することで、音声と、非音声/無音を区別することである。もう一つの特徴は、入力される音声信号データのストリームをその振動パターンによって異なる音素に分類することである。別の特徴は、下流の処理部をトリガするように、入力される音声信号データストリームから最初の起動音素を正しく区別することであり、それによって、処理部を含む計算システムの電力消費等の計算コストを節約することである。
【0021】
図2において、ノイズキャンセル部102は音声イベント検出を用いてノイズキャンセル処理を行うものであって、音声前置処理部38と、AD変換器39と、音声信号処理部30とを備えて構成される。ここで、音声前置処理部38は、アナログ音声信号に対して、ハイパスフィルタリング、ローパスフィルタリング、増幅又はそれらの組み合わせ等を含む、音声信号前置処理を行って、処理後のアナログ音声信号をAD変換器39に出力する。すなわち、音声前置処理部38は、マイクロホン101からの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる。次いで、AD変換器39は、所定の基準電圧Vref及び許容電圧Vadm(<Vref)に従って、アナログ音声信号をデジタル音声信号にAD変換して音声信号処理部30の入力インターフェース36に出力する。
【0022】
本実施形態において、AD変換器39において、基準電圧Vrefよりも小さい許容電圧Vadmは、基準電圧Vrefと組み合わせて、第1のしきい値電圧Vth1(=Vref+Vadm))及び第2のしきい値電圧Vth2(=Vref-Vadm)を形成するために使用され、AD変換器39は、第1のしきい値電圧Vth1及び第2のしきい値電圧Vth2に基づいて、第1のしきい値電圧Vth1以上又は第2のしきい値電圧Vth2以下のノイズに対してAD変換を実行せず、その間の音声信号に対してAD変換を実行することで、入力されるアナログ音声信号のノイズ及び干渉を除去することができる。ここで、例えばVref=1.0V,Vadm=0.01Vとすると、静かな環境では振動データの振動数が少なく,音声環境では振動データの振動数が多いことが理解できる。なお、本実施形態において、「フレームサイズ」とは、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数を意味し、「音素ウィンドウTw」とは、各音素の音声特徴量を収集するための時間を意味する。好ましい実施形態では、各フレームの継続時間Tfは例えば0.1~1ミリ秒(ms)であり、音素ウィンドウTwは例えば約0.3秒である。さらに好ましい実施形態では、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数は例えば1~16の範囲である。
【0023】
音声信号を分析する場合、ほとんどの音声信号は短期間で安定しているので、通常、短期分析の方法が採用される。例えば、AD変換器39で使用されるサンプリング周波数fsが16000であり、各フレームの時間継続期間Tfが1msであると仮定すると、フレームサイズはfs×1/1000=16サンプルポイントとなる。
【0024】
図2において、音声信号処理部30は例えばコンピュータデバイスで構成され、
(1)ノイズキャンセルなどの所定の音声信号処理を実行するCPU(Central Processing Unit)31と、
(2)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラム、並びに当該プログラムを実行するために必要なデータ等を格納するROM(Read Only Memory)32と、
(3)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラムの実行時に、処理中のデータ等を格納するRAM(Read Access Memory)33と、
(4)前記音声信号処理を実行するために必要な後述する設定データ等を格納する不揮発性のEEPROM(Electrically Erasable Programmable Memory)34と、
(5)例えばニューラルネットワークなどで構成され、人間の音声信号データに基づいて深層学習されて入力される音声信号データに対して、ノイズを除去して実質的に音声信号のみを抽出して出力する深層学習モデル部35と、
(6)AD変換器39から入力される音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行ってCPU31に出力する入力インターフェース36と、
(7)深層学習モデル部35によりノイズが除去された音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行って音声信号増幅部103に出力する出力インターフェース37と、
を備えて構成される。
【0025】
ここで、EEPROM34は例えば、一連の振動計数値VC、振動計数値の総和VS、振動計数値の総和VSf、振動計数値の総和VSp(後述する)、及びすべての特徴ベクトルの音声特徴値を記憶する。なお、EEPROM34は外部メモリなどの記憶装置であってもよい。ここで、x個のフレームの振動計数値VCを加算して、時点Tjにおける現在のフレームの振動計数値の総和VSを得る。x個のフレームには現在のフレームが含まれる。一実施形態では、CPU31は、時点Tjにおける現在のフレームの振動計数値VCと、その直前(x-1)個のフレームの振動計数値の総和VSpとを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSp)を得る。
【0026】
なお、変形例では、CPU31は、時点Tjにおける現在のフレームの振動計数値VC、その直後のy個のフレームの振動計数値の総和VSf、及びその直前の(x-y-1)個のフレームの振動計数値の総和VSpを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSf+VSp)を得るが、yはゼロ以上である。CPU31は、VS、VSf及びVSpの値をEEPROM34に格納する。好ましい実施形態では、x個のフレーム(音素ウィンドウTw)の継続時間(x×Tf)は、約0.3秒である。さらに好ましい実施形態では、x個のフレームのデジタル化された振動データに対応するサンプリングポイントの数は、x~16xの範囲にある。
【0027】
一般的に、音声信号データについては、同じ音素では振動計数値VCの振動パターンが類似しているが、異なる音素ではVS値の振動パターンが全く異なる。従って、振動計数値VCの振動パターンを利用して、音素を区別することができる。特に、例えば鶏又は猫の鳴き声と、人間の音声とは、振動計数値VCの周波数分布に関して全く異なり、人間の音声の振動計数値VCのほとんどは40以下に分布していることが既知である。
【0028】
学習フェーズにおいて、音声信号処理部30のCPU31は、まず、所定の音声信号データ収集方法を複数回実行して、複数の音素に対する複数の特徴ベクトルを収集し、複数の特徴ベクトルに対応するラベルを付加して、複数のラベル付き学習例を形成する。その後、起動音素を含む異なる音素に対する複数のラベル付き学習例を、深層学習モデル部35の学習に適用する。最後に、学習された深層学習モデル部35(音声信号データの予測モデルを構成する)を作成して、入力される音声信号データのストリームが起動音素を含むかどうかを分類する。音声信号処理部30の起動音素として、所定の音素が指定されている場合、深層学習モデル部35は、少なくとも当該指定された音素を含む異なる音素についての複数のラベル付き学習例で学習される。
【0029】
すなわち、学習段階では、ラベル付けされた学習例のセットを使用して深層学習モデル部35を学習し、それによって深層学習モデル部35が、ラベル付けされた学習例の各フレームの3つの音声特徴量(例えば、(VSj,TDj,TGj))に基づいて、j=0~299の間で、所定の起動音素を認識するようにする。学習段階の終わりに、学習された深層学習モデル部35は、当該起動音素に対応する学習されたスコアを提供し、学習されたスコアは、次に、入力される音声信号データのストリームをランタイムで分類するための基準として使用される。なお、VSj,TDj,TGjは以下のように定義される。
(1)VSj:フレームjの振動計数値の総和(VS値);
(2)TDj:フレームjにおいて、ゼロではない振動計数値の総和(VS値)の時間期間;及び
(3)TGj;フレームjにおける、ゼロではない振動計数値の総和(VS値)間の時間ギャップ(時間隙間)。
【0030】
深層学習モデル部35を学習するために、教師付き学習に関連する様々な機械学習技術を使用することができ、例えば、サポートベクターマシン(SVM)法、ランダムフォレスト法、畳み込みニューラルネットワーク法などを利用できる。教師付き学習では、複数のラベル付けされた学習例を使用して関数計算部(すなわち、深層学習モデル部35)が作成され、その各例は、入力特徴ベクトルとラベル付けされた出力からなる。学習されたとき、深層学習モデル部35は、対応するスコア又は予測値を生成するために、新しいラベルのない例に適用することができる。
【0031】
図3図2の深層学習モデル部35の詳細構成例を示すブロック図である。
【0032】
深層学習モデル部35は、例えば、図3に示すように、ニューラルネットワークを用いて実装される。ここで、ニューラルネットワークは、1つの入力層41と、少なくとも1つであり好ましくは複数の中間層42と、1つの出力層43を含む。入力層41には3つの入力ニューロン51,52,53があり、各入力ニューロン51,52,53は、特徴ベクトルの各フレームの3つのオーディオ特徴値(すなわち、VSj,TDj,TGj)に対応する。また、中間層42は、各入力ニューロン51,52,53に関連する重み係数と各ニューロンのバイアス係数を有するニューロン61~74で構成される。学習フェーズのサイクルを通じて中間層42の各ニューロン61~74の重み係数とバイアス係数を変更することにより,ニューラルネットワークを学習して,所定の種類の入力に対する予測値を報告するようにすることができる。さらに、出力層43は、音素に対応する1つの予測値(具体的には、音声期間であるか、ノイズを含む非音声期間であるかを示す)を提供する1つの出力ニューロン81を含む。
【0033】
以上説明したように、前記ノイズキャンセル部において、深層学習モデル部35は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する。そして、音声信号処理部30のCPU31は、深層学習モデル部35の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する。ここで、深層学習モデル部35は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、図3のニューラルネットワークにより構成される。
【0034】
以上のように構成された拡声装置110の動作例について、図1及び図7を参照して以下に説明する。
【0035】
図7図1の拡声装置110の構成例及び動作例を示すブロック図である。
【0036】
図7において、マイクロホン101から入力される音声信号を、深層学習モデル部35(図3)を用いたノイズキャンセル部102を通過させることで、本来はマイクロホン101に入力される周囲ノイズ音の非音声信号を低減して目的の音声の音声信号を抽出する目的であるが、ハウリングで発生する回り込み音の非音声信号も同様に低減することが可能となり、回り込み音の音声信号の増幅の繰り返しが回避される。これにより、マイクロホン101からの目的の音声の音声信号のみを抽出することができ、マイクロホン101に入力される周囲ノイズの低減を含め、ハウリング時においてもスピーカ104から出力される音声信号は音質変化が無く、かつ小規模でのシステム構成により小型製品でのハウリングを除去することが可能となる。
【0037】
なお、本発明者らは、図1の拡声装置110を試作してハウリングを発生して実験を行った。実験の結果、本実施形態に係る拡声装置110のノイズキャンセル部102により高精度で有効的にハウリングの発生を防止できることを確認した。
【0038】
以上説明したように、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができるハウリング防止回路を提供できる。また、ノイズキャンセル部102を拡声装置110に備えることで、ハウリングを高精度で有効的に防止することができる拡声装置を実現できる。
【0039】
(実施形態2)
図4は、実施形態2に係る拡声システム113の構成例を示すブロック図である。
【0040】
図4において、拡声システム113は、マイクロホン装置111と拡声装置112とを、音声信号ケーブル105を用いて接続されて構成される。
【0041】
マイクロホン装置111は、マイクロホン101と、例えばリチウム電池等の二次電池である直流電源102Bにより電源供給されるノイズキャンセル部102とを備えて構成される。ノイズキャンセル部102の構成及び動作は、実施形態1に係るノイズキャンセル部102と同様である。ノイズキャンセル部102への電源供給は、直流電源102Bに限らず、交流電圧を整流平滑するいわゆるACアダプタにより、もしくは、拡声装置112本体からの直流電圧の電源供給であってもよい。
【0042】
また、拡声装置112は、音声信号増幅部103と、スピーカ104とを備えて構成され、これらの動作は図1の実施形態1と同様である。
【0043】
以上説明したように、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102をマイクロホン装置111に備えることで、ハウリングを高精度で有効的に防止することができる拡声システム113を実現できる。
【0044】
図4において、マイクロホン装置111は、例えば「オプションマイクロホン」もしくは「外部マイクロホン」と呼ばれることがある。また、拡声装置112は無線通信装置又は有線通信装置であってもよい。
【0045】
(実施形態3)
図5は、実施形態3に係る会議装置120の構成例を示すブロック図である。
【0046】
図5において、会議装置120において、マイクロホン101-1に入力された音声は電気信号に変換された後、ノイズキャンセル部102-1に入力される。また、マイクロホン101-2に入力された音声は電気信号に変換された後、ノイズキャンセル部102-2に入力される。各ノイズキャンセル部102-1,102-2は、前記深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、処理後の音声信号を加算器121に出力する。加算器121は入力される2個の音声信号を加算した後、加算後の合成音声信号を、送受信分離用ハイブリッド回路(二線四線変換器)122を介して通信インターフェース123に出力する。
【0047】
通信インターフェース123は例えばUSB(Universal Serial Bus)インターフェースであって、通信ケーブル124を介して、例えばパーソナルコンピュータ(PC)125に接続されて、USBインターフェース信号を送受信する。本実施形態では、通信インターフェース123は、会議装置120で取得した合成音声信号を、パーソナルコンピュータ125に例えばインターネットなどの所定のネットワークを介して接続された相手方のパーソナルコンピュータ(図示せず)に送信するとともに、相手方の音声信号を受信する。受信された相手方の音声信号はハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から当該音声信号の音声が出力される。
【0048】
以上のように構成された会議装置120を用いた会議システムでは、例えば以下のハウリング経路が考えられる。
(1)ハイブリッド回路122における一部漏洩により、マイクロホン101-1,101-2に入力された会議装置120のユーザの音声信号が加算器121からハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から出力される音声が、マイクロホン101-1,101-2に回り込む。
(2)マイクロホン101-1,101-2に入力された会議装置120のユーザの音声信号が通信インターフェース123及びパーソナルコンピュータ125、及び相手方のパーソナルコンピュータを介して相手方のスピーカから音声信号の音声が出力される。この音声が、相手方のマイクロホンに拾われて、逆方向でパーソナルコンピュータ125、通信インターフェース123、ハイブリッド回路122及び音声信号増幅部103を介してスピーカ104から出力されて、マイクロホン101-1,101-2に回り込む。もしくは、相手方のハイブリッド回路での一部漏洩により、ユーザの音声信号が戻ってくる場合もある。
【0049】
しかしながら、本実施形態では、前記深層学習モデル部35を用いたノイズキャンセル部102-1,102-2により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102-1,102-2を会議装置120に備えることで、ハウリングを高精度で有効的に防止することができる会議システムを実現できる。
【0050】
以上の実施形態では、2個のマイクロホン101-1,101-2及び2個のノイズキャンセル部102-1,102-2を備えているが、本開示はこれに限らず、複数個のマイクロホン101及び複数個のノイズキャンセル部102を備えてもよい。
【0051】
以上の実施形態では、1個のマイクロホン101-1,101-2に対して各1個のノイズキャンセル部102-1,102-2を備えているが、本発明はこれに限らず、2個のマイクロホン101-1,101-2からの2個の音声信号を加算した後、1個のノイズキャンセル部102により、前記深層学習モデル部35を用いたノイズキャンセル処理を行ってもよい。
【0052】
(実施形態4)
図6は、実施形態4に係る無線通信装置130の構成例を示すブロック図である。
【0053】
図6において、無線通信装置130は、マイクロホン101と、ノイズキャンセル部102と、音声信号増幅部103Aと、変調送信部131と、送信アンテナ132と、受信アンテナ133と、受信復調部134と、音声信号増幅部103と、スピーカ104とを備えて構成される。
【0054】
図6の無線通信装置130において、マイクロホン101に入力された音声は電気信号に変換された後、ノイズキャンセル部102に入力される。ノイズキャンセル部102は、前記深層学習モデル部35(図2及び図3)を用いて音声期間と、ノイズを含む非音声期間とを区別して、非音声期間を通過させないようにノイズキャンセル処理を行って、音声以外のノイズを除去する処理を行った後、音声信号増幅部103Aを介して変調送信部131に出力する。変調送信部131は入力される音声信号に従って、所定の変調方式で搬送波を変調することで変調無線信号を発生して送信アンテナ132を介して送信する。一方、受信復調部134は、相手方の無線通信装置からの変調無線信号を受信アンテナ133により受信し、当該受信した変調無線信号を低雑音増幅、周波数変換、中間周波増幅などを行った後、所定の復調方式で音声信号に復調して音声信号増幅部103を介してスピーカ104に出力する。
【0055】
以上のように構成された無線通信装置130を用いた無線通信システムでは、例えば以下のハウリング経路が考えられる。
(1)マイクロホン101に入力された無線通信装置130のユーザの音声信号が変調送信部131により変調しかつ無線送信されて、相手方の無線通信装置のスピーカから音声信号の音声が出力される。この音声が、相手方のマイクロホンに拾われて、逆方向で無線通信装置130の受信復調部134及び音声信号増幅部103を介してスピーカ104から出力されて、マイクロホン101に回り込む場合が考えられる。
【0056】
しかしながら、本実施形態では、前記深層学習モデル部35を用いたノイズキャンセル部102により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部102を無線通信装置130に備えることで、ハウリングを高精度で有効的に防止することができる無線通信システムを実現できる。
【0057】
以上の実施形態においては、変調送信部131と、受信復調部134とを備えているが、本発明はこれに限らず、受信復調部134は別体の装置とし、少なくとも変調送信部131を備えてもよい。
【0058】
以上の実施形態では、無線通信装置130について説明しているが、本発明はこれに限らず、無線通信装置130に代えて、有線通信装置、電話機、スマートホンなどの通信装置にも適用することができる。
【産業上の利用可能性】
【0059】
以上詳述したように、本発明に係るハウリング防止回路によれば、深層学習モデル部を用いたノイズキャンセル部により、従来例に比較して比較的簡単な構成で、高い精度でハウリングを防止することができる。また、ノイズキャンセル部を、拡声装置、通信装置、会議装置、電話機、スマートホン、又はコンピュータに備えることで、ハウリングを高精度で有効的に防止することができる音声処理システムを実現できる。
【符号の説明】
【0060】
30 音声信号処理部
31 CPU
32 ROM
33 RAM
34 EEPROM
35 深層学習モデル部
36 入力インターフェース
37 出力インターフェース
38 音声信号前置処理部
39 AD変換器
41 入力層
42 中間層
43 出力層
51~81 ニューロン
101,101-1,101-2 マイクロホン
102,102-1,102-2 ノイズキャンセル部
102B 直流電源
103,103A 音声信号増幅部
104 スピーカ
105 音声信号ケーブル
110,110A 拡声装置
111 マイクロホン装置
112 拡声装置
113 拡声システム
120 会議装置
121 加算器
122 ハイブリッド回路
123 通信インターフェース
124 通信ケーブル
125 パーソナルコンピュータ
130 無線通信装置
131 変調送信部
132 送信アンテナ
133 受信アンテナ
134 受信復調部
図1
図2
図3
図4
図5
図6
図7
図8