IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープヒアリング インコーポレイテッドの特許一覧

特表2024-508821ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム
<>
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図1
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図2
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図3
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図4
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図5
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図6
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図7
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図8
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図9
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図10
  • 特表-ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-28
(54)【発明の名称】ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240220BHJP
【FI】
H04R3/00 320
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023551942
(86)(22)【出願日】2021-09-29
(85)【翻訳文提出日】2023-05-02
(86)【国際出願番号】 KR2021013328
(87)【国際公開番号】W WO2022097919
(87)【国際公開日】2022-05-12
(31)【優先権主張番号】10-2020-0146191
(32)【優先日】2020-11-04
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523137094
【氏名又は名称】ディープヒアリング インコーポレイテッド
【氏名又は名称原語表記】DEEPHEARING INC.
(74)【代理人】
【識別番号】110003579
【氏名又は名称】弁理士法人山崎国際特許事務所
(74)【代理人】
【識別番号】100118647
【弁理士】
【氏名又は名称】赤松 利昭
(74)【代理人】
【識別番号】100123892
【弁理士】
【氏名又は名称】内藤 忠雄
(74)【代理人】
【識別番号】100169993
【弁理士】
【氏名又は名称】今井 千裕
(74)【代理人】
【識別番号】100173978
【弁理士】
【氏名又は名称】朴 志恩
(72)【発明者】
【氏名】アン、カン フン
(72)【発明者】
【氏名】パク、サン-ヒュン
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
ビームフォーミング方法及びビームフォーミングシステムが提供される。ビームフォーミング方法は、第1マイクと、前記第1マイクから予め定められた距離だけ離隔して配置された第2マイクを用いて第1音信号及び第2音信号をそれぞれ受信する段階、前記第1音信号及び前記第2音信号のそれぞれに対するフーリエ変換結果を取得する段階、前記フーリエ変換結果から前記第1音信号と前記第2音信号の位相差を取得する段階、ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階、前記ニューラルプロセッサの演算結果と前記第1音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階、及び前記アダマール積結果を出力する段階を含むことができる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
第1マイクと、前記第1マイクから予め定められた距離だけ離隔して配置された第2マイクを用いて第1音信号及び第2音信号をそれぞれ受信する段階と、
前記第1音信号及び前記第2音信号のそれぞれに対するフーリエ変換結果を取得する段階と、
前記フーリエ変換結果から前記第1音信号と前記第2音信号の位相差を取得する段階と、
ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階と、
前記ニューラルプロセッサの演算結果と前記第1音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階と、
前記アダマール積結果を出力する段階と
を含む、ビームフォーミング方法。
【請求項2】
前記アダマール積を遂行する段階は、
前記アダマール積を遂行する前に、前記演算結果に対してマスク(mask)を適用する段階をさらに含む、請求項1に記載のビームフォーミング方法。
【請求項3】
前記アダマール積を遂行する段階は、
前記アダマール積を遂行した後に、利得制御(gain control)を遂行する段階をさらに含む、請求項1に記載のビームフォーミング方法。
【請求項4】
前記予め定められた距離は、10cmないし14cmである、請求項1に記載のビームフォーミング方法。
【請求項5】
前記位相差を用いて前記ビームフォーミングモデルを学習させる段階をさらに含む、請求項1に記載のビームフォーミング方法。
【請求項6】
第1音信号を受信する第1マイクと、
前記第1マイクから予め定められた距離だけ離隔して配置されて第2音信号を受信する第2マイクと、
前記第1音信号に対するフーリエ変換結果を取得する第1STFTモジュールと、
前記第2音信号に対するフーリエ変換結果を取得する第2STFTモジュールと、
前記フーリエ変換結果から前記第1音信号と前記第2音信号の位相差を取得する位相差取得モジュールと、
前記位相差の入力を受けてビームフォーミングモデルを用いてニューラルネットワーク演算を遂行するニューラルプロセッサと、
前記ニューラルプロセッサの演算結果と前記第1音信号に対するフーリエ変換結果に対してアダマール積を遂行するアダマール積モジュールと、
前記アダマール積の結果を出力する出力モジュールと
を含む、ビームフォーミングシステム。
【請求項7】
前記アダマール積を遂行する前に、前記演算結果に対してマスクを適用するマスキングモジュールをさらに含む、請求項6に記載のビームフォーミングシステム。
【請求項8】
前記アダマール積を遂行した後に、利得制御を遂行する利得制御モジュールをさらに含む、請求項6に記載のビームフォーミングシステム。
【請求項9】
前記予め定められた距離は、10cmないし14cmである、請求項6に記載のビームフォーミングシステム。
【請求項10】
前記位相差を用いて前記ビームフォーミングモデルを学習させる学習モデルをさらに含む、請求項6に記載のビームフォーミングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステムに関する。
【背景技術】
【0002】
カクテルパーティー効果(cocktail party effect)は、パーティーの参席者が騒々しい周辺の騒音がする部屋にいるにも関わらず、対話者との話しを選択的に集中して上手に受け入れる現象をいう。機械で、このような能力、すなわちビームフォーミング(beamforming)を具体化することはカクテルパーティー問題として知られてきたし、最近では、カクテルパーティー問題解決のためにニューラルネットワークを利用しようとする試みが増えている。ビームフォーミング技法の性能を高めることは、オーディオ関連の電子製品の性能と密接な関係があり、特に補聴器とも関連があるため、非常に重要な社会問題という意味も持つことができる。
【0003】
ビームフォーミングは、2つ以上のマイクを用いて取得した音を分析して対象信号を再構成する過程を意味し得る。このために、各マイクから来る信号に対して人為的な遅延時間を作って合わせるように、与えられた制限条件を満足させつつ入ってくる音の大きさを最小化する技法が、かなり前から使われてきた。最近では、ニューラルネットワークを用いたMVDR(minimum variance distortionless response)ビームフォーマーの性能向上に関する研究、又は、ビームフォーマーを具体化するニューラルネットワークモデルの訓練方法などが活発に研究されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、規則基盤ビームフォーミングで空間情報を得るために、大量の演算が要求される限界を克服するためにニューラルネットワークを使用するものの、ビームフォーミングに最適化されるようにニューラルネットワークの構造を設計することにより、パラメータ量及び演算量を最小化することができる、ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステムを提供するためのものである。
【課題を解決するための手段】
【0005】
本発明の一実施形態によるビームフォーミング方法は、第1マイクと、前記第1マイクから予め定められた距離ほど離隔して配置された第2マイクを用いて第1音信号及び第2音信号をそれぞれ受信する段階、前記第1音信号及び前記第2音信号のそれぞれに対するフーリエ変換結果を取得する段階、前記フーリエ変換結果から前記第1音信号と前記第2音信号の位相差を取得する段階、ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階、前記ニューラルプロセッサの演算結果と前記第1音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階、及び前記アダマール積の結果を出力する段階を含むことができる。
【0006】
前記アダマール積を遂行する段階は、前記アダマール積を遂行する前に、前記演算結果に対してマスク(mask)を適用する段階をさらに含むことができる。
【0007】
前記アダマール積を遂行する段階は、前記アダマール積を遂行した後に、利得制御(gain control)を遂行する段階をさらに含むことができる。
【0008】
前記予め定められた距離は、10cmないし14cmとすることができる。
【0009】
前記ビームフォーミング方法は、前記位相差を用いて前記ビームフォーミングモデルを学習させる段階をさらに含むことができる。
【0010】
本発明の一実施形態によるビームフォーミングシステムは、第1音信号を受信する第1マイク、前記第1マイクから予め定められた距離ほど離隔して配置され第2音信号を受信する第2マイク、前記第1音信号に対するフーリエ変換結果を取得する第1STFTモジュール、前記第2音信号に対するフーリエ変換結果を取得する第2STFTモジュール、前記フーリエ変換結果から前記第1音信号と前記第2音信号の位相差を取得する位相差取得モジュール、前記位相差の入力を受けてビームフォーミングモデルを用いてニューラルネットワーク演算を遂行するニューラルプロセッサ、前記ニューラルプロセッサの演算結果と前記第1音信号に対するフーリエ変換結果に対してアダマール積を遂行するアダマール積モジュール、及び前記アダマール積の結果を出力する出力モジュールを含むことができる。
【0011】
前記ビームフォーミングシステムは、前記アダマール積を遂行する前に、前記演算結果に対してマスクを適用するマスキングモジュールをさらに含むことができる。
【0012】
前記ビームフォーミングシステムは、前記アダマール積を遂行した後に、利得制御を遂行する利得制御モジュールをさらに含むことができる。
【0013】
前記予め定められた距離は、10cmないし14cmとすることができる。
【0014】
前記ビームフォーミングシステムは、前記位相差を用いて前記ビームフォーミングモデルを学習させる学習モデルをさらに含むことができる。
【発明の効果】
【0015】
本発明の実施形態によれば、多様な騒音環境に対する操向ベクトルと空間相関行列を演算する必要なしに、位相差のみを用いてマイクで受信される音声を復元することができ、ビームフォーミングを効率的に具体化することができる。また、軽量化されたオートエンコーダの適用が可能であって、軽量化及び小型化を可能にすることができる。
【図面の簡単な説明】
【0016】
図1図1は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0017】
図2図2は、本発明の実施形態によるビームフォーミング装置を具体化するためのコンピューティング装置を説明するための図面である。
【0018】
図3図3は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。
【0019】
図4図4は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。
【0020】
図5図5は、本発明の一実施形態によるビームフォーミング方法に対する一具体例を説明するための図面である。
【0021】
図6図6は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0022】
図7図7は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0023】
図8図8は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0024】
図9-10】図9及び図10は、本発明の実施形態によるビームフォーミング方法及びビームフォーミングシステムの有利な効果を説明するための図面である。
【発明を実施するための形態】
【0025】
以下では、添付した図面を参照して本発明の実施形態について、本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は種々の相違した形態で具体化されてよく、ここで説明する実施形態に限定されない。そして、図面において本発明を明確に説明するために説明と関係ない部分は省略し、明細書全体を通じて類似の部分に対しては類似の図面符号を付した。
【0026】
明細書及び請求範囲全体において、ある部分がある構成要素を「含む」とするとき、これは特に反対になる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含み得ることを意味する。また、明細書に記載された「...部」、「...器」、「モジュール」等の用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア又はハードウェア及びソフトウェアの組み合わせで具体化されてよい。また、以下で説明される実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、プログラム又はソフトウェアで具体化されてよく、プログラム又はソフトウェアはコンピュータで読み取り可能な媒体に格納されてよい。
【0027】
図1は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0028】
図1を参照すると、本発明の一実施形態によるビームフォーミングシステム1は、第1マイクM1、第2マイクM2、連結端子Tを含むビームフォーミング装置10、モニタ20を含んでよい。
【0029】
ビームフォーミング装置10は、モニタ20に取り付けられてマイクM1,M2を用いて音を受信することができる。例えば、ビームフォーミング装置10は、マイクM1,M2を用いてモニタ20の前でビデオ会議に参加する人の声を受信することができる。特に、ビームフォーミング装置10は、周辺の騒音が多い環境でビデオ会議に参加する人の声を受信することができる。
【0030】
ビームフォーミング装置10は、マイクM1,M2を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号を出力することができる。例えば、ビームフォーミング装置10は、周辺の騒音が多い環境でビデオ会議に参加する人の声を分別して、他のコンピューティング装置(例えば、モニタ20が連結された個人用コンピュータ)に提供することができる。そうすると、当該コンピュータ装置は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。ビームフォーミング装置10が人の声を分別した出力信号を他のコンピューティング装置に提供するために連結端子Tが使用されてよく、本実施形態において連結端子TはUSB(Universal Serial Bus)端子であってよいが、本発明の範囲がこれに制限されるわけではない。
【0031】
本実施形態において、第1マイクM1と第2マイクM2は、予め定められた距離Dだけ離隔して配置されてよい。例えば、第1マイクM1は、第1側(例えば、左側)でビデオ会議に参加する人の声と周辺の騒音(すなわち、第1音信号)とを受信することができ、第2マイクM2は、第1マイクM1から予め定められた距離Dだけ離れた第2側(例えば、右側)でビデオ会議に参加する人の声と周辺の騒音(すなわち、第2音信号)とを受信することができる。
【0032】
本実施形態において、第1マイクM1と第2マイクM2との間の予め定められた距離Dは10cmないし14cm、好ましくは12cmであってよいが、本発明の範囲がこれに制限されるわけではない。
【0033】
図2は、本発明の実施形態によるビームフォーミング装置を具体化するためのコンピューティング装置を説明するための図面である。
【0034】
図2を参照すると、本発明の実施形態によるビームフォーミング装置10を具体化するためのコンピューティング装置は、プロセッサ100、ニューラルプロセッサ110、メモリ120、出力モジュール130、第1マイクM1及び第2マイクM2を含んでよく、当該コンピューティング装置は、本発明の実施形態によるビームフォーミング方法を遂行するために動作することもできる。プロセッサ100、ニューラルプロセッサ110、メモリ120、出力モジュール130、第1マイクM1及び第2マイクM2は、バス190を介してデータをやり取りすることができる。
【0035】
プロセッサ100は、ビームフォーミング装置10に対する全般的な制御を遂行し、ニューラルプロセッサ110と共に、又は、ニューラルプロセッサ110と独立して、本明細書で説明する機能及び方法を遂行することができる。プロセッサ100は、AP(Application Processor)、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)などのような多様な種類のプロセッサで具体化されてよく、本発明の範囲は特定のプロセッサに制限されない。
【0036】
ニューラルプロセッサ110は、本明細書で説明する機能及び方法のうち、特にニューラルネットワーク演算を遂行することができる。例えば、ニューラルプロセッサ110は、本明細書で説明するビームフォーミングモデルを用いた演算を遂行することができる。ここで、ニューラルネットワークは、CNN(Convolutional Neural Network)を含んでよいが、本発明の範囲がこれに制限されるわけではない。
【0037】
メモリ120は、プロセッサ100又はニューラルプロセッサ110が演算のために必要とするデータ又は駆動されるアプリケーションを積載することができる。DRAM(Dynamic Random Access memory)、SRAM(Static Random Access memory)をはじめとする多様な種類の揮発性メモリを含んでもよいが、フラッシュメモリのような非揮発性メモリを含むことができたり、揮発性メモリと非揮発性メモリの組み合わせを含むこともできる。
【0038】
出力モジュール130は、ビームフォーミング装置10がマイクM1,M2を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号を出力するための任意の入出力インターフェース装置を含んでもよい。
【0039】
また、本発明の実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、キー制御方法、キー制御装置、及び使用者機器のうち少なくとも一部はコンピューティング装置で実行されるプログラム又はソフトウェアで具体化されてよく、プログラム又はソフトウェアはコンピュータで読み取り可能な媒体に格納されてよい。また、本発明の実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、コンピューティング装置と電気的に接続され得るハードウェアで具体化されてもよい。
【0040】
図1で説明したようなビームフォーミング装置10は、モニタ20に取り付けられるように具体化され、人の声を分別した出力信号を提供するために他のコンピューティング装置に連結されてよい。ここで特に注目する点は、ビームフォーミング装置10はニューラルプロセッサ110を独自に保有しており、他のコンピューティング装置の演算資源を使用しなくても、自身のニューラルプロセッサ110を用いて周辺の騒音が多い環境でビデオ会議に参加する人の声を分別するためにニューラルネットワーク演算を遂行できるという点である。
【0041】
ここで図3ないし図5を参照し、図3は本発明の実施形態によるビームフォーミング方法について説明する。
【0042】
図3は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。
【0043】
図3を参照すると、本発明の一実施形態によるビームフォーミング方法30において、第1マイクM1は、第1側から第1音信号S1を受信することができる。例えば、第1マイクM1は、第1側からビデオ会議に参加する人の声と周辺の騒音とを含む第1音信号S1を受信して、これを第1STFTモジュール300(図面上では、L_STFTモジュールで表示する)に伝達することができる。
【0044】
第1STFTモジュール300は、第1マイクM1から受信した第1音信号S1に対してフーリエ変換演算を遂行し、第1音信号S1に対するフーリエ変換結果P1を取得することができる。
【0045】
一方、第1マイクM1から予め定められた距離Dだけ離隔して配置される第2マイクM2は、第2側から第2音信号S2を受信することができる。例えば、第2マイクM2は、第2側からビデオ会議に参加する人の声と周辺の騒音とを含む第2音信号S2を受信して、これを第2STFTモジュール301(図面上では、R_STFTモジュールで表示する)に伝達することができる。
【0046】
第2STFTモジュール301は、第2マイクM2から受信した第2音信号S2に対してフーリエ変換演算を遂行し、第2音信号S2に対するフーリエ変換結果P2を取得することができる。
【0047】
位相差取得モジュール302は、第1STFTモジュール300から提供を受けたフーリエ変換結果P1及び第2STFTモジュール301から提供を受けたフーリエ変換結果P2から、第1音信号S1と第2音信号S2の位相差dPを取得することができる。
【0048】
学習モジュール303は、第1音信号S1と第2音信号S2の位相差dPを利用してビームフォーミングモデル304を学習させることができる。これにより、ビームフォーミングモデル304は、第1マイクM1と第2マイクM2を介して受信される2つの音信号の位相差のみでビームフォーミングを遂行できるように学習されてよい。
【0049】
学習の際、第1マイクM1と第2マイクM2との間の予め定められた距離Dは、10cmないし14cm、好ましくは12cmであってよいが、本発明の範囲がこれに制限されるわけではない。予め定められた距離Dが12cmであるとき、学習されたビームフォーミングモデル304の性能は、推論時に第1マイクM1と第2マイクM2との間の距離が10cmないし14cmである場合にまで性能を発揮することができる。
【0050】
図4は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。
【0051】
図4を参照すると、本発明の一実施形態によるビームフォーミング方法31において、第1マイクM1は、第1側から第1音信号S1を受信することができる。例えば、第1マイクM1は、第1側からビデオ会議に参加する人の声と周辺の騒音とを含む第1音信号S1を受信して、これを第1STFTモジュール310(図面上ではL_STFTモジュールで表示する)に伝達することができる。
【0052】
第1STFTモジュール310は、第1マイクM1から受信した第1音信号S1に対してフーリエ変換演算を遂行し、第1音信号S1に対するフーリエ変換結果P1を取得することができる。
【0053】
一方、第1マイクM1から予め定められた距離Dほど離隔して配置される第2マイクM2は、第2側から第2音信号S2を受信することができる。例えば、第2マイクM2は、第2側からビデオ会議に参加する人の声と周辺の騒音とを含む第2音信号S2を受信して、これを第2STFTモジュール311(図面上ではR_STFTモジュールで表示する)に伝達することができる。
【0054】
第2STFTモジュール311は、第2マイクM2から受信した第2音信号S2に対してフーリエ変換演算を遂行し、第2音信号S2に対するフーリエ変換結果P2を取得することができる。
【0055】
位相差取得モジュール312は、第1STFTモジュール310から提供を受けたフーリエ変換結果P1及び第2STFTモジュール311から提供を受けたフーリエ変換結果P2から、第1音信号S1と第2音信号S2の位相差dPを取得することができる。
【0056】
図3で説明したように、学習が完了したビームフォーミングモデル314は、第1音信号S1と第2音信号S2の位相差dPを入力として受け、ニューラルネットワーク演算(すなわち、推論演算)を遂行することができる。
【0057】
マスキングモジュール315は、推論演算結果に対してマスクを適用することができ、続いてアダマール積モジュール316は、推論演算結果(又は、マスクが適用された結果)と第2STFTモジュール311から提供を受けた第2音信号S2に対するフーリエ変換結果P2に対してアダマール積を遂行することができる。ここで、アダマール積は同一の大きさの2つの行列の各成分を掛ける演算であってよい。
【0058】
出力モジュール317は、アダマール積モジュール316から提供を受けたアダマール積結果S3を出力することができる。例えば、出力モジュール317は、ビームフォーミングモデル314を用いマイクM1,M2を用いて受信した音信号に対してビームフォーミングを遂行した結果として取得したビームフォーミングされた音信号S3を出力することができる。例えば、ビームフォーミングされた音信号S3は、周辺の騒音が多い環境でビデオ会議に参加する人の声を分別したものであってよく、他のコンピューティング装置(例えば、モニタ20が連結された個人用コンピュータ)に提供され、続いて他のビデオ会議参加者に提供されてよい。
【0059】
図5は、本発明の一実施形態によるビームフォーミング方法に対する一具体例を説明するための図面である。
【0060】
方向性聴覚のためには、基本的に2つ以上のマイクが必要である。マイク配列の幾何学的形態は、各マイクによって受信される信号が整列される空間的特性を有している。ビームフォーミングのためのマスクを取得する過程は、次のように公式化することができる。まず、多数のマイクから受信されたそれぞれの信号をSTFT(short time Fourier transform)してスペクトログラムを得ることができるとする。
は得ようとする音声であり、下記のように表現される。
【0061】
【0062】
【0063】
また、
は雑音というとき、音声と雑音が同時に入ってくるマイク配列の入力は
で表すことができる。
【0064】
は、角度によるマイク配列の特性を表す。この時、入力されたスペクトログラムにフィルタ
を取るとすれば、その結果は
になる。したがって、入力信号の大きさを最小化するものの、得ようとする信号は残す方向に
をデザインすることができる。太い文字で表示したものがベクトルとすれば、
のとき、
【0065】
【0066】
になり、この時、解は
【0067】
【0068】
で求められる。ここで、上付き文字Hは、共益複素数を取った後に前置した行列をいう。したがって、求められたフィルタを用いて得ようと思う音声のスペクトログラムは、
のように得ることができる。このような方式を使ってビームフォーミングを具体化する場合に最も重要な部分は、正しく操向ベクトル
と空間相関行列
を正確に求めることである。
【0069】
このように、ニューラルネットワークを使用しないMVDR方式において、MVDRを正確に満たすためには、音源から発生した音がそれぞれのマイクに到達するまでの経路を数学的にモデリングする操向ベクトルが必要であるが、ビデオ対話のようにマイクと使用者の口が近い距離、例えば1m前後に位置し、マイクの間隔もまた近接した距離、例えば数cm又は十数cm程度である場合には、数学的モデリングが非常に難しい。また、実際のビデオ対話の環境のように使用者が不規則に動く場合、操向ベクトルを固定の値にしておく場合に使用者の不便度はさらに上がることになるという限界点がある。このような限界点を克服するために、操向ベクトルではなくニューラルネットワークを利用することができる。
【0070】
また、本方式においてニューラルネットワークの入力で使用する位相差行列は、既存の方式において音源の位置情報を得るために使用する空間相関行列よりも求める過程が簡単であって、さらに容易に音源の位置情報を得ることができる。本発明の一実施形態によるビームフォーミング方法では、単に2つのマイクで空間情報のためのニューラルネットワークを訓練させ、これを介して予め定められた方向で音を取得することができる。したがって、下のような利点を有する。
【0071】
1.実際の状況において、固定されたマイクで測定する時、動く対象に対する操向ベクトルを正確に定義する必要がない。
【0072】
2.線形フィルタを求める過程で発生する特異点(Singular point)の発散が消える。これは、正面以外で
のパワーであるサイドローブ(side lobe)を減らして自動的にサイドローブ除去(side lobe cancelation)効果をもたらす。
【0073】
3.正面以外の角度で復元される音声のSTOI値で見る時、様々な方向から音声信号が入ってくる場合、MVDRの側面STOIがニューラルネットワークのSTOIよりもさらに大きく表れ、すなわち、ニューラルネットワークを用いる時、正面の音声信号をさらに正確に区分して出す。
【0074】
音源とマイクとの間に障害物がない時は、音源の角度によってのみ音の移動経路が影響を受ける。両側のマイクと音源の距離が同じなので、前から聞こえてくる音は互いに同じである。すなわち、前方ソースの到着時間の差(TDOA)は0に近接する。この点を利用すれば、前から聞こえてくる音をそのまま残すことができる。
【0075】
任意の位置にある音源で発生して二つのマイクに到達した音を
,
とすれば、それぞれの信号から2つの位相行列
,
を求めることができる。この位相行列の間の差が0に近いほど、正面から近い音源が作り出した音を意味する。これを区分するために、入力が0から遠ざかるほど0に近い出力を出し、入力が0に近いほど1を出力として出す関数を考えてみるならば、正面から来る信号だけを残すマスクを作ることが可能である。したがって、下の誤差Lを最小化するマスク
を探せば、正面から来る信号を復元することができる。
【0076】

【0077】
フーリエ変換を使用する時、信号は各周波数の単純なピュアトーン(pure tone)の和であると考えることができるが、同一の周波数の二つのピュアトーンは位相遅延を介して合わさる場合、全く新しいピュアトーン信号を作る。この問題は、両側マイクの位相差が音源の角度に正確に比例しない状況を作ることがあるので、単純に位相差にだけ依存する規則に基づいてマスクを作ることでは不正確となってしまうことである。音声を得ることは、広範囲な周波数を処理するフィルタが必要なので、この問題を解決しなければならない。これを克服するための方案として、本発明の実施形態はニューラルネットワークと基準マイクのスペクトログラムパターンを介して位相差を認識する方法を提供する。
【0078】
図6を参照すると、設計しようとするマスクは、実数で定義された0と1との間のマスクであるため、IBM(Ideal Binary mask)と類似した機能を遂行することができる。ただし、その間の値があるため、SBM(Soft Binary mask)になり得る。既存のIBMを用いたニューラルネットワークに対する研究を見れば、ノイズのある局面をそのまま使用していた。これより、ノイズがあるスペクトログラムでスピーチを再構成する時、スピーチの構成に関連した周波数領域を残しておくことだけで信号のスピーチ再構成が可能である。したがって、SBM方式のニューラルネットワークで求めたマスクは、位相差からマグニチュードに適用される方向性聴覚マスクを作り出すが、これは位相差が出る要素であっても信号を残す機能を遂行する。一方、TDOAから方向情報をより明確に得るために、仮定された時間遅延を最適化することを提示する方法があるが、本発明の多様な実施形態ではCNNを使用する。CNNは、イメージのような2D行列にさらに効率的で、計算能力があまり必要でないためである。また、コンボリューションフィルタは、理想的なマスクの位相差による減少幅に最適化されている。一方、ニューラルネットワークに位相差のみが入力として入る場合、目標にする音声のパターンを学習できないという問題点を防止するために、逆電波を利用することができる。時間領域で求められるMSE(mean squared error)は、位相情報があるマスクを訓練させる損失関数(loss function)で使用されるが、先に述べた方式はこの方法と似た方式である。逆STFT(ISTFT)でマスクされたスペクトログラムを復元することにより、損失関数を用いて時間領域のきれいな標的音と比較することができる。この場合、アップデートする勾配値は、基準マイクに対する音声パターン情報を含んでよい。
【0079】
多様な状況のデータでモデルを訓練させるために、シミュレーション方法を使用して所定のデータセットを生成し、ニューラルネットワークを用いて対象の音声を再構成し、ステレオチャネル音源は10×10×10mの空間シミュレーションを介して生成された。マイクの高さは2mで左右6cm間隔で2つの位置(9,5.06,2)と(9,4.94,2)に指定される。音源は、直径1メートルの半円上に位置し、この時に半円の中心はマイクの中心と同一である。得ようとする音源の位置は正面である90°,(7,5,2)に位置する。そして、半円上の4つの区間[0°,40°),[40°,80°),[100°,140°),[140°,180°)を分けて、各区間別の無作為の位置に雑音の音源を配置する。音声データセットのうちの一部は訓練データに使用され、他の一部は試験データに使用された。騒音データセットは、二つの人工騒音(speech shape noise及びbabble noise)とDEMAND databaseを使用し、これは13の録音された騒音である。訓練データは2つの人工騒音と8つの録音された騒音(カフェ、自動車、キッチン、ミーティング、メトロ、レストラン、駅、交通)で構成される。試験データは、5つの録音された騒音(バス、カフェテリア、居間、事務室、及び公用広場)で構成される。騒音を出すために、同一の騒音信号の無作為地点4つから音声の長さほど騒音が抽出された。その後、四ヶ所の音源から音が出ることでシミュレーションして、マイク2つで収容する方式を採択した。
【0080】
訓練データの場合、40の条件すなわち騒音状況10個とSNR4個(0Db,5dB,10dB,15dB)の組み合わせを使用した。試験データは、20個の他の条件すなわち5個の騒音状況と4個のSNR(2.5dB,7.5dB,12.5dB,17.5dB)の組み合わせを使用した。この時は、image-source methodのRoom impulse responseを用いて、距離によるエネルギー減少のみをシミュレーションした。残響は考慮しないため、残響時間
は0に設定した。
【0081】
2つのマイクが受信した各信号は、STFTを介してフーリエ領域に変換された。STFTは、16kHzサンプルレート(sample rate)の信号に256ポイントハミングウィンドウ(hamming window)を使用する。ウィンドウシフト(window shift)は128ポイント(128ポイントの重なり)を使用する。ニューラルネットワーク操作が完了した後、ISTFT作業を遂行する時も同一の条件が使用される。モデル構造は、表1の構造に従う。
【0082】
入力値は、STFT結果のうち低い周波数128個だけ含むものである。ニューラルネットワークの結果として得られたマスクと入力された128個の周波数のスペクトログラムを掛けて、129番目の周波数を0で満たしてISTFTして復元された信号を得る。
【0083】
【表1】
【0084】
ここで、入力は(batch,frequency,time step,channel)からなる。そして、コンボリューションレイヤーは、(filter height,filter width)、(stride height,stride width)、(padding height,padding width)で構成される。出力は、(batch,frequency,time step,channel)で構成される。活性関数は、全てPReLUが使用された。最後のレイヤーの活性関数は、シグモイド関数を使用して1チャネルと2チャネルをそれぞれマスクの実数部、虚数部として使用した。
【0085】
本発明の実施形態による有利な効果は、図9及び図10と関連して後述する。
【0086】
図6は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面であり、図7は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面であり、図8は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。
【0087】
図6を参照すると、本発明の一実施形態によるビームフォーミングシステム2は、第1マイクM1及び第2マイクM2を備えるモニタで具体化することができる。
【0088】
図7を参照すると、本発明の一実施形態によるビームフォーミングシステム2は、スマートフォンをはじめとするポータブルコンピューティング装置22を据え置きできる据置大型装置14を含むように具体化することができる。そして、マイクM1,M2を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号は、任意の接続手段を介してポータブルコンピューティング装置22に提供されてよい。そうすると、コンピュータ装置22は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。
【0089】
図8を参照すると、本発明の一実施形態によるビームフォーミングシステム4は、スマートフォンをはじめとするポータブルコンピューティング装置22に取り付けることができる取付型装置16として具体化することができる。そして、マイクM1,M2を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号は、任意の接続手段を介してポータブルコンピューティング装置22に提供してもよい。そうすると、コンピュータ装置22は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。
【0090】
図9及び図10は、本発明の実施形態によるビームフォーミング方法及びビームフォーミングシステムの有利な効果を説明するための図面である。
【0091】
第1マイクM1と第2マイクM2との間の予め定められた距離Dが12cmである場合のビームフォーミングアルゴリズムに、8,10,12,14,16cmのマイク距離でシミュレーションしたデータを入れて測定した結果で、図9は、古典的な方式(MVDR)を用いたビームフォーミングの角度別の音の大きさ(上列)とSTOI(short-time objective intelligibility)点数(下列)を示したものであり、図10は、本発明の多様な実施形態によるニューラルネットワークを用いたビームフォーミングの角度別の音の大きさ(上列)とSTOI点数(下列)を示したものである。
【0092】
STOIは、音の大きさと関係なしに音の復元された程度と関連のある指標であって、古典的な方式の場合、聞こうとする方向でない方向からSTOIが高く示される反面、本発明の多様な実施形態によるニューラルネットワーク方式においては低く示されて、これを通じて、本発明の多様な実施形態によるニューラルネットワーク方式が、所望する方向ではないところの発話者が話した音声をさらに確実に分離して、より妨害を受けることが少ないということが分かる。
【0093】
これまで説明した本発明の実施形態によれば、多様な騒音環境に対する操向ベクトルを演算する必要なしに、位相差のみを用いてマイクで受信される音声を復元することができ、ビームフォーミングを効率的に具体化することができる。
【0094】
既存のMVDRの場合、残響が激しい環境では操向ベクトルを得るのが難しく、残響がない環境であってもビデオ対話の場合、遠距離の音源を仮定した形を求めることができず、簡単な形の操向ベクトルを求めることが難しくなる。また、実際の状況では話者が動く場合が多いが、操向ベクトルを正確に予測するほど、このような環境で使用することが難しくなる。また、上で
で表現した空間相関行列を求める時、雑音が混ざった音を利用するので、正確な予測が不可能である。しかし、本方式は、ニューラルネットワークを使用して大量のデータから空間情報を学習するので操向ベクトルを計算せず、きれいな音声信号を標的音声にして学習する方法を使用するため、正確な学習が可能である。本方法を通じて訓練した人工知能モデルと既存の方式であるMVDR方式で824個の試験データを計算し、求められた正面の音の平均SSNR(Segmented Signal to Noise Ratio)指標を見れば、雑音が含まれた音は-1.557、MVDRを用いた音は-0.120、ニューラルネットワークを通過したモデルは2.165であり、ニューラルネットワークモデルが最も高いことが分かる。
【0095】
以上で本発明の実施形態について詳細に説明したが、本発明の権利範囲はこれに限定されるものではなく、次の請求範囲で定義している本発明の基本概念を用いた、本発明が属する技術分野における通常の知識を有する者の種々の変形及び改良形態もまた本発明の権利範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【国際調査報告】