特表2024-508821 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープヒアリングインコーポレイテッドの特許一覧

特表2024-508821ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-28

(54)【発明の名称】ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム

(51)【国際特許分類】

H04R 3/00 20060101AFI20240220BHJP

【ＦＩ】

H04R3/00 320

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023551942

(86)(22)【出願日】2021-09-29

(85)【翻訳文提出日】2023-05-02

(86)【国際出願番号】 KR2021013328

(87)【国際公開番号】W WO2022097919

(87)【国際公開日】2022-05-12

(31)【優先権主張番号】10-2020-0146191

(32)【優先日】2020-11-04

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】523137094

【氏名又は名称】ディープヒアリングインコーポレイテッド

【氏名又は名称原語表記】ＤＥＥＰＨＥＡＲＩＮＧＩＮＣ．

(74)【代理人】

【識別番号】110003579

【氏名又は名称】弁理士法人山崎国際特許事務所

(74)【代理人】

【識別番号】100118647

【弁理士】

【氏名又は名称】赤松利昭

(74)【代理人】

【識別番号】100123892

【弁理士】

【氏名又は名称】内藤忠雄

(74)【代理人】

【識別番号】100169993

【弁理士】

【氏名又は名称】今井千裕

(74)【代理人】

【識別番号】100173978

【弁理士】

【氏名又は名称】朴志恩

(72)【発明者】

【氏名】アン、カンフン

(72)【発明者】

【氏名】パク、サン－ヒュン

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220BA06

5D220BC05

(57)【要約】

ビームフォーミング方法及びビームフォーミングシステムが提供される。ビームフォーミング方法は、第１マイクと、前記第１マイクから予め定められた距離だけ離隔して配置された第２マイクを用いて第１音信号及び第２音信号をそれぞれ受信する段階、前記第１音信号及び前記第２音信号のそれぞれに対するフーリエ変換結果を取得する段階、前記フーリエ変換結果から前記第１音信号と前記第２音信号の位相差を取得する段階、ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階、前記ニューラルプロセッサの演算結果と前記第１音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階、及び前記アダマール積結果を出力する段階を含むことができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１マイクと、前記第１マイクから予め定められた距離だけ離隔して配置された第２マイクを用いて第１音信号及び第２音信号をそれぞれ受信する段階と、
前記第１音信号及び前記第２音信号のそれぞれに対するフーリエ変換結果を取得する段階と、
前記フーリエ変換結果から前記第１音信号と前記第２音信号の位相差を取得する段階と、
ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階と、
前記ニューラルプロセッサの演算結果と前記第１音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階と、
前記アダマール積結果を出力する段階と
を含む、ビームフォーミング方法。

【請求項2】

前記アダマール積を遂行する段階は、
前記アダマール積を遂行する前に、前記演算結果に対してマスク（mask）を適用する段階をさらに含む、請求項１に記載のビームフォーミング方法。

【請求項3】

前記アダマール積を遂行する段階は、
前記アダマール積を遂行した後に、利得制御（gain control）を遂行する段階をさらに含む、請求項１に記載のビームフォーミング方法。

【請求項4】

前記予め定められた距離は、１０ｃｍないし１４ｃｍである、請求項１に記載のビームフォーミング方法。

【請求項5】

前記位相差を用いて前記ビームフォーミングモデルを学習させる段階をさらに含む、請求項１に記載のビームフォーミング方法。

【請求項6】

第１音信号を受信する第１マイクと、
前記第１マイクから予め定められた距離だけ離隔して配置されて第２音信号を受信する第２マイクと、
前記第１音信号に対するフーリエ変換結果を取得する第１ＳＴＦＴモジュールと、
前記第２音信号に対するフーリエ変換結果を取得する第２ＳＴＦＴモジュールと、
前記フーリエ変換結果から前記第１音信号と前記第２音信号の位相差を取得する位相差取得モジュールと、
前記位相差の入力を受けてビームフォーミングモデルを用いてニューラルネットワーク演算を遂行するニューラルプロセッサと、
前記ニューラルプロセッサの演算結果と前記第１音信号に対するフーリエ変換結果に対してアダマール積を遂行するアダマール積モジュールと、
前記アダマール積の結果を出力する出力モジュールと
を含む、ビームフォーミングシステム。

【請求項7】

前記アダマール積を遂行する前に、前記演算結果に対してマスクを適用するマスキングモジュールをさらに含む、請求項６に記載のビームフォーミングシステム。

【請求項8】

前記アダマール積を遂行した後に、利得制御を遂行する利得制御モジュールをさらに含む、請求項６に記載のビームフォーミングシステム。

【請求項9】

前記予め定められた距離は、１０ｃｍないし１４ｃｍである、請求項６に記載のビームフォーミングシステム。

【請求項10】

前記位相差を用いて前記ビームフォーミングモデルを学習させる学習モデルをさらに含む、請求項６に記載のビームフォーミングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステムに関する。

【背景技術】

【0002】

カクテルパーティー効果（cocktail party effect）は、パーティーの参席者が騒々しい周辺の騒音がする部屋にいるにも関わらず、対話者との話しを選択的に集中して上手に受け入れる現象をいう。機械で、このような能力、すなわちビームフォーミング（beamforming）を具体化することはカクテルパーティー問題として知られてきたし、最近では、カクテルパーティー問題解決のためにニューラルネットワークを利用しようとする試みが増えている。ビームフォーミング技法の性能を高めることは、オーディオ関連の電子製品の性能と密接な関係があり、特に補聴器とも関連があるため、非常に重要な社会問題という意味も持つことができる。

【0003】

ビームフォーミングは、２つ以上のマイクを用いて取得した音を分析して対象信号を再構成する過程を意味し得る。このために、各マイクから来る信号に対して人為的な遅延時間を作って合わせるように、与えられた制限条件を満足させつつ入ってくる音の大きさを最小化する技法が、かなり前から使われてきた。最近では、ニューラルネットワークを用いたＭＶＤＲ（minimum variance distortionless response）ビームフォーマーの性能向上に関する研究、又は、ビームフォーマーを具体化するニューラルネットワークモデルの訓練方法などが活発に研究されている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、規則基盤ビームフォーミングで空間情報を得るために、大量の演算が要求される限界を克服するためにニューラルネットワークを使用するものの、ビームフォーミングに最適化されるようにニューラルネットワークの構造を設計することにより、パラメータ量及び演算量を最小化することができる、ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステムを提供するためのものである。

【課題を解決するための手段】

【0005】

本発明の一実施形態によるビームフォーミング方法は、第１マイクと、前記第１マイクから予め定められた距離ほど離隔して配置された第２マイクを用いて第１音信号及び第２音信号をそれぞれ受信する段階、前記第１音信号及び前記第２音信号のそれぞれに対するフーリエ変換結果を取得する段階、前記フーリエ変換結果から前記第１音信号と前記第２音信号の位相差を取得する段階、ニューラルプロセッサを用いて前記位相差をビームフォーミングモデルに入力して演算する段階、前記ニューラルプロセッサの演算結果と前記第１音信号に対するフーリエ変換結果に対してアダマール積を遂行する段階、及び前記アダマール積の結果を出力する段階を含むことができる。

【0006】

前記アダマール積を遂行する段階は、前記アダマール積を遂行する前に、前記演算結果に対してマスク（mask）を適用する段階をさらに含むことができる。

【0007】

前記アダマール積を遂行する段階は、前記アダマール積を遂行した後に、利得制御（gain control）を遂行する段階をさらに含むことができる。

【0008】

前記予め定められた距離は、１０ｃｍないし１４ｃｍとすることができる。

【0009】

前記ビームフォーミング方法は、前記位相差を用いて前記ビームフォーミングモデルを学習させる段階をさらに含むことができる。

【0010】

本発明の一実施形態によるビームフォーミングシステムは、第１音信号を受信する第１マイク、前記第１マイクから予め定められた距離ほど離隔して配置され第２音信号を受信する第２マイク、前記第１音信号に対するフーリエ変換結果を取得する第１ＳＴＦＴモジュール、前記第２音信号に対するフーリエ変換結果を取得する第２ＳＴＦＴモジュール、前記フーリエ変換結果から前記第１音信号と前記第２音信号の位相差を取得する位相差取得モジュール、前記位相差の入力を受けてビームフォーミングモデルを用いてニューラルネットワーク演算を遂行するニューラルプロセッサ、前記ニューラルプロセッサの演算結果と前記第１音信号に対するフーリエ変換結果に対してアダマール積を遂行するアダマール積モジュール、及び前記アダマール積の結果を出力する出力モジュールを含むことができる。

【0011】

前記ビームフォーミングシステムは、前記アダマール積を遂行する前に、前記演算結果に対してマスクを適用するマスキングモジュールをさらに含むことができる。

【0012】

前記ビームフォーミングシステムは、前記アダマール積を遂行した後に、利得制御を遂行する利得制御モジュールをさらに含むことができる。

【0013】

前記予め定められた距離は、１０ｃｍないし１４ｃｍとすることができる。

【0014】

前記ビームフォーミングシステムは、前記位相差を用いて前記ビームフォーミングモデルを学習させる学習モデルをさらに含むことができる。

【発明の効果】

【0015】

本発明の実施形態によれば、多様な騒音環境に対する操向ベクトルと空間相関行列を演算する必要なしに、位相差のみを用いてマイクで受信される音声を復元することができ、ビームフォーミングを効率的に具体化することができる。また、軽量化されたオートエンコーダの適用が可能であって、軽量化及び小型化を可能にすることができる。

【図面の簡単な説明】

【0016】

【図1】図１は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0017】

【図2】図２は、本発明の実施形態によるビームフォーミング装置を具体化するためのコンピューティング装置を説明するための図面である。

【0018】

【図3】図３は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。

【0019】

【図4】図４は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。

【0020】

【図5】図５は、本発明の一実施形態によるビームフォーミング方法に対する一具体例を説明するための図面である。

【0021】

【図6】図６は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0022】

【図7】図７は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0023】

【図8】図８は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0024】

【図9-10】図９及び図１０は、本発明の実施形態によるビームフォーミング方法及びビームフォーミングシステムの有利な効果を説明するための図面である。

【発明を実施するための形態】

【0025】

以下では、添付した図面を参照して本発明の実施形態について、本発明が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は種々の相違した形態で具体化されてよく、ここで説明する実施形態に限定されない。そして、図面において本発明を明確に説明するために説明と関係ない部分は省略し、明細書全体を通じて類似の部分に対しては類似の図面符号を付した。

【0026】

明細書及び請求範囲全体において、ある部分がある構成要素を「含む」とするとき、これは特に反対になる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含み得ることを意味する。また、明細書に記載された「...部」、「...器」、「モジュール」等の用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア又はハードウェア及びソフトウェアの組み合わせで具体化されてよい。また、以下で説明される実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、プログラム又はソフトウェアで具体化されてよく、プログラム又はソフトウェアはコンピュータで読み取り可能な媒体に格納されてよい。

【0027】

図１は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0028】

図１を参照すると、本発明の一実施形態によるビームフォーミングシステム１は、第１マイクＭ１、第２マイクＭ２、連結端子Ｔを含むビームフォーミング装置１０、モニタ２０を含んでよい。

【0029】

ビームフォーミング装置１０は、モニタ２０に取り付けられてマイクＭ１，Ｍ２を用いて音を受信することができる。例えば、ビームフォーミング装置１０は、マイクＭ１，Ｍ２を用いてモニタ２０の前でビデオ会議に参加する人の声を受信することができる。特に、ビームフォーミング装置１０は、周辺の騒音が多い環境でビデオ会議に参加する人の声を受信することができる。

【0030】

ビームフォーミング装置１０は、マイクＭ１，Ｍ２を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号を出力することができる。例えば、ビームフォーミング装置１０は、周辺の騒音が多い環境でビデオ会議に参加する人の声を分別して、他のコンピューティング装置（例えば、モニタ２０が連結された個人用コンピュータ）に提供することができる。そうすると、当該コンピュータ装置は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。ビームフォーミング装置１０が人の声を分別した出力信号を他のコンピューティング装置に提供するために連結端子Ｔが使用されてよく、本実施形態において連結端子ＴはＵＳＢ（Universal Serial Bus）端子であってよいが、本発明の範囲がこれに制限されるわけではない。

【0031】

本実施形態において、第１マイクＭ１と第２マイクＭ２は、予め定められた距離Ｄだけ離隔して配置されてよい。例えば、第１マイクＭ１は、第１側（例えば、左側）でビデオ会議に参加する人の声と周辺の騒音（すなわち、第１音信号）とを受信することができ、第２マイクＭ２は、第１マイクＭ１から予め定められた距離Ｄだけ離れた第２側（例えば、右側）でビデオ会議に参加する人の声と周辺の騒音（すなわち、第２音信号）とを受信することができる。

【0032】

本実施形態において、第１マイクＭ１と第２マイクＭ２との間の予め定められた距離Ｄは１０ｃｍないし１４ｃｍ、好ましくは１２ｃｍであってよいが、本発明の範囲がこれに制限されるわけではない。

【0033】

図２は、本発明の実施形態によるビームフォーミング装置を具体化するためのコンピューティング装置を説明するための図面である。

【0034】

図２を参照すると、本発明の実施形態によるビームフォーミング装置１０を具体化するためのコンピューティング装置は、プロセッサ１００、ニューラルプロセッサ１１０、メモリ１２０、出力モジュール１３０、第１マイクＭ１及び第２マイクＭ２を含んでよく、当該コンピューティング装置は、本発明の実施形態によるビームフォーミング方法を遂行するために動作することもできる。プロセッサ１００、ニューラルプロセッサ１１０、メモリ１２０、出力モジュール１３０、第１マイクＭ１及び第２マイクＭ２は、バス１９０を介してデータをやり取りすることができる。

【0035】

プロセッサ１００は、ビームフォーミング装置１０に対する全般的な制御を遂行し、ニューラルプロセッサ１１０と共に、又は、ニューラルプロセッサ１１０と独立して、本明細書で説明する機能及び方法を遂行することができる。プロセッサ１００は、ＡＰ（Application Processor）、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）などのような多様な種類のプロセッサで具体化されてよく、本発明の範囲は特定のプロセッサに制限されない。

【0036】

ニューラルプロセッサ１１０は、本明細書で説明する機能及び方法のうち、特にニューラルネットワーク演算を遂行することができる。例えば、ニューラルプロセッサ１１０は、本明細書で説明するビームフォーミングモデルを用いた演算を遂行することができる。ここで、ニューラルネットワークは、ＣＮＮ（Convolutional Neural Network）を含んでよいが、本発明の範囲がこれに制限されるわけではない。

【0037】

メモリ１２０は、プロセッサ１００又はニューラルプロセッサ１１０が演算のために必要とするデータ又は駆動されるアプリケーションを積載することができる。ＤＲＡＭ（Dynamic Random Access memory）、ＳＲＡＭ（Static Random Access memory)をはじめとする多様な種類の揮発性メモリを含んでもよいが、フラッシュメモリのような非揮発性メモリを含むことができたり、揮発性メモリと非揮発性メモリの組み合わせを含むこともできる。

【0038】

出力モジュール１３０は、ビームフォーミング装置１０がマイクＭ１，Ｍ２を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号を出力するための任意の入出力インターフェース装置を含んでもよい。

【0039】

また、本発明の実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、キー制御方法、キー制御装置、及び使用者機器のうち少なくとも一部はコンピューティング装置で実行されるプログラム又はソフトウェアで具体化されてよく、プログラム又はソフトウェアはコンピュータで読み取り可能な媒体に格納されてよい。また、本発明の実施形態によるビームフォーミング方法、ビームフォーミング装置、及びビームフォーミングシステムのうち少なくとも一部は、コンピューティング装置と電気的に接続され得るハードウェアで具体化されてもよい。

【0040】

図１で説明したようなビームフォーミング装置１０は、モニタ２０に取り付けられるように具体化され、人の声を分別した出力信号を提供するために他のコンピューティング装置に連結されてよい。ここで特に注目する点は、ビームフォーミング装置１０はニューラルプロセッサ１１０を独自に保有しており、他のコンピューティング装置の演算資源を使用しなくても、自身のニューラルプロセッサ１１０を用いて周辺の騒音が多い環境でビデオ会議に参加する人の声を分別するためにニューラルネットワーク演算を遂行できるという点である。

【0041】

ここで図３ないし図５を参照し、図３は本発明の実施形態によるビームフォーミング方法について説明する。

【0042】

図３は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。

【0043】

図３を参照すると、本発明の一実施形態によるビームフォーミング方法３０において、第１マイクＭ１は、第１側から第１音信号Ｓ１を受信することができる。例えば、第１マイクＭ１は、第１側からビデオ会議に参加する人の声と周辺の騒音とを含む第１音信号Ｓ１を受信して、これを第１ＳＴＦＴモジュール３００（図面上では、Ｌ_ＳＴＦＴモジュールで表示する）に伝達することができる。

【0044】

第１ＳＴＦＴモジュール３００は、第１マイクＭ１から受信した第１音信号Ｓ１に対してフーリエ変換演算を遂行し、第１音信号Ｓ１に対するフーリエ変換結果Ｐ１を取得することができる。

【0045】

一方、第１マイクＭ１から予め定められた距離Ｄだけ離隔して配置される第２マイクＭ２は、第２側から第２音信号Ｓ２を受信することができる。例えば、第２マイクＭ２は、第２側からビデオ会議に参加する人の声と周辺の騒音とを含む第２音信号Ｓ２を受信して、これを第２ＳＴＦＴモジュール３０１（図面上では、Ｒ_ＳＴＦＴモジュールで表示する）に伝達することができる。

【0046】

第２ＳＴＦＴモジュール３０１は、第２マイクＭ２から受信した第２音信号Ｓ２に対してフーリエ変換演算を遂行し、第２音信号Ｓ２に対するフーリエ変換結果Ｐ２を取得することができる。

【0047】

位相差取得モジュール３０２は、第１ＳＴＦＴモジュール３００から提供を受けたフーリエ変換結果Ｐ１及び第２ＳＴＦＴモジュール３０１から提供を受けたフーリエ変換結果Ｐ２から、第１音信号Ｓ１と第２音信号Ｓ２の位相差ｄＰを取得することができる。

【0048】

学習モジュール３０３は、第１音信号Ｓ１と第２音信号Ｓ２の位相差ｄＰを利用してビームフォーミングモデル３０４を学習させることができる。これにより、ビームフォーミングモデル３０４は、第１マイクＭ１と第２マイクＭ２を介して受信される２つの音信号の位相差のみでビームフォーミングを遂行できるように学習されてよい。

【0049】

学習の際、第１マイクＭ１と第２マイクＭ２との間の予め定められた距離Ｄは、１０ｃｍないし１４ｃｍ、好ましくは１２ｃｍであってよいが、本発明の範囲がこれに制限されるわけではない。予め定められた距離Ｄが１２ｃｍであるとき、学習されたビームフォーミングモデル３０４の性能は、推論時に第１マイクＭ１と第２マイクＭ２との間の距離が１０ｃｍないし１４ｃｍである場合にまで性能を発揮することができる。

【0050】

図４は、本発明の一実施形態によるビームフォーミング方法を説明するための図面である。

【0051】

図４を参照すると、本発明の一実施形態によるビームフォーミング方法３１において、第１マイクＭ１は、第１側から第１音信号Ｓ１を受信することができる。例えば、第１マイクＭ１は、第１側からビデオ会議に参加する人の声と周辺の騒音とを含む第１音信号Ｓ１を受信して、これを第１ＳＴＦＴモジュール３１０（図面上ではＬ_ＳＴＦＴモジュールで表示する）に伝達することができる。

【0052】

第１ＳＴＦＴモジュール３１０は、第１マイクＭ１から受信した第１音信号Ｓ１に対してフーリエ変換演算を遂行し、第１音信号Ｓ１に対するフーリエ変換結果Ｐ１を取得することができる。

【0053】

一方、第１マイクＭ１から予め定められた距離Ｄほど離隔して配置される第２マイクＭ２は、第２側から第２音信号Ｓ２を受信することができる。例えば、第２マイクＭ２は、第２側からビデオ会議に参加する人の声と周辺の騒音とを含む第２音信号Ｓ２を受信して、これを第２ＳＴＦＴモジュール３１１（図面上ではＲ_ＳＴＦＴモジュールで表示する）に伝達することができる。

【0054】

第２ＳＴＦＴモジュール３１１は、第２マイクＭ２から受信した第２音信号Ｓ２に対してフーリエ変換演算を遂行し、第２音信号Ｓ２に対するフーリエ変換結果Ｐ２を取得することができる。

【0055】

位相差取得モジュール３１２は、第１ＳＴＦＴモジュール３１０から提供を受けたフーリエ変換結果Ｐ１及び第２ＳＴＦＴモジュール３１１から提供を受けたフーリエ変換結果Ｐ２から、第１音信号Ｓ１と第２音信号Ｓ２の位相差ｄＰを取得することができる。

【0056】

図３で説明したように、学習が完了したビームフォーミングモデル３１４は、第１音信号Ｓ１と第２音信号Ｓ２の位相差ｄＰを入力として受け、ニューラルネットワーク演算（すなわち、推論演算）を遂行することができる。

【0057】

マスキングモジュール３１５は、推論演算結果に対してマスクを適用することができ、続いてアダマール積モジュール３１６は、推論演算結果（又は、マスクが適用された結果）と第２ＳＴＦＴモジュール３１１から提供を受けた第２音信号Ｓ２に対するフーリエ変換結果Ｐ２に対してアダマール積を遂行することができる。ここで、アダマール積は同一の大きさの２つの行列の各成分を掛ける演算であってよい。

【0058】

出力モジュール３１７は、アダマール積モジュール３１６から提供を受けたアダマール積結果Ｓ３を出力することができる。例えば、出力モジュール３１７は、ビームフォーミングモデル３１４を用いマイクＭ１，Ｍ２を用いて受信した音信号に対してビームフォーミングを遂行した結果として取得したビームフォーミングされた音信号Ｓ３を出力することができる。例えば、ビームフォーミングされた音信号Ｓ３は、周辺の騒音が多い環境でビデオ会議に参加する人の声を分別したものであってよく、他のコンピューティング装置（例えば、モニタ２０が連結された個人用コンピュータ）に提供され、続いて他のビデオ会議参加者に提供されてよい。

【0059】

図５は、本発明の一実施形態によるビームフォーミング方法に対する一具体例を説明するための図面である。

【0060】

方向性聴覚のためには、基本的に２つ以上のマイクが必要である。マイク配列の幾何学的形態は、各マイクによって受信される信号が整列される空間的特性を有している。ビームフォーミングのためのマスクを取得する過程は、次のように公式化することができる。まず、多数のマイクから受信されたそれぞれの信号をＳＴＦＴ（short time Fourier transform）してスペクトログラムを得ることができるとする。

は得ようとする音声であり、下記のように表現される。

【0061】

【0062】

【0063】

また、

は雑音というとき、音声と雑音が同時に入ってくるマイク配列の入力は

で表すことができる。

【0064】

は、角度によるマイク配列の特性を表す。この時、入力されたスペクトログラムにフィルタ

を取るとすれば、その結果は

になる。したがって、入力信号の大きさを最小化するものの、得ようとする信号は残す方向に

をデザインすることができる。太い文字で表示したものがベクトルとすれば、

のとき、

【0065】

【0066】

になり、この時、解は

【0067】

【0068】

で求められる。ここで、上付き文字Ｈは、共益複素数を取った後に前置した行列をいう。したがって、求められたフィルタを用いて得ようと思う音声のスペクトログラムは、

のように得ることができる。このような方式を使ってビームフォーミングを具体化する場合に最も重要な部分は、正しく操向ベクトル

と空間相関行列

を正確に求めることである。

【0069】

このように、ニューラルネットワークを使用しないＭＶＤＲ方式において、ＭＶＤＲを正確に満たすためには、音源から発生した音がそれぞれのマイクに到達するまでの経路を数学的にモデリングする操向ベクトルが必要であるが、ビデオ対話のようにマイクと使用者の口が近い距離、例えば１ｍ前後に位置し、マイクの間隔もまた近接した距離、例えば数ｃｍ又は十数ｃｍ程度である場合には、数学的モデリングが非常に難しい。また、実際のビデオ対話の環境のように使用者が不規則に動く場合、操向ベクトルを固定の値にしておく場合に使用者の不便度はさらに上がることになるという限界点がある。このような限界点を克服するために、操向ベクトルではなくニューラルネットワークを利用することができる。

【0070】

また、本方式においてニューラルネットワークの入力で使用する位相差行列は、既存の方式において音源の位置情報を得るために使用する空間相関行列よりも求める過程が簡単であって、さらに容易に音源の位置情報を得ることができる。本発明の一実施形態によるビームフォーミング方法では、単に２つのマイクで空間情報のためのニューラルネットワークを訓練させ、これを介して予め定められた方向で音を取得することができる。したがって、下のような利点を有する。

【0071】

１．実際の状況において、固定されたマイクで測定する時、動く対象に対する操向ベクトルを正確に定義する必要がない。

【0072】

２．線形フィルタを求める過程で発生する特異点（Singular point）の発散が消える。これは、正面以外で

のパワーであるサイドローブ（side lobe）を減らして自動的にサイドローブ除去（side lobe cancelation）効果をもたらす。

【0073】

３．正面以外の角度で復元される音声のＳＴＯＩ値で見る時、様々な方向から音声信号が入ってくる場合、ＭＶＤＲの側面ＳＴＯＩがニューラルネットワークのＳＴＯＩよりもさらに大きく表れ、すなわち、ニューラルネットワークを用いる時、正面の音声信号をさらに正確に区分して出す。

【0074】

音源とマイクとの間に障害物がない時は、音源の角度によってのみ音の移動経路が影響を受ける。両側のマイクと音源の距離が同じなので、前から聞こえてくる音は互いに同じである。すなわち、前方ソースの到着時間の差（TDOA）は０に近接する。この点を利用すれば、前から聞こえてくる音をそのまま残すことができる。

【0075】

任意の位置にある音源で発生して二つのマイクに到達した音を

とすれば、それぞれの信号から２つの位相行列

を求めることができる。この位相行列の間の差が０に近いほど、正面から近い音源が作り出した音を意味する。これを区分するために、入力が０から遠ざかるほど０に近い出力を出し、入力が０に近いほど１を出力として出す関数を考えてみるならば、正面から来る信号だけを残すマスクを作ることが可能である。したがって、下の誤差Ｌを最小化するマスク

を探せば、正面から来る信号を復元することができる。

【0076】

【0077】

フーリエ変換を使用する時、信号は各周波数の単純なピュアトーン（pure tone）の和であると考えることができるが、同一の周波数の二つのピュアトーンは位相遅延を介して合わさる場合、全く新しいピュアトーン信号を作る。この問題は、両側マイクの位相差が音源の角度に正確に比例しない状況を作ることがあるので、単純に位相差にだけ依存する規則に基づいてマスクを作ることでは不正確となってしまうことである。音声を得ることは、広範囲な周波数を処理するフィルタが必要なので、この問題を解決しなければならない。これを克服するための方案として、本発明の実施形態はニューラルネットワークと基準マイクのスペクトログラムパターンを介して位相差を認識する方法を提供する。

【0078】

図６を参照すると、設計しようとするマスクは、実数で定義された０と１との間のマスクであるため、ＩＢＭ（Ideal Binary mask）と類似した機能を遂行することができる。ただし、その間の値があるため、ＳＢＭ（Soft Binary mask）になり得る。既存のＩＢＭを用いたニューラルネットワークに対する研究を見れば、ノイズのある局面をそのまま使用していた。これより、ノイズがあるスペクトログラムでスピーチを再構成する時、スピーチの構成に関連した周波数領域を残しておくことだけで信号のスピーチ再構成が可能である。したがって、ＳＢＭ方式のニューラルネットワークで求めたマスクは、位相差からマグニチュードに適用される方向性聴覚マスクを作り出すが、これは位相差が出る要素であっても信号を残す機能を遂行する。一方、ＴＤＯＡから方向情報をより明確に得るために、仮定された時間遅延を最適化することを提示する方法があるが、本発明の多様な実施形態ではＣＮＮを使用する。ＣＮＮは、イメージのような２Ｄ行列にさらに効率的で、計算能力があまり必要でないためである。また、コンボリューションフィルタは、理想的なマスクの位相差による減少幅に最適化されている。一方、ニューラルネットワークに位相差のみが入力として入る場合、目標にする音声のパターンを学習できないという問題点を防止するために、逆電波を利用することができる。時間領域で求められるＭＳＥ（mean squared error）は、位相情報があるマスクを訓練させる損失関数（loss function）で使用されるが、先に述べた方式はこの方法と似た方式である。逆ＳＴＦＴ（ISTFT）でマスクされたスペクトログラムを復元することにより、損失関数を用いて時間領域のきれいな標的音と比較することができる。この場合、アップデートする勾配値は、基準マイクに対する音声パターン情報を含んでよい。

【0079】

多様な状況のデータでモデルを訓練させるために、シミュレーション方法を使用して所定のデータセットを生成し、ニューラルネットワークを用いて対象の音声を再構成し、ステレオチャネル音源は１０×１０×１０ｍの空間シミュレーションを介して生成された。マイクの高さは２ｍで左右６ｃｍ間隔で２つの位置（９，５.０６，２）と（９，４.９４，２）に指定される。音源は、直径１メートルの半円上に位置し、この時に半円の中心はマイクの中心と同一である。得ようとする音源の位置は正面である９０°，（７，５，２）に位置する。そして、半円上の４つの区間［０°，４０°），［４０°，８０°），［１００°，１４０°），［１４０°，１８０°）を分けて、各区間別の無作為の位置に雑音の音源を配置する。音声データセットのうちの一部は訓練データに使用され、他の一部は試験データに使用された。騒音データセットは、二つの人工騒音（speech shape noise及びbabble noise）とDEMAND databaseを使用し、これは１３の録音された騒音である。訓練データは２つの人工騒音と８つの録音された騒音（カフェ、自動車、キッチン、ミーティング、メトロ、レストラン、駅、交通）で構成される。試験データは、５つの録音された騒音（バス、カフェテリア、居間、事務室、及び公用広場）で構成される。騒音を出すために、同一の騒音信号の無作為地点４つから音声の長さほど騒音が抽出された。その後、四ヶ所の音源から音が出ることでシミュレーションして、マイク２つで収容する方式を採択した。

【0080】

訓練データの場合、４０の条件すなわち騒音状況１０個とＳＮＲ４個（0Db，5dB，10dB，15dB）の組み合わせを使用した。試験データは、２０個の他の条件すなわち５個の騒音状況と４個のＳＮＲ（2.5dB，7.5dB，12.5dB，17.5dB）の組み合わせを使用した。この時は、image-source methodのRoom impulse responseを用いて、距離によるエネルギー減少のみをシミュレーションした。残響は考慮しないため、残響時間

は０に設定した。

【0081】

２つのマイクが受信した各信号は、ＳＴＦＴを介してフーリエ領域に変換された。ＳＴＦＴは、１６ｋＨｚサンプルレート（sample rate）の信号に２５６ポイントハミングウィンドウ（hamming window）を使用する。ウィンドウシフト（window shift）は１２８ポイント（１２８ポイントの重なり）を使用する。ニューラルネットワーク操作が完了した後、ＩＳＴＦＴ作業を遂行する時も同一の条件が使用される。モデル構造は、表１の構造に従う。

【0082】

入力値は、ＳＴＦＴ結果のうち低い周波数１２８個だけ含むものである。ニューラルネットワークの結果として得られたマスクと入力された１２８個の周波数のスペクトログラムを掛けて、１２９番目の周波数を０で満たしてＩＳＴＦＴして復元された信号を得る。

【0083】

【表1】

【0084】

ここで、入力は（batch，frequency，time step，channel）からなる。そして、コンボリューションレイヤーは、（filter height，filter width）、（stride height，stride width）、（padding height，padding width）で構成される。出力は、（batch，frequency，time step，channel）で構成される。活性関数は、全てPReLUが使用された。最後のレイヤーの活性関数は、シグモイド関数を使用して１チャネルと２チャネルをそれぞれマスクの実数部、虚数部として使用した。

【0085】

本発明の実施形態による有利な効果は、図９及び図１０と関連して後述する。

【0086】

図６は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面であり、図７は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面であり、図８は、本発明の一実施形態によるビームフォーミングシステムを説明するための図面である。

【0087】

図６を参照すると、本発明の一実施形態によるビームフォーミングシステム２は、第１マイクＭ１及び第２マイクＭ２を備えるモニタで具体化することができる。

【0088】

図７を参照すると、本発明の一実施形態によるビームフォーミングシステム２は、スマートフォンをはじめとするポータブルコンピューティング装置２２を据え置きできる据置大型装置１４を含むように具体化することができる。そして、マイクＭ１，Ｍ２を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号は、任意の接続手段を介してポータブルコンピューティング装置２２に提供されてよい。そうすると、コンピュータ装置２２は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。

【0089】

図８を参照すると、本発明の一実施形態によるビームフォーミングシステム４は、スマートフォンをはじめとするポータブルコンピューティング装置２２に取り付けることができる取付型装置１６として具体化することができる。そして、マイクＭ１，Ｍ２を用いて受信した音信号に対してビームフォーミングを遂行した後、その結果として取得したビームフォーミングされた音信号は、任意の接続手段を介してポータブルコンピューティング装置２２に提供してもよい。そうすると、コンピュータ装置２２は、分別された人の声を、例えば他のビデオ会議の参加者に提供することができる。

【0090】

図９及び図１０は、本発明の実施形態によるビームフォーミング方法及びビームフォーミングシステムの有利な効果を説明するための図面である。

【0091】

第１マイクＭ１と第２マイクＭ２との間の予め定められた距離Ｄが１２ｃｍである場合のビームフォーミングアルゴリズムに、８，１０，１２，１４，１６ｃｍのマイク距離でシミュレーションしたデータを入れて測定した結果で、図９は、古典的な方式（MVDR）を用いたビームフォーミングの角度別の音の大きさ（上列）とＳＴＯＩ（short-time objective intelligibility）点数（下列）を示したものであり、図１０は、本発明の多様な実施形態によるニューラルネットワークを用いたビームフォーミングの角度別の音の大きさ（上列）とＳＴＯＩ点数（下列）を示したものである。

【0092】

ＳＴＯＩは、音の大きさと関係なしに音の復元された程度と関連のある指標であって、古典的な方式の場合、聞こうとする方向でない方向からＳＴＯＩが高く示される反面、本発明の多様な実施形態によるニューラルネットワーク方式においては低く示されて、これを通じて、本発明の多様な実施形態によるニューラルネットワーク方式が、所望する方向ではないところの発話者が話した音声をさらに確実に分離して、より妨害を受けることが少ないということが分かる。

【0093】

これまで説明した本発明の実施形態によれば、多様な騒音環境に対する操向ベクトルを演算する必要なしに、位相差のみを用いてマイクで受信される音声を復元することができ、ビームフォーミングを効率的に具体化することができる。

【0094】

既存のＭＶＤＲの場合、残響が激しい環境では操向ベクトルを得るのが難しく、残響がない環境であってもビデオ対話の場合、遠距離の音源を仮定した形を求めることができず、簡単な形の操向ベクトルを求めることが難しくなる。また、実際の状況では話者が動く場合が多いが、操向ベクトルを正確に予測するほど、このような環境で使用することが難しくなる。また、上で

で表現した空間相関行列を求める時、雑音が混ざった音を利用するので、正確な予測が不可能である。しかし、本方式は、ニューラルネットワークを使用して大量のデータから空間情報を学習するので操向ベクトルを計算せず、きれいな音声信号を標的音声にして学習する方法を使用するため、正確な学習が可能である。本方法を通じて訓練した人工知能モデルと既存の方式であるＭＶＤＲ方式で８２４個の試験データを計算し、求められた正面の音の平均ＳＳＮＲ（Segmented Signal to Noise Ratio）指標を見れば、雑音が含まれた音は－１.５５７、ＭＶＤＲを用いた音は－０.１２０、ニューラルネットワークを通過したモデルは２.１６５であり、ニューラルネットワークモデルが最も高いことが分かる。