(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-13
(54)【発明の名称】ローカルストレージを有する無線マイクロフォン
(51)【国際特許分類】
H04R 3/00 20060101AFI20230306BHJP
G10L 19/008 20130101ALI20230306BHJP
H04S 7/00 20060101ALN20230306BHJP
【FI】
H04R3/00 320
G10L19/008
H04S7/00 300
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022537872
(86)(22)【出願日】2020-12-17
(85)【翻訳文提出日】2022-07-20
(86)【国際出願番号】 NO2020050320
(87)【国際公開番号】W WO2021125975
(87)【国際公開日】2021-06-24
(32)【優先日】2019-12-19
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】520443686
【氏名又は名称】ノモノ エーエス
【氏名又は名称原語表記】NOMONO AS
【住所又は居所原語表記】Strandveien 43 7067 Trondheim Norway
(74)【代理人】
【識別番号】100133503
【氏名又は名称】関口 一哉
(72)【発明者】
【氏名】ソルヴァン,オードゥン
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162BA14
5D162EE05
5D220BA06
5D220BB01
5D220BC05
5D220DD03
(57)【要約】
空間的に符号化された音場信号を生成するために複数のローカルオーディオ信号を捕捉するように構成されたマイクロフォンアレイを備えるベースユニットと、マイクロフォンおよび関連する記憶部を有するリモートマイクロフォン装置とを有する装置であって、リモートマイクロフォン装置は、マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、前記リモートオーディオ信号を関連する記憶部に記憶するように構成されている。装置は、複数のローカルオーディオ信号を使用して、複数の成分を有する空間的に符号化された音場信号を生成し、リモートマイクロフォン装置の位置を決定し、リモートマイクロフォン装置の決定された位置にしたがって、空間的に符号化された音場信号および記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成するようにさらに構成されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声捕捉装置であって、
空間的に符号化された音場信号を生成するために複数のローカルオーディオ信号を捕捉するように構成されたマイクロフォンアレイを備えるベースユニットと、
マイクロフォンおよび関連する記憶部を備えるリモートマイクロフォン装置であって、前記マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、前記リモートオーディオ信号を前記関連する記憶部に記憶するように構成されている、リモートマイクロフォン装置と、を備え、
前記装置が、
複数のローカルオーディオ信号を使用して、複数の成分を含む空間的に符号化された音場信号を生成し、
前記リモートマイクロフォン装置の位置を決定し、
前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化された音場信号および前記記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成する、
ように構成されている、音声捕捉装置。
【請求項2】
前記リモートオーディオ信号を前記空間的に符号化された音場信号の前記複数の成分と比較することによって前記リモートマイクロフォン装置の前記位置を決定するように構成されている、請求項1に記載の音声捕捉装置。
【請求項3】
前記ベースユニットおよび前記リモートマイクロフォン装置が、無線リンクを介して通信するように構成されている、請求項1または2に記載の音声捕捉装置。
【請求項4】
前記リモートマイクロフォン装置が、前記リモートマイクロフォン装置から前記ベースユニットに前記無線リンクを介して前記リモートオーディオ信号のバージョンを送信するように構成されている、請求項3に記載の音声捕捉装置。
【請求項5】
前記無線リンクを介して送信された信号の1つ以上の特性を使用して、前記リモートマイクロフォン装置の前記位置を決定するように構成されている、請求項3または4に記載の音声捕捉装置。
【請求項6】
前記リモートマイクロフォン装置が、前記記憶されたリモートオーディオ信号または前記記憶されたリモートオーディオ信号から導出された補足信号を、前記リモートマイクロフォン装置から前記ベースユニットに前記無線リンクを介して送信するように構成されている、請求項3から5のいずれか一項に記載の音声捕捉装置。
【請求項7】
前記ベースユニットがプロセッサを備え、前記プロセッサが、前記リモートマイクロフォン装置の前記位置を決定し、前記リモートマイクロフォン装置の前記決定された位置にしたがって前記空間的に符号化された音場信号および前記リモートオーディオ信号を使用して前記空間的に符号化されたサウンドトラックを生成するように構成されている、請求項1から6のいずれか一項に記載の音声捕捉装置。
【請求項8】
前記リモートマイクロフォン装置の前記位置を決定し、前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化されたオーディオ信号および前記リモートオーディオ信号を使用して、前記空間的に符号化されたサウンドトラックを生成するようにさらに構成された別個の処理装置を備える、請求項1から7のいずれか一項に記載の音声捕捉装置。
【請求項9】
前記リモートマイクロフォン装置および前記ベースユニットが、一時的な有線接続を形成するように構成され、前記リモートマイクロフォン装置が、前記記憶されたリモートオーディオ信号または前記記憶されたリモートオーディオ信号から導出された補足信号を、前記一時的な有線接続を介して前記ベースユニットに転送するように構成されている、請求項1から8のいずれか一項に記載の音声捕捉装置。
【請求項10】
前記関連する記憶部が、取り外し可能な記憶装置を備える、請求項1から9のいずれか一項に記載の音声捕捉装置。
【請求項11】
前記リモートオーディオ信号または前記空間的に符号化された音場信号に関する情報をユーザに出力するように構成された監視装置をさらに備える、請求項1から10のいずれか一項に記載の音声捕捉装置。
【請求項12】
前記リモートマイクロフォン装置の前記決定された位置に少なくとも部分的に基づいて前記リモートオーディオ信号を自動的に処理するように構成されている、請求項1から11のいずれか一項に記載の音声捕捉装置。
【請求項13】
前記マイクロフォンアレイによって生成された前記空間的に符号化された音場信号に現れる前記音源からの音を抑制するように構成されている、請求項1から12のいずれか一項に記載の音声捕捉装置。
【請求項14】
前記空間的に符号化されたサウンドトラックが、前記リモートオーディオ信号についての別個のオーディオチャネルを含む、請求項1から13のいずれか一項に記載の音声捕捉装置。
【請求項15】
それぞれがマイクロフォンおよび関連する記憶部を備える複数のリモートマイクロフォン装置を備え、前記複数のリモートマイクロフォン装置が、対応する複数のリモートオーディオ信号を捕捉するように構成され、前記装置が、
各リモートマイクロフォン装置の位置を決定し、
前記決定されたリモートマイクロフォン装置の位置にしたがって前記リモートオーディオ信号を使用して、前記空間的に符号化されたサウンドトラックを生成するようにさらに構成されている、請求項1から14のいずれか一項に記載の音声捕捉装置。
【請求項16】
前記リモートオーディオ信号を処理してクロストークを除去するように構成されている、請求項15に記載の音声捕捉装置。
【請求項17】
マイクロフォンアレイを備えるベースユニットと、
前記マイクロフォンと関連する記憶部とを備えるリモートマイクロフォン装置と、
を使用して空間的に符号化されたサウンドトラックを生成する方法であって、
前記マイクロフォンアレイを使用して複数の成分を含む空間的に符号化された音場信号を生成することと、
前記マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉することと、
前記リモートオーディオ信号を前記関連する記憶部に記憶することと、
前記リモートマイクロフォン装置の位置を決定することと、
前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化された音場信号および前記記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成することと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、音場記録システムおよび/またはオーディオオブジェクトに基づく制作における使用に適したものなどの無線マイクロフォンに関する。
【背景技術】
【0002】
音場(空間オーディオとも呼ばれる)フォーマット(例えば、アンビソニックス、Dolby Atmos(商標)、Auro-3D(商標)、DTS:XTM)は、所与のサウンドシーンに関する空間的に符号化されたサウンド情報を記憶する方法を提供する。換言すれば、それらは、空間的に符号化されたサウンドトラックを生成するために、サウンドシーン内の音源に位置情報を割り当てる方法を提供する。いくつかの制作では、空間的に符号化されたサウンドトラックを構成するサウンド情報は、(例えば、別個の従来のマイクロフォンを用いて)別々に記録され、各音源の位置情報は、その後、(例えば、コンピュータ生成されたビデオゲームのサウンドシーンを作成するときに)ポスト制作中に手動で割り当てられる。あるいは、空間的に符号化されたサウンドトラックは、例えば、捕捉されたオーディオを位置/方向情報によってネイティブに符号化する多方向音場マイクロフォンアレイ(例えば、アンビソニックマイクロフォンアレイ)を使用して、部分的または全体的にライブで捕捉されてもよい。ライブ「音場」データの捕捉は、通常、(例えば、オーケストラの間に座っている錯覚を作り出すことによって)従来の音声記録をより没入型にするために使用されてきたが、より最近では、この技術は、仮想現実制作などの他の制作に適用され始めている。
【0003】
音場マイクロフォンは、空間内の特定の点からライブ音場情報を捕捉するための有用なツールであるが、それらの出力の品質および柔軟性に関していくつかの制限がある。音場制作を記録するとき、オーディオエンジニアは、通常、ストーリーを伝えるオブジェクトによって発せられる音、およびストーリーのためのコンテキストを作成する周囲音の2つのタイプの音を捕捉することに関心がある。周囲のオーディオは、単一の音場マイクロフォンアレイによって容易に捕捉されることができるが、このマイクロフォンアレイから遠く離れて配置された音源からのオーディオの品質が著しく低下する可能性がある。また、効果を追加したりレベルを調整したりする目的で、音場記録内の単一の音源を分離することも困難である。いくつかの制作では、各音源の高品質のオーディオを別々に捕捉するために別々の近接したマイクロフォン(例えば、ブーム、ショットガン、小型、ラペルまたはスポットマイク)が使用されるが、捕捉されたオーディオ(例えば、位置または方向情報のないシングルチャネルオーディオ)は、空間的に符号化されたサウンドトラックに統合することは困難であり得る。本出願は、これらの問題の少なくともいくつかを軽減しようとするものである。
【発明の概要】
【0004】
本発明の第1の態様から、
複数の成分を含む空間的に符号化された音場信号を生成するように構成されたマイクロフォンアレイを備えるベースユニットと、
マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、リモートオーディオ信号を関連する記憶部に記憶するように構成されている、リモートマイクロフォン装置と、を備え、
装置が、
リモートマイクロフォン装置の位置を決定し、
決定されたリモートマイクロフォン装置の位置にしたがって、空間的に符号化された音場信号および記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成する、
ように構成されている、音声捕捉装置が提供される。
【0005】
したがって、音源からの音がベースユニットのマイクロフォンアレイのみを使用して可能であるよりも高い品質および/または分離レベルで捕捉されることを可能にすることができるリモートマイクロフォン装置を用いてリモートオーディオ信号が捕捉されることができることが当業者によって理解されよう。例えば、リモートマイクロフォン装置は、音源に近接して(すなわち、ベースユニットよりも音源に近い)配置され、背景ノイズおよび/または他の音源に対して音源からの音の振幅を増加させることができる。したがって、リモートマイクロフォン装置の使用は、リモートオーディオ信号の信号対雑音比を増加させることができ、クロストークを低減することによってリモートオーディオ信号内の1つの音源の分離を改善することもできる。
【0006】
(例えば、単にリモートオーディオ信号を無線でベースユニットに送信してベースユニットに記憶するのではなく)リモートオーディオ信号をリモートマイクロフォン装置の関連する記憶部に記憶することは、リモートオーディオ信号の品質が伝送帯域幅によって制限されないことを意味する。より高品質のリモートオーディオ信号は、より高品質の空間的に符号化されたサウンドトラックが生成されることを可能にすることができ、いくつかの実施形態では、リモートマイクロフォン装置の位置が決定されることができる精度を向上させることもできる。リモートマイクロフォン装置は、圧縮をほとんどまたは全く加えずに(例えば、非圧縮オーディオ信号として)リモートオーディオ信号を記憶するように構成されてもよい。
【0007】
リモートオーディオ信号をリモートマイクロフォン装置の関連する記憶部に記憶することはまた、(例えば、不十分な信号強度または干渉による無線接続の喪失に起因して)伝送チャネルが故障した場合にオーディオ信号を完全に失うリスクを回避する。さらにまた、リモートオーディオ信号は、ローカルに記憶されるため、リモートマイクロフォン装置は、常にリアルタイム伝送(例えば、無線無線モジュール)を動作させる必要がなく、エネルギー消費を低減することができる。いくつかの実施形態では、リモートマイクロフォン装置は、バッテリ駆動であってもよく、その結果、エネルギー消費の低減は、バッテリ寿命を改善することができる。リモートマイクロフォン装置は、リアルタイム伝送手段を全く含まなくてもよく、装置の複雑さおよびコストを低減する。
【0008】
いくつかの実施形態では、装置は、記憶されたリモートオーディオ信号を空間的に符号化された音場信号の複数の成分と比較することによって、リモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、装置は、記憶されたリモートオーディオ信号を複数の構成要素のそれぞれと比較して複数の比較結果(例えば、クロススペクトルなどの相関の複数の尺度)を決定し、複数の比較結果を使用してリモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、装置は、記憶されたリモートオーディオ信号と成分のそれぞれとの間のクロススペクトルの相対的な大きさを計算するように構成されてもよい。
【0009】
装置は、リモートマイクロフォン装置とマイクロフォンアレイ(またはリモートマイクロフォン装置の対)との間の周波数応答の変化の分析に基づいて、リモートマイクロフォン装置とマイクロフォンアレイとの間の相対的な向き(または、関連する実施形態では、他のマイクロフォン装置の取り外し)を決定するように構成されてもよい。
【0010】
いくつかの実施形態では、決定された比較結果が使用されて、記憶されたリモートオーディオ信号と複数の成分のうちの少なくとも1つとの間の1つ以上の伝搬遅延(例えば、リモートオーディオ信号と複数の成分のそれぞれとの間の伝搬遅延)を計算することができる。そのような実施形態では、リモートマイクロフォン装置の位置を決定することは、1つ以上の伝搬遅延を使用して(例えば、伝搬遅延の平均と音速の推定値とを使用して)、ベースユニットからローカルマイクロフォンまでの方向および/または距離を決定することを含むことができる。
【0011】
実施形態のセットでは、装置は、記憶されたリモートオーディオ信号、および音源の位置における制約を記述する物理システムの先験的モデルを組み込んだ複数の成分に対して後処理を実行するように構成され、例えば、音源が位置しなければならない水平面、人間である可能性が最も高いこれらのオブジェクトに基づく速度および/または加速度を定義する。カルマンもしくは粒子フィルタ、または隠れマルコフモデルなどの機械学習フレームワークは、後処理の一部として使用されることができる。
【0012】
そのような実施形態では、リモートオーディオ信号は、高品質(例えば、圧縮なし)でリモートマイクロフォン装置の関連する記憶部に記憶されることができるため、リモートオーディオ信号は、空間的に符号化された音場信号の複数の成分と比較するためのより多くの情報(またはより詳細な情報)を含むことができ、より正確な測位を可能にする(したがって、より正確でより没入型の空間的に符号化されたサウンドトラックの生成を容易にする)。記憶されたリモートオーディオ信号および空間的に符号化された音場信号は、位置を決定してサウンドトラックを生成するときに同期を支援するためにタイムコードによってラベル付けされてもよい。
【0013】
本発明は、制作中に移動する音源の労働集約的な手動追跡の要件を軽減することができるため、音源が移動しているシナリオに特に適用可能とすることができる。移動する音源を特徴とする実施形態では、リモートマイクロフォン装置は、通常、リモートオーディオ信号が音源からの音に対応し続けることを保証するために、音源とともに移動するように構成される。これは、リモートマイクロフォン装置を音源に固定するか、そうでなければ接続することによって達成されることができる。例えば、音源は、話している人を含むことができ、リモートマイクロフォン装置は、人の衣服の物品にクリップ留めされた小型タイプマイクロフォンを備えることができる。
【0014】
出願人は、3次元の位置情報を一義的に決定することは、マイクロフォンアレイが4つ以上のマイクロフォンを備えることを理論的に必要とし得ることを認識しているが、出願人は、多くの状況において、2つのマイクロフォンのみで十分に正確に位置を決定することができることを認識している。例えば、音源の位置または移動に対する既知の物理的限界、または追跡技術と組み合わせた既知の開始位置などの追加情報が使用されて、音源の位置を解決するのを助けることができる。しかしながら、実施形態のセットでは、マイクロフォンアレイは、少なくとも3つのマイクロフォンを備え、いくつかのそのような実施形態では、マイクロフォンアレイは、少なくとも4つのマイクロフォンを備える。
【0015】
好ましくは、マイクロフォンアレイの少なくとも2つのマイクロフォンは、互いに隣接しているが、一般に、それらは互いに離間していてもよい。マイクロフォンアレイは、互いに直交して配置された複数のマイクロフォンを備えてもよく、すなわち、最大の応答を有する各マイクロフォンのそれぞれの軸は、互いに直交している。
【0016】
いくつかの実施形態では、リモートマイクロフォン装置および基地局は、無線リンクを介して(例えば、Bluetooth(商標)またはWiFi規格に準拠する接続などの無線周波数(RF)接続を介して)通信するように構成される。
【0017】
リモートマイクロフォン装置は、無線リンクを介して基地局にデータを送信するように構成されてもよい。データは、リモートオーディオ信号、またはリモートオーディオ信号のバージョン(例えば、圧縮されている)を含むことができる。追加的または代替的に、データは、バッテリ寿命、関連する記憶部の利用可能な記憶スペース、またはタイミング情報などのメタデータおよび/またはステータス情報を含むことができる。
【0018】
同様に、ベースユニットは、無線リンクを介してリモートマイクロフォンにデータを送信するように構成されてもよい。例えば、ベースユニットは、無線リンクを介してリモートマイクロフォン装置にソフトウェアおよび/またはファームウェアの更新(いわゆる「無線」更新)を提供するように構成されてもよい。
【0019】
いくつかの実施形態では、リモートマイクロフォン装置およびベースユニットは、リモートオーディオ信号の捕捉中に通信するように構成されてもよい。例えば、リモートマイクロフォン装置は、記録のライブ監視を可能にするために、リモートオーディオ信号またはリモートオーディオ信号のバージョン(例えば、より低いビットレートでの圧縮バージョン)をリアルタイムで(またはほぼリアルタイムで)ベースユニットに送信するように構成されてもよい。いくつかのそのような実施形態では、装置は、送信されたリモートオーディオ信号を使用して、リアルタイムで(またはほぼリアルタイムで)リモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、基地局に送信されたリモートオーディオ信号の圧縮バージョンは、空間的に符号化された音場信号の複数の成分と比較されて、オーディオ捕捉が進行している間にリモートマイクロフォン装置の位置を決定することができる。送信された信号は、(例えば、圧縮されているため)記憶部に記憶された信号よりも低品質とすることができるが、より低い精度でリモートマイクロフォン装置の位置をリアルタイムで決定することは依然として可能とすることができ、これは依然として監視目的に非常に有用とすることができる。
【0020】
リモートマイクロフォン装置は、リモートマイクロフォン装置自体の監視を支援するために、オーディオ捕捉中に他の情報(例えば、メタデータ、バッテリ寿命、記憶スペース、タイミング情報)を送信するように構成されてもよい。
【0021】
いくつかの実施形態では、リモートマイクロフォン装置は、(例えば、遅延を伴って、または音声捕捉が完了した後でさえ)非リアルタイムで無線リンクを介してベースユニットにリモートオーディオ信号(すなわち、関連する記憶部に記憶された信号)を送信するように構成されてもよい。これは、(例えば、帯域幅が限られているために)無線リンクを介して非圧縮のリモートオーディオ信号をリアルタイムで送信することが不可能である場合、または(例えば、無線干渉に起因して)無線リンクを介してリアルタイムで送信されるリモートオーディオ信号のバージョンの一部が失われている状況において便利とすることができる。例えば、リモートマイクロフォン装置は、低ビットレート(圧縮)バージョンのリモートオーディオ信号を低遅延で(例えば、リアルタイムで)無線リンクを介してベースユニットに送信し、後に(すなわち、より長い遅延で)無線リンクを介して完全品質のリモートオーディオ信号をベースユニットに送信するように構成されてもよい。
【0022】
いくつかの実施形態では、リモートマイクロフォン装置およびベースユニットは、一時的な有線接続(すなわち、例えば、リモートマイクロフォン装置がオーディオを捕捉していないときなど、特定の時間にのみ形成されるもの)を形成するように構成されてもよい。例えば、リモートマイクロフォン装置およびベースユニットは、一時的な有線接続(例えば、USBケーブル)を形成するためにケーブルを使用して接続されるように構成されてもよい。いくつかの実施形態では、リモートマイクロフォン装置は、一時的な有線接続(すなわち、接続ケーブルを必要としない)を形成するためにベースユニットと直接ドッキングするように構成されてもよく、これはより便利とすることができる。例えば、ベースユニットは、第1の組の電気接点を備えてもよく、リモートマイクロフォン装置は、第1の組の電気接点と接触して一時的な有線接続を形成するように構成された第2の組の電気接点を備えてもよい。
【0023】
一時的な有線接続が使用されて、リモートマイクロフォン装置からベースユニットに(またはその逆に)データを転送することができる。例えば、リモートマイクロフォン装置は、一時的な有線接続を介して、記憶されたリモートオーディオ信号(例えば、関連する記憶部に記憶された非圧縮の完全品質のリモートオーディオ信号)をベースユニットに転送するように構成されてもよい。有線接続は、無線接続よりも高い通信帯域幅を提供することができ、無線(例えば、RF)接続を介して可能であり得るものに対してより速い転送速度を容易にする。したがって、リモートオーディオ信号は、ベースユニットに迅速に送信されることができ、これは、長い記録(したがって大きな音声ファイルサイズ)を特徴とする制作にとって特に重要であり得る。一時的な有線接続はまた、無線接続よりも少ない電力を消費することができ、より少ないおよび/またはより安価な構成要素を必要とすることもできる。有線接続はまた、無線リンクよりも干渉を受けにくい。
【0024】
一時的な有線接続はまた、(または代わりに)他の情報(例えば、メタデータ、バッテリ寿命、利用可能な記憶スペース、タイミング情報)をリモートマイクロフォン装置との間で送信するために使用されてもよい。バッテリ駆動の実施形態では、一時的な有線接続が使用されて、リモートマイクロフォン装置のバッテリを充電することができる。
【0025】
いくつかの実施形態では、リモートオーディオ信号の一部またはバージョンが無線リンクを介して既に送信されている場合、完全に記憶されたリモートオーディオ信号(すなわち、一時的な有線接続または無線リンクを介して)をベースユニットに通信する必要はない場合がある。したがって、いくつかの実施形態では、リモートマイクロフォン装置は、一時的な有線接続または無線リンクを介して、記憶されたリモートオーディオ信号から導出された補足信号をベースユニットに送信するように構成される。
【0026】
例えば、リモートオーディオ信号の圧縮バージョンを、圧縮されたリモートオーディオ信号には存在しない可能性のあるより高次の情報のみを含む記憶されたリモートオーディオ信号から導出された補足信号と結合することによって、元のリモートオーディオ信号から情報の全てまたは大部分を取り出す(すなわち、記憶されたリモートオーディオ信号を再構成する)ことを可能とすることができる。同様に、(例えば、無線リンクが記録時間の一部または複数の干渉によって失われたため)無線リンクを介して送信されるリモートオーディオ信号のバージョンが不完全である場合、リモートオーディオ信号の欠落部のみを含む記憶されたリモートオーディオ信号から導出された補足信号をベースユニットに送信すれば十分であり得る。
【0027】
装置は、一時的な有線接続の形成または切断が1つ以上の動作を実行するトリガとして機能するように構成されてもよい。例えば、リモートマイクロフォン装置は、一時的な有線接続が形成されたときに(例えば、リモートマイクロフォン装置がベースユニットにドッキングされているときに)、リモートオーディオ信号および/または他の情報をベースユニットに自動的に送信するように構成されることができる。リモートマイクロフォン装置およびベースユニットは、(記録されたオーディオが正確に同期されることができるのを保証するため)一時的な有線接続が形成されるときにクロックを同期させるように構成されてもよい。一時的な有線接続の形成は、(ベースユニットおよび/またはリモートマイクロフォンユニットによる)記録の停止または一時停止などの他の動作をトリガしてもよい。これに対応して、一時的な有線接続の切断は、記録の開始をトリガすることができる。
【0028】
いくつかの実施形態では、リモートマイクロフォン装置の記憶部は、フラッシュメモリカードなどの取り外し可能な記憶装置を備える。いくつかのそのような実施形態では、ベースユニットは、対応する記憶装置リーダ(例えば、メモリカードスロット)を備えることができ、ユーザが、単に取り外し可能な記憶装置をリモートマイクロフォン装置から取り外して記憶装置リーダに提供する(例えば、メモリカードスロットに挿入する)だけで、記憶されたリモートオーディオ信号(および任意の追加のメタまたはステータス情報)をリモートマイクロフォン装置からベースユニットに転送することを可能にする。
【0029】
実施形態のいくつかのセットでは、ベースユニットは、プロセッサを備えてもよい。プロセッサは、リモートマイクロフォン装置の位置を決定し、および/またはリモートマイクロフォン装置の決定された位置にしたがって空間的に符号化された音場信号およびリモートオーディオ信号を使用して空間的に符号化されたサウンドトラックを生成するように構成されてもよい。そのような実施形態では、リモートマイクロフォン装置の位置を決定し、および/または空間的に符号化されたサウンドトラックを生成するために、追加のハードウェアおよび/またはインターネット接続が必要とされなくてもよい。
【0030】
いくつかの実施形態では、装置は、リモートマイクロフォン装置の位置を決定し、および/または空間的に符号化されたサウンドトラックを生成するように構成された別個の処理装置(すなわち、ベースユニットおよびリモートマイクロフォン装置とは別個である)を備えることができる。例えば、これは、別個のコンピュータシステムまたはリモートサーバ(例えば、クラウドベースの処理サービス)を備えることができる。別個の処理装置を使用することは、リモートマイクロフォン装置および/またはベースユニットの複雑さ、コスト、サイズおよび/または電力需要を最小限に抑えることができ(著しい処理能力を提供する必要がない場合があるため)、これにより、いくつかの記録状況に対する装置の利便性を高めることができる。別個の処理装置はまた、ベースユニットまたはリモートマイクロフォン装置を更新する必要なく、アップグレードおよび/または適合されることもできる。例えば、追加の処理能力は、ベースユニットに対するハードウェアまたはソフトウェアの変更を実施する必要なく、(例えば、測位および/またはサウンドトラック生成を高速化または改善するために)処理装置に追加されることができる。これは、処理装置がクラウドベースの処理サービスの一部として提供される場合に特に有用とすることができる。
【0031】
いくつかの実施形態では、装置(例えば、プロセッサまたは別個の処理装置)は、リモートマイクロフォン装置の決定された位置に少なくとも部分的に基づいてリモートオーディオ信号を自動的に処理するように構成されてもよい。例えば、装置は、マイクロフォンアレイによって生成された空間的に符号化された音場信号に現れる音源からの音を抑制するように構成されてもよい。
【0032】
いくつかの実施形態では、装置は、ユーザに情報を出力するように構成された監視装置を備えることができる。例えば、監視装置は、リモートオーディオ信号または空間的に符号化された音場信号に関する情報(例えば、振幅、周波数応答)を(例えば、ディスプレイを介して)出力するように構成されてもよい。監視装置は、リモートマイクロフォン装置自体に関する情報(例えば、バッテリ寿命、利用可能な記憶スペース)を出力するように構成されてもよい。監視装置は、例えばスピーカまたはヘッドホンを介して、リモートオーディオ信号(またはリモートオーディオ信号の圧縮バージョン)を出力するように構成されてもよい。監視装置は、空間的に符号化されたサウンドトラック(または空間的に符号化されたサウンドトラックの大まかなバージョン)を出力するように構成されてもよい。監視装置は、リモートマイクロフォン装置の位置の表示を出力するように構成されてもよい。監視装置は、ベースユニットに統合されてもよく、またはベースユニットおよび/またはリモートマイクロフォン装置に無線で接続された別個の装置(例えば、スマートフォン)であってもよい。
【0033】
監視装置は、記録のライブ監視を容易にするためにオーディオ捕捉中に情報を出力するように構成されてもよい。したがって、ユーザは、記録設定を評価し、問題を識別またはトラブルシューティングすることができる前に、(例えば、非圧縮の)記憶されたリモートオーディオ信号が関連する記憶部から取り出されるのを待つ必要がなくてもよい。リモートオーディオ信号/サウンドトラックのバージョンは、監視装置によって出力されてもよいが、(例えば、圧縮されていないリモートオーディオ信号を使用する)記録後に生成されるものと同じ品質または精度でなくてもよく、多くの場合、大まかな指示であっても、ユーザがエラーを検出し、および/または高品質の記録を保証するのに十分であり得る。
【0034】
いくつかの実施形態では、空間的に符号化されたサウンドトラックは、リモートオーディオ信号用の別個のオーディオチャネルを含む。いくつかの実施形態では、空間的に符号化されたサウンドトラックは、チャネルベースのフォーマット(オーディオトラックがスピーカチャネルおよび構成、例えば5.1サラウンドサウンドに直接リンクされている)、シーンベースのフォーマット(オーディオトラックは、「スイートスポット」、例えば、アンビソニックス内の音場を記述する)、またはオブジェクトベースのフォーマット(オーディオトラックが個々の音源にリンクされ、その位置がメタデータとして記憶される)にしたがって符号化される。実施形態のセットでは、サウンドトラックは、オーディオ定義モデル(ADM)、Dolby Atmos(登録商標)またはMPEG-Hフォーマットなどの次世代オーディオ(NGA)フォーマットまたは規格にしたがって符号化される。
【0035】
いくつかの実施形態では、音声捕捉装置は、それぞれがマイクロフォンおよび関連する記憶部を備え、マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、関連する記憶部に前記追加のリモートオーディオ信号を記憶するように構成された複数のリモートマイクロフォン装置を備えてもよい。いくつかのそのような実施形態では、装置は、各リモートマイクロフォン装置の位置を決定し、決定されたリモートマイクロフォン装置の位置にしたがってリモートオーディオ信号を使用して空間的に符号化されたサウンドトラックを生成するように構成されてもよい。
【0036】
本発明の第2の態様から、
マイクロフォンアレイを備えるベースユニットと、
マイクロフォンと関連する記憶部とを備えるリモートマイクロフォン装置と、を使用して空間的に符号化された音場信号を生成する方法であって、前記方法が、
マイクロフォンアレイを使用して複数の成分を含む空間的に符号化された音場信号を生成することと、
マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉することと、
前記リモートオーディオ信号を関連する記憶部に記憶することと、
リモートマイクロフォン装置の位置を決定することと、
決定されたリモートマイクロフォン装置の位置にしたがって、空間的に符号化された音場信号およびリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成することと、
を含む、方法が提供される。
【0037】
本明細書に記載された任意の態様または実施形態の特徴は、本明細書に記載された任意の他の態様または実施形態に適切な場合に適用されることができる。異なる実施形態または実施形態のセットを参照する場合、これらは必ずしも別個ではなく、重複してもよいことを理解されたい。
【図面の簡単な説明】
【0038】
本発明の特定の例が、添付の図面を参照して、単なる例として説明される:
【
図1】本発明の一実施形態にかかる、オーディオ捕捉中の音声捕捉装置の概略図である。
【
図2】
図1のベースユニットのより詳細な概略図である。
【
図3】
図1のリモートマイクロフォン装置のより詳細な概略図である。
【
図4】ドッキング構成における音声捕捉装置の概略図である。
【
図5】位置決定の1つの方法を示すフローチャートである。
【
図6】簡略化された三辺測量測位技術を示す概略図である。
【発明を実施するための形態】
【0039】
図1は、ベースユニット4と、リモートマイクロフォン装置6と、例えばタブレットコンピュータの形態のディスプレイ9を備える監視装置8とを備える音声捕捉装置2を概略的に示している。
【0040】
ベースユニット4は、4つのマイクロフォンを備えるマイクロフォンアレイ10と、第1の組の電気コネクタ16を備えるドッキング部14とを備える。マイクロフォンアレイ10の具体的な配置は詳細には示されていないが、マイクロフォンアレイ10のマイクロフォンは、任意の方向からマイクロフォンアレイ10に到達する音を捕捉するように構成されている。複数のマイクロフォンのそれぞれの位置および向きは、事前に正確に選択される。
図2により詳細に示すように、ベースユニットは、プロセッサ18と、RFトランシーバ20と、ユーザインターフェース22と、ローカル記憶装置24とをさらに備える。
【0041】
リモートマイクロフォン装置6は、マイクロフォン26と、関連する記憶部28と、第1の組の電気コネクタ16と嵌合するように適合された第2の組の電気コネクタ32を備えるドッキング部30とを備える。
図3により詳細に示すように、リモートマイクロフォン装置6は、RFトランシーバ34と、バッテリ36と、ユーザインターフェース38とをさらに備える。マイクロフォン26は、記憶部28に記憶された単一(モノラル)のリモートオーディオ信号を出力するように構成される。
【0042】
以下により詳細に説明するように、音声捕捉装置2は、個々の音源が高品質且つ高空間精度で捕捉されている、サウンドシーンの空間的に符号化されたサウンドトラックを生成するために使用されることができる。装置2はまた、記録のリアルタイム監視を容易にする。
【0043】
図1に示すように、リモートマイクロフォン装置6は、話している人7の近くに配置され、したがって、サウンドシーン内の音源として機能する。サウンドシーンは、他の音源(
図1には示されていない)も含む。リモートマイクロフォン装置6は、人7が動き回ってもその近くに留まるように、(例えば、控え目な小型タイプマイクロフォンとして)人7の衣服に取り付けられている。
【0044】
上述したように、ベースユニット4のマイクロフォンアレイ10は、任意の方向から到来する音を捕捉するように構成されている。したがって、マイクロフォンアレイ10は、音場における他の音源とともに、人7からの音を捕捉する。マイクロフォンアレイ10によって捕捉された音から、プロセッサ18は、シーン内の全ての音源からの音を含む複数の成分(例えば、複数のアンビソニックスAフォーマットまたはBフォーマット信号)を含む空間的に符号化された音場信号を生成する。
【0045】
しかしながら、マイクロフォンアレイ10と人7との間の距離、および結果として低減された信号対雑音比に起因して、人7からの音声がマイクロフォンアレイ10によって捕捉される音質が悪い場合がある。
【0046】
リモートマイクロフォン装置6は、マイクロフォン26によってリモートオーディオ信号を捕捉し、リモートオーディオ信号を関連する記憶部28に記憶する。上述したように、リモートマイクロフォン装置6は、人7の近くに配置され、したがって、リモートオーディオ信号は、第1の人7からの音によって支配され、高い信号対雑音比が達成されることができる。したがって、人7からの音声は、リモートマイクロフォン装置6によって高品質で捕捉されることができる。リモートマイクロフォン装置6は、リモートオーディオ信号を圧縮することなく(すなわち、可能な限り高い品質で)関連する記憶部28に記憶する。
【0047】
音声捕捉中、音声捕捉装置2は、監視装置8を用いたユーザによる記録のリアルタイム監視を容易にするように構成される。これは、ユーザが、記憶されたリモートオーディオ信号が関連する記憶部28から取り出されるのを待つ必要なく、記録の多くの態様を便利に監視することを可能にすることができる。これは、設定の誤り(例えば、誤って配置されたマイクロフォン)をより早く識別することを可能にするとともに、記録のオーディオ信号レベルまたは実際のオーディオコンテンツなどの特徴がリアルタイムで便利に監視されることを可能にする。
【0048】
リアルタイム監視を容易にするために、リモートマイクロフォン装置6は、リモートマイクロフォン装置のRFトランシーバ34からベースユニット4のRFトランシーバ20にリモートオーディオ信号の圧縮バージョンをリアルタイムで(またはほぼリアルタイムで)送信する(ならびに、元の非圧縮バージョンを関連する記憶部28に記憶する)ように構成される。リモートマイクロフォン装置6はまた、バッテリ36のバッテリ残量または関連する記憶部28内の利用可能な記憶スペースなど、監視目的に有用とすることができる追加情報をベースユニット4に送信することができる。
【0049】
記憶されたリモートオーディオ信号に関連して以下により詳細に説明するものと同様のプロセスを使用して、ベースユニット4のプロセッサ18は、受信されたリモートオーディオ信号の圧縮バージョンを空間的に符号化された音場信号の複数の成分と比較することによって、リモートマイクロフォン装置6の現在位置を決定する。リモートオーディオ信号の圧縮バージョンは、元の(関連する記憶部28に記憶されている)ものよりも低いビットレート(すなわち、より低い品質)を有するが、監視目的のために依然として十分に正確であり得る位置の推定値が依然として決定されることができる。プロセッサ18はまた、リモートオーディオ信号の圧縮バージョンを使用して、空間的に符号化されたサウンドトラックをリアルタイムで生成する。
【0050】
次に、リモートマイクロフォン装置6から受信したリモートオーディオ信号の圧縮バージョン、決定された位置、空間的に符号化されたサウンドトラック、および任意の追加情報が、(例えば、図示されていない無線ネットワークを介して)監視装置8に送信される。そして、監視装置8は、監視目的に有用な情報をユーザに出力することができる。
【0051】
記録が完了すると、ユーザは、(
図4に示すように)リモートマイクロフォン装置6をベースユニット4のドッキング部14上に置き、第1および第2の組の電気接点16、32を接触させる。これは、記録を停止し、(リモートマイクロフォン装置6の関連する記憶部28に記憶されている)(高品質の)記憶されたリモートオーディオ信号をベースユニット4のローカル記憶装置24に自動的に転送するようにリモートマイクロフォン装置4およびベースユニット6をトリガする。あるいは、(ベースユニット4に無線で送信される)リモートオーディオ信号の圧縮バージョンに存在しない、記憶されたリモートオーディオ信号の成分のみを含む補足信号が、リモートマイクロフォン装置6からベースユニット4のローカル記憶装置24に転送されてもよい。次いで、圧縮バージョンと補足信号とを組み合わせることによって、ベースユニット4によって完全品質のリモートオーディオ信号が再構成されることができる。
【0052】
第1および第2の組の電気接点16、32によって提供される一時的な有線接続は、リモートマイクロフォンユニットのバッテリ36を充電するためにも使用される。
【0053】
転送が完了すると、ベースユニット4のプロセッサ18は、(完全品質の)リモートオーディオ信号を空間的に符号化された音場信号の複数の成分と比較して、リモートオーディオ信号の捕捉中のリモートマイクロフォン装置6の位置(または、オーディオ捕捉中に人が移動する場合には複数の位置)を決定する。そうするためのいくつかの可能な手法の具体的な詳細が、
図5および
図6を参照して以下に説明される。リモートオーディオ信号は、高品質(圧縮なし)で記憶されるため、プロセッサ18は、位置を正確に決定することができる。もちろん、他の例では、この処理は、別個の処理装置(クラウドベースの処理サービスなど)によって実行されてもよい。
【0054】
決定された位置を使用して、プロセッサ18は、リモートオーディオ信号を、マイクロフォンアレイ10によって捕捉された音場信号に組み込む(すなわち、人7の音声の高品質記録を含む)空間的に符号化されたサウンドトラックを生成する。
【0055】
リモートオーディオ信号がベースユニット4に転送されると、別の記録を実行するために、リモートマイクロフォン装置6は、ベースユニット4のドッキング部14から取り外されることができる。第1および第2の組の電気接点16、32を切断することは、記録を自動的にトリガして再び開始することができるが、代替的に、ベースユニット4のユーザインターフェース22および/またはリモートマイクロフォン装置6のユーザインターフェース38が使用されて記録を開始/停止することができる。
【0056】
図1では、監視装置8は、リモートマイクロフォン装置6の位置の視覚的表示およびディスプレイ9上のリモートオーディオ信号の視覚的表現を出力するように示されている。もちろん、空間的に符号化されたサウンドトラックの視覚的表現またはリモートマイクロフォン装置6からの追加情報(例えば、バッテリ寿命、記憶スペース)などの他の情報もまた、(例えば、ユーザ選択にしたがって)ディスプレイ9上に出力されてもよい。監視装置8はまた、リモートオーディオ信号または空間的に符号化されたサウンドトラック自体を、ヘッドホン11を介して出力してもよい。したがって、監視装置8は、ユーザが記録の様々な態様を便利に監視することを可能にする。
【0057】
図5は、リモートマイクロフォン装置6の位置を決定する1つの方法を示すフロー図を示している。
【0058】
まず、リモートオーディオ信号および複数の成分が特徴抽出処理される。ステップ502において、リモートオーディオ信号と複数の成分のそれぞれとの間の相関(クロススペクトル)の尺度が決定される。ステップ504において、システムのマイクロフォン間の時間遅延が、これらの測定値に基づいて決定される。ステップ506において、これらの時間遅延を使用して、リモートマイクロフォン装置6とマイクロフォンアレイ10との間の向きが決定される。最後に、ステップ508において、(方位角仰角および距離の形態の)位置が、決定された時間遅延および決定された相関尺度の相対的な大きさに基づいて決定される。
【0059】
プロセッサ18(または別個の処理装置)がリモートマイクロフォン装置6の位置を決定することができるいくつかの手法があり、そのうちの2つは、以下に一般的な場合について詳細に説明される。
【0060】
第1の手法では、マイクロフォンアレイは、
個のマイクロフォンからなり、アンビソニックAフォーマット信号(すなわち、各マイクロフォンからの生出力)のセット
を出力し、各信号は、音源からの音を含む。ローカルマイクロフォン(例えば、リモートマイクロフォン装置6のマイクロフォン)は、音源からの音に対応するローカルマイクロフォン信号
(例えば、リモートオーディオ信号)を捕捉する。
【0061】
Aフォーマット信号が反射壁を有する部屋に配置された
個の独立した音源から構成されると仮定すると、第
のマイクロフォンの信号は、以下のように表されることができる:
、
ここで、
はノイズであり、
は第
の音源と第
のマイクロフォンとの間の部屋インパルス応答である。部屋インパルス応答は、以下のような
個の遅延反射からなると仮定される:
。
【0062】
離散時間-周波数フーリエ領域では、時間
における第
のマイクロフォンの信号は、以下のように表されることができる:
。
は、サンプリング周波数である。下付き文字
は、読みやすさのために説明の残りについては省略される。位置を推定するために、直接音の到達時間
の推定が行われる。PHAse変換(PHAT)アルゴリズムは、ローカルマイクロフォン信号
およびAフォーマット信号
に対して用いられる:
【0063】
したがって、
に等しいマイクロフォン
から音源
までの距離が推定されることができ、ここで、
は音速である。
【0064】
各マイクロフォンから音源までの距離が決定されると、マイクロフォンの位置とともにこれらの距離を使用する単純な代数的操作が、音源の位置を決定するために必要な全てとなる。
図6は、このプロセスを2次元で示す簡略図であるが、理論は、完全な3D実装にも等しく適用可能である。
【0065】
図6は、
図1に示すマイクロフォンアレイと同等のマイクロフォンアレイを構成する3つのマイクロフォン202、204、206の位置を示している。音源208は、3つのマイクロフォン202、204、206ならびに近接して配置されたローカルマイクロフォン(図示せず)によって捕捉される音を生成する。上記と同様の方法を使用して、3つのマイクロフォン202、204、206のそれぞれから音源までの距離が決定される。決定された距離のそれぞれは、音源が位置する対応するマイクロフォンを中心とする円の半径を定義する。音源208の位置は、3つの円が一致する点を特定することによって決定されてもよい。
【0066】
ここで、音源の位置を決定するための第2の手法について説明する。複数のマイクロフォンを備えるマイクロフォンアレイは、それぞれが音源からの音を含むアンビソニックAフォーマット信号のセットを出力する。Aフォーマット信号は、球面調和関数に分解された部屋の音場を含むアンビソニックBフォーマット信号のセットを生成するために処理される。Bフォーマット信号のそれぞれは、mおよびnを球面調和関数とラベル付けして
とラベル付けされる。好ましい例では、アンビソニックマイクロフォンは、n=m=0およびn=1 m=-1、0、1の場合に対応する4つの信号を出力する。これは、3つの直交して配置された8の字型マイクロフォン(n=1 m=-1、0、1)と一致する無指向性マイクロフォン(n=m=1)から発するAフォーマット信号と概念的に等価である。他の例では、高次球面調和関数が使用されることができる(Bフォーマット信号の数を増やす)。
【0067】
前述のように、ローカルマイクロフォンは、音源からの音に対応するローカルマイクロフォン信号
を捕捉する。
【0068】
この場合もやはり、
個の相関のない音源
は、反射壁を有する部屋においてモデル化される。この場合に得られるアンビソニックBフォーマット信号は、以下のように書くことができる:
、
ここで、
は、部屋インパルス応答であり、
は、球面調和関数であり、
は、ノイズを表す。
【0069】
部屋インパルス応答
は、以下のような
個の遅延反射からなると仮定される:
。
【0070】
したがって、Bフォーマット信号のフーリエ変換は、以下のように書くことができる:
。
【0071】
位置決めの対象となる、Bフォーマット信号
とマイクロフォン信号
との間のクロススペクトルが計算される:
【0072】
クロススペクトルに対して逆フーリエ変換を実行することは、s番目の音源の推定された自己相関関数
によって畳み込まれたマイクロフォン信号の部屋インパルス応答のアンビソニックBフォーマット表現(すなわち、球面調和関数に分解される)を生成する:
。
【0073】
このアンビソニック表現の切り捨てられた総和は、音源の方位角および仰角に対応する球面調和関数によって重み付けされた直接音自己相関の切り捨てられた総和を抽出する(すなわち、任意の反射を除外すること):
【0074】
切り捨て限界成分
は、ローカルマイクロフォン信号および
(全方向性Bフォーマット成分)に対してPHATアルゴリズムを適用することによって、Aフォーマット信号の場合と同じ方法で抽出される
ことができる。
は、
よりも小さいと仮定され、
のように選択される。
【0075】
アンビソニックマイクロフォンに対する音源方向(方位角および仰角)は、以下のように
の成分を評価することによって抽出されることができる:
。
【0076】
音源の位置を完全に定義するために、マイクロフォンアレイから音源までの距離(または範囲)もまたあ、決定されなければならない。これは、
を使用して計算されることができ、ここで、
は音速である。
【0077】
上述した特定の実施形態は単なる例示であり、特許請求の範囲に定義される本発明の範囲内で多くの可能な変形および変更が想定される。
【国際調査報告】