(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-28
(54)【発明の名称】マルチソースオーディオ処理システム及び方法
(51)【国際特許分類】
G10L 21/0308 20130101AFI20241018BHJP
G10L 25/51 20130101ALI20241018BHJP
G10L 25/84 20130101ALI20241018BHJP
H04N 7/15 20060101ALI20241018BHJP
H04M 3/56 20060101ALI20241018BHJP
H04B 3/23 20060101ALI20241018BHJP
【FI】
G10L21/0308 Z
G10L25/51
G10L25/84
G10L25/51 400
H04N7/15
H04M3/56 B
H04B3/23
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024522017
(86)(22)【出願日】2022-10-11
(85)【翻訳文提出日】2024-04-09
(86)【国際出願番号】 US2022077882
(87)【国際公開番号】W WO2023064750
(87)【国際公開日】2023-04-20
(32)【優先日】2021-10-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524136115
【氏名又は名称】キューエスシー リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】ナイマン クリストファー チャールズ
(72)【発明者】
【氏名】ローゼンブーム ゲリット エイムバータス
(72)【発明者】
【氏名】アギラー アルフレッド マーティン
(72)【発明者】
【氏名】スコグモ マシュー ジョージ
【テーマコード(参考)】
5C164
5K046
5K201
【Fターム(参考)】
5C164FA10
5C164PA41
5C164VA06S
5C164VA09P
5C164VA56S
5K046AA01
5K046BB01
5K046HH01
5K046HH46
5K046HH79
5K201BB09
5K201CA01
5K201EF03
5K201EF07
5K201EF10
(57)【要約】
会議システムは、複数のマイクロフォンと、異なるオーディオソースを識別するためにオーディオ信号に対してブラインドソース分離動作を実施するオーディオ処理システムと、を含む。システムは、分離されたオーディオソースを処理して、そのソースを識別又は分類し、ソース分離コンテンツを含む出力ストリームを生成する。
【選択図】
図3A
【特許請求の範囲】
【請求項1】
会議システムであって、
複数のマイクロフォンであって、前記複数のマイクロフォンは、会議環境に位置決めされた少なくとも第1及び第2のマイクロフォンを含み、前記第1のマイクロフォンは、検出された音に応答して、少なくとも1つの第1のオーディオ信号を生成するように構成され、前記第2のマイクロフォンは、検出された音に応答して、少なくとも1つの第2のオーディオ信号を生成するように構成された、複数のマイクロフォンと、
オーディオ処理システムを実行し、前記複数のマイクロフォンに動作可能に結合された1つ以上のプロセッサであって、前記オーディオ処理システムが、
前記第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、
前記第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、
前記第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、前記第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、
前記第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、前記第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、
前記第1のソース分離信号及び前記第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含む出力オーディオストリームを生成することであって、前記出力ストリームは、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいて生成される、生成することと、を行うように構成された、プロセッサと、を備える、会議システム。
【請求項2】
オーディオソースの前記第1及び第2のタイプが、同じタイプである、請求項1に記載の会議システム。
【請求項3】
前記第1及び第2のソース分離信号が、同じ人間話者発話ソースに対応する、請求項2に記載の会議システム。
【請求項4】
前記オーディオ処理システムが、到達方向情報及び信号強度情報のうちの1つ以上を使用して、人間話者の物理的な位置を判定し、前記人間話者が移動するにつれて前記人間話者の前記物理的な位置を追跡するように更に構成されている、請求項3に記載の会議システム。
【請求項5】
前記第1及び第2のタイプのうちの少なくとも一方が発話ソースであり、前記オーディオ処理システムが音声アクティビティ検出技術を使用して前記発話ソースを識別する、請求項1に記載の会議システム。
【請求項6】
前記オーディオ処理システムが、前記出力オーディオストリームを生成する際に、前記第1及び第2のソース分離信号のうちの一方又は両方に関連する到達方向情報を使用するように構成されている、請求項1に記載の会議システム。
【請求項7】
前記オーディオ処理システムが、前記出力オーディオストリームを生成する際に、前記第1及び第2のソース分離信号のうちの一方又は両方に関連する信号強度情報を使用するように構成されている、請求項1に記載の会議システム。
【請求項8】
前記オーディオ処理システムが、識別された前記第1のタイプに基づいて前記第1のソース分離信号に第1のオーディオ信号処理動作を適用することと、少なくとも識別された前記第2のタイプに基づいて前記第2のソース分離信号に第2のオーディオ信号処理動作を適用することと、を行うように構成され、前記第1及び第2のオーディオ処理動作が異なる、請求項1に記載の会議システム。
【請求項9】
前記オーディオ処理システムが、
前記第1の複数のソース分離オーディオ信号及び前記第2の複数のソース分離オーディオ信号の中の1つ以上の残留エコー信号を識別することと、
前記残留エコー信号を使用して音響エコーキャンセレーションを強化することと、を行うように構成されている、請求項1に記載の会議システム。
【請求項10】
前記マイクロフォンのうちの1つ以上がアレイマイクロフォンを含み、前記オーディオ処理システムが、前記アレイマイクロフォンの個々のマイクロフォン要素間の時間遅延又は位相遅延に基づいて、前記第1の複数のソース分離オーディオ信号のうちの1つ以上及び前記第2の複数のソース分離オーディオ信号のうちの1つ以上の到達方向を判定するように構成されている、請求項1に記載の会議システム。
【請求項11】
前記第1のタイプがノイズソースであり、前記第2のタイプが発話ソースであり、前記オーディオ処理システムが、前記第2のソース分離信号からのコンテンツと比較して、前記出力オーディオストリーム内の前記第1のソース分離信号からの寄与を削除するか又は減少させるように構成されている、請求項1に記載の会議システム。
【請求項12】
会議方法であって、
会議環境に位置決めされた複数のマイクロフォンに動作可能に結合された1つ以上のプロセッサを用いて、
前記複数のマイクロフォンのうちの第1のマイクロフォンによって生成された少なくとも1つの第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、
前記複数のマイクロフォンのうちの第2のマイクロフォンによって生成された少なくとも1つの第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、
前記第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、前記第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、
前記第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、前記第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、
再生のための出力オーディオストリームを生成することであって、前記出力オーディオストリームは、前記第1のソース分離信号及び前記第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含み、前記生成することは、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいている、生成することと、を含む、方法。
【請求項13】
オーディオソースの前記第1及び第2のタイプが、同じタイプである、請求項12に記載の方法。
【請求項14】
前記第1及び第2のソース分離信号が、同じ人間話者発話ソースに対応する、請求項13に記載の方法。
【請求項15】
前記1つ以上のプロセッサを用いて、到達方向情報及び信号強度情報のうちの1つ以上を使用することと、人間話者の物理的な位置を判定することと、前記人間話者が移動するにつれて前記人間話者の前記物理的な位置を追跡することと、を更に含む、請求項14に記載の方法。
【請求項16】
前記第1及び第2のタイプのうちの少なくとも一方が発話ソースであり、前記方法が、音声アクティビティ検出技術を使用して前記発話ソースを識別することを含む、請求項12に記載の方法。
【請求項17】
前記1つ以上のプロセッサを用いて、前記出力オーディオストリームを生成する際に、前記第1及び前記第2のソース分離信号のうちの一方又は両方に関連する到達方向情報を使用することを含む、請求項12に記載の方法。
【請求項18】
前記1つ以上のプロセッサを用いて、前記出力オーディオストリームを生成する際に、前記第1及び第2のソース分離信号のうちの一方又は両方に関連する信号強度情報を使用することを含む、請求項12に記載の方法。
【請求項19】
前記1つ以上のプロセッサを用いて、識別された前記第1のタイプに基づいて前記第1のソース分離オーディオ信号に第1のオーディオ信号処理動作を適用することと、少なくとも識別された前記第2のタイプに基づいて前記第2のソース分離オーディオ信号に第2のオーディオ信号処理動作を適用することと、を更に含み、前記第1及び第2のオーディオ処理動作が異なる、請求項12に記載の方法。
【請求項20】
前記1つ以上のプロセッサを用いて、
前記第1のソース分離オーディオ信号及び前記第2のソース分離オーディオ信号の中の1つ以上の残留エコー信号を識別することと、
前記残留エコー信号を使用して音響エコーキャンセレーションを改善することと、を更に含む、請求項12に記載の方法。
【請求項21】
前記1つ以上のプロセッサを用いて、個々のマイクロフォン要素間の時間遅延又は位相遅延に基づいて、前記第1の複数のソース分離オーディオ信号のうちの1つ以上及び前記第2の複数のソース分離オーディオ信号のうちの1つ以上の到達方向を判定することを更に含む、請求項12に記載の方法。
【請求項22】
前記第1のタイプがノイズソースであり、前記第2のタイプが発話ソースであり、前記方法が、前記1つ以上のプロセッサを用いて、前記第2のソース分離信号からのコンテンツと比較して、前記出力オーディオストリーム内の前記第1のソース分離信号からの寄与を削除するか又は減少させることを更に含む、請求項12に記載の方法。
【請求項23】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、コンピューティングシステムによって実行されると、前記コンピューティングシステムに、
複数のマイクロフォンのうちの第1のマイクロフォンによって生成された少なくとも1つの第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、
前記複数のマイクロフォンのうちの第2のマイクロフォンによって生成された少なくとも1つの第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、
前記第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、前記第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、
前記第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、前記第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、
再生のための出力オーディオストリームを生成することであって、前記出力オーディオストリームは、前記第1のソース分離信号及び前記第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含み、前記生成することは、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいている、生成することと、を含む動作を実施させる、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先出願の相互参照
本出願とともに出願された出願データシートにおいて、外国又は国内の優先権請求が特定された全ての出願は、37C.F.R.§1.57に基づき、参照により本明細書に組み込まれる。
【背景技術】
【0002】
本開示は、概して、1つ以上のアレイマイクロフォン、又は他のタイプのマイクロフォンによって検出された音を処理するオーディオシステムに関する。
【発明の概要】
【0003】
いくつかの態様では、本明細書に記載の技術は、複数のマイクロフォンであって、複数のマイクロフォンは、会議環境に位置決めされた少なくとも第1及び第2のマイクロフォンを含み、第1のマイクロフォンは、検出された音に応答して、少なくとも1つの第1のオーディオ信号を生成するように構成され、第2のマイクロフォンは、検出された音に応答して、少なくとも1つの第2のオーディオ信号を生成するように構成された、複数のマイクロフォンと、オーディオ処理システムを実行し、複数のマイクロフォンに動作可能に結合された1つ以上のプロセッサと、を含む会議システムに関する。オーディオ処理システムは、第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、第1のソース分離信号及び第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含む出力オーディオストリームを生成することと、を行うように構成され得る。出力ストリームは、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいて生成され得る。
【0004】
いくつかの態様では、本明細書に記載の技術は、オーディオソースの第1及び第2のタイプが、同じタイプである、会議システムに関する。
【0005】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のソース分離信号が、同じ人間話者発話ソースに対応する、会議システムに関する。
【0006】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、到達方向情報及び信号強度情報のうちの1つ以上を使用して、人間話者の物理的な位置を判定し、人間話者が移動するにつれて人間話者の物理的な位置を追跡するように更に構成されている、会議システムに関する。
【0007】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のタイプのうちの少なくとも一方が発話ソースであり、オーディオ処理システムが音声アクティビティ検出技術を使用して発話ソースを識別する、会議システムに関する。
【0008】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する到達方向情報を使用するように構成されている、会議システムに関する。
【0009】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する信号強度情報を使用するように構成されている、会議システムに関する。
【0010】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、識別された第1のタイプに基づいて第1のソース分離信号に第1のオーディオ信号処理動作を適用することと、少なくとも識別された第2のタイプに基づいて第2のソース分離信号に第2のオーディオ信号処理動作を適用することと、を行うように構成され、第1及び第2のオーディオ処理動作が異なる、会議システムに関する。
【0011】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、第1の複数のソース分離オーディオ信号及び第2の複数のソース分離オーディオ信号の中の1つ以上の残留エコー信号を識別することと、残留エコー信号を使用して音響エコーキャンセレーションを強化することと、を行うように構成されている、会議システムに関する。
【0012】
いくつかの態様では、本明細書に記載の技術は、マイクロフォンのうちの1つ以上がアレイマイクロフォンを含み、オーディオ処理システムが、アレイマイクロフォンの個々のマイクロフォン要素間の時間遅延又は位相遅延に基づいて、第1の複数のソース分離オーディオ信号のうちの1つ以上及び第2の複数のソース分離オーディオ信号のうちの1つ以上の到達方向を判定するように構成されている、会議システムに関する。
【0013】
いくつかの態様では、本明細書に記載の技術は、第1のタイプがノイズソースであり、第2のタイプが発話ソースであり、オーディオ処理システムが、第2のソース分離信号からのコンテンツと比較して、出力オーディオストリーム内の第1のソース分離信号からの寄与を削除するか又は減少させるように構成されている、会議システムに関する。
【0014】
いくつかの態様では、本明細書に記載の技術は、会議方法であって、会議環境に位置決めされた複数のマイクロフォンに動作可能に結合された1つ以上のプロセッサを用いて、複数のマイクロフォンのうちの第1のマイクロフォンによって生成された少なくとも1つの第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、複数のマイクロフォンのうちの第2のマイクロフォンによって生成された少なくとも1つの第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、再生のための出力オーディオストリームを生成することと、を含む会議方法に関する。いくつかの実施形態によれば、出力オーディオストリームは、第1のソース分離信号及び第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含む。出力ストリームの生成は、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいてもよい。
【0015】
いくつかの態様では、本明細書に記載の技術は、オーディオソースの第1及び第2のタイプが、同じタイプである、方法に関する。
【0016】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のソース分離信号が、同じ人間話者発話ソースに対応する、方法に関する。
【0017】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、到達方向情報及び信号強度情報のうちの1つ以上を使用することと、人間話者の物理的な位置を判定することと、人間話者が移動するにつれて人間話者の物理的な位置を追跡することと、を更に含む、方法に関する。
【0018】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のタイプのうちの少なくとも一方が発話ソースであり、方法が、音声アクティビティ検出技術を使用して発話ソースを識別することを含む、方法に関する。
【0019】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する到達方向情報を使用することを含む、方法に関する。
【0020】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する信号強度情報を使用することを含む、方法に関する。
【0021】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、識別された第1のタイプに基づいて第1のソース分離オーディオ信号に第1のオーディオ信号処理動作を適用することと、少なくとも識別された第2のタイプに基づいて第2のソース分離オーディオ信号に第2のオーディオ信号処理動作を適用することと、を更に含み、第1及び第2のオーディオ処理動作が異なる、方法に関する。
【0022】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、第1のソース分離オーディオ信号及び第2のソース分離オーディオ信号の中の1つ以上の残留エコー信号を識別することと、残留エコー信号を使用して音響エコーキャンセレーションを改善することと、を更に含む、方法に関する。
【0023】
いくつかの態様では、本明細書に記載の技術は、1つ以上のプロセッサを用いて、個々のマイクロフォン要素間の時間遅延又は位相遅延に基づいて、第1の複数のソース分離オーディオ信号のうちの1つ以上及び第2の複数のソース分離オーディオ信号のうちの1つ以上の到達方向を判定することを更に含む、方法に関する。
【0024】
いくつかの態様では、本明細書に記載の技術は、第1のタイプがノイズソースであり、第2のタイプが発話ソースであり、方法が、1つ以上のプロセッサを用いて、第2のソース分離信号からのコンテンツと比較して、出力オーディオストリーム内の第1のソース分離信号からの寄与を削除するか又は減少させることを更に含む、方法に関する。
【0025】
いくつかの態様では、本明細書に記載の技術は、命令を記憶する非一時的コンピュータ可読記憶媒体であって、命令は、コンピューティングシステムによって実行されると、コンピューティングシステムに、複数のマイクロフォンのうちの第1のマイクロフォンによって生成された少なくとも1つの第1のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第1の複数のソース分離オーディオ信号を生成することと、複数のマイクロフォンのうちの第2のマイクロフォンによって生成された少なくとも1つの第2のオーディオ信号に対して1つ以上のブラインドソース分離動作を実施して、各々が異なるオーディオソースに対応する第2の複数のソース分離オーディオ信号を生成することと、第1の複数のソース分離オーディオ信号の第1のソース分離信号を処理して、第1のソース分離信号に対応する第1のタイプのオーディオソースを識別することと、第2の複数のソース分離オーディオ信号の第2のソース分離信号を処理して、第2のソース分離信号に対応する第2のタイプのオーディオソースを識別することと、再生のための出力オーディオストリームを生成することと、を含む動作を実施させる、非一時的コンピュータ可読記憶媒体に関する。出力オーディオストリームは、第1のソース分離信号及び第2のソース分離信号のうちの一方又は両方からのオーディオコンテンツを含み得る。出力ストリームの生成は、到達方向情報及び信号強度情報のうちの1つ以上に少なくとも部分的に基づいてもよい。
【0026】
いくつかの態様では、本明細書に記載の技術は、オーディオソースの第1及び第2のタイプが、同じタイプである、非一時的コンピュータ可読記憶媒体に関する。
【0027】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のソース分離信号が、同じ人間話者発話ソースに対応する、非一時的コンピュータ可読記憶媒体に関する。
【0028】
いくつかの態様では、本明細書に記載の技術は、動作が、到達方向情報及び信号強度情報のうちの1つ以上を使用することと、人間話者の物理的な位置を判定することと、人間話者が移動するにつれて人間話者の物理的な位置を追跡することと、を更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0029】
いくつかの態様では、本明細書に記載の技術は、第1及び第2のタイプのうちの少なくとも一方が発話ソースであり、動作が、音声アクティビティ検出技術を使用して発話ソースを識別することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0030】
いくつかの態様では、本明細書に記載の技術は、動作が、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する到達方向情報を使用することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0031】
いくつかの態様では、本明細書に記載の技術は、動作が、出力オーディオストリームを生成する際に、第1及び第2のソース分離信号のうちの一方又は両方に関連する信号強度情報を使用することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0032】
いくつかの態様では、本明細書に記載の技術は、動作が、識別された第1のタイプに基づいて第1のソース分離オーディオ信号に第1のオーディオ信号処理動作を適用することと、少なくとも識別された第2のタイプに基づいて第2のソース分離オーディオ信号に第2のオーディオ信号処理動作を適用することと、を更に含み、第1及び第2のオーディオ処理動作が異なる、非一時的コンピュータ可読記憶媒体に関する。
【0033】
いくつかの態様では、本明細書に記載の技術は、動作が、第1のソース分離オーディオ信号及び第2のソース分離オーディオ信号の中の1つ以上の残留エコー信号を識別することと、残留エコー信号を使用して音響エコーキャンセレーションを改善することと、を更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0034】
いくつかの態様では、本明細書に記載の技術は、動作が、個々のマイクロフォン要素間の時間遅延又は位相遅延に基づいて、第1の複数のソース分離オーディオ信号のうちの1つ以上及び第2の複数のソース分離オーディオ信号のうちの1つ以上の到達方向を判定することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0035】
いくつかの態様では、本明細書に記載の技術は、非一時的なコンピュータ可読記憶媒体に関し、第1のタイプがノイズソースであり、第2のタイプが発話ソースであり、動作が、第2のソース分離信号からのコンテンツに対して出力オーディオストリーム内の第1のソース分離信号からの寄与を削除するか又は減少させることを更に含む。
【0036】
いくつかの態様では、本明細書に記載の技術は、各々が、音を検出し、検出された音に応答して1つ以上のオーディオ信号を生成するように構成された複数のマイクロフォンと、オーディオ処理システムを実行し、ネットワークを介して複数のマイクロフォンに結合された1つ以上のプロセッサであって、オーディオ処理システムが、オーディオ信号に対して1つ以上のソース分離動作を実施して、各々がオーディオソースに対応する複数のソース分離オーディオ信号を生成することと、ソース分離オーディオ信号を処理して、オーディオソースの各々のタイプを識別することと、少なくとも、i)オーディオソース、及びii)オーディオソースの各々の識別されたタイプを示すように、記憶された聴覚シーンデータベースを更新することと、を行うように構成されている、会議システムに関する。
【0037】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、オーディオソースの各々について、オーディオソースを検出した複数のマイクロフォンのうちの1つ以上の検出マイクロフォンを示すように、データベースを更新するように更に構成されている、会議システムに関する。
【0038】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースのサブタイプを識別することと、オーディオソースのサブタイプを示すように、データベースを更新することと、を行うように構成されている、会議システムに関する。
【0039】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの一意の識別情報を識別することと、オーディオソースの一意の識別情報を示すように、データベースを更新することと、を行うように構成されている、会議システムに関する。
【0040】
いくつかの態様では、本明細書に記載の技術は、一意の識別情報のうちの少なくとも1つが一意の人間話者の識別情報である、会議システムに関する。
【0041】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの物理的位置を識別することと、オーディオソースの位置を示すように、データベースを更新することと、を行うように構成されている、会議システムに関する。
【0042】
いくつかの態様では、本明細書に記載の技術は、オーディオ処理システムが、複数のマイクロフォンの各々について、どのオーディオソースがマイクロフォンによって検出されるかを示すように、データベースを更新するように構成されている、会議システムに関する。
【0043】
いくつかの態様では、本明細書に記載の技術は、会議環境に位置決めされた複数のマイクロフォンに動作可能に結合された1つ以上のプロセッサを用いて、マイクロフォンによって生成された1つ以上のオーディオ信号に対して1つ以上のソース分離動作を実施して、各々がオーディオソースに対応する複数のソース分離オーディオ信号を生成することと、ソース分離オーディオ信号を処理して、オーディオソースの各々のタイプを識別することと、少なくとも、i)オーディオソース、及びii)オーディオソースの各々の識別されたタイプを示すように、記憶された聴覚シーンデータベースを更新することと、を含む、会議方法に関する。
【0044】
いくつかの態様では、本明細書に記載の技術は、オーディオソースの各々について、オーディオソースを検出した複数のマイクロフォンのうちの1つ以上の検出マイクロフォンを示すように、データベースを更新することを更に含む、方法に関する。
【0045】
いくつかの態様では、本明細書に記載の技術は、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースのサブタイプを識別することと、オーディオソースのサブタイプを示すように、データベースを更新することと、を更に含む、方法に関する。
【0046】
いくつかの態様では、本明細書に記載の技術は、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの一意の識別情報を識別することと、オーディオソースの一意の識別情報を示すように、データベースを更新することと、を更に含む、方法に関する。
【0047】
いくつかの態様では、本明細書に記載の技術は、一意の識別情報のうちの少なくとも1つが一意の人間話者の識別情報である、方法に関する。
【0048】
いくつかの態様では、本明細書に記載の技術は、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの物理的位置を識別することと、オーディオソースの位置を示すように、データベースを更新することと、を更に含む、方法に関する。
【0049】
いくつかの態様では、本明細書に記載の技術は、複数のマイクロフォンの各々について、どのオーディオソースがマイクロフォンによって検出されるかを示すように、データベースを更新することを更に含む、方法に関する。
【0050】
いくつかの態様では、本明細書に記載の技術は、コンピューティングシステムによって実行されると、コンピューティングシステムに、マイクロフォンによって生成された1つ以上のオーディオ信号に対して1つ以上のソース分離動作を実施して、各々がオーディオソースに対応する複数のソース分離オーディオ信号を生成することと、ソース分離オーディオ信号を処理して、オーディオソースの各々のタイプを識別することと、少なくとも、i)オーディオソース、及びii)オーディオソースの各々の識別されたタイプを示すように、記憶された聴覚シーンデータベースを更新することと、を含む動作を実施させる命令を記憶する非一時的コンピュータ可読記憶媒体に関する。
【0051】
いくつかの態様では、本明細書に記載の技術は、動作が、オーディオソースの各々について、オーディオソースを検出した複数のマイクロフォンのうちの1つ以上の検出マイクロフォンを示すように、データベースを更新することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0052】
いくつかの態様では、本明細書に記載の技術は、動作が、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースのサブタイプを識別することと、オーディオソースのサブタイプを示すように、データベースを更新することと、を更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0053】
いくつかの態様では、本明細書に記載の技術は、動作が、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの一意の識別情報を識別することと、オーディオソースの一意の識別情報を示すように、データベースを更新することと、を更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0054】
いくつかの態様では、本明細書に記載の技術は、一意の識別情報のうちの少なくとも1つが一意の人間話者の識別情報である、非一時的コンピュータ可読記憶媒体に関する。
【0055】
いくつかの態様では、本明細書に記載の技術は、動作が、ソース分離オーディオ信号の少なくともサブセットを更に処理して、サブセット内の各ソース分離オーディオ信号について、ソース分離オーディオ信号に対応するオーディオソースの物理的位置を識別することと、オーディオソースの位置を示すように、データベースを更新することと、を更に含む、非一時的コンピュータ可読記憶媒体に関する。
【0056】
いくつかの態様では、本明細書に記載の技術は、動作が、複数のマイクロフォンの各々について、どのオーディオソースがマイクロフォンによって検出されるかを示すように、データベースを更新することを更に含む、非一時的コンピュータ可読記憶媒体に関する。
【図面の簡単な説明】
【0057】
【
図1】特定の実施形態によるオーディオ/ビデオシステムを例示する。
【
図2A】オーディオシステムのアレイマイクロフォンが配置された会議室を例示する。
【
図2B】オーディオシステムのアレイマイクロフォンが配置された会議室を例示する。
【
図2C】オーディオシステムのマイクロフォンが様々な音ソースに対して展開されるマルチルーム会議環境を例示する。
【
図3A】特定の実施形態による、音ソースを分離し、分離されたソースを処理するように構成されたオーディオ処理エンジンの例を例示する。
【
図3B】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図3C】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図3D】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図3E】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図3F】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図3G】特定の実施形態による、
図3Aのオーディオ処理システムの部分の詳細図を例示する。
【
図4A】特定の実施形態による、オーディオ処理システムによって生成及び維持されるデータの例を示す。
【
図4B】特定の実施形態による、オーディオ処理システムによって生成及び維持されるデータの例を示す。
【
図4C】特定の実施形態による、オーディオ処理システムによって生成及び維持されるデータの例を示す。
【
図5】特定の実施形態による、オーディオ処理システムによって分離され、分類され、処理される検出されたオーディオデータのストリームを図示する。
【
図6】特定の実施形態による、音ソースを分離し、デジタル信号処理動作を実施するように構成されたオーディオ処理システムの例の一部分を例示する。
【
図7】特定の実施形態による、オーディオシステムによって検出された分離された音ソースを使用して聴覚シーン分析を実施する方法を図示するフローチャートである。
【
図8】本明細書に記載のオーディオシステムで使用することができる異なるマイクロフォンアレイ形状の例を示す。
【
図9】本明細書に記載のオーディオシステム及び方法と互換性のあるマイクロフォンアレイの例を例示する。
【発明を実施するための形態】
【0058】
本開示の概要を述べる目的で、本開示の特定の態様、利点、及び新規の特徴が本明細書に記載されている。必ずしもそのような利点の全てが、本明細書に開示される開示の任意の特定の実施形態に従って達成され得るわけではないことを理解されたい。したがって、本明細書に開示されるシステム及び方法は、本明細書に教示される、又は示唆される他の利点を必ずしも達成することなく、本明細書に教示されるような1つの利点又は利点のグループを達成又は最適化する方法で具体化又は実施することができる。
【0059】
本明細書では、1つ以上のマイクロフォンアレイ又は他のタイプのマイクロフォンによってキャプチャされたオーディオのソースを分離及び分類するためのシステム及び対応する方法が説明される。システムは、電話会議室、講義ホール、又は他のコラボレーションスペースを含む様々な環境に展開することができる。システムは、発話をノイズソース又は他のオーディオソースから分離することを含む、発話及び別個の音ソースを識別することができる。
【0060】
所望の発話を望ましくないノイズ又はソースから分離するために、いくつかのシステムは、適応型ビームフォーミング又は主に音ソースの方向性に依存する技術に依存する。一部のシステムは、検出されたエネルギーレベルを予想される発話レベルと比較することによってノイズをフィルタリングすることができる。しかしながら、望ましくないノイズは、マイクロフォンで測定された所望の発話と類似したラウドネス、又は所望の発話よりもラウドネスが大きい場合がある。そのような場合、音ソース、特に類似のエネルギー又は周波数レベルで同じ方向から来る音ソースを区別することは困難であり得、ノイズは、出力ストリームで再生するためにネットワーク通信チャネルへ通過する場合がある。
【0061】
上記の制限のために、いくつかのマイクロフォンシステムが、特に会議室、講義ホール、及びコラボレーションスペースなどの流体環境で、音ソース(例えば、発話及び非発話ポイントソース、拡散ソースなど)を識別及び分離することは課題である。本明細書に記載のシステムによって対処されるいくつかの課題には、1)不十分な部屋の音響特性、2)複数の同時話し手(近距離フィールド又は遠距離フィールドにある可能性がある)、3)ノイズタイプ(例えば、紙の入れ替え、足音、隣接する部屋の話し手、HVACシステムなど)を含む多様な音ソース、及び4)点ノイズ又は拡散ノイズが含まれ得る。
【0062】
本明細書に記載される特定の実施形態は、検出された方向性又はエネルギーレベルに依存しないか、又は主に若しくは単独で依存せず、例えば、音ソースを識別及び分離するための他の技術とともに、ブラインドソース分離を採用することができる。他の実施形態は、ブラインドソース分離と組み合わせた方向性又はエネルギーレベルに依存し得る。
【0063】
更に、本明細書に記載のソース分離ベースの処理技術は、厳密な事前定義された形状に限定されることなく、様々な形状を有するマイクロフォンアレイの組み込みを可能にすることができ、マイクロフォン間の重複又は干渉を回避するために、所定の配置を必要とするいくつかの既存のシステムと比較して、マイクロフォンの配置及び設置の柔軟性を可能にすることができる。システムは、更に、音声制御及びコマンド、並びに話し手固有のオーディオ設定のパーソナライゼーションの改善を伴う、改善されたユーザエクスペリエンスを達成することができる。
【0064】
オーディオ処理システムの概要
オーディオ処理システムには、空間内で音を受信して配信する洗練されたコンピュータ制御装置が含まれる。そのような機器は、ビジネス施設、バー、レストラン、会議室、コンサートホール、教会、又はソースからオーディオ入力を受信し、人々が聞くために1つ以上のラウドスピーカに配信することが望ましい任意の他の環境で使用することができる。一部の最新のシステムは、統合されたシステムアーキテクチャを提供するために、統合されたオーディオ、ビデオ、及び制御(AV&C)機能を組み込んでいる。そのようなシステムの例は、スケーラブルなソフトウェアベースのプラットフォームを提供する、QSC、LLCによって提供されるQSC(登録商標)Q-SYS(商標)エコシステムである。オーディオ/ビデオシステム100の簡略化された表現が、
図1に関して示され、説明される。
【0065】
例示されている例示的なシステム100は、展開デバイス110のセットと、1つ以上のプロセッサ122及びストレージ/メモリ123を含み得る処理コア120と、ネットワーキングデバイスを含み、処理コア120を展開デバイス110に接続するネットワーク130と、1つ以上のネットワークストレージデバイス131と、1つ以上のサービス114とを含む。データは、各々が1つ以上の論理データストリームを含むことができる第1及び第2のネットワークチャネル137、139を介して、処理コア120との間で通信することができる。
【0066】
ネットワークストレージ131は、インターネット又は別のワイド若しくはローカルエリアネットワークを介して処理コア120及び/又は展開デバイス110に接続されたクラウドストレージであり得る。オーディオ環境リポジトリ112は、処理コア120に対してローカルである1つ以上のストレージデバイス123上及び/又はネットワークストレージ131上に存在することができ、本明細書でより詳細に論じられるように、システム100が展開されるオーディオ環境に関する様々な情報を維持することができる。
【0067】
サービス114は、インターネット又は別のワイド若しくはローカルエリアネットワークを介して、処理コア120及び/又は展開デバイス110と通信することができ、クラウド/エッジ音声コマンド処理サービス、トランスクリプトサービス、又は人工知能処理などのオーディオ処理サービスを含むことができる。
【0068】
展開デバイス110は、1つ以上のマイクロフォンアレイ140、又は他のマイクロフォン、ラウドスピーカ150、カメラ160、制御デバイス170、及びサードパーティデバイス180を含むことができる。
【0069】
例示されている実施形態のプロセッサ122は、1つ以上の汎用マイクロプロセッサを含むことができるが、代替の構成は、オーディオデジタル信号処理のためにカスタム設計されたオーディオ処理エンジンを含むことができ、これは、カスタム設計された特定用途向け集積回路であり得る。示されるように、オーディオ処理システム121は、オーディオ処理エンジン125、ミキサ/制御エンジン127、及びプロセッサ122上で実行することができる聴覚シーンアナライザ129を備えることができる。本明細書に記載される動作は、システム100の処理コア120上に存在するオーディオ処理エンジン125、ミキサ/制御エンジン127、及び聴覚シーンアナライザ129によって実施されるものとして例示の目的で説明される場合があるが、他の実施形態では、エコーキャンセレーション、ブラインドソース分離、又は他のデジタル信号処理動作の一部又は全部を含む動作のうちの1つ以上が、処理コア120内ではなく、そのマイクロフォンシステム140によって検出された信号に対して、各々の個々のマイクロフォンシステム140でオンボードで実施され得る。
【0070】
マイクロフォンシステム140は、アレイに配置された複数の個々のマイクロフォン要素を含む1つ以上のアレイマイクロフォンを含むことができるが、他のタイプのマイクロフォンシステムもまた含むことができる。互換性のあるマイクロフォンシステムの例は、
図8及び9に関して本明細書で説明されている。カメラ160は、例えば電動ジンバルを介して、固定された方向を指すことができる、又は可動ポインティングを有することができる1つ以上のデジタルビデオカメラを含むことができる。制御デバイス170は、タッチスクリーン、コンピュータ端末などの任意の適切なユーザ入力デバイスを含むことができる。
図1には示されていないが、システム100はまた、1つ以上のオーディオ増幅器又はビデオブリッジデバイスなどの適切な支援コンポーネントを含むことができる。
【0071】
ラウドスピーカ150は、スタンドアロンスピーカ、又はディスプレイ、ネットワーク化された電話機など内に統合されたスピーカであり得る。
【0072】
サードパーティデバイス180は、1つ以上のラップトップ、デスクトップ若しくは他のコンピュータ、スマートフォン若しくは他のモバイルデバイス、プロジェクタ、スクリーン、ライト、カーテン/シェード、ファン、及びZoom又はMicrosoft(登録商標)Teamsなどのサードパーティカンファレンスアプリケーション、又はAppleのSiri(登録商標)などのデジタル音声アシスタントを含む、そのようなデバイス上で実行することができるサードパーティアプリケーションを含むことができる。
【0073】
図1に別個のコンポーネントとして例示されているが、実装態様に応じて、マイクロフォンシステム140、ラウドスピーカ150、カメラ160、制御デバイス170、及び/又はサードパーティデバイス180を一緒に統合することができる。例えば、マイクロフォンアレイ、ラウドスピーカ、カメラ、及びタッチスクリーンの一部又は全部を共通のパッケージに統合することができる。
【0074】
動作中、マイクロフォン140は、環境内の音を検出し、その音をデジタルオーディオ信号に変換し、ネットワーク130を介してオーディオ信号を処理コア120にストリーミングする。オーディオ処理システム121は、オーディオ信号を受信することができ、信号に対してデジタル信号処理及び/又は他の処理を実施する。例えば、オーディオ処理エンジン125は、固定又は適応エコーキャンセレーション、環境内の異なるソースから発せられるオーディオを分離するためのブラインドソース分離、及び増幅、他のタイプのノイズ処理、空間フィルタリング、又は他のオーディオ処理を含む他のデジタル信号処理の任意の組み合わせを実施することができる。プロセッサ122は、人工知能(AI)、機械学習(ML)、及び他の動作を含むことができる追加の後処理を実施することができる。これらの動作及び他の動作に関するより多くの詳細は、
図2~7に関した説明を含む、本明細書に記載されている。いくつかの実施形態では、マイクロフォン140が未処理のデジタルオーディオ信号を処理コア120に送信する代わりに、マイクロフォンシステム140自体上の1つ以上のプロセッサが、信号を処理コア120に送信する前に、エコーキャンセレーション増幅、ブラインドソース分離、又は他のデジタル信号処理の一部又は全部を実施する。
【0075】
ミキサ/制御エンジン127は、システム100による再生のための出力ストリームを構築するために、オーディオ処理エンジン125によって分離、分類、及びそうでなければ処理されたオーディオストリームを一緒に混合するように構成され得る。例えば、ミキサ/制御エンジン127は、システム100内のラウドスピーカ150、サードパーティデバイス180、又は他の展開デバイス110による再生のために、第2のネットワークチャネル139を介してオーディオ/ビデオデータ出力ストリームを提供することができる。ミキサ/制御エンジン127はまた、システム100内の1つ以上のデバイスの動作を調整するように構成されてもよい。例えば、ミキサ/制御エンジン127は、マイクロフォン140、ラウドスピーカ150、カメラ160、制御デバイス170、サードパーティデバイス180、又は他の展開デバイス110のいずれかの動作を制御する、又はその動作に影響を与えるコマンドを発行するように構成されてもよい。
【0076】
本明細書でより詳細に説明されるように、聴覚シーンアナライザ129は、システム100が展開される環境の聴覚「シーン」の表現を生成及び維持するためにデータを処理するように構成され得る。入力データは、限定されないが、システム100によって(例えば、マイクロフォン140、カメラ160、又は他の展開デバイス110によって)検出されたデータ、システム100によって生成されたデータ(例えば、オーディオ処理システム121又はその構成要素によって生成されたデータ)、システム100に以前に提供されたデータ(例えば、デジタルマップ若しくはブループリントなどの展開環境に関連する情報、展開デバイス110のリスト若しくは展開デバイス110に関連する情報など)、及び環境リポジトリ112に維持されたデータを含むことができる。
【0077】
第1のネットワークチャネル137は、展開デバイス110から処理コア120にデータを通信する。例えば、第1のネットワークチャネル137は、限定されないが、マイクロフォン140からの未処理又は処理されたオーディオデータのストリーム、カメラ160によってキャプチャされた未処理又は処理されたビデオデータのストリーム、制御デバイス170からのタッチスクリーン又は他のユーザインターフェースの入力データ又は他の制御データ、並びにパーティデバイス180からのビデオ及びオーディオデータストリームを処理コア120に送信することができる。カメラ160が統合されたマイクロフォンを含む場合、処理コア120は、ビデオデータに加えて、第1のネットワークチャネル137を介してカメラ160からオーディオデータを受信することができる。
【0078】
第2のネットワークチャネル139は、処理コア120から展開デバイス110にデータを通信することができる。例えば、前述のように、第2のネットワークチャネル139は、展開デバイス110を制御するためのコマンド情報、及び/又は展開デバイス110による再生のためのオーディオ及びビデオコンテンツを送信することができる。オーディオ及びビデオコンテンツに関して、第2のネットワークチャネル139は、限定されないが、例えば、オーディオ処理エンジン125によって処理され、ミキサ/制御エンジン127によって混合された後の、ラウドスピーカ150のうちの1つ以上による再生のためのオーディオデータストリームと、カメラ160による再生のためのビデオデータストリームと、例えば、オーディオ処理エンジン125及びミキサ/制御エンジン127による処理の後の、サードパーティデバイス180のうちの1つ以上による再生のためのビデオ及び/又はオーディオデータストリームとを、展開デバイス110に送信することができる。コマンド情報に関して、第2のネットワークチャネル139は、限定されないが、マイクロフォン140に関して、マイクロフォン140のうちの1つ以上の感度、方向性、又は他の動作を調整するコマンドと、ラウドスピーカ150に関して、ラウドスピーカ150のうちの1つ以上の音量又は他のオーディオ出力特性を調整するためのコマンドと、ラウドスピーカ150のうちの1つ以上のポインティング方向を物理的に調整するためのコマンドと、カメラ160のうちの1つ以上の露光、フォーカス、ズーム、フレームレート、解像度、又は他の動作を調整するためのコマンド、電子パン、チルト、ズーム(EPTZ)を介した物理的な動き又はデジタル調整を介してカメラ160のうちの1つ以上のポインティング方向を調整するコマンドと、グラフィカルユーザインターフェースディスプレイを更新すること、又はデジタル生成された音声又は他のオーディオを出力すること(例えば、仮想会議ホストからの「会議が開始された」)を含む、制御デバイス170、サードパーティデバイス180、又は他の展開デバイス110のユーザインターフェースを更新するコマンドと、マイクロフォン140、ラウドスピーカ150、カメラ160、制御デバイス170、又は他の展開デバイス110のいずれかを有効又は無効にするコマンドとを展開デバイス110に送信することができる。
【0079】
会議室/会議環境での音ソースの識別及び分離
特定の実施形態によれば、オーディオシステム100は、オーディオ環境内の音コンテンツの異なるソースを区別するように構成されている。一例として、それは、ファン及び/又は他の話し手などのノイズソースから話している主要な人を区別するのに役立つことができる。そのような場合、オーディオシステム100は、マイクロフォン140のうちの1つ以上によって検出された音を処理して、他の音ソースによって生成された音をフィルタリングすることによって、又は他の音ソースに関連して主要な話者の音声を増幅する、若しくはそうでなければ強調することなどによって、主要な話者の音声を強調することができる。
【0080】
図2Aは、テーブル202の中央に取り付けられた、又はそうでなければ配置されたマイクロフォン140を備えた会議テーブル202を含む会議室環境200aの例を示す。マイクロフォン140は、例えば、イーサネットケーブル接続(図示せず)を介して処理コア120に、又は無線でネットワーク130に接続することができる。マイクロフォン140の周りの音環境は、各々が異なるゾーン1~4に対応する4つの象限に分割され、4人の人202a~202dのうちの1人は、各々がゾーン1~4のうちの1つ内に位置決めされる。ファン、テレビ、又は別の話し手からの発話などのいずれかのノイズソースであり得るノイズソース206は、ゾーン3内の人204cの後ろに位置決めされる。特定の実施形態によれば、システム100は、ブラインドソース分離を組み込んだもののいずれかを含む、本明細書に記載の音ソース分離技術のいずれかを採用して、環境200a内の様々なオーディオソースを区別することができる。例えば、特定の実施形態によれば、1つ以上のプロセッサ122は、1つ以上の他の処理技術と組み合わせて、ブラインドソース分離アルゴリズムをマイクロフォン140によって検出されたオーディオに適用し、その環境内の音ソース202a~202d、206を識別及び分離する。いくつかの実施形態では、マイクロフォンシステム140は、複数のマイクロフォン要素を含むアレイマイクロフォンであり、処理コア120は、検出された音にブラインドソース分離アルゴリズムを適用して、音コンテンツをソースごとに区別し、音コンテンツを4つの話者204a~204d及びノイズソース206に対応する5つの別個の信号ストリームに分離する。次いで、処理コア120は、出力ストリーム内の発話コンテンツのレベルを出力又は増幅すること、及び出力ストリーム内のノイズコンテンツのレベルをフィルタリング又は低減することなどにより、分離された信号に追加の処理を適用することができる。
図3~7に関してなど、より詳細に説明されるように、音響エコーキャンセレーション、オーディオソース分類、人工知能などを含む、多数の異なる追加の処理動作をブラインドソース分離と組み合わせることができる。
【0081】
図2Bは、4人の人204a~204dが、概してテーブル202の後ろに座っているか、又は立っており、テレビ画面又はプロジェクタなどのディスプレイ208を見ており、ノイズソース206が人202a~202dの後ろに位置するシナリオにおける会議室200bを示す。特定の実施形態によれば、システム100は、
図2Bに示されるシナリオで様々なオーディオソースを区別するために、ブラインドソース分離を組み込んだもののうちのいずれかを含む、本明細書で説明される音ソース分離技術のいずれかを採用することができる。例えば、処理コア120は、1つ以上の他の処理と組み合わせて、マイクロフォン140によって検出された信号を、4人の人202a~202dからの発話、ノイズソース206からの音、及びディスプレイ208から来る音に対応する最大6つの別個の信号に分離する技術にブラインドソース分離を適用することができる。この場合、ブラインドソース分離は、人204cが人204dとマイクロフォン140との間にいるにもかかわらず、システム100が2人の人204c、204dから来る発話を区別することを可能にする。ブラインドソース分離はまた、人204bがノイズソース206とマイクロフォン140との間にいる場合であっても、更に人204bから来る発話とノイズソース206から来る音とが類似のエネルギーレベル又は周波数レベルを有する場合だとしても、人204bから来る音とノイズソース206から来る音とをシステム100が区別することを可能にする。
【0082】
図2Cは、オーディオシステム100が展開される環境200cの別の例を例示する。環境200cは、第2の部屋200eとオーディオ/ビデオ会議で一緒にネットワーク化された第1の部屋200dを含む。システム100は、第1の部屋200d全体に位置決めされた4つのマイクロフォン140a~140d、第2の部屋200eに位置決めされた2つのマイクロフォン140e~140f、ビデオ会議を容易にするための各部屋のディスプレイ208a~208b、及び各部屋200d、200eのラウドスピーカ150a~150cを含み、これらは、マイクロフォン140又はディスプレイ208a~208bと別個に収容されてもよく、及び/又は統合されてもよい。マイクロフォン140a~140f、ディスプレイ208a~208b、ラウドスピーカ150a~150c、プロジェクタ214、及びユーザデバイス212のうちの1つ以上は、ネットワーク130及び処理コア120への有線又は無線接続を介して接続することができる。
【0083】
環境200dは、第1の部屋200d内の第1の人208aを含む9人の人204a~204iを含み、第1の部屋200d内に位置する6人の他の人204b~204gにプレゼンテーションを配信する。プレゼンター204aの音声は、第1の部屋200dのマイクロフォン140a~140dのうちの1つ以上によって検出され、本明細書に記載された技術のいずれかに従って処理され、第1及び第2の部屋200d、200eのラウドスピーカ150a~150cのうちの1つ以上を介してシステム100によってブロードキャストされる。示されるように、各人は、発話及び/又は非発話音を出力することができる、近接した電話、ラップトップ、及び/又は他の追加の音ソース212を有することができる。環境200cは、スクリーン208a上に投影する、第1の部屋200dに取り付けられたオーバーヘッドプロジェクタ214のファン、及び第2の部屋200eに取り付けられたシーリングファン216などの追加の非発話ソースを更に含む。オーディオシステム100に接続されていない、環境音楽を再生する1つ以上のラウドスピーカなど、他のタイプのノイズソースも存在する場合がある。部屋200d、200eは、ビデオストリームを記録し、システム100がネットワーク130を介するリアルタイム送信、及びディスプレイ200a~200b上でのライブ再生のために処理する1つ以上のカメラ(図示せず)を更に含むことができる。
【0084】
特定の実施形態によれば、システム100は、ブラインドソース分離を組み込んだもののいずれかを含む、本明細書に記載の音ソース分離技術のいずれかを採用して、環境200c内の様々なオーディオソースを区別することができる。例えば、特定の実施形態によれば、システム100は、各個々のマイクロフォン104a~104fによって検出された信号を処理して、各ソースについて別個の信号/データストリームを生成するための技術への1つ以上の他の処理と組み合わせて、ブラインドソース分離を使用することができる。一例として、システム100は、部屋200dの前面にあるマイクロフォン140aによって検出された音を、少なくとも以下のソースに対応する構成信号に処理することができる:1)人204aからの発話、2)人204aの電話又はラップトップ212によって生成された発話(例えば、スピーカフォン通話)又は非発話(例えば、チャイムを鳴らす)の音、3)オーバーヘッドプロジェクタ214のファンによって生成された音、4)第1の部屋200dの他の人204b~204gのうちの1つ以上によって生成された発話又は非発話の音、及び5)第1の部屋200dの他の人204b~204gに関連付けられたラップトップ又は電話212によって生成された発話又は非発話の音。システム100は、第1の部屋200dの他のマイクロフォン140b~140dの各々によって検出された音を、それぞれのマイクロフォン140によって検出された部屋内の様々な音ソースの各々に対応する別個の構成信号に同様に区別することができる。同様に、第2の部屋200eでは、システム100は、2つのマイクロフォン140f~140eの各々によって検出された音を、第2の部屋200e内の少なくとも以下のソースに対応する構成信号に分離することができる:1)2人の人204h~204iからの発話又は非発話の音、2)ラップトップ又は電話212によって生成された発話又は非発話の音、及び3)シーリングファン216によって生成された音。
【0085】
いくつかの実施形態では、システム100は、所与のマイクロフォン140によって検出された音に対応する信号だけでなく、他のマイクロフォン140のうちの1つ以上によって検出された音に対応する信号も使用して、そのマイクロフォン140によって検出された音に対する音ソース分離を実施する。例えば、システム100は、
図1及び3A~3Gに関して説明されたオーディオ処理システム121など、
図3A~7に関しての説明を含む、本明細書で説明された構成要素又は方法のいずれかを使用して、
図2A~2Cに関して説明された動作のいずれかを実装することができる。
【0086】
ブラインドソース分離を使用したオーディオ処理
図3Aは、オーディオ処理システム121の一例を示す。オーディオ処理エンジン125は、オーディオ/ビデオシステム100内の処理コア100のマイクロプロセッサ122上にソフトウェア又はファームウェアとして実装され得る。例示されているオーディオ処理エンジン125は、各々が、実施形態に応じて、いくつかの個々のマイクロフォン要素M1~Mnを有し、本明細書に記載されたマイクロフォンの任意の組み合わせであり得る、1つ以上のマイクロフォンアレイ140に接続される。システム100は、例えば、
図2A、2B、又は2Cに示される部屋200a、200b、200d、200eに例示されるマイクロフォン140の一部又は全てに接続することができる。
【0087】
オーディオ処理エンジン125は、エコーキャンセラ301、マイクロフォンアレイ140によって検出された音ソースを検出及び抽出するように構成されたブラインドソースセパレータ302、抽出された音ソースを分類するように構成されたソース分類器304、発話音ソースからコンテンツをスキャン、選択、マッピング、及びそうでなければ処理するように構成された発話ソースプロセッサ306、並びにソースごとにカスタマイズ、最適化、及び/又はパーソナライズすることができるソース上でデジタル信号処理又は他のオーディオ処理を実施するように構成されたオーディオ信号処理ユニット308を含む、いくつかの例示されたオーディオソース処理段階のうちのいくつか又は全てを含む。
【0088】
実施形態に応じて、音響エコーキャンセラ(AEC)301が含まれてもよい。例示されているAEC301は、マイクロフォンアレイ140とBSS302との間に接続され、マイクロフォンアレイ140によって出力された信号に対して固定又は適応的な音響エコーキャンセレーションを実施して、エコー及び/又は残響を低減し、1つ以上のエコーキャンセレーションを施した信号を生成する。例えば、AEC301は、検出された入力信号、1つ以上の基準信号(例えば、遠端信号)、及び/又は1つ以上の残留エコー信号を処理することによって、アレイ140のマイクロフォン要素の各々に線形AECを適用することができる。例えば、
図2Cを参照すると、第1の部屋200d(遠端)で生成された音が、第1の部屋200d内の1つ以上のマイクロフォン140a~140dによって検出され、第2の部屋200e(近端)のラウドスピーカで再生され、第2の部屋200e(近端)内のマイクロフォン140e~140fのうちの1つ以上によって検出され、第1の部屋200d(遠端)のラウドスピーカによってエコーとして再生されると、エコーが発生し得る。AEC301は、第1の部屋200d内のマイクロフォンによって検出された遠端信号、第2の部屋200e内のマイクロフォン140e~140fによって検出された近端信号、及びオーディオ処理エンジン125によって検出された任意の残留エコーを処理して、そのようなエコーが第1の部屋200d(遠端)で出力されることを低減又は防止することができる。
【0089】
例示されている実施形態はビームフォーマーを含まないが、いくつかの他の実施形態では、ビームフォーマーを任意選択的に含むことができ、そのような場合、マイクロフォンアレイ140及びAEC301を位置決めすることができる。特定の角度の信号は建設的な干渉を経験し、他の信号は破壊的な干渉を経験するように、ビームフォーマーは、異なる重みを使用して、各アレイ140内のM1~Mn内の要素から受信した信号を組み合わせることができる。ビームフォーマーは、固定された重みを使用してビームを固定方向に向ける固定ビームフォーマー、又は重みがビームの方向を変更するように適応させることができる適応型ビームフォーマーであり得る。ビームフォーマーは、AEC301の前に位置決めすることができるが、他の実装態様では、順序を逆にすることができる。
【0090】
ソース分離
図3Bに示されるように、BSS302は、マイクロフォン140 1~nからのエコーキャンセレーションを施した信号を、システム100内のn番目のマイクロフォンアレイ140によって検出された分離されたソースに対応するn番目の信号グループ312_nを通じて、第1のマイクロフォンアレイ140によって検出された分離されたソースに対応する第1の信号グループ312_1を含む出力信号312のグループに分離するように構成することができる。ソース312は、限定されないが、発話及び非発話ポイントソース(例えば、音声、ビデオプロジェクタのファンなど)並びに拡散ソース(例えば、残留エコー、残響など)を含むことができる。オーディオ処理エンジン125がAEC301を含む場合、BSS302は、AEC301から出力されたエコーキャンセレーションが施されたマイクロフォン信号を受信及び分離することができる。例示されている実施形態では、所与のマイクロフォン140についての分離されたソースの数は、そのマイクロフォン140によってピックアップされるソースの数に依存する。
図3Bに示されるBSS302は、マイクロフォン140ごとにマイクロフォン140上のソースを抽出するが、いくつかの実施形態では、BSS302は、マイクロフォンアレイ140内の個々のマイクロフォン要素M1~Mnの各々によって検出された異なるソース又は個々のソースを分離するなどによって、ソースをより細かく分離することができる。
【0091】
いくつかの実施形態では、BSS302は、独立成分分析(ICA)を使用して、信号を複数の統計的に独立した小成分に分離する。例えば、BSS302は、混合された成分入力信号を分解し、独立した信号を抽出することができ、非ガウスヒストグラム又は低複雑性を有するそれらの独立した信号は、ソース成分であると判定されることができる。2012年8月12日に公開された米国特許出願公開第2009/0150146号、「Microphone Array Based Speech Recognition System and Target Speech Extracting Method of the System」は、独立した成分分析の特定の例を記載しており、その全体が参照により本明細書に組み込まれる。いくつかの実施形態によれば、BSS302は、エンドツーエンドの時間領域の発話分離のための深層学習フレームワークを実装する完全畳み込み時間領域オーディオ分離ネットワークを含むことができる。そのような場合、BSS302は、線形エンコーダを使用して、個々の話者(又は他の音ソース)を分離するために最適化された波形の表現を生成することができる。分離は、エンコーダ出力に重み付け関数(例えば、マスク)のセットを適用することによって達成することができる。修正されたエンコーダ表現は、線形デコーダを使用して波形に戻すことができる。マスクは、小さなモデルサイズを維持しながら、ネットワークが発話信号の長期的な依存関係をモデル化することを可能にする、スタックされた1D拡張畳み込みブロックからなる時間畳み込みネットワーク(TCN)を使用して見つけることができる。かかる技術の例は、Conv-TasNet:Surpassing Ideal Time-Frequency Masking for Speech Separation,Yi Luo,Nima Mesgarani,2019年5月15日に示され、説明されており、その内容は参照により本明細書に組み込まれる。
【0092】
オーディオ処理システム121は、更に、検出されたオーディオコンテンツを処理して、マイクロフォン140間又はマイクロフォン140内のレベル差、マイクロフォン140間又はマイクロフォン140内の時間差、マイクロフォン140間又はマイクロフォン140内の位相差、又は検出された音程のうちの1つ以上を判定することができ、BSS302は、この情報の一部又は全部を使用して、ソース分離の改良又は検証を支援することができる。
【0093】
BSS302は、任意選択で、機械学習又は他の人工知能を実装することができ、訓練データに応答して特定の展開環境に合わせて人工知能アルゴリズムを適応的に訓練及び調整することができる。BSS302は、DNN、機械学習などに基づくものを含む任意の適切な人工知能アルゴリズムを適用して、特定の環境を調整又は適応させることができる。例えば、BSS302は、Conv-TasNetなどの深層機械学習フレームワーク、又はWave-U-Netなどの時間領域で動作するマルチスケールニューラルネットワークを含む畳み込み時間領域オーディオ分離ネットワークを実装することができる。訓練データは、記録された話された単語(例えば、約1000時間の16kHzの話された英語を含むLibriSpeech)及び/又はキュレートされたノイズサンプル(例えば、人間がラベル付けした音イベントのデータセットを含むFSD50K)の公的に利用可能なコーパスを含むことができる。BSS302は、代替的又は追加的に、オーディオ処理システム121によって検出されたデータ上で訓練することができ、これは、ニューラルネットワーク又は他の機械学習又はAIモデルを訓練、再訓練、又は微調整するために、オンザフライで検出され、訓練データとして使用され、又は記憶され、後でアクセスされ得る。
【0094】
例示されている実施形態では、ブラインドソースセパレータ302は、AEC301の後に位置決めされるが、他の実施形態では、ブラインドソースセパレータ302は、AEC301の前に位置決めされる。
【0095】
ソースの分類
ソース分類器304は、BSS302によって分離されたソース信号を受信し、ソースを分類又はそうでなければ区別又はカテゴリ化するように構成されている。例えば、
図3Cを参照すると、ソース分類器304は、マイクロフォン140 1-nの各々について分離されたソース312_1~312_nを、異なるグループ化又はタイプのソースに分類することができる。例えば、例示されている実施形態では、ソース分類器304は、分離されたソース312_1~312_nを、発話ポイントソース322(例えば、部屋又は他の環境内の個々の話し手、音声コンテンツを出力するラウドスピーカ)、非発話ポイントソース324(例えば、犬が吠えている、空調ベントがガタガタ鳴っている)、及び拡散ソース326(例えば、拡散ファン又はエアコンのバックグラウンドノイズ、残響、残留エコー)に分類する。分離されたソースの特定のグループ化が例示されているが、ソースは、実装態様に応じて、様々な代替の方法でカテゴリ化/編成され得る。
【0096】
例示されているソース分類器304は、拡散/ポイントソース検出器321、人工知能VAD(AI VAD)であり得る音声アクティビティ検出器320、発話ソース分類器327、拡散ソース分類器329、非発話ソース分類器331、及び人工知能EAD(AI EAD)であり得るイベントアクティビティ検出器(EAD)325を含む。
【0097】
拡散/ポイントソース検出器321は、分離されたソース信号312_1~312_nのグループを処理し、どのソースがポイントソースであり、どのソースが拡散ソースであるかを検出するように構成されている。いくつかの実施形態では、拡散/ポイントソース検出器321は、同じソースが複数のマイクロフォン140にわたって類似の振幅で検出された場合、そのソースが拡散ソースであるか、又は拡散ソースである可能性が高いことを判定する。一方、複数のマイクロフォン140にわたって大幅に異なる振幅でソースが検出された場合、拡散/ポイントソース検出器321は、そのソースをポイントソースとして、又はポイントソースである可能性がより高いものとして識別することができる。様々な他のアルゴリズム又は因子を、実施形態に応じて、ポイントソース対拡散ソースを判定するために使用することができる。
【0098】
VAD320は、検出されたポイントソースを処理し、どのポイントソースが発話ソースであり、どのポイントソースが発話ソースではないかを判定するように構成することができる。例えば、特定の実施形態では、VAD320:1)は、スペクトル減算を介するなどのノイズ低減を適用し、2)セクションごと又はフレームごとに入力信号上の特徴を識別し、3)値が閾値を超える場合など、発話又は非発話コンテンツを識別するために各セクションに分類規則を適用する。
【0099】
発話分類器327は、いくつかの実施形態(例えば、男性の声対女性の声、成人の声対子供の声、理解可能な発話対赤ちゃんの泣き声のような理解できない声)に従って、発話ソースをより細かい分類に更に分類するように構成することができる。いくつかの実施形態では、発話分類器327は、検出された発話ソースのオーディオコンテンツを分析し、それを既知の発話オーディオサンプル、又は特定のタイプの声の既知の特性(例えば、既知の音程、トーン、若しくは周波数値、又は男性、女性、若しくは子供の声の値の範囲)と比較することによって、全体的又は部分的に分類を実施することができる。
【0100】
拡散ソース分類器329は、拡散/ポイントソース検出器321によって提供される拡散ソース信号を処理し、拡散ソースの各々を異なるタイプ又はカテゴリ(例えば、残留エコー、残響など)に分類するように構成することができる。いくつかの実施形態では、拡散ソース分類器329は、検出された拡散ソースオーディオコンテンツを分析し、それを様々な拡散ソースの既知のオーディオサンプル、又は特定のタイプの拡散ソース(例えば、異なる拡散ソースの音程、トーン、又は周波数)の既知の特性と比較することによって、全体的又は部分的に分類を実施することができる。
【0101】
非発話分類器331は、VAD320によって提供される非発話ポイントソースを処理し、非発話ポイントソースを異なるタイプ又はカテゴリ(例えば、タイピング、紙をしわくちゃにする、音楽、犬の吠え声など)に分類するように構成することができる。いくつかの実施形態では、非発話ソース分類器331は、検出された拡散ソースオーディオコンテンツを分析し、それを様々な非発話ポイントソースの既知のオーディオサンプル、又は特定のタイプの非発話ポイントソースの既知の特徴(例えば、異なる非発話ポイントソースの音程、トーン、又は周波数)と比較することによって、全体的又は部分的に分類を実施することができる。例えば、非発話分類器331は、既知の非発話データサンプルのデータベースを参照し、サンプルを検出された非発話ポイントソースコンテンツと比較することができる。非発話ソース分類器331は、分類された非発話ソース324のグループとして、カテゴリ化された非発話ソースを出力する。
【0102】
イベントアクティビティ検出器(EAD)325は、非発話分類器331によって提供された非発話ソースを処理し、特定のオーディオトリガ又は音声署名であり得る1つ以上の「イベント」を検出するように構成され得る。次いで、システム100は、検出されたイベントに基づいてアクションを実行するか、又はアクションを実行させることができる。一例として、EAD325は、窓ガラス割れの音を検出してもよく、これは、ミキサ/制御エンジン127をトリガして、ネットワーク化された電話を起動して、法執行機関への自動呼び出しを行うか、又はいくつかの他のタイプのアラート又はアクションを引き起こすことができる。別の例として、EAD325は、造園家が窓の外で葉吹き機又は芝刈り機をオンにする場所などの音響環境を劇的に変更するように、オーディオソースからの音が相対的音量閾値を超えるときを検出してもよい。ミキサ/制御エンジン127は、ラウドスピーカ150のうちの1つ以上に音量を増加させるように命令することによって、又は感度を調整するためにマイクロフォン140にコマンドを発行することによって応答することができる。別の例として、EAD325は、咳を検出してもよく、機械学習又は他のAIを実装して、特定のタイプの病気を検出するなど、咳を分析してもよい。いくつかの実施形態では、EAD325は、ドアが開く音を検出し、それに応答して、ミキサ/制御エンジン127は、展開されたデバイス110に、会議を開始するために(例えば、オーディオ/ビデオの録音を開始する、ビデオの表示及びビデオ又はオーディオのキャプチャ/再生を開始するために)1つ以上のアクションをとるように命令する。
【0103】
図3A及び3Cを参照すると、示されるように、エコーキャンセラ301は、エコーキャンセレーションを調整/改善するために使用され得る、拡散ソース分類器329から残留エコーキャンセレーション信号を受信することができる。例えば、AEC301は、残留エコーフィードバックを処理して、非線形エコーキャンセレーションを改善することができる。より一般的には、デジタル信号処理又はオーディオ処理ブロック(例えば、ノイズ抑制、ノイズゲート、オートミキシング、イコライゼーション、話し手ベースのパーソナライゼーション、圧縮など)のいずれかについて、残差、信号対ノイズ比、又は他の性能パラメータが、ブラインドソースセパレータ302によって分離された信号に基づいて判定され、デジタル信号処理又はオーディオ処理ブロックに入力されて、性能を改善することができる。
【0104】
ソース分類器304内のブロック(拡散/ポイントソース検出器321、VAD320、発話ソース分類器327、拡散ソース分類器329、非発話ソース分類器331、及び/又はEAD325)のいずれも、DNN、機械学習などに基づくものを含む機械学習又は他のAIアルゴリズムを適用して、特定の環境又は別の環境を調整又は適応させることができる。そのような場合、AI対応ブロックは、例えば、特定の展開環境に合わせてアルゴリズムを調整するために訓練データを処理することができる。
【0105】
訓練データは、公的に利用可能なデータのコーパスを含むことができる。例えば、VAD320及び発話ソース分類器327の一方又は両方は、記録された話された単語のデータベース(例えば、約1000時間の16kHzの話された英語を含むLibriSpeech)上で訓練することができる。拡散/ポイントソース検出器321、拡散ソース分類器329、非発話ソース分類器331、及びEADのいくつか又は全ては、キュレートされたノイズサンプル(例えば、人間がラベル付けした音イベントのデータセットを含むFSD50K)のデータベース上で訓練することができる。更に、ブロックのうちのいずれかは、代替的又は追加的に、オーディオ処理エンジン125によって検出されたデータ上で訓練することができ、これは、ニューラルネットワーク又は他の機械学習又はAIモデルを訓練、再訓練、又は微調整するために、オンザフライで検出され、訓練データとして使用され、又は記憶され、後でアクセスされ得る。
【0106】
図3Cのソース分類器304の各動作ブロック320、321、327、325、329、331の出力は、任意の適切な方法で編成された任意の数の分類されたソースを含むデータストリームを含むことができることを理解されよう。例えば、出力ストリームは、マイクロフォン140及び/又は検出された場所(例えば、会議室、リモート接続されたスマートフォン又はラップトップなど)を検出することによってソースを編成することができる。
【0107】
発話ソース処理-ソースのスキャン、選択、及びマッピング
図3Dは、特定の実施形態による発話ソースプロセッサ306の詳細図を示す。発話ソースプロセッサ306は、発話ポイントソース322に対応する信号をソース分類器304から受信する。発話ソースプロセッサ306は、他の機能の中でもとりわけ、ポイント発話ソースストリーム322をオーディオ環境内の一意の話し手にマッピングするように構成され得る音声生体認証エンジン330を含む。音声生体認証エンジン357は、
図2Cの環境200cの部屋200d、200eなどの1つ以上の部屋に存在する話し手の実行リストを生成し、ソース分類器304によって提供されるポイント発話ソースストリーム322を処理することによって、どの話者が任意の所与の時点で話をしているかを識別することができる。
【0108】
音声生体認証エンジン330は、各話者に一意の音響発話シグネチャを割り当てることができる。例えば、音声生体認証エンジン330は、登録及び検証段階を実施して、異なる話し手の声紋からいくつかの特徴を記録及び抽出し、次いで、ポイント発話ソースストリーム322内の分離されたソース内の発話サンプルを、以前に作成された声紋と比較することができる。発話サンプルを複数の声紋と比較して、ストレージ121、ネットワークストレージ131、又は他の適切な場所に記憶され得る音声フィンガープリントリポジトリ359のメモリに記憶された声紋などの最適な一致を判定することができる。いくつかの実施形態では、音声生体認証エンジン357は、話し手を登録して検証するために共通のパスフレーズ又は他のプロンプトを使用するなどによるテキスト依存認識、又は話者が話し手の意識的な知識又は登録のためのプロンプトに依存しない発話認識アルゴリズムで識別されるテキスト非依存認識を実装することができる。実施形態に応じて、音声生体認証エンジン357は、周波数推定、マルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、線形予測符号化(LPC)などを含む様々な異なるAI又は非AIアルゴリズムを適用することができる。コサイン類似度は、発話を声紋と比較するために使用することができる。
【0109】
生体認証エンジン357は、生体認証情報でポイント発話ソースストリーム322を補完することができる。例えば、生体認証エンジン357は、ポイント発話ソースストリーム322にフラグを挿入することができ、各フラグは、拡張ポイント発話ソースストリーム322のソースに関連付けられた生体認証識別された話し手を示す。
【0110】
発話ソースプロセッサ306は、補完されたポイント発話ソースストリーム322を処理し、例えば、発話ソース上でAI「ウェイクワード」スキャンを実施し、音声コマンドサービスのためのソースを選択してマッピングするように構成された音声コマンド処理エンジン332を含むことができる。例えば、音声コマンド処理エンジン332は、所定のウェイクワードの発話を識別し、クラウドベースの音声コマンドサービス(例えば、Amazon Alexa、Siriなど)などの音声コマンドサービスを制御するためにウェイクワードに続いて発せられた発話からコマンドを抽出し、及び/又は対応するメタデータをポイント発話ソースストリーム322に埋め込むことができる。音声コマンド処理エンジン332は、外部音声コマンドサービスとの互換性のために、ポイント発話ソースストリーム322を更にフォーマットすることができる。
【0111】
発話ソースプロセッサ306は、トランスクリプトのために優勢な発話ソースをスキャン、選択、及びマッピングするように構成されたトランスクリプト処理エンジン334を更に含み得る。例えば、トランスクリプト処理エンジン334は、補足されたポイント発話ソースストリーム322内の発話コンテンツについて、音声コンテンツを発した話し手に対応するストリーム内のフラグを識別及び処理し、並びに/又はポイント発話ソースストリーム322をトランスクリプト処理ソフトウェアと互換性のあるフォーマットに変換することができる。このようにして、ローカル又はリモートのオーディオトランスクリプトソフトウェアは、オーディオストリームを処理して、各話し手を正確に識別する情報を埋め込むトランスクリプトを生成することができる。
【0112】
発話ソースプロセッサ306は、音声通信のために発話ソースをスキャン、選択、及びマッピングするために、補完されたポイント発話ソースストリーム322を処理することができる音声通信処理エンジン336を更に含むことができる。例えば、第3のスキャン/マッピングブロック336は、再生され、ラウドスピーカ150、サードパーティデバイス150、又は他の展開デバイス110を介して環境内のユーザにオーディオでブロードキャストされるために第2のネットワークチャネル139に送信される発話ソースコンテンツを識別して出力することができる。音声通信処理エンジン336はまた、特定の他の発話コンテンツをフィルタリングすることもできる。一例として、電話会議のユーザがコマンド(例えば、「アレクサ、音量を上げてください」)に続くウェイクワードを発した場合、音声コマンド処理エンジン336は、ラウドスピーカ150、サードパーティデバイス180、又は他の展開デバイス110のうちの1つ以上を介して他のユーザにブロードキャストするためにネットワークチャネル139に送信された音声データから発話を除外し得る。発話ソースプロセッサ306は、更に、外部音声通信プロトコル又はアプリケーションとの互換性のために、ポイント発話ソースストリーム322を再フォーマットすることができる。
【0113】
発話ソースプロセッサ306はまた、自然言語プロセッサ(NLP)348を含むことができ、これは、ルールベースの人間言語モデリングを機械学習と組み合わせて発話ソースコンテンツを処理及び「理解」するように構成することができる。NLP348は、発話対テキスト、発話の一部のタグ付け、単語感覚の曖昧さ解消、名前付きエンティティ認識、感情又は情意分析などを含む様々なNLPタスクを実施することができる。NLP348は、カスタムNLPアルゴリズムを適用して、生体認証識別された話し手が発話したことに基づいて、これら及び他のタスクを実施することができる。例えば、NLP348は、識別された各話し手に関連する感情及び情意情報を検出することができる。一例として、NLP348は、所与の話し手からの発話ソースコンテンツを処理して感情又は情意を検出し、感情/情意を示すメタデータをトランスクリプト音声サービス360に渡すように構成することができ、トランスクリプト音声サービス360は、感情/情意メタデータを使用して、トランスクリプトされた発話に文脈情報を追加することができる(例えば、ジョン[冗談を言っている]:「マイク、あなたは最悪です!」)。又は、別の例として、電話会議では、ミキサ/制御エンジン127は、NLP348によって検出された話し手の感情に応答して、環境100内のサードパーティデバイス180又は他のディスプレイに表示されるアバターに、話し手の感情を反映して外観を変更させることができる。
【0114】
発話ソースプロセッサ306内のエンジン(音声生体認証エンジン330、音声コマンド処理エンジン332、トランスクリプト処理エンジン334、音声通信処理エンジン336、及び/又はNLP348)のいずれも、DNN、機械学習などに基づくものを含む機械学習又は他のAIアルゴリズムを適用して、特定の環境などに合わせて調整又は適応させることができる。そのような場合、AI対応ブロックは、例えば、特定の展開環境に合わせてアルゴリズムを調整するために訓練データを処理することができる。例えば、音声生体認証エンジン330は、一意の話者の認識を改善するために機械学習を実装することができ、音声コマンド処理エンジン332は、ウェイクワード検出を改善するために機械学習又は他のAIを実装することができる。
【0115】
訓練データは、公的に利用可能なデータのコーパス、又はカスタマイズされたデータセットを含むことができる。例えば、音声生体認証エンジン330、音声コマンド処理エンジン332、トランスクリプト処理エンジン334、音声通信処理エンジン336、及びNLP348のうちの1つ以上は、多様な話者グループ(例えば、男性、女性、子供、大人など)からの記録された音声フィンガープリント又は他のクリップを含むデータ上で訓練することができる。更に、ブロックのうちのいずれかは、代替的又は追加的に、オーディオ処理エンジン125によって検出されたデータ上で訓練することができ、これは、ニューラルネットワーク又は他の機械学習又はAIモデルを訓練、再訓練、又は微調整するために、オンザフライで検出され、訓練データとして使用され、又は記憶され、後でアクセスされ得る。
【0116】
発話プロセッサ306は、様々なエンジン330、332、334、336、348によって順次処理される単一のストリームとして発話ポイントソースストリーム322を例示するが、いくつかの実施形態では、エンジンのうちの1つ以上は、別個のストリームを出力することができる。例えば、音声コマンド処理エンジン332は、音声コマンドサービス358への送信のために別個のストリームを出力することができ、トランスクリプト処理エンジン334は、トランスクリプト処理サービス360への送信のために別個のストリームを出力することができる。これらの別個のストリームは、オーディオ信号処理ユニット308によって受信及び処理されてもよく、又は、実施形態に応じて、適切なサービス114に直接転送されてもよい。
【0117】
ソースごとにカスタマイズされたオーディオ信号処理
図3Eは、オーディオ信号処理ユニット308の実施形態を示し、オーディオ信号処理ユニット308は、概して、オーディオ信号処理をソース分離データストリーム322、324、326に適用するように構成することができ、ここで、信号処理動作のいくつか又は全てを、ソースに関連する情報に基づいてカスタマイズ、最適化、及び/又はパーソナライズすることができる。例えば、オーディオ信号処理ユニット308は、ソースのタイプに基づいて、又は話し手の識別情報若しくは別のソースの識別情報に基づいて、オーディオコンテンツにカスタムデジタル信号処理又は他のカスタム処理を適用するように構成することができる。例示されているオーディオ信号処理ユニット308は、自動ゲインコントローラ(AGC)342、イコライザ(EQ)344、ノイズサプレッサ345、及びコンプレッサ346を含む。
【0118】
AGC342は、閉ループフィードバック増幅又は開ループフィードフォワード増幅を、ポイント発話ソース322、非発話ポイントソースストリーム324、及び拡散ソースストリーム326を含む受信された入力ストリーム内のオーディオコンテンツに適用して、異なるソースからの平均音量を均等化するなどして、所望の信号振幅又はプロファイル発話コンテンツを維持することができる。AGC342は、例えば、話者ごとに(例えば、一意の話者ごとに異なるカスタムプロファイル)、又はソースのタイプ(例えば、非発話ソースに対して人間の発話のための異なるカスタムプロファイル)に基づいて、カスタムフィードバックコントロールを適用するように構成することができる。
【0119】
EQ344は、例えば、オーディオコンテンツ内の異なる周波数帯域の音量を調整することによって、オーディオコンテンツを均等化する。EQ344は、例えば、話者ごとに(例えば、一意の話者ごとに異なるカスタムプロファイル)、又はソースのタイプ(例えば、非発話ソースに対して人間の発話のための異なるカスタムプロファイル)に基づいて、カスタム均等化プロファイルを適用するように構成することができる。各生体認証識別された話者に特定のEQ設定を適用すると、各音声が一意であり、音程、音色、調性に違いがあるため、音質を向上させることができる。
【0120】
ノイズサプレッサ345は、ソースストリーム322、324、326内のノイズを低減するために、ノイズゲート、スペクトルマスキング、又は他のノイズ低減技術を実装することができる。ノイズサプレッサ345は、ソース、例えば、話者ごと(例えば、一意の話者ごとに異なるカスタムプロファイル)に応じて、又はソースのタイプ(例えば、非発話ソースに対して人間の発話のための異なるカスタムプロファイル)に基づいて、カスタムのノイズ抑制アルゴリズムを実装することができる。
【0121】
コンプレッサ346は、オーディオコンテンツにダイナミックレンジ圧縮を適用することができる。例えば、コンプレッサは、音ソースに応じてカスタムダイナミックレンジ圧縮アルゴリズムを適用することができる。異なる圧縮アルゴリズムは、ソースのタイプ(例えば、発話ソース、非発話ソース、拡散ソース)又は特定的に識別された一意のソース(例えば、生体認証識別された話し手1対生体認証識別された話し手2、ノイズソース1対ノイズソース2)に基づいて適用することができる。
【0122】
AGC342、EQ344、ノイズサプレッサ345、及びDRコンプレッサ350は、実施形態に応じて、概して任意の順序で配置することができ、これらのブロックのいずれも、訓練データを処理して展開環境に合わせて調整され得る機械学習又はAIアルゴリズムを実装することができる。
【0123】
ここで
図3A及び3Eの両方を参照すると、オーディオ信号処理ユニット308は、ミキサ/制御エンジン127に送信するためのストリームを含む1つ以上の出力ストリームを出力することができ、この出力ストリームは、ミキサ/制御エンジン127に出力することができる発話ポイントソースストリーム322、非発話ポイントソースストリーム324、及び拡散ソースストリーム326を含むことができる。例示されているオーディオ信号処理ユニット308は、更に、サービス114又は他のコンポーネントへの伝送などのために、追加のデータストリームを抽出、フォーマット、及び/又はパッケージングすることができるデータストリーム抽出器352を含む。これらのデータストリームは、例えば、システム100の一部又はリモート(例えば、サードパーティのクラウドサービス)であり得る、クラウド音声コマンドサービス358、トランスクリプト処理サービス360、及び/又はAI処理サービス366のためのストリームを含むことができる。いくつかの他の実施形態では、発話ソースプロセッサ306は、これらのストリーム(例えば、音声トランスクリプトストリーム又は音声コマンドストリーム)のうちの1つ以上をサービス114に直接転送し、そのような場合、ストリームは、オーディオ信号処理ユニット308によって最初に処理されない。
【0124】
音声トランスクリプトストリームは、トランスクリプト処理エンジン334によって生成されたコンテンツを含むことができる。AI処理サービス366に送信されるデータストリームは、AIモデルを調整又は訓練するためにAI処理サービス366によって使用され、それによって複数のオーディオ/ビデオシステム100から受信された集約されたデータ上で訓練することができる。例として、分離及び分類された非発話ソースコンテンツは、AI処理サービス366によって使用されて、ノイズ(例えば、ファン、タイピング、紙をしわくちゃにするなど)を識別及び抑制するためにAIモデル(例えば、ニューラルネットワークベースのモデル)を訓練することができる。いくつかの実施形態では、オーディオ処理エンジン125は、オンボードでAI処理を実施し、展開環境に固有のノイズを抑制することができる。音声コマンドソースストリームは、ウェイクワード、ウェイクワードが許可された個人によって発せられたことの表示、又は発話ソースプロセッサ306の音声コマンド処理エンジン332から抽出された他の音声コマンドを含むことができる。
【0125】
一部の音声コマンドシステムは、選択された個人又は個人のセットによってのみ発せられたウェイクワードに応答するように設計されている。オーディオ処理エンジン125は、ブラインドソース分離、音声アクティビティ検出、生体認証、及び/又は他の記載された技術を採用するため、オーディオ処理エンジン125は、ウェイクワードだけでなく、ウェイクワードを発した特定のソースも確実に抽出することができ、誤検知を低減する。ウェイクワードが許可された話し手によって発せられたことを検出すると、オーディオ処理エンジン125は、ウェイクワードが許可された話し手によって発せられたことを音声コマンドサービス358に通知することができる。音声コマンドサービス358に発行することができるコマンドの一例は、「会議室をオンにする」ことである。そのようなコマンドを受信すると、音声コマンドサービス358は、システム100に適切なコマンドを発行することによって応答し、ミキサ/制御エンジン127に、マイクロフォン140、ラウドスピーカ150、カメラ160、ユーザインターフェース、又は他の制御デバイス170、ディスプレイ、プロジェクタ、又はマイクロフォンシステム100の他のコンポーネントを有効にするなど、展開デバイス110のいずれかをアクティブにするように命令させることができる。別の例として、システム100は、講師が「講義キャプチャを開始する」コマンドを発行するときに講義ホールで録音を開始するように構成されてもよく、他の音声は無視される。この場合、オーディオ処理システム121は、ウェイクワードが発せられたことを音声コマンドサービス358に通知し、音声コマンドサービス358は、システム100にコマンドを発行することによって応答して、ミキサ/制御エンジン127に1つ以上のマイクロフォン140及びカメラ160をアクティブにするように命令させ、ミキサ/制御エンジン127に、他の話し手によって発せられた発話を除外/抑制しながら、第2のネットワークチャネル139を介して、及び/又は記憶のための記録ストリームでブロードキャストするために展開デバイス110に送信されるブロードキャストストリーム内の講師の発話に対応する分離されたオーディオソースを含む/増幅させることができる。
【0126】
信号対ノイズ比及び到達方向の検出
図3Aを参照すると、オーディオ処理エンジン125は、方向性エンジン317及び信号強度エンジン338を含むことができる。
【0127】
方向性エンジン318は、BSS302によって提供された分離されたソース信号312_1~312n、ソース分類器304によって出力された分類されたポイントソースストリーム322、324、発話ソースプロセッサ306によって出力された拡張発話ソースストリーム322、又はオーディオ信号処理ユニット308によって出力された処理されたポイントソースストリーム322、324を処理して、ポイントソースに関連する方向情報を判定することができる。例えば、判定された方向情報は、マイクロフォン140で、又はマイクロフォン140内の個々のマイクロフォン要素M1~Mnでの音ソースの到達角度(例えば、高度及び方位角)を示す角度を含むことができる。実施形態に応じて、方向性エンジン318は、マイクロフォン要素M1~Mn間の時間遅延又は位相遅延を使用して、抽出されたソースの到達方向を判定することができる。
【0128】
方向性エンジン318によって生成されたDOA又は他の方向性情報は、性能を改善するために使用され得る。例えば、方向性情報に応答して、ミキサ/制御エンジン127は、ラウドスピーカ150及び他の展開デバイスに提供される出力ストリームの構成を調整することができ、又はミキサ/制御エンジン127は、(例えば、BSS302によって抽出された特定の話し手又は他のソースにパンするために、1つ以上のカメラ160の物理的又はデジタルのパンニング/トラッキングを制御するために)展開デバイスの動作を制御することができる。又は、オーディオ処理システム101がビームフォーマーを含む場合、ミキサ/制御エンジン127は、DOA情報に応答して、話し手又は他の抽出された音ソースにビームを集束させるため、又はノイズソースからの音を拾うことを回避するなどのために、所与の方向からの音の検出をビームが許可しないようにするためにマイクロフォン140を制御できる。方向性情報を使用して、部屋内の様々なソースの場所をマッピングすることもできる。方向性情報の使用については、以下で詳細に説明する。
【0129】
信号強度エンジン338は、ソースのいくつか又は全てについて、実際の又は推定されるSNR又は他の信号強度/品質メトリックを判定することができる。例えば、信号強度エンジン338は、検出された信号及びノイズ電圧の根平均二乗を使用して、例えば、式SNR=20*log10(Vrms信号/Vrmsノイズ)又はいくつかの他の適切な式を使用してSNRを計算することができる。例示されている実施形態は、ソース分類器304によって出力された分類されたソースストリーム322、324、326のSNRを計算するが、信号強度エンジン338は、代替的又は追加的に、BSS302によって出力されたソースストリーム312_1~312_n、又は発話ソースプロセッサ306又はオーディオ処理ユニット308によって出力されたソースストリーム322、324、326の信号強度を計算することができる。
【0130】
信号強度エンジン338は、オーディオ処理エンジン125内のコンポーネント(例えば、BSS302、発話ソースプロセッサ306、ソース分類器304、及びオーディオ処理ユニット308)によって、ミキサ/制御エンジン127によって、又は聴覚シーンアナライザ129によって、を含む、システム100内の様々なコンポーネントによって使用され得る、判定された信号強度の表示を出力する。例えば、ミキサ/制御エンジン127は、測定された信号強度情報に応答して、構成出力オーディオストリームを調整することができ、並びに/又はマイクロフォン140及びラウドスピーカ150などの展開デバイス110の動作を制御することができる。一例として、聴覚シーンアナライザ129は、信号強度情報を使用して、検出マイクロフォン140と音ソースとの間の距離又は推定距離を計算することができる。信号強度情報の使用については、以下で詳細に説明する。
【0131】
別個のソースコンテンツを使用したスマートミキシング及びデバイス制御
図3Fは、概して、ソース分離/分類されたオーディオストリーム322、324、326及び他のデータ(例えば、信号強度及び方向データ)を受信し、受信したストリーム及びデータの処理に基づいてオーディオ環境の動作をオーケストレーションすることができる、ミキサ/制御エンジン127の例を示す。
【0132】
例えば、示されるように、ミキサ/制御エンジン127は、分離及び分類された音ソースを受信し、それらを、ラウドスピーカ150、サードパーティデバイス180(例えば、スマートフォン、ラップトップなど)、及び環境内の他のオーディオ出力デバイスの各々のための別々のカスタマイズされた出力ストリームに一緒に混合することができる。ミキサ/制御エンジン127は、1つ以上のネットワーク化された会議室又は他のシステム内の展開デバイス110にストリーミングするために、ラウドスピーカ150、ネットワーク化された電話などで再生するために、又は同様のために、混合された出力ストリームを第2のネットワークチャネル139に提供する。ミキサ/制御エンジン127は、同様に、カメラ160又はサードパーティデバイス180から受信したデータに基づいてビデオ出力ストリームを生成することができ、例えば、ラップトップ、スマートフォン、若しくは他のサードパーティデバイス180などの1つ以上の展開デバイス110上、又は会議室200d、200eのディスプレイ208a~208bなどのスタンドアロンディスプレイ上の表示のためにストリーミングすることができる。
【0133】
オーディオ出力ストリームの構成に関して、ミキサ/制御エンジン127は、本明細書に記載の技術のいずれかを使用して、出力ストリーム内のオーディオコンテンツをソースごとに含むことができ、例えば、1つ以上の発話ソースなどの特定の所望のソースを含む、及び/又は増幅して、ノイズソースなどの特定の他のソースを除外又は減衰する。
【0134】
ミキサ/制御エンジン127はまた、分離及び分類されたソース、信号強度データ、並びに/又は方向データの処理に基づいて、展開デバイス110を制御することができる。例えば、ミキサ/制御エンジン127は、ラウドスピーカ150、マイクロフォン140、カメラ160、制御デバイス170、及び/又はサードパーティデバイス180を制御するために第2のネットワークチャネル139を介して通信されるコマンドストリームを生成することができる。
【0135】
オーディオ環境の動作をオーケストレーションするためのミキサ/制御エンジン127の動作は、以下で更に詳細に考察される。
【0136】
例示的な環境リポジトリ
図4A~4Cは、オーディオ処理システム100によって生成及び維持されるデータの例を示す図である。
図4Aは、オーディオシステム100が展開される聴覚環境に関連する情報を含む、聴覚環境又は聴覚シーンテーブル400の一例を示す。環境テーブル400は、
図4Bのソーステーブル402及び
図4Cのマイクロフォンテーブルを含む他のテーブルへのポインタ、並びに環境内の様々な会場のマップへのポインタのテーブル(図示せず)を含むリレーショナルデータベースであり得る。データベース及びその構成テーブル400、402、404は、例えば、
図1及び3Aの環境リポジトリ112に記憶され得、聴覚シーンアナライザ129又はシステム100の他の適切なコンポーネントによって生成され得る。
【0137】
環境テーブル400は、環境内の各会場についての行を含み、各々が会場インデックスV1~Vnによってインデックス付けされている。会場タイプフィールドは、リストされている各会場のタイプを指定する(例えば、会議室、リモート接続、円形劇場、コンサートホール、講義ホール、屋外エリア、小部屋、大部屋など)。会場IDフィールドは、会場を一意に識別する情報を含み、英数字の文字列又は他の適切な識別子であり得る。会場地図/トポグラフィフィフィールドは、会場の記憶された地図又はトポグラフィ表現へのポインタを含み、これは会場の3D表現を含み得る。会場内マイクフィールドは、どのマイクロフォン140が各会場に展開されているかを指定し、リストされた各マイクロフォン140についてマイクロフォンテーブル404内のエントリへのポインタを含む。会場で検出されたソースのフィールドは、環境内のシステム100によって検出されたソースの実行リストを含み、リストされた各ソースについてのソーステーブル402内のエントリへのポインタのリストを含む。
【0138】
例示されている表には、2つの会議室の会場(NY Conf.及びSF Conf.)と、従業員1のラップトップへのウェブ会議接続などのリモート接続とが含まれている。
【0139】
図4Bに示されるように、ソーステーブル402は、環境内で識別された各ソースについての行を含み、各々がソースインデックスS1~Snによってインデックス付けされている。ソースタイプフィールドはソースのタイプ又は分類を指定し、ソースサブタイプはサブタイプ又はサブ分類を指定する。これらのフィールドには、
図3A及び3Eのソース分類器304、BSS302、発話ソースプロセッサ306、又はオーディオ信号プロセッサ308の任意の組み合わせによって判定された情報を聴覚シーンアナライザ129によって入力することができる。
【0140】
一意の人IDフィールドは、オーディオ処理エンジン125の発話ソースプロセッサ306の生体認証エンジン330によって識別された話し手など、識別された話し手を一意に識別するための情報を含み、個人を識別する英数字の文字列を含むことができる。このフィールドのエントリは、例えば、従業員データベースを指すことができる。一意の非人IDフィールドは、非人ソースを一意に識別するための情報を含み、英数字の文字列も含むことができる。ソース場所フィールドは、識別されたソースSnが検出された会場を指定するエントリを含み、会場テーブル400へのポインタを含むことができる。検出マイクロフォンフィールドは、どのマイクロフォン140がソースを検出したかを指定し、各検出マイクロフォン140についてのマイクロフォンテーブル404へのポインタを含む。
【0141】
ソース位置フィールドは、環境内で検出されたソースの位置を指定する情報が含む。この位置情報は、相対情報であることができ、例示されている例では、各検出マイクロフォン140からの距離及び極角度を含み、他の実施形態では、位置情報は、追加的又は代替的に、例えば、会場マップを参照する、会場内のソースの三次元x、y、z座標位置を含む。
【0142】
例示されているソーステーブル402は、5つのソースをリストしている:1)第1の会場Va(例えば、会議室)内に位置する成人男性従業員1(S1)によって発せられた発話、2)第1の会場Va内に従業員1と一緒に位置する従業員1のスマートフォン(S2)によって生成された音(例えば、着信音、音楽など)、3)第2の会場Vb内の成人女性従業員2によって生成されたタイピング音(S3)、4)第2の会場Vb内の従業員2によって発せられた発話、及び5)第1の会場Vaで検出された拡散交通ノイズ。
【0143】
図4Cのマイクロフォンテーブル404は、環境内の各マイクロフォンについての行を含み、各々が、マイクロフォンインデックスM1~Mnによってインデックス付けされている。マイクタイプフィールドは、マイクロフォンのタイプを指定している。例示されている実施形態は、単一のマイクタイプフィールドを含むが、第1のフィールドがマイクカテゴリ(例えば、アレイ、単一要素など)を定義するなど、より詳細な情報を提供するために複数のフィールドを使用することができ、追加のフィールドは、サブタイプ、製造者情報、モデル番号などの追加情報を定義する。
【0144】
配置カテゴリフィールドは、配置場所のタイプ又はカテゴリ(例えば、天井、壁、ラップトップ、演壇/テーブル)を指定し、マイクロフォン140によって検出される音を処理する際にオーディオ処理システム121によって使用され得る。配置会場フィールドは、マイクロフォン140がどの会場Vnに配置されているかを指定し、会場テーブル400内の対応するエントリへのポインタを含む。会場位置フィールドは、会場内のマイクロフォン140の位置を指定し、会場マップデータベースに記憶された会場マップに対するマイクロフォンのx、y、z座標を含み得る。検出されたソースフィールドは、マイクロフォン140によって検出されたソースの実行リストを含み、ソーステーブル402内の対応するエントリへのポインタを含み得る。マイクロフォンテーブル402はまた、方向性エンジン318によって生成された方向情報、及び信号強度エンジン338によって生成された信号強度情報を含むことができる。ソース到達方向フィールドは、それぞれのマイクロフォン140での各ソースについての検出された到達方向を記憶し、検出されたソースSNR/レベルフィールドは、それぞれのマイクロフォン140で検出された各ソースについてのSNR又は信号の大きさ/エネルギーレベルを記憶する。
【0145】
例示されているマイクロフォンテーブル404は、1)第1の会場Va内の天井に配置された第1のタイプの第1のアレイマイクロフォンM1、2)第2の会場Vb内の壁に配置された第1のタイプの第2のアレイマイクロフォンM2、3)第3の会場Vc内のラップトップに統合された第2のタイプのアレイマイクロフォンM3であって、このラップトップは、ウェブ会議を介して第1の会場Va、第2の会場Vbにリモート接続することができる、アレイマイクロフォンM3、及び4)例えば、講師によって使用され得る、第1の会場Va内の演壇又は台に取り付けられた単一要素マイクロフォンM4を含む4つのマイクロフォンをリストしている。
【0146】
聴覚シーン分析-シーンの分析及び環境リポジトリの作成
ここで
図3A及び3Gを参照すると、聴覚シーンアナライザ129は、システム100が展開されている聴覚「シーン」の初期表現374を生成するために、初期化データ372のセットを処理するように構成され得る。アナライザ129は、システム100によって検出及び/又は生成された検出データ376を更に処理して、初期の聴覚「シーン」を動的に補完及び更新し、聴覚シーンの現在の状態を集合的に表す更新された聴覚シーンデータ378を出力することができる。聴覚シーンデータ378は、
図4A~4Cのものと類似するテーブルを含むことができるデータベースに編成することができる。聴覚シーンデータ378は、性能及びユーザエクスペリエンスを改善するために、様々な方法でオーディオ処理システム121によって使用され得る。
【0147】
アナライザ129が聴覚シーンの初期表現374を構築するために使用する初期化データ372は、例えば、管理者による手動入力によって、又は処理コア120によって実装される自動検出プロセス中など、セットアップ/構成中などに、オーディオ/ビデオ会議又は他のイベントが開始する前に、アナライザ129に提供され得る。例えば、聴覚シーンアナライザ129は、インストーラ又は他の管理者がシステム100によって実行される管理アプリケーションのユーザインターフェースと対話して各会場のエントリを追加し、環境テーブル400に各会場のマップを入力し、会場IDを各会場に割り当て、設置された各マイクロフォン140のための会場内マイクフィールドを入力するなど、環境展開又は構成のときに、初期データをテーブル400、402、404に入力することができる。
【0148】
図3Gに示されるように、初期化データ372は、初期会場データを含み得る。会場は、オーディオ環境内の異なる物理的及び/又は仮想的な場所であり得る。企業のオーディオ/ビデオ会議では、会場は、ネットワーク化された会議室、ラップトップ/スマートフォンのリモート接続、ネットワーク化された電話接続などのグループを含み得る。スポーツスタジアムでは、会場は、屋外コート/フィールド又はその一部分、レストラン、プライベートボックス、通路/廊下/歩道などを含み得る。初期会場データは、
図4Aの環境テーブル400に示される会場情報のいくつか(例えば、各々がインデックス、タイプ、ID、初期マップ/トポグラフィ、マイクロフォン140の初期リスト、及び/又は会場内の他の展開デバイス110を有する会場のリストなど)を含み得る。管理者は、GUIと対話して、各会場に展開された会場、会場タイプ、会場ID/名前、及び/若しくはマイクロフォンの初期リストを入力してもよく、1つ以上のデジタル会場マップをシステム100に提供してもよく、並びに/又は会場に関する他の物理的情報(例えば、実際の若しくは相対的なサイズ(例えば、小、中、大の部屋、屋内若しくは屋外の設定など)を提供してもよい。実施形態に応じて、システム100は、各会場に設置されたリモート接続及び/又はマイクロフォン140又は他の展開デバイス110を検出するなど、自動検出プロセス中に初期化データ372の少なくとも一部を入力することができる。
【0149】
初期化データ372はまた、展開デバイス110に関連する初期データを含むことができ、これは、情報のタイプ及び実施形態に応じて、手動で入力されるか、又は自動検出され得る。これは、展開デバイスのリスト、タイプ(例えば、マイク、ラウドスピーカ、カメラ、ディスプレイなど)、サブタイプ(例えば、アレイマイクロフォン、単一要素マイクロフォン、ツイーター、ウーファー、フルレンジラウドスピーカなど)、特定のデバイスに関するより詳細な情報(例えば、製造業者/ブランド、モデル、カメラセンサ解像度、ラウドスピーカ最大デシベル出力、マイクロフォン感度などの技術仕様/能力など)、デバイス配置情報(例えば、壁、天井、演壇、台、内蔵ラップトップカメラ、若しくはマイクロフォン上などに配置される)、配置会場、及び/若しくは会場内の位置など、
図4Cに図示されるマイクロフォンテーブル404に示される情報のいくつかを含むことができる。いくつかの実施形態では、展開デバイス110は、環境内のデバイス110の場所を電子的に判定することを可能にするGPSトランシーバ又は他の機能を有する。システム100は、各会場に展開されたマイクロフォン140にインテロゲートして、
図4Cのテーブル404の会場内マイクフィールド内の情報のいくつか又は全てを入力することができる。
【0150】
様々な他の初期化データ372が使用され得る。例えば、例示されている実施形態では、初期化データ372は、オーディオ/ビデオ会議又は他のイベントに期待される、又は実際に参加している人々のリスト、及びそれらの参加者に関する情報を含むことができる参加者情報を含む。初期の参加者情報は、イベントに出席するためにRSVP、登録、及び/又は招待された期待される参加者のリスト、並びにそれらの参加者に関連する情報(例えば、雇用状況又はホスティング会社若しくは組織とのその他の関係、イベントでの役割(例えば、主要講演者、認定講演者、非参加者の主催者若しくはサポートスタッフ)、その人がイベントに出席することが期待される会場など)を含むことができる。
【0151】
示されるように、入力データはまた、検出されたデータ376を含み、これは、アナライザ129によって、聴覚シーン表現を動的に更新及び充実させるために使用され得る。検出データ376は、システム100によってリアルタイムで検出/生成された任意のデータ、又はシステム100によって以前に検出/生成され、記憶されたデータ、例えば、処理コア120又はネットワークストレージ131に対してローカルなストレージ123からアクセスされたデータを含むことができる。検出データ376は、限定されないが、分離ソースストリームデータ(例えば、発話ポイントソース322、非発話ポイントソース324、拡散ソース326)、信号強度データ(例えば、信号強度エンジン338からのSNRデータ)、及び方向データ(例えば、方向性計算器318からのDOA又は他の方向情報)を含むことができる。例えば、検出されたデータは、オーディオ処理エンジン125又はミキサ/制御エンジン127の構成要素のいずれかによって出力されるデータを含むことができる。検出されたデータは、例えば、カメラ160によってキャプチャされたビデオデータを含む、オーディオに加えて他のタイプの検出されたデータを含むことができる。
【0152】
示されるように、アナライザ129は、初期聴覚シーン表現及び検出データ376を処理して、聴覚シーンの更新された状態又は現在の状態を表すことができる聴覚シーン出力データ378を生成する。
【0153】
聴覚シーンアナライザ129によって生成された聴覚シーンデータ378は、様々な情報を含むことができ、例示されている実施形態では、更新された会場データ、更新された展開デバイスデータ、更新された参加者データ、及びオーディオソースデータを含む。
【0154】
会場データに関して、アナライザ129は、
図4Aの環境テーブル400に示されるように、オーディオ処理エンジン125によって実施されるソース分離及び分類に基づいて会場データを更新して、各会場で検出されたオーディオソースのリストを追加することができる。アナライザ129は、例えば、マイクロフォン140によって検出されたソースごとに分離されたオーディオデータを処理することによって、又はカメラ160によって検出されたビデオに対して、部屋若しくは他の会場内の物体/閉塞(例えば、台、壁など)の存在に対して画像処理を実施することによって、会場マップを動的に生成、更新、補完、若しくは改良することができる。更に、管理者は、会場の初期構造マップを含むファイルをシステム100に提供することができ、システム100は、環境内の追加の構造、閉塞などを識別するために、マイクロフォン140によって検出された音を処理することによって、又はカメラ160によって収集された画像処理データを実施することによって、会場に関する情報を「学習する」ときにマップを更新及び改良することができる。
【0155】
ソースデータに関して、アナライザ129は、オーディオ環境内のソースのリスト及びソースに関する様々な情報を維持するために、オーディオ処理エンジン125によって提供されたソースストリームデータ、信号強度、及び/又は方向データを処理することができる。例えば、アナライザ129は、ソースストリームデータを処理することによって、
図4Bのソーステーブル402の一部又は全部を入力することができる。
【0156】
アナライザ129はまた、更新された展開デバイスデータを生成することができ、これは、
図4Cのマイクロフォンテーブル404内の情報のうちのいずれかについての新しい値又は更新された値を含むことができる。例えば、アナライザ129は、方向データ及び信号強度データを処理することによって、マイクロフォンテーブル404のソース到達方向及び検出されたソースSNR/レベル列を入力することができ、ソースストリームデータに基づいて検出されたソース列を入力することができる。
【0157】
アナライザ129はまた、更新された参加者情報を生成することができる。例えば、アナライザ129は、ソースストリームデータを処理することによって参加者の存在を検出して、環境内の生体認証で確認された話し手の存在を識別し、それに応じて初期参加者情報を更新又は改良することができる。シーンアナライザ129は、時間枠内(例えば、最後の1分、5分、又は10分以内)に話した話し手の実行リストを維持することなどによって、会議室又は他の環境内の多数の一意の話し手を追跡することができる。
【0158】
聴覚シーン分析-位置追跡
聴覚シーンアナライザ129又は他の適切なコンポーネントは、方向性エンジン318からの方向性情報、及びオーディオ処理エンジンからの発話又は非ポイントソースデータストリーム322、324を更に処理して、システム100内の1つ以上のポイントオーディオソースの位置を追跡することができる。
【0159】
例えば、シーンアナライザ129は、発話ソースプロセッサ306によって発話ポイントソースデータストリーム322に追加された音声識別情報を、方向性エンジン318から受信された発話ソース到達方向情報及び/又は信号強度エンジン338からの信号強度表示と組み合わせて、会場内の一意の話し手の位置を計算及び追跡することができる。いくつかの実施形態では、シーンアナライザ129は、受信したDOA及びSNRを使用してマイクロフォン140に対するソース位置を計算し、次いで、マイクロフォン140に対するソースの相対位置を会場内のマイクロフォン位置(
図4Cの会場位置)と比較することによって、会場内のソースの位置を識別する。このようにして、シーンアナライザ129は、部屋又は他の環境内の話し手又は他のポイントソースの移動又は位置を動的に追跡するための位置情報を生成することができる。シーンアナライザ129は、各話し手又は他のポイントソース(例えば、マイクロフォンに対する方向、環境内の座標、移動の速度/方向など)についての位置及び/又は移動情報を生成することができ、これは、異なる目的のためにオーディオ/ビデオシステム100によって使用されることができる。そのような位置情報は、
図4Bのソーステーブル402のソース位置列で更新され得る。
【0160】
更に、位置情報は、話し手を手渡しマイクロフォン140から受信マイクロフォン140に「引き継ぐ」ために使用され得る。引き継ぎは、手渡しマイクロフォンをミュートし、受信マイクロフォンをミュート解除することによって達成することができ、ミュート及びミュート解除は、ミキサ/制御エンジン127が出力ストリームを調整して、手渡しマイクロフォン140によって検出された話し手に関連付けられた分離された発話コンテンツを除去し、受信マイクロフォン140によって検出された話し手に関連付けられた分離された発話ソースコンテンツを追加することによって達成することができる。又は、ミュート及びミュート解除は、ミキサ/制御エンジン127が、手渡しマイクロフォン140にミュートモードに入るように命令し、受信マイクロフォン140にアクティブにするように命令することによって達成され得る。他の実装態様では、引き継ぎは、ミキサ/制御エンジン127によって、手渡しマイクロフォン140からの話し手の発話ソースコンテンツの寄与を出力ストリーム内で徐々に減少させ、一方で、受信マイクロフォン140からの話し手の発話ソースコンテンツの寄与を出力ストリーム内で徐々に増加させること、又は、ミキサ/制御エンジン127によって、手渡しマイクロフォン140に感度を徐々に減少させることを命令し、一方で、受信マイクロフォン140に感度を徐々に増加させることを命令することによって達成されてもよい。
【0161】
位置情報はまた、カメラ動作を制御するために、例えば、電動カメラ160を移動させるために、又は話し手が部屋全体を移動するときに話し手を追跡するために電子パン、チルト、ズーム(EPTZ)を調整するために、又は優勢な話し手が第1のカメラ160の視野から第2のカメラ160の視野に移動するときなどのカメラ160間の引き継ぎのために使用され得る。
【0162】
信号強度エンジン338からの信号対ノイズ比推定又は他の信号強度表示は、方向性エンジン318からカメラ160又はマイクロフォン140間で話し手を引き継ぐために到達方向情報に加えて、例えば、位置データと組み合わせて使用され得る。
【0163】
アナライザ129は、概して、位置情報を使用して、
図4Aの環境テーブル402に記憶されたものなどの1つ又は複数の会場マップを更新して、会場内で識別されたソースのいくつか又は全てについての最新の位置を含むことができる。アナライザ129は、話し手が環境全体を移動するにつれて位置を動的に更新することができる。
【0164】
ソース分離データストリームの構造及びフォーマット
図5は、特定の実施形態による、システム100によって検出されたオーディオデータのストリームの例の時系列
図500を示し、ストリームは、オーディオ処理エンジン125によって分離及び処理されている。例えば、オーディオ処理エンジン125又は他の適切なコンポーネントは、ソースオーディオストリーム502、504を、ソースごとに分離されたペイロードデータ(オーディオ信号レベル又は周波数コンテンツ)と、任意の適切な方法でパッケージ化/フォーマットされたメタデータ(例えば、タイムスタンプ、ソースインジケータ、生体認証識別子、ソースリポジトリ241又はテーブル400、402、404内の情報のいずれか)との両方を含むように構築することができる。このメタデータは、概して、例えば、ソースストリームを処理するときに、オーディオ処理エンジン125の様々なコンポーネントによって、オンザフライでソースストリームに追加/埋め込むことができる。
【0165】
例示されているオーディオソースストリーム502、504は、第1のマイクロフォン140(マイク1)によって検出された4つの分離されたソースストリーム502と、第2のマイクロフォン140(マイク2)によって検出された4つの分離されたソースストリーム504とを含む。2つのマイクロフォン140(マイク1及びマイク2)は、重複するカバレッジゾーンを有し、例えば、同じ部屋内に位置決めされてもよい。例えば、マイク1は、第1の話し手に近接して部屋内に位置するアレイマイクロフォン140であり得、マイク2は、第2の話し手に近接して部屋内に位置するアレイマイクロフォン140であり得る。
【0166】
オーディオ処理エンジン125は、マイク1によって検出された音を4つの別個のオーディオデータストリームに分離する:1)第1の話し手によって発せられた発話S1;2)第1の話し手のスマートフォンからの着信音S2;3)第2の話し手のラップトップからのタイピングS3;4)第2の話し手によって発せられた発話S4;及び5)拡散バックグラウンドトラフィックノイズS5。
【0167】
マイク1は、マイク1が、強力な信号レベルを有する第1の話し手の発話S1、強力な信号レベルを有する着信音S2、中程度の信号レベルを有する第2の話し手の発話S4、及び弱い信号レベルを有するバックグラウンドトラフィックノイズS5(例えば、壁/窓を通して検出される)を検出するように第2の話し手よりも第1の話し手に近い部屋に位置するが、それらのタイピング音S4を検出するために第2の話し手に十分に近接していない。
【0168】
マイク2は、マイク2が中程度の信号レベルを有する第1の話し手の発話S1、中程度の信号レベルを有する着信音S2、中程度の信号レベルを有する第2の話し手のタイピングS3、及び強力な信号レベルを有する第2の話し手の発話S4を検出するように第1の話し手よりも第2の話し手に近い部屋に位置するが、バックグラウンドトラフィックノイズS5を検出しない。
【0169】
図5は、例示の目的のために「弱」、「中」、及び「強」の3つの基本カテゴリに分類される信号レベルを図示するが、システム100は、検出された信号エネルギーに関連する様々なより詳細な情報(例えば、平均信号電力、平均信号エンベロープ、信号対ノイズ比など)を抽出及び維持することができる。
【0170】
示されるように、システムは、マイクロフォン間遅延506、508、510を検出することができ、各マイクロフォン間遅延は、マイク1がソース音を検出する時間とマイク2が同じソース音を検出する時間との間の期間であり、又はその逆の期間である。例えば、遅延506は、マイク1が第1の話し手からの発話S1を検出する時間と、マイク2が同じ発話を検出する時間との間の期間であり、遅延508は、マイク1が第1の話し手の電話からの着信音を検出する時間と、マイク2がその着信音を検出する時間との間の期間であり、遅延510は、マイク2が第2の話し手からの発話を検出する時間と、マイク1が同じ発話を検出する時間との間の期間である。
図5には例示されていないが、マイクロフォン内遅延はまた、システム100によって検出及び追跡され得、分離されたオーディオソースストリームからの音がマイクロフォン内の第1のマイクロフォン要素によって検出される時間と、同じ音が同じマイクロフォン内の第2のマイクロフォン要素によって検出される時間との間の遅延を示す。
【0171】
図5には示されていないが、オーディオ処理エンジン125は、信号レベル/エネルギー差及びマイクロフォン間又はマイクロフォン内の時間遅延差を抽出することに加えて、マイクロフォン140間又はマイクロフォン140内の位相差又は検出された音程などの他の情報も抽出することができる。
【0172】
オーディオ処理エンジン125は、オーディオソースストリームを処理する際に、検出された信号/エネルギーレベル情報及びマイクロフォン間又はマイクロフォン内の遅延情報のいずれかを使用することができる。
【0173】
ここで、いくつかの例示的なシナリオを、オーディオ処理システム100の特定の機能性を例示する目的で説明する。
【0174】
信号強度測定を使用した発話と望ましくないノイズとの分離
例示的なユースケースのシナリオとして、
図2Cを参照すると、第1の部屋200d内のマイクロフォン140aは、部屋200dの前部で人204aによって発せられた発話と、部屋200dの後部に向かって人204gの近くのスマートフォン212から発せられた同時の着信音ノイズとの両方を検出する。BSS302は、組み合わされた検出信号を2つのポイントソースに分離する。ソース分類器304は、2つの分離されたソースをポイントソース(拡散/ポイントソース検出器321)として分類し、音声を男性によって(発話分類器エンジン327)発せられた発話(VAD320)として分類し、着信音を非発話(VAD320)及び電話の着信音(非発話分類器331)として分類する。発話ソースプロセッサ306は、その発話を音声フィンガープリントデータベース359と比較し、発話を従業員1によって発せられたものとして識別する。オーディオ処理ユニット308のブロック342、344、345、350は、ソースの識別情報に基づいて、識別されたポイントソースストリームにカスタム処理を適用する。オーディオ処理システム100は、更に、1)例えば
図4A~4Cに関して説明した方法と類似した方法で、環境リポジトリ112内のデータベースを更新して、処理を反映することができ、2)例えば
図5に関して説明した方法と類似した方法で、ソースを識別するメタデータ、信号強度情報、及び/又は方向情報を含むソースストリームに、メタデータを埋め込むことができる。
【0175】
ミキサ/制御エンジン127は、発話ポイントソースストリーム(従業員1)を受信し、そのストリーム内のメタデータを抽出及び分析して、それが所望の人間の発話であると判定する。例えば、ミキサ/制御エンジン127は、データベースを参照して、人間の発話が一般的に望ましいこと、及び/又は従業員1が既知の/認可された話し手であることを判定することができる。したがって、ミキサ/制御エンジン127は、第2のネットワークチャネル139を介して、遠端の部屋200e(話し手204aに対して遠端)内のラウドスピーカ150cにその発話コンテンツをストリーミングする。ミキサ/制御エンジン127は、更に、近端の部屋200d(話し手204aに対して近端)内のマイクロフォン150a、150bの一方又は両方に発話コンテンツをルーティングすることができる。ミキサ/制御エンジン127は、同様に、非発話ポイントソースストリーム(着信音)を受信し、そのストリーム内のメタデータを抽出及び分析して、それが望ましくないノイズとしてのトーンであると判定し、ラウドスピーカ150a~150cに配信される出力ストリームから電話の着信音を除外する。
【0176】
ミキサ/制御エンジン127は、更に、信号強度情報を使用して、聴覚エクスペリエンスを改善することができる。例えば、ミキサ/制御エンジン127は、近端ルーム200d内のマイクロフォン140a~140dに対応する発話ポイントソースを処理して、4つのマイクロフォン140a~140dの各々が人204aによって発せられた発話を検出していることを判定することができる。信号強度エンジン338は、識別された検出マイクロフォン140a、140b、140c、140dごとに、SNR、推定SNR、又は人204aの発話に関連付けられた他の信号強度表示を計算することができ、これは、マイクロフォンテーブル404と類似したテーブルなどの環境リポジトリ112に記憶され、及び/又は
図5のデータストリーム500と類似した各マイクロフォン140のデータストリームに埋め込まれることができる。計算された信号強度に基づいて、ミキサ/制御エンジン127は、比較的高い信号強度を有する1つ以上のマイクロフォン140(例えば、人204aに最も近いマイクロフォン140a)によって検出された音をラウドスピーカ150a~150cへの出力ストリームにおいて選択若しくは強調(例えば、増幅)することができ、並びに/又は比較的低いSNRを有する1つ以上の他のマイクロフォン140(例えば、人204aから最も遠いマイクロフォン140d)によって検出された音を出力ストリームにおいて選択解除及び/若しくは強調解除(例えば、減衰若しくは除去)することができる。
【0177】
オーディオミキサ/制御エンジン127が出力ストリームの構成を調整することに加えて、又はその代わりに、ミキサ/制御エンジン127は、システム動作を改善するために、展開デバイス110の動作を調整することができる。例えば、ミキサ/制御エンジン127は、例えば、人204aの発話に対して比較的低い信号強度を有する1つ以上のマイクロフォン140(例えば、人204aから最も遠いマイクロフォン140d及び/又は人204gの電話212から発せられる着信音に最も近いマイクロフォン140b)の感度を非アクティブ化又は低下させることによって、第2のネットワークチャネル139を介してコマンドを発行して、マイクロフォン140の動作を調整することができる。更に、ミキサ/制御エンジン127は、信号強度測定に応答して、ラウドスピーカ150のうちの1つ以上の動作を制御するためのコマンドを発行することができる。一例として、着信音が再生を開始すると、信号強度測定は、着信音が近端の部屋200dで再生されている間に、近端の部屋200dでマイクロフォン140a~140dによって検出された人の発話のSNRの一時的な低下を示してもよい。これに応答して、ミキサ/制御エンジン127は、着信音が再生されている間に、第1の部屋200d内のラウドスピーカ150a、150bに、ラウドネスを増加させるように命令することができ、それによって、着信音の効果を一時的に相殺する。ミキサ/制御エンジン127は、例えば、話し手204aの発話の増加の検出信号強度に応答して、及び/又はマイクロフォン140a~140dがもはや着信音を検出しないことに応答して、着信音が終了したときに、ラウドスピーカ150a、150bに、それらの以前のラウドネスレベルに戻るように命令することができる。
【0178】
別のシナリオでは、着信音又は他のノイズソースは、遠端の部屋200eに位置する。そのような場合、ミキサ/制御エンジン127は、話し手204aの発話に対して比較的高い信号強度を有する1つ以上のマイクロフォン(例えば、ノイズソースから離れた部屋200e内のマイクロフォン140a~140dのいくつか若しくは全て)によって検出された音からの寄与をラウドスピーカ150a~150cに提供される出力ストリームにおいて選択若しくは強調(例えば、増幅)することができ、並びに/又はノイズソースに近接する部屋200e内のマイクロフォン140e、140fによって検出された音からの寄与を出力ストリームにおいて選択解除及び/若しくは強調解除(例えば、減衰若しくは除去)することができる。ミキサ/制御エンジン127は、追加的又は代替的に、例えば、マイクロフォン140e、140fの感度を非アクティブ化若しくは低下させることによって、及び/又はノイズソースが存在している間に遠端部屋内のラウドスピーカ150cの音量を増加させ、ノイズソースがもはや存在していないときに音量を前のレベルに戻すことによって、部屋200e内のマイクロフォン140e、140fの動作を調整して、ノイズソースを相殺することができる。これにより、部屋のノイズのラウドネスに対する一貫した遠端話者ラウドネスが可能になり、リスニングエクスペリエンスを改善する。
【0179】
これらの例示的なシナリオは、所望のポイント発話ソース及び望ましくない携帯電話の着信音のポイントノイズソースの文脈において説明されてきたが、説明された技術は、これらの特定のノイズソースに限定されない。例えば、類似のアプローチを、部屋200d、200eのいずれかの中の掃除機及び/又は人々によって発せられる望ましくない笑い声などの他のポイントノイズソースに対してとることができる。
【0180】
方向性情報を使用して、検出ゾーンに基づいてソースを処理する
いくつかの実施形態では、ミキサ/制御エンジン127は、少なくとも部分的に方向性情報に基づいて、出力ストリームにオーディオコンテンツを含む。例えば、ミキサ/制御エンジン127は、方向性エンジン318によって提供された方向データに基づいて、分離されたソースごとにDOAを受信し、DOAに基づいて、方向のカバレッジゾーンにソースをグループ化することができる。ミキサ/制御エンジン127は、例えば、DOAの第1の範囲内にある1つ以上のソースを第1のゾーンにグループ化すること、DOAの第2の範囲内にある1つ以上のソースを第2のゾーンにグループ化することなどができる。次いで、ミキサ/制御エンジン127は、ゾーンごとにオーディオ出力ストリームを構成することができる。
【0181】
一例に過ぎないが、バンド、オーケストラ、又は他の行為がコンサート会場のステージで実施されている場合、会場内の所与のマイクロフォン140の特定のDOA範囲は、ステージから発せられる音に対応するものとして指定されてもよい。ミキサ/制御エンジン127は、指定されたゾーン内のDOAを有するソースをグループ化し、再生のために会場内の1つ以上のラウドスピーカ150にストリーミングされるそれらの出力ストリーム及び/又はライブストリーミングのために1つ以上のスマートフォン若しくは他のサードパーティデバイス180にストリーミングされるそれらの出力ストリームなど、それらのソースのみをオーディオ出力ストリームに追加することができる。
【0182】
マルチマイク共存
単一の話し手が複数のマイクロフォンアレイ140によって同時にピックアップされるとき、それは、キャンセレーション(話し手レベルの低下)又は合計(話し手レベルの増加)に起因した話し手レベルの予測不可能な変動を引き起こし得る。いくつかの方向ベースのソリューションは、重複を避けるために、各マイクロフォンのビーム/ローブを慎重に照準することに依存している。音声生体認証とともに位置データを使用することによって、オーディオ処理エンジン125は、一意の話し手、マイクの各々に対する話し手の相対的な位置を識別し、遠くのマイクロフォンアレイ140からその話し手に対応するソース分離コンテンツをキャンセル又は低減することによって、遠くのマイクロフォンアレイ140によって単一の話し手が再びピックアップされるのを防ぐことができる。
【0183】
オーディオ処理エンジン125は、SNR推定エンジン338からのSNR推定値及び/又は位置情報データベース341からの位置データを使用して、どのマイクロフォン140をキャンセルすべきかを決定することができる。例えば、オーディオ処理エンジン125が、第1の生体認証によって識別された話し手についての分離された音声コンテンツが複数のマイクロフォンアレイ140によってピックアップされたことを検出すると、オーディオ処理エンジン125は、その話し手についてのコンテンツを、話し手に最も近いか、又は最も高いSNRを有するものを除く全ての検出マイクロフォンからキャンセル又は低減することができる。又は、オーディオ処理エンジン125は、位置、DOA、及び/又はSNRに基づく重み付けを有する複数のマイクロフォンアレイからのその話し手についてのコンテンツをブレンドすることができる。
【0184】
ブラインドソースごとに分離された信号に対するオーディオ処理
図6は、オーディオ処理システムの一部分600を詳細に示し、例えば、
図3A~3Eのオーディオ処理エンジン125の一部分であり得る。示されるように、固定又は適応型AEC301は、マイクロフォン要素M1~Mnからn個の入力信号を受信する。入力信号の各々は、混合ソース結合信号成分S
comb、エコー成分E、及びノイズ成分Nを含む。
【0185】
また、AEC301は、エコーキャンセレーションプロセスでAEC301が使用する基準信号(例えば、遠端信号)を受信する。AEC301は、各々が結合信号成分Scomb、残留エコー成分Eres、及びノイズ成分Nを含むn個の信号を出力し、ノイズ成分Nは、一般に、任意の望ましくない信号を含む場合がある。
【0186】
セパレータ/分類器601は、エコーキャンセレーションが施された信号をn個の別個のソース信号に分離し、これらは各々が、分離されたソース成分S
n及びノイズ成分Nを含む。セパレータ/分類器601は、分離された信号を更に分類するか、又は信号を更に処理することができる。例えば、セパレータ/分類器601は、
図3A~3Eのブラインドソースセパレータ302、ソース分類器304、及び発話ソースプロセッサ306の機能の任意の組み合わせを含むことができる。セパレータ/分類器601はまた、残留エコーをキャンセルするためにAEC301に提供される残留エコー成分E
resを出力する。
【0187】
オーディオ処理ブロック602は、n個の分離されたソース信号を受信する。例示されている実施形態によれば、オーディオ処理ブロック602は、1つ以上のオーディオデジタル信号処理動作を実施して、ソース分離信号からノイズ成分Nを除去又は低減し、それによって、
図3A~3Eのオーディオ処理エンジン125の発話ソースプロセッサ306又はオーディオ処理ユニット308などによって、後続の処理及び出力のために、各マイクロフォンについてクリーンソース分離信号S
1~S
nを出力する。オーディオデジタル信号処理動作は、限定されないが、混合、均等化、パラメトリックフィルタリング、ピーク制限、ノイズゲート、スペクトルマスキング、及びダイナミックレンジ圧縮/拡張を含む。単一のDSP動作が示されているが、いくつかの実装態様では、リストされたDSP動作又は他の動作のいずれかを、例えば、任意の順序で順次実施することができる。オーディオ処理ブロック602は、例えば、
図3A及び3Eのオーディオ処理ユニット308であってもよい。
【0188】
示されるように、オーディオ処理ブロック602は、ノイズ抑制又は他のデジタル信号処理動作で使用するためのフィードバックとしてソース分離信号を受信することができる。例えば、デジタル信号処理動作のタイプに応じて、オーディオ処理ブロック602は、出力信号S1を処理して、出力信号S1に対するノイズ抑制を改善し、出力信号S2を処理して、出力信号S2に対するノイズ抑制を改善するなどである。実施形態に応じて、オーディオ処理ブロック602は、オーディオ処理ブロック602の動作を改善するためのフィードバックとして他の信号を受信することができる。例えば、オーディオ処理ブロック602は、出力信号S2~Snのいくつか又は全てを処理して、出力信号S1及び/又は他の信号(例えば、遠端信号)のノイズを抑制することができる。
【0189】
聴覚シーン分析方法
図7は、オーディオ処理システム100が展開される環境上で聴覚シーン分析を実施する例示的な方法700を例示する。
【0190】
ステップ702において、オーディオ処理エンジン125は、
図3A~3Eに関して説明したように、任意選択的な音響エコーキャンセラ301を用いて、マイクロフォンアレイ140によって検出されたオーディオ信号に、任意選択的に固定又は適応的な音響エコーキャンセレーションを適用することができる。いくつかの他の実施形態では、オーディオ処理エンジン125は、エコーキャンセレーションの代わりに、又はそれに加えて、ビームフォーミングを適用することができる。
【0191】
ステップ704において、ブラインドソースセパレータ302は、(例えば、
図3A及び3Bに関して)本明細書に記載の技術のいずれかを使用して、検出されたオーディオコンテンツのソースを分離されたソースの初期セットに分離することができる。
【0192】
ステップ706において、オーディオ処理エンジン125は、追加情報を使用して、ソース分離を改良、検証、又はそうでなければ支援する。例えば、オーディオ処理エンジン125は、検出されたオーディオコンテンツを処理して、マイクロフォン140間又はマイクロフォン140内のレベル差、マイクロフォン140間又はマイクロフォン140内の時間差、マイクロフォン140間又はマイクロフォン140内の位相差、又は検出された音程のうちの1つ以上を判定することができ、この情報の一部又は全部を使用して、ソース分離の改良又は検証を支援することができる。オーディオ処理エンジン125はまた、ステップ706において、ディープニューラルネットワークモデル又は他の人工知能モデルを使用して、ソース分離を改良、検証、又はそうでなければ支援することができる。
【0193】
ステップ708において、オーディオ処理エンジン125は、(例えば、
図3A及び3Cに関して)本明細書に記載の技術のいずれかを使用して、識別されたソースを、発話、非発話、及び拡散の分類及び/又はサブ分類などの音ソースの分類されたセットに分類及びカテゴリ化することができる。
【0194】
ステップ710において、オーディオ処理エンジン125は、1つ以上のディープニューラルネットワークモデル又は他の人工知能モデルを使用して、ソース分類を改良、検証、又はそうでなければ支援する。
【0195】
ステップ712において、オーディオ処理システム121のオーディオシーンアナライザ129又は他のコンポーネントは、オーディオ環境内の分離され分類されたソースのうちの1つ以上の場所、環境内の1つ以上のマイクロフォンの場所、又は聴覚シーンに関連する他の関連情報を判定又は更新し、これは、
図4A~4Cのテーブル400、402、404に、又は
図3Aの環境リポジトリ112に記憶された情報のいずれかを含むことができる。オーディオ処理システム121は、限定されないが、(例えば、到達方向ブロック318、328からの)検出されたソースの到達方向及び検出されたソースの信号大きさを含む、ソースの場所を判定するために、様々な異なるタイプの情報を使用することができる。
【0196】
一例として、
図2Cを参照すると、オーディオ処理システム121は、人204aが発した発話を分離して分類し、到達方向を使用することによってマイクロフォン140bに対する人204aの位置を判定し、マイクロフォン140bに対する人204aが位置するおおよその角度を判定し、大きさを使用してマイクロフォン140bと人204aとの間の推定距離を判定し、マイクロフォン140bの既知の位置とともに角度と大きさを使用して、部屋200d内の人204aの推定位置を判定することができる。
【0197】
オーディオ処理システム121は、複数のマイクロフォン140からの情報を使用して、オーディオ環境内のソースの場所を判定することができる。一例として、再び
図2Cを参照すると、マイクロフォン140dはまた、人204aによって発せられた発話を検出することができ、オーディオ処理システム121は、人204aの検出された発話に対応する判定された到達方向及び大きさを使用して、マイクロフォン140dに対する人204aが位置する推定される角度及びマイクロフォン140dと人204aとの間の推定距離を判定することができ、マイクロフォン140dの既知の位置とともに角度及び距離を使用して、部屋200d内の人204aの推定位置を判定することができる。
【0198】
次いで、オーディオ処理システム121は、マイクロフォン140bによって検出された音を使用して判定されたおおよその位置、マイクロフォン140dによって検出された音を使用して判定されたおおよその位置、及び2つのマイクロフォン140b、140dの既知の位置を使用して、人204aの推定位置を改良又は確認することができる。
【0199】
ステップ714において、オーディオ処理エンジン125は、
図5A~5Cのテーブル500、502、504を含むリレーショナルデータベースを更新するなどのために、環境リポジトリ112内の聴覚シーンの表現を更新することができる。
【0200】
柔軟なマイクロフォン形状
ブラインドソース分離を使用するものを含む、本明細書で説明されるシステムによって採用されるオーディオ処理技術は、柔軟なマイクロフォン設計を可能にする。本明細書に説明されるシステムのいずれかは、様々な異なるタイプのマイクロフォンアレイ、又は異なるタイプのマイクロフォンアレイの組み合わせを展開することができる。
図8は、個々のマイクロフォン要素1-nが、対802、線形804、正方形806、長方形808、無作為810、及び円形812の形状で配置されるいくつかの例を示す。実施形態に応じて、アレイ140内に追加のマイクロフォン要素を含めることは、より正確なソース分離を可能にすることができる。
【0201】
いくつかの実施形態では、システム100は、複数の要素を有する1つ以上のアレイ140に加えて、単一のマイクロフォン要素を含む1つ以上のマイクロフォンを含むことができる。例えば、システム100は、単一のマイクロフォン140によって検出されたオーディオに対して、又は単一のリモートのラップトップ、スマートフォン、又は他の会議デバイスから受信されたオーディオストリームに対して、本明細書に説明したソース分離及び他の技術を実施することができる。
【0202】
柔軟なマイクロフォンの配置及び設置
ソース検出の方向性にのみ又は主に依存するマイクロフォンシステムを構成するには、多くの場合、参加者の移動を特定のカバレッジエリアに制限することを犠牲にして、部屋空間に固有のノイズソース又は他の散乱を避けるために、ローブを慎重な照準を必要とする場合が多い。一例として、2つのマイクロフォンアレイ140が台上に配置され、ビームフォーミングに依存するシステムでは、各マイクロフォン140の1つのビームがマイクロフォン間の台上の空間を指す場合があり、それらのビームは他のビームと干渉/重複し、堅牢なソース分離がない場合、設置者は、干渉を回避するためにそれらのビームを無効にすることを決定する場合がある。
【0203】
堅牢なソース分離を提供する本明細書で説明される実施形態は、より柔軟な配置及び設置を可能にする。例えば、2つ以上のマイクロフォンアレイ140を設置するとき、複数のマイクロフォン140によって検出されたあらゆるソースが、オーディオ処理エンジン125によって適切に抽出及び処理され得るため、設置者は、重複するマイクロフォン140又はマイクロフォン140内のビームを無効にする必要はない。更に、オーディオ処理エンジン125は、空間内の構成要素及び人の位置を追跡することを含む、会議室空間又は他のオーディオ環境の聴覚分析を継続的に実施することができるため、オーディオ処理エンジン125は、オーディオソースの場所又は性質が変化するにつれて、構成を自動的に調整することができる。
【0204】
本明細書で説明されるソース分離ベースのオーディオ処理技術はまた、オーディオ環境におけるマイクロフォンの柔軟な配置を可能にする。例えば、固定された位置及び向きで台上にマイクロフォンを設置する必要がある(例えば、椅子に向けられたローブを用いて台にドリルされた穴に取り付けられる)のではなく、堅牢なソース分離は、ユーザがマイクロフォン140の位置/向きを調整する(例えば、固定された向きでの台へのドリル/取り付けを任意にする)こと、又は一貫した性能及びソース検出を維持しながらユーザがマイクロフォン140に対して自由に移動することを可能にする。
【0205】
マイクロフォンアレイの例
図9は、互換性のあるマイクロフォンアレイ140の一例の基板216a上に配置されたマイクロフォン202a~202pを含むマイクロフォンアレイ140の図を示す。
【0206】
一実施形態では、マイクロフォン202a~202pは、基板216aの底部に取り付けられた集積回路パッケージ(図示せず)に収容され、上部基板216aは、各々がマイクロフォン202a~202pのうちの対応するマイクロフォンに対応し、マイクロフォン202a~202pの下側の一部分を露出する複数の円形穴302を含む。穴302は、上部基板216aの上部からハウジング200を通ってマイクロフォンシステム140に入射するマイクロフォン204a~204pによる音波の検出を容易にすることができる。
【0207】
図9に例示される実施形態のマイクロフォン202a~202pは、各々が無指向性ピエゾ電気MEMSベースの音響マイクロフォン変換器であり、10Hz~20,000Hzの周波数範囲及び80Hz~8,000Hzの高直線性周波数範囲における音を検出することが可能であり、上部基板216a上に取り付けられた集積回路パッケージ内に収容される。他の実施形態では、動的マイクロフォン又はコンデンサマイクロフォンなどの他のタイプのマイクロフォンを使用することができる。
【0208】
例示されている実施形態のマイクロフォン202a~202pは、9つのマイクロフォン202a~202iの第1のグループ及び7つのマイクロフォン202j~202pの第2のグループを含む。プロセッサ122は、マイクロフォン202a~202iの第1のグループから出力された信号を処理及び/又は結合して、第1の周波数範囲内の音コンテンツを生成することができ、マイクロフォン202j~202pの第2のグループから出力された信号を処理及び/又は結合して、第2の周波数範囲内の出力音コンテンツを生成することができる。
【0209】
例えば、プロセッサ122は、1つ以上の第1のフィルタ(例えば、バンドパスフィルタ)を使用して、マイクロフォン202a~202iの第1のグループによって出力された信号をフィルタリングし、フィルタリングされた出力を結合して、第1の周波数範囲内の処理されたオーディオを生成し、1つ以上の第2のフィルタ(例えば、バンドパスフィルタ)を使用して、マイクロフォン202j~202pの第2のグループによって出力された信号をフィルタリングし、フィルタリングされた出力を結合して、第2の周波数範囲内の処理されたオーディオを生成し得る。
【0210】
いくつかの実施形態による第2の周波数範囲は、第1の周波数範囲よりも高いが、周波数範囲はいくらか重複し得る。いくつかの実施形態では、第1の周波数範囲の最大周波数及び第2の周波数範囲の最小値は、第1のグループ及び第2のグループが類似のノイズ性能を有する値である。第1及び第2の周波数範囲に対して様々な可能な値が可能である。以下は、その数例である。
【表1】
【0211】
提供された例は、第1及び第2の周波数範囲が単一の値(1,200、2,000、又は3,000Hz)で正確に重複することを示すが、いくつかの実施形態では、その範囲は、5、10、100、1,000、2,000、3,000、5,000又はそれ以上のHz、又はこれらの量の間の値など、より大きな重複を有することができる。実施形態に応じて、組み合わされた第1及び第2の周波数範囲は、少なくとも、300~3,400Hz、50~7,000Hz、50~14,000Hz、又は20~20,000Hzなどの特定の音声周波数帯域をカバーすることができる。この周波数範囲は、発話帯域幅だけでなく、改善されたノイズ処理又は他の目的のための他の音をキャプチャするために、比較的広くすることができる。
【0212】
用語/追加の実施形態
特に明記しない限り、又は使用される文脈内で別様に理解されない限り、とりわけ、「できる(can)」、「できる(could)」、「可能性がある(might)」、「してもよい(may)」、「例えば(e.g.)」などの本明細書で使用される条件付き表現は、概して、特定の実施形態が特定の特徴、要素、及び/又は状態を含むが、他の実施形態は含まないことを伝えることを意図している。したがって、そのような条件付き表現は、概して、特徴、要素及び/若しくは状態が1つ以上の実施形態にいずれかの方法で必要であること、又は1つ以上の実施形態が、著者の入力若しくはプロンプトの有無にかかわらず、これらの特徴、要素及び/若しくは状態が任意の特定の実施形態に含まれるか、若しくは実施されるべきであるかを決定するための論理を必ず含むことを示唆することを意図していない。
【0213】
実施形態に応じて、本明細書で説明される方法のうちのいずれかの特定の行為、事象、又は機能は、異なる順序で実施され得、追加され得、統合され得、又は完全に除外され得る(例えば、記載される全ての行為又は事象が、本方法の実践に必要ではない)。更に、特定の実施形態では、行為又は事象は、順次ではなく、例えば、マルチスレッド処理、割り込み処理、又は複数のプロセッサ又はプロセッサコアによって同時に実施することができる。
【0214】
本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装することができる。ハードウェア及びソフトウェアのこの互換性を明確に例示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路、及びステップが、それらの機能性の点で概して上記で説明されている。そのような機能がハードウェア又はソフトウェアとして実装されるかどうかは、システム全体に課される特定の用途及び設計の制約に依存する。説明された機能は、特定の用途ごとに様々な方法で実装することができるが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。
【0215】
本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)若しくは他のプログラマブルロジックデバイス、離散ゲート若しくはトランジスタ論理、離散ハードウェアコンポーネント、又は本明細書に説明される機能を実施するように設計されたそれらの任意の組み合わせで実装又は実施することができる。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であり得る。プロセッサはまた、コンピューティングデバイス、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと併せた1つ以上のマイクロプロセッサ、又は任意の他のそのような構成の組み合わせとして実装され得る。
【0216】
本明細書に開示される実施形態に関連して説明される方法及びアルゴリズムのブロックは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、又はその2つの組み合わせで直接具体化され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、又は当該技術分野で知られているコンピュータ可読記憶媒体の任意の他の形態に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替的に、記憶媒体は、プロセッサと統合され得る。プロセッサ及び記憶媒体は、ASICに存在し得る。ASICは、ユーザ端末に存在し得る。代替的に、プロセッサ及び記憶媒体は、ユーザ端末内の別個の構成要素として存在し得る。
【0217】
上記の詳細な説明は、様々な実施形態に適用されるような新規の特徴を示し、説明し、指摘したが、例示されるデバイス又はアルゴリズムの形態及び詳細における様々な省略、置換、及び変更が、本開示の趣旨から逸脱することなく行われ得ることが理解されるであろう。認識されるように、本明細書で説明される本開示の特定の実施形態は、いくつかの特徴が他の特徴とは分離して使用又は実践され得るため、本明細書に記載される特徴及び利点の全てを提供しない形態内で具体化され得る。本明細書に開示される特定の開示の範囲は、前述の説明によってではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び等価性の範囲内に入る全ての変更は、それらの範囲内に包含されるべきである。
【国際調査報告】