(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-01
(45)【発行日】2024-11-12
(54)【発明の名称】マルチチャネル・オーディオ信号のチャネル識別
(51)【国際特許分類】
H04S 3/00 20060101AFI20241105BHJP
【FI】
H04S3/00
(21)【出願番号】P 2022512847
(86)(22)【出願日】2020-08-27
(86)【国際出願番号】 US2020048128
(87)【国際公開番号】W WO2021041623
(87)【国際公開日】2021-03-04
【審査請求日】2023-08-24
(31)【優先権主張番号】PCT/CN2019/103813
(32)【優先日】2019-08-30
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2019-10-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-10-22
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】グオ,イエンメン
(72)【発明者】
【氏名】リー,カイ
【審査官】▲徳▼田 賢二
(56)【参考文献】
【文献】米国特許出願公開第2012/195433(US,A1)
【文献】特開2011-066868(JP,A)
【文献】特表2014-522155(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 3/00
(57)【特許請求の範囲】
【請求項1】
X>1個のチャネルを含むマルチチャネル・オーディオ信号のチャネル識別のための方法であって、当該方法は:
前記X個のチャネルのうちで、空のチャネルがあればそれを識別し(110)、結果としてY≦X個の空でないチャネルのサブセットを与える段階と;
前記Y個のチャネルのうちに低域効果(LFE)チャネルが存在するかどうかを判定し(120)、LFEチャネルが存在すると判定したら、前記Y個のチャネルのうちの判別されたチャネルをLFEチャネルとして識別する段階と;
対称的なチャネルをマッチングさせることによって、前記Y個のチャネルのうちの、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割する
(130)段階と;
前記Y個のチャネルのうちの、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルがあればそれを中央チャネルとして識別する(140)段階とを含む、
方法。
【請求項2】
諸ペアに分割された前記チャネルを、前方ペア、側方ペア、後方ペア、および/または他の任意の位置ペアの間で区別する(150)段階をさらに含み、チャネル・ペア区別段階は、2つのペアごとの間のペア間レベル差を計算することを含み;前記ペア間レベル差は、各ペアのサブバンド音エネルギーの和のデシベル差に比例し、相対的に最も高いレベルをもつペアが、前方ペアとして区別される、請求項1に記載の方法。
【請求項3】
前記チャネル・ペア区別段階は、絶対的なペア間レベル差が絶対閾値を上回る、各ペアの各チャネルについての前記信号の一つまたは複数のセグメントを選択し;それらのセグメントのみを用いてチャネルのペア間レベル差を計算することをさらに含
む、
請求項2に記載の方法。
【請求項4】
相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、チャネルのペア間レベル差を計算する段階は、より高い絶対閾値を用いて繰り返される、請求項
3に記載の方法。
【請求項5】
前記相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、前記絶対閾値が最大閾値を上回る場合、相対的に最も高い方向一貫性をもつペアが、前方ペアとして区別され、ここで、前記方向一貫性は、時間領域における2つのチャネルの類似性の指標であり、これは音像方向に関係し、該音像方向はチャネル間の位相差を含意する、請求項3
または4に記載の方法。
【請求項6】
空チャネル識別段階は、前記X個のチャネルのうちの各チャネルにおける音エネルギーを測ることをさらに含み、チャネルの全音エネルギーがエネルギー閾値未満である場合、そのチャネルは空として識別される、請求項1ないし
5のうちいずれか一項に記載の方法。
【請求項7】
200Hz未満の任意のサブバンドであるチャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルにおける他のすべての周波数領域におけるサブバンド音エネルギーの和よりも著しく大きい場合に、Y個のチャネルのうちにLFEチャネルが存在すると判定される、請求項1ないし
6のうちいずれか一項に記載の方法。
【請求項8】
チャネル・ペア分割段階における対称的なチャネルのマッチングは、各チャネルの計算された音エネルギー分布および分散を用いてチャネル間のチャネル間スペクトル距離を計算する段階であって、前記チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離をもつチャネルどうしをペアとしてマッチングする段階とをさらに含む、請求項1ないし
7のうちいずれか一項に記載の方法。
【請求項9】
チャネル・ペア分割段階は、LFEチャネルとして識別されていない前記Y個のチャネルのうちの対になっていないチャネルがあればそれをペアリングすることを、2つ未満のチャネルが残るまで、続ける、請求項1ないし
8のうちいずれか一項に記載の方法。
【請求項10】
当該方法の諸段階の結果のいずれかについて信頼スコアを計算する段階をさらに含み、前記信頼スコアは、その結果がどれくらい信頼できるかの指標であり、前記マルチチャネル・オーディオ信号の持続時間がある持続時間閾値を下回る場合、前記信頼スコアは1未満の重み因子を乗算され、それにより、前記持続時間閾値を下回る持続時間は、より信頼性の低い結果につながる、請求項1ないし
9のうちいずれか一項に記載の方法。
【請求項11】
計算された信頼スコアがディスプレイ上に表示される表示段階をさらに含み、計算された信頼スコアが信頼閾値を下回る場合、および/または識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告が表示される、請求項
10に記載の方法。
【請求項12】
識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用する段階をさらに含む、請求項1ないし
11のうちいずれか一項に記載の方法。
【請求項13】
当該方法によって識別されたチャネル・レイアウトは、前記マルチチャネル・オーディオ信号がスピーカー・システムにストリーミングされる際に、前記マルチチャネル・オーディオ信号にリアルタイムで適用される、請求項1ないし
12のうちいずれか一項に記載の方法。
【請求項14】
当該方法の段階のうちの少なくとも1つは、機械学習に基づく方法を使用し、前記機械学習に基づく方法は、ディシジョンツリー、アダブースト、GMM、SVM、HMM、DNN、CNN、および/またはRNNである、請求項1ないし
13のうちいずれか一項に記載の方法。
【請求項15】
マルチチャネル・オーディオ信号のチャネルを識別するように構成された装置であって、当該装置は、請求項1ないし
14のうちいずれか一項に記載の方法を実行するように構成された回路を有する、装置。
【請求項16】
処理能力を有する装置によって実行されたときに、請求項1ないし
14のうちいずれか一項に記載の方法を実行するように適応された命令を有する非一時的なコンピュータ読み取り可能記憶媒体を有するコンピュータ・プログラム・プロダクト。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2019年8月30日に出願されたPCT特許出願第PCT/CN2019/103813号、2019年10月8日に出願された米国仮特許出願第62/912,279号、および2019年10月22日に出願された欧州特許出願第19204516.9号の優先権を主張するものであり、これらの各出願は、その全体が参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、チャネル識別の分野に関し、特に、サラウンドサウンド・システムのためのチャネル識別のための方法、装置およびソフトウェアに関する。
【背景技術】
【0003】
オーディオ信号は通例、マルチチャネル・システムに到達する前に数回変換される。これらの変換の間に、チャネルはスワップされ、または損傷されることがある。サラウンドサウンド・プロセスは、通常、チャネル識別、異常チャネル検出、またはチャネル・スワップ検出のための機能は含まず、デフォルトのレイアウト設定が使用される。入力された音声データのチャネル・レイアウトが処理時の設定と一致しない場合は、チャネルがスワップされる。
【0004】
現在の標準は、スワップされたチャネル・インデックスがメタデータとしてサラウンドサウンド・データに保存されるものであり、該メタデータは将来のプロセスにとって信頼性が低く、有害である。サラウンドサウンドがいくつかの異常チャネルを含む場合、エラーが検出されない可能性があるため、次のプロセスに移る可能性がある。
【0005】
よって、この文脈での改善が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記に鑑み、本発明の目的は、上述の問題の少なくともいくつかを克服または緩和することである。特に、本開示の目的は、音声コーデックによって追加されたメタデータの代わりに、チャネルのオーディオ信号に基づくチャネル・レイアウト識別を提供することである。この性格のため、識別は、符号化フォーマットまたはチャネル番号とは独立になり、マッチしないメタデータの影響を受けにくくする。空間的な聴覚印象はマルチチャネル・サラウンドサウンドにとって重要であり、通例、ミキシングを通じて音源をパンすることによって生成される。ここに記載されるチャネル識別方法は、チャネル・レイアウトを回復するために空間情報を抽出する。本発明のさらなるおよび/または代替的な目的は、本開示の読者にとって明らかであろう。
【課題を解決するための手段】
【0007】
本発明の第1の側面によれば、X>1個のチャネルを含むマルチチャネル・オーディオ信号のチャネル識別のための方法が提供される。本方法は、X個のチャネルの間で、空のチャネルがあればそれを識別し、結果としてY≦X個の空でないチャネルのサブセットを与える段階と;該Y個のチャネルの間に低域効果(LFE)チャネルが存在するかどうかを判定し、LFEチャネルが存在すると判定したら、Y個のチャネルの間の判別されたチャネルをLFEチャネルとして識別する段階と;対称的なチャネルをマッチングさせることによって、Y個のチャネルの間の、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割する段階と;Y個のチャネルの間の、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルを中央チャネルとして識別する段階とを含む。
【0008】
「チャネル識別」という用語より、本明細書の文脈において、オーディオ信号のチャネルがスワップおよび/または損傷される場合、オーディオ信号をその当初の意図に復元するための、オーディオ信号についての正しい設定を見つけるためにチャネル識別が使用されうることが理解されるべきである。用語「チャネル識別」は、異常チャネル検出および/またはチャネル・スワップ検出のような機能を含む。
【0009】
「マルチチャネル・オーディオ信号」という用語により、本明細書の文脈において、オーディオの少なくとも2つのチャネルを有するオーディオ信号が理解されるべきである。オーディオのチャネルは、好ましくはマルチチャネル・オーディオ信号の少なくとも一つの別のチャネルとは異なる、音声信号のシーケンスである。オーディオ信号は、たとえば、オーディオ・ファイル、オーディオ・クリップ、またはオーディオ・ストリームのフォーマットであってもよい。
【0010】
「空のチャネル」という用語によって、本明細書の文脈において、ある閾値未満の音声信号内容を有するオーディオのチャネルが理解されるべきである。閾値は、たとえば、全エネルギー内容閾値または平均エネルギー内容閾値であってもよい。
【0011】
「低域効果(LFE)チャネル」という用語によって、本明細書の文脈において、200Hzなどの周波数閾値未満のエネルギーを実質的に含む、かかるエネルギーを主として含む、またはかかるエネルギーのみを含む音声信号内容をもつオーディオのチャネルが理解されるべきである。
【0012】
「対称的なチャネル」という用語により、本明細書の文脈において、十分に類似したおよび/または対称的な音声信号内容を有するオーディオのチャネルが理解されるべきである。対称的な音声信号内容は、たとえば、類似の背景音および異なる前景音、類似のベース音(たとえば、低周波)および異なるデスカント音(たとえば、高周波)をそれぞれ含んでいてもよく、またはその逆も含んでいてもよい。対称的な音声内容は、単一のコードの異なる部分などの同期した音、または、あるチャネルで始まり別のチャネルで終わる音をさらに含んでいてもよい。
【0013】
「中央チャネル」という用語により、本明細書の文脈において、他のオーディオ・チャネルの最も一般的な内容を含む、他のチャネルから実質的に独立したオーディオのチャネルが理解されるべきである。本開示は、マルチチャネル・オーディオ信号の現在の標準である1つの中央チャネルのみを有する実施形態に焦点を当てるが、現在の標準が発達する場合、第1の側面による方法は、それに応じて調整されうる。
【0014】
本発明者らは、中央チャネルの識別は、他の多くのステップよりも困難であることを認識した。そこで、中央チャネル識別ステップをチャネル識別方法における最後のステップとして実行することによって計算パワーが節約でき、それにより、計算は、他のすべてのチャネルが識別された後に残りのチャネルを見出し、任意的に、それを中央チャネルとして検証することに還元される。序列付け(すなわち、本明細書に記載されるチャネル識別方法のステップの特定の順序)に関連する類似の効率は、個別的な実施形態に関して議論されるが、それらの多くは、一般に、大部分の実施形態に適用可能である。
【0015】
計算パワーを節約するだけでなく、序列付けは、最も信頼性の高い方法から始めることによって、本方法の信頼性を高めるために使用されることができる。
【0016】
好ましい側面において、序列付けは、計算パワーを節約し、かつ本方法の信頼性を高めることの両方のために使用されうる。
【0017】
いくつかの実施形態によれば、本方法は、前方ペア、側方ペア、後方ペア、および/または他の任意の位置ペアの間で、諸ペアに分割されたチャネルを区別する段階をさらに含み、チャネル・ペア区別段階は、2つのペアごとの間のペア間レベル差(inter-pair level difference)を計算することを含み、ペア間レベル差は、各ペアのサブバンド音エネルギーの和のデシベル差に比例し、相対的に高いほうのレベルをもつペアが、前方ペアとして区別される。
【0018】
多くのマルチチャネル・オーディオ信号は、前方ペアと後方ペアを含む5.1のように、複数のチャネル・ペアを含む。よって、チャネル識別のための方法は、位置ペアの間を区別し、位置ペアをそのようなものとして正確に識別できることが有益である。ペア間レベル差は、位置ペアの間を区別するための効率的で正確な指標である。
【0019】
いくつかの実施形態によれば、チャネル・ペア区別段階は、絶対的なペア間レベル差が絶対閾値を上回る、各ペアの各チャネルについての前記信号の一つまたは複数のセグメントを選択し;それらのセグメントのみを用いてペアのペア間レベル差を計算することをさらに含む。ここで、相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、ペアのペア間レベル差を計算する段階は、より高い絶対閾値を用いて繰り返される。
【0020】
ペア間のレベル差は常に十分高いわけではない。なぜなら、たとえば2dBを下回る差は、有益な情報ではない可能性があるからである。よって、ペア間でより大きなレベル差を生成しうる内容をもつ信号のセグメントを選択することが有益である。セグメントの選択が十分に高い平均ペア間レベル差をもたらさない場合、より高い絶対閾値を用いた選択が、これを達成しうる。
【0021】
絶対的なペア間レベル差は、これらの実施形態では点でチェックされるので、選択されたセグメントは、いくつかの孤立したフレームを含んでいてもよい。
【0022】
他の実施形態では、絶対値が諸セグメントにおいてチェックされ、最大の絶対的なペア間レベル差が絶対閾値と比較されるか、または平均の絶対的なペア間レベル差が絶対閾値と比較される。これにより、選択されたセグメントは、チェックされたセグメント長によって量子化される。
【0023】
いくつかの実施形態によれば、相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、絶対閾値が最大閾値を上回る場合、相対的に最も高い方向一貫性をもつペアが、前方ペアとして区別される。ここで、方向一貫性は、時間領域における2つのチャネルの類似性の指標であり、これは音像方向に関係し、それはひいてはチャネル間の位相差を含意する。
【0024】
これらの実施形態では、セグメントの選択は、十分に高い平均ペア間レベル差を生じなかった。よって、方向一貫性は、代わりに、ペアを区別するために用いられる。最も高い方向性一貫性をもつペアは、前方ペアとして区別される。前方ペアの信号は、通例、方向性の音源を表すために時間整列されているので、相関が高く、遅延が小さく、よって、方向一貫性が高い。これは、前方ペアには、後方ペアと比較して、より多くの同一の成分が存在することを意味する。
【0025】
セグメントの選択が失敗した理由は、最も高い平均ペア間レベル差がレベル閾値を超えるのに十分高いレベルに達しておらず、絶対閾値が非常に高いため、それを上回るセグメントがペア間レベル差を計算できるほど十分長くないからである。選択された諸セグメントの全長が、たとえば、非無音信号長の20%(または任意の他の定義された割合)より短いか、または、たとえば1分(または任意の他の定義された長さ)より短い場合、有用な信号は、短すぎるとみなされうる。
【0026】
方向一貫性は、異なる点での時間領域におけるサンプル値を比較することによって、信号中の同一成分の比率を測る。2つのチャネルの信号の類似性が高いほど、相関が高く、遅延が小さい。ペアにされたチャネルは、通例、相関した信号を有し、前方ペアの信号は、通例、方向性音源を表すために時間整列されている。
【0027】
代替として、識別された中央チャネルとの組み合わされた方向一貫性が、ペアを区別するために使用されてもよい。中央チャネルに最も近い方向をもつペアも中央チャネルに最も近い(すなわち、そのペアが前方ペアとして識別される)。
【0028】
いくつかの実施形態によれば、空チャネル識別段階は、X個のチャネルの間の各チャネルにおける音エネルギーを測定することをさらに含み、チャネルの全音エネルギーがエネルギー閾値未満である場合、チャネルは空として識別される。
【0029】
音エネルギーは、通例、各チャネルのサブバンドを用いて、各サブバンドにおける各周波数の振幅を加算することにより、測定される。これは、たとえ符号化または他の要因によるノイズが空のチャネルに存在しても、空のチャネルを識別する効率的な方法を与える。
【0030】
エネルギー閾値は、たとえば、-80~-60dB、好ましくは-70dBでありうる。全音エネルギーの測定の代わりに、またはそれに加えて、諸時間セグメントにおける平均音エネルギーが測定されてもよく、ここで、時間セグメントは1~10秒であってもよい。
【0031】
空のチャネルは、たとえば、異常なデバイス、マルチチャネルTV番組中のステレオ広告スロット、およびもとのステレオまたはモノラルサウンドからアップミックスされたマルチチャネル・サラウンドサウンドの結果でありうる。
【0032】
いくつかの実施形態によれば、200Hz未満の任意のサブバンドであるチャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルにおける他のすべての周波数領域におけるサブバンド音エネルギーの和よりも著しく大きい場合、Y個のチャネルの間にLFEチャネルが存在すると判定される。
【0033】
これは、LFEチャネルを見逃す可能性が低いという点で有益である。200Hzは、偽陽性も減少させつつ、LFEチャネルが見逃されないことを保証するように意図された低周波数領域のカットオフである。典型的には、閾値は120Hzであるが、通常のチャネルは、はるかに広い周波数帯域で信号を伝送するので、より高い値に設定することが好ましいことがありうる。
【0034】
いくつかの実施形態によれば、チャネル・ペア分割段階における対称的なチャネルのマッチングは、各チャネルの計算された音エネルギー分布および分散を用いてチャネル間のチャネル間スペクトル距離を計算する段階であって、チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離をもつチャネルどうしをペアとしてマッチングする段階とをさらに含む。
【0035】
チャネル間スペクトル距離は、対称性の簡単で正確な指標である。数学的な距離は、さまざまな仕方で重み付けされうる類似性の指標である。使用される距離指標は、ユークリッド距離、マンハッタン距離および/またはミンコフスキー距離であってもよい。
【0036】
いくつかの実施形態によれば、チャネル・ペア分割段階は、LFEチャネルとして識別されていないY個のチャネルの間の対になっていないチャネルがあればそれをペアリングすることを、2つ未満のチャネルが残るまで、続ける。
【0037】
前方ペアと後方ペアのようなチャネルのペアは2つより多くてもよい。よって、もし3つ以上のチャネルが残っていれば、それらのチャネルの間にさらなるチャネル・ペアが存在し、さらなるペアが分割できる可能性がある。
【0038】
いくつかの実施形態によれば、チャネル・ペア分割段階は、各ペア内のマルチチャネル・オーディオ信号の第1の受領チャネルを左チャネルとして割り当て、各ペア内の最後にリストされたチャネルを右チャネルとして割り当てることをさらに含む。
マルチチャネル・オーディオ信号において、各ペアの左チャネルを右チャネルの前にリストするのが慣習的である。よって、常にそうであると想定することにより、本方法はより効率的となる。
【0039】
いくつかの実施形態によれば、本方法は、本方法のステップの結果のいずれかについて信頼スコアを計算する段階をさらに含み、信頼スコアは、結果がどれくらい信頼できるかの指標であり、マルチチャネル・オーディオ信号の持続時間がある持続時間閾値を下回る場合、信頼スコアは1未満の重み因子を乗算され、それにより、持続時間閾値を下回る持続時間は、信頼性の低い結果につながる。
【0040】
本方法の各段階の結果がどのくらい信頼できるかを知ることは、ミスを診断したり、改善を測定するために有用であろう。マルチチャネル・オーディオ信号の持続時間が短すぎる場合、計算に使用されうるデータが少なすぎるため、なされた識別は信頼できない。よって、重み因子が使用されうる。
【0041】
いくつかの実施形態によれば、本方法は、計算された信頼スコアがディスプレイ上に表示される表示段階をさらに含み、計算された信頼スコアが信頼閾値を下回る場合、および/または識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告が表示される。
【0042】
表示は、ユーザーが本方法の信頼性に関するフィードバックを受け取ることができるという点で有益である。これにより、ユーザーは、本方法の識別が現在の設定よりも信頼できるかどうかについて、インフォームド・ディシジョンを行うことができる。この警告は、たとえば、本方法を停止する、本方法を再実行する、または、たとえばビットストリーミング速度を増加させる、および/または、上流の異常を修理することにより本方法を改善するために行動をとるようにユーザーに注意喚起することができるという点で有益である。識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、設定および/または識別されたチャネル・レイアウトが誤っている可能性があり、これは、たとえば、デバイスまたはユーザーによるアクションを必要とする可能性がある。
【0043】
いくつかの実施形態によれば、本方法は、識別されたチャネル・レイアウトをマルチチャネル・オーディオ信号に適用する段階をさらに含む。
適用段階は、マルチチャネル・オーディオ信号のチャネルの順序を変更すること;チャネルを識別された再生ソースにリダイレクトする、すなわち、左チャネルが左側のスピーカーによって出力されるようにすること;またはチャネル識別のための本方法の結果である識別されたレイアウトに適合するようにするための、マルチチャネル・オーディオ信号の任意の他の物理的および/またはデジタル操作を含んでいてもよい。
【0044】
いくつかの実施形態によれば、本方法によって識別されたチャネル・レイアウトは、スピーカー・システムにストリームされる際に、マルチチャネル・オーディオ信号にリアルタイムで適用される。
【0045】
提案される方法は非常に計算効率がよいので、再生に有意な遅延なしにリアルタイムで適用されうる。
【0046】
最初の結果は不正確で、信頼スコアが低くなることがあるが、オーディオ信号の再生に伴ってより多くのデータが収集されるにつれて、スコアは高くなる。
【0047】
いくつかの実施形態によれば、本方法の段階のうちの少なくとも1つは、機械学習に基づく方法を使用し、機械学習に基づく方法は、ディシジョンツリー、アダブースト〔Adaboost〕、GMM、SVM、HMM、DNN、CNN、および/またはRNNである。
【0048】
機械学習は、本方法の効率および/または信頼性をさらに改善するために使用されうる。
【0049】
本発明の第2の側面によれば、マルチチャネル・オーディオ信号のチャネルを識別するように構成された装置が提供される。該装置は、本発明の第1の側面による方法を実行するように構成された回路を有する。
【0050】
本発明の第3の側面によれば、処理能力を有する装置によって実行されたときに、本発明の第1の側面による方法を実行するように適応された命令を有する非一時的なコンピュータ読み取り可能記憶媒体を有するコンピュータ・プログラム・プロダクトが提供される。
【0051】
第2および第3の側面は、一般に、第1の側面と同じ特徴および利点を有してもよい。
【0052】
さらに、本発明は、明示的に別段の記載がない限り、特徴のすべての可能な組み合わせに関することに留意されたい。
【図面の簡単な説明】
【0053】
本発明の上記および追加的な目的、特徴、および利点は、添付の図面を参照して、本発明の好ましい実施形態の以下の例示的かつ非限定的な詳細な説明を通じて、よりよく理解されるであろう。同じ参照番号が、同様の要素に対して使用される。
【
図1】いくつかの実施形態による、サラウンドサウンドの異なるフォーマットのメニューを示す。
【
図2】いくつかの実施形態による、5.1サラウンドサウンド・システムのチャネル・レイアウトを示す。
【
図3】いくつかの実施形態による音声の放送チェーンのフローチャートを示す。
【
図4】いくつかの実施形態によるチャネル識別方法の段階を示す図である。
【
図5】いくつかの実施形態によるチャネル識別方法の段階を示す図である。
【
図6】いくつかの実施形態によるチャネル識別方法の段階を示す図である。
【
図7A】いくつかの実施形態によるチャネル識別方法の段階のフローチャートの前半を示す。
【
図7B】いくつかの実施形態によるチャネル識別方法の段階のフローチャートの後半を示す。
【
図8】いくつかの実施形態によるチャネル順序検出器のためのシステム・アーキテクチャーを示す。
【
図9】いくつかの実施形態によるチャネル識別方法の段階を示す図である。
【
図10】いくつかの実施形態によるチャネル・ペア分割段階のフローチャートを示す。
【
図11】いくつかの実施形態によるチャネル・ペア位置区別段階のフローチャートを示す。
【発明を実施するための形態】
【0054】
ここで、本発明の実施形態が示されている添付の図面を参照して、本発明をより詳細に説明する。本明細書に開示されるシステムおよび装置は、動作において説明される。
【0055】
本開示は、一般に、マルチチャネル・オーディオ信号のスワップされたチャネルまたは損傷したチャネルの問題に関する。チャネルを意図された状態に復元するために、本発明者らは、チャネル識別が使用されうることを見出した。以下では、マルチチャネル・オーディオ信号は5.1オーディオ信号である。しかしながら、これは、単に例であり、本明細書に記載される方法およびシステムは、たとえば7.1のような任意のマルチチャネル・オーディオ信号のチャネル識別に使用されうる。
【0056】
図1は、マルチチャネル音声処理のためのワークステーションのメニューを概略的に示している。これは、5.1チャネルの、種々の広く使用されているフォーマットの例である。
【0057】
現在の標準的な実施は、単にデフォルトのフォーマットを選択することに関わり、入力音声データのチャネル・レイアウトが処理中の設定と一致しない場合、チャネルはスワップされる。スワップされたチャネル・インデックスは、メタデータとしてサラウンドサウンド・データ中に保存されてもよく、それにより継続的に正しくスワップされる。しかしながら、将来のシステムが異なるデフォルトを使用する場合、メタデータは信頼性が低く、将来のプロセスにとって有害になる。
【0058】
マルチチャネル・オーディオ信号がさらに損傷チャネルを含む場合、現在の標準はこの異常を検出せず、よって、エラーが将来のシステムに伝搬する。
【0059】
図2は、サラウンドサウンド・システム5.1の典型的なレイアウトを示す。このシステムのスピーカーのいずれかの内容が交換されるか、またはいずれかのチャネルが損傷されるか空にされるかした場合、聴取者が経験するオーディオはもとの意図とは異なる。たとえば、前方RスピーカーとサラウンドRスピーカーの内容が交換された場合、スピーカー・ペアの対称性が破られ、あるいは、フロントLスピーカーの内容が空の場合、全体の音像の重要な部分が欠落している可能性がある。もとのサラウンドサウンド・データの音像は再現できず、空間的印象が混乱し、聴取者にとってわずらわしいものになる。
【0060】
異常なチャネル(単数または複数)は、そのインデックスまたはレイアウト全体が異常に見えることがあるため、検出されうる。スワップされたチャネルがあれば、それも、検出されたチャネル・レイアウトとユーザーの設定におけるチャネル・レイアウトとを比較することによって見出すことができる。
【0061】
サラウンド・ペアおよび後方ペアという用語は、さらなる可能な位置ペアのために本開示を一般化するために、本開示を通じて交換可能に使用される。たとえば、7.1サラウンドサウンド・システムでは、サラウンド・ペアは側方ペアおよび後方ペアによって置き換えられる。
【0062】
図3は、典型的な放送〔ブロードキャスト〕チェーンの高度な音響システムの一例を示す。この例は、典型的な放送チェーンにおけるサラウンドサウンド・データのフローを示しており、これは、再生前の典型的なワークフローの間にサラウンドサウンドが数回変換されることを意味する。
図1に関して前述したように、メタデータのエラーは、そのようなワークフローを通じて伝播する可能性がある。さらに、ワークフローの各プロセスにおいて、チャネルがスワップまたは損傷される可能性がある。
【0063】
フローは、プロダクションで始まる。これは、チャネルベースのコンテンツ、オブジェクトベースのコンテンツ、および/またはシーン・ベースのコンテンツが高度なサウンド・ファイル・フォーマットに寄与することを含む。高度なサウンド・ファイル・フォーマットは、プロダクションによって出力され、頒布に入力される。
【0064】
頒布は、高度なサウンド・ファイル・フォーマットの、高度なサウンド・フォーマットへの頒布適応を含む。高度なサウンド・フォーマットは、頒布によって出力され、放送に入力される。放送は、高帯域幅放送と低帯域幅放送の間のフォークを含む。
【0065】
低帯域幅放送は、高度なサウンド・フォーマットをレガシー・ストリーム・フォーマットにレンダリングする。レガシー・ストリーム・フォーマットは、放送によって出力され、低帯域幅接続/レガシー放送に入力される。
【0066】
低帯域幅接続/レガシー放送は、レガシー装置への直接再生を含む。
【0067】
高帯域幅放送は、高度なサウンド・フォーマットを放送ストリーム・フォーマットに適応する。放送ストリーム・フォーマットは、放送によって出力され、広帯域幅接続/放送に入力される。
【0068】
広帯域幅接続/放送は、いずれかの装置が、Hi-Fi、テレビ、電話、タブレットなどのためのスピーカー・レイアウトまたはバイノーラル・レイアウトにレンダリングすることを含む。
【0069】
メタデータの信頼性が低いため、本発明者らは、異常チャネルを検出するためにマルチチャネル・オーディオ信号のオーディオ内容にのみ頼るチャネル識別方法を見出した。検出器は、すべての利用可能なデータに基づいてチャネルのレイアウトを検出することができ、信頼性を示すために信頼スコアをもつ推定チャネル・インデックスをさらに提供することができる。異常なチャネル(単数または複数)は、そのインデックスまたはレイアウト全体が異常に見えることがあるため、検出されうる。スワップされたチャネルがあれば、それも、検出されたチャネル・レイアウトとユーザーの設定におけるチャネル・レイアウトとを比較することによって見出すことができる。
【0070】
一般に、オーディオ・データは、中央チャネルおよび可能性としては前方チャネル・ペアから来る前方音像であって、持続時間のほとんどにわたって方向安定性が維持される、前方音像と;バランスのとれた音声情報を伝達する、ペアとして扱われる左右のチャネルと;音像全体を高めうる情報を伝達する後方チャネルとを含む。オーディオ・データは、前記音像を低周波数を用いてふくらませるために、別個の低周波数チャネルをさらに含んでいてもよい。マルチチャネル・サラウンドサウンドがビデオまたは画像に伴っている場合、音像は、好ましくは、視覚的な画像および設計された聴取領域と一致する。
【0071】
オーディオ・データに基づいてチャネル識別を行うことにより、識別は符号化フォーマットまたはチャネル数とは独立になり、ミスマッチしたメタデータに影響されなくなる。空間的な聴覚印象はマルチチャネル・サラウンドサウンドにとって重要であり、通例、ミキシングを通じて音源をパンすることによって生成される。チャネル識別は、チャネル・レイアウトを回復するために空間情報を抽出する。
【0072】
図4は、チャネル・レイアウト識別方法100のある実施形態の図を示す。方法100は、必要とされる計算を最小限にするために、特定の順序で実行される5つの段階を含む。
【0073】
方法100は、X>1個の識別されていないチャネルを含むマルチチャネル・オーディオ信号から開始する。第1の段階は空チャネル識別段階110である。それは、これが最も計算量が少ない段階だからである。
【0074】
空チャネル識別段階110は、空のチャネルがあればそれを識別し、よって、Y≦X個の空でないチャネルのサブセットを生じるために、X個のチャネルの間で各チャネルにおける音エネルギーを測定することを含む。
【0075】
X個のチャネルの間の各チャネルにおける音エネルギーは、短期、中期および/または長期の持続時間で測定されてもよく、時間、スペクトル、ウェーブレットおよび/または聴覚領域で測定されうる。
【0076】
種々の項は、チャネルの内容に依存して、有用となりうる。
【0077】
時間領域は、異なる時点での音圧値に関する情報を含む。スペクトル領域は、チャネルの内容を変換することによって到達される、スペクトル成分での周波数情報を含む。ウェーブレット領域は、チャネルの内容を変換することによって到達される、ウェーブレット多重分解能分解における時間および周波数情報を含む。聴覚領域は、信号を聴くことによって引き起こされる聴覚神経応答に関する情報を含む、通常の、変換されていない領域である。
【0078】
聴覚領域はチャネル識別のために使用されうる。たとえば、メル/バーク・フィルタバンクのような聴覚フィルタに基づく分解が、各方法段階において使用されうる。そのような実施形態では、各臨界帯域の特定ラウドネスが、式1のサブバンドエネルギーを置き換えるために使用される。
【0079】
ウェーブレット変換も、信号分解に適用可能であり、以下の方法段階のための時間‐周波数特徴を提供することができる。
【0080】
チャネルが空と識別されるのは:チャネルの全音エネルギーがエネルギー閾値未満である場合、またはチャネルの諸サブバンド音エネルギーがエネルギー閾値未満である場合である。サブバンドはエネルギーの範囲である。
【0081】
サブバンドエネルギーの1つの定義は:
【数1】
である。ここで、E
b,c(l)は、フレームlの帯域b内のチャネルcのサブバンドエネルギーであり、l=1…Lであり、Lはフレームの総数であり、X
c(k,l)は、チャネルcのフレームl内の周波数インデックスkのスペクトル振幅であり、f
l、f
hは、帯域bの周波数ビンのそれぞれ最低および最高のインデックスである。
【0082】
この定義は短期的に測定される。1フレームまたは数フレームの時間ブロックについて、Eb,c(l)の平均値と標準分散の両方が計算される。平均と分散の両方が、すべての時間ブロックについてある諸閾値を下回る場合、チャネルcのサブバンドbは空であると検出される。
【0083】
代替は、帯域通過フィルタリングされた信号や聴力的レート・マップのようなスペクトル関連の指標を含む。
【0084】
空のチャネルの識別は、メタデータを使用して格納されてもよい。
【0085】
LFE判別段階120が次であり、Y個のチャネル間に低域効果(LFE)チャネルが存在するかどうかを判定し、LFEチャネルが存在することを判別すると、Y個のチャネルのうちの判別されたチャネルをLFEチャネルとして識別することを含む。
【0086】
LFE判別段階120は、さらに、LFEチャネルが存在するかどうかを判定するために、空チャネル識別段階110において測定されたY個のチャネルのうちの各チャネルにおける音エネルギーを使用することを含んでいてもよい。これにより、計算作業が節約される。
【0087】
LFE判別段階120は、Y個のチャネルのうちの各チャネルにおいて、エネルギー閾値を超える音エネルギーが存在する周波数帯域を測定することをさらに含んでいてもよい。これは、空チャネル識別段階110における音エネルギーの測定を必要としない。
【0088】
Y個のチャネルのうちの各チャネルにおいて、エネルギー閾値を超える音エネルギーが存在する周波数帯域は、短期、中期および/または長期の持続時間において測定されてもよい。
【0089】
LFEチャネルがY個のチャネルの間に存在することの判別は、チャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルの他のすべての周波数領域におけるサブバンド音エネルギーの和よりも有意に高いかどうかを調べることを含みうる。これは、LFEチャネルを見逃す可能性が低いという点で有益である。
【0090】
サブバンド音エネルギーを加算する代わりに、たとえば、平均値および/または最大値を使用してもよい。
【0091】
そのようなチャネルはいずれもLFEチャネルとして識別されうる。低周波数領域は、たとえば、400Hz、300Hz、200Hz、120Hz、100Hz、または50Hz未満の任意のサブバンドであってもよい。低周波数領域は、オーディオ信号の内容に基づいて決定されてもよい。
【0092】
実際上は、200Hz~2000Hzの任意の周波数は、実施形態に依存して、低周波数領域または高周波数領域に属することができる。よって、低周波数領域は、特定の実施形態に基づいて決定されうる。あるいはまた、200Hzより下および2000Hzより上のサブバンドのみを見ることが有益であることがある。
【0093】
信号の最高周波数は、信号のサンプルレートに依存しうる。よって、2000Hzとサンプルレートの半分との間の諸サブバンドのみを見ることは有益であることがある。
【0094】
Y個のチャネルのうちにLFEチャネルが存在することの判別は、チャネルが、周波数閾値未満の諸周波数領域において、エネルギー閾値を超えるサブバンド音エネルギーのみを含むかどうかを調べることを含んでいてもよい。これは、LFEチャネル以外のチャネルを検出しない可能性が高いという点で有益であるが、たとえば雑音を含んでいるか、または期待されたものとは異なる低周波数領域を有する場合には、LFEチャネルを検出しない可能性がある。いくつかの実施形態では、そのようなチャネルのみがLFEチャネルとして識別される。
【0095】
周波数閾値は、たとえば、2000Hz、1000Hz、500Hz、400Hz、300Hz、200Hz、120Hz、100Hz、または50Hzであってもよく、またはオーディオ信号の内容に基づいて決定されてもよい。
【0096】
いくつかのLFEチャネルがY個のチャネルのうちに存在すると判定された場合、LFEチャネルが存在するかどうかを判定するために使用される特徴(単数または複数)の階層に従って、1つのみがLFEチャネルとして識別されうる。
【0097】
ほとんどのマルチチャネル・オーディオ信号は、最大で1つのLFEチャネルしかもたないので、いくつかの可能なLFEチャネルのうちどのチャネルがLFEチャネルとして識別されるかを決定するために、階層を使用することができる。階層は、たとえば、低周波数領域と他の周波数領域との間の、サブバンド音エネルギーの最大の差、またはよりハードな閾値を含んでいてもよい。
識別されたLFEチャネルは、メタデータを使用して格納されてもよい。
【0098】
チャネル・ペア分割段階130が次であり、対称的なチャネルをマッチングすることによって、Y個のチャネルのうち、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割することを含む。チャネル・ペア分割段階130は、
図10に関連してさらに議論される。
【0099】
中央チャネル識別段階140が次であり、Y個のチャネルのうち、LFEチャネルとして識別されたりペアに分割されたりしていない、残りの対になっていない任意のチャネルを中央チャネルとして識別することを含む。
【0100】
中央チャネル識別段階140は、Y個のチャネルのうち、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルの独立性および/または非相関を、Y個のチャネルのうち他のチャネルと比較して計算する段階と、中央チャネルを、最も独立したおよび/または非相関なチャネルとして識別する段階とをさらに含んでいてもよい。
【0101】
これは、たとえば、時間、スペクトル、ウェーブレットおよび/または聴覚領域における異なるチャネルの内容を測定することに基づいて計算されてもよい。
【0102】
Y個のチャネルのうち、LFEチャネルとして識別されていない、またはペアに分割されていない、残りの不対チャネルの独立性および/または非相関性の計算は、ペアに分割されたチャネルと比較してのみ計算されうる。これは、典型的には、中央チャネルが最も独立している、および/またはペア・チャネルに相関していないためである。
【0103】
別の実施形態では、中央チャネル識別段階140は、チャネル・ペア区別段階150の後に行われ、独立性および/または非相関性の計算は、前方ペアとして区別されたチャネルと比較してのみ計算される。
【0104】
これは、中央チャネルが、典型的には、前方ペア・チャネルに対して最も独立していない、および/または非相関でないが、それでも独立している、および/または非相関であるからである。よって、独立性および/または非相関性が見出される場合、偽陽性の可能性が減少するので、中央チャネルの識別は非常に信頼性が高い。中央チャネルをすべてのペアと比較すれば信頼性は高くなるが、より資源集約的になる。
【0105】
これらの実施形態のいずれも、非常に信頼性が高いという点で有益であるが、かなりの計算を必要としうる。よって、ある有益な実施形態では、残りのチャネルがあればどんなものでも検証なしに中央チャネルとして識別される。
【0106】
2つ以上のチャネルが残っている場合、すべてが中央チャネルとして識別されてもよく、またはエラーが想定され、チャネル識別方法が再スタートされる。すべての段階がやり直されてもよいし、あるいは誤っている可能性が高いと判断された段階のみであってもよい。
【0107】
繰り返される段階は、たとえば、チャネルが偶数個残っている場合は、空チャネル識別段階110および/またはLFEチャネル判別段階120であってもよく(これらは異なるパリティを与えうるから)、チャネルが1とは異なる奇数個残っている場合は、チャネル・ペア分割段階130および/またはチャネル・ペア区別段階150である(これらは同じパリティを与えるから)。
【0108】
繰り返される段階は、追加的または代替的に、諸段階の信頼スコアに関連してもよく、これについては
図6に関連してさらに説明される。
【0109】
中央チャネルの識別は、メタデータを用いて格納されてもよい。
【0110】
図5は、チャネル識別方法の段階を示す図である。この実施形態は、表示段階160および適用段階170をさらに含み、これらは、それぞれ
図8~
図9に関連してさらに説明される。
図5に示されるシーケンスは、以前の結果を再利用することによって達成される効率のため、好ましい順序であるが、任意の序列が可能である。
【0111】
図6は、チャネル識別方法の段階を示す図である。たとえば方法の各段階の後に各チャネルが検出されると、それらは、システムの設定、たとえば、ユーザーによって選択されたチャネル・インデックスと比較210される。何らかのミスマッチが検出される場合、警告160が発されてもよい。
【0112】
ある実施形態では、ミスマッチは自動的に修正される。別の実施形態では、ミスマッチは、たとえば警告を受け取った後にユーザーがそれを確認しない限り、修正されない。
【0113】
いくつかの実施形態では、本方法は、本方法の段階のいずれかの結果に関する信頼スコアを計算することをさらに含み、該信頼スコアは、該結果がどれくらい信頼できるかの指標である。
【0114】
これは、警告の一部としてユーザーに対して表示されてもよく、ユーザーが、本方法の識別が現在の設定よりも信頼性が高いかどうかについて、情報を得た上で決定することができるようにする。
【0115】
マルチチャネル・オーディオ信号の持続時間がある持続時間閾値を下回る場合、信頼スコアは、1未満の重み因子を乗算されてもよく、そのため、持続時間閾値を下回る持続時間は、信頼性の低い結果につながる。
【0116】
重み因子は、持続時間を持続時間閾値で割ったものに比例しうるので、比較的長い持続時間は、より信頼性の高い結果につながる。これは、重み因子の精度を高める。
【0117】
ある実施形態では、持続時間が持続時間閾値より長い場合には、重み因子は、適用されないか、または1に等しい。これは、重み因子の精度を高める。
【0118】
重みは、次式により算出されてもよい。
【数2】
ここで、Lはチャネル識別が行われる基礎となるデータの長さであり、L
thdは持続時間閾値である。これは、データが持続時間の閾値よりも低い場合、その識別は信頼できないことを意味する。
【0119】
ほとんどの実施形態では、相対的に信頼性の高い結果は、相対的に高い信頼スコアを有する。時間持続閾値は、たとえば、1~60分の間、5~30分の間、10~20分の間、または15分の定数でありうる。持続時間閾値は、その代わりに、データの長さの50分の1、20分の1、10分の1、5分の1、3分の1または2分の1のような相対的長さであってもよい。
【0120】
空チャネル識別段階110の信頼スコアは、識別された空のチャネルの音エネルギーに比例してもよく、それにより、相対的に低い音エネルギーは、より信頼性の高い結果につながる。
【0121】
エネルギー閾値未満の音エネルギーをもつチャネルが空のチャネルとして識別されうる実施形態では、この識別の信頼性は、音エネルギーがエネルギー閾値をどの程度下回るかに依存する。よって、相対的に低い音エネルギーは、より信頼性の高い結果につながる。
【0122】
空のチャネルの数が不明であるため、信頼性閾値より低い信頼スコアは、空チャネル識別段階110の結果を、たとえば短期メモリにおいて、またはメタデータとして、信頼性の低いものとしてマーク付けさせてもよい。これは、ユーザーに対して警告を表示させてもよく、および/または、たとえばミスマッチが検出された場合、または間違った数のLFEおよび/または中央チャネルが識別された場合には直接、空チャネル識別段階110がやり直されてもよい。
【0123】
LFEチャネル判別段階120についての信頼スコアは、低周波数領域におけるサブバンド音エネルギーと、判別されたLFEチャネルの他のすべての周波数領域におけるサブバンド音エネルギーとの差に比例してもよく、それにより、相対的に大きな差が、より信頼性の高い結果につながる。
【0124】
LFEチャネルは、他のすべての周波数領域と比較して、低周波数領域におけるサブバンド音エネルギーの実質的により大きな部分を含むべきであり、よって、大きな差は、より信頼性がある。
【0125】
サブバンド音エネルギー間の差は、異なる周波数領域におけるサブバンド音エネルギーの和を比較することによって計算されてもよい。
【0126】
和(単数または複数)は、それぞれ、各周波数領域のサイズに対してさらに正規化されてもよい。
【0127】
あるいはまた、サブバンド音エネルギー間の差は、異なる周波数領域におけるサブバンド音エネルギーの平均または正規化平均を比較することによって計算されてもよい。
【0128】
正規化された平均は、好ましくは、各周波数領域のサイズに正規化される。
【0129】
この結果、差が大きくなり、その結果、より標準化された信頼スコアが得られるので、この和は好ましい。
【0130】
低周波数領域は、たとえば、400Hz、300Hz、200Hz、120Hz、100Hz、または50Hz未満の任意のサブバンドでありうる。低周波数領域は、オーディオ信号の内容に基づいて決定されてもよい。
【0131】
さらなる実施形態では、LFEチャネル判別段階120についての信頼スコアは、周波数閾値よりも高い周波数領域における判別されたLFEチャネルのサブバンド音エネルギーの和に比例し、それにより、相対的に低い和は、より信頼性の高い結果につながる。
【0132】
この実施形態では、信頼スコアを決定する際に、低周波数領域の内容は使用しない。これは、実施形態によっては有益でありうる。
【0133】
ある実施形態では、LFEチャネル判別段階120についての信頼スコアは:低周波数領域におけるサブバンド音エネルギーと、判別されたLFEチャネルの他のすべての周波数領域におけるサブバンド音エネルギーとの差に比例し、そのため、相対的に大きな差がより信頼性の高い結果につながり、また、周波数閾値よりも高い周波数領域における判別されたLFEチャネルのサブバンド音エネルギーの和に比例し、そのため、相対的に低い和がより信頼性の高い結果につながる。
【0134】
この実施形態では、信頼性の高い信頼スコアを生じるために、最も有用であると考えられる指標の両方が、可能性としては異なる重み付けで、組み合わせて使用される。
【0135】
周波数閾値は、たとえば、2000Hz、1000Hz、500Hz、400Hz、300Hz、200Hz、120Hz、100Hz、または50Hzであってもよく、またはオーディオ信号の内容に基づいて決定されてもよい。
【0136】
いくつかの実施形態では、LFEチャネル判別段階120についての信頼スコアは、判別されたLFEチャネルに存在する最高周波数信号に比例し、そのため、相対的に低い最高周波数信号は、より信頼性の高い結果につながる。
【0137】
LFEチャネルが存在するかどうかは、エネルギー閾値に基づいて決定されてもよい。エネルギー閾値は、ノイズを無視するように適応されてもよく、または、存在しないも同然なほど低くてもよく、その結果、どんな信号でも存在すれば信頼スコアに影響を及ぼす。
【0138】
これらの実施形態では、信頼スコアを決定する際には、最大周波数のカットオフのみが使用される。これは、実施形態によっては有益でありうる。
【0139】
LFEチャネルの存在が不明であるため、信頼性閾値より低い信頼スコアは、LFEチャネル判別段階120の結果を、たとえば短期メモリにおいて、またはメタデータとして、信頼できないものとしてマーク付けさせてもよい。これは、ユーザーに対して警告を表示させてもよく、および/または、たとえばミスマッチが検出された場合、または可能性としてはたとえのちの段階にであっても、間違った数の(たとえば複数の)中央チャネルおよび/またはLFEが識別された場合には直接、LFEチャネル判別段階120がやり直されてもよい。
【0140】
中央チャネル識別段階140についての信頼スコアは、Y個のチャネルのうちの、LFEチャネルとして識別されていないチャネルと比較した、識別された中央チャネルの独立性および/または非相関性に比例してもよく、そのため、相対的に高い独立性および/または非相関性は、より信頼性の高い結果につながる。
【0141】
中央チャネルは、Y個のチャネルのうち、LFEチャネルとして識別されていないチャネルと比較して独立および/または非相関であるべきであり、よって、高い独立性および/または非相関性は、より信頼性が高いであろう。
【0142】
本方法のある段階の信頼スコアのための複数の計算オプションが利用可能である場合、それらは階層的に適用されてもよい。
【0143】
信頼スコアは、メタデータを用いて格納されてもよい。
【0144】
典型的には、(識別段階110~150のいずれかについて)信頼性閾値を下回る信頼スコアをもつ結果は、たとえば、より長いデータを使用して、チャネル識別方法100が再スタートされる結果をもたらしてもよい。
【0145】
図7A~
図7Bは、チャネル識別のための方法の段階のフローチャートを示す。それは、計算を最小限にするために、どのチェックと方法段階がどの順序で実行されるかの序列付け(sequencing)最適化を示す。本実施形態では、5.1サラウンドサウンド・ファイル・フォーマットが想定されているが、軽微な変更で、他のフォーマットも可能である。
【0146】
第1の段階は、空チャネル識別段階110である。この段階の結果は、本方法が、マルチチャネル・オーディオ信号の可能な構成の数を、空チャネル識別段階110の結果の後にリストされる1つまたは2つのオプションに低減することを許容する。
【0147】
図示した実施形態は、6つのチャネルを有するが、空のチャネルの数の結果を調整しながら、任意の他の数が可能である。
【0148】
空チャネル識別段階110の結果、空のチャネルの数が5である場合、最後のチャネルは、自動的に中央チャネルとして識別され、次いで出力される。
【0149】
空チャネル識別段階110の結果、空のチャtネルの数を3である場合、識別された空のチャネルが出力され、残りのチャネルはL、R、Cであると仮定される。チャネル・ペア分割段階130が、ペアを見つけるために使用され、残りのチャネルは、自動的に中央チャネルとして識別され、次いでペアとともに出力される。
【0150】
空チャネル識別段階110の結果、空のチャネルの数が1である場合、LFEチャネル識別段階120を使用することによって、その空のチャネルが、LFEチャネルと間違えられたかどうかダブルチェックされる。LFEチャネルが検出された場合、それが出力され、そうでない場合は前記空のチャネルが出力される。チャネル・ペア分割段階130が、残りの5つのチャネルのうちから2つのペアを見つけるために使用され、残りのチャネルは自動的に中央チャネルとして識別され、次いでペアとともに出力される。
【0151】
空チャネル識別段階110の結果、空のチャネルの数がゼロである場合、入力が5.1サラウンドサウンドに従ってフォーマットされているならば、LFEチャネルが存在しなければならない。たとえば7.1フォーマットが可能な実施形態では、残りの6つのチャネルは、たとえば3つのペアである可能性がある。LFEチャネルは、LFEチャネル識別段階120を使って識別され、出力される。チャネル・ペア分割段階130が、残りの5つのチャネルのうちから2つのペアを見つけるために使用され、残りのチャネルは自動的に中央チャネルとして識別され、次いでペアとともに出力される。
【0152】
空チャネル識別段階110の結果、空のチャネルの数が2である場合、識別された空のチャネルが出力され、残りのチャネルは、L、R、C、LFEまたはL、R、Ls、Rsのいずれかでありうる。LFEチャネル識別段階120は比較的効率的であるので、それが次に使用される。LFEチャネルが検出される場合、それが出力され、残りのチャネルはL、R、Cとなる。そうでない場合、残りのチャネルはL、R、Ls、Rsとなる。チャネル・ペア分割段階130は、残りの3つまたは4つのチャネルのうちから1つまたは2つのペアを見つけるために使用され、残りのチャネルがあればそれは自動的に中央チャネルとして識別される。いずれの仕方でも、識別されたチャネルが次いで出力される。
【0153】
空チャネル識別段階110の結果、空のチャネルの数が4である場合、識別された空のチャネルが出力され、残りのチャネルは、L、RまたはC、LFEのいずれかでありうる。LFEチャネル識別段階120は比較的効率的であるので、次に使用される。LFEチャネルが検出される場合、残りのチャネルが自動的に中央チャネルとして識別され、次いでLFEチャネルとともに出力される。LFEチャネルが検出されない場合、残りのチャネルはL、Rペアである。このペアは、直接出力されてもよく、またはチャネル・ペア分割段階130が、分割されたペアが出力される前の予防措置として使用されてもよい。
【0154】
空チャネル識別段階110の結果、空のチャネルの数が6である場合、すべてのチャネルは空である。その場合、空のチャネルが出力され、本方法は終了する。
【0155】
図示した実施形態は、チャネル・ペア区別段階150を含んでいない。含んでいたとしたら、「L,R,C,(Ls,Rs)を出力」の結果の前に行われる。
【0156】
図示した実施形態は、残っている単一のチャネルがあればそれを中央チャネルとして識別することのほかは、中央チャネル識別段階140を含んでいないが、しかしながら、当業者にとっては、前述の諸実施形態に従ってそれを補正することは簡単であろう。さらに、残っている単一のチャネルがあればそれはLFEではなくCであると想定されている。そのほうが一般的であるためであるが、このような想定がされない他の実施形態では、LFEチャネル判別段階120および/または中央チャネル識別段階140を実行してもよい。
【0157】
図8は、チャネル順序検出器1のシステム・アーキテクチャーを示す。チャネル順序検出器は、チャネルの順序を検出するために、本発明によるチャネル識別のための方法を適用する。
【0158】
チャネル順序検出器1は、コンピュータ・プログラム・プロダクトに従って方法を実行するように適用されてもよい。コンピュータ・プログラム・プロダクトは、チャネル順序検出器のような処理能力を有する装置によって実行されたときに、本発明による方法を実行するように適応された命令を有する非一時的なコンピュータ読み取り可能な記憶媒体を含む。
【0159】
X>1個のチャネルを含むマルチチャネル・オーディオ信号が、チャネル順序検出器に入力801される。オーディオ信号のセグメント長802は、オーディオ信号から解析されてもよく、または別に入力されてもよい。セグメント長802は、入力データの全長(分単位)に対応する。よって、オーディオ・ファイルが入力される場合、セグメント長802は、そのファイルのオーディオ信号の全長に対応する。
【0160】
チャネル識別のための方法の結果、識別されたチャネルが与えられる。次いで、順序検出器は、チャネル810のラベルの順序付けられた配列を出力するために、識別されたチャネルを使用してもよい。
【0161】
前述のような、任意の数の信頼スコア820も、本方法の結果の信頼性に関連して出力されうる。信頼スコアは0~1に正規化されてもよく、信頼スコア0は信頼できず、信頼性1は信頼できる、またはその逆も可能である。
【0162】
検出されたラベルの出力された配列は、再生システムによって、複数のチャネルを複数の音源に正確にマッチさせるために使用されてもよく、その結果、たとえば、中央チャネルは、中央のスピーカーから出る、などとなる。
【0163】
チャネル順序検出器を含むシステムは、ディスプレイをさらに含んでいてもよい。この方法は、計算された信頼スコア(単数または複数)がディスプレイ60上に表示される表示段階160を含んでいてもよい。
【0164】
ディスプレイ60は、ユーザーが本方法の信頼性に関するフィードバックを受け取ることができるという点で有益である。
【0165】
表示段階160は、算出された信頼スコアが信頼閾値を下回る場合、警告を表示する段階をさらに含んでいてもよい。
【0166】
この警告は、たとえば本方法を停止する、本方法を再実行する、または、たとえば、ビットストリーミング速度を増加させる、および/または、上流の障害を修正することにより本方法を改善するために行動をとるようにユーザーに注意喚起することができるという点で有益である。
【0167】
識別されたチャネル・レイアウトは、表示段階160(
図5参照)に表示されてもよい。これは、ユーザーにとって、より有意なフィードバックを提供することができる。
【0168】
いくつかの実施形態では、表示段階160は、ボタンまたはタッチスクリーンなどのユーザー・インターフェースを使用して、ユーザー入力を待つことをさらに含む。よって、ディスプレイ60は、そのようなユーザー入力を受領するためのインターフェースを含んでいてもよい。
【0169】
これにより、ユーザーが結果を分析し、フィードバックを提供する可能性をもつことなく、本方法が継続していくことを防止する。
【0170】
識別されたチャネル・レイアウトは、マルチチャネル・オーディオ信号に適用される前に、ユーザーによって承認されてもよい。これは、ミスが適用されるリスクを減らす。
【0171】
ユーザーは、ユーザーの設定レイアウトと同一である識別されたチャネル・レイアウトを承認するように促されなくてもよい。このシナリオは再生システムに変更を必要としないので、時間を節約し、ユーザーの要求を低減する。
【0172】
表示段階160は、識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告を表示することをさらに含んでいてもよい。これは、設定レイアウトへの変更を正当化し、および/または強制する可能性があるため、ユーザーは、これが起こる前に知りたいと望むことがありうる。
【0173】
警告レベルは、算出された信頼スコア(単数または複数)に比例してもよい。信頼できない結果を示す信頼スコアは、たとえば、ユーザーが方法を停止したり、方法をやり直したり、および/または方法を改善したりするよう、より容易に認識できる警告、または誤りである可能性の高い警告をユーザーが無視するよう、それほど容易に認識できない警告を正当化しうる。
【0174】
表示段階160は、ユーザーが表示されたデータを操作できるようにすることをさらに含んでいてもよい。ユーザーは、本方法に利用可能なもの以外の情報をもっている可能性があり、本方法に利用可能なデータを追加および/または変更しうる。
【0175】
操作されたデータは、本方法の諸チャネル識別段階において使用されうる。これは、本方法の実行時になされた変更が、諸チャネル識別段階を、それらが行われる際に改善するために使用されうることを意味する。操作されたデータは、追加的または代替的に、本方法のその後の実行のために使用されてもよい。
【0176】
表示段階160は、ユーザーが、信号の、無視するべき少なくとも1つのセグメントを選択することを許容することをさらに含んでいてもよい。これにより、ユーザーは、たとえば、本方法を攪乱させるオーディオ信号中の欠陥を識別し、それを除去することができる。
【0177】
図9は、チャネル識別方法の段階を示す図である。図示した実施形態は、異なる領域で実施される方法の異なる段階を示す。この実施形態では、空チャネル識別段階110、LFE判別段階120、チャネル・ペア分割段階130、および中央チャネル識別段階140は、ウェーブレット領域のような時間‐周波数領域で行われ、チャネル・ペア区別段階150は、空間領域で行われる。これは、たとえば、特定の領域で特徴を抽出するために、特定の段階の前にマルチチャネル・オーディオ信号を変換910、920し、それらの段階が実行された後に逆変換することによって達成される。
【0178】
これは、可能な一実施形態にすぎず、他の実施形態では、示されたものとは異なる段階が、示されたものとは異なる領域で実施されるか、または、たとえば、方法全体が1つの領域で実施される。
【0179】
方法100は、識別されたチャネル・レイアウトをマルチチャネル・オーディオ信号に適用170する段階をさらに含んでいてもよい。これは、マルチチャネル・オーディオ信号のチャネルの順序を変更すること;識別された再生ソースにチャネルをリダイレクトすること、すなわち、左チャネルが左スピーカーによって出力されるようにすること;または、チャネル識別のための本方法の結果である識別されたレイアウトに適合するようにするための、マルチチャネル・オーディオ信号の任意の他の物理的および/またはデジタル操作を含んでいてもよい。
【0180】
いくつかの実施形態では、識別されたチャネル・レイアウトは、計算された信頼スコア(単数または複数)が信頼閾値を超える場合にのみ適用される。
【0181】
識別されたチャネル・レイアウトが信頼できない場合、識別されたチャネル・レイアウトを適用することは、放射される音像を悪化させる可能性があるので、これを防止するために信頼閾値が使用されてもよい。
【0182】
適用段階170は、識別されたチャネル・レイアウトをマルチチャネル・オーディオ信号に適用するために、任意の存在するメタデータを使用することを含んでいてもよい。メタデータは、適用段階170をより効果的にすることができ、放送チェーン内の任意のさらなるシステムによって使用されうる。
【0183】
本方法によって識別されるチャネル・レイアウトは、スピーカー・システムにストリームされているときに、マルチチャネル・オーディオ信号にリアルタイムで適用されてもよい。
【0184】
提案される方法は非常に計算効率がよいので、再生への有意な遅延なしに、リアルタイムで適用されうる。
【0185】
最初の結果は不正確で、信頼スコアが低くなることがあるが、オーディオ信号の再生に伴ってより多くのデータが収集されるにつれて、スコアは高くなる。
【0186】
本方法のリアルタイム実施形態は:すべてのデータバッファをクリアし、チャネル番号を取得する初期化を含んでいてもよい。何らかの新しいデータが取得された後、チャネル識別は、すべての利用可能なデータに対して実行されうる。以前のデータの特徴は、消費する複雑さを低く保つために使用されてもよい。一貫性のないデータが受け入れられることもある。利用可能なデータに基づいてある種のチャネルに対して判定がなされない場合、それらのチャネルは不明としてラベル付けされてもよく、信頼スコアは0である。当初は、すべてのチャネルの信頼スコアは、グローバルな重み因子のため、低い。十分なデータが受領された後では、識別は一定に保たれ、信頼スコアは若干変動する可能性がある。
【0187】
マルチチャネル・オーディオ信号は、コンテンツ作成、解析、変換および再生システムのためのマルチチャネル・サラウンドサウンド・ファイルまたはストリームであってもよい。これらのシステムはチャネル・レイアウトによって強く影響される。
【0188】
本方法の段階の少なくとも1つは、機械学習に基づく方法を使用してもよい。機械学習に基づく方法は、ディシジョンツリー、アダブースト〔Adaboost〕、GMM、SVM、HMM、DNN、CNNおよび/またはRNNであってもよい。
【0189】
機械学習は、本方法の効率および/または信頼性をさらに改善するために使用されうる。
【0190】
チャネル・ペア検出のためのSVMが、一例として取り上げられてもよい。式3に示されるように、フレームl内のチャネルiとjの間のチャネル間スペクトル距離をD
i,j(l)と表す。次いで、全周波数帯域を1,2,…またはKの異なる帯域に分割し、チャネル間スペクトル距離が計算され、それぞれ平均チャネル間スペクトル距離
【数3】
を与える。次いで、
【数4】
のK個の値は、チャネルiおよびjについてのチャネル距離ベクトルとしてグループ化されてもよい。LFEまたは空として検出されないすべてのチャネルについて、それぞれの可能なペア間のチャネル距離ベクトルが計算される。チャネルiおよびjが1つのペアに属する場合、このベクトルのラベルは1であり、それ以外の場合は0である。サポートベクタマシンが、ラベル付けされたトレーニング・データベースに基づいてトレーニングされ、次いで、チャネル・ペアを検出するために使用されてもよい。
【0191】
図10は、チャネル・ペア分割段階130のフローチャートを示す。チャネル・ペア検出は、より効率的にするために、通常は、空ではなく、LFEではないチャネル上で行われる。未知のチャネルの数が2以上である場合に、チャネル・ペアが検出されてもよい。
【0192】
チャネル・ペア分割段階130における対称的なチャネルのマッチングは、各チャネルのオーディオ・エネルギーの間の音エネルギー分布および分散を計算するために、時間的特徴、スペクトル特徴、聴覚特徴および/または他の領域における特徴を比較し、最も対称的なチャネルどうしをペアとしてマッチングすることをさらに含んでいてもよい。対称的なチャネルは、音エネルギー分布および分散を解析することにより、実質的に類似したおよび/または対称的な音声信号内容をもつオーディオのチャネルとして見出される。対称的な音声信号内容は、たとえば、それぞれ、類似の背景音および異なる前景音、類似のベース音および異なるデスカント音を含んでいてもよく、または、その逆を含んでいてもよい。対称的な音声内容は、単一のコードの異なる部分などの同期した音、または、あるチャネルで始まり別のチャネルで終わる音をさらに含んでいてもよい。
【0193】
2つのチャネルの特徴が非常に近いが、他のチャネルの特徴とは全く異なる場合、または2つのチャネル間の相関が他のチャネルより高い場合、それら2つのチャネルはチャネル・ペアに分割されてもよい。
【0194】
チャネル・ペア分割段階130における対称的なチャネルのマッチングは、短期、中期および/または長期の継続時間において各チャネルの計算された音エネルギー分布および分散を用いてチャネル間のチャネル間スペクトル距離を計算1010する段階であって、チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離をもつチャネルどうしをペアとしてマッチングする段階とをさらに含む。
【0195】
使用される距離指標は、ユークリッド距離、マンハッタン距離および/またはミンコフスキー距離であってもよい。
【0196】
以下の例はすべて周波数領域にあるが、他の領域も可能である。時間‐周波数特徴を用いた実施形態のほか、信号変換または信号分析理論の他の方法から導出された特徴も、たとえばペア検出および/または信頼スコア推定を行うために使用されうる。上記のようなヒューリスティック規則に基づく方法のほか、回帰、決定木、アダブースト、GMM、HMMまたはDNNのような機械学習に基づく方法もまた、たとえばペア検出および/または信頼スコア推定のために使用されうる。
【0197】
ある実施形態では、フレームl内のチャネルiとjの間の距離は、
【数5】
に従って計算される。ここで、i,jは[1,C]の範囲にあり、i≠jであり、Cはチャネルの数であり、Bは周波数帯域の数であり、b=1…Bは周波数帯域のインデックスであり、l=1…Lはフレームのインデックスであり、E
b,i(l)およびE
b,j(l)は、チャネルiおよびjの帯域b内の時間‐周波数エネルギーである。
【0198】
計算されたチャネル間スペクトル距離の時間を追った平均が計算され、最も短い平均距離をもつチャネルどうしをペアとしてマッチさせるために使用されうる。これは、チャネル間の長期的な類似性を測定するために使用される。
【0199】
ある実施形態では、チャネル間の平均チャネル間距離は、
【数6】
に従って計算される。ここで、i,jは[1,C]の範囲にあり、i≠jであり、lは[1,L]の範囲にあり、Cはチャネルの数であり、Lはフレームの数である。
【0200】
平均距離の代わりに、またはそれに加えて、最低および/または最高のチャネル間距離が使用されてもよい。しかしながら、ペア・チャネルは平均的には類似しているが、必ずしも常に、たとえば各フレームにおいて類似しているとは限らないので、平均が好ましい。
【0201】
チャネル間スペクトル距離を用いる実施形態では、中央チャネル識別段階140は、Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない残っている不対チャネルがあればsの計算されたチャネル間スペクトル距離を解析して、中央チャネルを識別することをさらに含んでいてもよい。これは、中央チャネル識別段階140の精度がさらに高める。
【0202】
中央チャネル識別段階140についての信頼スコアは、識別された中央チャネルと、Y個のチャネルのうちのLFEチャネルとして識別されていない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例してもよく、そのため、相対的に対称的な距離が、より信頼性の高い結果につながる。
【0203】
中央チャネルは、好ましくは、LFEチャネルとして識別されていない他のチャネル、すなわち、対になったチャネルに対する対称的な距離を有し、よって、相対的に対称的な距離が、より信頼性の高い結果につながる。
【0204】
中央チャネル識別段階140についての信頼スコアは、チャネル・ペア分割段階130が存在する場合、その信頼スコアに直接比例してもよい。
【0205】
たとえば、中央チャネル識別段階140が単に残りのチャネルを識別することを含む場合、中央チャネル識別段階140の信頼性は、チャネル・ペア分割段階130の信頼性に直接比例する。他の実施形態でも、ペアのマッチングの信頼性は、中央チャネルとして識別されるべき利用可能なチャネルに影響を与える可能性があるので、中央チャネル識別段階140の信頼性に直接影響する可能性がある。
【0206】
チャネル・ペア分割段階130における対称的なチャネルのマッチングは、各チャネルの音エネルギー分布の相関を比較し、最も相関の高いチャネルどうしをペアとしてマッチングすることをさらに含んでいてもよい。これは、単純で効率的な計算であるが、いくつかの実施形態においてのみ機能する。
【0207】
使用される相関指標は、余弦類似性、ピアソン相関係数および/または相関行列でありうる。
【0208】
チャネル・ペア分割段階130は、さらに、Y個のチャネルのうちLFEチャネルとして識別されていない各チャネルについて、チャネルをペアとしてマッチングする計算のために使用される少なくとも1つのパラメータを測定すること、および/または、もしあれば以前の測定からインポートすることを含んでいてもよい。
【0209】
指標は、たとえば、空チャネル識別段階110またはLFEチャネル判別段階120で測定された音エネルギーであってもよい。これは、方法100の効率を改善する。
【0210】
チャネル・ペアが、それらをマッチングするために使用される特徴(単数または複数)に従って異なる仕方でマッチングされる場合、どのペアリングを適用するかを決定するために、特徴(単数または複数)の階層が使用されてもよい。
【0211】
階層は、たとえば、あるタイプの指標が他よりも好ましいというものであってもよい。たとえば、平均チャネル間スペクトル距離が最大チャネル間スペクトル距離または音エネルギー分布の相関よりも好ましい。
【0212】
チャネル・ペア分割段階130は、Y個のチャネルのうちLFEチャネルとして識別されない対になっていないチャネルがあれば、それらをペアリングすることを、残りチャネルが2つよりも少なくなるまで、続けてもよい。
【0213】
5.1オーディオ・フォーマットにおける前方ペアと後方ペアのようなチャネルのペアが2つより多くあってもよい。よって、もし2つより多くのチャネルが残っていれば、その中にさらなるチャネル・ペアがある可能性が高く、さらなるペアを分割することが可能である。
【0214】
チャネル・ペア分割段階130は、各ペア内のマルチチャネル・オーディオ信号の第1の受領チャネルを左チャネルとして割り当て、各ペア内の最後にリストされたチャネルを右チャネルとして割り当てることをさらに含んでいてもよい。
【0215】
マルチチャネル・オーディオ信号において、各ペアの左チャネルを右チャネルの前にリストするのが慣習的である。よって、常にそうであると想定することにより、本方法はより効率的となる。
【0216】
チャネルのペアへの分割、および/または、もしあれば左右のチャネルの割り当ては、メタデータを使用して格納されてもよい。
【0217】
チャネル・ペア分割段階130についての信頼スコアは、マッチングされたペア(単数または複数)の対称性指標に比例しうる。そのため、相対的に高い対称性指標が、より信頼性の高い結果につながる。
【0218】
正しくマッチングされたペアは、好ましくは、高い対称性を有するので、チャネル・ペア分割段階130の結果が、比較的高い対称性をもつペアを有する場合、それは、比較的信頼性が高い。
【0219】
チャネル・ペア分割段階130についての信頼スコアは、マッチングされたペア(単数または複数)間の計算されたチャネル間スペクトル距離に比例しうる。そのため、相対的に短い距離が、より信頼性の高い結果につながる。
【0220】
正しくマッチングされたペアは、好ましくは、互いの間の短い距離を有する。よって、チャネル・ペア分割段階140の結果が、比較的短い距離のペアを有する場合、それは比較的信頼性がある。
【0221】
チャネル・ペア分割段階140についての信頼スコアは、マッチングされたペア(単数または複数)内の各チャネルと、Y個のチャネルのうち、LFEチャネルとして識別されていない、またはマッチしたチャネルでない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例してもよい。そのため、相対的に長い距離が、より信頼性の高い結果につながる。
【0222】
正しくマッチングされたペアは、好ましくは、他のチャネルへの長い距離を有する。よって、チャネル・ペア分割段階140の結果が、他のチャネルへの比較的長い距離をもつペアを有する場合には、それは比較的信頼性が高い。
【0223】
チャネル・ペア分割段階の少なくとも一部は、この段階についての信頼スコアが信頼閾値を下回る場合1030、チャネル間スペクトル距離を計算する際に、異なるサブバンド分割でやり直されてもよい1040。
【0224】
サブバンド分割を変更することにより、より信頼性の高い結果が達成されうる。いくつかの実施形態では、たとえば信頼閾値またはペア・スコア閾値を通じてチャネル・ペア分割段階140の満足いく信頼性が達成されるまで1030、サブバンド分割が変更される。
【0225】
ペア・スコアは、ペアのメンバーが他のペアにグループ化されうる可能性を比較するための指標である。ペア・スコア閾値は、ペア・スコアについてのあらかじめ決定された閾値である。ペア・スコアがペア・スコア閾値よりも高い場合、チャネル・ペア分割段階140の結果は十分に信頼できる。
【0226】
このことのあるバージョンが、
図10のフローチャートに示されている。まず、すべての可能なペアについて平均チャネル間スペクトル距離が計算される。次いで、最低のチャネル間スペクトル距離をもつペアについて、ペア・スコアが計算される1020。ペア・スコアが判断を下すのに十分に高くない場合、異なる時間‐周波数セグメンテーションを使用して、新しい平均チャネル間スペクトル距離および対応するペア・スコアが得られる。試行は、すべてのチャネルがペアになるか、または何らかの終了条件が満たされるまで実施されうる。2つより多いチャネルがまだ未検出である場合、それらの信頼スコアはすべて0に設定される。
【0227】
信頼スコアは、さらに、データの全長を考慮するために、グローバルな重み因子によって重み付けされうる。チャネル・ペア検出は、残ったチャネルが1つだけになるまで、未知のすべてのチャネルで実行される。
【0228】
ペア・スコアは、信頼スコアとして、または信頼スコアの一部として使用されうる。
【0229】
ある実施形態では、チャネルiとjのペアについてのペア・スコアが、次のように計算される:
【数7】
ここで、M
q,i(l)は、D
q,i(l)<D
i,j(l)となるフレームの数であり、qはチャネル・インデックスであり、q≠i、q≠jである。M
q,i(l)の範囲は[0,L]である。
【0230】
ペア・スコアは、任意の可能なペアについて、または最も低い平均チャネル間スペクトル距離をもつ2つのチャネル、すなわち、上記の式におけるチャネルi,jについてのみ、計算されうる。ペア・スコアは、それらをチャネル・ペアとして分割する信頼度の指標である。
【0231】
ペア・スコアは、候補チャネル・ペアi,j間のチャネル間スペクトル・チャネル距離を他のチャネルのそれぞれと比較し、それら2つのチャネルが互いに類似しており、一方、他のチャネルのいずれとも異なることを確認する。チャネルiまたはjに類似する他のチャネルも存在する場合、Pi,jは、1よりもはるかに低く、したがって、信頼性が低いことを意味する。
【0232】
図11は、チャネル・ペア位置区別段階150のフローチャートを示す。チャネル・ペア区別段階150は、対に分割されたチャネルを、前方ペア、側方ペア、後方ペア、および/または任意の他の位置的ペアの間で区別することを含む。
【0233】
チャネル・ペア区別段階150は、好ましくは対分割段階130の後に実施される、チャネル識別のための方法の一部である。
【0234】
多くのマルチチャネル・オーディオ信号は、前方ペアと後方ペアを含む5.1のように、複数のチャネル・ペアを含む。よって、チャネル識別のための方法は、位置ペアの間を区別し、位置ペアをそのようなものとして正しく識別できることが有益である。
【0235】
前方音像の方向安定性は、通例、継続時間のほとんどの部分で維持され、後方チャネルは、通例、音像全体を向上させることができる情報を運ぶ。
【0236】
チャネル・ペア区別段階150は、各ペアのペア間レベル差を計算1120する段階を含んでいてもよく、ペア間レベル差は、各ペアのサブバンド音エネルギーの和のデシベル差に比例し、相対的に最も高いレベルをもつペアが、前方ペアとして区別される。
【0237】
代替的または追加的に、振幅パンが、ペア間のレベル差の計算と併せて行われてもよい。振幅パンは、仮想音源を生成することを含む。
【0238】
ほとんどの仮想音源は、前面から現れるように生成されうる。これは、前方ペアが、他の位置的ペアよりも相対的に高い振幅を有する結果になり、よって、最も高い振幅をもつペアが、前方ペアとして区別されうる。
【0239】
パン方法は、さらに、後方ペアを位相外れにすることを含んでいてもよい。よって、比較的位相が外れている対は、後方ペタとして区別されてもよい。
【0240】
前方ペアは中央チャネルに最も近いはずなので、前方ペアは、伝統的に、相対的に最も高いレベルをもつペアである1140。
【0241】
ある実施形態では、いずれも帯域bの、チャネルi,jのペアと、チャネルm,nの別のペアとの間のペア間レベル差は、各時間‐周波数タイルについて次式に従って計算される:
【数8】
ここで、E
b,i(l)+E
b,j(l)およびE
b,m(l)+E
b,n(l)は、それぞれフレームl内の帯域bでのペア(i,j)およびペア(m,n)のサブバンドエネルギーであり、E
b,i(l)、E
b,j(l)、E
b,m(l)、E
b,n(l)はそれぞれフレームl内のチャネルi,j,m,nの帯域bのサブバンドエネルギーである。ここで、i,j,m,nは[1,C]の範囲内の等しくない整数であり、Cはチャネルの数であり、b=1…Bであり、Bは周波数帯域の数であり、l=1…Lであり、Lはフレームの数である。
【0242】
ペアの間のペア間レベル差は常に十分高くはない。2dBに満たない差は有益な情報をもたないことがあるからである。よって、ペアの間により大きなペア間レベル差を生じうる内容をもつ当該信号のセグメントが選択されてもよい。
【0243】
よって、チャネル・ペア区別段階150は、各ペア内の各チャネルについての、当該信号のサブバンド音エネルギーがエネルギー閾値を上回るような当該信号の一つまたは複数のセグメントを選択する段階と;これらのセグメントのみを用いてチャネルのペア間レベル差を計算する段階とをさらに含んでいてもよい。
【0244】
エネルギー閾値を上回るサブバンド音エネルギーの形で大量の情報をもつセグメントを選択することによって、ペア間のレベル差が増加しうる。
【0245】
チャネル・ペア区別段階150は、絶対ペア間レベル差が絶対閾値を超える各ペアについての当該信号の一つまたは複数のセグメントを選択する段階1150と;これらのセグメントのみを使用してチャネルのペア間レベル差を計算する段階とをさらに含んでいてもよい。
【0246】
高い閾値を用いてセグメントを選択することによって、平均ペア間レベル差が増加しうる。多くのマルチチャネル・オーディオ信号は、信号の一部の間、複数のチャネルにおいて同様の出力を有する。これらの部分はペア間のレベル差には寄与しないので、安全に無視できる。
【0247】
絶対ペア間レベル差を測定することへの補足として、信号の全長と比較して比較的小さなセグメントにおける平均ペア間レベル差も使用してもよいし、これが代わりに使用されてもよい。セグメントの選択が十分に高い平均ペア間レベル差を与えない場合、より高い絶対閾値を用いた選択がそれを達成してもよい。
【0248】
よって、相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合(段階1130で判定される)、チャネルのペア間レベル差を計算する段階は、平均ペア間レベル差が十分に高くなるまで、より高い絶対閾値1150を用いて繰り返されてもよい。
【0249】
代替的または追加的に、相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、識別された中央チャネルとの相対的に最も高い組み合わされた方向一貫性をもつペアが、前方ペアとして区別されうる。
【0250】
ある実施形態では、セグメントの選択は放棄され、識別された中央チャネルとの方向的一貫性が、代わりに、ペアを区別するために使用される。中央チャネルに最も近い方向をもつペアは、中央チャネルに最も近くもある。
【0251】
方向一貫性は、時間領域における2つのチャネルの類似性の指標であり、これは音像方向に関係し、音像方向は、チャネル間の位相差を含意する。
【0252】
方向差は、2つのチャネル間の主音源の方向の一貫性を測るために使用されうる。ある実施形態による方向一貫性の簡略化された尺度は次の通りである:
【数9】
ここで、S
i(n)は、時間領域でのチャネルiのn番目のサンプル値であり、S
i(n)の各値が波形上の1点に対応するように、総サンプル値がTである。これは、2つのチャネル間の位相差を含意する。
【0253】
前方ペアは、伝統的に、他の位置ペアよりも相対的に高い互いとの方向一貫性を有するべきであり、後方ペアは、伝統的に、他の位置ペアよりも相対的に低い互いとの方向一貫性を有するべきである。
【0254】
前方ペアの信号は、通例、方向性の音源を表すように時間整列されているため、相関が高く、遅延が小さい。これは、前方ペアには、後方ペアと比較して、より多くの同一成分が存在することを意味する。式7に示されているように、方向差はこれを測るものである。チャネルiおよびjにおける信号が同一である場合、これは、両者が同位相であり、X=1であることを意味し、そうでない場合、X<1である。2つのチャネルの位相がずれていれば(out of phase)、X=0である。
【0255】
別の実施形態では、相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、絶対閾値が最大閾値1160を上回る場合、識別された中央チャネル1170との相対的に最も高い組み合わされた方向一貫性を有するペアが前方ペア1180として区別される。
【0256】
この実施形態は
図11に示されている。この実施形態では、信号の全部が最初に選択される1110が、平均ペア間レベル差はレベル閾値を超えるのに十分高いレベルに達しておらず、セグメントの選択は、十分高い平均ペア間レベル差を生じなかった。よって、代わりに、識別された中央チャネルとの方向一貫性が、ペアを区別するために使用される。
【0257】
セグメントの選択が失敗した理由は、平均ペア間レベル差がレベル閾値を超えるのに十分高いレベルに達していないこと、および絶対閾値が非常に高いため、それより上のセグメントがペア間レベル差を計算できるために十分長くないためである。
【0258】
レベル閾値は、2~3dBの間の定数であってもよい。絶対閾値の最大閾値は、2dB、および/または選択されたセグメントの全長が、たとえば非無音信号長の20%より短い、または、たとえば1分より短い任意の閾値でありうる。
【0259】
絶対閾値の最大閾値は、各ペア内の各チャネルに対する信号の、平均チャネル間スペクトル距離が距離閾値を上回っている選択された一つまたは複数のセグメントが、チャネル間レベル差を計算するのに十分な長さでなくなるときに関係する。選択されたセグメントの全長が非無音信号長の20%より短いか、または1分より短い場合、有用な信号は短すぎる。
【0260】
位置ペアの間の区別は、それらのペアの、識別された中央チャネルとの類似性に基づいていてもよい。その場合、識別された中央チャネルに最も類似するペアは前方ペアとして区別されてもよく、識別された中央チャネルに最も類似しないペアは後方ペアとして区別されてもよい。
【0261】
中央チャネルは音像の正面であることが慣例であり、よって、前方ペアは、たとえば、後方ペアよりも、それに似ているべきである。
【0262】
識別された中央チャネルとの類似性は、時間‐周波数特徴、空間的特徴、音像方向、チャネル間の位相差、および/またはチャネル間ペア・レベル差に基づくことができる。
【0263】
追加的または代替的に、識別された中央チャネルに対する類似性は、遅延パンを使用して計算されてもよく、中央チャネルとの最も高い方向一貫性を有するペアが、前方ペアとして区別される。
【0264】
時間‐周波数特徴が最初に調べられ、次いで空間的特徴となる。これは、振幅パンが最も頻繁に使用され、時間‐周波数特徴の計算がそれほど時間を必要としないからである。
【0265】
チャネルの方向パターンは、チャネル・ペアの、中央からペアの距離を比較するために生成されてもよい。次いで、中央チャネルにより近いチャネル・ペアが前方ペアとして検出される。
【0266】
異なるペアが、区別を行うために使用される特徴に依存して、同じ位置ペアとして区別される場合、それらの特徴は、階層に従って優先順位付けされうる。
【0267】
階層は、たとえば、信頼スコア、使用される指標、または使用される閾値に依存してもよい。
【0268】
チャネルのペアの区別は、メタデータを使用して格納されてもよい。
【0269】
信頼スコアは、チャネル・ペア区別段階150の結果について計算されてもよい。
【0270】
チャネル・ペア区別段階150の信頼スコアは、識別された中央チャネルと、Y個のチャネルのうちのLFEチャネルとして識別されていないペアリングされたチャネルとの間の計算されたチャネル間スペクトル距離に比例してもよく、その結果、前方ペアと中央チャネルとの間の比較的小さなチャネル間スペクトル距離は、より信頼性の高い結果をもたらす。
【0271】
識別された中央チャネルに最も近いペアは前方ペアとして区別され、識別された中央チャネルに最も類似していないペアは後方ペアとして区別される。この指標はこれを反映する。
【0272】
チャネル・ペア区別段階150についての信頼スコアは、分割されたペアのチャネルの方向性(directionality)に比例してもよく、その結果、方向性の間の比較的大きな差は、より信頼性の高い結果をもたらす。
【0273】
中央チャネルにより近い方向を有するペアも中央チャネルにより近く、したがって前方ペアである。よって、大きな差は、より信頼性の高い区別につながる。絶対的な差および/または異なるペアの比が使用されうる。
【0274】
同様の理由により、チャネル・ペア区別段階150についての信頼スコアは、識別された中央チャネルおよび分割されたペアのチャネルの方向性に比例してもよく、その結果、中央チャネルとペアのうちの1つの方向性の間の比較的小さな差が、より信頼性の高い結果につながる。
【0275】
チャネル・ペア区別段階150についての信頼スコアは、ペアリングされたチャネルの計算されたペア間レベル差に比例してもよく、その結果、比較的高い平均レベル差が、より信頼性の高い結果につながる。
【0276】
2dBを超える平均ペア間レベル差は、有益な情報を与え、それが高いほど、該有益な情報が多い。より多くの情報は、より信頼性の高い結果につながる。
【0277】
チャネル・ペア区別段階150についての信頼スコアは、チャネル・ペア分割段階130および/または中央チャネル識別段階140が存在する場合、それらの信頼スコアに直接比例してもよい。
【0278】
チャネル・ペア区別段階150は、チャネル・ペア分割段階130が信頼できない場合、信頼できない。さらに、チャネル・ペア区別段階150のための多くの可能な信頼スコア計算は、中央チャネル識別段階140に依存する。よって、計算を節約するために、チャネル・ペア分割段階130および/または中央チャネル識別段階140について事前に計算された信頼スコアが再使用されてもよい。
【0279】
チャネル・ペア区別段階150についての信頼スコアは、信号の選択された一つまたは複数のセグメントの長さに比例してもよく、その結果、相対的に長い一つまたは複数のセグメントが、より信頼性の高い結果につながる。
【0280】
選択されたセグメントの短い長さは、ペア間レベル差の計算を信頼できないものにするだろう。選択されたセグメントの絶対的な長および/または選択されたセグメントの長さの、データの全長に対する比が使用されうる。
【0281】
チャネル・ペア区別段階150の少なくとも一部は、該段階についての信頼スコアが信頼閾値を下回る場合には、異なるデータ・セグメントで再実行されてもよい。
【0282】
これは、チャネル・ペア区別段階150の結果が信頼できることを保証する。
【0283】
本開示のさらなる実施形態は、上記の説明を検討した後、当業者に明らかになるであろう。本明細書および図面は、実施形態および例を開示しているが、本開示は、これらの特定の例に限定されない。添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、多数の修正および変形を行うことができる。請求項に現れる参照符号があったとしても、その範囲を限定するものとして理解されない。
【0284】
さらに、開示された実施形態に対する変形が、図面、本開示、および添付の特許請求の範囲の吟味から、本開示を実施する際に当業者によって理解され、実施されうる。請求項において、語「有する/含む」は、他の要素または段階を除外せず、不定冠詞「a」または「an」は、複数を除外しない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実は、これらの施策の組み合わせが有利に使用できないことを示すものではない。
【0285】
上述のシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせとして実装されうる。たとえば、本願の諸側面は、少なくとも部分的に、装置、複数の装置を含むシステム、方法、コンピュータ・プログラム・プロダクトなどにおいて具現されうる。ハードウェア実装では、上述の機能ユニット間のタスクの分割は、必ずしも物理ユニットへの分割に対応しない。逆に、1つの物理コンポーネントが複数の機能を有していてもよく、1つのタスクが、協働する複数の物理コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、またはハードウェアとして、または特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含みうるコンピュータ読み取り可能な媒体上で頒布されうる。当業者には周知のように、用語「コンピュータ記憶媒体」は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータのような情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、取り外し可能および非取り外し可能な媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスクまたは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶装置、または所望の情報を記憶するために使用でき、コンピュータによってアクセスできる他の任意の媒体を含むが、これらに限定されない。さらに、通信媒体は、典型的には、搬送波または他のトランスポート機構のような変調されたデータ信号の形のコンピュータ読み取り可能な命令、データ構造、プログラムモジュールまたは他のデータを具現し、任意の情報送達媒体を含むことが当業者には周知である。
【0286】
本発明のさまざまな側面は、以下に列挙される箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる:
〔EEE1〕
X>1個のチャネルを含むマルチチャネル・オーディオ信号のチャネル識別のための方法であって、当該方法は:
X個のチャネルのうちで、空のチャネルがあればそれを識別し(110)、結果としてY≦X個の空でないチャネルのサブセットを与える段階と;
前記Y個のチャネルのうちに低域効果(LFE)チャネルが存在するかどうかを判定し(120)、LFEチャネルが存在すると判定したら、前記Y個のチャネルのうちの判別されたチャネルをLFEチャネルとして識別する段階と;
対称的なチャネルをマッチングさせることによって、前記Y個のチャネルのうちの、LFEチャネルとして識別されていない残りのチャネルを任意の数のチャネル・ペアに分割する段階と;
前記Y個のチャネルのうちの、LFEチャネルとして識別されたり、またはペアに分割されたりしていない残りの不対チャネルがあればそれを中央チャネルとして識別する(140)段階とを含む、
方法。
〔EEE2〕
前方ペア、側方ペア、後方ペア、および/または他の任意の位置ペアの間で、諸ペアに分割されたチャネルを区別する(150)段階をさらに含む、EEE1に記載の方法。
〔EEE3〕
チャネル・ペア区別段階は、ペアどうしの間のペア間レベル差(inter-pair level difference)を計算することを含み;ペア間レベル差は、各ペアのサブバンド音エネルギー(subband sound energy)の和のデシベル差に比例し、相対的に高いほうのレベルをもつペアが、前方ペアとして区別される、EEE2に記載の方法。
〔EEE4〕
チャネル・ペア区別段階は、ペア間レベル差の計算との関連で振幅パンをさらに含み、振幅パンは仮想音源を生成することを含む、EEE3に記載の方法。
〔EEE5〕
チャネル・ペア区別段階は、前記信号のサブバンド音エネルギーがエネルギー閾値を上回る、各ペアについての前記信号の一つまたは複数のセグメントを選択し;これらのセグメントのみを用いて前記ペアのペア間レベル差を計算することをさらに含む、EEE3または4に記載の方法。
〔EEE6〕
チャネル・ペア区別段階は、絶対的なペア間レベル差が絶対閾値を上回る、各ペアにおける前記信号の一つまたは複数のセグメントを選択し;これらのセグメントのみを用いて前記ペア間レベル差を計算することをさらに含む、EEE3ないし5のうちいずれか一項に記載の方法。
〔EEE7〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、チャネルのペア間レベル差を計算する段階は、より高い絶対閾値を用いて繰り返される、EEE6に記載の方法。
〔EEE8〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回る場合、識別された中央チャネルとの相対的に最も高い組み合わされた方向一貫性を有するペアが、前記前方ペアとして区別される、EEE3ないし7のうちいずれか一項に記載の方法。
〔EEE9〕
相対的に最も高い平均ペア間レベル差がレベル閾値を下回り、絶対閾値が最大閾値を上回る場合、識別された中央チャネルとの相対的に最も高い組み合わされた方向一貫性をもつペアが、前方ペアとして区別される、EEE7に記載の方法。
〔EEE10〕
前記絶対閾値の最大閾値は2dBである、EEE9に記載の方法。
〔EEE11〕
前記方向一貫性は、時間領域での2つのチャネルの類似性の指標であり、音像方向に関連し、音像方向は、前記チャネル間の位相差を含意する、EEE8~10のいずれか一項に記載の方法。
〔EEE12〕
前記レベル閾値は、2~3dBの間の定数である、EEE7~11のいずれか一項に記載の方法。
〔EEE13〕
位置ペア間の前記区別は、位置ペアの、前記識別された中央チャネルとの類似性に基づく、EEE2~12のうちいずれか一項に記載の方法。
〔EEE14〕
前記識別された中央チャネルに最も類似するペアが前記前方ペアとして区別され、前記識別された中央チャネルに最も類似しないペアが前記後方ペアとして区別される、EEE13に記載の方法。
〔EEE15〕
前記識別された中央チャネルとの類似性は、時間‐周波数特徴、空間的特徴、音像方向、前記チャネル間の位相差、および/またはペア間のレベル差に基づいている、EEE13または14に記載の方法。
〔EEE16〕
前記識別された中央チャネルとの類似性は、遅延パンを用いて計算され、前記中央チャネルとの最も高い方向一貫性を有するペアが、前記前方ペアとして区別される、EEE13~15のうちいずれか一項に記載の方法。
〔EEE17〕
前記識別された中央チャネルとの類似性が、前記チャネルの方向パターンを生成して、前記チャネル・ペアの、中央からペアへの距離を比較することによって計算され、中央チャネルにより近いペアが前記前方ペアとして区別される、EEE13~16のうちいずれか一項に記載の方法。
〔EEE18〕
前記区別をするために使用される特徴に依存して、異なる対が同一の位置ペアとして区別される場合、前記特徴は、階層に従って優先順位を付けられる、EEE2~17のうちいずれか一項に記載の方法。
〔EEE19〕
チャネルのペアの前記区別は、メタデータを用いて格納される、EEE2~18のうちいずれか一項に記載の方法。
〔EEE20〕
空チャネル識別段階は、前記X個のチャネルのうちの各チャネルにおける音エネルギーを測定する段階をさらに含む、EEE1ないし19のうちいずれか一項に記載の方法。
〔EEE21〕
前記X個のチャネルのうちの各チャネルにおける音エネルギーは、短期、中期および/または長期の持続時間において測定される、EEE20に記載の方法。
〔EEE22〕
チャネルは、その総音エネルギーがエネルギー閾値を下回る場合に、空として識別される、EEE20または21に記載の方法。
〔EEE23〕
チャネルは、そのサブバンド音エネルギーのそれぞれがエネルギー閾値を下回る場合に、空として識別される、EEE20~22のいずれか一項に記載の方法。
〔EEE24〕
前記音エネルギーは、時間的、スペクトル的、ウェーブレットおよび/または聴覚領域で測られる、EEE20~20のうちいずれか一項に記載の方法。
〔EEE25〕
空のチャネルの前記識別は、メタデータを用いて格納される、EEE1ないし25のうちいずれか一項に記載の方法。
〔EEE26〕
LFEチャネル決定段階は、前記Y個のチャネルのうちの各チャネルにおける測定された音エネルギーを使用して、LFEチャネルが存在するかどうかを決定する段階をさらに含む、EEE20~25のうちいずれか一項に記載の方法。
〔EEE27〕
LFEチャネル決定段階は、前記Y個のチャネルのうちの各チャネルにエネルギー閾値を上回る音エネルギーが存在する周波数帯域を測定する段階をさらに含む、EEE1~26のうちいずれか一項に記載の方法。
〔EEE28〕
前記Y個のチャネルのうちの各チャネルにエネルギー閾値を上回る音エネルギーが存在する前記周波数帯域が、短期、中期、および/または長期の持続時間において測定される、EEE27に記載の方法。
〔EEE29〕
あるチャネルの低周波数領域におけるサブバンド音エネルギーの和が、そのチャネルにおける他のすべての周波数領域におけるサブバンド音エネルギーの和よりも有意に大きい場合に、前記Y個のチャネルのうちにLFEチャネルが存在すると判定される、EEE26~28のうちいずれか一項に記載の方法。
〔EEE30〕
各周波数領域におけるサブバンド音エネルギーの和が、各周波数領域のサイズによってさらに正規化される、EEE29に記載の方法。
〔EEE31〕
そのような任意のチャネルが前記LFEチャネルとして識別される、EEE29または30に記載の方法。
〔EEE32〕
前記低周波数領域が、200Hz未満のサブバンドを含む、EEE29~31のうちいずれか一項に記載の方法。
〔EEE33〕
前記EEE26~32のうちいずれか一項に記載の方法であって、あるチャネルが周波数閾値未満の周波数領域においてのみ、エネルギー閾値を上回るサブバンド音エネルギーを含む場合に、前記Y個のチャネルのうちにLFEチャネルが存在すると判定される、方法。
〔EEE34〕
そのような任意のチャネルのみが前記LFEチャネルとして識別される、EEE33に記載の方法。
〔EEE35〕
周波数閾値が200Hz以上である、EEE33または34に記載の方法。
〔EEE36〕
前記Y個のチャネルのうちに複数のLFEチャネルが存在すると判定された場合、LFEチャネルが存在するかどうかを判定するために使用される前記特徴(単数または複数)の階層に従って、1つのみが前記LFEチャネルとして識別される、EEE26~35のうちいずれか一項に記載の方法。
〔EEE37〕
前記LFEチャネルの識別がメタデータを用いて格納される、EEE1~37のいずれか一項に記載の方法。
〔EEE38〕
前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、各チャネルのオーディオ信号の間の音エネルギー分布および分散を計算するために、時間的特徴、スペクトル特徴、聴覚特徴および/または他のドメイン〔領域〕における特徴を比較して、最も対称的なチャネルどうしをペアとしてマッチングすることをさらに含む、EEE1~38のうちいずれか一項に記載の方法。
〔EEE39〕
EEE38に記載の方法であって、前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、さらに、各チャネルの短期、中期および/または長期の持続時間における音エネルギー分布および分散を用いて、前記チャネル間のチャネル間スペクトル距離を計算する段階であって、前記チャネル間スペクトル距離は、複数のサブバンドについて合計された、各チャネルにおける2つのマッチングする音エネルギー・サブバンド間の距離の正規化されたペア毎の指標である、段階と;最も短い距離を有する前記チャネルどうしをペアとしてマッチングする段階とを含む、方法。
〔EEE40〕
使用される距離測度は、ユークリッド距離、マンハッタン距離および/またはミンコフスキー距離である、EEE39に記載の方法。
〔EEE41〕
計算されたチャネル間スペクトル距離の時間にわたる平均が計算され、互いまでの最短の平均距離を有するチャネルどうしをペアとしてマッチングさせるために使用される、EEE38または40に記載の方法。
〔EEE42〕
EEE39~41のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階は、前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない残りの任意の不対チャネルの計算されたチャネル間スペクトル距離を解析して、前記中央チャネルを識別する段階をさらに含む、方法。
〔EEE43〕
前記チャネル・ペア分割段階における対称的なチャネルの前記マッチングは、各チャネルの音エネルギー分布の相関を比較して、最も相関しているチャネルどうしをペアとしてマッチングすることをさらに含む、EEE1ないし42のうちいずれか一項に記載の方法。
〔EEE44〕
使用される相関指標は、余弦類似性、ピアソン相関係数、および/または相関行列である、EEE43に記載の方法。
〔EEE45〕
前記チャネル・ペア分割段階は、前記Y個のチャネルのうちLFEチャネルとして識別されていない各チャネルについて、前記チャネルをペアとしてマッチングする前記の諸計算のために使用される少なくとも1つのパラメータを、測定する、またはもしあれば前の測定からインポートすることをさらに含む、EEE38~44のうちいずれか一項に記載の方法。
〔EEE46〕
EEE38~45のうちいずれか一項に記載の方法であって、前記チャネル・ペアが、ペアをマッチングするために使用される特徴(単数または複数)に応じて異なる仕方でマッチングされる場合、使用される特徴の階層が、どのペアリングを適用するかを決定する、方法。
〔EEE47〕
前記チャネル・ペア分割段階は、2つより少ないチャネルが残るまで、前記Y個のチャネルのうちLFEチャネルとして識別されていない対になっていない任意のチャネルをペアリングし続ける、先のEEE1~46のうちいずれか一項に記載の方法。
〔EEE48〕
前記チャネル・ペア分割段階は、各ペア内の前記マルチチャネル・オーディオ信号の最初の受領されたチャネルを前記左チャネルとして割り当て、各ペア内の最後にリストされるチャネルを前記右チャネルとして割り当てることをさらに含む、EEE1ないし47のうちいずれか一項に記載の方法。
〔EEE49〕
チャネルのペアへの前記分割および/またはもしあれば左右のチャネルの前記割り当てがメタデータを用いて格納される、EEE1ないし48のうちいずれか一項に記載の方法。
〔EEE50〕
前記中央チャネル識別段階は、前記YチャネルのうちのLFEチャネルとして識別されていない、またはペアに分割されていない残りの不対チャネルの独立性および/または非相関性を、前記Y個のチャネルのうちの他のチャネルと比較して計算する段階と、前記中央チャネルを、最も独立なおよび/または非相関なチャネルとして識別する段階とをさらに含む、EEE1ないし49のうちいずれか一項に記載の方法。
〔EEE51〕
前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない任意の残りの不対チャネルの前記独立性および/または非相関性の前記計算は、ペアに分割されたチャネルと比較してのみ計算される、EEE50に記載の方法。
〔EEE52〕
前記中央チャネル識別段階は、前記チャネル・ペア区別段階の後に行われ、前記Y個のチャネルのうちLFEチャネルとして識別されていない、またはペアに分割されていない任意の残りの不対チャネルの独立性および/または非相関性の前記計算は、前記前方ペアとして区別されたチャネルと比較してのみ計算される、EEE2~19のうちの少なくとも1つに従属するEEE50または51に記載の方法。
〔EEE53〕
前記中央チャネルの前記識別はメタデータを用いて格納される、EEE1ないし52のうちいずれか一項に記載の方法。
〔EEE54〕
当該方法の段階のいずれかの結果についての信頼スコアを計算する段階をさらに含み、前記信頼スコアは、その結果がどのくらい信頼できるかの指標である、EEE1ないし53のうちいずれか一項に記載の方法。
〔EEE55〕
前記マルチチャネル・オーディオ信号の前記持続時間がある持続時間閾値を下回る場合、前記信頼スコアは1未満の重み因子を乗算され、それにより、前記持続時間閾値を下回る持続時間は、より信頼性の低い結果につながる、EEE54に記載の方法。
〔EEE56〕
前記重み因子は、前記持続時間を前記持続時間閾値で割ったものに比例し、その結果、相対的に長い持続時間が、より信頼性の高い結果につながる、EEE55に記載の方法。
〔EEE57〕
EEE55または56に記載の方法であって、前記持続時間が前記持続時間閾値よりも長い場合、前記重み因子は、適用されないか、または1に等しい、方法。
〔EEE58〕
前記持続時間の閾値は、5~30分の間の定数である、EEE55~57のいずれか一項に記載の方法。
〔EEE59〕
EEE54~58のうちいずれか一項に記載の方法であって、前記空チャネル識別段階についての前記信頼スコアは、識別された空のチャネルの音エネルギーに比例し、相対的により低い音エネルギーは、より信頼性の高い結果につながる、方法。
〔EEE60〕
EEE54~59のうちいずれか一項に記載の方法であって、前記LFEチャネル決定段階についての信頼スコアは、前記決定されたLFEチャネルの、前記低周波数領域における前記サブバンド音エネルギーと、他のすべての周波数領域における前記サブバンド音エネルギーとの差に比例し、相対的により大きな差が、より信頼性の高い結果につながる、方法。
〔EEE61〕
前記サブバンド音エネルギーの差は、前記異なる周波数領域における前記サブバンド音エネルギーの和を比較することによって計算される、EEE60に記載の方法。
〔EEE62〕
前記低周波数領域は、200Hz未満の任意のサブバンドを含む、EEE60または61に記載の方法。
〔EEE63〕
前記LFEチャネル決定段階についての前記信頼スコアは、周波数閾値よりも高い周波数領域における前記決定されたLFEチャネルのサブバンド音エネルギーの和に比例し、その結果、相対的に低い和が、より信頼性の高い結果につながる、EEE54~62のうちいずれか一項に記載の方法。
〔EEE64〕
前記周波数閾値が200Hz以上である、EEE63に記載の方法。
〔EEE65〕
EEE54~64のうちいずれか一項に記載の方法であって、前記LFEチャネル決定段階についての前記信頼スコアは、前記決定されたLFEチャネルに存在する最も高い周波数信号に比例し、その結果、相対的により低い最も高い周波数信号が、より信頼性の高い結果につながる、方法。
〔EEE66〕
EEE54~65のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされたペア(単数または複数)の対称性指標に比例し、その結果、相対的に高い対称性指標が、より信頼性の高い結果につながる、方法。
〔EEE67〕
EEE54~66のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされたペア(単数または複数)の間の計算されたチャネル間スペクトル距離に比例し、その結果、相対的により短い距離が、より信頼性の高い結果につながる、方法。
〔EEE68〕
EEE54~67のうちいずれか一項に記載の方法であって、前記チャネル・ペア分割段階についての前記信頼スコアは、前記マッチングされるペア(単数または複数)内の各チャネルと、前記Y個のチャネルのうち前記LFEチャネルとして識別されていない、または前記マッチングされたチャネルでない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例し、相対的に長い距離が、より信頼性の高い結果につながる、方法。
〔EEE69〕
EEE66~68のいずれか一項に記載の方法であって、前記チャネル・ペア分割段階の少なくとも一部は、該段階についての前記信頼スコアが信頼閾値を下回る場合、チャネル間スペクトル距離を計算する際に、異なるサブバンド分割を用いて再実行される、方法。
〔EEE70〕
EEE54~69のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階についての前記信頼スコアは、前記Y個のチャネルのうちLFEチャネルとして識別されていないチャネルと比較した、識別された前記中央チャネルの独立性および/または非相関性に比例し、その結果、相対的に高い独立性および/または非相関性が、より信頼性の高い結果につながる、方法。
〔EEE71〕
EEE54~70のうちいずれか一項に記載の方法であって、前記中央チャネル識別段階についての前記信頼スコアは、前記識別された中央チャネルと、前記Y個のチャネルのうちLFEチャネルとして識別されない他のチャネルとの間の計算されたチャネル間スペクトル距離に比例し、相対的に対称的な距離が、より信頼性の高い結果につながる、方法。
〔EEE72〕
前記中央チャネル識別段階についての前記信頼スコアは、前記チャネル・ペア分割段階が存在する場合、前記チャネル・ペア分割段階の前記信頼スコアに直接比例する、EEE54~71のうちいずれか一項に記載の方法。
〔EEE73〕
EEE2~19のうちの少なくとも1つに従属するEEE54~72のうちのいずれか一項に記載の方法であって、前記チャネル・ペア区別段階の結果について信頼スコアが計算される、方法。
〔EEE74〕
EEE73に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、前記識別された中央チャネルと、前記Y個のチャネルのうちLFEチャネルとして識別されていないペアリングされたチャネルとの間の計算されたチャネル間スペクトル距離に比例し、前記前方ペアと前記中央チャネルとの間の相対的に小さなチャネル間スペクトル距離が、より信頼性の高い結果につながる、方法。
〔EEE75〕
EEE73または74に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、分割されたペアの前記チャネルの前記方向性に比例し、前記方向性の間の相対的に大きな差が、より信頼性の高い結果につながる、方法。
〔EEE76〕
EEE73~75のうちいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、識別された前記中央チャネルおよび分割されたペアのチャネルの方向性に比例し、前記中央チャネルと前記ペアのうちの1つとの方向性の相対的に小さな差が、より信頼性の高い結果につながる、方法。
〔EEE77〕
EEE73~76のうちいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての前記信頼スコアは、前記チャネル・ペアの前記計算されたペア間レベル差に比例し、相対的に高い平均レベル差が、より信頼性の高い結果につながる、方法。
〔EEE78〕
前記チャネル・ペア区別段階についての前記信頼スコアは、前記チャネル・ペア分割段階および/または前記中央チャネル識別段階の信頼スコアが存在する場合、それらの信頼スコアに直接比例する、EEE73~77のうちいずれか一項に記載の方法。
〔EEE79〕
少なくともEEE4または5に従属するEEE73~78のいずれか一項に記載の方法であって、前記チャネル・ペア区別段階についての信頼スコアは、前記信号の前記選択された一つまたは複数のセグメントの長さに比例し、相対的に長い一つまたは複数のセグメントが、より信頼性の高い結果につながる、方法。
〔EEE80〕
前記チャネル・ペア区別段階の少なくとも一部は、該段階についての信頼スコアが信頼閾値を下回る場合、異なるデータ・セグメントで再実行される、EEE73~70のいずれか一項に記載の方法。
〔EEE81〕
EEE54~80のいずれかに記載の方法であって、当該方法のある段階についての前記信頼スコアのための複数の計算オプションが利用可能である場合、それらは階層で適用される、方法。
〔EEE82〕
前記信頼スコアはメタデータを用いて格納される、EEE54~81のうちいずれか一項に記載の方法。
〔EEE83〕
前記計算された信頼スコアがディスプレイ(60)上に表示される表示段階(160)をさらに含む、EEE54~82のうちいずれか一項に記載の方法。
〔EEE84〕
前記表示段階は、計算された信頼スコアが信頼閾値を下回る場合に警告を表示する段階をさらに含む、EEE83に記載の方法。
〔EEE85〕
識別されたチャネル・レイアウトが表示される表示段階をさらに含む、EEE1ないし84のうちいずれか一項に記載の方法。
〔EEE86〕
前記表示段階は、ボタンまたはタッチスクリーンのようなユーザー・インターフェースを使用するユーザー入力を待つことをさらに含む、EEE83~85のいずれか一項に記載の方法。
〔EEE87〕
EEE85および86に記載の方法であって、前記識別されたチャネル・レイアウトは、前記マルチチャネル・オーディオ信号に適用される前に、ユーザーによって承認される、方法。
〔EEE88〕
ユーザーは、ユーザーの設定レイアウトと同一である識別されたチャネル・レイアウトを承認するよう促されない、EEE87に記載の方法。
〔EEE89〕
前記表示段階は、前記識別されたチャネル・レイアウトがユーザーの設定レイアウトと異なる場合、警告を表示する段階をさらに含む、EEE83~88のいずれか一項に記載の方法。
〔EEE90〕
EEE54~82のうちいずれか一項に従属するEEE89に記載の方法であって、前記警告レベルは、算出された信頼スコア(単数または複数)に比例する。
〔EEE91〕
EEE83~90のうちいずれか一項に記載の方法であって、前記表示段階は、ユーザーが前記表示されたデータを操作することを許容することをさらに含む、方法。
〔EEE92〕
前記操作されたデータが、当該方法の前記チャネル識別の諸段階において使用される、EEE91に記載の方法。
〔EEE93〕
前記表示段階は、ユーザーが前記信号の、無視すべき少なくとも1つのセグメントを選択することを許容することをさらに含む、EEE83~92のうちいずれか一項に記載の方法。
〔EEE94〕
前記識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用する段階(170)をさらに含む、EEE1ないし93のうちいずれか一項に記載の方法。
〔EEE95〕
EEE54~82のうちいずれか一項に従属するEEE94に記載の方法であって、前記識別されたチャネル・レイアウトは、計算された信頼スコア(単数または複数)が信頼閾値を超える場合にのみ適用される、方法。
〔EEE96〕
EEE94または95に記載の方法であって、前記適用する段階は、前記識別されたチャネル・レイアウトを前記マルチチャネル・オーディオ信号に適用するために、任意の存在するメタデータを使用することを含む、方法。
〔EEE97〕
当該方法によって識別される前記チャネル・レイアウトは、スピーカー・システムにストリーミングされる際に、前記マルチチャネル・オーディオ信号にリアルタイムで適用される、EEE1~96のうちいずれか一項に記載の方法。
〔EEE98〕
前記マルチチャネル・オーディオ信号は、コンテンツ作成、解析、変換および再生システムのためのマルチチャネル・サラウンドサウンド・ファイルまたはストリームである、EEE1~97のうちいずれか一項に記載の方法。
〔EEE99〕
前記方法の少なくとも1つの段階は、機械学習に基づく方法を使用する、EEE1~98のうちいずれか一項に記載の方法。
〔EEE100〕
前記機械学習に基づく方法が、ディシジョンツリー、アダブースト〔Adaboost〕、GMM、SVM、HMM、DNN、CNNおよび/またはRNNである、EEE99に記載の方法。
〔EEE101〕
マルチチャネル・オーディオ信号のチャネルを識別するように構成された装置であって、当該装置(1)は、請求項1ないし100のうちいずれか一項に記載の方法(100)を実行するように構成された回路を備える、装置。
〔EEE102〕
処理能力を有する装置(1)によって実行されたときに、EEE1ないし100のうちいずれか一項に記載の方法を実行するように適応された命令を有する、非一時的なコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。