(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-15
(45)【発行日】2024-05-23
(54)【発明の名称】オーディオシーンの関心空間を表現する方法および装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20240516BHJP
G06F 3/16 20060101ALI20240516BHJP
G10L 19/00 20130101ALI20240516BHJP
H04S 7/00 20060101ALI20240516BHJP
【FI】
G10L19/008 100
G06F3/16 540
G10L19/00 330B
G10L19/008 200
H04S7/00 300
(21)【出願番号】P 2022566119
(86)(22)【出願日】2021-09-30
(86)【国際出願番号】 US2021053000
(87)【国際公開番号】W WO2022235289
(87)【国際公開日】2022-11-10
【審査請求日】2022-10-28
(32)【優先日】2021-05-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-09-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ティエン,ジュン
(72)【発明者】
【氏名】リウ,シャン
(72)【発明者】
【氏名】シュー,シャオジョン
【審査官】大野 弘
(56)【参考文献】
【文献】特表2018-532146(JP,A)
【文献】国際公開第2021/074007(WO,A1)
【文献】米国特許出願公開第2016/0066116(US,A1)
【文献】国際公開第2020/187807(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
G06F 3/16
G10L 19/00
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオシーンの関心空間を表す方法であって、
少なくとも1つのプロセッサが、前記オーディオシーンについてのオーディオシーンデータを復号化することであって、前記オーディオシーンデータは、(i)前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)前記複数のアイテムのサブセットのタイプ
が視聴者空間と関連するタイプであることを示す第1の構文要素と
、(iii)前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第2の構文要素と、を含
む、復号化することと、
前記プロセッサが、前記第1の構文要素において示される
ような、前記視聴者空間と関連する前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定することと、
前記プロセッサが、前記オーディオコンテンツの前記決定される部分をレンダリングすることと、を含む、
方法。
【請求項2】
前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す
第3の構文要素を含む、請求項1に記載の方法。
【請求項3】
前記
第3の構文要素は、前記複数のアイテムの前記サブセットの前記数が、1よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す
第4の構文要素を含む、請求項
2に記載の方法。
【請求項4】
前記
第2の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第5の構文要素を含む、請求項
1に記載の方法。
【請求項5】
前記
第2の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項
1に記載の方法。
【請求項6】
前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである、請求項
1に記載の方法。
【請求項7】
オーディオシーンの関心空間を表す装置であって、
当該装置は、処理回路構成を含み、該処理回路構成は、
前記オーディオシーンについてのオーディオシーンデータを復号化するように構成され、前記オーディオシーンデータは、(i)前記オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)前記複数のアイテムのサブセットのタイプ
が視聴者空間と関連するタイプであることを示す第1の構文要素と
、(iii)前記視聴者空間のサブタイプが信号伝達されるかどうかを示す第2の構文要素と、を含み
、
前記第1の構文要素において示される
ような、前記視聴者空間と関連する前記複数のアイテムの前記サブセットの前記タイプに基づいて前記複数のアイテムの前記サブセットについての前記オーディオコンテンツの部分を決定するように構成され、
前記オーディオコンテンツの前記決定される部分をレンダリングするように構成される、
装置。
【請求項8】
前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの数を示す
第3の構文要素を含む、請求項
7に記載の装置。
【請求項9】
前記
第3の構文要素は、前記複数のアイテムの前記サブセットの前記数が、1よりも大きいことを示し、前記オーディオシーンデータは、前記複数のアイテムの前記サブセットの各々についての識別インデックスを示す
第4の構文要素を含む、請求項
8に記載の装置。
【請求項10】
前記
第2の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されることを示し、前記オーディオシーンデータは、前記視聴者空間の前記サブタイプを示す第5の構文要素を含む、請求項
7に記載の装置。
【請求項11】
前記
第2の構文要素は、前記視聴者空間の前記サブタイプが信号伝達されないことを示し、前記視聴者空間の前記サブタイプは、ビデオシーンに基づいて決定される、請求項
7に記載の装置。
【請求項12】
前記視聴者空間の前記サブタイプは、前記オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである、請求項
7に記載の装置。
【請求項13】
命令を含むコンピュータプログラムであって、前記命令は、少なくとも1つのプロセッサによって実行されるときに、請求項1~
6のうちのいずれか1項に記載の方法を実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
本願は、2021年5月5日に出願された米国仮出願第63/184,571号「REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する、2021年9月29日に出願された米国特許出願第17/489,212号「METHOD AND APPARATUS FOR REPRESENTING SPACE OF INTEREST OF AUDIO SCENE」に対する優先権の利益を主張する。この出願は、先の出願の開示は、その全体が参照により本明細書に援用される。
【0002】
(技術分野)
本開示は、オーディオシーン表現に概ね関する実施形態を記載する。
【背景技術】
【0003】
本明細書で提供される背景記述は、本開示の文脈を一般的に提示するためのものである。その業績がこの背景セクションに記載されている範囲における、現在指名されている発明者の業績、並びに出願時に他の点では先行技術として適格でないことがある記述の側面は、本開示に対する先行技術として明示的にも暗示的にも認められない。
【0004】
関心領域(ROI:region of interest)は、特定の目的のために識別されたデータセット内のサンプルの領域である。ROIの概念は、医療撮像、地理情報システム、コンピュータビジョン、光学文字認識等のような、多くの応用エリアで一般に使用されている。
【0005】
ROIは、一次元オーディオ信号に対して使用されることができるが、オーディオシーンにおいて、そのような概念は、直接的に適用されないことがある。この開示では、オーディオシーン(audio scene)の関心空間(space of interest)を表現する方法が提供される。
【発明の概要】
【0006】
本開示の態様は、オーディオシーンの関心空間を表す装置を提供する。1つの装置は、オーディオシーンについてのオーディオシーンデータを復号化する処理回路構成を含む。オーディオシーンデータは、(i)オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。処理回路構成は、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについてのオーディオコンテンツの部分を決定する。処理回路構成は、オーディオコンテンツの決定される部分をレンダリングする。
【0007】
1つの実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す。
【0008】
1つの実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第2の構文要素を含む。
【0009】
1つの実施形態において、第2の構文要素は、複数のアイテムのサブセットの数が、1よりも大きいことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第3の構文要素を含む。
【0010】
1つの実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む。
【0011】
1つの実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第5の構文要素を含む。
【0012】
1つの実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。
【0013】
1つの実施形態において、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである。
【0014】
本開示の態様は、オーディオシーンの関心空間を表す方法を提供する。1つの方法において、オーディオシーンについてのオーディオシーンデータが復号化される。オーディオシーンデータは、(i)オーディオシーンを表す複数のアイテムについてのオーディオコンテンツと、(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素とを含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。オーディオコンテンツの部分が、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて複数のアイテムのサブセットについて決定される。オーディオコンテンツの決定される部分は、レンダリングされる。
【0015】
本開示の態様は、少なくとも1つのプロセッサによって実行されるときに、少なくとも1つのプロセッサに、オーディオシーンの関心空間を表現する方法のいずれか1つまたは組み合わせを実行させる命令を格納する、非一時的なコンピュータ読取可能媒体も提供する。
【0016】
開示される主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0017】
【
図1】本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。
【0018】
【
図2】本開示の一実施形態による限定的な高さの範囲を有する聴覚空間の一例を示している。
【0019】
【
図3】本開示の一実施形態によるボール形状を有する聴覚空間の一例を示している。
【0020】
【
図4】本開示の一実施形態による転動ボール形状を有する聴覚空間の一例を示している。
【0021】
【
図5】本開示の一実施形態による例示的なフローチャートを示している。
【0022】
【
図6】本開示の一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0023】
I.オーディオシーンの関心空間の表現
【0024】
この開示に含まれる方法を別々にまたは組み合わせにおいて使用することができることに留意されたい。これらの方法を部分的に又は全体として使用することができる。
【0025】
本開示の態様によれば、関心空間(space of interest)が、オーディオシーン(audio scene)において考慮されている空間の境界として定義されることができる。関心空間は、オーディオコーディング、オーディオ処理、オーディオレンダリング等において利用されることができる。
【0026】
オーディオシーンは、1つ以上の支配的なサウンドソース(音源)によって特徴付けられる意味的に一貫性のあるサウンドセグメントである。オーディオシーンは、サウンドソースの集合としてモデル化されることができる。いくつかの実施形態において、オーディオシーンは、サウンドソースの集合のサブセットによって支配されることができる。
【0027】
いくつかの実施形態において、関心空間は、視聴者が移動できる空間によって表現されることができる。例えば、空間全体は、視聴者が移動できる1つ以上の領域と、視聴者が移動できない他の領域とに分割されることができる。従って、関心空間は、視聴者が移動できる領域の集合によって表現されることができる。
【0028】
一実施形態において、関心空間は、個人(例えば、視聴者)が、オーディオミキサによって生成されたオーディオミックスを、それが聴かれることが意図される方法で、完全に聴くことができる、オーディオシーンのスイートスポット(sweet spot(s))によって表現されることができる。
【0029】
図1は、本開示の一実施形態によるオーディオシーンの例示的なスイートスポットを示している。
図1において、オーディオシーンのスイートスポットは、1~7のラベルが付されたオーディオソースによってカバーされるエリアの交点である。よって、スイートスポットは、
図1の椅子の周りに円によって示されている。国際的な推奨のような幾つかの場合において、スウィートスポットは、参照リスニングポイント(reference listening point)と呼ばれる。
【0030】
いくつかの実施形態において、関心空間は、聴覚空間(auditory space)によって表現されることができる。
【0031】
一実施形態において、関心空間は、限定的な高さ(elevation)の範囲を有する聴覚空間によって表現されることができる。例えば、関心空間は、2つの数字で表現されることができ、その場合、聴覚空間は、これらの2つの数字の間の高さ内にある。
【0032】
図2は、0.0メートル~4.0メートルの間の高さを有する聴覚空間の一例を示している。
【0033】
一実施形態において、関心空間は、長方形プリズムを有する聴覚空間によって表現されることができる。その表現は、長方形プリズムの2つの対角の頂点の座標であることができる。その表現は、長方形プリズムの1つの頂点の座標、および長方形プリズムの高さ、幅、および長さの値であることができる。幾つかの場合において、長方形プリズムは、常に垂直または水平であるとは限らないので、長方形プリズムの方向性情報を記述することができる。
【0034】
一実施形態において、関心空間は、多面体形状を有する聴覚空間によって表現されることができる。その表現は、多面体形状の頂点の座標であることができる。その表現は、多面体形状の表面の集合であることができる。
【0035】
一実施形態において、関心空間は、
図3に示すように、視聴者の場所を中心としたボール形状を有する聴覚空間によって表現されることができる。その表現は、ボール形状の中心の座標、およびボール形状の半径の値であることができる。
【0036】
一実施形態において、関心空間は、転動ボール(rolling ball)形状を有する聴覚空間によって表現されることができる。転動ボール形状の中心は、
図4に示すように、視聴者の歩行経路に沿う。その表現は、歩行経路および転動ボール形状の半径を記述する関数であることができる。
【0037】
一実施形態において、関心空間は、マルチチャネルオーディオからのオーディオチャネルの組み合わせによって表現されることができる。例えば、その表現は、7.1オーディオチャネルからの前面左チャネルおよび前面右チャネルのセットであることができる。
【0038】
一実施形態において、関心空間は、オーディオオブジェクトの組み合わせによって表現されることができる。例えば、病院オーディオシーンは、ドア、テーブル、椅子、TV、ラジオ、医師、および患者のオーディオオブジェクトを含むことができる。この例における関心空間は、ドア、医師、および患者のセットによって表現されることができる。
【0039】
開示の態様によれば、関心空間は、(視聴者空間と呼ぶ)視聴者が移動できる空間、オーディオチャネル、およびオーディオオブジェクトからの2つまたは3つのタイプのアイテムの集合によって表現されることができる。すなわち、オーディオシーンの関心空間は、視聴者空間、オーディオチャネル、および/またはオーディオオブジェクトの集合によって表現されることができる。
【0040】
いくつかの実施形態では、space_of_interest_typeフラグのようなオーディオシーンデータ内の第1の構文要素が、関心空間が視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成であるかどうかを示すために信号伝達される(signaled)ことができる。
【0041】
いくつかの実施形態では、オーディオシーンのオーディオシーンデータ内の第2の構文要素が、多数の各タイプのアイテムを示すために信号伝達されることができる。例えば、第2の構文要素は、視聴者空間の数、オーディオチャネル構成、およびオーディオオブジェクト構成をそれぞれ示す、listener_space_count、audio_channel_config_channel、およびaudio_object_config_countの3つの値のいずれか1つであることができる。
【0042】
一実施形態では、視聴者空間がオーディオシーンの関心空間に存在しないときに、listener_space_countの値を0として設定することができる。
【0043】
一実施形態では、オーディオチャネル構成がオーディオシーンの関心空間内に存在しないときに、audio_channel_config_countの値を0として設定することができる。
【0044】
一実施形態では、オーディオオブジェクト構成がオーディオシーンの関心空間内に存在しないときに、audio_object_config_countの値を0として設定することができる。
【0045】
いくつかの実施形態では、第2の構文要素が、同じタイプのアイテムの総数が1よりも大きいことを示すときに、オーディオシーンのオーディオシーンデータ内の第3の構文要素が、同じタイプのアイテムの各々についての識別インデックス(identification index)を示すように信号伝達されることができる。
【0046】
一実施形態では、listener_space_countが1よりも大きいときに、第3の構文要素は、listener_space_idであることができ、それは、各視聴者空間の識別インデックスを示すように信号伝達されることができる。
【0047】
一実施形態では、listener_space_countが1に等しいときに、オーディオシーンの関心空間内に正確に1つの視聴者空間がある。
【0048】
一実施形態では、audio_channel_config_countが1よりも大きいときに、第3の構文要素は、audio_channel_config_idであることができ、それは、各オーディオチャネル構成の識別インデックスを示すように信号伝達されることができる。
【0049】
一実施形態では、audio_channel_config countが1に等しいときに、オーディオシーンの関心空間内に正確に1つのオーディオチャネル構成がある。
【0050】
一実施形態では、audio_object_config_countが1より大きいときに、第3の構文要素は、audio_object_config_idであることができ、それは、各オーディオオブジェクト構成の識別インデックスを示すように信号伝達されることができる。
【0051】
一実施形態では、audio_object_config_countが1に等しいときに、オーディオシーンの関心空間内に正確に1つのオーディオオブジェクト構成がある。
【0052】
本開示の態様によれば、オーディオ信号およびビデオ信号を相関させることができる。従って、オーディオシーンの視聴者空間は、対応するビデオシーンに従って設定されることができる。
【0053】
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIと同一に設定されることができる。
【0054】
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIの一部であることができる。
【0055】
一実施形態において、オーディオシーンの視聴者空間は、ビデオシーンのROIの外にあることができる。
【0056】
一実施形態では、listener_space_flagのようなオーディオシーンのオーディオシーンデータ内の第4の構文要素が、オーディオシーンの視聴者空間とビデオシーンのような他のコンポーネントとの間の関係を示すように信号伝達されることができる。第4の構文要素listener_space_flagが真として設定されるならば、それは、視聴者空間がオーディオ視聴者空間であり、第5の構文要素listener_space_subtypeのような後続の構文要素において完全に表現されることができることを意味する。第4の構文要素listener_space_flagが偽として設定されているとき、それはオーディオシーンの視聴者空間が信号伝達なしで他の場所から推論されることができることを意味する。例えば、オーディオシーンの視聴者空間は、オーディオ-ビデオシーン内のビデオシーンのROIと同一であることができ、オーディオシーンの視聴者空間は、ビデオシーンのROIからコピーされることができる。
【0057】
視聴者空間アイテムについて、第5の構文要素listener_space_subtypeは、アイテムが、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの1つであることを示すように信号伝達されることができる。
【0058】
表1は、オーディオシーンの関心空間を表現する例示的な構文テーブルを示している。表1において、構文要素space_of_interest_typeは、オーディオシーンのための関心領域内のアイテムのタイプを示している。アイテムのタイプは、視聴者空間、オーディオチャネル構成、またはオーディオオブジェクト構成のうちの1つであることができる。構文要素listener_space_count、audio_channel_config_count、audio_object_config_countは、それぞれ、視聴者空間の総数、オーディオチャネル構成の総数、オーディオオブジェクト構成の総数を示している。構文要素listener_space_id、audio_channel_config_id、audio_object_config_idは、それぞれ、視聴者空間の識別インデックス、オーディオチャネル構成の識別インデックス、オーディオオブジェクト構成の識別インデックスを示している。構文要素listener_space_flagは、視聴者空間を視聴者空間のサブタイプで表現することができるかどうかを示す。構文要素listener_space_subtypeは、視聴者空間のサブタイプを示す。視聴者空間のサブタイプは、スイートスポット、限定的な高さの範囲を有する聴覚空間、長方形プリズムを有する聴覚空間、多面体形状を有する聴覚空間、ボール形状を有する聴覚空間、転動ボール形状を有する聴覚空間、または同等物のうちの1つであることができる。
【表1】
【0059】
オーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサについて、対応するアイテムが所与のオーディオエンコーダ、デコーダ、レンダラ、または他のプロセッサのために有効にされているかどうかを示すために、固定長フラグspace_of_interest_selectionが、各視聴者空間、オーディオチャネル、およびオーディオオブジェクトのために信号伝達されることができる。例えば、フラグの「1」ビット値は、対応するアイテム(視聴者空間、オーディオチャネル、またはオーディオオブジェクト)が有効にされていることを示すことができ、フラグの「0」ビット値は、対応するアイテムが無効にされていることを示すことができる。
【0060】
本実施形態において、オーディオチャネル構成は、いくつかのオーディオチャネルの集合であることができ、幾つかのオーディオチャネルの集合は、それらのチャネルの識別インデックスによってさらに示されることができる。代替的に、オーディオチャネル構成は、特定のオーディオチャネルであることができる。
【0061】
本実施形態において、オーディオオブジェクト構成は、幾つかのオーディオオブジェクトの集合であることができ、幾つかのオーディオチャネルの集合は、それらのオブジェクトの識別インデックスによってさらに示されることができる。代替的に、オーディオオブジェクト構成は、特定のオーディオオブジェクトであることができる。
【0062】
表2は、オーディオシーンの関心空間を表現する別の例示的な構文テーブルを示している。
【表2】
【0063】
II.フローチャート
【0064】
図5は、本開示の一実施形態による例示的なプロセス(500)の概略するフローチャートを示している。様々な実施形態において、プロセス(500)は、
図6に示すような処理回路構成のような、処理回路構成によって実行される。いくつかの実施形態において、プロセス(500)は、ソフトウェア命令で実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス(500)を実行する。
【0065】
プロセス(500)は、一般に、ステップ(S510)で開始し、プロセス(500)は、オーディオシーンについてのオーディオシーンデータを復号化する。オーディオシーンデータは、(i)オーディオシーンを表現する複数のアイテムについてのオーディオコンテンツ、および(ii)複数のアイテムのサブセットのタイプを示す第1の構文要素を含む。複数のアイテムのサブセットは、オーディオシーンの関心空間を表す。次に、プロセス(500)は、ステップ(S520)に進む。
【0066】
ステップ(S520)で、プロセス(500)は、第1の構文要素において示される複数のアイテムのサブセットのタイプに基づいて、複数のアイテムのサブセットのオーディオコンテンツの一部分を決定する。次に、プロセス(500)は、ステップ(S530)に進む。
【0067】
ステップ(S530)で、プロセス(500)は、オーディオコンテンツの決定された部分をレンダリングする。次に、プロセス(500)は、終了する。
【0068】
一実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプ、オーディオチャネル構成と関連付けられるタイプ、またはオーディオオブジェクト構成と関連付けられるタイプのうちの1つであることを示す。
【0069】
一実施形態において、オーディオシーンデータは、複数のアイテムのサブセットの数を示す第2の構文要素を含む。
【0070】
一実施形態において、第2の構文要素は、複数のアイテムのサブセットの数が1よりも多いことを示し、オーディオシーンデータは、複数のアイテムのサブセットの各々についての識別インデックスを示す第3の構文要素を含む。
【0071】
一実施形態において、第1の構文要素は、複数のアイテムのサブセットのタイプが、視聴者空間と関連付けられるタイプであることを示し、オーディオシーンデータは、視聴者空間のサブタイプが信号伝達されるかどうかを示す第4の構文要素を含む。
【0072】
一実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されることを示し、オーディオシーンデータは、視聴者空間のサブタイプを示す第5の構文要素を含む。
【0073】
一実施形態において、第4の構文要素は、視聴者空間のサブタイプが信号伝達されないことを示し、視聴者空間のサブタイプは、ビデオシーンに基づいて決定される。
【0074】
一実施形態においては、視聴者空間のサブタイプは、オーディオシーンのスイートスポットと関連付けられるタイプまたは聴覚空間と関連付けられるタイプのうちの1つである。
【0075】
III.コンピュータシステム
【0076】
上述の技法は、コンピュータ読取可能命令を使用するコンピュータソフトウェアとして実装されることができ、1つ以上のコンピュータ読取可能媒体に物理的に格納されることができる。例えば、
図6は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム(600)を示している。
【0077】
コンピュータソフトウェアは、1つ以上のコンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)等によって、直接的に或いは解釈、マイクロコード実行等を通じて実行されることができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または類似のメカニズムの対象となることがある任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされることができる。
【0078】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス等を含む、様々なタイプのコンピュータまたはそれらのコンポーネント上で実行されることができる。
【0079】
コンピュータシステム(600)のための
図6に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性に関する如何なる制限も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム(600)の例示的な実施形態において図示されるコンポーネントの任意の1つまたは組み合わせに関する如何なる従属性または要件も有するものとして解釈されてならない。
【0080】
コンピュータシステム(600)は、特定のヒューマンインターフェース入力デバイスを含んでよい。そのようなヒューマンインターフェース入力デバイスは、例えば、(キーストローク、スワイプ、データグローブの動きのような)触覚入力、(音声、拍手のような)オーディオ入力、(ジェスチャのような)視覚入力、嗅覚入力(図示せず)を通じて、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスは、(発話、音楽、周囲サウンドのような)オーディオ、(スキャンされた画像、静止画像カメラから得られる写真画像のような)画像、(二次元ビデオ、立体視ビデオを含む三次元ビデオのような)ビデオのような、人間による意識的入力に必ずしも直接的に関係しない特定の媒体を取り込むために使用されることもできる。
【0081】
入力ヒューマンインターフェースデバイスは、キーボード(601)、マウス(602)、トラックパッド(603)、タッチスクリーン(610)、データグローブ(図示せず)、ジョイスティック(605)、マイクロホン(606)、スキャナ(607)、およびカメラ(608)の1つ以上(各々の1つのみが描かれている)を含んでよい。
【0082】
コンピュータシステム(600)は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド、光、および嗅覚/味覚を通じて、1人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、(例えば、タッチスクリーン(610)、データグローブ(図示せず)、ジョイスティック(605)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあることができる)触覚出力装置、(スピーカ(609)、ヘッドフォン(図示せず)のような)オーディオ出力デバイス、(各々がタッチスクリーン入力能力を持つか或いは持たない、各々が触覚フィードバック能力を持つか或いは持たない、それらの一部は、立体出力、仮想現実グラス(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)、およびプリンタ(図示せず)のような手段を通じて、二次元視覚出力または三次元よりも多くの次元の出力を出力し得ることがある、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含む、スクリーン(610)のような)視覚出力デバイスを含むことがある。(スクリーン(610)のような)これらの視覚出力デバイスは、グラフィックスアダプタ(650)を通じてシステムバス(648)に接続されることができる。
【0083】
コンピュータシステム(600)は、人間がアクセス可能な記憶デバイスや、CD/DVDまたは同等の媒体(621)を備えるCD/DVD ROM/RW(620)、サムドライブ(622)、取り外し可能なハードドライブまたはソリッドステートドライブ(623)、テープおよびフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特殊化されたROM/ASIC/PLDベースのデバイス、および同等物を含む、光媒体のような、それらの関連する媒体も含むことができる。
【0084】
当業者は、現在開示されている主題に関連して使用されるような「コンピュータ読取可能媒体」という用語が、送信媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。
【0085】
コンピュータシステム(600)は、1つ以上の通信ネットワーク(655)へのインターフェース(654)を含むこともできる。1つ以上の通信ネットワーク(655)は、例えば、無線、有線、光であることができる。1つ以上の通信ネットワーク(655)は、更に、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性等であることができる。1つ以上の通信ネットワークの例は、イーサネット、無線LANのようなローカルエリアネットワーク、GSM、3G、4G、5G、LTEおよび同等のものを含むセルラネットワーク、ケーブルTV、衛星TV、および地上放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、CANBusを含む車両および産業等を含む。特定のネットワークは、一般に、(例えば、コンピュータシステム(600)のUSBポートのような)特定の汎用データポートまたは周辺バス(649)に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するようなシステムバスへの取り付けによって、コンピュータシステム(600)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(600)は、他のエンティティと通信することができる。そのような通信は、単指向性、受信のみ(例えば、放送テレビ)、単指向性送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの、双指向性であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。
【0086】
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム(600)のコア(640)に取り付けられることができる。
【0087】
コア(640)は、1つ以上の中央処理装置(CPU)(641)、グラフィックス処理装置(GPU)(642)、フィールドプログラマブルゲートエリア(FPGA)(643)の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ(644)等を含むことができる。これらのデバイスは、読出し専用メモリ(ROM)(645)、ランダムアクセスメモリ(646)、内部ユーザアクセス可能でないハードドライブのような内部大容量記憶装置、SSD、および同等物(647)と共に、システムバス(648)を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス(648)は、追加のCPU、GPU、および同等物による拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス(648)に直接的に取り付けられることができ、或いは周辺バス(649)を通じて取り付けられることができる。周辺バスのためのアーキテクチャは、PCI、USB、および同等物を含む。
【0088】
CPU(641)、GPU(642)、FPGA(643)、およびアクセラレータ(644)は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ROM(645)またはRAM(646)に格納されることができる。移行データも、RAM(646)に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置(647)に格納されることができる。1つ以上のCPU(641)、GPU(642)、大容量記憶装置(647)、ROM(645)、RAM(646)、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速格納および検索を可能にすることができる。
【0089】
コンピュータ読取可能媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術の当業者によく知られており且つ利用可能である種類のものであることができる。
【0090】
一例として、限定によってではなく、アーキテクチャ(600)、具体的には、コア(640)を有する、コンピュータシステムは、1つ以上の有形のコンピュータ読取可能媒体において具現されるソフトウェアを実行する(CPU、GPU、FPGA、アクセラレータ、および同等物を含む)プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上述のようなユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置(647)またはROM(645)のような非一時的な性質を有するコア(640)の特定の記憶装置であってよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、コア(640)によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、1つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(640)、特にコア内の(CPU、GPU、FPGA、および同等物を含む)プロセッサに、RAM(646)に格納されるデータ構造を定義ことと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現されたロジック(論理)の結果として機能性(例えば、アクセラレータ(644))を提供することができ、それは、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も同様である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する回路、実行のためのロジックを具現する(集積回路(IC)のような)回路、または適切な場合にはそれらの両方を含むことができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを含む。
【0091】
この開示は幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある、数多くのシステムおよび方法を考案することができることが理解されるであろう。