IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧

特許7536735ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
<>
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図1
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図2
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図3
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図4
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図5
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図6
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図7
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図8
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図9
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図10
  • 特許-ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-09
(45)【発行日】2024-08-20
(54)【発明の名称】ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240813BHJP
   G10K 15/02 20060101ALI20240813BHJP
   G10L 19/00 20130101ALI20240813BHJP
【FI】
H04S7/00 300
G10K15/02
G10L19/00 330B
【請求項の数】 22
(21)【出願番号】P 2021190472
(22)【出願日】2021-11-24
(65)【公開番号】P2022083445
(43)【公開日】2022-06-03
【審査請求日】2021-11-24
(31)【優先権主張番号】10-2020-0158485
(32)【優先日】2020-11-24
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0072524
(32)【優先日】2021-06-04
(33)【優先権主張国・地域又は機関】KR
【前置審査】
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】キム デファン
(72)【発明者】
【氏名】キム ジョンシク
(72)【発明者】
【氏名】キム ドンファン
(72)【発明者】
【氏名】イ テギュ
(72)【発明者】
【氏名】ソ ジョンフン
(72)【発明者】
【氏名】オ ジウォン
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2022-083443(JP,A)
【文献】特表2014-520491(JP,A)
【文献】特表2014-522155(JP,A)
【文献】特表2014-526168(JP,A)
【文献】特表2015-527609(JP,A)
【文献】特開2019-097162(JP,A)
【文献】特表2020-519950(JP,A)
【文献】国際公開第2015/182492(WO,A1)
【文献】国際公開第2016/171002(WO,A1)
【文献】国際公開第2019/069710(WO,A1)
【文献】特表2019-535216(JP,A)
【文献】特開2005-150993(JP,A)
【文献】特開平04-015693(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
H04R 3/00- 3/14
G10K 15/00-15/12
G10L 13/00-13/10、19/00-99/00
G06F 3/01、 3/048- 3/04895、 3/16
H04L 13/00-13/18、61/00-65/80
H04L 69/00-101/695
(57)【特許請求の範囲】
【請求項1】
コンピュータシステムによる方法であって、
現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれに生成する段階、
製作ツールを利用して、前記複数の客体それぞれに対して前記現場の空間的特徴をそれぞれに設定する段階、
前記空間的特徴に基づいて、それぞれの前記オーディオファイルのメタデータをそれぞれに生成する段階、および、
前記複数の客体それぞれの前記オーディオファイル、および、前記複数の客体それぞれの前記メタデータを電子装置に送信する段階、
を含み、
前記電子装置は、
前記複数の客体それぞれに対して生成される前記メタデータにおけるそれぞれの前記現場の空間的特徴を組み合わせたデータを利用して、それぞれの前記オーディオファイルを再生してレンダリングすることにより、前記現場の臨場感を実現する、
方法。
【請求項2】
前記空間的特徴をそれぞれ設定する段階は、
グラフィックインタフェースを出力する段階、
前記グラフィックインタフェースを利用した少なくとも1つの入力に基づいて、前記客体に対して前記空間的特徴をそれぞれ設定する段階、および
前記客体と関連して前記空間的特徴をそれぞれ記録する段階、
を含む、
請求項1に記載の方法。
【請求項3】
前記メタデータは、
前記客体それぞれの位置情報、
前記客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または、
前記現場の環境情報、
のうちの少なくとも1つを含む、
請求項1に記載の方法。
【請求項4】
前記客体それぞれは、
楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
のうちの1つを含む、
請求項1に記載の方法。
【請求項5】
前記グラフィックインタフェースは、
前記現場に位置する前記客体を表示するための第1領域、および
前記第1領域と同じ画面上に表示され、前記第1領域から選択される客体の位置を設定するための第2領域、
を含み、
前記空間的特徴をそれぞれ設定する段階は,
前記位置に基づいて、前記空間的特徴をそれぞれ設定する、
請求項2に記載の方法。
【請求項6】
前記グラフィックインタフェースは、
前記第1領域と同じ画面上に表示され、前記第1領域から選択される客体のオーディオ効果を調整するための第3領域、
をさらに含み、
前記空間的特徴をそれぞれ設定する段階は、
前記位置と前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
請求項5に記載の方法。
【請求項7】
前記グラフィックインタフェースは、
少なくとも1つの現場を表示するための第4領域、または
前記第4領域と同じ画面に表示され、前記第4領域から選択される現場と関連するオーディオ効果を調整するための第5領域、
のうちの少なくとも1つをさらに含み、
前記空間的特徴をそれぞれ設定する段階は、
前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
請求項5に記載の方法。
【請求項8】
前記第4領域は、
前記第1領域と同じ領域に表示されるか、異なる領域に表示される、
請求項7に記載の方法。
【請求項9】
前記方法は、
前記メタデータに基づいて前記オーディオファイルをレンダリングする段階、
前記オーディオファイルと前記メタデータをともに記録する段階、または
前記オーディオファイルと前記メタデータをともに送信する段階、
のうちの少なくとも1つをさらに含む、
請求項1に記載の方法。
【請求項10】
前記オーディオファイルと前記メタデータをともに送信する段階は、
前記オーディオファイルと前記メタデータをPCM(pulse code modulation)オーディオ信号で構成して、送信する段階を含み、
前記メタデータは、
前記PCMオーディオ信号のメタデータトラック(metadata track)に埋め込まれ、
前記オーディオファイルと前記メタデータのエンコードに利用されるオーディオコーデックのフレームサイズに基づいて、前記オーディオファイルと同期化され、
ドリフト補正によるチャンネル間の補正が適用されないように生成されて、前記メタデータトラックに記入され、
1つのフレーム内に複数のセットで記入される、
請求項9に記載の方法。
【請求項11】
請求項1~10のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
【請求項12】
請求項1~10のうちのいずれか一項に記載の方法を前記コンピュータシステムに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
【請求項13】
コンピュータシステムであって、
メモリ、および、
前記メモリと連結し、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサ、を含み、
前記プロセッサは、
現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれに生成し、
製作ツールを利用して、前記複数の客体それぞれに対して前記現場の空間的特徴をそれぞれに設定し、
前記空間的特徴に基づいて、それぞれの前記オーディオファイルのメタデータをそれぞれに生成し、
前記複数の客体それぞれの前記オーディオファイル、および、前記複数の客体それぞれの前記メタデータを電子装置に送信する、
ように構成されており、
前記電子装置は、
前記複数の客体それぞれに対して生成される前記メタデータにおけるそれぞれの前記現場の空間的特徴を組み合わせたデータを利用して、それぞれの前記オーディオファイルを再生してレンダリングすることにより、前記現場の臨場感を実現する、
ように構成される、
コンピュータシステム。
【請求項14】
前記プロセッサは、
グラフィックインタフェースを出力し、
前記グラフィックインタフェースを利用した少なくとも1つの入力に基づいて、前記客体に対して前記空間的特徴をそれぞれ設定し、
前記客体と関連して前記空間的特徴をそれぞれ記録する、
ように構成される、
請求項13に記載のコンピュータシステム。
【請求項15】
前記メタデータは、
前記客体それぞれの位置情報、
前記客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または、
前記現場の環境情報、
のうちの少なくとも1つを含む、
請求項13に記載のコンピュータシステム。
【請求項16】
前記客体それぞれは、
楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景、
のうちの1つを含む、
請求項13に記載のコンピュータシステム。
【請求項17】
前記グラフィックインタフェースは、
前記現場に位置する前記客体を表示するための第1領域、および、
前記第1領域と同じ画面上に表示され、前記第1領域から選択される客体の位置をそれぞれ設定するための第2領域、
を含み、
前記プロセッサは、
前記位置に基づいて、前記空間的特徴をそれぞれ設定する、
ように構成される、
請求項14に記載のコンピュータシステム。
【請求項18】
前記グラフィックインタフェースは、
前記第1領域と同じ画面上に表示され、前記第1領域から選択される客体のオーディオ効果を調整するための第3領域、
をさらに含み、
前記プロセッサは、
前記位置と前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定する、
ように構成される、
請求項17に記載のコンピュータシステム。
【請求項19】
前記グラフィックインタフェースは、
少なくとも1つの現場を表示するための第4領域、または、
前記第4領域と同じ画面に表示され、前記第4領域から選択される現場と関連するオーディオ効果を調整するための第5領域、
のうちの少なくとも1つをさらに含み、
前記プロセッサは、
前記オーディオ効果に基づいて、前記空間的特徴をそれぞれ設定するように構成される、
請求項17に記載のコンピュータシステム。
【請求項20】
前記第4領域は、
前記第1領域と同じ領域に表示されるか、異なる領域に表示される、
請求項19に記載のコンピュータシステム。
【請求項21】
前記プロセッサは、
前記メタデータに基づいて前記オーディオファイルをレンダリングし、
前記オーディオファイルと前記メタデータをともに記録し、
前記オーディオファイルと前記メタデータをともに送信する、
ように構成される、
請求項13に記載のコンピュータシステム。
【請求項22】
前記プロセッサは、
前記オーディオファイルと前記メタデータをPCM(pulse code modulation)オーディオ信号で構成して、送信し、
前記メタデータは、
前記PCMオーディオ信号のメタデータトラック(metadata track)に埋め込まれ、
前記オーディオファイルと前記メタデータのエンコードに利用されるオーディオコデックスのフレームサイズに基づいて、前記オーディオファイルと同期化され、
ドリフト補正によるチャンネル間の補正が適用されないように生成されて、前記メタデータトラックに記入され、
1つのフレーム内に複数のセットで記入される、
請求項21に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
多様な実施形態は、製作ツールを利用して、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法に関する。
【背景技術】
【0002】
一般的に、コンテンツ提供サーバは、利用者のために完成形態のオーディオコンテンツを提供する。このとき、完成形態のオーディオコンテンツは、複数のオーディオ信号がミキシングされたものであって、例えば、ステレオ形態のオーディオコンテンツなどがある。これにより、利用者の電子装置は、完成形態のオーディオコンテンツを受信し、これを再生する。すなわち、利用者は、完成形態のオーディオコンテンツに基づいた、定められた構成の音響しか聞くことができない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
多様な実施形態は、ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法を提供する。
【課題を解決するための手段】
【0004】
多様な実施形態に係るコンピュータシステムによる方法は、現場で複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成する段階、製作ツールを利用して、前記客体に対して前記現場の空間的特徴をそれぞれ設定する段階、および前記空間的特徴に基づいて、前記オーディオファイルのメタデータを生成する段階を含んでよい。
【0005】
多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体に記録されるコンピュータプログラムは、前記方法を前記コンピュータシステムに実行させるためのものであってよい。
【0006】
多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体には、前記方法を前記コンピュータシステムに実行させるためのプログラムが記録されていてよい。
【0007】
多様な実施形態に係るコンピュータシステムは、メモリ、および前記メモリと連結し、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、現場で複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成し、製作ツールを利用して、前記客体に対して前記現場の空間的特徴をそれぞれ設定し、前記空間的特徴に基づいて、前記オーディオファイルのメタデータを生成するように構成されてよい。
【発明の効果】
【0008】
多様な実施形態によると、ユーザカスタム型臨場感を実現するための材料であるオーディオコンテンツを製作するためのツールを提案することができる、このとき、コンピュータシステムは、ある現場に位置する複数の客体のオーディオファイルをそれぞれ生成することができる。また、コンピュータシステムは、製作ツールを利用して、客体に対して現場の空間的特徴を含むメタデータを生成したり、オーディオファイルを生成あるいは変更したりすることができる。このとき、コンピュータシステムは、創作者の設定に基づいて、客体の空間的特徴をそれぞれ生成することができる。これにより、電子装置は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型のオーディオコンテンツを再生することができる。すなわち、電子装置は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして、立体音響を実現することができる。したがって、電子装置は、オーディオと関連してユーザカスタム型臨場感を実現し、これにより、電子装置の利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くような、ユーザカスタム型臨場感を感じることができるようになる。
【図面の簡単な説明】
【0009】
図1】多様な実施形態における、コンテンツ提供システムを示したブロック図である。
図2】多様な実施形態における、コンテンツ提供システムの機能を説明するための例示図である。
図3】多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。
図4】多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。
図5】多様な実施形態における、コンピュータシステムの内部構成を示したブロック図である。
図6】多様な実施形態における、コンピュータシステムの動作の流れを示したフローチャートである。
図7図6のオーディオファイルを生成する段階の詳細な流れを示したフローチャートである。
図8図6の空間的特徴を設定する段階の詳細な流れを示したフローチャートである。
図9図6のメタデータを生成する段階の詳細な流れを示したフローチャートである。
図10】多様な実施形態における、電子装置の内部構成を示したブロック図である。
図11】多様な実施形態における、電子装置の動作の流れを示したフローチャートである。
【発明を実施するための形態】
【0010】
以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。
【0011】
以下、客体(object)という用語は、オーディオ信号を発生させる機器または人物を示すものとする。例えば、客体は、楽器、楽器演奏者、ボーカリスト(vocalist)、対話者(talker)、伴奏や音響効果などを発生させるスピーカ、または背景音(ambience)を発生させる背景のうちの1つを含んでよい。また、オーディオファイル(audio file)という用語は、各客体から発生するオーディオ信号に対するオーディオデータを示すものとする。
【0012】
以下、メタデータという用語は、少なくとも1つのオーディオファイルと関連するオーディオ場面の属性を説明するための情報を示すものとする。このとき、オーディオ場面は、少なくとも1つの客体で構成されてよく、メタデータは、客体に対する少なくとも1つの空間的特徴を含んでよい。例えば、メタデータは、少なくとも1つの客体の位置情報、少なくとも2つの客体の位置の組み合わせを示すグループ情報、または少なくとも1つの客体が配置される現場(venue)の環境情報のうちの少なくとも1つを含んでよい。また、現場は、例えば、スタジオ(studio)、コンサートホール(concert hall)、ストリート(street)、スタジアム(stadium)などを含んでよい。
【0013】
図1は、多様な実施形態における、コンテンツ提供システム100を示したブロック図であり、図2は、多様な実施形態における、コンテンツ提供システム100の機能を説明するための例示図であり、図3図4は、多様な実施形態における、コンピュータシステムの製作ツールを説明するための図である。
【0014】
図1を参照すると、多様な実施形態に係るコンテンツ提供システム100は、コンピュータシステム110と電子装置150を含んでよい。例えば、コンピュータシステム110は、少なくとも1つのサーバ(server)を含んでよい。例えば、電子装置150は、スマートフォン(smart phone)、携帯電話、ナビゲーション、PC、ノート型PC、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、タブレット、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、家電機器、医療機器、またはロボット(robot)のうちの少なくとも1つを含んでよい。
【0015】
コンピュータシステム110は、利用者のためにコンテンツを提供してよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ(virtual reality、VR)コンテンツ、拡張現実(augmented reality、AR)コンテンツ、エクステンデッド・リアリティ(extended reality、XR)コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン(plain)コンテンツまたはイマーシブ(immersive)コンテンツのうちの少なくとも1つを含んでよい。プレーンコンテンツが完成形態のコンテンツであることに対し、イマーシブコンテンツは、ユーザカスタムコンテンツであってよい。以下、オーディオコンテンツを例に挙げて説明する。
【0016】
プレーンオーディオコンテンツは、複数の客体から発生するオーディオ信号がミキシングされてステレオ形態で実現されてよい。例えば、コンピュータシステム110は、図2に示すように、現場でオーディオ信号がミキシングされたオーディオ信号を取得し、これに基づいてプレーンオーディオコンテンツを生成してよい。この反面、イマーシブオーディオコンテンツは、現場で複数の客体から発生するオーディオ信号に対するオーディオファイルと、これに対するメタデータとで構成されてよい。このとき、イマーシブオーディオコンテンツ内において、オーディオファイルとこれに対するメタデータは、個別に存在してよい。例えば、コンピュータシステム110は、図2に示すように、複数の客体に対するオーディオファイルをそれぞれ取得し、これに基づいてイマーシブオーディオコンテンツを生成してよい。
【0017】
電子装置150は、コンピュータシステム110から提供されるコンテンツを再生してよい。このとき、コンテンツは、オーディオコンテンツ、ビデオコンテンツ、バーチャルリアリティ(VR)コンテンツ、拡張現実(AR)コンテンツ、エクステンデッド・リアリティ(XR)コンテンツなどの多様な形態のコンテンツであってよい。また、コンテンツは、プレーン(plain)コンテンツまたはイマーシブ(immersive)コンテンツのうちの少なくとも1つを含んでよい。
【0018】
コンピュータシステム110からイマーシブオーディオコンテンツが受信されれば、電子装置150は、イマーシブオーディオコンテンツから、オーディオファイルとこれに対するメタデータをそれぞれ取得してよい。この後、電子装置150は、メタデータに基づいて、オーディオファイルのうちの少なくとも1つをレンダリングしてよい。これにより、電子装置150は、イマーシブオーディオコンテンツに基づいて、オーディオと関連するユーザカスタム型臨場感を実現することができる。したがって、利用者は、少なくとも1つの客体が配置される現場において、該当の客体から発生するオーディオ信号を直に聞くような、臨場感を感じることができるようになる。
【0019】
このために、コンピュータシステム110は、製作ツールを利用して、客体に対して現場の空間的特徴をそれぞれ設定してよい。このとき、コンピュータシステム110は、グラフィックインタフェース(graphic interface)300、400を利用した少なくとも1つの創作者の入力に基づいて、客体の空間的特徴をそれぞれ設定してよい。空間的特徴は、少なくとも1つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも1つに対するものであってよい。一実施形態において、コンピュータシステム110は、図3または図4のうちの少なくとも1つに示すように、製作ツールを利用してグラフィックインタフェース300、400を出力し、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、コンピュータシステム110は、各客体に対して空間的特徴を設定してよく、少なくとも2つの客体の空間的特徴を1つのグループとして設定してよい。
【0020】
一実施形態において、コンピュータシステム110は、図3に示すような第1グラフィックインタフェース300、および、図4に示すような第2グラフィックインタフェース400を利用して、客体の空間的特徴を設定してよい。一実施形態によると、コンピュータシステム110は、第1グラフィックインタフェース300と第2グラフィックインタフェース400を同時に出力してよい。ここで、第1グラフィックインタフェース300と第2グラフィックインタフェース400は、分離して提供されてもよいし、1つに統合されて提供されてもよい。他の実施形態によると、コンピュータシステム110は、第1グラフィックインタフェース300と第2グラフィックインタフェース400を個別に出力してもよい。
【0021】
第1グラフィックインタフェース300は、少なくとも1つの現場に対してリストを表示し、各現場に位置する少なくとも1つの客体に対してリストで表示するための第1領域310、第1領域310から選択される客体の位置を設定するための第2領域320、または、第1領域310から選択される客体の位置またはオーディオ効果のうちの少なくとも1つを微調整するための第3領域330、のうちの少なくとも1つを含んでよい。例えば、第1領域310、第2領域320、または第3領域330のうちの少なくとも1つが、同じ画面上に表示されてよい。すなわち、コンピュータシステム110は、第1グラフィックインタフェース300を提供し、第1グラフィックインタフェース300から少なくとも1つの創作者の入力を検出してよい。創作者は、第1領域310により、いずれかの現場を生成するか選択して該当の現場に位置する客体を選択してよい。また、創作者は、第2領域320により、該当の現場に位置する該当の客体の位置を選択してよい。これにより、コンピュータシステム110は、該当の客体の位置に基づいて、該当の客体の空間的特徴を設定してよい。一方、創作者は、第3領域330により、該当の客体のオーディオ効果を微調整してよい。ここで、オーディオ効果とは、該当の空間内の客体と聴者の位置関係を示してよい。例えば、オーディオ効果は、聴者の位置に対して、客体の位置の方位角(azimuth)、高度(elevation)、距離(distance)、BES、ゲイン(gain)などを含んでよい。本文書では、方位角、高度、距離によって客体の位置を表現したが、客体の位置を示すことが可能な表現方式が特定の座標系に限定されてはならない。これにより、コンピュータシステム110は、該当の客体の位置とオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。
【0022】
第2グラフィックインタフェース400は、少なくとも1つの現場に対するリストを表示する第4領域440、または、第4領域440から選択される現場と関連するオーディオ効果を微調整するための第5領域450のうちの少なくとも1つを含んでよい。すなわち、コンピュータシステム110は、第2グラフィックインタフェース400を提供し、第2グラフィックインタフェース400から少なくとも1つの創作者の入力を検出してよい。創作者は、第4領域440により、いずれかの現場を選択してよい。また、創作者は、第5領域450により、該当の現場と関連するオーディオ効果を微調整してよい。これにより、コンピュータシステム110は、該当の現場と関連するオーディオ効果に基づいて、該当の現場に位置する客体の空間的特徴を設定してよい。
【0023】
多様な実施形態によると、コンピュータシステム110は、電子機器(製作スタジオと指称されてもよい)(図示せず)またはサーバ(図示せず)のうちの少なくとも1つを含んでよい。例えば、電子機器は、オーディオコンソール、ダンテ(dante)のようなオーディオインタフェースなどの多様なハードウェアを備える機器であって、スマートフォン、携帯電話、ナビゲーション、PC、ノート型PC、デジタル放送用端末、PDA、PMP、タブレット、ゲームコンソール、ウェアラブルデバイス、IoTデバイス、家電機器、医療機器、またはロボットのうちの少なくとも1つを含んでよい。
【0024】
電子機器は、複数の客体のオーディオファイルと、これに対するメタデータを生成してよい。このために、電子機器は、ある現場に位置する客体それぞれが発生するオーディオ信号をそれぞれ取得してよい。このとき、電子機器は、各客体に直接的に付着されるか各客体に隣接して設置されるマイクロホン(microphone)により、各オーディオ信号を取得してよい。追加で、電子機器は、カメラ(camera)により、各客体の直接的な位置を認識してもよい。また、電子機器は、オーディオ信号を利用して、オーディオファイルをそれぞれ生成してよい。さらに、電子機器は、オーディオファイルのメタデータを生成してよい。このために、電子機器は、客体に対して現場の空間的特徴をそれぞれ設定してよい。例えば、電子機器は、グラフィックインタフェース300、400を利用した創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、電子機器は、各客体の直接的な位置や各客体のためのマイクロホンの位置を利用して、各客体の位置情報または少なくとも2つの客体の位置の組み合わせを示すグループ情報のうちの少なくとも1つを検出してよい。また、電子機器は、客体が配置された現場の環境情報を検出してよい。
【0025】
この後、電子機器は、客体の空間的特徴に基づいて、メタデータを生成してよい。このとき、電子機器は、客体の空間的特徴を組み合わせて、電子装置150で選択可能なプリセットを生成してよい。例えば、電子機器は、ある現場の環境情報とある客体の位置情報、およびオーディオ効果を組み合わせてプリセットを生成してよい。
【0026】
サーバは、オーディオファイルとこれに対するメタデータを電子装置150に送信してよい。具体的に説明すると、サーバは、オーディオファイルとこれに対するメタデータにより、予め定められたフォーマット400のイマーシブオーディオコンテンツを生成してよい。このとき、イマーシブオーディオコンテンツ内において、オーディオファイルとこれに対するメタデータは、個別的に存在してよい。また、サーバは、イマーシブオーディオコンテンツを電子装置150に送信してよい。ここで、サーバは、ライブストリーミング(live streaming)サーバであってよい。
【0027】
これにより、電子装置150は、メタデータに基づいて、オーディオファイルをレンダリングしてよい。例えば、電子装置150は、ユーザインタフェース(user interface、UI)を利用した利用者の入力に基づいて、プリセットのうちの1つを選択してよい。すなわち、電子装置150は、多数のプリセットを表示し、利用者の入力に基づいて、プリセットのうちの1つを選択してよい。これにより、電子装置150は、選択されるプリセットに基づいて、客体の空間的特徴を利用してオーディオファイルをレンダリングしてよい。これにより、電子装置150は、該当の現場に対するユーザカスタム型臨場感を実現することができる。
【0028】
一実施形態において、コンピュータシステム110は、オーディオファイルとメタデータをPCM(pulse code modulation)オーディオ信号で構成して、送信してよい。このとき、コンピュータシステム110は、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力に基づいて生成されるメタデータ、または他の電子機器から受信されるメタデータをPCM信号のメタデータトラック(metadata track)に埋め込んで(Embedding)よい。ここで、メタデータは、最終配信の際のエンコードのために使用されるオーディオコデックスのフレームサイズに基づいて、オーディオチャンネルと時間同期化(time synchronization)されて埋め込まれてよい。フレームごとに時間同期化されたメタデータは、各フレームに対して複数のセットで埋め込まれてよい。このとき、埋め込まれる複数のセットのメタデータは、同じ内容を含んでいてよく、同じ内容のメタデータセットが含まれることにより、以後のオーディオエンコード過程においてメタデータの損失と損傷の防止に役立つようになる。コンピュータシステム110、特に、電子機器のハードウェアの特性に応じてドリフト補正が適用されてよい。ドリフト補正が適用される場合、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力を基づいて生成されるメタデータと他の電子機器から受信されるメタデータとの差が生じることがあるため、メタデータが生成されるときには、ドリフト補正によるチャンネル間の補正が適用されないように生成してメタデータトラックに記入されてよい。
【0029】
図5は、多様な実施形態における、コンピュータシステム110の内部構成を示したブロック図である。
【0030】
図5を参照すると、多様な実施形態に係るコンピュータシステム110は、連結端子510、通信モジュール520、入力モジュール530、表示モジュール540、オーディオモジュール550、メモリ560、またはプロセッサ570のうちの少なくとも1つを含んでよい。一実施形態によると、コンピュータシステム110の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によると、コンピュータシステム110の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
【0031】
連結端子510は、コンピュータシステム110で外部装置と物理的に連結されてよい。例えば、外部装置は、他の電子機器を含んでよい。このために、連結端子510は、少なくとも1つのコネクタを含んでよい。例えば、コネクタは、HDMIコネクタ、USBコネクタ、SDカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか1つを含んでよい。
【0032】
通信モジュール520は、コンピュータシステム110で外部装置との通信を実行してよい。通信モジュール520は、コンピュータシステム110と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、外部サーバまたは電子装置150のうちの少なくとも1つを含んでよい。通信モジュール520は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも1つを含んでよい。有線通信モジュールは、連結端子510を介して外部装置と有線で連結し、外部装置と有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか1つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース(登録商標)(Bluetooth)、Wi-Fi(登録商標)ダイレクト(Wi-Fi direct)、または赤外線通信(IrDA、infrared data association)のうちの少なくともいずれか1つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはLAN(local area network)やWAN(wide area network)のようなコンピュータネットワークのうちの少なくともいずれか1つを含んでよい。
【0033】
入力モジュール530は、コンピュータシステム110の少なくとも1つの構成要素が使用する信号を入力してよい。入力モジュール530は、利用者がコンピュータシステム110に信号を直接入力するように構成される入力装置、周辺環境を感知して信号が発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか1つを含んでよい。例えば、入力装置は、マイクロホン(microphone)、マウス(mouse)、またはキーボード(keyboard)のうちの少なくともいずれか1つを含んでよい。一実施形態によると、センサ装置は、タッチを感知するように設定されたタッチ回路(touchcir cuitry)、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか1つを含んでよい。
【0034】
表示モジュール540は、情報を視覚的に表示してよい。例えば、表示モジュール540は、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか1つを含んでよい。一例として、表示モジュール540は、入力モジュール530のタッチ回路またはセンサ回路のうちの少なくともいずれか1つと組み立てられてタッチスクリーンとして実現されてよい。
【0035】
オーディオモジュール550は、情報を聴覚的に再生してよい。例えば、オーディオモジュール550は、スピーカまたはレシーバのうちの少なくともいずれか1つを含んでよい。
【0036】
メモリ560は、コンピュータシステム110の少なくとも1つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ560は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含んでよい。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ560に少なくとも1つの命令を含むソフトウェアとして記録されてよい。メモリ560は、オーディオファイルとこれに対するメタデータを生成するための製作ツール565を記録してよい。
【0037】
プロセッサ570は、メモリ560のプログラムを実行し、コンピュータシステム110の少なくとも1つの構成要素を制御してよい。これにより、プロセッサ570は、データ処理または演算を実行してよい。このとき、プロセッサ570は、メモリ560に記録された命令を実行してよい。プロセッサ570は、利用者のためにコンテンツを提供してよい。このとき、プロセッサ570は、通信モジュール520により、コンテンツを送信してよい。コンテンツは、ビデオコンテンツ、プレーンオーディオコンテンツ、またはイマーシブオーディオコンテンツのうちの少なくとも1つを含んでよい。
【0038】
プロセッサ570は、ある現場に位置する客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれ生成してよい。また、プロセッサ570は、製作ツール565を利用して、客体に対してそれぞれ設定される現場の空間的特徴を含むメタデータを生成してよい。一実施形態によると、プロセッサ570は、オーディオファイルとメタデータに基づいて、リアルタイムで再生可能なオーディオ信号を生成してよい。他の実施形態によると、プロセッサ570は、客体のオーディオファイルとメタデータを送信してよい。このために、プロセッサ570は、客体のオーディオファイルとメタデータを記録してよい。
【0039】
このとき、プロセッサ570は、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力に基づいて客体の空間的特徴をそれぞれ設定し、客体と関連して空間的特徴をそれぞれ記録してよい。空間的特徴は,少なくとも1つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも1つに対するものであってよい。これにより、客体と関連して記録された空間的特徴は、客体によって生成されたオーディオファイルをレンダリングするために利用されるだけでなく、客体と関連する他のオーディオファイルをレンダリングするためにも活用することが可能となる。例えば、前記空間的特徴は、臨場感を表現するためのリバーブトラックなどのレンダリングに活用されてよい。一実施形態において、プロセッサ570は、製作ツール565を利用して、図3または図4のうちの少なくとも1つに示すようにグラフィックインタフェース300、400を出力し、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力に基づいて、客体の空間的特徴を設定してよい。ここで、コンピュータシステム110は、各客体に対して空間的特徴を設定してよく、少なくとも2つの客体に対して空間的特徴を1つのグループとして設定してよい。
【0040】
図6は、多様な実施形態における、コンピュータシステム110の動作の流れを示したフローチャートである。
【0041】
図6を参照すると、段階610で、コンピュータシステム110は、現場に位置する複数の客体に対してオーディオファイルをそれぞれ生成してよい。プロセッサ570は、ある現場に位置する客体それぞれが発生するオーディオ信号に基づいて、オーディオファイルをそれぞれ生成してよい。これについては、図7を参照しながらより詳細に説明する。
【0042】
図7は、図6のオーディオファイルを生成する段階(段階610)の詳細な流れを示したフローチャートである。
【0043】
図7を参照すると、段階711で、コンピュータシステム110は、ある現場に位置する複数の客体のオーディオ信号を取得してよい。すなわち、プロセッサ50は、現場に位置する客体それぞれが発生するオーディオ信号を取得してよい。このとき、プロセッサ570は、各客体に直接的に付着されるか各客体に隣接して設置されるマイクロホンにより、各オーディオ信号を取得してよい。
【0044】
次に、段階713で、コンピュータシステム110は、オーディオ信号からオーディオファイルをそれぞれ生成してよい。プロセッサ670は、客体のオーディオ信号からオーディオファイルをそれぞれ生成してよい。
【0045】
この後、コンピュータシステム110は、図6にリターンし、段階620に進んでよい。
【0046】
再び図6を参照すると、段階620で、コンピュータシステム110は、製作ツール565を利用して、客体に対して現場の空間的特徴をそれぞれ設定してよい。このとき、プロセッサ570は、グラフィックインタフェース300、400を利用して、少なくとも1つの創作者の入力に基づいて客体の空間的特徴をそれぞれ設定してよい。空間的特徴は、少なくとも1つの客体、該当の客体の位置、該当の客体が配置される現場、または、該当の現場のターゲット、例えば、聴者の位置のうちの少なくとも1つに対するものであってよい。ここで、プロセッサ570は、各客体に対して空間的特徴を設定してよく、少なくとも2つの客体に対して空間的特徴を1つのグループとして設定してよい。これについては、図8を参照しながらより詳細に説明する。
【0047】
図8は、図6の空間的特徴を設定する段階(段階620)の詳細な流れを示したフローチャートである。
【0048】
図8を参照すると、段階821で、コンピュータシステム110は、創作者のためにグラフィックインタフェース300、400を出力してよい。プロセッサ570は、製作ツール565を利用して、図3または図4のうちの少なくとも1つに示すようにグラフィックインタフェース300、400を出力してよい。一例として、プロセッサ570は、通信モジュール520により、外部装置にグラフィックインタフェース300、400を出力してよい。他の例として、プロセッサ570は、表示モジュール540により、グラフィックインタフェース300、400を出力してよい。
【0049】
一実施形態において、グラフィックインタフェース300、400は、第1グラフィックインタフェース300または第2グラフィックインタフェース400のうちの少なくとも1つを含んでよい。一実施形態によると、コンピュータシステム110は、第1グラフィックインタフェース300と第2グラフィックインタフェース400を同時に出力してよい。ここで、第1グラフィックインタフェース300と第2グラフィックインタフェース400は、分離して提供されてもよいし、1つに統合されて提供されてもよい。他の実施形態によると、コンピュータシステム110は、第1グラフィックインタフェース300と第2グラフィックインタフェース400を個別に出力してもよい。
【0050】
第1グラフィックインタフェース300は、少なくとも1つの現場に対してリストを表示し、各現場に位置する少なくとも1つの客体に対してリストで表示するための第1領域310、第1領域310から選択される客体の位置を設定するための第2領域320、または、第1領域310から選択される客体のオーディオ効果を微調整するための第3領域330のうちの少なくとも1つを含んでよい。ここで、オーディオ効果とは、該当の空間内の客体と聴者の位置関係を示してよい。例えば、オーディオ効果は、聴者の位置に対して、客体の位置の方位角(azimuth)、高度(elevation)、距離(distance)、BES、ゲイン(gain)などを含んでよい。例えば、第1領域310、第2領域320、または第3領域330のうちの少なくとも1つが、同じ画面上に表示されてよい。第2グラフィックインタフェース400は、少なくとも1つの現場に対するリストを表示する第4領域440、または、第4領域440から選択される現場と関連するオーディオ効果を微調整するための第5領域450のうちの少なくとも1つを含んでよい。
【0051】
次に、段階823で、コンピュータシステム110は、グラフィックインタフェース300、400から、少なくとも1つの創作者の入力を検出してよい。プロセッサ570は、製作ツール565を利用して、グラフィックインタフェース300、400から、少なくとも1つの創作者の入力を検出してよい。一例として、プロセッサ570は、通信モジュール520により、外部装置から創作者の入力を受信してよい。他の例として、プロセッサ570は、入力モジュール530により、創作者の入力を感知してよい。
【0052】
一実施形態において、プロセッサ570は、第1グラフィックインタフェース300または第2グラフィックインタフェース400のうちの少なくとも1つから、少なくとも1つの創作者の入力を検出してよい。プロセッサ570は、第1グラフィックインタフェース300から、少なくとも1つの創作者の入力を検出してよい。創作者は、第1領域310により、いずれかの現場を生成するか選択し、該当の現場に位置するいずれかの客体を選択してよい。また、創作者は、第2領域320により、該当の現場に位置する該当の客体の位置を選択してよい。一方、創作者は、第3領域330により、該当の客体のオーディオ効果を微調整してよい。プロセッサ570は、第2グラフィックインタフェース400から、少なくとも1つの創作者の入力を検出してよい。創作者は、第4領域440により、いずれかの現場を選択してよい。また、創作者は、第5領域450により、該当の現場と関連するオーディオ効果を微調整してよい。
【0053】
次に、段階825で、コンピュータシステム110は、客体に対して現場の空間的特徴をそれぞれ設定してよい。プロセッサ570は、グラフィックインタフェース300、400を利用した少なくとも1つの創作者の入力に基づいて、客体の空間的特徴をそれぞれ設定してよい。ここで、プロセッサ570は、各客体に対して空間的特徴を設定してよく、少なくとも2つの客体に対して空間的特徴を1つのグループとして設定してよい。
【0054】
一実施形態において、制御部570は、第1グラフィックインタフェース300または第2グラフィックインタフェース400のうちの少なくとも1つに基づいて、客体の空間的特徴をそれぞれ設定してよい。プロセッサ570は、第1グラフィックインタフェース300の第1領域310から選択されたいずれかの現場に位置する客体に対し、第2領域320から選択された位置に基づいて、該当の客体の空間的特徴を設定してよい。これにより、コンピュータシステム110は、該当の客体の位置とオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。さらに、プロセッサ570は、第1グラフィックインタフェース300の第1領域310から選択されたいずれかの現場に位置する客体に対し、第3領域330で調整されたオーディオ効果に基づいて、該当の客体の空間的特徴を設定してよい。プロセッサ570は、第2グラフィックインタフェース400の第4領域440から選択された現場に対し、第5領域450で調整されたオーディオ効果に基づいて、該当の現場の客体の空間的特徴を設定してよい。
【0055】
次に、段階827で、コンピュータシステム110は、客体と関連して空間的特徴をそれぞれ記録してよい。プロセッサ570は、メモリ560に、客体と関連して空間的特徴をそれぞれ記録してよい。これにより、客体と関連して記録された空間的特徴は、段階610で客体が生成したオーディオファイルをレンダリングするために利用されるだけでなく、客体と関連する他のオーディオファイルをレンダリングするために活用することが可能となる。例えば、前記空間的特徴は、臨場感を表現するためのリバーブトラックなどのレンダリングに活用されてよい。
【0056】
この後、コンピュータシステム110は、図6にリターンし、段階630に進んでよい。
【0057】
再び図6を参照すると、段階630で、コンピュータシステム110は、客体の空間的特徴に基づいて、メタデータを生成してよい。プロセッサ570は、客体の空間的特徴を含むようにメタデータを生成してよい。また、コンピュータシステム100は、メタデータを利用してよい。一実施形態によると、プロセッサ570は、オーディオファイルとメタデータに基づいて、リアルタイムで再生可能なオーディオ信号を生成してよい。すなわち、プロセッサ570は、メタデータに基づいてオーディオファイルをレンダリングし、これによってリアルタイムで再生可能なオーディオ信号が生成されてよい。例えば、オーディオ信号は、ステレオ形態、サラウンド形態、またはバイノーラル(binaural)形態のうちの1つで生成されてよい。これにより、ライブサービス環境において、客体が生成するオーディオファイルをリアルタイムで変更したりモニタリングしたりすることが可能となる。他の実施形態によると、プロセッサ570は、客体のオーディオファイルとメタデータを送信してよい。このために、プロセッサ570は、客体のオーディオファイルとメタデータを記録してよい。これについては、図9を参照しながらより詳細に説明する。
【0058】
図9は、図6のメタデータを生成する段階(段階630)の詳細な流れを示したフローチャートである。
【0059】
図9を参照すると、段階931で、コンピュータシステム110は、空間的特徴に基づいて、メタデータを生成してよい。プロセッサ570は、客体の空間的特徴を含むようにメタデータを生成してよい。また、段階933で、コンピュータシステム110は、客体のオーディオファイルとメタデータを記録してよい。プロセッサ570は、メモリ560に、客体のオーディオファイルとメタデータをともに記録してよい。この後、段階935で、コンピュータシステム110は、客体のオーディオファイルとメタデータを送信してよい。プロセッサ570は、通信モジュール520により、外部サーバまたは電子装置150に、客体のオーディオファイルとメタデータをともに送信してよい。このとき、プロセッサ570は、オーディオファイルとメタデータを圧縮および暗号化して送信してよい。一実施形態によると、入力モジュール530によって創作者の命令が感知されれば、プロセッサ570は、外部サーバまたは電子装置150に、客体のオーディオファイルとメタデータをともに送信してよい。通信モジュール520によって外部サーバまたは電子装置150からの要請が受信されれば、プロセッサ570は、外部サーバまたは電子装置150に、客体のオーディオファイルとメタデータをともに送信してよい。
【0060】
図10は、多様な実施形態における、電子装置150の内部構成を示したブロック図である。
【0061】
図10を参照すると、多様な実施形態に係る電子装置150は、連結端子1010、通信モジュール1020、入力モジュール1030、表示モジュール1040、オーディオモジュール1050、メモリ1060、またはプロセッサ1070のうちの少なくとも1つを含んでよい。一実施形態によると、電子装置150の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によると、電子装置150の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
【0062】
連結端子1010は、電子装置150で外部装置と物理的に連結されてよい。例えば、外部装置は、他の電子装置を含んでよい。このために、連結端子1010は、少なくとも1つのコネクタを含んでよい。例えば、コネクタは、HDMIコネクタ、USBコネクタ、SDカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか1つを含んでよい。
【0063】
通信モジュール1020は、電子装置150で外部装置との通信を実行してよい。通信モジュール1020は、電子装置150と外部装置との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置との通信を実行してよい。例えば、外部装置は、コンピュータシステム110を含んでよい。通信モジュール1020は、有線通信モジュールまたは無線通信モジュールのうちの少なくとも1つを含んでよい。有線通信モジュールは、連結端子1010を介して外部装置と有線で連結され、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか1つを含んでよい。近距離通信モジュールは、外部装置と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース、Wi-Fiダイレクト、または赤外線通信のうちの少なくともいずれか1つを含んでよい。遠距離通信モジュールは、外部装置と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部装置と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはLANやWANのようなコンピュータネットワークのうちの少なくともいずれか1つを含んでよい。
【0064】
入力モジュール1030は、電子装置150の少なくとも1つの構成要素が使用する信号を入力してよい。入力モジュール1030は、利用者が電子装置150に信号を直接入力するように構成される入力装置、周辺環境を感知して信号を発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか1つを含んでよい。例えば、入力装置は、マイクロホン(microphone)、マウス(mouse)、またはキーボード(keyboard)のうちの少なくともいずれか1つを含んでよい。一実施形態において、センサ装置は、ヘッドトラッキング(head tracking)センサ、ヘッドマウントディスプレイ(head-mounted display、HMD)コントローラ、タッチを感知するように設定されたタッチ回路(touch circuitry)、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか1つを含んでよい。
【0065】
表示モジュール1040は、情報を視覚的に表示してよい。例えば、表示モジュール1040は、ディスプレイ、ヘッドマウントディスプレイ(HMD)、ホログラム装置、またはプロジェクタのうちの少なくともいずれか1つを含んでよい。一例として、表示モジュール1040は、入力モジュール1030のタッチ回路またはセンサ回路のうちの少なくともいずれか1つと組み立てられてタッチスクリーンとして実現されてよい。
【0066】
オーディオモジュール1050は、情報を聴覚的に再生してよい。例えば、オーディオモジュール1050は、スピーカ、レシーバ、イヤホン、またはヘッドホンのうちの少なくともいずれか1つを含んでよい。
【0067】
メモリ1060は、電子装置150の少なくとも1つの構成要素が使用する多様なデータを記録してよい。例えば、メモリ1060は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含んでよい。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ1060に少なくとも1つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか1つを含んでよい。例えば、アプリケーションは、コンピュータシステム110の製作ツール565と連動して動作するためのアプリケーションを含んでよい。
【0068】
プロセッサ1070は、メモリ1060のプログラムを実行し、電子装置150の少なくとも1つの構成要素を制御してよい。これにより、プロセッサ1070は、データ処理または演算を実行してよい。このとき、プロセッサ1070は、メモリ1060に記録された命令を実行してよい。プロセッサ1070は、コンピュータシステム110から提供されるコンテンツを再生してよい。プロセッサ1070は、表示モジュール1040により、ビデオコンテンツを再生してよく、オーディオモジュール1050により、プレーンオーディオコンテンツまたはイマーシブオーディオコンテンツのうちの少なくとも1つを再生してよい。
【0069】
プロセッサ1070は、通信モジュール1020により、コンピュータシステム110から、ある現場に位置する客体のオーディオファイルとメタデータを受信してよい。また、プロセッサ1070は、メタデータに基づいてオーディオファイルをレンダリングしてよい。これにより、プロセッサ1070は、メタデータの客体の空間的特徴に基づいてオーディオファイルをレンダリングしてよい。
【0070】
図11は、多様な実施形態における、電子装置150の動作の流れを示したフローチャートである。
【0071】
図11を参照すると、段階1110で、電子装置150は、オーディオファイルとメタデータを受信してよい。プロセッサ1070は、通信モジュール1020により、サーバ330から、ある現場に位置する客体に対するオーディオファイルとメタデータを受信してよい。このとき、プロセッサ1070は、第2通信プロトコル、例えば、HTTPライブストリーミング(HLS)を利用して、オーディオファイルとメタデータを受信してよい。
【0072】
次に、段階1120で、電子装置150は、メタデータに基づいて客体のうちの少なくとも1つを選択してよい。このとき、プロセッサ1070は、ユーザインタフェース(user interface、IU)を利用した利用者の入力に基づいて、客体のうちの少なくとも1つを選択してよい。より具体的に説明すると、プロセッサ1070は、利用者のためにユーザインタフェースを出力してよい。一例として、プロセッサ1070は、通信モジュール1020により、外部装置でユーザインタフェースを出力してよい。他の例として、プロセッサ1070は、表示モジュール1040により、ユーザインタフェースを出力してよい。この後、プロセッサ1070は、ユーザインタフェースを利用した少なくとも1つの利用者の入力に基づいて、客体のうちの少なくとも1つを選択してよい。
【0073】
次に、段階1120で、電子装置150は、メタデータに基づいてオーディオファイルをレンダリングしてよい。プロセッサ1070は、メタデータから選択された客体の空間的特徴に基づいてオーディオファイルをレンダリングしてよい。プロセッサ1070は、客体の空間的特徴を客体のオーディオファイルに適用し、オーディオモジュール1050によって最終的なオーディオ信号を再生してよい。これにより、電子装置150は、該当の現場に対するユーザカスタム型臨場感を実現することができる。したがって、利用者は、客体が配置される現場において、該当の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。
【0074】
多様な実施形態によると、利用者のためにユーザカスタム型臨場感を実現するための材料であるオーディオコンテンツを製作するための製作ツール565が提案されてよい。このとき、コンピュータシステム110は、ある現場に位置する複数の客体のオーディオファイルをそれぞれ生成してよい。また、コンピュータシステム110は、製作ツール565を利用して、客体に対する現場の空間的特徴を含むメタデータを生成してよい。このとき、コンピュータシステム110は、創作者の設定に基づいて、客体に対して空間的特徴をそれぞれ生成してよい。このために、電子装置150は、単に完成形態のオーディオコンテンツを再生するのではなく、ユーザカスタム型のオーディオコンテンツを再生することができる。すなわち、電子装置150は、メタデータの空間的特徴に基づいてオーディオファイルをレンダリングして、立体音響を実現することができる。したがって、電子装置150は、オーディオと関連してユーザカスタム型臨場感を実現し、これにより、電子装置150の利用者は、特定の現場において、特定の客体から発生するオーディオ信号を直に聞くように、ユーザカスタム型臨場感を感じることができるようになる。
【0075】
多様な実施形態に係るコンピュータシステム110による方法は、現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成する段階(段階610)、製作ツール565を利用して、客体に対して現場の空間的特徴をそれぞれ設定する段階(段階620)、および空間的特徴に基づいて、オーディオファイルのメタデータを生成する段階(段階630)を含んでよい。
【0076】
多様な実施形態によると、空間的特徴をそれぞれ設定する段階(段階620)は、グラフィックインタフェース300、400を出力する段階(段階821階)、グラフィックインタフェース300、400を利用した少なくとも1つの入力に基づいて(段階823)、客体に対して空間的特徴をそれぞれ設定する段階(段階825)、および客体と関連して空間的特徴をそれぞれ記録する段階(段階827)を含んでよい。
【0077】
多様な実施形態によると、メタデータは、客体それぞれの位置情報、客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または現場の環境情報のうちの少なくとも1つを含んでよい。
【0078】
多様な実施形態によると、客体それぞれは、楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景のうちの1つを含んでよい。
【0079】
多様な実施形態によると、グラフィックインタフェース300、400は、現場に位置する客体を表示するための第1領域310、および第1領域310と同じ画面上に表示され、第1領域310から選択される客体の位置を設定するための第2領域320を含んでよい。
【0080】
多様な実施形態によると、空間的特徴をそれぞれ設定する段階(段階825)は、位置に基づいて、空間的特徴をそれぞれ設定してよい。
【0081】
多様な実施形態によると、グラフィックインタフェース300、400は、第1領域310と同じ画面上に表示され、第1領域310から選択される客体のオーディオ効果を調整するための第3領域330をさらに含んでよい。
【0082】
多様な実施形態によると、空間的特徴をそれぞれ設定する段階(段階825)は、位置とオーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。
【0083】
多様な実施形態によると、グラフィックインタフェース300、400は、少なくとも1つの現場を表示するための第4領域440、または第4領域440と同じ画面に表示され、第4領域440から選択される現場と関連するオーディオ効果を調整するための第5領域450のうちの少なくとも1つをさらに含んでよい。
【0084】
多様な実施形態によると、空間的特徴をそれぞれ設定する段階(段階825)は、オーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。
【0085】
多様な実施形態によると、第4領域440は、第1領域310と同じ領域に表示されるか、異なる領域に表示されてよい。
【0086】
多様な実施形態によると、コンピュータシステム110による方法は、メタデータに基づいてオーディオファイルをレンダリングする段階、オーディオファイルとメタデータをともに記録する段階(段階933)、または、オーディオファイルとメタデータをともに送信する段階(段階935)のうちの少なくとも1つをさらに含んでよい。
【0087】
多様な実施形態によると、オーディオファイルとメタデータをともに送信する段階(段階935)は、オーディオファイルとメタデータをPCM(pulse code modulation)オーディオ信号で構成して、送信する段階を含んでよい。
【0088】
多様な実施形態によると、メタデータは、PCMオーディオ信号のメタデータトラック(metadata track)に埋め込まれ、オーディオファイルとメタデータのエンコードに利用されるオーディオコーデックのフレームサイズに基づいてオーディオファイルと同期化され、ドリフト補正によるチャンネル間の補正が適用されないように生成されてメタデータトラックに記入され、1つのフレーム内に複数のセットで記入されてよい。
【0089】
多様な実施形態に係るコンピュータシステム110は、メモリ560、およびメモリ560と連結し、メモリ560に記録された少なくとも1つの命令を実行するように構成されたプロセッサ570を含んでよい。
【0090】
多様な実施形態によると、プロセッサ570は、現場に位置する複数の客体それぞれが発生するオーディオ信号に基づいてオーディオファイルをそれぞれ生成し、製作ツール565を利用して、客体に対して現場の空間的特徴をそれぞれ設定し、空間的特徴に基づいて、オーディオファイルのメタデータを生成するように構成されてよい。
【0091】
多様な実施形態によると、プロセッサ570は、グラフィックインタフェース300、400を出力し、グラフィックインタフェース300、400を利用した少なくとも1つの入力に基づいて、客体に対して空間的特徴をそれぞれ設定し、客体と関連して空間的特徴をそれぞれ記録するように構成されてよい。
【0092】
多様な実施形態によると、少なくとも1つのオーディオファイルのメタデータは、客体それぞれの位置情報、客体のうちの少なくとも2つの位置の組み合わせを示すグループ情報、または、現場の環境情報のうちの少なくとも1つを含んでよい。
【0093】
多様な実施形態によると、客体それぞれは、楽器、楽器演奏者、ボーカリスト、対話者、スピーカ、または背景のうちの1つを含んでよい。
【0094】
多様な実施形態によると、グラフィックインタフェース300、400は、現場に位置する客体を表示するための第1領域310、および第1領域310と同じ画面上に表示され、第1領域310から選択される客体の位置を設定するための第2領域320を含んでよい。
【0095】
多様な実施形態によると、プロセッサ570は、位置に基づいて、空間的特徴をそれぞれ設定してよい。
【0096】
多様な実施形態によると、グラフィックインタフェース300、400は、第1領域310と同じ画面上に表示され、第1領域310から選択される客体のオーディオ効果を調整するための第3領域330をさらに含んでよい。
【0097】
多様な実施形態によると、プロセッサ570は、位置とオーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。
【0098】
多様な実施形態によると、グラフィックインタフェース300、400は、少なくとも1つの現場を表示するための第4領域440、または第4領域440と同じ画面に表示され、第4領域440から選択される現場と関連するオーディオ効果を調整するための第5領域450のうちの少なくとも1つをさらに含んでよい。
【0099】
多様な実施形態によると、プロセッサ570は、オーディオ効果に基づいて、空間的特徴をそれぞれ設定してよい。
【0100】
多様な実施形態によると、第4領域440は、第1領域310と同じ領域に表示されるか、異なる領域に表示されてよい。
【0101】
多様な実施形態によると、プロセッサ570は、メタデータに基づいて、オーディオファイルをレンダリングしたり、オーディオファイルとメタデータをともに記録したり、オーディオファイルとメタデータをともに送信したりしてよい。
【0102】
多様な実施形態によると、プロセッサ570は、オーディオファイルとメタデータをPCMオーディオ信号で構成して、送信する段階を含んでよい。
【0103】
多様な実施形態によると、メタデータは、PCMオーディオ信号のメタデータトラックに埋め込まれ、オーディオファイルとメタデータのエンコードに利用されるオーディオコデックスのフレームサイズに基づいてオーディオファイルと同期化され、ドリフト補正によるチャンネル間の補正が適用されないように生成されてメタデータトラックに記入され、1つのフレーム内に複数のセットで記入されてよい。
【0104】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/または、ハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または、命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0105】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0106】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0107】
本文書の多様な実施形態とこれに使用した用語は、本文書に記載された技術を特定の実施形態に対して限定しようとするものではなく、該当の実施例の多様な変更、均等物、および/または代替物を含むものと理解されなければならない。図面の説明に関し、類似の構成要素に対しては類似の参照符号を付与した。単数の表現は、文脈上で明らかに異なるように意味しない限り、複数の表現を含んでよい。本文書において、「AまたはB」、「Aおよび/またはBのうちの少なくとも1つ」、「A、B、またはC」、または「A、B、および/またはCのうちの少なくとも1つ」などの表現は、ともに羅列された項目のすべての可能な組み合わせを含んでよい。「第1」、「第2」、「1番目」、または「2番目」などの表現は、該当の構成要素を順序または重要度に関係なく修飾してよく、ある構成要素を他の構成要素と区分するために使用されるものに過ぎず、該当の構成要素を限定するものではない。ある(例:第1)構成要素が他の(例:第2)構成要素に「(機能的にまたは通信的に)連結されて」いるとか「接続されて」いると言及されるときには、前記ある構成要素が前記他の構成要素に直接的に連結されてもよいし、他の構成要素(例:第3構成要素)を経て連結されてもよい。
【0108】
本文書で使用された用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または1つまたはそれ以上の機能を実行する最小単位またはその一部となってよい。例えば、モジュールは、ASIC(application-specific integrated circuit)で構成されてよい。
【0109】
多様な実施形態によると、上述した構成要素のそれぞれの構成要素(例:モジュールまたはプログラム)は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの1つ以上の構成要素または段階が省略されてもよいし、1つ以上の他の構成要素または段階が追加されてもよい。大体的にまたは追加的に、複数の構成要素(例:モジュールまたはプログラム)は、1つの構成要素として統合されてよい。この場合、統合された構成要素は、複数の構成要素それぞれの構成要素の1つ以上の機能を、統合前に複数の構成要素のうちの該当の構成要素によって実行されることと同一または類似に実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される段階は、順次的に、並列的に、反復的に、または発見的に実行されてもよいし、段階のうちの1つ以上が他の順序で実行されたり、省略されたり、または1つ以上の他の段階が追加されたりしてもよい。
【符号の説明】
【0110】
110:コンピュータシステム
510:連結端子
520:通信モジュール
530:入力モジュール
540:表示モジュール
550:オーディオモジュール
560:メモリ
565:製作ツール
570:プロセッサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11