(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133422
(43)【公開日】2022-09-13
(54)【発明の名称】情報処理装置および情報処理方法
(51)【国際特許分類】
H04N 21/845 20110101AFI20220906BHJP
H04N 21/233 20110101ALI20220906BHJP
G11B 20/12 20060101ALI20220906BHJP
G11B 27/00 20060101ALI20220906BHJP
G10L 19/00 20130101ALI20220906BHJP
【FI】
H04N21/845
H04N21/233
G11B20/12
G11B27/00 A
G10L19/00 312E
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022109532
(22)【出願日】2022-07-07
(62)【分割の表示】P 2020214925の分割
【原出願日】2015-06-30
(31)【優先権主張番号】P 2014134878
(32)【優先日】2014-06-30
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2015107970
(32)【優先日】2015-05-27
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2015109838
(32)【優先日】2015-05-29
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2015119359
(32)【優先日】2015-06-12
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2015121336
(32)【優先日】2015-06-16
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2015124453
(32)【優先日】2015-06-22
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】平林 光浩
(72)【発明者】
【氏名】山本 優樹
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】史 潤宇
(57)【要約】
【課題】複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにする。
【解決手段】ファイル生成装置は、複数のグループのオーディオストリームが1以上のグループごとにトラックに分割されて配置されるとともに、複数のグループに関する情報が配置された音声ファイルを生成する。本開示は、例えば、ファイルを生成するファイル生成装置、ファイル生成装置により生成されたファイルを記録するWebサーバ、および、ファイルを再生する動画再生端末により構成される情報処理システム等に適用することができる。
【選択図】
図8
【特許請求の範囲】
【請求項1】
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部
を備える情報処理装置。
【請求項2】
前記複数の種類に関する情報は、所定のトラックのサンプルエントリに配置される
ように構成された
請求項1に記載の情報処理装置。
【請求項3】
前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックのうちの1つである
ように構成された
請求項2に記載の情報処理装置。
【請求項4】
前記ファイルには、前記トラックごとに、そのトラックに対応する前記種類に関する情報が配置される
ように構成された
請求項1に記載の情報処理装置。
【請求項5】
前記ファイルには、前記トラックごとに、そのトラックに対応する種類と、その種類の音声データと排他的に再生される音声データに対応する種類とからなる排他的再生種類に関する情報が配置される
ように構成された
請求項4に記載の情報処理装置。
【請求項6】
前記トラックに対応する種類に関する情報および前記排他的再生種類に関する情報は、対応するトラックのサンプルエントリに配置される
ように構成された
請求項5に記載の情報処理装置。
【請求項7】
前記ファイル生成部は、前記トラックごとに前記排他的再生種類に関する情報が存在するかを示す情報を含む、前記ファイルを管理する管理ファイルを生成する
ように構成された
請求項5に記載の情報処理装置。
【請求項8】
前記ファイルには、前記複数の種類に対応するトラックへの参照情報が配置される
ように構成された
請求項1に記載の情報処理装置。
【請求項9】
前記参照情報は、所定のトラックのサンプルに配置される
ように構成された
請求項8に記載の情報処理装置。
【請求項10】
前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックの1つである
ように構成された
請求項9に記載の情報処理装置。
【請求項11】
前記ファイルには、前記トラック間の参照関係を表す情報が配置される
ように構成された
請求項1に記載の情報処理装置。
【請求項12】
前記ファイル生成部は、前記トラック間の参照関係を表す情報を含む、前記ファイルを管理する管理ファイルを生成する
ように構成された
請求項1に記載の情報処理装置。
【請求項13】
前記ファイルは、1つのファイルである
ように構成された
請求項1に記載の情報処理装置。
【請求項14】
前記ファイルは、前記トラックごとのファイルである
ように構成された
請求項1に記載の情報処理装置。
【請求項15】
情報処理装置が、
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成ステップ
を含む情報処理方法。
【請求項16】
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部
を備える情報処理装置。
【請求項17】
情報処理装置が、
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生ステップ
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置および情報処理方法に関し、特に、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにした情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
近年、インターネット上のストリーミングサービスの主流がOTT-V(Over The Top Video)となっている。この基盤技術として普及し始めているのがMPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)である(例えば、非特許文献1参照)。
【0003】
MPEG-DASHでは、配信サーバが1本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】MPEG-DASH(Dynamic Adaptive Streaming over HTTP)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、複数のグループの音声データのうちの所定のグループの音声データを容易に再生することは考えられていない。
【0006】
本開示は、このような状況に鑑みてなされたものであり、複数のグループの音声データのうちの所望のグループの音声データを容易に再生することができるようにするものである。
【課題を解決するための手段】
【0007】
本開示の第1の側面の情報処理装置は、複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部を備える情報処理装置である。
【0008】
本開示の第1の側面の情報処理方法は、本開示の第1の側面の情報処理装置に対応する。
【0009】
本開示の第1の側面においては、複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルが生成される。
【0010】
本開示の第2の側面の情報処理装置は、複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部を備える情報処理装置である。
【0011】
本開示の第2の側面の情報処理方法は、本開示の第2の側面の情報処理装置に対応する。
【0012】
本開示の第2の側面においては、複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データが再生される。
【0013】
なお、第1および第2の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。
【0014】
また、第1および第2の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
【発明の効果】
【0015】
本開示の第1の側面によれば、ファイルを生成することができる。また、本開示の第1の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにしたファイルを生成することができる。
【0016】
本開示の第2の側面によれば、音声データを再生することができる。また、本開示の第2の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができる。
【図面の簡単な説明】
【0017】
【
図2】「Period」、「Representation」、および「Segment」の関係を示す図である。
【
図4】MPDファイルの構造と時間軸との関係を示す図である。
【
図5】MP4の3Dオーディオファイルフォーマットのトラックの概要を説明する図である。
【
図8】本開示を適用した第1実施の形態における情報処理システムの概要を説明する図である。
【
図9】本開示を適用した第1実施の形態におけるトラックの第1の例の概要を説明する図である。
【
図10】ベーストラックのサンプルエントリのシンタクスの例を示す図である。
【
図11】switch Groupを形成するグループのトラックのサンプルエントリのシンタクスの例を示す図である。
【
図12】セグメント構造の第1の例を示す図である。
【
図13】セグメント構造の第2の例を示す図である。
【
図14】level assignmentボックスの記述例を示す図である。
【
図15】本開示を適用した第1実施の形態におけるMPDファイルの第1の記述例を示す図である。
【
図16】
図8のファイル生成装置の構成例を示すブロック図である。
【
図17】
図16のファイル生成装置のファイル生成処理を説明するフローチャートである。
【
図18】
図8の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。
【
図19】
図18のストリーミング再生部の再生処理を説明するフローチャートである。
【
図20】本開示を適用した第1実施の形態におけるトラックの第2の例の概要を説明する図である。
【
図21】switch Groupを形成するグループのトラックのサンプルグループエントリのシンタクスの例を示す図である。
【
図22】各グループのトラックのサンプルエントリのシンタクスの例を示す図である。
【
図23】音声ファイルのトラックの第3の例の概要を説明する図である。
【
図24】MPDファイルの第2の記述例を示す図である。
【
図25】MPDファイルの第2の記述例の他の例を示す図である。
【
図26】音声ファイルのトラックの第4の例の概要を説明する図である。
【
図27】MPDファイルの第3の記述例を示す図である。
【
図28】音声ファイルのトラックの第5の例の概要を説明する図である。
【
図29】4ccが「mha3」であるサンプルエントリのシンタクスの例を示す図である。
【
図30】4ccが「mha3」であるサンプルエントリのシンタクスの他の例を示す図である。
【
図31】MPDファイルの第4の記述例を示す図である。
【
図32】音声ファイルのトラックの第3の例の他の例の概要を説明する図である。
【
図33】音声ファイルのトラックの第4の例の他の例の概要を説明する図である。
【
図34】音声ファイルのトラックの第5の例の他の例の概要を説明する図である。
【
図35】音声ファイルのトラックの第6の例の概要を説明する図である。
【
図36】
図35のベーストラックおよびグループトラックのサンプルエントリのシンタクスの例を示す図である。
【
図37】4ccが「mha3」であるサンプルエントリのシンタクスのさらに他の例を示す図である。
【
図38】本開示を適用した第2実施の形態におけるトラックの概要を説明する図である。
【
図39】本開示を適用した第2実施の形態におけるMPDファイルの第1の記述例を示す図である。
【
図40】本開示を適用した第2実施の形態における情報処理システムの概要を説明する図である。
【
図41】
図40のファイル生成装置の構成例を示すブロック図である。
【
図42】
図41のファイル生成装置のファイル生成処理を説明するフローチャートである。
【
図43】
図40の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。
【
図44】
図43のストリーミング再生部の再生処理の例を説明するフローチャートである。
【
図45】本開示を適用した第2実施の形態におけるMPDファイルの第2の記述例を示す図である。
【
図46】本開示を適用した第2実施の形態におけるMPDファイルの第3の記述例を示す図である。
【
図47】本開示を適用した第2実施の形態におけるMPDファイルの第4の記述例を示す図である。
【
図48】本開示を適用した第2実施の形態におけるMPDファイルの第5の記述例を示す図である。
【
図49】本開示を適用した第2実施の形態におけるMPDファイルの第6の記述例を示す図である。
【
図50】本開示を適用した第2実施の形態におけるMPDファイルの第7の記述例を示す図である。
【
図51】複数のベーストラックを有する音声ファイルのトラック構造の例を示す図である。
【
図52】複数のベーストラックを有する音声ファイルのトラック構造の他の例を示す図である。
【
図53】コンピュータのハードウエアの構成例を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、本開示の前提および本開示を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
0.本開示の前提(
図1乃至
図7)
1.第1実施の形態(
図8乃至
図37)
2.第2実施の形態(
図38乃至
図50)
3.ベーストラックの他の例(
図51および
図52)
4.第3実施の形態(
図53)
【0019】
<本開示の前提>
(MPDファイルの構造の説明)
図1は、MPEG-DASHのMPDファイル(Media Presentation Description)の構造を示す図である。
【0020】
MPDファイルの解析(パース)においては、MPDファイル(
図1のMedia Presentation)の「Period」に含まれる「Representation」の属性から最適なものが選択される。
【0021】
そして、選択された「Representation」の先頭の「Initialization Segment」のURL(Uniform Resource Locator)等を参照してファイルが取得され、処理される。続いて、後続の「Media Segment」のURL等を参照してファイルが取得され、再生される。
【0022】
なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、
図2のようになる。つまり、1つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。
【0023】
したがって、MPDファイルは、「Period」以下において、
図3に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると
図4の例のようになる。
図4から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。
これらのうちのいずれかを適応的に選択することにより、ユーザの所望の属性のストリームを取得し、再生することができる。
【0024】
(3Dオーディオファイルフォーマットの概要)
図5は、MP4の3Dオーディオファイルフォーマットのトラックの概要を説明する図である。
【0025】
MP4ファイルでは、トラックごとに、動画コンテンツのコーデック情報やファイル内の位置を示す位置情報を管理することができる。MP4の3Dオーディオファイルフォーマットでは、3Dオーディオ(Channel audio/Object audio/SAOC Object audio/HOA audio/metadata)のオーディオストリーム(ES(Elementary Stream))の全てが、1つのトラックとしてサンプル(フレーム)単位で記録される。また、3Dオーディオのコーデック情報(Profile/level/audio configuration)が、サンプルエントリ(sample entry)として格納される。
【0026】
3Dオーディオを構成するChannel audioは、チャンネル単位の音声データであり、Object audioは、オブジェクト単位の音声データである。なお、オブジェクトとは、音源であり、オブジェクト単位の音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。
【0027】
また、SAOC Object audioは、SAOC(Spatial Audio Object Coding)の音声データであり、HOA audioは、HOA(Higher Order Ambisonics)の音声データであり、metadataは、Channel audio,Object audio,SAOC Object audio、およびHOA audioのメタデータである。
【0028】
(moovボックスの構造)
図6は、MP4ファイルのmoovボックスの構造を示す図である。
【0029】
図6に示すように、MP4ファイルでは、画像データと音声データが異なるトラックとして記録される。
図6では、音声データのトラックの詳細は記述していないが、画像データのトラックと同様である。sample entryは、moovボックス内のstsdボックスに配置されるsample descriptionに含まれる。
【0030】
ところで、MP4ファイルの放送やローカルストレージ再生では、一般的に、サーバ側が、全ての3Dオーディオのオーディオストリームを送出する。そして、クライアント側が、全ての3Dオーディオのオーディオストリームをパースしながら、必要な3Dオーディオのオーディオストリームのみを復号し、出力する。しかしながら、ビットレートが高い場合や、ローカルストレージの読み込みレートに制約がある場合、必要な3Dオーディオのオーディオストリームのみを取得することにより、デコード処理の負荷を軽減することが望ましい。
【0031】
また、MPEG-DASHに準拠したMP4ファイルのストリーム再生では、サーバ側は、複数の符号化速度のオーディオストリームを用意している。従って、クライアント側が、必要な3Dオーディオのオーディオストリームだけを取得することにより、再生環境に最適な符号化速度のオーディオストリームを選択し、取得することができる。
【0032】
以上により、本開示では、3Dオーディオのオーディオストリームを種類に応じてトラックに分割し、音声ファイルに配置することにより、所定の種類の3Dオーディオのオーディオストリームのみを効率良く取得可能にする。これにより、放送やローカルストレージ再生では、デコード処理の負荷を軽減することができる。また、ストリーム再生では、帯域に応じて、必要な3Dオーディオのオーディオストリームのうちの最も品質の高いものを再生することができる。
【0033】
(3Dオーディオの階層構造の説明)
図7は、3Dオーディオの階層構造を示す図である。
【0034】
図7に示すように、3Dオーディオの音声データは、音声データごとに異なるオーディオエレメント(Element)とされる。オーディオエレメントのタイプとしては、SCE(Single Channel Element)とCPE(Channel Pair Element)がある。1チャンネル分の音声データのオーディオエレメントのタイプはSCEであり、2チャンネル分の音声データに対応するオーディオエレメントのタイプはCPEである。
【0035】
オーディオエレメントは、同一の音声の種類(Channel/Object/SAOC Object/HOA)どうしでグループを形成する。従って、グループタイプ(GroupType)としては、Channels,Objects,SAOC Objects、およびHOAである。2以上のグループは、必要に応じて、switch Groupやgroup Presetを形成することができる。
【0036】
switch Groupは、そこに含まれるグループのオーディオストリームが排他的に再生されるグループ(排他的再生グループ)である。即ち、
図7に示すように、英語(EN)用のObject audioのグループと、フランス語(FR)用のObject audioのグループが存在する場合、いずれか一方のグループのみが再生されるべきである。従って、グループIDが2である英語用のObject audioのグループと、グループIDが3であるフランス語用のObject audioのグループとから、switch Groupが形成される。これにより、英語用のObject audioとフランス語用のObject audioが排他的に再生される。
【0037】
一方、group Presetは、コンテンツ製作者が意図するグループの組み合わせを定義するものである。
【0038】
また、3Dオーディオのメタデータは、メタデータごとに異なるExtエレメント(Ext Element)とされる。Extエレメントのタイプとしては、Object Metadata,SAOC 3D Metadata,HOA Metadata,DRC Metadata,SpatialFrame,SaocFrameなどがある。Object MetadataのExtエレメントは、全てのObject audioのメタデータであり、SAOC 3D MetadataのExtエレメントは、全てのSAOC audioのメタデータである。また、HOA MetadataのExtエレメントは、全てのHOA audioのメタデータであり、DRC(Dynamic Range Control) MetadataのExtエレメントは、Object audio, SAOC audio、およびHOA audioの全てのメタデータである。
【0039】
以上のように、3Dオーディオのうちの音声データの分割単位としては、オーディオエレメント、グループタイプ、グループ、switch Group、およびgroup Presetがある。従って、3Dオーディオのうちの音声データのオーディオストリームは、オーディオエレメント、グループタイプ、グループ、switch Group、またはgroup Presetを種類として、種類ごとに異なるトラックに分割することができる。
【0040】
また、3Dオーディオのうちのメタデータの分割単位としては、Extエレメントのタイプ、または、そのメタデータに対応するオーディオエレメントがある。従って、3Dオーディオのメタデータのオーディオストリームは、Extエレメントや、そのメタデータに対応するオーディオエレメントを種類として、種類ごとに異なるトラックに分割することができる。
【0041】
以下の実施の形態では、音声データのオーディオストリームが1以上のグループごとにトラックに分割され、メタデータのオーディオストリームがExtエレメントのタイプごとにトラックに分割される。
【0042】
<第1実施の形態>
(情報処理システムの概要)
図8は、本開示を適用した第1実施の形態における情報処理システムの概要を説明する図である。
【0043】
図8の情報処理システム140は、ファイル生成装置141と接続されるWebサーバ142と動画再生端末144が、インターネット13を介して接続されることにより構成される。
【0044】
情報処理システム140では、MPEG-DASHに準ずる方式で、Webサーバ142が、再生対象のグループのトラックのオーディオストリームを、動画再生端末144に配信する。
【0045】
具体的には、ファイル生成装置141は、動画コンテンツの3Dオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。ファイル生成装置141は、符号化速度、および、セグメントと呼ばれる数秒から10秒程度の時間単位ごとに、全てのオーディオストリームをファイル化し、音声ファイルを生成する。このとき、ファイル生成装置141は、オーディオストリームをグループおよびExtエレメントのタイプごとに分割し、異なるトラックのオーディオストリームとして音声ファイルに配置する。ファイル生成装置141は、生成された音声ファイルをWebサーバ142にアップロードする。
【0046】
また、ファイル生成装置141は、音声ファイル等を管理するMPDファイル(管理ファイル)を生成する。ファイル生成装置141は、MPDファイルをWebサーバ142にアップロードする。
【0047】
Webサーバ142は、ファイル生成装置141からアップロードされた符号化速度およびセグメントごとの音声ファイルとMPDファイルを格納する。Webサーバ142は、動画再生端末144からの要求に応じて、格納している音声ファイル、MPDファイル等を動画再生端末144に送信する。
【0048】
動画再生端末144は、ストリーミングデータの制御用ソフトウエア(以下、制御用ソフトウエアという)161、動画再生ソフトウエア162、HTTP(HyperText Transfer Protocol)アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)163などを実行する。
【0049】
制御用ソフトウエア161は、Webサーバ142からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア161は、動画再生端末144にWebサーバ142からMPDファイルを取得させる。
【0050】
また、制御用ソフトウエア161は、MPDファイルに基づいて、動画再生ソフトウエア162により指定される再生対象のグループ、および、そのグループに対応するExtエレメントのタイプのトラックのオーディオストリームの送信要求を、アクセス用ソフトウエア163に指令する。
【0051】
動画再生ソフトウエア162は、Webサーバ142から取得されたオーディオストリームを再生するソフトウエアである。具体的には、動画再生ソフトウエア162は、制御用ソフトウエア161は、再生対象のグループ、および、そのグループに対応するExtエレメントのタイプを制御用ソフトウエア161に指定する。また、動画再生ソフトウエア162は、アクセス用ソフトウエア163から受信開始の通知を受信したとき、動画再生端末144により受信されたオーディオストリームを復号する。動画再生ソフトウエア162は、復号の結果得られる音声データを必要に応じて合成し、出力する。
【0052】
アクセス用ソフトウエア163は、HTTPを用いたインターネット13を介したWebサーバ142との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア163は、制御用ソフトウエア161の指令に応じて、音声ファイルに含まれる再生対象のトラックのオーディオストリームの送信要求を、動画再生端末144に送信させる。また、アクセス用ソフトウエア163は、その送信要求に応じて、Webサーバ142から送信されてくるオーディオストリームの受信を動画再生端末144に開始させ、受信開始の通知を動画再生ソフトウエア162に供給する。
【0053】
なお、本明細書では、動画コンテンツの音声ファイルについてのみ説明するが、実際には、音声ファイルとともに、対応する画像ファイルが生成され、再生される。
【0054】
(音声ファイルのトラックの第1の例の概要)
図9は、音声ファイルのトラックの第1の例の概要を説明する図である。
【0055】
【0056】
図9に示すように、全ての3Dオーディオのオーディオストリームは、1つの音声ファイル(3dauio.mp4)に格納される。音声ファイル(3dauio.mp4)には、3Dオーディオの各グループのオーディオストリームが、それぞれ、異なるトラックに分割されて配置される。また、3Dオーディオ全体に関する情報が、ベーストラック(Base Track)として配置される。
【0057】
各トラックのtrackボックスには、Track Referenceが配置される。Track Referenceは、対応するトラックの他のトラックとの参照関係を表す。具体的には、Track Referenceは、参照関係にある他のトラックのトラックに固有のID(以下、トラックIDという)を表す。
【0058】
図9の例では、ベーストラック、グループIDが1であるグループ#1、グループIDが2であるグループ#2、グループIDが3であるグループ#3、グループIDが4であるグループ#4のトラックのトラックIDが、1,2,3,4,5となっている。また、ベーストラックのTrack Referenceは2,3,4,5であり、グループ#1乃至#4のトラックのTrack Referenceは、ベーストラックのトラックIDである1である。従って、ベーストラックとグループ#1乃至#4のトラックとは、参照関係にある。即ち、ベーストラックは、グループ#1乃至#4のトラックの再生時に参照される。
【0059】
また、ベーストラックのサンプルエントリの4cc(character code)は「mha2」であり、ベーストラックのサンプルエントリには、3Dオーディオの全てのグループのconfig情報またはベーストラックだけの復号に必要なconfig情報を含むmhaCボックスと、3Dオーディオの全てのグループおよびswitch Groupに関する情報を含むmhasボックスが配置される。グループに関する情報は、グループのID、グループに分類されるエレメントのデータの内容を表す情報等により構成される。switch Groupに関する情報は、switch GroupのID、switch Groupを形成するグループのID等により構成される。
【0060】
各グループのトラックのサンプルエントリの4ccは「mhg1」であり、各グループのトラックのサンプルエントリには、そのグループに関する情報を含むmhgCボックスが配置されてもよい。グループがswitch Groupを形成する場合、そのグループのトラックのサンプルエントリには、そのswitch Groupに関する情報を含むmhsCボックスが配置される。
【0061】
ベーストラックのサンプルには、各グループのトラックのサンプルへの参照情報、または、その参照情報の復号に必要なconfig情報が配置される。参照情報により参照される各グループのサンプルを参照情報の配置順に配置することにより、トラックに分割される前の3Dオーディオのオーディオストリームを生成することができる。参照情報は、各グループのトラックのサンプルの位置およびサイズ、グループタイプ等により構成される。
【0062】
(ベーストラックのサンプルエントリのシンタクスの例)
図10は、ベーストラックのサンプルエントリのシンタクスの例を示す図である。
【0063】
図10に示すように、ベーストラックのサンプルエントリには、mhaCボックス(MHAConfigration Box)、mhasボックス(MHAAudioSceneInfo Box)等が配置される。mhaCボックスには、3Dオーディオの全てのグループのconfig情報またはベーストラックだけの復号に必要なconfig情報が記述される。また、mhasボックスには、3Dオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述される。このAudioScene情報は、
図7の階層構造を記述するものである。
【0064】
(各グループのトラックのサンプルエントリのシンタクスの例)
図11は、各グループのトラックのサンプルエントリのシンタクスの例を示す図である。
【0065】
図11に示すように、各グループのトラックのサンプルエントリには、mhaCボックス(MHAConfigration Box)、mhgCボックス(MHAGroupDefinitionBox)、mhsCボックス(MHASwitchGropuDefinition Box)等が配置される。
【0066】
mhaCボックスには、対応するトラックの復号に必要なConfig情報が記述される。また、mhgCボックスには、対応するグループに関するAudioScene情報がGroupDefinitionとして記述される。mhsCボックスには、対応するグループがswitch Group を形成する場合、そのswitch Groupに関するAudioScene情報がSwitchGroupDefinitionとして記述される。
【0067】
(音声ファイルのセグメント構造の第1の例)
図12は、音声ファイルのセグメント構造の第1の例を示す図である。
【0068】
図12のセグメント構造では、Initial segmentが、ftypボックスとmoovボックスにより構成される。moovボックスには、音声ファイルに含まれるトラックごとにtrak boxが配置される。また、moovボックスには、各トラックのトラックIDと、media segment内のssixボックスで用いられるlevelとの対応関係を表す情報などを含むmvexボックスが配置される。
【0069】
また、media segmentは、sidxボックス、ssixボックス、および、1以上のsubsegmentにより構成される。sidxボックスには、各subsegmentの音声ファイル内の位置を示す位置情報が配置される。ssixボックスには、mdatボックスに配置される各レベルのオーディオストリームの位置情報が含まれる。なお、レベルは、トラックに対応するものである。また、最初のトラックの位置情報は、moofボックスと最初のトラックのオーディオストリームからなるデータの位置情報である。
【0070】
subsegmentは、任意の時間長ごとに設けられ、subsegmentには、全てのトラックに共通の1組のmoofボックスとmdatボックスのペアが設けられる。mdatボックスには、全てのtrackのオーディオストリームが、任意の時間長分だけまとめて配置され、moofボックスには、そのオーディオストリームの管理情報が配置される。mdatボックスに配置される各trackのオーディオストリームは、track毎に連続している。
【0071】
図12の例では、トラックIDが1であるTrack1はベーストラックであり、トラックIDが2乃至NであるTrack2乃至TrackNは、グループIDが1乃至N-1であるグループのトラックである。このことは、後述する
図13においても同様である。
【0072】
(音声ファイルのセグメント構造の第2の例)
図13は、音声ファイルのセグメント構造の第2の例を示す図である。
【0073】
図13のセグメント構造は、トラックごとにmoofボックスとmdatボックスが設けられる点が、
図12のセグメント構造と異なっている。
【0074】
即ち、
図13のInitial segmentは、
図12のInitial segmentと同様である。また、
図13のmedia segmentは、
図12のmedia segmentと同様に、sidxボックス、ssixボックス、および、1以上のsubsegmentにより構成される。sidxボックスには、
図12のsidxボックスと同様に、各subsegmentの位置情報が配置される。ssixボックスには、moofボックスとmdatボックスからなる各レベルのデータの位置情報が含まれる。
【0075】
subsegmentは、任意の時間長ごとに設けられ、subsegmentには、トラックごとにmoofボックスとmdatボックスのペアが設けられる。即ち、各トラックのmdatボックスには、そのトラックのオーディオストリームが、任意の時間長分だけまとめて配置(インターリーブ格納)され、moofボックスには、そのオーディオストリームの管理情報が配置される。
【0076】
図12および
図13に示すように、各トラックのオーディオストリームは、任意の時間長分まとめて配置されるため、サンプル単位でまとめて配置される場合に比べて、HTTP等を介したオーディオストリームの取得効率が改善する。
【0077】
(mvexボックスの記述例)
図14は、
図12および
図13のmvexボックスに配置されるlevel assignmentボックスの記述例を示す図である。
【0078】
level assignmentボックスは、各トラックのトラックIDとssixボックスで用いられるレベル(level)を対応付けるボックスである。
図14の例では、トラックIDが1であるベーストラックがレベル0に対応付けられ、トラックIDが2であるチャネルオーディオトラックがレベル1に対応付けられている。また、トラックIDが3であるHOAオーディオトラックがレベル2に対応付けられ、トラックIDが4であるオブジェクトメタデータトラックがレベル3に対応付けられている。さらに、トラックIDが5であるオブジェクトオーディオトラックがレベル4に対応付けられている。
【0079】
(MPDファイルの第1の記述例)
図15は、MPDファイルの第1の記述例を示す図である。
【0080】
図15に示すように、MPDファイルには、3Dオーディオの音声ファイル(3daudio.mp4)のセグメントを管理する「Representation」、そのセグメントに含まれるトラックを管理する「SubRepresentation」等が記述される。
【0081】
「Representation」と「SubRepresentation」には、対応するセグメント全体またはトラックのcodecの種類(profile,level)を、3D audio file formatで定義されるコードで表す「codecs」が含まれる。
【0082】
「SubRepresentation」には、対応するトラックのレベルを表す値としてlevel assignmentボックスで設定されている値である「level」が含まれる。「SubRepresentation」には、参照関係を有する(依存する)他のトラック(以下、参照トラックという)に対応するレベルを表す値である「dependencyLevel」が含まれる。
【0083】
さらに、「SubRepresentation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が含まれる。
【0084】
「dataType」は、対応するトラックのサンプルエントリに記述されるAudio Scene情報の内容(definition)の種類を表す番号であり、definitionは、その内容である。例えば、トラックのサンプルエントリにGroupDefinitionが含まれる場合、そのトラックの「dataType」として1が記述され、「definition」としてGroupDefinitionが記述される。また、トラックのサンプルエントリにSwitchGroupDefinitionが含まれる場合、そのトラックの「dataType」として2が記述され、「definition」としてSwitchGroupDefinitionが記述される。即ち、「dataType」および「definition」は、対応するトラックのサンプルエントリにSwitchGroupDefinitionが存在するかを示す情報である。「definition」は、バイナリデータであり、base64方式で符号化される。
【0085】
なお、
図15の例では、全てのグループがswitch Groupを形成するものとしたが、switch Groupを形成しないグループが存在する場合、そのグループに対応する「SubRepresentation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“2,SwitchGroupDefinition”>は記述されない。このことは、後述する
図24、
図25、
図31、
図39、
図45、
図47、
図48、および
図50においても同様である。
【0086】
(ファイル生成装置の構成例)
図16は、
図8のファイル生成装置141の構成例を示すブロック図である。
【0087】
図16のファイル生成装置141は、音声符号化処理部171、音声ファイル生成部172、MPD生成部173、およびサーバアップロード処理部174により構成される。
【0088】
ファイル生成装置141の音声符号化処理部171は、動画コンテンツの3Dオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。音声符号化処理部171は、符号化速度ごとのオーディオストリームを音声ファイル生成部172に供給する。
【0089】
音声ファイル生成部172は、音声符号化処理部171から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。
音声ファイル生成部172は、符号化速度およびセグメントごとに、各トラックのオーディオストリームがサブセグメント単位で配置される
図12または
図13のセグメント構造の音声ファイルを生成する。音声ファイル生成部172は、生成された音声ファイルをMPD生成部173に供給する。
【0090】
MPD生成部173は、音声ファイル生成部172から供給される音声ファイルを格納するWebサーバ142のURL等を決定する。そして、MPD生成部173は、音声ファイルのURL等が、その音声ファイル用の「Representation」の「Segment」に配置されたMPDファイルを生成する。MPD生成部173は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部174に供給する。
【0091】
サーバアップロード処理部174は、MPD生成部173から供給される音声ファイルとMPDファイルを、Webサーバ142にアップロードする。
【0092】
(ファイル生成装置の処理の説明)
図17は、
図16のファイル生成装置141のファイル生成処理を説明するフローチャートである。
【0093】
図17のステップS191において、音声符号化処理部171は、動画コンテンツの3Dオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。音声符号化処理部171は、符号化速度ごとのオーディオストリームを音声ファイル生成部172に供給する。
【0094】
ステップS192において、音声ファイル生成部172は、音声符号化処理部171から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。
【0095】
ステップS193において、音声ファイル生成部172は、符号化速度およびセグメントごとに、各トラックのオーディオストリームがサブセグメント単位で配置される
図12または
図13のセグメント構造の音声ファイルを生成する。音声ファイル生成部172は、生成された音声ファイルをMPD生成部173に供給する。
【0096】
ステップS194において、MPD生成部173は、音声ファイルのURL等を含むMPDファイルを生成する。MPD生成部173は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部174に供給する。
【0097】
ステップS195において、サーバアップロード処理部174は、MPD生成部173から供給される音声ファイルとMPDファイルを、Webサーバ142にアップロードする。そして、処理は終了する。
【0098】
(動画再生端末の機能的構成例)
図18は、
図8の動画再生端末144が制御用ソフトウエア161、動画再生ソフトウエア162、およびアクセス用ソフトウエア163を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
【0099】
図18のストリーミング再生部190は、MPD取得部91、MPD処理部191、音声ファイル取得部192、音声復号処理部194、および音声合成処理部195により構成される。
【0100】
ストリーミング再生部190のMPD取得部91は、Webサーバ142からMPDファイルを取得し、MPD処理部191に供給する。
【0101】
MPD処理部191は、MPD取得部91から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部192に供給する。
【0102】
音声ファイル取得部192は、MPD処理部191から供給されるURLで特定される音声ファイル内の再生対象のトラックのオーディオストリームを、Webサーバ142に要求し、取得する。音声ファイル取得部192は、取得されたオーディオストリームを音声復号処理部194に供給する。
【0103】
音声復号処理部194は、音声ファイル取得部192から供給されるオーディオストリームを復号する。音声復号処理部194は、復号の結果得られる音声データを音声合成処理部195に供給する。音声合成処理部195は、音声復号処理部194から供給される音声データを必要に応じて合成し、出力する。
【0104】
以上のように、音声ファイル取得部192、音声復号処理部194、および音声合成処理部195は、再生部として機能し、Webサーバ142に格納されている音声ファイルから、再生対象のトラックのオーディオストリームを取得し、再生する。
【0105】
(動画再生端末の処理の説明)
図19は、
図18のストリーミング再生部190の再生処理を説明するフローチャートである。
【0106】
図19のステップS211において、ストリーミング再生部190のMPD取得部91は、Webサーバ142からMPDファイルを取得し、MPD処理部191に供給する。
【0107】
ステップS212において、MPD処理部191は、MPD取得部91から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部192に供給する。
【0108】
ステップS213において、音声ファイル取得部192は、MPD処理部191から供給されるURLに基づいて、そのURLで特定される音声ファイル内の再生対象のトラックのオーディオストリームを、Webサーバ142に要求し、取得する。音声ファイル取得部192は、取得されたオーディオストリームを音声復号処理部194に供給する。
【0109】
ステップS214において、音声復号処理部194は、音声ファイル取得部192から供給されるオーディオストリームを復号する。音声復号処理部194は、復号の結果得られる音声データを音声合成処理部195に供給する。ステップS215において、音声合成処理部195は、音声復号処理部194から供給される音声データを必要に応じて合成し、出力する。
【0110】
(音声ファイルのトラックの第2の例の概要)
なお、上述した説明では、GroupDefinitionやSwitchGroupDefinitionが、サンプルエントリに配置されたが、
図20に示すように、トラック内のサブサンプルのグループごとのサンプルエントリであるサンプルグループエントリに配置されるようにしてもよい。
【0111】
この場合、switch Groupを形成するグループのトラックのサンプルグループエントリは、
図21に示すように、GroupDefinitionとSwitchGroupDefinitionを含む。図示は省略するが、switch Groupを形成しないグループのトラックのサンプルグループエントリは、GroupDefinitionのみを含む。
【0112】
また、各グループのトラックのサンプルエントリは、
図22に示すようになる。即ち、
図22に示すように、各グループのトラックのサンプルエントリには、対応するトラックのオーディオストリームのプロファイル(MPEGHAudioProfile)、レベル(MPEGHAudioLevel)などのConfig情報が記述されるMHAGroupAudioConfigrationBoxが配置される。
【0113】
(音声ファイルのトラックの第3の例の概要)
図23は、音声ファイルのトラックの第3の例の概要を説明する図である。
【0114】
図23の音声データのトラックの構成は、ベーストラックに3Dオーディオの1以上のグループのオーディオストリームが含まれる点、および、3Dオーディオ全体に関する情報を含まない各トラック(以下、グループトラックという)に分割されるオーディオストリームに対応するグループの数が1以上である点が、
図9の構成と異なる。
【0115】
即ち、
図23のベーストラックのサンプルエントリは、
図9と同様に、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのベーストラック用のシンタクスを有する、4ccが「mha2」であるサンプルエントリ(
図10)である。
【0116】
また、グループトラックのサンプルエントリは、
図9と同様に、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのグループトラック用のシンタクスを有する、4ccが「mhg1」であるサンプルエントリ(
図11)である。従って、サンプルエントリの4ccにより、ベーストラックとグループトラックを識別し、トラック間の依存関係を認識することができる。
【0117】
また、
図9と同様に、各トラックのtrackボックスには、Track Referenceが配置される。従って、「mha2」と「mhg1」のいずれが、ベーストラックまたはグループトラックのサンプルエントリの4ccであるかがわからない場合であっても、Track Referenceにより、トラック間の依存関係を認識することができる。
【0118】
なお、グループトラックのサンプルエントリには、mhgCボックス、およびmhsCボックスが記述されなくてもよい。また、ベーストラックのサンプルエントリに3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリに、そのグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより前者の状態と後者の状態を識別可能にする場合、ベーストラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha2」にされ、後者の状態である場合「mha4」にされる。
【0119】
(MPDファイルの第2の記述例)
図24は、音声ファイルのトラックの構成が
図23の構成である場合のMPDファイルの記述例を示す図である。
【0120】
図24のMPDファイルは、ベーストラックの「SubRepresentation」が記述される点が、
図15のMPDファイルと異なる。
【0121】
ベーストラックの「SubRepresentation」には、グループトラックの「SubRepresentation」と同様に、ベーストラックの「codecs」、「level」、「dependencyLevel」、および<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が記述される。
【0122】
図24の例では、ベーストラックの「codecs」は「mha2.2.1」であり、「level」は、ベーストラックのレベルを表す値としての「0」である。「dependencyLevel」は、グループトラックのレベルを表す値としての「1」および「2」である。また、「dataType」は、ベーストラックのサンプルエントリのmhasボックスに記述されるAudioScene情報を種類として表す番号としての「3」であり、「definition」は、base64方式で符号化されたAudioScene情報のバイナリデータである。
【0123】
なお、
図25に示すように、ベーストラックの「SubRepresentation」には、AudioScene情報が分割して記述されるようにしてもよい。
【0124】
図25の例では、ベーストラックのサンプルエントリのmhasボックスに記述されるAudioScene情報(
図7)のうちのグループID「1」のグループの内容を表す「Atmo」を種類として表す番号として「1」が設定されている。
【0125】
また、グループID「2」のグループの内容を表す「Dialog EN」、グループID「3」のグループの内容を表す「Dialog FR」、グループID「4」のグループの内容を表す「VoiceOver GE」、グループID「5」のグループの内容を表す「Effects」、グループID「6」のグループの内容を表す「Effect」、グループID「7」のグループの内容を表す「Effect」のそれぞれを種類として表す番号として「2」乃至「7」が設定されている。
【0126】
従って、
図25のベーストラックの「SubRepresentation」には、「dataType」が「1」であり、「definition」が「Atmo」である<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が記述される。同様に、「dataType」がそれぞれ「2」、「3」、「4」、「5」、「6」、「7」であり、「definition」がそれぞれ「Dialog EN」、「Dialog FR」、「VoiceOver GE」、「Effects」、「Effect」、「Effect」である“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が記述される。
図25の例では、ベーストラックのAudioScene情報が分割して記述される場合について説明したが、グループトラックのGroupDefinitionおよびSwitchGroupDefinitionも、AudioScene情報と同様に分割して記述されてもよい。
【0127】
(音声ファイルのトラックの第4の例の概要)
図26は、音声ファイルのトラックの第4の例の概要を説明する図である。
【0128】
図26の音声データのトラックの構成は、グループトラックのサンプルエントリが、4ccが「mha2」であるサンプルエントリである点が、
図23の構成と異なる。
【0129】
図26の場合、ベーストラックとグループトラックのサンプルエントリの4ccが両方とも「mha2」になる。従って、サンプルエントリの4ccにより、ベーストラックとグループトラックを識別し、トラック間の依存関係を認識することはできない。よって、各トラックのtrackボックスに配置されるTrack Referenceによって、トラック間の依存関係が認識される。
【0130】
また、サンプルエントリの4ccが「mha2」であることにより、対応するトラックが、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのトラックであることは識別できる。
【0131】
なお、ベーストラックのサンプルエントリのmhaCボックスには、
図9や
図23の場合と同様に、3Dオーディオの全てのグループのconfig情報またはベーストラックを独立して再生可能なconfig情報が記述される。また、mhasボックスには、3Dオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述される。
【0132】
一方、グループトラックのサンプルエントリには、mhasボックスが配置されない。また、ベーストラックのサンプルエントリに3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、前者の状態と後者の状態を識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha2」にされ、後者の状態である場合「mha4」にされる。
【0133】
(MPDファイルの第3の記述例)
図27は、音声ファイルのトラックの構成が
図26の構成である場合のMPDファイルの記述例を示す図である。
【0134】
図27のMPDファイルは、グループトラックの「SubRepresentation」の「codecs」が「mha2.2.1」である点、および、グループトラックの「SubRepresentation」に<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が記述されない点が、
図24のMPDファイルと異なる。
【0135】
なお、図示は省略するが、
図25の場合と同様に、ベーストラックの「SubRepresentation」には、AudioScene情報が分割して記述されるようにしてもよい。
【0136】
(音声ファイルのトラックの第5の例の概要)
図28は、音声ファイルのトラックの第5の例の概要を説明する図である。
【0137】
図28の音声データのトラックの構成は、ベーストラックとグループトラックのサンプルエントリが、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されているときのベーストラックとグループトラックの両方に適したシンタクスを有するサンプルエントリである点が、
図23の構成と異なる。
【0138】
図28の場合、ベーストラックとグループトラックのサンプルエントリの4ccが両方とも、ベーストラックとグループトラックの両方に適したシンタクスを有するサンプルエントリの4ccである「mha3」になる。
【0139】
従って、
図26の場合と同様に、各トラックのtrackボックスに配置されるTrack Referenceによって、トラック間の依存関係が認識される。また、サンプルエントリの4ccが「mha3」であることにより、対応するトラックが、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのトラックであることは識別できる。
【0140】
(4ccが「mha3」であるサンプルエントリのシンタクスの例)
図29は、4ccが「mha3」であるサンプルエントリのシンタクスの例を示す図である。
【0141】
図29に示すように、4cc「mha3」のサンプルエントリのシンタクスは、
図10のシンタクスと
図11のシンタクスを合成したものである。
【0142】
即ち、4ccが「mha3」であるサンプルエントリには、mhaCボックス(MHAConfigration Box)、mhasボックス(MHAAudioSceneInfo Box)、mhgCボックス(MHAGroupDefinitionBox)、mhsCボックス(MHASwitchGropuDefinition Box)等が配置される。
【0143】
ベーストラックのサンプルエントリのmhaCボックスには、3Dオーディオの全てのグループのconfig情報またはベーストラックを独立して再生可能なconfig情報が記述される。
また、mhasボックスには、3Dオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述され、mhgCボックスとmhsCボックスは配置されない。
【0144】
ベーストラックのサンプルエントリに3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、前者の状態と後者の状態を識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha3」にされ、後者の状態である場合「mha5」にされる。また、グループトラックのサンプルエントリには、mhasボックスは配置されない。mhgCボックスおよびmhsCボックスは配置されてもよいし、配置されなくてもよい。
【0145】
なお、
図30に示すように、ベーストラックのサンプルエントリには、mhasボックス、mhgCボックス、およびmhsCボックスが配置されるとともに、ベーストラックだけを独立して再生可能にするconfig情報が記述されるmhaCボックスと3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが両方配置されるようにしてもよい。この場合、3Dオーディオの全てのグループのconfig情報が記述されるmhaCボックスと、ベーストラックだけを独立して再生可能にするconfig情報が記述されるmhaCボックスとは、これらのmhaCボックスに含まれるフラグによって識別される。また、この場合、グループトラックのサンプルエントリには、mhaCボックスが記述されなくてもよい。グループトラックのサンプルエントリにmhaCボックスが記述されるかどうかは、グループトラックのサンプルエントリ内のmhaCボックスの有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、グループトラックのサンプルエントリにmhaCボックスが記述されるかどうかを識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、グループトラックのサンプルエントリにmhaCボックスが記述される場合「mha3」にされ、グループトラックのサンプルエントリにmhaCボックスが記述されない場合「mha5」にされる。なお、
図30において、ベーストラックのサンプルエントリには、mhgCボックスとmhsCボックスが記述されなくてもよい。
【0146】
(MPDファイルの第4の記述例)
図31は、音声ファイルのトラックの構成が
図28または
図30の構成である場合のMPDファイルの記述例を示す図である。
【0147】
図31のMPDファイルは、「Representation」の「codecs」が「mha3.3.1」である点、および、「SubRepresentation」の「codecs」が「mha3.2.1」である点が、
図24のMPDファイルと異なる。
【0148】
なお、図示は省略するが、
図25の場合と同様に、ベーストラックの「SubRepresentation」には、AudioScene情報が分割して記述されるようにしてもよい。
【0149】
また、上述した説明では、各トラックのtrackボックスにTrack Referenceが配置されるようにしたが、Track Referenceは配置されなくてもよい。例えば、
図32乃至
図34は、それぞれ、
図23、
図26、
図28の音声ファイルのトラックのtrackボックスにTrack Referenceが配置されない場合を示す図である。
図32の場合、Track Referenceは配置されないが、ベーストラックとグループトラックのサンプルエントリの4ccが異なるため、トラック間の依存関係を認識することができる。
図33および
図34の場合、mhasボックスが配置されていることで、ベーストラックか否かを識別することができる。
【0150】
音声ファイルのトラックの構成が、
図32乃至
図34の構成である場合のMPDファイルは、それぞれ、
図24、
図27、
図31のMPDファイルと同一である。なお、この場合も、ベーストラックの「SubRepresentation」には、
図25の場合と同様に、AudioScene情報が分割して記述されるようにしてもよい。
【0151】
(音声ファイルのトラックの第6の例の概要)
図35は、音声ファイルのトラックの第6の例の概要を説明する図である。
【0152】
図35の音声データのトラックの構成は、ベーストラックのサンプルに、各グループのトラックのサンプルへの参照情報や、その参照情報の復号に必要なconfig情報が配置されず、0以上のグループのオーディオストリームが含まれる点、および、ベーストラックのサンプルエントリに、各グループのトラックのサンプルへの参照情報が記述される点が、
図33の構成と異なっている。
【0153】
具体的には、3Dオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されているときのベーストラック用のシンタクスを有する、4ccが「mha2」であるサンプルエントリに、AudioScene情報に記述されている各グループがどのトラックに分割されているかを記述するmhmtボックスが新たに配置される。
【0154】
(4ccが「mha2」であるサンプルエントリのシンタクスの他の例)
図36は、4ccが「mha2」である
図35のベーストラックおよびグループトラックのサンプルエントリのシンタクスの例を示す図である。
【0155】
図36の4ccが「mha2」であるサンプルエントリの構成は、MHAMultiTrackDescriptionボックス(mhmtボックス)が配置される点が、
図10の構成と異なっている。
【0156】
mhmtボックスには、参照情報として、グループID(group_ID)とトラックID(track_ID)の対応関係が記述される。なお、mhmtボックスでは、オーディオエレメントとトラックIDが対応付けて記述されるようにしてもよい。
【0157】
参照情報がサンプルごとに変化しない場合、mhmtボックスをサンプルエントリに配置することにより、効率良く参照情報を記述することができる。
【0158】
なお、図示は省略するが、
図9、
図20、
図23、
図26、
図28、
図30、
図32、および
図34の場合においても、同様に、ベーストラックのサンプルに各グループのトラックのサンプルへの参照情報を記述する代わりに、ベーストラックのサンプルエントリにmhmtボックスを配置させるようにすることができる。
【0159】
この場合、4ccが「mha3」であるサンプルエントリのシンタクスは、
図37に示すようになる。即ち、
図37の4ccが「mha3」であるサンプルエントリの構成は、MHAMultiTrackDescriptionボックス(mhmtボックス)が配置される点が、
図29の構成と異なっている。
【0160】
また、
図23、
図26、
図28、
図30、
図32乃至
図34、および
図35において、
図9と同様に、ベーストラックに3Dオーディオの1以上のグループのオーディオストリームが含まれないようにしてもよい。また、各グループトラックに分割されるオーディオストリームに対応するグループの数が1つであってもよい。
【0161】
【0162】
<第2実施の形態>
(トラックの概要)
図38は、本開示を適用した第2実施の形態におけるトラックの概要を説明する図である。
【0163】
図38に示すように、第2実施の形態では、各トラックが異なるファイル(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4)として記録される点が、第1実施の形態と異なっている。この場合、所望のトラックのファイルを、HTTPを介して取得することにより、所望のトラックのデータのみを取得することができる。従って、HTTPを介した所望のトラックのデータの取得を効率的に行うことができる。
【0164】
(MPDファイルの記述例)
図39は、本開示を適用した第2実施の形態におけるMPDファイルの記述例を示す図である。
【0165】
図39に示すように、MPDファイルには、3Dオーディオの各音声ファイル(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4)のセグメントを管理する「Representation」等が記述される。
【0166】
「Representation」には、「codecs」、「id」、「associationId」、および「assciationType」が含まれる。「id」は、それを含む「Representation」のIDである。「associationId」は、対応するトラックと他のトラックとの参照関係を表す情報であり、参照トラックの「id」である。「assciationType」は、参照トラックとの参照関係(依存関係)の意味を表すコードであり、例えばMP4のtrack referenceの値と同じものが用いられる。
【0167】
また、各グループのトラックの「Representation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>も含まれる。
図39の例では、1つの「AdaptationSet」の下に、各音声ファイルのセグメントを管理する「Representation」が設けられているが、各音声ファイルのセグメントごとに「AdaptationSet」が設けられ、その下に、そのセグメントを管理する「Representation」が設けられるようにしてもよい。この場合、各「AdaptationSet」には、「associationId」と、「assciationType」と同様に参照トラックとの参照関係の意味を表す<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudioAssociationData:2014” value=“dataType,id”>が、記述されるようにしてもよい。また、ベーストラックとグループトラックの「Representation」に記述されているAudioScene情報、GroupDefinition、SwitchGroupDefinitionは、
図25の場合と同様に、分割して記述されるようにしてもよい。さらに、各「AdaptationSet」には、「Representation」に分割して記述されたAudioScene情報、GroupDefinition、SwitchGroupDefinitionが記述されてもよい。
【0168】
(情報処理システムの概要)
図40は、本開示を適用した第2実施の形態における情報処理システムの概要を説明する図である。
【0169】
図40に示す構成のうち、
図8の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
【0170】
図40の情報処理システム210は、ファイル生成装置211と接続されるWebサーバ212と動画再生端末214が、インターネット13を介して接続されることにより構成される。
【0171】
情報処理システム210では、MPEG-DASHに準ずる方式で、Webサーバ142が、再生対象のグループの音声ファイルのオーディオストリームを、動画再生端末144に配信する。
【0172】
具体的には、ファイル生成装置211は、動画コンテンツの3Dオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。ファイル生成装置211は、オーディオストリームをグループおよびExtエレメントのタイプごとに分割し、異なるトラックのオーディオストリームとする。ファイル生成装置211は、符号化速度、セグメント、およびトラックごとに、オーディオストリームをファイル化し、音声ファイルを生成する。ファイル生成装置211は、その結果得られる音声ファイルをWebサーバ212にアップロードする。また、ファイル生成装置211は、MPDファイルを生成し、Webサーバ212にアップロードする。
【0173】
Webサーバ212は、ファイル生成装置211からアップロードされた符号化速度、セグメント、およびトラックごとの音声ファイルとMPDファイルを格納する。Webサーバ212は、動画再生端末214からの要求に応じて、格納している音声ファイル、MPDファイル等を動画再生端末214に送信する。
【0174】
動画再生端末214は、制御用ソフトウエア221、動画再生ソフトウエア162、アクセス用ソフトウエア223などを実行する。
【0175】
制御用ソフトウエア221は、Webサーバ212からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア221は、動画再生端末214にWebサーバ212からMPDファイルを取得させる。
【0176】
また、制御用ソフトウエア221は、MPDファイルに基づいて、動画再生ソフトウエア162により指定される再生対象のグループ、および、そのグループに対応するExtエレメントのタイプの音声ファイルのオーディオストリームの送信要求を、アクセス用ソフトウエア223に指令する。
【0177】
アクセス用ソフトウエア223は、HTTPを用いたインターネット13を介したWebサーバ212との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア223は、制御用ソフトウエア221の指令に応じて、再生対象の音声ファイルのオーディオストリームの送信要求を、動画再生端末144に送信させる。また、アクセス用ソフトウエア223は、その送信要求に応じて、Webサーバ212から送信されてくるオーディオストリームの受信を動画再生端末144に開始させ、受信開始の通知を動画再生ソフトウエア162に供給する。
【0178】
(ファイル生成装置の構成例)
図41は、
図40のファイル生成装置211の構成例を示すブロック図である。
【0179】
図41に示す構成のうち、
図16の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
【0180】
図41のファイル生成装置211の構成は、音声ファイル生成部172、MPD生成部173の代わりに、音声ファイル生成部241、MPD生成部242が設けられる点が、
図16のファイル生成装置141の構成と異なる。
【0181】
具体的には、ファイル生成装置211の音声ファイル生成部241は、音声符号化処理部171から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。音声ファイル生成部241は、符号化速度、セグメント、およびトラックごとに、オーディオストリームを配置した音声ファイルを生成する。音声ファイル生成部241は、生成された音声ファイルをMPD生成部242に供給する。
【0182】
MPD生成部242は、音声ファイル生成部172から供給される音声ファイルを格納するWebサーバ142のURL等を決定する。MPD生成部242は、音声ファイルのURL等が、その音声ファイル用の「Representation」の「Segment」に配置されたMPDファイルを生成する。MPD生成部173は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部174に供給する。
【0183】
(ファイル生成装置の処理の説明)
図42は、
図41のファイル生成装置211のファイル生成処理を説明するフローチャートである。
【0184】
図42のステップS301およびS302の処理は、
図17のステップS191およびS192の処理と同様であるので、説明は省略する。
【0185】
ステップS303において、音声ファイル生成部241は、符号化速度、セグメント、およびトラックごとに、オーディオストリームが配置された音声ファイルを生成する。音声ファイル生成部241は、生成された音声ファイルをMPD生成部242に供給する。
【0186】
ステップS304およびS305の処理は、
図17のステップS194およびS195の処理と同様であるので、説明は省略する。
【0187】
(動画再生端末の機能的構成例)
図43は、
図40の動画再生端末214が制御用ソフトウエア221、動画再生ソフトウエア162、およびアクセス用ソフトウエア223を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。
【0188】
図43に示す構成のうち、
図18の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
【0189】
図43のストリーミング再生部260の構成は、音声ファイル取得部192の代わりに、音声ファイル取得部264が設けられる点が、
図18のストリーミング再生部190の構成と異なる。
【0190】
音声ファイル取得部264は、MPD処理部191から供給されるURLのうちの、再生対象のトラックの音声ファイルのURLに基づいて、その音声ファイルのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部264は、取得されたオーディオストリームを音声復号処理部194に供給する。
【0191】
即ち、音声ファイル取得部264、音声復号処理部194、および音声合成処理部195は、再生部として機能し、Webサーバ212に格納されている音声ファイルから、再生対象のトラックの音声ファイルのオーディオストリームを取得し、再生する。
【0192】
(動画再生端末の処理の説明)
図44は、
図43のストリーミング再生部260の再生処理を説明するフローチャートである。
【0193】
図44のステップS321およびS322の処理は、
図19のステップS211およびS212の処理と同様であるので、説明は省略する。
【0194】
ステップS323において、音声ファイル取得部192は、MPD処理部191から供給されるURLのうちの、再生対象のトラックの音声ファイルのURLに基づいて、その音声ファイルのオーディオストリームをWebサーバ142に要求し、取得する。音声ファイル取得部264は、取得されたオーディオストリームを音声復号処理部194に供給する。
【0195】
ステップS324およびS325の処理は、
図19のステップS214およびS215の処理と同様であるので、説明は省略する。
【0196】
なお、第2実施の形態においても、第1実施の形態と同様に、GroupDefinitionやSwitchGroupDefinitionが、サンプルグループエントリに配置されるようにしてもよい。
【0197】
【0198】
【0199】
図45のMPDは、ベーストラックの「codecs」および「associationId」、並びに、ベーストラックの「Representation」に<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が含まれる点が、
図39のMPDと異なっている。具体的には、
図45のMPDのベーストラックの「Representation」の「codecs」は、「mha2.2.1」であり、「associationId」は、グループトラックの「id」である「g1」と「g2」である。
【0200】
また、
図46のMPDは、グループトラックの「codecs」、および、グループトラックの「Representation」に<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“dataType,definition”>が含まれない点が、
図45のMPDと異なっている。
具体的には、
図46のMPDのグループトラックの「codecs」は、「mha2.2.1」である。
【0201】
また、
図47のMPDは、ベーストラックとグループトラックとの「codecs」が、
図45のMPDと異なっている。具体的には、
図47のMPDのグループトラックの「codecs」は、「mha3.2.1」である。
【0202】
なお、
図45乃至
図47のMPDにおいて、
図48乃至
図50に示すように、「Representation」ごとに「AdaptationSet」を分けることもできる。
【0203】
<ベーストラックの他の例>
上述した説明では、ベーストラックは1つだけ設けられたが、複数設けられるようにしてもよい。この場合、ベーストラックは、例えば、3Dオーディオの視点(詳細は後述する)ごとに設けられ、ベーストラックには、各視点の3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが配置される。なお、各ベーストラックには、各視点のAudioScene情報を含むmhasボックスが配置されるようにしてもよい。
【0204】
3Dオーディオの視点とは、その3Dオーディオが聴こえる位置であり、3Dオーディオと同時に再生される画像の視点や予め設定された所定の位置などである。
【0205】
以上のように、視点ごとにベーストラックが設けられる場合、各視点のconfig情報に含まれるオブジェクトの画面上の位置等に基づいて、同一の3Dオーディオのオーディオストリームから、視点ごとに異なる音声を再生することができる。その結果、3Dオーディオのオーディオストリームのデータ量を削減することができる。
【0206】
即ち、3Dオーディオの視点が、その3Dオーディオと同時に再生可能な野球のスタジアムの画像の複数の視点である場合、基本の視点の画像であるメイン画像として、例えば、センターバックスクリーンを視点とする画像が用意される。また、バックネット裏、一塁内野席、三塁内野席、レフト応援席、ライト応援席などを視点とする画像が、基本の視点以外の視点の画像であるマルチ画像として用意される。
【0207】
この場合、全ての視点の3Dオーディオを用意すると、3Dオーディオのデータ量が多くなる。従って、ベーストラックに各視点におけるオブジェクトの画面上の位置等を記述することにより、オブジェクトの画面上の位置に応じて変化するObject audioやSAOC Object audio等のオーディオストリームを視点間で共有可能にする。その結果、3Dオーディオのオーディオストリームのデータ量を削減することができる。
【0208】
3Dオーディオの再生時には、例えば基本の視点のObject audioやSAOC Object audio等のオーディオストリームと、同時に再生されるメイン画像またはマルチ画像の視点に対応するベーストラックとを用いて、その視点に応じて異なる音声が再生される。
【0209】
同様に、例えば、3Dオーディオの視点が、予め設定されたスタジアムの複数の座席の位置である場合、全ての視点の3Dオーディオを用意すると、3Dオーディオのデータ量が多くなる。従って、ベーストラックに各視点におけるオブジェクトの画面上の位置等を記述することにより、Object audioやSAOC Object audio等のオーディオストリームを視点間で共有可能にする。その結果、1つの視点のObject audioやSAOC Object audioを用いて、ユーザにより座席表などを用いて選択された座席に応じて異なる音声を再生することが可能になり、3Dオーディオのオーディオストリームのデータ量を削減することができる。
【0210】
図28のトラック構造において、ベーストラックが3Dオーディオの視点ごとに設けられる場合、トラック構造は、
図51に示すようになる。
図51の例では、3Dオーディオの視点の数が3つある。また、
図51の例では、Channel audioは、3Dオーディオの視点ごとに生成され、その他の音声データは、3Dオーディオの視点間で共有される。これらのことは、後述する
図52の例においても同様である。
【0211】
この場合、ベーストラックは、
図51に示すように、3Dオーディオの視点ごとに3つ設けられる。各ベーストラックのtrackボックスには、Track Referenceが配置される。また、各ベーストラックのサンプルエントリのシンタクスは、4ccが「mha3」であるサンプルエントリのシンタクスと同一であるが、4ccは、3Dオーディオの視点ごとにベーストラックが設けられていることを表す「mhcf」である。
【0212】
各ベーストラックのサンプルエントリには、各視点の3Dオーディオの全てのグループのconfig情報を含むmhaCボックスが配置される。各視点の3Dオーディオの全てのグループのconfig情報としては、その視点におけるオブジェクトの画面上の位置などがある。また、各ベーストラックには、各視点のAudioScene情報を含むmhasボックスが配置される。
【0213】
各ベーストラックのサンプルには、各視点のChannel audioのグループのオーディオストリームが配置される。
【0214】
なお、各視点におけるオブジェクトの画面上の位置をサンプル単位で記述するObject Metadataが存在する場合には、そのObject Metadataも、各ベーストラックのサンプルに配置される。
【0215】
即ち、オブジェクトが動体(例えば、スポーツ選手)である場合、各視点におけるオブジェクトの画面上の位置は時間変化するため、その位置は、サンプル単位でObject Metadataとして記述される。この場合、このサンプル単位のObject Metadataは、視点ごとに、その視点に対応するベーストラックのサンプルに配置される。
【0216】
図51のグループトラックの構成は、Channel audioのグループのオーディオストリームが配置されない点を除いて、
図28の構成と同一であるので、説明は省略する。
【0217】
なお、
図51のトラック構造において、各視点のChannel audioのグループのオーディオストリームは、ベーストラックに配置されず、それぞれ、異なるグループトラックに配置されるようにしてもよい。この場合、トラック構造は、
図52に示すようになる。
【0218】
図52の例では、トラックIDが「1」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックIDが「4」であるグループトラックに配置されている。また、トラックIDが「2」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックIDが「5」であるグループトラックに配置されている。
【0219】
さらに、トラックIDが「3」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックIDが「6」であるグループトラックに配置されている。
【0220】
なお、
図51および
図52の例では、ベーストラックのサンプルエントリの4ccを「mhcf」にしたが、
図28の場合と同一の「mha3」であってもよい。
【0221】
また、図示は省略するが、
図28のトラック構造以外の、上述した全てのトラック構造において、ベーストラックが3Dオーディオの視点ごとに設けられる場合も、
図51および
図52の場合と同様である。
【0222】
<第3実施の形態>
(本開示を適用したコンピュータの説明)
上述したWebサーバ142(212)の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0223】
図53は、上述したWebサーバ142(212)の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
【0224】
コンピュータにおいて、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
【0225】
バス604には、さらに、入出力インタフェース605が接続されている。入出力インタフェース605には、入力部606、出力部607、記憶部608、通信部609、及びドライブ610が接続されている。
【0226】
入力部606は、キーボード、マウス、マイクロフォンなどよりなる。出力部607は、ディスプレイ、スピーカなどよりなる。記憶部608は、ハードディスクや不揮発性のメモリなどよりなる。通信部609は、ネットワークインタフェースなどよりなる。ドライブ610は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア611を駆動する。
【0227】
以上のように構成されるコンピュータでは、CPU601が、例えば、記憶部608に記憶されているプログラムを、入出力インタフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
【0228】
コンピュータ(CPU601)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア611に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0229】
コンピュータでは、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インタフェース605を介して、記憶部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記憶部608にインストールすることができる。その他、プログラムは、ROM602や記憶部608に、あらかじめインストールしておくことができる。
【0230】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0231】
また、動画再生端末144(214)のハードウエア構成は、
図53のコンピュータと同様の構成にすることができる。この場合、例えば、CPU601が、制御用ソフトウエア161(221)、動画再生ソフトウエア162、およびアクセス用ソフトウエア163(223)を実行する。動画再生端末144(214)の処理は、ハードウエアにより実行することもできる。
【0232】
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
【0233】
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
【0234】
また、本開示は、ストリーミング再生ではなく、放送やローカルストレージ再生を行う情報処理システムにも適用することができる。
【0235】
上述したMPDの実施例では、そのスキーマで記述された内容が理解できない場合は無視してもよいdescriptor定義であるEssentialPropertyにより情報が記述されたが、そのスキーマで記述された内容が理解できない場合であっても再生できるdescriptor定義であるSupplementalPropertyにより情報が記述されてもよい。この記述方法の選択は、コンテンツを作成する側の意図で行われる。
【0236】
さらに、本開示は、以下のような構成もとることができる。
【0237】
(1)
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部
を備える情報処理装置。
(2)
前記複数の種類に関する情報は、所定のトラックのサンプルエントリに配置される
ように構成された
前記(1)に記載の情報処理装置。
(3)
前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックのうちの1つである
ように構成された
前記(2)に記載の情報処理装置。
(4)
前記ファイルには、前記トラックごとに、そのトラックに対応する前記種類に関する情報が配置される
ように構成された
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記ファイルには、前記トラックごとに、そのトラックに対応する種類と、その種類の音声データと排他的に再生される音声データに対応する種類とからなる排他的再生種類に関する情報が配置される
ように構成された
前記(4)に記載の情報処理装置。
(6)
前記トラックに対応する種類に関する情報および前記排他的再生種類に関する情報は、対応するトラックのサンプルエントリに配置される
ように構成された
前記(5)に記載の情報処理装置。
(7)
前記ファイル生成部は、前記トラックごとに前記排他的再生種類に関する情報が存在するかを示す情報を含む、前記ファイルを管理する管理ファイルを生成する
ように構成された
前記(5)または(6)に記載の情報処理装置。
(8)
前記ファイルには、前記複数の種類に対応するトラックへの参照情報が配置される
ように構成された
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記参照情報は、所定のトラックのサンプルに配置される
ように構成された
前記(8)に記載の情報処理装置。
(10)
前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックの1つである
ように構成された
前記(9)に記載の情報処理装置。
(11)
前記ファイルには、前記トラック間の参照関係を表す情報が配置される
ように構成された
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記ファイル生成部は、前記トラック間の参照関係を表す情報を含む、前記ファイルを管理する管理ファイルを生成する
ように構成された
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記ファイルは、1つのファイルである
ように構成された
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記ファイルは、前記トラックごとのファイルである
ように構成された
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(15)
情報処理装置が、
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成ステップ
を含む情報処理方法。
(16)
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部
を備える情報処理装置。
(17)
情報処理装置が、
複数の種類の音声データが1以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生ステップ
を含む情報処理方法。
【符号の説明】
【0238】
11 ファイル生成装置, 192 音声ファイル取得部, 194 音声復号処理部, 195 音声合成処理部, 211 ファイル生成装置, 264 音声ファイル取得部