(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-23
(45)【発行日】2022-03-31
(54)【発明の名称】音響信号補助情報変換伝送装置及びプログラム
(51)【国際特許分類】
G10L 19/00 20130101AFI20220324BHJP
G10L 19/008 20130101ALI20220324BHJP
H04H 20/28 20080101ALI20220324BHJP
H04H 20/42 20080101ALI20220324BHJP
H04H 20/88 20080101ALI20220324BHJP
【FI】
G10L19/00 330B
G10L19/008 100
H04H20/28
H04H20/42
H04H20/88
(21)【出願番号】P 2018109125
(22)【出願日】2018-06-07
【審査請求日】2021-05-07
(31)【優先権主張番号】P 2017114677
(32)【優先日】2017-06-09
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【氏名又は名称】福尾 誠
(74)【代理人】
【識別番号】100185225
【氏名又は名称】齋藤 恭一
(72)【発明者】
【氏名】大出 訓史
(72)【発明者】
【氏名】杉本 岳大
(72)【発明者】
【氏名】小野 一穂
【審査官】大野 弘
(56)【参考文献】
【文献】特開2002-314971(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
G10L 19/008
H04H 20/28
H04H 20/42
H04H 20/88
(57)【特許請求の範囲】
【請求項1】
複数の音響信号と補助情報から構成されるマルチチャンネル音響の番組を伝送する音響信号補助情報変換伝送装置であって、
音響信号と各時刻の情報が記録されている補助情報を読み込む音響信号読込部と、
補助情報に含まれる情報のうち重複する情報や自明な情報を削除する重複情報変換部と、
情報量を削減した補助情報を一時的に保持する補助情報記憶部と、
補助情報から各時刻に関連する補助情報を抜き出して時系列データを生成する時間情報生成部と、
補助情報の時系列データを時間的に変化する補助情報と変化しない補助情報に分離する動的情報分離部と、
音響信号と対応する補助情報の時系列データを対応する時刻に伝送する同期伝送部と
を備えることを特徴とする、音響信号補助情報変換伝送装置。
【請求項2】
複数の音響信号と補助情報から構成されるマルチチャンネル音響の番組を伝送する音響信号補助情報変換伝送装置であって、
音響信号と各時刻の情報が記録されている補助情報を読み込み、該補助情報に含まれる情報のうち重複する情報又は自明な情報を削除し、その後、前記補助情報から各時刻に関連する補助情報を抜き出して時系列データを生成し、前記時系列データを時間的に変化する補助情報と変化しない補助情報に分離し、前記音響信号と対応する補助情報の前記時系列データを対応する時刻に伝送する、コントローラと、
少なくとも、情報量を削減した補助情報を一時的に保持するメモリと
を備えることを特徴とする、音響信号補助情報変換伝送装置。
【請求項3】
請求項1又は2に記載の音響信号補助情報変換伝送装置において、補助情報を時間的に変化しない静的補助情報と時間的に変化する動的補助情報に分離し、静的補助情報と動的補助情報を伝送する周期を変えることを特徴とする、音響信号補助情報変換伝送装置。
【請求項4】
請求項3に記載の音響信号補助情報変換伝送装置において、前記動的補助情報の変化の有無を示す識別子を付与して補助情報を伝送することを特徴とする、音響信号補助情報変換伝送装置。
【請求項5】
請求項1又は2に記載の音響信号補助情報変換伝送装置において、補助情報を前回伝送した情報と変化しない静的補助情報と前回伝送した情報から変化した動的補助情報に分離し、時間的に変化した動的補助情報だけを短い周期で伝送し、長い周期で当該時刻に対応する全補助情報を伝送することを特徴とする、音響信号補助情報変換伝送装置。
【請求項6】
請求項5の音響信号補助情報変換伝送装置において、定期的に当該時刻に対応する全補助情報を伝送することを特徴とする音響信号補助情報変換伝送装置。
【請求項7】
請求項1から6のいずれか一項に記載の音響信号補助情報変換伝送装置において、補助情報を伝送する間隔の整数倍だけ、音響信号よりも補助情報を先行して伝送することを特徴とする、音響信号補助情報変換伝送装置。
【請求項8】
請求項1から7のいずれか一項に記載の音響信号補助情報変換伝送装置において、補助情報を伝送する間隔の整数倍だけ、補助情報を伝送する回数を間欠させることを特徴とする、音響信号補助情報変換伝送装置。
【請求項9】
請求項7又は8に記載の音響信号補助情報変換伝送装置において、補助情報を複数に分割し、分割された補助情報をそれぞれ異なる先行フレームで、伝送する間隔の異なる整数倍だけ音響信号よりも先行して伝送することを特徴とする、音響信号補助情報変換伝送装置。
【請求項10】
請求項1から9のいずれか一項に記載の音響信号補助情報変換伝送装置において、放送番組の終了時刻が未定の場合、補助情報が対応する音響信号の時間長を、当該時刻よりも補助情報を伝送する間隔分だけ長く設定し、終了時刻が決まるまで当該時刻に対応する補助情報を更新することを特徴とする、音響信号補助情報変換伝送装置。
【請求項11】
請求項1から10のいずれか一項に記載の音響信号補助情報変換伝送装置において、放送番組の開始時刻が未定の場合、補助情報が対応する音響信号の開始時刻を、当該時刻よりも補助情報を伝送する間隔分だけ後の時刻に設定し、開始時刻が決まるまで当該時刻に対応する補助情報を更新することを特徴とする、音響信号補助情報変換伝送装置。
【請求項12】
請求項1から11のいずれか一項に記載の音響信号補助情報変換伝送装置において、補助情報は、補助情報を伝送する間隔、フレームに含まれる補助情報のデータサイズ、当該補助情報が対応する音響信号の番組開始時刻からのサンプル数、当該補助情報と前時刻の補助情報の違いを示す識別子及び当該補助情報、補助情報の伝送時刻のずれ、伝送の間欠回数、のうち少なくともいずれか一つを含むことを特徴とする、音響信号補助情報変換伝送装置。
【請求項13】
請求項1から12のいずれか一項に記載の音響信号補助情報変換伝送装置において、補助情報を分割する際に、主要な記述子の同一IDに該当する補助情報をひとかたまりとして分割することを特徴とする、音響信号補助情報変換伝送装置。
【請求項14】
請求項1から13のいずれか一項に記載の音響信号補助情報変換伝送装置において、補助情報に記述する音響定義モデルの項目又は記述内容を、文字数の少ない表現形式に置き換えることを特徴とする、音響信号補助情報変換伝送装置。
【請求項15】
コンピュータを、請求項1から14のいずれか一項に記載の音響信号補助情報変換伝送装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号補助情報変換伝送装置及びプログラムに関する。
【背景技術】
【0002】
音響信号と音響信号に付与された再生位置などの補助情報(メタデータ)とから構成される音声番組であって、再生装置において補助情報を元に音響信号を加工し、加工した音響信号をスピーカで再生するオブジェクトベース音響方式が実用化されている(例えば、MPEG-H 3D Audioなど)。オブジェクトベース音響方式の補助情報には、番組を構成する各音響素材の音響信号の内容(日本語や英語、音声や音楽・背景音など)に加え、各時刻における当該音響信号の再生位置や再生レベルなどが含まれる。
【0003】
一方、従来から番組が制作されているチャンネルベース音響方式でも、数が多いチャンネル数の音響方式から数が少ないチャンネル数の音響方式に再生する音響信号を変換(ダウンミックス)する際に用いる係数(ダウンミックス係数や再生位置情報など)や、音響信号の再生レベルをユーザ側で調整するときに使用する識別子などが、補助情報として付与されている場合がある(例えば、ARIB標準規格STD-B32[非特許文献1]など)。チャンネルベース音響方式では、番組中補助情報はほとんど変化することない。しかし、任意の時刻から再生(ランダムアクセス)できるように、映像・音響信号の時系列データに周期的に補助情報を付与する必要がある。
【0004】
放送用の音響信号補助情報として、上記チャンネルベース音響やオブジェクトベース音響に共通の補助情報が規格化されている(例えば、勧告ITU-R BS.2076[非特許文献2]やBS.2094[非特許文献3]に規定される音響補助情報、音響定義モデル(ADM:Audio Definition Model)など)。上記補助情報は、パソコンなどに記録される音響信号形式(例えば、勧告ITU-R BS.2088[非特許文献4]に規定される音響ファイル形式BW64など)で使うことを想定しているため、再生開始時に全補助情報を読み込むのに適した形式になっている。このため、このままの形式では、生放送のように再生開始時刻では全ての情報が伝送できない場合には使用できない。そこで、放送用音響信号に付与するためには、補助情報を時系列データに適した形式に変換することが検討されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】ARIB STD-B32 3.6版,「デジタル放送における映像符号化、音声符号化及び多重化方式」,一般財団法人 電波産業会,平成28年3月25日
【文献】International Telecommunication Union,Recommendation ITU-R BS.2076,“Audio Definition Model(ADM)”,(06/2015)
【文献】International Telecommunication Union,Recommendation ITU-R BS.2094,“Common definitions for the Audio Definition Model(ADM)”,(04/2016)
【文献】International Telecommunication Union,Recommendation ITU-R BS.2088,“Long‐form file format for the international exchange of audio programme materials with metadata”,(10/2015)
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述のように、放送用音響信号の補助情報として標準化されている音響定義モデル(ADM)は、音響ファイル形式BW64のチャンクに記録されることが想定されている。補助情報は、再生開始時に音響ファイルから音響信号と共に全て読み込まれ、再生装置のメモリなどに一時的に保存、必要時にメモリから読み出されて使用される。
【0007】
しかしながら、放送番組として伝送、任意の時刻から音響信号を再生する場合、映像信号や音響信号は時系列データとして扱われるため、補助情報も時系列データに変換(シリアライズ)されている必要がある。特に、オブジェクトベース音響用の補助情報(再生位置など)は、時々刻々絶えず変化するため、短期間で周期的に伝送する必要があり、伝送容量を圧迫することがある。よって、各時刻に伝送する補助情報はなるべく軽量化する必要がある。また、生放送用として用いる場合、番組の終了時刻などの補助情報が番組開始時点では定まっておらず、補助情報の数値が確定しないという問題がある。一方、開発コストを考えるとシリアライズする前の補助情報とシリアライズされた補助情報の形式がなるべく一致しており、再生装置の部品がなるべく共有できることが望ましい。
【0008】
本発明は、上記の点に鑑みてなされたものであり、ファイルに記録された放送用音響信号の補助情報をなるべく原型を留めたままシリアル表現に変換し、効率的に伝送する音響信号補助情報変換伝送装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は上記の課題を解決するためになされたものであり、放送番組の音響信号をある時間間隔で分割し(音響信号フレーム)、補助情報を音響信号フレームごとに伝送する。補助情報を、再生時間とともに変化しない固定値を持つ静的補助情報と、再生時間とともに変化する変動値を持つ動的補助情報に分類し、動的補助情報は、当該音響信号フレームの信号処理に必要な情報だけを抜き出し、再生時刻に合わせた時系列データを生成する。静的補助情報は、伝送回数を少なくする(伝送間隔を長くする)とともに、予め決まっている補助情報を省略することで伝送量を圧縮する。さらに、動的補助情報も先行時刻と差分がない場合は伝送回数を少なく、もしくは差分が生じるまでの間伝送しないことで情報量を圧縮する。
【0010】
上記課題を解決するために本発明に係る音響信号補助情報変換伝送装置は、複数の音響信号と補助情報から構成されるマルチチャンネル音響の番組を伝送する音響信号補助情報変換伝送装置であって、音響信号と各時刻の情報が記録されている補助情報を読み込む音響信号読込部と、補助情報に含まれる情報のうち重複する情報や自明な情報を削除する重複情報変換部と、情報量を削減した補助情報を一時的に保持する補助情報記憶部と、補助情報から各時刻に関連する補助情報を抜き出して時系列データを生成する時間情報生成部と、補助情報の時系列データを時間的に変化する補助情報と変化しない補助情報に分離する動的情報分離部と、音響信号と対応する補助情報の時系列データを対応する時刻に伝送する同期伝送部とを備えることを特徴とする。
【0011】
また、上記課題を解決するために本発明に係る音響信号補助情報変換伝送装置は、複数の音響信号と補助情報から構成されるマルチチャンネル音響の番組を伝送する音響信号補助情報変換伝送装置であって、音響信号と各時刻の情報が記録されている補助情報を読み込み、該補助情報に含まれる情報のうち重複する情報又は自明な情報を削除し、その後、前記補助情報から各時刻に関連する補助情報を抜き出して時系列データを生成し、前記時系列データを時間的に変化する補助情報と変化しない補助情報に分離し、前記音響信号と対応する補助情報の前記時系列データを対応する時刻に伝送する、コントローラと、少なくとも、情報量を削減した補助情報を一時的に保持するメモリとを備えることを特徴とする。
【0012】
前記音響信号補助情報変換伝送装置は、補助情報を時間的に変化しない静的補助情報と時間的に変化する動的補助情報に分離し、静的補助情報と動的補助情報を伝送する周期を変えることが望ましい。
【0013】
また、前記音響信号補助情報変換伝送装置は、前記動的補助情報の変化の有無を示す識別子を付与して補助情報を伝送することが望ましい。
【0014】
また、前記音響信号補助情報変換伝送装置は、補助情報を前回伝送した情報と変化しない静的補助情報と前回伝送した情報から変化した動的補助情報に分離し、時間的に変化した動的補助情報だけを短い周期で伝送し、長い周期で当該時刻に対応する全補助情報を伝送することが望ましい。
【0015】
また、前記音響信号補助情報変換伝送装置は、定期的に当該時刻に対応する全補助情報を伝送することが望ましい。
【0016】
また、前記音響信号補助情報変換伝送装置は、補助情報を伝送する間隔の整数倍だけ、音響信号よりも補助情報を先行して伝送することが望ましい。
【0017】
また、前記音響信号補助情報変換伝送装置は、補助情報を伝送する間隔の整数倍だけ、補助情報を伝送する回数を間欠させることが望ましい。
【0018】
また、前記音響信号補助情報変換伝送装置は、補助情報を複数に分割し、分割された補助情報をそれぞれ異なる先行フレームで、伝送する間隔の異なる整数倍だけ音響信号よりも先行して伝送することが望ましい。
【0019】
また、前記音響信号補助情報変換伝送装置は、放送番組の終了時刻が未定の場合、補助情報が対応する音響信号の時間長を、当該時刻よりも補助情報を伝送する間隔分だけ長く設定し、終了時刻が決まるまで当該時刻に対応する補助情報を更新することが望ましい。
【0020】
また、前記音響信号補助情報変換伝送装置は、放送番組の開始時刻が未定の場合、補助情報が対応する音響信号の開始時刻を、当該時刻よりも補助情報を伝送する間隔分だけ後の時刻に設定し、開始時刻が決まるまで当該時刻に対応する補助情報を更新することが望ましい。
【0021】
また、前記音響信号補助情報変換伝送装置は、補助情報が、補助情報を伝送する間隔、フレームに含まれる補助情報のデータサイズ、当該補助情報が対応する音響信号の番組開始時刻からのサンプル数、当該補助情報と前時刻の補助情報の違いを示す識別子及び当該補助情報、補助情報の伝送時刻のずれ、伝送の間欠回数、のうち少なくともいずれか一つを含むことが望ましい。
【0022】
また、前記音響信号補助情報変換伝送装置は、補助情報を分割する際に、主要な記述子の同一IDに該当する補助情報をひとかたまりとして分割することが望ましい。
【0023】
また、前記音響信号補助情報変換伝送装置は、補助情報に記述する音響定義モデルの項目又は記述内容を、文字数の少ない表現形式に用語を置き換えることが望ましい。
【0024】
上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記音響信号補助情報変換伝送装置として機能させることを特徴とする。
【発明の効果】
【0025】
本発明によれば、ファイル用の音響信号補助情報をなるべく原型を留めたままシリアル表現に変換し、効率的に伝送する音響信号補助情報変換伝送装置及びプログラムを提供することが可能となる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態に係る音響信号補助情報変換伝送装置の構成例を示すブロック図である。
【
図2】音声ファイル形式BW64の構造を示す図である。
【
図3】補助情報ADMの構造(参照形式)を示す図である。
【
図4】補助情報ADMの構造(再帰形式)を示す図である。
【
図5】本発明の実施形態に係るチャンネルベース音響の補助情報の時系列データを示すイメージ図である。
【
図6】本発明の実施形態に係るContent補助情報の時間情報の例である。
【
図7】本発明の実施形態に係るFormat補助情報の時間情報の例である。
【
図8】本発明の実施形態に係る補助情報のフレーム分割のイメージ図である。
【
図9】各時刻で全補助情報を送る場合のデータ伝送を示した図である。
【
図10】各フレームにおいて、必要な補助情報のみを送るデータ伝送を示した図である。
【
図11】各フレームにおいて、差分の補助情報のみを送るデータ伝送を示した図である。
【
図12】本発明の実施形態に係る静的補助情報の分散伝送の例を示す図である。
【
図13】本発明の実施形態に係る静的補助情報の分散伝送の結果を示す図である。
【
図14】本発明の実施形態に係る番組及びオブジェクトの終了時刻が変わる場合の伝送例である。
【
図15】本発明の実施形態に係るオブジェクトの再生開始時刻が変わる場合の伝送例である。
【
図16】本発明の実施形態に係る補助情報の時間情報としてフレーム内のローカル時間を用いる場合の伝送例である。
【発明を実施するための形態】
【0027】
以下、図面を参照しながら本発明の実施形態について説明する。本発明の実施形態では、勧告ITU-R BS.2088に規定される音響ファイル形式BW64に付与される音響メタデータである音響定義モデルADM(勧告ITU-R BS.2076,BS.2094に規定)を例に説明する。
【0028】
図1は、本実施形態に係る音響信号補助情報変換伝送装置の構成例を示すブロック図である。音響信号補助情報変換伝送装置は、複数の音響信号と補助情報から構成されるマルチチャンネル音響の番組を伝送する。
【0029】
音響信号補助情報変換伝送装置100は、音響信号読込部11、重複情報変換部12、時間情報生成部13、動的情報分離部14、同期伝送部15、及び補助情報記憶部21を備えている。なお、装置を実装する際には、このうち、音響信号読込部11、重複情報変換部12、時間情報生成部13、動的情報分離部14、及び同期伝送部15を、コントローラ(制御装置、CPU等)10とプログラムで構成し、また、補助情報記憶部21をメモリ(記憶装置)20で構成する。
【0030】
音響信号読込部11は、音響信号と各時刻の情報が記録されている補助情報からなる音響信号ファイルを読み込む。
【0031】
重複情報変換部12は、補助情報に含まれる情報のうち重複する情報と自明な情報を削除する。
【0032】
補助情報記憶部21は、重複情報変換部12で情報量を削減した補助情報を、一時的に保持する。
【0033】
時間情報生成部13は、情報量を削減した補助情報から各時刻に関連する補助情報を抜き出して時系列データを生成する。
【0034】
動的情報分離部14は、補助情報の時系列データを時間的に変化する補助情報と変化しない補助情報とに分離する。
【0035】
同期伝送部15は、音響信号と対応する補助情報の時系列データを組み合わせ、対応する時刻に伝送する。
【0036】
以下、各ブロック(処理部)の信号処理について、具体的に説明する。
【0037】
音響信号読込部11は、補助情報付きの音響信号ファイルもしくは、外部からの入力を受け、音響信号を同期伝送部15へ出力し、補助情報を重複情報変換部12へ出力する。
【0038】
入力としての音声ファイル形式BW64の構造を
図2に示す。BW64は、次の各種チャンクを備えている。
<WAVE-Form> -> BW64('WAVE'
<ds64> chunk
<fmt > chunk
<chna> chunk
<axml> chunk
<wave-data> chunk)
【0039】
ここで、音響信号は、<wave-data> chunkに保存されており、音響信号を再生するときに必要な補助情報は、<fmt > chunk、<chna> chunk、<axml> chunkに付与されている。但し、chunkの順序は一様ではない。例えば、
図2(A)は、<axml> chunkの後に<wave-data> chunkを備えており、また、
図2(B)は、<wave-data> chunkの後に<axml> chunkを備えている。どちらのフォーマットも利用可能であり、例えば、
図2(A)は録音時に利用し、
図2(B)は補助情報を作成する編集時に利用する等、用途に応じて使い分けられる。
【0040】
まず、付与する補助情報を一つのテキスト情報に統合する。<fmt > chunkには、音響信号の形式の情報が例えば下記のように保存されている。
【0041】
【0042】
<chna> chunkには、実際の音響信号と補助情報上の音響信号の関係(各チャンネルの音響信号とメタデータの対応関係)が例えば下記のように保存されている。
【0043】
【0044】
[サンプル02]を<axml> chunkと同じADMの書式に変換することで、例えば下記の[サンプル03]ように一つのテキスト情報とすることができる。transportDeviceLabelは、音響信号が記録されているBW64などのファイル形式や、音響信号を伝送する際に使用されるAES3やAES10などの音響インターフェースを示しており、物理的に音響信号が記録・伝送されるトラックを特定するために使用される。
【0045】
【0046】
ここで用いられた補助情報を表1~表4に示す。
【0047】
【0048】
【0049】
なお、表で「Quantity」は、値が入っていることを意味し、「0...*」は、不定数の数値又は文字データの形式であることを意味する。
【0050】
【0051】
【0052】
<axml> chunkには、勧告ITU-R BS.2076に規定される音響定義モデルADM以外にも幾つかのメタデータが記載されている。例えば、放送用のメタデータが記載された<bext> chunkや<ubxt> chunkなどを記載してもよい。下記の例は、<header>タグでまとめた上記<transportTrackFormat>に続けて、ADMと<bext> chunkや<ubxt> chunkの補助情報を<axml> chunkの補助情報に追加した例である。このように、追加情報を適宜加えることができる。
【0053】
【0054】
下記の[サンプル05]は、上記<transportTrackFormat>に続けて、ADMの補助情報だけを付与した例である。これは、一つの基本的な標準パターンである。
【0055】
【0056】
上記のように、補助情報はXML言語で書かれた一つのテキスト情報となる。(但し、JSONなどの他の言語で書かれていても同様である。)
【0057】
図3及び
図4は、補助情報ADMの構造を示している。図から明らかなように、補助情報ADMは規格で定められた階層構造を備えている。
図3は、ADMの各情報がそれぞれどの情報を参照しているかを階層的に直接記述した形式(参照形式)で構造を示したものである[白抜き文字が参照先]。また、
図4は、ADMの各情報が参照している情報を、それぞれライン(矢印)で結び、関係を回帰的に表した形式(回帰形式)で構造を示したものである。どちらも同じ構造を示している。
【0058】
図4を参照して、実際の音響信号はaudioTrackUIDで示しており、audioProgramme、audioContent、audioObjectsが番組の内容を示すContent情報である。一方、audioTrackFormat、audioStreamFormat、audioChannelFormat、audioPackFormatは音響方式の形式を示しているFormat情報である。後に詳述するが、audioBlockFormatのみが時間と共に変化する動的情報(音源の位置(position)情報や音量(gain)情報等を含む。)であり、それより上位の情報は、変化しない静的情報として扱うことができる。
【0059】
上記構造の補助情報の例をXML言語で記述すると下記の[サンプル06]のようになる。これは、音響信号読取部11に入力される補助情報の一例である。
【0060】
【0061】
次に、重複情報変換部12について説明する。本発明の特徴の一つは、伝送する補助情報の情報量を圧縮して、効率的な伝送を行うことである。重複情報変換部12は、事前に分かっている情報などを元に上記補助情報の軽減を行う。例えば、2chステレオなど、よく使われるスピーカ配置(audioPackFormat)とそのチャンネル(audioChannelFormat)は共通定義として勧告ITU-R BS.2094に規定されている。予めよく使うメタデータを登録しておくことで、実際の伝送するデータ量を抑えることができる。例えば、上記XML言語のコード[サンプル06]のうち、下記[サンプル07]の情報は規格で規定されており、共通定義事項として省略可能である。
【0062】
【0063】
また、重複情報変換部12は、補助情報間の参照構造を分析し、一部の補助情報を省略することができる。audioStreamFormatが参照するaudioTrackFormatとaudioChannelFormatが、ただお互いを参照するだけで、特段何も規定していない場合、これらを省略することが可能である。これはPCM音響信号が1トラックに1信号記録されている場合に相当する。逆に、省略が不可能な場合は、1トラックの信号に複数の音響信号が重畳されている場合である。例えば、[サンプル06]の一部である下記XMLコード[サンプル08]は、[サンプル09]のように、直接audioChannelFormatを参照することができ、これにより補助情報量を圧縮できる。
【0064】
【0065】
【0066】
参照する場合、参照する側と参照される側に重複する文字列があるため、繰返し使用しないのであれば、参照せず、直接記載した方がXMLコードを短くすることができる。また、audioTrackUIDは、audioPackFormatを参照しているが、親であるaudioObjectsもまたaudioPackFormatを参照しているため、audioTrackUIDからの参照を省略することができる。この参照関係は、例えば、
図4からも把握できる。
【0067】
このように、共通定義事項の省略や、参照部分の省略することで、[サンプル06]のXMLコードは下記[サンプル10]のように短縮することができる。
【0068】
【0069】
なお、上記例では、参照構造の参照部分を省略することでXMLコードの短縮を行ったが、逆にaubioBlockFormatのように階層化されているコードを、次の[サンプル11(上段)]のように参照構造に変更することも可能である。また、AB_XXXXYYYY_ZZZZZZZZのうちXXXXYYYYはaudioChannelFormat AC_XXXXYYYYのXXXXYYYYと同じ値であり、ZZZZZZZZはフレーム数の通し番号である。AC_XXXXYYYYからは同じ番号のAB_XXXXYYYY_********しか参照しないため、audioChannelFormatからaudioBlockFormatを参照する必要はない。そこで、AB_00010001_ZZZZZZZZとして参照することで、一つ一つのaudioBlockFormatの参照を省略することが出来る(サンプル11(下段))。
【0070】
【0071】
後述するように、同一時刻の補助情報を小さな単位(サブフレーム)に分割して、音響信号と組み合わせて伝送するため、補助情報を分割・再統合しやすい構造で記述することが求められる場合がある。補助情報を複数のテキストに分割して伝送する場合や、未確定の情報を伝送して後ほど上書きする場合などは、補助情報が一定のまとまった単位で分割できる方がよい。例えば、<audioProgramme audioProgrammeID = "APR_1001" ….>… </audoProgramme>など主要な記述子の同一のIDが示す範囲で分割することが望ましい。この場合、階層構造ではなく、参照構造を用いた方が補助情報の編集・管理が容易になる。階層構造は、参照部分を省略できるため、データ量を軽減できるが、同じ要素を何度も重複して伝送する場合、逆にデータ量が増える場合がある。また、参照構造は補助情報のまとまりが小さい単位となることから、特定の情報の読み取り時間が短くなるという効果もある。階層構造と参照構造は、効率的な情報伝送を行う観点から、適宜選択される。
【0072】
通常、補助情報は全ての情報をまとめて伝送されるが、例えば音声信号と補助情報を対にして伝送する場合など、特定の音響信号の情報だけを抜き出してもよい。例えば、下記のような2chステレオ信号を送る例を考える。
【0073】
【0074】
上記例は、AES10(MADI)などを用いて複数の音響信号をまとめて伝送する場合に補助情報もまとめて伝送することを想定しているが、AES3などを用いて各音響信号にそれぞれ関連する補助情報を付与する場合、音響信号のトラックを示すaudioTrackUIDのIDが共通の補助情報だけ(この場合、上記[サンプル12]からATU_00000001)を次の[サンプル13]ように抜き出しても良い。このようなデータ抽出は、チャンネルごとに補助情報を送るとき等に、利用することができる。
【0075】
【0076】
このように重複情報変換部12において、省略可能な補助情報は省略され、補助情報記憶部21に格納される。
【0077】
補助情報記憶部21は、重複情報変換部12で生成された重複情報が省略された補助情報を一時的に記憶・保持する。そして、記憶された補助情報を時間情報生成部13に出力する。また、時間情報生成部13で生成された時系列データを一時的に記憶・保持することを行ってもよい。さらに、動的情報分離部14に対しても、記憶された補助情報を出力したり、生成されたデータを一時的に記憶・保持したりすることを、必要に応じて行う。
【0078】
次に、時間情報生成部13について説明する。時間情報生成部13は、補助情報記憶部21に記憶された補助情報から、補助情報の時系列データを生成する。
【0079】
図5は、本発明の実施形態に係るチャンネルベース音響の補助情報の時系列データを示すイメージ図である。基本的には、必要な補助情報(
図5の左側の情報)を所定時間毎に時系列データとして伝送するが、全てのデータを時系列データとして毎回伝送する必要は無い。例えば、典型的なチャンネルベース音響の補助情報は、時間的に変化しないために、事前に固定値(共通定義事項等)を定義することができ、これらを伝送することを省略することができる。また、番組に依存する補助情報であったとしても繰返し伝送される補助情報は一度読み込めば、その後の繰り返しデータは伝送を省略することができる。
【0080】
後述するように、時間的に変化しない補助情報(静的補助情報)と、時間的に変化する補助情報(動的補助情報)とは、伝送タイミング等を異なる扱いとすることができる。時間的に変化する可能性がある補助情報は、オブジェクトの開始時刻(audioObject.start)、音響信号の再生時刻や再生位置情報(audioBlockFormat.rtime)などである。なお、番組開始時刻(audioProgramme.start)は静的補助情報となる場合も、生放送等のように、変化する補助情報となる場合もある。
【0081】
図6は、本発明の実施形態に係るContent補助情報の時間情報の例であり、番組開始時刻を示す補助情報である。これらは、
図4において示されたContent情報に対応し、番組中でデータが更新される頻度が低いため、この例では、静的補助情報とみなす。
【0082】
他方、
図7は、本発明の実施形態に係るFormat補助情報の時間情報の例であり、時々刻々と変化する時間情報に関する各音響信号の再生位置や再生レベルなどに関する補助情報(aubioBlockFormat)である。これは、
図4におけるFormat情報に対応し、この例では動的補助情報とみなす。
図7で、時刻10:04:00から始まる補助情報(aubioBlockFormat)と、時刻10:10:00から始まる補助情報(aubioBlockFormat)とは、その内容(図示せず)が異なっている。
【0083】
時間情報生成部13は、補助情報に基づいて、ある時間間隔で伝送する時系列データを作成する。
図8は、本発明の実施形態に係る補助情報のフレーム分割のイメージ図である。
図7のような補助情報を、所定の時間間隔(ここでは3分)で区切ることにより、補助情報を「audioFrame '0001'」、「audioFrame '0002'」、「audioFrame '0003'」・・・のように、分割して伝送する。なお、フレームを区切る時間間隔は、3分に限らず、適宜設定することができる。
【0084】
ここで、補助情報の伝送の考え方について説明する。従来のデータ形式(BW64等)を再生する場合は、音響信号の再生開始時に全ての補助情報データを読み込み、その後、音響信号を再生する。この形式を動画像信号と同期させて記録させた場合や時系列データとして伝送された音響信号を再生する場合、信号の途中からの再生や、ザッピング等に対応できない。そこで、任意の時刻からの再生を可能にするために、各時刻で、補助情報を伝送することが検討された。
図9は、各時刻で全補助情報を送る場合のデータ伝送を示している。縦長のブロックが所定の時間間隔で区切られた一つのフレームを示しており、図の横方向が時間の流れを示す。しかしながら、このように各時刻で全補助情報を送るにはデータ量が多すぎ、伝送路を圧迫する。
【0085】
そこで、各フレームでは、その時間間隔における音響信号に関する補助情報のみを伝送することとした。これが本発明の基本となる第1の考え方である。
図10は、各フレームにおいて、必要な補助情報(そのフレーム時間の音響信号に対応する補助情報)のみを送るデータ伝送を示している。各フレームの時間間隔にもよるが、
図10から明らかなように、1つのフレームに関係する動的補助情報のブロック(aubioBlockFormat)は多くとも2つであり、各フレームは必要な静的補助情報と、2つのブロックに関する動的補助情報を送ればよい。したがって、
図9と比較して、伝送データ量を大幅に減少させることができる。
【0086】
また更に、各フレームでは、その前のフレームで伝送された補助情報に変化があった場合、その差分の情報のみを伝送することができる。これが本発明の実施形態に関連する第2の考え方である。
図11は、各フレームにおいて、差分の補助情報(そのフレームで必要な補助情報と、その前まで使用された補助情報との差分)のみを送るデータ伝送を示している。
図11から明らかなように、静的補助情報は通常変化しないから、最初に伝送すればその後は送る必要がない。また、各フレームの時間間隔にもよるが、差分として伝送される動的補助情報は少数ブロック(aubioBlockFormat)であり、場合によっては0ブロックである。したがって、差分伝送は、
図10と比較しても、さらに伝送データ量を減少させることができる。
【0087】
以下、XMLコードで記述された補助情報を元に、時系列データの生成を説明する。まず、第1の実施形態として、その時刻の音響信号に関係する補助情報だけを時系列データとし、当該時刻に関係する補助情報だけを周期的に切り換えて伝送する例を示す。
【0088】
元の補助情報を次の[サンプル14]とする。[サンプル14]は、時刻00:04:00から00:10:00まで続くaubioBlockFormatである"AB_00031002_00000001"と、時刻00:10:00から00:18:00まで続くaubioBlockFormatである"AB_00031002_00000002"と、時刻00:18:00から00:21:00まで続くaubioBlockFormatである"AB_00031002_00000003"を記述しており、位置(position)が変化する補助情報を示している。
【0089】
【0090】
[サンプル14]をある時間間隔(ここでは3分)に基づいた時系列データ(<frame>から</frame>まで)に分解すると、[サンプル15]のように記述できる。
【0091】
【0092】
[サンプル15]を参照すると、最初のフレーム(時刻00:00:00から3分間)では、オブジェクトが無いから、実体的なaubioBlockFormatは記述されず、オブジェクトの枠のみが規定されている。2番目と3番目のフレーム(時刻00:03:00から3分間と、時刻00:06:00から3分間)では、 "AB_00031002_00000001"のaubioBlockFormatが記述される。また、4番目のフレーム(時刻00:09:00から3分間)では、aubioBlockFormat が変化し、"AB_00031002_00000001"と"AB_00031002_00000002"の2つのaubioBlockFormatが記述されている。
【0093】
なお、[サンプル15]では、1つの時系列データ(<frame>から</frame>まで)の中に、静的補助情報であるContent情報(前半)と動的補助情報であるFormat情報(後半)とが含まれている。
【0094】
ここで新たに用いられた補助情報は下記の通りである。
【0095】
【0096】
【0097】
次に、動的情報分離部14は、時間情報生成部13で生成された時系列データの補助情報を、番組中変化しない静的補助情報と番組中に変化する動的補助情報に分離する。分離された静的補助情報と動的補助情報は、それぞれ同期伝送部15に出力される。また、必要に応じて、補助情報記憶部21に保存してもよい。
【0098】
静的補助情報は、一度読み込めば番組を切り換えたり、途中から再生したりしない限りは再度読み込む必要がないため、頻繁にデータを伝送する必要はない。動的補助情報は、各時刻で読み込む必要がある。したがって、静的補助情報と動的補助情報を分離することにより、それぞれに適した周期や手順で伝送することができる。
【0099】
同期伝送部15は、動的情報分離部14で分離された静的補助情報と動的補助情報を、音響信号と共に伝送する。前述したとおり、静的補助情報と動的補助情報は、異なる周期で伝送することが望ましい。下記の例[サンプル16]では、audioChannelFormatとaudioBlockFormatを動的補助情報として0.5秒間隔、それ以外の補助情報を静的補助情報として10秒間隔で伝送する。ここで、静的補助情報は、番組中変化しない固定値であるため、それを示す“fixed”という識別信号が付与されている。これにより、一度読み込んだ静的補助情報は再度処理しなくてよいことが明示できる。動的補助情報には前フレームから変化があったことを示す“changed”という識別子が付与されている。なお、前フレームから変化がない場合は、“unchanged”という識別子が付与される。前フレームから変化があった場合、変化した補助情報だけを明示するために、changedAdmElementIDRefで変化した補助情報を指定することができる。また、補助情報には、補助情報を伝送する間隔、当該フレームに含まれる補助情報のデータサイズ、当該補助情報が対応する音響信号の番組開始時刻からのサンプル数等を記述することもできる。
【0100】
【0101】
上記[サンプル16]では、Content情報を静的補助情報、Format情報を動的補助情報に分類して、伝送周期を変えることを示したが、動的補助情報も先行時刻と差分がない場合は伝送回数を少なくしてもよい。
【0102】
また、補助情報の伝送量を更に低減するために、差分情報を送る方式がある。差分情報を送る方式として、各フレームに対応する補助情報を前フレームの補助情報と比較し、前フレームと変化がない補助情報を伝送せず、差分だけを動的補助情報として伝送することができる。これは、
図11に基づいて説明した方法である。差分が生じるまでの間伝送しないことで情報量を圧縮する。
【0103】
実際の差分情報を送る方式では、全補助情報を数回に1回(例えば、定期的に)伝送し、他の時刻(フレーム)では前フレームから変化があった補助情報だけを動的補助情報として伝送することで、伝送容量を減らすことができる。ここでは、前回伝送した情報と変化しない補助情報を静的補助情報として取り扱い、前回伝送した情報から変化した補助情報を動的補助情報として取り扱う。所定の間隔で全補助情報を伝送することにより、途中からの再生に対応することができる。この場合、全補助情報を伝送するときは“all”を付与し、動的補助情報として、新しいaudioBlockFormatが挿入されたことを示す“insert”を付与する。その例を下記の[サンプル17]に示す。
【0104】
【0105】
[サンプル17]の例は、音響信号の位置(position)が途中で変わったことを示しており、この変化のみを差分情報(“insert”を付与)として伝送している。
【0106】
ここまで、同期伝送部15において、静的補助情報を比較的長い周期の所定期間毎に送り、動的補助情報をフレーム毎に伝送することを説明した。このとき、静的補助情報を伝送するタイミングでは伝送量が大きくなるため、これを改善する手段を検討する。
【0107】
図12に、本発明の実施形態に係る静的補助情報の分散伝送の例を示す。まず、
図12(A)に示すように、静的補助情報を一定の情報量で複数フレームに亘って連続的に伝送することが検討された。これにより、伝送情報量は各フレームで平均化したが、静的補助情報と動的補助情報の伝送周期が異なるため、受信側のシステム構築が複雑となり、また、連続区間の途中からの受信・再生に適切に対応することが困難であった。
【0108】
また、これまで、音響信号と対応する補助情報とを同じ時刻に伝送することを想定していたが、補助情報を用いて音響信号を加工するため、補助情報を先行して伝送させたほうが望ましい場合がある。補助情報を先行して伝送する場合、frameShift = 1と指定することで、当該補助情報が1フレーム分後に送られる音響信号の内容と同期することを示すことができる。
【0109】
そこで、
図12(B)に示すように、データをK個に分割して、各データをKフレームに1回しか伝送せず(frameSkip = K-1)、分割したデータ数だけフレームをシフトさせることで(frameShift = K-1, K-2,…,0)、データサイズの大きな補助情報を分割して当該時刻のフレームに伝送することができる。
図12(B)ではK=3の例を示している。なお、補助情報には、補助情報の伝送時刻のずれ、伝送の間欠回数等を記述することが望ましい。
図13に、本発明の実施形態に係る静的補助情報の分散伝送の結果を示す。この伝送方式により、ある時刻に伝送するデータ量はほぼ一定であり、補助情報が送られてくる周期は動的補助情報の1種類としたまま、実装上、
図13に示すように、静的補助情報を送る周期を離散的にすることが可能となる。
【0110】
このように、音響信号フレームよりも補助情報を早く伝送し、すなわち、同じ内容の静的補助情報を複数個に分割してそれぞれ異なる先行フレームで伝送し、分割数だけ間欠させて伝送させることで、静的補助情報の1回分の伝送情報量を軽減させることができる。この方式により、静的補助情報を長い周期で伝送する場合、周期が長くなると全補助情報を読み込むまで時間がかかり、遅延が生じるといった欠点が改善される。また、異なる周期で送られるデータは管理上の複雑さがあるが、この方式では受信側のシステム構築が簡単となる。
【0111】
次に、生放送など、各オブジェクトの番組終了時刻が分からない場合の対応について説明する。
図14は、本発明の実施形態に係る番組及びオブジェクトの終了時刻が変わる場合の伝送例である。
図14に例示する補助情報は、番組終了時刻に柔軟に対応し得る。Object02のブロックの上段の数値は開始時刻であり、下段の数字は継続時間(Duration)を示している。Durationの値だけを上書きすることで任意の終了時刻に対応することができる。Durationの延長時間は、BlockFormatのDurationと同じにする。
図14では、延長された数値にアンダーラインを引いている。これにより、絶えず終了時刻が延長される。この場合、既に送られた補助情報を上書きすることになるので、補助情報が先行情報と変化があったことを示す“changed”の記述子を用いるとともに、上書きを示す“overwrite”が使われる。
【0112】
このように、生放送などで終了時刻などが確定しない場合、確定しない信号だけを伝送し、番組終了時刻まで常時上書きすることによって、終了時刻が不確定な場合でも効率的な補助情報の伝送を可能とする。
【0113】
また、生放送などで、開始時刻が未定の場合の対応について説明する。
図15は、本発明の実施形態に係るオブジェクトの再生開始時刻が変わる場合の伝送例である。
図15に例示する補助情報は、番組開始時刻に柔軟に対応し得る。開始時刻を1フレーム目の終了時刻として、Durationだけ延長することで、開始時刻を遅らせることができる。
図15では、延長され、変更された数値にアンダーラインを引いている。Frame 01では、オブジェクト02は再生されないので、再生開始時刻startを当該フレーム長のDurationと同じ00:02:00.00000とすることで、当該フレームでは再生されない。Frame 02では開始時刻にDurationと同じ長さを足すことで当該時刻ではオブジェクトは再生されない。Frame 03では音響信号は再生されるため、開始時刻00:04:00.00000はこの時点で確定される。このとき、audioBlockFormat(Block03_01)のrtimeを00:00:00.00000とすることで、実際にオブジェクトの音響信号が再生される。オブジェクトの終了時刻が分からない場合、オブジェクトが始まる時刻を00:00として、カウントを開始する。なお、Block03のブロックが01,02,03と増えているのは、例えば、位置情報が変化する等、補助情報が変化しているからであり、ここでは差分情報を伝送している。最終的にオブジェクト02はFrame 07までの9分間再生され、Block 01, 02, 03がそれぞれ4分、2分、3分間の計9分再生される。
【0114】
このように、補助情報が対応する音響信号の開始時刻を、当該時刻よりも補助情報を伝送する間隔分だけ後の時刻に設定し、開始時刻が決まるまで当該時刻に対応する補助情報を更新することにより、開始時刻が不確定な場合でも効率的な補助情報の伝送を可能とする。
【0115】
図16は、本発明の実施形態に係る補助情報の時間情報としてフレーム内のローカル時間を用いる場合の伝送例である。ローカル時間を用いることにより、番組開始からの時間をカウントする必要が無く、伝送する情報量を減らすことができる。
【0116】
フレーム内に書かれている時間情報は、audioProgramme start = 10:00:00.000のように書かれている。この時刻は、1970-01-01T00:00:00.99999Z、1970-01-01T00:00:01.00000Zのように書かれている場合もある。また、音響信号のサンプル単位で制御するために、1970-01-01T00:00:00.47999S、1970-01-01T00:00:01.00000Sと1秒未満がサンプル単位で書かれている場合もある。番組開始時刻はaudioProgramme.startに書かれているが、音響信号処理には使用しない。番組開始時刻を00:00:00.00000とした場合、audioObject.startがオブジェクトの再生時刻を示す。audioObject.start = 0:0:10.00000とあった場合、番組開始後10秒後にオブジェクトは再生される。オブジェクトの再生開始後、audioBlockFormat.rtimeで音響信号は再生される。audioBlockFormat.rtime = 0:0:05.00000とあった場合、オブジェクト再生開始後5秒後、番組開始後15秒後から音響信号は再生される。timeReferenceがttime (total time)であった場合、番組開始時刻を00:00:00.00000とした時間で全てが管理される。しかし、開始点が不明確である場合や、他のフレームからは独立して制御したい場合などは、timeReferenceをltime (local time)に設定してもよい。この場合、番組開始時刻ではなく、各フレームの先頭が00:00:00.00000となるため、audioObject.startやaudioBlockFormat.rtimeの値を用いることが出来ない。そこで、フレームの開始時刻を00:00:00.00000とした開始時刻をltimeとして、再生時間長をldurationとする。
【0117】
図16では20秒のフレームに分割した例を示している。AB_00030002の再生開始時刻rtimeはオブジェクト再生開始後30秒(00:00:30.000(ttime(total time)))であるが、当該フレームは20秒から40秒区間であるため、フレームの開始時刻である0:00:00.00から10秒後(00:00:10.000(ltime))が開始時刻となる(フレームAを参照)。また、AB_00030004の再生終了時刻は、ttime (total time)で3分30秒であるが、最後のフレーム(フレームBを参照)は3分20秒から開始するため、フレームの再生時間長(終了時刻)は0:00:00.00から10秒間である。但し、位置情報や再生レベル情報がフレーム内で徐々に変化する場合、total timeで記載された位置情報をlocal timeに変換する必要がある。
【0118】
これまでは、音響定義モデルADMを用いて説明していたが、ADM以外のテキスト情報がその前後に付与されたとしても同じように処理できる。下記は、放送用の音声ファイル形式BW64のchunkに書かれたADMとその前後にBWFの<bext> chunkや<ubxt> chunkの情報を追加した例である。
【0119】
【0120】
<bext> chunkや<ubxt> chunkの情報を使わない場合、下記のように省略することが可能である。
【0121】
【0122】
また、音響定義モデルADMをXML以外の別の表現形式に置き換えても同様のことが可能である。例えば、項目又は記述内容について、audioProgramme を01、IDを02、startを03とすると、audioProgramme ID = APR_1001、audioProgramme start = 00:00:00.00000の補助情報は、01:02:1001、01:03:00 00 00 00000のように文字数を減らすことができる。このように定型表現を記号化しても同様に本発明に従って伝送情報量の軽減が可能である。
【0123】
その他、伝送情報を伝送する手法として、仮に単独の伝送路で補助情報が送れない場合、静的補助情報と動的補助情報を異なる伝送路で伝送することによって、効率的に補助情報を伝送することもできる。
【0124】
なお、上述した音響信号補助情報変換伝送装置100として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、音響信号補助情報変換伝送装置100の各機能を実現する処理内容を記述したプログラムを該コンピュータのメモリ(記憶部)に格納しておき、該コンピュータのコントローラ(CPU)によってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
【0125】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0126】
10 コントローラ
11 音響信号読込部
12 重複情報変換部
13 時間情報生成部
14 動的情報分離部
15 同期伝送部
20 メモリ
21 補助情報記憶部
100 音響信号補助情報変換伝送装置