IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2023-168842スポット制作用データ生成装置およびそのプログラム
<>
  • 特開-スポット制作用データ生成装置およびそのプログラム 図1
  • 特開-スポット制作用データ生成装置およびそのプログラム 図2
  • 特開-スポット制作用データ生成装置およびそのプログラム 図3
  • 特開-スポット制作用データ生成装置およびそのプログラム 図4
  • 特開-スポット制作用データ生成装置およびそのプログラム 図5
  • 特開-スポット制作用データ生成装置およびそのプログラム 図6
  • 特開-スポット制作用データ生成装置およびそのプログラム 図7A
  • 特開-スポット制作用データ生成装置およびそのプログラム 図7B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023168842
(43)【公開日】2023-11-29
(54)【発明の名称】スポット制作用データ生成装置およびそのプログラム
(51)【国際特許分類】
   H04N 21/854 20110101AFI20231121BHJP
   H04H 60/06 20080101ALI20231121BHJP
   H04H 60/04 20080101ALI20231121BHJP
   H04N 21/233 20110101ALI20231121BHJP
   H04N 5/222 20060101ALI20231121BHJP
【FI】
H04N21/854
H04H60/06
H04H60/04
H04N21/233
H04N5/222
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022080183
(22)【出願日】2022-05-16
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】久保 弘樹
【テーマコード(参考)】
5C122
5C164
【Fターム(参考)】
5C122DA37
5C122EA42
5C122FJ06
5C122HA13
5C122HA35
5C122HB09
5C164FA29
5C164MC01P
5C164PA41
5C164SB04P
5C164SB07P
(57)【要約】
【課題】スポットの一部音声を差し替えることが可能なスポット制作用データを生成するスポット制作用データ生成装置を提供する。
【解決手段】スポット制作用データ生成装置1は、スポットの予め定めた時間区間ごとに対応する1以上の音声データを時間区間ごとに入力し、音声データをすべての時間区間において同じチャンネル数に調整し、時間方向に結合した結合音声データを生成する音声データ結合部10と、時間区間ごとの音声データのリストを時間区間ごとに入力し、結合音声データにおける音声データの再生位置を特定する音響メタデータを生成する音響メタデータ生成部20と、結合音声データと音響メタデータとを単一のファイルに統合してスポット制作用のデータを生成するデータ統合部30と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
スポット制作用のデータを生成するスポット制作用データ生成装置であって、
スポットの予め定めた時間区間ごとに対応する1以上のチャンネルで構成された音声データを前記時間区間ごとに入力し、時間方向に結合した結合音声データを生成する音声データ結合部と、
前記時間区間ごとの音声データのチャンネルのリストを前記時間区間ごとに入力し、前記結合音声データにおける前記音声データのチャンネルごとの再生位置を特定する音響メタデータを生成する音響メタデータ生成部と、
前記結合音声データと前記音響メタデータとを統合して前記スポット制作用のデータを生成するデータ統合部と、
を備えることを特徴とするスポット制作用データ生成装置。
【請求項2】
前記音声データ結合部は、すでに結合済の音声データと新たに入力される音声データとのチャンネル数が少ない方にnullデータを挿入してチャンネル数を揃え、それぞれの音声データを結合することを特徴とする請求項1に記載のスポット制作用データ生成装置。
【請求項3】
前記音響メタデータ生成部は、前記リストから、音声を構成するチャンネル数の音声データを1つの音声オブジェクトとし、前記音声オブジェクトの組み合わせおよび再生時刻をプリセットとする前記音響メタデータを生成することを特徴とする請求項1に記載のスポット制作用データ生成装置。
【請求項4】
前記音響メタデータ生成部は、ITR-R BS.2076で規定されているADMにより前記音響メタデータを生成することを特徴とする請求項3に記載のスポット制作用データ生成装置。
【請求項5】
前記データ統合部は、ITR-R BS.2088で規定されているBW64のファイルフォーマットで、前記結合音声データと前記音響メタデータとを統合することを特徴とする請求項1に記載のスポット制作用データ生成装置。
【請求項6】
コンピュータを、請求項1から請求項5のいずれか一項に記載のスポット制作用データ生成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スポット制作用データ生成装置およびそのプログラムに関する。
【背景技術】
【0002】
現在、テレビ・ラジオ放送や動画・音声配信サービスにおいては、短時間の映像や音声として、スポット・アナウンスメントが挿入される場合がある。スポット・アナウンスメントは、番組スポンサの商品の広告、放送局の他の番組の宣伝などを目的とした、番組の途中や合間に挿入される15秒から30秒程度の短時間の映像あるいは音声である。以下、スポット・アナウンスメントを単にスポットと呼ぶ。
【0003】
一部のスポットは、その短時間の中でさらに複数のパートに分かれる。主たる宣伝パートのほかに、「(○○放送局/△△放送局)で放送!」、「○○[番組名]は(今晩/明日)!」といった、スポットを放送する地域や時間に応じて一部の音声を差し替えることを想定したパートが存在する。このような複数のパートに分かれるスポットを制作する際には、一部の音声しか違わないものの、差し替えるすべてのパターンでスポット全体分の音声ファイルを制作する必要がある。その場合、完成した音声ファイルや当該音声ファイルを組み込んだ映像ファイルが多数にわたり、データ量の増大やファイルの取り違え防止などに対応するため、管理上の負担が生じている。加えて、東京などの大都市部の本部放送局やキー局で制作されたスポットが、地域放送局や系列放送局に提供される場合、各地域の放送局でその差し替え部分の制作・編集作業が行われている。
【0004】
また、近年では、立体音響の再生に用いる方式として、映画業界を中心にオブジェクトベース音響方式の実用化が進んでいる。オブジェクトベース音響方式は、オブジェクトベース音響を構成する音声オブジェクトと音響メタデータとを記録・伝送して、レンダラと呼ばれる再生装置が再生環境に応じた形式でコンテンツを再生(レンダリング)する方式である。レンダリングは、各家庭などの再生環境で行われるため、レンダリング時に音声オブジェクトを差し替えることで、英語から日本語への吹き替えなどのサービスが可能である。
【0005】
現在、オブジェクトベース音響方式に対応したMPEG-HやAC-4と言った音声符号化方式を用いて、オブジェクトベース音響の放送あるいは動画配信サービスへの導入が検討されている。また、国際電気通信連合無線通信部門(ITU-R)では、国際標準の番組制作用音響メタデータとして音響定義モデル(Audio Definition Model:ADM)が規定されている(非特許文献1参照)。また、ITU-Rでは、コンテンツ制作において記述したADMに基づいて番組音声を生成して検聴可能とするADM用の標準レンダラが規定されている(非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】“Audio Definition Model”,勧告ITU-R BS.2076-02(10/2019)
【非特許文献2】“Audio Definition Model renderer for advanced sound systems”,勧告ITU-R BS.2127-0(06/2019)
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記したように、スポットの一部の音声を差し替える場合、その差し替えの組み合わせによって制作される音声ファイル数は膨大になり、管理するデータサイズが増大するとともに、ファイルの取り違えなどの管理上の問題が発生する場合がある。
なお、音声を差し替える技術として、オブジェクトベース音響方式が存在する。しかし、オブジェクトベース音響方式を用いた従来の制作設備は、映画館での再生を想定しており、基本的に従来通り音声編集装置で音声を予め差し替える必要がある。また、わずかに存在する再生時の音声差し替えに対応した従来の制作設備は、ナレーションの吹き替えのみしか想定されておらず、差し替えるパターンが限定される。さらに、従来の制作設備で制作されるオブジェクトベース音響のコンテンツは、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることができない。
【0008】
本発明は、このような問題に鑑みてなされたもので、音声ファイルのデータサイズやファイル数を抑えるとともに、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることが可能なスポット制作用データを生成するスポット制作用データ生成装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0009】
前記課題を解決するため、本発明に係るスポット制作用データ生成装置は、スポット制作用のデータを生成するスポット制作用データ生成装置であって、音声データ結合部と、音響メタデータ生成部と、データ統合部と、を備える構成とした。
【0010】
かかる構成において、スポット制作用データ生成装置は、音声データ結合部によって、スポットの予め定めた時間区間ごとに対応する1以上のチャンネルで構成された音声データを時間区間ごとに入力し、時間方向に結合した結合音声データを生成する。これによって、音声データ結合部は、時間区間(パート)内で差し替え可能な音声データを含み、時間区間の時間方向に結合した1つの結合音声データを生成する。
【0011】
また、スポット制作用データ生成装置は、音響メタデータ生成部によって、時間区間ごとの音声データのチャンネルのリストを時間区間ごとに入力し、結合音声データにおける音声データのチャンネルごとの再生位置を特定する音響メタデータを生成する。これによって、音響メタデータ生成部は、音声データを再生する再生装置において結合音声データから再生対象の音声データのチャンネルを特定して再生することが可能な音響メタデータを生成する。
【0012】
そして、スポット制作用データ生成装置は、データ統合部によって、結合音声データと音響メタデータとを統合してスポット制作用のデータを生成する。これによって、データ統合部は、結合音声データと音響メタデータとを、単一のファイルに統合する。
なお、スポット制作用データ生成装置は、コンピュータを、前記した各部として機能させるためのプログラムで動作させることができる。
【発明の効果】
【0013】
本発明によれば、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることが可能なスポット制作用データを1つのファイルで生成することができる。また、本発明は、予めすべての時間区間の組み合わせで生成したスポットを複数生成する必要がない。これによって、本発明は、ファイルの管理負荷を抑えるとともに、データ量を抑えたスポット制作用データを生成することができる。
【図面の簡単な説明】
【0014】
図1】本発明の実施形態に係るスポット制作用データ生成装置の構成を示すブロック構成図である。
図2】本発明の実施形態に係るスポット制作用データ生成装置に入力する音声データとリストとを説明するための説明図である。
図3】音声データ結合部におけるチャンネル数を調整して音声データを結合する手法を説明するための説明図である。
図4】音響メタデータ生成部のオブジェクトリスト生成部が生成するオブジェクトリストの内容を説明するための説明図である。
図5】音響メタデータ生成部の組み合わせパターン生成部が生成する組み合わせパターンリストの内容を説明するための説明図である。
図6】本発明の実施形態に係るスポット制作用データ生成装置の動作を示すフローチャートである。
図7A】音響メタデータ生成部のメタデータ生成部が生成する音響メタデータ(ADM)の例(1/2)を示す図である。
図7B】音響メタデータ生成部のメタデータ生成部が生成する音響メタデータ(ADM)の例(2/2)を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について図面を参照して説明する。
[スポット制作用データ生成装置の構成]
図1を参照して、本発明の実施形態に係るスポット制作用データ生成装置の構成について説明する。
【0016】
スポット制作用データ生成装置1は、スポット制作用のデータを生成するものである。ここでは、スポット制作用データ生成装置1は、単一または複数のチャンネルからなる複数の音声データと当該音声データの各チャンネルの内容を説明するリストとから、スポットの音声を制作するためのすべての差し替えパターンを重複なく含んだスポット制作用データを生成する。
【0017】
音声データは、スポットの差し替え単位のパート(時間区間)ごとの音声のデータであって、複数(n:nは2以上)存在する。もちろん、すべての音声データが差し替え対象である必要はなく、一部のパートは固定の音声データであっても構わない。ここで、nは、スポットの音声を構成するパート数である。
音声データの各チャンネルは、ステレオにおける左右の音声チャンネルといった音声フォーマットに合わせたチャンネルだけではなく、スポットの出演者、発話するコメントなどの内容に応じた複数のチャンネルを含む。
リストは、1つの音声データに対応し、音声データのチャンネルを特定する情報と、当該チャンネルの音声内容を説明する情報とを含んだテキストデータである。
【0018】
ここで、図2を参照して、音声データおよびリストの例について説明する。なお、以降の説明では、スポットが2つのパート(n=2)で構成されている場合を例にして説明する。
図2に示すように、前半のパートを構成する音声データAは、4つのチャンネル(ch1~ch4)で構成された時間長が10秒のデータである。
音声データAに対応するリストLは、音声データAがこのパートにおいて異なる出演者によって差し替えるチャンネルであることを示す。
リストLは、音声データAのチャンネル1-2(ch1,ch2)が、出演者1が登場するステレオ音声(Stereo)であることを示している。また、リストLは、音声データAのチャンネル3-4(ch3,ch4)が、出演者2が登場するステレオ音声であることを示している。
【0019】
後半のパートを構成する音声データAは、5つのチャンネル(ch1~ch5)で構成された時間長が5秒のデータである。
音声データAに対応するリストLは、音声データAがこのパートにおいて異なるコメントによって差し替えるチャンネルであることを示す。
リストLは、音声データAのチャンネル1(ch1)が、「来週放送!」のモノラル音声(Mono)であることを示している。同様に、リストLは、音声データAのチャンネル2~5(ch2~ch5)が、それぞれ、「明後日放送!」、「明日放送!」、「今夜放送!」、「この後すぐ!」のモノラル音声であることを示している。
このように、リストLは、対応する音声データAのチャンネル構成とその内容とをテキストデータで表したものである。
図1に戻って、説明を続ける。
【0020】
スポット制作用データ生成装置1は、音声データ結合部10と、音響メタデータ生成部20と、データ統合部30と、を備える。
音声データ結合部10は、スポットの予め定めたパート(時間区間)ごとに対応する1以上のチャンネルで構成された音声データを時間区間ごとに入力し、時間方向に結合した結合音声データを生成するものである。
音声データ結合部10は、チャンネル数調整部11と、結合部12と、結合音声データ記憶部13と、を備える。
【0021】
チャンネル数調整部11は、複数の音声データを入力し、同じチャンネル数に調整するものである。
チャンネル数調整部11は、結合音声データ記憶部13に記憶されている結合済の音声データと、新たに入力される音声データとのチャンネル数が少ない方にnullデータ(無音データ)を挿入してチャンネル数を揃える。
なお、チャンネル数調整部11は、初回に入力した音声データについては、そのまま結合部12に出力する。
【0022】
ここで、新たに入力した音声データのチャンネル数をm、結合音声データ記憶部13に記憶されている音声データ(結合音声データ)のチャンネル数をkとする。m<kの場合、チャンネル数調整部11は、結合音声データと同じチャンネル数(k)となるように、入力された音声データにnullデータを追加する。
そして、チャンネル数調整部11は、チャンネル数を揃えた音声データを結合部12に出力する。
【0023】
一方、m>kの場合、チャンネル数調整部11は、入力した音声データと同じチャンネル数(m)となるように、結合音声データ記憶部13に記憶されている結合音声データにnullデータを追加する。
そして、チャンネル数調整部11は、入力した音声データをそのまま結合部12に出力する。
なお、m=kの場合、チャンネル数調整部11は、チャンネル数の調整を行わず、入力された音声データをそのまま結合部12に出力する。
【0024】
結合部12は、チャンネル数調整部11で同じチャンネル数に調整された音声データを順次結合するものである。
結合部12は、結合音声データ記憶部13に記憶されている結合音声データに、チャンネル数調整部11から入力される音声データを時間方向に隙間なく並べて、新たな結合音声データを生成する。
そして、結合部12は、生成した結合音声データを結合音声データ記憶部13に記憶する。なお、結合部12は、初回に入力される音声データについては、そのまま結合音声データとして結合音声データ記憶部13に記憶する。
結合部12は、音声データの入力が終了した後、すべての音声データを結合した結合音声データ記憶部13に記憶されている結合音声データを、データ統合部30に出力する。
【0025】
この音声データ結合部10における処理を、図面を参照して模式的に説明する。
例えば、図2に示すように、前半のパートを構成する音声データAが4つのチャンネル(ch1~ch4)で構成された時間長が10秒のデータであり、後半のパートを構成する音声データAが5つのチャンネル(ch1~ch5)で構成された時間長が5秒のデータであったとする。
【0026】
この場合、図3に示すように、音声データ結合部10は、先に入力した前半のパートの音声データのチャンネル数が“4”、後に入力した後半のハートの音声データのチャンネル数が“5”であるため、チャンネル数調整部11によって、音声データAに1チャンネル分のnullデータを追加し、5チャンネルに揃える。
そして、音声データ結合部10は、結合部12によって、チャンネル数調整後の音声データA′と音声データAとを時間方向に連結し、計15秒の音声データ(結合音声データA)を生成する。
図1に戻って、スポット制作用データ生成装置1の構成について説明を続ける。
【0027】
音響メタデータ生成部20は、パート(時間区間)ごとの音声データのチャンネルのリストをパートごとに入力し、結合音声データにおける音声データのチャンネルごとの再生位置を特定する音響メタデータを生成するものである。
ここでは、音響メタデータ生成部20は、リストから、音声を構成するチャンネル数の音声データを音声オブジェクトとし、音声オブジェクトの組み合わせおよび再生時刻をプリセット(事前に設定される情報)とする音響メタデータを生成する。音声を構成するチャンネル数は、例えば、音声がステレオ音声であればチャンネル数は“2”、モノラル音声であればチャンネル数は“1”である。
音響メタデータ生成部20は、オブジェクトリスト生成部21と、組み合わせパターン生成部22と、メタデータ生成部23と、を備える。
【0028】
オブジェクトリスト生成部21は、複数のリストを入力し、音声を構成するチャンネル数のデータを1つの音声オブジェクトとしてID(識別子)を付与したオブジェクトリストを生成するものである。
オブジェクトリストは、少なくともIDと、音声オブジェクトの再生時刻とを含む。
オブジェクトリスト生成部21は、音声オブジェクトごとにIDを採番する。この場合、オブジェクトリスト生成部21は、初回にリストが入力された段階で、IDを若番から採番する。そして、オブジェクトリスト生成部21は、複数回目のリストが入力された段階で先に採番した音声オブジェクトのIDの続きから採番を行う。
【0029】
なお、IDは、最終的に生成する音響メタデータの種類の記述則に沿ったものとすればよい。例えば、音響メタデータの種類をADM(非特許文献1参照)とした場合、ADMでは、音声オブジェクトを「audioObject」という記述子で表し、そのIDをAO_XXXXで表現する。XXXXは16進数四桁の数字が入るが、0000~1000は予約番号であり、1001が最も若番となる。
そこで、ここでは、オブジェクトリスト生成部21は、音声オブジェクトごとにAO_1001,AO_1002,…とIDを付与する。
【0030】
また、オブジェクトリスト生成部21は、オブジェクトリストに音声オブジェクトの再生時刻を記録する。この場合、オブジェクトリスト生成部21は、初回にリストを入力した段階で、先頭のパートの音声オブジェクトの再生時刻を、00時00分00秒から当該パートの時間長までの時刻とする。なお、時間長は、リストに対応する音声データの時間長を、音声データ結合部10から取得してもよいし、予めリストに記載しておくこととしてもよい。
【0031】
また、オブジェクトリスト生成部21は、複数回目のリストを入力した段階で結合する先の音声データの終了時刻から当該パートの音声データの時間長をその終了時刻に加算した時刻までを再生時刻とする。
この音声オブジェクトの再生時刻の開始時刻は、00時00分00秒である必要はなく、放送局など事業者のファイル管理に合わせて、例えば、10時00分00秒など他の時刻としてもよい。その場合、オブジェクトリスト生成部21は、その時刻を起点として、音声データの時間長を順次加算し、パートごとの再生時刻とする。
【0032】
なお、オブジェクトリスト生成部21は、IDや音声オブジェクトの再生時刻以外にも、オブジェクトリストに、音声オブジェクトの音声内容を示す情報(名称など)を付加してもよい。ADMを用いる場合、これらの情報は、「audioObject」の名称として利用することができる。
オブジェクトリスト生成部21は、生成したオブジェクトリストを組み合わせパターン生成部22に出力する。
【0033】
ここで、図4を参照して、オブジェクトリスト生成部21が生成するオブジェクトリストの一例について説明する。なお、リストは、図2で示したL,Lとする。
リストLは、最初に入力され、前半のパートの内容が2種類(出演者の違い)である。
そこで、オブジェクトリスト生成部21は、最も若番からIDを採番し、AO_1001,AO_1002をIDとして、オブジェクトリストOLに記録する。また、オブジェクトリスト生成部21は、それぞれのIDに対応して、音声オブジェクトの内容を示す情報(名称N,音声フォーマットF)をオブジェクトリストOLに記録する。
また、先頭の音声データの時間長が10秒であるため、オブジェクトリスト生成部21は、音声オブジェクトの再生時刻Tとして、00時00分00秒から00時00分10秒をオブジェクトリストOLに記録する。
【0034】
そして、次に入力されるリストLは、後半のパートの内容が5種類(発話内容の違い)である。
そこで、オブジェクトリスト生成部21は、先のパートの音声オブジェクトのIDの続きからIDを採番し、AO_1003~AO_1007をIDとして、オブジェクトリストOLに記録する。また、オブジェクトリスト生成部21は、それぞれのIDに対応して、音声オブジェクトの内容を示す情報(名称N,音声フォーマットF)をオブジェクトリストOLに記録する。
また、後半のパートの音声データの時間長が5秒であるため、オブジェクトリスト生成部21は、音声オブジェクトの再生時刻Tとして、先のパートの終了時刻である00時00分10秒から00時00分15秒をオブジェクトリストOLに記録する。
図1に戻って、スポット制作用データ生成装置1の構成について説明を続ける。
【0035】
組み合わせパターン生成部22は、オブジェクトリスト生成部21で生成されたオブジェクトリストに基づいて、スポットの各パートの音声オブジェクトの時間方向の組み合わせパターンのリスト(組み合わせパターンリスト)を生成するものである。
組み合わせパターン生成部22は、各パートの音声オブジェクトの数をパート数分だけ乗算した数の組み合わせのパターンを生成する。
例えば、スポットが2パートに分かれ、前半のパートのIDがK個、後半のパートのIDがM個の場合、組み合わせのパターン総数は、K×M個となる。
この組み合わせパターンは、そのまま、音響メタデータに記述される音声オブジェクトの組み合わせのプリセット(事前に設定されるID,名称など)となる。
【0036】
そこで、組み合わせパターン生成部22は、組み合わせに応じたプリセットのIDを採番する。例えば、音響メタデータの種類をADMとした場合、ADMでは、組み合わせのプリセットを「audioProgramme」という記述子で表し、そのIDをAPR_XXXXで表現する。XXXXに入る数字の規則は、「audioObject」の規則と同じである。すなわち、組み合わせパターン生成部22は、音声オブジェクトの組み合わせごとにAPR_1001,APR_1002,…とIDを付与する。
また、組み合わせパターン生成部22は、音声オブジェクトの組み合わせごとに、音声オブジェクトの名称を組み合わせた名称を付与する。
【0037】
そして、組み合わせパターン生成部22は、音声オブジェクトの組み合わせパターンごとのID、名称などを、組み合わせパターンリストとして生成する。
組み合わせパターン生成部22は、オブジェクトリストと組み合わせパターンリストとを、メタデータ生成部23に出力する。
【0038】
ここで、図5を参照して、組み合わせパターン生成部22が生成する組み合わせパターンリストの一例について説明する。なお、オブジェクトリストは、図4で示したものとする。
図5に示す組み合わせパターンリストMLは、スポットの前半のパートを構成する2種類の音声オブジェクトのIDおよび名称Nと、後半のパートを構成する5種類の音声オブジェクトのIDおよび名称Nとのすべての組み合わせに、組み合わせのIDおよび名称Nとを対応付けたリストである。
【0039】
組み合わせパターン生成部22は、例えば、スポットの前半のパートに含まれるAO_1001(出演者1)の音声オブジェクトと、後半のパートに含まれるAO_1003(「来週放送!」)の音声オブジェクトとの組み合わせで、IDをAPR_1001、名称Nを『出演者1×「来週放送!」』とする音響メタデータのプリセットの設定値を生成する。同様に、組み合わせパターン生成部22は、前半のパートに含まれる音声オブジェクトと後半のパートに含まれる音声オブジェクトとをすべて組み合わせて、組み合わせごとの音響メタデータのプリセットの設定値を生成する。
【0040】
なお、ここでは、音声オブジェクトを組み合わせた音声オブジェクトの名称(例えば、『出演者1×「来週放送!」』)を、組み合わせる元の音声オブジェクトの名称をそのまま組み合わせて生成した。しかし、組み合わせ後の名称は、音声オブジェクト間で識別可能な名称であれば、どのように名称を付けても構わない。
図1に戻って、スポット制作用データ生成装置1の構成について説明を続ける。
【0041】
メタデータ生成部23は、音声オブジェクトの再生時刻および音声オブジェクトの組み合わせに基づいて、音声データ結合部10で結合された音声データに対応した音響メタデータを生成するものである。
この音響メタデータは、結合された音声データのどの再生時刻にどの音声データのチャンネルが記録されているのかを示す指標となるデータである。
ここでは、メタデータ生成部23は、オブジェクトリスト生成部21で生成されたオブジェクトリストで特定される音声オブジェクトのIDや再生時間、組み合わせパターン生成部22で生成された組み合わせパターンリストで特定される音声オブジェクトの組み合わせやそのIDなどを用いて音響メタデータを生成する。
【0042】
メタデータ生成部23は、生成する音響メタデータの種類に応じて、音声オブジェクトの各種情報を統合したり、成型したりすることで、音響メタデータを生成する。なお、音響メタデータは、XMLテキストとして生成してもよいし、XMLテキストを汎用の圧縮方式(例えば、gzipなど)で圧縮したバイナリデータとしてもよい。
【0043】
なお、メタデータ生成部23が生成する音響メタデータの種類は、特に限定するものではない。例えば、メタデータ生成部23は、ADM(非特許文献1)により音響メタデータを生成することとする。
メタデータ生成部23が生成するADMの音響メタデータの例については、図7A図7Bを参照して後記する。
メタデータ生成部23は、生成した音響メタデータを、データ統合部30に出力する。
【0044】
データ統合部30は、音声データ結合部10で結合された音声データと、音響メタデータ生成部20で生成された音響メタデータとを統合し、1つのファイルとして、スポット制作用データを生成するものである。
なお、データ統合部30は、音声データと音響メタデータとを統合して、1つの音声ファイルを生成する以外に、音声データと音響メタデータと音声データに対応する映像データとを統合することで1つの映像ファイルを生成することとしてもよい。
【0045】
データ統合部30が1つの音声ファイルを生成するには、例えば、以下の参考文献1に示すBW64(BroadcastWave64)などのファイルフォーマットを用いればよい。
(参考文献1)“Long-form file format for the international exchange of audio programme materials with metadata”,勧告ITU-R BS.2088-1(10/2019)
【0046】
BW64は、WAVEを拡張したもので、4Gバイトを超えるデータサイズにも対応している。また、BW64は、ADMを書き込める<axml>chunkのフィールドが、音声データを書き込む<data>chunkの他に用意されている。なお、BW64は、バイナリデータを書き込む<bxml>chunkが用意されているため、音響メタデータがバイナリデータとして生成された場合でも書き込むことができる。
【0047】
また、データ統合部30が1つの映像ファイルを生成するには、MPEG-4,AC-4などのオブジェクトベース音響に対応した音声符号化方式を用いることで、映像データと合わせて、音声データおよび音響メータを1つのファイルに記録することができる。
あるいは、BW64などのADMを書き込める音声ファイルを丸ごと格納可能なコンテナフォーマットなどを用いることで、符号化していない映像・音声データを1つのパッケージに記録することも可能である。このようなコンテナフォーマットとして、例えば、MXF(Material Exchange Format)、IMF(Interoperable Mastering Format)を用いることができる。
以上説明した構成によって、スポット制作用データ生成装置1は、スポットのすべての差し替えパターンを重複することなく含み、再生時刻に応じてオブジェクトごとに差し替え可能な単一の音声ファイルあるいは映像ファイルを生成することができる。
【0048】
[スポット制作用データ生成装置の動作]
次に、図6を参照(構成については適宜図1参照)して、本発明の実施形態に係るスポット制作用データ生成装置の動作について説明する。
ステップS1において、スポット制作用データ生成装置1は、音声データとその音声データに対応するリストを入力する(図2参照)。
ステップS2において、音声データ結合部10のチャンネル数調整部11は、ステップS1で入力した音声データと、結合音声データ記憶部13に記憶されている結合済の音声データとのチャンネル数を、チャンネル数が多い方に揃える(図3参照)。なお、初回に入力した音声データについては、このステップS2の処理は省略される。
ステップS3において、結合部12は、ステップS2でチャンネル数が調整された音声データを時間方向に結合する(図3参照)。結合部12は、結合した音声データ(結合音声データ)を結合音声データ記憶部13に記憶する。なお、初回に入力した音声データについては、結合部12は、そのまま、結合音声データとして、結合音声データ記憶部13に記憶する。
【0049】
ステップS4において、音響メタデータ生成部20のオブジェクトリスト生成部21は、ステップS1で入力したリストから、音声を構成するチャンネル数のデータを音声オブジェクトとしてID(識別子)を付与し、音声データの再生時刻を含んだオブジェクトリストを生成する(図4参照)。
なお、ステップS2,S3とステップS4とは、処理の順番を逆にしてもよいし、並列で処理することとしてもよい。
【0050】
ステップS5において、スポット制作用データ生成装置1は、すべての音声データおよびリストの入力が終了したか否かを判定する。
ここで、すべての音声データおよびリストの入力が終了していない場合(ステップS5でNo)、スポット制作用データ生成装置1は、ステップS1に戻って動作を行う。
一方、すべての音声データおよびリストの入力が終了した場合(ステップS5でYes)、ステップS6において、組み合わせパターン生成部22は、ステップS4で生成されたオブジェクトリストに基づいて、スポットの各パートの音声オブジェクトの時間方向の組み合わせパターンのリスト(組み合わせパターンリスト)を生成する(図5参照)。
【0051】
ステップS7において、メタデータ生成部23は、音声オブジェクトの再生時刻および音声オブジェクトの組み合わせに基づいて、音声データ結合部10で結合された音声データに対応した音響メタデータを生成する。例えば、メタデータ生成部23は、ADMで音響メタデータを生成する(後記する図7A図7B参照)。
ステップS8において、データ統合部30は、ステップS3ですべての音声データがチャンネル数を揃えて結合された音声データ(結合音声データ)と、ステップS7で生成された音響メタデータとを統合し、1つのファイルとして、スポット制作用データを生成する。
以上の動作によって、スポット制作用データ生成装置1は、スポットのすべての差し替えパターンを重複することなく含み、再生時刻に応じてオブジェクトごとに差し替え可能なスポット制作用データを生成することができる。
【0052】
[ADMによる音響メタデータの例]
以下、図7A図7Bを参照して、スポット制作用データ生成装置1の音響メタデータ生成部20が生成する音響メタデータの例について説明する。
【0053】
図7A図7Bに示す音響メタデータは、オブジェクトリスト生成部21および組み合わせパターン生成部22で生成した図4図5のリストに含まれるADMの記述子をまとめ、スポット制作用データのファイルに記述される状態にした例(抜粋)である。ADMは、図7A図7Bに示したように、文字コードUTF-8でXMLのテキストデータとして記述される。
【0054】
図7A図7B中、ACO_XXXXは、ADMにおける「audioContent」という記述子のID、AP_YYYYXXXXは「audioPack」のID、ATU_ZZZZZZZZは「audioTrackUID」のID、AC_00010001は「audioChannelFormat」のIDである。
「audioContent」は「audioProgramme」を構成する構成要素であり、複数の「audioObject」をグルーピングすることができる。スポット制作用データ生成装置1においては、グルーピングを行ってもよいし、行わなくともよい。グルーピングを行う場合、例えば入力されたリストごとに複数の「audioObject」を一つの「audioContent」とし、出演者のリストを基に生成された「audioObject」であるAO_1001(出演者1)とAO_1002(出演者2)を束ねるACO_1001(出演者)という「audioContent」を生成する。グルーピングを行わない場合は、「audioObject」と1対1となる「audioContent」を生成し、ACO_XXXXとAO_XXXXのXXXXおよび名前などは「audioObject」と「audioContent」で共通とする。図7Aではグルーピングを行っていない例を示している。
【0055】
「audioPack」は「audioObject」の音声フォーマット(モノラル、ステレオなど)を示す記述子である。モノラル、ステレオなどの一般的なフォーマットについては、以下の参考文献2に示す共通定義にIDが定められている。
(参考文献2)“Common definitions for the Audio Definition Model”,勧告ITU-R BS.2094-1(06/2017)
例えば図7BのAP_00010001はモノラル、AP_00010002はステレオを意味する。
【0056】
「audioTrackUID」は、音響メタデータ上の音声トラックを一意に特定するためのユニークなIDである。従来、放送やライブストリーミングなどでは、そのコンテンツの開始から終了までを通して、音声トラックとそのトラック上の音声信号の再生形式(再生位置など)は1対1で固定されていた。これに対し、オブジェクトベース音響においては、図2のように一つの音声トラック上の音声信号がその再生時間に応じて異なる形式で再生されるため、「audioTrackUID」が物理的な音声トラックとは別にメタデータ上で再生形式に応じて一意(ユニーク)に区別できる仮想的な音声トラックとして用いられる。ATU_ZZZZZZZZのZZZZZZZZは他と重複のないユニークな番号が必要なため、若番の「audioObject」から順番に、この「audioObject」に紐づくトラックごとにインクリメントして採番している。
【0057】
「audioChannelFormat」は、各音声トラック(仮想的な音声トラック)のチャンネルフォーマット(ステレオのL、Rなど)を示しており、前記した参考文献2の共通定義でIDが定められている。
このように、スポット制作用データ生成装置1は、音響メタデータをADMなどの国際標準の沿った形式で記述することができる。
【0058】
以上説明したように、スポット制作用データ生成装置1は、主たる宣伝内容、あるいは放送する時間や地域に応じて一部の音声を差し替えることが想定されるスポットを生成するためのスポット制作用データを、単一の音声ファイルとして生成することができる。
なお、同様のデータを従来の方式で生成した場合、15秒のスポット用の音声ファイルを10個制作しなければならず、その制作を特定の本部あるいはキー局に集約した場合には、そのファイルの管理や、全国の放送局への配布などに負荷が生じる。
一方、スポット制作用データ生成装置1は、単一の音声ファイルを制作し、当該ファイル(単一のファイル)を全国の放送局へ配布すればよいため、ファイルの管理や取り違えの防止を容易に行うことができる。
【0059】
また、全国の放送局では、この音響メタデータに対応したレンダラを用いて、音響メタデータに記述されたプリセットを選択するだけで、必要なスポットの音声信号を生成または再生することができる。この音響メタデータをADMなどの国際標準のものとすることで、ITU-Rで規定されているADMに対応した標準レンダラで必要なスポットの音声信号の生成が可能である。そのため、スポット制作用データ生成装置1が生成するスポット制作用データは、従来の再生装置で音声を生成または再生することができる。
【0060】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではなく、発明の技術的思想の範囲内で適宜変更可能である。
また、スポット制作用データ生成装置1は、コンピュータを前記した各構成部として機能させるためのプログラムで動作させることができる。
その場合、コンピュータは、スポット制作用データ生成装置1の各構成部の機能を実現する処理内容を記述したプログラムをコンピュータの記憶部に格納しておき、コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
【0061】
なお、このプログラムは、コンピュータで読取り可能な記録媒体に記録可能である。また、プログラムをコンピュータ読取り可能媒体に記録することで、コンピュータにプログラムをインストールすることが可能である。ここで、コンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。
【符号の説明】
【0062】
1 スポット制作用データ生成装置
10 音声データ結合部
11 チャンネル数調整部
12 結合部
13 結合音声データ記憶部
20 音響メタデータ生成部
21 オブジェクトリスト生成部
22 組み合わせパターン生成部
23 メタデータ生成部
30 データ統合部
図1
図2
図3
図4
図5
図6
図7A
図7B