特開2023-168842 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2023-168842スポット制作用データ生成装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023168842

(43)【公開日】2023-11-29

(54)【発明の名称】スポット制作用データ生成装置およびそのプログラム

(51)【国際特許分類】

H04N 21/854 20110101AFI20231121BHJP

H04H 60/06 20080101ALI20231121BHJP

H04H 60/04 20080101ALI20231121BHJP

H04N 21/233 20110101ALI20231121BHJP

H04N 5/222 20060101ALI20231121BHJP

【ＦＩ】

H04N21/854

H04H60/06

H04H60/04

H04N21/233

H04N5/222

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022080183

(22)【出願日】2022-05-16

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】久保弘樹

【テーマコード（参考）】

5C122

5C164

【Ｆターム（参考）】

5C122DA37

5C122EA42

5C122FJ06

5C122HA13

5C122HA35

5C122HB09

5C164FA29

5C164MC01P

5C164PA41

5C164SB04P

5C164SB07P

(57)【要約】

【課題】スポットの一部音声を差し替えることが可能なスポット制作用データを生成するスポット制作用データ生成装置を提供する。
【解決手段】スポット制作用データ生成装置１は、スポットの予め定めた時間区間ごとに対応する１以上の音声データを時間区間ごとに入力し、音声データをすべての時間区間において同じチャンネル数に調整し、時間方向に結合した結合音声データを生成する音声データ結合部１０と、時間区間ごとの音声データのリストを時間区間ごとに入力し、結合音声データにおける音声データの再生位置を特定する音響メタデータを生成する音響メタデータ生成部２０と、結合音声データと音響メタデータとを単一のファイルに統合してスポット制作用のデータを生成するデータ統合部３０と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

スポット制作用のデータを生成するスポット制作用データ生成装置であって、
スポットの予め定めた時間区間ごとに対応する１以上のチャンネルで構成された音声データを前記時間区間ごとに入力し、時間方向に結合した結合音声データを生成する音声データ結合部と、
前記時間区間ごとの音声データのチャンネルのリストを前記時間区間ごとに入力し、前記結合音声データにおける前記音声データのチャンネルごとの再生位置を特定する音響メタデータを生成する音響メタデータ生成部と、
前記結合音声データと前記音響メタデータとを統合して前記スポット制作用のデータを生成するデータ統合部と、
を備えることを特徴とするスポット制作用データ生成装置。

【請求項2】

前記音声データ結合部は、すでに結合済の音声データと新たに入力される音声データとのチャンネル数が少ない方にｎｕｌｌデータを挿入してチャンネル数を揃え、それぞれの音声データを結合することを特徴とする請求項１に記載のスポット制作用データ生成装置。

【請求項3】

前記音響メタデータ生成部は、前記リストから、音声を構成するチャンネル数の音声データを１つの音声オブジェクトとし、前記音声オブジェクトの組み合わせおよび再生時刻をプリセットとする前記音響メタデータを生成することを特徴とする請求項１に記載のスポット制作用データ生成装置。

【請求項4】

前記音響メタデータ生成部は、ＩＴＲ－ＲＢＳ．２０７６で規定されているＡＤＭにより前記音響メタデータを生成することを特徴とする請求項３に記載のスポット制作用データ生成装置。

【請求項5】

前記データ統合部は、ＩＴＲ－ＲＢＳ．２０８８で規定されているＢＷ６４のファイルフォーマットで、前記結合音声データと前記音響メタデータとを統合することを特徴とする請求項１に記載のスポット制作用データ生成装置。

【請求項6】

コンピュータを、請求項１から請求項５のいずれか一項に記載のスポット制作用データ生成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、スポット制作用データ生成装置およびそのプログラムに関する。

【背景技術】

【0002】

現在、テレビ・ラジオ放送や動画・音声配信サービスにおいては、短時間の映像や音声として、スポット・アナウンスメントが挿入される場合がある。スポット・アナウンスメントは、番組スポンサの商品の広告、放送局の他の番組の宣伝などを目的とした、番組の途中や合間に挿入される１５秒から３０秒程度の短時間の映像あるいは音声である。以下、スポット・アナウンスメントを単にスポットと呼ぶ。

【0003】

一部のスポットは、その短時間の中でさらに複数のパートに分かれる。主たる宣伝パートのほかに、「（○○放送局／△△放送局）で放送！」、「○○［番組名］は（今晩／明日）！」といった、スポットを放送する地域や時間に応じて一部の音声を差し替えることを想定したパートが存在する。このような複数のパートに分かれるスポットを制作する際には、一部の音声しか違わないものの、差し替えるすべてのパターンでスポット全体分の音声ファイルを制作する必要がある。その場合、完成した音声ファイルや当該音声ファイルを組み込んだ映像ファイルが多数にわたり、データ量の増大やファイルの取り違え防止などに対応するため、管理上の負担が生じている。加えて、東京などの大都市部の本部放送局やキー局で制作されたスポットが、地域放送局や系列放送局に提供される場合、各地域の放送局でその差し替え部分の制作・編集作業が行われている。

【0004】

また、近年では、立体音響の再生に用いる方式として、映画業界を中心にオブジェクトベース音響方式の実用化が進んでいる。オブジェクトベース音響方式は、オブジェクトベース音響を構成する音声オブジェクトと音響メタデータとを記録・伝送して、レンダラと呼ばれる再生装置が再生環境に応じた形式でコンテンツを再生（レンダリング）する方式である。レンダリングは、各家庭などの再生環境で行われるため、レンダリング時に音声オブジェクトを差し替えることで、英語から日本語への吹き替えなどのサービスが可能である。

【0005】

現在、オブジェクトベース音響方式に対応したＭＰＥＧ－ＨやＡＣ－４と言った音声符号化方式を用いて、オブジェクトベース音響の放送あるいは動画配信サービスへの導入が検討されている。また、国際電気通信連合無線通信部門（ＩＴＵ－Ｒ）では、国際標準の番組制作用音響メタデータとして音響定義モデル（Audio Definition Model：ＡＤＭ)が規定されている（非特許文献１参照）。また、ＩＴＵ－Ｒでは、コンテンツ制作において記述したＡＤＭに基づいて番組音声を生成して検聴可能とするＡＤＭ用の標準レンダラが規定されている（非特許文献２参照）。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】“Audio Definition Model”，勧告ITU-R BS.2076-02(10/2019)

【非特許文献2】“Audio Definition Model renderer for advanced sound systems”，勧告ITU-R BS.2127-0(06/2019)

【発明の概要】

【発明が解決しようとする課題】

【0007】

前記したように、スポットの一部の音声を差し替える場合、その差し替えの組み合わせによって制作される音声ファイル数は膨大になり、管理するデータサイズが増大するとともに、ファイルの取り違えなどの管理上の問題が発生する場合がある。
なお、音声を差し替える技術として、オブジェクトベース音響方式が存在する。しかし、オブジェクトベース音響方式を用いた従来の制作設備は、映画館での再生を想定しており、基本的に従来通り音声編集装置で音声を予め差し替える必要がある。また、わずかに存在する再生時の音声差し替えに対応した従来の制作設備は、ナレーションの吹き替えのみしか想定されておらず、差し替えるパターンが限定される。さらに、従来の制作設備で制作されるオブジェクトベース音響のコンテンツは、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることができない。

【0008】

本発明は、このような問題に鑑みてなされたもので、音声ファイルのデータサイズやファイル数を抑えるとともに、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることが可能なスポット制作用データを生成するスポット制作用データ生成装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0009】

前記課題を解決するため、本発明に係るスポット制作用データ生成装置は、スポット制作用のデータを生成するスポット制作用データ生成装置であって、音声データ結合部と、音響メタデータ生成部と、データ統合部と、を備える構成とした。

【0010】

かかる構成において、スポット制作用データ生成装置は、音声データ結合部によって、スポットの予め定めた時間区間ごとに対応する１以上のチャンネルで構成された音声データを時間区間ごとに入力し、時間方向に結合した結合音声データを生成する。これによって、音声データ結合部は、時間区間（パート）内で差し替え可能な音声データを含み、時間区間の時間方向に結合した１つの結合音声データを生成する。

【0011】

また、スポット制作用データ生成装置は、音響メタデータ生成部によって、時間区間ごとの音声データのチャンネルのリストを時間区間ごとに入力し、結合音声データにおける音声データのチャンネルごとの再生位置を特定する音響メタデータを生成する。これによって、音響メタデータ生成部は、音声データを再生する再生装置において結合音声データから再生対象の音声データのチャンネルを特定して再生することが可能な音響メタデータを生成する。

【0012】

そして、スポット制作用データ生成装置は、データ統合部によって、結合音声データと音響メタデータとを統合してスポット制作用のデータを生成する。これによって、データ統合部は、結合音声データと音響メタデータとを、単一のファイルに統合する。
なお、スポット制作用データ生成装置は、コンピュータを、前記した各部として機能させるためのプログラムで動作させることができる。

【発明の効果】

【0013】

本発明によれば、スポットの一部音声を再生時刻などに応じて再生装置で差し替えることが可能なスポット制作用データを１つのファイルで生成することができる。また、本発明は、予めすべての時間区間の組み合わせで生成したスポットを複数生成する必要がない。これによって、本発明は、ファイルの管理負荷を抑えるとともに、データ量を抑えたスポット制作用データを生成することができる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施形態に係るスポット制作用データ生成装置の構成を示すブロック構成図である。

【図2】本発明の実施形態に係るスポット制作用データ生成装置に入力する音声データとリストとを説明するための説明図である。

【図3】音声データ結合部におけるチャンネル数を調整して音声データを結合する手法を説明するための説明図である。

【図4】音響メタデータ生成部のオブジェクトリスト生成部が生成するオブジェクトリストの内容を説明するための説明図である。

【図5】音響メタデータ生成部の組み合わせパターン生成部が生成する組み合わせパターンリストの内容を説明するための説明図である。

【図6】本発明の実施形態に係るスポット制作用データ生成装置の動作を示すフローチャートである。

【図7A】音響メタデータ生成部のメタデータ生成部が生成する音響メタデータ（ＡＤＭ）の例（１／２）を示す図である。

【図7B】音響メタデータ生成部のメタデータ生成部が生成する音響メタデータ（ＡＤＭ）の例（２／２）を示す図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施形態について図面を参照して説明する。
［スポット制作用データ生成装置の構成］
図１を参照して、本発明の実施形態に係るスポット制作用データ生成装置の構成について説明する。

【0016】

スポット制作用データ生成装置１は、スポット制作用のデータを生成するものである。ここでは、スポット制作用データ生成装置１は、単一または複数のチャンネルからなる複数の音声データと当該音声データの各チャンネルの内容を説明するリストとから、スポットの音声を制作するためのすべての差し替えパターンを重複なく含んだスポット制作用データを生成する。

【0017】

音声データは、スポットの差し替え単位のパート（時間区間）ごとの音声のデータであって、複数（ｎ：ｎは２以上）存在する。もちろん、すべての音声データが差し替え対象である必要はなく、一部のパートは固定の音声データであっても構わない。ここで、ｎは、スポットの音声を構成するパート数である。
音声データの各チャンネルは、ステレオにおける左右の音声チャンネルといった音声フォーマットに合わせたチャンネルだけではなく、スポットの出演者、発話するコメントなどの内容に応じた複数のチャンネルを含む。
リストは、１つの音声データに対応し、音声データのチャンネルを特定する情報と、当該チャンネルの音声内容を説明する情報とを含んだテキストデータである。

【0018】

ここで、図２を参照して、音声データおよびリストの例について説明する。なお、以降の説明では、スポットが２つのパート（ｎ＝２）で構成されている場合を例にして説明する。
図２に示すように、前半のパートを構成する音声データＡ_１は、４つのチャンネル（ｃｈ１～ｃｈ４）で構成された時間長が１０秒のデータである。
音声データＡ_１に対応するリストＬ_１は、音声データＡ_１がこのパートにおいて異なる出演者によって差し替えるチャンネルであることを示す。
リストＬ_１は、音声データＡ_１のチャンネル１－２（ｃｈ１，ｃｈ２）が、出演者１が登場するステレオ音声（Ｓｔｅｒｅｏ）であることを示している。また、リストＬ_１は、音声データＡ_１のチャンネル３－４（ｃｈ３，ｃｈ４）が、出演者２が登場するステレオ音声であることを示している。

【0019】

後半のパートを構成する音声データＡ_２は、５つのチャンネル（ｃｈ１～ｃｈ５）で構成された時間長が５秒のデータである。
音声データＡ_２に対応するリストＬ_２は、音声データＡ_２がこのパートにおいて異なるコメントによって差し替えるチャンネルであることを示す。
リストＬ_２は、音声データＡ_１のチャンネル１（ｃｈ１）が、「来週放送！」のモノラル音声（Ｍｏｎｏ）であることを示している。同様に、リストＬ_２は、音声データＡ_１のチャンネル２～５（ｃｈ２～ｃｈ５）が、それぞれ、「明後日放送！」、「明日放送！」、「今夜放送！」、「この後すぐ！」のモノラル音声であることを示している。
このように、リストＬは、対応する音声データＡのチャンネル構成とその内容とをテキストデータで表したものである。
図１に戻って、説明を続ける。

【0020】

スポット制作用データ生成装置１は、音声データ結合部１０と、音響メタデータ生成部２０と、データ統合部３０と、を備える。
音声データ結合部１０は、スポットの予め定めたパート（時間区間）ごとに対応する１以上のチャンネルで構成された音声データを時間区間ごとに入力し、時間方向に結合した結合音声データを生成するものである。
音声データ結合部１０は、チャンネル数調整部１１と、結合部１２と、結合音声データ記憶部１３と、を備える。

【0021】

チャンネル数調整部１１は、複数の音声データを入力し、同じチャンネル数に調整するものである。
チャンネル数調整部１１は、結合音声データ記憶部１３に記憶されている結合済の音声データと、新たに入力される音声データとのチャンネル数が少ない方にｎｕｌｌデータ（無音データ）を挿入してチャンネル数を揃える。
なお、チャンネル数調整部１１は、初回に入力した音声データについては、そのまま結合部１２に出力する。

【0022】

ここで、新たに入力した音声データのチャンネル数をｍ、結合音声データ記憶部１３に記憶されている音声データ（結合音声データ）のチャンネル数をｋとする。ｍ＜ｋの場合、チャンネル数調整部１１は、結合音声データと同じチャンネル数（ｋ）となるように、入力された音声データにｎｕｌｌデータを追加する。
そして、チャンネル数調整部１１は、チャンネル数を揃えた音声データを結合部１２に出力する。

【0023】

一方、ｍ＞ｋの場合、チャンネル数調整部１１は、入力した音声データと同じチャンネル数（ｍ）となるように、結合音声データ記憶部１３に記憶されている結合音声データにｎｕｌｌデータを追加する。
そして、チャンネル数調整部１１は、入力した音声データをそのまま結合部１２に出力する。
なお、ｍ＝ｋの場合、チャンネル数調整部１１は、チャンネル数の調整を行わず、入力された音声データをそのまま結合部１２に出力する。

【0024】

結合部１２は、チャンネル数調整部１１で同じチャンネル数に調整された音声データを順次結合するものである。
結合部１２は、結合音声データ記憶部１３に記憶されている結合音声データに、チャンネル数調整部１１から入力される音声データを時間方向に隙間なく並べて、新たな結合音声データを生成する。
そして、結合部１２は、生成した結合音声データを結合音声データ記憶部１３に記憶する。なお、結合部１２は、初回に入力される音声データについては、そのまま結合音声データとして結合音声データ記憶部１３に記憶する。
結合部１２は、音声データの入力が終了した後、すべての音声データを結合した結合音声データ記憶部１３に記憶されている結合音声データを、データ統合部３０に出力する。

【0025】

この音声データ結合部１０における処理を、図面を参照して模式的に説明する。
例えば、図２に示すように、前半のパートを構成する音声データＡ_１が４つのチャンネル（ｃｈ１～ｃｈ４）で構成された時間長が１０秒のデータであり、後半のパートを構成する音声データＡ_２が５つのチャンネル（ｃｈ１～ｃｈ５）で構成された時間長が５秒のデータであったとする。

【0026】

この場合、図３に示すように、音声データ結合部１０は、先に入力した前半のパートの音声データのチャンネル数が“４”、後に入力した後半のハートの音声データのチャンネル数が“５”であるため、チャンネル数調整部１１によって、音声データＡ_１に１チャンネル分のｎｕｌｌデータを追加し、５チャンネルに揃える。
そして、音声データ結合部１０は、結合部１２によって、チャンネル数調整後の音声データＡ_１′と音声データＡ_２とを時間方向に連結し、計１５秒の音声データ（結合音声データＡ_Ｃ）を生成する。
図１に戻って、スポット制作用データ生成装置１の構成について説明を続ける。

【0027】

音響メタデータ生成部２０は、パート（時間区間）ごとの音声データのチャンネルのリストをパートごとに入力し、結合音声データにおける音声データのチャンネルごとの再生位置を特定する音響メタデータを生成するものである。
ここでは、音響メタデータ生成部２０は、リストから、音声を構成するチャンネル数の音声データを音声オブジェクトとし、音声オブジェクトの組み合わせおよび再生時刻をプリセット（事前に設定される情報）とする音響メタデータを生成する。音声を構成するチャンネル数は、例えば、音声がステレオ音声であればチャンネル数は“２”、モノラル音声であればチャンネル数は“１”である。
音響メタデータ生成部２０は、オブジェクトリスト生成部２１と、組み合わせパターン生成部２２と、メタデータ生成部２３と、を備える。

【0028】

オブジェクトリスト生成部２１は、複数のリストを入力し、音声を構成するチャンネル数のデータを１つの音声オブジェクトとしてＩＤ（識別子）を付与したオブジェクトリストを生成するものである。
オブジェクトリストは、少なくともＩＤと、音声オブジェクトの再生時刻とを含む。
オブジェクトリスト生成部２１は、音声オブジェクトごとにＩＤを採番する。この場合、オブジェクトリスト生成部２１は、初回にリストが入力された段階で、ＩＤを若番から採番する。そして、オブジェクトリスト生成部２１は、複数回目のリストが入力された段階で先に採番した音声オブジェクトのＩＤの続きから採番を行う。

【0029】

なお、ＩＤは、最終的に生成する音響メタデータの種類の記述則に沿ったものとすればよい。例えば、音響メタデータの種類をＡＤＭ（非特許文献１参照）とした場合、ＡＤＭでは、音声オブジェクトを「ａｕｄｉｏＯｂｊｅｃｔ」という記述子で表し、そのＩＤをＡＯ＿ＸＸＸＸで表現する。ＸＸＸＸは１６進数四桁の数字が入るが、００００～１０００は予約番号であり、１００１が最も若番となる。
そこで、ここでは、オブジェクトリスト生成部２１は、音声オブジェクトごとにＡＯ＿１００１，ＡＯ＿１００２，…とＩＤを付与する。

【0030】

また、オブジェクトリスト生成部２１は、オブジェクトリストに音声オブジェクトの再生時刻を記録する。この場合、オブジェクトリスト生成部２１は、初回にリストを入力した段階で、先頭のパートの音声オブジェクトの再生時刻を、００時００分００秒から当該パートの時間長までの時刻とする。なお、時間長は、リストに対応する音声データの時間長を、音声データ結合部１０から取得してもよいし、予めリストに記載しておくこととしてもよい。

【0031】

また、オブジェクトリスト生成部２１は、複数回目のリストを入力した段階で結合する先の音声データの終了時刻から当該パートの音声データの時間長をその終了時刻に加算した時刻までを再生時刻とする。
この音声オブジェクトの再生時刻の開始時刻は、００時００分００秒である必要はなく、放送局など事業者のファイル管理に合わせて、例えば、１０時００分００秒など他の時刻としてもよい。その場合、オブジェクトリスト生成部２１は、その時刻を起点として、音声データの時間長を順次加算し、パートごとの再生時刻とする。

【0032】

なお、オブジェクトリスト生成部２１は、ＩＤや音声オブジェクトの再生時刻以外にも、オブジェクトリストに、音声オブジェクトの音声内容を示す情報（名称など）を付加してもよい。ＡＤＭを用いる場合、これらの情報は、「ａｕｄｉｏＯｂｊｅｃｔ」の名称として利用することができる。
オブジェクトリスト生成部２１は、生成したオブジェクトリストを組み合わせパターン生成部２２に出力する。

【0033】

ここで、図４を参照して、オブジェクトリスト生成部２１が生成するオブジェクトリストの一例について説明する。なお、リストは、図２で示したＬ_１，Ｌ_２とする。
リストＬ_１は、最初に入力され、前半のパートの内容が２種類（出演者の違い）である。
そこで、オブジェクトリスト生成部２１は、最も若番からＩＤを採番し、ＡＯ＿１００１，ＡＯ＿１００２をＩＤとして、オブジェクトリストＯＬに記録する。また、オブジェクトリスト生成部２１は、それぞれのＩＤに対応して、音声オブジェクトの内容を示す情報（名称Ｎ，音声フォーマットＦ）をオブジェクトリストＯＬに記録する。
また、先頭の音声データの時間長が１０秒であるため、オブジェクトリスト生成部２１は、音声オブジェクトの再生時刻Ｔとして、００時００分００秒から００時００分１０秒をオブジェクトリストＯＬに記録する。

【0034】

そして、次に入力されるリストＬ_２は、後半のパートの内容が５種類（発話内容の違い）である。
そこで、オブジェクトリスト生成部２１は、先のパートの音声オブジェクトのＩＤの続きからＩＤを採番し、ＡＯ＿１００３～ＡＯ＿１００７をＩＤとして、オブジェクトリストＯＬに記録する。また、オブジェクトリスト生成部２１は、それぞれのＩＤに対応して、音声オブジェクトの内容を示す情報（名称Ｎ，音声フォーマットＦ）をオブジェクトリストＯＬに記録する。
また、後半のパートの音声データの時間長が５秒であるため、オブジェクトリスト生成部２１は、音声オブジェクトの再生時刻Ｔとして、先のパートの終了時刻である００時００分１０秒から００時００分１５秒をオブジェクトリストＯＬに記録する。
図１に戻って、スポット制作用データ生成装置１の構成について説明を続ける。

【0035】

組み合わせパターン生成部２２は、オブジェクトリスト生成部２１で生成されたオブジェクトリストに基づいて、スポットの各パートの音声オブジェクトの時間方向の組み合わせパターンのリスト（組み合わせパターンリスト）を生成するものである。
組み合わせパターン生成部２２は、各パートの音声オブジェクトの数をパート数分だけ乗算した数の組み合わせのパターンを生成する。
例えば、スポットが２パートに分かれ、前半のパートのＩＤがＫ個、後半のパートのＩＤがＭ個の場合、組み合わせのパターン総数は、Ｋ×Ｍ個となる。
この組み合わせパターンは、そのまま、音響メタデータに記述される音声オブジェクトの組み合わせのプリセット（事前に設定されるＩＤ，名称など）となる。

【0036】

そこで、組み合わせパターン生成部２２は、組み合わせに応じたプリセットのＩＤを採番する。例えば、音響メタデータの種類をＡＤＭとした場合、ＡＤＭでは、組み合わせのプリセットを「ａｕｄｉｏＰｒｏｇｒａｍｍｅ」という記述子で表し、そのＩＤをＡＰＲ＿ＸＸＸＸで表現する。ＸＸＸＸに入る数字の規則は、「ａｕｄｉｏＯｂｊｅｃｔ」の規則と同じである。すなわち、組み合わせパターン生成部２２は、音声オブジェクトの組み合わせごとにＡＰＲ＿１００１，ＡＰＲ＿１００２，…とＩＤを付与する。
また、組み合わせパターン生成部２２は、音声オブジェクトの組み合わせごとに、音声オブジェクトの名称を組み合わせた名称を付与する。

【0037】

そして、組み合わせパターン生成部２２は、音声オブジェクトの組み合わせパターンごとのＩＤ、名称などを、組み合わせパターンリストとして生成する。
組み合わせパターン生成部２２は、オブジェクトリストと組み合わせパターンリストとを、メタデータ生成部２３に出力する。

【0038】

ここで、図５を参照して、組み合わせパターン生成部２２が生成する組み合わせパターンリストの一例について説明する。なお、オブジェクトリストは、図４で示したものとする。
図５に示す組み合わせパターンリストＭＬは、スポットの前半のパートを構成する２種類の音声オブジェクトのＩＤ_１および名称Ｎ_１と、後半のパートを構成する５種類の音声オブジェクトのＩＤ_２および名称Ｎ_２とのすべての組み合わせに、組み合わせのＩＤ_３および名称Ｎ_３とを対応付けたリストである。

【0039】

組み合わせパターン生成部２２は、例えば、スポットの前半のパートに含まれるＡＯ＿１００１（出演者１）の音声オブジェクトと、後半のパートに含まれるＡＯ＿１００３（「来週放送！」）の音声オブジェクトとの組み合わせで、ＩＤ_３をＡＰＲ＿１００１、名称Ｎ_３を『出演者1×「来週放送！」』とする音響メタデータのプリセットの設定値を生成する。同様に、組み合わせパターン生成部２２は、前半のパートに含まれる音声オブジェクトと後半のパートに含まれる音声オブジェクトとをすべて組み合わせて、組み合わせごとの音響メタデータのプリセットの設定値を生成する。

【0040】

なお、ここでは、音声オブジェクトを組み合わせた音声オブジェクトの名称（例えば、『出演者1×「来週放送！」』）を、組み合わせる元の音声オブジェクトの名称をそのまま組み合わせて生成した。しかし、組み合わせ後の名称は、音声オブジェクト間で識別可能な名称であれば、どのように名称を付けても構わない。
図１に戻って、スポット制作用データ生成装置１の構成について説明を続ける。

【0041】

メタデータ生成部２３は、音声オブジェクトの再生時刻および音声オブジェクトの組み合わせに基づいて、音声データ結合部１０で結合された音声データに対応した音響メタデータを生成するものである。
この音響メタデータは、結合された音声データのどの再生時刻にどの音声データのチャンネルが記録されているのかを示す指標となるデータである。
ここでは、メタデータ生成部２３は、オブジェクトリスト生成部２１で生成されたオブジェクトリストで特定される音声オブジェクトのＩＤや再生時間、組み合わせパターン生成部２２で生成された組み合わせパターンリストで特定される音声オブジェクトの組み合わせやそのＩＤなどを用いて音響メタデータを生成する。

【0042】

メタデータ生成部２３は、生成する音響メタデータの種類に応じて、音声オブジェクトの各種情報を統合したり、成型したりすることで、音響メタデータを生成する。なお、音響メタデータは、ＸＭＬテキストとして生成してもよいし、ＸＭＬテキストを汎用の圧縮方式（例えば、ｇｚｉｐなど）で圧縮したバイナリデータとしてもよい。

【0043】

なお、メタデータ生成部２３が生成する音響メタデータの種類は、特に限定するものではない。例えば、メタデータ生成部２３は、ＡＤＭ（非特許文献１）により音響メタデータを生成することとする。
メタデータ生成部２３が生成するＡＤＭの音響メタデータの例については、図７Ａ，図７Ｂを参照して後記する。
メタデータ生成部２３は、生成した音響メタデータを、データ統合部３０に出力する。

【0044】

データ統合部３０は、音声データ結合部１０で結合された音声データと、音響メタデータ生成部２０で生成された音響メタデータとを統合し、１つのファイルとして、スポット制作用データを生成するものである。
なお、データ統合部３０は、音声データと音響メタデータとを統合して、１つの音声ファイルを生成する以外に、音声データと音響メタデータと音声データに対応する映像データとを統合することで１つの映像ファイルを生成することとしてもよい。

【0045】

データ統合部３０が１つの音声ファイルを生成するには、例えば、以下の参考文献１に示すＢＷ６４（ＢｒｏａｄｃａｓｔＷａｖｅ６４）などのファイルフォーマットを用いればよい。
（参考文献１）“Long-form file format for the international exchange of audio programme materials with metadata”，勧告ITU-R BS.2088-1(10/2019)

【0046】

ＢＷ６４は、ＷＡＶＥを拡張したもので、４Ｇバイトを超えるデータサイズにも対応している。また、ＢＷ６４は、ＡＤＭを書き込める＜ａｘｍｌ＞ｃｈｕｎｋのフィールドが、音声データを書き込む＜ｄａｔａ＞ｃｈｕｎｋの他に用意されている。なお、ＢＷ６４は、バイナリデータを書き込む＜ｂｘｍｌ＞ｃｈｕｎｋが用意されているため、音響メタデータがバイナリデータとして生成された場合でも書き込むことができる。

【0047】

また、データ統合部３０が１つの映像ファイルを生成するには、ＭＰＥＧ－４，ＡＣ－４などのオブジェクトベース音響に対応した音声符号化方式を用いることで、映像データと合わせて、音声データおよび音響メータを１つのファイルに記録することができる。
あるいは、ＢＷ６４などのＡＤＭを書き込める音声ファイルを丸ごと格納可能なコンテナフォーマットなどを用いることで、符号化していない映像・音声データを１つのパッケージに記録することも可能である。このようなコンテナフォーマットとして、例えば、ＭＸＦ（ＭａｔｅｒｉａｌＥｘｃｈａｎｇｅＦｏｒｍａｔ）、ＩＭＦ（ＩｎｔｅｒｏｐｅｒａｂｌｅＭａｓｔｅｒｉｎｇＦｏｒｍａｔ）を用いることができる。
以上説明した構成によって、スポット制作用データ生成装置１は、スポットのすべての差し替えパターンを重複することなく含み、再生時刻に応じてオブジェクトごとに差し替え可能な単一の音声ファイルあるいは映像ファイルを生成することができる。

【0048】

［スポット制作用データ生成装置の動作］
次に、図６を参照（構成については適宜図１参照）して、本発明の実施形態に係るスポット制作用データ生成装置の動作について説明する。
ステップＳ１において、スポット制作用データ生成装置１は、音声データとその音声データに対応するリストを入力する（図２参照）。
ステップＳ２において、音声データ結合部１０のチャンネル数調整部１１は、ステップＳ１で入力した音声データと、結合音声データ記憶部１３に記憶されている結合済の音声データとのチャンネル数を、チャンネル数が多い方に揃える（図３参照）。なお、初回に入力した音声データについては、このステップＳ２の処理は省略される。
ステップＳ３において、結合部１２は、ステップＳ２でチャンネル数が調整された音声データを時間方向に結合する（図３参照）。結合部１２は、結合した音声データ（結合音声データ）を結合音声データ記憶部１３に記憶する。なお、初回に入力した音声データについては、結合部１２は、そのまま、結合音声データとして、結合音声データ記憶部１３に記憶する。

【0049】

ステップＳ４において、音響メタデータ生成部２０のオブジェクトリスト生成部２１は、ステップＳ１で入力したリストから、音声を構成するチャンネル数のデータを音声オブジェクトとしてＩＤ（識別子）を付与し、音声データの再生時刻を含んだオブジェクトリストを生成する（図４参照）。
なお、ステップＳ２，Ｓ３とステップＳ４とは、処理の順番を逆にしてもよいし、並列で処理することとしてもよい。

【0050】

ステップＳ５において、スポット制作用データ生成装置１は、すべての音声データおよびリストの入力が終了したか否かを判定する。
ここで、すべての音声データおよびリストの入力が終了していない場合（ステップＳ５でＮｏ）、スポット制作用データ生成装置１は、ステップＳ１に戻って動作を行う。
一方、すべての音声データおよびリストの入力が終了した場合（ステップＳ５でＹｅｓ）、ステップＳ６において、組み合わせパターン生成部２２は、ステップＳ４で生成されたオブジェクトリストに基づいて、スポットの各パートの音声オブジェクトの時間方向の組み合わせパターンのリスト（組み合わせパターンリスト）を生成する（図５参照）。

【0051】

ステップＳ７において、メタデータ生成部２３は、音声オブジェクトの再生時刻および音声オブジェクトの組み合わせに基づいて、音声データ結合部１０で結合された音声データに対応した音響メタデータを生成する。例えば、メタデータ生成部２３は、ＡＤＭで音響メタデータを生成する（後記する図７Ａ，図７Ｂ参照）。
ステップＳ８において、データ統合部３０は、ステップＳ３ですべての音声データがチャンネル数を揃えて結合された音声データ（結合音声データ）と、ステップＳ７で生成された音響メタデータとを統合し、１つのファイルとして、スポット制作用データを生成する。
以上の動作によって、スポット制作用データ生成装置１は、スポットのすべての差し替えパターンを重複することなく含み、再生時刻に応じてオブジェクトごとに差し替え可能なスポット制作用データを生成することができる。

【0052】

［ＡＤＭによる音響メタデータの例］
以下、図７Ａ，図７Ｂを参照して、スポット制作用データ生成装置１の音響メタデータ生成部２０が生成する音響メタデータの例について説明する。

【0053】

図７Ａ，図７Ｂに示す音響メタデータは、オブジェクトリスト生成部２１および組み合わせパターン生成部２２で生成した図４、図５のリストに含まれるＡＤＭの記述子をまとめ、スポット制作用データのファイルに記述される状態にした例（抜粋）である。ＡＤＭは、図７Ａ，図７Ｂに示したように、文字コードＵＴＦ－８でＸＭＬのテキストデータとして記述される。

【0054】

図７Ａ，図７Ｂ中、ＡＣＯ＿ＸＸＸＸは、ＡＤＭにおける「ａｕｄｉｏＣｏｎｔｅｎｔ」という記述子のＩＤ、ＡＰ＿ＹＹＹＹＸＸＸＸは「ａｕｄｉｏＰａｃｋ」のＩＤ、ＡＴＵ＿ＺＺＺＺＺＺＺＺは「ａｕｄｉｏＴｒａｃｋＵＩＤ」のＩＤ、ＡＣ＿０００１０００１は「ａｕｄｉｏＣｈａｎｎｅｌＦｏｒｍａｔ」のＩＤである。
「ａｕｄｉｏＣｏｎｔｅｎｔ」は「ａｕｄｉｏＰｒｏｇｒａｍｍｅ」を構成する構成要素であり、複数の「ａｕｄｉｏＯｂｊｅｃｔ」をグルーピングすることができる。スポット制作用データ生成装置１においては、グルーピングを行ってもよいし、行わなくともよい。グルーピングを行う場合、例えば入力されたリストごとに複数の「ａｕｄｉｏＯｂｊｅｃｔ」を一つの「ａｕｄｉｏＣｏｎｔｅｎｔ」とし、出演者のリストを基に生成された「ａｕｄｉｏＯｂｊｅｃｔ」であるＡＯ＿１００１（出演者１）とＡＯ＿１００２（出演者２）を束ねるＡＣＯ＿１００１（出演者）という「ａｕｄｉｏＣｏｎｔｅｎｔ」を生成する。グルーピングを行わない場合は、「ａｕｄｉｏＯｂｊｅｃｔ」と１対１となる「ａｕｄｉｏＣｏｎｔｅｎｔ」を生成し、ＡＣＯ＿ＸＸＸＸとＡＯ＿ＸＸＸＸのＸＸＸＸおよび名前などは「ａｕｄｉｏＯｂｊｅｃｔ」と「ａｕｄｉｏＣｏｎｔｅｎｔ」で共通とする。図７Ａではグルーピングを行っていない例を示している。

【0055】

「ａｕｄｉｏＰａｃｋ」は「ａｕｄｉｏＯｂｊｅｃｔ」の音声フォーマット（モノラル、ステレオなど）を示す記述子である。モノラル、ステレオなどの一般的なフォーマットについては、以下の参考文献２に示す共通定義にＩＤが定められている。
（参考文献２）“Common definitions for the Audio Definition Model”，勧告ITU-R BS.2094-1(06/2017)
例えば図７ＢのＡＰ＿０００１０００１はモノラル、ＡＰ＿０００１０００２はステレオを意味する。

【0056】

「ａｕｄｉｏＴｒａｃｋＵＩＤ」は、音響メタデータ上の音声トラックを一意に特定するためのユニークなＩＤである。従来、放送やライブストリーミングなどでは、そのコンテンツの開始から終了までを通して、音声トラックとそのトラック上の音声信号の再生形式（再生位置など）は１対１で固定されていた。これに対し、オブジェクトベース音響においては、図２のように一つの音声トラック上の音声信号がその再生時間に応じて異なる形式で再生されるため、「ａｕｄｉｏＴｒａｃｋＵＩＤ」が物理的な音声トラックとは別にメタデータ上で再生形式に応じて一意（ユニーク）に区別できる仮想的な音声トラックとして用いられる。ＡＴＵ＿ＺＺＺＺＺＺＺＺのＺＺＺＺＺＺＺＺは他と重複のないユニークな番号が必要なため、若番の「ａｕｄｉｏＯｂｊｅｃｔ」から順番に、この「ａｕｄｉｏＯｂｊｅｃｔ」に紐づくトラックごとにインクリメントして採番している。

【0057】

「ａｕｄｉｏＣｈａｎｎｅｌＦｏｒｍａｔ」は、各音声トラック（仮想的な音声トラック）のチャンネルフォーマット（ステレオのＬ、Ｒなど）を示しており、前記した参考文献２の共通定義でＩＤが定められている。
このように、スポット制作用データ生成装置１は、音響メタデータをＡＤＭなどの国際標準の沿った形式で記述することができる。

【0058】

以上説明したように、スポット制作用データ生成装置１は、主たる宣伝内容、あるいは放送する時間や地域に応じて一部の音声を差し替えることが想定されるスポットを生成するためのスポット制作用データを、単一の音声ファイルとして生成することができる。
なお、同様のデータを従来の方式で生成した場合、１５秒のスポット用の音声ファイルを１０個制作しなければならず、その制作を特定の本部あるいはキー局に集約した場合には、そのファイルの管理や、全国の放送局への配布などに負荷が生じる。
一方、スポット制作用データ生成装置１は、単一の音声ファイルを制作し、当該ファイル（単一のファイル）を全国の放送局へ配布すればよいため、ファイルの管理や取り違えの防止を容易に行うことができる。

【0059】

また、全国の放送局では、この音響メタデータに対応したレンダラを用いて、音響メタデータに記述されたプリセットを選択するだけで、必要なスポットの音声信号を生成または再生することができる。この音響メタデータをＡＤＭなどの国際標準のものとすることで、ＩＴＵ－Ｒで規定されているＡＤＭに対応した標準レンダラで必要なスポットの音声信号の生成が可能である。そのため、スポット制作用データ生成装置１が生成するスポット制作用データは、従来の再生装置で音声を生成または再生することができる。

【0060】

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではなく、発明の技術的思想の範囲内で適宜変更可能である。
また、スポット制作用データ生成装置１は、コンピュータを前記した各構成部として機能させるためのプログラムで動作させることができる。
その場合、コンピュータは、スポット制作用データ生成装置１の各構成部の機能を実現する処理内容を記述したプログラムをコンピュータの記憶部に格納しておき、コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

【0061】

なお、このプログラムは、コンピュータで読取り可能な記録媒体に記録可能である。また、プログラムをコンピュータ読取り可能媒体に記録することで、コンピュータにプログラムをインストールすることが可能である。ここで、コンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

【符号の説明】

【0062】

１スポット制作用データ生成装置
１０音声データ結合部
１１チャンネル数調整部
１２結合部
１３結合音声データ記憶部
２０音響メタデータ生成部
２１オブジェクトリスト生成部
２２組み合わせパターン生成部
２３メタデータ生成部
３０データ統合部

【図1】