(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023125821
(43)【公開日】2023-09-07
(54)【発明の名称】受信装置、放送装置、放送システム、受信方法及びプログラム
(51)【国際特許分類】
H04N 21/472 20110101AFI20230831BHJP
H04N 21/462 20110101ALI20230831BHJP
H04H 20/28 20080101ALI20230831BHJP
H04H 20/95 20080101ALI20230831BHJP
【FI】
H04N21/472
H04N21/462
H04H20/28
H04H20/95
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022030137
(22)【出願日】2022-02-28
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100129115
【弁理士】
【氏名又は名称】三木 雅夫
(74)【代理人】
【識別番号】100133569
【弁理士】
【氏名又は名称】野村 進
(74)【代理人】
【識別番号】100131473
【弁理士】
【氏名又は名称】覚田 功二
(72)【発明者】
【氏名】西垣 智夫
(72)【発明者】
【氏名】鈴木 秀樹
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA04
5C164MA06S
5C164MB11S
5C164SB15S
5C164UB10S
5C164UB11S
5C164UC21P
5C164UD41P
(57)【要約】
【課題】所望の音声を選択する仕組みを効率よく提供できる。
【解決手段】受信部は、同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるMMTパッケージテーブル(MPT)が多重化された多重化データを放送で受信し、分離部は前記多重化データから前記MPTを分離し、音声処理部は前記MPTに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるMMTパッケージテーブル(MPT)が多重化された多重化データを放送で受信する受信部と、
前記多重化データから前記MPTを分離する分離部と、
前記MPTに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、
前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理部と、
を備える受信装置。
【請求項2】
前記音声アセットは、単一の音声ストリームであり、
前記選択可能情報は、前記要素として、前記音声ストリームから導出できる音声の特性を示し、
前記音声処理部は、前記音声ストリームから前記選択情報で指示される特性を有する音声を導出する
請求項1に記載の受信装置。
【請求項3】
前記選択可能情報が、前記音声ストリームから導出できる少なくとも2種類のプリセット音声を示すとき、
前記音声処理部は、前記少なくとも2種類のプリセット音声のうち、前記選択情報で指示されるプリセット音声を出力する
請求項2に記載の受信装置。
【請求項4】
前記選択可能情報は、前記音声アセットの出力特性の調整の可否を示し、
前記出力特性の調整が可能なとき、前記選択可能情報は、調整が可能な項目である調整可能項目をさらに示し、
前記音声処理部は、前記出力特性の調整の案内情報を出力し、
前記選択情報で前記出力特性の調整が指示されるとき、前記調整可能項目を出力し、
前記調整可能項目に関して指示された出力特性に従って前記音声アセットを処理する
請求項1から請求項3のいずれか一項に記載の受信装置。
【請求項5】
前記調整可能項目は、前記音声アセットをなす単一の音声ストリームから導出できる少なくとも2種類の要素音声の音量を含み、
前記音声処理部は、前記選択情報で指示された音量に従って前記要素音声を混合する
請求項4に記載の受信装置。
【請求項6】
マルチチャンネル音声を再生できる再生部と接続され、
前記調整可能項目は、前記音声アセットをなす単一の音声ストリームから導出できる要素音声ごとの目標方向を含み、
前記音声処理部は、前記選択情報で指示された目標方向に知覚されるように前記要素音声を処理する
請求項4に記載の受信装置。
【請求項7】
少なくとも同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるMMTパッケージテーブル(MPT)を多重化して多重化データを生成する多重化部と、
前記多重化データを放送で送信する送信部と、を備え、
前記音声アセットに選択可能な要素を含むとき、前記MPTは、前記選択可能な要素を示す選択可能情報を含む
放送装置。
【請求項8】
請求項7に記載の放送装置と、
請求項1から請求項6のいずれか一項に記載の受信装置を備える
放送システム。
【請求項9】
コンピュータに請求項1から請求項6のいずれか一項に記載の受信装置として機能させるためのプログラム。
【請求項10】
同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるMMTパッケージテーブル(MPT)が多重化された多重化データを放送で受信する受信部を備える受信装置における受信方法であって、
前記受信装置が、
前記多重化データから前記MPTを分離する分離ステップと、
前記MPTに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、
前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理ステップと、を実行する
受信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、受信装置、放送装置、放送システム、受信方法及びプログラムに関する。
【背景技術】
【0002】
テレビジョン放送サービスでは、番組を構成する音声、映像のコンテンツが多重化して伝送される。多重化、伝送方式として、例えば、MPEG-2 TS方式、MMT(MPEG Media Transport)方式などが用いられてきた。音声は、1系統ごとにエレメンタリーストリーム(ES:Elementary Stream)として伝送される。放送サービスで提供される音声の編成は、番組を構成するESと、ESごとの属性を多重化情報として記述してコンテンツとともに伝達される。多重化情報は、MPEG-2 TS方式、MMT方式では、それぞれPMT(Program Map Table)、MPT(MMT Package Table)を用いて表される。ESは、MMT方式におけるアセットに相当する。
【0003】
放送サービスを提供する受信装置は、多重化情報を参照して、提供可能な属性を有する音声を選択肢として表すリストを生成し、提示することがあった。提示されたリストを目視したユーザは、嗜好や視聴環境に応じて、いずれか1系統の音声を選択する。受信装置は、ユーザが選択した音声データを放送データから分離し、復号により得られた音声を出力する。
【0004】
次世代の地上波ディジタル方式(以下、「地デジ方式」と呼ぶ)では、音声の符号化方式として、MPEG-H 3D Audio方式や、Dolby(登録商標)AC-4方式が採用される可能性がある。MPEG-H 3D Audio方式やDolby(登録商標)AC-4方式では、1件の放送番組において1個のアセットを用いて、種々の使用形態に対応する複数種類の音声を要素として伝送可能とする。そこで、ユーザにより要素とする複数種類の要素音声から、嗜好や視聴環境に応じて、いずれかの要素音声を選択可能とすることが検討されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来の方式のもとでは、コンテンツと多重化して伝送される多重化情報に記述された音声アセットごとに、その属性を解析して、選択肢を構成することが考えられる。しかしながら、MPEG-H 3D Audio方式やDolby(登録商標)AC-4方式では、個々の番組において単一のアセットしか提供されない。従来の方式と同様に多重化情報を解析しただけでは、伝送される要素音声の種類や、個々の要素音声の属性を特定することができない。ひいては選択肢を取得することができなかった。要素音声の種類や、その属性を特定するために、受信した音声アセットの内容を解析することも考えられるが、解析に係る負荷やハードウェア資源を要する。
【課題を解決するための手段】
【0007】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、同一パッケージにおける音声アセットと、前記パッケージを構成する情報を与えるMMTパッケージテーブル(MPT)が多重化された多重化データを放送で受信する受信部と、前記多重化データから前記MPTを分離する分離部と、前記MPTに前記音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、前記選択可能情報を出力し、前記選択可能情報から選択された選択情報に従って前記音声アセットを処理する音声処理部と、を備える受信装置である。
【発明の効果】
【0008】
本発明の実施形態によれば、所望の音声を選択する仕組みを効率よく提供できる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態に係る放送システムの機能構成例を示す概略ブロック図である。
【
図2】本実施形態に係る放送装置の機能構成例を示す概略ブロック図である。
【
図3】本実施形態に係る受信装置の機能構成例を示す概略ブロック図である。
【
図4】本実施形態に係る記述子の例を示す図である。
【
図5】記述子に設定されるプリセット音声の例を示す図である。
【
図6】本実施形態に係る設定画面の第1例を示す図である。
【
図7】本実施形態に係る設定画面の第2例を示す図である。
【
図8】本実施形態に係る設定画面の第3例を示す図である。
【
図9】本実施形態に係る受信処理の例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、図面を参照して説明する。
まず、本実施形態に係る放送システム1の概要について説明する。
図1は、本実施形態に係る放送システム1の機能構成例を示す概略ブロック図である。
放送システム1は、放送装置10と受信装置20を含んで構成される。
図1の例では、受信装置20の数は1台であるが、一般には複数となりうる。
【0011】
放送装置10は、少なくとも音声アセットとMMTパッケージテーブル(MPT:MPEG Media Transport Package Table)を多重化して多重化データを生成し、生成した多重化データを放送伝送路BTに送出する。音声アセットは、パッケージの構成要素(コンポーネント)としての音声を示すデータを含んで構成される。パッケージは、コンテンツの単位を指す。パッケージは、放送番組(イベント)に相当し、放送サービスと対応付けられる。本実施形態では、1個のパッケージにおいて単一の音声アセットが含まれる。MPTは、その音声アセットを含めて多重化されたパッケージを構成する情報を与えるデータテーブルである。
【0012】
放送伝送路BTは、放送信号を一方向的に不特定かつ複数の送信先として受信装置20に伝送可能とする伝送路である。放送伝送路BTは、典型的には所定の周波数帯域の放送波により形成される。放送伝送路BTは、その一部に通信ネットワークを含んで構成されてもよい。かかる通信ネットワークは、例えば、インターネット、公衆無線ネットワーク、構内ネットワーク、専用回線、などのいずれの種類のネットワークであってもよい。
【0013】
受信装置20は、放送伝送路BTを用いて伝送された多重化データを受信し、受信した多重化データからMPTを分離する。受信装置20は、分離したMPTで伝達されるパッケージの多重化情報を解析する。受信装置20は、音声アセットの選択可能な要素(本願では、「選択可能要素」と呼ぶ)を示す選択可能情報が含まれるとき、その選択可能情報を出力する。受信装置20は、出力した選択可能情報から選択された選択情報に従って、音声アセットを処理する。選択可能情報は、選択可能要素として、音声アセットをなす音声ストリームから導出される音声の特性を示す。選択可能要素には、プリセット音声、音声の出力特性などが設定されうる。受信装置20は、選択可能情報から選択された選択情報に従って音声アセットを処理する。
【0014】
次に、本実施形態に係る放送装置10の機能構成例について説明する。
図2は、本実施形態に係る放送装置10の機能構成例を示す概略ブロック図である。放送装置10はコンテンツ編成部120、多重化部126、変調部128、および、送信部130を含んで構成される。
【0015】
コンテンツ編成部120は、複数の素材をそれぞれ要素コンテンツとして取得し、取得した要素コンテンツを有する放送コンテンツを編成する。編成される放送コンテンツは、1個のパッケージをなし、番組として放送される。本願では、音声からなる要素コンテンツを「要素音声」と呼ぶ。素材となる音声本実施形態では、放送コンテンツには、そのコンポーネントとして単一の音声アセットと映像アセットが含まれる。音声アセットは、音声ストリーム、つまり、時間的に継続した音声データを含む。音声アセットは、1以上の要素音声を含み、選択可能な要素(本願では「選択可能要素」と呼ぶ)が導出されるように構成される。コンテンツ編成部120は、編成したパッケージのコンテンツデータを多重化部126に出力する。出力されるコンテンツデータには、音声アセットと映像アセットが含まれる。コンテンツデータには、音声、映像などの要素コンテンツを提示するためのデータ放送コンテンツを含めて構成されてもよい。データ放送コンテンツは、例えば、HTML(Hypertext Modeling Language)などのマークアップ言語、スクリプト言語などを用いて記述されたディジタル文書として構成される。データ放送コンテンツには、要素コンテンツごとの提示開始時刻、提示終了時刻、表示領域などが指示されうる。データ放送コンテンツは、コンテンツの提示のための指令を記述したプログラムとみなすこともできる。
【0016】
コンテンツ編成部120は、音声符号化部122と映像符号化部124を備える。
音声符号化部122は、要素コンテンツとして1以上のチャンネルの音声データを取得し、取得した音声データを所定の音声符号化方式を用いて単一の音声ストリームをなす音声アセットを生成する。音声符号化方式(音声圧縮方式)として、例えば、MPEG-H Part3 3D Audioに規定されている方式が利用可能である。音声符号化部122は、例えば、1以上の要素コンテンツである要素音声を処理する。
【0017】
1種類の要素音声もしくは複数の要素音声の組が、プリセット音声として予め設定されうる。プリセット音声の設定情報には、その再生モードとして、要素音声ごとの出力特性が含まれてもよい。選択可能として、再生対象とする個々のプリセット音声、詳細設定などが選択可能要素の項目となりうる。詳細設定では、要素音声ごとの出力特性が指示されうる。出力特性として、例えば、音量が適用されうる。プリセット音声に複数の要素音声が含まれる場合には、出力特性として要素音声ごとの音量比が指示される。
【0018】
音声符号化部122は、要素音声としてマルチチャンネル音声を符号化してもよい。マルチチャンネル音声として、例えば、5.1チャンネルサラウンド、22.1チャンネルサラウンドなどの音声モードに係る音声が適用されてもよい。マルチチャンネル音声は、立体音響再生に用いられることがある。その場合には、例えば、知覚される音の目標方向が選択可能要素とする出力特性に含まれうる。
【0019】
映像符号化部124は、要素コンテンツとして高解像度の動画を表す映像データを取得し、取得した映像を所定の映像符号化方式を用いて映像ストリームをなす映像アセットを生成する。
【0020】
多重化部126には、コンテンツ編成部120からコンテンツデータが入力される。多重化部126は、入力されたコンテンツデータと、そのパッケージを構成する情報を示す多重化情報(制御情報)を所定の多重化方式を用いて多重化し、多重化データを生成する。多重化方式として、例えば、MMT-TLV(MPEG Media Transport-Type Length Value)方式が利用可能である。多重化情報は、例えば、MMTパッケージテーブル(MPT:MMT Package Table)を用いて記述される。MPTには、例えば、パッケージを構成するアセット、アセットごとの属性の他、音声アセットの選択可能要素が記述されうる。
多重化部126は、コンテンツデータ、多重化情報を所定の情報量のブロックごとに細分化してMMTPパケットを生成し所定の送信時間間隔ごとに取得されるMMTPパケットを格納したTLVパケットを構成する。多重化部126は、一連のTLVパケットからなるTLVストリームを多重化データとして変調部128に出力する。
【0021】
変調部128は、多重化部126から入力される多重化データを所定の変調方式を用いて変調して放送信号に変換する。所定の変調方式として、例えば、64QAM(Quadrature Amplitude Modulation)や256QAMなどの方式が利用可能である。変調部128は、変換した放送信号を送信部130に出力する。
送信部130は、変調部128から入力される放送信号を放送伝送路BTに送出する。送信部130は、例えば、トランスミッタであり、アンテナに接続される。送信部130は、入力される放送信号を基底周波数から所定の搬送周波数にアップコンバートして送信信号としてアンテナに供給する。アンテナからは、放送信号を搬送する放送波が送出される。
【0022】
次に、本実施形態に係る受信装置20の機能構成例について説明する。
図3は、本実施形態に係る受信装置20の機能構成例を示す概略ブロック図である。受信装置20は、受信部212、復調部214、分離部216、音声復号部222、映像復号部232、提示処理部240、再生部250、表示部260、および、入力部270を含んで構成される。
【0023】
受信部212は、放送伝送路BTを経由して伝送された放送信号を受信し、受信した放送信号を復調部214に出力する。受信部212は、例えば、チューナであり、アンテナに接続される。受信部212は、アンテナが受波して得られる受信信号の搬送周波数の成分を基底周波数にダウンコンバートして放送信号として復調部214に出力する。搬送周波数として、提示処理部240から指示された放送チャンネルに対応する搬送周波数が指示される。
【0024】
復調部214は、受信部212から入力される放送信号を所定の復調方式を用いて復調し、多重化データに変換する。復調部214は、変換した多重化データを分離部216に出力する。復調方式として、伝送された多重化データの変調に用いた変調方式に対応する方式が用いられる。
【0025】
分離部216は、復調部214から入力される多重化データから多重化情報、および、コンテンツを分離する。多重化方式としてMMT-TLV方式が用いられる場合、分離部216は、多重化データをなすTLVストリームの単位であるTLVパケットからMMTPパケットを抽出する。分離部216は、抽出されたMMTPパケットから、それぞれ多重化情報、および、コンテンツデータを抽出することができる。分離部216は、分離した多重化情報を記述するMPTを参照し、パッケージを構成するコンポーネントとなるアセットとして、音声アセットと映像アセットを特定する。分離部216は、特定した音声アセットを分離し、分離した音声アセットを音声復号部222に出力する。分離部216は、特定した映像アセットを分離し、分離した映像アセットを映像復号部232に出力する。また、分離部216は、分離したMPTを提示処理部240に出力する。コンテンツデータにデータ放送コンテンツが含まれる場合には、分離部216は、データ放送コンテンツを提示処理部240に出力してもよい。
【0026】
音声復号部222は、分離部216から入力される音声アセットを所定の音声復号方式を用いて復号し、復号した音声アセットを提示処理部240に出力する。音声復号部222は、音声復号方式として、音声アセットの符号化に用いた音声符号化方式に対応する音声復号方式を用いればよい。
映像復号部232は、分離部216から入力される映像アセットを所定の映像復号方式を用いて復号し、復号された映像アセットを提示処理部240に出力する。映像復号部232は、映像復号方式として、映像アセットの符号化に用いられた映像符号化方式に対応する映像復号方式を用いればよい。
【0027】
提示処理部240は、放送で受信される放送コンテンツを提示するための処理を実行する。提示処理部240の機能は、プログラムとしてのブラウザを実行して、ブラウザ上でデータコンテンツに記述された指令を実行して実現されうる。即ち、提示処理部240の機能は、プログラムとしてのブラウザに記述された指令で指示される処理として、受信装置20のコンピュータシステムが、分離部216から入力されるデータ放送コンテンツに記述された指令を解析し、解析された指令で指示される処理を実行することにより実現されてもよい。データ放送コンテンツにより、例えば、放送コンテンツをなす要素コンテンツの提示開始、終了、映像の表示領域などが指示されうる。
なお、本願では、ブラウザなどのアプリケーションプログラム、その他のプログラムに記述された指令で示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。
【0028】
提示処理部240は、入力部270から入力される操作信号による指示に基づいて放送コンテンツの受信および受信される放送コンテンツの提示を制御する。
例えば、提示処理部240は、操作信号に基づき放送コンテンツの受信開始を受信部212に指示する(受信開始)。このとき、提示処理部240は、音声復号部222から入力される音声アセットに基づく音声を示す音声データの再生部250への出力を開始する。提示処理部240は、映像復号部232から入力される映像アセットに基づく映像を表す表示データの表示部260への出力を開始する。
また、提示処理部240は、入力部270から入力される操作信号に基づき放送コンテンツの受信停止を受信部212に指示する(受信停止)。このとき、提示処理部240は、音声復号部222から入力される音声アセットに基づく音声データの再生部250への出力を停止する。提示処理部240は、映像復号部232から入力される映像アセットに基づく映像を表す表示データについて表示部260への出力を停止する。
提示処理部240は、操作信号で指示される放送チャンネルを受信部212に通知して、通知した放送チャンネルでの放送コンテンツの受信を開始させる(チャンネル切替)。
【0029】
提示処理部240は、音声処理部242と映像処理部244を備える。
音声処理部242は、音声復号部222から入力される音声アセットで表現される音声を再生するための処理を行う。
音声処理部242は、分離部216から入力されるMPTにおいて、音声復号部222から入力された音声アセットについて選択可能情報が含まれるか否かを判定する。選択可能情報が含まれる場合、音声処理部242は、選択可能情報を表す設定画面を生成する。映像処理部244は、生成した設定画面を重畳した表示データを表示部260に出力する。ユーザは、設定画面に表された提示可能情報を視認して、受信した音声に関して選択可能な選択可能要素を知得することができる。
【0030】
音声処理部242は、入力部270から入力される操作信号で指示される選択情報を特定し、特定した選択情報に従って選択された項目に基づいて音声アセットを処理する。音声処理部242は、処理により得られた音声データを再生部250に出力する。
上記のように、選択可能情報は、選択可能要素として、音声アセットをなす音声ストリームから導出できる音声の特性を示す。音声処理部242は、音声ストリームから選択情報で指示される特性を有する音声を導出する。例えば、選択可能情報が複数種類のプリセット音声を示す場合には、音声処理部242は、選択情報で指示される1種類のプリセット音声を特定し、特定したプリセット音声を出力音声として示す音声データを再生部250に出力する。
【0031】
より具体的には、選択可能情報は、音声アセットをなす音声ストリームから得られる要素音声またはプリセット音声の出力特性の調整の可否を示し、調整可とするとき、選択可能情報には調整が可能な項目である調整可能項目が含まれうる。調整可能項目には、例えば、音量、目標位置のいずれか、または、それらの組が含まれうる。音声処理部242は、出力特性の調整の案内情報を設定画面に含めて出力してもよい。操作信号で伝達される選択情報により出力特性の調整が指示されるとき、音声処理部242は、調整可能項目を表す設定画面を出力してもよい。音声処理部242は、調整可能項目に関して選択情報により指示された出力特性に従って、対象とする要素音声またはプリセット音声を処理してもよい。より具体的には、調整可能項目として、複数の要素音声の音量が設定される場合には、音声処理部242は、選択情報で指示された音量に従って要素音声を混合(ミキシング)して出力音声を生成する。
【0032】
また、調整可能項目には、音声アセットをなす音声ストリームから得られる要素音声ごとの目標方向が含まれうる。再生部250がマルチチャンネル音声を再生できる場合には、音声処理部242は、選択情報で指示された目標方向に知覚されるように要素音声を処理する。ここで、音声処理部242は、そのマルチチャンネル音声再生方式について予め設定された目標方向と音声チャンネルごとの音量比の設定情報を参照して、要素音声について指示された目標方向に対応する音声チャンネルごとの音量比を特定する。音声処理部242は、特定した音量比で要素音声を分配し、チャンネルごとに分配された音声を出力音声とする。なお、選択可能要素と設定画面の具体例については後述する。
【0033】
映像処理部244は、映像復号部232から入力される映像アセットで表現される映像を再生するための処理を行う。
映像処理部244は、映像アセットで表現される映像を所定の表示領域に配置した表示画面を生成し、生成した表示画面を表す表示データを表示部260に出力する。
映像処理部244は、入力部270から入力される操作信号の指示に基づき、各種の設定画面を表す表示データを表示部260に出力する。
【0034】
表示部260は、提示処理部240から入力される表示データで示される各種の表示画面を提示するためのデバイスを備える。表示部260は、例えば、ディスプレイを備える。
再生部250は、提示処理部240から入力される音声データで示される音声を再生するためのデバイスを備える。再生部250は、例えば、スピーカを備える。再生部250は、複数のスピーカからなるマルチチャンネル音響再生システムであってもよい。
【0035】
入力部270は、ユーザの操作を受け付け、受け付けた操作に応じた操作信号を提示処理部240に出力する。入力部270は、例えば、マウス、タッチパネル、などの汎用の部材を備えてもよいし、ボタン、レバー、つまみ、などの専用の部材を備えてもよい。入力部270として用いられるタッチセンサと表示部260として用いられるディスプレイは、互いには重なり合うように一体化され、タッチパネルとして構成されてもよい。
入力部270は、他の機器(例えば、遠隔制御装置(リモートコントローラ)、スマートフォンなど)から操作信号を検出する操作信号センサを備えてもよい。操作信号センサは、検出した操作信号を提示処理部240に出力する。
【0036】
次に、パッケージを構成する音声アセットの構成ならびに属性を記述するための記述子の例について説明する。
図4は、次世代音声記述子(Next-Generation Audio_Descriptor())の構成例を示す。次世代音声記述子は、MPEG-H 3D AudioやDolby(登録商標)AC-4方式などの次世代音声符号化方式に基づく音声ストリームに関するパラメータを特定するための基本情報を記述するために用いられる。次世代音声記述子に記述される記述子には、記述子タグ(descriptor_tag)、記述子長(descriptor_length)、オーディオタイプ(nga_type)、プロファイル・レベル(Profile_Level)、プリセット音声(preset())、および、インタラクティブ項目(interactive())がある。
【0037】
記述子タグ(descriptor_tag)には、本記述子を識別するための所定の記述子が記述される。
記述子長(descriptor_length)には、本記述子に記述される情報の情報量を示すバイト数が記述される。
オーディオタイプ(nga_type)には、音声種別として、符号化に用いられた音声符号化方式を示す値が記述される。
図4の例では、MPEG-Hを示す値として1、Dolby(登録商標)AC-4を示す値として2のいずれかが記述される。
プロファイル・レベル(Profile_Level)には、プロファイルとレベルが記述される。プロファイルとは、目的または用途別に定義された機能の集合を示す。レベルとは、処理の負荷や使用メモリ量など、要求されるハードウェア資源の量を示す。これらは、音声ストリームをなすチャンネル数、プリセット音声の数、および、1チャンネル当たりの音声のサンプリング周波数に依存する。
【0038】
プリセット音声(preset())には、音声アセットをなす音声ストリームにおいて伝送されるプリセット音声の数、個々のプリセット音声の内容(属性)が記述される。プリセット音声は、音声ストリームで伝送される予め定めた1種類の要素音声、複数種類の要素音声の組、または、それらの再生モードなど、予め定めた音声設定を指す。
インタラクティブ項目(interactive())には、インタラクティブ項目の有無と、インタラクティブ項目が存在する場合に、その内容として、ユーザ操作により選択可能な項目が記述される。インタラクティブ項目(interactive())には、上記の選択可能情報が記述される。上記のように選択可能情報は、ユーザ操作により選択可能な要素として、伝送される音声ストリームから導出される音声の特性を示す。選択可能情報として、調整可能とする音声の出力特性などが指示されうる。調整可能とする出力特性は、プリセット音声として設定されているか否かに関わらず要素音声ごとに指示されてもよいし、プリセット音声として設定された要素音声またはそれらの組ごとに指示されてもよい。
【0039】
図5は、記述子に設定されるプリセット音声の例を示す。
図5は、1件の番組において4種類のプリセット音声が設定される場合を例にする。この例では、4種類のプリセット音声には、「日本語 メイン」、「英語 メイン」、「日本語 セリフ強調」、「日本語 解説音声」が含まれる。この例では、4種類のプリセット音声のいずれかが選択可能となる。
「日本語 メイン」は、背景の音声と日本語音声が提示される音声モードを示す。「日本語 メイン」は、特段の操作なしに提示される主音声として設定されうる。「英語 メイン」は、日本語音声の代わりに英語音声が提示される音声モードを示す。
「日本語 セリフ強調」は、日本語のセリフ音声を「日本語 メイン」よりも強調して提示するモードである。セリフ音声を強調して提示する際、セリフ音声には、「日本語 メイン」における日本語音声の音量よりも大きい音量が設定される。
【0040】
「日本語 セリフ強調」には、「ユーザ操作」の列において「詳細設定」が記述されている。「詳細設定」は、ユーザの操作に応じて詳細な出力特性を調整可能とすることを示す。調整可能な出力特性の種類(例えば、要素音声ごとの音量比)、調整対象とする要素音声、および、その出力特性の設定値(例えば、初期値)が、インタラクティブ項目(interactive())を用いて記述されうる。
「日本語 解説音声」は、通常の日本語音声の他、日本語の解説音声を追加して提示するモードである。この例では、日本語の解説音声の音量は、通常の日本語音声の音量と同等であってもよい。
「日本語 解説音声」には、「ユーザ操作」の列において「詳細設定」が記述されている。「詳細設定」に関して、調整可能な出力特性の種類、調整対象とする要素音声、および、その出力特性の設定値(例えば、初期値)が、インタラクティブ項目(interactive())を用いて記述されうる。
【0041】
次に、本実施形態に係る設定画面の例について説明する。音声処理部242は、次世代音声記述子に記述されたプリセット音声を参照して、選択可能とするプリセット音声の有無、存在する場合には、選択可能とするプリセット音声を特定する。また、音声処理部242は、インタラクティブ項目の記述を参照して、調整可能とする出力特性の項目の有無、存在する場合には、その項目に係る設定情報を特定する。設定情報として、調整対象となる要素音声またはプリセット音声、その出力特性の種類や内容が特定される。音声処理部242は、特定した選択可能情報を表す設定画面を生成し、生成した設定画面を示す表示データを出力する。
【0042】
図6は、本実施形態に係る設定画面の一例を示す図である。
図6に例示される設定画面は、複数のプリセット音声から、いずれか1種類のプリセット音声を選択するためのプリセット音声選択画面の一例である。このプリセット音声選択画面は、各行に選択可能なプリセット音声とその説明を示し、詳細な出力特性を設定可能とするプリセット音声に対して「詳細設定」の文字列が表されている。この「詳細設定」との表示は、出力特性を調整可能であることをユーザに案内するための案内情報となる。「詳細設定」の表示は、押下により、出力特性の調整がユーザにより指示されるようにリンク表示される。本願では、「押下」とは、現実に押下されることの他、操作により、その表示領域が指示されるという意味も含む。
【0043】
ここで、
図5に例示される4種類のプリセット音声のいずれかを選択可能とし、「日本語 セリフ強調」、「日本語 解説音声」のそれぞれに対して詳細な出力特性が選択可能とすることが示される。提示対象とする1種類のプリセット音声は、例えば、入力部270をなす上下ボタンの押下、または、上下ダイヤル回転などの操作により、巡回的に切り替わる。
図6の例では、「英語 メイン」が選択され、選択されたプリセット音声とその解説を表す文字列が枠で囲んで表示される。音声処理部242は、音声復号部222から入力される音声アセットからプリセット音声として、「英語 メイン」に係る音声データを選択し、選択した音声データを再生部250に出力する。再生部250は、プリセット音声として「英語 メイン」を再生する。
【0044】
図7の例では「日本語 セリフ強調」について、詳細設定の表示が押下により選択される場合を示す。このとき、音声処理部242は、音声復号部222から入力される音声アセットからプリセット音声として、「日本語 セリフ強調」に係る要素音声として背景の音声と日本語のセリフ音声に係る音声データを選択する。音声処理部242は背景の音声と日本語のセリフ音声のそれぞれに「日本語 セリフ強調」に所定の利得(ゲイン)を用いて音量を調整する。音声処理部242は、音量調整後の日本語音声とセリフ音声をミキシングし、出力音声を合成する。音声処理部242は、合成した出力音声を示す音声データを再生部250に出力する。
【0045】
詳細設定の項目は、例えば、入力部270としてのリモートコントローラに備わる右ボタンの押下、または、左右ダイヤル回転などの操作により選択される。
音声処理部242は、詳細設定の項目の選択を検出するとき、インタラクティブ項目を参照し、「日本語セリフ 強調」に係る選択可能情報として、調整可能な出力特性の種類、内容、および、要素音声を特定する。音声処理部242は、特定した要素音声ごとに、調整可能項目として出力特性の種類および内容を表す詳細設定画面を生成し、詳細設定画面を表す表示データを表示部260に出力する。ユーザは、表示部260に表示された設定画面から選択可能情報を視認して選択可能要素を把握し、操作により、いずれかの選択可能要素を選択することができる。
【0046】
図8は、調整可能項目として、要素音声ごとの出力特性として再生の要否、音量、および、目標方向を設定するための設定画面の例を示す。左から第1列の「グループ1」、「グループ2」、「グループ3」との表示は、それぞれ出力特性を調整可能とする要素音声を示す。グループごとに、ドラマにおける役、人間の発話音声、音楽もしくは物音などの種別、などが指定されうる。左から第2列の「ON」または「OFF」との文字が付されたON/OFFボタンは、押下の度に対応する要素音声の出力の要否を指示するためのボタンである。左から第3列のダイヤルは、その回転操作により対応する要素音声の音量を指示するための画面部品である。左から第4列のスライダーバーは、そのつまみの位置の操作により対応する要素音声の目標方向を設定するための画面部品である。目標方向とは、再生部250としてマルチチャンネル音響システムにより提示される音声をユーザとなる受聴者に知覚させる目標とする方向である。マルチチャンネル音響システムは、異なる位置に配置された複数のスピーカを備え、出音させるスピーカまたはスピーカ(チャンネル)間の音量比を変更することで目標方向が調整される(音声レンダリング)。音響システムごとに標準のスピーカの配置と受聴位置が規定されている。その規定のもとで、音声処理部242には、目標方向とスピーカ(音声チャンネル)ごとの音量比との関係が予め定められる。目標方向と音声チャンネルごとの音量比との関係として、例えば、sin則、tan則、VBAP(Vector Based Amplitude Panning)法などのいずれが用いられてもよい。
【0047】
図8の例では、「グループ1」、「グループ2」について「ON」と指示され、「グループ3」について「OFF」と指示されている。このとき、音声処理部242は、プリセット音声として、「日本語 セリフ強調」に係る要素音声のうち、「グループ1」、「グループ2」に係る音声データを選択する。音声処理部242は、「グループ1」、「グループ2」のそれぞれに対して指示された音量が得られるように音量を調整する。音声処理部242は、音量調整後の「グループ1」、「グループ2」のそれぞれに対して指示された目標方向に対応する音量比で、各チャンネルに音声データを分配する。音声処理部242は、各チャンネルに分配した音声データを「ON」と指示された要素音声である「グループ1」と「グループ2」との間でミキシングする。音声処理部242は、各チャンネルでミキシングにより得られた音声を出力音声とする音声データを再生部250に出力する。これにより、ユーザは、「グループ1」、「グループ2」のそれぞれに対して指示された音量、目標方向で音声を受聴することができる。
【0048】
なお、
図8の例では、再生部250がマルチチャンネル音声を再生できる場合を仮定しているが、これには限られない。音声処理部242は、自部に接続される再生部250の機種を特定し、再生部250がマルチチャンネル音声を再生できるか否かを判定してもよい。マルチチャンネル音声を再生できない場合には、音声処理部242は、目標方向の設定に係る画面部品を省略し、目標方向への音声レンダリングを省略してもよい。
【0049】
次に、本実施形態に係る受信処理の例について説明する。
図9は、本実施形態に係る受信処理の例を示すフローチャートである。
(ステップS202)受信部212は、放送伝送路BTを経由して伝送された放送信号を受信する。復調部214は、放送信号を復調し多重化データを取得する。
(ステップS204)分離部216は、取得された多重化データからパッケージの構成を示すMPTと、音声アセットを分離する。
(ステップS206)音声処理部242は、分離されたMPTから音声アセットの選択可能要素を示す選択可能情報が含まれているか否かを判定する。含まれていると判定されるとき(ステップS206 YES)、ステップS208の処理に進む。含まれていないと判定されるとき(ステップS206 NO)、設定画面を生成せずに、MPTに記述されたパラメータに従って音声アセットを処理し、処理により得られた音声データを再生部250に出力する。その後、
図9の処理を終了する。
【0050】
(ステップS208)音声処理部242は、選択可能情報を表す設定画面を生成し、生成した設定画面を示す表示データを表示部260に出力する。
(ステップS210)音声処理部242は、入力部270から入力される操作信号を待ち受け、操作信号で選択情報が取得されたか否かを判定する。取得された場合(ステップS210 YES)、ステップS212に出力する。取得されない場合(ステップS210 NO)、ステップS210の処理を繰り返す。
(ステップS212)音声処理部242は、取得した選択情報に従って選択された項目と値の一方または両方に従って音声アセットを処理する。
(ステップS214)音声処理部242は、処理により得られた出力音声を示す音声データを再生部250に出力する。その後、
図9の処理を終了する。
【0051】
以上に説明したように、本実施形態に係る放送装置10は、同一パッケージにおける音声アセットと、パッケージを構成する情報を与えるMPTを多重化して多重化データを生成する多重化部126と、多重化データを放送で送信する送信部130と、を備え、音声アセットに選択可能な要素を含むとき、MPTは、その選択可能な要素を示す選択可能情報を含む。
受信装置20は、同一パッケージにおける音声アセットと、パッケージを構成する情報を与えるMPTが多重化された多重化データを放送で受信する受信部212と、多重化データからMPTを分離する分離部216と、MPTに音声アセットの選択可能な要素を示す選択可能情報が含まれるとき、選択可能情報を出力し、選択可能情報から選択された選択情報に従って音声アセットを処理する音声処理部242と、を備える。
この構成により、MPTに記述された選択可能要素を示す選択可能情報が提示され、選択された項目や値に従って処理された音声が提示される。音声アセットの内容を解析しなくても選択可能情報が取得できるので、選択可能要素から所望の態様の音声をユーザが任意に選択できる仕組みが効率よく提供される。
【0052】
また、音声アセットは、単一の音声ストリームであり、選択可能情報は、選択可能要素として、音声ストリームから導出できる音声の特性を示してもよい。音声処理部242は、前記音声ストリームから前記選択情報で指示される特性を有する音声を導出してもよい。
この構成により、単一の音声ストリームで複数の選択可能要素が提供可能なとき、提示された選択可能情報を参照して、ユーザにより指示された特性を有する音声が選択情報により指示される。
【0053】
また、選択可能情報が、音声ストリームから導出できる少なくとも2種類のプリセット音声を示すとき、音声処理部242は、少なくとも2種類のプリセット音声のうち、選択情報で指示されるプリセット音声を出力してもよい。
この構成により、複数種類のプリセット音声が選択可能なとき、いずれか1種類のプリセット音声が任意に選択可能となり、選択されたプリセット音声が再生される。
【0054】
また、選択可能情報は、音声アセットの出力特性の調整の可否を示し、出力特性の調整が可能なとき、選択可能情報は、調整が可能な項目である調整可能項目をさらに示し、音声処理部242は、出力特性の調整の案内情報を出力し、選択情報で前記出力特性の調整が指示されるとき、調整可能項目を出力し、調整可能項目に関して指示された出力特性に従って音声アセットを処理してもよい。
この構成により、音声アセットの出力特性の可否、出力特性が調整可能なとき、調整可能項目がユーザに通知される。また、調整可能項目に関して出力特性が指示可能となる。そのため、指示された出力特性を有する音声が再生される。
【0055】
また、調整可能項目は、音声アセットをなす単一の音声ストリームから導出できる少なくとも2種類の要素音声の音量を含み、音声処理部242は、選択情報で指示された音量に従って要素音声を混合してもよい。
この構成により、複数の要素音声の音量が調整可能であることがユーザに通知される。そのため、指示された音量で要素音声が再生される。
【0056】
また、受信装置20は、マルチチャンネル音声を再生できる受信部と接続され、調整可能項目は、音声アセットをなす単一の音声ストリームから導出できる要素音声ごとの目標方向を含み、音声処理部242は、選択情報で指示された目標方向に知覚されるように要素音声を処理してもよい。
この構成により、要素音声の目標方向が調整可能であることがユーザに通知される。そのため、指示された目標方向に知覚される音声が再生される。
【0057】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。上述の実施形態において説明した各構成は、任意に組み合わせることができる。
【0058】
例えば、音声アセットに含まれる要素音声の個数、選択可能要素となるプリセット音声の個数、個々のプリセット音声をなす要素音声の組、選択可能要素となる要素音声またはプリセット音声の出力特性の項目、それらの設定値などは、任意に設定される。また、設定画面、詳細設定画面、その他の表示画面における各種の表示情報の個数、内容、大きさ、位置などは、任意に設定される。
また、音声処理部242は、MPTから取得される選択可能要素が、音声復号部222または再生部250の処理能力により実現できるか否かを判定してもよい。音声処理部242は、実現できないと判定した選択可能要素を棄却し、設定画面に含めなくてもよい。
【0059】
また、受信装置20の一部の構成が省略されてもよいし、他の構成が追加されてもよい。例えば、受信装置20において、再生部250、表示部260、および、入力部270のいずれか、または、それらの任意の組み合わせは、受信装置20のその他の機能部と入出力可能に接続できれば、省略されてもよい。
また、上述の受信装置20の一部または全部、例えば、分離部216、音声復号部222、映像復号部232、および、提示処理部240の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりを実現してもよい。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。
【0060】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。
【0061】
なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で一体化する構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。各部の機能を実現するためのプログラムは、個々に構成されてもよい。例えば、提示処理部240の機能は、コンピュータシステムが、プログラムとしてのブラウザを実行して実現されてもよい。ここで、コンピュータシステムは、ブラウザに係る処理として、放送信号でコンテンツの一部またはコンテンツとは別個に搬送されるアプリケーションに記述された指令を構文解析して、特定された指令で指示される処理を実行して、提示処理部240の機能の一部が実現されてもよい。「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えば、RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0062】
1…放送システム、10…送信装置、20…受信装置、120…コンテンツ構成部、122…音声符号化部、124…映像符号化部、126…多重化部、128…変調部、130…送信部、212…受信部、214…復調部、216…分離部、222…音声復号部、232…映像復号部、240…提示処理部、242…音声処理部、244…映像処理部、250…再生部、260…表示部、270…入力部