【文献】
世木寛之 他,株式市況音声合成システムの開発,NHK技研R&D[オンライン],日本,日本放送協会放送技術研究所,2012年 1月,No.131,第40-47頁,[検索日 2017/01/11], インターネット:<URL:https://www.nhk.or.jp/strl/publica/rd/rd131/PDF/P40-47.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
前記位相調整部が逆位相にした前記素材音声の音声データの音声レベルを、前記重畳部が重畳により得た前記音声データのパワーが最も低くなるように調整するレベル調整部をさらに備え、
前記重畳部は、前記第1復号部が復号により得た前記番組音声の音声データと、前記レベル調整部が音声レベルを調整した前記素材音声の音声データとを重畳して音声データを生成する、
ことを特徴とする請求項5に記載の受信機。
【発明の概要】
【発明が解決しようとする課題】
【0004】
放送番組の音声に対する要望は、多言語放送や解説音声放送の充実、話速変換、さらにはダイアログ音声レベルの受信機での調整など様々である。ところが、放送によって伝送できる音声チャネルを多くすることは困難であり、これらの要望に対応した音声を全て放送で伝送することはできない。そこで、放送通信連携システムを利用して視聴者の要望に応じた音声を通信により伝送し、受信機側でその音声と放送番組を同期・合成させて出力することが考えられる。
【0005】
通常、番組制作においては、アナウンサーコメント、ヴォーカル等のダイアログ音声と、音楽、効果音などその他の複数の素材音声をミキシング(合成)して放送番組の音声(以下、「放送番組の音声」を「番組音声」と記載する。)を生成する。しかし、番組制作が完了した後に、音楽や効果音などの背景音を変化させずにダイアログ音声のみ要望にあわせて作成するというように、個別の素材音声だけを変更・加工することは一般的に困難である。そのため、個々の要望に応じたダイアログ音声のみを通信で伝送し、受信機側で番組音声と合成することが考えられるが、通信で伝送されたダイアログ音声をそのまま番組音声に合成してしまうと、番組音声に含まれる元のダイアログ音声と重なって聞きにくくなってしまう。一方、番組音声の音声レベルを下げて、通信で伝送されたダイアログ音声を合成すると、背景音が聞きにくくなるために視聴者が受け取る音の情報が減少し得る。このようなことから、通信で伝送されたダイアログ音声と合成する前に、番組音声から元のダイアログ音声のみを除去することが望ましい。しかし、非特許文献1には、番組音声からダイアログ音声を除去するなど、番組音声に含まれる特定の素材音声のみ音声レベルを変更することについては記載されていない。
【0006】
本発明は、このような事情を考慮してなされたもので、放送された番組音声に含まれる特定の素材音声のみの音声レベルを変更することができる放送送出装置、及び受信機を提供する。
【課題を解決するための手段】
【0007】
[1] 本発明の一態様は、複数の素材音声からなる番組音声の音声データを受信し、受信した前記番組音声の音声データを符号化して符号化番組音声データを生成する番組音声符号化部と、前記番組音声符号化部が符号化の際に適用する動作条件を出力する動作条件出力部と、前記番組音声に含まれる前記素材音声の音声データを受信し、受信した前記素材音声の音声データを前記動作条件出力部から出力された前記動作条件に従って前記番組音声符号化部と同じ符号化方法により符号化して符号化素材音声データを生成する素材音声符号化部と、前記番組音声符号化部により生成された前記符号化番組音声データを放送する放送送出部と、前記符号化素材音声データを前記放送送出部による放送とは異なる伝送路により伝送する送信部と、を備えることを特徴とする放送送出装置である。
この態様によれば、放送送出装置のエンコーダは、ダイアログ音声、音楽、ビデオからの音声、効果音などの複数の素材音声が合成された番組音声の音声データを符号化する。さらに、放送送出装置は、番組音声の音声データを符号化したエンコーダと同じ符号化方式のエンコーダによって、番組音声の音声データを符号化したときと同じ動作条件によって番組音声に含まれる特定の素材音声の音声データを符号化する。放送送出装置は、符号化した番組音声の音声データを放送により、符号化した素材音声の音声データを通信により伝送する。
これにより、放送送出装置は、符号化番組音声データを復号して得られる番組音声に含まれる特定の素材音声と、符号化素材音声データを復号して得られるその特定の素材音声との特性差を低減することができる。従って、受信機において、放送で受信した符号化番組音声データを復号して得た番組音声に、通信で受信した符号化素材音声データを復号して得たダイアログ音声を逆位相化して重畳することによって、番組音声からダイアログ音声を除去し、背景音だけの番組音声を得ることができる。また、受信機において、符号化番組音声データを復号して得た番組音声に、符号化素材音声データを復号して得たダイアログ音声を同位相のまま重畳することによって、ダイアログ音声のみ音声レベルを大きくした番組音声を得ることができる。
【0008】
[2] 本発明の一態様は、上述した放送送出装置であって、前記動作条件出力部は、前記番組音声符号化部が前記番組音声の音声データから逐次判断した動作条件を出力し、前記素材音声符号化部は、前記動作条件出力部から逐次出力される前記動作条件に従って前記素材音声の音声データを符号化する、ことを特徴とする。
この態様によれば、放送送出装置は、番組音声の音声データからエンコーダの動作条件を逐次判断して符号化を行い、この逐次判断された動作条件に従って、素材音声の音声データを符号化する。
これにより、放送送出装置は、符号化番組音声データを復号して得られる番組音声に含まれる特定の素材音声と、符号化素材音声データを復号して得られる特定の素材音声との特性差を精度よく低減することができる。
【0009】
[3] 本発明の一態様は、上述した放送送出装置であって、前記動作条件出力部は、前記番組音声符号化部に予め設定されている動作条件を出力する、ことを特徴とする。
この態様によれば、放送送出装置は、運用設定として保持しているエンコーダの動作条件に従って、番組音声の音声データと素材音声の音声データを符号化する。
これにより、番組音声中で音声レベルの変更対象である特定の素材音声以外の音が小さい場合、放送送出装置は、予め設定された動作条件に従って番組音声の音声データと素材音声の音声データを符号化することで、復号後の番組音声に含まれる特定の素材音声と、単独の素材音声との特性差を精度よく低減することができる。
【0010】
[4] 本発明の一態様は、複数の素材音声からなる番組音声の音声データを符号化した符号化番組音声データを放送により受信する放送受信部と、前記放送受信部により受信した前記符号化番組音声データを復号する第1復号部と、前記番組音声に含まれる前記素材音声の音声データを符号化した符号化素材音声データを放送とは異なる伝送路により受信する受信部と、前記受信部により受信した前記符号化素材音声データを復号する第2復号部と、前記番組音声における前記素材音声の音声レベルを減少させるか増大させるかに応じて前記第2復号部が復号により得た前記素材音声の音声データの位相を調整する位相調整部と、前記第1復号部が復号により得た前記番組音声の音声データと、前記位相調整部が位相を調整した前記素材音声の音声データとを重畳して音声データを生成する重畳部と、を備えることを特徴とする受信機である。
この態様によれば、受信機は、放送された符号化番組音声データを復号し、通信で送信された符号化素材音声データを復号する。受信機は、復号により得られた素材音声データの位相を調整した後、復号により得られた番組音声データと重畳して音声データを生成する。
これにより、受信機は、符号化番組音声データを復号して番組音声を得るとともに、符号化素材音声データを復号してダイアログ音声を得る。受信機は、復号により得られた番組音声に、位相が調整されたダイアログ音声を重畳することによって、ダイアログ音声を除去した番組音声、あるいは、ダイアログ音声のみ音声レベルを大きくした番組音声を得ることができる。
【0011】
[5] 本発明の一態様は、上述した受信機であって、前記位相調整部は、前記番組音声から前記素材音声を除去する場合、前記第2復号部が復号により得た前記素材音声の音声データを逆位相とする、ことを特徴とする。
この態様によれば、受信機は、番組音声から特定の素材音声を除去したい場合、素材音声の音声データを逆位相化する。
これにより、受信機は、番組音声からダイアログ音声を精度よく除去し、背景音だけの番組音声を得ることができる。
【0012】
[6] 本発明の一態様は、上述した受信機であって、前記位相調整部が逆位相にした前記素材音声の音声データの音声レベルを、前記重畳部が重畳により得た前記音声データのパワーが最も低くなるように調整するレベル調整部をさらに備え、前記重畳部は、前記第1復号部が復号により得た前記番組音声の音声データと、前記レベル調整部が音声レベルを調整した前記素材音声の音声データとを重畳して音声データを生成する、ことを特徴とする。
この態様によれば、受信機は、素材音声の音声レベルを変えながら番組音声と重畳し、重畳した結果得られた音声データのパワーが最も低いときの音声レベルに素材音声を調整する。
これにより、受信機は、番組音声中のダイアログ音声の音声レベルが変化する場合でも、ダイアログ音声を精度よく除去して背景音だけの番組音声を得ることができる。
【発明の効果】
【0013】
本発明によれば、放送された番組音声に含まれる特定の素材音声のみの音声レベルを変更することが可能となる。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0016】
図1は、本発明の一実施形態による放送音声調整システムの構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。同図に示すように、放送音声調整システムは、放送局の番組音声生成装置1及び放送送出装置3と、視聴者の受信機5を備えて構成される。
【0017】
番組音声生成装置1は、例えば、スタジオに設置された音声卓であり、素材音声入力部11−1〜11−n(nは2以上の整数)、操作部12、番組音声生成部13、番組音声出力部14、及び素材音声出力部15を備えて構成される。
【0018】
素材音声入力部11−1〜11−nは、それぞれ異なる素材音声の音声データ(以下、「素材音声データ」と記載する。)の入力を受け、番組音声生成部13に出力する。例えば、素材音声入力部11−1は、アナウンサーの声、歌手のヴォーカル等のダイアログ音声の素材音声データの入力を受け、素材音声入力部11−2は、音楽の素材音声データの入力を受け、素材音声入力部11−nは、ビデオからの素材音声データの入力を受ける。
【0019】
操作部12は、ユーザインタフェースであり、各素材音声に対する音声レベルの指示の入力を受ける。番組音声生成部13は、ミキサーであり、操作部12により入力された指示に従って、素材音声入力部11−1〜11−nから入力された各素材音声データの音声レベルを調整し、音声レベルが調整された素材音声データを合成して番組音声データを生成する。番組音声出力部14は、番組音声生成部13が生成した番組音声データを放送送出装置3に出力する。素材音声出力部15は、番組音声に含まれる中で音声レベルを調整したい素材音声の素材音声データを放送送出装置3へ出力する。本実施形態では、音声レベルを調整したい素材音声を、素材音声入力部11−1に入力されるダイアログ音声とする。
【0020】
放送送出装置3は、デジタル放送用の放送設備であり、番組音声符号化部31、動作条件出力部32、素材音声符号化部33、放送信号生成部34、放送送出部35、及び通信送信部36(送信部)を備えて構成される。
【0021】
番組音声符号化部31は、オーディオ信号である番組音声データを符号化(エンコード)して符号化番組音声データを生成するエンコーダである。本実施形態では、符号化方式(符号化方法)としてMPEG2(Moving Picture Experts Group phase 2)−AAC(Advanced Audio Coding;オーディオの高圧縮率符号化技術)を用いる場合を例に説明するが、他の符号化方式を用いてもよい。番組音声符号化部31は、生成した符号化番組音声データを適切なデータ長に区切って提示時刻情報を設定したヘッダを付加し、放送信号生成部34に出力する。番組音声符号化部31は、動作制御部311、符号化ツール部312−1〜312−m(mは1以上の整数)、及び多重化部313を備えて構成される。以下、符号化ツール部312−1〜312−mを総称して符号化ツール部312と記載する。
【0022】
動作制御部311は、符号化の対象とする周波数帯域など符号化ツール部312の動作設定や、使用可能な符号化ツール部312を示す動作条件を運用設定として記憶している。番組音声符号化部31が符号化を行う際、動作制御部311は、番組音声データが示す周波数特性等に基づいて、運用設定により使用可能と設定されている符号化ツール部312のうちいずれを動作させるかを逐次的に判断する。これは、全ての符号化ツール部312を動作させると音質は向上するものの、符号化処理に負荷がかかってしまうことから、必要な符号化ツール部312のみを動作させるためである。例えば、動作制御部311は、心理聴覚モデル等に基づいて番組音声から次にどのような音がくるかを予測し、大きな音がくることが予測される場合には、大きな音の発生の後に生じるノイズを抑えるために動作させる符号化ツール部312を選択する。動作制御部311は、判断結果に従って各符号化ツール部312を動作させるか否かを指示するとともに、各符号化ツール部312を動作させるか否かの判断結果を示す符号化パラメータを逐次的な動作条件として動作条件出力部32に出力する。
【0023】
符号化ツール部312は、動作設定に従って、動作制御部311の指示により動作する。MPEG2−AACの場合、符号化ツール部312として、例えば、入力音声の利得を制御する符号化ツールを実行するもの、入力音声を周波数成分へ変換する符号化ツールを実行するもの、大きな音が発生した後に生じるノイズを抑える符号化ツールを実行するもの、音声を効率よく符号化する符号化ツールを実行するものなどがある。
多重化部313は、実行が指示された各符号化ツール部312を番組音声データに適用した結果を多重化して符号化番組音声データを生成する。
【0024】
動作条件出力部32は、動作制御部311が記憶する運用設定や、動作制御部311が逐次出力する符号化パラメータを動作条件として素材音声符号化部33に出力する。
【0025】
素材音声符号化部33は、エンコーダであり、素材音声出力部15から出力されたオーディオ信号である素材音声データを符号化し、番組音声符号化部31と同じ符号化方式、及び動作条件により符号化素材音声データを生成する。素材音声符号化部33は、生成した符号化素材音声データを適切なデータ長に区切って提示時刻情報を設定したヘッダを付加し、通信送信部36に出力する。
【0026】
MPEG2−AACなどの不可逆圧縮方式を用いると、音声信号の周波数特性やレベルは逐次的に変化することになる。そのため、例えば、PCM(Pulse Code Modulation;パルス符号変調)など、符号化番組音声データとは異なる符号化方式により符号化素材音声データを生成してしまうと、符号化番組音声データを復号して得られた番組音声に含まれるダイアログ音声と、符号化素材音声データを復号して得られたダイアログ音声との間に特性差が生じてしまう。また、MPEG2−AACによる符号化では人間の聴覚特性を利用し、音声特徴によってマスキングなどの逐次使用する符号化ツールを決めている。そのため、ダイアログ音声の音声特徴から動作させるべき符号化ツールを決めてしまうと、背景音が含まれる番組音声の音声特徴から動作させると判断した符号化ツールと異なってしまう。その結果、番組音声符号化部31、素材音声符号化部33ともにMPEG2−AACを用いた場合でも、符号化番組音声データを復号して得られた番組音声に含まれるダイアログ音声と、符号化素材音声データを復号して得られたダイアログ音声とに特性差が生じてしまう。そこで、素材音声符号化部33は、番組音声符号化部31が番組音声を符号化した際の動作条件を用いてダイアログ音声を符号化し、番組音声中のダイアログ音声が受ける変化と等しい変化をダイアログ音声単独の信号にも与える。
【0027】
素材音声符号化部33は、動作制御部331、符号化ツール部332−1〜332−m、及び多重化部333を備えて構成される。以下、符号化ツール部332−1〜332−mを総称して符号化ツール部332とも記載する。
動作制御部331は、動作条件出力部32から入力される動作条件に従って各符号化ツール部312を動作させるか否かを指示する。符号化ツール部332−1〜332−mはそれぞれ、符号化ツール部312−1〜312−mと同様の処理を行う。符号化ツール部332は、動作条件が示す運用設定に従って、動作制御部331の指示により動作する。多重化部333は、実行が指示された各符号化ツール部332を素材音声データに適用した結果を多重化して符号化素材音声データを生成する。
【0028】
なお、番組音声符号化部31が備える符号化ツール部312と素材音声符号化部33が備える符号化ツール部332とは必ずしも同じでなくともよいが、素材音声符号化部33は、番組音声符号化部31の運用設定で使用可能としている符号化ツール部332を少なくとも備える。
【0029】
放送信号生成部34は、放送番組の映像データを符号化した符号化映像データや番組音声符号化部31から出力された符号化番組音声データなどを含んだ放送信号を生成する。この放送信号は、現用の放送設備によって放送されている従来のデジタル放送の放送信号と同一であり、ARIB(Association of Radio Industries and Broadcast;社団法人電波産業会)標準規格で規定される。放送送出部35は、放送信号生成部34が生成した放送信号を伝送する。通信送信部36は、素材音声符号化部33が生成した符号化素材音声データを、放送送出部35が伝送に使用する放送とは異なる伝送路である通信網を介して受信機5に送信する。
【0030】
受信機5は、テレビ受像機、セットトップボックス、パーソナルコンピュータ、携帯端末等のデバイスである。受信機5は、放送受信部51、分離部52、第1復号部53、通信受信部54(受信部)、第2復号部55、位相調整部56、レベル調整部57、重畳部58、映像再生部59、映像表示部60、音声再生部61、及び音声出力部62を備えて構成される。なお、受信機5がセットトップボックスなどの場合、映像表示部60及び音声出力部62は、受信機5と接続される外部装置とする。
【0031】
放送受信部51は、放送信号を受信するチューナである。分離部52は、デマルチプレクサであり、放送信号から符号化映像データ及び符号化番組音声データを分離する。第1復号部53は、現在時刻に対応した提示時刻情報が付加されている符号化映像データ、及び符号化番組音声データを復号(デコード)し、映像データ及び番組音声データを得る。
【0032】
通信受信部54は、通信網を介した通信によりデータを受信する。通信受信部54は、受信した符号化素材音声データを第2復号部55に出力する。第2復号部55は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、素材音声データを得る。
【0033】
位相調整部56は、番組音声における素材音声の音声レベルを減少させるか増大させるかに応じて、素材音声データの位相を調整する。例えば、番組音声から素材音声を除去したい場合には素材音声データを逆位相化し、素材音声のみ大きくしたい場合には同位相のままとし、位相を変更しない。
【0034】
レベル調整部57は、位相が調整された素材音声データの音声レベルを調整して重畳部58に出力する。重畳部58は、番組音声データと素材音声データとを重畳して音声データを生成する。
【0035】
映像再生部59は、デコードされた映像データを映像表示部60に表示させる。映像表示部60は、一般的なディスプレイであり、放送画面を表示する。音声再生部61は、音声データを音声出力部62から出力させる。音声出力部62は、一般的なスピーカー等であり、音声を出力する。
【0036】
次に、放送音声調整システムの動作について説明する。ここでは、番組音声からダイアログ音声を除去する場合について説明する。
【0037】
まず、放送送出装置3の動作条件出力部32は、番組音声符号化部31の動作制御部311の運用設定が登録または変更されたときに、あるいは所定の時間に、番組音声符号化部31が記憶している現在の運用設定を素材音声符号化部33に出力する。素材音声符号化部33の動作制御部331は、現在の運用設定を、動作条件出力部32から入力された運用設定により更新する。
【0038】
番組音声生成装置1の操作部12は、番組制作者から各素材音声に対する音声レベルの指示を入力する。番組音声生成部13は、素材音声入力部11−1〜11−nから入力された各素材音声データの音声レベルを操作部12による入力に従って調整した後に合成し、番組音声データを生成する。番組音声出力部14が、番組音声データを出力するのとほぼ同時に、素材音声出力部15は、素材音声入力部11−1に入力されたダイアログ音声の素材音声データを出力する。
【0039】
図2は、本実施形態による放送送出装置3の動作フローを示す図である。
放送送出装置3の番組音声符号化部31は、番組音声生成装置1の番組音声出力部14から番組音声データの入力を受ける(ステップS105)。番組音声符号化部31は、入力された番組音声データをエンコードして符号化番組音声データを生成する。具体的には、動作制御部311は、番組音声データが示す音声特徴に基づいて、運用設定により使用が設定されている中から動作させる符号化ツール部312を逐次判断する(ステップS110)。動作制御部311は、判断結果に従って各符号化ツール部312に動作あるいは停止を指示するとともに、各符号化ツール部312を動作あるいは停止させるかの判断結果を示す符号化パラメータを逐次、動作条件出力部32に出力する。動作条件出力部32は、符号化パラメータを素材音声符号化部33に出力する(ステップS115)。
【0040】
動作が指示された符号化ツール部312は、運用設定により予め設定されている動作条件に基づいて、入力された番組音声データに処理を行って次の符号化ツール部312に出力し、停止が指示された符号化ツール部312は、入力された番組音声データをそのまま次の符号化ツール部312に出力する。多重化部313は、動作が指示された各符号化ツール部312を番組音声データに適用した結果を多重化して符号化番組音声データを生成する(ステップS120)。番組音声符号化部31は、符号化番組音声データを適切なデータ長に区切ると、区切ったデータブロック毎に提示時刻情報を設定したヘッダを付加して放送信号生成部34に出力する(ステップS125)。放送信号生成部34は、符号化映像データや符号化番組音声データなどから放送信号を生成し(ステップS130)、放送送出部35は、放送信号生成部34が生成した放送信号を伝送する(ステップS135)。
【0041】
一方、素材音声符号化部33には、番組音声データとほぼ同時に素材音声データが入力される(ステップS205)。素材音声符号化部33は、逐次動作条件出力部32から出力される符号化パラメータの入力を受け(ステップS210)、運用設定及び符号化パラメータに従って素材音声データをエンコードして符号化素材音声データを生成する(ステップS215)。
【0042】
具体的には、動作制御部331は、符号化パラメータが入力されるたびに、その符号化パラメータにより動作対象として示される符号化ツール部332に動作を指示し、停止対象として示される符号化ツール部332に停止を指示する。動作が指示された符号化ツール部332は、運用設定により予め設定されている動作条件に基づいて、入力された素材音声データに処理を行って次の符号化ツール部332に出力し、停止が指示された符号化ツール部332は、入力された素材音声データをそのまま次の符号化ツール部332に出力する。多重化部333は、動作が指示された各符号化ツール部332を素材音声データに適用した結果を多重化して符号化素材音声データを生成する。素材音声符号化部33は、符号化素材音声データを適切なデータ長に区切ると、区切ったデータブロック毎に提示時刻情報を設定したヘッダを付加して通信送信部36に出力する(ステップS220)。通信送信部36は、素材音声符号化部33が生成した符号化素材音声データを、通信網を介して受信機5に送信する(ステップS225)。
【0043】
図3は、本実施形態による受信機5の動作フローを示す図である。
受信機5の放送受信部51は放送信号を受信し、分離部52に出力する(ステップS305)。分離部52は、放送受信部51から入力された放送信号から符号化映像データ及び符号化番組音声データを分離し、第1復号部53に出力する。第1復号部53は、現在時刻に対応した提示時刻情報が付加されている符号化映像データ、及び符号化番組音声データをデコードし、映像データ及び番組音声データを得る(ステップS310)。第1復号部53は、映像データを映像再生部59に出力し、番組音声データを重畳部58に出力する。
【0044】
一方、通信受信部54は、通信網を介して符号化素材音声データを受信し、第2復号部55に出力する(ステップS315)。第2復号部55は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、復号により得られた素材音声データを位相調整部56に出力する(ステップS320)。位相調整部56は、第2復号部55から入力された素材音声データを逆位相に変換する(ステップS325)。
【0045】
番組音声に含まれるダイアログ音声の音声レベルは、番組の制作の過程で時刻とともに変化している。そのため、番組音声から最適にダイアログ音声を除去するためには、時刻とともに適切にダイアログ音声の音声レベルを制御する必要がある。そこで、レベル調整部57は、逆位相に変換された素材音声データの音声レベルを段階的に変えながら重畳部58に出力する(ステップS330)。重畳部58は、第1復号部53から入力された番組音声データと、レベル調整部57から入力された素材音声データそれぞれとを重畳した音声データを生成する(ステップS335)。レベル調整部57は、重畳部58が生成した音声データのパワーを算出する。ダイアログ音声が最もよく除去されたとき、音声のパワーは最も低くなる。そこで、レベル調整部57は、最もパワーが低い音声データとなったときの音声レベルを取得し、その音声レベルに調整した素材音声データを用いて重畳したときの音声データ(以下、「ダイアログ音声除去番組音声データ」と記載する)を出力するよう重畳部58に指示する。重畳部58は、生成したダイアログ音声除去番組音声データを音声再生部61に出力する。
【0046】
なお、音声のレベルは短い時間では急激に変化しないため、レベル調整部57は、一定時間、素材音声データを、取得した音声レベルに調整して重畳部58に出力する。重畳部58は、第1復号部53から入力された番組音声データと、レベル調整部57から入力された素材音声データとを重畳して生成したダイアログ音声除去番組音声データを音声再生部61に出力する。一定時間が経過すると、レベル調整部57は、逆位相に変換された素材音声データの音声レベルを再び段階的に変えながら重畳部58に出力し、番組音声データと重畳したときに最も音声データのパワーが低くなったときの音声レベルを取得し、その音声レベルを一定時間適用することを繰り返す。
【0047】
映像再生部59は、第1復号部53から入力された映像データを映像表示部60に表示させ、音声再生部61は、重畳部58から入力されたダイアログ音声除去番組音声データを音声出力部62から出力させる(ステップS340)。
【0048】
次に、
図1に示す放送音声調整システムを適用した放送通信連携システムについて説明する。放送通信連携システムは、放送音声調整システムと同様にして生成したダイアログ音声を除去した番組音声に、外国語のダイアログ音声や、話速変換したダイアログ音声など視聴者が選択したダイアログ音声を合成する。以下では、放送音声調整システムとの差分について説明する。
【0049】
図4は、
図1に示す放送音声調整システムを適用した放送通信連携システムの構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。同図において、
図1に示す放送音声調整システムと同一の部分には同一の符号を付し、その説明を省略する。同図に示すように、放送通信連携システムは、放送局等の番組音声生成装置1及び放送送出装置3aと、視聴者の受信機5aを備えて構成される。
【0050】
放送送出装置3aが
図1に示す放送送出装置3と異なる点は、配信部37をさらに備える点である。配信部37は、所定の素材音声を除去した番組音声に合成すべき音声データを符号化した符号化音声データを、通信網を経由して受信機5aに送信する。以下、所定の素材音声を除去した番組音声に合成すべき音声データをパーソナライズ音声データと記載し、パーソナライズ音声データの符号化音声データを符号化パーソナライズ音声データと記載する。パーソナライズ音声データは、例えば、外国語のダイアログ音声や、話速変換したダイアログ音声などの音声データである。なお、符号化パーソナライズ音声データは、符号化番組音声データとは異なる符号化方式で生成してもよい。また、配信部37を放送局または放送局以外の事業者のサーバが備えるように構成してもよい。
【0051】
受信機5aが
図1に示す受信機5と異なる点は、通信受信部54に代えて通信受信部54a(受信部)を備える点、第3復号部63及び音声合成部64をさらに備える点である。通信受信部54aは、通信網を経由して符号化素材音声データ及び符号化パーソナライズ音声データを受信し、符号化素材音声データを第2復号部55に出力し、符号化パーソナライズ音声データを第3復号部63に出力する。第3復号部63は、符号化パーソナライズ音声データを復号して得たパーソナライズ音声データを音声合成部64に出力する。音声合成部64は、重畳部58から出力されたダイアログ音声除去番組音声データと、第3復号部63から出力されたパーソナライズ音声データを合成して音声再生部61に出力する
【0052】
続いて、放送通信連携システムの動作を説明する。
放送送出装置3aは、
図2に示す放送音声調整システムの放送送出装置3と同様の処理を行う。さらに、放送送出装置3aの配信部37は、符号化パーソナライズ音声データを、通信網を経由して受信機5aに送信する。
【0053】
図5は、受信機5aの処理フローを示す図である。同図において、
図3に示す受信機5の処理と同一の処理には同一の符号を付し、その詳細な説明を省略する。
受信機5aは、受信機5と同様に、放送信号を受信して符号化映像データ及び符号化番組音声データを分離し、提示時刻情報に基づいて符号化映像データ、及び符号化番組音声データをデコードして映像データ及び番組音声データを得る(ステップS305〜S310)。
【0054】
一方、通信受信部54は、通信網を介して受信した符号化素材音声データを第2復号部55に出力し、符号化パーソナライズ音声データを第3復号部63に出力する(ステップS315a)。第2復号部55は、現在時刻に対応した提示時刻情報が付加されている符号化素材音声データを復号し、位相調整部56に出力する。第3復号部63は、現在時刻に対応した提示時刻情報が付加されている符号化パーソナライズ音声データを復号し、音声合成部64に出力する(ステップS320a)。位相調整部56は、素材音声データを逆位相に変換し(ステップS325)、レベル調整部57は、逆位相に変換された素材音声データの音声レベルを調整して重畳部58に出力する(ステップS330)。
【0055】
重畳部58は、第1復号部53から入力された番組音声データと、レベル調整部57から入力された素材音声データを重畳してダイアログ音声除去番組音声データを生成し、音声合成部64に出力する(ステップS335)。音声合成部64は、重畳部58から出力されたダイアログ音声除去番組音声データと、第3復号部63から出力されたパーソナライズ音声データを合成し、合成された音声データを音声再生部61に出力する(ステップS337)。映像再生部59は、第1復号部53から入力された映像データを映像表示部60に表示させ、音声再生部61は、音声合成部64から入力された音声データを音声出力部62から出力させる(ステップS340)。
【0056】
なお、通信で伝送するパーソナライズ音声データの種類や数には制限はなく、受信機5側で視聴者が必要とするパーソナライズ音声データを選択することができる。
【0057】
なお、背景音の音声レベルがダイアログ音声の音声レベルよりも低く、番組音声とダイアログ音声の音声特徴に大きな差がない場合、番組音声から判断される符号化ツールの動作条件と、ダイアログ音声から判断される符号化ツールの動作条件はほぼ一致する。従って、このような場合、動作制御部331は、素材音声データが示す音声特徴に基づいて、動作条件出力部32から受信した運用設定により使用が設定されている中から動作させる符号化ツール部332を逐次判断してもよい。
【0058】
上記実施形態によれば、放送音声調整システムは、放送された番組音声からダイアログ音声など特定の素材音声の音を除去し、例えば背景音だけの番組音声を生成することができる。よって、放送音声調整システムは、視聴者が選択した種類のダイアログ音声を背景音だけの番組音声と合成できるようにし、視聴者にとって便利かつ聞きやすい番組音声を高い自由度で提供することが可能になる。例えば、従来の二ヶ国語放送では、外国語音声を重畳する度に番組音声の音声レベルを全て下げる必要があり聴取上不自然であったが、上記実施形態の放送音声調整システムを適用した放送通信連携システムを用いることで、背景音のレベル変動のない外国語放送が可能になる。また、放送音声調整システムは、ダイアログ音声など特定の素材音声のみの音声レベルを上げた番組音声を生成することもできる。
【0059】
上述した番組音声生成装置1、放送送出装置3、3a、受信機5、5aの各部は、専用のハードウェアにより実現される。なお、放送送出装置3、3aの番組音声符号化部31、動作条件出力部32、素材音声符号化部33、及び放送信号生成部34、放送送出装置3aの配信部37、受信機5、5aの第1復号部53、第2復号部55、位相調整部56、レベル調整部57、重畳部58、映像再生部59、及び音声再生部61、ならびに受信機5aの第3復号部63、及び音声合成部64は、コンピュータ装置で実現することもできる。この場合、放送送出装置3、3aの番組音声符号化部31、動作条件出力部32、素材音声符号化部33、及び放送信号生成部34、放送送出装置3aの配信部37、受信機5、5aの第1復号部53、第2復号部55、位相調整部56、レベル調整部57、重畳部58、映像再生部59、及び音声再生部61、ならびに受信機5aの第3復号部63、及び音声合成部64は、メモリおよびCPU(中央処理装置)等により構成され、上述した処理過程を実現するためのプログラム(図示せず)を、これを記録している不揮発性のメモリ、磁気ディスク等から、上記メモリにロードして実行することによりその機能が実現されるものとする。