(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-09
(45)【発行日】2024-07-18
(54)【発明の名称】無音区間検出装置および無音区間検出方法
(51)【国際特許分類】
G10L 25/78 20130101AFI20240710BHJP
【FI】
G10L25/78
(21)【出願番号】P 2020120453
(22)【出願日】2020-07-14
【審査請求日】2023-03-22
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100147304
【氏名又は名称】井上 知哉
(72)【発明者】
【氏名】冨森 康之
【審査官】中村 天真
(56)【参考文献】
【文献】特開2010-074823(JP,A)
【文献】特開2007-282164(JP,A)
【文献】特開2011-023965(JP,A)
【文献】特開2002-271391(JP,A)
【文献】特開平06-181560(JP,A)
【文献】国際公開第2007/013407(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
G11B 20/10-20/16
27/00-27/06
H04N 5/76- 5/956
7/10- 7/56
21/00-21/858
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声データが圧縮された圧縮音声データを取得する取得部と、
前記取得部により取得された前記圧縮音声データから
パディングデータを除去する除去部と、
前記
パディングデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、
前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、
を備える無音区間検出装置。
【請求項2】
前記検出部は、前記所定の時間ごとのデータ量のうち、データ量が閾値以下の区間を無音区間として検出する請求項
1に記載の無音区間検出装置。
【請求項3】
音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得する取得部と、
前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出する先頭検出部と、
前記PESパケットの先頭が含まれるTSパケットに含まれる
パディングデータを検出するパディングデータ検出部と、
前記パディングデータ検出部による前記
パディングデータの検出結果に基づいて、前記音声データの無音区間を検出する無音区間検出部と、
を備える無音区間検出装置。
【請求項4】
前記圧縮音声データは、コマーシャルを含むテレビジョン放送の圧縮された音声データであり、
請求項1から
3のいずれか1項に記載の無音区間検出装置と、
前記無音区間検出装置により検出された複数の無音区間の間の時間間隔に基づいて、前記テレビジョン放送の前記コマーシャルの区間を検出するCM区間検出部と、
を備えるCM検出装置。
【請求項5】
音声データが圧縮された圧縮音声データを取得し、
前記圧縮音声データから
パディングデータを除去し、
前記
パディングデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出し、
前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、
処理を備える無音区間検出方法。
【請求項6】
音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得し、
前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出し、
前記PESパケットの先頭が含まれるTSパケットに含まれる
パディングデータを検出し、
前記
パディングデータの検出結果に基づいて、前記音声データの無音区間を検出する、
処理を備える無音区間検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無音区間検出装置および無音区間検出方法に関する。
【背景技術】
【0002】
コンテンツの音声信号の出力に基づいて無音区間を検出するとともに、該無音区間の開始位置あるいは終了位置を検出する映像再生装置が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術において、映像再生装置は、テレビジョン(テレビ)放送等の圧縮音声データを音声デコーダにより復号した音声信号の無音区間から、コマーシャル(Commercial Message(CM))を検出している。そのため、例えば、映像再生装置に音声デコーダが1つしかなく、当該音声デコーダをテレビ放送以外の別のコンテンツを再生するために使用している場合など、音声デコーダが不足している場合は、復号したテレビ放送の音声信号が得られないため、無音区間を検出することができない。それにより、従来、音声デコーダが不足している場合は、テレビ放送のCMの検出を行うことができないという問題がある。
【0005】
本発明の一態様は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを取得する取得部と、前記取得部により取得された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
【0007】
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを取得する取得部と、前記取得部により取得された前記圧縮音声データから特定パターンのデータを除去する除去部と、前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出する算出部と、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
【0008】
本発明の一態様に係る無音区間検出装置は、音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得する取得部と、前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出する先頭検出部と、前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出するパディングデータ検出部と、前記パディングデータ検出部による前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する検出部と、を備える。
【0009】
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを取得し、前記圧縮音声データの所定の時間ごとのデータ量を算出し、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、処理を備える。
【0010】
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを取得し、前記圧縮音声データから特定パターンのデータを除去し、前記特定パターンのデータが除去された前記圧縮音声データの所定の時間ごとのデータ量を算出し、前記所定の時間ごとのデータ量に基づいて、前記音声データの無音区間を検出する、処理を備える。
【0011】
本発明の一態様に係る無音区間検出方法は、音声データが圧縮された圧縮音声データを含むPESパケットが分割されて格納された複数のTSパケットを取得し、前記複数のTSパケットのうち前記PESパケットの先頭が含まれるTSパケットを検出し、前記PESパケットの先頭が含まれるTSパケットに含まれる特定パターンのデータを検出し、前記特定パターンのデータの検出結果に基づいて、前記音声データの無音区間を検出する、処理を備える。
【図面の簡単な説明】
【0012】
【
図1】第1の実施の形態に係るCM検出装置の構成図の一例である。
【
図2】実施の形態に係るCM区間の検出を説明する図である。
【
図3】第1の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。
【
図4】第2の実施の形態に係るCM検出装置の構成図の一例である。
【
図5】第2の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。
【
図6】第3の実施の形態に係るCM検出装置の構成図の一例である。
【
図7】第3の実施の形態に係る無音区間検出装置の処理の一例を示す図である。
【
図8】第4の実施の形態に係るCM検出装置の構成図の一例である。
【
図9】第5の実施の形態に係るCM検出装置の構成図の一例である。
【発明を実施するための形態】
【0013】
以下、実施の形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
【0014】
(第1の実施の形態)
図1は、第1の実施の形態に係るCM検出装置の構成図の一例である。
【0015】
CM検出装置101は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置141、CM区間検出部151、および記憶部161を有する。CM検出装置101は、例えば、テレビ受像機、映像録画装置、またはPC(Personal Computer)等のコンピュータである。
【0016】
放送受信部111は、アンテナ(不図示)で受信したテレビ放送(例えば、地上デジタルテレビ放送)の信号を復調し、スクランブルされたMPEG-2 TS(Moving Picture Experts Group phase 2 Transport Stream)のTSパケットをデスクランブル部121に出力する。尚、テレビ放送がスクランブル放送でない場合、放送受信部111は、復調により得られたTSパケットをデマックス部131に出力してもよい。また、テレビ放送は、コンテンツの本編の間にCMが挟まれて放送されている。放送受信部111は、例えば、チューナーである。
【0017】
デスクランブル部121は、スクランブルされたTSパケットのデスクランブル処理を行い、デスクランブルされたTSパケットをデマックス部131に出力する。尚、TSパケットには、テレビ放送の映像データが圧縮符号化された圧縮映像データを含む映像パケット、またはテレビ放送の音声データが圧縮符号化された圧縮音声データを含む音声パケットなどが含まれる。
【0018】
デマックス部131は、TSパケットを映像パケットと音声パケットに分離し、映像パケットおよび音声パケットを記憶部161に出力し、映像パケットおよび音声パケットを記憶部161に記憶する。さらに、デマックス部131は、音声パケットを無音区間検出装置141に出力する。
【0019】
無音区間検出装置141は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間情報は、例えば、無音区間の終了時間、または無音区間の開始時間および終了時間であってもよい。尚、無音区間検出装置141の詳細については後述する。
【0020】
CM区間検出部151は、複数の無音区間それぞれの複数の無音区間情報に基づいて、1以上のCMが連続して存在する区間(CM区間)を検出し、検出したCM区間を示すCM区間情報を記憶部161に記憶する。CM区間情報は、例えば、1以上のCMが連続して存在する区間の開始時間と終了時間である。
【0021】
記憶部161は、CM検出装置101で利用されるデータやプログラム等を記憶する記憶装置である。記憶部161は、例えば、HDD(Hard Disk Drive)またはフラッシュメモリ等である。記憶部161は、デマックス部131から入力される映像パケットおよび音声パケットを記憶する。また、記憶部161は、1以上のCMが連続して存在する区間を示すCM区間情報を記憶する。
【0022】
ここで、CM区間の検出について
図2を用いて説明する。
【0023】
図2は、実施の形態に係るCM区間の検出を説明する図である。
【0024】
図2は、テレビ放送のコンテンツの時間的な構成を示し、コンテンツ本編の間にそれぞれ15秒のCMが3つ放送されている態様を示す。また、
図2において、無音区間を示す無音区間情報の時間を黒丸(●)で示す。
【0025】
通常、テレビ放送のCMでは、CMの開始部分と終了部分それぞれにおいて、0.5秒の音声がない無音区間が存在する。これは、広告会社などからテレビ社にCM素材が搬入される際の留意事項が記載された「テレビCM素材搬入基準」に基づいている。
【0026】
図2において、本編の間の最初のCMの開始部分と終了部分、2番目のCMの終了部分、および3番目のCMの終了部分で無音区間が検出される。尚、2番目のCMの開始部分は、最初のCMの終了部分と連続しているため、2番目のCMの開始部分に相当する無音区間は、最初のCMの終了部分に相当する無音区間とまとめて検出されている。3番目のCMの開始部分に相当する無音区間についても同様である。
【0027】
一般的に、1つのCMの長さは、例えば15秒または30秒のように、15秒の所定の整数倍(例えば、1~6倍)となっている。すなわち、一般的に、1つCMの長さは、例えば、15秒、30秒、45秒、60秒、75秒、または90秒となっている。上記の所定の整数は一例であり、90秒よりも長いCMがある場合には、適宜変更してもよい。
【0028】
CM区間検出部151は、無音区間検出装置141により検出された第1の無音区間と、第1の無音区間に次に検出された第2無音区間との間の時間間隔が15秒の所定の整数倍である所定の秒数(例えば、15秒、30秒、45秒、60秒、75秒、または90秒)となっているか判定し、時間間隔が所定の秒数となっている場合、第1の無音区間と第2の無音区間との間の区間はCMであると判定する。具体的には、例えば、
図2において、時間t1の第1の無音区間と時間t2の第2の無音区間との間の区間(第1区間)、時間t2の第2の無音区間と時間t3の第3の無音区間との間の区間(第2区間)、および時間t3の第3の無音区間と時間t4の第4の無音区間との間の区間(第3区間)はそれぞれCMと判定される。
【0029】
そして、CM区間検出部151は、1以上の連続してCMと判定された区間をCM区間として検出し、CMが放送されている区間であるCM区間を示すCM区間情報を出力し、記憶部161に記憶する。CM区間情報は、例えば、CM区間の最初の無音区間の時間と最後の無音区間の時間である。具体的には、例えば、
図2において、連続する第1区間~第3区間はそれぞれCMと判定されているので、CM区間検出部151は、第1区間~第3区間をCM区間として検出し、CM区間を示す時間t1と時間t4をCM区間情報として出力し、記憶部161に記憶する。
【0030】
次に、無音区間検出装置141の処理の詳細について
図1および
図3を用いて説明する。
【0031】
無音区間検出装置141は、圧縮音声データ取得部142、データ量算出部143、および無音区間検出部144を有する。
【0032】
圧縮音声データ取得部142は、デマックス部131から音声パケットを受信し、音声パケットに含まれる圧縮音声データを取得する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
【0033】
データ量算出部143は、取得した圧縮音声データの所定時間(例えば、数十ミリ秒~数百ミリ秒)毎の所定時間当たりのデータ量を算出する。所定時間毎の所定時間当たりのデータ量をグラフで示すと、例えば、
図3に示すようなグラフが得られる。
【0034】
図3は、第1の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。
図3において、縦軸はデータ量、横軸は圧縮音声データの再生時間を示し、データ量は、所定時間毎の所定時間当たりの圧縮音声データのデータ量である。例えば、地上デジタル放送では、圧縮音声データは、適当な塊に区切られて、PESパケットに格納され、PESパケットは分割されて複数のTSパケットに格納されて送信される。圧縮音声データの再生時間は、例えば、PESパケットに含まれる受信側での再生時刻を示すPTS(Presentation Time Stamp)から得られる。
【0035】
音声データの圧縮符号化の際に、無音区間は圧縮率が高くなり、圧縮符号化後の無音区間に相当する圧縮音声データはデータ量が小さくなる。無音区間検出部144は、下記のように、データ量に基づいて無音区間を検出する。
【0036】
無音区間検出部144は、算出した所定時間当たりのデータ量に基づいて、無音区間を検出する。具体的には、例えば、無音区間検出部144は、算出した所定時間当たりのデータ量を閾値と比較し、データ量が閾値以下の区間(時間)を無音として判定し、無音区間として検出する。尚、閾値は、予め定められており、例えば、CM検出装置101のメモリ(不図示)に記憶されている。閾値は、例えば、所定時間が20ミリ秒の場合50バイト、または所定時間が400ミリ秒の場合1000バイト等である。
【0037】
例えば、
図3において、時間t11におけるデータ量(すなわち、時間t11から所定時間後までのデータ量)は、閾値よりも小さいので、時間t11は無音と判定される。同様に、時間t11から所定時間後の次の区間も無音と判定され、さらに所定時間経過後の時間t12の区間も無音と判定され、無音区間として検出される。同様に、
図3において、時間t21から時間t22のそれぞれの区間も無音と判定され無音区間として検出される。
【0038】
無音区間検出部144は、検出した無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間が連続する場合は、連続する無音区間の最初の無音区間の時間(時刻)を無音区間情報とする。
【0039】
例えば、
図3において、無音区間検出部144は、時間t11と時間t21を無音区間情報としてCM区間検出部151に出力する。
【0040】
無音区間検出装置141は、圧縮音声データの所定時間当たりのデータ量から無音区間を算出している。このように無音区間検出装置141は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を算出している。
【0041】
第1の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。
【0042】
(第2の実施の形態)
図4は、第2の実施の形態に係るCM検出装置の構成図の一例である。
【0043】
CM検出装置201は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置241、CM区間検出部151、および記憶部161を有する。CM検出装置201は、例えば、テレビ受像機、映像録画装置、またはPC等のコンピュータである。
【0044】
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。
【0045】
次に、無音区間検出装置241の処理の詳細について
図4および
図5を用いて説明する。
【0046】
無音区間検出装置241は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。
【0047】
無音区間検出装置241は、圧縮データ取得部242、パディングデータ除去部243、データ量算出部244、無音区間検出部245を有する。
【0048】
圧縮音声データ取得部242は、デマックス部131から音声パケットを受信し、音声パケットに含まれる圧縮音声データを取得する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
【0049】
ここで、パディングデータについて説明する。パディングデータは、意味を持たないデータであり、無意味なことを示す特定のパターンのデータである。音声データを固定ビットレートで圧縮符号化する際に、圧縮された音声データ(圧縮音声データ)のサイズが小さく、圧縮音声データのビットレートが目標ビットレートに満たない場合、ビットレートが目標ビットレートになるように意味を持たないデータ(パディングデータ)が付加される。よって、圧縮音声データ取得部142が取得した圧縮音声データには、パディングデータが含まれている場合がある。
【0050】
パディングデータ除去部243は、圧縮音声データからパディングデータである特定のパターンを検出し、圧縮音声データからパディングデータを除去する。
【0051】
データ量算出部244は、パディングデータが除去された圧縮音声データの所定時間(例えば、数十ミリ秒~数百ミリ秒)毎の所定時間当たりのデータ量を算出する。所定時間毎の所定時間当たりのデータ量をグラフで示すと、例えば、
図5に示すようなグラフが得られる。
【0052】
図5は、第2の実施の形態に係る圧縮音声データのデータ量のグラフの一例である。
図5において、縦軸はデータ量、横軸は圧縮音声データの再生時間を示し、黒色で示される各データ量は、パディングデータが除去された圧縮音声データの所定時間毎の所定時間当たりのデータ量である。また、
図5において、参考として、パディングデータの所定時間毎の所定時間当たりのデータ量を斜線で示す。
【0053】
無音区間検出部245は、算出した所定時間当たりのデータ量を閾値と比較し、所定時間当たりのデータ量が閾値以下である区間を無音区間と判定し、検出する。尚、閾値は、予め定められており、例えば、CM検出装置101のメモリ(不図示)に記憶されている。閾値は、例えば、所定時間が20ミリ秒の場合50バイト、または所定時間が400ミリ秒の場合1000バイト等である。
【0054】
例えば、
図5において、時間t11におけるパディングデータが除去された圧縮音声データのデータ量(すなわち、時間t11から所定時間後までのデータ量)は、閾値よりも小さいので、時間t11は無音と判定される。同様に、時間t11から所定時間後の次の区間も無音と判定され、さらに所定時間経過後の時間t12の区間も無音と判定され、無音区間として検出される。同様に、
図5において、時間t21から時間t22のそれぞれの区間も無音と判定され無音区間として検出される。
【0055】
無音区間検出部245は、検出した無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間情報は、例えば、無音区間の開始時間である。また、無音区間が連続する場合は、連続する無音区間の最初の無音区間の時間(時刻)を無音区間情報とする。
【0056】
例えば、
図5において、無音区間検出部245は、時間t11と時間t21を無音区間情報としてCM区間検出部151に出力する。
【0057】
図5に示すように、音声データが固定ビットレートで圧縮されている場合は、単位時間当たりのパディングデータとパディングデータが除去された圧縮音声データの合計のデータ量は一定となる。
【0058】
パディングデータを除去しない場合、音声データが固定ビットレートで圧縮符号化されていると、所定時間当たりのデータ量は一定であるため、無音区間を検出することができない。第2の実施の形態の無音区間検出装置241は、パディングデータを除去することで、無音区間のデータ量が小さくなるため、無音区間を検出することができる。
【0059】
無音区間検出装置241は、パディングデータを除去した圧縮音声データの所定時間当たりのデータ量から無音区間を算出している。このように無音区間検出装置241は、音声デコーダによる復号後の音声信号を用いることなく、無音区間を算出している。
【0060】
第2の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。また、第2の実施の形態のCM検出装置によれば、固定ビットレートで圧縮符号化されている場合、すなわち圧縮音声データにパディングデータが付加されている場合でも、無音区間を検出することができる。
【0061】
(第3の実施の形態)
図6は、第3の実施の形態に係るCM検出装置の構成図の一例である。
【0062】
CM検出装置301は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置341、CM区間検出部151、および記憶部161を有する。CM検出装置301は、例えば、テレビ受像機、映像録画装置、またはPC等のコンピュータである。
【0063】
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。
【0064】
ここで、地上デジタル放送で用いられているパケットの形式について簡単に説明する。
【0065】
地上デジタル放送で用いられているMPEG-2 TS(Moving Picture Experts Group phase 2 Transport Stream)の規格におけるTSパケットは、TSパケットヘッダと、ペイロードから構成される。TSパケットヘッダは、当該TSパケットに関する様々な制御情報を含む。ペイロードは、圧縮された映像データや圧縮された音声データを含むPES(Packetized Elementary Stream)パケット、各種サービス情報等を含むセクションデータ、時間情報を含むアダプテーションフィールド等を有する。
【0066】
圧縮音声データは、適当な塊に区切られて、PESパケットに格納される。そして、PESパケットは分割され、複数のTSパケットに格納される。TSパケットのTSパケットヘッダは、PESパケットの先頭が含まれるか否かを示すペイロードユニットスタートインジケータを含む。PESパケットの先頭が含まれるTSパケットのペイロードユニットスタートインジケータの値は「1」に設定される。
【0067】
次に、無音区間検出装置341の処理の詳細について
図6および
図7を用いて説明する。
【0068】
図7は、第3の実施の形態に係る無音区間検出装置の処理の一例を示す図である。
【0069】
無音区間検出装置341は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。
【0070】
無音区間検出装置341は、圧縮データ取得部342、ユニットスタートインジケータ検出部343、パディングデータ検出部344、無音区間検出部345を有する。
【0071】
圧縮音声データ取得部342は、デマックス部131から圧縮音声データが含まれるTSパケット(音声パケット)を受信する。それにより、圧縮音声データ取得部342は、圧縮音声データを取得する。圧縮音声データ取得部342は、受信したTSパケットをユニットスタートインジケータ検出部343に出力する。圧縮音声データの形式は、例えば、MPEG-2 AACである。
【0072】
例えば、
図7に示すように、圧縮音声データ取得部342は、TSパケット711~713、721~723を受信し、ユニットスタートインジケータ検出部343に出力する。TSパケット711~713、721~723は、それぞれTSパケットヘッダおよびペイロードとして分割されたPESパケットを含む。TSパケット711~713は、圧縮音声データが格納されたPESパケット#1が分割されたPESパケット#1-1~#1-3をそれぞれ含む。TSパケット721~723は、圧縮音声データが格納されたPESパケット#2が分割されたPESパケット#2-1~#2-3をそれぞれ含む。PESパケット#1-1は、PESパケット#1の先頭を含み、PESパケット#2-1は、PESパケット#2の先頭を含む。よって、TSパケット711,721それぞれのペイロードユニットスタートインジケータの値は「1」である。
【0073】
ユニットスタートインジケータ検出部(先頭検出部)343は、PESパケットの先頭を含むTSパケットを検出する。具体的には、ユニットスタートインジケータ検出部343は、TSパケットのペイロードユニットスタートインジケータの値が1であるTSパケットを検出する。そして、ユニットスタートインジケータ検出部343は、検出したPESパケットの先頭を含むTSパケットをパディングデータ検出部344に出力する。
【0074】
例えば、
図7に示すように、ユニットスタートインジケータ検出部343は、TSパケット711~713、721~723のうち、PESパケットの先頭を含むTSパケットを検出する。具体的には、TSパケット711~713、721~723のうち、ペイロードユニットスタートインジケータの値が1であるTSパケットを検出する。上述のように、TSパケット711,721それぞれのペイロードユニットスタートインジケータの値は「1」であるので、TSパケット711,721が検出される。
【0075】
パディングデータ検出部344は、TSパケットに含まれるPESパケットの所定位置(例えば、PESパケットの先頭から50バイトの位置)にパディングデータである特定のパターンがあるか否か検出し、特定のパターンを検出したか否かを示す検出結果を無音区間検出部345に出力する。さらに、パディングデータ検出部344は、特定のパターンを検出した場合、当該特定のパターンを検出したPESパケットの再生時刻(例えば、PESパケットのヘッダに含まれる再生時刻の情報であるPTS(Presentation Time Stamp))を無音区間検出部345に出力する。
【0076】
例えば、
図7は、PESパケット#1-1、#2-1がパディングデータ(特定のパターン)を含んでいる場合を示し、パディングデータ検出部344は、TSパケット711,721に対して特定のパターンを検出したことを示す検出結果とPESパケット#1、#2の再生時刻を無音区間検出部345に出力する。
【0077】
無音区間検出部345は、パディングデータ検出部344による検出結果に基づいて、無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。具体的には、例えば、無音区間検出部345は、特定のパターンを検出したことを示す検出結果を一定回数連続して受信した場合、無音と判定し、連続した特定のパターンを検出したことを示す検出結果のうちの最初の検出結果に対応するPESパケットの再生時刻から、連続した特定のパターンを検出したことを示す検出結果のうちの最後の検出結果に対応するPESパケットの再生時刻までを無音区間として検出する。
【0078】
無音区間検出部345は、例えば、連続した特定のパターンを検出したことを示す検出結果のうちの最初の検出結果に対応するPESパケットの再生時刻を無音区間情報として出力する。
【0079】
現行の地上デジタル放送では、圧縮音声データが格納される音声PESパケットは1パケットのサイズが100~1000バイト程度で、約20ミリ秒に1回の頻度で送出されている。
【0080】
上述のように音声PESパケットは188バイトのTSパケットに格納されて伝送される。1つのPESパケットは、例えば、1~6個程度のTSパケットに分割される。
【0081】
無音区間の音声PESパケットでは音声圧縮データは数十バイトであり、残りはパディングデータである。よって、分割されたPESパケットの先頭部分(例えば先頭から50バイトの位置)のパディングデータの有無を検出するだけで無音検出が可能である。例えば、CMの開始部分と終了部分それぞれの無音区間が500ミリ秒とすると、約20回連続でPESパケットのパディングデータが検出される。
【0082】
第3の実施の形態のCM検出装置によれば、先頭のPESパケットが含まれるTSパケットの指定位置のパディングデータの有無を検出するだけで無音区間を検出できるので、簡易な演算で無音区間を検出でき、無音区間検出装置の負荷が軽減される。
【0083】
(第4の実施の形態)
次に、2つのチャンネルを同時に録画しながら、当該2つのチャンネルのうちの1つのチャンネルを視聴する第4の実施形態について説明する。
【0084】
図8は、第4の実施の形態に係るCM検出装置の構成図の一例である。
【0085】
CM検出装置401は、放送受信部111-i(i=1,2)、デスクランブル部121-i、デマックス部131-i、無音区間検出装置441-i、CM区間検出部151-i、記憶部161、ビデオデコーダ171、および音声デコーダ181を有する。
【0086】
放送受信部111-i、デスクランブル部121-i、デマックス部131-i、CM区間検出部151-i、および記憶部161のそれぞれの機能は、第1の実施の形態で説明した放送受信部111、デスクランブル部121、デマックス部131は、CM区間検出部151、および記憶部161のそれぞれの機能と同様であるため、説明は省略する。また、放送受信部111-1と放送受信部111-2は、互いに異なるチャンネルのテレビ放送を受信する。例えば、放送受信部111-1は、第1のチャンネルのテレビ放送を受信し、放送受信部111-2は、第2のチャンネルのテレビ放送を受信する。
【0087】
デマックス部131-1は、さらに映像パケットをビデオデコーダ171に出力し、音声パケットを音声デコーダ181に出力する。
【0088】
無音区間検出装置441-iは、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151―iに出力する。無音区間検出装置441-iは、例えば、第1~3の実施の形態の無音区間検出装置141、241、341のいずれかと同様の機能および構成を有する。
【0089】
音声デコーダ171は、音声パケットに含まれる圧縮音声データを復号し、復号された音声データ(音声信号)をスピーカー等の音声出力部(不図示)に出力する。それにより、放送受信部111-1で受信された第1のチャンネルのテレビ放送の音声が出力される。
【0090】
ビデオデコーダ171は、映像パケットに含まれる圧縮映像データを復号し、復号された映像データ(映像信号)をディスプレイ等の表示装置(不図示)に出力する。それにより、放送受信部111-1で受信された第1のチャンネルのテレビ放送の映像が表示される。
【0091】
CM検出装置401は、第1のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ記憶部161に記憶しながら、第1のチャンネルのテレビ放送の映像パケットと音声パケットをビデオデコーダ171および音声デコーダ181でそれぞれ復号し、同時に第2のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ記憶部161に記憶している。すなわち、ユーザは、2つのチャンネルのテレビ放送を同時に録画しながら、同時に当該2つのチャンネルのうちの1つのチャンネルのテレビ放送を視聴することができる。
【0092】
第4の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。それにより、音声デコーダが1つしかない場合でも、第1のチャンネルのテレビ放送を音声デコーダを用いて出力しながら、同時に第1のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ録画し、さらに第2のチャンネルのテレビ放送のCM区間を無音区間に基づいて検出しつつ録画することができる。
【0093】
(第5の実施の形態)
次に、テレビ放送のCM区間を検出しつつ録画しながら、当該録画しているテレビ放送以外の録画済みのコンテンツを同時に再生視聴する第5の実施形態について説明する。
【0094】
図9は、第5の実施の形態に係るCM検出装置の構成図の一例である。
【0095】
CM検出装置501は、放送受信部111、デスクランブル部121、デマックス部131、無音区間検出装置541、CM区間検出部151、記憶部161、ビデオデコーダ171、音声デコーダ181、および再生制御部191を有する。
【0096】
放送受信部111、デスクランブル部121、デマックス部131、CM区間検出部151、および記憶部161の機能は、第1の実施の形態で説明したものと同様であるため、説明は省略する。ビデオデコーダ171および音声デコーダ181は、第4の実施の形態で説明したものと同様であるため、説明は省略する。
【0097】
無音区間検出装置541は、音声パケットに含まれる圧縮音声データに基づいて、テレビ放送の無音である無音区間を検出し、無音区間を示す無音区間情報をCM区間検出部151に出力する。無音区間検出装置541は、例えば、第1~3の実施の形態の無音区間検出装置141、241、341のいずれかと同様の機能および構成を有する。
【0098】
再生制御部191は、記憶部191から録画済みのコンテンツ(例えば、以前に録画したテレビ放送の番組)を読み出し、再生する。具体的には、再生制御部191は、記憶部191に記憶(録画)されているコンテンツの映像パケットと音声パケットを読み出し、映像パケットをビデオデコーダ171に出力し、音声パケットを音声デコーダ181に出力する。尚、再生制御部191が読み出すコンテンツは、放送受信部111でテレビ放送を受信中である場合、当該受信中であり記憶部161に録画中のテレビ放送(コンテンツ)とは異なるコンテンツである。
【0099】
また、再生制御部191は、記憶部191から録画済みのコンテンツに対応付けられたCM区間情報を読み出し、録画済みのコンテンツの再生時に、ユーザの指示または予め設定された再生時の動作設定情報に従って、CM区間情報で示されるCM区間をスキップするように、コンテンツを再生してもよい。
【0100】
第5の実施の形態のCM検出装置によれば、音声デコーダによる復号後の音声信号を用いることなく、無音区間を検出することができ、CM区間を検出することができる。それにより、音声デコーダが1つしかない場合でも、録画済みのコンテンツを音声デコーダを用いて再生しながら、同時にテレビ放送のCM区間を無音区間に基づいて検出しつつ録画することができる。
【0101】
(ソフトウェアによる実現例)
CM検出装置101、201、301、401、501の制御ブロック(特に、デスクランブル部121、デマックス部131、無音区間検出装置141、241、341、441、541、CM区間検出部151、ビデオデコーダ171、音声デコーダ181、および再生制御部191)は、集積回路(IC(Integrated Circuit)チップ)等に形成された論理回路(ハードウェア)によって実現可能であり、またCPU(Central Processing Unit)等のプロセッサを用いてソフトウェアによって実現してもよい。後者の場合、例えば、コンピュータであるCM検出装置101、201、301、401、501は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROMまたは記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、デスクランブル部121、デマックス部131、無音区間検出装置141、241、341、441、541、CM区間検出部151、ビデオデコーダ171、音声デコーダ181、および再生制御部191として動作し、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、伝送可能な任意の伝送媒体を介して上記コンピュータに供給されてよい。
【0102】
なお、本発明は、上述した実施の形態に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
【符号の説明】
【0103】
101,201,301,401,501 CM検出装置
111 放送受信部
121 デスクランブル部
131 デマックス部
141,241,341,441,541 無音区間検出装置
151 CM区間検出部
161 記憶部
171 ビデオデコーダ
181 音声デコーダ
191 再生制御部