特許第6369331号(P6369331)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許6369331音声処理装置および方法、並びにプログラム
<>
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000002
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000003
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000004
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000005
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000006
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000007
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000008
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000009
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000010
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000011
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000012
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000013
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000014
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000015
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000016
  • 特許6369331-音声処理装置および方法、並びにプログラム 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6369331
(24)【登録日】2018年7月20日
(45)【発行日】2018年8月8日
(54)【発明の名称】音声処理装置および方法、並びにプログラム
(51)【国際特許分類】
   H04S 5/02 20060101AFI20180730BHJP
【FI】
   H04S5/02
【請求項の数】11
【全頁数】28
(21)【出願番号】特願2014-553072(P2014-553072)
(86)(22)【出願日】2013年12月5日
(86)【国際出願番号】JP2013082692
(87)【国際公開番号】WO2014097893
(87)【国際公開日】20140626
【審査請求日】2016年11月14日
(31)【優先権主張番号】特願2012-277063(P2012-277063)
(32)【優先日】2012年12月19日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニー株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(72)【発明者】
【氏名】野口 雅義
(72)【発明者】
【氏名】高橋 直也
(72)【発明者】
【氏名】藤原 真志
(72)【発明者】
【氏名】白石 吾朗
(72)【発明者】
【氏名】藤下 金章
【審査官】 三森 雄介
(56)【参考文献】
【文献】 特開2001−069597(JP,A)
【文献】 特開2009−193031(JP,A)
【文献】 特開2012−019454(JP,A)
【文献】 特開平10−225572(JP,A)
【文献】 特開2011−250100(JP,A)
【文献】 特開2008−164823(JP,A)
【文献】 実開平5−39100(JP,U)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
G10L 19/00−99/00
H04R 3/00− 3/14
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。
【請求項2】
入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。
【請求項3】
入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。
【請求項4】
複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。
【請求項5】
前記ナレーションキャンセル部は、擬似歓声成分である擬似歓声信号をさらに生成し、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算して前記ナレーションキャンセル信号とする
請求項4に記載の音声処理装置。
【請求項6】
前記ナレーションキャンセル部は、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なう
請求項5に記載の音声処理装置。
【請求項7】
前記入力信号は、スポーツに関するコンテンツの音声信号である
請求項5または請求項6に記載の音声処理装置。
【請求項8】
前記ナレーションキャンセル部は、前記入力信号に基づいて得点シーンを検出し、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
請求項7に記載の音声処理装置。
【請求項9】
前記ナレーションキャンセル部は、前記入力信号に基づいて非歓声シーンを検出し、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
請求項7または請求項8に記載の音声処理装置。
【請求項10】
複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。
【請求項11】
複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は音声処理装置および方法、並びにプログラムに関し、特に、より臨場感のある音声を得ることができるようにした音声処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、野球やサッカー等のスポーツ中継のコンテンツの音声信号に対して音声処理を施すことで、より臨場感のある音声を生成する技術が知られている。例えば、そのような技術として、ユーザが音声の距離感や広がり感を設定できるようにすることで、音声の臨場感を調整できるようにする技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4602204号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところが、上述した技術では、音声信号に対して臨場感を向上させる処理を施すと、スポーツ中継時におけるアナウンサや解説者の声が大きいときには、その声がかえって耳障りになってしまい、十分な臨場感が得られなくなってしまう。
【0005】
本技術は、このような状況に鑑みてなされたものであり、より臨場感のある音声を得ることができるようにするものである。
【課題を解決するための手段】
【0006】
本技術の第1の側面の音声処理装置は、入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成するナレーションキャンセル部と、前記ナレーションキャンセル信号に残響効果を付加する残響付加部とを備える。
【0007】
本技術の第1の側面の音声処理方法またはプログラムは、入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、前記ナレーションキャンセル信号に残響効果を付加するステップを含む。
本技術の第1の側面においては、入力信号からナレーション成分が除去されて擬似歓声成分が含まれるナレーションキャンセル信号が生成され、前記ナレーションキャンセル信号に残響効果が付加される。
【0008】
本技術の第2の側面の音声処理装置は、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成させるとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成させ、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成するナレーションキャンセル部と、前記ナレーションキャンセル信号に残響効果を付加する残響付加部とを備える。
【0009】
前記ナレーションキャンセル部には、擬似歓声成分である擬似歓声信号をさらに生成させ、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算させて前記ナレーションキャンセル信号とさせることができる。
【0010】
前記ナレーションキャンセル部には、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なわせることができる。
【0011】
前記入力信号を、スポーツに関するコンテンツの音声信号とすることができる。
【0012】
前記ナレーションキャンセル部には、前記入力信号に基づいて得点シーンを検出させ、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なわせることができる。
【0013】
前記ナレーションキャンセル部には、前記入力信号に基づいて非歓声シーンを検出させ、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なわせることができる。
【0014】
本技術の第2の側面の音声処理方法またはプログラムは、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、前記ナレーションキャンセル信号に残響効果を付加するステップを含む。
【0015】
本技術の第2の側面においては、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号が生成されるとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号が生成され、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号が生成され、前記ナレーションキャンセル信号に残響効果が付加される。
【発明の効果】
【0016】
本技術の第1の側面および第2の側面によれば、より臨場感のある音声を得ることができる。
【図面の簡単な説明】
【0017】
図1】スタジアム効果発生装置の構成例を示す図である。
図2】ナレーションキャンセル部の構成例を示す図である。
図3】ステレオセンター抑圧部の構成例を示す図である。
図4】センター定位信号除去部の構成例を示す図である。
図5】ノイズ低減部の構成例を示す図である。
図6】ゴールシーン検出部の構成例を示す図である。
図7】歓声検出部の構成例を示す図である。
図8】擬似歓声生成部の構成例を示す図である。
図9】擬似歓声レベル制御部の構成例を示す図である。
図10】スタジアム効果発生処理を説明するフローチャートである。
図11】ノイズの低減について説明する図である。
図12】フィルタ特性と音色制御について説明する図である。
図13】擬似歓声量の決定について説明する図である。
図14】擬似歓声レベル制御部の他の構成例を示す図である。
図15】スタジアム効果発生装置の他の構成例を示す図である。
図16】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0019】
〈第1の実施の形態〉
〈スタジアム効果発生装置の構成例〉
本技術は、スポーツ中継等のコンテンツの音声信号からアナウンサや解説者等の音声、つまりナレーションの音声を除去するとともに、ナレーションが除去された音声信号に対してさらに残響を付加することにより、より臨場感のある音声を得るものである。
【0020】
なお、処理対象とされるコンテンツは、ナレーションが含まれるコンテンツであれば、どのようなコンテンツであってもよいが、以下では、サッカー中継の番組が処理対象のコンテンツである場合を例として説明を続けることとする。
【0021】
図1は、本技術を適用したスタジアム効果発生装置の一実施の形態の構成例を示す図である。
【0022】
スタジアム効果発生装置11には、処理対象のコンテンツであるサッカー中継の番組の音声信号が入力信号として供給される。例えば入力信号は、Rチャンネルの音声信号とLチャンネルの音声信号からなる2チャンネルのステレオ信号とされる。
【0023】
以下では、入力信号は、RとLの2チャンネルのステレオ信号であるとして説明を続けるが、入力信号はモノラル信号であってもよいし、3チャンネル以上のマルチチャンネル信号であってもよい。また、以下では、入力信号を構成するRチャンネルまたはLチャンネルの音声信号を、RチャンネルまたはLチャンネルの入力信号とも称することとする。
【0024】
スタジアム効果発生装置11は、供給された入力信号からナレーションを除去するとともに、ナレーションが除去された信号に対してサッカーの試合会場であるスタジアムの残響を付加することで、入力信号に対するスタジアム効果を発生させる。これにより、スタジアム効果発生装置11から出力される音声信号は、受聴者があたかもスタジアムにいるかのような臨場感を得ることのできるものとなる。
【0025】
スタジアム効果発生装置11は、ナレーションキャンセル部21、コントローラ22、セレクタ23、スタジアム残響付加部24、および加算部25から構成される。
【0026】
ナレーションキャンセル部21は、供給された入力信号からナレーションの音声を除去するとともに、擬似的な歓声である擬似歓声成分を入力信号に付加することでナレーションキャンセル信号を生成する。ナレーションキャンセル信号は、主に、もとの音声からナレーションが除去されて残った観客の歓声等の成分と、付加された擬似歓声成分とからなるステレオ信号である。
【0027】
ナレーションキャンセル部21は、入力信号から得られたナレーションキャンセル信号を、セレクタ23およびスタジアム残響付加部24に供給する。
【0028】
コントローラ22は、例えばユーザの入力操作等に応じてセレクタ23による音声信号の出力を制御する。セレクタ23は、コントローラ22の制御にしたがって、供給された入力信号と、ナレーションキャンセル部21から供給されたナレーションキャンセル信号との何れか一方を加算部25に供給する。
【0029】
スタジアム残響付加部24は、ナレーションキャンセル部21から供給されたナレーションキャンセル信号に対してフィルタ等を用いた音響処理を施すことで、ナレーションキャンセル信号の音声にスタジアムにおける残響効果を付加する。なお、残響効果を実現するフィルタ等の特性が、スタジアムごとに異なるようにしてもよい。
【0030】
スタジアム残響付加部24は、ナレーションキャンセル信号に対する残響付加により得られたフロント信号とリア信号を、それぞれ加算部25と後段のスピーカ等に出力する。
【0031】
ここで、フロント信号とは音声の再生位置、つまり音源位置が受聴者の前方となる音声信号であり、リア信号とは音声の再生位置が受聴者の後方となる音声信号である。また、フロント信号もリア信号もRチャンネルとLチャンネルの2つの信号から構成される。
【0032】
加算部25は、セレクタ23から供給された入力信号またはナレーションキャンセル信号と、スタジアム残響付加部24から供給されたフロント信号とを加算して、最終的なフロント信号とし、後段のスピーカ等に出力する。
【0033】
なお、ここでは、加算部25における加算処理により得られた信号が最終的なフロント信号とされる例について説明したが、スタジアム残響付加部24で得られたフロント信号が最終的なフロント信号とされ、そのまま出力されるようにしてもよい。
【0034】
〈ナレーションキャンセル部の構成例〉
また、図1のナレーションキャンセル部21は、より詳細には図2に示すように構成される。
【0035】
ナレーションキャンセル部21は、ステレオセンター抑圧部41、センター定位信号除去部42、ノイズ低減部43、加算部44、ゴールシーン検出部45、歓声検出部46、擬似歓声生成部47、および加算部48から構成される。
【0036】
ステレオセンター抑圧部41は、供給された入力信号のRチャンネルとLチャンネルのセンター定位成分を抑圧してステレオセンター抑圧信号を生成し、加算部44に供給する。
【0037】
ステレオセンター抑圧部41では入力信号のセンター定位成分、つまり受聴者からみて中央に定位する音声成分はナレーション成分であるとされ、RとLの各チャンネルの入力信号のセンター定位成分を抑圧して得られたステレオ信号が、ステレオセンター抑圧信号とされる。このようにして得られるステレオセンター抑圧信号は、ナレーション成分が完全に除去された信号ではないが、2チャンネルのステレオ信号であるため、臨場感のある音声信号である。
【0038】
センター定位信号除去部42は、供給された入力信号に基づいて、センター定位成分が除去されたモノラル信号をセンター定位除去信号として生成し、ノイズ低減部43および擬似歓声生成部47に供給する。このようにして得られるセンター定位除去信号は、モノラル信号であるため十分な臨場感が得られる信号ではないが、十分にナレーション成分が除去された信号である。
【0039】
ノイズ低減部43は、センター定位信号除去部42から供給されたセンター定位除去信号からノイズ成分を除去し、加算部44に供給する。例えば、センター定位除去信号の特に高域にはノイズが含まれてしまうことがあるので、ノイズ低減部43は、センター定位除去信号の高域ノイズの除去を行なう。
【0040】
加算部44は、ステレオセンター抑圧部41からのステレオセンター抑圧信号と、ノイズ低減部43からのセンター定位除去信号とを加算して、加算部48に供給する。
【0041】
ゴールシーン検出部45は、供給された入力信号からサッカーの試合時におけるゴールシーン、つまり得点シーンを検出し、その検出結果を示すゴールシーン検出信号を擬似歓声生成部47に供給する。
【0042】
なお、ここでは、特にコンテンツにおいて相対的にナレーション成分の音量が大きくなる特徴的なシーンとして、ゴールシーンを検出する例について説明するが、ゴールシーンに限らず、他のシーンが検出されるようにしてもよい。
【0043】
歓声検出部46は、供給された入力信号に基づいて歓声が起こっているシーン(以下、歓声シーンとも称する)を検出し、その検出結果を示す歓声検出信号を擬似歓声生成部47に供給する。
【0044】
擬似歓声生成部47は、供給された入力信号、センター定位信号除去部42からのセンター定位除去信号、ゴールシーン検出部45からのゴールシーン検出信号、および歓声検出部46からの歓声検出信号に基づいて、擬似歓声成分である擬似歓声信号を生成し、加算部48に供給する。
【0045】
加算部48は、加算部44から供給された信号と、擬似歓声生成部47から供給された擬似歓声信号とを加算してナレーションキャンセル信号を生成し、セレクタ23およびスタジアム残響付加部24に供給する。
【0046】
〈ステレオセンター抑圧部の構成例〉
続いて、図2のナレーションキャンセル部21を構成するステレオセンター抑圧部41、センター定位信号除去部42、ノイズ低減部43、ゴールシーン検出部45、歓声検出部46、および擬似歓声生成部47のより詳細な構成例について説明する。
【0047】
例えば、ステレオセンター抑圧部41は、より詳細には図3に示すように構成される。
【0048】
図3では、ステレオセンター抑圧部41は、センター定位信号検出部71、減算部72、増幅部73、減算部74、および増幅部75から構成される。
【0049】
センター定位信号検出部71は、供給されたLチャンネルおよびRチャンネルの入力信号に基づいて入力信号のセンター定位成分を検出し、減算部72および減算部74に供給する。
【0050】
減算部72は、供給されたLチャンネルの入力信号から、センター定位信号検出部71から供給されたセンター定位成分を減算し、得られた信号をステレオセンター抑圧信号のLチャンネルの信号として増幅部73に供給する。なお、以下、ステレオセンター抑圧信号のLチャンネルの信号を、Lチャンネルのステレオセンター抑圧信号とも称する。
【0051】
増幅部73は、減算部72から供給されたLチャンネルのステレオセンター抑圧信号を増幅させ、加算部44に供給する。
【0052】
減算部74は、供給されたRチャンネルの入力信号から、センター定位信号検出部71から供給されたセンター定位成分を減算し、得られた信号をステレオセンター抑圧信号のRチャンネルの信号として増幅部75に供給する。なお、以下、ステレオセンター抑圧信号のRチャンネルの信号を、Rチャンネルのステレオセンター抑圧信号とも称する。
【0053】
増幅部75は、減算部74から供給されたRチャンネルのステレオセンター抑圧信号を増幅させ、加算部44に供給する。
【0054】
〈センター定位信号除去部の構成例〉
また、センター定位信号除去部42は、例えば図4に示すように構成される。
【0055】
センター定位信号除去部42は、減算部101から構成される。減算部101は、供給されたLチャンネルの入力信号から、Rチャンネルの入力信号を減算し、その結果得られたセンター定位除去信号をノイズ低減部43および擬似歓声生成部47に供給する。
【0056】
〈ノイズ低減部の構成例〉
さらにノイズ低減部43は、例えば図5に示すように構成される。
【0057】
ノイズ低減部43は、高域成分集中区間検出部131、フィルタ処理部132、逆フィルタ処理部133、遅延部134、および補間処理部135から構成される。
【0058】
高域成分集中区間検出部131は、減算部101から供給されたセンター定位除去信号に基づいて、センター定位除去信号における高域にエネルギが集中している区間(以下、高域成分集中区間と称する)を検出する。そして高域成分集中区間検出部131は、その検出結果を示す高域成分集中区間検出信号をフィルタ処理部132および補間処理部135に供給する。
【0059】
フィルタ処理部132は、高域成分集中区間検出部131から供給された高域成分集中区間検出信号に基づいて、減算部101から供給されたセンター定位除去信号に対するフィルタ処理を行い、補間処理部135に供給する。フィルタ処理部132では、高域成分集中区間におけるセンター定位除去信号の高域成分がノイズ成分であるとされ、フィルタ処理によりセンター定位除去信号の高域成分集中区間における高域成分が抑圧される。
【0060】
逆フィルタ処理部133は、フィルタ処理部132が有するフィルタの逆特性を有するフィルタ(以下、逆フィルタと称する)を用いて、減算部101から供給されたセンター定位除去信号に対してフィルタ処理を行い、遅延部134に供給する。この逆フィルタを用いたフィルタ処理により、センター定位除去信号の低域成分が除去され、高域成分のみが抽出される。
【0061】
遅延部134は、逆フィルタ処理部133から供給された音声信号を所定時間だけ遅延させ、補間処理部135に供給する。
【0062】
補間処理部135は、高域成分集中区間検出部131からの高域成分集中区間検出信号と、遅延部134からの音声信号とに基づいて、フィルタ処理部132から供給された音声信号に対する補間処理を行い、その結果得られた音声信号を加算部44に供給する。補間処理では、センター定位除去信号から除去された高域成分が補間され、これによりノイズが低減されたセンター定位除去信号が得られる。
【0063】
なお、ノイズ低減部43におけるセンター定位除去信号のノイズの低減時に、入力信号が用いられるようにしてもよい。
【0064】
〈ゴールシーン検出部の構成例〉
また、ゴールシーン検出部45は、例えば図6に示すように構成される。
【0065】
図6ではゴールシーン検出部45は、加算部161、スペクトル分析部162、特徴量抽出部163、および判別部164から構成される。
【0066】
加算部161は、供給されたLチャンネルの入力信号とRチャンネルの入力信号とを加算してスペクトル分析部162に供給する。スペクトル分析部162は、加算部161から供給された、加算後の入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部163に供給する。例えばスペクトル分析は、BPF(Band Pass Filter)を用いたフィルタ処理やFFT(Fast Fourier Transform)などにより行なわれる。
【0067】
特徴量抽出部163は、スペクトル分析部162から供給されたスペクトルから特徴量を抽出し、判別部164に供給する。
【0068】
判別部164は、特徴量抽出部163から供給された特徴量に基づいて線形識別などを行なって、入力信号からゴールシーンを検出する。判別部164は、ゴールシーンの検出結果を示すゴールシーン検出信号を擬似歓声生成部47に供給する。
【0069】
〈歓声検出部の構成例〉
さらに、歓声検出部46は、例えば図7に示すように構成される。
【0070】
図7では歓声検出部46は、スペクトル分析部191、特徴量抽出部192、および判別部193から構成される。
【0071】
スペクトル分析部191は、供給された入力信号のうちのLチャンネルの入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部192に供給する。例えばスペクトル分析は、BPFを用いたフィルタ処理やFFTなどにより行なわれる。
【0072】
なお、ここではLチャンネルの入力信号に対してスペクトル分析が行なわれる例について説明するが、Rチャンネルの入力信号に対してスペクトル分析が行なわれてもよい。また、Lチャンネルの入力信号から、Rチャンネルの入力信号を減算して得られた信号に対してスペクトル分析が行なわれてもよい。
【0073】
特徴量抽出部192は、スペクトル分析部191から供給されたスペクトルから特徴量を抽出し、判別部193に供給する。
【0074】
判別部193は、特徴量抽出部192から供給された特徴量に基づいて線形識別などを行なって、入力信号から歓声シーンを検出し、その検出結果を示す歓声検出信号を擬似歓声生成部47に供給する。
【0075】
〈擬似歓声生成部の構成例〉
さらに、図2の擬似歓声生成部47は、例えば図8に示すように構成される。
【0076】
図8に示す擬似歓声生成部47は、加算部221、フィルタ処理部222、レベル検出部223、LPF(Low Pass Filter)224、レベル検出部225、レベル検出部226、LPF227、レベル検出部228、音色制御部229、擬似歓声レベル制御部230、ランダムノイズ生成部231、フィルタ処理部232、増幅部233、フィルタ処理部234、増幅部235、および加算部236から構成される。
【0077】
加算部221は、供給されたLチャンネルの入力信号とRチャンネルの入力信号とを加算して、フィルタ処理部222およびLPF224に供給する。
【0078】
フィルタ処理部222は、人の声、より具体的にはナレーションを除去するためのフィルタを用いて、加算部221から供給された入力信号に対するフィルタ処理を行なって、その結果得られた信号をレベル検出部223に供給する。
【0079】
例えば、フィルタ処理部222により用いられるフィルタは、入力信号の中域成分を除去するBPFや、人の声の帯域を除去するHPF(High Pass Filter)などとされる。
【0080】
レベル検出部223は、フィルタ処理部222から供給された信号のレベル(以下、検出レベルA1とも称する)を検出し、その検出結果を音色制御部229および擬似歓声レベル制御部230に供給する。レベル検出部223で得られる検出レベルA1は、入力信号の中高域成分のレベルである。
【0081】
LPF224は、加算部221から供給された入力信号に対してLPFを用いたフィルタ処理を行い、レベル検出部225に供給する。レベル検出部225は、LPF224から供給された信号のレベル(以下、検出レベルA2とも称する)を検出し、その検出結果を擬似歓声レベル制御部230に供給する。レベル検出部225で得られる検出レベルA2は、入力信号の低域成分のレベルである。
【0082】
レベル検出部226は、センター定位信号除去部42の減算部101から供給されたセンター定位除去信号のレベル(以下、検出レベルB1とも称する)を検出し、その検出結果を擬似歓声レベル制御部230に供給する。
【0083】
LPF227は、減算部101から供給されたセンター定位除去信号に対してLPFを用いたフィルタ処理を行い、レベル検出部228に供給する。レベル検出部228は、LPF227から供給された信号のレベル(以下、検出レベルB2とも称する)を検出し、その検出結果を擬似歓声レベル制御部230に供給する。レベル検出部228で得られる検出レベルB2は、センター定位除去信号の低域成分のレベルである。
【0084】
音色制御部229は、レベル検出部223からの検出レベルA1と、ゴールシーン検出部45の判別部164からのゴールシーン検出信号とに基づいて、フィルタ処理部234によるフィルタ処理を制御する。
【0085】
擬似歓声レベル制御部230は、レベル検出部223からの検出レベルA1、レベル検出部226からの検出レベルB1、判別部164からのゴールシーン検出信号、および歓声検出部46の判別部193からの歓声検出信号に基づいて、増幅部235による増幅処理を制御する。
【0086】
また、擬似歓声レベル制御部230は、レベル検出部225からの検出レベルA2、レベル検出部228からの検出レベルB2、判別部164からのゴールシーン検出信号、および判別部193からの歓声検出信号に基づいて、増幅部233による増幅処理を制御する。
【0087】
ランダムノイズ生成部231は、ランダムノイズ成分からなるランダムノイズ信号を生成し、フィルタ処理部232およびフィルタ処理部234に供給する。
【0088】
フィルタ処理部232は、ランダムノイズ生成部231から供給されたランダムノイズ信号に対してLPF等のフィルタを用いたフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部233に供給する。例えば、フィルタ処理部232で得られる擬似歓声信号は、試合会場であるスタジアムで生じる地鳴りのような周波数が低い低域成分のみからなる音声信号とされる。
【0089】
増幅部233は、擬似歓声レベル制御部230の制御にしたがって、フィルタ処理部232から供給された擬似歓声信号を増幅させ、加算部236に供給する。
【0090】
フィルタ処理部234は、音色制御部229の制御に応じてフィルタを可変させ、ランダムノイズ生成部231から供給されたランダムノイズ信号に対してフィルタを用いたフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部235に供給する。
【0091】
例えば、フィルタ処理部234では、フィルタを可変させることにより、生成される擬似歓声信号の音色が制御される。フィルタ処理部234で得られる擬似歓声信号は、スタジアムで生じる観客の歓声のような比較的周波数が高い中高域成分のみからなる音声信号とされる。
【0092】
増幅部235は、擬似歓声レベル制御部230の制御にしたがって、フィルタ処理部234から供給された擬似歓声信号を増幅させ、加算部236に供給する。
【0093】
加算部236は、増幅部233から供給された擬似歓声信号と、増幅部235から供給された擬似歓声信号とを加算し、その結果得られた最終的な擬似歓声信号をナレーションキャンセル部21の加算部48に供給する。
【0094】
〈擬似歓声レベル制御部の構成例〉
また、図8の擬似歓声レベル制御部230は、より詳細には例えば図9に示すように構成される。
【0095】
図9では、擬似歓声レベル制御部230は、ゴールシーン検出区間制御部261、非歓声検出部262、非歓声検出区間制御部263、擬似歓声量検出部264、ゴールシーン検出区間制御部265、非歓声検出区間制御部266、および擬似歓声量検出部267から構成される。
【0096】
ゴールシーン検出区間制御部261は、判別部164からのゴールシーン検出信号に基づいて、レベル検出部223からの検出レベルA1のレベル調整を行い、非歓声検出区間制御部263に供給する。
【0097】
非歓声検出部262は、判別部193から供給された歓声検出信号に基づいて、歓声シーンではない区間を非歓声シーン(非歓声区間)として検出し、その検出結果を非歓声検出区間制御部263および非歓声検出区間制御部266に供給する。
【0098】
例えば、非歓声検出部262は、インバータなどからなり、歓声検出信号を反転させることで非歓声シーンを示す非歓声検出信号を生成する。
【0099】
非歓声検出区間制御部263は、非歓声検出部262からの非歓声検出信号に基づいて、ゴールシーン検出区間制御部261から供給された検出レベルA1のレベル調整を行い、擬似歓声量検出部264に供給する。
【0100】
擬似歓声量検出部264は、非歓声検出区間制御部263から供給された検出レベルA1と、レベル検出部226から供給された検出レベルB1とを比較して擬似歓声信号の増幅量である擬似歓声量を定め、その擬似歓声量に基づいて増幅部235を制御する。
【0101】
ゴールシーン検出区間制御部265は、判別部164からのゴールシーン検出信号に基づいて、レベル検出部225からの検出レベルA2のレベル調整を行い、非歓声検出区間制御部266に供給する。
【0102】
非歓声検出区間制御部266は、非歓声検出部262からの非歓声検出信号に基づいて、ゴールシーン検出区間制御部265から供給された検出レベルA2のレベル調整を行い、擬似歓声量検出部267に供給する。
【0103】
擬似歓声量検出部267は、非歓声検出区間制御部266から供給された検出レベルA2と、レベル検出部228から供給された検出レベルB2とを比較して擬似歓声信号の増幅量である擬似歓声量を定め、その擬似歓声量に基づいて増幅部233を制御する。
【0104】
〈スタジアム効果発生処理の説明〉
ところで、スタジアム効果発生装置11に入力信号が供給され、入力信号に対するスタジアム効果の付加が指示されると、スタジアム効果発生装置11はスタジアム効果発生処理を行なって、フロント信号およびリア信号を出力する。
【0105】
以下、図10のフローチャートを参照して、スタジアム効果発生装置11により行なわれるスタジアム効果発生処理について説明する。
【0106】
ステップS11において、ステレオセンター抑圧部41は、供給された入力信号に基づいてステレオセンター抑圧信号を生成する。
【0107】
例えば、センター定位信号検出部71は、LチャンネルとRチャンネルの入力信号のレベルおよび位相を比較し、それらのチャンネルの入力信号のレベルと位相が同じである場合、入力信号にはセンター定位成分が含まれているとする。そして、センター定位信号検出部71は、LチャンネルとRチャンネルの入力信号の共通成分をセンター定位成分として抽出し、減算部72および減算部74に供給する。
【0108】
減算部72および減算部74は、供給されたLチャンネルの入力信号、およびRチャンネルの入力信号から、センター定位信号検出部71からのセンター定位成分を減算し、その結果得られたステレオセンター抑圧信号を増幅部73および増幅部75に供給する。
【0109】
増幅部73および増幅部75は、減算部72および減算部74から供給されたLチャンネルおよびRチャンネルのステレオセンター抑圧信号のレベル調整を行い、加算部44に供給する。ここでのレベル調整は、ステレオセンター抑圧信号のレベルが、センター定位除去信号のレベルに対して適切なレベルとなるように行なわれる。
【0110】
ステップS12において、センター定位信号除去部42は、供給された入力信号に基づいてセンター定位除去信号を生成する。すなわち、減算部101は、Lチャンネルの入力信号から、Rチャンネルの入力信号を減算してセンター定位除去信号を生成し、ノイズ低減部43および擬似歓声生成部47に供給する。
【0111】
ステップS13において、ノイズ低減部43は、減算部101から供給されたセンター定位除去信号に対してノイズ低減処理を行い、加算部44に供給する。
【0112】
例えば、図11の矢印A11に示すように、センター定位除去信号の一部の区間の高域成分にノイズが含まれていたとする。
【0113】
なお、図11において、矢印A11乃至矢印A16は、それぞれセンター定位除去信号、高域成分集中区間検出信号、フィルタ処理部132の出力、逆フィルタ処理部133の出力、遅延部134の出力、およびノイズ低減されたセンター定位除去信号を示している。また、矢印A11および矢印A13乃至矢印A16に示す各信号において、横方向は時間を示しており、縦方向は周波数を示している。さらに、矢印A11および矢印A13乃至矢印A16に示す各信号の各領域の濃淡は、各時刻における各周波数のパワーを表しており、濃度が濃い領域ほどパワーが大きい領域となっている。
【0114】
図11の例では、矢印A11に示すセンター定位除去信号では、矢印Q11および矢印Q12に示す領域において、他の領域よりもパワーが大きくなっている。
【0115】
高域成分集中区間検出部131は、例えば矢印A11に示すセンター定位除去信号の各周波数のパワーを参照することで、センター定位除去信号のうち、矢印Q11および矢印Q12に示す領域を含む区間を高域成分集中区間として検出する。そして、高域成分集中区間検出部131は、その検出結果として矢印A12に示す高域成分集中区間検出信号をフィルタ処理部132および補間処理部135に供給する。
【0116】
矢印A12に示す高域成分集中区間検出信号では、矢印Q11および矢印Q12に示す領域を含む区間において、図中、縦方向に示される信号のレベルが上に凸となっており、高域成分集中区間であることを示している。
【0117】
なお、この例では、高域成分集中区間検出信号は、各区間が高域成分集中区間であるか否かを示しているが、高域成分集中区間検出信号が各区間の高域成分集中区間らしさの度合いを示す値とされるようにしてもよい。
【0118】
また、フィルタ処理部132は、保持しているフィルタを用いて、高域成分集中区間検出部131から供給された高域成分集中区間検出信号により示される高域成分集中区間において、減算部101からのセンター定位除去信号に対するフィルタ処理を行なう。
【0119】
これにより、矢印A13に示すように、センター定位除去信号の高域成分集中区間における高域成分が抑圧される。つまり、ノイズが低減される。
【0120】
このようにして得られたセンター定位除去信号は、フィルタ処理部132から補間処理部135に供給される。但し、矢印A13に示すセンター定位除去信号は、ノイズが低減された信号となっているが、高域成分集中区間における高域成分のパワーが低くなってしまう。そこで、矢印A13に示すセンター定位除去信号に対する補間処理が行なわれる。
【0121】
すなわち、逆フィルタ処理部133は、保持している逆フィルタを用いて、減算部101から供給されたセンター定位除去信号に対してフィルタ処理を行い、遅延部134に供給する。この逆フィルタを用いたフィルタ処理により、矢印A14に示すようにセンター定位除去信号の各時刻の低域成分が除去され、高域成分のみが抽出される。
【0122】
そして、遅延部134が逆フィルタ処理部133から供給された信号を所定時間だけ遅延させてから補間処理部135に供給すると、矢印A15に示すようにエネルギが集中している高域部分の領域が、時間方向にシフトされた信号が得られる。このようにして得られた信号では、高域成分集中区間検出信号により示される高域成分集中区間の高域の領域は、エネルギが集中している領域とはなっていない。つまり、ノイズが含まれていない信号成分となっている。
【0123】
そこで補間処理部135は、フィルタ処理部132から供給された信号における、高域成分集中区間検出信号により示される高域成分集中区間の高域の部分の領域に、遅延部134からの信号における高域成分集中区間の高域の部分の領域を足し込んで補間を行なう。
【0124】
これにより、例えば矢印A16に示す信号がノイズ低減されたセンター定位除去信号として得られる。補間処理部135は補間処理により得られたセンター定位除去信号を加算部44に供給する。
【0125】
加算部44は、増幅部73からのLチャンネルのステレオセンター抑圧信号と、増幅部75からのRチャンネルのステレオセンター抑圧信号とのそれぞれに、補間処理部135からのセンター定位除去信号を加算して、加算部48に供給する。これにより、加算部48には、入力信号のナレーションが除去された、LチャンネルとRチャンネルからなるステレオ信号が供給される。
【0126】
このように、ナレーション成分が完全には除去されていないが、臨場感のあるステレオセンター抑圧信号と、臨場感はないがナレーションが除去されたセンター定位除去信号とを加算することで、ナレーションがほぼ除去された臨場感のある信号を得ることができる。
【0127】
図10のフローチャートの説明に戻り、ステップS14において、ゴールシーン検出部45は、供給された入力信号に基づいてゴールシーンを検出する。例えば、入力信号からナレーションとして含まれている、解説者等により発せられた単語「ゴール」を検出することによりゴールシーンが検出される。
【0128】
具体的には、加算部161は、供給されたLチャンネルとRチャンネルの入力信号を加算してスペクトル分析部162に供給する。LチャンネルとRチャンネルの入力信号を加算することで、センター定位成分、つまりナレーション成分がより大きくなり、入力信号にナレーションとして含まれている所望の単語の検出精度を向上させることができる。
【0129】
また、スペクトル分析部162は、加算部161からの入力信号に対するスペクトル分析を行ない、得られたスペクトルを特徴量抽出部163に供給する。
【0130】
特徴量抽出部163は、スペクトル分析部162から供給されたスペクトルに基づいて、スペクトル形状の変化量や、スペクトルのピークの度合いを示す特徴量を算出し、判別部164に供給する。
【0131】
例えば、通常のナレーションではスペクトルの形状は激しく変化するが、ナレーションとして単語「ゴール」が含まれている場合には、スペクトルの形状はあまり変化しない。また、ナレーションとして単語「ゴール」が含まれている場合、スペクトルにおいて、その単語の発話者に特有の周波数に鋭いピークが出現する。
【0132】
これらのことから、ゴールシーン検出部45では、スペクトル形状の変化量や、スペクトルのピークの度合いを特徴量として算出し、その特徴量に基づいて、入力信号からゴールシーンを検出する。つまり、ゴールシーンらしさが求められる。
【0133】
具体的には、判別部164は、特徴量抽出部163からの特徴量に基づいて線形識別などを行なうことでゴールシーンを検出し、その検出結果を示すゴールシーン検出信号を擬似歓声生成部47に供給する。
【0134】
なお、ゴールシーン検出信号は、ゴールシーンらしいか否かを示す信号とされてもよいが、ゴールシーンらしさの度合いを示す多値の信号とされてもよい。
【0135】
ステップS15において、歓声検出部46は、供給された入力信号から歓声を検出する。
【0136】
すなわち、スペクトル分析部191は、供給されたLチャンネルの入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部192に供給する。特徴量抽出部192は、スペクトル分析部191からのスペクトルから特徴量を抽出し、判別部193に供給する。
【0137】
例えば、特徴量として低域レベルの入力信号全体の帯域のレベルに対する割合、高域レベルの入力信号全体の帯域のレベルに対する割合、歓声帯域レベルの入力信号全体の帯域のレベルに対する割合、およびスペクトルにおけるピークの立ち具合が算出される。
【0138】
ここで、特徴量として算出された低域レベル、高域レベル、および歓声帯域レベルのそれぞれの全体の帯域のレベルに対する割合は、入力信号のスペクトル形状が、歓声に特有のスペクトル形状となっているかを特定するために用いられる。
【0139】
例えば、低域レベルや高域レベルが帯域全体のレベルに対して大きい場合には、入力信号に基づく音声は、人の歓声とは異なる音楽などの音が大きい音声である可能性が高いので、そのような場合には、入力信号は歓声シーンらしくないとされる。
【0140】
また、歓声帯域レベルが帯域全体のレベルに対して大きい場合には、入力信号に基づく音声には、歓声が含まれている可能性が高いので、そのような場合には、入力信号は歓声シーンらしいとされる。但し、入力信号にナレーションが含まれている場合には、そのナレーションに関係する周波数位置に鋭いピークが出現するので、スペクトルにおける鋭いピークが出現した周波数の成分は、歓声帯域レベルの算出から除外される。
【0141】
さらに、歓声が起こっているシーンのスペクトルは、鋭いピークがなくなだらかな形状のスペクトルとなる。これに対して、CM(Commercial Message)等の音楽が流れているシーンなどではスペクトルに鋭いピークが出現する。したがって、特徴量として算出されるピークの立ち具合から、スペクトルに鋭いピークが多く出現していることが分かる場合には、入力信号は歓声シーンらしくないとされる。
【0142】
判別部193は、特徴量抽出部192から供給された特徴量に基づいて線形識別などを行なうことで入力信号から歓声シーンを検出し、その検出結果を示す歓声検出信号を擬似歓声生成部47に供給する。
【0143】
なお、ゴールシーンでは、スペクトルにナレーションに起因する鋭いピークが出現するが、そのようなシーンにおいては特徴量として算出されるピークの立ち具合、つまりピークの度合いによって、歓声らしさの度合いが低下してしまう。
【0144】
そこで、判別部193が、ゴールシーン検出信号の供給を受けて、ゴールシーンの検出結果を考慮し、歓声シーンらしさの判別を行なうようにしてもよい。そのような場合、例えば歓声シーンらしさが時間とともに低下しており、かつゴールシーンであるとされている場合には、歓声シーンらしさが低下しないようにされる。
【0145】
また、歓声検出信号は、歓声シーンらしいか否かを示す信号とされてもよいが、歓声シーンらしさの度合いを示す多値の信号とされてもよい。
【0146】
ステップS16において、擬似歓声生成部47は、入力信号のレベルを検出する。
【0147】
具体的には、加算部221は、供給されたLチャンネルとRチャンネルの入力信号を加算して、フィルタ処理部222およびLPF224に供給する。
【0148】
フィルタ処理部222は、加算部221から供給された入力信号に対するフィルタ処理を行なって、ナレーションが除去された入力信号をレベル検出部223に供給する。レベル検出部223は、フィルタ処理部222から供給された信号の絶対値の包絡線から検出レベルA1を算出し、音色制御部229および擬似歓声レベル制御部230に供給する。
【0149】
また、LPF224は、加算部221から供給された入力信号に対してLPFを用いたフィルタ処理を行い、レベル検出部225に供給する。レベル検出部225は、LPF224から供給された信号の絶対値の包絡線から検出レベルA2を算出し、擬似歓声レベル制御部230に供給する。
【0150】
ステップS17において、擬似歓声生成部47は、センター定位除去信号のレベルを検出する。
【0151】
すなわち、レベル検出部226は、減算部101から供給されたセンター定位除去信号の絶対値の包絡線から検出レベルB1を算出し、擬似歓声レベル制御部230に供給する。
【0152】
また、LPF227は、減算部101から供給されたセンター定位除去信号に対してLPFを用いたフィルタ処理を行い、レベル検出部228に供給する。レベル検出部228は、LPF227から供給された信号の絶対値の包絡線から検出レベルB2を算出し、擬似歓声レベル制御部230に供給する。
【0153】
ステップS18において、音色制御部229は、レベル検出部223からの検出レベルA1と、判別部164からのゴールシーン検出信号とに基づいて擬似歓声信号の音色制御を行なう。
【0154】
例えば、音色制御部229は、検出レベルA1が徐々に増加している場合には、試合会場が盛り上がってきているとして音色が高くなるようにし、逆に検出レベルA1が徐々に減少している場合には、音色が低くなるようにする。また、音色制御部229は、ゴールシーン検出信号によりゴールシーンであると示されている場合には、さらに音色が高くなるようにする。
【0155】
このような擬似歓声信号の音色の制御は、具体的には音色制御部229がフィルタ処理部234を制御し、フィルタ処理部234によるフィルタ処理で用いられるフィルタの特性を変化させることにより実現される。
【0156】
例えば、低域成分のみからなる擬似歓声信号を生成するフィルタ処理部232では、図12の折れ線C11に示す特性のフィルタが用いられる。これに対して、中高域成分のみからなる擬似歓声信号を生成するフィルタ処理部234では、折れ線C12に示すフィルタの特性は、音色制御部229の制御に応じて矢印Q31に示すように変化する。
【0157】
なお、図12において横軸は周波数を示しており、縦軸は各周波数におけるフィルタの出力レベルを示している。
【0158】
この例では、折れ線C12に示すフィルタ特性の波形が周波数方向にシフトされ、これに応じて擬似歓声信号の音色が変化する。折れ線C12に示す特性のフィルタは、折れ線C11に示す特性のフィルタよりも、より高い周波数帯域の成分を通過させる特性となっている。
【0159】
フィルタ処理部234は、音色制御部229の制御に応じて、フィルタ処理に用いるフィルタの特性を決定する。
【0160】
なお、音色制御部229による擬似歓声信号の音色制御は、上述した例に限らず、どのような制御とされてもよい。
【0161】
ステップS19において擬似歓声レベル制御部230は、レベル検出部223からの検出レベルA1、レベル検出部225からの検出レベルA2、レベル検出部226からの検出レベルB1、レベル検出部228からの検出レベルB2、判別部164からのゴールシーン検出信号、および判別部193からの歓声検出信号に基づいて、擬似歓声量を検出する。
【0162】
具体的には、ゴールシーン検出区間制御部261は、ゴールシーン検出信号により示されるゴールシーンにおいて、検出レベルA1のレベルが一定値だけ大きくなるように検出レベルA1のレベル調整を行ない、非歓声検出区間制御部263に供給する。
【0163】
例えば図13の上側に示すように、ゴールシーン検出区間制御部261は、折れ線C21に示す制御信号レベルを検出レベルA1に加算する。なお、図13の上側において縦軸は制御信号レベルを示しており、横軸は時間を示している。
【0164】
この例では、ゴールシーンの区間T11において、折れ線C21に示す制御信号レベルの値が、他の区間における制御信号レベルの値よりも一定値だけ大きくなっている。したがって、ゴールシーンにおいて、検出レベルA1のレベルが一定値だけ大きくなるように検出レベルA1のレベル調整が行なわれる。
【0165】
また、ここでは、検出レベルA1のレベルが一定値だけ大きくなるようにする例について説明したが、ゴールシーン検出信号がゴールシーンらしさの値を示す場合には、その値に応じて検出レベルA1の値が連続的に増加するようにしてもよい。すなわち、ゴールシーンらしさの値によって、検出レベルA1を増加させる値が異なるようにしてもよい。
【0166】
さらに、非歓声検出部262は、歓声検出信号を反転させて非歓声検出信号を生成し、非歓声検出区間制御部263および非歓声検出区間制御部266に供給する。
【0167】
非歓声検出区間制御部263は、非歓声検出信号により示される非歓声シーンにおいて、ゴールシーン検出区間制御部261からの検出レベルA1のレベルが一定値だけ小さくなるように検出レベルA1のレベル調整を行ない、擬似歓声量検出部264に供給する。
【0168】
例えば図13の中央に示すように、非歓声検出区間制御部263は、折れ線C22に示す制御信号レベルを検出レベルA1に加算する。なお、図13の中央において縦軸は制御信号レベルを示しており、横軸は時間を示している。
【0169】
この例では、非歓声シーンの区間T12において、折れ線C22に示す制御信号レベルの値が、他の区間における制御信号レベルの値よりも一定値だけ小さくなっている。したがって、非歓声シーンにおいて、検出レベルA1のレベルが一定値だけ小さくなるように検出レベルA1のレベル調整が行なわれる。
【0170】
なお、非歓声シーンでは、ナレーションキャンセル信号に擬似歓声成分が含まれないようにされてもよい。また、ここでは、検出レベルA1のレベルが一定値だけ小さくなるようにする例について説明したが、非歓声検出信号が非歓声シーンらしさの値を示す場合には、その値に応じて検出レベルA1の値が連続的に減少するようにしてもよい。
【0171】
さらに擬似歓声量検出部264は、非歓声検出区間制御部263からの検出レベルA1と、レベル検出部226からの検出レベルB1との差分に応じて擬似歓声量を定め、その擬似歓声量に基づいて増幅部235を制御する。
【0172】
例えば、図13の下側の斜線で示すように、直線C23に示す検出レベルA1よりも折れ線C24に示す検出レベルB1が小さい場合、検出レベルA1と検出レベルB1の差の分だけ擬似歓声量が大きくなるようにされる。なお、図13の下側において横軸は時間を示しており、縦軸は検出レベルを示している。
【0173】
一般的に、ゴールシーンでアナウンサ等のナレーションの声が大きくなると、相対的に歓声の音量が小さくなってしまう。そのような場合に、音声信号からナレーション成分を除去すると、ゴールシーンでの盛り上がりに欠けてしまうことがある。
【0174】
そこで、擬似歓声量検出部264は、センター定位除去信号の検出レベルB1が、もとの入力信号の検出レベルA1よりも小さい場合には、検出レベルB1と検出レベルA1の差の分だけ擬似歓声量を大きくすることで擬似歓声信号のレベルを上げる。これにより、例えばナレーションキャンセル信号のレベルが、もとの入力信号のレベル程度まで大きくなり、ゴールシーンなどの盛り上がるシーンにおいて、十分な音量の歓声によって臨場感や高揚感を実現することができる。
【0175】
特に、擬似歓声レベル制御部230では、ゴールシーンにおいては、検出レベルA1がより大きくなるように調整されるので、その分だけ検出レベルA1と検出レベルB1の差が大きくなり、その結果、擬似歓声量も大きくなる。これにより、ゴールシーンにおいて大きな歓声が再生される、より臨場感のある音声を得ることができる。
【0176】
これに対して、CMなどの歓声のない非歓声シーンにおいては、検出レベルA1がより小さくなるように調整されるので、不必要に擬似歓声成分がナレーションキャンセル信号に付加されてしまうことを防止することができる。これにより、より自然な音声を得ることができるようになる。
【0177】
また、ゴールシーン検出区間制御部265、非歓声検出区間制御部266、および擬似歓声量検出部267も、ゴールシーン検出区間制御部261、非歓声検出区間制御部263、および擬似歓声量検出部264と同様の処理を行なって擬似歓声量を定める。そして、擬似歓声量検出部267は、定めた擬似歓声量に基づいて増幅部233を制御する。
【0178】
ステップS20において、擬似歓声生成部47は、擬似歓声信号を生成する。
【0179】
すなわち、ランダムノイズ生成部231はランダムノイズ信号を生成し、フィルタ処理部232およびフィルタ処理部234に供給する。
【0180】
フィルタ処理部232は、ランダムノイズ生成部231からのランダムノイズ信号に対してフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部233に供給する。増幅部233は、擬似歓声量検出部267の制御にしたがって、フィルタ処理部232からの擬似歓声信号を増幅させ、加算部236に供給する。
【0181】
また、フィルタ処理部234は、音色制御部229の制御により定まるフィルタを用いて、ランダムノイズ生成部231からのランダムノイズ信号に対するフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部235に供給する。
【0182】
増幅部235は、擬似歓声量検出部264の制御にしたがって、フィルタ処理部234から供給された擬似歓声信号を増幅させ、加算部236に供給する。
【0183】
加算部236は、増幅部233から供給された擬似歓声信号と、増幅部235から供給された擬似歓声信号とを加算して最終的な擬似歓声信号を生成し、ナレーションキャンセル部21の加算部48に供給する。
【0184】
ステップS21において、加算部48は、加算部44から供給された信号と、加算部236からの擬似歓声信号とを加算することでナレーションキャンセル信号を生成し、セレクタ23およびスタジアム残響付加部24に供給する。例えば、加算部44から出力される各チャンネルの信号に対して擬似歓声信号が加算され、LチャンネルとRチャンネルからなるステレオのナレーションキャンセル信号が生成される。
【0185】
また、セレクタ23は、コントローラ22の制御にしたがって、供給された入力信号と、ナレーションキャンセル部21の加算部48から供給されたナレーションキャンセル信号との何れか一方を加算部25に供給する。
【0186】
ステップS22において、スタジアム残響付加部24は、ナレーションキャンセル部21から供給されたナレーションキャンセル信号に対して音響処理を施すことで、ナレーションキャンセル信号に残響効果を付加する。
【0187】
スタジアム残響付加部24は、残響効果の付加により得られたLチャンネルとRチャンネルからなるリア信号を後段に出力するとともに、残響効果の付加により得られたLチャンネルとRチャンネルからなるフロント信号を加算部25に供給する。
【0188】
ステップS23において、加算部25は、セレクタ23から供給された信号、すなわち入力信号またはナレーションキャンセル信号と、スタジアム残響付加部24から供給されたフロント信号とをチャンネルごとに加算し、最終的なフロント信号を生成する。
【0189】
加算部25が生成されたLチャンネルとRチャンネルからなるフロント信号を出力すると、スタジアム効果発生処理は終了する。
【0190】
以上のようにして、スタジアム効果発生装置11は、入力信号からナレーションが除去され、擬似歓声信号が加算されて得られたナレーションキャンセル信号にスタジアムの残響を付加する。
【0191】
このように、入力信号からナレーションを除去し、スタジアムの残響を付加することで、より臨場感のある音声を得ることができる。
【0192】
例えば、入力信号の音声において、ナレーションの声が大きすぎる場合には、その声がかえって耳障りとなってしまい、十分な臨場感が得られなくなってしまう。また、ナレーション成分が大きい状態で入力信号にサラウンド効果を付加すると、ナレーションに広がり感が付加されてしまい、かえって臨場感が低下してしまう。
【0193】
これに対してスタジアム効果発生装置11では、入力信号からナレーションを除去して残響を付加するので、より自然で臨場感のある音声を得ることができる。特に、臨場感のあるステレオセンター抑圧信号と、センター定位成分を除去して得られるモノラルのセンター定位除去信号とを加算してナレーションキャンセル信号を生成することで、ナレーションが十分に除去された臨場感のある信号を得ることができる。
【0194】
しかも、スタジアム効果発生装置11では、入力信号のレベルとセンター定位除去信号のレベルの比較結果、ゴールシーンの検出結果、および非歓声シーンの検出結果に応じて、適切なレベルの擬似歓声成分がナレーションキャンセル信号に付加される。これにより、さらに臨場感を向上させることができる。
【0195】
〈変形例1〉
〈擬似歓声レベル制御部の構成例〉
なお、以上においては、ゴールシーンの検出結果と非歓声シーンの検出結果を考慮して擬似歓声量を定める場合について説明したが、これらのゴールシーンの検出結果と非歓声シーンの検出結果が擬似歓声量の決定に用いられないようにしてもよい。
【0196】
そのような場合、擬似歓声レベル制御部230は、例えば図14に示すように構成される。なお、図14において、図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0197】
図14に示す擬似歓声レベル制御部230は、擬似歓声量検出部264および擬似歓声量検出部267から構成される。
【0198】
擬似歓声量検出部264は、レベル検出部223からの検出レベルA1と、レベル検出部226から供給された検出レベルB1とを比較して擬似歓声量を定め、その擬似歓声量に基づいて増幅部235を制御する。
【0199】
また、擬似歓声量検出部267は、レベル検出部225から供給された検出レベルA2と、レベル検出部228から供給された検出レベルB2とを比較して擬似歓声量を定め、その擬似歓声量に基づいて増幅部233を制御する。
【0200】
さらに、図9に示した擬似歓声レベル制御部230において、ゴールシーン検出区間制御部261と非歓声検出区間制御部263が設けられない構成とされてもよいし、ゴールシーン検出区間制御部265と非歓声検出区間制御部266が設けられない構成とされてもよい。また、ゴールシーン検出区間制御部261と非歓声検出区間制御部263の何れか一方が設けられない構成や、ゴールシーン検出区間制御部265と非歓声検出区間制御部266の何れか一方が設けられない構成などとされてもよい。
【0201】
〈変形例2〉
〈スタジアム効果発生装置の構成例〉
さらに、以上においては、スタジアム効果発生装置11からは、2チャンネルのフロント信号と、2チャンネルのリア信号とが出力される例について説明したが、LチャンネルとRチャンネルからなるステレオ信号が出力されるようにしてもよい。
【0202】
そのような場合、スタジアム効果発生装置11は、例えば図15に示すように構成される。なお、図15において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0203】
図15に示すスタジアム効果発生装置11は、図1に示すスタジアム効果発生装置11にさらにバーチャルサラウンド生成部291が設けられ、他の点では図1のスタジアム効果発生装置11と同じ構成となっている。
【0204】
バーチャルサラウンド生成部291は、スタジアム残響付加部24から供給されたLチャンネルとRチャンネルからなるリア信号と、加算部25から供給されたLチャンネルとRチャンネルからなるフロント信号とに基づいて、LチャンネルとRチャンネルからなるステレオ信号を生成し、出力する。例えば、ステレオ信号の生成は、頭部伝達関数(HRTF(Head Related Transfer Function))を用いたリア信号やフロント信号の畳み込み演算などにより行なわれる。
【0205】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0206】
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0207】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0208】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0209】
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
【0210】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0211】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0212】
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0213】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0214】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0215】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0216】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0217】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0218】
さらに、本技術は、以下の構成とすることも可能である。
【0219】
[1]
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。
[2]
前記ナレーションキャンセル部は、擬似歓声成分が含まれる前記ナレーションキャンセル信号を生成する
[1]に記載の音声処理装置。
[3]
前記ナレーションキャンセル部は、複数チャンネルの前記入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算して前記ナレーションキャンセル信号とする
[1]に記載の音声処理装置。
[4]
前記ナレーションキャンセル部は、擬似歓声成分である擬似歓声信号をさらに生成し、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算して前記ナレーションキャンセル信号とする
[3]に記載の音声処理装置。
[5]
前記ナレーションキャンセル部は、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なう
[4]に記載の音声処理装置。
[6]
前記入力信号は、スポーツに関するコンテンツの音声信号である
[4]または[5]に記載の音声処理装置。
[7]
前記ナレーションキャンセル部は、前記入力信号に基づいて得点シーンを検出し、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
[6]に記載の音声処理装置。
[8]
前記ナレーションキャンセル部は、前記入力信号に基づいて非歓声シーンを検出し、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
[6]または[7]に記載の音声処理装置。
[9]
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。
[10]
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0220】
11 スタジアム効果発生装置, 21 ナレーションキャンセル部, 24 スタジアム残響付加部, 25 加算部, 41 ステレオセンター抑圧部, 42 センター定位信号除去部, 44 加算部, 45 ゴールシーン検出部, 46 歓声検出部, 47 擬似歓声生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16