特許6369331 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許6369331音声処理装置および方法、並びにプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6369331

(24)【登録日】2018年7月20日

(45)【発行日】2018年8月8日

(54)【発明の名称】音声処理装置および方法、並びにプログラム

(51)【国際特許分類】

H04S 5/02 20060101AFI20180730BHJP

【ＦＩ】

H04S5/02

【請求項の数】11

【全頁数】28

(21)【出願番号】特願2014-553072(P2014-553072)

(86)(22)【出願日】2013年12月5日

(86)【国際出願番号】JP2013082692

(87)【国際公開番号】WO2014097893

(87)【国際公開日】20140626

【審査請求日】2016年11月14日

(31)【優先権主張番号】特願2012-277063(P2012-277063)

(32)【優先日】2012年12月19日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニー株式会社

(74)【代理人】

【識別番号】100121131

【弁理士】

【氏名又は名称】西川孝

(74)【代理人】

【識別番号】100082131

【弁理士】

【氏名又は名称】稲本義雄

(72)【発明者】

【氏名】野口雅義

(72)【発明者】

【氏名】高橋直也

(72)【発明者】

【氏名】藤原真志

(72)【発明者】

【氏名】白石吾朗

(72)【発明者】

【氏名】藤下金章

【審査官】三森雄介

(56)【参考文献】

【文献】特開２００１−０６９５９７（ＪＰ，Ａ）

【文献】特開２００９−１９３０３１（ＪＰ，Ａ）

【文献】特開２０１２−０１９４５４（ＪＰ，Ａ）

【文献】特開平１０−２２５５７２（ＪＰ，Ａ）

【文献】特開２０１１−２５０１００（ＪＰ，Ａ）

【文献】特開２００８−１６４８２３（ＪＰ，Ａ）

【文献】実開平５−３９１００（ＪＰ，Ｕ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−１３／１０

Ｇ１０Ｌ１９／００−９９／００

Ｈ０４Ｒ３／００− ３／１４

Ｈ０４Ｓ１／００− ７／００

(57)【特許請求の範囲】

【請求項1】

入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。

【請求項2】

入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。

【請求項3】

入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。

【請求項4】

複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。

【請求項5】

前記ナレーションキャンセル部は、擬似歓声成分である擬似歓声信号をさらに生成し、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算して前記ナレーションキャンセル信号とする
請求項４に記載の音声処理装置。

【請求項6】

前記ナレーションキャンセル部は、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なう
請求項５に記載の音声処理装置。

【請求項7】

前記入力信号は、スポーツに関するコンテンツの音声信号である
請求項５または請求項６に記載の音声処理装置。

【請求項8】

前記ナレーションキャンセル部は、前記入力信号に基づいて得点シーンを検出し、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
請求項７に記載の音声処理装置。

【請求項9】

前記ナレーションキャンセル部は、前記入力信号に基づいて非歓声シーンを検出し、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
請求項７または請求項８に記載の音声処理装置。

【請求項10】

複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。

【請求項11】

複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より臨場感のある音声を得ることができるようにした音声処理装置および方法、並びにプログラムに関する。

【背景技術】

【0002】

従来、野球やサッカー等のスポーツ中継のコンテンツの音声信号に対して音声処理を施すことで、より臨場感のある音声を生成する技術が知られている。例えば、そのような技術として、ユーザが音声の距離感や広がり感を設定できるようにすることで、音声の臨場感を調整できるようにする技術が提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第４６０２２０４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところが、上述した技術では、音声信号に対して臨場感を向上させる処理を施すと、スポーツ中継時におけるアナウンサや解説者の声が大きいときには、その声がかえって耳障りになってしまい、十分な臨場感が得られなくなってしまう。

【0005】

本技術は、このような状況に鑑みてなされたものであり、より臨場感のある音声を得ることができるようにするものである。

【課題を解決するための手段】

【0006】

本技術の第１の側面の音声処理装置は、入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成するナレーションキャンセル部と、前記ナレーションキャンセル信号に残響効果を付加する残響付加部とを備える。

【0007】

本技術の第１の側面の音声処理方法またはプログラムは、入力信号からナレーション成分を除去して擬似歓声成分が含まれるナレーションキャンセル信号を生成し、前記ナレーションキャンセル信号に残響効果を付加するステップを含む。
本技術の第１の側面においては、入力信号からナレーション成分が除去されて擬似歓声成分が含まれるナレーションキャンセル信号が生成され、前記ナレーションキャンセル信号に残響効果が付加される。

【0008】

本技術の第２の側面の音声処理装置は、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成させるとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成させ、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成するナレーションキャンセル部と、前記ナレーションキャンセル信号に残響効果を付加する残響付加部とを備える。

【0009】

前記ナレーションキャンセル部には、擬似歓声成分である擬似歓声信号をさらに生成させ、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算させて前記ナレーションキャンセル信号とさせることができる。

【0010】

前記ナレーションキャンセル部には、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なわせることができる。

【0011】

前記入力信号を、スポーツに関するコンテンツの音声信号とすることができる。

【0012】

前記ナレーションキャンセル部には、前記入力信号に基づいて得点シーンを検出させ、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なわせることができる。

【0013】

前記ナレーションキャンセル部には、前記入力信号に基づいて非歓声シーンを検出させ、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なわせることができる。

【0014】

本技術の第２の側面の音声処理方法またはプログラムは、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号を生成し、前記ナレーションキャンセル信号に残響効果を付加するステップを含む。

【0015】

本技術の第２の側面においては、複数チャンネルの入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号が生成されるとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号が生成され、前記センター抑圧信号と前記センター定位除去信号を加算することで前記入力信号からナレーション成分が除去されたナレーションキャンセル信号が生成され、前記ナレーションキャンセル信号に残響効果が付加される。

【発明の効果】

【0016】

本技術の第１の側面および第２の側面によれば、より臨場感のある音声を得ることができる。

【図面の簡単な説明】

【0017】

【図1】スタジアム効果発生装置の構成例を示す図である。

【図2】ナレーションキャンセル部の構成例を示す図である。

【図3】ステレオセンター抑圧部の構成例を示す図である。

【図4】センター定位信号除去部の構成例を示す図である。

【図5】ノイズ低減部の構成例を示す図である。

【図6】ゴールシーン検出部の構成例を示す図である。

【図7】歓声検出部の構成例を示す図である。

【図8】擬似歓声生成部の構成例を示す図である。

【図9】擬似歓声レベル制御部の構成例を示す図である。

【図10】スタジアム効果発生処理を説明するフローチャートである。

【図11】ノイズの低減について説明する図である。

【図12】フィルタ特性と音色制御について説明する図である。

【図13】擬似歓声量の決定について説明する図である。

【図14】擬似歓声レベル制御部の他の構成例を示す図である。

【図15】スタジアム効果発生装置の他の構成例を示す図である。

【図16】コンピュータの構成例を示す図である。

【発明を実施するための形態】

【0018】

以下、図面を参照して、本技術を適用した実施の形態について説明する。

【0019】

〈第１の実施の形態〉
〈スタジアム効果発生装置の構成例〉
本技術は、スポーツ中継等のコンテンツの音声信号からアナウンサや解説者等の音声、つまりナレーションの音声を除去するとともに、ナレーションが除去された音声信号に対してさらに残響を付加することにより、より臨場感のある音声を得るものである。

【0020】

なお、処理対象とされるコンテンツは、ナレーションが含まれるコンテンツであれば、どのようなコンテンツであってもよいが、以下では、サッカー中継の番組が処理対象のコンテンツである場合を例として説明を続けることとする。

【0021】

図１は、本技術を適用したスタジアム効果発生装置の一実施の形態の構成例を示す図である。

【0022】

スタジアム効果発生装置１１には、処理対象のコンテンツであるサッカー中継の番組の音声信号が入力信号として供給される。例えば入力信号は、Ｒチャンネルの音声信号とＬチャンネルの音声信号からなる２チャンネルのステレオ信号とされる。

【0023】

以下では、入力信号は、ＲとＬの２チャンネルのステレオ信号であるとして説明を続けるが、入力信号はモノラル信号であってもよいし、３チャンネル以上のマルチチャンネル信号であってもよい。また、以下では、入力信号を構成するＲチャンネルまたはＬチャンネルの音声信号を、ＲチャンネルまたはＬチャンネルの入力信号とも称することとする。

【0024】

スタジアム効果発生装置１１は、供給された入力信号からナレーションを除去するとともに、ナレーションが除去された信号に対してサッカーの試合会場であるスタジアムの残響を付加することで、入力信号に対するスタジアム効果を発生させる。これにより、スタジアム効果発生装置１１から出力される音声信号は、受聴者があたかもスタジアムにいるかのような臨場感を得ることのできるものとなる。

【0025】

スタジアム効果発生装置１１は、ナレーションキャンセル部２１、コントローラ２２、セレクタ２３、スタジアム残響付加部２４、および加算部２５から構成される。

【0026】

ナレーションキャンセル部２１は、供給された入力信号からナレーションの音声を除去するとともに、擬似的な歓声である擬似歓声成分を入力信号に付加することでナレーションキャンセル信号を生成する。ナレーションキャンセル信号は、主に、もとの音声からナレーションが除去されて残った観客の歓声等の成分と、付加された擬似歓声成分とからなるステレオ信号である。

【0027】

ナレーションキャンセル部２１は、入力信号から得られたナレーションキャンセル信号を、セレクタ２３およびスタジアム残響付加部２４に供給する。

【0028】

コントローラ２２は、例えばユーザの入力操作等に応じてセレクタ２３による音声信号の出力を制御する。セレクタ２３は、コントローラ２２の制御にしたがって、供給された入力信号と、ナレーションキャンセル部２１から供給されたナレーションキャンセル信号との何れか一方を加算部２５に供給する。

【0029】

スタジアム残響付加部２４は、ナレーションキャンセル部２１から供給されたナレーションキャンセル信号に対してフィルタ等を用いた音響処理を施すことで、ナレーションキャンセル信号の音声にスタジアムにおける残響効果を付加する。なお、残響効果を実現するフィルタ等の特性が、スタジアムごとに異なるようにしてもよい。

【0030】

スタジアム残響付加部２４は、ナレーションキャンセル信号に対する残響付加により得られたフロント信号とリア信号を、それぞれ加算部２５と後段のスピーカ等に出力する。

【0031】

ここで、フロント信号とは音声の再生位置、つまり音源位置が受聴者の前方となる音声信号であり、リア信号とは音声の再生位置が受聴者の後方となる音声信号である。また、フロント信号もリア信号もＲチャンネルとＬチャンネルの２つの信号から構成される。

【0032】

加算部２５は、セレクタ２３から供給された入力信号またはナレーションキャンセル信号と、スタジアム残響付加部２４から供給されたフロント信号とを加算して、最終的なフロント信号とし、後段のスピーカ等に出力する。

【0033】

なお、ここでは、加算部２５における加算処理により得られた信号が最終的なフロント信号とされる例について説明したが、スタジアム残響付加部２４で得られたフロント信号が最終的なフロント信号とされ、そのまま出力されるようにしてもよい。

【0034】

〈ナレーションキャンセル部の構成例〉
また、図１のナレーションキャンセル部２１は、より詳細には図２に示すように構成される。

【0035】

ナレーションキャンセル部２１は、ステレオセンター抑圧部４１、センター定位信号除去部４２、ノイズ低減部４３、加算部４４、ゴールシーン検出部４５、歓声検出部４６、擬似歓声生成部４７、および加算部４８から構成される。

【0036】

ステレオセンター抑圧部４１は、供給された入力信号のＲチャンネルとＬチャンネルのセンター定位成分を抑圧してステレオセンター抑圧信号を生成し、加算部４４に供給する。

【0037】

ステレオセンター抑圧部４１では入力信号のセンター定位成分、つまり受聴者からみて中央に定位する音声成分はナレーション成分であるとされ、ＲとＬの各チャンネルの入力信号のセンター定位成分を抑圧して得られたステレオ信号が、ステレオセンター抑圧信号とされる。このようにして得られるステレオセンター抑圧信号は、ナレーション成分が完全に除去された信号ではないが、２チャンネルのステレオ信号であるため、臨場感のある音声信号である。

【0038】

センター定位信号除去部４２は、供給された入力信号に基づいて、センター定位成分が除去されたモノラル信号をセンター定位除去信号として生成し、ノイズ低減部４３および擬似歓声生成部４７に供給する。このようにして得られるセンター定位除去信号は、モノラル信号であるため十分な臨場感が得られる信号ではないが、十分にナレーション成分が除去された信号である。

【0039】

ノイズ低減部４３は、センター定位信号除去部４２から供給されたセンター定位除去信号からノイズ成分を除去し、加算部４４に供給する。例えば、センター定位除去信号の特に高域にはノイズが含まれてしまうことがあるので、ノイズ低減部４３は、センター定位除去信号の高域ノイズの除去を行なう。

【0040】

加算部４４は、ステレオセンター抑圧部４１からのステレオセンター抑圧信号と、ノイズ低減部４３からのセンター定位除去信号とを加算して、加算部４８に供給する。

【0041】

ゴールシーン検出部４５は、供給された入力信号からサッカーの試合時におけるゴールシーン、つまり得点シーンを検出し、その検出結果を示すゴールシーン検出信号を擬似歓声生成部４７に供給する。

【0042】

なお、ここでは、特にコンテンツにおいて相対的にナレーション成分の音量が大きくなる特徴的なシーンとして、ゴールシーンを検出する例について説明するが、ゴールシーンに限らず、他のシーンが検出されるようにしてもよい。

【0043】

歓声検出部４６は、供給された入力信号に基づいて歓声が起こっているシーン（以下、歓声シーンとも称する）を検出し、その検出結果を示す歓声検出信号を擬似歓声生成部４７に供給する。

【0044】

擬似歓声生成部４７は、供給された入力信号、センター定位信号除去部４２からのセンター定位除去信号、ゴールシーン検出部４５からのゴールシーン検出信号、および歓声検出部４６からの歓声検出信号に基づいて、擬似歓声成分である擬似歓声信号を生成し、加算部４８に供給する。

【0045】

加算部４８は、加算部４４から供給された信号と、擬似歓声生成部４７から供給された擬似歓声信号とを加算してナレーションキャンセル信号を生成し、セレクタ２３およびスタジアム残響付加部２４に供給する。

【0046】

〈ステレオセンター抑圧部の構成例〉
続いて、図２のナレーションキャンセル部２１を構成するステレオセンター抑圧部４１、センター定位信号除去部４２、ノイズ低減部４３、ゴールシーン検出部４５、歓声検出部４６、および擬似歓声生成部４７のより詳細な構成例について説明する。

【0047】

例えば、ステレオセンター抑圧部４１は、より詳細には図３に示すように構成される。

【0048】

図３では、ステレオセンター抑圧部４１は、センター定位信号検出部７１、減算部７２、増幅部７３、減算部７４、および増幅部７５から構成される。

【0049】

センター定位信号検出部７１は、供給されたＬチャンネルおよびＲチャンネルの入力信号に基づいて入力信号のセンター定位成分を検出し、減算部７２および減算部７４に供給する。

【0050】

減算部７２は、供給されたＬチャンネルの入力信号から、センター定位信号検出部７１から供給されたセンター定位成分を減算し、得られた信号をステレオセンター抑圧信号のＬチャンネルの信号として増幅部７３に供給する。なお、以下、ステレオセンター抑圧信号のＬチャンネルの信号を、Ｌチャンネルのステレオセンター抑圧信号とも称する。

【0051】

増幅部７３は、減算部７２から供給されたＬチャンネルのステレオセンター抑圧信号を増幅させ、加算部４４に供給する。

【0052】

減算部７４は、供給されたＲチャンネルの入力信号から、センター定位信号検出部７１から供給されたセンター定位成分を減算し、得られた信号をステレオセンター抑圧信号のＲチャンネルの信号として増幅部７５に供給する。なお、以下、ステレオセンター抑圧信号のＲチャンネルの信号を、Ｒチャンネルのステレオセンター抑圧信号とも称する。

【0053】

増幅部７５は、減算部７４から供給されたＲチャンネルのステレオセンター抑圧信号を増幅させ、加算部４４に供給する。

【0054】

〈センター定位信号除去部の構成例〉
また、センター定位信号除去部４２は、例えば図４に示すように構成される。

【0055】

センター定位信号除去部４２は、減算部１０１から構成される。減算部１０１は、供給されたＬチャンネルの入力信号から、Ｒチャンネルの入力信号を減算し、その結果得られたセンター定位除去信号をノイズ低減部４３および擬似歓声生成部４７に供給する。

【0056】

〈ノイズ低減部の構成例〉
さらにノイズ低減部４３は、例えば図５に示すように構成される。

【0057】

ノイズ低減部４３は、高域成分集中区間検出部１３１、フィルタ処理部１３２、逆フィルタ処理部１３３、遅延部１３４、および補間処理部１３５から構成される。

【0058】

高域成分集中区間検出部１３１は、減算部１０１から供給されたセンター定位除去信号に基づいて、センター定位除去信号における高域にエネルギが集中している区間（以下、高域成分集中区間と称する）を検出する。そして高域成分集中区間検出部１３１は、その検出結果を示す高域成分集中区間検出信号をフィルタ処理部１３２および補間処理部１３５に供給する。

【0059】

フィルタ処理部１３２は、高域成分集中区間検出部１３１から供給された高域成分集中区間検出信号に基づいて、減算部１０１から供給されたセンター定位除去信号に対するフィルタ処理を行い、補間処理部１３５に供給する。フィルタ処理部１３２では、高域成分集中区間におけるセンター定位除去信号の高域成分がノイズ成分であるとされ、フィルタ処理によりセンター定位除去信号の高域成分集中区間における高域成分が抑圧される。

【0060】

逆フィルタ処理部１３３は、フィルタ処理部１３２が有するフィルタの逆特性を有するフィルタ（以下、逆フィルタと称する）を用いて、減算部１０１から供給されたセンター定位除去信号に対してフィルタ処理を行い、遅延部１３４に供給する。この逆フィルタを用いたフィルタ処理により、センター定位除去信号の低域成分が除去され、高域成分のみが抽出される。

【0061】

遅延部１３４は、逆フィルタ処理部１３３から供給された音声信号を所定時間だけ遅延させ、補間処理部１３５に供給する。

【0062】

補間処理部１３５は、高域成分集中区間検出部１３１からの高域成分集中区間検出信号と、遅延部１３４からの音声信号とに基づいて、フィルタ処理部１３２から供給された音声信号に対する補間処理を行い、その結果得られた音声信号を加算部４４に供給する。補間処理では、センター定位除去信号から除去された高域成分が補間され、これによりノイズが低減されたセンター定位除去信号が得られる。

【0063】

なお、ノイズ低減部４３におけるセンター定位除去信号のノイズの低減時に、入力信号が用いられるようにしてもよい。

【0064】

〈ゴールシーン検出部の構成例〉
また、ゴールシーン検出部４５は、例えば図６に示すように構成される。

【0065】

図６ではゴールシーン検出部４５は、加算部１６１、スペクトル分析部１６２、特徴量抽出部１６３、および判別部１６４から構成される。

【0066】

加算部１６１は、供給されたＬチャンネルの入力信号とＲチャンネルの入力信号とを加算してスペクトル分析部１６２に供給する。スペクトル分析部１６２は、加算部１６１から供給された、加算後の入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部１６３に供給する。例えばスペクトル分析は、BPF（Band Pass Filter）を用いたフィルタ処理やFFT（Fast Fourier Transform）などにより行なわれる。

【0067】

特徴量抽出部１６３は、スペクトル分析部１６２から供給されたスペクトルから特徴量を抽出し、判別部１６４に供給する。

【0068】

判別部１６４は、特徴量抽出部１６３から供給された特徴量に基づいて線形識別などを行なって、入力信号からゴールシーンを検出する。判別部１６４は、ゴールシーンの検出結果を示すゴールシーン検出信号を擬似歓声生成部４７に供給する。

【0069】

〈歓声検出部の構成例〉
さらに、歓声検出部４６は、例えば図７に示すように構成される。

【0070】

図７では歓声検出部４６は、スペクトル分析部１９１、特徴量抽出部１９２、および判別部１９３から構成される。

【0071】

スペクトル分析部１９１は、供給された入力信号のうちのＬチャンネルの入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部１９２に供給する。例えばスペクトル分析は、BPFを用いたフィルタ処理やFFTなどにより行なわれる。

【0072】

なお、ここではＬチャンネルの入力信号に対してスペクトル分析が行なわれる例について説明するが、Ｒチャンネルの入力信号に対してスペクトル分析が行なわれてもよい。また、Ｌチャンネルの入力信号から、Ｒチャンネルの入力信号を減算して得られた信号に対してスペクトル分析が行なわれてもよい。

【0073】

特徴量抽出部１９２は、スペクトル分析部１９１から供給されたスペクトルから特徴量を抽出し、判別部１９３に供給する。

【0074】

判別部１９３は、特徴量抽出部１９２から供給された特徴量に基づいて線形識別などを行なって、入力信号から歓声シーンを検出し、その検出結果を示す歓声検出信号を擬似歓声生成部４７に供給する。

【0075】

〈擬似歓声生成部の構成例〉
さらに、図２の擬似歓声生成部４７は、例えば図８に示すように構成される。

【0076】

図８に示す擬似歓声生成部４７は、加算部２２１、フィルタ処理部２２２、レベル検出部２２３、LPF（Low Pass Filter）２２４、レベル検出部２２５、レベル検出部２２６、LPF２２７、レベル検出部２２８、音色制御部２２９、擬似歓声レベル制御部２３０、ランダムノイズ生成部２３１、フィルタ処理部２３２、増幅部２３３、フィルタ処理部２３４、増幅部２３５、および加算部２３６から構成される。

【0077】

加算部２２１は、供給されたＬチャンネルの入力信号とＲチャンネルの入力信号とを加算して、フィルタ処理部２２２およびLPF２２４に供給する。

【0078】

フィルタ処理部２２２は、人の声、より具体的にはナレーションを除去するためのフィルタを用いて、加算部２２１から供給された入力信号に対するフィルタ処理を行なって、その結果得られた信号をレベル検出部２２３に供給する。

【0079】

例えば、フィルタ処理部２２２により用いられるフィルタは、入力信号の中域成分を除去するBPFや、人の声の帯域を除去するHPF（High Pass Filter）などとされる。

【0080】

レベル検出部２２３は、フィルタ処理部２２２から供給された信号のレベル（以下、検出レベルＡ１とも称する）を検出し、その検出結果を音色制御部２２９および擬似歓声レベル制御部２３０に供給する。レベル検出部２２３で得られる検出レベルＡ１は、入力信号の中高域成分のレベルである。

【0081】

LPF２２４は、加算部２２１から供給された入力信号に対してLPFを用いたフィルタ処理を行い、レベル検出部２２５に供給する。レベル検出部２２５は、LPF２２４から供給された信号のレベル（以下、検出レベルＡ２とも称する）を検出し、その検出結果を擬似歓声レベル制御部２３０に供給する。レベル検出部２２５で得られる検出レベルＡ２は、入力信号の低域成分のレベルである。

【0082】

レベル検出部２２６は、センター定位信号除去部４２の減算部１０１から供給されたセンター定位除去信号のレベル（以下、検出レベルＢ１とも称する）を検出し、その検出結果を擬似歓声レベル制御部２３０に供給する。

【0083】

LPF２２７は、減算部１０１から供給されたセンター定位除去信号に対してLPFを用いたフィルタ処理を行い、レベル検出部２２８に供給する。レベル検出部２２８は、LPF２２７から供給された信号のレベル（以下、検出レベルＢ２とも称する）を検出し、その検出結果を擬似歓声レベル制御部２３０に供給する。レベル検出部２２８で得られる検出レベルＢ２は、センター定位除去信号の低域成分のレベルである。

【0084】

音色制御部２２９は、レベル検出部２２３からの検出レベルＡ１と、ゴールシーン検出部４５の判別部１６４からのゴールシーン検出信号とに基づいて、フィルタ処理部２３４によるフィルタ処理を制御する。

【0085】

擬似歓声レベル制御部２３０は、レベル検出部２２３からの検出レベルＡ１、レベル検出部２２６からの検出レベルＢ１、判別部１６４からのゴールシーン検出信号、および歓声検出部４６の判別部１９３からの歓声検出信号に基づいて、増幅部２３５による増幅処理を制御する。

【0086】

また、擬似歓声レベル制御部２３０は、レベル検出部２２５からの検出レベルＡ２、レベル検出部２２８からの検出レベルＢ２、判別部１６４からのゴールシーン検出信号、および判別部１９３からの歓声検出信号に基づいて、増幅部２３３による増幅処理を制御する。

【0087】

ランダムノイズ生成部２３１は、ランダムノイズ成分からなるランダムノイズ信号を生成し、フィルタ処理部２３２およびフィルタ処理部２３４に供給する。

【0088】

フィルタ処理部２３２は、ランダムノイズ生成部２３１から供給されたランダムノイズ信号に対してLPF等のフィルタを用いたフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部２３３に供給する。例えば、フィルタ処理部２３２で得られる擬似歓声信号は、試合会場であるスタジアムで生じる地鳴りのような周波数が低い低域成分のみからなる音声信号とされる。

【0089】

増幅部２３３は、擬似歓声レベル制御部２３０の制御にしたがって、フィルタ処理部２３２から供給された擬似歓声信号を増幅させ、加算部２３６に供給する。

【0090】

フィルタ処理部２３４は、音色制御部２２９の制御に応じてフィルタを可変させ、ランダムノイズ生成部２３１から供給されたランダムノイズ信号に対してフィルタを用いたフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部２３５に供給する。

【0091】

例えば、フィルタ処理部２３４では、フィルタを可変させることにより、生成される擬似歓声信号の音色が制御される。フィルタ処理部２３４で得られる擬似歓声信号は、スタジアムで生じる観客の歓声のような比較的周波数が高い中高域成分のみからなる音声信号とされる。

【0092】

増幅部２３５は、擬似歓声レベル制御部２３０の制御にしたがって、フィルタ処理部２３４から供給された擬似歓声信号を増幅させ、加算部２３６に供給する。

【0093】

加算部２３６は、増幅部２３３から供給された擬似歓声信号と、増幅部２３５から供給された擬似歓声信号とを加算し、その結果得られた最終的な擬似歓声信号をナレーションキャンセル部２１の加算部４８に供給する。

【0094】

〈擬似歓声レベル制御部の構成例〉
また、図８の擬似歓声レベル制御部２３０は、より詳細には例えば図９に示すように構成される。

【0095】

図９では、擬似歓声レベル制御部２３０は、ゴールシーン検出区間制御部２６１、非歓声検出部２６２、非歓声検出区間制御部２６３、擬似歓声量検出部２６４、ゴールシーン検出区間制御部２６５、非歓声検出区間制御部２６６、および擬似歓声量検出部２６７から構成される。

【0096】

ゴールシーン検出区間制御部２６１は、判別部１６４からのゴールシーン検出信号に基づいて、レベル検出部２２３からの検出レベルＡ１のレベル調整を行い、非歓声検出区間制御部２６３に供給する。

【0097】

非歓声検出部２６２は、判別部１９３から供給された歓声検出信号に基づいて、歓声シーンではない区間を非歓声シーン（非歓声区間）として検出し、その検出結果を非歓声検出区間制御部２６３および非歓声検出区間制御部２６６に供給する。

【0098】

例えば、非歓声検出部２６２は、インバータなどからなり、歓声検出信号を反転させることで非歓声シーンを示す非歓声検出信号を生成する。

【0099】

非歓声検出区間制御部２６３は、非歓声検出部２６２からの非歓声検出信号に基づいて、ゴールシーン検出区間制御部２６１から供給された検出レベルＡ１のレベル調整を行い、擬似歓声量検出部２６４に供給する。

【0100】

擬似歓声量検出部２６４は、非歓声検出区間制御部２６３から供給された検出レベルＡ１と、レベル検出部２２６から供給された検出レベルＢ１とを比較して擬似歓声信号の増幅量である擬似歓声量を定め、その擬似歓声量に基づいて増幅部２３５を制御する。

【0101】

ゴールシーン検出区間制御部２６５は、判別部１６４からのゴールシーン検出信号に基づいて、レベル検出部２２５からの検出レベルＡ２のレベル調整を行い、非歓声検出区間制御部２６６に供給する。

【0102】

非歓声検出区間制御部２６６は、非歓声検出部２６２からの非歓声検出信号に基づいて、ゴールシーン検出区間制御部２６５から供給された検出レベルＡ２のレベル調整を行い、擬似歓声量検出部２６７に供給する。

【0103】

擬似歓声量検出部２６７は、非歓声検出区間制御部２６６から供給された検出レベルＡ２と、レベル検出部２２８から供給された検出レベルＢ２とを比較して擬似歓声信号の増幅量である擬似歓声量を定め、その擬似歓声量に基づいて増幅部２３３を制御する。

【0104】

〈スタジアム効果発生処理の説明〉
ところで、スタジアム効果発生装置１１に入力信号が供給され、入力信号に対するスタジアム効果の付加が指示されると、スタジアム効果発生装置１１はスタジアム効果発生処理を行なって、フロント信号およびリア信号を出力する。

【0105】

以下、図１０のフローチャートを参照して、スタジアム効果発生装置１１により行なわれるスタジアム効果発生処理について説明する。

【0106】

ステップＳ１１において、ステレオセンター抑圧部４１は、供給された入力信号に基づいてステレオセンター抑圧信号を生成する。

【0107】

例えば、センター定位信号検出部７１は、ＬチャンネルとＲチャンネルの入力信号のレベルおよび位相を比較し、それらのチャンネルの入力信号のレベルと位相が同じである場合、入力信号にはセンター定位成分が含まれているとする。そして、センター定位信号検出部７１は、ＬチャンネルとＲチャンネルの入力信号の共通成分をセンター定位成分として抽出し、減算部７２および減算部７４に供給する。

【0108】

減算部７２および減算部７４は、供給されたＬチャンネルの入力信号、およびＲチャンネルの入力信号から、センター定位信号検出部７１からのセンター定位成分を減算し、その結果得られたステレオセンター抑圧信号を増幅部７３および増幅部７５に供給する。

【0109】

増幅部７３および増幅部７５は、減算部７２および減算部７４から供給されたＬチャンネルおよびＲチャンネルのステレオセンター抑圧信号のレベル調整を行い、加算部４４に供給する。ここでのレベル調整は、ステレオセンター抑圧信号のレベルが、センター定位除去信号のレベルに対して適切なレベルとなるように行なわれる。

【0110】

ステップＳ１２において、センター定位信号除去部４２は、供給された入力信号に基づいてセンター定位除去信号を生成する。すなわち、減算部１０１は、Ｌチャンネルの入力信号から、Ｒチャンネルの入力信号を減算してセンター定位除去信号を生成し、ノイズ低減部４３および擬似歓声生成部４７に供給する。

【0111】

ステップＳ１３において、ノイズ低減部４３は、減算部１０１から供給されたセンター定位除去信号に対してノイズ低減処理を行い、加算部４４に供給する。

【0112】

例えば、図１１の矢印Ａ１１に示すように、センター定位除去信号の一部の区間の高域成分にノイズが含まれていたとする。

【0113】

なお、図１１において、矢印Ａ１１乃至矢印Ａ１６は、それぞれセンター定位除去信号、高域成分集中区間検出信号、フィルタ処理部１３２の出力、逆フィルタ処理部１３３の出力、遅延部１３４の出力、およびノイズ低減されたセンター定位除去信号を示している。また、矢印Ａ１１および矢印Ａ１３乃至矢印Ａ１６に示す各信号において、横方向は時間を示しており、縦方向は周波数を示している。さらに、矢印Ａ１１および矢印Ａ１３乃至矢印Ａ１６に示す各信号の各領域の濃淡は、各時刻における各周波数のパワーを表しており、濃度が濃い領域ほどパワーが大きい領域となっている。

【0114】

図１１の例では、矢印Ａ１１に示すセンター定位除去信号では、矢印Ｑ１１および矢印Ｑ１２に示す領域において、他の領域よりもパワーが大きくなっている。

【0115】

高域成分集中区間検出部１３１は、例えば矢印Ａ１１に示すセンター定位除去信号の各周波数のパワーを参照することで、センター定位除去信号のうち、矢印Ｑ１１および矢印Ｑ１２に示す領域を含む区間を高域成分集中区間として検出する。そして、高域成分集中区間検出部１３１は、その検出結果として矢印Ａ１２に示す高域成分集中区間検出信号をフィルタ処理部１３２および補間処理部１３５に供給する。

【0116】

矢印Ａ１２に示す高域成分集中区間検出信号では、矢印Ｑ１１および矢印Ｑ１２に示す領域を含む区間において、図中、縦方向に示される信号のレベルが上に凸となっており、高域成分集中区間であることを示している。

【0117】

なお、この例では、高域成分集中区間検出信号は、各区間が高域成分集中区間であるか否かを示しているが、高域成分集中区間検出信号が各区間の高域成分集中区間らしさの度合いを示す値とされるようにしてもよい。

【0118】

また、フィルタ処理部１３２は、保持しているフィルタを用いて、高域成分集中区間検出部１３１から供給された高域成分集中区間検出信号により示される高域成分集中区間において、減算部１０１からのセンター定位除去信号に対するフィルタ処理を行なう。

【0119】

これにより、矢印Ａ１３に示すように、センター定位除去信号の高域成分集中区間における高域成分が抑圧される。つまり、ノイズが低減される。

【0120】

このようにして得られたセンター定位除去信号は、フィルタ処理部１３２から補間処理部１３５に供給される。但し、矢印Ａ１３に示すセンター定位除去信号は、ノイズが低減された信号となっているが、高域成分集中区間における高域成分のパワーが低くなってしまう。そこで、矢印Ａ１３に示すセンター定位除去信号に対する補間処理が行なわれる。

【0121】

すなわち、逆フィルタ処理部１３３は、保持している逆フィルタを用いて、減算部１０１から供給されたセンター定位除去信号に対してフィルタ処理を行い、遅延部１３４に供給する。この逆フィルタを用いたフィルタ処理により、矢印Ａ１４に示すようにセンター定位除去信号の各時刻の低域成分が除去され、高域成分のみが抽出される。

【0122】

そして、遅延部１３４が逆フィルタ処理部１３３から供給された信号を所定時間だけ遅延させてから補間処理部１３５に供給すると、矢印Ａ１５に示すようにエネルギが集中している高域部分の領域が、時間方向にシフトされた信号が得られる。このようにして得られた信号では、高域成分集中区間検出信号により示される高域成分集中区間の高域の領域は、エネルギが集中している領域とはなっていない。つまり、ノイズが含まれていない信号成分となっている。

【0123】

そこで補間処理部１３５は、フィルタ処理部１３２から供給された信号における、高域成分集中区間検出信号により示される高域成分集中区間の高域の部分の領域に、遅延部１３４からの信号における高域成分集中区間の高域の部分の領域を足し込んで補間を行なう。

【0124】

これにより、例えば矢印Ａ１６に示す信号がノイズ低減されたセンター定位除去信号として得られる。補間処理部１３５は補間処理により得られたセンター定位除去信号を加算部４４に供給する。

【0125】

加算部４４は、増幅部７３からのＬチャンネルのステレオセンター抑圧信号と、増幅部７５からのＲチャンネルのステレオセンター抑圧信号とのそれぞれに、補間処理部１３５からのセンター定位除去信号を加算して、加算部４８に供給する。これにより、加算部４８には、入力信号のナレーションが除去された、ＬチャンネルとＲチャンネルからなるステレオ信号が供給される。

【0126】

このように、ナレーション成分が完全には除去されていないが、臨場感のあるステレオセンター抑圧信号と、臨場感はないがナレーションが除去されたセンター定位除去信号とを加算することで、ナレーションがほぼ除去された臨場感のある信号を得ることができる。

【0127】

図１０のフローチャートの説明に戻り、ステップＳ１４において、ゴールシーン検出部４５は、供給された入力信号に基づいてゴールシーンを検出する。例えば、入力信号からナレーションとして含まれている、解説者等により発せられた単語「ゴール」を検出することによりゴールシーンが検出される。

【0128】

具体的には、加算部１６１は、供給されたＬチャンネルとＲチャンネルの入力信号を加算してスペクトル分析部１６２に供給する。ＬチャンネルとＲチャンネルの入力信号を加算することで、センター定位成分、つまりナレーション成分がより大きくなり、入力信号にナレーションとして含まれている所望の単語の検出精度を向上させることができる。

【0129】

また、スペクトル分析部１６２は、加算部１６１からの入力信号に対するスペクトル分析を行ない、得られたスペクトルを特徴量抽出部１６３に供給する。

【0130】

特徴量抽出部１６３は、スペクトル分析部１６２から供給されたスペクトルに基づいて、スペクトル形状の変化量や、スペクトルのピークの度合いを示す特徴量を算出し、判別部１６４に供給する。

【0131】

例えば、通常のナレーションではスペクトルの形状は激しく変化するが、ナレーションとして単語「ゴール」が含まれている場合には、スペクトルの形状はあまり変化しない。また、ナレーションとして単語「ゴール」が含まれている場合、スペクトルにおいて、その単語の発話者に特有の周波数に鋭いピークが出現する。

【0132】

これらのことから、ゴールシーン検出部４５では、スペクトル形状の変化量や、スペクトルのピークの度合いを特徴量として算出し、その特徴量に基づいて、入力信号からゴールシーンを検出する。つまり、ゴールシーンらしさが求められる。

【0133】

具体的には、判別部１６４は、特徴量抽出部１６３からの特徴量に基づいて線形識別などを行なうことでゴールシーンを検出し、その検出結果を示すゴールシーン検出信号を擬似歓声生成部４７に供給する。

【0134】

なお、ゴールシーン検出信号は、ゴールシーンらしいか否かを示す信号とされてもよいが、ゴールシーンらしさの度合いを示す多値の信号とされてもよい。

【0135】

ステップＳ１５において、歓声検出部４６は、供給された入力信号から歓声を検出する。

【0136】

すなわち、スペクトル分析部１９１は、供給されたＬチャンネルの入力信号に対するスペクトル分析を行ない、その結果得られたスペクトルを特徴量抽出部１９２に供給する。特徴量抽出部１９２は、スペクトル分析部１９１からのスペクトルから特徴量を抽出し、判別部１９３に供給する。

【0137】

例えば、特徴量として低域レベルの入力信号全体の帯域のレベルに対する割合、高域レベルの入力信号全体の帯域のレベルに対する割合、歓声帯域レベルの入力信号全体の帯域のレベルに対する割合、およびスペクトルにおけるピークの立ち具合が算出される。

【0138】

ここで、特徴量として算出された低域レベル、高域レベル、および歓声帯域レベルのそれぞれの全体の帯域のレベルに対する割合は、入力信号のスペクトル形状が、歓声に特有のスペクトル形状となっているかを特定するために用いられる。

【0139】

例えば、低域レベルや高域レベルが帯域全体のレベルに対して大きい場合には、入力信号に基づく音声は、人の歓声とは異なる音楽などの音が大きい音声である可能性が高いので、そのような場合には、入力信号は歓声シーンらしくないとされる。

【0140】

また、歓声帯域レベルが帯域全体のレベルに対して大きい場合には、入力信号に基づく音声には、歓声が含まれている可能性が高いので、そのような場合には、入力信号は歓声シーンらしいとされる。但し、入力信号にナレーションが含まれている場合には、そのナレーションに関係する周波数位置に鋭いピークが出現するので、スペクトルにおける鋭いピークが出現した周波数の成分は、歓声帯域レベルの算出から除外される。

【0141】

さらに、歓声が起こっているシーンのスペクトルは、鋭いピークがなくなだらかな形状のスペクトルとなる。これに対して、ＣＭ（Commercial Message）等の音楽が流れているシーンなどではスペクトルに鋭いピークが出現する。したがって、特徴量として算出されるピークの立ち具合から、スペクトルに鋭いピークが多く出現していることが分かる場合には、入力信号は歓声シーンらしくないとされる。

【0142】

判別部１９３は、特徴量抽出部１９２から供給された特徴量に基づいて線形識別などを行なうことで入力信号から歓声シーンを検出し、その検出結果を示す歓声検出信号を擬似歓声生成部４７に供給する。

【0143】

なお、ゴールシーンでは、スペクトルにナレーションに起因する鋭いピークが出現するが、そのようなシーンにおいては特徴量として算出されるピークの立ち具合、つまりピークの度合いによって、歓声らしさの度合いが低下してしまう。

【0144】

そこで、判別部１９３が、ゴールシーン検出信号の供給を受けて、ゴールシーンの検出結果を考慮し、歓声シーンらしさの判別を行なうようにしてもよい。そのような場合、例えば歓声シーンらしさが時間とともに低下しており、かつゴールシーンであるとされている場合には、歓声シーンらしさが低下しないようにされる。

【0145】

また、歓声検出信号は、歓声シーンらしいか否かを示す信号とされてもよいが、歓声シーンらしさの度合いを示す多値の信号とされてもよい。

【0146】

ステップＳ１６において、擬似歓声生成部４７は、入力信号のレベルを検出する。

【0147】

具体的には、加算部２２１は、供給されたＬチャンネルとＲチャンネルの入力信号を加算して、フィルタ処理部２２２およびLPF２２４に供給する。

【0148】

フィルタ処理部２２２は、加算部２２１から供給された入力信号に対するフィルタ処理を行なって、ナレーションが除去された入力信号をレベル検出部２２３に供給する。レベル検出部２２３は、フィルタ処理部２２２から供給された信号の絶対値の包絡線から検出レベルＡ１を算出し、音色制御部２２９および擬似歓声レベル制御部２３０に供給する。

【0149】

また、LPF２２４は、加算部２２１から供給された入力信号に対してLPFを用いたフィルタ処理を行い、レベル検出部２２５に供給する。レベル検出部２２５は、LPF２２４から供給された信号の絶対値の包絡線から検出レベルＡ２を算出し、擬似歓声レベル制御部２３０に供給する。

【0150】

ステップＳ１７において、擬似歓声生成部４７は、センター定位除去信号のレベルを検出する。

【0151】

すなわち、レベル検出部２２６は、減算部１０１から供給されたセンター定位除去信号の絶対値の包絡線から検出レベルＢ１を算出し、擬似歓声レベル制御部２３０に供給する。

【0152】

また、LPF２２７は、減算部１０１から供給されたセンター定位除去信号に対してLPFを用いたフィルタ処理を行い、レベル検出部２２８に供給する。レベル検出部２２８は、LPF２２７から供給された信号の絶対値の包絡線から検出レベルＢ２を算出し、擬似歓声レベル制御部２３０に供給する。

【0153】

ステップＳ１８において、音色制御部２２９は、レベル検出部２２３からの検出レベルＡ１と、判別部１６４からのゴールシーン検出信号とに基づいて擬似歓声信号の音色制御を行なう。

【0154】

例えば、音色制御部２２９は、検出レベルＡ１が徐々に増加している場合には、試合会場が盛り上がってきているとして音色が高くなるようにし、逆に検出レベルＡ１が徐々に減少している場合には、音色が低くなるようにする。また、音色制御部２２９は、ゴールシーン検出信号によりゴールシーンであると示されている場合には、さらに音色が高くなるようにする。

【0155】

このような擬似歓声信号の音色の制御は、具体的には音色制御部２２９がフィルタ処理部２３４を制御し、フィルタ処理部２３４によるフィルタ処理で用いられるフィルタの特性を変化させることにより実現される。

【0156】

例えば、低域成分のみからなる擬似歓声信号を生成するフィルタ処理部２３２では、図１２の折れ線Ｃ１１に示す特性のフィルタが用いられる。これに対して、中高域成分のみからなる擬似歓声信号を生成するフィルタ処理部２３４では、折れ線Ｃ１２に示すフィルタの特性は、音色制御部２２９の制御に応じて矢印Ｑ３１に示すように変化する。

【0157】

なお、図１２において横軸は周波数を示しており、縦軸は各周波数におけるフィルタの出力レベルを示している。

【0158】

この例では、折れ線Ｃ１２に示すフィルタ特性の波形が周波数方向にシフトされ、これに応じて擬似歓声信号の音色が変化する。折れ線Ｃ１２に示す特性のフィルタは、折れ線Ｃ１１に示す特性のフィルタよりも、より高い周波数帯域の成分を通過させる特性となっている。

【0159】

フィルタ処理部２３４は、音色制御部２２９の制御に応じて、フィルタ処理に用いるフィルタの特性を決定する。

【0160】

なお、音色制御部２２９による擬似歓声信号の音色制御は、上述した例に限らず、どのような制御とされてもよい。

【0161】

ステップＳ１９において擬似歓声レベル制御部２３０は、レベル検出部２２３からの検出レベルＡ１、レベル検出部２２５からの検出レベルＡ２、レベル検出部２２６からの検出レベルＢ１、レベル検出部２２８からの検出レベルＢ２、判別部１６４からのゴールシーン検出信号、および判別部１９３からの歓声検出信号に基づいて、擬似歓声量を検出する。

【0162】

具体的には、ゴールシーン検出区間制御部２６１は、ゴールシーン検出信号により示されるゴールシーンにおいて、検出レベルＡ１のレベルが一定値だけ大きくなるように検出レベルＡ１のレベル調整を行ない、非歓声検出区間制御部２６３に供給する。

【0163】

例えば図１３の上側に示すように、ゴールシーン検出区間制御部２６１は、折れ線Ｃ２１に示す制御信号レベルを検出レベルＡ１に加算する。なお、図１３の上側において縦軸は制御信号レベルを示しており、横軸は時間を示している。

【0164】

この例では、ゴールシーンの区間Ｔ１１において、折れ線Ｃ２１に示す制御信号レベルの値が、他の区間における制御信号レベルの値よりも一定値だけ大きくなっている。したがって、ゴールシーンにおいて、検出レベルＡ１のレベルが一定値だけ大きくなるように検出レベルＡ１のレベル調整が行なわれる。

【0165】

また、ここでは、検出レベルＡ１のレベルが一定値だけ大きくなるようにする例について説明したが、ゴールシーン検出信号がゴールシーンらしさの値を示す場合には、その値に応じて検出レベルＡ１の値が連続的に増加するようにしてもよい。すなわち、ゴールシーンらしさの値によって、検出レベルＡ１を増加させる値が異なるようにしてもよい。

【0166】

さらに、非歓声検出部２６２は、歓声検出信号を反転させて非歓声検出信号を生成し、非歓声検出区間制御部２６３および非歓声検出区間制御部２６６に供給する。

【0167】

非歓声検出区間制御部２６３は、非歓声検出信号により示される非歓声シーンにおいて、ゴールシーン検出区間制御部２６１からの検出レベルＡ１のレベルが一定値だけ小さくなるように検出レベルＡ１のレベル調整を行ない、擬似歓声量検出部２６４に供給する。

【0168】

例えば図１３の中央に示すように、非歓声検出区間制御部２６３は、折れ線Ｃ２２に示す制御信号レベルを検出レベルＡ１に加算する。なお、図１３の中央において縦軸は制御信号レベルを示しており、横軸は時間を示している。

【0169】

この例では、非歓声シーンの区間Ｔ１２において、折れ線Ｃ２２に示す制御信号レベルの値が、他の区間における制御信号レベルの値よりも一定値だけ小さくなっている。したがって、非歓声シーンにおいて、検出レベルＡ１のレベルが一定値だけ小さくなるように検出レベルＡ１のレベル調整が行なわれる。

【0170】

なお、非歓声シーンでは、ナレーションキャンセル信号に擬似歓声成分が含まれないようにされてもよい。また、ここでは、検出レベルＡ１のレベルが一定値だけ小さくなるようにする例について説明したが、非歓声検出信号が非歓声シーンらしさの値を示す場合には、その値に応じて検出レベルＡ１の値が連続的に減少するようにしてもよい。

【0171】

さらに擬似歓声量検出部２６４は、非歓声検出区間制御部２６３からの検出レベルＡ１と、レベル検出部２２６からの検出レベルＢ１との差分に応じて擬似歓声量を定め、その擬似歓声量に基づいて増幅部２３５を制御する。

【0172】

例えば、図１３の下側の斜線で示すように、直線Ｃ２３に示す検出レベルＡ１よりも折れ線Ｃ２４に示す検出レベルＢ１が小さい場合、検出レベルＡ１と検出レベルＢ１の差の分だけ擬似歓声量が大きくなるようにされる。なお、図１３の下側において横軸は時間を示しており、縦軸は検出レベルを示している。

【0173】

一般的に、ゴールシーンでアナウンサ等のナレーションの声が大きくなると、相対的に歓声の音量が小さくなってしまう。そのような場合に、音声信号からナレーション成分を除去すると、ゴールシーンでの盛り上がりに欠けてしまうことがある。

【0174】

そこで、擬似歓声量検出部２６４は、センター定位除去信号の検出レベルＢ１が、もとの入力信号の検出レベルＡ１よりも小さい場合には、検出レベルＢ１と検出レベルＡ１の差の分だけ擬似歓声量を大きくすることで擬似歓声信号のレベルを上げる。これにより、例えばナレーションキャンセル信号のレベルが、もとの入力信号のレベル程度まで大きくなり、ゴールシーンなどの盛り上がるシーンにおいて、十分な音量の歓声によって臨場感や高揚感を実現することができる。

【0175】

特に、擬似歓声レベル制御部２３０では、ゴールシーンにおいては、検出レベルＡ１がより大きくなるように調整されるので、その分だけ検出レベルＡ１と検出レベルＢ１の差が大きくなり、その結果、擬似歓声量も大きくなる。これにより、ゴールシーンにおいて大きな歓声が再生される、より臨場感のある音声を得ることができる。

【0176】

これに対して、ＣＭなどの歓声のない非歓声シーンにおいては、検出レベルＡ１がより小さくなるように調整されるので、不必要に擬似歓声成分がナレーションキャンセル信号に付加されてしまうことを防止することができる。これにより、より自然な音声を得ることができるようになる。

【0177】

また、ゴールシーン検出区間制御部２６５、非歓声検出区間制御部２６６、および擬似歓声量検出部２６７も、ゴールシーン検出区間制御部２６１、非歓声検出区間制御部２６３、および擬似歓声量検出部２６４と同様の処理を行なって擬似歓声量を定める。そして、擬似歓声量検出部２６７は、定めた擬似歓声量に基づいて増幅部２３３を制御する。

【0178】

ステップＳ２０において、擬似歓声生成部４７は、擬似歓声信号を生成する。

【0179】

すなわち、ランダムノイズ生成部２３１はランダムノイズ信号を生成し、フィルタ処理部２３２およびフィルタ処理部２３４に供給する。

【0180】

フィルタ処理部２３２は、ランダムノイズ生成部２３１からのランダムノイズ信号に対してフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部２３３に供給する。増幅部２３３は、擬似歓声量検出部２６７の制御にしたがって、フィルタ処理部２３２からの擬似歓声信号を増幅させ、加算部２３６に供給する。

【0181】

また、フィルタ処理部２３４は、音色制御部２２９の制御により定まるフィルタを用いて、ランダムノイズ生成部２３１からのランダムノイズ信号に対するフィルタ処理を行なうことで擬似歓声信号を生成し、増幅部２３５に供給する。

【0182】

増幅部２３５は、擬似歓声量検出部２６４の制御にしたがって、フィルタ処理部２３４から供給された擬似歓声信号を増幅させ、加算部２３６に供給する。

【0183】

加算部２３６は、増幅部２３３から供給された擬似歓声信号と、増幅部２３５から供給された擬似歓声信号とを加算して最終的な擬似歓声信号を生成し、ナレーションキャンセル部２１の加算部４８に供給する。

【0184】

ステップＳ２１において、加算部４８は、加算部４４から供給された信号と、加算部２３６からの擬似歓声信号とを加算することでナレーションキャンセル信号を生成し、セレクタ２３およびスタジアム残響付加部２４に供給する。例えば、加算部４４から出力される各チャンネルの信号に対して擬似歓声信号が加算され、ＬチャンネルとＲチャンネルからなるステレオのナレーションキャンセル信号が生成される。

【0185】

また、セレクタ２３は、コントローラ２２の制御にしたがって、供給された入力信号と、ナレーションキャンセル部２１の加算部４８から供給されたナレーションキャンセル信号との何れか一方を加算部２５に供給する。

【0186】

ステップＳ２２において、スタジアム残響付加部２４は、ナレーションキャンセル部２１から供給されたナレーションキャンセル信号に対して音響処理を施すことで、ナレーションキャンセル信号に残響効果を付加する。

【0187】

スタジアム残響付加部２４は、残響効果の付加により得られたＬチャンネルとＲチャンネルからなるリア信号を後段に出力するとともに、残響効果の付加により得られたＬチャンネルとＲチャンネルからなるフロント信号を加算部２５に供給する。

【0188】

ステップＳ２３において、加算部２５は、セレクタ２３から供給された信号、すなわち入力信号またはナレーションキャンセル信号と、スタジアム残響付加部２４から供給されたフロント信号とをチャンネルごとに加算し、最終的なフロント信号を生成する。

【0189】

加算部２５が生成されたＬチャンネルとＲチャンネルからなるフロント信号を出力すると、スタジアム効果発生処理は終了する。

【0190】

以上のようにして、スタジアム効果発生装置１１は、入力信号からナレーションが除去され、擬似歓声信号が加算されて得られたナレーションキャンセル信号にスタジアムの残響を付加する。

【0191】

このように、入力信号からナレーションを除去し、スタジアムの残響を付加することで、より臨場感のある音声を得ることができる。

【0192】

例えば、入力信号の音声において、ナレーションの声が大きすぎる場合には、その声がかえって耳障りとなってしまい、十分な臨場感が得られなくなってしまう。また、ナレーション成分が大きい状態で入力信号にサラウンド効果を付加すると、ナレーションに広がり感が付加されてしまい、かえって臨場感が低下してしまう。

【0193】

これに対してスタジアム効果発生装置１１では、入力信号からナレーションを除去して残響を付加するので、より自然で臨場感のある音声を得ることができる。特に、臨場感のあるステレオセンター抑圧信号と、センター定位成分を除去して得られるモノラルのセンター定位除去信号とを加算してナレーションキャンセル信号を生成することで、ナレーションが十分に除去された臨場感のある信号を得ることができる。

【0194】

しかも、スタジアム効果発生装置１１では、入力信号のレベルとセンター定位除去信号のレベルの比較結果、ゴールシーンの検出結果、および非歓声シーンの検出結果に応じて、適切なレベルの擬似歓声成分がナレーションキャンセル信号に付加される。これにより、さらに臨場感を向上させることができる。

【0195】

〈変形例１〉
〈擬似歓声レベル制御部の構成例〉
なお、以上においては、ゴールシーンの検出結果と非歓声シーンの検出結果を考慮して擬似歓声量を定める場合について説明したが、これらのゴールシーンの検出結果と非歓声シーンの検出結果が擬似歓声量の決定に用いられないようにしてもよい。

【0196】

そのような場合、擬似歓声レベル制御部２３０は、例えば図１４に示すように構成される。なお、図１４において、図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

【0197】

図１４に示す擬似歓声レベル制御部２３０は、擬似歓声量検出部２６４および擬似歓声量検出部２６７から構成される。

【0198】

擬似歓声量検出部２６４は、レベル検出部２２３からの検出レベルＡ１と、レベル検出部２２６から供給された検出レベルＢ１とを比較して擬似歓声量を定め、その擬似歓声量に基づいて増幅部２３５を制御する。

【0199】

また、擬似歓声量検出部２６７は、レベル検出部２２５から供給された検出レベルＡ２と、レベル検出部２２８から供給された検出レベルＢ２とを比較して擬似歓声量を定め、その擬似歓声量に基づいて増幅部２３３を制御する。

【0200】

さらに、図９に示した擬似歓声レベル制御部２３０において、ゴールシーン検出区間制御部２６１と非歓声検出区間制御部２６３が設けられない構成とされてもよいし、ゴールシーン検出区間制御部２６５と非歓声検出区間制御部２６６が設けられない構成とされてもよい。また、ゴールシーン検出区間制御部２６１と非歓声検出区間制御部２６３の何れか一方が設けられない構成や、ゴールシーン検出区間制御部２６５と非歓声検出区間制御部２６６の何れか一方が設けられない構成などとされてもよい。

【0201】

〈変形例２〉
〈スタジアム効果発生装置の構成例〉
さらに、以上においては、スタジアム効果発生装置１１からは、２チャンネルのフロント信号と、２チャンネルのリア信号とが出力される例について説明したが、ＬチャンネルとＲチャンネルからなるステレオ信号が出力されるようにしてもよい。

【0202】

そのような場合、スタジアム効果発生装置１１は、例えば図１５に示すように構成される。なお、図１５において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

【0203】

図１５に示すスタジアム効果発生装置１１は、図１に示すスタジアム効果発生装置１１にさらにバーチャルサラウンド生成部２９１が設けられ、他の点では図１のスタジアム効果発生装置１１と同じ構成となっている。

【0204】

バーチャルサラウンド生成部２９１は、スタジアム残響付加部２４から供給されたＬチャンネルとＲチャンネルからなるリア信号と、加算部２５から供給されたＬチャンネルとＲチャンネルからなるフロント信号とに基づいて、ＬチャンネルとＲチャンネルからなるステレオ信号を生成し、出力する。例えば、ステレオ信号の生成は、頭部伝達関数（HRTF(Head Related Transfer Function)）を用いたリア信号やフロント信号の畳み込み演算などにより行なわれる。

【0205】

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

【0206】

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

【0207】

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

【0208】

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

【0209】

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

【0210】

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

【0211】

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

【0212】

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

【0213】

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

【0214】

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

【0215】

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

【0216】

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

【0217】

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

【0218】

さらに、本技術は、以下の構成とすることも可能である。

【0219】

［１］
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成するナレーションキャンセル部と、
前記ナレーションキャンセル信号に残響効果を付加する残響付加部と
を備える音声処理装置。
［２］
前記ナレーションキャンセル部は、擬似歓声成分が含まれる前記ナレーションキャンセル信号を生成する
［１］に記載の音声処理装置。
［３］
前記ナレーションキャンセル部は、複数チャンネルの前記入力信号に含まれるセンター定位成分を抑圧することで、複数チャンネルのセンター抑圧信号を生成するとともに、前記複数チャンネルの前記入力信号に基づいてセンター定位成分が除去されたモノラルのセンター定位除去信号を生成し、前記センター抑圧信号と前記センター定位除去信号を加算して前記ナレーションキャンセル信号とする
［１］に記載の音声処理装置。
［４］
前記ナレーションキャンセル部は、擬似歓声成分である擬似歓声信号をさらに生成し、前記センター抑圧信号、前記センター定位除去信号、および前記擬似歓声信号を加算して前記ナレーションキャンセル信号とする
［３］に記載の音声処理装置。
［５］
前記ナレーションキャンセル部は、前記入力信号のレベルと、前記センター定位除去信号のレベルとの比較結果に基づいて前記擬似歓声信号のレベル調整を行なう
［４］に記載の音声処理装置。
［６］
前記入力信号は、スポーツに関するコンテンツの音声信号である
［４］または［５］に記載の音声処理装置。
［７］
前記ナレーションキャンセル部は、前記入力信号に基づいて得点シーンを検出し、前記得点シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
［６］に記載の音声処理装置。
［８］
前記ナレーションキャンセル部は、前記入力信号に基づいて非歓声シーンを検出し、前記非歓声シーンの検出結果に応じて前記擬似歓声信号のレベル調整を行なう
［６］または［７］に記載の音声処理装置。
［９］
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む音声処理方法。
［１０］
入力信号からナレーション成分を除去することでナレーションキャンセル信号を生成し、
前記ナレーションキャンセル信号に残響効果を付加する
ステップを含む処理をコンピュータに実行させるプログラム。

【符号の説明】

【0220】

１１スタジアム効果発生装置，２１ナレーションキャンセル部，２４スタジアム残響付加部，２５加算部，４１ステレオセンター抑圧部，４２センター定位信号除去部，４４加算部，４５ゴールシーン検出部，４６歓声検出部，４７擬似歓声生成部

【図1】