(58)【調査した分野】(Int.Cl.,DB名)
前記音声制御手段は、前記音声信号の音響特性として、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する
請求項1から請求項4の何れかの音響処理装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1や特許文献2の技術では、明瞭度や気息性等の音響特性が相違する多様な音声信号の生成が実現されるが、現実の応用の場面では、音響特性の制御後の音声信号の再生音を受聴する受聴者が再生音を単調な印象と知覚する可能性も否定できない。例えば、多数の受聴者を収容した音響空間(例えばコンサートホールやライブホール)で音声信号を再生した場合を想定すると、受聴者が歌唱音の再生とともに一斉に盛上がっても再生音の音響特性は変動しないから、再生音が単調な印象と知覚され得る。以上の事情を考慮して、本発明は、音響特性の変化に富んだ音声信号を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の第1態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の再生音を聴取する受聴者の状況に応じた再生状況情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した再生状況情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の再生音を聴取する受聴者(人間や人間以外の動物)の状況に応じて音声信号の音響特性が制御されるから、再生音の受聴者の状況(再生状況)に応じた多様な音声信号を生成できるという利点がある。なお、第1態様に係る音響処理装置の具体例は、例えば第1実施形態として後述される。
【0006】
第1態様に係る音響処理装置の好適例において、情報生成手段は、受聴者の動作(例えば発声や手拍子等の動作や通信端末を利用した投稿)に応じた再生状況情報を生成する。例えば、受聴者が発音した音響の特徴量に応じた再生状況情報を情報生成手段が生成する構成や、各受聴者からの指示により当該受聴者の通信端末から送信された投稿情報に応じた再生状況情報を情報生成手段が生成する構成が好適である。以上の態様では、受聴者の状況(盛上がりの度合)に応じた音響特性の音声信号が生成される。また、受聴者が盛上がるほど、受聴者の動作(発声や手拍子や跳躍等)の特徴量と歌唱音の特徴量(旋律や拍点)とが接近するという傾向がある。以上の傾向を考慮すると、受聴者の動作(歌唱や手拍子や跳躍等)の特徴量と歌唱音の特徴量(旋律や拍点)との類似度に応じた再生状況情報を情報生成手段が生成することも可能である。
【0007】
本発明の第2態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の再生音と並列に演奏される楽器の演奏状況に応じた演奏状況情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した演奏状況情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の再生音と並列に演奏される楽器の演奏状況に応じて音声信号の音響特性が制御されるから、楽器の演奏状況に応じた多様な音声信号を生成できるという利点がある。なお、第2態様に係る音響処理装置の具体例は、例えば第2実施形態として後述される。
【0008】
本発明の第3態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の歌唱音の楽曲に関連する楽曲関連情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した楽曲関連情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の歌唱音の楽曲に関連する楽曲関連情報に応じて音声信号の音響特性が制御されるから、楽曲の内容等に応じた多様な音声信号を生成できるという利点がある。なお、第3態様に係る音響処理装置の具体例は、例えば第3実施形態として後述される。
【0009】
第1態様から第3態様に係る音響処理装置の好適例において、音声制御手段は、音高と発音記号とを時系列に指定する楽曲情報を利用した音声合成で歌唱音の音声信号を生成する。以上の構成によれば、単調な印象と知覚され易い傾向にある合成音を多様な音響特性で再生できるという利点がある。
【0010】
第1態様から第3態様に係る音響処理装置の好適例において、音声制御手段は、音声信号の音響特性として、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する。ただし、制御対象となる音響特性は以上の例示に限定されない。また、音声制御手段が複数の音声素片を利用した素片接続型の音声合成で音声信号を生成する構成では、各音声素片の音素(特に母音)の継続長を再生状況情報に応じて制御することも可能である。
【0011】
以上の各態様に係る音響処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
【0012】
第1態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の再生音を聴取する受聴者の状況に応じた再生状況情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した再生状況情報に応じて音声信号の音響特性を制御する。第2態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の再生音と並列に演奏される楽器の演奏状況に応じた演奏状況情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した演奏状況情報に応じて音声信号の音響特性を制御する。第3態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の歌唱音の楽曲に関連する楽曲関連情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した楽曲関連情報に応じて音声信号の音響特性を制御する。
【発明を実施するための形態】
【0014】
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100Aのブロック図である。第1実施形態の音響処理装置100Aには検出装置12と再生装置14とが接続される。検出装置12および再生装置14は、コンサートホールやライブハウス等の音響空間H内に設置される。検出装置12は、音響空間H内の音響を収音する収音機器(マイクロホン)であり、再生装置14は、音響空間H内に音響を放射する放音機器(スピーカ)である。
【0015】
第1実施形態の音響処理装置100Aは、楽曲の歌唱音の波形を示す音声信号Vを再生装置14に供給する信号処理装置である。したがって、楽曲の歌唱音が再生装置14から音響空間H内に再生される。音響空間H内には、再生装置14が再生する歌唱音を受聴する多数の受聴者(聴衆)Rが存在する。検出装置12は、多数の受聴者Rの動作に起因した音響を収音するように音響空間H内に設置される。具体的には、第1実施形態の検出装置12は、音響空間H内の多数の受聴者Rが発音した音響(例えば歓声や拍手音)を収音する。
【0016】
図1に示すように、音響処理装置100Aは、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGMや演算処理装置22が使用する各種のデータ(音声素片群L,楽曲情報S)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に採用される。
【0017】
第1実施形態の記憶装置24は、音声素片群Lと楽曲情報Sとを記憶する。音声素片群Lは、音声信号Vの合成用の素材として利用される複数の音声素片の集合(音声合成ライブラリ)である。音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)の単体や複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。楽曲情報Sは、楽曲を構成する各音符の音高(歌唱パートの旋律)と発音記号(歌詞)とを時系列に指定する時系列データである。音声信号Vの生成に適用される各種の変数(例えば明瞭度等)の数値も楽曲情報Sにて時系列に指定される。
【0018】
演算処理装置22は、記憶装置24に記憶されたプログラムPGMを実行することで、音声信号Vを生成するための複数の機能(情報生成部32,音声制御部34)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置22の一部の機能を実現する構成も採用され得る。
【0019】
情報生成部32は、検出装置12による検出結果に応じて再生状況情報DAを生成する。再生状況情報DAは、音響空間H内の受聴者Rの状況に応じたデータである。具体的には、第1実施形態の情報生成部32は、音響空間H内の多数の受聴者Rが発音した音響の音量を示す再生状況情報DAを検出装置12による検出結果(音響空間H内の収録音)から生成する。例えば再生状況情報DAは、受聴者Rが発声した音声(歓声)の音量や受聴者Rの拍手の音量を指定する。各受聴者Rが楽曲の歌唱音の再生とともに一斉に盛上がると、各受聴者Rが発声や拍手等の動作で発音する音響(発声音や拍手音)の音量が増加する。したがって、再生状況情報DAは、音響空間H内の雰囲気の盛上がりの度合の指標として利用され得る。
【0020】
図1の音声制御部34は、音声信号Vを生成して再生装置14に再生させる。第1実施形態の音声制御部34は、記憶装置24に記憶された音声素片群Lの各音声素片を相互に接続する素片接続型の音声合成により、記憶装置24に記憶された楽曲情報Sが指定する楽曲の歌唱音の音声信号Vを生成する。具体的には、音声制御部34は、楽曲情報Sが指定する発音記号に対応する音声素片を音声素片群Lから順次に選択し、楽曲情報Sで指定される音高に各音声素片を調整して相互に接続することで音声信号Vを生成する。なお、音声制御部34が音声信号Vを生成する方法は、素片接続型の音声合成に限定されない。例えば、隠れマルコフモデル(HMM)等の統計モデルを利用した音響特性の制御で音声信号Vを合成する統計モデル型の音声合成を採用することも可能である。
【0021】
音声制御部34は、音声信号Vの音響特性を可変に制御することが可能である。第1実施形態の音声制御部34は、情報生成部32が生成した再生状況情報DAに応じて音声信号Vの音響特性を動的に制御する。具体的には、音声制御部34は、音声合成に適用する各種の変数を再生状況情報DAに応じて可変に設定することで音声信号Vの聴感的な明瞭度(ブライトネス)を変更する。音声信号Vの明瞭度の制御には、例えば特許文献1の技術が採用され得る。
【0022】
ところで、雑音等の環境音の音量が大きい状況では発声者の音声の音響特性が非線形に変化する(例えば音量や明瞭度や音高の変動が発生する)という現象(ロンバード(Lombard)効果)が観察される。以上の傾向を考慮して、第1実施形態では、再生状況情報DAが示す音量(音響空間H内の受聴者Rの動作に起因した音響の音量)が大きいほど音声信号Vの明瞭度が増加するように、音声制御部34は音声信号Vの音響特性を制御する。したがって、音響空間H内の多数の受聴者Rの発声音が大きい(すなわち音響空間H内の雰囲気が盛上がる)ほど、音声信号Vの再生音の明瞭度が増加するという傾向がある。すなわち、ロンバード効果が再現される。
【0023】
以上に説明した通り、第1実施形態では、音響空間H内の受聴者Rの状況(発声音の音量)を示す再生状況情報DAに応じて音声信号Vの音響特性が可変に制御される。したがって、音声信号Vの音響特性が受聴者Rの状況に依存しない構成と比較して、音響特性の変化に富んだ多様な音声信号Vを生成できるという利点がある。第1実施形態では特に、音響空間H内の多数の受聴者Rが発音した音響の音量に応じて音声信号Vの明瞭度が制御されるから、音響空間H内の雰囲気の盛上がりに適合した歌唱音を音響空間H内に再生できるという利点がある。
【0024】
<第1実施形態の変形例>
(1)第1実施形態では、音響空間H内の受聴者Rが発音した音響(発声音や拍手音)の音量を示す再生状況情報DAを例示したが、再生状況情報DAの内容は音量に限定されない。例えば、音響空間H内の多数の受聴者Rを撮像する撮像装置(ビデオカメラ)を検出装置12として利用した構成では、検出装置12が撮像した動画像から特定される各受聴者Rの動作(例えば音声信号Vの再生音に同期して手や身体を振る動作)の動作量の平均値を情報生成部32が再生状況情報DAとして生成することが可能である。例えば、動画像において相前後する画像間の変化量に応じて再生状況情報DAが生成される。音声制御部34は、再生状況情報DAに応じて音声信号Vの音響特性を動的に制御する。例えば、音響空間H内の雰囲気が盛上がるほど各受聴者Rの動作量が増加するという傾向がある。以上の傾向を考慮すると、再生状況情報DAが示す動作量が大きいほど音声制御部34が音声信号Vの明瞭度を増加させる構成が好適である。
【0025】
(2)音声信号Vの再生とともに音響空間H内の雰囲気が盛上がるほど、受聴者Rの動作の特徴量と歌唱音の特徴量とが接近するという傾向がある。例えば、音響空間H内の雰囲気が盛上がるほど、多数の受聴者Rが音声信号Vの再生音に並行して大音量で歌唱するという関係を前提とした場合、音響空間H内の雰囲気が盛上がるほど受聴者Rが発音する音声の特徴量(音高やリズム)と音声信号Vの再生音の特徴量とが接近するという傾向が想定される。また、例えば、音響空間H内の雰囲気が盛上がるほど、多数の受聴者Rが音声信号Vの再生音に同期して拍手するという関係を前提とした場合、音響空間H内の雰囲気が盛上がるほど受聴者Rの拍手のリズムと音声信号Vの再生音のリズム(拍点の間隔や時点)とが接近するという傾向が想定される。以上に例示した傾向を考慮すると、受聴者Rの動作の特徴量と音声信号Vの再生音の特徴量との類似度(相関や距離)に応じた再生状況情報DAを情報生成部32が生成する構成が好適である。音声制御部34は、再生状況情報DAが示す類似度が高い(すなわち各受聴者Rの動作が音声信号Vの再生音に同調して音響空間H内の雰囲気が盛上がる)ほど音声信号Vの明瞭度を増加させる。
【0026】
(3)SNS(Social Networking Service)等の通信サービスでは、携帯電話機やスマートフォン等の可搬型の通信端末に対する所定の操作を契機として、利用者による評価や投稿を意味する投稿情報が、通信端末から通信網(例えばインターネット)を介して特定のSNSサーバ装置に送信され得る。以上の構成では、音響空間H内の多数の受聴者Rが自身の通信端末に対して投稿情報(音声信号Vの再生音に関する評価や投稿)の送信を指示した総回数(投稿回数)に応じて再生状況情報DAを生成することも可能である。音響空間H内の雰囲気が盛上がるほど各受聴者Rによる投稿回数は増加するという傾向が想定される。したがって、投稿回数を示す再生状況情報DAは、前述の第1実施形態と同様に、音響空間H内の雰囲気の盛上がりの度合の指標として利用され得る。音声制御部34は、例えば、再生状況情報DAが示す投稿回数が多い(すなわち音響空間H内の雰囲気が盛上がる)ほど音声信号Vの明瞭度を増加させる。なお、以上の例示では、音響空間H内の受聴者Rによる投稿回数に着目したが、例えばインターネット等の通信網を介して音響空間H内の再生状況を各通信端末(音響空間Hの内外は不問)対する動画配信で中継するとともに各通信端末からのコメントの投稿を受付ける通信サービス(動画配信サービス)を想定すると、複数の受聴者R(動画の視聴者)が投稿したコメントの総数を示す再生状況情報DAを情報生成部32が生成することも可能である。
【0027】
以上の説明から理解される通り、再生状況情報DAは、音声信号Vの再生音を受聴する受聴者Rの状況(発声、手拍子、投稿等の動作)に応じた情報として包括的に表現される。
【0028】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0029】
図2は、第2実施形態の音響処理装置100Bのブロック図である。
図2に示す通り、第2実施形態では、音響空間H内の複数の演奏者(バックバンド)の各々が音声信号Vの再生と並行して楽器Iを演奏する状況を想定する。第2実施形態の検出装置12は、各楽器Iの演奏音を収音して演奏音の波形を示す楽音信号Mを生成する。なお、以上の説明では各楽器Iの演奏音を収音する場合を例示したが、エレキギター等の電子楽器(電気楽器)の演奏を想定すると、各電子楽器が生成する電気信号を検出装置12が楽音信号Mとして検出することも可能である。
【0030】
第2実施形態の音響処理装置100Bの演算処理装置22は、第1実施形態と同様の要素(情報生成部32,音声制御部34)に加えて再生処理部36として機能する。再生処理部36は、検出装置12が生成する楽音信号Mと音声制御部34が生成する音声信号Vとの各々に対して所定の音響処理(例えば各種の効果付与処理)を実行するとともに任意の混合比で混合したうえで再生装置14に供給する。すなわち、各演奏者が楽器Iで演奏した楽音を伴奏音として音声信号Vの歌唱音が音響空間H内に再生される。なお、楽音信号Mと音声信号Vとを個別に再生する(すなわち両者を混合せずに個別に再生する)ことも可能である。
【0031】
第2実施形態の情報生成部32は、検出装置12による検出結果(楽音信号M)に応じた演奏状況情報DBを生成する。演奏状況情報DBは、音声信号Vの再生と並列に演奏される各楽器Iの演奏状況に応じたデータである。具体的には、第2実施形態の情報生成部32は、音響空間H内の複数の楽器Iの演奏音の音量(例えば複数の楽器Iにわたる合計値)を示す演奏状況情報DBを生成する。音響空間H内の雰囲気が盛上がると、各楽器Iの楽音の音量も増加する(あるいは、各楽器Iの楽音の音量が増加すると音響空間H内の雰囲気が盛上がる)という傾向がある。したがって、演奏状況情報DBは、第1実施形態の再生状況情報DAと同様に、音響空間H内の雰囲気の盛上がりの度合の指標として利用され得る。
【0032】
第2実施形態の音声制御部34は、情報生成部32が生成した演奏状況情報DBに応じて音声信号Vの音響特性(例えば明瞭度)を制御する。具体的には、演奏状況情報DBが示す音量が大きい(すなわち音響空間H内の雰囲気が盛上がる)ほど、音声制御部34は音声信号Vの明瞭度を増加させる。したがって、第1実施形態と同様に、音響特性の変化に富んだ多様な音声信号Vを生成できるという効果が実現される。
【0033】
<第2実施形態の変形例>
第2実施形態では、音響空間H内の各楽器Iの演奏音の音量を示す演奏状況情報DBを例示したが、演奏状況情報DBの内容は演奏音の音量に限定されない。例えば、音響空間H内で実際に演奏されている楽器Iの総数を示す演奏状況情報DBを情報生成部32が生成することも可能である。音響空間H内で演奏される楽器Iの総数が増加するほど音響空間H内の雰囲気が盛上がるという傾向がある。以上の傾向を考慮して、演奏状況情報DBが示す楽器Iの総数が多いほど、音声制御部34は音声信号Vの明瞭度を増加させる。なお、楽器Iの総数に代えて、楽器Iの種類数(音響空間H内で発音されている音色の種類数)を示す演奏状況情報DBを情報生成部32が生成する構成も好適である。
【0034】
以上の説明から理解される通り、演奏状況情報DBは、音声信号Vの再生と並列に演奏される1以上の楽器Iの演奏状況に応じた情報として包括される。
【0035】
<第3実施形態>
図3は、第3実施形態の音響処理装置100Cのブロック図である。
図3に示す通り、第3実施形態では前述の各形態の検出装置12が省略される。他方、記憶装置24に記憶された楽曲情報Sは、楽曲内のキー(調)を時系列に指定する情報を内包する。第3実施形態の情報生成部32は、記憶装置24内の楽曲情報Sが指定する楽曲(すなわち、音声信号Vが示す歌唱音に対応する楽曲)に関連する楽曲関連情報DCを生成する。具体的には、楽曲関連情報DCは、楽曲情報Sが指定する楽曲のキーの時系列を示すデータである。
【0036】
第3実施形態の音声制御部34は、情報生成部32が生成した楽曲関連情報DCに応じて音声信号Vの音響特性(例えば明瞭度)を制御する。具体的には、音声制御部34は、楽曲関連情報DCが指定するキーが長調(メジャー)である場合に、楽曲関連情報DCが短調(マイナー)を指定する場合と比較して音声信号Vの明瞭度を増加させる。したがって、第1実施形態と同様に、音響特性の変化に富んだ多様な音声信号Vを生成できるという利点がある。
【0037】
<第3実施形態の変形例>
(1)第3実施形態では、楽曲のキーに応じた楽曲関連情報DCを例示したが、楽曲関連情報DCの内容は楽曲のキーに限定されない。例えば、楽曲情報Sが楽曲のジャンルの情報を内包する構成では、楽曲情報Sが指定するジャンルに応じた楽曲関連情報DCを情報生成部32が生成することも可能である。音声制御部34は、楽曲関連情報DCが示すジャンルに応じて音声信号Vの音響特性を制御する。例えば、音声制御部34は、楽曲関連情報DCが示すジャンルがロックやポップスである場合に、楽曲関連情報DCが演歌を示す場合と比較して音声信号Vの明瞭度を増加させる。
【0038】
(2)楽曲のサビの内外(楽曲の歌唱中の各時点がサビに該当するか否か)を時系列に示す楽曲関連情報DCを情報生成部32が生成することも可能である。例えば、楽曲の各構成部(イントロ,Aメロ,Bメロ,サビ等)を時系列に指定する情報が楽曲情報Sに内包された構成では、楽曲情報Sを参照することで情報生成部32が楽曲関連情報DCを生成する。音声制御部34は、楽曲関連情報DCがサビ(特定の区間)を示す場合に、楽曲関連情報DCがサビ以外を示す場合と比較して音声信号Vの明瞭度を増加させる。
【0039】
(3)相異なる楽器に対応する複数のパートで構成される伴奏音を指定する伴奏情報が楽曲毎に記憶装置24に記憶された構成も好適である。伴奏情報は、例えば楽曲情報Sに内包されたMIDI(Musical Instrument Digital Interface)形式の時系列データである。伴奏情報で指定される伴奏音の楽音信号が演算処理装置22にて生成され、音声制御部34が生成した音声信号Vとともに再生装置14から再生される。すなわち、伴奏情報で指定される伴奏音のもとで音声信号Vの歌唱音が音響空間H内に再生される。以上の構成では、伴奏情報に応じた楽曲関連情報DCを情報生成部32が生成することも可能である。例えば、情報生成部32は、伴奏情報が指定する伴奏音の同時発音数(同時に発音するパートの総数やMIDIデータのトラックの総数)に応じた楽曲関連情報DCを生成する。音声制御部34は、例えば、楽曲関連情報DCが示す伴奏音の同時発音数が多い(例えば音響空間H内の雰囲気が盛上がる)ほど音声信号Vの明瞭度を増加させる。
【0040】
以上の例示から理解される通り、楽曲関連情報DCは、音声信号Vの歌唱音に対応する楽曲(楽曲情報Sが指定する楽曲)に関連する情報として包括される。
【0041】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。なお、以下の説明では、前述の各形態において音声信号Vの音響特性の制御に適用される情報(再生状況情報DA,演奏状況情報DB,楽曲関連情報DC)を制御情報Dとして包括的に表記する。
【0042】
(1)前述の各形態では音声信号Vの明瞭度を制御したが、制御情報Dに応じて制御される音響特性は明瞭度に限定されない。例えば以下に例示する音響特性を制御情報Dに応じて制御することが可能である。
【0043】
[a]音量
音声信号Vの音量を制御情報Dに応じて制御することが可能である。例えば、音響空間H内の雰囲気が盛上がるほど、音声制御部34は音声信号Vの音量を増加させる。
【0044】
[b]気息性
音声信号Vの気息性を制御情報Dに応じて制御することが可能である。例えば、音響空間H内の雰囲気が平静である(盛下がる)ほど、音声制御部34は音声信号Vの気息性を増加させる(例えば囁き声に接近させる)。音声信号Vの気息性の制御には、例えば特許文献2の技術が採用される。音声信号Vの気息性や明瞭度を制御する構成は、音声信号Vの声質(表情)を制御する構成として包括される。
【0045】
[c]オーバーシュート,プレパレーション
音高の変動に直前に逆方向に音高を変動させるプレパレーションや、音高の変動時に音高を一時的に過剰に変動させるオーバーシュート等の歌唱表現(歌唱スタイル)を制御情報Dに応じて制御することが可能である。例えば、
図4には、歌唱音の音高の時間的な変動が、音響空間H内の雰囲気の盛上がりが大きい場合(実線)と盛上がりが小さい場合(破線)とについて図示されている。
図4から理解される通り、音響空間H内の雰囲気が盛上がるほど、音声制御部34は音声信号Vのオーバーシュートやプレパレーションを強調する。
【0046】
[d]ビブラート
歌唱音に付与されるビブラートを制御情報Dに応じて制御することが可能である。例えば、ビブラートの深度(音高の振幅)や速度(音高の変動の周波数)を制御情報Dに応じて制御する構成が好適である。具体的には、音響空間H内の雰囲気が盛上がるほど、音声制御部34はビブラートの深度や速度を増加させる(すなわちビブラートを強調する)。
【0047】
なお、以上に例示したオーバーシュート、プレパレーションおよびビブラートは、歌唱表現の好適例である。歌唱表現の他例としては、こぶし(基本的な旋律内で音声を短時間で微細に変動させる装飾的な節回し)やしゃくり(前述のプレパレーションと同様の節回し)が想定される。以上の説明から理解される通り、音声信号Vの歌唱音の歌唱表現(歌唱の抑揚)を制御情報Dに応じて制御する構成(歌唱表現を強調または抑制する構成)が好適である。
【0048】
[e]複数の音響特性の組合せ
音声信号Vの複数の音響特性を制御情報Dに応じて制御することも可能である。例えば、音声制御部34は、前述の例示から適宜に選択された2種類以上の音響特性を制御情報Dに応じて制御する。
【0049】
以上の説明から理解される通り、音声制御部34が制御情報Dに応じて制御する音声信号Vの音響特性は歌唱音の声質や歌唱表現を包含する。歌唱音の声質の好適例が前述の気息性および明瞭度であり、歌唱表現の好適例が前述のオーバーシュート、プレパレーションおよびビブラートである。また、前述のロンバード効果としては、環境音の音量が大きい状況における発声者の音声の音量の増加や音高の上昇(例えば音声がうわずる)等の現象も観察される。したがって、制御情報Dに応じて音声信号Vの音量や音高を制御することも可能である。例えば、音響空間H内の雰囲気が盛上がるほど、音声信号Vの音量を増加させたり音声信号Vの音高を上昇させたりする(ただし楽曲情報Sで指定される音高の範囲内で)構成が想定される。以上の例示から理解される通り、本発明の好適例における音声制御部34は、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する要素としても表現される。なお、環境音の音量が大きい状況で発声者の音声の各音素(特に母音)の継続長が長くなるという現象もロンバード効果の好例である。したがって、音声信号Vの生成に利用される音声素片の各音素の継続長を制御情報Dに応じて伸縮する構成も好適である。例えば、音響空間H内の雰囲気が盛上がるほど、音声信号Vの生成に適用される各音声素片の音素(特に母音)の継続長を伸長する構成が採用される。
【0050】
(2)前述の各形態では、楽曲情報Sが指定する歌唱音の音声信号Vを音声制御部34が音声合成で生成する構成を例示したが、音声信号Vを取得する方法は音声合成に限定されない。例えば、事前に収録された歌唱音の音声信号Vを記憶装置24に記憶するとともに音声制御部34が記憶装置24から音声信号Vを取得して音響特性を制御する構成や、収音機器が収音した音声信号Vを音声制御部34が取得して音響特性を制御する構成も採用される。なお、音声合成以外の方法で音声制御部34が音声信号Vを取得する構成では、例えば周波数帯域毎に強度を調整するイコライジング処理等の各種の音響処理で音声信号Vの音響特性を制御する構成が好適である。
【0051】
また、各音声素片の音響特性が相違する複数の音声素片群L(例えば囁き声/通常/大声の各音声素片群L)を記憶装置24に記憶させ、音声信号Vの合成に適用する音声素片群Lを音声制御部34が制御情報Dに応じて選択する構成や、複数の音声素片群Lの各音声素片を音声制御部34が制御情報Dに応じて補間して音声信号Vの合成に利用する構成も採用される。
【0052】
(3)制御情報Dの内容は適宜に変更される。また、複数の制御情報D(再生状況情報DA,演奏状況情報DB,楽曲関連情報DC)から選択された2以上の制御情報Dを音声信号Vの制御に適用することも可能である。
【0053】
(4)通信網に接続されたサーバ装置(典型的にはインターネットに接続されたウェブサーバ)として音響処理装置100(100A,100B,100C)を実現することも可能である。音響処理装置100は、音響空間Hから離間した位置に設置され、音声制御部34による制御後の音声信号Vが通信網を介して再生装置14に供給される。検出装置12を具備する構成(第1実施形態や第2実施形態)では、検出装置12による検出結果が通信網を介して音響処理装置100に通知される。また、複数の音響空間Hの各々にて生成される音声信号Vを通信網上の1個の音響処理装置100が統括的に制御する構成も採用され得る。