特許第6445407号(P6445407)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
<>
  • 特許6445407-音生成装置、音生成方法、プログラム 図000014
  • 特許6445407-音生成装置、音生成方法、プログラム 図000015
  • 特許6445407-音生成装置、音生成方法、プログラム 図000016
  • 特許6445407-音生成装置、音生成方法、プログラム 図000017
  • 特許6445407-音生成装置、音生成方法、プログラム 図000018
  • 特許6445407-音生成装置、音生成方法、プログラム 図000019
  • 特許6445407-音生成装置、音生成方法、プログラム 図000020
  • 特許6445407-音生成装置、音生成方法、プログラム 図000021
  • 特許6445407-音生成装置、音生成方法、プログラム 図000022
  • 特許6445407-音生成装置、音生成方法、プログラム 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6445407
(24)【登録日】2018年12月7日
(45)【発行日】2018年12月26日
(54)【発明の名称】音生成装置、音生成方法、プログラム
(51)【国際特許分類】
   G10L 21/0364 20130101AFI20181217BHJP
   G10L 19/26 20130101ALI20181217BHJP
【FI】
   G10L21/0364
   G10L19/26 B
【請求項の数】6
【全頁数】15
(21)【出願番号】特願2015-148269(P2015-148269)
(22)【出願日】2015年7月28日
(65)【公開番号】特開2017-26967(P2017-26967A)
(43)【公開日】2017年2月2日
【審査請求日】2017年7月4日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】899000079
【氏名又は名称】学校法人慶應義塾
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】植松 尚
(72)【発明者】
【氏名】小川 克彦
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開平8−214392(JP,A)
【文献】 特開2009−260574(JP,A)
【文献】 特開2008−48355(JP,A)
【文献】 特開2004−289511(JP,A)
【文献】 丹羽健太他,雑音下での音声認識率向上を目的としたマイクロホンアレイの実装,日本音響学会2014年春季研究発表会講演論文集[CD−ROM],2014年 3月12日,p.717-718
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−25/93
H04R 3/00
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音する収音部と、
前記Mチャネルの音信号のうち、任意の所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する強調処理部と、
前記Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する原音抽出部と、
予め定めた規則により、前記第1、第2方向チャネルの強調度を決定する強調度決定部と、
前記決定された強調度に応じて前記第1、第2方向チャネルの音信号を増幅し、前記原音と合成する合成部
を含む音生成装置。
【請求項2】
請求項1に記載の音生成装置であって、
前記強調処理部は、
第1、第2方向強調部を含み、
前記第1、第2方向強調部は、
各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングするフィルタ部と、
前記フィルタリングされた各チャネルの音信号を足し合わせる足し合わせ部と、
予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定するターゲット/雑音エリアPSD推定部と、
前記ターゲットエリア、および前記雑音エリアのパワースペクトル密度推定値のそれぞれについて、前記ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する定常/非定常成分抽出部と、
前記非定常成分と、前記定常成分に基づいてポストフィルタを計算するポストフィルタ計算部と、
前記ポストフィルタと、前記足し合わせられた信号を掛け合わせて目的方向強調信号を生成する掛け合わせ部と、
前記目的方向強調信号を逆フーリエ変換する逆フーリエ変換部
を含む音生成装置。
【請求項3】
請求項1または2に記載の音生成装置であって、
前記合成部は、
前記決定された強調度に応じて前記第1方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における右チャネル音を生成する右チャネル合成部と、
前記決定された強調度に応じて前記第2方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における左チャネル音を生成する左チャネル合成部と、
を含む音生成装置。
【請求項4】
請求項1または2に記載の音生成装置であって、
前記第1方向チャネルの音信号に前記第1方向に対応する頭部伝達関数を畳込む第1方向音響特性付加部と、
前記第2方向チャネルの音信号に前記第2方向に対応する頭部伝達関数を畳込む第2方向音響特性付加部と、
を含む音生成装置。
【請求項5】
音生成装置が実行する音生成方法であって、
前記音生成装置は、
Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音するステップと、
前記Mチャネルの音信号のうち、任意の所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択するステップと、
前記Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出するステップと、
予め定めた規則により、前記第1、第2方向チャネルの強調度を決定するステップと、
前記決定された強調度に応じて前記第1、第2方向チャネルの音信号を増幅し、前記原音と合成するステップを実行する
音生成方法。
【請求項6】
コンピュータを請求項1から4の何れかに記載の音生成装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば野外収録におけるコンテンツ作成などにおいて、臨場感の高い環境音、背景音を作成するための音生成装置、音生成方法、プログラムに関する。
【背景技術】
【0002】
従来、例えば家庭用ビデオカメラでの撮影に際し、環境音や背景音は、目的音として収音したい音声を妨害する雑音であり、除去すべきものとして扱われてきた(例えば、特許文献1)。
【0003】
一方、「カモメの鳴き声」、「船の汽笛」などの情景音を簡単な構成でバリエーション豊かに再現する情景音発生装置が提案されている(特許文献2)。ただし、特許文献2の情景音発生装置は、予め収録、又は収集しておいた情景音の素材(例えばカモメの鳴き声の音声データ)を他の音に合成することで所定の情景を再現するため、実際の現場の印象を再現しているとはいえない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−171077号公報
【特許文献2】特開2004−289511号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えば街角の風景をビデオカメラで記録する場合、実際にその場にいたときに感じられる印象と異なる印象で、環境音や背景音が収録される場合がある。街角に実際に立ってみると、目の前を通り過ぎる通行人の靴音、少し遠くにある店先から流れるCMの音などが鮮明に耳に残る場合がある。一方、これを録音して再生してみると、交通騒音ばかりが目立ち、前述の靴音やCMの音などはこの騒音に埋もれてしまい、鮮明に聞こえない場合がある。
【0006】
環境音、背景音を収録する場合において、上述したような人間の聴覚系の特性を模擬して、臨場感のある環境音、背景音を生成できる音生成装置、音生成方法を確立することが望まれている。上述の技術は、ビデオカメラの録画のみならず、音声情報を活用する様々なサービスへの応用が期待される。
【0007】
そこで本発明では、臨場感のある環境音、背景音を生成できる音生成装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の音生成装置は、収音部と、強調処理部と、原音抽出部と、強調度決定部と、合成部を含む。
【0009】
収音部は、Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音する。強調処理部は、Mチャネルの音信号のうち2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する。原音抽出部は、Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する。強調度決定部は、予め定めた規則により、第1、第2方向チャネルの強調度を決定する。合成部は、決定された強調度に応じて第1、第2方向チャネルの音信号を増幅し、原音と合成する。
【発明の効果】
【0010】
本発明の音生成装置によれば、臨場感のある環境音、背景音を生成できる。
【図面の簡単な説明】
【0011】
図1】実施例1の音生成装置の収音部の構成を示す図。
図2】実施例1の音生成装置の構成を示すブロック図。
図3】実施例1の音生成装置の動作を示すフローチャート。
図4】実施例2の音生成装置の構成を示すブロック図。
図5】実施例2の音生成装置の第1、第2方向強調部の構成を示すブロック図。
図6】実施例2の音生成装置の第1、第2方向強調部の動作を示すフローチャート。
図7】実施例3の音生成装置の構成を示すブロック図。
図8】実施例3の音生成装置の動作を示すフローチャート。
図9】実施例4の音生成装置の構成を示すブロック図。
図10】実施例4の音生成装置の動作を示すフローチャート。
【発明を実施するための形態】
【0012】
人間の聴覚は、あらゆる方向から到来する音を均等に処理しているのではなく、何かしら注意の向いた音について選択的に注力して聞いているという研究結果がある。さらに、その注意の向く方向は、最大で2つである可能性が高いことも調べられている(参考非特許文献1参照)。
(参考非特許文献1:柏野、平原、「一度に何人の声を聞き分けられるか?」、日本音響学会研究発表会講演論文集、一般社団法人日本音響学会、平成8年3月1日、pp.467-468)
【0013】
マイクによって収録された環境音、背景音は、音の空間的な配置といった空間情報が欠落しており、人間の聴覚処理がうまく機能しないため、臨場感を損なうひとつの要因となっていると考えられる。そこで以下の実施例では、収録する環境音、背景音の中から、特徴的な音の存在する方向を2つ選定し、2つの方向の音を強調することで、収録された環境音、背景音から失われた空間情報を補完し、あたかも収録された場にいながら環境音、背景音を聞いているかのような臨場感を創出することができる音生成装置を開示する。
【0014】
2つの強調すべき方向の音の強調処理は、ハードウェアとして指向性を有するマイクを利用することで実現できる。一方、複数のマイクを利用して指向性を形成し方向ごとにフィルタリングし、さらにその後段で非線形処理を施すことで音の強調処理を実現することもできる。
【0015】
強調された2方向の音情報は、強調処理を施さない原音と混合されることで臨場感のある音が生成される。この際、原音をダイオティックに、強調された2つの音を、左右のそれぞれに配置したステレオ音として再生することで、強調処理された2つの音をより明確に知覚させることが可能になる(実施例3参照)。さらに、強調された2つの音のそれぞれに任意の方向の頭部伝達関数を畳み込み、ヘッドホン受聴することで、より高い臨場感で環境音、背景音を聴取することが可能となる(実施例4参照)。
【0016】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0017】
以下、図1図2図3を参照して実施例1の音生成装置の構成および動作について説明する。図1は、本実施例の音生成装置1の収音部11の構成を示す図である。図2は、本実施例の音生成装置1の構成を示すブロック図である。図3は、本実施例の音生成装置1の動作を示すフローチャートである。
【0018】
図1に示すように、本実施例の音生成装置1が備える収音部11は、例えばM本の単一指向性マイク11−1、11−2、…、11−Mからなり、これらの指向性マイク11−1、11−2、…、11−Mを円状に(各マイクの指向性が強となる方向が放射状に配列されるように)並べた構成とすることができる。なおMは3以上の任意の整数とする。収音部11は、M方向の音(環境音、背景音)をMチャネルの音信号として収音する(S11)。
【0019】
図2に示すように、本実施例の音生成装置1は、上述の収音部11に加え、強調処理部12と、原音抽出部13と、強調度決定部14と、合成部15を含む構成である。
【0020】
強調処理部12は、ステップS11で録音されたMチャネルの音信号のうち、所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する(S12)。原音抽出部13は、Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する(S13)。より詳細には、原音抽出部13は、Mチャネルの音信号の総和、もしくは任意の1チャネルの信号を原音として抽出し、出力する。
【0021】
強調度決定部14は、予め定めた規則により、第1、第2方向チャネルの強調度(強調係数)を決定する(S14)。ステップS14の強調度(強調係数)としては、原音抽出部13からの出力と比較して不自然なバランスにならない範囲で、できるだけ高S/Nとなる値に設定することが望ましい。通常の場合、原音抽出部13の出力から6〜10dB程度高くなるように設定すると、この条件となる場合が多い。合成部15は、決定された強調度に応じて第1、第2方向チャネルの音信号を増幅し、原音と合成して出力する(S15)。
【0022】
本実施例の音生成装置1によれば、強調処理部12が第1、第2方向チャネルの音信号を選択し、合成部15が第1、第2方向チャネルの音信号を増幅して原音と合成して出力するため、臨場感のある環境音、背景音を生成できる。
【実施例2】
【0023】
以下、図4図5を参照して実施例1の強調処理部を変形した実施例2の音生成装置の構成について説明する。図4は、本実施例の音生成装置2の構成を示すブロック図である。図5は、本実施例の音生成装置2の第1、第2方向強調部221a、221bの構成を示すブロック図である。
【0024】
図4に示すように、本実施例の音生成装置2は、実施例1の音生成装置1の強調処理部12の代わりに強調処理部22を備え、その他の構成要件については、実施例1と同じである。同図に示すように強調処理部22は、第1方向強調部221aと、第2方向強調部221bを含む。第1方向強調部221a、第2方向強調部221bは、図5に示す共通の構成要件で構成される。同図に示すように、第1(第2)方向強調部221a(221b)は、フィルタ部2211と、足し合わせ部2212と、ターゲット/雑音エリアPSD推定部2213と、定常/非定常成分抽出部2214と、ポストフィルタ計算部2215と、掛けあわせ部2216と、逆フーリエ変換部2217を含む構成である。以下、図6を参照して本実施例の音生成装置2の第1、第2方向強調部221a、221bの動作について説明する。同図は、本実施例の音生成装置2の第1、第2方向強調部221a、221bの動作を示すフローチャートである。
【0025】
本実施例では、M個(Mは2以上の任意の整数)のマイク素子で構成されるマイクロホンアレイに対して、K個(Kは1以上の任意の整数)の音源を観測する場合を考える。なお、M=2の場合であってもマイクロホンアレイにソフトウェア処理を施すことにより、3方向以上の方向に指向性を持たせることができる。m番目のマイク素子とk番目の音源との間の伝達特性をAm,k(ω),k番目の音源信号をSk(ω,τ)と表した場合、m番目の観測信号(mチャネルの音信号)Xm(ω,τ)は、次式でモデル化される。
【0026】
【数1】
【0027】
ここで、ωは周波数、τはフレームを表す。mは1≦m≦Mを充たす整数、kは1≦k≦Kを充たす整数とする。
【0028】
フィルタ部2211は、各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングする(S2211)。フィルタ部2211は各チャネルにつき一つずつ、計M個のチャネル別フィルタW1(ω),W2(ω),… ,WM(ω)を含む。w(ω)=[W1(ω),W2(ω),… ,WM(ω)]Tは、次式で求められる。
【0029】
【数2】
【0030】
ここでh(ω)=[H1(ω),H2(ω),…,HM(ω)]Tは、ターゲット音方向のアレイマニフォールドベクトルである。なお、h(ω)については、下付きのkの表記を省略した。R-1(ω)は空間相関行列の逆行列を表す。また上付きのTは転置記号、上付きのHはエルミート転置を表す。音源信号が互いに無相関であるとすると、空間相関行列R(ω)は、次式で表現される。
【0031】
【数3】
【0032】
足し合わせ部2212は、フィルタリングされた各チャネルの音信号を足し合わせて、ターゲット音を強調するビームフォーミングの出力信号Y0(ω,τ)を出力する(S2212)。すなわち、ターゲット音を強調するビームフォーミングの出力信号Y0(ω,τ)は、下記の式により求められる。
【0033】
【数4】
【0034】
ただし、x(ω,τ)=[X1(ω,τ),X2(ω.τ),…,XM(ω,τ)]Tである。
【0035】
この出力信号Y0(ω,τ)に雑音信号を抑圧するためのポストフィルタG(ω,τ)を掛け合わせることで、雑音信号が抑圧された最終出力(目的方向強調信号)を得ることができる。このポストフィルタG(ω,τ)を得る手段として、例えば参考非特許文献2などの方法が提案されている。参考非特許文献2の手法では、φS(ω,τ)をターゲットエリアのパワースペクトル密度、φN(ω,τ)を雑音エリアのパワースペクトル密度として次式でG(ω,τ)を求める。
【0036】
【数5】
【0037】
参考非特許文献2ではさらに、観測信号Xm(ω,τ)からφS(ω,τ)、φN(ω,τ)を推定する方法が提案されている。なおパワースペクトル密度は、以下ではPSD(Power Spectral Density)とも呼称する。
(参考非特許文献2:Y.Hioka et al., “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2013.2.22, Volume:21, Issue:6, pp.1240-1250)
【0038】
今、様々な方向のエリアの信号を得るためのL+1個のビームフォーミングフィルタwl(ω),(l=0,1,…,L)について、k番目の方向に対する感度を|Dl,k|2、l番目の出力信号のパワースペクトル密度を|Yl(ω,τ)|2、各方向に対するパワースペクトル密度を|Sk(ω,τ)|2とすると、それぞれの関係は次式のようにモデル化できる。
【0039】
【数6】
【0040】
ただし、Y,D,Sの各シンボルのインデックスを省略してある。
【0041】
上式の逆問題を解くことで、各方向に対するパワースペクトル密度の推定値を求めることができる。
【0042】
【数7】
【0043】
ここで、[ ]+は[ ]に対する疑似逆行列演算を表す。
【0044】
ターゲット/雑音エリアPSD推定部2213は、予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定する(S2213)。ターゲット/雑音エリアPSD推定部2213は、ターゲットエリアのPSD推定値φ^S(ω,τ)、雑音エリアのPSD推定値φ^N(ω,τ)を次式に従って計算する。
【0045】
【数8】
【0046】
ただしこれらの推定値の計算には、ターゲット音と干渉雑音が混在することが仮定されてはいるが、実際の利用の場面では、コヒーレント性のある干渉雑音だけではなく、インコヒーレント性の強い定常性雑音が混在することが多く、このような条件下では、φS(ω,τ)、φN(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下するという問題がある。このため下記のステップS2214(定常/非定常成分抽出部2214の動作)が必要となる。
【0047】
定常/非定常成分抽出部2214は、ターゲットエリア、および雑音エリアのパワースペクトル密度推定値のそれぞれについて、ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する(S2214)。
【0048】
より詳細には、定常/非定常成分抽出部2214は、ターゲットエリアのパワースペクトル密度の推定値φ^S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^S(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^S(B)(ω,τ)のそれぞれを、時間平均処理による次式で求める(S2214)。
【0049】
【数9】
【0050】
次に定常/非定常成分抽出部2214は、雑音エリアのパワースペクトル密度推定値φ^N(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^N(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^N(B)(ω,τ)のそれぞれを、時間平均処理による次式で求める(S2214)。
【0051】
【数10】
【0052】
ポストフィルタ計算部2215は、非定常成分と、定常成分に基づいてポストフィルタを計算する(S2215)。より詳細には、ポストフィルタ計算部2215は、φ^S(A)(ω,τ)、φ^S(B)(ω,τ)、φ^N(A)(ω,τ)、φ^N(B)(ω,τ)を用いて、ポストフィルタG~(ω,τ)を次式によって計算する(S2215)。
【0053】
【数11】
【0054】
掛け合わせ部2216は、ポストフィルタと、ステップS2212で足し合わせられた信号を掛け合わせて目的方向強調信号を生成する(S2216)。掛け合わせ部2216は、ポストフィルタG~(ω,τ)と、足し合わせられた信号Y0(ω,τ)を掛け合わせることで周囲の雑音を抑圧し目的の方向のみを抽出した目的方向強調信号Z(ω,τ)を得る(S2216)。
【0055】
【数12】
【0056】
逆フーリエ変換部2217は、目的方向強調信号Z(ω,τ)を逆フーリエ変換する(S2217)。これにより、周囲の雑音を抑圧し所望の方向の音のみを抽出することが可能となる。
【0057】
本実施例の音生成装置2は、その強調処理部22に第1、第2方向強調部221a、221bを含み、第1、第2方向強調部221a,221bが上述のステップS2211〜S2217を実行することにより所望の一方向の音のみをそれぞれ抽出するため、強調処理部22からは、計2方向の(2チャネル)の音信号が選択されて抽出される。従って、本実施例の音生成装置2は実施例1の音生成装置1と比べ、ソフトウェア的に2方向の音信号を選択することが可能であり、指向性マイクを並べる必要があるといったハードウェアの制約を受けにくいという利点がある。
【実施例3】
【0058】
以下、図7図8を参照して、実施例1の音生成装置をステレオ形式に変形した実施例3の音生成装置について説明する。図7は、本実施例の音生成装置3の構成を示すブロック図である。図8は、本実施例の音生成装置3の動作を示すフローチャートである。図7に示すように、本実施例の音生成装置3は、実施例1の音生成装置1の合成部15の代わりに合成部35を備え、その他の構成要件については、実施例1と同じである。本実施例の音生成装置3の合成部35は、右チャネル合成部35Rと、左チャネル合成部35Lを含む。
【0059】
右チャネル合成部35Rは、決定された強調度に応じて第1方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における右チャネル音を生成する(S35R)。同様に、左チャネル合成部35Lは、決定された強調度に応じて第2方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における左チャネル音を生成する(S35L)。
【0060】
右(左)チャネル合成部35R(35L)は、原音抽出部13によって抽出された原音
を左右のチャンネルそれぞれに等しい信号(ダイオティック信号)とし、右チャンネル用に所望する任意の方向(第1方向とする)の音信号と原音が合成された音を、他方の左チャンネル用に、所望する他方の方向(第2方向とする)の音と原音が合成された音を生成する。合成部35で生成された音は、拡声のステレオスピーカ、ステレオヘッドホンを用いて良好に再生できる。
【0061】
本実施例の音生成装置3によれば、所望の2方向の音を合成部35で合成する際、それぞれの音をステレオ信号の左右のチャンネルに分割して合成することが可能である。
【実施例4】
【0062】
以下、図9図10を参照して、実施例1の音生成装置をバイノーラル方式(参考非特許文献3)に変形した実施例4の音生成装置4について説明する。
(参考非特許文献3:安藤彰男著、「音響サイエンスシリーズ(第10巻)−音場再現」、株式会社コロナ社、2014年12月10日、第6章高臨場感音場再現)
【0063】
図9は、本実施例の音生成装置4の構成を示すブロック図である。図10は、本実施例の音生成装置4の動作を示すフローチャートである。図9に示すように、本実施例の音生成装置4は、実施例1の音生成装置1の構成要件に加え、第1方向音響特性付加部445a、第2方向音響特性付加部445b、クロストーク排除部46を備える。その他の構成要件については、実施例1と同じである。
【0064】
本実施例の音生成装置4は、ステップS12で選択、抽出された第1、第2方向チャネルの音信号それぞれに対して、空間的に弁別可能な任意の2つの方向を決定し、これらの方向に対応する音響特性を付加する。具体的には、第1方向音響特性付加部445aは、第1方向チャネルの音信号に第1方向に対応する頭部伝達関数を畳込む(S445a)。同様に、第2方向音響特性付加部445bは、第2方向チャネルの音信号に第2方向に対応する頭部伝達関数を畳込む(S445b)。
【0065】
一方、原音抽出部から抽出された原音については、実施例3と同様にダイオティック信号とすることや、2つの音それぞれから弁別可能な位置にある任意の方向の伝達特性を畳み込むことが可能である。最終出力である生成音を再生する際は、ステレオスピーカを用いる方法とステレオヘッドホンを用いる方法がとり得る。ステレオヘッドホンを用いる場合には、左右のチャンネルからそれぞれのバイノーラル信号を出力すればよい。一方、ステレオスピーカを用いる場合には、左チャンネルの信号が右耳にも到達し、右チャンネルの信号が左耳にも到達するクロストークが発生する。この場合、クロストーク排除部46により、クロストークを排除すれば好適である。クロストーク排除部46は、ステップS15で合成された信号からクロストークを排除する(S46)。
【0066】
本実施例の音生成装置4によれば、所望の2方向の音を、両耳の入口部分での音響特性を再現するバイノーラル方式を用いて合成することが可能となる。
【0067】
<発明のポイント>
本発明のポイントは、収録された環境音、背景音の中から2つの方向の音を抽出し、その他の音(原音)との3つを合成することでマイク収録によって失われた空間情報を補完し、高い臨場感の環境音、背景音を生成する点である。また、抽出した2方向の音を、左右のスピーカもしくは仮想的に空間の任意の場所から再生させることで、再度人間の空間弁別能力の利用を可能とし、より高い臨場感を創出する点である。
【産業上の利用可能性】
【0068】
ストリートビューのような街中の映像に付加する高臨場な環境音、背景音の生成、あるいは高臨場音響収録が可能なビデオカメラなどに利用することが可能である。
【0069】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0070】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0071】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行、処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0072】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0073】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0074】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0075】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0076】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0077】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10