IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7493412音声処理装置、音声処理システムおよびプログラム
<>
  • 特許-音声処理装置、音声処理システムおよびプログラム 図1
  • 特許-音声処理装置、音声処理システムおよびプログラム 図2
  • 特許-音声処理装置、音声処理システムおよびプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-23
(45)【発行日】2024-05-31
(54)【発明の名称】音声処理装置、音声処理システムおよびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240524BHJP
   H04S 1/00 20060101ALI20240524BHJP
   H04S 3/00 20060101ALI20240524BHJP
【FI】
H04R3/00 310
H04R3/00 320
H04S1/00
H04S3/00
【請求項の数】 6
(21)【出願番号】P 2020137980
(22)【出願日】2020-08-18
(65)【公開番号】P2022034268
(43)【公開日】2022-03-03
【審査請求日】2023-07-18
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】木下 光太郎
(72)【発明者】
【氏名】杉本 岳大
【審査官】大石 剛
(56)【参考文献】
【文献】国際公開第2015/107926(WO,A1)
【文献】特開平08-009498(JP,A)
【文献】国際公開第2019/204214(WO,A2)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04S 1/00
H04S 3/00
(57)【特許請求の範囲】
【請求項1】
音源の位置を基準とする相対位置ごとに当該音源から当該相対位置までの音の放射特性を対応付けてなる放射特性データを当該音源の種類ごとに記憶する記憶部と、
少なくとも音源の種類を示す音源種類情報と、当該音源の位置を基準とする受音位置を示す受音位置情報、および当該音源の音声信号が取得され、
前記記憶部から、前記音源種類情報が示す音源の種類に対応する放射特性データを特定し、
特定した放射特性データから、前記受音位置情報が示す受音位置に対応する第1放射特性と、音源の位置を基準とする聴取位置に対応する第2放射特性を特定し、
前記音声信号から前記第1放射特性を除去し、前記第2放射特性を付加するフィルタ処理部と、
を備える音声処理装置。
【請求項2】
前記記憶部は、所定の音源の種類について、当該音源の発音特性ごとに前記放射特性データを記憶し、
前記音源種類情報は、さらに当該音源の発音特性を示す発音特性情報を含み、
前記フィルタ処理部は、
前記記憶部から、前記発音特性情報が示す発音特性に対応する放射特性データを特定する
請求項1に記載の音声処理装置。
【請求項3】
請求項1または請求項2に記載の音声処理装置と、
前記音声信号から前記音源種類情報を分析する音声信号分析部を備える
音声処理システム。
【請求項4】
聴取者の位置を前記聴取位置として検出する検出部を備える
請求項3に記載の音声処理システム。
【請求項5】
前記音源の画像または前記音声信号を分析して前記受音位置情報を取得する受音位置情報取得部と、を備える
請求項3または請求項4に記載の音声処理システム。
【請求項6】
コンピュータに、
少なくとも音源の種類を示す音源種類情報と、当該音源の位置を基準とする受音位置を示す受音位置情報、および当該音源の音声信号が取得され、
音源の位置を基準とする相対位置ごとに当該音源から当該相対位置までの音の放射特性を対応付けてなる放射特性データを当該音源の種類ごとに記憶する記憶部から、前記音源種類情報が示す音源の種類に対応する放射特性データを特定し、
特定した放射特性データから、前記受音位置情報が示す受音位置に対応する第1放射特性と、音源の位置を基準とする聴取位置に対応する第2放射特性を特定し、
前記音声信号から前記第1放射特性を除去し、前記第2放射特性を付加するフィルタ処理部と、
を備える音声処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理システム、およびプログラム、例えば、収音された音声の音質を調整するための技術に関する。
【背景技術】
【0002】
放送番組、映画などの映像コンテンツには、人物や各種の物音の音声信号が含まれる。従来は、映像コンテンツの制作において、マイクロホンが有する指向性を音源の放射方向に対して正面の方向に向けたうえで近接することが一般的であった(オンマイク収音)。オンマイク収音では、目的の音源とは他の音源から到来し、目的音と重畳する他の音のレベルを低減することができる。そのため、目的音を明瞭に収音することが可能となる。
他方、現実の音源から放射される音の強度や位相などの放射特性は、放射方向や位置などにより複雑に変化することがある。そのため、聴取位置が音源に対して相対的に変化すると、聴取される音の音質も変化する。従来の映像コンテンツでは、通例、映像に現れている音源となる物体(人物も含む)の位置や方向に関わらずオンマイク収音により収音された音の音声信号が採用される。そのため、映像に対して期待される音質と聴取される音質とが合致しないことがある。このことは、映像コンテンツの臨場感を阻害する一因となりうる。特に、拡張現実(AR:Augmented Reality)コンテンツや仮想現実(VR:Virtual Reality)コンテンツなどでは、音源とユーザとの位置関係の変化が多様となる。そのため、音源の放射特性を考慮せず、点音源と同様に全方位に対して一様に音が放射されるとの仮定のもとでは、臨場感が阻害されかねない。
【先行技術文献】
【非特許文献】
【0003】
【文献】Monson, B. B. et al, Horizontal directivity of low- and high-frequency energy in speech and singing, No. 132, Vol. 1, July 2012, p.433-441,
【文献】Shabtai, N. R. et al, Generation and analysis of an acoustic radiation pattern database for forty-one musical instruments, No. 141, No. 2, 2017, p.1246-1256
【発明の概要】
【発明が解決しようとする課題】
【0004】
そこで、AR/VRコンテンツでは、音源の放射特性を振動板付の剛体球からの放射特性を用いて模擬し、その放射特性を用いて聴取位置における音質を変化させることが提案されていた。しかしながら、非特許文献1、2に記載されるように音の放射特性は、一般に複雑であり音源の種類に応じても異なりうる。そのため、コンテンツ制作者や聴取者により期待される音質の変化が模擬されるとは限らない。
他方、音源の放射特性を考慮するために、多数のマイクロホンを異なる位置に配置して、それぞれの位置で収音した音声信号を用いることも考えられる。しかしながら、制作コストや、コンテンツの撮影時におけるマイクロホンの映り込みを考慮すると、必ずしも実用的とはいえない。
【0005】
本発明は上記の課題を解決するためになされたものであり、一音ごとの臨場感を向上することができる音声処理装置、音声処理システム、およびプログラムを提供することを一つの課題とする。
【課題を解決するための手段】
【0006】
[1]本発明の一態様は、音源の位置を基準とする相対位置ごとに当該音源から当該相対位置までの音の放射特性を対応付けてなる放射特性データを当該音源の種類ごとに記憶する記憶部と、少なくとも音源の種類を示す音源種類情報と、当該音源の位置を基準とする受音位置を示す受音位置情報、および当該音源の音声信号が取得され、前記記憶部から、前記音源種類情報が示す音源の種類に対応する放射特性データを特定し、特定した放射特性データから、前記受音位置情報が示す受音位置に対応する第1放射特性と、音源の位置を基準とする聴取位置に対応する第2放射特性を特定し、前記音声信号から前記第1放射特性を除去し、前記第2放射特性を付加するフィルタ処理部と、を備える音声処理装置である。
[1]の構成によれば、音源の種類により異なる放射特性であって、音源から受音位置までの第1放射特性が音声信号から除去され、音源から聴取位置までの第2放射特性が付加される。そのため、音源の種類に応じて聴取位置で聴取される音と同様の音質を有する再生音声が得られる。よって、種類の異なる音源ごとの臨場感を向上することができる。
【0007】
[2]本発明の一態様は、上述の音声処理装置であって、前記記憶部は、所定の音源の種類について、当該音源の発音特性ごとに前記放射特性データを記憶し、前記音源種類情報は、さらに当該音源の発音特性を示す発音特性情報を含み、前記フィルタ処理部は、前記記憶部から、前記発音特性情報が示す発音特性に対応する放射特性データを特定してもよい。
[2]の構成によれば、発音特性により異なる放射特性であって、音源から受音位置までの第1放射特性が音声信号から除去され、音源から聴取位置までの第2放射特性が付加される。そのため、発音特性に応じて聴取位置で聴取される音と同様の音質を有する再生音声が得られる。よって、発音特性の異なる音源ごとの臨場感を向上することができる。
【0008】
[3]本発明の一態様は、上述の音声処理装置と、前記音声信号から前記音源種類情報を分析する音声信号分析部を備える音声処理システムであってもよい。
[3]の構成によれば、処理の対象とする音声信号から、放射特性データの特定に要する音源の種類を定めることができる。
【0009】
[4]本発明の一態様は、上述の音声処理システムであって、聴取者の位置を前記聴取位置として検出する検出部を備えてもよい。
[4]の構成によれば、聴取者の位置の差異もしくは移動に応じた音質を有する再生音声が得られる。そのため、聴取者に対する臨場感をさらに向上させることができる。
【0010】
[5]本発明の一態様は、上述の音声処理システムであって、前記音源の画像または前記音声信号を分析して前記受音位置情報を取得する受音位置情報取得部を備えてもよい。
[5]の構成によれば、画像の撮影や受音などのコンテンツの素材の取得の一環において、受音位置情報を取得することができる。そのため、受音位置情報の設定に係る作業の負荷を省略または軽減することができる。
【0011】
[6]本発明の一態様は、コンピュータに、少なくとも音源の種類を示す音源種類情報と、当該音源の位置を基準とする受音位置を示す受音位置情報、および当該音源の音声信号が取得され、音源の位置を基準とする相対位置ごとに当該音源から当該相対位置までの音の放射特性を対応付けてなる放射特性データを当該音源の種類ごとに記憶する記憶部から、前記音源種類情報が示す音源の種類に対応する放射特性データを特定し、特定した放射特性データから、前記受音位置情報が示す受音位置に対応する第1放射特性と、音源の位置を基準とする聴取位置に対応する第2放射特性を特定し、前記音声信号から前記第1放射特性を除去し、前記第2放射特性を付加するフィルタ処理部と、を備える音声処理装置として機能させるためのプログラムであってもよい。
[6]の構成によれば、音源の種類により異なる放射特性であって、音源から受音位置までの第1放射特性が音声信号から除去され、音源から聴取位置までの第2放射特性が付加される。そのため、音源の種類に応じて聴取位置で聴取される音と同様の音質を有する再生音声が得られる。よって、種類の異なる音源ごとの臨場感を向上することができる。
【発明の効果】
【0012】
本発明によれば、一音ごとの臨場感を向上することができる。
【図面の簡単な説明】
【0013】
図1】本実施形態に係る音声処理システムの概略を説明するための説明図である。
図2】本実施形態に係る音声処理システムのシステム構成例を示す概略ブロック図である。
図3】本実施形態に係る音声処理フローの一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
(概略)
以下、図面を参照しながら本発明の実施形態について説明する。まず、本実施形態の概略について説明する。図1は、本実施形態に係る音声処理システム1の概略を説明するための説明図である。
図1に示す例では、三次元空間において音源S、受音位置および聴取位置Lが互いに異なる位置に設定されていることが仮定されている。受音位置は、マイクロホン12が設置されている位置を指す。音源Sは、発話により音声を正面方向に発生させる人物である。(r,φ,θ)、(r,φ,θ)は、それぞれ音源Sの位置を原点とする受音位置、聴取位置の球面座標である。r,rは、それぞれ音源Sからの受音位置、聴取位置の距離(radius)を示す。φ,φは、それぞれ音源Sの正面方向を0°とする受音位置、聴取位置の方位角(azimuth)を示す。θ,θは、それぞれ音源Sの正面方向を0°とする受音位置、聴取位置の仰角(elevation)を示す。
【0015】
この状況のもとで、音源Sから音が放射されるとき、マイクロホン12で受音される音声の音声信号には、音源Sにおいて放射される音の音源信号に受音位置放射特性が付与される。受音位置放射特性は、音源Sから受音位置までの放射特性である。他方、聴取位置Lで聴取される音の音声信号には、聴取位置放射特性が付与される。一般に、受音位置放射特性は聴取位置放射特性とは異なるため、聴取位置Lで聴取される音の音質は、受音位置で受音される音の音質とは異なる。
【0016】
そこで、音声処理システム1は、マイクロホン12で受音された音声の音声信号に含まれる受音位置放射特性を、聴取位置放射特性に変換することにより、音声信号の音質を変換した再生信号を生成する。ここで、音源や音源の発音特性ごとに異なる受音位置放射特性ならびに聴取位置放射特性を用いることで、一音ごとに聴取位置において期待される音質を有する再生信号が得られる。そのため、再生信号に基づく再生音声を聴取する聴取者に対する臨場感を向上させることができる。聴取位置として、例えば、映像の撮影に係る視点を設定する場合に、視点において受聴される音声と同様の音質を有する音声を再現することができる。そのため、再生音声に対して期待される音質として、映像を撮影した視点において聴取されうる音の音質との一致を図ることができる。
【0017】
(システム構成例)
次に、本実施形態に係る音声処理システム1のシステム構成例について説明する。図2は、本実施形態に係る音声処理システム1のシステム構成例を示す概略ブロック図である。但し、図2は、放送番組、映画などのコンテンツの一部をなす音声コンテンツの制作に応用する場合を例にする。音声処理システム1は、受音処理部10と、制作機器20と、音声処理装置30と、を含んで構成される。
【0018】
受音処理部10は、音源からの音声を受音し、受音した音声を示す音声信号と、音源の種類を示す音源種類情報と、音源を受音した受音位置を示す受音位置情報のセットを取得し、取得したセットを音源ごとに統合し、統合音源情報として制作機器20に出力する。
制作機器20は、音声コンテンツの制作に係る1個または複数個の機器を含む。制作機器20は、受音処理部10から入力される統合音源情報の音声信号に対して、所定の処理を行い、処理後の音声信号を含めた統合音源情報を音声処理装置30に出力する。制作機器20には、例えば、増幅器(アンプ)とミキサが含まれる。増幅器とミキサは、それぞれ入力される音声信号の強度を調整し、強度を調整した音声信号を出力する機能を有する。
【0019】
音声処理装置30は、制作機器20から入力される音源ごとの音源情報から再生信号を生成する再生処理部として機能する。音声処理装置30は、入力される音源情報を受音位置情報、音源種類情報および音声信号に分離する。音声処理装置30は、予め記憶した放射特性データを用いて、音源種類情報が示す音源の種類と、受音位置情報が示す受音位置に対応する受音位置放射特性と、所定の聴取位置情報が示す聴取位置に対応する聴取位置放射特性を定める。そして、音声処理装置30は、分離した音声信号から受音位置放射特性を除去し、受音位置放射特性を除去した音声信号に聴取位置放射特性を付与して再生信号を生成し、生成した再生信号を外部に出力する。
【0020】
次に、受音処理部10の機能構成例について説明する。受音処理部10は、マイクロホン12、音声信号分析部14、受音位置情報取得部16および出力部18を含んで構成される。
マイクロホン12は、音源から到来した音声を受音し、受音した音声を示す音声信号を生成する。マイクロホン12は、生成した音声信号を音声信号分析部14と出力部18に出力する。
【0021】
音声信号分析部14は、マイクロホン12から入力される音声信号を分析して音源の種類を判定する。音声信号分析部14は、音声信号の分析において、所定の音源同定処理を実行する、音源同定処理は、例えば、音声信号に対して所定の期間を有するフレームごとに特徴量を分析し、分析した特徴量のパターンと、予め音源の種類ごとのパターンと比較し、最も合致するパターンに対応する音源の種類を特定する過程を含む。判定対象の音源の種類の粒度は、大きさや形状、音を発生させる発音体の位置、周波数特性など、音源の種類ごとの典型的な音の放射特性を有意に区別できる程度であればよい。
【0022】
音声信号分析部14には、音源の分類ごとに1種類または複数種類のそれぞれの特徴量のパターンを設定しておき、音源の分類を示す音源分類情報を入力または設定しておいてもよい。音声信号分析部14は、入力または設定された音源分類情報で指示される音源の分類を特定し、特定した分類に属する音源の種類から音源同定処理を行ってもよい。音源の分類は、例えば、人声、楽器、などである。音源の分類が人声である場合には、音源の種類は、例えば、成人男子、成人女性、小児、幼児、などである。音源の分類が楽器である場合には、音源の種類は、例えば、バイオリン、チェロ、フルート、クラリネット、トランペット、チューバ、などである。音源の音声信号分析部14は、判定した音源の種類を示す音源種類情報を出力部18に出力する。
【0023】
受音位置情報取得部16は、音源の位置を基準としたマイクロホン12の相対的な位置を受音位置として定め、その受音位置を示す受音位置情報を取得する。受音位置情報取得部16は、取得した受音位置情報を出力部18に出力する。
受音位置情報取得部16は、例えば、マイクロホン12またはその近傍の位置に備わるカメラが撮影した画像に対して所定の画像処理を行うことにより分析し、音源となる所定の物体(例えば、人物)の位置の画像内の大きさと位置を特定する。受音位置情報取得部16は、特定した大きさと予め設定したその物体の典型的な大きさとの比から、音源から自部までの距離を定めることができる。受音位置情報取得部16は、画像の中心から特定した位置の相対的な座標値から、カメラの光軸方向からの相対的な方向を音源から自部までの方向として定めることができる。受音位置情報取得部16は、画像内の物体の位置に基づく距離に代えて、マイクロホン12またはその近傍の位置に備わる物体センサで検出した距離を採用してもよい。なお、物体センサが、さらに物体の方向も検出することができる場合には、受音位置情報取得部16は、画像内の物体の位置に基づく距離に代えて、物体センサで検出した距離を採用してもよい。その場合には、カメラは省略されてもよい。
【0024】
受音処理部10が複数のマイクロホン12からなるマイクロホンアレイを備える場合には、受音位置情報取得部16は、個々のマイクロホンから取得される音声信号に対して所定の音源定位処理を行ってもよい。音源定位処理において、受音位置情報取得部16は、音源から音声が到来する時刻のマイクロホン間の時間差を分析し、個々のマイクロホンアレイの配置を示す配置情報に基づいて音源の位置を特定することができる。受音位置情報取得部16は、音源の位置を基準としたマイクロホンアレイの位置を受音位置として定めることができる。
【0025】
出力部18は、受音処理部10において取得される各種のデータを受音処理部10の外部に出力する。出力部18は、例えば、入出力インタフェースを備える。出力部18は、音源情報統合部182を含んで構成される。音源情報統合部182には、マイクロホン12、音声信号分析部14および受音位置情報取得部16から、それぞれ音声信号、音源種類情報および受音位置情報が入力され、これらを音源ごとに統合して音源情報として制作機器20に出力する。
【0026】
次に、音声処理装置30の機能構成例について説明する。音声処理装置30は、入力部32、記憶部34およびフィルタ処理部36を含んで構成される。
入力部32は、音声処理装置30の外部から各種のデータを入力する。入力部32は、例えば、入出力インタフェースを備える。入力部32は、音源情報分離部322を含んで構成される。音源情報分離部322には、制作機器20から音源ごとの音源情報が入力され、入力された音源情報から受音位置情報、音源種類情報、および音声信号に分離してフィルタ処理部36に出力する。
【0027】
記憶部34は、音声処理装置30において用いられる各種のデータ、音声処理装置30により取得される各種のデータを記憶する記憶媒体を含んで構成される。記憶部34には、音源の種類ごとの放射特性データを予め記憶させておく。放射特性データは、音源からの相対位置のそれぞれについて、放射特性を示すデータである。放射特性は、例えば、周波数ごとに音源における強度を基準とした利得と位相のセットを示す伝達関数で示される。放射特性をなす個々の伝達関数にそれぞれ対応する周波数の単位、つまり周波数分解能または帯域幅(以下、周波数分解能と総称)は、例えば、音源の種類ごとの放射特性を表現できる程度であればよい。周波数分解能は、例えば、周波数ビンであってもよいし、1/3オクターブバンド、1/12オクターブバンド、などであってもよい。周波数ビンは、音声信号を時間領域で表す複数の信号サンプルを、所定のサンプル数ごとに離散フーリエ変換を行って得られる周波数領域での個々の変換係数に対応する周波数またはそのインデックスを指す。相互に隣接する2つの周波数ビン間の周波数の間隔は、信号サンプルのサンプリング周波数を変換に係るサンプル数で除算して得られる商となる。
【0028】
フィルタ処理部36は、記憶部34を参照し、入力部32から入力される音源種類情報で示される音源の種類に応じた放射特性データを特定する。フィルタ処理部36は、特定した放射特性データを用いて、入力部32から入力される受音位置情報が示す受音位置に対応する受音位置放射特性と、自部に設定された聴取位置情報が示す聴取位置に対応する聴取位置放射特性を定める。フィルタ処理部36には、例えば、その音源を被写体として撮影するカメラの位置を聴取位置として示す聴取位置情報が設定されてもよい。
【0029】
但し、放射特性データは、三次元空間内で離散的に分布した相対位置のそれぞれについて放射特性を示すに過ぎない。そのため、特定した放射特性データが、受音位置情報が示す受音位置に対応する受音位置放射特性を示す情報を有するとは限らない。その場合には、フィルタ処理部36は、受音位置から所定の範囲内に存在する複数の相対位置のそれぞれの放射特性を補間して受音位置に対応する受音位置放射特性を定める。
同様に、特定した放射特性データが、聴取位置情報が示す聴取位置に対応する聴取位置放射特性を示す情報を有しない場合には、フィルタ処理部36は、聴取位置から所定の範囲内に存在する複数の相対位置のそれぞれの放射特性を補間して聴取位置に対応する聴取位置放射特性を定める。フィルタ処理部36は、放射特性の補間の際に、例えば、線形補間、スプライン補間、球面調和関数展開、などいずれの手法を用いてもよい。
【0030】
フィルタ処理部36は、入力部32から入力される音声信号から受音位置放射特性を除去し、受音位置放射特性を除去した音声信号に聴取位置放射特性を付与して再生信号を生成する。より具体的には、フィルタ処理部36は、入力される時間領域の音声信号s(t)に対して離散フーリエ変換を行って周波数ωごとの変換係数S(ω)に変換する。フィルタ処理部36は、周波数ωごとに聴取位置放射特性H(ω,r,φ,θ)を受音位置放射特性H(ω,r,φ,θ)で除算して、放射特性変換フィルタH(ω)を生成する。そして、フィルタ処理部36は、周波数ωごとに変換係数S(ω)に放射特性変換フィルタH(ω)を乗算して、処理後の変換係数S’(ω)を算出する。そして、フィルタ処理部36は、周波数ωごとに算出した変換係数S’(ω)に対して離散フーリエ逆変換を行って再生信号s’(t)を生成する。フィルタ処理部36は、生成した再生信号s’(t)を音声処理装置30の外部に出力する。
【0031】
出力される再生信号は、例えば、放送設備に提供され、放送設備から放送波で搬送され放送番組の一部または全部として提供される(放送)。出力される再生信号は、コンテンツ蓄積装置、コンテンツサーバ装置などの他の機器に提供されてもよい。コンテンツ蓄積装置では、独立したコンテンツまたはコンテンツ素材として再生信号が一時的または恒久的に蓄積される(蓄積)。コンテンツサーバ装置は、例えば、ネットワークを経由して要求元装置からの要求情報の受信に応じて、その要求情報で要求される再生信号を、要求元装置に送信する(オンデマンド配信)。コンテンツサーバ装置は、要求情報の受信に関わらず、所定の提供先装置に再生信号を送信してもよい(プッシュ型配信)。
なお、音源の数が2個以上である場合には、フィルタ処理部36は、音源ごとの再生信号をそのまま出力信号として出力してもよいし、音源ごとの再生信号をミキシングし、ミキシングにより得られる信号を出力信号として出力してもよい。
【0032】
(音声処理フロー)
次に、本実施形態に係る音声処理フローについて説明する。図3は、本実施形態に係る音声処理フローの一例を示すフローチャートである。
(ステップS102)マイクロホン12は、音源から到来した音声を受音し、受音した音声信号を音声信号分析部14と出力部18に出力する。
(ステップS104)音声信号分析部14は、マイクロホン12から入力される音声信号を分析して、音源の種類を判定する。音声信号分析部14は、判定した音源の種類を示す音源種類情報を出力部18に出力する。
(ステップS106)受音位置情報取得部16は、音源の位置を基準としたマイクロホン12の相対的な位置を受音位置として定め、定めた受音位置を示す受音位置情報を取得する。受音位置情報取得部16は、取得した受音位置情報を出力部18に出力する。
【0033】
(ステップS108)フィルタ処理部36には、出力部18から制作機器20と入力部32を経由して音声信号、音源種類情報および受音位置情報が対応付けて入力される。このとき、フィルタ処理部36は、自部に設定された聴取位置情報を読み出す。
(ステップS110)フィルタ処理部36は、記憶部34に記憶された放射特性データのうち、音源種類情報で示される音源の種類に対応する放射特性データを特定する。フィルタ処理部36は、特定した放射特性データを参照し、取得した受音位置情報が示す受音位置に対応する放射特性、聴取位置情報が示す聴取位置に対応する放射特性を、それぞれ受音位置放射特性、聴取位置放射特性として定める。
【0034】
(ステップS112)フィルタ処理部36は、受音位置放射特性を除去し、聴取位置放射特性を付与する周波数特性を有する放射特性変換フィルタを生成する。
(ステップS114)フィルタ処理部36は、入力される音声信号に、生成した放射特性変換フィルタを適用して再生信号を生成する。
(ステップS116)フィルタ処理部36は、生成した再生信号を音声処理装置30の外部に出力する。その後、図3に示す処理を終了する。
【0035】
(変形例)
次に、本実施形態の変形例について説明する。上記の説明では、三次元空間における音の放射、受音および聴取を仮定したが、これには限られない。本実施形態では、受音位置情報、聴取位置情報、相対位置情報は、それぞれ二次元座標で表されてもよい。これらの二次元座標は、三次元空間内の位置を示す三次元座標のうち1つの座標軸方向(例えば、z(高さ)方向)の位置が省略された座標であってもよい。また、放射特性データは、二次元空間において音源からの音が放射される放射特性を示してもよいし、三次元空間において音源からの音が放射される放射特性を示してもよい。
【0036】
音声信号分析部14は、自部に入力される音声信号に基づいて定めた音源の種類が、所定の種類である場合には、その音声信号に基づいて、その音源の発音特性を分析してもよい。音声信号分析部14は、分析により定めた発音特性を示す発音特性情報を音源種類情報に含めて出力部18に出力する。分析対象とする発音特性は、その差異により放射特性が有意に変化するものであればよい。
【0037】
例えば、音源の種類が人声、または人声に属する種類(例えば、成人男性、など)である場合には、音声信号分析部14は、発音特性として音素を定めてもよい。音声信号分析部14は、例えば、所定の期間を有するフレームごとにメルケプストラムなどの音響特徴量を定め、定めた音響特徴量に基づいて所定の音響モデルを用いて音素(phoneme)を定めることができる。音響モデルとして、音声認識に用いられる隠れマルコフモデル(HMM:Hidden Markov Model)が利用可能である。その場合、音響特徴量としてメルケプストラム(Mel-cepstrum)などが用いることができる。
【0038】
音源の種類が楽器の音、または楽器の音に属する場合には(例えば、バイオリン、など)、音声信号分析部14は、発音特性としてピッチ(音高)を定めてもよい。音声信号分析部14は、例えば、音声信号に対してフレームごとに、その音声信号を遅延させた自己相関関数を遅延量ごとに定め、自己相関関数が所定の閾値よりも高い遅延量に対応するピッチ候補を定める過程と、ピッチ候補の周波数領域における分布に基づいて、ピッチを定める過程を含む。
【0039】
これに対し、記憶部34には、所定の種類の音源について、発音特性ごとに放射特性データを予め記憶しておく。
フィルタ処理部36は、音源種類情報に発音特性情報が含まれているか否かを判定し、発音特性情報が含まれている場合には、その発音特性情報で示される発音特性に対応する放射特性データを特定する。そして、フィルタ処理部36は、特定した放射特性データを用いて、上記の手法で受音位置放射特性と聴取位置放射特性を定め、定めた受音位置放射特性と聴取位置放射特性から放射特性変換フィルタを生成することができる。
【0040】
なお、フィルタ処理部36は、自部に入力される音声信号に対して離散フーリエ変換を、時間領域で表された放射特性変換フィルタを信号サンプルごとに畳み込み演算を行ない、再生信号を生成してもよい。但し、フィルタ処理部36は、畳み込み演算を行う前に、周波数領域での放射特性変換フィルタに対して離散フーリエ逆変換を行って時間領域の放射特性変換フィルタを生成しておく。
【0041】
図2は、受音処理部10から音声信号を含む音源情報が制作機器20を経由して、音声処理装置30に提供される場合を例示するが、これには限られない。音声処理装置30は、さらに、受音処理部10と制作機器20の一方または両方の構成を含んでもよい。音声処理装置30が受音処理部10の構成を含み、制作機器20の構成が省略される場合、受音処理部10と制作機器20の両者の構成が含まれる場合のいずれにおいても、フィルタ処理部36に音源ごとに音声信号、音源種類情報および受音位置情報を関連付けて入力されれば、出力部18と入力部32が省略されてもよい。また、受音処理部10が省略され、制作機器20の構成が含まれる場合には、入力部32が省略されてもよい。
【0042】
また、受音処理部10と音声処理装置30が別個に構成される場合でも、音源情報は、制作機器20を経由せずに、音声処理装置30に直接入力されてもよい。その場合、フィルタ処理部36から出力される再生信号が制作機器20に入力されてもよい。
フィルタ処理部36に音源ごとの音声信号、音源種類情報および受音位置情報が関連付けて入力されれば、受音処理部10と制作機器20が省略され、音声処理装置30が単独で使用されてもよい。その場合には、音声処理装置30は、コンテンツ制作に関わらず、単に再生信号に基づく再生音声の再生を目的として利用されてもよい。
【0043】
上記の説明では、聴取位置情報がフィルタ処理部36に設定され、固定の聴取位置を示す場合を主としたが、これには限られない。聴取位置は時間経過に応じて可変であってもよい。例えば、入力部32には、所定の検出部で検出された位置を示す位置情報を聴取位置情報として直接または間接的に入力され、入力された聴取位置情報をフィルタ処理部36に出力してもよい。検出部として、聴取者の位置を聴取位置として検出可能とするセンサモジュールが適用可能である。例えば、検出部として、人体の頭部に装着可能とする機器(例えば、ウェアラブル端末)に備わる加速度センサと検出された加速度を2回積分して頭部の位置を示す位置情報を取得する処理回路を含む検出モジュールが適用されてもよい。その場合、フィルタ処理部36は、入力部32から入力された聴取位置情報が示す聴取位置、もしくは、所定の補正値を用いて補正された聴取位置に対して、上記の手法を用いて聴取位置放射特性を定めればよい。
【0044】
再生音声を聴取する聴取者がその機器を装着する場合には、聴取者の移動に伴い変化しうる聴取位置に応じた音質を有する再生音声が聴取者に提示される。また、補正値として、例えば、映像を撮影したカメラが設置される撮影位置(視点)に対し、位置センサが用いられる室内の基準位置を基準とする相対位置の座標が適用されてもよい。これにより、再生音声が聴取される空間と、撮影が行われる空間が異なる場合であっても、映像の撮影位置を基準とする聴取位置に応じた音質を有する再生音声が聴取者に提示される。この手法をAR/VRコンテンツをなす映像と同期した音声の再生に応用することで、再生音声の臨場感を向上させることができる。
【0045】
その他、マイクロホン12、受音位置情報取得部16の一方または両方は、音声情報、受音位置情報を無線で受音処理部10に伝達することができれば、受音処理部10と必ずしも一体化せず、別体であってもよい。
また、受音位置情報取得部16は、カメラで撮影された音源の画像に対して、所定の画像認識処理を行って、音源の種類を判定し、判定した音源の種類を示す音源種類情報を出力部18に出力してもよい。その場合、音声信号分析部14または音声信号分析部14における音源の種類の判定を省略してもよい。
【0046】
以上に説明したように、本実施形態に係る音声処理装置30は、音源の位置を基準とする相対位置ごとに当該音源から当該相対位置までの音の放射特性を対応付けてなる放射特性データを当該音源の種類ごとに記憶する記憶部34を備える。音声処理装置30は、少なくとも音源の種類を示す音源種類情報と、当該音源の位置を基準とする受音位置を示す受音位置情報、および当該音源の音声信号が取得され、記憶部34から、音源種類情報が示す音源の種類に対応する放射特性データを特定し、特定した放射特性データから、受音位置情報が示す受音位置に対応する第1放射特性(即ち、受音位置放射特性)と、音源の位置を基準とする聴取位置に対応する第2放射特性(即ち、聴取位置放射特性)を特定し、音声信号から第1放射特性を除去し、第2放射特性を付加するフィルタ処理部36と、を備える。
この構成によれば、音源の種類により異なる放射特性であって、音源から受音位置までの第1放射特性が音声信号から除去され、音源から聴取位置までの第2放射特性が付加される。そのため、音源の種類に応じて聴取位置で聴取される音と同様の音質を有する再生音声が得られる。よって、種類の異なる音源ごとの臨場感を向上することができる。
【0047】
また、音声処理装置30において、記憶部34は、所定の音源の種類について、当該音源の発音特性ごとに放射特性データを記憶しておいてもよい。音源種類情報は、さらに当該音源の発音特性を示す発音特性情報を含んでもよい。フィルタ処理部36は、記憶部34から、音源種類情報に含まれる発音特性情報が示す発音特性に対応する放射特性データを特定してもよい。
この構成によれば、発音特性により異なる放射特性であって、音源から受音位置までの第1放射特性が音声信号から除去され、音源から聴取位置までの第2放射特性が付加される。そのため、発音特性に応じて聴取位置で聴取される音と同様の音質を有する再生音声が得られる。よって、発音特性の異なる音源ごとの臨場感を向上することができる。
【0048】
また、本実施形態に係る音声処理システム1は、音声処理装置30と、音声信号から音源種類情報を分析する音声信号分析部14を備えてもよい。
この構成によれば、処理の対象とする音声信号から、放射特性データの特定に要する音源の種類を定めることができる。
【0049】
また、本実施形態に係る音声処理システム1は、聴取者の位置を第2放射特性に係る聴取位置として検出する検出部を備えてもよい。
この構成によれば、聴取者の位置の差異もしくは移動に応じた音質を有する再生音声が得られる。そのため、聴取者に対する臨場感をさらに向上させることができる。
【0050】
また、本実施形態に係る音声処理システム1は、音源の画像または音声信号を分析して第1放射特性に係る受音位置情報を取得する受音位置情報取得部16と、を備えてもよい。
この構成によれば、画像の撮影や受音などのコンテンツの素材の取得の一環において、受音位置情報を取得することができる。そのため、受音位置情報の設定に係る作業の負荷を省略または軽減することができる。
【0051】
なお、上述した受音処理部10、制作機器20または音声処理装置30の一部、例えば、音声信号分析部14、受音位置情報取得部16、フィルタ処理部36をコンピュータでそれぞれ実現するようにしてもよい。その場合、それぞれの制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録しておき、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、受音処理部10、制作機器20または音声処理装置30に内蔵されたコンピュータシステムであって、OS(operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read only Memory)、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0052】
また、上述した実施形態における受音処理部10、制作機器20または音声処理装置30の一部、または全部をLSI(Large Scale integration)等の集積回路として実現してもよい。受音処理部10、制作機器20または音声処理装置30の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0053】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0054】
1…音声処理システム、10…受音処理部、12…マイクロホン、14…音声信号分析部、16…受音位置情報取得部、18…出力部、20…制作機器、30…音声処理装置、32…入力部、34…記憶部、36…フィルタ処理部、182…音源情報統合部、322…音源情報分離部
図1
図2
図3