(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-15
(45)【発行日】2022-01-14
(54)【発明の名称】抽出発生音補正装置、抽出発生音補正方法、プログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20220106BHJP
H04R 3/02 20060101ALI20220106BHJP
G10L 25/18 20130101ALI20220106BHJP
G10L 21/0332 20130101ALI20220106BHJP
【FI】
H04R3/00 310
H04R3/02
G10L25/18
G10L21/0332
(21)【出願番号】P 2018132865
(22)【出願日】2018-07-13
【審査請求日】2020-06-09
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】鎌本 優
(72)【発明者】
【氏名】佐藤 尚
(72)【発明者】
【氏名】白木 善史
(72)【発明者】
【氏名】杉浦 亮介
(72)【発明者】
【氏名】川西 隆仁
(72)【発明者】
【氏名】守谷 健弘
(72)【発明者】
【氏名】西川 萌恵
(72)【発明者】
【氏名】河原 一彦
(72)【発明者】
【氏名】藤森 朗穂
(72)【発明者】
【氏名】大内 一弘
(72)【発明者】
【氏名】尾本 章
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特表2015-513817(JP,A)
【文献】特開2011-203500(JP,A)
【文献】特開2008-261999(JP,A)
【文献】特開2014-045333(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 15/00-17/26
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93
G10L 99/00
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY
kと前記抽出発生音e(k)のパワーである抽出発生音パワーE
kを算出するパワー算出部と、
前記収音会場音パワーY
k
に対する前記抽出発生音パワーE
k
の比E
k
/Y
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
kが小さいことを示す所定の範囲にあ
り、かつ、前
記比E
k/Y
kが小さいことを示す所定の範囲にあ
る場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
【請求項2】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
kを算出するスパース尺度算出部と、
前記スパース尺度S
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
kが小さいことを示す所定の範囲にあ
り、
かつ、前記スパース尺度S
kが小さいことを示す所定の範囲にあ
る場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
【請求項3】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY
kと前記抽出発生音e(k)のパワーである抽出発生音パワーE
kを算出するパワー算出部と、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
kを算出するスパース尺度算出部と、
前記収音会場音パワーY
k
に対する前記抽出発生音パワーE
k
の比E
k
/Y
k
と、前記スパース尺度S
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
kが小さいことを示す所定の範囲にあ
り、
かつ、前
記比E
k/Y
kが小さいことを示す所定の範囲にあ
り、
かつ、前記スパース尺度S
kが小さいことを示す所定の範囲にあ
る場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正装置。
【請求項4】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出ステップと、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY
k
と前記抽出発生音e(k)のパワーである抽出発生音パワーE
k
を算出するパワー算出ステップと、
前記収音会場音パワーY
k
に対する前記抽出発生音パワーE
k
の比E
k
/Y
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
【請求項5】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出ステップと、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
k
を算出するスパース尺度算出ステップと、
前記スパース尺度S
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
【請求項6】
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出ステップと、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーY
k
と前記抽出発生音e(k)のパワーである抽出発生音パワーE
k
を算出するパワー算出ステップと、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
k
を算出するスパース尺度算出ステップと、
前記収音会場音パワーY
k
に対する前記抽出発生音パワーE
k
の比E
k
/Y
k
と、前記スパース尺度S
k
と、前記スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が小さいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、
または、
前記補正済抽出発生音e’(k)を、
前記スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、前記比E
k
/Y
k
が大きいことを示す所定の範囲にあり、かつ、前記スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する、
抽出発生音補正方法。
【請求項7】
請求項1
から3の何れかに記載の抽出発生音補正装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音場空間で発生した音を抽出する技術に関する。
【背景技術】
【0002】
会場で発生した音を抽出するために、エコーキャンセラ技術が用いられる(非特許文献1)。以下、
図1を参照して、エコーキャンセラ技術について説明する。
【0003】
まず、会場Aで発生した音x(k)(k=1,2,…、以下、kをサンプル番号という)が会場Bに伝送される。会場Bに伝送された入力音x(k)を、例えば、K個のサンプルで構成されるフレームごとに処理する場合、Kはフレーム長となる。また、入力音x(k)は、例えば、電話の音声、会場Aに設置されたコンテンツ配信システムの音である。
【0004】
次に、入力音x(k)が会場Bに設置されたスピーカ910から再生され、(スピーカ910からマイク920までの)会場Bの音響エコーh0(k)が畳み込まれた畳み込み入力音x(k)*h0(k)として会場Bに設置されたマイク920により収音される。ここで、*は畳み込み演算子を表す。また、音響エコーのことを伝達関数やインパルス応答ということもあるが、以下では、音響エコーまたは伝達関数ということにする。
【0005】
マイク920により収音される音は、畳み込み入力音x(k)*h0(k)だけではない。会場Bで発生する環境音(例えば、音声や拍手音)c1(k)もその音源からマイク920までの音響エコーh1(k)が畳み込まれた畳み込み環境音c1(k)*h1(k)として収音される。また、マイク920にはノイズn(k)も混入する。したがって、マイク920により収音される音y(k)(以下、収音会場音y(k)という。)はy(k)=x(k)*h0(k)+c1(k)*h1(k)+n(k)と表すことができる。
【0006】
このまま収音会場音y(k)を会場Aに伝送し、会場Aで再生すると、ハウリングやダブルトークを生じてしまい、相手方にとって聞きづらい音となってしまう。そこで、エコーキャンセラ930は、畳み込み入力音x(k)*h0(k)を近似するx’(k)=x(k)*h0’(k)を推定し、会場Bで発生した音を抽出した抽出発生音e(k)=y(k)-x’(k)=c1(k)*h1(k)+n(k)+d(k)を求め、この抽出発生音e(k)を会場Aに伝送する。
【0007】
しかし、推定された伝達関数h0’(k)と真の伝達関数h0(k)は異なるため、残留信号d(k)が生じてしまう。この問題を解決するためにNLMS(Normalized Least-Mean-Squares)法などの適応アルゴリズム(適応フィルタ)が使われる。NLMS法を用いると、伝達関数h0’(k)を伝達関数h0(k)に近づけることができる。特に、会場Bが小さい(つまり、スピーカとマイクの距離が比較的近くなる)場合は伝達関数h0’(k)を精度よく推定できるため、残留信号d(k)の振幅値は十分小さくなり、聴感上の違和感を小さくすることができる。
【先行技術文献】
【非特許文献】
【0008】
【文献】北脇信彦,“ディジタル音声・オーディオ技術”,株式会社オーム社,pp.223-225.
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記エコーキャンセラ技術を用いることによって、例えば、スピーカホンの用途のようにスピーカとマイクの位置が近い場合には、会場Bで発生した音を適切に抽出することが
できる。
【0010】
しかし、スピーカとマイクの位置が離れ、あえて残響を加えるように設計されている環境(例えば、コンサート会場や演劇会場のようなライブビューイングにおけるライブ会場(会場A)とは別のビューイング会場(会場B))では、伝達関数h0’(k)を伝達関数h0(k)に十分に近づけることができない。そのため、残留信号d(k)の振幅値が大きくなってしまい、会場Bで発生した音だけを抽出することができないことになる。
【0011】
スピーカホンによる音声通話などでエコーキャンセラを用いる場合には、会議室(会場B)での音声を含む環境音c1(k)が相手側に届かないと困るため、残留信号d(k)が多少残っていたとしても、抽出発生音e(k)をそのまま伝送する方が好ましい。
【0012】
しかし、ライブビューイングの場合には、ライブ会場(会場A)での聴感を大きく損ねることになるため、抽出発生音e(k)をそのまま伝送するのは好ましくない。特に、ビューイング会場(会場B)で発生した拍手音や手拍子音などの環境音c1(k)そのものを伝送する代わりに、伝送先であるライブ会場(会場A)で環境音c1(k)を生成するために用いるパラメータを伝送する場合、ビューイング会場(会場B)で発生した環境音c1(k)を誤抽出してしまうと、伝送先で誤った形で拍手音や手拍子音(つまり、拍手音や手拍子音以外の音も含んだ音)を生成してしまい、もともとのコンテンツを楽しんでいるライブ会場(会場A)の聴衆に迷惑がかかってしまうことになる。
【0013】
図2は、このような状況を示すものであり、残留信号d(k)が大きく残った(入力音x(k)と収音会場音y(k)の差異が大きい)場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子を示す図である。
図2の網掛け部は、通常のエコーキャンセラを用いた場合に、残留信号d(k)が大きく、スピーカから再生された音x(k)が抽出発生音e(k)に残ってしまっており、会場Bの環境音c1(k)が正しく抽出されていないこと示している。
【0014】
つまり、通常のエコーキャンセラでは、ビューイング会場(会場B)のようにスピーカとマイクが近くにないような大きな会場で発生する音を、ライブ会場(会場A)で再生する場合の聴感上の違和感を抑えた形で抽出することができないという問題がある。
【0015】
そこで本発明では、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる抽出発生音補正技術を提供することを目的とする。
【課題を解決するための手段】
【0016】
この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY
k
と抽出発生音e(k)のパワーである抽出発生音パワーE
k
を算出するパワー算出部と、収音会場音パワーY
k
に対する抽出発生音パワーE
k
の比E
k
/Y
k
と、スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、比E
k
/Y
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、比E
k
/Y
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。
この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、抽出発生音e(k)から、抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
k
を算出するスパース尺度算出部と、スパース尺度S
k
と、スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、スパース尺度S
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。
この発明の一態様による抽出発生音補正装置は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、抽出発生音e(k)から、抽出発生音e(k)を含む所定時間区間の抽出発生音のスペクトル包絡の平坦度合いの指標値Q
k
を算出するスペクトル平坦指標値算出部と、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY
k
と抽出発生音e(k)のパワーである抽出発生音パワーE
k
を算出するパワー算出部と、抽出発生音e(k)から、抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度S
k
を算出するスパース尺度算出部と、収音会場音パワーY
k
に対する抽出発生音パワーE
k
の比E
k
/Y
k
と、スパース尺度S
k
と、スペクトル包絡の平坦度合いの指標値Q
k
と、を用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含む抽出発生音補正装置であり、抽出発生音補正部は、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が小さいことを示す所定の範囲にあり、かつ、比E
k
/Y
k
が小さいことを示す所定の範囲にあり、かつ、スパース尺度S
k
が小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する、または、補正済抽出発生音e’(k)を、スペクトル包絡の平坦度合いの指標値Q
k
が大きいことを示す所定の範囲にあり、かつ、比E
k
/Y
k
が大きいことを示す所定の範囲にあり、かつ、スパース尺度S
k
が大きいことを示す所定の範囲にある場合は、e’(k)=e(k)とし、それ以外の場合は、e’(k)=0として生成する。
【発明の効果】
【0017】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。
【図面の簡単な説明】
【0018】
【
図2】残留信号d(k)が大きく残った場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子の一例を示す図。
【
図3】抽出発生音補正装置100を含む抽出発生音補正システム10の構成の一例を示すブロック図。
【
図4】抽出発生音補正装置100の構成の一例を示すブロック図。
【
図5】抽出発生音補正装置100の動作の一例を示すフローチャート。
【
図6】抽出発生音補正装置100の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子の一例を示す図。
【
図7】抽出発生音補正装置101の構成の一例を示すブロック図。
【
図8】抽出発生音補正装置101の動作の一例を示すフローチャート。
【
図9】環境音c1(k)が拍手音である場合の振幅の様子の一例を示す図。
【
図10】抽出発生音補正装置200の構成の一例を示すブロック図。
【
図11】抽出発生音補正装置200の動作の一例を示すフローチャート。
【
図12】抽出発生音補正装置201の構成の一例を示すブロック図。
【
図13】抽出発生音補正装置201の動作の一例を示すフローチャート。
【
図14】抽出発生音補正装置400の構成の一例を示すブロック図。
【
図15】抽出発生音補正装置400の動作の一例を示すフローチャート。
【
図16】抽出発生音補正装置401の構成の一例を示すブロック図。
【
図17】抽出発生音補正装置401の動作の一例を示すフローチャート。
【
図18】抽出発生音補正装置300の構成の一例を示すブロック図。
【
図19】抽出発生音補正装置300の動作の一例を示すフローチャート。
【
図20】抽出発生音補正装置301の構成の一例を示すブロック図。
【
図21】抽出発生音補正装置301の動作の一例を示すフローチャート。
【
図22】抽出発生音補正装置302の構成の一例を示すブロック図。
【
図23】抽出発生音補正装置302の動作の一例を示すフローチャート。
【
図24】抽出発生音補正装置303の構成の一例を示すブロック図。
【
図25】抽出発生音補正装置303の動作の一例を示すフローチャート。
【
図26】抽出発生音補正装置304の構成の一例を示すブロック図。
【
図27】抽出発生音補正装置304の動作の一例を示すフローチャート。
【
図28】抽出発生音補正装置305の構成の一例を示すブロック図。
【
図29】抽出発生音補正装置305の動作の一例を示すフローチャート。
【発明を実施するための形態】
【0019】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0020】
ここまでの説明では、会場Bに伝送されてくる入力音x(k)をモノラル信号、会場Bで発生する環境音はc1(k)の1つであるとして説明してきたが、入力音x(k)はステレオ信号であってもよいし、会場Bで発生する環境音は複数あってもよい。
【0021】
例えば、入力音がモノラル信号x(k)であり、会場Bで発生する環境音がc1(k),…,cM(k)のM個(Mは1以上の整数)であった場合、入力音x(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれh0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=x(k)*h0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数h0(k)を推定した伝達関数をh0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-x(k)*h0’(k)=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。
【0022】
また、入力音がステレオ信号xR(k),xL(k)であり、会場Bで発生する環境音がc1(k),…,
cM(k)のM個(Mは1以上の整数)であった場合、入力音xR(k),xL(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれhR0(k),hL0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=xR(k)*hR0(k)+xL(k)*hL0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数hR0(k),hL0(k)を推定した伝達関数をそれぞれhR0’(k),hL0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-{xR(k)*hR0’(k)+xL(k)*hL0’(k)}=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。
【0023】
3つの例からわかるように、収音会場音y(k)は、畳み込み入力音と畳み込み環境音とノイズの和として表現することができる。また、抽出発生音e(k)は、畳み込み環境音とノイズと残響信号の和として表現することができる。
【0024】
音響環境としては、モノラルやステレオ以外に、サラウンド環境、22.2ch環境など様々なものが存在するが、収音会場音y(k)、抽出発生音e(k)は上記3つの例と同様に扱うことができる。
【0025】
そこで、以下説明する各実施形態では、入力音がモノラル信号であり、環境音が1つである場合を用いて説明することにする。
【0026】
まず、各実施形態で用いる用語について説明する。
【0027】
サンプル番号kをk=1,2,…とする。入力音x(k)をK個のサンプルで構成されるフレームごとに処理する場合、i番目のフレームXiは、Xi=[x(1) x(2) …x(K)]というベクトルで表現することができる。ここで、i(i=1,2,…)はフレーム番号を表す。
【0028】
以下、説明を簡素化するために、Xi=x(k)、つまり、各フレームは1個のサンプルで構成されるものとして、各実施形態を説明するが、複数個のサンプルで構成されるとした場合と内容は変わらない。
【0029】
収音会場音y(k)を会場で再生された音及び会場で発生した音を収音したサンプル番号kの音とする。会場で再生された音とは、別の会場から伝送されてきて再生された音のことであり、先ほどの例で言えば、ライブ会場の音である。また、会場で発生した音とは、先ほどの例で言えば、ビューイング会場で発生した拍手音などの環境音やノイズのことである。
【0030】
抽出発生音e(k)を収音会場音y(k)から会場で発生した音を抽出したサンプル番号kの音とする。
【0031】
<第一実施形態>
以下、
図3を参照して抽出発生音補正システム10について説明する。
図3は、抽出発生音補正システム10の構成を示すブロック図である。
図3に示すように抽出発生音補正システム10は、スピーカ910、マイク920、エコーキャンセラ930、抽出発生音補正装置100を含む。
【0032】
スピーカ910、マイク920、エコーキャンセラ930は、
図1のそれと同一の機能を有するものである。具体的には、スピーカ910は、伝送されてきた会場Aの音x(k)を会場Bにて再生する装置である。マイク920は、会場Bで発生した環境音c1(k)を収音することを目的とした装置であるが、実際には、スピーカ910から再生された入力音x(k)を畳み込んだ畳み込み入力音x(k)*h0(k)と会場Bで発生した環境音c1(k)を畳み込んだ畳み込み環境音c1(k)*h1(k)とノイズn(k)を収音する装置である。エコーキャンセラ93
0は、入力音x(k)とマイク920により収音された収音会場音y(k)(=x(k)*h0(k)+c1(k)*h1(k)+n(k))から抽出発生音e(k)を生成する。抽出発生音e(k)=c1(k)*h1(k)+n(k)+d(k)は、会場Bで発生した音をエコーキャンセラ930が抽出した音である。ここで、d(k)は残留信号である。
【0033】
なお、スピーカ910からマイク920への伝達遅延を考慮し、入力音x(k)の代わりに、入力音x(k)に所定の遅延を加えてからエコーキャンセラ930に入力するようにしてもよい。また、スピーカ910からマイク920への伝達遅延を考慮し、入力音x(k)の代わりに、環境音やノイズが十分小さいときに測定した伝達関数を入力音x(k)に畳み込んだ畳み込み入力音をエコーキャンセラ930に入力するようにしてもよい。
【0034】
抽出発生音補正装置100は、収音会場音y(k)と抽出発生音e(k)から補正済抽出発生音e’(k)を生成する。ここで、補正済抽出発生音e’(k)は、収音会場音y(k)と抽出発生音e(k)を用いて抽出発生音e(k)を補正したサンプル番号kの音である。スピーカホンなどで用いられている従来の抽出発生音補正装置は、残留信号d(k)による聴感上の違和感がなくなるように、抽出発生音e(k)を補正して補正済抽出発生音e’(k)を得ることを目的としていた。これに対し、本発明の抽出発生音補正装置100は、収音会場音y(k)が主に含まれるように、抽出発生音e(k)を補正して補正済抽出発生音e’(k)を得ることを目的とするものである。
【0035】
以下、
図4~
図5を参照して抽出発生音補正装置100について説明する。
図4は、抽出発生音補正装置100の構成を示すブロック図である。
図5は、抽出発生音補正装置100の動作を示すフローチャートである。
図4に示すように抽出発生音補正装置100は、パワー算出部110、抽出発生音補正部120、記録部190を含む。記録部190は、抽出発生音補正装置100の処理に必要な情報を適宜記録する構成部である。
【0036】
図5に従い抽出発生音補正装置100の動作について説明する。パワー算出部110は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY
kと抽出発生音e(k)のパワーである抽出発生音パワーE
kを算出する(S110)。例えば、収音会場音パワーY
kを、収音会場音y(k)を含む一定時間(Kサンプル分(ただし、Kは1以上の整数))の収音会場音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。
【0037】
【0038】
また、抽出発生音パワーEkを、抽出発生音e(k)を含む一定時間(Kサンプル分)の抽出発生音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。
【0039】
【0040】
また、以下のように、上記の収音会場音パワーYk、抽出発生音パワーEkをそれぞれサン
プル数Kで割った値を収音会場音パワーYk、抽出発生音パワーEkとしてもよい。
【0041】
【0042】
抽出発生音補正部120は、収音会場音パワーYkと抽出発生音パワーEkを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S120)。例えば、Ek>Ykの場合、e’(k)=e(k)とし、Ek≦Ykの場合、e’(k)=0として補正済抽出発生音を生成する。Ek>Ykの場合にe’(k)=e(k)とする理由は、この場合には環境音c1(k)が入力音x(k)に比べて十分大きく、抽出発生音e(k)に含まれる主な成分は環境音c1(k)であると考えられるためである。また、Ek≦Ykの場合、e’(k)=0とする理由は、環境音c1(k)が入力音x(k)に比べて十分小さく、抽出発生音e(k)の中では環境音c1(k)は残留信号d(k)に埋もれている、すなわち、抽出発生音e(k)の主な成分は残留信号d(k)であると考えられるためである。なお、後述する(変形例2)との関係でいえば、Ek≦Ykの場合、e(k)をパラメータ生成に用いても良好な結果を得られないと考えられるため、e’(k)=0とする。
【0043】
図6は、抽出発生音補正装置100の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子を示す図である。
図6を見ると、スピーカ910から再生された入力音x(k)の影響を減じ、環境音c1(k)が抽出できていることがわかる。
【0044】
なお、αをあらかじめ定められた正の定数(以下、αのことを倍率という)として、Ek>αYkの場合、e’(k)=e(k)とし、Ek≦αYkの場合、e’(k)=0として補正済抽出発生音を生成するようにしてもよい。
【0045】
もちろん、Ek>Yk、Ek≦Ykの代わりに、Ek≧Yk、Ek<Ykを、Ek>αYk、Ek≦αYkの代わりに、Ek≧αYk、Ek<αYkを用いてもよい。
【0046】
以上まとめると、α=1の場合も含めて、Ek/Yk≦αまたはEk/Yk<αとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた正の定数αに対してEk/Yk≦αまたはEk/Yk<αとなることを、収音会場音パワーYkに対する抽出発生音パワーEkの比Ek/Ykが小さいことを示す所定の範囲にあるという。このとき、αのことを比Ek/Ykが小さいことを示す所定の範囲にあることを示す値という。
【0047】
(変形例1)
抽出発生音補正部120における収音会場音パワーYkと抽出発生音パワーEkの比較では、比較条件に用いる倍率αを時間経過によらず不変であるものとして扱ったが、一定のタイミングで倍率αを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、倍率αが追従することができるようになる。
【0048】
例えば、α0(ただし、α0はあらかじめ定められた正の定数)を倍率の初期値として、サンプルごとに倍率αを更新して比較するようにしてもよい。具体的には、k=1,…として、Ek>αk-1Ykの場合、e’(k)=e(k)とし、Ek≦αk-1Ykの場合、e’(k)=0として補正済抽出
発生音e’(k)を生成する。次に、次のサンプルのための倍率としてαk=Ek/Ykを求め、同様にEk+1>αkYk+1の場合、e’(k+1)=e(k+1)とし、Ek+1≦αkYk+1の場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。
【0049】
なお、倍率αをαk=(Ek-L+1/Yk-L+1+…+Ek/Yk)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、倍率αの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数(ただし、ω>0)として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、倍率αkを以下のように求めてもよい。
【0050】
【0051】
(変形例2)
抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0052】
以下、
図7~
図8を参照して抽出発生音補正装置101について説明する。
図7は、抽出発生音補正装置101の構成を示すブロック図である。
図8は、抽出発生音補正装置101の動作を示すフローチャートである。
図7からわかるように、抽出発生音補正装置101は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置100と異なる。また、
図8からわかるように、抽出発生音補正装置101の動作は、S130が追加されている点においてのみ抽出発生音補正装置100の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。例えば、補正済抽出発生音e’(k)を含む一定時間の補正済抽出発生音のパワーE’
kを用いて、補正済抽出発生音パラメータp(k)を生成することができる(式(2)参照)。
【0053】
【0054】
具体的には、パワーE’kの取り得る値の範囲をあらかじめ定められた場合の数に量子化して得られるインデックスを補正済抽出発生音パラメータp(k)とする。
【0055】
なお、後述する式(8)や式(6)のように、一定時間での絶対値和や任意の累乗和などを上記パワーE’kの代わりに用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。さらに、それらの対数を取ったもの(logΣi=k-K+1
ke(i)×e(i), logΣi=k-K+1
k|e(i)|, logΣi=k-K+1
ke(i)×e(i)×e(i)×e(i))を用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0056】
また、p(k)のサンプリング周波数が伝送フォーマットのサンプリング周波数と異なることもある。この場合、伝送フォーマットのサンプリング周波数を考慮して、p(k)のサンプリング周波数を変更した新たなパラメータp’(j)(j=1,2,…、ただし、jはサンプル番号)を生成するようにしてもよい。例えば、サンプリング周波数が48kHzであるp(k)を、伝送フォーマットのサンプリング周波数8kHzでサンプリングしたパラメータp’(k)に変更したいときは、次式のように平均値を求めて、変更するようにしてもよいし、音響信号で使われるようなリサンプラを用いて変更するようにしてもよい。
【0057】
【0058】
さらに、p(k)やp’(j)の量子化精度と伝送フォーマットの量子化精度が異なる場合には、量子化精度を変換したパラメータp^(k)やp’^(j)を生成するようにしてもよい。例えばp(k)の量子化精度が16ビット、p^(k)の量子化精度が8ビットである場合には、単純にp(k)を8ビット右にシフト、つまり、p^(k)=p(k)>>8と演算して量子化精度を変換してもよい(8ビット右にシフトする代わりに、256で割るようにしてもよい)。もしくは、ITU-T G.711のA-law/μ-law変換のように、16ビット精度を一度14ビット精度に落としてから、対数関数で変換して8ビット精度に変換するようにしてもよい。なお、以上の処理は、ルックアップテーブルを用いて、p^(k)=LUT(p(k))やp’^(j)=LUT(p’(j))のように変換してもよい。
【0059】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0060】
<第二実施形態>
環境音c1(k)が例えば拍手音である場合、
図9の網掛け部(点線枠部)に示すように、環境音c1(k)は時間方向にスパースな信号となる。そこで、抽出発生音e(k)の時間方向におけるスパースさの程度を調べ、スパースであると判定された場合、環境音c1(k)が入力音x(k)に比べて十分に大きいと判断して、e’(k)=e(k)とし、スパースでないと判定された場合、環境音c1(k) が入力音x(k)に比べて十分に小さく、環境音c1(k)が抽出できないとして、e’(k)=0として補正済抽出発生音を生成するようにする。
【0061】
以下、
図10~
図11を参照して抽出発生音補正装置200について説明する。
図10は、抽出発生音補正装置200の構成を示すブロック図である。
図11は、抽出発生音補正装置200の動作を示すフローチャートである。
図10に示すように抽出発生音補正装置200は、スパース尺度算出部210、抽出発生音補正部220、記録部190を含む。
【0062】
図10に従い抽出発生音補正装置200の動作について説明する。スパース尺度算出部210は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S
kを算出する(S210)。スパース尺度とは、時間方向におけるスパースさの程度を表す値である。例えば、サンプルk以前のK個のサンプルの抽出発生音を用いて、スパース尺度S
kを次式により算出し
てもよい。
【0063】
【0064】
なお、E2k,E4kのことを尖度といい、スパース尺度Skのことを尖度係数ということもある。また、スパース尺度Skを次式により算出してもよい。
【0065】
【0066】
さらに、別の例として、振幅絶対値の最大値と振幅絶対値の平均値から算出される比をスパース尺度Skとして用いてもよい。
【0067】
【0068】
なお、振幅絶対値の最大値の代わりに、上位P個(ただし、P<K)の平均値をE0kとしてもよい。つまり、j=1,…,Pに対して、fjを|e(i)|(i=k-K+1,…,k)の中でj番目に大きい値として、E0k=(f1+f2+…+fP)/Pとしてもよい。
【0069】
抽出発生音補正部220は、スパース尺度Skを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S220)。例えば、βをあらかじめ定められた定数(以下、βのことを閾値ともいう)として、Sk>βの場合、e’(k)=e(k)とし、Sk≦βの場合、e’(k)=0として補正済抽出発生音を生成する。
【0070】
もちろん、Sk>β、Sk≦βの代わりに、Sk≧β、Sk<βを用いてもよい。
【0071】
以上まとめると、Sk≦βまたはSk<βとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた定数βに対してSk≦βまたはSk<βとなることを、スパース尺度Skが小さいことを示す所定の範囲にあるという。このとき、βのことをスパース尺度Skが小さいことを示す所定の範囲にあることを示す値という。
【0072】
(変形例1)
抽出発生音補正部220におけるスパース尺度Skと閾値βの比較では、比較条件に用いる閾値βを時間経過によらず不変であるものとして扱ったが、一定のタイミングで閾値βを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、閾値βが追従することができるようになる。
【0073】
例えば、β0(ただし、β0はあらかじめ定められた数)を閾値の初期値として、サンプルごとに閾値βを更新して比較するようにしてもよい。具体的には、k=1,…として、Sk>βk-1の場合、e’(k)= e(k)とし、Sk≦βk-1の場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための閾値をβk=Skとし、同様にSk+1>βkの場合、e’(k+1)=e(k+1)とし、Sk+1≦βkの場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。
【0074】
なお、閾値βをβk=(Sk-L+1+…+Sk)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、閾値βの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数(ただし、ω>0)として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、閾値βkを以下のように求めてもよい。
【0075】
【0076】
(変形例2)
第一実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0077】
以下、
図12~
図13を参照して抽出発生音補正装置201について説明する。
図12は、抽出発生音補正装置201の構成を示すブロック図である。
図13は、抽出発生音補正装置201の動作を示すフローチャートである。
図12からわかるように、抽出発生音補正装置201は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置200と異なる。また、
図13からわかるように、抽出発生音補正装置201の動作は、S130が追加されている点においてのみ抽出発生音補正装置200の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。
【0078】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した
抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0079】
<第三実施形態>
環境音c1(k)が例えば拍手音である場合、環境音c1(k)のスペクトル包絡は平坦となる。そこで、抽出発生音e(k)のスペクトル包絡の平坦度合いを調べ、スペクトル包絡が平坦であると判定された場合、環境音c1(k)が入力音x(k)に比べて十分に大きいと判断して、e’(k)=e(k)とし、スペクトル包絡が平坦でないと判定された場合、環境音c1(k) が入力音x(k)に比べて十分に小さく、環境音c1(k)が抽出できないとして、e’(k)=0として補正済抽出発生音を生成するようにする。
【0080】
以下、
図14~
図15を参照して抽出発生音補正装置400について説明する。
図14は、抽出発生音補正装置400の構成を示すブロック図である。
図15は、抽出発生音補正装置400の動作を示すフローチャートである。
図14に示すように抽出発生音補正装置400は、スペクトル平坦指標値算出部410、抽出発生音補正部420、記録部190を含む。
【0081】
図14に従い抽出発生音補正装置400の動作について説明する。スペクトル平坦指標値算出部410は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q
kを算出する(S410)。例えば、スペクトル平坦指標値算出部410は、サンプルkを含む一定時間(例えば、フレーム)のサンプルの抽出発生音を用いて、スペクトル包絡の平坦度合いの指標値Q
kを以下の例1から例5の何れかにより算出すればよい。
【0082】
(例1)
スペクトル平坦指標値算出部410は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、下記の式(A1)により求まる指標値Q1kをスペクトル包絡の平坦度合いの指標値Qkとして得る。
【0083】
【0084】
(例2)
スペクトル平坦指標値算出部410は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の最小値、すなわち、下記の式(A2)により求まる指標値Q2kをスペクトル包絡の平坦度合いの指標値Qkとして得る。
【0085】
【0086】
(例3)
スペクトル平坦指標値算出部410は、抽出発生音e(k)を含む一定時間のサンプルからT次のLSPパラメータθ[1],θ[2],…,θ[T]を得て、得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の値と最低次のLSPパラメータの値のうちの最小値、すなわち、下記の式(A3)により求まる指標値Q3kをスペクトル包絡の平坦度合いの指標値Qkとして得る。
【0087】
【0088】
(例4)
スペクトル平坦指標値算出部410は、抽出発生音e(k)を含む一定時間のサンプルからT次のPARCOR係数par[1],par[2],…,par[T]を得て、得たT次のPARCOR係数par[1],par[2],…,par[T]を用いて、下記の式(A4)により求まる指標値Q4kをスペクトル包絡の平坦度合いの指標値Qkとして得る。
【0089】
【0090】
(例5)
スペクトル平坦指標値算出部410は、まず、例1から例4のうちの何れか2個以上の方法により、指標値Q1k, Q2k, Q3k, Q4kのうちの何れか2個以上を得る。スペクトル平坦指標値算出部410は、さらに、ここで得た2個以上の指標値の重み付け加算により、それぞれの指標値が大きな値になるほど大きな値になる重み付け加算後指標値を、スペクトル包絡の平坦度合いの指標値Qkとして得る。
【0091】
抽出発生音補正部420は、スペクトル包絡の平坦度合いの指標値Qkを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S420)。例えば、γをあらかじめ定められた定数(以下、γのことを閾値ともいう)として、Qk>γの場合、e’(k)=e(k)とし、Qk≦γの場合、e’(k)=0として補正済抽出発生音を生成する。
【0092】
もちろん、Qk>γ、Qk≦γの代わりに、Qk≧γ、Qk<γを用いてもよい。
【0093】
以上まとめると、Qk≦γまたはQk<γとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた定数γに対してQk≦γまたはQk<γとなることを、スペクトル包絡の平坦度合いの指標値Qkが小さいことを示す所定の範囲にあるという。このとき、γのことをスペクトル包絡の平坦度合いの指標値Qkが小さいことを示す所定の範囲にあることを示す値という。
【0094】
(変形例1)
抽出発生音補正部420におけるスペクトル包絡の平坦度合いの指標値Qkと閾値γの比較では、比較条件に用いる閾値γを時間経過によらず不変であるものとして扱ったが、一定のタイミングで閾値γを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、閾値γが追従すること
ができるようになる。
【0095】
例えば、γ0(ただし、γ0はあらかじめ定められた数)を閾値の初期値として、サンプルごとに閾値γを更新して比較するようにしてもよい。具体的には、k=1,…として、Qk>γk-1の場合、e’(k)= e(k)とし、Qk≦γk-1の場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための閾値をγk=Qkとし、同様にQk+1>γkの場合、e’(k+1)=e(k+1)とし、Qk+1≦γkの場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。
【0096】
なお、閾値γをγk=(γk-L+1+…+γk)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、閾値γの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数(ただし、ω>0)として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、閾値γkを以下のように求めてもよい。
【0097】
【0098】
(変形例2)
第一実施形態および第二実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0099】
以下、
図16~
図17を参照して抽出発生音補正装置401について説明する。
図16は、抽出発生音補正装置401の構成を示すブロック図である。
図17は、抽出発生音補正装置401の動作を示すフローチャートである。
図16からわかるように、抽出発生音補正装置401は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置400と異なる。また、
図17からわかるように、抽出発生音補正装置401の動作は、S130が追加されている点においてのみ抽出発生音補正装置400の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。
【0100】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0101】
<第四実施形態>
第一実施形態ではパワー比Ek/Ykを、第三実施形態ではスペクトル包絡の平坦度合いの指標値Qkを用いて、抽出発生音を補正するための条件判定を行った。ここでは、パワー比Ek/Ykとスペクトル包絡の平坦度合いの指標値Qkの2つを用いた条件判定を行う。
【0102】
以下、
図18~
図19を参照して抽出発生音補正装置300について説明する。
図18は、抽出発生音補正装置300の構成を示すブロック図である。
図19は、抽出発生音補正装置300の動作を示すフローチャートである。
図18に示すように抽出発生音補正装置300は、パワー算出部110、スペクトル平坦指標値算出部410、抽出発生音補正部320、記録部190を含む。
【0103】
図19に従い抽出発生音補正装置300の動作について説明する。パワー算出部110は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY
kと抽出発生音e(k)のパワーである抽出発生音パワーE
kを算出する(S110)。スペクトル平坦指標値算出部410は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q
kを算出する(S410)。抽出発生音補正部320は、収音会場音パワーY
kと抽出発生音パワーE
kとスペクトル包絡の平坦度合いの指標値Q
kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S320)。例えば、倍率α、閾値γに対して、E
k>αY
kかつQ
k>γ(E
k≧αY
kかつQ
k≧γ)となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、Y
k,E
kについては式(1)、式(2)を用いて、Q
kについては第三実施形態で説明した例1~例5により算出することができる。
【0104】
もちろん、例えば、倍率α、閾値γに対して、Ek≦αYkかつQk≦γ(Ek<αYkかつQk<γ)となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
【0105】
さらに、抽出発生音補正部320における抽出発生音を補正するための条件判定に用いる条件を複数にしてもよい。例えば、抽出発生音補正部320が、収音会場音パワーYkと抽出発生音パワーEkとスペクトル包絡の平坦度合いの指標値Qkを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する際、倍率α1,α2、閾値γ1,γ2(ただし、α1<α2、γ1>γ2)に対して、以下の第1条件、第2条件のいずれかが成立する場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。
第1条件:Ek>α1・YkかつQk>γ1
第2条件:Ek>α2・YkかつQk>γ2
もちろん、倍率α1,α2、閾値γ1,γ2(ただし、α1<α2、γ1>γ2)に対して、以下の第3条件、第4条件のいずれかが成立する場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
第3条件:Ek≦α1・YkかつQk≦γ1
第4条件:Ek≦α2・YkかつQk≦γ2
【0106】
(変形例1)
第一実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0107】
以下、
図20~
図21を参照して抽出発生音補正装置301について説明する。
図20は、抽出発生音補正装置301の構成を示すブロック図である。
図21は、抽出発生音補正装置301の動作を示すフローチャートである。
図20からわかるように、抽出発生音補正装置301は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置300と異なる。また、
図21からわかるように、抽出発生音補正装置301の動作は、S130が追加されている点においてのみ抽出発生音補正装置300の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメー
タはどのようなものであってもよい。
【0108】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0109】
<第五実施形態>
第四実施形態ではパワー比Ek/Ykとスペクトル包絡の平坦度合いの指標値Qkの2つを用いて、抽出発生音を補正するための条件判定を行った。ここでは、スパース尺度Skとスペクトル包絡の平坦度合いの指標値Qkの2つを用いた条件判定を行う。
【0110】
以下、
図22~
図23を参照して抽出発生音補正装置302について説明する。
図22は、抽出発生音補正装置302の構成を示すブロック図である。
図23は、抽出発生音補正装置302の動作を示すフローチャートである。
図22に示すように抽出発生音補正装置302は、スパース尺度算出部210、スペクトル平坦指標値算出部410、抽出発生音補正部322、記録部190を含む。
【0111】
図23に従い抽出発生音補正装置302の動作について説明する。スパース尺度算出部210は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S
kを算出する(S210)。スペクトル平坦指標値算出部410は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q
kを算出する(S410)。抽出発生音補正部322は、スパース尺度S
kとスペクトル包絡の平坦度合いの指標値Q
kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S322)。例えば、閾値β、閾値γに対して、S
k>βかつQ
k>γ(S
k≧βかつQ
k≧γ)となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、S
kについては、式(5)~式(7)、または、式(8)~式(10)、または、式(11)~式(13)を用いて算出することができる。また、Q
kについては第三実施形態で説明した例1~例5により算出することができる。
【0112】
もちろん、例えば、閾値β、閾値γに対して、Sk≦βかつQk≦γ(Sk<βかつQk<γ)となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
【0113】
さらに、抽出発生音補正部320における抽出発生音を補正するための条件判定に用いる条件を複数にしてもよい。例えば、抽出発生音補正部320が、スパース尺度Skとスペクトル包絡の平坦度合いの指標値Qkを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する際、閾値β1,β2,γ1,γ2(ただし、β1<β2、γ1>γ2)に対して、以下の第1条件、第2条件のいずれかが成立する場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。
第1条件:Sk>β1かつQk>γ1
第2条件:Sk>β2かつQk>γ2
もちろん、閾値β1,β2,γ1,γ2(ただし、β1<β2、γ1>γ2)に対して、以下の第3条件、第4条件のいずれかが成立する場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
第3条件:Sk≦β1かつQk≦γ1
第4条件:Sk≦β2かつQk≦γ2
【0114】
(変形例1)
第二実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータであ
る補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0115】
以下、
図24~
図25を参照して抽出発生音補正装置303について説明する。
図24は、抽出発生音補正装置303の構成を示すブロック図である。
図25は、抽出発生音補正装置303の動作を示すフローチャートである。
図24からわかるように、抽出発生音補正装置303は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置302と異なる。また、
図25からわかるように、抽出発生音補正装置303の動作は、S130が追加されている点においてのみ抽出発生音補正装置302の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。
【0116】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0117】
<第六実施形態>
第四実施形態と第五実施形態ではスペクトル包絡の平坦度合いの指標値Qkと、パワー比Ek/Ykまたはスパース尺度Skと、を用いて、抽出発生音を補正するための条件判定を行った。ここでは、パワー比Ek/Ykとスパース尺度Skとスペクトル包絡の平坦度合いの指標値Qkの3つを用いた条件判定を行う。
【0118】
以下、
図26~
図27を参照して抽出発生音補正装置304について説明する。
図26は、抽出発生音補正装置304の構成を示すブロック図である。
図27は、抽出発生音補正装置304の動作を示すフローチャートである。
図26に示すように抽出発生音補正装置304は、パワー算出部110、スパース尺度算出部210、スペクトル平坦指標値算出部410、抽出発生音補正部324、記録部190を含む。
【0119】
図27に従い抽出発生音補正装置304の動作について説明する。パワー算出部110は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーY
kと抽出発生音e(k)のパワーである抽出発生音パワーE
kを算出する(S110)。スパース尺度算出部210は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度S
kを算出する(S210)。スペクトル平坦指標値算出部410は、抽出発生音e(k)から、抽出発生音e(k)のスペクトル包絡の平坦度合いの指標値Q
kを算出する(S410)。抽出発生音補正部324は、収音会場音パワーY
kと抽出発生音パワーE
kとスパース尺度S
kとスペクトル包絡の平坦度合いの指標値Q
kを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S324)。例えば、倍率α、閾値β、閾値γに対して、E
k>αY
kかつS
k>βかつQ
k>γ(E
k≧αY
kかつS
k≧βかつQ
k≧γ)となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、Y
k,E
kについては式(1)、式(2)を用いて算出することができる。また、S
kについては、式(5)~式(7)、または、式(8)~式(10)、または、式(11)~式(13)を用いて算出することができる。また、Q
kについては第三実施形態で説明した例1~例5により算出することができる。
【0120】
もちろん、例えば、倍率α、閾値β、閾値γに対して、Ek≦αYkかつSk≦βかつQk≦γ(Ek<αYkかつSk<βかつQk<γ)となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
【0121】
(変形例1)
第一実施形態や第二実施形態や第三実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
【0122】
以下、
図28~
図29を参照して抽出発生音補正装置305について説明する。
図28は、抽出発生音補正装置305の構成を示すブロック図である。
図29は、抽出発生音補正装置305の動作を示すフローチャートである。
図28からわかるように、抽出発生音補正装置305は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置304と異なる。また、
図29からわかるように、抽出発生音補正装置305の動作は、S130が追加されている点においてのみ抽出発生音補正装置304の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。
【0123】
本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。
【0124】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0125】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0126】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0127】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0128】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティ
が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0129】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0130】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0131】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0132】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。