(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024030140
(43)【公開日】2024-03-07
(54)【発明の名称】音響処理装置及びプログラム
(51)【国際特許分類】
G10L 21/0364 20130101AFI20240229BHJP
G10L 21/034 20130101ALI20240229BHJP
【FI】
G10L21/0364
G10L21/034
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022132734
(22)【出願日】2022-08-23
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【弁理士】
【氏名又は名称】福尾 誠
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】大出 訓史
(57)【要約】
【課題】テレビ番組をはじめとする音声コンテンツの音声制作において、ダイアログと背景音のレベルバランスを適切に調節することが可能な音響処理装置を提供する。
【解決手段】音響処理装置1は、参照音声、対象音声、及び背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部11と、参照客観指標及び背景客観指標のレベルバランスを目標値として算出する目標値算出部12と、対象客観指標及び背景客観指標のレベルバランスが目標値に近づくように、対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部13と、調節値に基づき、対象音声及び背景音の少なくとも一方の音声レベルを調節するレベル調節部14と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
基準となる参照音声、調節対象となる対象音声、及び調節対象となる背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部と、
前記参照客観指標及び前記背景客観指標のレベルバランスを目標値として算出する目標値算出部と、
前記対象客観指標及び前記背景客観指標のレベルバランスが前記目標値に近づくように、前記対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部と、
前記調節値に基づき、前記対象音声及び前記背景音の少なくとも一方の音声レベルを調節するレベル調節部と、
を備える音響処理装置。
【請求項2】
前記目標値算出部は、前記背景客観指標に対する、前記参照客観指標及び前記背景客観指標の差分の関係を前記目標値として回帰的に算出する、請求項1に記載の音響処理装置。
【請求項3】
前記目標値算出部は、前記目標値を、前記背景客観指標を独立変数とする3次関数として算出する、請求項2に記載の音響処理装置。
【請求項4】
前記目標値算出部は、前記目標値の信頼区間を算出し、
前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まるように前記調節値を決定する、請求項2又は3に記載の音響処理装置。
【請求項5】
前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まらない場合に、前記信頼区間の上限又は下限と前記対象客観指標との差分から、前記対象音声及び前記背景音の双方に対して前記調節値を決定する、請求項4に記載の音響処理装置。
【請求項6】
コンピュータを、請求項1に記載の音響処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置及びプログラムに関する。
【背景技術】
【0002】
近年、欧米やアジア諸国において、視聴者の好みや視聴環境に合わせて番組音声をカスタマイズできるオブジェクトベース音響が次世代放送に導入されている。オブジェクトベース音響では背景音とダイアログ(アナウンサーや出演者の声、ナレーションなど、番組音声における人の声)が別々のオブジェクトとして扱われる。オブジェクトベース音響で副音声サービスを行う場合、主音声と副音声のダイアログはそれぞれ単体の音声信号が用いられる。一方、背景音については、背景音の全チャンネルに一括して同じゲインをかける処理程度は想定されているが、基本的には主音声に対する背景音と各副音声に対する背景音とで、共通の音声信号が用いられる。
【0003】
オブジェクトベース音響では、多言語などの副音声の数が多くなるサービスが想定されるが、ライブ制作などでは一人のエンジニアが複数の副音声を同時に制作することは難しく、制作の自動化が期待されている。ただし、背景音とダイアログの適正なレベルバランスは番組によって大きく異なり、一定の基準で機械的に調節することはコンテンツの品質管理の観点から望ましくない。副音声の制作を自動化する際にも、共通となる背景音や主音声のダイアログの制作は従来どおり音声エンジニアが行うことが想定されるため、主音声の音声信号を参考に副音声を制作することで、副音声も当該コンテンツに適したレベルバランスになると考えられる。そのため、副音声のダイアログ及び背景音の音声信号のレベルバランスさえ自動で調節できれば、効率的にオブジェクトベース音響による副音声サービスが実現できる。
【0004】
特許文献1には、音響処理装置の外部からリアルタイムで入力した音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標を測定し、該客観指標に基づいて、調節対象となる対象音声の音声オブジェクトのゲインを調節する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
主音声のダイアログは共通の背景音とバランスをとって制作されているため、特許文献1に記載の音響処理装置を用いて制作された副音声のダイアログも、共通の背景音に対して一定の品質のレベルバランスを保つことが期待できる。しかし、背景音の音声レベルにかかる処理は行われておらず、主音声のダイアログと副音声のダイアログの発話タイミングが大きく異なる際には時間をかけてゲインが調節され、背景音が短時間で大きく変動した際などには副音声のダイアログと背景音のレベルバランスが不適切となるおそれがある。
【0007】
かかる事情を鑑みてなされた本発明の目的は、テレビ番組をはじめとする音声コンテンツの音声制作において、短時間で背景音が変動した場合でも、ダイアログと及び背景音のレベルバランスを適切に調節することが可能な音響処理装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明に係る音響処理装置は、基準となる参照音声、調節対象となる対象音声、及び調節対象となる背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部と、前記参照客観指標及び前記背景客観指標のレベルバランスを目標値として算出する目標値算出部と、前記対象客観指標及び前記背景客観指標のレベルバランスが前記目標値に近づくように、前記対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部と、前記調節値に基づき、前記対象音声及び前記背景音の少なくとも一方の音声レベルを調節するレベル調節部と、を備える。
【0009】
さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記背景客観指標に対する、前記参照客観指標及び前記背景客観指標の差分の関係を前記目標値として回帰的に算出してもよい。
【0010】
さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記目標値を、前記背景客観指標を独立変数とする3次関数として算出してもよい。
【0011】
さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記目標値の信頼区間を算出し、前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まるように前記調節値を決定してもよい。
【0012】
さらに、本発明に係る音響処理装置において、前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まらない場合に、前記信頼区間の上限又は下限と前記対象客観指標との差分から、前記対象音声及び前記背景音の双方に対して前記調節値を決定してもよい。
【0013】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響処理装置として機能させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、短時間で背景音が変動するコンテンツにおいても、ダイアログ及び背景音のレベルバランスを適切に調節することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】一実施形態に係る音響処理装置の構成例を示すブロック図である。
【
図2】一実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。
【
図3】一実施形態に係る音響処理装置の処理手順例を示すフローチャートである。
【
図4】一実施形態に係る音響処理装置の目標値の更新処理手順を示すフローチャートである。
【
図5】一実施形態に係る音響処理装置の調節値の決定処理手順を示すフローチャートである。
【
図6】一実施形態に係る音響処理装置が算出する目標値の一例を示す図である。
【
図7】
図6の縦軸を参照客観指標に変更した図である。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
【0017】
図1は、本実施形態に係る音響処理装置1の構成例を示すブロック図である。
図1に示す音響処理装置1は、客観指標測定部11と、目標値算出部12と、調節値決定部13と、レベル調節部14と、を備える。
【0018】
音響処理装置1は、テレビ番組をはじめとする音声コンテンツの制作において、音の大きさを合わせ込む比較参照先(基準)となる参照音声(主音声のダイアログ)と背景音のレベルバランスの目標値を算出し、そのレベルバランスの目標値を参照して、調節対象となる対象音声(副音声のダイアログ)と背景音のレベルバランスを自動で調節する。
【0019】
客観指標測定部11は、リアルタイムで入力される、基準となる参照音声、並びに調節対象となる対象音声及び背景音を、一定長の音声ブロックに区切り、それぞれについてブロックごとにラウドネス値に基づいた客観指標を測定する。そして、客観指標測定部11は、参照音声の客観指標(以下、「参照客観指標」という。)を目標値算出部12に出力し、対象音声の客観指標(以下、「対象客観指標」という。)を調節値決定部13に出力し、背景音の客観指標(以下、「背景客観指標」という。)を目標値算出部12及び調節値決定部13に出力する。客観指標は、ラウドネス値などの番組制作における音声レベルの基準に近いものが望ましい。
【0020】
目標値算出部12は、客観指標測定部11から入力した参照客観指標及び背景客観指標のレベルバランスを目標値として算出する。例えば、目標値算出部12は、背景客観指標に対する、参照客観指標及び背景客観指標の差分の関係を目標値として回帰的に算出し、目標値に付随する情報として、目標値の信頼区間も併せて算出する。そして、目標値算出部12は、算出した目標値及び信頼区間を調節値決定部13に出力する。
【0021】
後述するように、背景客観指標に対する、参照客観指標及び背景客観指標の差分の関係には一定の規則性が存在する。そこで、この規則性に鑑み、目標値算出部12は、目標値を、背景客観指標を独立変数(説明変数)とする3次関数として算出してもよい。
【0022】
調節値決定部13は、客観指標測定部11から入力した対象客観指標及び背景客観指標のレベルバランスが、目標値算出部12から入力した目標値に近づくように、対象音声及び背景音の少なくとも一方に対する調節値を決定する。そして、調節値決定部13は、決定した調節値をレベル調節部14に出力する。
【0023】
調節値決定部13は、具体的には、対象客観指標及び背景客観指標の差分を求め、該差分が目標値算出部12から入力した信頼区間に収まるように調節値を決定する。調節値決定部13は、対象客観指標及び背景客観指標の差分が信頼区間に収まらない場合に、信頼区間の上限又は下限と対象客観指標との差分から、対象音声及び背景音の双方に対して調節値を決定してもよい。
【0024】
レベル調節部14は、調節値決定部13から入力した調節値に基づき、外部から入力した対象音声及び背景音の少なくとも一方の音声レベル(ゲイン)を逐次調節する。
【0025】
図2は、客観指標測定部11の構成例を示すブロック図である。
図2に示す客観指標測定部11は、ラウドネス値測定部110と、スキップゲート部116と、時間率上位平均値算出部117と、を備える。ラウドネス値測定部110は、プリフィルタ111と、二乗平均部112と、重み付け部113と、合算部(Σ)114と、デシベルスケール変換部(Log)115と、を備える。各客観指標測定部11の構成は同一である。
【0026】
ラウドネス値測定部110は、本実施形態においては、標準化されたアルゴリズムを用いてラウドネス値を測定する。詳細については、例えば標準化団体が定める規格書である下記参考文献を参照されたい。なお、ラウドネス値はモーメンタリラウドネス値であってもよい。
[参考文献]ARIB、ARIB TR-B32、「デジタルテレビ放送番組におけるラウドネス運用規定」、2016
【0027】
プリフィルタ111は、入力された参照音声、背景音、及び対象音声の各チャンネルについて、音声ブロックごとに、例えばK特性フィルタ称される2段階のプリフィルタを適用して、プリフィルタ処理を行い、二乗平均部112に出力する。
【0028】
二乗平均部112は、プリフィルタ111から入力した信号に対して、二乗平均処理を行い、重み付け部113に出力する。
【0029】
重み付け部113は、二乗平均部112から入力した信号に対して、チャンネルごとに音声信号の方向に応じた重み係数を乗じ、合算部114に出力する。
【0030】
合算部114は、LFEを除いたチャンネルの重み付け後の二乗平均値を合算し、デシベルスケール変換部115に出力する。
【0031】
デシベルスケール変換部115は、合算部114から入力した信号をデシベルスケールに変換し、音声ブロックごとのラウドネス値を求め、スキップゲート部116に出力する。
【0032】
スキップゲート部116は、ラウドネス値測定部110から音声ブロックごとにラウドネス値を入力し、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなす。一方、スキップゲート部116は、ラウドネス値がスキップゲート閾値以下となる時間を非発話時間とみなしてスキップする。そして、スキップゲート部116は、現在時刻(当該時間)の直前の発話時間のうち、固定長の測定時間のラウドネス値を時間率上位平均値算出部117に出力する。時間率とは、ある時間長のうちある音声レベルを超える時間長の割合をいい、本発明においては、測定時間幅のうち、ラウドネス値がゲーティング閾値を超える時間の割合をいう。
【0033】
時間率上位平均値算出部117は、測定時間に含まれるラウドネス値のうち、時間率で上位(例えば、25%)にあたるラウドネス値の平均値を客観指標として算出し、目標値算出部12及び調節値決定部13に出力する。
【0034】
(音響処理装置の処理手順)
次に、音響処理装置1の処理手順について、
図3から
図5を参照して説明する。ここでは、レベルバランスの指標として、ダイアログの客観指標と背景客観指標との差分をDiff-DA(difference between dialogue and ambience)として定義する。また、参照客観指標と背景客観指標との差分を「参照Diff-DA」と称し、対象客観指標と背景客観指標との差分を「対象Diff-DA」と称する。
【0035】
図3は、音響処理装置1において、調節対象となる対象音声及び背景音のレベルバランスを調節する手順の一例を示すフローチャートである。
【0036】
ステップS10では、客観指標測定部11により、リアルタイムで入力される参照音声、対象音声、及び背景音を一定長の音声ブロックに区切り、そのブロックごとに客観指標を測定する。
【0037】
ステップS20では、目標値算出部12により、新規に入力された音声データから算出された客観指標と、それ以前に算出された客観指標から、レベルバランスの目標値を更新する。
【0038】
図4は、ステップS20における目標値の更新について、詳細に処理を記載したフローチャートである。
【0039】
ステップS21では、目標値算出部12により、客観指標測定部11から客観指標を所定の時間間隔(例えば、数百ミリ秒間隔)で順次取得し、客観指標の新規入力データと過去データとを統合する。客観指標測定部11のラウドネス値測定部110が求めるラウドネス値がモーメンタリラウドネス値である場合、時間間隔は100msとなる。
【0040】
ステップS22では、目標値算出部12により、背景客観指標に対する参照Diff-DAの回帰曲線を計算する。回帰曲線の算出にあたっては、最小二乗法などの単回帰分析によって求めてもよいし、重回帰分析によって求めてもいいし、機械学習によって求めてもよい。
【0041】
エンジニアによる参照音声の調節には当該エンジニアの思想が反映され、参照Diff-DAの測定値には背景客観指標に対して一定の規則性が存在する。この測定結果から求められた回帰曲線は、エンジニアが調節しようとした、当該コンテンツの参照Diff-DAの目標値を示していると考えられる。回帰曲線は、2次関数、3次関数、閾値以上で切片に定数を加算した1次関数など、任意の形状を設定可能であるが、音声エンジニアがミクシングを行う際の、背景音のレベルが大きい時には通常時とはレベルバランスのとり方を変えるなどの手法が反映されていることが望ましい。そこで、参照Diff-DAの測定値の背景客観指標に対する規則性を鑑みて、回帰曲線の関数を選択することが望ましい。
【0042】
ステップS23では、目標値算出部12により、目標値に付随する情報として、回帰曲線の信頼区間を計算する。実際の番組ではエンジニアが考える参照Diff-DAの目標値は番組のコンテキストの影響で時刻によって変化し得る。回帰曲線の値と測定値との差分の分散(残差分散)を、当該番組のコンテキストに応じて変化し得る参照Diff-DAの目標値のばらつきと見なすことで、この残差分散から算出される信頼区間は、当該番組の目標値を含むと考えられる範囲を示すことになる。
【0043】
信頼区間の算出にあたっては、信頼係数を95%とおいても、99%とおいてもよく、当該番組の目標値を含むと考えられる範囲であれば他の値でもよい。
【0044】
図3のステップS30では、調節値決定部13により、対象音声及び背景音の音声レベルの調節値を決定する。
【0045】
図5は、ステップS30における調節値の決定処理について、詳細に処理を記載したフローチャートである。
【0046】
ステップS31では、調節値決定部13により、対象Diff-DAを求め、対象Diff-DAが目標値算出部12で求められた参照Diff-DAの信頼区間に収まるか否かを判定する。信頼区間に収まる場合には処理をステップS32に進め、信頼区間に収まらない場合には処理をステップS33に進める。
【0047】
ステップS32では、調節値決定部13により、対象音声及び背景音ともに、調節値を0dB(×1.0)と決定する。つまり、参照Diff-DAの信頼区間に収まれば、当該音声ブロックにおける対象音声及び背景音のレベルバランスは、参照音声及び背景音のレベルバランスと同程度に調節されていると判断し、それ以上の調節は行わない。
【0048】
ステップS33では、調節値決定部13により、参照Diff-DAの信頼区間上限又は下限(値が近い方)と対象Diff-DAとの差分から、対象音声及び背景音の少なくとも一方に対する調節値を算出する。ここで調節値は、背景音の調節だけで信頼区間に収まるように算出してもよいし、対象音声の調節だけで収まるように算出してもよいし、その両方で収まるように算出してもよい。ただし、いずれの調節方法においても、調節する値が最小になることが望ましい。
【0049】
図3のステップS40では、レベル調節部14により、調節値決定部13で算出された調節値を対象音声及び背景音の少なくとも一方に適応することで調節を行う。
【0050】
ステップS50では、音響処理装置1は、調節終了指示があれば処理を終了し、調節終了指示がなければ処理をステップS10に戻す。すなわち、音響処理装置1は、調節終了指示を受け取るまで、音声ブロックごとに客観指標の測定からゲインの適応までの処理を繰り返す。
【0051】
(実施例)
次に、音響処理装置1の実施例について説明する。実施例では、客観指標測定部11は、モーメンタリラウドネス値を2秒の測定時間で観測し、その時間率上位25%の値を平均して算出される値を客観指標とする。目標値算出部12は、3次関数からなる回帰曲線を最小二乗法によって算出し、信頼区間の信頼係数を95%とする。調節値決定部13は、対象音声及び背景音の両方を調節するものとする。
【0052】
音響処理装置1は調節を開始するとまず、入力された参照音声、対象音声、及び背景音それぞれの客観指標を測定する。モーメンタリラウドネス値をベースとした客観指標では、音声信号を400msの音声ブロックに区切り、75%ずつオーバーラップしながら測定が行われるため、100msごとに客観指標の測定値を更新する。次に、目標値の更新を行う。
【0053】
図6は、スポーツ番組の参照音声90秒(客観指標900点分)から算出した目標値を示す図である。横軸は背景客観指標[LKFS(loudness, K-weighted, relative to full scale)]であり、縦軸は背景客観指標ごとの参照Diff-DAの平均[LU(Loudness Units)]である。図中の白丸が参照Diff-DAの測定値、実線が目標値である回帰曲線、破線が信頼区間の上限及び下限を示している。
図6に示すように、背景音のレベルが低い区間では、背景客観指標に対する参照Diff-DAはほとんど直線的に推移し、背景音のレベルが高いところでは一定の参照Diff-DAを保つように推移する結果となっている。このように高い規則性を示す場合には、回帰曲線の算出は最小二乗法による単回帰でも高い精度が得られると考えられる。
【0054】
次に、対象音声及び背景音の音声レベルの調節値を決定する。対象音声及び背景音の両方で調節する場合、その調節値が最小になるようにするためには、信頼区間の上限又は下限(近い方)に直交するようなベクトルを算出することで調節値が求められる。
【0055】
図7は、
図6の縦軸を、参照Diff-DAではなく参照客観指標[LKFS]とした図である。斜めの薄い線は、参照Diff-DAが等しい値となる等参照Diff-DA線である。調節値決定部13は、対象Diff-DAが信頼区間に収まるように調節値を決定するので、対象Diff-DAが図中の黒丸で示される場合、対象音声だけで調節した場合はベクトルa、背景音だけで調節した場合はベクトルb、対象音声及び背景音の両方で調節した場合はベクトルcで調節することになる。ベクトルaは縦軸に平行な方向であり、ベクトルbは横軸に平行な方向であり、ベクトルcは信頼区間の上限又は下限(近い方)に直交する方向である。対象音声及び背景音の両方で調節することで、背景音が大きい時に背景音のレベルを下げつつ対象音声のレベルを上げるように動作する。そのため、対象音声及び背景音の合計の音声レベルを調節前から大きく変えずに、対象音声及び背景音のレベル差を確保できることが期待できる。
【0056】
実施例の効果を確認するため、発明者は主観評価実験を実施した。評価法はDMOS(Degradation Mean Opinion Score)法を用いた。評定者には、基準音源に対する評価音源の違いを、表1に示す評価尺度で評価させた。
【0057】
【0058】
基準音源はエンジニアがダイアログと背景音のレベルバランスを調節した音源を用いた。評価音源は、表2に示すように、回帰曲線2種類と調節対象の音声信号の違い3種類とを組み合わせた6種類を用いた。番組はドキュメンタリー、教育番組、スポーツなど、全5種類のそれぞれ90秒(客観指標900個分)を用いた。評定者はエンジニア計16名とした。
【0059】
【0060】
実験の結果、評価音源Cが全評価音源の中で最も平均点が高く、全番組において評点が4点を上回り、大きく評点を落とすことも無かった。評価音源Cでは背景音が大きい時に、背景音のレベルを下げ、対象音声のレベルを上げるように動作する。番組全体の音声レベルを大きく変えずに対象音声と背景音のレベル差を確保できたことがエンジニアと近い調節になったと考えられる。この実験結果から、実施例のように回帰曲線を3次関数とし、調節対象を対象音声及び背景音とすることが好適と考えられる。
【0061】
なお、上述した音響処理装置1として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、音響処理装置1の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
【0062】
また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。
【0063】
また、上述した音響処理装置1は、1つ又は複数の半導体チップにより構成されてもよい。この半導体チップは、音響処理装置1の各機能を実現する処理内容を記述したプログラムを実行するCPUを搭載してもよい。
【0064】
上述したように本発明に係る音響処理装置1、又はプログラムによれば、テレビ番組をはじめとする音声コンテンツの音声制作において、参照音声及び背景音のレベルバランスの目標値を算出し、該目標値を参照して対象音声及び背景音のレベルバランスを自動で調節することできる。そのため、対象音声と参照音声の発話タイミングが異なる場合や、背景音が短時間で大きく変動する場合でも、適切に調節することが可能となる。
【0065】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【0066】
例えば、実施形態のレベルバランスの調節前に、さらに別のダイアログ調節機能を加えて、対象音声の音声レベルを参照音声により追従させてもよい。
【符号の説明】
【0067】
1 音響処理装置
11 客観指標測定部
12 目標値算出部
13 調節値決定部
14 レベル調節部
110 ラウドネス値測定部
111 プリフィルタ
112 二乗平均部
113 重み付け部
114 合算部
115 デシベルスケール変換部
116 スキップゲート部
117 時間率上位平均値算出部