特開2024-30140 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-30140音響処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024030140

(43)【公開日】2024-03-07

(54)【発明の名称】音響処理装置及びプログラム

(51)【国際特許分類】

G10L 21/0364 20130101AFI20240229BHJP

G10L 21/034 20130101ALI20240229BHJP

【ＦＩ】

G10L21/0364

G10L21/034

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022132734

(22)【出願日】2022-08-23

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100161148

【弁理士】

【氏名又は名称】福尾誠

(72)【発明者】

【氏名】久保弘樹

(72)【発明者】

【氏名】大出訓史

(57)【要約】

【課題】テレビ番組をはじめとする音声コンテンツの音声制作において、ダイアログと背景音のレベルバランスを適切に調節することが可能な音響処理装置を提供する。
【解決手段】音響処理装置１は、参照音声、対象音声、及び背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部１１と、参照客観指標及び背景客観指標のレベルバランスを目標値として算出する目標値算出部１２と、対象客観指標及び背景客観指標のレベルバランスが目標値に近づくように、対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部１３と、調節値に基づき、対象音声及び背景音の少なくとも一方の音声レベルを調節するレベル調節部１４と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

基準となる参照音声、調節対象となる対象音声、及び調節対象となる背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部と、
前記参照客観指標及び前記背景客観指標のレベルバランスを目標値として算出する目標値算出部と、
前記対象客観指標及び前記背景客観指標のレベルバランスが前記目標値に近づくように、前記対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部と、
前記調節値に基づき、前記対象音声及び前記背景音の少なくとも一方の音声レベルを調節するレベル調節部と、
を備える音響処理装置。

【請求項2】

前記目標値算出部は、前記背景客観指標に対する、前記参照客観指標及び前記背景客観指標の差分の関係を前記目標値として回帰的に算出する、請求項１に記載の音響処理装置。

【請求項3】

前記目標値算出部は、前記目標値を、前記背景客観指標を独立変数とする３次関数として算出する、請求項２に記載の音響処理装置。

【請求項4】

前記目標値算出部は、前記目標値の信頼区間を算出し、
前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まるように前記調節値を決定する、請求項２又は３に記載の音響処理装置。

【請求項5】

前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まらない場合に、前記信頼区間の上限又は下限と前記対象客観指標との差分から、前記対象音声及び前記背景音の双方に対して前記調節値を決定する、請求項４に記載の音響処理装置。

【請求項6】

コンピュータを、請求項１に記載の音響処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響処理装置及びプログラムに関する。

【背景技術】

【0002】

近年、欧米やアジア諸国において、視聴者の好みや視聴環境に合わせて番組音声をカスタマイズできるオブジェクトベース音響が次世代放送に導入されている。オブジェクトベース音響では背景音とダイアログ（アナウンサーや出演者の声、ナレーションなど、番組音声における人の声）が別々のオブジェクトとして扱われる。オブジェクトベース音響で副音声サービスを行う場合、主音声と副音声のダイアログはそれぞれ単体の音声信号が用いられる。一方、背景音については、背景音の全チャンネルに一括して同じゲインをかける処理程度は想定されているが、基本的には主音声に対する背景音と各副音声に対する背景音とで、共通の音声信号が用いられる。

【0003】

オブジェクトベース音響では、多言語などの副音声の数が多くなるサービスが想定されるが、ライブ制作などでは一人のエンジニアが複数の副音声を同時に制作することは難しく、制作の自動化が期待されている。ただし、背景音とダイアログの適正なレベルバランスは番組によって大きく異なり、一定の基準で機械的に調節することはコンテンツの品質管理の観点から望ましくない。副音声の制作を自動化する際にも、共通となる背景音や主音声のダイアログの制作は従来どおり音声エンジニアが行うことが想定されるため、主音声の音声信号を参考に副音声を制作することで、副音声も当該コンテンツに適したレベルバランスになると考えられる。そのため、副音声のダイアログ及び背景音の音声信号のレベルバランスさえ自動で調節できれば、効率的にオブジェクトベース音響による副音声サービスが実現できる。

【0004】

特許文献１には、音響処理装置の外部からリアルタイムで入力した音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標を測定し、該客観指標に基づいて、調節対象となる対象音声の音声オブジェクトのゲインを調節する技術が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２２－０４２８９２号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

主音声のダイアログは共通の背景音とバランスをとって制作されているため、特許文献１に記載の音響処理装置を用いて制作された副音声のダイアログも、共通の背景音に対して一定の品質のレベルバランスを保つことが期待できる。しかし、背景音の音声レベルにかかる処理は行われておらず、主音声のダイアログと副音声のダイアログの発話タイミングが大きく異なる際には時間をかけてゲインが調節され、背景音が短時間で大きく変動した際などには副音声のダイアログと背景音のレベルバランスが不適切となるおそれがある。

【0007】

かかる事情を鑑みてなされた本発明の目的は、テレビ番組をはじめとする音声コンテンツの音声制作において、短時間で背景音が変動した場合でも、ダイアログと及び背景音のレベルバランスを適切に調節することが可能な音響処理装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明に係る音響処理装置は、基準となる参照音声、調節対象となる対象音声、及び調節対象となる背景音それぞれについて、ラウドネス値に基づいた客観指標である参照客観指標、対象客観指標、及び背景客観指標を測定する客観指標測定部と、前記参照客観指標及び前記背景客観指標のレベルバランスを目標値として算出する目標値算出部と、前記対象客観指標及び前記背景客観指標のレベルバランスが前記目標値に近づくように、前記対象音声及び前記背景音の少なくとも一方に対する調節値を決定する調節値決定部と、前記調節値に基づき、前記対象音声及び前記背景音の少なくとも一方の音声レベルを調節するレベル調節部と、を備える。

【0009】

さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記背景客観指標に対する、前記参照客観指標及び前記背景客観指標の差分の関係を前記目標値として回帰的に算出してもよい。

【0010】

さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記目標値を、前記背景客観指標を独立変数とする３次関数として算出してもよい。

【0011】

さらに、本発明に係る音響処理装置において、前記目標値算出部は、前記目標値の信頼区間を算出し、前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まるように前記調節値を決定してもよい。

【0012】

さらに、本発明に係る音響処理装置において、前記調節値決定部は、前記対象客観指標及び前記背景客観指標の差分が、前記信頼区間に収まらない場合に、前記信頼区間の上限又は下限と前記対象客観指標との差分から、前記対象音声及び前記背景音の双方に対して前記調節値を決定してもよい。

【0013】

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響処理装置として機能させることを特徴とする。

【発明の効果】

【0014】

本発明によれば、短時間で背景音が変動するコンテンツにおいても、ダイアログ及び背景音のレベルバランスを適切に調節することが可能となる。

【図面の簡単な説明】

【0015】

【図1】一実施形態に係る音響処理装置の構成例を示すブロック図である。

【図2】一実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。

【図3】一実施形態に係る音響処理装置の処理手順例を示すフローチャートである。

【図4】一実施形態に係る音響処理装置の目標値の更新処理手順を示すフローチャートである。

【図5】一実施形態に係る音響処理装置の調節値の決定処理手順を示すフローチャートである。

【図6】一実施形態に係る音響処理装置が算出する目標値の一例を示す図である。

【図7】図６の縦軸を参照客観指標に変更した図である。

【発明を実施するための形態】

【0016】

以下、図面を参照しながら本発明の実施形態について詳細に説明する。

【0017】

図１は、本実施形態に係る音響処理装置１の構成例を示すブロック図である。図１に示す音響処理装置１は、客観指標測定部１１と、目標値算出部１２と、調節値決定部１３と、レベル調節部１４と、を備える。

【0018】

音響処理装置１は、テレビ番組をはじめとする音声コンテンツの制作において、音の大きさを合わせ込む比較参照先（基準）となる参照音声（主音声のダイアログ）と背景音のレベルバランスの目標値を算出し、そのレベルバランスの目標値を参照して、調節対象となる対象音声（副音声のダイアログ）と背景音のレベルバランスを自動で調節する。

【0019】

客観指標測定部１１は、リアルタイムで入力される、基準となる参照音声、並びに調節対象となる対象音声及び背景音を、一定長の音声ブロックに区切り、それぞれについてブロックごとにラウドネス値に基づいた客観指標を測定する。そして、客観指標測定部１１は、参照音声の客観指標（以下、「参照客観指標」という。）を目標値算出部１２に出力し、対象音声の客観指標（以下、「対象客観指標」という。）を調節値決定部１３に出力し、背景音の客観指標（以下、「背景客観指標」という。）を目標値算出部１２及び調節値決定部１３に出力する。客観指標は、ラウドネス値などの番組制作における音声レベルの基準に近いものが望ましい。

【0020】

目標値算出部１２は、客観指標測定部１１から入力した参照客観指標及び背景客観指標のレベルバランスを目標値として算出する。例えば、目標値算出部１２は、背景客観指標に対する、参照客観指標及び背景客観指標の差分の関係を目標値として回帰的に算出し、目標値に付随する情報として、目標値の信頼区間も併せて算出する。そして、目標値算出部１２は、算出した目標値及び信頼区間を調節値決定部１３に出力する。

【0021】

後述するように、背景客観指標に対する、参照客観指標及び背景客観指標の差分の関係には一定の規則性が存在する。そこで、この規則性に鑑み、目標値算出部１２は、目標値を、背景客観指標を独立変数（説明変数）とする３次関数として算出してもよい。

【0022】

調節値決定部１３は、客観指標測定部１１から入力した対象客観指標及び背景客観指標のレベルバランスが、目標値算出部１２から入力した目標値に近づくように、対象音声及び背景音の少なくとも一方に対する調節値を決定する。そして、調節値決定部１３は、決定した調節値をレベル調節部１４に出力する。

【0023】

調節値決定部１３は、具体的には、対象客観指標及び背景客観指標の差分を求め、該差分が目標値算出部１２から入力した信頼区間に収まるように調節値を決定する。調節値決定部１３は、対象客観指標及び背景客観指標の差分が信頼区間に収まらない場合に、信頼区間の上限又は下限と対象客観指標との差分から、対象音声及び背景音の双方に対して調節値を決定してもよい。

【0024】

レベル調節部１４は、調節値決定部１３から入力した調節値に基づき、外部から入力した対象音声及び背景音の少なくとも一方の音声レベル（ゲイン）を逐次調節する。

【0025】

図２は、客観指標測定部１１の構成例を示すブロック図である。図２に示す客観指標測定部１１は、ラウドネス値測定部１１０と、スキップゲート部１１６と、時間率上位平均値算出部１１７と、を備える。ラウドネス値測定部１１０は、プリフィルタ１１１と、二乗平均部１１２と、重み付け部１１３と、合算部（Σ）１１４と、デシベルスケール変換部（Ｌｏｇ）１１５と、を備える。各客観指標測定部１１の構成は同一である。

【0026】

ラウドネス値測定部１１０は、本実施形態においては、標準化されたアルゴリズムを用いてラウドネス値を測定する。詳細については、例えば標準化団体が定める規格書である下記参考文献を参照されたい。なお、ラウドネス値はモーメンタリラウドネス値であってもよい。
［参考文献］ARIB、ARIB TR-B32、「デジタルテレビ放送番組におけるラウドネス運用規定」、2016

【0027】

プリフィルタ１１１は、入力された参照音声、背景音、及び対象音声の各チャンネルについて、音声ブロックごとに、例えばＫ特性フィルタ称される２段階のプリフィルタを適用して、プリフィルタ処理を行い、二乗平均部１１２に出力する。

【0028】

二乗平均部１１２は、プリフィルタ１１１から入力した信号に対して、二乗平均処理を行い、重み付け部１１３に出力する。

【0029】

重み付け部１１３は、二乗平均部１１２から入力した信号に対して、チャンネルごとに音声信号の方向に応じた重み係数を乗じ、合算部１１４に出力する。

【0030】

合算部１１４は、ＬＦＥを除いたチャンネルの重み付け後の二乗平均値を合算し、デシベルスケール変換部１１５に出力する。

【0031】

デシベルスケール変換部１１５は、合算部１１４から入力した信号をデシベルスケールに変換し、音声ブロックごとのラウドネス値を求め、スキップゲート部１１６に出力する。

【0032】

スキップゲート部１１６は、ラウドネス値測定部１１０から音声ブロックごとにラウドネス値を入力し、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなす。一方、スキップゲート部１１６は、ラウドネス値がスキップゲート閾値以下となる時間を非発話時間とみなしてスキップする。そして、スキップゲート部１１６は、現在時刻（当該時間）の直前の発話時間のうち、固定長の測定時間のラウドネス値を時間率上位平均値算出部１１７に出力する。時間率とは、ある時間長のうちある音声レベルを超える時間長の割合をいい、本発明においては、測定時間幅のうち、ラウドネス値がゲーティング閾値を超える時間の割合をいう。

【0033】

時間率上位平均値算出部１１７は、測定時間に含まれるラウドネス値のうち、時間率で上位（例えば、２５％）にあたるラウドネス値の平均値を客観指標として算出し、目標値算出部１２及び調節値決定部１３に出力する。

【0034】

（音響処理装置の処理手順）
次に、音響処理装置１の処理手順について、図３から図５を参照して説明する。ここでは、レベルバランスの指標として、ダイアログの客観指標と背景客観指標との差分をＤｉｆｆ－ＤＡ（difference between dialogue and ambience）として定義する。また、参照客観指標と背景客観指標との差分を「参照Ｄｉｆｆ－ＤＡ」と称し、対象客観指標と背景客観指標との差分を「対象Ｄｉｆｆ－ＤＡ」と称する。

【0035】

図３は、音響処理装置１において、調節対象となる対象音声及び背景音のレベルバランスを調節する手順の一例を示すフローチャートである。

【0036】

ステップＳ１０では、客観指標測定部１１により、リアルタイムで入力される参照音声、対象音声、及び背景音を一定長の音声ブロックに区切り、そのブロックごとに客観指標を測定する。

【0037】

ステップＳ２０では、目標値算出部１２により、新規に入力された音声データから算出された客観指標と、それ以前に算出された客観指標から、レベルバランスの目標値を更新する。

【0038】

図４は、ステップＳ２０における目標値の更新について、詳細に処理を記載したフローチャートである。

【0039】

ステップＳ２１では、目標値算出部１２により、客観指標測定部１１から客観指標を所定の時間間隔（例えば、数百ミリ秒間隔）で順次取得し、客観指標の新規入力データと過去データとを統合する。客観指標測定部１１のラウドネス値測定部１１０が求めるラウドネス値がモーメンタリラウドネス値である場合、時間間隔は１００ｍｓとなる。

【0040】

ステップＳ２２では、目標値算出部１２により、背景客観指標に対する参照Ｄｉｆｆ－ＤＡの回帰曲線を計算する。回帰曲線の算出にあたっては、最小二乗法などの単回帰分析によって求めてもよいし、重回帰分析によって求めてもいいし、機械学習によって求めてもよい。

【0041】

エンジニアによる参照音声の調節には当該エンジニアの思想が反映され、参照Ｄｉｆｆ－ＤＡの測定値には背景客観指標に対して一定の規則性が存在する。この測定結果から求められた回帰曲線は、エンジニアが調節しようとした、当該コンテンツの参照Ｄｉｆｆ－ＤＡの目標値を示していると考えられる。回帰曲線は、２次関数、３次関数、閾値以上で切片に定数を加算した１次関数など、任意の形状を設定可能であるが、音声エンジニアがミクシングを行う際の、背景音のレベルが大きい時には通常時とはレベルバランスのとり方を変えるなどの手法が反映されていることが望ましい。そこで、参照Ｄｉｆｆ－ＤＡの測定値の背景客観指標に対する規則性を鑑みて、回帰曲線の関数を選択することが望ましい。

【0042】

ステップＳ２３では、目標値算出部１２により、目標値に付随する情報として、回帰曲線の信頼区間を計算する。実際の番組ではエンジニアが考える参照Ｄｉｆｆ－ＤＡの目標値は番組のコンテキストの影響で時刻によって変化し得る。回帰曲線の値と測定値との差分の分散（残差分散）を、当該番組のコンテキストに応じて変化し得る参照Ｄｉｆｆ－ＤＡの目標値のばらつきと見なすことで、この残差分散から算出される信頼区間は、当該番組の目標値を含むと考えられる範囲を示すことになる。

【0043】

信頼区間の算出にあたっては、信頼係数を９５％とおいても、９９％とおいてもよく、当該番組の目標値を含むと考えられる範囲であれば他の値でもよい。

【0044】

図３のステップＳ３０では、調節値決定部１３により、対象音声及び背景音の音声レベルの調節値を決定する。

【0045】

図５は、ステップＳ３０における調節値の決定処理について、詳細に処理を記載したフローチャートである。

【0046】

ステップＳ３１では、調節値決定部１３により、対象Ｄｉｆｆ－ＤＡを求め、対象Ｄｉｆｆ－ＤＡが目標値算出部１２で求められた参照Ｄｉｆｆ－ＤＡの信頼区間に収まるか否かを判定する。信頼区間に収まる場合には処理をステップＳ３２に進め、信頼区間に収まらない場合には処理をステップＳ３３に進める。

【0047】

ステップＳ３２では、調節値決定部１３により、対象音声及び背景音ともに、調節値を０ｄＢ（×１．０）と決定する。つまり、参照Ｄｉｆｆ－ＤＡの信頼区間に収まれば、当該音声ブロックにおける対象音声及び背景音のレベルバランスは、参照音声及び背景音のレベルバランスと同程度に調節されていると判断し、それ以上の調節は行わない。

【0048】

ステップＳ３３では、調節値決定部１３により、参照Ｄｉｆｆ－ＤＡの信頼区間上限又は下限（値が近い方）と対象Ｄｉｆｆ－ＤＡとの差分から、対象音声及び背景音の少なくとも一方に対する調節値を算出する。ここで調節値は、背景音の調節だけで信頼区間に収まるように算出してもよいし、対象音声の調節だけで収まるように算出してもよいし、その両方で収まるように算出してもよい。ただし、いずれの調節方法においても、調節する値が最小になることが望ましい。

【0049】

図３のステップＳ４０では、レベル調節部１４により、調節値決定部１３で算出された調節値を対象音声及び背景音の少なくとも一方に適応することで調節を行う。

【0050】

ステップＳ５０では、音響処理装置１は、調節終了指示があれば処理を終了し、調節終了指示がなければ処理をステップＳ１０に戻す。すなわち、音響処理装置１は、調節終了指示を受け取るまで、音声ブロックごとに客観指標の測定からゲインの適応までの処理を繰り返す。

【0051】

（実施例）
次に、音響処理装置１の実施例について説明する。実施例では、客観指標測定部１１は、モーメンタリラウドネス値を２秒の測定時間で観測し、その時間率上位２５％の値を平均して算出される値を客観指標とする。目標値算出部１２は、３次関数からなる回帰曲線を最小二乗法によって算出し、信頼区間の信頼係数を９５％とする。調節値決定部１３は、対象音声及び背景音の両方を調節するものとする。

【0052】

音響処理装置１は調節を開始するとまず、入力された参照音声、対象音声、及び背景音それぞれの客観指標を測定する。モーメンタリラウドネス値をベースとした客観指標では、音声信号を４００ｍｓの音声ブロックに区切り、７５％ずつオーバーラップしながら測定が行われるため、１００ｍｓごとに客観指標の測定値を更新する。次に、目標値の更新を行う。

【0053】

図６は、スポーツ番組の参照音声９０秒（客観指標９００点分）から算出した目標値を示す図である。横軸は背景客観指標［ＬＫＦＳ（loudness, K-weighted, relative to full scale）］であり、縦軸は背景客観指標ごとの参照Ｄｉｆｆ－ＤＡの平均［ＬＵ（Loudness Units）］である。図中の白丸が参照Ｄｉｆｆ－ＤＡの測定値、実線が目標値である回帰曲線、破線が信頼区間の上限及び下限を示している。図６に示すように、背景音のレベルが低い区間では、背景客観指標に対する参照Ｄｉｆｆ－ＤＡはほとんど直線的に推移し、背景音のレベルが高いところでは一定の参照Ｄｉｆｆ－ＤＡを保つように推移する結果となっている。このように高い規則性を示す場合には、回帰曲線の算出は最小二乗法による単回帰でも高い精度が得られると考えられる。

【0054】

次に、対象音声及び背景音の音声レベルの調節値を決定する。対象音声及び背景音の両方で調節する場合、その調節値が最小になるようにするためには、信頼区間の上限又は下限（近い方）に直交するようなベクトルを算出することで調節値が求められる。

【0055】

図７は、図６の縦軸を、参照Ｄｉｆｆ－ＤＡではなく参照客観指標［ＬＫＦＳ］とした図である。斜めの薄い線は、参照Ｄｉｆｆ－ＤＡが等しい値となる等参照Ｄｉｆｆ－ＤＡ線である。調節値決定部１３は、対象Ｄｉｆｆ－ＤＡが信頼区間に収まるように調節値を決定するので、対象Ｄｉｆｆ－ＤＡが図中の黒丸で示される場合、対象音声だけで調節した場合はベクトルａ、背景音だけで調節した場合はベクトルｂ、対象音声及び背景音の両方で調節した場合はベクトルｃで調節することになる。ベクトルａは縦軸に平行な方向であり、ベクトルｂは横軸に平行な方向であり、ベクトルｃは信頼区間の上限又は下限（近い方）に直交する方向である。対象音声及び背景音の両方で調節することで、背景音が大きい時に背景音のレベルを下げつつ対象音声のレベルを上げるように動作する。そのため、対象音声及び背景音の合計の音声レベルを調節前から大きく変えずに、対象音声及び背景音のレベル差を確保できることが期待できる。

【0056】

実施例の効果を確認するため、発明者は主観評価実験を実施した。評価法はＤＭＯＳ(Degradation Mean Opinion Score)法を用いた。評定者には、基準音源に対する評価音源の違いを、表１に示す評価尺度で評価させた。

【0057】

【表1】

【0058】

基準音源はエンジニアがダイアログと背景音のレベルバランスを調節した音源を用いた。評価音源は、表２に示すように、回帰曲線２種類と調節対象の音声信号の違い３種類とを組み合わせた６種類を用いた。番組はドキュメンタリー、教育番組、スポーツなど、全５種類のそれぞれ９０秒（客観指標９００個分）を用いた。評定者はエンジニア計１６名とした。

【0059】

【表2】

【0060】

実験の結果、評価音源Ｃが全評価音源の中で最も平均点が高く、全番組において評点が4点を上回り、大きく評点を落とすことも無かった。評価音源Ｃでは背景音が大きい時に、背景音のレベルを下げ、対象音声のレベルを上げるように動作する。番組全体の音声レベルを大きく変えずに対象音声と背景音のレベル差を確保できたことがエンジニアと近い調節になったと考えられる。この実験結果から、実施例のように回帰曲線を３次関数とし、調節対象を対象音声及び背景音とすることが好適と考えられる。

【0061】

なお、上述した音響処理装置１として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、音響処理装置１の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。

【0062】

また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

【0063】

また、上述した音響処理装置１は、１つ又は複数の半導体チップにより構成されてもよい。この半導体チップは、音響処理装置１の各機能を実現する処理内容を記述したプログラムを実行するＣＰＵを搭載してもよい。

【0064】

上述したように本発明に係る音響処理装置１、又はプログラムによれば、テレビ番組をはじめとする音声コンテンツの音声制作において、参照音声及び背景音のレベルバランスの目標値を算出し、該目標値を参照して対象音声及び背景音のレベルバランスを自動で調節することできる。そのため、対象音声と参照音声の発話タイミングが異なる場合や、背景音が短時間で大きく変動する場合でも、適切に調節することが可能となる。

【0065】

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

【0066】

例えば、実施形態のレベルバランスの調節前に、さらに別のダイアログ調節機能を加えて、対象音声の音声レベルを参照音声により追従させてもよい。

【符号の説明】

【0067】

１音響処理装置
１１客観指標測定部
１２目標値算出部
１３調節値決定部
１４レベル調節部
１１０ラウドネス値測定部
１１１プリフィルタ
１１２二乗平均部
１１３重み付け部
１１４合算部
１１５デシベルスケール変換部
１１６スキップゲート部
１１７時間率上位平均値算出部

【図1】