IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7565727音響処理装置、音響処理システム、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-03
(45)【発行日】2024-10-11
(54)【発明の名称】音響処理装置、音響処理システム、及びプログラム
(51)【国際特許分類】
   G10L 21/0316 20130101AFI20241004BHJP
【FI】
G10L21/0316 100
【請求項の数】 11
(21)【出願番号】P 2020148558
(22)【出願日】2020-09-03
(65)【公開番号】P2022042892
(43)【公開日】2022-03-15
【審査請求日】2023-08-03
【新規性喪失の例外の表示】特許法第30条第2項適用 久保 弘樹及び大出 訓史が、2020年2月24日付で、電子情報通信学会技術研究報告において、出願に係る発明の内容を公開。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【弁理士】
【氏名又は名称】福尾 誠
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】大出 訓史
(72)【発明者】
【氏名】西口 敏行
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2017-092818(JP,A)
【文献】特開2001-195079(JP,A)
【文献】特開2016-208405(JP,A)
【文献】入交英雄 他,"平均ラウドネス値を用いた、放送音声の運用について(番組の平均ラウドネス値とその主観的なラウドネスとの関係)",日本音響学会2013年秋季研究発表会講演論文集CD-ROM,2013年09月17日,pp.1485-1488
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,19/00-19/26,
21/00-25/93
H04R 3/00
H04N 21/00-21/858
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
基準となる参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整する音響処理装置であって、
前記参照音声オブジェクト及び前記対象音声オブジェクトは、リアルタイムで同時に入力され、
前記参照音声オブジェクトのラウドネス値に基づいた客観指標である参照客観指標、及び前記対象音声オブジェクトのラウドネス値に基づいた客観指標である対象客観指標を測定する客観指標測定部と、
前記対象客観指標を前記参照客観指標に近づけるように、前記対象音声オブジェクトのゲインを決定するゲイン算出部と、
前記ゲインに基づき対象音声オブジェクトの音声レベルを調整するレベル調整部と、
を備え、
前記客観指標測定部は、
ラウドネス値を測定するラウドネス値測定部と、
前記ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を出力するスキップゲート部と、
前記測定時間のラウドネス値のうち所定の時間率のラウドネス値の平均値を前記客観指標として算出する時間率上位平均値算出部と、を備える音響処理装置。
【請求項2】
前記測定時間は、1.0秒以上且つ3.0秒未満である、請求項1に記載の音響処理装置。
【請求項3】
前記測定時間は、1.6秒以上且つ2.0秒以下である、請求項2に記載の音響処理装置。
【請求項4】
前記時間率は、25%以下である、請求項1から3のいずれか一項に記載の音響処理装置。
【請求項5】
前記ゲイン算出部は、前記参照客観指標及び前記対象客観指標の差分である客観指標差分に重み付けを与えることで前記ゲインを決定する、
請求項1から4のいずれか一項に記載の音響処理装置。
【請求項6】
前記客観指標測定部は、除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する除去ゲート部を更に備え、
前記ゲイン算出部は、前記参照音声オブジェクト及び前記対象音声オブジェクトの平均ラウドネス値の差分と、前記参照客観指標及び前記対象客観指標の差分とを、重み付け加算することで前記ゲインを決定する、
請求項1から4のいずれか一項に記載の音響処理装置。
【請求項7】
前記ゲイン算出部は、前記対象客観指標を下げるときの下降率のほうが、前記対象客観指標を上げるときの上昇率よりも小さくなるように、又は前記対象客観指標を下げるときの前記参照客観指標に近づく時間のほうが、前記対象客観指標を上げるときの前記参照客観指標に近づく時間よりも長くなるように前記ゲインを算出する、請求項1から6のいずれか一項に記載の音響処理装置。
【請求項8】
前記ゲイン算出部は、過去に算出したゲインを記憶しておき、前記参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、前記対象客観指標に対して出現頻度の高いゲインの値を前記対象音声オブジェクトのゲインに決定する、請求項1から7のいずれか一項に記載の音響処理装置。
【請求項9】
請求項1から8のいずれか一項に記載の音響処理装置をN個備え、N個の対象音声オブジェクトを自動で調整する音響処理システムであって、
N個の音響処理装置は、直列に接続され、
k(2≦k≦N-1)番目の音響処理装置は、第1から第kの対象音声オブジェクトを加算した音声レベルを、第(k+1)の対象音声オブジェクトに近づけるように調整し、
N番目の音響処理装置は、第1から第(N-1)の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整する、音響処理システム。
【請求項10】
請求項1から8のいずれか一項に記載の音響処理装置をN個備え、N個の対象音声オブジェクトを自動で調整する音響処理システムであって、
N個の音響処理装置は、並列に接続され、
各音響処理装置は、各音響処理装置に入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整する、音響処理システム。
【請求項11】
コンピュータを、請求項1から8のいずれか一項に記載の音響処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置、音響処理システム、及びプログラムに関する。
【背景技術】
【0002】
近年、テレビ番組や映画といった映像音声コンテンツにおいて、社会の国際化やインターネットの普及が進み、諸外国で制作されたコンテンツの視聴が一般化したことによる多国語対応や、障がい者支援のための解説音声といった副音声を求める声がますます高まっている。その需要にこたえることを一つの目的として、欧米やアジア諸国においては様々な副音声を容易かつ効率的に実現できるオブジェクトベース音響による音声サービスを次世代放送に用いようとする動きがある。特に、ATSC(Advanced Television Systems Committee)3.0を採用しているアメリカや韓国では、音声符号化方式にAC-4又はMPEG-H 3DAを用いて、既に放送システムへの導入を始めている。
【0003】
様々なパターンの音声コンテンツが必要になるに伴い、エンジニアが行うミクシングの一部を自動化し、サポートを行う技術が発表されている。現在、自動ミックスと呼ばれる技術はオフライン処理を行うものとオンライン処理を行うものとに大別される。前者は近年の機械学習技術の隆盛もあり数多くの製品が発売されているが、後者は導入先が音声卓などの業務用の機器が多いこともあり、まだ製品の数が少なかったり適応可能な状況が限定的だったりと、市場に十分に普及したとは言えない状況にある。オンライン処理の内容としては、複数人での会話などのリアルタイムミクシングを想定し、発話している話者が割り当たっているフェーダのゲインをクロスフェードさせながらOFF/ONするといった技術が主流である(例えば、非特許文献1参照)。
【0004】
また、視聴者がチャンネル間や番組間のラウドネスの極端な変化によって番組視聴を妨げられないよう、番組音声のラウドネスを推定して一定の範囲内に収めるために、人の聴感特性を考慮した客観指標であるラウドネス値の測定法がITU-R(International Telecommunication Union-Radiocommunication Sector:国際電気通信連合無線通信部門)で規定されている(例えば、非特許文献2及び3参照)。日本でもITU-R勧告に基づいたラウドネス運用規定がARIBで策定されており、放送現場では実際にラウドネス値に基づいた番組音声の管理が行われている(例えば、非特許文献4参照)。標準化されているラウドネス値には下記の表1に示す3種類があるが、基本的な測定法は同じである。測定の最小単位となる音声ブロックごとの値はモーメンタリラウドネス値と定義され、ショートタームラウドネス値、平均ラウドネス値は、ゲート処理などの違いはあるものの基本的にはそれぞれの時間幅における各ブロックの測定値の平均値として算出される。
【0005】
【表1】
【先行技術文献】
【非特許文献】
【0006】
【文献】https://www.solid-state-logic.co.jp/broadcastsound/dialogue-automix/
【文献】ITU-R、 Rec. ITU-R BS.1770-4、”Algorithms to measure audio programme loudness and true-peak audio level”、2015
【文献】ITU-R、Rec. ITU-R BS.1771-1、“Requirements for loudness and true-peak indicating meters”、2012
【文献】ARIB、ARIB TR-B32、「デジタルテレビ放送番組におけるラウドネス運用規定」、2016
【発明の概要】
【発明が解決しようとする課題】
【0007】
一般に、生放送で主音声と副音声を一人のエンジニアが同時に一定以上の品質で制作することは困難である。オブジェクトベース音響などの次世代の音声サービスでは、一つの番組で、現状の2種類(主音声/副音声)を超える数の副音声のバリエーションを提供することが想定されているが、その数に応じて必要なミクシングエンジニアの要員が増加することが課題となる。非特許文献1に記載されたようにオンライン処理でミクシングの一部を自動化する技術はいまだ数が少なく、またあくまでエンジニアをサポートする技術であるため、多くの状況ではミクシングエンジニアの要員を減らすまでに至らない。
【0008】
副音声を提供する場合、最もシンプルな方法は、主音声と副音声で背景音を共通とし、ダイアログだけを差し替えることである。スポーツ中継などのコンテンツでは、同じ番組の中でも試合の盛り上がりなどのシーンに応じてダイナミックなミクシングを行う場合があり、差し替える副音声のダイアログの音声レベルも適切に調整し続ける必要がある。よって、副音声のダイアログレベルの調整を自動化できれば、必要なミクシングエンジニアを増やさずに副音声サービスの実施が可能となる。
【0009】
一般に背景音とダイアログの相対レベルは番組、又はシーンによって異なり、背景音とダイアログの相対レベルに関する定型的な関係性を導くことは難しい。一方、主音声など、コンテンツに対して少なくとも一種類の音声においては、コンテンツの品質管理の観点から従来通りミクシングエンジニアが制作を担当し、背景音とダイアログが常に最適な関係となるように調整し続けていることが想定される。よって、調整済みの主音声のダイアログ(参照ダイアログ)の音声レベルの情報を利用し、副音声のダイアログ(対象ダイアログ)の音声レベルがこれとおおむね同じとなるように調整し続ければ、対象ダイアログと背景音の関係を、参照ダイアログと背景音の関係に合わせこむことになると考えられる。
【0010】
上記のように調整対象となる対象ダイアログを自動で調整するためには、基準となる参照ダイアログと対象ダイアログ両方の音声レベルに関する客観指標が必要となる。既存の客観指標としては、非特許文献2乃至4に記載のラウドネス値が考えられる。しかし、上記表1の3種類のラウドネス値をそのまま自動レベル調整に用いると、モーメンタリラウドネス値のように測定時間幅が短いラウドネス値は、値が急峻に変化し、安定したレベル調整は困難である。反対に、平均ラウドネス値のように測定時間幅が長いラウドネス値は、その測定時間幅に含まれる多数の音声ブロックごとの値の平均値から算出されるために、音声レベルの変化に対するラウドネス値への反映に遅延が生じる。測定時間幅によっては,その遅延は秒単位の長さとなるため生放送などリアルタイムでの調整が求められる状況下での指標としてふさわしくない。
【0011】
また、ショートタームラウドネス値のような中間的な長さの測定時間幅では、算出される値の安定性や遅延の面では比較的優れているが、その時間幅(3秒)が自動調整の客観指標においても妥当な長さであるかは明らかではない。さらに、発話の開始・終了が関係する、即ち測定時間内に無音区間が含まれる時には、参照ダイアログと対象ダイアログのレベルの差が急に大きくなり、調整値が過大又は過小となるなどの不適切な調整が行われ得る。
【0012】
かかる事情を鑑みてなされた本発明の目的は、テレビ番組をはじめとする映像音声コンテンツの副音声制作などにおいて、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能な音響処理装置、音響処理システム、及びプログラムを提供することにある。
【課題を解決するための手段】
【0013】
上記課題を解決するため、本発明に係る音響処理装置は、基準となる参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整する音響処理装置であって、前記参照音声オブジェクト及び前記対象音声オブジェクトは、リアルタイムで同時に入力され、前記参照音声オブジェクトのラウドネス値に基づいた客観指標である参照客観指標、及び前記対象音声オブジェクトのラウドネス値に基づいた客観指標である対象客観指標を測定する客観指標測定部と、前記対象客観指標を前記参照客観指標に近づけるように、前記対象音声オブジェクトのゲインを決定するゲイン算出部と、前記ゲインに基づき対象音声オブジェクトの音声レベルを調整するレベル調整部と、を備え、前記客観指標測定部は、ラウドネス値を測定するラウドネス値測定部と、前記ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を出力するスキップゲート部と、前記測定時間のラウドネス値のうち所定の時間率のラウドネス値の平均値を前記客観指標として算出する時間率上位平均値算出部と、を備えることを特徴とする。
【0014】
さらに、本発明に係る音響処理装置において、前記測定時間は、1.0秒以上且つ3.0秒未満であってもよい。
【0015】
さらに、本発明に係る音響処理装置において、前記測定時間は、1.6秒以上且つ2.0秒以下であってもよい。
【0016】
さらに、本発明に係る音響処理装置において、前記時間率は、25%以下であってもよい。
【0017】
さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、前記参照客観指標及び前記対象客観指標の差分である客観指標差分に重み付けを与えることで前記ゲインを決定してもよい。
【0018】
さらに、本発明に係る音響処理装置において、前記客観指標測定部は、除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する除去ゲート部を更に備え、前記ゲイン算出部は、前記参照音声オブジェクト及び前記対象音声オブジェクトの平均ラウドネス値の差分と、前記参照客観指標及び前記対象客観指標の差分とを、重み付け加算することで前記ゲインを決定してもよい。
【0019】
さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、前記対象客観指標を下げるときの下降率のほうが、前記対象客観指標を上げるときの上昇率よりも小さくなるように、又は前記対象客観指標を下げるときの前記参照客観指標に近づく時間のほうが、前記対象客観指標を上げるときの前記参照客観指標に近づく時間よりも長くなるように前記ゲインを算出してもよい。
【0020】
さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、過去に算出したゲインを記憶しておき、前記参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、前記対象客観指標に対して出現頻度の高いゲインの値を前記対象音声オブジェクトのゲインに決定してもよい。
【0021】
また、上記課題を解決するため、本発明に係る音響処理システムは、上記音響処理装置をN個備え、N個の対象音声オブジェクトを自動で調整する音響処理システムであって、N個の音響処理装置は、直列に接続され、k(2≦k≦N-1)番目の音響処理装置は、第1から第kの対象音声オブジェクトを加算した音声レベルを、第(k+1)の対象音声オブジェクトに近づけるように調整し、N番目の音響処理装置は、第1から第(N-1)の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整することを特徴とする。
【0022】
また、上記課題を解決するため、本発明に係る音響処理システムは、上記音響処理装置をN個備え、N個の対象音声オブジェクトを自動で調整する音響処理システムであって、N個の音響処理装置は、並列に接続され、各音響処理装置は、各音響処理装置に入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整することを特徴とする。
【0023】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響処理装置として機能させることを特徴とする。
【発明の効果】
【0024】
本発明によれば、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能となる。
【図面の簡単な説明】
【0025】
図1】第1実施形態に係る音響処理装置の構成例を示すブロック図である。
図2】第1実施形態に係る音響処理装置の処理手順例を示すフローチャートである。
図3】第1実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。
図4】第1実施形態に係る音響処理装置におけるスキップゲート部の処理を説明する図である。
図5】第1実施形態に係る音響処理装置における時間率上位平均値算出部の処理を説明する図である。
図6】第1実施形態に係る音響処理装置における客観指標測定部の処理手順例を示すフローチャートである。
図7】第1実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。
図8】第1実施形態に係る音響処理装置におけるゲイン算出部の処理手順例を示すフローチャートである。
図9】第1実施形態に係る音響処理装置において測定時間又は時間率を変化させた場合のゲインの変化を示す図である。
図10】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインの相関関係を示す図である。
図11】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す図である。
図12】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第1の図である。
図13】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第2の図である。
図14】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第3の図である。
図15】第1実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第4の図である。
図16】第2実施形態に係る音響処理装置の構成例を示すブロック図である。
図17】第2実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。
図18】第2実施形態に係る音響処理装置における除去ゲートとスキップゲートの違いを説明する図である。
図19】第2実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。
図20】第3実施形態に係る音響処理装置の構成例を示すブロック図である。
図21】第3実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。
図22】第3実施形態に係る音響処理装置におけるゲイン記憶部が記憶する度数分布の一例を示すグラフである。
図23】第4実施形態に係る音響処理システムの構成例を示すブロック図である。
図24】第5実施形態に係る音響処理システムの構成例を示すブロック図である。
【発明を実施するための形態】
【0026】
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
【0027】
本発明に係る音響処理装置は、テレビ番組をはじめとする映像音声コンテンツ制作において、基準となる調整済みの参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整し、調整した対象音声オブジェクトを調整済み対象音声オブジェクトとして外部に出力する。音声オブジェクトとは、ダイアログ、音楽、効果音などであり、専用のマイクを立てたり専用の再生機を置いたりして何かしら単体の音源として扱えるものであればよい。以下に説明する実施形態では、音声オブジェクトをダイアログとする。
【0028】
(第1実施形態)
図1は、本発明の第1実施形態に係る音響処理装置1の構成例を示すブロック図である。音響処理装置1は、リアルタイムで入力される参照音声オブジェクトと対象音声オブジェクトを一定長の音声ブロックに区切り、そのブロックごとに客観指標を測定し、その差分をもとに調整に必要なゲインを算出する。算出されたゲインを入力された対象音声オブジェクトに適応することで調整を行う。なおここで、ゲインを適応する音声ブロックは、測定した音声ブロックの次のブロックとすることで、理論上の遅延を純粋な計算時間のみとすることができるため、生放送のようなリアルタイムの調整においても、影響を大きく抑えることが可能となる。
【0029】
図1に示す音響処理装置1は、第1客観指標測定部11と、第2客観指標測定部12と、ゲイン算出部13と、レベル調整部14と、を備える。
【0030】
第1客観指標測定部11は、音響処理装置1の外部からリアルタイムで入力した参照音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標(参照客観指標)を測定する。そして、第1客観指標測定部11は、測定した参照客観指標をゲイン算出部13に出力する。
【0031】
第2客観指標測定部12は、音響処理装置1の外部からリアルタイムで入力した対象音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標(対象客観指標)を測定する。そして、第2客観指標測定部12は、測定した対象客観指標をゲイン算出部13に出力する。
【0032】
ゲイン算出部13は、第2客観指標測定部12から入力した対象客観指標を、第1客観指標測定部11から入力した参照客観指標に近づけるように、対象音声オブジェクトのゲインを決定する。そして、ゲイン算出部13は、決定したゲインをレベル調整部14に出力する。
【0033】
レベル調整部14は、ゲイン算出部13から入力したゲインを、音響処理装置1の外部から入力した対象音声オブジェクトに適応することで音声レベルを調整し、調整された対象音声オブジェクトを調整済み音声オブジェクトとして外部に出力する。
【0034】
図2は、音響処理装置1において、対象音声オブジェクトの音声レベルを調整する手順例を示すフローチャートである。ステップS11において、第1客観指標測定部11により、参照客観指標を測定し、第2客観指標測定部12により対象客観指標を測定する。ステップS12において、ゲイン算出部13により、参照客観指標及び対象客観指標からゲインを算出する。ステップS13において、レベル調整部14により、対象音声オブジェクトの音声ブロックに前のブロックで算出されたゲインを反映する。ステップS14において、音響処理装置1は、調整終了指示の有無を確認し、調整終了指示を受け取るまでの間、音声ブロックごとに、ステップS11からステップS13までの処理を繰り返す。
【0035】
図3は、第1客観指標測定部11及び第2客観指標測定部12の構成例を示すブロック図である。第1客観指標測定部11及び第2客観指標測定部12の構成は同一であるため、両者を区別しない場合には、客観指標測定部11,12と称する。客観指標測定部11,12は、参照音声オブジェクト及び対象音声オブジェクトの、ラウドネス値に基づいた客観指標を測定する。図3に示す客観指標測定部11,12は、ラウドネス値測定部110と、スキップゲート部116と、時間率上位平均値算出部117と、を備える。
【0036】
ラウドネス値測定部110は、プリフィルタ111と、二乗平均部112と、重み付け部113と、合算部(Σ)114と、デシベルスケール変換部(Log)115と、を備える。
【0037】
ラウドネス値測定部110は、本実施形態においては、標準化されたアルゴリズムを用いてラウドネス値を測定する。詳細については、標準化団体が定める規格書である非特許文献2乃至4を参照されたい。
【0038】
プリフィルタ111は、入力された参照音声オブジェクト又は対象音声オブジェクトの各チャンネルについて、音声ブロックごとに、例えばK特性フィルタ称される2段階のプリフィルタを適用して、プリフィルタ処理を行い、二乗平均部112に出力する。
【0039】
二乗平均部112は、プリフィルタ111から入力した信号に対して、二乗平均処理を行い、重み付け部113に出力する。
【0040】
重み付け部113は、二乗平均部112から入力した信号に対して、チャンネルごとに音声信号の方向に応じた重み係数を乗じ、合算部114に出力する。
【0041】
合算部114は、LFEを除いたチャンネルの重み付け後の二乗平均値を合算し、デシベルスケール変換部115に出力する。
【0042】
デシベルスケール変換部115は、合算部114から入力した信号、をデシベルスケールに変換し、音声ブロックごとのラウドネス値を求め、スキップゲート部116に出力する。
【0043】
スキップゲート部116は、ラウドネス値測定部110から音声ブロックごとにラウドネス値を入力し、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなす。一方、スキップゲート部116は、ラウドネス値がスキップゲート閾値以下となる時間を非発話時間とみなしてスキップする。そして、スキップゲート部116は、現在時刻(当該時間)の直前の発話時間のうち、固定長の測定時間のラウドネス値を時間率上位平均値算出部117に出力する。
【0044】
図4は、スキップゲート部116の処理を説明する図である。図4に示すグラフの横軸は時間であり、縦軸は音声ブロックごとのラウドネス値である。スキップゲート部116は、図4(a)に示すように、現在時刻(当該時間)tの直前tpv秒間の発話時間を測定時間tpvとする。測定時間tpvは固定長である。スキップゲート部116は、現在時刻tの直前tpv秒間に発話していない非発話時間(すなわち、ラウドネス値がスキップゲート閾値以下となる時間)がある場合には、非発話時間をスキップし、図4(b)に示すように、代わりにその前に発話していた時間を測定時間に含め、測定時間幅がtpvとなるように調整する。つまり、図4(b)において、tpv=tpv1+tpv2である。
【0045】
また、スキップゲート部116は、無音区間の判定に用いるスキップゲート閾値を固定値ではなく、当該時間までの平均ラウドネス値を反映した値を用いてもよい。これにより、マイクにその場の環境音など話者の声以外の意図しない音声も入力される、いわゆる「かぶり」の存在による無音区間の誤判定を避けることもできる。加えて、話者によって入力される音声レベルが異なることによる影響を小さくすることができる。
【0046】
図5は、時間率上位平均値算出部117の処理を説明する図である。図5に示すグラフの横軸は時間であり、縦軸はラウドネス値である。時間率上位平均値算出部117は、測定時間tpvに含まれるラウドネス値のうち、時間率で上位(rpv[%])にあたるラウドネス値(すなわち、所定の時間率のラウドネス値)の平均値を客観指標として算出する。時間率とは、ある時間長のうちある音声レベルを超える時間長の割合をいい、本発明においては、測定時間幅のうち、ラウドネス値がゲーティング閾値を超える時間の割合をいう。図5(a)に示す例では、時間率[%]=(to1+to2+to3)×100/tpvとなる。図5(b)に示すように、ゲーティング閾値を変更することにより、時間率は変化する。そして、時間率上位平均値算出部117は、参照音声オブジェクトの客観指標を参照客観指標としてゲイン算出部13に出力し、対象音声オブジェクトの客観指標を対象客観指標としてゲイン算出部13に出力する。
【0047】
図6は、客観指標測定部11,12により客観指標を測定する手順例を示すフローチャートである。ステップS111において、プリフィルタ111により、参照音声オブジェクト又は対象音声オブジェクトに対して、プリフィルタ処理を行う。ステップS112において、二乗平均部112により、二乗平均処理を行う。ステップS113において、重み付け部113により、重み付け処理を行う。ステップS114において、合算部114により、合算処理を行う。ステップS115において、デシベルスケール変換部115により、デシベルスケール変換処理を行う。客観指標測定部11,12は、ステップS111からステップS115の処理により、ラウドネス値を算出する。
【0048】
続いて、ステップS116において、スキップゲート部116により、ラウドネス値に対してスキップゲート処理を行う。ステップS117において、時間率上位平均値算出部117により、時間率上位となるラウドネス値の平均値を客観指標として算出する。これにより、客観指標測定部11,12は、ラウドネス値の測定アルゴリズムをベースとした値の安定性と応答性が両立する客観指標を測定することができる。
【0049】
図7は、ゲイン算出部13の構成例を示すブロック図である。図7に示すゲイン算出部13は、差分算出部131と、重み付け部132と、を備える。
【0050】
差分算出部131は、参照客観指標及び対象客観指標の差分である客観指標差分Ldiffを算出する。そして、差分算出部131は、算出した客観指標差分Ldiffを重み付け部132に出力する。
【0051】
重み付け部132は、差分算出部131から入力した客観指標差分Ldiffに対して、重み付けを行い、ゲインLを算出する。そして、重み付け部132は、算出したゲインLをレベル調整部14に出力する。
【0052】
図8は、ゲイン算出部13によりゲインを算出する手順例を示すフローチャートである。ステップS121において、差分算出部131により、参照客観指標及び対象客観指標の差分である客観指標差分Ldiffを算出する。ステップS122において、重み付け部132により、客観指標差分Ldiffに対して、例えば式(1)により重み付けを行い、ゲインLを算出する。ここで、α及びβは重み付け係数である。
【0053】
【数1】
【0054】
客観指標差分Ldiffに定数βを加算すると、ゲインを全体的に大きく又は小さく平行にシフトすることになる。これを実際にミクシングエンジニアが音を聞きながら調整している状況に当てはめると、話者の声質や言語の違いなどが音の大きさの評価に対し全体的に与える影響に対応すると考えられる。また、重み付けを加える場合に、客観指標差分Ldiffに係数αをかけると、ゲインの波形の振幅を全体的に大きく又は小さく伸長させることになる。これを実際にミクシングエンジニアが調整している状況に当てはめると、耳で聞いた音の大きさに対して実際にゲインを動かす大きさに対応すると考えられる。一般的にミクシングエンジニアが調整を行う際には、音の大きさのみならず、発声の聞き取り易さや発話の文脈、文章中での位置なども含め総合的にフェーダの調節量を決めるため、適切な重み付けを加えれば、エンジニアによる調整に近づけることができる。
【0055】
<ゲイン算出処理>
次に、ゲイン算出処理の具体例について説明する。
【0056】
<<実施例1>>
式(1)によりゲインを決定する場合、ゲインfは、以下の式で表される。
【0057】
【数2】
【0058】
客観指標の測定時間(tpv[秒])及び時間率(rpv[%])のパラメータを検討するため、エンジニアに音声オブジェクト(音声ダイアログ)のレベルを実際に調整させる実験を行った。ミクシングエンジニア17名に対し、参照音声オブジェクト(基準音:実際の番組のように音声レベルを調整済み)と対象音声オブジェクト(評価音:音声レベル未調整)を同時に提示し、常に同じ大きさで聞こえるように、対象音声オブジェクトのフェーダを逐次調整させ、そのゲイン(調整値)を記録した。実験に用いた音源はスポーツ中継であり、1種類の参照ダイアログ(共通)に対し、ダイナミックな調整を必要とするような音声レベルの時間的変動の大きい2種類の対象音声オブジェクトを用いた。計3種類の音源の平均ラウドネス値は全て同じ値に調整した上で実験を行った。
【0059】
図9(a)は客観指標の2つのパラメータのうち、時間率rpvを固定し測定時間tpvを変化させた場合のゲインの変化を示しており、図9(b)は測定時間tpvを固定し時間率rpvを変化させた場合のゲインの変化を示している。なお、この時点では客観指標そのもののパラメータを検討しているため、客観指標の重み付け係数α及びβは加えていない。測定時間tpvを変化させた図9(a)ではピークの時間が秒単位でずれるほか、ピークの値も最大で2dB近く変化するのに対し、時間率rpvを変化させた図9(b)ではピークの時間のずれはコンマ数秒、ピークの値も0.5dB程度に収まっていることから、測定時間tpvによる影響が大きく、主要なパラメータであることが見て取れた。また、時間率rpvを変化させた場合、時間率rpvが小さいときにはゲインの変動が荒く、時間率rpvを大きくすると変動が滑らかになった。一方で、非特許文献2乃至4において標準化されているラウドネス値の測定アルゴリズムでは、音声信号を75%オーバーラップさせながらフレームに区切っているため、時間率rpvが25%を超えると、無音区間も計算に含めることになる。無音区間を測定に含めることで不適切な調整が行われることを避けるため、時間率rpvは、無音区間を測定に含まない範囲でゲインが最も滑らかとなる25%が適当と考えられる。
【0060】
その上で客観指標のゲインをエンジニアが設定するゲインと比較したところ、ゲインの波形にある程度の類似性が見られた。そこで、図10に示すように、エンジニアが設定するゲインと、測定時間tpvを変化させたときの客観指標のゲインそれぞれの相関係数を求めた。その結果、測定時間tpv=1.6~2.0秒で相関係数が最大値(0.34又は0.36)をとり、類似性が最も高くなった。
【0061】
図11は、測定時間tpvを2.0秒及び5.2秒としたときの、エンジニアが設定するゲインと、ゲイン算出部13が決定するゲインとを示している。ここで、図11に示すゲインは比較のため、それぞれの平均と標準偏差で正規化し、前後10点で平滑化している。図11の実線と一点鎖線を比較すると、ダイナミックな調整が行われる、即ち波形に大きな凹凸が現れる時間がおおむね一致しており、客観指標のパラメータとして測定時間tpv=2.0秒が適当であると判断した。
【0062】
一般に、スピーチのような一定の調子で発話するような音源は、聴感上、ラウドネス値が一定に感じることもあるが、その場合でも瞬時的なラウドネス値は変動し続けている。言い替えれば、人間はある程度の時間幅の音を総合的に聴取して音の大きさを判断している。これと同様に、ダイナミックなミクシングを行わなければならないエンジニアも、瞬時的な音の大きさだけではなく、ある程度の時間幅の音をもってフェーダの操作を決定していると考えられるが、その判断は一般的なテレビ視聴者よりも素早く行われていると考えられる。
【0063】
ラウドネスを適切に判断可能な臨界継続時間は、下記の参考文献1,2に記されているように1.0秒である。測定時間tpvが1.6秒以上且つ2.0秒未満の場合にエンジニアが設定するゲインとの相関が高くなるという実験結果は、臨界継続時間1.0秒よりも長く、かつ標準化されているショートタームラウドネス値の測定時間3.0秒よりも短い結果であり、パラメータとして妥当な範囲にあると考えられる。
参考文献1:S. Namba、 S. Kuwano and H. Fastl、 “Loudnessof non-steady state sounds”、 Jpn. Psychol. Res.、 vol50、 pp.154-166、2008
参考文献2: 難波精一郎 、“知っているようで知らないラウドネス”、日本音響学会誌、vol.73、 no.12、pp.765-773、2017
【0064】
客観指標のパラメータが定まったところで、重み付け係数α及びβの値を検討した。図12は、α=0.3,β=-2.5dBとしたときのゲインを、エンジニアが設定するゲインと共に示す図である。βの値を0.5dB単位、αの値を0.1単位で変化させたところ、α=0.3~0.4程度、β=-1.5~-2.5dB程度の時に、音響処理装置1が算出するゲインが、全時間の95%の時間でエンジニアのゲイン±標準偏差の範囲に収まった。
【0065】
ゲイン算出部13は、対象客観指標を下げるときの下降率のほうが、対象客観指標を上げるときの上昇率よりも小さくなるように、又は対象客観指標を下げるときの参照客観指標に近づく時間のほうが、対象客観指標を上げるときの参照客観指標に近づく時間よりも長くなるようにゲインを算出してもよい。この具体例を以下の実施例2~4で説明する。
【0066】
<<実施例2>>
ゲイン算出部13は、対象音声オブジェクトを大きくする場合(客観指標差分Ldiffが正)の重み付けを、対象音声オブジェクトを小さくする場合(客観指標差分Ldiffが負)の重み付けよりも大きくしてもよい。例えば、ゲイン算出部13は、式(3)によりゲインfを算出してもよい。式(3)では、ゲインが正となり音声レベルを上げる調整を行う時には式(1)と同じ重み付け係数を用い、ゲインが負となり音声レベルを下げる調整を行う時にはβの値を半分にして下げ幅を小さくしている。
【0067】
【数3】
【0068】
図13は、式(3)により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。実施例2では、実施例1よりもエンジニアのゲインから若干はずれて調整されるが、自動調整によって対象音声オブジェクトが小さく調節された場合に、背景音などにマスクされて聞き取りにくくなるリスクを抑える効果が期待できる。
【0069】
<<実施例3>>
ゲイン算出部13は、測定時間及び時間率のパラメータ、並びに重み付け係数を実施例1と同じ値とし、ゲインの傾きが正から負となる、すなわちフェーダを当該時点の値から下げる調整を始めてからは、その傾きを半分とする調整を行ってもよい。例えば、ゲイン算出部13は、式(4)によりゲインf(n)を算出してもよい。ここで、nはn番目の音声ブロックを意味する。この例では、L(重み付けを加えた測定値の差分)が下げ幅を半分に抑えたゲインを上回る、すなわちゲインを大きく上昇させる必要が生じてからは再び、Lをそのままゲインとする。
【0070】
【数4】
【0071】
図14は、式(4)により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。実施例3では、実施例2よりもさらに自動調整によって対象音声オブジェクトが聞き取りにくくなるリスクを抑える効果が期待できる。一方で、フェーダの下げ幅が小さくなりすぎ、逆に対象音声オブジェクトがしばしば大きすぎるように聞こえてしまう可能性は実施例2よりも増加すると考えられる。
【0072】
<<実施例4>>
ゲイン算出部13は、測定時間及び時間率のパラメータ、並びに重み付け係数を実施例1と同じ値とし、ゲインを下げる場合には、目標値に向かい時間をかけて徐々に漸近していくようにしてもよい。例えば、ゲイン算出部13は、式(5)によりゲインf(n)を算出してもよい。ここで、nはn番目の音声ブロックを意味する。εはゲインをL(重み付けを加えた測定値の差分)に漸近させていく際の重み付け係数であり、値が大きいほど時間をかけずに漸近する。この例では、Lが時間をかけて漸近しているゲインを上回る、すなわちゲインを大きく上昇させる必要が生じてからは再び、Lをそのままゲインとする。
【0073】
【数5】
【0074】
図15は、式(5)により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。ここで、約5秒かけて目標値の80%に漸近するようにε=1/30とした。実施例4では、ゲインが徐々にLに近づくため、短時間で対象音声オブジェクトを過小に調整する、又は対象音声オブジェクトを大きすぎるままになることを避ける効果が期待できる。ただし、参照音声オブジェクトが長時間にわたって発話しないような場合には対応しきれない可能性もある。
【0075】
(第2実施形態)
次に、第2実施形態に係る音響処理装置について説明する。図16は、第2実施形態に係る音響処理装置2の構成例を示すブロック図である。図16に示す音響処理装置2は、第1客観指標測定部11aと、第2客観指標測定部12aと、ゲイン算出部13aと、レベル調整部14と、を備える。
【0076】
第1客観指標測定部11aは、音響処理装置2の外部からリアルタイムで入力した参照音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標(参照客観指標)を測定する。また、第1客観指標測定部11aは、参照音声オブジェクトの平均ラウドネス値(参照平均ラウドネス値)を測定する。そして、第1客観指標測定部11aは、測定した参照客観指標及び参照平均ラウドネス値をゲイン算出部13aに出力する。
【0077】
第2客観指標測定部12aは、音響処理装置2の外部からリアルタイムで入力した対象音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標(対象客観指標)を測定する。また、第2客観指標測定部12aは、対象音声オブジェクトの平均ラウドネス値(対象平均ラウドネス値)を測定する。そして、第2客観指標測定部12aは、測定した対象客観指標及び対象平均ラウドネス値をゲイン算出部13aに出力する。
【0078】
ゲイン算出部13aは、第1客観指標測定部11aから入力した参照客観指標及び第2客観指標測定部12aから入力した対象客観指標の差分と、第1客観指標測定部11aから入力した参照平均ラウドネス値、及び第2客観指標測定部12aから入力した対象平均ラウドネス値の差分とを重み付けして加算することで、ゲインを算出する。そして、ゲイン算出部13aは、算出したゲインをレベル調整部14に出力する。
【0079】
レベル調整部14は、ゲイン算出部13aから入力したゲインを、音響処理装置2の外部から入力した対象音声オブジェクトに適応することで調整を行い、調整された対象音声オブジェクトを調整済み音声オブジェクトとして外部に出力する。
【0080】
図17は、第1客観指標測定部11a及び第2客観指標測定部12aの構成例を示すブロック図である。第1客観指標測定部11a及び第2客観指標測定部12aの構成は同一であるため、両者を区別しない場合には、客観指標測定部11a,12aと称する。図17に示す客観指標測定部11a,12aは、ラウドネス値測定部110と、スキップゲート部116と、時間率上位平均値算出部117と、除去ゲート部118と、を備える。客観指標測定部11a,12aは、第1の実施形態に係る客観指標測定部11,12と比較して、除去ゲート部118を更に備える点が相違する。
【0081】
ラウドネス値測定部110は、第1の実施形態と同様に測定したラウドネス値を、スキップゲート部116及び除去ゲート部118に出力する。
【0082】
除去ゲート部118は、ラウドネス値測定部110から入力したラウドネス値のうち、測定時間において除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する。なお、除去ゲートは非特許文献2乃至4で平均ラウドネス値の算出に用いられるゲートと同一である。非特許文献では単に「ゲート」と記述されるが、本願では動作の異なるスキップゲートとの区別のために「除去ゲート」と記述する。
【0083】
図18は、除去ゲートとスキップゲートの違いを説明する図である。図18(a)に示すように、除去ゲート部118は、測定時間における閾値以下の値を除去して計算を行うため、測定時間幅が一定であっても実際にラウドネス値に反映される音声ブロックの数は無音区間(ゲーティング)の長さによって変動し得る。一方、図18(b)に示すように、スキップゲート部116による処理では、測定時間幅は固定されており、計算に用いられる音声ブロックの数は常に一定となる。
【0084】
図19は、ゲイン算出部13aの構成例を示すブロック図である。ゲイン算出部13aは、第1差分算出部133と、第1重み付け部134と、第2差分算出部135と、第2重み付け部136と、合算部137と、を備える。
【0085】
第1差分算出部133は、第1客観指標測定部11aから入力した参照客観指標と、第2客観指標測定部12aから入力した参照客観指標との差分Ldiff1を算出する。そして、第1差分算出部133は、算出した差分Ldiff1を第1重み付け部134に出力する。
【0086】
第1重み付け部134は、例えば式(6)により重み付けを行い、ゲインLW1を算出する。ここで、α及びβは重み付け係数である。そして、第1重み付け部134は、算出したゲインLW1を合算部137に出力する。
【0087】
【数6】
【0088】
第2差分算出部135は、第1客観指標測定部11aから入力した参照平均ラウドネス値と、第2客観指標測定部12aから入力した対象平均ラウドネス値との差分Ldiff2を算出する。そして、第2差分算出部135は、算出した差分Ldiff2を第2重み付け部136に出力する。
【0089】
第2重み付け部136は、例えば式(7)により重み付けを行い、ゲインLW2を算出する。ここで、α及びβは重み付け係数である。そして、第2重み付け部136は、算出したゲインLW2を合算部137に出力する。
【0090】
【数7】
【0091】
合算部137は、第1重み付け部134から入力したゲインLW1、及び第2重み付け部136から入力したゲインLW2を合算してゲインLを算出する。そして、合算部137は、算出したゲインLをレベル調整部14に出力する。
【0092】
このように本実施形態では、ゲインの算出に平均ラウドネス値も用いる。一般に、平均ラウドネス値は測定時間が15秒を超える程度で値が安定し、数十分といった時間長のコンテンツの中ほどにおいてはほとんど値が変化しないことが知られているため、参照音声オブジェクトと対象音声オブジェクトの平均ラウドネス値が同程度である場合には、本発明のような逐次的な処理を検討する上では客観指標だけ検討すれば十分である。
【0093】
これは、参照音声オブジェクトと対象音声オブジェクトの平均ラウドネス値が大きく異なる場合に大まかな音声レベルを事前に揃えておくことで、客観指標の差分を用いて逐次計算するゲインが極端に大きくなり、後述する重み付けの影響が大きくなりすぎることを避ける効果がある。
【0094】
(第3実施形態)
次に、第3実施形態に係る音響処理装置について説明する。図20は、第3実施形態に係る音響処理装置3の構成例を示すブロック図である。図20に示す音響処理装置3は、第1客観指標測定部11と、第2客観指標測定部12と、ゲイン算出部13bと、レベル調整部14と、を備える。音響処理装置3は、第1実施形態に係る音響処理装置1と比較してゲイン算出部13に代えてゲイン算出部13bを備える点が相違する。
【0095】
ゲイン算出部13bは、対象客観指標に対する過去のゲインを記憶しておき、参照音声オブジェクトの値が所定時間以上、閾値以下であり(例えば、話者が長時間発話しない場合)、最後に発話した際の客観指標をもとに調整を行い続けることに問題が生じる場合には、対象客観指標に対して出現頻度の高いゲインの値を対象音声オブジェクトのゲインに決定する。
【0096】
図21は、ゲイン算出部13bの構成例を示すブロック図である。図21に示すゲイン算出部13bは、差分算出部131と、重み付け部132と、ゲイン記憶部138と、切替部139と、を備える。
【0097】
第1実施形態と同様に、差分算出部131は客観指標差分Ldiffを算出し、重み付け部132は客観指標差分Ldiffに対して重み付けを行ってゲインLを算出する。重み付け部132は、算出したゲインLをゲイン記憶部138及び切替部139に出力する。
【0098】
ゲイン記憶部138は、重み付け部132からゲインLを入力し、過去に算出したゲインを記憶する。また、ゲイン記憶部138は、第2客観指標測定部12から対象客観指標を入力する。ゲイン記憶部138は、参照音声オブジェクトと対象音声オブジェクトの話者が同時に発話している際に、対象客観指標に対するゲインの値を記憶し、ゲインの値を一定の幅(例えば0.5dB刻みの幅)で度数分布化する。
【0099】
切替部139は、参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、出力するゲインを、重み付け部132から入力したゲインLから、対象音声オブジェクトに対する過去のゲインの度数が最も大きい、すなわち最も頻繁に表れていたゲインの値に切り替える。度数の大きさが同じゲインが複数ある場合には、ゲインの変化が急峻にならないよう、1ブロック前のゲインに近い方の値を採用する。
【0100】
図22は、ゲイン記憶部138が記憶する度数分布の一例を示すグラフである。例えば、参照音声オブジェクトの話者が長時間発話していない中で、対象音声オブジェクトの客観指標が-24.0LKFSであったとする。この場合には、切替部139は、-24.0LKFSの度数分布図から最も度数の大きい-0.75~-0.25dBの代表値となる-0.5dBをゲインとして出力する。
【0101】
(第4実施形態)
次に、第4実施形態に係る音響処理システムについて説明する。上述した音響処理装置1をN個用いることで、N個の対象音声オブジェクトを自動で調整することも可能である。例えば、対象音声オブジェクトの話者が複数人である場合には、複数人の話者同士の音声レベルについても調整することが可能である。音響処理装置1の代わりに、音響処理装置2又は音響処理装置3を用いてもよい。
【0102】
図23は、第4実施形態に係る音響処理システム10の構成例を示すブロック図である。図23に示す音響処理システム10は、直列に接続された2つの音響処理装置1_1,1_2と、合算部31と、を備える。音響処理システム10は、対象音声オブジェクトの話者が話者A,Bの2人の場合を想定している。
【0103】
音響処理装置1_1は、話者Bの対象音声オブジェクトの音声レベルを、話者Aの対象音声オブジェクトに合わせこむ。ここで、音声コンテンツにおいて話者が複数人で構成される場合、同時に発話する頻度が多くないことも予想されるため、ゲイン算出部13を第3実施形態のゲイン算出部13bとしてもよい。
【0104】
合算部31は、話者Aの対象音声オブジェクトと、音響処理装置1_1によって調整を加えた話者Bの対象音声オブジェクトとを加算し、音響処理装置1_2に出力する。
【0105】
音響処理装置1_2は、合算部31から入力した話者A,Bの対象音声オブジェクト全体の音声レベルを、参照音声オブジェクトに合わせこんで、調整済みの話者A,Bの対象音声オブジェクトを外部に出力する。
【0106】
対象音声オブジェクトが3以上の場合も同様である。例えば話者が話者A,B,Cの3人である場合には、3つの音響処理装置1_1,1_2,1_3を直列に接続する。そして、音響処理装置1_2は、話者A,Bの対象音声オブジェクト全体の音声レベルを、話者Cの対象音声オブジェクトに合わせこむ。音響処理装置1_3は話者A,B,Cの対象音声オブジェクト全体の音声レベルを、参照音声オブジェクトに合わせこむ。すなわち、N個の対象音声オブジェクトを自動で調整する場合には、N個の音響処理装置1_1~1_Nを直列に接続する。ここで、2≦k≦N-1とすると、k番目の音響処理装置1_kは、第1から第kの対象音声オブジェクトを加算した音声レベルを、第(k+1)の対象音声オブジェクトに近づけるように調整し、N番目の音響処理装置1_Nは、第1から第(N-1)の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整する。
【0107】
(第5実施形態)
次に、第5実施形態に係る音響処理システムについて説明する。図24は、第5実施形態に係る音響処理システム20の構成例を示すブロック図である。図24に示す音響処理システム20は、並列に接続された2つの音響処理装置1_1,1_2と、合算部32と、を備える。音響処理システム20は、対象音声オブジェクトの話者が話者A,Bの2人の場合を想定している。
【0108】
音響処理装置1_1は、話者Aの対象音声オブジェクトの音声レベルを、参照対象音声オブジェクトに合わせこむ。
【0109】
音響処理装置1_2は、話者Bの対象音声オブジェクトの音声レベルを、参照対象音声オブジェクトに合わせこむ。
【0110】
合算部32は、音響処理装置1_1により調整された話者Aの対象音声オブジェクトと、音響処理装置1_2により調整された話者の対象音声オブジェクトとを加算して、調整済みの話者A,Bの対象音声オブジェクトを外部に出力する。合算部32は、話者A,Bの対象音声オブジェクトを加算することで音声レベルが大きくなることを想定し、アッテネーションを加えてもよい。
【0111】
対象音声オブジェクトが3以上の場合も同様である。N個の対象音声オブジェクトを自動で調整する場合には、N個の音響処理装置1_1~1_Nを並列に接続する。各音響処理装置1_1~1_Nは、各音響処理装置1_1~1_Nに入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整する。すなわち、1≦k≦Nとするとk番目の音響処理装置1_kは、第kの対象音声オブジェクトを参照音声オブジェクトに近づけるように調整する。
【0112】
(プログラム)
なお、上述した音響処理装置1,2,3として機能させるためにプログラム命令を実行可能なコンピュータを用いることも可能である。コンピュータは、音響処理装置1,2,3の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのプロセッサによってこのプログラムを読み出して実行する。これらの処理内容の一部はハードウェアで実現されてもよい。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などであってもよい。
【0113】
また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。
【0114】
番組音声のような変動する音の大きさについて、下記の参考文献3にはVU(Volume Unit)値が時間率20%を超える値がラウドネスに比較的よく対応することが示されており、ラウドネスはある時間幅における変動音のうち、大きな音にのみ依存している。よって、無音区間(非発話時間)の測定値は基本的に不必要であると同時に、不適切な調整の原因ともなり得る。例えば、話者が一言だけ叫んだり呟いたりした後に黙るなど、短時間かつ極端な音声レベルの発話区間と無音区間が連続するような特殊な状況下においては、一時的にゲインを過小に調整し得るなどの不都合が生じる可能性がある。
参考文献3:柴田光之、「番組音の平均の音の大きさとVU計による音量レベル」、NHK技術研究、vol.22、 pp.433-439(1970)
【0115】
この点、上述したように本発明に係る音響処理装置1,2,3、及びそのプログラムでは、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を抽出し、該ラウドネス値のうち所定の時間率のラウドネス値の平均値を客観指標として算出する。すなわち、本発明では、無音区間(非発話時間)を測定時間に含めないことにした。したがって、本発明によれば、テレビ番組をはじめとする映像音声コンテンツの副音声制作などにおいて、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能となる。
【0116】
また、本発明によれば、映像音声コンテンツにおいて副音声などの複数パターンの音声を制作する際に、生放送であっても制作に必要なミクシングエンジニアの数を増やさずに、主音声などのエンジニアが調整したダイアログと同程度の音の大きさに調整された別パターンのダイアログ信号を生成可能となる。また、同時に制作する音声のバリエーションが今後増えた場合であっても、追加されたパターンの数に応じて本発明を適用することで、同様の効果が期待できる。
【0117】
また、音声コンテンツにおいて、その差が数dB程度の範囲に収まるのであれば、一般的に音声オブジェクトが一時的に小さくなりすぎる方が、背景音などにマスクされて視聴者が受け取る情報量が少なくなる可能性があるため、一時的に大きすぎるよりも視聴者に与える影響は大きくなると考えられる。よって、フェーダを下げる調整を行う際には重み付けの値を変えることにより、対象音声オブジェクトが小さく自動調節された場合に、背景音などにマスクされて聞き取りにくくなるリスクを低減することができる。
【0118】
また、音声コンテンツを一定以上の品質で制作する際には、主要な話者一人ひとりに専用のマイクが設置されることが一般的であるため、オブジェクト音響方式やチャンネルベース音響方式のみならず、今後新しく設けられる音響方式でも、話者の音声信号を単体で扱うことができる限り、本発明を適用可能であることは、当業者には明らかである。
【0119】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、又は1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0120】
1,2,3 音響処理装置
10,20 音響処理システム
31,32 合算部
11,11a 第1客観指標測定部
12,12a 第2客観指標測定部
13,13a,13b ゲイン算出部
14 レベル調整部
110 ラウドネス値測定部
111 プリフィルタ
112 二乗平均部
113 重み付け部
114 合算部
115 デシベルスケール変換部
116 スキップゲート部
117 時間率上位平均値算出部
118 除去ゲート部
131 差分算出部
132 重み付け部
133 第1差分算出部
134 第1重み付け部
135 第2差分算出部
136 第2重み付け部
137 合算部
138 ゲイン記憶部
139 切替部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24