特許7565727 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7565727音響処理装置、音響処理システム、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-03

(45)【発行日】2024-10-11

(54)【発明の名称】音響処理装置、音響処理システム、及びプログラム

(51)【国際特許分類】

G10L 21/0316 20130101AFI20241004BHJP

【ＦＩ】

G10L21/0316 100

【請求項の数】 11

(21)【出願番号】P 2020148558

(22)【出願日】2020-09-03

(65)【公開番号】P2022042892

(43)【公開日】2022-03-15

【審査請求日】2023-08-03

【新規性喪失の例外の表示】特許法第３０条第２項適用久保弘樹及び大出訓史が、２０２０年２月２４日付で、電子情報通信学会技術研究報告において、出願に係る発明の内容を公開。

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100161148

【弁理士】

【氏名又は名称】福尾誠

(72)【発明者】

【氏名】久保弘樹

(72)【発明者】

【氏名】大出訓史

(72)【発明者】

【氏名】西口敏行

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０１７－０９２８１８（ＪＰ，Ａ）

【文献】特開２００１－１９５０７９（ＪＰ，Ａ）

【文献】特開２０１６－２０８４０５（ＪＰ，Ａ）

【文献】入交英雄他，"平均ラウドネス値を用いた、放送音声の運用について（番組の平均ラウドネス値とその主観的なラウドネスとの関係）"，日本音響学会2013年秋季研究発表会講演論文集CD-ROM，2013年09月17日，pp.1485-1488

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０，１９／００－１９／２６，

２１／００－２５／９３

Ｈ０４Ｒ３／００

Ｈ０４Ｎ２１／００－２１／８５８

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

基準となる参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整する音響処理装置であって、
前記参照音声オブジェクト及び前記対象音声オブジェクトは、リアルタイムで同時に入力され、
前記参照音声オブジェクトのラウドネス値に基づいた客観指標である参照客観指標、及び前記対象音声オブジェクトのラウドネス値に基づいた客観指標である対象客観指標を測定する客観指標測定部と、
前記対象客観指標を前記参照客観指標に近づけるように、前記対象音声オブジェクトのゲインを決定するゲイン算出部と、
前記ゲインに基づき対象音声オブジェクトの音声レベルを調整するレベル調整部と、
を備え、
前記客観指標測定部は、
ラウドネス値を測定するラウドネス値測定部と、
前記ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を出力するスキップゲート部と、
前記測定時間のラウドネス値のうち所定の時間率のラウドネス値の平均値を前記客観指標として算出する時間率上位平均値算出部と、を備える音響処理装置。

【請求項2】

前記測定時間は、１．０秒以上且つ３．０秒未満である、請求項１に記載の音響処理装置。

【請求項3】

前記測定時間は、１．６秒以上且つ２．０秒以下である、請求項２に記載の音響処理装置。

【請求項4】

前記時間率は、２５％以下である、請求項１から３のいずれか一項に記載の音響処理装置。

【請求項5】

前記ゲイン算出部は、前記参照客観指標及び前記対象客観指標の差分である客観指標差分に重み付けを与えることで前記ゲインを決定する、
請求項１から４のいずれか一項に記載の音響処理装置。

【請求項6】

前記客観指標測定部は、除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する除去ゲート部を更に備え、
前記ゲイン算出部は、前記参照音声オブジェクト及び前記対象音声オブジェクトの平均ラウドネス値の差分と、前記参照客観指標及び前記対象客観指標の差分とを、重み付け加算することで前記ゲインを決定する、
請求項１から４のいずれか一項に記載の音響処理装置。

【請求項7】

前記ゲイン算出部は、前記対象客観指標を下げるときの下降率のほうが、前記対象客観指標を上げるときの上昇率よりも小さくなるように、又は前記対象客観指標を下げるときの前記参照客観指標に近づく時間のほうが、前記対象客観指標を上げるときの前記参照客観指標に近づく時間よりも長くなるように前記ゲインを算出する、請求項１から６のいずれか一項に記載の音響処理装置。

【請求項8】

前記ゲイン算出部は、過去に算出したゲインを記憶しておき、前記参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、前記対象客観指標に対して出現頻度の高いゲインの値を前記対象音声オブジェクトのゲインに決定する、請求項１から７のいずれか一項に記載の音響処理装置。

【請求項9】

請求項１から８のいずれか一項に記載の音響処理装置をＮ個備え、Ｎ個の対象音声オブジェクトを自動で調整する音響処理システムであって、
Ｎ個の音響処理装置は、直列に接続され、
ｋ（２≦ｋ≦Ｎ－１）番目の音響処理装置は、第１から第ｋの対象音声オブジェクトを加算した音声レベルを、第（ｋ＋１）の対象音声オブジェクトに近づけるように調整し、
Ｎ番目の音響処理装置は、第１から第（Ｎ－１）の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整する、音響処理システム。

【請求項10】

請求項１から８のいずれか一項に記載の音響処理装置をＮ個備え、Ｎ個の対象音声オブジェクトを自動で調整する音響処理システムであって、
Ｎ個の音響処理装置は、並列に接続され、
各音響処理装置は、各音響処理装置に入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整する、音響処理システム。

【請求項11】

コンピュータを、請求項１から８のいずれか一項に記載の音響処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響処理装置、音響処理システム、及びプログラムに関する。

【背景技術】

【0002】

近年、テレビ番組や映画といった映像音声コンテンツにおいて、社会の国際化やインターネットの普及が進み、諸外国で制作されたコンテンツの視聴が一般化したことによる多国語対応や、障がい者支援のための解説音声といった副音声を求める声がますます高まっている。その需要にこたえることを一つの目的として、欧米やアジア諸国においては様々な副音声を容易かつ効率的に実現できるオブジェクトベース音響による音声サービスを次世代放送に用いようとする動きがある。特に、ＡＴＳＣ（Advanced Television Systems Committee）３．０を採用しているアメリカや韓国では、音声符号化方式にＡＣ－４又はＭＰＥＧ－Ｈ３ＤＡを用いて、既に放送システムへの導入を始めている。

【0003】

様々なパターンの音声コンテンツが必要になるに伴い、エンジニアが行うミクシングの一部を自動化し、サポートを行う技術が発表されている。現在、自動ミックスと呼ばれる技術はオフライン処理を行うものとオンライン処理を行うものとに大別される。前者は近年の機械学習技術の隆盛もあり数多くの製品が発売されているが、後者は導入先が音声卓などの業務用の機器が多いこともあり、まだ製品の数が少なかったり適応可能な状況が限定的だったりと、市場に十分に普及したとは言えない状況にある。オンライン処理の内容としては、複数人での会話などのリアルタイムミクシングを想定し、発話している話者が割り当たっているフェーダのゲインをクロスフェードさせながらＯＦＦ／ＯＮするといった技術が主流である（例えば、非特許文献１参照）。

【0004】

また、視聴者がチャンネル間や番組間のラウドネスの極端な変化によって番組視聴を妨げられないよう、番組音声のラウドネスを推定して一定の範囲内に収めるために、人の聴感特性を考慮した客観指標であるラウドネス値の測定法がＩＴＵ－Ｒ（International Telecommunication Union-Radiocommunication Sector：国際電気通信連合無線通信部門）で規定されている（例えば、非特許文献２及び３参照）。日本でもＩＴＵ－Ｒ勧告に基づいたラウドネス運用規定がＡＲＩＢで策定されており、放送現場では実際にラウドネス値に基づいた番組音声の管理が行われている（例えば、非特許文献４参照）。標準化されているラウドネス値には下記の表１に示す３種類があるが、基本的な測定法は同じである。測定の最小単位となる音声ブロックごとの値はモーメンタリラウドネス値と定義され、ショートタームラウドネス値、平均ラウドネス値は、ゲート処理などの違いはあるものの基本的にはそれぞれの時間幅における各ブロックの測定値の平均値として算出される。

【0005】

【表1】

【先行技術文献】

【非特許文献】

【0006】

【文献】https://www.solid-state-logic.co.jp/broadcastsound/dialogue-automix/

【文献】ITU-R、 Rec. ITU-R BS.1770-4、”Algorithms to measure audio programme loudness and true-peak audio level”、2015

【文献】ITU-R、Rec. ITU-R BS.1771-1、“Requirements for loudness and true-peak indicating meters”、2012

【文献】ARIB、ARIB TR-B32、「デジタルテレビ放送番組におけるラウドネス運用規定」、2016

【発明の概要】

【発明が解決しようとする課題】

【0007】

一般に、生放送で主音声と副音声を一人のエンジニアが同時に一定以上の品質で制作することは困難である。オブジェクトベース音響などの次世代の音声サービスでは、一つの番組で、現状の２種類（主音声／副音声）を超える数の副音声のバリエーションを提供することが想定されているが、その数に応じて必要なミクシングエンジニアの要員が増加することが課題となる。非特許文献１に記載されたようにオンライン処理でミクシングの一部を自動化する技術はいまだ数が少なく、またあくまでエンジニアをサポートする技術であるため、多くの状況ではミクシングエンジニアの要員を減らすまでに至らない。

【0008】

副音声を提供する場合、最もシンプルな方法は、主音声と副音声で背景音を共通とし、ダイアログだけを差し替えることである。スポーツ中継などのコンテンツでは、同じ番組の中でも試合の盛り上がりなどのシーンに応じてダイナミックなミクシングを行う場合があり、差し替える副音声のダイアログの音声レベルも適切に調整し続ける必要がある。よって、副音声のダイアログレベルの調整を自動化できれば、必要なミクシングエンジニアを増やさずに副音声サービスの実施が可能となる。

【0009】

一般に背景音とダイアログの相対レベルは番組、又はシーンによって異なり、背景音とダイアログの相対レベルに関する定型的な関係性を導くことは難しい。一方、主音声など、コンテンツに対して少なくとも一種類の音声においては、コンテンツの品質管理の観点から従来通りミクシングエンジニアが制作を担当し、背景音とダイアログが常に最適な関係となるように調整し続けていることが想定される。よって、調整済みの主音声のダイアログ（参照ダイアログ）の音声レベルの情報を利用し、副音声のダイアログ（対象ダイアログ）の音声レベルがこれとおおむね同じとなるように調整し続ければ、対象ダイアログと背景音の関係を、参照ダイアログと背景音の関係に合わせこむことになると考えられる。

【0010】

上記のように調整対象となる対象ダイアログを自動で調整するためには、基準となる参照ダイアログと対象ダイアログ両方の音声レベルに関する客観指標が必要となる。既存の客観指標としては、非特許文献２乃至４に記載のラウドネス値が考えられる。しかし、上記表１の３種類のラウドネス値をそのまま自動レベル調整に用いると、モーメンタリラウドネス値のように測定時間幅が短いラウドネス値は、値が急峻に変化し、安定したレベル調整は困難である。反対に、平均ラウドネス値のように測定時間幅が長いラウドネス値は、その測定時間幅に含まれる多数の音声ブロックごとの値の平均値から算出されるために、音声レベルの変化に対するラウドネス値への反映に遅延が生じる。測定時間幅によっては，その遅延は秒単位の長さとなるため生放送などリアルタイムでの調整が求められる状況下での指標としてふさわしくない。

【0011】

また、ショートタームラウドネス値のような中間的な長さの測定時間幅では、算出される値の安定性や遅延の面では比較的優れているが、その時間幅（３秒）が自動調整の客観指標においても妥当な長さであるかは明らかではない。さらに、発話の開始・終了が関係する、即ち測定時間内に無音区間が含まれる時には、参照ダイアログと対象ダイアログのレベルの差が急に大きくなり、調整値が過大又は過小となるなどの不適切な調整が行われ得る。

【0012】

かかる事情を鑑みてなされた本発明の目的は、テレビ番組をはじめとする映像音声コンテンツの副音声制作などにおいて、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能な音響処理装置、音響処理システム、及びプログラムを提供することにある。

【課題を解決するための手段】

【0013】

上記課題を解決するため、本発明に係る音響処理装置は、基準となる参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整する音響処理装置であって、前記参照音声オブジェクト及び前記対象音声オブジェクトは、リアルタイムで同時に入力され、前記参照音声オブジェクトのラウドネス値に基づいた客観指標である参照客観指標、及び前記対象音声オブジェクトのラウドネス値に基づいた客観指標である対象客観指標を測定する客観指標測定部と、前記対象客観指標を前記参照客観指標に近づけるように、前記対象音声オブジェクトのゲインを決定するゲイン算出部と、前記ゲインに基づき対象音声オブジェクトの音声レベルを調整するレベル調整部と、を備え、前記客観指標測定部は、ラウドネス値を測定するラウドネス値測定部と、前記ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を出力するスキップゲート部と、前記測定時間のラウドネス値のうち所定の時間率のラウドネス値の平均値を前記客観指標として算出する時間率上位平均値算出部と、を備えることを特徴とする。

【0014】

さらに、本発明に係る音響処理装置において、前記測定時間は、１．０秒以上且つ３．０秒未満であってもよい。

【0015】

さらに、本発明に係る音響処理装置において、前記測定時間は、１．６秒以上且つ２．０秒以下であってもよい。

【0016】

さらに、本発明に係る音響処理装置において、前記時間率は、２５％以下であってもよい。

【0017】

さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、前記参照客観指標及び前記対象客観指標の差分である客観指標差分に重み付けを与えることで前記ゲインを決定してもよい。

【0018】

さらに、本発明に係る音響処理装置において、前記客観指標測定部は、除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する除去ゲート部を更に備え、前記ゲイン算出部は、前記参照音声オブジェクト及び前記対象音声オブジェクトの平均ラウドネス値の差分と、前記参照客観指標及び前記対象客観指標の差分とを、重み付け加算することで前記ゲインを決定してもよい。

【0019】

さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、前記対象客観指標を下げるときの下降率のほうが、前記対象客観指標を上げるときの上昇率よりも小さくなるように、又は前記対象客観指標を下げるときの前記参照客観指標に近づく時間のほうが、前記対象客観指標を上げるときの前記参照客観指標に近づく時間よりも長くなるように前記ゲインを算出してもよい。

【0020】

さらに、本発明に係る音響処理装置において、前記ゲイン算出部は、過去に算出したゲインを記憶しておき、前記参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、前記対象客観指標に対して出現頻度の高いゲインの値を前記対象音声オブジェクトのゲインに決定してもよい。

【0021】

また、上記課題を解決するため、本発明に係る音響処理システムは、上記音響処理装置をＮ個備え、Ｎ個の対象音声オブジェクトを自動で調整する音響処理システムであって、Ｎ個の音響処理装置は、直列に接続され、ｋ（２≦ｋ≦Ｎ－１）番目の音響処理装置は、第１から第ｋの対象音声オブジェクトを加算した音声レベルを、第（ｋ＋１）の対象音声オブジェクトに近づけるように調整し、Ｎ番目の音響処理装置は、第１から第（Ｎ－１）の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整することを特徴とする。

【0022】

また、上記課題を解決するため、本発明に係る音響処理システムは、上記音響処理装置をＮ個備え、Ｎ個の対象音声オブジェクトを自動で調整する音響処理システムであって、Ｎ個の音響処理装置は、並列に接続され、各音響処理装置は、各音響処理装置に入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整することを特徴とする。

【0023】

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響処理装置として機能させることを特徴とする。

【発明の効果】

【0024】

本発明によれば、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能となる。

【図面の簡単な説明】

【0025】

【図1】第１実施形態に係る音響処理装置の構成例を示すブロック図である。

【図2】第１実施形態に係る音響処理装置の処理手順例を示すフローチャートである。

【図3】第１実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。

【図4】第１実施形態に係る音響処理装置におけるスキップゲート部の処理を説明する図である。

【図5】第１実施形態に係る音響処理装置における時間率上位平均値算出部の処理を説明する図である。

【図6】第１実施形態に係る音響処理装置における客観指標測定部の処理手順例を示すフローチャートである。

【図7】第１実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。

【図8】第１実施形態に係る音響処理装置におけるゲイン算出部の処理手順例を示すフローチャートである。

【図9】第１実施形態に係る音響処理装置において測定時間又は時間率を変化させた場合のゲインの変化を示す図である。

【図10】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインの相関関係を示す図である。

【図11】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す図である。

【図12】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第１の図である。

【図13】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第２の図である。

【図14】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第３の図である。

【図15】第１実施形態に係る音響処理装置が決定するゲインとエンジニアが設定するゲインとを示す第４の図である。

【図16】第２実施形態に係る音響処理装置の構成例を示すブロック図である。

【図17】第２実施形態に係る音響処理装置における客観指標測定部の構成例を示すブロック図である。

【図18】第２実施形態に係る音響処理装置における除去ゲートとスキップゲートの違いを説明する図である。

【図19】第２実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。

【図20】第３実施形態に係る音響処理装置の構成例を示すブロック図である。

【図21】第３実施形態に係る音響処理装置におけるゲイン算出部の構成例を示すブロック図である。

【図22】第３実施形態に係る音響処理装置におけるゲイン記憶部が記憶する度数分布の一例を示すグラフである。

【図23】第４実施形態に係る音響処理システムの構成例を示すブロック図である。

【図24】第５実施形態に係る音響処理システムの構成例を示すブロック図である。

【発明を実施するための形態】

【0026】

以下、図面を参照しながら本発明の実施形態について詳細に説明する。

【0027】

本発明に係る音響処理装置は、テレビ番組をはじめとする映像音声コンテンツ制作において、基準となる調整済みの参照音声の音声オブジェクトである参照音声オブジェクトに基づいて、調整対象となる対象音声の音声オブジェクトである対象音声オブジェクトを自動で調整し、調整した対象音声オブジェクトを調整済み対象音声オブジェクトとして外部に出力する。音声オブジェクトとは、ダイアログ、音楽、効果音などであり、専用のマイクを立てたり専用の再生機を置いたりして何かしら単体の音源として扱えるものであればよい。以下に説明する実施形態では、音声オブジェクトをダイアログとする。

【0028】

（第１実施形態）
図１は、本発明の第1実施形態に係る音響処理装置１の構成例を示すブロック図である。音響処理装置１は、リアルタイムで入力される参照音声オブジェクトと対象音声オブジェクトを一定長の音声ブロックに区切り、そのブロックごとに客観指標を測定し、その差分をもとに調整に必要なゲインを算出する。算出されたゲインを入力された対象音声オブジェクトに適応することで調整を行う。なおここで、ゲインを適応する音声ブロックは、測定した音声ブロックの次のブロックとすることで、理論上の遅延を純粋な計算時間のみとすることができるため、生放送のようなリアルタイムの調整においても、影響を大きく抑えることが可能となる。

【0029】

図１に示す音響処理装置１は、第１客観指標測定部１１と、第２客観指標測定部１２と、ゲイン算出部１３と、レベル調整部１４と、を備える。

【0030】

第１客観指標測定部１１は、音響処理装置１の外部からリアルタイムで入力した参照音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標（参照客観指標）を測定する。そして、第１客観指標測定部１１は、測定した参照客観指標をゲイン算出部１３に出力する。

【0031】

第２客観指標測定部１２は、音響処理装置１の外部からリアルタイムで入力した対象音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標（対象客観指標）を測定する。そして、第２客観指標測定部１２は、測定した対象客観指標をゲイン算出部１３に出力する。

【0032】

ゲイン算出部１３は、第２客観指標測定部１２から入力した対象客観指標を、第１客観指標測定部１１から入力した参照客観指標に近づけるように、対象音声オブジェクトのゲインを決定する。そして、ゲイン算出部１３は、決定したゲインをレベル調整部１４に出力する。

【0033】

レベル調整部１４は、ゲイン算出部１３から入力したゲインを、音響処理装置１の外部から入力した対象音声オブジェクトに適応することで音声レベルを調整し、調整された対象音声オブジェクトを調整済み音声オブジェクトとして外部に出力する。

【0034】

図２は、音響処理装置１において、対象音声オブジェクトの音声レベルを調整する手順例を示すフローチャートである。ステップＳ１１において、第１客観指標測定部１１により、参照客観指標を測定し、第２客観指標測定部１２により対象客観指標を測定する。ステップＳ１２において、ゲイン算出部１３により、参照客観指標及び対象客観指標からゲインを算出する。ステップＳ１３において、レベル調整部１４により、対象音声オブジェクトの音声ブロックに前のブロックで算出されたゲインを反映する。ステップＳ１４において、音響処理装置１は、調整終了指示の有無を確認し、調整終了指示を受け取るまでの間、音声ブロックごとに、ステップＳ１１からステップＳ１３までの処理を繰り返す。

【0035】

図３は、第１客観指標測定部１１及び第２客観指標測定部１２の構成例を示すブロック図である。第１客観指標測定部１１及び第２客観指標測定部１２の構成は同一であるため、両者を区別しない場合には、客観指標測定部１１，１２と称する。客観指標測定部１１，１２は、参照音声オブジェクト及び対象音声オブジェクトの、ラウドネス値に基づいた客観指標を測定する。図３に示す客観指標測定部１１，１２は、ラウドネス値測定部１１０と、スキップゲート部１１６と、時間率上位平均値算出部１１７と、を備える。

【0036】

ラウドネス値測定部１１０は、プリフィルタ１１１と、二乗平均部１１２と、重み付け部１１３と、合算部（Σ）１１４と、デシベルスケール変換部（Ｌｏｇ）１１５と、を備える。

【0037】

ラウドネス値測定部１１０は、本実施形態においては、標準化されたアルゴリズムを用いてラウドネス値を測定する。詳細については、標準化団体が定める規格書である非特許文献２乃至４を参照されたい。

【0038】

プリフィルタ１１１は、入力された参照音声オブジェクト又は対象音声オブジェクトの各チャンネルについて、音声ブロックごとに、例えばＫ特性フィルタ称される２段階のプリフィルタを適用して、プリフィルタ処理を行い、二乗平均部１１２に出力する。

【0039】

二乗平均部１１２は、プリフィルタ１１１から入力した信号に対して、二乗平均処理を行い、重み付け部１１３に出力する。

【0040】

重み付け部１１３は、二乗平均部１１２から入力した信号に対して、チャンネルごとに音声信号の方向に応じた重み係数を乗じ、合算部１１４に出力する。

【0041】

合算部１１４は、ＬＦＥを除いたチャンネルの重み付け後の二乗平均値を合算し、デシベルスケール変換部１１５に出力する。

【0042】

デシベルスケール変換部１１５は、合算部１１４から入力した信号、をデシベルスケールに変換し、音声ブロックごとのラウドネス値を求め、スキップゲート部１１６に出力する。

【0043】

スキップゲート部１１６は、ラウドネス値測定部１１０から音声ブロックごとにラウドネス値を入力し、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなす。一方、スキップゲート部１１６は、ラウドネス値がスキップゲート閾値以下となる時間を非発話時間とみなしてスキップする。そして、スキップゲート部１１６は、現在時刻（当該時間）の直前の発話時間のうち、固定長の測定時間のラウドネス値を時間率上位平均値算出部１１７に出力する。

【0044】

図４は、スキップゲート部１１６の処理を説明する図である。図４に示すグラフの横軸は時間であり、縦軸は音声ブロックごとのラウドネス値である。スキップゲート部１１６は、図４（ａ）に示すように、現在時刻（当該時間）ｔの直前ｔ_ｐｖ秒間の発話時間を測定時間ｔ_ｐｖとする。測定時間ｔ_ｐｖは固定長である。スキップゲート部１１６は、現在時刻ｔの直前ｔ_ｐｖ秒間に発話していない非発話時間（すなわち、ラウドネス値がスキップゲート閾値以下となる時間）がある場合には、非発話時間をスキップし、図４（ｂ）に示すように、代わりにその前に発話していた時間を測定時間に含め、測定時間幅がｔ_ｐｖとなるように調整する。つまり、図４（ｂ）において、ｔ_ｐｖ＝ｔ_ｐｖ１＋ｔ_ｐｖ２である。

【0045】

また、スキップゲート部１１６は、無音区間の判定に用いるスキップゲート閾値を固定値ではなく、当該時間までの平均ラウドネス値を反映した値を用いてもよい。これにより、マイクにその場の環境音など話者の声以外の意図しない音声も入力される、いわゆる「かぶり」の存在による無音区間の誤判定を避けることもできる。加えて、話者によって入力される音声レベルが異なることによる影響を小さくすることができる。

【0046】

図５は、時間率上位平均値算出部１１７の処理を説明する図である。図５に示すグラフの横軸は時間であり、縦軸はラウドネス値である。時間率上位平均値算出部１１７は、測定時間ｔ_ｐｖに含まれるラウドネス値のうち、時間率で上位（ｒ_ｐｖ［％］）にあたるラウドネス値（すなわち、所定の時間率のラウドネス値）の平均値を客観指標として算出する。時間率とは、ある時間長のうちある音声レベルを超える時間長の割合をいい、本発明においては、測定時間幅のうち、ラウドネス値がゲーティング閾値を超える時間の割合をいう。図５（ａ）に示す例では、時間率［％］＝（ｔ_ｏ１＋ｔ_ｏ２＋ｔ_ｏ３）×１００／ｔ_ｐｖとなる。図５（ｂ）に示すように、ゲーティング閾値を変更することにより、時間率は変化する。そして、時間率上位平均値算出部１１７は、参照音声オブジェクトの客観指標を参照客観指標としてゲイン算出部１３に出力し、対象音声オブジェクトの客観指標を対象客観指標としてゲイン算出部１３に出力する。

【0047】

図６は、客観指標測定部１１，１２により客観指標を測定する手順例を示すフローチャートである。ステップＳ１１１において、プリフィルタ１１１により、参照音声オブジェクト又は対象音声オブジェクトに対して、プリフィルタ処理を行う。ステップＳ１１２において、二乗平均部１１２により、二乗平均処理を行う。ステップＳ１１３において、重み付け部１１３により、重み付け処理を行う。ステップＳ１１４において、合算部１１４により、合算処理を行う。ステップＳ１１５において、デシベルスケール変換部１１５により、デシベルスケール変換処理を行う。客観指標測定部１１，１２は、ステップＳ１１１からステップＳ１１５の処理により、ラウドネス値を算出する。

【0048】

続いて、ステップＳ１１６において、スキップゲート部１１６により、ラウドネス値に対してスキップゲート処理を行う。ステップＳ１１７において、時間率上位平均値算出部１１７により、時間率上位となるラウドネス値の平均値を客観指標として算出する。これにより、客観指標測定部１１，１２は、ラウドネス値の測定アルゴリズムをベースとした値の安定性と応答性が両立する客観指標を測定することができる。

【0049】

図７は、ゲイン算出部１３の構成例を示すブロック図である。図７に示すゲイン算出部１３は、差分算出部１３１と、重み付け部１３２と、を備える。

【0050】

差分算出部１３１は、参照客観指標及び対象客観指標の差分である客観指標差分Ｌ_ｄｉｆｆを算出する。そして、差分算出部１３１は、算出した客観指標差分Ｌ_ｄｉｆｆを重み付け部１３２に出力する。

【0051】

重み付け部１３２は、差分算出部１３１から入力した客観指標差分Ｌ_ｄｉｆｆに対して、重み付けを行い、ゲインＬ_ｗを算出する。そして、重み付け部１３２は、算出したゲインＬ_ｗをレベル調整部１４に出力する。

【0052】

図８は、ゲイン算出部１３によりゲインを算出する手順例を示すフローチャートである。ステップＳ１２１において、差分算出部１３１により、参照客観指標及び対象客観指標の差分である客観指標差分Ｌ_ｄｉｆｆを算出する。ステップＳ１２２において、重み付け部１３２により、客観指標差分Ｌ_ｄｉｆｆに対して、例えば式（１）により重み付けを行い、ゲインＬ_ｗを算出する。ここで、α及びβは重み付け係数である。

【0053】

【数1】

【0054】

客観指標差分Ｌ_ｄｉｆｆに定数βを加算すると、ゲインを全体的に大きく又は小さく平行にシフトすることになる。これを実際にミクシングエンジニアが音を聞きながら調整している状況に当てはめると、話者の声質や言語の違いなどが音の大きさの評価に対し全体的に与える影響に対応すると考えられる。また、重み付けを加える場合に、客観指標差分Ｌ_ｄｉｆｆに係数αをかけると、ゲインの波形の振幅を全体的に大きく又は小さく伸長させることになる。これを実際にミクシングエンジニアが調整している状況に当てはめると、耳で聞いた音の大きさに対して実際にゲインを動かす大きさに対応すると考えられる。一般的にミクシングエンジニアが調整を行う際には、音の大きさのみならず、発声の聞き取り易さや発話の文脈、文章中での位置なども含め総合的にフェーダの調節量を決めるため、適切な重み付けを加えれば、エンジニアによる調整に近づけることができる。

【0055】

＜ゲイン算出処理＞
次に、ゲイン算出処理の具体例について説明する。

【0056】

＜＜実施例１＞＞
式（１）によりゲインを決定する場合、ゲインｆは、以下の式で表される。

【0057】

【数2】

【0058】

客観指標の測定時間（ｔ_ｐｖ［秒］）及び時間率（ｒ_ｐｖ［％］）のパラメータを検討するため、エンジニアに音声オブジェクト（音声ダイアログ）のレベルを実際に調整させる実験を行った。ミクシングエンジニア１７名に対し、参照音声オブジェクト（基準音：実際の番組のように音声レベルを調整済み）と対象音声オブジェクト（評価音：音声レベル未調整）を同時に提示し、常に同じ大きさで聞こえるように、対象音声オブジェクトのフェーダを逐次調整させ、そのゲイン（調整値）を記録した。実験に用いた音源はスポーツ中継であり、１種類の参照ダイアログ（共通）に対し、ダイナミックな調整を必要とするような音声レベルの時間的変動の大きい２種類の対象音声オブジェクトを用いた。計３種類の音源の平均ラウドネス値は全て同じ値に調整した上で実験を行った。

【0059】

図９（ａ）は客観指標の２つのパラメータのうち、時間率ｒ_ｐｖを固定し測定時間ｔ_ｐｖを変化させた場合のゲインの変化を示しており、図９（ｂ）は測定時間ｔ_ｐｖを固定し時間率ｒ_ｐｖを変化させた場合のゲインの変化を示している。なお、この時点では客観指標そのもののパラメータを検討しているため、客観指標の重み付け係数α及びβは加えていない。測定時間ｔ_ｐｖを変化させた図９（ａ）ではピークの時間が秒単位でずれるほか、ピークの値も最大で２ｄＢ近く変化するのに対し、時間率ｒ_ｐｖを変化させた図９（ｂ）ではピークの時間のずれはコンマ数秒、ピークの値も０．５ｄＢ程度に収まっていることから、測定時間ｔ_ｐｖによる影響が大きく、主要なパラメータであることが見て取れた。また、時間率ｒ_ｐｖを変化させた場合、時間率ｒ_ｐｖが小さいときにはゲインの変動が荒く、時間率ｒ_ｐｖを大きくすると変動が滑らかになった。一方で、非特許文献２乃至４において標準化されているラウドネス値の測定アルゴリズムでは、音声信号を７５％オーバーラップさせながらフレームに区切っているため、時間率ｒ_ｐｖが２５％を超えると、無音区間も計算に含めることになる。無音区間を測定に含めることで不適切な調整が行われることを避けるため、時間率ｒ_ｐｖは、無音区間を測定に含まない範囲でゲインが最も滑らかとなる２５％が適当と考えられる。

【0060】

その上で客観指標のゲインをエンジニアが設定するゲインと比較したところ、ゲインの波形にある程度の類似性が見られた。そこで、図１０に示すように、エンジニアが設定するゲインと、測定時間ｔ_ｐｖを変化させたときの客観指標のゲインそれぞれの相関係数を求めた。その結果、測定時間ｔ_ｐｖ＝１．６～２．０秒で相関係数が最大値（０．３４又は０．３６）をとり、類似性が最も高くなった。

【0061】

図１１は、測定時間ｔ_ｐｖを２．０秒及び５．２秒としたときの、エンジニアが設定するゲインと、ゲイン算出部１３が決定するゲインとを示している。ここで、図１１に示すゲインは比較のため、それぞれの平均と標準偏差で正規化し、前後１０点で平滑化している。図１１の実線と一点鎖線を比較すると、ダイナミックな調整が行われる、即ち波形に大きな凹凸が現れる時間がおおむね一致しており、客観指標のパラメータとして測定時間ｔ_ｐｖ＝２．０秒が適当であると判断した。

【0062】

一般に、スピーチのような一定の調子で発話するような音源は、聴感上、ラウドネス値が一定に感じることもあるが、その場合でも瞬時的なラウドネス値は変動し続けている。言い替えれば、人間はある程度の時間幅の音を総合的に聴取して音の大きさを判断している。これと同様に、ダイナミックなミクシングを行わなければならないエンジニアも、瞬時的な音の大きさだけではなく、ある程度の時間幅の音をもってフェーダの操作を決定していると考えられるが、その判断は一般的なテレビ視聴者よりも素早く行われていると考えられる。

【0063】

ラウドネスを適切に判断可能な臨界継続時間は、下記の参考文献１，２に記されているように１．０秒である。測定時間ｔ_ｐｖが１．６秒以上且つ２．０秒未満の場合にエンジニアが設定するゲインとの相関が高くなるという実験結果は、臨界継続時間１．０秒よりも長く、かつ標準化されているショートタームラウドネス値の測定時間３．０秒よりも短い結果であり、パラメータとして妥当な範囲にあると考えられる。
参考文献１：S. Namba、 S. Kuwano and H. Fastl、 “Loudnessof non-steady state sounds”、 Jpn. Psychol. Res.、 vol50、 pp.154-166、2008
参考文献２：難波精一郎、“知っているようで知らないラウドネス”、日本音響学会誌、vol.73、 no.12、pp.765-773、2017

【0064】

客観指標のパラメータが定まったところで、重み付け係数α及びβの値を検討した。図１２は、α＝０．３，β＝－２．５ｄＢとしたときのゲインを、エンジニアが設定するゲインと共に示す図である。βの値を０．５ｄＢ単位、αの値を０．１単位で変化させたところ、α＝０．３～０．４程度、β＝－１．５～－２．５ｄＢ程度の時に、音響処理装置１が算出するゲインが、全時間の９５％の時間でエンジニアのゲイン±標準偏差の範囲に収まった。

【0065】

ゲイン算出部１３は、対象客観指標を下げるときの下降率のほうが、対象客観指標を上げるときの上昇率よりも小さくなるように、又は対象客観指標を下げるときの参照客観指標に近づく時間のほうが、対象客観指標を上げるときの参照客観指標に近づく時間よりも長くなるようにゲインを算出してもよい。この具体例を以下の実施例２～４で説明する。

【0066】

＜＜実施例２＞＞
ゲイン算出部１３は、対象音声オブジェクトを大きくする場合（客観指標差分Ｌ_ｄｉｆｆが正）の重み付けを、対象音声オブジェクトを小さくする場合（客観指標差分Ｌ_ｄｉｆｆが負）の重み付けよりも大きくしてもよい。例えば、ゲイン算出部１３は、式（３）によりゲインｆを算出してもよい。式（３）では、ゲインが正となり音声レベルを上げる調整を行う時には式（１）と同じ重み付け係数を用い、ゲインが負となり音声レベルを下げる調整を行う時にはβの値を半分にして下げ幅を小さくしている。

【0067】

【数3】

【0068】

図１３は、式（３）により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。実施例２では、実施例１よりもエンジニアのゲインから若干はずれて調整されるが、自動調整によって対象音声オブジェクトが小さく調節された場合に、背景音などにマスクされて聞き取りにくくなるリスクを抑える効果が期待できる。

【0069】

＜＜実施例３＞＞
ゲイン算出部１３は、測定時間及び時間率のパラメータ、並びに重み付け係数を実施例１と同じ値とし、ゲインの傾きが正から負となる、すなわちフェーダを当該時点の値から下げる調整を始めてからは、その傾きを半分とする調整を行ってもよい。例えば、ゲイン算出部１３は、式（４）によりゲインｆ（ｎ）を算出してもよい。ここで、ｎはｎ番目の音声ブロックを意味する。この例では、Ｌ_ｗ（重み付けを加えた測定値の差分）が下げ幅を半分に抑えたゲインを上回る、すなわちゲインを大きく上昇させる必要が生じてからは再び、Ｌ_ｗをそのままゲインとする。

【0070】

【数4】

【0071】

図１４は、式（４）により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。実施例３では、実施例２よりもさらに自動調整によって対象音声オブジェクトが聞き取りにくくなるリスクを抑える効果が期待できる。一方で、フェーダの下げ幅が小さくなりすぎ、逆に対象音声オブジェクトがしばしば大きすぎるように聞こえてしまう可能性は実施例２よりも増加すると考えられる。

【0072】

＜＜実施例４＞＞
ゲイン算出部１３は、測定時間及び時間率のパラメータ、並びに重み付け係数を実施例１と同じ値とし、ゲインを下げる場合には、目標値に向かい時間をかけて徐々に漸近していくようにしてもよい。例えば、ゲイン算出部１３は、式（５）によりゲインｆ（ｎ）を算出してもよい。ここで、ｎはｎ番目の音声ブロックを意味する。εはゲインをＬ_ｗ（重み付けを加えた測定値の差分）に漸近させていく際の重み付け係数であり、値が大きいほど時間をかけずに漸近する。この例では、Ｌ_ｗが時間をかけて漸近しているゲインを上回る、すなわちゲインを大きく上昇させる必要が生じてからは再び、Ｌ_ｗをそのままゲインとする。

【0073】

【数5】

【0074】

図１５は、式（５）により算出されるゲインを、エンジニアが設定するゲインと共に示す図である。ここで、約５秒かけて目標値の８０％に漸近するようにε＝１／３０とした。実施例４では、ゲインが徐々にＬ_ｗに近づくため、短時間で対象音声オブジェクトを過小に調整する、又は対象音声オブジェクトを大きすぎるままになることを避ける効果が期待できる。ただし、参照音声オブジェクトが長時間にわたって発話しないような場合には対応しきれない可能性もある。

【0075】

（第２実施形態）
次に、第２実施形態に係る音響処理装置について説明する。図１６は、第２実施形態に係る音響処理装置２の構成例を示すブロック図である。図１６に示す音響処理装置２は、第１客観指標測定部１１ａと、第２客観指標測定部１２ａと、ゲイン算出部１３ａと、レベル調整部１４と、を備える。

【0076】

第１客観指標測定部１１ａは、音響処理装置２の外部からリアルタイムで入力した参照音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標（参照客観指標）を測定する。また、第１客観指標測定部１１ａは、参照音声オブジェクトの平均ラウドネス値（参照平均ラウドネス値）を測定する。そして、第１客観指標測定部１１ａは、測定した参照客観指標及び参照平均ラウドネス値をゲイン算出部１３ａに出力する。

【0077】

第２客観指標測定部１２ａは、音響処理装置２の外部からリアルタイムで入力した対象音声オブジェクトを一定長の音声ブロックに区切り、音声ブロックごとに客観指標（対象客観指標）を測定する。また、第２客観指標測定部１２ａは、対象音声オブジェクトの平均ラウドネス値（対象平均ラウドネス値）を測定する。そして、第２客観指標測定部１２ａは、測定した対象客観指標及び対象平均ラウドネス値をゲイン算出部１３ａに出力する。

【0078】

ゲイン算出部１３ａは、第１客観指標測定部１１ａから入力した参照客観指標及び第２客観指標測定部１２ａから入力した対象客観指標の差分と、第１客観指標測定部１１ａから入力した参照平均ラウドネス値、及び第２客観指標測定部１２ａから入力した対象平均ラウドネス値の差分とを重み付けして加算することで、ゲインを算出する。そして、ゲイン算出部１３ａは、算出したゲインをレベル調整部１４に出力する。

【0079】

レベル調整部１４は、ゲイン算出部１３ａから入力したゲインを、音響処理装置２の外部から入力した対象音声オブジェクトに適応することで調整を行い、調整された対象音声オブジェクトを調整済み音声オブジェクトとして外部に出力する。

【0080】

図１７は、第１客観指標測定部１１ａ及び第２客観指標測定部１２ａの構成例を示すブロック図である。第１客観指標測定部１１ａ及び第２客観指標測定部１２ａの構成は同一であるため、両者を区別しない場合には、客観指標測定部１１ａ，１２ａと称する。図１７に示す客観指標測定部１１ａ，１２ａは、ラウドネス値測定部１１０と、スキップゲート部１１６と、時間率上位平均値算出部１１７と、除去ゲート部１１８と、を備える。客観指標測定部１１ａ，１２ａは、第１の実施形態に係る客観指標測定部１１，１２と比較して、除去ゲート部１１８を更に備える点が相違する。

【0081】

ラウドネス値測定部１１０は、第１の実施形態と同様に測定したラウドネス値を、スキップゲート部１１６及び除去ゲート部１１８に出力する。

【0082】

除去ゲート部１１８は、ラウドネス値測定部１１０から入力したラウドネス値のうち、測定時間において除去ゲート閾値以下のラウドネス値を除去し、除去後のラウドネス値の平均値である平均ラウドネス値を算出する。なお、除去ゲートは非特許文献２乃至４で平均ラウドネス値の算出に用いられるゲートと同一である。非特許文献では単に「ゲート」と記述されるが、本願では動作の異なるスキップゲートとの区別のために「除去ゲート」と記述する。

【0083】

図１８は、除去ゲートとスキップゲートの違いを説明する図である。図１８（ａ）に示すように、除去ゲート部１１８は、測定時間における閾値以下の値を除去して計算を行うため、測定時間幅が一定であっても実際にラウドネス値に反映される音声ブロックの数は無音区間（ゲーティング）の長さによって変動し得る。一方、図１８（ｂ）に示すように、スキップゲート部１１６による処理では、測定時間幅は固定されており、計算に用いられる音声ブロックの数は常に一定となる。

【0084】

図１９は、ゲイン算出部１３ａの構成例を示すブロック図である。ゲイン算出部１３ａは、第１差分算出部１３３と、第１重み付け部１３４と、第２差分算出部１３５と、第２重み付け部１３６と、合算部１３７と、を備える。

【0085】

第１差分算出部１３３は、第１客観指標測定部１１ａから入力した参照客観指標と、第２客観指標測定部１２ａから入力した参照客観指標との差分Ｌ_{ｄｉｆｆ１}を算出する。そして、第１差分算出部１３３は、算出した差分Ｌ_{ｄｉｆｆ１}を第１重み付け部１３４に出力する。

【0086】

第１重み付け部１３４は、例えば式（６）により重み付けを行い、ゲインＬ_Ｗ１を算出する。ここで、α_１及びβ_１は重み付け係数である。そして、第１重み付け部１３４は、算出したゲインＬ_Ｗ１を合算部１３７に出力する。

【0087】

【数6】

【0088】

第２差分算出部１３５は、第１客観指標測定部１１ａから入力した参照平均ラウドネス値と、第２客観指標測定部１２ａから入力した対象平均ラウドネス値との差分Ｌ_{ｄｉｆｆ２}を算出する。そして、第２差分算出部１３５は、算出した差分Ｌ_{ｄｉｆｆ２}を第２重み付け部１３６に出力する。

【0089】

第２重み付け部１３６は、例えば式（７）により重み付けを行い、ゲインＬ_Ｗ２を算出する。ここで、α_２及びβ_２は重み付け係数である。そして、第２重み付け部１３６は、算出したゲインＬ_Ｗ２を合算部１３７に出力する。

【0090】

【数7】

【0091】

合算部１３７は、第１重み付け部１３４から入力したゲインＬ_Ｗ１、及び第２重み付け部１３６から入力したゲインＬ_Ｗ２を合算してゲインＬ_Ｗを算出する。そして、合算部１３７は、算出したゲインＬ_ｗをレベル調整部１４に出力する。

【0092】

このように本実施形態では、ゲインの算出に平均ラウドネス値も用いる。一般に、平均ラウドネス値は測定時間が１５秒を超える程度で値が安定し、数十分といった時間長のコンテンツの中ほどにおいてはほとんど値が変化しないことが知られているため、参照音声オブジェクトと対象音声オブジェクトの平均ラウドネス値が同程度である場合には、本発明のような逐次的な処理を検討する上では客観指標だけ検討すれば十分である。

【0093】

これは、参照音声オブジェクトと対象音声オブジェクトの平均ラウドネス値が大きく異なる場合に大まかな音声レベルを事前に揃えておくことで、客観指標の差分を用いて逐次計算するゲインが極端に大きくなり、後述する重み付けの影響が大きくなりすぎることを避ける効果がある。

【0094】

（第３実施形態）
次に、第３実施形態に係る音響処理装置について説明する。図２０は、第３実施形態に係る音響処理装置３の構成例を示すブロック図である。図２０に示す音響処理装置３は、第１客観指標測定部１１と、第２客観指標測定部１２と、ゲイン算出部１３ｂと、レベル調整部１４と、を備える。音響処理装置３は、第１実施形態に係る音響処理装置１と比較してゲイン算出部１３に代えてゲイン算出部１３ｂを備える点が相違する。

【0095】

ゲイン算出部１３ｂは、対象客観指標に対する過去のゲインを記憶しておき、参照音声オブジェクトの値が所定時間以上、閾値以下であり（例えば、話者が長時間発話しない場合）、最後に発話した際の客観指標をもとに調整を行い続けることに問題が生じる場合には、対象客観指標に対して出現頻度の高いゲインの値を対象音声オブジェクトのゲインに決定する。

【0096】

図２１は、ゲイン算出部１３ｂの構成例を示すブロック図である。図２１に示すゲイン算出部１３ｂは、差分算出部１３１と、重み付け部１３２と、ゲイン記憶部１３８と、切替部１３９と、を備える。

【0097】

第１実施形態と同様に、差分算出部１３１は客観指標差分Ｌ_ｄｉｆｆを算出し、重み付け部１３２は客観指標差分Ｌ_ｄｉｆｆに対して重み付けを行ってゲインＬ_ｗを算出する。重み付け部１３２は、算出したゲインＬ_ｗをゲイン記憶部１３８及び切替部１３９に出力する。

【0098】

ゲイン記憶部１３８は、重み付け部１３２からゲインＬ_ｗを入力し、過去に算出したゲインを記憶する。また、ゲイン記憶部１３８は、第２客観指標測定部１２から対象客観指標を入力する。ゲイン記憶部１３８は、参照音声オブジェクトと対象音声オブジェクトの話者が同時に発話している際に、対象客観指標に対するゲインの値を記憶し、ゲインの値を一定の幅（例えば０．５ｄＢ刻みの幅）で度数分布化する。

【0099】

切替部１３９は、参照音声オブジェクトの値が所定時間以上、閾値以下である場合には、出力するゲインを、重み付け部１３２から入力したゲインＬ_ｗから、対象音声オブジェクトに対する過去のゲインの度数が最も大きい、すなわち最も頻繁に表れていたゲインの値に切り替える。度数の大きさが同じゲインが複数ある場合には、ゲインの変化が急峻にならないよう、１ブロック前のゲインに近い方の値を採用する。

【0100】

図２２は、ゲイン記憶部１３８が記憶する度数分布の一例を示すグラフである。例えば、参照音声オブジェクトの話者が長時間発話していない中で、対象音声オブジェクトの客観指標が－２４．０ＬＫＦＳであったとする。この場合には、切替部１３９は、－２４．０ＬＫＦＳの度数分布図から最も度数の大きい－０．７５～－０．２５ｄＢの代表値となる－０．５ｄＢをゲインとして出力する。

【0101】

（第４実施形態）
次に、第４実施形態に係る音響処理システムについて説明する。上述した音響処理装置１をＮ個用いることで、Ｎ個の対象音声オブジェクトを自動で調整することも可能である。例えば、対象音声オブジェクトの話者が複数人である場合には、複数人の話者同士の音声レベルについても調整することが可能である。音響処理装置１の代わりに、音響処理装置２又は音響処理装置３を用いてもよい。

【0102】

図２３は、第４実施形態に係る音響処理システム１０の構成例を示すブロック図である。図２３に示す音響処理システム１０は、直列に接続された２つの音響処理装置１＿１，１＿２と、合算部３１と、を備える。音響処理システム１０は、対象音声オブジェクトの話者が話者Ａ，Ｂの２人の場合を想定している。

【0103】

音響処理装置１＿１は、話者Ｂの対象音声オブジェクトの音声レベルを、話者Ａの対象音声オブジェクトに合わせこむ。ここで、音声コンテンツにおいて話者が複数人で構成される場合、同時に発話する頻度が多くないことも予想されるため、ゲイン算出部１３を第３実施形態のゲイン算出部１３ｂとしてもよい。

【0104】

合算部３１は、話者Ａの対象音声オブジェクトと、音響処理装置１＿１によって調整を加えた話者Ｂの対象音声オブジェクトとを加算し、音響処理装置１＿２に出力する。

【0105】

音響処理装置１＿２は、合算部３１から入力した話者Ａ，Ｂの対象音声オブジェクト全体の音声レベルを、参照音声オブジェクトに合わせこんで、調整済みの話者Ａ，Ｂの対象音声オブジェクトを外部に出力する。

【0106】

対象音声オブジェクトが３以上の場合も同様である。例えば話者が話者Ａ，Ｂ，Ｃの３人である場合には、３つの音響処理装置１＿１，１＿２，１＿３を直列に接続する。そして、音響処理装置１＿２は、話者Ａ，Ｂの対象音声オブジェクト全体の音声レベルを、話者Ｃの対象音声オブジェクトに合わせこむ。音響処理装置１＿３は話者Ａ，Ｂ，Ｃの対象音声オブジェクト全体の音声レベルを、参照音声オブジェクトに合わせこむ。すなわち、Ｎ個の対象音声オブジェクトを自動で調整する場合には、Ｎ個の音響処理装置１＿１～１＿Ｎを直列に接続する。ここで、２≦ｋ≦Ｎ－１とすると、ｋ番目の音響処理装置１＿ｋは、第１から第ｋの対象音声オブジェクトを加算した音声レベルを、第（ｋ＋１）の対象音声オブジェクトに近づけるように調整し、Ｎ番目の音響処理装置１＿Ｎは、第１から第（Ｎ－１）の対象音声オブジェクトを加算した音声レベルを、参照音声オブジェクトに近づけるように調整する。

【0107】

（第５実施形態）
次に、第５実施形態に係る音響処理システムについて説明する。図２４は、第５実施形態に係る音響処理システム２０の構成例を示すブロック図である。図２４に示す音響処理システム２０は、並列に接続された２つの音響処理装置１＿１，１＿２と、合算部３２と、を備える。音響処理システム２０は、対象音声オブジェクトの話者が話者Ａ，Ｂの２人の場合を想定している。

【0108】

音響処理装置１＿１は、話者Ａの対象音声オブジェクトの音声レベルを、参照対象音声オブジェクトに合わせこむ。

【0109】

音響処理装置１＿２は、話者Ｂの対象音声オブジェクトの音声レベルを、参照対象音声オブジェクトに合わせこむ。

【0110】

合算部３２は、音響処理装置１＿１により調整された話者Ａの対象音声オブジェクトと、音響処理装置１＿２により調整された話者の対象音声オブジェクトとを加算して、調整済みの話者Ａ，Ｂの対象音声オブジェクトを外部に出力する。合算部３２は、話者Ａ，Ｂの対象音声オブジェクトを加算することで音声レベルが大きくなることを想定し、アッテネーションを加えてもよい。

【0111】

対象音声オブジェクトが３以上の場合も同様である。Ｎ個の対象音声オブジェクトを自動で調整する場合には、Ｎ個の音響処理装置１＿１～１＿Ｎを並列に接続する。各音響処理装置１＿１～１＿Ｎは、各音響処理装置１＿１～１＿Ｎに入力される対象音声オブジェクトの音声レベルを、参照音声オブジェクトに近づけるように調整する。すなわち、１≦ｋ≦Ｎとするとｋ番目の音響処理装置１＿ｋは、第ｋの対象音声オブジェクトを参照音声オブジェクトに近づけるように調整する。

【0112】

（プログラム）
なお、上述した音響処理装置１，２，３として機能させるためにプログラム命令を実行可能なコンピュータを用いることも可能である。コンピュータは、音響処理装置１，２，３の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのプロセッサによってこのプログラムを読み出して実行する。これらの処理内容の一部はハードウェアで実現されてもよい。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal Computer）、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。プロセッサは、ＣＰＵ(Central Processing Unit)、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ(Digital Signal Processor)などであってもよい。

【0113】

また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどの記録媒体であってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。

【0114】

番組音声のような変動する音の大きさについて、下記の参考文献３にはＶＵ(Volume Unit）値が時間率２０％を超える値がラウドネスに比較的よく対応することが示されており、ラウドネスはある時間幅における変動音のうち、大きな音にのみ依存している。よって、無音区間（非発話時間）の測定値は基本的に不必要であると同時に、不適切な調整の原因ともなり得る。例えば、話者が一言だけ叫んだり呟いたりした後に黙るなど、短時間かつ極端な音声レベルの発話区間と無音区間が連続するような特殊な状況下においては、一時的にゲインを過小に調整し得るなどの不都合が生じる可能性がある。
参考文献３：柴田光之、「番組音の平均の音の大きさとVU計による音量レベル」、NHK技術研究、vol.22、 pp.433-439(1970)

【0115】

この点、上述したように本発明に係る音響処理装置１，２，３、及びそのプログラムでは、ラウドネス値がスキップゲート閾値を超えている時間を発話時間とみなし、現在時刻の直前の発話時間のうち、固定長の測定時間のラウドネス値を抽出し、該ラウドネス値のうち所定の時間率のラウドネス値の平均値を客観指標として算出する。すなわち、本発明では、無音区間（非発話時間）を測定時間に含めないことにした。したがって、本発明によれば、テレビ番組をはじめとする映像音声コンテンツの副音声制作などにおいて、安定性及び応答性が両立する客観指標を用いて、対象となるダイアログなどの音声オブジェクトのゲインを自動で調整することが可能となる。

【0116】

また、本発明によれば、映像音声コンテンツにおいて副音声などの複数パターンの音声を制作する際に、生放送であっても制作に必要なミクシングエンジニアの数を増やさずに、主音声などのエンジニアが調整したダイアログと同程度の音の大きさに調整された別パターンのダイアログ信号を生成可能となる。また、同時に制作する音声のバリエーションが今後増えた場合であっても、追加されたパターンの数に応じて本発明を適用することで、同様の効果が期待できる。

【0117】

また、音声コンテンツにおいて、その差が数ｄＢ程度の範囲に収まるのであれば、一般的に音声オブジェクトが一時的に小さくなりすぎる方が、背景音などにマスクされて視聴者が受け取る情報量が少なくなる可能性があるため、一時的に大きすぎるよりも視聴者に与える影響は大きくなると考えられる。よって、フェーダを下げる調整を行う際には重み付けの値を変えることにより、対象音声オブジェクトが小さく自動調節された場合に、背景音などにマスクされて聞き取りにくくなるリスクを低減することができる。

【0118】

また、音声コンテンツを一定以上の品質で制作する際には、主要な話者一人ひとりに専用のマイクが設置されることが一般的であるため、オブジェクト音響方式やチャンネルベース音響方式のみならず、今後新しく設けられる音響方式でも、話者の音声信号を単体で扱うことができる限り、本発明を適用可能であることは、当業者には明らかである。

【0119】

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、又は１つの構成ブロックを分割したりすることが可能である。

【符号の説明】

【0120】

１，２，３音響処理装置
１０，２０音響処理システム
３１，３２合算部
１１，１１ａ第１客観指標測定部
１２，１２ａ第２客観指標測定部
１３，１３ａ，１３ｂゲイン算出部
１４レベル調整部
１１０ラウドネス値測定部
１１１プリフィルタ
１１２二乗平均部
１１３重み付け部
１１４合算部
１１５デシベルスケール変換部
１１６スキップゲート部
１１７時間率上位平均値算出部
１１８除去ゲート部
１３１差分算出部
１３２重み付け部
１３３第１差分算出部
１３４第１重み付け部
１３５第２差分算出部
１３６第２重み付け部
１３７合算部
１３８ゲイン記憶部
１３９切替部

【図1】