特開2024-23163 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-23163音声信号処理装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5
6
7A
7B
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024023163

(43)【公開日】2024-02-21

(54)【発明の名称】音声信号処理装置およびプログラム

(51)【国際特許分類】

H04S 7/00 20060101AFI20240214BHJP

G10L 21/0364 20130101ALI20240214BHJP

【ＦＩ】

H04S7/00 300

G10L21/0364

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023128849

(22)【出願日】2023-08-07

(31)【優先権主張番号】P 2022126646

(32)【優先日】2022-08-08

(33)【優先権主張国・地域又は機関】JP

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100164471

【弁理士】

【氏名又は名称】岡野大和

(74)【代理人】

【識別番号】100163511

【弁理士】

【氏名又は名称】辻啓太

(72)【発明者】

【氏名】杉本岳大

(72)【発明者】

【氏名】久保弘樹

(72)【発明者】

【氏名】岩崎泰士

(72)【発明者】

【氏名】大出訓史

(72)【発明者】

【氏名】中山靖茂

(72)【発明者】

【氏名】大久保洋幸

【テーマコード（参考）】

5D162

【Ｆターム（参考）】

5D162BA12

5D162CA01

5D162EG02

(57)【要約】

【課題】複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図る。
【解決手段】
音声信号処理装置１０は、第１の音声オブジェクトの信号レベルの調整値である第１の調整値ｂ、および、第２の音声オブジェクトの信号レベルの調整値である第２の調整値ｃを決定する調整値決定部１４と、第１の調整値ｂに基づく信号レベルが調整後の第１の音声オブジェクトの音声信号と、第２の調整値ｃに基づく信号レベルが調整後の第２の音声オブジェクトの音声信号とを合成して出力する音声信号合成部１３と、を備え、調整値決定部１４は、エンハンスメント量ｄに合わせて、第１の調整値ｂの真数と前記第２の調整値ｃの真数との二乗和が一定になるように第１の調整値ｂおよび第２の調整値ｃを決定する。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の音声オブジェクトから構成される番組の音声信号を処理する音声信号処理装置であって、
前記複数の音声オブジェクトの内の第１の音声オブジェクトの信号レベルと前記第１の音声オブジェクトと重畳して再生される第２の音声オブジェクトの信号レベルとの比ａの増加量または減少量がエンハンスメント量ｄとして要求されると、前記第１の音声オブジェクトの信号レベルの調整値である第１の調整値ｂ、および、前記第２の音声オブジェクトの信号レベルの調整値である第２の調整値ｃを決定する調整値決定部と、
前記第１の調整値ｂに基づき、前記第１の音声オブジェクトの信号レベルを調整する第１の音声信号調整部と、
前記第２の調整値ｃに基づき、前記第２の音声オブジェクトの信号レベルを調整する第２の音声信号調整部と、
前記第１の音声信号調整部による信号レベルの調整後の前記第１の音声オブジェクトの音声信号と、前記第２の音声信号調整部による信号レベルの調整後の前記第２の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、
前記調整値決定部は、前記エンハンスメント量ｄに合わせて、前記第１の調整値ｂの真数と前記第２の調整値ｃの真数との二乗和が一定になるように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、音声信号処理装置。

【請求項2】

前記調整値決定部は、前記エンハンスメント量ｄが上限値ｅを超えないように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、請求項１に記載の音声信号処理装置。

【請求項3】

前記調整値決定部は、前記複数の音声オブジェクトの再生に関する情報である音響メタデータに含まれる前記エンハンスメント量ｄの上限値ｈを取得した場合、前記エンハンスメント量ｄが前記上限値ｈを超えないように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、請求項２に記載の音声信号処理装置。

【請求項4】

前記エンハンスメント量ｄと、前記第１の調整値ｂおよび前記第２の調整値ｃとを対応付けた調整値リストを記憶する調整値記憶部をさらに備え、
前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、請求項１から３のいずれか一項に記載の音声信号処理装置。

【請求項5】

前記調整値決定部は、前記上限値ｅが＋６ｄＢ以上の場合に、前記エンハンスメント量ｄを＋６ｄＢ以上とする、請求項２に記載の音声信号処理装置。

【請求項6】

前記調整値決定部は、前記上限値ｈが＋６ｄＢ以上の場合に、前記エンハンスメント量ｄを＋６ｄＢ以上とする、請求項３に記載の音声信号処理装置。

【請求項7】

前記上限値ｅは＋１２ｄＢである、請求項２に記載の音声信号処理装置。

【請求項8】

コンピュータを、請求項１に記載の音声信号処理装置として動作させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声信号処理装置およびプログラムに関する。

【背景技術】

【0002】

近年、音声信号と音響メタデータ（非特許文献１，２参照）とを組み合わせたオブジェクトベース音響システムの実用化が進められている（非特許文献３－５参照）。オブジェクトベース音響システムは、視聴者が視聴環境あるいは好みに合わせて再生音をカスタマイズすることができるという特徴がある。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Rec. ITU-R BS.2076-1 「Audio Definition Model」（2017）

【非特許文献2】Rec. ITU-R BS.2125-0 「A serial representation of the Audio Definition Model」（2019）

【非特許文献3】ISO/IEC 23008-3:2019 「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition」（2019）

【非特許文献4】ETSI TS 103 190-2 V1.2.1 「AC-4 Part 2」（2018）

【非特許文献5】ATSC Standard: A/342 Part 3 （2017）

【発明の概要】

【発明が解決しようとする課題】

【0004】

オブジェクトベース音響システムの代表的な機能の１つに、ダイアログエンハンスメント機能がある。ダイアログエンハンスメント機能は、図８に示すように、番組音声がダイアログ（セリフあるいはナレーション）および背景音（ＢＧＭあるいは効果音）の音声オブジェクトで構成されている場合に、番組の制作時のダイアログおよび背景音の信号レベルと比べて、ダイアログを強調する（ダイアログの信号レベルを大きくする）ことで、ダイアログの聞き取りを改善する機能である。

【0005】

オブジェクトベース音響システムにおいては、番組音声の全体的な印象の悪化を抑制しつつ、ダイアログの聞き取りやすさの向上を図ることができる、より効果的なダイアログエンハンスメント機能の実装が求められている。

【0006】

本発明の目的は、上述した課題を解決し、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる音声信号処理装置およびプログラムを提供することにある。

【課題を解決するための手段】

【0007】

（１）本開示に係る音声信号処理装置は、複数の音声オブジェクトから構成される番組の音声信号を処理する音声信号処理装置であって、前記複数の音声オブジェクトの内の第１の音声オブジェクトの信号レベルと前記第１の音声オブジェクトと重畳して再生される第２の音声オブジェクトの信号レベルとの比ａの増加量または減少量がエンハンスメント量ｄとして要求されると、前記第１の音声オブジェクトの信号レベルの調整値である第１の調整値ｂ、および、前記第２の音声オブジェクトの信号レベルの調整値である第２の調整値ｃを決定する調整値決定部と、前記第１の調整値ｂに基づき、前記第１の音声オブジェクトの信号レベルを調整する第１の音声信号調整部と、前記第２の調整値ｃに基づき、前記第２の音声オブジェクトの信号レベルを調整する第２の音声信号調整部と、前記第１の音声信号調整部による信号レベルの調整後の前記第１の音声オブジェクトの音声信号と、前記第２の音声信号調整部による信号レベルの調整後の前記第２の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、前記調整値決定部は、前記エンハンスメント量ｄに合わせて、前記第１の調整値ｂの真数と前記第２の調整値ｃの真数との二乗和が一定になるように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する。

【0008】

（２）前記調整値決定部は、前記エンハンスメント量ｄが上限値ｅを超えないように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、（１）に記載の音声信号処理装置。

【0009】

（３）前記調整値決定部は、前記複数の音声オブジェクトの再生に関する情報である音響メタデータに含まれる前記エンハンスメント量ｄの上限値ｈを取得した場合、前記エンハンスメント量ｄが前記上限値ｈを超えないように前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、（２）に記載の音声信号処理装置。

【0010】

（４）前記エンハンスメント量ｄと、前記第１の調整値ｂおよび前記第２の調整値ｃとを対応付けた調整値リストを記憶する調整値記憶部をさらに備え、前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第１の調整値ｂおよび前記第２の調整値ｃを決定する、（１）から（３）のいずれか一項に記載の音声信号処理装置。

【0011】

（５）前記調整値決定部は、前記上限値ｅが＋６ｄＢ以上の場合に、前記エンハンスメント量ｄを＋６ｄＢ以上とする、（２）に記載の音声信号処理装置。

【0012】

（６）前記調整値決定部は、前記上限値ｈが＋６ｄＢ以上の場合に、前記エンハンスメント量ｄを＋６ｄＢ以上とする、（３）に記載の音声信号処理装置。

【0013】

（７）前記上限値ｅは＋１２ｄＢである、（２）に記載の音声信号処理装置。

【0014】

（８）本開示に係るプログラムは、コンピュータを、（１）から（７）のいずれかに記載の音声信号処理装置として動作させる。

【発明の効果】

【0015】

本発明に係る音声信号処理装置およびプログラムによれば、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。

【図面の簡単な説明】

【0016】

【図1】本開示の一実施形態に係る音声信号処理装置の構成例を示す図である。

【図2】図１に示す調整値決定部の構成例を示す図である。

【図3A】図２に示す調整値記憶部が記憶する調整値リストの一例を示す図である。

【図3B】図２に示す調整値記憶部が記憶する調整値リストの他の一例を示す図である。

【図4A】ダイアログおよび背景音のエネルギーの合計が一定である場合の、γおよびσの変化の様子を真数表示した図である。

【図4B】ダイアログおよび背景音のエネルギーの合計が一定である場合の、γおよびσの変化の様子を対数表示した図である。

【図5】図１に示す音声信号処理装置の動作の一例を示すフローチャートである。

【図6】エンハンスメント操作のためのＵＩの一例を示す図である。

【図7A】スピーカ再生による、音素材の聞き取りおよび総合印象に関する評価結果を示す図である。

【図7B】イヤホン・ヘッドホン再生による、音素材の聞き取りおよび総合印象に関する評価結果を示す図である。

【図8】ダイアログエンハンスメントについて模式的に示す図である。

【発明を実施するための形態】

【0017】

以下、本発明の実施の形態について図面を参照して説明する。

【0018】

図１は、本開示の一実施形態に係る音声信号処理装置１０の構成例を示す図である。本実施形態に係る音声信号処理装置１０は、ダイアログおよび背景音などの複数の音声オブジェクトから構成される番組の音声信号を再生するものである。具体的には、音声信号処理装置１０は、上述したダイアログエンハンスメントのように、複数の音声オブジェクトの内、特定の音声オブジェクト（第１の音声オブジェクト）の信号レベルと、特定の音声オブジェクトと重畳して再生される他の音声オブジェクト（第２の音声オブジェクト）の信号レベルとの比ａを増加または減少させる信号処理を行う。以下では、ダイアログの信号レベルと、ダイアログと重畳して再生される背景音の信号レベルとの比ａを増加または減少させる例を用いて説明する。なお、番組の音声を構成する音声オブジェクトとして、例えば、複数の言語それぞれに対応するダイアログの音声オブジェクトと、背景音の音声オブジェクトとが含まれることがある。この場合、音声信号処理装置１０は、例えば、視聴者により選択された一つの言語に対応するダイアログの信号レベルと、背景音の信号レベルとの比ａを増加または減少させる。

【0019】

図１に示すように、本実施形態に係る音声信号処理装置１０は、音声信号調整部１１，１２と、音声信号合成部１３と、調整値決定部１４とを備える。

【0020】

第１の音声信号調整部としての音声信号調整部１１は、番組を構成する複数の音声オブジェクトの内、ダイアログ（第１の音声オブジェクト）の音声信号が入力される。音声信号調整部１１は、後述する調整値決定部１４により決定された、ダイアログ（第１の音声オブジェクト）の信号レベルの調整値である第１の調整値ｂに基づき、入力されたダイアログの信号レベルを調整し、音声信号合成部１３に出力する。

【0021】

第２の音声信号調整部としての音声信号調整部１２は、ダイアログと重畳して再生される背景音（第２の音声オブジェクト）の音声信号が入力される。音声信号調整部１２は、後述する調整値決定部１４により決定された、背景音（第２の音声オブジェクト）の信号レベルの調整値である第２の調整値ｃに基づき、入力された背景音の信号レベルを調整し、音声信号合成部１３に出力する。

【0022】

音声信号合成部１３は、音声信号調整部１１による信号レベルの調整後のダイアログの音声信号と、音声信号調整部１２による信号レベルの調整後の背景音の音声信号とを合成した再生音を出力する。

【0023】

調整値決定部１４は、ダイアログの信号レベルと背景音の信号レベルとの比ａの増加または減少を要求するエンハンスメント要求が入力される。エンハンスメント要求としては、ダイアログの信号レベルと背景音の信号レベルとの比ａの増加量または減少量が入力（要求）されてよい。また、エンハンスメント要求は、エンハンスメント量ｄを指定せず、単にダイアログの信号レベルと背景音の信号レベルとの比ａの調整を要求するものであってもよい。この場合、調整値決定部１４は、予め定められた所定値のエンハンスメント量ｄが要求されたものとして処理する。調整値決定部１４は、音響メタデータが入力されてもよい。音響メタデータは、番組を構成する複数のオブジェクトの再生に関する情報である。音響メタデータは、例えば、エンハンスメント量ｄの上限値ｈを含む。

【0024】

調整値決定部１４は、エンハンスメント要求が入力されると（ダイアログと背景音の信号レベルとの比ａの増加量または減少量がエンハンスメント量ｄとして要求されると）、ダイアログの信号レベルの調整値である第１の調整値ｂ、および、背景音の信号レベルの調整値である第２の調整値ｃを決定する。ここで、調整値決定部１４は、詳細は後述するが、エンハンスメント量ｄに合わせて、第１の調整値ｂの真数と第２の調整値ｃの真数との二乗和が一定になるように第１の調整値ｂおよび第２の調整値ｃを決定する。また、調整値決定部１４は、エンハンスメント量ｄが上限値ｅを超えないように第１の調整値ｂおよび第２の調整値ｃを決定してよい。

【0025】

調整値決定部１４は、決定した第１の調整値ｂを音声信号調整部１１に出力し、決定した第２の調整値ｃを音声信号調整部１２に出力する。

【0026】

図２は、調整値決定部１４の構成例を示す図である。

【0027】

図２に示すように、調整値決定部１４は、調整値記憶部１４１と、調整値選択部１４２とを備える。

【0028】

調整値記憶部１４１は、エンハンスメント量ｄと、そのエンハンスメント量ｄに応じた第１の調整値ｂ（ダイアログの信号レベルの調整値）および第２の調整値ｃ（背景音の信号レベルの調整値）とが対応付けられた調整値リストを記憶する。

【0029】

図３Ａは、調整値記憶部１４１が記憶する調整値リストの一例を示す図である。図３Ａにおいては、エンハンスメント量ｄ（レベル）が０ｄＢ，＋６ｄＢ，＋１２ｄＢである場合の調整値リストの例を示している。

【0030】

図３Ａに示すように、調整値記憶部１４１は、エンハンスメント量ｄと、第１の調整値ｂ（ダイアログの信号レベルの調整値（係数、レベル））および第２の調整値ｃ（背景音の信号レベルの調整値（係数、レベル））とを対応付けた調整値リストを記憶する。

【0031】

図３Ａにおいては、エンハンスメント量ｄ（レベル）が０ｄＢ，＋６ｄＢ，＋１２ｄＢである例を用いて説明したが、本開示はこれに限られるものではない。調整値記憶部１４１は、図３Ｂに示すように、より広範囲のエンハンスメント量ｄと、第１の調整値ｂおよび第２の調整値ｃとが対応付けられた調整値リストを記憶してもよい。ただし詳細は後述するが、ダイアログエンハンスメントによるダイアログの信号レベルと背景音の信号レベルとの比ａの増加量はある値以上でないとダイアログの聞き取りの改善効果が視聴者に感じられにくく、また、ダイアログの信号レベルと背景音の信号レベルとの比ａの増加量が大きすぎると、番組音声の全体的な印象が悪化してしまう。そのため、図３Ａに示すように、エンハンスメント量ｄの区切りは＋６ｄＢ程度、また、エンハンスメント量ｄの上限値ｅは＋１２ｄＢ程度とするのが好ましい。

【0032】

図３Ａ，３Ｂに示すような調整値リストは予め計算により求めることができる。以下では、エンハンスメント量ｄに応じた、第１の調整値ｂおよび第２の調整値ｃの計算方法について説明する。

【0033】

ダイアログの音声オブジェクトＤを、時間ｔの関数およびチャネル数ｍを用いて式（１）のように定義し、背景音の音声オブジェクトＢを、時間ｔの関数およびチャネル数ｎを用いて式（２）のように定義する。

【0034】

【数1】

【0035】

また、時間ｔが０からＴの範囲の、各音声オブジェクトの平均エネルギーＥ_Ｄ，Ｅ_Ｂは以下の式（３）および式（４）で表される。

【0036】

【数2】

【0037】

なお、エネルギーレベルとラウドネスレベルとは一般に異なる値であるが、エンハンスメント量ｄおよびダイアログ／背景音比（以下、「Ｄ／Ｂ比」と称する。）など、各音声オブジェクト間の比に関する数値の計算においては、エネルギーレベルとラウドネスレベルとを等価とみなすことができることとする。

【0038】

ダイアログ用の係数γ（γ≧０）および背景音用の係数δ（δ≧０）を用いると、ダイアログエンハンスメント後のダイアログ

および背景音

はそれぞれ、以下の式（５），（６）で表される。なお、ダイアログ用の係数γは、第１の調整値ｂの真数に相当し、背景音用の係数δは、第２の調整値ｃの真数に相当する。

【0039】

【数3】

【0040】

同様に、ダイアログエンハンスメント後のダイアログの平均エネルギー

および背景音の平均エネルギー

はそれぞれ、以下の式（７），（８）で表される。

【0041】

【数4】

【0042】

次に、ダイアログエンハンスメントに係るパラメータである、エンハンスメント量ｇおよびＤ／Ｂ比ｒをそれぞれ、以下の式（９）、（１０）のように定義する。

【0043】

【数5】

【0044】

エンハンスメント量ｇのレベルをＧ、Ｄ／Ｂ比ｒのレベルをＲとすると、それぞれ以下の式（１１），（１２）で表される。

【0045】

【数6】

【0046】

ここで、係数γ，δの初期値を１とすると、ダイアログの強調条件はγ＞１，δ＝１となる。また、ダイアログの抑制条件はγ＜１，δ＝１となる。しかしながら、この条件では、ダイアログエンハンスメントに伴って番組音声全体のエネルギーも変化してしまい、番組の全体の平均ラウドネスレベルを規制している現在の運用規定に合わなくなってしまう。そのため、番組音声を構成する全ての音声オブジェクトのエネルギーの合計を一定に保つことで、番組音声の音量感が大きく変化しないようにダイアログエンハンスメントを実装することが望ましい。全ての音声オブジェクト（ここでは、ダイアログおよび背景音）のエネルギーの合計が一定であるという条件は以下の式（１３）で表される。

【0047】

【数7】

【0048】

なお、実際にダイアログエンハンスメントを適用するためには、エンハンスメント量ｇに応じた係数γ，δの値が必要であり、そのためには平均エネルギーＥ_Ｄ,Ｅ_Ｂの値が必要になる。平均エネルギーＥ_Ｄ，Ｅ_Ｂの値が音響メタデータなどから取得可能な場合、実際の平均エネルギーＥ_Ｄ，Ｅ_Ｂの値を用いて係数γ，δの値を導出し、ダイアログエンハンスメントを行うことができる。

【0049】

一方、音声信号の状態が逐次変化する生放送においては、各時点での正確な平均エネルギーＥ_Ｄ，Ｅ_Ｂの値を受信機側で把握できないことが多い。そこで、ダイアログエンハンスメント機能が用いられる条件としてＥ_Ｄ＝Ｅ_Ｂと仮定すると、以下の式（１４）が導かれる。
γ^２＋δ^２＝２式（１４）

【0050】

ここで、媒介変数θ（０≦θ≦π／２）を導入すると、係数γ，δは以下の式（１５），（１６）で表すことができる。

【0051】

【数8】

【0052】

図４Ａは、式（１５），（１６）より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ，δの変化の様子を真数表示した図である。また、図４Ｂは、式（１５），（１６）より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ，δの変化の様子を対数表示した図である。図４Ｂにおける、２０ｌｏｇγ－２０ｌｏｇδがエンハンスメント量ｄに相当する。

【0053】

式（１５），（１６）および図４Ａ，４Ｂに基づき、各エンハンスメント量ｄに対応する、ダイアログの信号レベルおよび背景音の信号レベルの調整値を決定し、図３Ａ，３Ｂに示すような、調整値リストを作成することができる。

【0054】

図２を再び参照すると、調整値選択部１４２は、エンハンスメント要求が入力される。また、調整値選択部１４２は、音響メタデータが入力されてもよい。調整値選択部１４２は、エンハンスメント要求（ダイアログと背景音の信号レベルとの比ａの増加量または減少量がエンハンスメント量ｄとして要求されると）が入力されると、調整値記憶部１４１に記憶されている調整値リストを参照し、第１の調整値ｂおよび第２の調整値ｃを選択する。式（１４）から分かるように、調整値リストに記載される第１の調整値ｂおよび第２の調整値ｃは、ダイアログ用の係数γ（第１の調整値ｂの真数）と、背景音用の係数δ（第２の調整値ｃの真数）との二乗和が一定となるようにして決定された値である。したがって、調整値選択部１４２は、第１の調整値ｂの真数と、第２の調整値ｃの真数との二乗和が一定となるように、第１の調整値ｂおよび第２の調整値ｃを決定する。調整値選択部１４２は、エンハンスメント要求として、エンハンスメント量ｄが入力された場合、調整値リストにおいて、そのエンハンスメント量ｄに対応付けられている調整値を、第１の調整値ｂおよび第２の調整値ｃとして選択する。例えば、調整値記憶部１４１には図３Ａに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量ｄが＋６ｄＢである場合、調整値リストにおいて、＋６ｄＢのエンハンスメント量ｄに対応付けられている調整値を、第１の調整値ｂおよび第２の調整値ｃとして選択する。

【0055】

なお、エンハンスメント要求に含まれるエンハンスメント量ｄが、調整値リストに含まれるエンハンスメント量ｄと一致しない場合がある。この場合、調整値選択部１４２は、例えば、調整値リストに含まれるエンハンスメント量ｄの内、エンハンスメント要求に含まれるエンハンスメント量ｄと近いエンハンスメント量ｄに対応付けられている調整値を、第１の調整値ｂおよび第２の調整値ｃとして選択する。例えば、調整値記憶部１４１には図３Ａに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量ｄが＋５ｄＢである場合、調整値リストにおいて、＋５ｄＢに最も近い＋６ｄＢのエンハンスメント量ｄに対応付けられている調整値を、第１の調整値ｂおよび第２の調整値ｃとして選択する。なお、エンハンスメント要求に含まれるエンハンスメント量ｄに近い調整値リストに含まれるエンハンスメント量ｄが２種類ある場合は、どちらかを適宜選択する。

【0056】

また、エンハンスメント要求がエンハンスメント量を含まず、ダイアログの音量の増加だけを要求する場合、調整値選択部１４２は、例えば、予め定められた所定値のエンハンスメント量ｄが要求されたものとして、第１の調整値ｂおよび第２の調整値ｃを選択してもよい。この場合、調整値選択部１４２は、エンハンスメント要求が行われるたびに、エンハンスメント量ｄが上限値ｅを超えない範囲で、エンハンスメント量ｄを増加させる。例えば、調整値選択部１４２は、上限値ｅが＋１２ｄＢであるとすると、１回目のエンハンスメント要求が入力されると、エンハンスメント量ｄを＋６ｄＢとし、２回目のエンハンスメント要求が入力されると、エンハンスメント量ｄを＋１２ｄＢとし、３回目のエンハンスメント要求が入力されると、エンハンスメント量ｄを０としてもよい。また、調整値選択部１４２は、上限値ｅが＋６ｄＢより大きく、＋１２ｄＢ未満である場合、１回目のエンハンスメント要求が入力されると、エンハンスメント量ｄを＋６ｄＢとし、２回目のエンハンスメント要求が入力されると、エンハンスメント量ｄをその上限値としてもよい。また、調整値選択部１４２は、上限値ｅが＋６ｄＢ未満である場合、１回目のエンハンスメント要求が入力されると、エンハンスメント量ｄをその上限値とし、２回目のエンハンスメント要求が入力されると、エンハンスメント量ｄを０としてよい。

【0057】

また、調整値選択部１４２は、エンハンスメント要求にエンハンスメント量ｄが含まれていても、そのエンハンスメント量ｄに関わらず、所定値だけエンハンスメント量ｄが増加または減少するように、第１の調整値ｂおよび第２の調整値ｃを選択してもよい。すなわち、調整値選択部１４２は、例えば、図３Ａに示す調整値リストが調整値記憶部１４１に記憶されている場合、エンハンスメント量ｄがエンハンスメント要求に含まれているか否かに関わらず、エンハンスメント量ｄが所定値（例えば、＋６ｄＢ））以上となるように、第１の調整値ｂおよび第２の調整値ｃを選択してよい。

【0058】

調整値選択部１４２は、選択した第１の調整値ｂを音声信号調整部１１に出力し、選択した第２の調整値ｃを音声信号調整部１２に出力する。

【0059】

次に、本実施形態に係る音声信号処理装置１０の動作について説明する。図５は、本実施形態に係る音声信号処理装置１０の動作の一例を示すフローチャートである。図５においては、エンハンスメント要求が行われるたびに、上限値ｅ（＋１２ｄＢ）を超えない範囲で、ダイアログの音量を所定値（＋６ｄＢ）ずつ増加させる場合の、音声信号処理装置１０の動作を例として説明する。

【0060】

音声信号調整部１１は、ダイアログの音声オブジェクトを取得する（ステップＳ１０１）。音声信号調整部１２は、背景音の音声オブジェクトを取得する（ステップＳ１０２）。また、調整値決定部１４は、音響メタデータを取得する（ステップＳ１０３）。

【0061】

調整値決定部１４は、取得した音響メタデータからエンハンスメント量ｄの上限値ｈを取得したか否かを判定する（ステップＳ１０４）。

【0062】

音響メタデータにエンハンスメント量ｄの上限値ｈが含まれておらず、エンハンスメント量ｄの上限値ｈを取得していないと判定した場合（ステップＳ１０４：Ｎｏ）調整値決定部１４は、エンハンスメント量ｄの上限値ｅを＋１２ｄＢに設定し（ステップＳ１０５）、後述するステップＳ１０７の処理に進む。

【0063】

エンハンスメント量ｄの上限値ｈを取得したと判定した場合（ステップＳ１０４：Ｙｅｓ）調整値決定部１４は、取得したエンハンスメント量ｄの上限値ｈは＋６ｄＢより大きいか否かを判定する（ステップＳ１０６）。

【0064】

取得したエンハンスメント量ｄの上限値ｈは＋６ｄＢより大きいと判定した場合（ステップＳ１０６：Ｙｅｓ）、および、上限値ｅを＋１２ｄＢと設定した（上限値ｅが＋６ｄＢ以上である）場合（ステップＳ１０５）、調整値決定部１４は、エンハンスメント量ｄを＋６ｄＢに設定する（ステップＳ１０７）。このように、調整値決定部１４は、上限値ｈが＋６ｄＢ以上の場合（ステップＳ１０６：Ｙｅｓ）、あるいは、上限値ｅが＋６ｄＢ以上の場合（ステップＳ１０５）、エンハンスメント量ｄを＋６ｄＢ以上とする。

【0065】

取得したエンハンスメント量ｄの上限値ｈは＋６ｄＢより大きくないと判定した場合（ステップＳ１０６：Ｎｏ）、調整値決定部１４は、エンハンスメント量ｄを取得した上限値ｈに設定する（ステップＳ１０８）。このように、調整値決定部１４は、音響メタデータに含まれるエンハンスメント量ｄの上限値ｈを取得した場合、上限値ｈを超えないように、エンハンスメント量ｄを設定する（ステップＳ１０７，Ｓ１０８）。そして、調整値決定部１４は、設定したエンハンスメント量ｄに基づき、第１の調整値ｂおよび第２の調整値ｃを決定する。すなわち、調整値決定部１４は、音響メタデータに含まれるエンハンスメント量ｄの上限値ｈを取得した場合、エンハンスメント量ｄが上限値ｈを超えないように第１の調整値ｂおよび第２の調整値ｃを決定する。

【0066】

エンハンスメント量ｄを設定した後、エンハンスメント要求を取得すると（ステップＳ１０９）、調整値決定部１４は、調整値リストを参照して、第１の調整値ｂおよび第２の調整値ｃを決定する。図５に示す例では、調整値決定部１４は、上限値ｅが＋６ｄＢ以上の場合に、エンハンスメント量ｄを＋６ｄＢ以上とする。調整値決定部１４により決定された調整値に基づき、ダイアログエンハンスメントが実施される（ステップＳ１１０）。具体的には、音声信号調整部１１は、調整値決定部１４により決定された第１の調整値ｂに基づきダイアログの信号レベルを調整し、調整後のダイアログの音声信号を音声信号合成部１３に出力する。また、音声信号調整部１２は、調整値決定部１４により決定された第２の調整値ｃに基づき背景音の信号レベルを調整し、調整後の背景音の音声信号を音声信号合成部１３に出力する。

【0067】

音声信号合成部１３は、音声信号調整部１１から出力された音声信号に示されるダイアログと、音声信号調整部１２から出力された音声信号に示される背景音とを合成し、再生音として出力する（ステップＳ１１１）。エンハンスメント要求が再び入力されると、調整値決定部１４は、ステップＳ１０９の処理に戻る。

【0068】

図６は、ユーザがエンハンスメント要求を入力する際のＵＩ（User Interface）の一例を示す図であり、テレビなどの表示装置における表示例を示す図である。

【0069】

例えば、ダイアログエンハンスメントが行われていない状態では、図６に示すように、ダイアログエンハンスメントが行われていない（エンハンスメント量ｄが０ｄＢである）ことを示すアイコン２１が表示される。アイコン２１が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図６に示すように、エンハンスメント量ｄを＋６ｄＢとすることを示すアイコン２２が表示される。

【0070】

アイコン２２が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図６に示すように、エンハンスメント量ｄを＋１２ｄＢとすることを示すアイコン２３が表示される。

【0071】

アイコン２３が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図６に示すように、ダイアログの出力をなくす（エンハンスメント量ｄを－∞とする）ことを示すアイコン２４が表示される。

【0072】

アイコン２４が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図６に示すように、アイコン２１が再び表示される。そして、例えば、アイコン２１～２４の表示に応じたエンハンスメント要求が出力される。

【0073】

次に、本願発明者らが行った、ダイアログエンハンスメントの効果の主観評価の結果について説明する。評価手法は、Rec. ITU-T P.800 Annex Eに規定されている、比較範疇尺度法（CMOS）を採用した。各試行では、Ｄ／Ｂ比の異なる２個１組の刺激をランダムに評価者に提示した。評価者は，コンテンツ聴取に普段使用する再生機器（スピーカ、ヘッドホン、イヤホンのいずれか）を用いて素材音を聴取し、ランダムに指定された一方の刺激を基準とし、もう一方の刺激を、「ダイアログの聞き取り（以下、聞き取り）」「番組の総合印象（以下，総合印象）」それぞれの観点で、非常に良い（＋３）、良い（＋２）、やや良い（＋１）、ほとんど同じ（０）、やや悪い（－１）、悪い（－２）、非常に悪い（－３）の７段階で評価した。

【0074】

評価に用いる素材音としては１０種類の番組の音声を用意し、各素材音の長さは約２０秒とし、ダイアログおよび背景音の平均ラウドネスレベルはそれぞれ、－２７ＬＫＦＳ（loudness, K-weighted, relative to full scale）に調整した。ダイアログと背景音とを組み合わせた刺激全体の平均ラウドネスレベルを一定に保ち、Ｄ／Ｂ比を３ｄＢ刻みで－６～＋１２ｄＢの範囲で変化させた。

【0075】

図７Ａは、スピーカ再生による、全１０番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、９５％信頼区間とを、ダイアログエンハンスメント前のＤ／Ｂ比（以下、「初期Ｄ／Ｂ比」と称する。）からのエンハンスメント量ｄを変数として示した図である。また、図７Ｂは、ヘッドホン・イヤホン再生による、全１０番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、９５％信頼区間とを、初期Ｄ／Ｂ比からのエンハンスメント量ｄを変数として示した図である。なお、評価者数はいずれも２５名である。

【0076】

図７Ａ，７Ｂに示されるように、ダイアログエンハンスメントにより聞き取りが改善されることが確認された。ただし、エンハンスメント量ｄが＋１２ｄＢ以上では、聞き取りの改善効果は飽和し、どの初期Ｄ／Ｂ比でも、評点は＋２に達しなかった。また、エンハンスメント量ｄが＋３ｄＢの場合、どの初期Ｄ／Ｂでも、聞き取りに関する評価カテゴリが変わるほどの効果はなかった。これは、エンハンスメント量ｄが小さいと、ダイアログエンハンスメントの効果を知覚しにくくなるためと考えられる。

【0077】

図７Ａ，７Ｂに示されるように、ダイアログエンハンスメントにより総合印象が低下する場合があることが確認された。これは、Ｄ／Ｂ比が大きくなりすぎると、番組の臨場感が損なわれることがあるためと考えられる。したがって、上限値ｅを＋１２ｄＢとし、本実施形態に係る音声信号処理装置１０のように、エンハンスメント量ｄが上限値ｅを超えない範囲で、エンハンスメント量ｄを所定値（例えば、＋６ｄＢ）だけ増加または減少させるように、第１の調整値ｂおよび第２の調整値ｃを決定することで、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。

【0078】

実施形態では特に触れていないが、コンピュータを、音声信号処理装置１０として動作させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

【0079】

あるいは、音声信号処理装置１０が行う各処理を実行するためのプログラムを記憶するメモリ、および、メモリに記憶されたプログラムを実行するプロセッサによって構成され、音声信号処理装置１０に搭載されるチップが提供されてもよい。

【0080】

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

【符号の説明】

【0081】

１０音声信号処理装置
１１音声信号調整部（第１の音声信号調整部）
１２音声信号調整部（第２の音声信号調整部）
１３音声信号合成部
１４調整値決定部
１４１調整値記憶部
１４２調整値選択部

【図1】