特表2023-545197 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴォイスエイジ・コーポレーションの特許一覧

特表2023-545197オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-10-26

(54)【発明の名称】オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス

(51)【国際特許分類】

G10L 19/02 20130101AFI20231019BHJP

G10L 19/008 20130101ALI20231019BHJP

G10L 19/00 20130101ALI20231019BHJP

G10L 25/18 20130101ALN20231019BHJP

【ＦＩ】

G10L19/02 150

G10L19/008 100

G10L19/00 100

G10L25/18

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023523155

(86)(22)【出願日】2021-10-14

(85)【翻訳文提出日】2023-06-13

(86)【国際出願番号】 CA2021051442

(87)【国際公開番号】W WO2022077110

(87)【国際公開日】2022-04-21

(31)【優先権主張番号】63/092,178

(32)【優先日】2020-10-15

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】504226412

【氏名又は名称】ヴォイスエイジ・コーポレーション

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】ヴァーツラフ・エクスラー

(57)【要約】

方法およびデバイスは、エンコーダ部分において、音信号のオーディオ帯域幅を検出する。デバイスは、音信号の分析器と、音信号の分析の結果を使用して、検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールとを備える。エンコーダ部分において、最終オーディオ帯域幅決定モジュールは音信号分析器の上流に配置される。方法およびデバイスは音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替える。エンコーダ部分において、音信号の検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと、検出されたオーディオ帯域幅の最終決定に応答する、オーディオ帯域幅切り替えが発生するフレームのカウンタと、音信号を符号化する前に音信号を減衰させるための、フレームのカウンタに応答する減衰器とを備える。

【特許請求の範囲】

【請求項1】

音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するためのデバイスであって、
前記音信号の分析器と、
前記音信号の分析の結果を使用して、検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと
を備え、前記音コーデックの前記エンコーダ部分において、前記最終オーディオ帯域幅決定モジュールが、前記音信号分析器の上流に配置される、
デバイス。

【請求項2】

前記音信号分析器が、前記音コーデックの前記エンコーダ部分の音信号コア符号化ステージに統合され、
前記最終オーディオ帯域幅決定モジュールが、前記音コーデックの前記エンコーダ部分の音信号前処理ステージに統合される、
請求項1に記載のオーディオ帯域幅検出デバイス。

【請求項3】

前記音信号分析器が、いくつかのスペクトル領域における前記音信号のスペクトルのエネルギーの平均値を計算する、請求項1または2に記載のオーディオ帯域幅検出デバイス。

【請求項4】

前記音信号分析器が、前記いくつかのスペクトル領域における前記音信号の前記スペクトルの前記エネルギーの最大値を計算する、請求項1から3のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項5】

前記音信号分析器が、複数の周波数帯域における前記音信号の前記スペクトルのエネルギーを計算し、前記スペクトル領域が、各々、前記周波数帯域のうちの少なくとも1つによって定義され、前記音信号分析器が、前記スペクトルの前記エネルギーの前記平均値および前記最大値を計算するために、前記周波数帯域における前記音信号の前記スペクトルの前記計算されたエネルギーを使用する、請求項4に記載のオーディオ帯域幅検出デバイス。

【請求項6】

前記音信号分析器が、前記いくつかのスペクトル領域のうちの領域における前記音信号の前記スペクトルの前記平均エネルギー値の長期値を計算する、請求項3から5のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項7】

前記音信号分析器が、前記スペクトル領域に関連するカウンタを更新する、請求項3から6のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項8】

前記音信号分析器が、前記音信号の前記スペクトルの前記平均エネルギー値の前記長期値と、前記音信号の前記スペクトルの前記エネルギーの前記最大値とに応答して、前記それぞれのスペクトル領域に関連するカウンタを増加または減少させる、請求項6に記載のオーディオ帯域幅検出デバイス。

【請求項9】

前記音信号分析器が、所与の持続時間のフレームにおいて音信号分析を実行し、前記所与の持続時間よりも長いまたは短いフレームにおいて音信号分析をスキップする、請求項3から8のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項10】

前記最終オーディオ帯域幅決定モジュールが、前記カウンタと所与のしきい値との間の比較に応答してオーディオ帯域幅間で切り替えるための決定ロジックを使用する、請求項7または8に記載のオーディオ帯域幅検出デバイス。

【請求項11】

前記最終オーディオ帯域幅決定モジュールの前記決定ロジックが、以前に決定されたオーディオ帯域幅にも応答する、請求項10に記載のオーディオ帯域幅検出デバイス。

【請求項12】

前記最終オーディオ帯域幅決定モジュールが、オーディオ帯域幅間の頻繁な切り替えを回避するために、ヒステリシスを使用する、請求項10または11に記載のオーディオ帯域幅検出デバイス。

【請求項13】

前記最終オーディオ帯域幅決定モジュールによって使用される前記ヒステリシスが、より低いオーディオ帯域幅からより高いオーディオ帯域幅への潜在的な切り替えの場合にはより短く、より高いオーディオ帯域幅からより低いオーディオ帯域幅への潜在的な切り替えの場合にはより長い、請求項12に記載のオーディオ帯域幅検出デバイス。

【請求項14】

前記音信号分析器が、現在のフレームの間、前記音コーデックの前記エンコーダ部分の音信号コア符号化ステージにおいて前記音信号を分析し、前記最終オーディオ帯域幅決定モジュールが、前記現在のフレームに続く次のフレームの間、前記音信号の前記エンコーダ部分の音信号前処理ステージにおいて前記検出されたオーディオ帯域幅に関する前記最終決定を行う、請求項1から13のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項15】

前記音信号が、複数のチャネルを含むマルチチャネル信号であり、前記最終オーディオ帯域幅決定モジュールが、前記チャネルの前記検出されたオーディオ帯域幅を共同パラメータとしてコーディングする、請求項3から8のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項16】

前記音信号の前記スペクトルが、MDCTステレオコーディングモードにおいて使用される前記音信号のMDCTスペクトルである、請求項3から15のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項17】

前記分析器が、所与の持続時間のフレームにおいてのみ前記音信号の分析を実行する、請求項3から16のいずれか一項に記載のオーディオ帯域幅検出デバイス。

【請求項18】

音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するためのデバイスであって、
少なくとも1つのプロセッサと、
前記プロセッサに結合され、実行されると、前記プロセッサに、
前記音信号の分析器と、
前記音信号の分析の結果を使用して、前記検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと
を実装させる非一時的命令を記憶するメモリと
を備え、
前記音コーデックの前記エンコーダ部分において、前記最終オーディオ帯域幅決定モジュールが、前記音信号分析器の上流に配置される、
デバイス。

【請求項19】

音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するためのデバイスであって、
少なくとも1つのプロセッサと、
前記プロセッサに結合され、実行されると、前記プロセッサに、
前記音信号を分析させ、
前記音信号の分析の結果を使用して、前記検出されたオーディオ帯域幅に関して最終的に決定させる
非一時的命令を記憶するメモリと
を備え、
前記音コーデックの前記エンコーダ部分において、前記検出されたオーディオ帯域幅に関する前記最終決定が、前記音信号の前記分析の上流で行われる、
デバイス。

【請求項20】

音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するための方法であって、
前記音信号を分析するステップと、
前記音信号の前記分析の結果を使用して、前記検出されたオーディオ帯域幅に関して最終的に決定するステップと
を含み、前記音コーデックの前記エンコーダ部分において、前記検出されたオーディオ帯域幅に関する前記最終決定が、前記音信号の前記分析の上流で行われる、
方法。

【請求項21】

前記音信号の前記分析が、前記音コーデックの前記エンコーダ部分の音信号コア符号化ステージに統合され、
前記検出されたオーディオ帯域幅に関する前記最終決定が、前記音コーデックの前記エンコーダ部分の音信号前処理ステージに統合される、
請求項20に記載のオーディオ帯域幅検出方法。

【請求項22】

前記音信号の前記分析が、いくつかのスペクトル領域における前記音信号のスペクトルのエネルギーの平均値を計算するステップを含む、請求項20または21に記載のオーディオ帯域幅検出方法。

【請求項23】

前記音信号の前記分析が、前記いくつかのスペクトル領域における前記音信号の前記スペクトルの前記エネルギーの最大値を計算するステップを含む、請求項20から22のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項24】

前記音信号の前記分析が、複数の周波数帯域における前記音信号の前記スペクトルのエネルギーを計算するステップを含み、前記スペクトル領域が、各々、前記周波数帯域のうちの少なくとも1つによって定義され、前記音信号の前記分析が、前記スペクトルの前記エネルギーの前記平均値および前記最大値を計算するために、前記周波数帯域における前記音信号の前記スペクトルの前記計算されたエネルギーを使用するステップを含む、請求項23に記載のオーディオ帯域幅検出方法。

【請求項25】

前記音信号の前記分析が、前記いくつかのスペクトル領域のうちの領域における前記音信号の前記スペクトルの前記平均エネルギー値の長期値を計算するステップを含む、請求項22から24のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項26】

前記音信号の前記分析が、前記スペクトル領域に関連するカウンタを更新するステップを含む、請求項22から25のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項27】

前記音信号の前記分析が、前記音信号の前記スペクトルの前記平均エネルギー値の前記長期値と、前記音信号の前記スペクトルの前記エネルギーの前記最大値とに応答して、前記それぞれのスペクトル領域に関連するカウンタを増加または減少させるステップを含む、請求項25に記載のオーディオ帯域幅検出方法。

【請求項28】

前記音信号の前記分析が、所与の持続時間のフレームにおいて実行され、前記所与の持続時間よりも長いまたは短いフレームにおいてスキップされる、請求項22から27のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項29】

前記検出されたオーディオ帯域幅に関する前記最終決定が、前記カウンタと所与のしきい値との間の比較に応答してオーディオ帯域幅間で切り替えるための決定ロジックを使用するステップを含む、請求項26または27に記載のオーディオ帯域幅検出方法。

【請求項30】

前記決定ロジックが、以前に決定されたオーディオ帯域幅にも応答する、請求項29に記載のオーディオ帯域幅検出方法。

【請求項31】

前記検出されたオーディオ帯域幅に関する前記最終決定が、オーディオ帯域幅間の頻繁な切り替えを回避するために、ヒステリシスを使用するステップを含む、請求項29または30に記載のオーディオ帯域幅検出方法。

【請求項32】

前記検出されたオーディオ帯域幅に関する前記最終決定によって使用される前記ヒステリシスが、より低いオーディオ帯域幅からより高いオーディオ帯域幅への潜在的な切り替えの場合にはより短く、より高いオーディオ帯域幅からより低いオーディオ帯域幅への潜在的な切り替えの場合にはより長い、請求項31に記載のオーディオ帯域幅検出方法。

【請求項33】

前記音信号の前記分析が、現在のフレームの間、前記音コーデックの前記エンコーダ部分の音信号コア符号化ステージにおいて前記音信号を分析するステップを含み、前記検出されたオーディオ帯域幅に関する前記最終決定が、前記現在のフレームに続く次のフレームの間、前記音信号の前記エンコーダ部分の音信号前処理ステージにおいて行われる、請求項20から32のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項34】

前記音信号が、複数のチャネルを含むマルチチャネル信号であり、前記検出されたオーディオ帯域幅に関する前記最終決定が、前記チャネルの前記検出されたオーディオ帯域幅を共同パラメータとしてコーディングするステップを含む、請求項22から27のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項35】

前記音信号の前記スペクトルが、MDCTステレオコーディングモードにおいて使用される前記音信号のMDCTスペクトルである、請求項22から34のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項36】

前記音信号の前記分析が、所与の持続時間のフレームにおいてのみ実行される、請求項22から35のいずれか一項に記載のオーディオ帯域幅検出方法。

【請求項37】

コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるためのデバイスであって、音コーデックのエンコーダ部分において、
コーディングされるべき前記音信号の検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと、
オーディオ帯域幅切り替えが発生するフレームのカウンタであって、前記フレームのカウンタが前記最終オーディオ帯域幅決定モジュールからの前記検出されたオーディオ帯域幅の最終決定に応答する、フレームのカウンタと、
前記音信号の符号化の前に前記音信号を減衰させるための、前記フレームのカウンタに応答する減衰器と
を備える、デバイス。

【請求項38】

前記オーディオ帯域幅切り替えデバイスが、前記第1のオーディオ帯域幅が前記第2のオーディオ帯域幅よりも低い場合、オーディオ帯域幅切り替えを実施し、前記第1のオーディオ帯域幅が前記第2のオーディオ帯域幅よりも高い場合、オーディオ帯域幅切り替えをスキップする、請求項37に記載のオーディオ帯域幅切り替えデバイス。

【請求項39】

前記最終オーディオ帯域幅決定モジュールからの前記検出されたオーディオ帯域幅最終決定に応答して前記フレームのカウンタを更新するための計算器を備える、請求項37または38に記載のオーディオ帯域幅切り替えデバイス。

【請求項40】

前記フレームのカウンタが所与の値よりも高いかどうかを判定するための比較器を備え、前記フレームのカウンタが前記所与の値よりも高い場合、前記減衰器が前記音信号を減衰させる、請求項37から39のいずれか一項に記載のオーディオ帯域幅切り替えデバイス。

【請求項41】

前記所与の値がゼロである、請求項40に記載のオーディオ帯域幅切り替えデバイス。

【請求項42】

前記減衰器が、前記音信号を減衰させるために減衰係数を使用する、請求項37から41のいずれか一項に記載のオーディオ帯域幅切り替えデバイス。

【請求項43】

前記減衰器が、前記フレームのカウンタとフレームの数に対応するオーディオ帯域幅切り替え遷移期間との関数として前記減衰係数を計算し、前記減衰が、より低い第1のオーディオ帯域幅からより高い第2のオーディオ帯域幅へのオーディオ帯域幅切り替え後に適用される、請求項42に記載のオーディオ帯域幅切り替えデバイス。

【請求項44】

前記減衰器が、前記音信号のスペクトルの高帯域部分をフェードインするために前記減衰係数を使用する、請求項42または43に記載のオーディオ帯域幅切り替えデバイス。

【請求項45】

前記減衰器が、前記音信号のスペクトルの高帯域部分の超広帯域ゲイン形状パラメータが追加的に処理される前に、前記ゲイン形状パラメータに前記減衰係数を適用する、請求項42または43に記載のオーディオ帯域幅切り替えデバイス。

【請求項46】

前記減衰器が、前記減衰係数を使用して、前記音信号のMDCTスペクトルの高帯域部分をフェードインする、請求項42または43に記載のオーディオ帯域幅切り替えデバイス。

【請求項47】

オーディオ帯域幅切り替えが、コーディングされた音信号に固有であり、オーディオ帯域幅切り替えに関連する余分なビットがデコーダに送信されず、オーディオ帯域幅切り替えに関して前記デコーダによって追加の処理が行われない、請求項37から46のいずれか一項に記載のオーディオ帯域幅切り替えデバイス。

【請求項48】

コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるためのデバイスであって、音コーデックのエンコーダ部分において、
少なくとも1つのプロセッサと、
前記プロセッサに結合され、実行されると、前記プロセッサに、
コーディングされるべき前記音信号の検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと、
オーディオ帯域幅切り替えが発生するフレームのカウンタであって、前記フレームのカウンタが前記最終オーディオ帯域幅決定モジュールからの前記検出されたオーディオ帯域幅最終決定に応答する、フレームのカウンタと、
前記音信号の符号化の前に前記音信号を減衰させるための、前記フレームのカウンタに応答する減衰器と
を実装させる非一時的命令を記憶するメモリと
を備える、デバイス。

【請求項49】

コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるためのデバイスであって、音コーデックのエンコーダ部分において、
少なくとも1つのプロセッサと、
前記プロセッサに結合され、実行されると、前記プロセッサに、
コーディングされるべき前記音信号の検出されたオーディオ帯域幅に関する最終決定を送達させ、
前記検出されたオーディオ帯域幅に関する前記最終決定に応答して、オーディオ帯域幅切り替えが発生するフレームをカウントさせ、
前記フレームのカウントに応答して、前記音信号の符号化の前に前記音信号を減衰させる
非一時的命令を記憶するメモリと
を備える、デバイス。

【請求項50】

コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるための方法であって、音コーデックのエンコーダ部分において、
コーディングされるべき前記音信号の検出されたオーディオ帯域幅に関する最終決定を送達するステップと、
前記検出されたオーディオ帯域幅の最終決定に応答して、オーディオ帯域幅切り替えが発生するフレームをカウントするステップと、
前記フレームのカウントに応答して、前記音信号の符号化の前に前記音信号を減衰させるステップと
を含む、方法。

【請求項51】

前記オーディオ帯域幅切り替え方法が、前記第1のオーディオ帯域幅が前記第2のオーディオ帯域幅よりも低い場合、オーディオ帯域幅切り替えを実施し、前記第1のオーディオ帯域幅が前記第2のオーディオ帯域幅よりも高い場合、オーディオ帯域幅切り替えをスキップする、請求項50に記載のオーディオ帯域幅切り替え方法。

【請求項52】

前記検出されたオーディオ帯域幅最終決定に応答して前記フレームのカウンタを更新するステップを含む、請求項50または51に記載のオーディオ帯域幅切り替え方法。

【請求項53】

前記フレームのカウンタが所与の値よりも高いかどうかを判定するステップを含み、前記フレームのカウンタが前記所与の値よりも高い場合、前記音信号が減衰される、請求項50から52のいずれか一項に記載のオーディオ帯域幅切り替え方法。

【請求項54】

前記所与の値がゼロである、請求項53に記載のオーディオ帯域幅切り替え方法。

【請求項55】

前記音信号を減衰させるために減衰係数を使用するステップを含む、請求項50から54のいずれか一項に記載のオーディオ帯域幅切り替え方法。

【請求項56】

前記フレームのカウントとフレームの数に対応するオーディオ帯域幅切り替え遷移期間との関数として減衰係数を計算するステップを含み、前記減衰が、より低い第1のオーディオ帯域幅からより高い第2のオーディオ帯域幅へのオーディオ帯域幅切り替え後に適用される、請求項54に記載のオーディオ帯域幅切り替え方法。

【請求項57】

前記音信号のスペクトルの高帯域部分をフェードインするために前記減衰係数を使用するステップを含む、請求項55または56に記載のオーディオ帯域幅切り替え方法。

【請求項58】

前記音信号のスペクトルの高帯域部分の超広帯域ゲイン形状パラメータが追加的に処理される前に、前記ゲイン形状パラメータに前記減衰係数を適用するステップを含む、請求項55または56に記載のオーディオ帯域幅切り替え方法。

【請求項59】

前記減衰係数を使用して、前記音信号のMDCTスペクトルの高帯域部分をフェードインするステップを含む、請求項55または56に記載のオーディオ帯域幅切り替え方法。

【請求項60】

オーディオ帯域幅切り替えが、コーディングされた音信号に固有であり、オーディオ帯域幅切り替えに関連する余分なビットがデコーダに送信されず、オーディオ帯域幅切り替えに関して前記デコーダによって追加の処理が行われない、請求項50から59のいずれか一項に記載のオーディオ帯域幅切り替え方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音コーディングに関し、特に、それだけには限らないが、オーディオ帯域幅検出のための方法およびデバイス、ならびに音コーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイスに関する。

【0002】

本開示および添付の特許請求の範囲において、
「音」という用語は、スピーチ、オーディオ、および任意の他の音に関連する場合があり、
「ステレオ」という用語は、「ステレオフォニック」の略語であり、
「モノ」という用語は、「モノフォニック」の略語である。

【背景技術】

【0003】

歴史的に、会話型電話通信は、ユーザの一方の耳だけに音を出力するために、1つのみのトランスデューサを有するハンドセットで実装されてきた。過去10年間で、ユーザは、主に音楽を聞くためだが、ときにはスピーチを聞くためにも、自分の両耳を介して音を受けるために、自分の携帯型ハンドセットをヘッドフォンと組み合わせて使用し始めた。それにもかかわらず、会話スピーチを送信および受信するために携帯型ハンドセットが使用される場合、コンテンツは、依然としてモノであるが、ヘッドフォンが使用される場合、ユーザの両耳に提示される。

【0004】

その全内容が参照により本明細書に組み込まれる、参考文献[1]に記載されている、最新の3GPP(登録商標)(第3世代パートナーシッププロジェクト)スピーチコーディング規格、拡張音声サービス(EVS(Enhanced Voice Services))のためのコーデックにより、コーディングされた音、例えば、携帯型ハンドセットを介して送信および受信されるスピーチおよび/またはオーディオの品質は、大幅に改善された。次の自然なステップは、受信側が、通信リンクの反対側においてキャプチャされた現実のオーディオシーンにできるだけ近づくようにステレオ情報を送信することである。

【0005】

オーディオコーデックにおいて、ステレオ情報の伝送が通常使用される。

【0006】

会話スピーチコーデックについて、モノ信号が標準である。ステレオ信号が送信される場合、ステレオ信号の左チャネルと右チャネルの両方がモノコーデックを使用してコーディングされるので、ビットレートは、しばしば2倍にされる必要がある。ビットレートを低減するために、効率的なステレオコーディング技法が開発され、使用されている。非制限的な例として、ステレオコーディング技法の使用について、以下の段落において議論する。

【0007】

第1のステレオコーディング技法は、パラメトリックステレオと呼ばれる。パラメトリックステレオは、一般的なモノコーデックと、ステレオイメージを表す特定の量のステレオサイド情報(ステレオパラメータに対応する)とを使用して、左および右の2つのチャネルをモノ信号として符号化する。左および右の2つの入力チャネルは、モノ信号にダウンミックスされ、次いで、ステレオパラメータは、通常、変換領域、例えば、離散フーリエ変換(DFT)領域において計算され、いわゆるバイノーラルキューまたはチャネル間キューに関連する。バイノーラルキュー(参考文献[3]、その全内容が参照により本明細書に組み込まれる)は、両耳間レベル差(ILD(Interaural Level Difference))と、両耳間時間差(ITD(Interaural Time Difference))、と両耳間相関(IC(Interaural Correlation))とを含む。信号特性、ステレオシーン構成などに応じて、いくつかまたはすべてのバイノーラルキューがコーディングされ、デコーダに送信される。どのようなバイノーラルキューがコーディングおよび送信されるかに関する情報は、通常はステレオサイド情報の一部であるシグナリング情報として送られる。特定のバイノーラルキューは、様々なコーディング技法を使用して量子化される可能性もあり、これにより、可変数のビットが使用されることになる。次いで、量子化されたバイノーラルキューに加えて、ステレオサイド情報は、通常は中程度以上のビットレートにおいて、ダウンミキシングから生じる量子化された残差信号を含む場合がある。残差信号は、エントロピーコーディング技法、例えば、算術エンコーダを使用してコーディングされることが可能である。一般に、パラメトリックステレオコーディングは、低ビットレートおよび中ビットレートにおいて最も効率的である。DFT領域において計算されたパラメータを有するパラメトリックステレオは、本開示ではDFTステレオと呼ぶ。

【0008】

別のステレオコーディング技法は、時間領域において動作する技法である。このステレオコーディング技法は、左および右の2つの入力チャネルを、いわゆるプライマリチャネルおよびセカンダリチャネルに混合する。例えば、その全内容が参照により本明細書に組み込まれる参考文献[4]に記載されている方法に従って、時間領域における混合は、プライマリチャネルおよびセカンダリチャネルの生成時の左および右の2つの入力チャネルのそれぞれの寄与を決定する混合比に基づくことができる。混合比は、いくつかのメトリック、例えば、ステレオ音信号のモノバージョンに対する左および右の入力チャネルの正規化された相関、または左および右の2つの入力チャネル間の長期的な相関差から導出される。プライマリチャネルは、一般的なモノコーデックによってコーディングされることが可能であり、セカンダリチャネルは、低ビットレートコーデックによってコーディングされることが可能である。セカンダリチャネルコーディングは、プライマリチャネルとセカンダリチャネルとの間のコヒーレンスを利用する場合があり、プライマリチャネルからのいくつかのパラメータを再利用する場合がある。時間領域のステレオは、本開示ではTDステレオと呼ぶ。一般に、TDステレオは、スピーチ信号をコーディングするための低ビットレートおよび中ビットレートにおいて最も効率的である。

【0009】

第3のステレオコーディング技法は、修正離散コサイン変換(MDCT(Modified Discrete Cosine Transform))領域において動作する技法である。この技法は、白色化されたスペクトル領域においてグローバルILDとミッド/サイド(M/S)処理とを計算しながらの左チャネルと右チャネルの両方の結合コーディングに基づく。この技法は、例えば、その全内容が参照により本明細書に組み込まれる参考文献[7]および[8]において記載されているMPEG(ムービングピクチャエキスパーツグループ(Moving Picture Experts Group))におけるTCX(変換符号化励振(Transform Coded eXcitation))コーディングから適応したいくつかのツール、例えば、TCXコアコーディング、TCX LTP(長期予測(Long-Term Prediction))分析、TCXノイズフィリング、周波数領域ノイズシェーピング(FDNS(Frequency-Domain Noise Shaping))、ステレオフォニックインテリジェントギャップフィリング(IGF(Intelligent Gap Filling))、および/またはチャネル間の適応ビット割り当てを使用する。一般に、この第3のステレオコーディング技法は、すべての種類のオーディオコンテンツを中ビットレートおよび高ビットレートにおいて符号化するのに効率的である。MDCT領域ステレオコーディング技法は、本開示ではMDCTステレオと呼ぶ。

【0010】

さらに、近年、オーディオの生成、記録、表現、コーディング、伝送、および再生は、リスナーにとって強化された対話型で没入型の体験へと移行している。没入体験は、例えば、すべての方向から音が来ている間に、音シーンに深く関わっているまたは関与している状態として説明されることが可能である。イマーシブオーディオ(3D(3次元)オーディオとも呼ばれる)において、音像は、音色、指向性、残響、透明度、および(聴覚の)広大さの正確さなどの広範囲の音特性を考慮して、リスナーの周囲の3次元すべてにおいて再生される。イマーシブオーディオは、ラウドスピーカベースのシステム、統合再生システム(サウンドバー)、またはヘッドフォンなどの、特定の音プレイバックまたは再生システム用に生成される。次いで、音再生システムの対話性は、例えば、音レベルを調整する能力、音の位置を変更する能力、または再生するための異なる言語を選択する能力を含む場合がある。

【0011】

没入体験を達成する3つの基本的な手法が存在する。

【0012】

没入体験を達成する第1の手法は、異なる方向からの音をキャプチャするために複数の離間したマイクロフォンを使用するチャネルベースのオーディオ手法であり、1つのマイクロフォンは、特定のラウドスピーカレイアウトにおける1つのオーディオチャネルに対応する。次いで、記録された各チャネルは、所与の場所におけるラウドスピーカに供給される。チャネルベースのオーディオ手法の例は、例えば、ステレオ、5.1サラウンド、5.1+4などである。一般に、チャネルベースのオーディオは、複数のコアコーダによってコーディングされ、コアコーダの数は、通常、記録されたチャネルの数に対応する。例えば、チャネルは、例えば、TDステレオまたはMDCTステレオコーディング技法を使用して、複数のステレオコーダによってコーディングされる。チャネルベースのオーディオは、本開示ではマルチチャネル(MC(Multi-Channel))フォーマット手法と呼ばれる。

【0013】

没入体験を達成する第2の手法は、次元成分の組合せによって、局所化された空間上の所望の音場を時間の関数として表すシーンベースのオーディオ手法である。音場がレンダラにおけるラウドスピーカの選択されたレイアウトに変換される間、シーンベースのオーディオ(SBA)を表す音信号は、オーディオソースの位置に依存しない。シーンベースのオーディオの例は、アンビソニックスである。いくつかのSBAコーディング技法が存在するが、最も知られているのは、おそらく、例えば、その全内容が参照により本明細書に組み込まれる参考文献[6]に記載されているように指向性オーディオコーディング(DirAC(Directional Audio Coding))である。DirACエンコーダは、複素低遅延フィルタバンク(CLDFB(Complex Low Delay Filter Bank))領域においてアンビソニックス入力信号の分析を使用し、時間スロットおよび周波数スロットにおいてグループ化された方向および拡散性のような空間パラメータ(メタデータ)を推定し、入力チャネルをより少ない数のいわゆるトランスポートチャネル(典型的には、1、2、または4チャネル)にダウンミックスする。次いで、DirACデコーダは、空間メタデータを復号し、トランスポートチャネルから直接信号と拡散信号とを導出し、様々なリスニング構成に対応するためにそれらをラウドスピーカ設定またはヘッドフォン設定にレンダリングする。主にモバイルキャプチャデバイスを対象とするSBAコーディング技法の別の例は、例えば、その全内容が参照により本明細書に組み込まれる参考文献[9]に記載されているように、メタデータ支援空間オーディオ(MASA(Metadata-Assisted Spatial Audio))フォーマットである。MASA手法において、MASAメタデータ(例えば、すべていくつかの時間周波数スロット内の、方向、エネルギー比、拡散コヒーレンス、距離、サラウンドコヒーレンス)は、MASA分析器において生成され、量子化され、コーディングされ、ビットストリームに渡され、MASAオーディオチャネルは、コアエンコーダによってコーディングされたモノまたはマルチチャネルのトランスポート信号として処理される。次いで、MASAデコーダにおいて、MASAメタデータは、出力空間音を再作成するために、復号およびレンダリングプロセスを進める。

【0014】

没入体験を達成する第3の手法は、聴覚シーンを個々のオーディオ要素(例えば、歌手、ドラム、ギターなど)のセットとして、それらの位置などの情報を伴って表すオブジェクトベースのオーディオ手法であり、そのため、それらのオーディオ要素は、意図した位置において音再生システムによってレンダリング(トランスレート)されることが可能である。これは、各オブジェクトが個別に保持され、個別に操作されることが可能であるので、オブジェクトベースのオーディオ手法に非常に高い柔軟性および対話性を与える。各オーディオオブジェクトは、関連するメタデータを有するオーディオストリーム、すなわち波形で構成され、したがって、メタデータを有する独立ストリーム(ISm(Independent Stream with metadata))とみなされることも可能である。

【0015】

没入体験を達成するための上記で説明したオーディオ手法の各々は、長所と短所とを生じさせる。したがって、没入型聴覚シーンを作成するために、1つのオーディオ手法のみではなく、いくつかのオーディオ手法が複雑なオーディオシステムにおいて組み合わされることが一般的である。一例は、シーンベースまたはチャネルベースのオーディオをオブジェクトベースのオーディオと組み合わせるオーディオシステム、例えば、アンビソニックスを少数の離散的オーディオオブジェクトと組み合わせるオーディオシステムであることが可能である。

【0016】

近年、3GPP(第3世代パートナーシッププロジェクト)は、EVSコーデック(その全内容が参照により本明細書に組み込まれる参考文献[5]を参照)に基づいて、IVAS(没入型音声およびオーディオサービス(Immersive Voice and Audio Services))と呼ばれる没入型サービスのための3D(3次元)音コーデックを開発することに取り組み始めた。

【発明の概要】

【課題を解決するための手段】

【0017】

第1の態様によれば、本開示は、音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するためのデバイスに関し、このデバイスは、音信号の分析器と、検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールとを備え、音コーデックのエンコーダ部分において、最終オーディオ帯域幅決定モジュールは、音信号分析器の上流に配置される。

【0018】

第2の態様によれば、本開示は、音コーデックのエンコーダ部分において、コーディングされるべき音信号のオーディオ帯域幅を検出するための方法を提供し、この方法は、音信号を分析するステップと、音信号の分析の結果を使用して、検出されたオーディオ帯域幅に関して最終的に決定するステップとを含み、音コーデックのエンコーダ部分において、検出されたオーディオ帯域幅に関する最終決定は、音信号の分析の上流で行われる。

【0019】

本開示は、コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるためのデバイスにも関係し、このデバイスは、音コーデックのエンコーダ部分において、コーディングされるべき音信号の検出されたオーディオ帯域幅に関する最終決定を送達するための最終オーディオ帯域幅決定モジュールと、オーディオ帯域幅切り替えが発生するフレームのカウンタであって、フレームのカウンタが最終オーディオ帯域幅決定モジュールからの検出されたオーディオ帯域幅の最終決定に応答する、フレームのカウンタと、音信号の符号化の前に音信号を減衰させるための、フレームのカウンタに応答する減衰器とを備える。

【0020】

依然としてさらなる態様によれば、本開示は、コーディングされるべき音信号の第1のオーディオ帯域幅から第2のオーディオ帯域幅に切り替えるための方法を提供し、この方法は、音コーデックのエンコーダ部分において、コーディングされるべき音信号の検出されたオーディオ帯域幅に関する最終決定を送達するステップと、検出されたオーディオ帯域幅の最終決定に応答して、オーディオ帯域幅切り替えが発生するフレームをカウントするステップと、フレームのカウントに応答して、音信号の符号化の前に音信号を減衰させるステップとを含む。

【0021】

オーディオ帯域幅検出のための方法およびデバイスならびにオーディオ帯域幅切り替えのための方法およびデバイスの前述および他の目的、利点、および特徴は、添付図面に関連して例としてのみ与えられる、その例示的な実施形態の以下の非限定的な説明を読めば、より明らかになるであろう。

【図面の簡単な説明】

【0022】

【図1】オーディオ帯域幅検出においてカウンタを増加または減少させるための条件を示す概略フローチャートである。

【図2】入力音信号のコーディング時にオーディオ帯域幅間で切り替えるための最終オーディオ帯域幅決定のロジックを示す概略フローチャートである。

【図3A】従来のオーディオ帯域幅検出を使用するEVS音コーデックのエンコーダ部分の概略ブロック図である。

【図3B】本開示によるオーディオ帯域幅検出方法およびデバイスを使用するIVAS音コーデックのエンコーダ部分の概略ブロック図である。

【図4】2つのMDCTステレオチャネルのための結合パラメータとしてオーディオ帯域幅情報をコーディングするためのロジックを示す概略フローチャートである。

【図5】本開示によるオーディオ帯域幅切り替えのための方法およびデバイスを同時に示す概略ブロック図である。

【図6】MDCTステレオモードにおいて動作するIVASにおけるオーディオ帯域幅切り替え後のフレームにおける減衰係数の実際の値を示すグラフである。

【図7】強調された部分において広帯域から超広帯域へのオーディオ帯域幅の変化が発生するスピーチ信号のセグメントにおいて、復号品質に対するオーディオ帯域幅切り替え機構の影響を示す波形の例の図である。

【図8】オーディオ帯域幅検出のための方法およびデバイスとオーディオ帯域幅切り替えのための方法およびデバイスとを実装するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。

【発明を実施するための形態】

【0023】

本開示は、オーディオ帯域幅検出およびオーディオ帯域幅切り替え技法について説明する。

【0024】

オーディオ帯域幅検出およびオーディオ帯域幅切り替え技法について、非制限的な例のみとして、本開示を通じてIVASコーデック(またはIVAS音コーデック)と呼ばれるIVASコーディングフレームワークを参照して説明する。しかしながら、そのようなオーディオ帯域幅検出およびオーディオ帯域幅切り替え技法を任意の他の音コーデック内に組み込むことは、本開示の範囲内である。

【0025】

1.序論
具体的には、本開示は、IVASコーデックベースラインにおいて実装されるオーディオ帯域幅検出アルゴリズムを使用するオーディオ帯域幅検出のための方法およびデバイスと、同様にIVASコーデックベースラインにおいて実装されるオーディオ帯域幅切り替えアルゴリズムを使用するオーディオ帯域幅切り替えのための方法およびデバイスとについて説明する。

【0026】

IVASにおけるオーディオ帯域幅検出(BWD(Band-width Detection))アルゴリズムは、EVSにおけるBWDアルゴリズムと同様であり、ISmモード、DFTステレオモード、およびTDステレオモードにおいてその元の形態において適用される。しかしながら、BWDは、MDCTステレオモードにおいて適用されなかった。本開示において、MDCTステレオモード(より高いビットレートのDirACと、より高いビットレートのMASAと、マルチチャネルフォーマットとを含む)において使用される新しいBWDについて説明する。目標は、IVASにおいて欠落していたモードにBWDを導入すること(すなわち、すべての動作点において一貫してBWDを使用すること)である。

【0027】

本開示は、計算の複雑さを可能な限り低く保ちながら、IVASコーディングフレームワークにおいて使用されるオーディオ帯域幅切り替え(BWS(Band-width Switching))アルゴリズムについてさらに説明する。

【0028】

従来、スピーチおよびオーディオコーデック(音コーデック)は、一般に、有効なオーディオ帯域幅がナイキスト周波数に近い入力音信号を受信することを期待している。入力音信号の有効なオーディオ帯域幅がナイキスト周波数よりも大幅に低い場合、これらの従来のコーデックは、空の周波数帯域を表すために利用可能なビットバジェットの一部を浪費するので、通常は最適に機能しない。

【0029】

今日のコーデックは、広範囲のビットレートおよび帯域幅において種々雑多なオーディオ素材をコーディングするという点において柔軟であるように設計される。最先端のスピーチおよびオーディオコーデックの例は、3GPPにおいて標準化されたEVSコーデックである[1]。このコーデックは、音声、音楽、および混合コンテンツ信号を効率的に圧縮することができるマルチレートコーデックで構成される。すべてのオーディオ素材に対して高い主観的品質を保つために、このコーデックは、いくつかの異なるコーディングモードを備える。これらのモードは、所与のビットレート、入力音信号特性(例えば、スピーチ/音楽、有声/無声)、信号アクティビティ、およびオーディオ帯域幅に応じて選択される。最適なコーディングモードを選択するために、EVSコーデックは、BWDを使用する。EVSコーデックにおけるBWDは、入力音信号の有効なオーディオ帯域幅における変化を検出するように設計される。その結果、EVSコーデックは、知覚的に意味のある周波数成分のみを符号化し、利用可能なビットバジェットを最適な方法で分配するように柔軟に再構成されることが可能である。本開示において、EVSコーデックにおいて使用されるBWDについて、IVASコーディングフレームワークの文脈においてさらに詳述する。

【0030】

BWD変化の結果としてのコーデックの再構成は、コーデックの性能を改善する。しかしながら、この再構成は、再構成およびその関連するコーディングモード切り替えが慎重かつ適切に処理されない場合、アーティファクトをもたらす場合がある。アーティファクトは、通常、高周波(HF)成分(一般に、HFは、8kHzを超える周波数成分を指定することを意図している)の急激な変化と関連している。したがって、開示する帯域幅切り替え(BWS)アルゴリズムは、切り替えを平滑化し、BWDの変化がシームレスで心地よく、煩わしくないことを保証する。

【0031】

2.オーディオ帯域幅検出(BWD)
2.1 背景
図3Aは、オーディオ帯域幅検出を使用するEVS音コーデックのエンコーダ部分の概略ブロック図であり、図3Bは、本開示によるオーディオ帯域幅検出方法およびデバイスを使用するIVAS音コーデックのエンコーダ部分の概略ブロック図である。具体的には、図3Aは、ネイティブEVS音コーデック内に埋め込まれたBWDを示し、図3Bは、IVAS音コーデックのMDCTステレオモード内に埋め込まれた本開示によるBWDを示す。

【0032】

図3Aに示すように、強調されたBWD301は、入力音信号310のオーディオ帯域幅(BW)を検出する、EVSコーデック300のエンコーダ部分の前処理ステージ302の一部を形成する。BWDを含むEVS音コーデックに関する追加情報は、例えば、参考文献[1]において見出すことができる。

【0033】

図3Bにおいて、BWDがやはり強調されている。見られるように、本開示によるオーディオ帯域幅検出方法およびデバイスは、コーディングされるべき入力音信号320の実際のオーディオ帯域幅(BW)を検出するために、IVASコーデック305のエンコーダ部分のフロント前処理ステージ303およびコア符号化ステージ304に統合される。このオーディオ帯域幅情報は、特定の入力サンプリング周波数ではなく、特定のオーディオ帯域幅に合わせて調整されたその最適な構成においてIVASコーデック305を実行するために使用される。したがって、利用可能なビットバジェットは、最適な方法において分配され、その結果、コーディング効率を大幅に向上させる。例えば、入力サンプリング周波数が32kHzであるが、8kHzを超える「エネルギー的に」意味のあるスペクトル成分が存在しない場合、コーデックは、広帯域モードにおいてのみ動作することができ、より高い帯域(8kHzを超える)にビットバジェットの一部を浪費することはない。

【0034】

IVAS音コーデックに関する追加情報は、例えば、参考文献[5]において見出すことができる。

【0035】

IVASコーデック305におけるBWDアルゴリズムは、特定のスペクトル領域におけるエネルギーを計算し、それらを特定のしきい値と比較することに基づく。IVAS音コーデック305において、オーディオ帯域幅検出方法およびデバイスは、CLDFB値(ISm、TDステレオ)またはDFT値(DFTステレオ)において動作する。EVSコーデックに関連して参考文献[1]において記載されているAMR-WB IO(適応型マルチレート広帯域相互運用可能(Adaptive MultiRate WideBand InterOperable))モードにおいて、オーディオ帯域幅検出方法およびデバイスは、入力音信号オーディオ帯域幅を決定するためにDCT変換値を使用する。

【0036】

BWDアルゴリズム自体は、いくつかの動作、すなわち、
1)入力音信号320のいくつかのスペクトル領域における平均および最大エネルギー値の計算
2)長期パラメータおよびカウンタの更新、ならびに
3)検出され、したがってコーディングされたオーディオ帯域幅に関する最終決定
を含む。

【0037】

上記の最初の2つの動作1)および2)は、音信号コア符号化ステージ304に統合されたBWD分析器356によって実行されるBWD分析の動作306に統合され、最後の動作3)は、音信号前処理ステージ303に統合された最終オーディオ帯域幅決定モジュール(プロセッサ)357によって実行される最終BWD決定の動作307を形成する。図3Bに見られるように、最終オーディオ帯域幅決定モジュール357は、音コーデック305のエンコーダ部分においてBWD分析器356の上流に配置される。BWDに関連するEVSネイティブアルゴリズムの動作については、本明細書において後に参照し、紹介するが、その詳細な説明は、参考文献[1]のセクション5.1.6および5.1.7において見出すことができる。

【0038】

以下の説明において、実装の非制限的な例として、以下のオーディオ帯域幅/モード:狭帯域(NB(narrow-band)、0～4kHz)、広帯域(WB(wide-band)、0～8kHz)、超広帯域(SWB、0～16kHz)、および全帯域(FB(full-band)、0～24kHz)が定義される。

【0039】

2.2 BWD信号
BWDアルゴリズムを計算的に効率的に維持するために、オーディオ帯域幅検出のための方法およびデバイスは、以前のEVS前処理ステージ(参考文献[1]を参照)から利用可能な信号バッファおよびパラメータを可能な限り再利用する。EVSプライマリモードにおいて、これは、複素変調低遅延フィルタバンク(CLDFB(complex modulated low delay filter bank))値と、ローカルVADパラメータ(すなわち、ハングオーバなしの音声アクティビティ決定)と、以下で論じる総ノイズエネルギーの長期推定とを含む。

【0040】

IVASコーデックのCLDFB(図3Bにおける308を参照)は、入力音信号320から時間周波数行列を生成する。行列は、例えば、16個の時間スロットと、いくつかの周波数サブバンドとから構成されてもよく、各サブバンドの幅は、400Hzである。周波数サブバンドの数は、入力音信号320のサンプリングレートに依存する。

【0041】

一方、CLDFBモジュールは、離散コサイン変換(DCT(Discrete Cosine Transform))がBWDにおける入力信号オーディオ帯域幅を決定するために計算されるEVS AMR-WB IOモードにおいて存在しない。DCT値は、実装の非限定的な例において、入力サンプリングレートにおいてサンプリングされた音信号320の320個のサンプルに最初にハニングウィンドウを適用することによって取得される。次いで、ウィンドウ化信号は、DCT領域に変換され、最終的に、入力サンプリングレートに応じていくつかの周波数サブバンドに分解される。計算の複雑さを適度に低く維持するために、すべてのサンプリングレートにわたって一定の分析ウィンドウ長が使用されることが留意されるべきである。

【0042】

CLDFBに基づくBWDにおけるさらなる詳細は、その全内容が参照により本明細書に組み込まれる参考文献[2]において見出される。

【0043】

MDCTステレオモードにおいて、CLDFBに基づくBWDを非効率的にする計算負荷が非常に高いCLDFBは、必要とされない。したがって、本明細書において、前処理ステージ303におけるCLDFBおよびBWDの計算の複雑さを大幅に節約する、MDCTステレオのための新しいBWDアルゴリズムを開示する。

【0044】

スペクトルの高帯域部分が内容を有さない場合、またはオーディオ帯域幅がコマンドラインもしくは別の外部要求によって制限される場合、スペクトルの高帯域部分にビットが割り当てられないので、MDCTステレオコーディングモードにおけるオーディオ帯域幅検出のための方法およびデバイスは、より高い品質をもたらすことができる。さらに、オーディオ帯域幅検出のための方法およびデバイスは、異なるステレオコーディング技術間の切り替えを伴うビットレート切り替えを容易にするために、継続的に実行される。さらに、MDCTステレオモードにおけるオーディオ帯域幅検出のための方法およびデバイスは、より高いビットレートのDirAC、より高いビットレートのMASA、およびマルチチャネル(MC)フォーマットにおいてBWDを適用することを可能にする。

【0045】

MDCTステレオモードにおけるオーディオ帯域幅検出のための方法およびデバイスについて、以下に説明する。

【0046】

2.3 MDCTステレオにおけるBWD
(CLDFBまたは他の変換を含む)BWDに関連する計算の複雑さを増加させないために、MDCTステレオモードにおけるBWD分析器356は、フロント前処理ステージ303においてCLDFB値に適用されないが、後にTCXコアエンコーダ358において当MDCT値に適用される。

【0047】

TCXコアエンコーダ358は、いくつかのオプション、すなわち、ロングMDCTベースのTCX変換(TCX20)/ショートMDCTベースのTCX変換(TCX10)切り替え決定、コア信号分析(TCX-LTP、MDCT、時間ノイズシェーピング(TNS(Temporal Noise Shaping))、線形予測係数(LPC(Linear Prediction Coefficient))分析など)、エンベロープ量子化およびFDNS、コアスペクトルの細かい量子化、およびIGF(参考文献[1]のセクション5.3.3.2に記載されているように、これらの動作の多くは、EVSコーデックの一部でもある)を実行する。コア信号分析は、変換長とオーバラップ長とに基づいて適用されるウィンドウ化とMDCT計算とを含む。

【0048】

オーディオ帯域幅検出のための方法およびデバイスは、MDCTスペクトルをBWDアルゴリズムへの入力として使用する。アルゴリズムを単純化するために、BWD分析の動作306は、TCX20フレームとして選択され、遷移フレームではないフレームにおいてのみ実行され、これは、BWD分析が所与の持続時間のフレームにおいて実行され、この所与の持続時間よりも短いフレームおよび長いフレームにおいてスキップされることを意味する。これは、MDCTスペクトルの長さが入力サンプリングレートにおけるサンプルにおけるフレームの長さに常に対応することを保証する。また、MCフォーマットモードにおいて、低音効果(LFE(Low-Frequency Effect))チャネルにおいてBWDが適用されず、LFEチャネルは、低周波、例えば、0～120Hzのみを含み、したがって、フルレンジコアエンコーダを必要としない。また、当該技術分野において周知のように、入力音信号310/320は、所与のサンプリングレートにおいてサンプリングされ、いくつかの「サブフレーム」に分割された「フレーム」と呼ばれるこれらのサンプルのグループによって処理される。

【0049】

MDCTエネルギーベクトルの場合、関心のある9つの周波数帯域が存在し、各帯域の幅は、1500Hzである。Table 1(表1)において定義されているように、1～4の周波数帯域がスペクトル領域の各々に割り当てられる。

【0050】

【表1】

【0051】

上記のTable 1(表1)において、小文字におけるnb(狭帯域)、wb(広帯域)、swb(超広帯域)、およびfb(全帯域)は、それぞれのスペクトル領域を表し、iは、周波数帯域のインデックスであり、idx_startは、エネルギーバンドの開始インデックスであり、idx_endは、エネルギーバンドの終了インデックスである。

【0052】

2.3.1 MDCTスペクトルエネルギー計算
BWD分析の動作306は、入力サンプリングレートにおけるサンプルのフレーム長に等しい長さのMDCTスペクトルが考慮されなければならないという事実を考慮するために、本開示においてEVSネイティブBWDアルゴリズム(参考文献[1]を参照)からわずかに調整される。したがって、(EVS AMR-WB IOモードにおいて使用される)EVSネイティブBWDアルゴリズムのDCTベースのパスが用いられ、(EVSにおけるすべての入力サンプリングレートにおいて同じである)320個のサンプルの以前のDCTスペクトル長は、IVASのMDCTステレオモードにおいて入力サンプリングレートに比例してスケーリングされる。

【0053】

したがって、MDCTステレオモードにおける入力音信号320のMDCTスペクトルのエネルギーE_bin(i)は、以下のように9つの周波数帯域において計算され、

【0054】

【数1】

【0055】

ここで、iは、周波数帯域のインデックスであり、S(k)は、MDCTスペクトルであり、idx_startは、Table 1(表1)において定義されているエネルギーバンド開始インデックスであり、idx_endは、Table 1(表1)において定義されているエネルギーバンド終了インデックスであり、エネルギーバンドの幅は、b_width=60サンプル(サンプリングレートに関係なく1500Hzに対応する)である。

【0056】

上記の計算は、以下のようにソースコードにおいて実装され、ここで、「###」という記号は、EVSソースコードに関して新しいオーディオ帯域幅検出のための方法およびデバイスにおいて使用されるIVASソースコードの部分を識別する。
void bw_detect(
Encoder_State *st, /* i/o: Encoder State */
const float signal_in[], /* i : input signal */
const int16_t localVAD, /* i : local VAD flag */
const float spectrum[], /* i : MDCT spectrum */
const float enerBuffer[] /* i : CLDFB energy buffer */
)
{
#define BWD_TOTAL_WIDTH 320

if ( enerBuffer != NULL ) /* CLDFB-based processing in EVS native mode */
{
. . .
}
else
{
/* set width of a speactral bin (corresponds to 1.5kHz) */
if ( st->input_Fs == 16000 )
{
bw_max = WB;
bin_width = 60;
}
else if ( st->input_Fs == 32000 )
{
bw_max = SWB;
bin_width = 30;
}
else /* st->input_Fs == 48000 */
{
bw_max = FB;
bin_width = 20;
}
### if ( signal_in != NULL ) /* DCT-based processing in EVS AMR-WB IO */
### {
/* windowing of the input signal */
pt = signal_in;
pt1 = hann_window_320;

/* 1st half of the window */
for ( i = 0; i < BWD_TOTAL_WIDTH / 2; i++ )
{
in_win[i] = *pt++ * *pt1++;
}
pt1--;

/* 2nd half of the window */
for ( ; i < BWD_TOTAL_WIDTH; i++ )
{
in_win[i] = *pt++ * *pt1--;
}

/* tranform into frequency domain */
edct( in_win, spect, BWD_TOTAL_WIDTH, st->element_mode );
### }
### else /* MDCT-based processing in IVAS */
### {
### bin_width *= ( st->input_Fs / 50 ) / BWD_TOTAL_WIDTH;
### mvr2r( spectrum, spect, st->input_Fs / 50 );
### }

/* compute energy per spectral bins */
set_f( spect_bin, 0.001f, n_bins );

for ( k = 0; k <= bw_max; k++ )
{
for ( i = bwd_start_bin[k]; i <= bwd_end_bin[k]; i++ )
{
for ( j = 0; j < bin_width; j++ )
{
spect_bin[i] += spect[i * bin_width + j] * spect[i * bin_width + j];
}
spect_bin[i] = (float) log10( spect_bin[i] );
}
}
}
...
}

【0057】

2.3.2 周波数帯域ごとの平均および最大エネルギー値
BWD分析器356は、例えば、以下の関係
E(i)=log₁₀[E_bin(i)]、i=0,...,8, (1)
を使用して、周波数帯域におけるエネルギー値E_bin(i)を対数領域に変換し、ここで、iは、周波数帯域のインデックスである。

【0058】

BWD分析器356は、例えば、以下の関係

【0059】

【数2】

【0060】

を使用して、スペクトル領域ごとの平均エネルギー値を計算するために、周波数帯域ごとの対数エネルギーE(i)を使用する。

【0061】

最後に、BWD分析器356は、例えば、以下の関係

【0062】

【数3】

【0063】

を使用して、スペクトル領域ごとの最大エネルギー値を計算するために、周波数帯域ごとの対数エネルギーE(i)を使用し、ここで、スペクトル領域nb、wb、swb、およびfbは、Table 1(表1)において定義されている。

【0064】

2.3.3 長期カウンタ
BWD分析器356は、例えば、以下の関係

【0065】

【数4】

【0066】

を使用して、スペクトル領域nb、wb、およびswbに関する平均エネルギー値の長期値を更新し、ここで、λ=0.25は、更新係数の一例であり、上付き文字^[-1]は、前のフレームからのパラメータ値を示す。更新は、入力音信号320がアクティブであることをローカルVAD決定が示す場合、または長期背景ノイズレベルが30dBよりも高い場合にのみ行われる。これは、知覚的に意味のある成分を有するフレームにおいてのみパラメータが更新されることを保証する。ローカルVAD決定、アクティブ信号、および長期背景ノイズなどのパラメータ/概念に関する追加情報について、[2]への参照がなされる。

【0067】

次いで、BWD分析器356は、式(3)からのスペクトル領域ごとの現在の最大値も考慮しながら、式(4)からの長期エネルギー平均値を特定のしきい値と比較する。比較の結果に応じて、BWD分析器356は、図1に示すように、各スペクトル領域wb、swb、およびfbのためのカウンタを増加または減少させる。図1は、BWD分析動作306におけるカウンタを増加または減少させるための条件を示す概略フローチャートである。例えば、図1を参照すると、
「

【0068】

【数5】

【0069】

」(図1における101参照)および「2.5・E_wb,max>E_nb,max」(102参照)の場合、カウンタcnt_wbが、例えば、「1」だけ増加され(103参照)、
「

【0070】

【数6】

【0071】

」という条件(101参照)が満たされず、「3.5・E_wb<E_nb」(104参照)である場合、カウンタcnt_wbが、例えば、「1」だけ減少され(105参照)、
「

【0072】

【数7】

【0073】

」および「

【0074】

【数8】

【0075】

」(106参照)ならびに「2・E_swb,max>E_wb,max」(107参照)である場合、カウンタcnt_swbが、例えば、「1」だけ増加され(108参照)、
「

【0076】

【数9】

【0077】

」および「

【0078】

【数10】

【0079】

」という条件(106参照)が満たされず、「3・E_swb<E_wb」(109参照)である場合、カウンタcnt_swbが、例えば、「1」だけ減少され(110参照)、
「

【0080】

【数11】

【0081】

」、「

【0082】

【数12】

【0083】

」、および「

【0084】

【数13】

【0085】

」(111参照)、ならびに「3・E_fb,max>E_swb,max」(112参照)である場合、カウンタcnt_fbが、例えば、「1」だけ増加され(113参照)、
「

【0086】

【数14】

【0087】

」、「

【0088】

【数15】

【0089】

」、および「

【0090】

【数16】

【0091】

」という条件(111参照)が満たされず、「4.1・E_fb<E_swb」(114参照)である場合、カウンタcnt_fbが、例えば、「1」だけ減少される(115参照)。

【0092】

2.3.4 最終オーディオ帯域幅決定
図1において、BWD分析器356がテストをシーケンシャルな順序で実行する場合、オーディオ帯域幅に関する決定がこのロジックを使用して数回変更されることが起こる可能性がある。特定のオーディオ帯域幅の選択のたびに、特定のカウンタが、例えば「0」の最小値、または例えば「100」の最大値にリセットされる。オーディオ帯域幅カウンタは、0と100との間に制約され、カウンタの値は、BWの変化を決定するために、特定のしきい値と比較される。これらのしきい値は、検出されたオーディオ帯域幅と、その後コーディングされたオーディオ帯域幅との間の切り替えにおける頻繁な変化を回避するために、BWの変化(オーディオ帯域幅間の切り替え)が特定のヒステリシスで発生するように選択される。より低いBWからより高いBWへの潜在的な切り替えがテストされる場合、ヒステリシスは、より短くなる(例えば、EVSにおいて10フレーム)。HF成分の変化は、通常急激であり、主観的に顕著であるので、この短いヒステリシスは、HF成分の損失によるいかなる潜在的な品質劣化も回避する。一方、より高いBWからより低いBWへの潜在的な切り替えがテストされる場合、より長い(例えば、EVSにおいて90フレーム)ヒステリシスが適用される。この場合、スペクトルにおいて重要なHF成分が実質的に存在しないので、スペクトル成分の変化は、不自然に急激で煩わしくない。

【0093】

図2は、オーディオ帯域幅検出のための決定ロジックを示す概略フローチャートである。図2のロジックの出力は、最終オーディオ帯域幅決定である。図2を参照すると、最終オーディオ帯域幅決定モジュール357は、以下のように最終BWD決定の動作307を実行する。
最後のオーディオ帯域幅BW(最後のオーディオ帯域幅は、前のフレームにおいて決定されたオーディオ帯域幅を指す)がNB(狭帯域)であり、カウンタcnt_wb>10である(201参照)場合、モジュール357による最終オーディオ帯域幅決定は、WB(広帯域)である(202参照)。
最後のオーディオ帯域幅BWがNB(狭帯域)であり、カウンタcnt_wb>10であり(201参照)、カウンタcnt_swb>10である(203参照)場合、モジュール357による最終オーディオ帯域幅決定は、SWB(超広帯域)である(204参照)。
最後のオーディオ帯域幅BWがNB(狭帯域)であり、カウンタcnt_wb>10であり(201参照)、カウンタcnt_swb>10であり(203参照)、カウンタcnt_fb>10である(205参照)場合、モジュール357による最終オーディオ帯域幅決定は、FB(全帯域)である(206参照)。
最後のオーディオ帯域幅BWがWB(広帯域)であり、カウンタcnt_swb>10である(207参照)場合、モジュール357による最終オーディオ帯域幅決定は、SWB(超広帯域)である(208参照)。
最後のオーディオ帯域幅BWがWB(広帯域)であり、カウンタcnt_swb>10であり(207参照)、カウンタcnt_fb>10である(209参照)場合、モジュール357による最終オーディオ帯域幅決定は、FB(全帯域)である(210参照)。
最後のオーディオ帯域幅BWがSWB(超広帯域)であり、カウンタcnt_fb>10である(211参照)場合、モジュール357による最終オーディオ帯域幅決定は、FB(全帯域)である(212参照)。
最後のオーディオ帯域幅BWがFB(全帯域)(213参照)であり、
カウンタcnt_fb<10である(214参照)場合、モジュール357による最終オーディオ帯域幅決定は、SWB(超広帯域)であり(215参照)、
カウンタcnt_swb<10である(216参照)場合、モジュール357による最終オーディオ帯域幅決定は、WB(広帯域)であり(217参照)、
カウンタcnt_wb<10である(218参照)場合、モジュール357による最終オーディオ帯域幅決定は、NB(狭帯域)である(219参照)。
最後のオーディオ帯域幅BWがSWB(超広帯域)(220参照)であり、
カウンタcnt_swb<10である(221参照)場合、モジュール357による最終オーディオ帯域幅決定は、WB(広帯域)であり(222参照)、
カウンタcnt_wb<10である(223参照)場合、モジュール357による最終オーディオ帯域幅決定は、NB(狭帯域)である(224参照)。
最後のオーディオ帯域幅BWがWB(広帯域)であり、カウンタcnt_wb<10である(225参照)場合、モジュール357による最終オーディオ帯域幅決定は、NB(狭帯域)である(226参照)。

【0094】

図2からの最終オーディオ帯域幅決定は、適切な音信号コーディングモードを選択するために使用される。

【0095】

2.3.5 新たに追加されたコード
ソースコードにおいて、新たに追加されたコード(「###」シーケンスによってマークされている)は、以下のようであり得、以下の抜粋は、IVAS音コーデックのivas_mdct_core_whitening_enc()という関数からのものである。
for ( ch = 0; ch < CPE_CHANNELS; ch++ )
{
SetCurrentPsychParams( ... );

tcx_ltp_encode( ... );

core_signal_analysis_high_bitrate( ... );

### if ( sts[ch]->hTcxEnc->transform_type[0] == TCX_20 &&
### sts[ch]->hTcxCfg->tcx_last_overlap_mode != TRANSITION_OVERLAP )
### {
### if ( sts[ch]->mct_chan_mode != MCT_CHAN_MODE_LFE )
### {
### bw_detect( ... );
### }
### }
}

【0096】

現在のフレームにおけるTCXコア符号化(358参照)の開始時におけるBWD分析動作306に関連する計算は、結果として、最終BWD決定動作307が次のフレームのフロント前処理(303参照)に延期されることを有する。したがって、以前のEVS BWDアルゴリズムは、2つの部分(306および307参照)に分割され、BWD分析動作306(すなわち、周波数帯域ごとにエネルギー値を計算し、長期カウンタを更新すること)は、現在のTCXコアコーディングの開始時に行われ、最終BWD決定動作307は、TCXコア符号化が開始する前の次のフレームにおいてのみ行われる。

【0097】

図3は、EVSコーデック(図3A)およびIVASコーデック(図3B)におけるBWD関連要素の間の上記で論じた違いを示す。

【0098】

2.3.6 CPEにおけるBWD情報
MDCTステレオコーディングにおいて、入力およびしたがってコーディングされたオーディオ帯域幅に関する決定モジュール357からの最終BWD決定は、2つのチャネルの各々について別々にではなく、両方のチャネルについての共同決定として行われる。言い換えれば、MDCTステレオコーディングにおいて、両方のチャネルは、常に同じオーディオ帯域幅を使用してコーディングされ、コーディングされたオーディオ帯域幅に関する情報は、1つのチャネルペア要素(CPE(Channel Pair Element))(CPEは、ステレオコーディング技法を用いて2つのチャネルを符号化するコーディング技法である)ごとに1回だけ送信される。最終BWD決定が2つのCPEチャネル間で異なる場合、両方のCPEチャネルは、2つのチャネルのより広い方のオーディオ帯域幅BWを使用してコーディングされる。例えば、検出されたオーディオ帯域幅BWが第1のチャネルについてはWB帯域幅であり、第2のチャネルについてはSWB帯域幅である場合、第1のチャネルのコーディングされたオーディオ帯域幅BWは、SWB帯域幅に書き換えられ、SWB帯域幅情報は、ビットストリームにおいて伝送される。唯一の例外は、MDCTステレオチャネルのうちの一方がLFEチャネルに対応する場合であり、その場合、他方のチャネルのコーディングされたオーディオ帯域幅は、このチャネルのオーディオ帯域幅に設定される。これは、複数のMCチャネルがいくつかのMDCTステレオCPEを使用してコーディングされる場合にMCフォーマットモードにおいて主に適用される。

【0099】

最終オーディオ帯域幅決定モジュール357は、2つのMDCTステレオチャネルのための共同パラメータとしてオーディオ帯域幅情報(チャネルの検出されたオーディオ帯域幅)をコーディングするために図4のロジックを使用し得る。

【0100】

図4を参照すると、2つのCPEチャネルに関するオーディオ帯域幅が検出された場合、
MDCTステレオが使用されない場合(401参照)、
第1のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch1は、最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch1であり、第2のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch2は、最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch2であり(402参照)、オーディオ帯域幅情報は、2つのビットストリームパラメータを含み(404参照)、
MDCTステレオが使用される場合(401参照)
チャネルXがLFEチャネルである場合(403参照)、他のチャネルYをコーディングするためのオーディオ帯域幅BW_coded,chYは、最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,chYであり、オーディオ帯域幅情報は、1つのビットストリームパラメータであり(406参照)、
チャネルXがLFEチャネルではない場合(403参照)、
第1のチャネルをコーディングするための最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch1が第2のチャネルをコーディングするための最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch2と等しくない場合(407参照)、第1のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch1は、第2のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch2と等しく、BW_detected,ch1およびBW_detected,ch2の最大値と等しく(408参照)、オーディオ帯域幅情報は、1つのビットストリームパラメータであり(409参照)、
第1のチャネルをコーディングするための最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch1が第2のチャネルをコーディングするための最終オーディオ帯域幅決定モジュール357によって検出されたオーディオ帯域幅BW_detected,ch2と等しい場合(407参照)、第1のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch1は、第2のチャネルをコーディングするためのオーディオ帯域幅BW_coded,ch2と等しく、BW_detected,ch1と等しく(410参照)、オーディオ帯域幅情報は、1つのビットストリームパラメータである(411参照)。

【0101】

ブロック405、408、および410からのオーディオ帯域幅情報は、MDCTコアエンコーダ358(図3B)によって、2つのCPEチャネルのための共同パラメータとしてコーディングされる。

【0102】

IVAS音コーデックのソースコードにおいて、最終BW決定ロジックは、以下のようになり得、ここで、新たに追加されたコードは、「###」シーケンスによってマークされている。
### void set_bw_stereo(
### CPE_ENC_HANDLE hCPE, /* i/o: CPE encoder structures */
### )
### {
### Encoder_State **st = hCPE->hCoreCoder;
###
### if ( hCPE->element_mode == IVAS_CPE_MDCT )
### {
### /* do not check band-width in LFE channel */
### if ( sts[0]->mct_chan_mode == MCT_CHAN_MODE_LFE)
### {
### st[0]->bwidth = st[0]->input_bwidth;
### }
### else if ( sts[1]->mct_chan_mode == MCT_CHAN_MODE_LFE)
### {
### st[1]->bwidth = st[1]->input_bwidth;
### }
### /* ensure that both CPE channels have the same audio band-width */
### else if ( st[0]->input_bwidth == st[1]->input_bwidth )
### {
### st[0]->bwidth = st[0]->input_bwidth;
### st[1]->bwidth = st[0]->input_bwidth;
### }
### else if( st[0]->input_bwidth != st[1]->input_bwidth )
### {
### st[0]->bwidth = max( st[0]->input_bwidth, st[1]->input_bwidth );
### st[1]->bwidth = max( st[0]->input_bwidth, st[1]->input_bwidth );
### }
### }
###
### st[0]->bwidth = max( st[0]->bwidth, WB );
### st[1]->bwidth = max( st[1]->bwidth, WB );
###
### return;
### }

【0103】

上記の関数は、コアコーデック構成ブロックにおいて、すなわち、フロント前処理の終了時、TCXコアコーディングが開始する前に実行される。

【0104】

共同オーディオ帯域幅情報コーディングの同じ原理は、TDステレオにおいてなどの2つのコアエンコーダを使用して2つのチャネルをコーディングする他のステレオコーディング技法において使用されることが可能であることが留意される。

【0105】

3.帯域幅切り替え(BWS)
3.1 背景
EVSコーデックにおいて、オーディオ帯域幅BWの変化は、ビットレートの変化またはコーディングされたオーディオ帯域幅の変化の結果として発生する場合がある。広帯域(WB)から超広帯域(SWB)への変化、またはSWBからWBへの変化が発生した場合、エンドユーザに関する知覚品質を改善するために、デコーダにおけるオーディオ帯域幅切り替え後処理が実行される。WBからSWBへの切り替えに対して、平滑化が適用され、SWBからWBへの切り替えに対して、ブラインドオーディオ帯域幅拡張が用いられる。EVS BWSアルゴリズムの要約を以下の段落において示すが、参考文献[1]のセクション6.3.7において、より多くの情報を見出すことができる。

【0106】

まず、EVSにおいて、オーディオ帯域幅切り替え検出器は、送信されたBW情報を受信し、そのようなBW情報に応答して、オーディオ帯域幅切り替えが存在するかどうかを検出し(参考文献[1]のセクション6.3.7.1)、したがってカウンタをほとんど更新しない。次いで、SWBからWBへの切り替えの場合、スペクトルの高帯域(HB)部分(HB>8kHz)は、最後のフレームのSWB帯域幅拡張(BWE(Band-Width Extension))技術に基づいて次のフレームにおいて推定される。HBスペクトルは、40フレームにおいてフェードアウトされるが、SWB BWEパラメータの推定を実行するために、出力サンプリングレートにおける時間領域信号が使用される。一方、WBからSWBへの切り替えの場合、スペクトルのHB部分は、20フレームにおいてフェードされる。

【0107】

3.2 問題
IVASにおいて、EVSにおいて使用されるBWS技法は、デコーダにおいて実装されることが可能であるが、EVSネイティブBWSアルゴリズムにおけるビットレート制限により、決して適用されない。さらに、EVSネイティブBWSアルゴリズムは、TCXコアにおけるBWSをサポートしない。最後に、時間領域信号は、アルゴリズム推定を実行するために利用することができないので、EVSネイティブBWSアルゴリズムは、DFTステレオCNG(コンフォートノイズ生成(Comfort Noise Generation))フレームにおいて適用することができない。

【0108】

3.3 IVASにおけるBWS
したがって、IVAS音コーデックにおいて、新しい異なるBWSアルゴリズムが実装される。

【0109】

まず、そのようなBWSアルゴリズムは、IVAS音コーデックのエンコーダ部分において実装される。この選択は、EVSネイティブのものと比較して、IVAS BWSアルゴリズムの非常に低いフットプリントの複雑さの利点を有する。

【0110】

別の設計上の選択は、IVASにおけるBWSアルゴリズムが、より低いBWからより高いBWへの切り替え(例えば、WBからSWBへの切り替え)のためにのみ実装されることである。この方向において、切り替えは、比較的高速であり(上記のセクション2.3.4を参照)、結果として生じる急激なHF成分の変化は、煩わしい可能性がある。したがって、新しい異なるBWSアルゴリズムは、そのような切り替えを平滑化するように設計される。一方、この方向において、スペクトルにおいて重要なHF成分が実質的に存在しないため、スペクトル成分の変化は、不自然に急激で煩わしくないので、より高いBWからより低いBWへの切り替えについて特別な処理は実装されない。

【0111】

3.4 提案するBWS
図5は、本開示によるオーディオ帯域幅切り替えのための方法500およびデバイス550を同時に示す概略ブロック図である。図5に示すように、オーディオ帯域幅切り替えのための方法は、最終オーディオ帯域幅決定動作307と、cnt_{bwidth_sw}カウンタ更新動作502と、比較動作503と、高帯域スペクトルフェードイン動作504とを含む。同様に図5に示すように、オーディオ帯域幅切り替えのためのデバイスは、最終BWD決定動作307を実行するための最終オーディオ帯域幅決定モジュール357と、cnt_{bwidth_sw}カウンタ更新動作502を実行するための計算器552と、比較動作503を実行するための比較器553と、高帯域スペクトルフェードイン動作504を実行するための減衰器554とを備える。

【0112】

図5の方法500およびデバイス550によって使用される提案するBWSアルゴリズムは、合成におけるアーティファクトを除去しながら、IVAS音コーデックのエンコーダ部分においてすでにオーディオ帯域幅切り替えの知覚的影響を平滑化する。スペクトルの高帯域(HB>8kHz)部分は、最終オーディオ帯域幅決定モジュール357によって示されているように、BWSインスタンスの後、いくつかの連続するフレームにおいて減衰される。より具体的には、HBスペクトルのゲインは、減衰器554においてフェードインされ、したがって、不快なアーティファクトを回避するために、BWSの場合にスマートに制御される。減衰は、HBスペクトルがコアエンコーダ555および対応するコア符号化動作505において量子化および符号化される前に適用されるので、平滑化されたBW遷移は、送信ビットストリーム506においてすでに存在し、デコーダにおいて、さらなる処理は、必要とされない。例えば、WBからSWBへのオーディオ帯域幅切り替えの場合、8kHzを超える周波数に対応するHBスペクトルは、さらに処理する前に平滑化される。言い換えれば、オーディオ帯域幅切り替えは、コーディングされた音信号に固有であり、オーディオ帯域幅切り替えに関連する余分なビットがデコーダに送信されず、オーディオ帯域幅切り替えに関してデコーダによって追加の処理が行われない。

【0113】

3.4.1 BWS技法
図5のオーディオ帯域幅切り替えのための方法およびデバイスのBWS機構は、以下のように機能する。

【0114】

まず、計算器552は、以下のように、最終BWD決定307に基づいて、IVASトランスポートチャネルごとに前処理の終了時に、オーディオ帯域幅切り替えが発生し、減衰が適用されるフレームのカウンタcnt_{bwidth_sw}を更新する。

【0115】

計算器552は、フレームのカウンタcnt_{bwidth_sw}の値を「0」の初期値に最初に設定する。最終オーディオ帯域幅決定モジュール357からの最終BWD決定に応答して、より低いオーディオ帯域幅からより高いオーディオ帯域幅へのBW変化、典型的には、WBからSWBまたはFBへのBW変化が検出されると、フレームのカウンタの値は、1だけ増加される。次に続くフレームにおいて、以下に定義するように、カウンタは、その最大値B_tranに達するまで、フレームごとに1だけ増加される。カウンタがその最大値B_tranに達すると、カウンタは、0にリセットされ、BW切り替えの新しい検出が発生することができる。

【0116】

ソースコードにおいて、新たに追加されたコード(「###」シーケンスによってマークされている)は、以下のようであり得る。コードの抜粋は、IVAS音コーデックの関数core_switching_pre_enc()の終わりに見出される。
### /*---------------------------------------------------------------------*
### * band-width switching from WB -> SWB/FB
### *---------------------------------------------------------------------*/
###
### if( st->bwidth_sw_cnt == 0 )
### {
### if( st->bwidth >= SWB && st->last_bwidth == WB )
### {
### st->bwidth_sw_cnt++;
### }
### }
### else
### {
### st->bwidth_sw_cnt++;
###
### if ( st->bwidth_sw_cnt == BWS_TRAN_PERIOD )
### {
### st->bwidth_sw_cnt = 0;
### }
### }

【0117】

次に、計算器552によって更新された、または更新されていないカウンタcnt_{bwidth_sw}が、比較器553によって決定されるように0よりも大きい場合、減衰器554は、フレームiにおける音信号に、例えば、以下の

【0118】

【数17】

【0119】

のように定義された減衰係数β_i(507)を適用し、ここで、cnt_{bwidth_sw}は、上述のオーディオ帯域幅切り替えフレームカウンタ(上記のソースコードにおけるbwidth_sw_cnt)であり、B_tran(上記のソースコードにおけるmacro BWS_TRAN_PERIOD)は、より低いBWからより高いBWへのBW切り替え後に減衰が適用されるフレームの数に対応するBWS遷移期間である。定数B_tranは、実験的に見出され、IVASフレームワークにおいて5に設定された。

【0120】

図6は、BWDがMDCTステレオモードにおいて動作するIVASにおけるBW変化を検出した後のフレームにおける減衰係数βの実際の値を示すグラフである。図6の非制限的な例は、BWの変化が可能な限り最速の時間(すなわち、10フレームのヒステリシス)で検出され、最終BWD決定が次に続くフレーム(n+11)において行われ、BWSが次のB_tran=5フレーム(フレームn+12からn+16)において適用されることを仮定する。最後に、減衰係数βは、以下のようにコーディングモードに応じてB_tranフレームにおいて適用される。

【0121】

TCXおよびHQコアフレーム(HQは、EVSにおける高品質MDCTコーダを表し、参考文献[1]のセクション5.3.4を参照)において、参考文献[1]のセクション5.3.2において定義された長さLのスペクトルX_M(k)の高帯域ゲインは、制御され、時間領域から周波数領域への変換直後のスペクトルX_M(k)の高帯域(HB)部分は、例えば、以下の関係
X'_M(k+L_WB)=β_i*X_M(k+L_WB)、i=0,...,B_tran-1
を使用して、減衰器554によって更新(フェードイン)され、ここで、L_WBは、WBオーディオ帯域幅に対応するスペクトルの長さであり、すなわち、20ミリ秒のフレーム長を有するIVASの例(通常のHQ、またはTCX20フレーム)においてL_WB=320サンプルであり、一時的フレームにおいてL_WB=80サンプルであり、TCX10フレームにおいてL_WB=160サンプルであり、kは、範囲[0,K-L_WB-1]におけるサンプルインデックスであり、ここで、Kは、特定の変換サブモード(通常、過渡的、TCX20、TCX10)におけるスペクトル全体の長さである。

【0122】

時間領域BWE(TBE)フレームを有するACELPコアにおいて、減衰器554は、スペクトルのHB部分のSWBゲイン形状パラメータが追加的に処理される前に、これらのパラメータに減衰係数β_iを適用する。時間ゲイン形状パラメータgs(j)は、参考文献[1]のセクション5.2.6.1.14.2において定義され、4つの値からなる。したがって、実装の一例において、
gs'(j)=β_i*gs(j)、i=0,...,B_tran-1
であり、ここで、j=0,...,3は、ゲイン形状番号である。

【0123】

周波数領域BWE(FD-BWE)フレームを有するACELPコアにおいて、参考文献[1]のセクション5.2.6.2.1において定義されている長さLの変換された元の入力信号X_M(k)の高帯域ゲインは、制御され、MDCTスペクトルのHB部分は、例えば、以下の関係、
X'_M(k+L_WB)=β_i*X_M(k+L_WB)、i=0,...,B_tran-1
を使用して、減衰器554によって更新される。

【0124】

NBコーディングは、IVASにおいて考慮されず、SWBからFBへの切り替えは、その主観的および客観的影響が無視できるので、扱われないことに留意されたい。しかしながら、上記と同じ原理は、すべてのBWSシナリオをカバーするために使用されることが可能である。

【0125】

次いで、減衰器554からの減衰された音信号は、コアエンコーダ555において符号化される。計算器552によって更新された、または更新されていないカウンタcnt_{bwidth_sw}が、比較器553によって決定されるように0よりも大きくない場合、音信号は、減衰なしでコアエンコーダ555において符号化される。

【0126】

3.4.2 BWSの影響の例
図7は、復号品質に対するBWS機構の影響を示す波形の例である。具体的には、図7は、強調された部分においてWBからSWBへのBWの変化が発生する音信号のセグメント(この例では、0.3秒の長さ)を示す。図7は、上から順に、(1)入力信号波形、(2)BWパラメータ(値1がWBに対応し、値2がSWBに対応する)、(3)BWSが適用されない場合の復号合成波形、(4)BWSが適用されない場合の復号合成スペクトル、(5)BWSが適用された場合の復号合成波形、および(6)BWSが適用された場合の復号合成スペクトルを示す。また、図7において矢印によって強調されているように、BWSが適用された場合の復号合成は、周波数領域におけるHFにおいて、それぞれ、時間領域において急激なエネルギー増加の影響を受けないことが観察される可能性がある。その結果、本明細書で開示するBWS技法が使用される場合、アーティファクト(煩わしいクリック)が合成から除去される。

【0127】

4.ハードウェア実装
図8は、オーディオ帯域幅検出方法およびデバイスと、オーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305の上記で説明したエンコーダ部分を形成するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。

【0128】

オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分は、モバイル端末の一部として、ポータブルメディアプレーヤの一部として、または任意の同様のデバイスにおいて実装され得る。オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分(図8において800として識別される)は、入力802と、出力804と、プロセッサ806と、メモリ808とを備える。

【0129】

入力802は、図3Bの入力音信号320を、デジタルまたはアナログ形式において受信するように構成される。出力804は、出力された、コーディングされた音信号を供給するように構成される。入力802および出力804は、共通モジュール、例えば、シリアル入力/出力デバイスにおいて実装され得る。

【0130】

プロセッサ806は、入力802、出力804、およびメモリ808に動作可能に結合される。プロセッサ806は、図3Bに示すようなオーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分の様々な構成要素の機能を支援するコード命令を実行するための1つまたは複数のプロセッサとして実現される。

【0131】

メモリ808は、プロセッサ806によって実行可能なコード命令を記憶するための非一時的メモリ、具体的には、実行されると、本開示において説明するオーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305の上記で説明したエンコーダ部分の動作および構成要素をプロセッサに実装させる非一時的命令を含む/記憶するプロセッサ読み取り可能なメモリを備え得る。メモリ808はまた、プロセッサ806によって実行される様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを備えてもよい。

【0132】

当業者は、オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分の説明が単なる例示であり、決して制限することを意図していないことを理解するであろう。他の実施形態は、本開示の利益を有する当業者に容易にそれ自体を示唆するであろう。さらに、オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305の開示するエンコーダ部分は、音を符号化および復号することの既存のニーズおよび問題に対する価値ある解決策を提供するようにカスタマイズされ得る。

【0133】

明瞭化のために、オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分の実装形態のルーチン機能のすべてを示し、説明しているわけではない。もちろん、オーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分の任意のそのような実際の実装形態の開発において、アプリケーション、システム、ネットワーク、およびビジネス関連の制約への準拠など、開発者の特定の目標を達成するために、多くの実装固有の決定が行われる必要がある場合があること、ならびにこれらの特定の目標が、実装ごとおよび開発者ごとに異なるであろうことは、理解されるであろう。さらに、開発努力は、複雑で時間がかかる場合があるが、それにもかかわらず、本開示の利益を有する音処理の分野における当業者にとっては、工学の日常的な仕事であることが理解されるであろう。

【0134】

本開示によれば、本明細書に記載の構成要素/プロセッサ/モジュール、処理動作、および/またはデータ構造は、様々なタイプのオペレーティングシステム、コンピューティングプラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機械を使用して実装され得る。それに加えて、当業者は、ハードワイヤードデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などの汎用性の低いデバイスも使用され得ることを認識するであろう。一連の動作およびサブ動作を含む方法がプロセッサ、コンピュータ、または機械によって実装され、それらの動作およびサブ動作がプロセッサ、コンピュータ、または機械によって読み取り可能な一連の非一時的コード命令として記憶され得る場合、それらは、有形および/または非一時的な媒体上に記憶され得る。

【0135】

本明細書に記載のオーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分は、本明細書に記載の目的に適したソフトウェア、ファームウェア、ハードウェア、またはソフトウェア、ファームウェア、もしくはハードウェアの任意の組合せを使用し得る。

【0136】

本明細書に記載のオーディオ帯域幅検出方法およびデバイスとオーディオ帯域幅切り替え方法およびデバイスとを使用するIVAS音コーデック305のエンコーダ部分において、様々な動作およびサブ動作は、様々な順序において実行され得、動作およびサブ動作のうちのいくつかは、オプションである場合がある。

【0137】

本開示について、その非限定的で例示的な実施形態によって上記で説明してきたが、これらの実施形態は、本開示の趣旨および性質から逸脱することなく、添付の特許請求の範囲内で随意に変更され得る。

【0138】

5.参考文献
本開示は、以下の参考文献に言及し、その全内容は、参照により本明細書に組み込まれる。
(参考文献)
[1] 3GPP TS 26.445, v.16.1.0, “Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description”, July 2020.
[2] V. Eksler, M. Jelinek, and W. Jaegers, "Audio Bandwidth Detection in the EVS Codec," in Proc. IEEE Global Conf. on Signal and Information Processing (GlobalSIP), Orlando, FL, USA, 2015.
[3] F. Baumgarte, C. Faller, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles," IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003.
[4] T. Vaillancourt, “Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels,” PCT Application WO2017/049397A1.
[5] 3GPP SA4 contribution S4-170749, “New WID on EVS Codec Extension for Immersive Voice and Audio Services”, SA4 meeting #94, June 26-30, 2017, http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_94/Docs/S4-170749.zip
[6] V. Pulkki, C. Faller, "Directional audio coding: Filterbank and STFT-based design," in 120th AES Convention, Paper 6658, Paris, May 2006.
[7] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types”, Journal of the Audio Engineering Society, vol. 61 n° 12, pp. 956-977, December 2013.
[8] J. Herre et al., “MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding”, in 137th International AES Convention, Paper 9095, Los Angeles, October 9-12, 2014.
[9] 3GPP SA4 contribution S4-180462, “On spatial metadata for IVAS spatial audio input format”, SA4 meeting #98, April 9-13, 2018, https://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_98/Docs/S4-180462.zip

【符号の説明】

【0139】

300 EVSコーデック
301 BWD
302 前処理ステージ
303 フロント前処理ステージ、音信号前処理ステージ
304 コア符号化ステージ、音信号コア符号化ステージ
305 IVASコーデック、IVAS音コーデック
306 BWD分析の動作、BDW分析動作
307 最終BWD決定の動作、最終BWD決定動作、最終オーディオ帯域幅決定動作
310 入力音信号
320 入力音信号、音信号
356 BWD分析器
357 最終オーディオ帯域幅決定モジュール(プロセッサ)、最終オーディオ帯域幅決定モジュール、モジュール、決定モジュール
358 TCXコアエンコーダ
506 送信ビットストリーム
550 デバイス
552 計算器
553 比較器
554 減衰器
555 コアエンコーダ
802 入力
804 出力
806 プロセッサ
808 メモリ

【図1】