(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-25
(54)【発明の名称】事前設定されたジェネレータを用いたオーディオデータの処理の方法及び装置
(51)【国際特許分類】
G10L 19/26 20130101AFI20231218BHJP
G10L 25/30 20130101ALI20231218BHJP
【FI】
G10L19/26 B
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023536379
(86)(22)【出願日】2021-12-15
(85)【翻訳文提出日】2023-06-15
(86)【国際出願番号】 EP2021085852
(87)【国際公開番号】W WO2022129146
(87)【国際公開日】2022-06-23
(32)【優先日】2020-12-17
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2020-12-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ビスワス,アリジート
(57)【要約】
本願では、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法が記載され、デコーダは、オーディオデータの処理のために敵対的生成ネットワーク(GAN)のジェネレータを有し、方法は、(a)ジェネレータのためのパラメータの組によりオーディオデータの処理のためにジェネレータを事前設定するステップであり、パラメータは、訓練時に完全連結分布を用いてジェネレータを訓練することによって決定される、ステップと、(b)連結分布を変更するトランケーションモードを復号化時に決定し、決定されたトランケーションモードを連結分布に適用するようデコーダを事前設定するステップとを含む。更には、オーディオデータの処理のために敵対的生成ネットワークのジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法と、各々の装置とが記載される。更には、各々のシステム及びコンピュータプログラム製品も記載される。
【特許請求の範囲】
【請求項1】
オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法であって、前記デコーダは、オーディオデータの処理のための敵対的生成ネットワーク(GAN)のジェネレータを有し、前記ジェネレータはエンコーダ段及びデコーダ段を含み、前記エンコーダ段及び前記デコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、前記エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、前記ジェネレータは、前記コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、該連結の結果に基づいて連結分布を取得するよう構成される、前記方法において、
(a)前記ジェネレータのためのパラメータの組によりオーディオデータの処理のために前記ジェネレータを事前設定するステップであり、前記パラメータは、訓練時に完全連結分布を用いて前記ジェネレータを訓練することによって決定される、ステップと、
(b)前記連結分布を変更するトランケーションモードを復号化時に決定し、該決定されたトランケーションモードを前記連結分布に適用するよう前記デコーダを事前設定するステップと
を含む、方法。
【請求項2】
前記デコーダは、復号化時に、前記連結分布を変更する前記トランケーションモードを2つ以上のトランケーションモードから決定するよう事前設定される、
請求項1に記載の方法。
【請求項3】
前記2つ以上のトランケーションモードは、トランケーションオフのトランケーションモード、弱トランケーションのトランケーションモード、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモードを含む、
請求項2に記載の方法。
【請求項4】
ステップ(b)で、前記デコーダは、復号化時に、前記オーディオビットストリームのオーディオコンテンツ及び/又はビットストリームパラメータに基づいて前記トランケーションモードを決定するよう事前設定される、
請求項1乃至3のうちいずれか一項に記載の方法。
【請求項5】
前記オーディオコンテンツは、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含む、
請求項4に記載の方法。
【請求項6】
前記ビットストリームパラメータは、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含む、
請求項4又は5に記載の方法。
【請求項7】
ステップ(b)で、前記デコーダは、復号化時に、前記オーディオコンテンツが拍手を含む場合にトランケーションオフの前記トランケーションモードを決定するよう事前設定される、
請求項3を引用する請求項5に記載の方法。
【請求項8】
ステップ(b)で、前記デコーダは、復号化時に、前記オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つの前記トランケーションモードを決定するよう事前設定される、
請求項3を引用する請求項5に記載の方法。
【請求項9】
ステップ(b)で、前記デコーダは、復号化時に、前記ビットレートの前記指示が低ビットレートを示す場合にトランケーションオフの前記トランケーションモードを決定するよう事前設定される、
請求項3を引用する請求項6に記載の方法。
【請求項10】
ステップ(b)で、前記デコーダは、復号化時に、前記ビットレートの前記指示が高ビットレートを示す場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つの前記トランケーションモードを決定するよう事前設定される、
請求項3を引用する請求項6に記載の方法。
【請求項11】
ステップ(b)で、前記デコーダは、前記トランケーションモードを、使用されるべきトランケーションモードの指示に基づいて決定するよう事前設定され、当該指示は、前記オーディオビットストリームのメタデータに含まれる、
請求項1乃至10のうちいずれか一項に記載の方法。
【請求項12】
前記決定されたトランケーションモードを前記連結分布に適用することは、
トランケーション領域を取得するようトランケーション範囲に従って前記連結分布にカットオフを適用することと、
前記トランケーション領域にあるように前記トランケーション領域外の全ての値をリサンプリングすることと
を含む、
請求項1乃至11のうちいずれか一項に記載の方法。
【請求項13】
弱トランケーションの前記トランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされる、
請求項3を引用する請求項12に記載の方法。
【請求項14】
中間トランケーションの前記トランケーションモードは、-0.5から+0.5までのトランケーション範囲を適用するようセットされる、
請求項3を引用する請求項12又は13に記載の方法。
【請求項15】
強トランケーションの前記トランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされる、
請求項3を引用する請求項12乃至14のうちいずれか一項に記載の方法。
【請求項16】
前記完全連結分布は、ガウス分布又はラプラス分布である、
請求項1乃至15のうちいずれか一項に記載の方法。
【請求項17】
ステップ(a)は、前記完全連結分布を用いて前記ジェネレータを訓練することを含む、
請求項1乃至16のうちいずれか一項に記載の方法。
【請求項18】
ステップ(a)で、前記ジェネレータのための前記パラメータの組は、前記ジェネレータ及びディスクリミネータを含むGAN設定内の前記ジェネレータを訓練することによって決定され、該訓練することは、
(a)オーディオ訓練信号を前記ジェネレータに入力するステップと、
(b)前記ジェネレータによって、前記完全連結分布を用いて前記オーディオ訓練信号に基づいて処理済みオーディオ訓練信号を生成するステップと、
(c)一度に1つずつ、前記処理済みオーディオ訓練信号と、前記オーディオ訓練信号が導出された対応する原オーディオ信号とを前記ディスクリミネータに入力するステップと、
(d)前記ディスクリミネータによって、入力されたオーディオ信号が前記処理済みオーディオ訓練信号又は前記原オーディオ信号であるかどうかを判断するステップと、
(e)前記ディスクリミネータが前記処理済みオーディオ訓練信号を前記原オーディオ信号ともはや区別することができなくなるまで、前記ジェネレータの前記パラメータを繰り返し調整するステップと
を含む、
請求項1乃至17のうちいずれか一項に記載の方法。
【請求項19】
前記ジェネレータを訓練している間、トランケーションオフの前記トランケーションモードが適用される、
請求項18に記載の方法。
【請求項20】
オーディオデータの処理のために敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法であって、前記ジェネレータはエンコーダ段及びデコーダ段を含み、前記エンコーダ段及び前記デコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、前記エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、前記ジェネレータは、前記コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、該連結の結果に基づいて連結分布を取得するよう構成される、前記方法において、
(a)前記オーディオビットストリームを受け取るステップと、
(b)前記デコーダによってトランケーションモードを決定するステップと、
(c)前記オーディオデータを処理するために該オーディオデータを前記ジェネレータに入力するステップと、
(d)前記決定されたトランケーションモードを前記連結分布に適用して、トランケートされた連結分布を生成するステップと、
(e)前記トランケートされた連結分布に基づいて前記ジェネレータによって前記オーディオデータを処理するステップと、
(f)前記処理済みオーディオデータを前記ジェネレータからの出力として取得するステップと
を含む、方法。
【請求項21】
前記方法は、受け取られた前記オーディオビットストリームをコア復号化することを更に含む、
請求項20に記載の方法。
【請求項22】
前記トランケーションモードは、前記デコーダによって2つ以上のトランケーションモードから決定される、
請求項20又は21に記載の方法。
【請求項23】
前記2つ以上のトランケーションモードは、トランケーションオフのトランケーションモード、弱トランケーションのトランケーションモード、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモードを含む、
請求項22に記載の方法。
【請求項24】
ステップ(b)で、前記トランケーションモードは、前記デコーダによってオーディオコンテンツ及び/又はビットストリームパラメータに基づいて決定される、
請求項20乃至23のうちいずれか一項に記載の方法。
【請求項25】
前記オーディオコンテンツは、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含む、
請求項24に記載の方法。
【請求項26】
前記ビットストリームパラメータは、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含む、
請求項24又は25に記載の方法。
【請求項27】
ステップ(b)で、前記オーディオコンテンツが拍手を含む場合に、トランケーションオフの前記トランケーションモードが前記デコーダによって決定される、
請求項23を引用する請求項25に記載の方法。
【請求項28】
ステップ(b)で、前記オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に、弱トランケーション、中間トランケーション又は強トランケーションのうちの1つの前記トランケーションモードが前記デコーダによって決定される、
請求項23を引用する請求項25に記載の方法。
【請求項29】
ステップ(b)で、前記ビットレートの前記指示が低ビットレートを示す場合に、トランケーションオフの前記トランケーションモードが前記デコーダによって決定される、
請求項23を引用する請求項26に記載の方法。
【請求項30】
ステップ(b)で、前記ビットレートの前記指示が高ビットレートを示す場合に、弱トランケーション、中間トランケーション又は強トランケーションのうちの1つの前記トランケーションモードが前記デコーダによって決定される、
請求項23を引用する請求項26に記載の方法。
【請求項31】
ステップ(d)で、前記決定されたトランケーションモードを前記連結分布に適用することは、
トランケーション領域を取得するようトランケーション範囲に従って前記連結分布にカットオフを適用することと、
前記トランケーション領域にあるように前記トランケーション領域外の全ての値をリサンプリングすることと
を含む、
請求項20乃至30のうちいずれか一項に記載の方法。
【請求項32】
弱トランケーションの前記トランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされる、
請求項23を引用する請求項31に記載の方法。
【請求項33】
中間トランケーションの前記トランケーションモードは、-0.5から+0.5までのトランケーション範囲を適用するようセットされる、
請求項23を引用する請求項31又は32に記載の方法。
【請求項34】
強トランケーションの前記トランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされる、
請求項23を引用する請求項31乃至33のうちいずれか一項に記載の方法。
【請求項35】
前記連結分布は、ガウス分布又はラプラス分布である、
請求項20乃至34のうちいずれか一項に記載の方法。
【請求項36】
前記オーディオビットストリームはメタデータを含み、前記デコーダによって使用されるべきトランケーションモードの指示は、前記メタデータに含まれる、
請求項20乃至35のうちいずれか一項に記載の方法。
【請求項37】
オーディオビットストリームから処理済みオーディオデータを生成する装置であって、
(a)前記オーディオビットストリームを受け取る受信部と、
(b)トランケーションモードを決定する決定部と、
(c)オーディオデータを処理する敵対的生成ネットワーク(GAN)のジェネレータであり、前記ジェネレータはエンコーダ段及びデコーダ段を含み、前記エンコーダ段及び前記デコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、前記エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、前記ジェネレータは、前記コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、該連結の結果に基づいて連結分布を取得するよう構成される、前記ジェネレータと
を有し、
前記装置は、請求項20乃至36のうちいずれか一項に記載の方法を実行するよう構成される1つ以上のプロセッサを含む、
装置。
【請求項38】
受信された前記オーディオビットストリームをコア復号化するコアデコーダを更に含む、
請求項37に記載の装置。
【請求項39】
受信された前記オーディオビットストリームは、使用されるべきトランケーションモードを示すメタデータを更に含み、
前記装置は、前記受信されたオーディオビットストリームを逆多重化するデマルチプレクサを更に含む、
請求項37又は38に記載の装置。
【請求項40】
プロセッシング機能を備えたデバイスによって実行される場合に、該デバイスに、請求項1乃至19のうちいずれか一項に記載の方法を実行させる命令を有するコンピュータ可読記憶媒体を有するコンピュータプログラム製品。
【請求項41】
プロセッシング機能を備えたデバイスによって実行される場合に、該デバイスに、請求項20乃至36のうちいずれか一項に記載の方法を実行させる命令を有するコンピュータ可読記憶媒体を有するコンピュータプログラム製品。
【請求項42】
オーディオビットストリームから処理済みオーディオデータを処理する装置と、ジェネレータ及びディスクリミネータを有する敵対的生成ネットワークとを有し、
請求項1乃至36のうちいずれか一項に記載の方法を実行するよう構成されるシステム。
【請求項43】
オーディオビットストリームにオーディオデータを符号化する装置と、請求項37乃至39のうちいずれか一項に記載の、オーディオビットストリームから処理済みオーディオデータを生成する装置とを有するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法であって、デコーダがオーディオデータの処理のための敵対的生成ネットワーク(GAN)のジェネレータを有する方法に概して関係があり、具体的には、ジェネレータ及びデコーダを事前設定することに関係がある。本開示は、オーディオデータの処理のために敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法に更に関係がある。本開示は、各々の装置、各々のシステム、及びコンピュータプログラム製品に更に関係がある。
【0002】
いくつかの実施形態は、特にその開示を参照して本明細書で記載されるが、本開示は、そのような使用範囲に制限されず、より広いコンテキストに適用可能であることが認識されるだろう。
【背景技術】
【0003】
本開示の全体を通した背景技術の如何なる議論も、そのような技術が当該分野で広く知られていたり又は共通の一般的な知識の部分を形成したりすると認めるものとして決して見なされるべきではない。
【0004】
近年、ディープラーニングアプローチは、音声強調(speech enhancement)を含む様々な応用分野でますます魅力的になっている。一般に、先駆的な仕事はほとんどが深層畳み込みGAN(DCGANとして広く知られている。)に基づいている。現在までのディープラーニングアプローチのほとんどは音声ノイズ除去に関する。コーディングノイズからのオーディオの回復は困難な問題であることが留意されるべきである。直感的には、コーディングアーチファクトの削減及びノイズ除去は非常に関連していると考えることができる。しかし、所望の音響と高い相関性があるコーディングアーチファクト/ノイズの除去は、しばしば相関性が低い(ノイズ除去アプリケーションにおける)他のノイズタイプを除去することによりも複雑であるように見える。コーディングアーチファクトの特性は、コーデック及び用いられるコーディングツール、並びに選択されたビットレートに依存する。
【0005】
上記を考慮して、ディープラーニングに基づいたアプローチを改善するという必要性が依然として存在している。品質と多様性との間のトレードオフに関して柔軟性を改善することが特に必要とされている。
【発明の概要】
【0006】
本開示の第1の態様に従って、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法が提供され、デコーダは、オーディオデータの処理のための敵対的生成ネットワーク(GAN)のジェネレータを有し、ジェネレータはエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。方法は、(a)ジェネレータのためのパラメータの組によりオーディオデータの処理のためにジェネレータを事前設定するステップを含んでよく、パラメータは、訓練時に完全連結分布を用いてジェネレータを訓練することによって決定される。また、方法は、(b)連結分布を変更するトランケーションモードを復号化時に決定し、決定されたトランケーションモードを連結分布に適用するようデコーダを事前設定するステップを含んでよい。
【0007】
いくつかの実施形態において、デコーダは、復号化時に、連結分布を変更するトランケーションモードを2つ以上のトランケーションモードから決定するよう事前設定されてよい。
【0008】
いくつかの実施形態において、2つ以上のトランケーションモードは、トランケーションオフのトランケーションモード、弱トランケーションのトランケーションモード、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモードを含んでよい。
【0009】
いくつかの実施形態において、ステップ(b)で、デコーダは、復号化時に、オーディオビットストリームのオーディオコンテンツ及び/又はビットストリームパラメータに基づいてトランケーションモードを決定するよう事前設定されてよい。
【0010】
いくつかの実施形態において、オーディオコンテンツは、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含んでよい。
【0011】
いくつかの実施形態において、ビットストリームパラメータは、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含んでよい。
【0012】
いくつかの実施形態において、ステップ(b)で、デコーダは、復号化時に、オーディオコンテンツが拍手を含む場合にトランケーションオフのトランケーションモードを決定するよう事前設定されてよい。
【0013】
いくつかの実施形態において、ステップ(b)で、デコーダは、復号化時に、オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードを決定するよう事前設定されてよい。
【0014】
いくつかの実施形態において、ステップ(b)で、デコーダは、復号化時に、ビットレートの指示が低ビットレートを示す場合にトランケーションオフのトランケーションモードを決定するよう事前設定されてよい。
【0015】
いくつかの実施形態において、ステップ(b)で、デコーダは、復号化時に、ビットレートの指示が高ビットレートを示す場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードを決定するよう事前設定されてよい。
【0016】
いくつかの実施形態において、ステップ(b)で、デコーダは、トランケーションモードを、使用されるべきトランケーションモードの指示に基づいて決定するよう事前設定されてよく、当該指示は、オーディオビットストリームのメタデータに含まれる。
【0017】
いくつかの実施形態において、決定されたトランケーションモードを連結分布に適用することは、トランケーション領域を取得するようトランケーション範囲に従って連結分布にカットオフを適用することと、トランケーション領域にあるようにトランケーション領域外の全ての値をリサンプリングすることとを含んでよい。
【0018】
いくつかの実施形態において、弱トランケーションのトランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされてよい。
【0019】
いくつかの実施形態において、中間トランケーションのトランケーションモードは、-0.5から+0.5までのトランケーション範囲を適用するようセットされてよい。
【0020】
いくつかの実施形態において、強トランケーションのトランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされてよい。
【0021】
いくつかの実施形態において、完全連結分布は、ガウス分布又はラプラス分布であってよい。
【0022】
いくつかの実施形態において、ステップ(a)は、完全連結分布を用いてジェネレータを訓練することを含んでよい。
【0023】
いくつかの実施形態において、ステップ(a)で、ジェネレータのためのパラメータの組は、ジェネレータ及びディスクリミネータを含むGAN設定内のジェネレータを訓練することによって決定されてよく、訓練することは、
(a)オーディオ訓練信号をジェネレータに入力するステップと、
(b)ジェネレータによって、完全連結分布を用いてオーディオ訓練信号に基づいて処理済みオーディオ訓練信号を生成するステップと、
(c)一度に1つずつ、処理済みオーディオ訓練信号と、オーディオ訓練信号が導出された対応する原オーディオ信号とをディスクリミネータに入力するステップと、
(d)ディスクリミネータによって、入力されたオーディオ信号が処理済みオーディオ訓練信号又は原オーディオ信号であるかどうかを判断するステップと、
(e)ディスクリミネータが処理済みオーディオ訓練信号を原オーディオ信号ともはや区別することができなくなるまで、ジェネレータのパラメータを繰り返し調整するステップと
を含でよい。
【0024】
いくつかの実施形態において、ジェネレータを訓練している間、トランケーションオフのトランケーションモードが適用されてよい。
【0025】
本開示の第2の態様に従って、オーディオデータの処理のために敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法が提供され、ジェネレータはエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。方法は、(a)オーディオビットストリームを受け取るステップを含んでよい。方法は、(b)デコーダによってトランケーションモードを決定するステップを更に含んでよい。方法は、(c)オーディオデータを処理するためにオーディオデータをジェネレータに入力するステップを更に含んでよい。方法は、(d)決定されたトランケーションモードを連結分布に適用して、トランケートされた連結分布を生成するステップを更に含んでよい。方法は、(e)トランケートされた連結分布に基づいてジェネレータによってオーディオデータを処理するステップを更に含んでよい。方法は、(f)処理済みオーディオデータをジェネレータからの出力として取得するステップを更に含んでよい。
【0026】
いくつかの実施形態において、方法は、受け取られたオーディオビットストリームをコア復号化することを更に含んでよい。
【0027】
いくつかの実施形態において、トランケーションモードは、デコーダによって2つ以上のトランケーションモードから決定されてよい。
【0028】
いくつかの実施形態において、2つ以上のトランケーションモードは、トランケーションオフのトランケーションモード、弱トランケーションのトランケーションモード、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモードを含んでよい。
【0029】
いくつかの実施形態において、ステップ(b)で、トランケーションモードは、デコーダによってオーディオコンテンツ及び/又はビットストリームパラメータに基づいて決定されてよい。
【0030】
いくつかの実施形態において、オーディオコンテンツは、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含んでよい。
【0031】
いくつかの実施形態において、ビットストリームパラメータは、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含んでよい。
【0032】
いくつかの実施形態において、ステップ(b)で、オーディオコンテンツが拍手を含む場合に、トランケーションオフのトランケーションモードがデコーダによって決定されてよい。
【0033】
いくつかの実施形態において、ステップ(b)で、オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に、弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードがデコーダによって決定されてよい。
【0034】
いくつかの実施形態において、ステップ(b)で、ビットレートの指示が低ビットレートを示す場合に、トランケーションオフのトランケーションモードがデコーダによって決定されてよい。
【0035】
いくつかの実施形態において、ステップ(b)で、ビットレートの指示が高ビットレートを示す場合に、弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードがデコーダによって決定されてよい。
【0036】
いくつかの実施形態において、ステップ(d)で、決定されたトランケーションモードを連結分布に適用することは、トランケーション領域を取得するようトランケーション範囲に従って連結分布にカットオフを適用することと、トランケーション領域にあるようにトランケーション領域外の全ての値をリサンプリングすることとを含んでよい。
【0037】
いくつかの実施形態において、弱トランケーションのトランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされてよい。
【0038】
いくつかの実施形態において、中間トランケーションのトランケーションモードは、-0.5から+0.5までのトランケーション範囲を適用するようセットされてよい。
【0039】
いくつかの実施形態において、強トランケーションのトランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされてよい。
【0040】
いくつかの実施形態において、連結分布は、ガウス分布又はラプラス分布であってよい。
【0041】
いくつかの実施形態において、オーディオビットストリームはメタデータを含んでよく、デコーダによって使用されるべきトランケーションモードの指示は、メタデータに含まれてよい。
【0042】
本開示の第3の態様に従って、オーディオビットストリームから処理済みオーディオデータを生成する装置が提供される。装置は、(a)オーディオビットストリームを受け取る受信部を含んでよい。装置は、(b)トランケーションモードを決定する決定部を更に含んでよい。装置は、(c)オーディオデータを処理する敵対的生成ネットワーク(GAN)のジェネレータを更に含んでよく、ジェネレータはエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成され、また、装置は、オーディオデータの処理のために敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法を実行するよう1つ以上のプロセッサを更に含んでもよい。
【0043】
いくつかの実施形態において、装置は、受信されたオーディオビットストリームをコア復号化するコアデコーダを更に含んでよい。
【0044】
いくつかの実施形態において、受信されたオーディオビットストリームは、使用されるべきトランケーションモードを示すメタデータを更に含んでよい、装置は、受信されたオーディオビットストリームを逆多重化するデマルチプレクサを更に含んでもよい。
【0045】
本開示の第4の態様に従って、プロセッシング機能を備えたデバイスによって実行される場合に、デバイスに、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法を実行させる命令を有するコンピュータ可読記憶媒体を有するコンピュータプログラム製品が提供される。
【0046】
本開示の第5の態様に従って、プロセッシング機能を備えたデバイスによって実行される場合に、デバイスに、敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法を実行させる命令を有するコンピュータ可読記憶媒体を有するコンピュータプログラム製品が提供される。
【0047】
本開示の第6の態様に従って、オーディオビットストリームから処理済みオーディオデータを処理する装置と、ジェネレータ及びディスクリミネータを有する敵対的生成ネットワークとのシステムが提供され、システムは、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法を実行するよう構成される。
【0048】
本開示の第7の態様に従って、オーディオビットストリームにオーディオデータを符号化する装置と、オーディオビットストリームから処理済みオーディオデータを生成する装置とのシステムが提供される。
【0049】
これより、本開示の例示的な実施形態が、添付の図面を参照して、例として記載される。
【図面の簡単な説明】
【0050】
【
図1】オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法の例を表す。
【
図2】トランケートされた連結分布の2つの例及び完全連結分布の例を模式的に表す。
【
図4】ジェネレータ及びディスクリミネータを含むGAN設定内のジェネレータを訓練することによってジェネレータのためのパラメータの組を決定する例を表す。
【
図5】敵対的生成ネットワーク(GAN)のジェネレータを用いてオーディオビットストリームから処理済みオーディオデータを生成する方法の例を表す。
【
図6】オーディオビットストリームから処理済みオーディオデータを生成する装置の例を表す。
【
図7】プロセッシング機能を備えたデバイスの例を表す。
【発明を実施するための形態】
【0051】
[トランケーション]
トランケーションは、概して、所定の範囲外にある分布の値を前記所定の範囲内にあるようリサンプリングする動作に関係がある。オーディオデータが敵対的生成ネットワーク(GAN)のジェネレータに入力される場合に、ジェネレータのボトルネックレイヤは潜在特徴空間(latent feature space)表現にマッピングする。ボトルネック特徴又は潜在特徴空間表現はディメンション:[チャネル(又はフィルタ出力)の数×時間]を有する。チャネル次元に沿って、ボトルネック特徴と同じディメンションを有するランダムノイズベクトルzを連結すると、前記連結の結果として連結分布が得られる。記載されている方法及び装置は、前記連結分布を所望の範囲内でトランケートするために利用される。これは、ジェネレータによるオーディオのエンハンスメントを微調整して、品質と多様性との間のトレードオフに向けて改善することを可能にする。
【0052】
[オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法]
図1の例を参照すると、オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法が表されている。デコーダはオーディオデータを処理する敵対的生成ネットワーク(GAN)のジェネレータを有する。ステップS101で、ジェネレータは、ジェネレータのためのパラメータの組によりオーディオデータの処理のために事前設定される。パラメータは、訓練時に、以下で更に記載されるように訓練することによって決定される。ジェネレータは、オーディオデータの処理のために完全連結分布を使用する。ここで使用される完全連結分布(full concatenated distribution)は、トランケート(変更)されていない連結分布を指す。
【0053】
ジェネレータはエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間(潜在特徴空間表現)にマッピングするボトルネックレイヤであり、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。ジェネレータのアーキテクチャについて、以下で更により詳細に記載される。
【0054】
ステップS102で、方法の更なるステップとして、デコーダは、連結分布を変更するトランケーションモードを復号化時に決定し、決定されたトランケーションモードを連結分布に適用するよう事前設定される。
【0055】
上述されたように、本願で使用される「トランケーション」(truncation)という用語は、所定の範囲外にある分布(この場合に、連結分布)の値を前記所定の範囲内にあるようリサンプリングする動作を指す。更に、本願で使用される「復号化時」という用語は、推論中のデコーダの動作を指し、一方、「訓練時」という用語は、以下で更に記載されるようジェネレータを訓練することを指す。「訓練時」は、訓練されたジェネレータを取得するよう、「復号化時」より前に一度以上実行されてよい。
【0056】
図2の例を参照すると、トランケートされた連結分布の2つの例と、完全連結分布の例とが表されている。実施形態において、デコーダは、復号化時に、連結分布を変更するトランケーションモードを2つ以上のトランケーションモードから決定するよう事前設定されてよい。2つの以上のトランケーションモードは、実施形態において、トランケーションのトランケーションモード12c、弱トランケーションのトランケーションモード12b、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモード12aを含んでよい。トランケーションオフのトランケーションモード12cでは、連結分布に対してトランケーションは実行されなくてよい。弱トランケーションのトランケーションモード12bでは、トランケーションは、比較的広い範囲内で連結分布に対して実行されてよく、つまり、いくつかの値しか範囲外になる可能性がない。中間トランケーションのトランケーションモード及び強トランケーションのトランケーションモード12aでは、トランケーション操作のために定義された範囲はより狭くなり、つまり、多数の値が範囲外になる可能性がある。
【0057】
実施形態において、ステップS102で、デコーダは、復号化時に、オーディオビットストリームのオーディオコンテンツ及び/又はビットストリームパラメータに基づいてトランケーションモードを決定するよう事前設定されてよい。オーディオコンテンツは、実施形態において、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含んでよい。ビットストリームパラメータは、実施形態において、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含んでよい。
【0058】
実施形態において、ステップS102で、デコーダは、復号化時に、オーディオコンテンツが拍手を含む場合にトランケーションオフのトランケーションモードを決定するよう事前設定されてよい。ステップS102で、実施形態において、デコーダは、復号化時に、オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードを決定するよう事前設定されてよい。トランケーションモードのこの違いは、スピーチ、音楽及び/又は効果と比較して拍手が一般的にノイジーであるという事実に由来する。
【0059】
実施形態において、ステップS102で、デコーダは、復号化時に、ビットレートの指示が低ビットレートである場合にトランケーションオフのトランケーションモードを決定するよう事前設定されてよい。ステップS102で、実施形態において、デコーダは、復号化時に、ビットレートの指示が高ビットレートを示す場合に弱トランケーション、中間トランケーション又は強トランケーションのうちの1つのトランケーションモードを決定するよう事前設定されてよい。これは、低ビットレートコーディングがスペクトルホールを導入する可能性があるということで、低ビットレートでは、弱/疎コンディショニング信号が存在し、一方、高ビットレートでは、強/密コンディショニング信号が存在するという事実に起因する。コンディショニング(ガイディング)信号(又はコンディショニングパラメータ)は、無条件GANと比較してオーディオデータのより有意味な処理を可能にするようジェネレータに入力されてよく、ジェネレータは、ランダムノイズのみに基づいてオーディオデータを処理する。ここで、コンディショニング信号は、復号されたオーディオ信号(復号されたオーディオデータ)であってよい。
【0060】
実施形態において、ステップS102で、デコーダは、使用されるべきトランケーションモードの指示に基づいてトランケーションモードを決定するよう事前設定されてよく、当該指示は、オーディオビットストリームのメタデータに含まれる。この場合に、トランケーションモードの決定時にエンコーダ制御を実装することが可能であり得る。
【0061】
実施形態において、決定されたトランケーションモードを連結分布に適用することは、トランケーション領域を取得するようトランケーション範囲に従って連結分布に対してカットオフを適用することと、トランケーション領域にあるようトランケーション領域外の全ての値をリサンプリングすることとを含んでよい。
【0062】
トランケーション範囲は、例えば、トランケーションのために特定の上位閾値及び下位閾値をセットすることによって定義されてよい。これらの上位閾値及び下位閾値は、
図2の例で表されているように上位及び下位カットオフを定義し得る。トランケーション領域は、次いで、上位閾値及び下位閾値で実行された上位及び下位カットオフの間にある領域であると言える。
【0063】
実施形態において、弱トランケーションのトランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされてよい。-0.8及び+0.8の値は、カットオフを適用する上位及び下位閾値を定義する各々の正規化値に対応する。
【0064】
中間トランケーションのトランケーションモードは、実施形態において、-0.5から+0.5までのトランケーション範囲を適用するようセットされてよい。代替的に、又は追加的に、実施形態において、強トランケーションのトランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされてよい。
【0065】
完全連結分布のタイプ(非トランケート、トランケーションオフのトランケーションモード)は制限され得ないが、実施形態において、完全連結分布はガウス分布又はラプラス分布であってよい。完全連結分布は、ジェネレータに供給されるオーディオデータに応じて更に変化する可能性がある。
【0066】
[ジェネレータのアーキテクチャ]
ジェネレータのアーキテクチャは一般に制限されないが、既に上述されたように、ジェネレータはエンコーダ段及びデコーダ段を含む。ジェネレータのエンコーダ段及びデコーダ段は完全に畳み込みであってよく、デコーダ段はエンコーダ段をミラーリングしてよい。エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタ(例えば、複数のフィルタ)を有する複数のレイヤを含み、ジェネレータのエンコーダ段のボトルネックレイヤ(最後のレイヤ)は、エンコーダ段とデコーダ段との間のコーディングされたオーディオ特徴空間(潜在特徴空間表現)にマッピングし、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。
【0067】
例えば、ジェネレータのエンコーダ段及びデコーダ段は夫々、多数のL個のレイヤを含んでよく、各レイヤLには多数のN個のフィルタがある。Lは1以上の自然数であってよく、Nは1以上の自然数であってよい。N個のフィルタのサイズ(カーネルサイズとしても知られている。)は制限されず、ジェネレータによる生の(raw)オーディオデータの品質のエンハンスメントの要件に応じて選択されてよい。なお、フィルタサイズはL個のレイヤの夫々で同じであってよい。
【0068】
これより
図3の例を参照すると、
図3は、ジェネレータのアーキテクチャの非限定的な例を模式的に表し、オーディオデータは、第1ステップ1でジェネレータに入力されてよい。最初に表されているエンコーダレイヤ2(レイヤ番号L=1)は、フィルタサイズが31であるN=16個のフィルタを含み得る。二番目に表されているエンコーダレイヤ3(レイヤ番号L=2)は、フィルタサイズが31であるN=32個のフィルタを含み得る。後続のレイヤは、明りょうさ及び簡潔さのために省略される。三番目に表されているエンコーダレイヤ4(レイヤ番号L=11)は、フィルタサイズが31であるN=512個のフィルタを含み得る。
【0069】
各レイヤで、フィルタの数はこのようにして増えてよく、つまり、フィルタの数は、ジェネレータのより深いレイヤに向かって増え得る。1つの実施形態では、フィルタの夫々は、>1のストライドでエンコーダレイヤの夫々に入力されたオーディオデータに作用し得る。フィルタの夫々は、例えば、2のストライドでエンコーダレイヤの夫々に入力されたオーディオデータに作用し得る。よって、係数2による学習可能なダウンサンプリングが実行され得る。代替的に、フィルタはまた、エンコーダレイヤの夫々で1のストライドで動作して、その後に(既知の信号処理と同様に)係数2によるダウンサンプリングが続いてもよい。代替的に、例えば、フィルタの夫々は、4のストライドでエンコーダレイヤの夫々に入力されたオーディオデータに作用してもよく、これにより、ジェネレータ内のレイヤの総数は半分になる。
【0070】
ジェネレータの少なくとも1つのエンコーダレイヤ及び少なくとも1つのデコーダレイヤで、非線形演算が活性化に加えて実行されてもよい。1つの実施形態では、非線形演算は、パラメータ正規化線形ユニット(Parametric Rectified Linear Unit,PReLU)、正規化線形ユニット(Rectified Linear Unit,ReLU)、リーキー正規化線形ユニット(Leaky Rectified Linear Unit,LReLU)、指数線形ユニット(exponential Linear Unit,eLU)、及びスケーリング指数線形ユニット(Scaled exponential Linear Unit,SeLU)のうちの1つ以上を含んでよい。
図3の例では、非線形演算はPReLUに基づく。
【0071】
図3に模式的に表されているように、各々のデコーダレイヤ7、8、9はエンコーダレイヤ2、3、4をミラーリングする。各レイヤでのフィルタの数及び各レイヤでのフィルタサイズはエンコーダ段で見られるようにデコーダ段で同じであってよいが、デコーダ段でのオーディオ信号のアップサンプリングは2つの代替アプローチによって実行されてよい。1つの実施形態において、分数的にストライドする畳み込み(fractionally-strided convolution)(転置畳み込みとしても知られている。)演算は、デコーダ段のレイヤ7、8、9で使用されてよい。代替的に、デコーダ段の各レイヤで、アップサンプリング係数2により畳み込み信号処理と同様にアップサンプリング及び補間が実行された後、フィルタは、1のストライドで各レイヤに入力されたオーディオデータに作用してよい。
【0072】
出力レイヤ(畳み込みレイヤ)10は、その後に、強調されたオーディオデータが出力される前のデコーダ段の最後のレイヤに続く。この例では、出力レイヤ10は、フィルタサイズが31であるN=1個のフィルタを含んでもよい。
【0073】
出力レイヤ10で、活性化は、エンコーダレイヤの少なくとも1つ及びデコーダレイヤの少なくとも1つで実行される活性化とは異なってもよい。活性化は、例えば、tanh演算に基づいてもよい。
【0074】
エンコーダ段とデコーダ段との間で、オーディオデータは、強調されたオーディオデータを生成するよう変更されてよい。変更は、コーディングされたオーディオ特徴空間6にマッピングするエンコーダ段のボトルネックレイヤ5に基づいてよい。ボトルネックレイヤ(又はむしろ、コーディングされたオーディオ特徴空間)は、入力された(コーディングされた)オーディオデータの最も支配的な特徴を捕捉する。コーディングされたオーディオ特徴空間6における変更は、ランダムノイズベクトルzをコーディングされたオーディオ特徴空間6内の特徴と連結することによって行われてよい。
【0075】
追加的に、メタデータが、強調されたオーディオデータを変更するようこの時点で入力されてもよい。この場合に、強調されたオーディオデータの生成は、所与のメタデータ、例えば、コンパンディング(companding)メタデータに基づき条件付けられてもよい。
【0076】
エンコーダ段及びデコーダ段の相同レイヤ間にスキップ接続11が存在してよい。この場合に、上記のコーディングされたオーディオ特徴空間6は、情報の損失を防ぐようバイパスされてもよい。スキップ接続11は、連結及び信号追加の1つ以上を用いて実施されてもよい。スキップ接続11の実施により、フィルタ出力の数は“実質的に”2倍になる可能性がある。
【0077】
図3の例を参照すると、ジェネレータのアーキテクチャは、次のように要約され得る:
1/入力:ダイナミックレンジが低減された生の(raw)オーディオデータ
2/エンコーダレイヤL=1:フィルタ数N=16,フィルタサイズ=31,活性化=PReLU
3/エンコーダレイヤL=2:フィルタ数N=32,フィルタサイズ=31、活性化=PReLU
・
・
・
4/エンコーダレイヤL=11:フィルタ数N=512,フィルタサイズ=31
5/ボトルネックレイヤ:フィルタ数N=1024,フィルタサイズ=31
6/コーディングされたオーディオ特徴空間
7/デコーダレイヤL=1:フィルタ数N=512,フィルタサイズ=31
・
・
・
8/デコーダレイヤL=10:フィルタ数N=32,フィルタサイズ=31,活性化=PReLU
9/デコーダレイヤL=11:フィルタ数N=16,フィルタサイズ=31,活性化=PReLU
10/出力レイヤ:フィルタ数N=1,フィルタサイズ=31,活性化=tanh
出力:強調されたオーディオデータ
11/スキップ接続。
【0078】
上で提示されているアーキテクチャは、一例を表しているに過ぎない。アプリケーションに応じて、ジェネレータのエンコーダ段及びデコーダ段でのレイヤの数は、夫々、ダウンスケーリング又はアップスケーリングされてもよい。
【0079】
[ジェネレータの訓練]
実施形態において、
図1の例で説明されているステップS101は、完全連結分布を用いてジェネレータを訓練することを含んでもよい。ステップS101で、実施形態において、ジェネレータのためのパラメータの組は、ジェネレータ及びディスクリミネータを含むGAN設定においてジェネレータを訓練することによって、決定されてよい。GAN設定は、一般に、繰り返しプロセスによって訓練されるジェネレータG及びディスクリミネータDを含む。敵対的生成ネットワーク設定における訓練中、ジェネレータGは、完全連結分布を用いて、原オーディオ信号xから(コア符号化及びコア復号化された)導出されたオーディオ訓練信号
[外1]
に基づいて処理済みオーディオ訓練信号x*を生成し、完全連結分布は、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結した結果として取得される。追加的に、メタデータがジェネレータに入力されてもよく、生オーディオ訓練信号
[外2]
を処理することは、追加的にメタデータに基づいてもよい。訓練中、処理済みオーディオ訓練信号x*の生成は、このようにして、メタデータに基づき条件付けられてよい。
【0080】
訓練中、ジェネレータは、原オーディオ信号xと区別できない処理済みオーディオ訓練信号x*を出力しようとする。ディスクリミネータは、処理済みオーディオ訓練信号x*及び原オーディオ信号xを一度に1つずつ供給され、入力信号が処理済みオーディオ訓練信号x*であるかそれとも原オーディオ信号xであるかを偽物/本物方式で判断する。この場合に、ディスクリミネータは、原オーディオ信号xを処理済みオーディオ訓練信号x*と区別しようとする。繰り返しプロセス中、ジェネレータは次いで、そのパラメータを調整して、原オーディオ信号xと比較してますます良い処理済みオーディオ訓練信号x*を生成し、そして、ディスクリミネータは、処理済みオーディオ訓練信号x*と原オーディオ信号xとの間でより良く判断するように学習する。
【0081】
ディスクリミネータは、最終ステップでジェネレータを訓練するために最初に訓練されてもよいことが留意されるべきである。ディスクリミネータを訓練し更新することは、高いスコアを原オーディオ信号xに割り当て、低いスコアを処理済みオーディオ訓練信号x*に割り当てる確率を最大化することを含んでよい。ディスクリミネータの訓練の目標は、原オーディオ信号xが本物として認識され、一方、処理済みオーディオ訓練信号x*(生成された信号)が偽物として認識されることであってよい。ディスクリミネータが訓練され更新される間、ジェネレータのパラメータは固定されたままであってよい。
【0082】
ジェネレータを訓練し更新することは、原オーディオ信号xと処理済みオーディオ訓練信号x*との間の違いを最小化することを含んでよい。ジェネレータの訓練の目標は、ディスクリミネータが処理済みオーディオ訓練信号x*を本物として認識することを達成することであってよい。
【0083】
これより
図4を参照すると、敵対的生成ネットワーク設定におけるジェネレータG 13の訓練について更に詳細に記載される。ジェネレータG 13の訓練は次のことを含んでよい。原オーディオ信号x 15は、生のオーディオ訓練信号
[外3]
16を取得するようにコア符号化及びコア復号化を受け得る。生のオーディオ訓練信号
[外4]
16及びランダムノイズベクトルz 17が次いでジェネレータG 13に入力される。入力に基づいて、ジェネレータG 13は次いで、完全連結分布を用いて処理済みオーディオ訓練信号x* 18を生成する。よって、実施形態において、ジェネレータG 13を訓練している間、トランケーションオフのトランケーションモードが適用されてもよい。追加的に、ジェネレータG 13は、処理済みオーディオ訓練信号x* 18を変更するよう、コーディングされたオーディオ特徴空間において追加入力としてメタデータを用いて訓練されてもよい。一度に1つずつ、生のオーディオ訓練信号
[外5]
16が導出された原オーディオ信号x 15、及び処理済みオーディオ訓練信号x* 19がディスクリミネータD 14に入力される19。追加情報として、生のオーディオ訓練信号
[外6]
16も毎回ディスクリミネータD 14に入力されてよい。ディスクリミネータD 14は次いで、入力信号が処理済みオーディオ訓練信号x* 18(偽物)であるかそれとも原オーディオ信号x 15(本物)であるかを判断する20。
【0084】
次のステップで、ジェネレータG 13のパラメータは次いで、ディスクリミネータD 14が処理済みオーディオ訓練信号x*18を原オーディオ信号x15ともはや区別することができなくなるまで調整される。こでは、繰り返しプロセス21で行われ得る。
【0085】
ディスクリミネータD 14による判断は、次の式(1):
【数1】
に従う知覚的に動機付けられた目的関数の1つ以上に基づいてよい。式(1)の最初の項から分かるように、条件付き敵対的生成ネットワーク設定は、ディスクリミネータへの追加情報としてオーディオ訓練信号
[外7]
を入力することによって適用されている。
【0086】
上記の式(1)の最後の2つの項は、多重分解能STFT損失項(multi-resolution STFT loss term)と呼ばれることがある。多重分解能STFT損失は、異なるSTFTパラメータを使用する異なるSTFTベースの損失関数の和であると言われることがある。Lsc
m(スペクトル収束損失(spectral convergence loss))及びLmag
m(ログスケールSTFT振幅損失(log-scale STFT magnitude loss)は、FFTビンの数∈{512,1024,2048}、ホップサイズ∈{50m120,240}、及び最後にウィンドウ長さ∈{240,600,1200}を夫々有してM個の異なる分解能でSTFTベース損失を適用し得る。結果は、一般的なオーディオ(つまり、任意のコンテンツタイプ)を処理する場合に、多重分解能STFT損失項が品質改善をもたらすことを示した。
【0087】
式(2)の二番目の項は、係数ラムダλによってスケーリングされた1ノルム距離である。ラムダの値は、アプリケーション及び/又は、ジェネレータG 13に入力される信号長さに応じて、10から100までの中から選択され得る。例えば、ラムダは、λ=100であるよう選択されてよい。更に、多重分解能STFT損失のスケーリング
[外8]
は、ラムダと同じ値にセットされてよい。
【0088】
敵対的生成ネットワークセットにおけるディスクリミネータD 14の訓練は、この場合に、ジェネレータG 13のパラメータは固定されていてよく、一方、ディスクリミネータD 14のパラメータは変化し得ることを除いて、処理済みオーディオ訓練信号x*18及び原オーディオ信号x15を一度に1つずつ、生のオーディオ訓練信号
[外9]
16とともにディスクリミネータD 14に入力することに応答して、ジェネレータG 13の訓練について上述されたのと同じ一般的な繰り返しプロセス22に従ってよい。ディスクリミネータD 14の訓練は、ディスクリミネータD 14が処理済みオーディオ訓練信号x*18を偽物として決定することを可能にする次の式(2)
【数2】
によって記述され得る。上記の場合には、最小二乗アプローチ(LS)及び条件付き敵対的生成ネットワーク設定も、コア復号化された生のオーディオ訓練信号
[外10]
をディスクリミネータへの追加情報として入力することによって適用されている。
【0089】
最小二乗アプローチに加えて、他の訓練方法も、敵対的生成ネットワーク設定におけるジェネレータ及びディスクリミネータを訓練するために使用されてよい。本開示は、特定の訓練方法に制限されない。代替的に、又は追加的に、いわゆるワッサースタイン(Wasserstein)アプローチが使用されてもよい。この場合に、最小二乗距離の代わりに、ワッサースタイン距離としても知られているEarth Mover Distanceも使用されてよい。一般に、異なる訓練方法は、ジェネレータ及びディスクリミネータの訓練をより安定したものにする。適用される訓練方法の種類は、しかしながら、ジェネレータのアーキテクチャに影響を及ぼさない。
【0090】
[ディスクリミネータのアーキテクチャ]
ディスクリミネータのアーキテクチャは制限されないが、ディスクリミネータのアーキテクチャは、上記のジェネレータのエンコーダ段と同じ1次元畳み込み構造に従ってもよい。従って、ディスクリミネータのアーキテクチャは、ジェネレータのエンコーダ段をミラーリングしてよい。従って、ディスクリミネータも、各レイヤで1つ以上のフィルタを有する複数のレイヤを含んでよい。例えば、ディスクリミネータは多数のL個のレイヤを含んでよく、各レイヤは多数のN個のフィルタを含んでよい。Lは1以上の自然数であってよく、Nは1以上の自然数であってよい。N個のフィルタのサイズは制限されず、ディスクリミネータの要件に応じて選択されてもよい。なお、フィルタサイズはL個のレイヤの夫々で同じであってよい。ディスクリミネータのエンコーダレイヤの少なくとも1つで行われる非線形演算には、LeakyReLUが含まれ得る。
【0091】
エンコーダ段に続いて、ディスクリミネータは出力レイヤを含んでよい。出力レイヤは、フィルタサイズが1であるN=1個のフィルタを有してよい。この場合に、出力レイヤのフィルタサイズは、エンコーダレイヤのフィルタサイズと異なってもよい。従って、出力レイヤは、隠れた活性化をダウンサンプリングしない1次元の畳み込みレイヤであってよい。これは、出力レイヤのフィルタが1のストライドで動作し得る一方で、ディスクリミネータのエンコーダ段の全ての前のレイヤは2のストライドを使用し得ることを意味する。
【0092】
代替的に、エンコーダ段の前のレイヤ内のフィルタの夫々は、4のストライドで動作してもよい。これにより、ディスクリミネータでのレイヤの総数を半分にすることができる。
【0093】
出力レイヤの活性化は、エンコーダレイヤの少なくとも1つでの活性化と異なってもよい。活性化はシグモイドであってよい。しかし、最小二乗訓練アプローチが使用される場合に、シグモイド活性化は必要とされなくてもよく、従って任意である。
【0094】
ディスクリミネータのアーキテクチャは、例として、次のように要約され得る:
入力:強調されたダイナミックレンジが低減されたオーディオ訓練信号又は元のダイナミックレンジが低減されたオーディオ信号
エンコーダレイヤL=1:フィルタ数N=16,フィルタサイズ=31,活性化=LeakyReLU
エンコーダレイヤL=2:フィルタ数N=32,フィルタサイズ=31、活性化=LeakyReLU
・
・
・
エンコーダレイヤL=11:フィルタ数N=1024,フィルタサイズ=31,活性化=LeakyReLU
出力レイヤ:フィルタ数N=1,フィルタサイズ=1,任意:活性化=シグモイド
出力:元のダイナミックレンジが低減されたオーディオ信号及びジェネレータによって生成された強調されたダイナミックレンジが低減されたオーディオ訓練信号に関する本物/偽物としての入力に対する判断。
【0095】
上で提示されているアーキテクチャは、一例を表しているに過ぎない。アプリケーションに応じて、ディスクリミネータのエンコーダ段でのレイヤの数は、夫々、ダウンスケーリング又はアップスケーリングされてもよい。
【0096】
[オーディオビットストリームから処理済みオーディオデータを生成するデコーダをセットアップする方法]
これより
図5の例を参照すると、敵対的生成ネットワーク(GAN)のジェネレータによりオーディオビットストリームから処理済みオーディオデータを生成する方法が表されている。ジェネレータはエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、ジェネレータは、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。
【0097】
ステップS201で、オーディオビットストリームが受信される。ステップS202で、デコーダは次いでトランケーションモードを決定する。オーディオデータは、オーディオデータを処理するために、ステップS203でジェネレータに入力される。ステップS204で、決定されたトランケーションモードが次いで、トランケートされた連結分布を生成するよう連結分布に適用される。ステップS205でジェネレータによってオーディオデータを処理することは、トランケートされた連結分布に基づく。ジェネレータからの出力として、処理済みオーディオデータが次いでステップS206で取得される。
【0098】
記載されている方法は、コーディングされていないオーディオ又はコーディングされたオーディオに適用されてよいことが留意されるべきである。また、オーディオデータのフォーマットは制限されない。方法はまた、例えば、追加のダイナミックレンジ変化を必要とし得るAC-4コンパンデッド(companded)ドメインでも適用されてよい。実施形態において、方法は、よって、受信されたオーディオビットストリームをコア復号化することを更に含んでもよい。
【0099】
実施形態において、トランケーションモードは、デコーダによって、2つ以上のトランケーションモードの中から決定されてよい。2つ以上のトランケーションモードは、実施形態において、トランケーションオフのトランケーションモード、弱トランケーションのトランケーションモード、中間トランケーションのトランケーションモード、及び強トランケーションのトランケーションモードを含んでよい。それは、
図2の例及び上で与えられている詳細を参照される。
【0100】
実施形態において、ステップS202で、トランケーションモードは、デコーダによって、オーディオコンテンツ及び/又はビットストリームパラメータに基づいて決定されてよい。オーディオコンテンツは、実施形態において、拍手、スピーチ、音楽、及び効果のうちの1つ以上を含んでよい。実施形態において、ビットストリームパラメータは、ビットレートの指示及びオーディオコーデックタイプの指示のうちの1つ以上を含んでよい。
【0101】
実施形態において、ステップS202で、トランケーションオフのトランケーションモードは、デコーダによって、オーディオコンテンツが拍手を含む場合に決定されてよい。この場合に、トランケートされた連結分布は完全連結分布に対応する。実施形態において、ステップS202で、弱トランケーションの、中間トランケーション、又は強トランケーションのうちの1つのトランケーションモードは、デコーダによって、オーディオコンテンツがスピーチ、音楽、及び/又は効果を含む場合に決定されてよい。
【0102】
ステップS202で、実施形態において、トランケーションオフのトランケーションモードは、デコーダによって、ビットレートの指示が低ビットレートを示す場合に決定されてよい。更に、実施形態において、ステップS202で、弱トランケーション、中間トランケーション、又は強トランケーションのうちの1つのトランケーションモードは、デコーダによって、ビットレートの指示が高ビットレートを示す場合に決定されてよい。
【0103】
実施形態において、ステップS202で、決定されたトランケーションモードを連結分布に適用することは、上で更に詳細に記載されたように、トランケーション領域を取得するようトランケーション範囲に従って連結分布にカットオフを適用することと、トランケーション領域にあるようトランケーション領域外の全ての値をリサンプリングすることとを含んでよい。
【0104】
実施形態において、弱トランケーションのトランケーションモードは、-0.8から+0.8までのトランケーション範囲を適用するようセットされてよい。代替的に、又は追加的に、実施形態において、中間トランケーションのトランケーションモードは、-0.5から+0.5までのトランケーション範囲を適用するようセットされてよい。更に、代替的に、又は追加的に、実施形態において、強トランケーションのトランケーションモードは、-0.4から+0.4までのトランケーション範囲を適用するようセットされてよい。
【0105】
連結分布のタイプは制限されないが、実施形態において、連結分布はガウス分布又はラプラス分布であってよい。
【0106】
実施形態において、オーディオビットストリームはメタデータを含んでよく、デコーダによって使用されるべきトランケーションモードの指示はメタデータに含まれてよい。この場合に、エンコーダ制御は追加的に実施され得る。
【0107】
図6の例を参照すると、上記の方法は、オーディオビットストリームから処理済みオーディオデータを生成する装置によって実施されてよい。装置100は、オーディオビットストリームを受信する受信部101と、トランケーションモードを決定する決定部102とを含んでよい。装置100は、オーディオデータの処理のための、敵対的生成ネットワーク(GAN)のジェネレータ103を更に含んでもよく、ジェネレータ103はエンコーダ段及びデコーダ段を含み、エンコーダ段及びデコーダ段は夫々、各レイヤで1つ以上のフィルタを有する複数のレイヤを含み、エンコーダ段の最後のレイヤは、コーディングされたオーディオ特徴空間にマッピングするボトルネックレイヤであり、ジェネレータ103は、コーディングされたオーディオ特徴空間において特徴をランダムノイズベクトルzと連結して、連結の結果に基づいて連結分布を取得するよう構成される。装置100は、上記の方法を実行するよう構成される1つ以上のプロセッサ104を更に含んでもよい。
【0108】
実施形態において、装置は、受信されたオーディオビットストリームをコア復号化するコアデコーダを更に含んでもよい。実施形態において、受信されたオーディオビットストリームは、使用されるべきトランケーションモードを示すメタデータを更に含んでもよく、装置は、受信されたオーディオビットストリームを逆多重化するデマルチプレクサを更に含んでもよい。
【0109】
上記の方法はまた、オーディオビットストリームにオーディオデータを符号化する装置と、オーディオビットストリームから処理済みオーディオデータを生成する装置とのシステムによって実施されてもよい。
【0110】
本明細書で記載されている全ての方法は、代替的に、又は追加的に、プロセッシング機能を備えているデバイスによって実行される場合に、上記の方法をデバイスに実行させるよう構成された命令を有するコンピュータ可読記憶媒体を含むコンピュータプログラム製品でも実施されてよい。2つのプロセッサ201、202を含むデバイス200が、
図7の例において表されている。
【0111】
本明細書で記載されている全ての方法は、オーディオビットストリームから処理済みオーディオデータを生成する装置と、ジェネレータ及びディスクリミネータを有する敵対的生成ネットワークとのシステムによって実施されもよい。
【0112】
[解釈]
別なふうに特に述べられない限りは、次の議論から明らかなように、本開示を通して、「処理する」、「計算する」、「決定する」、「解析する」などのような用語を用いた議論は、コンピュータ又はコンピュータシステムの動作及び/又は処理、あるいは、電子的などの物理的な量として表されているデータを同様に物理的な量として表されている他のデータへと操作及び/又は変換する類似の電子コンピューティングデバイスを指すことが認識される。
【0113】
同様に、「プロセッサ」という用語は、例えば、レジスタ及び/又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び/又はメモリに格納され得る他の電子データに変換する任意のデバイス又はデバイスの任意の部分を指し得る。「コンピュータ」若しくは「コンピューティングマシン」又は「コンピューティングプラットフォーム」は1つ以上のプロセッサを含んでもよい。
【0114】
本明細書で記載されるメソッドロジは、一例となる実施形態では、1つ以上のプロセッサによって実行可能であり、1つ以上のプロセッサは、1つ以上のプロセッサによって実行されると、本明細書で記載されている方法の少なくとも1つを実行する命令の組を含むコンピュータ読み出し可能な(マシン読み出し可能な、とも呼ばれる。)コードを受け入れる。行われるべき動作を特定する命令(シーケンシャル又は他)の組を実行することができる任意のプロセッサが含まれる。よって、一例は、1つ以上のプロセッサを含む典型的なプロセッシングシステムである。各プロセッサは、CPU、グラフィクスプロセッシングユニット、及びプログラマブルDSPユニットのうちの1つ以上を含んでよい。プロセッシングシステムは、メインRAM及び/又は静的RAM、及び/又はROMを含むメモリサブシステムを更に含んでもよい。バスサブシステムが、コンポーネント間の通信のために含まれてもよい。プロセッシングシステムは更に、プロセッサどうしがネットワークによって結合されている分散型プロセッシングシステムであってもよい。プロセッシングシステムがディスプレイを必要とする場合に、そのようなディスプレイが含まれてもよく、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイである。手動のデータ入力が必要とされる場合に、プロセッシングシステムは、キーボードなどの英数字入力ユニット、マウスなどの指示制御デバイス、などのうちの1つ以上のような入力デバイスも含む。プロセッシングシステムは、ディスクドライブユニットなどのストレージシステムも含んでよい。プロセッシングシステムは、いくつかの構成では、音響出力デバイス及びネットワークインターフェースデバイスを含んでもよい。よって、メモリサブシステムは、1つ以上のプロセッサによって実行されると、本明細書で記載されている方法の1つ以上を実行することを引き起こす命令の組を含むコンピュータ読み出し可能なコード(例えば、ソフトウェア)を運ぶコンピュータ可読キャリア媒体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合に、そのような要素の順序付けは、特に述べられない限りは暗示されないことに留意されたい。ソフトウェアはハードディスクに常駐してよく、あるいは、コンピュータシステムによるその実行中に、完全に又は少なくとも部分的に、RAM内に及び/又はプロセッサ内に存在してもよい。よって、メモリ及びプロセッサも、コンピュータ読み出し可能なコードを運ぶコンピュータ可読キャリア媒体を構成する。更に、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成するか、又はそれに含まれてもよい。
【0115】
代替の例示的な実施形態では、1つ以上のプロセッサは、スタンドアロンデバイスとして作動するか、又はネットワーク化された配置において接続され、例えば、他のプロセッサへネットワーク接続されてもよく、1つ以上のプロセッサは、サーバ-ユーザネットワーク環境におけるサーバ又はユーザマシンとして、あるいは、ピア・ツー・ピア又は分散ネットワーク環境におけるピアマシンとして動作してもよい。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はマシンによって行われる動作を指定する命令の組を実行することができる任意のマシンを形成してもよい。
【0116】
「マシン」という用語は、本明細書で議論されているメソッドロジのいずれか1つ以上を実行するよう命令の組(又は複数の組)を個別的に又は一緒に実行するマシンの任意の集合を含むとも考えられるべきであることに留意されたい。
【0117】
よって、本明細書で記載されている方法の夫々の一例となる実施形態は、命令の組、例えば、1つ以上のプロセッサ、例えば、ウェブサーバ配置の部分である1つ以上のプロセッサで実行されるコンピュータプログラムを運ぶコンピュータ可読キャリア媒体の形をとる。よって、当業者によって理解されるだろうように、本開示の例示的な実施形態は、方法、特別目的の装置などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品として具現化されてもよい。コンピュータ可読キャリア媒体は、1つ以上のプロセッサによって実行される場合に、1つ以上のプロセッサに方法を実施させる命令の組を含むコンピュータ読み出し可能なコードを運ぶ。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又はソフトウェア及びハードウェアを組み合わせた態様の例示的な実施形態の形をとり得る。更に、本開示は、媒体において具現化されたコンピュータ読み出し可能なプログラムコードを運ぶキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形をとってもよい。
【0118】
ソフトウェアは更に、ネットワークインターフェースデバイスを介してネットワーク上で送信又は受信されてもよい。キャリア媒体は例示的な実施形態において単一の媒体である一方で、「キャリア媒体」という用語は、ひと組以上の命令を記憶する単一の媒体又は複数の媒体(例えば、中央集権型若しくは分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むと理解されるべきである。「キャリア媒体」という用語はまた、1つ以上のプロセッサによって実行される命令の組を記憶、符号化又は搬送することができ、1つ以上のプロセッサに、本開示のメッソドロジのいずれか1つ以上を実行させる任意の場合を含むとも理解されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがそれらに限られない多くの形態をとり得る。不揮発性媒体には、例えば、光ディスク、磁気ディスク、及び光学磁気ディスクがある。揮発性媒体には、メインメモリなどの動的メモリがある。伝送媒体には、バスサブシステムを有する配線を含む、同軸ケーブル、銅線、及び光ファイバがある。伝送媒体はまた、ラジオ波又は赤外線データ通信中に生成されるもののような音響又は光波の形をとることもある。例えば、「キャリア媒体」という用語は、それに応じて、ソリッドステートメモリ、光学及び磁気媒体で具現化されたコンピュータ製品、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能であって、実行時に方法を実施する命令の組を表す伝播信号を担持する媒体、並びに1つ以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であって、命令の組を表す伝播信号を担持するネットワーク内の伝送媒体を含むと理解されるべきである。
【0119】
議論されている方法のステップは、一例となる実施形態において、ストレージに記憶されている命令(コンピュータ読み出し可能なコード)を実行するプロセッシング(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)によって実行されることが理解されるだろう。また、本開示は、如何なる特定の実施又はプログラミング技術にも制限されず、本開示は、本明細書で記載されている機能を実施するための任意の適切な技術を用いて実施されてよいことも理解されるだろう。本開示は、如何なる特定のプログラミング言語又はオペレーティングシステムにも制限されない。
【0120】
本開示を通して、「一実施形態」、「いくつかの実施形態」又は「例となる実施形態」への言及は、実施形態に関して記載されている特定の特徴、構造又は特性が本開示の少なくとも1つの実施形態に含まれることを意味する。よって、本開示を通して様々な箇所での「一実施形態において」、「いくつかの実施形態において」又は「例となる実施形態において」という表現の出現は、必ずしも全てが同じ例示的な実施形態に言及しているわけではない。更に、特定の特徴、構造又は特性は、1つ以上の例示的な実施形態において、本開示から当業者に明らかなように、如何なる適切な方法でも組み合わされてよい。
【0121】
本明細書で使用されているように、別なふうに特定されない限りは、共通のオブジェクトについて記載するための序数詞「第1」、「第2」、「第3」などの使用は、同じオブジェクトの異なるインスタンスが言及されていることを単に示すものであり、そのように記載されているオブジェクトが時間的若しくは空間的に、順位付けにおいて、又は任意の他の方法で所与の順序になければならないことを暗示する意図はない。
【0122】
以下の特許請求の範囲及び本明細書中の記載において、「有する」、「○○から成る」、「有する○○」という用語のうちのいずれか1つは、先行する要素/特徴を少なくも含むが、他を除外するものではないことを意味する非限定的な用語である。よって、「有する」という用語が、特許請求の範囲で使用される場合に、その前に挙げられている手段又は要素又はステップに限定するものとして解釈されるべきではない。例えば、「A及びBを有するデバイス」という表現の範囲は、要素A及びBのみから成るデバイスに制限されるべきではない。本願で使用されている「含む」又は「含む、~○○」又は「含む○○」という用語のうちのいずれか1つも、その用語に先行する要素/特徴を少なくとも含むが、他を除外するものではないことをやはり意味する非限定的な用語である。よって、「含む」は、「有する」と同義であって、それを意味する。
【0123】
本開示の例となる実施形態の上記の説明において、本開示の様々な特徴は、本開示を合理化しかつ様々な発明態様の1つ以上の理解を助けるために、単一の例示的な実施形態、図、又はその記載においてまとめられることがあることが認識されるべきである。しかし、本開示のこの方法は、特許請求の範囲が各請求項で明示的に挙げられている更なる特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、続く特許請求の範囲が反映しているように、発明態様は、上記で開示されている単一の例示的な実施形態の全てよりも少ない特徴にある。よって、本明細書に続く特許請求の範囲は、これによって、本明細書に明りょうに組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。
【0124】
更に、本明細書で記載されているいくつかの例示的な実施形態は、他の例示的な実施形態に含まれているいくつかの特徴を含むが他の特徴を含まず、一方、異なる例示的な実施形態の特徴どうしの組み合わせは、本開示の範囲内にあるよう意図され、当業者によって理解されるように別の例示的な実施形態を形成する。例えば、続く特許請求の範囲で、請求されている例示的な実施形態のいずれかは任意の組み合わせで使用され得る。
【0125】
本明細書で与えられている記載において、多数の具体的な詳細が説明されている。しかし、本開示の例示的な実施形態は、それらの具体的な詳細によらずとも実施されてよいことが理解される。他の事例では、よく知られている方法、構造及び技術は、本明細書の理解を不明りょうにしないように詳細には示されていない。
【0126】
従って、本開示のベストモードであると信じられているものについて記載してきたが、当業者は、他の及び更なる変更がそれらに対して、本開示の精神から外れずに行われてもよく、全てのそのような変更及び変形を、本開示の範囲内にあるものとして請求することが意図される、と認識するだろう。例えば、上述された如何なる数式も、使用される可能性があるプロシージャを表しているにすぎない。機能は、ブロック図から追加又は削除されてもよく、動作は、機能ブロックの間で交換されてもよい。ステップは、本開示の範囲内で記載される方法に対して追加又は削除されてもよい。
【0127】
[関連出願への相互参照]
本願は、次の優先出願、2020年12月17日付けで出願された米国特許仮出願第63/126594号(参照番号:D19141USP1)及び2020年12月17日付けで出願された欧州特許出願第20214999.8号(参照番号:D19141EP)の優先権を主張するものであり、これらは参照により本願に援用される。
【国際調査報告】