IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2023-548670ニューラルネットワークを用いたオーディオの処理方法および装置
<>
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図1
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図2
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図3
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図4a
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図4b
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図5
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図6
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図7
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図8
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図9
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図10
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図11
  • 特表-ニューラルネットワークを用いたオーディオの処理方法および装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-20
(54)【発明の名称】ニューラルネットワークを用いたオーディオの処理方法および装置
(51)【国際特許分類】
   G10L 19/02 20130101AFI20231113BHJP
   G10L 25/30 20130101ALI20231113BHJP
【FI】
G10L19/02 160A
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023522433
(86)(22)【出願日】2021-10-14
(85)【翻訳文提出日】2023-04-12
(86)【国際出願番号】 US2021055090
(87)【国際公開番号】W WO2022081915
(87)【国際公開日】2022-04-21
(31)【優先権主張番号】63/092,118
(32)【優先日】2020-10-15
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】20210968.2
(32)【優先日】2020-12-01
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヴィントン,マーク エス.
(72)【発明者】
【氏名】ジョウ,ツォーン
(72)【発明者】
【氏名】フェイギン,ロイ エム.
(72)【発明者】
【氏名】ダヴィッドソン,グラント エー.
(57)【要約】
本願では、ニューラルネットワークを使って、または第1および第2のニューラルネットワークを使ってオーディオ信号を処理する方法が記載される。さらに、前記ニューラルネットワークをトレーニングする、または、前記第1および第2のニューラルネットワークのセットを合同でトレーニングする方法が記載される。さらに、ニューラルネットワークを使って知覚領域オーディオ信号の潜在特徴空間表現を取得し送信する方法、およびニューラルネットワークを使って知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法が記載される。
【特許請求の範囲】
【請求項1】
ニューラルネットワークを用いてオーディオ信号を処理するコンピュータ実装される方法であって、当該方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、前記知覚領域オーディオ信号の前記潜在特徴空間表現を得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームおいて出力する段階とを含む、
方法。
【請求項2】
さらに、前記マスクを示す情報が段階(d)において前記ビットストリームにおいて出力される、請求項1に記載の方法。
【請求項3】
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が、前記ビットストリームにおいて出力する前記段階の前に量子化される、請求項1または2に記載の方法。
【請求項4】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングすることが、時間領域で実行される、および/または
前記知覚領域オーディオ信号を得ることが、周波数領域で実行される、
請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
ニューラルネットワークを用いてオーディオ信号をデコードするコンピュータ実装される方法であって、当該方法は:
(a)受領されたビットストリームをデコードすることによって、知覚領域オーディオ信号の表現を得る段階と;
(b)前記知覚領域オーディオ信号の前記表現を、前記知覚領域オーディオ信号の前記表現を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
【請求項6】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することが時間領域で実行される;および/または
当該方法が、段階(d)の前に、前記オーディオ信号を周波数領域に変換することをさらに含む、
請求項5に記載の方法。
【請求項7】
前記ニューラルネットワークが前記マスクを示す情報を条件とする;および/または
前記ニューラルネットワークは前記知覚領域オーディオ信号を条件とする、
請求項5または6に記載の方法。
【請求項8】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは:
前記処理された知覚領域オーディオ信号を時間を横断して予測すること;
前記処理された知覚領域オーディオ信号を周波数を横断して予測すること;および
前記処理された知覚領域オーディオ信号を時間と周波数を横断して予測すること、
のうちの少なくとも一つを含む、請求項7に記載の方法。
【請求項9】
前記知覚領域オーディオ信号の前記表現は前記知覚領域オーディオ信号を含む、請求項5ないし8のうちいずれか一項に記載の方法。
【請求項10】
前記知覚領域オーディオ信号の前記表現は:
前記マスクを適用することにより、オーディオ信号をもとの信号領域から知覚領域に変換し;
前記知覚領域オーディオ信号をエンコードし;
前記知覚領域オーディオ信号をデコードすることから得られ;
任意的に、
エンコードする前に前記知覚領域オーディオ信号に量子化が適用され、デコード後に前記知覚領域オーディオ信号に逆量子化が適用される、
請求項5ないし9のうちいずれか一項に記載の方法。
【請求項11】
段階(a)は、前記知覚領域オーディオ信号の潜在特徴空間表現をビットストリームにおいて受領することを含み;
段階(b)は、前記潜在特徴空間表現を、前記処理された知覚領域オーディオ信号を生成するための前記ニューラルネットワークに入力することを含む、
請求項5に記載の方法。
【請求項12】
前記ニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現を条件とする、請求項11に記載の方法。
【請求項13】
前記マスクを示す追加的情報を前記ビットストリームとして受領することをさらに含み、
前記ニューラルネットワークは、前記追加的情報を条件とする、
請求項11または12に記載の方法。
【請求項14】
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が量子化された形で受領され;
当該方法は、前記潜在特徴空間表現を前記ニューラルネットワークに入力する前に逆量子化をさらに含む、
請求項11ないし13のうちいずれか一項に記載の方法。
【請求項15】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を生成することが時間領域で実行される;および/または
前記知覚領域オーディオ信号をもとの信号領域に変換することは、周波数領域で実行される、
請求項11ないし14のうちいずれか一項に記載の方法。
【請求項16】
ニューラルネットワークを用いてオーディオ信号を処理する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
【請求項17】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは時間領域で実行される、請求項16に記載の方法。
【請求項18】
当該方法は、段階(d)の前に、前記オーディオ信号を周波数領域に変換することをさらに含む、請求項16または17に記載の方法。
【請求項19】
前記ニューラルネットワークは、前記マスクを示す情報を条件としている、請求項16ないし18のうちいずれか一項に記載の方法。
【請求項20】
前記ニューラルネットワークは、前記知覚領域オーディオ信号を条件としている、請求項16ないし19のうちいずれか一項に記載の方法。
【請求項21】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を時間を横断して予測することを含む、請求項19または20に記載の方法。
【請求項22】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を周波数を横断して予測することを含む、請求項19または20に記載の方法。
【請求項23】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を時間と周波数を横断して予測することを含む、請求項19または20に記載の方法。
【請求項24】
前記知覚領域オーディオ信号は:
(a)前記マスクを適用することによって、オーディオ信号をもとの信号領域から知覚領域に変換し;
(b)前記知覚領域オーディオ信号をエンコードし;
(c)前記知覚領域オーディオ信号をデコードすることから得られる、
請求項16ないし23のうちいずれか一項に記載の方法。
【請求項25】
エンコードの前に量子化が前記知覚領域オーディオ信号に適用され、デコード後に逆量子化が前記知覚領域オーディオ信号に適用される、請求項24に記載の方法。
【請求項26】
第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)第1の装置によって、もとの信号領域でのオーディオ信号に、心理音響モデルから導出されたマスキング閾値を示すマスクを適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするための前記第1のニューラルネットワークに入力する段階と;
(c)前記第1のニューラルネットワークからの出力として、前記潜在特徴空間表現を得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクを第2の装置に送信する段階と;
(e)前記第2の装置によって、前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクとを受領する段階と;
(f)前記潜在特徴空間表現を、近似された知覚領域オーディオ信号を生成するための前記第2のニューラルネットワークに入力する段階と;
(g)前記近似された知覚領域オーディオ信号を前記第2のニューラルネットワークからの出力として得る段階と;
(h)前記近似された知覚領域オーディオ信号を前記マスクに基づいてもとの信号領域に変換する段階とを含む、
方法。
【請求項27】
当該方法がさらに、前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクをビットストリームにエンコードし、前記ビットストリームを前記第2の装置に送信することを含み、当該方法はさらに、前記第2の装置によって前記ビットストリームを受領し、前記ビットストリームをデコードして前記知覚領域オーディオ信号の前記潜在特徴空間表現および前記マスクを得ることを含んでいてもよい、請求項26に記載の方法。
【請求項28】
前記知覚領域オーディオ信号の前記潜在特徴空間表現および前記マスクは、前記ビットストリームにエンコードする前に量子化され、前記第2のニューラルネットワークによる処理の前に量子化解除される、請求項27に記載の方法。
【請求項29】
前記第2のニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを条件としている、請求項26ないし28のうちいずれか一項に記載の方法。
【請求項30】
前記第1のニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングし、前記第2のニューラルネットワークによって、前記近似された知覚領域オーディオ信号を生成することが、時間領域で実行される、請求項26ないし29のうちいずれか一項に記載の方法。
【請求項31】
段階(a)で前記知覚領域信号を得て、段階(h)で前記近似された知覚領域信号を変換することが、周波数領域で実行される、請求項26ないし30のうちいずれか一項に記載の方法。
【請求項32】
第1および第2のニューラルネットワークのセットを合同でトレーニングする方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ・トレーニング信号を、知覚領域オーディオ・トレーニング信号を潜在特徴空間表現にマッピングするための前記第1のニューラルネットワークに入力する段階と;
(b)前記知覚領域オーディオ・トレーニング信号の前記潜在特徴空間表現を前記第1のニューラルネットワークからの出力として取得する段階と;
(c)前記知覚領域オーディオ・トレーニング信号の前記潜在特徴空間表現を、近似された知覚領域オーディオ・トレーニング信号を生成するための前記第2のニューラルネットワークに入力する段階と;
(d)前記近似された知覚領域オーディオ・トレーニング信号を前記第2のニューラルネットワークからの出力として得る段階と;
(e)前記近似された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、前記第1および第2のニューラルネットワークのパラメータを逐次反復的に調整する段階とを含む、
方法。
【請求項33】
前記第1および第2のニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされる、請求項32に記載の方法。
【請求項34】
前記第1および第2のニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされる、請求項32に記載の方法。
【請求項35】
ニューラルネットワークをトレーニングする方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ・トレーニング信号を、知覚領域オーディオ・トレーニング信号を処理するための前記ニューラルネットワークに入力する段階と;
(b)処理された知覚領域オーディオ・トレーニング信号を前記ニューラルネットワークからの出力として得る段階と;
(c)前記処理された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、前記ニューラルネットワークのパラメータを逐次反復的に調整する段階とを含む、
方法。
【請求項36】
前記ニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされる、請求項35に記載の方法。
【請求項37】
前記ニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされる、請求項35に記載の方法。
【請求項38】
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号の前記潜在特徴空間表現を前記ニューラルネットワークからの出力として得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームとして出力する段階とを含む、
方法。
【請求項39】
さらに、前記マスクを示す情報が段階(d)において前記ビットストリームとして出力される、請求項38に記載の方法。
【請求項40】
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が、前記ビットストリームとして出力される前に量子化される、請求項38または39に記載の方法。
【請求項41】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングすることが、時間領域で実行される、請求項39ないし40のうちいずれか一項に記載の方法。
【請求項42】
前記知覚領域オーディオ信号を得ることが、周波数領域で実行される、請求項38ないし41のうちいずれか一項に記載の方法。
【請求項43】
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受信する段階と;
(b)前記潜在特徴空間表現を、前記知覚領域オーディオ信号を生成するためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号を前記ニューラルネットワークからの出力として得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
【請求項44】
前記ニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現を条件としている、請求項43に記載の方法。
【請求項45】
段階(a)において、さらに、前記マスクを示す情報が前記ビットストリームとして受領され、前記ニューラルネットワークは前記情報を条件とする、請求項43または44に記載の方法。
【請求項46】
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報は量子化されて受領され、段階(b)の前に逆量子化が実行される、請求項43ないし45のうちいずれか一項に記載の方法。
【請求項47】
前記ニューラルネットワークによって前記知覚領域オーディオ信号を生成することは、時間領域で実行される、請求項43ないし46のうちいずれか一項に記載の方法。
【請求項48】
前記知覚領域オーディオ信号をもとの信号領域に変換することが周波数領域で実行される、請求項43ないし47のうちいずれか一項に記載の方法。
【請求項49】
ニューラルネットワークを用いてオーディオ信号を処理する装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
装置。
【請求項50】
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号の前記潜在特徴空間表現を前記ニューラルネットワークからの出力として得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームとして出力する段階とを含む、
装置。
【請求項51】
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受領する段階と;
(b)前記潜在特徴空間表現を、前記知覚領域オーディオ信号を生成するためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号を前記第2のニューラルネットワークからの出力として得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
装置。
【請求項52】
請求項1ないし48のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項53】
処理能力を有する装置によって実行されたときに、該処理能力を有する装置に、請求項1ないし48のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ・プログラム。
【請求項54】
処理能力を有する装置によって実行されたときに、該処理能力を有する装置に、請求項1ないし48のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、以下の優先権出願の優先権を主張する:2020年10月15日に出願された米国仮出願第63/092,118号および2020年12月1日に出願された欧州特許出願第20210968.2号。これらは参照によりここに組み込まれる。
【0002】
技術
本開示は、概括的には、ニューラルネットワークを使用して、または第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法に関するものであり、特に、ニューラルネットワークを使用して、または第1および第2のニューラルネットワークを使用して知覚領域でオーディオ信号を処理する方法に関する。本開示は、さらに、前記ニューラルネットワークをトレーニングする、または、前記第1および第2のニューラルネットワークのセットを合同でトレーニングする方法に関する。さらに、本開示は、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し送信する方法、およびニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法に関する。また、本開示は、それぞれの装置およびコンピュータ・プログラム・プロダクトに関する。
【0003】
本稿では、いくつかの実施形態について、その開示に特に言及して説明するが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることが理解されるであろう。
【背景技術】
【0004】
開示全体を通しての背景技術についてのいかなる議論も、そのような技術がその分野で広く知られている、または当該分野における技術常識の一部をなすものであることの自認とは決して考えられるべきではない。
【0005】
高性能オーディオ・エンコーダおよびデコーダは、人間の聴覚系の限界を利用して、人間が聞くことのできない無関係な情報を除去する。典型的には、エンコード・システムは、心理音響モデルまたは知覚モデルを使用して、それぞれのマスキング閾値を計算する。次いで、マスキング閾値は、導入されたノイズが聴覚に与える影響が最小限になるように、符号化プロセスを制御するために使用される。
【発明の概要】
【発明が解決しようとする課題】
【0006】
これまで、ニューラルネットワークは、画像、ビデオ、さらには発話のエンコードおよび/またはデコードを含む多くの用途で有望であることが示されている。しかしながら、一般的なトレーニング技術を使用した一般的なオーディオ・エンコードおよび/またはオーディオ・デコード・アプリケーションにおいて、特に知覚領域オーディオ信号に関わるエンコードおよび/またはデコード・アプリケーションにおいて、ニューラルネットワークの適用に対する既存のニーズがまだある。
【課題を解決するための手段】
【0007】
本開示の第1の側面によれば、ニューラルネットワークを用いてオーディオ信号を処理する方法が提供される。この方法は、(a)知覚領域オーディオ信号を得る段階を含んでいてもよい。この方法は、(b)知覚領域オーディオ信号を処理するために知覚領域オーディオ信号をニューラルネットワークに入力する段階をさらに含んでいてもよい。この方法はさらに、(c)ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階を含みうる。そして、この方法は、(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、処理された知覚領域オーディオ信号をもとの信号領域に変換する段階を含んでいてもよい。
【0008】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは時間領域で実行されてもよい。
【0009】
いくつかの実施形態では、この方法は、段階(d)の前に、オーディオ信号を周波数領域に変換することをさらに含んでいてもよい。
【0010】
いくつかの実施形態では、ニューラルネットワークは、マスクを示す情報を条件としていてもよい。
【0011】
いくつかの実施形態では、ニューラルネットワークは、知覚領域オーディオ信号を条件としていてもよい。
【0012】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を時間を横切って予測することを含んでいてもよい。
【0013】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を周波数を横切って予測することを含んでいてもよい。
【0014】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を時間と周波数を横切って予測することを含んでいてもよい。
【0015】
いくつかの実施形態では、知覚領域オーディオ信号は、(a)マスクを適用することによって、オーディオ信号をもとの信号領域から知覚領域に変換し;(b)知覚領域オーディオ信号をエンコードし;(c)知覚領域オーディオ信号をデコードすることから得られてもよい。
【0016】
いくつかの実施形態では、エンコードの前に量子化が知覚領域オーディオ信号に適用されてもよく、デコード後に逆量子化が知覚領域オーディオ信号に適用されてもよい。
【0017】
本開示の第2の側面によれば、第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法が提供される。この方法は、(a)第1の装置によって、もとの信号領域でのオーディオ信号に、心理音響モデルから導出されたマスキング閾値を示すマスクを適用することによって、知覚領域オーディオ信号を得る段階を含んでいてもよい。この方法は、(b)知覚領域オーディオ信号を潜在特徴空間表現にマッピングするために、知覚領域オーディオ信号を第1のニューラルネットワークに入力する段階をさらに含んでいてもよい。この方法は、(c)第1のニューラルネットワークからの出力として、潜在特徴空間表現を得る段階をさらに含んでいてもよい。この方法は、(d)知覚領域オーディオ信号の潜在特徴空間表現とマスクを第2の装置に送信する段階をさらに含んでいてもよい。この方法は、(e)第2の装置によって、知覚領域オーディオ信号の潜在特徴空間表現とマスクとを受領する段階をさらに含んでいてもよい。この方法は、(f)近似された知覚領域オーディオ信号を生成するために潜在特徴空間表現を第2のニューラルネットワークに入力する段階をさらに含んでいてもよい。この方法は、(g)近似された知覚領域オーディオ信号を第2のニューラルネットワークからの出力として得る段階をさらに含んでいてもよい。そして、この方法は、(h)近似された知覚領域オーディオ信号をマスクに基づいてもとの信号領域に変換する段階を含んでいてもよい。
【0018】
いくつかの実施形態では、この方法はさらに、知覚領域オーディオ信号の潜在特徴空間表現とマスクをビットストリームにエンコードし、ビットストリームを第2の装置に送信することを含んでいてもよく、この方法はさらに、第2の装置によってビットストリームを受信し、ビットストリームをデコードして知覚領域オーディオ信号の潜在特徴空間表現およびマスクを得ることを含んでいてもよい。
【0019】
いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現およびマスクは、ビットストリームにエンコードする前に量子化され、第2のニューラルネットワークによる処理の前に量子化解除されてもよい。
【0020】
いくつかの実施形態では、第2のニューラルネットワークは、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを条件としていてもよい。
【0021】
いくつかの実施形態では、第1のニューラルネットワークによって知覚領域オーディオ信号を潜在特徴空間表現にマッピングし、第2のニューラルネットワークによって、近似された知覚領域オーディオ信号を生成することが、時間領域で実行されてもよい。
【0022】
いくつかの実施形態では、段階(a)で知覚領域信号を得て、段階(h)で近似された知覚領域信号を変換することが、周波数領域で実行されてもよい。
【0023】
本開示の第3の側面によれば、第1および第2のニューラルネットワークのセットを合同でトレーニングする方法が提供される。この方法は、(a)知覚領域オーディオ・トレーニング信号を潜在特徴空間表現にマッピングするために知覚領域オーディオ・トレーニング信号を第1のニューラルネットワークに入力する段階を含んでいてもよい。この方法は、(b)知覚領域オーディオ・トレーニング信号の潜在特徴空間表現を第1のニューラルネットワークからの出力として取得する段階をさらに含んでいてもよい。この方法は、(c)近似された知覚領域オーディオ・トレーニング信号を生成するために、知覚領域オーディオ・トレーニング信号の潜在特徴空間表現を第2のニューラルネットワークに入力する段階をさらに含んでいてもよい。この方法は、(d)近似された知覚領域オーディオ・トレーニング信号を第2のニューラルネットワークからの出力として得る段階をさらに含んでいてもよい。そして、この方法は、(e)近似された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、第1および第2のニューラルネットワークのパラメータを逐次反復的に調整する段階を含んでいてもよい。
【0024】
いくつかの実施形態では、第1および第2のニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされてもよい。
【0025】
いくつかの実施形態では、第1および第2のニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされてもよい。
【0026】
本開示の第4の側面によれば、ニューラルネットワークをトレーニングする方法が提供される。この方法は、(a)知覚領域オーディオ・トレーニング信号を処理するために、知覚領域オーディオ・トレーニング信号をニューラルネットワークに入力する段階を含んでいてもよい。この方法は、さらに、(b)処理された知覚領域オーディオ・トレーニング信号をニューラルネットワークからの出力として得る段階を含んでいてもよい。そして、この方法は、(c)処理された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、ニューラルネットワークのパラメータを逐次反復的に調整する段階を含んでいてもよい。
【0027】
いくつかの実施形態では、ニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされてもよい。
【0028】
いくつかの実施形態では、ニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされてもよい。
【0029】
本開示の第5の側面によれば、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する方法が提供される。この方法は、(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階を含んでいてもよい。この方法は、(b)知覚領域オーディオ信号を潜在特徴空間表現にマッピングするために知覚領域オーディオ信号をニューラルネットワークに入力する段階をさらに含んでいてもよい。この方法は、(c)知覚領域オーディオ信号の潜在特徴空間表現をニューラルネットワークからの出力として得る段階をさらに含んでいてもよい。そして、この方法は(d)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして出力する段階を含んでいてもよい。
【0030】
いくつかの実施形態では、マスクを示すさらなる情報が段階(d)において前記ビットストリームとして出力されてもよい。
【0031】
いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを示す情報が、前記ビットストリームとして出力される前に量子化されてもよい。
【0032】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を潜在特徴空間表現にマッピングすることが、時間領域で実行されてもよい。
【0033】
いくつかの実施形態では、知覚領域オーディオ信号の取得は、周波数領域で実行されてもよい。
【0034】
本開示の第6の側面によれば、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法が提供される。この方法は、(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受信する段階を含んでいてもよい。この方法はさらに、(b)知覚領域オーディオ信号を生成するために、潜在特徴空間表現をニューラルネットワークに入力する段階を含んでいてもよい。この方法はさらに、(c)知覚領域オーディオ信号をニューラルネットワークからの出力として得る段階を含んでいてもよい。そして、この方法は、(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、知覚領域オーディオ信号をもとの信号領域に変換する段階を含んでいてもよい。
【0035】
いくつかの実施形態では、ニューラルネットワークは、知覚領域オーディオ信号の潜在特徴空間表現を条件としていてもよい。
【0036】
いくつかの実施形態では、段階(a)において、マスクを示すさらなる情報が前記ビットストリームとして受領されてもよく、ニューラルネットワークは前記情報を条件としていてもよい。
【0037】
いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを示す情報は量子化されて受領されてもよく、段階(b)の前に逆量子化が実行されてもよい。
【0038】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を生成することは、時間領域で実行されてもよい。
【0039】
いくつかの実施形態では、知覚領域オーディオ信号をもとの信号領域に変換することが周波数領域で実行されてもよい。
【0040】
本開示の第7の側面によれば、ニューラルネットワークを用いてオーディオ信号を処理する装置が提供される。この装置は、ニューラルネットワークと、一つまたは複数のプロセッサとを含んでいてもよく、該プロセッサは、(a)知覚領域オーディオ信号を得る段階と;(b)知覚領域オーディオ信号を処理するために知覚領域オーディオ信号をニューラルネットワークに入力する段階と;(c)ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む方法を実行するように構成される。
【0041】
本開示の第8の側面によれば、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する装置が提供される。この装置は、ニューラルネットワークと、一つまたは複数のプロセッサとを含んでいてもよく、該プロセッサは:(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;(b)知覚領域オーディオ信号を潜在特徴空間表現にマッピングするために知覚領域オーディオ信号をニューラルネットワークに入力する段階と;(c)知覚領域オーディオ信号の潜在特徴空間表現をニューラルネットワークからの出力として得る段階と;(d)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして出力する段階とを含む方法を実行するように構成される。
【0042】
本開示の第9の側面によれば、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る装置が提供される。この装置は、ニューラルネットワークと、一つまたは複数のプロセッサとを含んでいてもよく、該プロセッサは:(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受領する段階と;(b)知覚領域オーディオ信号を生成するために、潜在特徴空間表現をニューラルネットワークに入力する段階と;(c)知覚領域オーディオ信号を第2のニューラルネットワークからの出力として得る段階と;(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む方法を実行するように構成される。
【0043】
本開示の第10ないし第15の側面によれば、処理能力を有する装置によって実行されたときに、装置にここに記載された方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクトが提供される。
【図面の簡単な説明】
【0044】
ここで、添付の図面を参照して、単に例として、本開示の例示的実施形態について説明する。
【0045】
図1】ニューラルネットワークを使用してオーディオ信号を処理する方法の例を示している。
【0046】
図2】ニューラルネットワークを使用してオーディオ信号を処理する方法のさらなる例を示している。
【0047】
図3】ニューラルネットワークを使用してオーディオ信号を処理する装置を含むシステムの例を示している。
【0048】
図4a】第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法の例を示している。
図4b】第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法の例を示している。
【0049】
図5】ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得して送信する装置と、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を取得する装置のシステムの例を示している。
【0050】
図6】ニューラルネットワークをトレーニングする方法の例を示している。
【0051】
図7】第1および第2のニューラルネットワークのセットを合同でトレーニングする方法の例を示している。
【0052】
図8】レベルと周波数の関数としてのもとのオーディオ信号とマスクの例を示している。
【0053】
図9】もとのオーディオ信号にマスクを適用することから得られる、レベルと周波数の関数としての知覚領域オーディオ信号の例を示している。
【0054】
図10】オーディオ信号を知覚領域に変換し、ニューラルネットワークを使用して前記オーディオ信号を処理する例を示している。
【0055】
図11】ニューラルネットワークがオーディオ・エンコーダとデコーダの両方にある場合の、知覚領域で動作するオーディオ・エンコーダとデコーダの例を示している。この図は、ネットワークが知覚領域で動作しているため、ニューラルネットワークのトレーニングのために単純な損失関数を使用する例も示している。
【0056】
図12】ニューラルネットワークがデコーダ内にある場合の、知覚領域で動作するオーディオ・エンコーダとデコーダの例を示している。この図は、ネットワークが知覚領域で動作しているため、ニューラルネットワークのトレーニングのために単純な損失関数を使用する例を示している。
【発明を実施するための形態】
【0057】
概観
ニューラルネットワークは画像、動画、さらには発話のエンコードおよび/またはデコードのために有望であることを示しているが、一般的なオーディオをエンコードおよび/またはデコードすることは、ニューラルネットワークを使用してでは、困難である。一般的なオーディオの圧縮がニューラルネットワークでは複雑になる要因は2つあり、第一に、オーディオ・エンコーダとデコーダは、高性能を達成するために人間の聴覚系の限界を利用する必要がある。人間の聴覚系の知覚的限界を利用するために、ニューラルネットワークは、下記のL1またはL2のような非知覚的な損失関数を用いて直接トレーニングされることはできない。
【数1】
ここで、xnはターゲット(正解)、バー付きのxnは予測(ネットワークの出力)である。
第二に、一般的なオーディオ信号は非常に高いダイナミックレンジをもち、性質も非常に多様であるため、ニューラルネットワークのトレーニングが複雑になる。
【0058】
本開示は、それぞれのオーディオ・エンコーダおよび/またはデコーダにおいて、ニューラルネットワークを適用する前に、オーディオ信号を知覚領域に変換する方法および装置を記述する。オーディオ信号の知覚領域変換は、ダイナミックレンジを大幅に減少させるだけでなく、L1およびL2のような非知覚的な損失関数をネットワークのトレーニングに使用することを許容する。
【0059】
ニューラルネットワークを用いてオーディオ信号を処理する方法
【0060】
図1の例を参照するに、ニューラルネットワークを用いてオーディオ信号を処理する方法が示されている。段階S101では、知覚領域オーディオ信号が得られる。ここで使用される知覚領域(perceptual domain)という用語は、周波数成分間の相対的なレベル差が、相対的な主観的重要性に(ほぼ)比例する信号を指す。一般に、知覚領域に変換されたオーディオ信号は、知覚領域信号にホワイトノイズ(スペクトル的にフラットなノイズ)を追加することによる可聴な効果を最小にする。信号がもとの信号領域に変換し戻されるときの可聴性を最小にするようにノイズが整形されるためである。
【0061】
図2の例を参照すると、知覚領域オーディオ信号は、段階S101a、S101b、およびS101cから得られてもよく、段階S101aでは、マスクを適用することによって、オーディオ信号がもとの信号領域から知覚領域に変換されうる。
【0062】
オーディオ信号を知覚領域に変換する1つの方法は、たとえば、心理音響モデルを使用してマスクまたはマスキング曲線を推定することでありうる。マスキング曲線は、一般に、人間の聴覚系が所与の刺激信号について検出できる最小可知差異(JND)のレベルを定義する。ひとたび心理音響モデルからマスキング曲線が導出されると、オーディオ信号のスペクトルはマスキング曲線によって除算されて、知覚領域オーディオ信号を生成することができる。逆マスク推定値による乗算から導出された知覚領域オーディオ信号は、ニューラルネットワークのエンコードおよび/またはデコード後にマスクを乗算することによって、もとの信号に変換し戻されてもよい。デコード後のマスクの乗算は、エンコードおよびデコード・プロセスによって導入される誤差がマスキング曲線に従うことを保証する。これは、もとのオーディオ信号を知覚領域に変換する方法の1つであるが、適切に設計された時間変化するフィルタによる時間領域でのフィルタリングなど、他の多くの方法も考えられることに注意されたい。図8図9の例を参照すると、もとのオーディオ信号のスペクトルの、知覚領域への変換が示されている。図8のプロットは、もとのオーディオ信号のスペクトル(実線)と、心理音響モデルで計算された推定マスクまたはマスキング曲線(一点鎖線)を示している。逆マスク推定値の乗算から帰結する知覚領域信号は、図9のプロットに示されている。知覚領域信号は、ニューラルネットワークのトレーニング中に単純な損失項を使用することを許容するだけでなく、図8に示されているように、もとのオーディオ信号スペクトルよりもはるかに少ないダイナミックレンジを示す。
【0063】
再び図2の例を参照すると、段階S101bで、知覚領域オーディオ信号は次いでエンコードされ、その後、段階S101cでデコードされて、知覚領域オーディオ信号が得られる。いくつかの実施形態では、エンコード前に知覚領域オーディオ信号に量子化が適用されてもよく、デコード後に知覚領域オーディオ信号に逆量子化が適用されてもよい。
【0064】
再び図1の例を参照すると、段階S102で、知覚領域オーディオ信号を処理するために、知覚領域オーディオ信号がニューラルネットワークに入力される。使用されるニューラルネットワークは制限されず、処理要件に応じて選択できる。ニューラルネットワークは時間領域と同様に周波数領域で動作してもよいが、いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは時間領域で実行されてもよい。さらに、いくつかの実施形態では、ニューラルネットワークはマスクを示す情報で条件付けされてもよい。代替的または追加的に、いくつかの実施形態では、ニューラルネットワークは知覚領域オーディオ信号で条件付けされてもよい。
【0065】
いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を時間を横断して予測することを含んでいてもよい。あるいはまた、いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を周波数を横断して予測することを含んでいてもよい。さらに、代替的に、いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を処理することは、処理された知覚領域オーディオ信号を時間と周波数を横断して予測することを含んでいてもよい。
【0066】
次いで、段階S103では、処理された知覚領域オーディオ信号がニューラルネットワークからの出力として得られる。いくつかの実施形態では、処理された知覚領域オーディオ信号は、次の段階S104の前に、周波数領域に変換されてもよい。
【0067】
段階S104では、処理された知覚領域オーディオ信号は、心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、もとの信号領域に変換される。たとえば、マスクを計算するために、心理音響モデルは、処理された知覚領域オーディオ信号を周波数領域に変換するために適用される時間から周波数への変換からの周波数係数を利用してもよい。代替的または追加的に、段階S104で使用されるマスクは、もとのオーディオ信号を知覚領域に変換するために使用されたマスクに基づいていてもよい。この場合、マスクはサイド情報として得られてもよい。マスクは任意的に、量子化されてもよい。
【0068】
このように、本稿で使用される「もとのオーディオ信号」という用語は、オーディオ信号を知覚領域に変換する前のオーディオ信号のそれぞれの信号領域を指す。
【0069】
上記の方法は、さまざまな仕方で実装されうる。たとえば、前記方法は、ニューラルネットワークを使用してオーディオ信号を処理する装置によって実装されてもよく、この装置は、ニューラルネットワークと、前記方法を実行するように構成された一つまたは複数のプロセッサを含む。
【0070】
図3の例を参照すると、ニューラルネットワークを使用してオーディオ信号を処理する装置を含むシステムが示されている。この装置はデコーダであってもよい。この場合、ニューラルネットワークはデコーダでのみ使用される。
【0071】
図3の例に示されているように、知覚領域オーディオ信号は、量子化器101での量子化にかけられてもよく、たとえばそれぞれのレガシー・エンコーダ102によって(エントロピー)エンコードされてもよい。次いで、量子化されたエンコードされた知覚オーディオ信号は、たとえばビットストリームとしてデコーダ103に送信されてもよい。たとえば受領されたビットストリームを(エントロピー)デコードすることによって、量子化された知覚領域オーディオ信号を得るためである。量子化された知覚領域オーディオ信号は、その後、それぞれの逆量子化器104で逆量子化にかけられてもよい。得られた知覚領域オーディオ信号は、その後、ニューラルネットワーク(デコーダ・ニューラルネットワーク)105に入力され、ニューラルネットワーク105からの出力として、処理された知覚領域オーディオ信号を得ることができる。
【0072】
代替的または追加的に、上記の方法は、処理能力を有する装置によって実行されたときに装置に前記方法を実行させるように適応させた命令を有するコンピュータ可読記憶媒体を含むコンピュータ・プログラム・プロダクトによって実装されてもよい。
【0073】
第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法
【0074】
図4aおよび4bの例を参照して、第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法が示されている。たとえば、第1のニューラルネットワークはエンコーダ・サイトで実装されてもよく、第2のニューラルネットワークはデコーダ・サイトで実装されてもよい。
【0075】
図4aの例に示されているように、段階S201では、心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、第1の装置によって知覚領域オーディオ信号が得られる。第1の装置は、たとえばエンコーダであってもよい。いくつかの実施形態では、知覚領域オーディオ信号を得ることは、周波数領域で実行されてもよい。
【0076】
段階S202では、取得された知覚領域オーディオ信号は、次いで、知覚領域オーディオ信号を潜在特徴空間表現にマッピングするために第1のニューラルネットワークに入力される。
【0077】
いくつかの実施形態では、第1のニューラルネットワークによって知覚領域オーディオ信号を潜在特徴空間表現にマッピングすることは、時間領域で実行されてもよい。
【0078】
第1のニューラルネットワークからの出力として、段階S203では、潜在特徴空間表現が得られる。
【0079】
次いで、段階S204では、知覚領域オーディオ信号の潜在特徴空間表現とマスクが第2の装置に送信される。いくつかの実施形態では、上記の方法は、知覚領域オーディオ信号の潜在特徴空間表現とマスクをビットストリームにエンコードし、ビットストリームを第2の装置に送信することをさらに含んでいてもよい。いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現とマスクは、ビットストリームにエンコードする前に、さらに量子化されてもよい。
【0080】
ここで図4bの例を参照すると、段階S205で、知覚領域オーディオ信号の潜在特徴空間表現とマスクが第2の装置によって受信される。第2の装置は、たとえばデコーダであってもよい。いくつかの実施形態では、この方法は、第2の装置によって知覚領域オーディオ信号の潜在特徴空間表現とマスクをビットストリームとして受領し、該ビットストリームをデコードして知覚領域オーディオ信号の潜在特徴空間表現とマスクを得ることをさらに含んでいてもよい。いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現とマスクが量子化される場合、第2のニューラルネットワークによる処理の前に、知覚領域オーディオ信号の潜在特徴空間表現とマスクが量子化解除されてもよい。
【0081】
段階S206では、近似された知覚領域オーディオ信号を生成するために、潜在特徴空間表現が第2のニューラルネットワークに入力される。いくつかの実施形態では、第2のニューラルネットワークは、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを条件としていてもよい。いくつかの実施形態では、第2のニューラルネットワークによって、近似された知覚領域オーディオ信号を生成することは、時間領域で実行されてもよい。
【0082】
段階S207では、第2のニューラルネットワークからの出力として、近似された知覚領域オーディオ信号が得られる。
【0083】
近似された知覚領域オーディオ信号は、段階S208で、マスクに基づいてもとの信号領域に変換される。いくつかの実施形態では、近似された知覚領域信号の変換は、周波数領域で実行されてもよい。
【0084】
上記の方法は、それぞれの第1および第2の装置のシステムによって実装されてもよい。代替的または追加的に、上記の方法は下記では、処理能力をもつ装置によって実行されたときに装置に前記方法を実行させるように適応させた命令を有するコンピュータ可読記憶媒体を含むそれぞれのコンピュータ・プログラム・プロダクトによって実装されてもよい。
【0085】
あるいはまた、上記の方法は、部分的にはニューラルネットワークを用いて知覚領域オーディオ信号の潜在特徴空間表現を取得し送信する装置によって、部分的にはニューラルネットワークを用いて知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を取得する装置によって実装されてもよい。その際、それらの装置は単体の諸装置として、または一つのシステムとして実装されてもよい。
【0086】
次いで、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得して送信する方法は、以下の段階を含む。段階(a)では、心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することにより、知覚領域オーディオ信号が得られる。いくつかの実施形態では、知覚領域オーディオ信号を得ることは、周波数領域で実行されてもよい。
【0087】
段階(b)では、知覚領域オーディオ信号を潜在特徴空間表現にマッピングするために、知覚領域オーディオ信号がニューラルネットワークに入力される。いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を潜在特徴空間表現にマッピングすることは、時間領域で実行されてもよい。
【0088】
ニューラルネットワークからの出力として、段階(c)で、知覚領域オーディオ信号の潜在特徴空間表現が得られる。そして段階(d)では、知覚領域オーディオ信号の潜在特徴空間表現がビットストリームとして出力される。
【0089】
いくつかの実施形態では、マスクを示すさらなる情報が段階(d)において前記ビットストリームとして出力されてもよい。いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを示す情報が、ビットストリームとして出力する前に量子化されてもよい。
【0090】
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法は、次の段階を含む。段階(a)では、知覚領域オーディオ信号の潜在特徴空間表現がビットストリームとして受領される。段階(b)では、知覚領域オーディオ信号を生成するために、潜在特徴空間表現がニューラルネットワークに入力される。段階(c)では、ニューラルネットワークからの出力として、知覚領域オーディオ信号が得られる。そして段階(d)では、心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、知覚領域オーディオ信号がもとの信号領域に変換される。
【0091】
いくつかの実施形態では、ニューラルネットワークは知覚領域オーディオ信号の潜在特徴空間表現を条件としていてもよい。いくつかの実施形態では、さらに、段階(a)において、マスクを示す情報がビットストリームとして受領されてもよく、ニューラルネットワークは前記情報を条件としていてもよい。いくつかの実施形態では、知覚領域オーディオ信号の潜在特徴空間表現および/またはマスクを示す情報は量子化されて受領され、段階(b)の前に逆量子化が実行されてもよい。いくつかの実施形態では、ニューラルネットワークによって知覚領域オーディオ信号を生成することは、時間領域で実行されてもよい。いくつかの実施形態では、知覚領域オーディオ信号をもとの信号領域に変換することは、周波数領域で実行されてもよい。
【0092】
図5の例を参照すると、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得して送信する装置(第1の装置とも)と、ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を取得する装置(第2の装置とも)のシステムが示されている。
【0093】
図5の例では、(第1の)装置201において、上記のように処理するために知覚領域オーディオ信号は(第1の)ニューラルネットワーク202に入力されてもよい。第1のニューラルネットワーク202はエンコーダ・ニューラルネットワークであってもよい。(第1の)ニューラルネットワークから出力された潜在特徴空間表現は量子化器203で量子化され、(第2の)装置204に送信されてもよい。量子化された潜在特徴空間表現はビットストリームとしてエンコードされ、(第2の)装置204に送信されてもよい。(第2の)装置204では、受領された潜在特徴空間表現は、まず逆量子化器205で逆量子化され、任意的に、潜在特徴空間表現に基づいて近似された知覚領域オーディオ信号を生成するために(第2の)ニューラルネットワーク206に入力する前に、デコードされてもよい。次いで、(第2の)ニューラルネットワーク206からの出力として、近似された知覚領域オーディオ信号が得られてもよい。
【0094】
ニューラルネットワークをトレーニングする方法
【0095】
図6の例を参照するに、ニューラルネットワークをトレーニングする方法が示されている。段階S301では、知覚領域オーディオ・トレーニング信号を処理するために、知覚領域オーディオ・トレーニング信号がニューラルネットワークに入力される。知覚領域オーディオ・トレーニング信号はニューラルネットワークによって処理され、段階S302では、次いで、処理された知覚領域オーディオ・トレーニング信号が、前記ニューラルネットワークからの出力として得られる。処理された知覚領域オーディオ・トレーニング信号と、知覚領域オーディオ・トレーニング信号が得られたもとになった可能性のあるもとの知覚領域オーディオ信号との間の差に基づいて、次いで、段階S303で、ニューラルネットワークのパラメータが逐次反復的に調整される。この逐次反復的な調整に基づいて、ニューラルネットワークは、ますますよい、処理された知覚領域オーディオ・トレーニング信号を生成するようにトレーニングされる。この逐次反復的な調整の目的は、ニューラルネットワークに、それぞれのもとの知覚領域オーディオ信号と区別できない処理された知覚領域オーディオ・トレーニング信号を生成させることである。
【0096】
いくつかの実施形態では、ニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされてもよい。知覚領域でオーディオ信号を符号化するように設計されたニューラルネットワークは、L1やL2などの単純な損失関数でトレーニングされてもよい。これらはスペクトル的な白色な誤差を導入しうるからである。L1とL2の場合、ニューラルネットワークは処理された知覚領域オーディオ・トレーニング信号の平均を予測しうる。
【0097】
あるいはまた、いくつかの実施形態では、ニューラルネットワークは負の対数尤度(negative log likelihood、NLL)条件に基づいて知覚領域でトレーニングされてもよい。NLLの場合、ニューラルネットワークは事前に選択された分布からのパラメータ化として平均とスケールを予測しうる。数値的不安定性を回避するために、典型的にはスケール・パラメータの対数演算が使用されてもよい。事前に選択された分布はラプラシアンであってもよい。あるいはまた、事前に選択された分布はロジスティック分布またはガウス分布であってもよい。ガウス分布の場合、スケール・パラメータは分散パラメータで置き換えられてもよい。NLLの場合については、分布パラメータから処理された知覚領域オーディオ・トレーニング信号に変換するために、サンプリング操作が使用されてもよい。サンプリング操作は次のように書ける。
【数2】
ここで、チルダ付きのxは、予測された処理された知覚領域オーディオ・トレーニング信号であり、meanおよびscaleはニューラルネットワークからの予測されたパラメータであり、F()は事前に選択された分布によって決定されるサンプリング関数であり、uは一様分布からサンプリングされる。
【0098】
たとえば、ラプラシアンの場合、
【数3】
量子化マスクから導出された重み付け関数がサンプリング関数F()においてスケール・パラメータに適用されてもよい。さらに、各出力係数についての混合(たとえばガウス混合)からのサンプリングする場合、パラメータのベクトルがあってもよい。
【0099】
第1と第2のニューラルネットワークのセットを合同でトレーニングする方法
【0100】
図7の例を参照するに、第1と第2のニューラルネットワークのセットを合同でトレーニングする方法が示されている。
【0101】
段階S401では、知覚領域オーディオ・トレーニング信号を潜在特徴空間表現にマッピングするために、知覚領域オーディオ・トレーニング信号が第1のニューラルネットワークに入力される。段階S402では、第1のニューラルネットワークからの出力として、知覚領域オーディオ・トレーニング信号の潜在特徴空間表現が得られる。段階S403では、次いで、近似された知覚領域オーディオ・トレーニング信号を生成するために、知覚領域オーディオ・トレーニング信号の潜在特徴空間表現が第2ニューラルネットワークに入力される。次いで、第2のニューラルネットワークからの出力として、段階S404で、近似された知覚領域オーディオ・トレーニング信号が得られる。そして、段階S405では、近似された知覚領域オーディオ・トレーニング信号と、知覚領域オーディオ・トレーニング信号が導出されたもとになった、もとの知覚領域オーディオ信号との間の差に基づいて、第1および第2ニューラルネットワークのパラメータが逐次反復的に調整される。
【0102】
いくつかの実施形態では、第1および第2のニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされてもよい。いくつかの実施形態では、第1および第2のニューラルネットワークは、負の対数尤度(NLL)条件に基づいて知覚領域でトレーニングされてもよい。逐次反復的な調整の目標は、第1および第2ニューラルネットワークに、それぞれのもとの知覚領域オーディオ信号と区別できない、近似された知覚領域オーディオ・トレーニング信号を生成させることである。
【0103】
さらなる例示的実施形態
図10ないし図12の例を参照するに、本稿で説明される方法および装置のさらなる例示的な実施形態が示されている。図10の例では、ニューラルネットワークを使用したデータ削減のために、オーディオ信号の知覚領域への変換を示す概略図が示されている。図10の例では、PCMオーディオ・データが入力として使用されている。
【0104】
図11の例では、エンコーダとデコーダの両方にニューラルネットワークがある、知覚領域で動作するオーディオ・エンコーダとデコーダの概略図が示されている。図11は、ネットワークが知覚領域で動作しているため、ニューラルネットワークのトレーニングのために単純な損失関数を使用することも示している。図11の例では、正解信号は、もとの知覚領域オーディオ信号を指し、これに基づいてそれぞれの知覚領域オーディオ・トレーニング信号が導出されてもよく、これが、ニューラルネットワークを逐次反復的に調整するために、近似された知覚領域オーディオ信号と比較されてもよい。
【0105】
図12の例では、デコーダ内にニューラルネットワークがある、知覚領域で動作するオーディオ・エンコーダとデコーダの概略図が示されている。図12も、ネットワークが知覚領域で動作しているため、ニューラルネットワークのトレーニングのために単純な損失関数を使用することを示している。また、この場合、正解信号は、もとの知覚領域オーディオ信号を指し、これに基づいてそれぞれの知覚領域オーディオ・トレーニング信号が導出されてもよく、これが、ニューラルネットワークを逐次反復的に調整するために、処理された知覚領域オーディオ信号と比較されてもよい。
【0106】
解釈
【0107】
特に断らない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、物理量、たとえば電子的な量として表されるデータを操作および/または変換して、同様に物理量として表される他のデータにする、コンピュータまたはコンピューティング・システム、または類似の電子計算装置のアクションおよび/またはプロセスを指すことが理解される。
【0108】
同様に、用語「プロセッサ」は、たとえばレジスタおよび/またはメモリからの電子データを処理して、その電子データをたとえばレジスタおよび/またはメモリに記憶されうる他の電子データにするため任意の装置または装置の部分を指してもよい。「コンピュータ」または「計算機」または「コンピューティングプラットフォーム」は、一つまたは複数のプロセッサを含んでいてもよい。
【0109】
本明細書に記載の方法は、ある例示的実施形態では、前記プロセッサのうちの一つまたは複数によって実行されたときに本明細書に記載の方法のうちの少なくとも1つを実行する命令のセットを含むコンピュータ可読(機械可読とも呼ばれる)コードを受け入れる一つまたは複数のプロセッサによって実行可能である。実行されるべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のプロセッサが含まれる。よって、1つの例は、一つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、およびプログラマブルDSPユニットのうちの一つまたは複数を含みうる。処理システムはさらに、メインRAMおよび/またはスタティックRAMおよび/またはROMを含むメモリサブシステムを含んでいてもよい。コンポーネント間で通信するためのバスサブシステムが含まれてもよい。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイ、たとえば、液晶ディスプレイ(LCD)または陰極線管(CRT)ディスプレイが含まれていてもよい。手動データ入力が必要な場合には、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御装置などの一つまたは複数のような入力装置をも含む。処理システムは、ディスクドライブユニットのような記憶システムも含むことができる。いくつかの構成における処理システムは、音声出力装置およびネットワークインターフェース装置を含みうる。よって、メモリサブシステムは、一つまたは複数のプロセッサによって実行されたときに、本明細書に記載された方法の一つまたは複数を実行させる一組の命令を含む、コンピュータ読み取り可能なコード(たとえば、ソフトウェア)を担持するコンピュータ読み取り可能なキャリア媒体を含む。方法がいくつかの要素、たとえば、いくつかのステップを含む場合、具体的に述べられない限り、そのような要素の順序付けは含意されないことに注意されたい。ソフトウェアは、ハードディスク内にあってもよく、または、コンピュータシステムによるその実行中には、完全にまたは少なくとも部分的に、RAM内および/またはプロセッサ内にあってもよい。よって、メモリおよびプロセッサは、コンピュータ読み取り可能なコードを担持するコンピュータ読み取り可能なキャリア媒体も構成する。さらに、コンピュータ読み取り可能なキャリア媒体は、コンピュータ・プログラム・プロダクトを形成するか、またはコンピュータ・プログラム・プロダクトに含まれてもよい。
【0110】
代替的な例示的実施形態では、前記一つまたは複数のプロセッサは、スタンドアローン装置として動作するか、または、ネットワーク接続された展開では、接続されてもよく、たとえば他のプロセッサにネットワーク接続されてもよく、前記一つまたは複数のプロセッサは、サーバー‐ユーザーネットワーク環境におけるサーバーまたはユーザーマシンの資格で動作してもよく、または、ピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。前記一つまたは複数のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、または、そのマシンによって取られるべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のマシンを形成しうる。
【0111】
「機械」という用語はまた、本明細書で議論される方法論のいずれか一つまたは複数を実行するための命令のセット(または複数セット)を個別にまたは合同で実行する機械の任意の集合を含むとも解釈されることに留意されたい。
【0112】
よって、本明細書に記載される各方法の一つの例示的実施形態は、命令のセット、たとえば、一つまたは複数のプロセッサ、たとえば、ウェブ・サーバー構成の一部である一つまたは複数のプロセッサ上での実行のためのコンピュータ・プログラムを担持するコンピュータ可読キャリア媒体の形である。よって、当業者には理解されるように、本開示の例示的実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、またはコンピュータ読み取り可能なキャリア媒体、たとえば、コンピュータ・プログラム・プロダクトとして具現されうる。コンピュータ読み取り可能なキャリア媒体は、一つまたは複数のプロセッサ上で実行されたときにプロセッサ(単数または複数)に方法を実施させる命令のセットを含むコンピュータ読み取り可能コードを担持する。よって、本開示の諸側面は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアとハードウェアの側面を組み合わせた例示的な実施形態の形をとることができる。さらに、本開示は、媒体内に具現されたコンピュータ読み取り可能なプログラムコードを担持するキャリア媒体(たとえば、コンピュータ読み取り可能な記憶媒体上のコンピュータ・プログラム・プロダクト)の形態をとることができる。
【0113】
ソフトウェアは、さらに、ネットワークインターフェース装置を介してネットワークを通じて送受信されてもよい。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体(carrier medium)」という用語は、一つまたは複数の命令セットを記憶する単一の媒体または複数の媒体(たとえば、中央集中型または分散型データベース、および/または関連するキャッシュおよびサーバー)を含むと解されるべきである。用語「キャリア媒体」はまた、前記プロセッサのうちの一つまたは複数による実行のための命令のセットを記憶、エンコード、または担持することができ、前記一つまたは複数のプロセッサに本開示の方法のいずれか一つまたは複数を実行させる任意の媒体をも含むと解されるべきである。キャリア媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む多くの形態をとることができる。不揮発性媒体には、たとえば、光ディスク、磁気ディスク、および光磁気ディスクを含む。揮発性媒体は、メインメモリのような動的メモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバーを含む。伝送媒体はまた、電波および赤外線データ通信の間に生成されるような、音波または光波の形態をとることもできる。たとえば、「キャリア媒体」という用語は、固体メモリ、光学および磁気媒体に具現されたコンピュータプロダクト;少なくとも1つのプロセッサまたは一つまたは複数のプロセッサによって検出可能な伝搬信号を担持し、実行時に方法を実装する命令のセットを表す媒体;および前記一つまたは複数のプロセッサのうちの少なくとも1つのプロセッサによって検出可能な伝搬信号を担持し、命令のセットを表すネットワーク内の伝送媒体を含むが、これらに限定されないと解されるべきである。
【0114】
論じられた方法のステップは、ある例示的実施形態では、記憶装置に記憶された命令(コンピュータ読み取り可能コード)を実行する処理(たとえばコンピュータ)システムの適切なプロセッサ(単数または複数)によって実行されることが理解されよう。また、本開示は、いかなる特定の実装またはプログラミング技法にも限定されず、本明細書に記載される機能を実装するための任意の適切な技法を用いて実装されうることも理解されるであろう。本開示は、いかなる特定のプログラミング言語またはオペレーティング・システムにも限定されない。
【0115】
本開示全体を通して、「一つの実施形態」、「いくつかの実施形態」または「ある例示的実施形態」への言及は、その実施形態に関連して記載された特定の特徴、構造または特徴が、本開示の少なくとも1つの実施形態に含まれることを意味する。従って、本開示のさまざまな箇所における「一つの実施形態では」、「いくつかの実施形態では」または「ある例示的実施形態では」という句の出願は、必ずしもすべてが同じ例示的実施形態を指しているわけではない。さらに、特定の特徴、構造または特性は、本開示から当業者に明らかなように、一つまたは複数の例示的実施形態において、任意の適切な仕方で組み合わせることができる。
【0116】
本明細書中で使用されるところでは、特に断りのない限り、共通の対象を記述するための序数形容詞「第1の」、「第2の」、「第3の」などの使用は、単に、類似の対象の異なるインスタンスが言及されていることを示し、かつ、そのように記述された対象が、時間的に、空間的に、ランク付けにおいて、または他のいかなる仕方でも、所与の序列になければならないことを意味することを意図していない。
【0117】
特許請求の範囲および本明細書中の説明において、含む、含んでいる、または有するという用語のうちの任意のものは、少なくとも挙げられている要素/特徴を含むが、他を除外しない開放的な用語である。よって、特許請求の範囲において使用される場合の用語、含む/有するは、列挙される手段、要素、またはステップに限定されるものとして解釈されるべきではない。たとえば、AおよびBを有する装置は、要素AおよびBのみからなる装置に限定されるべきではない。本明細書で使用されるところの、含むまたは含んでいるまたは包含するという用語のうちの任意のものも、少なくとも列挙されている要素/特徴を含むが他を排除しない、開放的な用語である。よって、含むとは、有すると同義であり、有するを意味する。
【0118】
本開示の例示的実施形態の上述の説明では、本開示の流れをよくし、さまざまな発明的側面の一つまたは複数の理解を助ける目的で、本開示のさまざまな特徴が、単一の例示的実施形態、図、またはそれらの説明にまとめられることがあることが理解されるべきである。しかしながら、この開示方法は、請求項が各請求項において明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の側面は、単一の前述の開示された例示的実施形態のすべての特徴よりも少ないものにある。よって、本明細書に続く請求項は、ここに明示的に本明細書に組み込まれ、各請求項が本開示の別個の例示的実施形態として自立する。
【0119】
さらに、本明細書に記載されるいくつかの例示的な実施形態は、他の例示的実施形態に含まれる特徴の一部を含むが他の一部は含まなくてもよいが、異なる例示的実施形態の特徴の組み合わせは、当業者に理解されるように、本開示の範囲内であり、異なる例示的実施形態をなすことが意図されている。たとえば、以下の請求項では、請求項に記載された例示的実施形態の任意のものが、任意の組み合わせで使用できる。
【0120】
本明細書において提供される説明において、多数の個別的な詳細が記載されている。しかしながら、本開示の例示的実施形態は、これらの個別的な詳細なしに実施されうることが理解される。他方、周知の方法、構造および技術は、本稿の理解を不明瞭にしないために詳細には示されていない。
【0121】
よって、開示の最良の態様であると考えられるものが記載されているが、当業者は、開示の精神から逸脱することなく、他のさらなる修正がなされうることを認識し、本開示の範囲に含まれるものとしてそのようなすべての変更および修正を請求することが意図されていることを認識するであろう。たとえば、上述のどの式も、単に使用されうる手順を表すに過ぎない。ブロック図から機能を追加または削除することができ、機能ブロック間で動作を交換することができる。本開示の範囲内に記載される方法にステップが追加または削除されうる。
【0122】
本発明のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解することができる。
〔EEE1〕
ニューラルネットワークを用いてオーディオ信号を処理するコンピュータ実装される方法であって、当該方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、前記知覚領域オーディオ信号の前記潜在特徴空間表現を得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームおいて出力する段階とを含む、
方法。
〔EEE2〕
前記マスクを示すさらなる情報が段階(d)において前記ビットストリームにおいて出力される、EEE1に記載の方法
〔EEE3〕
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が、前記ビットストリームにおいて出力する前記段階の前に量子化される、EEE1または2に記載の方法。
〔EEE4〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングすることが、時間領域で実行される、および/または
前記知覚領域オーディオ信号を得ることが、周波数領域で実行される、
EEE1ないし3のうちいずれか一項に記載の方法。
〔EEE5〕
ニューラルネットワークを用いてオーディオ信号をデコードするコンピュータ実装される方法であって、当該方法は:
(a)知覚領域オーディオ信号の表現を得る段階と;
(b)前記知覚領域オーディオ信号の前記表現を、前記知覚領域オーディオ信号の前記表現を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
〔EEE6〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することが時間領域で実行される;および/または
当該方法が、段階(d)の前に、前記オーディオ信号を周波数領域に変換することをさらに含む、
EEE5に記載の方法。
〔EEE7〕
前記ニューラルネットワークが前記マスクを示す情報を条件とする;および/または
前記ニューラルネットワークは前記知覚領域オーディオ信号を条件とする、
EEE5または6に記載の方法。
〔EEE8〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは:
前記処理された知覚領域オーディオ信号を時間を横断して予測すること;
前記処理された知覚領域オーディオ信号を周波数を横断して予測すること;および
前記処理された知覚領域オーディオ信号を時間と周波数を横断して予測すること、
のうちの少なくとも一つを含む、EEE7に記載の方法。
〔EEE9〕
前記知覚領域オーディオ信号の前記表現は前記知覚領域オーディオ信号を含む、EEE5ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
前記知覚領域オーディオ信号の前記表現は:
前記マスクを適用することにより、オーディオ信号をもとの信号領域から知覚領域に変換し;
前記知覚領域オーディオ信号をエンコードし;
前記知覚領域オーディオ信号をデコードすることから得られ;
任意的に、
エンコードする前に前記知覚領域オーディオ信号に量子化が適用され、デコード後に前記知覚領域オーディオ信号に逆量子化が適用される、
EEE5ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
段階(a)は、前記知覚領域オーディオ信号の潜在特徴空間表現をビットストリームにおいて受領することを含み;
段階(b)は、前記潜在特徴空間表現を、前記処理された知覚領域オーディオ信号を生成するための前記ニューラルネットワークに入力することを含む、
EEE5に記載の方法。
〔EEE12〕
前記ニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現を条件とする、EEE11に記載の方法。
〔EEE13〕
前記マスクを示す追加的情報を前記ビットストリームとして受領することをさらに含み、 前記ニューラルネットワークは、前記追加的情報を条件とする、
EEE11または12に記載の方法。
〔EEE14〕
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が量子化された形で受領され;
当該方法は、前記潜在特徴空間表現を前記ニューラルネットワークに入力する前に逆量子化をさらに含む、
EEE11ないし13のうちいずれか一項に記載の方法。
〔EEE15〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を生成することが時間領域で実行される;および/または
前記知覚領域オーディオ信号をもとの信号領域に変換することは、周波数領域で実行される、
EEE11ないし14のうちいずれか一項に記載の方法。
〔EEE16〕
ニューラルネットワークを用いてオーディオ信号を処理する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
〔EEE17〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは時間領域で実行される、EEE16に記載の方法。
〔EEE18〕
当該方法は、段階(d)の前に、前記オーディオ信号を周波数領域に変換することをさらに含む、EEE16または17に記載の方法。
〔EEE19〕
前記ニューラルネットワークは、前記マスクを示す情報を条件としている、EEE16ないし18のうちいずれか一項に記載の方法。
〔EEE20〕
前記ニューラルネットワークは、前記知覚領域オーディオ信号を条件としている、EEE16ないし19のうちいずれか一項に記載の方法。
〔EEE21〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を時間を横断して予測することを含む、EEE19または20に記載の方法。
〔EEE22〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を周波数を横断して予測することを含む、EEE19または20に記載の方法。
〔EEE23〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を処理することは、前記処理された知覚領域オーディオ信号を時間と周波数を横断して予測することを含む、EEE19または20に記載の方法。
〔EEE24〕
前記知覚領域オーディオ信号は:
(a)前記マスクを適用することによって、オーディオ信号をもとの信号領域から知覚領域に変換し;
(b)前記知覚領域オーディオ信号をエンコードし;
(c)前記知覚領域オーディオ信号をデコードすることから得られる、
EEE16ないし23のうちいずれか一項に記載の方法。
〔EEE25〕
エンコードの前に量子化が前記知覚領域オーディオ信号に適用され、デコード後に逆量子化が前記知覚領域オーディオ信号に適用される、EEE24に記載の方法。
〔EEE26〕
第1および第2のニューラルネットワークを使用してオーディオ信号を処理する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)第1の装置によって、もとの信号領域でのオーディオ信号に、心理音響モデルから導出されたマスキング閾値を示すマスクを適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするための前記第1のニューラルネットワークに入力する段階と;
(c)前記第1のニューラルネットワークからの出力として、前記潜在特徴空間表現を得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクを第2の装置に送信する段階と;
(e)前記第2の装置によって、前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクとを受領する段階と;
(f)前記潜在特徴空間表現を、近似された知覚領域オーディオ信号を生成するための前記第2のニューラルネットワークに入力する段階と;
(g)前記近似された知覚領域オーディオ信号を前記第2のニューラルネットワークからの出力として得る段階と;
(h)前記近似された知覚領域オーディオ信号を前記マスクに基づいてもとの信号領域に変換する段階とを含む、
方法。
〔EEE27〕
当該方法がさらに、前記知覚領域オーディオ信号の前記潜在特徴空間表現と前記マスクをビットストリームにエンコードし、前記ビットストリームを前記第2の装置に送信することを含み、当該方法はさらに、前記第2の装置によって前記ビットストリームを受領し、前記ビットストリームをデコードして前記知覚領域オーディオ信号の前記潜在特徴空間表現および前記マスクを得ることを含んでいてもよい、EEE26に記載の方法。
〔EEE28〕
前記知覚領域オーディオ信号の前記潜在特徴空間表現および前記マスクは、前記ビットストリームにエンコードする前に量子化され、前記第2のニューラルネットワークによる処理の前に量子化解除される、EEE27に記載の方法。
〔EEE29〕
前記第2のニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを条件としている、EEE26ないし28のうちいずれか一項に記載の方法。
〔EEE30〕
前記第1のニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングし、前記第2のニューラルネットワークによって、前記近似された知覚領域オーディオ信号を生成することが、時間領域で実行される、EEE26ないし29のうちいずれか一項に記載の方法。
〔EEE31〕
段階(a)で前記知覚領域信号を得て、段階(h)で前記近似された知覚領域信号を変換することが、周波数領域で実行される、EEE26ないし30のうちいずれか一項に記載の方法。
〔EEE32〕
第1および第2のニューラルネットワークのセットを合同でトレーニングする方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ・トレーニング信号を、知覚領域オーディオ・トレーニング信号を潜在特徴空間表現にマッピングするための前記第1のニューラルネットワークに入力する段階と;
(b)前記知覚領域オーディオ・トレーニング信号の前記潜在特徴空間表現を前記第1のニューラルネットワークからの出力として取得する段階と;
(c)前記知覚領域オーディオ・トレーニング信号の前記潜在特徴空間表現を、近似された知覚領域オーディオ・トレーニング信号を生成するための前記第2のニューラルネットワークに入力する段階と;
(d)前記近似された知覚領域オーディオ・トレーニング信号を前記第2のニューラルネットワークからの出力として得る段階と;
(e)前記近似された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、前記第1および第2のニューラルネットワークのパラメータを逐次反復的に調整する段階とを含む、
方法。
〔EEE33〕
前記第1および第2のニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされる、EEE32に記載の方法。
〔EEE34〕
前記第1および第2のニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされる、EEE32に記載の方法。
〔EEE35〕
ニューラルネットワークをトレーニングする方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ・トレーニング信号を、知覚領域オーディオ・トレーニング信号を処理するための前記ニューラルネットワークに入力する段階と;
(b)処理された知覚領域オーディオ・トレーニング信号を前記ニューラルネットワークからの出力として得る段階と;
(c)前記処理された知覚領域オーディオ・トレーニング信号ともとの知覚領域オーディオ信号との間の差に基づいて、前記ニューラルネットワークのパラメータを逐次反復的に調整する段階とを含む、
方法。
〔EEE36〕
前記ニューラルネットワークは、一つまたは複数の損失関数に基づいて知覚領域でトレーニングされる、EEE35に記載の方法。
〔EEE37〕
前記ニューラルネットワークは、負の対数尤度条件に基づいて知覚領域でトレーニングされる、EEE35に記載の方法。
〔EEE38〕
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号の前記潜在特徴空間表現を前記ニューラルネットワークからの出力として得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームとして出力する段階とを含む、
方法。
〔EEE39〕
前記マスクを示すさらなる情報が段階(d)において前記ビットストリームとして出力される、EEE38に記載の方法。
〔EEE40〕
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報が、前記ビットストリームとして出力される前に量子化される、EEE38または39に記載の方法。
〔EEE41〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を前記潜在特徴空間表現にマッピングすることが、時間領域で実行される、EEE39ないし40のうちいずれか一項に記載の方法。
〔EEE42〕
前記知覚領域オーディオ信号を得ることが、周波数領域で実行される、EEE38ないし41のうちいずれか一項に記載の方法。
〔EEE43〕
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る方法(たとえばコンピュータ実装される方法)であって、当該方法は:
(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受信する段階と;
(b)前記潜在特徴空間表現を、前記知覚領域オーディオ信号を生成するためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号を前記ニューラルネットワークからの出力として得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
方法。
〔EEE44〕
前記ニューラルネットワークは、前記知覚領域オーディオ信号の前記潜在特徴空間表現を条件としている、EEE43に記載の方法。
〔EEE45〕
段階(a)において、前記マスクを示すさらなる情報が前記ビットストリームとして受領され、前記ニューラルネットワークは前記情報を条件とする、EEE43または44に記載の方法。
〔EEE46〕
前記知覚領域オーディオ信号の前記潜在特徴空間表現および/または前記マスクを示す前記情報は量子化されて受領され、段階(b)の前に逆量子化が実行される、EEE43ないし45のうちいずれか一項に記載の方法。
〔EEE47〕
前記ニューラルネットワークによって前記知覚領域オーディオ信号を生成することは、時間領域で実行される、EEE43ないし46のうちいずれか一項に記載の方法。
〔EEE48〕
前記知覚領域オーディオ信号をもとの信号領域に変換することが周波数領域で実行される、EEE43ないし47のうちいずれか一項に記載の方法。
〔EEE49〕
ニューラルネットワークを用いてオーディオ信号を処理する装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を処理するための前記ニューラルネットワークに入力する段階と;
(c)前記ニューラルネットワークからの出力として、処理された知覚領域オーディオ信号を得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記処理された知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
装置。
〔EEE50〕
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現を取得し、送信する装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)心理音響モデルから導出されたマスキング閾値を示すマスクをもとの信号領域でのオーディオ信号に適用することによって、知覚領域オーディオ信号を得る段階と;
(b)前記知覚領域オーディオ信号を、前記知覚領域オーディオ信号を潜在特徴空間表現にマッピングするためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号の前記潜在特徴空間表現を前記ニューラルネットワークからの出力として得る段階と;
(d)前記知覚領域オーディオ信号の前記潜在特徴空間表現をビットストリームとして出力する段階とを含む、
装置。
〔EEE51〕
ニューラルネットワークを使用して知覚領域オーディオ信号の潜在特徴空間表現からオーディオ信号を得る装置であって、当該装置は、ニューラルネットワークと、方法を実行するように構成された一つまたは複数のプロセッサとを含み、前記方法は:
(a)知覚領域オーディオ信号の潜在特徴空間表現をビットストリームとして受領する段階と;
(b)前記潜在特徴空間表現を、前記知覚領域オーディオ信号を生成するためのニューラルネットワークに入力する段階と;
(c)前記知覚領域オーディオ信号を前記第2のニューラルネットワークからの出力として得る段階と;
(d)心理音響モデルから導出されたマスキング閾値を示すマスクに基づいて、前記知覚領域オーディオ信号をもとの信号領域に変換する段階とを含む、
装置。
〔EEE52〕
処理能力を有する装置によって実行されたときに、装置にEEE1ないし10のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE53〕
処理能力を有する装置によって実行されたときに、装置にEEE11ないし16のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE54〕
処理能力を有する装置によって実行されたときに、装置にEEE17ないし19のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE55〕
処理能力を有する装置によって実行されたときに、装置にEEE20ないし22のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE56〕
処理能力を有する装置によって実行されたときに、装置にEEE23ないし27のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE57〕
処理能力を有する装置によって実行されたときに、装置にEEE28ないし33のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ可読記憶媒体を有するコンピュータ・プログラム・プロダクト。
図1
図2
図3
図4a
図4b
図5
図6
図7
図8
図9
図10
図11
図12
【国際調査報告】