特許7505830 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ガウディ・オーディオ・ラボ・インコーポレイテッドの特許一覧

特許7505830機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-17

(45)【発行日】2024-06-25

(54)【発明の名称】機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置

(51)【国際特許分類】

G10L 21/0272 20130101AFI20240618BHJP

G10L 25/30 20130101ALI20240618BHJP

【ＦＩ】

G10L21/0272 100Z

G10L25/30

【請求項の数】 15

(21)【出願番号】P 2023524800

(86)(22)【出願日】2021-10-20

(65)【公表番号】

(43)【公表日】2023-11-07

(86)【国際出願番号】 KR2021014764

(87)【国際公開番号】W WO2022086196

(87)【国際公開日】2022-04-28

【審査請求日】2023-06-20

(31)【優先権主張番号】10-2020-0137269

(32)【優先日】2020-10-22

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】63/118,979

(32)【優先日】2020-11-30

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】518449353

【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】サンペ・チョン

(72)【発明者】

【氏名】スチョル・パク

【審査官】竹下翔平

(56)【参考文献】

【文献】韓国公開特許第１０－２０２０－００３２９３５（ＫＲ，Ａ）

【文献】国際公開第２０２０／１８５０２５（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２０／０１５４２０２（ＵＳ，Ａ１）

【文献】特開２０１９－０３２３６７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０

１９／００－９９／００

(57)【特許請求の範囲】

【請求項1】

少なくとも一つのプロセスで動作し、第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置の動作方法であって、
前記オーディオ信号を受信する段階；
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階；
機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第１オーディオ信号成分を取得する段階；及び
前記あらかじめ指定されたターゲットラウドネスに基づいて前記第１オーディオ信号成分のラウドネスを逆平準化する段階を含む動作方法。

【請求項2】

前記第１オーディオ信号成分及び前記第２オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分である、請求項１に記載の動作方法。

【請求項3】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含む、請求項１に記載の動作方法。

【請求項4】

前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理する、請求項１に記載の動作方法。

【請求項5】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号は複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階を含む、請求項１に記載の動作方法。

【請求項6】

前記機械学習モデルはゲートロジックを含む、請求項１に記載の動作方法。

【請求項7】

前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第１オーディオ信号成分を取得する段階は、
前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含み、
前記スコアは、前記第１オーディオ信号成分にどれくらい近いかを示す点数である、請求項１に記載の動作方法。

【請求項8】

少なくとも一つのプロセスで動作し、互いに異なるソースから取得された第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号から第１オーディオ信号成分を分類する機械学習モデルの学習方法は、
前記オーディオ信号を受信する段階；
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階；
機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第１オーディオ信号成分を取得する段階；及び
前記あらかじめ指定されたターゲットラウドネスに基づいて第１オーディオ信号成分のラウドネスを復元する段階を含む学習方法。

【請求項9】

前記第１オーディオ信号成分及び前記第２オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分である、請求項８に記載の学習方法。

【請求項10】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含む、請求項８に記載の学習方法。

【請求項11】

前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理する、請求項８に記載の学習方法。

【請求項12】

【請求項13】

前記機械学習モデルはゲートロジックを含む、請求項８に記載の学習方法。

【請求項14】

【請求項15】

第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置は、
少なくとも一つのプロセッサを含み、
前記少なくとも一つのプロセッサは、
前記オーディオ信号を受信し、
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化し、
機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第１オーディオ信号成分を取得し、
前記あらかじめ指定されたターゲットラウドネスに基づいて前記第１オーディオ信号成分のラウドネスを逆平準化する動作方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置に関する。

【背景技術】

【0002】

近年、深層神経網ネットワーク技術の発達によってオーディオ信号処理分野でも様々な機械学習モデルが用いられている。長い間、時間オーディオ信号処理分野において人気のある主題だった音源分離（ｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）技術にも機械学習モデルが積極的に導入されている。また、音源分離技術は、音源ストリーミングサービスのカラオケ機能のために歌手の声と楽器演奏とを分離したり、アンタクト会議サービスにおいて話者の声と周辺の騒音を除去したりするなど、様々な用途に用いられている。このような理由で、様々な機械学習モデルを用いた音源分離技術が試みられている。音源分離性能を向上させるためには、音源分離機械学習モデルのためのオーディオ信号の前処理方法、音源分離に最適化された機械学習モデルが必要である。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の一実施例は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置を提供することを目的とする。

【課題を解決するための手段】

【0004】

本発明の一実施例によって、少なくとも一つのプロセスで動作し、第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置の動作方法は、前記オーディオ信号を受信する段階；あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階；機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第１オーディオ信号成分を取得する段階；及び、前記あらかじめ指定されたターゲットラウドネスに基づいて前記第１オーディオ信号成分のラウドネスを逆平準化する段階を含む。

【0005】

前記第１オーディオ信号成分及び前記第２オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分であってよい。

【0006】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含んでよい。

【0007】

前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理することができる。

【0008】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号は複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階を含んでよい。

【0009】

前記機械学習モデルはゲートロジックを含んでよい。

【0010】

前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第１オーディオ信号成分を取得する段階は、前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含んでよい。前記スコアは、前記第１オーディオ信号成分にどれくらい近いかを示す点数であってよい。

【0011】

本発明の実施例によって少なくとも一つのプロセスで動作し、互いに異なるソースから取得された第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号から第１オーディオ信号成分を分類する機械学習モデルの学習方法は、前記オーディオ信号を受信する段階；あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階；機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第１オーディオ信号成分を取得する段階；及び、前記あらかじめ指定されたターゲットラウドネスに基づいて第１オーディオ信号成分のラウドネスを復元する段階を含む。

【0012】

【0013】

【0014】

前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理することができる。

【0015】

前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号は、複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は、複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階とを含んでよい。

【0016】

前記機械学習モデルは、ゲートロジックを含んでよい。

【0017】

【0018】

本発明の実施例によって、第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置は、少なくとも一つのプロセッサを含む。前記少なくとも一つのプロセッサは、前記オーディオ信号を受信し、あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化し、機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第１オーディオ信号成分を取得し、前記あらかじめ指定されたターゲットラウドネスに基づいて前記第１オーディオ信号成分のラウドネスを逆平準化することができる。

【発明の効果】

【0019】

本発明の一実施例に係る装置及び方法は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置を提供することができる。

【図面の簡単な説明】

【0020】

【図1】本発明の一実施例に係るオーディオ信号処理装置がオーディオ信号を処理する過程を示すブロック図である。

【0021】

【図2】本発明の一実施例に係るオーディオ信号処理装置が周波数ドメインでオーディオ信号を処理する過程を示すブロック図である。

【0022】

【図3】本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルを示す図である。

【0023】

【図4】本発明の一実施例に係るオーディオ信号処理装置が用いるマスクワーピング関数を示す図である。

【0024】

【図5】本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルに含まれるゲートＣＢＨＧを示す図である。

【0025】

【図6】本発明の一実施例に係るオーディオ信号処理装置と他のオーディオ信号処理装置の性能評価結果を示す図である。

【0026】

【図7】本発明の一実施例に係るオーディオ信号処理動作を示す図である。

【発明を実施するための形態】

【0027】

以下では、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。ただし、本発明は、様々な異なる形態で具現されてよく、ここで説明する実施例に限定されない。そして、図面中、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて類似の部分には類似の参照符号を付する。また、ある部分がある構成要素を「含む」としたとき、これは、特に断りのない限り、他の構成要素を除外する意味ではなく、他の構成要素をさらに含み得るということを意味する。

【0028】

本発明の実施例に係るオーディオ信号処理装置は、少なくとも一つのプロセッサを含む。本発明で説明するオーディオ信号処理の動作は、オーディオ信号処理装置が含むプロセッサで動作するインストラクションセットの動作であってよい。

【0029】

一つのコンテンツ内には様々なソースのオーディオ信号成分が含まれ、コンテンツ内で各オーディオ信号成分の認知的大きさであるラウドネスは様々に変化する。例えば、一つの曲内で各ソースのオーディオ信号成分は、音楽的表現のためにピアニシモからフォルティシモまで演奏又は発声され。このとき、音源分離を行う機械学習モデルがオーディオ信号成分の特性を一般化して判断し難いことがある。そのため、音源分離前にオーディオ信号のラウドネス大きさを平準化するとよい。ラウドネス平準化によって機械学習モデルは各オーディオ信号成分の特性をより正確に認識することができる。したがって、オーディオ信号のラウドネス大きさの平準化が行われる場合に、音源分離性能の向上が期待できる。また、コンテンツのミキシングが信号の物理的な大きさではなく聴覚特性に基づいて行われるため、オーディオ信号の物理的な大きさではなくラウドネスを平準化することにより、様々なオーディオ信号成分間の比率が入力オーディオ信号と類似に維持され得る。したがって、オーディオ信号の物理的な大きさではなくラウドネスを平準化する方が、音源分離性能の向上にさらに効率的であり得る。オーディオ信号処理装置は、オーディオ信号のラウドネスをターゲットラウドネスに平準化し、ラウドネスが平準化されたオーディオ信号に、音源分離のための機械学習モデルを適用することができる。これについては図１で説明する。本明細書において、ラウドネスは、聴覚で認知される音響の大きさを表すことができる。ラウドネスレベルは、ラウドネスを示す数値であってよい。例えば、ラウドネスレベルは、ＬＫＦＳ（ＬｏｕｄｎｅｓｓＫ－ＷｅｉｇｈｔｅｄｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）又はＬＵＦＳ（ＬｏｕｄｎｅｓｓＵｎｉｔｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）のような単位で表示されてよい。また、ラウドネスレベルは、ｓｏｎｅ又はｐｈｏｎのような単位で表示されてもよい。また、ラウドネスレベルは、人の聴覚特性を反映する認知モデルフィルタリングされた信号の大きさを活用した数値で表現されてもよい。このとき、認知モデルフィルタリングは、Ａ／Ｂ／Ｃ／Ｄ－ｗｅｉｇｈｔｉｎｇのうち少なくともいずれか一つを含んでよい。

【0030】

図１及び図２は、本発明の一実施例に係るオーディオ信号処理装置がオーディオ信号を処理する過程を示すブロック図である。

【0031】

オーディオ信号処理装置は、ラウドネス平準化部１０００、機械学習モデル２０００及びラウドネス逆平準化部３０００を含むことができる。

【0032】

ラウドネス平準化部１０００は、入力オーディオ信号（ｍ（ｎ））のラウドネスをターゲットラウドネスに平準化した後、ラウドネスが平準化されたオーディオ信号（ｍ_ＬＮ（ｎ））を機械学習モデルに入力する。機械学習モデル２０００は、ラウドネスが平準化されたオーディオ信号から、ラウドネスが平準化された第１信号成分（Ｓ＾_ＬＮ（ｎ））を出力する。ラウドネス逆平準化部３０００は、ラウドネスが平準化された第１信号成分（Ｓ＾_ＬＮ（ｎ））をターゲットラウドネスに基づいて逆平準化して第１信号成分（Ｓ＾_ＬＮ（ｎ））を取得することができる。具体的には、ラウドネス逆平準化部３０００は、ターゲットラウドネスと入力オーディオ信号に基づいて、ラウドネス逆平準化に用いられるゲイン（ｇ_ＬＮ）を取得できる。具体的には、逆平準化は次の数式によって取得できる。

【0033】

ｇ_ＬＮ＝１０^（Ｌ _Ｔ ^－Ｌ _Ｉ ^）／２０

【0034】

ｇ_ＬＮは、ラウドネス逆平準化に用いられるゲインを表し、Ｌ_Ｔは、ターゲットラウドネスを表し、Ｌ_Ｉは、入力オーディオ信号のインテグレーテッド（ｉｎｔｅｇｒａｔｅｄ）ラウドネスを表す。

【0035】

ラウドネス逆平準化部３０００は、取得したゲインを用いて、機械学習モデル２０００から出力されたラウドネスの平準化された第１信号成分（Ｓ＾_ＬＮ（ｎ））を逆平準化して第１信号成分（Ｓ＾_ＬＮ（ｎ））を取得できる。

【0036】

また、ラウドネス逆平準化部３０００は、ラウドネス平準化に用いたラウドネス分布情報を用いてオーディオ信号のラウドネスを逆平準化することができる。

【0037】

前述した動作において、ターゲットラウドネスは入力オーディオ信号（ｍ（ｎ））のコンテンツによって決定されてよい。これは、コンテンツ別に音源分離の対象であるオーディオ信号成分と残り信号成分の比率が異なり得るためである。オーディオ信号処理装置が、分離の対象であるオーディオ信号成分のラウドネスに入力オーディオ信号のラウドネスを平準化するとき、音源分離性能を高めることができる。ただし、オーディオ信号処理装置は、分離の対象であるオーディオ信号成分のラウドネスが判断できないため、入力オーディオ信号から、分離対象であるオーディオ信号成分の比率を予測し、予測された比率に基づいてターゲットラウドネスを決定できる。このとき、予測された比率は、コンテンツ特性別にあらかじめ指定された値であってよい。例えば、入力オーディオ信号（ｍ（ｎ））のコンテンツが映画である時に適用されるターゲットラウドネスの大きさが、入力オーディオ信号（ｍ（ｎ））のコンテンツが音楽である時に適用されるターゲットラウドネスの大きさよりも小さくてよい。また、入力オーディオ信号（ｍ（ｎ））のコンテンツがロック音楽である時に適用されるターゲットラウドネスの大きさが、入力オーディオ信号（ｍ（ｎ））のコンテンツがクラシック音楽である時に適用されるターゲットラウドネスの大きさよりも大きくてよい。さらに他の具体的な実施例において、ターゲットラウドネスは、入力オーディオ信号の平均ラウドネスであってよい。具体的には、ターゲットラウドネスは、入力オーディオ信号の平均ラウドネスであってよい。

【0038】

また、ラウドネス平準化部１０００は、入力オーディオ信号を、入力オーディオ信号が含むコンテンツ単位でラウドネスの大きさを平準化できる。例えば、入力オーディオ信号が音楽を含む場合に、ラウドネス平準化部１０００は、入力オーディオ信号を、曲単位でラウドネスの大きさを平準化できる。これは、オーディオミキシング作業時にコンテンツ単位でラウドネスとなり、特定コンテンツの場合、各地域の規定によってラウドネスが維持されるためである。例えば、ＴＶ放送では－２３～－２５ＬＫＦＳを維持することが規定されている。

【0039】

また、ラウドネス平準化部１０００は、入力オーディオ信号の時間区間別ラウドネスに基づいて入力オーディオ信号のラウドネスを平準化できる。具体的な実施例において、ラウドネス平準化部１０００は、当該時間区間の統合（ｉｎｔｅｇｒａｔｅｄ）ラウドネスに、あらかじめ指定された大きさを足したターゲットラウドネスと決定できる。このような実施例において入力オーディオ信号は、実時間で生成されるオーディオ信号であってよい。例えば、入力オーディオ信号は、テレビ通話のためのオーディオ信号、生放送ストリーミングであってよい。実時間で生成されるオーディオ信号において各オーディオ信号成分のラウドネスが均一に維持されないことがあるためである。また、入力オーディオ信号が音声を含む場合に、ラウドネス平準化部１０００は話者別に入力オーディオ信号区間を区分し、話者別に区分されたオーディオ信号区間別にラウドネスを平準化することができる。例えば、Ａという話者が話すＸ区間及びＢという話者が話すＹ区間があるとき、ラウドネス平準化部１０００は、Ｘ区間とＹ区間のラウドネスを独立に平準化することができる。

【0040】

また、ラウドネス平準化部１０００は、ラウドネスヒストグラムを用いて入力オーディオ信号（ｍ（ｎ））のラウドネスを平準化できる。このとき、ラウドネスヒストグラムにおいて入力オーディオ信号（ｍ（ｎ））は、複数のあらかじめ指定された時間区間に区分され、複数のあらかじめ指定された時間区間のラウドネス値は、複数のレベルに区分される。ラウドネスヒストグラムは、複数のレベル別ラウドネス値分布を表す。

【0041】

また、入力オーディオ信号（ｍ（ｎ））は、音声に該当する信号成分を含んでよい。このとき、機械学習モデル２０００は、ラウドネスが平準化されたオーディオ信号（ｍ_ＬＮ（ｎ））から、音声に該当する信号成分を取得できる。例えば、機械学習モデル２０００は、音声に該当する信号成分及び周辺音に該当する信号成分を含むオーディオ信号から音声に該当する信号成分を出力できる。さらに他の具体的な実施例において、機械学習モデル２０００は、歌手の歌に該当する信号成分及び楽器演奏に該当する信号成分を含むオーディオ信号から、楽器演奏に該当する信号成分を出力できる。

【0042】

また、機械学習モデル２０００は、ラウドネスが平準化されたオーディオ信号（ｍ_ＬＮ（ｎ））を周波数領域で処理できる。そのために、オーディオ信号処理装置は、ラウドネスが平準化されたオーディオ信号（ｍ_ＬＮ（ｎ））にフーリエ変換（ｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を適用し、取得したラウドネスが平準化されたオーディオ信号（ｍ_ＬＮ（ｎ））に逆フーリエ変換（ｉｎｖｅｒｓｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を適用できる。このとき、フーリエ変換と逆フーリエ変換はそれぞれ、短時間フーリエ変換（ｓｈｏｒｔｔｉｍｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）と短時間逆フーリエ変換（ｓｈｏｒｔｔｉｍｅｉｎｖｅｒｓｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）であってよい。

【0043】

機械学習モデル２０００は音源分離のために最適化されてよい。これについて図３で説明する。

【0044】

図３には、本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルを示す。

【0045】

本発明の実施例に係るオーディオ信号処理装置の機械学習モデルは、ゲートロジックを含んでよい。ゲートロジック（ｌｏｇｉｃ）がオーディオ信号の活性化（ａｃｔｉｖａｔｉｏｎ）感知及び特性抽出に適するためである。具体的には、機械学習モデルは、ゲートロジックを含むＬＳＴＭ（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）ベース機械学習モデルであってよい。さらに他の具体的な実施例において、機械学習モデルは、ＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）ベース機械学習モデルであってよい。これは、オーディオ信号の特性は一定時間区間以上で表されるためである。具体的には、機械学習モデルは、ゲートＣＢＨＧ（ｃｏｎｖｏｌｕｔｉｏｎａｌ１－Ｄｆｉｌｔｅｒｓ，ｂａｎｋ，ｈｉｇｈｗａｙｎｅｔｗｏｒｋｓ，ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔｂｉｄｉｒｅｃｔｉｏｎａｌ）であってよい。

【0046】

機械学習モデル２０００は、１６ＫＨｚクロッピング、入力スケーラー、３個の線形層ブロック、ＣＢＨＧ、及び出力スケーラーを含むことができる。

【0047】

また、機械学習モデル２０００は、機械学習モデル内で取得した周波数ビン（ｂｉｎ）別スコアを、あらかじめ指定された閾値を基準にして分類できる。具体的には、機械学習モデル２０００は、入力信号の周波数ビン別マスク値を計算できる。マスク値は周波数ビン別に算出される。また、マスク値は、入力信号から分離しようとするオーディオ成分に対する比率の予測値である。マスク値は、０～１の範囲のソフトデシジョン（Ｓｏｆｔ－Ｄｅｃｉｓｉｏｎ）値を有し得る。例えば、特定時点の特定周波数ウィーンに対するマスク値が１である場合に、マスク値は、当該周波数ビンの信号は分離しようとするオーディオ信号成分と同一であることを示すことができる。特定時点の特定周波数ビンに対するマスク値が０である場合に、マスク値は、当該周波数ビンの信号は分離しようとするオーディオ信号成分を含まないことを示すことができる。機械学習モデル２０００で算出された周波数ビン別マスク値を周波数ビン別入力信号に掛けて、分離しようとするオーディオ信号成分を分離する。特定時点の特定周波数ビンに対するマスク値が０．５である場合に、マスク値は、当該周波数ビンに、分離しようとするオーディオ信号成分と残りオーディオ信号成分が１：１で混在することを示すことができる。このように分離しようとするオーディオ信号成分と残りオーディオ信号成分が比等に混在する場合に、分離したオーディオ信号成分に干渉（ｉｎｔｅｒｆｅｒｅｎｃｅ）が存在することがある。具体的には、機械学習モデル２０００は、スコア間の間隔を調整することができる。具体的には、図４に示すようなマスクワーピングを適用することができる。例えば、機械学習モデル２０００は、周波数ビン（ｂｉｎ）別スコアに、指数関数形態のマスクワーピングを適用することができる。このとき、指数関数は次の数学式の通りでよい。

【0048】

ｆ（ｘ）＝ｘ^ｎ

【0049】

このとき、ｎは、マスクワーピングの強度に基づいて決定されてよい。このような実施例によって、機械学習モデル２０００は、分離されたオーディオ信号の干渉を減らすことができる。

【0050】

また、前述したゲートＣＨＢＧは、図５のような形態を有し得る。

【0051】

前述した図３の機械学習モデルと図５のゲートＣＨＢＧが適用された場合の効果について図６で説明する。

【0052】

図６には、本発明の一実施例に係るオーディオ信号処理装置と他のオーディオ信号処理装置の性能評価結果を示す。

【0053】

既存の音源分離方法として、スプリッター（ＳＰＬＥＥＴＥＲ，ＲｏｍａｉｎＨｅｎｎｅｑｕｉｎ，ＡｎｉｓＫｈｌｉｆ，ＦｅｌｉｘＶｏｉｔｕｒｅｔ，ＭａｎｕｅｌＭｏｕｓｓａｌｌａｍ，“Ｓｐｌｅｅｔｅｒ：Ａｆａｓｔａｎｄｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔｍｕｓｉｃｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｔｏｏｌｗｉｔｈｐｒｅ－ｔｒａｉｎｅｄｍｏｄｅｌｓ，” ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ，Ｄｅｌｆｔ，Ｎｅｔｈｅｒｌａｎｄｓ，２０１９）、オープンアンミックス（ＯＰＥＮＵＮＭＩＸ，Ｆａｂｉａｎ－ＲｏｂｅｒｔＳｔｏｔｅｒ，ＳｔｅｆａｎＵｈｌｉｃｈ，ＡｎｔｏｉｎｅＬｉｕｔｋｕｓ，ａｎｄＹｕｋｉＭｉｔｓｕｆｕｊｉ，“Ｏｐｅｎ－ｕｎｍｉｘ－ａｒｅｆｅｒｅｎｃｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｆｏｒｍｕｓｉｃｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ，” ＪｏｕｒｎａｌｏｆＯｐｅｎＳｏｕｒｃｅＳｏｆｔｗａｒｅ，２０１９）、デマックス（ＤＥＭＵＣＳ，ＡｌｅｘａｎｄｒｅＤｅｆｏｓｓｅｚ，ＮｉｃｏｌａｓＵｓｕｎｉｅｒ，ＬｅｏｎＢｏｔｔｏｕ，ＦｒａｎｃｉｓＢａｃｈ，“Ｄｅｍｕｃｓ：ＤｅｅｐＥｘｔｒａｃｔｏｒｆｏｒＭｕｓｉｃＳｏｕｒｃｅｓｗｉｔｈｅｘｔｒａｕｎｌａｂｅｌｅｄｄａｔａｒｅｍｉｘｅｄ，” ２０１９）が広範囲に用いられた。図１で説明したラウドネス平準化、図２～図５で説明した機械学習モデルを適用したオーディオ信号処理方法をＧＳＥＰと呼ぶ。ＧＳＥＰの性能を評価するためには既存音源分離方法との比較が必要である。

【0054】

性能評価のためにＧＳＥＰは、ＭＵＳＤＢ８１８と３０００個の音楽及びスピーチデータシートで学習された。機械学習モデルの学習に用いられる個別オーディオセグメント（ｓｅｇｍｅｎｔ）は、次のように生成された。無作為に一つの音声の音源が選択され、選択された音源のラウドネスは０ＬＵＦＳに調整される。無作為に３個の非音声音源が選択され、選択された３個の音源のラウドネスは－１２ＬＵＦＳ～１２ＬＵＦＳの範囲の無作為値に調整される。生成された４個の音源をミキシングし、機械学習モデルの学習に用いられる個別オーディオセグメントを生成した。

【0055】

また、性能評価において、表１の音源を用いて、音声を除く残り信号成分を抽出することに対する評価が行われた。また、性能評価において、表２の音源を用いて、映画及びＴＶショーから対話のみを抽出することに対する評価が行われた。

【0056】

【表1】

【0057】

【表2】

【0058】

図６に見られるように、ＧＳＥＰの音源分離性能に対する主観的評価が、既存音源分離方法が用いられる場合に比べてより高い評価を受けた。また、客観的な性能評価からも表３のような結果が得られ、ＧＳＥＰの性能が既存音源分離方法に比べて優れているものと評価された。

【0059】

【表3】

【0060】

また、演算効率評価においても、表４のように、ＧＳＥＰが、評価対象である音源分離方法のうち最も効率的なものと評価された。

【0061】

【表4】

【0062】

図７には、本発明の一実施例に係るオーディオ信号処理動作を示す。

【0063】

オーディオ信号処理装置は、第１オーディオ信号成分及び第２オーディオ信号成分を含むオーディオ信号を受信する（Ｓ７１０）。このとき、第１オーディオ信号成分と第２オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分であってよい。また、他方は、音声に該当しないオーディオ信号成分であってよい。

【0064】

オーディオ信号処理装置は、あらかじめ指定されたターゲットラウドネスに基づいてオーディオ信号のラウドネスを平準化する（Ｓ７３０）。具体的には、オーディオ信号処理装置は、オーディオ信号のラウドネスを、あらかじめ指定されたターゲットラウドネスに平準化できる。このとき、オーディオ信号処理装置は、ラウドネスの大きさによって区分された複数の段階ごとに、オーディオ信号のうち、各段階に該当するオーディオ信号の量とオーディオ信号全体の量との比率を示すラウドネス分布情報を用いて、オーディオ信号のラウドネスを平準化できる。また、オーディオ信号処理装置は、オーディオ信号が含むコンテンツ単位でラウドネスを平準化することができる。オーディオ信号処理装置は、図１で説明した実施例によってオーディオ信号のラウドネスを平準化することができる。

【0065】

オーディオ信号処理装置は、機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第１オーディオ信号成分を取得する（Ｓ７５０）。この時、機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理できる。また、機械学習モデルはゲートロジックを含んでよい。具体的には、機械学習モデルは、ゲートロジックを含むＬＳＴＭ（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）ベース機械学習モデルであってよい。さらに他の具体的な実施例において、機械学習モデルは、ＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）ベース機械学習モデルであってよい。具体的には、機械学習モデルは、図２～図５で説明した機械学習モデルに関する実施例によって動作できる。

【0066】

また、オーディオ信号処理装置は、機械学習モデル内で取得した周波数ビン（ｂｉｎ）別スコアを、あらかじめ指定された閾値を基準にして分類できる。この時、スコアは、第１オーディオ信号成分にどれくらい近いかを示すことができる。オーディオ信号処理装置は、スコアの分布を調整することができる。具体的には、オーディオ信号処理装置は、スコア間の間隔を調整することができる。具体的には、オーディオ信号処理装置は、周波数ビン別スコアに、図５で説明したマスクワーピングを適用できる。

【0067】

オーディオ信号処理装置は、あらかじめ指定されたターゲットラウドネスに基づいて第１オーディオ信号成分のラウドネスを逆平準化する（Ｓ７７０）。具体的には、オーディオ信号処理装置は、オーディオ信号のラウドネスを、あらかじめ指定されたターゲットラウドネスに基づいて逆平準化できる。具体的には、オーディオ信号処理装置は、ターゲットラウドネスと入力オーディオ信号に基づいて、ラウドネス逆平準化に用いられるゲインを取得できる。また、オーディオ信号処理装置は、ラウドネス平準化に用いたラウドネス分布情報を用いてオーディオ信号のラウドネスを逆平準化できる。オーディオ信号処理装置は、図１で説明した実施例によってオーディオ信号のラウドネスを逆平準化することができる。

【0068】

オーディオ信号処理のこのような動作は、オーディオ信号を処理する時の他、機械学習モデルを学習させる時にも同一に適用されてよい。

【0069】

一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態で具現されてもよい。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれを含んでもよい。また、コンピュータ可読媒体はコンピュータ記憶媒体を含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の保存のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれをも含むことができる。

【0070】

以上では、本開示を具体的な実施例を用いて説明したが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲から逸脱することなく修正、変更が可能である。すなわち、本開示は、オーディオ信号に対するラウドネスレベル調整の実施例について説明したが、本開示は、オーディオ信号の他、ビデオ信号を含む様々なマルチメディア信号にも同様の適用及び拡張が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における当業者が容易に類推できるものは、本開示の権利範囲に属するものとして解釈される。

【符号の説明】

【0071】

１０００ラウドネス平準化部
２０００機械学習モデル
３０００ラウドネス逆平準化部

【図1】