(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-17
(45)【発行日】2024-06-25
(54)【発明の名称】機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置
(51)【国際特許分類】
G10L 21/0272 20130101AFI20240618BHJP
G10L 25/30 20130101ALI20240618BHJP
【FI】
G10L21/0272 100Z
G10L25/30
(21)【出願番号】P 2023524800
(86)(22)【出願日】2021-10-20
(86)【国際出願番号】 KR2021014764
(87)【国際公開番号】W WO2022086196
(87)【国際公開日】2022-04-28
【審査請求日】2023-06-20
(31)【優先権主張番号】10-2020-0137269
(32)【優先日】2020-10-22
(33)【優先権主張国・地域又は機関】KR
(32)【優先日】2020-11-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518449353
【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】サンペ・チョン
(72)【発明者】
【氏名】スチョル・パク
【審査官】竹下 翔平
(56)【参考文献】
【文献】韓国公開特許第10-2020-0032935(KR,A)
【文献】国際公開第2020/185025(WO,A1)
【文献】米国特許出願公開第2020/0154202(US,A1)
【文献】特開2019-032367(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
19/00-99/00
(57)【特許請求の範囲】
【請求項1】
少なくとも一つのプロセスで動作し、第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置の動作方法であって、
前記オーディオ信号を受信する段階;
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階;
機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第1オーディオ信号成分を取得する段階;及び
前記あらかじめ指定されたターゲットラウドネスに基づいて前記第1オーディオ信号成分のラウドネスを逆平準化する段階を含む動作方法。
【請求項2】
前記第1オーディオ信号成分及び前記第2オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分である、請求項1に記載の動作方法。
【請求項3】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含む、請求項1に記載の動作方法。
【請求項4】
前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理する、請求項1に記載の動作方法。
【請求項5】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号は複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階を含む、請求項1に記載の動作方法。
【請求項6】
前記機械学習モデルはゲートロジックを含む、請求項1に記載の動作方法。
【請求項7】
前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階は、
前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含み、
前記スコアは、前記第1オーディオ信号成分にどれくらい近いかを示す点数である、請求項1に記載の動作方法。
【請求項8】
少なくとも一つのプロセスで動作し、互いに異なるソースから取得された第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号から第1オーディオ信号成分を分類する機械学習モデルの学習方法は、
前記オーディオ信号を受信する段階;
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階;
機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階;及び
前記あらかじめ指定されたターゲットラウドネスに基づいて第1オーディオ信号成分のラウドネスを復元する段階を含む学習方法。
【請求項9】
前記第1オーディオ信号成分及び前記第2オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分である、請求項8に記載の学習方法。
【請求項10】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含む、請求項8に記載の学習方法。
【請求項11】
前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理する、請求項8に記載の学習方法。
【請求項12】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、
前記オーディオ信号は複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階を含む、請求項8に記載の学習方法。
【請求項13】
前記機械学習モデルはゲートロジックを含む、請求項8に記載の学習方法。
【請求項14】
前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階は、
前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含み、
前記スコアは、前記第1オーディオ信号成分にどれくらい近いかを示す点数である、請求項8に記載の学習方法。
【請求項15】
第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置は、
少なくとも一つのプロセッサを含み、
前記少なくとも一つのプロセッサは、
前記オーディオ信号を受信し、
あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化し、
機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第1オーディオ信号成分を取得し、
前記あらかじめ指定されたターゲットラウドネスに基づいて前記第1オーディオ信号成分のラウドネスを逆平準化する動作方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置に関する。
【背景技術】
【0002】
近年、深層神経網ネットワーク技術の発達によってオーディオ信号処理分野でも様々な機械学習モデルが用いられている。長い間、時間オーディオ信号処理分野において人気のある主題だった音源分離(source separation)技術にも機械学習モデルが積極的に導入されている。また、音源分離技術は、音源ストリーミングサービスのカラオケ機能のために歌手の声と楽器演奏とを分離したり、アンタクト会議サービスにおいて話者の声と周辺の騒音を除去したりするなど、様々な用途に用いられている。このような理由で、様々な機械学習モデルを用いた音源分離技術が試みられている。音源分離性能を向上させるためには、音源分離機械学習モデルのためのオーディオ信号の前処理方法、音源分離に最適化された機械学習モデルが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の一実施例は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の一実施例によって、少なくとも一つのプロセスで動作し、第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置の動作方法は、前記オーディオ信号を受信する段階;あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階;機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第1オーディオ信号成分を取得する段階;及び、前記あらかじめ指定されたターゲットラウドネスに基づいて前記第1オーディオ信号成分のラウドネスを逆平準化する段階を含む。
【0005】
前記第1オーディオ信号成分及び前記第2オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分であってよい。
【0006】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含んでよい。
【0007】
前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理することができる。
【0008】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号は複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階を含んでよい。
【0009】
前記機械学習モデルはゲートロジックを含んでよい。
【0010】
前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階は、前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含んでよい。前記スコアは、前記第1オーディオ信号成分にどれくらい近いかを示す点数であってよい。
【0011】
本発明の実施例によって少なくとも一つのプロセスで動作し、互いに異なるソースから取得された第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号から第1オーディオ信号成分を分類する機械学習モデルの学習方法は、前記オーディオ信号を受信する段階;あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階;機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階;及び、前記あらかじめ指定されたターゲットラウドネスに基づいて第1オーディオ信号成分のラウドネスを復元する段階を含む。
【0012】
前記第1オーディオ信号成分及び前記第2オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分であってよい。
【0013】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号が含むコンテンツ単位でラウドネスを平準化する段階を含んでよい。
【0014】
前記機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理することができる。
【0015】
前記あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化する段階は、前記オーディオ信号は、複数のあらかじめ指定された時間区間に区分され、前記複数のあらかじめ指定された時間区間のラウドネス値は、複数のレベルに区分され、前記複数のレベル別ラウドネス値分布を用いて前記オーディオ信号のラウドネスを取得する段階と、前記オーディオ信号のラウドネスをターゲットラウドネスに平準化する段階とを含んでよい。
【0016】
前記機械学習モデルは、ゲートロジックを含んでよい。
【0017】
前記機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する段階は、前記機械学習モデルから取得された周波数ビン別スコアを、あらかじめ指定された閾値を基準にして分類する段階を含んでよい。前記スコアは、前記第1オーディオ信号成分にどれくらい近いかを示す点数であってよい。
【0018】
本発明の実施例によって、第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号を処理するオーディオ信号処理装置は、少なくとも一つのプロセッサを含む。前記少なくとも一つのプロセッサは、前記オーディオ信号を受信し、あらかじめ指定されたターゲットラウドネスに基づいて前記オーディオ信号のラウドネスを平準化し、機械学習モデルを用いて、前記ラウドネスが平準化されたオーディオ信号から前記第1オーディオ信号成分を取得し、前記あらかじめ指定されたターゲットラウドネスに基づいて前記第1オーディオ信号成分のラウドネスを逆平準化することができる。
【発明の効果】
【0019】
本発明の一実施例に係る装置及び方法は、機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理方法及び装置を提供することができる。
【図面の簡単な説明】
【0020】
【
図1】本発明の一実施例に係るオーディオ信号処理装置がオーディオ信号を処理する過程を示すブロック図である。
【0021】
【
図2】本発明の一実施例に係るオーディオ信号処理装置が周波数ドメインでオーディオ信号を処理する過程を示すブロック図である。
【0022】
【
図3】本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルを示す図である。
【0023】
【
図4】本発明の一実施例に係るオーディオ信号処理装置が用いるマスクワーピング関数を示す図である。
【0024】
【
図5】本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルに含まれるゲートCBHGを示す図である。
【0025】
【
図6】本発明の一実施例に係るオーディオ信号処理装置と他のオーディオ信号処理装置の性能評価結果を示す図である。
【0026】
【
図7】本発明の一実施例に係るオーディオ信号処理動作を示す図である。
【発明を実施するための形態】
【0027】
以下では、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。ただし、本発明は、様々な異なる形態で具現されてよく、ここで説明する実施例に限定されない。そして、図面中、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて類似の部分には類似の参照符号を付する。また、ある部分がある構成要素を「含む」としたとき、これは、特に断りのない限り、他の構成要素を除外する意味ではなく、他の構成要素をさらに含み得るということを意味する。
【0028】
本発明の実施例に係るオーディオ信号処理装置は、少なくとも一つのプロセッサを含む。本発明で説明するオーディオ信号処理の動作は、オーディオ信号処理装置が含むプロセッサで動作するインストラクションセットの動作であってよい。
【0029】
一つのコンテンツ内には様々なソースのオーディオ信号成分が含まれ、コンテンツ内で各オーディオ信号成分の認知的大きさであるラウドネスは様々に変化する。例えば、一つの曲内で各ソースのオーディオ信号成分は、音楽的表現のためにピアニシモからフォルティシモまで演奏又は発声され。このとき、音源分離を行う機械学習モデルがオーディオ信号成分の特性を一般化して判断し難いことがある。そのため、音源分離前にオーディオ信号のラウドネス大きさを平準化するとよい。ラウドネス平準化によって機械学習モデルは各オーディオ信号成分の特性をより正確に認識することができる。したがって、オーディオ信号のラウドネス大きさの平準化が行われる場合に、音源分離性能の向上が期待できる。また、コンテンツのミキシングが信号の物理的な大きさではなく聴覚特性に基づいて行われるため、オーディオ信号の物理的な大きさではなくラウドネスを平準化することにより、様々なオーディオ信号成分間の比率が入力オーディオ信号と類似に維持され得る。したがって、オーディオ信号の物理的な大きさではなくラウドネスを平準化する方が、音源分離性能の向上にさらに効率的であり得る。オーディオ信号処理装置は、オーディオ信号のラウドネスをターゲットラウドネスに平準化し、ラウドネスが平準化されたオーディオ信号に、音源分離のための機械学習モデルを適用することができる。これについては
図1で説明する。本明細書において、ラウドネスは、聴覚で認知される音響の大きさを表すことができる。ラウドネスレベルは、ラウドネスを示す数値であってよい。例えば、ラウドネスレベルは、LKFS(Loudness K-Weighted relative to Full Scale)又はLUFS(Loudness Unit relative to Full Scale)のような単位で表示されてよい。また、ラウドネスレベルは、sone又はphonのような単位で表示されてもよい。また、ラウドネスレベルは、人の聴覚特性を反映する認知モデルフィルタリングされた信号の大きさを活用した数値で表現されてもよい。このとき、認知モデルフィルタリングは、A/B/C/D-weightingのうち少なくともいずれか一つを含んでよい。
【0030】
図1及び
図2は、本発明の一実施例に係るオーディオ信号処理装置がオーディオ信号を処理する過程を示すブロック図である。
【0031】
オーディオ信号処理装置は、ラウドネス平準化部1000、機械学習モデル2000及びラウドネス逆平準化部3000を含むことができる。
【0032】
ラウドネス平準化部1000は、入力オーディオ信号(m(n))のラウドネスをターゲットラウドネスに平準化した後、ラウドネスが平準化されたオーディオ信号(mLN(n))を機械学習モデルに入力する。機械学習モデル2000は、ラウドネスが平準化されたオーディオ信号から、ラウドネスが平準化された第1信号成分(S^LN(n))を出力する。ラウドネス逆平準化部3000は、ラウドネスが平準化された第1信号成分(S^LN(n))をターゲットラウドネスに基づいて逆平準化して第1信号成分(S^LN(n))を取得することができる。具体的には、ラウドネス逆平準化部3000は、ターゲットラウドネスと入力オーディオ信号に基づいて、ラウドネス逆平準化に用いられるゲイン(gLN)を取得できる。具体的には、逆平準化は次の数式によって取得できる。
【0033】
gLN=10(L
T
-L
I
)/20
【0034】
gLNは、ラウドネス逆平準化に用いられるゲインを表し、LTは、ターゲットラウドネスを表し、LIは、入力オーディオ信号のインテグレーテッド(integrated)ラウドネスを表す。
【0035】
ラウドネス逆平準化部3000は、取得したゲインを用いて、機械学習モデル2000から出力されたラウドネスの平準化された第1信号成分(S^LN(n))を逆平準化して第1信号成分(S^LN(n))を取得できる。
【0036】
また、ラウドネス逆平準化部3000は、ラウドネス平準化に用いたラウドネス分布情報を用いてオーディオ信号のラウドネスを逆平準化することができる。
【0037】
前述した動作において、ターゲットラウドネスは入力オーディオ信号(m(n))のコンテンツによって決定されてよい。これは、コンテンツ別に音源分離の対象であるオーディオ信号成分と残り信号成分の比率が異なり得るためである。オーディオ信号処理装置が、分離の対象であるオーディオ信号成分のラウドネスに入力オーディオ信号のラウドネスを平準化するとき、音源分離性能を高めることができる。ただし、オーディオ信号処理装置は、分離の対象であるオーディオ信号成分のラウドネスが判断できないため、入力オーディオ信号から、分離対象であるオーディオ信号成分の比率を予測し、予測された比率に基づいてターゲットラウドネスを決定できる。このとき、予測された比率は、コンテンツ特性別にあらかじめ指定された値であってよい。例えば、入力オーディオ信号(m(n))のコンテンツが映画である時に適用されるターゲットラウドネスの大きさが、入力オーディオ信号(m(n))のコンテンツが音楽である時に適用されるターゲットラウドネスの大きさよりも小さくてよい。また、入力オーディオ信号(m(n))のコンテンツがロック音楽である時に適用されるターゲットラウドネスの大きさが、入力オーディオ信号(m(n))のコンテンツがクラシック音楽である時に適用されるターゲットラウドネスの大きさよりも大きくてよい。さらに他の具体的な実施例において、ターゲットラウドネスは、入力オーディオ信号の平均ラウドネスであってよい。具体的には、ターゲットラウドネスは、入力オーディオ信号の平均ラウドネスであってよい。
【0038】
また、ラウドネス平準化部1000は、入力オーディオ信号を、入力オーディオ信号が含むコンテンツ単位でラウドネスの大きさを平準化できる。例えば、入力オーディオ信号が音楽を含む場合に、ラウドネス平準化部1000は、入力オーディオ信号を、曲単位でラウドネスの大きさを平準化できる。これは、オーディオミキシング作業時にコンテンツ単位でラウドネスとなり、特定コンテンツの場合、各地域の規定によってラウドネスが維持されるためである。例えば、TV放送では-23~-25LKFSを維持することが規定されている。
【0039】
また、ラウドネス平準化部1000は、入力オーディオ信号の時間区間別ラウドネスに基づいて入力オーディオ信号のラウドネスを平準化できる。具体的な実施例において、ラウドネス平準化部1000は、当該時間区間の統合(integrated)ラウドネスに、あらかじめ指定された大きさを足したターゲットラウドネスと決定できる。このような実施例において入力オーディオ信号は、実時間で生成されるオーディオ信号であってよい。例えば、入力オーディオ信号は、テレビ通話のためのオーディオ信号、生放送ストリーミングであってよい。実時間で生成されるオーディオ信号において各オーディオ信号成分のラウドネスが均一に維持されないことがあるためである。また、入力オーディオ信号が音声を含む場合に、ラウドネス平準化部1000は話者別に入力オーディオ信号区間を区分し、話者別に区分されたオーディオ信号区間別にラウドネスを平準化することができる。例えば、Aという話者が話すX区間及びBという話者が話すY区間があるとき、ラウドネス平準化部1000は、X区間とY区間のラウドネスを独立に平準化することができる。
【0040】
また、ラウドネス平準化部1000は、ラウドネスヒストグラムを用いて入力オーディオ信号(m(n))のラウドネスを平準化できる。このとき、ラウドネスヒストグラムにおいて入力オーディオ信号(m(n))は、複数のあらかじめ指定された時間区間に区分され、複数のあらかじめ指定された時間区間のラウドネス値は、複数のレベルに区分される。ラウドネスヒストグラムは、複数のレベル別ラウドネス値分布を表す。
【0041】
また、入力オーディオ信号(m(n))は、音声に該当する信号成分を含んでよい。このとき、機械学習モデル2000は、ラウドネスが平準化されたオーディオ信号(mLN(n))から、音声に該当する信号成分を取得できる。例えば、機械学習モデル2000は、音声に該当する信号成分及び周辺音に該当する信号成分を含むオーディオ信号から音声に該当する信号成分を出力できる。さらに他の具体的な実施例において、機械学習モデル2000は、歌手の歌に該当する信号成分及び楽器演奏に該当する信号成分を含むオーディオ信号から、楽器演奏に該当する信号成分を出力できる。
【0042】
また、機械学習モデル2000は、ラウドネスが平準化されたオーディオ信号(mLN(n))を周波数領域で処理できる。そのために、オーディオ信号処理装置は、ラウドネスが平準化されたオーディオ信号(mLN(n))にフーリエ変換(fourier transform)を適用し、取得したラウドネスが平準化されたオーディオ信号(mLN(n))に逆フーリエ変換(inverse fourier transform)を適用できる。このとき、フーリエ変換と逆フーリエ変換はそれぞれ、短時間フーリエ変換(short time fourier transform)と短時間逆フーリエ変換(short time inverse fourier transform)であってよい。
【0043】
機械学習モデル2000は音源分離のために最適化されてよい。これについて
図3で説明する。
【0044】
図3には、本発明の一実施例に係るオーディオ信号処理装置が用いる機械学習モデルを示す。
【0045】
本発明の実施例に係るオーディオ信号処理装置の機械学習モデルは、ゲートロジックを含んでよい。ゲートロジック(logic)がオーディオ信号の活性化(activation)感知及び特性抽出に適するためである。具体的には、機械学習モデルは、ゲートロジックを含むLSTM(long short term memory)ベース機械学習モデルであってよい。さらに他の具体的な実施例において、機械学習モデルは、GRU(gated recurrent unit)ベース機械学習モデルであってよい。これは、オーディオ信号の特性は一定時間区間以上で表されるためである。具体的には、機械学習モデルは、ゲートCBHG(convolutional 1-D filters,bank,highway networks,gated recurrent unit bidirectional)であってよい。
【0046】
機械学習モデル2000は、16KHzクロッピング、入力スケーラー、3個の線形層ブロック、CBHG、及び出力スケーラーを含むことができる。
【0047】
また、機械学習モデル2000は、機械学習モデル内で取得した周波数ビン(bin)別スコアを、あらかじめ指定された閾値を基準にして分類できる。具体的には、機械学習モデル2000は、入力信号の周波数ビン別マスク値を計算できる。マスク値は周波数ビン別に算出される。また、マスク値は、入力信号から分離しようとするオーディオ成分に対する比率の予測値である。マスク値は、0~1の範囲のソフトデシジョン(Soft-Decision)値を有し得る。例えば、特定時点の特定周波数ウィーンに対するマスク値が1である場合に、マスク値は、当該周波数ビンの信号は分離しようとするオーディオ信号成分と同一であることを示すことができる。特定時点の特定周波数ビンに対するマスク値が0である場合に、マスク値は、当該周波数ビンの信号は分離しようとするオーディオ信号成分を含まないことを示すことができる。機械学習モデル2000で算出された周波数ビン別マスク値を周波数ビン別入力信号に掛けて、分離しようとするオーディオ信号成分を分離する。特定時点の特定周波数ビンに対するマスク値が0.5である場合に、マスク値は、当該周波数ビンに、分離しようとするオーディオ信号成分と残りオーディオ信号成分が1:1で混在することを示すことができる。このように分離しようとするオーディオ信号成分と残りオーディオ信号成分が比等に混在する場合に、分離したオーディオ信号成分に干渉(interference)が存在することがある。具体的には、機械学習モデル2000は、スコア間の間隔を調整することができる。具体的には、
図4に示すようなマスクワーピングを適用することができる。例えば、機械学習モデル2000は、周波数ビン(bin)別スコアに、指数関数形態のマスクワーピングを適用することができる。このとき、指数関数は次の数学式の通りでよい。
【0048】
f(x)=xn
【0049】
このとき、nは、マスクワーピングの強度に基づいて決定されてよい。このような実施例によって、機械学習モデル2000は、分離されたオーディオ信号の干渉を減らすことができる。
【0050】
また、前述したゲートCHBGは、
図5のような形態を有し得る。
【0051】
前述した
図3の機械学習モデルと
図5のゲートCHBGが適用された場合の効果について
図6で説明する。
【0052】
図6には、本発明の一実施例に係るオーディオ信号処理装置と他のオーディオ信号処理装置の性能評価結果を示す。
【0053】
既存の音源分離方法として、スプリッター(SPLEETER,Romain Hennequin,Anis Khlif,Felix Voituret,Manuel Moussallam,“Spleeter:A fast and state-of-the-art music source separation tool with pre-trained models,” 20th International Society for Music Information Retrieval Conference,Delft,Netherlands,2019)、オープンアンミックス(OPEN UNMIX,Fabian-Robert Stoter,Stefan Uhlich,Antoine Liutkus,and Yuki Mitsufuji,“Open-unmix-a reference implementation for music source separation,” Journal of Open Source Software,2019)、デマックス(DEMUCS,Alexandre Defossez,Nicolas Usunier,Leon Bottou,Francis Bach,“Demucs:Deep Extractor for Music Sources with extra unlabeled data remixed,” 2019)が広範囲に用いられた。
図1で説明したラウドネス平準化、
図2~
図5で説明した機械学習モデルを適用したオーディオ信号処理方法をGSEPと呼ぶ。GSEPの性能を評価するためには既存音源分離方法との比較が必要である。
【0054】
性能評価のためにGSEPは、MUSDB818と3000個の音楽及びスピーチデータシートで学習された。機械学習モデルの学習に用いられる個別オーディオセグメント(segment)は、次のように生成された。無作為に一つの音声の音源が選択され、選択された音源のラウドネスは0LUFSに調整される。無作為に3個の非音声音源が選択され、選択された3個の音源のラウドネスは-12LUFS~12LUFSの範囲の無作為値に調整される。生成された4個の音源をミキシングし、機械学習モデルの学習に用いられる個別オーディオセグメントを生成した。
【0055】
また、性能評価において、表1の音源を用いて、音声を除く残り信号成分を抽出することに対する評価が行われた。また、性能評価において、表2の音源を用いて、映画及びTVショーから対話のみを抽出することに対する評価が行われた。
【0056】
【0057】
【0058】
図6に見られるように、GSEPの音源分離性能に対する主観的評価が、既存音源分離方法が用いられる場合に比べてより高い評価を受けた。また、客観的な性能評価からも表3のような結果が得られ、GSEPの性能が既存音源分離方法に比べて優れているものと評価された。
【0059】
【0060】
また、演算効率評価においても、表4のように、GSEPが、評価対象である音源分離方法のうち最も効率的なものと評価された。
【0061】
【0062】
図7には、本発明の一実施例に係るオーディオ信号処理動作を示す。
【0063】
オーディオ信号処理装置は、第1オーディオ信号成分及び第2オーディオ信号成分を含むオーディオ信号を受信する(S710)。このとき、第1オーディオ信号成分と第2オーディオ信号成分のうち少なくともいずれか一方は、音声に該当するオーディオ信号成分であってよい。また、他方は、音声に該当しないオーディオ信号成分であってよい。
【0064】
オーディオ信号処理装置は、あらかじめ指定されたターゲットラウドネスに基づいてオーディオ信号のラウドネスを平準化する(S730)。具体的には、オーディオ信号処理装置は、オーディオ信号のラウドネスを、あらかじめ指定されたターゲットラウドネスに平準化できる。このとき、オーディオ信号処理装置は、ラウドネスの大きさによって区分された複数の段階ごとに、オーディオ信号のうち、各段階に該当するオーディオ信号の量とオーディオ信号全体の量との比率を示すラウドネス分布情報を用いて、オーディオ信号のラウドネスを平準化できる。また、オーディオ信号処理装置は、オーディオ信号が含むコンテンツ単位でラウドネスを平準化することができる。オーディオ信号処理装置は、
図1で説明した実施例によってオーディオ信号のラウドネスを平準化することができる。
【0065】
オーディオ信号処理装置は、機械学習モデルを用いて、ラウドネスが平準化されたオーディオ信号から第1オーディオ信号成分を取得する(S750)。この時、機械学習モデルは、ラウドネスが平準化されたオーディオ信号を周波数領域で処理できる。また、機械学習モデルはゲートロジックを含んでよい。具体的には、機械学習モデルは、ゲートロジックを含むLSTM(long short term memory)ベース機械学習モデルであってよい。さらに他の具体的な実施例において、機械学習モデルは、GRU(gated recurrent unit)ベース機械学習モデルであってよい。具体的には、機械学習モデルは、
図2~
図5で説明した機械学習モデルに関する実施例によって動作できる。
【0066】
また、オーディオ信号処理装置は、機械学習モデル内で取得した周波数ビン(bin)別スコアを、あらかじめ指定された閾値を基準にして分類できる。この時、スコアは、第1オーディオ信号成分にどれくらい近いかを示すことができる。オーディオ信号処理装置は、スコアの分布を調整することができる。具体的には、オーディオ信号処理装置は、スコア間の間隔を調整することができる。具体的には、オーディオ信号処理装置は、周波数ビン別スコアに、
図5で説明したマスクワーピングを適用できる。
【0067】
オーディオ信号処理装置は、あらかじめ指定されたターゲットラウドネスに基づいて第1オーディオ信号成分のラウドネスを逆平準化する(S770)。具体的には、オーディオ信号処理装置は、オーディオ信号のラウドネスを、あらかじめ指定されたターゲットラウドネスに基づいて逆平準化できる。具体的には、オーディオ信号処理装置は、ターゲットラウドネスと入力オーディオ信号に基づいて、ラウドネス逆平準化に用いられるゲインを取得できる。また、オーディオ信号処理装置は、ラウドネス平準化に用いたラウドネス分布情報を用いてオーディオ信号のラウドネスを逆平準化できる。オーディオ信号処理装置は、
図1で説明した実施例によってオーディオ信号のラウドネスを逆平準化することができる。
【0068】
オーディオ信号処理のこのような動作は、オーディオ信号を処理する時の他、機械学習モデルを学習させる時にも同一に適用されてよい。
【0069】
一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態で具現されてもよい。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれを含んでもよい。また、コンピュータ可読媒体はコンピュータ記憶媒体を含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の保存のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれをも含むことができる。
【0070】
以上では、本開示を具体的な実施例を用いて説明したが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲から逸脱することなく修正、変更が可能である。すなわち、本開示は、オーディオ信号に対するラウドネスレベル調整の実施例について説明したが、本開示は、オーディオ信号の他、ビデオ信号を含む様々なマルチメディア信号にも同様の適用及び拡張が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における当業者が容易に類推できるものは、本開示の権利範囲に属するものとして解釈される。
【符号の説明】
【0071】
1000 ラウドネス平準化部
2000 機械学習モデル
3000 ラウドネス逆平準化部