(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024137877
(43)【公開日】2024-10-07
(54)【発明の名称】機械学習モデルを用いて音声とテキストを同期化するオーディオ信号処理装置及び方法
(51)【国際特許分類】
G10L 19/00 20130101AFI20240927BHJP
G10L 25/30 20130101ALI20240927BHJP
G10L 25/51 20130101ALI20240927BHJP
【FI】
G10L19/00 312F
G10L25/30
G10L25/51
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2024045057
(22)【出願日】2024-03-21
(31)【優先権主張番号】10-2023-0038587
(32)【優先日】2023-03-24
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】518449353
【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ミンスン・カン
(72)【発明者】
【氏名】サンペ・チョン
(57)【要約】
【課題】音声を含むオーディオ信号と前記音声に該当するテキストを前記音声信号に同期化するオーディオ信号処理装置を提供する。
【解決手段】オーディオ信号処理装置のプロセッサは、前記音声に該当する第1オーディオ発音情報を取得し、前記第1オーディオ発音情報は、前記オーディオ信号が含む複数のフレーム別に区分され、前記テキストに該当する第1テキスト発音情報を取得し、前記第1テキスト発音情報は、複数の区間別に区分される。前記プロセッサは、前記第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、前記第1テキスト発音情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係を示す情報を取得し、前記相関関係を示す情報によって前記テキストを前記音声信号に同期化する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声を含むオーディオ信号と前記音声に該当するテキストを前記音声信号に同期化するオーディオ信号処理装置であって、
プロセッサを含み、
前記プロセッサは、
前記音声に該当する第1オーディオ発音情報を取得し、前記第1オーディオ発音情報は、前記オーディオ信号が含む複数のフレーム別に区分され、
前記テキストに該当する第1テキスト発音情報を取得し、前記第1テキスト発音情報は、複数の区間別に区分され、
前記第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、前記第1テキスト発音情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係を示す情報を取得し、
前記相関関係を示す情報によって前記テキストを前記音声信号に同期化する
オーディオ信号処理装置。
【請求項2】
前記プロセッサは、
前記オーディオ信号において発話された言語を示す成分から前記音声を抽出する、請求項1に記載のオーディオ信号処理装置。
【請求項3】
前記プロセッサは、
前記テキストを前記テキストに対応する符号に変換し、前記変換された符号に基づいて前記第1テキスト発音情報を取得する、請求項1に記載のオーディオ信号処理装置。
【請求項4】
前記変換された符号は、IPA(international phonetic alphabet)である、請求項3に記載のオーディオ信号処理装置。
【請求項5】
前記第2オーディオ発音情報と前記第2テキスト発音情報との相関関係は、交差相関関係である、請求項1に記載のオーディオ信号処理装置。
【請求項6】
前記プロセッサは、
前記第2オーディオ発音情報と前記第2テキスト発音情報との類似度を取得し、
前記類似度に基づいて、前記第2発音情報の複数の区間のそれぞれに対応する前記テキストの複数の区間のそれぞれがオーディオ信号に対応する時間を示すタイムスタンプを取得する、請求項1に記載のオーディオ信号処理装置。
【請求項7】
前記プロセッサは、
神経網モデルを用いて前記類似度を取得する、請求項6に記載のオーディオ信号処理装置。
【請求項8】
前記神経網モデルは、UNet構造を有し、
UNetは、CNN及びRNNを含み、
UNetが含むレイヤの内部において、CNNは枝葉的な類似度領域に対する分析を行い、RNNは全域的な類似度領域に対する分析を行う、請求項7に記載のオーディオ信号処理装置。
【請求項9】
前記神経網モデルの学習には、前記テキストの複数の区間のそれぞれに該当する音声が前記オーディオ信号において発話される時間と、前記テキストの複数の区間のそれぞれが前記オーディオ信号に同期化される時間として予測された時間との差を出力値として有する損失関数が使用される、請求項7に記載のオーディオ信号処理装置。
【請求項10】
前記損失関数はクロスエントロピーを使用する、請求項9に記載のオーディオ信号処理装置。
【請求項11】
音声を含むオーディオ信号と前記音声に該当するテキストを前記音声信号に同期化する神経網モデルを生成する機械学習装置であって、
プロセッサを含み、
前記プロセッサは、
前記音声に該当する第1オーディオ発音情報を取得し、前記第1オーディオ発音情報は、前記オーディオ信号が含む複数のフレーム別に区分され、
前記テキストに該当する第1テキスト発音情報を取得し、前記第1テキスト発音情報は、複数の区間別に区分され、
前記第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、前記第1テキスト発音情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係を示す情報を取得し、
前記相関関係を示す情報によって前記テキストを前記音声信号に同期化することを学習する、機械学習装置。
【請求項12】
前記プロセッサは、
前記オーディオ信号において発話された言語を示す成分から前記音声を抽出する、請求項11に記載の機械学習装置。
【請求項13】
前記プロセッサは、
前記テキストを前記テキストに対応する符号に変換し、前記変換された符号に基づいて前記第1テキスト発音情報を取得する、請求項11に記載の機械学習装置。
【請求項14】
前記変換された符号は、IPA(international phonetic alphabet)である、請求項13に記載の機械学習装置。
【請求項15】
前記第2オーディオ発音情報と前記第2テキスト発音情報との相関関係は、交差相関関係である、請求項11に記載の機械学習装置。
【請求項16】
前記プロセッサは、
前記第2オーディオ発音情報と前記第2テキスト発音情報との類似度を取得し、
前記類似度に基づいて、前記第2発音情報の複数の区間のそれぞれに対応する前記テキストの複数の区間のそれぞれがオーディオ信号に対応する時間を示すタイムスタンプを取得する、請求項11に記載の機械学習装置。
【請求項17】
前記神経網モデルは、UNet構造を有し、
UNetは、CNN及びRNNを含み、
UNetが含むレイヤの内部において、CNNは枝葉的な類似度領域に対する分析を行い、RNNは全域的な類似度領域に対する分析を行う、請求項11に記載の機械学習装置。
【請求項18】
前記神経網モデルの学習には、前記テキストの複数の区間のそれぞれに該当する音声が前記オーディオ信号において発話される時間と、前記テキストの複数の区間のそれぞれが前記オーディオ信号に同期化される時間として予測された時間との差を出力値として有する損失関数が使用される、請求項11に記載の機械学習装置。
【請求項19】
前記損失関数はクロスエントロピーを使用する、請求項18に記載の機械学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルを用いて、オーディオ信号に含まれた音声に合わせてテキストを同期化するオーディオ信号処理方法及び装置に関する。
【背景技術】
【0002】
機械学習モデルが発達することにより、イメージ及び映像処理に機械学習モデルを使用する方法が論議された。イメージに含まれた物体の識別やイメージに含まれた物体を検索することに機械学習モデルが使用された。最近では、イメージ及び映像処理の他にオーディオにも機械学習モデルが適用されている。特に、人間が直接作業すべきだった仕事を機械学習モデルに取り替える方法が論議されている。例えば、機械学習モデルを用いて音声をテキストに変換したり、テキストを音声に変換したりする方法が導入された。これにより、オーディオ信号に含まれた音声及びテキスト、例えば、歌及び歌詞を同期化できる機械学習モデルも論議されている。
【0003】
例えば、オーディオ信号処理装置は、含まれた音声及びテキストの同期化に、強制整列(forced alignment)アルゴリズムの一種であるDTW(dynamic time warping)を用いることができる。DTWにおいて、オーディオ信号処理装置は、2個の時系列データを比較し、第1時系列データの初めの時点から順次に、第2時系列データ内の時点のデータのうち最も類似のデータを有する時点を探す。このように、第1時系列の時点に対応する第2時系列の時点間の距離をワーピング距離といい、オーディオ信号処理装置は、ワーピング距離が最小になる最適のワーピング経路を探す。オーディオ信号処理装置は、最適のワーピング経路にしたがって音声とテキストを整列する。この時、オーディオ信号処理装置は、入力オーディオと入力テキストを同じレイタント(latent)フィーチャスペースに変換する。この時、オーディオ信号処理装置は、NMF(non-negative matrix factorization)を用いてオーディオフィーチャを抽出し、テキストフィーチャとして母音クラストークンを使用することができる。
【0004】
また、オーディオ信号処理装置は、音声とテキスト同期化に、強制整列アルゴリズムの一種であるビタビ(Viterbi)アルゴリズムを用いることができる。特にビタビアルゴリズムがASR(automatic speech recognition)モデルに適するわけである。ASRモデルは、音声からフレーム単位で発音や文字トークロジット(logits)を出力する。したがって、オーディオ信号装置は、ASRモデルの出力とテキストにビタビアルゴリズムを用いて音声とテキストを整列することができる。ただし、このような方法は、特定の音声、例えば、特定の単語が反復される可能性が高い歌においては整列性能が低下する問題があった。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の実施例は、機械学習モデルを用いて、オーディオ信号に含まれた音声に合わせてテキストを同期化するオーディオ信号処理方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施例に係る音声を含むオーディオ信号と前記音声に該当するテキストを前記音声信号に同期化するオーディオ信号処理装置は、プロセッサを含み、前記プロセッサは、前記音声に該当する第1オーディオ発音情報を取得し、前記第1オーディオ発音情報は、前記オーディオ信号が含む複数のフレーム別に区分され、前記テキストに該当する第1テキスト発音情報を取得し、前記第1テキスト発音情報は、複数の区間別に区分され、前記第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、前記第1テキスト発音情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係を示す情報を取得し、前記相関関係を示す情報によって前記テキストを前記音声信号に同期化する。
【0007】
前記プロセッサは、前記オーディオ信号において発話された言語を示す成分から前記音声を抽出することができる。
【0008】
前記プロセッサは、前記テキストを前記テキストに対応する符号に変換し、前記変換された符号に基づいて前記第1テキスト発音情報を取得することができる。
【0009】
前記変換された符号は、IPA(international phonetic alphabet)であってよい。
【0010】
前記第2オーディオ発音情報と前記第2テキスト発音情報との相関関係は、交差相関関係であってよい。
【0011】
前記プロセッサは、前記第2オーディオ発音情報と前記第2テキスト発音情報との類似度を取得し、前記類似度に基づいて、前記第2発音情報の複数の区間のそれぞれに対応する前記テキストの複数の区間のそれぞれがオーディオ信号に対応する時間を示すタイムスタンプを取得することができる。
【0012】
前記プロセッサは、神経網モデルを用いて前記類似度を取得することができる。
【0013】
前記神経網モデルはUNet構造を有し、UNetはCNN及びRNNを含み、UNetが含むレイヤの内部において、CNNは枝葉的な類似度領域に対する分析を行い、RNNは全域的な類似度領域に対する分析を行うことができる。
【0014】
前記神経網モデルの学習には、前記テキストの複数の区間のそれぞれに該当する音声が前記オーディオ信号において発話される時間と、前記テキストの複数の区間のそれぞれが前記オーディオ信号に同期化される時間として予測された時間との差を出力値として有する損失関数が用いられてよい。
【0015】
前記損失関数はクロスエントロピーを使用することができる。
【0016】
本発明の実施例によって音声を含むオーディオ信号と前記音声に該当するテキストを前記音声信号に同期化する神経網モデルを生成する機械学習装置は、プロセッサを含む。前記プロセッサは、前記音声に該当する第1オーディオ発音情報を取得し、前記第1オーディオ発音情報は、前記オーディオ信号が含む複数のフレーム別に区分され、前記テキストに該当する第1テキスト発音情報を取得し、前記第1テキスト発音情報は、複数の区間別に区分され、前記第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、前記第1テキスト発音情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係を示す情報を取得し、前記相関関係を示す情報によって前記テキストを前記音声信号に同期化することを学習することができる。
【0017】
前記プロセッサは、前記オーディオ信号において発話された言語を示す成分から前記音声を抽出することができる。
【0018】
前記プロセッサは、前記テキストを前記テキストに対応する符号に変換し、前記変換された符号に基づいて前記第1テキスト発音情報を取得することができる。
【0019】
前記変換された符号は、IPA(international phonetic alphabet)であってよい。
【0020】
前記第2オーディオ発音情報と前記第2テキスト発音情報との相関関係は、交差相関関係であってよい。
【0021】
前記プロセッサは、前記第2オーディオ発音情報と前記第2テキスト発音情報との類似度を取得し、前記類似度に基づいて前記第2発音情報の複数の区間のそれぞれに対応する前記テキストの複数の区間のそれぞれがオーディオ信号に対応する時間を示すタイムスタンプを取得することができる。
【0022】
前記神経網モデルはUNet構造を有し、UNetはCNN及びRNNを含み、UNetが含むレイヤの内部において、CNNは枝葉的な類似度領域に対する分析を行い、RNNは全域的な類似度領域に対する分析を行うことができる。
【0023】
前記神経網モデルの学習には、前記テキストの複数の区間のそれぞれに該当する音声が前記オーディオ信号において発話される時間と、前記テキストの複数の区間のそれぞれが前記オーディオ信号に同期化される時間として予測された時間との差を出力値として有する損失関数が使用されてよい。
【0024】
前記損失関数はクロスエントロピーを使用することができる。
【発明の効果】
【0025】
本発明の実施例に係る装置及び方法は、機械学習モデルを用いてオーディオ信号に含まれた音声にテキストを同期化するオーディオ信号処理方法及び装置を提供することができる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施例に係るオーディオ信号処理装置が予測モジュールを学習させる過程を示すブロック図である。
【
図2】テキスト前処理部によって英文テキストがIPAトークンに変換されることを示す。
【
図3】本発明の実施例によってCHBGに追加される線形レイヤを示す。
【
図4】本発明の実施例に係る予測モジュールの具体的な構造を示す。
【
図5】本発明の実施例に係る予測モデルを複数の歌に歌詞を同期化することをテストした結果と、既存モデルの予測性能を示す。
【発明を実施するための形態】
【0027】
以下、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。ただし、本発明は、様々な他の形態で具現されてよく、ここで説明する実施例に限定されない。なお、図面中、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて類似の部分には類似の参照符号を付けるものとする。また、ある部分がある構成要素を「含む」としているとき、これは、特に断らない限り、他の構成要素を除外することではなく、他の構成要素をさらに含み得るということを意味する。
【0028】
図1は、本発明の実施例に係るオーディオ信号処理装置が予測モジュールを学習させる過程を示すブロック図である。
【0029】
本発明の実施例に係るオーディオ信号処理装置が予測モジュールを学習させる過程をソフトウェア機能ブロックに区分すれば、学習過程は、オーディオ前処理部100、テキスト前処理部200、オーディオエンコーダ300、テキストエンコーダ400、予測モジュール500、及び損失評価600に区分されてよい。このようなソフトウェア機能ブロックは1つ以上のプロセッサで動作されてよい。
【0030】
オーディオ前処理部100は、入力オーディオ信号に含まれた音声を抽出し、音声に該当する発音情報を取得する。具体的には、オーディオ前処理部100は、入力オーディオ信号において発話された言語を示す成分から音声を抽出することができる。説明の便宜のために、音声に該当する発音情報を第1オーディオ発音情報と称する。このとき、オーディオ前処理部100は、あらかじめ指定された音声抽出方法を用いることができる。また、オーディオ前処理部100は、抽出した音声を、発音情報、例えば、メルスペクトグラム(mel spectrogram)、又はFFTスペクトグラムに変換することができる。具体的には、オーディオ前処理部100は、入力オーディオ信号から抽出された音声をSTFT信号に変換し、メルフィルターバンクを用いてSTFT信号をメルスペクトグラムに変換することができる。また、オーディオ前処理部100は、抽出された音声に該当するオーディオ信号をサンプリングすることができる。この時、オーディオ前処理部100は、整列単位にしたがってサンプリング単位を調節することができる。
【0031】
テキスト前処理部200は、入力テキストからフィーチャを抽出できるように変換する。具体的には、テキスト前処理部200は、入力テキストを発音情報に変換することができる。説明の便宜のために、テキストに該当する発音情報を第1テキスト発音情報と称する。このとき、発音情報は、IPA(international phonetic alpahbet)トークンであってよい。このとき、IPAトークンに変換するために、テキストの言語に合わせてあらかじめ定義された変換方法が用いられてよい。例えば、英語と韓国語のテキストを変換するために、パイソンライブラリー[eng2ipa,Kopron]が用いられてよい。
図2は、テキスト前処理部200によって英文テキストがIPAトークンに変換されることを示す。また、テキスト前処理部200は、入力テキストをIPAトークンに変換する前に、発音と関係ない文字を除去することができる。このとき、発音と関係ない文字は、文章符号、又は日本語において長音表現に該当する「ー」であってよい。文章符号は、「?」、「!」、「,」及び「.」のうち少なくともいずれか1つを含んでよい。
【0032】
オーディオエンコーダ300は、オーディオ信号前処理部100によって取得された第1オーディオ発音情報を、予測モジュールの入力形態でエンコードする。テキストエンコーダ400は、テキスト前処理部200によって取得された第1テキスト発音情報を、予測モジュールの入力形態でエンコードする。具体的には、オーディオエンコーダ300及びテキストエンコーダ400は、CHBG(convolution bank+highway+GRU)を使用することができる。CBHGは、1次元(1D)コンボリューショナルバンク、ハイウェイネットワーク、及びGRU(gated recurrent unit)が結合されたものであり、長いシーケンスから特徴を抽出するために用いられる。1Dコンボリューショナルバンクは、前処理された入力に対してコンボリューショナル演算を行ってマトリックスを取得し、取得したマトリックスでマックスプーリング(max pooling)を行う。これにより、オーディオエンコーダ300及びテキストエンコーダ400は、第1オーディオ発音情報及び第1テキスト発音情報からオーディオ信号及びテキストのシーケンス特徴が反映された第2オーディオ発音情報及び第2テキスト情報を抽出する。このとき、シーケンス特徴は、連音及び反復した単語のうち少なくともいずれか1つを含んでよい。ハイウェイネットワークは、1Dコンボリューショナルバンクから抽出された特徴のうち重要な特徴を増幅(amplify)する。また、GRUは、連続したシーケンス間の相互関係が反映された特徴を出力する。CBHGの末端に、チャネルの数を増加させる線形レイヤが追加されてよい。
図3は、本発明の実施例によってCHBGに追加される線形レイヤを示す。
【0033】
図3において、C
inは、線形レイヤ後に出力されるチャネルの個数を表す。また、Lは、IPAの前処理されたテキスト、例えば、IPAトークンを処理単位に分けた個数を表す。Lは、IPAトークンに該当する文章の数であってよい。また、Tは、前処理されたオーディオ信号、音声のオーディオ信号を処理単位に分けた個数を表す。Tは、前処理されたオーディオ信号に該当する時間フレーム数を表す。CBHGが出力するC
encoder×L×Tの形態のテンソルは、線形レイヤによってC
in×L×Tのテンソルに変換される。
【0034】
具体的な実施例によって、CBHGの他にも、長い長さのシーケンスから特徴を抽出できる他のモデル、例えばRNN、LSTMが使用されてもよい。
【0035】
予測モジュール500は、第1オーディオ発音情報の複数のフレームのそれぞれから抽出された特徴である第2オーディオ発音情報と、第1テキスト情報の複数の区間のそれぞれから抽出された特徴である第2テキスト発音情報との相関関係(correlation)に基づいて、テキストをオーディオ信号に同期化する。具体的には、予測モジュール500は、第1オーディオ発音情報の複数のフレームのそれぞれから抽出された第2オーディオ発音情報と、第1テキスト発音情報の複数の区間のそれぞれから抽出された第2テキスト発音情報との交差相関関係(cross-correlation)に基づいて、テキストをオーディオ信号に同期化できる。この時、予測モジュール500は、テキストの各区間に該当するオーディオ信号のタイムスタンプを出力することができる。このとき、タイムスタンプは、予測に用いられた第2テキスト発音情報の区間の開始時間であってよい。具体的には、予測モジュール500は、前述したC
in×L×Tテンソルの相関関係を示すマトリックスに基づいてテキストをオーディオ信号に同期化することができる。予測モジュール500は、第2オーディオ発音情報と第2テキスト発音情報との類似度を示すL×Tテンソルを出力することができる。また、予測モジュール500は、最も高い相関関係を有する第2テキスト発音情報に、最も高い相関関係を有する第2オーディオ発音情報のフレームの時間情報を出力することができる。このとき、予測モジュール500は、argmax関数を用いることができる。予測モジュール500は、GRUが用いられるUNet構造であってよい。UNetは、CNN及びRNNの組合せで構成されてよい。このとき、UNetが含むレイヤの内部において、CNNは枝葉的な類似度領域に対する分析を行うことができる。また、UNetが含むレイヤの内部において、RNNは全域的な類似度領域に対する分析を行うことができる。予測モジュール500の初期2次元コンボリューショナルレイヤは32チャネルのテンソルを出力することができる。各プーリングレイヤ後にチャネルサイズは2倍に増加する。各デプス(depth)レベルにおいて、2つのコンボリューショナルレイヤがあり、ダウンサンプリングとアップサンプリングとの間にスキップコネクションがある。
図4は、本発明の実施例に係る予測モジュール500の具体的な構造を示す。
【0036】
予測モジュール500は、テキストが出力されるべきタイムスタンプ、すなわち、第2テキスト発音情報の複数の区間のそれぞれに対応する前記テキストの複数の区間のそれぞれに該当する音声が前記オーディオ信号において発話される時間と、予測モジュール500が予測したタイムスタンプとの差を損失(loss)とする損失関数600を用いて学習されてよい。このとき、損失は、時間軸に対するクロスエントロピー損失であってよい。
【0037】
このような学習過程によって学習された予測モジュール500は、歌の歌詞のように類似又は同一の単語が繰り返されたり、数回登場するテキストと音声を同期化する上で高い性能を示すことができる。
【0038】
予測モジュール500は、テキストと音声を同期化するとき、2段階にわたって予測することができる。例えば、予測モジュール500は、第1単位のテキストのタイムスタンプを予測し、第2単位のテキストのタイムスタンプを出力することができる。このとき、第1単位は第2単位よりも大きい単位であってよい。具体的には、第1単位は文章で、第2単位は単語であってよい。
【0039】
図5は、本発明の実施例に係る予測モデルを複数の歌に歌詞を同期化することをテストした結果と、既存モデルの予測性能を示す。
【0040】
図5で、STは、ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019,pp.181-185に掲載されたD.Stoller,S.Durand、及びS.Ewert,“End-to-end lyrics alignment for polyphonic music using an audio-tocharacter recognition model,”の予測モデルである。また、
図5で、VAは、International Society for Music Information Retrieval Conference(ISMIR),2020で発表されたA.Vaglio,R.Hennequin,M.Moussallam,G.Richard、及びF.d’Alche Buc,“Multilingual lyrics-to-audio alignment,”の予測モデルである。
図5で、GUは、ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020,pp.496-500に掲載されたC.Gupta,E.Y
1lmaz、及びH.Liの“Automatic lyrics alignment and transcription in polyphonic music:Does background music help?”の予測モデルである。また、
図5で、GTS-Dは、本発明の実施例に係る予測モデルをDALI(登録商標)を用いて学習させたモデルである。また、
図5で、GTS-IHは、本発明の実施例に係る予測モデルをガウディオラボの内部データを用いて学習させたモデルである。
図5で、評価項目は、MAE(Mean Absolute Error)、Med(AE)Median Absolute Error(MedAE)、Perc及びMauchメトリックである。Percは、オーディオ信号の全長のうち、予測が正確になされた区間の長さを表す。Mauchメトリックは、実際音声の時間から一定区間内で予測された時間が存在する比率を表す。数学式1は、
図5でMAEを測定した方法を示し、数学式2は、
図5でMedAEを測定した方法を示し、数学式3は、
図5でPercを測定した方法を示し、数学式4は、Mauchメトリックを測定した方法を示す。
【0041】
【0042】
【0043】
【0044】
【0045】
Wは、1つの曲が含む全体単語数を表す。また、wは、単語のインデックスを表す。また、t
w
predは、単語インデックスwに該当する単語に対して予測された開始時間を表し、t
w
refは、単語インデックスwに該当する単語の実際開始時間を表す。e
wは、単語の終了時間を表す。
図5の評価は、1つの曲単位でなされており、MIREX 2019のJamendoデータセットを用いて評価された。Jamendoデータセットが単語の終了時間を含んでいないため、e
wは次の単語の開始時間と設定された。
図5から、従来のモデルに比べて、本発明の実施例に係るモデルが高い性能を示すことが確認できる。
図5で、N/Aと表示された項目はオープンソースで、測定値が公開されていない項目であるか、モデルが記載された論文に記入されていない項目である。
【0046】
上のような実施例によって学習された予測モジュールは、第1発音情報の複数のフレームのそれぞれの発音と第2発音情報の複数の区間のそれぞれの発音との相関関係を示す情報を取得し、相関関係を示す情報によって前記テキストを前記音声信号に同期化することができる。
【0047】
本発明の実施例に係るオーディオ信号処理装置は、少なくとも1つのプロセッサを含む。本発明で説明するオーディオ信号処理の動作は、オーディオ信号処理装置が含むプロセッサで動作するインストラクションセットの動作であってよい。
【0048】
一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態としても具現可能である。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び不揮発性媒体、分離型及び非分離型媒体のいずれをも含んでよい。また、コンピュータ可読媒体は、コンピュータ記憶媒体を含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の記憶のための任意の方法又は技術により具現された揮発性及び不揮発性、分離型及び非分離型の媒体のいずれをも含んでよい。
【0049】
以上では、具体的な実施例を挙げて本開示を説明してきたが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲から逸脱することなく修正、変更が可能である。すなわち、本開示は、オーディオ信号に対するラウドネスレベル補正の実施例について説明したが、本開示は、オーディオ信号の他、ビデオ信号を含む様々なマルチメディア信号にも同一に適用及び拡張が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における者が容易に類推できるものは、本開示の権利範囲に属するものと解釈される。