(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-03
(45)【発行日】2024-04-11
(54)【発明の名称】オーディオデータ処理方法、装置、機器、記憶媒体及びプログラム
(51)【国際特許分類】
G10L 21/013 20130101AFI20240404BHJP
G10L 21/0272 20130101ALI20240404BHJP
【FI】
G10L21/013
G10L21/0272 100Z
(21)【出願番号】P 2022560146
(86)(22)【出願日】2022-03-22
(86)【国際出願番号】 CN2022082305
(87)【国際公開番号】W WO2023024501
(87)【国際公開日】2023-03-02
【審査請求日】2022-09-30
(31)【優先権主張番号】202110978065.3
(32)【優先日】2021-08-24
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100189555
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】王 芸鵬
(72)【発明者】
【氏名】劉 雲峰
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2019/116889(WO,A1)
【文献】特表2021-516786(JP,A)
【文献】特開2013-117556(JP,A)
【文献】特開2012-098318(JP,A)
【文献】国際公開第2020/145353(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/013
G10L 21/0272
(57)【特許請求の範囲】
【請求項1】
オーディオデータ処理装置によるオーディオデータ処理方法であって、
オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得することと、
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することと、
前記電気音響人声データと前記背景オーディオデータを合成して、目標オーディオデータを取得することと、を含
み
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することは、
前記人声オーディオデータのオリジナルの基本周波数を抽出することと、
前記オリジナル基本周波数を補正し、第一基本周波数を取得することと、
予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得することと、
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得することと、
前記第三基本周波数に基づいて、前記電気音響人声データを決定することと、を含み、
前記オリジナル基本周波数を補正し、第一基本周波数を取得することは、
前記人声オーディオデータを複数のオーディオセグメントに分けることと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのエネルギー及びゼロクロスレートを決定することと、
前記エネルギー及びゼロクロスレートに基づいて、前記オーディオセグメントが濁音オーディオセグメントであるか否かを決定することと、
線形補間アルゴリズムを利用して、前記濁音オーディオセグメントの基本周波数を補正することと、を含む
オーディオデータ処理方法。
【請求項2】
前記オリジナルオーディオデータを分解し、背景オーディオデータ及び人声オーディオデータを取得することは、
前記オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定することと、
ニューラルネットワークを用いて前記オリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定することと、
前記背景メルスペクトルデータに基づいて、前記背景オーディオデータを生成し、かつ前記人声メルスペクトルデータに基づいて、前記人声オーディオデータを生成することと、を含む
請求項1に記載の方法。
【請求項3】
前記オーディオセグメントに複数のサンプリングポイントが設置され、前記オーディオセグメントのエネルギーを決定することは、
前記オーディオセグメントにおける各サンプリングポイントの数値に基づいて、前記オーディオセグメントのエネルギーを決定することを含む
請求項
1に記載のオーディオデータ処理方法。
【請求項4】
前記オーディオセグメントは複数のサンプリングポイントを含み、前記オーディオセグメントのゼロクロスレートを決定することは、
前記オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値の符号が互いに逆であるか否かを決定することと、
前記オーディオセグメントにおける隣接するサンプリングポイントが異なる符号である回数が全てのサンプリングポイントの個数を占める割合を決定し、前記ゼロクロスレートとすることと、を含む
請求項
1に記載の方法。
【請求項5】
前記予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含み、前記予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得することは、
前記濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定することと、
前記電気音響程度パラメータ及び前記基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、前記電気音響トーンパラメータ及び前記基本周波数平均値に基づいて、補正基本周波数平均値を決定することと、
前記補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、前記第一基本周波数を調整し、前記第二基本周波数を取得することと、を含む
請求項
1に記載の方法。
【請求項6】
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得することは、以下の式に基づいて周波数範囲を決定することを含み、
【数1】
ここで、前記scale は、前記周波数範囲であり、前記F0’ は、前記第二基本周波数であり、
前記周波数範囲に基づいて、以下の式に基づいて前記第三基本周波数を決定し、
【数2】
ここで、前記F0’’ は、前記第三基本周波数である
請求項
1、3~
5のいずれか一項に記載の方法。
【請求項7】
前記人声オーディオデータ及び前記第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定することをさらに含み、
ここで、前記第三基本周波数に基づいて、前記電気音響人声データを決定することは、
前記第三基本周波数、前記スペクトルエンベロープ及び前記非周期パラメータに基づいて、前記電気音響人声データを決定することを含む
請求項
1、3~
5のいずれか一項に記載の方法。
【請求項8】
オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得するための分解モジュールと、
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得するための電気音響処理モジュールと、
前記電気音響人声データと前記背景オーディオデータを合成し、目標オーディオデータを取得するための合成モジュールと、を含
み
前記電気音響処理モジュールは、
前記人声オーディオデータのオリジナル基本周波数を抽出するための抽出サブモジュールと、
前記オリジナル基本周波数を補正し、第一基本周波数を取得するための補正サブモジュールと、
予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得するための調整サブモジュールと、
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得するための量子化サブモジュールと、
前記第三基本周波数に基づいて、前記電気音響人声データを決定するための電気音響決定サブモジュールと、を含み、
前記補正サブモジュールは、
前記人声オーディオデータを複数のオーディオセグメントに分けるためのセグメント化ユニットと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのエネルギーを決定するためのエネルギー決定ユニットと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのゼロクロスレートを決定するためのゼロクロスレート決定ユニットと、
前記エネルギー及びゼロクロスレートに基づいて、前記オーディオセグメントのタイプが濁音オーディオセグメントであるか否かを決定するための濁音判断ユニットと、
線形補間アルゴリズムを用いて、前記濁音オーディオセグメントの基本周波数を補正するための補正ユニットと、を含む
オーディオデータ処理装置。
【請求項9】
前記分解モジュールは、
前記オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定するためのメルスペクトル決定サブモジュールと、
ニューラルネットワークを用いて前記オリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定するための分解サブモジュールと、
前記背景メルスペクトルデータに基づいて、前記背景オーディオデータを生成し、前記人声メルスペクトルデータに基づいて、前記人声オーディオデータを生成するための生成サブモジュールと、を含む
請求項
8に記載の装置。
【請求項10】
前記オーディオセグメントに複数のサンプリングポイントが設置され、前記エネルギー決定ユニットは、さらに、
前記オーディオセグメントにおける各サンプリングポイントの数値に基づいて、前記オーディオセグメントのエネルギーを決定する
請求項
8に記載の装置。
【請求項11】
前記オーディオセグメントは複数のサンプリングポイントを含み、前記ゼロクロスレート決定ユニットは、さらに、
前記オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値の符号が互いに逆であるか否かを決定し、
前記オーディオセグメントにおける隣接するサンプリングポイントが異なる符号である回数が全てのサンプリングポイントの個数を占める割合を決定し、前記ゼロクロスレートとする
請求項
8に記載の装置。
【請求項12】
前記予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含み、前記調整サブモジュールは、
前記濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定するための第一決定ユニットと、
前記電気音響程度パラメータ及び前記基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、前記電気音響程度パラメータ及び前記基本周波数平均値に基づいて、補正ベース周波数平均値を決定するための第二決定ユニットと、
前記補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、前記第一基本周波数を調整し、前記第二基本周波数を取得するための調整ユニットと、を含む
請求項
8に記載の装置。
【請求項13】
前記量子化サブモジュールは、周波数範囲決定ユニットおよび第三基本周波数決定ユニットを含み、
前記周波数範囲決定ユニットは、以下の式に基づいて周波数範囲を決定するために用いられ、
【数3】
ここで、前記scale は、前記周波数範囲であり、前記F0’ は、前記第二基本周波数であり、
前記第三基本周波数決定ユニットは、前記周波数範囲に基づいて、以下の式に基づいて前記第三基本周波数を決定するために用いられ、
【数4】
ここで、前記F0’’ は、前記第三基本周波数である
請求項
8、10~
12のいずれか一項に記載の装置。
【請求項14】
前記人声オーディオデータ及び前記第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定するための決定モジュールをさらに含み、
ここで、前記電気音響決定サブモジュールは、さらに、
前記第三基本周波数、前記スペクトルエンベロープ及び前記非周期パラメータに基づいて、前記電気音響人声データを決定する
請求項
8、10~
12のいずれか一項に記載の装置。
【請求項15】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項1-
7のいずれか一項に記載の方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。
【請求項16】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は
、コンピュータに請求項1-
7のいずれか一項に記載の方法を実行させるために用いられる
記憶媒体。
【請求項17】
プロセッサにより実行される時に請求項1-
7のいずれか一項に記載の方法を実現する命令を含む
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年8月24日に提出され、出願番号が202110978065.3である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。
【0002】
本開示は、オーディオ処理技術分野に関し、特に音声合成技術分野に関する。
【背景技術】
【0003】
電気音響効果は、音声フィルタとして、音声を調整して美化するために用いられ、KTV作品又は小動画作品などのシーンに広い応用がある。良質な電気音響効果は、作品の音声品質を向上させることができる。アプリケーション製品に対して、良質な電気音響効果を提供することができれば、製品の競争力を向上させ、製品の遊び方を豊かにし、ユーザの面白味を増加させることができる。
【発明の概要】
【0004】
本開示は、オーディオデータ処理方法、装置、機器、記憶媒体及びプログラムを提供する。
【0005】
本開示の一態様によれば、オーディオデータ処理方法を提供し、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得することと、前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することと、前記電気音響人声データと前記背景オーディオデータを合成して、目標オーディオデータを取得することと、を含む。
【0006】
本開示の別の態様によれば、オーディオデータ処理装置を提供し、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得するための分解モジュールと、前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得するための電気音響処理モジュールと、前記電気音響人声データと前記背景オーディオデータを合成し、目標オーディオデータを取得するための合成モジュールと、を含む。
【0007】
本開示の他の態様は、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが本開示の実施例に示す方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される。
【0008】
本開示の実施例の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の実施例に示す方法を実行させるために用いられる。
【0009】
本開示の実施例の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される時に本開示の実施例に示す方法を実現するコンピュータプログラム/命令を含む。
【0010】
理解すべきこととして、本部分に記載された内容は本開示の実施例のキーポイント又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
【0012】
【
図1】
図1は、本開示の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。
【
図2】
図2は、本開示の実施例に係るオリジナルオーディオデータを分解する方法のフローチャートを概略的に示す。
【
図3】
図3は、本開示の実施例に係る人声オーディオデータに対して電気音響化処理を行う方法のフローチャートを概略的に示す。
【
図4】
図4は、本開示の他の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。
【
図5】
図5は、本開示の実施例に係るオーディオデータ処理装置のブロック図を概略的に示す。
【
図6】
図6は、本発明の実施例を実施するための例示的な電子機器のブロック図を概略的に示す。
【発明を実施するための形態】
【0013】
以下、図面を参照して本開示の例示的な実施例を説明し、理解しやすくするように、ここで本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知機能及び構造に対する説明を省略する。
【0014】
以下、本開示の実施例のオーディオデータ処理方法について、
図1を用いて説明する。説明すべきものとして、本開示の技術的解決手段において、関連するオーディオデータ等のデータの収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
【0015】
図1は、本開示の実施例に係るオーディオデータ処理方法のフローチャートである。
【0016】
図1に示すように、このオーディオデータ処理方法100は、以下のことを含む。
【0017】
操作S110において、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得する。
【0018】
操作S120において、人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得する。
【0019】
操作S130において、電気音響人声データと背景オーディオデータを合成し、目標オーディオデータを取得する。
【0020】
本開示の実施例によれば、オリジナルオーディオデータは例えば人声情報及び背景音声情報を含むことができ、ここで、人声は例えば歌唱声であってもよく、背景音声は例えば伴奏音楽であってもよい。本実施例において、例えば音源分離アルゴリズムを利用してオリジナルオーディオデータにおける人声情報と背景情報を分離し、人声情報を含む人声オーディオデータと背景音声情報を含む背景オーディオデータを取得することができる。
【0021】
本開示の実施例によれば、オリジナルオーディオデータにおける人声情報と背景音声情報を分離することにより、人声情報を電気音声化して、電気音声化された人声情報と背景音声情報とを合成し、背景音声情報と人声情報を同時に有するオーディオデータに対する電気音響化を実現する。
【0022】
本開示の実施例によれば、ニューラルネットワークを利用して音源分離アルゴリズムを実現することにより、オリジナルオーディオデータを分解することができる。該ニューラルネットワークの入力は、背景音声情報及び人声情報を有するオーディオデータであってもよく、該ニューラルネットワークの出力は、人声情報を含む人声オーディオデータ及び背景音声情報を含む背景オーディオデータであることができる。
【0023】
本開示の実施例によれば、音楽ファイルと人声ファイルを予め取得し、音楽ファイルと人声ファイルを等長セグメントに切断し、複数の音楽セグメントX及び複数の人声セグメントYを取得することができる。各音楽セグメントXと一つの対応する人声セグメントYをそれぞれ合成し、オリジナルオーディオデータZを取得することができる。それぞれ各オリジナルオーディオデータZをニューラルネットワークの入力とし、オリジナルオーディオデータZに対応する音楽セグメントX及び人声セグメントYを期待出力として、ニューラルネットワークをトレーニングする。また、トレーニング効果を向上させ、ネットワークの収束を加速するために、音楽セグメントX、人声セグメントY及びオリジナルオーディオデータZはいずれもメルスペクトルに前処理されることができる。それに応じて、ニューラルネットワークの出力結果もメルスペクトルに基づくものである。例示的に、該メルスペクトル形式の出力結果はGriffin-Lim(グリフィン-林)アルゴリズムなどのアルゴリズムにより対応するオリジナルオーディオデータを合成することができる。
【0024】
これに基づいて、以下に
図2を参照し、具体的な実施例を組み合わせ、上記オリジナルオーディオデータを分解する方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は、本開示を理解するために用いられ、本開示を制限するものではない。
【0025】
図2は、本開示の実施例に係るオリジナルオーディオデータを分解する方法のフローチャートを概略的に示す。
【0026】
図2に示すように、オリジナルオーディオデータを分解する方法210は以下のことを含む。
【0027】
操作S211において、オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定する。
【0028】
次に、操作S212において、ニューラルネットワークを用いてオリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定する。
【0029】
本開示の実施例によれば、背景メルスペクトルデータは、オリジナルメルスペクトルデータにおける背景音声情報を含むことができ、人声メルスペクトルデータは、オリジナルメルスペクトルデータにおける人声情報を含むことができる。
【0030】
操作S213において、背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、人声メルスペクトルデータに基づいて、人声オーディオデータを生成する。
【0031】
本開示の実施例によれば、Griffin-Limアルゴリズムなどのアルゴリズムにより背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、かつ人声メルスペクトルデータに基づいて、人声オーディオデータを生成することができる。
【0032】
本開示の実施例によれば、人声データの基本周波数を量子化することにより人声オーディオデータに対する電気音響化処理を実現することができる。例えば、人声データの基本周波数、スペクトルエンベロープ及び非周期パラメータを決定することができる。ここで、基本周波数は、発音時の声帯の振動周波数を示し、オーディオに具現化されたらトーンの高さである。次に、基本周波数を量子化し、量子化された基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、人声データを再合成することにより、人声オーディオデータに対する電気音響化処理を実現する。ここで、この再合成された人声データは、電気音響人声データであり、電気音効果を有する人声情報を含む。
【0033】
以下、
図3を参照し、具体的な実施例を組み合わせて、上記した人声オーディオデータに対する電気音響化処理の方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は、本開示を理解するために用いられ、本開示はこれに限定されるものではない。
【0034】
図3は、本開示の実施例に係る人声オーディオデータに対して電気音響化処理を行う方法のフローチャートを概略的に示す。
【0035】
図3に示すように、この人声オーディオデータに対して電気音響化処理を行う方法320は、以下のことを含むことができる。
【0036】
操作S321において、人声オーディオデータのオリジナルの基本周波数を抽出する。
【0037】
本開示の実施例によれば、例えばDIO、Harvest等のアルゴリズムに基づいて人声オーディオデータからオリジナルの基本周波数を抽出することができる。
【0038】
操作S322において、オリジナルの基本周波数を補正し、第一基本周波数を取得する。
【0039】
本開示の実施例によれば、基本周波数を補正することにより、電気音響効果を向上させることができる。例えば、本実施例において、人声オーディオデータを複数のオーディオセグメントに分けることができる。次に、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのエネルギー及びゼロクロスレートを決定する。エネルギー及びゼロクロスレートに基づいて、オーディオセグメントが濁音オーディオセグメントであるか否かを決定する。次に線形補間アルゴリズムを利用して、濁音オーディオセグメントの基本周波数を補正する。
【0040】
本開示の実施例によれば、予め定められた単位長さで人声オーディオデータを複数のオーディオセグメントに分け、各オーディオセグメントの長さは、一つの予め定められた単位長さである。ここで、予め定められた単位長さは、実際の需要に応じて設定することができる。例示的に、本実施例において、予め定められた単位長さは、10ms~40msのうちのいずれかの値であってもよい。
【0041】
本開示の実施例によれば、各オーディオセグメントに複数のサンプリングポイントが設置される。オーディオセグメントにおける各サンプリングポイントの数値に基づいて、オーディオセグメントのエネルギーを決定することができる。例えば、以下の式に基づいてオーディオセグメントのエネルギーを計算することができる。
【0042】
【数1】
ここで、x
iはi番目のサンプリングポイントの数値を示し、nはサンプリングポイントの数である。
【0043】
本開示の実施例によれば、サンプリングポイントの数nは、オーディオセグメントの長さ及びサンプリングレートに基づいて決定することができる。予め定められた単位長さが10msであることを例として、以下の式に基づいてサンプリングポイントの数nを計算することができる:
【数2】
ここで、srは、オーディオのサンプリングレートを表す。
【0044】
本開示の実施例によれば、オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値が互いに符号逆であるか否かを決定することができる。次にオーディオセグメントの隣接するサンプリングポイントが符号逆である回数が全てのサンプリングポイントの数を占める比率をゼロクロスレートとして決定する。
【0045】
本開示の実施例によれば、以下の式に基づいてオーディオセグメントのゼロクロスレートを計算することができる。
【数3】
ここで、ZCRは、オーディオセグメントのゼロクロスレートであり、nは、オーディオセグメントにおけるサンプリングポイントの数であり、x
iは、オーディオセグメントにおけるi番目のサンプルポイントの数値を表し、x
i-1 は、オーディオセグメントにおけるi-1番目のサンプリングポイントの数値を表す。
【0046】
本開示の実施例によれば、サンプリングポイントの数nはオーディオセグメントの長さ及びサンプリングレートに基づいて決定することができる。予め定められた単位長さが10msであることを例として、以下の式に基づいてサンプリングポイントの数nを計算することができる:
【数4】
ここで、srはオーディオのサンプリングレートを表す。
【0047】
人体が発音する時に、清音の発声に対して、声帯が振動しないため、対応する基本周波数は0である。濁音の発声に対して、声帯が振動するため、対応する基本周波数は0ではない。これに基づいて、本実施例において、上記特性を利用して基本周波数を補正することができる。
【0048】
例えば、各オーディオセグメントに対して、該オーディオセグメントのエネルギーEが閾値e_minよりも小さく、かつ該オーディオセグメントのゼロクロスレートZCRが閾値zcr_maxより大きい場合、該オーディオセグメントは、清音オーディオセグメントであり、その基本周波数は0である。そうでなければ、該オーディオセグメントは、濁音オーディオセグメントであり、その基本周波数は0ではない。ここで、e_minとzcr_maxは実際の需要に応じて設定することができる。
【0049】
各清音オーディオセグメントに対して、該オーディオセグメントの基本周波数を0に設定することができる。濁音オーディオセグメントに対して、DIO、Harvest等のアルゴリズムに基づいて各濁音オーディオセグメントの基本周波数を抽出し、次に各濁音オーディオセグメントの基本周波数値が0であるか否かを一つずつ検出することができる。基本周波数値が0である濁音オーディオセグメントに対して、線形補間アルゴリズムに基づいて、該濁音オーディオセグメントの近傍の濁音オーディオセグメント値に基づいて線形補間を行うことにより、0ではない基本周波数値を該濁音オーディオセグメントの基本周波数値として取得することができる。
【0050】
例えば、濁音オーディオセグメントは6つあり、基本周波数値は、それぞれ、100、100、0、0、160、100である。すなわち3番目と4番目の濁音オーディオセグメントの基本周波数値は0である。したがって、3番目及び4番目の濁音オーディオセグメントの基本周波数値の近傍のゼロではない基本周波数値に基づいて線形補間を行うことができ、すなわち2番目の基本周波数値100及び5番目の基本周波数値160に基づいて、線形補間を行い、3番目及び4番目の濁音オーディオセグメントの基本周波数値が120及び140であることを得る。すなわち、補正後の6つの基本周波数値は、100、100、120、140、160、100である。
【0051】
次に、操作S323において、予め定められた電気音響パラメータに基づいて、第一基本周波数を調整し、第二基本周波数を取得する。
【0052】
本開示の実施例によれば、予め定められた電気音響パラメータは、例えば電気音響程度パラメータ及び/又は電気音響トーンパラメータを含むことができる。ここで、電気音響程度パラメータは、電気音響の程度を制御するために用いられてもよい。電気音響トーンパラメータは、トーンを制御するために用いられてもよい。例示的に、本実施例において、電気音響程度パラメータは例えば1、1.2、1.4を含むことができ、電気音響程度パラメータが大きいほど電気音効果が顕著となる。電気音響トーンパラメータは、例えば、-3、-2、-1、+1、+2、+3を含んでもよい。ここで、-1、-2、-3はそれぞれトーンを1つ、2つ、3つ低下することを示し、+1、+2、+3はそれぞれトーンを1つ、2つ、3つ向上することを示す。
【0053】
関連技術において、電気音響効果は、パラメータを調整することができず、効果が単一である。本開示の実施例によれば、電気音響の特性に基づいて、電気音響程度パラメータ及び電気音響トーンパラメータという二つのパラメータを設定し、電気音響効果を制御するために用いられ、異なるユーザのニーズを満たすことができる。
【0054】
本開示の実施例によれば、全ての濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定することができる。電気音響程度パラメータ及び基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、電気音響程度パラメータ及び基本周波数平均値に基づいて、補正基本周波数平均値を決定する。次に補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、第一基本周波数を調整し、第二基本周波数を得る。
【0055】
例示的に、本実施例において、全ての濁音オーディオセグメントの基本周波数の分散を計算することができ、基本周波数分散として、全ての濁音オーディオセグメントの基本周波数の平均値を計算し、基本周波数平均値とする。
【0056】
次に、以下の式に基づいて補正基本周波数分散を計算することができる:
【数5】
ここで、new_varは、補正基本周波数分散であり、varは、基本周波数分散であり、aは、電気音響程度パラメータである。
【0057】
以下の式に基づいて補正基本周波数平均値を計算することができる:
【数6】
ここで、new_meanは、補正基本周波数平均値であり、meanは、基本周波数平均値であり、bは電気音響トーンパラメータである。
【0058】
次に、以下の式に基づいて第二基本周波数を計算することができる:
【数7】
ここで、F0’ は、第二基本周波数である。
【0059】
操作S324において、第二基本周波数に対して量子化処理を行い、第三基本周波数を取得する。
【0060】
自然なオーディオにおいて、音声トーンは抑揚であり、徐々に変化しており、電気音響は、トーンを特定の音階に量子化し、トーンが不連続的に変化し、電子楽器から送信されたトーンに類似する。これに基づいて、本開示の実施例によれば、ピアノの各キー頻度を目標周波数として人声データの基本周波数を量子化することができる。
【0061】
例示的に、本実施例において、以下の式に基づいて周波数範囲を決定することができる:
【数8】
ここで、 scaleは、周波数範囲であり、F0´は、第二基本周波数である。
【0062】
次に、周波数範囲に基づいて、以下の式に基づいて第三基本周波数を決定することができる:
【数9】
ここで、F0’’ は、第三基本周波数である。
【0063】
操作S325において、第三基本周波数に基づいて、電気音響人声データを決定する。
【0064】
本開示の実施例によれば、人声オーディオデータ及び第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定することができる。次に第三基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、電気音響人声データを決定することができる。
【0065】
以下に
図4を参照し、具体的な実施例を組み合わせて、上記したオーディオデータ処理方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は本開示を理解するために用いられ、本開示はこれに限定されるものではない。
【0066】
図4は、本開示の他の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。
【0067】
図4に示すように、このオーディオデータ処理方法400は、以下のことを含む。操作S401において、オーディオデータ(オーディオと略称する)に伴奏音楽(伴奏と略称する)が含まれるか否かを判断する。伴奏を含む場合、操作S402を実行する。人声のみを含み伴奏を含まない場合、操作S403を実行する。
【0068】
操作S402において、音源分離アルゴリズムを利用して人声と伴奏を分離する。そして、分離して得られる人声について操作S403を実行する。
【0069】
操作S403において、人声に対してゼロクロース率、基本周波数f0及びエネルギーを抽出する。
【0070】
操作S404において、ゼロクロスレートとエネルギーに基づいて基本周波数を補正してF0を取得する。
【0071】
操作S405において、人声と補正された基本周波数F0を利用してスペクトルエンベロープSP及び非周期パラメータAPを計算する。
【0072】
操作S406において、ユーザの設定された電気音響程度パラメータa及び電気音響トーンパラメータbに基づいて、基本周波数を調整してF0’を取得する。
【0073】
操作S407において、基本周波数F0’を量子化してF0’’を取得する。
【0074】
操作S408において、基本周波数F0’’、スペクトルエンベロープSP及び非周期パラメータAPを用いて電気音効果付きの人声を共に合成する。
【0075】
操作S409において、オーディオが伴奏を有する場合、操作S410を実行する。そうでなければ、操作S411を実行する。
【0076】
操作S410において、伴奏も人声に合わせ、最終的な電気音響効果付きのオーディオを生成する。
【0077】
操作S411において、電気音響効果付きのオーディオを出力する。
【0078】
本開示の実施例に係るオーディオデータ処理方法によれば、オーディオデータに電気音響効果を柔軟かつ効率的に増加し、ユーザの娯楽の興趣性を向上させることができる。
【0079】
図5は、本発明の実施例に係るオーディオデータ処理装置のブロック図を概略的に示す。
【0080】
図5に示すように、このオーディオデータ処理装置500は、分解モジュール510、電気音響処理モジュール520及び合成モジュール530を含む。
【0081】
分解モジュール510は、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを得るために用いられる。
【0082】
電気音響処理モジュール520は、人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを得るために用いられる。
【0083】
合成モジュール530は、電気音響人声データと背景オーディオデータを合成し、目標オーディオデータを得るために用いられる。
【0084】
本開示の実施例によれば、分解モジュールは、メルスペクトル決定サブモジュール、分解サブモジュール及び生成サブモジュールを含むことができる。ここで、メルスペクトル決定サブモジュールは、オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定するために用いられる。分解サブモジュールは、ニューラルネットワークを用いてオリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定するために用いられる。生成サブモジュールは、背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、かつ人声メルスペクトルデータに基づいて、人声オーディオデータを生成するために用いられる。
【0085】
本開示の実施例によれば、電気音響処理モジュールは、抽出サブモジュール、補正サブモジュール、調整サブモジュール、量子化サブモジュール及び電気音響決定サブモジュールを含むことができる。ここで、抽出サブモジュールは、人声オーディオデータのオリジナル基本周波数を抽出するために用いられる。補正サブモジュールは、オリジナル基本周波数を補正し、第一基本周波数を得るために用いられる。調整サブモジュールは、予め定められた電気音響パラメータに基づいて、第一基本周波数を調整し、第二基本周波数を得るために用いられる。量子化サブモジュールは、第二基本周波数に対して量子化処理を行い、第三基本周波数を得るために用いられる。電気音響決定サブモジュールは、第三基本周波数に基づいて、電気音響人声データを決定するために用いられる。
【0086】
本開示の実施例によれば、補正サブモジュールは、セグメント化ユニット、エネルギー決定ユニット、ゼロクロスレート決定ユニット、濁音判断ユニット及び補正ユニットを含むことができる。ここで、セグメント化ユニットは、人声オーディオデータを複数のオーディオセグメントに分けるために用いられる。エネルギー決定ユニットは、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのエネルギーを決定するために用いられる。ゼロクロスレート決定ユニットは、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのゼロクロスレートを決定するために用いられる。濁音判断ユニットは、エネルギー及びゼロクロスレートに基づいて、オーディオセグメントのタイプが濁音オーディオセグメントであるか否かを決定するために用いられる。補正ユニットは、線形補間アルゴリズムを用いて、濁音オーディオセグメントの基本周波数を補正するために用いられる。
【0087】
本開示の実施例によれば、オーディオセグメントに複数のサンプリングポイントが設置される。エネルギー決定ユニットは、さらに、オーディオセグメントにおける各サンプリングポイントの数値に基づいて、オーディオセグメントのエネルギーを決定するために用いられる。
【0088】
本開示の実施例によれば、ゼロクロスレート決定ユニットは、さらに、オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値が互いに符号逆であるか否かを決定するために用いられ、次にオーディオセグメントにおける隣接するサンプリングポイントが符号逆である回数が全てのサンプリングポイントの数を占める比率をゼロクロスレートとして決定する。
【0089】
本開示の実施例によれば、予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含むことができる。調整サブモジュールは、第一決定ユニット、第二決定ユニット及び調整ユニットを含むことができる。ここで、第一決定ユニットは、濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定するために用いられる。第二決定ユニットは、電気音響程度パラメータ及び基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、電気音響程度パラメータ及び基本周波数平均値に基づいて、補正基本周波数平均値を決定するために用いられる。調整ユニットは、補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、第一基本周波数を調整し、第二基本周波数を得るために用いられる。
【0090】
本開示の実施例によれば、量子化サブモジュールは、周波数範囲決定ユニット及び第三基本周波数決定ユニットを含むことができる。
【0091】
ここで、周波数範囲決定ユニットは、以下の式に基づいて周波数範囲を決定するために用いられる:
【数10】
ここで、scale は、周波数範囲であり、F0’ は、第二基本周波数である。
【0092】
第三基本周波数決定ユニットは、周波数範囲に基づいて、以下の式に基づいて第三基本周波数を決定するために用いられる:
【数11】
ここで、F0’’ は、第三基本周波数である。
【0093】
本開示の実施例によれば、上記オーディオデータ処理装置は、さらに決定モジュールを含むことができ、人声オーディオデータ及び第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定するために用いられる。
【0094】
本開示の実施例によれば、電気音決定サブモジュールは、さらに、第三基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、電気音響人声データを決定するために用いられる。
【0095】
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
【0096】
図6は、本開示の実施例を実施することが可能な電子機器600の一例を示す概略ブロック図である。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器はさらに様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0097】
図6に示すように、機器600は計算ユニット601を含み、それはリードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 603には、さらに機器600の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット601、ROM 602、およびRAM 603は、バス604を介して相互に接続されている。バス604には、入出力インタフェース605も接続されている。
【0098】
機器600における複数の部品は、I/Oインタフェース605に接続され、例えばキーボード、マウス等の入力ユニット606と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット607と、例えば磁気ディスク、光ディスク等の記憶ユニット608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット609とを含む。通信ユニット609は、機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
【0099】
計算ユニット601は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット601の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット601は、例えばオーディオデータ処理方法のような上記記載された各方法と処理を実行する。例えば、いくつかの実施例において、オーディオデータ処理方法は、例えば記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算ユニット601により実行される場合、上記記載されたオーディオデータ処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット601は、他の任意の適切な方式(例えば、ファームウェアを介する)によりオーディオデータ処理方法を実行するように構成されてもよい。
【0100】
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0101】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0102】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
【0103】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0104】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0105】
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、分布システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
【0106】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
【0107】
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。