(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-25
(45)【発行日】2024-07-03
(54)【発明の名称】オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品
(51)【国際特許分類】
G10K 15/04 20060101AFI20240626BHJP
G10L 25/51 20130101ALI20240626BHJP
G10L 21/0272 20130101ALI20240626BHJP
G10L 25/24 20130101ALI20240626BHJP
G10L 15/10 20060101ALI20240626BHJP
G10L 15/14 20060101ALI20240626BHJP
G10L 15/16 20060101ALI20240626BHJP
G10L 15/12 20060101ALI20240626BHJP
G10L 21/0208 20130101ALI20240626BHJP
G10L 21/01 20130101ALI20240626BHJP
【FI】
G10K15/04 302D
G10L25/51 300
G10L21/0272 100Z
G10L25/24
G10L15/10 200Z
G10L15/14 200Z
G10L15/16
G10L15/12 Z
G10L21/0208 100Z
G10L21/01
(21)【出願番号】P 2023500097
(86)(22)【出願日】2022-07-27
(86)【国際出願番号】 CN2022108363
(87)【国際公開番号】W WO2023142413
(87)【国際公開日】2023-08-03
【審査請求日】2023-01-04
(31)【優先権主張番号】202210106767.7
(32)【優先日】2022-01-28
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】ワン,イーペン
【審査官】大野 弘
(56)【参考文献】
【文献】特開2001-117582(JP,A)
【文献】特開2000-075868(JP,A)
【文献】特開2009-260449(JP,A)
【文献】特開平08-069296(JP,A)
【文献】米国特許出願公開第2021/0335333(US,A1)
【文献】中国特許出願公開第112259089(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/01
G10L 25/51
G10L 21/0272
G10L 25/24
G10L 15/10
G10L 15/14
G10L 15/16
G10L 15/12
G10L 21/0208
(57)【特許請求の範囲】
【請求項1】
コンピュータで実行される、オーディオデータの処理方法であって、
コンピュータが、調整対象の音声オーディオデータを取得することと、
コンピュータが、参照音声オーディオデータを取得し、ここで、前記参照音声オーディオデータと前記調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、
コンピュータが、それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータに対するフレーム分割を行うことにより、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得することと、
コンピュータが、前記第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別することと、
コンピュータが、前記それぞれのオーディオフレームのタイムスタンプに基づき、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することと、
コンピュータが、前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させることと、を含
み、
前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することは、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、2つの文字の間の空白領域のタイムスタンプを確定することと、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することと、を含み、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することは、
調整対象の発音単位と空白領域の変速比例を確定することであって、前記変速比例が、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定されることと、
前記変速比例に基づいて前記調整対象の発音単位と空白領域のタイムスタンプを調整することにより、前記調整対象の発音単位と空白領域のタイムスタンプを前記参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させることと、を含む、オーディオデータの処理方法。
【請求項2】
前記発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む、請求項1に記載の方法。
【請求項3】
前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することは、
前記第1のオーディオフレームセットに対応する第1のオーディオ特徴及び前記第2のオーディオフレームセットに対応する第2のオーディオ特徴を取得することと、
前記第1のオーディオ特徴と前記第2のオーディオ特徴に基づき、前記第1のオーディオフレームセットと前記第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得することと、
前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定することと、
前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定することと、を含む、請求項1に記載の方法。
【請求項4】
調整対象の音声オーディオデータを取得することは、
端末デバイスによって収集した元の音声オーディオデータを取得することと、
前記元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得することと、を含み、
ここで、前記前処理は、騒音低減、残響除去、のうちの少なくとも一つを含む、請求項1に記載の方法。
【請求項5】
参照音声オーディオデータを取得することは、
前記調整対象の音声オーディオデータに対応する参照オーディオデータを取得することと、
前記参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することと、を含む、請求項1に記載の方法。
【請求項6】
トレーニングされた音声分離モデルに基づいて前記参照オーディオデータに対する音声分離を行い、ここで、
前記音声分離モデルは、プリセットサンプルデータとspleeterアルゴリズムに基づいて転移学習を行うようにトレーニングすることによって取得し、前記プリセットサンプルデータは、複数の伴奏オーディオデータ、複数の音声オーディオデータ、及び前記複数の伴奏オーディオデータと前記複数の音声オーディオデータに基づいて構成される複数のハイブリッドオーディオデータ、を含む、請求項5に記載の方法。
【請求項7】
前記第1のオーディオ特徴と前記第2のオーディオ特徴のうちの少なくとも一つは、メルケプストラム係数特徴と基本周波数特徴、を含む、請求項3に記載の方法。
【請求項8】
トレーニングされた、ガウス混合モデルと隠れマルコフモデルを含むモデルに基づいて前記それぞれのオーディオフレームに対応する発音単位を識別する、請求項1に記載の方法。
【請求項9】
トレーニングされた、ディープニューラルネットワークと隠れマルコフモデルを含むモデルに基づき、識別されたそれぞれの前記発音単位のタイムスタンプを確定する、請求項1に記載の方法。
【請求項10】
DTWアルゴリズム、FastDTWアルゴリズム、のうちの少なくとも一つに基づいて前記第1のオーディオフレームセットと前記第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する、請求項3に記載の方法。
【請求項11】
オーディオデータ処理装置であって、
調整対象の音声オーディオデータを取得するために用いられるように構成される第1のユニットと、
参照音声オーディオデータを取得するために用いられるように構成される第2のユニットであって、ここで、前記参照音声オーディオデータと前記調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されるものと、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータに対するフレーム分割を行うことで、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第3のユニットと、
前記第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第4のユニットと、
前記それぞれのオーディオフレームのタイムスタンプに基づき、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第5のユニットと、
前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第6のユニットと、を含
み、
前記第6のユニットは、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、2つの文字の間の空白領域のタイムスタンプを確定するためのユニットと、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整するためのユニットと、を含み、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整するためのユニットは、
調整対象の発音単位と空白領域の変速比例を確定するためのユニットであって、前記変速比例が、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定されるユニットと、
前記変速比例に基づいて前記調整対象の発音単位と空白領域のタイムスタンプを調整することにより、前記調整対象の発音単位と空白領域のタイムスタンプを前記参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させるためのユニットと、を含む、オーディオデータ処理装置。
【請求項12】
前記発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む、請求項
11に記載の装置。
【請求項13】
前記第5のユニットは、
前記第1のオーディオフレームセットに対応する第1のオーディオ特徴及び前記第2のオーディオフレームセットに対応する第2のオーディオ特徴を取得するためのユニットと、
前記第1のオーディオ特徴と前記第2のオーディオ特徴に基づき、前記第1のオーディオフレームセットと前記第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得するためのユニットと、
前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定するためのユニットと、
前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定するためのユニットと、を含む、請求項
11に記載の装置。
【請求項14】
前記第1のユニットは、
端末デバイスによって収集した元の音声オーディオデータを取得するためのユニットと、
前記元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得するためのユニットと、を含み、
ここで、前記前処理は、騒音低減、残響除去、のうちの少なくとも一つを含む、請求項
11に記載の装置。
【請求項15】
前記第2のユニットは、
前記調整対象の音声オーディオデータに対応する参照オーディオデータを取得するためのユニットと、
前記参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得するためのユニットと、を含む、請求項
11に記載の装置。
【請求項16】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~
10のいずれか一項に記載の方法を実行させることができる、電子機器。
【請求項17】
コンピュータに請求項1~
10のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
【請求項18】
プロセッサによって実行されると、請求項1~
10のいずれか一項に記載の方法を実現するコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特にオーディオ処理技術分野に関し、具体的には、オーディオデータの処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
【0003】
移動型インターネットによるカラオケアプリケーションの発展に伴い、ユーザは、カラオケのエクスペリエンスに対する要求が益々高くなる。ユーザは、カラオケを楽しむ過程に、時々は音楽のリズムを正確に把握することができないため、「速く歌ってしまう」又は「遅く歌ってしまう」などの問題を引き起こしやすく、カラオケ効果に大きな影響を与える。
【発明の概要】
【0004】
本開示は、音声データの処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、調整対象の音声オーディオデータを取得することと、参照音声オーディオデータを取得し、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことにより、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得することと、第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別することと、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することと、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させることと、を含むオーディオデータの処理方法を提供する。
【0005】
本開示の別の態様によれば、調整対象の音声オーディオデータを取得するために用いられるように構成される第1のユニットと、参照音声オーディオデータを取得するために用いられるように構成される第2のユニットであって、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されるものと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことで、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第3のユニットと、第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第4のユニットと、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第5のユニットと、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第6のユニットと、を含むオーディオデータ処理装置を提供する。
【0006】
本開示の別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、メモリには、少なくとも一つのプロセッサによって実行可能な命令が記憶されており、該命令は少なくとも一つのプロセッサによって実行されることにより、少なくとも一つのプロセッサに上記オーディオデータの処理方法を実行させることができる電子機器を提供する。
【0007】
本開示の別の態様によれば、コンピュータに上記オーディオデータの処理方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0008】
本開示の別の態様によれば、プロセッサによって実行されると、上記オーディオデータの処理方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0009】
本開示の一つ又は複数の実施例によれば、音声オーディオデータにおける各発音単位を識別することにより、発音単位のタイムスタンプに基づいて変速を行うことによって、補正されたオーディオデータを取得する。そのような方式により、オーディオのリズムの補正効果を向上させ、製品機能を豊富にし、ユーザ体験を向上させる。
【0010】
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
【
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。
【
図2】本開示の実施例によるオーディオデータの処理方法を示すフローチャートである。
【
図3】本開示の実施例による
図2の方法における調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する方法を示すフローチャートである。
【
図4】本開示の実施例によるオーディオデータ処理装置を示す構成ブロック図である。
【
図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
【発明を実施するための形態】
【0012】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0013】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0014】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。
【0015】
以下、図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例による、本明細書に記載の様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。
図1を参照すると、このシステム100は、一つ又は複数のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ又は複数のクライアントデバイスをサーバ120に結合する一つ又は複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ又は複数のアプリケーションを実行するように構成されることが可能である。
【0016】
本開示の実施例では、サーバ120は、オーディオデータ処理の方法の一つ又は複数を実行するサービス又はソフトウェアアプリケーションを実行できる。
いくつかの実施例では、サーバ120は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0017】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する一つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、一つ又は複数のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ又は複数のクライアントアプリケーションを用いてサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、
図1は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0018】
ユーザは、クライアントデバイス101、102、103、104、105及び/又は106を用いて音声オーディオデータを受信し、補正された音声オーディオデータを出力することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りをするインターフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。
図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0019】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0020】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、WIFI)、及び/又はこれらとその他のネットワークの任意の組み合わせであってもよい。
【0021】
サーバ120は、一つ又は複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの一つ又は複数のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する一つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
【0022】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ又は複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
【0023】
いくつかの実施形態では、サーバ120は、クライアントデバイス101、102、103、104、105及び106のユーザから受信したデータフィード及び/又はイベントの更新を分析し統合するための一つ又は複数のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び106の一つ又は複数のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ又は複数のアプリケーションを含んでもよい。
【0024】
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難易度が大きく、業務拡張性が弱いという欠陥を解決する。
【0025】
システム100は、一つ又は複数のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ又は複数は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0026】
いくつかの実施例では、データベース130のうちの一つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0027】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0028】
ユーザは、カラオケを楽しむ過程に、時々は音楽のリズムを正確に把握できないため、例えば、ある文字を長く歌うべきであるが、ユーザは早く終わってしまい、ある文字を短く歌うべきであるが、ユーザは伸ばして歌ってしまうなどの問題を引き起こしやすく、カラオケ効果に大きな影響を与え、聴覚的にリズムが乱れ、美感に影響を与える。そのため、微細化されたカラオケリズム補正アルゴリズムが強く求められ、ユーザがカラオケを楽しむ過程にリズムが一致しない問題を補正し、ユーザのカラオケ満足度を向上させる。
【0029】
本開示の一態様によれば、オーディオデータの処理方法を提供する。
図2は、本開示の実施例によるオーディオデータの処理方法200を示す。該方法200は、
図1におけるいずれかのクライアントデバイス101、102、103、104、105と106に応用することができる。
【0030】
本開示の実施例によれば、音声オーディオデータにおける各発音単位を識別することにより、発音単位のタイムスタンプに基づいて変速を行うことによって、補正されたオーディオデータを取得する。そのような方式により、オーディオのリズムの補正効果を向上させ、製品機能を豊富にし、ユーザ体験を向上させる。
【0031】
図2に示すように、方法200は、下記のステップを含んでもよい。
ステップ201において、調整対象の音声オーディオデータを取得する。
いくつかの実施例によれば、端末デバイスによって収集した元の音声オーディオデータを取得することができ、
いくつかの例において、端末デバイスはアンプ、スピーカー、マルチメディアコンソール、デジタルミキサ、オーディオサンプルカード、合成器、中高周波数スピーカーとマイクなどを含んでもよい。これらの端末デバイスで構成される音声収集システムによって収集を行い、元の音声オーディオデータを取得する。カラオケで歌う場合では、該元の音声オーディオデータは端末デバイス(例えば、マイクロフォン)により収集した音声オーディオデータ(すなわち、伴奏オーディオデータを含まない)である。
【0032】
実際に、オーディオ収集を行う時、音声収集システムによって収集したものは、一般的に環境雑音と音声オーディオデータを含む元の音声オーディオデータである。更に良い音声オーディオデータを取得するために、得られた元の音声オーディオデータに対する前処理を行う必要がある。
【0033】
そのため、いくつかの実施例によれば、元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得し、該前処理は、騒音低減、残響除去などを含んでもよいが、これらに限定されない。
【0034】
実際に、騒音低減は、背景環境の雑音を低減させることを目的としている。残響低減は、主に音波の必要がない反射により、他のオーディオ信号に影響を与えることを減少させる。一例において、ユーザが発話する時、毎秒間約2又は3つのワードを発話する。仮に2つの単一文字
【0035】
【0036】
を発話する場合、残響時間は3秒であると仮定すると、
【0037】
【0038】
という文字の音声を発した後、音響強度が徐々に弱くなるが、更に一定の期間(3秒)に持続することがある。「好」(ハオ)という文字の音声を発する時刻、
【0039】
【0040】
という文字の音響強度がまだ十分に強い。そのため、2つの単一文字の音声が混在し、オーディオ間の相互干渉を引き起こす。そのため、前処理により、更に明瞭な音声オーディオデータを取得することができ、よって、後続の操作を容易にする。例えば、いくつかの実施例では、後続オーディオ特徴を抽出する過程の正確度を向上させることができ、該過程は下記内容において詳細に説明する。
【0041】
調整対象の音声オーディオデータを補正するために、更に参照音声オーディオデータを取得する必要がある。
ステップ202において、参照音声オーディオデータを取得し、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得される。
【0042】
例示的に、参照音声オーディオデータと調整対象の音声オーディオデータは同じ文章に対する異なる読上げオーディオデータであってもよい。カラオケで歌う場合では、該参照音声オーディオデータは標準原曲の音声オーディオデータであってもよい。
【0043】
いくつかの実施例によれば、調整対象の音声オーディオデータに対応する参照オーディオデータを取得することにより、該参照オーディオデータに基づいて参照音声オーディオデータを取得する。
【0044】
一例において、データベースにおける調整対象の音声オーディオデータに対応する参照オーディオデータを呼び出すことができる。代替的又付加的に、ユーザは、データベースにおける調整対象の音声オーディオデータに対応する参照オーディオデータを指定してもよい。
【0045】
参照オーディオデータは一般的に複数のトラックのデータを組み合わせることにより生成される。例えば、カラオケで歌う場合では、オーディオデータは音声オーディオデータと伴奏オーディオデータを組み合わせることにより生成されることができる。
【0046】
そのため、いくつかの実施例によれば、参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することができる。
【0047】
いくつかの例において、spleeterアルゴリズムによって参照オーディオデータにおける音声オーディオデータは伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することができる。
【0048】
いくつかの実施例によれば、トレーニングされた音声分離モデルに基づいて参照オーディオデータに対する音声分離を行ってもよく、該音声分離モデルは、プリセットサンプルデータとspleeterアルゴリズムに基づいて転移学習を行うようにトレーニングすることによって取得することができる。プリセットサンプルデータは、複数の伴奏オーディオデータ、複数の音声オーディオデータ、及び複数の伴奏オーディオデータと複数の音声オーディオデータに基づいて構成される複数のハイブリッドオーディオデータ、を含む。プリセットサンプルデータに基づいてspleeterアルゴリズムに対する転移学習を行うことにより、更に現在シーンに適用される音声分離モデルを取得することができるのみならず、また従来のアルゴリズムを利用してモデルトレーニングの効率を向上させることができる。
【0049】
一例において、プリセットサンプルデータとspleeterアルゴリズムによってトレーニングして2個の語幹モデル(2stems)を取得することができる。該モデルは、主に音声オーディオデータと伴奏オーディオデータを分離する。
【0050】
ステップ203において、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことにより、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得する。
【0051】
本開示において、いかなる適切な方法を利用してオーディオフレームを取得することができる。例えば、まずオーディオデータに対するプリエンファシスを行ってから、フレーム分割を行い、フレーム分割した後で窓関数をかける。
【0052】
いくつかの例において、フレーム分割において、時々は隣接する2つのフレームの間に一部の重ね合わせが設置されている。隣接する2つのフレームの間に基音が変化し、例えば、ちょうど2つの音節の間又はちょうど声母から韻母への遷移などであり、この時、その特徴パラメータが大きく変化する可能性ある。しかし、特徴パラメータを滑らかに変化させるために、2つの重ね合わせないフレームの間にいくつかのフレームを挿入して特徴パラメータを抽出すると、隣接するフレームの間に重ね合わせ部分を有するようになる。
【0053】
ステップ204において、第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別する。
【0054】
いくつかの実施例によれば、発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む。
一例において、調整対象の音声オーディオデータにが中国語オーディオデータであることに対し、該発音単位は声母と韻母であってもよい。
【0055】
代替的又付加的に、調整対象の音声オーディオデータが英語オーディオであることに対し、該発音単位は音素であってもよい。
理解すべきことは、調整対象の音声オーディオデータが中国語と英語の混合オーディオである場合に対して、該発音単位は声母、韻母及び音素であることである。
【0056】
カラオケで歌う場合に基づく一例において、1文の歌詞には文字「我們」が存在する。例示的に、「我」という文字には声母「W」と韻母「O」を含むと識別することができる。カラオケで歌う人は「我」という文字を発音する時、「W-O」である。歌の音律又は歌唱習慣の違いにより、人によっては同じ文字における異なる発音単位に対する発音の重点又は発音の持続時間が異なる。
【0057】
そのため、それぞれのオーディオフレームに対応する発音単位を識別することにより、各文字の各発音単位を識別することができる。よって、後続の操作において各文字の各発音単位のタイムスタンプを調節し、各文字を全体としてタイムスタンプを調節するわけではない。各文字を全体としてタイムスタンプを調節し、該文字における各発音単位の等比例のスケーリングを引き起こし、効果としてはそれに対する早送り又はスロー再生を行い、これはそもそも歌唱の発音習慣に適合しない。各文字の各発音単位のタイムスタンプを調節することにより、原曲の音律又は原曲の歌唱習慣をより良く復元することができる。
【0058】
いくつかの実施例によれば、トレーニングされた、ガウス混合モデル(GMM)と隠れマルコフモデル(HMM)を含むモデルに基づいてそれぞれのオーディオフレームに対応する発音単位を識別することができる。
【0059】
一例において、調整対象の音声オーディオデータは中国語オーディオであり、純粋な中国語の音声データを収集し、モデルのトレーニングセットを取得し、声母と韻母をユニットとしてモデル化を行う。まずmonophone(単一音)に対するGMM-HMMモデルをトレーニングし、その後、monophone(単一音)のGMM-HMMモデルのパラメータに基づいてtriphone(三音)に対するコンテキストに関連するGMM-HMMモデルを初期化させることにより、triphone(三音)に対するGMM-HMMモデルを更にトレーニングする。最後に、triphone(三音)に対するGMM-HMMモデルはそれぞれのオーディオフレームに対応する発音単位を識別するために用いられてよい。
【0060】
理解すべきことは、調整対象の音声オーディオデータが中国語と英語の混合オーディオである場合に対して、声母、韻母及び音素を単位としてモデル化を行ってもよく、よって、トレーニングされたモデルは中国語における発音単位を識別することができるのみならず英語における発音単位を識別することもできることである。
【0061】
ステップ205において、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する。
【0062】
本開示において、各発音単位のタイムスタンプは、該発音単位の開始時刻と終了時刻を含む時間帯であってもよい。
いくつかの実施例によれば、トレーニングされた、ディープニューラルネットワーク(DNN)と隠れマルコフモデル(HMM)を含むモデルに基づき、識別されたそれぞれの前記発音単位のタイムスタンプを確定することができる。
【0063】
一例において、上記のように、monophone(単一音)に対するGMM-HMMモデルに基づき、更にトレーニングしてtriphone(三音)に対するGMM-HMMモデルを取得した後、更にDNN-HMMを含む混合モデルをトレーニングすることができ、よって、triphone(三音)のGMM-HMMモデルから出力された各オーディオフレーム及びそれに対応する発音単位のラベルを該混合モデルの入力とすることにより、該混合モデルを介してそれぞれの発音単位に対応するタイムスタンプを確定する。
【0064】
一例において、更にトレーニングして得られたモデルに対するシーケンス区分的トレーニングを行うことにより、モデルの使用効果を更に向上させる。
もちろん理解すべきことは、他のいかなる適切な各発音単位のタイムスタンプを識別するための方法も可能であり、ここで制限しないことである。
【0065】
図3は、本開示の実施例による
図2の方法における調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する方法205を示すフローチャートである。方法205は、下記のステップを含んでもよい。
【0066】
ステップ301において、前記第1のオーディオフレームセットに対応する第1のオーディオ特徴及び前記第2のオーディオフレームセットに対応する第2のオーディオ特徴を取得する。すなわち、調整対象の音声オーディオデータにおけるそれぞれのオーディオフレームは対応する第1のオーディオ特徴を有し、参照音声オーディオデータにおけるそれぞれのオーディオフレームは対応する第2のオーディオ特徴を有する。
【0067】
いくつかの実施例によれば、第1のオーディオ特徴と前記第2のオーディオ特徴のうちの少なくとも一つは、メルケプストラム係数特徴と基本周波数特徴、を含む。
一例において、調整対象の音声オーディオデータと参照音声オーディオデータを取得した後、調整対象の音声オーディオデータと参照音声オーディオデータに対し、39次元のメルケプストラム係数特徴(MFCC)と1次元の基本周波数特徴をそれぞれ抽出することができる。更にMFCC特徴とF0特徴をそれぞれ正規化させた後、スティッチングを行い、40次元のオーディオ特徴を形成する。メルケプストラム係数特徴(MFCC)は、調整対象の音声オーディオデータと参照音声オーディオデータにおいて文字内容を示し、基本周波数特徴は、調整対象の音声オーディオデータと参照音声オーディオデータにおいて音調を示す。
【0068】
理解すべきことは、他の次元のオーディオ特徴も可能であり、特徴の次元が高くなるほど、効果はより良くなるかもしれないが、同時に次の計算量も更に大きくなることである。そのため、実際のニーズに応じて対応する特徴の次元を設計することができる。
【0069】
更に、理解すべきことは、他のいかなる適切なオーディオ特徴も可能であり、例えば、PLP(知覚線形予測)特徴、FBank(FilterBank)特徴など、ここで制限しないことである。
【0070】
いくつかの実施例では、取得された調整対象の音声オーディオデータと参照音声オーディオデータに対する特徴抽出を直接的に行うことができる。該特徴抽出過程に、調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割操作を行う。そのため、該特徴が抽出された後、それぞれ第1のオーディオフレームセットと第2のオーディオフレームセット(すなわち、ステップ203の操作)を取得することができる。
【0071】
ステップ302において、前記第1のオーディオ特徴と前記第2のオーディオ特徴に基づき、前記第1のオーディオフレームセットと前記第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。
【0072】
調整対象の音声オーディオデータに対応する第1のオーディオ特徴と参照音声オーディオデータに対応する第2のオーディオ特徴をそれぞれ取得した後、特徴の間の類似度によって、第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるオーディオフレームの間の対応関係を取得する。
【0073】
いくつかの実施例によれば、DTWアルゴリズム、FastDTWアルゴリズムのうちの少なくとも一つに基づいて前記第1のオーディオフレームセットと前記第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。
【0074】
一例において、動的時間規制(DTW)アラインメントアルゴリズムにより、時間軸で局所的なスケーリングを行うことによって、第1のオーディオフレームセットと第2のオーディオフレームセットの形態を可能な限り一致させ、第1のオーディオフレームセットと第2のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。
【0075】
他の例において、速度が更に速いFastDTWアルゴリズムを使用してもよく、第1のオーディオフレームセットと第2のオーディオフレームセットとにおける対応するオーディオフレームの間の対応関係を取得する。
【0076】
ステップ303において、前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定する。
いくつかの例において、前記のように、トレーニングされた、ディープニューラルネットワーク(DNN)と隠れマルコフモデル(HMM)を含むモデルに基づいて参照音声オーディオデータにおける各発音単位のタイムスタンプを確定することができる。
【0077】
もちろん理解すべきことは、他のいかなる適切な各発音単位のタイムスタンプを識別するための方法も可能であり、ここで制限しないことである。
ステップ304において、前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定する。
【0078】
上記例において、トレーニングされたモデルを介して参照音声オーディオデータにおけるそれぞれの発音単位に対応するタイムスタンプを識別した後、該タイムスタンプ及び上記取得された対応関係に基づき、調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定することができる。例えば、カラオケで歌う場合では、この手法により、調整対象のオーディオデータに文字漏れがあるなどの場合でも、該対応関係に基づき、調整対象のオーディオデータにおける対応する発音単位のタイムスタンプを確定してもよい。よって、識別された調整対象の音声オーディオデータにおける各発音単位のタイムスタンプの正確性を向上させることができる。
【0079】
ステップ206において、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させる。
【0080】
いくつかの実施例によれば、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することは、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、2つの文字の間の空白領域のタイムスタンプを確定することと、時系列によって順に調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することと、を含んでもよい。
【0081】
例示的に、カラオケで歌う場合では、該空白領域は2つの文の歌詞の間の時間帯領域、又は1文の歌詞の中の2つの文字の間のポーズ時間帯領域であってもよい。例示的に、歌の第1の文の歌詞の第1の文字の第1の発音単位のタイムスタンプは10s-11sであることを識別し、歌の第1の空白領域のタイムスタンプは0s-10sであることを確定してもよい。
【0082】
いくつかの実施例によれば、時系列によって順に調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整する。
いくつかの実施例によれば、調整対象の発音単位と空白領域の変速比例をそれぞれ確定し、ここで、前記変速比例は、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定される。
【0083】
引き続き上記の例を参照し、参照音声オーディオデータにおける第1の空白領域のタイムスタンプは0s-10sであり、第1の発音単位のタイムスタンプは10s-11sであることを確定する。また、調整対象の音声オーディオデータにおける第1の空白領域のタイムスタンプは0s-9sであり、第1の発音単位のタイムスタンプは9s-9.2sであることを確定する。そのため、調整対象の発音単位の時間の長さと調整対象の発音単位に対応する参照音声オーディオデータにおける発音単位の時間の長さの比に基づき、該調整対象の発音単位の変速比例を確定することができ、調整される空白領域の時間の長さと調整される空白領域に対応する参照音声オーディオデータにおける空白領域の時間の長さの比に基づき、該調整される空白領域の変速比例を確定することができる。
【0084】
いくつかの例において、式を参照し、変速比例はp=x/yである。ここで、xは調整対象の発音単位又は空白領域時間の長さであり、yは参照音声オーディオデータにおける発音単位又は空白領域の時間の長さである。
【0085】
いくつかの実施例によれば、変速比例に基づいて調整対象の発音単位と空白領域のタイムスタンプを調整することにより、調整対象の発音単位と空白領域のタイムスタンプを参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させる。
【0086】
引き続き上記実施例を参照し、引き続き上記の例を参照し、参照音声オーディオデータにおける第1の空白領域のタイムスタンプは0s-10sであり、第1の発音単位のタイムスタンプは10s-11sであることを確定する。また、調整対象の音声オーディオデータにおける第1の空白領域のタイムスタンプは0s-9sであり、第1の発音単位のタイムスタンプは9s-9.2sであることを確定する。第1の空白領域に対し、変速比例は9/10=0.9であるため、第1の空白領域時間の長さは9/0.9=10に調整するべきであり、すなわち、調整後の第1の空白領域時間の長さは10sであるべきであり、すなわち、0s-9sから0s-10sに調整する。理解すべきことは、第1の空白領域のタイムスタンプを0s-10sに調整した後、第1の発音単位のタイムスタンプの開始時刻は9sから10sに変わるべきであり、すなわち、この時の第1の発音単位のタイムスタンプは10s-10.2sであることである。引き続き変速比例式を参照し、第1の発音単位のタイムスタンプに対し、変速比例は0.2/1=0.2であるため、第1の発音単位のタイムスタンプの時間の長さは0.2/0.2=1に調整するべきであり、すなわち、調整後の第1の発音単位のタイムスタンプの時間の長さは1sであるべきであり、よって、第1の発音単位のタイムスタンプのタイムスタンプは10s-11sに調整するべきである。調整対象の音声オーディオデータは、調整された後、参照音声オーディオデータに対応する発音単位と空白領域のタイムスタンプと一致する。
【0087】
そのような方式よって調整対象の発音単位と空白領域のタイムスタンプは参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプと一致し、オーディオのリズムに対する補正を実現する。
【0088】
本開示において、時間領域と周波数領域の変速アルゴリズムに基づいて調整対象の発音単位と空白領域のタイムスタンプを調整することができる。例えば、WSOLAアルゴリズムの時間領域変速アルゴリズムに基づいてオーディオのリズムに対する補正を実現することができる。しかし、理解すべきことは、いかなる適切な変速アルゴリズムによって上記タイムスタンプの調整を実現してもよく、本開示は、これらに限定されないことである。
【0089】
本開示の別の態様によれば、オーディオデータ処理装置を更に提供する。
図4は、本開示の実施例によるオーディオデータ処理装置400を示す構成ブロック図である。
図4に示すように、該装置400は、調整対象の音声オーディオデータを取得するために用いられるように構成される第1のユニット401と、参照音声オーディオデータを取得するために用いられるように構成される第2のユニット402であって、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことで、第1のオーディオフレームセットと第2のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第3のユニット403と、第1のオーディオフレームセットと第2のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第4のユニット404と、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第5のユニット405と、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第6のユニット406と、を含む。
【0090】
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品を更に提供する。
図5に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器500の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0091】
図5に示すように、電子機器500は、計算ユニット501を含み、それはリードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM 503において、更に電子機器500を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット501、ROM 502及びRAM 503は、バス504を介して互いに接続される。入力/出力(I/O)インターフェース505も、バス504に接続される。
【0092】
電子機器500における複数の部品はI/Oインターフェース505に接続され、入力ユニット506、出力ユニット507、記憶ユニット508及び通信ユニット509を含む。入力ユニット506は、電子機器500に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット506は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット507は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット508は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット509は、電子機器500が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)TM装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0093】
計算ユニット501は処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット501は、前文で説明された各方法と処理、例えば方法200を実行する。例えば、いくつかの実施例では、方法200は、機械可読媒体、例えば、記憶ユニット508に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部の又は全てはROM 502及び/又は通信ユニット509を経て電子機器500にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 503にロードされて計算ユニット501によって実行される時、以上で説明される方法200の一つ又は複数のステップを実行することができる。代替的に、別の実施例では、計算ユニット501は、他のいかなる適切な方式で(例えば、ファームウェアによって)方法200を実行するように構成されてもよい。
【0094】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0095】
本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0096】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
【0097】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0098】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0099】
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0100】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載の各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0101】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。