特許7510562 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特許7510562オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-25

(45)【発行日】2024-07-03

(54)【発明の名称】オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品

(51)【国際特許分類】

G10K 15/04 20060101AFI20240626BHJP

G10L 25/51 20130101ALI20240626BHJP

G10L 21/0272 20130101ALI20240626BHJP

G10L 25/24 20130101ALI20240626BHJP

G10L 15/10 20060101ALI20240626BHJP

G10L 15/14 20060101ALI20240626BHJP

G10L 15/16 20060101ALI20240626BHJP

G10L 15/12 20060101ALI20240626BHJP

G10L 21/0208 20130101ALI20240626BHJP

G10L 21/01 20130101ALI20240626BHJP

【ＦＩ】

G10K15/04 302D

G10L25/51 300

G10L21/0272 100Z

G10L25/24

G10L15/10 200Z

G10L15/14 200Z

G10L15/16

G10L15/12 Z

G10L21/0208 100Z

G10L21/01

【請求項の数】 18

(21)【出願番号】P 2023500097

(86)(22)【出願日】2022-07-27

(65)【公表番号】

(43)【公表日】2024-02-21

(86)【国際出願番号】 CN2022108363

(87)【国際公開番号】W WO2023142413

(87)【国際公開日】2023-08-03

【審査請求日】2023-01-04

(31)【優先権主張番号】202210106767.7

(32)【優先日】2022-01-28

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100138759

【弁理士】

【氏名又は名称】大房直樹

(72)【発明者】

【氏名】ワン，イーペン

【審査官】大野弘

(56)【参考文献】

【文献】特開２００１－１１７５８２（ＪＰ，Ａ）

【文献】特開２０００－０７５８６８（ＪＰ，Ａ）

【文献】特開２００９－２６０４４９（ＪＰ，Ａ）

【文献】特開平０８－０６９２９６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／０３３５３３３（ＵＳ，Ａ１）

【文献】中国特許出願公開第１１２２５９０８９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／０１

Ｇ１０Ｌ２５／５１

Ｇ１０Ｌ２１／０２７２

Ｇ１０Ｌ２５／２４

Ｇ１０Ｌ１５／１０

Ｇ１０Ｌ１５／１４

Ｇ１０Ｌ１５／１６

Ｇ１０Ｌ１５／１２

Ｇ１０Ｌ２１／０２０８

(57)【特許請求の範囲】

【請求項1】

コンピュータで実行される、オーディオデータの処理方法であって、
コンピュータが、調整対象の音声オーディオデータを取得することと、
コンピュータが、参照音声オーディオデータを取得し、ここで、前記参照音声オーディオデータと前記調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、
コンピュータが、それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータに対するフレーム分割を行うことにより、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得することと、
コンピュータが、前記第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別することと、
コンピュータが、前記それぞれのオーディオフレームのタイムスタンプに基づき、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することと、
コンピュータが、前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させることと、を含み、
前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することは、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、２つの文字の間の空白領域のタイムスタンプを確定することと、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することと、を含み、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することは、
調整対象の発音単位と空白領域の変速比例を確定することであって、前記変速比例が、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定されることと、
前記変速比例に基づいて前記調整対象の発音単位と空白領域のタイムスタンプを調整することにより、前記調整対象の発音単位と空白領域のタイムスタンプを前記参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させることと、を含む、オーディオデータの処理方法。

【請求項2】

前記発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む、請求項１に記載の方法。

【請求項3】

前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することは、
前記第１のオーディオフレームセットに対応する第１のオーディオ特徴及び前記第２のオーディオフレームセットに対応する第２のオーディオ特徴を取得することと、
前記第１のオーディオ特徴と前記第２のオーディオ特徴に基づき、前記第１のオーディオフレームセットと前記第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得することと、
前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定することと、
前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定することと、を含む、請求項１に記載の方法。

【請求項4】

調整対象の音声オーディオデータを取得することは、
端末デバイスによって収集した元の音声オーディオデータを取得することと、
前記元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得することと、を含み、
ここで、前記前処理は、騒音低減、残響除去、のうちの少なくとも一つを含む、請求項１に記載の方法。

【請求項5】

参照音声オーディオデータを取得することは、
前記調整対象の音声オーディオデータに対応する参照オーディオデータを取得することと、
前記参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することと、を含む、請求項１に記載の方法。

【請求項6】

トレーニングされた音声分離モデルに基づいて前記参照オーディオデータに対する音声分離を行い、ここで、
前記音声分離モデルは、プリセットサンプルデータとｓｐｌｅｅｔｅｒアルゴリズムに基づいて転移学習を行うようにトレーニングすることによって取得し、前記プリセットサンプルデータは、複数の伴奏オーディオデータ、複数の音声オーディオデータ、及び前記複数の伴奏オーディオデータと前記複数の音声オーディオデータに基づいて構成される複数のハイブリッドオーディオデータ、を含む、請求項５に記載の方法。

【請求項7】

前記第１のオーディオ特徴と前記第２のオーディオ特徴のうちの少なくとも一つは、メルケプストラム係数特徴と基本周波数特徴、を含む、請求項３に記載の方法。

【請求項8】

トレーニングされた、ガウス混合モデルと隠れマルコフモデルを含むモデルに基づいて前記それぞれのオーディオフレームに対応する発音単位を識別する、請求項１に記載の方法。

【請求項9】

トレーニングされた、ディープニューラルネットワークと隠れマルコフモデルを含むモデルに基づき、識別されたそれぞれの前記発音単位のタイムスタンプを確定する、請求項１に記載の方法。

【請求項10】

ＤＴＷアルゴリズム、ＦａｓｔＤＴＷアルゴリズム、のうちの少なくとも一つに基づいて前記第１のオーディオフレームセットと前記第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する、請求項３に記載の方法。

【請求項11】

オーディオデータ処理装置であって、
調整対象の音声オーディオデータを取得するために用いられるように構成される第１のユニットと、
参照音声オーディオデータを取得するために用いられるように構成される第２のユニットであって、ここで、前記参照音声オーディオデータと前記調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されるものと、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータに対するフレーム分割を行うことで、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第３のユニットと、
前記第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第４のユニットと、
前記それぞれのオーディオフレームのタイムスタンプに基づき、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第５のユニットと、
前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第６のユニットと、を含み、
前記第６のユニットは、
それぞれ前記調整対象の音声オーディオデータと前記参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、２つの文字の間の空白領域のタイムスタンプを確定するためのユニットと、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整するためのユニットと、を含み、
時系列によって順に前記調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整するためのユニットは、
調整対象の発音単位と空白領域の変速比例を確定するためのユニットであって、前記変速比例が、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定されるユニットと、
前記変速比例に基づいて前記調整対象の発音単位と空白領域のタイムスタンプを調整することにより、前記調整対象の発音単位と空白領域のタイムスタンプを前記参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させるためのユニットと、を含む、オーディオデータ処理装置。

【請求項12】

前記発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む、請求項１１に記載の装置。

【請求項13】

前記第５のユニットは、
前記第１のオーディオフレームセットに対応する第１のオーディオ特徴及び前記第２のオーディオフレームセットに対応する第２のオーディオ特徴を取得するためのユニットと、
前記第１のオーディオ特徴と前記第２のオーディオ特徴に基づき、前記第１のオーディオフレームセットと前記第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得するためのユニットと、
前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定するためのユニットと、
前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定するためのユニットと、を含む、請求項１１に記載の装置。

【請求項14】

前記第１のユニットは、
端末デバイスによって収集した元の音声オーディオデータを取得するためのユニットと、
前記元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得するためのユニットと、を含み、
ここで、前記前処理は、騒音低減、残響除去、のうちの少なくとも一つを含む、請求項１１に記載の装置。

【請求項15】

前記第２のユニットは、
前記調整対象の音声オーディオデータに対応する参照オーディオデータを取得するためのユニットと、
前記参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得するためのユニットと、を含む、請求項１１に記載の装置。

【請求項16】

電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～１０のいずれか一項に記載の方法を実行させることができる、電子機器。

【請求項17】

コンピュータに請求項１～１０のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。

【請求項18】

プロセッサによって実行されると、請求項１～１０のいずれか一項に記載の方法を実現するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能技術分野に関し、特にオーディオ処理技術分野に関し、具体的には、オーディオデータの処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0002】

人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動（例えば、学習、推理、思考、計画など）を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。

【0003】

移動型インターネットによるカラオケアプリケーションの発展に伴い、ユーザは、カラオケのエクスペリエンスに対する要求が益々高くなる。ユーザは、カラオケを楽しむ過程に、時々は音楽のリズムを正確に把握することができないため、「速く歌ってしまう」又は「遅く歌ってしまう」などの問題を引き起こしやすく、カラオケ効果に大きな影響を与える。

【発明の概要】

【0004】

本開示は、音声データの処理方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、調整対象の音声オーディオデータを取得することと、参照音声オーディオデータを取得し、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことにより、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得することと、第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別することと、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定することと、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させることと、を含むオーディオデータの処理方法を提供する。

【0005】

本開示の別の態様によれば、調整対象の音声オーディオデータを取得するために用いられるように構成される第１のユニットと、参照音声オーディオデータを取得するために用いられるように構成される第２のユニットであって、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されるものと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことで、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第３のユニットと、第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第４のユニットと、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第５のユニットと、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第６のユニットと、を含むオーディオデータ処理装置を提供する。

【0006】

本開示の別の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリとを含み、メモリには、少なくとも一つのプロセッサによって実行可能な命令が記憶されており、該命令は少なくとも一つのプロセッサによって実行されることにより、少なくとも一つのプロセッサに上記オーディオデータの処理方法を実行させることができる電子機器を提供する。

【0007】

本開示の別の態様によれば、コンピュータに上記オーディオデータの処理方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

【0008】

本開示の別の態様によれば、プロセッサによって実行されると、上記オーディオデータの処理方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【0009】

本開示の一つ又は複数の実施例によれば、音声オーディオデータにおける各発音単位を識別することにより、発音単位のタイムスタンプに基づいて変速を行うことによって、補正されたオーディオデータを取得する。そのような方式により、オーディオのリズムの補正効果を向上させ、製品機能を豊富にし、ユーザ体験を向上させる。

【0010】

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0011】

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。

【図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。

【図2】本開示の実施例によるオーディオデータの処理方法を示すフローチャートである。

【図3】本開示の実施例による図２の方法における調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する方法を示すフローチャートである。

【図4】本開示の実施例によるオーディオデータ処理装置を示す構成ブロック図である。

【図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。

【発明を実施するための形態】

【0012】

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

【0013】

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

【0014】

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。

【0015】

以下、図面を参照して本開示の実施例について詳細に説明する。
図１は、本開示の実施例による、本明細書に記載の様々な方法及び装置を、その中で実施することができる例示的なシステム１００の概略図を示す。図１を参照すると、このシステム１００は、一つ又は複数のクライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６、サーバ１２０、及び一つ又は複数のクライアントデバイスをサーバ１２０に結合する一つ又は複数の通信ネットワーク１１０を含む。クライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６は、一つ又は複数のアプリケーションを実行するように構成されることが可能である。

【0016】

本開示の実施例では、サーバ１２０は、オーディオデータ処理の方法の一つ又は複数を実行するサービス又はソフトウェアアプリケーションを実行できる。
いくつかの実施例では、サーバ１２０は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、ｗｅｂベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス（ＳａａＳ）モデルでクライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供される。

【0017】

図１に示す構成では、サーバ１２０は、サーバ１２０により実行される機能を実現する一つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、一つ又は複数のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ又は複数のクライアントアプリケーションを用いてサーバ１２０とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム１００とは異なってもよいことを理解されたい。したがって、図１は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。

【0018】

ユーザは、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を用いて音声オーディオデータを受信し、補正された音声オーディオデータを出力することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りをするインターフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。図１では６つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。

【0019】

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、携帯型ハンドヘルドデバイス、汎用コンピュータ（例えば、パーソナルコンピュータやノートパソコン）、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓ、ＡＰＰＬＥｉＯＳ、類ＵＮＩＸ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）又は類Ｌｉｎｕｘ（登録商標）オペレーティングシステム（例えば、ＧＯＯＧＬＥＣｈｒｏｍｅＯＳ）などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント（ＰＤＡ）などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ（例えば、スマートグラス）と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットＩｎｔｅｒｎｅｔ関連アプリケーション、通信アプリケーション（例えば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。

【0020】

ネットワーク１１０は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むがこれらに限定されない）を使用することができる。例として、一つ又は複数のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（例えば、ブルートゥース（登録商標）、ＷＩＦＩ）、及び／又はこれらとその他のネットワークの任意の組み合わせであってもよい。

【0021】

サーバ１２０は、一つ又は複数の汎用コンピュータ、専用サーバコンピュータ（例えば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ）、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び／又は組み合わせを含んでもよい。サーバ１２０は、仮想オペレーティングシステムを実行する一つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ（例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの一つ又は複数のフレキシブルプール）を含んでもよい。様々な実施例では、サーバ１２０は、以下に説明する機能を提供する一つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。

【0022】

サーバ１２０における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ又は複数のオペレーティングシステムを実行することができる。サーバ１２０は、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び／又は中間層アプリケーションのいずれか一つを実行することもできる。

【0023】

いくつかの実施形態では、サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び１０６のユーザから受信したデータフィード及び／又はイベントの更新を分析し統合するための一つ又は複数のアプリケーションを含んでもよい。サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び１０６の一つ又は複数のディスプレイデバイスを介してデータフィード及び／又はリアルタイムイベントを表示する一つ又は複数のアプリケーションを含んでもよい。

【0024】

いくつかの実施形態では、サーバ１２０は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ１２０は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難易度が大きく、業務拡張性が弱いという欠陥を解決する。

【0025】

システム１００は、一つ又は複数のデータベース１３０を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース１３０のうちの１つ又は複数は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース１３０は、さまざまな位置に配置することができる。例えば、サーバ１２０が使用するデータベースは、サーバ１２０のローカルにあってもよいし、サーバ１２０から離れて、ネットワーク又は専用の接続を介してサーバ１２０と通信してもよい。データベース１３０は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ１２０が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。

【0026】

いくつかの実施例では、データベース１３０のうちの一つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。

【0027】

図１のシステム１００は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。

【0028】

ユーザは、カラオケを楽しむ過程に、時々は音楽のリズムを正確に把握できないため、例えば、ある文字を長く歌うべきであるが、ユーザは早く終わってしまい、ある文字を短く歌うべきであるが、ユーザは伸ばして歌ってしまうなどの問題を引き起こしやすく、カラオケ効果に大きな影響を与え、聴覚的にリズムが乱れ、美感に影響を与える。そのため、微細化されたカラオケリズム補正アルゴリズムが強く求められ、ユーザがカラオケを楽しむ過程にリズムが一致しない問題を補正し、ユーザのカラオケ満足度を向上させる。

【0029】

本開示の一態様によれば、オーディオデータの処理方法を提供する。図２は、本開示の実施例によるオーディオデータの処理方法２００を示す。該方法２００は、図１におけるいずれかのクライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６に応用することができる。

【0030】

本開示の実施例によれば、音声オーディオデータにおける各発音単位を識別することにより、発音単位のタイムスタンプに基づいて変速を行うことによって、補正されたオーディオデータを取得する。そのような方式により、オーディオのリズムの補正効果を向上させ、製品機能を豊富にし、ユーザ体験を向上させる。

【0031】

図２に示すように、方法２００は、下記のステップを含んでもよい。
ステップ２０１において、調整対象の音声オーディオデータを取得する。
いくつかの実施例によれば、端末デバイスによって収集した元の音声オーディオデータを取得することができ、
いくつかの例において、端末デバイスはアンプ、スピーカー、マルチメディアコンソール、デジタルミキサ、オーディオサンプルカード、合成器、中高周波数スピーカーとマイクなどを含んでもよい。これらの端末デバイスで構成される音声収集システムによって収集を行い、元の音声オーディオデータを取得する。カラオケで歌う場合では、該元の音声オーディオデータは端末デバイス（例えば、マイクロフォン）により収集した音声オーディオデータ（すなわち、伴奏オーディオデータを含まない）である。

【0032】

実際に、オーディオ収集を行う時、音声収集システムによって収集したものは、一般的に環境雑音と音声オーディオデータを含む元の音声オーディオデータである。更に良い音声オーディオデータを取得するために、得られた元の音声オーディオデータに対する前処理を行う必要がある。

【0033】

そのため、いくつかの実施例によれば、元の音声オーディオデータに対する前処理を行うことにより、調整対象の音声オーディオデータを取得し、該前処理は、騒音低減、残響除去などを含んでもよいが、これらに限定されない。

【0034】

実際に、騒音低減は、背景環境の雑音を低減させることを目的としている。残響低減は、主に音波の必要がない反射により、他のオーディオ信号に影響を与えることを減少させる。一例において、ユーザが発話する時、毎秒間約２又は３つのワードを発話する。仮に２つの単一文字

【0035】

【数1】

【0036】

を発話する場合、残響時間は３秒であると仮定すると、

【0037】

【数2】

【0038】

という文字の音声を発した後、音響強度が徐々に弱くなるが、更に一定の期間（３秒）に持続することがある。「好」（ハオ）という文字の音声を発する時刻、

【0039】

【数3】

【0040】

という文字の音響強度がまだ十分に強い。そのため、２つの単一文字の音声が混在し、オーディオ間の相互干渉を引き起こす。そのため、前処理により、更に明瞭な音声オーディオデータを取得することができ、よって、後続の操作を容易にする。例えば、いくつかの実施例では、後続オーディオ特徴を抽出する過程の正確度を向上させることができ、該過程は下記内容において詳細に説明する。

【0041】

調整対象の音声オーディオデータを補正するために、更に参照音声オーディオデータを取得する必要がある。
ステップ２０２において、参照音声オーディオデータを取得し、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得される。

【0042】

例示的に、参照音声オーディオデータと調整対象の音声オーディオデータは同じ文章に対する異なる読上げオーディオデータであってもよい。カラオケで歌う場合では、該参照音声オーディオデータは標準原曲の音声オーディオデータであってもよい。

【0043】

いくつかの実施例によれば、調整対象の音声オーディオデータに対応する参照オーディオデータを取得することにより、該参照オーディオデータに基づいて参照音声オーディオデータを取得する。

【0044】

一例において、データベースにおける調整対象の音声オーディオデータに対応する参照オーディオデータを呼び出すことができる。代替的又付加的に、ユーザは、データベースにおける調整対象の音声オーディオデータに対応する参照オーディオデータを指定してもよい。

【0045】

参照オーディオデータは一般的に複数のトラックのデータを組み合わせることにより生成される。例えば、カラオケで歌う場合では、オーディオデータは音声オーディオデータと伴奏オーディオデータを組み合わせることにより生成されることができる。

【0046】

そのため、いくつかの実施例によれば、参照オーディオデータにおける音声オーディオデータと伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することができる。

【0047】

いくつかの例において、ｓｐｌｅｅｔｅｒアルゴリズムによって参照オーディオデータにおける音声オーディオデータは伴奏オーディオデータを分離することにより、参照音声オーディオデータを取得することができる。

【0048】

いくつかの実施例によれば、トレーニングされた音声分離モデルに基づいて参照オーディオデータに対する音声分離を行ってもよく、該音声分離モデルは、プリセットサンプルデータとｓｐｌｅｅｔｅｒアルゴリズムに基づいて転移学習を行うようにトレーニングすることによって取得することができる。プリセットサンプルデータは、複数の伴奏オーディオデータ、複数の音声オーディオデータ、及び複数の伴奏オーディオデータと複数の音声オーディオデータに基づいて構成される複数のハイブリッドオーディオデータ、を含む。プリセットサンプルデータに基づいてｓｐｌｅｅｔｅｒアルゴリズムに対する転移学習を行うことにより、更に現在シーンに適用される音声分離モデルを取得することができるのみならず、また従来のアルゴリズムを利用してモデルトレーニングの効率を向上させることができる。

【0049】

一例において、プリセットサンプルデータとｓｐｌｅｅｔｅｒアルゴリズムによってトレーニングして２個の語幹モデル（２ｓｔｅｍｓ）を取得することができる。該モデルは、主に音声オーディオデータと伴奏オーディオデータを分離する。

【0050】

ステップ２０３において、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことにより、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得する。

【0051】

本開示において、いかなる適切な方法を利用してオーディオフレームを取得することができる。例えば、まずオーディオデータに対するプリエンファシスを行ってから、フレーム分割を行い、フレーム分割した後で窓関数をかける。

【0052】

いくつかの例において、フレーム分割において、時々は隣接する２つのフレームの間に一部の重ね合わせが設置されている。隣接する２つのフレームの間に基音が変化し、例えば、ちょうど２つの音節の間又はちょうど声母から韻母への遷移などであり、この時、その特徴パラメータが大きく変化する可能性ある。しかし、特徴パラメータを滑らかに変化させるために、２つの重ね合わせないフレームの間にいくつかのフレームを挿入して特徴パラメータを抽出すると、隣接するフレームの間に重ね合わせ部分を有するようになる。

【0053】

ステップ２０４において、第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別する。

【0054】

いくつかの実施例によれば、発音単位は、中国語発音の声母と韻母、及び英語発音の音素、のうちの少なくとも一つを含む。
一例において、調整対象の音声オーディオデータにが中国語オーディオデータであることに対し、該発音単位は声母と韻母であってもよい。

【0055】

代替的又付加的に、調整対象の音声オーディオデータが英語オーディオであることに対し、該発音単位は音素であってもよい。
理解すべきことは、調整対象の音声オーディオデータが中国語と英語の混合オーディオである場合に対して、該発音単位は声母、韻母及び音素であることである。

【0056】

カラオケで歌う場合に基づく一例において、１文の歌詞には文字「我們」が存在する。例示的に、「我」という文字には声母「Ｗ」と韻母「Ｏ」を含むと識別することができる。カラオケで歌う人は「我」という文字を発音する時、「Ｗ－Ｏ」である。歌の音律又は歌唱習慣の違いにより、人によっては同じ文字における異なる発音単位に対する発音の重点又は発音の持続時間が異なる。

【0057】

そのため、それぞれのオーディオフレームに対応する発音単位を識別することにより、各文字の各発音単位を識別することができる。よって、後続の操作において各文字の各発音単位のタイムスタンプを調節し、各文字を全体としてタイムスタンプを調節するわけではない。各文字を全体としてタイムスタンプを調節し、該文字における各発音単位の等比例のスケーリングを引き起こし、効果としてはそれに対する早送り又はスロー再生を行い、これはそもそも歌唱の発音習慣に適合しない。各文字の各発音単位のタイムスタンプを調節することにより、原曲の音律又は原曲の歌唱習慣をより良く復元することができる。

【0058】

いくつかの実施例によれば、トレーニングされた、ガウス混合モデル（ＧＭＭ）と隠れマルコフモデル（ＨＭＭ）を含むモデルに基づいてそれぞれのオーディオフレームに対応する発音単位を識別することができる。

【0059】

一例において、調整対象の音声オーディオデータは中国語オーディオであり、純粋な中国語の音声データを収集し、モデルのトレーニングセットを取得し、声母と韻母をユニットとしてモデル化を行う。まずｍｏｎｏｐｈｏｎｅ（単一音）に対するＧＭＭ－ＨＭＭモデルをトレーニングし、その後、ｍｏｎｏｐｈｏｎｅ（単一音）のＧＭＭ－ＨＭＭモデルのパラメータに基づいてｔｒｉｐｈｏｎｅ（三音）に対するコンテキストに関連するＧＭＭ－ＨＭＭモデルを初期化させることにより、ｔｒｉｐｈｏｎｅ（三音）に対するＧＭＭ－ＨＭＭモデルを更にトレーニングする。最後に、ｔｒｉｐｈｏｎｅ（三音）に対するＧＭＭ－ＨＭＭモデルはそれぞれのオーディオフレームに対応する発音単位を識別するために用いられてよい。

【0060】

理解すべきことは、調整対象の音声オーディオデータが中国語と英語の混合オーディオである場合に対して、声母、韻母及び音素を単位としてモデル化を行ってもよく、よって、トレーニングされたモデルは中国語における発音単位を識別することができるのみならず英語における発音単位を識別することもできることである。

【0061】

ステップ２０５において、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する。

【0062】

本開示において、各発音単位のタイムスタンプは、該発音単位の開始時刻と終了時刻を含む時間帯であってもよい。
いくつかの実施例によれば、トレーニングされた、ディープニューラルネットワーク（ＤＮＮ）と隠れマルコフモデル（ＨＭＭ）を含むモデルに基づき、識別されたそれぞれの前記発音単位のタイムスタンプを確定することができる。

【0063】

一例において、上記のように、ｍｏｎｏｐｈｏｎｅ（単一音）に対するＧＭＭ－ＨＭＭモデルに基づき、更にトレーニングしてｔｒｉｐｈｏｎｅ（三音）に対するＧＭＭ－ＨＭＭモデルを取得した後、更にＤＮＮ－ＨＭＭを含む混合モデルをトレーニングすることができ、よって、ｔｒｉｐｈｏｎｅ（三音）のＧＭＭ－ＨＭＭモデルから出力された各オーディオフレーム及びそれに対応する発音単位のラベルを該混合モデルの入力とすることにより、該混合モデルを介してそれぞれの発音単位に対応するタイムスタンプを確定する。

【0064】

一例において、更にトレーニングして得られたモデルに対するシーケンス区分的トレーニングを行うことにより、モデルの使用効果を更に向上させる。
もちろん理解すべきことは、他のいかなる適切な各発音単位のタイムスタンプを識別するための方法も可能であり、ここで制限しないことである。

【0065】

図３は、本開示の実施例による図２の方法における調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定する方法２０５を示すフローチャートである。方法２０５は、下記のステップを含んでもよい。

【0066】

ステップ３０１において、前記第１のオーディオフレームセットに対応する第１のオーディオ特徴及び前記第２のオーディオフレームセットに対応する第２のオーディオ特徴を取得する。すなわち、調整対象の音声オーディオデータにおけるそれぞれのオーディオフレームは対応する第１のオーディオ特徴を有し、参照音声オーディオデータにおけるそれぞれのオーディオフレームは対応する第２のオーディオ特徴を有する。

【0067】

いくつかの実施例によれば、第１のオーディオ特徴と前記第２のオーディオ特徴のうちの少なくとも一つは、メルケプストラム係数特徴と基本周波数特徴、を含む。
一例において、調整対象の音声オーディオデータと参照音声オーディオデータを取得した後、調整対象の音声オーディオデータと参照音声オーディオデータに対し、３９次元のメルケプストラム係数特徴（ＭＦＣＣ）と１次元の基本周波数特徴をそれぞれ抽出することができる。更にＭＦＣＣ特徴とＦ０特徴をそれぞれ正規化させた後、スティッチングを行い、４０次元のオーディオ特徴を形成する。メルケプストラム係数特徴（ＭＦＣＣ）は、調整対象の音声オーディオデータと参照音声オーディオデータにおいて文字内容を示し、基本周波数特徴は、調整対象の音声オーディオデータと参照音声オーディオデータにおいて音調を示す。

【0068】

理解すべきことは、他の次元のオーディオ特徴も可能であり、特徴の次元が高くなるほど、効果はより良くなるかもしれないが、同時に次の計算量も更に大きくなることである。そのため、実際のニーズに応じて対応する特徴の次元を設計することができる。

【0069】

更に、理解すべきことは、他のいかなる適切なオーディオ特徴も可能であり、例えば、ＰＬＰ（知覚線形予測）特徴、ＦＢａｎｋ（ＦｉｌｔｅｒＢａｎｋ）特徴など、ここで制限しないことである。

【0070】

いくつかの実施例では、取得された調整対象の音声オーディオデータと参照音声オーディオデータに対する特徴抽出を直接的に行うことができる。該特徴抽出過程に、調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割操作を行う。そのため、該特徴が抽出された後、それぞれ第１のオーディオフレームセットと第２のオーディオフレームセット（すなわち、ステップ２０３の操作）を取得することができる。

【0071】

ステップ３０２において、前記第１のオーディオ特徴と前記第２のオーディオ特徴に基づき、前記第１のオーディオフレームセットと前記第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。

【0072】

調整対象の音声オーディオデータに対応する第１のオーディオ特徴と参照音声オーディオデータに対応する第２のオーディオ特徴をそれぞれ取得した後、特徴の間の類似度によって、第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるオーディオフレームの間の対応関係を取得する。

【0073】

いくつかの実施例によれば、ＤＴＷアルゴリズム、ＦａｓｔＤＴＷアルゴリズムのうちの少なくとも一つに基づいて前記第１のオーディオフレームセットと前記第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。

【0074】

一例において、動的時間規制（ＤＴＷ）アラインメントアルゴリズムにより、時間軸で局所的なスケーリングを行うことによって、第１のオーディオフレームセットと第２のオーディオフレームセットの形態を可能な限り一致させ、第１のオーディオフレームセットと第２のオーディオフレームセットとにおける対応するフレームの間の対応関係を取得する。

【0075】

他の例において、速度が更に速いＦａｓｔＤＴＷアルゴリズムを使用してもよく、第１のオーディオフレームセットと第２のオーディオフレームセットとにおける対応するオーディオフレームの間の対応関係を取得する。

【0076】

ステップ３０３において、前記参照音声オーディオデータにおける各発音単位のタイムスタンプを確定する。
いくつかの例において、前記のように、トレーニングされた、ディープニューラルネットワーク（ＤＮＮ）と隠れマルコフモデル（ＨＭＭ）を含むモデルに基づいて参照音声オーディオデータにおける各発音単位のタイムスタンプを確定することができる。

【0077】

もちろん理解すべきことは、他のいかなる適切な各発音単位のタイムスタンプを識別するための方法も可能であり、ここで制限しないことである。
ステップ３０４において、前記参照音声オーディオデータの前記タイムスタンプ及び前記対応関係に基づき、前記調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定する。

【0078】

上記例において、トレーニングされたモデルを介して参照音声オーディオデータにおけるそれぞれの発音単位に対応するタイムスタンプを識別した後、該タイムスタンプ及び上記取得された対応関係に基づき、調整対象の音声オーディオデータにおける各発音単位のタイムスタンプを確定することができる。例えば、カラオケで歌う場合では、この手法により、調整対象のオーディオデータに文字漏れがあるなどの場合でも、該対応関係に基づき、調整対象のオーディオデータにおける対応する発音単位のタイムスタンプを確定してもよい。よって、識別された調整対象の音声オーディオデータにおける各発音単位のタイムスタンプの正確性を向上させることができる。

【0079】

ステップ２０６において、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させる。

【0080】

いくつかの実施例によれば、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することは、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプに基づき、２つの文字の間の空白領域のタイムスタンプを確定することと、時系列によって順に調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整することと、を含んでもよい。

【0081】

例示的に、カラオケで歌う場合では、該空白領域は２つの文の歌詞の間の時間帯領域、又は１文の歌詞の中の２つの文字の間のポーズ時間帯領域であってもよい。例示的に、歌の第１の文の歌詞の第１の文字の第１の発音単位のタイムスタンプは１０ｓ－１１ｓであることを識別し、歌の第１の空白領域のタイムスタンプは０ｓ－１０ｓであることを確定してもよい。

【0082】

いくつかの実施例によれば、時系列によって順に調整対象の音声オーディオデータにおける発音単位のタイムスタンプ及び空白領域のタイムスタンプを調整する。
いくつかの実施例によれば、調整対象の発音単位と空白領域の変速比例をそれぞれ確定し、ここで、前記変速比例は、それぞれ前記調整対象の発音単位と空白領域の時間の長さと、前記参照音声オーディオデータにおける対応する発音単位と空白領域の時間の長さの比に基づいて確定される。

【0083】

引き続き上記の例を参照し、参照音声オーディオデータにおける第１の空白領域のタイムスタンプは０ｓ－１０ｓであり、第１の発音単位のタイムスタンプは１０ｓ－１１ｓであることを確定する。また、調整対象の音声オーディオデータにおける第１の空白領域のタイムスタンプは０ｓ－９ｓであり、第１の発音単位のタイムスタンプは９ｓ－９．２ｓであることを確定する。そのため、調整対象の発音単位の時間の長さと調整対象の発音単位に対応する参照音声オーディオデータにおける発音単位の時間の長さの比に基づき、該調整対象の発音単位の変速比例を確定することができ、調整される空白領域の時間の長さと調整される空白領域に対応する参照音声オーディオデータにおける空白領域の時間の長さの比に基づき、該調整される空白領域の変速比例を確定することができる。

【0084】

いくつかの例において、式を参照し、変速比例はｐ＝ｘ／ｙである。ここで、ｘは調整対象の発音単位又は空白領域時間の長さであり、ｙは参照音声オーディオデータにおける発音単位又は空白領域の時間の長さである。

【0085】

いくつかの実施例によれば、変速比例に基づいて調整対象の発音単位と空白領域のタイムスタンプを調整することにより、調整対象の発音単位と空白領域のタイムスタンプを参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプに一致させる。

【0086】

引き続き上記実施例を参照し、引き続き上記の例を参照し、参照音声オーディオデータにおける第１の空白領域のタイムスタンプは０ｓ－１０ｓであり、第１の発音単位のタイムスタンプは１０ｓ－１１ｓであることを確定する。また、調整対象の音声オーディオデータにおける第１の空白領域のタイムスタンプは０ｓ－９ｓであり、第１の発音単位のタイムスタンプは９ｓ－９．２ｓであることを確定する。第１の空白領域に対し、変速比例は９／１０＝０．９であるため、第１の空白領域時間の長さは９／０．９＝１０に調整するべきであり、すなわち、調整後の第１の空白領域時間の長さは１０ｓであるべきであり、すなわち、０ｓ－９ｓから０ｓ－１０ｓに調整する。理解すべきことは、第１の空白領域のタイムスタンプを０ｓ－１０ｓに調整した後、第１の発音単位のタイムスタンプの開始時刻は９ｓから１０ｓに変わるべきであり、すなわち、この時の第１の発音単位のタイムスタンプは１０ｓ－１０．２ｓであることである。引き続き変速比例式を参照し、第１の発音単位のタイムスタンプに対し、変速比例は０．２／１＝０．２であるため、第１の発音単位のタイムスタンプの時間の長さは０．２／０．２＝１に調整するべきであり、すなわち、調整後の第１の発音単位のタイムスタンプの時間の長さは１ｓであるべきであり、よって、第１の発音単位のタイムスタンプのタイムスタンプは１０ｓ－１１ｓに調整するべきである。調整対象の音声オーディオデータは、調整された後、参照音声オーディオデータに対応する発音単位と空白領域のタイムスタンプと一致する。

【0087】

そのような方式よって調整対象の発音単位と空白領域のタイムスタンプは参照音声オーディオデータにおける対応する発音単位と空白領域のタイムスタンプと一致し、オーディオのリズムに対する補正を実現する。

【0088】

本開示において、時間領域と周波数領域の変速アルゴリズムに基づいて調整対象の発音単位と空白領域のタイムスタンプを調整することができる。例えば、ＷＳＯＬＡアルゴリズムの時間領域変速アルゴリズムに基づいてオーディオのリズムに対する補正を実現することができる。しかし、理解すべきことは、いかなる適切な変速アルゴリズムによって上記タイムスタンプの調整を実現してもよく、本開示は、これらに限定されないことである。

【0089】

本開示の別の態様によれば、オーディオデータ処理装置を更に提供する。図４は、本開示の実施例によるオーディオデータ処理装置４００を示す構成ブロック図である。図４に示すように、該装置４００は、調整対象の音声オーディオデータを取得するために用いられるように構成される第１のユニット４０１と、参照音声オーディオデータを取得するために用いられるように構成される第２のユニット４０２であって、ここで、参照音声オーディオデータと調整対象の音声オーディオデータは、同様な文字情報に基づいて取得されることと、それぞれ調整対象の音声オーディオデータと参照音声オーディオデータに対するフレーム分割を行うことで、第１のオーディオフレームセットと第２のオーディオフレームセットをそれぞれ取得するために用いられるように構成される第３のユニット４０３と、第１のオーディオフレームセットと第２のオーディオフレームセットとにおけるそれぞれのオーディオフレームに対応する発音単位をそれぞれ識別するために用いられるように構成される第４のユニット４０４と、それぞれのオーディオフレームのタイムスタンプに基づき、調整対象の音声オーディオデータと参照音声オーディオデータとにおける各発音単位のタイムスタンプをそれぞれ確定するために用いられるように構成される第５のユニット４０５と、調整対象の音声オーディオデータにおける発音単位のタイムスタンプを調整することにより、調整対象の音声オーディオデータと参照音声オーディオデータとにおける対応する発音単位とのタイムスタンプを一致させるために用いられるように構成される第６のユニット４０６と、を含む。

【0090】

本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品を更に提供する。
図５に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器５００の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限しない。

【0091】

図５に示すように、電子機器５００は、計算ユニット５０１を含み、それはリードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。ＲＡＭ５０３において、更に電子機器５００を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット５０１、ＲＯＭ５０２及びＲＡＭ５０３は、バス５０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース５０５も、バス５０４に接続される。

【0092】

電子機器５００における複数の部品はＩ／Ｏインターフェース５０５に接続され、入力ユニット５０６、出力ユニット５０７、記憶ユニット５０８及び通信ユニット５０９を含む。入力ユニット５０６は、電子機器５００に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット５０６は、入力された数字又は文字情報と、電子機器のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含んでもよいが、これらに限定されない。出力ユニット５０７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット５０８は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット５０９は、電子機器５００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び／又はチップセット、例えば、ブルートゥース（登録商標）ＴＭ装置、８０２．１１装置、ＷｉＦｉ装置、ＷｉＭａｘ装置、セルラー通信装置及び／又は類似物を含んでもよいが、これらに限定されない。

【0093】

計算ユニット５０１は処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット５０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット５０１は、前文で説明された各方法と処理、例えば方法２００を実行する。例えば、いくつかの実施例では、方法２００は、機械可読媒体、例えば、記憶ユニット５０８に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部の又は全てはＲＯＭ５０２及び／又は通信ユニット５０９を経て電子機器５００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ５０３にロードされて計算ユニット５０１によって実行される時、以上で説明される方法２００の一つ又は複数のステップを実行することができる。代替的に、別の実施例では、計算ユニット５０１は、他のいかなる適切な方式で（例えば、ファームウェアによって）方法２００を実行するように構成されてもよい。

【0094】

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

【0095】

本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

【0096】

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

【0097】

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

【0098】

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

【0099】

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。

【0100】

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載の各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

【0101】

本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版