(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-03
(54)【発明の名称】伴奏生成方法、装置及び記憶媒体
(51)【国際特許分類】
G10K 15/04 20060101AFI20241126BHJP
H04S 7/00 20060101ALI20241126BHJP
【FI】
G10K15/04 302D
H04S7/00 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024535382
(86)(22)【出願日】2022-10-11
(85)【翻訳文提出日】2024-07-18
(86)【国際出願番号】 CN2022124590
(87)【国際公開番号】W WO2023109278
(87)【国際公開日】2023-06-22
(31)【優先権主張番号】202111527995.3
(32)【優先日】2021-12-14
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520177460
【氏名又は名称】テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】チャン,チャオペン
(72)【発明者】
【氏名】ウェン,ジーチャン
(72)【発明者】
【氏名】コウ,ジジュアン
【テーマコード(参考)】
5D162
5D208
【Fターム(参考)】
5D162AA05
5D162CC08
5D162CD22
5D208CC02
5D208CC03
(57)【要約】
本願の実施例において、伴奏生成方法、装置及び記憶媒体が提供される。伴奏生成方法は、次の内容を含む。ドライ音声信号セットを取得する。ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれる。N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成する。x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される。仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得する。音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得する。本出願により、伴奏のステレオサラウンドの効果を実現することができる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
伴奏生成方法であって、
ドライ音声信号セットを取得することであって、前記ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である、取得することと、
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することであって、前記x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、前記x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される、生成することと、
仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得することであって、前記仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる、取得することと、
音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することと、を含む、
ことを特徴とする伴奏生成方法。
【請求項2】
前記の、ドライ音声信号セットを取得することは、
オーディオデータベースから初期ドライ音声信号セットを取得することであって、前記オーディオデータベースには、複数のユーザーがターゲット曲を歌うときに録音した初期ドライ音声信号が含まれる、取得することと、
各々の初期ドライ音声信号の音声パラメータに基づいて、前記初期ドライ音声信号セットからx個のドライ音声信号を選別して、前記ドライ音声信号セットを構成することと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記音声パラメータは、イントネーション特性パラメータ及び音質特性パラメータを含み、
前記イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含み、前記音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
N個の仮想三次元空間音像位置は、
水平面で第1の予め設定された角度を間隔として前記水平面を分割した後、得られた前記水平面におけるn1個の仮想三次元空間音像位置と、
上方平面で第2の予め設定された角度を間隔として前記上方平面を分割した後、得られた前記上方平面におけるn2個の仮想三次元空間音像位置と、
下方平面で第3の予め設定された角度を間隔として前記下方平面を分割した後、得られた前記下方平面におけるn3個の仮想三次元空間音像位置と、を含み、
前記上方平面と前記水平面がなす角度は第1の角度閾値であり、前記下方平面と前記水平面がなす角度は第2の角度閾値であり、前記n1、前記n2及び前記n3は正の整数であり、前記n1、前記n2及び前記n3の合計は前記Nに等しい、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記の、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することは、
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応する頭部伝達関数(HRTF)を取得することと、
ターゲット仮想三次元空間音像位置に対応する頭部伝達関数を通じて、前記ターゲット仮想三次元空間音像位置に対応するドライ音声信号を処理して、前記ターゲット仮想三次元空間音像位置における仮想音声信号を取得することと、を含み、
前記ターゲット仮想三次元空間音像位置における仮想音声信号はバイノーラル信号であり、
前記ターゲット仮想三次元空間音像位置は、前記N個の仮想三次元空間音像位置のうちの任意1つの仮想三次元空間音像位置である、
ことを特徴とする請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記仮想音声信号セットは、さらに、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号と、遅延右チャンネル信号とを含み、
前記の、仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得することの前、前記方法は、さらに、
前記ドライ音声信号セットに含まれるx個のドライ音声信号からp個のドライ音声信号を取得することであって、前記pは正の整数であり、且つ前記x以下である、取得することと、
前記p個のドライ音声信号のうちの各々のドライ音声信号に対して、m1個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を取得し、前記各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号を取得することであって、前記m1は正の整数である、ことと、
前記p個のドライ音声信号のうちの各々のドライ音声信号に対して、m2個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を取得し、前記各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延右チャンネル信号を取得することであって、前記m2は正の整数である、ことと、を含む、
ことを特徴とする請求項1~4のいずれか一項に記載の方法。
【請求項7】
前記の、音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することは、
前記ターゲット曲の背景音楽を取得し、且つ前記コーラスドライ音声と前記背景音楽との間のエネルギー関係を調整し、調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係がエネルギー比条件を満たすようにすることと、
調整されたコーラスドライ音声と背景音楽に基づいて前記伴奏を取得することと、を含む、
ことを特徴とする請求項1~4のいずれか一項に記載の方法。
【請求項8】
前記の、音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することは、
予め設定された周波数帯域で前記コーラスドライ音声に対してスペクトルイコライゼーション処理を行うことと、
前記背景音楽の音量を取得することと、
前記背景音楽の音量が音量閾値より小さい場合、前記背景音楽の音量を音量閾値まで上げることと、
スペクトルイコライゼーション処理を経た後のコーラスドライ音声と音量処理を経た後の背景音楽とに基づいて前記伴奏を取得することと、を含む、
ことを特徴とする請求項1~4のいずれか一項に記載の方法。
【請求項9】
伴奏の再生処理方法であって、
ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示することと、
前記ユーザーインターフェースで受けられた選択インジケーションが、前記ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、前記ターゲット曲に対応する伴奏を取得することと、
前記ターゲット曲に対応する伴奏を再生することと、を含み、
前記伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、前記コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、前記ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、前記ドライ音声信号セットは、複数のユーザーが前記ターゲット曲に対して録音したドライ音声信号に基づいて得られるものである、
ことを特徴とする伴奏の再生処理方法。
【請求項10】
前記コーラスドライ音声は、仮想音声信号セットに基づいて生成されるものであり、前記仮想音声信号セットは、得られたドライ音声信号セットに基づいて生成された、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号を含み、
前記ドライ音声信号セット内の複数のドライ音声信号は、N個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、1つ又は複数のドライ音声信号に対応することが許可される、
ことを特徴とする請求項9に記載の方法。
【請求項11】
前記ユーザーインターフェースでターゲット曲の伴奏モード選択コントロールが表示されており、前記伴奏モード選択コントロールは、コーラス伴奏モード選択コントロール、オリジナル伴奏モード選択コントロールを含み、前記の、前記ターゲット曲に対応する伴奏を取得することの前、前記方法は、さらに、
前記コーラス伴奏モード選択コントロールに対する選択操作が取得されたか否かを検出することと、
前記コーラス伴奏モード選択コントロールに対する選択操作が取得されたことを検出した場合、前記ユーザーインターフェースで受けられた選択インジケーションが、前記ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示することを、確認することと、を含む、
ことを特徴とする請求項9又は請求項10に記載の方法。
【請求項12】
前記の、前記ターゲット曲に対応する伴奏を取得することは、
前記ターゲット曲の識別情報を含む伴奏リクエストをサーバに送信することと、
前記サーバによって前記伴奏リクエストに応答して返された前記コーラスドライ音声と前記背景音楽を受信することと、
前記コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定することと、
前記ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声と前記背景音楽とに基づいて、前記ターゲット曲に対応する伴奏を取得することと、を含む、
ことを特徴とする請求項9に記載の方法。
【請求項13】
前記の、コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定することの前、前記方法は、さらに、
第1のセンテンスインターフェースを表示し、前記コーラスドライ音声の時間再生ノードのシーケンスに従って、前記コーラスドライ音声に対応するテキストデータ内の各センテンスを表示することと、を含み、
前記ターゲットのコーラスドライ音声セグメントは、前記第1のセンテンスインターフェース上のセンテンス選択操作に基づいて確定される、
ことを特徴とする請求項12に記載の方法。
【請求項14】
前記の、前記ターゲット曲に対応する伴奏を再生することの後、前記方法は、
第2のセンテンスインターフェースを表示し、前記伴奏の時間再生ノードのシーケンスに従って、前記伴奏に対応するテキストデータ内の各センテンスを表示することと、
再生中に前記伴奏における前記コーラスドライ音声に対するサイレント選択操作が取得されたか否かを検出することと、
再生中に前記伴奏における前記コーラスドライ音声に対するサイレント選択操作が取得されたことを検出した場合、現在の時間再生ノードで前記コーラスドライ音声の再生をキャンセルすることと、を含む、
ことを特徴とする請求項9又は請求項12に記載の方法。
【請求項15】
メモリ、プロセッサ、及びネットワークインターフェースを備える電子装置であって、
前記プロセッサは、前記メモリ及び前記ネットワークインターフェースに接続されており、前記ネットワークインターフェースは、ネットワーク通信機能を提供するために用いられ、前記メモリはプログラムコードを記憶するために用いられ、前記プロセッサは、前記プログラムコードを呼び出して請求項1~14のいずれか一項に記載の方法を実行するために用いられる、
ことを特徴とする電子装置。
【請求項16】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~14のいずれか一項に記載の方法が実現される、
ことを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータ応用の技術分野に関し、特に伴奏生成方法、装置及び記憶媒体に関する。
【背景技術】
【0002】
仮想現実(Virtual Reality)技術の発展に伴い、仮想三次元(Three-Dimensional、3D)オーディオ技術も徐々に最適化されている。仮想3Dオーディオ技術は立体的な動的効果を生み出すことができ、それを歌唱ソフトウェアに適用する場合、ユーザーに没入感を与えることができる。現在、仮想3Dオーディオ技術を複数人のコーラスのシーンに適用する場合、既存の技術的解決策は複数の人声を直接重み付けして重ね合わせる方法であるが、この処理方法では音声効果及び聴感の立体感が足りないので、ユーザー体験が低下する。
【発明の概要】
【0003】
本願の実施例は、オーディオのステレオサラウンドの効果を全方位的に達成し、ユーザー体験を向上させることができる伴奏生成方法、装置及び記憶媒体を提供する。
【0004】
一態様では、本願の実施例は伴奏生成方法を提供する。伴奏生成方法は、
ドライ音声信号セットを取得することであって、ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である、取得することと、
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することであって、x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される、生成することと、
仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得することであって、仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる、取得することと、
音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得することと、を含む。
【0005】
一態様では、本願の実施例は伴奏の再生処理方法を提供する。伴奏の再生処理方法は、
ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示することと、
ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得することと、
ターゲット曲に対応する伴奏を再生することと、を含み、
伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、ドライ音声信号セットは、複数のユーザーがターゲット曲に対して録音したドライ音声信号に基づいて得られるものである。
【0006】
もう一態様では、本願の実施例は、取得ユニットと処理ユニットを備える伴奏生成装置を提供する。
【0007】
取得ユニットは、ドライ音声信号セットを取得するために用いられ、ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である。取得ユニットは、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成するために用いられ、x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される。
【0008】
処理ユニットは、仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得するために用いられ、仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる。処理ユニットは、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得するために用いられる。
【0009】
もう一態様では、本願の実施例は、取得ユニットと処理ユニットを備える伴奏の再生処理装置を提供する。
【0010】
取得ユニットは、ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示するために用いられる。取得ユニットは、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得するために用いられる。
【0011】
処理ユニットは、ターゲット曲に対応する伴奏を再生するために用いられる。伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、ドライ音声信号セットは、複数のユーザーがターゲット曲に対して録音したドライ音声信号に基づいて得られるものである。
【0012】
これに応じて、本願の実施例は、メモリ、プロセッサ、及びネットワークインターフェースを備える電子装置を提供する。プロセッサは、メモリ及びネットワークインターフェースに接続されており、ネットワークインターフェースは、ネットワーク通信機能を提供するために用いられ、メモリはプログラムコードを記憶するために用いられ、プロセッサは、プログラムコードを呼び出して本願の実施例における方法を実行するために用いられる。
【0013】
これに応じて、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。コンピュータプログラムがプロセッサによって実行されると、本願の実施例における方法が実現される。
【0014】
これに応じて、本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供する。コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、コンピュータ命令はコンピュータ可読記憶媒体に記憶される。コンピュータ装置のプロセッサは、コンピュータ可読記憶媒体からコンピュータ命令を読み取って実行して、コンピュータ装置に本願の実施例における方法を実行させる。
【0015】
本願の実施例を実施することにより、一方では、ドライ音声信号セット内のターゲット曲に対応する各ドライ音声信号の、異なる仮想三次元空間音像位置における仮想音声信号を取得し、次に、各々のドライ音声信号に対応する仮想音声信号を統合してコーラスドライ音声を取得し、最終的に、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得することができる。他方では、ユーザーによるターゲット曲の選択インジケーションを受けることができ、受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得して再生することができる。このようにして、ドライ音声信号の仮想三次元空間内の音像位置を全方位的にシミュレートして、オーディオのステレオサラウンドの効果を実現することができ、従って、ユーザーは、対応する伴奏を取得するとき、聴感で臨場感があり、没入感のある体験を実現することができる。
【図面の簡単な説明】
【0016】
以下、本出願の実施例または先行技術における技術的解決策をより明確に説明するために、実施例または先行技術の説明に使われる図面を簡単に紹介する。明らかに、以下の説明に使われる図面は本出願のいくつかの実施例にすぎず、当業者は、創造的な努力なしに、これらの図面に基づいて別の図面を得ることができる。
【
図1】本願の実施例に係る伴奏生成方法の応用シナリオの概略図である。
【
図2】本願の実施例に係る伴奏生成方法のフローチャートである。
【
図3a】本願の実施例に係る伴奏生成方法における水平面、上方平面、及び下方平面の概略図である。
【
図3b】本願の実施例に係る伴奏生成方法における仮想三次元空間音像位置の概略図である。
【
図3c】本願の実施例に係る伴奏生成方法において、予め設定された角度を間隔として各平面を分割する概略図である。
【
図4】本願の実施例に係る別の伴奏生成方法のフローチャートである。
【
図5】本願の実施例に係る伴奏生成方法における、ドライ音声信号セット内のドライ音声信号に対応するバイノーラル信号を取得するフローチャートである。
【
図6】本願の実施例に係る伴奏の再生処理方法のフローチャートである。
【
図7a】本願の実施例に係る伴奏の再生処理方法における、ターゲット曲に対応する伴奏を取得するフローチャートである。
【
図7b】本願の実施例に係る伴奏の再生処理方法において第1のセンテンスインターフェースを表示する概略図である。
【
図7c】本願の実施例に係る伴奏の再生処理方法において第2のセンテンスインターフェースを表示する概略図である。
【
図8a】本願の実施例に係る伴奏生成装置の概略構造図である。
【
図8b】本願の実施例に係る伴奏の再生処理装置の概略構造図である。
【
図9】本願の実施例に係る電子装置の概略構成図である。
【発明を実施するための形態】
【0017】
以下、本願の実施例の図面を参照しながら、本願の実施例の技術的解決策を明確且つ完全に説明する。明らかに、説明される実施例は、本願の一部の実施例にすぎず、すべての実施例ではない。本願の実施例に基づいて、当業者が創造的な努力なしに得られるすべての他の実施例は、本願の保護範囲に属する。
【0018】
本願の実施例をさらに詳細に説明する前、本願の実施例で言及された名詞及び用語について説明する。以下の説明は、本願の実施例で言及された名詞及び用語に適用される。
【0019】
1)ドライ音声信号:本願の実施例におけるドライ音声信号は、伴奏音楽を含まない純粋な人声信号を指し、このドライ音声信号は、シングルチャンネルの音声信号であり、すなわち方向情報を含まない。
【0020】
2)バイノーラル信号:バイノーラルとは、2つの音声チャンネルがあることを意味する。その原理は、人が音声を聞くと、左耳と右耳で聞き取った音声の位相差に基づいて音源の具体的な位置を判断できるということである。本願の実施例におけるバイノーラル信号とは、左チャンネル音声信号と右チャンネル音声信号を指す。
【0021】
3)頭部伝達関数(Head Related Transfer Functions、HRTF):HRTFは、両耳伝達関数とも呼ばれ、音波が音源から両耳へ伝達されるプロセスを表す。HRTFは、フィルターセットであり、時間領域の重畳積分(time domain convolution)が周波数領域の重畳積分(frequency domain convolution)と等価であるという原理を採用して、音源の位置情報に対応するHRTFデータに基づいて両耳に伝達される仮想音声信号を算出できる。
【0022】
本願の実施例は、伴奏生成方法、装置及び記憶媒体を提供する。本願の実施例を実施することによって、同一ターゲット曲に対応する複数のドライ音声信号からなるドライ音声信号セットを取得し、且つ、このドライ音声信号セットに含まれる各々のドライ音声信号の異なる仮想三次元空間音像位置に対応する仮想音声信号を取得し、次に、各々のドライ音声信号に対応する仮想音声信号を統合してコーラスドライ音声を取得し、最終的に、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得することができる。これにより、一方では、ドライ音声信号セットに含まれる各々のドライ音声信号の仮想三次元空間における音像位置を全方位的にシミュレートし、ひいては各々のドライ音声信号の異なる仮想三次元空間音像位置に対応する仮想音声信号を統合した後のコーラスドライ音声を取得して、オーディオのステレオサラウンドの効果を実現することができる。他方では、音声効果最適化ルールに従って、コーラスドライ音声と背景音楽に対して音声効果合成処理を行って伴奏を取得することで、オーディオエフェクトの没入感を強めることができる。まとめて言うと、各ドライ音声信号を直接重ね合わせる処理方法と比較して、本願はより豊かなオーディオ処理効果を得ることができ、ユーザー体験を向上させることができる。
【0023】
図1を参照すると、
図1は、本願の実施例に係る伴奏生成方法の応用シナリオの概略図である。
図1に示すように、この応用シナリオはスマートデバイス100を含むことができる。スマートデバイスは有線又は無線方式を通じてサーバ110と通信する。サーバ110はデータベース120に接続される。
【0024】
本願の実施例に係る伴奏生成方法は、スマートデバイス100などの電子装置によって実現されることができる。例えば、スマートデバイス100は、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する選択インジケーションを受信した場合、ターゲット曲に対応するドライ音声信号セットを取得し、且つ、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成し、例えば、仮想音声信号はバイノーラル信号であってもよい。次に、各ドライ音声信号に対応する仮想音声信号を統合してコーラスドライ音声を取得し、また、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って伴奏を取得することができる。一例として、
図1のスマートデバイス100は、「コーラス伴奏」のオプションを示しており、ユーザーは、音声制御を通じてコーラス伴奏モードの選択インジケーションを生成することができ、又はユーザーインターフェイスに表示される選択コントロールをトリガすることでコーラス伴奏モードの選択インジケーションを生成することもできる。ドライ音声信号セットは、スマートデバイス100によって事前にローカルに記憶されたものであってもよく、又はスマートデバイス100によってサーバ110又はデータベース120から取得されるものであってもよい。
【0025】
本願の実施例に係る伴奏生成方法は、サーバ110などの電子装置によって実現されることもできる。例えば、サーバ110は、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する選択インジケーションを受信した場合、ターゲット曲に対応するドライ音声信号セットを取得し、且つ、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成し、例えば、仮想音声信号はバイノーラル信号であってもよい。次に、各ドライ音声信号に対応する仮想音声信号を統合してコーラスドライ音声を取得し、また、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って伴奏を取得することができる。ドライ音声信号セットは、サーバ110によって事前にローカルに記憶されたものであってもよく、サーバ110によってデータベース120から取得されたものであってもよい。最終的に得られた伴奏はローカルに記憶されてもよく、データベース120に記憶されてもよく、必要なときに呼び出される。もちろん、サーバ110は、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する選択インジケーションを受信することを待たずに伴奏の生成を開始することができる。サーバ110は、適切なタイミングで、例えば、サーバ110の負荷が低いとき、又はサーバ110がターゲット曲の新たなドライ音声信号を受信したとき、又は伴奏生成に関する管理操作を受信したとき、本願の伴奏生成方法の関連ステップを実行し始めて伴奏を生成することができる。好ましくは、コーラスバージョンの伴奏を事前に生成してサーバに記憶することができる。多くの歌の伴奏が生成された後、ユーザーは、スマートデバイス100を通じて、ユーザーインタフェースで「コーラス伴奏」を選択するなどの方法でターゲット曲に対する選択インジケーションを送信することができる。このようにして、サーバ110は、選択インジケーションに応答して、生成された多くの伴奏からターゲット曲のコーラス伴奏を見つけて、且つコーラス伴奏をスマートデバイス100に送信することができる。
【0026】
本願の実施例に係る伴奏生成方法は、スマートデバイス100などの電子装置とサーバ110などの電子装置とによって協働して実現されることもできる。例えば、サーバ110は、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成し、例えば、仮想音声信号はバイノーラル信号であってもよい。次に、各ドライ音声信号に対応する仮想音声信号を統合してコーラスドライ音声を取得し、また、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って伴奏を取得し、且つ伴奏をスマートデバイス100に送信することができる。
【0027】
本願の実施例に係る伴奏生成方法は、スマートデバイス100などの電子装置とサーバ110などの電子装置とによってコンピュータプログラムを実行することで実現されることもできる。たとえば、コンピュータプログラムは、オペレーティングシステムのネイティブプログラム又はソフトウェアモジュールであってもよく、ローカルアプリケーション(APP、application)であってもよく、ミニプログラムであってもよく、まとめると、コンピュータプログラムは、任意の形式のアプリケーション、モジュール、又はプラグインであってもよく、本願の実施例ではこれについて特に限定されない。
【0028】
本願の実施例に係わるスマートデバイスは、パーソナルコンピュータ、ノートパソコン、スマートフォン、タブレットコンピュータ、スマートウォッチ、スマート音声対話デバイス、スマート家電製品、車載端末、スマートウェアラブルデバイスなどであってもよいが、これらに限定されない。サーバは、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスター又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツデリバリネットワーク(Content Delivery Network、CDN)、並びにビッグデータ及び人工知能プラットフォームなどに基づくクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。スマートデバイス及びサーバは、有線又は無線通信方法で直接的又は間接的に接続されることができ、本願の実施例では特に限定されない。
【0029】
理解できるように、
図1に示されるドライ音声信号及び仮想三次元空間音像位置の数は、例示的なものに過ぎず、実現のニーズに応じて、ドライ音声信号セットには任意の数のドライ音声信号が含まれてもよく、仮想三次元空間には任意の数の仮想三次元音像位置が含まれてもよい。
【0030】
さらに、
図2を参照すると、
図2は、本願の実施例に係る伴奏生成方法のフローチャートである。本願の実施例の方法は、電子装置に応用されることができる。たとえば、電子装置はスマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、パーソナルコンピュータなどのスマートデバイスであってもよく、又はサーバなどであってもよい。この方法はS201~S204のステップを含むが、これらに限定されない。
【0031】
S201:ドライ音声信号セットを取得する。
【0032】
本願の実施例では、電子装置は、ターゲット曲に対応するいくつかのドライ音声信号を含むドライ音声信号セットを取得することができる。
【0033】
一実施例では、ドライ音声信号セットは、オーディオデータベースから取得されることができる。オーディオデータベースは、複数のユーザーが同じ歌を歌うときに記録した初期ドライ音声信号を含む。なお、オーディオデータベース内の初期ドライ音声信号は、ユーザーの承認を得て記録されたものである。電子装置は、初期ドライ音声信号の音声パラメータに基づいて条件を満たすドライ音声信号を選別して、ドライ音声信号セットを構成することができる。
【0034】
一実施例では、電子装置は、イントネーション特性パラメータ及び音質特性パラメータに基づいて、初期ドライ音声信号セットから、条件を満たすドライ音声信号を選別することができる。イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含んでもよい。イントネーション特性パラメータに基づいて選別された、条件を満たすドライ音声信号は、歌のピッチ及びリズム並びに伴奏のメロディーの一致性が高いという特徴を有する。音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含んでもよい。音質特性パラメータに基づいて選別された、条件を満たすドライ音声信号は、オーディオがはっきりし、オーディオのエネルギーが適当であり、オーディオの速度が均一であるなどの特徴を有する。本願の実施例は、条件を満たすドライ音声信号の選別順序を限定しない。例えば、電子装置は、まず、イントネーション特性パラメータに基づいて条件を満たすドライ音声信号を選別し、次に、予め設定されたイントネーション特性パラメータの条件を満たすドライ音声信号から、予め設定された音質特性パラメータの条件を満たすドライ音声信号を選別することができ、又は、まず、音質特性パラメータに基づいて条件を満たすドライ音声信号を選別し、次に、予め設定された音質特性パラメータの条件を満たすドライ音声信号から、予め設定されたオーディオ特性パラメータの条件を満たすドライ音声信号を選別することもできる。このようにして初期ドライ音声信号セットから選別されたドライ音声信号からなるドライ音声信号セットは、良好なイントネーションと音質を備えている。
【0035】
S202:N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成する。
【0036】
本願の実施例では、電子装置は、ドライ音声信号セット内の各ドライ音声信号の、仮想三次元空間における異なる音像位置をシミュレートし、その後、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することができる。仮想音声信号は、例えばバイノーラル信号であり得る。N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、1つ以上のドライ音声信号に対応することができる。
【0037】
一実施例では、N個の仮想三次元空間音像位置は、次の方法で仮想三次元空間内でシミュレートすることで得られることができる。
図3aに示すように、仮想三次元空間内のx軸、y軸、及びz軸の正の方向は、それぞれ人の頭の真正面、左側、上方の方向に対応する。仮想三次元空間は、水平面301、水平面となす角度が第1の角度閾値である上方平面302と、水平面となす角度が第2の角度閾値である下方平面303という3つの平面に分割される。
図3bに示すように、仮想三次元空間内の各仮想三次元空間音像位置は、方位角及び仰角を有する。仮に、θをもって仮想三次元空間音像位置の方位角を表し、φをもって仮想三次元空間音像位置の仰角を表すと、各仮想三次元空間音像位置は(θ,φ)で表すことができる。これに応じて、水平面301は0°である仰角に対応する平面である。上方平面は第1の角度閾値である仰角に対応する平面であり、第1の角度閾値は水平面より上の任意の角度値であってもよい。下方平面は第2の角度閾値である仰角に対応する平面であり、第2の角度閾値は水平面より下の任意の角度値であってもよい。例えば、上方平面は40°である仰角に対応する平面であってもよく、下方平面は-40°である仰角に対応する面であってもよい。方位角θは、仮想三次元空間音像位置の、平面で時計回り方向に沿って目標方向線までの角度を表すことができる。さらに、
図3cに示すように、異なる仰角に対応する平面を、それぞれに対応する予め設定された角度を間隔として分割した後、複数の仮想三次元空間音像位置を取得することができる。具体的には、第1の予め設定された角度を間隔として水平面を分割した後、水平面でのn1個の仮想三次元空間音像位置を取得できる。第2の予め設定された角度を間隔として上方平面を分割した後、上方平面でのn2個の仮想三次元空間音像位置を取得できる。第3の予め設定された角度を間隔として下方平面を分割した後、下方平面でのn3個の仮想三次元空間音像位置を取得できる。例えば、仮に、第1の予め設定された角度が10°であり、第2の予め設定された角度と第3の予め設定された角度が皆15°である場合、10°を間隔として水平面を分割すると、36個の仮想三次元空間音像位置を取得でき、15°を間隔として上方平面を分割すると、24個の仮想三次元空間音像位置を取得でき、15°を間隔として下方平面を分割すると、同様に24個の仮想三次元空間音像位置も取得でき、合計84個の異なる仮想三次元空間音像位置を取得できる。なお、本願の実施例における第1の予め設定された角度、第2の予め設定された角度、及び第3の予め設定された角度は、任意の予め設定された角度値であり得る。上記の3つの予め設定された角度の具体的な値は、ただ例を挙げるために用いられ、本願の実施例を限定するものではない。これにより、仮想三次元空間内の3つの異なる平面で、異なる方位角を間隔として、複数の仮想三次元空間音像位置を仮想化することができ、音源の全方位的な没入感を有するシミュレーションを実現することができる。
【0038】
一実施例では、各々の仮想三次元空間音像位置は、1つのドライ音声信号に対応してもよく、複数のドライ音声信号に対応してもよい。電子装置は、各々の仮想三次元空間音像位置における1つ又は複数のドライ音声信号に対応する仮想音声信号を取得することができる。具体的には、電子装置は、以下の方法で、仮想三次元空間内の各ドライ音声信号に対応する仮想音声信号を取得することができる。ドライ音声信号に対応する仮想三次元空間音像位置の方位角及び仰角を取得し、仮想三次元空間音像位置の方位角及び仰角に基づいて仮想三次元空間音像位置に対応する頭部伝達関数HRTFを確定し、仮想三次元空間音像位置の方位角及び仰角と、対応するHRTFデータとに基づいて、仮想空間音像位置におけるドライ音声信号に対応する仮想音声信号を算出することができる。例えば、ドライ音声信号Xに対応する仮想三次元空間音像位置の方位角及び仰角は(θ,φ)であり、仮想三次元空間音像位置に対応するHRTFデータの式は、数1である。
【数1】
仮想三次元空間音像位置におけるドライ音声信号Xに対応する仮想音声信号であるバイノーラル信号Y
L及びY
Rを算出し、Y
Lは左チャンネル信号であり、Y
Rは右チャンネル信号である。
【0039】
一実施例では、電子装置は、ドライ音声信号セットから一部のドライ音声信号を取得することができ、例えば、より良いイントネーション及び音質を有するドライ音声信号を、ランダムに取得し、又は新しい選別ルールに従って選別することができる。選別された一部のドライ音声信号に対して別々に遅延処理を行って、これらのドライ音声信号のうちの各ドライ音声信号に対応する遅延バイノーラル信号を取得する。具体的には、1つのドライ音声信号に対して遅延処理を実行する場合、8組の異なる時間パラメータを選択できる。なお、8組の時間パラメータは、遅延左チャンネル信号を取得するための8つの時間パラメータと、遅延右チャンネル信号を取得するための8つの時間パラメータを表し、合計16個の時間パラメータを選択する。たとえば、一般的なルームインパルス応答では80msが残響時間とされることに基づいて、21ms~79msの範囲で等しくない16個のパラメータを時間パラメータとして選択できる。又は、実際のニーズに応じて、別の合理的な範囲でランダムに16個(又はその他の値)の等しくないパラメータを時間パラメータとして選択することもできる。このようにして、人の頭の左耳又は右耳で得られるドライ音声信号をシミュレートすることができ、オーディオ効果をより豊かにすることができる。一実施例では、選択方法と、遅延処理の時間パラメータ(遅延時間パラメータ)の設定は、1つのインターフェースを通じて調整可能であり、コーラスオーディオを作成するユーザーの柔軟な配置を容易にする。なお、仮想音声信号を取得する上述のステップと、遅延左チャンネル信号及び遅延右チャンネル信号を取得するステップは、同時に又は前後に実行されることができ、本願ではこれについて限定されない。
【0040】
S203:仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得する。
【0041】
本願の実施例では、電子装置は、仮想音声信号セット内の各仮想音声信号を統合して、コーラスドライ音声を取得することができる。
【0042】
一実施例では、各ドライ音声信号に対応する仮想音声信号の統合は、統合された仮想音声信号の音量を[-1dB,1dB]に調整するという目的を達成するために、正規化処理を通じて実現されることができる。統合処理しているところ扱う各仮想音声信号は、取得されたN個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置におけるドライ音声信号に対応する仮想音声信号と、ドライ音声信号セット内の一部のドライ音声信号に対して遅延処理を行って取得されたそれぞれの遅延バイノーラル信号を含む。
【0043】
S203:音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得する。
【0044】
本願の実施例では、電子装置は、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を実行して、最終的な伴奏を得ることができる。音響効果最適化ルールは、例えば、ターゲット曲の背景音楽と、上記得られた複数のドライ音声信号に対応する仮想音声信号との音声パラメータを調整することであってもよく、音声パラメータは、音量、音色などよく見られる調整可能なパラメータであってもよい。
【0045】
一実施例において、電子装置は、コーラスドライ音声を取得した後、ターゲット曲の背景音楽を取得できる。電子装置は、取得したコーラスドライ音声とターゲット曲の背景音楽との間のエネルギー関係がエネルギー比条件を満たさない場合、コーラスドライ音声とターゲット曲の背景音楽との間のエネルギー関係を調整できる。エネルギー比条件は、コーラスドライ音声のエネルギー値とターゲット曲の背景音楽のエネルギー値との比例が比例閾値より小さいように設定されてもよく、コーラスドライ音声の音量がターゲット曲の背景音楽の音量より3dB低いように設定されてもよい。これにより、コーラスドライ音声のエネルギーがターゲット曲の背景音楽のエネルギーより大きくなることを防ぎ、最終的な伴奏をより調和させることができる。
【0046】
本願の実施例を実施することで、各ドライ音声信号の仮想三次元空間内の異なる仮想三次元空間音像位置に対応する仮想音声信号を取得することができ、その後、各仮想音声信号を統合してコーラスドライ音声を取得し、また、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得する。これによって、オーディオの聴感上の立体的なサラウンド効果を実現し、オーディオエフェクトの没入感を強化し、良好なユーザー体験を提供する。
【0047】
さらに、
図4を参照すると、
図4は、本願の実施例に係る別の伴奏生成方法のフローチャートである。本願の実施例の方法は、電子装置に応用されることができる。電子装置は、たとえば、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、パソコン、サーバなどである。この方法はS401~S412のステップを含むが、これらに限定されない。
【0048】
S401:オーディオデータベースから初期ドライ音声信号セットを取得する。
【0049】
本願の実施例では、電子装置は、オーディオデータベースから初期ドライ音声信号セットを取得することができる。なお、オーディオデータベース内の初期ドライ音声信号セットは、ユーザーの承認を得て記録されたものである。
【0050】
一実施例では、オーディオデータベースは、独立して設定されたデータベースであってもよい。オーディオデータベースは、電子装置に集積されてもよく、すなわち、オーディオデータベースは、電子装置の内部に記憶されているとみなすことができる。ここで、初期ドライ音声信号セットとは、オーディオデータベースのうちの、ユーザーが同じ曲を歌うとき、承認した後に記録したオリジナルドライ音声信号からなるセットを指す。
【0051】
S402:各々の初期ドライ音声信号の音声パラメータに基づいて、初期ドライ音声信号セットからドライ音声信号を選別して、選別されたドライ音声信号がドライ音声信号セットを構成する。
【0052】
本願の実施例では、電子装置は、各々の初期ドライ音声信号の音声パラメータに基づいて、初期ドライ音声信号セットから条件を満たすドライ音声信号を選別することができ、これによって初期ドライ音声信号セットを絞ってドライ音声信号セットを形成する。
【0053】
一実施例では、初期ドライ音声信号の音声パラメータは、初期ドライ音声信号のイントネーション特性パラメータ及び音質特性パラメータを含むことができる。イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含むことができ、音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含むことができる。このようにして、初期ドライ音声信号セットのうち、ノイズが多い、調子が外れる、オーディオの時間が短すぎる、オーディオのエネルギーが低い、ポップ音があるなど劣ったオーディオ効果を有する初期ドライ音声信号を除去して、イントネーションと音質に優れたドライ音声信号セットを取得することができる。
【0054】
S403:N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応する頭部伝達関数を取得する。
【0055】
本願の実施例では、電子装置は、仮想三次元空間内のN個の仮想三次元空間音像位置を取得し、その後、N個の仮想三次元空間音像位置に基づいて各仮想三次元空間音像位置に対応する頭部伝達関数を取得することができる。
【0056】
一実施例では、仮想三次元空間内の各仮想三次元空間音像位置に対応する頭部伝達関数は事前に頭部伝達関数データベースに記憶されることができ、これによって電子装置は仮想三次元空間音像位置に基づいて頭部伝達関数データベースから対応する頭部伝達関数を呼び出すことができる。
【0057】
S404:ターゲット仮想三次元空間音像位置に対応する頭部伝達関数を通じて、ターゲット仮想三次元空間音像位置に対応するドライ音声信号を処理して、ターゲット仮想三次元空間音像位置における仮想音声信号を取得する。
【0058】
本願の実施例では、電子装置は、ターゲット仮想三次元空間音像位置に対応する頭部伝達関数に基づいてターゲットドライ音声信号を処理して、ターゲット仮想三次元空間音像位置におけるターゲットドライ音声信号に対応する仮想音声信号を取得することができる。ターゲット仮想三次元空間音像位置は、N個の仮想三次元空間音像位置のうちの任意1つの仮想三次元空間音像位置でありえる。ターゲットドライ音声信号は、ドライ音声信号セット内の任意1つのドライ音声信号でありえる。
【0059】
一実施例では、ターゲット仮想三次元空間音像位置に対応する頭部伝達関数は、仮想三次元空間音像位置に対応するHRTFデータである。ターゲット仮想三次元空間音像位置の方位角及び仰角に基づいて、既知のHRTFデータからターゲット仮想三次元空間音像位置に対応するHRTFデータを確定することができ、その後、電子装置は、ターゲットドライ音声信号とターゲット仮想三次元空間位置に対応するHRTFデータに対して畳み込みを行って、ターゲット仮想三次元空間音像位置におけるターゲットドライ音声信号に対応する仮想音声信号を取得することができる。
【0060】
S405:ドライ音声信号セットに含まれるx個のドライ音声信号からp個のドライ音声信号を取得する。
【0061】
本願の実施例では、電子装置は、ドライ音声信号セットに含まれるx個のドライ音声信号からランダムにp個のドライ音声信号を取得することができる。なお、S404とS405は同時に実行されることもでき、前後に実行されることもできるが、これについて本願では限定されない。
【0062】
S406:p個のドライ音声信号のうちの各々のドライ音声信号に対して遅延処理を実行して、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号及び遅延右チャンネル信号を取得する。
【0063】
本願の実施例では、電子装置は、p個のドライ音声信号のうちの各々のドライ音声信号に対して、m1個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号を取得することができ、m1は正の整数である。また、電子装置は、p個のドライ音声信号のうちの各々のドライ音声信号に対して、m2個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延右チャンネル信号を取得することができ、m2は正の整数である。
【0064】
一実施例では、電子装置は、異なる時間パラメータを有する16個の遅延器を通じて1つのドライ音声信号を処理して、異なる遅延及び減衰度を有する16個のドライ音声信号を取得し、その後、異なる遅延及び減衰度を有する16個のドライ音声信号を2組に均等に分け、別々に各組の異なる遅延及び減衰度を有するドライ音声信号を重ね合わせて、最後に、このドライ音声信号に対応する遅延左チャンネル信号及び遅延右チャンネル信号を取得することができる。
【0065】
一実施例では、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延バイノーラル信号を取得することの前、低音増強及び残響シミュレーションモジュールを追加することでドライ音声信号の音場を広げることができ、これによって遅延処理を通じて得られたバイノーラル信号のうち、遅延左チャンネル信号と遅延右チャンネル信号の関連性を低減することができる。なお、仮想音声信号を取得するS403及びS404のステップと、遅延左チャンネル信号及び遅延右チャンネル信号を取得するS405及びS406のステップは、同時に実行されることもでき、前後に実行されることもでき、本願ではこれについて限定されない。S405とS406は選択可能な2つのステップである。
【0066】
S407:仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得する。
【0067】
本願の実施例では、電子装置は、仮想音声信号セット内の各仮想音声信号を統合して、コーラスドライ音声を取得することができる。仮想音声信号セットは、電子装置がN個の仮想三次元空間位置をシミュレートすることで得られた各ドライ音声信号に対応する仮想音声信号と、電子装置がドライ音声信号セット内のp個のドライ音声信号に対して遅延処理を実行することで得られた遅延バイノーラル信号とを含む。
【0068】
一実施例では、仮想音声信号セット内の各々の仮想音声信号はバイノーラル信号であり、バイノーラル信号は左チャンネル信号と右チャンネル信号を含む。各仮想音声信号を統合するとき、左チャンネル信号と右チャンネル信号を別々に処理することができる。左チャンネル信号と右チャンネル信号は、同じ処理規則に適用される。統合処理は正規化処理を通じて実現されることができ、これによって統合処理後のバイノーラル信号の音量は[-1dB,1dB]となる。たとえば、1000個の左チャンネル信号と1000個の右チャンネル信号を含む1000個のバイノーラル信号があると仮定すると、各左チャンネル信号を別々に正規化した後、1000個の正規化された左チャンネル信号の和を1000で割ると、統合処理された左チャンネル信号を取得することができる。同様に、各右チャンネル信号を別々に正規化した後、1000個の正規化された右チャンネル信号の和を1000で割ると、統合処理された右チャンネル信号を取得することができる。このようにして、コーラスドライ音声を取得することができる。
【0069】
一実施例では、得られたコーラスドライ音声とターゲット曲の背景音楽との間のエネルギー関係は、エネルギー比条件を満たす可能性があり、エネルギー比条件を満たさない可能性もある。得られたコーラスドライ音声と背景音楽との間のエネルギー関係がエネルギー比条件を満たす場合、ステップS408は略されることができる。これに応じて、得られたコーラスドライ音声と背景音楽との間のエネルギー関係がエネルギー比条件を満たさない場合、ステップS408を実行する。
【0070】
S408:ターゲット曲の背景音楽を取得し、コーラスドライ音声と背景音楽との間のエネルギー関係を調整する。
【0071】
本願の実施例では、電子装置は、ターゲット曲の背景音楽を取得し、且つコーラスドライ音声と、対応する背景音楽との間のエネルギー関係を調整することができ、調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係はエネルギー比の条件を満たす。
【0072】
一実施例では、コーラスドライ音声のエネルギーが高すぎて背景音楽のエネルギーを上回る可能性がある。コーラスドライ音声と背景音楽を調整することにより、調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係がエネルギー比条件を満たすようにすることができ、この方法ではコーラスドライ音声のエネルギーが大きすぎる状況に対応することができる。エネルギー比条件は、コーラスドライ音声のエネルギー値と背景音楽のエネルギー値との比例が比例閾値より小さいように設定されてもよく、コーラスドライ音声の音量が背景音楽の音量より3dB低いように設定されてもよい。
【0073】
一実施例では、ターゲット曲の背景音楽を取得した後、上記のステップS202で、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することについての詳細な説明に従って、背景音楽を同様に処理して、類似の効果を有するコーラスドライ音声と背景音楽を取得して、より調和のとれた一体感のあるリスニング体験が実現される。
【0074】
S409:予め設定された周波数帯域でコーラスドライ音声に対してスペクトルイコライゼーション処理を行う。
【0075】
本願の実施例では、電子装置は、予め設定された周波数帯域でコーラスドライ音声に対してスペクトルイコライゼーション処理を実行することができる。
【0076】
一実施例では、電子装置は、予め設定された周波数帯域でスペクトルノッチ処理を追加することでスペクトルイコライゼーションの目的を達成することができる。例えば、電子装置は、4kHzの近くに約6dBのスペクトルノッチ処理を追加することができる。これにより、コーラスドライ音声の聴感をより自然にし、スペクトルの不調和による高周波電流音を防ぐことができる。
【0077】
S410:背景音楽の音量を取得する。
【0078】
本願の実施例では、電子装置は背景音楽の音量を取得することができる。
【0079】
S411:音量が音量閾値より小さい場合、調整された背景音楽の音量を音量閾値まで上げる。
【0080】
本願の実施例では、背景音楽の音量が音量閾値より小さい場合、電子装置は、背景音楽の音量を音量閾値まで上げることができる。たとえば、音量閾値を-14dBに設定できる。背景音楽の音量が-14dB未満である場合、電子装置は背景音楽の音量を-14dBまで上げることができる。
【0081】
S412:伴奏を取得する。
【0082】
本願の実施例では、電子装置はコーラスドライ音声と背景音楽を重ね合わせて最終的な伴奏を取得することができる。なお、伴奏は、S408~S411の任意1つのステップ又は複数のステップの組み合わせに従って取得されてもよい。また、一実施例では、実際のニーズに応じてS408~S411を選択的に実行することができる。例えば、コーラスドライ音声と背景音楽との間のエネルギー関係を調整する必要がない可能性があるので、この場合S408は実行されない。同じように、予め設定された周波数帯域でコーラスドライ音声に対してスペクトルイコライゼーション処理を行うことも選択可能である。別の例として、ステップS410及びS411は実行されなくてもよい。
図4は、伴奏をより調和的かつ自然にし、音質を向上させるために採用される技術的解決策のみを示している。また、S408のエネルギー関係調整、S409のスペクトルイコライゼーション調整、並びにS410及びS411の音量調整という3つの方面を実行する順序は本願では限定されない。
【0083】
一実施例では、最終的な伴奏を取得した後、伴奏をデータベースに記憶することができる。これによって、電子装置は、同じ曲に対するコーラス要求を受信したとき、データベースから対応する伴奏を直接取得することができる。
【0084】
本願の実施例を実施することにより、N個の仮想三次元空間位置をシミュレートして各ドライ音声信号に対応する仮想音声信号を取得でき、また、各ドライ音声信号に対して遅延処理を施して各ドライ音声信号に対応する遅延バイノーラル信号を取得でき、これによってコーラスドライ音声信号を豊かにすることができる。加えて、コーラスドライ音声と背景音楽との間のエネルギー関係を調整することによって、最後に得られる伴奏の聴感はより調和的かつ自然になり、ユーザーはコーラスをするときの空間感及び没入感を明らかに感じることができる。
【0085】
さらに、
図5を参照すると、
図5は、本願の実施例に係る伴奏生成方法における、仮想音声信号を取得するフローチャートである。仮想音声信号を取得することは、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置におけるドライ音声信号に対応する仮想音声信号を取得することと、p個のドライ音声信号のうちの各々のドライ音声信号に対して遅延処理を実行して、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延バイノーラル信号を取得することとを含む。
【0086】
本願の実施例では、ドライ音声信号セットを取得した後、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置におけるドライ音声信号に対応する仮想音声信号を取得することができ、ドライ音声信号セット内のp個のドライ音声信号のうちの各ドライ音声信号に対して遅延処理を実行して、p個のドライ音声信号のうちの各ドライ音声信号に対応する遅延バイノーラル信号を取得することもできる。
【0087】
一例として、
図5に示すように、ドライ音声信号セットに含まれるドライ音声信号Xとドライ音声信号Wに対して、別々に上記の2つの方法により、対応する仮想音声信号が取得される。ドライ音声信号Xとドライ音声信号Wは、ドライ音声信号セット内の任意のドライ音声信号であってもよい。具体的には、電子装置は、ドライ音声信号セット内のドライ音声信号Xを取得した後、仮想三次元空間音像位置の方位角及び仰角に基づいて仮想三次元空間音像位置の位置情報を説明することができ、即ち(θ,φ)として説明することができる。そして、仮想三次元空間音像位置の位置情報(θ,φ)に応じて、仮想三次元空間音像位置に対応する頭部伝達関数HRTF(θ,φ)を確定することができる。次に、ドライ音声信号Xと、仮想三次元空間音像位置に対応する頭部伝達関数HRTF(θ,φ)に対して畳み込み演算を行って、仮想三次元空間音像位置におけるドライ音声信号に対応する仮想音声信号を取得することができる。仮想音声信号は、左チャンネル信号Y
Lと右チャンネル信号Y
Rを含むバイノーラル信号である。このようにして得られた、ドライ音声信号に対応する仮想音声信号は、ユーザーの立体没入感を強めることができる。
【0088】
加えて、電子装置は、ドライ音声信号セット内のドライ音声信号Wを取得した後、ドライ音声信号Wに対して遅延処理を実行することができる。例として、電子装置は、dL(1),dL(2),…,dL(8)とdR(1),dR(2),…,dR(8)という、異なる時間パラメータを有する合計16個の遅延器を通じてドライ音声信号Wを遅延させる。その後、dL(1),dL(2),…,dL(8)という8個の遅延器の遅延処理を通じて得られた8つのドライ音声信号を重ね合わせて、ドライ音声信号Wに対応する遅延左チャンネル信号WLを取得する。dR(1),dR(2),…,dR(8)という8個の遅延器の遅延処理を通じて得られた8つのドライ音声信号を重ね合わせて、ドライ音声信号Wに対応する遅延右チャンネル信号WRを取得する。このようにして得られた、ドライ音声信号に対応する遅延バイノーラル信号は、人間の頭の左耳又は右耳でのバイノーラル信号をシミュレートすることができ、ユーザーのリスニング体験を豊かにすることができる。
【0089】
一実施例では、最終的に得られた仮想音声信号セットは、上記の2つの状況を含む。すなわち、最終的な仮想音声信号セットは、Z={ZL,ZR}、ZL=YL+WR、ZR=YR+WRである。なお、上述の、仮想音声信号を取得するステップと、遅延左チャンネル信号及び遅延右チャンネル信号を取得するステップは、同時に又は前後に実行することができ、本願ではこれについて限定されない。上記の2つの異なる方法を使用して、ドライ音声信号セット内のドライ音声信号に対応する仮想音声信号を取得することによって、コーラス中の場面体験を全方位的に示し、オーディオ効果をより豊かにすることができる。
【0090】
さらに、
図6を参照すると、
図6は、本願の実施例に係る伴奏の再生処理方法のフローチャートである。本願の実施例の方法は、電子装置に応用することができる。電子装置は、例えば、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、パーソナルコンピュータなどのスマートデバイス、又はサーバであり得る。この方法はステップS601~S603を含むが、これらに限定されない。
【0091】
S601:ユーザーインターフェースを表示する。
【0092】
本願の実施例では、電子装置は、ユーザーインターフェースを表示することができる。ユーザーインターフェースは、ターゲット曲に対するユーザーの選択インジケーションを受け取るために用いられる。
【0093】
一実施例では、選択インジケーションは、ターゲット曲の伴奏モードに対する選択インジケーションを含んでもよい。ターゲット曲の伴奏モードは、コーラス伴奏モード、オリジナル伴奏モード、又は人工知能(Artificial Intelligence、AI)伴奏モードであってもよいが、これらに限定されない。
【0094】
一実施例では、選択インジケーションは、ユーザーがユーザーインターフェイスに表示される選択コントロールをトリガすることで生成されるインジケーションであってもよい。選択インジケーションは、ユーザーが音声で電子装置を制御して生成される選択インジケーションであってもよく、例えば、電子装置に対するユーザーの音声制御は、「コーラス伴奏モードで再生してください」という内容であってもよい。これにより、電子装置は、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する選択インジケーションを生成することができる。
【0095】
S602:ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得する。
【0096】
本願の実施例では、電子装置は、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲のコーラス伴奏モードに対応する伴奏を取得することができる。
【0097】
一実施例において、ユーザーインターフェースにターゲット曲の伴奏モードに対する選択コントロールが表示される。選択コントロールは、コーラス伴奏モード選択コントロールとオリジナル伴奏モード選択コントロールとを含んでもよい。電子装置は、ターゲット曲に対応する伴奏を取得することの前、コーラス伴奏モード選択コントロールに対する選択操作が取得されたか否かを検出することができる。電子装置は、コーラス伴奏モード選択コントロールに対する選択操作が取得されたことを検出した場合、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示することを、確認する。
【0098】
一実施例では、コーラス伴奏モードに対応する伴奏は、コーラスドライ音声及び背景音楽に基づいて生成される。コーラスドライ音声は、仮想音声信号セットに基づいて生成されることができ、仮想音声信号セットは、得られたドライ音声信号セットに基づいて生成された、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号を含む。ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応することができ、且つ、各々の仮想三次元空間音像位置は、1つ又は複数のドライ音声信号に対応することができる。ドライ音声信号セットは、複数のユーザーがターゲット曲に対して録音したドライ音声信号に基づいて得られたものである。なお、ターゲット曲についてのユーザーのドライ音声信号は、ユーザーの承認を得て記録されたものである。具体的には、コーラス伴奏モードに対応する伴奏生成方法について、上記の
図2から
図5に示した実施例を参考できるので、ここでは再び説明しない。
【0099】
S603:ターゲット曲に対応する伴奏を再生する。
【0100】
本願の実施例では、電子装置は、ターゲット曲のコーラス伴奏モードで対応する伴奏を取得した後、その伴奏をユーザーに再生することができる。
【0101】
一実施例では、ターゲット曲に対応する伴奏はカラオケのシーンで使用されることができる。ユーザーは伴奏を再生しながら歌うことができる。ユーザーの承認を得た場合、電子装置は、ユーザーの歌声を収集して、それをターゲット曲に対応する伴奏と融合させてから再生することができる。これによって、まるでコンサートにいるようなユニークな体験をユーザーに提供する。
【0102】
一実施例では、
図7aに示すように、電子装置がターゲット曲に対応する伴奏を取得することは、ステップS701~S704を含むことができるが、これらに限定されない。
【0103】
S701:伴奏リクエストをサーバに送信する。
【0104】
本願の実施例では、電子装置は伴奏リクエストをサーバに送信することができ、伴奏リクエストはターゲット曲の識別情報を含むことができる。
【0105】
一実施例において、ターゲット曲の識別情報はターゲット曲を識別するために用いられる唯一の情報であり、例えば、ターゲット曲の識別情報はターゲット曲の曲名であってもよい。
【0106】
S702:サーバによって伴奏リクエストに応答して返されたコーラスドライ音声と背景音楽を受信する。
【0107】
本願の実施例では、電子装置は、サーバによってターゲット曲の伴奏リクエストに応答して返されたコーラスドライ音声及び背景音楽を受信することができる。
【0108】
一実施例では、サーバは、コーラスドライ音声と背景音楽を別々に返すことができ、コーラスドライ音声と背景音楽を統合してから返すこともできる。具体的な返送方法はユーザーの設定に従って選択することができる。
【0109】
S703:コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定する。
【0110】
本願の実施例では、電子装置は、返されたコーラスドライ音声に基づいて、ターゲットのコーラスドライ音声セグメントを確定することができる。
【0111】
一実施例では、
図7bに示すように、電子装置は、第1のセンテンスインターフェースを表示することができる。第1のセンテンスインターフェースでは、コーラスドライ音声に対応するテキストデータ内の各センテンスが、コーラスドライ音声の時間再生ノードのシーケンスに従って表示されている。ユーザーは、第1のセンテンスインターフェイスに表示される各センテンスに基づいて、ターゲットのコーラスドライ音声セグメントを選択することができる。
【0112】
一実施例では、ターゲットのコーラスドライ音声セグメントは、コーラスドライ音声のうちのセンテンスの一部から構成されてもよく、コーラスドライ音声のうちのセンテンスのすべてから構成されてもよく、具体的にはユーザーの選択操作によって決定されることができる。
【0113】
S704:ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声及び背景音楽に基づいて、ターゲット曲に対応する伴奏を取得する。
【0114】
本願の実施例では、電子装置は、ユーザーによって選択されたターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声及び背景音楽に基づいて、ターゲット曲に対応する伴奏を取得することができる。
【0115】
一実施例では、
図7cに示すように、電子装置は、第2のセンテンスインターフェースを表示することができる。第2のセンテンスインターフェースは、ターゲット曲に対応する伴奏の再生中に表示されることができる。また、第2のセンテンスインターフェースでは、伴奏に対応するテキストデータ内の各センテンスが伴奏の時間再生ノードのシーケンスに従って表示されることができる。
【0116】
一実施例では、電子装置は、再生中に伴奏におけるコーラスドライ音声に対するサイレント選択操作が取得されたか否かを検出することもできる。伴奏におけるコーラスドライ音声に対するユーザーのサイレント選択操作が取得されれば、現在の時間再生ノードで伴奏におけるコーラスドライ音声の再生をキャンセルし、伴奏における背景音楽の再生のみを維持することができる。
【0117】
本願の実施例を実施することにより、一方では、ターゲット曲に対するユーザーの選択インジケーションを受けることができる。ユーザーの選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得して再生することができる。他方では、コーラス伴奏モードでのターゲット曲の伴奏はコーラスドライ音声と背景音楽に基づいて生成される。コーラスドライ音声からターゲットコーラスドライ音声セグメントを確定し、ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声と背景音楽に基づいて、ターゲット曲に対応する伴奏を生成する。これにより、ターゲット曲に対応する伴奏を再生するとき、ユーザーにまるでコンサートにいるかのように体験させ、聴感で臨場感を感じさせるほか、ユーザーは伴奏におけるコーラスドライ音声を柔軟に選択することもでき、伴奏の楽しさを高め、ユーザー体験を向上させる。
【0118】
さらに、
図8aを参照すると、
図8aは、本願の実施例に係る伴奏生成装置の概略構造図である。本願の実施例に係る伴奏生成装置は電子装置に応用されることができる。電子装置は、例えば、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、パーソナルコンピュータ、サーバなどでありえる。一実施例では、
図8aに示すように、伴奏生成装置80は、取得ユニット801及び処理ユニット802を含むことができる。
【0119】
取得ユニット801は、ドライ音声信号セットを取得するために用いられ、ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である。取得ユニット801は、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成するために用いられ、x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される。
【0120】
処理ユニット802は、仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得するために用いられ、仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる。処理ユニット802は、音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得するために用いられる。
【0121】
一実施例では、取得ユニット801は、オーディオデータベースから初期ドライ音声信号セットを取得するために用いられることもできる。オーディオデータベースは、複数のユーザーによって同じ歌を歌うときに記録された初期ドライ音声信号を含む。処理ユニット802は、各々の初期ドライ音声信号の音声パラメータに基づいて、初期ドライ音声信号セットからドライ音声信号を選別するために用いられることもでき、選別されたドライ音声信号はドライ音声信号セットを構成する。
【0122】
一実施例では、ドライ音声信号セットは、イントネーション特性パラメータ及び音質特性パラメータに基づいて初期ドライ音声信号セットから選別されたドライ音声信号を含む。イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含み、音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含む。
【0123】
一実施例では、N個の仮想三次元空間音像位置は、水平面で第1の予め設定された角度を間隔として水平面を分割した後、得られた水平面におけるn1個の仮想三次元空間音像位置と、上方平面で第2の予め設定された角度を間隔として上方平面を分割した後、得られた上方平面におけるn2個の仮想三次元空間音像位置と、下方平面で第3の予め設定された角度を間隔として下方平面を分割した後、得られた下方平面におけるn3個の仮想三次元空間音像位置と、を含む。上方平面と水平面がなす角度は第1の角度閾値であり、下方平面と水平面がなす角度は第2の角度閾値であり、n1、n2及びn3は正の整数であり、n1、n2及びn3の合計はNに等しい。
【0124】
一実施例では、取得ユニット801は、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応する頭部伝達関数を取得するために用いられることもできる。処理ユニット802は、ターゲット仮想三次元空間音像位置に対応する頭部伝達関数を通じて、ターゲット仮想三次元空間音像位置に対応するドライ音声信号を処理して、ターゲット仮想三次元空間音像位置における仮想音声信号を取得するために用いられることもでき、ターゲット仮想三次元空間音像位置における仮想音声信号はバイノーラル信号であり、ターゲット仮想三次元空間音像位置は、N個の仮想三次元空間音像位置のうちの任意1つの仮想三次元空間音像位置である。
【0125】
一実施例では、仮想音声信号セットは、さらに、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号と、遅延右チャンネル信号とを含む。取得ユニット801は、ドライ音声信号セットに含まれるx個のドライ音声信号からp個のドライ音声信号を取得するために用いられることもでき、pは正の整数であり、且つx以下である。処理ユニット802は、p個のドライ音声信号のうちの各々のドライ音声信号に対して、m1個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号を取得するために用いられることもでき、m1は正の整数である。処理ユニット802は、p個のドライ音声信号のうちの各々のドライ音声信号に対して、m2個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延右チャンネル信号を取得するために用いられることもでき、m2は正の整数である。
【0126】
一実施例では、取得ユニット801は、ターゲット曲の背景音楽を取得するために用いられることもでき、処理ユニット802は、コーラスドライ音声と背景音楽との間のエネルギー関係を調整するために用いられることもできる。調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係がエネルギー比条件を満たす。伴奏は、調整されたコーラスドライ音声と背景音楽に基づいて得られる。
【0127】
一実施例では、処理ユニット802は、予め設定された周波数帯域でコーラスドライ音声に対してスペクトルイコライゼーション処理を行うために用いられることもできる。取得ユニット801は、背景音楽の音量を取得するために用いられることもできる。処理ユニット802は、背景音楽の音量が音量閾値より小さい場合、背景音楽の音量を音量閾値まで上げるために用いられることもできる。伴奏は、スペクトルイコライゼーション処理を経た後のコーラスドライ音声と音量処理を経た後の背景音楽とに基づいて得られるものである。
【0128】
なお、
図8aに対応する実施例で言及されていない内容及び各ステップの具体的な実施方法は、
図2~5に示す実施例及び前述の内容を参照することができ、ここでは再び説明しない。
【0129】
さらに、
図8bを参照すると、
図8bは、本願の実施例に係る伴奏の再生処理装置の概略構造図である。本願の実施例に係る伴奏の再生処理装置は、電子装置に応用されることができる。電子装置は、例えば、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、パーソナルコンピュータ、サーバなどでありえる。一実施例では、
図8bに示すように、伴奏の再生処理装置81は、取得ユニット811と処理ユニット812を含むことができる。
【0130】
取得ユニット811は、ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示するために用いられる。取得ユニット811は、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得するために用いられる。
【0131】
処理ユニット812は、ターゲット曲に対応する伴奏を再生するために用いられる。伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、ドライ音声信号セットは、複数のユーザーがターゲット曲に対して録音したドライ音声信号に基づいて得られるものである。
【0132】
一実施例では、コーラスドライ音声は、仮想音声信号セットに基づいて生成されるものであり、仮想音声信号セットは、得られたドライ音声信号セットに基づいて生成された、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号を含む。ドライ音声信号セット内の複数のドライ音声信号は、N個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、1つ又は複数のドライ音声信号に対応することが許可される。
【0133】
一実施例では、ユーザーインターフェースでターゲット曲の伴奏モード選択コントロールが表示されている。伴奏モード選択コントロールは、コーラス伴奏モード選択コントロール、オリジナル伴奏モード選択コントロールを含む。処理ユニット812は、ターゲット曲に対応する伴奏を取得することの前、コーラス伴奏モード選択コントロールに対する選択操作が取得されたか否かを検出するために用いられることもできる。処理ユニット812は、コーラス伴奏モード選択コントロールに対する選択操作が取得されたことを検出した場合、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示することを、確認するために用いられることもできる。
【0134】
一実施例では、処理ユニット812は、ターゲット曲の識別情報を含む伴奏リクエストをサーバに送信するために用いられることもできる。取得ユニット811は、サーバによって伴奏リクエストに応答して返されたコーラスドライ音声と背景音楽を受信するために用いられることもできる。処理ユニット812は、コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定し、また、ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声と背景音楽とに基づいて、ターゲット曲に対応する伴奏を取得するために用いられることもできる。
【0135】
一実施例では、処理ユニット812は、第1のセンテンスインターフェースを表示し、コーラスドライ音声の時間再生ノードのシーケンスに従って、コーラスドライ音声に対応するテキストデータ内の各センテンスを表示するために用いられることもできる。ターゲットのコーラスドライ音声セグメントは、第1のセンテンスインターフェース上のセンテンス選択操作に基づいて確定される。
【0136】
一実施例では、処理ユニット812は、第2のセンテンスインターフェースを表示し、伴奏の時間再生ノードのシーケンスに従って、伴奏に対応するテキストデータ内の各センテンスを表示するために用いられることもできる。処理ユニット812は、再生中に伴奏におけるコーラスドライ音声に対するサイレント選択操作が取得されたか否かを検出するために用いられることもできる。処理ユニット812は、再生中に伴奏におけるコーラスドライ音声に対するサイレント選択操作が取得されたことを検出した場合、現在の時間再生ノードでコーラスドライ音声の再生をキャンセルする。
【0137】
なお、
図8bに対応する実施例で言及されていない内容及び各ステップの具体的な実施方法は、
図2~7cに示す実施例及び前述の内容を参考することができるため、ここでは再び説明しない。
【0138】
さらに、
図9を参照すると、
図9は本願の実施例に係る電子装置の概略構成図である。電子装置は、ネットワークインターフェース901、メモリ902、及びプロセッサ903を含むことができる。ネットワークインターフェース901、メモリ902、及びプロセッサ903は、1つ又は複数の通信バスによって接続される。通信バスはこれらの部品の間の接続と通信を実現するために用いられる。ネットワークインターフェース901は、標準的な有線インターフェース又は無線インターフェース(例えば、WIFIインターフェース)を含むことができる。メモリ902は、ランダムアクセスメモリ(random-access memory、RAM)などの揮発性メモリ(volatile memory)を含んでもよい。メモリ902は、フラッシュメモリ(flash memory)、ソリッドステートドライブ(solid-state drive、SSD)などの不揮発性メモリ(non-volatile memory)を含んでもよい。メモリ902は、上記の種類のメモリの組み合わせを含んでもよい。プロセッサ903は中央処理装置(central processing unit、CPU)であってもよい。プロセッサ903は、ハードウェアチップをさらに含んでもよい。上記のハードウェアチップは、特定用途向け集積回路(application-specific integrated circuit、ASIC)、プログラマブルロジックデバイス(programmable logic device、PLD)などであってもよい。上述のPLDは、フィールド・プログラマブル・ゲート・アレイ(field-programmable gate array、FPGA)、ジェネリックアレイロジック(generic array logic、GAL)などであってもよい。
【0139】
選択可能に、メモリ902はプログラム命令を記憶するためにも用いられ、プロセッサ903は以下を実現するためにプログラム命令を呼び出すこともできる。
ドライ音声信号セットを取得する。ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である。
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成する。x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される。
仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得する。仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる。
音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得する。
【0140】
一実施例では、プロセッサ903は、次のことを実現するためにプログラム命令を呼び出すこともできる。オーディオデータベースから初期ドライ音声信号セットを取得する。オーディオデータベースは、複数のユーザーによって同じ歌を歌うときに記録された初期ドライ音声信号を含む。各々の初期ドライ音声信号の音声パラメータに基づいて、初期ドライ音声信号セットからドライ音声信号を選別する。選別されたドライ音声信号はドライ音声信号セットを構成する。
【0141】
一実施例では、ドライ音声信号セットは、イントネーション特性パラメータ及び音質特性パラメータに基づいて初期ドライ音声信号セットから選別されたドライ音声信号を含む。イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含み、音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含む。
【0142】
一実施例では、N個の仮想三次元空間音像位置は、水平面で第1の予め設定された角度を間隔として水平面を分割した後、得られた水平面におけるn1個の仮想三次元空間音像位置と、上方平面で第2の予め設定された角度を間隔として上方平面を分割した後、得られた上方平面におけるn2個の仮想三次元空間音像位置と、下方平面で第3の予め設定された角度を間隔として下方平面を分割した後、得られた下方平面におけるn3個の仮想三次元空間音像位置と、を含む。上方平面と水平面がなす角度は第1の角度閾値であり、下方平面と水平面がなす角度は第2の角度閾値であり、n1、n2及びn3は正の整数であり、n1、n2及びn3の合計はNに等しい。
【0143】
一実施例では、プロセッサ903は、次のことを実現するためにプログラム命令を呼び出すこともできる。N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応する頭部伝達関数を取得する。ターゲット仮想三次元空間音像位置に対応する頭部伝達関数を通じて、ターゲット仮想三次元空間音像位置に対応するドライ音声信号を処理して、ターゲット仮想三次元空間音像位置における仮想音声信号を取得する。ターゲット仮想三次元空間音像位置における仮想音声信号はバイノーラル信号であり、ターゲット仮想三次元空間音像位置は、N個の仮想三次元空間音像位置のうちの任意1つの仮想三次元空間音像位置である。
【0144】
一実施例では、仮想音声信号セットは、さらに、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号と、遅延右チャンネル信号とを含む。プロセッサ903は、以下を達成するためにプログラム命令を呼び出すこともできる。ドライ音声信号セットに含まれるx個のドライ音声信号からp個のドライ音声信号を取得する。pは正の整数であり、且つx以下である。p個のドライ音声信号のうちの各々のドライ音声信号に対して、m1個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号を取得する。m1は正の整数である。p個のドライ音声信号のうちの各々のドライ音声信号に対して、m2個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を取得し、各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延右チャンネル信号を取得する。m2は正の整数である。
【0145】
一実施例では、プロセッサ903は、以下を達成するためにプログラム命令を呼び出すこともできる。ターゲット曲の背景音楽を取得する。また、コーラスドライ音声と背景音楽との間のエネルギー関係を調整する。調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係がエネルギー比条件を満たす。伴奏は、調整されたコーラスドライ音声と背景音楽に基づいて得られる。
【0146】
一実施例では、プロセッサ903は、以下を達成するためにプログラム命令を呼び出すこともできる。予め設定された周波数帯域でコーラスドライ音声に対してスペクトルイコライゼーション処理を行う。背景音楽の音量を取得する。背景音楽の音量が音量閾値より小さい場合、背景音楽の音量を音量閾値まで上げる。伴奏は、スペクトルイコライゼーション処理を経た後のコーラスドライ音声と音量処理を経た後の背景音楽とに基づいて得られるものである。
【0147】
選択可能に、メモリ902はプログラム命令を記憶するためにも用いられ、プロセッサ903は以下を実現するためにプログラム命令を呼び出すこともできる。
ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示する。
ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、ターゲット曲に対応する伴奏を取得する。
ターゲット曲に対応する伴奏を再生する。伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、ドライ音声信号セットは、複数のユーザーがターゲット曲に対して録音したドライ音声信号に基づいて得られるものである。
【0148】
一実施例では、コーラスドライ音声は、仮想音声信号セットに基づいて生成されるものであり、仮想音声信号セットは、得られたドライ音声信号セットに基づいて生成された、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号を含む。ドライ音声信号セット内の複数のドライ音声信号は、N個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、1つ又は複数のドライ音声信号に対応することが許可される。
【0149】
一実施例では、ユーザーインターフェースでターゲット曲の伴奏モード選択コントロールが表示されている。伴奏モード選択コントロールは、コーラス伴奏モード選択コントロール、オリジナル伴奏モード選択コントロールを含む。プロセッサ903は、ターゲット曲に対応する伴奏を取得することの前、以下を実現するためにプログラム命令を呼び出すこともできる。コーラス伴奏モード選択コントロールに対する選択操作が取得されたか否かを検出する。プロセッサ903は、コーラス伴奏モード選択コントロールに対する選択操作が取得されたことを検出した場合、ユーザーインターフェースで受けられた選択インジケーションが、ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示することを、確認する。
【0150】
一実施例では、プロセッサ903は、以下を実現するためにプログラム命令を呼び出すこともできる。ターゲット曲の識別情報を含む伴奏リクエストをサーバに送信する。サーバによって伴奏リクエストに応答して返されたコーラスドライ音声と背景音楽を受信する。コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定し、ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声と背景音楽とに基づいて、ターゲット曲に対応する伴奏を取得する。
【0151】
一実施例では、プロセッサ903は、以下を実現するためにプログラム命令を呼び出すこともできる。第1のセンテンスインターフェースを表示し、コーラスドライ音声の時間再生ノードのシーケンスに従って、コーラスドライ音声に対応するテキストデータ内の各センテンスを表示する。ターゲットのコーラスドライ音声セグメントは、第1のセンテンスインターフェース上のセンテンス選択操作に基づいて確定される。
【0152】
一実施例では、プロセッサ903は、以下を実現するためにプログラム命令を呼び出すこともできる。第2のセンテンスインターフェースを表示し、伴奏の時間再生ノードのシーケンスに従って、伴奏に対応するテキストデータ内の各センテンスを表示する。再生中に伴奏におけるコーラスドライ音声に対するサイレント選択操作が取得されたか否かを検出する。再生中に伴奏におけるコーラスドライ音声に対するサイレント選択操作が取得されたことを検出した場合、現在の時間再生ノードでコーラスドライ音声の再生をキャンセルする。
【0153】
理解できるように、本願の実施例で説明される電子装置90によって問題を解決する原理及び有益な効果は、本願の
図2~
図7cに示される実施例及び前述した内容における問題解決の原理及び有益な効果と似ているので、説明を簡潔化するために、ここでは繰り返さない。
【0154】
加えて、本願は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。コンピュータプログラムがプロセッサによって実行されると、前述の実施例に係る方法が実現される。
【0155】
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムをさらに提供する。コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、コンピュータ命令はコンピュータ可読記憶媒体に記憶される。コンピュータ装置のプロセッサは、コンピュータ可読記憶媒体からコンピュータ命令を読み取って実行して、コンピュータ装置に前述の実施例における方法を実行させる。
【0156】
本願の実施例の方法におけるステップに対しては、実際のニーズに応じて順序を調整し、結合し、削除することができる。
【0157】
本願の実施例の装置内のユニットに対しては、実際の必要に応じて結合し、分割し、削除することができる。
【0158】
当業者にとって理解できるように、上記実施例の方法におけるプロセスの全部又は一部は、コンピュータプログラムが関連するハードウェアを指示することで実現され得る。プログラムはコンピュータ可読記憶媒体に記憶され得る。プログラムが実行されると、上記の各方法の実施例のプロセスが含まれてもよい。上記記憶媒体は、磁気ディスク、光ディスク、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)などであり得る。
【0159】
以上の内容は、本願の実施例の一部にすぎず、本出願の請求範囲を制限するために用いられない。当業者は上記実施例の全体又は一部の操作を理解且つ実現することができ、当業者が本出願の特許請求の範囲に基づいて行う同等な変化は、依然として本出願のカバーする範囲に属する。
【手続補正書】
【提出日】2024-07-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
伴奏生成方法であって、
ドライ音声信号セットを取得することであって、前記ドライ音声信号セットには、ターゲット曲に対応するx個のドライ音声信号が含まれ、xは1より大きい整数である、取得することと、
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することであって、前記x個のドライ音声信号はN個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、前記x個のドライ音声信号のうちの1つ又は複数のドライ音声信号に対応することが許可される、生成することと、
仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得することであって、前記仮想音声信号セットには、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号が含まれる、取得することと、
音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することと、を含む、
ことを特徴とする伴奏生成方法。
【請求項2】
前記の、ドライ音声信号セットを取得することは、
オーディオデータベースから初期ドライ音声信号セットを取得することであって、前記オーディオデータベースには、複数のユーザーがターゲット曲を歌うときに録音した初期ドライ音声信号が含まれる、取得することと、
各々の初期ドライ音声信号の音声パラメータに基づいて、前記初期ドライ音声信号セットからx個のドライ音声信号を選別して、前記ドライ音声信号セットを構成することと、を含む、
ことを特徴とする請求項1に記載の
伴奏生成方法。
【請求項3】
前記音声パラメータは、イントネーション特性パラメータ及び音質特性パラメータを含み、
前記イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含み、前記音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含む、
ことを特徴とする請求項2に記載の
伴奏生成方法。
【請求項4】
N個の仮想三次元空間音像位置は、
水平面で第1の予め設定された角度を間隔として前記水平面を分割した後、得られた前記水平面におけるn1個の仮想三次元空間音像位置と、
上方平面で第2の予め設定された角度を間隔として前記上方平面を分割した後、得られた前記上方平面におけるn2個の仮想三次元空間音像位置と、
下方平面で第3の予め設定された角度を間隔として前記下方平面を分割した後、得られた前記下方平面におけるn3個の仮想三次元空間音像位置と、を含み、
前記上方平面と前記水平面がなす角度は第1の角度閾値であり、前記下方平面と前記水平面がなす角度は第2の角度閾値であり、前記n1、前記n2及び前記n3は正の整数であり、前記n1、前記n2及び前記n3の合計は前記Nに等しい、
ことを特徴とする請求項1に記載の
伴奏生成方法。
【請求項5】
前記の、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応するドライ音声信号に基づいて仮想音声信号を生成することは、
N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置に対応する頭部伝達関数(HRTF)を取得することと、
ターゲット仮想三次元空間音像位置に対応する頭部伝達関数を通じて、前記ターゲット仮想三次元空間音像位置に対応するドライ音声信号を処理して、前記ターゲット仮想三次元空間音像位置における仮想音声信号を取得することと、を含み、
前記ターゲット仮想三次元空間音像位置における仮想音声信号はバイノーラル信号であり、
前記ターゲット仮想三次元空間音像位置は、前記N個の仮想三次元空間音像位置のうちの任意1つの仮想三次元空間音像位置である、
ことを特徴とする請求項
1に記載の
伴奏生成方法。
【請求項6】
前記仮想音声信号セットは、さらに、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号と、遅延右チャンネル信号とを含み、
前記の、仮想音声信号セット内の各々の仮想音声信号を統合してコーラスドライ音声を取得することの前、前記
伴奏生成方法は、さらに、
前記ドライ音声信号セットに含まれるx個のドライ音声信号からp個のドライ音声信号を取得することであって、前記pは正の整数であり、且つ前記x以下である、取得することと、
前記p個のドライ音声信号のうちの各々のドライ音声信号に対して、m1個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を取得し、前記各々のドライ音声信号に対応するm1個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延左チャンネル信号を取得することであって、前記m1は正の整数である、ことと、
前記p個のドライ音声信号のうちの各々のドライ音声信号に対して、m2個の時間パラメータの遅延処理を行って、p個のドライ音声信号のうちの各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を取得し、前記各々のドライ音声信号に対応するm2個の遅延ドライ音声信号を重ね合わせることで、p個のドライ音声信号のうちの各々のドライ音声信号に対応する遅延右チャンネル信号を取得することであって、前記m2は正の整数である、ことと、を含む、
ことを特徴とする請求項
1に記載の
伴奏生成方法。
【請求項7】
前記の、音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することは、
前記ターゲット曲の背景音楽を取得し、且つ前記コーラスドライ音声と前記背景音楽との間のエネルギー関係を調整し、調整されたコーラスドライ音声と調整された背景音楽との間のエネルギー関係がエネルギー比条件を満たすようにすることと、
調整されたコーラスドライ音声と背景音楽に基づいて前記伴奏を取得することと、を含む、
ことを特徴とする請求項
1に記載の
伴奏生成方法。
【請求項8】
前記の、音声効果最適化ルールに従って、前記コーラスドライ音声と前記ターゲット曲の背景音楽とに対して音声効果合成処理を行って、前記ターゲット曲の伴奏を取得することは、
予め設定された周波数帯域で前記コーラスドライ音声に対してスペクトルイコライゼーション処理を行うことと、
前記背景音楽の音量を取得することと、
前記背景音楽の音量が音量閾値より小さい場合、前記背景音楽の音量を音量閾値まで上げることと、
スペクトルイコライゼーション処理を経た後のコーラスドライ音声と音量処理を経た後の背景音楽とに基づいて前記伴奏を取得することと、を含む、
ことを特徴とする請求項
1に記載の
伴奏生成方法。
【請求項9】
伴奏の再生処理方法であって、
ターゲット曲に対する選択インジケーションを受けるためのユーザーインターフェースを表示することと、
前記ユーザーインターフェースで受けられた選択インジケーションが、前記ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示する場合、前記ターゲット曲に対応する伴奏を取得することと、
前記ターゲット曲に対応する伴奏を再生することと、を含み、
前記伴奏は、コーラスドライ音声及び背景音楽に基づいて生成されるものであり、前記コーラスドライ音声は、ドライ音声信号セット内の複数のドライ音声信号に基づいて生成されるものであり、前記ドライ音声信号セット内の複数のドライ音声信号は、複数の異なる仮想三次元空間音像位置に対応し、前記ドライ音声信号セットは、複数のユーザーが前記ターゲット曲に対して録音したドライ音声信号に基づいて得られるものである、
ことを特徴とする伴奏の再生処理方法。
【請求項10】
前記コーラスドライ音声は、仮想音声信号セットに基づいて生成されるものであり、前記仮想音声信号セットは、得られたドライ音声信号セットに基づいて生成された、N個の仮想三次元空間音像位置のうちの各々の仮想三次元空間音像位置における仮想音声信号を含み、
前記ドライ音声信号セット内の複数のドライ音声信号は、N個の仮想三次元空間音像位置に対応し、Nは1より大きい整数であり、N個の仮想三次元空間音像位置は異なり、各々の仮想三次元空間音像位置は、1つ又は複数のドライ音声信号に対応することが許可される、
ことを特徴とする請求項9に記載の
伴奏の再生処理方法。
【請求項11】
前記ユーザーインターフェースでターゲット曲の伴奏モード選択コントロールが表示されており、前記伴奏モード選択コントロールは、コーラス伴奏モード選択コントロール、オリジナル伴奏モード選択コントロールを含み、前記の、前記ターゲット曲に対応する伴奏を取得することの前、前記
伴奏の再生処理方法は、さらに、
前記コーラス伴奏モード選択コントロールに対する選択操作が取得されたか否かを検出することと、
前記コーラス伴奏モード選択コントロールに対する選択操作が取得されたことを検出した場合、前記ユーザーインターフェースで受けられた選択インジケーションが、前記ターゲット曲の伴奏モードがコーラス伴奏モードであることを指示することを、確認することと、を含む、
ことを特徴とする請求項
9に記載の
伴奏の再生処理方法。
【請求項12】
前記の、前記ターゲット曲に対応する伴奏を取得することは、
前記ターゲット曲の識別情報を含む伴奏リクエストをサーバに送信することと、
前記サーバによって前記伴奏リクエストに応答して返された前記コーラスドライ音声と前記背景音楽を受信することと、
前記コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定することと、
前記ターゲットのコーラスドライ音声セグメントに対応するコーラスドライ音声と前記背景音楽とに基づいて、前記ターゲット曲に対応する伴奏を取得することと、を含む、
ことを特徴とする請求項9に記載の
伴奏の再生処理方法。
【請求項13】
前記の、コーラスドライ音声からターゲットのコーラスドライ音声セグメントを確定することの前、前記
伴奏の再生処理方法は、さらに、
第1のセンテンスインターフェースを表示し、前記コーラスドライ音声の時間再生ノードのシーケンスに従って、前記コーラスドライ音声に対応するテキストデータ内の各センテンスを表示することと、を含み、
前記ターゲットのコーラスドライ音声セグメントは、前記第1のセンテンスインターフェース上のセンテンス選択操作に基づいて確定される、
ことを特徴とする請求項12に記載の
伴奏の再生処理方法。
【請求項14】
前記の、前記ターゲット曲に対応する伴奏を再生することの後、前記
伴奏の再生処理方法は、
第2のセンテンスインターフェースを表示し、前記伴奏の時間再生ノードのシーケンスに従って、前記伴奏に対応するテキストデータ内の各センテンスを表示することと、
再生中に前記伴奏における前記コーラスドライ音声に対するサイレント選択操作が取得されたか否かを検出することと、
再生中に前記伴奏における前記コーラスドライ音声に対するサイレント選択操作が取得されたことを検出した場合、現在の時間再生ノードで前記コーラスドライ音声の再生をキャンセルすることと、を含む、
ことを特徴とする請求項
9に記載の
伴奏の再生処理方法。
【請求項15】
メモリ、プロセッサ、及びネットワークインターフェースを備える電子装置であって、
前記プロセッサは、前記メモリ及び前記ネットワークインターフェースに接続されており、前記ネットワークインターフェースは、ネットワーク通信機能を提供するために用いられ、前記メモリはプログラムコードを記憶するために用いられ、前記プロセッサは、前記プログラムコードを呼び出して
請求項1~8のいずれか一項に記載の伴奏生成方法又は請求項9~14のいずれか一項に記載の伴奏の再生処理方法を実行するために用いられる、
ことを特徴とする電子装置。
【請求項16】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、
請求項1~8のいずれか一項に記載の伴奏生成方法又は請求項9~14のいずれか一項に記載の伴奏の再生処理方法が実現される、
ことを特徴とするコンピュータ可読記憶媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0034
【補正方法】変更
【補正の内容】
【0034】
一実施例では、電子装置は、イントネーション特性パラメータ及び音質特性パラメータに基づいて、初期ドライ音声信号セットから、条件を満たすドライ音声信号を選別することができる。イントネーション特性パラメータは、ピッチパラメータ、リズムパラメータ及び韻律パラメータのうちの任意の一種又は多種を含んでもよい。イントネーション特性パラメータに基づいて選別された、条件を満たすドライ音声信号は、歌のピッチ及びリズム並びに伴奏のメロディーの一致性が高いという特徴を有する。音質特性パラメータは、ノイズパラメータ、エネルギーパラメータ及び速度パラメータのうちの任意の一種又は多種を含んでもよい。音質特性パラメータに基づいて選別された、条件を満たすドライ音声信号は、オーディオがはっきりし、オーディオのエネルギーが適当であり、オーディオの速度が均一であるなどの特徴を有する。本願の実施例は、条件を満たすドライ音声信号の選別順序を限定しない。例えば、電子装置は、まず、イントネーション特性パラメータに基づいて条件を満たすドライ音声信号を選別し、次に、予め設定されたイントネーション特性パラメータの条件を満たすドライ音声信号から、予め設定された音質特性パラメータの条件を満たすドライ音声信号を選別することができ、又は、まず、音質特性パラメータに基づいて条件を満たすドライ音声信号を選別し、次に、予め設定された音質特性パラメータの条件を満たすドライ音声信号から、予め設定されたイントネーション特性パラメータの条件を満たすドライ音声信号を選別することもできる。このようにして初期ドライ音声信号セットから選別されたドライ音声信号からなるドライ音声信号セットは、良好なイントネーションと音質を備えている。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0043
【補正方法】変更
【補正の内容】
【0043】
S204:音声効果最適化ルールに従って、コーラスドライ音声とターゲット曲の背景音楽とに対して音声効果合成処理を行って、ターゲット曲の伴奏を取得する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0140
【補正方法】変更
【補正の内容】
【0140】
一実施例では、プロセッサ903は、次のことを実現するためにプログラム命令を呼び出すこともできる。オーディオデータベースから初期ドライ音声信号セットを取得する。オーディオデータベースは、複数のユーザーによってターゲット曲を歌うときに記録された初期ドライ音声信号を含む。各々の初期ドライ音声信号の音声パラメータに基づいて、初期ドライ音声信号セットからドライ音声信号を選別する。選別されたドライ音声信号はドライ音声信号セットを構成する。
【国際調査報告】