(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-12
(54)【発明の名称】バーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20240905BHJP
G10L 25/51 20130101ALI20240905BHJP
G10L 13/00 20060101ALI20240905BHJP
【FI】
G06Q50/10
G10L25/51 100
G10L13/00 100Y
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024515164
(86)(22)【出願日】2022-09-28
(85)【翻訳文提出日】2024-03-07
(86)【国際出願番号】 CN2022121949
(87)【国際公開番号】W WO2023087932
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】202111386719.X
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100112656
【氏名又は名称】宮田 英毅
(74)【代理人】
【識別番号】100089118
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】丁丹俊
(72)【発明者】
【氏名】陳新
【テーマコード(参考)】
5L050
【Fターム(参考)】
5L050CC11
(57)【要約】
本願はバーチャルコンサートの処理方法、装置、機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品を提供する。当該方法は、提示したコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信するステップと、当該コンサート制作指令に応答して、ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するステップと、現対象者がターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集し、コンサートルームを通じて、当該歌唱コンテンツを再生するステップと、を含み、当該歌唱コンテンツはコンサートルームにおいて各対象者の端末で再生されるために用いられる。
【特許請求の範囲】
【請求項1】
電子機器により実行されるバーチャルコンサートの処理方法であって、
提示したコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信するステップと、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するステップと、
現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて、前記歌唱コンテンツを再生するステップと、を含み、
前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる、
バーチャルコンサートの処理方法。
【請求項2】
前記ターゲット歌手についてのコンサート制作指令を受信する前記ステップの前に、さらに、
現対象者の曲練習インタフェースに曲練習入口を提示するステップと、
前記曲練習入口に基づいて、前記ターゲット歌手についての曲練習指令を受信するステップと、
前記曲練習指令に応答して、前記現対象者が前記ターゲット歌手の曲を歌唱練習した練習音声を収集するステップと、
前記練習音声に基づいて、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合、前記曲練習インタフェースに前記ターゲット歌手に関連付けられたコンサート入口を提示するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項3】
前記曲練習入口に基づいて、前記ターゲット歌手についての曲練習指令を受信する前記ステップは、
前記曲練習入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示するステップと、
少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、前記ターゲット歌手に対応する少なくとも1つの候補曲を提示するステップと、
前記少なくとも1つの候補曲のうちのターゲット曲に対する選択操作に応答して、前記ターゲット曲を歌唱するための音声録音入口を提示するステップと、
前記音声録音入口に対するトリガー操作に応答して、前記ターゲット歌手の前記ターゲット曲についての曲練習指令を受信するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項4】
前記曲練習インタフェースに前記ターゲット歌手に関連付けられたコンサート入口を提示する前記ステップの前に、さらに、
前記練習音声を採点して得られた練習スコアを提示するステップと、
前記練習スコアが目標点数に達している場合、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項5】
前記練習音声を採点して得られた練習スコアを提示する前記ステップの前に、さらに、
前記現対象者が歌唱練習した前記曲の数が少なくとも2つの場合、前記現対象者の各前記曲に対する練習音声に対応する練習スコアを提示するステップと、
各前記曲の歌唱難易度を取得して、前記歌唱難易度に基づいて前記曲に応じた重みを決定するステップと、
前記重みに基づいて、各前記練習音声の練習スコアを加重平均して、前記練習音声の練習スコアを得るステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項6】
前記練習スコアは、声質スコアと情感スコアとのうちの少なくとも一方を含み、前記練習音声を採点して得られた練習スコアを提示する前記ステップの前に、さらに、
前記練習スコアが前記声質スコアを含む場合、前記練習音声を声質変換して前記ターゲット歌手に対応する練習声質を得て、前記練習声質と前記ターゲット歌手が前記曲を歌唱したオリジナル声質とを比較して、声質類似度を得て、前記声質類似度に基づいて前記声質スコアを決定するステップと、
前記練習スコアが前記情感スコアを含む場合、前記練習音声に対して情感識別して練習情感度を得て、前記練習情感度と前記ターゲット歌手が前記曲を歌唱したオリジナル情感度とを比較して、情感類似度を得て、前記情感類似度に基づいて前記情感スコアを決定するステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項7】
前記練習音声を声質変換して前記ターゲット歌手に対応する練習声質を得る前記ステップは、
音素識別モデルにより前記練習音声に対して音素識別を行って、音素系列を得るステップと、
前記練習音声に対して音ラウドネス識別を行って、音ラウドネス特性を得るステップと、
前記練習音声に対して旋律認識を行って、旋律を表すための正弦励起信号を得るステップと、
音波合成器により、前記音素系列と、前記音ラウドネス特性と、前記正弦励起信号とを結合して、前記ターゲット歌手に対応する練習声質を得るステップと、を含む、
請求項6に記載のバーチャルコンサートの処理方法。
【請求項8】
前記練習音声を採点して得られた練習スコアを提示する前記ステップの前に、さらに、
前記練習音声を他の対象者の端末へ送信して、前記他の対象者の端末に、前記練習音声の採点入口に基づいて、入力された前記練習音声に対応する人為採点を取得させるステップと、
前記他の端末から返送された前記人為採点を受信して、前記人為採点に基づいて前記練習音声の練習スコアを決定するステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項9】
前記練習音声を他の対象者の端末へ送信する前記ステップは、
前記練習音声に対応する機械採点を取得して、前記機械採点が採点閾値に達している場合、前記練習音声を他の対象者の端末へ送信するステップを含み、
前記人為採点に基づいて前記練習音声の練習スコアを決定する前記ステップは、
前記機械採点と前記人為採点の平均を求めて、前記練習音声の練習スコアを得るステップを含む、
請求項8に記載のバーチャルコンサートの処理方法。
【請求項10】
前記曲練習インタフェースに前記ターゲット歌手に関連付けられたコンサート入口を提示する前記ステップの前に、さらに、
前記現対象者に対応する前記曲の曲練習順位を提示するステップと、
前記曲練習順位が目標順位より前に位置する場合、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項11】
練習した前記曲の数が少なくとも2つである場合、前記現対象者が前記少なくとも2つの曲を歌った総スコアと、各前記曲のスコア詳細をチェックするための詳細入口とを提示するステップと、
前記詳細入口に対するトリガー操作に応答して、詳細ページを提示するとともに前記詳細ページに各前記曲の練習スコアを提示するステップと、を含む、
請求項10に記載のバーチャルコンサートの処理方法。
【請求項12】
提示されたコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する前記ステップは、
提示されたコンサート入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示するステップと、
前記少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定された場合、ターゲット歌手についてのコンサート制作指令を受信するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項13】
提示されたコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する前記ステップは、
提示されたコンサート入口に対するトリガー操作に応答して、前記現対象者がコンサートを制作する制作資格を備えている各候補歌手のうちの少なくとも1人の前記候補歌手を含む、歌手選択インタフェースを提示するステップと、
前記少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、ターゲット歌手についてのコンサート制作指令を受信するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項14】
提示されたコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する前記ステップは、
前記コンサート入口に前記ターゲット歌手が関連付けられている場合、前記コンサート入口に対するトリガー操作に応答して、前記ターゲット歌手に対応するコンサートの制作を申請することをリマインドするためのプロンプト情報を提示するステップと、
前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手についてのコンサート制作指令を受信するステップと、含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項15】
前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手についてのコンサート制作指令を受信する前記ステップは、
前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手のコンサートの制作を申請するための申請インタフェースを提示するとともに前記申請インタフェースに前記コンサートの関連情報を編集するための編集入口を提示するステップと、
前記編集入口に基づいて編集されたコンサート情報を受信するステップと、
前記コンサート情報に対する決定操作に応答して、前記ターゲット歌手についてのコンサート制作指令を受信するステップと、を含む、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項16】
前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手についてのコンサート制作指令を受信する前記ステップは、
コンサートルームの制作を予約するための予約入口を提示するステップと、
前記予約入口に対するトリガー操作に応答して、前記ターゲット歌手のコンサートの制作を予約するための予約インタフェースを提示するとともに、前記予約インタフェースに前記コンサートの予約情報を編集するための編集入口を提示するステップと、
前記編集入口に基づいて編集された、少なくともコンサート開始時刻を含むコンサート予約情報を受信するステップと、
前記コンサート予約情報に対する決定操作に応答して、前記ターゲット歌手についてのコンサート制作指令を受信するステップと、を含み、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作する前記ステップは、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作し、前記コンサート開始時刻に達したとき、前記コンサートルームにアクセスして提示するステップを含む、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項17】
前記プロンプト情報に対する取消操作を受信した場合、曲練習インタフェースを提示するとともに、前記曲練習インタフェースに曲練習入口を提示するステップを含み、
前記曲練習入口は前記ターゲット歌手の曲または他の歌手の曲を歌唱練習するために用いられる、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項18】
前記コンサート入口の数が少なくとも1つの場合、前記コンサート入口には歌手が関連付けられており、且つ前記コンサート入口と関連付けられた歌手とは対応関係を有しており、
提示されたコンサート入口に基づいて、ターゲット歌手に対応するコンサート制作指令を受信する前記ステップは、
ターゲット歌手が関連付けられたコンサート入口に対するトリガー操作に応答して、前記ターゲット歌手に対応するコンサート制作指令を受信するステップを含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項19】
前記コンサートルームで前記歌唱コンテンツを再生している間、前記コンサートルームに他の対象者の前記歌唱コンテンツに対するインタラクション情報を提示するステップを含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項20】
前記歌唱コンテンツは、前記ターゲット歌手の曲を模倣歌唱した音声コンテンツを含み、現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集する前記ステップは、
現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱音声を収集するステップと、
前記歌唱音声を声質変換して前記歌唱音声に対応する前記ターゲット歌手の声質の変換音声を得て、前記変換音声を前記音声コンテンツとするステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項21】
提示したコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信するための指令受信モジュールと、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するためのルーム制作モジュールと、
現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて、前記歌唱コンテンツを再生するための歌唱再生モジュールと、を含み、
前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる、
バーチャルコンサートの処理装置。
【請求項22】
実行可能指令を記憶するメモリと、
前記メモリに記憶された実行可能指令を実行した場合、請求項1~20のいずれか一項に記載のバーチャルコンサートの処理方法を実現するプロセッサと、を含む、
電子機器。
【請求項23】
コンピュータ実行可能指令が記憶されたコンピュータ可読記憶媒体であって、前記コンピュータ実行可能指令がプロセッサによって実行された場合、請求項1~20のいずれか一項に記載のバーチャルコンサートの処理方法が実現される、
コンピュータ可読記憶媒体。
【請求項24】
コンピュータプログラムまたは指令を含むコンピュータプログラム製品であって、前記コンピュータプログラムまたは指令がプロセッサによって実行された場合、請求項1~20のいずれか一項に記載のバーチャルコンサートの処理方法が実現される、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は出願番号202111386719.X、出願日2021年11月22日の中国専利出願に基づいて、当該中国専利出願の優先権を主張する。当該中国専利出願の内容は参考としてすべて本願に組み込まれる。
【0002】
本願はコンピュータ技術および音声技術に関し、特にバーチャルコンサートの処理方法、装置、機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品に関する。
【背景技術】
【0003】
音声技術の成熟に伴い、音声技術の発展および応用に対する模索や探求が多く行われてきた。音楽分野ではプロフェッショナルな能力や個性的な魅力にあふれる歌手の歌唱を模倣することが探求目標となっている。例えば、ユーザは歌を録音した後でエコーをかけたり各種のパーソナライズしたサウンド変更(「音声変換」)処理を行ったりすることで、歌えなくとも歌の録音、発表、シェア等に楽しく参加することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、関連技術ではユーザに対して上述の単純でランダムな歌唱を行うことを提供できるだけで、特定の歌手のバーチャルコンサートを制作または開催することを提供することはできていない。
【課題を解決するための手段】
【0005】
本願実施例で提供するバーチャルコンサートの処理方法、装置、機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品によれば、ユーザがターゲット歌手のバーチャルコンサートを制作または開催できるようにすることができる。
【0006】
本願実施例の技術案は以下のように実現される。
【0007】
本願実施例で提供するバーチャルコンサートの処理方法は、提示したコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信するステップと、前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するステップと、現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて前記歌唱コンテンツを再生するステップと、を含み、前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる。
【0008】
本願実施例で提供するバーチャルコンサートの処理装置は、提示したコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する指令受信モジュールと、前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するルーム制作モジュールと、現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて前記歌唱コンテンツを再生する歌唱再生モジュールと、を含み、前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる。
【0009】
本願実施例で提供する電子機器は、コンピュータ実行可能指令を記憶するメモリと、前記メモリに記憶されたコンピュータ実行可能指令を実行した場合、本願実施例で提供するバーチャルコンサートの処理方法を実現するプロセッサと、を含む。
【0010】
本願実施例で提供するコンピュータ可読記憶媒体は、プロセッサによって実行された場合、本願実施例で提供するバーチャルコンサートの処理方法を実現する、実行可能指令が記憶されている。
【0011】
本願実施例で提供するコンピュータプログラム製品は、コンピュータプログラムまたは指令を含み、前記コンピュータプログラムまたは指令がプロセッサによって実行された場合、本願実施例で提供するバーチャルコンサートの処理方法が実現される。
【発明の効果】
【0012】
本願実施例は次のような有益な効果を奏する。即ち、本願実施例によれば、現対象者がコンサート入口を通じてターゲット歌手についてのコンサートルームを制作して、コンサートルームでターゲット歌手の曲を歌い、コンサートルーム内の対象者にオンラインで見てもらうことで、ターゲット歌手のコンサートの再現を実現する。このような上演方法はターゲット歌手の情感をよりよく伝えることができ、ユーザに、より多くの娯楽オプションを提供し、ユーザの高まる一途の情報多様化要求を満たすことができる。また、制作するコンサートルームはターゲット歌手に対応しているので、このコンサートルームに入室した対象者はターゲット歌手の多くの歌を連続して楽しむことができ、現対象者はターゲット歌手の曲を連続してシェアでき、特定の対象者への曲のシェア効率を高めることができる。さらに関連技術におけるポイントツーポイントの歌曲シェア方式と比べて、ユーザは曲のシェア操作を繰り返し実行する必要がなく、シェアしたい曲が、ある特定の歌手の複数の曲である場合、当該複数の曲をシェアするフローが簡略化され、マンマシンインタラクション効率を高めることができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は本願実施例で提供するバーチャルコンサートの処理システム100のアーキテクチャ概要図である。
【
図2】
図2は本願実施例で提供する電子機器500の構造模式図である。
【
図3】
図3は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。
【
図4】
図4は本願実施例で提供するコンサート入口の表示概要図である。
【
図5】
図5は本願実施例で提供する歌唱曲の選択概要図である。
【
図6】
図6は本願実施例で提供する練習結果表示概要図である。
【
図7】
図7は本願実施例で提供する練習音声の採点概要図である。
【
図8】
図8は本願実施例で提供する曲練習ランキング概要図である。
【
図9】
図9は本願実施例で提供する曲練習ランキング概要図である。
【
図10】
図10は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図11】
図11は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図12】
図12は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図13】
図13は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図14】
図14は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図15】
図15は本願実施例で提供する歌唱サウンド変更概要図である。
【
図16】
図16は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。
【
図17】
図17は本願実施例で提供するバーチャルコンサートの処理フローチャートである。
【
図18】
図18は本願実施例で提供する声質変換概要図である。
【
図19】
図19は本願実施例で提供する音素識別モデルの構造概要図である。
【
図20】
図20は本願実施例で提供する音波合成器の構造模式図である。
【
図21】
図21は本願実施例で提供するアップサンプリングブロックの構造模式図である。
【
図22】
図22は本願実施例で提供するダウンサンプリングブロックの構造模式図である。
【
図23】
図23は本願実施例で提供する特性線形変調モジュール概要図である。
【
図24】
図24は本願実施例で提供する話者識別モデルの構造模式図である。
【発明を実施するための形態】
【0014】
本願実施例の目的、技術案および利点をより明確にするため、以下では図面と組み合わせて本願実施例を詳細に説明する。説明した実施例は本願に対する限定と見なされるべきではない。当業者が創意工夫を要さずに得た他のすべての実施例は、いずれも本願の保護範囲に属する。
【0015】
以下の説明において、「いくつかの実施例」に係る記載は、それらがすべての可能な実施例のサブセットであることを意味するが、「いくつかの実施例」はすべての可能な実施例の同一のサブセットであっても、異なるサブセットであってもよく、さらに矛盾しない場合、相互に組み合わせてもよい。
【0016】
以下の説明において、「第1/第2…」という用語に係る記載は、類似する対象を区別するのみで、対象に対する特定の順番を示すものではない。「第1/第2…」は、許容される場合には特定の順序または前後順を入れ替えて、ここで説明する本願実施例を、ここで図示または説明した順序以外の順序で実施することが可能である。
【0017】
別途定義される場合を除き、本文中で使用されるすべての技術用語および科学用語は、当業者が一般的に理解している意味と同じである。本文中で使用される用語は、本願実施例を説明するためだけのもので、本願を限定する意図はない。
【0018】
本願実施例を詳細に説明する前に、本願実施例に係る名称および用語を説明する。本願実施例に係る名称および用語には以下の解釈が適用される。
【0019】
1)クライアントとは、端末上で動作する、各種サービスを提供するためのアプリケーションプログラムであって、例えばインスタントメッセージクライアント、ビデオ再生クライアント、ライブ配信クライアント、学習クライアント、歌唱クライアント等である。
【0020】
2)・・・に応答する、とは、実行する操作が依存する条件または状態に応答することを意味し、依存される条件または状態を満たした場合、1つまたは複数の操作がリアルタイムで実行されることでもよいし、所定の遅延を有して実行されることでもよい。特に説明がない場合、実行される複数の操作の実行順序は限定されない。
【0021】
3)音声変換とは、広くは音声の声質を変更する技術を指す。当該技術は音声の声質を、話者Aから話者Bに変換することができる。ここで話者Aはこの音声を発話した人であり、一般にソース話者と称する。話者Bは変換されたターゲット声質の話者であり、一般にターゲット話者と称する。現在、言語変換技術は、1対1(特定の1人の音声を特定の別の1人の音声に変換することのみ可能)、多対1(任意の人の音声を特定の1人の音声に変換できる)、多対多(任意の人の音声を、他の任意の人の音声に変換できる)の3種類に分けられる。
【0022】
4)音素とは、音声の自然属性に基づいて区分された最小音声単位を指す。
【0023】
5)音素事後確率(PPG,Phonetic PosteriorGrams)とは、大きさが、音声フレーム数×音素数である行列であり、音声セグメントにおける音素フレーム毎の、発せられる可能性のある音素の確率を表すために用いられる。
【0024】
6)自然性とは、音声合成タスクまたは音声変換タスクにおいて常用される評価指標の一つであり、音声が人間が話しているように自然に聞こえるか否かを判断するものである。
【0025】
7)類似度とは、音声変換タスクにおいて常用される評価指標の一つであり、音声がターゲット話者の音声と似て聞こえるか否かを判断するものである。
【0026】
8)スペクトルとは、音声信号をフーリエ変換して得られる周波数領域のデータである。一般的に音声信号は複数の正弦波が重なって形成されているが、スペクトルは音声信号の波形組成をより明確に描くことができる。周波数を離散化して表示するのであれば、スペクトルは(周波数領域のみの)1次元ベクトル量である。
【0027】
9)スペクトログラムとは、音声をフレーム毎に分け(窓関数をかけるといったフレーム内信号処理ステップを含む可能性がある)、そして各フレームの信号をフーリエ変換してスペクトルを取得してから、時間領域において重畳して得られたスペクトログラムを指す。スペクトログラムは時間領域上で、音声信号における重畳された正弦波の経時的変化を反映することができる。メルスペクトログラム(Mel Spectrogram)とは、略称をMel図またはMel譜図といい、スペクトログラムをベースとして、設計されたフィルタを使用してスペクトルをフィルタリングして得られるスペクトログラムである。一般のスペクトログラムに比べ、周波数の次元数が少なく、且つ人間の聴覚が敏感な低周波数帯の音声信号に集中している。一般的にMel図は音声信号よりも情報の抽出/分離が容易であり、音声の変更修正も容易である。
【0028】
図1を参照されたい。
図1は本願実施例で提供するバーチャルコンサートの処理システム100のアーキテクチャ概要図である。例示的応用例をサポートするため、端末(例示的に端末400-1および端末400-2を示す)は、ネットワーク300を介してサーバ200に接続されている。ネットワーク300は広域通信網でもローカル通信網でも、または両者の組合せでもよく、無線リンクを使用してデータ伝送を実現する。
【0029】
実際の運用において、端末はスマートフォン、タブレットコンピュータ、ノートブックコンピュータ等の各種ユーザ端末でもよいし、デスクトップコンピュータ、テレビ受信機、またはこれらデータ処理機器のうちの任意の2つまたは複数の組合せでもよい。サーバ200は、単独に配置され各種のタスクをサポートする1つのサーバでもよいし、1つのサーバグループとして配置されてもよいし、クラウドサーバ等でもよい。
【0030】
実際の運用において、端末には、例えばインスタントメッセージクライアント、ビデオ再生クライアント、ライブ配信クライアント、学習クライアント、歌唱クライアント等のクライアントがインストールされている。ユーザ(現対象者)が端末上のクライアントを立ち上げて歌唱練習を行うか、またはバーチャルコンサートを制作する場合、端末は提示されたコンサート入口に基づいて、ターゲット歌手のコンサート制作指令を受信する。そして、コンサート制作指令に応答して、ターゲット歌手の曲を模倣歌唱するためのコンサートルームの制作を要求する制作要求をサーバ200に送信する。サーバ200は制作要求に基づいて、ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作して、端末に返送して表示させる。現ユーザがコンサートルームにおいてターゲット歌手の曲を歌唱したとき、端末は現対象者が模倣歌唱したターゲット歌手の歌曲の歌唱コンテンツを収集して、収集した歌唱コンテンツをサーバ200に送信する。サーバ200は受信した歌唱コンテンツをコンサートルームに入室した各対象者の端末に配信して、各端末においてコンサートルームを通じて歌唱コンテンツを再生する。
【0031】
図2を参照されたい。
図2は本願実施例で提供する電子機器500の構造模式図である,実際の運用において、電子機器500は
図1における端末またはサーバ200であってよい。電子機器が
図1に示す端末である場合を例として、本願実施例のバーチャルコンサートの処理方法を実施する電子機器について説明する。
図2に示す電子機器500は、少なくとも1つのプロセッサ510と、メモリ550と、少なくとも1つのネットワークインタフェース520およびユーザインタフェース530と、を含む。電子機器500における各ユニットは、バスシステム540を介して1つに連結されている。なお、バスシステム540はこれらユニット間の接続通信のために用いられる。バスシステム540はデータバス以外に、電源バス、制御バスおよび状態信号バスを含む。しかしながら、説明を明確にするために、
図2では各種バスをすべてバスシステム540と表記する。
【0032】
プロセッサ510は信号を処理する能力を備えた集積回路チップであってよい。例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP,Digital Signal Processor)、あるいはその他のプログラマブル・ロジックデバイス、離散ゲートまたはトランジスタロジックデバイス、離散ハードウェアコンポーネント等であり、ここで汎用プロセッサはマイクロプロセッサまたは任意の通常のプロセッサ等であってよい。
【0033】
ユーザインタフェース530は、媒体コンテンツを提示することができる1つまたは複数の出力装置531を含み、出力装置531は、1つまたは複数のスピーカおよび/または1つまたは複数のビジュアルディスプレイを含む。ユーザインタフェース530はさらに、1つまたは複数の入力装置532を含む。入力装置532は、ユーザが入力を行うためのユーザインタフェース部材、例えばキーボード、マウス、マイクロフォン、タッチスクリーンディスプレイ、カメラ、その他の入力ボタンやコントロールを含む。
【0034】
メモリ550はリムーバブルでも、非リムーバブルでも、またはそれらの組合せでもよい。例示的なハードウェア機器はソリッドメモリ、ハードディスクドライブ、光ディスクドライブ等を含む。メモリ550は、プロセッサ510から物理的に位置が離れた1つまたは複数の記憶機器を含んでもよい。
【0035】
メモリ550は揮発性メモリまたは不揮発性メモリを含んでもよいし、揮発性メモリおよび不揮発性メモリの両方を含んでもよい。不揮発性メモリはROM(Read Only Memory)であってもよく、揮発性メモリはRAM(Random Access Memory)であってもよい。本願実施例で説明するメモリ550は任意の適切なタイプのメモリであればよい。
【0036】
いくつかの実施例において、メモリ550はデータを記憶して各種操作をサポートすることができる。これらデータの例として、プログラム、モジュールおよびデータストラクチャ、またはそのサブセットあるいはスーパーセットを含む。以下例示的に説明する。
【0037】
操作システム551は、各種基本システムサービスを処理するとともにハードウェア関連タスクを実行するよう構成されたシステムプログラム、例えば、フレームワーク層、コアライブラリ層、ドライブ層等を含み、各種基本タスクを実現するとともに、ハードウェアに基づくタスクを処理する。
【0038】
ネットワーク通信モジュール552は、1つまたは複数の(有線または無線の)ネットワークインタフェース520を経由して他のコンピュータ機器に到達するよう構成されている。例示的なネットワークインタフェース520は、ブルートゥース(登録商標)、WiFi(登録商標)、USB(Universal Serial Bus)等を含む。
【0039】
提示モジュール553は、ユーザインタフェース530に関連付けられた1つまたは複数の出力装置531(例えば、ディスプレイ、マイクロフォン等)を経由して、情報を提示できるようにするよう構成されている(例えば、周辺機器を操作しコンテンツと情報を表示するためのユーザインタフェース)。
【0040】
入力処理モジュール554は、1つまたは複数の入力装置532のうちの1つからの、1人または複数のユーザの1つまたは複数の入力またはインタラクションを検出して、検出した入力またはインタラクションを翻訳するよう構成されている。
【0041】
いくつかの実施例において、本願実施例で提供するバーチャルコンサートの処理装置はソフトウェア方式で実現できる。
図2にはメモリ550に記憶されたバーチャルコンサートの処理装置555が示されている。処理装置555は、ソフトウェアモジュールである指令受信モジュール5551、ルーム制作モジュール5552および歌唱再生モジュール5553を含む、プログラムおよびプラグイン等の形式のソフトウェアであってよい。これらモジュールはロジック上のモジュールであるため、実現する機能に応じて任意の組合せや分割が可能である。各モジュールの機能は後述する。
【0042】
別のいくつかの実施例において、本願実施例で提供するバーチャルコンサートの処理装置はハードウェア方式で実現することができる。一例として、本願実施例で提供するバーチャルコンサートの処理装置は、ハードウェアデコードプロセッサ方式を用いたプロセッサであり、本願実施例で提供するバーチャルコンサートの処理方法を実行するようプログラミングされている。例えば、ハードウェアデコード方式のプロセッサには、1つまたは複数のASIC(Application Specific Integrated Circuit)、DSP、PLD(Programmable Logic Device)、CPLD(Complex Programmable Logic Device)、FPGA(Field-Programmable Gate Array)またはその他の電子デバイスを採用することができる。
【0043】
いくつかの実施例において、端末またはサーバは、コンピュータプログラムを動作させることで本願実施例で提供するバーチャルコンサートの処理方法を実現することができる。例を挙げると、コンピュータプログラムは、操作システムにおけるネイティブプログラムまたはソフトウェアモジュールでもよい。ネイティブAPP(Application)プログラム、即ちライブ配信APPやインスタントメッセージAPPのような、操作システムに実装されてはじめて動作可能なプログラムでもよい。ブラウザ環境にダウンロードされてはじめて動作可能なプログラムであるアプレットでもよい。任意のAPPに組み込むことができるアプレットでもよい。つまり、上記のコンピュータプログラムは任意の方式のアプリケーションプログラム、モジュール、またはプラグインであってよい。
【0044】
次に、図面と組み合わせて本願実施例で提供するバーチャルコンサートの処理方法について説明する。本願実施例で提供するバーチャルコンサートの処理方法は、
図1における端末が単独で実行してもよいし、
図1における端末とサーバ200が共同で実行してもよい。以下、
図1における端末が、単独で本願実施例で提供するバーチャルコンサートの処理方法を実行する場合を例として説明する。
図3を参照されたい。
図3は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。
図3に示すステップに結び付けて説明する。
【0045】
なお、
図3に示す方法は、端末上で動作する各種方式のコンピュータプログラムにより実行することができ、上述のクライアントに限定されず、上記した操作システム551、ソフトウェアモジュールおよびスクリプトであってもよい。したがってクライアントを本願実施例を限定するものと見なすべきではない。
【0046】
ステップ101:端末がコンサート入口を提示する。
【0047】
実際の運用において、端末にはクライアント、即ちインスタントメッセージクライアント、ビデオ再生クライアント、ライブ配信クライアント、学習クライアント、歌唱クライアント等がインストールされている。ユーザは端末上のクライアントを通じて、歌のリスニング、歌唱、またはターゲット歌手に対応するコンサートの開催を行うことができる。実際の運用において、端末が曲練習インタフェースを提示するとともに、当該曲練習インタフェースにバーチャルコンサートを制作するためのコンサート入口を提示することで、当該コンサート入口に基づいてコンサートの制作と開催を実現する。
【0048】
上記のターゲット歌手に対応するコンサートとは、実質的には(ターゲット歌手と同一人物ではない)ユーザが制作して開催するバーチャルコンサートである。いわゆるバーチャルコンサートとはターゲット歌手に似せて、または模倣して歌うためのコンサートを指し、ユーザは制作したバーチャルコンサートに基づいて、特定の歌手が歌う曲を模倣することができる。ここでのバーチャルコンサートは通常、例えば歌手Aのバーチャルコンサート、歌手Bのバーチャルコンサートというように歌手に対応している。歌手Aのバーチャルコンサートを例に採ると、ユーザが歌手Aのバーチャルコンサートを制作または開催することは、ユーザが歌手Aの曲に対する模倣歌唱を行うためのコンサートルームを作成することを指す。即ち、ユーザがオリジナル歌手の声質を模倣してオリジナル歌手の曲を歌えるようなコンサートルームを制作する。例えば、ユーザがオリジナル歌手Aの声質を模倣してオリジナル歌手Aの曲Bを歌うことができるコンサートルームを制作し、制作したコンサートルームにおいて歌手Aの曲を模倣歌唱すれば、歌手Aのコンサート開催という目的を達成できる。特に模倣する歌手が物故(死去)した歌手である場合、現実世界では二度と物故歌手のコンサートを開催することはできないが、このようなバーチャルコンサート開催という方法で物故歌手のコンサートを再現することができ、このような上演方法は歌手の情感をよりよく伝える効果がある。このように、制作するコンサートルームはターゲット歌手に対応しており、当該コンサートルームに入室した対象者はターゲット歌手の複数の曲を連続して楽しむことができ、現対象者は模倣歌唱したターゲット歌手の曲を連続してシェアでき、特定の対象者への曲のシェア効率を向上させる。また、関連技術におけるポイントツーポイントで曲をシェアする方式に比べて、ユーザは曲のシェア操作を繰り返し行う必要がないため、シェアしたい歌曲が、ある特定の歌手の複数の曲である場合、当該複数の曲をシェアするフローを簡略化でき、マンマシンインタラクションの効率が高くなる。また、関連技術において単純にランダムに歌唱が行われるのに比べ、歌唱のインタラクション方式が豊富になり、ユーザの粘着性および定着率を上げることに寄与する。
【0049】
いくつかの実施例において、端末は次のような方法により、現対象者の曲練習インタフェースにコンサート入口を提示することができる。即ち、曲練習インタフェースに曲の練習を行うための曲練習入口を提示し、曲練習入口に基づいてターゲット歌手の曲に対する練習指令を受信し、曲練習指令に応答して、現対象者がターゲット歌手の曲を歌唱練習した練習音声を収集し、練習音声に基づいて、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合、現対象者の曲練習インタフェースにターゲット歌手に関連付けられたコンサート入口を提示する。
【0050】
実際の運用において、迫真の聴覚的な楽しみを提供するためには、現対象者がターゲット歌手の曲を歌う歌唱レベルがターゲット歌手自身の歌唱レベルに相当することが保証される必要がある。したがって、ユーザがターゲット歌手のバーチャルコンサートを制作したいのであれば、ターゲット歌手の曲の歌唱練習を行って、ユーザの当該ターゲット歌手の曲に対する模倣能力を向上させる必要がある。練習結果が、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていることを示している(例えば現対象者がターゲット歌手の曲を歌ったとき、声や声質等がオリジナルに非常に近いか、同じである)場合にのみ、現対象者の曲練習インタフェースにターゲット歌手に関連付けられたコンサート入口を提示して、当該コンサート入口を通じてターゲット歌手のコンサートを制作できるようにする。もちろん、実際の運用においては、コンサートの開催資格条件を下げるか取り消して、バーチャルコンサート制作のハードルを下げ、「みんなのコンサート」として歌唱を共に楽しむ環境を実現してもよい。
【0051】
ここで、ターゲット歌手のコンサートに対する現対象者の制作資格について説明する。実際の運用において、端末は、ユーザがターゲット歌手の曲に対して歌唱練習した最後の1回の練習曲を取得して、当該練習曲とターゲット歌手のオリジナル音声とを、少なくとも1つの歌唱特徴(例えば声質)において比較する。類似度が類似度閾値に達している場合、現対象者がターゲット歌手のコンサートに対する制作資格を備えていると判定する。いくつかの実施例においては、端末はユーザが最近の一定期間内にターゲット歌手の曲に対して歌唱練習した複数(少なくとも2つ)の練習曲を取得し、各練習曲とターゲット歌手のオリジナル音声とを少なくとも1つ歌唱特徴(例えば声質)において比較し、各練習曲に対応する類似度を取得して、取得した少なくとも2つの練習曲の類似度を平均して平均類似度を得て、当該平均類似度が類似度閾値に達している場合、現対象者がターゲット歌手のコンサートに対する制作資格を備えていると判定してもよい。
【0052】
いくつかの実施例において、端末は曲練習入口に基づいて、次のような方法でターゲット歌手についての曲練習指令を受信する。即ち、曲練習入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、ターゲット歌手に対応する少なくとも1つの候補曲を提示し、少なくとも1つの候補曲のうちのターゲット曲に対する選択操作に応答して、ターゲット曲を歌唱するための音声録音入口を提示し、音声録音入口に対するトリガー操作に応答して、ターゲット歌手の前記ターゲット曲についての曲練習指令を受信する。
【0053】
図4を参照されたい。
図4は本願実施例で提供するコンサート入口の表示概要図である。まず、曲練習インタフェースに練習のための曲練習入口401を提示する。ユーザが曲練習入口401をトリガー(例えばクリック、ダブルクリック、スワイプ等)すると、端末は当該トリガー操作に応答して、歌手選択インタフェース402を提示するとともに、歌手選択インタフェース402に複数の選択可能な候補歌手を提示する。ユーザがその中からターゲット歌手を選択すると、端末は当該選択操作に応答して、ターゲット歌手に対応する練習のための複数の候補曲を提示する。ユーザがターゲット曲を選択すると、端末は当該選択操作に応答して、音声録音入口403を提示する。ユーザが当該音声録音入口403をトリガーすると、端末は当該トリガー操作に応答して、ターゲット曲に対する曲練習指令を受信し、当該曲練習指令に応答して、現対象者がターゲット歌手の曲を歌唱練習した練習音声を収集し、練習音声に基づいて現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定する。現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合、曲練習インタフェースにコンサート入口404を提示する。
【0054】
いくつかの実施例において、ターゲット曲の数は複数(2つまたは2つ以上)であってよく、例えば、
図5を参照されたい。
図5は本願実施例で提供する歌唱曲選択概要図である。提示されたターゲット歌手に対応する練習のための複数の候補曲に対して、候補曲ごとにトリガーするための選択キーが関連付けられている。ユーザがいずれかの選択キー(例えば3つの選択キー)をトリガーすると、端末はまず、練習したい候補曲(3つの曲)に関連付けられた選択キー(3つの選択キー)に対するユーザのトリガー操作を受信し、選択された選択キーに対する決定指令に応答して、ターゲット曲に対する選択操作を受信する。このとき、ターゲット曲とは選択された選択キー(3つの選択キー)に対応する候補曲(3つの曲)であり、当該選択操作に応答して音声録音入口が提示される。端末は音声録音入口に対するトリガー操作に応答して、ターゲット曲(3つの曲)に対する曲練習指令を受信するとともに、当該曲練習指令に応答して、現対象者がターゲット歌手の曲に対して歌唱練習した練習音声(3つの曲に対応する練習音声)を順次収集する。そして練習音声に基づいて、現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定し、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合、曲練習インタフェースにコンサート入口を提示する。このように、1回で複数の曲を選択して練習することで、曲の練習効率を高めることができる。
【0055】
いくつかの実施例において、現対象者の曲練習インタフェースにターゲット歌手に関連付けられたコンサート入口を提示する前に、以下の方法で現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定してもよい。即ち、練習音声に対して採点した練習スコアを提示し、練習スコアが目標点数に達している場合、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定し、練習スコアが目標点数より低い場合、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていないと判定する。この場合、現対象者がターゲット歌手の曲を再度練習できるよう再練習入口を提示する。
【0056】
ここで、ターゲット曲の練習音声の採点について説明する。実際に実施する場合、当該練習音声の音階、リズム、旋律、抑揚、歌詞および情感といった歌唱パラメータのうち少なくとも1つを取得する。歌唱時点に基づいて、当該練習音声の歌唱パラメータと当該ターゲット曲のオリジナル音声の歌唱パラメータとを比較して類似度を求め、類似度の大きさおよび類似度の大きさとスコアとのマッピング関係に基づいて、当該練習音声のスコアを決定する。
【0057】
図6を参照されたい。
図6は本願実施例で提供する練習結果表示概要図である。練習結果インタフェースにおいて練習スコアを提示し、練習スコアが所定の目標スコア(100点を満点として目標スコアを95点とする)に達しているか否かを判定することにより、現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定する。(1)では、練習スコア(98点)が所定の目標スコア(95点)に達しているので、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていることを通知するためのプロンプト情報601を提示する。(2)では、練習スコア(80点)が所定の目標スコア(95点)より低いので、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていないことを通知するためのプロンプト情報602と、再練習入口とを提示する。現対象者は再練習入口を通じてターゲット歌手の曲を再度練習することができ、複数回の練習により現対象者がターゲット歌手の歌唱技巧、声質、トーン等を学習して練習スコアが目標スコアまで上がれば、ターゲット歌手のコンサートを制作する制作資格を備えることができる。
【0058】
いくつかの実施例において、端末は練習音声の練習スコアを提示する前に、次のような方法で練習音声の練習スコアを決定することができる。即ち、練習した曲の数が少なくとも2つである場合、現対象者の各曲の練習音声に対応する練習スコアを提示し、各曲の歌唱難易度を取得して歌唱難易度に基づいて曲に応じた重みを決定し、重みに基づいて、各曲の練習音声の練習スコアを加重平均して、現対象者が練習した曲の練習音声の練習スコアを取得する。
【0059】
歌唱難易度とは曲のレベルまたは難易度係数であってよい。通常の場合、曲のレベルが高いほど、または難易度係数が大きいほど、歌唱難易度が高く、対応する重みも大きい。加重平均方式により、現対象者が練習した複数のターゲット曲の練習スコアを総合的に平均して最終的な練習スコアを計算することで、現対象者のターゲット歌手の曲に対する真の歌唱レベルを正確に表すことができ、現対象者の歌唱レベルに対する客観的評価を確保し、練習スコア取得の科学性および合理性を向上させることができる。
【0060】
いくつかの実施例において、練習スコアは声質スコアと情感スコアとのうちの少なくとも一方を含み、これに対応して、端末は練習音声に対応する練習スコアを提示する前に、次のような方法で練習音声の練習スコアを決定することができる。即ち、練習スコアが声質スコアを含む場合、練習音声に対して声質変換を行ってターゲット歌手に対応する練習声質を得て、練習声質と、ターゲット歌手が前記曲を歌ったオリジナル声質とを比較し、対応する声質類似度を得て、声質類似度に基づいて声質スコアを決定する。練習スコアが情感スコアを含む場合、練習音声に対して情感度識別を行い、対応する練習情感度を得て、練習情感度と、ターゲット歌手が曲を歌ったオリジナル情感度とを比較し、対応する情感類似度を得て、情感類似度に基づいて情感スコアを決定する。
【0061】
声質変換を行うときは、現対象者の練習音声をターゲット歌手のオリジナル声質に合わせて変換し、オリジナルのターゲット歌手の声質に比較的近い練習声質を得る。なお、声質変換を行っても、変換後の練習声質はオリジナル歌手のオリジナル声質と完全に同じになるわけではなく、相対的に近くなるだけであり、またユーザごとに歌唱レベルが異なるため、ユーザが異なれば練習音声を変換して得られた練習声質も同じにはならない。したがってユーザごとに練習声質とオリジナル声質との声質類似度も同じではなく、声質スコアに違いが出る。
【0062】
いくつかの実施例において、端末は次のような方法で練習音声に対して声質変換を行い、ターゲット歌手に対応する練習声質を得る。即ち、音素識別モデルにより練習音声に対して音素識別を行い、対応する音素系列を得る。練習音声に対して音ラウドネス識別を行って、対応する音ラウドネス特性を得る。練習音声に旋律認識を行って、旋律を表す正弦励起信号を得る。音波合成器で音素系列、音ラウドネス特性および正弦励起信号を結合処理して、ターゲット歌手に対応する練習声質を得る。
【0063】
図18に示すように、音素識別モジュールはPPG抽出器とも呼ばれ、自動音声認識(ASR,Automatic Speech Recognition)モデルの一部である。ASRモデルの機能は音声をテキストに変換することにあり、本質は音声をまず複数の音素からなる音素系列に変換し、さらに音素系列をテキストに変換することである。PPG抽出器の機能は、音声まず音素系列に変換することにあり、練習音声からテキストコンテンツ情報のような声質と無関係の情報を抽出するために用いられる。なお、音素とは音声の自然属性に基づいて区分された最小音声単位を指す。
【0064】
実際の運用においては、
図19に示すように、練習音声が実際には時間領域上で雑然とした波形信号であることを考慮して、分析しやすくなるよう、時間領域上の練習音声を高速フーリエ変換で周波数領域に変換し、音声データに対応する音声スペクトルを得て、得られた音声スペクトルに基づいて、隣り合うサンプリングウィンドウに対応する音声スペクトル間の差異度を得て、さらに得られた複数の差異度に基づいて各サンプリングウィンドウに対応するエネルギースペクトルを特定し、最後に練習音声に対応するスペクトログラム(例えばメルスペクトログラム)を得るようにしてもよい。そして、練習音声に対応するスペクトログラムに対して、ダウンサンプリング層でのダウンサンプリング処理を行う。ダウンサンプリング層は2次元畳み込み構造であり、2倍の時間スケールで入力スペクトログラムをダウンサンプリング処理してダウンサンプリング特性を得る。そして、ダウンサンプリング特性をエンコーダ(統合型エンコーダまたはトランスフォーマーエンコーダ)に入力して符号化処理を行って、対応する符号化特性を得る。そして、符号化特性をデコーダに入力して復号処理を行うことにより、練習音声の音素系列を予測する。ここでデコーダはCTCデコーダでよく、当該デコーダは1つの全結合層を含み、復号プロセスは次のとおりである。即ち、符号化特性に基づいて練習音声1フレームごとに最大確率の音素をスクリーニングし、スクリーニングした練習音声1フレームごとの対応する最大確率の音素により時系列音素系列を構成し、時系列音素系列において隣り合う同じ音素を統合して、音素系列を得る。
【0065】
音ラウドネス特性とは、練習音声における練習音声1フレームごとのラウドネスの時間系列であり、つまり練習音声に対して短時間フーリエ変換を行って得た練習音声1フレームごとの対応する最大振幅である。音ラウドネスとは音の強弱を指し、ラウドネスとは人間の耳の感覚で判断される音の強弱即ち音ラウドネスの程度である。これに基づいて練習音声を弱から強の系列に並べることができる。正弦励起信号は、音の基本周波数(F0、音の各フレームの基本周波数は、音の各フレームのピッチに等しい)を用いて算出され、音声の旋律を表すために用いられる。旋律とは一般的に、若干の楽音に芸術的構想を加えて形成された、構成とリズムを有する系列であり、一定のピッチと継続時間と音量によって構成され、論理因子を有する単旋律部により進行する。旋律は多くの音楽基本要素、例えば調、リズム、拍、強弱、声質、表現方法/方式等が有機的に結合してなる。音波合成器の目的は、練習音声の音素系列と、音ラウドネス特性と、正弦励起信号という3つの話者の声質と無関係の特徴を合成して、ターゲット歌手の声質を用いて歌った歌声の音波(即ち上述のターゲット歌手に対応する練習声質)とすることにある。
【0066】
実際の運用においては、さらに上述のユーザの練習音声から合成した、ターゲット歌手の声質を使用して歌った歌声の音波(即ち上述のターゲット歌手に対応する練習声質)を、ユーザが楽しんだりシェアしたりできるようにユーザに提供することができる。ユーザは得られたターゲット歌手に対応する練習声質に基づいて、音声変換効果を理解し、これによりどの歌唱部分に向上の余地があるかを特定して、ターゲット歌手(オリジナル歌手)の歌唱技巧、声質、トーン等を学習することで、自身の歌唱技術レベルを一歩一歩持続的に上達させ、歌唱技巧と歌唱方法をますますオリジナル歌手に近づけて、最終的にターゲット歌手のコンサートを制作する制作資格を得るまで練習スコアを上げるという目的を達成することができる。
【0067】
いくつかの実施例において、端末は練習音声に対応する練習スコアを提示する前に、次のような方法で練習音声の練習スコアを決定することができる。即ち、練習音声を他の対象者の端末へ送信して、他の対象者の端末に、練習音声に対応する採点入口に基づいて、入力された練習音声に対応する人為採点を取得させる。そして、他の端末から返送された人為採点を受信して、人為採点に基づいて練習音声に対応する練習スコアを決定する。
【0068】
ここで、採点すべき練習音声をターゲット歌手に対応する投票プールに投下して、練習音声を他の対象者の端末へプッシュする。他の対象者は他の端末に提示された採点入口を通じて、現対象者の練習音声を採点する。
図7を参照されたい。
図7は本願実施例で提供する練習音声の採点概要図である。ユーザ採点インタフェースに、ターゲット歌手の曲を歌唱練習した練習音声に対して採点するための採点入口が提示され、採点入口を通じて採点すべき練習音声を採点することにより人為採点が得られ、他の対象者の端末から返送された人為採点を練習音声に対応する練習スコアとする。
【0069】
実際の運用においては、人為採点を決定する場合、人為採点に参加した各対象者の属性(例えば身分やレベル等)を考慮して、各対象者の属性に基づいて相応な採点の重みを決定してもよい。例えば人為採点に参加する対象者の身分には、職業音楽家、マスコミ、一般大衆等があり、対象者の身分が異なると対応する人為採点の重みも異なる。また、例えば人為採点に参加する対象者の歌唱レベルには0~5のレベルがあり、対象者のレベルの違いによっても、対応する人為採点の重みが異なってもよい。各対象者の練習音声に対する採点を取得した後、各対象者の重みに基づいて各採点を加重平均して、練習音声の練習スコアを得る。このようにすることで、得られた練習スコアは現対象者のターゲット歌手の曲に対する真の歌唱レベルを正確に表すことができ、現対象者の歌唱レべルに対する客観的評価を確保し、練習スコア取得の科学性および合理性を向上させることができる。
【0070】
いくつかの実施例において、端末は、練習音声に対応する機械採点を取得して、機械採点が採点閾値に達している場合、練習音声を他の対象者の端末へ送信する、という方法で練習音声を他の対象者の端末へ送信することができる。これに対応し、端末は、機械採点と人為採点との平均化処理を行って練習音声に対応する練習スコアを得る、という方法で人為採点に基づいて練習音声の練習スコアを決定することができる。
【0071】
ここで、まず人工知能による方法で練習音声を機械採点して対応する機械採点を得て、機械採点が所定の採点閾値(例えば100点満点で、採点閾値を80点とする)に達した場合、練習音声をターゲット歌手に対応する投票プールに投下し、練習音声を他の対象者の端末にプッシュしてもよい。他の対象者が端末に提示された採点入口を通じて現対象者の練習音声を採点することで、練習音声に対応する人為採点が得られる。そして機械採点と人為採点を結合して練習音声に対応する練習スコアを得る。例えば、機械採点と人為採点とを平均化処理して、練習音声に対応する練習スコアを得る。このようにすることで、機械採点と人為採点とを結合して得られた練習スコアの精度が高くなり、精度が高い練習スコアは現対象者のターゲット歌手の曲に対する真の歌唱レベルを正確に表すことができ、現対象者の歌唱レベルに対する客観的評価を確保し、練習スコア取得の科学性および合理性を向上させることができる。
【0072】
いくつかの実施例において、端末は、現対象者に対応する曲練習インタフェースにターゲット歌手に関連付けられたコンサート入口を提示する前に、次のような方法で現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定してもよい。即ち、現対象者の練習曲に対応する曲練習順位を提示し、曲練習順位が目標順位より前にある場合、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定する。このようにすることで、順位が上位のユーザのみがターゲット歌手のバーチャルコンサートを制作または開催する資格を有するようにして、バーチャルコンサートを制作または開催するユーザがいずれも高い歌唱レベルを有することを確保し、コンサートの品質が保証される。
【0073】
実際の運用においては、曲練習インタフェースに、練習した曲の練習音声に基づいて決定した、現対象者の練習した曲に対応する曲練習ランキングを提示してもよい。曲練習ランキングは練習音声の練習スコアに基づいて決定される。例えば、ターゲット歌手を練習したユーザの練習スコアの高い方から低い方への順序に従って、降順の曲練習ランキングを決定する。例えば、
図8を参照されたい。
図8は本願実施例で提供する曲練習ランキング概要図である。歌手Aの曲Bを練習したユーザが複数いる場合、降順の曲練習ランキングを提示し、現対象者の曲練習順位が目標順位(例えば4位)より前である場合に限り、現対象者が歌手Aのコンサートを制作する制作資格を備えていると判定する。即ち、上位3名のユーザはいずれも歌手Aのコンサートを制作する制作資格を備えている。現対象者の曲練習順位が目標順位(4位)であるか、目標順位より後である場合、現対象者はターゲット歌手Aのコンサートを制作する制作資格を備えていないと判定する。また、曲練習インタフェースに再生入口を提示して、再生入口を通じて該当ユーザが曲Bを練習したときの練習音声を再生できるようにしてもよい。
【0074】
いくつかの実施例において、現対象者が練習した曲の数が少なくとも2つである場合、端末は、現対象者が歌唱したすべての曲の総スコアと、詳細をチェックするための詳細入口を提示し、詳細入口に対するトリガー操作に応答して、詳細ページを提示するとともに詳細ページに各曲に対応する練習スコアを提示してもよい。
【0075】
詳細ページはポップアップウィンドウ形式で表示してもよいし、曲練習インタフェースから独立したサブインタフェース形式で表示してもよく、本願実施例では詳細ページの表示形式について特に限定しない。
【0076】
図9を参照されたい。
図9は本願実施例で提供する曲練習ランキング概要図である。各対象者が練習した曲の数が複数である場合、降順の曲練習ランキングを提示すると同時に、各対象者が歌唱したすべての曲の総スコアと、詳細をチェックための詳細入口とを提示してもよい。例えば現対象者がユーザAの詳細入口901をトリガー(例えばクリック、ダブルクリック、スワイプ等)した場合、端末は当該トリガー操作に応答して、ポップアップウィンドウ形式で詳細ページ902を提示する。詳細ページ902にはユーザ1が練習したすべての曲、例えば曲1、曲2、曲3、曲4と、各曲に対応する練習スコアが提示される。このようにすることで、ユーザはその中から各対象者が歌唱した曲および歌唱レベルを楽しむかシェアすることができ、ひいては自身の歌唱レベルおよび上達すべき方向をより全面的に認識することができ、自身の歌唱レベルを一歩一歩持続的に上達させることに寄与し、歌唱技巧と歌唱方法をますますオリジナル歌手に近づけて、最終的にターゲット歌手のコンサートを制作する制作資格を得るまで練習スコアを上げるという目的を達成させることができる。
【0077】
ステップ102:コンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する。
【0078】
実際の運用において、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合にのみターゲット歌手に関連付けられたコンサート入口を提示する場合は、現対象者が当該コンサート入口をトリガー(例えば、クリック、ダブルクリック、スワイプ等)しさえすれば、端末は当該トリガー操作に応答してターゲット歌手のコンサート制作指令を受信して、コンサート制作指令に基づいてターゲット歌手の曲に対してバーチャル歌唱するためのコンサートルームを制作することができる。現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かに関わらず、コンサート入口が常に曲練習インタフェースに提示されている場合は、端末はコンサート入口に対するトリガー操作に応答して、まず現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定する必要がある。現対象者がターゲット歌手のコンサートを制作する制作資格を備えている場合に限り、ターゲット歌手に対応するコンサート制作指令を受信する。一方、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていない場合は、当面コンサート入口がトリガーしても、ターゲット歌手についてのコンサート制作指令をトリガーすることはできない。
【0079】
いくつかの実施例において、端末は次のような方法でコンサート入口に基づいてターゲット歌手についてのコンサート制作指令を受信することができる。即ち、コンサート入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、少なくとも1人の候補歌手におけるターゲット歌手の選択操作に応答し、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていると判定された場合、ターゲット歌手についてのコンサート制作指令を受信する。
【0080】
図10を参照されたい。
図10は本願実施例で提供するコンサート制作指令のトリガー概要図である。コンサート入口1001は各歌手のコンサートを制作するための共通の入口であり、現対象者がコンサート入口1001をトリガーした場合、端末は当該トリガー操作に応答して、歌手選択インタフェース1002を提示するとともに、歌手選択インタフェースに少なくとも1人の現対象者が選択可能な候補歌手を提示する。現対象者がその中からターゲット歌手1002を選択した場合、端末は当該選択操作に応答して、現対象者がターゲット歌手のコンサートを制作する制作資格を備えているか否かを判定し、制作資格を備えているか否かを通知するためのプロンプトを提示する。現対象者がターゲット歌手のコンサートを制作する制作資格を備えている場合、端末は制作資格を備えているというプロンプトを提示し、ターゲット歌手についてのコンサート制作指令を受信する。一方、現対象者がターゲット歌手のコンサートを制作する制作資格を備えていない場合、制作資格を備えていないというプロンプトが提示され、当面コンサート入口をトリガーしたとしても、ターゲット歌手についてのコンサート制作指令はトリガーすることができない。このようにすることで、ターゲット歌手のコンサートの制作資格を備えたユーザに限ってターゲット歌手のバーチャルコンサートを制作できるので、コンサートの品質が保証される。
【0081】
いくつかの実施例において、端末は次のような方法でコンサート入口に基づいてターゲット歌手についてのコンサート制作指令を受信することができる。即ち、コンサート入口に対するトリガー操作に応答して、現対象者がコンサートを制作する制作資格を備えている少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、ターゲット歌手についてのコンサート制作指令を受信する。
【0082】
実際の運用においては、現対象者は例えば歌手Aのコンサートと歌手Bのコンサートを制作する制作資格を同時に備えているというように、複数の歌手のコンサートの制作資格を備えている可能性がある。このような場合、コンサート入口は制作資格を備えるすべての歌手のコンサートを制作するための共通の入口であり、現対象者の端末はコンサート入口を通じて歌手Aのコンサートを制作することも、歌手Bのコンサートを制作することもでき、現対象者はその中から今回開催したいターゲット歌手のコンサートを選択できる。
【0083】
図11を参照されたい。
図11は本願実施例で提供するコンサート制作指令のトリガー概要図である。現対象者がコンサート入口1101をトリガーした場合、端末は当該トリガー操作に応答して歌手選択インタフェースを提示するとともに、歌手選択インタフェースにおいて現対象者が選択可能な候補歌手1102および候補歌手1103を提示する。現対象者は候補歌手1102のコンサートおよび候補歌手1103のコンサートを制作する制作資格を同時に備えており、現対象者が候補歌手1103を選択した場合、端末は当該選択操作に応答して、候補歌手1103をターゲット歌手として、ターゲット歌手(即ち候補歌手1103)についてのコンサート制作指令を受信する。
【0084】
いくつかの実施例において、コンサート入口の数が少なくとも1つの場合、コンサート入口には歌手が関連付けられており、且つコンサート入口と関連付けられた歌手とは対応関係を有している。端末は次のような方法でコンサート入口に基づいてターゲット歌手に対応するコンサート制作指令を受信する。即ち、ターゲット歌手が関連付けられたコンサート入口に対するトリガー操作に応答して、ターゲット歌手に対応するコンサート制作指令を受信する。
【0085】
ここで、曲練習インタフェースに提示されるコンサート入口の数は1つでも複数(即ち2つ以上)でもよく、各コンサート入口にはコンサート制作を具備する対応する歌手が関連付けられており、且つコンサート入口と関連付けられた歌手とは一対一の対応関係を有する。
図12に示すように、
図12は本願実施例で提供するコンサート制作指令のトリガー概要図である。「練習開始」という曲練習入口1201の関連エリアには、2つのコンサート入口であるコンサート入口1202とコンサート入口1203とが提示される。コンサート入口1202は歌手Aに関連付けられ、コンサート入口1203は歌手Bに関連付けられている。即ち現対象者は歌手Aのコンサートおよび歌手Bのコンサートを制作する制作資格を同時に備えている。コンサート入口1202は歌手Aのコンサートを制作するために、コンサート入口1203は歌手Bのコンサートを制作するために用いられる。現対象者はその中から今回開催したいターゲット歌手のコンサートに対応するコンサート入口を選択できる。例えば、現在ユーザがコンサート入口1203を選択した場合、端末は当該トリガー操作に応答して、候補歌手Bをターゲット歌手として、ターゲット歌手(即ち候補歌手B)についてのコンサート制作指令を受信する。
【0086】
いくつかの実施例において、端末は次のような方法で、コンサート入口に基づいてターゲット歌手についてのコンサート制作指令を受信することができる。即ち、コンサート入口にターゲット歌手が関連付けられている場合、コンサート入口に対するトリガー操作に応答して、ターゲット歌手に対応するコンサートの制作を申請するか否かをリマインドするためのプロンプト情報を提示する。プロンプト情報に対する決定操作を受信した場合、ターゲット歌手についてのコンサート制作指令を受信する。
【0087】
ここで、コンサート入口にターゲット歌手が関連付けられていることは、現対象者が既にターゲット歌手のコンサートを制作する制作資格を備えていることを表しており、現対象者がコンサート入口をトリガーした場合、端末は当該トリガー操作に応答して、ターゲット歌手に対応するコンサートの制作を申請するか否かをリマインドするためのプロンプト情報を提示する。現対象者は当該プロンプト情報に基づいてターゲット歌手に対応するコンサートを制作するか否かを決定できる。例えば現対象者はターゲット歌手に対応するコンサートを制作すると決定した場合、相応の決定ボタンをトリガーすることにより決定操作をトリガーでき、端末は決定操作を受信した場合、ターゲット歌手に対応するコンサート制作指令を受信することができる。一方、現対象者はターゲット歌手に対応するコンサートを制作しないと決定した場合、相応の取消ボタンをトリガーすることにより取消操作をトリガーすることができ、端末は取消操作を受信した場合、ターゲット歌手についてのコンサート制作指令を受信しない。このとき、曲練習インタフェースに曲練習入口を提示することができ、現対象者は曲練習入口を通じてターゲット歌手の曲または他の歌手の曲を練習して、自身の歌唱技術レベルを一歩一歩持続的に上達させることができ、歌唱技巧と歌唱方法をますますオリジナル歌手に近づけて、ターゲット歌手のコンサートを制作する制作資格を得るまで練習スコアを上げるという目的を達成することができる。
【0088】
いくつかの実施例において、端末は次のような方法で、プロンプト情報に対する決定操作を受信した場合ターゲット歌手に対応するコンサート制作指令を受信することを実現できる。即ち、プロンプト情報に対する決定操作を受信した場合、ターゲット歌手のコンサートの制作を申請するための申請インタフェースを提示するとともに申請インタフェースにコンサート関連情報を編集するための編集入口を提示し、編集入口に基づいて編集されたコンサート情報を受信し、コンサート情報に対する決定操作に応答して、ターゲット歌手についてのコンサート制作指令を受信する。
【0089】
図13を参照されたい。
図13は本願実施例で提供するコンサート制作指令のトリガー概要図である。端末はコンサート入口1301に対するトリガー操作に応答して、「おめでとう、あなたの練習曲は歌手Aで1位です。歌手Aのバーチャルコンサートを具備する申請を選択しますか」というプロンプト情報1302と、直ちにコンサートルームを制作するための即時制作ボタン1303と、取消ボタン1304とを提示する。ユーザが即時制作ボタン1303をトリガーした場合、端末はプロンプト情報に対する決定操作を受信して、当該決定操作に応答し、申請インタフェース1305を提示するとともに、コンサート情報に対応する決定ボタン1306を提示する。申請インタフェースには、制作するコンサートの関連情報、例えばユーザ名、歌唱予定曲、ゲスト演者、コンサート時間、有料か否か等のコンサート情報を編集するための編集入口が提示される。端末は決定ボタン1306に対するトリガー操作に応答して、コンサート情報に対する決定操作を受信し、当該決定操作に応答して、歌手Aについてのコンサート制作指令を受信する。
【0090】
さらに、編集入口を通じてコンサートに関する宣伝情報、例えばコンサート紹介、コンサート開始時間等を編集することもでき、端末は宣伝情報の決定操作に応答して、宣伝情報を載せた宣伝ポスターまたは宣伝アプレット等を生成し、宣伝ポスターや宣伝アプレットを他の対象者の端末へシェアして、現対象者が開催するターゲット歌手に対応するコンサートを広く宣伝および推薦する。これにより他の対象者の端末を現対象者が制作したコンサートルームに入室させ、より多くのユーザが現対象者の制作したオンラインバーチャルコンサートをオンライン視聴するよう誘引し、制作したバーチャルコンサートがより多くの人々に触れるようにし、ひいてはより多くのユーザがターゲット歌手または他の歌手の曲を練習するよう導き、ユーザ定着率を向上させる。
【0091】
いくつかの実施例において、コンサートルームは制作予測することも可能であり、端末は次のような方法でコンサート入口に基づいてターゲット歌手に対応するコンサート制作指令を受信することができる。即ち、コンサートルームを制作予約するための予約入口を提示し、前記予約入口に対するトリガー操作に応答して、ターゲット歌手のコンサートを制作予約するための予約インタフェースを提示するとともに、予約インタフェースにコンサートの予約情報を編集するための編集入口を提示し、編集入口に基づいて編集された、少なくともコンサート開始時刻を含むコンサート予約情報を受信し、コンサート予約情報に対する決定操作に応答し、ターゲット歌手についてのコンサート制作指令を受信する。
【0092】
図14を参照されたい。
図14は本願実施例で提供するコンサート制作指令のトリガー概要図である。端末はコンサート入口1401に対するトリガー操作に応答して、「おめでとう、あなたの練習曲は歌手Aで1位です。歌手Aのバーチャルコンサート開催の申請を選択しますか」というプロンプト情報1402を提示するとともに、コンサートルームの制作を予約するための予約入口1403を提示し、予約入口1403に対するトリガー操作に応答して、コンサートルームの予約インタフェース1404を提示する。予約インタフェースにはコンサート紹介、コンサート開始時刻、コンサート時間、またはその他のより多くの情報等を設定できる。コンサート開始時刻は、予約時間選択キーで選択した時刻に基づいて決定してもよいし、システムが推薦する時間に基づいて決定してもよい。設定完了後、現対象者が「制作」という予約決定ボタン1405をトリガーすると、コンサート予約情報に対する決定操作を受信し、当該決定操作に応答して、歌手Aについてのコンサート制作指令を受信する。
【0093】
ステップ103:コンサート制作指令に応答して、ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作する。
【0094】
コンサートルームとは現対象者が開設したネットワークライブ配信番組を指し、現対象者がターゲット歌手を模倣してターゲット歌手の曲を歌うことを可能とするものである。即ち、現対象者がアンカーの立場でコンサートルームにおいてターゲット歌手の曲を歌い、歌唱コンテンツを観衆が観賞できるようリアルタイムで配信し,観衆はウェブページに表示されたコンサートインタフェースまたはクライアントが表示したコンサートルームを通じて現対象者がライブ配信した歌唱コンテンツを見る。即ち、当該コンサートルームへ入室したユーザ、または当該ライブ配信ウェブページにおけるコンサートインタフェースを閲覧したユーザは、いずれも現対象者がコンサートルームでターゲット歌手の曲を歌う歌唱コンテンツを見ることができる。実際の運用においては、コンサートルームは即時に制作することも、予約制作することもできる。即時制作では、
図13のように、端末がコンサート制作指令に応答して、制作要求を生成してサーバ(即ちクライアントのバックグラウンドサーバ)に送信し、サーバが制作要求に基づいて対応するコンサートルームを制作してコンサートルームのルームIDを端末へ返送し、端末がルームIDに基づいて、制作されたコンサートルームにアクセスして提示する。予約制作では、
図14のように、端末がコンサート制作指令に応答して、コンサート予約情報を含む制作要求を生成してサーバへ送信し、サーバが制作要求に基づいて対応するコンサートルームを制作してコンサートルームのルームIDを端末へ返送し、ライブ配信開始時刻になったとき、端末はルームIDに基づいて、制作されたコンサートルームにアクセスして提示する。
【0095】
実際の運用においては、コンサートルームが制作されると、現対象者の端末はコンサートルームのルームID、コンサート情報またはコンサート予約情報を他の対象者の端末へシェアして、現対象者が開催するターゲット歌手に対応するコンサートを広く宣伝および推薦する。これにより他の対象者の端末をルームIDに基づいて現対象者が制作したコンサートルームに入室させ、より多くのユーザが現対象者の制作したオンラインバーチャルコンサートをオンラインで見るよう誘引し、制作したバーチャルコンサートがより多くの人々に触れるようにし、ひいてはより多くのユーザがターゲット歌手または他の歌手の曲を練習するよう導き、ユーザ定着率を向上させる。
【0096】
ステップ104:現対象者がターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集して、歌唱コンテンツをコンサートルームを通じて再生する。
【0097】
歌唱コンテンツは、コンサートルーム内の対象者に対応する端末が、コンサートルームを通じて再生できるように提供される。歌唱コンテンツはターゲット歌手の曲を歌った音声コンテンツを含み、音声コンテンツは次のような方法で取得できる。即ち、現対象者の、ターゲット歌手の曲を歌った歌唱音声を収集し、歌唱音声を声質変換して、歌唱音声に対応するターゲット歌手の声質の変換音声を得て、変換音声を歌唱コンテンツにおける音声コンテンツとする。
【0098】
実際の運用において、バーチャルコンサートの開催には、音声変換サービスを利用して擬似リアルタイムの歌声変換を行う必要がある。例えば、現対象者がコンサートルームで曲を歌った場合、ハードウェアマイクロフォンでリアルタイムに歌唱のソース音声ストリームを収集し、収集したソース音声ストリームをキューの形式で音声変換サービスに伝送する。音声変換サービスによりソース音声ストリームに対して音声変換(例えば声質変換)を行った後、変換後のターゲット音声ストリームをやはりキューの形式で一定速度でコンサートルームのバーチャルマイクロフォンへと出力する。バーチャルマイクロフォンを介してコンサートルームでライブ配信方式でターゲット音声ストリームを再生して、歌唱コンテンツを再生するという目的を達成する。
【0099】
例えば、現対象者が開催するのが歌手Aのバーチャルコンサートであり、歌手Aの曲を模倣歌唱する場合、端末が現対象者が曲を歌った歌唱音声(ソース音声ストリーム)を収集して、歌唱音声を声質変換し、歌手Aの声質に対応する変換音声(ターゲット音声ストリーム)を得て、コンサートルームを通じて当該変換音声を再生する。このようにすることで、他のユーザに聞こえるのは歌手Aの声質に比較的近い、またはほぼ同じ声となり、ターゲット歌手のコンサートの再現が実現される。
【0100】
また、歌唱コンテンツには歌唱音声(音)以外に、画面コンテンツが含まれていてもよい。
図13または
図14において、現対象者がコンサートルームでターゲット歌手の曲を歌う場合、コンサートルームを通じて関連する歌唱コンテンツが再生される。例えば現対象者が歌う歌声以外に、さらにバーチャル舞台、バーチャル観衆、バーチャル背景等が提示される。バーチャル舞台にはターゲット歌手に対応するバーチャル人物像が提示されてもよいし、現対象者の本来の人物像または現対象者に対応するバーチャル人物像等が提示されてもよい。バーチャル観衆はコンサートルームに入室してコンサートを見ている他の対象者を表し、バーチャル人物像の形で表示することができる。バーチャル背景は、現在歌唱している曲に関連する画面、例えばターゲット歌手が過去に現在の曲を歌った歌唱画面(MVの画面または本物のコンサートの画面)でもよいし、現対象者が現在歌唱しているリアルな画面等でもよい。
【0101】
いくつかの実施例において、端末はコンサートルームを通じて歌唱コンテンツを再生している間、コンサートルームに歌唱コンテンツに対する他の対象者のインタラクション情報を提示してもよい。
図15に示すように、コンサートルームを通じて関連する歌唱コンテンツを再生する以外に、コンサートルームに入室した他の対象者の、現在の歌唱コンテンツに対するインタラクション情報、例えば,公開された箇条書きコメントや、「いいね」等を提示することができる。これによりコンサート再生コンテンツを豊富にすると同時に、ターゲット歌手に対する情感をよりよく伝達でき、ユーザにより多くの娯楽オプションを提供でき、ユーザの高まる一途の情報多様化要求を満たすことができる。
【0102】
なお、本願実施例に係るユーザ情報、例えば現対象者の練習音声、コンサート関連情報(例えばコンサートID、歌唱コンテンツ等)や他の対象者のインタラクション情報等の関連データは、本願実施例が具体的製品または技術で運用される場合、ユーザの許可または同意を得る必要があり、さらに関連データの収集、使用および処理については、関連国または地域の関連法律法規および規準を遵守しなければならない。
【0103】
次に、本願実施例の実際の一応用場面での応用例を説明する。
図15を参照されたい。
図15は本願実施例で提供する歌唱サウンド変更概要図である。関連技術において、ユーザは曲の録音後にエコーをかけたり各種のパーソナライズしたサウンド変更(音声変換)処理を行ったりして、歌えなくても曲の録音、発表、シェア等に楽しく参加することができる。しかしながら、関連技術におけるサウンド変更機能は、オリジナル、電子音、メタル、ハーモニーの4つのサウンド変更機能しかサポートしておらず、機能が固定され、サウンド変更効果も限定されているため、ダイレクトにサウンド変更を行わざるを得ない。その後でアルゴリズム検証やユーザ検証を行うことができないため、サウンド変更効果を認識することができず、継続して最適化することができない。しかも、上述のサウンド変更機能ではユーザが単純にランダムな歌唱を行うことはできるが、特定の歌手のバーチャルコンサートを制作または開催することはできない。また、関連技術はCycleGAN(Cycle Generative Adversarial Networks)に基づく音声変換技術である。CycleGANは2つのジェネレータと2つのディスクリミネータを含み、音声変換の場面では、2つのジェネレータはそれぞれ話者Aから話者Bへの変換と、話者Bから話者Aへの変換を担当する。そして、2つのディスクリミネータがそれぞれ音声が話者Aの音声であるか否かの判定と、音声が話者Bの音声であるか否かの判定を担当する。2つのジェネレータを循環的につなげ、対応するディスクリミネータを接続すれば敵対的訓練を行うことができる。しかし当該ネットワークアーキテクチャは一対一の音声変換しか行えず、任意の話者の音声をある特定の話者に変換することはできない。
【0104】
そのため、本願実施例で提供するバーチャルコンサートの処理方法は、多対一の音声変換技術に基づいて、特定のターゲット歌手についてのバーチャルコンサートを制作および開催でき、ターゲット歌手のコンサートの再現を実現する。このような上演方式はユーザのターゲット歌手に対する情感をよりよく伝えることに寄与し、ユーザにより多くの娯楽オプションを提供して、ユーザの高まる一途の情報多様化要求を満たすことができる。
【0105】
図16を参照されたい。
図16は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。本願実施例で提供するバーチャルコンサートの処理方法は以下のステップを含む。
【0106】
ステップ201:端末が曲練習インタフェースに曲練習入口を提示する。
【0107】
ステップ202:曲練習入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示する。
【0108】
ステップ203:少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、ターゲット歌手に対応する少なくとも1つ候補曲を提示する。
【0109】
ステップ204:少なくとも1つの候補曲のうちのターゲット曲に対する選択操作に応答して、ターゲット曲を歌唱するための音声録音入口を提示する。
【0110】
ステップ205:音声録音入口に対するトリガー操作に応答して、ターゲット歌手の前記ターゲット曲についての曲練習指令を受信する。
【0111】
ステップ206:曲練習指令に応答して、現対象者がターゲット歌手の曲を練習した練習音声を収集する。
【0112】
もちろん、現ユーザは練習を途中で停止するのであれば、曲練習インタフェースから退出する。
【0113】
ステップ207:練習音声に対応する機械採点を提示する。
【0114】
ステップ208:機械採点が採点閾値に達しているか否かを判定する。
【0115】
ここで、現対象者は、毎回の練習音声の変換後の練習声質(即ち変換後の声)に基づいて、声質スコアおよび情感スコアにどれだけ向上の余地があるかを自分で判断し、オリジナルのターゲット歌手の歌唱技巧、情感充実度、息継ぎ、転調等の模倣を複数回練習して、声質スコアおよび情感スコア等の機械採点を向上させることができる。機械採点が採点閾値(例えば100点満点で採点閾値を80点に設定する)に達している場合、ステップ209を実行し、機械採点が採点閾値に達していない場合、ステップ205を実行する。
【0116】
ステップ209:練習音声をターゲット歌手に対応する投票プールに投下して、人為採点を行う。
【0117】
ここで、採点すべき練習音声をターゲット歌手に対応する投票プールに投下して、練習音声を他の対象者の端末へプッシュする。他の対象者は、他の端末に提示された採点入口を通じて現対象者の練習音声を採点し、得られた人為採点を現対象者の端末が表示できるよう返送する。
【0118】
ステップ210:練習音声に対応する人為採点を提示する。
【0119】
ここで、人為採点も声質類似度および情感類似度の2つの面から評価してもよい。
【0120】
ステップ211:機械採点と人為採点の平均化処理を行って、練習音声に対応する練習スコアと、現対象者の練習曲に対応する曲練習順位を得る。
【0121】
練習音声に対応する練習スコアは、(機械採点(声質スコア、情感スコア)+人為採点(声質スコア、情感スコア))/4であり、歌曲Bを例に採ると、対応する機械採点において声質スコア=80点、情感スコア=75点、人為採点において声質スコア=78点、情感スコア=70点で、当該曲の練習スコアは(80+75+78+70)/4=75.75点となる。
【0122】
ここで、ターゲット歌手の曲を練習した人が複数いる場合、ターゲット歌手を練習したユーザの練習スコアの高い方から低い方への順序で、降順の曲練習ランキングを決定し、現対象者の曲練習ランキングにおける曲練習順位を決定する。
【0123】
ステップ212:曲練習順位が目標順位より前に位置するか否かを判定する。
【0124】
例えば、歌手Aの曲を練習したユーザが複数いる場合、各ユーザの練習スコアに応じて降順の曲練習ランキングを決定する。上位3名のユーザのみが歌手Aのコンサートを制作する制作資格を備えていると仮定すると、現対象者の練習スコアに基づいて現対象者の曲練習順位が上位3名であるか否か(即ち第4位よりも前に位置するか否か)を判定して、現対象者の曲練習順位が第4位より前に位置する場合、ステップ213を実行する。そうでない場合、ステップ201を実行する。
【0125】
ステップ213:ターゲット歌手のコンサートを制作するためのコンサート入口を提示する。
【0126】
実際の運用においては、コンサート入口と曲練習入口とは同一の入口でもよいし、同一の入口でなくてもよい。両者が同一の入口である場合、現対象者がコンサートを制作する制作資格を備えていれば、曲練習入口の関連エリアに現対象者がコンサートを制作する制作資格を備えていることを示すための表示情報を提示する(例えば曲練習入口に「赤い点」で示す)。
【0127】
ステップ214:コンサート入口に対するトリガー操作に応答して、ターゲット歌手のコンサートの制作を申請するか否かをリマインドするためのプロンプト情報を提示する。
【0128】
ステップ215:プロンプト情報に対する決定操作を受信した場合、ターゲット歌手についてのコンサート制作指令を受信する。
【0129】
ここで、現対象者は当該プロンプト情報に基づいてターゲット歌手に対応するコンサートを制作するか否かを決定できる。現対象者がターゲット歌手に対応するコンサートを制作すると決定した場合、相応の決定ボタンをトリガーすることにより決定操作をトリガーでき、端末は決定操作を受信した場合、ターゲット歌手に対応するコンサート制作指令を受信することができる。一方、現対象者はターゲット歌手に対応するコンサートを制作しないと決定した場合、相応の取消ボタンをトリガーすることにより取消操作をトリガーすることができ、端末は取消操作を受信した場合、ターゲット歌手に対応するコンサート制作指令を受信しない。このとき、曲練習インタフェースに曲練習入口を提示することができ、現対象者は曲練習入口を通じてターゲット歌手の曲または他の歌手の曲を練習することができる。
【0130】
ステップ216:コンサート制作指令に応答して、ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作する。
【0131】
コンサートルームは現対象者がターゲット歌手を模倣してターゲット歌手の曲を歌うために用いられ、当該コンサートルームに入室したユーザは誰でも現対象者がコンサートルームでターゲット歌手の曲を歌った歌唱コンテンツを見ることができる。
【0132】
ステップ217:現対象者のターゲット歌手の曲に対する模倣歌唱に対応する歌唱コンテンツを収集し、コンサートルームを通じて歌唱コンテンツを再生する。
【0133】
ここで、
図17を参照されたい。
図17は本願実施例で提供するバーチャルコンサートの処理フローチャートである。バーチャルコンサートの開催には、音声処理ソフトウェアの音声変換サービスを利用して擬似リアルタイムの歌声変換を行う必要がある。例えば、現対象者がコンサートルームで曲を歌った場合、ハードウェアマイクロフォンでリアルタイムに歌唱のソース音声ストリームを収集し、収集したソース音声ストリームをキューの形式で音声変換サービスに伝送する。音声変換サービスによりソース音声ストリームに対して音声変換を行った後、変換後のターゲット音声ストリームをやはりキューの形式で一定速度でコンサートルームのバーチャルマイクロフォンへと出力する。バーチャルマイクロフォンを介してコンサートルームでライブ配信方式でターゲット音声ストリームを再生して、歌唱コンテンツを再生するという目的を達成する。
【0134】
次に、機械採点について説明する。ユーザの練習が終わると、端末は音声変換サービスをロードして、音声変換技術によって収集した練習音声の声質変換を行い、収集した練習音声をオリジナルのターゲット歌手に似た声質に変換し、ターゲット歌手に対応する練習声質を得る。そして練習声質とターゲット歌手のオリジナル声質とを比較し、対応する声質類似度を得て、声質類似度に基づいて声質スコアを決定する。同時に、練習音声に対して情感度識別を行い、対応する練習情感度を得て、練習情感度とターゲット歌手のオリジナル情感度とを比較して、対応する情感類似度を得て、情感類似度に基づいて情感スコアを決定し、声質スコアと情感スコアとを機械採点とする。
【0135】
図18を参照されたい。
図18は本願実施例で提供する声質変換概要図である。練習音声に対して声質変換を行う場合、音素識別モデルにより練習音声に対して音素識別を行い、対応する音素系列を得る。練習音声に対して音ラウドネス識別を行って、対応する音ラウドネス特性を得る。練習音声に旋律認識を行って、旋律を表す正弦励起信号を得る。音波合成器で音素系列、音ラウドネス特性および正弦励起信号を結合処理して、ターゲット歌手に対応する練習声質を得る。
【0136】
音素識別モジュールはPPG抽出器とも呼ばれ、ASRモデルの一部である。ASRモデルの機能は音声をテキストに変換することにあり、本質は音声をまず音素系列に変換し、さらに音素系列をテキストに変換するものである。PPG抽出器の機能は、音声をまず音素系列に変換することにあり、練習音声からテキストコンテンツ情報のような声質と無関係の情報を抽出するために用いられる。
【0137】
図19を参照されたい。
図19は本願実施例で提供する音素識別モデルの構造模式図である。声質識別を行う前に、練習音声が実際には時間領域上で雑然とした波形信号であることを考慮して、分析しやすくなるよう、時間領域上の練習音声を高速フーリエ変換で周波数領域に変換し、音声データに対応する音声スペクトルを得て、得られた音声スペクトルに基づいて、隣り合うサンプリングウィンドウに対応する音声スペクトル間の差異度を得て、さらに得られた複数の差異度に基づいて各サンプリングウィンドウに対応するエネルギースペクトルを特定し、最後に練習音声に対応するスペクトログラム(例えばメルスペクトログラム)を得るようにしてもよい。そして、練習音声に対応するスペクトログラムに対して、ダウンサンプリング層でのダウンサンプリング処理を行う。ダウンサンプリング層は2次元畳み込み構造であり、2倍の時間スケールで入力スペクトログラムをダウンサンプリング処理してダウンサンプリング特性を得る。そして、ダウンサンプリング特性をエンコーダ(統合型エンコーダまたはトランスフォーマーエンコーダ)に入力して符号化処理を行って、対応する符号化特性を得る。そして、符号化特性をデコーダに入力して復号処理を行うことにより、練習音声の音素系列を予測する。ここでデコーダはCTCデコーダでよく、当該デコーダは1つの全結合層を含み、復号プロセスは次のとおりである。即ち、符号化特性に基づいて練習音声1フレームごとの最大確率の音素をスクリーニングし、スクリーニングした練習音声1フレームごとの対応する最大確率の音素により時系列音素系列を構成し、時系列音素系列において隣り合う同じ音素を統合して、音素系列を得る。
【0138】
練習音声のスペクトログラムを取得する場合、練習音声をフレームごとに分割し、そして各フレームの信号をフーリエ変換してスペクトルを取得した後、時間領域において重畳して、スペクトログラムを得ることができる。スペクトログラムは時間領域上で、音声信号において重畳された正弦波の経時的変化を反映することができる。あるいは、スペクトログラムをベースとして、設定済みのフィルタを使用してスペクトルをフィルタリングしてメルスペクトログラムを得る。一般のスペクトログラムに比べ、周波数の次元数が少なく、且つ人間の聴覚が敏感な低周波数帯の音声信号に集中している。一般にMel図は音声信号よりも情報の抽出/分離が容易であり、音声の変更修正も容易である。
【0139】
音素識別モデルを訓練する場合、大量の音声-テキストの訓練サンプルを用いて訓練を行う。訓練の損失関数には次式のようなCTC損失を使用できる。
【数1】
但し、Xは予測テキストに対応する音素系列であり、Yはターゲットテキストに対応する音素系列である。両者の尤度関数は次式のとおりである。
【数2】
【0140】
音ラウドネス特性とは、練習音声における各フレームの練習音声のラウドネスの時間系列であり、つまり練習音声に対して短時間フーリエ変換を行って得られた各フレームの練習音声に対応する最大振幅である。正弦励起信号は、音の基本周波数(F0、音の各フレームの基本周波数は、音の各フレームのピッチに等しい)を用いて算出されたものである。
【0141】
音波合成器の目的は、練習音声の音素系列と、音ラウドネス特性と、正弦励起信号という3つの話者の声質と無関係の特徴を合成して、ターゲット歌手の声質を用いて歌った歌声の音波(即ち上述のターゲット歌手に対応する練習声質)とすることにある。
図20を参照されたい。
図20は本願実施例で提供する音波合成器の構造模式図である。音波合成器は複数のアップサンプリングブロックおよびダウンサンプリングブロックを含む。練習音声をターゲット歌手に対応する練習声質(即ち音波)に変換するために、上述の取得した音素系列に対して4つのアップサンプリングブロックを適用して4、4、4、5の係数で順次アップサンプリング処理を行い、4つのダウンサンプリングブロックをそれぞれ適用して4、4、4、5の係数で順次上述の音ラウドネス特性と正弦励起信号とに対してダウンサンプリング処理を行う。処理して得られた特徴を結合して、ターゲット歌手に対応する練習声質が得られる。
図21に示すように、
図21は本願実施例で提供するダウンサンプリングブロックの構造模式図である。得られた音素系列はアップサンプリングブロックに入力され、アップサンプリング、複数層の活性化関数および畳み込み処理を経て、対応するアップサンプリング特性が得られる。
図22に示すように、
図22は本願実施例で提供するアップサンプリングブロックの構造模式図である。得られた音ラウドネス特性および正弦励起信号はアップサンプリングブロックに入力され、アップサンプリング、複数層の活性化関数、畳み込み処理、特徴線形変調(FiLM、Feature-wise Linear Modulation)モジュールの処理を経て、対応するアップサンプリング特性が得られる。特徴線形変調(FiLM)モジュールは、特徴アフィンのために用いられる。正弦励起信号および音ラウドネス特性の情報は、音素系列と結合され、これにより入力に与えられるスケーリングベクトルとシフトベクトルが生成される。
図23に示すように、
図23は本願実施例で提供する特性線形変調モジュール概要図である。FiLMモジュールは、対応するアップサンプリングブロックと同じ数量の畳み込みチャネルを有している。
【0142】
音波合成器を訓練する場合、自己修復訓練方式を採用することができる。即ち、大量のターゲット話者の歌声音声を訓練音声とし、これら音声から音素系列、音ラウドネル特性、正弦励起信号を分離して音波合成器の入力とし、音声自体を音波合成器の予測出力として訓練を行う。訓練の目標損失関数は次式のとおりである。
【数3】
但し、αは影響係数であり、設定に準じる(例えば2.5に設定する)。L
stftは多重解像度短時間フーリエ変換補助損失(Multi-resolution STFT auxilliary loss)であり、L
advは敵対的訓練損失であり、モデルでは訓練プロセスに1つ追加のディスクリミネータD
k(X)が導入されており、当該ディスクリミネータは音声Xがリアルな音声であるか否かを判定するために用いられる。2つの損失は次式のとおりである。
【数4】
但し、S
mは入力音声が短時間フーリエ変換されて得られる周波数領域情報系列であり、S^
mは予測音声が短時間フーリエ変換された後に得られる周波数領域情報系列であり、MはM個のシングル短時間フーリエ変換損失を表し、mは入力音声のフレーム数を表す。
【数5】
但し、ディスクリミネータD
k(X)の損失は次式の通りである。
【数6】
Xは真の音声であり、X^はモデルで生成された音声である。
【0143】
上述の方法により、練習音声の練習声質が得られたら、練習声質とオリジナル声質を比較して、比較結果に基づいて相応の声質スコアを決定する。
【0144】
声質スコアを決定する場合、話者識別モデルに基づいて声質比較を行ってもよい。話者識別モデルの構造は
図24に示すとおりであり、
図24は本願実施例で提供する話者識別モデルの構造模式図である。当該モデルで訓練されるタスクは多クラス分類タスクであり、6つの全結合層を用いて話者分類訓練を行う。訓練のソース音声は大量の話者をラベリングしたデータであり、訓練ターゲットは話者分類のワンホットエンコーディングであり、損失関数は次式の交差エントロピー損失を使用する。
【数7】
但し、pはターゲット話者のワンホットエンコーディングであり、qはモデルの最終出力(音声フラグメントが話者に対応する確率)である。モデル予測において、最後の全結合層を破棄して、前の5つの全結合層で予測して図中のベクトル5を得る。当該ベクトルを練習音声に対応するターゲット歌手の練習声質として使用することができる。比較する場合、事前に用意したターゲット歌手が歌ったオリジナル音声を話者識別モデルに入力し、声質識別を行い、対応するオリジナル声質を得る。現対象者の練習声質とオリジナル歌手のオリジナル声質との類似度比較を行い、例えば両者の余弦類似度を計算する。余弦距離が小さいほど、両者の類似度が大きいことを表し、それに応じて両音声の声質が近いこと、つまり現対象者とオリジナル歌手の声質が近いことを表している。計算方法は次式のとおりである。
【数8】
但し、x
→とy
→はそれぞれ練習声質とオリジナル声質の特徴表現を表す。計算時には、ターゲット歌手のオリジナル音声を3秒ごとに1区間とし、1秒ごとに1つのスライディングウィンドウとして分割し、現対象者の練習音声も同様に処理して、対応するフラグメントの特徴表現を採点し、最後にすべてのフラグメントのスコアを平均化処理して、最終的な声質スコアを得る。情感スコアを決定する場合は、上述の声質スコアの決定に用いた方法を参考にして、同じモデルを用いて訓練と推定を行うことができる。異なるのは、訓練タスクが話者の複数分類タスクではなく、感情の複数分類タスクであることで、訓練データも同様に大量の感情ラベルを付帯した音声データが必要である。
【0145】
上述の方法により、現対象者はターゲット歌手に対応するバーチャルコンサートを制作または開催することができる。現対象者がコンサートルームでターゲット歌手の曲を歌う場合、コンサートルームを通じて関連する歌唱コンテンツが再生される。例えば現対象者が歌う歌声以外に、さらにバーチャル舞台、バーチャル観衆、バーチャル背景のうちの少なくとも1つが提示される。バーチャル舞台にはターゲット歌手に対応するバーチャル人物像が提示されてもよいし、現対象者の本来の人物像あるいは現対象者に対応するバーチャル人物像等が提示されてもよい。バーチャル観衆はコンサートルームに入室してコンサートを見ている他の対象者を表し、バーチャル人物像の形で表示することができる。バーチャル背景は、現在歌唱している曲に関連する画面、例えばターゲット歌手が過去に現在の曲を歌った歌唱画面(MVの画面または本物のコンサートの画面)でもよいし、現対象者が現在歌唱しているリアルな画面等でもよい。また、コンサートルームに入室した他の対象者の、現在の歌唱コンテンツに対するインタラクション情報、例えば,公開された箇条書きコメントや、「いいね」等を提示することができる。このようにして、コンサート再生コンテンツを豊富にすると同時に、ターゲット歌手に対する情感をよりよく伝達でき、ユーザにより多くの娯楽オプションを提供でき、ユーザの高まる一途の情報多様化要求を満たすことができる。
【0146】
本願実施例で提供するバーチャルコンサートの処理方法は、さらにゲームの場面にも適用できる。例えば、ユーザまたはプレイヤーがライブ配信クライアントでゲーム中に、現対象者の曲練習インタフェースを提示するとともに曲練習インタフェースにコンサート入口を提示し、コンサート入口に基づいてターゲット歌手についてのコンサート制作指令を受信する。コンサート制作指令に応答して、ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作する。現対象者のターゲット歌手の曲の模倣歌唱に対応する歌唱コンテンツを収集し、コンサートルームを通じて歌唱コンテンツを再生して、コンサートルーム内の他のプレイヤーまたはユーザに対応する端末がコンサートルームを通じて歌唱コンテンツを再生できるようにする。
【0147】
続いて、ソフウェアモジュールとして実装される本願実施例で提供するバーチャルコンサートの処理装置555の例示的構造を説明する。いくつかの実施例において、
図2のメモリ550に記憶されたバーチャルコンサートの処理装置555内のソフトウェアモジュールは、提示されたコンサート入口に基づいて、ターゲット歌手についてのコンサート制作指令を受信する指令受信モジュール5551と、前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作するルーム制作モジュール5552と、現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱コンテンツを収集して、前記コンサートルームを通じて前記歌唱コンテンツを再生する歌唱再生モジュール5553と、を含みうる。前記歌唱コンテンツは前記コンサートルーム内の各対象者の端末で再生されるために用いられる。
【0148】
いくつかの実施例において、前記装置はさらに入口提示モジュールを含み、入口提示モジュールは、前記曲練習インタフェースにおいて曲練習入口を提示し、前記曲練習入口に基づいて前記ターゲット歌手についての曲練習指令を受信し、前記曲練習指令に応答して前記現対象者が前記ターゲット歌手の曲を練習した練習音声を収集し、前記練習音声に基づいて、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定した場合、現対象者に対応する曲練習インタフェースにおいて、前記ターゲット歌手に関連付けられたコンサート入口を提示する。
【0149】
いくつかの実施例において、前記入口提示モジュールはさらに、前記曲練習入口に対するトリガー操作に応答して少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、前記ターゲット歌手に対応する少なくとも1つの候補曲を提示し、前記少なくとも1つの候補曲のうちのターゲット曲に対する選択操作に応答して、前記ターゲット曲を歌唱するための音声録音入口を提示し、前記音声録音入口に対するトリガー操作に応答して、前記ターゲット歌手の前記ターゲット曲についての曲練習指令を受信する。
【0150】
いくつかの実施例において、前記装置はさらに第1資格判定モジュールを含み、第1資格判定モジュールは、前記練習音声に対応する練習スコアを提示し、前記練習スコアが目標点数に達している場合、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定する。
【0151】
いくつかの実施例において、前記装置はさらに第1スコア取得モジュールを含み、第1スコア取得モジュールは、練習した前記曲の数が少なくとも2つである場合、前記現対象者の各前記曲の練習音声に対応する練習スコアを提示し、各前記曲の歌唱難易度を取得して、前記歌唱難易度に基づいて前記曲に応じた重みを決定し、前記重みに基づいて、各前記曲の練習音声の練習スコアを加重平均して、前記練習音声の練習スコアを得る。
【0152】
いくつかの実施例において、前記練習スコアは声質スコアと情感スコアとのうちの少なくとも一方を含み、前記スコア取得モジュールはさらに、第2スコア取得モジュールを含み、第2スコア取得モジュールは、前記練習スコアが声質スコアを含む場合、前記練習音声に対して声質変換を行って前記ターゲット歌手に対応する練習声質を得て、前記練習声質と前記ターゲット歌手のオリジナル声質とを比較して対応する声質類似度を得て、前記声質類似度に基づいて前記声質スコアを決定し、前記練習スコアが前記情感スコアを含む場合、前記練習音声に対して情感度識別を行って対応する練習情感度を得て、前記練習情感度と、前記ターゲット歌手が前記曲を歌ったオリジナル情感度とを比較して対応する情感類似度を得て、前記情感類似度に基づいて前記情感スコアを決定する。
【0153】
いくつかの実施例において、前記第2スコア取得モジュールはさらに、音素識別モデルにより前記練習音声に対して音素識別を行って音素系列を得て、前記練習音声に対して音ラウドネス識別を行って音ラウドネス特性を得て、前記練習音声に旋律認識を行って旋律を表す正弦励起信号を得て、音波合成器で前記音素系列、前記音ラウドネス特性および前記正弦励起信号を結合して、前記ターゲット歌手に対応する練習声質を得る。
【0154】
いくつかの実施例において、前記装置はさらに第3スコア取得モジュールを含み、第3スコア取得モジュールは、前記練習音声を他の対象者の端末へ送信して、前記他の対象者の端末に、前記練習音声に対応する採点入口に基づいて、入力された前記練習音声に対応する人為採点を取得させ、前記他の端末から返送された前記人為採点を受信して、前記人為採点に基づいて前記練習音声に対応する練習スコアを決定する。
【0155】
いくつかの実施例において、前記第3スコア取得モジュールはさらに、前記練習音声に対応する機械採点を取得して、前記機械採点が採点閾値に達している場合、前記練習音声を他の対象者の端末へ送信し、前記機械採点と前記人為採点との平均化処理を行って、前記練習音声に対応する練習スコアを取得する。
【0156】
いくつかの実施例において、前記装置はさらに第2資格判定モジュールを含み、第2資格判定モジュールは、前記現対象者に対応する前記曲の曲練習順位を提示し、前記曲練習順位が目標順位より前に位置する場合、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定する。
【0157】
いくつかの実施例において、前記装置はさらに詳細チェックモジュールを含み、詳細チェックモジュールは、練習した前記曲の数が少なくとも2つである場合、前記現対象者が前記少なくとも2つの曲を歌った総スコアと、各前記曲のスコア詳細をチェックするための詳細入口とを提示し、前記詳細入口に対するトリガー操作に応答して詳細ページを提示するとともに、前記詳細ページに各前記曲に対応する練習スコアを提示する。
【0158】
いくつかの実施例において、前記指令受信モジュールはさらに、前記コンサート入口に対するトリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、前記少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、前記現対象者が前記ターゲット歌手のコンサートを制作する制作資格を備えていると判定された場合、ターゲット歌手に対応するコンサート制作指令を受信する。
【0159】
いくつかの実施例において、前記指令受信モジュールはさらに、前記コンサート入口に対するトリガー操作に応答して、前記現対象者がコンサートを制作する制作資格を備えている少なくとも1人の候補歌手を含む歌手選択インタフェースを提示し、前記少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、ターゲット歌手についてのコンサート制作指令を受信する。
【0160】
いくつかの実施例において、前記指令受信モジュールはさらに、前記コンサート入口にターゲット歌手が関連付けられている場合、前記コンサート入口に対するトリガー操作に応答して、ターゲット歌手に対応するコンサートの制作を申請するか否かをリマインドするためのプロンプト情報を提示し、前記プロンプト情報に対する決定操作を受信した場合、ターゲット歌手についてのコンサート制作指令を受信する。
【0161】
いくつかの実施例において、前記指令受信モジュールはさらに、前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手のコンサートの制作を申請するための申請インタフェースを提示するとともに、前記申請インタフェースに前記コンサートの関連情報を編集するための編集入口を提示し、前記編集入口に基づいて編集されたコンサート情報を受信した場合、前記コンサート情報に対する決定操作に応答して、前記ターゲット歌手についてのコンサート制作指令を受信する。
【0162】
いくつかの実施例において、前記指令受信モジュールはさらに、前記プロンプト情報を提示すると同時に、コンサートルームの制作を予約するための予約入口を提示し、前記予約入口に対するトリガー操作に応答して、前記ターゲット歌手のコンサートの制作を予約するための予約インタフェースを提示するとともに、前記予約インタフェースに前記コンサート予約情報を編集するための編集入口を提示し、前記編集入口に基づいて編集された、少なくともコンサート開始時刻を含むコンサート予約情報を受信し、前記コンサート予約情報に対する決定操作に応答して、前記ターゲット歌手に対応するコンサート制作指令を受信し、前記ルーム制作モジュールはさらに、前記コンサート制作指令に応答して前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作し、前記コンサート開始時刻に達した、前記コンサートルームにアクセスするとともに提示する。
【0163】
いくつかの実施例において、前記装置はさらにコンサート取消モジュールを含み、コンサート取消モジュールは前記プロンプト情報に対する取消操作を受信した場合、前記曲練習インタフェースに、前記ターゲット歌手の曲または他の歌手の曲を練習するための曲練習入口を提示する。
【0164】
いくつかの実施例において、前記コンサート入口の数が少なくとも1つの場合、前記コンサート入口には歌手が関連付けられており、且つ前記コンサート入口と関連付けられた歌手とは対応関係を有しており、前記指令受信モジュールはさらに、ターゲット歌手が関連付けられたコンサート入口に対するトリガー操作に応答して、前記ターゲット歌手に対応するコンサート制作指令を受信する。
【0165】
いくつかの実施例において、前記装置はさらにインタラクションモジュールを含み、インタラクションモジュールは、前記コンサートルームで前記歌唱コンテンツを再生している間、前記コンサートルームに他の対象者の前記歌唱コンテンツに対するインタラクション情報を提示する。
【0166】
いくつかの実施例において、前記歌唱コンテンツは前記ターゲット歌手の曲を歌った音声コンテンツを含み、前記歌唱再生モジュールはさらに、現対象者が前記ターゲット歌手の曲を歌った歌唱音声を収集し、前記歌唱音声を声質変換して前記歌唱音声に対応する前記ターゲット歌手の声質の変換音声を得て、前記変換音声を前記歌唱コンテンツにおける音声コンテンツとする。
【0167】
本願実施例は、コンピュータ可読記憶媒体に記憶されたコンピュータ指令を含む、コンピュータプログラム製品またはコンピュータプログラムを提供する。コンピュータ機器のプロセッサがコンピュータ可読記憶媒体から当該コンピュータ指令を読み出して、プロセッサが当該コンピュータ指令を実行して、当該コンピュータ機器に本願実施例の上記バーチャルコンサートの処理方法を実行させる。
【0168】
本願実施例は、プロセッサによって実行されるとき、プロセッサに本願実施例で提供するバーチャルコンサートの処理方法、例えば
図3に示す方法を実行させる実行可能指令が記憶された、実行可能指令が記憶されたコンピュータ可読記憶媒体を提供する。
【0169】
いくつかの実施例において、コンピュータ可読記憶媒体は、FRAM(登録商標)(Ferroelectric Random Access Memory)、ROM(Read Only Memory)、PROM(Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリ、磁気メモリ、光ディスク、またはCD-ROM等のメモリであってもよいし、上記メモリの1つまたは任意の組合せを含む各種機器であってもよい。
【0170】
いくつかの実施例において、実行可能指令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプトまたはコードの形式を用いて、任意方式のプログラム言語(コンパイル型あるいはインタプリタ型言語、または宣言型あるいは手続き型言語)によって書かれてもよく、さらにスタンドアローンのプログラムとして、またはモジュール、コンポーネント、サブルーティン、またはコンピュータ環境における使用に好適な他のユニットの形式を含む任意の形式で配置されてもよい。
【0171】
一例として、実行可能指令は、ファイルシステムにおけるファイルに対応し、他のプログラムまたはデータを保存するファイルの一部に記憶されることもでき、例えば、HTML(Hyper Text Markup Language)ドキュメントにおける1つまたは複数のスクリプトに記憶されたり、そのプログラム専用の1つのファイルに記憶されたり、または複数のコラボレイティブファイル(例えば、1つまたは複数のモジュール、サブプログラム、コード部分が記憶されたファイル)に記憶されてもよいが、必ずしもそうでなくてもよい。
【0172】
一例として、実行可能指令は、1つのコンピュータ機器上で実行されるように、または1地点に位置する複数のコンピュータ機器で実行されるように、または複数地点に分散し且つ通信ネットワークで相互接続された複数のコンピュータ機器で実行されるように配置されてもよい。
【0173】
以上は本願の実施例にすぎず、本願の保護範囲を限定するためのものではない。本願の主旨および範囲内でなされた何らかの変更、同等の置換、改善等は、すべて本願の保護範囲内に含まれる。
【手続補正書】
【提出日】2024-03-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
電子機器により実行されるバーチャルコンサートの処理方法であって、
提示したコンサート入口に
対する現対象者のトリガー操作に応答して、ターゲット歌手についてのコンサート制作指令を受信するステップと、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を
前記バーチャルコンサートにおいて模倣歌唱するためのコンサートルームを制作するステップと、
前記ターゲット歌手の曲を
前記現対象者が模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて、前記歌唱コンテンツを再生するステップと、を含み、
前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる、
バーチャルコンサートの処理方法。
【請求項2】
前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップの前に、さらに、
前記現対象者の曲練習インタフェースに曲練習入口を提示するステップと、
前記曲練習入口に
対する前記現対象者のトリガー操作に応答して、前記ターゲット歌手についての曲練習指令を受信するステップと、
前記曲練習指令に応答して、前記現対象者が前記ターゲット歌手の曲を歌唱練習した練習音声を収集するステップと、
前記練習音声に基づいて、前記現対象者が前記ターゲット歌手の
前記バーチャルコンサートを制作する制作資格を備えていると判定した場合、前記曲練習インタフェースに前記ターゲット歌手に関連付けられた
前記コンサート入口を提示するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項3】
前記曲練習入口に
対する前記現対象者の前記トリガー操作に応答して、前記ターゲット歌手についての
前記曲練習指令を受信する前記ステップは、
前記曲練習入口に対する
前記トリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示するステップと、
前記少なくとも1人の候補歌手のうちのターゲット歌手に対する選択操作に応答して、前記ターゲット歌手に対応する少なくとも1つの候補曲を提示するステップと、
前記少なくとも1つの候補曲のうちのターゲット曲に対する選択操作に応答して、前記ターゲット曲を歌唱するための音声録音入口を提示するステップと、
前記音声録音入口に対する
前記現対象者のトリガー操作に応答して、前記ターゲット歌手の前記ターゲット曲についての
前記曲練習指令を受信するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項4】
前記曲練習インタフェースに前記ターゲット歌手に関連付けられた
前記コンサート入口を提示する前記ステップの前に、さらに、
前記練習音声を採点して得られた練習スコアを提示するステップと、
前記練習スコアが目標点数に達している場合、前記現対象者が前記ターゲット歌手の
前記バーチャルコンサートを制作する
前記制作資格を備えていると判定するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項5】
前記練習音声を採点して得られた
前記練習スコアを提示する前記ステップの前に、さらに、
前記現対象者が歌唱練習した前記曲の数が少なくとも2つの場合、前記現対象者の各前記曲に対する練習音声に対応する練習スコアを提示するステップと、
各前記曲の歌唱難易度を取得して、前記歌唱難易度に基づいて前記曲に応じた重みを決定するステップと、
前記重みに基づいて、各前記練習音声の練習スコアを加重平均して、前記練習音声の
前記練習スコアを得るステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項6】
前記練習スコアは、声質スコアと情感スコアとのうちの少なくとも一方を含み、前記練習音声を採点して得られた
前記練習スコアを提示する前記ステップの前に、さらに、
前記練習スコアが前記声質スコアを含む場合、前記練習音声を声質変換して前記ターゲット歌手に対応する練習声質を得て、前記練習声質と前記ターゲット歌手が前記曲を歌唱したオリジナル声質とを比較して、声質類似度を得て、前記声質類似度に基づいて前記声質スコアを決定するステップと、
前記練習スコアが前記情感スコアを含む場合、前記練習音声に対して情感識別して練習情感度を得て、前記練習情感度と前記ターゲット歌手が前記曲を歌唱したオリジナル情感度とを比較して、情感類似度を得て、前記情感類似度に基づいて前記情感スコアを決定するステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項7】
前記練習音声を声質変換して前記ターゲット歌手に対応する
前記練習声質を得る前記ステップは、
音素識別モデルにより前記練習音声に対して音素識別を行って、音素系列を得るステップと、
前記練習音声に対して音ラウドネス識別を行って、音ラウドネス特性を得るステップと、
前記練習音声に対して旋律認識を行って、旋律を表すための正弦励起信号を得るステップと、
音波合成器により、前記音素系列と、前記音ラウドネス特性と、前記正弦励起信号とを結合して、前記ターゲット歌手に対応する
前記練習声質を得るステップと、を含む、
請求項6に記載のバーチャルコンサートの処理方法。
【請求項8】
前記練習音声を採点して得られた
前記練習スコアを提示する前記ステップの前に、さらに、
前記練習音声を他の対象者の端末へ送信して、前記他の対象者の端末に、前記練習音声の採点入口に
対する前記現対象者のトリガー操作に応答して、入力された前記練習音声に対応する人為採点を取得させるステップと、
前記他の
対象者の端末から返送された前記人為採点を受信して、前記人為採点に基づいて前記練習音声の練習スコアを決定するステップと、を含む、
請求項4に記載のバーチャルコンサートの処理方法。
【請求項9】
前記練習音声を
前記他の対象者の端末へ送信する前記ステップは、
前記練習音声に対応する機械採点を取得して、前記機械採点が採点閾値に達している場合、前記練習音声を
前記他の対象者の端末へ送信するステップを含み、
前記人為採点に基づいて前記練習音声の
前記練習スコアを決定する前記ステップは、
前記機械採点と前記人為採点との平均を求めて、前記練習音声の
前記練習スコアを得るステップを含む、
請求項8に記載のバーチャルコンサートの処理方法。
【請求項10】
前記曲練習インタフェースに前記ターゲット歌手に関連付けられた
前記コンサート入口を提示する前記ステップの前に、さらに、
前記現対象者に対応する前記曲の曲練習順位を提示するステップと、
前記曲練習順位が目標順位より前に位置する場合、前記現対象者が前記ターゲット歌手の
前記バーチャルコンサートを制作する
前記制作資格を備えていると判定するステップと、を含む、
請求項2に記載のバーチャルコンサートの処理方法。
【請求項11】
練習した前記曲の数が少なくとも2つである場合、前記現対象者が前記少なくとも2つの曲を歌った総スコアと、各前記曲のスコア詳細をチェックするための詳細入口とを提示するステップと、
前記詳細入口に対する
前記現対象者のトリガー操作に応答して、詳細ページを提示するとともに前記詳細ページに各前記曲の練習スコアを提示するステップと、を含む、
請求項10に記載のバーチャルコンサートの処理方法。
【請求項12】
提示された
前記コンサート入口に
対する前記現対象者の前記トリガー操作に応答して、
前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップは、
提示された
前記コンサート入口に対する
前記トリガー操作に応答して、少なくとも1人の候補歌手を含む歌手選択インタフェースを提示するステップと、
前記少なくとも1人の候補歌手のうちの
前記ターゲット歌手に対する選択操作に応答して、前記現対象者が前記ターゲット歌手の
前記バーチャルコンサートを制作する制作資格を備えていると判定された場合、
前記ターゲット歌手についての
前記コンサート制作指令を受信するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項13】
提示された
前記コンサート入口に
対する前記現対象者の前記トリガー操作に応答して、
前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップは、
提示された
前記コンサート入口に対する
前記トリガー操作に応答して、前記現対象者が
前記バーチャルコンサートを制作する制作資格を備えている各候補歌手のうちの少なくとも1人の前記候補歌手を含む、歌手選択インタフェースを提示するステップと、
前記少なくとも1人の候補歌手のうちの
前記ターゲット歌手に対する選択操作に応答して、
前記ターゲット歌手についての
前記コンサート制作指令を受信するステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項14】
提示された
前記コンサート入口に
対する前記現対象者の前記トリガー操作に応答して、
前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップは、
前記コンサート入口に前記ターゲット歌手が関連付けられている場合、前記コンサート入口に対する
前記トリガー操作に応答して、前記ターゲット歌手に対応する
前記バーチャルコンサートの制作を申請することをリマインドするためのプロンプト情報を提示するステップと、
前記プロンプト情報に対する決定操作を受信した場合、前記ターゲット歌手についての
前記コンサート制作指令を受信するステップと、含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項15】
前記プロンプト情報に対する
前記決定操作を受信した場合、前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップは、
前記プロンプト情報に対する
前記決定操作を受信した場合、前記ターゲット歌手の
前記バーチャルコンサートの制作を申請するための申請インタフェースを提示するとともに前記申請インタフェースに前記
バーチャルコンサートの関連情報を編集するための編集入口を提示するステップと、
前記編集入口に基づいて編集されたコンサート情報を受信するステップと、
前記コンサート情報に対する決定操作に応答して、前記ターゲット歌手についての
前記コンサート制作指令を受信するステップと、を含む、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項16】
前記プロンプト情報に対する
前記決定操作を受信した場合、前記ターゲット歌手についての
前記コンサート制作指令を受信する前記ステップは、
前記コンサートルームの制作を予約するための予約入口を提示するステップと、
前記予約入口に対する
前記現対象者のトリガー操作に応答して、前記ターゲット歌手の
前記バーチャルコンサートの制作を予約するための予約インタフェースを提示するとともに、前記予約インタフェースに前記
バーチャルコンサートの予約情報を編集するための編集入口を提示するステップと、
前記編集入口に基づいて編集された、少なくともコンサート開始時刻を含むコンサート予約情報を受信するステップと、
前記コンサート予約情報に対する決定操作に応答して、前記ターゲット歌手についての
前記コンサート制作指令を受信するステップと、を含み、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するためのコンサートルームを制作する前記ステップは、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を模倣歌唱するための
前記コンサートルームを制作し、前記コンサート開始時刻に達したとき、前記コンサートルームにアクセスして提示するステップを含む、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項17】
前記プロンプト情報に対する取消操作を受信した場合、曲練習インタフェースを提示するとともに、前記曲練習インタフェースに曲練習入口を提示するステップを含み、
前記曲練習入口は前記ターゲット歌手の曲または
前記ターゲット歌手の他の歌手の曲を歌唱練習するために用いられる、
請求項14に記載のバーチャルコンサートの処理方法。
【請求項18】
前記コンサート入口の数が少なくとも1つの場合、前記コンサート入口には歌手が関連付けられており、且つ前記コンサート入口と関連付けられた歌手とは対応関係を有しており、
提示された
前記コンサート入口に
対する前記現対象者の前記トリガー操作に応答して、
前記ターゲット歌手に対応する
前記コンサート制作指令を受信する前記ステップは、
前記ターゲット歌手が関連付けられた
前記コンサート入口に対する
前記トリガー操作に応答して、前記ターゲット歌手に対応する
前記コンサート制作指令を受信するステップを含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項19】
前記コンサートルームで前記歌唱コンテンツを再生している間、前記コンサートルームに
前記現対象者の他の対象者の前記歌唱コンテンツに対するインタラクション情報を提示するステップを含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項20】
前記歌唱コンテンツは、前記ターゲット歌手の曲を模倣歌唱した音声コンテンツを含み、現対象者が前記ターゲット歌手の曲を模倣歌唱した
前記歌唱コンテンツを収集する前記ステップは、
前記現対象者が前記ターゲット歌手の曲を模倣歌唱した歌唱音声を収集するステップと、
前記歌唱音声を声質変換して前記歌唱音声に対応する前記ターゲット歌手の声質の変換音声を得て、前記変換音声を前記音声コンテンツとするステップと、を含む、
請求項1に記載のバーチャルコンサートの処理方法。
【請求項21】
提示したコンサート入口に
対する現対象者のトリガー操作に応答して、ターゲット歌手についてのコンサート制作指令を受信す
る指令受信モジュールと、
前記コンサート制作指令に応答して、前記ターゲット歌手の曲を
バーチャルコンサートにおいて模倣歌唱するためのコンサートルームを制作す
るルーム制作モジュールと、
前記ターゲット歌手の曲を
前記現対象者が模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて、前記歌唱コンテンツを再生す
る歌唱再生モジュールと、を含み、
前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる、
バーチャルコンサートの処理装置。
【請求項22】
実行可能指令を記憶するメモリと、
前記メモリに記憶された実行可能指令を実行した場合、請求項1~20のいずれか一項に記載のバーチャルコンサートの処理方法を実現するプロセッサと、を含む、
電子機器。
【請求項23】
請求項1~20のいずれか一項に記載のバーチャルコンサートの処理方法をコンピュータに実現させる、
コンピュータプログラム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本願は、コンピュータ技術および音声技術に関し、特にバーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラムに関する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正の内容】
【0005】
本願実施例で提供するバーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラムによれば、ユーザがターゲット歌手のバーチャルコンサートを制作または開催できるようにすることができる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
本願実施例で提供するバーチャルコンサートの処理方法は、電子機器により実行されるバーチャルコンサートの処理方法であって、提示したコンサート入口に対する現対象者のトリガー操作に応答して、ターゲット歌手についてのコンサート制作指令を受信するステップと、前記コンサート制作指令に応答して、前記ターゲット歌手の曲を前記バーチャルコンサートにおいて模倣歌唱するためのコンサートルームを制作するステップと、前記ターゲット歌手の曲を前記現対象者が模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて、前記歌唱コンテンツを再生するステップと、を含み、前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】
本願実施例で提供するバーチャルコンサートの処理装置は、提示したコンサート入口に対する現対象者のトリガー操作に応答して、ターゲット歌手についてのコンサート制作指令を受信する指令受信モジュールと、前記コンサート制作指令に応答して、前記ターゲット歌手の曲をバーチャルコンサートにおいて模倣歌唱するためのコンサートルームを制作するルーム制作モジュールと、前記ターゲット歌手の曲を前記現対象者が模倣歌唱した歌唱コンテンツを収集し、前記コンサートルームを通じて前記歌唱コンテンツを再生する歌唱再生モジュールと、を含み、前記歌唱コンテンツは前記コンサートルームにおいて各対象者の端末で再生されるために用いられる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0011
【補正方法】変更
【補正の内容】
【0011】
本願実施例で提供するコンピュータプログラムは、本願実施例で提供するバーチャルコンサートの処理方法をコンピュータに実現させる。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正の内容】
【0013】
【
図1】
図1は本願実施例で提供するバーチャルコンサートの処理システ
ムのアーキテクチャ概要図である。
【
図2】
図2は本願実施例で提供する電子機
器の構造模式図である。
【
図3】
図3は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。
【
図4】
図4は本願実施例で提供するコンサート入口の表示概要図である。
【
図5】
図5は本願実施例で提供する歌唱曲の選択概要図である。
【
図6】
図6は本願実施例で提供する練習結果表示概要図である。
【
図7】
図7は本願実施例で提供する練習音声の採点概要図である。
【
図8】
図8は本願実施例で提供する曲練習ランキング概要図である。
【
図9】
図9は本願実施例で提供する曲練習ランキング概要図である。
【
図10】
図10は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図11】
図11は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図12】
図12は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図13】
図13は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図14】
図14は本願実施例で提供するコンサート制作指令のトリガー概要図である。
【
図15】
図15は本願実施例で提供する歌唱サウンド変更概要図である。
【
図16】
図16は本願実施例で提供するバーチャルコンサートの処理方法のフロー概要図である。
【
図17】
図17は本願実施例で提供するバーチャルコンサートの処理フローチャートである。
【
図18】
図18は本願実施例で提供する声質変換概要図である。
【
図19】
図19は本願実施例で提供する音素識別モデルの構造概要図である。
【
図20】
図20は本願実施例で提供する音波合成器の構造模式図である。
【
図21】
図21は本願実施例で提供するアップサンプリングブロックの構造模式図である。
【
図22】
図22は本願実施例で提供するダウンサンプリングブロックの構造模式図である。
【
図23】
図23は本願実施例で提供する特性線形変調モジュール概要図である。
【
図24】
図24は本願実施例で提供する話者識別モデルの構造模式図である。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0021
【補正方法】変更
【補正の内容】
【0021】
3)音声変換とは、広くは音声の声質を変更する技術を指す。当該技術は音声の声質を、話者Aから話者Bに変換することができる。ここで話者Aはこの音声を発話した人であり、一般にソース話者と称する。話者Bは変換されたターゲット声質の話者であり、一般にターゲット話者と称する。現在、音声変換技術は、1対1(特定の1人の音声を特定の別の1人の音声に変換することのみ可能)、多対1(任意の人の音声を特定の1人の音声に変換できる)、多対多(任意の人の音声を、他の任意の人の音声に変換できる)の3種類に分けられる。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0043
【補正方法】変更
【補正の内容】
【0043】
いくつかの実施例において、端末またはサーバ200は、コンピュータプログラムを動作させることで本願実施例で提供するバーチャルコンサートの処理方法を実現することができる。例を挙げると、コンピュータプログラムは、操作システムにおけるネイティブプログラムまたはソフトウェアモジュールでもよい。ネイティブAPP(Application)プログラム、即ちライブ配信APPやインスタントメッセージAPPのような、操作システムに実装されてはじめて動作可能なプログラムでもよい。ブラウザ環境にダウンロードされてはじめて動作可能なプログラムであるアプレットでもよい。任意のAPPに組み込むことができるアプレットでもよい。つまり、上記のコンピュータプログラムは任意の方式のアプリケーションプログラム、モジュール、またはプラグインであってよい。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0076
【補正方法】変更
【補正の内容】
【0076】
図9を参照されたい。
図9は本願実施例で提供する曲練習ランキング概要図である。各対象者が練習した曲の数が複数である場合、降順の曲練習ランキングを提示すると同時に、各対象者が歌唱したすべての曲の総スコアと、詳細をチェックための詳細入口とを提示してもよい。例えば現対象者がユーザ
1の詳細入口901をトリガー(例えばクリック、ダブルクリック、スワイプ等)した場合、端末は当該トリガー操作に応答して、ポップアップウィンドウ形式で詳細ページ902を提示する。詳細ページ902にはユーザ1が練習したすべての曲、例えば曲1、曲2、曲3、曲4と、各曲に対応する練習スコアが提示される。このようにすることで、ユーザはその中から各対象者が歌唱した曲および歌唱レベルを楽しむかシェアすることができ、ひいては自身の歌唱レベルおよび上達すべき方向をより全面的に認識することができ、自身の歌唱レベルを一歩一歩持続的に上達させることに寄与し、歌唱技巧と歌唱方法をますますオリジナル歌手に近づけて、最終的にターゲット歌手のコンサートを制作する制作資格を得るまで練習スコアを上げるという目的を達成させることができる。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0080
【補正方法】変更
【補正の内容】
【0080】
図10を参照されたい。
図10は本願実施例で提供するコンサート制作指令のトリガー概要図である。コンサート入口1001は各歌手のコンサートを制作するための共通の入口であり、現対象者がコンサート入口1001をトリガーした場合、端末は当該トリガー操作に応答して、歌手選択インタフェー
スを提示するとともに、歌手選択インタフェースに少なくとも1人の現対象者が選択可能な候補歌手を提示する。現対象者がその中からターゲット歌手1002を選択した場合、端末は当該選択操作に応答して、現対象者がターゲット歌手
1002のコンサートを制作する制作資格を備えているか否かを判定し、制作資格を備えているか否かを通知するためのプロンプトを提示する。現対象者がターゲット歌手
1002のコンサートを制作する制作資格を備えている場合、端末は制作資格を備えているというプロンプトを提示し、ターゲット歌手
1002についてのコンサート制作指令を受信する。一方、現対象者がターゲット歌手
1002のコンサートを制作する制作資格を備えていない場合、制作資格を備えていないというプロンプトが提示され、当面コンサート入口をトリガーしたとしても、ターゲット歌手
1002についてのコンサート制作指令はトリガーすることができない。このようにすることで、ターゲット歌手
1002のコンサートの制作資格を備えたユーザに限ってターゲット歌手
1002のバーチャルコンサートを制作できるので、コンサートの品質が保証される。
【手続補正13】
【補正対象書類名】明細書
【補正対象項目名】0085
【補正方法】変更
【補正の内容】
【0085】
ここで、曲練習インタフェースに提示されるコンサート入口の数は1つでも複数(即ち2つ以上)でもよく、各コンサート入口にはコンサート
を制作する制作
資格を具備する対応する歌手が関連付けられており、且つコンサート入口と関連付けられた歌手とは一対一の対応関係を有する。
図12に示すように、
図12は本願実施例で提供するコンサート制作指令のトリガー概要図である。「練習開始」という曲練習入口1201の関連エリアには、2つのコンサート入口であるコンサート入口1202とコンサート入口1203とが提示される。コンサート入口1202は歌手Aに関連付けられ、コンサート入口1203は歌手Bに関連付けられている。即ち現対象者は歌手Aのコンサートおよび歌手Bのコンサートを制作する制作資格を同時に備えている。コンサート入口1202は歌手Aのコンサートを制作するために、コンサート入口1203は歌手Bのコンサートを制作するために用いられる。現対象者はその中から今回開催したいターゲット歌手のコンサートに対応するコンサート入口を選択できる。例えば、現在ユーザがコンサート入口1203を選択した場合、端末は当該トリガー操作に応答して、候補歌手Bをターゲット歌手として、ターゲット歌手(即ち候補歌手B)についてのコンサート制作指令を受信する。
【手続補正14】
【補正対象書類名】明細書
【補正対象項目名】0089
【補正方法】変更
【補正の内容】
【0089】
図13を参照されたい。
図13は本願実施例で提供するコンサート制作指令のトリガー概要図である。端末はコンサート入口1301に対するトリガー操作に応答して、「おめでとう、あなたの練習曲は歌手Aで1位です。歌手Aのバーチャルコンサート
開催の申請を選択しますか」というプロンプト情報1302と、直ちにコンサートルームを制作するための即時制作ボタン1303と、取消ボタン1304とを提示する。ユーザが即時制作ボタン1303をトリガーした場合、端末はプロンプト情報に対する決定操作を受信して、当該決定操作に応答し、申請インタフェース1305を提示するとともに、コンサート情報に対応する決定ボタン1306を提示する。申請インタフェースには、制作するコンサートの関連情報、例えばユーザ名、歌唱予定曲、ゲスト演者、コンサート時間、有料か否か等のコンサート情報を編集するための編集入口が提示される。端末は決定ボタン1306に対するトリガー操作に応答して、コンサート情報に対する決定操作を受信し、当該決定操作に応答して、歌手Aについてのコンサート制作指令を受信する。
【手続補正15】
【補正対象書類名】明細書
【補正対象項目名】0091
【補正方法】変更
【補正の内容】
【0091】
いくつかの実施例において、コンサートルームは制作予約することも可能であり、端末は次のような方法でコンサート入口に基づいてターゲット歌手に対応するコンサート制作指令を受信することができる。即ち、コンサートルームを制作予約するための予約入口を提示し、前記予約入口に対するトリガー操作に応答して、ターゲット歌手のコンサートを制作予約するための予約インタフェースを提示するとともに、予約インタフェースにコンサートの予約情報を編集するための編集入口を提示し、編集入口に基づいて編集された、少なくともコンサート開始時刻を含むコンサート予約情報を受信し、コンサート予約情報に対する決定操作に応答し、ターゲット歌手についてのコンサート制作指令を受信する。
【手続補正16】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正の内容】
【0101】
いくつかの実施例において、端末はコンサートルームを通じて歌唱コンテンツを再生している間、コンサートルームに歌唱コンテンツに対する他の対象者のインタラクション情報を提示してもよい。図
13または図14に示すように、コンサートルームを通じて関連する歌唱コンテンツを再生する以外に、コンサートルームに入室した他の対象者の、現在の歌唱コンテンツに対するインタラクション情報、例えば,公開された箇条書きコメントや、「いいね」等を提示することができる。これによりコンサート再生コンテンツを豊富にすると同時に、ターゲット歌手に対する情感をよりよく伝達でき、ユーザにより多くの娯楽オプションを提供でき、ユーザの高まる一途の情報多様化要求を満たすことができる。
【手続補正17】
【補正対象書類名】明細書
【補正対象項目名】0141
【補正方法】変更
【補正の内容】
【0141】
音波合成器の目的は、練習音声の音素系列と、音ラウドネス特性と、正弦励起信号という3つの話者の声質と無関係の特徴を合成して、ターゲット歌手の声質を用いて歌った歌声の音波(即ち上述のターゲット歌手に対応する練習声質)とすることにある。
図20を参照されたい。
図20は本願実施例で提供する音波合成器の構造模式図である。音波合成器は複数のアップサンプリングブロックおよびダウンサンプリングブロックを含む。練習音声をターゲット歌手に対応する練習声質(即ち音波)に変換するために、上述の取得した音素系列に対して4つのアップサンプリングブロックを適用して4、4、4、5の係数で順次アップサンプリング処理を行い、4つのダウンサンプリングブロックをそれぞれ適用して4、4、4、5の係数で順次上述の音ラウドネス特性と正弦励起信号とに対してダウンサンプリング処理を行う。処理して得られた特徴を結合して、ターゲット歌手に対応する練習声質が得られる。
図21に示すように、
図21は本願実施例で提供する
アップサンプリングブロックの構造模式図である。得られた音素系列はアップサンプリングブロックに入力され、アップサンプリング、複数層の活性化関数および畳み込み処理を経て、対応するアップサンプリング特性が得られる。
図22に示すように、
図22は本願実施例で提供する
ダウンサンプリングブロックの構造模式図である。得られた音ラウドネス特性および正弦励起信号は
ダウンサンプリングブロックに入力され、
ダウンサンプリング、複数層の活性化関数、畳み込み処理、特徴線形変調(FiLM、Feature-wise Linear Modulation)モジュールの処理を経て、対応する
ダウンサンプリング特性が得られる。特徴線形変調(FiLM)モジュールは、特徴アフィンのために用いられる。正弦励起信号および音ラウドネス特性の情報は、音素系列と結合され、これにより入力に与えられるスケーリングベクトルとシフトベクトルが生成される。
図23に示すように、
図23は本願実施例で提供する特性線形変調モジュール概要図である。FiLMモジュールは、対応する
ダウンサンプリングブロックと同じ数量の畳み込みチャネルを有している。
【手続補正18】
【補正対象書類名】明細書
【補正対象項目名】0152
【補正方法】変更
【補正の内容】
【0152】
いくつかの実施例において、前記練習スコアは声質スコアと情感スコアとのうちの少なくとも一方を含み、前記装置はさらに、第2スコア取得モジュールを含み、第2スコア取得モジュールは、前記練習スコアが声質スコアを含む場合、前記練習音声に対して声質変換を行って前記ターゲット歌手に対応する練習声質を得て、前記練習声質と前記ターゲット歌手のオリジナル声質とを比較して対応する声質類似度を得て、前記声質類似度に基づいて前記声質スコアを決定し、前記練習スコアが前記情感スコアを含む場合、前記練習音声に対して情感度識別を行って対応する練習情感度を得て、前記練習情感度と、前記ターゲット歌手が前記曲を歌ったオリジナル情感度とを比較して対応する情感類似度を得て、前記情感類似度に基づいて前記情感スコアを決定する。
【手続補正19】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正20】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正21】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正22】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【国際調査報告】