IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-46731音声生成方法、装置、電子機器及び記憶媒体
<>
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図1
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図2
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図3
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図4
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図5
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図6
  • 特開-音声生成方法、装置、電子機器及び記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022046731
(43)【公開日】2022-03-23
(54)【発明の名称】音声生成方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G10L 21/007 20130101AFI20220315BHJP
   G10L 15/00 20130101ALI20220315BHJP
   G10L 13/00 20060101ALI20220315BHJP
【FI】
G10L21/007
G10L15/00 200Z
G10L13/00 100Z
【審査請求】有
【請求項の数】19
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022000209
(22)【出願日】2022-01-04
(31)【優先権主張番号】202110691955.6
(32)【優先日】2021-06-22
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】カン,ヨングオ
(72)【発明者】
【氏名】ワン,ジュンチャオ
(57)【要約】      (修正有)
【課題】音声生成方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】音声生成方法は、元の発話者の音声情報を取得するステップ101と、音声情報に対してテキスト特徴抽出を行って音声情報に対応するテキスト特徴を取得するステップ102と、取得されたテキスト特徴をターゲット発話者に対応する音響特徴に変換するステップ103と、変換された音響特徴に基づいてターゲット音声信号を生成するステップ104と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
元の発話者の音声情報を取得するステップと、
前記音声情報に対してテキスト特徴抽出を行って、前記音声情報に対応するテキスト特徴を取得するステップと、
前記テキスト特徴をターゲット発話者に対応する音響特徴に変換するステップと、
前記音響特徴に基づいてターゲット音声信号を生成するステップとを含む、
ことを特徴とする音声生成方法。
【請求項2】
前記テキスト特徴をターゲット発話者に対応する音響特徴に変換するステップは、
前記テキスト特徴と前記ターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、前記ターゲット発話者に対応する音響特徴を取得するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記テキスト特徴と前記ターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力する前に、
トレーニングデータを取得するステップであって、前記トレーニングデータには、複数のサンプル発話者のラベル、及び各前記サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴が含まれ、前記トレーニングデータは、前記サンプル音声情報のサンプル音響特徴でラベリングされるステップと、
初期特徴変換モデルを取得するステップと、
前記サンプル発話者のラベル、及び前記サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を前記初期特徴変換モデルに入力して、前記サンプル発話者に対応する前記サンプル音声情報の予測音響特徴を取得するステップと、
前記サンプル発話者に対応する前記サンプル音声情報の予測音響特徴と前記サンプル音声情報のサンプル音響特徴との相違に基づいて、前記初期特徴変換モデルのモデルパラメータを調整して、トレーニングされた前記特徴変換モデルを取得するステップとをさらに含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記ターゲット発話者に対応するラベルは、前記トレーニングデータのいずれかのサンプル発話者に対応するラベルである、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記音声情報に対してテキスト特徴抽出を行って、前記音声情報に対応するテキスト特徴を取得するステップは、
前記音声情報に対して音声認識を行うステップと、
前記音声情報に対して音声認識を行っている間の中間結果を取得するステップと、
前記中間結果を前記テキスト特徴とするステップとを含む、
ことを特徴とする請求項1~4のいずれかに記載の方法。
【請求項6】
前記音響特徴に基づいてターゲット音声信号を生成するステップは、
前記音響特徴を音声合成システムのボコーダモジュールに入力するステップと、
前記ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データを前記ターゲット音声信号とするステップとを含む、
ことを特徴とする請求項1~4のいずれかに記載の方法。
【請求項7】
前記元の発話者の音声情報を取得する前に、
発話者が第1の発話者から前記元の発話者に切り替わったことを決定するステップと、
前記第1の発話者を前記ターゲット発話者として決定するステップとを含む、
ことを特徴とする請求項1~4のいずれかに記載の方法。
【請求項8】
前記音響特徴に基づいてターゲット音声信号を生成した後、
前記ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動するステップをさらに含む、
ことを特徴とする請求項7に記載の方法。
【請求項9】
元の発話者の音声情報を取得する第1の取得モジュールと、
前記音声情報に対してテキスト特徴抽出を行って、前記音声情報に対応するテキスト特徴を取得する抽出モジュールと、
前記テキスト特徴をターゲット発話者に対応する音響特徴に変換する変換モジュールと、
前記音響特徴に基づいてターゲット音声信号を生成する生成モジュールとを含む、
ことを特徴とする音声生成装置。
【請求項10】
前記変換モジュールは、
前記テキスト特徴と前記ターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、前記ターゲット発話者に対応する音響特徴を取得する変換ユニットを含む、
ことを特徴とする請求項9に記載の装置、
【請求項11】
トレーニングデータを取得する第2の取得モジュールであって、前記トレーニングデータには、複数のサンプル発話者のラベル、及び各前記サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴が含まれ、前記トレーニングデータは、前記サンプル音声情報のサンプル音響特徴でラベリングされる第2の取得モジュールと、
初期特徴変換モデルを取得する第3の取得モジュールと、
前記サンプル発話者のラベル、及び前記サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を前記初期特徴変換モデルに入力して、前記サンプル発話者に対応する前記サンプル音声情報の予測音響特徴を取得する処理モジュールと、
前記サンプル発話者に対応する前記サンプル音声情報の予測音響特徴と前記サンプル音声情報のサンプル音響特徴との相違に基づいて、前記初期特徴変換モデルのモデルパラメータを調整して、トレーニングされた前記特徴変換モデルを取得する調整モジュールとをさらに含む、
ことを特徴とする請求項10に記載の装置。
【請求項12】
前記ターゲット発話者に対応するラベルは、前記トレーニングデータのいずれかのサンプル発話者に対応するラベルである、
ことを特徴とする請求項11に記載の装置、
【請求項13】
前記抽出モジュールは、
前記音声情報に対して音声認識を行う認識ユニットと、
前記音声情報に対して音声認識を行っている間の中間結果を取得する取得ユニットと、
前記中間結果を前記テキスト特徴とする第1の処理ユニットとを含む、
ことを特徴とする請求項9~12のいずれかに記載の音声生成装置。
【請求項14】
前記生成モジュールは、
前記音響特徴を音声合成システムのボコーダモジュールに入力する第2の処理ユニットと、
前記ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データを前記ターゲット音声信号とする第3の処理ユニットとを含む、
ことを特徴とする請求項9~12のいずれかに記載の装置、
【請求項15】
発話者が第1の発話者から前記元の発話者に切り替わったことを決定する第1の決定モジュールと、
前記第1の発話者を前記ターゲット発話者として決定する第2の決定モジュールとをさらに含む、
ことを特徴とする請求項9~12のいずれかに記載の装置。
【請求項16】
前記ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動する駆動モジュールをさらに含む、
ことを特徴とする請求項15に記載の装置。
【請求項17】
電子機器であって、
少なくとも1つプロセッサと、
前記少なくとも1つプロセッサに通信可能に接続されるメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサは、請求項1~8のいずれかに記載の方法を実行することができる、
ことを特徴とする電子機器。
【請求項18】
非一時的なコンピュータ読み取り可能な記憶媒体であって、コンピュータに請求項1~8のいずれかに記載の方法を実行させるためのコンピュータ命令が記憶されている、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項19】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~8のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、特に深層学習、音声技術などの人工知能技術の分野に関し、特に音声生成方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
人工知能と、メディア業界、カスタマーサービス業界との深い融合に伴い、仮想デジタルヒューマンがメディア、カスタマーサービスの職場に現れていることがますます多くなっていく。現在の仮想デジタルヒューマンは音声によって駆動され、即ち音声によって、唇の動き、顔表情の変化、及び各種の体の動きを行うように仮想デジタルヒューマンを駆動する。
【0003】
しかし、関連技術では、通常、発話者の元の音声を通じて仮想デジタルヒューマンを直接駆動し、例えばカスタマーサービスのシーンでは、真人のカスタマーサービスの音声を通じて仮想デジタルヒューマンを直接駆動し、仮想デジタルヒューマンの音声の音色と真人のカスタマーサービスの音声の音色が同じであるため、仮想デジタルヒューマンのイメージと音声が一致しない場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、音声生成方法、装置、電子機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、音声生成方法を提供し、前記音声生成方法は、元の発話者の音声情報を取得するステップと、前記音声情報に対してテキスト特徴抽出を行って、前記音声情報に対応するテキスト特徴を取得するステップと、前記テキスト特徴をターゲット発話者に対応する音響特徴に変換するステップと、前記音響特徴に基づいてターゲット音声信号を生成するステップとを含む。
【0006】
本開示の別の態様によれば、音声生成装置を提供し、前記音声生成装置は、元の発話者の音声情報を取得する第1の取得モジュールと、前記音声情報に対してテキスト特徴抽出を行って、前記音声情報に対応するテキスト特徴を取得する抽出モジュールと、前記テキスト特徴をターゲット発話者に対応する音響特徴に変換する変換モジュールと、前記音響特徴に基づいてターゲット音声信号を生成する生成モジュールとを含む。
【0007】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つプロセッサと、前記少なくとも1つプロセッサに通信可能に接続されるメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサは、上記の方法を実行することができる。
【0008】
本開示の別の態様によれば、コンピュータに上記の方法を実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
【0009】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されると、上記の方法が実現される。
【0010】
この部分に記載されている内容は、本開示の実施例のキーポイント又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないと理解される。本開示の他の特徴は、以下の明細書によって理解しやすくなる。
【図面の簡単な説明】
【0011】
図面は、本解決案をよりよく理解するために使用されており、本出願を制限するものではない。
図1】本開示の第1の実施例による音声生成方法の概略フローチャートである。
図2】本開示の第2の実施例による音声生成方法の概略フローチャートである。
図3】本開示の第2の実施例による音声生成方法の別の概略フローチャートである。
図4】本開示の第3の実施例による音声生成方法の概略フローチャートである。
図5】本開示の第4の実施例による音声生成装置の概略構成図である。
図6】本開示の第5の実施例による音声生成装置の概略構成図である。
図7】本開示の実施例の音声生成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。
【0013】
なお、本開示の技術案において、関連するユーザ個人情報の取得、記憶及び応用などは、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
【0014】
なお、関連技術では、仮想デジタルヒューマンは通常、発話者の元の音声によって直接駆動され、例えば、カスタマーサービスのシーンでは、仮想デジタルヒューマンは真人のカスタマーサービスの音声によって直接駆動され、仮想デジタルヒューマンの音声の音色は真人のカスタマーサービスの音声の音色と同じであるため、仮想デジタルヒューマンのイメージと音声は一致していない可能性がある。例えば、仮想デジタルヒューマンが女性のイメージであると仮定すると、仮想デジタルヒューマンが男性の発話者の音声によって駆動される場合、仮想デジタルヒューマンの音声は男性の声であり、これは仮想デジタルヒューマンのイメージと一致していない。
【0015】
本開示は、上記の問題について、音声生成方法を提供し、この音声生成方法では、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換して、音響特徴に基づいてターゲット音声信号を生成する。これにより、元の発話者の音声情報を対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0016】
以下、本開示の実施例の音声生成方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品について、図面を参照して説明する。
【0017】
まず、図1を参照して、本開示によって提供される音声生成方法について詳細に説明する。
【0018】
図1は、本開示の第1の実施例による音声生成方法の概略フローチャートである。ここで、本開示の実施例によって提供される音声生成方法では、実行主体は音声生成装置であることに留意されたい。この音声生成装置は、電子機器であってもよく、電子機器に配置されて、元の発話者の音声情報をターゲット発話者の音色と一致するターゲット音声信号に変換するようにしてもよい。本開示の実施例では、音声生成装置が電子機器に配置されることを例として説明する。
【0019】
ここで、電子機器は、データ処理が可能な任意の固定又はモバイルコンピューティングデバイスであってもよく、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、又はデスクトップパソコンなどの固定コンピューティングデバイス、又はサーバー、又は他のタイプのコンピューティングデバイスなどであってもよく、本開示はこれを制限するものではない。
【0020】
図1に示すように、音声生成方法は、以下のステップを含む。
【0021】
ステップ101において、元の発話者の音声情報を取得する。
【0022】
ここで、元の発話者は任意の発話者であってもよい。
【0023】
なお、本開示の実施例における音声生成装置は、種々の公開、適法な方式を通じて、元の発話者の音声情報を取得することができ、例えば音声生成装置は、元の発話者の承認を得た後に、元の発話者が話している間に元の発話者の音声情報を収集し、又は元の発話者の承認を得た後に、他の装置から元の発話者の録音情報を取得し、又は他の適法な方式を通じて、元の発話者の音声情報を取得することができ、本開示はこれを制限するものではない。
【0024】
カスタマーサービスのシーンで真人のカスタマーサービスの音声によって仮想デジタルヒューマンが駆動されることを例として、真人のカスタマーサービスは元の発話者であり、音声生成装置は、真人のカスタマーサービスによって承認された後、真人のカスタマーサービスが話している間に、真人のカスタマーサービスの音声をリアルタイムで収集して、元の発話者の音声情報を取得することができる。
【0025】
ステップ102において、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得する。
【0026】
ここで、テキスト特徴は、音声情報における、テキストに関する特徴であり、テキスト特徴は、音声情報の音声テキストコンテンツを特徴づけることができる。
【0027】
例示的な実施例では、テキスト特徴は、事後確率マップ特徴(Phonetic PosteriorGrams、PPG)であってもよく、ここで、事後確率マップ特徴の物理的意味は、各音響セグメントが属する言語単位の確率分布であってもよく、又は、テキスト特徴は、因子シーケンスなどの他の特徴であってもよく、本開示はこれを制限するものではない。
【0028】
例示的な実施例では、トレーニングをして特徴抽出モデルを事前に取得することができ、ここで、特徴抽出モデルの入力は、抽出対象のテキスト特徴の音声情報であり、出力は、入力される音声情報のテキスト特徴であるため、元の発話者の音声情報をトレーニングされた特徴抽出モデルに入力することで、音声情報に対応するテキスト特徴を取得することができる。ここで、特徴抽出モデルは、ニューラルネットワークモデルなど、テキスト特徴を抽出できる任意のタイプのモデルであってもよく、本開示はこれを制限するものではない。
【0029】
ステップ103において、テキスト特徴をターゲット発話者に対応する音響特徴を変換する。
【0030】
例示的な実施例では、特徴変換モデルを事前にトレーニングして、特徴変換モデルを使用してテキスト特徴をターゲット発話者に対応する音響特徴を変換することができる。
【0031】
ここで、音響特徴は、音声音響特性の物理量を特徴づける物理量である。ターゲット発話者に対応する音響特徴は、元の発話者の音声情報がターゲット発話者に対応する場合の音響特徴であり、元の発話者の音声情報がターゲット発話者に対応する場合の音声音響特性を特徴づける。
【0032】
例示的な実施例では、音響特徴は、メル(mel)スケールのスペクトルエンベロープ特徴又は基本周波数特徴などの他の特徴であってもよく、本開示はこれを制限するものではない。
【0033】
ターゲット発話者は、予め決められた特定の発話者である。例えば、これは、対応する音声が仮想デジタルヒューマンのイメージと一致している発話者であってもよい。
【0034】
例えば、カスタマーサービスのシーンで真人のカスタマーサービスの音声によって仮想デジタルヒューマンが駆動されることを例として、仮想デジタルヒューマンのイメージが発話者Aの音声と一致していると仮定すると、真人のカスタマーサービスB(即ち、元の発話者)の音声によって仮想デジタルヒューマンが駆動される場合、真人のカスタマーサービスBの音声情報を、対応する音色が発話者Aの音色と一致している音声信号に変換する必要があり、この際、発話者Aはターゲット発話者である。本開示の実施例では、元の発話者Bの音声情報から抽出されたテキスト特徴をターゲット発話者Aに対応する音響特徴に変換することができ、ここで、音響特徴は、元の発話者Bの音声情報がターゲット発話者Aに対応する場合の音声音響特性を特徴づける。
【0035】
なお、本開示の実施例における仮想デジタルヒューマンのイメージは、特定のユーザのイメージではなく、特定のユーザの個人情報を反映することができない。
【0036】
ステップ104において、音響特徴に基づいてターゲット音声信号を生成する。
【0037】
例示的な実施例では、ターゲット発話者に対応する音響特徴を取得した後、音響特徴に基づいてターゲット音声信号を生成することができ、ここで、ターゲット音声信号に対応する音色がターゲット発話者と一致しているため、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現される。
【0038】
なお、本開示の実施例で生成されたターゲット音声信号は仮想デジタルヒューマンを駆動するために使用され、ターゲット発話者を、その音声が仮想デジタルヒューマンのイメージと一致する発話者として設定し、かつ、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することができるため、元の発話者がどちらの発話者であっても、本開示の実施例によって提供される音声生成方法を使用して、元の発話者の音声情報を、対応する音色が仮想デジタルヒューマンのイメージと一致するターゲット音声信号に変換することができ、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0039】
例えば、カスタマーサービスのシーンで真人のカスタマーサービスの音声によって仮想デジタルヒューマンが駆動されることを例として、仮想デジタルヒューマンのイメージが発話者Aの音声と一致し、発話者Aがターゲット発話者として設定されていると仮定すると、本開示の実施例によって提供される音声生成方法によって、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現されるため、元の発話者が発話者B又はC又は他の任意の発話者であっても、発話者Aの音色と一致するターゲット音声信号を取得することができ、ターゲット音声信号によって仮想デジタルヒューマンが駆動される場合、仮想デジタルヒューマンの音声とイメージは一致していることが保証される。
【0040】
なお、本開示の実施例によって提供される音声生成方法は、元の発話者の音声情報から抽出されたテキスト特徴をターゲット発話者に対応する音響特徴に直接変換し、音響特徴に基づいてターゲット音声信号を生成するため、ターゲット音声信号に元の発話者の感情、語気などの特徴が残り、本開示の実施例で生成されたターゲット音声信号により仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンの音声に、元の発話者の感情、語気などの真人の特徴もも含みうり、ユーザに良いインタラクティブな体験をもたらし、仮想デジタルヒューマンの面白さと新鮮さを高めることができる。
【0041】
本開示の実施例によって提供される音声生成方法は、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成する。これにより、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換するが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0042】
上記の分析から分かるように、本開示の実施例では、トレーニングされた特徴モデルにより、テキスト特徴をターゲット発話者に対応する音響特徴を変換することができ、図2を組み合わせて、本開示によって提供される音声生成方法において、テキスト特徴をターゲット発話者に対応する音響特徴を変換する過程をさらに説明する。
【0043】
図2は、本開示の第2の実施例の音声生成方法による概略フローチャートである。図2に示すように、音声生成方法は、以下のステップを含む。
【0044】
ステップ201において、元の発話者の音声情報を取得する。
【0045】
ここで、ステップ201の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。
【0046】
ステップ202において、音声情報に対して音声認識を行う。
【0047】
ステップ203において、音声情報に対して音声認識を行っている間の中間結果を取得する。
【0048】
ステップ204において、中間結果をテキスト特徴とする。
【0049】
なお、通常、音声情報に対して音声認識を行う過程において、音声情報におけるテキスト特徴が抽出され、中間結果であるテキスト特徴をさらに処理することにより、音声情報の音声認識が実現される。
【0050】
そこで、本開示の実施例では、関連技術における音声認識方法を使用することができ、例えば音声技術分野における音声認識モデルを直接使用して音声情報に対して音声認識を行い、音声情報に対して音声認識を行っている間の中間結果を取得し、中間結果をテキスト特徴とし、音声情報におけるテキスト特徴を取得することが実現される。
【0051】
関連技術における音声認識方法を直接使用して、音声情報に対して音声認識を行って、音声情報の音声認識の過程における中間結果を音声情報に対応するテキスト特徴とすることができるため、特徴抽出モデルをトレーニングしてテキスト特徴を抽出する必要がなく、音声情報に対応するテキスト特徴を取得するコストを低減することが可能である。
【0052】
ステップ205において、テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、ターゲット発話者に対応する音響特徴を取得する。
【0053】
ここで、ターゲット発話者に対応する音響特徴は、元の発話者の音声情報がターゲット発話者に対応する場合の音響特徴である。
【0054】
ターゲット発話者のラベルは、ターゲット発話者を一意に識別するために使用され、必要に応じて設定することができる。
【0055】
例示的な実施例では、トレーニングをして特徴変換モデルを事前に取得することができ、ここで、特徴変換モデルの入力は、特定の発話者のラベル及び特定の音声情報から抽出されたテキスト特徴であり、出力は、この音声情報がこの発話者に対応する場合の音響特徴であるため、元の発話者の音声情報に対応するテキスト特徴及びターゲット発話者のラベルを取得した後、テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、元の発話者の音声情報がターゲット発話者に対応する場合の音響特徴を取得することができる。
【0056】
図3を参照し、元の発話者の音声情報301を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報301に対応するテキスト特徴302を取得し、テキスト特徴302とターゲット発話者のラベルとに基づいて、特徴変換により、ターゲット発話者に対応する音響特徴303を取得することができる。
【0057】
テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、ターゲット発話者に対応する音響特徴を取得することにより、元の発話者の音声情報がターゲット発話者に対応する場合の音響特徴を正確に取得することが実現される。
【0058】
相応に、ステップ205の前に、以下のように、トレーニングをして特徴変換モデルを取得することもできる。
トレーニングデータを取得し、ここで、トレーニングデータには、複数のサンプル発話者のラベル、及び各サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴が含まれ、トレーニングデータは、サンプル音声情報のサンプル音響特徴でラベリングされ、初期特徴変換モデルを取得し、サンプル発話者のラベル、及びサンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を初期特徴変換モデルに入力して、サンプル発話者に対応するサンプル音声情報の予測音響特徴を取得し、サンプル発話者に対応するサンプル音声情報の予測音響特徴とサンプル音声情報のサンプル音響特徴との相違に基づいて、初期特徴変換モデルのモデルパラメータを調整して、トレーニングされた特徴変換モデルを取得する。
【0059】
ここで、サンプル音声情報のサンプル音響特徴でトレーニングデータをラベリングする場合、サンプル音声情報のサンプル音響特徴は、このサンプル音声情報がサンプル発話者に対応する場合のサンプル音響特徴であり、ここで、サンプル発話者は、このサンプル音声情報に対応するサンプル発話者である。
【0060】
例えば、サンプル発話者aに対して、トレーニングデータには、サンプル発話者aのラベル、及びサンプル発話者aに対応するサンプル音声情報bから抽出されたサンプルテキスト特徴を含み、かつこのサンプル発話者aのラベル及びサンプル発話者aに対応するサンプル音声情報bから抽出されたサンプルテキスト特徴は、サンプル音声情報bが発話者aに対応する場合のサンプル音響特徴でラベリングされる。
【0061】
ここで、初期特徴変換モデルは、ディープニューラルネットワークモデルなど、テキスト特徴から音響特徴への変換を実現可能な任意のタイプのモデルであってもよく、本開示は、初期特徴変換モデルの構造とタイプを制限するものではない。
【0062】
なお、本開示の実施例では、各サンプル発話者に対応するサンプル音声情報は、音声生成装置が種々の公開、適法な方式を通じて、元の発話者の音声情報から取得するものであってもよく、例えば、音声生成装置は、公開データセットから取得したり、又はサンプル発話者の承認を得た後に、サンプル発話者から取得したりすることができる。
【0063】
例示的な実施例では、初期特徴変換モデルをトレーニングする場合、例えば、深層学習によってトレーニングすることができ、他の機械学習方法と比較して、深層学習はビッグデータセットでよりよく生かしている。
【0064】
深層学習の方法で初期特徴変換モデルをトレーニングする場合、トレーニングデータの1つ又は複数のサンプル発話者のラベル及びこのサンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を入力として、初期特徴変換モデルに入力し、このサンプル発話者に対応するサンプル音声情報の予測音響特徴を取得して、このサンプル発話者のサンプル音声情報のサンプル音響特徴と組み合わせて、サンプル発話者に対応するサンプル音声情報の予測音響特徴とサンプル発話者に対応するサンプル音声情報のサンプル音響特徴との相違を求め、相違に基づいて初期特徴変換モデルのモデルパラメータを調整し、調整された特徴変換モデルを取得する。そして、トレーニングデータの別の又は複数のサンプル発話者のラベル及びこのサンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を入力として、調整された特徴変換モデルを入力し、このサンプル発話者に対応するサンプル音声情報の予測音響特徴を取得して、このサンプル発話者のサンプル音声情報のサンプル音響特徴と組み合わせて、サンプル発話者に対応するサンプル音声情報の予測音響特徴とサンプル発話者に対応するサンプル音声情報のサンプル音響特徴との相違を求め、この相違に基づいて調整された特徴変換モデルのモデルパラメータを調整し、さらに調整された特徴変換モデルを取得する。これにより、初期特徴変換モデルのモデルパラメータを連続に調整して、初期特徴変換モデルを反復トレーニングし、特徴変換モデルから出力される予測音響特徴の正確度が予め設定された閾値を満すまでトレーニングが終了し、トレーニングされた特徴変換モデルを取得する。
【0065】
さらに、トレーニングされた特徴変換モデルを取得すると、即ちトレーニングされた特徴変換モデルを使用することができる場合、元の発話者の音声情報から抽出されたテキスト特徴をターゲット発話者に対応する音響特徴に変換する。
【0066】
なお、特徴変換モデルがターゲット発話者のラベル、及びテキスト特徴と音響特徴との関連関係を学習させ、任意の発話者の音声情報に対しても、特徴変換モデルによって音声情報に対応するテキスト特徴をターゲット発話者に対応する音響特徴に変換できるように、特徴変換モデルをトレーニングする場合、トレーニングデータには、ターゲット発話者に対応するラベル、ターゲット発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴、及びターゲット発話者に対応するラベルとターゲット発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴をラベリングするためのサンプル音声情報のサンプル音響特徴が含まれる必要がある。
【0067】
即ち、ターゲット発話者に対応するラベルは、トレーニングデータのいずれかのサンプル発話者に対応するラベルである。
【0068】
上記の実施例から分かるように、トレーニングデータでトレーニングして特徴変換モデルを生成する過程において、トレーニングデータのうちのサンプル発話者ラベル、サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴、及びサンプル音声情報のサンプル音響特徴が、同一のサンプル発話者に対応することに留意されたい。トレーニングされた特徴変換モデルによってテキスト特徴から音響特徴への変換を行う場合、ターゲット発話者ラベル及びターゲット発話者に対応する音響特徴は、ターゲット発話者に対応し、テキスト特徴は、任意の発話者に対応する。
【0069】
ステップ206において、音響特徴を音声合成システムのボコーダモジュールに入力する。
【0070】
ステップ207において、ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データをターゲット音声信号とする。
【0071】
ここで、音声合成システムは、関連技術において音声合成を行うためのシステムである。
【0072】
なお、通常、音声合成システムには、ボコーダモジュールが含まれ、ボコーダモジュールの入力は、例えばmelスケールのスペクトルエンベロープ特徴などの音声信号の音響特徴であり、出力は、音声信号の少なくとも1つ周波数の音声波形データである。本開示の実施例では、音声合成システムのボコーダモジュールによって、ターゲット発話者に対応する音響特徴に基づいて、ターゲット音声信号を生成することができる。
【0073】
具体的に、ターゲット発話者に対応する音響特徴を、音声合成システムのボコーダモジュールに入力して、ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データをターゲット音声信号とする。
【0074】
ターゲット発話者に対応する音響特徴に基づいて、音声合成システムのボコーダモジュールによって、ターゲット音声信号を生成することで、ターゲット音声信号を生成するコストを低減する。
【0075】
図3を参照し、ターゲット発話者に対応する音響特徴303を生成した後、音響特徴303に基づいてターゲット音声信号304を生成することができる。
【0076】
本開示の実施例の音声生成方法は、元の発話者の音声情報を取得した後、音声情報に対して音声認識を行って、音声情報に対して音声認識を行っている間の中間結果を取得し、中間結果をテキスト特徴として、テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、ターゲット発話者に対応する音響特徴を取得し、音響特徴を音声合成システムのボコーダモジュールに入力し、ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データをターゲット音声信号とすることにより、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0077】
上記の分析から分かるように、本開示の実施例で生成されたターゲット音声信号は、仮想デジタルヒューマンを駆動するために使用することができ、駆動仮想デジタルヒューマンのシーンと組み合わせて、本開示によって提供される音声生成方法についてさらに説明する。
【0078】
図4は、本開示の第3の実施例による音声生成方法の概略フローチャートである。図4に示すように、音声生成方法は、以下のステップを含む。
【0079】
ステップ401において、発話者が第1の発話者から元の発話者に切り替わったことを決定する。
【0080】
ステップ402において、第1の発話者をターゲット発話者として決定する。
【0081】
なお、ステップ402は、ステップ403の前に実行してもよいし、ステップ403の後に実行してもよく、本開示は、ステップ402の実行タイミングを制限するものではなく、ステップ405の前に実行すればよい。
【0082】
ステップ403において、元の発話者の音声情報を取得する。
【0083】
ステップ404において、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得する。
【0084】
ステップ405において、テキスト特徴をターゲット発話者に対応する音響特徴を変換する。
【0085】
ステップ406において、音響特徴に基づいてターゲット音声信号を生成する。
【0086】
ステップ407において、ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動する。
【0087】
なお、メディア、カスタマーサービス業界の仮想デジタルヒューマンは、動作の過程で言語が自然に流暢であり、ユーザの質問に柔軟に対応して、できるだけ言語表現が真人のカスタマーサービスと同じようにする必要がある。実際の応用シーンでは、ユーザの簡単な質問に対して、通常、人工知能カスタマーサービスが答える必要があり、ユーザの答えにくい質問に対して、真人のカスタマーサービスが答える必要があるため、仮想デジタルヒューマンは、人工知能カスタマーサービスの音声の駆動と真人のカスタマーサービスの音声の駆動とを切り替える必要がある。仮想デジタルヒューマンは、高品質の外観に加え、人工知能カスタマーサービスと真人のカスタマーサービスとの間でシームレスに切り替えたり、真人のカスタマーサービスの交代前にシームレスに接続したりすることをサポートする必要があり、仮想デジタルヒューマンの声音の音色を切り替え前後に一致性を保持して、ユーザに良いインタラクティブな体験をもたらし、仮想デジタルヒューマンの面白さと新鮮さを高め、若い世代において、スマートメディア、スマートカスタマーサービスの影響力を高める。
【0088】
仮想デジタルヒューマンを駆動する音声に対応する発話者が、人工知能カスタマーサービスから真人のカスタマーサービスに切り替えることを例として、即ち、第1の発話者が人工知能カスタマーサービスであり、元の発話者が真人のカスタマーサービスである場合、本開示の実施例では、人工知能カスタマーサービスをターゲット発話者として決定して、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成して、真人のカスタマーサービスの音声情報を人工知能カスタマーサービスの音色と一致するターゲット音声信号に変換することにより、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンの声音の音色を人工知能カスタマーサービスの音色と一致させることができ、仮想デジタルヒューマンが人工知能カスタマーサービスの音声による駆動から真人のカスタマーサービスによる駆動に切り替える場合、声音の音色の一致性を保持することを実現する。
【0089】
例示的な実施例では、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動することができ、仮想デジタルヒューマンの唇動作、顔表情及び体の動きと駆動仮想デジタルヒューマンの音声が一致するようになっている。
【0090】
ここで、ステップ403~406の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。
【0091】
本開示の実施例の音声生成方法は、発話者が第1の発話者から元の発話者に切り替わったことを決定した後、第1の発話者をターゲット発話者として決定し、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得して、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成し、ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動する。これにより、仮想デジタルヒューマンの音声に対応する発話者を駆動して第1の発話者から元の発話者に切り替える場合、元の発話者の音声情報を、対応する音色が第1の発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンの声音の音色と第1の発話者の音声によって駆動される場合の声音の音色が一致するようにする。
【0092】
図5を組み合わせて、本開示によって提供される音声生成装置につい説明する。
【0093】
図5は本開示の第4の実施例による音声生成装置の概略構成図である。
【0094】
図5に示すように、本開示によって提供される音声生成装置500は、第1の取得モジュール501、抽出モジュール502、変換モジュール503及び生成モジュール504を含む。
【0095】
ここで、第1の取得モジュール501は、元の発話者の音声情報を取得するために用いられる。
【0096】
抽出モジュール502は、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得するために用いられる。
【0097】
変換モジュール503は、テキスト特徴をターゲット発話者に対応する音響特徴を変換するために用いられる。
【0098】
生成モジュール504は、音響特徴に基づいてターゲット音声信号を生成するために用いられる。
【0099】
なお、本実施例に係る音声生成装置は、上記実施例の音声生成方法を実行することができる。ここで、音声生成装置は電子機器であってもよく、電子機器に配置されて、元の発話者の音声情報をターゲット発話者の音色と一致するターゲット音声信号に変換するようにしてもよい。
【0100】
ここで、電子機器は、データ処理が可能な任意の固定又はモバイルコンピューティングデバイスであってもよく、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、又はデスクトップパソコンなどの固定コンピューティングデバイス、又はサーバー、又は他のタイプのコンピューティングデバイスなどであってもよく、本開示はこれを制限するものではない。
【0101】
なお、前述した音声生成方法の実施例の説明は、本開示によって提供される音声生成装置にも適用され、ここでは説明を省略する。
【0102】
本開示の実施例によって提供される音声生成装置は、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成する。これにより、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0103】
図6を組み合わせて、本開示によって提供される音声生成装置について説明する。
【0104】
図6は本開示の第5の実施例による音声生成装置の概略構成図である。
【0105】
図6に示すように、音声生成装置600は、具体的には、第1の取得モジュール601、抽出モジュール602、変換モジュール603及び生成モジュール604を含む。ここで、図6の第1の取得モジュール601、抽出モジュール602、変換モジュール603及び生成モジュール604は、図5の第1の取得モジュール501、抽出モジュール502、変換モジュール503及び生成モジュール504と同様の機能及び構造を有する。
【0106】
例示的な実施例では、変換モジュール603は、テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、ターゲット発話者に対応する音響特徴を取得する変換ユニットを含む。
【0107】
例示的な実施例では、図6に示すように、音声生成装置600は、トレーニングデータを取得する第2の取得モジュール605であって、トレーニングデータには、複数のサンプル発話者のラベル、及び各サンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴が含まれ、トレーニングデータは、サンプル音声情報のサンプル音響特徴でラベリングされる第2の取得モジュール605と、初期特徴変換モデルを取得する第3の取得モジュール606と、サンプル発話者のラベル、及びサンプル発話者に対応するサンプル音声情報から抽出されたサンプルテキスト特徴を初期特徴変換モデルに入力して、サンプル発話者に対応するサンプル音声情報の予測音響特徴を取得する処理モジュール607と、サンプル発話者に対応するサンプル音声情報の予測音響特徴とサンプル音声情報のサンプル音響特徴との相違に基づいて、初期特徴変換モデルのモデルパラメータを調整して、トレーニングされた特徴変換モデルを取得する調整モジュール608とをさらに含む。
【0108】
例示的な実施例では、変換モジュール603は、テキスト特徴とターゲット発話者のラベルをトレーニングされた特徴変換モデルに入力して、ターゲット発話者に対応する音響特徴を取得する変換ユニットを含む。
【0109】
例示的な実施例では、ターゲット発話者に対応するラベルは、トレーニングデータのいずれかのサンプル発話者に対応するラベルである。
【0110】
例示的な実施例では、抽出モジュール602は、音声情報に対して音声認識を行う認識ユニットと、音声情報に対して音声認識を行っている間の中間結果を取得する取得ユニットと、中間結果をテキスト特徴とする第1の処理ユニットとを含む。
【0111】
例示的な実施例では、生成モジュール604は、音響特徴を音声合成システムのボコーダモジュールに入力する第2の処理ユニットと、ボコーダモジュールから出力された少なくとも一つの周波数の音声波形データをターゲット音声信号とする第3の処理ユニットとを含む。
【0112】
例示的な実施例では、音声生成装置600は、発話者が第1の発話者から元の発話者に切り替わったことを決定する第1の決定モジュール609と、第1の発話者をターゲット発話者として決定する第2の決定モジュール610とをさらに含む。
【0113】
例示的な実施例では、音声生成装置600は、ターゲット音声信号によって、唇の動き、顔表情の変化、及び体の動きの少なくとも1つを行って音声を出すように仮想デジタルヒューマンを駆動する駆動モジュール611をさらに含む。
【0114】
なお、前述した音声生成方法の実施例の説明は、本開示によって提供される音声生成装置にも適用され、ここでは説明を省略する。
【0115】
本開示の実施例によって提供される音声生成装置は、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成する。これにより、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号によって仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0116】
本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
【0117】
図7は、本開示の実施例を実現するための例示的電子機器700のブロック図である。電子機器は、各形態のデジタルコンピュータを指し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適合するコンピュータが挙げられる。電子機器は、各形態の移動装置をさらに指し、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置が挙げられる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本開示に記載及び/または特定の実現を限定するわけではない。
【0118】
図7に示すように、デバイス700は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム命令、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット701を含む。RAM 703には、デバイス700の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット701と、ROM 702と、RAM 703とは、バス704を介して互いに接続されている。入力/出力(I/O)インタフェース705もバス704に接続されている。
【0119】
デバイス700における複数のコンポーネントは、I/Oインタフェース705に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット706と、種々なディスプレイやスピーカなどの出力ユニット707と、磁気ディスクや光学ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット709と、を備える。通信ユニット709は、デバイス700がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介して他の機器と情報/データを交換することを許可する。
【0120】
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット701は、上述で説明された各方法及び処理、例えば音声生成方法を実行する。例えば、いくつかの実施形態では、音声生成方法を、記憶ユニット708のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部又は全ては、ROM 702及び/又は通信ユニット709を介して、デバイス700にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 703にロードされて計算ユニット701によって実行される場合に、前述した音声生成方法の一つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット701は、他の任意の適当な方式(例えば、ファームウェア)により音声生成方法を実行するように構成することができる。
【0121】
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0122】
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
【0123】
本開示の説明において、本発明において、機械可読媒体は、指令実行システム、装置又は装置が使用する、又は指令実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD-ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
【0124】
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0125】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
【0126】
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPS(Virtual Private Server、仮想プライベートサーバ)サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバーは、分散システムのサーバー、又はブロックチェーンを結合したサーバーであってもよい。
【0127】
本開示は、コンピュータ技術分野に関し、特に深層学習、音声技術などの人工知能技術の分野に関する。
【0128】
なお、人工知能とは、コンピュータに人間の思考過程や知能行動(例えば学習、推論、思考、計画など)をシミュレートさせる学科であり、ハードウェアラベルの技術とソフトウェアラベルの技術との両方がある。人工知能技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能フトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの大きな方向を含む。
【0129】
本開示の実施例の技術案によれば、元の発話者の音声情報を取得した後、音声情報に対してテキスト特徴抽出を行って、音声情報に対応するテキスト特徴を取得し、テキスト特徴をターゲット発話者に対応する音響特徴を変換し、音響特徴に基づいてターゲット音声信号を生成する。これにより、元の発話者の音声情報を、対応する音色がターゲット発話者と一致するターゲット音声信号に変換することが実現され、ターゲット音声信号により仮想デジタルヒューマンを駆動する場合、仮想デジタルヒューマンのイメージと音声が一致しないことを回避することができる。
【0130】
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本願に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限はしない。
【0131】
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、サブ組合、および代替を行うことができることは理解される。本願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7