(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133408
(43)【公開日】2022-09-13
(54)【発明の名称】音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20220906BHJP
G10L 25/30 20130101ALI20220906BHJP
G10L 25/24 20130101ALI20220906BHJP
【FI】
G10L21/007
G10L25/30
G10L25/24
【審査請求】有
【請求項の数】16
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022109065
(22)【出願日】2022-07-06
(31)【優先権主張番号】202110909497.9
(32)【優先日】2021-08-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100106518
【弁理士】
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100189555
【弁理士】
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】陳 懌翔
(72)【発明者】
【氏名】王 俊超
(72)【発明者】
【氏名】康 永国
(57)【要約】 (修正有)
【課題】目標話者の音声感情、調子などの音色特徴を保留するとともに、演算コストを低減した音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供する。
【解決手段】音声変換方法は、目標話者の第1の音声を取得することと、元話者の音声を取得することと、目標話者の第1の音声の第1の特徴パラメータを抽出することと、元話者の音声の第2の特徴パラメータを抽出することと、第1の特徴パラメータと第2の特徴パラメータとを処理してメルスペクトラム情報を取得することと、メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ、元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
目標話者の第1の音声を取得することと、
元話者の音声を取得することと、
目標話者の第1の音声の第1の特徴パラメータを抽出することと、
元話者の音声の第2の特徴パラメータを抽出することと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
音声変換方法。
【請求項2】
前記取得された目標話者の第1の音声と取得された元話者の音声とは、いずれもオーディオ情報である、
請求項1に記載の音声変換方法。
【請求項3】
前記第1の特徴パラメータは、時間次元情報を持つ声紋特徴を含む、
請求項1に記載の音声変換方法。
【請求項4】
前記目標話者の第1の音声の第1の特徴パラメータを抽出することは、
目標話者の第1の音声の声紋特徴を抽出することと、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して、第1の特徴パラメータを取得することと、を含む、
請求項3に記載の音声変換方法。
【請求項5】
前記第2の特徴パラメータは、時間に関連するテキストコード、第1の基本周波数、及び第1の基本周波数表現を含む、
請求項1に記載の音声変換方法。
【請求項6】
前記元話者の音声の第2の特徴パラメータを抽出することは、
元話者の音声のテキストライク特徴を抽出することと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得することと、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
請求項5に記載の音声変換方法。
【請求項7】
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することは、
前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得することと、
前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して、第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
請求項6に記載の音声変換方法。
【請求項8】
前記ニューラルネットワークによってトレーニングすることは、
畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む、
請求項7に記載の音声変換方法。
【請求項9】
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得することは、
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得することと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得すことと、を含む、
請求項1に記載の音声変換方法。
【請求項10】
目標話者の第1の音声を取得するための第1の取得モジュールと、
元話者の音声を取得するための第2の取得モジュールと、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
音声変換システム。
【請求項11】
前記第1の抽出モジュールは、
目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュールと、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュールと、を含む、
請求項10に記載の音声変換システム。
【請求項12】
前記第2の抽出モジュールは、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュールと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュールと、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュールと、を含む、
請求項10に記載の音声変換システム。
【請求項13】
前記処理モジュールは、
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得するための統合モジュールと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュールと、を含む、
請求項10に記載の音声変換システム。
【請求項14】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~9のいずれか一項に記載の音声変換方法を実行することができる、
電子機器。
【請求項15】
コンピュータに請求項1~9のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項16】
プロセッサにより実行される場合に、請求項1~9のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声、ディープラーニングなどの人工知能の技術分野に関し、特に音声変換技術に関する。
【背景技術】
【0002】
音声変換とは、元の語意情報を変更せずに保留する前提で、元話者の音声個性特徴を変更することで、目標話者の音声個性特徴を持たせ、一人の音声が変換された後に別人の音声に聞こえるようにすることである。音声変換の研究は、重要な応用価値と理論価値とを有する。音響特徴パラメータはいずれも、人のすべての個性特徴情報を表すことができないため、我々は、異なる人を最も代表し得る音声個性特徴パラメータを選択することで音声の変換を行う。
【発明の概要】
【0003】
本開示は、音声変換効果を向上させ、元音声の音色を保留する音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供している。
【0004】
本開示の一局面によれば、音色の点で目標話者により近い音声変換方法であって、
目標話者の第1の音声を取得することと、
元話者の音声を取得することと、
目標話者の第1の音声の第1の特徴パラメータを抽出することと、
元話者の音声の第2の特徴パラメータを抽出することと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
音声変換方法を提供している。
【0005】
本開示の別の局面によれば、音声変換システムであって、
目標話者の第1の音声を取得するための第1の取得モジュールと、
元話者の音声を取得するための第2の取得モジュールと、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
音声変換システムを提供している。
【0006】
本開示の第3の局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが本開示の第1の局面のいずれかに記載の方法を実行することができる、
電子機器を提供している。
【0007】
本開示の第4の局面によれば、コンピュータに本開示の第1の局面のいずれかに記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体を提供している。
【0008】
本開示の第5の局面によれば、プロセッサにより実行される場合に、本開示の第1の局面のいずれかに記載の方法を実現するコンピュータプログラムを提供している。
【0009】
本開示が提供した技術案による有益な効果は、
従来の音声変換技術を基礎とし、元話者の音声の基本周波数に対する抽出及び処理を加えることで、該音声変換方法及びシステムは、音声感情、調子等の特質を保留する。
【0010】
上記方法及びシステムを採用することで、音声変換を処理する時、演算コストがより小さく、ハードウェア要求がより低くなる。
【0011】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0012】
ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【
図1】
図1は、本開示による音声変換方法の模式図である。
【
図2】
図2は、本開示による目標話者の第1の音声の第1の特徴パラメータを抽出する模式図である。
【
図3】
図3は、本開示による元話者の音声の第2の特徴パラメータを抽出する模式図である。
【
図4】
図4は、本開示による前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得する模式図である。
【
図5】
図5は、本開示による音声変換システムの模式図である。
【
図5-1】
図5-1は、本開示による第1の抽出モジュールの模式図である。
【
図5-2】
図5-2は、本開示による第2の抽出モジュールの模式図である。
【
図5-3】
図5-3は、本開示による処理モジュールの模式図である。
【
図6】
図6は、本開示の実施例の音声変換システムを実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0014】
《用語の解釈》
基本周波数:発音中の周波数が最も低い正弦波であり、基本周波数はこの音の音高を表すことができ、歌唱中の基本周波数はこの音の音高である。
声紋特徴:話者の音色を保存する特徴ベクトルであり、理想的な状況で、各話者は唯一かつ確定された声紋特徴ベクトルを有し、この声紋特徴ベクトルはこの話者を完全に代表することができ、指紋で類比することができる。
メルスペクトラム:周波数の単位はヘルツであり、人の耳に聞こえる周波数範囲は20~20000ヘルツであるが、人の耳がヘルツ単位に対して線形に敏感ではなく、低ヘルツに敏感であり、高ヘルツに敏感ではなく、ヘルツ周波数をメル周波数に変換すると、人の耳の周波数への感知度は線形になる。
長・短期記憶ネットワーク:長・短期記憶ネットワーク(LSTM,Long Short-Term Memory)は、時間循環ニューラルネットワークである。
ボコーダ:メルスペクトラム(melスペクトラム)情報を音声波形信号に合成するために用いられる。
【0015】
音声変換システム1とは、元話者の音声を目標話者と同じ音色の音声に変換する音響変換器のようなシステムを指す。よりオリジナルな音響変換器との相違点は、音声変換後の音声がよりリアルに聞こえ、同時に音色レベルでより目標話者に近いことにある。同時に、音声変換システムは、テキスト及び感情情報を十分に保留することもでき、それにより目標話者の大幅な代替性を達成する。
【0016】
図1に示すように、本開示による第1の局面は、以下のステップを含む音声変換方法を提供している。
【0017】
S101:目標話者の第1の音声を取得する。目標話者とは、音声変換しようとする目標対象を指す。ここで取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて目標話者の第1の音声になる。特定の目標話者が指定されると、計算方法全体は汎化性を考慮する必要がなく、計算の圧縮可能な空間が大きくなり、これによって計算のコストがより小さい。
【0018】
S102:元話者の音声、即ち、変換される対象の音声を取得する。取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて元話者の音声になる。
【0019】
S103:目標話者の第1の音声の第1の特徴パラメータを抽出する。人の音声情報特徴パラメータは種々の特徴を含み、各特徴は音声表現において果たす役割が異なる。音色特徴を表す音響パラメータは、大体、声紋特徴、フォルマントの帯域幅、メルケプストラム係数、フォルマントの位置、音声のエネルギー、基本音周期などを含む。基本音周期の逆数は基本周波数である。目標話者の第1の音声から抽出したのは、上記パラメータのうちのいずれか1つ又は複数であり得る。
【0020】
S104:元話者の音声の第2の特徴パラメータを抽出する。上記第1の特徴パラメータと同様に、第2の特徴パラメータも、大体、上述したような種類を含む。なお、元話者の音声に含まれる情報から抽出したのは、テキストコード、第1の基本周波数、及び第1の基本周波数表現という特徴パラメータをさらに含む。
【0021】
S105:前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得する。
【0022】
S106:前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力する。元話者の音声を目標話者の音声に変換することは、例えば、音声合成、マルチメディア分野、医学分野、音声通訳分野などの多数の分野に適用することができる。
【0023】
前記取得された目標話者の第1の音声と取得された元話者の音声とは、いずれもオーディオ情報である。オーディオ情報を直接に音声変換に用いた方がより直接であり、変換後の音声がより明瞭になる。しかも、オーディオ情報は、話者の話し内容、感情、調子などの音素を含む。
【0024】
前記第1の特徴パラメータは、時間次元情報を有する声紋特徴を含む。
【0025】
図2に示すように、前記目標話者の第1の音声の第1の特徴パラメータを抽出することは、以下のステップを含む。
【0026】
S201:目標話者の第1の音声の声紋特徴を抽出する。声紋特徴は、1つの話者が1つだけを有する、唯一且つ確定された特徴であり、人の指紋と類似する。
【0027】
S202:前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得する。上記解釈から、声紋特徴が時間と関連しないパラメータであることを判明した。ここで声紋特徴と時間とを関連付けることは、以降の第1の特徴パラメータと第2の特徴パラメータとを一緒に処理しやすくするためである。ここで、声紋特徴処理を行うのは、畳み込み層のみならず、長・短期記憶ネットワークもある。
【0028】
前記第2の特徴パラメータは、時間と関連するテキストコード、第1の基本周波数、及び第1の基本周波数表現を含む。ここで時間と関連する「テキストコード」を強調したのは、最後に音声変換のプロセスにおいて、音声が連続であり、且つ時間と関連しており、即ち、一文の各単語には前後があるためである。なお、時間ではなく、各文字のみを介して一文や一段落を区分すると、後で単独文字を組み合わせて目標話者の音声に変換する可能性があり、そうすると、元話者の音声感情、イントネーション、音色情報を持たない一文や一段落が現れることになり、非常に硬くなる。時間に基づいて一文や一段落を区分すれば、後で音声調子、音色情報を持つ一文や一段落を組み合わせて目標話者の声に変換することになる。無論、時間に関連するテキストコードによれば、音声変換後の音声効果により有利である。
【0029】
図3に示すように、前記元話者の音声の第2の特徴パラメータを抽出することは、以下のステップを含む。
【0030】
S301:元話者の音声のテキストライク特徴を抽出する。いわゆるテキストライク特徴とは、時間に関連するテキスト特徴である。例えば、元話者が話した一文を抽出して、該テキストライク特徴は、語意のみならず、時間情報も含み、即ち、一文の各文字の出現には時間的前後があり、或いは、一段落の各単語の出現には時間的前後がある。
【0031】
S302:前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得する。テキストライク特徴と、時間に関連するテキストコードとは、いずれも各フレームの音声ごとに1つのベクトルを有する。テキストライク特徴に対して次元削減処理を行うことは、演算量を低減するためである。ここでは、畳み込み層のみで次元削減処理を行う。
【0032】
S303:前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得する。前記テキストライク特徴は、時間に関連しているため、処理された第1の基本周波数及び第1の基本周波数表現も時間に関連している。即ち、第1の基本周波数及び第1の基本周波数表現も、各フレームの音声に対応している。
【0033】
図4に示すように、前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することは、以下のステップを含む。
【0034】
S401:前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得する。
【0035】
ニューラルネットワークをトレーニングするプロセスにおいて、元話者の音声のうちの基本周波数を抽出し、元話者が話した話しのうち、基本周波数に対応するテキストライク特徴を抽出して、テキストライク特徴から基本周波数へのマッピングモデルが取得されることになる。トレーニングプロセスにおいて、元話者の音声のうちの基本周波数がトレーニング校正のために用いられる。トレーニングプロセスにおいて、2つの損失関数が用いられ、1つは基本周波数の損失関数であり、もう1つは元話者の音声の自己再構成損失関数である。
【0036】
S402:前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現を取得する。実際の応用段階において、トレーニング段階で取得されたテキストライク特徴から基本周波数へのマッピングモデルを採用して、テキストライク情報によって第1の基本周波数を予測する。さらに、このマッピングモデルの出力の隠蔽層は、第1の基本周波数表現を出力した。なお、テキストライク特徴から基本周波数へのマッピングモデルには、さらに長・短時間記憶ネットワークを付加する。前記長・短時間記憶ネットワークを付加する原因は、基本周波数が時間に関連するだけではなく、コンテキストにも関連する。そのため、長・短時間記憶ネットワークは、テキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するものである。同様に、ここでも、1つの文字の基本周波数に基づいて処理するわけではなく、一文又は一段落の基本周波数に基づいて処理する。即ち、時間に関連し、コンテキストに関連する基本周波数に基づいて後の音声変換を行う。このようにする利点は、変換後に、元話者の音声感情、調子などの音色要素を保留した。
【0037】
前記ニューラルネットワークによってトレーニングすることは、畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む。畳み込み層は、主に次元削減のために用いられ、長・短期記憶ネットワークは、主にテキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するために用いられる。
【0038】
ここまで、上記声紋特徴が処理されて時間に関連する声紋特徴が取得される。テキストライク特徴が畳み込み層に次元削減されて時間に関連するテキストコードが取得される。第1の基本周波数も時間に関連している。第1の基本周波数は時間に関連しており、つまりフレームごとに1つの基本周波数があり、テキストライク特徴も時間に関連しており、フレームごとに1つがあるが、基本周波数は数値であり、一方、テキストライク特徴はベクトルであり、そのため、テキストライク特徴を1つの基本周波数へマッピングする。つまり、テキストライク特徴をテキストコードに次元削減する一方、テキストライク特徴から周波数領域へのマッピングを確立する。ここで、畳み込み層で次元削減の目的を達成し、同時に、畳み込み層はデータ空間を変換して、テキストライク特徴を基本周波数へマッピングする目的を果たす。
【0039】
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得することは、以下のことを含む。
【0040】
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して音声の各フレームのコード特徴を取得する。ここで前記第1の特徴パラメータは時間に関連する声紋特徴コードを指し、ここで前記第2の特徴パラメータは時間に関連するテキストコードと第1の基本周波数とを指す。時間に関連するテキストコードと第1の基本周波数との統合方式は直接に連結するものであり、一方、声紋特徴コードの付加方式は1つの重み行列とバイアスベクトルとを算出するものであり、つまり、声紋特徴コードを1つの全リンク層ネットワークに変換してから、テキストコードと計算することで、声紋特徴情報が付加される。
【0041】
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報が取得される。
【0042】
その後、取得されたメルスペクトラム情報をボコーダに入力して、ボコーダによってメルスペクトラム情報を音声オーディオに変換する。この時の音声オーディオは、目標話者の音色を保留したが、その内容が元話者の音声内容になる音声である。音声変換の目的を達成した。ボコーダは従来技術に属し、ここでは説明を繰り返さない。
【0043】
図5に示すように、本開示の第2の局面によれば、
目標話者の第1の音声を取得するための第1の取得モジュール501と、
元話者の音声を取得するための第2の取得モジュール502と、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュール503と、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュール504と、
前記第1の特徴パラメータと前記第2の特徴パラメータを処理してメルスペクトラム情報を取得するための処理モジュール505と、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュール506と、を含む、
音声変換システム5をさらに提供している。
【0044】
図5-1に示すように、前記第1の抽出モジュール503は、
目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュール5031と、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュール5032と、を含む。
【0045】
図5-2に示すように、前記第2の抽出モジュール504は、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュール5041と、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュール5042と、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュール5043と、を含む。基本周波数予測モジュール5043は、その入力がテキストライク特徴であり、その出力が基本周波数と基本周波数予測モジュールにおける隠蔽層特徴であり、その目的がテキストライク特徴によって基本周波数を予測することである。トレーニング段階において、実際の基本周波数を目標として使用して、損失関数を算出し、応用段階において、テキストライク特徴によって基本周波数を予測する。基本周波数予測モジュール5043は、本質的にニューラルネットワークである。
【0046】
図5-3に示すように、前記処理モジュール505は、
前記第1の特徴パラメータと前記第2の特徴パラメータを統合符号化して音声の各フレームのコード特徴を取得するための統合モジュール5051と、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュール5052と、を含む。
【0047】
図6に示すように、本開示の第3の局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが第1の局面のいずれか一項に記載の方法を実行することができる、電子機器をさらに提供している。
【0048】
本開示の第4の局面によれば、コンピュータに本開示の第1の局面のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体をさらに提供している。
【0049】
本開示の第5の局面によれば、プロセッサにより実行される場合に、本開示の第1の局面のいずれか一項に記載の方法を実現するコンピュータプログラムをさらに提供している。
【0050】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
【0051】
図6は、本開示の実施例を実施することが可能な例示的電子機器600の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0052】
図6に示すように、機器600は、計算手段601を含み、計算手段601は、リードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶手段608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM603には、さらに機器600の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段601、ROM602、及びRAM603は、バス604を介して相互に接続される。入出力(I/O)インターフェース605も、バス604に接続される。
【0053】
機器600における複数の部品は、I/Oインターフェース605に接続され、例えばキーボード、マウス等の入力手段606と、例えば様々な種類のディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段609とを含む。通信手段609は、機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0054】
計算手段601は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段601の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段601は、前文で説明した各方法及び処理、例えば音声変換方法を実行する。例えば、幾つかの実施例において、音声変換方法は、例えば記憶手段608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信手段609を介して機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算手段601により実行される場合、前文で説明した音声変換方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段601は、他の任意の適切な方式(例えば、ファームウェアを介する)により音声変換方法を実行するように構成されてもよい。
【0055】
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0056】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0057】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0058】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0059】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0060】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0061】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案が所望する結果を実現することができれば、本明細書はここで限定されない。
【0062】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
【符号の説明】
【0063】
5 音声変換システム
501 第1の取得モジュール
502 第2の取得モジュール
503 第1の抽出モジュール
504 第2の抽出モジュール
5031 声紋特徴抽出モジュール
5032 声紋特徴処理モジュール
5041 テキストライク特徴抽出モジュール
5042 テキストコードモジュール
5043 基本周波数予測モジュール
505 処理モジュール
506 変換モジュール
5051 統合モジュール
5052 デコーダーモジュール
600 電子機器
601 計算手段
602 リードオンリーメモリ
603 ランダムアクセスメモリ
604 バス
605 I/Oインターフェース
606 入力手段
607 出力手段
608 記憶手段
609 通信手段