【文献】
Chunhui Lu et al.,Self-attention Based Prosodic Boundary Prediction for Chinese Speech Synthesis,2019 IEEE International Conference on Acoustics, Speech and Signal Processing,2019年05月,p.7035-7039
【文献】
Rui Liu et al.,Phonologically Aware BiLSTM Model for Mongolian Phrase Break Prediction with Attention Mechanism,15th Pacific Rim International Conference on Artificial Intelligence,2018年08月,Part.I,p.217-231
(58)【調査した分野】(Int.Cl.,DB名)
予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得るためのマッピングモジュールと、
前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュールと、
前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストの各文字のリズム一時停止予測結果を出力するための出力モジュールと、
を備えるリズム一時停止予測装置。
N(1より大きい整数)個の第1所定訓練テキスト列およびM(1より大きい整数)個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュールを備え、
前記第1所定訓練テキスト列が、第1所定訓練テキストおよび第1訓練発声者のIDを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストの各文字のリズム一時停止予測結果を含む請求項6に記載の装置。
前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュールによって実行されることの前に、前記予測対象テキスト列の各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュールと、
前記第1行列と前記位置行列を加算して前記第1行列を更新するための更新モジュールとを備える請求項6に記載の装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、リズム一時停止予測方法、装置および電子機器を提供し、リズム一時停止予測結果の正確性が高くないという問題を解決しようとする。
【課題を解決するための手段】
【0005】
第1態様では、本願の1つの実施例は、リズム一時停止予測方法を提供する。
当該方法において、予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得ることと、前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することと、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することと、を含む。
【0006】
上記の本願の1つの実施例は、リズム一時停止予測の正確性を向上させるという利点または効果を有する。予測プロセスにおいて、予測対象入力テキストのほかに、予測が必要な予測対象発声者のIDが追加され、予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層によってマッピングして第1行列が得られ、すなわち得られる第1行列では予測対象発声者のIDが考慮されているため、第1行列を利用し訓練済みの注意モデルによってセマンティック行列を決定するプロセスにおいて予測対象発声者が考慮されている。発声者のIDと関連して、統一した訓練済みの注意モデルにより、異なる発声者に対するテキストのセマンティック行列の決定に対処することができ、発声者の制約を回避し、その一般化能力を高め、異なる発声者のテキストセマンティック解析に適用可能であり、セマンティック行列の正確性を高め、すなわち、テキストセマンティック情報の正確性を高め、さらに、リズム一時停止予測の正確性を高めることができることが理解されるであろう。このため、リズム一時停止予測の正確性が高くないという技術的課題を克服し、さらにリズム一時停止予測の正確性の向上を図ることができる。すなわち、本実施例では、統一した訓練済みのモデルを用いて、異なる発声者に対するテキストのリズム一時停止予測に対処することができ、一般化能力が向上し、かつセマンティック解析能力が向上し、予測の正確性が向上する。
【0007】
選択可能に、N(1より大きい整数)個の第1所定訓練テキスト列およびM(1より大きい整数)個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得、ここで、前記第1所定訓練テキスト列が、第1所定訓練テキストおよび第1訓練発声者のIDを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0008】
得られる訓練済みの予測モデルが異なる発声者に適用可能であり、訓練済みの予測モデルの正確性を高めることができる。
【0009】
選択可能に、前記のN個の第1所定訓練テキスト列およびM個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることが、前記M個の第2所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得ることであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含むことと、前記N個の第1所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得ることであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含ことと、を含む。
【0010】
第2所定訓練テキストと、第1訓練発声者のIDを有する第1所定訓練テキスト列によって訓練を行って訓練済みの予測モデルを得ることによって、予測モデルの性能を高め、リズム一時停止予測結果を予測して得るプロセスで予測の正確性を向上させる。
【0011】
前記の前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することが、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することを含み、前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0012】
セマンティック行列に基づいて、緻密層と出力層によってリズム一時停止予測結果を出力することによって、リズム一時停止予測結果の正確性を向上させる。
【0013】
選択可能に、前記の前記第1行列を訓練済みの注意モデルに入力する前に、
前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定することと、
前記第1行列と前記位置行列を加算して前記第1行列を更新することとをさらに含む。
【0014】
すなわち予測対象入力テキストのほかに予測対象発声者のIDが追加されるのみならず、予測対象テキスト列の位置情報も追加され、すなわち、発声者とともに位置も考慮されているため、予測プロセスで予測の正確性を高めることができる。
【0015】
第2態様では、本願の1つの実施例は、リズム一時停止予測装置を提供する。
前記装置は、予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得るためのマッピングモジュールと、前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュールと、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力するための出力モジュールと、を備える。
【0016】
選択可能に、前記装置は、N(1より大きい整数)個の第1所定訓練テキスト列およびM(1より大きい整数)個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュールを備え、前記第1所定訓練テキスト列が、第1所定訓練テキストおよび第1訓練発声者のIDを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0017】
選択可能に、前記訓練モジュールが、前記M個の第2所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得るための第1訓練サブモジュールであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含む第1訓練サブモジュールと、前記N個の第1所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得るための第2訓練サブモジュールであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含む第2訓練サブモジュールと、を備える。
【0018】
選択可能に、前記出力モジュールが、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することに用いられ、前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0019】
選択可能に、前記装置は、前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュールによって実行される前には、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュールと、前記第1行列と前記位置行列を加算して前記第1行列を更新するための更新モジュールとを備える。
【0020】
第3態様では、本願の1つの実施例は、電子機器をさらに提供する。
当該電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続するメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されることによって、本願の各実施例による方法を前記少なくとも1つのプロセッサに実行させることを可能にする。
【0021】
第4態様では、本願の1つの実施例は、コンピュータ指令が格納されている非一時的コンピュータ読み取り可能な記憶媒体をさらに提供する。
前記コンピュータ指令は、本願の各実施例による方法を前記コンピュータに実行させることに用いられる。
【発明を実施するための形態】
【0023】
以下、理解に役立つための本願の実施例の様々な細部を含めて本願の例示的な実施例は、図面に基づいて説明されるが、例示的なものに過ぎないとされるべきである。したがって、当業者は、本願の範囲および趣旨から逸脱することなく、ここに記載された実施例に様々な変更および修正を加えることができることを認識するであろう。また、説明の明確化および簡略化のため、以下の記載では、周知の機能および構成についての記載は、省略する。
【0024】
図1に示すように、本願の実施例に基づき、本願は、以下のステップを含むリズム一時停止予測方法を提供する。
【0025】
ステップS101において、予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得る。
【0026】
ここで、予測対象テキスト列は、予測対象入力テキストおよび予測対象発声者のIDを含む。埋め込み層であるembedding層は、次元を縮退するために使用され、すなわち、1つのマッピングテーブルによってオブジェクトを1つの低次元の出力にマッピングする。埋め込み層がマッピングするプロセスは、符号化プロセスとして理解され、オブジェクトを1つの低次元ベクトルとして符号化することができ、その意味を保持することができる。本実施例では、第1行列は、予測対象入力テキストと予測対象発声者のIDを含む予測対象テキスト列を埋め込み層によって符号化して得られる。第1行列は、予測対象入力テキストのテキスト符号化行列と、予測対象発声者のIDの符号化ベクトルとを含む。ここで、テキスト符号化行列は、予測対象入力テキストが埋め込み層によってマッピングされて得られる行列であり、予測対象発声者のIDの符号化ベクトルは、予測対象発声者のIDが埋め込み層によってマッピングされて得られるベクトルである。一例では、予測対象入力テキストは、T(0より大きい整数)個の文字を含む。各文字は、埋め込み層によってマッピングされて、対応する符号化ベクトルを得、それにより、予測対象入力テキストのT個の文字の符号化ベクトルの組み合わせが、上記のテキスト符号化行列を形成する。一例では、予測対象テキスト列で予測対象発声者のIDは、2つでありかつ同じであり、予測対象入力テキストは、2つの予測対象発声者のIDの間に位置する。その場合、第1行列における予測対象発声者のIDの符号化ベクトルの数は2つに対応し、かつ符号化ベクトルは、同じである。すなわち、第1行列には、予測対象発声者の2つの同じ符号化ベクトルを含み、かつ第1行列には、テキスト符号化行列が予測対象発声者の2つの符号化ベクトルの間に位置し、すなわち、予測対象発声者の2つの符号化ベクトルがそれぞれ第1行列における先頭と末尾に位置する。
【0027】
一例において、上記の予測対象入力テキストは、ユーザによって入力されるテキストであり、すなわち、ユーザによって入力されてリズム一時停止の予測を必要とするテキストであり、上記の予測対象発声者のIDは、ユーザによって入力される発声者の身分識別であり、ユーザによって入力されてテキストのリズム一時停止の予測を必要とする発声者であり、すなわち、当該発声者について予測対象入力テキストのリズム一時停止を予測する。すなわち、上記の予測対象テキスト列は、ユーザによって入力されるテキスト列であり、すなわち、ユーザによって入力されてリズム一時停止の予測を必要とする予測対象入力テキストおよびそれに対応する予測対象発声者の身分識別である。入力されたテキスト列を受信すると、入力された発声者のIDについて、入力されたテキスト列における予測対象入力テキストのリズム一時停止を予測することができ、まず、予測対象テキスト列を埋め込み層に基づいてマッピングして第1行列を得る。
【0028】
ステップS102において、第1行列を訓練済みの注意モデルに入力し、訓練済みの注意モデルに基づいてセマンティック行列を決定する。
【0029】
訓練済みの注意モデルによってテキストのセマンティック情報を解析することができ、すなわち、訓練済みの注意モデルによってセマンティック解析を行うことによって、セマンティック行列を決定することができ、セマンティック行列は、テキストセマンティック情報として理解することができる。一例では、注意モデルは、テキストセマンティック解析を行ってセマンティック行列、すなわち、テキストセマンティック情報を得るTransformerモデルである。Transformerモデルは、強力なセマンティックモデリング能力を有し、テキスト列を双方向にモデリングすることができ、すなわち、第1行列のコンテキスト情報を参照して、予測対象テキスト列のセマンティック特徴を正確に表すことができるセマンティック行列を取得することができる双方向符号化を可能にする。また、Transformerモデルは、テキスト列の長さや位置に限定されない。
【0030】
S103において、セマンティック行列に基づいてリズム一時停止予測を行い、予測対象入力テキストで各文字のリズム一時停止予測結果を出力する。
【0031】
予測対象テキスト列のセマンティック行列を得ると、セマンティック行列に基づいてリズム一時停止予測を行うことによって、予測対象入力テキストで各文字のリズム一時停止予測結果を得てテキストのリズム一時停止予測を実現することができる。一実施例では、前記セマンティック行列に基づいて、訓練済みの出力モデルによって前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することができる。すなわち出力モデルを予め訓練し、訓練済みの出力モデルの入力は、訓練済みの自己注意モデルの出力を含む。訓練済みの自己注意モデルによってセマンティック行列を決定すると、訓練済みの出力モデルに出力し、訓練済みの出力モデルによって予測対象入力テキストで各文字のリズム一時停止予測結果を出力することができる。上述した第1行列の決定プロセスにおいて予測対象発声が考慮され、セマンティック行列が予測対象テキスト列における予測対象発声者に対するテキストセマンティック情報であるため、出力されるリズム一時停止予測結果は、当該予測結果発声者に対応する。すなわち、リズム一時停止予測結果は、予測対象テキスト列における予測対象発声者に対するリズム一時停止予測結果である。
【0032】
上記の本願の一実施例のリズム一時停止予測プロセスにおいて、予測対象入力テキストのほかに、予測が必要な予測対象発声者のIDが追加され、予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層によってマッピングして第1行列が得られ、すなわち得られる第1行列では予測対象発声者のIDが考慮されているため、第1行列を利用し訓練済みの注意モデルによってセマンティック行列を決定し、セマンティック行列に基づいて予測してリズム一時停止予測結果を得るプロセスにおいて予測対象発声者が考慮されている。発声者のIDと関連して、統一した訓練済みの注意モデルにより、異なる発声者に対するテキストのセマンティック行列の決定に対処することができ、発声者の制約を回避し、その一般化能力を高め、異なる発声者のテキストセマンティック解析に適用可能であり、セマンティック行列の正確性を高め、すなわち、テキストセマンティック情報の正確性を高め、さらに、リズム一時停止予測の正確性を高めることができることが理解されるであろう。
【0033】
1つの実施例において、前記の予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得る前に、N(1より大きい整数)個の第1所定訓練テキスト列およびM(1より大きい整数)個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることをさらに含む。
ここで、前記第1所定訓練テキスト列は、第1所定訓練テキストおよび第1訓練発声者のIDを含み、前記訓練済みの予測モデルは、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力は、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力は、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力は、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0034】
すなわち、本実施例における予測モデルの訓練、すなわち、埋め込み層、注意モデルおよび出力モデルの訓練が行われ、予測モデルの訓練が完了して訓練済みの予測モデルが得られると、埋め込み層、注意モデルおよび出力モデルの訓練が完了し、訓練済みの埋め込み層、訓練済みの注意モデルおよび訓練済みの出力モデルが得られることを意味する。N個の第1所定訓練テキストおよびM個の第1所定訓練テキストの第1訓練発声者のIDを含む第1所定訓練テキスト列は、訓練プロセスで使用され、NおよびMの値は、適用されるシナリオまたは実際の要求に応じて選択されてもよく、これに限定されない。第1所定訓練テキストの各々は、複数の文字を含み、第1所定訓練テキストの各々は、対応する第1訓練発声者の身分識別を有し、すなわち第1所定訓練テキスト列は、第1所定訓練テキストとそれに対応する第1訓練発声者の身分識別とを含む。すなわちN個の第1所定訓練テキスト列において、第1所定訓練テキストと第1訓練発声者の身分識別とは一対一に対応する。本実施例において、N個の第1所定訓練テキスト列を用いると、N個の第1所定訓練テキストがある。訓練に複数の第1所定訓練テキストを用い、第1訓練発声者の身分識別が複数対応付けられると、複数の発声者の第1所定訓練のテキスト列を用いて注意モデルの訓練を行う。すなわち多くのラベル付けされたデータ(すなわち、訓練発声者の身分識別を有するN個の第1所定訓練テキスト列)を用いて訓練を行うことにより、得られた訓練済みの予測モデルを異なる発声者に適用可能にすることができ、異なる発声者のテキストに対する訓練済みの予測モデルのリズム一時停止予測の正確性を向上させることができる。すなわち、訓練済みの予測モデルによる予測の正確性を向上させることができることが理解される。また、発声者毎に1つの予測モデルで予測を行うものではなく(すなわち、複数の発声者に対する複数の予測モデルであり、実際の応用において、複数の予測モデルを同時にロードして異なる発声者のリズム一時停止予測に対処する必要があり、多くの計算リソースを使用し、リソースの無駄が多く、メンテナンスが容易でない)、統一した訓練済みの予測モデルを用いることで、複数発声者のリズム一時停止予測を行うことができ、計算リソースの削減とメンテナンスの容易化を図ることができる。
【0035】
例えば、Nは10であり、第1所定訓練テキストのそれぞれに対応する第1訓練発声者のIDは、異なってもよく、例えば、10個の第1所定訓練テキストに対応する訓練発声者のIDは、それぞれA1、A2、A3、A4、A5、A6、A7、A8、A9、A10である。IDは、すべて同一ではないので、前記10個の訓練発声者のIDに対応する発声者の第1所定訓練テキスト列を訓練することができる。
【0036】
また、本実施例の訓練プロセスでは、第1所定訓練テキスト列と第1訓練発声者のIDとを含む第1所定訓練テキスト列を用いて訓練を行うだけでなく、ラベル付(すなわち、発声者のID付)データを用いて訓練を行うことが理解される。さらに、発声者のIDがない第2所定訓練テキストを用いて訓練が行われ、すなわち、プレーンテキストを用いた教師なし訓練である。このように、第2所定訓練テキストと第1所定訓練テキスト列を用いて複数回の訓練を行い、訓練済みの予測モデルを得ることにより、予測モデルの性能を向上させ、リズム一時停止予測結果を予測して得る過程で予測の正確性を向上させることができる。
【0037】
1つの実施例において、N個の第1所定訓練テキスト列およびM個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることは、前記M個の第2所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と、入力が前記初期埋め込み層の出力を含む初期注意モデルとを含む初期言語モデルを得ることと、前記N個の第1所定訓練テキスト列に基づいて、入力が前記初期言語モデルの出力を含む訓練対象出力モデルと、前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得ることと、を含む。
【0038】
すなわち、まず、M個の第2所定訓練テキストを用いて教師なし訓練を行うことにより、テキストのセマンティック解析を可能にする初期言語モデルを得て、前記M個の第2所定訓練テキストに基づいて、訓練対象埋め込み層と訓練対象注意モデルとを含む訓練対象言語モデルを訓練して、初期言語モデルを得て、訓練対象埋め込み層の入力は、M個の第2所定訓練テキストを含み、前記訓練対象注意モデルの入力は、前記訓練対象埋め込み層の出力を含むことが理解されよう。
【0039】
次に、N個の第1所定訓練テキスト列を用いて訓練対象予測モデルを訓練し、すなわち訓練対象出力モデルの訓練および初期言語モデルの調整によって、予測モデルの性能を高める。具体的には、初期言語モデルの入力は、N個の第1所定訓練テキスト列を含み、N個の第1所定訓練テキスト列を初期言語モデルに入力して、訓練対象予測モデルの訓練を開始する。このように、第2所定訓練テキスト列と第1所定訓練テキスト列によって複数回の訓練をして訓練済みの予測モデルを得、予測モデルの性能を高め、リズム一時停止予測結果を予測して得るプロセスで予測の正確性を高める。
【0040】
1つの実施例において、前記の前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することは、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することを含む。
ここで、前記訓練済みの出力モデルは、緻密層と出力層を含み、前記緻密層の入力は、前記セマンティック行列を含み、前記出力層の入力は、前記緻密層の出力を含み、前記出力層の出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0041】
緻密層の各ノードは、上位層(本実施例では訓練済みの注意モデル)の全てのノードに接続され、上位層で抽出された特徴を統合して出力する。本実施例において、緻密層の入力は、訓練済みの注意モデルの出力、すなわち、セマンティクス行列を含む。緻密層は、セマンティクス行列に基づいて処理された後、出力層に出力される。出力層は、緻密層の出力に基づいて処理し、リズム一時停止予測結果、すなわち、予測対象テキスト列における予測対象入力テキストで各文字のリズム一時停止予測結果を出力する。すなわち、セマンティック行列を緻密層と出力層で処理して、予測対象入力テキストのリズム一時停止予測結果を出力するが、予測対象入力テキストには複数の文字が含まれている可能性があるため、緻密層と出力層で文字毎のリズム一時停止予測結果を得ることができる。セマンティック行列に基づいて、緻密層と出力層によってリズム一時停止予測結果を出力して、リズム一時停止予測結果の正確性を向上させる。
【0042】
一実施例において、緻密層の数は複数であってもよく、各緻密層は予め訓練して得られる。先頭の緻密層の入力は、訓練済みの注意モデルの出力を含み、すなわち、先頭の緻密層は、訓練済みの注意モデルの出力を受信することに用いられる。出力層の入力は、末尾の緻密層の出力を含む。緻密層の数が2を超えると、残りの緻密層は、先頭の緻密層と末尾の緻密層の間に位置する。セマンティック行列は、複数の緻密層および出力層によって処理されて最終的にリズム一時停止予測結果が出力される。一例では、緻密層における励起関数は、ReLU活性化関数を採用する。
【0043】
1つの実施例において、第1行列を訓練済みの注意モデルに入力する前に、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定することと、第1行列と位置行列を加算して第1行列を更新することと、をさらに含む。
【0044】
訓練済みの埋め込み層を用いて第1行列を得ると、訓練済みの注意モデルによって第1行列のセマンティック解析を行い、予測対象テキスト列のテキストセマンティック情報を示すことのできるセマンティック行列を得る。予測対象テキスト列をマッピングして第1行列を得るプロセスにおいて、予測対象発声者のIDは、テキストとして見なされ、予測対象テキスト列での文字は、予測対象入力テキストでの文字と予測対象発声者のIDを含み、予測対象発声者と予測対象入力テキストの両方をマッピングして第1行列を得る。本実施例において、訓練済みの埋め込み層によって得られる第1行列では、予測対象テキスト列の位置行列を考慮し、すなわち予測対象テキスト列における各文字の、予測対象テキスト列における位置を考慮する。予測対象テキスト列における文字には対応位置を有し、予測対象テキスト列における文字の位置を区別するために、本実施例において、第1行列とは同じ次元の位置行列をさらに追加し、それから第1行列と位置行列を加算して第1行列の更新を実現する。のちに訓練済みの注意モデルに基づいてセマンティック解析を行うプロセスは、更新後の第1行列に基づいて行われる。
【0045】
本実施例では、予測対象入力テキストのほかに、予測対象発声者のIDを考慮するのみならず、予測対象テキスト列の位置情報も考慮し、すなわち、発声者のほかに予測対象テキスト列の位置も考慮したため、予測プロセスで予測の正確性を高めることができる。
【0046】
以下、上記リズム一時停止予測方法のプロセスを具体的な実施例で説明し、例えば、注意モデルがTransformerモデルである場合を例に説明する。上記リズム一時停止予測方法は、音声合成システムに適用でき、特に、音声合成が可能な電子機器、例えば、コンピュータ、移動端末、サーバ、ウェアラブルデバイス、自動車などの電子機器に適用できる。予測対象入力テキストで各文字のリズム一時停止予測結果を出力した後に、予測対象入力テキストおよび予測対象入力テキストで各文字のリズム一時停止予測結果に基づいて音声合成を行って、予測対象発声者にマッチする音声を得る。すなわち、得られる音声が予測対象発声者の身分識別に対応する。すなわち、出力された音声が予測対象発声者にマッチすると理解できる。
【0047】
図2に示すように、まず、予測対象入力テキストと予測対象発声者のID(SPK)を含む予測対象テキスト列を、訓練済みの埋め込み層(embedding層)を用いてマッピングして第1行列を得る。予測対象テキスト列で予測対象発声者のIDの数は、
図2に示されるSPKのように、2つでありかつ同じである。予測対象入力テキストは、当該予測対象発声者の2つのIDの間に位置する。それから、第1行列を訓練済みの注意モデル(Transformerモデル)に入力してセマンティック解析を行い、セマンティック行列を得る。さらに、セマンティック行列を訓練済みの出力モデルの緻密層(dense layer)入力する。
図2に示すように、緻密層の数が2であり、すなわち2層の緻密層を有する。緻密層は、セマンティック行列の出力に基づいて出力層(Output layer)に出力され、出力層によってリズム一時停止予測結果が出力される。ここで、まず第2所定訓練テキスト列を通じて教師なし訓練を行って初期埋め込み層および初期注意モデルを取得した後、第1所定訓練テキスト列を通じて訓練対象出力モデル、初期埋め込み層および初期注意モデルを訓練することにより、初期埋め込み層および初期注意モデルの調整を実現することができ、得られる予測モデルの正確性を高めることができる。
【0048】
ここで、訓練済みの注意モデルの入力は、訓練済みの埋め込み層の出力(即ち、第1行列)を含み、緻密層の入力は、訓練済みの注意モデルの出力を含む。ここで、注意モデルは、P(0より大きい整数)個のサブ注意モデルを含んでもよく、Pの値は、適用されるシナリオまたは実際のニーズに応じて選択されてもよく、これに限定されない。各サブ注意モデルは、自己注意層(self−attention layer)と、入力が同じサブ注意モデルに属する自己注意層の出力を含むフィードフォワードネットワークFFN(feed−forward network)とを含み、注意モデルにおける第1サブ注意モデルの入力は、埋め込み層の出力を含む。第1サブ注意モデルにおける自己注意層の入力は、埋め込み層の出力を含み、緻密層の入力は、第Pサブ注意モデルの出力を含み、第Pサブ注意モデルの出力は、注意モデルの出力であることが理解される。緻密層は、注意モデルの出力を処理して出力層に出力し、出力層によって、予測対象テキスト列における各文字のリズム一時停止予測結果が出力される。リズム一時停止レベルは、
図2の#0(リズム一時停止なし)、#1(リズム用語)、#2(リズムフレーズ)、#3(イントネーションリズム)のように、それぞれ異なるレベルを表す4つのレベルを含んでもよい。なお、予測対象入力テキストで1文字のリズム一時停止予測結果は、上記の4つのレベルのいずれか1つである。
【0049】
さらに、訓練済みの注意モデルは、第1行列を解析してセマンティック行列を決定する前に、第1行列のほかに予測対象テキスト列の位置行列を追加することができ、それにより、系列の位置を区別して予測の正確性を高めることができる。
【0050】
上記実施例に係るリズム一時停止予測方法によれば、訓練済みの埋め込み層、注意モデル、出力モデルを含む予測モデルにより、予測対象テキスト列のリズム一時停止を予測し、予測プロセスにおいて発声者のIDが十分に考慮され、予測対象テキスト列の位置情報も考慮されるため、リズム一時停止予測の正確性を高める。
【0051】
図3を参照する。本願は、1つの実施例としてリズム一時停止予測装置300を提供する。装置は、予測対象入力テキストおよび予測対象発声者のIDを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第1行列を得るためのマッピングモジュール301と、前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュール302と、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力するための出力モジュール303と、を備える。
【0052】
図4を参照する。1つの実施例において、前記装置は、N(1より大きい整数)個の第1所定訓練テキスト列およびM(1より大きい整数)個の第2所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュール304をさらに備える。ここで、前記第1所定訓練テキスト列は、第1所定訓練テキストおよび第1訓練発声者のIDを含み、前記訓練済みの予測モデルは、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力は、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力は、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力は、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0053】
図5を参照する。1つの実施例において、前記訓練モジュール304は、前記M個の第2所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と、入力が前記初期埋め込み層の出力を含む初期注意モデルとを含む初期言語モデルを得るための第1訓練サブモジュール3041と、前記N個の第1所定訓練テキスト列に基づいて、入力が前記初期言語モデルの出力を含む訓練対象出力モデルと、前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得るための第2訓練サブモジュール3042と、を備える。
【0054】
1つの実施例において、前記出力モジュール303は、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することに用いられる。
ここで、前記訓練済みの出力モデルは、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力は、前記セマンティック行列を含み、前記訓練済みの出力層の入力は、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。
【0055】
図6を参照する。1つの実施例において、装置は、前記第1行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュール302によって実行される前に、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュール305と、前記第1行列と前記位置行列を加算して前記第1行列を更新するための更新モジュール306と、をさらに備える。
【0056】
上記各実施例に係るリズム一時停止予測装置は、上記各実施例に係るリズム一時停止予測方法を実現する装置であり、技術的特徴が対応し、技術的効果が対応するため、ここでは説明を省略する。
【0057】
本願の実施例に基づき、本願は、電子機器および読み取り可能な記憶媒体をさらに提供する。
【0058】
図7は、本願の実施例に係るリズム一時停止予測方法に基づく電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、また、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続および関係、並びにそれらの機能は、単なる例であり、本明細書に記載および/または特許請求される本願の実施を限定することを意図しない。
【0059】
図7に示すように、当該電子機器は、1つまたは複数のプロセッサ701と、メモリ702と、各構成要素を接続するための、高速インターフェースと低速インターフェースとを含むインターフェースとを備える。各構成要素は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じてほかの形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置上にGUIのグラフィカル情報を表示するために、メモリ内またはメモリ上に記憶された指令を含む、電子機器内で実行される指令を処理できる。他の実施形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数の装置とともに使用されてもよい。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい(例えば、サーバアレイ、ブレードサーバ群、マルチプロセッサシステムとする)。
図7では、1つのプロセッサ701を例に挙げている。
【0060】
メモリ702は、本願において提供される非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、本願において提供されるリズム一時停止予測方法を前記少なくとも1つのプロセッサに実行させる。本願の非一時的コンピュータ読み取り可能な記憶媒体には、本願において提供されるリズム一時停止予測方法をコンピュータに実行させるためのコンピュータ指令が格納されている。
【0061】
メモリ702は、非一時的コンピュータ読み取り可能な記憶媒体として機能し、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、および、本願の実施例におけるリズム一時停止予測方法に対応するプログラム指令/モジュール(例えば、
図3に示されるマッピングモジュール301、セマンティクス決定モジュール302、出力モジュール303)などのモジュールを記憶するために使用される。プロセッサ701は、メモリ702に格納された非一時的ソフトウェアプログラム、指令、モジュールを実行することにより、サーバの各種の機能アプリケーションやデータ処理を実行し、すなわち、上述した方法実施例におけるリズム一時停止予測方法を実現する。
【0062】
メモリ702は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、キーボード表示による電子機器の使用に応じて作成されたデータ等を記憶することができるデータ記憶領域とを含むことができる。さらに、メモリ702は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの、非一時的メモリを含んでもよい。いくつかの実施形態において、メモリ702は、任意選択で、プロセッサ701に対してリモートに配置されたメモリを含んでもよい。これらのリモートメモリは、キーボードによって表示される電子機器にネットワークを介して接続されてもよい。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、およびこれらの組み合わせが挙げられるが、これらに限定されない。
【0063】
リズム一時停止予測方法の電子機器は、入力装置703と出力装置704とをさらに備えてもよい。プロセッサ701、メモリ702、入力装置703、出力装置704は、バスまたはその他の方式で接続されてもよいが、
図7ではバスで接続されている例を示している。
【0064】
入力装置703は、数字または文字情報の入力を受信し、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置のような、キーボード表示された電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置704は、ディスプレイ装置、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。
【0065】
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現される。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムで実施することを含む。当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈可能である。当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置にデータおよび指令を伝送することができる。
【0066】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械指令を含み、これらのコンピュータプログラムは、プロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実施される。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号としての機械指令を受信する機械読み取り可能な媒体を含む、プログラマブルプロセッサに機械指令および/またはデータを提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械読み取り可能な信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0067】
ユーザとのやり取りを提供するために、ここに記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとのやり取りを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。任意の形態(音入力、音声入力、または触覚入力)でユーザからの入力を受信してもよい。
【0068】
ここに記載のシステムおよび技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、またはミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含むコンピューティングシステム(例えば、ユーザがここに記載のシステムおよび技術の実施形態とやり取りするグラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)、またはそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット等が挙げられる。
【0069】
コンピュータシステムは、クライアントおよびサーバを含む。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介してやりとりする。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。
【0070】
本願の実施例の技術的手段によれば、電子機器の幅が第1所定幅より大きい場合、第1サブキーボードと第2サブキーボードを生成し、前記第1サブキーボードおよび前記第2サブキーボードを離間して表示することができる。すなわち、第1サブキーボードおよび前記第2サブキーボードの間に間隔がある。すると、ユーザは、間隔の中でキー操作を行う必要がなく、ユーザが操作中にキーボードの中のキーに触れやすくなり、ユーザのキーボードに対する操作経路が短縮され、入力効率が向上する。
【0071】
上記に示された様々な形態のフローが、ステップの順序変更、追加、または削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよいが、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書に限定されない。
【0072】
上記の具体的な実施形態は、本願の保護範囲を制限するようには構成されない。当業者であれば、設計の要件やほかの要素に応じて、様々な修正、組み合わせ、サブ組み合わせ、置換を行うことが明らかである。本願の思想および原理に含まれるあらゆる変更、均等置換および改良等は、本願の範囲に含まれるものとする。