特許6986592 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 百度在綫網絡技術（北京）有限公司の特許一覧

特許6986592リズム一時停止予測方法、装置および電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6986592

(24)【登録日】2021年12月1日

(45)【発行日】2021年12月22日

(54)【発明の名称】リズム一時停止予測方法、装置および電子機器

(51)【国際特許分類】

G10L 13/10 20130101AFI20211213BHJP

G10L 25/30 20130101ALI20211213BHJP

【ＦＩ】

G10L13/10 111D

G10L13/10 113Z

G10L25/30

【請求項の数】12

【全頁数】18

(21)【出願番号】特願2020-83945(P2020-83945)

(22)【出願日】2020年5月12日

(65)【公開番号】特開2021-71709(P2021-71709A)

(43)【公開日】2021年5月6日

【審査請求日】2020年5月12日

(31)【優先権主張番号】201911046827.5

(32)【優先日】2019年10月30日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】516069812

【氏名又は名称】百度在綫網絡技術（北京）有限公司

(74)【代理人】

【識別番号】100118913

【弁理士】

【氏名又は名称】上田邦生

(74)【代理人】

【識別番号】100142789

【弁理士】

【氏名又は名称】柳順一郎

(74)【代理人】

【識別番号】100163050

【弁理士】

【氏名又は名称】小栗眞由美

(74)【代理人】

【識別番号】100201466

【弁理士】

【氏名又は名称】竹内邦彦

(72)【発明者】

【氏名】聶志朋

(72)【発明者】

【氏名】卞衍尭

(72)【発明者】

【氏名】高占傑

(72)【発明者】

【氏名】陳昌浜

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１９−０３２５２９（ＪＰ，Ａ）

【文献】特開２０１６−００４２６７（ＪＰ，Ａ）

【文献】特開２００５−３４５８４６（ＪＰ，Ａ）

【文献】特開２００３−０８４７８７（ＪＰ，Ａ）

【文献】 Chunhui Lu et al.，Self-attention Based Prosodic Boundary Prediction for Chinese Speech Synthesis，2019 IEEE International Conference on Acoustics, Speech and Signal Processing，2019年05月，p.7035-7039

【文献】 Rui Liu et al.，Phonologically Aware BiLSTM Model for Mongolian Phrase Break Prediction with Attention Mechanism，15th Pacific Rim International Conference on Artificial Intelligence，2018年08月，Part.I，p.217-231

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−２５／９３

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得ることと、
前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することと、
前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストの各文字のリズム一時停止予測結果を出力することと、
を含むリズム一時停止予測方法。

【請求項2】

前記の予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得る前に、
Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることを含み、
前記第１所定訓練テキスト列が、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストの各文字のリズム一時停止予測結果を含む請求項１に記載の方法。

【請求項3】

前記のＮ個の第１所定訓練テキスト列およびＭ個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることが、
前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得ることであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含むことと、
前記Ｎ個の第１所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得ることであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含むことと、
を含む請求項２に記載の方法。

【請求項4】

前記の前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストの各文字のリズム一時停止予測結果を出力することが、
前記セマンティック行列に基づいて、前記予測対象入力テキストの各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することを含み、
前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストの各文字のリズム一時停止予測結果を含む請求項１に記載の方法。

【請求項5】

前記の前記第１行列を訓練済みの注意モデルに入力することの前に、
前記予測対象テキスト列の各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定することと、
前記第１行列と前記位置行列を加算して前記第１行列を更新することとを含む請求項１に記載の方法。

【請求項6】

予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得るためのマッピングモジュールと、
前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュールと、
前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストの各文字のリズム一時停止予測結果を出力するための出力モジュールと、
を備えるリズム一時停止予測装置。

【請求項7】

Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュールを備え、
前記第１所定訓練テキスト列が、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストの各文字のリズム一時停止予測結果を含む請求項６に記載の装置。

【請求項8】

前記訓練モジュールが、
前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得るための第１訓練サブモジュールであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含む第１訓練サブモジュールと、
前記Ｎ個の第１所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得るための第２訓練サブモジュールであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含む第２訓練サブモジュールと、
を備える請求項７に記載の装置。

【請求項9】

前記出力モジュールが、前記セマンティック行列に基づいて、前記予測対象入力テキストの各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することに用いられ、
前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストの各文字のリズム一時停止予測結果を含む請求項６に記載の装置。

【請求項10】

前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュールによって実行されることの前に、前記予測対象テキスト列の各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュールと、
前記第１行列と前記位置行列を加算して前記第１行列を更新するための更新モジュールとを備える請求項６に記載の装置。

【請求項11】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続するメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも１つのプロセッサによって実行されることによって、請求項１から５のいずれか一項に記載の方法を前記少なくとも１つのプロセッサに実行させることを可能にする電子機器。

【請求項12】

コンピュータ指令が格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ指令は、請求項１から５のいずれか一項に記載の方法をコンピュータに実行させることに用いられる非一時的コンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、コンピュータ技術の機械学習技術分野に係り、特にリズム一時停止予測方法、装置および電子機器に係る。

【背景技術】

【0002】

音声合成システムにおいて、リズムの一時停止予測は、不可欠の重要な部分である。実際の音声信号では、異なる一時停止レベルは、異なる長さの一時停止に対応する。異なる発声者は、異なるリズム一時停止特性を有する。

【0003】

現在、１つのリズム一時停止予測モデルは、１人の発声者に対するものであり、すなわち、各発声者が１つの予測モデル（すなわち個人予測モデル）に対応し、複数の発声者が複数の予測モデルに対応するため（すなわち複数の発声者には複数の予測モデルを有する）、各発声者の予測モジュールが互いに独立し、発声者の制限を受け、予測モデルの一般化能力が低く、テキストに対し正確なセマンティック解析をして正確なテキストセマンティック情報を取得することが容易に行えず、すなわちリズム一時停止予測の正確性が高くないことをもたらしやすい。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願は、リズム一時停止予測方法、装置および電子機器を提供し、リズム一時停止予測結果の正確性が高くないという問題を解決しようとする。

【課題を解決するための手段】

【0005】

第１態様では、本願の１つの実施例は、リズム一時停止予測方法を提供する。
当該方法において、予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得ることと、前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することと、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することと、を含む。

【0006】

上記の本願の１つの実施例は、リズム一時停止予測の正確性を向上させるという利点または効果を有する。予測プロセスにおいて、予測対象入力テキストのほかに、予測が必要な予測対象発声者のＩＤが追加され、予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層によってマッピングして第１行列が得られ、すなわち得られる第１行列では予測対象発声者のＩＤが考慮されているため、第１行列を利用し訓練済みの注意モデルによってセマンティック行列を決定するプロセスにおいて予測対象発声者が考慮されている。発声者のＩＤと関連して、統一した訓練済みの注意モデルにより、異なる発声者に対するテキストのセマンティック行列の決定に対処することができ、発声者の制約を回避し、その一般化能力を高め、異なる発声者のテキストセマンティック解析に適用可能であり、セマンティック行列の正確性を高め、すなわち、テキストセマンティック情報の正確性を高め、さらに、リズム一時停止予測の正確性を高めることができることが理解されるであろう。このため、リズム一時停止予測の正確性が高くないという技術的課題を克服し、さらにリズム一時停止予測の正確性の向上を図ることができる。すなわち、本実施例では、統一した訓練済みのモデルを用いて、異なる発声者に対するテキストのリズム一時停止予測に対処することができ、一般化能力が向上し、かつセマンティック解析能力が向上し、予測の正確性が向上する。

【0007】

選択可能に、Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得、ここで、前記第１所定訓練テキスト列が、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0008】

得られる訓練済みの予測モデルが異なる発声者に適用可能であり、訓練済みの予測モデルの正確性を高めることができる。

【0009】

選択可能に、前記のＮ個の第１所定訓練テキスト列およびＭ個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることが、前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得ることであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含むことと、前記Ｎ個の第１所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得ることであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含ことと、を含む。

【0010】

第２所定訓練テキストと、第１訓練発声者のＩＤを有する第１所定訓練テキスト列によって訓練を行って訓練済みの予測モデルを得ることによって、予測モデルの性能を高め、リズム一時停止予測結果を予測して得るプロセスで予測の正確性を向上させる。

【0011】

前記の前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することが、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することを含み、前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0012】

セマンティック行列に基づいて、緻密層と出力層によってリズム一時停止予測結果を出力することによって、リズム一時停止予測結果の正確性を向上させる。

【0013】

選択可能に、前記の前記第１行列を訓練済みの注意モデルに入力する前に、
前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定することと、
前記第１行列と前記位置行列を加算して前記第１行列を更新することとをさらに含む。

【0014】

すなわち予測対象入力テキストのほかに予測対象発声者のＩＤが追加されるのみならず、予測対象テキスト列の位置情報も追加され、すなわち、発声者とともに位置も考慮されているため、予測プロセスで予測の正確性を高めることができる。

【0015】

第２態様では、本願の１つの実施例は、リズム一時停止予測装置を提供する。
前記装置は、予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得るためのマッピングモジュールと、前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュールと、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力するための出力モジュールと、を備える。

【0016】

選択可能に、前記装置は、Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュールを備え、前記第１所定訓練テキスト列が、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルが、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力が、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力が、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力が、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0017】

選択可能に、前記訓練モジュールが、前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と初期注意モデルとを含む初期言語モデルを得るための第１訓練サブモジュールであって、前記初期注意モデルの入力が前記初期埋め込み層の出力を含む第１訓練サブモジュールと、前記Ｎ個の第１所定訓練テキスト列に基づいて、訓練対象出力モデルと前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得るための第２訓練サブモジュールであって、前記訓練対象出力モデルの入力が前記初期言語モデルの出力を含む第２訓練サブモジュールと、を備える。

【0018】

選択可能に、前記出力モジュールが、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することに用いられ、前記訓練済みの出力モデルが、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力が、前記セマンティック行列を含み、前記訓練済みの出力層の入力が、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力が、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0019】

選択可能に、前記装置は、前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュールによって実行される前には、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュールと、前記第１行列と前記位置行列を加算して前記第１行列を更新するための更新モジュールとを備える。

【0020】

第３態様では、本願の１つの実施例は、電子機器をさらに提供する。
当該電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続するメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも１つのプロセッサによって実行されることによって、本願の各実施例による方法を前記少なくとも１つのプロセッサに実行させることを可能にする。

【0021】

第４態様では、本願の１つの実施例は、コンピュータ指令が格納されている非一時的コンピュータ読み取り可能な記憶媒体をさらに提供する。
前記コンピュータ指令は、本願の各実施例による方法を前記コンピュータに実行させることに用いられる。

【図面の簡単な説明】

【0022】

図面は、本解決策をより良く理解するために使用され、本発明を限定するものではない。

【図1】本願で提供される一実施例に係るリズム一時停止予測方法のフローチャートである。

【図2】本願で提供される一実施例に係るリズム一時停止予測の概略図である。

【図3】本願で提供される一実施例に係るリズム一時停止予測装置の構造図その１である。

【図4】本願で提供される一実施例に係るリズム一時停止予測装置の構造図その２である。

【図5】本願で提供される一実施例に係るリズム一時停止予測装置の構造図その３である。

【図6】本願で提供される一実施例に係るリズム一時停止予測装置の構造図その４である。

【図7】図７は、本願の実施例に係るリズム一時停止予測方法を実現するための電子装置のブロック図である。

【発明を実施するための形態】

【0023】

以下、理解に役立つための本願の実施例の様々な細部を含めて本願の例示的な実施例は、図面に基づいて説明されるが、例示的なものに過ぎないとされるべきである。したがって、当業者は、本願の範囲および趣旨から逸脱することなく、ここに記載された実施例に様々な変更および修正を加えることができることを認識するであろう。また、説明の明確化および簡略化のため、以下の記載では、周知の機能および構成についての記載は、省略する。

【0024】

図１に示すように、本願の実施例に基づき、本願は、以下のステップを含むリズム一時停止予測方法を提供する。

【0025】

ステップＳ１０１において、予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得る。

【0026】

ここで、予測対象テキスト列は、予測対象入力テキストおよび予測対象発声者のＩＤを含む。埋め込み層であるｅｍｂｅｄｄｉｎｇ層は、次元を縮退するために使用され、すなわち、１つのマッピングテーブルによってオブジェクトを１つの低次元の出力にマッピングする。埋め込み層がマッピングするプロセスは、符号化プロセスとして理解され、オブジェクトを１つの低次元ベクトルとして符号化することができ、その意味を保持することができる。本実施例では、第１行列は、予測対象入力テキストと予測対象発声者のＩＤを含む予測対象テキスト列を埋め込み層によって符号化して得られる。第１行列は、予測対象入力テキストのテキスト符号化行列と、予測対象発声者のＩＤの符号化ベクトルとを含む。ここで、テキスト符号化行列は、予測対象入力テキストが埋め込み層によってマッピングされて得られる行列であり、予測対象発声者のＩＤの符号化ベクトルは、予測対象発声者のＩＤが埋め込み層によってマッピングされて得られるベクトルである。一例では、予測対象入力テキストは、Ｔ（０より大きい整数）個の文字を含む。各文字は、埋め込み層によってマッピングされて、対応する符号化ベクトルを得、それにより、予測対象入力テキストのＴ個の文字の符号化ベクトルの組み合わせが、上記のテキスト符号化行列を形成する。一例では、予測対象テキスト列で予測対象発声者のＩＤは、２つでありかつ同じであり、予測対象入力テキストは、２つの予測対象発声者のＩＤの間に位置する。その場合、第１行列における予測対象発声者のＩＤの符号化ベクトルの数は２つに対応し、かつ符号化ベクトルは、同じである。すなわち、第１行列には、予測対象発声者の２つの同じ符号化ベクトルを含み、かつ第１行列には、テキスト符号化行列が予測対象発声者の２つの符号化ベクトルの間に位置し、すなわち、予測対象発声者の２つの符号化ベクトルがそれぞれ第１行列における先頭と末尾に位置する。

【0027】

一例において、上記の予測対象入力テキストは、ユーザによって入力されるテキストであり、すなわち、ユーザによって入力されてリズム一時停止の予測を必要とするテキストであり、上記の予測対象発声者のＩＤは、ユーザによって入力される発声者の身分識別であり、ユーザによって入力されてテキストのリズム一時停止の予測を必要とする発声者であり、すなわち、当該発声者について予測対象入力テキストのリズム一時停止を予測する。すなわち、上記の予測対象テキスト列は、ユーザによって入力されるテキスト列であり、すなわち、ユーザによって入力されてリズム一時停止の予測を必要とする予測対象入力テキストおよびそれに対応する予測対象発声者の身分識別である。入力されたテキスト列を受信すると、入力された発声者のＩＤについて、入力されたテキスト列における予測対象入力テキストのリズム一時停止を予測することができ、まず、予測対象テキスト列を埋め込み層に基づいてマッピングして第１行列を得る。

【0028】

ステップＳ１０２において、第１行列を訓練済みの注意モデルに入力し、訓練済みの注意モデルに基づいてセマンティック行列を決定する。

【0029】

訓練済みの注意モデルによってテキストのセマンティック情報を解析することができ、すなわち、訓練済みの注意モデルによってセマンティック解析を行うことによって、セマンティック行列を決定することができ、セマンティック行列は、テキストセマンティック情報として理解することができる。一例では、注意モデルは、テキストセマンティック解析を行ってセマンティック行列、すなわち、テキストセマンティック情報を得るＴｒａｎｓｆｏｒｍｅｒモデルである。Ｔｒａｎｓｆｏｒｍｅｒモデルは、強力なセマンティックモデリング能力を有し、テキスト列を双方向にモデリングすることができ、すなわち、第１行列のコンテキスト情報を参照して、予測対象テキスト列のセマンティック特徴を正確に表すことができるセマンティック行列を取得することができる双方向符号化を可能にする。また、Ｔｒａｎｓｆｏｒｍｅｒモデルは、テキスト列の長さや位置に限定されない。

【0030】

Ｓ１０３において、セマンティック行列に基づいてリズム一時停止予測を行い、予測対象入力テキストで各文字のリズム一時停止予測結果を出力する。

【0031】

予測対象テキスト列のセマンティック行列を得ると、セマンティック行列に基づいてリズム一時停止予測を行うことによって、予測対象入力テキストで各文字のリズム一時停止予測結果を得てテキストのリズム一時停止予測を実現することができる。一実施例では、前記セマンティック行列に基づいて、訓練済みの出力モデルによって前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することができる。すなわち出力モデルを予め訓練し、訓練済みの出力モデルの入力は、訓練済みの自己注意モデルの出力を含む。訓練済みの自己注意モデルによってセマンティック行列を決定すると、訓練済みの出力モデルに出力し、訓練済みの出力モデルによって予測対象入力テキストで各文字のリズム一時停止予測結果を出力することができる。上述した第１行列の決定プロセスにおいて予測対象発声が考慮され、セマンティック行列が予測対象テキスト列における予測対象発声者に対するテキストセマンティック情報であるため、出力されるリズム一時停止予測結果は、当該予測結果発声者に対応する。すなわち、リズム一時停止予測結果は、予測対象テキスト列における予測対象発声者に対するリズム一時停止予測結果である。

【0032】

上記の本願の一実施例のリズム一時停止予測プロセスにおいて、予測対象入力テキストのほかに、予測が必要な予測対象発声者のＩＤが追加され、予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層によってマッピングして第１行列が得られ、すなわち得られる第１行列では予測対象発声者のＩＤが考慮されているため、第１行列を利用し訓練済みの注意モデルによってセマンティック行列を決定し、セマンティック行列に基づいて予測してリズム一時停止予測結果を得るプロセスにおいて予測対象発声者が考慮されている。発声者のＩＤと関連して、統一した訓練済みの注意モデルにより、異なる発声者に対するテキストのセマンティック行列の決定に対処することができ、発声者の制約を回避し、その一般化能力を高め、異なる発声者のテキストセマンティック解析に適用可能であり、セマンティック行列の正確性を高め、すなわち、テキストセマンティック情報の正確性を高め、さらに、リズム一時停止予測の正確性を高めることができることが理解されるであろう。

【0033】

１つの実施例において、前記の予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得る前に、Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることをさらに含む。
ここで、前記第１所定訓練テキスト列は、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルは、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力は、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力は、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力は、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0034】

すなわち、本実施例における予測モデルの訓練、すなわち、埋め込み層、注意モデルおよび出力モデルの訓練が行われ、予測モデルの訓練が完了して訓練済みの予測モデルが得られると、埋め込み層、注意モデルおよび出力モデルの訓練が完了し、訓練済みの埋め込み層、訓練済みの注意モデルおよび訓練済みの出力モデルが得られることを意味する。Ｎ個の第１所定訓練テキストおよびＭ個の第１所定訓練テキストの第１訓練発声者のＩＤを含む第１所定訓練テキスト列は、訓練プロセスで使用され、ＮおよびＭの値は、適用されるシナリオまたは実際の要求に応じて選択されてもよく、これに限定されない。第１所定訓練テキストの各々は、複数の文字を含み、第１所定訓練テキストの各々は、対応する第１訓練発声者の身分識別を有し、すなわち第１所定訓練テキスト列は、第１所定訓練テキストとそれに対応する第１訓練発声者の身分識別とを含む。すなわちＮ個の第１所定訓練テキスト列において、第１所定訓練テキストと第１訓練発声者の身分識別とは一対一に対応する。本実施例において、Ｎ個の第１所定訓練テキスト列を用いると、Ｎ個の第１所定訓練テキストがある。訓練に複数の第１所定訓練テキストを用い、第１訓練発声者の身分識別が複数対応付けられると、複数の発声者の第１所定訓練のテキスト列を用いて注意モデルの訓練を行う。すなわち多くのラベル付けされたデータ（すなわち、訓練発声者の身分識別を有するＮ個の第１所定訓練テキスト列）を用いて訓練を行うことにより、得られた訓練済みの予測モデルを異なる発声者に適用可能にすることができ、異なる発声者のテキストに対する訓練済みの予測モデルのリズム一時停止予測の正確性を向上させることができる。すなわち、訓練済みの予測モデルによる予測の正確性を向上させることができることが理解される。また、発声者毎に１つの予測モデルで予測を行うものではなく（すなわち、複数の発声者に対する複数の予測モデルであり、実際の応用において、複数の予測モデルを同時にロードして異なる発声者のリズム一時停止予測に対処する必要があり、多くの計算リソースを使用し、リソースの無駄が多く、メンテナンスが容易でない）、統一した訓練済みの予測モデルを用いることで、複数発声者のリズム一時停止予測を行うことができ、計算リソースの削減とメンテナンスの容易化を図ることができる。

【0035】

例えば、Ｎは１０であり、第１所定訓練テキストのそれぞれに対応する第１訓練発声者のＩＤは、異なってもよく、例えば、１０個の第１所定訓練テキストに対応する訓練発声者のＩＤは、それぞれＡ１、Ａ２、Ａ３、Ａ４、Ａ５、Ａ６、Ａ７、Ａ８、Ａ９、Ａ１０である。ＩＤは、すべて同一ではないので、前記１０個の訓練発声者のＩＤに対応する発声者の第１所定訓練テキスト列を訓練することができる。

【0036】

また、本実施例の訓練プロセスでは、第１所定訓練テキスト列と第１訓練発声者のＩＤとを含む第１所定訓練テキスト列を用いて訓練を行うだけでなく、ラベル付（すなわち、発声者のＩＤ付）データを用いて訓練を行うことが理解される。さらに、発声者のＩＤがない第２所定訓練テキストを用いて訓練が行われ、すなわち、プレーンテキストを用いた教師なし訓練である。このように、第２所定訓練テキストと第１所定訓練テキスト列を用いて複数回の訓練を行い、訓練済みの予測モデルを得ることにより、予測モデルの性能を向上させ、リズム一時停止予測結果を予測して得る過程で予測の正確性を向上させることができる。

【0037】

１つの実施例において、Ｎ個の第１所定訓練テキスト列およびＭ個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得ることは、前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と、入力が前記初期埋め込み層の出力を含む初期注意モデルとを含む初期言語モデルを得ることと、前記Ｎ個の第１所定訓練テキスト列に基づいて、入力が前記初期言語モデルの出力を含む訓練対象出力モデルと、前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得ることと、を含む。

【0038】

すなわち、まず、Ｍ個の第２所定訓練テキストを用いて教師なし訓練を行うことにより、テキストのセマンティック解析を可能にする初期言語モデルを得て、前記Ｍ個の第２所定訓練テキストに基づいて、訓練対象埋め込み層と訓練対象注意モデルとを含む訓練対象言語モデルを訓練して、初期言語モデルを得て、訓練対象埋め込み層の入力は、Ｍ個の第２所定訓練テキストを含み、前記訓練対象注意モデルの入力は、前記訓練対象埋め込み層の出力を含むことが理解されよう。

【0039】

次に、Ｎ個の第１所定訓練テキスト列を用いて訓練対象予測モデルを訓練し、すなわち訓練対象出力モデルの訓練および初期言語モデルの調整によって、予測モデルの性能を高める。具体的には、初期言語モデルの入力は、Ｎ個の第１所定訓練テキスト列を含み、Ｎ個の第１所定訓練テキスト列を初期言語モデルに入力して、訓練対象予測モデルの訓練を開始する。このように、第２所定訓練テキスト列と第１所定訓練テキスト列によって複数回の訓練をして訓練済みの予測モデルを得、予測モデルの性能を高め、リズム一時停止予測結果を予測して得るプロセスで予測の正確性を高める。

【0040】

１つの実施例において、前記の前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力することは、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することを含む。
ここで、前記訓練済みの出力モデルは、緻密層と出力層を含み、前記緻密層の入力は、前記セマンティック行列を含み、前記出力層の入力は、前記緻密層の出力を含み、前記出力層の出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0041】

緻密層の各ノードは、上位層（本実施例では訓練済みの注意モデル）の全てのノードに接続され、上位層で抽出された特徴を統合して出力する。本実施例において、緻密層の入力は、訓練済みの注意モデルの出力、すなわち、セマンティクス行列を含む。緻密層は、セマンティクス行列に基づいて処理された後、出力層に出力される。出力層は、緻密層の出力に基づいて処理し、リズム一時停止予測結果、すなわち、予測対象テキスト列における予測対象入力テキストで各文字のリズム一時停止予測結果を出力する。すなわち、セマンティック行列を緻密層と出力層で処理して、予測対象入力テキストのリズム一時停止予測結果を出力するが、予測対象入力テキストには複数の文字が含まれている可能性があるため、緻密層と出力層で文字毎のリズム一時停止予測結果を得ることができる。セマンティック行列に基づいて、緻密層と出力層によってリズム一時停止予測結果を出力して、リズム一時停止予測結果の正確性を向上させる。

【0042】

一実施例において、緻密層の数は複数であってもよく、各緻密層は予め訓練して得られる。先頭の緻密層の入力は、訓練済みの注意モデルの出力を含み、すなわち、先頭の緻密層は、訓練済みの注意モデルの出力を受信することに用いられる。出力層の入力は、末尾の緻密層の出力を含む。緻密層の数が２を超えると、残りの緻密層は、先頭の緻密層と末尾の緻密層の間に位置する。セマンティック行列は、複数の緻密層および出力層によって処理されて最終的にリズム一時停止予測結果が出力される。一例では、緻密層における励起関数は、ＲｅＬＵ活性化関数を採用する。

【0043】

１つの実施例において、第１行列を訓練済みの注意モデルに入力する前に、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定することと、第１行列と位置行列を加算して第１行列を更新することと、をさらに含む。

【0044】

訓練済みの埋め込み層を用いて第１行列を得ると、訓練済みの注意モデルによって第１行列のセマンティック解析を行い、予測対象テキスト列のテキストセマンティック情報を示すことのできるセマンティック行列を得る。予測対象テキスト列をマッピングして第１行列を得るプロセスにおいて、予測対象発声者のＩＤは、テキストとして見なされ、予測対象テキスト列での文字は、予測対象入力テキストでの文字と予測対象発声者のＩＤを含み、予測対象発声者と予測対象入力テキストの両方をマッピングして第１行列を得る。本実施例において、訓練済みの埋め込み層によって得られる第１行列では、予測対象テキスト列の位置行列を考慮し、すなわち予測対象テキスト列における各文字の、予測対象テキスト列における位置を考慮する。予測対象テキスト列における文字には対応位置を有し、予測対象テキスト列における文字の位置を区別するために、本実施例において、第１行列とは同じ次元の位置行列をさらに追加し、それから第１行列と位置行列を加算して第１行列の更新を実現する。のちに訓練済みの注意モデルに基づいてセマンティック解析を行うプロセスは、更新後の第１行列に基づいて行われる。

【0045】

本実施例では、予測対象入力テキストのほかに、予測対象発声者のＩＤを考慮するのみならず、予測対象テキスト列の位置情報も考慮し、すなわち、発声者のほかに予測対象テキスト列の位置も考慮したため、予測プロセスで予測の正確性を高めることができる。

【0046】

以下、上記リズム一時停止予測方法のプロセスを具体的な実施例で説明し、例えば、注意モデルがＴｒａｎｓｆｏｒｍｅｒモデルである場合を例に説明する。上記リズム一時停止予測方法は、音声合成システムに適用でき、特に、音声合成が可能な電子機器、例えば、コンピュータ、移動端末、サーバ、ウェアラブルデバイス、自動車などの電子機器に適用できる。予測対象入力テキストで各文字のリズム一時停止予測結果を出力した後に、予測対象入力テキストおよび予測対象入力テキストで各文字のリズム一時停止予測結果に基づいて音声合成を行って、予測対象発声者にマッチする音声を得る。すなわち、得られる音声が予測対象発声者の身分識別に対応する。すなわち、出力された音声が予測対象発声者にマッチすると理解できる。

【0047】

図２に示すように、まず、予測対象入力テキストと予測対象発声者のＩＤ（ＳＰＫ）を含む予測対象テキスト列を、訓練済みの埋め込み層（ｅｍｂｅｄｄｉｎｇ層）を用いてマッピングして第１行列を得る。予測対象テキスト列で予測対象発声者のＩＤの数は、図２に示されるＳＰＫのように、２つでありかつ同じである。予測対象入力テキストは、当該予測対象発声者の２つのＩＤの間に位置する。それから、第１行列を訓練済みの注意モデル（Ｔｒａｎｓｆｏｒｍｅｒモデル）に入力してセマンティック解析を行い、セマンティック行列を得る。さらに、セマンティック行列を訓練済みの出力モデルの緻密層（ｄｅｎｓｅｌａｙｅｒ）入力する。図２に示すように、緻密層の数が２であり、すなわち２層の緻密層を有する。緻密層は、セマンティック行列の出力に基づいて出力層（Ｏｕｔｐｕｔｌａｙｅｒ）に出力され、出力層によってリズム一時停止予測結果が出力される。ここで、まず第２所定訓練テキスト列を通じて教師なし訓練を行って初期埋め込み層および初期注意モデルを取得した後、第１所定訓練テキスト列を通じて訓練対象出力モデル、初期埋め込み層および初期注意モデルを訓練することにより、初期埋め込み層および初期注意モデルの調整を実現することができ、得られる予測モデルの正確性を高めることができる。

【0048】

ここで、訓練済みの注意モデルの入力は、訓練済みの埋め込み層の出力（即ち、第１行列）を含み、緻密層の入力は、訓練済みの注意モデルの出力を含む。ここで、注意モデルは、Ｐ（０より大きい整数）個のサブ注意モデルを含んでもよく、Ｐの値は、適用されるシナリオまたは実際のニーズに応じて選択されてもよく、これに限定されない。各サブ注意モデルは、自己注意層（ｓｅｌｆ−ａｔｔｅｎｔｉｏｎｌａｙｅｒ）と、入力が同じサブ注意モデルに属する自己注意層の出力を含むフィードフォワードネットワークＦＦＮ（ｆｅｅｄ−ｆｏｒｗａｒｄｎｅｔｗｏｒｋ）とを含み、注意モデルにおける第１サブ注意モデルの入力は、埋め込み層の出力を含む。第１サブ注意モデルにおける自己注意層の入力は、埋め込み層の出力を含み、緻密層の入力は、第Ｐサブ注意モデルの出力を含み、第Ｐサブ注意モデルの出力は、注意モデルの出力であることが理解される。緻密層は、注意モデルの出力を処理して出力層に出力し、出力層によって、予測対象テキスト列における各文字のリズム一時停止予測結果が出力される。リズム一時停止レベルは、図２の＃０（リズム一時停止なし）、＃１（リズム用語）、＃２（リズムフレーズ）、＃３（イントネーションリズム）のように、それぞれ異なるレベルを表す４つのレベルを含んでもよい。なお、予測対象入力テキストで１文字のリズム一時停止予測結果は、上記の４つのレベルのいずれか１つである。

【0049】

さらに、訓練済みの注意モデルは、第１行列を解析してセマンティック行列を決定する前に、第１行列のほかに予測対象テキスト列の位置行列を追加することができ、それにより、系列の位置を区別して予測の正確性を高めることができる。

【0050】

上記実施例に係るリズム一時停止予測方法によれば、訓練済みの埋め込み層、注意モデル、出力モデルを含む予測モデルにより、予測対象テキスト列のリズム一時停止を予測し、予測プロセスにおいて発声者のＩＤが十分に考慮され、予測対象テキスト列の位置情報も考慮されるため、リズム一時停止予測の正確性を高める。

【0051】

図３を参照する。本願は、１つの実施例としてリズム一時停止予測装置３００を提供する。装置は、予測対象入力テキストおよび予測対象発声者のＩＤを含む予測対象テキスト列を訓練済みの埋め込み層に基づいてマッピングして第１行列を得るためのマッピングモジュール３０１と、前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定するためのセマンティック決定モジュール３０２と、前記セマンティック行列に基づいてリズム一時停止予測を行い、前記予測対象入力テキストで各文字のリズム一時停止予測結果を出力するための出力モジュール３０３と、を備える。

【0052】

図４を参照する。１つの実施例において、前記装置は、Ｎ（１より大きい整数）個の第１所定訓練テキスト列およびＭ（１より大きい整数）個の第２所定訓練テキストに基づいてモデル訓練を行い、訓練済みの予測モデルを得るための訓練モジュール３０４をさらに備える。ここで、前記第１所定訓練テキスト列は、第１所定訓練テキストおよび第１訓練発声者のＩＤを含み、前記訓練済みの予測モデルは、前記訓練済みの埋め込み層、前記訓練済みの注意モデルおよび訓練済みの出力モデルを含み、前記訓練済みの埋め込み層の入力は、前記予測対象テキスト列を含み、前記訓練済みの注意モデルの入力は、前記訓練済みの埋め込み層の出力を含み、前記訓練済みの出力モデルの入力は、前記注意モデルの出力を含み、前記訓練済みの出力モデルの出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0053】

図５を参照する。１つの実施例において、前記訓練モジュール３０４は、前記Ｍ個の第２所定訓練テキストに基づいてモデル訓練を行い、初期埋め込み層と、入力が前記初期埋め込み層の出力を含む初期注意モデルとを含む初期言語モデルを得るための第１訓練サブモジュール３０４１と、前記Ｎ個の第１所定訓練テキスト列に基づいて、入力が前記初期言語モデルの出力を含む訓練対象出力モデルと、前記初期言語モデルとを含む訓練対象予測モデルに対し訓練を行い、前記訓練済みの予測モデルを得るための第２訓練サブモジュール３０４２と、を備える。

【0054】

１つの実施例において、前記出力モジュール３０３は、前記セマンティック行列に基づいて、前記予測対象入力テキストで各文字のリズム一時停止予測結果を訓練済みの出力モデルによって出力することに用いられる。
ここで、前記訓練済みの出力モデルは、訓練済みの緻密層と訓練済みの出力層を含み、前記訓練済みの緻密層の入力は、前記セマンティック行列を含み、前記訓練済みの出力層の入力は、前記訓練済みの緻密層の出力を含み、前記訓練済みの出力層の出力は、前記予測対象入力テキストで各文字のリズム一時停止予測結果を含む。

【0055】

図６を参照する。１つの実施例において、装置は、前記第１行列を訓練済みの注意モデルに入力し、前記訓練済みの注意モデルに基づいてセマンティック行列を決定することが前記セマンティック決定モジュール３０２によって実行される前に、前記予測対象テキスト列で各文字の、前記予測対象テキスト列における位置に基づいて、前記予測対象テキスト列の位置行列を決定するための位置取得モジュール３０５と、前記第１行列と前記位置行列を加算して前記第１行列を更新するための更新モジュール３０６と、をさらに備える。

【0056】

上記各実施例に係るリズム一時停止予測装置は、上記各実施例に係るリズム一時停止予測方法を実現する装置であり、技術的特徴が対応し、技術的効果が対応するため、ここでは説明を省略する。

【0057】

本願の実施例に基づき、本願は、電子機器および読み取り可能な記憶媒体をさらに提供する。

【0058】

図７は、本願の実施例に係るリズム一時停止予測方法に基づく電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、また、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続および関係、並びにそれらの機能は、単なる例であり、本明細書に記載および／または特許請求される本願の実施を限定することを意図しない。

【0059】

図７に示すように、当該電子機器は、１つまたは複数のプロセッサ７０１と、メモリ７０２と、各構成要素を接続するための、高速インターフェースと低速インターフェースとを含むインターフェースとを備える。各構成要素は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じてほかの形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置上にＧＵＩのグラフィカル情報を表示するために、メモリ内またはメモリ上に記憶された指令を含む、電子機器内で実行される指令を処理できる。他の実施形態では、複数のプロセッサおよび／または複数のバスが、必要に応じて、複数のメモリおよび複数の装置とともに使用されてもよい。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバ群、マルチプロセッサシステムとする）。図７では、１つのプロセッサ７０１を例に挙げている。

【0060】

メモリ７０２は、本願において提供される非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納され、本願において提供されるリズム一時停止予測方法を前記少なくとも１つのプロセッサに実行させる。本願の非一時的コンピュータ読み取り可能な記憶媒体には、本願において提供されるリズム一時停止予測方法をコンピュータに実行させるためのコンピュータ指令が格納されている。

【0061】

メモリ７０２は、非一時的コンピュータ読み取り可能な記憶媒体として機能し、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、および、本願の実施例におけるリズム一時停止予測方法に対応するプログラム指令／モジュール（例えば、図３に示されるマッピングモジュール３０１、セマンティクス決定モジュール３０２、出力モジュール３０３）などのモジュールを記憶するために使用される。プロセッサ７０１は、メモリ７０２に格納された非一時的ソフトウェアプログラム、指令、モジュールを実行することにより、サーバの各種の機能アプリケーションやデータ処理を実行し、すなわち、上述した方法実施例におけるリズム一時停止予測方法を実現する。

【0062】

メモリ７０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、キーボード表示による電子機器の使用に応じて作成されたデータ等を記憶することができるデータ記憶領域とを含むことができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの、非一時的メモリを含んでもよい。いくつかの実施形態において、メモリ７０２は、任意選択で、プロセッサ７０１に対してリモートに配置されたメモリを含んでもよい。これらのリモートメモリは、キーボードによって表示される電子機器にネットワークを介して接続されてもよい。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、およびこれらの組み合わせが挙げられるが、これらに限定されない。

【0063】

リズム一時停止予測方法の電子機器は、入力装置７０３と出力装置７０４とをさらに備えてもよい。プロセッサ７０１、メモリ７０２、入力装置７０３、出力装置７０４は、バスまたはその他の方式で接続されてもよいが、図７ではバスで接続されている例を示している。

【0064】

入力装置７０３は、数字または文字情報の入力を受信し、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置のような、キーボード表示された電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置７０４は、ディスプレイ装置、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。

【0065】

ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現される。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムで実施することを含む。当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈可能である。当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、当該記憶システム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置にデータおよび指令を伝送することができる。

【0066】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械指令を含み、これらのコンピュータプログラムは、プロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実施される。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号としての機械指令を受信する機械読み取り可能な媒体を含む、プログラマブルプロセッサに機械指令および／またはデータを提供するための任意のコンピュータプログラム製品、機器、および／または装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指す。「機械読み取り可能な信号」という用語は、機械指令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0067】

ユーザとのやり取りを提供するために、ここに記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとのやり取りを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよい。任意の形態（音入力、音声入力、または触覚入力）でユーザからの入力を受信してもよい。

【0068】

ここに記載のシステムおよび技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとして）、またはミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド構成要素を含むコンピューティングシステム（例えば、ユーザがここに記載のシステムおよび技術の実施形態とやり取りするグラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）、またはそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット等が挙げられる。

【0069】

コンピュータシステムは、クライアントおよびサーバを含む。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介してやりとりする。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。

【0070】

本願の実施例の技術的手段によれば、電子機器の幅が第１所定幅より大きい場合、第１サブキーボードと第２サブキーボードを生成し、前記第１サブキーボードおよび前記第２サブキーボードを離間して表示することができる。すなわち、第１サブキーボードおよび前記第２サブキーボードの間に間隔がある。すると、ユーザは、間隔の中でキー操作を行う必要がなく、ユーザが操作中にキーボードの中のキーに触れやすくなり、ユーザのキーボードに対する操作経路が短縮され、入力効率が向上する。

【0071】

上記に示された様々な形態のフローが、ステップの順序変更、追加、または削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよいが、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書に限定されない。

【0072】

上記の具体的な実施形態は、本願の保護範囲を制限するようには構成されない。当業者であれば、設計の要件やほかの要素に応じて、様々な修正、組み合わせ、サブ組み合わせ、置換を行うことが明らかである。本願の思想および原理に含まれるあらゆる変更、均等置換および改良等は、本願の範囲に含まれるものとする。

【図1】