(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-24
(45)【発行日】2023-12-04
(54)【発明の名称】音声出力方法、音声出力装置、電子機器及び記憶媒体
(51)【国際特許分類】
G06F 16/332 20190101AFI20231127BHJP
G10L 13/00 20060101ALI20231127BHJP
G10L 13/02 20130101ALI20231127BHJP
G06F 16/338 20190101ALI20231127BHJP
G06F 3/16 20060101ALI20231127BHJP
【FI】
G06F16/332
G10L13/00 100H
G10L13/02 130Z
G06F16/338
G06F3/16 690
(21)【出願番号】P 2021043383
(22)【出願日】2021-03-17
【審査請求日】2021-03-17
(31)【優先権主張番号】202010187465.8
(32)【優先日】2020-03-17
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】521208273
【氏名又は名称】阿波▲羅▼智▲聯▼(北京)科技有限公司
【氏名又は名称原語表記】APOLLO INTELLIGENT CONNECTIVITY(BEIJING)TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】101, 1st Floor, Building 1, Yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジャイン・ファン
【審査官】松尾 真人
(56)【参考文献】
【文献】米国特許出願公開第2011/0202344(US,A1)
【文献】特表2017-527837(JP,A)
【文献】国際公開第2009/125710(WO,A1)
【文献】韓国公開特許第10-2011-0052269(KR,A)
【文献】Rundnicky, A.I. et al.,Task and domain specific modelling in the Carnegie Mellon communicator system,Proc. 6th International Conference on Spoken Language Processing (ICSLP 2000),2000年10月,vol.2,130-134,doi:10.21437/ICSLP.2000-226
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G10L 13/00-13/10
G10L 19/00-19/99
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される音声出力方法であって、
処理対象の対象テキストを決定するステップと、
前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するステップと、
前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力するステップと、を含み、
前記ローカル音声ライブラリは、テキストと音声との対応関係に従って予め配置され、
前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するステップは、
前記対象テキストを全体として前記ローカルテキストライブラリでマッチングして、前記対象テキストとマッチングするテキストを決定できない場合に、前記対象テキストを分割し、少なくとも2つの目標キーワードを取得するステップと、
前記少なくとも2つの目標キーワードを前記ローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定するステップと、を含み、
対応的に、前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップは、
各目標キーワードが前記ローカルテキストライブラリで同じ予め設定されたキーワードをマッチングできる場合、各予め設定されたキーワードに基づいてマッチングされた予め設定されたキーワードのみを含む複数の音声セグメントを結合して、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップ
と、
予め設定されたキーワードにマッチングできない目標キーワードがある場合、正常にマッチングしなかった目標キーワードの数量が数量閾値より小さいとき、オフライン音声合成方式によって前記正常にマッチングしなかった目標キーワードに対して音声合成を行い、正常にマッチングした目標キーワードに対して、前記ローカル音声ライブラリによって対応する音声セグメントをマッチングし、前記対象テキストの出力音声を総合的に決定し、前記正常にマッチングしなかった目標キーワードの数量が前記数量閾値以上であるとき、前記オフライン音声合成方式を有効化して前記対象テキストの全体に対して音声合成処理を行うステップと、を含む、
ことを特徴とする音声出力方法。
【請求項2】
各予め設定されたキーワードに基づいてマッチングされた予め設定されたキーワードのみを含む複数の音声セグメントを結合して、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップは、
前記各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するステップと、
前記対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、前記対象テキストの出力音声を取得するステップと、を含む、
ことを特徴とする請求項1に記載の音声出力方法。
【請求項3】
前記各予め設定されたキーワードに基づいてマッチングされた予め設定されたキーワードのみを含む複数の音声セグメントを結合して、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップは、
前記少なくとも2つの目標キーワードにおいて、前記ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、前記特定のキーワードに対応する合成音声セグメントを決定するステップと、
前記対象テキストにおける前記各目標キーワードの順序に従って、前記合成音声セグメント及び前記ローカル音声ライブラリから決定された音声セグメントを結合し、前記対象テキストの出力音声を取得するステップと、をさらに含む、
ことを特徴とする請求項2に記載の音声出力方法。
【請求項4】
前記方法は、オフラインナビゲーションシーンに適用され、
前記ローカル音声ライブラリは、ナビゲーション用語を含む、
ことを特徴とする請求項1に記載の音声出力方法。
【請求項5】
音声出力装置であって、
処理対象の対象テキストを決定するためのテキスト決定モジュールと、
前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するためのテキストマッチングモジュールと、
前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力するための音声決定モジュールと、を含み、
前記ローカル音声ライブラリは、テキストと音声との対応関係に従って予め配置され、
前記テキストマッチングモジュールは、
前記対象テキストを全体として前記ローカルテキストライブラリでマッチングして、前記対象テキストとマッチングするテキストを決定できない場合に、前記対象テキストを分割し、少なくとも2つの目標キーワードを取得するためのテキスト分割ユニットと、
前記少なくとも2つの目標キーワードを前記ローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定するためのキーワードマッチングユニットと、を含み、
対応的に、前記音声決定モジュールは、具体的に、
各目標キーワードが前記ローカルテキストライブラリで同じ予め設定されたキーワードをマッチングできる場合、各予め設定されたキーワードに基づいてマッチングされた予め設定されたキーワードのみを含む複数の音声セグメントを結合して、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力
し、
予め設定されたキーワードにマッチングできない目標キーワードがある場合、正常にマッチングしなかった目標キーワードの数量が数量閾値より小さいとき、オフライン音声合成方式によって前記正常にマッチングしなかった目標キーワードに対して音声合成を行い、正常にマッチングした目標キーワードに対して、前記ローカル音声ライブラリによって対応する音声セグメントをマッチングし、前記対象テキストの出力音声を総合的に決定し、前記正常にマッチングしなかった目標キーワードの数量が前記数量閾値以上であるとき、前記オフライン音声合成方式を有効化して前記対象テキストの全体に対して音声合成処理を行うことに用いられる、
ことを特徴とする音声出力装置。
【請求項6】
前記音声決定モジュールは、
前記各予め設定されたキーワードに基づいて、ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するための音声セグメント決定ユニットと、
前記対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、前記対象テキストの出力音声を取得するための第1の音声結合ユニットと、を含む、
ことを特徴とする請求項5に記載の音声出力装置。
【請求項7】
前記音声決定モジュールは、
前記少なくとも2つの目標キーワードにおいて、前記ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、前記特定のキーワードに対応する合成音声セグメントを決定するための音声オフライン合成ユニットと、
前記対象テキストにおける前記各目標キーワードの順序に従って、前記合成音声セグメント及び前記ローカル音声ライブラリから決定された音声セグメントを結合し、前記対象テキストの出力音声を取得するための第2の音声結合ユニットと、をさらに含む、
ことを特徴とする請求項6に記載の音声出力装置。
【請求項8】
前記音声出力装置は、オフラインナビゲーションシーンに適用される音声出力方法を実行することに用いられ、
前記ローカル音声ライブラリは、ナビゲーション用語を含む、
ことを特徴とする請求項5に記載の音声出力装置。
【請求項9】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~4のいずれかに記載の音声出力方法を実行する、
ことを特徴とする電子機器。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~4のいずれかに記載の音声出力方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~4のいずれかに記載の音声出力方法が実行される、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータ技術に関し、具体的には音声処理技術に関し、特に、音声出力方法、音声出力装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
コンピュータ技術の普及に伴い、音声インタラクションは、スマートナビゲーション、スマートホームのような様々な分野で広く使用されている。車載機器を使用して音声ナビゲーションを行う又はスマートスピーカを使用して対話するプロセスにおいて、車載機器又はスマートスピーカは、音声合成(Text To Speech、TTS)機能をサポートする必要がある。音声合成は、オンライン音声合成及びオフライン音声合成を含む。オンライン音声合成は、サポートするさまざまな機能がより包括的であるため、オンライン音声合成の効果は、オフライン音声合成よりもはるかに優れている。
【0003】
しかしながら、車載端末又は携帯端末の処理性能及びメモリスペースが限られていることを考慮して、通常、音声合成を実現するために、大きなメモリスペースを必要とするプログラムパッケージ、及びプログラムの実行中に高い機器性能を必要とするプログラムパッケージをローカルに記憶しない。したがって、車載端末又は携帯端末が非ネットワーク状態又はオフライン音声合成機能のみを使用する場合では、従来のオフライン音声合成手段によって決定された音は、オンライン音声合成と比較するとより機械的になっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、音声出力方法、音声出力装置、電子機器及び記憶媒体を開示して、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減する。
【課題を解決するための手段】
【0005】
第1態様において、本出願の実施例は、音声出力方法を提供し、
処理対象の対象テキストを決定するステップと、
前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するステップと、
前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力するステップと、を含み、
ここで、前記ローカル音声ライブラリは、テキストと音声との対応関係に従って予め配置される。
【0006】
上記出願における1つの実施例は、オフライン音声インタラクションの状態で、本出願の実施例は、オフライン音声合成方式を直接有効化しないが、最初にローカルテキストのマッチングにより、ローカル音声ライブラリにおいて出力音声を決定し、当該予め設定されたローカル音声ライブラリは、高品質の人間の声である。したがって、本出願の実施例は、オフライン状態でオフライン音声合成方式によって音声を出力するときの機械化された音声という問題を解決し、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化するという利点又は有益な効果を有する。
【0007】
選択可能に、前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するステップは、
前記対象テキストを全体として前記ローカルテキストライブラリでマッチングして、前記対象テキストとマッチングするテキストを決定できない場合に、前記対象テキストを分割し、少なくとも2つの目標キーワードを取得するステップと、
前記少なくとも2つの目標キーワードを前記ローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定するステップと、を含み、
対応的に、前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップは、
各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定するステップを含む。
【0008】
上記出願における1つの実施例は、対象テキストの全体的なマッチング及び対象テキストが分割された後のキーワードのマッチングをサポートし、単語分割の粒度の細分化により、ローカルテキストマッチングによって対象テキストの出力音声を決定する成功率を向上させ、ローカルテキストマッチングがオフライン状態での音声出力要求を満足することを確保し、オフライン状態での出力音声を最適化するという利点又は有益な効果を有する。
【0009】
選択可能に、前記各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定する前記ステップは、
前記各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するステップと、
前記対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、前記対象テキストの出力音声を取得するステップと、を含む。
【0010】
上記出願における1つの実施例は、単語がテキストに現れる順序に従って、音声セグメントを結合して最終の出力音声を取得し、出力音声の正確性を確保するという利点又は有益な効果を有する。
【0011】
選択可能に、前記各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定する前記ステップは、
前記少なくとも2つの目標キーワードにおいて、前記ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、前記特定のキーワードに対応する合成音声セグメントを決定するステップと、
前記対象テキストにおける前記各目標キーワードの順序に従って、前記合成音声セグメント及び前記ローカル音声ライブラリから決定された音声セグメントを結合し、前記対象テキストの出力音声を取得するステップと、をさらに含む。
【0012】
上記出願における1つの実施例は、ローカルテキストマッチングと既存のオフライン音声合成方式を組み合わせることにより、対象テキストの出力音声を総合的に決定し、既存のインタラクション機器のオフライン音声を最適化し、出力音声の人間性を向上させるという利点又は有益な効果を有する。
【0013】
選択可能に、前記方法はオフラインナビゲーションシーンに適用され、
前記ローカル音声ライブラリはナビゲーション用語を含む。
【0014】
上記出願における1つの実施例は、運転ナビゲーションプロセスにおいて、車両端末がオフラインである可能性が比較的高いことを考慮して、ローカルテキストマッチングによって出力音声を決定し、ナビゲーション音声を最適化し、機械化されたナビゲーション音声がユーザのナビゲーション体験に影響を与えることを回避するという利点又は有益な効果を有する。
【0015】
第2態様において、本出願の実施例は、音声出力装置を提供し、
処理対象の対象テキストを決定するためのテキスト決定モジュールと、
前記対象テキストをローカルテキストライブラリでマッチングし、前記対象テキストに対応する予め設定されたテキストを決定するためのテキストマッチングモジュールと、
前記予め設定されたテキストに基づいて、ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力するための音声決定モジュールと、を含み、
ここで、前記ローカル音声ライブラリはテキストと音声との対応関係に従って予め配置される。
【0016】
選択可能に、前記テキストマッチングモジュールは、
前記対象テキストを全体として前記ローカルテキストライブラリでマッチングして、前記対象テキストとマッチングするテキストを決定できない場合に、前記対象テキストを分割し、少なくとも2つの目標キーワードを取得するためのテキスト分割ユニットと、
前記少なくとも2つの目標キーワードを前記ローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定するためのキーワードマッチングユニットと、を含み、
対応的に、前記音声決定モジュールは、具体的に、
各予め設定されたキーワードに基づいて、前記ローカル音声ライブラリから前記対象テキストの出力音声を決定して出力することに用いられる。
【0017】
選択可能に、前記音声決定モジュールは、
前記各予め設定されたキーワードに基づいて、ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するための音声セグメント決定ユニットと、
前記対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、前記対象テキストの出力音声を取得するための第1の音声結合ユニットと、を含む。
【0018】
選択可能に、前記音声決定モジュールは、
前記少なくとも2つの目標キーワードにおいて、前記ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、前記特定のキーワードに対応する合成音声セグメントを決定するための音声オフライン合成ユニットと、
前記対象テキストにおける前記各目標キーワードの順序に従って、前記合成音声セグメント及び前記ローカル音声ライブラリから決定された音声セグメントを結合し、前記対象テキストの出力音声を取得するための第2の音声結合ユニットと、をさらに含む。
【0019】
選択可能に、前記音声出力装置は、オフラインナビゲーションシーンに適用される音声出力方法を実行することに用いられ、
前記ローカル音声ライブラリはナビゲーション用語を含む。
選択可能に、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例の音声出力方法が実行される。
【発明の効果】
【0020】
本出願の実施例の技術案によれば、オフライン音声インタラクションシーンで、ローカルテキストライブラリを優先して用いてテキストマッチングを行い、予め設定されたテキストを決定し、次に予め設定されたテキストによってローカル音声ライブラリで出力音声を決定し、予め設定されたローカル音声ライブラリは高品質の人間の声であり、かつ本出願の実施例は、オフライン音声合成方式を直接有効化しない。以上により、本出願の実施例は、オフライン状態でオフライン音声合成方式によって音声を出力するときの機械化された音声という問題を解決し、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減する。上記選択可能な方式が有する他の効果については、以下、具体的な実施例と組み合わせて説明する。
【図面の簡単な説明】
【0021】
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
【
図1】本出願の実施例により開示される音声出力方法のフローチャートである。
【
図2】本出願の実施例により開示される他の音声出力方法のフローチャートである。
【
図3】本出願の実施例により開示される他の音声出力方法のフローチャートである。
【
図4】本出願の実施例により開示される音声出力装置の概略構成図である。
【
図5】本出願の実施例により開示される電子機器のブロック図である。
【発明を実施するための形態】
【0022】
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは、単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0023】
図1は、本出願の実施例により開示される音声出力方法のフローチャートであり、本実施例は、オフライン音声インタラクションシーンで、インタラクション機器が人間の声又は人間の声に近い音声を出力できるという場合に適用することができる。オフラインは、現在のインタラクション機器がインターネットに接続できないことを指す。本実施例の方法は、音声出力装置によって実行することができ、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、計算能力を有し、音声インタラクション機能をサポートする任意の電子機器、例えば、携帯端末、スマートスピーカ、車載端末などに集積することができ、車載端末は、カーマシン端末を含む。
【0024】
図1に示すように、本実施例により開示される音声出力方法は、以下のようなステップを含むことができる。
【0025】
S101:処理対象の対象テキストを決定する。
【0026】
対象テキストは、インタラクション機器がユーザのニーズに基づいてフィードバックする音声に対応するテキストを指す。例えば、カーマシン端末によってナビゲーションするプロセスにおいて、カーマシン端末の現在の放送対象のナビゲーション語句に対応するテキストは、対象テキストである。
【0027】
S102:対象テキストをローカルテキストライブラリでマッチングし、対象テキストに対応する予め設定されたテキストを決定する。
【0028】
本実施例のオフライン音声インタラクションシーンで、インタラクション機器は、音声出力の必要がある場合に、インタラクション機器に統合された任意のオフライン音声合成方式を直接有効化して対象テキストに対して音声合成処理を行うわけではなく、オフライン音声合成方式を直接有効化しない状態で、まずローカルテキストライブラリによって対象テキストをローカルマッチングして、対応する予め設定されたテキストを決定し、次に予め設定されたテキストによってローカル音声ライブラリから出力音声を決定する。ここで、テキストマッチングの方式は、対象テキストを全体の語句としてローカルテキストライブラリでマッチングするステップ、又は対象テキストを分割した後、単語を粒度としてローカルテキストライブラリでマッチングするステップを含む。本実施例で言及されるオフライン音声合成方式は、既存の任意の利用可能なオフライン音声合成アルゴリズム又はオフライン音声合成エンジンを指す。
【0029】
ローカルテキストライブラリ及びローカル音声ライブラリは、既存のオフライン音声合成方式から独立するデータベースである。具体的には、ローカル音声ライブラリは、テキストと音声との対応関係に従って予め配置され、ローカル音声ライブラリにおける音声は、予め収集された人間の声であって、オフライン状態で出力された音声品質を確保し、機械化された音声がユーザ体験に与える影響を低減する。ローカル音声ライブラリにおける音声に対応するテキストは、ローカルテキストライブラリを構成し、ローカルテキストライブラリは、ローカル音声ライブラリの一部であってもよい。また、ローカルテキストライブラリ及びローカル音声ライブラリは、キーと値のペアの関係に従って記憶されることができ、例えば、ローカルテキストライブラリにおける予め設定されたテキストをキー名とし、ローカル音声ライブラリにおける音声を具体的な値とする。
【0030】
ナビゲーション、質問と回答のインタラクションなどの具体的な音声インタラクションシーンの相違に基づいて、ローカルテキストライブラリにおける予め設定されたテキスト及びローカル音声ライブラリにおける音声は、ニーズに基づいて柔軟に設定することができ、例えば、音声インタラクションシーンにおける一般的な単語に基づいて、具体的に再利用可能な短い文章及び/又は単語を優先して、語句及び/又は単語の粒度に従って設定することができる。
【0031】
S103:予め設定されたテキストに基づいて、ローカル音声ライブラリから対象テキストの出力音声を決定して出力する。
【0032】
対象テキストがローカルテキストライブラリで正常にマッチングする場合、すなわちローカルテキストライブラリに対象テキストと同じテキストがある場合、予め設定されたテキストに基づいて対象テキストの出力音声を決定し、次にユーザにフィードバックする。対象テキストがローカルテキストライブラリで正常にマッチングしない場合、ローカル音声を出力せずに、このときインタラクション機器に統合されたオフライン音声合成方式を有効化して対象テキストに対して音声合成処理を行うことができ、音声インタラクションの正常な実現を確保する。
【0033】
例示的に、本実施例により開示される音声出力方法は、オフラインナビゲーションシーンに適用することができ、ローカル音声ライブラリは、ナビゲーション用語を含み、インタラクション機器は、カーマシン端末であってもよい。オフラインナビゲーションプロセスにおいて、カーマシン端末は、ナビゲーション経路に基づいてナビゲーション音声放送を行うことができ、例えば、「前方の道路を左折してください」、「100メートル直進してください」などのナビゲーション音声を出力する。運転時のナビゲーションプロセスにおいて、車載端末がオフラインである可能性が高いことを考慮して、ローカルテキストマッチングによって出力音声を決定し、ナビゲーション音声を最適化し、機械化されたナビゲーション音声がユーザのナビゲーション体験に影響を与えることを回避する。
【0034】
また、ローカル音声ライブラリに記憶された音声は、一定のエンコード処理が行われた任意のオーディオ形式にしてもよい。ローカルテキストマッチングによって対象テキストの出力音声を取得した後、出力音声に対してデコード処理を行い、元のオーディオストリームデータ(Pulse Code Modulation、PCMストリーム)を取得し、次にインタラクション機器のキャッシュに記憶して再生する。
【0035】
本出願の実施例の技術案によれば、オフライン音声インタラクションシーンで、ローカルテキストライブラリを優先して用いてテキストマッチングを行い、予め設定されたテキストを決定し、次に予め設定されたテキストによってローカル音声ライブラリで出力音声を決定し、予め設定されたローカル音声ライブラリは、高品質の人間の声であり、かつ本出願の実施例は、オフライン音声合成方式を直接有効化しない。以上により、本出願の実施例は、オフライン状態でオフライン音声合成方式によって音声を出力するときの機械化された音声という問題を解決し、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減する。
【0036】
図2は、本出願の実施例により開示される他の音声出力方法のフローチャートであり、上記技術案に基づいてさらに最適化及び拡張し、上記各選択可能な実施形態と組み合わせることができる。
図2に示すように、当該方法は、以下のようなステップを含むことができる。
【0037】
S201:処理対象の対象テキストを決定する。
【0038】
S202:対象テキストを全体としてローカルテキストライブラリでマッチングして、対象テキストとマッチングするテキストを決定できない場合に、対象テキストを分割し、少なくとも2つの目標キーワードを取得する。
【0039】
例えば、処理対象の対象テキストが「前方の道路を左折してください」であり、ローカルテキストライブラリで「前方の道路を左折してください」が完全にマッチングする場合、ローカル音声ライブラリに「前方の道路を左折してください」に対応する完全な音声があり、直接出力できることが表明される。ローカルテキストライブラリで「前方の道路を左折してください」が完全にマッチングしない場合、対象テキストを分割して、例えば、目標キーワードとして「前方」、「道路」、「左折」を取得し、次にローカルテキストライブラリで目標キーワードを1つずつマッチングし、対応する予め設定されたキーワードをそれぞれ決定する。ここで、対象テキストの分割の粒度は、ローカルテキストライブラリに記憶されたキーワードの長さに対応する。対象テキストに対する分割は、従来技術における任意の利用可能なテキスト分割方式を採用して実現することができ、本実施例では具体的に限定されない。
【0040】
S203:少なくとも2つの目標キーワードをローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定する。
【0041】
S204:各予め設定されたキーワードに基づいて、ローカル音声ライブラリから対象テキストの出力音声を決定して出力する。
【0042】
引き続き上記例示を例として、「前方の道路を左折してください」を分割した後、ローカルテキストライブラリで予め設定されたキーワード「前方」、「道路」、「左折」をマッチングし、これらの予め設定されたキーワードに基づいて対象テキストの出力音声を決定する。具体的に、予め設定されたキーワードに基づいてマッチングされた予め設定されたキーワードのみを含む複数の音声セグメントを結合して、最終の出力音声を取得し、又はマッチングされた予め設定されたキーワード及び他の単語を含む音声セグメントを、予め設定されたキーワードに従って音声セグメントに対して音声カットを行い、他の単語に対応する音声部分を取り除き、次にカット処理された音声セグメントを結合して、最終の出力音声を取得する。
【0043】
本出願の実施例は、対象テキストの全体的なマッチング及び対象テキストが分割された後のキーワードのマッチングをサポートし、単語分割の粒度の細分化により、ローカルテキストマッチングによって対象テキストの出力音声を決定する成功率を向上させ、ローカルテキストマッチングがオフライン状態での音声出力要求を満足することを確保し、オフライン状態での出力音声を最適化する。
【0044】
例示的に、各予め設定されたキーワードに基づいて、ローカル音声ライブラリから対象テキストの出力音声を決定するステップは、
各予め設定されたキーワードに基づいて、ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するステップと、
対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、対象テキストの出力音声を取得するステップと、を含む。
【0045】
各目標キーワードは、ローカルテキストライブラリで同じ予め設定されたキーワードをマッチングできる場合、ローカル音声ライブラリには各目標キーワードに対応する音声セグメントがあることが表明され、単語がテキストに現れる順序に従って、音声セグメントを結合して出力音声を取得することができる。予め設定されたキーワードにマッチングできない目標キーワードがある場合、予め設定されたルールに基づいて、インタラクション機器に統合されたオフライン音声合成方式を直接有効化して対象テキストに対して音声合成処理を行うか否かを決定することができる。予め設定されたルールは、オフライン音声合成方式の有効化に基づいて、柔軟に設定することができる。
【0046】
例えば、正常にマッチングしなかった目標キーワードの数量は、数量閾値より小さい場合に、オフライン音声合成方式によって正常にマッチングしなかった目標キーワードに対して音声合成を行うことができ、正常にマッチングした目標キーワードに対して、ローカル音声ライブラリによって対応する音声セグメントをマッチングし、対象テキストの出力音声を総合的に決定し、正常にマッチングしなかった目標キーワードの数量は、数量閾値の以上である場合に、オフライン音声合成方式を有効化して対象テキスト全体に対して音声合成処理を行うことができる。もちろん、本実施例は、正常にマッチングしなかった目標キーワードがあると決定したときに、オフライン音声合成方式を有効化して対象テキスト全体に対して音声合成処理を行ってもよい。
【0047】
本出願の実施例の技術案によれば、オフライン音声インタラクションシーンで、ローカルテキストライブラリを優先して用いてテキストマッチングを行い、予め設定されたテキストを全体でマッチングできない場合、対象テキストを分割し、キーワードマッチングによって、出力音声を最終に決定し、予め設定されたローカル音声ライブラリは、高品質の人間の声であり、かつ本出願の実施例は、オフライン音声合成方式を直接有効化しない。以上により、本出願の実施例は、オフライン状態でオフライン音声合成方式によって音声を出力するときの機械化された音声という問題を解決し、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減し、同時に、単語がテキストに現れる順序に従って、音声セグメントを結合して最終の出力音声を取得し、出力音声の正確性を確保する。
【0048】
図3は、本出願の実施例により開示される他の音声出力方法のフローチャートであり、上記技術案に基づいてさらに最適化及び拡張し、上記各選択可能な実施形態と組み合わせることができる。
図3に示すように、当該方法は、以下のようなステップを含むことができる。
【0049】
S301:処理対象の対象テキストを決定する。
【0050】
S302:対象テキストを全体としてローカルテキストライブラリでマッチングして、対象テキストとマッチングするテキストを決定できない場合に、対象テキストを分割し、少なくとも2つの目標キーワードを取得する。
【0051】
S303:少なくとも2つの目標キーワードをローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定する。
【0052】
S304:少なくとも2つの目標キーワードにおいて、ローカルテキストライブラリから予め設定されたキーワードをマッチングした特定のキーワードに対して、マッチングされた予め設定されたキーワードに基づいて、ローカル音声ライブラリから当該特定のキーワードに対応する音声セグメントを決定する。
【0053】
S305:少なくとも2つの目標キーワードにおいて、ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、当該特定のキーワードに対応する合成音声セグメントを決定する。
【0054】
本実施例は、オフライン音声合成方式のみを有効化してマッチングしなかった対象テキストに対して音声合成を行う。また、操作S304と操作S305の間には厳密な実行順序がなく、
図3に示される実行順序は、本実施例に対する特定の制限として理解されるべきではない。
【0055】
S306:対象テキストにおける各目標キーワードの順序に従って、合成音声セグメント及びローカル音声ライブラリから決定された音声セグメントを結合し、対象テキストの出力音声を取得する。
【0056】
本出願の実施例の技術案によれば、オフライン音声インタラクションシーンで、対象テキストを分割し、ローカルテキストライブラリ及びローカル音声ライブラリによって部分の目標キーワードの音声セグメントをマッチングし、オフライン音声合成方式を組み合わせて他の部分の目標キーワードに対して音声合成を行って、対象テキストの出力音声を総合的に決定し、純粋に機械化された音声出力の状況と比較して、既存のインタラクション機器のオフライン音声を最適化し、オフライン状態でオフライン音声合成方式を使用して音声を出力するときの音声の機械化及び固定の問題を解決し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減し、かつ、ローカルテキストマッチング及び既存のオフライン音声合成方式によって対象テキストの出力音声を総合的に決定し、出力音声には、部分的に人間化された音声と部分的に機械化された音声の混合の2種類の音のカテゴリが含まれ、一定の音声強調効果も到達することができる。例えば、対象テキスト「100メートル直進してください」を分割した後、目標キーワード「100メートル」は、ローカル音声ライブラリで音声セグメントが決定されておらず、オフライン音声合成方式によって合成音声セグメントを取得して、インタラクション機器が音声を出力した後、距離「100メートル」を強調する効果を達成することができる。
【0057】
図4は、本出願の実施例により開示される音声出力装置の概略構成図である。本実施例は、オフライン音声インタラクションシーンで、インタラクション機器は、人間の声又は人間の声に近い音声を出力できるようにする場合に適用することができる。本実施例の音声出力装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現することができ、計算能力を有し、音声インタラクション機能をサポートする任意の電子機器に統合することができ、例えば、携帯端末、スマートスピーカ、車載端末などであり、車載端末は、カーマシン端末が含まれる。
【0058】
図4に示すように、本実施例により開示される音声出力装置400は、テキスト決定モジュール401と、テキストマッチングモジュール402と、音声決定モジュール403と、を含むことができ、ここで、
テキスト決定モジュール401は、処理対象の対象テキストを決定することに用いられ、
テキストマッチングモジュール402は、対象テキストをローカルテキストライブラリでマッチングし、対象テキストに対応する予め設定されたテキストを決定することに用いられ、
音声決定モジュール403は、予め設定されたテキストに基づいて、ローカル音声ライブラリから対象テキストの出力音声を決定して出力することに用いられ、
ここで、ローカル音声ライブラリは、テキストと音声との対応関係に従って予め配置される。
【0059】
選択可能に、テキストマッチングモジュール402は、
対象テキストを全体としてローカルテキストライブラリでマッチングして、対象テキストとマッチングするテキストを決定できない場合に、対象テキストを分割し、少なくとも2つの目標キーワードを取得するためのテキスト分割ユニットと、
少なくとも2つの目標キーワードをローカルテキストライブラリでそれぞれマッチングし、各目標キーワードに対応する予め設定されたキーワードを決定するためのキーワードマッチングユニットと、を含み、
対応的に、音声決定モジュール403は、具体的に、
各予め設定されたキーワードに基づいて、ローカル音声ライブラリから対象テキストの出力音声を決定して出力することに用いられる。
【0060】
選択可能に、音声決定モジュール403は、
各予め設定されたキーワードに基づいて、ローカル音声ライブラリから各目標キーワードに対応する音声セグメントを決定するための音声セグメント決定ユニットと、
対象テキストにおける各目標キーワードの順序に従って、各音声セグメントを結合し、対象テキストの出力音声を取得するための第1の音声結合ユニットと、を含む。
【0061】
選択可能に、音声決定モジュール403は、
少なくとも2つの目標キーワードにおいて、ローカルテキストライブラリから予め設定されたキーワードをマッチングできない特定のキーワードに対して、オフライン音声合成方式を使用して、特定のキーワードに対応する合成音声セグメントを決定するための音声オフライン合成ユニットと、
対象テキストにおける各目標キーワードの順序に従って、合成音声セグメント及びローカル音声ライブラリから決定された音声セグメントを結合し、対象テキストの出力音声を取得するための第2の音声結合ユニットと、をさらに含む。
【0062】
選択可能に、本実施例により開示される音声出力装置は、オフラインナビゲーションシーンに適用される音声出力方法を実行することに用いられ、ローカル音声ライブラリは、ナビゲーション用語を含む。
【0063】
本出願の実施例により開示される音声出力装置400は、本出願の任意の実施例により開示される音声出力方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を備える。本実施例で詳細に説明されていない内容は、本出願の任意の方法の実施例の説明を参照することができる。
【0064】
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声出力方法が実行される。
【0065】
図5に示すように、
図5は、本出願の実施例の音声出力方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本出願の実施例の実現を制限することを意図したものではない。
【0066】
図5に示すように、当該電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にグラフィカルユーザインタフェース(Graphical User Interface、GUI)の図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムなどの部分的な必要な操作を提供することができる。
図5では、1つのプロセッサ501を例とする。
【0067】
メモリ502は、本出願の実施例により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願の実施例により提供される音声出力方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の実施例の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願の実施例が提供する音声出力方法を実行させるためのコンピュータ命令を記憶する。
【0068】
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における音声出力方法に対応するプログラム命令/モジュール、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられ、例えば、
図4に示すテキスト決定モジュール401、テキストマッチングモジュール402及び音声決定モジュール403である。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声出力方法を実現する。
【0069】
メモリ502は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声出力方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して本出願の実施例の音声出力方法を実現するための電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
【0070】
本出願の実施例の音声出力方法を実現するための電子機器は、入力装置503と出力装置504とをさらに含むことができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、
図5では、バスによる接続を例とする。
【0071】
入力装置503は、入力された数字又は文字情報を受信することができ、及び本出願の実施例の音声出力方法を実現するための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明デバイス、及び触覚フィードバックデバイスなどを含むことができ、補助照明デバイスは、発光ダイオード(Liquid Crystal Display、LED)などであり、触覚フィードバックデバイスは、振動モータなどである。当該ディスプレイデバイスは、液晶ディスプレイ(Liquid Crystal Display、LCD)、LEDディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0072】
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、以下を含んでもよい。1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0073】
プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれるこれらのコンピューティングプログラムは、プログラマブルプロセッサの機械命令を含んでもよく、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置、例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(Programmable Logic Device、PLD)を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0074】
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、陰極線管(Cathode Ray Tube、CRT)又はLCDモニタなどのユーザに情報を表示するためのディスプレイ装置と、マウス又はトラックボールなどのキーボード及びポインティングデバイスとを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックなどの任意の形式のセンシングフィードバックであってもよく、音響入力と、音声入力と、触覚入力とを含む任意の形式でユーザからの入力を受信することができる。
【0075】
ここで説明されるシステム及び技術は、データサーバとするなどのバックエンドコンポーネントを含むコンピューティングシステムで実施することができ、又はアプリケーションサーバーなどのミドルウェアコンポーネントを含むコンピューティングシステムで実施することができ、又はフロントエンドコンポーネントを含むコンピューティングシステムで実施することができ、例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションし、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。通信ネットワークなどの任意の形式又は媒体のデジタルデータ通信によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例としては、ローカルエリアネットワーク(Local Area Network、LAN)と、ワイドエリアネットワーク(Wide Area Network、WAN)と、インターネットとを含む。
【0076】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
【0077】
本出願の実施例の技術案によれば、オフライン音声インタラクションシーンで、ローカルテキストライブラリを優先して用いてテキストマッチングを行い、予め設定されたテキストを決定し、次に予め設定されたテキストによってローカル音声ライブラリで出力音声を決定し、予め設定されたローカル音声ライブラリは、高品質の人間の声であり、かつ本出願の実施例は、オフライン音声合成方式を直接有効化しない。以上により、本出願の実施例は、オフライン状態でオフライン音声合成方式によって音声を出力するときの機械化された音声という問題を解決し、音声インタラクションをサポートする機器がオフラインである場合に、出力音声を最適化し、出力音声の人間性を向上させ、機械化された音声がユーザ体験に与える影響を低減する。
【0078】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0079】
上記具体的な実施形態は、本出願に対する保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。