(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-26
(54)【発明の名称】ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体
(51)【国際特許分類】
G10L 15/06 20130101AFI20240719BHJP
G10L 15/28 20130101ALI20240719BHJP
【FI】
G10L15/06 400V
G10L15/28 230K
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024531560
(86)(22)【出願日】2022-03-23
(85)【翻訳文提出日】2024-03-01
(86)【国際出願番号】 CN2022082571
(87)【国際公開番号】W WO2023010861
(87)【国際公開日】2023-02-09
(31)【優先権主張番号】202110904169.X
(32)【優先日】2021-08-06
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】524050604
【氏名又は名称】佛山市▲順▼▲徳▼区美的▲電▼子科技有限公司
【氏名又は名称原語表記】FOSHAN SHUNDE MIDEA ELECTRIC SCIENCE AND TECHNOLOGY CO., LTD.
【住所又は居所原語表記】District B, No. 8, Xinye 4th Road, Pioneer Park, Shunjiang Neighborhood Committee, Beijiao, Shunde Foshan, Guangdong 528311 China
(71)【出願人】
【識別番号】517344192
【氏名又は名称】広東美的制冷設備有限公司
【氏名又は名称原語表記】GD MIDEA AIR-CONDITIONING EQUIPMENT CO.,LTD.
【住所又は居所原語表記】Lingang Road,Beijiao,Shunde,Foshan,Guangdong,China
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(74)【代理人】
【識別番号】100213517
【氏名又は名称】韓 明花
(72)【発明者】
【氏名】チェン,バイヤン
(72)【発明者】
【氏名】チェン,イーロン
(72)【発明者】
【氏名】フオ,ウェイミン
(57)【要約】
本開示は、ウェイクアップ処理方法、装置、設備、コンピュータ記憶媒体を提供し、音声設備に適用され、当該方法は、認識待ちのオーディオを取得するステップ(S101)と、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップ(S102)と、前記少なくとも2つの信頼度とそれぞれに対応する信頼度閾値との比較結果に基づいて、音声設備のウェイクアップイベントをトリガするステップ(S103)と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声設備に適用されるウェイクアップ処理方法であって、前記方法は、
認識待ちのオーディオを取得するステップと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップと、を含むことを特徴とするウェイクアップ処理方法。
【請求項2】
前記認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
各組の前記訓練データは、モデルパラメータおよび信頼度閾値を含み、前記ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも2組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度を得、そして、前記少なくとも2組の訓練データから前記少なくとも2つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記少なくとも2組の訓練データは、第1モデルパラメータおよび第1信頼度閾値を含む第1組の訓練データと、第2モデルパラメータおよび第2信頼度閾値を含む第2組の訓練データとを含み、
前記ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第1組の訓練データにおける前記第1モデルパラメータを使用して前記認識待ちのオーディオを処理し、第1信頼度を得、前記第1組の訓練データから前記第1信頼度に対応する前記第1信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第2組の訓練データにおける前記第2モデルパラメータを使用して前記認識待ちのオーディオを処理し、第2信頼度を得、前記第2組の訓練データから前記第2信頼度に対応する前記第2信頼度閾値を確定するステップと、を含むことを特徴とする請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上である場合、または前記第2信頼度が前記第2信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記ウェイクアップイベントは第1ウェイクアップイベントおよび/または第2ウェイクアップイベントを含み、前記第1ウェイクアップイベントは前記第1組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第2ウェイクアップイベントは前記第2組の訓練データに対応するウェイクアップワードと関連関係を有することを特徴とする請求項5に記載の方法。
【請求項7】
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値より小さい場合、前記音声設備の前記第1ウェイクアップイベントがトリガされるステップ、または、
前記第2信頼度が前記第2信頼度閾値以上であって前記第1信頼度が前記第1信頼度閾値より小さい場合、前記音声設備の前記第2ウェイクアップイベントがトリガされるステップ、または、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値以上である場合、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とが計算され、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第1値が前記第2値以上である場合、前記目標ウェイクアップイベントは前記第1ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第1値が前記第2値より小さい場合、前記目標ウェイクアップイベントは前記第2ウェイクアップイベントであると確定され、トリガされるステップ、を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記方法は、
前記少なくとも2組のウェイクアップワード訓練セットを取得するステップと、
前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得るステップであって、各組の訓練データはモデルパラメータおよび信頼度閾値を含むステップと、をさらに含むことを特徴とする請求項1に記載の方法。
【請求項10】
前記少なくとも2組のウェイクアップワード訓練セットを取得するステップは、
少なくとも2つのウェイクアップワードを含む初期訓練セットを取得するステップと、
異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも2組のウェイクアップワード訓練セットを得るステップと、を含むことを特徴とする請求項9に記載の方法。
【請求項11】
音声設備に適用されるウェイクアップ処理装置であって、前記ウェイクアップ処理装置は、
認識待ちのオーディオを取得するように配置された取得ユニットと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得る処理ユニットであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるように配置された処理ユニットと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置されたトリガユニットと、を含むことを特徴とするウェイクアップ処理装置。
【請求項12】
メモリおよびプロセッサを含む音声設備であって、
前記メモリは、前記プロセッサで実行可能なコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムの実行中に、請求項1~10のいずれか一項に記載の方法を実行するために使用されることを特徴とする音声設備。
【請求項13】
コンピュータ記憶媒体であって、少なくとも1つのプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを記憶したことを特徴とするコンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2021年08月06日に提出されて、出願番号が「202110904169.X」であって、出願の名称が「ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体」である中国特許出願の優先権を主張し、この全内容が引用により本開示に組み込まれている。
本開示は、音声認識技術の分野に関し、特に、ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体に関する。
【背景技術】
【0002】
音声認識技術の発展に伴い、家庭のスマート化がトレンドとなっており、音声設備も人々の日常生活に浸透しつつある。現在、多くのユーザの家庭には多様な種類の音声設備が一般的に存在しており、音声設備の音声制御を行う前に、音声設備のウェイクアップ操作を行う必要がある。
【0003】
しかしながら、関連技術では、これらの音声設備は一般的に複数のウェイクアップワードを認識する必要がある場合があり、これらの異なるウェイクアップワードが同時に訓練され、異なるウェイクアップワード間でクロストークが発生しやすく、さらに誤ウェイクアップの問題が発生し、音声認識の誤ウェイクアップ率が高くなる。
【発明の概要】
【0004】
本開示は、異なるウェイクアップワードが同時に訓練された場合に、ウェイクアップワードのクロストークが発生する可能性を回避し、音声設備の誤ウェイクアップ率を低減できるウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体を提供することを目的とする。
【0005】
上述の目的を達成するために、本開示の技術案は、以下のように実現される。
【0006】
第1方面によれば、本開示の実施例は、音声設備に適用されるウェイクアップ処理方法であって、
認識待ちのオーディオを取得するステップと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップと、を含むウェイクアップ処理方法を提供する。
【0007】
いくつかの実施例では、認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含む。
【0008】
いくつかの実施例では、各組の訓練データは、モデルパラメータおよび信頼度閾値を含み、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも2組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度を得、そして、前記少なくとも2組の訓練データから前記少なくとも2つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含む。
【0009】
いくつかの実施例では、前記少なくとも2組の訓練データは、第1モデルパラメータおよび第1信頼度閾値を含む第1組の訓練データと、第2モデルパラメータおよび第2信頼度閾値を含む第2組の訓練データとを含み、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第1組の訓練データにおける前記第1モデルパラメータを使用して前記認識待ちのオーディオを処理し、第1信頼度を得、前記第1組の訓練データから前記第1信頼度に対応する前記第1信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第2組の訓練データにおける前記第2モデルパラメータを使用して前記認識待ちのオーディオを処理し、第2信頼度を得、前記第2組の訓練データから前記第2信頼度に対応する前記第2信頼度閾値を確定するステップと、を含む。
【0010】
いくつかの実施例では、前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上である場合、または前記第2信頼度が前記第2信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップ、を含む。
【0011】
いくつかの実施例では、前記ウェイクアップイベントは第1ウェイクアップイベントおよび/または第2ウェイクアップイベントを含み、前記第1ウェイクアップイベントは前記第1組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第2ウェイクアップイベントは前記第2組の訓練データに対応するウェイクアップワードと関連関係を有する。
【0012】
いくつかの実施例では、前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値より小さい場合、前記音声設備の前記第1ウェイクアップイベントがトリガされるステップ、または、
前記第2信頼度が前記第2信頼度閾値以上であって前記第1信頼度が前記第1信頼度閾値より小さい場合、前記音声設備の前記第2ウェイクアップイベントがトリガされるステップ、または、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値以上である場合、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とが計算され、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、を含む。
【0013】
いくつかの実施例では、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第1値が前記第2値以上である場合、前記目標ウェイクアップイベントは前記第1ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第1値が前記第2値より小さい場合、前記目標ウェイクアップイベントは前記第2ウェイクアップイベントであると確定され、トリガされるステップ、を含む。
【0014】
いくつかの実施例では、前記方法は、さらに、
前記少なくとも2組のウェイクアップワード訓練セットを取得するステップと、
前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得るステップであって、各組の訓練データはモデルパラメータおよび信頼度閾値を含むステップと、を含む。
【0015】
いくつかの実施例では、前記少なくとも2組のウェイクアップワード訓練セットを取得するステップは、
少なくとも2つのウェイクアップワードを含む初期訓練セットを取得するステップと、
異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも2組のウェイクアップワード訓練セットを得るステップと、を含む。
【0016】
第2方面によれば、本開示の実施例は、音声設備に適用されるウェイクアップ処理装置であって、前記ウェイクアップ処理装置は、
認識待ちのオーディオを取得するように配置された取得ユニットと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得る処理ユニットであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるように配置された処理ユニットと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置されたトリガユニットと、を含むウェイクアップ処理装置を提供する。
【0017】
第3方面によれば、本開示の実施例は、メモリおよびプロセッサを含む音声設備であって、
前記メモリは、前記プロセッサで実行可能なコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムの実行中に、第1方面のいずれか一項に記載の方法を実行するために使用される音声設備を提供する。
【0018】
第4方面によれば、本開示の実施例は、少なくとも1つのプロセッサによって実行されると、第1方面のいずれか一項に記載の方法を実現するコンピュータプログラムを記憶したコンピュータ記憶媒体を提供する。
【0019】
本開示の実施例は、ウェイクアップ処理方法、装置、設備、コンピュータ記憶媒体を提供し、認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも2つの信頼度とそれぞれに対応する信頼度閾値との比較結果に基づいて、ウェイクアップ待ちの設備を確定する。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率を低減することもできる。
【図面の簡単な説明】
【0020】
【
図1】本開示の実施例が提供したウェイクアップ処理方法の概略フロー図である。
【
図2】本開示の実施例が提供した他のウェイクアップ処理方法の概略フロー図である。
【
図3】本開示の実施例が提供したウェイクアップモデルの訓練プロセスの概略図である。
【
図4】本開示の実施例が提供したウェイクアップ処理方法の詳しい概略フロー図である。
【
図5】本開示の実施例が提供したウェイクアップ処理装置の構成を示す概略図である。
【
図6】本開示の実施例が提供した音声設備の具体的なハードウェア構造の概略図である。
【発明を実施するための形態】
【0021】
以下、本開示の実施例における技術案について、本開示の実施例における図面に関連して明確かつ完全に説明する。ここに記載された具体的な実施例は、関連する開示を説明するためだけのものであって、開示を限定するものではないことを理解されたい。また、説明を容易にするために、なお、開示に関連する部分のみが示されている。
【0022】
別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示の技術分野に属する当業者が一般に理解する意味と同じである。本明細書で使用される用語は、本開示の実施例を説明する目的のためにのみ使用され、本開示を制限することを意図しているものではない。
【0023】
以下の説明では、すべての可能な実施例のサブセットを説明する「いくつかの実施例」について説明するが、「いくつかの実施例」は、すべての可能な実施例の同じサブセットまたは異なるサブセットであってもよく、矛盾がない場合相互に結合されてもよいことを理解されたい。
【0024】
なお、本開示の実施例に係る用語「第1」、「第2」、「第3」は、類似する対象を区別するためにのみ使用され、対象の特定の順序付けを表すものではない。「第1」、「第2」、「第3」は、本明細書に記載された本開示の実施例が本明細書に図示または記載されたもの以外の順序で実施されることを可能にするように、許容される場合に特定の順序または前後の順序を交換することができることを理解されたい。
【0025】
実際の応用において、現在サンプリング可能なウェイクアップモデルの音声認識方案は、(1)複数のウェイクアップワードを同一モデルで訓練する種類、(2)複数のモデルを用いてそれぞれウェイクアップワードを訓練する種類という2つの種類がある。
【0026】
しかし、(1)のような技術案については、複数のウェイクアップワードが同一モデルで訓練され、異なるウェイクアップワードの間には類似度によりクロストークが発生しやすく、ウェイクアップの応答速度と記憶空間の問題を考慮すると、訓練セットは大きすぎてはならないため、異なるウェイクアップワードの間に介在する音が誤認識されやすく、誤ウェイクアップされてクレームされやすい。(2)のような技術案については、モデルのロードに時間がかかり、切替えによる遅延が深刻になり、同時に複数のウェイクアップワードを認識する方案を満足させることができない。簡単に言えば、関連技術では、これらの音声設備は一般的に複数のウェイクアップワードを認識する必要がある場合があり、これらの異なるウェイクアップワードが同時に訓練され、異なるウェイクアップワード間でクロストークが発生しやすく、さらに誤ウェイクアップの問題が発生し、音声認識の誤ウェイクアップ率が高くなる。
【0027】
これにより、本開示の実施例は、ウェイクアップ処理方法を提供し、当該方法の基本思想は、認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも2つの信頼度とそれぞれに対応する信頼度閾値との比較結果により、ウェイクアップ待ちの設備を確定することである。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率を低減することもできる。
【0028】
以下、図面を組み合わせて本開示の各実施例を詳細に説明する。
【0029】
実施例1
図1を参照すると、これは本開示の実施例が提供したウェイクアップ処理方法の概略フロー図を示す。
図1に示すように、この方法は、ステップS101~ステップS103を含むことができる。
【0030】
ステップS101において、認識待ちのオーディオを取得する。
【0031】
なお、本開示の実施例に係るウェイクアップ処理方法は、ウェイクアップ処理装置、または当該ウェイクアップ処理装置を統合した音声設備に適用される。ここで、音声設備は、ユーザと音声対話を行うことができ、音声エアコン、音声給湯器、音声炊飯器、音声電子レンジなどの任意の一般的な家電機器のような、音声によるウェイクアップを必要とする任意のウェイクアップ待ちの設備であるが、何ら限定されることはない。
【0032】
なお、音声設備はユーザと音声対話を行うことができるので、その際には、音収集装置によってデータ収集を行うことも可能である。したがって、いくつかの実施例では、ステップS101について、前記認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含むことができる。
【0033】
本開示の実施例では、音収集装置は、マイクロホン、マイクなどのオーディオ収集器であってもよい。具体的には、マイクによるリアルタイムのデータ収集により、ユーザからの初期音声データを取得することができ、その後、前記初期音声データを前処理して認識待ちのオーディオを得る。
【0034】
なお、本開示の実施例における初期音声データは、ユーザの音情報を含むことが理解されるが、環境音のみの場合には、ウェイクアップ認識に関することではないため、本実施例の議論の範囲外であり、ここではこれ以上言及しない。すなわち、初期音声データは、ユーザによって発声されてもよく、例えば、「美ちゃん美ちゃん」であってもよく、音声設備が音情報を取得した後、情報を前処理する。
【0035】
ここで、前記前処理は、端点検出プロセスとプリエンファシスプロセスの2つの方面を含むことができ、以下にそれぞれ詳細に説明する。
【0036】
一つの可能な実施例では、端点検出プロセスとは、指令オーディオの開始点および終了点を見つけ、音情報から連続したいくつかのフレームの音セグメントをインターセプトすることができ、音セグメントの順序に従って、前に配列されたいくつかのフレームが認識待ちのオーディオとして設定され、具体的には、認識待ちのオーディオとして設定されるフレームの数は、設定されたウェイクアップワードの長さに基づいて確定されることができることを意味する。例えば、ウェイクアップワードの文字数に応じて具体的な時間長を予め設定しておき、その時間長内の音セグメントを認識待ちのオーディオとして確定するようにしてもよく、具体的な時間長は、実際の状況に応じて調整することができるが、本実施例に何ら限定されることはない。
【0037】
または、認識待ちのオーディオのフレーム数は、2つの連続した音セグメントの間の空データが検出された長さに基づいて確定することもでき、例えば、実際の使用中に、ユーザが最初にウェイクアップワードを呼び出し、数秒の休止の後に残りの音声指令を呼び出すと、空データの前のセグメントを認識待ちのオーディオとすることができる。
【0038】
例示的には、音声エアコンを例に挙げて、上述の実施例に関連して、音声エアコンが、音収集装置を介して「美ちゃん美ちゃん」というセグメントのオーディオを受信し、「美ちゃん美ちゃん」というウェイクアップワードの予め設定された時間長が2秒であり、端点検出プロセスにおいて、認識待ちのオーディオとして前の2秒の時間長に対応するフレーム数をインターセプトする必要がある。または、音声エアコンが音収集装置を介して受信した「美ちゃん美ちゃん、温度を上げて」というセグメントのオーディオの2文の間に空白区間があり、空白区間の途中のオーディオ情報が空データであるとすると、この空白区間の空データの前のフレーム数を認識待ちのオーディオとすることができる。
【0039】
他の可能な実施例では、プリエンファシスプロセスとは、オーディオの高周波部分をエンファシスし、高周波分解能を増加させ、音情報が取得された後、オーディオ認識の方法を用いて、音情報から環境音情報およびオーディオ情報を抽出し、雑音干渉を除去し、高周波分解能を増加させ、明瞭な人間の音情報を取得することを意味する。
【0040】
なお、本開示の実施例は、環境音を有する認識待ちのオーディオについて、それを利用してノイズを有するウェイクアップモデル訓練を行うこともできる。具体的には、認識待ちのオーディオから環境音情報を抽出した後、それを訓練データとしてサーバに送信することができ、ウェイクアップモデルに対する更なる訓練において環境音情報の音圧レベルを1つの特徴パラメータとすることができ、ウェイクアップモデルにノイズ付き訓練の方法を適用することができ、ウェイクアップモデルの認識プロセスが異なる環境音情報のサイズに応じて対応するパラメータを調整することができ、例えば対応する信頼度閾値を調整し、ウェイクアップモデルが異なる使用シナリオに適用することができる。
【0041】
ステップS102において、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得る。
【0042】
本開示の実施例では、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットがウェイクアップモデルを介してそれぞれ訓練されて得られるものである。ここで、各組の訓練データは、モデルパラメータおよび信頼度閾値を含むことができる(ここで、信頼度閾値は、「ウェイクアップ閾値」とも呼ばれる)。
【0043】
相応的に、いくつかの実施例では、ステップS102では、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも2組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度を得、そして前記少なくとも2組の訓練データから前記少なくとも2つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含むことができる。
【0044】
なお、少なくとも2組のウェイクアップワード訓練セットは、異なるウェイクアップワードに基づいてグループ化されて得られるものであり、すなわち、各ウェイクアップワードは1組のウェイクアップワード訓練セットに対応し、なお、これらの少なくとも2組の訓練データは、これらの少なくとも2組のウェイクアップワード訓練セットがウェイクアップモデルによってそれぞれ訓練されて得られるものであり、すなわち訓練データとウェイクアップワードとの間に対応関係があり、これらの少なくとも2組の訓練データは、それぞれ1つのウェイクアップワードに対応する。例えば、ウェイクアップワードAとウェイクアップワードBが存在すると仮定すると、1組のウェイクアップワードA訓練セットと1組のウェイクアップワードB訓練セットが得られ、ウェイクアップモデルによる訓練によってウェイクアップワードAの訓練データとウェイクアップワードBの訓練データが得られる。
【0045】
このように、認識待ちのオーディオを処理するプロセスは、少なくとも2つのウェイクアップワードのそれぞれに対応する訓練データによって認識待ちのオーディオをそれぞれ認識し、認識待ちのオーディオが各組の訓練データのうちのモデルパラメータの下で得られる信頼度を得ることができる。なお、異なるウェイクアップワードが同時に訓練される関連技術とは異なり、本開示の実施例では、認識プロセスおよび訓練プロセスは、いずれも異なるウェイクアップワードによる分離処理を実現し、認識結果における異なるウェイクアップワード間でクロストークが発生しないようにし、使用中の誤ウェイクアップ率を低減し、また、このようにウェイクアップワードを分離して訓練と認識を行うことで、プロセッサの作業ストレスを大幅に減らし、応答時間も減らし、ユーザの使用体験を最適化する。
【0046】
例示的には、音声エアコンを例に挙げて、音声エアコンが受信した認識待ちのオーディオは「美ちゃん美ちゃん」と仮定すると、ウェイクアップモデルは、少なくとも2つのウェイクアップワード(例えば、「美ちゃん美ちゃん」、「美ちゃん、こんにちは」)に対応する訓練データと組み合わせて、各ウェイクアップワードに対応する信頼度を確定し、最後に、「美ちゃん美ちゃん」、「美ちゃん、こんにちは」という2つのウェイクアップワードのそれぞれに対応する信頼度を得る。
【0047】
音声設備に音声認識モジュールを内蔵して認識待ちのオーディオを認識してもよいが、もちろん、音声設備とサーバとを通信接続することにより、サーバを介して音声認識を行い、具体的な結果を音声設備にフィードバックして入力として用いることにより、複数の音声設備間のウェイクワードのクロストークを防止することができ、具体的な方式は実際状況に応じて調整すればよいことが理解される。なお、ウェイクアップワードは、予め設定された任意の文字であってもよく、本実施例に何ら限定されないことも理解される。
【0048】
なお、認識待ちのオーディオに対して、本開示の実施例は、ウェイクアップモデルおよび少なくとも2組の訓練データを用いてそれぞれ処理する前に、認識待ちのオーディオに対して、テキスト変換処理を行い、オーディオテキスト情報を得ることもでき、次に、文字マッチングまたは意味マッチングの方法でオーディオテキスト情報をマッチング処理し、少なくとも1つのキーワードまたはキーフレーズを確定し、その後、ウェイクアップモデルおよび少なくとも2組の訓練データを用いてそれぞれ処理するが、ここでは割愛する。
【0049】
それに加えて、本開示の実施例では、ウェイクアップモデおよび信頼度閾値は工場出荷時の設定で事前に音声設備に設定され、音声設備に初回に電源を入れて使用する時に初期のウェイクアップモデルおよび信頼度閾値があり、その後の使用中に、それがユーザの使用シナリオにより適合するように訓練更新することができるが、ここでも何ら限定されることはない。
【0050】
更に、ここでの少なくとも2組の訓練データが2組である場合を仮定すると、このとき、前記少なくとも2組の訓練データは、第1モデルパラメータおよび第1信頼度閾値を含む第1組の訓練データと、第2モデルパラメータおよび第2信頼度閾値を含む第2組の訓練データとを含む。
【0051】
相応的に、いくつかの実施例では、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第1組の訓練データにおける前記第1モデルパラメータを使用して前記認識待ちのオーディオを処理し、第1信頼度を得、前記第1組の訓練データから前記第1信頼度に対応する前記第1信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第2組の訓練データにおける前記第2モデルパラメータを使用して前記認識待ちのオーディオを処理し、第2信頼度を得、前記第2組の訓練データから前記第2信頼度に対応する前記第2信頼度閾値を確定するステップと、を含む。
【0052】
すなわち、ウェイクアップワードA及びウェイクアップワードBが存在すると仮定すると、ウェイクアップワードAの訓練データ及びウェイクアップワードBの訓練データを得た後、ウェイクアップモデル及びウェイクアップワードAの訓練データを用いて認識待ちのオーディオを処理し、ウェイクアップワードAの信頼度及び対応する信頼度閾値を得ることができ、ウェイクアップモデルおよびウェイクアップワードBの訓練データを用いて認識待ちのオーディオを処理し、ウェイクアップワードBの信頼度および対応する信頼度閾値を得ることで、これらの2組の訓練データのそれぞれに対応する信頼度および信頼度閾値を得、後で比較してトリガ待ちのウェイクアップイベントを確定するようにする。
【0053】
ステップS103において、前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガする。
【0054】
なお、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値が得られた後、これらの少なくとも2つの信頼度とそれぞれに対応する信頼度閾値とをそれぞれ比較してもよく、その後、比較結果に基づいて、音声設備のウェイクアップイベントをトリガする。
【0055】
具体的には、2つのウェイクアップワードの場合を例に挙げると、この時、少なくとも2つの信頼度は、第1信頼度と第2信頼度のみを含む。いくつかの実施例では、ステップS103について、前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上である場合、または前記第2信頼度が前記第2信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップを含むことができる。
【0056】
本開示の実施例では、前記ウェイクアップイベントは第1ウェイクアップイベントおよび/または第2ウェイクアップイベントを含むことができ、前記第1ウェイクアップイベントは前記第1組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第2ウェイクアップイベントは前記第2組の訓練データに対応するウェイクアップワードと関連関係を有する。
【0057】
いくつかの実施例では、少なくとも2つの信頼度は第1信頼度と第2信頼度とを含む場合、前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値より小さい場合、前記音声設備の前記第1ウェイクアップイベントがトリガされるステップ、または、
前記第2信頼度が前記第2信頼度閾値以上であって前記第1信頼度が前記第1信頼度閾値より小さい場合、前記音声設備の前記第2ウェイクアップイベントがトリガされるステップ、または、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値以上である場合、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とが計算され、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、をさらに含むことができる。
【0058】
なお、2つの信頼度がいずれも対応する信頼度閾値以上である場合、この時、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とを計算する必要がある。いくつかの実施例では、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第1値が前記第2値以上である場合、前記目標ウェイクアップイベントは前記第1ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第1値が前記第2値より小さい場合、前記目標ウェイクアップイベントは前記第2ウェイクアップイベントであると確定され、トリガされるステップ、を含むことができる。
【0059】
例示的には、ウェイクアップ待ちの設備の音収集装置が「美さん」という内容の認識待ちのオーディオを受信した場合、ウェイクアップモデルは、ウェイクアップワードである「美ちゃん美ちゃん」に対応する訓練データとウェイクアップワードである「美さん」に対応する訓練データとに合わせて、それぞれ「美ちゃん美ちゃん」に対応する信頼度と「美さん」に対応する信頼度とを得、2つの信頼度とそれぞれに対応する信頼度閾値とをそれぞれ比較し、「美ちゃん美ちゃん」の信頼度がそれに対応する信頼度閾値以上である場合、「美ちゃん美ちゃん」に対応するウェイクアップイベントを目標ウェイクアップイベントとし、そうでない場合には、「美さん」の信頼度がそれに対応する信頼度閾値以上であれば、「美さん」に対応するウェイクアップイベントを目標ウェイクアップイベントとする。
【0060】
なお、特殊な状況下において、「美ちゃん美ちゃん」と「美さん」の信頼度がいずれもそれに対応する信頼度閾値以上であれば、信頼度が信頼度閾値を超えた量を比較することができ、2つのウェイクアップワードのうちの信頼度が信頼度閾値を超えた量がより多い一つのウェイクアップワードに対応するウェイクアップイベントを目標ウェイクアップイベントとする。このようにして、目標ウェイクアップイベントが確定された後、対応するウェイクアップ操作を行うように、音声設備に当該目標ウェイクアップイベントを実行させることができる。
【0061】
なお、異なるウェイクアップワード、例えば異なる発音で同じ意味を持つウェイクアップワードは、同じウェイクアップ指令を生成することができる。ここで、同一のウェイクアップ指令が相応するウェイクアップイベントをウェイクアップすることは、単一の音声設備の異なるウェイクアップワードのウェイクアッププロセスに適用することができ、また、複数の音声設備からなるカスケード型音声中央制御システムに適用することができ、本開示の実施例は、状況に応じて必要に応じて選択することができ、ここでは何ら限定もしない。
【0062】
本開示の実施例は、音声設備に適用される音声処理方法を提供する。認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも2つの信頼度とそれぞれに対応する信頼度閾値との比較結果により、前記音声設備のウェイクアップイベントをトリガする。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率も低減することもできる。
【0063】
実施例2
前述した実施例と同じ発明思想に基づいて、
図2を参照すると、本開示の実施例が提供した他のウェイクアップ処理方法の概略フロー図を示す。
図2に示すように、この方法は、
ステップS201であって、少なくとも2つのウェイクアップワードを含む初期訓練セットを取得するステップと、
ステップS202であって、異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも2組のウェイクアップワード訓練セットを得るステップと、
ステップS203であって、前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得るステップと、を含む。
【0064】
なお、本開示の実施例では、ウェイクアップモデルはニューラルネットワークモデルであってもよい。その中で、ニューラルネットワーク(Neural Networks,NN)は大量の簡単な処理ユニット(「ニューロン」と呼ばれる)が広範に相互に接続して形成された複雑なネットワークシステムであり、それは人の脳機能の多くの基本特徴を反映して、1つの高度に複雑な非線形動力学習システムである。ニューラルネットワークは、大規模並列、分散記憶および処理、自己組織化、自適応、および自己学習能力を有し、多くの要因および条件を同時に考慮する必要があり且つ不正確で曖昧な情報処理問題の処理に特に適している。ここで、ウェイクアップモデルは、ディープニューラルネットワーク(Deep Neural Networks、DNN)モデルとすることができる。具体的には、ここでのウェイクアップモデルは、DNNの構造設計と各ニューロンの数学モデルとを含むことができる。
【0065】
なお、本開示の実施例では、各組の訓練データは、少なくともモデルパラメータおよび信頼度閾値を含むことができる。具体的には、ここでの訓練データは、DNNにおける訓練後に得られた最適パラメータ(「モデルパラメータ」と略称)及び信頼度閾値などを含めることができる。
【0066】
また、本開示の実施例は、対応する訓練データを得るように、複数のウェイクアップワードが分離して訓練されるウェイクアップモデルを使用することができ、これにより、ウェイクアップワードデータが分離して互いに干渉しない方式を実現できることを説明する必要がある。また、マルチモデルは複数のモデルを用いて別々に訓練を行うため、後期の使用過程では、ウェイクアップモデルのロードに時間がかかるため、切り替え過程により認識の遅延が深刻になるが、本開示の実施例により提供される技術案は、マルチモデルの方案とは異なり、ここでは、異なるウェイクアップワードを使用して同じウェイクアップモデルを介して訓練し、それにより、ウェイクアップ処理過程中の遅延の問題も低減される。
【0067】
また、異なるウェイクアップワードを基準にグループ化して訓練セットを分け、異なるウェイクアップワードに対応する訓練セットを個別で訓練し、得られたデータを独立に保存することで、限られた訓練セットでモデルを訓練することができ、ウェイクアップワード間でクロストークが発生しない技術的効果を達成することができ、ウェイクアップワードを同時に訓練してウェイクアップするモデルの場合とは異なり、ウェイクアップワード間のお互いのクロストークを回避できることを説明する必要がある。
【0068】
さらに、新しいウェイクアップワードを増加する必要がある場合、いくつかの実施例では、この方法は、新しいウェイクアップワードに対応する1組のウェイクアップワード訓練セットに従って、前記ウェイクアップモデルを訓練し、新しい1組の訓練データを得る。
【0069】
すなわち、本開示の実施例はデータ分離を実現しているため、再訓練は新たに増加されたウェイクアップワードに対してのみ必要であり、既存のウェイクアップワードに影響を与えることはなく、これにより、新しいウェイクアップワードが増加された場合にも、開発効率を向上させることができる。
【0070】
換言すれば、既に使用されているウェイクアップモデルであれば、新しいウェイクアップワードを増加する必要がある場合には、上記実施例の訓練方法に従って、新しいウェイクアップワードを使用して既存モデルを訓練することもでき、ここでは、既に使用されているウェイクアップモデルは、上述の技術案におけるウェイクアップモデルとして、ウェイクアップモデルが継続的に訓練され、ウェイクアップモデルが継続的に新しいウェイクアップワードを学習することにより、製品が継続的に更新され、ユーザの新しい需要を満たすことができる。
【0071】
例示的に、ウェイクアップワードAおよびウェイクアップワードBが存在することを例として、
図3を参照すると、
図3は、本開示の実施例が提供したウェイクアップモデルの訓練プロセスの概略図である。
図3では、2組のウェイクアップワード訓練セット、例えばウェイクアップワードA訓練セットとウェイクアップワードB訓練セットがここに存在し、ウェイクアップワードA訓練セットを用いてウェイクアップモデルを訓練し、ウェイクアップワードAの訓練データを得ることができ、ウェイクアップワードB訓練セットを用いてウェイクアップモデルを訓練し、ウェイクアップワードBの訓練データを得ることができる。
【0072】
具体的には、本開示の実施例は、2つのウェイクアップワード訓練セットを使用して同じウェイクアップモデルを訓練し、2組の訓練データを得ることができる。ここで、入力された初期訓練セットを異なるウェイクアップワードによって異なるグループに分け、各組のウェイクアップワード訓練セットは、全てのウェイクアップワード訓練セットの訓練が終了するまで、順次個別に入力データとしてウェイクアップモデルを訓練する。なお、各組のウェイクアップワード訓練セットは、ウェイクアップモデルを訓練した後に得られた訓練データを異なるウェイクアップワードによって区切って格納されていることに注意する必要がある。
【0073】
例示的に、ウェイクアップワード訓練セットの分けは、異なるウェイクアップワードによってグループ化され、ここで、異なるウェイクアップワードは、全く異なる意味を持つウェイクアップワードであってもよいし、同じ意味を持つが異なる方言のウェイクアップワード、例えば、ウェイクアップワードの広東語(シユウメイシユウメイ)および標準語(ショウメイショウメイ)であってもよい。このように、ウェイクアップモデルを利用して認識処理を行う場合、複数の入力情報を入力して1つの出力情報を得ることができる。ここで、入力情報は認識待ちのオーディオであり、ウェイクアップモデルに音声認識モジュールを内蔵し、認識待ちのオーディオを認識して対応するウェイクアップイベントを出力することができ、音声設備に音声認識モジュールを設置し、音情報から認識待ちのオーディオを取得し、認識待ちのオーディオを音声認識し、対応するウェイクアップイベントを出力することもできる。本開示の実施例では、情報を入力する具体的な方式は、実際のニーズに応じて選択すればよく、何ら限定されることではない。
【0074】
本開示の実施例は、音声設備に適用される音声処理方法を提供する。前記少なくとも2組のウェイクアップワード訓練セットを取得し、前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得、各組の訓練データはモデルパラメータおよび信頼度閾値を含む。このように、異なるウェイクアップワードが同時に訓練された場合にウェイクアップワードのクロストークが発生する可能性を回避することができ、ウェイクアップワードの相互分離と訓練データの相互分離を実現することができ、複数のウェイクアップワードが同時に認識された場合、音声設備の誤ウェイクアップ率を低減することができる。
【0075】
実施例3
前述した実施例と同じ発明思想に基づいて、
図4を参照すると、本開示の実施例が提供したウェイクアップ処理方法の詳しい概略フロー図を示す。ウェイクアップワードAおよびウェイクアップワードBが存在することを例として、
図4に示されるように、この方法は、
ステップS401であって、マイクはリアルタイムでオーディオを収集し、フロントエンドの前処理を経て認識待ちのオーディオを得るステップと、
ステップS402であって、ウェイクアップモデルおよびウェイクアップワードAの訓練データを使用して前記認識待ちのオーディオを処理し、信頼度Aおよび対応する信頼度閾値Aを得るステップと、
ステップS403であって、ウェイクアップモデルおよびウェイクアップワードBの訓練データを使用して前記認識待ちのオーディオを処理し、信頼度Bおよび対応する信頼度閾値Bを得るステップと、
ステップS404であって、信頼度A≧信頼度閾値A、又は信頼度B≧信頼度閾値Bであるか否かを判定するステップと、
ステップS405であって、判定結果がYESであれば、音声設備のウェイクアップイベントをトリガするステップと、を含む。
【0076】
なお、ステップS404において、判定結果がYESであれば、ステップS405を実行してもよく、音声設備をウェイクアップした後、ステップS401に戻って次回のオーディオの収集を継続してもよく、判定結果がNOであれば、そのままステップS401に戻り、次回のオーディオの収集を継続してもよい。
【0077】
本開示の実施例では、単一のウェイクアップモデルを採用し、異なるウェイクアップワードを別々に訓練して独立した訓練データを得ることにより、ウェイクアップワードの訓練データが分離して互いに干渉しないことを実現する。
【0078】
1つの可能な実施例では、関連するプロセスは以下のとおりである。
【0079】
(1)複数のウェイクアップワードの設計が同一のウェイクアップモデルを使用する。
【0080】
(2)ウェイクアップワードA訓練セットを用いてウェイクアップモデルを訓練してウェイクアップワードAの訓練データを得る。
【0081】
(3)ウェイクアップワードB訓練セットを用いてウェイクアップモデルを訓練してウェイクアップワードBの訓練データを得る。
【0082】
(4)ウェイクアップモデルとウェイクアップワードAの訓練データとウェイクアップワードBの訓練データとをウェイクアップ認識のために音声モジュールに格納する。
【0083】
(5)マイクはリアルタイムでオーディオを収集し、フロントエンドの処理を経て認識待ちのオーディオを得る。
【0084】
(6)ウェイクアップモデルおよびウェイクアップワードAの訓練データを使用して認識待ちのオーディオを処理し、信頼度Aおよび信頼度閾値Aを得る。
【0085】
(7)ウェイクアップモデルおよびウェイクアップワードBの訓練データを使用して認識待ちのオーディオを処理し、信頼度Bおよび対応する信頼度閾値Bを得る。
【0086】
(8)信頼度A≧信頼度閾値A、又は信頼度B≧信頼度閾値Bであると、ウェイクアップイベントをトリガする。
【0087】
別の可能な実施例では、(8)の処理ステップについて、以下の方式を採用することもできる。
【0088】
(1)信頼度A≧信頼度閾値A、且つ信頼度B<信頼度閾値Bであると、Aのウェイクアップイベントをトリガする。
【0089】
(2)信頼度A<信頼度閾値A、且つ信頼度B≧信頼度閾値Bであると、Bのウェイクアップイベントをトリガする。
【0090】
(3)信頼度A≧信頼度閾値A、且つ信頼度B≧信頼度閾値Bであると、信頼度閾値を超えたパーセンテージ値に基づいて総合的に判断し、ウェイクアップイベントをトリガする。
【0091】
なお、関連技術の方案で、複数のウェイクアップワードを同時に訓練すると、異なるウェイクアップワードの間にクロストークがあり、即ち訓練度が足りない状況下で環境騒音中に2つのウェイクアップワードのぼやけた音が現れて誤判断され、特に重複語が存在する時(例えば「美ちゃん美ちゃん」と「美さん」)、模型の設計と大量の訓練セットによって各ウェイクアップワードを区別する必要があり、ハードウェアの記憶資源の制限とウェイクアップ応答速度の要求により、クロストークの問題を解決するのは比較的に難しい。本実施例では、各組のウェイクアップワード訓練セットを用いて個別に訓練することにより、他のウェイクアップワードとのクロストークの可能性がなくなり、より少ない訓練量でより良い認識効果を達成することができる。
【0092】
ウェイクアップワードが美ちゃん美ちゃんの広東語(シユウメイシユウメイ)および標準言(ショウメイショウメイ)であることを例として、ウェイクアップワードが同時に訓練する場合と分離して訓練する場合、モデルテストデータの対比を表1に示す。
【0093】
【0094】
上記の表1のモデルテストデータから分かるように、本開示の実施例の方案は、複数のウェイクアップワードが同時に認識された場合に、小さな誤ウェイクアップ率を達成することができるが、関連技術の方案は、ウェイクアップワードを同時に訓練し、誤ウェイクアップテストの企業標準化要件は、24時間に3回以下であり、本開示の実施例についてウェイクアップワードを個別に訓練すると、誤ウェイクアップテストにおいて72時間に1回以下で行うことができる。且つ、本開示の実施例は、新しいウェイクアップワードを増加する場合、データを分離するので、再訓練は新たに増加されたウェイクアップワードに対してのみ必要であり、既存のウェイクアップワードに影響を与えることはなく、開発効率も向上させることができる。
【0095】
本開示の実施例はウェイクアップ処理方法を提供し、上述した実施例により前記実施例を具体的に実現することを詳細に説明し、これから分かるように、前記実施例の技術案により、異なるウェイクアップワードが同時に訓練された場合にウェイクアップワードのクロストークが発生する可能性を回避することができ、ウェイクアップワードの訓練データが分離して互いに干渉しないことを実現し、複数のウェイクアップワードが同時に認識された場合、音声設備の誤ウェイクアップ率を低減することもできる。
【0096】
実施例4
前述した実施例と同じ発明思想に基づいて、
図5を参照すると、本開示の実施例が提供したウェイクアップ処理装置の構成を示す概略図である。
図5に示すように、前述ウェイクアップ処理装置50は、取得ユニット501と、処理ユニット502と、トリガユニット503と、を含むことができ、そのうち、
取得ユニット501は認識待ちのオーディオを取得するように配置され、
処理ユニット502はウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得、そのうち、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、
トリガユニット503は前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置された。
【0097】
いくつかの実施例では、取得ユニット501は、具体的に、音収集装置によるデータ収集により、初期音声データを取得し、そして、前記初期音声データを前処理して前記認識待ちのオーディオを得るように配置される。
【0098】
いくつかの実施例では、各組の訓練データは、モデルパラメータおよび信頼度閾値を含み、相応的に、処理ユニット502は、具体的に、前記ウェイクアップモデルおよび前記少なくとも2組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度を得、そして前記少なくとも2組の訓練データから前記少なくとも2つの信頼度のそれぞれに対応する信頼度閾値を得るように配置される。
【0099】
いくつかの実施例では、前記少なくとも2組の訓練データは、第1モデルパラメータおよび第1信頼度閾値を含む第1組の訓練データと、第2モデルパラメータおよび第2信頼度閾値を含む第2組の訓練データとを含み、相応的に、処理ユニット502は、具体的に、前記ウェイクアップモデルおよび前記第1組の訓練データにおける前記第1モデルパラメータを使用して前記認識待ちのオーディオを処理し、第1信頼度を得、そして前記第1組の訓練データから前記第1信頼度に対応する前記第1信頼度閾値を確定し、前記ウェイクアップモデルおよび前記第2組の訓練データにおける前記第2モデルパラメータを使用して前記認識待ちのオーディオを処理し、第2信頼度を得、そして前記第2組の訓練データから前記第2信頼度に対応する前記第2信頼度閾値を確定するように配置される。
【0100】
いくつかの実施例では、トリガユニット503は、具体的に、前記第1信頼度が前記第1信頼度閾値以上である場合、または前記第2信頼度が前記第2信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるように配置される。
【0101】
いくつかの実施例では、前記ウェイクアップイベントは第1ウェイクアップイベントおよび/または第2ウェイクアップイベントを含み、前記第1ウェイクアップイベントは前記第1組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第2ウェイクアップイベントは前記第2組の訓練データに対応するウェイクアップワードと関連関係を有する。
【0102】
いくつかの実施例では、トリガユニット503は、具体的に、前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値より小さい場合、前記音声設備の前記第1ウェイクアップイベントがトリガされ、または、前記第2信頼度が前記第2信頼度閾値以上であって前記第1信頼度が前記第1信頼度閾値より小さい場合、前記音声設備の前記第2ウェイクアップイベントがトリガされ、または、前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値以上である場合、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とが計算され、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるように配置される。
【0103】
いくつかの実施例では、トリガユニット503は、更に、前記第1値が前記第2値以上である場合、前記目標ウェイクアップイベントは前記第1ウェイクアップイベントであると確定され、トリガされ、または、前記第1値が前記第2値より小さい場合、前記目標ウェイクアップイベントは前記第2ウェイクアップイベントであると確定され、トリガされるように配置される。
【0104】
いくつかの実施例では、取得ユニット501は、更に、前記少なくとも2組のウェイクアップワード訓練セットを取得するように配置され、
処理ユニット502は、更に、前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得、各組の訓練データはモデルパラメータおよび信頼度閾値を含むように配置される。
【0105】
いくつかの実施例では、取得ユニット501は、更に、初期訓練セットを取得し、そのうち、前記初期訓練セットは少なくとも2つのウェイクアップワードを含み、異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも2組のウェイクアップワード訓練セットを得るように配置される。
【0106】
なお、本実施例では、「ユニット」は、部分的な回路、部分的なプロセッサ、部分的なプログラム、またはソフトウェアなどであってもよく、もちろんモジュールであってもよく、非モジュールであってもよい。また、本実施例における各構成要素は、1つの処理ユニットに統合されていてもよいし、個々のユニットが物理的に個別に存在していてもよいし、2つ以上のユニットが1つのユニットに統合されていてもよい。上記統合されたユニットは、ハードウェアの形で実現してもよく、ソフトウェア機能モジュールの形で実現してもよい。
【0107】
前記統合されたユニットは、独立した製品として販売または使用されるのではなく、ソフトウェア機能モジュールの形で実現される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよく、このような理解に基づいて、本実施例の技術案は本質的なまたは先行技術に貢献する部分または当該技術案のすべてまたは一部は、ソフトウェア製品の形で具現化され、当該ソフトウェア製品は一つの記憶媒体に記憶され、1つのコンピュータ(パソコン、サーバ、エアコン、またはネットワーク設備などであってもよい)またはプロセッサ(processor)が本実施例に記載の方法のすべてまたは一部のステップを実行するようにするための複数の指令を含むことができる。一方、上述した記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク、光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。
【0108】
従って、本実施例は、少なくとも1つのプロセッサによって実行されると、前記実施例のいずれか一項に記載の方法のステップを実現するウェイクアップ処理プログラムを記憶したコンピュータ記憶媒体を提案する。
【0109】
上述したウェイクアップ処理装置50の構成およびコンピュータ記憶媒体に基づいて、
図6を参照すると、本開示の実施例が提供したウェイクアップ処理装置50の具体的なハードウェア構造の概略図である。
図6に示すように、通信インターフェース601、メモリ602、およびプロセッサ603を含むことができ、各コンポーネントは、バスシステム604を介して互いに結合される。バスシステム604は、これらのコンポーネント間の接続通信を実現するために使用されることが理解されるべきである。バスシステム604は、データバスに加えて、電源バス、制御バス、および状態信号バスを含む。しかしながら、明確に説明するために、
図6では、様々なバスがバスシステム604として示されている。そのうち、通信インターフェース601は、他の外部ネットワーク要素との間での情報の送受信の過程で信号を受信および送信するためのものであり、
メモリ602は、プロセッサ603上で実行可能なコンピュータプログラムを記憶するためのものであり、
プロセッサ603は、前記コンピュータプログラムの実行中に、
認識待ちのオーディオを取得することと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得ることであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであることと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガすることと、を実行する。
【0110】
本開示の実施例におけるメモリ602は、揮発性メモリまたは不揮発性メモリであってもよく、または揮発性メモリおよび不揮発性メモリの両方を含んでいてもよいことを理解されたい。そのうち、不揮発性メモリは、読出し専用メモリ(Read-Only Memory、ROM)、プログラマブル読出し専用メモリ(Programmable ROM、PROM)、消去可能プログラマブル読出し専用メモリ(Erasable PROM、EPROM)、電気的消去可能プログラマブル読出し専用メモリ(Electrically EPROM、EEPROM)、またはフラッシュメモリであってもよい。揮発性メモリは、外部キャッシュとして機能するランダムアクセスメモリ(Random Access Memory、RAM)とすることができる。例示的であるが限定的ではない説明により、多くの形式のRAM、例えば、スタティックランダムアクセスメモ(Static RAM、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic RAM、DRAM)、同期型ダイナミックランダムアクセスメモリ(Synchronous DRAM、SDRAM)、ダブルデータレート同期型ダイナミックランダムアクセスメモリ(Double Data Rate SDRAM、DDRSDRAM)、エンハンスメント同期ダイナミックランダムアクセスメモリ(Enhanced SDRAM、ESDRAM)、同期チェーン型ダイナミックランダムアクセスメモリ(Synchronous link DRAM、SLDRAM)、及び直接メモリバス型ランダムアクセスメモリ(Direct Rambus RAM、DRRAM)が利用可能である。本明細書で説明されるシステムおよび方法におけるメモリ602は、これらおよび任意の他の適切なタイプのメモリを含むことが意図されるが、これらに限定されない。
【0111】
一方、プロセッサ603は、信号の処理能力を有する集積回路チップであってもよい。実現されるプロセスにおいて、上記方法の各ステップは、プロセッサ603におけるハードウェアの集積論理回路またはソフトウェア形式の指令によって達成されることができる。上記のプロセッサ603は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。本開示の実施例における開示された各方法、ステップ、および論理ブロック図は、実現または実行されることができる。汎用プロセッサは、マイクロプロセッサであってもよいし、当該プロセッサは、任意の通常のプロセッサ等であってもよい。本開示の実施例に関連して開示された方法のステップは、ハードウェア復号プロセッサによる実行完了として直接具現化されてもよく、または復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行完了されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラマブル読み取り専用メモリ、または電気的に消去可能で書き込み可能なプログラマブルメモリ、レジスタなど、当技術分野で成熟した記憶媒体中に配置することができる。当該記憶媒体はメモリ602に配置され、プロセッサ603は、メモリ602内の情報を読み取り、そのハードウェアに関連して上記の方法のステップを完了する。
【0112】
本明細書に記載されたこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現されてもよいことが理解されるであろう。ハードウェアの実現について、処理ユニットは、1つまたは複数の特定用途向け集積回路(Application Specific Integrated Circuits、ASIC)、デジタル信号プロセッサ(Digital Signal Processing、DSP)、デジタル信号処理デバイス(DSP Device、DSPD)、プログラマブル論理デバイス(Programmable Logic Device、PLD)、フィールドプログラマブルゲートアレイ(Field- Programmable Gate Array、FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本開示で説明されている前記機能を実行するための他の電子ユニットまたはその組み合わせに実現されてもよい。
【0113】
ソフトウェアの実現について、本明細書に記載された技術は、本明細書に記載された機能を実行するモジュール(例えば、プロセス、関数など)によって実現されることができる。ソフトウェアコードは、メモリに記憶され、プロセッサによって実行されることができる。メモリは、プロセッサ内またはプロセッサ外に実現され得る。
【0114】
選択的に、別の実施例として、プロセッサ603は、更に、前記コンピュータプログラムの実行中に、前記実施例のいずれか一項に記載の方法のステップを実行するように配置される。
【0115】
なお、本開示において、用語「含む」、「包含する」、またはその他の任意の変形は、非排他的な含むことをカバーすることを意図しており、それにより、一連の要素を含むプロセス、方法、物または装置は、それらの要素だけでなく、明示的にリストされていない他の要素も含み、またはそのようなプロセス、方法、物または装置に固有の要素も含む。これ以上の制限がない場合は、文句「一つ…を含む」にて限定された要素は、当該要素を含むプロセス、方法、物又は装置においてさらに同一の要素が存在することを排除するものではない。
【0116】
上述した本開示の実施例の番号は、単に説明のためのものであり、実施例の優劣を示すものではない。
【0117】
本開示によって提供されるいくつかの方法の実施例において開示される方法は、矛盾することなく任意に組み合わせて、新しい方法の実施例を得ることができる。
【0118】
本開示によって提供されるいくつかの製品の実施例において開示される特徴は、矛盾することなく任意に組み合わせて、新しい特徴の実施例を得ることができる。
【0119】
本開示によって提供されるいくつかの方法または設備の実施例において開示される特徴は、矛盾することなく任意に組み合わせて、新しい方法の実施例または設備の実施例を得ることができる。
【0120】
上記は、本開示の具体的な実施態様のみであるが、本開示の保護範囲はこれに限定されるものではなく、本開示に記載された技術的範囲内において、当業者が容易に変更または代替を思いつくことができるすべてのものは、本開示の保護範囲内に含まれるべきである。したがって、本開示の保護範囲は、前記請求の範囲の保護範囲に準ずるべきである。
【手続補正書】
【提出日】2024-03-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声設備に適用されるウェイクアップ処理方法であって、前記方法は、
認識待ちのオーディオを取得するステップと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップと、を含むことを特徴とするウェイクアップ処理方法。
【請求項2】
前記認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
各組の前記訓練データは、モデルパラメータおよび信頼度閾値を含み、前記ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも2組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度を得、そして、前記少なくとも2組の訓練データから前記少なくとも2つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記少なくとも2組の訓練データは、第1モデルパラメータおよび第1信頼度閾値を含む第1組の訓練データと、第2モデルパラメータおよび第2信頼度閾値を含む第2組の訓練データとを含み、
前記ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第1組の訓練データにおける前記第1モデルパラメータを使用して前記認識待ちのオーディオを処理し、第1信頼度を得、前記第1組の訓練データから前記第1信頼度に対応する前記第1信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第2組の訓練データにおける前記第2モデルパラメータを使用して前記認識待ちのオーディオを処理し、第2信頼度を得、前記第2組の訓練データから前記第2信頼度に対応する前記第2信頼度閾値を確定するステップと、を含むことを特徴とする請求項
1に記載の方法。
【請求項5】
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上である場合、または前記第2信頼度が前記第2信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記ウェイクアップイベントは第1ウェイクアップイベントおよび/または第2ウェイクアップイベントを含み、前記第1ウェイクアップイベントは前記第1組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第2ウェイクアップイベントは前記第2組の訓練データに対応するウェイクアップワードと関連関係を有することを特徴とする請求項5に記載の方法。
【請求項7】
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値より小さい場合、前記音声設備の前記第1ウェイクアップイベントがトリガされるステップ、または、
前記第2信頼度が前記第2信頼度閾値以上であって前記第1信頼度が前記第1信頼度閾値より小さい場合、前記音声設備の前記第2ウェイクアップイベントがトリガされるステップ、または、
前記第1信頼度が前記第1信頼度閾値以上であって前記第2信頼度が前記第2信頼度閾値以上である場合、前記第1信頼度が前記第1信頼度閾値を超える第1値と、前記第2信頼度が前記第2信頼度閾値を超える第2値とが計算され、前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項6に記載の方法。
【請求項8】
前記第1値および前記第2値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第1値が前記第2値以上である場合、前記目標ウェイクアップイベントは前記第1ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第1値が前記第2値より小さい場合、前記目標ウェイクアップイベントは前記第2ウェイクアップイベントであると確定され、トリガされるステップ、を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記方法は、
前記少なくとも2組のウェイクアップワード訓練セットを取得するステップと、
前記少なくとも2組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも2組の訓練データを得るステップであって、各組の訓練データはモデルパラメータおよび信頼度閾値を含むステップと、をさらに含むことを特徴とする請求項1に記載の方法。
【請求項10】
前記少なくとも2組のウェイクアップワード訓練セットを取得するステップは、
少なくとも2つのウェイクアップワードを含む初期訓練セットを取得するステップと、
異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも2組のウェイクアップワード訓練セットを得るステップと、を含むことを特徴とする請求項9に記載の方法。
【請求項11】
音声設備に適用されるウェイクアップ処理装置であって、前記ウェイクアップ処理装置は、
認識待ちのオーディオを取得するように配置された取得ユニットと、
ウェイクアップモデルおよび少なくとも2組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも2つの信頼度およびそれぞれに対応する信頼度閾値を得る処理ユニットであって、前記少なくとも2組の訓練データは、少なくとも2組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるように配置された処理ユニットと、
前記少なくとも2つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置されたトリガユニットと、を含むことを特徴とするウェイクアップ処理装置。
【請求項12】
メモリおよびプロセッサを含む音声設備であって、
前記メモリは、前記プロセッサで実行可能なコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムの実行中に、請求項1~10のいずれか一項に記載の方法を実行するために使用されることを特徴とする音声設備。
【請求項13】
コンピュータ記憶媒体であって、少なくとも1つのプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを記憶したことを特徴とするコンピュータ記憶媒体。
【請求項14】
コンピュータプログラムであって、少なくとも1つのプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法が実現されることを特徴とするコンピュータプログラム。
【国際調査報告】