特表2024-528331 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 佛山市▲順▼▲徳▼区美的▲電▼子科技有限公司の特許一覧 ▶ 広東美的制冷設備有限公司の特許一覧

特表2024-528331ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-26

(54)【発明の名称】ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体

(51)【国際特許分類】

G10L 15/06 20130101AFI20240719BHJP

G10L 15/28 20130101ALI20240719BHJP

【ＦＩ】

G10L15/06 400V

G10L15/28 230K

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024531560

(86)(22)【出願日】2022-03-23

(85)【翻訳文提出日】2024-03-01

(86)【国際出願番号】 CN2022082571

(87)【国際公開番号】W WO2023010861

(87)【国際公開日】2023-02-09

(31)【優先権主張番号】202110904169.X

(32)【優先日】2021-08-06

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】524050604

【氏名又は名称】佛山市▲順▼▲徳▼区美的▲電▼子科技有限公司

【氏名又は名称原語表記】ＦＯＳＨＡＮＳＨＵＮＤＥＭＩＤＥＡＥＬＥＣＴＲＩＣＳＣＩＥＮＣＥＡＮＤＴＥＣＨＮＯＬＯＧＹＣＯ．，ＬＴＤ．

【住所又は居所原語表記】ＤｉｓｔｒｉｃｔＢ，Ｎｏ．８，Ｘｉｎｙｅ４ｔｈＲｏａｄ，ＰｉｏｎｅｅｒＰａｒｋ，ＳｈｕｎｊｉａｎｇＮｅｉｇｈｂｏｒｈｏｏｄＣｏｍｍｉｔｔｅｅ，Ｂｅｉｊｉａｏ，ＳｈｕｎｄｅＦｏｓｈａｎ，Ｇｕａｎｇｄｏｎｇ５２８３１１Ｃｈｉｎａ

(71)【出願人】

【識別番号】517344192

【氏名又は名称】広東美的制冷設備有限公司

【氏名又は名称原語表記】ＧＤＭＩＤＥＡＡＩＲ－ＣＯＮＤＩＴＩＯＮＩＮＧＥＱＵＩＰＭＥＮＴＣＯ．，ＬＴＤ．

【住所又は居所原語表記】ＬｉｎｇａｎｇＲｏａｄ，Ｂｅｉｊｉａｏ，Ｓｈｕｎｄｅ，Ｆｏｓｈａｎ，Ｇｕａｎｇｄｏｎｇ，Ｃｈｉｎａ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100108213

【弁理士】

【氏名又は名称】阿部豊隆

(74)【代理人】

【識別番号】100213517

【弁理士】

【氏名又は名称】韓明花

(72)【発明者】

【氏名】チェン，バイヤン

(72)【発明者】

【氏名】チェン，イーロン

(72)【発明者】

【氏名】フオ，ウェイミン

(57)【要約】

本開示は、ウェイクアップ処理方法、装置、設備、コンピュータ記憶媒体を提供し、音声設備に適用され、当該方法は、認識待ちのオーディオを取得するステップ（Ｓ１０１）と、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップ（Ｓ１０２）と、前記少なくとも２つの信頼度とそれぞれに対応する信頼度閾値との比較結果に基づいて、音声設備のウェイクアップイベントをトリガするステップ（Ｓ１０３）と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声設備に適用されるウェイクアップ処理方法であって、前記方法は、
認識待ちのオーディオを取得するステップと、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップと、
前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップと、を含むことを特徴とするウェイクアップ処理方法。

【請求項2】

前記認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含むことを特徴とする請求項１に記載の方法。

【請求項3】

各組の前記訓練データは、モデルパラメータおよび信頼度閾値を含み、前記ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも２組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度を得、そして、前記少なくとも２組の訓練データから前記少なくとも２つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含むことを特徴とする請求項１に記載の方法。

【請求項4】

前記少なくとも２組の訓練データは、第１モデルパラメータおよび第１信頼度閾値を含む第１組の訓練データと、第２モデルパラメータおよび第２信頼度閾値を含む第２組の訓練データとを含み、
前記ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第１組の訓練データにおける前記第１モデルパラメータを使用して前記認識待ちのオーディオを処理し、第１信頼度を得、前記第１組の訓練データから前記第１信頼度に対応する前記第１信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第２組の訓練データにおける前記第２モデルパラメータを使用して前記認識待ちのオーディオを処理し、第２信頼度を得、前記第２組の訓練データから前記第２信頼度に対応する前記第２信頼度閾値を確定するステップと、を含むことを特徴とする請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上である場合、または前記第２信頼度が前記第２信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項４に記載の方法。

【請求項6】

前記ウェイクアップイベントは第１ウェイクアップイベントおよび／または第２ウェイクアップイベントを含み、前記第１ウェイクアップイベントは前記第１組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第２ウェイクアップイベントは前記第２組の訓練データに対応するウェイクアップワードと関連関係を有することを特徴とする請求項５に記載の方法。

【請求項7】

前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値より小さい場合、前記音声設備の前記第１ウェイクアップイベントがトリガされるステップ、または、
前記第２信頼度が前記第２信頼度閾値以上であって前記第１信頼度が前記第１信頼度閾値より小さい場合、前記音声設備の前記第２ウェイクアップイベントがトリガされるステップ、または、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値以上である場合、前記第１信頼度が前記第１信頼度閾値を超える第１値と、前記第２信頼度が前記第２信頼度閾値を超える第２値とが計算され、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、を含むことを特徴とする請求項６に記載の方法。

【請求項8】

前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第１値が前記第２値以上である場合、前記目標ウェイクアップイベントは前記第１ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第１値が前記第２値より小さい場合、前記目標ウェイクアップイベントは前記第２ウェイクアップイベントであると確定され、トリガされるステップ、を含むことを特徴とする請求項７に記載の方法。

【請求項9】

前記方法は、
前記少なくとも２組のウェイクアップワード訓練セットを取得するステップと、
前記少なくとも２組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも２組の訓練データを得るステップであって、各組の訓練データはモデルパラメータおよび信頼度閾値を含むステップと、をさらに含むことを特徴とする請求項１に記載の方法。

【請求項10】

前記少なくとも２組のウェイクアップワード訓練セットを取得するステップは、
少なくとも２つのウェイクアップワードを含む初期訓練セットを取得するステップと、
異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも２組のウェイクアップワード訓練セットを得るステップと、を含むことを特徴とする請求項９に記載の方法。

【請求項11】

音声設備に適用されるウェイクアップ処理装置であって、前記ウェイクアップ処理装置は、
認識待ちのオーディオを取得するように配置された取得ユニットと、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得る処理ユニットであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるように配置された処理ユニットと、
前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置されたトリガユニットと、を含むことを特徴とするウェイクアップ処理装置。

【請求項12】

メモリおよびプロセッサを含む音声設備であって、
前記メモリは、前記プロセッサで実行可能なコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムの実行中に、請求項１～１０のいずれか一項に記載の方法を実行するために使用されることを特徴とする音声設備。

【請求項13】

コンピュータ記憶媒体であって、少なくとも１つのプロセッサによって実行されると、請求項１～１０のいずれか一項に記載の方法を実現するコンピュータプログラムを記憶したことを特徴とするコンピュータ記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、２０２１年０８月０６日に提出されて、出願番号が「２０２１１０９０４１６９.Ｘ」であって、出願の名称が「ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体」である中国特許出願の優先権を主張し、この全内容が引用により本開示に組み込まれている。
本開示は、音声認識技術の分野に関し、特に、ウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体に関する。

【背景技術】

【0002】

音声認識技術の発展に伴い、家庭のスマート化がトレンドとなっており、音声設備も人々の日常生活に浸透しつつある。現在、多くのユーザの家庭には多様な種類の音声設備が一般的に存在しており、音声設備の音声制御を行う前に、音声設備のウェイクアップ操作を行う必要がある。

【0003】

しかしながら、関連技術では、これらの音声設備は一般的に複数のウェイクアップワードを認識する必要がある場合があり、これらの異なるウェイクアップワードが同時に訓練され、異なるウェイクアップワード間でクロストークが発生しやすく、さらに誤ウェイクアップの問題が発生し、音声認識の誤ウェイクアップ率が高くなる。

【発明の概要】

【0004】

本開示は、異なるウェイクアップワードが同時に訓練された場合に、ウェイクアップワードのクロストークが発生する可能性を回避し、音声設備の誤ウェイクアップ率を低減できるウェイクアップ処理方法、装置、設備及びコンピュータ記憶媒体を提供することを目的とする。

【0005】

上述の目的を達成するために、本開示の技術案は、以下のように実現される。

【0006】

第１方面によれば、本開示の実施例は、音声設備に適用されるウェイクアップ処理方法であって、
認識待ちのオーディオを取得するステップと、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるステップと、
前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップと、を含むウェイクアップ処理方法を提供する。

【0007】

いくつかの実施例では、認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含む。

【0008】

いくつかの実施例では、各組の訓練データは、モデルパラメータおよび信頼度閾値を含み、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも２組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度を得、そして、前記少なくとも２組の訓練データから前記少なくとも２つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含む。

【0009】

いくつかの実施例では、前記少なくとも２組の訓練データは、第１モデルパラメータおよび第１信頼度閾値を含む第１組の訓練データと、第２モデルパラメータおよび第２信頼度閾値を含む第２組の訓練データとを含み、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第１組の訓練データにおける前記第１モデルパラメータを使用して前記認識待ちのオーディオを処理し、第１信頼度を得、前記第１組の訓練データから前記第１信頼度に対応する前記第１信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第２組の訓練データにおける前記第２モデルパラメータを使用して前記認識待ちのオーディオを処理し、第２信頼度を得、前記第２組の訓練データから前記第２信頼度に対応する前記第２信頼度閾値を確定するステップと、を含む。

【0010】

いくつかの実施例では、前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上である場合、または前記第２信頼度が前記第２信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップ、を含む。

【0011】

いくつかの実施例では、前記ウェイクアップイベントは第１ウェイクアップイベントおよび／または第２ウェイクアップイベントを含み、前記第１ウェイクアップイベントは前記第１組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第２ウェイクアップイベントは前記第２組の訓練データに対応するウェイクアップワードと関連関係を有する。

【0012】

いくつかの実施例では、前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値より小さい場合、前記音声設備の前記第１ウェイクアップイベントがトリガされるステップ、または、
前記第２信頼度が前記第２信頼度閾値以上であって前記第１信頼度が前記第１信頼度閾値より小さい場合、前記音声設備の前記第２ウェイクアップイベントがトリガされるステップ、または、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値以上である場合、前記第１信頼度が前記第１信頼度閾値を超える第１値と、前記第２信頼度が前記第２信頼度閾値を超える第２値とが計算され、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、を含む。

【0013】

いくつかの実施例では、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第１値が前記第２値以上である場合、前記目標ウェイクアップイベントは前記第１ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第１値が前記第２値より小さい場合、前記目標ウェイクアップイベントは前記第２ウェイクアップイベントであると確定され、トリガされるステップ、を含む。

【0014】

いくつかの実施例では、前記方法は、さらに、
前記少なくとも２組のウェイクアップワード訓練セットを取得するステップと、
前記少なくとも２組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも２組の訓練データを得るステップであって、各組の訓練データはモデルパラメータおよび信頼度閾値を含むステップと、を含む。

【0015】

いくつかの実施例では、前記少なくとも２組のウェイクアップワード訓練セットを取得するステップは、
少なくとも２つのウェイクアップワードを含む初期訓練セットを取得するステップと、
異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも２組のウェイクアップワード訓練セットを得るステップと、を含む。

【0016】

第２方面によれば、本開示の実施例は、音声設備に適用されるウェイクアップ処理装置であって、前記ウェイクアップ処理装置は、
認識待ちのオーディオを取得するように配置された取得ユニットと、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得る処理ユニットであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであるように配置された処理ユニットと、
前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置されたトリガユニットと、を含むウェイクアップ処理装置を提供する。

【0017】

第３方面によれば、本開示の実施例は、メモリおよびプロセッサを含む音声設備であって、
前記メモリは、前記プロセッサで実行可能なコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムの実行中に、第１方面のいずれか一項に記載の方法を実行するために使用される音声設備を提供する。

【0018】

第４方面によれば、本開示の実施例は、少なくとも１つのプロセッサによって実行されると、第１方面のいずれか一項に記載の方法を実現するコンピュータプログラムを記憶したコンピュータ記憶媒体を提供する。

【0019】

本開示の実施例は、ウェイクアップ処理方法、装置、設備、コンピュータ記憶媒体を提供し、認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも２つの信頼度とそれぞれに対応する信頼度閾値との比較結果に基づいて、ウェイクアップ待ちの設備を確定する。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率を低減することもできる。

【図面の簡単な説明】

【0020】

【図1】本開示の実施例が提供したウェイクアップ処理方法の概略フロー図である。

【図2】本開示の実施例が提供した他のウェイクアップ処理方法の概略フロー図である。

【図3】本開示の実施例が提供したウェイクアップモデルの訓練プロセスの概略図である。

【図4】本開示の実施例が提供したウェイクアップ処理方法の詳しい概略フロー図である。

【図5】本開示の実施例が提供したウェイクアップ処理装置の構成を示す概略図である。

【図6】本開示の実施例が提供した音声設備の具体的なハードウェア構造の概略図である。

【発明を実施するための形態】

【0021】

以下、本開示の実施例における技術案について、本開示の実施例における図面に関連して明確かつ完全に説明する。ここに記載された具体的な実施例は、関連する開示を説明するためだけのものであって、開示を限定するものではないことを理解されたい。また、説明を容易にするために、なお、開示に関連する部分のみが示されている。

【0022】

別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示の技術分野に属する当業者が一般に理解する意味と同じである。本明細書で使用される用語は、本開示の実施例を説明する目的のためにのみ使用され、本開示を制限することを意図しているものではない。

【0023】

以下の説明では、すべての可能な実施例のサブセットを説明する「いくつかの実施例」について説明するが、「いくつかの実施例」は、すべての可能な実施例の同じサブセットまたは異なるサブセットであってもよく、矛盾がない場合相互に結合されてもよいことを理解されたい。

【0024】

なお、本開示の実施例に係る用語「第１」、「第２」、「第３」は、類似する対象を区別するためにのみ使用され、対象の特定の順序付けを表すものではない。「第１」、「第２」、「第３」は、本明細書に記載された本開示の実施例が本明細書に図示または記載されたもの以外の順序で実施されることを可能にするように、許容される場合に特定の順序または前後の順序を交換することができることを理解されたい。

【0025】

実際の応用において、現在サンプリング可能なウェイクアップモデルの音声認識方案は、（１）複数のウェイクアップワードを同一モデルで訓練する種類、（２）複数のモデルを用いてそれぞれウェイクアップワードを訓練する種類という２つの種類がある。

【0026】

しかし、（１）のような技術案については、複数のウェイクアップワードが同一モデルで訓練され、異なるウェイクアップワードの間には類似度によりクロストークが発生しやすく、ウェイクアップの応答速度と記憶空間の問題を考慮すると、訓練セットは大きすぎてはならないため、異なるウェイクアップワードの間に介在する音が誤認識されやすく、誤ウェイクアップされてクレームされやすい。（２）のような技術案については、モデルのロードに時間がかかり、切替えによる遅延が深刻になり、同時に複数のウェイクアップワードを認識する方案を満足させることができない。簡単に言えば、関連技術では、これらの音声設備は一般的に複数のウェイクアップワードを認識する必要がある場合があり、これらの異なるウェイクアップワードが同時に訓練され、異なるウェイクアップワード間でクロストークが発生しやすく、さらに誤ウェイクアップの問題が発生し、音声認識の誤ウェイクアップ率が高くなる。

【0027】

これにより、本開示の実施例は、ウェイクアップ処理方法を提供し、当該方法の基本思想は、認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも２つの信頼度とそれぞれに対応する信頼度閾値との比較結果により、ウェイクアップ待ちの設備を確定することである。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率を低減することもできる。

【0028】

以下、図面を組み合わせて本開示の各実施例を詳細に説明する。

【0029】

実施例１
図１を参照すると、これは本開示の実施例が提供したウェイクアップ処理方法の概略フロー図を示す。図１に示すように、この方法は、ステップＳ１０１~ステップＳ１０３を含むことができる。

【0030】

ステップＳ１０１において、認識待ちのオーディオを取得する。

【0031】

なお、本開示の実施例に係るウェイクアップ処理方法は、ウェイクアップ処理装置、または当該ウェイクアップ処理装置を統合した音声設備に適用される。ここで、音声設備は、ユーザと音声対話を行うことができ、音声エアコン、音声給湯器、音声炊飯器、音声電子レンジなどの任意の一般的な家電機器のような、音声によるウェイクアップを必要とする任意のウェイクアップ待ちの設備であるが、何ら限定されることはない。

【0032】

なお、音声設備はユーザと音声対話を行うことができるので、その際には、音収集装置によってデータ収集を行うことも可能である。したがって、いくつかの実施例では、ステップＳ１０１について、前記認識待ちのオーディオを取得するステップは、
音収集装置によりデータ収集を行い、初期音声データを取得するステップと、
前記初期音声データを前処理して前記認識待ちのオーディオを得るステップと、を含むことができる。

【0033】

本開示の実施例では、音収集装置は、マイクロホン、マイクなどのオーディオ収集器であってもよい。具体的には、マイクによるリアルタイムのデータ収集により、ユーザからの初期音声データを取得することができ、その後、前記初期音声データを前処理して認識待ちのオーディオを得る。

【0034】

なお、本開示の実施例における初期音声データは、ユーザの音情報を含むことが理解されるが、環境音のみの場合には、ウェイクアップ認識に関することではないため、本実施例の議論の範囲外であり、ここではこれ以上言及しない。すなわち、初期音声データは、ユーザによって発声されてもよく、例えば、「美ちゃん美ちゃん」であってもよく、音声設備が音情報を取得した後、情報を前処理する。

【0035】

ここで、前記前処理は、端点検出プロセスとプリエンファシスプロセスの２つの方面を含むことができ、以下にそれぞれ詳細に説明する。

【0036】

一つの可能な実施例では、端点検出プロセスとは、指令オーディオの開始点および終了点を見つけ、音情報から連続したいくつかのフレームの音セグメントをインターセプトすることができ、音セグメントの順序に従って、前に配列されたいくつかのフレームが認識待ちのオーディオとして設定され、具体的には、認識待ちのオーディオとして設定されるフレームの数は、設定されたウェイクアップワードの長さに基づいて確定されることができることを意味する。例えば、ウェイクアップワードの文字数に応じて具体的な時間長を予め設定しておき、その時間長内の音セグメントを認識待ちのオーディオとして確定するようにしてもよく、具体的な時間長は、実際の状況に応じて調整することができるが、本実施例に何ら限定されることはない。

【0037】

または、認識待ちのオーディオのフレーム数は、２つの連続した音セグメントの間の空データが検出された長さに基づいて確定することもでき、例えば、実際の使用中に、ユーザが最初にウェイクアップワードを呼び出し、数秒の休止の後に残りの音声指令を呼び出すと、空データの前のセグメントを認識待ちのオーディオとすることができる。

【0038】

例示的には、音声エアコンを例に挙げて、上述の実施例に関連して、音声エアコンが、音収集装置を介して「美ちゃん美ちゃん」というセグメントのオーディオを受信し、「美ちゃん美ちゃん」というウェイクアップワードの予め設定された時間長が２秒であり、端点検出プロセスにおいて、認識待ちのオーディオとして前の２秒の時間長に対応するフレーム数をインターセプトする必要がある。または、音声エアコンが音収集装置を介して受信した「美ちゃん美ちゃん、温度を上げて」というセグメントのオーディオの２文の間に空白区間があり、空白区間の途中のオーディオ情報が空データであるとすると、この空白区間の空データの前のフレーム数を認識待ちのオーディオとすることができる。

【0039】

他の可能な実施例では、プリエンファシスプロセスとは、オーディオの高周波部分をエンファシスし、高周波分解能を増加させ、音情報が取得された後、オーディオ認識の方法を用いて、音情報から環境音情報およびオーディオ情報を抽出し、雑音干渉を除去し、高周波分解能を増加させ、明瞭な人間の音情報を取得することを意味する。

【0040】

なお、本開示の実施例は、環境音を有する認識待ちのオーディオについて、それを利用してノイズを有するウェイクアップモデル訓練を行うこともできる。具体的には、認識待ちのオーディオから環境音情報を抽出した後、それを訓練データとしてサーバに送信することができ、ウェイクアップモデルに対する更なる訓練において環境音情報の音圧レベルを１つの特徴パラメータとすることができ、ウェイクアップモデルにノイズ付き訓練の方法を適用することができ、ウェイクアップモデルの認識プロセスが異なる環境音情報のサイズに応じて対応するパラメータを調整することができ、例えば対応する信頼度閾値を調整し、ウェイクアップモデルが異なる使用シナリオに適用することができる。

【0041】

ステップＳ１０２において、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得る。

【0042】

本開示の実施例では、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットがウェイクアップモデルを介してそれぞれ訓練されて得られるものである。ここで、各組の訓練データは、モデルパラメータおよび信頼度閾値を含むことができる（ここで、信頼度閾値は、「ウェイクアップ閾値」とも呼ばれる）。

【0043】

相応的に、いくつかの実施例では、ステップＳ１０２では、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記少なくとも２組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度を得、そして前記少なくとも２組の訓練データから前記少なくとも２つの信頼度のそれぞれに対応する信頼度閾値を得るステップ、を含むことができる。

【0044】

なお、少なくとも２組のウェイクアップワード訓練セットは、異なるウェイクアップワードに基づいてグループ化されて得られるものであり、すなわち、各ウェイクアップワードは１組のウェイクアップワード訓練セットに対応し、なお、これらの少なくとも２組の訓練データは、これらの少なくとも２組のウェイクアップワード訓練セットがウェイクアップモデルによってそれぞれ訓練されて得られるものであり、すなわち訓練データとウェイクアップワードとの間に対応関係があり、これらの少なくとも２組の訓練データは、それぞれ１つのウェイクアップワードに対応する。例えば、ウェイクアップワードＡとウェイクアップワードＢが存在すると仮定すると、１組のウェイクアップワードＡ訓練セットと１組のウェイクアップワードＢ訓練セットが得られ、ウェイクアップモデルによる訓練によってウェイクアップワードＡの訓練データとウェイクアップワードＢの訓練データが得られる。

【0045】

このように、認識待ちのオーディオを処理するプロセスは、少なくとも２つのウェイクアップワードのそれぞれに対応する訓練データによって認識待ちのオーディオをそれぞれ認識し、認識待ちのオーディオが各組の訓練データのうちのモデルパラメータの下で得られる信頼度を得ることができる。なお、異なるウェイクアップワードが同時に訓練される関連技術とは異なり、本開示の実施例では、認識プロセスおよび訓練プロセスは、いずれも異なるウェイクアップワードによる分離処理を実現し、認識結果における異なるウェイクアップワード間でクロストークが発生しないようにし、使用中の誤ウェイクアップ率を低減し、また、このようにウェイクアップワードを分離して訓練と認識を行うことで、プロセッサの作業ストレスを大幅に減らし、応答時間も減らし、ユーザの使用体験を最適化する。

【0046】

例示的には、音声エアコンを例に挙げて、音声エアコンが受信した認識待ちのオーディオは「美ちゃん美ちゃん」と仮定すると、ウェイクアップモデルは、少なくとも２つのウェイクアップワード（例えば、「美ちゃん美ちゃん」、「美ちゃん、こんにちは」）に対応する訓練データと組み合わせて、各ウェイクアップワードに対応する信頼度を確定し、最後に、「美ちゃん美ちゃん」、「美ちゃん、こんにちは」という２つのウェイクアップワードのそれぞれに対応する信頼度を得る。

【0047】

音声設備に音声認識モジュールを内蔵して認識待ちのオーディオを認識してもよいが、もちろん、音声設備とサーバとを通信接続することにより、サーバを介して音声認識を行い、具体的な結果を音声設備にフィードバックして入力として用いることにより、複数の音声設備間のウェイクワードのクロストークを防止することができ、具体的な方式は実際状況に応じて調整すればよいことが理解される。なお、ウェイクアップワードは、予め設定された任意の文字であってもよく、本実施例に何ら限定されないことも理解される。

【0048】

なお、認識待ちのオーディオに対して、本開示の実施例は、ウェイクアップモデルおよび少なくとも２組の訓練データを用いてそれぞれ処理する前に、認識待ちのオーディオに対して、テキスト変換処理を行い、オーディオテキスト情報を得ることもでき、次に、文字マッチングまたは意味マッチングの方法でオーディオテキスト情報をマッチング処理し、少なくとも１つのキーワードまたはキーフレーズを確定し、その後、ウェイクアップモデルおよび少なくとも２組の訓練データを用いてそれぞれ処理するが、ここでは割愛する。

【0049】

それに加えて、本開示の実施例では、ウェイクアップモデおよび信頼度閾値は工場出荷時の設定で事前に音声設備に設定され、音声設備に初回に電源を入れて使用する時に初期のウェイクアップモデルおよび信頼度閾値があり、その後の使用中に、それがユーザの使用シナリオにより適合するように訓練更新することができるが、ここでも何ら限定されることはない。

【0050】

更に、ここでの少なくとも２組の訓練データが２組である場合を仮定すると、このとき、前記少なくとも２組の訓練データは、第１モデルパラメータおよび第１信頼度閾値を含む第１組の訓練データと、第２モデルパラメータおよび第２信頼度閾値を含む第２組の訓練データとを含む。

【0051】

相応的に、いくつかの実施例では、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得るステップは、
前記ウェイクアップモデルおよび前記第１組の訓練データにおける前記第１モデルパラメータを使用して前記認識待ちのオーディオを処理し、第１信頼度を得、前記第１組の訓練データから前記第１信頼度に対応する前記第１信頼度閾値を確定するステップと、
前記ウェイクアップモデルおよび前記第２組の訓練データにおける前記第２モデルパラメータを使用して前記認識待ちのオーディオを処理し、第２信頼度を得、前記第２組の訓練データから前記第２信頼度に対応する前記第２信頼度閾値を確定するステップと、を含む。

【0052】

すなわち、ウェイクアップワードＡ及びウェイクアップワードＢが存在すると仮定すると、ウェイクアップワードＡの訓練データ及びウェイクアップワードＢの訓練データを得た後、ウェイクアップモデル及びウェイクアップワードＡの訓練データを用いて認識待ちのオーディオを処理し、ウェイクアップワードＡの信頼度及び対応する信頼度閾値を得ることができ、ウェイクアップモデルおよびウェイクアップワードＢの訓練データを用いて認識待ちのオーディオを処理し、ウェイクアップワードＢの信頼度および対応する信頼度閾値を得ることで、これらの２組の訓練データのそれぞれに対応する信頼度および信頼度閾値を得、後で比較してトリガ待ちのウェイクアップイベントを確定するようにする。

【0053】

ステップＳ１０３において、前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガする。

【0054】

なお、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値が得られた後、これらの少なくとも２つの信頼度とそれぞれに対応する信頼度閾値とをそれぞれ比較してもよく、その後、比較結果に基づいて、音声設備のウェイクアップイベントをトリガする。

【0055】

具体的には、２つのウェイクアップワードの場合を例に挙げると、この時、少なくとも２つの信頼度は、第１信頼度と第２信頼度のみを含む。いくつかの実施例では、ステップＳ１０３について、前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上である場合、または前記第２信頼度が前記第２信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるステップを含むことができる。

【0056】

本開示の実施例では、前記ウェイクアップイベントは第１ウェイクアップイベントおよび／または第２ウェイクアップイベントを含むことができ、前記第１ウェイクアップイベントは前記第１組の訓練データに対応するウェイクアップワードと関連関係を有し、前記第２ウェイクアップイベントは前記第２組の訓練データに対応するウェイクアップワードと関連関係を有する。

【0057】

いくつかの実施例では、少なくとも２つの信頼度は第１信頼度と第２信頼度とを含む場合、前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、音声設備のウェイクアップイベントをトリガするステップは、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値より小さい場合、前記音声設備の前記第１ウェイクアップイベントがトリガされるステップ、または、
前記第２信頼度が前記第２信頼度閾値以上であって前記第１信頼度が前記第１信頼度閾値より小さい場合、前記音声設備の前記第２ウェイクアップイベントがトリガされるステップ、または、
前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値以上である場合、前記第１信頼度が前記第１信頼度閾値を超える第１値と、前記第２信頼度が前記第２信頼度閾値を超える第２値とが計算され、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップ、をさらに含むことができる。

【0058】

なお、２つの信頼度がいずれも対応する信頼度閾値以上である場合、この時、前記第１信頼度が前記第１信頼度閾値を超える第１値と、前記第２信頼度が前記第２信頼度閾値を超える第２値とを計算する必要がある。いくつかの実施例では、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるステップは、
前記第１値が前記第２値以上である場合、前記目標ウェイクアップイベントは前記第１ウェイクアップイベントであると確定され、トリガされるステップ、または、
前記第１値が前記第２値より小さい場合、前記目標ウェイクアップイベントは前記第２ウェイクアップイベントであると確定され、トリガされるステップ、を含むことができる。

【0059】

例示的には、ウェイクアップ待ちの設備の音収集装置が「美さん」という内容の認識待ちのオーディオを受信した場合、ウェイクアップモデルは、ウェイクアップワードである「美ちゃん美ちゃん」に対応する訓練データとウェイクアップワードである「美さん」に対応する訓練データとに合わせて、それぞれ「美ちゃん美ちゃん」に対応する信頼度と「美さん」に対応する信頼度とを得、２つの信頼度とそれぞれに対応する信頼度閾値とをそれぞれ比較し、「美ちゃん美ちゃん」の信頼度がそれに対応する信頼度閾値以上である場合、「美ちゃん美ちゃん」に対応するウェイクアップイベントを目標ウェイクアップイベントとし、そうでない場合には、「美さん」の信頼度がそれに対応する信頼度閾値以上であれば、「美さん」に対応するウェイクアップイベントを目標ウェイクアップイベントとする。

【0060】

なお、特殊な状況下において、「美ちゃん美ちゃん」と「美さん」の信頼度がいずれもそれに対応する信頼度閾値以上であれば、信頼度が信頼度閾値を超えた量を比較することができ、２つのウェイクアップワードのうちの信頼度が信頼度閾値を超えた量がより多い一つのウェイクアップワードに対応するウェイクアップイベントを目標ウェイクアップイベントとする。このようにして、目標ウェイクアップイベントが確定された後、対応するウェイクアップ操作を行うように、音声設備に当該目標ウェイクアップイベントを実行させることができる。

【0061】

なお、異なるウェイクアップワード、例えば異なる発音で同じ意味を持つウェイクアップワードは、同じウェイクアップ指令を生成することができる。ここで、同一のウェイクアップ指令が相応するウェイクアップイベントをウェイクアップすることは、単一の音声設備の異なるウェイクアップワードのウェイクアッププロセスに適用することができ、また、複数の音声設備からなるカスケード型音声中央制御システムに適用することができ、本開示の実施例は、状況に応じて必要に応じて選択することができ、ここでは何ら限定もしない。

【0062】

本開示の実施例は、音声設備に適用される音声処理方法を提供する。認識待ちのオーディオを取得し、ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、前記少なくとも２つの信頼度とそれぞれに対応する信頼度閾値との比較結果により、前記音声設備のウェイクアップイベントをトリガする。このように、同じウェイクアップモデルを使用して複数のウェイクアップワードを別々に訓練することにより、他のウェイクアップワードとのクロストークの可能性を回避すると同時に、少ない訓練量でより良い認識効果を達成することができ、また、ウェイクアップワードの訓練データを分離して互いに干渉しないことも実現できるので、開発効率を向上させることができ、また、複数のウェイクアップワードを同時に認識する場合、音声設備の誤ウェイクアップ率も低減することもできる。

【0063】

実施例２
前述した実施例と同じ発明思想に基づいて、図２を参照すると、本開示の実施例が提供した他のウェイクアップ処理方法の概略フロー図を示す。図２に示すように、この方法は、
ステップＳ２０１であって、少なくとも２つのウェイクアップワードを含む初期訓練セットを取得するステップと、
ステップＳ２０２であって、異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも２組のウェイクアップワード訓練セットを得るステップと、
ステップＳ２０３であって、前記少なくとも２組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも２組の訓練データを得るステップと、を含む。

【0064】

なお、本開示の実施例では、ウェイクアップモデルはニューラルネットワークモデルであってもよい。その中で、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＮＮ）は大量の簡単な処理ユニット（「ニューロン」と呼ばれる）が広範に相互に接続して形成された複雑なネットワークシステムであり、それは人の脳機能の多くの基本特徴を反映して、１つの高度に複雑な非線形動力学習システムである。ニューラルネットワークは、大規模並列、分散記憶および処理、自己組織化、自適応、および自己学習能力を有し、多くの要因および条件を同時に考慮する必要があり且つ不正確で曖昧な情報処理問題の処理に特に適している。ここで、ウェイクアップモデルは、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＤＮＮ）モデルとすることができる。具体的には、ここでのウェイクアップモデルは、ＤＮＮの構造設計と各ニューロンの数学モデルとを含むことができる。

【0065】

なお、本開示の実施例では、各組の訓練データは、少なくともモデルパラメータおよび信頼度閾値を含むことができる。具体的には、ここでの訓練データは、ＤＮＮにおける訓練後に得られた最適パラメータ（「モデルパラメータ」と略称）及び信頼度閾値などを含めることができる。

【0066】

また、本開示の実施例は、対応する訓練データを得るように、複数のウェイクアップワードが分離して訓練されるウェイクアップモデルを使用することができ、これにより、ウェイクアップワードデータが分離して互いに干渉しない方式を実現できることを説明する必要がある。また、マルチモデルは複数のモデルを用いて別々に訓練を行うため、後期の使用過程では、ウェイクアップモデルのロードに時間がかかるため、切り替え過程により認識の遅延が深刻になるが、本開示の実施例により提供される技術案は、マルチモデルの方案とは異なり、ここでは、異なるウェイクアップワードを使用して同じウェイクアップモデルを介して訓練し、それにより、ウェイクアップ処理過程中の遅延の問題も低減される。

【0067】

また、異なるウェイクアップワードを基準にグループ化して訓練セットを分け、異なるウェイクアップワードに対応する訓練セットを個別で訓練し、得られたデータを独立に保存することで、限られた訓練セットでモデルを訓練することができ、ウェイクアップワード間でクロストークが発生しない技術的効果を達成することができ、ウェイクアップワードを同時に訓練してウェイクアップするモデルの場合とは異なり、ウェイクアップワード間のお互いのクロストークを回避できることを説明する必要がある。

【0068】

さらに、新しいウェイクアップワードを増加する必要がある場合、いくつかの実施例では、この方法は、新しいウェイクアップワードに対応する１組のウェイクアップワード訓練セットに従って、前記ウェイクアップモデルを訓練し、新しい１組の訓練データを得る。

【0069】

すなわち、本開示の実施例はデータ分離を実現しているため、再訓練は新たに増加されたウェイクアップワードに対してのみ必要であり、既存のウェイクアップワードに影響を与えることはなく、これにより、新しいウェイクアップワードが増加された場合にも、開発効率を向上させることができる。

【0070】

換言すれば、既に使用されているウェイクアップモデルであれば、新しいウェイクアップワードを増加する必要がある場合には、上記実施例の訓練方法に従って、新しいウェイクアップワードを使用して既存モデルを訓練することもでき、ここでは、既に使用されているウェイクアップモデルは、上述の技術案におけるウェイクアップモデルとして、ウェイクアップモデルが継続的に訓練され、ウェイクアップモデルが継続的に新しいウェイクアップワードを学習することにより、製品が継続的に更新され、ユーザの新しい需要を満たすことができる。

【0071】

例示的に、ウェイクアップワードＡおよびウェイクアップワードＢが存在することを例として、図３を参照すると、図３は、本開示の実施例が提供したウェイクアップモデルの訓練プロセスの概略図である。図３では、２組のウェイクアップワード訓練セット、例えばウェイクアップワードＡ訓練セットとウェイクアップワードＢ訓練セットがここに存在し、ウェイクアップワードＡ訓練セットを用いてウェイクアップモデルを訓練し、ウェイクアップワードＡの訓練データを得ることができ、ウェイクアップワードＢ訓練セットを用いてウェイクアップモデルを訓練し、ウェイクアップワードＢの訓練データを得ることができる。

【0072】

具体的には、本開示の実施例は、２つのウェイクアップワード訓練セットを使用して同じウェイクアップモデルを訓練し、２組の訓練データを得ることができる。ここで、入力された初期訓練セットを異なるウェイクアップワードによって異なるグループに分け、各組のウェイクアップワード訓練セットは、全てのウェイクアップワード訓練セットの訓練が終了するまで、順次個別に入力データとしてウェイクアップモデルを訓練する。なお、各組のウェイクアップワード訓練セットは、ウェイクアップモデルを訓練した後に得られた訓練データを異なるウェイクアップワードによって区切って格納されていることに注意する必要がある。

【0073】

例示的に、ウェイクアップワード訓練セットの分けは、異なるウェイクアップワードによってグループ化され、ここで、異なるウェイクアップワードは、全く異なる意味を持つウェイクアップワードであってもよいし、同じ意味を持つが異なる方言のウェイクアップワード、例えば、ウェイクアップワードの広東語（シユウメイシユウメイ）および標準語（ショウメイショウメイ）であってもよい。このように、ウェイクアップモデルを利用して認識処理を行う場合、複数の入力情報を入力して１つの出力情報を得ることができる。ここで、入力情報は認識待ちのオーディオであり、ウェイクアップモデルに音声認識モジュールを内蔵し、認識待ちのオーディオを認識して対応するウェイクアップイベントを出力することができ、音声設備に音声認識モジュールを設置し、音情報から認識待ちのオーディオを取得し、認識待ちのオーディオを音声認識し、対応するウェイクアップイベントを出力することもできる。本開示の実施例では、情報を入力する具体的な方式は、実際のニーズに応じて選択すればよく、何ら限定されることではない。

【0074】

本開示の実施例は、音声設備に適用される音声処理方法を提供する。前記少なくとも２組のウェイクアップワード訓練セットを取得し、前記少なくとも２組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも２組の訓練データを得、各組の訓練データはモデルパラメータおよび信頼度閾値を含む。このように、異なるウェイクアップワードが同時に訓練された場合にウェイクアップワードのクロストークが発生する可能性を回避することができ、ウェイクアップワードの相互分離と訓練データの相互分離を実現することができ、複数のウェイクアップワードが同時に認識された場合、音声設備の誤ウェイクアップ率を低減することができる。

【0075】

実施例３
前述した実施例と同じ発明思想に基づいて、図４を参照すると、本開示の実施例が提供したウェイクアップ処理方法の詳しい概略フロー図を示す。ウェイクアップワードＡおよびウェイクアップワードＢが存在することを例として、図４に示されるように、この方法は、
ステップＳ４０１であって、マイクはリアルタイムでオーディオを収集し、フロントエンドの前処理を経て認識待ちのオーディオを得るステップと、
ステップＳ４０２であって、ウェイクアップモデルおよびウェイクアップワードＡの訓練データを使用して前記認識待ちのオーディオを処理し、信頼度Ａおよび対応する信頼度閾値Ａを得るステップと、
ステップＳ４０３であって、ウェイクアップモデルおよびウェイクアップワードＢの訓練データを使用して前記認識待ちのオーディオを処理し、信頼度Ｂおよび対応する信頼度閾値Ｂを得るステップと、
ステップＳ４０４であって、信頼度Ａ≧信頼度閾値Ａ、又は信頼度Ｂ≧信頼度閾値Ｂであるか否かを判定するステップと、
ステップＳ４０５であって、判定結果がＹＥＳであれば、音声設備のウェイクアップイベントをトリガするステップと、を含む。

【0076】

なお、ステップＳ４０４において、判定結果がＹＥＳであれば、ステップＳ４０５を実行してもよく、音声設備をウェイクアップした後、ステップＳ４０１に戻って次回のオーディオの収集を継続してもよく、判定結果がＮＯであれば、そのままステップＳ４０１に戻り、次回のオーディオの収集を継続してもよい。

【0077】

本開示の実施例では、単一のウェイクアップモデルを採用し、異なるウェイクアップワードを別々に訓練して独立した訓練データを得ることにより、ウェイクアップワードの訓練データが分離して互いに干渉しないことを実現する。

【0078】

１つの可能な実施例では、関連するプロセスは以下のとおりである。

【0079】

（１）複数のウェイクアップワードの設計が同一のウェイクアップモデルを使用する。

【0080】

（２）ウェイクアップワードＡ訓練セットを用いてウェイクアップモデルを訓練してウェイクアップワードＡの訓練データを得る。

【0081】

（３）ウェイクアップワードＢ訓練セットを用いてウェイクアップモデルを訓練してウェイクアップワードＢの訓練データを得る。

【0082】

（４）ウェイクアップモデルとウェイクアップワードＡの訓練データとウェイクアップワードＢの訓練データとをウェイクアップ認識のために音声モジュールに格納する。

【0083】

（５）マイクはリアルタイムでオーディオを収集し、フロントエンドの処理を経て認識待ちのオーディオを得る。

【0084】

（６）ウェイクアップモデルおよびウェイクアップワードＡの訓練データを使用して認識待ちのオーディオを処理し、信頼度Ａおよび信頼度閾値Ａを得る。

【0085】

（７）ウェイクアップモデルおよびウェイクアップワードＢの訓練データを使用して認識待ちのオーディオを処理し、信頼度Ｂおよび対応する信頼度閾値Ｂを得る。

【0086】

（８）信頼度Ａ≧信頼度閾値Ａ、又は信頼度Ｂ≧信頼度閾値Ｂであると、ウェイクアップイベントをトリガする。

【0087】

別の可能な実施例では、（８）の処理ステップについて、以下の方式を採用することもできる。

【0088】

（１）信頼度Ａ≧信頼度閾値Ａ、且つ信頼度Ｂ＜信頼度閾値Ｂであると、Ａのウェイクアップイベントをトリガする。

【0089】

（２）信頼度Ａ＜信頼度閾値Ａ、且つ信頼度Ｂ≧信頼度閾値Ｂであると、Ｂのウェイクアップイベントをトリガする。

【0090】

（３）信頼度Ａ≧信頼度閾値Ａ、且つ信頼度Ｂ≧信頼度閾値Ｂであると、信頼度閾値を超えたパーセンテージ値に基づいて総合的に判断し、ウェイクアップイベントをトリガする。

【0091】

なお、関連技術の方案で、複数のウェイクアップワードを同時に訓練すると、異なるウェイクアップワードの間にクロストークがあり、即ち訓練度が足りない状況下で環境騒音中に２つのウェイクアップワードのぼやけた音が現れて誤判断され、特に重複語が存在する時（例えば「美ちゃん美ちゃん」と「美さん」）、模型の設計と大量の訓練セットによって各ウェイクアップワードを区別する必要があり、ハードウェアの記憶資源の制限とウェイクアップ応答速度の要求により、クロストークの問題を解決するのは比較的に難しい。本実施例では、各組のウェイクアップワード訓練セットを用いて個別に訓練することにより、他のウェイクアップワードとのクロストークの可能性がなくなり、より少ない訓練量でより良い認識効果を達成することができる。

【0092】

ウェイクアップワードが美ちゃん美ちゃんの広東語（シユウメイシユウメイ）および標準言（ショウメイショウメイ）であることを例として、ウェイクアップワードが同時に訓練する場合と分離して訓練する場合、モデルテストデータの対比を表１に示す。

【0093】

【表1】

【0094】

上記の表１のモデルテストデータから分かるように、本開示の実施例の方案は、複数のウェイクアップワードが同時に認識された場合に、小さな誤ウェイクアップ率を達成することができるが、関連技術の方案は、ウェイクアップワードを同時に訓練し、誤ウェイクアップテストの企業標準化要件は、２４時間に３回以下であり、本開示の実施例についてウェイクアップワードを個別に訓練すると、誤ウェイクアップテストにおいて７２時間に１回以下で行うことができる。且つ、本開示の実施例は、新しいウェイクアップワードを増加する場合、データを分離するので、再訓練は新たに増加されたウェイクアップワードに対してのみ必要であり、既存のウェイクアップワードに影響を与えることはなく、開発効率も向上させることができる。

【0095】

本開示の実施例はウェイクアップ処理方法を提供し、上述した実施例により前記実施例を具体的に実現することを詳細に説明し、これから分かるように、前記実施例の技術案により、異なるウェイクアップワードが同時に訓練された場合にウェイクアップワードのクロストークが発生する可能性を回避することができ、ウェイクアップワードの訓練データが分離して互いに干渉しないことを実現し、複数のウェイクアップワードが同時に認識された場合、音声設備の誤ウェイクアップ率を低減することもできる。

【0096】

実施例４
前述した実施例と同じ発明思想に基づいて、図５を参照すると、本開示の実施例が提供したウェイクアップ処理装置の構成を示す概略図である。図５に示すように、前述ウェイクアップ処理装置５０は、取得ユニット５０１と、処理ユニット５０２と、トリガユニット５０３と、を含むことができ、そのうち、
取得ユニット５０１は認識待ちのオーディオを取得するように配置され、
処理ユニット５０２はウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得、そのうち、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであり、
トリガユニット５０３は前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガするように配置された。

【0097】

いくつかの実施例では、取得ユニット５０１は、具体的に、音収集装置によるデータ収集により、初期音声データを取得し、そして、前記初期音声データを前処理して前記認識待ちのオーディオを得るように配置される。

【0098】

いくつかの実施例では、各組の訓練データは、モデルパラメータおよび信頼度閾値を含み、相応的に、処理ユニット５０２は、具体的に、前記ウェイクアップモデルおよび前記少なくとも２組の訓練データにおけるモデルパラメータを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度を得、そして前記少なくとも２組の訓練データから前記少なくとも２つの信頼度のそれぞれに対応する信頼度閾値を得るように配置される。

【0099】

いくつかの実施例では、前記少なくとも２組の訓練データは、第１モデルパラメータおよび第１信頼度閾値を含む第１組の訓練データと、第２モデルパラメータおよび第２信頼度閾値を含む第２組の訓練データとを含み、相応的に、処理ユニット５０２は、具体的に、前記ウェイクアップモデルおよび前記第１組の訓練データにおける前記第１モデルパラメータを使用して前記認識待ちのオーディオを処理し、第１信頼度を得、そして前記第１組の訓練データから前記第１信頼度に対応する前記第１信頼度閾値を確定し、前記ウェイクアップモデルおよび前記第２組の訓練データにおける前記第２モデルパラメータを使用して前記認識待ちのオーディオを処理し、第２信頼度を得、そして前記第２組の訓練データから前記第２信頼度に対応する前記第２信頼度閾値を確定するように配置される。

【0100】

いくつかの実施例では、トリガユニット５０３は、具体的に、前記第１信頼度が前記第１信頼度閾値以上である場合、または前記第２信頼度が前記第２信頼度閾値以上である場合、前記音声設備のウェイクアップイベントがトリガされるように配置される。

【0101】

【0102】

いくつかの実施例では、トリガユニット５０３は、具体的に、前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値より小さい場合、前記音声設備の前記第１ウェイクアップイベントがトリガされ、または、前記第２信頼度が前記第２信頼度閾値以上であって前記第１信頼度が前記第１信頼度閾値より小さい場合、前記音声設備の前記第２ウェイクアップイベントがトリガされ、または、前記第１信頼度が前記第１信頼度閾値以上であって前記第２信頼度が前記第２信頼度閾値以上である場合、前記第１信頼度が前記第１信頼度閾値を超える第１値と、前記第２信頼度が前記第２信頼度閾値を超える第２値とが計算され、前記第１値および前記第２値により、前記音声設備の目標ウェイクアップイベントがトリガされるように配置される。

【0103】

いくつかの実施例では、トリガユニット５０３は、更に、前記第１値が前記第２値以上である場合、前記目標ウェイクアップイベントは前記第１ウェイクアップイベントであると確定され、トリガされ、または、前記第１値が前記第２値より小さい場合、前記目標ウェイクアップイベントは前記第２ウェイクアップイベントであると確定され、トリガされるように配置される。

【0104】

いくつかの実施例では、取得ユニット５０１は、更に、前記少なくとも２組のウェイクアップワード訓練セットを取得するように配置され、
処理ユニット５０２は、更に、前記少なくとも２組のウェイクアップワード訓練セットを使用して前記ウェイクアップモデルを訓練し、前記少なくとも２組の訓練データを得、各組の訓練データはモデルパラメータおよび信頼度閾値を含むように配置される。

【0105】

いくつかの実施例では、取得ユニット５０１は、更に、初期訓練セットを取得し、そのうち、前記初期訓練セットは少なくとも２つのウェイクアップワードを含み、異なるウェイクアップワードに従って前記初期訓練セットをグループ化し、前記少なくとも２組のウェイクアップワード訓練セットを得るように配置される。

【0106】

なお、本実施例では、「ユニット」は、部分的な回路、部分的なプロセッサ、部分的なプログラム、またはソフトウェアなどであってもよく、もちろんモジュールであってもよく、非モジュールであってもよい。また、本実施例における各構成要素は、１つの処理ユニットに統合されていてもよいし、個々のユニットが物理的に個別に存在していてもよいし、２つ以上のユニットが１つのユニットに統合されていてもよい。上記統合されたユニットは、ハードウェアの形で実現してもよく、ソフトウェア機能モジュールの形で実現してもよい。

【0107】

前記統合されたユニットは、独立した製品として販売または使用されるのではなく、ソフトウェア機能モジュールの形で実現される場合、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよく、このような理解に基づいて、本実施例の技術案は本質的なまたは先行技術に貢献する部分または当該技術案のすべてまたは一部は、ソフトウェア製品の形で具現化され、当該ソフトウェア製品は一つの記憶媒体に記憶され、１つのコンピュータ（パソコン、サーバ、エアコン、またはネットワーク設備などであってもよい）またはプロセッサ（ｐｒｏｃｅｓｓｏｒ）が本実施例に記載の方法のすべてまたは一部のステップを実行するようにするための複数の指令を含むことができる。一方、上述した記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク、光ディスクなど、プログラムコードを記憶することができる様々な媒体を含む。

【0108】

従って、本実施例は、少なくとも１つのプロセッサによって実行されると、前記実施例のいずれか一項に記載の方法のステップを実現するウェイクアップ処理プログラムを記憶したコンピュータ記憶媒体を提案する。

【0109】

上述したウェイクアップ処理装置５０の構成およびコンピュータ記憶媒体に基づいて、図６を参照すると、本開示の実施例が提供したウェイクアップ処理装置５０の具体的なハードウェア構造の概略図である。図６に示すように、通信インターフェース６０１、メモリ６０２、およびプロセッサ６０３を含むことができ、各コンポーネントは、バスシステム６０４を介して互いに結合される。バスシステム６０４は、これらのコンポーネント間の接続通信を実現するために使用されることが理解されるべきである。バスシステム６０４は、データバスに加えて、電源バス、制御バス、および状態信号バスを含む。しかしながら、明確に説明するために、図６では、様々なバスがバスシステム６０４として示されている。そのうち、通信インターフェース６０１は、他の外部ネットワーク要素との間での情報の送受信の過程で信号を受信および送信するためのものであり、
メモリ６０２は、プロセッサ６０３上で実行可能なコンピュータプログラムを記憶するためのものであり、
プロセッサ６０３は、前記コンピュータプログラムの実行中に、
認識待ちのオーディオを取得することと、
ウェイクアップモデルおよび少なくとも２組の訓練データを使用して前記認識待ちのオーディオをそれぞれ処理し、少なくとも２つの信頼度およびそれぞれに対応する信頼度閾値を得ることであって、前記少なくとも２組の訓練データは、少なくとも２組のウェイクアップワード訓練セットが前記ウェイクアップモデルを介してそれぞれ訓練されて得たものであることと、
前記少なくとも２つの信頼度と、それぞれに対応する信頼度閾値との間の比較結果に基づいて、前記音声設備のウェイクアップイベントをトリガすることと、を実行する。

【0110】

本開示の実施例におけるメモリ６０２は、揮発性メモリまたは不揮発性メモリであってもよく、または揮発性メモリおよび不揮発性メモリの両方を含んでいてもよいことを理解されたい。そのうち、不揮発性メモリは、読出し専用メモリ（Ｒｅａｄ-ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、プログラマブル読出し専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ、ＰＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥｒａｓａｂｌｅＰＲＯＭ、ＥＰＲＯＭ）、電気的消去可能プログラマブル読出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ、ＥＥＰＲＯＭ）、またはフラッシュメモリであってもよい。揮発性メモリは、外部キャッシュとして機能するランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）とすることができる。例示的であるが限定的ではない説明により、多くの形式のＲＡＭ、例えば、スタティックランダムアクセスメモ（ＳｔａｔｉｃＲＡＭ、ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤｙｎａｍｉｃＲＡＭ、ＤＲＡＭ）、同期型ダイナミックランダムアクセスメモリ（ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ、ＳＤＲＡＭ）、ダブルデータレート同期型ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ、ＤＤＲＳＤＲＡＭ）、エンハンスメント同期ダイナミックランダムアクセスメモリ（ＥｎｈａｎｃｅｄＳＤＲＡＭ、ＥＳＤＲＡＭ）、同期チェーン型ダイナミックランダムアクセスメモリ（ＳｙｎｃｈｒｏｎｏｕｓｌｉｎｋＤＲＡＭ、ＳＬＤＲＡＭ）、及び直接メモリバス型ランダムアクセスメモリ（ＤｉｒｅｃｔＲａｍｂｕｓＲＡＭ、ＤＲＲＡＭ）が利用可能である。本明細書で説明されるシステムおよび方法におけるメモリ６０２は、これらおよび任意の他の適切なタイプのメモリを含むことが意図されるが、これらに限定されない。

【0111】

一方、プロセッサ６０３は、信号の処理能力を有する集積回路チップであってもよい。実現されるプロセスにおいて、上記方法の各ステップは、プロセッサ６０３におけるハードウェアの集積論理回路またはソフトウェア形式の指令によって達成されることができる。上記のプロセッサ６０３は、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。本開示の実施例における開示された各方法、ステップ、および論理ブロック図は、実現または実行されることができる。汎用プロセッサは、マイクロプロセッサであってもよいし、当該プロセッサは、任意の通常のプロセッサ等であってもよい。本開示の実施例に関連して開示された方法のステップは、ハードウェア復号プロセッサによる実行完了として直接具現化されてもよく、または復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行完了されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、プログラマブル読み取り専用メモリ、または電気的に消去可能で書き込み可能なプログラマブルメモリ、レジスタなど、当技術分野で成熟した記憶媒体中に配置することができる。当該記憶媒体はメモリ６０２に配置され、プロセッサ６０３は、メモリ６０２内の情報を読み取り、そのハードウェアに関連して上記の方法のステップを完了する。

【0112】

本明細書に記載されたこれらの実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現されてもよいことが理解されるであろう。ハードウェアの実現について、処理ユニットは、１つまたは複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤｅｖｉｃｅ、ＤＳＰＤ）、プログラマブル論理デバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＰＬＤ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ- ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本開示で説明されている前記機能を実行するための他の電子ユニットまたはその組み合わせに実現されてもよい。

【0113】

ソフトウェアの実現について、本明細書に記載された技術は、本明細書に記載された機能を実行するモジュール（例えば、プロセス、関数など）によって実現されることができる。ソフトウェアコードは、メモリに記憶され、プロセッサによって実行されることができる。メモリは、プロセッサ内またはプロセッサ外に実現され得る。

【0114】

選択的に、別の実施例として、プロセッサ６０３は、更に、前記コンピュータプログラムの実行中に、前記実施例のいずれか一項に記載の方法のステップを実行するように配置される。

【0115】

なお、本開示において、用語「含む」、「包含する」、またはその他の任意の変形は、非排他的な含むことをカバーすることを意図しており、それにより、一連の要素を含むプロセス、方法、物または装置は、それらの要素だけでなく、明示的にリストされていない他の要素も含み、またはそのようなプロセス、方法、物または装置に固有の要素も含む。これ以上の制限がない場合は、文句「一つ…を含む」にて限定された要素は、当該要素を含むプロセス、方法、物又は装置においてさらに同一の要素が存在することを排除するものではない。

【0116】

上述した本開示の実施例の番号は、単に説明のためのものであり、実施例の優劣を示すものではない。

【0117】

本開示によって提供されるいくつかの方法の実施例において開示される方法は、矛盾することなく任意に組み合わせて、新しい方法の実施例を得ることができる。

【0118】

本開示によって提供されるいくつかの製品の実施例において開示される特徴は、矛盾することなく任意に組み合わせて、新しい特徴の実施例を得ることができる。

【0119】

本開示によって提供されるいくつかの方法または設備の実施例において開示される特徴は、矛盾することなく任意に組み合わせて、新しい方法の実施例または設備の実施例を得ることができる。

【0120】

上記は、本開示の具体的な実施態様のみであるが、本開示の保護範囲はこれに限定されるものではなく、本開示に記載された技術的範囲内において、当業者が容易に変更または代替を思いつくことができるすべてのものは、本開示の保護範囲内に含まれるべきである。したがって、本開示の保護範囲は、前記請求の範囲の保護範囲に準ずるべきである。

【図1】