IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特表2024-537258音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図6
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図7
  • 特表-音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-10
(54)【発明の名称】音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20241003BHJP
   G10L 15/22 20060101ALI20241003BHJP
   G10L 15/16 20060101ALI20241003BHJP
【FI】
G10L15/10 200W
G10L15/22 460D
G10L15/22 460Z
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024521288
(86)(22)【出願日】2023-01-17
(85)【翻訳文提出日】2024-04-09
(86)【国際出願番号】 CN2023072618
(87)【国際公開番号】W WO2024011885
(87)【国際公開日】2024-01-18
(31)【優先権主張番号】202210838284.6
(32)【優先日】2022-07-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100083116
【弁理士】
【氏名又は名称】松浦 憲三
(74)【代理人】
【識別番号】100140992
【弁理士】
【氏名又は名称】松浦 憲政
(74)【代理人】
【識別番号】100153822
【弁理士】
【氏名又は名称】増田 重之
(72)【発明者】
【氏名】▲鄒▼ 賽賽
(72)【発明者】
【氏名】▲賈▼ 磊
(72)【発明者】
【氏名】王 ▲海▼峰
(57)【要約】
本開示は、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びプログラム製品を提供し、人工知能技術分野に関し、特に、ヒューマンコンピュータインタラクション、ディープラーニング、インテリジェント音声などの技術分野に関する。具体的な実現方式は、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することと、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することと、ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定することと、を含む。
【特許請求の範囲】
【請求項1】
音声ウェイクアップ方法であって、
認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することと、
前記ウェイクアップ単語認識結果が、前記認識すべき音声に所定のウェイクアップ単語が含まれることを表す場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することと、
前記ウェイクアップ音節認識結果が前記認識すべき音声に所定の音節が含まれることを表す場合、前記認識すべき音声が正しいウェイクアップ音声であると特定することと、を含む
音声ウェイクアップ方法。
【請求項2】
前記認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することは、
音声フレームシーケンスを含む前記認識すべき音声に対して畳み込み操作を行い、前記音声フレームシーケンスと1対1で対応する第1段階特徴ベクトルシーケンスを取得することと、
前記第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得することと、
前記第2段階特徴ベクトルシーケンスに対して分類操作を行い、前記ウェイクアップ単語識別結果を取得することと、を含む
請求項1に記載の方法。
【請求項3】
前記第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得することは、
直前時刻出力ベクトル、及び前記第1段階特徴ベクトルシーケンスにおける現在時刻の第1段階特徴ベクトルである現在時刻入力ベクトルに基づいて、現在時刻更新ゲート及び現在時刻候補隠れ層情報をそれぞれ特定すること、
前記現在時刻候補隠れ層情報、直前時刻隠れ層情報及び前記現在時刻更新ゲートに基づいて、現在時刻隠れ層情報を特定すること、
前記現在時刻隠れ層情報及び所定パラメータに基づいて、前記第2段階特徴ベクトルシーケンスにおける現在時刻の第2段階特徴ベクトルである現在時刻出力ベクトルを特定すること、
という操作を繰り返すことを含む
請求項2に記載の方法。
【請求項4】
前記ウェイクアップ単語認識結果が、前記認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することは、
前記認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得することと、
前記音節特徴マトリックスに対して分類操作を行い、前記ウェイクアップ音節認識結果を取得することと、を含む
請求項1に記載の方法。
【請求項5】
前記認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得することは、
前記認識すべき音声に対して特徴抽出を行い、特徴マトリックスを取得することと、
前記特徴マトリックスに対して次元削減を行い、次元削減後の特徴マトリックスを取得することと、
前記次元削減後の特徴マトリックスに対して多段階音声強調の符号化処理を行い、前記音節特徴マトリックスを取得することと、を含む
請求項4に記載の方法。
【請求項6】
前記ウェイクアップ単語認識結果が、前記認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、前記認識すべき音声が誤ったウェイクアップ音声であると特定することをさらに含む
請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記所定のパラメータは、軽量化パラメータの数の閾値に基づいて特定される
請求項3に記載の方法。
【請求項8】
前記認識すべき音声が正しいウェイクアップ音声であると特定した場合、表示インターフェースに目標対象を表示することと、
フィードバック音声を出力することと、をさらに含む
請求項1に記載の方法。
【請求項9】
音声ウェイクアップ装置であって、
認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得する単語認識モジュールと、
前記ウェイクアップ単語認識結果が、前記認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得する音節認識モジュールと、
前記ウェイクアップ音節認識結果が、前記認識すべき音声に所定の音節が含まれることを表すと特定した場合、前記認識すべき音声が正しいウェイクアップ音声であると特定する第1特定モジュールと、を含む
音声ウェイクアップ装置。
【請求項10】
前記単語認識モジュールは、
音声フレームシーケンスを含む前記認識すべき音声に対して畳み込み操作を行い、前記音声フレームシーケンスと1対1で対応する第1段階特徴ベクトルシーケンスを取得する畳み込み手段と、
前記第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得するゲート手段と、
前記第2段階特徴ベクトルシーケンスに対して分類操作を行い、前記ウェイクアップ単語認識結果を取得する単語分類手段と、を含む
請求項9に記載の装置。
【請求項11】
前記ゲート手段は、
直前時刻出力ベクトル、および、前記第1段特徴ベクトルシーケンスにおける現在時刻の第1段特徴ベクトルである現在時刻入力ベクトルに基づいて、現在時刻更新ゲートと現在時刻候補隠れ層情報をそれぞれ特定する第1特定サブ手段と、
前記現在時刻候補隠れ層情報、直前時刻隠れ層情報及び前記現在時刻更新ゲートに基づいて、現在時刻隠れ層情報を特定する第2特定サブ手段と、
前記現在時刻隠れ層情報及び所定パラメータに基づいて、前記第2段階特徴ベクトルシーケンスにおける現在時刻の第2段階特徴ベクトルである現在時刻出力ベクトルを特定する第3特定サブ手段と、というサブ手段を繰り返すことを含む
請求項10に記載の装置。
【請求項12】
前記音節認識モジュールは、
前記認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得する抽出手段と、
前記音節特徴マトリックスに対して分類操作を行い、前記ウェイクアップ音節認識結果を取得する音節分類手段と、を含む
請求項9に記載の装置。
【請求項13】
前記抽出手段は、
前記認識すべき音声に対して特徴抽出を行い、特徴マトリックスを取得する抽出サブ手段と、
前記特徴マトリックスに対して次元削減を行い、次元削減後の特徴マトリックスを取得する次元削減サブ手段と、
次元削減後の特徴マトリックスに対して複数段階音声強調の符号化処理を行い、前記音節特性マトリックスを取得する符号化サブ手段と、を含む
請求項12に記載の装置。
【請求項14】
前記ウェイクアップ単語認識結果が前記認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、前記認識すべき音声が誤ったウェイクアップ音声であると特定する第2特定モジュールをさらに含む
請求項9~13のいずれか一項に記載の装置。
【請求項15】
前記所定のパラメータは、軽量化パラメータの数の閾値に基づいて特定される
請求項11に記載の装置。
【請求項16】
前記認識すべき音声が正しいウェイクアップ音声であると特定した場合、表示インターフェースに目標対象を表示する表示モジュールと、
フィードバック音声を出力するフィードバックモジュールと、をさらに含む
請求項9に記載の装置。
【請求項17】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1から8のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される
電子機器。
【請求項18】
コンピュータ命令が記憶されている非一時的コンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1から8のいずれか一項に記載の方法を実行させる
記憶媒体。
【請求項19】
プロセッサによって実行される際、請求項1から8のいずれか一項に記載の方法を実現するコンピュータプログラムを含む、
コンピュータプログラム製品。
【発明の詳細な説明】
【相互参照】
【0001】
本出願は、2022年7月15日に出願された、出願番号が202210838284.6である中国特許出願の優先権を主張し、その全ての内容が引用により本願に組み込まれる。
【技術分野】
【0002】
本開示は、人工知能技術分野に関し、特に、ヒューマンコンピュータインタラクション、ディープラーニング、インテリジェント音声などの技術分野に関する。具体的には、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びプログラム製品に関する。
【背景技術】
【0003】
音声対話は、人間の自然な対話方式である。人工知能技術の発展に伴い、人間が発した音声を機器が聞き取ることができ、音声における内在意味を理解し、対応するフィードバックを行うことが実現されている。これらの操作において、ウェイクアップの応答速度、ウェイクアップの難易度、語義の正確な理解、フィードバックの迅速度は、いずれも音声対話の円滑性に影響する要因となる。
【発明の概要】
【0004】
本開示は、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。
【0005】
本開示の一態様によれば、音声ウェイクアップ方法であって、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することと、前記ウェイクアップ単語認識結果が前記認識すべき音声に所定のウェイクアップ単語が含まれることを表す場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することと、前記ウェイクアップ音節認識結果が前記認識すべき音声に所定の音節が含まれることを表す場合、前記認識すべき音声が正しいウェイクアップ音声であると特定することと、を含む音声ウェイクアップ方法を提供する。
【0006】
本開示の他の態様によれば、音声ウェイクアップ装置であって、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得する単語認識モジュールと、前記ウェイクアップ単語認識結果が前記認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得する音節認識モジュールと、前記ウェイクアップ音節認識結果が前記認識すべき音声に所定の音節が含まれることを表すと特定した場合、前記認識すべき音声が正しいウェイクアップ音声であると特定する第1特定モジュールと、を含む音声ウェイクアップ装置を提供する。
【0007】
本開示の他の態様によれば、電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本開示の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器を提供する。
【0008】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに本開示の方法を実行させ記憶媒体を提供する。
【0009】
本開示の別の態様によれば、プロセッサによって実行される際に、本開示の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0010】
本部分に記載された内容は、本開示の実施例の重要な特徴を識別するためのものではなく、本開示の範囲を制限するものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、本発明をより良く理解するためのものであり、本開示を限定するものではない。
図1図1は、本開示の実施例に係る音声ウェイクアップ方法及び装置を適用できる例示的なシステムアーキテクチャを模式的に示す。
図2図2は、本開示の実施例に係る音声ウェイクアップ方法のフローチャートを概略的に示す。
図3図3は、本開示の実施例に係るウェイクアップ単語認識モデルのネットワーク構成図を模式的に示す。
図4図4は、本開示の実施例に係るウェイクアップ音節認識モデルのネットワーク構成図を模式的に示す。
図5図5は、本開示の別の実施例に係る音声ウェイクアップ方法のフローチャート模式図を模式的に示す。
図6図6は、本開示の別の実施例に係る音声ウェイクアップ方法の応用模式図を模式的に示す。
図7図7は、本開示の実施例に係る音声ウェイクアップ装置のブロック図を模式的に示す。
図8図8は、本開示の実施例に係る音声ウェイクアップ方法を実現するのに適する電子機器のブロック図を模式的に示す。
【発明を実施するための形態】
【0012】
以下、図面を参照して本開示の例示的な実施例を説明し、理解を容易にするために、本開示の実施例の様々な詳細を含み、これらが例示的なものに過ぎないと理解すべきである。したがって、当業者は、ここに記載された実施例に対して、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするため、以下の説明では、公知の機能及び構造についての説明を省略する。
【0013】
本開示は、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。
【0014】
本開示の一態様によれば、音声ウェイクアップ方法を提供し、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することと、前記ウェイクアップ単語認識結果が前記認識すべき音声に所定のウェイクアップ単語が含まれることを表す場合、前記認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することと、前記ウェイクアップ音節認識結果が前記認識すべき音声に所定の音節が含まれることを表す場合、前記認識すべき音声が正しいウェイクアップ音声であると特定することと、を含む。
【0015】
本開示の技術案において、かかるユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開及び応用等の処理は、いずれも相関法規制の規定に合致し、必要なセキュリティ対策を行い、公序良俗に反しない。
【0016】
本開示の技術案において、ユーザの個人情報を取得又は収集する前に、ユーザの承認又は同意を取得する。
【0017】
図1は、本開示の実施例に係る音声ウェイクアップ方法及び装置の応用シーンを模式的に示す。
【0018】
なお、図1は、当業者が本開示の技術内容を理解するのを助けるために、本開示の実施例の適用シーンを適用可能な例に過ぎず、本開示の実施例が他の機器、システム、環境又はシーンに適用されないという主旨ではない。
【0019】
図1に示すように、ユーザ102は、音声対話装置101に認識すべき音声を送信することができ、音声対話装置101は、認識すべき音声が正しいウェイクアップ音声であるか否かを判定することができ、音声対話装置101は、認識すべき音声が正しいウェイクアップ音声であると判定した場合、ユーザの意図情報を含む指示音声を取得し、指示音声における意図操作を実行し、ユーザ102と音声対話装置101との間のヒューマンコンピュータインタラクションを実現する。
【0020】
音声対話装置101には、知識閲覧アプリケーション、ウェブブラウザアプリケーション、検索アプリケーション、インスタントメッセージツール、メールボックスクライアント及び/又はソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされてもよい(単なる例である)。
【0021】
音声対話装置101は、ユーザ102の認識すべき音声及び意図情報を含む指示音声を収集するような、例えばマイクロホンという集音器を含んでもよい。音声対話装置101は、音声対話装置から送信された音声を再生するような、例えばスピーカーというなどの音声プレーヤーをさらに含んでもよい。
【0022】
音声対話装置101は、音声信号を介して対話できる任意の電子機器であってもよい。音声対話装置101は、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、スマート家電、スマートスピーカ、車載スピーカ、スマート家電、又はスマートロボットなどを含んでもよいが、これらに限定されない。
【0023】
なお、本開示の実施例に係る音節認識モデル及びキーワード認識モデルは、音声対話装置101に搭載され、音声処理方法は、一般的に、音声対話装置101によって実行されてもよい。それに応じて、本開示の実施例に係る音声処理装置は、音声対話装置101に設けられてもよい。端末機器は、サーバとインタラクションする必要がなく、本開示の実施例に係る音声ウェイクアップ方法及び装置を実現することができる。
【0024】
これに限定されず、本開示の他の実施例において、音声対話装置は、ネットワークを介して認識すべき音声をサーバに送信し、サーバにより認識すべき音声を処理して、認識すべき音声が正しいウェイクアップ音声であるか否かを特定してもよい。
【0025】
なお、以下の方法における各操作のシーケンス番号は、単に当該動作の表現として記載され、当該各動作の実行順序を示すものと見なされるべきではない。特に明記しない限り、当該方法は、完全に示す順序に従って実行する必要はない。
【0026】
図2は、本開示の実施例に係る音声ウェイクアップ方法のフローチャートを模式的に示す。
【0027】
図2に示すように、当該方法は、操作S210-S230を含む。
【0028】
操作S210において、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得する。
【0029】
操作S220において、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得する。
【0030】
操作S230において、ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。
【0031】
本開示の実施例によれば、認識すべき音声は、ウェイクアップ音声であってもよい。ウェイクアップ音声とは、音声対話機能がウェイクアップする前に受信した音声信号、例えばウェイクアップ単語を含む音声、又は、非ウェイクアップ単語を含む音声であってもよい。
【0032】
本開示の実施例によれば、正しいウェイクアップ音声とは、ウェイクアップ単語を含む音声、又は音声対話機能をウェイクアップできる音声であってもよい。認識すべき音声が正しいウェイクアップ音声であると特定した場合、音声対話装置の音声対話機能をトリガーすることができる。認識すべき音声が誤ったウェイクアップ音声であると特定した場合、操作を停止し、ユーザに応答しないようにしてもよい。
【0033】
本開示の実施例によれば、音声対話機能は、ユーザからの対話音声を受信でき、対話音声に対応する音声フィードバック結果をユーザに出力できる機能であってもよい。
【0034】
本開示の実施例によれば、認識すべき音声に対して単語認識を行うことは、認識すべき音声に対してウェイクアップ単語の認識を行うことであってもよい。認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得する。ウェイクアップ単語認識結果は、認識すべき音声に所定のウェイクアップ単語が含まれるか否かを表すことができる。
【0035】
本開示の実施例によれば、認識すべき音声に対して単語認識を行い、全局または全体的に認識すべき音声を認識し、ウェイクアップ単語認識結果を取得する。例えば、所定のウェイクアップ単語が「小D」である場合、認識すべき音声が「小Dこんにちは」であり、認識すべき音声に対して単語認識を行うことにより、認識すべき音声に所定のウェイクアップ単語が含まれることを表すためのウェイクアップ単語認識結果を取得することができる。
【0036】
本開示の他の実施例によれば、ウェイクアップ単語認識結果に基づいて、認識すべき音声が正しいウェイクアップ音声であるか否かを特定することができる。例えば、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定することができる。マンマシンインタラクション機能をオンにすることができる。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定することができる。応答しなくてもよい。
【0037】
本開示の実施例によれば、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行って、ウェイクアップ音節認識結果を取得することができる。
【0038】
本開示の実施例によれば、認識すべき音声に対して音節認識を行うことは、認識すべき音声に対してウェイクアップ単語に対応する音節認識を行って、ウェイクアップ音節認識結果を取得することであってもよい。ウェイクアップ音節認識結果は、認識すべき音声に所定の音節が含まれるか否かを表す。所定の音節は、所定のウェイクアップ単語に対応する音節を指してもよい。
【0039】
本開示の実施例によれば、認識すべき音声に対して音節認識を行い、ローカル又はスレーブバイトユニットに認識すべき音声を認識する。例えば、所定のウェイクアップ単語である「小D」に対応する所定の音節が音節「小」及び音節「D」という2個である場合、認識すべき音声が「小Dこんにちは」であり、認識すべき音声に対して音節認識を行うことにより、認識すべき音声に所定の音節が含まれることを表すウェイクアップ単語認識結果を取得することができる。
【0040】
本開示の実施例によれば、ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定する。
【0041】
本開示の他の実施例によれば、認識すべき音声に対して単語認識を行うことなく、認識すべき音声に対して音節認識のみを行い、ウェイクアップ音節認識結果を取得することができる。ウェイクアップ音節認識結果に基づいて、認識すべき音声が正しいウェイクアップ音声であるか否かを特定する。例えば、ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。マンマシンインタラクション機能をオンにすることができる。ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定する。応答しなくてもよい。
【0042】
本開示の実施例によれば、ウェイクアップ単語認識結果のみに基づいて認識すべき音声が正しいウェイクアップ音声であるか否かを特定し、又は、ウェイクアップ音節認識結果のみに基づいて認識すべき音声が正しいウェイクアップ音声であるか否かを特定する方式と比較して、「ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得し、ウェイクアップ音節認識結果に基づいて、認識すべき音声が正しいウェイクアップ音声であるか否かを特定する」という本開示に提供される方式によって、単語認識操作を利用して認識すべき音声に対してウェイクアップ単語の全単語ユニット認識を行うことができ、それと同時に、音節認識操作を利用して認識すべき音声に対してウェイクアップ単語のワードユニット認識を行い、認識すべき音声を全局的及びローカルの両方で認識することができ、これにより、ウェイクアップ単語の数が4つ以下、例えば3つ又は2つである場合に、ウェイクアップ精度を保証し、ウェイクアップ誤報を回避することができる。
【0043】
本開示の他の実施例によれば、図2に示す操作S210について、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得することは、認識すべき音声に対して畳み込み操作を行い、第1段階特徴ベクトルシーケンスを取得することをさらに含むことができる。第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得する。第2段階特徴ベクトルシーケンスに対して分類操作を行い、ウェイクアップ単語認識結果を取得する。
【0044】
本開示の実施例によれば、認識すべき音声は音声フレームシーケンスを含んでもよい。第1段階特徴ベクトルシーケンスは、音声フレームシーケンスと1対1で対応する。
【0045】
本開示の実施例によれば、ウェイクアップ単語認識モデルを利用して認識すべき音声対して単語認識を行い、ウェイクアップ単語認識結果を取得することができる。しかし、これに限られない。他の方式によって認識すべき音声に対して単語認識を行ってもよく、ウェイクアップ単語認識結果を得ることができる単語認識方法であればよい。
【0046】
図3は、本開示の実施例に係るウェイクアップ単語認識モデルのネットワーク構成図を模式的に示す。
【0047】
図3に示すように、ウェイクアップ単語認識モデルは、畳み込みモジュール310、ゲートリカレントユニット320及びウェイクアップ単語分類モジュール330をこの順に含む。
【0048】
図3に示すように、認識すべき音声340を畳み込みモジュール310に入力し、第1段階特徴ベクトルシーケンスを得る。第1段階特徴ベクトルシーケンスをゲートリカレントユニット320に入力し、第2段階特徴ベクトルシーケンスを取得する。第2段階特徴ベクトルシーケンスをウェイクアップ単語分類モジュール330に入力し、ウェイクアップ単語認識結果350を得る。
【0049】
本開示の実施例によれば、ウェイクアップ単語認識モデルにおける畳み込みモジュールは、1つに限定されず、複数の積み重ねられた畳み込みモジュールを含んでもよい。同様に、ウェイクアップ単語認識モデルは、複数の積層されたゲートリカレントユニットを含んでもよい。
【0050】
本開示の実施例によれば、畳み込みモジュールは、CNN(ConvolutionalNeuralNetworks、畳み込みニューラルネットワーク)、RNN(RecurrentNeuralNetwork、再帰型ニューラルネットワーク)、LSTM(LongShort-TermMemory、長短期記憶ネットワーク)などのうちの1つ又は複数の組み合わせを含んでもよい。
【0051】
本開示の実施例によれば、ウェイクアップ単語分類モジュールは、全結合層及び活性化関数を含んでもよい。活性化関数はSoftmax活性化関数であってもよいが、これに限定されず、Sigmoid活性化関数であってもよい。全結合層の層数は限定されず、例えば、1層であってもよいし、複数層であってもよい。
【0052】
本開示の実施例によれば、ゲートリカレントユニットはGRU(GateRecurrentUnit、ゲートリカレントユニット)を指してもよいが、これに限定されず、例えば、GRUに対して軽量化処理を行った後のGRU誘導モジュールであってもよい。
【0053】
本開示の実施例によれば、GRU誘導モジュールを利用し、ProjectedLight-GRUモジュールとも呼ばれ、ウェイクアップ単語識別モデルを例えば音声対話装置という端末機器に搭載し、即ち端末側軽量化配置に有利であり、さらに、認識すべき音声に対する単語認識のリアルタイム性を確保する。
【0054】
本開示の他の実施例によれば、第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得することは、直前時刻出力ベクトル、及び第1段階特徴ベクトルシーケンスにおける現在時刻の第1段階特徴ベクトルである現在時刻入力ベクトルに基づいて、現在時刻更新ゲート及び現在時刻候補隠れ層情報をそれぞれ特定すること、現在時刻候補隠れ層情報、直前時刻隠れ層情報及び現在時刻更新ゲートに基づいて、現在時刻隠れ層情報を特定すること、現在時刻隠れ層情報及び所定パラメータに基づいて、第2段階特徴ベクトルシーケンスにおける現在時刻の第2段階特徴ベクトルである現在時刻出力ベクトルを特定すること、を繰り返すことを含む。
【0055】
本開示の実施例によれば、所定のパラメータは、マッピング(Projection)パラメータとも呼ばれ、軽量化パラメータの数の閾値に基づいて特定される。
【0056】
本開示の実施例によれば、軽量化パラメータの数の閾値は、パラメータの設定基準、例えば、所定のパラメータの数の閾値を指し、所定のパラメータの大きさは、軽量化パラメータの数の閾値以下であり、ウェイクアップ単語の認識モデルのデータ処理量を低減する。
【0057】
本開示の実施例によれば、ProjectedLight-GRUモジュールは、以下の式(1)-(4)で表すことができる。
【0058】
【数1】
【0059】
本開示の実施例によれば、標準的なGRUと比較して、本開示の実施例に係るProjectedLight-GRUモジュールは、リセットゲートを除去するとともに、所定のパラメータを導入した。これにより、ウエイクアップワード認識モデルの計算量が小さくなる。ProjectedLight-GRUモジュールを有するウェイクアップ単語識別モデルを音声対話装置に適用し、高い性能を有しながら、リソースオーバーヘッドを低減する。音声対話装置に搭載されたウェイクアップ単語認識モデルの全天候運転状態を実現し、音声対話装置のウェイクアップ応答速度を向上させる。
【0060】
本開示の他の実施例によれば、図2に示すような操作S220について、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することは、認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得することをさらに含むことができる。音節特徴マトリックスに対して分類操作を行い、ウェイクアップ音節認識結果を得る。
【0061】
本開示の実施例によれば、音節認識モデルを利用して認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得することができる。しかし、これに限られない。他の方式で認識すべき音声に対して音節認識を行ってもよく、ウェイクアップ音節認識結果を得ることができる音節認識方法であればよい。
【0062】
図4は、本開示の実施例に係るウェイクアップ音節認識モデルのネットワーク構成図を模式的に示す。
【0063】
図4に示すように、ウェイクアップ音節認識モデルは、特徴抽出符号化モジュール410及び音節分類モジュール420をこの順に含む。
【0064】
図4に示すように、認識すべき音声430を特徴抽出符号化モジュール410に入力して、音節特徴抽出を行い、音節特徴マトリックスを出力する。音節特徴マトリックスを音節分類モジュール420に入力して、分類操作を行い、ウェイクアップ音節認識結果440を出力する。
【0065】
本開示の実施例によれば、音節分類モジュールは、全結合層と活性化関数とを含んでもよい。活性化関数はSoftmax活性化関数であってもよいが、これに限定されず、Sigmoid活性化関数であってもよい。全結合層の層数は限定されず、例えば、1層であってもよいし、複数層であってもよい。
【0066】
本開示の実施例によれば、特徴抽出符号化モジュールは、Conformerモデル(畳み込み強化に基づくエンコーダ)におけるネットワーク構造によって構築されてもよいが、これに限定されず、ConformerモデルにおけるConformerモジュールを採用してもよく、Conformerモデル又はConformerモジュールが例えば枝刈りの軽量化処理を経て得られたネットワーク構造であってもよい。
【0067】
本開示の実施例によれば、認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得することは、認識すべき音声に対して特徴抽出を行い、特徴マトリックスを取得することをさらに含むことができる。特徴マトリックスに対して次元削減を行い、次元削減後の特徴マトリックスを得る。次元削減後の特徴マトリックスに対して多段階音声強調の符号化処理を行い、音節特徴マトリックスを得る。
【0068】
本開示の実施例によれば、特徴抽出符号化モジュールは、特徴抽出層、次元削減層及び符号化層を順次含むことができる。特徴抽出層を利用して認識すべき音声に対して特徴抽出を行い、特徴マトリックスを得ることができる。次元削減層を利用して特徴マトリックスに対して次元削減を行い、次元削減後の特徴マトリックスを得る。符号化層を利用して、次元削減後の特徴マトリックスに対して、複数の音声正確な符号化処理を行い、音節特徴マトリックスを得る。
【0069】
本開示の実施例によれば、特徴抽出層は、少なくとも1つの相対的な正弦位置符号化(relative sinusoidal position coding)層、少なくとも1つの畳み込み層、少なくとも1つのフィードフォワード層(Feed Forward Module)のうちの少なくとも一方を含んでもよい。
【0070】
本開示の実施例によれば、符号化層は、Conformerモジュールを含んでもよく、例えば、複数のフィードフォワード層、少なくとも1つのマルチヘッゲートテンションメカニズム層(Multi-Headed Self-Attention module)、少なくとも1つの畳み込み層のうちの少なくとも一方を含む。
【0071】
本開示の実施例によれば、次元削減層はマッピング関数を含んでもよいが、これに限定されず、例えば、高次元マトリックスを次元削減し、低次元マトリックスを得る層構造を含んでもよい。
【0072】
本開示の実施例によれば、次元削減層を利用して符号化層に入力されるデータ量を低減し、音節認識モデルの計算量を低減することができる。また、符号化層の積層層数を低減することもでき、例えば、軽量化パラメータの数の閾値に基づいて、符号化層の積層層数を1から4のいずれかに特定する。
【0073】
本開示の実施例によれば、ウェイクアップ音節認識モデルにおいて次元削減層を設計し、符号化層の積層層数を制御することにより、認識精度を確保しながら、ウェイクアップ音節認識モデルの軽量化、小型化を実現し、さらに認識効率を向上させ、且つウェイクアップ音節認識モデルを端末機器に適用する場合、端末機器のプロセッサの消費電力を低減することができる。
【0074】
図5は、本開示の別の実施例に係る音声ウェイクアップ方法のフローチャート模式図を模式的に示す。
【0075】
図5に示すように、認識すべき音声510をウェイクアップ単語認識モデル520に入力し、ウェイクアップ単語認識結果530を得る。ウェイクアップ単語認識結果530が認識すべき音声510に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声510をウェイクアップ音節認識モデル540に入力し、ウェイクアップ音節認識結果550を取得する。ウェイクアップ音節認識結果550が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。音声対話装置がウェイクアップされ、以降のヒューマンコンピュータインタラクションを行うことができる。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定し、操作を停止する。ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定し、音声対話装置がウェイクアップされない。
【0076】
本開示の他の実施例によれば、認識すべき音声をウェイクアップ音節認識モデルに入力して、ウェイクアップ音節認識結果を取得してもよい。ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声をウェイクアップ単語認識モデルに入力し、ウェイクアップ単語認識結果を取得する。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。音声対話装置がウェイクアップされ、以降のヒューマンコンピュータインタラクションを行うことができる。ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定し、操作を停止する。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定し、音声対話装置はウェイクアップされない。
【0077】
本開示の他の実施例によれば、認識すべき音声をウェイクアップ単語認識モデルに入力し、ウェイクアップ単語認識結果を取得することもできる。認識すべき音声をウェイクアップ音節認識モデルに入力し、ウェイクアップ音節認識結果を取得する。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定し、且つ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定し、又は、音節認識結果が認識すべき音声に所定の音節が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定する。
【0078】
本開示の実施例によれば、上記ウェイクアップ単語認識モデル及びウェイクアップ音節認識モデルを利用して認識すべき音声を処理することにより、ウェイクアップ単語の数を低減するシーンに適用することができ、ウェイクアップ単語が1つ、2つ又は3つである場合、認識精度を確保しながら、誤報知率を低減することができる。
【0079】
本開示の実施例によれば、「まずウェイクアップ音節モデルを利用して認識すべき音声に対して音節認識を行う」方式と比較して、又は「ウェイクアップ音節モデルを利用して認識すべき音声に対して音節認識を行いながら、ウェイクアップ単語認識モデルを利用して認識すべき音声に対して単語認識を行う」方式と比較して、「まずウェイクアップ単語認識モデルを利用して認識すべき音声に対して単語認識を行う」方式の方が、ウェイクアップ単語認識モデルのネットワーク構造が簡単で、演算量が小さいという特徴により、端末機器がリアルタイムアクティブ状態にある場合に、認識精度を確保しながら、音声対話装置を端末機器とする消費電力を低減することができる。
【0080】
図6は、本開示の別の実施例に係る音声ウェイクアップ方法の応用模式図を模式的に示す。
【0081】
図6に示すように、ユーザ610は、音声対話装置620に認識すべき音声を送信する。音声対話装置は、音声対話装置610に搭載されたウェイクアップ単語認識モデル及びウェイクアップ音節認識モデルを用いて、認識すべき音声に対して音声ウェイクアップ方法の操作を行い、認識すべき音声が正しいウェイクアップ音声であるか否かを特定する。認識すべき音声が正しいウェークアップ音声であると特定した場合、音声対話装置620の表示インタフェース621に目標対象630を提示すると同時に、音声対話装置620はフィードバック音声を出力する。ヒューマンコンピュータインタラクションを柔軟に、且つ、鮮やかに表現する。
【0082】
図7は、本開示の実施例に係る音声ウェイクアップ装置のブロック図を概略的に示す。
【0083】
図7に示すように、音声ウェイクアップ装置700は、単語認識モジュール710、音節認識モジュール720及び第1特定モジュール730を含む。
【0084】
単語認識モジュール710は、認識すべき音声に対して単語認識を行い、ウェイクアップ単語認識結果を取得する。
【0085】
音節認識モジュール720は、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まれることを表すと特定した場合、認識すべき音声に対して音節認識を行い、ウェイクアップ音節認識結果を取得する。
【0086】
第1特定モジュール730は、ウェイクアップ音節認識結果が認識すべき音声に所定の音節が含まれることを表すと特定した場合、認識すべき音声が正しいウェイクアップ音声であると特定する。
【0087】
本開示の実施例によれば、単語認識モジュールは、畳み込み手段、ゲートユニット及び単語分類手段を含む。
【0088】
畳み込み手段は、認識すべき音声に対して畳み込み操作を行い、第1段階特徴ベクトルシーケンスを取得する。認識すべき音声は音声フレームシーケンスを含み、第1段階特徴ベクトルシーケンスは音声フレームシーケンスと1対1で対応する。
【0089】
ゲートユニットは、第1段階特徴ベクトルシーケンスに対してゲートリカレント操作を行い、第2段階特徴ベクトルシーケンスを取得する。
【0090】
単語分類手段は、第2段階特徴ベクトルシーケンスに対して分類操作を行い、ウェイクアップ単語認識結果を取得する。
【0091】
本開示の実施例によれば、ゲートユニットは、重複する以下のサブ手段を含む。
【0092】
第1特定サブ手段は、直前時刻出力ベクトル、および、第1段特徴ベクトルシーケンスにおける現在時刻の第1段特徴ベクトルである現在時刻入力ベクトルに基づいて、現在時刻更新ゲートと現在時刻候補隠れ層情報をそれぞれ特定する。
【0093】
第2特定サブ手段は、現在時刻候補隠れ層情報、直前時刻隠れ層情報及び現在時刻更新ゲートに基づいて、現在時刻隠れ層情報を特定する。
【0094】
第3特定サブ手段は、現在時刻隠れ層情報及び所定パラメータに基づいて、第2段階特徴ベクトルシーケンスにおける現在時刻の第2段階特徴ベクトルである現在時刻出力ベクトルを特定する。
【0095】
本開示の実施例によれば、音節認識モジュールは、抽出手段及び音節分類手段を含む。
【0096】
抽出手段は、認識すべき音声に対して音節特徴抽出を行い、音節特徴マトリックスを取得する。
【0097】
音節分類手段は、音節特徴マトリックスに対して分類操作を行い、ウェイクアップ音節認識結果を取得する。
【0098】
本開示の実施例によれば、抽出手段は、抽出サブ手段と、次元削減サブ手段と、符号化サブ手段とを含む。
【0099】
抽出サブ手段は、認識すべき音声に対して特徴抽出を行い、特徴マトリックスを取得する。
【0100】
次元削減サブ手段は、特徴マトリックスに対して次元削減を行い、次元削減後の特徴マトリックスを取得する。
【0101】
符号化サブ手段は、次元削減後の特徴マトリックスに対して複数段階の音声強調の符号化処理を行い、音節特徴マトリックスを取得する。
【0102】
本開示の実施例によれば、音声ウェイクアップ装置は、第2特定モジュールをさらに含む。
【0103】
第2特定モジュールは、ウェイクアップ単語認識結果が認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、認識すべき音声が誤ったウェイクアップ音声であると特定する。
【0104】
本開示の実施例によれば、所定のパラメータは、軽量化パラメータの数の閾値に基づいて特定される。
【0105】
本開示の実施例によれば、音声ウェイクアップ装置は、表示モジュール及びフィードバックモジュールをさらに含む。
【0106】
表示モジュールは、認識すべき音声が正しいウェイクアップ音声であると特定した場合、表示インターフェースに目標対象を表示する。
【0107】
フィードバックモジュールは、フィードバック音声を出力する。
【0108】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0109】
本開示の実施例によれば、電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されたメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサによって実行されて、本開示の実施例の方法を実行することができる。
【0110】
本開示の実施例によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読取可能な記憶媒体であって、コンピュータ命令は、コンピュータに本開示の実施例の方法を実行させるために用いられる。
【0111】
本開示の実施例によれば、コンピュータプログラム製品を含み、プロセッサによって実行されると、本開示の実施例の方法を実現するコンピュータプログラムを含む。
【0112】
図8は、本開示の実施形態を実施することが可能な電子機器800の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0113】
図8に示すように、電子機器800は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する計算手段801を含んでもよい。RAM803には、さらに電子機器800の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段801、ROM802、およびRAM803は、バス804により相互に接続されている。バス804には、入出力インタフェース805も接続されている。
【0114】
電子機器800における複数の部品は、I/Oインタフェース805に接続され、例えばキーボード、マウスなどの入力手段806と、例えば様々なタイプのディスプレイ、スピーカなどの出力手段807と、例えば磁気ディスク、光ディスクなどの記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段809とを含む。通信手段809は、電子機器800がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
【0115】
計算手段801は、各種の処理、演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算手段801としては、中央処理ユニット(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムを実行する計算手段、デジタル信号機(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算手段801は、上記説明した各方法及び処理を実行し、例えば、音声ウェイクアップ方法を実行する。例えば、ある実施例において、音声ウェイクアップ方法は、コンピュータソフトウェアプログラムとして実現され、それは機械的読取可能な媒体、例えば記憶手段808に一時的に含まれる。ある実施例において、コンピュータプログラムの一部又は全部はROM802及び/又は通信手段809を介して電子機器800にロード及び/又はインストールされる。コンピュータプログラムがRAM803にロードされかつ計算手段801により実行される場合、前述の音声ウェイクアップ方法の一つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段801は、他の任意の適切な方式(例えば、ファームウェア)により音声ウェイクアップ方法を実行するように構成される。
【0116】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。
【0117】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0118】
本開示のコンテキストにおいて、機械的読取可能な媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械的読取可能な媒体は、機械的読取可能な信号媒体又は機械的読取可能な記憶媒体であってもよい。機械的読取可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械的読取可能な記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0119】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0120】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0121】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0122】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0123】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2024-04-09
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本開示は、人工知能技術分野に関し、特に、ヒューマンコンピュータインタラクション、ディープラーニング、インテリジェント音声などの技術分野に関する。具体的には、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正の内容】
【0004】
本開示は、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
本開示の別の態様によれば、プロセッサによって実行される際に、本開示の方法を実現するコンピュータプログラムを提供する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正の内容】
【0013】
本開示は、音声ウェイクアップ方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0039
【補正方法】変更
【補正の内容】
【0039】
本開示の実施例によれば、認識すべき音声に対して音節認識を行い、ローカル又はスレーブバイトユニットに認識すべき音声を認識する。例えば、所定のウェイクアップ単語である「小D」に対応する所定の音節が音節「小」及び音節「D」という2個である場合、認識すべき音声が「小Dこんにちは」であり、認識すべき音声に対して音節認識を行うことにより、認識すべき音声に所定の音節が含まれることを表すウェイクアップ音節認識結果を取得することができる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0108
【補正方法】変更
【補正の内容】
【0108】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供する。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0111
【補正方法】変更
【補正の内容】
【0111】
本開示の実施例によれば、プロセッサによって実行されると、本開示の実施例の方法を実現するコンピュータプログラムを含む。
【手続補正9】
【補正対象書類名】特許請求の範囲
【補正対象項目名】請求項6
【補正方法】変更
【補正の内容】
【請求項6】
前記ウェイクアップ単語認識結果が、前記認識すべき音声に所定のウェイクアップ単語が含まないことを表すと特定した場合、前記認識すべき音声が誤ったウェイクアップ音声であると特定することをさらに含む
請求項1に記載の方法。
【手続補正10】
【補正対象書類名】特許請求の範囲
【補正対象項目名】請求項19
【補正方法】変更
【補正の内容】
【請求項19】
コンピュータプログラムであって、
プロセッサによって実行される際、請求項1から8のいずれか一項に記載の方法を実現するコンピュータプログラム。
【国際調査報告】