IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特表2023-512134ウェイクアップ指標の監視方法、装置及び電子機器
<>
  • 特表-ウェイクアップ指標の監視方法、装置及び電子機器 図1
  • 特表-ウェイクアップ指標の監視方法、装置及び電子機器 図2
  • 特表-ウェイクアップ指標の監視方法、装置及び電子機器 図3
  • 特表-ウェイクアップ指標の監視方法、装置及び電子機器 図4
  • 特表-ウェイクアップ指標の監視方法、装置及び電子機器 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-24
(54)【発明の名称】ウェイクアップ指標の監視方法、装置及び電子機器
(51)【国際特許分類】
   G10L 15/28 20130101AFI20230316BHJP
   G10L 15/10 20060101ALI20230316BHJP
   G06F 3/16 20060101ALI20230316BHJP
【FI】
G10L15/28 230K
G10L15/10 200W
G06F3/16 630
G06F3/16 650
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022514849
(86)(22)【出願日】2021-05-07
(85)【翻訳文提出日】2022-03-04
(86)【国際出願番号】 CN2021092100
(87)【国際公開番号】W WO2022142048
(87)【国際公開日】2022-07-07
(31)【優先権主張番号】202011577341.7
(32)【優先日】2020-12-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】弁理士法人後藤特許事務所
(72)【発明者】
【氏名】李 旭
(72)【発明者】
【氏名】陳 澤明
(57)【要約】
本願は、ウェイクアップ指標の監視方法、装置及び電子機器を開示する。具体的な解決手段は、監視対象機器のM個のオーディオデータを取得することと、M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、第1のオーディオデータのM個のオーディオデータに占める割合を監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含むウェイクアップ指標の監視方法。
【請求項2】
監視対象機器のM個のオーディオデータを取得する前に、前記方法は、
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得することであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であることと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定することと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得することであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータであることと、をさらに含む請求項1に記載の方法。
【請求項3】
前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記N個のオーディオ機器のP個のオーディオデータを取得することは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得することと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定することと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得することと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成することと、を含む請求項2に記載の方法。
【請求項4】
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することは、
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得することであって、前記ターゲットオーディオデータは、前記M個のオーディオデータのいずれかであることと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得することと、を含む請求項1に記載の方法。
【請求項5】
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含むウェイクアップ指標の監視方法。
【請求項6】
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュールと、を含むウェイクアップ指標の監視装置。
【請求項7】
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得する第3の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数である第3の取得モジュールと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定する第3の決定モジュールと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含む請求項6に記載の装置。
【請求項8】
前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記第3の取得モジュールは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第1の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得する第2の決定ユニットと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成する生成ユニットと、を含む請求項7に記載の装置。
【請求項9】
前記第1の決定モジュールは、具体的には、前記M個のオーディオデータのいずれかであるターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得する、請求項6に記載の装置。
【請求項10】
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュールと、を含むウェイクアップ指標の監視装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1-4のいずれか一項に記載の方法を実行させるか、又は請求項5に記載の方法を実行させる、電子機器。
【請求項12】
コンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1-4のいずれか一項に記載の方法を実行させるか、又は請求項5に記載の方法を実行させるためのものである、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項13】
コンピュータプログラム製品であって、前記コンピュータプログラム製品が電子機器で実行される場合、前記電子機器は、請求項1-4のいずれか一項に記載の方法を実行するか、又は請求項5に記載の方法を実行する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、人工知能の技術分野に関し、特にオーディオ試験の技術分野に関し、具体的には、ウェイクアップ指標の監視方法、装置及び電子機器に関する。
【背景技術】
【0002】
インテリジェント音声対話機器におけるウェイクアップ指標は、従来から重要なユーザー体験評価指標であり、インテリジェント音声対話機器のユーザー対話率及びユーザー維持率に直接的に影響する。したがって、ウェイクアップ指標については、ユーザー体験の重要な指標として、オンラインインテリジェント音声対話機器のウェイクアップ指標の変化状況を知る必要がある。
【0003】
手動注釈の方式でインテリジェント音声対話機器のウェイクアップ指標を監視することにより、インテリジェント音声対話機器のウェイクアップ指標の変化を監視することができる。
【発明の概要】
【0004】
本発明は、ウェイクアップ指標の監視方法、装置及び電子機器を提供する。
【0005】
本開示の第1の態様に係るウェイクアップ指標の監視方法は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含む。
【0006】
本開示の第2の態様に係るウェイクアップ指標の監視方法は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含む。
【0007】
本開示の第3の態様に係るウェイクアップ指標の監視装置は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュールと、を含む。
【0008】
本開示の第4の態様に係るウェイクアップ指標の監視装置は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュールと、を含む。
【0009】
本開示の第5の態様に係る電子機器は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
メモリは、少なくとも1つのプロセッサにより実行可能な命令を記憶し、該命令は、少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの方法を実行させるか、又は第2の態様のいずれかの方法を実行させる。
【0010】
本開示の第6の態様に係る非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータ命令を記憶しており、前記コンピュータ命令は、前記コンピュータに第1の態様のいずれかの方法を実行させるか、又は第2の態様のいずれかの方法を実行させるためのものである。
【0011】
本開示の第7の態様に係るコンピュータプログラム製品は、電子機器で実行される場合、前記電子機器は、第1の態様のいずれかの方法を実行するか、又は第2の態様のいずれかの方法を実行することができる。
【0012】
本明細書に記載された内容は、本開示の実施例のキーポイントまたは重要な特徴を限定するものではなく、本開示の範囲を限定しないことを理解されたい。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0013】
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
【0014】
図1図1は、本願の第1の実施例に係るウェイクアップ指標の監視方法のフローチャートである。
図2図2は、本願の第2の実施例に係るウェイクアップ指標の監視方法のフローチャートである。
図3図3は、本願の第3の実施例に係るウェイクアップ指標の監視装置の概略構成図である。
図4図4は、本願の第4の実施例に係るウェイクアップ指標の監視装置の概略構成図である。
図5図5は、本開示の実施例を実施することが可能な電子機器500を示す概略ブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら、本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0016】
第1の実施例
図1に示すように、本願は、ウェイクアップ指標の監視方法を提供し、以下のステップS101~ステップS104を含む。
【0017】
ステップS101では、監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する。
【0018】
本実施例において、ウェイクアップ指標の監視方法は、人工知能の技術分野に関し、特にオーディオ試験の技術分野に関し、様々な新型インテリジェント音声対話機器のエンドツーエンド検収及びウェイクアップ機能に対するオンライン監視等の多くのシーンに広く適用することができる。
【0019】
実際に使用する時、本願の実施例に係るウェイクアップ指標の監視方法は、本願の実施例に係るウェイクアップ指標の監視装置により実行することができる。本願の実施例に係るウェイクアップ指標の監視装置は、任意の電子機器に配置することにより、本願の実施例に係るウェイクアップ指標の監視方法を実行することができる。電子機器は、サーバであってもよく、端末であってもよく、ここで特に限定されない。
【0020】
前記監視対象機器は、インテリジェントオーディオ機器であってもよく、インテリジェント音声対話機器と呼ばれてもよく、例えば、前記監視対象機器は、インテリジェントスピーカー機器又はインテリジェント録音機器などであってもよい。
【0021】
インテリジェント音声対話機器は、音声によりウェイクアップすることが可能な機器を指し、例えば、ユーザーがインテリジェント音声対話機器に対して「小都小都(シャオドゥシャオドゥ)」を話すと、インテリジェント音声対話機器は、該音声に応答して、動作モードに入ることができる。この時、インテリジェント音声対話機器がウェイクアップされ、それに応じて、「小都小都(シャオドゥシャオドゥ)」は、インテリジェント音声対話機器のウェイクアップワードと呼ばれてもよい。
【0022】
前記監視対象機器のM個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータを指し、該オーディオデータは、受信された、ユーザーが前記監視対象機器をウェイクアップするための第1のウェイクアップワードのデータ、及び/又は、前記監視対象機器がウェイクアップされた後に生成したデータを含んでもよい。
【0023】
一般的な状況で、監視対象機器は、例えば、スリープモード及び動作モードなどの複数のモードを含んでもよく、監視対象機器がスリープモードにある場合、ユーザーは第1のウェイクアップワードを含む音声データにより監視対象機器をウェイクアップし、それに応じて、監視対象機器がウェイクアップされ、スリープモードから動作モードに切り替えることができ、この時、監視対象機器の1回目のウェイクアップと呼ばれてもよい。
【0024】
しかしながら、様々な要因により、監視対象機器がスリープモードで誤ってウェイクアップされる可能性があり、例えば、監視対象機器がユーザーの他の音声データに応答してウェイクアップされ、該他の音声データはユーザーが監視対象機器をウェイクアップするための第1のウェイクアップワードを含まず、また例えば、監視対象機器が何の兆候がない状況で、つまり何の音声データを受信していない状況でウェイクアップされ、これらのウェイクアップはいずれも監視対象機器の誤ウェイクアップと呼ばれてもよい。本願の実施例は、監視対象機器のウェイクアップ指標を監視するために用いられる。前記ウェイクアップ指標は、ウェイクアップ率であってもよく、監視対象機器のウェイクアップ性能を監視し、機器検収又は製品開発を行うために用いられる。
【0025】
監視対象機器が毎回ウェイクアップされる場合、監視対象機器をスリープモードから動作モードに切り替える過程において受信したオーディオデータ及び生成したオーディオデータを記憶し、オーディオログデータを生成することができる。それに応じて、オーディオログデータから監視対象機器のM個のオーディオデータを取得することができる。監視対象機器の各オーディオデータは、監視対象機器の1回目のウェイクアップ過程において受信したオーディオデータ及び生成したデータであってもよい。
【0026】
なお、Mは1より大きい正の整数であり、一般的には、監視対象機器のウェイクアップ指標の監視精度を向上させ、監視数が小さいことによる監視対象機器のウェイクアップ指標の変動を防止するために、一般的にMの数が大きく、数千又は数万程度であってもよく、例えば、Mが5千又は1万である。
【0027】
ステップS102では、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定し、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す。
【0028】
本願の実施例において、前記監視対象機器が正常にウェイクアップされる状況で、前記監視対象機器のオーディオデータは前記監視対象機器をウェイクアップするための第1のウェイクアップワードを含み、誤ってウェイクアップされる状況で、前記監視対象機器のオーディオデータは一般的に前記監視対象機器をウェイクアップするための第1のウェイクアップワードを含まない。
【0029】
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することにより、前記監視対象機器の各オーディオデータには前記第1のウェイクアップワードが含まれるか否かを決定することができる。前記第1のウェイクアップ信頼度は、監視対象機器のオーディオデータには前記第1のウェイクアップワードが含まれる確率を表す。
【0030】
前記第1のウェイクアップ信頼度の通常の値は0から1までであってもよく、前記第1のウェイクアップ信頼度が1である場合、監視対象機器のオーディオデータには前記第1のウェイクアップワードが含まれ、前記第1のウェイクアップ信頼度が0である場合、監視対象機器のオーディオデータには前記第1のウェイクアップワードが含まれないことを表し、前記第1のウェイクアップ信頼度が高いほど、監視対象機器のオーディオデータには前記第1のウェイクアップワードが含まれる確率が高く、そうでなければ、低い。
【0031】
ターゲットモデルにより前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することができ、前記ターゲットモデルはウェイクアップ信頼度モデルと呼ばれ、それは深層学習モデルであってもよく、前記M個のオーディオデータをプログラムによりウェイクアップ信頼度モデルに入力することができ、前記ウェイクアップ信頼度モデルは各オーディオデータに対して、各オーディオデータをスコアリングし、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を取得することができる。
【0032】
なお、ウェイクアップ確信度モデルは、スコアリングする前に、予めトレーニングする必要があり、複数のインテリジェントオーディオ機器の複数のオーディオデータ、及び各オーディオデータのタグをウェイクアップ信頼度モデルのトレーニングサンプルデータとして取得し、ウェイクアップ信頼度モデルをトレーニングすることができる。オーディオデータのタグは、正タグ及び負タグを含み、正タグは数値0で識別されてもよく、オーディオデータにはウェイクアップワードが含まれないことを示し、負タグは数値1で識別され、オーディオデータにはウェイクアップワードが含まれることを示す。最終的にトレーニングして得られたウェイクアップ信頼度モデルは、インテリジェントオーディオ機器のオーディオデータのウェイクアップ信頼度をスコアリングし、スコアが0から1までのウェイクアップ信頼度を取得し、オーディオデータにはウェイクアップワードが含まれる確率を表す。
【0033】
ステップS103では、前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す。
【0034】
前記ターゲット区間は、予め決定されてもよく、ウェイクアップ閾値範囲であってもよく、該種類の応用シーンでは、前記ターゲット区間は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードを含むことを表す。オーディオ機器は、インテリジェントオーディオ機器であってもよい。すなわち、オーディオデータのウェイクアップ信頼度が前記ターゲット区間に存在する場合、オーディオデータは一般的にオーディオ機器のウェイクアップワードを含む。
【0035】
前記ターゲット区間がウェイクアップ閾値範囲である応用シーンでは、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を前記ターゲット区間とマッチングし、前記M個のオーディオデータのうちオーディオデータの第1のウェイクアップ信頼度が前記ターゲット区間に存在する場合、該オーディオデータは第1のオーディオデータであり、第1のウェイクアップワードを含み、すなわち、該オーディオデータは、監視対象機器が正常にウェイクアップされる場合のオーディオデータである。前記M個のオーディオデータのうちオーディオデータの第1のウェイクアップ信頼度が前記ターゲット区間に存在しない場合、該オーディオデータは第1のオーディオデータではなく、第1のウェイクアップワードを含まず、すなわち、該オーディオデータは、監視対象機器が誤ってウェイクアップされる場合オーディオデータである。
【0036】
ステップS104では、前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定し、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む。
【0037】
該ステップでは、前記ターゲット区間がウェイクアップ閾値範囲である場合、取得された第1のオーディオデータに基づいて、前記監視対象機器のウェイクアップ率を決定することができ、前記ウェイクアップ指標はウェイクアップ率であってもよい。
【0038】
具体的には、前記第1のオーディオデータの前記M個のオーディオデータに占める割合を決定することができ、該割合は第1のオーディオデータの数をMで割って取得することができる。
【0039】
前記ターゲット区間がウェイクアップ閾値範囲である応用シーンでは、第1のオーディオデータが監視対象機器が実際にウェイクアップされる時に対応するオーディオデータであるため、該割合を前記監視対象機器のウェイクアップ率として決定することができる。
【0040】
実際の応用において、該ウェイクアップ率は製品検証の評価基準とすることができ、例えば、監視対象機器のウェイクアップ率が高いほど、該製品のウェイクアップ性能が高く、監視対象機器のウェイクアップ率が低いほど、該製品がウェイクアップ性能の面で改善する必要がある。
【0041】
実際の応用において、該ウェイクアップ率は、製品のバージョンのウェイクアップ機能を検証することもでき、例えば、製品の開発時に、監視対象機器に新たなバージョンのソフトウェアが埋め込まれ、該バージョンのソフトウェアのウェイクアップ性能が向上するか否かを検証するために、新たなバージョンのソフトウェアが埋め込まれた監視対象機器のウェイクアップ率と古いバージョンのソフトウェアが埋め込まれた監視対象機器のウェイクアップ率とを比較して、ウェイクアップ率が向上すると、新たなバージョンのソフトウェアがウェイクアップ性能で向上したと示し、そうでなければ改善する必要がある。
【0042】
本実施例において、監視対象機器のM個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することにより、前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得し、前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す。このようにして、監視対象機器のオンラインのオーディオデータに対してウェイクアップ率監視を自動的かつタイムリーに行い、ウェイクアップ率監視の精度を向上させることができる。かつ、オンラインの各オーディオ機器のウェイクアップ率の変化状況を大量かつ迅速に監視することができる。
【0043】
かつ、手動注釈等の不確定要素を考慮する必要がなく、ウェイクアップ率監視の操作性が高く、人的資源を節約し、異なる機器に対してウェイクアップ率監視を行うことをサポートすることができ、再利用性が高く、拡張性が高い。また、教師なしの監視を実現し、警報閾値を限定し、オンライン監視警報を実現することができる。
【0044】
好ましくは、前記ステップS101の前に、前記方法は、
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であるステップと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定するステップと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータであるステップと、をさらに含む。
【0045】
本実施形態は、監視対象機器のウェイクアップ率を監視する前に、ウェイクアップ率監視装置がターゲット区間を決定する過程を説明する。該ターゲット区間を決定した後、一般的に複数回使用することができる。
【0046】
オンラインの各オーディオ機器のオーディオデータが、実際にウェイクアップされる時のウェイクアップ信頼度の区間であることを評価することにより、前記ターゲット区間を決定することができ、前記ターゲット区間はウェイクアップ閾値範囲であってもよい。すなわち、複数のオーディオ機器の多くのオーディオデータがウェイクアップ信頼度のある区間に、いずれもオーディオ機器をウェイクアップするためのウェイクアップワードを含むと、該区間内にあるウェイクアップ信頼度に対応するオーディオデータが、オーディオ機器が実際にウェイクアップされる時に生成したデータである。
【0047】
具体的には、オンラインのN個のオーディオ機器のP個のオーディオデータを抽出することができ、Nは正の整数であり、通常、Nの値は1より大きい。即ち、オンラインの複数のオーディオ機器の複数個のオーディオデータを抽出し、例えば、オンラインの複数のオーディオ機器の5万個のオーディオデータを抽出することができる。
【0048】
同時に、前記P個のオーディオデータの注釈結果を取得することができ、該注釈結果は手動注釈の方式又は音声認識技術を用いて、前記P個のオーディオデータを注釈してから取得することができる。注釈結果は、2種類を含んでもよく、第1の種は、オーディオデータにはウェイクアップワードが含まれる注釈結果であってもよく、第2の種は、オーディオデータにはウェイクアップワードが含まれない注釈結果であってもよい。
【0049】
ウェイクアップ信頼度モデルを採用して前記P個のオーディオデータのうち各オーディオデータのウェイクアップ信頼度をスコアリングし、前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を取得することができ、前記第2のウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードを含む確率を表す。
【0050】
注釈結果を第2のウェイクアップ信頼度のスコアリング区間ごとに統計すると、第2のウェイクアップ信頼度が存在する区間のオーディオデータの注釈結果が、実際にウェイクアップされるオーディオデータの占める割合が所定の閾値、例えば99%よりも大きいと示す場合、第2のウェイクアップ信頼度が存在する該区間はターゲット区間であると考え、例えば、該ターゲット区間は0.7を超えてもよく、すなわち、0.7を超える第2のウェイクアップ信頼度に対応するオーディオデータがいずれもオーディオ機器が実際にウェイクアップされる時のデータであると考えることができる。
【0051】
本実施形態では、オンラインの各オーディオ機器の複数のオーディオデータが、実際にウェイクアップされる時の第2のウェイクアップ信頼度が存在する区間であることを統計することにより、ウェイクアップ閾値範囲のターゲット区間として決定し、監視対象機器のウェイクアップ率を自動的に、教師なしで監視することを実現することができる。
【0052】
好ましくは、前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記N個のオーディオ機器のP個のオーディオデータを取得するステップは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得するステップと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定するステップと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得するステップと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成するステップと、を含む。
【0053】
本実施形態では、オーディオ機器のオーディオデータは、ユーザーの使用時間に強く関連するため、時間次元からオーディオデータを分類することができる。
【0054】
かつ、中国の南北方出身のユーザーのオーディオ機器の使用習慣の違いにより、異なる地域のオーディオデータも大きく異なるため、地域次元からオーディオデータを分類することもできる。
【0055】
また、オンラインのオーディオ機器のバージョン及び種類が様々であってもよいため、オーディオデータのソースは様々であってもよく、例えば、インテリジェントスピーカー機器又はインテリジェント録音機器等に由来するため、オーディオデータのソース次元からオーディオデータを分類することもできる。
【0056】
より多くの使用シーンをできるだけカバーするために、Lが3であることを例とし、前記L個の次元は時間次元、地域次元及びオーディオデータのソース次元である。各オーディオデータに対して、それぞれ前記オーディオログデータにおける各オーディオデータに対して時間次元、地域次元及びオーディオデータのソース次元の分類を行うことができる。
【0057】
例えば、あるオーディオデータがユーザーの使用時間に強く関連し、ユーザーの朝のオーディオデータであり場合、時間次元での該オーディオデータの分類特徴情報は朝のオーディオデータである。該オーディオデータが北方地域のオーディオデータである場合、地域次元での該オーディオデータの分類特徴情報は、北方地域のオーディオデータである。また、該オーディオデータがインテリジェントスピーカー機器に由来する場合、オーディオデータのソース次元での該オーディオデータの分類特徴情報はインテリジェントスピーカー機器に由来するオーディオデータである。
【0058】
前記オーディオログデータにおけるオーディオデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定することができる。例えば、前記オーディオログデータにおけるオーディオデータの時間次元での分類特徴情報に基づいて、時間次元上のオーディオ特徴情報が朝と夜のオーディオデータが多く、午前及び午後のオーディオデータが少ないことを統計して得ることができる。
【0059】
前記オーディオログデータにおけるオーディオデータの地域次元での分類特徴情報に基づいて、地域次元上の東西南北地域のオーディオデータの割合を統計して得ることができる。前記オーディオログデータにおけるオーディオデータのオーディオデータのソース次元での分類特徴情報に基づいて、各ソースでのオーディオデータの流量を統計して得ることができる。
【0060】
その後、それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を得る。
【0061】
例えば、オーディオログデータの時間次元でのオーディオ特徴情報が朝と夜のオーディオデータが多く、午前及び午後のオーディオデータが少ないと、サンプリング時に、朝のオーディオデータと夜のオーディオデータから高頻度サンプリングを行うことができ、午前のオーディオデータと午後のオーディオデータから低頻度サンプリングを行う。
【0062】
地域次元において、東西南北地域のオーディオデータの割合に応じて、異なる地域のオーディオデータを選択することにより、選択されたオーディオデータがより多くの使用シーンにヒットすることを保証する。例えば、東西南北地域のオーディオデータの割合は、それぞれ1:2:3:4であり、1万個のオーディオデータを選択する必要があれば、東方地域のオーディオデータから1千個のオーディオデータを選択し、西方地域のオーディオデータから2千個のオーディオデータを選択し、南方地域のオーディオデータから3千個のオーディオデータを選択し、北方地域のオーディオデータから4千個のオーディオデータを選択する。
【0063】
オーディオデータのソース次元において、同じ割合に応じて異なるソースでのオーディオデータを選択することができ、あるソースでのオーディオデータの流量が小さければ、サンプリングの割合を向上させることができ、ある機器のオーディオデータの数が少なくて実際にウェイクアップされる時のウェイクアップ信頼度が存在するターゲット区間を効果的に評価することができないことを防止する。例えば、それぞれ0.01%の割合に応じて各ソースでのオーディオデータからオーディオデータをサンプリングすることができ、インテリジェントスピーカー機器のオーディオデータの流量が小さければ、1%の割合に応じてインテリジェントスピーカー機器のオーディオデータからオーディオデータをサンプリングすることができる。
【0064】
前記L個の次元のオーディオサンプリング結果を集約し、オーディオデータ集合を取得する。集約時にL個の次元のオーディオサンプリング結果のオーディオデータが重複すれば、重複するオーディオデータを除去すればよく、最終的に前記N個のオーディオ機器のP個のオーディオデータを取得する。
【0065】
本実施形態において、オーディオログデータにおける各オーディオデータに対してそれぞれL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL個の分類特徴情報を取得し、前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する。このように、異なる次元のオーディオ特徴情報に基づいて、オーディオログデータにおけるオーディオデータを精細化して選択することにより、取得されたP個のオーディオデータをより多くの使用シーンにヒットさせることができ、さらに各オーディオ機器が実際にウェイクアップされる時に大部分のオーディオデータの第2のウェイクアップ信頼度が存在するターゲット区間を効果的に評価し、ターゲット区間の特徴付け能力を向上させることができる。
【0066】
好ましくは、前記L個の次元は、
オーディオデータに対応する機器種別、
オーディオデータに対応する時間帯、
オーディオデータに対応する地域のうちの少なくとも1つを含む。
【0067】
本実施形態において、オーディオデータに対応する機器種別はオーディオデータのソースであり、それはオーディオデータのソース次元に対応し、例えば、オーディオデータに対応する機器種別がインテリジェントスピーカー機器であれば、該オーディオデータのソースは該インテリジェントスピーカー機器である。
【0068】
本実施形態において、オーディオデータに対応する機器種別、時間帯及び地域のいくつかの次元により、前記オーディオログデータにおける各オーディオデータを分類して、オーディオログデータからオーディオ機器により多く使用されるシーンのオーディオデータを精細化して選択することができる。
【0069】
好ましくは、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定するステップは、
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得するステップであって、前記ターゲットオーディオデータは、前記M個のオーディオデータのいずれかであるステップと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得するステップと、を含む。
【0070】
本実施形態において、前記ウェイクアップ確信度モデルは、ウェイクアップオフラインモデル及び信頼度モデルを含み、前記ウェイクアップオフラインモデル及び信頼度モデルは直列に実現されてもよく、前記ウェイクアップオフラインモデルはターゲットオーディオデータに特徴抽出を行うことにより、前記ターゲットオーディオデータのオーディオ特徴を取得し、信頼度モデルはターゲットオーディオデータのオーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得する。
【0071】
本実施形態において、ターゲットオーディオデータに特徴抽出を行うことにより、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得することにより、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を評価することを実現することができる。
【0072】
第2の実施例
図2に示すように、本願に係るウェイクアップ指標の監視方法は、
ステップS201では、監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する。
【0073】
ステップS202では、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定し、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す。
【0074】
ステップS203では、前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。
【0075】
ステップS204では、前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定し、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む。
【0076】
本実施例は、監視対象機器のウェイクアップ指標を監視するために用いられ、前記ウェイクアップ指標は、誤ウェイクアップ率であってもよく、監視対象機器のウェイクアップ性能を監視し、機器検収又は製品開発を行う。
【0077】
本実施例は、第1の実施例におけるステップの実現方式と類似し、ターゲット区間の閾値範囲が異なるため、その意味が異なり、監視されたウェイクアップ指標は前記検出対象機器の誤ウェイクアップ率である。
【0078】
具体的には、前記ターゲット区間は誤ウェイクアップ閾値範囲であってもよく、該種類の応用シーンでは、前記ターゲット区間は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。オーディオ機器は、インテリジェントオーディオ機器であってもよい。すなわち、オーディオデータのウェイクアップ信頼度が前記ターゲット区間に存在する場合、オーディオデータは一般的にオーディオ機器のウェイクアップワードを含まない。
【0079】
前記ターゲット区間が誤ウェイクアップ閾値範囲である応用シーンでは、前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を前記ターゲット区間とマッチングし、前記M個のオーディオデータのうちオーディオデータの第1のウェイクアップ信頼度が前記ターゲット区間に存在する場合、該オーディオデータは第1のオーディオデータであり、第1のウェイクアップワードを含まず、すなわち、該オーディオデータは、監視対象機器が誤ってウェイクアップされる場合のオーディオデータである。前記M個のオーディオデータのうちオーディオデータの第1のウェイクアップ信頼度が前記ターゲット区間に存在しない場合、該オーディオデータは第1のオーディオデータではなく、第1のウェイクアップワードを含む可能性があり、すなわち、該オーディオデータが、監視対象機器が実際にウェイクアップされる場合オーディオデータであると考えられる。
【0080】
前記ターゲット区間が誤ウェイクアップ閾値範囲である応用シーンでは、第1のオーディオデータが監視対象機器が誤ってウェイクアップされる時に対応するオーディオデータであるため、第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することができる。
【0081】
実際の応用において、該誤ウェイクアップ率は製品検証の評価基準とすることができ、例えば、監視対象機器の誤ウェイクアップ率が高いほど、該製品のウェイクアップ性能が低く、該製品はウェイクアップ性能の面で改善する必要があり、監視対象機器の誤ウェイクアップ率が低いほど、該製品のウェイクアップ性能が高いことを示す。
【0082】
実際の応用において、該誤ウェイクアップ率は、製品のバージョンのウェイクアップ機能を検証することもでき、例えば、製品の開発時に、監視対象機器に新たなバージョンのソフトウェアが埋め込まれ、該バージョンのソフトウェアのウェイクアップ性能が向上するか否かを検証するために、新たなバージョンのソフトウェアが埋め込まれた監視対象機器の誤ウェイクアップ率と古いバージョンのソフトウェアが埋め込まれた監視対象機器の誤ウェイクアップ率とを比較して、誤ウェイクアップ率が低下すると、新たなバージョンのソフトウェアがウェイクアップ性能で向上したと示し、そうでなければ改善する必要がある。
【0083】
本実施例において、監視対象機器のM個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することにより、前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得し、前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。このように、監視対象機器のオンラインのオーディオデータに対して誤ウェイクアップ率の監視を自動的かつタイムリーに行い、誤ウェイクアップ率の監視の精度を向上させることができる。オンラインの各オーディオ機器の誤ウェイクアップ率の変化状況を大量かつ迅速に監視することができる。
【0084】
好ましくは、前記ステップS201の前に、
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であるステップと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定するステップと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含まないことを表すオーディオデータであるステップと、をさらに含む。
【0085】
本実施形態において、オンラインの各オーディオ機器のオーディオデータが、誤ってウェイクアップされる時のウェイクアップ信頼度の区間であることを評価することにより、前記ターゲット区間を決定することができ、前記ターゲット区間は誤ウェイクアップ閾値範囲であってもよい。すなわち、複数のオーディオ機器の多くのオーディオデータがウェイクアップ信頼度のある区間に、いずれもオーディオ機器をウェイクアップするためのウェイクアップワードを含まないと、該区間内にあるウェイクアップ信頼度に対応するオーディオデータが、オーディオ機器が誤ってウェイクアップされる時に生成したデータである。
【0086】
具体的には、前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定した後、注釈結果を第2のウェイクアップ信頼度のスコアリング区間ごとに統計すると、第2のウェイクアップ信頼度が存在する区間のオーディオデータの注釈結果が、誤ってウェイクアップされるオーディオデータの占める割合が所定の閾値、例えば95%よりも大きいと示す場合、第2のウェイクアップ信頼度が存在する該区間はターゲット区間であると考え、例えば、該ターゲット区間は0.6未満であってもよく、すなわち、0.6未満の第2のウェイクアップ信頼度に対応するオーディオデータがいずれもオーディオ機器が誤ってウェイクアップされる時のデータであると考えることができる。
【0087】
オンラインの各オーディオ機器の複数のオーディオデータが、誤ってウェイクアップされる時の第2のウェイクアップ信頼度が存在する区間を統計することにより、誤ウェイクアップ閾値範囲のターゲット区間として決定し、監視対象機器の誤ウェイクアップ率を自動的に、教師なしで監視することを実現することもできる。
【0088】
第3の実施例
図3に示すように、本願に係るウェイクアップ指標の監視装置300は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュール301と、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュール302と、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュール303と、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュール304と、を含む。
【0089】
好ましくは、前記装置は、
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得する第3の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数である第3の取得モジュールと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定する第3の決定モジュールと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含む。
【0090】
好ましくは、前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記第3の取得モジュールは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第1の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得する第2の決定ユニットと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成する生成ユニットと、を含む。
【0091】
好ましくは、前記第1の決定モジュール302は、具体的には、ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得する。前記ターゲットオーディオデータは、前記M個のオーディオデータのいずれかである。
【0092】
本願に係るウェイクアップ指標の監視装置300は、上記ウェイクアップ指標の監視方法の第1の実施例が実現する各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。
【0093】
第4の実施例
図4に示すように、本願に係るウェイクアップ指標の監視装置400は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュール401と、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュール402と、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュール403と、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュール404と、を含む。
【0094】
本願に係るウェイクアップ指標の監視装置400は、上記ウェイクアップ指標の監視方法の第2の実施例が実現する各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。
【0095】
本願の実施例によれば、本願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0096】
図5は、本開示の実施例を実施することが可能な電子機器500を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器は、さらに様々な形式の移動装置を表示することができ、例えば、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0097】
図5に示すように、機器500は計算ユニット501を含み、それはリードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 503には、さらに記憶機器500の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット501、ROM 502、およびRAM 503は、バス504を介して相互に接続されている。バス504には、さらに、入出力(I/O)インタフェース505が接続されている。
【0098】
機器500における複数の部品はI/Oインタフェース505に接続され、例えばキーボード、マウス等である入力ユニット506と、例えば様々なタイプのディスプレイ、スピーカ等である出力ユニット507と、例えば磁気ディスク、光ディスク等である記憶ユニット508と、例えばネットワークカード、モデム、無線通信トランシーバ等である通信ユニット509と、を含む。通信ユニット509は、機器500がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して、他の機器と情報/データをやり取りすることを可能にする。
【0099】
計算ユニット501は、各種の処理および計算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算ユニット501としては、中央処理ユニット(CPU)、画像処理ユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号処理手段(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット501は上記説明した各方法及び処理を実行し、例えばウェイクアップ指標の監視方法を実行する。例えば、いくつかの実施例において、ウェイクアップ指標の監視方法はコンピュータソフトウェアプログラムとして実現され、それは機械読み取り可能な媒体、例えば記憶ユニット508に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM502及び/又は通信ユニット509を介して機器500にロード及び/又はインストールされる。コンピュータプログラムがRAM 503にロードされかつ計算ユニット501により実行される場合、上記ウェイクアップ指標の監視方法の1つ又は複数のステップを実行することができる。代替として、他の実施例において、計算ユニット501は、他の任意の適切な方式(例えば、ファームウェアによって)によりウェイクアップ指標の監視方法を実行するように構成されてもよい。
【0100】
本明細書で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システム・オン・チップのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの各種実施形態は、1つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び/又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに転送してもよい。
【0101】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。
【0102】
本開示のコンテキストにおいて、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子的なもの、磁性的なもの、光学的なもの、電磁的なもの、赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯コンパクトディスクリードオンリーメモリ(CD-ROM)、光的記憶デバイス、磁気記憶デバイス、又は上記内容の任意の適宜な組合せを含む。
【0103】
ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレー)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0104】
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットとを含む。
【0105】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント―サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバは、クラウドサーバー、すなわちクラウドコンピューティングサーバ又はクラウドホストとも称され、従来の物理ホスト及びVPSサービス(「Virtual Private Server」又は単に「VPS」)における管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決するために、クラウドコンピューティングサービスのアーキテクチャにおけるホスト製品の1つであってもよい。サーバは、分散システムのサーバ、または、ブロックチェーンを結合したサーバであってもよい。
【0106】
上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。
【0107】
上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本願の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本願の保護範囲内に含まれるべきである。
【0108】
本願は、2020年12月28日に中国特許庁に提出された中国特許出願No.202011577341.7の優先権を主張し、その全ての内容が援用によりここに取り込まれる。
図1
図2
図3
図4
図5
【国際調査報告】