IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特許7425194実世界のオーディオ訓練データの自動化されたマイニング
<>
  • 特許-実世界のオーディオ訓練データの自動化されたマイニング 図1
  • 特許-実世界のオーディオ訓練データの自動化されたマイニング 図2A
  • 特許-実世界のオーディオ訓練データの自動化されたマイニング 図2B
  • 特許-実世界のオーディオ訓練データの自動化されたマイニング 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】実世界のオーディオ訓練データの自動化されたマイニング
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240123BHJP
   G10L 15/16 20060101ALI20240123BHJP
   G10L 15/10 20060101ALI20240123BHJP
【FI】
G10L15/06 300Y
G10L15/16
G10L15/10 200W
【請求項の数】 19
(21)【出願番号】P 2022528676
(86)(22)【出願日】2019-11-18
(65)【公表番号】
(43)【公表日】2023-01-26
(86)【国際出願番号】 US2019061968
(87)【国際公開番号】W WO2021101501
(87)【国際公開日】2021-05-27
【審査請求日】2022-07-04
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ドミニク・ロブレック
【審査官】中村 天真
(56)【参考文献】
【文献】特開平06-289899(JP,A)
【文献】米国特許出願公開第2019/0341041(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
複数のマイクロフォンを含むユーザデバイスによってオーディオ録音のセットを受信するステップであって、
オーディオ録音の各セットに関して、前記セット内の各オーディオ録音が、特定の時間間隔の間に前記ユーザデバイスの前記複数のマイクロフォンの中のそれぞれの別々のマイクロフォン上で録音され、
それぞれの特定の時間間隔が、オーディオ録音の各セットに関して異なる、ステップと、
オーディオ録音の各セットに関して、オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを検出器によって判定するステップと、
前記特定のオーディオ特徴を含むオーディオ録音を含み、前記特定のオーディオ特徴を含まない別のオーディオ録音を含むと判定されたオーディオ録音の各セットに関して、(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも一部、および(ii)前記特定のオーディオ特徴の存在を示すラベルを含むラベル付けされた訓練例を生成するステップと
を含むコンピュータによって実施される方法。
【請求項2】
前記生成されたラベル付けされた訓練例を使用して機械学習されたモデルを訓練するステップをさらに含む請求項1に記載のコンピュータによって実施される方法。
【請求項3】
前記検出器が、前記ユーザデバイス上で実行されている機械学習されたモデルである、請求項1に記載のコンピュータによって実施される方法。
【請求項4】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成するステップが、
前記ラベル付けされた訓練例が(i)前記特定のオーディオ特徴を含まないと判定された各オーディオ録音の一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含むように、前記ラベル付けされた訓練例を生成することを含む請求項1に記載のコンピュータによって実施される方法。
【請求項5】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成するステップが、
前記ラベル付けされた訓練例が(i)オーディオ録音の前記セット内のすべてのオーディオ録音の一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含むように、前記ラベル付けされた訓練例を生成することをさらに含む請求項1に記載のコンピュータによって実施される方法。
【請求項6】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成するステップが、
前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の前記一部から、前記特定のオーディオ特徴を含むと判定され、前記特定のオーディオ特徴が前記オーディオ録音内に存在すると判定された前記オーディオ録音の一部分と時間的に一致する前記オーディオ録音の一部分を選択することと、
前記選択された一部分を前記オーディオ録音の前記一部として使用することと
を含む請求項1に記載のコンピュータによって実施される方法。
【請求項7】
オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを前記検出器によって判定するステップが、
第1のマイクロフォンからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含むと判定されると、その他のマイクロフォンのうちの1つまたは複数からのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含まないと判定されると、前記その他のマイクロフォンのうちの1つまたは複数からのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定しないことと
を含む請求項1に記載のコンピュータによって実施される方法。
【請求項8】
オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを前記検出器によって判定するステップが、
第1のマイクロフォンからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含まないと判定されると、その他のマイクロフォンのうちの少なくとも1つからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと
を含む請求項1に記載のコンピュータによって実施される方法。
【請求項9】
前記検出器が、キーワードスポッタであり、
前記特定のオーディオ特徴が、オーディオ録音内のキーワードの発話の検出である、請求項1に記載のコンピュータによって実施される方法。
【請求項10】
データ処理装置と、
前記データ処理装置によって実行可能であり、実行されると、前記データ処理装置に動作を実行させる命令を記憶した非一時的コンピュータ可読記録媒体であって、前記動作が、
複数のマイクロフォンを含むユーザデバイスによってオーディオ録音のセットを受信する動作であって、
オーディオ録音の各セットに関して、前記セット内の各オーディオ録音が、特定の時間間隔の間に前記ユーザデバイスの前記複数のマイクロフォンの中のそれぞれの別々のマイクロフォン上で録音され、
それぞれの特定の時間間隔が、オーディオ録音の各セットに関して異なる、動作と、
オーディオ録音の各セットに関して、オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを検出器によって判定する動作と、
前記特定のオーディオ特徴を含むオーディオ録音を含み、前記特定のオーディオ特徴を含まない別のオーディオ録音を含むと判定されたオーディオ録音の各セットに関して、(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも一部、および(ii)前記特定のオーディオ特徴の存在を示すラベルを含むラベル付けされた訓練例を生成する動作と
を含む、非一時的コンピュータ可読記録媒体と
を含むシステム。
【請求項11】
前記動作が、
前記生成されたラベル付けされた訓練例を使用して機械学習されたモデルを訓練する動作をさらに含む請求項10に記載のシステム。
【請求項12】
前記検出器が、前記ユーザデバイス上で実行されている機械学習されたモデルである、請求項10に記載のシステム。
【請求項13】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成する動作が、
前記ラベル付けされた訓練例が(i)前記特定のオーディオ特徴を含まないと判定された各オーディオ録音の一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含むように、前記ラベル付けされた訓練例を生成することを含む請求項10に記載のシステム。
【請求項14】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成する動作が、
前記ラベル付けされた訓練例が(i)オーディオ録音の前記セット内のすべてのオーディオ録音の一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含むように、前記ラベル付けされた訓練例を生成することをさらに含む請求項10に記載のシステム。
【請求項15】
(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも前記一部、および(ii)前記特定のオーディオ特徴の前記存在を示す前記ラベルを含む前記ラベル付けされた訓練例を生成する動作が、
前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の前記一部から、前記特定のオーディオ特徴を含むと判定され、前記特定のオーディオ特徴が前記オーディオ録音内に存在すると判定された前記オーディオ録音の一部分と時間的に一致する前記オーディオ録音の一部分を選択することと、
前記選択された一部分を前記オーディオ録音の前記一部として使用することと
を含む請求項10に記載のシステム。
【請求項16】
オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを前記検出器によって判定する動作が、
第1のマイクロフォンからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含むと判定されると、その他のマイクロフォンのうちの1つまたは複数からのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含まないと判定されると、前記その他のマイクロフォンのうちの1つまたは複数からのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定しないことと
を含む請求項10に記載のシステム。
【請求項17】
オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを前記検出器によって判定する動作が、
第1のマイクロフォンからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと、
前記第1のマイクロフォンからの前記オーディオ録音が前記特定のオーディオ特徴を含まないと判定されると、その他のマイクロフォンのうちの少なくとも1つからのオーディオ録音が前記特定のオーディオ特徴を含むかどうかを判定することと
を含む請求項10に記載のシステム。
【請求項18】
前記検出器が、キーワードスポッタであり、
前記特定のオーディオ特徴が、オーディオ録音内のキーワードの発話の検出である、請求項10に記載のシステム。
【請求項19】
データ処理装置によって実行可能であり、実行されると、前記データ処理装置に動作を実行させる命令を記憶した非一時的コンピュータ可読記録媒体であって、前記動作が、
複数のマイクロフォンを含むユーザデバイスによってオーディオ録音のセットを受信する動作であって、
オーディオ録音の各セットに関して、前記セット内の各オーディオ録音が、特定の時間間隔の間に前記ユーザデバイスの前記複数のマイクロフォンの中のそれぞれの別々のマイクロフォン上で録音され、
それぞれの特定の時間間隔が、オーディオ録音の各セットに関して異なる、動作と、
オーディオ録音の各セットに関して、オーディオ録音の前記セット内のあるひとつのオーディオ録音が特定のオーディオ特徴を含むかどうか、および前記オーディオ録音の前記セット内のうちの別のひとつのオーディオ録音が前記特定のオーディオ特徴を含まないかどうかを検出器によって判定する動作と、
前記特定のオーディオ特徴を含むオーディオ録音を含み、前記特定のオーディオ特徴を含まない別のオーディオ録音を含むと判定されたオーディオ録音の各セットに関して、(i)前記特定のオーディオ特徴を含まないと判定された前記オーディオ録音の少なくとも一部、および(ii)前記特定のオーディオ特徴の存在を示すラベルを含むラベル付けされた訓練例を生成する動作と
を含む、非一時的コンピュータ可読記録媒体。
【発明の詳細な説明】
【背景技術】
【0001】
機械学習の分野においては、モデルを訓練するために、機械学習モデルを訓練するためのクリーンで正しくラベル付けされたデータの獲得が行われなければならない。データの収集およびキュレーションは、通常、様々な方法で収集されたデータを聞き、データをラベル付けする評価者を関与させる。したがって、そのようなオーディオ訓練データの収集は、非常に多くの人手がかかり、様々なバイアスがかかりやすく、プライバシーのリスクに晒されることが多い。
【発明の概要】
【課題を解決するための手段】
【0002】
本明細書は、オーディオデータの特徴を認識する機械学習モデルを訓練するためのオーディオデータの収集に関する。以下で説明されるシステムおよび方法は、実世界のオーディオデータを人間の評価者によるレビューのためにデバイスから転送する必要なしに、それらのオーディデータをオンデバイスで自動的にラベル付けすることを容易にする。これは、個人データの漏洩のリスクの可能性を小さくする。ラベル付けされたデータは、オンデバイスの連合学習にオンデバイスで使用されるか(その場合、データはデバイスから離れる必要がない可能性がある)、データがモデルのサーバサイドの訓練のために使用され得るクラウドに転送されるか(その場合、必要とされない人間の評価者のプライバシーのリスクおよび金銭的コストが回避される)のどちらかが可能である。
【0003】
概して、本明細書に記載の対象の1つの革新的な態様は、複数のマイクロフォンを含むユーザデバイスによってオーディオ録音のセットを受信するアクションであって、オーディオ録音の各セットに関して、セット内の各オーディオ録音が、特定の時間間隔の間にユーザデバイスの複数のマイクロフォンの中のそれぞれの別々のマイクロフォン上で録音され、それぞれの特定の時間間隔が、オーディオ録音の各セットに関して異なる、アクション、オーディオ録音の各セットに関して、オーディオ録音のセット内のオーディオ録音が特定のオーディオ特徴を含むかどうか、およびオーディオ録音のうちの別のオーディオ録音が特定のオーディオ特徴を含まないかどうかを検出器によって判定するアクション、特定のオーディオ特徴を含むオーディオ録音を含み、特定のオーディオ特徴を含まない別のオーディオ録音を含むと判定されたオーディオ録音の各セットに関して、(i)特定のオーディオ特徴を含まないと判定されたオーディオ録音の少なくとも一部、および(ii)特定のオーディオ特徴の存在を示すラベルを含むラベル付けされた訓練例を生成するアクションを含む方法に具現化され得る。この態様のその他の実施形態は、コンピュータストレージデバイス上に符号化された方法のアクションを実行するように構成された対応するシステム、装置、およびコンピュータプログラムを含む。
【0004】
一部の実装において、方法は、生成されたラベル付けされた訓練例を使用して機械学習されたモデルを訓練するステップをさらに含む。一度訓練されると、機械学習されたモデルは、ユーザデバイス上で実行され得る。
【0005】
一部の実装において、(i)特定のオーディオ特徴を含まないと判定されたオーディオ録音の少なくとも一部、および(ii)特定のオーディオ特徴の存在を示すラベルを含むラベル付けされた訓練例を生成するアクションは、ラベル付けされた訓練例が(i)特定のオーディオ特徴を含まないと判定された各オーディオ録音の一部、および(ii)特定のオーディオ特徴の存在を示すラベルを含むようにラベル付けされた訓練例を生成することを含む。方法は、特定のオーディオ特徴を含まないと判定されたオーディオ録音の一部から、特定のオーディオ特徴を含むと判定され、特定のオーディオ特徴がオーディオ録音内に存在すると判定されたオーディオ録音の下位部分と時間的に一致するオーディオ録音の下位部分を選択するステップと、選択された下位部分をオーディオ録音の一部として使用するステップとをさらに含んでよい。
【0006】
一部の実装において、オーディオ録音のセット内のオーディオ録音が特定のオーディオ特徴を含むかどうか、およびオーディオ録音のうちの別のオーディオ録音が特定のオーディオ特徴を含まないかを機械学習されたモデルによって判定するアクションは、第1のマイクロフォンからのオーディオ録音が特定のオーディオ特徴を含むかどうかを判定することと、第1のマイクロフォンからのオーディオ録音が特定のオーディオ特徴を含むと判定されるときに、その他のマイクロフォンのうちの1つまたは複数からのオーディオ録音が特定のオーディオ特徴を含むかどうかを判定することと、第1のマイクロフォンからのオーディオ録音が特定のオーディオ特徴を含まないと判定されるときに、その他のマイクロフォンからのその他のオーディオ録音が特定の特徴を含まないと判定することとを含む。
【0007】
本明細書に記載の対象の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実装されることが可能である。事前にラベル付けされるオーディオ訓練データセットが、評価者のレビューなしに、しかもデータが正しくラベル付けされるという高い信頼性をともなって収集される可能性がある。これは、オーディオデータの収集の時間およびオーバーヘッドを大幅に削減する。実世界のデータが使用されてよいので、収集時間に悪影響を与えることなく、様々な規模で収集が行われてよい。さらに、自動化されたデバイスのプロセスによって認識されるオーディオ特徴に基づいてオーディオデータが事前にラベル付けされるので、オーディオデータは、人間の評価者のレビューに特有の人間のバイアスの影響を受けない。
【0008】
オーディオデータの収集は、特定のユーザデバイスに特に合わせて作られたモデルを訓練するために使用されてよい。たとえば、新しいモバイルデバイスが発売されると、数千台のデバイスからのオーディオ訓練データのデータ集合が、短期間(たとえば、1日)で収集されることが可能であり、デバイスが発売された後、新しいデバイスに特有のモデルが、迅速に訓練され、デバイスに配布されることが可能である。それぞれの特定デバイスは、特定の音響収集特性(たとえば、特定の応答を持つ特定のマイクロフォン、およびその他のデバイスと異なる特定デバイスの特定の物理的配置)を有する場合があるので、特定デバイスのために収集された訓練データは、デバイスに関して予測され得るモデルの入力を正確に反映する。したがって、精度は、デバイスのモデルごとにモデルが訓練されるとき、高められる場合がある。別の利点は、特定の種類のデバイス(たとえば、特定のスマートフォンのモデル)、およびデータがキャプチャされた環境の特定の聴覚的特性(たとえば、室内音響、都会のざわめきなどの雑音の背景など)に特有の訓練データの収集である。別の利点は、キャプチャされたデータを人間の評価者の目にさらすことを避け、したがって、データ漏洩のプライバシーのリスクを最小化することである。
【0009】
さらに、キャプチャされたオーディオデータを、異なるマイクロフォンからキャプチャされた対応するオーディオから取得されたラベルによってラベル付けすることによって、データ上でその後訓練された機械学習モデルは、エッジケース(edge case)に対処するときに、より高い精度を示し得る。
【0010】
本明細書において説明される対象の1つまたは複数の実施形態の詳細が、添付の図面および以下の説明に記載されている。対象のその他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0011】
図1】オーディオデータ収集プロセスおよびモデルの訓練のシステムフロー図である。
図2A】ラベル付けされた訓練例を生成するための例示的なプロセスの流れ図である。
図2B】ラベル付けされた訓練例を生成するための別の例示的なプロセスの流れ図である。
図3】オーディオ録音データのセットからラベル付けされた訓練例を生成する例を示す図である。
【発明を実施するための形態】
【0012】
スマートフォンなどの多くの電子デバイスは、通常、複数のマイクロフォンを含む。それぞれの個々のマイクロフォンは、同じオーディオを同時に録音して、同じオーディオの複数のオーディオ録音を生成することができる。本明細書は、クリーンで正しくラベル付けされた訓練データを、人間のレビューなしに自動的に収集する方法を説明する。特に、以下で説明されるシステムおよび方法は、環境からのオーディオを録音するための複数のマイクロフォンを含むユーザデバイスを使用して、機械学習モデルを訓練するための訓練例を生成するための実世界のオーディオ録音を獲得することを可能にする。各訓練例は、ユーザデバイスの少なくとも1つのマイクロフォンからのオーディオ録音と、オーディオ録音のうちの1つに存在すると判定され、訓練例に含まれるオーディオ録音に存在しないとさらに判定されたオーディオ特徴を記述するラベルとを含む。デバイスが少なくとも1つのマイクロフォンからのオーディオ録音から特定のオーディオ特徴を有すると判定したので、デバイスの別のマイクロフォンから同時に生成され、特定のオーディオ特徴を有すると判定されないオーディオ録音が、オーディオ特徴を有するものとしてラベル付けされ、訓練例として使用され得る。
【0013】
複数のマイクロフォンを有するユーザデバイスは、各マイクロフォンからオーディオ録音を生成することができる。特定の時間間隔内に、各マイクロフォンは、同じ環境内で録音し、特定の時間間隔内のオーディオ録音を生成する。概して、録音は、雑音を含む。この雑音は、1つまたは複数の録音が特徴の検出をもたらす可能性がある一方で、その他の録音が特徴の検出をもたらさない可能性があるように、各チャネル(「チャネル」はマイクロフォンの出力である)において異なる場合がある。これは、たとえば、マイクロフォンのうちの1つにかぶさった手、部分的に遮られたマイクロフォンなどが原因である場合がある。また、各オーディオ録音の品質は、マイクロフォンの性能特性、音源からマイクロフォンまでの距離、および音源に対するマイクロフォンの位置合わせに基づく。その他の要因も、音質に影響を与える場合がある。
【0014】
オーディオ録音のセットに関するラベルを生成するために、ユーザデバイスは、オーディオ録音のセット内のオーディオ録音のうちの1つの中で話されるオーディオ特徴、たとえば、特定の単語またはフレーズを検出する。オーディオ録音のうちの1つの中で単語を少なくとも所定の信頼性で特定すると、ユーザデバイスは、ラベル付けされた訓練例を生成するためにオーディオ録音および同時に録音されたその他のオーディオ録音を選択してよい。選択されたオーディオデータは、検出された単語またはフレーズによってラベル付けされる。
【0015】
一部の実装においては、所定のマイクロフォンおよびそのそれぞれのオーディオ録音が、オーディオ特徴を検出するために機械学習モデルによって使用される。オーディオ特徴が検出されない場合、その他のマイクロフォンからのオーディオは処理されない。概して、所定のマイクロフォンは、ユーザデバイスのその他のマイクロフォンよりも高品質であるか、または発話された声音を最小限の量の減衰および遮蔽で受信するためのユーザデバイス上の場所に配置されるマイクロフォンである。オーディオ特徴が検出される場合、その他のマイクロフォンからのオーディオが、その他のオーディオ内で特徴の存在が検出されないかどうかを判定するために処理される。これは、たとえば、オーディオ特徴を検出するために主チャネル上でラベル検出プロセスを実行することが、その他のチャネルのためにラベル検出プロセスが呼び出される回数を削減するので、ユーザデバイスの処理能力およびバッテリ寿命を節約するために行われる。
【0016】
その他の実装においては、たとえ所定のマイクロフォンにおいてオーディオ特徴が検出されないときでも、各マイクロフォンからのオーディオが処理される。
【0017】
一部の実装において、機械学習モデルによってオーディオ録音のセット内のオーディオ録音のうちの1つの中でオーディオ特徴を成功裏に検出すると、セット内のすべてのオーディオ録音が、訓練例として使用される。その他の実装においては、単語が検出されなかったオーディオ録音のみが、訓練例として使用される。
【0018】
一部の実装においては、オーディオが録音される時間間隔の間に、複数の単語が話される。そのような実装において、機械学習モデルは、オーディオ録音内の複数の単語の存在と、各録音に関連するタイムスタンプとを検出する。オーディオ録音の残りは、タイムスタンプに基づいて分割され、それによって、特定のオーディオ特徴に関するオーディオ録音と、ラベルが特定の単語である対応する訓練例とを生成する。
【0019】
本明細書の全体を通じて、例として説明されるオーディオ特徴は、音声検出プロセスが監視するキーワードまたは「ホットワード」である。しかし、以下で説明される方法およびシステムは、その他のオーディオ特徴に関する訓練データを生成するために使用されてよい。たとえば、それらのシステムおよび方法は、音楽などの発言以外の音を検出するかまたは動物および機械の音を検出するモデルのための訓練データ例を生成するために使用されてよい。より広く、方法およびシステムは、任意の種類の検出可能なオーディオ特徴に関してラベル付けされたデータを生成するように適応され得る。
【0020】
これらの特徴および追加的な特徴が、以下でより詳細に説明される。
【0021】
図1は、オーディオデータ収集プロセスおよびモデルの訓練のシステムフロー図100である。人180は、電子デバイス102を使用し、たとえば、電子アシスタントを呼び出すためにデバイスに向かって話す。電子デバイス102は、3つのマイクロフォン104、106、および108を含む。電子デバイス102は、機械学習モデル150(または特定のオーディオ特徴を検出し、概して「検出器」と呼ばれる場合があるなんらかのその他のオーディオ処理システムもしくはプロセス)も含む。
【0022】
マイクロフォン104、106、および108によって生成されたオーディオデータは、オンデバイスメモリなどのデータストレージ媒体140に一時的に記憶されてよい。人180が3つの異なる時間にデバイス102に話しかけた、その結果、電子デバイス102のマイクロフォンがそれぞれの時間間隔t0~t1、t2~t3、およびt4~t5にわたってオーディオ録音のセット160、165、および170を生成したと仮定する。オーディオ録音の各セットは、3つのオーディオ録音を含む。オーディオ録音のセット160は、3つのオーディオ録音110、112、および114を含む。同様に、オーディオ録音のセット165および170は、それぞれ、録音120、122、124および130、132、134を含む。
【0023】
説明されるように、オーディオ録音のセットのうちの1つだけが、ラベル付けされた訓練例を生成するために使用される。特に、機械学習モデル150(またはその他の検出プロセス)は、セット160のオーディオ録音110内のオーディオ特徴、たとえば、特定のホットワードまたはフレーズの存在を判定するが、録音112および114内のオーディオ特徴を検出しない。検出されたことは、録音110の隣の値1によって示され、検出されなかったことは、録音112および114の隣の値0によって示される。ここで、オーディオ特徴は、参照W160によって示される特定のホットワードの検出である。
【0024】
オーディオ録音のセット160の中のその他のオーディオ録音112および114は、これらの録音内で単語W160が検出されなかったので、訓練例として記憶される。特に、録音112および114は、モデル150によって検出された単語W160によってラベル付けされる。そして、訓練例112および114は、対応するラベルW160と一緒に、ストレージ媒体140に記憶される。訓練例を記憶すると、訓練例は、機械学習モデル150をさらに訓練するために使用されることが可能であり、または代替的に、モデルの訓練に使用するためにユーザデバイス102の外部のシステムに提供されることが可能である。そのとき、モデルは、このデータおよびその他のオーディオデータを使用して訓練されてよい。
【0025】
オーディオデータのその他のセット--セット165および170--は、ラベル付けされた訓練例を作成するために使用されない。しかし、それぞれは、異なる理由で使用されない。セット165を参照すると、各オーディオ録音120、122、および124内でオーディオ特徴が検出される。すべてのオーディオ録音にわたる検出は、通常、信号に対して雑音がほとんどなくはっきりと話された言葉を示し、したがって、特徴が雑音またはその他の検出の問題の影響を受けやすいオーディオよりも機械学習されるプロセスの訓練に有益でない。したがって、オーディオは、ラベル付けされた訓練例を生成するために使用されない。
【0026】
セット170を参照すると、いずれのオーディオ録音130、132、および134内でもオーディオ特徴が検出されない。すべてのオーディオにわたる未検出は、検出モデルを訓練するために使用され得ないオーディオを示す。したがって、オーディオは、ラベル付けされた訓練例を生成するために使用されない。
【0027】
図2Aおよび図2Bは、ラベル付けされた訓練例を生成するための例示的なプロセス200および220の2つの例示的なシステムフロー図である。図2Aのプロセス200は、オーディオ特徴が第1の録音(たとえば、主マイクロフォンまたは所定のマイクロフォンからの録音)内で検出され、その他のマイクロフォンからの1つまたは複数の録音内で検出されないときにのみ、ラベル付けされた訓練例を生成するプロセスである。プロセス200は、省電力が望まれるとき、または所定のマイクロフォンがその他のマイクロフォンと比較して概してより高品質なオーディオ信号を生成するために、より高い信頼性が判定され得るときに使用される。
【0028】
図2Bのプロセス220は、オーディオ特徴がセット内のオーディオ録音のいずれかの中で検出され、セット内の少なくとも1つのその他のオーディオ録音の中で検出されないときに、ラベル付けされた訓練例を生成するプロセスである。プロセス220は、ラベル付けされた訓練例を生成するためにより積極的な手法が望まれるときに使用される。
【0029】
各プロセスは、ユーザデバイス102において、または代替的に、ユーザデバイスからオーディオ録音のセットを受信するクラウドベースのシステムにおいて実行され得る。
【0030】
図2Aを参照すると、プロセス200は、オーディオ録音のセットを受信する(202)。たとえば、図1のセット160、165、または170のうちのいずれか1つが、受信されてよい。
【0031】
オーディオ録音のセットを受信すると、セット内の第1のオーディオ録音が、特定のオーディオ特徴を検出するために検出器によって分析される(204)。検出器は、機械学習されたモデル、または特定のオーディオ特徴を検出することができるなんらかのその他のプロセス、ソフトウェア、もしくはデバイスであってよい。セット内の第1のオーディオ録音が第1のオーディオ特徴を含まないと判定される場合、プロセス200は、ラベル付けされた訓練例を作らない(206)。
【0032】
しかし、セット内の第1のオーディオ録音が第1のオーディオ特徴を含むと判定される場合、プロセス200は、オーディオ録音のセット内のその他のオーディオ録音が特定のオーディオ特徴を含まないかどうかを判定する(208)。
【0033】
プロセス200がセット内のその他のオーディオ録音のうちの1つまたは複数の中でオーディオ特徴を検出することができない場合、1つまたは複数のオーディオ録音は、オーディオ特徴によってラベル付けされ、訓練例として使用される。特に、プロセス200は、(i)特定のオーディオ特徴を含まないと判定されたオーディオ録音の少なくとも一部と、(ii)特定のオーディオ特徴の存在を示すラベルとを含むラベル付けされた訓練例を生成する(210)。
【0034】
逆に、プロセス200がセット内のその他のオーディオ録音の各々の中でオーディオ特徴を検出する場合、プロセス200は、ラベル付けされた訓練例を作らない(206)。
【0035】
図2Bを参照すると、プロセス220は、オーディオ録音のセットを受信する(222)。たとえば、図1のセット160、165、または170のうちのいずれか1つが、受信されてよい。
【0036】
それから、プロセス200は、セット内のオーディオ録音を選択し、セット内のオーディオ録音が特定のオーディオ特徴を含むかどうかを判定する(224)。オーディオ録音がオーディオ特徴を含まない場合、プロセスは、選択すべき処理されていないその他のオーディオ録音があるかどうかを判定する(226)。そのようなその他のオーディオ録音がある場合、録音が選択され、プロセス200は224に戻る。そのようなその他のオーディオ録音がない場合、オーディオ録音のいずれも、オーディオ特徴を含まず、したがって、プロセス200は、ラベル付けされた訓練例を作らない(230)。
【0037】
しかし、選択されたオーディオ録音がオーディオ特徴を含む場合、プロセス200は、オーディオ録音のセット内のその他のオーディオ録音が特定のオーディオ特徴を含まないかどうかを判定する(228)。
【0038】
プロセス220がセット内のその他のオーディオ録音のうちの1つまたは複数の中でオーディオ特徴を検出することができない場合、1つまたは複数のオーディオ録音は、オーディオ特徴によってラベル付けされ、訓練例として使用される。特に、プロセス220は、(i)特定のオーディオ特徴を含まないと判定されたオーディオ録音の少なくとも一部と、(ii)特定のオーディオ特徴の存在を示すラベルとを含むラベル付けされた訓練例を生成する(232)。
【0039】
逆に、プロセス220がセット内のその他のオーディオ録音の各々の中でオーディオ特徴を検出する場合、プロセス220は、ラベル付けされた訓練例を作らない(230)。
【0040】
一部の実装においては、セグメント全体または各オーディオ録音が、ラベル付けされた訓練例として記憶される。その他の実装においては、オーディオ録音のうちオーディオ特徴が検出される部分のみが、ラベル付けされた訓練例として記憶される。この後者の実装が図3に示され、図3は、オーディオ録音データのセットからのラベル付けされた訓練例の生成の図解である。
【0041】
オーディオ録音のセット301は、t0~t5の期間中に録音された4つのオーディオ録音302、304、306、および308を含む。検出プロセスは、オーディオ録音304および306のt2~t3の期間の四角く囲まれた部分によって示されるように、これらのオーディオ録音のt2~t3の期間の間のオーディオ内で、括弧付きの{C}によって示される関心のあるオーディオ特徴の存在を検出する。しかし、録音302および308内で、オーディオ特徴は検出されない。
【0042】
システム(たとえば、ラベル付けされたオーディオデータを生成するためのプログラムを実行するユーザデバイス、またはラベル付けされたオーディオデータを生成するためのプログラムを実行するクラウドベースのシステム)は、特定のオーディオ特徴を含まないと判定されたオーディオ録音の部分から、特定のオーディオ特徴を含むと判定されたオーディオ録音の下位部分と時間的に一致するオーディオ録音の下位部分を選択する。たとえば、t2とt3との間の期間のオーディオ録音の下位部分が選択される。そして、オーディオ録音302および308の選択された下位部分が、記述子{C}によってラベル付けされたラベル付けされた訓練データ330を生成するためのオーディオ録音の部分として使用される。記述子{C}は、オーディオ特徴の存在を示す。録音304および306からの下位部分も、ラベル付けされた訓練データに使用されてよい。
【0043】
ラベル付けされた訓練例を含むラベル付けされたデータセットが生成されると、そのラベル付けされたデータセットは、オーディオ内のオーディオ特徴を認識するための機械学習されたモデルを訓練するために使用されてよい。機械学習されたモデルは、たとえば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、および/または長期短期記憶(long-short-term memory)ネットワークなどのニューラルネットワークモデルを含んでよい。機械学習モデルは、たとえば、ランダムに初期化されたモデルパラメータを使用して一から訓練されてよい。代替的に、事前に訓練されたニューラルネットワークが、生成されたラベル付けされたデータセットを使用して改良されてよい。
【0044】
訓練中、ラベル付けされたデータセット内のラベル付けされた例からのオーディオデータは、オーディオデータに関する候補分類/記述子を生成するために機械学習モデルによって処理される。候補分類/記述子は、オーディオデータ内のオーディオ特徴の潜在的な存在を示す可能性がある。一部の実施形態においては、モデルを特定のデバイスの特性に合わせるために、特定のデバイスからのオーディオデータのみが、訓練中に使用される。
【0045】
候補分類/記述子は、オーディオデータの知られているラベルと比較される。比較は、分類損失関数(classification loss function)を使用して実行されてよい。そのような損失関数の例は、クロスエントロピー損失関数(cross entropy loss function)である。
【0046】
機械学習されたモデルのパラメータは、オーディオデータの知られているラベルとの候補分類/記述子の比較に基づいて更新される。そのようなパラメータは、たとえば、ニューラルネットワークのノードの重みおよびバイアスを含んでよい。勾配降下法などの最適化手順が、損失関数からパラメータの更新を決定するために使用されてよい。
【0047】
訓練は、閾値条件が満たされるまで繰り返されてよい。閾値条件は、繰り返しの閾値の回数および/または検証データセット上の閾値の分類精度が達せられることである場合がある。各繰り返しにおいて、ラベル付けされたデータセット内のラベル付けされた例からの異なるオーディオデータが、使用されてよい。
【0048】
一度訓練されると、機械学習モデルは、オーディオ認識/分類タスクを実行するためにデバイスによって使用され得る。
【0049】
一部の実装において、ラベル付けモデルのオーディオ特徴の検出の閾値を高い値に設定して、検出されるオーディオ特徴の精度を高めることは、たとえこれがより少ないデータを収集するという代償をともなうとしても望ましい場合がある。これは、検出の閾値が、収集されるオーディオの例の「質」と「量」と間のバランスに影響するからである。最適な選択は、ユースケースに固有である可能性があるが、概して、精度を最大化する高い閾値は、推測されたラベルの正しさの信頼性がそれらが高品質のモデルを訓練するために使用されることを可能にするので、この文脈でうまく機能する可能性がより高い。収集したデータが人間の評価者によって検証され得るならば、推測されたラベルの正しさがそれほど重要でない状況が生じる。これは、人間の評価者を完全に排除することのすべての利点は持たないが、評価者に渡される必要があるデータの量を減らし、評価者の評価が機械によって推測されたラベルを受け入れるかまたは拒否するかに単純化される可能性があるので、依然として有利である可能性がある。
【0050】
本明細書において検討されたシステムがユーザについての個人情報を収集するかまたは個人情報を利用する可能性がある状況において、ユーザは、アプリケーションまたは特徴がユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルな行為もしくは活動、職業、ユーザの好み、またはユーザの現在の位置についての情報)を収集するかどうかを制御するか、あるいはユーザにより関連性がある可能性があるコンテンツを受け取るべきかどうかおよび/またはどのようにして受け取るべきかを制御する機会を与えられてよい。さらに、特定のデータが、個人を特定することができる情報が削除されるように、記憶されるかまたは使用される前に1つまたは複数の方法で処理される場合がある。たとえば、ユーザのアイデンティティ(identity)が、個人を特定することができる情報がユーザに関して決定されることが不可能であるか、または位置情報が取得される場合にユーザの地理的位置が(都市、郵便番号、もしくは州のレベルなどに)一般化される場合があり、したがって、ユーザの特定の位置が決定されることが不可能であるように処理される場合がある。したがって、ユーザは、情報がユーザについてどのように収集され、コンテンツサーバによって使用されるかを制御することができる可能性がある。
【0051】
本明細書に記載の対象の実施形態および動作は、本明細書において開示された構造およびそれらの構造的均等物を含む、デジタル電子回路、またはコンピュータソフトウェア、ファームウェア、もしくはハードウェア、またはそれらのうちの1つもしくは複数の組合せで実装され得る。本明細書に記載の対象の実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置による実行のために、またはデータ処理装置の動作を制御するためにコンピュータストレージ媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装されることが可能である。
【0052】
コンピュータストレージ媒体は、コンピュータ可読ストレージデバイス、コンピュータ可読ストレージ基板、ランダムもしくはシリアルアクセスメモリアレーもしくはデバイス、またはそれらのうちの1つもしくは複数の組合せであることが可能であり、あるいはそれらに含まれることが可能である。さらに、コンピュータストレージ媒体は、伝播信号ではないが、人為的に生成された伝播信号に符号化されたコンピュータプログラム命令の送信元または送信先であることが可能である。また、コンピュータストレージ媒体は、1つまたは複数の別個の物理コンポーネントまたは媒体(たとえば、複数のCD、ディスク、もしくはその他のストレージデバイス)であるか、またはそれらに含まれることが可能である。
【0053】
本明細書に記載の動作は、1つもしくは複数のコンピュータ可読ストレージデバイスに記憶されたまたはその他のソースから受信されたデータに対してデータ処理装置によって実行される動作として実装され得る。
【0054】
用語「データ処理装置」は、例として、1つのプログラミング可能なプロセッサ、1台のコンピュータ、1つのシステムオンチップ、またはそれらの複数もしくは組合せを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用の論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレー)またはASIC(特定用途向け集積回路)を含み得る。装置は、ハードウェアに加えて、問題にしているコンピュータプログラムのための実行環境を生成するコード、たとえば、プロセッサのファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらのうちの1つもしくは複数の組合せを構成するコードも含み得る。装置および実行環境は、ウェブサービスインフラストラクチャ、分散コンピューティングインフラストラクチャ、およびグリッドコンピューティングインフラストラクチャなどの様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。
【0055】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイラ型言語もしくはインタープリタ型言語、宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述可能であり、独立型プログラムとしての形態、またはモジュール、コンポーネント、サブルーチン、オブジェクト、もしくはコンピューティング環境内での使用に好適なその他の単位としての形態を含む任意の形態でデプロイされ得る。コンピュータプログラムは、ファイルシステム内のファイルに対応する場合があるが、必ずそうであるとは限らない。プログラムは、その他のプログラムもしくはデータを保持するファイルの一部(たとえば、マークアップ言語のドキュメントに記憶された1つもしくは複数のスクリプト)、問題にしているプログラムに専用の単一のファイル、または複数の組織されたファイル(たとえば、1つもしくは複数のモジュール、サブプログラム、もしくはコードの一部を記憶するファイル)に記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または1つの場所に置かれるか、もしくは複数の場所に分散され、通信ネットワークによって相互に接続される複数のコンピュータ上で実行されるようにデプロイされ得る。
【0056】
本明細書に記載のプロセスおよび論理フローは、入力データに対して演算を行い、出力を生成することによってアクションを行うために1つまたは複数のコンピュータプログラムを1つまたは複数のプログラミング可能なプロセッサが実行することによって実行され得る。また、プロセスおよび論理フローは、専用の論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレー)またはASIC(特定用途向け集積回路)によって実行されることが可能であり、さらに、装置は、それらの専用の論理回路として実装されることが可能である。
【0057】
コンピュータプログラムの実行に好適なプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサとの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読み出し専用メモリ、またはランダムアクセスメモリ、またはこれらの両方から命令およびデータを受け取る。コンピュータの必須の要素は、命令に従ってアクションを実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。また、概して、コンピュータは、データを記憶するための1つもしくは複数の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、またはそれらの大容量ストレージデバイスからデータを受信するか、もしくはそれらの大容量ストレージデバイスにデータを転送するか、もしくはその両方を行うために動作可能なように結合される。しかし、コンピュータは、そのようなデバイスを有していなくてもよい。さらに、コンピュータは、別のデバイス、たとえば、ほんのいくつか例を挙げるとすれば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレイヤー、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に組み込まれることが可能である。コンピュータプログラム命令およびデータを記憶するのに適したデバイスは、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMディスクおよびDVD-ROMディスクを含むすべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得るか、または専用論理回路に組み込まれ得る。
【0058】
ユーザとのインタラクションを提供するために、本明細書に記載の対象の実施形態は、ユーザに対して情報を表示するためのディスプレイデバイス、たとえば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上に実装されることが可能である。その他の種類のデバイスが、ユーザとのインタラクションを提供するためにやはり使用されることが可能であり、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることが可能であり、ユーザからの入力は、音響、発言、または触覚による入力を含む任意の形態で受け取られることが可能である。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、そのデバイスから文書を受信することによって、たとえば、ウェブブラウザから受信された要求に応答してユーザのユーザデバイスのウェブブラウザにウェブページを送信することによってユーザとインタラクションすることができる。
【0059】
本明細書に記載の対象の実施形態は、バックエンドコンポーネントを、たとえば、データサーバとして含むか、またはミドルウェアコンポーネント、たとえば、アプリケーションサーバを含むか、またはフロントエンドコンポーネント、たとえば、ユーザが本明細書に記載の対象の実装とインタラクションすることができるグラフィカルユーザインターフェースもしくはウェブブラウザを有するユーザコンピュータを含むか、または1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムに実装されることが可能である。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、たとえば、通信ネットワークによって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)および広域ネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、ならびにピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)を含む。
【0060】
本明細書は多くの特定の実装の詳細を含むが、これらは、いかなる特徴の範囲または特許請求される可能性があるものの範囲に対する限定ともみなされるべきでなく、むしろ、特定の実施形態に固有の特徴の説明とみなされるべきである。別々の実施形態の文脈で本明細書において説明されている特定の特徴が、単一の実施形態において組み合わせて実装されることも可能である。反対に、単一の実施形態の文脈で説明されている様々な特徴が、複数の実施形態に別々にまたは任意の好適な部分的組合せで実装されることも可能である。さらに、特徴は、特定の組合せで働くものとして上で説明されている場合があり、最初にそのように主張されてさえいる場合があるが、主張された組合せの1つまたは複数の特徴は、場合によっては組合せから削除されことが可能であり、主張された組合せは、部分的組合せ、または部分的組合せの変形を対象とする可能性がある。
【0061】
同様に、動作が図中に特定の順序で示されているが、これは、そのような動作が示された特定の順序でもしくは逐次的順序で実行されること、または所望の結果を達成するために示されたすべての動作が実行されることを必要とするものと理解されるべきでない。特定の状況においては、マルチタスクおよび並列処理が有利である場合がある。さらに、上述の実施形態における様々なシステムコンポーネントの分割は、すべての実施形態においてそのような分割を必要とするものと理解されるべきでなく、説明されたプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品に一緒に統合されるかまたは複数のソフトウェア製品にパッケージングされることが可能であることを理解されたい。
【0062】
このように、対象の特定の実施形態が説明された。その他の実施形態は、添付の特許請求の範囲内にある。場合によっては、特許請求の範囲に挙げられたアクションは、異なる順序で実行され、それでも所望の結果を達成することができる。加えて、添付の図面に示されたプロセスは、所望の結果を達成するために、必ずしも示された特定の順序または逐次的順序である必要はない。特定の実装においては、マルチタスクおよび並列処理が有利である場合がある。
【符号の説明】
【0063】
102 電子デバイス
104 マイクロフォン
106 マイクロフォン
108 マイクロフォン
110 オーディオ録音
112 オーディオ録音
114 オーディオ録音
120 録音
122 録音
124 録音
130 録音
132 録音
134 録音
140 データストレージ媒体
150 機械学習モデル
160 オーディオ録音のセット
165 オーディオ録音のセット
170 オーディオ録音のセット
180 人
W160 単語
200 プロセス
220 プロセス
301 オーディオ録音のセット
302 オーディオ録音
304 オーディオ録音
306 オーディオ録音
308 オーディオ録音
330 ラベル付けされた訓練データ
図1
図2A
図2B
図3