(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-03
(54)【発明の名称】ASRモデルのフレーズ抽出
(51)【国際特許分類】
G10L 15/01 20130101AFI20241126BHJP
【FI】
G10L15/01
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024533073
(86)(22)【出願日】2021-12-13
(85)【翻訳文提出日】2024-06-03
(86)【国際出願番号】 US2021062998
(87)【国際公開番号】W WO2023101695
(87)【国際公開日】2023-06-08
(32)【優先日】2021-12-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】エーサン・アミド
(72)【発明者】
【氏名】オム・タッカー
(72)【発明者】
【氏名】ラジヴ・マシューズ
(72)【発明者】
【氏名】フランソワーズ・ボーフェイ
(57)【要約】
ASRモデルのフレーズ抽出方法(400)には、発話(106)を特徴付けるオーディオデータ(112)及びその発話に対応するグラウンドトゥルーストランスクリプション(114)を取得すること、及びオーディオデータを修正して、発話で述べられた特定のフレーズ(116)を難読化することが含まれる。方法はまた、トレーニングされたASRモデル(150)を使用して、修正されたオーディオデータ(300)を処理して発話の予測トランスクリプション(154)を生成すること、及び発話の予測トランスクリプションを発話のグラウンドトゥルーストランスクリプションと比較することによって、予測トランスクリプションに特定のフレーズが含まれているかどうかを判定することも含む。予測トランスクリプションに特定のフレーズが含まれているとき、方法は、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセット(210)から特定のフレーズを漏洩したことを示す出力(180)を生成することを含む。
【特許請求の範囲】
【請求項1】
コンピュータ実装方法(400)であって、データ処理ハードウェア(510)によって実行されたとき、前記データ処理ハードウェア(510)に、
発話(106)を特徴付けるオーディオデータ(112)及び前記発話(106)の対応するグラウンドトゥルーストランスクリプション(114)を取得すること、
前記オーディオデータ(112)を修正して、前記発話(106)で述べられた特定のフレーズ(116)を難読化すること、
トレーニングされた自動音声認識(ASR)モデル(150)を使用して、前記修正されたオーディオデータ(300)を処理し、前記発話(106)の予測トランスクリプション(154)を生成すること、
前記発話(106)の前記予測トランスクリプション(154)を前記発話(106)の前記グラウンドトゥルーストランスクリプション(114)と比較することによって、前記予測トランスクリプション(154)が前記特定のフレーズ(116)を含むかどうかを判定すること、及び
前記予測トランスクリプション(154)が前記特定のフレーズ(116)を含むとき、前記トレーニングされたASRモデル(150)が前記ASRモデル(150)をトレーニングするために使用されたトレーニングデータセット(210)から前記特定のフレーズ(116)を漏洩したことを示す出力(180)を生成することを含む、動作を実行させる、
前記コンピュータ実装方法(400)。
【請求項2】
前記動作は、前記予測トランスクリプション(154)が、前記特定のフレーズ(116)と同じ情報のカテゴリ(212)に関連付けられた前記グラウンドトゥルーストランスクリプション(114)からの前記特定のフレーズ(116)の代わりに別のフレーズ(117)を含むとき、前記トレーニングされたASRモデル(150)が、前記ASRモデル(150)をトレーニングするために使用された前記トレーニングデータセット(210)から前記別のフレーズ(117)を漏洩したことを示す出力(180)を生成することをさらに含む、請求項1に記載のコンピュータ実装方法(400)。
【請求項3】
前記動作は、前記予測トランスクリプション(154)が、前記特定のフレーズ(116)、または前記特定のフレーズ(116)と同じ情報のカテゴリ(212)に関連付けられた前記グラウンドトゥルーストランスクリプション(114)からの前記特定のフレーズ(116)の代わりの別のフレーズ(117)を含まないとき、前記トレーニングされたASRモデル(150)が、前記ASRモデル(150)をトレーニングするために使用された前記トレーニングデータセット(210)からいずれの情報も漏洩していないことを示す出力(180)を生成することをさらに含む、請求項1または2に記載のコンピュータ実装方法(400)。
【請求項4】
前記オーディオデータ(112)はオーディオ波形を含む、請求項1~3のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項5】
前記オーディオ波形は人間の音声に対応する、請求項4に記載のコンピュータ実装方法(400)。
【請求項6】
前記オーディオ波形は合成音声に対応する、請求項4に記載のコンピュータ実装方法(400)。
【請求項7】
前記オーディオデータ(112)を修正することは、
前記グラウンドトゥルーストランスクリプション(114)に基づいて、前記グラウンドトゥルーストランスクリプション(114)内の前記特定のフレーズ(116)と整合する前記オーディオデータ(112)のセグメント(122)を識別すること、及び
前記発話(106)で述べられた前記特定のフレーズ(116)を難読化するよう前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行すること、
を含む、請求項1~6のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項8】
前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行することは、前記オーディオデータ(112)の前記識別されたセグメント(122)にノイズを追加することを含む、請求項7に記載のコンピュータ実装方法(400)。
【請求項9】
前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行することは、前記オーディオデータ(112)の前記識別されたセグメント(122)をノイズで置き換えることを含む、請求項7に記載のコンピュータ実装方法(400)。
【請求項10】
前記動作が、
前記発話(106)の前記グラウンドトゥルーストランスクリプション(114)を処理して、具体的な情報のカテゴリ(212)に関連する、前記グラウンドトゥルーストランスクリプション(114)に含まれるいずれかのフレーズ(214)を識別することをさらに含み、
前記オーディオデータ(112)を修正することは、前記グラウンドトゥルーストランスクリプション(114)に含まれる前記特定のフレーズ(116)が前記具体的な情報のカテゴリ(212)に関連付けられていることを識別することに応じて行われる、
請求項1~9のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項11】
前記具体的な情報のカテゴリ(212)は、名前、住所、日付、郵便番号、患者の診断、口座番号、または電話番号を含む、請求項10に記載のコンピュータ実装方法(400)。
【請求項12】
システムであって、
データ処理ハードウェア(510)、及び
前記データ処理ハードウェア(510)と通信するメモリハードウェア(520)であって、前記メモリハードウェア(520)は、前記データ処理ハードウェア(510)で実行されたとき、前記データ処理ハードウェア(510)に、
発話(106)を特徴付けるオーディオデータ(112)及び前記発話(106)の対応するグラウンドトゥルーストランスクリプション(114)を取得すること、
前記オーディオデータ(112)を修正して、前記発話(106)で述べられた特定のフレーズ(116)を難読化すること、
トレーニングされた自動音声認識(ASR)モデル(150)を使用して、前記修正されたオーディオデータ(300)を処理し、前記発話(106)の予測トランスクリプション(154)を生成すること、
前記発話(106)の前記予測トランスクリプション(154)を前記発話(106)の前記グラウンドトゥルーストランスクリプション(114)と比較することによって、前記予測トランスクリプション(154)が前記特定のフレーズ(116)を含むかどうかを判定すること、及び
前記予測トランスクリプション(154)が前記特定のフレーズ(116)を含むとき、前記トレーニングされたASRモデル(150)が前記ASRモデル(150)をトレーニングするために使用されたトレーニングデータセット(210)から前記特定のフレーズ(116)を漏洩したことを示す出力(180)を生成すること、
を含む動作を実行させる命令を格納する、前記メモリハードウェア(520)を含む、
前記システム。
【請求項13】
前記動作は、前記予測トランスクリプション(154)が、前記特定のフレーズ(116)と同じ情報のカテゴリ(212)に関連付けられた前記グラウンドトゥルーストランスクリプション(114)からの前記特定のフレーズ(116)の代わりの別のフレーズ(117)を含むとき、前記トレーニングされたASRモデル(150)が、前記ASRモデル(150)をトレーニングするために使用された前記トレーニングデータセット(210)から前記別のフレーズ(117)を漏洩したことを示す出力(180)を生成することをさらに含む、請求項12に記載のシステム。
【請求項14】
前記動作は、前記予測トランスクリプション(154)が、前記特定のフレーズ(116)、または前記特定のフレーズ(116)と同じ情報のカテゴリ(212)に関連付けられた前記グラウンドトゥルーストランスクリプション(114)からの前記特定のフレーズ(116)の代わりの別のフレーズ(117)を含まないとき、前記トレーニングされたASRモデル(150)が、前記ASRモデル(150)をトレーニングするために使用された前記トレーニングデータセット(210)からいずれの情報も漏洩していないことを示す出力(180)を生成することをさらに含む、請求項12または13に記載のシステム。
【請求項15】
前記オーディオデータ(112)はオーディオ波形を含む、請求項12~14のいずれか一項に記載のシステム。
【請求項16】
前記オーディオ波形は人間の音声に対応する、請求項15に記載のシステム。
【請求項17】
前記オーディオ波形は合成音声に対応する、請求項15に記載のシステム。
【請求項18】
前記オーディオデータ(112)を修正することは、
前記グラウンドトゥルーストランスクリプション(114)に基づいて、前記グラウンドトゥルーストランスクリプション(114)内の前記特定のフレーズ(116)と整合する前記オーディオデータ(112)のセグメント(122)を識別すること、及び
前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行して、前記発話(106)で述べられた前記特定のフレーズ(116)を難読化することを含む、請求項12~17のいずれか一項に記載のシステム。
【請求項19】
前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行することは、前記オーディオデータ(112)の前記識別されたセグメント(122)にノイズを追加することを含む、請求項18に記載のシステム。
【請求項20】
前記オーディオデータ(112)の前記識別されたセグメント(122)に対してデータ拡張を実行することは、前記オーディオデータ(112)の前記識別されたセグメント(122)をノイズで置き換えることを含む、請求項18に記載のシステム。
【請求項21】
前記動作は、
前記発話(106)の前記グラウンドトゥルーストランスクリプション(114)を処理して、具体的な情報のカテゴリ(212)に関連する、前記グラウンドトゥルーストランスクリプション(114)に含まれるいずれかのフレーズ(214)を識別することをさらに含み、
前記オーディオデータ(112)を修正することは、前記グラウンドトゥルーストランスクリプション(114)に含まれる前記特定のフレーズ(116)が前記具体的な情報のカテゴリ(212)に関連付けられていることを識別することに応じて行われる、
請求項12~20のいずれか一項に記載のシステム。
【請求項22】
前記具体的な情報のカテゴリ(212)は、名前、住所、日付、郵便番号、患者の診断、口座番号、または電話番号を含む、請求項21に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ASRモデルのフレーズ抽出メカニズムに関する。
【背景技術】
【0002】
自動音声認識(ASR)モデルは、オーディオデータを入力として受信し、受信したオーディオデータの入力に基づいて、予測トランスクリプションなどのトランスクリプションを出力として生成する。ASRモデルは、対応するトランスクリプションを含むオーディオデータを含むトレーニングデータでトレーニングされる。ただし、ASRモデルは、それがトレーニング中に記憶したトレーニングデータを漏洩する可能性がある。プライベート及び/または機密性の高いトレーニングデータのデータ漏洩は、概して望ましくない。しかし、トレーニングデータの漏洩を検出するためのASRモデルの堅牢性を検証するのは困難であり得る。
【発明の概要】
【0003】
本開示の一態様は、自動音声認識(ASR)モデル用のフレーズ抽出のコンピュータ実装方法を提供する。コンピュータ実装方法は、データ処理ハードウェアで実行されたとき、発話を特徴付けるオーディオデータ及び発話の対応するグラウンドトゥルーストランスクリプションを取得すること、及び発話で述べられた特定のフレーズを難読化するためにオーディオデータを修正することを含む動作をデータ処理ハードウェアに実行させる。この動作は、トレーニングされたASRモデルを使用して修正されたオーディオデータを処理して発話の予測トランスクリプションを生成すること、及び発話の予測トランスクリプションを発話のグラウンドトゥルーストランスクリプションと比較することによって、予測トランスクリプションに特定のフレーズが含まれているかどうかを判定することも含む。予測トランスクリプションに特定のフレーズが含まれているとき、動作は、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットから特定のフレーズを漏洩したことを示す出力を生成することを含む。
【0004】
本開示の実施態様は、以下の任意選択の特徴の1つ以上を含み得る。いくつかの実施態様では、動作はさらに、予測トランスクリプションに、特定のフレーズと同じ情報のカテゴリに関連付けられたグラウンドトゥルーストランスクリプションからの特定のフレーズの代わりに別のフレーズが含まれるとき、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットから別のフレーズを漏洩したことを示す出力を生成することが含まれる。いくつかの例では、動作にはさらに、予測トランスクリプションに、特定のフレーズ、または特定のフレーズと同じ情報のカテゴリに関連付けられたグラウンドトゥルーストランスクリプションからの特定のフレーズの代わりの別のフレーズが含まれないとき、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットからいずれの情報も漏洩していないことを示す出力を生成することが含まれる。
【0005】
いくつかの実施態様では、オーディオデータにはオーディオ波形が含まれる。これらの実施態様では、オーディオ波形は人間の音声に対応する場合がある。あるいは、オーディオ波形は合成音声に準拠する場合がある。
【0006】
いくつかの例では、オーディオデータを修正することは、グラウンドトゥルーストランスクリプションに基づいてグラウンドトゥルーストランスクリプション内の特定のフレーズと整合するオーディオデータのセグメントを識別すること、及びオーディオデータの識別されたセグメントに対してデータ拡張を実行して発話で述べられた特定のフレーズを難読化することを含む。これらの例では、オーディオデータの識別されたセグメントに対してデータ拡張を実行することは、オーディオデータの識別されたセグメントをノイズ追加することを含む場合がある。あるいは、オーディオデータの識別されたセグメントに対してデータ拡張を実行することは、オーディオデータの識別されたセグメントをノイズに置き換えることを含む場合がある。
【0007】
いくつかの実施態様では、動作には、発話のグラウンドトゥルーストランスクリプションを処理して、具体的な情報のカテゴリに関連する、グラウンドトゥルーストランスクリプションに含まれるいずれかのフレーズを識別することもさらに含まれる。ここで、オーディオデータを修正することは、グラウンドトゥルーストランスクリプションに含まれる特定のフレーズが具体的な情報のカテゴリに関連付けられていることを識別することに応じて行われる。これらの実施態様では、情報の特定のカテゴリには、名前、住所、日付、郵便番号、患者の診断、口座番号、または電話番号が含まれ得る。
【0008】
本開示の別の態様は、ASRモデル用のフレーズ抽出システムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアが含まれる。メモリハードウェアは、データ処理ハードウェアで実行されたとき、発話を特徴付けるオーディオデータ及び発話の対応するグラウンドトゥルーストランスクリプションを取得すること、及び発話で述べられた特定のフレーズを難読化するためにオーディオデータを修正することを含む動作をデータ処理ハードウェアに実行させる命令を格納する。この動作は、トレーニングされたASRモデルを使用して修正されたオーディオデータを処理して発話の予測トランスクリプションを生成すること、及び発話の予測トランスクリプションを発話のグラウンドトゥルーストランスクリプションと比較することによって、予測トランスクリプションに特定のフレーズが含まれるかどうかを判定することも含む。予測トランスクリプションに特定のフレーズが含まれるとき、動作は、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットから特定のフレーズを漏洩したことを示す出力を生成することを含む。
【0009】
様々な態様は、以下の任意選択の特徴のうちの1つ以上を含んでもよい。いくつかの実施態様では、動作はさらに、予測トランスクリプションに、特定のフレーズと同じ情報のカテゴリに関連付けられたグラウンドトゥルーストランスクリプションからの特定のフレーズの代わりに別のフレーズが含まれるとき、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットから別のフレーズを漏洩したことを示す出力を生成することが含まれる。いくつかの例では、動作にはさらに、予測トランスクリプションに、特定のフレーズ、または特定のフレーズと同じ情報のカテゴリに関連付けられたグラウンドトゥルーストランスクリプションからの特定のフレーズの代わりの別のフレーズが含まれないとき、トレーニングされたASRモデルが、ASRモデルのトレーニングに使用されたトレーニングデータセットからいずれの情報も漏洩していないことを示す出力を生成することが含まれる。
【0010】
いくつかの実施態様では、オーディオデータにはオーディオ波形が含まれる。これらの実施態様では、オーディオ波形は人間の音声に対応する場合がある。あるいは、オーディオ波形は合成音声に準拠する場合がある。
【0011】
いくつかの例では、オーディオデータを修正することは、グラウンドトゥルーストランスクリプションに基づいてグラウンドトゥルーストランスクリプション内の特定のフレーズと整合するオーディオデータのセグメントを識別すること、及びオーディオデータの識別されたセグメントに対してデータ拡張を実行して発話で述べられた特定のフレーズを難読化することを含む。これらの例では、オーディオデータの識別されたセグメントに対してデータ拡張を実行することは、オーディオデータの識別されたセグメントにノイズを追加することを含む場合がある。あるいは、オーディオデータの識別されたセグメントに対してデータ拡張を実行することは、オーディオデータの識別されたセグメントをノイズに置き換えることを含む場合がある。
【0012】
いくつかの実施態様では、動作は、発話のグラウンドトゥルーストランスクリプションを処理して、具体的な情報のカテゴリに関連する、グラウンドトゥルーストランスクリプションに含まれるいずれかのフレーズを識別することもさらに含む。ここで、オーディオデータを修正することは、グラウンドトゥルーストランスクリプションに含まれる特定のフレーズが具体的な情報のカテゴリに関連付けられていることを識別することに応じて行われる。これらの実施態様では、具体的な情報のカテゴリには、名前、住所、日付、郵便番号、患者の診断、口座番号、または電話番号が含まれ得る。
【0013】
本開示の1つ以上の実施態様の詳細は、添付の図面及び以下の説明において述べられる。他の態様、特徴、及び利点が、説明及び図面、ならびに請求項から明らかになる。
【図面の簡単な説明】
【0014】
【
図1】自動音声認識(ASR)モデルのフレーズ抽出メカニズムの例の概略図である。
【
図2】トランスクリプションの1つ以上の特定のフレーズを識別するための例示的なフレーズ識別器の概略図である。
【
図3】トランスクリプション内の1つ以上の特定のフレーズの例示的なフレーズ抽出の概略図である。
【
図4】ASRモデルのフレーズ抽出メカニズムを実装する方法の動作の例示的な構成のフローチャートである。
【
図5】本明細書に記載のシステム及び方法を実装するために使用し得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0015】
種々の図面における同様の参照記号は、同様の要素を指す。
【0016】
本明細書の実施態様は、自動音声認識(ASR)モデルのトレーニングに使用されるトレーニングデータの漏洩を検出する際に使用するためのフレーズ抽出メカニズムを対象としている。ノイズの多いオーディオデータで置き換えるかマスクする音声発話のフレーズを識別し、トレーニングされたASRモデルの出力を分析して、トレーニングされたASRモデルが発話の実際のトランスクリプションを出力したかどうかを判定すると、トレーニングされたASRモデルからトレーニングデータの漏洩が生じたかどうかを実証する。フレーズ抽出メカニズムは、住所、郵便番号、患者の診断などの、音声波形の様々な種類の機密情報が、トレーニングされたASRモデルから漏洩していないかどうかをテストするために使用することができる。
【0017】
図1は、コンピューティングデバイス102で実行されるフレーズ抽出メカニズム108を備えたシステム100を含む音声環境の例である。コンピューティングデバイス102(全体的にデバイス102とも呼ばれる)は、音声環境内部の1人以上のユーザ104からのサウンド(例えば、オーディオデータ)を取込むように構成されている。ここで、オーディオデータ112は、トレーニングされたASRモデル150が認識するためのテスト発話として機能する、ユーザ104による話された発話106を指し得る。トレーニングされたASRモデル150などのデバイス102の音声対応システムは、オーディオデータ112に対して音声認識を実行し、ユーザ104が話した対応する発話106のトランスクリプション154を生成することができる。
【0018】
コンピューティングデバイス102には、データ処理ハードウェア111と、データ処理ハードウェア111と通信し、データ処理ハードウェア111によって実行されたとき、データ処理ハードウェア111に1つ以上の動作を実行させる命令を格納するメモリハードウェア113が含まれる。コンピューティングデバイス102には、分散システム(クラウドコンピューティング環境)が含まれる場合がある。コンピューティングデバイス102は、ディスプレイ105も含んでおり、及び/または1つ以上のディスプレイと通信する。ディスプレイ105は、トレーニングされたASRモデル150が、ASRモデル150のトレーニングに使用されたトレーニングデータセット210(
図2)から潜在的に機密性の高いデータを漏洩しているかどうかを示す漏洩レポート182を表示できる。コンピューティングデバイス102は、音声環境100内部の話された発話106を取込んで電気信号に変換するオーディオキャプチャデバイス(例えば、マイク)と、可聴オーディオ信号(例えば、デバイス102からの出力オーディオデータ)を通信する音声出力デバイス(例えば、スピーカー)を備えたオーディオシステムが含まれ得る。ASRモデル150及び/または漏洩検出器170は、オーディオテキストアライナ120及びデータ拡張器130としてコンピューティングデバイス102で実行されてもよく、またはASRモデル150及び/または漏洩検出器170は、コンピューティングデバイス102と通信する他のコンピューティングデバイスで実行されてもよい。
【0019】
以下でより詳細に説明するように、漏洩検出器170は、データ拡張器130によって修正されたオーディオデータ300のノイズに置き換えられた発話106からの特定のフレーズ116をモデル150がまだ認識しているかどうかを判定することによってモデル150の堅牢性をチェックまたは検証し、モデル150をトレーニングするために使用されたトレーニングデータセット210からモデル150が1つ以上の特定のフレーズ116を漏洩したかどうかを示すインジケーション180を出力することができる。例えば、漏洩検出器170は、モデル150がトレーニング中に記憶した潜在的に機密性の高い希少トレーニングデータをモデル150が漏洩したことを示すインジケーション180を出力することができる。
図1は、コンピューティングデバイス102が、ユーザ104が話している発話106「ミスターソームズとミスターハヴィシャムはこの情報に圧倒された」を特徴付ける、人間の音声のオーディオ波形を含むオーディオデータ112を取込むことを示す。任意選択で、ユーザ104は発話106のテキスト表現/トランスクリプション114を入力でき、テキスト読み上げ(TTS)システム110はトランスクリプション114を、発話106を特徴付ける合成音声のオーディオ波形を含むオーディオデータ112に変換することができる。
【0020】
いくつかの実施態様では、漏洩検出器170は、モデル150が、1つ以上の特定のフレーズ116に対応するオーディオデータ112を受信せずに、モデル150をトレーニングするために使用されたトレーニングデータセット210から1つ以上の特定のフレーズ116を漏洩したかどうかを判定する。言い換えれば、人間の音声または合成音声のオーディオ波形を含むオーディオデータ112には、1つ以上の特定のフレーズ116を省略しながら、グラウンドトゥルーストランスクリプション114からの他の用語/フレーズのみが含まれる場合がある。これらの実施態様では、省略される特定のフレーズ116を1つだけ含むトランスクリプション114の場合、オーディオデータ112は2つのセグメントに分割され、第1のセグメントは特定のフレーズ116が配置される開始境界で終了し、第2のオーディオセグメントは特定のフレーズ116が配置される終了境界で開始する。データ拡張器130は、ノイズの持続時間に関連付けられたマスク/拡張オーディオセグメント302(
図3)を生成し、オーディオデータ112の2つのオーディオセグメントを、その間に挿入されたマスク/拡張オーディオセグメント302と組み合わせることによって、修正されたオーディオデータ300を生成することができる。したがって、漏洩検出器170は、修正されたオーディオデータ300とグラウンドトゥルーストランスクリプション112(特定のフレーズ116を含む)を比較して、ASRモデル150のトレーニングに使用されたトレーニングデータセット210から、モデル150が特定のフレーズ116または長さの異なる類似のフレーズ117のいずれかを漏洩しているかどうかをチェックする。
【0021】
例えば、トランスクリプション114「私はミスターハヴィシャムがこの情報を持っていることを知っている」をTTSシステム110に伝えて合成音声に対応するオーディオデータ112に変換するのではなく、トランスクリプション114を「私はミスターハヴィシャムを知っている」と「この情報を持っている」のセグメントに分割し、特定のフレーズ116「ハヴィシャム」を省略してTTSシステム110に入力することができる。漏洩検出器170に入力されるグラウンドトゥルーストランスクリプション114には、特定のフレーズ116「ハヴィシャム」が依然として含まれる。TTSシステム110がトランスクリプション114の2つのセグメントをオーディオデータ112の対応する合成音声セグメントに変換すると、データ拡張器130は対応するマスクされたオーディオセグメント302を生成し、その間に配置されたマスクされたオーディオセグメント302を含む2つの合成音声セグメント/フレーズを組み合わせて、修正されたオーディオデータ300を生成することができる。ここで、マスクされたオーディオセグメント302には、特定のフレーズ116「ハヴィシャム」に関連付けられた持続時間を持つノイズの多いオーディオセグメントが含まれる場合がある。特に、データ拡張器130は、ASRモデル150が類似のフレーズ117(例えば、期間が短縮された場合のヘイルなどの他のキャラクター名)を漏洩しているかどうかを判定しようとするために、拡張/マスクされたオーディオセグメント302の持続時間を変更することもある。同様に、オーディオデータ112が、ユーザ104が話した人間の音声に対応するとき、ユーザ104は単に「私はミスターのことを知っている」と「この情報を持っている」という2つのフレーズを話すだけでよい。このシナリオでは、ユーザ104は、データ拡張器130が、2つの音声フレーズの間に挿入する対応するマスクされたオーディオセグメント302を生成して、修正されたオーディオデータ300を生成するべきであることを示すいくつかの入力を行い得る。
【0022】
明らかになるように、オーディオデータ112に人間のオーディオ波形が含まれているか合成音声が含まれているかにかかわらず、発話106のトランスクリプション114は、元の入力された発話106から特定のフレーズ116a、116b「ソームズ」及び「ハヴィシャム」を難読化/マスクした修正されたオーディオデータ300に対して実行された音声認識に基づいてトレーニングされたASRモデル150によって出力される予測トランスクリプション154と比較するための、発話106の対応するグラウンドトゥルーストランスクリプション114としても機能する。グラウンドトゥルーストランスクリプション114には、オーディオデータ112に関連付けられた他の用語/フレーズ及び対応する時間情報115とともに、1つ以上の特定のフレーズ116が含まれる。特定のフレーズ116には、修正されたオーディオデータ300において難読化されるか、または認識できないように、ノイズで拡張/置換されるフレーズが含まれる。いくつかの例では、ユーザ104は、難読化される特定のフレーズ116を明示的に識別する入力をコンピューティングデバイス102に対して行う。他の例では、フレーズ抽出メカニズム108は、トランスクリプション114に含まれる特定のフレーズのうち、具体的な情報のカテゴリに関連付けられているフレーズを識別する。これらの例では、ユーザ104は、1つ以上の特定の情報カテゴリを示す入力を行うことができ、フレーズ抽出メカニズム108は、グラウンドトゥルーストランスクリプション114を処理して、具体的な情報のカテゴリに関連付けられたいずれかのフレーズを識別することができる。したがって、特定のフレーズ116は、フレーズ116の選択を示す明示的なユーザ入力に基づいて識別され得るか、または特定のフレーズ116が具体的な情報のカテゴリに関連付けられているものとして識別され得る。本明細書で使用される場合、フレーズには、名前(例えば、ハヴィシャムまたはジョン・スミス)、都市(例えば、New Haven)、郵便番号の数字の並び(例えば、4-8-3-0-4)、住所(例えば、1234 Lavender Ln)、生年月日(例えば、2000年1月1日)などの1つ以上の用語が含まれる場合がある。時間情報115には、トランスクリプション114内の各単語/用語の開始/終了境界のタイムスタンプが含まれ得る。言い換えれば、時間情報115は、トランスクリプション114の各単語/用語の開始と終了の境界を定める。いくつかの実施態様では、トランスクリプション114が対応するオーディオデータとペアになっており、モデル150をトレーニングするために使用されるトレーニングデータセット210から派生している場合、時間情報115はトレーニング中に注釈付きのタイムスタンプを介して取得され、トレーニングデータセット210とともに格納される場合がある。あるいは、トランスクリプション114がTTSシステム110に提供され、合成音声に対応するオーディオデータ112に変換される場合、TTSシステム110は、トランスクリプション114に対してテキスト読み上げ変換を実行するときに時間情報115を生成することができる。
【0023】
フレーズ抽出メカニズム108は、さらに、オーディオデータ112と、1つ以上のフレーズ116及び対応する時間情報115を含むトランスクリプション114を受信し、トランスクリプション114で識別された1つ以上の特定のフレーズ116と整合するオーディオデータ112の1つ以上のセグメント122を識別するように構成されたオーディオテキストアライナ120を含む。言い換えれば、オーディオテキストアライナ120は、時間情報115を含むトランスクリプション114を受け取り、時間情報115を使用して、トランスクリプション114の特定のフレーズ116と整合するオーディオデータ112のセグメント122を識別し、識別された各セグメント122を含むオーディオデータ112を出力する。より具体的には、オーディオテキストアライナ120は、対応する時間情報115を含むトランスクリプション114を受信し、トランスクリプション114には「ミスターソームズとミスターハヴィシャムはこの情報に圧倒された」という内容が含まれる。ここで、「ソームズ」は特定のフレーズ116aであり、また、「ハヴィシャム」は特定のフレーズ116bである。識別された特定のフレーズ116a、116bは、トレーニングデータセット210の中の同じ情報のカテゴリ212(
図2)(例えば、キャラクター名)に属している可能性がある。オーディオテキストアライナ120は、時間情報115を使用して、トランスクリプション114をオーディオデータ112と整合させ、オーディオテキストアライナ120が、特定のフレーズ116a、116bを伝えるオーディオデータ112の中のセグメント122a、122bを識別できるようにする。この例では、オーディオテキストアライナ120は、トランスクリプション114の特定のフレーズ「ソームズ」116aと整合するオーディオデータ122のセグメント122aを識別し、また、トランスクリプション114の特定のフレーズ「ハヴィシャム」116bと整合するオーディオデータ122のセグメント122bも識別する。オーディオテキストアライナ120が、特定のフレーズ116a、116bと整合するオーディオデータ112のセグメント122a、122bを識別すると、識別されたセグメント122a、122bを含むオーディオデータ112がデータ拡張器130に提供され、オーディオデータ112が拡張されて、修正されたオーディオデータ300を生成する。
【0024】
データ拡張器130は、1つ以上の特定のフレーズ116に対応する1つ以上の識別されたセグメント122を含むオーディオデータ112を受信し(例えば、オーディオテキストアライナ120から)、オーディオデータ112の各識別されたセグメント122に対してデータ拡張を実行し、発話106を特徴付けるオーディオデータ112の対応する特定のフレーズ116を難読化する。つまり、データ拡張器130は、オーディオデータ112を受信し、特定のフレーズ116に対応する識別されたセグメント122に基づいて、オーディオデータ112を拡張し、特定のフレーズ116を難読化する拡張オーディオセグメント302(
図3)を含む修正されたオーディオデータ300を生成する。いくつかの実施態様では、データ拡張器130は、データ拡張技法を使用してオーディオデータ112を修正し、対応する識別された特定のフレーズ116と整合する識別された各セグメント122を歪ませる。本明細書での例は、データ拡張器130が、識別されたセグメント122の長さに対応する持続時間のノイズを追加することによって、オーディオデータ112を修正することを指す。ノイズに加えて、またはノイズの代わりに、他のデータ拡張技法を適用することもできる。
【0025】
データ拡張器130が、識別されたセグメント122の特定のフレーズ116を難読化してオーディオデータ112を修正し、修正されたオーディオデータ300を生成した後、モデル150は修正されたオーディオデータ300を受け取り、修正されたオーディオデータ300を使用して、修正されたオーディオデータ300の対応する予測トランスクリプション154を出力として生成する。つまり、モデル150は、修正されたオーディオデータ300を受信し、修正されたオーディオデータ300に基づいて、修正されたオーディオデータ300の予測トランスクリプション154を生成する。漏洩検出器170は、入力として、修正されたオーディオデータ300の予測トランスクリプション154とグラウンドトゥルーストランスクリプション114を受け取り、出力として、トレーニングされたASRモデル300が、ASRモデル150のトレーニングに使用されたトレーニングデータセット210から特定のフレーズ116または類似のフレーズ117のいずれかを漏洩したかどうかを示すインジケーション180を生成する。つまり、漏洩検出器170は、修正されたオーディオデータ300の予測トランスクリプション154を発話106のグラウンドトゥルーストランスクリプション114と比較し、修正されたオーディオデータ300でノイズに置き換えられた特定のフレーズ116が予測トランスクリプション154に含まれているかどうかを判定する。示されている例では、出力インジケーション180は、修正されたオーディオデータ300が対応するオーディオセグメント122bをノイズで拡張しているにもかかわらず、修正されたオーディオデータ300から正確な特定のフレーズ116b「ハヴィシャム」が抽出されたことを示す。漏洩検出器170が、予測トランスクリプション154に、特定のフレーズ116または、特定のフレーズ116と同じ情報のカテゴリ212に関連付けられたトランスクリプション114からの特定のフレーズ116の代わりに使用される別の類似フレーズ117が含まれていないことを判定すると、モデル150のトレーニングに使用されたトレーニングデータセット210の情報のカテゴリ212から、モデル150がいずれの特定のフレーズ116をも漏洩していないことを示す出力180を、漏洩検出器170は生成する。
【0026】
いくつかの例では、予測トランスクリプション154には、トランスクリプション114からの特定のフレーズ116と同じ情報のカテゴリ212(
図2)に関連付けられた別のフレーズ117が含まれる。例えば、情報のカテゴリ212には、キャラクター名、住所、郵便番号、生年月日、患者の診断、またはモデル150のトレーニングに使用されるトレーニングデータセット210のタイプを言及するその他いずれかの情報のカテゴリ212が含まれる場合がある。これらの例では、漏洩検出器170は、モデル150のトレーニングに使用されたトレーニングデータセット210からモデル150が他のフレーズ117を漏洩したことを示す出力180を生成する。示されている例では、出力インジケーション180は、特定のフレーズ116a「ソームズ」を難読化するためにノイズで拡張された対応するオーディオセグメント122aの位置で、修正されたオーディオデータ300から類似のフレーズ117「ヘイル」が抽出されたことを示する。ここで、「ヘイル」と「ソームズ」は両方とも、ASRモデル300をトレーニングするために使用されたオーディオブックのキャラクター名に対応しており、フレーズ「ヘイル」を認識するASRモデル150は、トレーニングされたASRモデル150が、特定のフレーズ116a「ソームズ」を類似のフレーズ117「ヘイル」に置き換えることによって、トレーニングデータセット210からデータを漏洩していることを示している。
【0027】
いくつかの例では、出力180には、ユーザ104が確認するための漏洩レポート182が含まれる。例えば、漏洩レポート182は、ユーザデバイス102のディスプレイ/画面105またはユーザ104に関連付けられた別のディスプレイデバイスに表示される場合がある。ユーザデバイス102は、ユーザデバイス102のユーザ104に漏洩レポート182の表現を提示するように構成されたユーザインターフェイスジェネレータを実行することができる。漏洩レポート182には、漏洩が検出されたときの通知/警告、またはモデル150がトレーニングデータセット210から情報を漏洩していないという通知が含まれる場合がある。いくつかの例では、漏洩レポート182は、複数のオーディオデータ112とトランスクリプション114のペアからの出力180の集計を含み、抽出された特定のフレーズ(例えば、特定のフレーズ116そのもの、または特定のフレーズ116の代わりに使用され、同じ情報のカテゴリ212に関連付けられた他の類似のフレーズ117)の割合を示し、そのためモデル150によって漏洩される。漏洩レポート180は、トレーニングされたASRモデル150が、一部の具体的な情報のカテゴリ212に関連付けられたトレーニングデータセット210からデータを漏洩しているが、他のものはそうではないことを示す場合もある。例えば、漏洩レポート182は、名前/固有名詞に関連する情報のカテゴリ212で漏洩が検出されたが、生年月日、口座番号などに関連する他の情報のカテゴリ212では漏洩が検出されなかったことを示す可能性がある。これらのシナリオでは、ASRモデル150が一部の情報のカテゴリ212からデータを漏洩し、他のカテゴリからは漏洩していないことを示す漏洩レポート182のインジケーションは、フレーズ抽出モデル108に入力された複数のオーディオデータ112とトランスクリプション114のペアからノイズに置き換えられると識別された特定のフレーズ116に関連付けられた情報のカテゴリに、基づくことができる。
【0028】
いくつかの実施態様では、モデル150が、モデル150のトレーニングに使用されたトレーニングデータセット210から情報のカテゴリ212に含まれる特定のフレーズ116及び/または類似のフレーズ117を漏洩したと漏洩検出器170が判定すると、漏洩検出器170は、モデル150のセキュリティ/プライバシーを向上させるために、モデル150のモデル更新184をさらに生成する。つまり、モデル更新184は、モデル150を更新して、データ(特定のフレーズ116または類似のフレーズ117など)がそれ以上漏洩しないようにすることができる。これらの実施態様では、ASRシステム108を自動化することができ、それによって、漏洩検出器170はモデル更新184をモデル150に自動的に供与する。モデル更新184には、モデル150が、特定のフレーズ116と整合するオーディオデータ112の識別されたセグメント122が発生し、特定のフレーズ116がモデル150によって出力される予測トランスクリプション154に含まれない場合に、将来の予測トランスクリプション154にシンボル「#####」または空白のみを出力するようにするパラメータが含まれ得る。さらに、または代わりに、モデル更新184を漏洩レポート182に含めて、モデル150のセキュリティを向上させるためにユーザ102が実行すべき手順を伝えることもできる。
【0029】
図3を簡単に参照すると、データ拡張器130は、オーディオデータ112内の識別されたセグメント122a、122bに対してデータ拡張を実行して、発話106で述べられた特定のフレーズ116a、116bを難読化し、対応するマスクされたセグメント302を生成する。本明細書で使用される場合、「マスクされたセグメント」と「拡張されたセグメント」は交換可能に使用され得る。データ拡張器130は、オーディオデータ112の識別されたセグメント122a、122bにノイズを追加することによってデータ拡張を実行することができる。いくつかの例では、データ拡張器130は、オーディオデータ112内の識別されたセグメント122a、122bをノイズの多いオーディオセグメントと連結して、オーディオデータ112と追加されたノイズの多いオーディオセグメントの両方を含む拡張オーディオセグメント302a、302bを生成する。他の例では、データ拡張器130は、識別されたセグメント122a、122b内のオーディオデータ112をノイズの多いオーディオセグメントに置き換えることによって、拡張されたオーディオセグメント302a、302bを生成する。言い換えれば、データ拡張器130は、識別されたセグメント122a、122bに発生するオーディオデータ112を削除し、対応するノイズの多いオーディオセグメントを挿入して、修正されたオーディオデータ300において拡張されたオーディオセグメント302a、302bを生成する。
【0030】
いくつかの実施態様では、識別されたセグメント122a、122b内の特定のフレーズ116a、116bがオーディオデータ112の残りの部分にオーバーフローするのを制限するために、データ拡張器130は拡張されたオーディオセグメント302a、302bにおいてパディングを含める。パディングは、識別されたセグメント122a、122bをオーディオデータ112の残りの部分から分離するための時間の分量(例えば、100ミリ秒)である場合がある。これらの実施態様では、識別された各セグメント122a、122bの前後にパディングが追加される。識別されたセグメント122a、122bにパディングが追加されると、データ拡張器130はパディングと識別されたセグメント122a、122bに対してデータ拡張を実行し、修正されたオーディオデータ300内に拡張されたオーディオセグメント302a、302bを生成する。
【0031】
図1に戻ると、識別されたセグメント122a、122bを難読化する拡張されたオーディオセグメント302a、302bを含む修正されたオーディオデータ300がモデル150に供与され、それは順次「ミスターヘイルとミスターハヴィシャムはこの情報に圧倒されました」という予測トランスクリプション154を生成する。この例では、予測トランスクリプション154には、特定のフレーズ116b「ハヴィシャム」と、トランスクリプション114の特定のフレーズ116a「ソームズ」の代わりをする別のフレーズ117「ヘイル」が含まれている。他のフレーズ117「ヘイル」は、特定のフレーズ116a「ソームズ」と同じ情報のカテゴリ212に関連付けられており、他のフレーズ117と特定のフレーズ116aは両方とも、モデル150のトレーニングに使用されるトレーニングデータセット210内の同じ情報のカテゴリ212(例えば、キャラクター名)に関連付けられている。
【0032】
漏洩検出器170は、他のフレーズ117及び特定のフレーズ116bを含む予測トランスクリプション154と、識別された特定のフレーズ116a、116bを含むグラウンドトゥルーストランスクリプション114を比較して、トレーニングされたTTSモデル150が、モデル150のトレーニングに使用されたトレーニングデータセット210から特定のフレーズ116b及び他のフレーズ117を漏洩したかどうかを判定する。ここで、漏洩検出器170は、特定のフレーズ116bに修正されたオーディオデータから抽出された完全一致が含まれていると判定する場合がある。漏洩検出器170は、さらに、他のフレーズ117「ヘイル」が特定のフレーズ116a「ソームズ」と完全に一致しないが、「ヘイル」と「ソマエス」は両方とも、ASRモデル150をトレーニングするために使用されるトレーニングデータセット210(オーディオブックなど)内の同じ情報のカテゴリ(キャラクター名など)に関連付けられているため、他のフレーズ117は類似のフレーズに対応すると判定する場合がある。モデル150が特定のフレーズ116bと他のフレーズ117を漏洩したと判定することに応答して、漏洩検出器170は、モデル150のトレーニングに使用されたトレーニングデータセット210から、モデル150が特定のフレーズ116bと他のフレーズ117を漏洩したことを示す出力180を生成する。
【0033】
漏洩検出器170からの出力180は、「警告:トレーニングされたASRモデルがトレーニングデータセットからデータを漏洩している」という内容を伝える漏洩レポート182をさらに含み得るか、または、それをコンパイルするために使用できる。警告は、複数のテスト発話を特徴付けるオーディオデータ112から特定のフレーズまたは類似のフレーズがしきい値の数抽出されたときに発生し得る。示されている例では、漏洩レポート182は、漏洩した特定のフレーズ116を含む1つ以上の以前の出力180の集計を「85%正確なフレーズが抽出されました」としてさらに伝え、漏洩した他のフレーズ117を含む1つ以上の以前の出力180の集計を「79%類似フレーズが抽出されました」として伝える。上で説明したように、漏洩レポート182は、ユーザデバイス102の画面105に表示され、ユーザデバイス102のユーザ104に漏れが検出されたかどうかを通知する。漏洩検出器170は、モデル150のセキュリティ/プライバシーを向上させ、モデル150のトレーニングに使用されるトレーニングデータセット210からのさらなる情報漏洩を防ぐために、モデル150にモデル更新184をさらに供与することができる。モデル150は、モデル更新184を使用してモデル150を自動的に更新し、及び/またはモデル更新184に、トレーニングデータセット210からのデータ漏洩を防ぐためにモデル150を更新するためのユーザの命令/提案を含めることができる。
【0034】
図2を参照すると、フレーズ抽出メカニズム108にはフレーズ識別器200が含まれ得、これにより、ユーザ102は、フレーズ識別器200が発話106内で識別するトレーニングデータセット210の具体的な情報のカテゴリ212を選択できるようになる。いくつかの例では、ユーザ102は、モデル150をトレーニングするために使用されるトレーニングデータセット210内の情報のカテゴリ212に対応するカテゴリ選択入力202を行う。他の例では、ユーザ102は、トランスクリプション114内の特定のフレーズ116を識別して、修正されたオーディオデータ300内で難読化するようにする。例えば、トランスクリプション114は画面105に表示され得、ユーザ102は、修正されたオーディオデータ300で難読化する特定のフレーズ116を識別するためのユーザ入力のインジケーションを供与することができる。
【0035】
トレーニングデータセット210内の各情報のカテゴリ212には、情報のカテゴリ212に対応する1つ以上の例示的フレーズ214、214a~nが含まれる場合がある。ユーザ102がフレーズ識別器200にカテゴリ選択入力202を供与すると、フレーズ識別器200はトランスクリプション114を処理して、トランスクリプション114内に存在する情報のカテゴリ212に対応する例示的フレーズ214を識別することができる。フレーズ識別器200は、これらの識別された例示的フレーズ214を、トランスクリプション114内の識別された特定のフレーズ116として出力する。言い換えれば、ユーザ102は、フレーズ識別器200のカテゴリ選択入力202を入力して、カテゴリ選択入力202に関連付けられたカテゴリ212に属する発話106内の特定のフレーズ116を識別する。例えば、情報のカテゴリ212は、ASRモデル150をトレーニングするために使用されるオーディオブックのキャラクター名に対応する場合がある。ここで、例示的フレーズ214には、トレーニングデータセット210に出現するすべてのキャラクター名(例えば、ソームズ、ハヴィシャム、ヘイルなど)のリストが含まれる場合がある。
【0036】
図2に示すように、カテゴリ選択入力202と対応するグラウンドトゥルーストランスクリプション114がフレーズ識別器200に提供され、それに応じて、フレーズ識別器200は、発話106のグラウンドトゥルーストランスクリプション114に、カテゴリ選択入力202によって指定された情報のカテゴリ212に関連付けられたいずれかの特定のフレーズ116が含まれているかどうかを判定する。この例では、カテゴリ選択入力202は、具体的な名前の情報のカテゴリ212aを指定する(例えば、「キャラクター名を探す」)。名前の情報のカテゴリ212aは、「ソームズ」、「ヘイル」、及び「ハヴィシャム」を含み得る例示的フレーズ214a~nを含む。フレーズ識別器200は、例示的フレーズ214a~nを含む情報のカテゴリ212aとトランスクリプション114を処理し、トランスクリプション114に、カテゴリ選択入力202として入力された具体的な情報のカテゴリ212aに属する「ソームズ」及び「ハヴィシャム」という特定のフレーズ116a、116bが含まれていることを自動的に判定する。次に、フレーズ識別器200は、修正のためトランスクリプション114をオーディオテキストアライナ120に供与する。言い換えれば、オーディオテキストアライナ120及びデータ拡張器130は、特定のフレーズ116a、116bが名前の具体的な情報のカテゴリ212aに関連付けられたトランスクリプション114に含まれていることを識別したフレーズ識別器200に応答して、オーディオデータ112を修正する。この例は説明のみのものであり、情報のカテゴリ212の範囲を制限することを意図したものではない。情報のカテゴリ212には、名前、住所、日付、郵便番号、患者の診断、口座番号、電話番号など、トレーニングデータセット210を特徴付ける任意のカテゴリを含めることができる。
【0037】
図4は、ASRモデルのフレーズ抽出方法400の動作の例示的構成のフローチャートである。方法400は、動作402において、発話106を特徴付けるオーディオデータ112及び発話106の対応するグラウンドトゥルーストランスクリプション114を取得することを含む。動作404では、方法400は、発話106で述べられた特定のフレーズ116を難読化するためにオーディオデータ112を修正することを含む。
【0038】
動作406では、方法400には、トレーニングされたASRモデル150を使用して修正されたオーディオデータ300を処理し、発話106の予測トランスクリプション154を生成することも含まれる。方法400は、さらに、動作408において、発話106の予測トランスクリプション154を発話106のグラウンドトゥルーストランスクリプション114と比較することによって、予測トランスクリプション154に特定のフレーズ116が含まれているかどうかを判定することを含む。動作410では、方法400は、予測トランスクリプション154に特定のフレーズ116が含まれているとき、トレーニングされたASRモデル150がASRモデル150をトレーニングするために使用されたトレーニングデータセット210から特定のフレーズ116を漏洩したことを示す出力180を生成することも含む。
【0039】
図5は、本文書に記載のシステム及び方法を実装するために使用できる例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。ここで示されているコンポーネント、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、この文書で説明及び/または特許請求されている実施態様の実施態様を制限することを意図してはいない。
【0040】
コンピューティングデバイス500には、プロセッサ510、メモリ520、ストレージデバイス530、メモリ520及び高速拡張ポート550に接続する高速インターフェイス/コントローラ540、及び低速バス570及びストレージデバイス530に接続する低速インターフェイス/コントローラ560が含まれる。コンポーネント510、520、530、540、550、及び560の各々は、様々なバスを使用して相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在することもできる。プロセッサ510(例えば、
図1のデータ処理ハードウェア111)は、メモリ520またはストレージデバイス530に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理して、高速インターフェイス540に接続されたディスプレイ580などの外部入力/出力デバイスにグラフィカルユーザインターフェイス(GUI)のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリ及びメモリの種類と共に、必要に応じて複数のプロセッサ及び/または複数のバスが使用される場合がある。また、複数のコンピューティングデバイス500が接続され、各デバイスが必要な動作の一部を行う場合もある(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
【0041】
メモリ520(例えば、
図1のメモリハードウェア113)は、コンピューティングデバイス500内部に情報を非一時的に保存する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であり得る。非一時的メモリ520は、コンピューティングデバイス500で使用するために一時的または永続的にプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を格納するために使用される物理デバイスであり得る。不揮発性メモリの例には、フラッシュメモリ及び読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能なプログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)(例えば、通常はブートプログラムなどのファームウェアに使用される)を含むがそれらに限定されない。揮発性メモリの例には、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスク、またはテープを含むがそれらに限定されない。
【0042】
ストレージデバイス530は、コンピューティングデバイス500にマスストレージを設けることができる。いくつかの実施態様では、ストレージデバイス530はコンピュータ可読媒体である。様々な異なる実施態様では、ストレージデバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたはその他の同様のソリッドステートメモリデバイス、またはストレージ領域ネットワークまたはその他の構成のデバイスを含むデバイスのアレイであることができる。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上記のような1つ以上の方法を実行する命令も含む。情報キャリアは、メモリ520、ストレージデバイス530、またはプロセッサ510上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0043】
高速コントローラ540は、コンピューティングデバイス500の帯域幅集約動作をより管理し、低速コントローラ560は、帯域幅集約動作をより少なく管理する。このような職務の割り当ては単なる例である。いくつかの実施態様では、高速コントローラ540は、メモリ520、ディスプレイ580(例えば、グラフィックプロセッサまたはアクセラレータを介して)、及び様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート550に結合される。いくつかの実施態様では、低速コントローラ560は、ストレージデバイス530及び低速拡張ポート590に結合される。低速拡張ポート590には、様々な通信ポート(USB、Bluetooth、イーサネット、ワイヤレスイーサネットなど)が含まれる場合があり、ネットワークアダプタなどを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの1つ以上の入力/出力デバイスに接続できる。
【0044】
コンピューティングデバイス500は、図に示すように、多くの様々な形式で実装できる。例えば、それは標準サーバ500aとして、またはそのようなサーバ500aのグループで複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装できる。
【0045】
本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子回路及び/または集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組み合わせで実現できる。これらの様々な実施態様は、ストレージシステムからのデータ及び命令を受信し、ストレージシステムにデータ及び命令を送信するように結合された、特殊または汎用であり得る、少なくとも1つのプログラマブルプロセッサ、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスを含んだプログラム可能なシステムで実行可能及び/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装を含み得る。
【0046】
ソフトウェアアプリケーション(つまり、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションとしては、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、ゲームアプリケーションを含むがそれらに限定されない。
【0047】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を含み、かつ高水準手続型及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語で実装されることができる。本明細書で使用される場合、「機械可読媒体」及び「コンピュータ可読媒体」とは、機械命令及び/またはデータを、機械可読信号として機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置及び/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路(PLD))を指す。「機械可読信号」という用語は、機械命令及び/またはデータをプログラマブルプロセッサに提供するために用いられるあらゆる信号を指す。
【0048】
この明細書で説明されているプロセスとロジックフローは、データ処理ハードウェアとも呼ばれる1つ以上のプログラム可能なプロセッサによって実行され得、1つ以上のコンピュータプログラムを実行して、入力データに対して動作を行い、出力を生成することによって機能を実行する。プロセスとロジックフローはまた、特定用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行可能である。コンピュータプログラムの実行に適切なプロセッサは、例として、汎用プロセッサ及び特殊目的プロセッサの両方、及び任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサを含む。概して、プロセッサは、リードオンリメモリ、またはランダムアクセスメモリ、または両方から命令及びデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令とデータを格納する1つ以上のメモリデバイスである。一般に、コンピュータは、磁気ディスク、光磁気ディスク、光ディスクなどのデータを格納するための1つ以上のマスストレージデバイスも含む、または、それらからデータを受信するか、それらにデータを転送するか、あるいはその両方を行うべく、動作するようそれらに結合される。ただし、コンピュータがそのようなデバイスを有する必要はない。コンピュータプログラムの命令やデータの保存に適したコンピュータ可読媒体は、あらゆる形式の不揮発性メモリ、メディア、メモリデバイスを含み、例として半導体メモリデバイス、例えばEPROM、EEPROM、及びフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、及びCD ROM及びDVD-ROMディスクを含む。プロセッサとメモリは、専用ロジック回路によって補完されるか、または専用ロジック回路に組み込まれ得る。
【0049】
ユーザとのインタラクションを行うために、本開示の1つ以上の態様は、表示デバイス、例えばユーザに対して情報を表示するためのCRT(ブラウン管)、LCD(液晶画面)モニタ、またはタッチスクリーン、及び任意選択で、ユーザが使用してコンピュータに入力を行うことができる、キーボード及びポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータにおいて実装できる。他の種類のデバイスもまた、ユーザとのインタラクションを行うために用いられることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であることができ、及びユーザからの入力は、音響、音声言語、または触覚入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。
【0050】
数多くの実施態様が説明されている。言うまでもなく、本開示の趣旨及び範囲から逸脱することなく、多様な修正が成され得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。
【国際調査報告】