IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エスアールアイ インターナショナルの特許一覧

<>
  • 特表-音響イベント検出システム 図1
  • 特表-音響イベント検出システム 図2
  • 特表-音響イベント検出システム 図3
  • 特表-音響イベント検出システム 図4
  • 特表-音響イベント検出システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-02-19
(54)【発明の名称】音響イベント検出システム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20250212BHJP
   G10L 25/30 20130101ALI20250212BHJP
【FI】
G10L25/51
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024541807
(86)(22)【出願日】2022-12-16
(85)【翻訳文提出日】2024-09-11
(86)【国際出願番号】 US2022081786
(87)【国際公開番号】W WO2023140992
(87)【国際公開日】2023-07-27
(31)【優先権主張番号】63/301,439
(32)【優先日】2022-01-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TWITTER
(71)【出願人】
【識別番号】510119843
【氏名又は名称】エスアールアイ インターナショナル
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100112357
【弁理士】
【氏名又は名称】廣瀬 繁樹
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【弁理士】
【氏名又は名称】森本 有一
(72)【発明者】
【氏名】マルティン グラシアレナ
(72)【発明者】
【氏名】アーロン デニス ローソン
(72)【発明者】
【氏名】エムディー ハフィザー ラーマン
(57)【要約】
概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するコンピューティングシステムを記載する。該コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の新しいクラスの例のみに基づいて新しいクラスを加えることも可能である。
【特許請求の範囲】
【請求項1】
システムであって、前記システムは、
機械学習システムを実行するための処理回路を含むコンピューティングエンジンを備えており、前記機械学習システムは、
入力オーディオ波形の埋め込み表現を生成するために複数の非言語音を含むオーディオ空間を用いて訓練された、埋め込み抽出装置と、
クラス分類装置であって、
前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定するように、かつ、
前記入力オーディオ波形の前記スコアを出力するように、構成された、クラス分類装置と、
を備えている、システム。
【請求項2】
前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク(DNN)を備えている、請求項1に記載のシステム。
【請求項3】
前記機械学習システムは、前記コンピューティングエンジンによって実行される較正モジュールをさらに備えており、前記較正モジュールは、音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項1に記載のシステム。
【請求項4】
前記スコアを決定するために、前記クラス分類装置は、確率的線形判別分析(PLDA)を用いたクラス分類を実施するように構成されている、請求項1に記載のシステム。
【請求項5】
前記入力オーディオ波形は、第1の入力オーディオ波形であり、
前記機械学習システムは、
第2の入力オーディオ波形を受け取るように構成されており、かつ、
ユーザ入力を受け取るように構成されており、前記ユーザ入力は、
前記第2の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでおり、前記機械学習システムは、さらに、
前記埋め込み抽出装置によって前記第2の入力オーディオ波形を処理するように構成されており、前記第2の入力オーディオ波形を処理することは、高次元特徴量を備えている第2の抽出埋め込み表現をディープニューラルネットワーク(DNN)から抽出し、かつ前記第2の抽出埋め込み表現の次元を減少させることと、を含んでおり、前記クラス分類装置は、
前記第2の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解するように、かつ、
前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第2の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成するように、構成された、訓練済クラス分類装置である、請求項1に記載のシステム。
【請求項6】
前記クラス分類装置は、後続の入力オーディオ波形の埋め込み表現を、非言語音の前記新しいクラスと比較するように構成されており、かつ、
前記埋め込み抽出装置は、非言語音の前記新しいクラスを追加した結果として変化させられることはない、請求項5に記載のシステム。
【請求項7】
方法であって、前記方法は、
機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、
前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、
前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、
を含む、方法。
【請求項8】
前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク(DNN)を備えている、請求項7に記載の方法。
【請求項9】
前記方法は、前記機械学習システムの較正モジュールによって、前記クラス分類装置によって出力された前記スコアを較正することを、さらに含んでおり、前記較正モジュールは音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項7に記載の方法。
【請求項10】
前記スコアを決定することは、確率的線形判別分析(PLDA)を用いてクラス分類を実施することを含んでいる、請求項7に記載の方法。
【請求項11】
前記入力オーディオ波形は、第1の入力オーディオ波形であり、前記方法は、
前記機械学習システムによって、第2の入力オーディオ波形を受け取ることと、
前記機械学習システムによって、ユーザ入力を受け取ることであって、前記ユーザ入力は、
前記第2の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでいる、ユーザ入力を受け取ることと、
前記機械学習システムによって前記第2の入力オーディオ波形を処理することであって、前記第2の入力オーディオ波形を処理することは、高次元特徴量を備えている第2の抽出埋め込み表現をディープニューラルネットワーク(DNN)から抽出することと、前記第2の抽出埋め込み表現の次元を減少させることと、を含んでいる、前記第2の入力オーディオ波形を処理することと、
前記機械学習システムによって、前記第2の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解することと、
前記機械学習システムによって、前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第2の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成することと、をさらに含んでいる、請求項7に記載の方法。
【請求項12】
前記方法は、前記クラス分類装置によって、後続の入力オーディオ波形の埋め込み表現を、非言語音の前記新しいクラスと比較することをさらに含んでおり、
前記埋め込み抽出装置は、非言語音の前記新しいクラスを追加した結果として変化させられることはない、請求項11に記載の方法。
【請求項13】
命令を含む非一時的なコンピュータ可読記録媒体であって、前記命令は、実行されるときに、処理回路に、
機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、
前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、
前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、
を行わせる、非一時的なコンピュータ可読記録媒体。
【請求項14】
前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク(DNN)を備えている、請求項13に記載の非一時的なコンピュータ可読記録媒体。
【請求項15】
前記命令は、前記機械学習システムの較正モジュールによって、前記クラス分類装置によって出力された前記スコアを較正することを、前記処理回路にさらに行わせるのであり、前記較正モジュールは音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項13に記載の非一時的なコンピュータ可読記録媒体。
【請求項16】
前記スコアを決定することは、確率的線形判別分析(PLDA)を用いてクラス分類を実施することを含んでいる、請求項13に記載の非一時的なコンピュータ可読記録媒体。
【請求項17】
前記入力オーディオ波形は、第1の入力オーディオ波形であり、かつ、前記命令は、前記処理回路に、
第2の入力オーディオ波形を受け取ることと、
ユーザ入力を受け取ることであって、前記ユーザ入力は、
前記第2の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでいる、ユーザ入力を受け取ることと、
前記第2の入力オーディオ波形を処理することであって、前記第2の入力オーディオ波形を処理することは、高次元特徴量を備えている第2の抽出埋め込み表現をディープニューラルネットワーク(DNN)から抽出し、かつ前記第2の抽出埋め込み表現の次元を減少させることと、を含んでいる、前記第2の入力オーディオ波形を処理することと、
前記第2の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解することと、
前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第2の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成することと、
をさらに行わせる、請求項13に記載の非一時的なコンピュータ可読記録媒体。
【請求項18】
前記クラス分類装置は、訓練済のPLDAクラス分類装置である、請求項17に記載の非一時的なコンピュータ可読記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2022年1月20日に出願された、米国仮特許出願第63/301439号の利益を主張する。該出願の内容全体が参照により本明細書に組み込まれる。
【0002】
本開示は、オーディオ情報の自動的なクラス分類及び識別に関する。
【0003】
(政府の権益)
本発明は、IWTSD(Irregular Warfare Technical Support Directorate)によって与えられた、契約番号第N4175620C3057号の政府支援を受けて行われた。米国政府は、本発明に特定の権利を有する。
【背景技術】
【0004】
オーディオデータは、言語(speech)を含む人間の発声を含み得る。また、オーディオデータは、非言語(non-speech)音を含む場合もあり、非言語音には、人間の非言語発声であって、ハミング、泣き声、ヨーデル(yodel)、及び類似の発声等が含まれる。非言語オーディオデータの他の例は、クジラや他の海洋生物等からの発声等である人間以外の発声と、例えば流水音、気象音、及び他の自然からの音である広範な他の非言語オーディオと、機械的に生成された音と、を含み得る。
【発明の概要】
【0005】
概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するための技術を実装できるコンピューティングシステムを記述している。該コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の新しいクラスの例に基づいて、新しいクラスを加えることができる。
【0006】
1つの実施例では、本開示は、システムであって、前記システムは、機械学習システムを実行するための処理回路を含むコンピューティングエンジンを備えており、前記機械学習システムは、入力オーディオ波形の埋め込み表現を生成するために複数の非言語音を含むオーディオ空間を用いて訓練された、埋め込み抽出装置と、クラス分類装置であって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定するように、かつ、前記入力オーディオ波形の前記スコアを出力するように、構成された、クラス分類装置と、を備えている、システムを記載する。
【0007】
他の実施例では、本開示は、方法であって、前記方法は、機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、を含む、方法を記載する。
【0008】
他の実施例では、本開示は、命令を含む非一時的なコンピュータ可読記録媒体であって、前記命令は、実行されるときに、処理回路に、機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、を行わせる、非一時的なコンピュータ可読記録媒体を記載する。
【0009】
本開示の1つ以上の実施例の詳細は、添付の図面及び以下の詳細な説明において述べられる。本開示の他の特徴、目的、及び有利な点は、詳細な説明及び図面から、ならびに請求項から、明らかになるであろう。
【図面の簡単な説明】
【0010】
図1図1A及び1Bは、本開示の1つ以上の技術による、音イベント検出パイプラインのための構成要素の1つの可能な配置例を示す概念的なブロック図である。
【0011】
図2図2は、本開示の1つ以上の技術による、音判別システムを実装するように構成されたコンピューティングシステムを示すブロック図である。
【0012】
図3図3は、本開示の1つ以上の技術による、埋め込み抽出装置の実装例の詳細を示す概念図である。
【0013】
図4図4は、本開示の1つ以上の技術による、ネットワーク環境において互いに通信する、複数の電子システム及びデバイスのブロック図である。
【0014】
図5図5は、本開示の音響イベント検出システムの動作の一例を示すフロー図である。
【発明を実施するための形態】
【0015】
概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するための技術を実装できるコンピューティングシステムを記述している。幾つかの例では、コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の例のみを提供することによって、新しいクラスを加えることができる。コンピューティングシステムは少なくとも2つの構成要素を備え得る。第1の構成要素である埋め込み抽出装置は、非言語オーディオ空間の世界知識(world knowledge)の表現を作り出すことができ、その表現は、非言語現象を他の非言語現象から区別するように構成されている。第2の構成要素であるクラス分類装置は、非言語音の表現を含むこれらの埋め込み表現を受け取り、非言語音を互いに対して判別することができる。このクラス分類装置は、例えばすべての非言語音のクラスについて訓練されるのではなく、ユーザが判別及び識別したい特定の非言語音のクラスに集中するように訓練されることができる。
【0016】
クラス分類装置は、埋め込み抽出装置に含まれている世界知識を再訓練する必要なくして、ユーザが識別したい場合がある非言語音の新しいクラスを加える入力を受け取るように、さらに構成されている。換言すれば、このクラス分類装置は、限定された数の新しいクラスの例を用いて、例えば単一の例のみを用いて、音の新しいクラスを登録し、その新しいクラスを用いて他の入力音を判別及び識別することができる。このクラス分類装置は、埋め込み抽出装置によって生成された埋め込み表現によって提供された広範な世界知識による少数の例のみに基づいて機能することができる。デベロッパが新しいクラスを登録し、コンピューティングシステムがそれらに基づいて機能し、かつこれらをコンピューティングシステムに対する更新として展開する、という場合がある。また、コンピューティングシステムのエンドユーザが、新しいクラスをシステムに登録することもできる。
【0017】
コンピューティングシステムは、ユーザがオーディオ録音の中から様々な所望の音のクラスを検出することを可能にすることができる。また、コンピューティングシステムは、埋め込み抽出装置中の広範なデータの集積を処理して興味のある音響イベントを含む録音のみを見出し、大量の人間の時間及び努力を節約することもできる。
【0018】
言語現象を検出することに比べると、言語ドメインは、一般的な非言語オーディオドメインよりも非常に限定されている。言語部分は、限定された周波数レンジ、識別可能パターンを有しており、かつ、単語、単語の一部、イントネーション、及び他の特徴を含んでいる。しかしながら、自動化された言語認識システムにおける表現は、例えば銃声、鳥のさえずり、天気によってもたらされた音等の広範な非言語音については適切ではない場合がある。幾つかの例では、本開示のクラス分類装置は、そのクラス分類装置が非言語イベントを感知する限りにおいては、言語ベースの表現を用いて幾つかの非言語音を識別することも依然として可能である。しかしながら、本開示の埋め込み抽出装置によって出力された表現は、より多様でありかつより大きい場合があり、例えば人間の会話の話者を識別するために訓練された埋め込み抽出装置からの埋め込み表現と比較して、非常に多くの数の次元を有し得る。
【0019】
図1Aは、本開示の1つ以上の技術による、音検出パイプラインのための構成要素の1つの可能な配置例を示すブロック図である。図1Aの例においては、システム100は、入力デバイス102、埋め込み抽出装置106、バックエンドクラス分類装置108、ユーザインタフェース124、及び較正モジュール110を備えている。システム100の音検出パイプラインは、入力音を受け取り、例えば入力オーディオ波形116を入力デバイス102で受け取り、かつ入力音のスコア112を出力し得る。スコア112は、受け取った入力オーディオ波形116が特定の音のクラスと同一であるか又は異なっているかを示唆し得る。スコア112は、数、テキスト、フラグ、又は、例えばバイナリクラス分類等のクラス分類を示唆する他の値であり得る。システム100の1つ以上の構成要素は、コンピューティングエンジンの処理回路によって実行される機械学習システムの一部であり得る。コンピューティングエンジンは、コンピューティングシステム200の単一のコンピューティングデバイス上で動作する場合もあれば、複数のコンピューティングデバイスに分散させられて動作する場合もある。
【0020】
入力デバイス102は、音を受け取り、その音を音の電子表現に変換するように構成された任意のデバイスであってよい。図1Aの例では、入力デバイス102は、入力オーディオ波形116を受け取りかつオーディオスペクトログラム104を出力することができる。幾つかの例では、入力デバイス102は、オーディオ波形を直接キャプチャしてオーディオスペクトログラム104を出力する回路に加え、1つ以上のマイクロフォン、カメラ、及び類似のデバイスを備え得る。他の例では、入力デバイス102は、ストレージ又はメモリデバイス等の周辺デバイス、USBポート又はネットワークインタフェース等のインタフェースデバイス、又はオーディオ波形116の表現を受け取りかつオーディオスペクトログラム104を出力するように構成された他のデバイス、を表し得る。幾つかの例では、録音は、メモリに格納され、ネットワーク上で入力デバイス102へと流されるか、又は入力デバイス102を介してシステム100によって得られる、アナログ又はデジタルフォーマットのオーディオ、ビデオ、データ、及び他の情報を含み得る。幾つかの例では、入力オーディオ波形116及びオーディオスペクトログラム104は、実質的に類似又は同一である。
【0021】
埋め込み抽出装置106は、例えば幾つかの例ではオーディオスペクトログラム104に変換されている、入力オーディオ波形116を受け取り、入力オーディオ波形116の埋め込み表現114を出力することができる。埋め込み抽出装置106は、幾つかの例においては非言語音を含んでいる複数の音を含むオーディオ空間を用いて訓練され得る。非言語音は、自然において生成された音を、例えば雪崩、鳥のさえずり、渚の波音を含み得るのに加え、機械的に生成された音を、例えばモータ、時計、ベル、爆発によって生成された音を含み得るのであり、かつ類似の音も含み得る。
【0022】
本開示のシステム100は、より具体的には埋め込み抽出装置106は、埋め込み表現を生成するように訓練され、その後異なるデータのセットのために1つ以上の他の埋め込み表現を作り出すように利用される、ディープニューラルネットワーク(DNN)モデルを含み得る。スピーカー埋め込み表現は、話者からのオーディオサンプルの、高度に判別的で小さな次元の表現である。より一般的には、埋め込み表現は、オーディオサンプルの、高度に判別的で小さな次元の表現である。埋め込み抽出は、あるものの一部分を抽出するプロセスを指し、離散的な変数を連続的なベクトルとして表現するために学習される技術として記述される場合もある。埋め込み抽出装置は、典型的には、音のクラスの中で、例えば話者、言語、電話等の判別を行うように訓練された、ニューラルネットワークである。本開示のシステムのために、埋め込み抽出は、例えばオーディオスペクトログラム104から、本開示の処理回路が分析及び関連マッピングを実施し得るベクトルへと、音をマッピングすることを含み得る。埋め込み抽出は、2つの別個の音が互いに類似であるか又は異なっているものとしてカテゴライズされ得るようなやり方で、高次元データをベクトル形式の低次元データに変換するプロセスを含み得る。入力オーディオ波形116の埋め込み表現114は、幾つかの例においてはベクトルであり得る。幾つかの例では、入力オーディオ波形116の埋め込み表現114は、音のオーディオ空間において特定の非言語音を他の非言語音から区別するためのデータを含み得る。
【0023】
バックエンドクラス分類装置108は、入力オーディオ波形116の埋め込み表現114を受け取り得る。上記されたように、埋め込み表現114は、埋め込み抽出装置106に訓練されたオーディオ空間の世界知識に基づいて生成され得る。バックエンドクラス分類装置108は、複数の音のクラスの間での判別を行うように構成されている。幾つかの例では、バックエンドクラス分類装置108は、確率的線形判別分析(PLDA)を用いて実装され得る。バックエンドクラス分類装置108を実行する処理回路は、線形判別分析(LDA)を用いて埋め込み表現114内の高次元特徴量を低次元の空間にマッピングし、PLDAを用いたクラス分類を実行することができる。幾つかの例では、上記のPLDA実装は、例えばバイナリ選択等の2つのみの異なるクラスを判断するように訓練され得る。その2つのクラスは、「同じ」又は「異なっている」であり得る。このようにすると、バックエンドクラス分類装置108は、入力オーディオ波形114のための埋め込み表現114を受け取り、入力オーディオ波形114が、バックエンドクラス分類装置108が訓練された1つ以上の表現と「同じ」であるとクラス分類されるか又はそれとは「異なっている」とクラス分類されるかのいずれであり得るかを、判断することができる。
【0024】
システム100の動作を説明するための一例として、システム100は、入力デバイス102を介して、入力オーディオ波形116を受け取ることができる。バックエンドクラス分類装置108は、猫の音の表現に基づいて訓練され得る、より具体的には、例えば猫が喧嘩をしている、満足している(喉をゴロゴロ鳴らしている)、空腹である、などの特定の条件下の猫の音の表現に基づいて、又は他の特定の猫の音の表現に基づいて、訓練され得る。埋め込み抽出装置106から生成された埋め込み表現114を処理することにより、バックエンドクラス分類装置108は、システム100のパイプラインを用いて処理された、受け取った新しいオーディオ波形116が、それらの猫の音のクラスと、一般的には、システム100が訓練された猫の音のクラスと(又は、他の使用例においては、他のクラスと)、同じであるか又は異なっている可能性を、計算することができる。幾つかの例では、バックエンドクラス分類装置108は、さらに、受け取ったオーディオが、例えば喉をゴロゴロ鳴らしているなどの、上記の特定の条件下における猫の音と同じであるか又は異なっている可能性を、計算することができる。幾つかの例では、バックエンドクラス分類装置108は、少数の猫の音の例を用いて訓練されることができ、その例は、たった1つのみの例であってもよい。
【0025】
図1のシステム100が有用であり得る他の適用例は、以下のようなバードウォッチャーを含み得る、即ち、森林中を歩き、そのバードウォッチャーによってそれまで聞かれたことがない新しい鳥のさえずりを耳にする、バードウォッチャーを含み得る。そのバードウォッチャーが、そのさえずりを生み出す鳥の種類を知りたい場合がある。このことは、その音を録音して検出装置を作り出すことによって、例えばバックエンドクラス分類装置108を音の新しいクラスを用いて訓練することによって、達成され得る。幾つかの例では、この検出装置は、その後で、新規な鳥のさえずりを、鳥の種類によってラベリングされた鳥のさえずりのカタログに合わせるように用いられ得る。追加的には、バードウォッチャーは、新しい鳥のさえずり検出器ソフトウェアを森林中に残されるオーディオ録音デバイスにアップロードし、その鳥のさえずりの将来的な発生を検出し、将来的な研究のために日付、時刻、気温、及び他のパラメタを記録することができる。
【0026】
他の適用例は、機械リペア技術者が、故障可能性のあるモータを分析する状況である。該モータは、動作中、例えばランダムな間隔で何らかの異音を発生し得る。技術者は、これらの音の将来的な発生を検出し、その音の発生を、他の例における他の測定可能パラメタ(荷重、温度、1分あたりの回転数等)に合わせ、これらのランダムな音がカタストロフィックな故障の発生可能性の示唆であり得るか否かを判断する。その故障を防止することにより、高くつくダウンタイム及び高額であり得る修理費用が防がれ得る。
【0027】
このように、特定の音が何らかのイベントについての重要な情報を含有しているか否かを判断することは、現実世界の適用について所望であり得る。従って、同じ音の過去における発生又は将来的な発生をその場で短いサンプル時間で記録し、検出装置を作り出すことができる、システム100等のシステムを有することは、有用であり得る。本開示のシステム100とは対照的に、オーディオ検出装置の幾つかの他の例は、限定された数の音響クラスの検出を実施するのみである場合もある。また、これらの他の例は、音の新しいクラスをユーザが登録できるようにするものでもなければ、既存の音のクラスをユーザが更新できるようにするものでもない。本開示で記述されている現在のシステム及び方法は、何らかの既存の音イベントの、例えば銃声、音楽、移動車両、背景ノイズ、動物等の音イベントの検出を含み得る。加えて、本開示のシステムは、既存の音のクラスの検出装置を新しいオーディオサンプルで更新することに加えて、オーディオ例を提供することによって音の新しいクラスを検出する能力も含み得る。
【0028】
システム100の較正モジュール110(「較正部110」として図示されている)は、音の比較のために使用されるスコアを出力するように構成されている。較正モジュール110は、解釈可能なスコアを提供するスコア較正部を含み得る。幾つかの例では、較正モジュール110は、音検出スコアで訓練されたロジスティック回帰較正モジュールを実行し得る。
【0029】
システム100の態様は、音検出のためのEnd-to-Endシステムとして例示され主として記載されているが、話者識別、音検出、又は他の音分析システムに含まれるプラグインとして実装されてもよい。例えば、該プラグインは、埋め込み抽出装置106と、バックエンドクラス分類装置108と、音分析システムからオーディオスペクトログラム104を受け取りかつその音分析システムによって使用されるためのスコア112を出力する、較正モジュール110と、を含み得る。
【0030】
図2は、本開示の1つ以上の技術による、コンピューティングシステムを示すブロック図である。図2の例においては、コンピューティングエンジン230は、コンピューティングシステム200上の機械学習システム232を実行する。
【0031】
コンピューティングエンジン230は、機械学習システム232を実行するための処理回路220を含んでいる。処理回路220は、記録デバイス226に動作的に接続され得る。処理回路220は、幾つかの例においては、1つ以上のプロセッサを含み得る。処理回路220の例は、マイクロコントローラ(MCU)であって、プロセッサコア、メモリ、及びプログラマブルな入力/出力周辺機器を含む単一の集積回路上のコンピュータ等である、マイクロコントローラと、マイクロプロセッサであって、集積回路(IC)コントローラ、コントローラ、DSP(digital signal processor)、ASIC(application specific integrated circuit)、FPGA(field-programmable gate array)、SoC(system on chip)、又は等価であるディスクリートであるか又は統合型のロジック回路等にあるCPU(central processing unit)等であるマイクロプロセッサと、のうち1つ以上を含み得る。プロセッサは、集積回路であり得る、即ち集積された処理回路であり得る。そして、その集積された処理回路は、固定されたハードウェアの処理回路として、プログラマブル処理回路として、かつ/又は固定されておりかつプログラマブルであるという両方である処理回路の組み合わせとして、具現化され得る。従って、本明細書で用いられる「処理回路」「プロセッサ」又は「コントローラ」という語は、上記の構造又は本明細書に記載の技術を実施するために動作可能である他の任意の構造のうち1つ以上を指してもよい。処理回路220は、コンピュータネットワークによって相互接続される1つ以上のコンピューティングデバイスに分散させられ、コンピューティングシステム200の構成要素を、例えば埋め込み抽出装置206、クラス分類装置208、較正部210、及びユーザインタフェース224等を、実行する場合がある。
【0032】
記録デバイス226の例は、メモリデバイス又は任意のタイプのコンピュータ可読記録媒体を含み得る。記録デバイス226は、RAM(random access memory)、ROM(read only memory)、PROM(programmable read only memory)、EPROM(erasable programmable read only memory)、OTP(one-time programmable)メモリ、EEPROM(electronically erasable programmable read only memory)、フラッシュメモリ、又は他のタイプの揮発性又は不揮発性のメモリデバイス、のうち1つ以上を備え得る。幾つかの例では、該コンピュータ可読記録媒体は、処理回路に本明細書に記載の機能を実行させるための命令を格納し得る。幾つかの例では、コンピュータ可読記録媒体は、データを、例えば構成情報、一次的な値、及び本開示の機能を実施するために用いられる他のタイプのデータを、備え得る。
【0033】
機械学習システム232は、埋め込み抽出装置206、クラス分類装置208、及び較正モジュール210を備えている。埋め込み抽出装置206、クラス分類装置208、及び較正モジュール210は、図1に関連して上記された埋め込み抽出装置106、バックエンドクラス分類装置108、及び較正モジュール110を例示する例を示し、かつ同一又は類似の特徴及び機能を有し得る。例えば、埋め込み抽出装置206は、非言語音を含む音の世界知識を含むオーディオ空間を用いて訓練され得る。埋め込み抽出装置206は、入力デバイス202を介して入力オーディオ波形216を受け取り、かつ入力オーディオ波形216の埋め込み表現214をクラス分類装置208に向けて出力することができる。幾つかの例では、埋め込み抽出装置206は、オーディオ空間を用いて入力オーディオ波形216を処理して、入力オーディオ波形216のための埋め込み表現214内に高次元特徴量を生成するように訓練された、ディープニューラルネットワークを備えている。
【0034】
クラス分類装置208は、埋め込み抽出装置206から入力オーディオ波形216の埋め込み表現214を受け取るように構成されている。幾つかの例においては、クラス分類装置208は、入力オーディオ波形216のベクトル表現であり得る埋め込み表現214を、非言語音のクラスと比較することができる。この比較に応じて、クラス分類装置208は、図1に関連して上記されたように、入力オーディオ波形216が選択された非言語音のクラスと同じであるか又は異なっているかを示唆する、入力オーディオ波形216のスコア212を決定することができる。幾つかの例では、較正モジュール210は、音検出スコアに基づいて訓練されたロジスティック回帰較正モジュール等のプログラミング命令を備え得る。幾つかの例では、スコア212を決定することは、1つ以上のクラス分類操作(クラス分類)を実施することを含み得る。
【0035】
コンピューティングエンジン230は、1つ以上の出力デバイス228を介して、スコア212と、他のデータ又は情報とを出力し得る。出力デバイス228は、以下のうち1つ以上を含み得る、即ち、音を出力するように構成されたオーディオデバイスと、グラフィックス、テキスト及び類似の情報をユーザに提示するように構成されたディスプレイと、例えばネットワーク中の他のデバイスに対して、例えばハンドヘルド型コンピューティングデバイス、リモートディスプレイ又はオーディオデバイス、及び他のコンピューティングデバイスに対して出力を送信するように構成された通信回路と、のうち1つ以上を含み得る。
【0036】
本開示の機械学習部232は、他のタイプのオーディオクラス分類機械学習システムに対して有利な点を提供し得る。例えば、クラス分類装置は、埋め込み抽出装置206に包含される世界知識を再訓練する必要なくして、例えばユーザインタフェース224を介してクラス分類データ225を、かつ、ユーザが識別したい場合がある非言語音の新しいクラスを追加する入力オーディオ波形216を、受け取るように、さらに構成され得る。クラス分類装置208は、幾つかの例では単一の例であり得る限定された数の新しいクラスの例のみを用いて、音の新しいクラスを登録し、その新しいクラスを用いて他の入力音を判別及び識別することができる。
【0037】
新しいクラスを追加する1つの実装例においては、ユーザは、まず、例えばユーザインタフェース224を介して、新しい入力オーディオ波形216が新しいクラスであると識別し得る。この新しい入力オーディオ波形216は、上で図1に関連して記述されたように、埋め込み抽出装置206のDNNによって処理される。コンピューティングシステム200は、DNNから高次元特徴量を抽出し、それをLDA空間を通じるよう投射して、抽出される埋め込み表現の次元を減少させることができる。事前訓練されたPLDAクラス分類装置は、例えばクラス分類装置208は、それらの抽出された埋め込み表現を音響モデル部分空間及びチャネル空間にモデル化及び分解し得る。新しいクラスのための最終的なモデルは、PLDA音響モデル部分空間中に投射されるこの埋め込み表現である。
【0038】
幾つかの例では、埋め込み抽出装置206は、マイクロフォン又は類似のデバイスを介して新しいオーディオ波形を受け取る場合もあれば、又は、その新しいオーディオ波形が、図1に関連して入力デバイス102について上記されたような、オーディオスペクトログラム等の録音又はデータである場合もある。クラス分類装置208はまた、第2の入力オーディオ波形が非言語音の新しいクラスの例であるという示唆を含み得るユーザ入力も受け取り得る。幾つかの例では、このユーザ入力は、非言語音の新しいクラスのためのラベルも含み得る。
【0039】
クラス分類装置208は、入力デバイス202を介して受け取られる後続の入力オーディオ波形の埋め込み表現214を、非言語音の新しいクラスと比較するように、構成され得る。そして、クラス分類装置208は、後続の波形が新しいクラスと同じであるか又は異なっているかのいずれであるかを示唆するための、後続の波形の各々についてのスコア212を出力し得る。幾つかの例では、較正モジュール210は、図1に関連して上記されたように、解釈可能なスコアを提供するためにスコア較正を行い得る。解釈可能なスコアの一例としては、システムがあるイベントについて0.8のスコアを提供した場合には、そのイベントは80%の確率で起こるはずである。
【0040】
本開示の機械学習システム232の有利な点は、埋め込み抽出装置206のためのオーディオ空間の世界知識を再訓練する必要なくして、新しいクラスが追加されることができる、とい点である。換言すれば、埋め込み抽出装置206は、非言語音の新しいクラスを追加した結果として変化させられることはない。埋め込み抽出装置206を訓練することは、多大な時間(例:数週間又は数ヶ月)にわたる多大な計算リソースを使用する場合があるので、新しいクラスを追加すること、及び受け取った音をその新しいクラスに対して判別する能力を追加することは、他の音イベント検出パイプラインの例と比較して有用であり得る。幾つかの例では、機械学習システム232のデベロッパ又は管理者が、新しいクラスを追加する場合がある。他の例では、機械学習システム232のエンドユーザが、上記されたように、例えば例示的なオーディオ波形及びその例の識別を、ユーザインタフェースを介して追加することにより、新しいクラスを追加する場合がある。
【0041】
図3は、本開示の1つ以上の技術による、埋め込み表現を計算するための例示的なニューラルネットワークの構造を示す概念図である。埋め込み抽出装置300が、埋め込み抽出装置106又は206を例示する一例を示し得る。入力音の表現は、オーディオサンプルで事前訓練された深層学習ネットワークから推定された音の埋め込み表現を含み得る。埋め込み表現314は、図3の例においては、128次元ベクトルである。入力特徴量は、メルフィルタバンク340によって生成された64logメルフィルタバンク(64 log Mel filer bank)であり得る。幾つかの例では、該特徴量は、オーディオスペクトログラム344の1秒の窓を用いて計算され得る。
【0042】
埋め込み抽出装置300のニューラルネットワークアーキテクチャの構成要素は、機械学習システム232等の機械学習システムによって実行される1つ以上のNN層を含み得る。この例における該構成要素は、畳み込み(CONV)64層ブロック321、CONV128ブロック322、CONV256ブロック324、CONV512ブロック326、CONV512ブロック328、及び、別個のプーリング層346、を含んでいる。CONV128ブロック322、CONV256ブロック324、CONV512ブロック326、及びCONV512ブロック328は、それぞれの入力プーリング層に関連付けられている。64、128、256、及び512という数字は、入力特徴量の次元を指している。
【0043】
幾つかの例では、メルフィルタバンク340は、入力されたオーディオスペクトログラム344を受け取る処理を行い、その入力信号を高域強調(pre-emphasis)フィルタに通過させ得る。フィルタリングされた信号は、(重なり合う)フレームにスライスされ、各フレームに窓関数が適用され得る。メルフィルタバンク340は、各フレームにフーリエ変換を、例えば短時間フーリエ変換(STFT又はSFT)を実行し、パワースペクトルを各フレームについて計算し、その後フィルタバンクを計算するということができる。幾つかの例では、メルフィルタバンク340の最終ステップは、平均正規化を含み得る。
【0044】
幾つかの例では、高域強調フィルタは、より低い周波数に比べて振幅が小さい高周波数を補正するように、周波数スペクトルをバランスさせる。高域強調フィルタはまた、例えば入力信号344の信号対雑音比(signal-to-noise ratio、SNR)を改善するための他の機能も実行し得る。他の例では、この高域強調フィルタの機能は、平均正規化のステップの代わりに省略され得る。
【0045】
信号を短いフレームに分割することにより、入力信号の周波数輪郭を経時的に保持することができる。フーリエ変換をこの短時間フレームで実行することにより、隣接するフレームを連結する際に信号の周波数輪郭の近似を提供することができる。幾つかの例では、メルフィルタバンク340はまた、ハミング窓等の窓関数をフレームに適用することもできる。幾つかの例では、フレームのサイズは、例えば5~60ms等のミリ秒(ms)のオーダーであり得るが、他の例では、そのフレームのサイズが約1秒である場合もある。重なりは、幾つかの例ではフレームサイズの約半分である場合があり、他の例ではより大きいか又はより小さい重なりである場合もある。
【0046】
フィルタバンクを計算することは、三角フィルタ等のフィルタをフーリエ変換から出力されたパワースペクトルに適用し、周波数バンドを抽出することを含み得る。メル尺度は、低い周波数ほどより判別性が高くかつ高い周波数ほどより判別性が低いことにより、非線形である人間の耳の音の知覚を概ね模倣している。
【0047】
図3の例におけるネットワーク構造はまた、CONV256ブロック324、CONV512ブロック326、及びCONV512ブロック328も備えており、埋め込み表現314は、完全に接続された(FC)層330による処理の後で出力される。しかしながら、図3は、本開示の埋め込み抽出の実装の一例を示しているにすぎない。他の例では、埋め込み抽出装置は、その配置よりも多い構成要素、少ない構成要素、又は異なる構成要素を含み得る。例えば、FC層330から出力された埋め込み表現314は、幾つかの例では、128ビットベクトルを備えている場合がある。
【0048】
人間の知覚的な聞き取りに基づいてオーディオスペクトルを調節する、メルフィルタバンク340による入力オーディオスペクトログラム344の第1の表現の後で、埋め込み抽出装置300のDNN構成要素は、特徴ベクトルのどれが非言語オーディオイベントを分離させるために重要であるかを判断することができる。換言すれば、DNNは、例えばCONV128ブロック322で、非言語オーディオイベントを分離させるために有用な情報を含む特徴量を作り出すことができる。図1に関連して上記されたように、埋め込み抽出装置300は、世界知識を、例えば非言語オーディオ空間の知識を発展させるために、非常に大きなオーディオサンプルのセットで訓練され、表現中に格納されたどの特徴量がオーディオイベントを互いに区別することができるかを判断するようになり得る。バックエンドクラス分類装置に、例えば図1のバックエンドクラス分類装置108に提供されたこれらの埋め込み表現314は、バックエンドクラス分類装置108が、オーディオ情報が他のオーディオ情報と異なっているときを判断することができるようにする。
【0049】
音を互いに区別するように含まれかつ用いられ得る特徴量/現象の幾つかの例は、周波数、経時的な周波数パターン、ラウドネス、音のシャープネス、例えばサイレン又はクジラの鳴き声と比較した銃声又はドアの閉まる音、音の長さ、音色、離散性、構造、減衰時間、及び類似の特徴量、を含み得る。ニューラルネットワークは、各フレームにおける、例えば10msフレームにおける音エネルギーを分析し、各ステップのプーリング層がそれらのフレームを組み合わせて、経時的な変化を、例えば約1秒といった長い時間に及ぶ上記の減衰及びパターンを判断することができる。
【0050】
図3の例は、1つ以上の完全に接続された層、FC層330を含んでいる。FC層330は、ネットワークの最後の数層を形成するニューラルネットワークに向けた供給として実装され得る。FC層330に対する入力は、最終的なプーリング又は畳み込み層346からの出力を含み得るのであり、それは平坦化され、ひいてはFC層330に供給される。幾つかの例では、FC層330は、以前の層によって抽出されたデータをコンパイルして、最終的な出力を、例えば埋め込み表現314を形成することができる。埋め込み表現314は、入力の非線形変換として、例えば図1のオーディオスペクトログラム104の異なる非言語音に含まれる世界知識としても記述され得るのであり、そこでは、埋め込み抽出装置300のDNNは、音のクラスを判別するように訓練され得る。出力即ち埋め込み表現314は、非言語オーディオの空間における異なる音の間での判別を容易化する豊かな情報を備え得る。埋め込み表現314は、より単純なバックエンドクラス分類装置のための特徴ベクトルになる。
【0051】
このようにすると、本開示のシステムは、例えば受け取った言語のMFCC(Mel-frequency cepstral coefficient)表現から直接出発して言語のクラス分類に至り得る、言語認識のためのサポートベクターマシン(SVM)技術等の幾つかのモデルとは対照的である。言語認識においては、オーディオ情報がより小さな大きさであり、クラス分類のために必要な特徴量が少なく、本開示のシステムによって使用されるようなこの世界知識のステップを使用しない場合がある。上記のモデルは、特定の特徴量を検出し、かつ特定の現象をクラス分類するように、訓練されている。代わりに、本開示のシステムは、この大きく無定形の非言語オーディオからの世界知識を、バックエンドクラス分類装置によって使用され得る埋め込み表現へとさらに選び出す。その埋め込み抽出装置も、本開示のシステムのためのクラス識別装置ではない。
【0052】
入力を受け取って特徴量の識別を実施するオートエンコーダにおいては、内部表現、入力特徴量を有することができ、かつその出力は、入力を予測し、例えばどのようにその入力を再現するのが最もよいかを予測するものである。オートエンコーダはラベルなしで訓練されるので、オートエンコーダはラベルを用いないが、本開示のシステムは、オートエンコーダとは対照的に、クラスのためのラベルを備え得るのであって、これにより、あるオーディオイベントが他のイベントと同じか又は異なっているかのいずれであるかを、事前決定された誤り率で判断することができるモデルを、提供することができる。
【0053】
埋め込み抽出装置300は、音響イベントの予測のために、大きな量の音響イベントに基づいて訓練され得る。訓練を受けると、埋め込み抽出装置300は、任意の音響イベント(訓練用データ又は初見のデータの一部)を高次元空間内にマッピングする。しかしながら、図1及び2に関連して上記されたように、新しいクラスの追加は、大きな努力を必要とし得る。また、訓練されたクラスのほとんどが特定のタスクに関連していないという場合には、完全なモデルを再訓練することは、時間の浪費であり、リソースの浪費である。しかしながら、オーディオデータの内部表現は、モデルがまだ訓練されていないパターン(音)を判別するために、モデルを普遍化(generalize)する。ここで、埋め込み抽出装置300が埋め込み表現314を本開示のバックエンドクラス分類装置に提供したときには、バックエンドクラス分類装置がほんの数例の訓練を受けたのみであるとしても、該バックエンドクラス分類装置は、埋め込み抽出装置300が訓練を受けていない新しいクラスを、低いエラー率で識別することができる。バックエンドクラス分類装置は、新しい音の表現を、例えば埋め込み抽出装置300からの埋め込み表現314等の音の表現と比較することができる。このように、本開示のシステムは、埋め込み抽出装置300を再訓練する必要なくして、音の新しいクラスを区別することができる。
【0054】
加えて、埋め込み表現314は、次元を減少させられたベクトルであって、そのベクトルの次元は非言語音を互いに区別することに集中させられたものである、ベクトルを備え得るので、本開示のバックエンドクラス分類装置は、より大きな数の次元の表現との比較を実施するときと比べて、減少させられた計算リソースを用いた比較を実施することができる。
【0055】
図4は、本開示の1つ以上の技術による、ネットワーク環境内で互いに通信する複数の電子システム及びデバイスのブロック図である。オーディオクラス分類システムの構成要素は、例えば図1のシステム100、図3の埋め込み抽出装置、及び図2に記載のコンピューティングシステム200の構成要素は、分散されたネットワーク環境内で動作し得る。
【0056】
このネットワーク環境は、サーバコンピューティングシステム304A~304B、及び少なくとも1つのクライアントコンピューティングシステム302A~302Gを接続する、通信ネットワーク320を有している。図示されているように、サーバコンピューティングシステム304A~304Bが複数存在し得るのであり、かつネットワーク320を介して互いに接続された、クライアントコンピューティングシステム302A~302Gが複数存在し得る。ネットワーク320の例は、光学ネットワーク、セルラーネットワーク、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)、サテライトリンク、ファイバーネットワーク、ケーブルネットワーク、又は、これらの組み合わせ及び/又は他のもの、のうち1つ以上であり得るのであり、又はそれらのうち1つ以上を含み得る。サーバコンピューティングシステム304A~304Bは、各々、ネットワーク320を横切って、他のサーバコンピューティングシステム304A~304B、及びクライアントコンピューティングシステム302A~302Gと通信するための、回路及びソフトウェアを有し得る。サーバコンピューティングシステム304A~304Bは、各々、1つ以上のデータベース306A~306Bに関連付けられ得るのであり、かつ、例えば図2の記録デバイス226のように、情報を格納するように構成され得る。サーバ304A~304Bは、各々、物理的サーバを走る仮想サーバの1つ以上のインスタンスを有し得るのであり、かつ、その設計によって複数の仮想インスタンスが実装され得る。ファイアウォールは、クライアントコンピューティングシステムと、例えば302Dと、ネットワーク320の間に、クライアントコンピューティングシステム302D上のデータ統合性を守るために、確立され得る。1つ以上のサーバ304A~304B上の処理回路は、コンピューティングエンジン230の構成要素を実行し、図1~3に関連して上記された機能を実施することができる。
【0057】
クラウドプロバイダーサービスは、アプリケーションソフトウェアをクラウド中にインストールして動作させることができ、ユーザはクライアントデバイスからソフトウェアサービスにアクセスすることができる。クラウド内にサイトを有するクラウドユーザは、単にそのアプリケーションが走るクラウドインフラストラクチャー及びプラットフォームを管理するのみではない場合がある。即ち、サーバ及びデータベースは、ユーザがこれらのリソースの一定量の専用使用を与えられる、共有ハードウェアであり得る。ユーザのクラウドベースのサイトは、クラウド中に仮想量の専用空間及びバンド幅を与えられている。クラウドの適用例は、スケーラビリティの点で他の適用例とは異なり得るのであり、このスケーラビリティは、変化する作業需要に対応するため、ランタイム中に複数の仮想マシン上にタスクをクローンすることによって達成され得る。負荷バランサーが、仮想マシンのセットに作業を分散させる。このプロセスは、単一のアクセスポイントのみを閲覧するクラウドユーザに対して透明なものである。
【0058】
クラウドベースのリモートアクセスは、HTTP等のプロトコルを利用して、クライアントデバイス302A~302Gに存在するモバイルデバイスアプリケーション及びクライアントデバイス302A~302Gに存在するウェブブラウザアプリケーションの両方と、リクエストとレスポンスのサイクルを行うように、コーディングされている。幾つかの状況では、ウェアラブル電子デバイス302C用のクラウドベースのリモートアクセスは、その電子デバイス302Cと協働するモバイルデバイス、デスクトップ、タブレットデバイスを介して、アクセスされ得る。クライアントデバイス302A、302Gとクラウドベースのプロバイダーサイト304Aの間の、クラウドベースのリモートアクセスは、以下のうち1つ以上で行うようにコーディングされている、即ち、(1)すべてのウェブブラウザベースのアプリケーションからのリクエストとレスポンスのサイクル、(2)SMS/twitterベースのリクエストとレスポンスのメッセージ交換、(3)専用のオンラインサーバからのリクエストとレスポンスのサイクル、(4)クライアントデバイス上のネイティブなモバイルアプリケーションとウェアラブル電子デバイスに対するクラウドベースのリモートアクセスの間の直接のリクエストとレスポンスのサイクル、及び(5)これらの組み合わせ、のうち1つ以上で行うようにコーディングされている。
【0059】
一実施形態では、サーバコンピューティングシステム304Aは、サーバエンジン、ウェブページ管理要素又はオンラインサービス又はオンラインアプリケーション要素、コンテンツ管理要素、及びデータベース管理要素、を備え得る。上記サーバエンジンは、基礎的な処理及び操作システムレベルのタスクを実行する。上記ウェブページ管理要素、オンラインサービス、又はオンラインアプリケーション要素は、デジタルコンテンツ及びデジタル広告の受信及び提供に関連付けられたウェブページ又はスクリーンの作成及び表示、又はルーティングを処理することができる。ユーザは、それに関連付けられたURLによってサーバコンピューティングシステムにアクセスすることができる。コンテンツ管理要素は、本明細書に記載の実施形態中の機能のほとんどを処理する。データベース管理要素は、データベースに関連するタスクの記録及び検索、データベースに対するクエリ、及びデータの記録を含む。
【0060】
図5は、本開示の音響イベント検出システムの動作の一例を示すフロー図である。図1~3に関連して上記されたように、本開示の埋め込み抽出装置は、例えば図1の埋め込み抽出装置106は、入力デバイス102を介して、録音、データファイル、又はマイクロフォンを介した直接入力であり得る、入力オーディオ波形116を受け取り得る(500)。その埋め込み抽出装置は、言語音及び非言語音を包含する音を含み得る大きなオーディオ空間を用いて訓練され、図1及び3に示されたような入力オーディオ波形116の埋め込み表現114(又は314)を生成することができる(502)。
【0061】
埋め込み抽出装置は、入力オーディオ波形の表現を、例えばバックエンドクラス分類装置108等のクラス分類装置に出力することができる(504)。この入力オーディオ波形の埋め込み表現114は、特定の非言語音を他の非言語音から区別するための、例えばベクトルの形態であるデータを備え得る。
【0062】
クラス分類装置は、入力オーディオ波形の埋め込み表現を、例えばその表現を、埋め込み抽出装置から受け取ることができ(506)、そして、入力オーディオ波形の埋め込み表現を非言語音のクラスと比較することができる(508)。この比較に応じて、クラス分類装置は、入力オーディオ波形のためのスコアを決定することができる(510)。このスコアは、例えば図1及び2のスコア112及び212は、それぞれ入力オーディオ波形が上記非言語音のクラスと同じか又は異なっているかのいずれであるかを示唆することができる。クラス分類装置は、入力オーディオ波形のためのスコアを、例えばユーザインタフェース又は図2に関連して上記されたような他の出力デバイスを介して、出力することができる(512)。幾つかの例では、音響イベント検出システムを実行する本開示の機械学習システムは、さらに、オーディオ波形のスコアに対して較正を適用してもよい。
【0063】
1つ以上の例では、上記の機能は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせで実装され得る。例えば、図1~4の各種構成要素は、例えば埋め込み抽出装置106、機械学習システム232、フィルタバンク340、及び図3の畳み込みブロックは、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせで実装され得る。ソフトウェアに実装される場合、その機能は、1つ以上の命令又はコードとして、コンピュータ可読記録媒体に格納されるか又はその上を送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記録媒体等の有形媒体に、又は、例えば通信プロトコルに従った、コンピュータプログラムのある場所から他の場所への伝達を容易化する媒体を含む通信媒体に、対応する、コンピュータ可読記録媒体を含み得る。このようにすると、コンピュータ可読媒体は、概して、(1)非一時的な有形コンピュータ可読記録媒体、又は(2)信号又は搬送波等の通信媒体、に対応し得る。データ記録媒体は、本開示に記載の技術の実装のための命令、コード及び/又はデータ構造を取り出すために、1つ以上のコンピュータ又は1つ以上のプロセッサによってアクセスされ得る、任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
【0064】
本開示に記載の技術は、少なくとも部分的には、ハードウェア又はハードウェアとソフトウェアの組み合わせ、ファームウェア、又はそれらの任意の組み合わせ、で実装され得る。例えば、記載された技術の各種態様は、1つ以上のマイクロプロセッサ、DSP、ASIC、FPGA、又は統合されているか又はディスクリートな他の任意の等価な論理回路、又はそのような構成要素の任意の組み合わせ、を含む1つ以上のプロセッサ内に実装され得る。例えば処理回路220に関連するような「プロセッサ」又は「処理回路」の語は、一般的には、前述の論理回路のうちいずれかを、それのみで、又は他の論理回路と組み合わせて、指す場合もあれば、又は他の任意の等価な回路を指す場合もある。ハードウェアを含む制御ユニットが、本開示の技術のうち1つ以上を実施する場合もある。
【0065】
このようなハードウェア、ソフトウェア、及びファームウェアは、本開示に記載の各種技術をサポートするために、同じデバイス内に実装されている場合もあれば、別個のデバイス内に実装されている場合もある。加えて、記載のユニット、モジュール又は構成要素のうちいずれかは、ディスクリートではあるが相互運用可能な論理デバイスとして一緒にか又は別個に実装され得る。モジュール又はユニットとしての異なる特徴の記述は、異なる機能的態様を強調することを意図されているのであり、このようなモジュール又はユニットが別個のハードウェア、ファームウェア、又はソフトウェア要素によって実現されなければならないことを必ずしも示唆するわけではない。むしろ、1つ以上のモジュール又はユニットに関連付けられた機能は、別個のハードウェア、ファームウェア、又はソフトウェア要素によって実行される場合もあれば、共通又は別個のハードウェア、ファームウェア、又はソフトウェア要素の内部に統合される場合もある。
【0066】
また、本開示に記載の技術は、命令をエンコードされたコンピュータ可読媒体を含む製造物品中で具現化又はエンコードされている場合もある。エンコードされたコンピュータ可読媒体を含む製造物品中に埋め込まれたか又はエンコードされた命令は、例えば、コンピュータ可読媒体に含まれているか又はエンコードされている命令が1つ以上のプロセッサによって実行されるときには、その1つ以上のプログラマブルなプロセッサ又は他のプロセッサに、本明細書に記載の技術のうちいずれかを実装することができる。コンピュータ可読記録媒体は、RAM、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、ハードディスク、CD-ROM(compact disc ROM)、フロッピーディスク、カセット、磁気媒体、光学媒体、又は他のコンピュータ可読媒体、を含み得る。幾つかの例では、製造物品は、1つ以上のコンピュータ可読媒体を含み得る。
【0067】
幾つかの例では、コンピュータ可読記録媒体は、非一時的な媒体を含み得る。「非一時的な」という語は、記録媒体が搬送波又は伝播信号内で具現化されていないことを示唆し得る。特定の例では、非一時的な記録媒体は、経時的に変化し得るデータを(例えば、RAM又はキャッシュに)格納し得る。
図1
図2
図3
図4
図5
【国際調査報告】