特表2025-504812 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エスアールアイ　インターナショナルの特許一覧

特表2025-504812音響イベント検出システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-02-19

(54)【発明の名称】音響イベント検出システム

(51)【国際特許分類】

G10L 25/51 20130101AFI20250212BHJP

G10L 25/30 20130101ALI20250212BHJP

【ＦＩ】

G10L25/51

G10L25/30

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024541807

(86)(22)【出願日】2022-12-16

(85)【翻訳文提出日】2024-09-11

(86)【国際出願番号】 US2022081786

(87)【国際公開番号】W WO2023140992

(87)【国際公開日】2023-07-27

(31)【優先権主張番号】63/301,439

(32)【優先日】2022-01-20

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＴＷＩＴＴＥＲ

(71)【出願人】

【識別番号】510119843

【氏名又は名称】エスアールアイインターナショナル

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100112357

【弁理士】

【氏名又は名称】廣瀬繁樹

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100153729

【弁理士】

【氏名又は名称】森本有一

(72)【発明者】

【氏名】マルティングラシアレナ

(72)【発明者】

【氏名】アーロンデニスローソン

(72)【発明者】

【氏名】エムディーハフィザーラーマン

(57)【要約】

概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するコンピューティングシステムを記載する。該コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の新しいクラスの例のみに基づいて新しいクラスを加えることも可能である。

【特許請求の範囲】

【請求項1】

システムであって、前記システムは、
機械学習システムを実行するための処理回路を含むコンピューティングエンジンを備えており、前記機械学習システムは、
入力オーディオ波形の埋め込み表現を生成するために複数の非言語音を含むオーディオ空間を用いて訓練された、埋め込み抽出装置と、
クラス分類装置であって、
前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定するように、かつ、
前記入力オーディオ波形の前記スコアを出力するように、構成された、クラス分類装置と、
を備えている、システム。

【請求項2】

前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク（ＤＮＮ）を備えている、請求項１に記載のシステム。

【請求項3】

前記機械学習システムは、前記コンピューティングエンジンによって実行される較正モジュールをさらに備えており、前記較正モジュールは、音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項１に記載のシステム。

【請求項4】

前記スコアを決定するために、前記クラス分類装置は、確率的線形判別分析（ＰＬＤＡ）を用いたクラス分類を実施するように構成されている、請求項１に記載のシステム。

【請求項5】

前記入力オーディオ波形は、第１の入力オーディオ波形であり、
前記機械学習システムは、
第２の入力オーディオ波形を受け取るように構成されており、かつ、
ユーザ入力を受け取るように構成されており、前記ユーザ入力は、
前記第２の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでおり、前記機械学習システムは、さらに、
前記埋め込み抽出装置によって前記第２の入力オーディオ波形を処理するように構成されており、前記第２の入力オーディオ波形を処理することは、高次元特徴量を備えている第２の抽出埋め込み表現をディープニューラルネットワーク（ＤＮＮ）から抽出し、かつ前記第２の抽出埋め込み表現の次元を減少させることと、を含んでおり、前記クラス分類装置は、
前記第２の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解するように、かつ、
前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第２の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成するように、構成された、訓練済クラス分類装置である、請求項１に記載のシステム。

【請求項6】

前記クラス分類装置は、後続の入力オーディオ波形の埋め込み表現を、非言語音の前記新しいクラスと比較するように構成されており、かつ、
前記埋め込み抽出装置は、非言語音の前記新しいクラスを追加した結果として変化させられることはない、請求項５に記載のシステム。

【請求項7】

方法であって、前記方法は、
機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、
前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、
前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、
を含む、方法。

【請求項8】

前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク（ＤＮＮ）を備えている、請求項７に記載の方法。

【請求項9】

前記方法は、前記機械学習システムの較正モジュールによって、前記クラス分類装置によって出力された前記スコアを較正することを、さらに含んでおり、前記較正モジュールは音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項７に記載の方法。

【請求項10】

前記スコアを決定することは、確率的線形判別分析（ＰＬＤＡ）を用いてクラス分類を実施することを含んでいる、請求項７に記載の方法。

【請求項11】

前記入力オーディオ波形は、第１の入力オーディオ波形であり、前記方法は、
前記機械学習システムによって、第２の入力オーディオ波形を受け取ることと、
前記機械学習システムによって、ユーザ入力を受け取ることであって、前記ユーザ入力は、
前記第２の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでいる、ユーザ入力を受け取ることと、
前記機械学習システムによって前記第２の入力オーディオ波形を処理することであって、前記第２の入力オーディオ波形を処理することは、高次元特徴量を備えている第２の抽出埋め込み表現をディープニューラルネットワーク（ＤＮＮ）から抽出することと、前記第２の抽出埋め込み表現の次元を減少させることと、を含んでいる、前記第２の入力オーディオ波形を処理することと、
前記機械学習システムによって、前記第２の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解することと、
前記機械学習システムによって、前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第２の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成することと、をさらに含んでいる、請求項７に記載の方法。

【請求項12】

前記方法は、前記クラス分類装置によって、後続の入力オーディオ波形の埋め込み表現を、非言語音の前記新しいクラスと比較することをさらに含んでおり、
前記埋め込み抽出装置は、非言語音の前記新しいクラスを追加した結果として変化させられることはない、請求項１１に記載の方法。

【請求項13】

命令を含む非一時的なコンピュータ可読記録媒体であって、前記命令は、実行されるときに、処理回路に、
機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、
前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、
前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、
を行わせる、非一時的なコンピュータ可読記録媒体。

【請求項14】

前記埋め込み抽出装置は、前記入力オーディオ波形を処理して前記入力オーディオ波形の高次元特徴量を生成するように、前記オーディオ空間を用いて訓練された、ディープニューラルネットワーク（ＤＮＮ）を備えている、請求項１３に記載の非一時的なコンピュータ可読記録媒体。

【請求項15】

前記命令は、前記機械学習システムの較正モジュールによって、前記クラス分類装置によって出力された前記スコアを較正することを、前記処理回路にさらに行わせるのであり、前記較正モジュールは音検出スコアに基づいて訓練されたロジスティック回帰較正モジュールである、請求項１３に記載の非一時的なコンピュータ可読記録媒体。

【請求項16】

前記スコアを決定することは、確率的線形判別分析（ＰＬＤＡ）を用いてクラス分類を実施することを含んでいる、請求項１３に記載の非一時的なコンピュータ可読記録媒体。

【請求項17】

前記入力オーディオ波形は、第１の入力オーディオ波形であり、かつ、前記命令は、前記処理回路に、
第２の入力オーディオ波形を受け取ることと、
ユーザ入力を受け取ることであって、前記ユーザ入力は、
前記第２の入力オーディオ波形が非言語音の新しいクラスの一例であるという示唆と、
非言語音の前記新しいクラスのためのラベルと、を含んでいる、ユーザ入力を受け取ることと、
前記第２の入力オーディオ波形を処理することであって、前記第２の入力オーディオ波形を処理することは、高次元特徴量を備えている第２の抽出埋め込み表現をディープニューラルネットワーク（ＤＮＮ）から抽出し、かつ前記第２の抽出埋め込み表現の次元を減少させることと、を含んでいる、前記第２の入力オーディオ波形を処理することと、
前記第２の抽出埋め込み表現を音響モデル部分空間及びチャネル部分空間に分解することと、
前記埋め込み抽出装置を再訓練することなく、前記音響モデル部分空間中に投射された前記第２の抽出埋め込み表現の前記高次元特徴量を含む前記新しいクラスの最終的なモデルを生成することと、
をさらに行わせる、請求項１３に記載の非一時的なコンピュータ可読記録媒体。

【請求項18】

前記クラス分類装置は、訓練済のＰＬＤＡクラス分類装置である、請求項１７に記載の非一時的なコンピュータ可読記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２２年１月２０日に出願された、米国仮特許出願第６３／３０１４３９号の利益を主張する。該出願の内容全体が参照により本明細書に組み込まれる。

【0002】

本開示は、オーディオ情報の自動的なクラス分類及び識別に関する。

【0003】

（政府の権益）
本発明は、ＩＷＴＳＤ（ＩｒｒｅｇｕｌａｒＷａｒｆａｒｅＴｅｃｈｎｉｃａｌＳｕｐｐｏｒｔＤｉｒｅｃｔｏｒａｔｅ）によって与えられた、契約番号第Ｎ４１７５６２０Ｃ３０５７号の政府支援を受けて行われた。米国政府は、本発明に特定の権利を有する。

【背景技術】

【0004】

オーディオデータは、言語（ｓｐｅｅｃｈ）を含む人間の発声を含み得る。また、オーディオデータは、非言語（ｎｏｎ－ｓｐｅｅｃｈ）音を含む場合もあり、非言語音には、人間の非言語発声であって、ハミング、泣き声、ヨーデル（ｙｏｄｅｌ）、及び類似の発声等が含まれる。非言語オーディオデータの他の例は、クジラや他の海洋生物等からの発声等である人間以外の発声と、例えば流水音、気象音、及び他の自然からの音である広範な他の非言語オーディオと、機械的に生成された音と、を含み得る。

【発明の概要】

【0005】

概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するための技術を実装できるコンピューティングシステムを記述している。該コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の新しいクラスの例に基づいて、新しいクラスを加えることができる。

【0006】

１つの実施例では、本開示は、システムであって、前記システムは、機械学習システムを実行するための処理回路を含むコンピューティングエンジンを備えており、前記機械学習システムは、入力オーディオ波形の埋め込み表現を生成するために複数の非言語音を含むオーディオ空間を用いて訓練された、埋め込み抽出装置と、クラス分類装置であって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定するように、かつ、前記入力オーディオ波形の前記スコアを出力するように、構成された、クラス分類装置と、を備えている、システムを記載する。

【0007】

他の実施例では、本開示は、方法であって、前記方法は、機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、を含む、方法を記載する。

【0008】

他の実施例では、本開示は、命令を含む非一時的なコンピュータ可読記録媒体であって、前記命令は、実行されるときに、処理回路に、機械学習システムの埋め込み抽出装置であって、前記埋め込み抽出装置は複数の非言語音を含むオーディオ空間を用いて訓練されている、埋め込み抽出装置によって、入力オーディオ波形の埋め込み表現を生成することであって、前記入力オーディオ波形の前記埋め込み表現は、特定の非言語音を前記複数の非言語音から区別するためのデータを含んでいる、生成することと、前記機械学習システムのクラス分類装置によって、前記入力オーディオ波形の前記埋め込み表現を、前記クラス分類装置が訓練された非言語音のクラスと比較することによって、前記入力オーディオ波形が非言語音の前記クラスと同じであるか又は異なっているかを示唆する、前記入力オーディオ波形のスコアを決定することと、前記クラス分類装置によって、前記入力オーディオ波形の前記スコアを出力することと、を行わせる、非一時的なコンピュータ可読記録媒体を記載する。

【0009】

本開示の１つ以上の実施例の詳細は、添付の図面及び以下の詳細な説明において述べられる。本開示の他の特徴、目的、及び有利な点は、詳細な説明及び図面から、ならびに請求項から、明らかになるであろう。

【図面の簡単な説明】

【0010】

【図1】図１Ａ及び１Ｂは、本開示の１つ以上の技術による、音イベント検出パイプラインのための構成要素の１つの可能な配置例を示す概念的なブロック図である。

【0011】

【図2】図２は、本開示の１つ以上の技術による、音判別システムを実装するように構成されたコンピューティングシステムを示すブロック図である。

【0012】

【図3】図３は、本開示の１つ以上の技術による、埋め込み抽出装置の実装例の詳細を示す概念図である。

【0013】

【図4】図４は、本開示の１つ以上の技術による、ネットワーク環境において互いに通信する、複数の電子システム及びデバイスのブロック図である。

【0014】

【図5】図５は、本開示の音響イベント検出システムの動作の一例を示すフロー図である。

【発明を実施するための形態】

【0015】

概して、本開示は、非言語オーディオ信号を含むオーディオ入力を自動的に識別及びクラス分類するための技術を実装できるコンピューティングシステムを記述している。幾つかの例では、コンピューティングシステムは、該システムが訓練されていない音のクラスを識別するために、限定された数の例のみを提供することによって、新しいクラスを加えることができる。コンピューティングシステムは少なくとも２つの構成要素を備え得る。第１の構成要素である埋め込み抽出装置は、非言語オーディオ空間の世界知識（ｗｏｒｌｄｋｎｏｗｌｅｄｇｅ）の表現を作り出すことができ、その表現は、非言語現象を他の非言語現象から区別するように構成されている。第２の構成要素であるクラス分類装置は、非言語音の表現を含むこれらの埋め込み表現を受け取り、非言語音を互いに対して判別することができる。このクラス分類装置は、例えばすべての非言語音のクラスについて訓練されるのではなく、ユーザが判別及び識別したい特定の非言語音のクラスに集中するように訓練されることができる。

【0016】

クラス分類装置は、埋め込み抽出装置に含まれている世界知識を再訓練する必要なくして、ユーザが識別したい場合がある非言語音の新しいクラスを加える入力を受け取るように、さらに構成されている。換言すれば、このクラス分類装置は、限定された数の新しいクラスの例を用いて、例えば単一の例のみを用いて、音の新しいクラスを登録し、その新しいクラスを用いて他の入力音を判別及び識別することができる。このクラス分類装置は、埋め込み抽出装置によって生成された埋め込み表現によって提供された広範な世界知識による少数の例のみに基づいて機能することができる。デベロッパが新しいクラスを登録し、コンピューティングシステムがそれらに基づいて機能し、かつこれらをコンピューティングシステムに対する更新として展開する、という場合がある。また、コンピューティングシステムのエンドユーザが、新しいクラスをシステムに登録することもできる。

【0017】

コンピューティングシステムは、ユーザがオーディオ録音の中から様々な所望の音のクラスを検出することを可能にすることができる。また、コンピューティングシステムは、埋め込み抽出装置中の広範なデータの集積を処理して興味のある音響イベントを含む録音のみを見出し、大量の人間の時間及び努力を節約することもできる。

【0018】

言語現象を検出することに比べると、言語ドメインは、一般的な非言語オーディオドメインよりも非常に限定されている。言語部分は、限定された周波数レンジ、識別可能パターンを有しており、かつ、単語、単語の一部、イントネーション、及び他の特徴を含んでいる。しかしながら、自動化された言語認識システムにおける表現は、例えば銃声、鳥のさえずり、天気によってもたらされた音等の広範な非言語音については適切ではない場合がある。幾つかの例では、本開示のクラス分類装置は、そのクラス分類装置が非言語イベントを感知する限りにおいては、言語ベースの表現を用いて幾つかの非言語音を識別することも依然として可能である。しかしながら、本開示の埋め込み抽出装置によって出力された表現は、より多様でありかつより大きい場合があり、例えば人間の会話の話者を識別するために訓練された埋め込み抽出装置からの埋め込み表現と比較して、非常に多くの数の次元を有し得る。

【0019】

図１Ａは、本開示の１つ以上の技術による、音検出パイプラインのための構成要素の１つの可能な配置例を示すブロック図である。図１Ａの例においては、システム１００は、入力デバイス１０２、埋め込み抽出装置１０６、バックエンドクラス分類装置１０８、ユーザインタフェース１２４、及び較正モジュール１１０を備えている。システム１００の音検出パイプラインは、入力音を受け取り、例えば入力オーディオ波形１１６を入力デバイス１０２で受け取り、かつ入力音のスコア１１２を出力し得る。スコア１１２は、受け取った入力オーディオ波形１１６が特定の音のクラスと同一であるか又は異なっているかを示唆し得る。スコア１１２は、数、テキスト、フラグ、又は、例えばバイナリクラス分類等のクラス分類を示唆する他の値であり得る。システム１００の１つ以上の構成要素は、コンピューティングエンジンの処理回路によって実行される機械学習システムの一部であり得る。コンピューティングエンジンは、コンピューティングシステム２００の単一のコンピューティングデバイス上で動作する場合もあれば、複数のコンピューティングデバイスに分散させられて動作する場合もある。

【0020】

入力デバイス１０２は、音を受け取り、その音を音の電子表現に変換するように構成された任意のデバイスであってよい。図１Ａの例では、入力デバイス１０２は、入力オーディオ波形１１６を受け取りかつオーディオスペクトログラム１０４を出力することができる。幾つかの例では、入力デバイス１０２は、オーディオ波形を直接キャプチャしてオーディオスペクトログラム１０４を出力する回路に加え、１つ以上のマイクロフォン、カメラ、及び類似のデバイスを備え得る。他の例では、入力デバイス１０２は、ストレージ又はメモリデバイス等の周辺デバイス、ＵＳＢポート又はネットワークインタフェース等のインタフェースデバイス、又はオーディオ波形１１６の表現を受け取りかつオーディオスペクトログラム１０４を出力するように構成された他のデバイス、を表し得る。幾つかの例では、録音は、メモリに格納され、ネットワーク上で入力デバイス１０２へと流されるか、又は入力デバイス１０２を介してシステム１００によって得られる、アナログ又はデジタルフォーマットのオーディオ、ビデオ、データ、及び他の情報を含み得る。幾つかの例では、入力オーディオ波形１１６及びオーディオスペクトログラム１０４は、実質的に類似又は同一である。

【0021】

埋め込み抽出装置１０６は、例えば幾つかの例ではオーディオスペクトログラム１０４に変換されている、入力オーディオ波形１１６を受け取り、入力オーディオ波形１１６の埋め込み表現１１４を出力することができる。埋め込み抽出装置１０６は、幾つかの例においては非言語音を含んでいる複数の音を含むオーディオ空間を用いて訓練され得る。非言語音は、自然において生成された音を、例えば雪崩、鳥のさえずり、渚の波音を含み得るのに加え、機械的に生成された音を、例えばモータ、時計、ベル、爆発によって生成された音を含み得るのであり、かつ類似の音も含み得る。

【0022】

本開示のシステム１００は、より具体的には埋め込み抽出装置１０６は、埋め込み表現を生成するように訓練され、その後異なるデータのセットのために１つ以上の他の埋め込み表現を作り出すように利用される、ディープニューラルネットワーク（ＤＮＮ）モデルを含み得る。スピーカー埋め込み表現は、話者からのオーディオサンプルの、高度に判別的で小さな次元の表現である。より一般的には、埋め込み表現は、オーディオサンプルの、高度に判別的で小さな次元の表現である。埋め込み抽出は、あるものの一部分を抽出するプロセスを指し、離散的な変数を連続的なベクトルとして表現するために学習される技術として記述される場合もある。埋め込み抽出装置は、典型的には、音のクラスの中で、例えば話者、言語、電話等の判別を行うように訓練された、ニューラルネットワークである。本開示のシステムのために、埋め込み抽出は、例えばオーディオスペクトログラム１０４から、本開示の処理回路が分析及び関連マッピングを実施し得るベクトルへと、音をマッピングすることを含み得る。埋め込み抽出は、２つの別個の音が互いに類似であるか又は異なっているものとしてカテゴライズされ得るようなやり方で、高次元データをベクトル形式の低次元データに変換するプロセスを含み得る。入力オーディオ波形１１６の埋め込み表現１１４は、幾つかの例においてはベクトルであり得る。幾つかの例では、入力オーディオ波形１１６の埋め込み表現１１４は、音のオーディオ空間において特定の非言語音を他の非言語音から区別するためのデータを含み得る。

【0023】

バックエンドクラス分類装置１０８は、入力オーディオ波形１１６の埋め込み表現１１４を受け取り得る。上記されたように、埋め込み表現１１４は、埋め込み抽出装置１０６に訓練されたオーディオ空間の世界知識に基づいて生成され得る。バックエンドクラス分類装置１０８は、複数の音のクラスの間での判別を行うように構成されている。幾つかの例では、バックエンドクラス分類装置１０８は、確率的線形判別分析（ＰＬＤＡ）を用いて実装され得る。バックエンドクラス分類装置１０８を実行する処理回路は、線形判別分析（ＬＤＡ）を用いて埋め込み表現１１４内の高次元特徴量を低次元の空間にマッピングし、ＰＬＤＡを用いたクラス分類を実行することができる。幾つかの例では、上記のＰＬＤＡ実装は、例えばバイナリ選択等の２つのみの異なるクラスを判断するように訓練され得る。その２つのクラスは、「同じ」又は「異なっている」であり得る。このようにすると、バックエンドクラス分類装置１０８は、入力オーディオ波形１１４のための埋め込み表現１１４を受け取り、入力オーディオ波形１１４が、バックエンドクラス分類装置１０８が訓練された１つ以上の表現と「同じ」であるとクラス分類されるか又はそれとは「異なっている」とクラス分類されるかのいずれであり得るかを、判断することができる。

【0024】

システム１００の動作を説明するための一例として、システム１００は、入力デバイス１０２を介して、入力オーディオ波形１１６を受け取ることができる。バックエンドクラス分類装置１０８は、猫の音の表現に基づいて訓練され得る、より具体的には、例えば猫が喧嘩をしている、満足している（喉をゴロゴロ鳴らしている）、空腹である、などの特定の条件下の猫の音の表現に基づいて、又は他の特定の猫の音の表現に基づいて、訓練され得る。埋め込み抽出装置１０６から生成された埋め込み表現１１４を処理することにより、バックエンドクラス分類装置１０８は、システム１００のパイプラインを用いて処理された、受け取った新しいオーディオ波形１１６が、それらの猫の音のクラスと、一般的には、システム１００が訓練された猫の音のクラスと（又は、他の使用例においては、他のクラスと）、同じであるか又は異なっている可能性を、計算することができる。幾つかの例では、バックエンドクラス分類装置１０８は、さらに、受け取ったオーディオが、例えば喉をゴロゴロ鳴らしているなどの、上記の特定の条件下における猫の音と同じであるか又は異なっている可能性を、計算することができる。幾つかの例では、バックエンドクラス分類装置１０８は、少数の猫の音の例を用いて訓練されることができ、その例は、たった１つのみの例であってもよい。

【0025】

図１のシステム１００が有用であり得る他の適用例は、以下のようなバードウォッチャーを含み得る、即ち、森林中を歩き、そのバードウォッチャーによってそれまで聞かれたことがない新しい鳥のさえずりを耳にする、バードウォッチャーを含み得る。そのバードウォッチャーが、そのさえずりを生み出す鳥の種類を知りたい場合がある。このことは、その音を録音して検出装置を作り出すことによって、例えばバックエンドクラス分類装置１０８を音の新しいクラスを用いて訓練することによって、達成され得る。幾つかの例では、この検出装置は、その後で、新規な鳥のさえずりを、鳥の種類によってラベリングされた鳥のさえずりのカタログに合わせるように用いられ得る。追加的には、バードウォッチャーは、新しい鳥のさえずり検出器ソフトウェアを森林中に残されるオーディオ録音デバイスにアップロードし、その鳥のさえずりの将来的な発生を検出し、将来的な研究のために日付、時刻、気温、及び他のパラメタを記録することができる。

【0026】

他の適用例は、機械リペア技術者が、故障可能性のあるモータを分析する状況である。該モータは、動作中、例えばランダムな間隔で何らかの異音を発生し得る。技術者は、これらの音の将来的な発生を検出し、その音の発生を、他の例における他の測定可能パラメタ（荷重、温度、１分あたりの回転数等）に合わせ、これらのランダムな音がカタストロフィックな故障の発生可能性の示唆であり得るか否かを判断する。その故障を防止することにより、高くつくダウンタイム及び高額であり得る修理費用が防がれ得る。

【0027】

このように、特定の音が何らかのイベントについての重要な情報を含有しているか否かを判断することは、現実世界の適用について所望であり得る。従って、同じ音の過去における発生又は将来的な発生をその場で短いサンプル時間で記録し、検出装置を作り出すことができる、システム１００等のシステムを有することは、有用であり得る。本開示のシステム１００とは対照的に、オーディオ検出装置の幾つかの他の例は、限定された数の音響クラスの検出を実施するのみである場合もある。また、これらの他の例は、音の新しいクラスをユーザが登録できるようにするものでもなければ、既存の音のクラスをユーザが更新できるようにするものでもない。本開示で記述されている現在のシステム及び方法は、何らかの既存の音イベントの、例えば銃声、音楽、移動車両、背景ノイズ、動物等の音イベントの検出を含み得る。加えて、本開示のシステムは、既存の音のクラスの検出装置を新しいオーディオサンプルで更新することに加えて、オーディオ例を提供することによって音の新しいクラスを検出する能力も含み得る。

【0028】

システム１００の較正モジュール１１０（「較正部１１０」として図示されている）は、音の比較のために使用されるスコアを出力するように構成されている。較正モジュール１１０は、解釈可能なスコアを提供するスコア較正部を含み得る。幾つかの例では、較正モジュール１１０は、音検出スコアで訓練されたロジスティック回帰較正モジュールを実行し得る。

【0029】

システム１００の態様は、音検出のためのＥｎｄ－ｔｏ－Ｅｎｄシステムとして例示され主として記載されているが、話者識別、音検出、又は他の音分析システムに含まれるプラグインとして実装されてもよい。例えば、該プラグインは、埋め込み抽出装置１０６と、バックエンドクラス分類装置１０８と、音分析システムからオーディオスペクトログラム１０４を受け取りかつその音分析システムによって使用されるためのスコア１１２を出力する、較正モジュール１１０と、を含み得る。

【0030】

図２は、本開示の１つ以上の技術による、コンピューティングシステムを示すブロック図である。図２の例においては、コンピューティングエンジン２３０は、コンピューティングシステム２００上の機械学習システム２３２を実行する。

【0031】

コンピューティングエンジン２３０は、機械学習システム２３２を実行するための処理回路２２０を含んでいる。処理回路２２０は、記録デバイス２２６に動作的に接続され得る。処理回路２２０は、幾つかの例においては、１つ以上のプロセッサを含み得る。処理回路２２０の例は、マイクロコントローラ（ＭＣＵ）であって、プロセッサコア、メモリ、及びプログラマブルな入力／出力周辺機器を含む単一の集積回路上のコンピュータ等である、マイクロコントローラと、マイクロプロセッサであって、集積回路（ＩＣ）コントローラ、コントローラ、ＤＳＰ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＳｏＣ（ｓｙｓｔｅｍｏｎｃｈｉｐ）、又は等価であるディスクリートであるか又は統合型のロジック回路等にあるＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等であるマイクロプロセッサと、のうち１つ以上を含み得る。プロセッサは、集積回路であり得る、即ち集積された処理回路であり得る。そして、その集積された処理回路は、固定されたハードウェアの処理回路として、プログラマブル処理回路として、かつ／又は固定されておりかつプログラマブルであるという両方である処理回路の組み合わせとして、具現化され得る。従って、本明細書で用いられる「処理回路」「プロセッサ」又は「コントローラ」という語は、上記の構造又は本明細書に記載の技術を実施するために動作可能である他の任意の構造のうち１つ以上を指してもよい。処理回路２２０は、コンピュータネットワークによって相互接続される１つ以上のコンピューティングデバイスに分散させられ、コンピューティングシステム２００の構成要素を、例えば埋め込み抽出装置２０６、クラス分類装置２０８、較正部２１０、及びユーザインタフェース２２４等を、実行する場合がある。

【0032】

記録デバイス２２６の例は、メモリデバイス又は任意のタイプのコンピュータ可読記録媒体を含み得る。記録デバイス２２６は、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＯＴＰ（ｏｎｅ－ｔｉｍｅｐｒｏｇｒａｍｍａｂｌｅ）メモリ、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｏｎｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、フラッシュメモリ、又は他のタイプの揮発性又は不揮発性のメモリデバイス、のうち１つ以上を備え得る。幾つかの例では、該コンピュータ可読記録媒体は、処理回路に本明細書に記載の機能を実行させるための命令を格納し得る。幾つかの例では、コンピュータ可読記録媒体は、データを、例えば構成情報、一次的な値、及び本開示の機能を実施するために用いられる他のタイプのデータを、備え得る。

【0033】

機械学習システム２３２は、埋め込み抽出装置２０６、クラス分類装置２０８、及び較正モジュール２１０を備えている。埋め込み抽出装置２０６、クラス分類装置２０８、及び較正モジュール２１０は、図１に関連して上記された埋め込み抽出装置１０６、バックエンドクラス分類装置１０８、及び較正モジュール１１０を例示する例を示し、かつ同一又は類似の特徴及び機能を有し得る。例えば、埋め込み抽出装置２０６は、非言語音を含む音の世界知識を含むオーディオ空間を用いて訓練され得る。埋め込み抽出装置２０６は、入力デバイス２０２を介して入力オーディオ波形２１６を受け取り、かつ入力オーディオ波形２１６の埋め込み表現２１４をクラス分類装置２０８に向けて出力することができる。幾つかの例では、埋め込み抽出装置２０６は、オーディオ空間を用いて入力オーディオ波形２１６を処理して、入力オーディオ波形２１６のための埋め込み表現２１４内に高次元特徴量を生成するように訓練された、ディープニューラルネットワークを備えている。

【0034】

クラス分類装置２０８は、埋め込み抽出装置２０６から入力オーディオ波形２１６の埋め込み表現２１４を受け取るように構成されている。幾つかの例においては、クラス分類装置２０８は、入力オーディオ波形２１６のベクトル表現であり得る埋め込み表現２１４を、非言語音のクラスと比較することができる。この比較に応じて、クラス分類装置２０８は、図１に関連して上記されたように、入力オーディオ波形２１６が選択された非言語音のクラスと同じであるか又は異なっているかを示唆する、入力オーディオ波形２１６のスコア２１２を決定することができる。幾つかの例では、較正モジュール２１０は、音検出スコアに基づいて訓練されたロジスティック回帰較正モジュール等のプログラミング命令を備え得る。幾つかの例では、スコア２１２を決定することは、１つ以上のクラス分類操作（クラス分類）を実施することを含み得る。

【0035】

コンピューティングエンジン２３０は、１つ以上の出力デバイス２２８を介して、スコア２１２と、他のデータ又は情報とを出力し得る。出力デバイス２２８は、以下のうち１つ以上を含み得る、即ち、音を出力するように構成されたオーディオデバイスと、グラフィックス、テキスト及び類似の情報をユーザに提示するように構成されたディスプレイと、例えばネットワーク中の他のデバイスに対して、例えばハンドヘルド型コンピューティングデバイス、リモートディスプレイ又はオーディオデバイス、及び他のコンピューティングデバイスに対して出力を送信するように構成された通信回路と、のうち１つ以上を含み得る。

【0036】

本開示の機械学習部２３２は、他のタイプのオーディオクラス分類機械学習システムに対して有利な点を提供し得る。例えば、クラス分類装置は、埋め込み抽出装置２０６に包含される世界知識を再訓練する必要なくして、例えばユーザインタフェース２２４を介してクラス分類データ２２５を、かつ、ユーザが識別したい場合がある非言語音の新しいクラスを追加する入力オーディオ波形２１６を、受け取るように、さらに構成され得る。クラス分類装置２０８は、幾つかの例では単一の例であり得る限定された数の新しいクラスの例のみを用いて、音の新しいクラスを登録し、その新しいクラスを用いて他の入力音を判別及び識別することができる。

【0037】

新しいクラスを追加する１つの実装例においては、ユーザは、まず、例えばユーザインタフェース２２４を介して、新しい入力オーディオ波形２１６が新しいクラスであると識別し得る。この新しい入力オーディオ波形２１６は、上で図１に関連して記述されたように、埋め込み抽出装置２０６のＤＮＮによって処理される。コンピューティングシステム２００は、ＤＮＮから高次元特徴量を抽出し、それをＬＤＡ空間を通じるよう投射して、抽出される埋め込み表現の次元を減少させることができる。事前訓練されたＰＬＤＡクラス分類装置は、例えばクラス分類装置２０８は、それらの抽出された埋め込み表現を音響モデル部分空間及びチャネル空間にモデル化及び分解し得る。新しいクラスのための最終的なモデルは、ＰＬＤＡ音響モデル部分空間中に投射されるこの埋め込み表現である。

【0038】

幾つかの例では、埋め込み抽出装置２０６は、マイクロフォン又は類似のデバイスを介して新しいオーディオ波形を受け取る場合もあれば、又は、その新しいオーディオ波形が、図１に関連して入力デバイス１０２について上記されたような、オーディオスペクトログラム等の録音又はデータである場合もある。クラス分類装置２０８はまた、第２の入力オーディオ波形が非言語音の新しいクラスの例であるという示唆を含み得るユーザ入力も受け取り得る。幾つかの例では、このユーザ入力は、非言語音の新しいクラスのためのラベルも含み得る。

【0039】

クラス分類装置２０８は、入力デバイス２０２を介して受け取られる後続の入力オーディオ波形の埋め込み表現２１４を、非言語音の新しいクラスと比較するように、構成され得る。そして、クラス分類装置２０８は、後続の波形が新しいクラスと同じであるか又は異なっているかのいずれであるかを示唆するための、後続の波形の各々についてのスコア２１２を出力し得る。幾つかの例では、較正モジュール２１０は、図１に関連して上記されたように、解釈可能なスコアを提供するためにスコア較正を行い得る。解釈可能なスコアの一例としては、システムがあるイベントについて０．８のスコアを提供した場合には、そのイベントは８０％の確率で起こるはずである。

【0040】

本開示の機械学習システム２３２の有利な点は、埋め込み抽出装置２０６のためのオーディオ空間の世界知識を再訓練する必要なくして、新しいクラスが追加されることができる、とい点である。換言すれば、埋め込み抽出装置２０６は、非言語音の新しいクラスを追加した結果として変化させられることはない。埋め込み抽出装置２０６を訓練することは、多大な時間（例：数週間又は数ヶ月）にわたる多大な計算リソースを使用する場合があるので、新しいクラスを追加すること、及び受け取った音をその新しいクラスに対して判別する能力を追加することは、他の音イベント検出パイプラインの例と比較して有用であり得る。幾つかの例では、機械学習システム２３２のデベロッパ又は管理者が、新しいクラスを追加する場合がある。他の例では、機械学習システム２３２のエンドユーザが、上記されたように、例えば例示的なオーディオ波形及びその例の識別を、ユーザインタフェースを介して追加することにより、新しいクラスを追加する場合がある。

【0041】

図３は、本開示の１つ以上の技術による、埋め込み表現を計算するための例示的なニューラルネットワークの構造を示す概念図である。埋め込み抽出装置３００が、埋め込み抽出装置１０６又は２０６を例示する一例を示し得る。入力音の表現は、オーディオサンプルで事前訓練された深層学習ネットワークから推定された音の埋め込み表現を含み得る。埋め込み表現３１４は、図３の例においては、１２８次元ベクトルである。入力特徴量は、メルフィルタバンク３４０によって生成された６４ｌｏｇメルフィルタバンク（６４ｌｏｇＭｅｌｆｉｌｅｒｂａｎｋ）であり得る。幾つかの例では、該特徴量は、オーディオスペクトログラム３４４の１秒の窓を用いて計算され得る。

【0042】

埋め込み抽出装置３００のニューラルネットワークアーキテクチャの構成要素は、機械学習システム２３２等の機械学習システムによって実行される１つ以上のＮＮ層を含み得る。この例における該構成要素は、畳み込み（ＣＯＮＶ）６４層ブロック３２１、ＣＯＮＶ１２８ブロック３２２、ＣＯＮＶ２５６ブロック３２４、ＣＯＮＶ５１２ブロック３２６、ＣＯＮＶ５１２ブロック３２８、及び、別個のプーリング層３４６、を含んでいる。ＣＯＮＶ１２８ブロック３２２、ＣＯＮＶ２５６ブロック３２４、ＣＯＮＶ５１２ブロック３２６、及びＣＯＮＶ５１２ブロック３２８は、それぞれの入力プーリング層に関連付けられている。６４、１２８、２５６、及び５１２という数字は、入力特徴量の次元を指している。

【0043】

幾つかの例では、メルフィルタバンク３４０は、入力されたオーディオスペクトログラム３４４を受け取る処理を行い、その入力信号を高域強調（ｐｒｅ－ｅｍｐｈａｓｉｓ）フィルタに通過させ得る。フィルタリングされた信号は、（重なり合う）フレームにスライスされ、各フレームに窓関数が適用され得る。メルフィルタバンク３４０は、各フレームにフーリエ変換を、例えば短時間フーリエ変換（ＳＴＦＴ又はＳＦＴ）を実行し、パワースペクトルを各フレームについて計算し、その後フィルタバンクを計算するということができる。幾つかの例では、メルフィルタバンク３４０の最終ステップは、平均正規化を含み得る。

【0044】

幾つかの例では、高域強調フィルタは、より低い周波数に比べて振幅が小さい高周波数を補正するように、周波数スペクトルをバランスさせる。高域強調フィルタはまた、例えば入力信号３４４の信号対雑音比（ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ、ＳＮＲ）を改善するための他の機能も実行し得る。他の例では、この高域強調フィルタの機能は、平均正規化のステップの代わりに省略され得る。

【0045】

信号を短いフレームに分割することにより、入力信号の周波数輪郭を経時的に保持することができる。フーリエ変換をこの短時間フレームで実行することにより、隣接するフレームを連結する際に信号の周波数輪郭の近似を提供することができる。幾つかの例では、メルフィルタバンク３４０はまた、ハミング窓等の窓関数をフレームに適用することもできる。幾つかの例では、フレームのサイズは、例えば５～６０ｍｓ等のミリ秒（ｍｓ）のオーダーであり得るが、他の例では、そのフレームのサイズが約１秒である場合もある。重なりは、幾つかの例ではフレームサイズの約半分である場合があり、他の例ではより大きいか又はより小さい重なりである場合もある。

【0046】

フィルタバンクを計算することは、三角フィルタ等のフィルタをフーリエ変換から出力されたパワースペクトルに適用し、周波数バンドを抽出することを含み得る。メル尺度は、低い周波数ほどより判別性が高くかつ高い周波数ほどより判別性が低いことにより、非線形である人間の耳の音の知覚を概ね模倣している。

【0047】

図３の例におけるネットワーク構造はまた、ＣＯＮＶ２５６ブロック３２４、ＣＯＮＶ５１２ブロック３２６、及びＣＯＮＶ５１２ブロック３２８も備えており、埋め込み表現３１４は、完全に接続された（ＦＣ）層３３０による処理の後で出力される。しかしながら、図３は、本開示の埋め込み抽出の実装の一例を示しているにすぎない。他の例では、埋め込み抽出装置は、その配置よりも多い構成要素、少ない構成要素、又は異なる構成要素を含み得る。例えば、ＦＣ層３３０から出力された埋め込み表現３１４は、幾つかの例では、１２８ビットベクトルを備えている場合がある。

【0048】

人間の知覚的な聞き取りに基づいてオーディオスペクトルを調節する、メルフィルタバンク３４０による入力オーディオスペクトログラム３４４の第１の表現の後で、埋め込み抽出装置３００のＤＮＮ構成要素は、特徴ベクトルのどれが非言語オーディオイベントを分離させるために重要であるかを判断することができる。換言すれば、ＤＮＮは、例えばＣＯＮＶ１２８ブロック３２２で、非言語オーディオイベントを分離させるために有用な情報を含む特徴量を作り出すことができる。図１に関連して上記されたように、埋め込み抽出装置３００は、世界知識を、例えば非言語オーディオ空間の知識を発展させるために、非常に大きなオーディオサンプルのセットで訓練され、表現中に格納されたどの特徴量がオーディオイベントを互いに区別することができるかを判断するようになり得る。バックエンドクラス分類装置に、例えば図１のバックエンドクラス分類装置１０８に提供されたこれらの埋め込み表現３１４は、バックエンドクラス分類装置１０８が、オーディオ情報が他のオーディオ情報と異なっているときを判断することができるようにする。

【0049】

音を互いに区別するように含まれかつ用いられ得る特徴量／現象の幾つかの例は、周波数、経時的な周波数パターン、ラウドネス、音のシャープネス、例えばサイレン又はクジラの鳴き声と比較した銃声又はドアの閉まる音、音の長さ、音色、離散性、構造、減衰時間、及び類似の特徴量、を含み得る。ニューラルネットワークは、各フレームにおける、例えば１０ｍｓフレームにおける音エネルギーを分析し、各ステップのプーリング層がそれらのフレームを組み合わせて、経時的な変化を、例えば約１秒といった長い時間に及ぶ上記の減衰及びパターンを判断することができる。

【0050】

図３の例は、１つ以上の完全に接続された層、ＦＣ層３３０を含んでいる。ＦＣ層３３０は、ネットワークの最後の数層を形成するニューラルネットワークに向けた供給として実装され得る。ＦＣ層３３０に対する入力は、最終的なプーリング又は畳み込み層３４６からの出力を含み得るのであり、それは平坦化され、ひいてはＦＣ層３３０に供給される。幾つかの例では、ＦＣ層３３０は、以前の層によって抽出されたデータをコンパイルして、最終的な出力を、例えば埋め込み表現３１４を形成することができる。埋め込み表現３１４は、入力の非線形変換として、例えば図１のオーディオスペクトログラム１０４の異なる非言語音に含まれる世界知識としても記述され得るのであり、そこでは、埋め込み抽出装置３００のＤＮＮは、音のクラスを判別するように訓練され得る。出力即ち埋め込み表現３１４は、非言語オーディオの空間における異なる音の間での判別を容易化する豊かな情報を備え得る。埋め込み表現３１４は、より単純なバックエンドクラス分類装置のための特徴ベクトルになる。

【0051】

このようにすると、本開示のシステムは、例えば受け取った言語のＭＦＣＣ（Ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）表現から直接出発して言語のクラス分類に至り得る、言語認識のためのサポートベクターマシン（ＳＶＭ）技術等の幾つかのモデルとは対照的である。言語認識においては、オーディオ情報がより小さな大きさであり、クラス分類のために必要な特徴量が少なく、本開示のシステムによって使用されるようなこの世界知識のステップを使用しない場合がある。上記のモデルは、特定の特徴量を検出し、かつ特定の現象をクラス分類するように、訓練されている。代わりに、本開示のシステムは、この大きく無定形の非言語オーディオからの世界知識を、バックエンドクラス分類装置によって使用され得る埋め込み表現へとさらに選び出す。その埋め込み抽出装置も、本開示のシステムのためのクラス識別装置ではない。

【0052】

入力を受け取って特徴量の識別を実施するオートエンコーダにおいては、内部表現、入力特徴量を有することができ、かつその出力は、入力を予測し、例えばどのようにその入力を再現するのが最もよいかを予測するものである。オートエンコーダはラベルなしで訓練されるので、オートエンコーダはラベルを用いないが、本開示のシステムは、オートエンコーダとは対照的に、クラスのためのラベルを備え得るのであって、これにより、あるオーディオイベントが他のイベントと同じか又は異なっているかのいずれであるかを、事前決定された誤り率で判断することができるモデルを、提供することができる。

【0053】

埋め込み抽出装置３００は、音響イベントの予測のために、大きな量の音響イベントに基づいて訓練され得る。訓練を受けると、埋め込み抽出装置３００は、任意の音響イベント（訓練用データ又は初見のデータの一部）を高次元空間内にマッピングする。しかしながら、図１及び２に関連して上記されたように、新しいクラスの追加は、大きな努力を必要とし得る。また、訓練されたクラスのほとんどが特定のタスクに関連していないという場合には、完全なモデルを再訓練することは、時間の浪費であり、リソースの浪費である。しかしながら、オーディオデータの内部表現は、モデルがまだ訓練されていないパターン（音）を判別するために、モデルを普遍化（ｇｅｎｅｒａｌｉｚｅ）する。ここで、埋め込み抽出装置３００が埋め込み表現３１４を本開示のバックエンドクラス分類装置に提供したときには、バックエンドクラス分類装置がほんの数例の訓練を受けたのみであるとしても、該バックエンドクラス分類装置は、埋め込み抽出装置３００が訓練を受けていない新しいクラスを、低いエラー率で識別することができる。バックエンドクラス分類装置は、新しい音の表現を、例えば埋め込み抽出装置３００からの埋め込み表現３１４等の音の表現と比較することができる。このように、本開示のシステムは、埋め込み抽出装置３００を再訓練する必要なくして、音の新しいクラスを区別することができる。

【0054】

加えて、埋め込み表現３１４は、次元を減少させられたベクトルであって、そのベクトルの次元は非言語音を互いに区別することに集中させられたものである、ベクトルを備え得るので、本開示のバックエンドクラス分類装置は、より大きな数の次元の表現との比較を実施するときと比べて、減少させられた計算リソースを用いた比較を実施することができる。

【0055】

図４は、本開示の１つ以上の技術による、ネットワーク環境内で互いに通信する複数の電子システム及びデバイスのブロック図である。オーディオクラス分類システムの構成要素は、例えば図１のシステム１００、図３の埋め込み抽出装置、及び図２に記載のコンピューティングシステム２００の構成要素は、分散されたネットワーク環境内で動作し得る。

【0056】

このネットワーク環境は、サーバコンピューティングシステム３０４Ａ～３０４Ｂ、及び少なくとも１つのクライアントコンピューティングシステム３０２Ａ～３０２Ｇを接続する、通信ネットワーク３２０を有している。図示されているように、サーバコンピューティングシステム３０４Ａ～３０４Ｂが複数存在し得るのであり、かつネットワーク３２０を介して互いに接続された、クライアントコンピューティングシステム３０２Ａ～３０２Ｇが複数存在し得る。ネットワーク３２０の例は、光学ネットワーク、セルラーネットワーク、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、サテライトリンク、ファイバーネットワーク、ケーブルネットワーク、又は、これらの組み合わせ及び／又は他のもの、のうち１つ以上であり得るのであり、又はそれらのうち１つ以上を含み得る。サーバコンピューティングシステム３０４Ａ～３０４Ｂは、各々、ネットワーク３２０を横切って、他のサーバコンピューティングシステム３０４Ａ～３０４Ｂ、及びクライアントコンピューティングシステム３０２Ａ～３０２Ｇと通信するための、回路及びソフトウェアを有し得る。サーバコンピューティングシステム３０４Ａ～３０４Ｂは、各々、１つ以上のデータベース３０６Ａ～３０６Ｂに関連付けられ得るのであり、かつ、例えば図２の記録デバイス２２６のように、情報を格納するように構成され得る。サーバ３０４Ａ～３０４Ｂは、各々、物理的サーバを走る仮想サーバの１つ以上のインスタンスを有し得るのであり、かつ、その設計によって複数の仮想インスタンスが実装され得る。ファイアウォールは、クライアントコンピューティングシステムと、例えば３０２Ｄと、ネットワーク３２０の間に、クライアントコンピューティングシステム３０２Ｄ上のデータ統合性を守るために、確立され得る。１つ以上のサーバ３０４Ａ～３０４Ｂ上の処理回路は、コンピューティングエンジン２３０の構成要素を実行し、図１～３に関連して上記された機能を実施することができる。

【0057】

クラウドプロバイダーサービスは、アプリケーションソフトウェアをクラウド中にインストールして動作させることができ、ユーザはクライアントデバイスからソフトウェアサービスにアクセスすることができる。クラウド内にサイトを有するクラウドユーザは、単にそのアプリケーションが走るクラウドインフラストラクチャー及びプラットフォームを管理するのみではない場合がある。即ち、サーバ及びデータベースは、ユーザがこれらのリソースの一定量の専用使用を与えられる、共有ハードウェアであり得る。ユーザのクラウドベースのサイトは、クラウド中に仮想量の専用空間及びバンド幅を与えられている。クラウドの適用例は、スケーラビリティの点で他の適用例とは異なり得るのであり、このスケーラビリティは、変化する作業需要に対応するため、ランタイム中に複数の仮想マシン上にタスクをクローンすることによって達成され得る。負荷バランサーが、仮想マシンのセットに作業を分散させる。このプロセスは、単一のアクセスポイントのみを閲覧するクラウドユーザに対して透明なものである。

【0058】

クラウドベースのリモートアクセスは、ＨＴＴＰ等のプロトコルを利用して、クライアントデバイス３０２Ａ～３０２Ｇに存在するモバイルデバイスアプリケーション及びクライアントデバイス３０２Ａ～３０２Ｇに存在するウェブブラウザアプリケーションの両方と、リクエストとレスポンスのサイクルを行うように、コーディングされている。幾つかの状況では、ウェアラブル電子デバイス３０２Ｃ用のクラウドベースのリモートアクセスは、その電子デバイス３０２Ｃと協働するモバイルデバイス、デスクトップ、タブレットデバイスを介して、アクセスされ得る。クライアントデバイス３０２Ａ、３０２Ｇとクラウドベースのプロバイダーサイト３０４Ａの間の、クラウドベースのリモートアクセスは、以下のうち１つ以上で行うようにコーディングされている、即ち、（１）すべてのウェブブラウザベースのアプリケーションからのリクエストとレスポンスのサイクル、（２）ＳＭＳ／ｔｗｉｔｔｅｒベースのリクエストとレスポンスのメッセージ交換、（３）専用のオンラインサーバからのリクエストとレスポンスのサイクル、（４）クライアントデバイス上のネイティブなモバイルアプリケーションとウェアラブル電子デバイスに対するクラウドベースのリモートアクセスの間の直接のリクエストとレスポンスのサイクル、及び（５）これらの組み合わせ、のうち１つ以上で行うようにコーディングされている。

【0059】

一実施形態では、サーバコンピューティングシステム３０４Ａは、サーバエンジン、ウェブページ管理要素又はオンラインサービス又はオンラインアプリケーション要素、コンテンツ管理要素、及びデータベース管理要素、を備え得る。上記サーバエンジンは、基礎的な処理及び操作システムレベルのタスクを実行する。上記ウェブページ管理要素、オンラインサービス、又はオンラインアプリケーション要素は、デジタルコンテンツ及びデジタル広告の受信及び提供に関連付けられたウェブページ又はスクリーンの作成及び表示、又はルーティングを処理することができる。ユーザは、それに関連付けられたＵＲＬによってサーバコンピューティングシステムにアクセスすることができる。コンテンツ管理要素は、本明細書に記載の実施形態中の機能のほとんどを処理する。データベース管理要素は、データベースに関連するタスクの記録及び検索、データベースに対するクエリ、及びデータの記録を含む。

【0060】

図５は、本開示の音響イベント検出システムの動作の一例を示すフロー図である。図１～３に関連して上記されたように、本開示の埋め込み抽出装置は、例えば図１の埋め込み抽出装置１０６は、入力デバイス１０２を介して、録音、データファイル、又はマイクロフォンを介した直接入力であり得る、入力オーディオ波形１１６を受け取り得る（５００）。その埋め込み抽出装置は、言語音及び非言語音を包含する音を含み得る大きなオーディオ空間を用いて訓練され、図１及び３に示されたような入力オーディオ波形１１６の埋め込み表現１１４（又は３１４）を生成することができる（５０２）。

【0061】

埋め込み抽出装置は、入力オーディオ波形の表現を、例えばバックエンドクラス分類装置１０８等のクラス分類装置に出力することができる（５０４）。この入力オーディオ波形の埋め込み表現１１４は、特定の非言語音を他の非言語音から区別するための、例えばベクトルの形態であるデータを備え得る。

【0062】

クラス分類装置は、入力オーディオ波形の埋め込み表現を、例えばその表現を、埋め込み抽出装置から受け取ることができ（５０６）、そして、入力オーディオ波形の埋め込み表現を非言語音のクラスと比較することができる（５０８）。この比較に応じて、クラス分類装置は、入力オーディオ波形のためのスコアを決定することができる（５１０）。このスコアは、例えば図１及び２のスコア１１２及び２１２は、それぞれ入力オーディオ波形が上記非言語音のクラスと同じか又は異なっているかのいずれであるかを示唆することができる。クラス分類装置は、入力オーディオ波形のためのスコアを、例えばユーザインタフェース又は図２に関連して上記されたような他の出力デバイスを介して、出力することができる（５１２）。幾つかの例では、音響イベント検出システムを実行する本開示の機械学習システムは、さらに、オーディオ波形のスコアに対して較正を適用してもよい。

【0063】

１つ以上の例では、上記の機能は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせで実装され得る。例えば、図１～４の各種構成要素は、例えば埋め込み抽出装置１０６、機械学習システム２３２、フィルタバンク３４０、及び図３の畳み込みブロックは、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせで実装され得る。ソフトウェアに実装される場合、その機能は、１つ以上の命令又はコードとして、コンピュータ可読記録媒体に格納されるか又はその上を送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記録媒体等の有形媒体に、又は、例えば通信プロトコルに従った、コンピュータプログラムのある場所から他の場所への伝達を容易化する媒体を含む通信媒体に、対応する、コンピュータ可読記録媒体を含み得る。このようにすると、コンピュータ可読媒体は、概して、（１）非一時的な有形コンピュータ可読記録媒体、又は（２）信号又は搬送波等の通信媒体、に対応し得る。データ記録媒体は、本開示に記載の技術の実装のための命令、コード及び／又はデータ構造を取り出すために、１つ以上のコンピュータ又は１つ以上のプロセッサによってアクセスされ得る、任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

【0064】

本開示に記載の技術は、少なくとも部分的には、ハードウェア又はハードウェアとソフトウェアの組み合わせ、ファームウェア、又はそれらの任意の組み合わせ、で実装され得る。例えば、記載された技術の各種態様は、１つ以上のマイクロプロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ、又は統合されているか又はディスクリートな他の任意の等価な論理回路、又はそのような構成要素の任意の組み合わせ、を含む１つ以上のプロセッサ内に実装され得る。例えば処理回路２２０に関連するような「プロセッサ」又は「処理回路」の語は、一般的には、前述の論理回路のうちいずれかを、それのみで、又は他の論理回路と組み合わせて、指す場合もあれば、又は他の任意の等価な回路を指す場合もある。ハードウェアを含む制御ユニットが、本開示の技術のうち１つ以上を実施する場合もある。

【0065】

このようなハードウェア、ソフトウェア、及びファームウェアは、本開示に記載の各種技術をサポートするために、同じデバイス内に実装されている場合もあれば、別個のデバイス内に実装されている場合もある。加えて、記載のユニット、モジュール又は構成要素のうちいずれかは、ディスクリートではあるが相互運用可能な論理デバイスとして一緒にか又は別個に実装され得る。モジュール又はユニットとしての異なる特徴の記述は、異なる機能的態様を強調することを意図されているのであり、このようなモジュール又はユニットが別個のハードウェア、ファームウェア、又はソフトウェア要素によって実現されなければならないことを必ずしも示唆するわけではない。むしろ、１つ以上のモジュール又はユニットに関連付けられた機能は、別個のハードウェア、ファームウェア、又はソフトウェア要素によって実行される場合もあれば、共通又は別個のハードウェア、ファームウェア、又はソフトウェア要素の内部に統合される場合もある。

【0066】

また、本開示に記載の技術は、命令をエンコードされたコンピュータ可読媒体を含む製造物品中で具現化又はエンコードされている場合もある。エンコードされたコンピュータ可読媒体を含む製造物品中に埋め込まれたか又はエンコードされた命令は、例えば、コンピュータ可読媒体に含まれているか又はエンコードされている命令が１つ以上のプロセッサによって実行されるときには、その１つ以上のプログラマブルなプロセッサ又は他のプロセッサに、本明細書に記載の技術のうちいずれかを実装することができる。コンピュータ可読記録媒体は、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ハードディスク、ＣＤ－ＲＯＭ（ｃｏｍｐａｃｔｄｉｓｃＲＯＭ）、フロッピーディスク、カセット、磁気媒体、光学媒体、又は他のコンピュータ可読媒体、を含み得る。幾つかの例では、製造物品は、１つ以上のコンピュータ可読媒体を含み得る。

【0067】

幾つかの例では、コンピュータ可読記録媒体は、非一時的な媒体を含み得る。「非一時的な」という語は、記録媒体が搬送波又は伝播信号内で具現化されていないことを示唆し得る。特定の例では、非一時的な記録媒体は、経時的に変化し得るデータを（例えば、ＲＡＭ又はキャッシュに）格納し得る。

【図1】

【図2】

【図3】

【図4】

【図5】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版