(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】音声イベントの認識装置及び方法
(51)【国際特許分類】
G10L 17/26 20130101AFI20240709BHJP
G10L 15/16 20060101ALI20240709BHJP
【FI】
G10L17/26
G10L15/16
(21)【出願番号】P 2020104793
(22)【出願日】2020-06-17
【審査請求日】2023-03-09
(31)【優先権主張番号】201910822623.X
(32)【優先日】2019-09-02
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】シ・ズチアン
(72)【発明者】
【氏名】リィウ・リィウ
(72)【発明者】
【氏名】リヌ・ホォイビヌ
(72)【発明者】
【氏名】リィウ・ルゥジエ
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2015-158582(JP,A)
【文献】米国特許出願公開第2019/0108833(US,A1)
【文献】米国特許出願公開第2019/0236451(US,A1)
【文献】特表2019-508787(JP,A)
【文献】Xiaohu ZHANG, et al.,Dilated convolution neural network with LeakyReLU for environmental sound classification,22nd International Conference on Digital Signal Processing (DSP),IEEE,2017年08月
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26,25/30
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声イベントを認識する装置であって、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換するコーダー;及び
前記特徴を各音声イベントの事後確率としてマッピングする検出器を含み、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を複数回行
い、
前記コーダーは、前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行い、前記特徴を取得する、装置。
【請求項2】
請求項
1に記載の装置であって、
前記検出器は、前記特徴に
対してダイレイテッド畳み込み演算を複数回行った後に、さらに1×1畳み込み演算、全結合演算及びSoftmax演算を行い、前記事後確率を取得する、装置。
【請求項3】
請求項1
又は2に記載の装置であって、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を3回実行する、装置。
【請求項4】
請求項
3に記載の装置であって、
前記検出器は、毎回のダイレイテッド畳み込み演算を実行する過程において、さらに1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を行う、装置。
【請求項5】
請求項1に記載の装置であって、
イベントラベルを有する音声データを用いて、前記コーダー及び前記検出器に対して訓練を行う、装置。
【請求項6】
請求項1に記載の装置であって、
前記特徴は、音声信号の各フレームに基づく特徴である、装置。
【請求項7】
音声イベントを認識する方法であって、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換し;及び
前記特徴を各音声イベントの事後確率としてマッピングすることを含み、
前記特徴に対してダイレイテッド畳み込み演算を複数回行
い、
前記複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換することは、前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行い、前記特徴を取得する、方法。
【請求項8】
コンピュータに、請求項
7に記載の
方法を実行させるためのプログラム。
【請求項9】
請求項
8に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理の技術分野に関し、特に、音声イベントの認識装置及び認識方法に関する。
【背景技術】
【0002】
音声には、日々の環境及びその中で発生する物理的イベントに関する多くの情報がある。人々は自分がいる場所での音声シーン(混雑した通り、オフィスなど)を知覚し、個々の音声イベント(車の通過、足音など)を認識することができる。これらの音声イベントの自動検出は、多くの用途がある。例えば、それは、環境に配慮したスマートデバイス、ロボットなどに非常に有用である。また、レーダー又はビデオシステムが特定の状況で機能しない場合、音声イベントの自動検出は、完全な監視システムの構築に役立つこともできる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は、エンドツーエンド装置により、音声イベントの自動検出をより有効に行うことができる音声イベントの認識装置及び方法を提供することにある。再帰型ニューラルネットワークに基づく従来のモデルとは異なり、本発明による装置は、完全に、純粋な1次元の畳み込みニューラルネットワークモデルに基づいているため、並列化が容易であり、特定の環境ではより良いパフォーマンスを有する。また、本発明による装置は、手動の関与を必要としない完全なエンドツーエンドシステムである。その入力がオリジナル音声信号であり、出力は音声イベントの事後確率(posterior probability)である。
【課題を解決するための手段】
【0004】
本発明の一側面によれば、音声イベントの認識装置が提供され、それは、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換するコーダー(coder);及び
前記特徴を各音声イベントの事後確率としてマッピングする検出器を含み、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算(dilated convolution operation)を複数回行う。
【0005】
本発明のもう1つの側面によれば、音声イベントの認識方法が提供され、それは、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換し;及び
前記特徴を各音声イベントの事後確率としてマッピングすることを含み、
前記特徴に対してダイレイテッド畳み込み演算を複数回行う。
【0006】
本発明のまたもう1つの側面によれば、プログラムプロダクトが提供され、該プログラムプロダクトは、マシン(例えば、コンピュータ)可読指令コードを含み、前記指令コードは、コンピュータにより読み出されて実行されるときに、前記コンピュータに、本発明による音声イベントの認識方法を実行させることができる。
【0007】
本発明の他の側面によれば、本発明のプログラムプロダクトを記憶したマシン可読記憶媒体が提供される。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施例による音声イベントの認識装置のブロック図である。
【
図2】本発明の一実施例による音声イベントの認識ネットワークの全体アーキテクチャを示す図である。
【
図3】本発明の一実施例による音声イベントの認識方法のフローチャートである。
【
図4】本発明の実施例による音声イベントの認識装置及び音声イベントの認識方法を実現し得る汎用パソコンの例示的な構成のブロック図である。
【発明を実施するための形態】
【0009】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、このような実施例は、例示に過ぎず、本発明を限定するものでない。
【0010】
本発明の一実施例によれば、音声イベントの認識装置が提供され、該装置は、複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換するコーダーと、前記特徴を各音声イベントの事後確率としてマッピングする検出器とを含み、前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を複数回実行する。
【0011】
図1に示すように、本発明による音声イベントの認識装置100は、コーダー101及び検出器102を含んでも良い。
【0012】
コーダー101は、複数の音声イベントを含む音声信号を低次元空間における特徴に変換することができる。このような特徴は、音声イベントを認識するためのタスクをより有効に抽出するために用いられ得る。ここで、当業者が理解すべきは、複数の音声イベントは、2つ又はより多くの異なる類型(例えば、通りを歩く歩行者や車のクラクションの音など)の音声イベントを含んでも良いということである。コーダー101は、これらの音声イベントを含む信号を低次元空間における特徴ベクトルに変換することができる。
【0013】
続いて、検出器102は、該低次元空間における特徴ベクトルを各音声イベントの事後確率、例えば、各フレームの、通りを歩く歩行者や車のクラクションの音についての事後確率としてマッピングすることができる。本発明の一実施例によれば、これらの事後確率は、音声イベントの類型、開始及び終了時間などを表すことができる。ここで、当業者が理解すべきは、上述のイベントは例示に過ぎず、本発明はこれに限定されないということができる。
【0014】
本発明の一実施例によれば、検出器102は、前記特徴ベクトルに対して、複数回、ダイレイテッド畳み込み演算を行うことで、各音声イベントの事後確率を得ることができる。ダイレイテッド畳み込みは、膨張畳み込み又は拡張畳み込みとも称され、それは、畳み込み層に、“拡張率(dilation rate)”という新しいパラメータを導入し、該パラメータにより、畳み込みカーネルがデータを処理するときの各値の間隔を定義することができる。本発明の一実施例によれば、検出器102は、前記特徴ベクトルに対してダイレイテッド畳み込み演算を3回行うことで、より大きい受容野(receptive field)を提供することができる。畳み込みニューラルネットワーク装置CNNでは、或る層の出力結果における1つの要素に対応する入力層を決定する領域大小(サイズ)(マッピング)が受容野と称される。換言すると、より大きい受容野は、より多くの情報量を有する。ここで、当業者が理解すべきは、ダイレイテッド畳み込み演算を3回実行することは例示に過ぎず、本発明はこれに限られないということである。もちろん、当業者は、実際の演算量などのニーズに応じて、より多く又はより少ない回数のダイレイテッド畳み込み演算を行っても良い。
【0015】
本発明の一実施例によれば、コーダー101は、前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行うことにより、前記特徴ベクトルを取得することができる。正規化演算は、特徴ベクトルに対して正規化処理を行うことで、訓練の速度を向上させることができる。1×1畳み込み演算は、前記特徴ベクトルの最後の次元のサイズを修正するために用いられ得る。即ち、1×1畳み込み演算処理後の特徴ベクトルは、一致したサイズを保つことができる。ここで、当業者が理解すべきは、上述の演算は例示に過ぎず、本発明はこれに限定されないということである。もちろん、当業者は、実際のニーズにおいて、演算の増減又は置換を行っても良い。
【0016】
本発明の一実施例によれば、検出器102は、前記特徴に対してダイレイテッド畳み込み演算を複数回行った後に、さらに1×1畳み込み演算、全結合演算及びSoftmax演算を行うことで、前記事後確率を得ることができる。ここで、当業者が理解すべきは、上述の演算は例示に過ぎず、本発明はこれに限定されないということである。もちろん、当業者は、実際のニーズにおいて、演算の増減又は置換を行っても良い。
【0017】
本発明の一実施例によれば、検出器102は、毎回のダイレイテッド畳み込み演算を行う過程において、さらに1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を実行することができる。ここで、当業者が理解すべきは、上述の演算は例示に過ぎず、本発明はこれに限定されないということである。もちろん、当業者は、実際のニーズにおいて、演算の増減又は置換を行っても良い。
【0018】
例えば、
図2に示すように、入力される、複数の音声イベントを含む音声信号は、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を経た後に、特徴ベクトルを得ることができる。続いて、得られた特徴ベクトルは、3回のダイレイテッド畳み込み演算を経た後に、さらに1×1畳み込み演算、全結合演算及びSoftmax演算を経ることで、事後確率を取得することができる。
【0019】
また、
図2に示すように、1回のダイレイテッド畳み込み演算の過程が示されている。
図2では、左から右への各円が時刻点、即ち、1つの時間シーケンスを示し、各畳み込み層が1つの拡張率を有する。畳み込み層が十分な時間長さの情報を確実に取得できるように、拡張率は指数関数的に増加する。例えば、
図2には、4つの畳み込み層が例示的に示されており、そのうち、第一層の拡張率d=1、第二層の拡張率d=2、第三層の拡張率d=4、第四層の拡張率d=8である。前記拡張率は、特徴ベクトルの時間尺度上の情報量を表す。ここで、当業者が理解すべきは、
図2に示す畳み込み層は例示に過ぎず、本発明はこれに限られないということである。
【0020】
その後、本発明の一実施例によれば、ダイレイテッド畳み込み演算の過程において、さらに1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を実行することができる。
【0021】
本発明による音声イベントの認識装置によれば、そのエンドツーエンドのアーキテクチャにより、音声イベントの自動検出をより有効に行うことができ、また、その中に採用される複数回のダイレイテッド畳み込み演算により、大範囲の時間尺度上で情報量を大量に増やすことができるため、より良い検出結果を実現することができる。
【0022】
本発明の一実施例における音声イベントの認識装置によれば、訓練段階では、イベントラベルを有する音声データを用いてコーダー101及び検出器102に対して訓練を行うことができる。評価段階では、訓練済みのコーダー101及び検出器102は、入力される混合音声における各イベントを検出し、訓練済みのコーダー101及び検出器102のパフォーマンスを評価するために用いられ得る。
【0023】
以下、
図3を参照しながら、本発明の実施例による音声イベントの認識方法を説明する。
図3に示すように、本発明の実施例による音声イベントの認識方法は、ステップS310でステートする。
【0024】
ステップS310において、複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換する。
【0025】
続いて、ステップS320において、前記特徴を各音声イベントの事後確率としてマッピングする。
【0026】
そのうち、前記ステップS320では、前記特徴に対してダイレイテッド畳み込み演算を複数回行う。
【0027】
本発明の一実施例による音声イベントの認識方法はさらに、前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行うことで、前記特徴を得るステップを含む。
【0028】
本発明の一実施例による音声イベントの認識方法はさらに、前記特徴に対してダイレイテッド畳み込み演算を複数回行った後に、1×1畳み込み演算、全結合演算及びSoftmax演算を実行することで、前記事後確率を取得するステップを含む。
【0029】
本発明の一実施例による音声イベントの認識方法はさらに、前記特徴に対してダイレイテッド畳み込み演算を3回実行するステップを含む。
【0030】
本発明の一実施例による音声イベントの認識方法はさらに、毎回のダイレイテッド畳み込み演算を行う過程において、1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を実行するステップを含む。
【0031】
本発明の一実施例による音声イベントの認識方法はさらに、イベントラベルを有する音声データを用いて、前記コーダー及び前記検出器に対して訓練を行うステップを含む。
【0032】
本発明の一実施例による音声イベントの認識方法では、前記特徴は、音声信号の各フレームに基づく特徴である。
【0033】
本発明による音声イベントの認識方法によれば、そのエンドツーエンドのアーキテクチャにより、音声イベントの自動検出をより有効に行うことができ、また、その中に採用される複数回のダイレイテッド畳み込み演算により、大範囲の時間尺度上で情報量を大量に増やすことができるため、より良い検出結果を実現することができる。
【0034】
本発明の実施例による音声イベントの認識方法における上述のステップの各種の具体的な実施方式については、既に詳細に説明しているので、ここでは、その詳しい説明を省略する。
【0035】
もちろん、本発明による音声イベントの認識方法における各操作は、各種のマシン可読な記憶媒体に記憶したコンピュータ実行可能なプログラムにより実現することができる。
【0036】
また、本発明の目的は、次のような方式で実現することもでき、即ち、上述の実行可能なプログラムコードを記憶した記憶媒体を直接又は間接にシステム又は装置に提供し、該システム又は装置におけるコンピュータ又は中央処理単元(CPU)により、上述のプログラムコードを読み出して実行する。このときに、該システム又は装置がプログラムを実行し得る機能を有すれば、本発明の実施方式は、プログラムに限定されず、また、該プログラムは、任意の形式のもの、例えば、オブジェクトプログラム、インタープリタ実行可能なプログラム、オペレーティングシステムへのスクリプトプログラムなどであっても良い。
【0037】
図4は、本発明の実施例における方法及び装置を実現し得るハードウェア構成(汎用マシン)1300の構造図である。
【0038】
汎用マシン1300は、例えば、コンピュータシステムであっても良い。なお、汎用マシン1300は、例示に過ぎず、本発明による方法及び装置の応用範囲又は機能について限定しない。また、汎用マシン1300は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせに依存しない。
【0039】
図13では、中央処理装置(CPU)1301は、ROM 1302に記憶されているプログラム又は記憶部1308からRAM 1303にロッドされているプログラムに基づいて各種の処理を行う。RAM 1303では、ニーズに応じて、CPU 1301が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 1301、ROM 1302及びRAM 1303は、バス1304を経由して互いに接続される。入力/出力インターフェース1305もバス1304に接続される。
【0040】
また、入力/出力インターフェース1305には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1306、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1307、ハードディスクなどを含む記憶部1308、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1309である。通信部1309は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1310は、ニーズに応じて、入力/出力インターフェース1305に接続されても良い。取り外し可能な媒体1311、例えば、半導体メモリなどは、必要に応じて、ドライブ1310にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1308にインストールすることができる。
【0041】
また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0042】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0043】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0044】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0045】
(付記1)
音声イベントの認識装置であって、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換するコーダー;及び
前記特徴を各音声イベントの事後確率としてマッピングする検出器を含み、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を複数回行う、装置。
【0046】
(付記2)
付記1に記載の装置であって、
前記コーダーは、前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行い、前記特徴を取得する、装置。
【0047】
(付記3)
付記2に記載の装置であって、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を複数回行った後に、さらに1×1畳み込み演算、全結合演算及びSoftmax演算を行い、前記事後確率を取得する、装置。
【0048】
(付記4)
付記1乃至3のうちの任意の1項に記載の装置であって、
前記検出器は、前記特徴に対してダイレイテッド畳み込み演算を3回実行する、装置。
【0049】
(付記5)
付記4に記載の装置であって、
前記検出器は、毎回のダイレイテッド畳み込み演算を実行する過程において、さらに1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を行う、装置。
【0050】
(付記6)
付記1に記載の装置であって、
イベントラベルを有する音声データを用いて、前記コーダー及び前記検出器に対して訓練を行う、装置。
【0051】
(付記7)
付記1に記載の装置であって、
前記特徴は、音声信号の各フレームに基づく特徴である、装置。
【0052】
(付記8)
音声イベントの認識方法であって、
複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換し;及び
前記特徴を各音声イベントの事後確率としてマッピングすることを含み、
前記特徴に対してダイレイテッド畳み込み演算を複数回行う、方法。
【0053】
(付記9)
付記8に記載の方法であって、
前記音声信号に対して、1次元畳み込み演算、パラメータ付きReLU演算、正規化演算及び1×1畳み込み演算を行い、前記特徴を得ることをさらに含む、方法。
【0054】
(付記10)
付記9に記載の方法であって、
前記特徴に対してダイレイテッド畳み込み演算を複数回行った後に、さらに1×1畳み込み演算、全結合演算及びSoftmax演算を行い、前記事後確率を得ることをさらに含む、方法。
【0055】
(付記11)
付記8乃至10のうちの任意の1項に記載の方法であって、
前記特徴に対してダイレイテッド畳み込み演算を3回実行する、方法。
【0056】
(付記12)
付記11に記載の方法であって、
毎回のダイレイテッド畳み込み演算を実行する過程において、1×1畳み込み演算、パラメータ付きReLU演算、正規化演算及び深層畳み込み演算を実行することをさらに含む、方法。
【0057】
(付記13)
付記8に記載の方法であって、
コーダーにより、複数の音声イベントが含まれる音声信号を低次元空間における特徴に変換し、検出器により、前記特徴を各音声イベントの事後確率としてマッピングし、
前記方法は、
イベントラベルを有する音声データを用いて、前記コーダー及び前記検出器に対して訓練を行うことをさらに含む、方法。
【0058】
(付記14)
付記8に記載の方法であって、
前記特徴は、音声信号の各フレームに基づく特徴である、方法。
【0059】
(付記15)
プログラムプロダクトであって、
マシン可読指令コードを含み、
前記指令コードは、コンピュータにより読み出されて実行されるときに、前記コンピュータに、付記8乃至14のうちの任意の1項に記載の方法を実行させる、プログラムプロダクト。
【0060】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。