特許7367862 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7367862ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-16

(45)【発行日】2023-10-24

(54)【発明の名称】ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム

(51)【国際特許分類】

G06N 3/04 20230101AFI20231017BHJP

G10L 17/18 20130101ALI20231017BHJP

【ＦＩ】

G06N3/04

G10L17/18

【請求項の数】 7

(21)【出願番号】P 2022520943

(86)(22)【出願日】2019-10-18

(65)【公表番号】

(43)【公表日】2023-01-24

(86)【国際出願番号】 JP2019041226

(87)【国際公開番号】W WO2021075063

(87)【国際公開日】2021-04-22

【審査請求日】2022-04-05

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110002044

【氏名又は名称】弁理士法人ブライタス

(72)【発明者】

【氏名】ワンチョンチョン

(72)【発明者】

【氏名】越仲孝文

(72)【発明者】

【氏名】リーコンエイク

【審査官】松平英

(56)【参考文献】

【文献】OKABE,Koji et al，Attentive Statistics Pooling for Deep Speaker Embedding，[online]， arXiv:1803.10963v2，arXiv(Cornell University)，2019年02月25日，pp. 1-5，インターネット:<URL:https://arxiv.org/pdf/1803.10963v2.pdf>,<URL:https://arxiv.org/abs/1803.10963v2>

【文献】TAKAHASHI,Gen et al，Acoustic Scene Classification Based on Spatial Feature Extraction Using Convolutional Neural Networks，Journal of Signal Processing，Research Institute of Signal Processing，2018年07月，Vol.22 No.4，pp.199-202，ISSN:1880-1013

【文献】SALAKHUTDINOV,Russ，STA4273H: Statistical Machine Learning Lecture 3，[online]，University of Toronto，2011年，pp.1-55，インターネット<https://utstat.toronto.edu/~rsalakhu/sta4273><https://utstat.toronto.edu/~rsalakhu/sta4273/notes/Lecture3.pdf>，［検索日 2023年6月13日］

【文献】ZHANG, Chunlei et al，OINT INFORMATION FROM NONLINEAR AND LINEAR FEATURES FOR SPOOFING DETECTION:AN I-VECTOR/DNN BASED APPROACH，Proceedings of the 2016 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP 2016)，IEEE，2016年，pp. 5035-5039，ISSN:978-1-4799-9988-0

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ１０Ｌ１５／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、
多次元アテンティブニューラルネットワーク評価手段を備え、
前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成する、
ニューラルネットワークベース信号処理装置。

【請求項2】

前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元２つ毎にアテンション重みを生成する、
請求項１に記載のニューラルネットワークベース信号処理装置。

【請求項3】

２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、
多次元アテンティブニューラルネットワーク訓練手段を更に備えている、
請求項１に記載のニューラルネットワークベース信号処理装置。

【請求項4】

前記多次元アテンティブニューラルネットワーク訓練手段は、
重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
請求項３に記載のニューラルネットワークベース信号処理装置。

【請求項5】

前記多次元アテンティブニューラルネットワーク評価手段は、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
請求項１に記載のニューラルネットワークベース信号処理装置。

【請求項6】

コンピュータが実行する方法であって、
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成し、
（ｂ）統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成する、
ニューラルネットワークベース信号処理方法。

【請求項7】

コンピュータに、
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取らせ、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成させ、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成させ、
（ｂ）統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込ませ、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

特徴マップの抽出は、音声認識、話者検証、なりすましの検出など、音声処理関連のタスクに不可欠である。単一の音声のためのマルチ特徴マップは、例えば、異なるウィンドウ長で抽出された高速フーリエ変換（ＦＦＴ）スペクトログラム、定数Ｑ変換（ＣＱＴ）に度々利用される。様々な手段で抽出されたこれらの特徴マップは、様々な情報で構成されている。これらの特徴マップは、通常、タスクのために相互補完する。

【背景技術】

【0002】

従来から、マルチ特徴マップを利用するため、特徴の融合又はスコアの融合が行われている。特徴の融合には、時間又は周波数の次元のような１次元に沿った特徴マップの連結、３Ｄ特徴セットへの特徴マップのスタッキング、及び線形補間等が含まれる。スコアの融合は、単一の特徴マップを使用してシステムで生成された、スコアを融合するために使用される。

【0003】

ディープニューラルネットワーク（ＤＮＮ）は、音声処理タスクの一部又は全体のパイプラインを置き換えるために広く利用されており、特定の効果を示している。ディープラーニングにはアテンションメカニズムが導入されており、これにより特徴はタスク毎により差別化される。従って、音声毎に複数のタイプの特徴マップが用意されている場合に、最適な特徴マップを自動的に選択することが求められている。

【先行技術文献】

【非特許文献】

【0004】

【文献】C. Lai+, “Attentive Filtering Networks for Audio Replay Attack Detection”, ICASSP 2019

【発明の概要】

【発明が解決しようとする課題】

【0005】

非特許文献１は、なりすまし検出ニューラルネットワークを使用して、特徴マップ毎の重み（特徴マップにおける１つの特徴毎の１つの重み）を自動的かつ共同で学習することで、周波数領域と時間領域との両方において特徴マップを強化する、アテンティブなフィルタリングレイヤーを開示している。しかしながら、非特許文献１におけるアテンションメカニズムは、単一の特徴マップが入力された場合にのみ適しており、複数の特徴マップには適していない。

【0006】

本発明の目的の一例は、上記問題を解消し、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援し得る、ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0007】

上記目的を達成するため、本発明の一例におけるニューラルネットワークベース信号処理装置は、
２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、多次元アテンティブニューラルネットワーク評価部を備えている。

【0008】

上記目的を達成するため、本発明の一例におけるニューラルネットワークベース信号処理方法は、
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを有する。

【0009】

上記目的を達成するため、本発明の一例におけるプログラムは、
コンピュータに、
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを実行させる。

【発明の効果】

【0010】

以上のように、本発明によれば、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援することができる。

【図面の簡単な説明】

【0011】

図面と詳細な説明は、本発明のニューラルネットワークベースの信号処理方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。

【図1】図１は、実施の形態におけるニューラルネットワークベース信号処理装置の構成を概略的に示すブロック図である。

【図2】図２は、実施の形態におけるニューラルネットワークベース信号処理装置の構成の一例を示すブロック図である。

【図3】図３は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第１の例を示すブロック図である。

【図4】図４は、チャネルアテンティブネットワークの例を示す図である。

【図5】図５は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第２の例を示すブロック図である。

【図6】図６は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第３の例を示すブロック図である。

【図7】図７は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第４の例を示すブロック図である。

【図8】図８は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第５の例を示すブロック図である。

【図9】図９は、実施の形態におけるニューラルネットワークベース信号処理装置の動作全体の例を示すフロー図である。

【図10】図１０は、実施の形態によるニューラルネットワークベース信号処理装置の訓練フェーズの特定の動作を示すフロー図である。

【図11】図１１は、実施の形態におけるテスト（評価）フェーズでの特定の動作を示すフロー図である。

【図12】図１２は、実施の形態におけるニューラルネットワークベース信号処理装置を実現するコンピュータの一例を示すブロック図である。熟練した当業者は、図中の要素が単純化および明瞭化のために例示されており、必ずしも縮尺通りに描かれていないことを理解するであろう。例えば、集積回路アーキテクチャを示す図中の要素のいくつかの寸法は、現在および代替の実施の形態の理解を改善するのを助けるために、他の要素に対して誇張されている場合がある。

【発明を実施するための形態】

【0012】

以下、本発明の各実施の形態について図面を参照して説明する。以下の詳細な説明は本質的に単なる例示であり、本発明または本発明の用途および使用を限定することを意図するものではない。さらに、本発明の前述の背景または以下の詳細な説明に提示された理論に拘束される意図はない。

【0013】

（実施の形態１）
本発明の実施の形態について、添付の図面を参照して以下に詳細に説明する。

【0014】

［装置構成］
最初に、本実施の形態におけるニューラルネットワークベース信号処理装置１００の構成について、図１を用いて説明する。図１は、実施の形態におけるニューラルネットワークベース信号処理装置の構成を概略的に示すブロック図である。

【0015】

図１に示すように、実施の形態におけるニューラルネットワークベース信号処理装置は、多次元アテンティブニューラルネットワーク（ＮＮ）評価部５０を備えている。多次元アテンティブＮＮ評価部５０は、２つ以上の２次元特徴マップを含む多次元の特徴を受け取る。次に、多次元アテンティブＮＮ評価部５０は、ニューラルネットワークを用いて、多次元の特徴の要素毎にアテンション重みを生成する。その後、多次元アテンティブＮＮ評価部５０は、多次元の特徴とアテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する。

【0016】

上述のように、ニューラルネットワークベース信号処理装置１００によれば、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援することができる。

【0017】

続いて、図２～図４を参照して、ニューラルネットワークベース信号処理装置の構成について、より詳細に説明する。図２は、実施の形態におけるニューラルネットワークベース信号処理装置の構成の一例を示すブロック図である。

【0018】

実施の形態において、ニューラルネットワークベース信号処理装置は、訓練フェーズとテストフェーズとで機能する。よって、図２では、ニューラルネットワークベース信号処理装置の構成は、訓練フェーズとテストフェーズとに分けて示されている。

【0019】

図２に示すように、実施の形態におけるニューラルネットワークベース信号処理装置１００は、多次元アテンティブニューラルネットワーク（ＮＮ）評価部５０に加えて、特徴マップ抽出部１０と、マルチ特徴マップスタッキング部２０と、多次元アテンティブニューラルネットワーク（ＮＮ）訓練部３０と、ニューラルネットワーク（ＮＮ）パラメータ格納部４０とを備えている。

【0020】

これらのうち、特徴マップ抽出部１０と、マルチ特徴マップスタッキング部２０とは、両方のフェーズで機能する。このため、特徴マップ抽出部１０は、訓練フェーズでは、１０ａと表記し、テストフェーズでは、１０ｂと表記する。同様に、マルチ特徴マップスタッキング部２０も、トレーニングフェーズでは、２０ａと表記し、テストフェーズでは、２０ｂと表記する。

【0021】

訓練フェーズでは、特徴マップ抽出部１０ａは、入力された訓練データから、複数の特徴マップを抽出する。マルチ特徴マップスタッキング部２０ａは、抽出された複数の特徴マップを３次元特徴セットにスタックする。多次元アテンティブＮＮ訓練部３０は、３次元特徴セットと訓練データの各ラベルを用いて、ニューラルネットワークを訓練する。多次元アテンティブＮＮ訓練部３０は、ＮＮパラメータ格納部４０に、訓練されたＮＮパラメータを格納する。

【0022】

評価フェーズでは、特徴マップ抽出部１０ｂは、入力されたテストデータから複数の特徴マップを抽出する。マルチ特徴マップスタッキング部２０ｂは、抽出された複数の特徴マップを３次元特徴セットにスタックする。多次元アテンティブＮＮ評価部５０は、格納部４０からＮＮパラメータを受け取り、マルチ特徴マップスタッキング部２０ｂから３次元特徴セットを受け取る。その後、多次元アテンティブＮＮ評価部５０は、特定の出力ノードの事後確率を算出する。

【0023】

なりすまし検出の例では、多次元アテンティブＮＮ評価部５０は、ノード「なりすまし」の事後確率をスコアとして算出する。なお、多次元アテンティブＮＮ評価部５０は、入力音声毎に新しい特徴セットとして隠れ層を出力することもできる。そして、特徴セットは、コサイン類似度、確率的線形判別分析（ＰＬＤＡ）などの任意の分類子と共に使用できる。

【0024】

更に、多次元アテンティブＮＮ評価部５０は、統計を計算することによって、２つの次元に沿って、多次元の特徴を絞りこみ、ニューラルネットワークを用いて、残りの次元１つ毎に、アテンション重みを生成する。また、多次元アテンティブＮＮ評価部５０は、統計を計算することによって任意の１つの次元に沿って多次元の特徴を絞り込み、ニューラルネットワークを用いて、残りの次元２つ毎にアテンション重みを生成することもできる。

【0025】

続いて、図３から図８を参照して、多次元アテンティブニューラルネットワーク訓練部３０の特定の５例について説明する。

【0026】

図３は、実施の形態における多次元アテンティブニューラルネットワーク（ＮＮ）訓練部３０の第１の例を示すブロック図である。図３では、多次元アテンティブＮＮ訓練部３０は、時間・周波数領域（Ｔ＆Ｆ）絞込部１１ａと、チャネルアテンティブＮＮ訓練部１２ａと、時間・チャネル次元（Ｔ＆Ｃ）絞込部１３ａと、周波数アテンティブＮＮ訓練部１４ａと、周波数・チャネル次元（Ｆ＆Ｃ）絞込部１５ａと、時間アテンティブＮＮ訓練部１６ａと、乗算部１７ａと、ＮＮ訓練部１８ａとを備えている。

【0027】

（Ｔ＆Ｆ）絞込部１１ａは、時間領域と周波数領域との両方に沿って、［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元の入力３次元特徴セットを絞り込み、ｄ_ｃ次元の２つの統計（平均及び標準偏差）を取得する。チャネルアテンティブニューラルネットワーク訓練部１２ａは、統計を入力として受け取り、チャネルの重みのセットを出力し、そして、入力特徴マップと同じサイズで、コピーによって、ｄ_ｃ次元の重みを［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。

【0028】

チャネルアテンティブＮＮ訓練部１２ａの一例が、図４に示されている。これはスクイーズ励起ネットワークである。［２＊ｄ_ｃ］次元の統計は、全結合（ＦＣ）層に入力され、続いて、正規化線形ユニット（ＲｅＬＵ）による非線形活性化が行われる。次に、ＲｅＬＵアクティベーションの出力は、バッチ正規化を行い、別の全結合（ＦＣ）層に入力され、［ｄ_ｃ］次元の出力重みを取得する。最後の層は、重みを、入力特徴マップと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］の行列に拡張する。

【0029】

Ｔ＆Ｃ絞込部１３ａは、時間とチャネルとの両方の次元に沿って３次元特徴セットを絞り込み、平均と標準偏差とによるｄ_ｆ次元の統計を取得する。周波数アテンティブＮＮ訓練部１４ａは、統計を入力として受け取り、周波数ビン毎の重みのセット（ｄ_ｆ）を出力し、重みを、入力特徴マップと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元に拡張する。周波数アテンティブＮＮ訓練部１４ａは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。

【0030】

Ｆ＆Ｃ絞込部１５ａは、周波数とチャネルとの両方の次元に沿って３次元特徴セットを絞り込み、平均と標準偏差とによるｄ_ｆ次元の統計を取得する。時間アテンティブＮＮ訓練部１６ａは、統計を入力として受け取り、時間フレーム毎に重みのセット（ｄ_ｆ）を出力し、重みを、入力特徴マップと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元に拡張する。時間アテンティブＮＮ訓練部１６ａは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。

【0031】

乗算部１７ａは、３つの重み行列に、要素毎の方法で、入力３次元特徴セットを乗算し、それらを、１又は複数の隠れ層と１つの出力層とを含むＮＮ訓練部１８ａに送る。なりすまし検出の例では、出力層は「なりすまし」と「本物」との２つのノードで構成される。話者認識の例では、出力層のノードは話者ＩＤである。なお、多次元アテンティブＮＮ訓練部３０（１１ａ～１８ａ）は、例えば、クロスエントロピー損失最小化といった１つの目的関数のみを用いて訓練されていても良い。

【0032】

図５は、実施の形態における多次元アテンティブＮＮ訓練部３０の第２の例を示すブロック図である。図５では、多次元アテンティブＮＮ訓練部３０は、時間・周波数領域（Ｔ＆Ｆ）絞込部１１ｂと、チャネルアテンティブＮＮ訓練部１２ｂと、時間・チャネル次元（Ｔ＆Ｃ）絞込部１３ｂと、周波数アテンティブＮＮ訓練部１４ｂと、周波数・チャネル次元（Ｆ＆Ｃ）絞込部１５ａと、時間アテンティブＮＮ訓練部１６ｂと、乗算部１７ｂ、１７ｃ、及び１７ｄと、ＮＮ訓練部１８ｂとを備えている。

【0033】

Ｔ＆Ｆ絞込部１１ｂは、時間領域と周波数領域との両方に沿って、［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元の入力３次元特徴セットを絞り込み、ｄ_ｃ次元の２つの統計（平均及び標準偏差）を取得する。チャネルアテンティブＮＮ訓練部１２ｂは、統計を入力として受け取り、チャネルの重みのセットを出力し、そして、入力３次元特徴セットと同じサイズで、ｄ_ｃ次元の重みを［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。チャネルアテンティブＮＮ訓練部１２ｂは、図１０に示されるチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。乗算部１７ｂは、チャネルアテンティブＮＮ訓練部１２ｂからの重み行列に、要素毎の方法で、入力３次元特徴セットを乗算する。

【0034】

Ｔ＆Ｃ絞込部１３ｂは、時間とチャネルとの両方の次元に沿って、１７ｂの出力を絞り込み、平均と標準偏差とのｄ_ｆ次元の統計を取得する。周波数アテンティブＮＮ訓練部１４ｂは、統計を入力として受け取り、周波数ビン毎の重みのセット（ｄ_ｆ）を出力し、重みを、入力特徴マップと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元に拡張する。周波数アテンティブＮＮ訓練部１４ｂは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。乗算ユニット１７ｃは、１４ｂからの重み行列に、要素毎の方法で、１７ｂの出力を乗算する。

【0035】

Ｆ＆Ｃ絞込部１５ｂは、周波数とチャネルとの両方の次元に沿って入力特徴マップを絞り込み、平均と標準偏差とのｄ_ｆ次元の統計を取得する。時間アテンティブＮＮ訓練部１６ｂは、統計を入力として受け取り、時間フレーム毎に、重みのセット（ｄ_ｆ）を出力し、重みを、入力特徴マップと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元に拡張する。時間アテンティブＮＮ訓練部１６ｂは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。乗算部１７ｄは、１６ｂからの重み行列に、要素毎の方法で、１７ｃの出力を乗算する。

【0036】

ＮＮ訓練部１８ｂは、乗算部１７ｄの出力を入力として受け取る。ＮＮ訓練部１８ｂは、１又は複数の隠れ層と、１つの出力層とを有する。なお、多次元アテンティブＮＮ訓練部３０（１１ａ～１８ａ）は１つの目的関数のみを用いて訓練されていても良い。

【0037】

図６は、実施の形態における多次元アテンティブＮＮ訓練部３０の第３の例を示すブロック図である。図６では、多次元アテンティブＮＮ訓練部３０は、時間領域（Ｔ）絞込部１９ａと、チャネル・周波数アテンティブＮＮ訓練部３１ａと、周波数・チャネル次元（Ｆ＆Ｃ）絞込部１５ｃと、時間アテンティブＮＮ訓練部１６ｃと、乗算部１７ｅと、ＮＮ訓練部１８ｃとを備えている。

【0038】

Ｔ絞込部１９ａは、時間次元に沿って、［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元の入力３次元特徴セットを絞り込み、［ｄ_ｃ，ｄ_ｆ］次元の２つの統計（平均及び標準偏差）を取得する。チャネル・周波数アテンティブＮＮ訓練部３１ａは、統計を入力として受け取り、［ｄ_ｃ，ｄ_ｆ］次元の重みのセットを出力し、入力特徴マップと同じサイズで、重みを［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。チャネル・周波数アテンティブＮＮ訓練部３１ａは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。

【0039】

Ｆ＆Ｃ絞込部１５ｃは、周波数とチャネルとの両方の次元に沿って入力３次元特徴セットを絞り込み、平均と標準偏差とのｄ_ｔ次元の統計を取得する。時間アテンティブＮＮ訓練部１６ｃは、統計を入力として受け取り、時間フレーム毎に、重みのセット（ｄ_ｔ）を出力し、入力特徴マップと同じサイズで、重みを［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。時間アテンティブＮＮ訓練部１６ｃは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。

【0040】

乗算部１７ｅは、２つの重み行列に、要素毎の方法で、入力３次元特徴マップを乗算し、これらを、１又は複数の隠れ層と単一の出力層とを含むＮＮ訓練部１８ｃに渡す。なお、多次元アテンティブＮＮ訓練部３０は、１つの目的関数のみを用いて訓練される。

【0041】

図７は、実施の形態における多次元アテンティブＮＮ訓練部３０の第４の例を示すブロック図である。図７では、多次元アテンティブＮＮ訓練部３０は、時間次元（Ｔ）絞込部１９ｂと、チャネル・周波数アテンティブＮＮ訓練部３１ｂと、周波数・チャネル次元（Ｆ＆Ｃ）絞込部１５ｄと、時間アテンティブＮＮ訓練部１６ｄと、乗算部１７ｆ及び１７ｇと、ＮＮ訓練部１８ｄとを備えている。

【0042】

Ｔ絞込部１９ｂは、時間次元に沿って、［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］次元の入力３次元特徴セットを絞り込み、［ｄ_ｃ，ｄ_ｆ］次元の２つの統計（平均及び標準偏差）を取得します。チャネル・周波数アテンティブＮＮ訓練部３１ｂは、統計を入力として受け取り、［ｄ_ｃ，ｄ_ｆ］次元の重みのセットを出力し、入力特徴マップと同じサイズで、重みを［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。チャネル・周波数アテンティブＮＮ訓練部３１ｂは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。乗算部１７ｆは、チャネル・周波数アテンティブＮＮ訓練部３１ｂからの重み行列に、要素毎の方法で、入力３次元特徴セットを乗算する。

【0043】

Ｆ＆Ｃ絞込部１５ｄは、周波数とチャネルとの両方の次元に沿って、１７ｆの出力を絞り込み、平均と標準偏差とのｄ_ｔ次元の統計を取得する。時間アテンティブＮＮ訓練部１６ｄは、統計を入力として受け取り、時間フレーム毎に重みのセット（ｄ_ｔ）を出力し、重みを、入力３次元特徴セットと同じサイズで［ｄ_ｃ，ｄ_ｔ，ｄ_ｆ］に拡張する。時間アテンティブＮＮ訓練部１６ｄは、図４に示したチャネルアテンティブＮＮ訓練部１２ａの例と同一であっても良いし、異なっていても良い。乗算部１７ｇは、１６ｂからの重み行列に、要素毎の方法で、１７ｆの出力を乗算する。

【0044】

ＮＮ訓練部１８ｄは、１７ｇの出力を入力として受け取る。１８ｄは、１又は複数の隠れ層と単一の出力層とを含む。なお、多次元アテンティブＮＮ訓練部３０は、１つの目的関数のみを用いて訓練される。

【0045】

実施の形態における第３の例（図６）及び第４の例（図７）では、Ｔ絞込部（１９ａ、１９ｂ）とＦ＆Ｃ絞込部（１５ｃ、１５ｄ）とは、Ｆ絞込部とＣ＆Ｔ絞込部とに、又はＣ絞込部とＴ＆Ｆ絞込部とに、置き換えられても良い。最初のケースでは、２０ａと２０ｂとはチャネル・時間アテンティブネットワークに置き換えられ、１６ｃと１６ｄとは周波数アテンティブネットワークに置き換えられる。２つ目のケースでは、２０ａと２０ｂとは時間・周波数アテンティブネットワークに置き換えられ、１６ｃと１６ｄとはチャネルアテンティブネットワークに置き換えられる。

【0046】

図８は、実施の形態における多次元アテンティブＮＮ訓練部の第５の例を示すブロック図である。図８では、多次元アテンティブＮＮ訓練部３０は、チャネル・時間・周波数アテンティブＮＮ訓練部２１と、乗算部１７ｈと、ＮＮ訓練部１８ｅとを備えている。

【0047】

チャネル時間周波数注意ネットワーク２１は、３Ｄ特徴セットを入力として受け取り、［ｄｃ、ｄｔ、ｄｆ］次元の重みのセットを出力する。チャネル時間周波数注意ネットワーク２１は、図４に示されるチャネル注意ＮＮトレーニングユニット１２ａの例と同じであっても異なっていてもよい。乗算ユニット１７ｈは、２１からの重み行列を入力３Ｄ特徴セットで乗算する。要素ごとの方法。

【0048】

ＮＮ訓練部１８ｅは、１７ｈの出力を入力として受け取る。１８ｅは、１又は複数の隠れ層と単一の出力層とを含む。多次元アテンティブ訓練部３０ｈ、１つの目的関数のみを用いて訓練される。

【0049】

［装置動作］
以下に、実施の形態におけるニューラルネットワークベース信号処理装置によって行われる処理について図９～図１１を参照しながら説明する。図１～図８は、以下の説明において適宜参照される。また、実施の形態では、ニューラルネットワークベース信号処理方法は、ニューラルネットワークベース信号処理装置を動作させることによって実施される。従って、以下のニューラルネットワークベース信号処理装置による動作説明を、実施の形態におけるニューラルネットワークベース信号処理方法の説明に代える。

【0050】

図９は、実施の形態におけるニューラルネットワークベース信号処理装置１００の動作全体の例を示すフロー図である。図９は、訓練フェーズとテスト（評価）フェーズとテスト（評価）フェーズとの動作を示している。但し、図９に示す例では、訓練の動作とテストの動作とが、連続して、又は時間間隔をおいて行われ、更には、テストの動作が他の訓練の動作と一緒に行われる。

【0051】

最初に、図９に示すように、ニューラルネットワークベース信号処理装置１００は、訓練モードで動作して、ニューラルネットワークを訓練し、ＮＮパラメータをＮＮパラメータ格納部４０に格納する（ステップＡ０１）。次に、ニューラルネットワークベース信号処理装置１００は、テストモードで動作して、アテンティブ重みを生成し、事後確率をスコアとして算出する（ステップＡ０２）。

【0052】

図１０は、実施の形態によるニューラルネットワークベース信号処理装置１００の訓練フェーズの特定の動作を示すフロー図である。最初に、特徴マップ抽出部１０ａが、音声及びそれらのラベルを含む入力訓練データを読み取る（ステップＢ０１）。次に、特徴マップ抽出部１０ａは、入力訓練音声から複数の特徴マップを抽出する（ステップＢ０２）。次に、マルチ特徴マップスタッキング部２０ａは、複数の特徴マップを３次元特徴セットにスタックする（ステップＢ０３）。その後、多次元アテンティブＮＮ訓練部３０は、多次元アテンティブニューラルネットークを訓練し（ステップＢ０４）、ＮＮパラメータをＮＮパラメータ格納部４０に格納する（ステップＢ０５）。

【0053】

図１１は、実施の形態における評価フェーズでの特定の動作を示すフロー図である。最初に、特徴マップ抽出部１０ｂが、入力テストデータを読み取る（ステップＣ０１）。次に、特徴マップ抽出部１０ｂは、入力テスト音声から複数の特徴マップを抽出する（ステップＣ０２）。次に、マルチ特徴マップスタッキング部２０ｂは、複数の特徴マップを３次元特徴セットにスタックする（ステップＣ０３）。多次元アテンティブＮＮ評価部５０は、ＮＮパラメータ格納部４０からＮＮパラメータを読み取る（ステップＣ０４）。その後、多次元アテンティブＮＮ評価部５０は、テストデータを評価し、スコアまたは新しい特徴セットを出力する（ステップＣ０５）。

【0054】

（実施の形態における効果）
本発明は、複数の特徴マップにわたるアテンションメカニズムを導入し、最適な特徴の自動選択を支援する。実施の形態によれば、例えば、多数の特徴が特徴マップ全体で異なって配置されていても、音声処理タスクに対して重要な特徴を選択することが可能である。多次元アテンティブＮＮ訓練部の５つの例（図３、図５－８）は、訓練データの量の異なる条件毎に示されている。

【0055】

多次元アテンティブＮＮ訓練部３０の第１の例（図３）と第２の例（図５）とは、それぞれ３つの重みセットを学習する。両方の例の重みの数は同じである（ｄ_ｃ＋ｄ_ｔ＋ｄ_ｆ）。これらの例においては、５つの例全ての中で、重みの数が最も少なくなっている。これら例は、訓練データが限られている場合に適合している。第１の例（図３）では、３つのアテンティブネットワークが並列に接続されており、第２の例（図５）では、シリアルに接続されている。これらの例は、同様の効果を有することとなる。

【0056】

多次元アテンティブＮＮ訓練部３０の第３の例（図６）と第４の例（図７）とは、それぞれ２つの重みセットを学習する。両方の例の重みの数は同じである（ｄ_ｃ＊ｄ_ｆ＋ｄ_ｔ）。これらの例においては、５つの例全ての中で、重みの数は中程度となっている。これらの例は、訓練データが十分な場合に適している。第３の例（図７）では、２つのアテンティブネットワークが並列に接続されており、第４の例（図７）では、シリアルに接続されている。これらの例は、同様の効果を有することになる。

【0057】

多次元アテンティブＮＮ訓練部３０の第５の例（図８）の例は、１つの重みセットのみを学習する。重みの数はｄ_ｃ＊ｄ_ｆ＊ｄ_ｔである。この例では、５つの例全ての中で、重みは最も多くなっている。この例では、制約が最も少なく、大量の訓練データが利用可能な場合に最適に機能することになる。

【0058】

［プログラム］
実施の形態におけるプログラムは、コンピュータに、図９に示すステップＡ０１～Ａ０図１０に示すステップＢ０１～Ｂ０５、及び図１１に示すステップＣ０１～Ｃ０５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態におけるニューラルネットワークベース信号処理装置１００とニューラルネットワークベース信号処理方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴マップ抽出部１０、マルチ特徴マップスタッキング部２０、多次元アテンティブＮＮ訓練部３０、及び多次元アテンティブＮＮ評価部５０として機能し、処理を行なう。

【0059】

実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、特徴マップ抽出部１０、マルチ特徴マップスタッキング部２０、多次元アテンティブＮＮ訓練部３０、及び多次元アテンティブＮＮ評価部５０のいずれかとして機能しても良い。

【0060】

［物理構成］
ここで、実施の形態におけるプログラムを実行することによって、ニューラルネットワークベース信号処理装置を実現するコンピュータについて図１２を用いて説明する。図１２は、実施の形態におけるニューラルネットワークベース信号処理装置を実現するコンピュータの一例を示すブロック図である。

【0061】

図１２に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。

【0062】

ＣＰＵ１１１は、記憶装置１１３に格納された実施の形態におけるプログラム（コード群）をメインメモリ１１２に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

【0063】

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

【0064】

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

【0065】

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

【0066】

実施の形態におけるニューラルネットワークベース信号処理装置１００は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、ニューラルネットワークベース信号処理装置１００は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

【0067】

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記１８）によって表現することができるが、以下の記載に限定されるものではない。

【0068】

（付記１）
２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、
多次元アテンティブニューラルネットワーク評価部を備えている、
ニューラルネットワークベース信号処理装置。

【0069】

（付記２）
前記多次元アテンティブニューラルネットワーク評価部は、統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成する、
付記１に記載のニューラルネットワークベース信号処理装置。

【0070】

（付記３）
前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元２つ毎にアテンション重みを生成する、
付記１に記載のニューラルネットワークベース信号処理装置。

【0071】

（付記４）
２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、
多次元アテンティブニューラルネットワーク訓練部を更に備えている、
付記１～３のいずれかに記載のニューラルネットワークベース信号処理装置。

【0072】

（付記５）
前記多次元アテンティブニューラルネットワーク訓練部は、
重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記４に記載のニューラルネットワークベース信号処理装置。

【0073】

（付記６）
前記多次元アテンティブニューラルネットワーク評価部は、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記１～５のいずれかに記載のニューラルネットワークベース信号処理装置。

【0074】

（付記７）
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを有する、
ニューラルネットワークベース信号処理方法。

【0075】

（付記８）
前記ステップ（ａ）において、統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成する、
付記７に記載のニューラルネットワークベース信号処理方法。

【0076】

（付記９）
前記ステップ（ａ）において、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元２つ毎にアテンション重みを生成する、
付記７に記載のニューラルネットワークベース信号処理方法。

【0077】

（付記１０）
（ｃ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、ステップを更に有する、
付記７～９のいずれかに記載のニューラルネットワークベース信号処理方法。

【0078】

（付記１１）
前記ステップ（ｃ）において、重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記１０に記載のニューラルネットワークベース信号処理方法。

【0079】

前記ステップ（ａ）において、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記７～１１のいずれかに記載のニューラルネットワークベース信号処理方法。

【0080】

（付記１３）
コンピュータに、
（ａ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取らせ、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成させ、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成させる、ステップを実行させる、
プログラム。

【0081】

（付記１４）
前記ステップ（ａ）において、統計を計算することによって、２つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元１つ毎にアテンション重みを生成する、
付記１３に記載のプログラム。

【0082】

（付記１５）
前記ステップ（ａ）において、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元２つ毎にアテンション重みを生成する、
付記１３に記載のプログラム。

【0083】

（付記１６）
前記コンピュータに、
（ｃ）２つ以上の２次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、ステップを更に実行させる、
付記１３～１５のいずれかに記載のプログラム。

【0084】

（付記１７）
前記ステップ（ｃ）において、重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記１６に記載のプログラム。

【0085】

（付記１８）
前記ステップ（ａ）において、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記１３～１７のいずれかに記載のプログラム。

【0086】

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【産業上の利用可能性】

【0087】

上記のように、本発明によれば、話者のなりすまし検出において音声から得られた複数のスペクトログラムを使用することにより、誤認識を抑制することが可能である。本発明は、例えば、話者認証の分野において有用である。

【符号の説明】

【0088】

１０特徴マップ抽出部
２０マルチ特徴マップスタッキング部
３０多次元アテンティブニューラルネットワーク（ＮＮ）訓練部
４０ニューラルネットワーク（ＮＮ）パラメータ格納部
５０多次元アテンティブニューラルネットワーク（ＮＮ）評価部
１００ニューラルネットワークベース信号処理装置
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

【図1】