IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7367862ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
<>
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図1
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図2
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図3
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図4
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図5
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図6
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図7
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図8
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図9
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図10
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図11
  • 特許-ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-16
(45)【発行日】2023-10-24
(54)【発明の名称】ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
(51)【国際特許分類】
   G06N 3/04 20230101AFI20231017BHJP
   G10L 17/18 20130101ALI20231017BHJP
【FI】
G06N3/04
G10L17/18
【請求項の数】 7
(21)【出願番号】P 2022520943
(86)(22)【出願日】2019-10-18
(65)【公表番号】
(43)【公表日】2023-01-24
(86)【国際出願番号】 JP2019041226
(87)【国際公開番号】W WO2021075063
(87)【国際公開日】2021-04-22
【審査請求日】2022-04-05
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】ワン チョンチョン
(72)【発明者】
【氏名】越仲 孝文
(72)【発明者】
【氏名】リー コン エイク
【審査官】松平 英
(56)【参考文献】
【文献】OKABE,Koji et al,Attentive Statistics Pooling for Deep Speaker Embedding,[online], arXiv:1803.10963v2,arXiv(Cornell University),2019年02月25日,pp. 1-5,インターネット:<URL:https://arxiv.org/pdf/1803.10963v2.pdf>,<URL:https://arxiv.org/abs/1803.10963v2>
【文献】TAKAHASHI,Gen et al,Acoustic Scene Classification Based on Spatial Feature Extraction Using Convolutional Neural Networks,Journal of Signal Processing,Research Institute of Signal Processing,2018年07月,Vol.22 No.4,pp.199-202,ISSN:1880-1013
【文献】SALAKHUTDINOV,Russ,STA4273H: Statistical Machine Learning Lecture 3,[online],University of Toronto,2011年,pp.1-55,インターネット<https://utstat.toronto.edu/~rsalakhu/sta4273><https://utstat.toronto.edu/~rsalakhu/sta4273/notes/Lecture3.pdf>,[検索日 2023年6月13日]
【文献】ZHANG, Chunlei et al,OINT INFORMATION FROM NONLINEAR AND LINEAR FEATURES FOR SPOOFING DETECTION:AN I-VECTOR/DNN BASED APPROACH,Proceedings of the 2016 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP 2016),IEEE,2016年,pp. 5035-5039,ISSN:978-1-4799-9988-0
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G10L15/00-17/26
(57)【特許請求の範囲】
【請求項1】
2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、
多次元アテンティブニューラルネットワーク評価手段を備え
前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成する、
ニューラルネットワークベース信号処理装置。
【請求項2】
前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元2つ毎にアテンション重みを生成する、
請求項1に記載のニューラルネットワークベース信号処理装置。
【請求項3】
2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、
多次元アテンティブニューラルネットワーク訓練手段を更に備えている、
請求項1に記載のニューラルネットワークベース信号処理装置。
【請求項4】
前記多次元アテンティブニューラルネットワーク訓練手段は、
重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
請求項に記載のニューラルネットワークベース信号処理装置。
【請求項5】
前記多次元アテンティブニューラルネットワーク評価手段は、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
請求項1に記載のニューラルネットワークベース信号処理装置。
【請求項6】
コンピュータが実行する方法であって、
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成し、
(b)統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成する、
ニューラルネットワークベース信号処理方法。
【請求項7】
コンピュータに、
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取らせ、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成させ、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成させ
(b)統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込ませ、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
特徴マップの抽出は、音声認識、話者検証、なりすましの検出など、音声処理関連のタスクに不可欠である。単一の音声のためのマルチ特徴マップは、例えば、異なるウィンドウ長で抽出された高速フーリエ変換(FFT)スペクトログラム、定数Q変換(CQT)に度々利用される。様々な手段で抽出されたこれらの特徴マップは、様々な情報で構成されている。これらの特徴マップは、通常、タスクのために相互補完する。
【背景技術】
【0002】
従来から、マルチ特徴マップを利用するため、特徴の融合又はスコアの融合が行われている。特徴の融合には、時間又は周波数の次元のような1次元に沿った特徴マップの連結、3D特徴セットへの特徴マップのスタッキング、及び線形補間等が含まれる。スコアの融合は、単一の特徴マップを使用してシステムで生成された、スコアを融合するために使用される。
【0003】
ディープニューラルネットワーク(DNN)は、音声処理タスクの一部又は全体のパイプラインを置き換えるために広く利用されており、特定の効果を示している。ディープラーニングにはアテンションメカニズムが導入されており、これにより特徴はタスク毎により差別化される。従って、音声毎に複数のタイプの特徴マップが用意されている場合に、最適な特徴マップを自動的に選択することが求められている。
【先行技術文献】
【非特許文献】
【0004】
【文献】C. Lai+, “Attentive Filtering Networks for Audio Replay Attack Detection”, ICASSP 2019
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1は、なりすまし検出ニューラルネットワークを使用して、特徴マップ毎の重み(特徴マップにおける1つの特徴毎の1つの重み)を自動的かつ共同で学習することで、周波数領域と時間領域との両方において特徴マップを強化する、アテンティブなフィルタリングレイヤーを開示している。しかしながら、非特許文献1におけるアテンションメカニズムは、単一の特徴マップが入力された場合にのみ適しており、複数の特徴マップには適していない。
【0006】
本発明の目的の一例は、上記問題を解消し、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援し得る、ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一例におけるニューラルネットワークベース信号処理装置は、
2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、多次元アテンティブニューラルネットワーク評価部を備えている。
【0008】
上記目的を達成するため、本発明の一例におけるニューラルネットワークベース信号処理方法は、
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを有する。
【0009】
上記目的を達成するため、本発明の一例におけるプログラムは、
コンピュータに、
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを実行させる。
【発明の効果】
【0010】
以上のように、本発明によれば、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援することができる。
【図面の簡単な説明】
【0011】
図面と詳細な説明は、本発明のニューラルネットワークベースの信号処理方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。
図1図1は、実施の形態におけるニューラルネットワークベース信号処理装置の構成を概略的に示すブロック図である。
図2図2は、実施の形態におけるニューラルネットワークベース信号処理装置の構成の一例を示すブロック図である。
図3図3は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第1の例を示すブロック図である。
図4図4は、チャネルアテンティブネットワークの例を示す図である。
図5図5は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第2の例を示すブロック図である。
図6図6は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第3の例を示すブロック図である。
図7図7は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第4の例を示すブロック図である。
図8図8は、実施の形態における多次元アテンティブニューラルネットワーク訓練部の第5の例を示すブロック図である。
図9図9は、実施の形態におけるニューラルネットワークベース信号処理装置の動作全体の例を示すフロー図である。
図10図10は、実施の形態によるニューラルネットワークベース信号処理装置の訓練フェーズの特定の動作を示すフロー図である。
図11図11は、実施の形態におけるテスト(評価)フェーズでの特定の動作を示すフロー図である。
図12図12は、実施の形態におけるニューラルネットワークベース信号処理装置を実現するコンピュータの一例を示すブロック図である。熟練した当業者は、図中の要素が単純化および明瞭化のために例示されており、必ずしも縮尺通りに描かれていないことを理解するであろう。例えば、集積回路アーキテクチャを示す図中の要素のいくつかの寸法は、現在および代替の実施の形態の理解を改善するのを助けるために、他の要素に対して誇張されている場合がある。
【発明を実施するための形態】
【0012】
以下、本発明の各実施の形態について図面を参照して説明する。以下の詳細な説明は本質的に単なる例示であり、本発明または本発明の用途および使用を限定することを意図するものではない。さらに、本発明の前述の背景または以下の詳細な説明に提示された理論に拘束される意図はない。
【0013】
(実施の形態1)
本発明の実施の形態について、添付の図面を参照して以下に詳細に説明する。
【0014】
[装置構成]
最初に、本実施の形態におけるニューラルネットワークベース信号処理装置100の構成について、図1を用いて説明する。図1は、実施の形態におけるニューラルネットワークベース信号処理装置の構成を概略的に示すブロック図である。
【0015】
図1に示すように、実施の形態におけるニューラルネットワークベース信号処理装置は、多次元アテンティブニューラルネットワーク(NN)評価部50を備えている。多次元アテンティブNN評価部50は、2つ以上の2次元特徴マップを含む多次元の特徴を受け取る。次に、多次元アテンティブNN評価部50は、ニューラルネットワークを用いて、多次元の特徴の要素毎にアテンション重みを生成する。その後、多次元アテンティブNN評価部50は、多次元の特徴とアテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する。
【0016】
上述のように、ニューラルネットワークベース信号処理装置100によれば、重要な特徴が、複数の異なる特徴マップにわたっている場合でも、重要な特徴を評価して、重要な特徴の選択を支援することができる。
【0017】
続いて、図2図4を参照して、ニューラルネットワークベース信号処理装置の構成について、より詳細に説明する。図2は、実施の形態におけるニューラルネットワークベース信号処理装置の構成の一例を示すブロック図である。
【0018】
実施の形態において、ニューラルネットワークベース信号処理装置は、訓練フェーズとテストフェーズとで機能する。よって、図2では、ニューラルネットワークベース信号処理装置の構成は、訓練フェーズとテストフェーズとに分けて示されている。
【0019】
図2に示すように、実施の形態におけるニューラルネットワークベース信号処理装置100は、多次元アテンティブニューラルネットワーク(NN)評価部50に加えて、特徴マップ抽出部10と、マルチ特徴マップスタッキング部20と、多次元アテンティブニューラルネットワーク(NN)訓練部30と、ニューラルネットワーク(NN)パラメータ格納部40とを備えている。
【0020】
これらのうち、特徴マップ抽出部10と、マルチ特徴マップスタッキング部20とは、両方のフェーズで機能する。このため、特徴マップ抽出部10は、訓練フェーズでは、10aと表記し、テストフェーズでは、10bと表記する。同様に、マルチ特徴マップスタッキング部20も、トレーニングフェーズでは、20aと表記し、テストフェーズでは、20bと表記する。
【0021】
訓練フェーズでは、特徴マップ抽出部10aは、入力された訓練データから、複数の特徴マップを抽出する。マルチ特徴マップスタッキング部20aは、抽出された複数の特徴マップを3次元特徴セットにスタックする。多次元アテンティブNN訓練部30は、3次元特徴セットと訓練データの各ラベルを用いて、ニューラルネットワークを訓練する。多次元アテンティブNN訓練部30は、NNパラメータ格納部40に、訓練されたNNパラメータを格納する。
【0022】
評価フェーズでは、特徴マップ抽出部10bは、入力されたテストデータから複数の特徴マップを抽出する。マルチ特徴マップスタッキング部20bは、抽出された複数の特徴マップを3次元特徴セットにスタックする。 多次元アテンティブNN評価部50は、格納部40からNNパラメータを受け取り、マルチ特徴マップスタッキング部20bから3次元特徴セットを受け取る。その後、多次元アテンティブNN評価部50は、特定の出力ノードの事後確率を算出する。
【0023】
なりすまし検出の例では、多次元アテンティブNN評価部50は、ノード「なりすまし」の事後確率をスコアとして算出する。なお、多次元アテンティブNN評価部50は、入力音声毎に新しい特徴セットとして隠れ層を出力することもできる。そして、特徴セットは、コサイン類似度、確率的線形判別分析(PLDA)などの任意の分類子と共に使用できる。
【0024】
更に、多次元アテンティブNN評価部50は、統計を計算することによって、2つの次元に沿って、多次元の特徴を絞りこみ、ニューラルネットワークを用いて、残りの次元1つ毎に、アテンション重みを生成する。また、多次元アテンティブNN評価部50は、統計を計算することによって任意の1つの次元に沿って多次元の特徴を絞り込み、ニューラルネットワークを用いて、残りの次元2つ毎にアテンション重みを生成することもできる。
【0025】
続いて、図3から図8を参照して、多次元アテンティブニューラルネットワーク訓練部30の特定の5例について説明する。
【0026】
図3は、実施の形態における多次元アテンティブニューラルネットワーク(NN)訓練部30の第1の例を示すブロック図である。図3では、多次元アテンティブNN訓練部30は、時間・周波数領域(T&F)絞込部11aと、チャネルアテンティブNN訓練部12aと、時間・チャネル次元(T&C)絞込部13aと、周波数アテンティブNN訓練部14aと、周波数・チャネル次元(F&C)絞込部15aと、時間アテンティブNN訓練部16aと、乗算部17aと、NN訓練部18aとを備えている。
【0027】
(T&F)絞込部11aは、時間領域と周波数領域との両方に沿って、[d,d,d]次元の入力3次元特徴セットを絞り込み、d次元の2つの統計(平均及び標準偏差)を取得する。 チャネルアテンティブニューラルネットワーク訓練部12aは、統計を入力として受け取り、チャネルの重みのセットを出力し、そして、入力特徴マップと同じサイズで、コピーによって、d次元の重みを[d,d,d]に拡張する。
【0028】
チャネルアテンティブNN訓練部12aの一例が、図4に示されている。これはスクイーズ励起ネットワークである。[2*d]次元の統計は、全結合(FC)層に入力され、続いて、正規化線形ユニット(ReLU)による非線形活性化が行われる。 次に、ReLUアクティベーションの出力は、バッチ正規化を行い、別の全結合(FC)層に入力され、[d]次元の出力重みを取得する。最後の層は、重みを、入力特徴マップと同じサイズで[d,d,d]の行列に拡張する。
【0029】
T&C絞込部13aは、時間とチャネルとの両方の次元に沿って3次元特徴セットを絞り込み、平均と標準偏差とによるd次元の統計を取得する。周波数アテンティブNN訓練部14aは、統計を入力として受け取り、周波数ビン毎の重みのセット(d)を出力し、重みを、入力特徴マップと同じサイズで[d,d,d]次元に拡張する。周波数アテンティブNN訓練部14aは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。
【0030】
F&C絞込部15aは、周波数とチャネルとの両方の次元に沿って3次元特徴セットを絞り込み、平均と標準偏差とによるd次元の統計を取得する。時間アテンティブNN訓練部16aは、統計を入力として受け取り、時間フレーム毎に重みのセット(d)を出力し、重みを、入力特徴マップと同じサイズで[d,d,d]次元に拡張する。 時間アテンティブNN訓練部16aは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。
【0031】
乗算部17aは、3つの重み行列に、要素毎の方法で、入力3次元特徴セットを乗算し、それらを、1又は複数の隠れ層と1つの出力層とを含むNN訓練部18aに送る。なりすまし検出の例では、出力層は「なりすまし」と「本物」との2つのノードで構成される。話者認識の例では、出力層のノードは話者IDである。なお、 多次元アテンティブNN訓練部30(11a~18a)は、例えば、クロスエントロピー損失最小化といった1つの目的関数のみを用いて訓練されていても良い。
【0032】
図5は、実施の形態における多次元アテンティブNN訓練部30の第2の例を示すブロック図である。図5では、多次元アテンティブNN訓練部30は、時間・周波数領域(T&F)絞込部11bと、チャネルアテンティブNN訓練部12bと、時間・チャネル次元(T&C)絞込部13bと、周波数アテンティブNN訓練部14bと、周波数・チャネル次元(F&C)絞込部15aと、時間アテンティブNN訓練部16bと、乗算部17b、17c、及び17dと、NN訓練部18bとを備えている。
【0033】
T&F絞込部11bは、時間領域と周波数領域との両方に沿って、[d,d,d]次元の入力3次元特徴セットを絞り込み、d次元の2つの統計(平均及び標準偏差)を取得する。チャネルアテンティブNN訓練部12bは、統計を入力として受け取り、チャネルの重みのセットを出力し、そして、入力3次元特徴セットと同じサイズで、d次元の重みを[d,d,d]に拡張する。チャネルアテンティブNN訓練部12bは、図10に示されるチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。乗算部17bは、チャネルアテンティブNN訓練部12bからの重み行列に、要素毎の方法で、入力3次元特徴セットを乗算する。
【0034】
T&C絞込部13bは、時間とチャネルとの両方の次元に沿って、17bの出力を絞り込み、平均と標準偏差とのd次元の統計を取得する。周波数アテンティブNN訓練部14は、統計を入力として受け取り、周波数ビン毎の重みのセット(d)を出力し、重みを、入力特徴マップと同じサイズで[d,d,d]次元に拡張する。周波数アテンティブNN訓練部14bは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。乗算ユニット17cは、14bからの重み行列に、要素毎の方法で、17bの出力を乗算する。
【0035】
F&C絞込部15bは、周波数とチャネルとの両方の次元に沿って入力特徴マップを絞り込み、平均と標準偏差とのd次元の統計を取得する。 時間アテンティブNN訓練部16bは、統計を入力として受け取り、時間フレーム毎に、重みのセット(d)を出力し、重みを、入力特徴マップと同じサイズで[d,d,d]次元に拡張する。時間アテンティブNN訓練部16bは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。乗算部17dは、16bからの重み行列に、要素毎の方法で、17cの出力を乗算する。
【0036】
NN訓練部18bは、乗算部17dの出力を入力として受け取る。NN訓練部18bは、1又は複数の隠れ層と、1つの出力層とを有する。なお、多次元アテンティブNN訓練部30(11a~18a)は1つの目的関数のみを用いて訓練されていても良い。
【0037】
図6は、実施の形態における多次元アテンティブNN訓練部30の第3の例を示すブロック図である。図6では、多次元アテンティブNN訓練部30は、時間領域(T)絞込部19aと、チャネル・周波数アテンティブNN訓練部31aと、周波数・チャネル次元(F&C)絞込部15cと、時間アテンティブNN訓練部16cと、乗算部17eと、NN訓練部18cとを備えている。
【0038】
T絞込部19aは、時間次元に沿って、[d,d,d]次元の入力3次元特徴セットを絞り込み、[d,d]次元の2つの統計(平均及び標準偏差)を取得する。チャネル・周波数アテンティブNN訓練部31aは、統計を入力として受け取り、[d,d]次元の重みのセットを出力し、入力特徴マップと同じサイズで、重みを[d,d,d]に拡張する。チャネル・周波数アテンティブNN訓練部31aは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。
【0039】
F&C絞込部15は、周波数とチャネルとの両方の次元に沿って入力3次元特徴セットを絞り込み、平均と標準偏差とのd次元の統計を取得する。 時間アテンティブNN訓練部16は、統計を入力として受け取り、時間フレーム毎に、重みのセット(d)を出力し、入力特徴マップと同じサイズで、重みを[d,d,d]に拡張する。時間アテンティブNN訓練部16は、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。
【0040】
乗算部17eは、2つの重み行列に、要素毎の方法で、入力3次元特徴マップを乗算し、これらを、1又は複数の隠れ層と単一の出力層とを含むNN訓練部18cに渡す。なお、多次元アテンティブNN訓練部30は、1つの目的関数のみを用いて訓練される。
【0041】
図7は、実施の形態における多次元アテンティブNN訓練部30の第4の例を示すブロック図である。図7では、多次元アテンティブNN訓練部30は、時間次元(T)絞込部19bと、チャネル・周波数アテンティブNN訓練部31bと、周波数・チャネル次元(F&C)絞込部15dと、時間アテンティブNN訓練部16dと、乗算部17f及び17gと、NN訓練部18dとを備えている。
【0042】
T絞込部19bは、時間次元に沿って、[d,d,d]次元の入力3次元特徴セットを絞り込み、[d,d]次元の2つの統計(平均及び標準偏差)を取得します。 チャネル・周波数アテンティブNN訓練部31bは、統計を入力として受け取り、[d,d]次元の重みのセットを出力し、入力特徴マップと同じサイズで、重みを[d,d,d]に拡張する。 チャネル・周波数アテンティブNN訓練部31bは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。乗算部17fは、チャネル・周波数アテンティブNN訓練部31bからの重み行列に、要素毎の方法で、入力3次元特徴セットを乗算する。
【0043】
F&C絞込部15dは、周波数とチャネルとの両方の次元に沿って、17fの出力を絞り込み、平均と標準偏差とのd次元の統計を取得する。時間アテンティブNN訓練部16dは、統計を入力として受け取り、時間フレーム毎に重みのセット(d)を出力し、重みを、入力3次元特徴セットと同じサイズで[d,d,d]に拡張する。時間アテンティブNN訓練部16dは、図4に示したチャネルアテンティブNN訓練部12aの例と同一であっても良いし、異なっていても良い。乗算部17gは、16bからの重み行列に、要素毎の方法で、17fの出力を乗算する。
【0044】
NN訓練部18dは、17gの出力を入力として受け取る。18dは、1又は複数の隠れ層と単一の出力層とを含む。なお、多次元アテンティブNN訓練部30は、1つの目的関数のみを用いて訓練される。
【0045】
実施の形態における第3の例(図)及び第4の例(図)では、T絞込部(19a、19b)とF&C絞込部(15c、15d)とは、F絞込部とC&T絞込部とに、又はC絞込部とT&F絞込部とに、置き換えられても良い。最初のケースでは、20aと20bとはチャネル・時間アテンティブネットワークに置き換えられ、16cと16dとは周波数アテンティブネットワークに置き換えられる。2つ目のケースでは、20aと20bとは時間・周波数アテンティブネットワークに置き換えられ、16cと16dとはチャネルアテンティブネットワークに置き換えられる。
【0046】
図8は、実施の形態における多次元アテンティブNN訓練部の第5の例を示すブロック図である。図8では、多次元アテンティブNN訓練部30は、チャネル・時間・周波数アテンティブNN訓練部21と、乗算部17hと、NN訓練部18eとを備えている。
【0047】
チャネル時間周波数注意ネットワーク21は、3D特徴セットを入力として受け取り、[dc、dt、df]次元の重みのセットを出力する。 チャネル時間周波数注意ネットワーク21は、図4に示されるチャネル注意NNトレーニングユニット12aの例と同じであっても異なっていてもよい。乗算ユニット17hは、21からの重み行列を入力3D特徴セットで乗算する。 要素ごとの方法。
【0048】
NN訓練部18eは、17hの出力を入力として受け取る。18eは、1又は複数の隠れ層と単一の出力層とを含む。 多次元アテンティブ訓練部30h、1つの目的関数のみを用いて訓練される。
【0049】
[装置動作]
以下に、実施の形態におけるニューラルネットワークベース信号処理装置によって行われる処理について図9図11を参照しながら説明する。図1図8は、以下の説明において適宜参照される。また、実施の形態では、ニューラルネットワークベース信号処理方法は、ニューラルネットワークベース信号処理装置を動作させることによって実施される。従って、以下のニューラルネットワークベース信号処理装置による動作説明を、実施の形態におけるニューラルネットワークベース信号処理方法の説明に代える。
【0050】
図9は、実施の形態におけるニューラルネットワークベース信号処理装置100の動作全体の例を示すフロー図である。図9は、訓練フェーズとテスト(評価)フェーズとテスト(評価)フェーズとの動作を示している。但し、図9に示す例では、訓練の動作とテストの動作とが、連続して、又は時間間隔をおいて行われ、更には、テストの動作が他の訓練の動作と一緒に行われる。
【0051】
最初に、図に示すように、ニューラルネットワークベース信号処理装置100は、訓練モードで動作して、ニューラルネットワークを訓練し、NNパラメータをNNパラメータ格納部40に格納する(ステップA01)。 次に、ニューラルネットワークベース信号処理装置100は、テストモードで動作して、アテンティブ重みを生成し、事後確率をスコアとして算出する(ステップA02)。
【0052】
図10は、実施の形態によるニューラルネットワークベース信号処理装置100の訓練フェーズの特定の動作を示すフロー図である。最初に、特徴マップ抽出部10aが、音声及びそれらのラベルを含む入力訓練データを読み取る(ステップB01)。次に、特徴マップ抽出部10aは、入力訓練音声から複数の特徴マップを抽出する(ステップB02)。次に、マルチ特徴マップスタッキング部20aは、複数の特徴マップを3次元特徴セットにスタックする(ステップB03)。 その後、多次元アテンティブNN訓練部30は、多次元アテンティブニューラルネットークを訓練し(ステップB04)、NNパラメータをNNパラメータ格納部40に格納する(ステップB05)。
【0053】
図11は、実施の形態における評価フェーズでの特定の動作を示すフロー図である。最初に、特徴マップ抽出部10bが、入力テストデータを読み取る(ステップC01)。 次に、特徴マップ抽出部10bは、入力テスト音声から複数の特徴マップを抽出する(ステップC02)。次に、マルチ特徴マップスタッキング部20bは、複数の特徴マップを3次元特徴セットにスタックする(ステップC03)。 多次元アテンティブNN評価部50は、NNパラメータ格納部40からNNパラメータを読み取る(ステップC04)。その後、多次元アテンティブNN評価部50は、テストデータを評価し、スコアまたは新しい特徴セットを出力する(ステップC05)。
【0054】
(実施の形態における効果)
本発明は、複数の特徴マップにわたるアテンションメカニズムを導入し、最適な特徴の自動選択を支援する。実施の形態によれば、例えば、多数の特徴が特徴マップ全体で異なって配置されていても、音声処理タスクに対して重要な特徴を選択することが可能である。多次元アテンティブNN訓練部の5つの例(図3図5-8)は、訓練データの量の異なる条件毎に示されている。
【0055】
多次元アテンティブNN訓練部30の第1の例(図3)と第2の例(図5)とは、それぞれ3つの重みセットを学習する。両方の例の重みの数は同じである(d+d+d)。これらの例においては、5つの例全ての中で、重みの数が最も少なくなっている。これら例は、訓練データが限られている場合に適合している。第1の例(図3)では、3つのアテンティブネットワークが並列に接続されており、第2の例(図5)では、シリアルに接続されている。これらの例は、同様の効果を有することとなる。
【0056】
多次元アテンティブNN訓練部30の第3の例(図6)と第4の例(図7)とは、それぞれ2つの重みセットを学習する。両方の例の重みの数は同じである(d*d+d)。これらの例においては、5つの例全ての中で、重みの数は中程度となっている。これらの例は、訓練データが十分な場合に適している。第3の例(図7)では、2つのアテンティブネットワークが並列に接続されており、第4の例(図7)では、シリアルに接続されている。これらの例は、同様の効果を有することになる。
【0057】
多次元アテンティブNN訓練部30の第5の例(図8)の例は、1つの重みセットのみを学習する。重みの数はd*d*dである。この例では、5つの例全ての中で、重みは最も多くなっている。この例では、制約が最も少なく、大量の訓練データが利用可能な場合に最適に機能することになる。
【0058】
[プログラム]
実施の形態におけるプログラムは、コンピュータに、図9に示すステップA01~A0図10に示すステップB01~B05、及び図11に示すステップC01~C05を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態におけるニューラルネットワークベース信号処理装置100とニューラルネットワークベース信号処理方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴マップ抽出部10、マルチ特徴マップスタッキング部20、多次元アテンティブNN訓練部30、及び多次元アテンティブNN評価部50として機能し、処理を行なう。
【0059】
実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、特徴マップ抽出部10、マルチ特徴マップスタッキング部20、多次元アテンティブNN訓練部30、及び多次元アテンティブNN評価部50のいずれかとして機能しても良い。
【0060】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、ニューラルネットワークベース信号処理装置を実現するコンピュータについて図12を用いて説明する。図12は、実施の形態におけるニューラルネットワークベース信号処理装置を実現するコンピュータの一例を示すブロック図である。
【0061】
図12に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
【0062】
CPU111は、記憶装置113に格納された実施の形態におけるプログラム(コード群)をメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
【0063】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置11での表示を制御する。
【0064】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0065】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0066】
実施の形態におけるニューラルネットワークベース信号処理装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、ニューラルネットワークベース信号処理装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
【0067】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記18)によって表現することができるが、以下の記載に限定されるものではない。
【0068】
(付記1)
2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、
多次元アテンティブニューラルネットワーク評価部を備えている、
ニューラルネットワークベース信号処理装置。
【0069】
(付記2)
前記多次元アテンティブニューラルネットワーク評価部は、統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成する、
付記1に記載のニューラルネットワークベース信号処理装置。
【0070】
(付記3)
前記多次元アテンティブニューラルネットワーク評価手段は、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元2つ毎にアテンション重みを生成する、
付記1に記載のニューラルネットワークベース信号処理装置。
【0071】
(付記4)
2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、
多次元アテンティブニューラルネットワーク訓練部を更に備えている、
付記1~3のいずれかに記載のニューラルネットワークベース信号処理装置。
【0072】
(付記5)
前記多次元アテンティブニューラルネットワーク訓練部は、
重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記4に記載のニューラルネットワークベース信号処理装置。
【0073】
(付記6)
前記多次元アテンティブニューラルネットワーク評価部は、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記1~5のいずれかに記載のニューラルネットワークベース信号処理装置。
【0074】
(付記7)
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成し、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成する、ステップを有する、
ニューラルネットワークベース信号処理方法。
【0075】
(付記8)
前記ステップ(a)において、統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成する、
付記7に記載のニューラルネットワークベース信号処理方法。
【0076】
(付記9)
前記ステップ(a)において、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元2つ毎にアテンション重みを生成する、
付記7に記載のニューラルネットワークベース信号処理方法。
【0077】
(付記10)
(c)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、ステップを更に有する、
付記7~9のいずれかに記載のニューラルネットワークベース信号処理方法。
【0078】
(付記11)
前記ステップ(c)において、重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記10に記載のニューラルネットワークベース信号処理方法。
【0079】
前記ステップ(a)において、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記7~11のいずれかに記載のニューラルネットワークベース信号処理方法。
【0080】
(付記13)
コンピュータに、
(a)2つ以上の2次元特徴マップを含む多次元の特徴を受け取らせ、
ニューラルネットワークを用いて、前記多次元の特徴の要素毎にアテンション重みを生成させ、
更に、前記多次元の特徴と前記アテンション重みとに基づいて、指定されたクラス毎に、低次元特徴又は事後確率を生成させる、ステップを実行させる、
プログラム。
【0081】
(付記14)
前記ステップ(a)において、統計を計算することによって、2つの次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元1つ毎にアテンション重みを生成する、
付記13に記載のプログラム
【0082】
(付記15)
前記ステップ(a)において、統計を計算することによって、いずれかの単一の次元に沿って多次元の特徴を絞り込み、前記ニューラルネットワークを用いて、残りの次元2つ毎にアテンション重みを生成する、
付記13に記載のプログラム
【0083】
(付記16)
記コンピュータに、
(c)2つ以上の2次元特徴マップを含む多次元の特徴を受け取り、ラベル付けされた多次元の特徴を用い、分類ネットワークと共同してアテンションネットワークを訓練する、ステップを更に実行させる、
付記13~15のいずれかに記載のプログラム
【0084】
(付記17)
前記ステップ(c)において、重み行列と多次元の特徴とを乗算し、乗算後のラベル付けされた多次元の特徴を用いて、分類ネットワークと共同で前記アテンションネットワークを訓練する、
付記16に記載のプログラム
【0085】
(付記18)
前記ステップ(a)において、入力された多次元の特徴が実際の発話又はなりすましから得られたものであるという事後確率を生成する、
付記13~17のいずれかに記載のプログラム
【0086】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0087】
上記のように、本発明によれば、話者のなりすまし検出において音声から得られた複数のスペクトログラムを使用することにより、誤認識を抑制することが可能である。 本発明は、例えば、話者認証の分野において有用である。
【符号の説明】
【0088】
10 特徴マップ抽出部
20 マルチ特徴マップスタッキング部
30 多次元アテンティブニューラルネットワーク(NN)訓練部
40 ニューラルネットワーク(NN)パラメータ格納部
50 多次元アテンティブニューラルネットワーク(NN)評価部
100 ニューラルネットワークベース信号処理装置
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12