(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-09
(45)【発行日】2024-02-20
(54)【発明の名称】音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
G10L 15/20 20060101AFI20240213BHJP
G10L 15/06 20130101ALI20240213BHJP
G10L 15/10 20060101ALI20240213BHJP
G10L 15/16 20060101ALI20240213BHJP
G10L 15/28 20130101ALI20240213BHJP
【FI】
G10L15/20 380
G10L15/06 300D
G10L15/06 300Y
G10L15/10 200W
G10L15/16
G10L15/28 400
(21)【出願番号】P 2020187686
(22)【出願日】2020-11-11
【審査請求日】2020-11-11
【審判番号】
【審判請求日】2022-12-01
(31)【優先権主張番号】201911164974.2
(32)【優先日】2019-11-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(72)【発明者】
【氏名】チャン, セー
(72)【発明者】
【氏名】ファン, ビン
(72)【発明者】
【氏名】リー, シン
(72)【発明者】
【氏名】バイ, ジンフェン
(72)【発明者】
【氏名】チェン, シュウ
(72)【発明者】
【氏名】ジア, レイ
【合議体】
【審判長】五十嵐 努
【審判官】樫本 剛
【審判官】川崎 優
(56)【参考文献】
【文献】米国特許出願公開第2019/0259409(US,A1)
【文献】特開2019-20598(JP,A)
【文献】国際公開第2018/037643(WO,A1)
【文献】特開平11-69494(JP,A)
【文献】米国特許出願公開第2019/0355375(US,A1)
【文献】特表2019-508730(JP,A)
【文献】特表2017-520803(JP,A)
【文献】Xiaofei Wang et al.,”Stream attention-based multi-array end-to-end speech recognition”,2019 IEEE International Conference on Acoustics,Speech and Signal processing(ICAPPS 2019),2019年4月17日,p.7105-7109
【文献】“A Breakthrough in Speech Technology: Baidu Launched SMLTA, the First Streaming Multi-layer Truncated Attention Model for Large-scale Online Speech Recognition”,http://research.baidu.com/Blog/index-view?id=109,Baidu Research,2019年1月21日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 - 25/93
(57)【特許請求の範囲】
【請求項1】
マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、前記第1のマイクロフォンとは異なる前記マイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するステップと、
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップであって、前記強調特徴
は、前記第1の音声信号及び前記第2の音声信号から取得した複素特徴を実数形式に変換したものであるステップと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するステップと、を含み
、
音声認識結果を取得するステップが、
第1のマイクロフォンと第2のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するステップを含む音声認識方法。
【請求項2】
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップは、
前記第1の音声信号及び前記第2の音声信号に対してそれぞれ複素フーリエ変換を行うステップと、
複素畳み込みニューラルネットワークによって、変換された第1の音声信号及び第2の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って
前記複素特徴を取得するステップと、
前記複素特徴を実数形式の前記強調特徴に変換するステップと、を含むことを特徴とする、請求項1に記載の音声認識方法。
【請求項3】
音声認識結果を取得するステップは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に対応するキャラクタ出力を決定するステップを含むことを特徴とする、請求項2に記載の音声認識方法。
【請求項4】
音声認識結果を取得するステップは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するステップをさらに含むことを特徴とする、請求項3に記載の音声認識方法。
【請求項5】
前記方法は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に関連付けられたターゲット音源の方向を決定するステップと、
決定された方向に関連付けられた通知灯を点灯させるステップと、をさらに含むことを特徴とする、請求項2に記載の音声認識方法。
【請求項6】
前記方法は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するか否かを決定するステップと、
前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するステップと、をさらに含むことを特徴とする、請求項2に記載の音声認識方法。
【請求項7】
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するステップは、
前記マイクロフォンアレイ内の第3のマイクロフォンから採集された第3の音声信号を取得するステップと、
ニューラルネットワークによって前記第1の音声信号、前記第2の音声信号、及び第3の音声信号に関連付けられた強調特徴を抽出するステップと、を含むことを特徴とする、請求項1に記載の音声認識方法。
【請求項8】
前記方法は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第1の遠距離場音声信号と第2の遠距離場音声信号とを含むステップと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の音声認識方法。
【請求項9】
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するステップは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップを含むことを特徴とする、請求項8に記載の音声認識方法。
【請求項10】
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するステップを含むことを特徴とする、請求項9に記載の音声認識方法。
【請求項11】
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第1のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第2のセットのインパルス応答とを生成するステップをさらに含むことを特徴とする、請求項10に記載の音声認識方法。
【請求項12】
ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするステップは、
前記近距離場音声信号と、前記第1のセットのインパルス応答と、前記ノイズ信号と、前記第2のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するステップをさらに含むことを特徴とする、請求項11に記載の音声認識方法。
【請求項13】
マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、前記第1のマイクロフォンとは異なる前記マイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するように構成される音声信号取得モジュールと、
ニューラルネットワークによって前記第1の音声信号及び前記第2の音声信号に関連付けられた強調特徴を抽出するように構成される強調特徴抽出モジュールであって、前記強調特徴
は、前記第1の音声信号及び前記第2の音声信号から取得した複素特徴を実数形式に変換したものである強調特徴抽出モジュールと、
抽出された前記強調特徴に基づいて、音声認識結果を取得するように構成される音声認識モジュールと、を含み
、
前記音声認識モジュールが、
第1のマイクロフォンと第2のマイクロフォンのダブルチャンネルから抽出された強調特徴帯域幅が、シングルチャンネルから抽出された強調特徴帯域幅と同じであるように、所定のサイズに前記強調特徴を圧縮するように構成される特徴圧縮モジュールを含む音声認識装置。
【請求項14】
前記強調特徴抽出モジュールは、
前記第1の音声信号及び前記第2の音声信号に対してそれぞれ複素フーリエ変換を行うように構成されるフーリエ変換モジュールと、
複素畳み込みニューラルネットワークによって、変換された第1の音声信号及び第2の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って
前記複素特徴を取得するように構成される畳み込み処理モジュールと、
前記複素特徴を実数形式の前記強調特徴に変換するように構成される変換モジュールと、を含むことを特徴とする、請求項13に記載の音声認識装置。
【請求項15】
前記音声認識モジュールは、
ストリーミング型多層切断注意モデルによって、前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に対応するキャラクタ出力を決定するように構成されるキャラクタ出力モジュールを含むことを特徴とする、請求項14に記載の音声認識装置。
【請求項16】
前記音声認識モジュールは、
前記ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するように構成される特徴提供モジュールをさらに含むことを特徴とする、請求項15に記載の音声認識装置。
【請求項17】
前記装置は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号に関連付けられたターゲット音源の方向を決定するように構成される方向決定モジュールと、
決定された方向に関連付けられた通知灯を点灯させるように構成される通知灯点灯モジュールと、をさらに含むことを特徴とする、請求項14に記載の音声認識装置。
【請求項18】
前記装置は、
前記強調特徴に基づいて、前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するか否かを決定するように構成されるウェイクアップ判断モジュールと、
前記第1の音声信号及び前記第2の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するように構成される認識開始モジュールと、をさらに含むことを特徴とする、請求項14に記載の音声認識装置。
【請求項19】
前記強調特徴抽出モジュールは、
前記マイクロフォンアレイ内の第3のマイクロフォンから採集された第3の音声信号を取得するように構成される信号取得モジュールと、
ニューラルネットワークによって前記第1の音声信号、前記第2の音声信号、及び第3の音声信号に関連付けられた前記強調特徴を抽出するように構成される特徴抽出モジュールと、を含むことを特徴とする、請求項13に記載の音声認識装置。
【請求項20】
前記装置は、
前記マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するように構成されるマルチチャンネル遠距離場音声信号取得モジュールであって、前記マルチチャンネル遠距離場音声信号は、少なくとも第1の遠距離場音声信号と第2の遠距離場音声信号とを含むマルチチャンネル遠距離場音声信号取得モジュールと、
前記マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするように構成されるトレーニングモジュールと、をさらに含むことを特徴とする、請求項13に記載の音声認識装置。
【請求項21】
前記マルチチャンネル遠距離場音声信号取得モジュールは、
近距離場音声信号に基づいて、ランダムノイズを追加することによって前記マルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするように構成されるリアルタイムシミュレーションモジュールを含むことを特徴とする、請求項20に記載の音声認識装置。
【請求項22】
前記リアルタイムシミュレーションモジュールは、
縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの前記部屋における位置、ターゲット音源の前記部屋における位置、及びノイズソースの前記部屋における位置を含むシミュレーションパラメータをランダムに設定するように構成されるランダム設定モジュールを含むことを特徴とする、請求項21に記載の音声認識装置。
【請求項23】
前記リアルタイムシミュレーションモジュールは、
前記シミュレーションパラメータに基づいて、前記近距離場音声信号に対する第1のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第2のセットのインパルス応答とを生成するように構成されるインパルス応答生成モジュールと、をさらに含むことを特徴とする、請求項22に記載の音声認識装置。
【請求項24】
前記リアルタイムシミュレーションモジュールは、
前記近距離場音声信号と、前記第1のセットのインパルス応答と、前記ノイズ信号と、前記第2のセットのインパルス応答と、信号対雑音比とに基づいて、前記マルチチャンネル遠距離場音声信号を生成するように構成される第2のマルチチャンネル遠距離場音声信号取得モジュールをさらに含むことを特徴とする、請求項23に記載の音声認識装置。
【請求項25】
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記電子機器が請求項1~12のいずれかに記載の方法を実現することを特徴とする、電子機器。
【請求項26】
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項1~12のいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
【請求項27】
コンピュータプログラムであって、
前記コンピュータプログラムが実行される場合、前記コンピュータに請求項1~12のいずれかに記載の方法を実行させることを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、コンピュータ技術の分野に関し、より具体的には、音声技術の分野に関する。
【背景技術】
【0002】
音声認識とは、音声信号を、コンピュータによって対応するテキスト又はキャラクタに変換するプロセスを指し、人間と機械とのインタラクションを実現する重要な手段の一つである。近年、ディープラーニング技術が音声認識の分野で広く普及されることに伴い、音声認識の精度が大幅に向上している。また、スマートデバイスの不断な普及によって、音声を使用して認識する機会が既に非常に豊富になっている。例えば、音声認識技術が既にスマートホーム、車載音声、スマートオフィスなどの業界とシーンに広く応用されている。音声認識技術は、自然言語処理と音声合成などの技術と組み合わせることで、スマートスピーカ、会議同時通訳、スマートカスタマーサービスアシスタントなど、より複雑なアプリケーションを生成することができる。
【0003】
音源とオーディオモニタリングとの間の距離により、音声認識は、近距離場音声認識と遠距離場音声認識に分けることができる。近距離場音声認識とは、コンピュータが、音声入力法を使用する場合など、近距離場の条件で音声を認識可能にすることを指す。遠距離場音声認識とは、スマートスピーカ又は車載ナビゲーションなどの遠距離場の条件で音声を認識可能にすることを指す。遠距離場音声認識のシーンでは、実環境に大量の環境ノイズと残響などが存在するため、拾った信号の品質が低くなり、遠距離場音声認識の精度は、近距離場音声認識の精度より低くなる。遠距離場環境では、オーディオモニタリングからターゲット音源の距離が遠いため、ターゲット信号が大幅に減衰するうえ、環境が騒がしいために干渉信号が多く、最終的には、信号対雑音比が低くなり、音声認識性能が悪くなる。一般的に、ユーザが数メートル離れたところに立って、スマートスピーカと音声インタラクションを行うことは、一つの典型的な遠距離場音声認識アプリケーションのシーンである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の例示的な実施例によれば、音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様では、マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、第1のマイクロフォンとは異なるマイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するステップと、ニューラルネットワークによって第1の音声信号及び第2の音声信号に関連付けられた強調特徴を抽出するステップと、強調特徴に基づいて音声認識結果を取得するステップと、を含む音声認識方法が提供される。
【0006】
本開示の第2の態様では、マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、第1のマイクロフォンとは異なるマイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するように構成される音声信号取得モジュールと、ニューラルネットワークによって、第1の音声信号及び第2の音声信号に関連付けられた強調特徴を抽出するように構成される強調特徴抽出モジュールと、強調特徴に基づいて音声認識結果を取得するように構成される音声認識モジュールと、を含む音声認識装置が提供される。
【0007】
本開示の第3の態様では、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、電子機器が本開示の実施例に係る各種の方法又は/又はプロセスを実現する電子機器が提供される。
【0008】
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の実施例に係る各種の方法又は/又はプロセスが実現されるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第5の態様では、コンピュータプログラムであって、前記コンピュータプログラムが実行される場合、前記コンピュータに本開示の実施例に係る各種の方法又は/又はプロセスを実行させるコンピュータプログラムが提供される。
【0009】
なお、本発明の概要に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。
【図面の簡単な説明】
【0010】
本開示の各実施例の上記及び他の特徴、利点及び態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一又は類似する符号は、同一又は類似する要素を表す。
【
図2】本開示の実施例に係る例示的な音声認識シーンの概略図を示す。
【
図3】本開示の実施例に係る音声認識方法のフローチャートを示す。
【
図4】本開示の実施例に係る音声強調及び認識一体化モデルのアーキテクチャの概略図を示す。
【
図5】本開示の実施例に係る複素畳み込みニューラルネットワークに基づく音声強調及び認識一体化モデルの処理プロセスの概略図を示す。
【
図6】本開示に係る遠距離場音声信号をリアルタイムでシミュレートするプロセスの概略図を示す。
【
図7】本開示の実施例に係る音声認識装置のブロック図を示す。
【
図8】本開示の複数の実施例を実施可能な電子機器のブロック図を示す。
【発明を実施するための形態】
【0011】
本開示の実施例を、図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面及び実施例は例示に過ぎず、本開示の保護範囲を限定するものではないと理解されたい。
【0012】
本開示の実施例の説明において、「含む」という用語及びその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味すると理解されるべきである。他の明示的及び暗黙的な定義も以下に含まれ得る。
【0013】
典型的な音声認識シーンは、ターゲット音源、非ターゲット音源(ノイズソースなど)、オーディオモニタリング(マイクロフォン又はマイクロフォンアレイなど)、及び音声認識ソフトウェアシステムを含む。家庭のシーンにおけるスマートスピーカ製品を例として、ターゲット音源は、スマートスピーカに向けて音を出すユーザであり、非ターゲット音源は、家電雑音などの周囲環境の音の干渉であり、オーディオモニタリング及び音声認識ソフトウェアシステムは、スマートスピーカのハードウェア及びソフトウェアの部分である。オーディオモニタリングでピックアップされた信号では、ターゲット音源からの信号がターゲット信号と呼ばれ、非ターゲット音源からの信号が干渉信号と呼ばれる。ターゲット信号強度と干渉信号強度との比が信号対雑音比と呼ばれる。現在、音声認識技術は、高い信号対雑音比のシーン(例えば近距離場音声認識シーン)では、良好に機能するが、低い信号対雑音比のシーンでは(遠距離場音声認識シーン)、機能が不安定となることが多い。
【0014】
遠距離場音声認識の精度を向上させるためには、通常、オーディオモニタリングとしてマイクロフォンアレイを使用することで、音声採集の品質を向上させる。次に、マルチチャンネル音声信号処理技術を使用することで、ターゲット信号を強くし、音声認識の精度を向上させる。
図1は、従来の音声認識プロセスの概略図を示し、取得された音声信号110について、ブロック120においてデジタル信号処理によって音声信号110を強調し、ブロック130において、強調された音声信号を音声認識し、認識結果140を取得する。トレーニング中、バックエンド音声認識は、強調された音声信号を使用してバックエンド認識モデルをトレーニングする。
【0015】
従来のフロントエンド音声強調の目的は、デジタル信号処理技術を使用してターゲット信号を強調し、より明瞭な音声を取得することである。フロントエンド音声強調は、通常、音源の到来方向(DOA:Direction Of Arrival)の推定とビームフォーミング(BF:Beam Forming)とを含む。DOA技術は、主に、ターゲット音源の方向を推定するために使用され、BF技術は、ターゲット音源の方位情報を使用してターゲット信号を強調し、干渉信号を抑制する。一般的に使用されるDOA技術は、到着遅延に基づく指向性アルゴリズム、空間スペクトル推定に基づく指向性アルゴリズムなどを含む。一般的に使用されるBF技術には、最小分散無歪応答ビームフォーミング(MVDR BF)、線形制約最小分散ビームフォーミング(LCMV BF)、及び一般化サイドローブキャンセラ(ビームフォーミング(GSC BF)などがある。これから分かるように、従来のフロントエンド音声強調は、本質的には、ターゲット音源方向信号(例えば、ターゲットセクタ内からの音声)をすべて保護し、非ターゲット方向信号(例えば、ターゲットセクタ外からの音声)を可能な限り抑制する。また、いくつかの改良方法は、他の技術によってフロントエンド音声強調を改良しようとするが、これらの改良方法は、依然として信号処理のFilter-and-Sum法から、ターゲット音源とノイズソースの方位が一致しないと仮定して、空間フィルタリング及び周波数領域フィルタリングによって、マルチチャンネル音声から複数の方向の特徴を抽出する必要があり、その本質は、依然として従来のデジタル信号処理技術に依存する。
【0016】
しかしながら、デジタル信号処理に基づく従来の音声強調方法には、いくつかの欠点があるため、音声認識のエラー率が比較的高くなる。一方、フロントエンド音声強調とバックエンドトレーニングの最適化ターゲットは統一されておらず、フロントエンド音声強調プロセスの最適化プロセスは、バックエンド認識プロセスとは独立しており、その最適化ターゲットは、信号対雑音比の観点から、ターゲット信号を保持し、干渉ノイズを抑制することが多い。当該最適化ターゲットは、バックエンド認識の最終的なターゲット(音声認識の精度を向上させる)と一致せず、ターゲットの不統一は、フロントエンド強調の最適化結果が最終的なターゲット上で最適でないことにつながる可能性がある。つまり、デジタル信号処理に基づく従来の音声強調アルゴリズムは、バックエンド音声認識のニューラルネットワークと共同学習及び共同最適化を行うことができない。また、両者は、統一的な最適化方法に欠き、DOAとBFの最適化ターゲットを、音声認識のターゲットと揃える技術案がない。もう一方で、従来のフロントエンド音声強調プロセスでは、ビームフォーミングは、位置決め方向に強く依存するとともに、いくつかの事前の仮定にも依存する。デジタル信号処理に基づくビームフォーミングは、まず、ターゲット音源の方向を推定し、ターゲット音源を保護しながら、当該方向以外の他の信号を抑制する必要がある。実際の応用シーンでは、一旦、位置決めエラーが発生すると、干渉信号が誤って強調されて、ターゲット信号を抑制し、後続のウェイクアップ及び認識性能に影響を与える可能性がある。また、いくつかの技術では、信号処理ビームに近づくことも、信号処理方法のいくつかの欠点によって制限され、音声認識の精度に影響を与える。
【0017】
そのため、本開示の実施例は、ニューラルネットワークに基づく音声強調及び認識のエンドツーエンドのモデルアーキテクチャ及び音声認識技術案を提供する。デジタル信号処理に基づく従来の音声強調方式とは異なり、本開示の実施例は、ニューラルネットワークを用いてマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調及び認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。
【0018】
したがって、本開示の実施例によれば、エンドツーエンドのトレーニングを採用することによって、音源位置決めとビーム生成が同時に行うことができる。トレーニング中に大量のターゲット信号と干渉信号との組み合わせシーンを取り尽くしたため、ノイズソースとビームとの方向が同じ方向である場合、本開示の実施例の技術案の性能は、急激に低下せず、認識率をマイクロフォンのいずれの方向でもほぼ一致に保持することができる。同時に、従来の信号処理方法によれば、最初のウェイクアップは、単一のマイク信号のウェイクアップであり、ウェイクアップ率が低く、ビームウェイクアップは、2番目のウェイクアップと1番目のウェイクアップとが同方向である場合のみに使用することができる。本開示の実施例の音声強調及び認識一体化モデルについて、最初のウェイクアップは、ビームウェイクアップの精度に達することができ、ウェイクアップ後に、各角度ですべて高精度認識を行うことができ、音声認識システムの精度及びロバスト性を効果的に保証する。
【0019】
また、本開示のいくつかの実施例では、複素畳み込みニューラルネットワーク(CNN)を用いて元のマルチチャンネル音声信号に対してマルチスケール及びマルチレベルの情報抽出を直接行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現し、音声強調及び認識一体化モデリングを実現する。従来の方法では、フーリエ変換後に、通常位相情報が直接破棄される。これと逆に、本開示の実施例では、音声信号の位相から、ニューラルネットワークモデルをトレーニングするための追加情報を学習し、音声認識の精度をさらに向上させることができる。
【0020】
また、本開示のいくつかの実施例では、近距離場音声信号に基づいて遠距離場音声信号をリアルタイムでシミュレートすることができる。部屋のインパルス応答及びオフラインノイズの追加を手動で録音する従来の方式とは異なり、本開示の実施例では、リアルタイムシミュレーション/オンラインシミュレーション、及びノイズ追加技術の組み合わせを使用することができ、トレーニング中に大量の、部屋インパルス応答、ノイズ及び音声の組み合わせをリアルタイムでランダムにシミュレートすることができ、これにより、データの多様性は極めて豊富になり、モデルがより豊富なデータからより優れた汎用化性能を取得することができる。したがって、本開示の実施例は、大量の遠距離場音声信号のトレーニングデータを迅速に取得することができ、機械学習トレーニングによって音声認識モデルの精度をさらに向上させることができる。
【0021】
本開示の実施例のいくつかの例示的な実現を
図2~8を参照して以下に詳細に説明する。
【0022】
図2は、本開示の実施例に係る例示的な音声認識シーン200の概略図を示す。なお、例示的な音声認識シーン200は、本開示の実施例が実現可能な例示的な一シーンにすぎず、本開示の保護範囲を限定するものではないことを理解されたい。
【0023】
図2に示すように、例示的な音声認識シーン200では、ユーザ205は、そのユーザ機器210に向けて音声入力を行っている。本開示のいくつかの実施例では、ユーザ機器210は、スマートスピーカであってもよく、複数のスピーカと、複数のマイクロフォン211及び212とを含むことができ、複数のマイクロフォン211及び212は、音声認識された信号の採集品質を向上させるために、マイクロフォンアレイを構成することができる。なお、本開示のいくつかの実施例では、スマートスピーカをユーザ機器の一例とするが、ユーザ機器は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス(スマートウォッチ、スマートグラスなど)、ナビゲーションデバイス、マルチメディアプレーヤーデバイス、教育デバイス、ゲームデバイス、スマートスピーカなどを含むがこれらに限定されない、音声信号を採集できる任意の電子機器であってもよい。
【0024】
ユーザ205が音声入力を行っている時、シーン200内のテレビ208も音を出している。ユーザ機器210にとって、ユーザ205が発した音は、認識する必要のある音であるため、ユーザ205はターゲット音源であり、テレビ208が発する音は、考慮する必要がないノイズであるため、テレビ208は、非ターゲット音源である。
【0025】
デジタル信号処理に基づく従来の音声強調とは異なり、本開示の実施例は、マイクロフォン211及び212によって採集された元の音声信号をモデリングして、音声強調及び認識一体化モデル220をトレーニングし、次に、音声強調及び認識一体化モデル220によって対応する認識結果230を取得する。音声強調及び認識一体化モデル220は、複素CNNに基づく強調特徴抽出モジュールと、注意モデルに基づく音声認識モジュールとを含むことができ、この2つのモジュールは、マイクロフォンアレイの音声信号を直接にモデリングすることにより、デジタル信号処理技術に依存しない一方、ビッグデータ及びニューラルネットワークの利点を効果的に利用し、直接にデータ駆動でネットワークの重みを自動的に最適化し、手動で精細に設計された信号フィルタより優れた効果を実現することができる。したがって、このようなエンドツーエンドのモデリングの方式は、従来の信号のフロントエンド音声強調とバックエンド音声認識との最適化ターゲットが一致しない問題を解決し、いくつかの実施例では、音声強調、ノイズ低減、音源位置決め、複数のターゲットのウェイクアップ及び認識を共同で最適化し、システム全体の複雑さを低減することができ、その性能は、従来の個別モデリングの最適化方法を遥かに超えている。
【0026】
図2の例示的な音声認識シーン200では、音声強調及び認識一体化モデル220は、ユーザ機器のローカルに完全に配置されるか、又はサーバ側に完全に配置されるか、又は一部がユーザ機器のローカルに配置され、別の部分がサーバ側又はクラウドに配置されてもよい。本開示の実施例では、音声強調及び認識一体化モデル220の配置方式及び位置は限定されない。ユーザ機器とサーバとが音声強調及び認識一体化モデル220を協同して配置する場合、ユーザ機器側は、複素CNNに基づく強調特徴抽出モジュールを配置することができ、サーバ側は、注意モデルに基づく音声認識モジュールを配置することができ、ユーザ機器は、音声信号の強調特徴を抽出した後、強調特徴をユーザ機器からサーバに送信することで、サーバ側は、次の音声認識を実行することができる。
【0027】
異なるシーンでは、取得された音声認識結果について、異なる処理方式が存在し得る。例えば、音声入力のシーンでは、音声認識結果を取得した後、ユーザ機器210のディスプレイで認識結果をリアルタイムで表示することができ、ストリーミング型音声認識時に、ディスプレイで表示される認識結果も動的に変化している。これにより、ユーザは、認識された結果をリアルタイムで知ることができ、ユーザ体験が向上する。いくつかの実施例では、ユーザ機器210は、ディスプレイを含まなくてもよい。逆に、ユーザ機器210は、そのオーディオ出力機器(例えばスピーカ)によって認識結果を出力してもよい。スマートスピーカのシーンでは、サーバは、認識結果に基づいて次の動作を直接に実行することができ、例えば、ユーザの音声が一つの曲の再生である場合、サーバは、ユーザの意図に従って曲のオーディオファイルをユーザ機器210に送信して、スピーカによって再生する。
【0028】
図3は、本開示の実施例に係る音声認識方法300のフローチャートを示す。方法300は、ユーザ機器、サーバ、又はその組み合わせによって実行できることを理解されたい。
【0029】
ブロック302において、マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、第1のマイクロフォンとは異なるマイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得する。例えば、
図2を参照すると、音声強調及び認識一体化モデル220は、マイクロフォン211及び212から、採集された元の音声信号をそれぞれ取得する。いくつかの実施例では、ユーザ機器210内のマイクロフォンアレイが3つのマイクロフォンを含む場合、3つのマイクロフォンから3つのチャンネルの音声信号を同時に取得することができる。いくつかの実施例では、ユーザ機器210内のマイクロフォンアレイが6つのマイクロフォンを含む場合、6つのマイクロフォンから6つのチャンネルの音声信号を同時に取得することができる。
【0030】
ブロック304において、ニューラルネットワークによって多次元の特徴ベクトルなど、第1の音声信号及び第2の音声信号に関連付けられた強調特徴を抽出する。例えば、音声強調及び認識一体化モデル220は、従来のデジタル信号処理技術を使用せず、ニューラルネットワークによって各チャンネルの音声信号を直接処理するため、音声認識分野の事前の仮定を必要としない。このようにして、音声強調及び認識一体化モデル220の各モジュールの最適化のターゲットを統一することができ、その最適化基準は、いずれも音声認識の精度を向上させ、又は音声認識のエラー率を低減することである。本開示のいくつかの実施例では、ニューラルネットワークは、複素CNNネットワークであってもよく、これにより、マイクロフォンアレイによって採集された音声信号における位相情報を考慮し、複素の形式で特徴抽出時の演算を行うことができる。
【0031】
ブロック306において、強調特徴に基づいて、音声認識結果を取得する。例えば、音声強調及び認識一体化モデル220は、抽出した強調特徴に基づいて、ニューラルネットワークモデルを用いて、対応する音声認識結果を取得する。マイクロフォンアレイには2つ以上のマイクロフォンが含まれる場合、2つ以上のチャンネルの音声信号に基づいて、対応する認識結果を取得する。
【0032】
したがって、デジタル信号処理に基づく従来の音声強調方式とは異なり、本開示の実施例の方法300は、ニューラルネットワークによってマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調及び認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。
【0033】
図4は、本開示の実施例に係る音声強調及び認識一体化モデル220のアーキテクチャの概略図を示す。
図4に示すように、音声強調及び音声認識を実現するために、音声強調及び認識一体化モデル220は、強調特徴抽出モジュール420と音声認識モジュール450とを含む必要がある。選択可能には、音声強調及び認識一体化モデル220は、遠距離場音声信号をオンラインでシミュレートするように構成されるリアルタイムシミュレーションモジュール410と、ユーザ体験を向上させるように、通知灯によってユーザに通知するように構成される音源位置決めモジュール430と、バックエンド認識プロセスをウェイクアップするように構成されるウェイクアップモジュール440と、をさらに含むことができる。音声強調及び認識一体化モデル220は、エンドツーエンドのモデルアーキテクチャであり、トレーニング中に、そのトレーニングデータは、遠距離場音声信号及び対応するキャラクタである。また、本開示の実施例は、オンライン遠距離場音声信号をリアルタイムでシミュレートする方式を提供する。このように、トレーニングデータは、録音された近距離場音声信号及び対応するキャラクタであってもよい。使用段階では、音声強調及び認識一体化モデル220は、マイクロフォンアレイによって採集された元の音声信号を直接取得して処理し、その後、対応する認識結果を出力する。
【0034】
リアルタイムシミュレーションモジュール410は、近距離場音声信号を遠距離場音声信号にシミュレートし、ランダム干渉音源を追加することによって、モデルトレーニングに使用される大量の遠距離場音声信号を生成することができる。以下、
図6を参照して、近距離場音声信号を遠距離場音声信号にリアルタイムでシミュレートする例示的な実現を説明する。
【0035】
いくつかの実施例では、強調特徴抽出モジュール420は、複素CNNによって実現することができる。複素CNNを用いて特徴強調を行うことによって、マイクロフォンアレイ内の位相情報を保持することができる。これは、マイクロフォンアレイのシーンでは、各音声信号の位相情報及び振幅が同様に重要であり、位相情報は、複素数の虚数部によって表されるからである。次に、複素CNNによって出力された強調特徴に対してモジュラス処理を行った後、複素数領域特徴を実数形式の強調特徴に変換する。
【0036】
音源位置決めモジュール430は、ターゲット音源の位置決め情報を出力することができ、ユーザに対応する方向に通知灯を点灯させて、システムが対応する方向(すなわちユーザが位置する方向)の音声信号を既に検知したことをユーザに通知し、ユーザ体験を向上させることができる。ウェイクアップモジュール440は、ユーザがユーザ機器と音声インタラクションを行っているか否かを判断するように、待機状態で監視するように構成される。例えば、ユーザが発したのが予め定義されたワード(「小度小度(XiaoduXiaodu)」「ニーハオ小度(NihaoXiaodu)」など)であると判断した場合、バックエンドの音声認識プロセスをウェイクアップすることができ、採集されたすべての音声信号に対してバックエンドの音声認識を開始する必要がない。これは、音声認識の開始コストが高いからである。したがって、ウェイクアップの判断によって、音声認識のコストを低減することができる。
【0037】
音声認識モジュール450は、強調特徴に基づいて音声認識結果を取得する。いくつかの実施例では、音声認識モジュール450は、CTC(リンク時系列分類)及び注意に基づくストリーミング型音声認識モデルであるストリーミング型多層切断注意(Streaming Multi-Layer Truncated Attention,SMLTAと略称する)モデルであってもよい。ここで、ストリーミング型は、直接に音声の小さなフラグメント(全文ではない)に対して、フラグメントごとに増分復号化することができることを意味し、多層は、複数層の注意モデルを積み重ねることを意味し、切断は、CTCモデルのピーク情報を使用して、音声を一つ一つの小さなフラグメントに分割することを意味する。注意モデルのモデリング及び復号化は、これらの小さなフラグメントにわたって拡張することができる。SMLTAは、従来のグローバルな注意モデリングをローカルな注意モデリングに変換するので、このプロセスも、ストリーミング型で実現可能プロセスであり、文の長さに関係なく、フラグメントごとに切断することによってストリーミング型復号化及び正確なローバルな注意モデリングを実現することができるため、ストリーミング型復号化が実現される。ここで、CTCモデルは、大規模な語彙の音声認識に使用されるエンドツーエンドのモデルであり、ディープニューラルネットワーク(DNN)+隠れマルコフモデル(HMM)の音響モデル構造を完全に統一されたニューラルネットワーク構造に置き換えることにより、音響モデルの構造及びトレーニング難易度を大幅に単純化し、音声認識システムの精度を向上させることができる。
【0038】
図5は、本開示の実施例に係る複素CNNに基づく音声強調及び一体化モデルの処理プロセス500の概略図を示し、これは、
図4に示されるアーキテクチャに基づく。
【0039】
本開示のいくつかの実施例では、音声強調及び認識一体化モデル220のトレーニング段階では、リアルタイムシミュレーションモジュール410は、後続の機械学習トレーニングに使用される遠距離場音声信号をオンラインでシミュレートする。音声強調及び認識一体化モデル220の使用段階では、直接にマイクロフォンアレイからマルチチャンネルの元の音声信号を取得する。
【0040】
入力された音声信号を取得した後、ブロック501において、各チャンネルの音声信号に対して、それぞれ複素フーリエ変換(FFT)を行い、時間領域信号を周波数領域信号に変換する。次に、強調特徴抽出モジュール420は、複素CNNを用いて、FFTされた各チャンネルの音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って、複素特徴を取得する。複素CNNを用いて直接元のマルチチャンネルの音声信号に対してマルチスケールマルチレベルの情報抽出を行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現するため、音声信号の位相から追加の情報を学習し、音声認識の精度をさらに向上させることができる。
【0041】
音声認識モジュール450は、通常、実数操作のみをサポートするために、ブロック502では、複素CNNによって出力された強調特徴に対してモジュラス操作を行い、複素数領域特徴を実数形式の強調特徴530に変換する。本開示の実施例のアーキテクチャによれば、抽出された強調特徴530は、音源位置決めモジュール430、ウェイクアップモジュール440、及び音声認識モジュール450の3つのモジュールによって共有され、これらのモジュールの入力特徴とすることができる。
【0042】
引き続き
図5を参照すると、音源位置決めモジュール430は、3層のゲートベースのリカレントニューラルネットワーク(Gated Recurrent Unit,GRUと略称する)によって構成され、1層のSoftmaxによってDOA出力503を生成することができ、例えば、ターゲット音源の方向情報を出力することができ、さらに、対応する方向の通知灯を点灯させて、ユーザ体験を向上させることができる。ウェイクアップモジュール440は、主に、複数層(例えばN層)の畳み込みニューラルネットワークで構成され、1層のSoftmaxによってウェイクアップ出力504を生成する。ウェイクアップ出力504は、採集された音声信号がウェイクアップワードであるか否かについての判断を含むことができ、ウェイクアップワードである場合、音声認識モジュール450における認識プロセスを開始することができる。
【0043】
音声認識モジュール450は、低フレームレート特徴抽出モジュール(例えば、モバイル端末に向けに設計されたネットワーク構造MobileNet)、長短期記憶ネットワーク(LSTM)、及びSMLTAモデルを含む。MobileNetは、特徴圧縮の機能を実現することができ、従来の方法では、合成された音声信号を伝送し、本開示の実施例は、強調特徴を伝送するので、圧縮しないと、より大きなネットワーク帯域幅を使用する必要があるか、又はより長い遅延になる可能性がある。この問題を解決するために、本開示の実施例では、MobileNetを用いて強調特徴530を圧縮することにより、圧縮された特徴のサイズが常に所定のサイズになる。このようにして、2つ又は3つなどのマイクロフォンを含むマイクロフォンアレイについて、伝送する強調特徴のサイズは、従来の方法と同じであり、ネットワークの伝送による遅延を回避する。したがって、マルチチャンネルの音声から抽出された強調特徴帯域幅は、シングルチャンネルの圧縮音声とほぼ同じであり、マルチチャンネルの音声と比較して、帯域幅を節約するだけでなく、ニューラルネットワークの中間特徴をアップロードする方式によってユーザのプライバシーを保護する。
【0044】
音声強調及び認識一体化モデル220は、トレーニング時に、複数の損失関数を同時に最適化する戦略を使用してネットワークを共同でトレーニングし、異なる損失関数は、異なる重み付け係数を使用することができる。いくつかの実施例では、実際の構成を行う時に、端末およびクラウド分散構成の戦略を採用してもよい。ここで、端末は、ビームフォーミング、強調特徴抽出、位置決め、及びウェイクアップなどの機能を含む。複素CNNモデルが非常に小さく、畳み込み演算子がより汎用であるため、並列及びハードウェアアクセラレーションに適し、端末で計算をアルタイムで行うことができる。強調特徴抽出モジュールは、いくつかの層の深さ方向分離可能畳み込み(Depthwise Separable Convolution)によって構成されてもよく、そのモデルパラメータも非常に小さい。
【0045】
なお、
図5に示すネットワーク構造及び数値は、実際の状況に応じて調整できることを理解されたい。同時に、オンラインリアルタイム復号化を実現するために、上記のGRU、LSTMなどのリカレントニューラルネットワークは、一方向であってもよい。したがって、本開示の実施例は、複素CNNを用いて元のマイクロフォンアレイ信号をモデリングし、方向付け、ウェイクアップ、及び認識のエンドツーエンドの共同トレーニングを実現することができる。
【0046】
一般的に、エンドツーエンドのトレーニングを実現するために、ニューラルネットワークの入力は、元のマイクアレイ音声信号である必要があるが、ユーザのプライバシーと伝送帯域幅などの理由で、実際には大量のこのような実データを取得することが困難である。従来のトレーニングデータ収集方法は、通常、実際のシーンで複数の部屋のインパルス応答(RIR)を録音するものである。このような方法は、非効率であるだけでなく、コストも高く、すべてのシーンをトラバーサルすることが困難である。ここで、インパルス応答は、ランダムに選択された構成で、音声に対する応答をシミュレートすることができる。
【0047】
リモート音声シーンの音声の伝播は、通常、マイクロフォンアレイ構造、部屋のサイズ、音源とオーディオモニタリングとの間隔などのパラメータにすべて関連しており、これらのパラメータの変化によって、遠距離場マルチチャンネルデータのシーンが複雑になり、マルチチャンネル遠距離場音声信号のトレーニングデータの採集が難しくなる。このために、本開示の実施例では、ランダムな複数のパラメータ構成を用いて大量の遠距離場音声信号のトレーニングデータを取得可能な、遠距離場音声信号をオンラインによりリアルタイムでシミュレートすることを提案する。
【0048】
図6は、本開示に係る遠距離場音声信号をリアルタイムでシミュレートするプロセス600の概略図を示し、プロセス600は、上記のリアルタイムシミュレーションモジュール410によって実現することができる。本開示の実施例の音声強調及び認識一体化モデル220は、ターゲットユーザ機器又はターゲット製品のマイクロフォンアレイ内のマイクロフォンの数に応じてトレーニングする必要がある。つまり、ターゲット製品は2つのマイクロフォンを有する場合、2チャンネルの遠距離場音声信号を使用してモデルをトレーニングし、ターゲット製品は3つのマイクロフォンを有する場合、3チャンネルの遠距離場音声信号を使用してモデルをトレーニングし、ターゲット製品は6つのマイクロフォンを有する場合、6チャンネルの遠距離場音声信号を使用してモデルをトレーニングする。本開示の実施例によれば、トレーニング中にランダムにシミュレートされた部屋のインパルス応答と、ノイズと、音声とに基づいて、遠距離場マルチチャンネル音声信号をリアルタイムで生成することによって、大規模なデータに基づく音声強調及び認識のエンドツーエンドのトレーニングが可能になる。
【0049】
図6は、録音された近距離場音声信号S(t)に基づいて、ランダムノイズを追加することによってマルチチャンネル遠距離場音声信号Y
1(t)及びY
2(t)をリアルタイムでシミュレートする。まず、ブロック605において、部屋のサイズ(すなわち縦横高さ)と壁反射係数などの部屋構成をランダムに設定し、所定のサイズのマイクロフォンを部屋内の適切な位置にランダムに配置する。ブロック610において、ターゲット音源を部屋内の一つの適切な位置にランダムに配置し、ブロック620において、スポットノイズソースを部屋内の別の適切な位置にランダムに配置する。また、ブロック615において、録音された近距離場音声信号S(t)を提供し、ブロック625において、ランダムに選択されたノイズ信号N(t)を提供する。
【0050】
次に、部屋構成と、マイクロフォン位置と、ターゲット音源位置とに基づいて、インパルス応答R11(t)及びR12(t)を生成し、部屋構成と、マイクロフォン位置と、スポットノイズソース位置とに基づいて、インパルス応答R21(t)及びR22(t)を生成する。次に、近距離場音声信号をS(t)と、インパルス応答R11(t)及びR12(t)の畳み込みを行って音声遠距離場信号を取得し、ランダムに選択されたノイズ信号N(t)と、インパルス応答R21(t)及びR22(t)の畳み込みを行ってノイズ遠距離場信号を取得する。次に、ブロック628において、信号対雑音比の制御によって、音声遠距離場信号とノイズ遠距離場信号とを比率で重畳し、631及び632に示すように、ノイズ付きの2チャンネルの遠距離場音声信号Y1(t)及びY2(t)を取得する。以下、式(1)及び(2)によって、2チャンネルの遠距離場音声信号Y1(t)及びY2(t)を算出する例のプロセスを示し、αは、信号対雑音比を表す。
【0051】
Y1(t)=S(t)*R11(t)+αN(t)*R21(t) (1)
Y2(t)=S(t)*R12(t)+αN(t)*R22(t) (2)
したがって、本開示の実施例は、オンラインリアルタイムシミュレーションとノイズ追加技術を使用して、トレーニング中に大量の、部屋インパルス応答、ノイズ及び音声の組み合わせをリアルタイムでランダムにシミュレートすることができ、データの多様性が極めて豊富になり、モデルがより豊富なデータからより優れた汎用化性能を取得することができる。
【0052】
図7は、本開示の実施例に係る音声認識装置700のブロック図を示す。
図7に示すように、装置700は、音声信号取得モジュール710と、強調特徴抽出モジュール720と、音声認識モジュール730と含む。音声信号取得モジュール710は、マイクロフォンアレイ内の第1のマイクロフォンから採集された第1の音声信号と、第1のマイクロフォンとは異なるマイクロフォンアレイ内の第2のマイクロフォンから採集された第2の音声信号とを取得するように構成される。強調特徴抽出モジュール720は、ニューラルネットワークによって第1の音声信号及び第2の音声信号に関連付けられた強調特徴を抽出するように構成される。音声認識モジュール730は、強調特徴に基づいて、音声認識結果を取得するように構成される。
【0053】
いくつかの実施例では、強調特徴抽出モジュール720は、第1の音声信号及び第2の音声信号に対してそれぞれ複素フーリエ変換を行うように構成されるフーリエ変換モジュールと、複素畳み込みニューラルネットワークによって、変換された第1の音声信号及び第2の音声信号に対して複素畳み込み、複素オフセット、及び複素線形変換操作を行って複素特徴を取得するように構成される畳み込み処理モジュールと、複素特徴を実数形式の強調特徴に変換するように構成される変換モジュールと、を含む。
【0054】
いくつかの実施例では、音声認識モジュール730は、ストリーミング型多層切断注意モデルを用いて第1の音声信号及び第2の音声信号に対応するキャラクタ出力を決定するように構成されるキャラクタ出力モジュールを含む。
【0055】
いくつかの実施例では、音声認識モジュール730は、所定のサイズに基づいて、強調特徴を圧縮するように構成される特徴圧縮モジュールと、ストリーミング型多層切断注意モデルに圧縮された強調特徴を提供するように構成される特徴提供モジュールと、をさらに含む。
【0056】
いくつかの実施例では、装置700は、強調特徴に基づいて、第1の音声信号及び第2の音声信号に関連付けられたターゲット音源の方向を決定するように構成される方向決定モジュールと、決定された方向に関連付けられた通知灯を点灯させるように構成される通知灯点灯モジュールと、をさらに含む。
【0057】
いくつかの実施例では、装置700は、強調特徴に基づいて、第1の音声信号及び第2の音声信号がウェイクアップワードに関連するか否かを決定するように構成されるウェイクアップ判断モジュールと、第1の音声信号及び第2の音声信号がウェイクアップワードに関連するとの決定に基づいて、キャラクタ認識プロセスを開始するように構成される認識開始モジュールと、をさらに含む。
【0058】
いくつかの実施例では、強調特徴抽出モジュール720は、マイクロフォンアレイ内の第3のマイクロフォンから採集された第3の音声信号を取得するように構成される信号取得モジュールと、ニューラルネットワークによって第1の音声信号、第2の音声信号、及び第3の音声信号に関連付けられた強調特徴を抽出するように構成される特徴抽出モジュールと、を含む。
【0059】
いくつかの実施例では、装置700は、マイクロフォンアレイ内のマイクロフォンと同じ数のマルチチャンネル遠距離場音声信号を取得するように構成されるマルチチャンネル遠距離場音声信号取得モジュールであって、マルチチャンネル遠距離場音声信号は、少なくとも第1の遠距離場音声信号と第2の遠距離場音声信号とを含むマルチチャンネル遠距離場音声信号取得モジュールと、マルチチャンネル遠距離場音声信号を使用してエンドツーエンド音声強調及び認識一体化モデルをトレーニングするように構成されるトレーニングモジュールと、をさらに含む。
【0060】
いくつかの実施例では、マルチチャンネル遠距離場音声信号取得モジュールは、近距離場音声信号に基づいて、ランダムノイズを追加することによってマルチチャンネル遠距離場音声信号をリアルタイムでシミュレートするように構成されるリアルタイムシミュレーションモジュールを含む。
【0061】
いくつかの実施例では、リアルタイムシミュレーションモジュール730は、縦横高さと壁反射係数とを含む部屋の構成、マイクロフォンアレイの部屋における位置、ターゲット音源の部屋における位置、及びノイズソースの部屋における位置を含むシミュレーションパラメータをランダムに設定するように構成されるランダム設定モジュールを含む。
【0062】
いくつかの実施例では、リアルタイムシミュレーションモジュール730は、シミュレーションパラメータに基づいて、近距離場音声信号に対する第1のセットのインパルス応答と、ランダムに選択されたノイズ信号に対する第2のセットのインパルス応答とを生成するように構成されるインパルス応答生成モジュールをさらに含む。
【0063】
いくつかの実施例では、リアルタイムシミュレーションモジュール730は、近距離場音声信号と、第1のセットのインパルス応答と、ノイズ信号と、第2のセットのインパルス応答と、信号対雑音比とに基づいて、マルチチャンネル遠距離場音声信号を生成するように構成される第2のマルチチャンネル遠距離場音声信号取得モジュールをさらに含む。
【0064】
なお、
図7に示す音声信号取得モジュール710、強調特徴抽出モジュール720、及び音声認識モジュール730は、単一又は複数の電子機器に含まれてもよい。さらに、
図7に示すモジュールは、本開示の実施例を参照する方法又は/又はプロセス中のステップ又は/又は動作を実行することができることを理解されたい。
【0065】
したがって、デジタル信号処理に基づく従来の音声強調とは異なり、本開示の実施例では、ニューラルネットワークによってマルチチャンネル音声信号の強調特徴を抽出することにより、音声強調と音声認識との最適化ターゲットが一致しない問題を解決することができ、音声強調と音声認識などのターゲットを共同で最適化し、音声強調と認識のエンドツーエンドのモデリングを実現し、音声認識の精度を向上させることができる。
【0066】
また、本開示のいくつかの実施例によれば、複素CNNを用いて直接に元のマルチチャンネル音声信号に対してマルチスケールマルチレベルの情報抽出を行い、位相情報を保持する前提で、フロントエンドビームフォーミング及び強調特徴抽出を実現し、音声強調及び認識の一体化モデリングをさらに実現する。当該実現は、いかなるデジタル信号処理と音声認識分野の事前の仮定を必要とせず、全体の最適化プロセスには、音声認識ワードのエラー率という1つの準則しかない。また、本開示の実施例の完全なデータ駆動は、簡単で便利なシミュレーションプロセスによって、近距離場データからすべての遠距離場トレーニングを構築することができ、発明者の10万時間レベルの製品テストでは、従来のデジタル信号処理+音声認識の独立最適化遥かに超える性能が得られ、認識エラー率が大幅に低減された。
【0067】
図8は、本開示の実施例を実現可能な例示的な機器800を示す概略ブロック図である。機器800は、本開示に説明された音声認識装置700、又はユーザ機器、又はサーバを実現することができる。図に示すように、機器800は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム命令、又は記憶ユニット808からランダムアクセスメモリ(RAM)803にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる中央処理装置(CPU)801を含む。RAM803には、機器800の動作に必要な各種のプログラム及びデータをさらに記憶することができる。CPU801と、ROM802と、RAM803とは、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
【0068】
機器800における複数のコンポーネントはI/Oインタフェース805に接続されており、キーボードやマウスなどの入力ユニット806と、種々なディスプレイやスピーカなどの出力ユニット807と、磁気ディスクや光学ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット809と、を含む。通信ユニット809は、機器800がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介してその他の機器と情報/データを交換することを許可する。
【0069】
処理ユニット801は、前述した各方法及びプロセス、例えば方法300を実行する。例えば、いくつかの実施例では、方法は、記憶ユニット808のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ROM802及び/又は通信ユニット809を介して、機器800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされてCPU801によって実行される場合に、前述した方法300の一つ又は複数のステップを実行することができる。追加的に、他の実施例では、CPU801は、他の任意の適当な方式(例えば、ファームウェアにより)により方法を実行するように構成される。
【0070】
本明細書では、前述した機能は、少なくとも部分的に一つ又は複数のハードウェアロジックコンポーネントによって実行することができる。例えば、非限定的に、使用可能なハードウェアロジックコンポーネントとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが挙げられる。
【0071】
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又はその他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、又は完全にリモートマシン又はサーバで実行されてもよい。
【0072】
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。
【0073】
また、特定の順番で各動作又はステップを説明したが、このような動作又はステップを、示される特定の順番又は順次実行することが求められ、又は図示した動作又はステップの全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスク及び並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、一つの実施形態で組み合わせて実現することができる。逆に、一つの実施形態に説明された種々な特徴は、個別又は任意の適切なサブ組み合わせの方式で複数の実施形態で実現することができる。
【0074】
構成の特徴及び/又は方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定される本開示の実施例は、上記の特定の特徴又は動作に限定されない。逆に、上記の特定の特徴と動作は、特許請求の範囲を実現する例に過ぎない。