IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7326627オーディオ信号処理方法、装置、機器及びコンピュータプログラム
<>
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図1
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図2
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図3
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図4
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図5
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図6
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図7
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図8
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図9
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図10
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図11
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図12
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図13
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図14
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図15
  • 特許-オーディオ信号処理方法、装置、機器及びコンピュータプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-04
(45)【発行日】2023-08-15
(54)【発明の名称】オーディオ信号処理方法、装置、機器及びコンピュータプログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20230807BHJP
   G10L 21/0272 20130101ALI20230807BHJP
   H04R 3/00 20060101ALI20230807BHJP
   H04R 1/40 20060101ALI20230807BHJP
【FI】
G10L21/0208 100B
G10L21/0272 100B
H04R3/00 320
H04R1/40 320A
【請求項の数】 13
(21)【出願番号】P 2022538830
(86)(22)【出願日】2021-06-03
(65)【公表番号】
(43)【公表日】2023-02-28
(86)【国際出願番号】 CN2021098085
(87)【国際公開番号】W WO2022012206
(87)【国際公開日】2022-01-20
【審査請求日】2022-06-22
(31)【優先権主張番号】202010693891.9
(32)【優先日】2020-07-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲陳▼ 日林
(72)【発明者】
【氏名】姜 ▲開▼宇
(72)【発明者】
【氏名】黎 ▲韋▼▲偉▼
【審査官】上田 雄
(56)【参考文献】
【文献】国際公開第2014/024248(WO,A1)
【文献】特表2007-513530(JP,A)
【文献】特開2006-094522(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-21/18
H04R 3/00
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
オーディオ信号処理機器が実行するオーディオ信号処理方法であって、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するステップと、
第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するステップであって、前記第1フィルタは、前記オーディオ信号における干渉音声を抑制し、且つ前記オーディオ信号におけるターゲット音声を強調するためのものである、ステップと、
第2フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得するステップであって、前記第2フィルタは、前記ターゲット音声を抑制し、且つ前記干渉音声を強調するためのものである、ステップと、
第3フィルタによって、前記第1干渉ビームの第2干渉ビームを取得するステップであって、前記第3フィルタは、前記第1干渉ビームに対して加重調整を実行するためのものである、ステップと、
前記第1ターゲットビームと前記第2干渉ビームとの差を第1オーディオ処理出力として決定するステップと、
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新し、更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するステップと、を含む、オーディオ信号処理方法。
【請求項2】
前記第1フィルタは、第1重み行列に対応し、前記第2フィルタは、第2重み行列に対応し、前記第3フィルタは、第3重み行列に対応し、
前記更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するステップは、
前記更新が完了した後に、前記第2重み行列と前記第3重み行列に基づいて、前記第1重み行列を算出するステップと、
前記第1重み行列に基づいて、前記第1フィルタを更新するステップと、を含むことを特徴とする
請求項1に記載のオーディオ信号処理方法。
【請求項3】
前記更新が完了した後に、前記第2重み行列と前記第3重み行列に基づいて、前記第1重み行列を算出するステップは、
前記更新が完了した後、前記第2重み行列と前記第3重み行列との積をターゲット行列として決定するステップと、
単位行列と前記ターゲット行列との差を前記第1重み行列として決定するステップと、を含むことを特徴とする
請求項2に記載のオーディオ信号処理方法。
【請求項4】
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新するステップは、
前記第1ターゲットビームに基づいて、前記第2フィルタを更新し、前記第1オーディオ処理出力に基づいて、前記第3フィルタを更新するステップ、
又は、
前記第1オーディオ処理出力に基づいて、前記第2フィルタと前記第3フィルタを更新するステップ、
又は、
前記第1ターゲットビームに基づいて、前記第2フィルタを更新するステップ、
又は、
前記第1オーディオ処理出力に基づいて、前記第2フィルタを更新するステップ、
又は、
前記第1オーディオ処理出力に基づいて、前記第3フィルタを更新するステップを含むことを特徴とする
請求項1~3のうちいずれか一項に記載のオーディオ信号処理方法。
【請求項5】
前記第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するステップは、
プレフィルタによって、前記オーディオ信号に対して第1フィルタリングを行い、予備ターゲットビームを取得するステップであって、前記プレフィルタは、訓練データによって算出されたフィルタであり、前記プレフィルタは、前記干渉音声を抑制し、且つ前記ターゲット音声を強調するためのものである、ステップと、
前記第1フィルタによって、前記予備ターゲットビームに対して第2フィルタリングを行い、前記第1ターゲットビームを取得するステップと、を含むことを特徴とする
請求項1~3のうちいずれか一項に記載のオーディオ信号処理方法。
【請求項6】
前記オーディオ信号処理方法は、
前記マイクロホンアレイによって応用環境において収集された訓練データを取得するステップであって、前記応用環境は、前記マイクロホンアレイが配置されて使用される空間範囲であり、前記訓練データは、前記マイクロホンアレイにおける異なるマイクロホンによって収集されたサンプルオーディオ信号を含む、ステップと、
線形制約付き最小分散(LCMV)基準に応じて前記訓練データを算出することで前記プレフィルタを取得するステップと、を更に含むことを特徴とする
請求項5に記載のオーディオ信号処理方法。
【請求項7】
オーディオ処理機器が実行するオーディオ信号処理方法であって、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するステップであって、前記マイクロホンアレイは、n個のターゲット方向を含み、各前記ターゲット方向はそれぞれ1つのフィルタグループに対応し、前記フィルタグループは、請求項1~6のうちいずれか一項に記載の方法で前記オーディオ信号を処理し、前記nは、1よりも大きい正の整数である、ステップと、
n個の前記ターゲット方向に対応するオーディオ信号に対して、対応する前記フィルタグループをそれぞれ使用して前記オーディオ信号に対してフィルタリングを行い、n個の前記ターゲット方向に対応するn個の第1オーディオ処理出力を取得するステップと、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、前記iは、0よりも大きく、且つ前記nよりも小さい正の整数であり、該操作を繰り返して、n個の前記ターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得するステップと、を含む、オーディオ信号処理方法。
【請求項8】
前記i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得するステップは、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力をi番目の干渉グループとして決定するステップと、
i番目の前記ターゲット方向に対応するi番目の第4フィルタによって、前記i番目の干渉グループに対してフィルタリングを行うことでi番目の第3干渉ビームを取得するステップであって、前記第4フィルタは、前記干渉グループに対して加重調整を実行するためのものである、ステップと、
i番目の前記第1オーディオ処理出力とi番目の前記第3干渉ビームとの差をi番目の前記第2オーディオ処理出力として決定するステップと、
i番目の前記第2オーディオ出力に基づいて、i番目の前記第4フィルタを適応的に更新するステップと、を含むことを特徴とする
請求項7に記載のオーディオ信号処理方法。
【請求項9】
前記i番目のフィルタグループは、プレフィルタを含み、前記プレフィルタは、前記マイクロホンアレイによって収集されたi番目の前記ターゲット方向における訓練データで訓練されたものであることを特徴とする
請求項7又は8に記載のオーディオ信号処理方法。
【請求項10】
オーディオ信号処理機器に配置されるオーディオ信号処理装置であって、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第1取得モジュールと、
第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するように構成される第1フィルタリングモジュールであって、前記第1フィルタは、前記オーディオ信号における干渉音声を抑制し、且つ前記オーディオ信号におけるターゲット音声を強調するためのものである、第1フィルタリングモジュールと、
第2フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得するように構成される第2フィルタリングモジュールであって、前記第2フィルタは、前記ターゲット音声を抑制し、且つ前記干渉音声を強調するためのものである、第2フィルタリングモジュールと、
第3フィルタによって、前記第1干渉ビームの第2干渉ビームを取得するように構成される第3フィルタリングモジュールであって、前記第3フィルタは、前記第1干渉ビームに対して加重調整を実行するためのものである、第3フィルタリングモジュールと、
前記第1ターゲットビームと前記第2干渉ビームとの差を第1オーディオ処理出力として決定するように構成される第1決定モジュールと、
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新し、更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するように構成される第1更新モジュールと、を備える、オーディオ信号処理装置。
【請求項11】
オーディオ信号処理機器に配置されるオーディオ信号処理装置であって、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第2取得モジュールであって、前記マイクロホンアレイは、n個のターゲット方向を含み、各前記ターゲット方向はそれぞれ1つのフィルタグループに対応し、前記フィルタグループは、請求項1~6のうちいずれか一項に記載の方法で前記オーディオ信号を処理し、前記nは、1よりも大きい正の整数である、第2取得モジュールと、
n個の前記ターゲット方向に対応するオーディオ信号に対して、対応する前記フィルタグループをそれぞれ使用して前記オーディオ信号に対してフィルタリングを行い、n個の前記ターゲット方向に対応するn個の第1オーディオ処理出力を取得するように構成されるフィルタグループモジュールと、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、前記iは、0よりも大きく、且つ前記nよりも小さい正の整数であり、該操作を繰り返して、n個の前記ターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得するように構成される第4フィルタリングモジュールと、を備える、オーディオ信号処理装置。
【請求項12】
オーディオ信号処理に用いられるコンピュータ機器であって、
記メモリに少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットを記憶するメモリと、
前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットを実行して、請求項1~9のうちいずれか一項に記載のオーディオ信号処理方法を実施するプロセッサと、を備える、コンピュータ機器。
【請求項13】
コンピュータ請求項1~9のうちいずれか一項に記載のオーディオ信号処理方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2020年7月17日に中国特許局に提出された、出願番号が202010693891.9であり、発明名称が「オーディオ信号処理方法、装置、機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、音声処理分野に関し、特にオーディオ信号処理技術に関する。
【背景技術】
【0002】
音声通信において、マイクロホンによって収集された音声信号は、常に外部環境における雑音による干渉を受ける。音声強調技術は、音声信号処理の一つの重要な分岐であり、騒々しい環境における雑音抑制、音声圧縮符号化及び音声認識などの分野に広く用いられており、音声雑音汚染問題の解決、音声通信品質の改良、音声明瞭度及び音声認識率の向上などの方面において、ますます重要な役割を果たしている。
【0003】
関連技術において、一般化サイドローブキャンセラ(Generalized Sidelobe Canceller:GSC)アルゴリズムによって音声強調を行う。GSCは、凸最適化の方式でフィルタを予め設計し、該フィルタによって干渉を除去することによって、より良好なビーム性能を取得する。
【0004】
関連技術における方法は、干渉音源の移動が処理結果に与える影響を考慮することなく、予め設計されたフィルタを使用することによって、最終的に得られた音源分離効果が好ましくないことを引き起こす。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、干渉移動の場合に干渉漏れを減らすことができるオーディオ信号処理方法、装置、機器及び記憶媒体を提供する。前記技術的解決手段は以下のとおりである。
【課題を解決するための手段】
【0006】
本願の実施例の一方面によれば、オーディオ信号処理方法を提供する。前記方法は、オーディオ信号処理機器によって実行され、前記方法は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するステップと、
第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するステップであって、前記第1フィルタは、前記オーディオ信号における干渉音声を抑制し、且つ前記オーディオ信号におけるターゲット音声を強調するためのものである、ステップと、
第2フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得するステップであって、前記第2フィルタは、前記ターゲット音声を抑制し、且つ前記干渉音声を強調するためのものである、ステップと、
第3フィルタによって、前記第1干渉ビームの第2干渉ビームを取得するステップであって、前記第3フィルタは、前記第1干渉ビームに対して加重調整を実行するためのものである、ステップと、
前記第1ターゲットビームと前記第2干渉ビームとの差を第1オーディオ処理出力として決定するステップと、
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新し、更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するステップと、を含む。
【0007】
本願の実施例の別の方面によれば、オーディオ信号処理方法を提供する。前記方法は、オーディオ信号処理機器によって実行され、前記方法は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するステップであって、前記マイクロホンアレイは、n個のターゲット方向を含み、各前記ターゲット方向はそれぞれ1つのフィルタグループに対応し、前記フィルタグループは、上記方法で前記オーディオ信号を処理し、前記nは、1よりも大きい正の整数である、ステップと、
n個の前記ターゲット方向に対応するオーディオ信号に対して、対応する前記フィルタグループをそれぞれ使用して前記オーディオ信号に対してフィルタリングを行い、n個の前記ターゲット方向に対応するn個の第1オーディオ処理出力を取得するステップと、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、前記iは、0よりも大きく、且つ前記nよりも小さい正の整数であり、該操作を繰り返し、n個の前記ターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得するステップと、を含む。
【0008】
本願の実施例の別の方面によれば、オーディオ信号処理装置を提供する。前記装置は、オーディオ信号処理機器に配置され、前記装置は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第1取得モジュールと、
第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するように構成される第1フィルタリングモジュールであって、前記第1フィルタは、前記オーディオ信号における干渉音声を抑制し、且つ前記オーディオ信号におけるターゲット音声を強調するためのものである、第1フィルタリングモジュールと、
第2フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得するように構成される第2フィルタリングモジュールであって、前記第2フィルタは、前記ターゲット音声を抑制し、且つ前記干渉音声を強調するためのものである、第2フィルタリングモジュールと、
第3フィルタによって、前記第1干渉ビームの第2干渉ビームを取得するように構成される第3フィルタリングモジュールであって、前記第3フィルタは、前記第1干渉ビームに対して加重調整を実行するためのものである、第3フィルタリングモジュールと、
前記第1ターゲットビームと前記第2干渉ビームとの差を第1オーディオ処理出力として決定するように構成される第1決定モジュールと、
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新し、更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するように構成される第1更新モジュールと、を備える。
【0009】
本願の実施例の別の方面によれば、オーディオ信号処理装置を提供する。前記装置は、オーディオ信号処理機器に配置され、前記装置は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第2取得モジュールであって、前記マイクロホンアレイは、n個のターゲット方向を含み、各前記ターゲット方向はそれぞれ1つのフィルタグループに対応し、前記フィルタグループは、上記第1オーディオ信号処理方法で前記オーディオ信号を処理する、第2取得モジュールと、
n個の前記ターゲット方向に対応するオーディオ信号に対して、対応する前記フィルタグループをそれぞれ使用して前記オーディオ信号に対してフィルタリングを行い、n個の前記ターゲット方向に対応するn個の第1オーディオ処理出力を取得するように構成されるフィルタグループモジュールと、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、前記iは、0よりも大きく、且つ前記nよりも小さい正の整数であり、該操作を繰り返して、n個の前記ターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得するように構成される第4フィルタリングモジュールと、を備える。
【0010】
本願の実施例の別の方面によれば、コンピュータ機器を提供する。前記コンピュータ機器は、プロセッサと、メモリと、を備え、前記メモリに少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行され、前記プロセッサに上記いずれか1つの選択的な方案に記載のオーディオ信号処理方法を実現させる。
【0011】
本願の実施例の別の方面によれば、コンピュータ可読記憶媒体を提供する。前記記憶媒体に少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、プロセッサによりロードされて実行され、前記プロセッサに上記いずれか1つの選択的な方案に記載のオーディオ信号処理方法を実現させる。
本願の実施例の別の方面によれば、コンピュータプログラム製品又はコンピュータプログラムを提供する。該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行し、該コンピュータ機器に上記選択的な実現形態によるオーディ信号処理方法を実行する。
【発明の効果】
【0012】
本願による技術的解決手段は、以下の有益な効果を含んでもよい。
第2フィルタ及び第3フィルタに基づいて、第1フィルタを更新することによって、第1フィルタ、第2フィルタ及び第3フィルタがターゲット音源のステアリングベクトルの変化をリアルタイムに追跡することができ、フィルタをすぐに更新し、リアルタイムに更新されたフィルタを用いて、マイクロホンによって次回で収集されたオーディオ信号を処理し、フィルタがシーンの変化に基づいて、オーディオ処理出力を出力し、干渉移動の場合のフィルタの追跡性能を確保し、干渉漏れの問題を減少させる。
【図面の簡単な説明】
【0013】
図1】一例示的な実施例によるオーディオ信号処理システムの概略図である。
図2】本願の別の例示的な実施例によるマイクロホンの分布の概略図を示す。
図3】本願の別の例示的な実施例によるマイクロホンの分布の概略図を示す。
図4】本願の別の例示的な実施例によるオーディオ信号処理方法のフローチャートを示す。
図5】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図6】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図7】本願の別の例示的な実施例によるオーディオ信号処理方法のフローチャートを示す。
図8】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図9】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図10】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図11】本願の別の例示的な実施例によるフィルタの構成の概略図を示す。
図12】本願の別の例示的な実施例によるデュアルチャネルスペクトログラムを示す。
図13】本願の別の例示的な実施例によるデュアルチャネルスペクトログラムを示す。
図14】本願の別の例示的な実施例によるオーディオ信号処理装置のブロック図を示す。
図15】本願の別の例示的な実施例によるオーディオ信号処理装置のブロック図を示す。
図16】一例示的な実施例によるコンピュータ機器の構造ブロック図である。
【発明を実施するための形態】
【0014】
ここの図面は、明細書に引き入れて本明細書の一部分を構成し、本願に合う実施例を示し、かつ、明細書とともに本願の原理を解釈するために用いられる。
ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例に記載の実施形態は、本願と一致する全ての実施形態を代表するものではない。むしろそれらは、単に特許請求の範囲に詳しく記述されている、本願のいくつかの方面と一致する装置及び方法の例である。
【0015】
理解すべきことは、本明細書に言及された「若干」は、一つ又は複数を指し、「複数」は、二つ又は二つ以上を指す。「及び/又は」は、関連対象の関連関係を記述するものであり、三つの関係が存在してもよいことを表し、例えば、A及び/又はBは、単独のA、AとBとの組み合わせ、単独のBという三つのケースを表してもよい。「/」という符号は、一般的には、前後の関連対象が「又は」の関係であることを表す。
人工知能技術の検討と進歩に伴い、人工知能技術は、複数の分野、例えば、一般的なスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカ、スマートマーケティング、無人運転、自動運転、無人機、ロボット、スマート医療、スマートカスタマーサービスなどにおいて検討されて応用され、技術の発展に伴い、人工知能技術がより多くの分野において応用され、ますます重要な価値を果たすことが信じられている。
【0016】
本願は、スマートホーム技術分野に関し、特にオーディオ信号処理方法に関する。
まず、本願に係るいくつかの用語を解釈する。
【0017】
1)人工知能(Artificial Intelligence:AI)
人工知能は、デジタルコンピュータ又はデジタルコンピュータにより制御された機器を利用して人間の知能をシミュレーション、延長、拡張し、環境を感知して知識を取得し、知識を利用して最適な結果を得る理論、方法、技術及びアプリケーションシステムである。換言すれば、人工知能は、コンピュータサイエンスにおける1つの総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応可能な新たな知能機器を生み出すことを意図する。人工知能は、種々の知能機器の設計原理及び実現方法を検討し、機器に、感知、推理及び意思決定機能を持たせるためのものである。
人工知能技術は、総合的な学科であり、広い分野に関し、ハードウェアレベルの技術を含むだけでなく、ソフトウェアレベルの技術も含む。人工知能基礎技術は一般的には、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などの分野を含む。
【0018】
2)音声技術(Speech Technology)
音声技術のキーポイントとなる技術は、自動音声認識技術(Automatic Speech Recognition:ASR)、音声合成技術(Text To Speech:TTS)及び声紋認識技術である。コンピュータに聴取、視認、発話、感知機能を持たせることは、将来のマンマシンインタラクションの発展の動向であり、ここで、音声は、将来では最も有望なマンマシンインタラクション方式の一つとなる。
【0019】
3)マイク
マイクは、一般的には、マイクロフォン、マイクロホンと呼ばれ、電気音響機器における1番目の環節である。マイクは、電気エネルギーを機械的エネルギーに変換し、そして機械的エネルギーを電気的エネルギーに変換するエネルギー変換器である。現在では、人々は、種々のエネルギー変換原理を利用して様々なマイクを製造し、録音において一般的に用いられるものは、コンデンサ、可動コイル、アルミテープマイクなどである。
【0020】
図1は、一例示的な実施例によるオーディオ信号処理システムの概略図である。図1に示すように、オーディオ信号処理システム100は、マイクロホンアレイ101と、オーディオ信号処理機器102と、を備える。
【0021】
ここで、マイクロホンアレイ101は、少なくとも2つの異なる位置に設けられる少なくとも2つのマイクロホンを含む。マイクロホンアレイ101は、音場の空間的特性に対してサンプリングと処理を行うためのものであり、それによってマイクロホンアレイ101の受信したオーディオ信号を利用して、ターゲット話者の角度と距離を算出し、それによってターゲット話者に対する追跡及び後続の音声の指向的ピックアップを実現させる。例示的に、マイクロホンアレイ101は、車載シーンに設けられる。マイクロホンアレイが2つのマイクロホンを含む場合、2つのマイクロホンはそれぞれ、運転位置付近と助手位置付近に設けられ、空間におけるマイクロホンの位置分布に基づいて、マイクロホンアレイをコンパクト型と分散型に分けてもよい。例えば、図2における(1)に示すように、コンパクト型マイクロホンアレイを示す。2つのマイクロホンはそれぞれ、運転席201と助手席202の内側に設けられる。また例えば、図2における(2)に示すように、分散型マイクロホンアレイを示す。2つのマイクロホンはそれぞれ、運転席201と助手席202の外側に設けられる。マイクロホンアレイが4つのマイクロホンを含む場合、4つのマイクロホンはそれぞれ、運転席付近、助手席付近及び2つの乗客席付近に設けられる。例えば、図3における(1)に示すように、コンパクト型マイクロホンアレイを示す。4つのマイクロホンはそれぞれ、運転席201、助手席202及び2つの乗客席203の内側に設けられる。また例えば、図3における(2)に示すように、分散型マイクロホンアレイを示す。4つのマイクロホンはそれぞれ、運転席201、助手席202及び2つの乗客席203の外側に設けられる。また例えば、図3における(3)に示すように、別の分散型マイクロホンアレイを示す。4つのマイクロホンはそれぞれ、運転席201、助手席202及び2つの乗客席203の上方に設けられる。
【0022】
オーディオ信号処理機器102は、マイクロホンアレイ101に接続され、マイクロホンアレイによって収集されたオーディオ信号を収集するためのものである。1つの模式的な例において、オーディオ信号処理機器は、プロセッサ103と、メモリ104と、を備え、メモリ104に少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されており、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、プロセッサ103によりロードされてオーディオ信号処理方法を実行する。例示的に、オーディオ信号処理機器は、車載音声認識システムにおける一部として実現してもよい。1つの模式的な例において、オーディオ信号処理機器は更に、マイクロホンによって収集されたオーディオ信号に対してオーディオ信号処理を行ってオーディオ処理出力を得た後、オーディオ処理出力に対して音声認識を行い、音声認識結果を得るか又は音声認識結果に応答するために用いられる。例示的に、オーディオ信号処理機器は、マザーボード、外部出力/入力機器、メモリ、外部インタフェース、タッチシステム及び電源を更に含んでもよい。
【0023】
ここで、マザーボードにプロセッサ及びコントローラなどの処理素子が集積されており、該プロセッサは、オーディオ処理チップであってもよい。
外部出力/入力機器は、表示コンポーネント(例えば、ディスプレイ)、音声再生コンポーネント(例えば、スピーカ)、音声収集コンポーネント(例えば、マイクロホン)及び種々のキーなどを含んでもよく、該音声収集コンポーネントは、マイクロホンアレイであってもよい。
メモリにプログラムコード及びデータが記憶されている。
外部インタフェースは、イヤホーンインタフェース、充電インタフェース及びデータインタフェースなどを含んでもよい。
タッチシステムは、外部出力/入力機器の表示コンポーネント又はキーに集積されてもよく、タッチシステムは、ユーザによって表示コンポーネント又はキー上で実行されるタッチ操作を検出するためのものである。
電源は、端末における他の各部材を給電するためのものである。
【0024】
本願の実施例において、マザーボードにおけるプロセッサは、メモリに記憶されているプログラムコード及びデータを実行するか又は呼び出すことによってオーディオ処理出力を取得し、オーディオ処理出力に対して音声認識を行い、音声認識結果を取得し、生成された音声認識結果を外部出力/入力機器によって再生するか、又は、音声認識結果に基づいて音声認識結果におけるユーザ命令に応答することができる。オーディオコンテンツの再生プロセスにおいて、タッチシステムによって、ユーザとタッチシステムとのインタラクションの時に実行されるキー又は他の操作などを検出することができる。
現実において、音源の位置が絶え間なく変化し、マイクロホンによる集音に影響を及ぼすため、本願の実施例において、音声インタラクション機器の集音効果を向上させるために、該音声インタラクション機器の音声収集コンポーネントは、一定の数の音響センサ(一般的には、マイクロホン)で構成されるマイクロホンアレイであってもよく、音場の空間的特性に対してサンプリングと処理を行うためのものであり、それによってマイクロホンアレイの受信したオーディオ信号を利用して、ターゲット話者の角度と距離を算出し、それによってターゲット話者に対する追跡及び後続の音声の指向的ピックアップを実現させる。
【0025】
本実施例は、収集されたオーディオ信号を処理し、オーディオ信号における干渉信号を抑制し、より正確なターゲット信号を取得する方法を提供する。以下では、該方法が車載マイクロホンアレイによって収集されたオーディオ信号に対する処理に用いられることを説明する。
【0026】
図4を参照すると、図4は、本願の一例示的な実施例によるオーディオ信号処理方法のフローチャートを示す。該方法は、図1に示されるオーディオ信号処理システムに用いられてもよく、該方法は、オーディオ信号処理機器によって実行される。図4に示すように、該方法は、以下のステップを含んでもよい。
【0027】
ステップ301において、マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得する。
例示的に、該オーディオ信号は、マルチチャネルの音源信号であり、ここで、チャネルの数は、マイクロホンアレイに含まれるマイクロホンの数に対応してもよい。例えば、該マイクロホンアレイに含まれるマイクロホンの数が4つであれば、マイクロホンアレイによって収集されたものは、4つのオーディオ信号である。例示的に、該オーディオ信号は、音声命令を配布する対象が発するターゲット音声と環境雑音の干渉音声を含む。
【0028】
例示的に、各オーディオ信号によって記録される音源コンテンツはいずれも一致する。例えば、あるサンプリング点のオーディオ信号について、該マイクロホンアレイに4つのマイクロホンが含まれる場合、これに対応するオーディオ信号は4つであり、各オーディオ信号はいずれも、該サンプリング点の音源信号のコンテンツを記録するが、マイクロホンアレイにおいて、各マイクロホンと音源との方位及び/又は距離が異なるため、各マイクロホンによって受信された音源信号の周波数、強度などに差異があり、それによりオーディオ信号に差異がある。
【0029】
ステップ302において、第1フィルタによって、オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得し、第1フィルタは、オーディオ信号における干渉音声を抑制し、且つオーディオ信号におけるターゲット音声を強調するためのものである。
【0030】
例示的に、第1フィルタは、オーディオ信号に対してフィルタリングを行い、オーディオ信号におけるターゲット音声を強調し、オーディオ信号における干渉音声を抑制するためのものである。例示的に、第1フィルタは、第1重み行列に対応し、第1重み行列の初期値は、技術者によって経験に応じて設定されてもよく、又は、任意に設定されてもよい。例示的に、第1フィルタは、リアルタイムに更新されるフィルタであり、第1フィルタは、第2フィルタ及び第3フィルタの適応的更新に伴って更新され、第2フィルタ、第3フィルタの重み行列による干渉音声の強調及びターゲット音声抑制に基づいて、第1フィルタによる干渉音声の抑制及びターゲット音声の強調を決定する。
【0031】
例示的に、ターゲット音声は、ターゲット方向に受信したオーディオ信号であり、干渉音声は、ターゲット方向以外の他の方向に受信したオーディオ信号である。例示的に、ターゲット音声は、音声命令を配布する対象が発する音声信号である。
例えば、図5に示すように、オーディオ信号は、オーディオ信号行列Xを構成し、第1フィルタ401に対応する第1重み行列は、Wであれば、オーディオ信号を第1フィルタ401によってフィルタリングすることで得られた第1ターゲットビームは、Xである。
【0032】
例示的に、第1フィルタの前にプレフィルタが設けられてもよく、ステップ302は、ステップ3021~ステップ3022を更に含む。
【0033】
ステップ3021において、プレフィルタによって、オーディオ信号に対して第1フィルタリングを行い、予備ターゲットビームを取得し、プレフィルタは、訓練データによって算出されたフィルタであり、プレフィルタは、干渉音声を抑制し、且つターゲット音声を強調するためのものである。
【0034】
ステップ3022において、第1フィルタによって、予備ターゲットビームに対して第2フィルタリングを行い、第1ターゲットビームを取得する。
【0035】
例示的に、プレフィルタは、訓練データによって算出されたフィルタである。プレフィルタも、オーディオ信号におけるターゲット音声を強調し、且つ干渉音声を抑制するために用いられる。例示的に、プレフィルタは、線形制約付き最小分散(Linearly Constrained Minimum-Variance:LCMV)基準に応じて算出されたフィルタであり、プレフィルタは、算出された後に固定値であり、反復更新されない。
【0036】
例えば、図6に示すように、オーディオ信号は、オーディオ信号行列Xを構成し、プレフィルタ402に対応する予備重み行列は、Wであり、第1フィルタ401に対応する第1重み行列はWであり、オーディオ信号をプレフィルタ402によってフィルタリングすることで得られた予備ターゲットビームは、XWであり、予備ターゲットビームを第1フィルタ401によってフィルタリングすることで得られた第1ターゲットビームは、XWWである。
【0037】
例示的に、プレフィルタの算出方法を示す。マイクロホンアレイによって応用環境において収集された訓練データを取得し、応用環境は、マイクロホンアレイが配置されて使用される空間範囲であり、訓練データは、マイクロホンアレイにおける異なるマイクロホンによって収集されたサンプルオーディオ信号を含み、線形制約付き最小分散(LCMV)基準に応じて訓練データを算出することでプレフィルタを取得する。
【0038】
本願によるオーディオ信号処理方法は、第1フィルタの前に、予め算出されたプレフィルタを設けることによって、プレフィルタにまずオーディオ信号を処理させ、ターゲット音声分離の正確度を向上させ、初期段階におけるフィルタのオーディオ信号処理能力を向上させる。
【0039】
例示的に、プレフィルタは、実際のオーディオ信号収集シーンにおいて収集された実際のデータに基づいて算出されたものである。本願によるオーディオ信号処理方法は、応用環境において収集された実際のオーディオデータを使用することで、プレフィルタを訓練によって取得し、プレフィルタを実際の応用シーンに適合させ、プレフィルタと応用シーンとの適合性を向上させ、プレフィルタの干渉抑制効果を向上させる。
例示的に、訓練データは、ターゲット方向に対応し、あるターゲット方向における訓練データを使用して該ターゲット方向に対応するプレフィルタを訓練することで、訓練されたプレフィルタが該ターゲット方向におけるターゲット音声を強調し、他の方向における干渉音声を抑制することができるようになる。
【0040】
本願によるオーディオ信号処理方法は、ターゲット方向において収集された訓練データを使用することでプレフィルタを訓練によって取得し、プレフィルタは、ターゲット方向におけるオーディオ信号をより良好に認識することができ、他の方向におけるオーディオ信号に対するプレフィルタの抑制能力を向上させる。例示的に、マイクロホンアレイが4つのマイクロホンを含むことを例とし、マイクロホンによって収集された時間領域信号は、それぞれ、mic、mic、mic、micであり、マイクロホン信号を周波数領域に変換することで周波数領域信号XW1、XW2、XW3、XW4を取得し、いずれか1つのマイクロホンをリファレンスマイクロホンとし、他のマイクロホンの相対的伝達関数StrVを取得し、jは、整数である。マイクロホンの数がkであれば、0<j≦k-1である。リファレンスマイクロホンが第1マイクロホンであることを例として、他のマイクロホンの相対的伝達関数StrVは、
StrV=XWj/ XW1である。
続いて、LCMV基準に応じて、現在のリアルな応用環境における最適なフィルタ(プレフィルタ)を取得する。ここで、LCMV基準の演算式は、以下のとおりである。
minimize J(W)=1/2(WxxW)
subject to CW=f
【0041】
【数1】
【0042】
ここで、Wは、プレフィルタの重み行列であり、Rxx=E[XX]であり、X=[ XW1,XW2,XW3,XW4であり、Cは、ステアリングベクトルであり、f=[1,ξ,ξ,ξ3]は、制約条件であり、望ましい方向において、ξは、1であり、他の干渉ゼロ方向において、ξは、ξ(ξ=0又はξ<<1)とする。干渉ゼロの設定は、必要に応じて設定されてもよく、干渉に対する抑制能力を確保できればよい。ステップ303において、第2フィルタによって、オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得し、第2フィルタは、ターゲット音声を抑制し、且つ干渉音声を強調するためのものである。
【0043】
第2フィルタは、オーディオ信号におけるターゲット音声を抑制し、且つ干渉音声を強調し、干渉音声のビームを可能な限り明瞭に取得するためのものである。例示的に、第2フィルタは、第2重み行列に対応し、第2重み行列の初期値は、技術者の経験に応じて設定されてもよい。
【0044】
例えば、図5に示すように、少なくとも2つのオーディオ信号は、オーディオ信号行列Xを構成し、第2フィルタ403に対応する第2重み行列は、Wであれば、少なくとも2つのオーディオ信号を第2フィルタ403によってフィルタリングすることで得られた第1干渉ビームは、Xである。
ステップ304において、第3フィルタによって、第1干渉ビームの第2干渉ビームを取得し、第3フィルタは、第1干渉ビームに対して加重調整を実行するためのものである。
【0045】
第3フィルタは、第2フィルタの出力に対して二次フィルタリングを行うためのものである。例示的に、第3フィルタは、第1干渉ビームにおけるターゲット音声と干渉音声の重みを調整するためのものであり、それによってステップ305において、ターゲットビームから干渉ビームを減算することで、ターゲットビームにおける干渉ビームを除去し、正確なオーディオ出力結果を取得する。
【0046】
例えば、図5に示すように、オーディオ信号は、オーディオ信号行列Xを構成し、第2フィルタ403に対応する第2重み行列は、Wであり、第3フィルタ404に対応する第3重み行列は、Wancであれば、少なくとも2つのオーディオ信号を第2フィルタ403によってフィルタリングすることで得られた第1干渉ビームは、Xであり、第1干渉ビームを第3フィルタ404によってフィルタリングすることで得られた第2干渉ビームは、Xancである。
【0047】
ステップ305において、第1ターゲットビームと第2干渉ビームとの差を第1オーディオ処理出力として決定する。
【0048】
オーディオ処理出力は、フィルタリング後に得られたターゲット音声のビームである。
例えば、図5に示すように、オーディオ信号は、オーディオ信号行列Xを構成し、第1フィルタによって出力された第1ターゲットビームXから、第3フィルタによって出力された第2干渉ビームXancを減算し、第1オーディオ処理出力Y=X-Xancを取得する。
【0049】
また例えば、図6に示すように、少なくとも2つのオーディオ信号は、オーディオ信号行列Xを構成し、第1フィルタによって出力された第1ターゲットビームXWWから、第3フィルタによって出力された第2干渉ビームXancを減算し、第1オーディオ処理出力Y=XWW-Xancを取得する。
【0050】
例示的に、図6に示されるフィルタ組み合わせは、プレフィルタを用いて初回のフィルタリングを行うため、初期段階において、フィルタリングの正確度が高い。従って、分散型又はコンパクト型マイクロホンアレイはいずれもこのような方式でフィルタリングを行ってもよい。例示的に、図5に示されるフィルタ組み合わせは、プレフィルタを使用することがなく、実際の運行環境において収集された訓練データによってプレフィルタを事前取得する必要がなく、それによってフィルタ組み合わせの実際の運行環境への依存性を低減させる。
【0051】
ステップ306において、第2フィルタ及び第3フィルタのうちの少なくとも1つを適応的に更新し、更新が完了した後に、第2フィルタ及び第3フィルタに基づいて、第1フィルタを更新する。
【0052】
例示的に、フィルタリング後に得られたビームに基づいて、第2フィルタと第3フィルタに対して調整を行う。例示的に、第1ターゲットビームに基づいて、第2フィルタを更新し、第1オーディオ処理出力に基づいて、第3フィルタを更新する。又は、第1オーディオ処理出力に基づいて、第2フィルタと第3フィルタを更新する。又は、第1ターゲットビームに基づいて、第2フィルタを更新する。又は、第1オーディオ処理出力に基づいて、第2フィルタを更新する。又は、第1オーディオ処理出力に基づいて、第3フィルタを更新する。
【0053】
本願によるオーディオ信号処理方法は、第1ターゲットビーム又は第1オーディオ処理出力を使用して第2フィルタを更新し、第1オーディオ処理出力を使用して第3フィルタを更新することで、第2フィルタがより正確な干渉ビームを取得することができ、ターゲットビームをより正確に抑制することができ、第3フィルタが第1干渉ビームに対してより正確に重み付けを行うことができ、更に、オーディオ処理出力の正確度を向上させる。
【0054】
例示的に、最小二乗平均適応フィルタ(LMS:Least Mean Square)又は正規化最小二乗平均適応フィルタ(NLMS:Normalized Least Mean Square)の方法で、第2フィルタ又は第3フィルタを適応的に更新する。
【0055】
例示的に、LMSアルゴリズムでフィルタを適応的に更新するプロセスは、以下のとおりである。
1)w(0)を与える。
2)出力値の算出:y(k)=w(k)x(k)。
3)推定誤差の算出:e(k)=d(k)-y(k)。
4)重みの更新:w(k+1)=w(k)+μe(k)x(k)。
ここで、w(0)は、フィルタの初期重み行列であり、μは、更新ステップサイズであり、y(k)は、推定雑音であり、w(k)は、フィルタ更新前の重み行列であり、w(k+1)は、フィルタ更新後の重み行列であり、x(k)は、入力値であり、e(k)は、雑音低減後の音声であり、d(k)は、雑音付き音声であり、kは、反復回数である。
【0056】
オーディオ信号で構成されるオーディオ信号行列がXであり、第1フィルタの第1重み行列がWであり、第2フィルタの第2重み行列がWであり、第3フィルタの第3重み行列がWancであることを例として、第1オーディオ処理出力Y1=X- Xancを使用して、LMSアルゴリズムで、第3フィルタを適応的に更新することで更新後の重み行列(W+μY)を取得する。
例示的に、第2フィルタと第3フィルタの更新が完了した後、更新後の第2フィルタ及び第3フィルタに基づいて、第1フィルタを更新する。例示的に、第1フィルタ、第2フィルタ及び第3フィルタの間の相対的関係に基づいて、第1フィルタを算出する。
例示的に、第1フィルタが第1重み行列に対応し、第2フィルタが第2重み行列に対応し、第3フィルタが第3重み行列に対応すれば、更新が完了した後に、第2フィルタ及び第3フィルタに基づいて、第1フィルタを更新するという実現形態は、更新が完了した後に、第2重み行列と第3重み行列に基づいて、第1重み行列を算出し、続いて、第1重み行列に基づいて、第1フィルタを更新することであってもよい。例示的に、フィルタは、重み行列を用いて、入力されたオーディオ信号を処理する。フィルタは、入力されたオーディオ信号とフィルタに対応する重み行列を乗算し、フィルタリング後に出力されたオーディオ信号を取得する。
【0057】
例示的に、いくつかの場合には、更新が完了した後に、第2重み行列と第3重み行列に基づいて、第1重み行列を算出するという方式は、更新が完了した後に、第2重み行列と第3重み行列との積をターゲット行列として決定し、続いて、単位行列とターゲット行列との差を第1重み行列として決定することであってもよい。
【0058】
例えば、第1重み行列は、Wであり、第2重み行列は、Wであり、第3重み行列は、Wancであれば、W=(1-Wanc)である。
例えば、図5に示すように、第1フィルタ401によって出力された第1ターゲットビームを使用して、第2フィルタ403を適応的に更新し、第1オーディオ処理出力を使用して、第3フィルタ404を適応的に更新する。続いて、更新後の第2フィルタ403と第3フィルタ404を使用して、第1フィルタ401を更新する。
【0059】
要するに、本願によるオーディオ信号処理方法は、第2フィルタ及び第3フィルタに基づいて、第1フィルタを更新することによって、第1フィルタ、第2フィルタ及び第3フィルタがターゲット音源のステアリングベクトルの変化をリアルタイムに追跡することができ、フィルタをすぐに更新し、リアルタイムに更新されたフィルタを用いて、マイクロホンによって次回で収集されたオーディオ信号を処理し、フィルタがシーンの変化に基づいて、オーディオ処理出力を出力し、干渉移動の場合のフィルタの追跡性能を確保し、干渉漏れの問題を減少させる。
【0060】
本願によるオーディオ信号処理方法は、各回の処理後のデータを使用して、第1フィルタ、第2フィルタ、第3フィルタをリアルタイムに更新することで、フィルタがターゲット音源のステアリングベクトルの変化に基づいてリアルタイムに変化することができ、フィルタが、干渉雑音が絶え間なく変化するシーンに適用可能であり、干渉移動の場合のフィルタの追跡性能を確保し、干渉漏れの問題を減少させる。
【0061】
図7を参照すると、図7は、本願の一例示的な実施例によるオーディオ信号処理方法のフローチャートを示す。該方法は、図1に示されるオーディオ信号処理システムに用いられてもよく、該方法は、オーディオ信号処理機器によって実行される。図7に示すように、該方法は、以下のステップを含んでもよい。
【0062】
ステップ501において、マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得し、マイクロホンアレイは、n個のターゲット方向を含み、各ターゲット方向はそれぞれ1つのフィルタグループに対応し、フィルタグループは、上記いずれか1つの方法でオーディオ信号を処理し、nは、1よりも大きい正の整数である。
【0063】
例示的に、マイクロホンアレイに複数のターゲット方向が設けられてもよく、ターゲット方向の数は、任意のものであってもよい。例示的に、各ターゲット方向に基づいて、1つのフィルタグループをそれぞれ訓練によって取得する。該フィルタは、図4に示される方法でオーディオ信号を処理する。例示的に、該フィルタグループは、図5又は図6に示されるフィルタグループのうちのいずれか1つであってもよい。例示的に、異なるターゲット方向に対応するフィルタグループは異なる。例示的に、ターゲット方向におけるオーディオ信号をターゲット音声として、該ターゲット方向に対応するフィルタグループを訓練によって取得する。
【0064】
例えば、図8に示すように、該マイクロホンアレイに4つのターゲット方向が設けられ、4つのターゲット方向は、4つのフィルタグループGSC、GSC、GSC、GSCに対応する。各ターゲット方向は、1つのフィルタグループに対応する。
例示的に、フィルタグループは、第1フィルタと、第2フィルタと、第3フィルタと、を含み、又は、プレフィルタと、第1フィルタと、第2フィルタと、第3フィルタと、を含む。i番目のフィルタグループがプレフィルタを含む場合、プレフィルタは、マイクロホンアレイによって収集されたi番目のターゲット方向における訓練データで訓練されたものである。
【0065】
ステップ502において、n個のターゲット方向に対応するオーディオ信号に対して、対応するフィルタグループをそれぞれ使用してオーディオ信号に対してフィルタリングを行い、n個のターゲット方向に対応するn個の第1オーディオ処理出力を取得する。
【0066】
例えば、図8に示すように、4つのターゲット方向を例として、オーディオ信号で構成されるオーディオ信号行列Xをそれぞれ4つのフィルタグループに入力して4つのターゲット方向にそれぞれ対応する第1オーディオ処理出力Y、Y、Y、Yを取得する。例示的に、各フィルタグループがフィルタリング結果を得た後、フィルタリング結果に基づいて、フィルタグループにおける第1フィルタ、第2フィルタ、第3フィルタをリアルタイムに更新する。
【0067】
ステップ503において、i番目の第1オーディオ処理出力以外のn-1個の第1オーディオ処理出力に基づいて、i番目の第1オーディオ処理出力に対してフィルタリングを行い、i番目のターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、iは、0よりも大きく、且つnよりも小さい正の整数であり、該操作を繰り返して、n個のターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得する。
【0068】
例示的に、i番目のターゲット方向に対して、i番目の第1オーディオ処理出力は、ターゲット音声であり、他のターゲット方向における第1オーディオ処理出力は、干渉音声である。例示的に、i番目のターゲット方向におけるオーディオ信号がターゲット音声である場合、他のターゲット方向におけるオーディオ信号は、干渉信号であり、i番目のターゲット方向に対応するi番目の第1オーディオ処理出力をターゲットビームとし、他のターゲット方向に対応するn-1個の第1オーディオ処理出力を干渉ビームとし、n-1個の第1オーディオ処理出力をi番目の第4フィルタによってフィルタリングすることで、第3干渉ビームを取得し、第3干渉ビームを用いて、i番目の第1オーディオ処理出力に対してフィルタリングを行い、出力されたi番目のターゲット方向におけるオーディオ処理結果の正確度を向上させる。
【0069】
例示的に、i番目の第1オーディオ処理出力以外のn-1個の第1オーディオ処理出力をi番目の干渉グループとして決定し、iは、0よりも大きく、且つnよりも小さい正の整数であり、i番目のターゲット方向に対応するi番目の第4フィルタによって、干渉グループに対してフィルタリングを行うことでi番目の第3干渉ビームを取得し、第4フィルタは、干渉グループに対して加重調整を実行するためのものである。i番目の第1オーディオ処理出力とi番目の第3干渉ビームとの差をi番目の第2オーディオ処理出力として決定し、i番目の第2オーディオ出力に基づいて、i番目の第4フィルタを適応的に更新する。
【0070】
例示的に、i番目の第4フィルタは、i番目のターゲット方向に対応する。
例えば、図8に示すように、4つのターゲット方向を例として、第1ターゲット方向をターゲット音声の方向とすれば、第2ターゲット方向、第3ターゲット方向、第4ターゲット方向における第1音声処理出力Y、Y、Yを1番目の干渉グループとして、1番目の第4フィルタ601に入力し、1番目の第3干渉ビームを取得し、1番目の第1オーディオ処理出力Yから、1番目の第3干渉ビームを減算し、1番目の第2オーディオ処理出力Zを取得する。1番目の第2オーディオ処理出力Zを利用して、1番目の第4フィルタ601を適応的に更新する。
【0071】
例えば、図9に示すように、4つのターゲット方向を例として、第2ターゲット方向をターゲット音声の方向とすれば、第1ターゲット方向、第3ターゲット方向、第4ターゲット方向における第1音声処理出力Y、Y、Yを2番目の干渉グループとして、2番目の第4フィルタ602に入力し、2番目の第3干渉ビームを取得し、2番目の第1オーディオ処理出力Yから、2番目の第3干渉ビームを減算し、2番目の第2オーディオ処理出力Zを取得する。2番目の第2オーディオ処理出力Zを利用して、2番目の第4フィルタ602を適応的に更新する。
【0072】
例えば、図10に示すように、4つのターゲット方向を例として、第3ターゲット方向をターゲット音声の方向とすれば、第1ターゲット方向、第2ターゲット方向、第4ターゲット方向における第1音声処理出力Y、Y、Yを3番目の干渉グループとして、3番目の第4フィルタ603に入力し、3番目の第3干渉ビームを取得し、3番目の第1オーディオ処理出力Yから、3番目の第3干渉ビームを減算し、3番目の第2オーディオ処理出力Zを取得する。3番目の第2オーディオ処理出力Zを利用して、3番目の第4フィルタ603を適応的に更新する。
【0073】
例えば、図11に示すように、4つのターゲット方向を例として、第4ターゲット方向をターゲット音声の方向とすれば、第1ターゲット方向、第2ターゲット方向、第3ターゲット方向における第1音声処理出力Y、Y、Yを4番目の干渉グループとして、4番目の第4フィルタ604に入力し、4番目の第3干渉ビームを取得し、4番目の第1オーディオ処理出力Yから、4番目の第3干渉ビームを減算し、4番目の第2オーディオ処理出力Zを取得する。4番目の第2オーディオ処理出力Zを利用して、4番目の第4フィルタ604を適応的に更新する。
【0074】
要するに、本願によるオーディオ信号処理方法は、収集されたオーディオ信号に対して複数のターゲット方向においてオーディオ処理を行うことで、複数のターゲット方向にそれぞれ対応する複数のオーディオ処理出力を取得し、他の方向におけるオーディオ処理出力を使用して、本方向におけるオーディオ処理出力における干渉を除去することによって、本方向におけるオーディオ処理出力の正確度を向上させる。
【0075】
例示的に、上記オーディオ信号処理方法を車載音声認識シーンに用いるという例示的な実施例を示す。
車載音声認識シーンにおいて、車両の運転席、助手席、2つの乗客席にそれぞれマイクロホンが設けられ、これらのマイクロホンは、マイクロホンアレイを構成し、運転手又は乗客から発された音声インタラクション命令を収集するために用いられる。マイクロホンアレイがオーディオ信号を収集した後、図4又は図7に示される方法でオーディオ信号に対してフィルタリングを行い、第1オーディオ処理出力又は第2オーディオ処理出力を取得し、音声認識アルゴリズムを用いて第1オーディオ処理出力又は第2オーディオ処理出力に対して音声認識又はセマンティック認識を行うことによって、運転手又は乗客から発された音声インタラクション命令を認識し、車載コンピュータシステムを、音声インタラクション命令に基づいて応答を行うようにする。
【0076】
例示的に、運転席、助手席、2つの乗客席の、車両内における位置分布に基づいて、4つのターゲット方向を決定し、4つのターゲット方向はそれぞれ、運転席における運転手の音声インタラクション命令、及び助手席、乗客席にそれぞれ座っている乗客からの音声インタラクション命令を受信するためのものである。マイクロホンアレイがオーディオ信号を収集した後、図4又は図7に示される方法でオーディオ信号に対してフィルタリングを行い、異なるターゲット方向をそれぞれターゲット音声としてフィルタリングを行い、4つのターゲット方向にそれぞれ対応するオーディオ処理出力を取得する。オーディオ処理出力において、選択されたターゲット方向におけるオーディオ信号が強調されており、他のターゲット方向における干渉が抑制されており、それによってオーディオ処理出力の正確度が向上し、音声認識アルゴリズムによる信号における音声命令の認識を容易にする。
【0077】
例示的に、図12における(1)に示されるものは、マイクロホンを運転席と助手席にそれぞれ設けることで収集されたデュアルチャネルスペクトログラムである。ここで、上方は、運転席のスペクトログラムであり、下方は、助手席のスペクトログラムである。図12における(2)に示されるものは、本願によるプレフィルタを使用して、収集されたオーディオ信号をフィルタリングすることで得られたデュアルチャネルスペクトログラムである。(1)と(2)を比較することで、データで訓練されたプレフィルタによる処理によって音声に対する空間フィルタリングの役割を実現させ、2つのチャネルの干渉が大幅に低減したことが明らかである。図12における(3)は、オーディオ信号に対してデータプレフィルタと従来のGSC処理との組み合わせを用いて処理を行うことで得られたデュアルチャネルスペクトログラムである。(2)に比べて、(3)の干渉漏れは、より良好である。図13における(1)に示されるものは、図7に示されるオーディオ信号処理方法(フルブラインドGSC構造)でオーディオ信号を処理することで得られたデュアルチャネルスペクトログラムである。図12における(3)に比べて、音声漏れが更に減少した。その理由は、実験において、分離音源におけるレフトチャネルが移動音源であり、図12における(3)において、従来のGSC構造が移動音源の変化を良好に追跡することができないことが示され、図13における(1)において、データに関連するプレフィルタを使用していないが、移動音源の変化を良好に追跡できるため、干渉音性に対するより良好な抑制能力を有することである。図13における(2)は、図4に示されるオーディオ信号処理方法でオーディオ信号を処理することで得られたデュアルチャネルスペクトログラムである。プレフィルタとフルブラインドGSC構造との組み合わせによってオーディオ信号に対してフィルタリングを行うと共に、データに関連するプレフィルタと移動干渉音源に対する追跡能力を結合し、最適な効果を有する。
【0078】
図14を参照すると、図14は、本願の一例示的な実施例によるオーディオ信号処理装置のブロック図を示す。該装置は、上記図4に示される実施例の方法の全て又は一部のステップを実行するためのものであり、図14に示すように、該装置は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第1取得モジュール701と、
第1フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1ターゲットビームを取得するように構成される第1フィルタリングモジュール702であって、前記第1フィルタは、前記オーディオ信号における干渉音声を抑制し、且つ前記オーディオ信号におけるターゲット音声を強調するためのものである、第1フィルタリングモジュール702と、
第2フィルタによって、前記オーディオ信号に対してフィルタリングを行い、第1干渉ビームを取得するように構成される第2フィルタリングモジュール703であって、前記第2フィルタは、前記ターゲット音声を抑制し、且つ前記干渉音声を強調するためのものである、第2フィルタリングモジュール703と、
第3フィルタによって、前記第1干渉ビームの第2干渉ビームを取得するように構成される第3フィルタリングモジュール704であって、前記第3フィルタは、前記第1干渉ビームに対して加重調整を実行するためのものである、第3フィルタリングモジュール704と、
前記第1ターゲットビームと前記第2干渉ビームとの差を第1オーディオ処理出力として決定するように構成される第1決定モジュール705と、
前記第2フィルタ及び前記第3フィルタとのうちの少なくとも1つを適応的に更新し、更新が完了した後に、前記第2フィルタ及び前記第3フィルタに基づいて、前記第1フィルタを更新するように構成される第1更新モジュール706と、を備えてもよい。
【0079】
可能な実現形態において、前記第1フィルタは、第1重み行列に対応し、前記第2フィルタは、第2重み行列に対応し、前記第3フィルタは、第3重み行列に対応し、
前記第1更新モジュール706は更に、更新が完了した後に、前記第2重み行列と前記第3重み行列に基づいて、前記第1重み行列を算出するように構成され、
前記第1更新モジュール706は更に、前記第1重み行列に基づいて、前記第1フィルタを更新するように構成される。
【0080】
可能な実現形態において、前記第1更新モジュール706は更に、更新が完了した後、前記第2重み行列と前記第3重み行列との積をターゲット行列として決定し、単位行列と前記ターゲット行列との差を前記第1重み行列として決定するように構成される。
【0081】
可能な実現形態において、前記第1更新モジュール706は更に、
前記第1ターゲットビームに基づいて、前記第2フィルタを更新し、前記第1オーディオ処理出力に基づいて、前記第3フィルタを更新し、又は、前記第1オーディオ処理出力に基づいて、前記第2フィルタと前記第3フィルタを更新し、又は、前記第1ターゲットビームに基づいて、前記第2フィルタを更新し、又は、前記第1オーディオ処理出力に基づいて、前記第2フィルタを更新し、又は、前記第1オーディオ処理出力に基づいて、前記第3フィルタを更新するように構成される。
【0082】
可能な実現形態において、前記装置は、
プレフィルタによって、前記オーディオ信号に対して第1フィルタリングを行い、予備ターゲットビームを取得するように構成されるプレフィルタリングモジュール707であって、前記プレフィルタは、訓練データによって算出されたフィルタであり、前記プレフィルタは、前記干渉音声を抑制し、且つ前記ターゲット音声を強調するためのものである、プレフィルタリングモジュール707を更に備え、
前記第1フィルタリングモジュール702は更に、前記第1フィルタによって、前記予備ターゲットビームに対して第2フィルタリングを行い、前記第1ターゲットビームを取得するように構成される。
【0083】
可能な実現形態において、前記装置は、
前記マイクロホンアレイによって応用環境において収集された訓練データを取得するように更に構成される前記第1取得モジュール701であって、前記応用環境は、前記マイクロホンアレイが配置されて使用される空間範囲であり、前記訓練データは、前記マイクロホンアレイにおける異なるマイクロホンによって収集されたサンプルオーディオ信号を含む、前記第1取得モジュール701と、
線形制約付き最小分散(LCMV)基準に応じて前記訓練データを算出することで前記プレフィルタを取得するように構成される演算モジュール708と、を更に備える。
図15を参照すると、図15は、本願の一例示的な実施例によるオーディオ信号処理装置のブロック図を示す。該装置は、上記図7に示される実施例の方法の全て又は一部のステップを実行するためのものであり、図15に示すように、該装置は、
マイクロホンアレイにおける異なるマイクロホンによって収集されたオーディオ信号を取得するように構成される第2取得モジュール801であって、前記マイクロホンアレイは、n個のターゲット方向を含み、各前記ターゲット方向はそれぞれ1つのフィルタグループに対応し、前記フィルタグループは、図4に示される実施例のいずれか1つに記載の方法で前記オーディオ信号を処理し、前記nは、1よりも大きい正の整数である、第2取得モジュール801と、
n個の前記ターゲット方向に対応するオーディオ信号に対して、対応する前記フィルタグループをそれぞれ使用して前記オーディオ信号に対してフィルタリングを行い、n個の前記ターゲット方向に対応するn個の第1オーディオ処理出力を取得するように構成されるフィルタグループモジュール802と、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力に基づいて、i番目の前記第1オーディオ処理出力に対してフィルタリングを行い、i番目の前記ターゲット方向に対応するi番目の第2オーディオ処理出力を取得し、前記iは、0よりも大きく、且つ前記nよりも小さい正の整数であり、該操作を繰り返して、n個の前記ターゲット方向にそれぞれ対応する第2オーディオ処理出力を取得するように構成される第4フィルタリングモジュール803と、を備えてもよい。
【0084】
可能な実現形態において、前記装置は、
i番目の前記第1オーディオ処理出力以外のn-1個の前記第1オーディオ処理出力をi番目の干渉グループとして決定するように更に構成される前記第4フィルタリングモジュール803であって、
i番目の前記ターゲット方向に対応するi番目の第4フィルタによって、i番目の前記干渉グループに対してフィルタリングを行うことでi番目の第3干渉ビームを取得するように更に構成され、前記第4フィルタは、前記干渉グループに対して加重調整を実行するためのものである、前記第4フィルタリングモジュール803と、
i番目の前記第1オーディオ処理出力とi番目の前記第3干渉ビームとの差をi番目の前記第2オーディオ処理出力として決定するように構成される第2決定モジュール804と、
i番目の前記第2オーディオ出力に基づいて、i番目の前記第4フィルタを適応的に更新するように構成される第2更新モジュール805と、を更に備える。
【0085】
可能な実現形態において、前記i番目のフィルタグループは、プレフィルタを含み、前記プレフィルタは、前記マイクロホンアレイによって収集されたi番目の前記ターゲット方向における訓練データで訓練されたものである。
【0086】
図16は、一例示的な実施例によるコンピュータ機器の構造ブロック図である。該コンピュータ機器は、本願の上記方案におけるオーディオ信号処理機器として実現してもよい。前記コンピュータ機器900は、中央処理ユニット(Central Processing Unit:CPU)901と、ランダムアクセスメモリ(Random Access Memory:RAM)902及び読み出し専用メモリ(Read-Only Memory:ROM)903を含むシステムメモリ904と、システムメモリ904と中央処理ユニット901とを接続するためのシステムバス905と、を備える。前記コンピュータ機器900は、コンピュータ内の各機器間の情報伝送に寄与する基本入力/出力システム(Input/Outputシステム:I/Oシステム)906と、オペレーティングシステム913、アプリケーションプログラム914及び他のプログラムモジュール915を記憶するための大容量記憶装置907と、を更に備える。
【0087】
前記基本入力/出力システム906は、情報を表示するためのディスプレイ908と、ユーザによる情報入力のためのマウス、キーボードのような入力機器909と、を備える。ここで、前記ディスプレイ908及び入力機器909はいずれも、システムバス905に接続された入力出力コントローラ910を介して中央処理ユニット901に接続される。前記基本入力/出力システム906は、キーボード、マウス又は電子スタイラスなどのような複数の他の機器からの入力を受信して処理するための入力出力コントローラ910を更に備えてもよい。同様に、入力出力コントローラ910は更に、出力をディスプレイスクリーン、プリンタ又は他のタイプの出力機器に提供する。
【0088】
本願の種々の実施例によれば、前記コンピュータ機器900は更に、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続されて実行されることも可能である。つまり、コンピュータ機器900は、前記システムバス905に接続されたネットワークインタフェースユニット911を介してネットワーク912に接続されてもよい。又は、ネットワークインタフェースユニット911を利用して他のタイプのネットワーク又はリモートコンピュータシステム(図示されず)に接続されてもよい。
【0089】
前記メモリは、一つ又は1つ以上のプログラムを更に含んでもよく、前記1つ又は1つ以上のプログラムは、メモリに記憶され、中央処理ユニット901は、該1つ又は1つ以上のプログラムを実行することで、図4又は図7に示される方法における全て又は一部のステップを実現させる。
【0090】
本願の実施例は、上記コンピュータ機器に用いられるコンピュータソフトウェア命令を記憶するためのコンピュータ可読記憶媒体を更に提供する。それは、上記オーディオ処理方法を実行するために設計されたプログラムを含む。例えば、該コンピュータ可読記憶媒体は、ROM、RAM、CD-ROM、磁気テープ、フレキシブルディスク及び光学データ記憶機器などであってもよい。
【0091】
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該記憶媒体に少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行され、前記プロセッサに上述したオーディオ信号処理方法の全て又は一部のステップを実現させる。
【0092】
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを更に提供する。該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行し、該コンピュータ機器に上記選択的な実現形態によるオーディ信号処理方法を実行する。
【0093】
当業者は、明細書を考慮してここで開示された発明を実践した後、本願の他の実施案を容易に想到し得る。本願は、本願のいかなる変形、用途、又は適応的な変化を含むことを目的としており、これらの変形、用途、又は適応的な変化は、本願の一般的な原理に従うとともに、本願において公開されていない本技術分野における公知常識又は慣用技術手段を含む。明細書及び実施例は、例示的なもののみとして見なされ、本願の本当の範囲と精神は、下記の特許請求の範囲によって示される。
本願は、上述されて図面に示された精確な構造に限定されず、そしてその範囲を逸脱しない前提のもとで種々の修正と変更を行うことができることを理解すべきである。本願の範囲は、特許請求の範囲によってのみ限定される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16