IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京声智科技有限公司の特許一覧

特許7333972自動利得制御方法及びその装置、読取可能な記録媒体
<>
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図1
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図2
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図3
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図4
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図5
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図6
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図7
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図8
  • 特許-自動利得制御方法及びその装置、読取可能な記録媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-18
(45)【発行日】2023-08-28
(54)【発明の名称】自動利得制御方法及びその装置、読取可能な記録媒体
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20230821BHJP
   H04R 3/00 20060101ALI20230821BHJP
   G10L 21/0316 20130101ALI20230821BHJP
   G10L 15/20 20060101ALI20230821BHJP
   G10L 25/84 20130101ALI20230821BHJP
【FI】
G10L21/0208 100Z
H04R3/00 320
G10L21/0316
G10L15/20 380
G10L25/84
【請求項の数】 22
(21)【出願番号】P 2021564552
(86)(22)【出願日】2019-10-31
(65)【公表番号】
(43)【公表日】2022-07-04
(86)【国際出願番号】 CN2019114764
(87)【国際公開番号】W WO2020220625
(87)【国際公開日】2020-11-05
【審査請求日】2021-12-24
(31)【優先権主張番号】201910358510.9
(32)【優先日】2019-04-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521473505
【氏名又は名称】北京声智科技有限公司
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】▲陳▼ 孝良
(72)【発明者】
【氏名】▲馮▼ 大航
【審査官】大野 弘
(56)【参考文献】
【文献】特表2006-504130(JP,A)
【文献】特開2014-052553(JP,A)
【文献】特開2015-087456(JP,A)
【文献】特開2010-054733(JP,A)
【文献】特開2016-122111(JP,A)
【文献】国際公開第2014/181330(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0208
H04R 3/00
H04R 3/02
G10L 21/0316
G10L 15/20
G10L 25/84
H03G 3/30
(57)【特許請求の範囲】
【請求項1】
自動利得制御装置は、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップと、
前記自動利得制御装置は、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するステップと、
前記自動利得制御装置は、前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するステップと、
前記自動利得制御装置は、特定された前記ゲイン値に基づいて前記現在フレームのファーフィールド音声信号を処理し、処理された音声信号を取得するステップと、
を含み、
前記自動利得制御装置は、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップは、
前記自動利得制御装置は、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が、対象音声信号である前記対象信号であるか、もしくは、干渉音声信号又は干渉非音声信号の少なくとも1つを含む前記非対象信号であるかを判断する操作と、
前記自動利得制御装置は、前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断する操作と、
の少なくとも1つを含む自動利得制御装置による自動利得制御方法。
【請求項2】
前記自動利得制御装置は、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作は、
前記自動利得制御装置は、信号全体のエネルギーに対して、1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または所定の閾値を超えたことの場合、前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断し、そうでない場合、前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断するステップ、を含む
請求項に記載の自動利得制御方法。
【請求項3】
前記自動利得制御装置は、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作は、
前記自動利得制御装置は、マイクロフォン信号処理の一般化サイドローブキャンセラにおける前記1チャネルのマイクロフォンにより収集された信号の状態値active_onを取得するステップであって、前記状態値active_on=1である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または前記所定の閾値を超えたことを表し、前記状態値active_on=0である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大ではないこと、または前記所定の閾値以下であることを表すステップ、
を含む請求項に記載の自動利得制御方法。
【請求項4】
前記自動利得制御装置は、音響エコー消去算出過程におけるダブルトーク判断結果に基づいて対象信号であるか非対象信号であるかを判断する操作は、
前記自動利得制御装置は、マイクロフォンにより収集されたファーフィールド音声信号の音響エコー消去算出過程において前記現在フレームのファーフィールド音声信号のダブルトーク判断結果を取得するステップと、
前記自動利得制御装置は、前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号がニアエンド音声を含むと表される場合、前記現在フレームのファーフィールド音声信号がニアエンド音声信号であると判定するステップと、
前記自動利得制御装置は、前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号が前記ニアエンド音声を含まないと表される場合、前記現在フレームのファーフィールド音声信号がファーエンド音声信号であると判定するステップと、
を含む請求項に記載の自動利得制御方法。
【請求項5】
前記自動利得制御装置は、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するステップは、
前記自動利得制御装置は、前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定するステップと、
前記自動利得制御装置は、前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するステップと、
を含む請求項に記載の自動利得制御方法。
【請求項6】
前記自動利得制御装置は、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するステップは、さらに、
前記自動利得制御装置は、gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号のゲインを取得するステップと、
前記自動利得制御装置は、式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記ゲイン変化量を取得するステップと、を含み、
ただし、tはフレーム数であり、αはスムージング係数であり、gain_cur(t-1)はt-1番目フレームのゲインであり、Δgainはゲイン変化量であり、gainはt番目フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタである、
請求項に記載の自動利得制御方法。
【請求項7】
前記自動利得制御装置は、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するステップは、
前記自動利得制御装置は、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定するステップと、
前記自動利得制御装置は、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するステップと、
を含む請求項2又は3に記載の自動利得制御方法。
【請求項8】
前記自動利得制御装置は、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するステップは、さらに、
前記自動利得制御装置は、gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号のゲインを取得するステップと、
前記自動利得制御装置は、式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の、直前フレームに対する前記ゲイン変化量を取得するステップと、を含み、
ただし、tはフレーム数であり、αはスムージング係数であり、gain_cur(t-1)はt-1番目フレームの前記1チャネルのマイクロフォンにより収集された信号のゲインであり、Δgainはゲイン変化量であり、gainはt番目フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタである
請求項に記載の自動利得制御方法。
【請求項9】
前記最大ゲイン値が1を超え、前記最小ゲイン値が1以下である、
請求項5~8のいずれか1項に記載の自動利得制御方法。
【請求項10】
前記自動利得制御装置は、ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するステップは、
前記自動利得制御装置は、前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルに基づいて前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いるステップを含む、
請求項1~9のいずれか1項に記載の自動利得制御方法。
【請求項11】
現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するように配置されている判断ユニットと、
区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の、直前フレームに対するゲイン変化量を取得するように配置されているゲイン算出ユニットと、
前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するように配置されているゲインテーブル更新ユニットと、
特定された前記ゲイン値に基づいて、現在フレームの前記ファーフィールド音声信号を処理し、処理された音声信号を取得するように配置されている増幅処理ユニットと、
を含み、
前記判断ユニットは、
信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断するように配置されている第2判断サブユニットであって、前記対象信号は対象音声信号であり、前記非対象信号は干渉音声信号および/または干渉非音声信号の少なくとも1つを含む第2判断サブユニットと、
前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断するように配置されている第3判断サブユニットと、
の少なくとも1つを含む自動利得制御装置。
【請求項12】
前記第2判断サブユニットは、さらに、信号全体のエネルギーに対して、1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または所定の閾値を超えたことの場合、前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断し、そうでない場合、前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断するように配置されている、
請求項11に記載の自動利得制御装置。
【請求項13】
前記第2判断サブユニットは、さらに、
マイクロフォン信号処理の一般化サイドローブキャンセラにおける前記1チャネルのマイクロフォンにより収集された信号の状態値active_onを取得するように配置されており、ここで、前記状態値active_on=1である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または前記所定の閾値を超えたことを表し、前記状態値active_on=0である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大ではないこと、または前記所定の閾値以下であることを表す、
請求項12に記載の自動利得制御装置。
【請求項14】
前記第3判断サブユニットは、さらに、
マイクロフォンにより収集されたファーフィールド音声信号の音響エコー消去算出過程において前記現在フレームのファーフィールド音声信号のダブルトーク判断結果を取得し、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号がニアエンド音声を含むと表される場合、前記現在フレームのファーフィールド音声信号がニアエンド音声信号であると判定し、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号が前記ニアエンド音声を含まないと表される場合、前記現在フレームのファーフィールド音声信号がファーエンド音声信号であると判定する、ように配置されている、
請求項11に記載の自動利得制御装置。
【請求項15】
前記ゲイン算出ユニットは、さらに、
前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定し、
前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するように配置されている、
請求項14に記載の自動利得制御装置。
【請求項16】
前記ゲイン算出ユニットは、さらに、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定し、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定する
ように配置されている請求項12又は13に記載の自動利得制御装置。
【請求項17】
前記ゲインテーブル更新ユニットは、さらに、前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルに基づいて前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いるように配置されている、
請求項11~16のいずれか1項に記載の自動利得制御装置。
【請求項18】
前記ファーフィールド音声信号を取得するように配置されている取得ユニットをさらに含む、
請求項11~17のいずれか1項に記載の自動利得制御装置。
【請求項19】
前記取得ユニットは、
音声信号を取得するように配置されているマイクロフォンと、
前記音声信号から前記ファーフィールド音声信号を特定するように配置されている特定サブユニットと、
を含む請求項18に記載の自動利得制御装置。
【請求項20】
プロセッサと、
前記プロセッサに請求項1~10のいずれか1項に記載の方法を実行させるプログラムを記憶するメモリと、を含む、
自動利得制御装置。
【請求項21】
前記ファーフィールド音声信号を取得するように配置されているマイクロフォンをさらに含む、
請求項20に記載の自動利得制御装置。
【請求項22】
1つ又は複数のプロセッサに請求項1~10のいずれか1項に記載の方法を実行させるプログラムを記憶する
読取可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、2019年4月29日付けで出願された中国特許出願201910358510.9号の優先権を主張し、ここで、上記中国特許出願の開示内容の全てを本願の一部として組み込む。
【0002】
本開示の実施例は、自動利得制御方法、自動利得制御装置及び読取可能な記録媒体に関する。
【背景技術】
【0003】
人工知能技術が発展するにつれて、音声認識技術もそれに伴って進歩し続け、音声認識技術は、既に、例えば音声アシスタント、スマートテレビ、スマートスピーカ等の多くの分野に応用されている。しかし、音声認識技術の基礎は、如何に高品質の対象信号、即ち、命令発信者の音声信号を取得するかということであり、高品質の対象信号は、音声信号の意味認識の的確性の向上に有利である。音声信号は、音源からマイクロフォンアレイまでの距離の遠近に応じて、ニアフィールド音声(near-field audio)信号とファーフィールド音声(far-field audio)信号とに分けられており、ファーフィールド音声信号の認識については、例えばファーフィールド音声信号を取得した後に如何にゲインを行うかなどの多くの難点が存在している。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の少なくとも1つの実施例は、
現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップと、
区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップと、
前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するステップと、
特定された前記ゲイン値に基づいて前記現在フレームのファーフィールド音声信号を処理し、処理された音声信号を取得するステップと、
を含む、
自動利得制御方法を提供する。
【0005】
例えば、前記現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップは、
前記現在フレームのファーフィールド音声信号が人声信号である確率を特定し、前記確率に基づいて、前記現在フレームのファーフィールド音声信号が、人声信号である前記対象信号であるか、もしくは、周囲雑音信号である前記非対象信号であるかを判断する操作と、
信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が、対象音声信号である前記対象信号であるか、もしくは、干渉音声信号又は干渉非音声信号の少なくとも1つを含む前記非対象信号であるかを判断する操作と、
前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断する操作と、
の少なくとも1つを含む。
【0006】
例えば、前記現在フレームのファーフィールド音声信号が人声信号である確率を特定し、前記確率に基づいて前記現在フレームのファーフィールド音声信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作は、
前記現在フレームのファーフィールド音声信号が人声信号である確率を算出して、所定の人声閾値と比較し、前記確率が前記人声閾値を超えた場合、前記現在時間帯における前記ファーフィールド音声信号が人声信号であると判定し、そうでない場合、前記現在時間帯における前記ファーフィールド音声信号が周囲雑音信号であると判定するステップ、を含む。
【0007】
例えば、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作は、
信号全体のエネルギーに対して、1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または所定の閾値を超えたことの場合、前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断し、そうでない場合、前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断するステップ、を含む。
【0008】
例えば、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作は、
マイクロフォン信号処理の一般化サイドローブキャンセラにおける前記1チャネルのマイクロフォンにより収集された信号の状態値active_onを取得するステップであって、前記状態値active_on=1である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または前記所定の閾値を超えたことを表し、前記状態値active_on=0である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大ではないこと、または前記所定の閾値以下であることを表すステップ、を含む。
【0009】
例えば、音響エコー消去算出過程におけるダブルトーク判断結果に基づいて対象信号であるか非対象信号であるかを判断する操作は、
マイクロフォンにより収集されたファーフィールド音声信号の音響エコー消去算出過程において前記現在フレームのファーフィールド音声信号のダブルトーク判断結果を取得するステップと、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号がニアエンド音声を含むと表される場合、前記現在フレームのファーフィールド音声信号がニアエンド音声信号であると判定するステップと、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号が前記ニアエンド音声を含まないと表される場合、前記現在フレームのファーフィールド音声信号がファーエンド音声信号であると判定するステップと、
を含む。
【0010】
例えば、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップは、
前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定するステップと、
前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するステップと、
を含む。
【0011】
例えば、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップは、さらに、
gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号のゲインを取得するステップと、
式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記ゲイン変化量を取得するステップと、を含み、
ただし、tはフレーム数であり、αはスムージング係数であり、gain_cur(t-1)はt-1番目フレームのゲインであり、Δgainはゲイン変化量であり、gainはt番目フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタである。
【0012】
例えば、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップは、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定するステップと、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するステップと、を含む。
【0013】
例えば、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップは、さらに、
gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号のゲインを取得するステップと、
式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の、直前フレームに対する前記ゲイン変化量を取得するステップと、を含み、
ただし、tはフレーム数であり、αはスムージング係数であり、gain_cur(t-1)はt-1番目フレームの前記1チャネルのマイクロフォンにより収集された信号のゲインであり、Δgainはゲイン変化量であり、gainはt番目フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタである。
【0014】
例えば、前記最大ゲイン値が1を超え、前記最小ゲイン値が1以下である。
【0015】
例えば、前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するステップは、
前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルに基づいて前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いるステップ、を含む。
【0016】
本開示の少なくとも1つの実施例は、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するように配置されている判断ユニットと、
区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するように配置されているゲイン算出ユニットと、
前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するように配置されているゲインテーブル更新ユニットと、
特定された前記ゲイン値に基づいて現在フレームの前記ファーフィールド音声信号を処理し、処理された音声信号を取得するように配置されている増幅処理ユニットと、
を含む自動利得制御装置をさらに提供する。
【0017】
例えば、前記判断ユニットは、
前記現在フレームのファーフィールド音声信号が人声信号である確率を特定し、前記確率に基づいて、前記現在フレームのファーフィールド音声信号が、人声信号である前記対象信号であるか、もしくは、周囲雑音信号である前記非対象信号であるかを判断するように配置されている第1判断サブユニットと、
信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断するように配置されている第2判断サブユニットであって、前記対象信号は対象音声信号であり、前記非対象信号は干渉音声信号および/または干渉非音声信号の少なくとも1つを含む第2判断サブユニットと、
前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断するように配置されている第3判断サブユニットと、の少なくとも1つを含む。
【0018】
例えば、前記第1判断サブユニットは、さらに、前記現在フレームのファーフィールド音声信号が人声信号である確率を算出して、所定の人声閾値と比較し、前記確率が前記人声閾値を超えた場合、前記現在時間帯における前記ファーフィールド音声信号が人声信号であると判定し、そうでない場合、前記現在時間帯における前記ファーフィールド音声信号が周囲雑音信号であると判定するように配置されている。
【0019】
例えば、前記第2判断サブユニットは、さらに、信号全体のエネルギーに対して、1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または所定の閾値を超えたことの場合、前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断し、そうでない場合、前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断するように配置されている。
【0020】
例えば、前記第2判断サブユニットは、さらに、マイクロフォン信号処理の一般化サイドローブキャンセラにおける前記1チャネルのマイクロフォンにより収集された信号の状態値active_onを取得するように配置されており、前記状態値active_on=1である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または前記所定の閾値を超えたことを表し、前記状態値active_on=0である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大ではないこと、または前記所定の閾値以下であることを表す。
【0021】
例えば、前記第3判断サブユニットは、さらに、
マイクロフォンにより収集されたファーフィールド音声信号の音響エコー消去算出過程において前記現在フレームのファーフィールド音声信号のダブルトーク判断結果を取得し、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号がニアエンド音声を含むと表される場合、前記現在フレームのファーフィールド音声信号がニアエンド音声信号であると判定し、
前記ダブルトーク判断結果により、前記現在フレームのファーフィールド音声信号が前記ニアエンド音声を含まないと表される場合、前記現在フレームのファーフィールド音声信号がファーエンド音声信号であると判定する、ように配置されている。
【0022】
例えば、前記ゲイン算出ユニットは、さらに、
前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定し、
前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定する、ように配置されている。
【0023】
例えば、前記ゲイン算出ユニットは、さらに、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定し、
前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記1チャネルのマイクロフォンにより収集された信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定する、ように配置されている。
【0024】
例えば、前記ゲインテーブル更新ユニットは、さらに、前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルに基づいて前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いるように配置されている。
【0025】
例えば、前記自動利得制御装置は、前記ファーフィールド音声信号を取得するように配置されている取得ユニットをさらに含む。
【0026】
例えば、前記取得ユニットは、
音声信号を取得するように配置されているマイクロフォンと、
前記音声信号から前記ファーフィールド音声信号を特定するように配置されている特定サブユニットと、
を含む。
【0027】
本開示の少なくとも1つの実施例は、プロセッサと、
命令を記憶し、前記命令が前記プロセッサにより実行される場合、前記プロセッサに本開示の任意の実施例に記載の自動利得制御方法を実行させるように配置されているメモリと、
を含む自動利得制御装置をさらに提供する。
【0028】
例えば、前記自動利得制御装置は、前記ファーフィールド音声信号を取得するように配置されているマイクロフォンをさらに含む。
【0029】
本開示の少なくとも1つの実施例は、実行可能な命令が記憶されており、前記実行可能な命令が1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに上記自動利得制御方法を実行させる、読取可能な記録媒体をさらに提供する。
【0030】
本開示の実施例の技術的解決手段をより明らかに説明するために、以下、実施例に係る図面を簡単に紹介し、明らかに、以下に説明する図面は、本開示の幾つかの実施例に係るものに過ぎず、本開示を制限するものではない。
【図面の簡単な説明】
【0031】
図1】本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のフローチャートである。
図2】本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。
図3】本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。
図4】本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。
図5】本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御装置のブロック図である。
図6】本開示の少なくとも1つの実施例に係る判断ユニットの概略的ブロック図である。
図7】本開示の少なくとも1つの実施例に係る自動利得制御装置の概略的ブロック図である。
図8】本開示の少なくとも1つの実施例に係る取得ユニットの概略的ブロック図である。
図9】本開示の少なくとも1つの実施例に係る自動利得制御方法又は装置の実施に適した示例的コンピュータシステムの概略的ブロック図である。
【発明を実施するための形態】
【0032】
本開示の実施例の目的、技術的解決手段及びメリットをより明らかにするために、以下、図面を参照しながら本開示の実施例の技術的解決手段を明確かつ完全に説明する。明らかに、本明細書で説明される実施例は、本開示の一部の実施例であり、全ての実施例ではない。本明細書で説明される本開示の実施例に基づき、当業者が創造的な労力を行うことなく取得したその他の実施例は全て本開示の保護範囲に含まれる。
【0033】
AGC(Automatic Gain Control,自動利得制御)は、異なる音声信号に応じて音声信号の異なる部分をゲインするために用いられる。しかし、従来のAGC方法は、ほとんどニアフィールド音声信号に対するゲインであり、1つの固定のゲイン因子を用いてゲインを行う方法である。従って、ファーフィールド音声信号をゲインし、対象信号を有効にゲインし、非対象信号に対するゲインを低減する新規なAGC方法が必要とされる。
【0034】
上記ゲインコントロール方法が音声信号全体をゲインすることしかできず、ファーフィールド音声信号のうちの対象信号と非対象信号とを区別的にゲインすることができない問題について、本開示は、ファーフィールド音声信号をゲインする際に、対象信号のゲインを有効に向上させ、非対象信号に対するゲインを低減することができるファーフィールド音声対話における自動利得制御方法を提供し、ここで、対象信号は命令発信者の音声信号であり、非対象信号は、スピーカ自体が放送するオーディオ信号、周囲に存在する音声信号、及び周囲の非音声信号を含むが、これらに限られない。
【0035】
本開示の実施例において、上記ニアフィールド及びファーフィールドの定義としては、音源からマイクロフォンアレイ中心基準点までの距離が信号の波長を遥かに超えた場合にはファーフィールドであり、そうでない場合、ニアフィールドである。例えば、均一な線形のマイクロフォンアレイの隣り合うマイクロフォン間の距離(アレイ開口とも称する)をdとし、音源の最高周波数の音声の波長(即ち、音源の最小波長)をλminとし、もし音源からアレイ中心までの距離が2D/λmin(ただし、D=d×(m-1)であり、mは均一な線形のマイクロフォンアレイにおけるマイクロフォンの個数である)を超えていれば、ファーフィールドであり、そうでない場合、ニアフィールドである。
【0036】
本開示の目的、技術的解決手段及び利点をより明確にするために、以下、具体的な実施例を組み合わせて、図面を参照しながら本開示をさらに詳しく説明する。
【0037】
以降、図面を参照しながら本開示の幾つかの実施例をより完全に説明するが、実施例が全て示されるわけではなく、幾つかの実施例のみが示されている。実際に、本開示の各実施例は、多くの異なる形で実現可能であり、本明細書で説明される実施例に制限されると解釈されるべきではない。むしろ、これらの実施例は、本開示が適用可能な法的要件を満たすような形で提供される。
【0038】
本開示の少なくとも1つの実施例は、
現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップと、
区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップと、
前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するステップと、
特定された前記ゲイン値に基づいて前記現在フレームのファーフィールド音声信号を処理し、処理された音声信号を取得するステップと、
を含む自動利得制御方法を提供する。
【0039】
本開示の少なくとも1つの例示的な実施例において、ファーフィールド音声対話における自動利得制御方法を提供する。図1は、本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のフローチャートである。図1に示すように、本開示のファーフィールド音声対話における自動利得制御方法は、
ファーフィールド音声信号における対象信号と非対象信号とを区別するステップを含み、ここで、対象信号は命令発信者の音声信号であり、非対象信号は、スピーカ自体が放送するオーディオ信号、周囲に存在する音声信号、及び周囲の非音声信号を含むが、これらに限られない。
【0040】
対象信号であるか非対象信号であるかの判断結果を取得した後、前記対象信号と前記非対象信号のそれぞれに対してゲインを算出する必要があり、現在では対象信号であると判断された場合、ゲインテーブルを算出するためのゲインテーブル算出用パラメタが最大ゲイン値を取り、この最大ゲイン値が1を超える。現在では非対象信号であると判断された場合、ゲインテーブルを算出するためのゲインテーブル算出用パラメタが最小ゲイン値を取り、この最小ゲイン値が1以下である。
【0041】
現在フレームのゲインを算出した後、現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を求める。収集された信号が変動することによりゲインテーブルが頻繁に更新されるのを防止するために、1つの所定閾値を設定して前記ゲイン変化量と比較する。前記ゲイン変化量が所定閾値を超えた場合のみ、ゲインテーブルを更新し、そうでない場合、元のゲインテーブルを用いる。
【0042】
前記現在ゲインテーブルに基づいて現在フレームの前記ファーフィールド音声信号を処理し、増幅後の音声信号を取得する。これにより、ファーフィールド音声信号をゲインする際に、対象信号のゲインを有効に向上させ、非対象信号のゲインを低減することができ、このような対象信号と非対象信号とを区別してゲインする方法は、音声信号の品質を向上させることができる。
【0043】
本開示の少なくとも1つの例示的な実施例において、音声の存在確率に基づいてゲインを更新する、ファーフィールド音声対話における自動利得制御方法を提供する。異なる時間範囲内のファーフィールド音声信号は、人声信号と周囲雑音信号とに分けられてもよく、このような場面において、対象信号と非対象信号とが簡略化され、仮に収集信号に命令発信者の発話声及び周囲雑音のみが含まれていれば、人声信号を対象信号として用い、周囲雑音信号を非対象信号として用いる。このようなファーフィールド音声信号については、異なる時間帯における音声信号に対して確率判断を行い、音声の存在確率を利用して、異なるエネルギーのゲインテーブルに対して更新操作を行ってもよい。
【0044】
具体的に、判断方法は、ある時間帯内のファーフィールド音声信号が人声信号である確率が、人声閾値である確率を超えたか否かを判断するステップを含み、当該人声閾値が1つの所定値であり、収集された信号が人声である場合に確率が大きく、そうでない場合、確率が小さいので、経験に応じて1つの臨界値を人声閾値として設置する。人声閾値を超えた場合、当該時間帯内の音声信号に対して最大ゲインを行い、人声閾値以下である場合、当該時間帯内の音声信号に対して最大ゲインを小さくする。
【0045】
図2は、本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。図2に示すように、本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法は、
異なる時間帯におけるファーフィールド音声信号に対して確率の算出を行い、前記確率の密度は、前記ファーフィールド音声信号が人声信号である確率および/または前記ファーフィールド音声信号が非人声信号である確率を含むS101と、
ある時間帯内のファーフィールド音声信号が人声信号である確率が、所定の人声閾値p_thを超えたか否かを判断し、人声閾値を超えた場合、当該時間帯内の音声信号に対して最大ゲインを行い、人声閾値p_th以下である場合、当該時間帯内の音声信号に対して最小ゲインを行うS102と、
ゲイン平滑化を行い、ゲイン変化量が所定閾値を満たすか否かを判断し、満たす場合、ゲインテーブルを更新し、そうでない場合、元のゲインテーブルを用いるS103と、
前記現在ゲインテーブルに基づいて現在フレームの前記ファーフィールド音声信号を処理し、増幅後の音声信号を取得するS104と、
を含む。
【0046】
具体的に、前記ステップS101は、現在信号の確率密度pを算出して得るステップを含む。
【0047】
前記ステップS102は、
前記確率密度p>p_thである場合、gain=gain_maxとし、p<p_thである場合、gain=gain_minとするステップを含み、この時、現在のゲインgain_cur(t)=α×gain_cur(t-1)+(1-α)×gainであり、
ただし、tはフレーム数であり、p_thは人声閾値であり、gainはゲインテーブルを算出するためのゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)は直前フレームのゲインである。
【0048】
前記ステップS103は、
ゲイン変化量Δgain=gain_cur(t)-gain_cur(t-1)であり、Δgain>aである場合にゲインテーブルを更新し、ゲインテーブルを更新した後、gain_cur(t-1)=gain_cur(t)とするステップを含み、式において、Δgainはゲイン変化量であり、aは所定の変化閾値である。ゲインテーブルをエネルギーに基づいて算出し、異なるエネルギーに対応するゲインが得られる。
【0049】
例えば、本開示の少なくとも1つの実施例において、上記の、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップは、
前記現在フレームのファーフィールド音声信号が人声信号である確率を特定し、前記確率に基づいて、前記現在フレームのファーフィールド音声信号が、人声信号である前記対象信号であるか、もしくは、周囲雑音信号である前記非対象信号であるかを判断する操作を含んでもよい。
【0050】
例えば、1フレームのファーフィールド音声信号が人声信号である確率が、所定の人声閾値を超えた場合、当該フレームのファーフィールド音声信号が人声信号であると判断し、そうでない場合、当該フレームのファーフィールド音声信号が周囲雑音信号であると判断する。
【0051】
例えば、上記1フレームのファーフィールド音声信号が人声信号である確率は、
マイクロフォンにより収集されたオーディオ信号Xに対して、信号全体のエネルギーEを算出するステップと、
1フレームの信号のエネルギーEを算出するステップと、
当該フレームの信号のエネルギーEと信号全体のエネルギーEとの比の値P=E/Eを算出し、この比の値を、当該フレームのファーフィールド音声信号が人声である確率とするステップと、
により算出されてもよい。
【0052】
例えば、本開示の少なくとも1つの実施例において、上記の、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するステップは、
前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定するステップと、
前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するステップと、
を含む。
【0053】
例えば、現在フレームのファーフィールド音声信号が人声信号である確率p>所定の人声閾値p_thである場合、現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタgainが最大ゲイン値gain_maxを取り、即ち、gain=gain_maxとする。現在フレームのファーフィールド音声信号が人声信号である確率p<所定の人声閾値p_thである場合、現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタgainが最小ゲイン値gain_minを取り、即ち、gain=gain_minとする。
【0054】
例えば、式gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号のゲインを取得するステップと、式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記ゲイン変化量を取得ステップと、を含み、
ただし、tはフレーム数であり、gainはt番目フレームのファーフィールド音声信号のゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)はt-1番目フレームのゲインである。例えば、最大ゲイン値gain_maxが1を超え、最小ゲイン値gain_minが1以下である。
【0055】
例えば、前記ゲイン変化量Δgainが所定閾値を超えた場合、所定のゲインテーブルに基づいて、前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いる。
【0056】
例えば、ゲインテーブルは予め特定されており、ゲインテーブルは、オーディオ信号のエネルギーレベルとゲイン値との関係を含む。オーディオ信号の1つのエネルギーレベルについては、ゲインテーブルにより対応するゲイン値を特定することができる。
【0057】
例えば、ファーフィールド音声信号の各々のフレームが同一の時間長を有する。
【0058】
本実施例において、時間帯内のファーフィールド音声信号が人声信号であるか否かの確率を判断し、人声信号と非人声信号とを区別し、非人声信号のゲインではなく人声信号のゲインを大幅に向上させることにより、その後の音声認識の的確性を向上させ、特に、干渉信号の混入による認識音声複数ワード等の現象を避けた。
【0059】
本開示の少なくとも1つの例示的な実施例において、対象と干渉判断結果に基づいてゲインを更新するファーフィールド音声対話における自動利得制御方法を提供する。ファーフィールド音声信号は、マイクロフォンアレイを用いて収集され、マイクロフォン信号アレイの信号処理において、命令発信者に近接する対象音声信号と、命令発信者から遠く離れる干渉信号とを区別する必要があり、この時、対象信号は命令発信者に近接する対象音声信号であり、非対象命令は命令発信者から遠く離れる干渉音声信号である。異なる時点の信号が干渉信号であるか、もしくは対象信号であるかを区別し、その判断結果を利用して、対象信号のゲインの向上、干渉信号(音声信号又は非音声信号を含む)のゲインの低減を実現することができる。
【0060】
具体的に、信号全体のエネルギーに対してマイクロフォン信号のエネルギーが占める割合に基づいて、当該マイクロフォンの信号をゲインするか否かを判断する。ファーフィールド信号について、信号のエネルギーが方向性を有し、伝播方向に近づくほど、マイクロフォンにより収集された信号が占めるエネルギー割合が大きくなり、この時、収集された信号がよりユーザの音声命令に接近し、当該信号をゲインすることは、その後の意味認識に有利である。伝播方向から遠く離れるほど、マイクロフォンにより収集された信号が占めるエネルギー割合が小さくなり、この時、信号中の雑音が多く、ゲインを行わなくてもよい。
【0061】
図3は、本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。図3に示すように、本実施例に係るファーフィールド音声対話における自動利得制御方法は、
マイクロフォン信号処理の一般化サイドローブキャンセラ(Generalized Sidelobe Cancellation,GSC)における各フレームに対する対象音声であると非対象音声であるとの判断結果を取得するS201と、
前記判断結果に基づき、現在では対象音声信号優勢である場合、前記マイクロフォン信号に対して最大ゲインを行い、現在では非対象音声信号優勢である場合、前記マイクロフォン信号に対して最小ゲインを行うS202と、
ゲイン平滑化を行い、ゲイン変化量が所定閾値を超えることを満たすか否かを判断し、満たす場合、ゲインテーブルを更新し、そうでない場合、元のゲインテーブルを採用するS203と、
前記現在ゲインテーブルに基づいて現在フレームの前記ファーフィールド音声信号を処理し、増幅後の音声信号を取得するS204と、
を含む。
【0062】
具体的に、前記ステップS201は、マイクロフォン信号処理のGSCにおいて、各フレーム信号が対象音声であるか非対象音声である状態値active_onを取得するステップを含み、当該状態値active_onは、信号全体のエネルギーに対する1チャネルのマイクロフォン信号のエネルギーの重要性程度を表し、その値が1又は0である。active_on=1である場合、現在では対象音声優勢であることを表し、active_on=0である場合、現在では非対象音声優勢であり、即ち、干渉信号優勢であることを表し、干渉信号は、干渉音声信号及び干渉非音声信号を含む。
【0063】
前記ステップS202は、active_on=1である場合、gain=gain_maxとし、active_on=0である場合、gain=gain_minとするステップを含み、この時、現在のゲインgain_cur(t)=α×gain_cur(t-1)+(1-α)×gainであり、ただし、tはフレーム数であり、gainはゲインテーブルを算出するためのゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)はt-1番目フレームのゲインである。
【0064】
前記ステップS203は、Δgain=gain_cur(t)-gain_cur(t-1)であり、Δgain>aである場合、ゲインテーブルを更新し、ゲインテーブルを更新した後、gain_cur(t-1)=gain_cur(t)とするステップを含み、ただし、Δgainはゲイン変化量であり、aは所定の変化閾値である。ゲインテーブルをエネルギーに基づいて算出し、異なるエネルギー対応するゲインが得られる。
【0065】
例えば、本開示の少なくとも1つの実施例において、各フレームのファーフィールド音声信号は、複数チャネルのマイクロフォンにより収集された信号を含み、また、上記の、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップは、
信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が、対象音声信号である前記対象信号であるか、もしくは、干渉音声信号又は干渉非音声信号の少なくとも1つを含む前記非対象信号であるかを判断する操作を含む。
【0066】
例えば、当該フレームのファーフィールド音声信号のエネルギーに対して、1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が所定の閾値を超えた場合、当該マイクロフォンにより収集された信号が人声信号であると判断し、そうでない場合、当該マイクロフォンにより収集された信号が干渉信号であると判断する。
【0067】
さらに例えば、1フレームのファーフィールド音声信号のうち、当該フレームのファーフィールド音声信号のエネルギーに対して占める割合が最も大きい、1チャネルのマイクロフォンにより収集された信号は、人声信号と判断され、当該フレームのファーフィールド音声信号のうち、他のチャネルのマイクロフォンにより収集された信号は、干渉信号と判断される。
【0068】
例えば、上記各チャネルのマイクロフォンにより収集された信号のエネルギーが当該フレームのファーフィールド音声信号のエネルギーに対して占める割合を、以下のステップにより算出することができる。
【0069】
当該フレームのファーフィールド音声信号がMチャネルのマイクロフォンにより収集された信号Xを含むと仮定すると、Mチャネルのマイクロフォンにより収集された信号の総エネルギーがEΣである。
【0070】
これにより、当該フレームのファーフィールド音声信号のエネルギーに対して各チャネルのマイクロフォンにより収集された信号が占める割合P=E/EΣを算出する。
【0071】
例えば、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断するステップは、
マイクロフォン信号処理の一般化サイドローブキャンセラにおける前記1チャネルのマイクロフォンにより収集された信号の状態値active_onを取得するステップであって、前記状態値active_on=1である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大であること、または前記所定の閾値を超えたことを表し、前記状態値active_on=0である場合、信号全体のエネルギーに対して、前記1チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合が最大ではないこと、または前記所定の閾値以下であることを表すステップを含む。
【0072】
例えば、現在フレームのファーフィールド音声信号の1チャネルのマイクロフォンにより収集された信号の状態値active_on=1である場合、現在フレームのファーフィールド音声信号の当該マイクロフォンにより収集された信号のゲインテーブル算出用パラメタgainが最大ゲイン値gain_maxを取り、即ち、gain=gain_maxとし、現在フレームのファーフィールド音声信号の1チャネルのマイクロフォンにより収集された信号の状態値active_on=0である場合、現在フレームのファーフィールド音声信号の当該マイクロフォンにより収集された信号のゲインテーブル算出用パラメタgainが最小ゲイン値gain_minを取り、即ち、gain=gain_minとする。
【0073】
例えば、gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号の1チャネルのマイクロフォンにより収集された信号のゲインを取得し、式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、現在フレームのファーフィールド音声信号の当該マイクロフォンにより収集された信号の、直前フレームに対するゲイン変化量を取得し、
ただし、tはフレーム数であり、gainはt番目フレームのファーフィールド音声信号の上記1チャネルのマイクロフォンにより収集された信号のゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)はt-1番目フレームのファーフィールド音声信号の上記1チャネルのマイクロフォンにより収集された信号のゲインである。例えば、最大ゲイン値gain_maxが1を超え、最小ゲイン値gain_minが1以下である。
【0074】
例えば、前記ゲイン変化量Δgainが所定閾値を超えた場合、所定のゲインテーブルに基づいて、前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いる。
【0075】
例えば、ゲインテーブルは予め特定されており、ゲインテーブルは、オーディオ信号のエネルギーレベルとゲイン値との関係を含む。オーディオ信号の1つのエネルギーレベルに基づき、ゲインテーブルにより対応するゲイン値を特定することができる。
【0076】
本実施例において、信号全体のエネルギーに対して1チャネルのマイクロフォン信号のエネルギーが占める割合に基づき、当該信号が重要であるか否かを判断する。重要である場合、ゲインが1を超え、重要でない場合、ゲインが1以下である。これにより、収集されたファーフィールド音声信号のうち、対象信号が大幅にゲインされ、その後の意味認識の的確性が向上する。
【0077】
本開示の少なくとも1つの例示的な実施例において、ダブルトーク(double-talk)結果に基づいてゲインを更新するファーフィールド音声対話における自動利得制御方法を提供する。本実施例において、スピーカが音楽を放送すると同時に、ユーザから命令が発信され、この時、収集されたファーフィールド音声信号は、AEC(Acoustic Echo Cancellation,音響エコー消去)される必要がある。エコー消去AECにおけるdouble-talk判断結果を利用することにより、前記double-talk判断結果をニアエンド音声信号とファーエンド音声信号との区別に用いることができ、ここで、ニアエンド音声信号とは、命令発信者に近接する音声信号を指し、ファーエンド音声信号は、命令発信者から遠く離れる信号を指す。double-talkであると判断された場合、現在のマイクロフォン信号がニアエンド音声を含み、この時、double-talkではなくゲインを増大する場合、現在のマイクロフォン信号がニアエンド音声を含まず、スピーカが放送するファーエンド音声のみを含み、ゲインが小さい値を取る。
【0078】
図4は、本開示の少なくとも1つの実施例に係るファーフィールド音声対話における自動利得制御方法のアルゴリズムフローチャートである。図4に示すように、本実施例に係るファーフィールド音声対話における自動利得制御方法は、
AEC算出過程におけるダブルトーク判断結果を取得し、当該ダブルトーク判断結果に基づいて、現在信号がニアエンド音声信号優勢であるかもしくはファーエンド音声信号優勢であるかを特定するS301と、
現在ではニアエンド音声信号優勢である場合、前記マイクロフォン信号に対して最大ゲインを行い、現在ではファーエンド音声信号優勢である場合、前記マイクロフォン信号に対して最小ゲインを行うS302と、
ゲイン平滑化を行い、ゲイン変化量が所定閾値を超えることを満たすか否かを判断し、満たす場合、ゲインテーブルを更新し、そうでない場合、元のゲインテーブルを採用するS303と、
前記現在ゲインテーブルに基づいて現在フレームの前記ファーフィールド音声信号を処理し、増幅後の音声信号を取得するS304と、
を含む。
【0079】
例えば、前記ステップS301は、AEC算出過程におけるダブルトーク判断結果double_talkを取得するステップを含み、ここで、double_talk=1又は0であり、double_talk=1である場合、現在のマイクロフォン信号がニアエンド音声を含むことを表し、double_talk=0である場合、現在のマイクロフォン信号がニアエンド音声を含まず、スピーカが放送するファーエンド音声のみを含むことを表す。
【0080】
前記ステップS302は、double_talk=1である場合、現在ではニアエンド音声優勢であり、gain=gain_maxであることを表し、double_talk=0である場合、現在ではファーエンド音声優勢であり、gain=gain_minであることを表し、この時、現在のゲインgain_cur(t)=α×gain_cur(t-1)+(1-α)×gainである。ただし、tはフレーム数であり、gainはゲインテーブルを算出するためのゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)は直前フレームのゲインである。
【0081】
前記ステップS303は、Δgain=gain_cur(t)-gain_cur(t-1)とし、Δgain>aである場合、ゲインテーブルを更新し、ゲインテーブルを更新した後、gain_cur(t-1)=gain_cur(t)とするステップを含み、ただし、Δgainはゲイン変化量であり、aは所定の変化閾値である。ゲインテーブルをエネルギーに基づいて算出し、異なるエネルギー対応するゲインが得られる。
【0082】
例えば、SPEEXアルゴリズムにおけるダブルトーク検出により、上記AEC算出過程におけるダブルトーク判断を実施し得る。
【0083】
例えば、本開示の少なくとも1つの実施例において、上記の、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するステップは、
前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断する操作、を含む。
【0084】
例えば、ダブルトーク判断結果により、ダブルトークが存在し、即ち、現在フレームのファーフィールド音声信号がニアエンド音声を含むと表される場合、現在フレームのファーフィールド音声信号がニアエンド音声信号優勢であると特定し、これにより、前記現在フレームのファーフィールド音声信号がニアエンド音声信号であると判定する。ダブルトーク判断結果により、ダブルトークが存在しない、即ち、現在フレームのファーフィールド音声信号がニアエンド音声を含まず、スピーカが放送するファーエンド音声のみを含むと表される場合、現在信号がファーエンド音声信号優勢であると特定し、これにより、前記現在フレームのファーフィールド音声信号がファーエンド音声信号であると判定する。
【0085】
例えば、ダブルトーク検出のダブルトーク判断結果は、上記double_talkで表され、double_talk=1である場合、現在のマイクロフォン信号がニアエンド音声を含むことを表し、double_talk=0である場合、現在のマイクロフォン信号がニアエンド音声を含まず、スピーカが放送するファーエンド音声のみを含むことを表す。
【0086】
例えば、現在フレームのファーフィールド音声信号のダブルトーク判断結果double_talk=1である場合、現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタgainが最大ゲイン値gain_maxを取り、即ち、gain=gain_maxとする。現在フレームのファーフィールド音声信号のダブルトーク判断結果double_talk=0である場合、現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタgainが最小ゲイン値gain_minを取り、即ち、gain=gain_minとする。
【0087】
例えば、gain_cur(t)=α×gain_cur(t-1)+(1-α)×gainに基づき、前記現在フレームのファーフィールド音声信号のゲインを取得するステップと、式Δgain=gain_cur(t)-gain_cur(t-1)に基づき、前記ゲイン変化量を取得するステップと、を含み、
ただし、tはフレーム数であり、gainはt番目フレームのファーフィールド音声信号のゲインテーブル算出用パラメタであり、gain_maxは最大ゲイン値であり、gain_minは最小ゲイン値であり、αはスムージング係数であり、その値が1つの経験値であり、gain_cur(t-1)は直前フレームのゲインである。例えば、最大ゲイン値gain_maxが1を超え、最小ゲイン値gain_minが1以下である。
【0088】
例えば、前記ゲイン変化量Δgainが所定閾値を超えた場合、所定のゲインテーブルに基づいて、前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いる。
【0089】
例えば、ゲインテーブルは予め特定されており、ゲインテーブルは、オーディオ信号のエネルギーレベルとゲイン値との関係を含む。オーディオ信号の1つのエネルギーレベルに対して、ゲインテーブルにより対応するゲイン値を特定することができる。
【0090】
本実施例において、AEC後のファーフィールド音声信号を判断することにより、AEC後の信号に人声が残留しているか否かを判断する。AGCは、AECの後に行われ、人声が残留していない場合、ゲインを行わず、その後、意味認識を行い、音声命令の発信がないと判断し、意味認識の的確性の向上に寄与する。本実施例の方法は、命令発信者から発信される音声信号と周囲バックグランドにおける音声信号とを区別し、ゲインを区別し、音声信号の品質を向上させることができる。
【0091】
なお、上記各実施例の異なるゲイン更新方式は、必要に応じて柔軟に組み合わせてもよく、そのうちの1つ、2つ又は3つを選択して組み合わせて、異なるゲイン更新を得ることができる。
【0092】
少なくとも1つの実施例において、対象信号と非対象信号とを区別するステップの前に、自動利得制御方法は、ファーフィールド音声信号を取得するステップをさらに含んでもよい。
【0093】
例えば、ファーフィールド音声信号を取得する方法は、
オーディオ信号を収集するステップと、
收集したオーディオ信号からファーフィールド音声信号を特定するステップと、
をさらに含んでもよい。
【0094】
例えば、上記のように提供したファーフィールド定義に基づいて、ファーフィールド音声信号を特定することができる。本開示の実施例では、これについて制限されない。
【0095】
図5に示すように、本発明の少なくとも1つの実施例は、
ファーフィールド音声信号における対象信号と非対象信号とを区別するための判断ユニットと、
前記対象信号と前記非対象信号のそれぞれに対してゲインを算出し、現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するためのゲイン算出ユニットと、
前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルを更新するためのゲインテーブル更新ユニットと、
前記現在ゲインテーブルに基づいて現在フレームの前記ファーフィールド音声信号を処理し、増幅後の音声信号を取得するための増幅処理ユニットと、
を含むファーフィールド音声対話における自動利得制御装置をさらに提供する。
【0096】
図6は、本開示の少なくとも1つの実施例に係る判断ユニットの概略的ブロック図である。図6に示すように、前記判断ユニットは、
異なる時間帯におけるファーフィールド音声信号が人声信号である確率を判断することにより、確率判断結果に基づいて対象信号と非対象信号とを区別するための第1判断サブユニットであって、前記対象信号が人声信号であり、前記非対象信号が周囲雑音信号である第1判断サブユニット、および/または
各チャネルの信号全体のエネルギーに対してマイクロフォン信号のエネルギーが占める割合に基づいて、各フレームの当該マイクロフォンにより収集された信号のうち、対象信号であるか非対象信号である判断結果を取得するための第2判断サブユニットであって、前記対象信号は対象音声信号であり、前記非対象信号は干渉音声信号および/または干渉非音声信号である第2判断サブユニット、および/または
音響エコー消去算出過程におけるダブルトーク判断結果に基づいて対象信号であるか非対象信号であるかを判断するための第3判断サブユニットであって、前記対象信号はニアエンド音声信号であり、前記非対象信号はファーエンド音声信号である第3判断サブユニット、
を含む。
【0097】
ここで、第1判断サブユニットは、現在時間帯におけるファーフィールド音声信号の確率pを算出して、所定の人声閾値と比較し、前記確率pが前記人声閾値を超えた場合、人声信号であると判定し、そうでない場合、周囲雑音信号であると判定する。
【0098】
第2判断サブユニットは、マイクロフォン信号処理の一般化サイドローブキャンセラにおける各フレーム信号の状態値active_onを取得し、前記状態値active_on=1である場合、対象音声信号であると判定し、前記状態値active_on=0である場合、干渉音声信号および/または干渉非音声信号であると判定する。
【0099】
第3判断サブユニットは、マイクロフォンにより収集されたファーフィールド音声信号の音響エコー消去算出過程において各フレーム信号のダブルトーク判断結果double_talkを取得し、前記double_talk=1である場合、ニアエンド音声信号であると判定し、前記double_talk=0である場合、ファーエンド音声信号であると判定する。
【0100】
なお、上記異なる判断サブユニットは、必要に応じて柔軟に組み合わせてもよい。
【0101】
前記ゲイン算出ユニットは、前記対象信号と前記非対象信号の判断結果に基づき、現在フレームのゲインを算出し、対象信号である場合、ゲインテーブルを算出するためのゲインテーブル算出用パラメタgainが最大ゲイン値を取り、非対象信号である場合、前記ゲインテーブル算出用パラメタgainが最小ゲイン値を取り、現在フレームのゲインと直前フレームゲインとの差の値をゲイン変化量として取得し、前記最大ゲイン値が1を超え、前記最小ゲイン値が1以下である。
【0102】
ゲインテーブル更新ユニットは、1つの所定閾値を含み、現在フレームのゲインと直前フレームゲインとの差の値が当該所定閾値を超えた場合、前記ゲインテーブルをエネルギーに基づいて算出して更新し、さらに直前フレームゲイン値を現在フレームゲインとする。
【0103】
例えば、本開示の少なくとも1つの実施例において、判断ユニットは、さらに、現在フレームのファーフィールド音声信号に対して、対象信号と非対象信号とを区別するように配置されてもよく、
ゲイン算出ユニットは、さらに、区別された結果に基づき、前記現在フレームのファーフィールド音声信号のゲインテーブル算出用パラメタを特定し、前記現在フレームのファーフィールド音声信号の直前フレームに対するゲイン変化量を取得するように配置されてもよく、
ゲインテーブル更新ユニットは、さらに、前記ゲイン変化量に基づき、前記現在フレームのファーフィールド音声信号のためにゲイン値を特定するように配置されてもよく、
増幅処理ユニットは、さらに、特定された前記ゲイン値に基づいて現在フレームの前記ファーフィールド音声信号を処理し、処理された音声信号を取得するように配置されてもよい。
【0104】
例えば、第1判断サブユニットは、前記現在フレームのファーフィールド音声信号が人声信号である確率を特定し、前記確率に基づいて、前記現在フレームのファーフィールド音声信号が、人声信号である前記対象信号であるか、もしくは、周囲雑音信号である前記非対象信号であるかを判断する操作を実行するように配置されてもよい。
【0105】
例えば、第2判断サブユニットは、信号全体のエネルギーに対して、前記現在フレームのファーフィールド音声信号のうち各チャネルのマイクロフォンにより収集された信号のエネルギーが占める割合に基づき、前記現在フレームにおいて各チャネルのマイクロフォンにより収集された信号が前記対象信号であるか、もしくは前記非対象信号であるかを判断する操作であって、前記対象信号は対象音声信号であり、前記非対象信号は干渉音声信号および/または干渉非音声信号の少なくとも1つを含む操作を実行するように配置されてもよい。
【0106】
例えば、第3判断サブユニットは、前記現在フレームのファーフィールド音声信号の音響エコー消去算出過程におけるダブルトーク判断結果に基づき、前記現在フレームのファーフィールド音声信号が、ニアエンド音声信号である前記対象信号であるか、もしくは、ファーエンド音声信号である前記非対象信号であるかを判断する操作を実行するように配置されてもよい。
【0107】
第1判断サブユニット、第2判断サブユニット及び第3判断サブユニットが実行する操作の具体的な説明については、自動利得制御方法のステップについて前述した具体的な説明を参照することができ、本開示では省略する。
【0108】
例えば、本開示の少なくとも1つの実施例において、ゲイン算出ユニットは、さらに、
前記現在フレームのファーフィールド音声信号が前記対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最大ゲイン値を取ると特定し、
前記現在フレームのファーフィールド音声信号が前記非対象信号であると判断された場合、前記現在フレームのファーフィールド音声信号の前記ゲインテーブル算出用パラメタが最小ゲイン値を取ると特定するように配置されてもよい。
【0109】
例えば、本開示の少なくとも1つの実施例において、ゲインテーブル更新ユニットは、さらに、前記ゲイン変化量が所定閾値を超えた場合、ゲインテーブルに基づいて前記現在フレームのファーフィールド音声信号のためのゲイン値を特定し、そうでない場合、直前フレームのゲイン値を前記現在フレームのファーフィールド音声信号のための前記ゲイン値として用いるように配置されている。
【0110】
図7は、本開示の少なくとも1つの実施例に係る自動利得制御装置の概略的ブロック図である。図7に示すように、上記判断ユニット、ゲイン算出ユニット、ゲインテーブル更新ユニット及び増幅処理ユニット以外、本開示の少なくとも1つの実施例に係る自動利得制御装置は、ファーフィールド音声信号を取得するように配置されている取得ユニットをさらに含んでもよい。判断ユニット、ゲイン算出ユニット、ゲインテーブル更新ユニット及び増幅処理ユニットの詳細な説明については、図5を組み合わせて前述した各実施例を参照することができ、本明細書では省略する。
【0111】
少なくとも1つの実施例において、取得ユニットは、予め特定されたファーフィールド音声信号を受信するために、信号インターフェースを含んでもよい。
【0112】
図8は、本開示の少なくとも1つの実施例に係る取得ユニットの概略的ブロック図である。図8に示すように、少なくとも1つの実施例において、取得ユニットは、オーディオ信号を収集するためのマイクロフォンと、マイクロフォンにより收集されたオーディオ信号からファーフィールド音声信号を特定するための特定サブユニットと、を含んでもよい。例えば、取得ユニットは、1つ又は複数チャネルのマイクロフォンを含んでもよい。取得ユニットが複数のマイクロフォンを含む場合、当該複数のマイクロフォンは、アレイとなるように配置されてマイクロフォンアレイを構成してもよい。例えば、当該複数のマイクロフォンは、異なる方向に向けるように位置決められてもよい。
【0113】
図9は、本開示の少なくとも1つの実施例に係る自動利得制御方法又は装置の実施に適した示例的コンピュータシステム900の概略的ブロック図である。図9に示すように、コンピュータシステム900は、読み取り専用メモリ(ROM)902に記憶されているプログラム又は記憶部908からランダムアクセスメモリ(RAM)903にロードされたプログラムに基づいて様々な適切な動作及び処理を実行することができる中央処理ユニット(CPU)901を含む。RAM903には、システム900の操作に必要な様々なプログラム及びデータが更に記憶されている。CPU901、ROM902及びRAM903は、バス904を介して互いに接続されている。入力/出力(I/O)インターフェース905もバス904に接続されている。
【0114】
入力部906(キーボード、マウス、マイクロフォン等を含む)と、出力部907(陰極線管(CRT)、液晶ディスプレイ(LCD)等及びスピーカ等を含む)と、記憶部908(ハードディスク等を含む)と、通信部909(LANカード、モデム等のネットワークインターフェースカードを含む)とは、I/Oインターフェース905に接続されている。通信部909は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ910も必要に応じてI/Oインターフェース905に接続される。リムーバブルメディア911、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等は、必要に応じてドライバ910に取り付けられ、ドライバ910から読み出されたコンピュータプログラムが必要に応じて記憶部908にインストールされる。
【0115】
特に、本開示のいずれかの実施例に係る方法は、コンピュータのソフトウェアプログラムとして実現され得る。例えば、本開示の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は機械読取可能な媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、本開示のいずれかの実施例に係る方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部909を介してネットワークからダウンロードしてインストールされ、および/またはリムーバブルメディア911からインストールされることができる。
【0116】
図面におけるフローチャート及びブロック図は、本開示の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャー、機能及び操作を示す。ここで、フローチャートまたはブロック図における各枠は、1つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、前記モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を達成するための1つまたは複数の実行可能な命令を含む。なお、いくつかの代替実現形態として、枠に表記された機能は、図面に表記された順序と異なる順序で実行されてもよい。例えば、2つの接続に示される枠は実際的に、係る機能に応じて、ほぼ並行的に実行されてもよく、反対の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各枠、及びブロック図および/またはフローチャートにおける枠の組合せは規定された機能または操作を実行する、ハードウェアに基づく特殊用途向けのシステムで実現されてもよく、または、特殊用途向けのハードウェアとコンピュータ命令の組合せで実行してもよい。
【0117】
また、コンピュータシステム900は、単一のシステムとして図示されているが、コンピュータシステム900は分散システムであってもよく、さらにクラウド設備(パブリッククラウド又はプライベートクラウドを含む)として配置されてもよい。したがって、例えば、いくつかのデバイスが、ネットワーク接続を介して通信状態にあることが可能であり、コンピュータシステム900によって実行されるものとして記述されているタスクを共同で実行することができる。
【0118】
本明細書において記述されている様々な機能(判断ユニット、ゲイン算出ユニット、ゲインテーブル更新ユニット、増幅処理ユニット、第1判断サブユニット、第2判断サブユニット、第3判断サブユニット等を含むが、これらに限られない)は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの任意の組合せで実装することができる。ソフトウェアで実装される場合には、それらの機能は、1つまたは複数の命令またはコードとしてコンピュータ読取可能な媒体に格納されるか、またはそれを介して伝送されることが可能である。コンピュータ読取可能な媒体は、コンピュータ読取可能な記録媒体を含む。コンピュータ読取可能な記録媒体は、コンピュータによってアクセスすることができる任意の利用可能な記録媒体であってもよい。限定ではなく、例として、そのようなコンピュータ読取可能な媒体は、RAM、ROM、EEPROM、CD-ROMもしくはその他の光ディスクストレージ、磁気ディスクストレージもしくはその他の磁気ストレージデバイス、または、所望のプログラムコードを命令もしくはデータ構造の形態で搬送もしくは格納するために使用することが可能な、かつコンピュータによってアクセスすることが可能なその他の任意の媒体を含んでもよい。さらに、伝搬される信号は、コンピュータ読取可能な記録媒体の範囲内には含まれない。コンピュータ読取可能な媒体は、さらに、1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含んでもよい。接続は、例えば通信媒体であってもよい。例えば、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタルサブスクライバーライン(DSL)、または、赤外線、ラジオ波、およびマイクロ波などの無線技術を使用して、ウェブサイト、サーバ、またはその他のリモートソースからソフトウェアが送信される場合には、その同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または、赤外線、ラジオ波、およびマイクロ波などの無線技術は、通信媒体の定義内に含まれる。上記の組合せも、コンピュータ読取可能な媒体の範囲内に含まれるべきである。代替として、または追加として、本開示の各実施例において記述されている機能は、少なくとも部分的には、1つまたは複数のハードウェアロジックコンポーネントによって実行することができる。例えば、使用することができるハードウェアロジックコンポーネントの例示的なタイプとしては、フィールドプログラマブルゲートアレイ(FPGA)、プログラム固有集積回路(ASIC)、プログラム固有標準製品(ASSP)、システムオンアチップシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが含まれる。
【0119】
本開示の少なくとも1つの実施例は、実行可能な命令が記憶されており、前記実行可能な命令が1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに本開示のいずれかの実施例が提供する自動利得制御方法を実行させることができる読取可能な記録媒体をさらに提供する。
【0120】
ここで、前記記録媒体は、揮発性メモリ(volatile memory)(例えばランダムアクセスメモリ(random-access memory,RAM))を含んでもよい。記録媒体は、不揮発性メモリ(non-volatile memory)(例えば、フラッシュメモリ(flash memory)、ハードディスクドライブ(hard disk drive,HDD)又はソリッドステートドライブ(solid-state drive,SSD))を含んでもよい。記録媒体は、さらに上記種類の記録媒体の組み合わせを含んでもよい。
【0121】
ここまで、すでに図面と結び付けて本開示の実施例を詳細に説明してきた。説明しておかなければならないが、図面または明細書の本文に図示または記述されていない実現方式は、いずれも当業者が周知している形式であるため、詳細な説明は行っていない。また、上記の各構成要素及び方法に対する定義は、実施例で言及している各種の具体的な構造、形式又は方式に限定されるわけではなく、当業者であれば、それに対して簡単に修正や置換を行うことができる。
【0122】
また、特別な記述や、順番通りに発生しなければならないステップを除き、上記のステップの順番は上記に限定されるわけではなく、必要な設計に応じて変更したり、組み直したりすることもできる。上記の実施例は、設計及び信頼性の考察に基づいて、互いに混合して組み合わせたり、他の実施例と混合して組み合わせたりすることができる。つまり、異なる実施例中の技術的特徴を自由に組み合わせて、より多くの実施例を形成することができるのである。
【0123】
ここで提供するアルゴリズムと表示は、いずれかの特定のコンピュータ、仮想システム或いは他のデバイスとは固定的に関連するものではない。様々な汎用システムもここでの教示に基づいて一緒に使用できる。上記の記述によって、このようなシステムの構成に必要な構造は明らかなものである。また、本開示はいずれかの特定のプログラミング言語にも焦点を定めない。様々なプログラミング言語でここで記述した本開示の内容を実現でき、上記の特定の言語についての記述は、本開示の最適の実施形態を公開するためである、ことを理解すべきである。
【0124】
本発明は、いくつかの異なる要素を含むハードウェア、または適切にプログラムされたコンピュータによって実施され得る。本開示の各部品実施例は、ハードウェア、1つ以上のプロセッサにおいて動作するソフトウェアモジュール、又はそれらの組み合わせによって実現することができる。当業者であれば、本開示の実施例に係る関連デバイスの幾つか又は全ての部品の幾つか又は全ての機能をマイクロプロセッサ又はデジタル信号プロセッサ(DSP)によって実現することができる。本開示は、本明細書において記述される方法の一部又は全てを実行するデバイス又はデバイスにおいて動作するプログラム(例えば、コンピュータプログラム及びコンピュータプログラムを有する製品)としても実現することができる。そのような本開示のプログラムは、コンピュータ読取可能な媒体に記憶することもできるし、1つ以上の信号の形態にすることもできる。そのような信号は、インターネットウェブサイトからダウンロードされる場合もあるし、搬送波信号で提供される場合もあるし、他の任意の形態で提供される場合もある。
【0125】
当業者であれば、実施例におけるデバイスのモジュールを適応的に変更し、当該実施例と異なる1つ又は複数のデバイスに設置するようにしてもよいと理解できる。実施例におけるモジュール又はユニット又はコンポーネントを組み合わせて1つのモジュール又はユニット又はコンポーネントを形成してもよく、さらにそれらを複数のサブモジュール又はサブユニット又はサブコンポーネントに分けてもよい。このような特徴及び/又はプロセス又はユニットの少なくとも一部が相互に矛盾する以外、本明細書(添付する特許請求の範囲、要約書及び図面を含む)に開示されるすべての特徴及びこのように開示されているいずれかの方法又はデバイスのすべてのプロセス又はユニットを任意に組み合わせることができる。特に断らない限り、本明細書(添付する特許請求の範囲、要約書及び図面を含む)に開示されている各特徴は同一、同等又は類似目的を提供する代替特徴によって代替されてもよい。いくつかの装置を列挙している請求項において、これらの装置のうちのいくつかは、同じハードウェア項目を使用することによって具体化され得る。
【0126】
これと類似して、本開示を簡潔にし、かつ各開示の中の一つまたは複数の理解を助けるために、上記の本開示に対する例示的実施例の記述では、本開示の各特徴が、一つの実施例、図、またはそれに対する記述の中に分けて組み込まれている場合もあることを理解しなければならない。但し、当該開示の方法を、保護を請求している本開示が、各請求項に明記された特徴より多くの特徴を要求しているというような意図を反映するものと解釈してはならない。より適切に言うと、後述の特許請求の範囲が反映しているように、開示するのは、上記で開示した単独の実施例より少ないすべての特徴なのである。よって、具体的な実施例に従う特許請求の範囲は、当該具体的な実施例に明確に組み込まれ、その中の各請求項自体が、本開示の単独実施例となるのである。
【0127】
以上で述べた具体的な実施例は、本開示の目的、技術的解決手段及び有益な効果について、さらに詳細に説明している。上記のことは、本開示の具体的な実施例にすぎず、本開示を限定するために用いるものではないことを理解しなければならない。本開示の趣旨及び原則内で行われる修正、同等の置換、改進などは、すべて本開示の保護範囲内に含まれるものとする。
【符号の説明】
【0128】
900 コンピュータシステム
901 中央処理ユニット(CPU)
902 読み取り専用メモリ(ROM)
903 ランダムアクセスメモリ(RAM)
904 バス
905 入力/出力(I/O)インターフェース
906 入力部
907 出力部
908 記憶部
909 通信部
910 ドライバ
911 リムーバブルメディア
図1
図2
図3
図4
図5
図6
図7
図8
図9