(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-14
(45)【発行日】2022-10-24
(54)【発明の名称】ダブルトーク状態検出方法、装置及び電子機器
(51)【国際特許分類】
G10L 25/78 20130101AFI20221017BHJP
G10L 25/18 20130101ALI20221017BHJP
G10L 25/21 20130101ALI20221017BHJP
G10L 21/0216 20130101ALN20221017BHJP
【FI】
G10L25/78
G10L25/18
G10L25/21
G10L21/0216
(21)【出願番号】P 2021019188
(22)【出願日】2021-02-09
【審査請求日】2021-02-09
(31)【優先権主張番号】202010105947.4
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】呉 俊楠
(72)【発明者】
【氏名】徐 楊飛
(72)【発明者】
【氏名】寧 峻
(72)【発明者】
【氏名】貢 ▲ユイ▼洲
(72)【発明者】
【氏名】周 楠
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開2010-055024(JP,A)
【文献】特表2012-510779(JP,A)
【文献】特開2007-110527(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得することであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数であることと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得ることと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とするダブルトーク状態検出方法。
【請求項2】
前記の前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測することと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得ることと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項1に記載の方法。
【請求項4】
以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う、ことを特徴とする請求項3に記載の方法。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【請求項5】
以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う、ことを特徴とする請求項3に記載の方法。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【請求項6】
前記の前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む、ことを特徴とする請求項2に記載の方法。
【請求項7】
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュールと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含む、ことを特徴とするダブルトーク状態検出装置。
【請求項8】
前記状態検出モジュールは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む、ことを特徴とする請求項7に記載の装置。
【請求項9】
前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項7に記載の装置。
【請求項10】
前記平滑化モジュールは、以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う、ことを特徴とする請求項9に記載の装置。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【請求項11】
前記平滑化モジュールは、以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う、ことを特徴とする請求項9に記載の装置。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【請求項12】
前記状態決定モジュールは、前記入力信号の状態を決定し、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する、ことを特徴とする請求項8に記載の装置。
【請求項13】
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも1つのプロセッサにより実行されると、請求項1~6のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が前記メモリに記憶されている、ことを特徴とする電子機器。
【請求項14】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項1~6のいずれか1項に記載の方法を前記コンピュータに実行させる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項15】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~6のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータプログラム
。
【発明の詳細な説明】
【技術分野】
【0001】
本願はコンピュータ技術における音声の技術分野に関し、特にダブルトーク状態検出方法、装置及び電子機器に関する。
【背景技術】
【0002】
たとえば、音声対話を実行可能なスマートスピーカー等のようないくつかの電子機器では、音響エコーキャンセル(AEC)は重要な役割を果たしており、音響エコーキャンセルの効果はスマートスピーカーの音声対話性能を直接左右している。また、たとえば、電子機器による通話中、音響エコーキャンセルによって通話品質を向上させることができる。AECアルゴリズムでは、遠端基準信号をよりよく除去するとともに、近端音声信号を保護するために、通常、ダブルトーク検出モジュールが備えられる。ダブルトーク検出モジュールは現在の信号の状態がシングルトーク状態であるかダブルトーク状態であるかを検出する。シングルトーク状態とは、遠端基準信号のみがあることを意味し、ダブルトーク状態とは、近端話者の音声信号も遠端基準信号もあることを意味する。
【0003】
従来のダブルトーク状態検出方法は、フルバンドエネルギー比の方法を採用し、即ち、マイクロフォンにより収集される信号を線形フィルタで処理した残りの信号エネルギーとスピーカーの信号エネルギーとを比較し、比の値が設定された検出閾値よりも大きい場合、ダブルトーク(double talk)状態であると判断し、それ以外の場合、シングルトーク(single talk)状態であると判断する。
【0004】
しかしながら、上記ダブルトーク状態検出方法によって状態検出を行う場合、基準信号のエネルギーが大きい、又は近端信号のエネルギーが小さい(たとえば、話者の声が非常に小さい)と、誤判断が発生しやすく、即ち、状態検出の精度が低くなりやすい。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、ダブルトーク状態検出精度が低いという課題を解決するために、ダブルトーク状態検出方法、装置及び電子機器を提供する。
【課題を解決するための手段】
【0006】
第1態様によれば、本願の一実施例は、
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得ることであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数であることと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得ることと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含むダブルトーク状態検出方法を提供する。
【0007】
本願の実施例に係るダブルトーク状態検出方法では、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値に対して第1平滑化処理を行うことにより、得られるM個の第1エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するM個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第1平滑化処理を行われたM個の第1エネルギー平滑化比の値に対して第2平滑化処理を行うことで、得られるM個の第2エネルギー平滑化比の値をさらに安定化させ、それにより、M個の第1エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。
【0008】
選択可能に、前記の前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測することと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得ることと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む。
【0009】
本実施例では、M個の第1エネルギー平滑化比の値及び予測されたM個の第2エネルギー平滑化比の値の雑音を利用してエネルギー比の値の信号対雑音比を計算し、エネルギー比の値の信号対雑音比を利用してダブルトーク状態検出を行うことで、検出精度を向上させる。
【0010】
選択可能に、前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである。
【0011】
本実施例では、誤差信号及びフィルタリング信号をフレーミング処理し、ターゲットサブバンドにおけるNフレームの誤差サブ信号のそれぞれの第1エネルギーとそれに対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を計算し、ターゲットサブバンドにおけるN個のサブエネルギー比を得て、ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、M個のサブバンドがあるため、M個のサブバンドのそれぞれにおけるN個のサブエネルギー比が得られ、M個のサブバンドのそれぞれにおけるN個のサブエネルギー比をダブルトーク状態検出の基礎とすることで、状態検出の精度を向上させることができる。
【0012】
選択可能に、以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【0013】
上記第1平滑化処理によって、得られたM個の第1エネルギー平滑化比の値がM個のエネルギー比の値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。
【0014】
選択可能に、以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【0015】
上記第2平滑化処理によって、得られたM個の第2エネルギー平滑化比の値がM個の第1エネルギー平滑化値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。
【0016】
選択可能に、前記の前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む。
【0017】
本実施例では、M個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第1所定範囲内にあるエネルギー比の値(即ち、I個のエネルギー比の値)の信号対雑音比の合計でダブルトーク状態検出を行う。このようにして、計算量を減少させるだけでなく、検出精度を向上させることができる。
【0018】
第2態様によれば、本願の一実施例は、
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュールと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含むダブルトーク状態検出装置を提供する。
【0019】
選択可能に、前記状態検出モジュールは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む。
【0020】
選択可能に、前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである。
【0021】
選択可能に、前記平滑化モジュールは、以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【0022】
選択可能に、前記平滑化モジュールは、以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【0023】
選択可能に、前記状態決定モジュールは、前記入力信号の状態を決定し、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する。
【0024】
第3態様によれば、本願の一実施例は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも1つのプロセッサにより実行されると、本願の各実施例に係る方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が前記メモリに記憶されている電子機器をさらに提供する。
【0025】
第4態様によれば、本願の一実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、本願の各実施例に係る方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
【図面の簡単な説明】
【0026】
図面は本技術案をより理解しやするためであり、本願を制限するものではない。
【
図1】本願に係る一実施例のダブルトーク状態検出方法の一例の模式的なフローチャートである。
【
図2】本願に係る一実施例のダブルトーク状態検出方法の別の模式的なフローチャートである。
【
図3】本願に係る一実施例のAECアルゴリズムの回路図である。
【
図4】本願に係る一実施例のダブルトーク状態検出装置の構造図である。
【
図5】本願の実施例のダブルトーク状態検出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0027】
以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。
【0028】
図1に示すように、本願の実施例では、本願はダブルトーク状態検出方法を提供し、電子機器に適用でき、たとえば、電子機器はスマートスピーカー等を含んでもよく、上記方法は、ステップS101~S103を含む。
【0029】
ステップS101、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得る。
【0030】
誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である。一例として、線形フィルタによって基準信号をフィルタリング処理してもよい。なお、上記基準信号は、電子機器のスピーカーに伝送して放送する信号として理解してもよい。電子機器のマイクロフォンは入力信号を収集でき、電子機器のスピーカーが放送している場合、マイクロフォンによって収集された入力信号はスピーカーによって放送されている信号について収集された信号及び近端音声信号(たとえば、ユーザーが話している等)を含んでもよい。
【0031】
周波数領域では、1つの周波数帯が複数のサブバンドに分割され、各サブバンドは一定の周波数範囲に対応し、たとえば、0~100Hzの周波数帯域の場合、5個のサブバンドに分割されてもよく、各サブバンドに対応するサブ周波数範囲の大きさが20Hzであり、5個のサブバンドに対応するサブ周波数範囲がそれぞれ0~20Hz、20~40Hz、40~60Hz、60~80Hz、80~100Hzである。本実施例では、1つの周波数帯域を予め設定してもよく、該周波数帯域は電子機器に処理可能な信号の周波数範囲に関連してもよい。たとえば、スマートスピーカーの場合、一例として、該周波数帯域は3000Hzであってもよい。予め設定された周波数帯域を予め周波数分割して、M個のサブバンドを得るようにしてもよい。
【0032】
M個のサブバンドのうちのいずれかにおける誤差信号は該サブバンドにおける入力信号と該サブバンドにおけるフィルタリング信号との差である。サブバンドのいずれかに対して、該サブバンドにおける誤差信号の第1エネルギーと該サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算でき、つまり、各エネルギー比の値は同一サブバンドにおける誤差信号とフィルタリング信号とのエネルギーの比である。即ち、各サブバンドにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値は、同一サブバンドのそれぞれにおける誤差信号の第1エネルギーとフィルタリング信号の第2エネルギーとのエネルギー比として理解してもよく、得られるM個のエネルギー比の値は同一サブバンドのそれぞれにおける誤差信号の第1エネルギーとフィルタリング信号の第2エネルギーとのエネルギー比を含み、即ち、各エネルギー比の値は対応するサブバンドを有し、M個のエネルギー比の値はM個のサブバンドにおけるエネルギー比の値として理解してもよい。たとえば、M個のサブバンドは1番目のサブバンド及び2番目のサブバンドを含み、即ち、Mが2である場合、1番目のサブバンドにおける誤差信号の第1エネルギーと1番目のサブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値、及び2番目のサブバンドにおける誤差信号の第1エネルギーと2番目のサブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、このようにして、2個のエネルギー比の値を得る。
【0033】
ステップS102、M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得る。
【0034】
M個のエネルギー比を得た後、まず、第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、次に、M個の第1エネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得て、M個のエネルギー比の値に対して第1平滑化処理を行うことによって、得られるM個の第1エネルギー平滑化比の値をM個のエネルギー比の値よりも安定化させ、いくつかのサブバンドにおける誤差信号の異常に起因するM個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、さらにM個のエネルギー平滑化比の値に対して第2平滑化処理を行うことによって、M個の第2エネルギー平滑化比の値をM個の第1エネルギー平滑化比の値よりも安定化させ、M個の第1エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させる。一例として、第1平滑化処理の平滑化パラメータと第2平滑化処理の平滑化パラメータは異なる。
【0035】
ステップS103、M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定する。
【0036】
本実施例では、M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値をダブルトーク状態検出の根拠とすることで、状態検出の精度を向上させる。
【0037】
本願の実施例に係るダブルトーク状態検出方法では、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値に対して第1平滑化処理を行うことで、得られるM個の第1エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するM個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第1平滑化処理を行われたM個の第1エネルギー平滑化比の値に対して第2平滑化処理を行うことで、得られるM個の第2エネルギー平滑化比の値をさらに安定化させ、それにより、M個の第1エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。
【0038】
一実施例では、M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るステップは、基準信号の信号対雑音比が所定の信号対雑音比よりも大きい場合、M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るステップを含む。
【0039】
即ち、基準信号を取得した後、まず、基準信号の信号対雑音比を計算し、たとえば、基準信号の雑音を推定し(たとえば、最小値追跡法を採用して雑音を推定することができる)、即ち、基準信号の雑音を追跡し、基準信号の雑音を得て、次に、基準信号と基準信号の雑音との比を計算し、基準信号の信号対雑音比を得ることができる。基準信号の信号対雑音比が低い場合、雑音の存在のためエネルギー比の値がやや大きく、状態検出の精度が低下してしまうという現象を軽減するために、本実施例の平滑化処理過程では、まず、基準信号の信号対雑音比と所定の信号対雑音比を比較し、基準信号の信号対雑音比が所定の信号対雑音比よりも大きい場合、M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得る。基準信号が強い(即ち、基準信号の信号対雑音比が高い)場合、後続で非常に小さい雑音が追跡されることを回避するために、さらにM個の第1エネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得て、それにより、状態検出の精度を向上させる。
【0040】
一例として、入力信号の状態を決定した後、入力信号の状態に応じて、線形フィルタのフィルタリングパラメータを調整するステップをさらに含んでもよい。
【0041】
線形フィルタは基準信号をフィルタリングしてフィルタリング信号を得るフィルタであり、たとえば、入力信号の状態がダブルトーク状態である場合、線形フィルタのフィルタリングパラメータを一定に維持し、入力信号の状態がシングルトーク状態である場合、線形フィルタのフィルタリングパラメータを更新する。線形フィルタのフィルタリングパラメータを更新する方式は様々であり、本願では限定しない。
【0042】
図2に示すように、一実施例では、M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するステップ103は、ステップS1031~ステップS1033を含む。
【0043】
ステップS1031、M個の第2エネルギー平滑化比の値に基づいて、M個の第2エネルギー平滑化比の値の雑音を予測する。
【0044】
M個の第2エネルギー平滑化比の値はM個の第1エネルギー平滑化比の値に対して第2平滑化処理を行った結果であり、このようにして、第2平滑化処理を行われたM個の第2エネルギー平滑化比の値に基づいて雑音予測を行うことで、雑音予測の精度を向上させ、それにより、状態検出の精度を向上させることができる。
【0045】
なお、上記M個の第2エネルギー平滑化比の値の雑音を予測する方式は様々であり、一例として、最小値追跡アルゴリズムによってM個の第2エネルギー平滑化比の値の雑音を予測してもよく、即ち、最小値追跡アルゴリズムによって第2エネルギー平滑化比の値に対して最小値追跡を行い、第2エネルギー平滑化比の値の最小値を予測して、第2エネルギー平滑化比の値の雑音とする。
【0046】
ステップS1032、M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値の雑音に基づいて、M個のエネルギー比の値の信号対雑音比を得る。
【0047】
第1エネルギー平滑化比の値はエネルギー比の値に対して第1平滑化処理を行った結果であり、第1エネルギー平滑化比の値はエネルギー比の値に1対1で対応し、第2エネルギー平滑化比の値は第1エネルギー平滑化比の値に対して第2平滑化処理を行った結果であり、即ち、第2エネルギー平滑化比の値は第1エネルギー平滑化比の値に1対1で対応し、各第1エネルギー平滑化比の値とそれに対応する第2エネルギー平滑化比の値との比の値を、対応するエネルギー比の値の信号対雑音比とすることができ、このようにして、M個のエネルギー比の値の信号対雑音比を得ることができる。
【0048】
ステップS1033、M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定する。
【0049】
M個のエネルギー比の値の信号対雑音比を得た後、M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定することができる。
【0050】
本実施例では、M個の第1エネルギー平滑化比の値及び予測されたM個の第2エネルギー平滑化比の値の雑音を利用してエネルギー比の値の信号対雑音比を計算し、エネルギー比の値の信号対雑音比を利用してダブルトーク状態検出を行うことで、検出精度を向上させる。
【0051】
一実施例では、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算する前に、基準信号及びマイクロフォンによって収集された入力信号を取得するステップと、基準信号をフィルタリング処理してフィルタリング信号を得るステップと、入力信号とフィルタリング信号との誤差信号を取得するステップと、M個のサブバンドにおける誤差信号のM個の第1エネルギー及びM個のサブバンドにおけるフィルタリング信号のM個の第2エネルギーを計算するステップと、をさらに含む。
【0052】
即ち、エネルギー比を計算する前に、エネルギーを取得する必要がある。M個のサブバンドがあるため、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーを計算し、M個のサブバンドのそれぞれにおけるフィルタリング信号の第2エネルギーを計算する必要があり、このようにして、M個の第1エネルギー及びM個の第2エネルギーを得て、後続のエネルギー比の値の計算に根拠を提供する。
【0053】
一実施例では、フィルタリング信号はNフレームのフィルタリングサブ信号を含み、誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、ターゲットサブバンドにおけるN個のサブエネルギー比はターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーとターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、ターゲットサブバンドにおける第1エネルギー平滑化比の値はN個のサブエネルギー比に対して第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、ターゲットサブバンドにおける第2エネルギー平滑化比の値はN個の第1サブエネルギー平滑化比の値に対して第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、ターゲットサブバンドはM個のサブバンドのうちのいずれかのサブバンドである。
【0054】
なお、入力信号はNフレームの入力サブ信号を含み、基準信号はNフレームの基準サブ信号を含み、誤差信号は入力信号及び基準信号に応じて決定され、このため、誤差サブ信号は入力サブ信号及び基準サブ信号に応じて決定され、入力サブ信号は誤差サブ信号に1対1で対応し、基準サブ信号は誤差サブ信号に1対1で対応している。フィルタリング信号は基準信号によって決定され、このため、フィルタリングサブ信号は基準サブ信号によって決定され、フィルタリングサブ信号は基準サブ信号に1対1で対応している。このようにして、誤差サブ信号はフィルタリングサブ信号に1対1で対応し、ターゲットサブバンドにおける各フレームの誤差サブ信号は、対応する第1エネルギーを有し、ターゲットサブバンドにおける各フレームのフィルタリングサブ信号は対応する第2エネルギーを有する。ターゲットサブバンドにおけるNフレームの誤差サブ信号のそれぞれの第1エネルギーとそれに対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を計算することによって、N個のサブエネルギー比を得ることができる。
【0055】
本実施例では、誤差信号及びフィルタリング信号をフレーミング処理し、ターゲットサブバンドにおけるNフレームの誤差サブ信号のそれぞれの第1エネルギーとそれに対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を計算し、ターゲットサブバンドにおけるN個のサブエネルギー比を得て、ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、M個のサブバンドがあるため、M個のサブバンドのそれぞれにおけるN個のサブエネルギー比が得られ、M個のサブバンドのそれぞれにおけるN個のサブエネルギー比をダブルトーク状態検出の基礎とすることで、状態検出の精度を向上させることができる。
【0056】
一実施例では、以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【0057】
上記誤差サブ信号のフレーム順序は誤差信号における誤差サブ信号の時間順であり、上記フィルタリングサブ信号のフレーム順序はフィルタリング信号におけるフィルタリングサブ信号の時間順であり、ratio_short_sm(1,k)がratio(1,k)に等しく、このことから理解できるように、k番目のサブバンドにおける、時間が最も早い第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比については、第1平滑化を行った結果が平滑化前の結果と同じであり、つまり、k番目のサブバンドにおける、最も早く収集される第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比については、平滑化を行わない。上記第1平滑化処理によって、得られたM個の第1エネルギー平滑化比の値がM個のエネルギー比の値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。
【0058】
一例として、0≦α≦1である。上記第1平滑化処理の式では、第1平滑化因子αの値は式の右側のratio_short_sm(n,k)及びratio(n+1,k)に応じて決定でき、n又は/及びkの変化に伴い、ratio_short_sm(n,k)及びratio(n+1,k)が変化し、この場合、αは変化する可能性がある。たとえば、ratio(n,k)に対して第1平滑化処理を行って、ratio_short_sm(n,k)を得て、現在、ratio(n+1,k)に対して第1平滑化処理を行う必要があり、ratio_short_sm(n,k)がratio(n+1,k)未満の場合、現在、近端音声が存在する可能性が大きいことを示し、現在のratio(n+1,k)をできるだけ早く追跡する必要があり、したがって、第1平滑化因子として小さい値を選択し、逆の場合は、大きい値を選択する。たとえば、第1所定値及び第2所定値が予め設定されており、第1所定値は第2所定値未満であり、一例として、第1所定値は0.5、第2所定値は0.7であってもよく、ratio_short_sm(n,k)がratio(n+1,k)未満の場合、第1所定値を第1平滑化因子の値として選択し、それ以外の場合、第2所定値を第1平滑化因子の値として選択する。
【0059】
一実施例では、以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【0060】
上記誤差サブ信号のフレーム順序は誤差信号における誤差サブ信号の時間順であり、上記フィルタリングサブ信号のフレーム順序はフィルタリング信号におけるフィルタリングサブ信号の時間順であり、ratio_long_sm(1,k)がratio_short_sm(1,k)に等しく、このことから理解できるように、k番目のサブバンドにおける、時間が最も早い第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比については、第1平滑化処理を行った結果が、第2平滑化を行った結果と同じであり、つまり、k番目のサブバンドにおける、最も早く収集される第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比については、第1平滑化処理を行った後、第2平滑化処理を行わない。上記第2平滑化処理によって、得られたM個の第2エネルギー平滑化比の値がM個の第1エネルギー平滑化値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。一例として、0≦β≦1であり、たとえば、βは0.99であってもよい。また、β>αである。
【0061】
一実施例では、M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するステップは、
M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するステップと、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定するステップと、を含む。
【0062】
エネルギー比の値はサブバンドに1対1で対応し、サブバンドは1つのサブ周波数範囲に対応し、一例として、上記I個のエネルギー比の値はM個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第1周波数範囲に属するエネルギー比の値であってもよく、たとえば、周波数帯域を3000Hzと予め設定し、分割されたM個のサブバンドについて、近端音声信号のエネルギーが主に低周波帯域(2000Hz以下)にあるため、第1周波数範囲が0~2000Hzであってもよい。又は、電子機器のマイクロフォンによって受信された入力信号の周波数分布に応じて第1周波数範囲を選択してもよく、たとえば、マイクロフォンによって収集された入力信号のうち信号対雑音比が大きい(たとえば、所定閾値よりも大きい)周波数帯域を第1周波数範囲とする。本実施例では、M個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第1所定範囲内にあるエネルギー比の値(即ち、I個のエネルギー比の値)の信号対雑音比の合計でダブルトーク状態検出を行う。このようにして、計算量を減少させるだけでなく、検出精度を向上させることができる。
【0063】
一実施例では、入力信号はNフレームの入力サブ信号を含み、入力サブ信号は誤差信号に1対1で対応しており、フレーミング処理の場合、上記合計は各フレームの誤差サブ信号(又は各フレームのフィルタリングサブ信号)におけるM個のエネルギー比の値の信号対雑音比のうちI個のエネルギー比の値の信号対雑音比の和を含んでもよく、即ち、合計はN個の信号対雑音比の和を含み、したがって、前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定するステップは、前記N個の信号対雑音比の和のうち所定閾値よりも大きい第1ターゲット信号対雑音比に対応する第1ターゲットフレームの入力サブ信号(入力信号の入力サブ信号に属する)がダブルトーク状態であると決定し、前記N個の信号対雑音比の和のうち所定閾値以下の第2ターゲット信号対雑音比に対応する第2ターゲットフレームの入力サブ信号(入力信号の入力サブ信号に属する)がシングルトーク状態であると決定するステップを含む。
【0064】
以下、具体的な実施例をもって上記ダブルトーク状態検出方法の過程を詳細に説明する。
【0065】
図3に示すように、AECアルゴリズムの回路図であり、AECアルゴリズムでは、遠端信号をよりよく除去するとともに、近端音声信号sを保護するために、通常、ダブルトーク検出モジュールが備えられる。ダブルトーク検出モジュールは入力信号yの状態、即ち、近端状態、シングルトーク状態及びダブルトーク状態を検出する。近端状態とは、近端話者の近端音声信号のみがあることを意味し、シングルトーク状態とは、遠端信号のみがあることを意味し、ダブルトーク状態とは、近端話者の近端音声信号も遠端信号もあることを意味する。入力信号の状態を識別して初めて、後続の処理では状態に応じて処理を行うことができ、たとえば、近端状態では、音響エコーキャンセルが不要であり、ダブルトーク状態では、音響エコーキャンセルの等級が低く、シングルトーク状態では、音響エコーキャンセルの等級が高まり、それによって、遠端信号のみがある場合、できるだけ除去し、近端信号がある場合、音声信号の歪みを低減させる。
【0066】
図3に示すように、AECアルゴリズムを実現する回路図は線形フィルタ、ダブルトーク検出モジュール及び非線形処理モジュールを含み、また、マイクロフォンと差分回路との間には、入力信号をサブバンド分解する第1サブバンド変換モジュールがさらに接続され、且つ、基準信号xと線形フィルタとの間には、基準信号をサブバンド分解する第2サブバンド変換モジュールがさらに接続されている。線形フィルタモジュールが基準信号を線形フィルタリングした後、マイクロフォンの入力信号yとフィルタリング信号
【数1】
を差分回路で差分処理して誤差信号eを得て、マイクロフォンによって受信された入力信号のうち遠端信号の大部分が除去されたが、近端音声信号が保持され、非線形処理モジュールは誤差信号eに対してさらなる音響エコーキャンセルを行う。このとき、各サブバンドにおいて誤差信号とフィルタリング信号とのエネルギー比の値ratio(n,k)をそれぞれ計算する。ここで、
【数2】
(E(n,k)はk番目のサブバンドにおける誤差信号のうちの第nフレームの誤差サブ信号の周波数領域信号であり、|E(n,k)|
2はk番目のサブバンドにおける誤差信号のうちの第nフレームの誤差サブ信号の第1エネルギーであり、X(n,k)はk番目のサブバンドにおけるフィルタリング信号のうちの第nフレームのフィルタリングサブ信号の周波数領域信号であり、|X(n,k)|
2はk番目のサブバンドにおけるフィルタリング信号のうちの第nフレームのフィルタリングサブ信号の第2エネルギーである。)である。
【0067】
近端音声信号がある場合、ratio(n,k)が大きく、遠端信号のみがある場合、ratio(n,k)が小さく、該ratio(n,k)を直接利用して状態判定を行う場合、基準信号のエネルギーが異なると、判定閾値は統一し難く、且ついくつかのサブバンドにおける異常点が最終的な判定結果に影響を与えやすい。
【0068】
基準信号の信号対雑音比が大きい場合、ratio(n,k)に対して短時間平滑化(即ち、第1平滑化処理)及び長時間平滑化(第2平滑化処理)を行い、基準信号の信号対雑音比が大きいことを求めるのは、基準信号の信号対雑音比が低い場合、雑音信号の存在によってratio(n,k)が大きすぎて判定結果に悪影響を与えることを防止するためである。
【0069】
本実施例では、上記ダブルトーク状態検出方法の過程は以下の通りである。
M個のサブバンドにおける誤差信号のM個の第1エネルギー及びM個のサブバンドにおけるフィルタリング信号のM個の第2エネルギーを計算する。
【0070】
サブエネルギー比ratio(n,k)を計算し、ここで、nは1、2、…、N-1であり、kは1、2、…、Mであり、
ratio(n,k)に対して短時間平滑化を行い、ratio_short_sm(n,k)を得る。
【0071】
ratio_short_sm(n,k)に対して長時間平滑化を行い、ratio_long_sm(n,k)を得る。
【0072】
最小値追跡アルゴリズムによってratio_short_sm(n,k)の雑音ratio_long_min(n,k)を追跡する。
【0073】
ratio(n,k)の信号対雑音比ratio_snr(n,k)を計算し、ここで、
【数3】
である。
【0074】
サブバンドのサブ周波数範囲が第1所定周波数範囲であるratio_snr(n,k)を合計し、即ち、
【数4】
であり、
式中、k
1、k
2のそれぞれに対応するサブ周波数範囲が第1所定周波数範囲内にあり、k
1は正の整数であり、且つk
1≦Mであり、k
2は正の整数であり、且つk
2≦Mであり、k
1≦k
2であり、RATIO_SNRは第nフレームの誤差信号におけるk
2-k
1+1個のエネルギー比の値の信号対雑音比の和であり、また、第nフレームの入力サブ信号におけるk
2-k
1+1個のエネルギー比の値の信号対雑音比の和であり、即ち、Iはk
2-k
1+1であるようにしてもよい。
【0075】
RATIO_SNRを判定閾値(即ち、所定閾値)Tと比較し、RATIO_SNR>Tであると、ダブルトーク状態であると判断し、RATIO_SNR>Tではないと、シングルトーク状態であると判断する。
【0076】
最終的に判定閾値と比較するのが誤差信号とフィルタリング信号(基準信号に対応する)とのエネルギー比の値の信号対雑音比であるため、ダブルトーク状態検出の適応調整を実現することができ、誤差信号とフィルタリング信号とのエネルギーの大きさにかかわらず、その信号対雑音比が常に同一レベルに維持でき、即ち、近端音声が存在する場合、信号対雑音比が高く、それ以外の場合、信号対雑音比が低い。また、低周波帯域を選択する(又は実際の機器に応じてほかの周波数帯域を選択する)ことによっても、いくつかの周波数における異常点による影響を回避し、それによってダブルトークの検出精度をさらに向上させることができる。
【0077】
図4に示すように、本願は一実施例に係るダブルトーク状態検出装置400を提供し、装置は、
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュール401であって、誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュール401と、
M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュール402と、
M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態検出モジュール403と、を含む。
【0078】
一実施例では、状態検出モジュールは、
M個の第2エネルギー平滑化比の値に基づいて、M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値の雑音に基づいて、M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態決定モジュールと、を含む。
【0079】
一実施例では、フィルタリング信号はNフレームのフィルタリングサブ信号を含み、誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、ターゲットサブバンドにおけるN個のサブエネルギー比はターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーとターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、ターゲットサブバンドにおける第1エネルギー平滑化比の値はN個のサブエネルギー比に対して第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、ターゲットサブバンドにおける第2エネルギー平滑化比の値はN個の第1サブエネルギー平滑化比の値に対して第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、ターゲットサブバンドはM個のサブバンドのうちのいずれかのサブバンドである。
【0080】
一実施例では、平滑化モジュールは以下の式によってM個のエネルギー比の値に対して第1平滑化処理を行う。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
【0081】
一実施例では、平滑化モジュールは以下の式によってM個のエネルギー平滑化比の値に対して第2平滑化処理を行う。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N-1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
【0082】
一実施例では、状態決定モジュールは、入力信号の状態を決定し、
M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値信号対雑音比の合計を計算するための合計モジュールを含み、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定する。
【0083】
上記各実施例に係るダブルトーク状態検出装置は、上記各実施例に係るダブルトーク状態検出方法を実現する装置であり、技術的特徴が対応し、技術的効果が対応し、ここでは詳しく説明しない。
【0084】
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
【0085】
図5に示すように、本願の実施例に係るダブルトーク状態検出方法の電子機器のブロック図である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本願の実現を制限する意図はしない。
【0086】
図5に示すように、この電子機器は、1つ又は複数のプロセッサ501、メモリ502、及び高速インターフェースと低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力/出力装置(たとえば、インターフェースに結合された表示機器など)にGUIのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は必要な操作の一部(たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)を提供する。
図5では、1つのプロセッサ501の場合が例示されている。
【0087】
メモリ502は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、本願に係るダブルターク状態検出方法を前記少なくとも1つの前記プロセッサに実行させるように、少なくとも1つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係るダブルターク状態検出方法をコンピュータに実行させるためのコンピュータ命令を格納している。
【0088】
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ502は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の実施例におけるダブルターク状態検出方法に対応するプログラム命令/モジュール(たとえば、
図4に示される第1計算モジュール401、平滑化モジュール402、状態検出モジュール403)を格納することができる。プロセッサ501は、メモリ502に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例におけるダブルターク状態検出方法を実現する。
【0089】
メモリ502は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、キーボード表示に基づく電子機器の使用にしたがって作成されたデータなどを格納する。さらに、メモリ502は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔的に設置されるメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してキーボードに表示された電子機器に接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
【0090】
ダブルトーク状態検出方法の電子機器は、入力装置503及び出力装置504をさらに含んでもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504はバス又はその他の方式で接続してもよく、
図5には、バスによる接続が例示されている。
【0091】
入力装置503は、入力される数字又はキャラクター情報を受信すること、キーボードに表示された電子機器、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインタ、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。出力装置504は、表示機器、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含む。この表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。
【0092】
ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
【0093】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラム可能なプロセッサの機械命令が含まれ、プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を用いてこれらのコンピュータプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、機器、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック機器(PLD))に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を指す。
【0094】
ユーザと対話できるように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(たとえば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
【0095】
ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピュータシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピュータシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピュータシステム(たとえば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピュータシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
【0096】
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
【0097】
本願の実施例の技術案によれば、本願の実施例に係るダブルトーク状態検出方法では、M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値に対して第1平滑化処理を行うことで、得られるM個の第1エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するM個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第1平滑化処理を行われたM個の第1エネルギー平滑化比の値に対して第2平滑化処理を行うことで、得られるM個の第2エネルギー平滑化比の値をさらに安定化させ、それにより、M個の第1エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。
【0098】
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。
【0099】
上記特定実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。