特許7497888 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許7497888クロストークデータ検出方法および電子デバイス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-03

(45)【発行日】2024-06-11

(54)【発明の名称】クロストークデータ検出方法および電子デバイス

(51)【国際特許分類】

H04S 1/00 20060101AFI20240604BHJP

G10L 25/21 20130101ALI20240604BHJP

【ＦＩ】

H04S1/00 200

G10L25/21

【請求項の数】 11

(21)【出願番号】P 2021500297

(86)(22)【出願日】2019-07-03

(65)【公表番号】

(43)【公表日】2021-11-18

(86)【国際出願番号】 CN2019094530

(87)【国際公開番号】W WO2020011085

(87)【国際公開日】2020-01-16

【審査請求日】2022-06-10

(31)【優先権主張番号】201810763010.9

(32)【優先日】2018-07-12

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】510330264

【氏名又は名称】アリババ・グループ・ホールディング・リミテッド

【氏名又は名称原語表記】ＡＬＩＢＡＢＡＧＲＯＵＰＨＯＬＤＩＮＧＬＩＭＩＴＥＤ

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100205785

【弁理士】

【氏名又は名称】▲高▼橋史生

(72)【発明者】

【氏名】ユンフェン・シュ

(72)【発明者】

【氏名】タオ・ユ

【審査官】佐久聖子

(56)【参考文献】

【文献】特開平１０－３１３４９７（ＪＰ，Ａ）

【文献】特開平０３－０６８８８３（ＪＰ，Ａ）

【文献】特開２０１５－０６１７４０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｓ１／００ー７／００

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１５／００－１７／２６

Ｇ１０Ｌ１９／００－９９／００

(57)【特許請求の範囲】

【請求項1】

クロストークデータを検出するための電子デバイスによって実装される方法であって、
第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが各々複数の音声データセグメントを含む、受信することと、
相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することであって、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含む、計算することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を、基準時間差として設定することであって、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定される、設定することと、
前記第１の音声データブロックの前記音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントとの時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が、前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントが、クロストークデータを含んでいると判定することと、を含む、方法。

【請求項2】

前記相関係数の前記ピーク値を取得するために、前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することが、
前記第１の音声データブロックの前記音声データセグメントと前記第２の音声データブロックの前記音声データセグメントとの間の前記相関係数を計算することによって、相関係数組を形成することと、
前記相関係数組内の最大値を前記ピーク値として使用することと、を含む、請求項１に記載の方法。

【請求項3】

前記第１の時間差および前記第２の時間差のうちの大きい方をクロストーク時間差として設定することと、
前記音声セグメント時間差が前記クロストーク時間差と一致する場合、前記音声データセグメントがクロストークデータを含むと判定することと、をさらに含む、請求項１に記載の方法。

【請求項4】

前記音声セグメント時間差が前記クロストーク時間差と一致することが、
前記音声セグメント時間差が前記クロストーク時間差に等しいこと、または、
前記音声セグメント時間差と前記クロストーク時間差との差が第１の指定された閾値未満であること、を含む、請求項３に記載の方法。

【請求項5】

前記音声セグメント時間差が前記基準時間差と一致しないことが、
前記音声セグメント時間差が前記基準時間差に等しくないこと、または、
前記音声セグメント時間差と前記基準時間差との差が第２の指定された閾値より大きいこと、を含む、請求項１に記載の方法。

【請求項6】

前記相関係数が定義された係数値よりも大きい場合、相関係数に対応する前記第１の音声データブロックの関連付けられた音声データセグメントを、有効なデータとしてラベル付けすることをさらに含み、
これに対応して、前記第１の音声データブロックの前記音声データセグメントの前記取得時間と前記第２の音声データブロック内の前記対応する音声データセグメントの前記取得時間との時間差を前記音声セグメント時間差として設定する場合、前記音声データセグメントが有効なデータとしてラベル付けされた場合にのみ、前記時間差が前記音声セグメント時間差とみなされる、請求項１に記載の方法。

【請求項7】

第１の音声データブロックを生成するように構成された第１の音検知デバイスであって、前記第１の音声データブロックが複数の音声データセグメントを含む、第１の音検知デバイスと、
第２の音声データブロックを生成するように構成された第２の音検知デバイスであって、前記第２の音声データブロックが複数の音声データセグメントを含む、第２の音検知デバイスと、
プロセッサであって、
相関係数のピーク値を取得するために、前記第１の音声データブロックの前記複数の音声データセグメントと前記第２の音声データブロックの前記複数の音声データセグメントとの間の前記相関係数を計算し、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含み、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用し、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定され、
前記第１の音声データブロックの音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、
を含む電子デバイス。

【請求項8】

クロストークデータを検出する方法であって、
クライアントが、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
前記クライアントが、相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することであって、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含む、計算することと、
前記クライアントが、前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として使用することであって、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定される、使用することと、
サーバーが、前記第１の音声データブロックの音声データセグメントの取得時間と前記第２の音声データブロックの対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として使用し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記基準時間差、前記第１の音声データブロック、および前記第２の音声データブロックを前記クライアントが前記サーバーに送信することと、を含む方法。

【請求項9】

クロストークデータを検出する方法であって、
クライアントが、第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、
前記クライアントが、相関係数のピーク値を取得するために、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の前記相関係数を計算することであって、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含む、計算することと、
サーバーが、前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の音声データセグメントとの時間差を基準時間差として設定し、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定され、前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の対応する音声データセグメントの取得時間との時間差を音声セグメント時間差として設定し、そして、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することができるようにするために、前記ピーク値、前記第１の音声データブロック、および前記第２の音声データブロックを前記クライアントが前記サーバーに送信することと、を含む方法。

【請求項10】

クロストークデータを検出するための、電子デバイスによって実装される方法であって、
相関係数のピーク値、クライアントによって提供された、第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記ピーク値が、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の相関係数のピーク値であり、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含む、受信することと、
前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することであって、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定され、設定することと、
前記第１の音声データブロック内の音声データセグメントの取得時間と、前記第２の音声データブロック内の対応する音声データセグメントの取得時間との時間差を、音声セグメント時間差として設定することと、
関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。

【請求項11】

クロストークデータを検出する方法であって、
クライアントが、第１の音声データブロックおよび第２の音声データブロックを受信することであって、前記第１の音声データブロックおよび前記第２の音声データブロックが各々、複数の音声データセグメントを含む、受信することと、
サーバーが、前記第１の音声データブロックの音声データセグメントと前記第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、前記相関係数のピーク値を取得できるようにするために、前記第１の音声データブロックおよび前記第２の音声データブロックを前記クライアントがサーバーに送信することであって、前記相関係数は第１のピーク値に対応する第１の相関係数と、第２のピーク値に対応する第２の相関係数を含む、送信することと、
前記クライアントが、前記ピーク値に対応する前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の音声データセグメントの取得時間との時間差を基準時間差として設定することとであって、前記基準時間差は、前記第１の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第１の補助音声データセグメントと、前記第２の相関係数に対応する前記第２の音声データブロック内の音声データセグメントである第２の補助音声データセグメントとを用いて、前記第１の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第１の補助音声データセグメントとの間の第１の時間差と、前記第２の相関係数に対応する前記第１の音声データブロック内の音声データセグメントと前記第２の補助音声データセグメントとの間の第２の時間差とを計算することによって求められ、前記第１の時間差および前記第２の時間差のうちの小さい方が前記基準時間差として設定され、設定することと、
前記クライアントが、前記第１の音声データブロック内の音声データセグメントの取得時間と前記第２の音声データブロック内の対応する音声データセグメントとの時間差を音声セグメント時間差の取得時間として設定することと、
前記クライアントが、関連付けられた音声セグメント時間差が前記基準時間差と一致しない場合、前記第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む方法。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０１８年７月１２日に出願され、その全体が参照によって本明細書に組み込まれる「ＣｒｏｓｓｔａｌｋＤａｔａＤｅｔｅｃｔｉｏｎＭｅｔｈｏｄａｎｄＥｌｅｃｔｒｏｎｉｃＤｅｖｉｃｅ」と題された「中国出願第２０１８／１０７６３０１０．９号の優先権を主張する。

【0002】

本発明は、コンピュータの技術分野、特にクロストークデータ検出方法および電子デバイスに関する。

【背景技術】

【0003】

実生活では、人々が集まってコミュニケーションを取り、問題について議論する。あるシナリオでは、マイクを使用して音源を増幅することができ、またサイト上の複数のマイクが、各人の音声データを収集できる。場合によっては、２つ以上のマイクが互いに非常に近接している場合、クロストークが発生し得る。

【発明の概要】

【0004】

本明細書の実装は、クロストークデータを検出できるクロストークデータ検出方法および電子デバイスを提供する。

【0005】

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として使用することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

【0006】

本明細書の実装は、電子デバイスを提供し、電子デバイスは、第１の音声データブロックを生成するように構成された第１の音検知デバイスであって、第１の音声データブロックが複数の音声データセグメントを含む、第１の音検知デバイスと、第２の音声データブロックを生成するように構成された第２の音検知デバイスであって、第２の音声データブロックが複数の音声データセグメントを含む、第２の音検知デバイスと、プロセッサであって、第１の音声データブロックの複数の音声データセグメントと第２の音声データブロックの複数の音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得し、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データの取得時間との間の時間差を基準時間差として使用し、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として使用し、そして関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されたプロセッサと、を含む。

【0007】

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として使用することと、基準時間差、第１の音声データブロック、および第２の音声データブロックをサーバーに送信して、サーバーが、第１の音声データブロックの１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロックの１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声時間差として使用し、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。

【0008】

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロック、第２の音声データブロック、および基準時間差を受信することであって、第１の音声データブロックと第２の音声データブロックが、複数の音声データセグメントを別々に含む、受信することと、第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の対応する音声データセグメントとの間の時間差を音声セグメント時間差として使用することと、音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

【0009】

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックが複数の音声データセグメントを別々に含む、受信することと、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することと、ピーク値、第１の音声データブロック、および第２の音声データブロックをサーバーに送信し、サーバーが、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントとの間の時間差を基準時間差として設定し、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の取得時間と、第２の音声データブロック内の１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として設定し、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定できるようにすることと、を含む。

【0010】

本明細書の実装は、クロストークデータを検出する方法を提供し、方法は、相関係数のピーク値、第１の音声データブロックおよびクライアントによって提供された第２の音声データブロックを受信することであって、ピーク値が、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数のピーク値である、受信することと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の取得時間と第２の音声データブロック内の１つ以上の対応する音声データセグメントの１つ以上の取得時間との間の１つ以上の時間差を１つ以上の音声セグメント時間差として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む。

【0011】

本明細書の実装は、第１の音声データブロックおよび第２音声データブロックを受信することであって、第１の音声データブロックおよび第２音声データブロックがそれぞれ、複数の音声データセグメントを含む、受信することと、第１の音声データブロックおよび第２の音声データブロックをサーバーに送信し、サーバーが、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を取得することができるようにすることと、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定することと、第１の音声データブロック内の１つ以上の音声データセグメントの１つ以上の時間差と第２の音声データブロック内の１つ以上の対応する音声データセグメントとの間の１つ以上の時間差を１つ以上の音声セグメント時間差の１つ以上の取得時間として設定することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を含む、クロストークデータを検出する方法を提供する。

【0012】

本明細書の上記の実装によって提供される技術的解決策から分かるように、第１の音声データブロックと第２の音声データブロックとの間の基準時間差を判定することによって、基準時間差に基づいてクロストークデータの検出が達成される。音の遅延情報は音源とマイクの空間的位置に関係しているため、音声データブロックがクロストークデータを含んでいるかどうかが、遅延の時間差に基づいて効率的に検知され得る。

【図面の簡単な説明】

【0013】

本明細書または既存の技術の実装における技術的解決策をより明確に説明するために、実装または既存の技術の説明に使用する必要のある図面を本明細書で簡単に説明する。明らかに、説明された図面は、本明細書に記録されているいくつかの実装のみを表している。当業者は、いかなる創造的な努力もすることなく、これらの図面に基づいて他の図面を取得することができる。

【図1】本明細書の実装により提供されるクロストークデータ検出システムの概略図である。

【図2】本明細書の実装により提供される討論会のシナリオ下でのクロストークデータ検出システムの概略アプリケーションシナリオ図である。

【図3】本明細書の実装により提供される音声データブロックの送信経路の概略図である。

【図4】本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。

【図5】本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。

【図6】本明細書の実装により提供されるクロストークデータ検出システムの概略モジュラー図である。

【発明を実施するための形態】

【0014】

当業者が本明細書の技術的解決策をよりよく理解できるようにするために、本明細書の実装における技術的解決策を、本明細書の実装における図面を参照して以下に明確かつ完全に説明する。明らかに、説明される実装は、本明細書の実装のすべてではなく、一部のみを表している。本明細書の実装に基づいて、いかなる創造的な努力もすることなく、当業者によって取得される他のすべての実装は、本出願の保護の範囲内に含まれるべきである。

【0015】

図１および図２を参照すると、例示的なシナリオでは、賛成側および反対側の４人の討論者が、討論シーンで長いテーブルの両端にそれぞれ座っている。長いテーブルにはそれぞれ２つのマイクが配置されており、討論者が発する音を検知するために使用され、マイクによって検知された音はパワーアンプによって増幅される。

【0016】

この例示的なシナリオでは、第１の発言者がマイクＡの前で発言し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と話す。マイクＡとマイクＢとの間の距離が比較的短いため、マイクＢはまた、「私は、グローバリゼーションは開発途上国にとって有益だと思う」という声を検知し得る。同時に、討論者ＢはマイクＢの前で、「グローバリゼーションは貿易の発展に有益である」と話す。マイクＡはまた、「グローバリゼーションは貿易の発展に有益である」という声を検知し得る。したがって、マイクＡおよびマイクＢは、検知された音に従ってそれぞれの音声データストリームを生成し得る。

【0017】

この例示的なシナリオでは、電子デバイスがセットアップされ得、電子デバイスは、受信モジュールを介してマイクＡおよびマイクロＢによって生成された音声データストリームを受信し、そして音声データストリームを処理し、音声データストリーム内のクロストークデータを検出し得る。

【0018】

この例示的なシナリオでは、討論者ＡがマイクＡに向かって「私は、グローバリゼーションは発展途上国に有益だと思う」と話し、そして討論者ＢがマイクＢに向かって「グローバリゼーションは貿易の発展に有益である」と話したときに、電子デバイスは、マイクＡによって検知された音を受信し、音声データストリームを生成する。同時に、マイクＢもまた、それによって検知された音に基づいて音声データストリームを生成し得る。受信モジュールは、マイクの数に対応する複数のデータチャネルを有し得る。マイクＡはデータチャネルＡに対応し、マイクＢはデータチャネルＢに対応する。この例示的なシナリオでは、合計８つのマイクがあり得、また電子デバイスには８つのデータチャネルがあり得る。さらに、電子デバイスは、ＷＩＦＩによってデータチャネルを介してマイクによって入力された音声データストリームを受信し得る。

【0019】

この例示的なシナリオでは、受信モジュールは、音声データストリームを音声データブロックに分割し得る。具体的には、データチャネルＡ内の音声データストリームを分割して第１の音声データブロックを取得し、またデータチャネルＢ内の音声データストリームを分割して第２の音声データブロックを取得し得る。

【0020】

この例示的なシナリオでは、電子デバイスは、データチャネルＡによって入力された音声データストリームをターゲットとして使用し得、データチャネルＡ内の音声データストリームが、データチャネルＡおよびデータチャネルＢ内の音声データストリーム間の関連性に基づいてクロストークデータを有するかどうかを検出する。

【0021】

この例示的なシナリオでは、第１の音声データブロックおよび第２の音声データブロックの各音声データブロックは、１０００ｍｓの単位でいくつかの音声データセグメントに分割され得る。

【0022】

この例示的なシナリオでは、電子デバイスの係数計算モジュールは、第１の音声データブロックおよび第２の音声データブロックに対して別々にフーリエ変換を実行し得る。第１の音声データブロックおよび第２の音声データブロックのフーリエ変換に従って、相互相関関数が生成される。第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができ、また計算された相関の最大値を、第１の音声データブロック内の音声データセグメントと相関する最大値に対応する第２の音声データブロック内の音声データセグメントと見なすことができる。このように、最大値は、第１の音声データブロック内の音声データセグメントの最終的な相関係数と見なすことができる。

【0023】

この例示的なシナリオでは、相互相関関数に従って、音声データブロック内の音声データセグメントに対応する相関係数を計算できる。同時に発言している人が２人いるために、音声データブロック内の音声データセグメントに対応する相関係数には、それぞれ０．３と０．５の２つのピークがあり得る。第１の相関係数として０．３、第２の相関係数として０．５を判定し得る。

【0024】

この例示的なシナリオでは、閾値を設定することができ、そして音声データセグメントを閾値に従ってフィルタリングして、音声データブロック内の有効なデータを取得し得る。例えば、閾値は０．１であり得る。相関係数が０．１より大きい場合、相関係数に対応する第１の音声データブロック内の音声データセグメントは、第２の音声データブロック内の音声データセグメントと比較的類似度が高いと見なされ得る。これら２つの音声データセグメントは、同じ音源に由来すると見なされ、つまり、有効なデータと見なされ得る。相関係数が０．１未満の場合、相関係数に対応する、第１の音声データブロックおよび第２の音声データブロック内のそれぞれの音声データセグメント間の類似度は低いとみなされ、相関係数に対応する第１の音声データブロック内のそれぞれの音声データセグメントがノイズであリ得るとみなされ得る。この例示的なシナリオでは、ノイズと見なされる音声データセグメントに対してクロストーク検出が実行されない場合がある。第１の相関係数および第２の相関係数は、どちらも０．１より大きい０．３と０．４であるため、第１の相関係数および第２の相関係数に対応する音声データセグメントは有効なデータと見なされ得る。

【0025】

この例示的なシナリオでは、係数計算モジュールは、第１の相関係数に対応する第１の音声データブロック内の音声データセグメントを第１のターゲット音声データセグメントとして判定し、第２の相関に対応する第１の音声データブロック内の音声データセグメントを第２のターゲット音声データセグメントとして判定し、第１の相関係数に対応する第２の音声データブロック内の音声データセグメントを第１の補助音声データセグメントとして判定し、そして、第２の相関係数に対応する第２の音声データブロック内の音声データセグメントを第２の補助音声データセグメントとして判定し得る。

【0026】

この例示的なシナリオでは、電子デバイスの時間差判定モジュールは、第１のターゲット音声データセグメントと第１の補助音声データセグメントとの間の第１の時間差を計算し得る。例えば、第１の時間差は３０ｍｓであり得る。第２のターゲット音声データセグメントと第２の補助音声データセグメントとの間の第２の時間差が計算される。例えば、第２の時間差は６０ｍｓであり得る。

【0027】

この例示的なシナリオでは、時間差判定モジュールは、第１の時間差と第２の時間差のうちの小さい方を基準時間差として、そして他方をクロストーク時間差として判定し得る。言い換えると、基準時間差は３０ｍｓと判定でき、またクロストーク時間差は６０ｍｓと判定できる。

【0028】

この例示的なシナリオでは、電子デバイスの処理モジュールは、相関係数に従って、第１の音声データブロック内の各音声データセグメントに対応する第２の音声データブロック内のそれぞれの音声データセグメントを判定し、さらに第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算する。第１の音声データブロック内の音声データセグメントに対応する音声セグメント時間差が３０ｍｓに等しい場合、第１の音声データブロック内の音声データセグメントが主音声データであると判定される。音声セグメント時間差が６０ｍｓに等しい場合、第１の音声データブロック内の関連する音声データセグメントがクロストークデータであると判定される。

【0029】

例示的なシナリオでは、討論者Ｂが発言し、そして討論者Ｂが目の前のマイクＢに向かって話し、「私は、グローバリゼーションは発展途上国にとって有益だと思う」と言う。マイクＡは比較的マイクＢに近いので、マイクＡもまた「私は、グローバリゼーションは発展途上国にとって有益だと思う」という声を検知できる。したがって、マイクＡとマイクＢの両方が、検知した声に従って対応する音声データストリームを生成できる。電子デバイスは、データチャネルＡおよびデータチャネルＢによって入力された音声データストリームに従って、第１の音声データブロックおよび第２の音声データブロックを生成し得る。

【0030】

この例示的なシナリオでは、電子デバイスは、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関係数を計算し得る。第１の音声データブロック内の音声データセグメントは、相関係数に基づいてフィルタリングおよび選択され、そして有効なデータである１５０の音声データセグメントが第１の音声データブロックから取得される。さらに、電子デバイスは、第１の音声データブロックと第２の音声データブロックとの間の相関係数から０．４のピーク値を取得し、そして相関係数のピーク値０．４に対応する時間差は５０ｍｓである。

【0031】

この例示的なシナリオでは、電子デバイスは、第１の音声データブロックおよび第２の音声データブロック内の各音声データセグメントの平滑化エネルギーを計算し、そして第２の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第１の音声データブロック内の音声データセグメントの数をカウントする。カウント数は５である。電子デバイスは、第２の音声データブロック内の音声データセグメントの平滑化エネルギーより大きな平滑化エネルギーを有する第１の音声データブロック内の音声データセグメントの数と、有効なデータの数との間の比率が、０．８より大きい場合、相関係数のピークに対応する時間差が基準時間差であると判定され、また、０．２未満である場合、相関関数のピークに対応する時間差がクロストーク時間差であると判定されるように設定し得る。１５０に対する５の比率は０，２未満であるため、５０ｍｓの時間差がクロストーク時間差であると判定される。

【0032】

この例示的なシナリオでは、電子デバイスは、第１の音声データブロックの音声データセグメントに対応する時間差を計算し、そして計算された時間差が５０ｍｓに等しい場合、対応するボイスデータがクロストークデータであると判定する。

【0033】

この例示的なシナリオでは、他のデータチャネルは、他のデータチャネルによって送信される音声データストリーム内のクロストークデータを検出するためのターゲットとして使用され得る。

【0034】

この例示的なシナリオでは、討論過程全体で、検出されたクロストークデータをさらに取り除き、そしてクロストークが取り除かれた後に取得された音声データブロックを指定の音声ファイルに保存し、より明確な討論記録を生成する。

【0035】

図１を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを含み得る。本明細書の以下の説明は、機能モジュールを使用するクロストークデータ検出システムを紹介し、またクロストークデータ検出システムが実行されると、クロストークデータ検出方法が実施される。クロストークデータ検出方法は、以下の機能モジュールを参照することで理解でき、そして繰り返されない。

【0036】

受信モジュールは、第１の音声データブロックおよび第２の音声データブロックを受信し、第１の音声データブロックおよび第２の音声データブロックはそれぞれ、複数の音声データセグメントを含む。

【0037】

この実装では、受信モジュールは、第１のデータチャネルを介して入力された第１の音声データブロックおよび第２のデータチャネルを介して入力された第２の音声データブロックを受信し得る。具体的には、受信モジュールは、受信デバイス、またはデータ相互作用能力を備えた通信モジュールであり得る。受信モジュールは、第１のデータチャネルを介して入力された第１の音声データブロックおよび第２のデータチャネルを介して入力された第２の音声データブロックを有線で受信し得る。第１の音声データブロックおよび第１のデータチャネルを介して入力された第１の音声データブロックと、第１のデータチャネルを介して入力された第２の音声データブロックとを、ＨＴＴＰ、ＴＣＰ／ＩＰ、もしくはＦＴＰなどのネットワークプロトコルに基づいて、またはＷＩＦＩモジュール、ＺｉｇＢｅｅモジュール、Ｂｌｕｅｔｏｏｓモジュール、Ｚ－ｗａｖｅモジュールなどの無線通信モジュールを介して受信することも可能である。明らかに、受信モジュールはソフトウェアプログラムインターフェイスと呼ばれることもあり、コンピューティング能力を有する処理で動作できる。

【0038】

この実装では、受信モジュールは、音検知デバイスの数に対応する複数のデータチャネルを有し得る。音検知デバイスは、音を検知して音声データストリームを生成し、音声データストリームをデータチャネルに入力することができるデバイスを含み得る。例としては、マイク、ボイスレコーダーなどがある。この実装では、データチャネルは、音声データブロック送信用のキャリアを含み得る。データチャネルは、物理チャネルまたは論理チャネルであり得る。音声データブロックの送信経路により、データチャネルが異なる場合がある。具体的には、例えば、２つのマイクが設けられている場合、音源は、これら２つのマイクによって検知される音を生成して音声データストリームを生成することができ、また各マイクが音声データストリームを送信するチャネルをデータチャネルと呼ぶことができる。明らかに、データチャネルは論理的に分割することもでき、これは、複数のマイクを介して入力された音声データストリームを混合するのではなく、様々なマイクを介して入力された音声データストリームを個別に処理する、つまり、マイクを介して入力された音声データストリームを独立して処理することと理解できる。

【0039】

この実装では、第１の音声データブロックは、第１のデータチャネル内の音声データストリームに従って生成され得る。第２の音声データブロックは、第２のデータチャネル内の音声データストリームに従って生成され得る。音検知デバイスは、検知された音に従って、対応する音声データストリームを生成することができる。第１の音声データブロックおよび第２の音声データブロックは、様々な音検知デバイスに対応し得る。音検知デバイスの空間的位置は様々であり得るため、音源からの音を検知する様々な音検知デバイスによって生成される音声データストリームが様々である場合、時間もまた様々であり得る。

【0040】

この実装では、第１の音声データブロックおよび第２の音声データブロックはそれぞれ、複数の音声データブロックを含み得る。受信モジュールは、第１のデータチャネルの音声データストリームおよび第２のデータチャネルの音声データストリームを一定のルールに従ってデータブロックに分割することができ、そして分割されたデータブロックは、音声データブロックであり得る。音声データストリームは、時間の長さまたは数に応じて音声データブロックに分割できる。具体的には、例えば、音声データストリームは、１０ｍｓの単位で音声データブロックに分割され得る。明らかに、音声データブロックは１０ｍｓに制限されないこともある。あるいは、音声データブロックは、データの量に従って分割され得る。例えば、各音声データブロックは最大１ＭＢを有し得る。あるいは、音声データストリームによって表される音声波形の連続状態に従って分割が実行される。例えば、エンドポイント検出の場合、２つの隣接する連続波形間に一定の時間差がある無声部分が存在し、各連続音声波形は音声データブロックとして区切られる。音声データブロックは、複数の音声データセグメントを含み得る。音声データセグメントは、処理の基本単位として使用できる。

【0041】

係数計算モジュールは、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算し、相関係数のピーク値を取得するように構成されている。

【0042】

この実装では、相関係数を使用して、音声データブロック間の関係の近さの程度を示すことができる。あるいは、相関係数を使用して、音声データブロック間の類似度を示すことができる。相関係数の値が大きいほど、２つの音声データブロック内に含まれる音声データセグメントがより類似していることを示し得る。逆に、相関係数の値が小さいほど、２つの音声データブロック内に含まれる音声データセグメントが異なることを示し得る。

【0043】

この実装では、フーリエ変換は、ＧＣＣＰＨＡＴ法（位相変換加重一般化相互相関）に従って、音声データブロック内の音声データセグメントに対して個別に実行し得る。フーリエ変換後、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントに基づいて相互相関関数が生成され、相関係数を取得し得る。明らかに、相関係数は、基本的な相互相関法、相互パワースペクトル位相法、および他の方法に従って計算することもできる。明らかに、当業者は、相関係数を取得するための本明細書の技術的本質の下で他の修正された解決策を採用することができ、それによって実装される機能および効果が本明細書と同じであるかまたは類似している限り、本明細書の保護の範囲内でカバーされるものとする。

【0044】

この実装では、図３を参照すると、ある空間において、音を発する２つの音源があり得る。第１の音検知デバイスおよび第２の音検知デバイスは、音声データストリームを別々に生成し、そして、それらを対応する第１のデータチャネルおよび第２のデータチャネルに入力し得る。音源Ａで音を発してから第１の音検知デバイスで音を検知するまでにかかる時間の長さは時間１である。第１の音検知デバイスが音源Ａから発せられた音を検知してから第１のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間２である。音源Ａが音を発してから第２の音検知デバイスが音を検知するまでにかかる時間の長さは時間３である。第２の音検知デバイスが音源Ａから発せられた音を検知してから第２のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間４である。第１のデータチャネルおよび第２のデータチャネルにおいて、音源Ａが発した音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、ＧＣＣＰＨＡＴなどの方法を使用して計算され得る。音源Ｂが音を発してから第１の音検知デバイスが音を検知するまでにかかる時間の長さは時間５である。第１の音検知デバイスが音源Ｂから発せられる音を検知してから第１のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間６である。音源Ｂが音を発してから第２の音検知デバイスが音を検知するまでにかかる時間の長さは時間７である。第２の音検知デバイスが音源Ｂから発せられる音を検知してから第２のデータチャネルに音声データストリームを入力するまでにかかる時間の長さは時間８である。第１のデータチャネルおよび第２のデータチャネルにおいて、音源Ｂが発する音によって形成される音声データストリームは、音声データセグメントを含む音声データブロックに分割され得、次いで、相関係数は、ＧＣＣＰＨＡＴなどの方法を使用して計算され得る。したがって、２つの音源が空間内で音を発し、２つの相関係数が計算されて、取得され得る。

【0045】

この実装では、各検知デバイスは１人のユーザに対応してもよく、それにより、各音検知デバイスを使用して、様々なユーザを区別することができる。さらに、各音検知デバイスによって入力された音声データストリームが処理され、最終的に各ユーザに対応する音声ファイルを取得できる。したがって、各音声ファイルは、ユーザの声をより正確に特徴付けることができる。

【0046】

時間差判定モジュールは、ピーク値に対応する、第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定するように構成され得る。

【0047】

この実装では、ピーク値に対応する、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントは、最も類似している、またはほとんど同じ音源に由来する音声データを含んでいると見なされ得る。このようにして、相関係数のピーク値に対応する音声データセグメント間の時間差を使用して、同じ音源に由来する第１の音声データブロックおよび第２の音声データブロック内の音声データ間の時間差を特徴付け得る。時間差は、第１の音声データブロック内の音声データの一部がクロストークデータであるかどうかを判定するための参照として使用され得る。このように、時間差を基準時間差として使用することができる。

【0048】

この実装では、音声データセグメントの取得時間は、音声検知デバイスにおける音声データセグメントの音声データの生成時間、または受信モジュールによって受信された音声データセグメントの音声データの受信時間であり得る。具体的には、例えば、第１の音声検知端末と第２の音声検知端末とは互いに非常に近接している。ユーザが発言するときに、ユーザの発言からの音が第１の音声検知端末および第２の音声検知端末に到達するのにかかる時間は非常に近い。したがって、第１の音声検知端末および第２の音声検知端末は、ユーザの音を別々に検知し、音声データを生成する。第１の音声検知端末が音を検知して第１の音声データブロックを生成し、そして第２の音声検知端末が音を検知して第２の音声データブロックを生成すると仮定することができる。このように、第１の音声データブロックと第２の音声データブロックの生成時間は比較的近い。しかしながら、ユーザから第１の音声検知端末および第２の音声検知端末までの距離が異なるため、第１の音声データブロックおよび第２の音声データブロックの生成時間は近い。

【0049】

処理モジュールは、第１の音声データブロックの音声データセグメントの取得時間と第２の音声データブロック内の対応する音声データセグメント取得時間との間の時間差を音声セグメント時間差とし、そして、関連する音声セグメント時間差と基準時間差との間に不適合が存在する場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定するように構成されている。

【0050】

この実装では、第１の音声データブロック内の音声データセグメントおよび第２の音声データブロック内の音声データセグメントは、同じ音源に由来するかどうかに基づいて、互いに対応するかどうかを判定することができる。あるいは、上記の相関係数に基づいて、相関係数に対応する第１の音声データブロック内の音声データセグメントが、第２の音声データブロック内の音声データセグメントに対応すると見なすことができる。

【0051】

この実装では、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することができる。音声セグメント時間差は、音波による音センサーの検出から、対応する音声データセグメントを生成するまでにかかる時間に基づいて基準となり得るか、または音声データセグメントを音センサーデバイスによってデータチャネルに入力することに基づくことができるか、または受信モジュールから音声データセグメントを受信する時間に基づくこともできる。具体的には、時間差を計算する方法は、基準時間差を計算する方法と同じであり得る。

【0052】

この実装では、不一致には、音声セグメント時間差が基準時間差と等しくないことが含まれ得る。あるいは、第２の指定閾値を設定し、そして音声セグメント時間差と基準時間差との間の差の絶対値が第２の指定閾値より大きい場合、音声セグメント時間差が基準時間差と一致しないと判定することができる。具体的には、例えば、第２の指定閾値０．００２が設定されていて、音声セグメント時間差は０．０３であり、また基準時間差は０．０３５である。これら２つの間の差の絶対値は０．００５である。したがって、音声データセグメントはクロストークデータを含んでいると考えられ得る。

【0053】

この実装では、様々な音源は様々な音検知デバイスに対応し、様々な時間差に対応し得る。図３を参照すると、音源Ａと第１の音検知デバイスとの間の距離は、音源Ａと第２の音検知デバイスとの間の距離よりも空間的に短い。その結果、時間１は時間６よりも短くなる。このようにして、第１のデータチャネルおよび第２のチャネル内の音源Ａに由来する音声データセグメント間の音声セグメント時間差は、例えば、時間６と時間１との差が存在する。音声セグメント時間差は、音源Ａに対応し、また音源Ａ、第１の音検知デバイス、および第２の音検知デバイスの空間的位置が変わらないままである場合、音声セグメント時間差の値も変わらない。同じことが音源Ｂにも当てはまる。第１のデータチャネルの音声データセグメントでは、一部は音源Ａに由来し、一部は音源Ｂに由来し得る。同様に、第２の音声データチャネルの音声データセグメントでは、一部は音源Ａに由来し、一部は音源Ｂに由来し得る。相関係数に対応する、第１のデータチャネル内の音声データセグメントと第２のデータデータチャネル内の音声データセグメントとの間の音声セグメント時間差を計算することによって、音声セグメント時間差を使用して、第１のデータチャネル内の音源Ａに由来する音声データセグメントと音源Ｂに由来する音声データセグメントとを区別し得る。クロストークデータは、第１のデータチャネル内の音源Ｂからの音声データセグメントがクロストークデータであると理解することができる。言い換えれば、クロストークデータは、ターゲット音源以外の音源に由来する音声データセグメントであり得る。

【0054】

この実装では、音声セグメント時間差が基準時間差と一致する場合、第１の音声データブロック内の対応する音声データセグメントは、第１の音声データブロックが位置しているデータチャネルに対応する音源に由来すると見なすことができる。そのため、音声データセグメントは、さらなる処理および使用のために、取っておく必要がある。音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロック内の対応する音声データセグメントは、第１の音声データブロックが位置しているデータチャネルに対応する音源に由来するものではないと見なすことができる。その音声データセグメントは、第１の音声データブロックから取り除く必要がある。

【0055】

ある実装において、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数のピーク値を得ることは、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの相関係数を計算して、相関係数組を形成することと、相関係数組内の最大値をピーク値として設定することと、を含み得る。

【0056】

この実装では、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算して、相関係数組を形成することができる。相関係数の１つ以上のピーク値は、相関係数組から選択される。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関は、相互相関関数に従って計算することができる。具体的には、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関を別々に計算することができる。計算された相関の最大値は、第１の音声データブロック内の音声データセグメントに対応する最大値に対応する第２の音声データブロック内の音声データセグメントとしてみなされ得る。このように、最大値は、最終的に、第１の音声データブロック内の音声データセグメントに対応する相関係数と見なすことができる。このように、第１の音声データブロック内の各音声データセグメントに対応する相関係数を得ることができ、そして第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の対応を、相関係数を介して形成することができる。

【0057】

この実装では、１つ以上のピーク値は、相関係数組内の最大値であり得る。あるいは、相関係数は、対応する音声データセグメントの構成に従って構成され、その結果、相関係数が連続分布を形成し、１つ以上のピークおよび１つ以上の谷が、全体として表示され得るなど。１つ以上のピーク値は、１つ以上のピークによって表される１つ以上の相関係数であり得る。

【0058】

ある実装において、係数計算モジュールは、相関係数の１つ以上のピーク値を計算することができ、ピーク値の数は、２つ以上になり得る。

【0059】

これに対応して、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と、第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を、処理モジュールによって基準時間差として設定することは、それぞれが第１の時間差と第２の時間差であり、第１の時間差と第２の時間差のうちの小さい方が基準時間差として設定される、２つのピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データの取得時間との間の時間差を別々に計算することを含む。

【0060】

この実装において、相関係数の２つ以上のピークは、相互相関関数に基づいて得られた第１の音声データブロックおよび第２の音声データブロックの相関係数の２つ以上のピークであり得る。あるいは、指定された間隔を相関係数組内に設定し得、そして指定された間隔内の２つの最大値をピーク値として使用する。あるいは、相関係数組内の１つの値をピーク値として設定し得、また特定のデータ間隔の後に、ピーク値に等しくなる傾向がある相関係数は別のピーク値である。あるいは、相関係数内の２つの２番目に大きなものをピーク値として設定する。

【0061】

この実装では、相関係数内に２つ以上のピークが存在するが、これは、音声データブロック内の音声データが２つ以上の音源に由来し得ることを示し得る。具体的には、例えば、相関係数の２つのピーク値がそれぞれ第１の相関係数および第２の相関係数である相関係数組から選択される。第１の相関係数および第２の相関係数に対応する第１の音声データブロック内の音声データセグメントはそれぞれ第１のターゲット音声データセグメントおよび第２のターゲット音声データセグメントとして扱われ、また第２の音声データブロック内の対応する音声データセグメントは、第１の補助音声データセグメントおよび第２の補助音声データセグメントとして扱われる。このように、ターゲット音声データセグメントおよび対応する補助音声データセグメントとの間の時間差、すなわち、音声セグメント時間差をさらに別々に計算することができる。さらに、各音検知デバイスが１人のユーザに対応するシナリオでは、音検知デバイスと対応するユーザとの間の距離は、音検知デバイスと１人以上の他のユーザとの間の距離よりも短いと見なすことができる。このように、相関係数の複数のピークの場合、より小さな時間差に関連する相関係数に対応するターゲット音声データセグメントは、音検知デバイスの対応する音源に由来する傾向がある。したがって、計算された複数の時間差の中から、より小さな時差を基準時間差として使用することができる。

【0062】

ある実装において、クロストークデータ検出システムは、さらに、第１の時間差と第２の時間差のうちの大きい方をクロストーク時間差としてみなすことを実施する。それに対応して、処理モジュールは、関連する音声セグメントの時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定し得る。

【0063】

この実装において、音声セグメント時間差がクロストーク時間差と一致することは、音声セグメント時間差がクロストーク時間差に等しいことを含み得る。あるいは、第１の指定閾値が設定され、音声セグメント時間差とクロストーク時間差との間の差の絶対値が、第１の指定閾値よりも小さい場合、音声セグメント時間差はクロストーク時間差と一致すると見なされ得る。具体的には、第１の指定閾値は、例えば、０．００８に設定され得る。音声セグメント時間差が０．０４２であり、クロストーク時間差が０．０４０であり、これら２つの差の絶対値が０．００２（第１の指定閾値よりも小さい）である場合、関連する音声データセグメントがクロストークデータを含んでいると判定され得る。

【0064】

この実装では、クロストーク時間差を判定することにより、第１の音声データブロック内のクロストークデータは、クロストーク時間差に従って検出される。音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントはクロストークデータであると判定される。

【0065】

ある実装において、システムは、ラベル付けモジュールをさらに含み得る。ラベル付けモジュールは、相関係数が定義された係数値よりも大きい場合、相関係数に対応する第１の音声データブロック内の音声データセグメントを有効なデータとしてラベル付けするように構成される。これに対応して、処理モジュールは、関連する音声データセグメントが有効なデータとしてラベル付けされている場合にのみ、時間差を音声セグメント時間差として使用する。

【0066】

この実装では、相関係数を使用して、音声データブロック内のノイズデータを除去できる。比較的近接している２つの音検知デバイスは、同じ音源の音を検知して音声データストリームを生成する。その結果、２つの音検知デバイスによって出力された音声データストリームは、互いに比較的関連する音声データセグメントに分割される。計算して得られる相関係数は、比較的大きな値を持つ。第１の音声データブロック内の音声データセグメントが第２の音声データブロック内の対応する音声データセグメントより小さい相関係数を有する場合、これら２つの音声データセグメントの類似性は比較的少ないと見なすことができる。これら２つの音声データセグメントは、同じ音源に由来するものではないと見なされるか、または、音声データセグメントは、電子デバイス自体のノイズによって形成され得る。

【0067】

この実装では、相関係数に定義された係数値を設定することにより、定義された係数値以上の相関係数を持つ音声データセグメントが、定義された係数値未満の相関係数を持つ音声データセグメントから分離される。このように、定義された係数値未満の相関係数を持つ音声データセグメントは、さらに計算処理することなくノイズデータとして扱うことができ、それによりシステムの計算コンプライアンスが低下する。

【0068】

この実装において、定義された係数値を設定する方法は、プログラムを介して経験値を直接設定すること、または、音声データブロック内の音声データセグメントに対応する相関係数の分布を分析することと、相関係数の平均値に１未満の係数を掛けて、定義された係数値、例えば、相関係数の平均値の３分の１または４分１を得ることと、を含み得る。

【0069】

ある実装では、第１の音声データブロックの音声データセグメントと第２の音声データブロックの音声データセグメントとの間の相関係数を計算することによって、係数計算モジュールによって得られる相関係数のピーク数は１であり得る。これに対応して、ピーク値に対応する第１の音声データブロック内の音声データセグメントの取得時間と第２の音声データブロック内の音声データセグメントの取得時間との間の時間差を基準時間差として設定する場合、時間差判定モジュールは、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも高い場合に、時間差を基準時間差として設定し得る。

【0070】

この実装では、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも大きいこと、第１の音声データブロックおよび第２の音声データブロックのそれぞれの音圧値またはエネルギーを計算することを含み得る。あるいは、本明細書の技術的本質の啓蒙の下で、当業者は、第１の音声データブロックおよび第２の音声データブロックの信号強度の特性を反映することができる他の計算を採用するが、反映される信号強度が本明細書と同じまたは類似している限り、本出願の保護の範囲内でカバーされるものとする。第１の音声データブロックの信号強度は、第２の音声データブロックと比較される。第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも大きい場合、取得された時間差を基準時間差として決定することができる。

【0071】

この実装では、具体的には、エネルギー計算の観点を例として使用する。対応する第２の音声データブロックのエネルギーよりも大きい第１の音声データブロックのエネルギーは、第１の音声データブロック内の音声データのエネルギーを計算し、第１の音声データブロック内の計算されたエネルギーの平均値に基づいて第１の平均値を取得することと、第２の音声データブロック内の音声データのエネルギーを計算し、第２の音声データブロック内の計算されたエネルギーの平均値に基づいて第２の平均値を取得することと、を含み得る。第１の平均値は、第２の平均値と比較され得る。第１の平均値が第２の平均値よりも大きい場合、第１の音声データブロックのエネルギーは、対応する第２の音声データブロックのエネルギーよりも大きいと判定される。あるいは、閾値を設定することができる。第１の平均エネルギーから第２の平均エネルギーを引いたものが設定閾値よりも大きい場合、第１の音声データブロックのエネルギーは、対応する第２の音声データブロックのエネルギーよりも大きいと判定され得る。本明細書の技術的本質の啓蒙の下で、当業者は、第１の音声データブロックのエネルギーが、対応する第２の音声データブロックのエネルギーよりも大きいと判定できる他の方法を採用し、それは、判定された音声データブロック内の音声データのエネルギーが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。

【0072】

この実装では、音検知デバイスと対応する音源との間の距離は、概して、音検知デバイスと１つ以上の他の音源との間の１つ以上の距離よりも短い。音源から発せられた後、音はある程度まで距離とともに減衰する。このように、対応する音源によって生成され、音検知デバイスによって検知される音声データストリームによって表されるエネルギーまたは音圧値は、比較的大きい。場合によっては、第１の音声データブロック内の信号強度は、第２の音声データブロック内の信号強度よりも弱く、これは、第２の音声データブロックが位置しているデータチャネルに対応する、または第２の音声データブロックを生成する音検知デバイスに対応する、現在の音源として理解され得る。第１のデータチャネルに関して、第１の音声データブロック内に含まれる音声データは、第１のデータチャネルに対応する音源に由来しない場合があり、または第１の音声データブロック内の音声データセグメントの少なくとも一部は第１のデータチャネルに対応する音源に由来しないことが結論付けられ得る。上記の分析により、第１の音声データブロック内の音声データセグメントが、第１のデータチャネルに対応する音源に由来するかどうかを見分けることは、第１の音声データブロックおよび第２の音声データブロック内の信号強度によって行うことができる。

【0073】

ある実装において、第１の音声データブロック内の音声データセグメントと第２の音声データブロック内の音声データセグメントとの間の相関係数は、相関係数組を形成する。時間差判定モジュールはまた、定義された係数値よりも大きい相関係数組内の相関係数の統計数をカウントすることと、それに対応して、第１の音声データブロック内の信号強度が第２の音声データブロック内の信号強度よりも大きく、統計数が定義された数の閾値よりも大きい場合にのみ、時間差を基準時間差として設定することと、を実施し得る。

【0074】

この実装では、相関係数によって、第１の音声データブロック内の音声データセグメントが、有効なデータであるかノイズデータであるかを区別することが可能である。具体的には、相関係数組内の相関係数を、定義された係数値と比較することができる。相関係数が定義された係数値よりも大きい場合、相関係数に対応する音声データセグメントが有効なデータであると判定することができる。

【0075】

この実装では、定義された数の閾値よりも大きい統計数は、音声データブロック内の有効なデータ数が定義された数の閾値よりも大きいと理解することができる。場合によっては、統計数が定義された数の閾値よりも小さい場合、音声データブロック内の有効なデータは非常に少ないと見なすことができ、計算量を減らすためにさらなる処理が実行されない場合がある。

【0076】

ある実装において、時間差判定モジュールは、第１の音声データブロックの信号強度が第２の音声データブロックの信号強度よりも弱い場合、時間差をクロストーク時間差として判定することをさらに実施し得る。それに対応して、処理モジュールは、音声セグメント時間差がクロストーク時間差と一致する場合、音声データセグメントがクロストークデータを含んでいると判定する。

【0077】

この実装において、第２の音声データブロックの信号強度よりも弱い第１の音声データブロックの信号強度は、対応する第２の音声データブロック未満の第１の音声データブロックのエネルギー、または対応する第２の音声データブロックの音圧値未満の第１の音声データブロックの音圧値を含み得る。

【0078】

この実装では、クロストーク時間差を設定することにより、第１の音声データブロックの音声データセグメントで検出が直接実行され得る。したがって、第１の音声データブロック内の音声データセグメントが、第１のデータチャネルに対応しない音源に由来しているかどうかについて判定がなされる。

【0079】

図４を参照すると、本明細書の実装は、クロストークデータ検出システムを提供する。クロストークデータ検出システムは、クライアントおよびサーバーを含み得る。

【0080】

この実装では、クライアントは、データの送受信機能を備えた電子デバイスを含み得る。クライアントは、少なくとも２つの音検知デバイスおよびネットワーク通信ユニットを含み得る。

【0081】

この実装では、音検知デバイスを使用して、音源から発せられる音を検知し、対応する音声データを生成し得る。具体的には、音検知デバイスは、音送信機または、音送信機を備えるマイクであり得る。音送信機を使用して、音を電気信号に変換して音声データストリームを得る。各検知デバイスはデータチャネルに対応でき、音検知デバイスは、音検知デバイスによって生成された音声データストリームを、データチャネルを介してネットワーク通信ユニットに提供し得る。具体的には、少なくとも２つの音検知デバイスは、第１の音検知デバイスおよび第２の音検知デバイスを含み得る。これに対応して、第１の音検知デバイスは、第１のデータチャネルに対応し得、また第２の音検知デバイスは、第２のデータチャネルに対応し得る。

【0082】

この実装では、ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するためのデバイスを含む。ネットワーク通信ユニットは、音検知デバイスによって提供される音声データを受信することができ、また、音声データをサーバーに送信し得る。ネットワーク通信ユニットは、受信した音声データを、データチャネルを介してサーバーに送信することができる。

【0083】

この実装では、クライアントは比較的弱いデータ処理能力を有することがあり、またモノのインターネットデバイスなどの電子デバイスであり得る。クライアントは、受信モジュールと送信モジュールを有し得る。クライアントのネットワーク通信ユニットは、送信モジュールの機能を実装できる。

【0084】

この実装では、サーバーは、ネットワーク通信ユニット、プロセッサ、メモリなどを有し得る特定の計算処理能力を備える電子デバイスを含み得る。明らかに、サーバーは、電子デバイスで実行されるソフトウェアを指すこともある。サーバーはまた、連携して動作する複数のプロセッサ、ネットワーク通信モジュールなどを備えたシステムであり得る分散型サーバーであってもよい。あるいは、サーバーはまた、いくつかのサーバーによって形成されるサーバークラスターであり得る。明らかに、サーバーはクラウドコンピューティング技術を使用して実装することもできる。言い換えれば、サーバーによって操作される機能モジュールは、クラウドコンピューティング技術を使用して操作される。

【0085】

この実装では、ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従って、ネットワークデータ通信を実行するデバイスであり得、またクライアントによって提供される音声データストリームを受信するように構成され得る。ネットワーク通信ユニットは、受信モジュールとして機能し得る。

【0086】

この実装では、サーバーは、受信モジュール、係数計算モジュール、時間差判定モジュール、および処理モジュールを有し得る。ネットワーク通信ユニットは、受信モジュールの機能を実装し得る。サーバーの機能モジュールの内容の詳細を参照して、他の実装と比較し得る。

【0087】

この実装では、プロセッサは任意の適切な方法で実装され得る。例えば、プロセッサは、マイクロプロセッサまたはプロセッサ、および（マイクロ）プロセッサによって実行可能なコンピュータ可読プログラムコード（ソフトウェアまたはファームウェアなど）を格納するコンピュータ可読媒体、論理ゲート、スイッチ、特殊用途集積回路（特定用途向け集積回路、ＡＳＩＣ）、プログラム可能論理コントローラ、埋め込みマイクロコントローラなどの形態をとり得る。

【0088】

図５を参照すると、本明細書の実装は、クロストークデータ検出システムも提供する。クロストーク検出システムは、クライアントおよびサーバーを含み得る。

【0089】

この実装では、クライアントは、少なくとも２つの音検知デバイス、プロセッサ、およびネットワーク通信ユニットを含み得る。この実装で説明されている少なくとも２つの音検知デバイスの機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは、特定の処理能力を備えたデバイスであり得る。具体的には、例えば、クライアントは、ノートブックコンピュータ、またはスマート端末デバイスであり得る。ネットワーク通信ユニットは、受信モジュールを実装することができ、また係数計算モジュールは、プロセッサ内に位置し得る。ネットワーク通信ユニットは、１つ以上のネットワーク通信プロトコルに従ってネットワークデータ通信を実行するデバイスであり得る。

【0090】

この実装では、サーバーのプロセッサは、上記の時間差判定モジュールおよび処理モジュールを実行し得る。実装の詳細は、他の実装を参照して、それらと比較することができる。

【0091】

明らかに、図６を参照すると、この実装では、係数計算モジュールおよび時間差判定モジュールもクライアントで実行され得、そして基準時間差、第１の音声データブロック、および第２の音声データブロックがサーバーに送信される。サーバーは処理モジュールのみを実行し得る。

【0092】

本明細書の実装はまた、クロストークデータ検出システムを提供する。これは、クロストークデータ検出システムの概略相互関係図である。クロストーク検出システムは、クライアントおよびサーバーを含み得る。

【0093】

この実装では、クライアントは、少なくとも２つの音検知デバイスおよびプロセッサを含み得る。この実装で説明される少なくとも２つの音検知デバイスによって実装される機能の詳細については、他の実装を参照することができ、本明細書では繰り返されない。クライアントは強力な処理能力を持ち得る。プロセッサは、係数計算モジュール、時間差判定モジュール、および処理モジュールを実行し得る。このシナリオでは、サーバーと対話する必要はない。あるいは、処理モジュールによって処理された音声データブロックをサーバーに提供し得る。具体的には、例えば、クライアントは、比較的高性能の、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ワークステーションなどであり得る。

【0094】

明らかに、上記はいくつかの電子デバイスの例にのみ対応している。科学および技術の進歩に伴い、ハードウェアデバイスの性能が向上する場合があり、データ処理能力が比較的弱い電子デバイスのデータ処理能力もより良好になり得る。したがって、前述の実装では、ハードウェアデバイス上で動作するソフトウェアモジュールの分割は、本出願に対するいかなる制限にもならない。当業者は、上記のソフトウェアモジュールの機能をさらに分割し、それらをクライアントまたはサーバーに配置して、適宜動作させ得る。ただし、実装される機能および効果は、それらが本明細書と同じまたは類似している限り、本出願の保護の範囲によってカバーされるものとする。

【0095】

本明細書の実装はまた、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体はコンピュータプログラムを格納し、コンピュータプログラムは、実行されると、第１の音声データブロックおよび第２の音声データブロックを受信することであって、第１の音声データブロックおよび第２の音声データブロックがそれぞれ複数の音声データセグメントを含む、受信することと、第１の音声データブロックと第２の音声データブロックとの間の相関係数に基づいて、第１の音声データブロック内のターゲット音声データセグメントおよび第２の音声データブロック内の補助音声データセグメントを判定することであって、ターゲット音声データセグメント内のデータの少なくとも一部および補助音声データセグメント内のデータの一部が、同じ音源に由来し、相関係数が音声データセグメント間の類似度を示すために使用される、判定することと、ターゲット音声データセグメントおよび補助音声データセグメントに従って、第１の音声データブロックと第２の音声データブロックの基準時間差を判定することと、第１の音声データブロックの音声データセグメントと第２の音声データブロック内の対応する音声データセグメントとの間の音声セグメント時間差を計算することと、関連する音声セグメント時間差が基準時間差と一致しない場合、第１の音声データブロックの対応する音声データセグメントがクロストークデータを含んでいると判定することと、を実施する。

【0096】

この実装において、コンピュータ記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、キャッシュ、およびハードディスク（ＨＤＤ）、またはメモリカードを含むが、これらに限定されない。

【0097】