(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-19
(45)【発行日】2023-12-27
(54)【発明の名称】音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20231220BHJP
G10L 25/30 20130101ALI20231220BHJP
【FI】
G10L25/51 400
G10L25/30
【外国語出願】
(21)【出願番号】P 2021047560
(22)【出願日】2021-03-22
【審査請求日】2021-11-12
(31)【優先権主張番号】202010697058.1
(32)【優先日】2020-07-20
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】リ、シン
(72)【発明者】
【氏名】フアン、ビン
(72)【発明者】
【氏名】チャン、ツー
(72)【発明者】
【氏名】バイ、ジンフェン
(72)【発明者】
【氏名】ジア、レイ
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2020/129231(WO,A1)
【文献】特開2020-034624(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/51
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
目標音声を取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するステップと、を含み、
前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、
音声検出装置により実行される方法。
【請求項2】
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、を含む、
請求項2に記載の方法。
【請求項4】
前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するステップをさらに含み、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップは、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップを含む、
請求項3に記載の方法。
【請求項5】
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップをさらに含む、
請求項2に記載の方法。
【請求項6】
前記ディープニューラルネットワークは、マージ層をさらに含み、
事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップは、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含む、
請求項5に記載の方法。
【請求項7】
前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項1に記載の方法。
【請求項8】
ディープニューラルネットワークの訓練装置により実行される方法であって、
音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含み、
前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、
方法。
【請求項9】
前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップは、
前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、を含む、
請求項8に記載の方法。
【請求項10】
前記マルチヘッド完全接続ネットワークを使用して、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップは、
各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップを含む、
請求項9に記載の方法。
【請求項11】
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップは、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含む、
請求項9に記載の方法。
【請求項12】
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップは、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、を含む、
請求項11に記載の方法。
【請求項13】
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップは、
取得された確率に基づいて、前記ディープニューラルネットワークの訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを含む、
請求項11に記載の方法。
【請求項14】
取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新する前記ステップは、
取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む、
請求項13に記載の方法。
【請求項15】
目標音声を取得するように構成される取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含み、
前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、
音声検出装置。
【請求項16】
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
事前に訓練されたディープニューラルネットワークに目標音声を入力し、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークを使用して前記音声特徴を処理し、前記マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項15に記載の装置。
【請求項17】
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定するステップと、によって、
前記予測ユニットは、前記特徴抽出ネットワークを介して前記目標音声の音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項16に記載の装置。
【請求項18】
前記特徴抽出ネットワークを使用して、前記ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含み、
前記正規化済み実部、前記正規化済み虚部、および前記対数を前記目標音声の音声特徴として決定するステップによって、
前記予測ユニットは、前記正規化済み実部および前記正規化済み虚部を前記目標音声の音声特徴として決定する前記ステップを実行するようにさらに構成される、
請求項17に記載の装置。
【請求項19】
前記マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、前記畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に前記目標音声のサブ音声が存在する確率を取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項16に記載の装置。
【請求項20】
前記ディープニューラルネットワークは、マージ層をさらに含み、
前記マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、
前記予測ユニットは、事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得する前記ステップを実行するようにさらに構成される、
請求項19に記載の装置。
【請求項21】
前記マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む、請求項15に記載の装置。
【請求項22】
ディープニューラルネットワークの訓練装置であって、
音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、
複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、
前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含み、
前記ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む、
ディープニューラルネットワークの訓練装置。
【請求項23】
前記訓練サンプルが前記音声サンプルにおける各サブ音声の方向情報をさらに含む前記音声サンプルを前記ディープニューラルネットワークに入力し、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、前記音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、
各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、
前記マルチヘッド完全接続ネットワークを使用して、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得する前記ステップを実行するようにさらに構成される、
請求項22に記載の装置。
【請求項24】
前記ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含み、
前記特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、
前記入力ユニットは、各サブ音声の処理対象サブ音声特徴について、前記マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する前記ステップを実行するようにさらに構成される、
請求項22に記載の装置。
【請求項25】
各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在する確率を取得するステップによって、
前記入力ユニットは、前記マルチヘッド完全接続ネットワークを使用して、前記複数の方向間隔の各方向間隔に前記音声サンプルのサブ音声が存在するか否かを決定する前記ステップを実行するようにさらに構成される、
請求項22に記載の装置。
【請求項26】
前記ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含み、
前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出するステップと、
前記畳み込みニューラルネットワークによって抽出された音声特徴を使用して、前記マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、
前記入力ユニットは、前記ディープニューラルネットワークを使用して前記音声サンプルの特徴を決定し、処理対象音声特徴を取得する前記ステップを実行するようにさらに構成される、
請求項22に記載の装置。
【請求項27】
前記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含み、
前記フーリエ変換ネットワークを使用して前記音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、
前記特徴抽出ネットワークを使用して、前記ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、
前記正規化済み実部および前記正規化済み虚部を前記音声サンプルの音声特徴として決定するステップと、によって、
前記入力ユニットは、前記特徴抽出ネットワークを介して前記音声サンプルの音声特徴を抽出する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。
【請求項28】
取得された確率に基づいて、前記
ディープニューラルネットワークの訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップによって、
前記訓練ユニットは、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する前記ステップを実行するようにさらに構成される、
請求項26に記載の装置。
【請求項29】
取得された各確率について、この確率に対応する損失値を決定し、前記損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
前記第一結果セットを使用して、前記畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、
前記訓練ユニットは、取得された確率に基づいて、前記訓練ネットワーク構造において逆方向伝搬を実行し、前記畳み込みニューラルネットワークのパラメータ、および前記マルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される、
請求項28に記載の装置。
【請求項30】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するための記憶装置と、を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1-7または8-14のいずれか一項に記載の方法を実施する、
電子デバイス。
【請求項31】
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、このプログラムがプロセッサによって実行されて請求項1-7または8-14のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
【請求項32】
コンピュータプログラムであって、このコンピュータプログラムがプロセッサによって実行されて請求項1-7または8-14のいずれか一項に記載の方法を実施する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータの技術分野、具体的には音声処理および深層学習の技術分野、特に音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラムに関する。
【背景技術】
【0002】
到着方向(Direction Of Arrival、DOA)の推定は、波の到着方向を推定すること、即ち、音源の方向を推定することである。ここでのソースは、オーディオソース、または通信に使用できる他の信号ソースであり得る。音声アクティビティ検出(Voice Activity Detection、VAD)は、現在のオーディオに音声信号(即ち、人間音声信号)が含まれるか否かを検出することができる。即ち、オーディオを判断し、人間音声信号を様々な背景雑音から認識することができる。
【0003】
関連技術における到着方向の推定では、通常、受信装置アレイを使用して信号を取得し、受信装置から信号への波到着線の方向を決定し、波到着線の方向を使用して三角測量を実行して到着方向を決定する。
【発明の概要】
【0004】
音声検出方法、装置、電子デバイス、および記憶媒体が提供される。
【0005】
第一様態によれば、音声検出方法が提供される。この方法は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を含む。
【0006】
第二様態によれば、ディープニューラルネットワーク訓練方法が提供される。この方法は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を含む。
【0007】
第三様態によれば、音声検出装置が提供される。この装置は、目標音声を取得するように構成される取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに前記目標音声を入力して、所定の複数の方向間隔の各方向間隔に前記目標音声のサブ音声が存在するか否かを取得するように構成される予測ユニットと、を含む。
【0008】
第四様態によれば、ディープニューラルネットワーク訓練装置が提供される。この装置は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成されるサンプル取得ユニットと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するように構成される入力ユニットと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される訓練ユニットと、を含む。
【0009】
第五態様によれば、電子デバイスが提供される。この電子デバイスは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するための記憶装置と、を含み、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサが音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
【0010】
第六態様によれば、コンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。このコンピュータ可読記憶媒体では、このプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
【0011】
第七態様によれば、コンピュータプログラムが提供される。このコンピュータ可読記憶媒体では、このコンピュータプログラムがプロセッサによって実行されて音声検出方法またはディープニューラルネットワーク訓練方法などの実施例のいずれかにおける方法を実施する。
【0012】
本願の解決策によれば、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
【0013】
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
【図面の簡単な説明】
【0014】
【
図1】本願のいくつかの実施例が適用され得る例示的なシステムアーキテクチャ図である。
【
図2】本願に係る音声検出方法の一実施例のフローチャートである。
【
図3a】本願に係る音声検出方法の適用シナリオの概略図である。
【
図3b】本願に係る音声検出ディープニューラルネットワークの予測プロセスの概略図である。
【
図4a】本願に係るディープニューラルネットワーク訓練方法の一実施例のフローチャートである。
【
図4b】本願に係る音声検出ディープニューラルネットワークの訓練ネットワーク構造の概略図である。
【
図5】本願に係る音声検出装置の一実施例の構造概略図である。
【
図6】本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0015】
本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。
【0016】
なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。
【0017】
図1は、本願が適用され得る、音声検出方法または音声検出装置の実施例の例示的なシステムアーキテクチャ100を示す。
【0018】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するために使用される媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
【0019】
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話し、メッセージなどを送受信することができる。端末装置101、102、103には、音声検出アプリケーション、ライブブロードキャストアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされ得る。
【0020】
ここでの端末装置101、102、103は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子デバイスにインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
【0021】
サーバ105は、端末装置101、102、103へのサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信した目標音声などのデータに対して分析などの処理を行い、処理結果(例えば、ディープニューラルネットワークの予測結果)を端末装置にフィードバックすることができる。
【0022】
なお、本願の実施例によって提供される音声検出方法がサーバ105または端末装置101、102、103によって実行され得るため、音声検出装置は、サーバ105または端末装置101、102、103に設置され得る。
【0023】
図1中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
【0024】
さらに
図2を参照すると、
図2は、本願に係る音声検出方法の一実施例のプロセス200を示す。この音声検出方法は、以下のステップを含む。
【0025】
ステップ201、目標音声を取得する。
【0026】
本実施例では、音声検出方法を実行する実行主体(例えば、
図1に示すサーバまたは端末装置)は、目標音声を取得することができる。実際には、この目標音声は、シングルチャネル音声であり得るか、またはマルチチャネル音声であり得る。即ち、この目標音声は、1つのマイクが受信する音声であり得るか、または複数の異なる受信方向のマイクからなるマイクアレイが受信する音声であり得る。
【0027】
ステップ202、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する。
【0028】
本実施例では、上記実行主体は、事前に訓練されたディープニューラルネットワークに目標音声を入力して、このディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、この予測結果は、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かである。目標音声は、それぞれが目標音声における1つのサブ音声を発する少なくとも1つの音源から発せられる音声であり、各音源は1つの到着方向に対応する。なお、本願では、複数とは、少なくとも2つを意味する。
【0029】
具体的には、ここでのディープニューラルネットワークは、畳み込みニューラルネットワーク、残差ニューラルネットワークなどの様々なネットワークであり得る。
【0030】
予測結果は、上記複数の方向間隔の各方向間隔にサブ音声が存在するか否かについての予測結果を含み得る。例えば、全方向が360°を含み、各方向間隔が120°を含む場合、上記複数の方向間隔は、3つの方向間隔を含み得る。各方向間隔が36°を含む場合、上記複数の方向間隔は、10個の方向間隔を含み得る。各方向間隔が30°を含む場合、上記複数の方向間隔は、12個の方向間隔を含み得る。
【0031】
上記ディープニューラルネットワークの予測結果は、各方向間隔にサブ音声が存在するか否かを包括的かつ個別に予測することができ、各方向間隔はこの予測結果に対応する結果が存在する。例えば、方向間隔が12個存在する場合、予測結果には12個の結果が存在し、異なる方向間隔はこの12個の結果における異なる結果に対応する。
【0032】
実際には、予測結果は定性的であり得る。例えば、予測結果は、サブ音声が存在することを示す「1」、またはサブ音声が存在しないことを示す「0」であり得る。または、予測結果は定量的でもあり得る。例えば、予測結果は、「0.96」など、サブ音声が存在することを示す確率pであり得、この確率の数値範囲は[0、1]である。この予測結果には0.95などの閾値が存在し得る。即ち、この確率がこの閾値以上である場合、この方向間隔に目標音声のサブ音声が存在する。また、予測結果は、「0.06」など、サブ音声が存在することを示す確率qでもあり得、この確率の数値範囲は[1、0]である。この予測結果には0.05などの閾値が存在し得る。即ち、この確率がこの閾値以下である場合、この方向間隔に目標音声のサブ音声が存在する。
【0033】
本願の上記実施例によって提供される方法は、各方向間隔を個別に予測できるため、各方向間隔に目標音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
【0034】
さらに
図3aを参照すると、
図3aは、本実施例に係る音声検出方法の適用シナリオの概略図である。
図3aの適用シナリオでは、実行主体301は、目標音声302を取得する。実行主体301は、所定の3つの方向間隔の各方向間隔に入力音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声302を入力して、ディープニューラルネットワークの予測結果303を取得する。この予測結果303は所定の3つの方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かであり、具体的には、第一方向間隔にサブ音声が存在し、第二方向間隔にサブ音声が存在し、第三方向間隔にサブ音声が存在しない。
【0035】
本願は、音声検出方法の別の実施例をさらに提供する。ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
【0036】
本実施例では、ディープニューラルネットワーク内の完全接続ネットワークは、マルチヘッド完全接続ネットワークであり得る。音声検出方法を実行する実行主体(例えば、
図1に示すサーバまたは端末装置)は、マルチヘッド完全接続ネットワークに含まれる複数の完全接続ネットワークを使用して完全接続処理を実行することができる。ディープニューラルネットワークから出力される予測結果には各完全接続ネットワークの出力の全部または一部が含まれ得る。完全接続ネットワークと方向間隔との間には対応関係がある。即ち、1つの完全接続ネットワークは複数の方向間隔の一つに対応する。それに応じて、1つの完全接続ネットワークは、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在するか否かを予測することができる。
【0037】
マルチヘッド完全接続ネットワークの入力は、当技術分野における他の完全接続ネットワークの入力と同じであり得る。例えば、入力は、目標音声の音声特徴であり得る。
【0038】
本実施例では、マルチヘッド完全接続ネットワークを使用して、異なる方向間隔におけるサブ音声の正確な予測を実現することができる。
【0039】
本実施例のいくつかの代替的な実施形態では、マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む。
【0040】
これらの代替的な実施形態では、マルチヘッド完全接続ネットワークは、完全接続(fully connected、FC)層(例えば、活性化relu層に接続された完全接続層FC-relu)、アフィン層(affine layer)、およびソフトマックス層(softmax layer)を含み得る。これらの実施形態では、完全接続ネットワーク内の各処理層を使用して微細化処理を実行することができるため、より正確な予測結果を取得するのに役立つ。
【0041】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、を含み得る。
【0042】
これらの代替的な実施形態では、上記実行主体は、最初に特徴抽出(feature-extraction、FE)ネットワークを使用して目標音声の音声特徴を抽出し、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN、例えば、活性化relu層に接続された畳み込み層CNN-relu)を使用して音声特徴に対して畳み込み処理を実行することにより、畳み込み音声特徴を取得することができる。具体的には、畳み込みニューラルネットワークは、一つまたは2つ以上の畳み込み層を含み得る。さらに、畳み込みニューラルネットワークは、活性化層も含み得る。
【0043】
実際には、上記実行主体は、特徴抽出ネットワークを使用して目標音声の音声特徴を様々な方法で抽出することができる。例えば、特徴抽出ネットワークがスペクトル分析に使用され得る場合、上記実行主体は、特徴抽出ネットワークを使用して目標音声に対してスペクトル分析を実行し、目標音声のスペクトログラムを取得し、このスペクトログラムを畳み込みニューラルネットワークに入力されるべき音声特徴として決定することができる。
【0044】
これらの実施形態では、音声特徴の抽出および音声特徴の畳み込み処理を実行して、音声特徴の抽出、および音声特徴の適切な処理を実現できるため、マルチヘッド完全接続ネットワークが畳み込み音声特徴をより効果的に使用して正確な予測結果を取得するのに役立つ。
【0045】
これらの実施形態のいくつかの代替的な適用シナリオでは、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。これらの実施形態における、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、を含み得る。
【0046】
これらの代替的な適用シナリオでは、上記実行主体は、目標音声に対してフーリエ変換(fast fourier transform、FFT)を実行することができ、得られた結果はベクトルである。さらに、このベクトルは、x+yjなどの複素形式で表される。ここで、xが実部であり、yが虚部であり、jが虚部単位である。それに応じて、
【数1】
は正規化済み実部であり、
【数2】
は正規化済み虚部である。このことから、上記正規化済み実部および上記正規化済み虚部は、全方向の位相情報を含むことがわかる。従来技術では、フーリエ変換によって取得されるベクトルの位相は音声特徴として直接使用されることが多いが、位相の周期性(一般に2πは周期である)のために、この方法で計算された位相と真の位相との間にはいくつかの2πの偏差がある。
【0047】
これらの適用シナリオでは、正規化済み実部および正規化済み虚部を音声特徴として決定できるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、より正確な予測結果を取得するのに役立つ。
【0048】
任意選択的に、上記方法は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するステップをさらに含み得る。正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップを含む。
【0049】
具体的には、複素形式のベクトルのモジュラス長を決定することは、このベクトルの実部と虚部の二乗和の平方根を決定することである。
【0050】
上記実行主体は、取得した正規化済み実部、正規化済み虚部、および対数を3つの異なるチャネル(channel)で畳み込みニューラルネットワークに入力し、畳み込み処理を実行することができる。この対数は、音声を検出するための十分な情報を提供することができる。
【0051】
これらの実施形態のいくつかの代替的な適用シナリオでは、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップをさらに含み得る。
【0052】
これらの代替的な適用シナリオでは、上記実行主体は、畳み込みニューラルネットワークから出力される畳み込み音声特徴をマルチヘッド完全接続ネットワーク内の各完全接続ネットワークに入力して、各完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得することができる。実際には、ここでの確率は、サブ音声が存在することを示す上記確率p、および/またはサブ音声が存在しないを示す上記確率qであり得る。
【0053】
これらの適用シナリオでは、マルチヘッド完全接続ネットワークを使用して、各方向間隔に目標音声のサブ音声が存在する確率を正確に決定することができる。
【0054】
これらの適用シナリオのいくつかの代替的な場合では、上記ディープニューラルネットワークは、マージ層をさらに含み得る。事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得する上記ステップは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップをさらに含み得る。
【0055】
いくつかの代替的な場合、上記実行主体は、マージ(concate)層を使用して、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークによって取得される確率に対してマージ処理を実行し、マージ処理結果をディープニューラルネットワークの予測結果として決定することができる。
【0056】
各完全接続ネットワークの結果が上記確率pなどの単一の確率である場合、上記マージ処理は、各完全接続ネットワークによって取得される確率を確率セットにマージすることであり得る。各完全接続ネットワークの結果が上記確率pまたは上記確率qなどの少なくとも2つの確率である場合、上記マージ処理は、上記確率pなど、各完全接続ネットワークによって取得される少なくとも2つの確率の一つを確率セットにマージすることであり得る。具体的には、ディープニューラルネットワーク訓練中に使用される損失関数がクロスエントロピー関数である場合、予測結果は確率pおよび確率qを含み、p+q=1である。従って、確率pなど、上記確率の一つを予測結果として選択して出力することができる。
【0057】
実際には、マージ処理は記号Tで表される転置処理をさらに含み得、確率セットはpnセットであり、pnは、方向間隔nに目標音声のサブ音声が存在する確率を表し、
【数3】
である。ただし、n=0,1,…,N-1である。
【0058】
図3bに示すように、
図3bは、音声情報をディープニューラルネットワークに入力して予測し、予測結果を取得するプロセス全体を示す。
【0059】
これらの場合、上記実行主体は、マージ層を使用して各確率に対してマージ処理を実行することができるため、ディープニューラルネットワークが、複数の方向間隔に目標音声のサブ音声が存在する確率を一度に出力できるようにする。
【0060】
さらに
図4aを参照すると、
図4aは、ディープニューラルネットワーク訓練方法の一実施例のプロセス400を示す。このプロセス400は、以下のステップを含み得る。
【0061】
ステップ401で、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得する。
【0062】
本実施例では、ディープニューラルネットワーク訓練方法を実行する実行主体(例えば、
図1に示すサーバまたは端末装置)は、訓練サンプルを取得することができる。訓練サンプルは、所定の一つまたは複数の方向間隔におけるサブ音声を含み得る訓練用の音声サンプルを含む。
【0063】
ステップ402で、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得する。
【0064】
本実施例では、上記実行主体は、ディープニューラルネットワークに音声サンプルを入力し、ディープニューラルネットワークにおいて順方向伝搬を実行し、ディープニューラルネットワークから出力される予測結果を取得することができる。具体的には、入力されるディープニューラルネットワークは、訓練対象のディープニューラルネットワークである。
【0065】
ステップ403で、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する。
【0066】
本実施例では、上記実行主体は、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得することができる。訓練サンプルは、上記音声サンプルに対応する実結果、即ち、複数の方向間隔の各方向間隔にこの音声サンプルのサブ音声が存在するか否かを含み得る。
【0067】
具体的には、上記実行主体は、予測結果および上記実結果に基づいて損失値を決定し、この損失値を使用してディープニューラルネットワークにおいて逆方向伝搬を実行することにより、訓練されたディープニューラルネットワークを取得することができる。
【0068】
本実施例で訓練されたディープニューラルネットワークは、各方向間隔を個別に予測できるため、各方向間隔に音声のサブ音声が存在するか否かを正確に決定し、正確な予測を実現することができる。
【0069】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
【0070】
これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ402は、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、を含み得る。
【0071】
これらの代替的な適用シナリオでは、上記実行主体は、上記音声サンプルの特徴を決定し、決定された特徴を処理対象音声特徴として決定することができる。具体的には、上記実行主体は、様々な方法で上記音声サンプルの特徴を決定することができる。例えば、上記実行主体は、特徴抽出層を使用して上記音声サンプルの特徴を抽出し、抽出された特徴を処理対象音声特徴として決定することができる。さらに、上記実行主体は、抽出されたこの特徴に対して他の処理を実行し、処理結果を処理対象音声特徴として決定することもできる。例えば、上記実行主体は、抽出された特徴をプリセットモデルに入力し、プリセットモデルから出力される結果を処理対象音声特徴として決定することができる。
【0072】
上記実行主体は、各処理対象サブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔を決定することにより、この方向間隔に対応する完全接続ネットワークを決定することができる。対応する完全接続ネットワークをこの処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する。
【0073】
マルチヘッド完全接続ネットワーク内の各完全接続ネットワークは、複数の到着方向間隔の各到着方向間隔に上記音声サンプルのサブ音声が存在するか否かを出力することができる。
【0074】
これらの適用シナリオのいくつかの代替的な場合では、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定する上記ステップは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを含み得る。
【0075】
これらの場合、上記実行主体は、特徴指向ネットワークを使用して、各処理対象サブ音声特徴に対応する完全接続ネットワーク、即ち、入力されるべき完全接続ネットワークを決定することができる。従って、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴をこの処理対象サブ音声特徴に対応する完全接続ネットワークに入力することができる。
【0076】
これらの場合、上記実行主体は、特徴指向ネットワークを使用して訓練プロセスにおいて処理対象サブ音声特徴を各完全接続ネットワークに割り当てることができるため、各完全接続ネットワークが訓練プロセスにおいて特定の方向間隔におけるサブ音声の特徴を学習できるようにして、この方向間隔におけるサブ音声の検出精度を向上させることができる。
【0077】
これらの適用シナリオのいくつかの代替的な場合では、これらの適用シナリオにおける、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップを含み得る。
【0078】
これらの場合、上記実行主体は、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、この処理対象サブ音声特徴に対応する完全接続ネットワークにおいて順方向伝搬を実行することができ、順方向伝搬結果は、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率である。
【0079】
これらの場合、上記実行主体は、各方向間隔にサブ音声が存在する確率に基づいて正確な予測を実行することができる。
【0080】
任意選択的に、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得する上記ステップは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、を含み得る。
【0081】
この場合、上記実行主体は、後続処理における特徴の使用を容易にするために、特徴抽出ネットワークおよび畳み込みニューラルネットワークを使用して音声サンプルの特徴を完全に抽出することができる。
【0082】
任意選択的に、上記ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出する上記ステップは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、を含み得る。
【0083】
これらの場合、上記実行主体は、正規化済み実部および正規化済み虚部を音声特徴として決定することができるため、従来技術における、位相偏差が発生するという問題を回避する。また、音声に対して様々な特徴を決定できるため、訓練されたディープニューラルネットワークがより正確な予測結果を予測するのに役立つ。
【0084】
任意選択的に、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得する上記ステップは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを含み得る。
【0085】
実際には、上記実行主体は、取得された確率、実確率(例えば、存在する場合が「1」で表され、存在しない場合が「0」で表される)などの訓練サンプル内の実結果、および所定の損失関数(例えば、クロスエントロピー関数)に基づいて、取得された確率の損失値を決定し、この損失値を使用して逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。
【0086】
任意選択的に、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新する上記ステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、
【0087】
特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、
【0088】
第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含み得る。
【0089】
実際には、上記実行主体は、各完全接続ネットワークから取得された確率、この完全接続ネットワークに対応する方向間隔に訓練サンプルにおけるマークされた音声サンプルのサブ音声が存在するか否かについての実結果、即ち実確率、および所定の損失関数を使用して、各完全接続ネットワークに対応する損失値を決定することができる。そして、各完全接続ネットワークに対応する損失値を使用して、この完全接続ネットワークにおいて逆方向伝搬を実行し、各完全接続ネットワークに対応する逆方向伝搬結果、即ち、各完全接続ネットワークに対応する第一結果を取得する。
【0090】
上記実行主体は、特徴指向ネットワークを使用して、各完全接続ネットワークに対応する第一結果に対してマージ処理を実行し、第一結果セットを取得することができる。その後、上記実行主体は、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新することができる。
【0091】
図4bに示すように、
図4bは、ディープニューラルネットワークの訓練ネットワーク構造を示す。その中で、DOA-Splitterは特徴指向ネットワークである。
【0092】
これらの実施形態では、畳み込みニューラルネットワークおよびマルチヘッド完全接続層において逆方向伝搬を実行し、これら2つのネットワークのパラメータを更新することができる。また、これらの実施形態では、特徴指向ネットワークを使用して、各完全接続ネットワークの逆方向伝搬結果をマージすることもできるため、畳み込みニューラルネットワークにおいて逆方向伝搬を継続し、モデル全体において逆方向伝搬を実現し、パラメータを更新することができる。
【0093】
さらに
図5を参照すると、上記の
図2および上記の
図3に示す方法の実施例として、本願は、音声検出装置の一実施例を提供する。この装置の実施例は、
図2に示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、
図2に示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。
【0094】
図5に示すように、本実施例に係る音声検出装置500は、取得ユニット501、および予測ユニット502を含む。取得ユニット501は、目標音声を取得するように構成される。予測ユニット502は、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するように構成される。
【0095】
本実施例では、音声検出装置500の取得ユニット501および予測ユニット502の具体的な処理とその技術的効果については、それぞれ
図2に対応する実施例のステップ201およびステップ202の関連説明を参照されたいが、ここでは繰り返さない。
【0096】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
【0097】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。予測ユニットは、事前に訓練されたディープニューラルネットワークに目標音声を入力し、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき畳み込み音声特徴を取得するステップと、によって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
【0098】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。予測ユニットは、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して目標音声の音声特徴を抽出するステップを実行するようにさらに構成される。
【0099】
本実施例のいくつかの代替的な実施形態では、装置は、特徴抽出ネットワークを使用して、ベクトルのモジュラス長の対数を決定するように構成される決定ユニットをさらに含む。予測ユニットは、正規化済み実部、正規化済み虚部、および対数を目標音声の音声特徴として決定するステップによって、正規化済み実部および正規化済み虚部を目標音声の音声特徴として決定するステップを実行するようにさらに構成される。
【0100】
本実施例のいくつかの代替的な実施形態では、予測ユニットは、マルチヘッド完全接続ネットワーク内の各完全接続ネットワークについて、畳み込み音声特徴をこの完全接続ネットワークに入力して、この完全接続ネットワークに対応する方向間隔に目標音声のサブ音声が存在する確率を取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
【0101】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、マージ層をさらに含む。予測ユニットは、マルチヘッド完全接続ネットワークに対応する各確率に対してマージ処理を実行し、出力対象確率セットを取得するステップによって、事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップを実行するようにさらに構成される。
【0102】
本実施例のいくつかの代替的な実施形態では、マルチヘッド完全接続ネットワーク内の完全接続ネットワークは、完全接続層、アフィン層、およびソフトマックス層を含む。
【0103】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴指向ネットワーク、フーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークをさらに含む。ネットワーク構造訓練ステップは、音声サンプルにおける異なるサブ音声の方向情報をさらに含む訓練サンプルの音声サンプルに対してディープニューラルネットワークのフーリエ変換ネットワーク、特徴抽出ネットワーク、および畳み込みニューラルネットワークにおいて順方向伝搬を実行し、異なるサブ音声に対応する畳み込みサブ音声特徴を含む音声サンプルの畳み込み音声特徴を取得するステップと、音声サンプルの畳み込み音声特徴における各サブ音声の畳み込みサブ音声特徴について、特徴指向ネットワークを使用して、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークをこの畳み込みサブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップと、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。
【0104】
本実施例のいくつかの代替的な実施形態では、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、を含む。
【0105】
上記各図に示す方法の実施例として、本願は、ディープニューラルネットワーク訓練装置の一実施例を提供する。この装置の実施例は、
図4aおよび
図4bに示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、
図4aに示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。
【0106】
本実施例のディープニューラルネットワーク訓練装置は、サンプル取得ユニット、入力ユニット、および訓練ユニットを含む。サンプル取得ユニットは、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するように構成される。入力ユニットは、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用されるディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するように構成される。訓練ユニットは、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するように構成される。
【0107】
本実施例では、ディープニューラルネットワーク訓練装置のサンプル取得ユニット、入力ユニット、および訓練ユニットの具体的な処理とその技術的効果については、それぞれ
図4aに対応する実施例のステップ401、ステップ402、およびステップ403の関連説明を参照されたいが、ここでは繰り返さない。
【0108】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、任意の2つの完全接続ネットワークが異なる方向間隔に対応し、出力が複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを特徴付けるために個別に使用されるマルチヘッド完全接続ネットワークを含む。
【0109】
本実施例のいくつかの代替的な実施形態では、入力ユニットは、訓練サンプルが音声サンプルにおける各サブ音声の方向情報をさらに含む音声サンプルをディープニューラルネットワークに入力し、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、音声サンプルにおける各サブ音声にそれぞれ対応する処理対象サブ音声特徴を含む処理対象音声特徴を取得するステップと、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップと、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップと、によって、ディープニューラルネットワークに音声サンプルを入力して、予測結果を取得するステップを実行するようにさらに構成される。
【0110】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークの訓練ネットワーク構造は、特徴指向ネットワークをさらに含む。入力ユニットは、特徴指向ネットワークを使用して、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップによって、各サブ音声の処理対象サブ音声特徴について、マルチヘッド完全接続ネットワークにおいて、このサブ音声の方向情報で示される方向が存在する方向間隔に対応する完全接続ネットワークを決定し、この完全接続ネットワークを、この処理対象サブ音声特徴が入力されるべき完全接続ネットワークとして決定するステップを実行するようにさらに構成される。
【0111】
本実施例のいくつかの代替的な実施形態では、入力ユニットは、各処理対象サブ音声特徴について、この処理対象サブ音声特徴を使用して、対応する完全接続ネットワークにおいて順方向伝搬を実行し、複数の方向間隔の各方向間隔に音声サンプルのサブ音声が存在する確率を取得するステップによって、マルチヘッド完全接続ネットワークを使用して、複数の到着方向間隔の各到着方向間隔に音声サンプルのサブ音声が存在するか否かを決定するステップを実行するようにさらに構成される。
【0112】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、特徴抽出ネットワークおよび畳み込みニューラルネットワークをさらに含む。入力ユニットは、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップと、畳み込みニューラルネットワークを使用して、抽出された音声特徴を処理し、マルチヘッド完全接続ネットワークに入力されるべき処理対象音声特徴を取得するステップと、によって、ディープニューラルネットワークを使用して音声サンプルの特徴を決定し、処理対象音声特徴を取得するステップを実行するようにさらに構成される。
【0113】
本実施例のいくつかの代替的な実施形態では、ディープニューラルネットワークは、フーリエ変換ネットワークをさらに含む。入力ユニットは、フーリエ変換ネットワークを使用して音声サンプルに対してフーリエ変換を実行し、複素形式のベクトルを取得するステップと、特徴抽出ネットワークを使用して、ベクトルの実部と虚部を正規化し、正規化済み実部および正規化済み虚部を取得するステップと、正規化済み実部および正規化済み虚部を音声サンプルの音声特徴として決定するステップと、によって、特徴抽出ネットワークを使用して音声サンプルの音声特徴を抽出するステップを実行するようにさらに構成される。
【0114】
本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップによって、予測結果に基づいて、ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップを実行するようにさらに構成される。
【0115】
本実施例のいくつかの代替的な実施形態では、訓練ユニットは、取得された各確率について、この確率に対応する損失値を決定し、損失値を使用して、この確率を取得した完全接続ネットワークにおいて逆方向伝搬を実行し、この確率に対応する第一結果を取得するステップと、特徴指向ネットワークを使用して、取得された各第一結果に対してマージ処理を実行し、第一結果セットを取得するステップと、第一結果セットを使用して、畳み込みニューラルネットワークにおいて逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップと、によって、取得された確率に基づいて、訓練ネットワーク構造において逆方向伝搬を実行し、畳み込みニューラルネットワークのパラメータ、およびマルチヘッド完全接続ネットワークのパラメータを更新するステップを実行するようにさらに構成される。
【0116】
本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。
【0117】
図6に示すように、
図6は、本願の実施例に係る音声検出方法を実施するための電子デバイスのブロック図であり、ディープニューラルネットワーク訓練方法を実施するための電子デバイスのブロック図でもある。音声検出方法を実施するための電子デバイスのブロック図を例に挙げて、以下に説明する。
【0118】
電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
【0119】
図6に示すように、この電子デバイスは、1つまたは複数のプロセッサ601と、メモリ602と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、GUIのグラフィック情報が外部入力/出力装置(例えば、インターフェースに結合された表示装置)に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。
図6には、プロセッサ601が例として挙げられる。
【0120】
メモリ602は、本願によって提供される非一時的コンピュータ可読記憶媒体である。メモリには、少なくとも1つのプロセッサが本願によって提供される音声検出方法を実行できるように、少なくとも1つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供される音声検出方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。
【0121】
非一時的コンピュータ可読記憶媒体として、メモリ602は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における音声検出方法に対応するプログラム命令/モジュール(例えば、
図5に示す取得モジュール501、および予測モジュール502)などのモジュールと、を記憶するために使用され得る。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における音声検出方法を実施する。
【0122】
メモリ602は、オペレーティングシステムおよび少なくとも1つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、音声検出用の電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ602は、高速ランダムアクセスメモリを含み得、また、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ602は、任意選択で、プロセッサ601に対して遠隔的に設置されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、音声検出用の電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
【0123】
音声検出方法を実施するための電子デバイスは、入力装置603および出力装置604をさらに含み得る。プロセッサ601、メモリ602、入力装置603、および出力装置604は、バスまたは他の手段によって接続され得るが、
図6にはバスによる接続が例として挙げられる。
【0124】
入力装置603は、入力された数字または文字情報を受信し、音声検出用の電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。
【0125】
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
【0126】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0127】
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
【0128】
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
【0129】
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、従来の物理ホストおよびVPSサーバ(「Virtual Private Server」、または単に「VPS」)における、管理の難しさが高く、サービスの拡張性が低いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品であるクラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであり得る。
【0130】
図面中のフローチャートおよびブロック図は、本願の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能な命令を含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される2つのブロックは、実際には実質的に並行して実行され得るか、または関連機能によっては逆の順序で実行され得る。また、ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組み合わせによって実装され得る。
【0131】
本願の実施例に係るユニットは、ソフトウェアによって実装され得るか、またはハードウェアによって実装され得る。上記ユニットはまた、例えば、取得ユニットおよび予測ユニットを含むプロセッサとして説明されるプロセッサに設置され得る。これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、取得ユニットは、「目標音声を取得するユニット」として説明され得る。
【0132】
別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搭載したものである。上記1つまたは複数のプログラムがこの装置によって実行されると、この装置は、目標音声を取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される事前に訓練されたディープニューラルネットワークに目標音声を入力して、所定の複数の方向間隔の各方向間隔に目標音声のサブ音声が存在するか否かを取得するステップと、を実行する。
【0133】
別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、1つまたは複数のプログラムを搭載したものである。上記1つまたは複数のプログラムがこの装置によって実行されると、この装置は、音声サンプルが少なくとも1つの所定の方向間隔におけるサブ音声を含む訓練サンプルを取得するステップと、複数の方向間隔の各方向間隔に音声のサブ音声が存在するか否かを予測するために使用される前記ディープニューラルネットワークに前記音声サンプルを入力して、予測結果を取得するステップと、前記予測結果に基づいて、前記ディープニューラルネットワークを訓練して、訓練されたディープニューラルネットワークを取得するステップと、を実行する。
【0134】
以上の説明は、本願の好ましい実施例、および使用された技術的原理の説明にすぎない。本願に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解されるであろう。例えば、それは、上記特徴と、本願において開示される(これらに限定されない)同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であり得る。