(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】ネットワークの訓練方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20230822BHJP
G10L 15/16 20060101ALI20230822BHJP
【FI】
G10L15/06 300Z
G10L15/16
【外国語出願】
(21)【出願番号】P 2021100596
(22)【出願日】2021-06-17
【審査請求日】2022-01-25
(31)【優先権主張番号】202011104612.7
(32)【優先日】2020-10-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】チェン、リ
(72)【発明者】
【氏名】ゾウ、サイサイ
【審査官】菊池 智紀
(56)【参考文献】
【文献】米国特許出願公開第2018/0307745(US,A1)
【文献】米国特許出願公開第2019/0371307(US,A1)
【文献】特表2020-505650(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
ネットワークの訓練方法であって、初期の意味予測ネットワークは、エンコーダネットワークと少なくとも1つのデコーダネットワークとを含み、前記エンコーダネットワークは畳み込み層と長・短期記憶ネットワーク層とを含み、前記少なくとも1つのデコーダネットワークのそれぞれが、シーン指令におけるスロットに対応するドメインの一つに対応する、ネットワークの訓練方法において、
ターゲット音声サンプルの第1の音声特徴を取得するステップであって、前記ターゲット音声サンプルは、合成音声サンプル
及び実音声サンプルであり、前記合成音声サンプルにはサンプル音節タグと、前記ドメインの値を含む意味タグとが付けられ、前記実音声サンプルにはサンプル音節タグが付けられている、ステップと、
前記第1の音声特徴を前記畳み込み層に入力し、前記畳み込み層の出力特徴を前記長・短期記憶ネットワーク層に入力し、前記長・短期記憶ネットワーク層から出力された第1の中間特徴を前記少なくとも1つのデコーダネットワークのそれぞれに入力し、前記第1の音声特徴に対応する意味タグを前記少なくとも1つのデコーダネットワークの出力とし、前記第1の中間特徴を音節分類ネットワークの入力とし、前記第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、前記初期の意味予測ネットワークと前記音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得するステップと、を含む、ネットワークの訓練方法。
【請求項2】
前記初期の意味予測ネットワークは、
前記合成音声サンプルをオリジナルの意味予測ネットワークの入力とし、前記合成音声サンプルに対応する意味タグを前記オリジナルの意味予測ネットワークの出力とし、前記オリジナルの意味予測ネットワークを訓練して前記初期の意味予測ネットワークを取得するステップにより確定される、請求項1に記載のネットワークの訓練方法。
【請求項3】
前記初期の意味予測ネットワークは、マルチチャネル音声増強ネットワークをさらに含み、
前記の、ターゲット音声サンプルの第1の音声特徴を取得するステップは、前記ターゲット音声サンプルをマルチチャネル音声増強ネットワークに入力し、マルチチャネル音声増強ネットワークから出力されたターゲット音声サンプルの第1の音声特徴を取得するステップを含む、請求項1または2に記載のネットワークの訓練方法。
【請求項4】
前記エンコーダネットワークは、事前訓練済みエンコーダネットワークであり、
前記事前訓練済みエンコーダネットワークは、
実音声サンプルの第2の音声特徴を取得するステップと、
前記第2の音声特徴に対して訓練ステップを実行するステップであって、前記訓練ステップは、前記第2の音声特徴を初期のエンコーダネットワークに入力し、前記初期のエンコーダネットワークから出力された第2の中間特徴を取得することと、前記第2の中間特徴を音節分類ネットワークに入力し、前記音節分類ネットワークから出力された予測音節タグを取得することとを含み、前記予測音節タグと前記サンプル音節タグとの間の差分値が予め設定された終了条件を満たさないことに応答して、前記初期のエンコーダネットワークのパラメータを調整することとを含み、前記差分値が前記予め設定された終了条件を満たすまで前記訓練ステップを実行する、ステップと、
により得られる、請求項1または2に記載のネットワークの訓練方法。
【請求項5】
前記デコーダネットワークのそれぞれは、順次直列に接続されたアテンションメカニズム層、全結合層、およびソフトマックス層を含む、請求項1に記載のネットワークの訓練方法。
【請求項6】
前記音節分類ネットワークは、全結合層およびソフトマックス層を含む、請求項1に記載のネットワークの訓練方法。
【請求項7】
前記合成音声サンプルは、
ターゲットシーンに対するテキスト表現と構文を取得するステップと、
前記ターゲットシーンに対するテキスト表現と構文を音声合成して、ターゲットシーンに対する音声信号を取得するステップと、
前記ターゲットシーンに対するテキスト表現と構文のキーワードに基づいて、前記ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとを確定するステップと、
前記ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとが付けられている前記ターゲットシーンに対する音声信号を前記合成音声サンプルとするステップと、
により確定される、請求項1に記載のネットワークの訓練方法。
【請求項8】
認識すべき音声信号を取得するステップと、
請求項1~7のいずれか一項に記載の方法を用いて訓練された訓練済み意味予測ネットワークに前記認識すべき音声信号を入力し、前記認識すべき音声信号の意味タグを取得するステップと、
を含む、意味認識方法。
【請求項9】
ネットワークの訓練装置であって、初期の意味予測ネットワークは、エンコーダネットワークと少なくとも1つのデコーダネットワークとを含み、前記エンコーダネットワークは畳み込み層と長・短期記憶ネットワーク層とを含み、前記少なくとも1つのデコーダネットワークのそれぞれがシーン指令におけるスロットに対応するドメインの一つに対応する、ネットワークの訓練装置において、
ターゲット音声サンプルの第1の音声特徴を取得するように構成されたサンプル取得モジュールであって、前記ターゲット音声サンプルは、合成音声サンプル
及び実音声サンプルであり、前記合成音声サンプルにはサンプル音節タグと前記ドメインの値を含む意味タグとが付けられ、前記実音声サンプルにはサンプル音節タグが付けられている、サンプル取得モジュールと、
前記第1の音声特徴を前記畳み込み層に入力し、前記畳み込み層の出力特徴を前記長・短期記憶ネットワーク層に入力し、前記長・短期記憶ネットワーク層から出力された第1の中間特徴を前記少なくとも1つのデコーダネットワークのそれぞれに入力し、前記第1の音声特徴に対応する意味タグを前記少なくとも1つのデコーダネットワークの出力とし、前記第1の中間特徴を音節分類ネットワークの入力とし、前記第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、前記初期の意味予測ネットワークと前記音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得するように構成された連携訓練モジュールと、
を含む、ネットワークの訓練装置。
【請求項10】
前記合成音声サンプルをオリジナルの意味予測ネットワークの入力とし、前記合成音声サンプルに対応する意味タグを前記オリジナルの意味予測ネットワークの出力とし、前記オリジナルの意味予測ネットワークを訓練して前記初期の意味予測ネットワークを取得するように構成された意味訓練モジュールをさらに含む、請求項9に記載のネットワークの訓練装置。
【請求項11】
前記初期の意味予測ネットワークは、マルチチャネル音声増強ネットワークをさらに含み、
前記サンプル取得モジュールはさらに、前記ターゲット音声サンプルをマルチチャネル音声増強ネットワークに入力し、マルチチャネル音声増強ネットワークから出力されたターゲット音声サンプルの第1の音声特徴を取得するように構成される、請求項9または10に記載のネットワークの訓練装置。
【請求項12】
前記エンコーダネットワークは、事前訓練済みエンコーダネットワークであり、
前記ネットワークの訓練装置は、
実音声サンプルの第2の音声特徴を取得するように構成された特徴取得モジュールと、
前記第2の音声特徴に対して訓練ステップを実行するように構成された事前訓練モジュールであって、前記訓練ステップは、前記第2の音声特徴を初期のエンコーダネットワークに入力し、前記初期のエンコーダネットワークから出力された第2の中間特徴を取得することと、前記第2の中間特徴を音節分類ネットワークに入力し、前記音節分類ネットワークから出力された予測音節タグを取得することとを含み、前記予測音節タグと前記サンプル音節タグとの間の差分値が予め設定された終了条件を満たさないことに応答して前記初期のエンコーダネットワークのパラメータを調整することとを含み、前記差分値が前記予め設定された終了条件を満たすまで前記訓練ステップを実行する事前訓練モジュールと、をさらに含む、請求項9または10に記載のネットワークの訓練装置。
【請求項13】
前記デコーダネットワークのそれぞれは、順次直列に接続されたアテンションメカニズム層、全結合層、およびソフトマックス層を含む、請求項9に記載のネットワークの訓練装置。
【請求項14】
前記音節分類ネットワークは、全結合層およびソフトマックス層を含む、請求項9に記載のネットワークの訓練装置。
【請求項15】
前記装置は、
ターゲットシーンに対するテキスト表現と構文を取得するように構成されたテキスト取得モジュールと、
前記ターゲットシーンに対するテキスト表現と構文を音声合成して、ターゲットシーンに対する音声信号を取得するように構成された音声合成モジュールと、
前記ターゲットシーンに対するテキスト表現と構文のキーワードに基づいて、前記ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとを確定するように構成されたタグ確定モジュールと、
前記ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとが付けられている前記ターゲットシーンに対する音声信号を前記合成音声サンプルとするように構成された合成音声サンプル確定モジュールと、をさらに含む、請求項9に記載のネットワークの訓練装置。
【請求項16】
認識すべき音声信号を取得するように構成された音声取得モジュールと、
請求項1~7のいずれか一項に記載の方法を用いて訓練された訓練済み意味予測ネットワークに前記認識すべき音声信号を入力し、前記認識すべき音声信号の意味タグを取得するように構成されたタグ予測モジュールと、
を含む、意味認識装置。
【請求項17】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか一項に記載のネットワークの訓練方法または請求項8に記載の意味認識方法が実行される、電子機器。
【請求項18】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は請求項1~7のいずれか一項に記載のネットワークの訓練方法または請求項8に記載の意味認識方法をコンピュータに実行させるためのものである、非一時的コンピュータ可読記憶媒体。
【請求項19】
プロセッサにより実行されると、請求項1~7のいずれか一項に記載のネットワークの訓練方法または請求項8に記載の意味認識方法が実行されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施形態は、コンピュータの技術分野に関し、具体的にはディープラーニングおよび音声解析などの人工知能技術分野に関し、特にネットワークの訓練方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
音声技術の成熟に伴い、音声制御を適用する家電製品が多くなり、スマートホームが本格的に庶民の生活に導入されるようになってきているが、チップ側の音声認識の技術的解決手段は私たちが直面している新たな挑戦になっている。
【0003】
現在、音声認識技術は基本的に従来の3段カスケード接続方法に基づいている。すなわち、音響モデル、言語モデル及び意味モデルを階層的に直列に接続して、音声→テキスト→意味の変換を実現する。また、音響からテキストへの変換においては、クラスター検索/ビーム検索(Beam Search)や重み付き有限状態トランスデューサ(weighted finite-state transducer、wfst)などで復号することにより音声と言語情報を融合し、音声認識を実現する必要がある。
【発明の概要】
【0004】
本出願の実施形態はネットワークの訓練方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提案する。
【0005】
第1態様において、本出願の実施形態は、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含むネットワークの訓練方法において、ターゲット音声サンプルの第1の音声特徴を取得するステップであって、ターゲット音声サンプルは、サンプル音節タグと、ドメインの値を含む意味タグとが付けられている合成音声サンプルまたはサンプル音節タグが付けられている実音声サンプルである、ステップと、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得するステップと、をさらに含む、ネットワークの訓練方法を提供する。
【0006】
第2態様において、本出願の実施形態は、認識すべき音声信号を取得するステップと、第1態様に記載の方法を用いて訓練された訓練済み意味予測ネットワークに認識すべき音声信号を入力し、認識すべき音声信号の意味タグを取得するステップと、を含む、意味認識方法を提供する。
【0007】
第3態様において、本出願の実施形態は、ネットワークの訓練装置であって、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含むネットワークの訓練装置において、ターゲット音声サンプルの第1の音声特徴を取得するように構成されたサンプル取得モジュールであって、ターゲット音声サンプルは、サンプル音節タグと、ドメインの値を含む意味タグとが付けられている合成音声サンプル、またはサンプル音節タグが付けられている実音声サンプルである、サンプル取得モジュールと、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得するように構成された連携訓練モジュールと、を含む、ネットワークの訓練装置を提供する。
【0008】
第4態様において、本出願の実施形態は、認識すべき音声信号を取得するように構成された音声取得モジュールと、第1態様に記載の方法を用いて訓練された訓練済み意味予測ネットワークに認識すべき音声信号を入力し、認識すべき音声信号の意味タグを取得するように構成されたタグ予測モジュールと、を含む、意味認識装置を提供する。
【0009】
第5態様において、本出願の実施形態は、第1態様に記載の方法を用いて訓練された訓練済み意味予測ネットワークが設置された、チップを提供する。
【0010】
第6態様において、本出願の実施形態は、少なくとも1つのプロセッサおよび少なくとも1つのプロセッサと通信可能に接続されたメモリを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1態様に記載の方法または第2態様に記載の方法が実行される、電子機器を提供する。
【0011】
第7態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様に記載の方法または第2態様に記載の方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
【0012】
第8態様において、本出願の実施形態は、プロセッサにより実行されると、本出願の第1態様または第2態様に記載の方法が実行されるコンピュータプログラムを提供する。
【0013】
本出願の実施形態によって提供されるネットワークの訓練方法、装置、機器、および記憶媒体によれば、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含む。まず、サンプル音節タグとドメインの値を含む意味タグとが付けられている合成音声サンプルまたはサンプル音節タグが付けられている実音声サンプルであるターゲット音声サンプルの第1の音声特徴を取得する。そして、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得する。このプロセスでは、背景技術に記載した3段カスケード接続方法を用いた音声認識技術と比較すると、本出願では、初期の意味予測ネットワークの訓練プロセスにおいて、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて初期の意味予測ネットワークの出力、音節分類ネットワークの出力への制約として意味タグとサンプル音節タグをそれぞれ採用し、初期の意味予測ネットワークにおけるパラメータを調整することで、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度を向上させ、最終的に得られた訓練済み意味予測ネットワークの予測精度を向上させることができる。本出願では、音声に基づいて音声の意味を解析することができるため、従来技術における音声をテキストに変換し、そしてテキストの意味を認識するリソースオーバヘッドを低減することができる。また、本出願は、3段カスケード接続方法による従来の音響復号を行わないので、計算量を低減することができる。
【0014】
上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の説明によって理解しやすくなるであろう。
本出願の他の特徴、目的、および利点は、以下の図面を参照してなされた非限定的な実施形態に対する詳細な説明を読むことによって、より明らかになるであろう。図面は、本出願をよりよく理解するために使用されるものであって、本出願を限定するものではない。
【図面の簡単な説明】
【0015】
【
図1】本出願が適用され得る例示的なシステムアーキテクチャである。
【
図2】本出願によるネットワークの訓練方法の一実施形態のフローチャートである。
【
図3】本出願による連携訓練のフローチャートである。
【
図4】本出願による事前訓練済みエンコーダネットワークのフローチャートである。
【
図5】本出願の一実施形態による、連携訓練を行う意味予測ネットワークおよび音節分類ネットワークの例示的な構成図である。
【
図6】本出願による意味認識方法の一実施形態のフローチャートである。
【
図7】本出願によるネットワークの訓練装置の一実施形態の概略構成図である。
【
図8】本出願による意味認識装置の一実施形態の概略構成図である。
【
図10】本出願の実施形態のネットワークの訓練方法または意味認識方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、理解を容易にするために、図面を参照しながら本出願の実施形態を説明する。説明内容には様々な詳細が含まれているが、それらはあくまでも例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本明細書に記載された実施形態は本出願の範囲および精神から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確かつ簡略化のために、公知の機能および構造の説明を省略する。
【0017】
なお、本出願における実施形態および実施形態における特徴は、衝突することなく、互いに組み合わせられてもよい。以下、本出願について図面を参照しながら、実施形態を詳細に説明する。
【0018】
図1は、本出願によるネットワークの訓練方法またはネットワークの訓練装置または意味認識方法または意味認識装置の実施形態が適用され得る例示的なシステムアーキテクチャ100を示す。
【0019】
図1に示すように、システムアーキテクチャ100にはクライアント101、ネットワーク102、およびサーバ103が含まれていてもよい。ネットワーク102は、クライアント101とサーバ103との間に通信リンクを提供するための媒体である。ネットワーク102は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。
【0020】
意味予測ネットワークを訓練する段階では、サーバ103は、クライアント101からターゲット音声サンプルを取得することや、ターゲット音声サンプルを用いて初期の意味予測ネットワークおよび音節分類ネットワークを連携訓練して、訓練済み意味予測ネットワークを取得することなど、様々なサービスを提供することができる。
【0021】
訓練済み意味予測ネットワークを介して意味タグを予測する段階では、クライアント101は、認識すべき音声信号を取得するために使用されることが可能であり、クライアント101に設置されたチップによって訓練済み意味予測ネットワークを介して、取得された認識すべき音声信号を予測して、認識すべき音声信号の意味タグを取得することができる。
【0022】
または、クライアント101は、認識すべき音声信号を取得するために使用されることが可能であり、サーバ103にデプロイされたチップによって訓練済み意味予測ネットワークを介して、クライアント101を介して取得された認識すべき音声信号を予測して、認識すべき音声信号の意味タグを取得することもできる。
【0023】
なお、意味予測ネットワークを介して認識すべき音声信号の意味タグを予測する前に、サーバ103により訓練済み意味予測ネットワークをクライアント101内のチップまたはサーバ103内のチップにデプロイすることもできる。ここで、このチップはマイクロ回路(Microcircuit)、マイクロチップ(Microchip)、集積回路(integrated circuit、IC)またはデジタル信号処理(digital signal processing、DSP)チップであり得る。このチップはまた、集積回路を内蔵するシリコンチップを指すことができ、コンピュータまたは他の電子機器の一部であり得る。
【0024】
なお、サーバ103は、ハードウェアであってもよく、ソフトウェアであってもよい。サーバ103がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実現されてもよく、単一のサーバとして実装されてもよい。サーバ103がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここでは具体的な限定はしない。
【0025】
図1のクライアント、ネットワーク、およびサーバの数は、例示的なものにすぎないことを理解されたい。実現のニーズに応じて、任意の数のクライアント、ネットワーク、およびサーバを有することができる。
【0026】
次に、本出願によるネットワークの訓練方法の一実施形態のフロー200を示す
図2を参照されたい。
【0027】
ここで、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含み得る。
【0028】
初期の意味予測ネットワークは、エンコーダネットワークと、少なくとも1つのデコーダネットワークと、を含み得、ここで、このエンコーダネットワークは、畳み込み層と、長・短期記憶ネットワーク層と、を含み、エンコーダネットワークの入力特徴は、エンコーダネットワークの畳み込み層の入力であり、エンコーダネットワークの畳み込み層の出力特徴は、エンコーダネットワークの長・短期記憶ネットワーク層の入力であり、エンコーダネットワークの長・短期記憶ネットワーク層の出力特徴は、少なくとも1つのエンコーダネットワークの入力である。
【0029】
ターゲット音声サンプルの第1の音声特徴を畳み込み層に入力することで、畳み込み層から出力された音声特徴を取得することができる。畳み込み層から出力された音声特徴は長・短期記憶ネットワーク層を介して抽出され、長・短期記憶ネットワーク層は以前に抽出された特徴を用いて今回抽出される特徴の確定を支援することで、長・短期記憶ネットワーク層から出力された中間特徴、すなわち事前訓練済みエンコーダネットワークから出力された中間特徴を取得する。長・短期記憶ネットワーク層の数は、意味予測ネットワークの予測精度、応用シーン、および当業者の経験から決定することができる。
【0030】
初期の意味予測ネットワークの少なくとも1つのデコーダネットワークのそれぞれは、従来技術または将来に開発される技術におけるデコーダネットワーク構造であり得る。各デコーダは、ある特定のシーンに関連する指令に対応するすべてのスロットのうちの1つのスロットを復号する。各デコーダネットワークに対応するドメインは、該特定のシーンに関連する指令におけるスロットに対応することができる。少なくとも1つのデコーダネットワークのそれぞれを介して1つのスロットをそれぞれ復号することで、入力音声がヒットしたすべてのスロットのコンテンツを取得することができ、入力音声の意味タグを取得することができる。
【0031】
具体的な例では、意味予測ネットワークは、エアコン制御シーンの意味認識を行うために使用される。この意味予測ネットワークは、N個(Nはエアコン制御シーンに係る制御指令がヒットした意味スロットの数である)のデコーダネットワークを含む。エアコン制御のシーンでは、ユーザが使用する可能性のある音声指令は、「マスターベッドルームのエアコンを9時にオンにしてください」であり得、この音声指令に関連するすべてのスロットは、「時間スロット」、「意図スロット」、「位置スロット」である。N個のデコーダネットワークにおけるデコーダネットワークAのドメインは、「時間スロット」に対応する。このデコーダネットワークAは「時間スロット」を復号して、「マスターベッドルームのエアコンを9時にオンにしてください」でヒットした「時間スロット」のコンテンツ、すなわち「9時」を取得する。少なくとも1つのデコーダネットワークにおけるデコーダネットワークDのドメインは、「意図スロット」に対応する。このデコーダネットワークDは「意図スロット」を復号し、「マスターベッドルームのエアコンを9時にオンにしてください」でヒットした「意図スロット」のコンテンツ、すなわち「エアコンをオンにする」を取得する。少なくとも1つのデコーダネットワークにおけるデコーダネットワークHのドメインは、「位置スロット」に対応する。このデコーダネットワークHは「位置スロット」を復号し、「マスターベッドルームのエアコンを9時にオンにしてください」でヒットした「位置スロット」のコンテンツ、すなわち「マスターベッドルーム」を取得する。デコーダネットワークAの復号出力、デコーダネットワークD及びデコーダネットワークHの復号出力により、「マスターベッドルームのエアコンを9時にオンにしてください」という入力音声の意味タグを取得する。
【0032】
ここで、このネットワークの訓練方法は、以下のステップ(ステップ201~202)を含む。
【0033】
ステップ201:ターゲット音声サンプルの第1の音声特徴を取得する。
【0034】
本実施形態では、ネットワークの訓練方法の実行主体(例えば、
図1に示すサーバ103)は、ターゲット音声サンプルの第1の音声特徴を取得することができる。ここで、ターゲット音声サンプルは、合成音声サンプルおよび実音声サンプルを含むターゲット音声サンプルのセットにおける音声サンプルであり得、すなわち、このターゲット音声サンプルは、合成音声サンプルまたは実音声サンプルであってもよい。ターゲット音声サンプルのセットにおけるターゲット音声サンプルの場合、上述した実行主体は、ターゲット音声サンプルを初期の意味予測ネットワークの音声サンプルに入力することで、合成音声サンプルまたは実音声サンプルを初期の意味予測ネットワークに入力することができる。あるいは、ターゲット音声サンプルの第1の音声特徴を取得する方法は、従来技術または将来に開発される技術におけるターゲット音声サンプルの第1の音声特徴を取得する方法であってもよく、本出願は、これらに限定されない。例えば、ターゲット音声サンプルの第1の音声特徴を取得する方法は、特徴抽出のためのモジュールまたはネットワークを有する方法によって実現されてもよい。この第1の音声特徴は、ターゲット音声サンプルの音声特性を表すために使用されることが可能である。
【0035】
ここで、ターゲット音声サンプルは合成音声サンプルまたは実音声サンプルであり、合成音声サンプルにはサンプル音節タグとドメインの値を含む意味タグとが付けられ、実意味サンプルにはサンプル音節タグが付けられている。
【0036】
ここで、ターゲット音声サンプルは、合成音声サンプルまたは実音声サンプルであってもよい。この合成音声サンプルは、従来技術または将来に開発される技術における音声合成技術により合成、確定されることができ、本出願は、これらに限定されない。例えば、該音声合成技術は、エンドツーエンド音声合成技術(TTS)または従来のTTSであってもよい。
【0037】
ここで、ドメインの値を含む意味タグは、合成音声サンプルの意味をタグ付けするために使用されることが可能である。この意味タグは、従来技術または将来に開発される技術における意味タグ確定方法に基づいて確定されることができ、本出願は、これらに限定されない。例えば、意味タグ確定方法は、音声サンプルのテキスト表現および構文のキーワードを合成する方法または人手でタグ付けする方法によって実現されることができる。ここで、ドメインの値は、スロットに対応するコンテンツを特徴付けるために使用されることが可能である。例えば、「意図スロット」に対応するコンテンツは「エアコンをオンにする」であり、このドメインの値は「エアコンをオンにする」である。
【0038】
ここで、このサンプル音節タグは、合成音声サンプルのテキスト表現および構文のキーワードにおける各音節をタグ付けするために使用されることができる。合成音声サンプルに付けられているサンプル音節タグは、従来技術または将来に開発される技術における合成音声サンプルに付けられているサンプル音節タグを確定する方法に基づいて確定されることができる。例えば、合成音声サンプルに付けられているサンプル音節タグを確定する方法は、音声サンプルのテキスト表現および構文のキーワードを合成する方法または人手でタグ付けする方法によって実現することができる。
【0039】
ここで、実音声サンプルは、未処理音声サンプルと、未処理音声サンプルを認識して得られたサンプル音節タグと、を含むことができる。ここで、この未処理音声サンプルは、実際に採集された音声サンプルであってもよい。実音声サンプルに付けられているサンプル音節タグは、実音声サンプルの各音節をタグ付けするために使用されることが可能である。実音声サンプルのサンプル音節タグは、従来技術または将来に開発される技術における実音声サンプルのサンプル音節タグを確定する方法に基づいて確定することができる。例えば、音節タグを認識するための音響モデルを用いて実音声サンプルを認識して、実音声サンプルのサンプル音節タグを取得することができる。
【0040】
ステップ202:第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得する。
【0041】
本実施形態では、上記実行主体は、まず、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を取得することができる。そして、上記実行主体は、第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれと音節分類ネットワークとにそれぞれ入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とすることで、第1の音声特徴を用いて初期の意味予測ネットワークと音節分類ネットワークを連携訓練し、訓練済み意味予測ネットワークを取得することができる。
【0042】
本出願の実施形態によって提供されるネットワークの訓練方法は、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて初期の意味予測ネットワークの出力及び音節分類ネットワークの出力への制約として意味タグとサンプル音節タグをそれぞれ採用し、初期の意味予測ネットワークにおけるパラメータを調整することで、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度が向上され、最終的に得られた訓練済み意味予測ネットワークの予測精度が向上されることができる。本明細書では、音声に基づいて音声の意味を解析することができるため、背景技術に記載されたような音声をテキストに変換し、そしてテキストの意味を認識するリソースオーバヘッドを低減することができる。また、本出願は、3段カスケード接続方法における従来の音響復号を行わないので、計算量が低減される。
【0043】
ここで、連携訓練は、意味予測ネットワークを訓練するプロセスで、さらに初期の意味予測ネットワークにおけるパラメータの調整を実現するために音節分類ネットワークを訓練することができる。
【0044】
具体的な例では、連携訓練は、初期の意味予測ネットワークの訓練プロセスと、音節分類ネットワークの訓練プロセスと、を含むことができる。すなわち、初期の意味予測ネットワークの訓練プロセスにおいて、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて初期の意味予測ネットワークの出力及び音節分類ネットワークの出力への制約として意味タグとサンプル音節タグをそれぞれ採用し、初期の意味予測ネットワークにおけるパラメータを調整することで、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度が向上され、最終的に得られた訓練済み意味予測ネットワークの予測精度が向上される。
【0045】
理解を容易にするために、
図3は、連携訓練の概略図を示す。
図3を参照すると、該連携訓練のステップは、以下のステップ(ステップ301~305)を含むことができる。
【0046】
ステップ301:ターゲット音声サンプルの第1の音声特徴を取得する。
【0047】
ステップ302:第1の音声特徴を初期のエンコーダネットワークに入力し、初期のエンコーダネットワークから出力された第1の中間特徴を取得し、第1の中間特徴を音節分類ネットワークに入力し、音節分類ネットワークから出力された予測音節タグを取得する。
【0048】
ステップ303:予測音節タグとサンプル音節タグとの間の差分値が予め設定された終了条件を満たすか否かを判定する。
【0049】
ステップ304:差分値が予め設定された終了条件を満たさない場合、初期の意味予測ネットワークのパラメータを調整し、ステップ302~304を実行する。
【0050】
ステップ305:差分値が予め設定された終了条件を満たす場合、訓練済み意味予測ネットワークを取得する。
【0051】
なお、初期の意味予測ネットワークの訓練プロセスにおける任意の訓練段階で、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることができる。初期の意味予測ネットワークの訓練プロセスには、一般的に、複数のターゲット音声サンプルを入力し、各ターゲット音声サンプルに対してステップ301~304を実行し、複数のターゲット音声サンプルに対応する差分値が予め設定された終了条件を満たすとステップ305を実行することで、訓練済み意味予測ネットワークを取得する。ここで、予め設定された終了条件は、ユーザが意味予測ネットワークに対する予測精度要求に応じて設定することができる。
【0052】
本出願の上述した実施形態によって提供されるネットワークの訓練方法は、初期の意味予測ネットワークの訓練プロセスにおいて、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて、音節タグとサンプル音節タグとの間の差分値が予め設定された終了条件を満たすと予測されたときに、初期の意味予測ネットワークのパラメータの調整を停止することができる。これにより、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度を向上させ、最終的に得られた訓練済み意味予測ネットワークの予測精度を向上させることができる。
【0053】
本出願のいくつかのオプション的な実施形態では、該初期の意味予測ネットワークは、合成音声サンプルをオリジナルの意味予測ネットワークの入力とし、合成音声サンプルに対応する意味タグをオリジナルの意味予測ネットワークの出力とし、オリジナルの意味予測ネットワークを訓練し、初期の意味予測ネットワークを取得するステップにより確定されることが可能である。
【0054】
本実施形態では、上記実行主体は、まず、オリジナルの意味予測ネットワークを作成し、そして、合成音声サンプルをこのオリジナルの意味予測ネットワークに入力し、このオリジナルの意味予測ネットワークの予測出力を取得し、さらに、該オリジナルの意味予測ネットワークの予測出力と合成音声サンプルに対応する意味タグとの間の差分値が予め設定された終了条件を満たさない場合には、合成音声サンプルをパラメータ調整後の意味予測ネットワークに入力して得られた予測出力と合成音声サンプルに対応する意味タグとの間の差分値が予め設定された終了条件を満たすまで、このオリジナルの意味予測ネットワークにおけるパラメータを調整することで、初期の意味予測ネットワークを取得することができる。
【0055】
具体的な例では、合成音声サンプルがi番目の合成音声サンプル(iは正の整数)であると仮定する。i番目の合成音声サンプルをオリジナルの意味予測ネットワークに入力し、i番目の合成音声サンプルに対応する予測出力を取得する。i番目の合成音声サンプルに対応する予測出力とi番目の合成音声サンプルに対応するサンプル音節タグとの間の差分値が予め設定された終了条件を満たさない場合には、オリジナルの意味予測ネットワークにおけるパラメータを調整する。オリジナルの意味予測ネットワークにおけるパラメータを調整するたびに、このi番目の合成音声サンプルを再びパラメータ調整後のオリジナルの意味予測ネットワークに入力し、予測出力を取得する。この予測出力と予め設定された終了条件との間の差分値を再びi番目の合成音声サンプルに対応するサンプル音節タグと比較する。差分値が予め設定された終了条件を満たす場合には、オリジナルの意味予測ネットワークに対するパラメータ調整を停止し、パラメータ調整後の意味予測ネットワークiを取得する。次に、(i+1)番目の合成音声サンプルをパラメータ調整後の意味予測ネットワークiに入力し、(i+1)番目の合成音声サンプルに対応する予測出力と(i+1)番目の合成音声サンプルに対応する意味タグとの間の差分値に基づいて、予め設定された終了条件を満たすか否かを判定する。差分値が予め設定された終了条件を満たさない場合に、この差分値が予め設定された終了条件を満たすまでパラメータ調整後の意味予測ネットワークiを調整する。…N番目(Nは1より大きい正の整数)の合成音声サンプルをパラメータ調整後の意味予測ネットワーク(N-1)に入力し、N番目の合成音声サンプルに対応する予測出力とN番目の合成音声サンプルに対応する意味タグとの間の差分値が予め設定された終了条件を満たすか否かを判定する。差分値が予め設定された終了条件を満たさない場合には、この差分値が予め設定された終了条件を満たすまでパラメータ調整後の意味予測ネットワーク(N-1)を調整し、初期の意味予測ネットワークを取得する。ここで、オリジナルの意味予測ネットワークは、パラメータ調整が行われていない意味予測ネットワークであってもよい。
【0056】
本実施形態では、連携訓練の前に、合成音声サンプルおよび合成音声サンプルに付けられている意味タグを用いてオリジナルの意味予測ネットワークを訓練して、初期の意味予測ネットワークを確定することができる。これにより、連携訓練プロセスにおいて、オリジナルの意味予測ネットワークを介して訓練されて得られた初期の意味予測ネットワークを音節分類ネットワークを用いて補助訓練することで、訓練済み意味予測ネットワークの予測精度を向上させることができる。
【0057】
本出願のいくつかのオプション的な実施形態では、初期の意味予測ネットワークは、マルチチャネル音声増強ネットワークをさらに含むことができる。ステップ201におけるターゲット音声サンプルの第1の音声特徴を取得することは、ターゲット音声サンプルをマルチチャネル音声増強ネットワークに入力し、マルチチャネル音声増強ネットワークから出力されたターゲット音声サンプルの第1の音声特徴を取得することを含むことができる。
【0058】
本実施形態では、意味予測ネットワークがマルチチャネル音声増強ネットワークをさらに含むことができる場合、ターゲット音声サンプルをマルチチャネル音声増強ネットワークに入力することによって、ターゲット音声サンプルの第1の音声特徴を取得することができる。上述したマルチチャネル音声増強ネットワークは、ターゲット音声サンプルの音声特徴を抽出するために使用され得る。
【0059】
本実施形態における意味予測ネットワークはマルチチャネル音声増強ネットワークにおける複合畳み込み層により、特徴の抽出を実現することができる。また、複合全結合層により複合畳み込み層で抽出された特徴を統合することでターゲット音声サンプルにおけるより区分的な音声特徴を取得することができ、さらにターゲット音声サンプルにおける第1の音声特徴を正確に取得することができる。
【0060】
本出願のいくつかのオプション的な実施形態では、エンコーダネットワークは、事前訓練済みエンコーダネットワークである。事前訓練済みエンコーダネットワークは、実音声サンプルの第2の音声特徴を取得するステップと、第2の音声特徴に対して訓練ステップを実行するステップであって、前記訓練ステップは、第2の音声特徴を初期のエンコーダネットワークに入力し、初期のエンコーダネットワークから出力された第2の中間特徴を取得することと、第2の中間特徴を音節分類ネットワークに入力し、音節分類ネットワークから出力された予測音節タグを取得することとを含み、予測音節タグとサンプル音節タグとの間の差分値が予め設定された終了条件を満たさないことに応答して、差分値が予め設定された終了条件を満たすまで初期のエンコーダネットワークのパラメータを調整すると共に訓練ステップの実行にジャンプして、事前訓練済みエンコーダネットワークを取得するステップと、により事前訓練されて得る。
【0061】
本実施形態では、実音声サンプルの第2の音声特徴を取得することは、従来技術または将来に開発される技術における実音声サンプルの第2の音声特徴を取得することであり得る。例えば、特徴抽出機能を有するモジュールまたはネットワークを介して実音声サンプルの第2の音声特徴を取得する。この第2の音声特徴は、実音声サンプルの音声特性を表すことができる。
【0062】
具体的な例では、実音声サンプルの第2の音声特徴がj番目の第2の音声特徴(jは正の整数)であると仮定する。j番目の第2の音声特徴を初期のエンコーダネットワークに入力し、j番目の第2の音声特徴に対応する予測出力を取得する。j番目の第2の音声特徴に対応する予測出力とj番目の第2の音声特徴に対応するサンプル音節タグとの間の差分値が予め設定された終了条件を満たさない場合に、初期のエンコーダネットワークにおけるパラメータを調整する。初期のエンコーダネットワークにおけるパラメータを調整するたびに、このj番目の第2の音声特徴を再びパラメータ調整後のエンコーダネットワークに入力し、予測出力を取得する。この予測出力とj番目の第2の音声特徴に対応するサンプル音節タグとの差分値を再びj番目の第2の音声特徴に対応するサンプル音節タグと比較する。差分値が予め設定された終了条件を満たす場合には、初期のエンコーダネットワークに対するパラメータ調整を停止し、パラメータ調整後のエンコーダネットワークjを取得する。次に、(j+1)番目の第2の音声特徴をパラメータ調整後のエンコーダネットワークjに入力し、(j+1)番目の第2の音声特徴に対応する予測出力と(j+1)番目の第2の音声特徴に対応するサンプル音節タグとの間の差分値に基づいて、予め設定された終了条件を満たすか否かを判定する。差分値が予め設定された終了条件を満たさない場合には、パラメータ調整後のエンコーダネットワークjにおけるパラメータを調整する。この差分値が予め設定された終了条件を満たすとき、パラメータ調整後のエンコーダネットワーク(j+1)が得られる。…,M番目(Mは1より大きい正の整数)の第2の音声特徴をパラメータ調整後のエンコーダネットワーク(M-1)に入力し、M番目の第2の音声特徴に対応する予測出力とM番目の第2の音声特徴に対応するサンプル音節タグとの間の差分値に基づいて、予め設定された終了条件を満たすか否かを判定する。差分値が予め設定された終了条件を満たさない場合には、この差分値が予め設定された終了条件を満たすまでパラメータ調整後のエンコーダネットワーク(M-1)におけるパラメータを調整し、事前訓練済みエンコーダネットワークを取得する。
【0063】
理解を容易にするために、
図4は、事前訓練済みエンコーダネットワークを訓練するフローチャートを示す。
図4に示すように、事前訓練済みエンコーダネットワークを訓練するステップは、以下のステップ(ステップ401~405)を含むことができる。
【0064】
ステップ401:実音声サンプルの第2の音声特徴を取得する。
【0065】
ステップ402:第2の音声特徴を初期のエンコーダネットワークに入力し、初期のエンコーダネットワークから出力された第2の中間特徴を取得し、第2の中間特徴を音節分類ネットワークに入力し、音節分類ネットワークから出力された予測音節タグを取得する。
【0066】
ステップ403:予測音節タグとサンプル音節タグとの間の差分値が予め設定された終了条件を満たすか否かを判定する。
【0067】
ステップ404:差分値が予め設定された終了条件を満たさない場合、初期のエンコーダネットワークのパラメータを調整し、ステップ402~404を実行する。
【0068】
ステップ405:差分値が予め設定された終了条件を満たし、事前訓練済みエンコーダネットワークを取得する。
【0069】
なお、事前訓練プロセスには、一般に、複数の実音声サンプルの第2の音声特徴が入力される場合があり、各実音声サンプルの第2の音声特徴についてステップ401~404を実行する必要があり、複数の実音声サンプルの第2の音声特徴に対応する差分値がすべて予め設定された終了条件を満たすとステップ405を実行し、事前訓練済みエンコーダネットワークを取得する。
【0070】
本実施形態では、連携訓練の前に、エンコーダネットワークの特徴抽出精度を向上させるためにエンコーダネットワークを事前訓練してもよい。
【0071】
本出願のいくつかのオプション的な実施形態では、ステップ201における各デコーダネットワークは、順次直列に接続されたアテンションメカニズム層、全結合層、およびソフトマックス層を含む。
【0072】
本実施形態では、アテンションメカニズム層は、エンコーダネットワークから出力された中間特徴を重み付け、次元低減処理し、アテンションメカニズム層から出力された複数の異なる重みを有する特徴を取得する。複数の異なる重みを有する特徴をそれぞれ全結合層を介してソフトマックス層に入力して出力特徴を取得し、該全結合層は各ニューロンがアテンションメカニズム層のすべてのニューロンと全結合され、異なる重みを有する複数の特徴を結合できる。さらに、ソフトマックス層は、この出力特徴が属する分類結果を出力する。
【0073】
なお、デコーダネットワークにおけるアテンションメカニズム層とデコーダネットワークにおけるアテンションメカニズム層とに対応する重みは、異なっていても良い。
【0074】
本実施形態における少なくとも1つのデコーダネットワークは、ターゲット音声サンプルの第1の音声特徴をそれぞれ、少なくとも1つのデコーダネットワークのそれぞれに含まれるアテンションメカニズム層、全結合層を介してこのデコーダネットワークのソフトマックス層に入力することで、第1の音声特徴の正確な出力(すなわち、予測意味タグ)を実現することができ、予測意味タグと意味タグとの間の差分値がより正確になる。したがって、初期の意味予測ネットワークを訓練するプロセスにおいて、この差分値に基づいて初期の意味予測ネットワークのパラメータを正確に調整することができるため、意味予測ネットワークの予測精度が向上される。
【0075】
本出願のいくつかのオプション的な実施形態では、ステップ202における音節分類ネットワークは、全結合層と、ソフトマックス層と、を含むことができる。
【0076】
本実施形態では、この音節分類ネットワークに含まれる全結合層は、エンコーダネットワークから出力された中間特徴におけるカテゴリ区分性を持つ局所情報を統合し、区分的な区別音声特徴を取得し、実音声サンプルに対する正確な学習を実現することができるため、連携訓練プロセスにおいてこの音節分類ネットワークを用いて初期の意味予測ネットワークを補助訓練することで、意味予測ネットワークの予測精度を向上させることができる。
【0077】
本出願のいくつかのオプション的な実施形態では、ステップ201における合成音声サンプルは、ターゲットシーンに対するテキスト表現と構文を取得するステップと、ターゲットシーンに対するテキスト表現と構文を音声合成して、ターゲットシーンに対する音声信号を取得するステップと、ターゲットシーンに対するテキスト表現と構文のキーワードに基づいて、ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとを確定するステップと、ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとが付けられているターゲットシーンに対する音声信号を、合成音声サンプルとするステップと、により確定される。
【0078】
本実施形態では、まず、ターゲットシーンに対するテキスト表現と構文を取得する。そして、ターゲットシーンに対するテキスト表現と構文を音声合成して、ターゲットシーンに対する音声信号を取得する。次に、ターゲットシーンに対するテキスト表現と構文のキーワードに基づいて、ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとを確定する。最後に、ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとが付けられているターゲットシーンに対する音声信号を、合成音声サンプルとすることができる。
【0079】
ここで、「ターゲットシーンに対するテキスト表現と構文を取得する」ターゲットシーンは、予測すべき音声の使用シーンであり得る。あるいは、「ターゲットシーンに対するテキスト表現と構文を取得する」ことは、上述した実行主体からローカルまたは遠隔に取得することであり得る。ターゲットシーンに対するテキスト表現と構文を音声合成することで、ターゲットシーンに対する音声信号を取得することができる。音声合成を行う方法は、エンドツーエンド音声合成技術または従来の音声合成技術のような従来技術または将来に開発される技術を採用する方法であり得る。
【0080】
本実施形態では、ターゲットシーンに対する表現と構文を合成することで、ターゲットシーンに対する音声信号を取得する。そして、ターゲットシーンに対するテキスト表現と構文のキーワードとに基づいて、ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとを確定する。さらに、ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとが付けられているターゲットシーンに対する音声信号を合成音声サンプルとすることで、合成音声サンプルの精度を向上させることができる。連携訓練プロセスでは、この合成音声サンプルを訓練サンプルとすることで、意味予測ネットワークの予測精度を向上させることができる。
【0081】
図5を参照すると、
図5は、本出願の一実施形態による連携訓練を行う意味予測ネットワークおよび音節分類ネットワークの例示的な構成図を示す。
【0082】
図5に示すように、
図5は、マルチチャネル音声増強ネットワーク501と、事前訓練済みエンコーダネットワーク502と、デコーダネットワーク5031~503Nと、音節分類ネットワーク505と、を含む。
【0083】
マルチチャネル音声増強ネットワーク501は、複合畳み込み層5011と、複合全結合層5012とを備え得る。複数のチャネルの実音声サンプルを複合畳み込み層5011に入力し、実音声サンプルの音声特徴を取得する。実音声サンプルの音声特徴を複合全結合層5012に入力し、該複合全結合層5012における各ニューロンが複合畳み込み層5011のすべてのニューロンと全結合され、該複合全結合層5012は複合畳み込み層5011におけるカテゴリ区分性を持つ局所情報を統合し、実音声サンプルの特徴をよりよく特徴付けられる音声特徴を取得できる。
【0084】
エンコーダネットワーク502は、畳み込み層5021と、長・短期記憶ネットワーク層5022と、長・短期記憶ネットワーク層5023と、を備え得る。ターゲット音声サンプルの第1の音声特徴を畳み込み層5021に入力し、畳み込み層5021から出力された音声特徴を取得する。畳み込み層5021から出力された音声特徴に対して、それぞれ長・短期記憶ネットワーク層5022および長・短期記憶ネットワーク層5023を介して特徴を抽出する。ここで、長・短期記憶ネットワーク層5022および長・短期記憶ネットワーク層5023は、それぞれ過去に抽出された特徴を用いて今回の抽出される特徴の決定を支援することで、長・短期記憶ネットワーク層5023から出力された中間特徴、すなわち事前訓練済みエンコーダネットワークから出力された中間特徴を取得する。なお、長・短期記憶ネットワーク層の数は、意味予測ネットワークの予測精度、応用シーン、および当業者の経験から決定することができる。
【0085】
デコーダネットワーク5031~503N(Nは正の整数)のうちの各デコーダネットワークは、例えば、デコーダネットワーク5031は、アテンションメカニズム層50311と、全結合層50312と、ソフトマックス層50313と、を備え得る。ここで、アテンションメカニズム層50311は、プーリング機能を備えていてもよい。デコーダネットワーク503Nは、アテンションメカニズム層503N1と、全結合層503N2と、ソフトマックス層503N3と、を含む。
【0086】
以下、デコーダネットワーク5031を例に示す。アテンションメカニズム層50311は、エンコーダネットワーク502から出力された中間特徴を重み付け、次元削減処理を行い、アテンションメカニズム層50311から出力された複数の異なる重みを有する特徴を取得する。複数の異なる重みを有する特徴をそれぞれ全結合層50312を介してソフトマックス層50313に入力して出力特徴を取得し、該全結合層50312における各ニューロンがアテンションメカニズム層のすべてのニューロンと全結合され、該全結合層50312は、異なる重みを有する複数の特徴を結合できる。さらに、ソフトマックス層50313は、この出力特徴が所属する分類結果を出力する。なお、デコーダネットワーク5031におけるアテンションメカニズム層50311とデコーダネットワーク503Nにおけるアテンションメカニズム層503N1とに対応する重みは、異なっていてもよい。
【0087】
音節分類ネットワーク504は、全結合層5041と、ソフトマックス層5042と、を備え得る。エンコーダネットワーク502の出力特徴をそれぞれ全結合層5041およびソフトマックス層5042に入力し、該全結合層5041における各ニューロンがエンコーダ502ネットワーク内の長・短期記憶ネットワーク層5023のすべてのニューロンと全結合され、該全結合層5041は長・短期記憶ネットワーク層5023から出力された中間特徴におけるカテゴリ区分性を持つ局所情報を統合し、実音声サンプルの特徴をよりよく特徴付けられる音声特徴を取得できる。さらに、該ソフトマックス層5042は、実音声サンプルの特徴をよりよく特徴付けられる分類結果を出力する。
【0088】
エンコーダネットワークの事前訓練が完了した後、音節分類ネットワークにおける全結合層およびソフトマックス層を切り出し、次いで、エンコーダネットワークを少なくとも1つのデコーダネットワークとスティッチングして、初期の意味予測ネットワークを取得することができる。
【0089】
上述した
図5に示す例示的な構成図は、上述した実施形態における意味予測ネットワークの方法を用いて、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得した。このプロセスでは、背景技術に記載した3段カスケード接続方法を用いた音声認識技術と比較すると、本出願では、初期の意味予測ネットワークの訓練プロセスにおいて、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて初期の意味予測ネットワークの出力および音節分類ネットワークの出力への制約として意味タグとサンプル音節タグをそれぞれ採用し、初期の意味予測ネットワークにおけるパラメータを調整することで、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度を向上させ、最終的に得られた訓練済み意味予測ネットワークの予測精度を向上させることができる。本出願では、音声に基づいて音声の意味を解析することができるため、背景技術に記載した音声をテキストに変換してテキストの意味を認識する際のリソースオーバヘッドを低減することができる。また、本出願は、3段カスケード接続方法による従来の音響復号を行わないので、計算量を低減することができる。
【0090】
さらに
図6を参照すると、
図6は意味認識方法の一実施形態のフローチャート600を示す。この意味認識方法は、以下のステップ(ステップ601~602)を含む。
【0091】
ステップ601:認識すべき音声信号を取得する。
【0092】
本実施形態では、意味認識方法の実行主体は、例えば、
図1のクライアント101またはサーバ103である。
【0093】
ステップ602:認識すべき音声信号を訓練済み意味予測ネットワークに入力し、認識すべき音声信号の意味タグを取得する。
【0094】
本出願の上述した実施形態によって提供される意味認識方法は、意味予測ネットワークを介して、認識すべき音声信号の意味タグを正確に特定することができる。
【0095】
さらに
図7を参照すると、本出願は、上述した各図に示す方法の実装として、様々な電子機器に具体的に適用可能なネットワークの訓練装置の一実施形態を提供する。この装置の実施形態は、
図2に示す方法の実施形態に対応する。
【0096】
図7に示すように、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含む。本実施形態のネットワークの訓練装置700は、ターゲット音声サンプルの第1の音声特徴を取得するように構成されたサンプル取得モジュール701であって、ターゲット音声サンプルは合成音声サンプルまたは実音声サンプルであり、合成音声サンプルにはサンプル音節タグとドメインの値を含む意味タグとが付けられ、実音声サンプルにはサンプル音節タグが付けられている取得モジュール701と、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得するように構成された連携訓練モジュール702と、を含む。
【0097】
本実施形態では、ネットワークの訓練装置700におけるサンプル取得モジュール701と連携訓練モジュール702の具体的な処理およびそれによってもたらされる技術的効果は、それぞれ
図2に対応する実施形態におけるステップ201~202の関連説明を参照することができる。本明細書ではこれ以上説明しない。
【0098】
本実施形態のいくつかのオプション的な実施形態では、ネットワークの訓練装置700は、合成音声サンプルをオリジナルの意味予測ネットワークの入力とし、合成音声サンプルに対応する意味タグをオリジナルの意味予測ネットワークの出力とし、オリジナルの意味予測ネットワークを訓練して初期の意味予測ネットワークを取得するように構成された意味訓練モジュール(図示せず)をさらに含む。
【0099】
本実施形態のいくつかのオプション的な実施形態では、初期の意味予測ネットワークは、マルチチャネル音声増強ネットワークをさらに含み、サンプル取得モジュール701はさらに、ターゲット音声サンプルをマルチチャネル音声増強ネットワークに入力し、マルチチャネル音声増強ネットワークから出力されたターゲット音声サンプルの第1の音声特徴を取得するように構成される。
【0100】
本実施形態のいくつかのオプション的な実施形態では、エンコーダネットワークは、事前訓練済みエンコーダネットワークであり、ネットワークの訓練装置700は、実音声サンプルの第2の音声特徴を取得するように構成された特徴取得モジュール(図示せず)と、
第2の音声特徴に対して、訓練ステップを実行するように構成された事前訓練モジュールであって、前記訓練ステップは、第2の音声特徴を初期のエンコーダネットワークに入力し、初期のエンコーダネットワークから出力された第2の中間特徴を取得することと、第2の中間特徴を音節分類ネットワークに入力し、音節分類ネットワークから出力された予測音節タグを取得することと、を含み、予測音節タグとサンプル音節タグとの間の差分値が予め設定された終了条件を満たさないことに応答して、差分値が予め設定された終了条件を満たすまで初期のエンコーダネットワークのパラメータを調整して訓練ステップの実行にジャンプし、最終的に事前訓練済みエンコーダネットワークを取得する事前訓練モジュール(図示せず)と、をさらに含む。
【0101】
本実施形態のいくつかのオプション的な実施形態では、各デコーダネットワークは、順次直列に接続されたアテンションメカニズム層、全結合層、およびソフトマックス層を含む。
【0102】
本実施形態のいくつかのオプション的な実施形態では、音節分類ネットワークは、全結合層と、ソフトマックス層と、を含む。
【0103】
本実施形態のいくつかのオプション的な実施形態では、ネットワークの訓練装置700は、ターゲットシーンに対するテキスト表現と構文を取得するように構成されたテキスト取得モジュール(図示せず)と、ターゲットシーンに対するテキスト表現と構文に対して音声合成を行い、ターゲットシーンに対する音声信号を取得するように構成された音声合成モジュール(図示せず)と、ターゲットシーンに対するテキスト表現と構文のキーワードに基づいて、ターゲットシーンに対する音声信号のサンプル音節タグと、ドメインの値を含む意味タグとを確定するように構成されたタグ確定モジュール(図示せず)と、ターゲットシーンに対する音声信号のサンプル音節タグとドメインの値を含む意味タグとが付けられたターゲットシーンに対する音声信号を合成音声サンプルとするように構成された合成音声サンプル確定モジュール(図示せず)と、をさらに含む。
【0104】
さらに
図8を参照すると、本出願は、上述した各図に示す方法の実装として、様々な電子機器に具体的に適用可能な意味認識装置の一実施形態を提供する。この装置の実施形態は、
図6に示す方法の実施形態に対応する。
【0105】
図8に示すように、本実施形態の意味認識装置800は、認識すべき音声信号を取得するように構成された音声取得モジュール801と、
図2に示す方法を用いて訓練された訓練済み意味予測ネットワークに認識すべき音声信号を入力し、認識すべき音声信号の意味タグを取得するように構成されたタグ予測モジュール802と、を備え得る。
【0106】
本実施形態では、意味認識装置800における音声取得モジュール801とタグ予測モジュール802の具体的な処理およびそれによってもたらされる技術的効果は、それぞれ
図6に対応する実施形態におけるステップ601~602の関連説明を参照することができる。本明細書ではこれ以上説明しない。
【0107】
図9をさらに参照すると、本出願は、チップを設置する1つの応用シーンの一実施形態を提供する。
図9に示すように、このチップを設置する応用シーンは、クライアント901と、クライアント901に設置されたチップ9011と、を備え得る。
【0108】
訓練済み意味予測ネットワークを介して意味タグを予測する段階では、クライアント901は認識すべき音声信号を取得することができ、チップ9011は訓練済み意味予測ネットワークを介して、クライアント901で取得された認識すべき音声信号を予測して、認識すべき音声信号の意味タグを取得することができる。
【0109】
なお、意味予測ネットワークを介して認識すべき音声信号の意味タグを予測する前に、訓練済み意味予測ネットワークをチップ9011にデプロイすることも可能である。あるいは、サーバ103が訓練済み意味予測ネットワークをチップ9011にデプロイする方法は、従来技術または将来に開発される技術におけるデプロイ方法であってもよい。
【0110】
本実施形態では、クライアントに設置されたチップは、チップにおける訓練済み意味予測ネットワークの予測精度が高いため、オフライン状態で認識すべき音声情報の意味タグを認識する精度を向上させることができる。さらに、チップにデプロイされた訓練済み意味予測ネットワークのボリュームが小さいため、意味予測のハードウェア損失を低減し、予測プロセスにおけるリソースオーバヘッドを低減することができる。
【0111】
本出願の実施形態によれば、本出願はまた、電子機器および可読記憶媒体を提供する。
【0112】
図10は、本出願の実施形態のネットワークの訓練方法または意味認識方法を実装するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示すコンポーネント、それらの接続および関係、ならびにそれらの機能は、例示的なものに過ぎず、本明細書に記載されたおよび/または要求される本出願の実装を限定することが意図されていない。
【0113】
図10に示すように、該電子機器は、1つまたは複数のプロセッサ1001と、メモリ1002と、高速インターフェースおよび低速インターフェースを含む各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にGUIのグラフィック情報を表示するために、メモリ内またはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリと共に使用されることが可能である。同様に、複数の電子機器を接続することができる。各機器は一部の必要な動作(例えば、サーバアレイ、ブレードサーバのセットまたはマルチプロセッサシステムとして)を行うことができる。
図10では、1つのプロセッサ1001を例に挙げている。
【0114】
メモリ1002は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。前記メモリは、本出願によって提供されるネットワークの訓練方法または意味認識方法を少なくとも1つのプロセッサに実行させるために、少なくとも1つのプロセッサによって実行可能な指令を格納する。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供されるネットワークの訓練方法または意味認識方法をコンピュータに実行させるためのコンピュータ指令を格納する。
【0115】
メモリ1002は非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本出願の実施形態におけるネットワークの訓練方法または意味認識方法に対応するプログラム指令/モジュール(例えば、
図7に示すサンプル取得モジュール701および連携訓練モジュール702、または
図8に示す音声取得モジュール801およびタグ予測モジュール802)のようなモジュールを格納するために使用されることができる。プロセッサ1001は、メモリ1002に格納された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理、すなわち、上述した方法の実施形態におけるネットワークの訓練方法または意味認識方法を実行する。
【0116】
メモリ1002は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを格納することができるプログラム記憶領域およびネットワークの訓練方法または意味認識方法を実行する電子機器の使用に基づいて作成されたデータなどを格納することができるデータ記憶領域を備え得る。さらに、メモリ1002は、高速ランダムアクセスメモリを備えていてもよいし、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを備えてもよい。いくつかの実施形態では、メモリ1002は、あるいは、プロセッサ1001に対して遠隔設定されたメモリを含み、これらの遠隔メモリは、ネットワークの訓練方法または意味認識方法を実行する電子機器にネットワークを介して接続されることが可能である。上述したネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。
【0117】
ネットワークの訓練方法または意味認識方法を実行する電子機器は、入力装置1003と、出力装置1004と、をさらに備えてもよい。プロセッサ1001、メモリ1002、入力装置1003、および出力装置1004は、バスまたは他の方式で接続されることができる。
図10ではバスを介して接続されることを例にする。
【0118】
入力装置1003は、入力された数字または文字情報を受信し、ネットワークの訓練方法または意味認識方法を実行する電子機器のユーザ設定および機能制御に関するキー信号の入力を生成し、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置1004は、表示装置、補助照明デバイス(例えば、LED)、および触覚フィードバックデバイス(例えば、振動モータ)などを備えてもよい。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを備えてもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであることが可能である。
【0119】
本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組み合わせにおいて実装されることができる。これらの様々な実施形態は、専用または汎用プログラマブルプロセッサであってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる1つまたは複数のコンピュータプログラム内において実装され、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信し、かつデータおよび指令を該記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置に送信することができる実施形態を備え得る。
【0120】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高度なプロセスおよび/またはオブジェクト指向プログラミング言語および/またはアセンブリ言語/機械語を使用して実装されることができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0121】
ユーザとのインタラクションを提供するために、本出願に記載されたシステムおよび技術をコンピュータ上で実装することができる。前記コンピュータは、ユーザに情報を表示するための表示デバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、該キーボードおよび該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信されることが可能である。
【0122】
本出願に記載されたシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ(ユーザは、該グラフィカルユーザインターフェースまたは該ウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態とインタラクションをすることができる))、または上記バックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実装されることができる。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)およびインターネットを含む。
【0123】
コンピューティングシステムは、クライアントおよびサーバを備えていてもよい。クライアントおよびサーバは一般的に互いに離れており、一般的に通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、互いにクライアント-サーバ関係を有するコンピュータプログラムを対応するコンピュータ上で動作することによって生成される。
【0124】
本出願の実施形態によって提供されるネットワークの訓練方法、装置、機器、および記憶媒体によれば、初期の意味予測ネットワークは、畳み込み層および長・短期記憶ネットワーク層を含むエンコーダネットワークと、それぞれがシーン指令におけるスロットに対応するドメインに対応する少なくとも1つのデコーダネットワークと、を含む。まず、ターゲット音声サンプルの第1の音声特徴を取得し、ターゲット音声サンプルは合成音声サンプルまたは実音声サンプルであり、合成音声サンプルにはサンプル音節タグと、ドメインの値を含む意味タグとが付けられ、実音声サンプルにはサンプル音節タグが付けられている。そして、第1の音声特徴を畳み込み層に入力し、畳み込み層の出力特徴を長・短期記憶ネットワーク層に入力し、長・短期記憶ネットワーク層から出力された第1の中間特徴を少なくとも1つのデコーダネットワークのそれぞれに入力し、第1の音声特徴に対応する意味タグを少なくとも1つのデコーダネットワークの出力とし、第1の中間特徴を音節分類ネットワークの入力とし、第1の音声特徴に対応するサンプル音節タグを音節分類ネットワークの出力とし、初期の意味予測ネットワークと音節分類ネットワークとを連携訓練して、訓練済み意味予測ネットワークを取得する。このプロセスでは、背景技術に記載した3段カスケード接続方法を用いた音声認識技術と比較すると、本出願では、初期の意味予測ネットワークの訓練プロセスにおいて、エンコーダネットワークの出力側に音節分類ネットワークの訓練を加えることで、連携訓練プロセスにおいて初期の意味予測ネットワークの出力および音節分類ネットワークの出力への制約として意味タグとサンプル音節タグをそれぞれ採用し、初期の意味予測ネットワークにおけるパラメータを調整することで、エンコーダから出力された中間特徴が意味予測ネットワークと音節分類ネットワークの訓練精度を満たすようにすることができるため、組み合わせ訓練サンプルを用いてエンコーダから出力された中間特徴の精度を向上させ、最終的に得られる訓練済み意味予測ネットワークの予測精度を向上させることができる。本明細書では、音声に基づいて音声の意味を解析することができるため、背景技術に記載した音声をテキストに変換してテキストの意味を認識するリソースオーバヘッドを低減することができる。また、本出願は、3段カスケード接続方法による従来の音響復号を行わないので、計算量を低減することができる。
【0125】
人工知能はコンピュータが人間の一部の思考プロセスと知能行為(例えば、学習、推論、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能のハードウェア技術は一般的にセンサ、特定用途向け人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然音声処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識マップ技術などのいくつかの方向を含む。
【0126】
上述した様々な形態のプロセスを使用して、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよい。本出願の技術が所望する技術効果を達成できるものであればよく、ここでは特に限定しない。
【0127】
上述した具体的な実施形態は、本出願の保護範囲を制限するものを構成していない。当業者であれば、設計要求および他の要因に応じて様々な修正、組み合わせ、サブ組み合わせおよび代替を行うことができると認識できるだろう。本出願の趣旨および原則内で行われる任意の修正、同等の置換および改善などはすべて本出願の保護範囲内に含まれるものとする。