(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-27
(45)【発行日】2023-12-05
(54)【発明の名称】意味理解モデルのトレーニング方法、装置、電子デバイスおよびコンピュータプログラム
(51)【国際特許分類】
G06F 40/30 20200101AFI20231128BHJP
G06F 40/216 20200101ALI20231128BHJP
【FI】
G06F40/30
G06F40/216
(21)【出願番号】P 2022517929
(86)(22)【出願日】2020-09-17
(86)【国際出願番号】 CN2020115755
(87)【国際公開番号】W WO2021082786
(87)【国際公開日】2021-05-06
【審査請求日】2022-03-18
(31)【優先権主張番号】201911047037.9
(32)【優先日】2019-10-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】袁 ▲剛▼
(72)【発明者】
【氏名】▲趙▼ 学▲敏▼
【審査官】成瀬 博之
(56)【参考文献】
【文献】今村賢治 他1名,事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳,情報処理学会研究報告 自然言語処理(NL)[online],日本,2019年08月22日,Vol.2019-NL-241 No.1,1-8頁
【文献】Alvaro Peris 他1名,Active Learning for Interactive Neural Machine Translation of Data Streams,Proceedings of the 22nd Conference on Computational Natural Language Learning(CoNLL 2018),2018年10月31日,151-160頁,[2023年04月11日検索],インターネット<URL:https://aclanthology.org/K18-1015.pdf>
【文献】高島遼一 他3名,非同期スマートデバイスを用いた雑音に頑健な音声翻訳アプリケーションの検討,情報処理学会研究報告 音楽情報科学(MUS)[online],日本,2016年05月14日,Vol.2016-MUS-111 No.54,1-5頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 3/00-99/00
G10L 13/00-17/26
(57)【特許請求の範囲】
【請求項1】
電子デバイスが実行する意味理解モデル
のトレーニング方法であって、
前記意味理解モデルは意味表示層ネットワークおよびタスク関連出力層ネットワークを含み、前記意味表示層ネットワークは、複数のエンコーダと複数のデコーダを備える双方向注意力ニューラルネットワークモデルであり、
第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであ
り、前記能動学習は、前記意味理解モデルにとって情報量が最も大きいサンプルデータを選択してラベル付けして学習させるものである、ステップと、
前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップ
であって、前記ノイズは、ドメイン無関係コーパスを含み、
前記意味理解モデルに対応する固定ノイズ閾値を決定するステップと、
前記固定ノイズ閾値に基づいて前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、前記固定ノイズ閾値にマッチングする第2のトレーニングサンプルセットを形成するステップと
を含む、ステップと、
前記意味理解モデルによって
、前記第2のトレーニングサンプルセット
を用いて前記意味理解モデルの初期パラメータを決定するステップと、
前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップ
であって、
前記第2のトレーニングサンプルセットにおける異なる語句サンプルを、前記意味理解モデルのドメイン無関係検出器ネットワークとドメイン分類ネットワークとによって構成されるタスク関連出力層ネットワークに対応する損失関数に代入するステップであって、前記ドメイン無関係検出器は、前記異なる語句サンプルがOOD(Out of Domain)であるかIND(In Domain)であるかを判定するために使用され、前記ドメイン分類ネットワークは、前記異なる語句サンプルが前記INDにおけるどのドメインであるかを判定するために使用される、ステップと、
前記損失関数が対応する収束条件を満たした場合、前記意味理解モデルにおける対応するドメイン無関係検出器ネットワークパラメータおよび対応するドメイン分類ネットワークパラメータを前記意味理解モデルの更新パラメータとして決定するステップと
を含む、ステップと、
前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの
前記複数のエンコーダを用いて、前記意味表示層ネットワーク
のパラメータおよび
前記タスク関連出力層ネットワーク
のパラメータに対して反復更新を行うステップと
を含むことを特徴とする方法。
【請求項2】
前記
反復更新を行うステップは、
前記
更新パラメータによって更新された前記意味理解モデル
を使用して、前記第2のトレーニングサンプルセットにマッチングする第2のノイズパラメータを決定するステップであって、前記第2のノイズパラメータが、前記第2のトレーニングサンプルセットにおける並列語句サンプルのノイズ値を特徴付けるために設定されるステップと、
前記第2のノイズパラメータが対応するノイズ値の閾値に達した場合、前記意味理解モデルのドメイン無関係検出器ネットワークおよびドメイン分類ネットワークによって構成されるタスク関連出力層ネットワークに対応する損失関数が対応する収束条件を満たすまで、前記第2のノイズパラメータのノイズ値に基づいて、前記意味理解モデルの
前記複数のエンコーダを用いて、前記意味表示層ネットワーク
の前記パラメータおよび
前記タスク関連出力層ネットワーク
の前記パラメータに対して反復更新を行うステップと
を含むことを特徴とする請求項
1に記載の方法。
【請求項3】
前記意味理解モデルのドメイン無関係検出器ネットワークおよびドメイン分類ネットワークによって構成されるタスク関連出力層ネットワークに対応する損失関数に
基づいて前記意味理解モデルの意味表示層ネットワークに対してパラメータ調整を行うステップを
さらに含むことを特徴とする請求項
1に記載の方法。
【請求項4】
前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成するステップであって、
前記意味理解モデルのドメイン分類ネットワークにおける出力対象となる語句をランダムに組み合わせることで、前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成するステップ、または、
前記意味理解モデルのドメイン分類ネットワークにおける出力対象となる語句に対してランダムな削除処理または置換処理を行うことで、前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成するステップ、
を含み、
前記ネガティブサンプルセットが、前記意味理解モデルのドメイン無関係検出器ネットワークパラメータおよびドメイン分類ネットワークパラメータを調整するように構成される
、
ステップと、
前記ネガティブサンプルセットに基づいて
前記意味理解モデルの意味理解結果を評価するための監視パラメータとして
使用するステップと
を含むことを特徴とする請求項1に記載の方法。
【請求項5】
データソースにおけるトレーニングサンプルに対してリコール処理を行うステップと、
前記リコール処理の結果に基づいて、対応する能動学習プロセスをトリガーすることで、前記データソースにおけるノイズ付きの語句サンプルを取得することを実現するステップと、
前記能動学習プロセスにおいて取得されたノイズ付きの語句サンプルをラベル付けることで、前記第1のトレーニングサンプルセットを形成するステップと
をさらに含むことを特徴とする請求項1に記載の方法。
【請求項6】
電子デバイスが実行する意味理解モデル意味処理方法であって、
音声命令の情報を取得して、前記音声命令を対応する識別可能なテキスト情報に変換するステップと、
意味理解モデルの意味表示層ネットワークによって、識別可能なテキスト情報に対応する少なくとも1つの単語レベルの隠れ変数を決定するステップと、
前記意味理解モデルのドメイン無関係検出器ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数にマッチングする
少なくとも1つの単語を決定するステップと、
前記意味理解モデルのドメイン分類ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数に対応するタスクドメインを決定するステップと、
前記単語レベルの隠れ変数にマッチングする
少なくとも1つの単語と、前記単語レベルの隠れ変数に対応するタスクドメインとに基づいて、対応する業務プロセスをトリガーすることで、前記音声命令の情報に対応するタスクの完成を実現するステップと
を含み、
前記意味理解モデルは、請求項1から
5のいずれか一項に記載の方法に基づいてトレーニングされて得られる、
ことを特徴とする方法。
【請求項7】
データソースにおける車載環境にマッチングする意味理解モデルに対応するトレーニングサンプルに対してリコール処理を行うステップと、
前記リコール処理の結果に基づいて、対応する能動学習プロセスをトリガーすることで、前記データソースにおける前記車載環境にマッチングする意味理解モデルに対応するノイズ付きの語句サンプルを取得することを実現するステップと、
前記能動学習プロセスにおいて取得されたノイズ付きの語句サンプルをラベル付けることで、前記第1のトレーニングサンプルセットを形成するステップであって、前記第1のトレーニングサンプルセットには、少なくとも1つのラベル付けられた、前記車載環境にマッチングする意味理解モデルに対応するノイズ付きの語句サンプルが含まれるステップと
を含むことを特徴とする請求項
6に記載の方法。
【請求項8】
意味理解モデル
のトレーニング装置であって、
前記意味理解モデルは意味表示層ネットワークおよびタスク関連出力層ネットワークを含み、前記意味表示層ネットワークは、複数のエンコーダと複数のデコーダを備える双方向注意力ニューラルネットワークモデルであり、
能動学習プロセスによって取得されたノイズ付きの語句サンプルである第1のトレーニングサンプルセットを取得するように構成されるデータ伝送モジュール
であって、前記能動学習は、前記意味理解モデルにとって情報量が最も大きいサンプルデータを選択してラベル付けして学習させるものである、データ伝送モジュールと、
前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するように構成されるノイズ除去モジュール
であって、前記ノイズは、ドメイン無関係コーパスを含み、
前記意味理解モデルに対応する固定ノイズ閾値を決定することと、
前記固定ノイズ閾値に基づいて前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、前記固定ノイズ閾値にマッチングする第2のトレーニングサンプルセットを形成することと
を行うように構成される、ノイズ除去モジュールと、
前記意味理解モデルによって
、前記第2のトレーニングサンプルセット
を用いて前記意味理解モデルの初期パラメータを決定するように構成される意味理解モデルトレーニングモジュールと
を含み、
前記意味理解モデルトレーニングモジュールは、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定する
ことであって、
前記第2のトレーニングサンプルセットにおける異なる語句サンプルを、前記意味理解モデルのドメイン無関係検出器ネットワークとドメイン分類ネットワークとによって構成されるタスク関連出力層ネットワークに対応する損失関数に代入することと、
前記損失関数が対応する収束条件を満たした場合、前記意味理解モデルにおける対応するドメイン無関係検出器ネットワークパラメータおよび対応するドメイン分類ネットワークパラメータを前記意味理解モデルの更新パラメータとして決定することと
を行うように構成され、
前記ドメイン無関係検出器は、前記異なる語句サンプルがOOD(Out of Domain)であるかIND(In Domain)であるかを判定するために使用され、前記ドメイン分類ネットワークは、前記異なる語句サンプルが前記INDにおけるどのドメインであるかを判定するために使用され、
前記意味理解モデルトレーニングモジュールは、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの
前記複数のエンコーダを用いて、前記意味表示層ネットワーク
のパラメータおよび
前記タスク関連出力層ネットワーク
のパラメータに対して反復更新を行うように構成される、
ことを特徴とする装置。
【請求項9】
電子デバイスであって、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されている実行可能な命令を実行するとき、請求項1から
5のいずれか一項に記載の意味理解モデルトレーニング方法を実現するように構成されるプロセッサと
を含むことを特徴とする電子デバイス。
【請求項10】
電子デバイスであって、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されている実行可能な命令を実行するとき、請求項
6または7に記載の意味理解モデルト意味処理方法を実現するように構成されるプロセッサと
を含むことを特徴とする電子デバイス。
【請求項11】
コンピュータプログラムであって、
請求項1から
5のいずれか一項に記載の意味理解モデルトレーニング方法
を電子デバイスに実行させることを特徴とするコンピュータプログラム。
【請求項12】
コンピュータプログラムであって、請求項6または7に記載の意味理解モデル意味処理方法を電子デバイスに実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、出願番号が201911047037.9であり、出願日が2019年10月30日である中国特許出願に基づき提出され、かつ、当該中国特許出願の優先権を主張し、この中国特許出願の全ての内容が、参照として本願に組み込まれる。
【0002】
[技術分野]
本願は、機械学習技術に関し、特に、意味理解モデルのトレーニング方法、意味処理方法、装置、電子デバイスおよび記憶媒体に関する。
【背景技術】
【0003】
フルデュプレクス音声インタラクションの使用シーンでは、複数の音源が同時に音声を発し続けるマルチ音源環境において、以下の動作を実現する必要があり、即ち、例えば音声アイデンティティを比較するための識別(男性、女性、子供)、異なる内容をトリガーするための会話、音声感情の識別、音楽/歌声の識別などのような動作、バックグラウンドに対するノイズ識別およびエコー除去を行うための環境処理のような動作を実現する必要があり、環境処理プロセスにおいて、意味理解モデルのフルデュプレクスの会話シーンでは、バックグラウンドノイズや他人の雑談などのようなドメイン無関係(OOD:Out-Of-Domain)のコーパス(corpus)がスマートアシスタントにより聴取されやすくなり、このようなコーパスがスマートアシスタントによって誤って応答されると、インタラクションの成功率は低くなり、ユーザの使用体験に影響を与えってしまう。そのため、フルデュプレクスシーンでは、対話システムにおけるドメイン意図識別精度に対する要求はより高くなり、意味理解モデルは、いつ拒否すべきか(即ち、いつ応答を拒絶すべきか)、いつユーザの発言に対して応答すべきか、を理解する必要があり、これにより、ユーザの使用体験を向上させ、電子デバイスの頻繁な無効なトリガーによる電力消費も低減される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
これに鑑みて、本願の実施例は、意味理解モデルのトレーニング方法、意味処理方法、装置、電子デバイス、記憶媒体を提供し、これにより、意味理解モデルの汎化能力がより強くなり、意味理解モデルのトレーニング精度およびトレーニング速度を向上させるとともに、既存のノイズ語句を十分に利用してモデルトレーニング上の利得を取得することもでき、意味理解モデルを異なる使用シーンに適応させ、環境ノイズが意味理解モデルに与える影響を低減させる。
【課題を解決するための手段】
【0005】
本願の実施例の技術的案は、以下のように実現される。
【0006】
本願は、意味理解モデルトレーニング方法を提供し、この方法は、
第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであるステップと、
前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップと、
意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するステップと、
前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップと、
前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うステップと、
を含む。
【0007】
本願は、また、意味理解モデル意味処理方法を提供し、この方法は、
音声命令の情報を取得して、前記音声命令を対応する識別可能なテキスト情報に変換するステップと、
前記意味理解モデルの意味表示層ネットワークによって、識別可能なテキスト情報に対応する少なくとも1つの単語レベルの隠れ変数を決定するステップと、
前記意味理解モデルのドメイン無関係検出器ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数にマッチングするオブジェクトを決定するステップと、
前記意味理解モデルのドメイン分類ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数に対応するタスクドメインを決定するステップと、
前記単語レベルの隠れ変数にマッチングするオブジェクトと、前記単語レベルの隠れ変数に対応するタスクドメインとに基づいて、対応する業務プロセスをトリガーすることで、前記音声命令の情報に対応するタスクの完成を実現するステップと、を含み、
ここで、前記意味理解モデルは、請求項1から10のいずれか一項に記載の方法に基づいてトレーニングされて得られる。
【0008】
本願は、また、意味理解モデルトレーニング装置を提供し、この装置は、
能動学習プロセスによって取得されたノイズ付きの語句サンプルである第1のトレーニングサンプルセットを取得するように構成されるデータ伝送モジュールと、
前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するように構成されるノイズ除去モジュールと、
意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するように構成される意味理解モデルトレーニングモジュールと、を含み、
前記意味理解モデルトレーニングモジュールが、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するように構成され、
前記意味理解モデルトレーニングモジュールが、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うように構成される。
【0009】
本願は、また、意味理解モデル処理装置を提供し、この装置は、
音声命令の情報を取得して、前記音声命令を対応する識別可能なテキスト情報に変換するように構成されるテキスト変換モジュールと、
前記意味理解モデルの意味表示層ネットワークによって、識別可能なテキスト情報に対応する少なくとも1つの単語レベルの隠れ変数を決定するように構成される意味表示層ネットワークモジュールと、
前記意味理解モデルのドメイン無関係検出器ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数にマッチングするオブジェクトを決定するように構成されるドメイン無関係検出器ネットワークモジュールと、
前記意味理解モデルのドメイン分類ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数に対応するタスクドメインを決定するように構成されるドメイン分類ネットワークモジュールと、
前記単語レベルの隠れ変数にマッチングするオブジェクトと、前記単語レベルの隠れ変数に対応するタスクドメインとに基づいて、対応する業務プロセスをトリガーすることで、前記音声命令情報に対応するタスクの完成を実現するように構成される情報処理モジュールと、を含む。
【0010】
本願は、また、電子デバイスを提供し、この電子デバイスは、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されている実行可能な命令を実行するとき、前序の意味理解モデルトレーニング方法を実現するように構成されるプロセッサと、
を含む。
【0011】
本願は、また、電子デバイスを提供し、この電子デバイスは、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されている実行可能な命令を実行するとき、前序の意味理解モデルト意味処理方法を実現するように構成されるプロセッサと、
を含む。
【0012】
本願は、また、実行可能な命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供し、ここで、
前記実行可能な命令が電子デバイスによって実行されるとき、前序の意味理解モデルトレーニング方法、または前序の意味理解モデル意味処理方法が実現される。
本願の実施例は、以下の有益な効果を有し、即ち、
第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであるステップと、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップと、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するステップと、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップと、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うステップとを実行し、これにより、意味理解モデルの汎化能力がより強くなり、意味理解モデルのトレーニング精度およびトレーニング速度を向上させるとともに、既存のノイズ語句を有効かつ十分に利用してモデルトレーニング上の利得を取得することもでき、意味理解モデルを異なる使用シーンに適応させ、環境ノイズが意味理解モデルに与える影響を低減させ、電子デバイスの無効なトリガーを低減させ、意味理解モデルがモバイル端末に展開されることに有利になることができる。
【図面の簡単な説明】
【0013】
本願の実施例または関連技術における技術案をより明確に説明するために、以下、実施例または関連技術の説明において必要とされる図面を簡単に説明し、明らかに、以下の説明における図面は、本願のいくつかの実施例にすぎず、当業者にとって、創造的な努力なしに、これらの図面から他の図面を得ることもできる。
【0014】
【
図1】本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図である。
【
図2】本願の実施例によって提供される意味理解モデルトレーニング装置の構成構造の概略図である。
【
図3】RNNに基づくSeq2Seqモデルが意味理解結果を生成する概略図である。
【
図4】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートである。
【
図5】本願の実施例における意味表示層ネットワークモデルの1つのオプションの構造の概略図である。
【
図6】本願の実施例における意味表示層ネットワークモデルの1つのオプションの単語レベル機械読み取りの概略図である。
【
図7】本願の実施例における意味表示層ネットワークモデルにおけるエンコーダの1つのオプションの構造の概略図である。
【
図8】本願の実施例における意味表示層ネットワークモデルにおけるエンコーダのベクトル連結(vector concatenation)の概略図である。
【
図9】本願の実施例における意味表示層ネットワークモデルにおけるエンコーダの符号化プロセスの概略図である。
【
図10】本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図である。
【
図11】本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図である。
【
図12】本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図である。
【
図13】本願の実施例における意味表示層ネットワークモデルの1つのオプションの語句レベル機械読み取りの概略図である。
【
図14】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートである。
【
図15】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートである。
【
図16A】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートである。
【
図16B】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションの境界コーパス拡張の概略図である。
【
図17】本願の実施例によって提供される意味理解モデル処理装置の構成構造の概略図である。
【
図18】本願の実施例によって提供される意味理解モデルの意味処理方法の1つのオプションのフローチャートである。
【
図19】本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図である。
【
図20】本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図である。
【
図21】本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションの処理フローの概略図である。
【
図22】本願の実施例によって提供される意味理解モデルトレーニング方法の処理プロセスにおける能動学習プロセスの概略図である。
【
図23】本願の実施例によって提供される意味理解モデルの1つのオプションのモデル構造の概略図である。
【
図24】車載システムにパッケージ化された意味理解モデルを使用してアプリケーションをウェイクアップする概略図である。
【
図25】車載システムにパッケージ化された意味理解モデルを使用して天気を調べる概略図である。
【発明を実施するための形態】
【0015】
本願の目的、技術案および利点をより明確にするために、以下、図面を組み合わせて、本願をさらに詳細に説明し、記載された実施例は、本願に対する制限と見なすべきではなく、当業者が創造的な労働を行わずに得られた他のすべての実施例は、本願の保護範囲に属するものである。
【0016】
以下の説明では、すべての可能な実施例のサブセットを説明するための「いくつかの実施例」について説明するが、「いくつかの実施例」は、すべての可能な実施例の同じサブセットまたは異なるサブセットであってもよく、かつ衝突することなく互いに結合されていてもよい、ということを理解することができる。
【0017】
本願の実施例をさらに詳細に説明する前に、本願の実施例に係る用語について説明し、本願の実施例に係る用語は、以下の説明に適用される。
【0018】
1)機械読解は、テキスト質問および関連ドキュメントを入力としてテキスト答えを出力とする自動問答技術である。
【0019】
2)BERTは、Bidirectional Encoder Representations from Transformersと全称され、大量のテキストを利用する言語モデルトレーニング方法である。この方法は、テキスト分類、テキストマッチング、機械読解など、多くの自然言語処理タスクに広く使用される。
【0020】
3)人工ニューラルネットワークは、ニューラルネットワーク(NN:Neural Network)と略称され、機械学習および認知科学の分野では、生物ニューラルネットワークの構造および機能を模倣する数学モデルまたは計算モデルであり、関数を推定または近似するために使用されるものである。
【0021】
4)モデルパラメータは、汎用変数を使用して関数と変数の間の関係を確立するための数値である。人工ニューラルネットワークにおいて、モデルパラメータは、通常、実数行列である。
【0022】
5)APIは、Application Programming Interfaceと全称され、アプリケーションプログラムインタフェースとして意味的に理解されてもよく、いくつかの予め定義された関数であり、またはソフトウェアシステムの異なる構成部分の接続に関する約束を指す。その目的は、アプリケーションプログラムおよび開発者があるソフトウェアまたはハードウェアに基づいて一組のルーチンにアクセスする能力を提供し、元のコードにアクセスしたり、内部の動作メカニズムの詳細内容を理解したりする必要がない、ということである。
【0023】
6)SDKは、Software Development Kitと全称され、ソフトウェア開発ツールパッケージと意味的に理解されてもよく、特定のソフトウェアパッケージ、ソフトウェアフレームワーク、ハードウェアプラットフォーム、オペレーティングシステムなどのためにアプリケーションソフトウェアを構築する際の開発ツールの集合であり、広義には、あるタイプのソフトウェアの開発を支援する関連ドキュメント、サンプルおよびツールの集合を含む。
【0024】
7)敵対的生成ネットワーク(Generative Adversarial Network,GANと略称される)は、教師なし学習の1つの方法であり、2つのニューラルネットワークを互いに競合させる方式によって学習を実行し、一般的に、1つの生成ネットワークと1つの判別ネットワークから構成される。生成ネットワークは、潜在的なスペース(latent space)から入力としてランダムにサンプリングされ、その出力結果は、トレーニングセットにおける実際のサンプルをできるだけ模倣する必要がある。判別ネットワークの入力は、実際のサンプル、または生成ネットワークの出力であり、その目的は、生成ネットワークの出力を実際のサンプルからできるだけ見分けることである。生成ネットワークは、判別ネットワークをできるだけ欺く必要がある。2つのネットワークは、互いに敵対し、常にパラメータを調整し、最終的な目的は、判別ネットワークが生成ネットワークの出力結果が真実であるかどうかを判断できないようにすることである。
【0025】
8)フルデュプレクスについて、ヒューマンマシンインタラクション会話シーンでは、繰り返しウェイクアップする必要がなく、ストリーミング音声、意味技術に基づいて、聞きながら考えかつ随時に中断するインタラクション能力をスマートアシスタントに持たせる。
【0026】
9)自然言語理解(NLU:Natural Language Understanding)について、会話システムでは、ユーザの言葉から意味情報の抽出を行い、これは、ドメイン意図識別とスロット充填(slot filling)を含む。
【0027】
10)マルチタスク学習(Multi-task Learning)について、機械学習の分野では、同時に複数の関連タスクに対して共同学習、最適化を行うことにより、単一タスクと比べてよりよいモデル精度を達成することができ、複数のタスクが表示層を共有することによって互いに助け合き、このようなトレーニング方法は、マルチタスク学習と呼ばれ、共同学習(Joint Learning)とも呼ばれる。
【0028】
11)能動学習(Active Learning)について、教師あり学習では、機械学習モデルは、トレーニングデータへのフィッティングによって、データから予測結果へのマッピング関係を学習し、能動学習は、データサンプリング方法を設計することによって、モデルにとって情報量が最も大きいサンプルデータを選択してラベル付き、ランダムサンプリング方法と比べて、ラベル付けられたデータがサンプルトレーニングに再追加されると、モデルの収益は最大になる。
【0029】
12)OOD(Out of Domain)について、タスク型(task-oriented)の会話システムでは、通常、天気、ナビゲーション、音楽などを検索するための複数の垂直ドメイン(domain)を予め定義することで、ユーザのタスクニーズを満たす。いずれのタスク型ドメインにも落ちないユーザqueryは、OODコーパスであり、例えば雑談、知識問答、意味理解誤りなどであり、これに対するのは、In domain(IND)コーパスであり、任意の予め定義されたドメインに属するコーパスである。
【0030】
13)FAR(False Acceptance Rate)は、誤って識別された、いずれかのドメインにおけるOODコーパスが全てのOODコーパスに占める割合である。この指標は、スマートアシスタントの誤識別率を反映しており、当該指標が低ければ低いほどよい。フルデュプレクスシーンでは、この指標は、厳格な制限があり、非常に低いレベルにある必要がある。
【0031】
14)FRR(False Rejection Rate)は、すべてのINDコーパスにおいて、いずれのドメインによってリコールされていないコーパスの数がすべてのINDコーパスの数に占める割合である。この指標は、低ければ低いほどよく、スマートアシスタントの拒否率を反映する。
【0032】
15)音声意味理解(Speech Translation)は、自動音声意味理解とも呼ばれ、コンピュータによって、1つの自然言語の音声を他の自然言語のテキストまたは音声として意味的に理解する技術であり、一般的に、意味理解および機械意味理解の2段階から構成され得る。
【0033】
図1は、本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図であり、
図1を参照すると、端末(端末10-1と端末10-2とを含む)に意味理解ソフトウェアのクライアントが設けられ、ユーザは、設けられた意味理解ソフトウェアクライアントを介して、対応する意味理解対象となる語句を入力することができ、チャットクライアントは、対応する意味理解結果を受信することができ、かつ、受信した意味理解結果をユーザに表示することができ、端末は、ネットワーク300を介してサーバ200に接続され、ネットワーク300は、ワイドエリアネットワークまたはローカルエリアネットワーク、あるいは両者の組み合せであってもよく、無線リンクを使用してデータ伝送を実現することができる。
【0034】
一例として、サーバ200は、下記のように構成され、即ち、意味理解モデルをデプロイして、前記意味理解モデルをトレーニングすることで、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行い、これにより、意味理解モデルにおける意味表示層ネットワークおよびタスク関連出力層ネットワークによって、ターゲット意味理解対象となる語句に対する意味理解結果を生成し、かつ、端末(端末10-1および/または端末10-2)を介して、意味理解モデルによって生成された、意味理解対象となる語句に対応する意味理解結果を表示する、ということが実現される。
【0035】
もちろん、意味理解モデルによって、ターゲット意味理解対象となる語句を処理することで、対応する意味理解結果を生成する前に、さらに意味理解モデルをトレーニングする必要があり、本願のいくつかの実施例において、以下のステップを含むことができ、即ち、第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであるステップと、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップと、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するステップと、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップと、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うステップと、を含むことができる。
【0036】
以下は、本願の実施例の意味理解モデルトレーニング装置の構造について詳細に説明し、意味理解モデルトレーニング装置は、様々な形態で実現され得て、例えば、意味理解モデルのトレーニング機能を有する専用端末であってもよく、または意味理解モデルトレーニング機能が設置されたサーバ(例えば、前の
図1におけるサーバ200)であってもよい。
図2は、本願の実施例によって提供される意味理解モデルトレーニング装置の構成構造の概略図であり、
図2は、意味理解モデルトレーニング装置のすべての構造ではなく、例示的な構造のみを示しており、必要に応じて、
図2に示す部分の構造またはすべての構造を実現することができる、ということを理解されたい。
【0037】
本願の実施例によって提供される意味理解モデルトレーニング装置は、少なくとも1つのプロセッサ201と、メモリ202と、ユーザインタフェース203と、少なくとも1つのネットワークインタフェース204と、を含む。意味理解モデルトレーニング装置20における各コンポーネントは、バスシステム205を介して結合される。バスシステム205は、これらのコンポーネントの間の接続通信を実現するように構成される、ということを理解されたい。バスシステム205は、データバスに加えて、電源バス、制御バスおよび状態信号バスをさらに含む。しかしながら、説明を明確にするために、
図2において、各種バスがいずれもバスシステム205として示されている。
【0038】
ここで、ユーザインタフェース203は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパネル、またはタッチスクリーンなどを含み得る。
【0039】
メモリ202は、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリと不揮発性メモリの両方を含んでもよい、ということを理解されたい。本願の実施例におけるメモリ202は、端末(例えば10-1)の動作をサポートするようにデータを記憶することができる。これらのデータの例は、端末(例えば10-1)上で動作するように構成される任意のコンピュータプログラム、例えばオペレーティングシステムおよびアプリケーションプログラムが含まれる。ここで、オペレーティングシステムには、フレームワーク層、コアライブラリ層、ドライバ層などの様々なシステムプログラムが含まれており、様々なベース業務を実現しおよびハードウェアベースのタスクを処理するように配置される。アプリケーションプログラムは、様々なアプリケーションプログラムを含み得る。
【0040】
いくつかの実施例において、本願の実施例によって提供される意味理解モデルトレーニング装置は、ソフトウェアとハードウェアの組み合わせ方式を使用して実現され得ており、一例として、本願の実施例によって提供される意味理解モデルトレーニング装置は、ハードウェアコーディングプロセッサ形態のプロセッサであってよく、それが本願の実施例によって提供される意味理解モデルトレーニング方法を実行するようにプログラムされる。例えば、ハードウェアコーディングプロセッサ形態のプロセッサは、1つまたは複数のアプリケーション専用集積回路(ASIC:Application Specific Integrated Circuit )、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複雑なプログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、または他の電子部品を使用することができる。
【0041】
本願の実施例によって提供される意味理解モデルトレーニング装置がソフトウェアとハードウェアの組み合わせ方式によって実現される例として、本願の実施例によって提供される意味理解モデルトレーニング装置は、プロセッサ201によって実行されるソフトウェアモジュールの組み合わせとして直接に具現化され得て、ソフトウェアモジュールが、記憶媒体に配置され、記憶媒体が、メモリ202に配置され、プロセッサ201が、メモリ202におけるソフトウェアモジュールに含まれる実行可能な命令を読み取り、必要なハードウェア(例えば、プロセッサ201、およびバス205に接続される他のコンポーネントを含む)と組み合わせて、本願の実施例によって提供される意味理解モデルトレーニング方法を完成することができる。
【0042】
一例として、プロセッサ201は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどの、信号の処理能力を有する集積回路チップであってよく、ここで、汎用プロセッサは、マイクロプロセッサまたは任意の従来のプロセッサなどであってよい。
【0043】
本願の実施例によって提供される意味理解モデルトレーニング装置がハードウェアによって実現される例として、本願の実施形態によって提供される装置は、ハードウェアコーディングプロセッサ形態のプロセッサ201を直接に使用して実現され得ており、例えば、一つまたは複数のアプリケーション専用集積回路(ASIC:Application Specific Integrated Circuit )、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複雑なプログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、または他の電子部品は、本願の実施例によって提供される意味理解モデルトレーニング方法を実現するように実行する。
【0044】
本願の実施形態におけるメモリ202は、意味理解モデルトレーニング装置20の動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は、意味理解モデルトレーニング装置20上で動作するように構成される任意の実行可能な命令、例えば、実行可能な命令を含み、本願の実施例の意味理解モデルトレーニング方法を実現するためのプログラムが実行可能な命令に含まれ得る。
【0045】
他の実施例において、本願の実施例によって提供される意味理解モデルトレーニング装置は、ソフトウェアの方式によって実現され得る。
図2は、メモリ202に記憶される意味理解モデルトレーニングデ装置を示し、それは、プログラムおよびプラグインなどの形態のソフトウェアであり、一連のモジュールを含み得ており、メモリ202に記憶されているプログラムの例としては、意味理解モデルトレーニング装置を含み得ており、意味理解モデルトレーニング装置は、データ伝送モジュール2081、ノイズ除去モジュール2082、および意味理解モデルトレーニングモジュール2083を含み得る。意味理解モデルトレーニング装置におけるソフトウェアモジュールがプロセッサ201によってRAMに読み込まれて実行される場合、本願の実施例によって提供される意味理解モデルトレーニング方法が実現され、以下、本願の実施例における意味理解モデルトレーニング装置における各ソフトウェアモジュールの機能を説明し、ここで、
データ伝送モジュール2081は、能動学習プロセスによって取得されたノイズ付きの語句サンプルである第1のトレーニングサンプルセットを取得するように構成され、
ノイズ除去モジュール2082は、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するように構成され、
意味理解モデルトレーニングモジュール2083は、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するように構成され、
前記意味理解モデルトレーニングモジュール2083は、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するように構成され、
前記意味理解モデルトレーニングモジュール2083は、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うように構成される。
【0046】
図2に示す意味理解モデルトレーニング装置20を参照しながら本願の実施例によって提供される意味理解モデルトレーニング方法を説明し、本願の実施例によって提供される意味理解モデルトレーニング方法を説明する前に、まず、本願において意味理解モデルが意味理解対象となる語句に基づいて、対応する意味理解結果を生成するプロセスを説明し、
図3は、従来の解決策において意味理解結果を生成するための概略図であり、ここで、eq2seqモデルは、エンコーダ(Encode)とデコーダ(Decode)に代表されるアーキテクチャ方式であり、seq2seqモデルは、入力シーケンスXに基づいて出力シーケンスYを生成するものである。エンコーダ(Encode)およびデコーダ(Decode)に代表されるseq2seqモデルにおいて、エンコーダ(Encode)は、入力シーケンスを固定長のベクトルに変換し、デコーダ(Decode)は、入力された固定長のベクトルを出力シーケンスに復号する。
図3に示すように、エンコーダ(Encode)は、入力された意味理解対象となる語句を符号化し、意味理解対象となる語句のテキスト特徴を得、デコーダ(Decode)は、テキスト特徴を復号した後に、対応する意味理解結果を生成して出力し、ここで、エンコーダ(Encode)とデコーダ(Decode)は、1対1で対応するものである。
【0047】
以上から分かるように、
図3に示す関連技術に対して、Seq2Seqモデルに基づく意味理解モデルの欠点は、関連技術におけるモデル自体が、トレーニングデータターゲットテキストy-ラベリング情報だけに対して1対1の関係を確立し、また、MLEを使用してモデルの最適化を行い、その結果、モデルが多くの高周波の汎用返信を生成し、これらの返信が往々にして無意味で短いる、ということにある。また、多くの実際のシーンでは、同一のターゲットテキストyには、様々なタイプのラベリング情報があり得るが、従来のSeq2Seqモデルは、エンコーダ(Encode)とデコーダ(Decode)が1対1で対応するため、このような1対多という問題を効果的に処理することができず、また、ノイズ情報の干渉を受けやすくて、無駄な識別をトリガーし、これにより、ユーザ体験は悪くなる。
【0048】
関連技術におけるこの欠陥を解決するために、
図4を参照すると、
図4は、本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートであり、
図4に示すステップが、意味理解モデルトレーニング装置が動作される様々な電子デバイスによって実行され得て、例えば意味理解モデルトレーニング機能を有する専用端末、意味理解モデルトレーニング機能を有するサーバまたはサーバクラスタであってもよい、ということを理解されたい。以下、
図4に示すステップについて説明する。
【0049】
ステップ401で、意味理解モデルトレーニング装置は、第1のトレーニングサンプルセットを取得し、ここで、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルである。
【0050】
本願のいくつかの実施例において、第1のトレーニングサンプルセットは、同じ言語種類の言語サンプルであってもよく、または異なる言語種類の言語サンプルであってもよいし、これに対して制限しない。ここで、第1のトレーニングサンプルセットの言語種類は、実際の翻訳ニーズに応じて設定され得る。例えば、翻訳モデルが、中国語から英語に翻訳する適用シーンに適用される場合、第1のトレーニングサンプルセットの言語種類は中国語であり得、また例えば、翻訳モデルが、英語からフランス語に翻訳する適用シーンに適用される場合、第1のトレーニングサンプルセットの言語種類は英語であり得、また例えば、翻訳モデルが中国語とフランス語の相互翻訳の適用シーンに適用される場合、第1のトレーニングサンプルセットの言語種類は中国語および/またはフランス語を含み得る。
【0051】
本願のいくつかの実施例において、第1のトレーニングサンプルセットは音声形式であってもよく、またはテキスト形式であってもよいし、テキスト形式の第1のトレーニングサンプルセットおよび/または音声形式の第1のトレーニングサンプルセットを予め収集してもよく、例えば、テキスト形式の第1のトレーニングサンプルセットおよび/または音声形式の第1のトレーニングサンプルセットを通常の語句収集方式で収集し、かつ、収集されたテキスト形式の第1のトレーニングサンプルセットおよび/または音声形式の第1のトレーニングサンプルセットを予め配置された記憶装置に記憶してもよい。従って、本願において、翻訳モデルをトレーニングする際に、上記の記憶装置から、第1のトレーニングサンプルセットを取得することができる。
【0052】
ステップ402で、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成する。
【0053】
本願のいくつかの実施例において、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成することは、以下の方式によって実現され得ており、即ち、
前記意味理解モデルの使用環境にマッチングする動的ノイズ閾値を決定すること、および前記動的ノイズ閾値に基づいて前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、前記動的ノイズ閾値にマッチングする第2のトレーニングサンプルセットを形成することによって実現され得る。ここで、翻訳モデルの使用環境が異なるため、前記翻訳モデルの使用環境にマッチングする動的ノイズ閾値も異なり、例えば、学術翻訳の使用環境では、前記翻訳モデルの使用環境にマッチングする動的ノイズ閾値は、文章閲覧環境における動的ノイズ閾値より小さい必要がある。
【0054】
本願のいくつかの実施例において、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成することは、以下の方式によって実現され得ており、即ち、
前記意味理解モデルに対応する固定ノイズ閾値を決定すること、および前記固定ノイズ閾値に基づいて前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、前記固定ノイズ閾値にマッチングする第2のトレーニングサンプルセットを形成することによって実現され得る。ここで、翻訳モデルが、対応するハードウェア機構、例えば車載端末に固定され、使用環境が口語化翻訳である場合、ノイズが単一であるため、翻訳モデルに対応する固定ノイズ閾値を固定することにより、翻訳モデルのトレーニング速度を効果的に向上させ、ユーザの待ち時間を低減させることができる。
【0055】
ステップ403で、意味理解モデルトレーニング装置は、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定する。
【0056】
ステップ404で、意味理解モデルトレーニング装置は、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの更新パラメータを決定する。
【0057】
本願のいくつかの実施例において、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの更新パラメータを決定することは、以下の方式によって実現され得ており、即ち、
前記第2のトレーニングサンプルセットにおける異なる語句サンプルを、前記意味理解モデルのドメイン無関係検出器ネットワークとドメイン分類ネットワークとによって構成されるタスク関連出力層ネットワークに対応する損失関数に代入すること、および前記損失関数が対応する収束条件を満たした場合、前記意味理解モデルにおける対応するドメイン無関係検出器ネットワークパラメータおよび対応するドメイン分類ネットワークパラメータを前記意味理解モデルの更新パラメータとして決定することによって実現され得る。ここで、意味理解モデルの構成には、意味表示層ネットワークおよびタスク関連出力層ネットワークが含まれ得ており、さらに、タスク関連出力層ネットワークには、ドメイン無関係検出器ネットワークおよびドメイン分類ネットワークが含まれる。
【0058】
本願のいくつかの実施例において、意味表示層ネットワークは、双方向注意力ニューラルネットワークモデル(BERT:Bidirectional Encoder Representations from Transformers)であってもよい。
図5を引き続き参照すると、
図5は、本願の実施例における意味表示層ネットワークモデルの1つのオプションの構造の概略図であり、ここで、Encoderは、N=6個の同じlayersによって構成され、各層には、2つのsub-layersが含まれる。1番目のsub-layerは、マルチヘッド注意力層(multi-head attention layer)であり、2番目のsub-layerは、単純な全接続層である。ここで、各sub-layerには、いずれも、残差接続(residual connection)および正規化(normalisation)が付加されている。
【0059】
Decoderは、N=6個の同じLayerによって構成され、ここで、このlayerがencoderのlayerと異なり、ここでのlayerには、3つのsub-layersが含まれており、そのうち、1つがself-attention layerであり、もう一つが、encoder-decoder attention layerであり、最後が、全接続層である。この前の2つのsub-layerは、いずれも、multi-head attention layerに基づくものである。
【0060】
図6を引き続き参照すると、
図6は、本願の実施例における意味表示層ネットワークモデルの1つのオプションの単語レベル機械読み取りの概略図であり、ここで、encoderとdecoderという部分には、いずれも、6個のencoderとdecoderが含まれる。1番目のencoderに入ったinputsは、embeddingとpositional embeddingと結合され、6個のencoderを通過した後、decoderという部分の各decoderに出力される。入力ターゲットは、「私は学生tです」であり、意味表示層ネットワークモデルの処理を経て、出力された機械読み取り表示結果は、「学生」である。
【0061】
図7を引き続き参照すると、
図7は、本願の実施例における意味表示層ネットワークモデルにおけるエンコーダの1つのオプションの構造の概略図であり、ここで、その入力は、次元がdであるクエリ(Q)とキー(K)、および次元がdである値(V)によって構成され、全てのキーについて、クエリのドット積を計算し、かつsoftmax関数を使用して、値の重みを得る。
【0062】
図7を引き続き参照すると、
図7は、本願の実施形態における意味表示層ネットワークモデルにおけるエンコーダのベクトルの概略図であり、ここで、Q、KおよびVについては、encoderに入力されたベクトルxと、W^Q、W^K、W^Vと乗算してQ、KおよびVを得る。W^Q、W^K、W^Vの文章での次元は(512、64)であり、次に、inputsの次元が(m、512)であると仮定し、ここで、mは、単語の数を表す。したがって、入力ベクトルと、W^Q、W^K、W^Vとを乗算して得られたQ、KおよびVの次元は(m、64)である。
【0063】
図8を引き続き参照すると、
図8は、本願の実施例における意味表示層ネットワークモデルにおけるエンコーダのベクトル連結の概略図であり、ここで、Z0からZ7は、対応する8個の並列するhead(次元は(m、64))であり、続いて、この8個のheadがconcatされた後、(m、512)次元が得られ、最後に、W^Oと乗算された後、次元が(m、512)である出力マトリックスが得られ、では、このマトリックスの次元は、次のencoderに入る場合の次元と一致になる。
【0064】
図9を引き続き参照すると、
図9は、本願の実施例における意味表示層ネットワークモデルにおけるエンコーダの符号化プロセスの概略図であり、ここで、x1は、self-attentionを経てz1の状態になり、self-attentionを通ったテンソルは、残差ネットワークおよびLaterNormによって処理された後、全接続のフィードフォワードネットワークに入る必要があり、フィードフォワードネットワークについて、同じ動作を行う必要があり、即ち、残差処理および正規化を行う必要がある。最後に出力されたテンソルは、次のencoderに入ることができ、その後、このような操作は、6回反復され、反復処理の結果は、decoderに入る。
【0065】
図10を引き続き参照すると、
図10は、本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図であり、ここで、decoderの入力、出力および復号プロセスは、以下の通りであり、即ち、
出力は、位置iに対応する出力語の確率分布であり、
入力は、encoderの出力、&位置i-1に対応するdecoderの出力である。従って、中間のattentionはself-attentionではなく、そのK、Vが、encoderからのものであり、Qが、1つ前の位置でのdecoderの出力からのものである。
【0066】
図11および
図12を引き続き参照すると、
図11は、本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図であり、ここで、デコーダネットワークの最後のdecoderによって出力されたベクトルは、Linear層およびsoftmax層を経過することがある。
図12は、本願の実施例における意味表示層ネットワークモデルにおけるデコーダの復号プロセスの概略図であり、Linear層の役割は、decoderという部分から出力されたベクトルを1つのlogitsベクトルにマッピングすることであり、そして、softmax層は、このlogitsベクトルに基づいて、それを確率値に変換し、最後に、確率の最大値の位置を見つける。これによって、デコーダの出力が完成される。
【0067】
本願のいくつかの実施例において、第1の読み取り意味ラベリングネットワークは、双方向注意力ニューラルネットワークモデル(BERT:Bidirectional Encoder Representations from Transformers)であってもよい。
図5を引き続き参照すると、
図5は、本願の実施例における意味表示層ネットワークモデルの1つのオプションの構造の概略図であり、ここで、Encoderは、N=6個の同じlayersによって構成され、各層には、2つのsub-layersが含まれる。1番目のsub-layerは、マルチヘッド注意力層(multi-head attention layer)であり、2番目のsub-layerは、単純な全接続層である。ここで、各sub-layerには、いずれも、残差接続(residual connection)および正規化(normalisation)が付加されている。
【0068】
Decoderは、N=6個の同じLayerによって構成され、ここで、このlayerがencoderのlayerと異なり、ここでのlayerには、3つのsub-layersが含まれており、そのうち、1つがself-attention layerであり、もう一つが、encoder-decoder attention layerであり、最後が、全接続層である。この前の2つのsub-layerは、いずれも、multi-head attention layerに基づくものである。
【0069】
図13を引き続き参照すると、
図13は、本願の実施例における意味表示層ネットワークモデルの1つのオプションの語句レベル機械読み取りの概略図であり、ここで、encoderとdecoderという部分には、いずれも、6個のencoderとdecoderが含まれる。1番目のencoderに入ったinputsは、embeddingとpositional embeddingと結合され、6個のencoderを通過した後、decoderという部分の各decoderに出力される。入力ターゲットは、英語「I am a student」であり、意味表示層ネットワークモデルの処理を経て、出力された機器読み取り表示結果は、「私は学生です」である。
【0070】
もちろん、本願におけるBERTモデルについて、前方向ニューラルネットワークモデル(Bi-LSTM:Bi-directional Long Short-Term Memory)、ゲート制御サイクルユニットネットワークモデル(GRU Gated Recurrent Unit)、深度コンテキスト化単語特徴付けネットワークモデル(ELMo embedding from language model)、GPTモデルおよびGPT2モデルを使用し代替し、これに対して、本願は、これ以上説明しない。
【0071】
ステップ405で、意味理解モデルトレーニング装置は、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行う。
【0072】
図14を引き続き参照すると、
図14は、本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートであり、
図14に示すステップが、意味理解モデルトレーニング装置が動作される様々な電子デバイスによって実行され得て、例えば意味理解モデルトレーニング機能を有する専用端末、意味理解モデルトレーニング機能を有するサーバまたはサーバクラスタであってもよい、ということを理解されたい。以下、
図14に示すステップについて説明する。
【0073】
ステップ1401で、意味理解モデルトレーニング装置は、前記意味理解モデルの更新パラメータによって、前記第2のトレーニングサンプルセットにマッチングする第2のノイズパラメータを決定する。
【0074】
ここで、前記第2のノイズパラメータは、前記第2のトレーニングサンプルセットにおける並列語句サンプルのノイズ値を特徴付けるために使用されるものであり、ここで、第2のトレーニングサンプルセットにおける各トレーニングサンプルの重みは、いずれも同じであり、同じ重みを持つこれらのトレーニングサンプルは、並列語句サンプルと呼ばれ得る。
【0075】
ステップ1402で、意味理解モデルトレーニング装置は、前記第2のノイズパラメータが対応するノイズ値の閾値に達した場合、前記意味理解モデルのドメイン無関係検出器ネットワークおよびドメイン分類ネットワークによって構成されるタスク関連出力層ネットワークに対応する損失関数が対応する収束条件を満たすまで、前記第2のノイズパラメータのノイズ値に基づいて、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行う。
【0076】
ステップ1403で、意味理解モデルトレーニング装置は、前記意味理解モデルのドメイン無関係検出器ネットワークおよびドメイン分類ネットワークによって構成されるタスク関連出力層ネットワークに対応する損失関数に応答する。
【0077】
ステップ1404で、意味理解モデルトレーニング装置は、前記意味理解モデルの意味表示層ネットワークに対してパラメータ調整を行うことで、これにより、前記意味表示層ネットワークのパラメータが前記タスク関連出力層ネットワークに対応する損失関数に適合させることを実現する。
【0078】
ここで、エンコーダネットワークの損失関数は、以下のように表され、即ち、
loss_A=Σ(decoder_A(encoder(warp(x1)))-x1)2
ここで、decoder_Aは、デコーダAであり、warpは、識別対象となる語句の関数であり、x1は、識別対象となる語句であり、encoderは、エンコーダである。
【0079】
反復トレーニングの過程において、識別対象となる語句を、エンコーダネットワークの損失関数に代入し、損失関数が勾配(例えば,最大勾配)に従って下降した際のエンコーダAおよびデコーダAのパラメータを求めることにより、損失関数が収束した場合(即ち、前記識別対象となる語句に対応する単語レベル隠れ変数を形成できると確認された場合)、トレーニングを終了する。
【0080】
エンコーダネットワークに対するトレーニングの過程において、エンコーダネットワークの損失関数は、以下のように表され、即ち、loss_B=Σ(decoder_B(encoder(warp(x2)))-x2)2、ここで、decoder_Bは、デコーダBであり、warpは、識別対象となる語句の関数であり、x2は、識別対象となる語句であり、encoderは、エンコーダである。
【0081】
反復トレーニングの過程において、識別対象となる語句をエンコーダネットワークの損失関数に代入し、損失関数が勾配(例えば,最大勾配)に従って降下した際のエンコーダBおよびデコーダBのパラメータを求めることにより、損失関数が収束した場合(即ち、前記識別対象となる語句に対応する翻訳結果の被選出確率を復号して得られた場合)、調整およびトレーニングを終了する。
【0082】
引き続き
図15を引き続き参照すると、
図15は、本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートであり、
図15に示すステップが、意味理解モデルトレーニング装置が動作される様々な電子デバイスによって実行され得て、例えば意味理解モデルトレーニング機能を有する専用端末、意味理解モデルトレーニング機能を有するサーバまたはサーバクラスタであってもよい、ということを理解されたい。以下、
図15に示すステップについて説明する。
【0083】
ステップ1501で、意味理解モデルトレーニング装置は、前記第2のトレーニングサンプルセットに対してネガティブケース処理を行うことで、前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成する。
【0084】
ここで、前記ネガティブサンプルセットは、前記意味理解モデルのドメイン無関係検出器ネットワークパラメータおよびドメイン分類ネットワークパラメータを調整するように構成される。
【0085】
本願のいくつかの実施例において、前記第2のトレーニングサンプルセットに対してネガティブケース処理を行うことは、以下の方式、即ち、
前記意味理解モデルのドメイン分類ネットワークにおける出力対象となる語句をランダムに組み合わせることで、前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成する方式、または、
前記意味理解モデルのドメイン分類ネットワークにおける出力対象となる語句に対してランダムな削除処理または置換処理を行うことで、前記第2のトレーニングサンプルセットに対応するネガティブサンプルセットを形成する方式、によって実現され得る。
【0086】
ステップ1502で、意味理解モデルトレーニング装置は、前記ネガティブサンプルセットに基づいて、対応するバイリンガル評価研究値を決定する。ここで、意味理解モデルに適用されるフルデュプレクス音声インタラクションの使用シーンは、非中国語の使用環境である(英語または他の言語種類の単一の使用環境であってもよく、少なくとも2種類の言語の音源を含む使用環境であってもよい)場合、前記ネガティブサンプルセットに基づいて決定された、対応するバイリンガル評価研究値は、前記意味理解モデルの意味理解結果を評価するための監視パラメータとして設定され得る。
【0087】
本願のいくつかの実施例において、意味表示層ネットワークの対応するエンコーダおよび対応するデコーダは、双方向ネットワークモデルであり得、例えば、Bi-GRU双方向GRUモデルが、対応するエンコーダおよび対応するデコーダとして選んで使用され得ており、ここでのBi-GRU双方向GRUモデルは、反転文構造を識別できるモデルである。ユーザが会話語句を入力する際に、当該会話語句を通常の語句構造と異なる反転文構造にすることがあり、例えば、ユーザが入力した会話語句は、「天気はどうですか、今日」であるが、通常の語句構造は、「今日の天気はどうですか」であり、そのため、Bi-GRU双方向GRUモデルを使用することは、反転文構造の会話語句を識別することができ、これにより、トレーニングされたモデルの機能を豊富にすることができ、さらに、トレーニングによって最終に得られたターゲットモデルのロバスト性を向上させることができる。
【0088】
図16Aを引き続き参照すると、
図16Aは、本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションのフローチャートであり、
図16Aに示すステップが、意味理解モデルトレーニング装置が動作される様々な電子デバイスによって実行され得て、例えば意味理解モデルトレーニング機能を有する専用端末、意味理解モデルトレーニング機能を有するサーバまたはサーバクラスタであってもよい、ということを理解されたい。以下、
図16Aに示すステップについて説明する。
【0089】
ステップ1601で、意味理解モデルトレーニング装置は、データソースにおけるトレーニングサンプルに対してリコール処理を行う。
【0090】
ここで、データソースには、対応するレーニングサンプルのデータソースとして、各タイプの適用シーンのデータが含まれ、例えば、本願によって提供される意味理解モデルは、ソフトウェアモジュールとして車載電子デバイスにパッケージ化されてもよく、異なるスマートホーム(スピーカー、テレビ、冷蔵庫、エアコン、洗濯機、調理器具を含むが、これらに限定されない)にパッケージ化されてもよいし、勿論、スマートロボットのハードウェアデバイスに固定されてもよい。意味理解モデルのこれら異なる適用シーンに対し、対応するトレーニングサンプルを使用して意味理解モデルに対してかなり的を射ているトレーニングを行うことができる。
【0091】
ステップ1602で、意味理解モデルトレーニング装置は、前記リコール処理の結果に基づいて、対応する能動学習プロセスをトリガーすることで、前記データソースにおけるノイズ付きの語句サンプルを取得することを実現する。
【0092】
ステップ1603で、意味理解モデルトレーニング装置は、前記能動学習プロセスにおいて取得されたノイズ付きの語句サンプルをラベル付けることで、前記第1のトレーニングサンプルセットを形成し、ここで、前記第1のトレーニングサンプルセットには、少なくとも1つのラベル付けられたノイズ付きの語句サンプルが含まれる。
【0093】
本願のいくつかの実施例において、前記能動学習プロセスにおいて取得されたノイズ付きの語句サンプルをラベル付けることで、前記第1のトレーニングサンプルセットを形成することは、以下の方式、即ち、
前記ノイズ付きの語句サンプルのサンプルタイプを決定し、
前記語句サンプルのサンプルタイプにおけるネガティブサンプルをソートし、前記ネガティブサンプルに対するソート結果に基づいて、前記ネガティブサンプルに対して、対応する重みを設定することで、異なる重みのトレーニングサンプルを含む第1のトレーニングサンプルセットを形成する方式、によって実現され得る。
【0094】
本願のいくつかの実施形態において、意味理解モデルトレーニング装置は、前記能動学習プロセスに応答して、能動探索プロセスをトリガーすることで、前記車載環境にマッチングするノイズ付きの語句サンプルに対して境界コーパス拡張処理を行うことを実現する。
【0095】
ここで、意味理解モデルトレーニング装置は、前記能動学習プロセスに応答して、能動探索プロセスにおけるテキスト類似性クラスタリングネットワークをトリガーすることで、前記車載環境にマッチングするノイズ付きの語句サンプルのテキストクラスタリング中心を決定し、
前記車載環境にマッチングするノイズ付きの語句サンプルのテキストクラスタリング中心に基づいて、前記データソースを検索することで、前記車載環境にマッチングするノイズ付きの語句サンプルに対してテキスト拡張を実現し、
前記車載環境にマッチングするノイズ付きの語句サンプルに対してテキスト拡張を行った結果に基づいて、対応するマニホールド学習(manifold learning)プロセスをトリガーして、前記テキスト拡張の結果に対して次元削減処理を行うことで、前記車載環境にマッチングするノイズ付きの語句サンプルに対して境界コーパス拡張を行うことを実現する。
【0096】
ここで、
図16Bを参照し、
図16Bは、本願の実施例によって提供される意味理解モデルトレーニング方法の1つのオプションの境界コーパス拡張の概略図であり、能動探索プロセスにおけるテキスト類似性クラスタリングネットワークにより、車載環境にマッチングするノイズ付きの語句サンプルのテキストクラスタリング中心を決定し、かつそれによって前記データソースを検索し、車載環境にマッチングするノイズ付きの語句サンプルに関連する語句サンプルを取得し、これは、車載環境にマッチングするノイズ付きの語句サンプルの数を効果的に増加することができるが、トレーニングサンプル語句の拡張プロセスにおいて、トレーニングサンプルの次元が高くなるため、マニホールド学習プロセスによって、テキスト拡張の結果に対して次元削減処理を行うようにして、これは、後続のモデルトレーニングプロセスのデータ次元が意味理解モデルのトレーニングの正確性に及ぼす影響を低減するとともに、トレーニング難度を低減し、ユーザの待ち時間を低減することができる。
【0097】
以下、本願の実施例における意味理解モデル処理装置の構造について詳細に説明し、意味理解モデル処理装置は、様々な形式で実現され、例えば、意味理解モデルを実行する機能を有する専用端末であってもよく、回答機能を有するサーバ(例えば、前の
図1におけるサーバ200)であってもよいし、これにより、端末におけるアプリケーションプログラムが受信した翻訳対象となる語句に基づいて、対応する翻訳結果を生成することができる。
図17は、本願の実施例によって提供される意味理解モデル処理装置の構成構造の概略図であり、
図17は、意味理解モデル処理装置のすべての構造ではなく、例示的な構造のみを示しており、必要に応じて、
図17に示す部分の構造またはすべての構造を実現することができる、ということを理解されたい。
【0098】
本願の実施例によって提供される意味理解モデルの処理装置には、少なくとも1つのプロセッサ1301、メモリ1302、ユーザインタフェース1303、および少なくとも1つのネットワークインタフェース1304が含まれる。意味理解モデル処理装置130における各コンポーネントは、バスシステム1305によって接続される。バスシステム1305が、これらのコンポーネントの間の接続通信を可能にするように構成される、ということを理解されたい。バスシステム1305には、データバス以外に、電源バス、制御バスおよび状態信号バスが含まれる。しかし、説明を明確にするために、
図17において、様々なバスがバスシステム1305としてラベル付けられる。
【0099】
ここで、ユーザインタフェース1303には、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパッドまたはタッチスクリーンなどが含まれ得る。
【0100】
メモリ1302は、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリと不揮発性メモリの両方を含んでもよい、ということを理解されたい。本願の実施例におけるメモリ1302は、端末(例えば10-1)の動作をサポートするようにデータを記憶することができる。これらのデータの例は、端末(例えば10-1)上で動作するように構成される任意のコンピュータプログラム、例えばオペレーティングシステムおよびアプリケーションプログラムが含まれる。ここで、オペレーティングシステムには、フレームワーク層、コアライブラリ層、ドライバ層などの様々なシステムプログラムが含まれており、様々なベース業務を実現しおよびハードウェアベースのタスクを処理するように配置される。アプリケーションプログラムは、様々なアプリケーションプログラムを含み得る。
【0101】
いくつかの実施例において、本願の実施例によって提供される意味理解モデル処理装置は、ソフトウェアとハードウェアの組み合わせ方式を使用して実現され得ており、一例として、本願の実施例によって提供される意味理解モデル処理装置は、ハードウェアコーディングプロセッサ形態のプロセッサであってよく、それが本願の実施例によって提供される意味理解モデル意味処理方法を実行するようにプログラムされる。例えば、ハードウェアコーディングプロセッサ形態のプロセッサは、1つまたは複数のアプリケーション専用集積回路(ASIC:Application Specific Integrated Circuit )、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複雑なプログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、または他の電子部品を使用することができる。
【0102】
本願の実施例によって提供される意味理解モデル処理装置がソフトウェアとハードウェアの組み合わせ方式によって実現される例として、本願の実施例によって提供される意味理解モデル処理装置は、プロセッサ1301によって実行されるソフトウェアモジュールの組み合わせとして直接に具現化され得て、ソフトウェアモジュールが、記憶媒体に配置され、記憶媒体が、メモリ1302に配置され、プロセッサ1301が、記憶媒体1302におけるソフトウェアモジュールに含まれる実行可能な命令を読み取り、必要なハードウェア(例えば、プロセッサ1301、およびバス1305に接続される他のコンポーネントを含む)と組み合わせて、本願の実施例によって提供される意味理解モデル意味処理方法を完成することができる。
【0103】
一例として、プロセッサ1301は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどの、信号の処理能力を有する集積回路チップであってよく、ここで、汎用プロセッサは、マイクロプロセッサまたは任意の従来のプロセッサなどであってよい。
【0104】
本願の実施例によって提供される意味理解モデル処理装置がハードウェアによって実現される例として、本願の実施例によって提供される装置は、ハードウェアコーディングプロセッサ形態のプロセッサ1301を直接に使用して実現され得ており、例えば、一つまたは複数のアプリケーション専用集積回路(ASIC:Application Specific Integrated Circuit )、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複雑なプログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、または他の電子部品は、本願の実施例によって提供される意味理解モデル意味理解方法を実現するように実行する。
【0105】
本願の実施例におけるメモリ1302は、意味理解モデル処理装置130の動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は、意味理解モデル処理装置130上で動作するように構成される任意の実行可能な命令、例えば、実行可能な命令を含み、本願の実施例の意味理解モデル意味処理方法を実現するためのプログラムが実行可能な命令の中に含まれ得る。
【0106】
他の実施例において、本願の実施例によって提供される意味理解モデル処理装置は、ソフトウェアの方式によって実現され得る。
図17は、メモリ1302に記憶される意味理解モデル処理装置を示し、それは、プログラムおよびプラグインなどの形態のソフトウェアであり、一連のモジュールを含み得ており、メモリ1302に記憶されているプログラムの例としては、意味理解モデル処理装置を含み得ており、意味理解モデル処理装置は、テキスト変換モジュール13081、意味表示層ネットワークモジュール13082、ドメイン無関係検出器ネットワークモジュール13083、ドメイン分類ネットワークモジュール13084、および情報処理モジュール13085を含み得る。意味理解モデル処理装置におけるソフトウェアモジュールがプロセッサ1301によってRAMに読み込まれて実行される場合、本願の実施例によって提供される意味理解モデル意味処理方法が実現され、意味理解モデル処理装置における各ソフトウェアモジュールには、
音声命令の情報を取得して、前記音声命令を対応する識別可能なテキスト情報に変換するように構成されるテキスト変換モジュール13081と、
前記意味理解モデルの意味表示層ネットワークによって、識別可能なテキスト情報に対応する少なくとも1つの単語レベルの隠れ変数を決定するように構成される意味表示層ネットワークモジュール13082と、
前記意味理解モデルのドメイン無関係検出器ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数にマッチングするオブジェクトを決定するように構成されるドメイン無関係検出器ネットワークモジュール13083と、
前記意味理解モデルのドメイン分類ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数に対応するタスクドメインを決定するように構成されるドメイン分類ネットワークモジュール13084と、
前記単語レベルの隠れ変数にマッチングするオブジェクトと、前記単語レベルの隠れ変数に対応するタスクドメインとに基づいて、対応する業務プロセスをトリガーすることで、前記音声命令情報に対応するタスクの完成を実現するように構成される情報処理モジュール13085と、が含まれる。
【0107】
図17に示す意味理解モデル処理装置130に関連して、本願の実施例によって提供される意味理解モデル意味処理方法を説明し、
図18を参照すると、
図18は、本願の実施例によって提供される意味理解モデル意味処理方法の1つのオプションのフローチャートであり、
図18に示すステップが、意味理解モデル処理装置が動作される様々な電子デバイスによって実行され得て、例えば、翻訳対象となる語句処理機能を有する専用端末、翻訳対象となる語句処理機能を有するサーバまたはサーバクラスタであってもよい、ということを理解されたい。以下、
図18に示すステップについて説明する。
【0108】
ステップ1801で、意味理解モデル処理装置は、音声命令の情報を取得して、前記音声命令を対応する識別可能なテキスト情報に変換する。
【0109】
ステップ1802で、意味理解モデル処理装置は、前記意味理解モデルの意味表示層ネットワークによって、識別可能なテキスト情報に対応する少なくとも1つの単語レベルの隠れ変数を決定する。
【0110】
ステップ1803で、意味理解モデル処理装置は、前記意味理解モデルのドメイン無関係検出器ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数にマッチングするオブジェクトを決定する。
【0111】
ステップ1804で、意味理解モデル処理装置は、前記意味理解モデルのドメイン分類ネットワークによって、前記少なくとも1つの単語レベルの隠れ変数に基づいて、前記単語レベルの隠れ変数に対応するタスクドメインを決定する。
【0112】
ステップ1805で意味理解モデル処理装置は、前記単語レベルの隠れ変数にマッチングするオブジェクトと、前記単語レベルの隠れ変数に対応するタスクドメインとに基づいて、対応する業務プロセスをトリガーすることで、これにより、前記音声命令の情報に対応するタスクの完成を実現する。
【0113】
以下、車載意味理解モデルを例にして、本願によって提供される意味理解モデルトレーニング方法の使用環境について説明し、
図19および
図20を参照すると、
図19は、本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図であり、本願によって提供される意味理解モデルトレーニング方法は、クラウドサービスの形式として様々な種類の顧客(車載端末にパッケージ化されるか、または異なるモバイル電子デバイスにパッケージ化される)にサービスを提供することができ、
図20は、本願の実施例によって提供される意味理解モデルトレーニング方法の使用シーンの概略図であり、具体的な使用シーンについて、本願は、具体的な制限を行わなくて、ここで、この方法は、クラウドサービスとして企業顧客に提供され、企業顧客が異なるデバイス使用環境に従って意味理解モデルをトレーニングすることに役立つ。
【0114】
図21を引き続き参照すると、
図21は、本願によって提供される意味理解モデルトレーニング方法の1つのオプションの処理フローの概略図であり、以下のステップを含み、即ち、
ステップ2101で、音声情報を取得して、前記音声情報を対応するテキスト情報に変換する。
【0115】
ここで、
図19における自然言語理解モジュールを参照すると、ユーザの音声信号は、意味理解モジュールによってテキスト信号に変換され、テキストに対して、自然言語理解モジュールによってユーザのドメイン、意図およびパラメータなどの構造化情報が抽出され、これらの意味要素は、会話管理モジュールに伝えされ、ポーリング処理や状態管理などのポリシーが実行され、最後、システムの出力は、音声合成によってユーザに放送される。
【0116】
ステップ2102で、前記テキスト情報に応答して、能動学習プロセスをトリガーすることで、対応するトレーニングサンプルを取得する。
【0117】
ここで、
図22を参照すると、
図22は、本願の実施例によって提供される意味理解モデルトレーニング方法の処理プロセスにおける能動学習プロセスの概略図であり、ネガティブコーパスモデル(OODモデル)およびドメイン分類器モデルは、いずれも、大量のネガティブサンプルをマイニングする必要があり、但し、人工によるラベリングコストが有限であるため、限られたラベリング人力の状況で、大量のデータから、最も価値があり、情報量が最も大きく、モデルゲインが最も大きいサンプルをマイニングする必要がある。このため、Active Learningの考え方に基づいて、
図22に示すようなデータマイニングプロセスを構築するようにしてもよい。これにより、Active Learningに基づく閉ループマイニングプロセスの全体は、データの生成、選択からラベリングまで、さらにモデルトレーニングまでに、生成されたサンプルが意味理解モデルにとって最も必要になって最も助けられるサンプルである、ということを保障し、また、サンプルをスクリーニングすることによって、人工によるラベリングコストを効果的に低減させる。
【0118】
ステップ2103で、取得されたトレーニングサンプルに対して、最適化処理を行う。
【0119】
ここで、大量のOODコーパス、ドメインネガティブサンプルコーパス、およびドメインポジティブサンプルコーパスが、ステップ2102によってマイニングおよび蓄積される。意味理解モデルをトレーニングする際に、ネガティブサンプルとポジティブサンプルの編成は、One V.S Allという方式によって実行され、この方式は、1つのドメイン分類器のネガティブサンプルとポジティブサンプルの割合が均衡ではないと決定し、いくつかのオプションのシーンでは、ネガティブサンプルとポジティブサンプルの割合は1:100に達し、いくつかの極端な場合では、1:2000に達する。前記意味理解モデルの実際の使用において、あるドメインのネガティブサンプルが十分であっても、トレーニングされたモデルのFAR指標は、依然として比較的高くて、したがって、bad casesの分析および実験によって、ネガティブサンプルの分布の最適化戦略が提案され得、本願のいくつかの実施例において、下記のことを含み、即ち、重要度に従ってネガティブサンプルに対してグループ化して(共通のネガティブサンプル、ドメインネガティブサンプル、他の関連ドメインのポジティブサンプル、他の非関連ドメインのポジティブサンプル)、各グループのサンプルに対して異なる重みを与え、ドメインネガティブサンプルおよび他の関連ドメインのポジティブサンプルに対して比較的高い重みを与え、他のネガティブサンプルに対して比較的低い重みを与える。
【0120】
これにより、ネガティブサンプルに対してグループ化重みのファイン最適化を行うことで、モデルの誤識別率を効果的に低減させることができる。
【0121】
ステップ2104で、最適化処理されたトレーニングサンプルによって意味理解モデルをトレーニングすることで、前記意味理解モデルのパラメータを決定する。
【0122】
これにより、トレーニング済みの意味理解モデルによって、ノイズ環境が比較的大きい環境における音声命令に対して識別および処理を行うことができる。
【0123】
ここで、
図23を参照すると、
図23は、本願の実施例によって提供される意味理解モデルの1つのオプションのモデル構造の概略図であり、モデルネットワーク側では、マルチタスク学習(Multi-task Learning)のトレーニング方式を使用して、OODモデルとドメイン分類モデルに対して共同トレーニングを行うことができる。1つのオプションのネットワーク構造は、
図23に示すようになり、ネットワーク構造の全体は、下記の2層、即ち、
1)BERTに基づくプレトレーニングモデルである意味表示層と、
2)下流タスクに関連する出力層と、
に分けられて、両方が、1つの完全接続ネットワークによって表され得る。
【0124】
本願によって提供される意味理解モデルトレーニング方法は、OOD検出器モデルとドメイン分類モデルに対して共同トレーニングを行うことができ、OODモデルは、2分類タスクであり、該コーパスがINDであるかOut of Domainであるかを判断するために使用される。ドメイン分類器モデルは、複数の2分類器によって構成され、One V.S Allというデータ編成方式を採用することができ、ドメイン分類器は、該コーパスがINDにおけるどのドメイン(天気、ナビゲーション、音楽など)であるかを判断するために使用される。さらに、OODとドメイン分類器は、非常に関連する2つタスクであるため、該コーパスがOODであれば、全てのドメイン2分類器のネガティブサンプルに違いなく、該コーパスがINDであれば、ドメイン分類器における1つまたは複数のドメインのポジティブサンプルに違いない。タスク間の相関性を利用し、1つの共同損失関数を構築することができる。
【0125】
L (・)=L_D(・)+a L_O (・)
【0126】
ここで、L_D(・)は、ドメイン分類器によって生成されたlossであり、L_O (・)Dは、OOD検出器によって生成されたlossであり、αは、1つのハイパーパラメーターであり、モデル全体のlossに対するOODの影響の程度をコントロールするためのものであり、aは、実際のトレーニング中に、1に設定されてもよく、出力層のlossについて、交差エントロピーが採用されてもよい。
【0127】
L_D(・)=-p,logp
【0128】
pは、サンプルのsoft-max予測確率であり、p^’は、サンプルのground-truthラベルである。意味表示層BERTのパラメータに対して、トレーニングプロセスにおいてfine tuningが行われ、OODおよび各ドメイン分類器の出力層パラメータは、独立に最適化される。
【0129】
これにより、フルデュプレクスの会話シーンでは、ユーザの会話相手が移転し、ユーザは、時々周りの友人と会話したり、雑談したり、独り言などをつぶやいている。本願によって提供される意味理解モデルトレーニング方法によって、会話の誤識別率を効果的に低減させ、会話する際にスマートアシスタントが誤って応答しないことを保障することが実現できる。さらに、Active Learningによって大量のネガティブサンプルをマイニングしてモデルトレーニングを行い、数回のサイクルを反復した後、意味理解モデルの初期のより高い誤識別率が合理的な範囲に低減される。同時に、ネガティブサンプルに対してグループ化を行い、異なるグループに対して異なる重みを与えることで、内部のサンプル分布を調整し、これにより、誤識別率がさらに低減される。これは、意味理解モデルが、ネガティブサンプルの分布調整により、重みが比較的大きいネガティブサンプルから、重要な情報を学習することができる一方、重みが比較的低いネガティブサンプルの情報量が、既に飽和状態になっている、ということを説明する。最後に、モデル構造側では、OOD拒否モデルを導入して共同学習を行うことにより、最終的に内部の開発セットおよびテストセットで誤識別率が異なる程度に低下され得る。これによって、本願は、スマートアシスタントのフルデュプレクスの会話シーンでの誤識別率を最適化することにより、スマートアシスタントがユーザの正確な会話要求に効果的に応答することを保証でき、非会話要求に対して拒否を行い、インタラクションの実行可能性および流暢性を保障し、ユーザの使用体験を効果的に向上させることができる。ここで、
図24は、車載システムにパッケージ化された意味理解モデルを使用してアプリケーションをウェイクアップする概略図であり、
図25は、車載システムにパッケージ化された意味理解モデルを使用して天気を調べる概略図である。勿論、本願のいくつかの実施例において、task specific layersの上にさらに後処理のrankモデルを接続することができ、モデルの入力は、OODおよび各ドメイン分類器の予測スコアであり、出力は、モデル全体の予測結果である。本願において、OOD予測結果およびドメイン分類器予測結果のみに対して1階層の論理処理が行われ、即ち、OODモデルがout of domainと予測された場合、結果を直接に返し、ドメイン分類器の予測をしなくなる。しかし、OODモデルは誤って予測する可能性があり、ドメイン分類器モデルの予測の信頼度が高いが、最終的な結果はINDであり、代替案は、このような組み合わせ関係を学習することにより、総合比較を基にして合理的な予測結果を与えることができ、これにより、意味理解モデルの意味理解結果の誤り率を低減させる。
【0130】
本願は、以下の有益な技術的効果を有し、即ち、
第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであるステップと、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップと、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するステップと、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップと、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うステップとを実行し、これにより、意味理解モデルの汎化能力がより強くなり、意味理解モデルのトレーニング精度およびトレーニング速度を向上させるとともに、既存のノイズ語句を有効かつ十分に利用してモデルトレーニング上の利得を取得することができ、意味理解モデルを異なる使用シーンに適応させ、環境ノイズが意味理解モデルに与える影響を低減させることができる。
【0131】
以上で説明したのは、本願の実施例にすぎず、本願の保護範囲を限定するように構成されたものではなく、本願の精神および原則において行われたいかなる修正、均等置換および改善などは、本願の保護範囲に含まれるものとする。
【0132】
工業実用性
本願の実施例において、第1のトレーニングサンプルセットを取得するステップであって、前記第1のトレーニングサンプルセットは、能動学習プロセスによって取得されたノイズ付きの語句サンプルであるステップと、前記第1のトレーニングサンプルセットに対してノイズ除去処理を行うことで、対応する第2のトレーニングサンプルセットを形成するステップと、意味理解モデルによって前記第2のトレーニングサンプルセットに対して処理を行うことで、前記意味理解モデルの初期パラメータを決定するステップと、前記意味理解モデルの初期パラメータに応答して、前記意味理解モデルによって前記第2のトレーニングサンプルセットを処理し、前記意味理解モデルの更新パラメータを決定するステップと、前記意味理解モデルの更新パラメータに基づいて、前記第2のトレーニングサンプルセットによって、前記意味理解モデルの意味表示層ネットワークパラメータおよびタスク関連出力層ネットワークパラメータに対して反復更新を行うステップとを実行し、これにより、意味理解モデルの汎化能力がより強くなり、意味理解モデルのトレーニング精度およびトレーニング速度を向上させるとともに、既存のノイズ語句を有効かつ十分に利用してモデルトレーニング上の利得を取得することができ、意味理解モデルを異なる使用シーンに適応させ、環境ノイズが意味理解モデルに与える影響を低減させ、電子デバイスの無効なトリガーを低減させ、意味理解モデルがモバイル端末に展開されることに有利になることができる。
【符号の説明】
【0133】
10-1 端末
10-2 端末
200 サーバ
201 プロセッサ
202 メモリ
2081 データ伝送モジュール
2082 ノイズ除去モジュール
2083 意味理解モデルトレーニングモジュール
203 ユーザインタフェース
204 ネットワークインタフェース
205 バスシステム
300 ネットワーク
1301 プロセッサ
1302 メモリ
13081 テキスト変換モジュール
13082 意味表示層ネットワークモジュール
13083 ドメイン無関係検出器ネットワークモジュール
13084 ドメイン分類ネットワークモジュール
13085 情報処理モジュール
1303 ユーザインタフェース
1304 ネットワークインタフェース
1305 バスシステム
【図 】