IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-161486テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体
<>
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図1
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図2
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図3
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図4
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図5
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図6
  • 特開-テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161486
(43)【公開日】2024-11-19
(54)【発明の名称】テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体
(51)【国際特許分類】
   G06N 3/08 20230101AFI20241112BHJP
   G06N 3/0499 20230101ALI20241112BHJP
【FI】
G06N3/08
G06N3/0499
【審査請求】有
【請求項の数】25
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024135540
(22)【出願日】2024-08-15
(31)【優先権主張番号】202410674677.7
(32)【優先日】2024-05-28
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS PHONE
2.ANDROID
3.BLUETOOTH
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】ミンローン プオン
(72)【発明者】
【氏名】ミーンミーン スゥン
(72)【発明者】
【氏名】ヤービーン シー
(57)【要約】      (修正有)
【課題】自然言語処理および深層学習においてテキスト処理タスク類似度を確定する方法、装置、機器、記憶媒体及びプログラムを提供する。
【解決手段】方法は、第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定することと、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得ることと、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つ、トレーニングされた複数の重要性係数を取得することと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することと、第1タスクと第2タスクのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクとのタスク類似度を確定することと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
テキスト処理タスク類似度を確定する方法であって、
第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、前記トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び前記複数のネットワークモジュールに対応する複数の重要性係数を含み、前記複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられることと、
前記第1タスクと前記第2タスクとをそれぞれ目標タスクとして目標操作を行って、前記第1タスクと前記第2タスクのそれぞれの埋め込み特徴を得ることとを含み、前記目標操作は、
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することと、
前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定することと、
前記第1タスクと前記第2タスクのそれぞれの埋め込み特徴に基づいて、前記第1タスクと前記第2タスクとのタスク類似度を確定することとを含むテキスト処理タスク類似度を確定する方法。
【請求項2】
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することは、
前記複数の重要性係数に基づいて第1損失値を確定し、前記第1損失値は前記複数の重要性係数の絶対値と正の相関を有することと、
前記トレーニングすべきニューラルネットワークが前記テキストサンプルに基づいて出力したテキスト処理結果を取得し、かつ前記テキスト処理結果に基づいて第2損失値を確定し、前記第2損失値は前記テキスト処理結果を評価するために用いられることと、
前記第1損失値および前記第2損失値に基づいて、前記複数の重要性係数および前記複数のネットワークモジュールの学習可能なパラメータを調整することとを含む請求項1に記載の方法。
【請求項3】
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することは、
予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換することと、
連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、前記トレーニングすべきニューラルネットワークのトレーニングを停止することとを含む請求項2に記載の方法。
【請求項4】
前記複数の指示値はいずれもブール変数であり、前記予め設定されたルールは連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む請求項3に記載の方法。
【請求項5】
前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定することは、
最後の変換で得られた複数の指示値を、前記目標タスクの埋め込み特徴として確定することを含む請求項3に記載の方法。
【請求項6】
前記第1タスクおよび前記第2タスクのそれぞれの埋め込み特徴に基づいて、前記第1タスクおよび前記第2タスクのタスク類似性を確定することは、
前記第1タスクの埋め込み特徴と前記第2タスクの埋め込み特徴とにおける位置が同一でありかつ値が同一である指示値の数に基づいて、前記第1タスクと前記第2タスクとのタスク類似性を確定することを含む請求項5に記載の方法。
【請求項7】
前記トレーニングすべきニューラルネットワークはTransformerアーキテクチャであり、前記複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含む請求項1に記載の方法。
【請求項8】
前記トレーニングすべきニューラルネットワークは、大言語モデルである請求項7に記載の方法。
【請求項9】
前記複数の重要性係数の初期値は、ランダムに初期化されて得られたものである請求項1に記載の方法。
【請求項10】
前記第1タスクと第2タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、前記第1タスクと前記第2タスクとの間でタスク移行を実行することをさらに含む請求項1に記載の方法。
【請求項11】
前記タスク移行は、
前記第1タスクのトレーニングセットを使用して前記第2タスクのトレーニングセットを強化することと、
前記第1タスクのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を前記第2タスクのためのニューラルネットワークに移行することと、、
前記第1タスクのためのニューラルネットワークと前記第2タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、前記第1タスクのためのニューラルネットワークと、前記第2タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する請求項10に記載の方法。
【請求項12】
テキスト処理タスク類似度を確定する装置であって、
第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、前記トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び前記複数のネットワークモジュールに対応する複数の重要性係数を含み、前記複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第1確定ユニットと、
前記第1タスクと前記第2タスクとをそれぞれ目標タスクとして目標操作を行って、前記第1タスクと前記第2タスクのそれぞれの埋め込み特徴を得るように構成され、
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニットと、
前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定するように構成される第1確定サブユニットとを含む埋め込み特徴取得ユニットと、
前記第1タスクと前記第2タスクのそれぞれの埋め込み特徴に基づいて、前記第1タスクと前記第2タスクとのタスク類似度を確定するように構成される第2確定ユニットとを含む、テキスト処理タスク類似度を確定する装置。
【請求項13】
前記トレーニングサブユニットは、
前記複数の重要性係数に基づいて第1損失値を確定し、前記第1損失値は前記複数の重要性係数の絶対値と正の相関を有するように構成される第2確定サブユニットと、
前記トレーニングすべきニューラルネットワークが前記テキストサンプルに基づいて出力したテキスト処理結果を取得し、かつ前記テキスト処理結果に基づいて第2損失値を確定し、前記第2損失値は前記テキスト処理結果を評価するために用いられるように構成される取得サブユニットと、
前記第1損失値および前記第2損失値に基づいて、前記複数の重要性係数および前記複数のネットワークモジュールの学習可能なパラメータを調整するように構成されるパラメータ調整サブユニットとを含む、請求項12に記載の装置。
【請求項14】
前記トレーニングサブユニットは、
予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換するように構成される変換サブユニットと、
連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、前記トレーニングすべきニューラルネットワークのトレーニングを停止するように構成される早期停止サブユニットとを含む、請求項13に記載の装置。
【請求項15】
前記複数の指示値はいずれもブール変数であり、前記予め設定されたルールは連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む請求項14に記載の装置。
【請求項16】
前記第1確定サブユニットは、
最後の変換で得られた複数の指示値を前記目標タスクの埋め込み特徴として確定するように構成される第3確定サブユニットを含む請求項14に記載の装置。
【請求項17】
前記第2確定ユニットは、
前記第1タスクの埋め込み特徴と前記第2タスクの埋め込み特徴とにおける位置が同一でありかつ値が同一である指示値の数に基づいて、前記第1タスクと前記第2タスクとのタスク類似性を確定するように構成される第4確定サブユニットを含む請求項16に記載の装置。
【請求項18】
前記トレーニングすべきニューラルネットワークはTransformerアーキテクチャであり、前記複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含む請求項12~17のいずれか一項に記載の装置。
【請求項19】
前記トレーニングすべきニューラルネットワークは、大言語モデルである請求項18に記載の装置。
【請求項20】
前記複数の重要性係数の初期値は、ランダムに初期化されて得られたものである請求項12~17のいずれか一項に記載の装置。
【請求項21】
前記第1タスクと第2タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、前記第1タスクと前記第2タスクとの間でタスク移行を実行するように構成されるタスク移行ユニットをさらに含む請求項12~17のいずれか一項に記載の装置。
【請求項22】
前記タスク移行は、
前記第1タスクのトレーニングセットを使用して前記第2タスクのトレーニングセットを強化することと、
前記第1タスクのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を前記第2タスクのニューラルネットワークに移行することと、
前記第1タスクのためのニューラルネットワークと前記第2タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、前記第1タスクのためのニューラルネットワークと、前記第2タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する請求項21に記載の装置。
【請求項23】
電子機器であって、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~11のいずれか一項に記載の方法を実行させることを可能にする電子機器。
【請求項24】
コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~11のいずれか一項に記載の方法を実行させるコンピュータ可読記憶媒体。
【請求項25】
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~11のいずれか一項に記載の方法を実行するコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、特に、自然言語処理および深層学習などの技術分野に関し、特に、テキスト処理タスク類似度を確定する方法、テキスト処理タスク類似度を確定する装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品。
【背景技術】
【0002】
人工知能はコンピュータに人間のある思考過程と知能行為(例えば学習、ニューラルネットワークモデルのトレーニング、思考、計画など)をシミュレートさせる学科であり、ハードウェアレベルの技術もあればソフトウェアレベルの技術もある。人工インテリジェントのハードウェア技術は、一般的にセンサ、人工インテリジェント専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工インテリジェントソフトウェア技術は主に自然言語処理技術、コンピュータ視覚技術、音声識別技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
【0003】
該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0004】
本開示は、テキスト処理タスク類似度を確定する方法、テキスト処理タスク類似度を確定する装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品を提供する。
【0005】
本開示の一態様によれば、テキスト処理タスク類似度を確定する方法を提供し、第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられることと、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得ることとを含み、目標操作は、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することと、第1タスクと第2タスクとのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクのタスク類似度を確定することとを含む。
【0006】
本開示の別の態様によれば、テキスト処理タスク類似度を確定する装置を提供し、第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第1確定ユニットと、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得るように構成され、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニットと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するように構成される第1確定サブユニットとを含む埋め込み特徴取得ユニットと、第1タスクと第2タスクのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクとのタスク類似度を確定するように構成される第2確定ユニットとを含む。
【0007】
本開示の別の態様によれば、電子機器を提供し、該電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、これらの命令は少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサが以上に記載の方法を実行することを可能にする。
【0008】
本開示の別の態様によれば、以上に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
【0009】
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、コンピュータプログラムは、プロセッサによって実行されると上述の方法を実現する。
【0010】
本開示の1つまたは複数の実施形態によれば、本開示は、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。
【0011】
理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。
図2】本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法のフローチャートを示す。
図3】本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法のフローチャートを示す。
図4】本発明の例示的な実施例による、トレーニングすべきニューラルネットワークをトレーニングするフローチャートを示す。
図5】本発明の例示的な実施例による、トレーニングすべきニューラルネットワークをトレーニングするフローチャートを示す。
図6】本発明の例示的な実施例による、テキスト処理タスク類似度を確定する装置の構造ブロック図を示す。
図7】本開示の実施例を実現するために使用され得る例示的な電子機器の構造ブロック図を示す。
【発明を実施するための形態】
【0013】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0014】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1要素と第2要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0015】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。
【0016】
テキスト処理タスク(以下、単にタスクと呼ぶ)とは、テキストデータを処理および分析する必要のある具体的な作業を指す。タスクの埋め込み特徴(タスク固有のベクトル表現)を取得することによって、異なるテキスト処理タスク間の類似度のはかりを実現することができる。
【0017】
関連技術において、従来のテキスト処理タスクのタスク埋め込みを取得する方法は、いずれも高い計算コストと記憶需要を必要とし、また、異なるタスク間の類似度の評価精度を向上させる必要がある。
【0018】
上記の問題を解決するため、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。
【0019】
以下、図面を参照して本開示の実施例について詳細に説明する。
【0020】
図1は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。図1を参照すると、該システム100は、一つ以上のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ以上のクライアントデバイスをサーバ120に結合する一つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ以上のアプリケーションを実行するように構成されることが可能である。
【0021】
本開示の実施例では、サーバ120は、本開示の方法の実行を可能にする1つまたは複数のサービスまたはソフトウェアアプリケーションを実行することができる。
【0022】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えばサービスとしてのソフトウェア(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0023】
図1に示す配置では、サーバ120は、サーバ120により実行される機能を実現する一つ以上のアセンブリを含んでもよい。これらのアセンブリは、一つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ以上のクライアントアプリケーションを順次利用してサーバ120とやり取りをすることができる。様々な異なるシステム配置が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0024】
ユーザは、クライアントデバイス101、102、103、104、105、および/または106を使用して、人間と機械との対話を行うことができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0025】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0026】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ以上のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、WIFI)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0027】
サーバ120は、一つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの一つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する一つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0028】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
【0029】
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための一つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の一つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ以上のアプリケーションを含んでもよい。
【0030】
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0031】
システム100は、一つ以上のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの一つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0032】
いくつかの実施例では、データベース130のうちの一つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0033】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
【0034】
本開示の一態様によれば、テキスト処理タスク類似度を確定する方法が提供される。図2は本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法200のフローチャートを示す。図2に示すように、該方法はステップS201~ステップS203を含む。S201において、第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられる。S202において、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得、目標操作は、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するステップS2021と、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するステップS2022とを含む。S203において、第1タスクと第2タスクのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクとのタスク類似度を確定する。ステップS2021およびステップS2022は、ステップS202のサブステップであってもよいことを理解されたい。
【0035】
これにより、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。
【0036】
前述の通り、テキスト処理タスクは、テキストデータの処理と分析を必要とする特定のタスクを指し、例えば、テキスト分類、感情分析、命名エンティティ認識、要約生成等を含むことができる。これらのテキスト処理タスクは、タスク埋め込み(タスク固有のベクトル表現)によって表すことができる.異なるタスクのタスク埋め込みは、異なるテキスト処理タスク間の類似度のはかりを実現するように、意味空間を構成することができる。
【0037】
いくつかの実施例によれば、ステップS203において、第1タスクと第2タスクとのタスク類似度を確定した後、2つのタスクの類似性に基づいて、2つのタスクを下流処理することができる。図3に示すように、上記方法は、さらに、第1タスクと第2タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、第1タスクと第2タスクとの間でタスク移行を実行するステップS304を含むことができる。なお、図3におけるステップS301~ステップS303及びそのサブステップの動作及び効果は、図2におけるステップS201~ステップS203及びそのサブステップの説明を参照でき、ここでは説明を省く。
【0038】
タスク移行とは、あるタスクの知識またはモデルを利用して、別の関連タスクのパフォーマンスを向上させることを指す。例えば、既存のニュース分類タスクのモデルとデータを使用して、新しいニュース分類タスクを支援することができ、例えば、スポーツニュース分類タスクから娯楽ニュース分類タスクに移行するか、既存の映画評論感情分析モデルを使用して製品評論感情分析の効果を高めることができる。上記方法によって、タスク間の相関関係を迅速かつ自動的に正確に取得することができ、それにより,効率的なタスク移行を実現する。
【0039】
いくつかの実施例では、データ強化によるタスク移行を実現でき、即ちソースタスク(第1タスク)のトレーニングセットを使用して目標タスク(第2タスク)のトレーニングセットを強化し、特に目標タスクデータが少ない場合は、関連タスクのデータを増やすことでモデルの汎化能力を向上させる。
【0040】
いくつかの実施例では、モデルパラメータ移行方法によりタスク移行を実現することができ、即ちソースタスク(第1タスク)でトレーニングされたモデルパラメータの一部またはすべてを目標タスク(第2タスク)のモデルに移行し、目標タスクのトレーニング時間とリソースを削減する。
【0041】
いくつかの実施例では、共同トレーニングを通じてタスク移行を実現することができ、
即ちソースタスク(第1タスク)と目標タスク(第2タスク)のモデルを同時にトレーニングし、一部のネットワーク構造又はパラメータを共有することで、2つのタスクのパフォーマンスを向上させる。
【0042】
わかるように、合理的なソースタスクは、目標タスクのパフォーマンスを大幅に向上させることができ、同様に、間違ったソースタスクは、目標タスクのパフォーマンスを損なう可能性もある。したがって、タスク移行では、ソースタスクの選択が重要である。本開示の方法を用いることで、低い計算コストおよび記憶オーバーヘッドで、目標タスクに対して高い類似性を有する多数のソースタスクを迅速に見つけることができる。
【0043】
いくつかの実施例では、テキスト処理タスク類似度を確定した後、タスクのクラスタリングとタスク推奨とをさらに行うことができる。
【0044】
タスクのクラスタリングはつまり第1タスクと第2タスクとを含む複数のタスク間のタスク類似度を確定した後、複数のタスク間のタスク類似度に基づいて複数のタスクをクラスタリングし、これにより、類似したタスクがグループ化される。これは、特にマルチタスク学習又はマルチタスク管理のシーンで、多数のタスクを整理および管理することに役立つ。
【0045】
タスク推奨はいくつかのプラットフォーム(例えば、機械学習モデル共有プラットフォーム)では、タスク埋め込みは関連するタスクまたはモデルを推奨するために用いられることができる。1つの例示的な実施例では、ユーザが処理している第1タスクの埋め込み特徴に基づいて、複数の他のタスクを第2タスクとしてタスク類似性を確定し、それにより、第1タスクに類似するタスクおよびモデルを推奨し、ユーザが関連するリソース(類似するタスクのデータセット、モデル等)を迅速に見つけるように支援する。
【0046】
本開示によって提供されるテキスト処理タスクの類似性を確定する方法は、より豊富なシーンでも用いられることができ、ここでは限定されないことを理解されたい。
【0047】
ステップS201において、第1タスクおよび第2タスクは、タスク類似度を確定する必要のある予め選択された2つのテキスト処理タスクであってもよい。トレーニングすべきニューラルネットワークモデルは、テキスト処理に使用可能な任意のニューラルネットワークモデルであってもよい。
【0048】
いくつかの実施例によれば、トレーニングすべきニューラルネットワークはTransformerアーキテクチャであり、複数のネットワークモジュールは複数の自己注意力モジュールと複数のフィードフォワードニューラルネットワークモジュールとを含む。
【0049】
Transformerアーキテクチャのニューラルネットワークでは、各層は主にマルチヘッドアテンション(Multi-Head Attention)モジュールとフィードフォワードニューラルネットワーク(Feed Forward Neural Network)モジュールと2つの部分を含む。マルチヘッドアテンションメカニズムは、次のように形式化することができる。
【数1】
ここで、Att(x)は入力xに対して自己注意力メカニズムに基づく計算を行い、Nはマルチヘッドのヘッド数を表し、W、W、W、Wは自己注意力モジュールにおける学習可能なパラメータである。
【0050】
フィードフォワードニューラルネットワークモジュールは、以下のように形式化することができる。
【数2】
ここで、GELU(・)はガウス誤差線形単位(Gaussian Error Linear Units)であり、xはフィードフォワードニューラルネットワークの入力であり、WおよびWはフィードフォワードニューラルネットワークにおける学習可能なパラメータである。
【0051】
自己注意力ヘッドごとに学習可能な重要性係数mを割り当てることができ、且つ各フィードフォワードニューラルネットワークに学習可能な重要性係数mを割り当てる。
【数3】
いくつかの実施例では、トレーニングすべきニューラルネットワークは、他のネットワーク構造を採用することもでき、複数のネットワークモジュールは、他のネットワークモジュールであってもよい。例えば、完全に接続されたネットワークについて、複数のネットワークモジュールは、複数の層または複数のニューロンであってもよい。
【0052】
上述の重要性係数は学習後、対応するネットワークモジュールの出力値をスケーリングすることができ、これにより、重要なネットワークモジュールの出力値を保持又は拡大することを実現し、且つ出力への影響が少ないネットワークモジュールの出力値を縮小する。
【0053】
ステップS202において、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得ることができる。上述したように、目標動作は、ステップS2021およびステップS2022を含むことができる。
【0054】
ステップS2021を実行する前に、目標タスクに対応するトレーニングセットまたはデータセットが取得されてもよく、複数のテキストサンプルを含むことができる。テキストサンプルは、テキストデータを含むことができ、且つ対応する実(ground truth)タグを含むことができる。
【0055】
ステップS2021において、テキストサンプルにおけるテキストデータをトレーニングすべきニューラルネットワークに入力し、且つトレーニングすべきニューラルネットワークが出力したテキスト処理結果を取得することができる。さらにテキスト処理結果と実タブとの差異に基づいてトレーニングすべきニューラルネットワークのパラメータを調整することができ、複数のネットワークモジュールにおける学習可能なパラメータおよび複数の重要性係数を含む。トレーニングすべきニューラルネットワークのトレーニング終了後、トレーニングされた複数の重要性係数を取得することができる。
【0056】
ステップS2022において、トレーニングされた複数の重要性係数を目標タスクの埋め込み特徴として直接確定することができる。
【0057】
いくつかの実施例によれば、トレーニングすべきニューラルネットワークは大言語モデルである。大言語モデルに対しては、従来の方法によりタスク埋め込みを取得する計算コストと記憶コストが非常に高いが、本開示の方法を用いると、記憶する必要があるデータの量は、大言語モデルにおけるマルチヘッドアテンションモジュールの数とフィードフォワードニューラルネットワークの数だけである。いくつかの実施例では、重要性係数は、記憶する必要のあるデータ量をさらに低減するために、ブール変数(以下で説明する)とすることができる。
【0058】
いくつかの実施例によれば、複数の重要性係数の初期値はランダムに初期化されて得られたものである。異なるタスクのテキストサンプルを利用してトレーニングすべきニューラルネットワークに対してトレーニングを行い、ランダムに初期化されて得られた複数の重要性係数を、異なるタスクに対応する重要性係数の組み合わせるように収束させることができる。
【0059】
いくつかの実施例では、図4に示すように、ステップS2021において、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することはステップS401~ステップS403を含む。ステップS401において、複数の重要性係数に基づいて第1損失値を確定し、第1損失値は複数の重要性係数の絶対値と正の相関を有する。ステップS402において、トレーニングすべきニューラルネットワークがテキストサンプルに基づいて出力したテキスト処理結果を取得し、かつテキスト処理結果に基づいて第2損失値を確定し、第2損失値はテキスト処理結果を評価するために用いられる。ステップS403において、第1損失値及び第2損失値に基づいて、複数の重要性係数及び複数のネットワークモジュールの学習可能なパラメータを調整する。
【0060】
ニューラルネットワークが疎であること、すなわち、ニューラルネットワークにおいて重要な役割を果たすネットワークモジュールが疎であることを考えると、トレーニングされた複数の重要性係数も疎であるべきである。重要性係数の疎性を保証するために、トレーニング目標に1つの正則化項、すなわち第1損失値を追加することができる。
【数4】
ここで、λおよびλはバランス係数である。トレーニングすべきニューラルネットワークの全体的なトレーニングの目標は次のとおりである。
【数5】
ここで、
【数6】
はテキスト処理結果を評価するための第2損失値を示す。
【0061】
いくつかの実施例では、図5に示すように、ステップS2021において、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することはステップS504~ステップS505を含むことができる。ステップS504において、予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換する。ステップS505において、連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止する。なお、図5におけるステップS501~ステップS503の動作は、ステップS401~ステップS403に対する上記説明を参照することができ、ここでは説明しない。
【0062】
いくつかの実施例では、重要度係数を指示値に変換することができ、
これらの指示値は早期に収束できる(1つのラウンドを超えない、つまり一回の完全なトレーニングセットのトラバースを超えない)。したがって、早期停止戦略を採用し、モデルを早期トレーニング箇所で上記のルールに従って停止させることができる。この場合、ニューラルネットワーク自体はまだ収束していない可能性があり、即ちニューラルネットワークはまだ対応する目標タスクを十分に完了できないが、重要度係数が変換されて得られた指示値はすでに収束している。
【0063】
予め設定された反復回数は、場合によってはミニエポック又はマイクエポック(mini-epoch)とも呼ばれ、その値は必要に応じて設定することができ、ここでは限定しない.ステップS505において、連続する複数のNの予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止する。なお、Nの値は、必要に応じて設定可能であり、ここでは限定されない。
【0064】
いくつかの実施例では、指示値は0または1の値をとることができ、予め設定された閾値を超える重要性係数を1に変換することができ、且つ予め設定された閾値を超えない重要性係数を0に変換する。
【0065】
いくつかの実施例では、複数の指示値はいずれもブール変数であり、予め設定されたルールは連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む。
【0066】
いくつかの実施例では、連続するいくつかのmini-epochのマスクの変化が1つの固定パラメータγを超えない場合に、トレーニングを停止することができる。理解できるのは、γの値は必要に応じて設定することができ、ここでは限定されない。
【0067】
いくつかの実施例では、ステップS2022において、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することは、最後の変換で得られた複数の指示値を、目標タスクの埋め込み特徴として確定することを含むことができる。
【0068】
いくつかの実施例では、複数の自己注意メカニズムモジュールに対応する重要性係数の最後の変換で得られた指示値と複数のフィードフォワードニューラルネットワークモジュールに対応する重要度係数の最後の変換で得られた指示値とをつなぎ合わせ、目標タスクの埋め込み特徴を得ることができる。
【0069】
いくつかの実施例では、ステップS203において、第1タスクと第2タスクのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクとのタスク類似度を確定することは、第1タスクの埋め込み特徴と第2タスクの埋め込み特徴とにおける位置が同一かつ値が同一である指示値の数に基づいて、第1タスクと第2タスクとのタスクの類似性を確定することを含むことができる。
【0070】
位置が同一の指示値は、同じネットワークモジュール(自己注意力ヘッドまたはフィードフォワードニューラルネットワーク)に対応することを意味し、値が同一というのは、当該ネットワークモジュールが、第1タスクまたは第2タスクのいずれにおいても重要でないことを意味する。したがって、上記の方法により、正確なタスク類似度を簡便かつ迅速に得ることができる。
【0071】
本開示の別の態様によれば、テキスト処理タスク類似度を確定する装置が提供される。図6に示すように、装置600は、第1タスク、第2タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第1確定ユニット610と、第1タスクと第2タスクとをそれぞれ目標タスクとして目標操作を行って、第1タスクと第2タスクのそれぞれの埋め込み特徴を得るように構成され、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニット622と、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するように構成される第1確定サブユニット624とを含む埋め込み特徴取得ユニット620と、第1タスクと第2タスクのそれぞれの埋め込み特徴に基づいて、第1タスクと第2タスクとのタスク類似度を確定するように構成される第2確定ユニット630とを含む。
【0072】
理解できるように、装置600におけるユニット610~ユニット630およびそのサブユニットの動作および効果は、ステップS201~ステップS203およびそのサブステップの上記説明を参照でき、ここでは説明しない。
【0073】
いくつかの実施例によれば、テキスト処理タスク類似度を確定する装置は、第1タスクと第2タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、第1タスクと第2タスクとの間でタスク移行を実行するように構成されるタスク移行ユニットをさらに含むことができる。
【0074】
いくつかの実施例によれば、タスク移行は、第1タスクのトレーニングセットを使用して第2タスクのトレーニングセットを強化することと、第1タスクのためのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を第2タスクのためのニューラルネットワークに移行することと、第1タスクのためのニューラルネットワークと第2タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、ここで、第1タスクのためのニューラルネットワークと、第2タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する。
【0075】
いくつかの実施例では、トレーニングすべきニューラルネットワークはTransformerアーキテクチャであり、複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含むことができる。
【0076】
いくつかの実施例では、トレーニングすべきニューラルネットワークは大言語モデルであってもよい。
【0077】
いくつかの実施例では、複数の重要性係数の初期値は、ランダムに初期化されて得られたものであってもよい。
【0078】
いくつかの実施例では、トレーニングサブユニットは、複数の重要性係数に基づいて第1損失値を確定し、第1損失値は複数の重要性係数の絶対値と正の相関を有するように構成される第2確定サブユニットと、トレーニングすべきニューラルネットワークがテキストサンプルに基づいて出力したテキスト処理結果を取得し、かつテキスト処理結果に基づいて第2損失値を確定し、第2損失値はテキスト処理結果を評価するために用いられるように構成される取得サブユニットと、第1損失値および第2損失値に基づいて、複数の重要性係数および複数のネットワークモジュールの学習可能なパラメータを調整するように構成されるパラメータ調整サブユニットと、を含むことができる。
【0079】
いくつかの実施例では、トレーニングサブユニットは、予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換するように構成される変換サブユニットと、連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止するように構成される早期停止サブユニットとを含むことができる。
【0080】
いくつかの実施例では、複数の指示値はいずれもブール変数であり、予め設定されたルールは連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含むことができる。
【0081】
いくつかの実施例によれば、第1確定サブユニットは、最後の変換で得られた複数の指示値を目標タスクの埋め込み特徴として確定するように構成される第3確定サブユニットを含むことができる。
【0082】
いくつかの実施例によれば、第2確定ユニットは、第1タスクの埋め込み特徴と第2タスクの埋め込み特徴とにおける位置が同一かつ値が同一である指示値の数に基づいて、第1タスクと第2タスクとのタスクの類似性を確定するように構成される第4確定サブユニットを含むことができる。
【0083】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0084】
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0085】
次に、図7を参照して、本開示のサーバ又はクライアントとして機能する電子機器700の構成ブロック図について説明し、それは、本開示の各態様に応用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0086】
図7に示すように、電子機器700は、読取り専用メモリ(ROM)702に記憶されたコンピュータプログラム、または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる計算ユニット701を含む。また、RAM703には、電子機器700の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット701、ROM702、RAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
【0087】
電子機器700における、入力ユニット706、出力ユニット707、記憶ユニット708、通信ユニット709を含む複数のコンポーネントは、I/Oインターフェース705に接続される。入力ユニット706は、電子機器700に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット706は、入力された数字または文字情報を受信し、電子機器のユーザ設定および/または機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、および/またはリモコンを含むがこれらに限定されない。出力ユニット707は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画/音声出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット708は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット709は、電子機器700がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して他の機器と情報/データを交換することを可能にし、且つモデム、ネットワークカード、赤外線通信装置、無線通信トランシーバおよび/またはチップセット、例えば、Bluetooth装置、802.11装置、WiFi装置、WiMax装置、セルラ通信装置、および/または同様のものを含むことができるが、これらに限定されない。
【0088】
計算ユニット701は、処理および計算能力を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上述した各方法、プロセス、および/または処理を実行する。例えば、いくつかの実施例では、これらの方法、プロセス、および/または処理は、記憶ユニット708などの機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されることができる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM702及び/又は通信ユニット709を経由して電子機器700にロード及び/又はインストールされてよい。コンピュータプログラムがRAM703にロードされ、且つ計算ユニット701によって実行されると、上述した方法、プロセス、および/または処理の1つ以上のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他の任意の適切な方法で(例えば、ファームウェアによって)これらの方法、プロセス、および/または処理を実行するように構成される。
【0089】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ以上のコンピュータプログラムに実施され、該一つ以上のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも一つの入力装置、該少なくとも一つの出力装置に送信してよいこと、を含んでもよい。
【0090】
本開示の方法を実施するプログラムコードは一つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0091】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
【0092】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0093】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0094】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0095】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0096】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】