特開2024-161486 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特開2024-161486テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024161486

(43)【公開日】2024-11-19

(54)【発明の名称】テキスト処理タスクの類似性を確定する方法、装置、機器、および媒体

(51)【国際特許分類】

G06N 3/08 20230101AFI20241112BHJP

G06N 3/0499 20230101ALI20241112BHJP

【ＦＩ】

G06N3/08

G06N3/0499

【審査請求】有

【請求項の数】25

【出願形態】ＯＬ

【外国語出願】

【公開請求】

(21)【出願番号】P 2024135540

(22)【出願日】2024-08-15

(31)【優先権主張番号】202410674677.7

(32)【優先日】2024-05-28

(33)【優先権主張国・地域又は機関】CN

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＷＩＮＤＯＷＳＰＨＯＮＥ

２．ＡＮＤＲＯＩＤ

３．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(72)【発明者】

【氏名】ミンローンプオン

(72)【発明者】

【氏名】ミーンミーンスゥン

(72)【発明者】

【氏名】ヤービーンシー

(57)【要約】（修正有）

【課題】自然言語処理および深層学習においてテキスト処理タスク類似度を確定する方法、装置、機器、記憶媒体及びプログラムを提供する。
【解決手段】方法は、第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定することと、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得ることと、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つ、トレーニングされた複数の重要性係数を取得することと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することと、第１タスクと第２タスクのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクとのタスク類似度を確定することと、を含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

テキスト処理タスク類似度を確定する方法であって、
第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、前記トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び前記複数のネットワークモジュールに対応する複数の重要性係数を含み、前記複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられることと、
前記第１タスクと前記第２タスクとをそれぞれ目標タスクとして目標操作を行って、前記第１タスクと前記第２タスクのそれぞれの埋め込み特徴を得ることとを含み、前記目標操作は、
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することと、
前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定することと、
前記第１タスクと前記第２タスクのそれぞれの埋め込み特徴に基づいて、前記第１タスクと前記第２タスクとのタスク類似度を確定することとを含むテキスト処理タスク類似度を確定する方法。

【請求項2】

前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することは、
前記複数の重要性係数に基づいて第１損失値を確定し、前記第１損失値は前記複数の重要性係数の絶対値と正の相関を有することと、
前記トレーニングすべきニューラルネットワークが前記テキストサンプルに基づいて出力したテキスト処理結果を取得し、かつ前記テキスト処理結果に基づいて第２損失値を確定し、前記第２損失値は前記テキスト処理結果を評価するために用いられることと、
前記第１損失値および前記第２損失値に基づいて、前記複数の重要性係数および前記複数のネットワークモジュールの学習可能なパラメータを調整することとを含む請求項１に記載の方法。

【請求項3】

前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することは、
予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換することと、
連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、前記トレーニングすべきニューラルネットワークのトレーニングを停止することとを含む請求項２に記載の方法。

【請求項4】

前記複数の指示値はいずれもブール変数であり、前記予め設定されたルールは連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む請求項３に記載の方法。

【請求項5】

前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定することは、
最後の変換で得られた複数の指示値を、前記目標タスクの埋め込み特徴として確定することを含む請求項３に記載の方法。

【請求項6】

前記第１タスクおよび前記第２タスクのそれぞれの埋め込み特徴に基づいて、前記第１タスクおよび前記第２タスクのタスク類似性を確定することは、
前記第１タスクの埋め込み特徴と前記第２タスクの埋め込み特徴とにおける位置が同一でありかつ値が同一である指示値の数に基づいて、前記第１タスクと前記第２タスクとのタスク類似性を確定することを含む請求項５に記載の方法。

【請求項7】

前記トレーニングすべきニューラルネットワークはＴｒａｎｓｆｏｒｍｅｒアーキテクチャであり、前記複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含む請求項１に記載の方法。

【請求項8】

前記トレーニングすべきニューラルネットワークは、大言語モデルである請求項７に記載の方法。

【請求項9】

前記複数の重要性係数の初期値は、ランダムに初期化されて得られたものである請求項１に記載の方法。

【請求項10】

前記第１タスクと第２タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、前記第１タスクと前記第２タスクとの間でタスク移行を実行することをさらに含む請求項１に記載の方法。

【請求項11】

前記タスク移行は、
前記第１タスクのトレーニングセットを使用して前記第２タスクのトレーニングセットを強化することと、
前記第１タスクのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を前記第２タスクのためのニューラルネットワークに移行することと、、
前記第１タスクのためのニューラルネットワークと前記第２タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、前記第１タスクのためのニューラルネットワークと、前記第２タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する請求項１０に記載の方法。

【請求項12】

テキスト処理タスク類似度を確定する装置であって、
第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、前記トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び前記複数のネットワークモジュールに対応する複数の重要性係数を含み、前記複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第１確定ユニットと、
前記第１タスクと前記第２タスクとをそれぞれ目標タスクとして目標操作を行って、前記第１タスクと前記第２タスクのそれぞれの埋め込み特徴を得るように構成され、
前記目標タスクに対応するテキストサンプルを利用して前記トレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニットと、
前記トレーニングされた複数の重要性係数に基づいて、前記目標タスクの埋め込み特徴を確定するように構成される第１確定サブユニットとを含む埋め込み特徴取得ユニットと、
前記第１タスクと前記第２タスクのそれぞれの埋め込み特徴に基づいて、前記第１タスクと前記第２タスクとのタスク類似度を確定するように構成される第２確定ユニットとを含む、テキスト処理タスク類似度を確定する装置。

【請求項13】

前記トレーニングサブユニットは、
前記複数の重要性係数に基づいて第１損失値を確定し、前記第１損失値は前記複数の重要性係数の絶対値と正の相関を有するように構成される第２確定サブユニットと、
前記トレーニングすべきニューラルネットワークが前記テキストサンプルに基づいて出力したテキスト処理結果を取得し、かつ前記テキスト処理結果に基づいて第２損失値を確定し、前記第２損失値は前記テキスト処理結果を評価するために用いられるように構成される取得サブユニットと、
前記第１損失値および前記第２損失値に基づいて、前記複数の重要性係数および前記複数のネットワークモジュールの学習可能なパラメータを調整するように構成されるパラメータ調整サブユニットとを含む、請求項１２に記載の装置。

【請求項14】

前記トレーニングサブユニットは、
予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換するように構成される変換サブユニットと、
連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、前記トレーニングすべきニューラルネットワークのトレーニングを停止するように構成される早期停止サブユニットとを含む、請求項１３に記載の装置。

【請求項15】

前記複数の指示値はいずれもブール変数であり、前記予め設定されたルールは連続する複数の前記予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む請求項１４に記載の装置。

【請求項16】

前記第１確定サブユニットは、
最後の変換で得られた複数の指示値を前記目標タスクの埋め込み特徴として確定するように構成される第３確定サブユニットを含む請求項１４に記載の装置。

【請求項17】

前記第２確定ユニットは、
前記第１タスクの埋め込み特徴と前記第２タスクの埋め込み特徴とにおける位置が同一でありかつ値が同一である指示値の数に基づいて、前記第１タスクと前記第２タスクとのタスク類似性を確定するように構成される第４確定サブユニットを含む請求項１６に記載の装置。

【請求項18】

前記トレーニングすべきニューラルネットワークはＴｒａｎｓｆｏｒｍｅｒアーキテクチャであり、前記複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含む請求項１２～１７のいずれか一項に記載の装置。

【請求項19】

前記トレーニングすべきニューラルネットワークは、大言語モデルである請求項１８に記載の装置。

【請求項20】

前記複数の重要性係数の初期値は、ランダムに初期化されて得られたものである請求項１２～１７のいずれか一項に記載の装置。

【請求項21】

前記第１タスクと第２タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、前記第１タスクと前記第２タスクとの間でタスク移行を実行するように構成されるタスク移行ユニットをさらに含む請求項１２～１７のいずれか一項に記載の装置。

【請求項22】

前記タスク移行は、
前記第１タスクのトレーニングセットを使用して前記第２タスクのトレーニングセットを強化することと、
前記第１タスクのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を前記第２タスクのニューラルネットワークに移行することと、
前記第１タスクのためのニューラルネットワークと前記第２タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、前記第１タスクのためのニューラルネットワークと、前記第２タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する請求項２１に記載の装置。

【請求項23】

電子機器であって、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～１１のいずれか一項に記載の方法を実行させることを可能にする電子機器。

【請求項24】

コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～１１のいずれか一項に記載の方法を実行させるコンピュータ可読記憶媒体。

【請求項25】

コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～１１のいずれか一項に記載の方法を実行するコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、人工知能の技術分野に関し、特に、自然言語処理および深層学習などの技術分野に関し、特に、テキスト処理タスク類似度を確定する方法、テキスト処理タスク類似度を確定する装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品。

【背景技術】

【0002】

人工知能はコンピュータに人間のある思考過程と知能行為（例えば学習、ニューラルネットワークモデルのトレーニング、思考、計画など）をシミュレートさせる学科であり、ハードウェアレベルの技術もあればソフトウェアレベルの技術もある。人工インテリジェントのハードウェア技術は、一般的にセンサ、人工インテリジェント専用チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工インテリジェントソフトウェア技術は主に自然言語処理技術、コンピュータ視覚技術、音声識別技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

【0003】

該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。

【発明の概要】

【0004】

本開示は、テキスト処理タスク類似度を確定する方法、テキスト処理タスク類似度を確定する装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品を提供する。

【0005】

本開示の一態様によれば、テキスト処理タスク類似度を確定する方法を提供し、第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられることと、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得ることとを含み、目標操作は、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することと、第１タスクと第２タスクとのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクのタスク類似度を確定することとを含む。

【0006】

本開示の別の態様によれば、テキスト処理タスク類似度を確定する装置を提供し、第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第１確定ユニットと、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得るように構成され、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニットと、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するように構成される第１確定サブユニットとを含む埋め込み特徴取得ユニットと、第１タスクと第２タスクのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクとのタスク類似度を確定するように構成される第２確定ユニットとを含む。

【0007】

本開示の別の態様によれば、電子機器を提供し、該電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、これらの命令は少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサが以上に記載の方法を実行することを可能にする。

【0008】

本開示の別の態様によれば、以上に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。

【0009】

本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、コンピュータプログラムは、プロセッサによって実行されると上述の方法を実現する。

【0010】

本開示の１つまたは複数の実施形態によれば、本開示は、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。

【0011】

理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0012】

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。

【図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。

【図2】本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法のフローチャートを示す。

【図3】本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法のフローチャートを示す。

【図4】本発明の例示的な実施例による、トレーニングすべきニューラルネットワークをトレーニングするフローチャートを示す。

【図5】本発明の例示的な実施例による、トレーニングすべきニューラルネットワークをトレーニングするフローチャートを示す。

【図6】本発明の例示的な実施例による、テキスト処理タスク類似度を確定する装置の構造ブロック図を示す。

【図7】本開示の実施例を実現するために使用され得る例示的な電子機器の構造ブロック図を示す。

【発明を実施するための形態】

【0013】

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

【0014】

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第１要素と第２要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

【0015】

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。

【0016】

テキスト処理タスク（以下、単にタスクと呼ぶ）とは、テキストデータを処理および分析する必要のある具体的な作業を指す。タスクの埋め込み特徴（タスク固有のベクトル表現）を取得することによって、異なるテキスト処理タスク間の類似度のはかりを実現することができる。

【0017】

関連技術において、従来のテキスト処理タスクのタスク埋め込みを取得する方法は、いずれも高い計算コストと記憶需要を必要とし、また、異なるタスク間の類似度の評価精度を向上させる必要がある。

【0018】

上記の問題を解決するため、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。

【0019】

以下、図面を参照して本開示の実施例について詳細に説明する。

【0020】

図１は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム１００の概略図を示す。図１を参照すると、該システム１００は、一つ以上のクライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６、サーバ１２０、及び一つ以上のクライアントデバイスをサーバ１２０に結合する一つ以上の通信ネットワーク１１０を含む。クライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６は、一つ以上のアプリケーションを実行するように構成されることが可能である。

【0021】

本開示の実施例では、サーバ１２０は、本開示の方法の実行を可能にする１つまたは複数のサービスまたはソフトウェアアプリケーションを実行することができる。

【0022】

いくつかの実施例では、サーバ１２０は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、ｗｅｂベースのサービス又はクラウドサービスとして提供することができ、例えばサービスとしてのソフトウェア（ＳａａＳ）モデルでクライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供される。

【0023】

図１に示す配置では、サーバ１２０は、サーバ１２０により実行される機能を実現する一つ以上のアセンブリを含んでもよい。これらのアセンブリは、一つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ以上のクライアントアプリケーションを順次利用してサーバ１２０とやり取りをすることができる。様々な異なるシステム配置が可能であり、システム１００とは異なってもよいことを理解されたい。したがって、図１は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。

【0024】

ユーザは、クライアントデバイス１０１、１０２、１０３、１０４、１０５、および／または１０６を使用して、人間と機械との対話を行うことができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。図１では６つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。

【0025】

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、携帯型ハンドヘルドデバイス、汎用コンピュータ（例えば、パーソナルコンピュータやノートパソコン）、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓ、ＡＰＰＬＥｉＯＳ、類ＵＮＩＸ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）又は類Ｌｉｎｕｘ（登録商標）オペレーティングシステム（例えば、ＧＯＯＧＬＥＣｈｒｏｍｅＯＳ）などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント（ＰＤＡ）などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ（例えば、スマートグラス）と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットＩｎｔｅｒｎｅｔ関連アプリケーション、通信アプリケーション（例えば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。

【0026】

ネットワーク１１０は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むがこれらに限定されない）を使用することができる。例として、一つ以上のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（例えば、ブルートゥース（登録商標）、ＷＩＦＩ）、及び／又はこれら及び／又はその他のネットワークの任意の組み合わせであってもよい。

【0027】

サーバ１２０は、一つ以上の汎用コンピュータ、専用サーバコンピュータ（例えば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ）、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び／又は組み合わせを含んでもよい。サーバ１２０は、仮想オペレーティングシステムを実行する一つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ（例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの一つ以上のフレキシブルプール）を含んでもよい。様々な実施例では、サーバ１２０は、以下に説明する機能を提供する一つ以上のサービス又はソフトウェアアプリケーションを実行することができる。

【0028】

サーバ１２０における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ以上のオペレーティングシステムを実行することができる。サーバ１２０は、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び／又は中間層アプリケーションのいずれか一つを実行することもできる。

【0029】

いくつかの実施例では、サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザから受信したデータフィード及び／又はイベントの更新を分析及び統合するための一つ以上のアプリケーションを含んでもよい。サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６の一つ以上のディスプレイデバイスを介してデータフィード及び／又はリアルタイムイベントを表示する一つ以上のアプリケーションを含んでもよい。

【0030】

いくつかの実施例では、サーバ１２０は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ１２０は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。

【0031】

システム１００は、一つ以上のデータベース１３０を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース１３０のうちの一つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース１３０は、さまざまな位置に配置することができる。例えば、サーバ１２０が使用するデータベースは、サーバ１２０のローカルにあってもよいし、サーバ１２０から離れて、ネットワーク又は専用の接続を介してサーバ１２０と通信してもよい。データベース１３０は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ１２０が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。

【0032】

いくつかの実施例では、データベース１３０のうちの一つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。

【0033】

図１のシステム１００は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。

【0034】

本開示の一態様によれば、テキスト処理タスク類似度を確定する方法が提供される。図２は本開示の例示的な実施例による、テキスト処理タスク類似度を確定する方法２００のフローチャートを示す。図２に示すように、該方法はステップＳ２０１～ステップＳ２０３を含む。Ｓ２０１において、第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられる。Ｓ２０２において、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得、目標操作は、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するステップＳ２０２１と、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するステップＳ２０２２とを含む。Ｓ２０３において、第１タスクと第２タスクのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクとのタスク類似度を確定する。ステップＳ２０２１およびステップＳ２０２２は、ステップＳ２０２のサブステップであってもよいことを理解されたい。

【0035】

これにより、ニューラルネットワークに複数のネットワークモジュールの出力をスケーリングする複数の重要性係数を設定し、且つテキスト処理タスクのテキストサンプルを利用してニューラルネットワークをトレーニングし、さらにトレーニング後の重要性係数に基づいてテキスト処理タスクの埋め込み特徴を確定することで、低い計算コストおよび記憶オーバーヘッドで異なるテキスト処理タスクの埋め込み特徴を取得することを実現する。また、異なるテキスト処理タスクのテキストサンプルを用いて同じ構造のニューラルネットワークをトレーニングすることにより、タスクの埋め込み特徴を取得し、より正確なタスク類似度を得ることができる。

【0036】

前述の通り、テキスト処理タスクは、テキストデータの処理と分析を必要とする特定のタスクを指し、例えば、テキスト分類、感情分析、命名エンティティ認識、要約生成等を含むことができる。これらのテキスト処理タスクは、タスク埋め込み（タスク固有のベクトル表現）によって表すことができる．異なるタスクのタスク埋め込みは、異なるテキスト処理タスク間の類似度のはかりを実現するように、意味空間を構成することができる。

【0037】

いくつかの実施例によれば、ステップＳ２０３において、第１タスクと第２タスクとのタスク類似度を確定した後、２つのタスクの類似性に基づいて、２つのタスクを下流処理することができる。図３に示すように、上記方法は、さらに、第１タスクと第２タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、第１タスクと第２タスクとの間でタスク移行を実行するステップＳ３０４を含むことができる。なお、図３におけるステップＳ３０１～ステップＳ３０３及びそのサブステップの動作及び効果は、図２におけるステップＳ２０１～ステップＳ２０３及びそのサブステップの説明を参照でき、ここでは説明を省く。

【0038】

タスク移行とは、あるタスクの知識またはモデルを利用して、別の関連タスクのパフォーマンスを向上させることを指す。例えば、既存のニュース分類タスクのモデルとデータを使用して、新しいニュース分類タスクを支援することができ、例えば、スポーツニュース分類タスクから娯楽ニュース分類タスクに移行するか、既存の映画評論感情分析モデルを使用して製品評論感情分析の効果を高めることができる。上記方法によって、タスク間の相関関係を迅速かつ自動的に正確に取得することができ、それにより，効率的なタスク移行を実現する。

【0039】

いくつかの実施例では、データ強化によるタスク移行を実現でき、即ちソースタスク（第１タスク）のトレーニングセットを使用して目標タスク（第２タスク）のトレーニングセットを強化し、特に目標タスクデータが少ない場合は、関連タスクのデータを増やすことでモデルの汎化能力を向上させる。

【0040】

いくつかの実施例では、モデルパラメータ移行方法によりタスク移行を実現することができ、即ちソースタスク（第１タスク）でトレーニングされたモデルパラメータの一部またはすべてを目標タスク（第２タスク）のモデルに移行し、目標タスクのトレーニング時間とリソースを削減する。

【0041】

いくつかの実施例では、共同トレーニングを通じてタスク移行を実現することができ、
即ちソースタスク（第１タスク）と目標タスク（第２タスク）のモデルを同時にトレーニングし、一部のネットワーク構造又はパラメータを共有することで、２つのタスクのパフォーマンスを向上させる。

【0042】

わかるように、合理的なソースタスクは、目標タスクのパフォーマンスを大幅に向上させることができ、同様に、間違ったソースタスクは、目標タスクのパフォーマンスを損なう可能性もある。したがって、タスク移行では、ソースタスクの選択が重要である。本開示の方法を用いることで、低い計算コストおよび記憶オーバーヘッドで、目標タスクに対して高い類似性を有する多数のソースタスクを迅速に見つけることができる。

【0043】

いくつかの実施例では、テキスト処理タスク類似度を確定した後、タスクのクラスタリングとタスク推奨とをさらに行うことができる。

【0044】

タスクのクラスタリングはつまり第１タスクと第２タスクとを含む複数のタスク間のタスク類似度を確定した後、複数のタスク間のタスク類似度に基づいて複数のタスクをクラスタリングし、これにより、類似したタスクがグループ化される。これは、特にマルチタスク学習又はマルチタスク管理のシーンで、多数のタスクを整理および管理することに役立つ。

【0045】

タスク推奨はいくつかのプラットフォーム（例えば、機械学習モデル共有プラットフォーム）では、タスク埋め込みは関連するタスクまたはモデルを推奨するために用いられることができる。１つの例示的な実施例では、ユーザが処理している第１タスクの埋め込み特徴に基づいて、複数の他のタスクを第２タスクとしてタスク類似性を確定し、それにより、第１タスクに類似するタスクおよびモデルを推奨し、ユーザが関連するリソース（類似するタスクのデータセット、モデル等）を迅速に見つけるように支援する。

【0046】

本開示によって提供されるテキスト処理タスクの類似性を確定する方法は、より豊富なシーンでも用いられることができ、ここでは限定されないことを理解されたい。

【0047】

ステップＳ２０１において、第１タスクおよび第２タスクは、タスク類似度を確定する必要のある予め選択された２つのテキスト処理タスクであってもよい。トレーニングすべきニューラルネットワークモデルは、テキスト処理に使用可能な任意のニューラルネットワークモデルであってもよい。

【0048】

いくつかの実施例によれば、トレーニングすべきニューラルネットワークはＴｒａｎｓｆｏｒｍｅｒアーキテクチャであり、複数のネットワークモジュールは複数の自己注意力モジュールと複数のフィードフォワードニューラルネットワークモジュールとを含む。

【0049】

Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャのニューラルネットワークでは、各層は主にマルチヘッドアテンション（Ｍｕｌｔｉ－ＨｅａｄＡｔｔｅｎｔｉｏｎ）モジュールとフィードフォワードニューラルネットワーク（ＦｅｅｄＦｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ）モジュールと２つの部分を含む。マルチヘッドアテンションメカニズムは、次のように形式化することができる。

【数1】

ここで、Ａｔｔ（ｘ）は入力ｘに対して自己注意力メカニズムに基づく計算を行い、Ｎ_ｈはマルチヘッドのヘッド数を表し、Ｗ_Ｋ、Ｗ_Ｑ、Ｗ_Ｖ、Ｗ_Ｏは自己注意力モジュールにおける学習可能なパラメータである。

【0050】

フィードフォワードニューラルネットワークモジュールは、以下のように形式化することができる。

【数2】

ここで、ＧＥＬＵ（・）はガウス誤差線形単位（ＧａｕｓｓｉａｎＥｒｒｏｒＬｉｎｅａｒＵｎｉｔｓ）であり、ｘはフィードフォワードニューラルネットワークの入力であり、Ｗ_ＤおよびＷ_Ｕはフィードフォワードニューラルネットワークにおける学習可能なパラメータである。

【0051】

自己注意力ヘッドごとに学習可能な重要性係数ｍ_Ｈを割り当てることができ、且つ各フィードフォワードニューラルネットワークに学習可能な重要性係数ｍ_Ｆを割り当てる。

【数3】

いくつかの実施例では、トレーニングすべきニューラルネットワークは、他のネットワーク構造を採用することもでき、複数のネットワークモジュールは、他のネットワークモジュールであってもよい。例えば、完全に接続されたネットワークについて、複数のネットワークモジュールは、複数の層または複数のニューロンであってもよい。

【0052】

上述の重要性係数は学習後、対応するネットワークモジュールの出力値をスケーリングすることができ、これにより、重要なネットワークモジュールの出力値を保持又は拡大することを実現し、且つ出力への影響が少ないネットワークモジュールの出力値を縮小する。

【0053】

ステップＳ２０２において、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得ることができる。上述したように、目標動作は、ステップＳ２０２１およびステップＳ２０２２を含むことができる。

【0054】

ステップＳ２０２１を実行する前に、目標タスクに対応するトレーニングセットまたはデータセットが取得されてもよく、複数のテキストサンプルを含むことができる。テキストサンプルは、テキストデータを含むことができ、且つ対応する実（ｇｒｏｕｎｄｔｒｕｔｈ）タグを含むことができる。

【0055】

ステップＳ２０２１において、テキストサンプルにおけるテキストデータをトレーニングすべきニューラルネットワークに入力し、且つトレーニングすべきニューラルネットワークが出力したテキスト処理結果を取得することができる。さらにテキスト処理結果と実タブとの差異に基づいてトレーニングすべきニューラルネットワークのパラメータを調整することができ、複数のネットワークモジュールにおける学習可能なパラメータおよび複数の重要性係数を含む。トレーニングすべきニューラルネットワークのトレーニング終了後、トレーニングされた複数の重要性係数を取得することができる。

【0056】

ステップＳ２０２２において、トレーニングされた複数の重要性係数を目標タスクの埋め込み特徴として直接確定することができる。

【0057】

いくつかの実施例によれば、トレーニングすべきニューラルネットワークは大言語モデルである。大言語モデルに対しては、従来の方法によりタスク埋め込みを取得する計算コストと記憶コストが非常に高いが、本開示の方法を用いると、記憶する必要があるデータの量は、大言語モデルにおけるマルチヘッドアテンションモジュールの数とフィードフォワードニューラルネットワークの数だけである。いくつかの実施例では、重要性係数は、記憶する必要のあるデータ量をさらに低減するために、ブール変数（以下で説明する）とすることができる。

【0058】

いくつかの実施例によれば、複数の重要性係数の初期値はランダムに初期化されて得られたものである。異なるタスクのテキストサンプルを利用してトレーニングすべきニューラルネットワークに対してトレーニングを行い、ランダムに初期化されて得られた複数の重要性係数を、異なるタスクに対応する重要性係数の組み合わせるように収束させることができる。

【0059】

いくつかの実施例では、図４に示すように、ステップＳ２０２１において、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することはステップＳ４０１～ステップＳ４０３を含む。ステップＳ４０１において、複数の重要性係数に基づいて第１損失値を確定し、第１損失値は複数の重要性係数の絶対値と正の相関を有する。ステップＳ４０２において、トレーニングすべきニューラルネットワークがテキストサンプルに基づいて出力したテキスト処理結果を取得し、かつテキスト処理結果に基づいて第２損失値を確定し、第２損失値はテキスト処理結果を評価するために用いられる。ステップＳ４０３において、第１損失値及び第２損失値に基づいて、複数の重要性係数及び複数のネットワークモジュールの学習可能なパラメータを調整する。

【0060】

ニューラルネットワークが疎であること、すなわち、ニューラルネットワークにおいて重要な役割を果たすネットワークモジュールが疎であることを考えると、トレーニングされた複数の重要性係数も疎であるべきである。重要性係数の疎性を保証するために、トレーニング目標に１つの正則化項、すなわち第１損失値を追加することができる。

【数4】

ここで、λ_Ｈおよびλ_Ｆはバランス係数である。トレーニングすべきニューラルネットワークの全体的なトレーニングの目標は次のとおりである。

【数5】

ここで、

【数6】

はテキスト処理結果を評価するための第２損失値を示す。

【0061】

いくつかの実施例では、図５に示すように、ステップＳ２０２１において、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得することはステップＳ５０４～ステップＳ５０５を含むことができる。ステップＳ５０４において、予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換する。ステップＳ５０５において、連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止する。なお、図５におけるステップＳ５０１～ステップＳ５０３の動作は、ステップＳ４０１～ステップＳ４０３に対する上記説明を参照することができ、ここでは説明しない。

【0062】

いくつかの実施例では、重要度係数を指示値に変換することができ、
これらの指示値は早期に収束できる（１つのラウンドを超えない、つまり一回の完全なトレーニングセットのトラバースを超えない）。したがって、早期停止戦略を採用し、モデルを早期トレーニング箇所で上記のルールに従って停止させることができる。この場合、ニューラルネットワーク自体はまだ収束していない可能性があり、即ちニューラルネットワークはまだ対応する目標タスクを十分に完了できないが、重要度係数が変換されて得られた指示値はすでに収束している。

【0063】

予め設定された反復回数は、場合によってはミニエポック又はマイクエポック（ｍｉｎｉ－ｅｐｏｃｈ）とも呼ばれ、その値は必要に応じて設定することができ、ここでは限定しない．ステップＳ５０５において、連続する複数のＮの予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすと確定したことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止する。なお、Ｎの値は、必要に応じて設定可能であり、ここでは限定されない。

【0064】

いくつかの実施例では、指示値は０または１の値をとることができ、予め設定された閾値を超える重要性係数を１に変換することができ、且つ予め設定された閾値を超えない重要性係数を０に変換する。

【0065】

いくつかの実施例では、複数の指示値はいずれもブール変数であり、予め設定されたルールは連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含む。

【0066】

いくつかの実施例では、連続するいくつかのｍｉｎｉ－ｅｐｏｃｈのマスクの変化が１つの固定パラメータγを超えない場合に、トレーニングを停止することができる。理解できるのは、γの値は必要に応じて設定することができ、ここでは限定されない。

【0067】

いくつかの実施例では、ステップＳ２０２２において、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定することは、最後の変換で得られた複数の指示値を、目標タスクの埋め込み特徴として確定することを含むことができる。

【0068】

いくつかの実施例では、複数の自己注意メカニズムモジュールに対応する重要性係数の最後の変換で得られた指示値と複数のフィードフォワードニューラルネットワークモジュールに対応する重要度係数の最後の変換で得られた指示値とをつなぎ合わせ、目標タスクの埋め込み特徴を得ることができる。

【0069】

いくつかの実施例では、ステップＳ２０３において、第１タスクと第２タスクのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクとのタスク類似度を確定することは、第１タスクの埋め込み特徴と第２タスクの埋め込み特徴とにおける位置が同一かつ値が同一である指示値の数に基づいて、第１タスクと第２タスクとのタスクの類似性を確定することを含むことができる。

【0070】

位置が同一の指示値は、同じネットワークモジュール（自己注意力ヘッドまたはフィードフォワードニューラルネットワーク）に対応することを意味し、値が同一というのは、当該ネットワークモジュールが、第１タスクまたは第２タスクのいずれにおいても重要でないことを意味する。したがって、上記の方法により、正確なタスク類似度を簡便かつ迅速に得ることができる。

【0071】

本開示の別の態様によれば、テキスト処理タスク類似度を確定する装置が提供される。図６に示すように、装置６００は、第１タスク、第２タスク及びトレーニングすべきニューラルネットワークを確定し、トレーニングすべきニューラルネットワークは複数のネットワークモジュール及び複数のネットワークモジュールに対応する複数の重要性係数を含み、複数の重要性係数はそれぞれ対応するネットワークモジュールの出力値をスケーリングするために用いられるように構成される第１確定ユニット６１０と、第１タスクと第２タスクとをそれぞれ目標タスクとして目標操作を行って、第１タスクと第２タスクのそれぞれの埋め込み特徴を得るように構成され、目標タスクに対応するテキストサンプルを利用してトレーニングすべきニューラルネットワークをトレーニングし、且つトレーニングされた複数の重要性係数を取得するように構成されるトレーニングサブユニット６２２と、トレーニングされた複数の重要性係数に基づいて、目標タスクの埋め込み特徴を確定するように構成される第１確定サブユニット６２４とを含む埋め込み特徴取得ユニット６２０と、第１タスクと第２タスクのそれぞれの埋め込み特徴に基づいて、第１タスクと第２タスクとのタスク類似度を確定するように構成される第２確定ユニット６３０とを含む。

【0072】

理解できるように、装置６００におけるユニット６１０～ユニット６３０およびそのサブユニットの動作および効果は、ステップＳ２０１～ステップＳ２０３およびそのサブステップの上記説明を参照でき、ここでは説明しない。

【0073】

いくつかの実施例によれば、テキスト処理タスク類似度を確定する装置は、第１タスクと第２タスクとのタスク類似度が予め設定された類似度より大きいと確定したことに応答して、第１タスクと第２タスクとの間でタスク移行を実行するように構成されるタスク移行ユニットをさらに含むことができる。

【0074】

いくつかの実施例によれば、タスク移行は、第１タスクのトレーニングセットを使用して第２タスクのトレーニングセットを強化することと、第１タスクのためのトレーニングされたニューラルネットワークにおけるモデルパラメータの少なくとも一部を第２タスクのためのニューラルネットワークに移行することと、第１タスクのためのニューラルネットワークと第２タスクのためのニューラルネットワークとを同時にトレーニングすることとのうちの少なくとも一つを含み、ここで、第１タスクのためのニューラルネットワークと、第２タスクのためのニューラルネットワークとは、一部の構造またはパラメータを共有する。

【0075】

いくつかの実施例では、トレーニングすべきニューラルネットワークはＴｒａｎｓｆｏｒｍｅｒアーキテクチャであり、複数のネットワークモジュールは複数の自己注意力モジュール及び複数のフィードフォワードニューラルネットワークモジュールを含むことができる。

【0076】

いくつかの実施例では、トレーニングすべきニューラルネットワークは大言語モデルであってもよい。

【0077】

いくつかの実施例では、複数の重要性係数の初期値は、ランダムに初期化されて得られたものであってもよい。

【0078】

いくつかの実施例では、トレーニングサブユニットは、複数の重要性係数に基づいて第１損失値を確定し、第１損失値は複数の重要性係数の絶対値と正の相関を有するように構成される第２確定サブユニットと、トレーニングすべきニューラルネットワークがテキストサンプルに基づいて出力したテキスト処理結果を取得し、かつテキスト処理結果に基づいて第２損失値を確定し、第２損失値はテキスト処理結果を評価するために用いられるように構成される取得サブユニットと、第１損失値および第２損失値に基づいて、複数の重要性係数および複数のネットワークモジュールの学習可能なパラメータを調整するように構成されるパラメータ調整サブユニットと、を含むことができる。

【0079】

いくつかの実施例では、トレーニングサブユニットは、予め設定された反復回数のパラメータ調整をした後、予め設定された閾値に基づいて現在の複数の重要性係数を複数の指示値に変換するように構成される変換サブユニットと、連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値の変化が予め設定されたルールを満たすことに応答して、トレーニングすべきニューラルネットワークのトレーニングを停止するように構成される早期停止サブユニットとを含むことができる。

【0080】

いくつかの実施例では、複数の指示値はいずれもブール変数であり、予め設定されたルールは連続する複数の予め設定された反復回数のパラメータ調整の後、複数の指示値のうちの変化する指示値の数が予め設定されたパラメータを超えないことを含むことができる。

【0081】

いくつかの実施例によれば、第１確定サブユニットは、最後の変換で得られた複数の指示値を目標タスクの埋め込み特徴として確定するように構成される第３確定サブユニットを含むことができる。

【0082】

いくつかの実施例によれば、第２確定ユニットは、第１タスクの埋め込み特徴と第２タスクの埋め込み特徴とにおける位置が同一かつ値が同一である指示値の数に基づいて、第１タスクと第２タスクとのタスクの類似性を確定するように構成される第４確定サブユニットを含むことができる。

【0083】

本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。

【0084】

本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。

【0085】

次に、図７を参照して、本開示のサーバ又はクライアントとして機能する電子機器７００の構成ブロック図について説明し、それは、本開示の各態様に応用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限しない。

【0086】

図７に示すように、電子機器７００は、読取り専用メモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム、または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる計算ユニット７０１を含む。また、ＲＡＭ７０３には、電子機器７００の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット７０１、ＲＯＭ７０２、ＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

【0087】

電子機器７００における、入力ユニット７０６、出力ユニット７０７、記憶ユニット７０８、通信ユニット７０９を含む複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続される。入力ユニット７０６は、電子機器７００に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット７０６は、入力された数字または文字情報を受信し、電子機器のユーザ設定および／または機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、および／またはリモコンを含むがこれらに限定されない。出力ユニット７０７は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画／音声出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット７０８は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット７０９は、電子機器７００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して他の機器と情報／データを交換することを可能にし、且つモデム、ネットワークカード、赤外線通信装置、無線通信トランシーバおよび／またはチップセット、例えば、Ｂｌｕｅｔｏｏｔｈ装置、８０２．１１装置、ＷｉＦｉ装置、ＷｉＭａｘ装置、セルラ通信装置、および／または同様のものを含むことができるが、これらに限定されない。

【0088】

計算ユニット７０１は、処理および計算能力を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、上述した各方法、プロセス、および／または処理を実行する。例えば、いくつかの実施例では、これらの方法、プロセス、および／または処理は、記憶ユニット７０８などの機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されることができる。いくつかの実施例において、コンピュータプログラムの一部の又は全てはＲＯＭ７０２及び／又は通信ユニット７０９を経由して電子機器７００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ７０３にロードされ、且つ計算ユニット７０１によって実行されると、上述した方法、プロセス、および／または処理の１つ以上のステップを実行することができる。代替的に、他の実施例では、計算ユニット７０１は、他の任意の適切な方法で（例えば、ファームウェアによって）これらの方法、プロセス、および／または処理を実行するように構成される。

【0089】

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ以上のコンピュータプログラムに実施され、該一つ以上のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも一つの入力装置、該少なくとも一つの出力装置に送信してよいこと、を含んでもよい。

【0090】

本開示の方法を実施するプログラムコードは一つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

【0091】

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。

【0092】

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

【0093】

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネットとブロックチェーンネットワークを含む。

【0094】

コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。

【0095】

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

【0096】

本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

【図1】