(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175116
(43)【公開日】2024-12-17
(54)【発明の名称】テキスト検索モデルのトレーニング方法、テキスト検索方法、装置及び機器
(51)【国際特許分類】
G06N 20/00 20190101AFI20241210BHJP
G06F 16/90 20190101ALI20241210BHJP
【FI】
G06N20/00 130
G06F16/90 100
【審査請求】有
【請求項の数】20
【出願形態】OL
【公開請求】
(21)【出願番号】P 2024163313
(22)【出願日】2024-09-20
(31)【優先権主張番号】202410509240.8
(32)【優先日】2024-04-25
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100090033
【弁理士】
【氏名又は名称】荒船 博司
(74)【代理人】
【識別番号】100093045
【弁理士】
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】金 松
(72)【発明者】
【氏名】鄭 磊
(72)【発明者】
【氏名】張 晶
(72)【発明者】
【氏名】▲シン▼ 國亮
(57)【要約】 (修正有)
【課題】テキスト検索モデルのトレーニング方法、テキスト処理方法、装置、電子機器、記憶媒体及びプログラムを提供する。
【解決手段】方法は、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得し、クエリすべきサンプルテキストのテキストマークタグ及び第1出力テキストマークに基づいて、第1テキスト検索モデルをトレーニングし、目標検索もセルを取得する。クエリすべきサンプルテキストは第1目標参照テキストに対応し、テキストマークタグは第1目標参照テキストの参照テキストマークであり、複数の参照テキストマークは参照テキストシーケンスに基づいて決定し、参照テキストシーケンスは複数の参照テキストの語彙に基づいて決定し、第1テキスト検索モデルは複数の参照テキスト及び対応する複数の参照テキストマークを利用してトレーニングして得、参照テキストに対応する参照テキストマークを出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得することと、
前記クエリすべきサンプルテキストのテキストマークタグと前記第1出力テキストマークに基づいて、前記第1テキスト検索モデルをトレーニングし、目標テキスト検索モデルを取得することと、を含み、
ここで、前記クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、前記テキストマークタグは、前記第1目標参照テキストの参照テキストマークであり、複数の前記参照テキストマークは、参照テキストシーケンスに基づいて決定され、前記参照テキストシーケンスは、複数の前記参照テキストの語彙に基づいて決定され、
前記第1テキスト検索モデルは、複数の前記参照テキスト及び対応する複数の前記参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られ、これにより、前記参照テキストに対応する前記参照テキストマークを出力する
テキスト検索モデルのトレーニング方法。
【請求項2】
前記第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して、以下の操作により初期テキスト検索モデルをトレーニングして得られたものであり、
前記操作は、
前記参照テキストを初期テキスト検索モデルに入力し、前記参照テキストの第2出力テキストマークを取得し、
前記第2出力テキストマーク及び前記参照テキストマークに基づいて、前記初期テキスト検索モデルを全量微調整して、前記第1テキスト検索モデルを取得することである
請求項1に記載の方法。
【請求項3】
前記第2出力テキストマーク及び前記参照テキストマークに基づいて、前記初期テキスト検索モデルを全量微調整することは、
前記第2出力テキストマーク及び前記参照テキストマークに基づいて、交差エントロピー損失を決定することと、
前記交差エントロピー損失に基づいて、前記初期テキスト検索モデルを全量微調整することと、を含む
請求項2に記載の方法。
【請求項4】
複数の前記参照テキストはN個の参照テキストセットからのものであり、前記参照テキストセットは少なくとも1つの前記参照テキストを含み、Nは1より大きい整数であり、
前記参照テキストシーケンスは、複数の前記参照テキストの語彙に基づいて、以下の操作によって決定され、
前記操作は、
N個の前記参照テキストセットに対してそれぞれクラスタリング処理を行い、N個の前記参照テキストセットにおける前記参照テキストの順序を調整し、N個の処理後テキストセットを取得し、
N個の前記処理後テキストセットに基づいて、融合テキストセットを取得し、
複数の前記参照テキストのそれぞれの語彙に基づいて、前記融合テキストセットに対してクラスタリング処理を行い、前記融合テキストセットにおける複数の前記参照テキストの順序を調整して、前記参照テキストシーケンスを取得することである
請求項1に記載の方法。
【請求項5】
前記クエリすべきサンプルテキストは、複数の前記第1目標参照テキストに対応し、前記参照テキストマークは、第1参照テキストサブマーク及び第2参照テキストサブマークを含み、複数の前記第1目標参照テキスト同士の第1参照テキストサブマークが同じである
請求項1に記載の方法。
【請求項6】
前記第1テキスト検索モデルをトレーニングすることは、
前記第1テキスト検索モデルを全量微調整することを含む
請求項1に記載の方法。
【請求項7】
前記参照テキストは、ルールテキストであり、前記第1テキスト検索モデルは、大規模言語モデルである
請求項1に記載の方法。
【請求項8】
クエリすべきテキストを目標テキスト検索モデルに入力して、現在出力結果を取得することと、
前記現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、前記第2目標参照テキストを前記クエリすべきテキストに対応する検索結果とすることと、を含み、
ここで、前記目標テキスト検索モデルは、クエリすべきサンプルテキストとテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られ、前記クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、前記テキストマークタグは、前記第1目標参照テキストの参照テキストマークである
テキスト検索方法。
【請求項9】
前記目標テキスト検索モデルは、大規模言語モデルであり、
前記方法は、
前記現在出力結果が複数の参照テキストのいずれかにヒットしていないと決定したことに応答して、前記現在出力結果の後出力結果が複数の参照テキストにおける第2目標参照テキストにヒットするまで、前記クエリすべきテキストを目標テキスト検索モデルに入力する操作を繰り返し実行することをさらに含む
請求項8に記載の方法。
【請求項10】
クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得する第1取得モジュールと、
前記クエリすべきサンプルテキストのテキストマークタグと前記第1出力テキストマークに基づいて、前記第1テキスト検索モデルをトレーニングして、目標テキスト検索モデルを取得するトレーニングモジュールと、を含み、
ここで、前記クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、前記テキストマークタグは、前記第1目標参照テキストの参照テキストマークであり、複数の前記参照テキストマークは、参照テキストシーケンスに基づいて決定され、前記参照テキストシーケンスは、複数の前記参照テキストの語彙に基づいて決定され、
前記第1テキスト検索モデルは、複数の前記参照テキスト及び対応する複数の前記参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られ、これにより、前記参照テキストに対応する前記参照テキストマークを出力する
テキスト検索モデルのトレーニング装置。
【請求項11】
前記第1テキスト検索モデルは、
前記参照テキストを初期テキスト検索モデルに入力し、前記参照テキストの第2出力テキストマークを取得する第2取得モジュールと、
前記第2出力テキストマーク及び前記参照テキストマークに基づいて、前記初期テキスト検索モデルを全量微調整して、前記第1テキスト検索モデルを取得する第1微調整モジュールと、により、
複数の参照テキスト及び対応する複数の参照テキストマークを用いて初期テキスト検索モデルをトレーニングすることにより得られる
請求項10に記載の装置。
【請求項12】
前記第1微調整モジュールは、
前記第2出力テキストマークと前記参照テキストマークに基づいて、交差エントロピー損失を決定する第1決定サブモジュールと、
前記交差エントロピー損失に基づいて、前記初期テキスト検索モデルを全量微調整する第1微調整サブモジュールと、を含む
請求項11に記載の装置。
【請求項13】
複数の前記参照テキストはN個の参照テキストセットからのものであり、前記参照テキストセットは少なくとも1つの前記参照テキストを含み、Nは1より大きい整数であり、
前記参照テキストシーケンスは、
N個の前記参照テキストセットに対してそれぞれクラスタリング処理を行い、N個の前記参照テキストセットにおける前記参照テキストの順序を調整し、N個の処理後テキストセットを取得する第1クラスタリング処理モジュールと、
N個の前記処理後テキストセットに基づいて、融合テキストセットを取得する第3取得モジュールと、
複数の前記参照テキストのそれぞれの語彙に基づいて、前記融合テキストセットに対してクラスタリング処理を行い、前記融合テキストセットにおける複数の前記参照テキストの順序を調整して、前記参照テキストシーケンスを取得する第2クラスタリング処理モジュールと、によって、
複数の前記参照テキストの語彙に基づいて決定される
請求項10に記載の装置。
【請求項14】
前記トレーニングモジュールは、
前記第1テキスト検索モデルを全量微調整する第2微調整サブモジュールを含む
請求項10に記載の装置。
【請求項15】
前記参照テキストは、ルールテキストであり、前記第1テキスト検索モデルは、大規模言語モデルである
請求項10に記載の装置。
【請求項16】
クエリすべきテキストを目標テキスト検索モデルに入力して、現在出力結果を取得する第4取得モジュールと、
前記現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、前記第2目標参照テキストを前記クエリすべきテキストに対応する検索結果とする決定モジュールと、を含み、
ここで、前記目標テキスト検索モデルは、クエリすべきサンプルテキスト及びテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られたものであり、前記クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、前記テキストマークタグは、前記第1目標参照テキストの参照テキストマークである、
テキスト検索装置。
【請求項17】
前記目標テキスト検索モデルは、大規模言語モデルであり、
前記装置は、
前記現在出力結果が複数の参照テキストのいずれかにヒットしていないと決定したことに応答して、前記現在出力結果の後出力結果が複数の参照テキストにおける第2目標参照テキストにヒットするまで、前記クエリすべきテキストを目標テキスト検索モデルに入力する操作を繰り返し実行する実行モジュールをさらに含む
請求項16に記載の装置。
【請求項18】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は、前記少なくとも一つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。
【請求項19】
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。
【請求項20】
プロセッサにより実行される場合に請求項1~7のいずれか一項に記載の方法を実現する
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特に、深層学習、大規模言語モデル、自然言語理解及び検索などの技術分野に関する。より具体的には、本開示は、テキスト検索モデルのトレーニング方法、テキスト処理方法、装置、電子機器及び記憶媒体を提供する。
【背景技術】
【0002】
人工知能技術の発展に伴い、大規模言語モデル(Large Language Model、LLM)は、検索タスクを実行するために使用されてもよい。
【発明の概要】
【0003】
本開示は、テキスト検索モデルのトレーニング方法、テキスト処理方法、装置、電子機器、記憶媒体及びプログラムを提供する。
【0004】
本開示の一態様によれば、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得することと、クエリすべきサンプルテキストのテキストマークタグと第1出力テキストマークに基づいて、第1テキスト検索モデルをトレーニングし、目標テキスト検索モデルを取得することと、を含み、ここで、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは、第1目標参照テキストの参照テキストマークであり、複数の参照テキストマークは、参照テキストシーケンスに基づいて決定され、参照テキストシーケンスは、複数の参照テキストの語彙に基づいて決定され、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られ、これにより、参照テキストに対応する参照テキストマークを出力する、テキスト検索モデルのトレーニング方法を提供する。
【0005】
本開示の別の態様によれば、クエリすべきテキストを目標テキスト検索モデルに入力して、現在出力結果を取得することと、現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、第2目標参照テキストをクエリすべきテキストに対応する検索結果とすることと、を含み、ここで、目標テキスト検索モデルは、クエリすべきサンプルテキストとテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られ、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは、第1目標参照テキストの参照テキストマークである、テキスト検索方法を提供する。
【0006】
本開示のもう1つの態様によれば、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得する第1取得モジュールと、クエリすべきサンプルテキストのテキストマークタグと第1出力テキストマークに基づいて、第1テキスト検索モデルをトレーニングして、目標テキスト検索モデルを取得するトレーニングモジュールと、を含み、ここで、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは、第1目標参照テキストの参照テキストマークであり、複数の参照テキストマークは、参照テキストシーケンスに基づいて決定され、参照テキストシーケンスは、複数の参照テキストの語彙に基づいて決定され、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られ、これにより、参照テキストに対応する参照テキストマークを出力する、テキスト検索モデルのトレーニング装置を提供する。
【0007】
本開示のもう1つの態様によれば、クエリすべきテキストを目標テキスト検索モデルに入力して、現在出力結果を取得する第4取得モジュールと、現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、第2目標参照テキストをクエリすべきテキストに対応する検索結果とする決定モジュールと、を含み、ここで、目標テキスト検索モデルは、クエリすべきサンプルテキスト及びテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られたものであり、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは、第1目標参照テキストの参照テキストマークである、テキスト検索装置を提供する。
【0008】
本開示のもう1つの態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサが本開示に提供される方法を実行できるように、少なくとも1つのプロセッサによって実行される、電子機器を提供する。
【0009】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、当該コンピュータ命令は、コンピュータに本開示に提供される方法を実行させる。
【0010】
本開示の別の態様によれば、プロセッサによって実行されると、本開示に提供される方法を実現するコンピュータプログラムを提供する。
【0011】
本部分に記載された内容は、本開示の実施例のキー又は重要な特徴を識別するためのものではなく、本開示の範囲を制限するものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本発明をより良く理解するためのものであり、本開示を限定するものではない。
【
図1】
図1は、本開示の一実施例に係るテキスト検索モデルのトレーニング方法のフローチャートである。
【
図2A】
図2Aは、本開示の一実施例に係る初期テキスト検索モデルをトレーニングする模式図である。
【
図2B】
図2Bは、本開示の一実施例に係る第1テキスト検索モデルをトレーニングする模式図である。
【
図3】
図3は、本開示の別の実施例に係るテキスト検索方法のフローチャートである。
【
図4】
図4は、本開示の一実施例に係るテキスト検索方法の模式図である。
【
図5】
図5は、本開示の一実施例に係るテキスト検索モデルのトレーニング装置のブロック図である。
【
図6】本開示の別の実施例に係るテキスト検索装置のブロック図である。
【
図7】
図7は、本開示の一実施例に係るテキスト検索モデルのトレーニング方法及び/又はテキスト検索方法を適用可能な電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本開示の例示的な実施例を説明し、理解を容易にするために、本開示の実施例の様々な詳細を含み、これらは例示的なものに過ぎない。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここに記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔にするため、以下の説明では、公知の機能及び構造についての説明を省略する。
【0014】
法律や政策などの規則書類の普及に伴い、法律条文や政策に対するユーザの問い合わせニーズがますます強くなっている。対応する法律条文検索システム、政策内容検索システムも発展している。法律条文検索システムを例として、法律条文検索システムは、法律条文の一部の内容に基づいて精確又は曖昧検索を行ってもよく、又は、法律全文を提供してもよい。
【0015】
しかしながら、法律条文検索システムのいくつかは、主に弁護士などの法律的な知識を有する専門家に対している。これらの専門家は、ある法律のある条文が既知である場合、検索システムを利用して完全オーソリティの法律条文を検索することができる。この検索システムは、本質的にすべての法律を含むデータベースであり、法律の知識を持たない又は少ない非専門家が関連法律を検索することに支援することは難しい。
【0016】
また、問題と法律条文との間の語彙類似度に基づいて、該検索システムは検索結果を提供する。しかしながら、問題が簡単であり、あるいは、問題に法律キーワードがある場合、当該検索システムは、良好な検索結果を提供することができ、問題と法律条文との間の細粒度語彙関係をマイニングすることが困難である。この検索システムは、複雑な問題を理解しにくい。問題が複雑で、曖昧又は不明瞭である場合、該検索システムは、良好な検索結果を提供することが困難である。
【0017】
これにより、比較的複雑な問題に基づいて検索を行うために、本開示は、テキスト検索モデルのトレーニング方法を提供し、以下に説明する。
【0018】
図1は、本開示の一実施例に係るテキスト検索モデルのトレーニング方法のフローチャートである。
【0019】
図1に示すように、当該方法100は、操作S110~操作S120を含んでもよい。
【0020】
操作S110において、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得する。
【0021】
本開示の実施例において、クエリすべきサンプルテキストは複雑な問題であってもよく、簡単な問題であってもよい。例えば、クエリすべきサンプルテキストは、「西に鉄皮ビルを建築し、住宅団地の低層の太陽光を遮蔽し、国家に法律規定があるか否か」であってもよい。当該クエリすべきサンプルテキストは、複雑な問題であってもよい。
【0022】
本開示の実施例において、第1テキスト検索モデルは、生成式人工知能モデルであってもよい。
【0023】
本開示の実施例において、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを用いて初期検索モデルをトレーニングして得られたものであってもよい。例えば、参照テキストは、法律条文であってもよい。複数の参照テキストにおける第1参照テキストの法律条文は、例えば、「《中華人民共和国民法典》第293条、建物を建築する場合、国家に関連する工事建設標注に違反せず、隣接する建物の通風、採光及び日射の妨げにならない」であってもよい。当該第1参照テキストの参照テキストマークは「55648」であってもよい。
【0024】
本開示の実施例において、複数の参照テキストマークは、参照テキストシーケンスに基づいて決定されてもよい。参照テキストシーケンスは、複数の参照テキストの語彙に基づいて決定されてもよい。例えば、参照テキストシーケンスは、一定の順序で配列された複数の参照テキストであってもよい。この順序は、参照テキストの語彙に基づいて決定されてもよい。2つの参照テキストの語彙類似度が大きい場合、対応する2つの参照テキストマークの間の差分が小さい。複数の参照テキストは、現行の法律条文と廃止された法律条文とを含んでもよい。複数の参照テキストにおける第2参照テキストは、「《中華人民共和国物権法》第89条[通風、採光および日射に関する規定]建物を建築する場合、国家に関連する工事建設標注に違反せず、隣接する建物の通風、採光及び日射の妨げにならない」という法律条文であってもよく、当該第2参照テキストの参照テキストマークは「55942」であってもよい。
【0025】
本開示の実施例において、第1テキスト検索モジュールは、参照テキストに対応する参照テキストマークを出力することができる。例えば、上記第1参照テキストを第1テキスト検索モデルに入力すると、参照テキストマーク「55648」が得られる。上記第2参照テキストを第1テキスト検索モデルに入力すると、参照テキストマーク「55942」が得られる。
【0026】
本開示の実施例において、第1出力テキストマークは、参照マークと類似または一致する文字列であってもよい。
【0027】
操作S120において、クエリすべきサンプルテキストのテキストマークタグ及び第1出力テキストマークに基づいて、第1テキスト検索モデルをトレーニングし、目標検索モデルを取得する。
【0028】
本開示の実施例において、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応することができる。例えば、上記クエリすべきサンプルテキストは、上記第1参照テキストに対応してもよい。第1参照テキストは、第1目標参照テキストとすることができる。
【0029】
本開示の実施例において、テキストマークタグは、第1目標参照テキストの参照テキストマークであってもよい。例えば、前記クエリすべきサンプルテキストのテキストマークタグは、参照テキストマーク「55648」であってもよい。
【0030】
本開示の実施例において、各種損失関数を利用して、テキストマークタグと第1出力テキストマークとの間の差分を決定することができる。この差分に基づいて、第1テキスト検索モデルをトレーニングすることができる。
【0031】
本開示の実施例によれば、参照テキストマークは、語彙高さに関連する参照テキストシーケンスに基づいて決定され、モデルが対応するトレーニングタスクを効率的に理解するのに役立つ。第1テキスト検索モデルは、参照テキスト及び対応するテキストを利用してトレーニングされたものであり、第1テキスト検索モデルのモデルパラメータと参照テキストとが極めて強い関連性を有するようにし、第1テキスト検索モデルが複数の参照テキストから目標参照テキストを検索する能力を有するようにし、テキスト検索モデルがテキストを直接生成することによる生成テキストが実際の参照テキストと異なることを効果的に避け、テキスト検索モデルの権威性を十分に向上させる。また、クエリすべきサンプルテキスト及び対応するテキストマークタグを利用して第1テキスト検索モデルをトレーニングすることにより、クエリすべきサンプルテキストと参照テキストに関連するモデルパラメータとの間の十分なインタラクションを実現することができ、モデルが複雑な問題を理解するのに役立ち、モデルが複雑な問題と法律条文との関係を正確に決定し、計算の複雑さを低減する。
【0032】
以上、本開示のトレーニング方法を説明したが、以下、本開示の参照テキストマークについてさらに説明する。
【0033】
いくつかの実施例において、複数の参照テキストはN個の参照テキストセットに由来する。参照テキストセットは、少なくとも1つの参照テキストを含んでもよい。Nは1より大きい整数であってもよい。例えば、参照テキストが法律条文であることを例として、法律条文が属する法律全文を1つの参照テキストセットとしてもよい。《民法典-物権編》を1つの参照テキストセットとしてもよい。《民法典-物権編》における各法律条文を1つの参照テキストとすることができる。
【0034】
いくつかの実施例において、参照テキストシーケンスは、複数の参照テキストの語彙に基づいて以下の操作によって決定される:N個の参照テキストセットに対してそれぞれクラスタリング処理を行い、N個の参照テキストセットにおける参照テキストの順序を調整して、N個の処理後テキストセットを取得する。例えば、N個の参照テキストセットに対応する法律全文は、《民法典-物権編》、《民法典-契約編》及び《教育法》などを含む。《民法典-契約編》における法律条文は契約に関するものが多い。《教育法》における法律条文は教育に関するものが多い。よって、同一の参照テキストセットにおける異なる参照テキストは、近い語彙関係を有する。参照テキストセットにおける各参照テキストの語彙に基づいて、1つ又は複数の参照テキストセットに対してそれぞれクラスタリング処理を行い、各クラスタリング処理された参照テキストセットに1つ又は複数のクラスタを形成し、これらの参照テキストセットにおける参照テキストの順序を調整し、1つ又は複数の処理後テキストセットを取得することができる。
【0035】
いくつかの実施例において、参照テキストシーケンスは、複数の参照テキストの語彙に基づいて以下の操作によって決定される:N個の処理後テキストセットに基づいて、融合テキストセットを取得する。例えば、N個の参照テキストセットに対してクラスタリング処理を行うと、得られたN個の処理後テキストセットをそれぞれ融合テキストセットのN個のサブセットとすることができる。各サブセットは、1つの処理後テキストセットにおける全ての参照テキストを含んでもよい。
【0036】
いくつかの実施例において、参照テキストシーケンスは、複数の参照テキストの語彙に基づいて以下の操作によって決定される:複数の参照テキストのそれぞれの語彙に基づいて、融合テキストセットに対してクラスタリング処理を行い、融合テキストセットにおける複数の参照テキストの順序を調整し、参照テキストシーケンスを取得する。例えば、異なる法律に由来する異なる法律条文の間に、近い語彙関係を有してもよい。融合テキストセットにおける複数の参照テキストのそれぞれの語彙に基づいて、融合テキストセットに対してクラスタリング処理を行い、複数の参照テキストの順序を再度調整し、参照テキストシーケンスを取得し、異なる法律における近いまたは類似の語彙を有する異なる法律条文の間の距離が近くなるようにすることができる。次に、参照テキストシーケンスにおける複数の参照テキストの順序に基づいて、複数の参照テキストのマークを順次決定してもよい。
【0037】
他のいくつかの実施例では、N個の参照テキストセットの全ての参照テキストに対してランダム整数マークを行ってもよいと理解することができる。即ち、各参照テキストのマークは、一つのランダム整数であってもよい。しかしながら、生成式人工知能モデルは、1つずつの要素(token)で生成された出力方式を採用する。参照テキストに対してランダム整数マークを行うと、生成式人工知能モデルが複数の参照テキスト間の複雑な関係を学習しにくい。
【0038】
本開示の実施例によれば、N個の参照テキストセットに対してクラスタリング処理を行って、テキストセット内の参照テキスト間の語彙関係を十分に使用する。さらに、クラスタリング処理された複数の処理後テキストセットに対して再度クラスタリング処理を行うことにより、異なるテキストセット間の参照テキストの語彙関係を十分に使用することができ、複数の参照テキストを語彙に関連する順序でソートして、語彙類似度が高い異なる参照テキストが同一又は類似の参照テキストマークのプレフィックスを有するようにして、モデルが異なる参照テキスト間の語彙関係を十分に有効に利用することができる。
【0039】
以上、本開示の参照テキスト及び参照テキストマークについて説明したが、以下、本開示の第一テキスト検索モデルについて更に説明する。
【0040】
いくつかの実施例において、第1テキスト検索モデルは、大規模言語モデルであってもよい。例えば、大規模言語モデルは、文心一言モデル、対話型生成式事前トレーニング(ChatGPT)モデルなどの様々な大規模言語モデルであってもよい。
【0041】
本開示の実施例において、第1テキスト検索モデルは、初期テキスト検索モデルをトレーニングして得られたものである。初期テキスト検索モデルは、大量のテキストデータを利用してトレーニングした後の事前トレーニングモデルであってもよく、強い語彙理解能力を有する。以下、
図2Aを参照して初期テキスト検索モデルのトレーニング方法について説明する。
【0042】
図2Aは、本開示の一実施例に係る初期テキスト検索モデルをトレーニングする模式図である。
【0043】
いくつかの実施例において、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して、以下の操作によって初期テキスト検索モデルをトレーニングして得られる:参照テキストを初期テキスト検索モデルに入力し、参照テキストの第2出力テキストマークを取得する。
図2Aに示すように、参照テキスト201、参照テキスト202、参照テキスト203及び参照テキスト204をそれぞれ初期テキスト検索モデルM200に入力し、参照テキスト201の出力テキストマーク2011、参照テキスト202の出力テキストマーク2021、参照テキスト203の出力テキストマーク2031及び参照テキスト204の出力テキストマーク2041を取得することができる。出力テキストマーク2011~出力テキストマーク2041は、それぞれ第2出力テキストマークとすることができる。
【0044】
いくつかの実施例において、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して、以下の操作によって初期テキスト検索モデルをトレーニングして得られたものであってもよく:第2出力テキストマーク及び参照テキストマークに基づいて、初期テキスト検索モデルを全量微調整する。例えば、参照テキスト201は、上記第1参照テキストであってもよい。よって、参照テキスト201の参照テキストマークは「55648」であってもよい。また、例えば、参照テキスト202は、上記第2参照テキストであってもよい。参照テキスト202の参照テキストマークは「55942」であってもよい。
【0045】
本開示の実施例において、第2出力テキストマーク及び参照テキストマークに基づいて、初期テキスト検索モデルを全量微調整することは、第2出力テキストマーク及び参照テキストマークに基づいて、交差エントロピー損失を決定することを含む。交差エントロピー損失に基づいて、初期テキスト検索モデルを全量微調整する。例えば、初期テキスト検索モデルは、複数の文字列及び複数の対応確率を出力してもよい。対応確率が最も大きい文字列を第2出力テキストマークとする。モデルのトレーニング目標は、ターゲット間尤度の最大化であってもよい。すなわち、モデルパラメータを調整することにより、参照テキストマークと一致する文字列の対応確率が最大となるようにすることができる。交差エントロピー損失関数を利用して、第2出力テキストマークと参照テキストマークとの間の交差エントロピー損失を決定することができる。参照テキストに対応する交差エントロピー損失に基づいて、初期テキスト検索モデルを全量微調整し、第1テキスト検索モデルを取得する。また、例えば、参照テキスト201の出力テキストマーク2011と参照テキストマーク「55648」との間の交差エントロピー損失を決定し、モデルを全量微調整することができる。参照テキスト202の出力テキストマーク2021と参照テキストマーク「55942」との間の交差エントロピー損失を決定し、モデルを再度に全量微調整することもできる。
【0046】
本開示の実施例によれば、参照テキスト及び参照テキストマークを利用して初期テキスト検索モデルをトレーニングし、トレーニングされた第1テキスト検索モデルは、テキストに基づいてテキストマークを出力することができるようになる。当該出力テキストマークに基づいて、複数の参照テキストから目標参照テキストを検索することができ、モデルの権威性の向上に寄与し、モデル「だまし絵」によるモデル精度の低下を回避する。
【0047】
以上、本開示が初期テキスト検索モデルをトレーニングする方式について説明したが、以下、第1テキスト検索モデルをトレーニングする方式について説明する。
【0048】
図2Bは、本開示の一実施例に係る第1テキスト検索モデルをトレーニングする模式図である。
【0049】
いくつかの実施例において、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得することができる。
図2Bに示すように、クエリすべきサンプルテキスト210は、上記クエリすべきサンプルテキスト「西に鉄皮ビルを建築し、住宅団地の低層の太陽光を遮蔽し、国家に法律規定があるか否か」であってもよい。クエリすべきサンプルテキスト210を第1テキスト検索モデルM201に入力し、クエリすべきサンプルテキスト210の出力テキストマーク211を取得することができる。出力テキストマーク211を第1出力テキストマークとしてもよい。
【0050】
本開示の実施例において、クエリすべきサンプルテキストは、第1目標参照テキストに対応することができる。例えば、複数のトレーニングテキストペアを取得することができる。法律条文を例として、トレーニングテキストペアは、クエリすべきサンプルテキスト及び対応解答法律条文を含んでもよい。対応解答法律条文は、第1目標参照テキストとすることができる。対応解答法律条文の参照テキストマークは、クエリすべきサンプルテキストのテキストマークタグとすることができる。クエリすべきサンプルテキスト210は、参照テキスト201に対応してもよい。参照テキスト201は、クエリすべきサンプルテキスト210に対応する第1目標参照テキストとすることができる。参照テキスト201の参照テキストマーク「55648」は、クエリすべきサンプルテキスト210のテキストマークタグとすることができる。
【0051】
いくつかの実施例において、クエリすべきサンプルテキストのテキストマークタグ及び第1出力テキストタグに基づいて、第1テキスト検索モデルをトレーニングすることができる。
【0052】
本開示の実施例において、第1テキスト検索モデルをトレーニングすることは、第1テキスト検索モデルを全量微調整することを含んでもよい。例えば、クエリすべきサンプルテキスト210のテキストマークタグ「55648」及びクエリすべきサンプルテキスト210の出力テキストマーク211に基づいて、各種損失関数(例えば、上記交差エントロピー損失関数)を利用して損失値を決定することができる。この損失値を利用して第1テキスト検索モデルを全量微調整することができる。全てのクエリすべきサンプルテキストトレーニング及び対応するテキストマークタグのうちの一部を利用して第1テキスト検索モデルをトレーニングした後、第2ファイル検索モデルを取得することができる。全てのクエリすべきサンプルテキスト及び対応するテキストマークタグを用いてモデルをトレーニングした後、得られたモデルは、目標テキスト検索モデルとすることができる。
【0053】
本開示の実施例によれば、複数の参照テキストと複数の参照テキストマークを利用してモデルをトレーニングした後、さらにクエリすべきサンプルテキスト及び対応するテキストマークタグを利用してモデルを再度にトレーニングした後、モデルが複雑な問題を処理する性能を効果的に向上させ、モデルが問題に対応するテキストマークを正確に出力することに役立つ。
【0054】
以上、クエリすべきサンプルテキストが1つの第1目標参照テキストに対応することを例として、本開示を説明した。しかしながら、本開示はこれに限定されず、クエリすべきサンプルテキストは、複数の第1目標参照テキストに対応してもよく、以下、これについて説明する。
【0055】
いくつかの実施例において、参照テキストマークは、第1参照テキストサブマーク及び第2参照テキストサブマークを含んでもよい。例えば、参照テキストマーク「55648」は、第1参照テキストサブマーク「55」及び第2参照テキストサブマーク「648」を含んでもよい。参照テキストマーク「55942」は、第1参照テキストサブマーク「55」及び第2参照テキストサブマーク「942」を含んでもよい。理解できるように、第1参照テキストサブマークは、上記参照テキストマークのプレフィックスであってもよい。
【0056】
いくつかの実施例において、クエリすべきサンプルテキストに対応する複数の第1目標参照テキスト同士の第1参照テキストサブマークは同じである。例えば、参照テキストマーク「55648」及び参照テキストマーク「55942」は、同じ第1参照テキストサブマーク「55」を有する。
【0057】
理解できるように、以上、参照テキストが法律条文であることを例として、本開示を説明した。ただし、本開示はこれに限定されず、以下、これについて説明する。
【0058】
いくつかの実施例において、参照テキストは、ルールテキストであってもよい。ルールテキストは、法律条文、政策ファイルの条文及び標準ファイルの条文などの各権威機関によって作成されたファイルの条文を含んでもよい。
【0059】
以上、本開示のテキスト検索モデルのトレーニング方法について説明したが、以下、本開示のテキスト検索方法について説明する。
【0060】
図3は、本開示の別の実施例に係るテキスト検索方法のフローチャートである。
【0061】
図3に示すように、当該方法300は、操作S310~操作S320を含んでもよい。
【0062】
操作S310において、クエリすべきテキストを目標テキスト検索モデルに入力し、現在出力結果を取得する。
【0063】
本開示の実施例において、クエリすべきテキストは、ユーザが入力した問題であってもよい。
【0064】
本開示の実施例において、目標テキスト検索モデルは、クエリすべきサンプルテキスト及びテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られたものである。第1テキスト検索モデルは、生成式人工知能モデルであってもよい。クエリすべきサンプルテキストは複雑な問題であってもよく、簡単な問題であってもよい。
【0065】
本開示の実施例において、クエリすべきサンプルテキストは複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは第1目標参照テキストの参照テキストマークである。参照テキストマークは、文字列であってもよい。
【0066】
本開示の実施例において、現在出力結果は1つの文字列であってもよい。
【0067】
操作S320において、現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、第2目標参照テキストをクエリすべきテキストに対応する検索結果とする。
【0068】
本開示の実施例において、現在出力結果に基づいて、複数の参照テキストから検索して、現在出力結果が第2目標参照テキストにヒットしたか否かを決定することができる。現在出力結果が複数の参照テキストのうちの1つの参照テキストにヒットした場合、ヒットされた参照テキストは第2目標参照テキストとすることができる。該第2目標参照テキストは検索結果としてユーザに返されてもよい。
【0069】
本開示の実施例によれば、クエリすべきサンプルテキスト及び対応するテキストマークタグを用いてトレーニングして目標検索モデルを取得し、複雑な問題の検索結果の正確性を効率的に向上させることができる。さらに、目標テキスト検索モデルを利用して検索結果を決定することにより、少ないリソースを消費し、非専門業者が専門分野のテキストを正確に検索するコストを低減することができる。
【0070】
上記方法300に係る目標テキスト検索モデルは、方法100を用いて第1テキスト検索モデルをトレーニングして得られたものであると理解することができる。上記の第1テキスト検索モデル、参照テキスト、参照テキストマーク、クエリすべきサンプルテキストに関する詳細な説明は、同様に方法300における第1テキスト検索モデル、参照テキスト、参照テキストマーク、クエリすべきサンプルテキストに適用することができ、本開示はここでは繰り返しません。
【0071】
以上、本開示のテキスト検索方法について説明したが、以下、本開示のテキスト検索方法についてさらに説明する。
【0072】
図4は、本開示の一実施例に係るテキスト検索方法の模式図である。
【0073】
本開示の実施例において、クエリすべきテキストを目標テキスト検索モデルに入力し、現在出力結果を取得することは、クエリすべきテキストを目標テキスト検索モデルのエンコーダに入力し、符号化結果を取得することを含むことができる。符号化結果を目標テキスト検索モデルのデコーダに入力して、符号化結果に対してビームサーチ(beam search)復号化を行い、複数の現在出力結果を取得する。
図4に示すように、目標テキスト検索モデルM403のエンコーダは、クエリすべきテキスト420を符号化し、符号化結果を取得することができる。次に、目標テキスト検索モデルM403のデコーダは、符号化結果に対してビームサーチ復号化を行い、現在出力結果421と現在出力結果422を取得することができる。上記のクエリすべきサンプルテキスト210をクエリすべきテキスト420とすれば、現在出力結果421は「55648」であってもよく、現在出力結果422は「55942」であってもよい。本開示の実施例によれば、符号化結果に対してビームサーチ復号化を行って、モデルがマルチ結果の出力能力を有し、クエリすべきテキストとの関連性が高い参照テキストを全面的に検索する。
【0074】
本開示の実施例において、現在出力結果は整数文字列であってもよい。例えば、非整数文字列の尤度確率を低減し、整数文字列の確率を十分に向上させることができるように、目標テキスト検索モデルの出力結果を配置する。
【0075】
本開示の実施例において、現在出力結果に基づいて、複数の参照テキストから検索することができる。例えば、現在出力結果421及び現在出力結果422に基づいて、複数の参照テキストから検索することができる。現在出力結果421が上記第1参照テキストにヒットしたと決定してもよく、現在出力結果422が上記第2参照テキストにヒットしたと決定してもよい。この場合、上記第1参照テキスト及び第2参照テキストは、クエリすべきテキスト420の検索結果とすることができる。
【0076】
以上、符号化結果に対してビームサーチ復号化を行うことを例として、本開示を説明したと理解することができる。しかしながら、本開示はこれに限定されず、他の復号化方式で符号化結果を復号化してもよい。
【0077】
以上、現在出力結果が1つ又は複数の参照テキストにヒットすることを例として、本開示を説明したと理解することができる。以下、現在出力結果が参照テキストにヒットしなかった場合を例として説明する。
【0078】
いくつかの実施例において、目標テキスト検索モデルは、大規模言語モデルであってもよい。例えば、符号化処理及び復号化処理の少なくとも一方において、大規模言語モデルは、一定のランダム性を導入してもよい。
【0079】
いくつかの実施例において、上記方法300は、現在出力結果が複数の参照テキストのいずれかにヒットしていないと決定したことに応答して、現在出力結果の後出力結果が複数の参照テキストにおける第2目標参照テキストにヒットするまで、クエリすべきテキストを目標テキスト検索モデルに入力する操作を繰り返し実行することをさらに含んでもよい。例えば、クエリすべきテキストの現在出力結果が複数の参照テキストのいずれかの参照テキストにヒットしなかった場合、当該クエリすべきテキストを目標テキスト検索モデルに再度入力し、上記現在出力結果の1つの後出力結果を取得することができる。次に、当該後出力結果が複数の参照テキストのうちの1つ又は複数の参照テキストにヒットしたか否かを決定する。1回以上繰り返して、後出力結果が複数の参照テキストにおける第2目標参照テキストにヒットした場合、該第2目標参照テキストを該クエリすべきテキストの検索結果とする。本開示の実施例によれば、出力結果が参照テキストにヒットしない場合、モデルを利用して再推論を行うことにより、モデルのロバスト性をさらに向上させることができる。
【0080】
以上、本開示の方法を説明したと理解することができるが、以下、本開示の装置について説明する。
【0081】
図5は、本開示の一実施例に係るテキスト検索モデルのトレーニング装置のブロック図である。
【0082】
図5に示すように、当該装置500は、第1取得モジュール510及びトレーニングモジュール520を含んでもよい。
【0083】
第1取得モジュール510は、クエリすべきサンプルテキストを第1テキスト検索モデルに入力し、第1出力テキストマークを取得する。
【0084】
トレーニングモジュール520は、クエリすべきサンプルテキストのテキストマークタグ及び第1出力テキストマークに基づいて、第1テキスト検索モデルをトレーニングし、目標テキスト検索モデルを取得する。
【0085】
本開示の実施例において、クエリすべきサンプルテキストは、複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは、第1目標参照テキストの参照テキストマークであり、複数の参照テキストマークは参照テキストシーケンスに基づいて決定され、参照テキストシーケンスは複数の参照テキストの語彙に基づいて決定される。
【0086】
本開示の実施例において、第1テキスト検索モデルは、複数の参照テキスト及び対応する複数の参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られたものであり、これにより、参照テキストに対応する参照テキストマークを出力する。
【0087】
いくつかの実施例において、第1テキスト検索モデルは、以下のモジュールによって複数の参照テキスト及び対応する複数の参照テキストマークを利用して初期テキスト検索モデルをトレーニングして得られたものである:第2取得モジュールであって、参照テキストを初期テキスト検索モデルに入力し、参照テキストの第2出力テキストマークを取得する;第1微調整モジュールであって、第2出力テキストマーク及び参照テキストマークに基づいて、初期テキスト検索モデルを全量微調整して、第1テキスト検索モデルを取得する。
【0088】
いくつかの実施例において、第1微調整モジュールは、第2出力テキストマークと参照テキストマークに基づいて、交差エントロピー損失を決定するための第1決定サブモジュールと、交差エントロピー損失に基づいて、初期テキスト検索モデルを全量微調整する第1微調整サブモジュールと、を含む。
【0089】
いくつかの実施例において、複数の参照テキストはN個の参照テキストセットからのものであり、参照テキストセットは少なくとも1つの参照テキストを含み、Nは1より大きい整数である。参照テキストシーケンスは、以下のモジュールによって、複数の参照テキストの語彙に基づいて決定されるものである:第1クラスタリング処理モジュールであって、N個の参照テキストセットに対してそれぞれクラスタリング処理を行い、N個の参照テキストセットにおける参照テキストの順序を調整して、N個の処理後テキストセットを取得する;第3取得モジュールであって、N個の処理後テキストセットに基づいて、融合テキストセットを取得する;第2クラスタリング処理モジュールであって、複数の参照テキストのそれぞれの語彙に基づいて、融合テキストセットに対してクラスタリング処理を行い、融合テキストセットにおける複数の参照テキストの順序を調整して、参照テキストシーケンスを取得する。
【0090】
いくつかの実施例において、クエリすべきサンプルテキストは複数の第1目標参照テキストに対応し、参照テキストマークは第1参照テキストサブマークと第2参照テキストサブマークを含み、複数の第1目標参照テキスト同士の第1参照テキストサブマークは同じである。
【0091】
いくつかの実施例において、トレーニングモジュールは、第1テキスト検索モデルを全量微調整するための第2微調整サブモジュールを含む。
【0092】
いくつかの実施例において、参照テキストはルールテキストであり、第1テキスト検索モデルは大規模言語モデルである。
【0093】
以上、本開示のトレーニング装置について説明したと理解することができるが、以下、本開示のテキスト検索装置について説明する。
【0094】
図6は、本開示の別の実施例に係るテキスト検索装置のブロック図である。
【0095】
図6に示すように、当該装置600は、第4取得モジュール610及び決定モジュール620を含んでもよい。
【0096】
第4取得モジュール610は、クエリすべきテキストを目標テキスト検索モデルに入力し、現在出力結果を取得する。
【0097】
決定モジュール620は、現在出力結果が複数の参照テキストにおける第2目標参照テキストにヒットしたと決定したことに応答して、第2目標参照テキストをクエリすべきテキストに対応する検索結果とする。
【0098】
本開示の実施例において、目標テキスト検索モデルは、クエリすべきサンプルテキストとテキストマークタグを利用して第1テキスト検索モデルをトレーニングして得られたものであり、クエリすべきサンプルテキストは複数の参照テキストにおける第1目標参照テキストに対応し、テキストマークタグは第1目標参照テキストの参照テキストマークである。
【0099】
本開示の実施例において、目標テキスト検索モデルは、例えば、装置500によってトレーニングされてもよい。
【0100】
いくつかの実施例において、目標テキスト検索モデルは、大規模言語モデルである。装置は、現在出力結果が複数の参照テキストのいずれかにヒットしていないと決定したことに応答して、現在出力結果の後出力結果が複数の参照テキストにおける第2目標参照テキストにヒットするまで、クエリすべきテキストを目標テキスト検索モデルに入力する操作を繰り返し実行する実行モジュールをさらに含む。
【0101】
本開示の技術案において、かかるユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び公開などの処理は、いずれも関連法律の規定に適合し、公序良俗に反しない。
【0102】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
【0103】
図7は、本開示の実施例の例示電子機器700を実施するための例示的なブロック図を示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0104】
図7に示すように、機器700は、計算ユニット701を含み、それはリードオンリーメモリ(Read-Only Memory,ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダムアクセスメモリ(Random Access Memory,RAM)703にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 703には、さらに機器700の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット701、ROM 702、およびRAM 703は、バス704を介して相互に接続されている。バス704には、入出力(Input/ Output,I/O)インタフェース705も接続されている。
【0105】
機器700における複数の部品は、I/Oインタフェース705に接続され、例えばキーボード、マウス等の入力ユニット706と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット707と、例えば磁気ディスク、光ディスク等の記憶ユニット708と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット709とを含む。通信ユニット709は、機器700がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他のデバイスと情報/データをやり取りすることを可能にすることを許可する。
【0106】
計算ユニット701は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット701の幾つかの例としては、中央処理装置(Central Processing Unit,CPU)、グラフィックス処理ユニット(Graphics Processing Unit、GPU)、各種専用の人工知能(Artificial Intelligence,AI)演算チップ、機械学習モデルアルゴリズムを実行する各種計算ユニット、DSP(Digital Signal Processor、DSP)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット701は、例えばテキスト検索モデルのトレーニング方法および/又はテキスト検索方法ような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト検索モデルのトレーニング方法および/又はテキスト検索方法は、例えば記憶ユニット708のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信ユニット709を介して機器700にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM703にロードされて計算ユニット701により実行される場合、前記記載されたテキスト検索モデルのトレーニング方法および/又はテキスト検索方法の1つ又は複数のステップを実行してもよい。代替的に、別の実施例において、計算ユニット701は、他の任意の適切な形態(例えば、ファームウェアを介する)によりテキスト検索モデルのトレーニング方法および/又はテキスト検索方法を実行するように構成されてもよい。
【0107】
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、特定用途向け標準製品(Application Specific Standard Parts,ASSP)、システムオンチップ(System On Chip,SOC)、コンプレックスプログラマブルロジックデバイス(Complex Programmable Logic Device,CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0108】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0109】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ、読み出し専用メモリ、消去可能なプログラマブルリードオンリーメモリ(Erasable Programmable Read-Only Memory,EPROM)又はフラッシュメモリ、光ファイバ、コンパクトディスクリードオンリーメモリ(Compact Disc Read-Only Memory,CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
【0110】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)ディスプレイ又は液晶ディスプレイ(Liquid Crystal Display,LCD))と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0111】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク(Local Aera Network,LAN)、ワイドエリアネットワーク(Wide Aera Network,WAN)及びインターネットを例示的に含む。
【0112】
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
【0113】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
【0114】
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。