IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-6944セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体
<>
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図1
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図2
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図3
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図4
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図5
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図6
  • 特開-セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024006944
(43)【公開日】2024-01-17
(54)【発明の名称】セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体
(51)【国際特許分類】
   G06F 16/30 20190101AFI20240110BHJP
【FI】
G06F16/30
【審査請求】有
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2023037698
(22)【出願日】2023-03-10
(31)【優先権主張番号】202210769033.7
(32)【優先日】2022-06-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】キュ、インキ
(72)【発明者】
【氏名】ワン、ハイフェン
(72)【発明者】
【氏名】ティアン、ハオ
(72)【発明者】
【氏名】ウ、フア
(72)【発明者】
【氏名】ウ、ティアン
(72)【発明者】
【氏名】リウ、ジン
(72)【発明者】
【氏名】ディン、ユチェン
(72)【発明者】
【氏名】シン、イラン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
(57)【要約】      (修正有)
【課題】セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体を提供する。
【解決手段】方法は、様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得し、少なくとも2つのオリジナルセマンティック検索モデルと、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得し、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練する。
【効果】訓練された目標セマンティック検索モデルに少なくとも2つのオリジナルセマンティック検索モデルの検索能力を統合することを可能にし、セマンティック検索の正確性を向上させることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
セマンティック検索モデルの訓練方法であって、
少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプであって、前記オリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである目標クエリ文タイプを取得することと、
少なくとも2つのオリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得することと、
蒸留データセットに基づいて、目標セマンティック検索モデルを訓練することと、を含む、
セマンティック検索モデルの訓練方法。
【請求項2】
少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得することは、
各種タイプのクエリ文に対応する予め設定されたテストセットに基づいて、各前記オリジナルセマンティック検索モデルに対応する前記目標クエリ文タイプを取得すること、を含む、
請求項1に記載のセマンティック検索モデルの訓練方法。
【請求項3】
少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得することは、
各前記オリジナルセマンティック検索モデルの属性に基づいて、各前記オリジナルセマンティック検索モデルに対応する前記目標クエリ文タイプを取得すること、を含む、
請求項1に記載のセマンティック検索モデルの訓練方法。
【請求項4】
少なくとも2つのオリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得することは、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文を取得することと、
各前記オリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文とに基づいて、前記コーパスから所定数のリコール言語材料をリコールすることと、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とに基づいて前記蒸留データセットを生成することと、を含む、
請求項1~3のいずれか1項に記載のセマンティック検索モデルの訓練方法。
【請求項5】
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とに基づいて前記蒸留データセットを生成することは、
予め訓練されたファインソートモデルを使用して、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とをスクリーニングして前記蒸留データセットを生成すること、を含む、
請求項4に記載のセマンティック検索モデルの訓練方法。
【請求項6】
予め訓練されたファインソートモデルを使用して、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とをスクリーニングして前記蒸留データセットを生成することは、
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、正サンプルデータをスクリーニングすることと、
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングすることと、
前記正サンプルデータ及び前記負サンプルデータを前記蒸留データセットに格納することと、を含む、
請求項5に記載のセマンティック検索モデルの訓練方法。
【請求項7】
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、正サンプルデータをスクリーニングすることは、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記ファインソートモデルを用いて、前記目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料のそれぞれとの相関度スコアを計算することと、
前記所定数のリコール言語材料における最初のN(Nは1より大きい正整数である)個から前記相関度スコアが予め設定された閾値よりも小さいリコール言語材料を削除することと、
前記目標クエリ文と、前記所定数のリコール言語材料における最初のN個のうち残りの各リコール言語材料とに基づいて、前記正サンプルデータを構築することと、を含む、
請求項6に記載のセマンティック検索モデルの訓練方法。
【請求項8】
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングすることは、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記所定数のリコール言語材料におけるN+1(Nは1より大きい正整数である)番目以降のリコール言語材料から、相関度スコアが予め設定された閾値より小さいリコール言語材料を選択することと、
前記目標クエリ文と、前記所定数のリコール言語材料におけるN+1番目以降のリコール言語材料から選択された相関度スコアが予め設定された閾値より小さいリコール言語材料とに基づいて、負サンプルデータを構築することと、を含む、
請求項6に記載のセマンティック検索モデルの訓練方法。
【請求項9】
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングすることは、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記ファインソートモデルを用いて、対応する前記目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料のそれぞれとの相関度スコアを計算することと、
前記少なくとも2つのオリジナルセマンティック検索モデルによるすべてのリコール言語材料から、予め設定された方法で、各前記目標クエリ文及び各前記リコール言語材料の相関度スコアに基づいて前記負サンプルデータをスクリーニングすることと、を含む、
請求項6に記載のセマンティック検索モデルの訓練方法。
【請求項10】
セマンティック検索モデルの訓練装置であって、
少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプであって、前記オリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである目標クエリ文タイプを取得するタイプ取得モジュールと、
少なくとも2つのオリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得するデータ取得モジュールと、
蒸留データセットに基づいて、目標セマンティック検索モデルを訓練する訓練モジュールと、を備える、
セマンティック検索モデルの訓練装置。
【請求項11】
前記タイプ取得モジュールは、
各種タイプのクエリ文に対応する予め設定されたテストセットに基づいて、各前記オリジナルセマンティック検索モデルに対応する前記目標クエリ文タイプを取得する、
請求項10に記載のセマンティック検索モデルの訓練装置。
【請求項12】
前記タイプ取得モジュールは、
各前記オリジナルセマンティック検索モデルの属性に基づいて、各前記オリジナルセマンティック検索モデルに対応する前記目標クエリ文タイプを取得する、
請求項10に記載のセマンティック検索モデルの訓練装置。
【請求項13】
前記データ取得モジュールは、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文を取得する文取得部と、
各前記オリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文とに基づいて、前記コーパスから所定数のリコール言語材料をリコールする言語材料取得部と、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とに基づいて前記蒸留データセットを生成する生成部と、を備える、
請求項10~12のいずれか1項に記載のセマンティック検索モデルの訓練装置。
【請求項14】
前記生成部は、
予め訓練されたファインソートモデルを使用して、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料とをスクリーニングして前記蒸留データセットを生成する、
請求項13に記載のセマンティック検索モデルの訓練装置。
【請求項15】
前記生成部は、
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、正サンプルデータをスクリーニングし、
前記ファインソートモデル、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた前記所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングし、
前記正サンプルデータ及び前記負サンプルデータを前記蒸留データセットに格納する、
請求項14に記載のセマンティック検索モデルの訓練装置。
【請求項16】
前記生成部は、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記ファインソートモデルを用いて、前記目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料のそれぞれとの相関度スコアを計算し、
前記所定数のリコール言語材料における最初のN(Nは1より大きい正整数である)個から前記相関度スコアが予め設定された閾値よりも小さいリコール言語材料を削除し、
前記目標クエリ文と、前記所定数のリコール言語材料における最初のN個のうち残りの各リコール言語材料とに基づいて、前記正サンプルデータを構築する、
請求項15に記載のセマンティック検索モデルの訓練装置。
【請求項17】
前記生成部は、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記所定数のリコール言語材料におけるN+1(Nは1より大きい正整数である)番目以降のリコール言語材料から、相関度スコアが予め設定された閾値より小さいリコール言語材料を選択し、
前記目標クエリ文と、前記所定数のリコール言語材料におけるN+1番目以降のリコール言語材料から選択された相関度スコアが予め設定された閾値より小さいリコール言語材料とに基づいて、負サンプルデータを構築する、
請求項15に記載のセマンティック検索モデルの訓練装置。
【請求項18】
前記生成部は、
各前記オリジナルセマンティック検索モデルに対応する目標クエリ文について、前記ファインソートモデルを用いて、対応する前記目標クエリ文と、それに応じてリコールされた前記所定数のリコール言語材料のそれぞれとの相関度スコアを計算し、
前記少なくとも2つのオリジナルセマンティック検索モデルによるすべてのリコール言語材料から、予め設定された方法で、各前記目標クエリ文及び各前記リコール言語材料の相関度スコアに基づいて前記負サンプルデータをスクリーニングする、
請求項15に記載のセマンティック検索モデルの訓練装置。
【請求項19】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~3のいずれか1項に記載のセマンティック検索モデルの訓練方法を実行させる電子デバイス。
【請求項20】
コンピュータに請求項1~3のいずれか1項に記載のセマンティック検索モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項21】
プロセッサにより実行されると、請求項1~3のいずれか1項に記載のセマンティック検索モデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的に機械学習及び自然言語処理のような人工知能技術の分野に関し、特にセマンティック検索モデルの訓練方法、装置、電子デバイス、及び記憶媒体に関する。
【背景技術】
【0002】
情報時代は、膨大な量の本、Webページ、ドキュメントから、必要な情報を素早く見つけたいことを希望している。大規模なデータから候補をリコールし、更にリコールされたデータに対して信頼度を採点する再ソートを行うことは、現在の情報検索の主流パターンとなっている。
【0003】
その中で、検索タスクのリコール段階では、通常、疎ベクトルによる検索と密ベクトルによる検索の2つの異なる方式がある。そのうち、疎ベクトルによる検索方式では、クエリ文queryと候補言語材料を疎ベクトルに符号化するが、このベクトルの次元は一般的に辞書と大体同じである。この方式は、主に字面マッチング度合いに依存して類似度計算を行う。一般的なアルゴリズムにはBM25などがあるが、疎ベクトルによる検索に対応するセマンティック検索モデルは学習不可能である。この方式は移行能力が高く、特定の分野に制限されない。密ベクトルによる検索方式は、対応するセマンティック検索モデルによりクエリ文queryと候補言語材料とをセマンティック空間内の2つのベクトルにそれぞれ符号化し、ベクトルに基づいて類似度計算を行って相関結果をリコールする。この方式では、訓練データによってセマンティック検索モデルを訓練する必要があり、セマンティック情報を用いてマッチング度合いの判定を行うことができるが、移行能力は劣る。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプであって、前記オリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである目標クエリ文タイプを取得し、少なくとも2つのオリジナルセマンティック検索モデルと、各前記オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて蒸留データセットを取得し、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練することを含むセマンティック検索モデルの訓練方法が提供される。
【0006】
本開示の別の態様によれば、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプであって、前記オリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである目標クエリ文タイプを取得するタイプ取得モジュールと、少なくとも2つのオリジナルセマンティック検索モデル及び予め確立されたコーパスに基づいて蒸留データセットを取得するデータ取得モジュールと、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練する訓練モジュールと、を備えるセマンティック検索モデルの訓練装置が提供される。
【0007】
本開示のさらに別の態様によれば、少なくとも1つのプロセッサと、前記少なくも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述した態様及び可能な実施形態のいずれかの方法を実行させる電子デバイスが提供される。
【0008】
本開示のさらに別の態様によれば、コンピュータに上述した態様及び可能な実施形態のいずれかの方法を実行させるためのコンピュータコマンドを格納した非一時的なコンピュータ可読記憶媒体が提供される。
【0009】
本開示のさらに別の態様によれば、プロセッサにより実行されると、上述した態様及び可能な実施形態のいずれかの方法を実施するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0010】
本開示の技術によれば、訓練された目標セマンティック検索モデルに少なくとも2つのオリジナルセマンティック検索モデルの検索能力が統合することができるため、単一のセマンティック検索モデルの欠点を克服し、セマンティック検索の正確性を向上させた。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本開示に制限されない。図面において、
図1】本開示の第1実施形態による概略図である。
図2】本開示の第2実施形態による概略図である。
図3】本開示の第3実施形態による概略図である。
図4】本実施形態のセマンティック検索モデルの訓練方法の構成図である。
図5】本開示の第4実施形態による概略図である。
図6】本開示の第5実施形態による概略図である。
図7】本開示の実施形態の方法を実施するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
明らかに、記載された実施形態は、本開示の一部の実施形態であり、全ての実施形態ではない。本開示の実施形態に基づいて、当業者が創造的な労働をしていないという前提の下で得た他のすべての実施形態は、本開示の保護の範囲に属する。
【0015】
説明すべきなのは、本開示の実施形態に係る端末装置は、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、無線ハンドヘルドデバイス、タブレット(Tablet Computer)などのスマートデバイスを含むことができるが、これらに限定されない。表示装置は、パーソナルコンピュータ、テレビ等の表示機能を有する装置を含むことができるが、これらに限定されない。
【0016】
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
【0017】
従来技術において、疎ベクトルに基づく検索方式と密ベクトルに基づく検索方式は、一般的に単独で使用される。疎ベクトルに基づく検索方式は、字面マッチングしかモデリングできず、内容に対するセマンティック理解が不足し、効果が低い。一方、密ベクトルのみを用いた検索方式では、一部の字面マッチングの情報が欠落してしまう。つまり、上記のいずれかの検索方式を単独で用いると、セマンティック検索の正確性が劣ることになる。
【0018】
図1は本開示の第1実施形態による概略図である。図1に示すように、本実施形態は、セマンティック検索モデルの訓練方法を提供し、具体的に以下のステップを含むことができる。
【0019】
S101において、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得する。
【0020】
ここで、オリジナルセマンティック検索モデルに対応する目標クエリ文タイプは、このオリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである。
【0021】
S102において、少なくとも2つのオリジナルセマンティック検索モデルと、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得する。
【0022】
S103において、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練する。
【0023】
本実施形態のセマンティック検索モデルの訓練方法の実行主体はセマンティック検索モデルの訓練装置であってよい。当該装置は、電子エンティティであっても良く、ソフトウェア統合を採用したアプリケーションであっても良く、使用時にコンピュータデバイス上で動作してセマンティック検索モデルの訓練を実現する。
【0024】
本実施形態の少なくとも2つのセマンティック検索モデルは、疎ベクトルに基づくセマンティック検索モデルと密ベクトルに基づくセマンティック検索モデルとを含むことができる。ここで、疎ベクトルに基づくセマンティック検索モデルは、クエリ文query及び/又は候補言語材料などのいずれかの言語材料の字面上のセマンティックベクトルを辞書に基づいて符号化することができる。一方、密ベクトルに基づくセマンティック検索モデルは、事前に訓練されたニューラルネットワークモデルに基づいて、クエリ文queryと候補言語材料のセマンティックレベルでのセマンティックベクトルを符号化することを実現する。例えば、本実施形態の密ベクトルに基づくセマンティック検索モデルは、RocketQAv2、ColBERT、Phrase-BERT、又はCOILモデルなどに基づいて実現されてよい。
【0025】
すなわち、本実施形態の少なくとも2つのオリジナルセマンティック検索モデルは、BM25モデル、RocketQAv2、ColBERT、Phrase-BERT、及びCOILモデル等のうちの少なくとも2つを含むことができる。また、本実施形態で使用されるオリジナルセマンティック検索モデルは、すべて既知であるか、又は訓練されたものである。
【0026】
各オリジナルセマンティック検索モデルは異なるタイプのクエリ文を処理するため、それに応じた正確性も異なる。処理が得意なクエリ文タイプについては、オリジナルセマンティック検索モデルは処理時の正確性が高い。一方、処理が不得意なクエリ文のタイプについては、オリジナルセマンティック検索モデルは処理時の正確性が低い。これに基づいて、本実施形態では、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを選択する際に、各オリジナルセマンティック検索モデルが各クエリ文タイプに対応するクエリ文を処理する正確性に基づいて、対応する目標クエリ文タイプを取得することができる。たとえば、最も正確性の高いクエリ文タイプを目標クエリ文タイプとして選択することができる。オプションとして、本実施形態では、実際の必要に応じて各オリジナルセマンティック検索モデルに対応する1つ、2つ又は複数の目標クエリ文タイプを取得することができる。例えば、1つの目標クエリ文タイプだけを取得する場合、選択可能な目標クエリ文の言語材料が不足しているため、これ以上多く目標クエリ文タイプを取得して良い。これは、目標クエリ文タイプはオリジナルセマンティック検索モデルが得意とするクエリ文のタイプであると考えても良い。これにより、目標クエリ文タイプに基づいて蒸留データを取得する際に、対応するオリジナルセマンティック検索モデルの特性をより具現化することができる。さらに、このような蒸留データに基づいて目標セマンティックモデルを訓練する際に、目標セマンティック検索モデルにオリジナルセマンティック検索モデルの特性を学習させることができる。
【0027】
本実施形態の目標クエリ文タイプは、アドレスを求めるタイプ、答えを求めるクラス、又はリソースを求めるクラスであってよい。あるいは、実際の応用において、分野やシナリオなどに応じてクエリ文タイプを分割して対応する目標クエリ文タイプを取得することも可能である。
【0028】
本実施形態では、少なくとも2つのオリジナルセマンティック検索モデルと、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて蒸留データセットを取得することができる。この蒸留データセットは、少なくとも2つのオリジナルセマンティック検索モデルに基づいてスクリーニングされるため、各オリジナルセマンティック検索モデルの特性に互換性がある。さらに、蒸留データセットに基づいて、目標セマンティック検索モデルに対して訓練を行うことにより、目標セマンティック検索モデルに各オリジナルセマンティック検索モデルの特性を統合し、単一のセマンティック検索モデルが不正確である欠点を克服し、更に正確にセマンティック検索を行い、リコール結果の正確性を高めることができる。
【0029】
本実施形態のセマンティック検索モデルの訓練方法は、少なくとも2つのオリジナルセマンティック検索モデルと予め構築されたコーパスとに基づいて蒸留データセットを取得し、さらに、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練することにより、訓練された目標セマンティック検索モデルに少なくとも2つのオリジナルセマンティック検索モデルの検索能力を統合し、単一のセマンティック検索モデルの欠点を克服し、セマンティック検索の正確性を高めることができる。
【0030】
図2は本開示の第2実施形態による概略図である。本実施形態のセマンティック検索モデルの訓練方法は、上述した図1に示した実施形態の技術案をもとに、本開示の技術案をさらに詳細に説明する。図2に示すように、本実施形態のセマンティック検索モデルの訓練方法は、具体的に以下のステップを含むことができる。
【0031】
S201において、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得する。
【0032】
S202において、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文を取得する。
【0033】
S203において、各オリジナルセマンティック検索モデル及び各オリジナルセマンティック検索モデルに対応する目標クエリ文に基づいて、コーパスから所定数のリコール言語材料をリコールする。
【0034】
S204において、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、対応するリコールされた所定数のリコール言語材料とに基づいて、蒸留データセットを生成する。
【0035】
生成された蒸留データセットにおける蒸留データが各オリジナルセマンティック検索モデルの特性をより正確に反映するように、本実施形態では、できるだけ各オリジナルセマンティック検索モデルが得意とする数のクエリ文を目標クエリqueryとして選択して言語材料リコールを行う。各セマンティック検索モデルの目標クエリqueryと、対応するリコール言語材料のリコールに基づいて、対応するセマンティック検索モデルの検索能力と検索特性を反映することができる。そこで、本実施形態では、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、リコールされた所定数のリコール言語材料とに基づいて蒸留データセットを生成する。
【0036】
本実施形態では、ステップS201において、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを取得することは、具体的に以下のいずれかの方式を含むことができる。
【0037】
第1方式は、予め構築された各タイプのクエリ文に対応するテストセットに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを取得する。
【0038】
第1方式では、異なるタイプのクエリ文に基づいて、対応するテストセットを事前に構築することができる。例えば、異なるタイプのクエリ文は、アドレスを求めるタイプ、答えを求めるタイプ、又はリソースを求めるタイプを含むことができる。或いは、分野やシナリオに従ってクエリ文のタイプを分けることもできる。
【0039】
この方式では、各タイプのクエリ文に対応するテストセットを用いて、各オリジナルセマンティック検索モデルの正確率を検出することができる。正確率が90%、95%又はその他の比例値のように予め設定された正確率閾値より大きい場合、そのクエリ文タイプをそのオリジナルセマンティック検索モデルに対応する目標クエリ文タイプとすることができる。また、さまざまなクエリ文タイプを正確性の高い順にソートし、最も正確性の高いクエリ文タイプを取得することもできる。本実施形態では、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプは、1つ、2つ又はこれ以上であっても良く、ここでは限定しない。
【0040】
第2方式は、各オリジナルセマンティック検索モデルの属性に基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを取得する。
【0041】
この実現方式では、オリジナルセマンティック検索モデルの属性があると予め定義することができる。具体的には、オリジナルセマンティック検索モデルの属性は、そのモデルを訓練する際の訓練セットのタイプ、分野又はシナリオに基づいて配置することができる。当該属性は、当該オリジナルセマンティック検索モデルが訓練時に使用された訓練データのタイプ、分野又はシナリオを標識することができ、当該オリジナルセマンティック検索モデルが当該タイプ、分野又はシナリオにおけるクエリ文の処理に得意であり、他のタイプのクエリ文の処理に比べて当該タイプ、分野又はシナリオにおけるクエリ文の処理の正確性が最も高いことを示している。ここで、訓練セットのタイプは、アドレスを求めるタイプ、答えを求めるタイプ、又はリソースを求めるタイプを含むこともできる。これに基づいて、オリジナルセマンティック検索モデルの属性をオリジナルセマンティック検索モデルに対応する目標クエリ文タイプとすることができる。
【0042】
本実施形態では、上記のいずれの方式を採用しても、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを正確に取得することができる。
【0043】
次に、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文を取得する。例えば、ユーザの履歴行動データに基づいて、様々なタイプのクエリ文を収集してクエリ文コーパスに格納することができる。利用時に、目標クエリ文タイプに基づいて、クエリ文コーパスから対応するいずれかのクエリ文を取得して目標クエリ文とすればよい。又は、別の方式で目標クエリ文を取得しても良い。例えば、直接に目標クエリ文タイプに基づいて、ユーザのログから該当するタイプの何れか一つのクエリ文を目標クエリ文として取得する。
【0044】
本実施形態では、蒸留データセットを生成する際には、生成したい蒸留データセットの規模の大きさに応じて、上記ステップS202及びステップS203を上記のように繰り返すことにより、各オリジナルセマンティック検索モデル毎に対応する各目標クエリ文と、各目標クエリ文毎にコーパスからリコールされた所定数のリコール言語材料とを取得してよい。すなわち、1つの目標クエリ文、1つのオリジナルセマンティック検索モデルについて、コーパスから所定数のリコール言語材料をリコールすることができる。本実施形態における所定数は、実際の必要に応じて設定することができる。例えば、100個、80個、50個、20個又はその他個のリコール言語材料であって良い。
【0045】
本実施形態では、各オリジナルセマンティック検索モデルに対応する目標クエリ文及びリコールされた所定数のリコール言語材料をそのまま蒸留データとして蒸留データセットに加えることができる。リコール言語材料がすべてオリジナルセマンティック検索モデルに基づいて目標クエリ文に従って取得されるため、蒸留データセットでは正サンプルとしての蒸留データである。従って、目標クエリ文とリコール言語材料の相関度を1として配置してこの蒸留データが正サンプルであることを標識する必要があり、その目標クエリ文が検索されたときに当該リコール言語材料がリコールされる確率が1であることを示して良い。
【0046】
逆に、蒸留データセットにおける負サンプルの蒸留データを構築する際には、オリジナルセマンティック検索モデルに対応する目標クエリ文及びリコールされた所定数のリコール言語材料を参照してリコール不可能な負サンプル言語材料を構築し、目標クエリ文と当該負サンプル言語材料との相関度が0であるように配置して当該蒸留データが負サンプルであることを標識し、当該目標クエリ文が検索されたときに当該負サンプル言語材料がリコールされる確率が0であることを示して良い。
【0047】
ステップS201~S204は、上述した図1に示した実施形態のステップS101の一実施形態である。
【0048】
S205において、蒸留データセットに基づいて目標セマンティック検索モデルを訓練する。
【0049】
本実施形態のセマンティック検索モデルの訓練方法は、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料とを取得して蒸留データセットを生成し、さらに蒸留データセットに基づいて目標セマンティック検索モデルを訓練する。取得された各オリジナルセマンティック検索モデルに対応する目標クエリ文及びそれに応じてリコールされた所定数のリコール言語材料により、各オリジナルセマンティック検索モデルの能力と性能を十分に表現することができるため、生成された蒸留データセットに各オリジナルセマンティック検索モデルの特性を保持することができる。更に、蒸留データセットに基づいて目標セマンティック検索モデルを訓練する時に、訓練された目標セマンティック検索モデルに少なくとも2つのオリジナルセマンティック検索モデルの検索能力を統合し、単一のセマンティック検索モデルの欠点を克服し、効果的にセマンティック検索の正確性を高めることができる。
【0050】
図3は本開示の第3実施形態による概略図である。本実施形態のセマンティック検索モデルの訓練方法は、上述した図1に示した実施形態の技術案をもとに、本開示の技術案をさらに詳細に説明する。図3に示すように、本実施形態のセマンティック検索モデルの訓練方法は、具体的には以下のステップを含むことができる。
【0051】
S301において、各タイプのクエリ文に対応する予め設定されたテストセットに基づいて、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプを取得する。
【0052】
具体的な実現方法は、上述した図2に示す実施例に関する記載を参照することができるので、ここでは詳しく説明しない。
【0053】
S302において、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文を取得する。
【0054】
S303において、各オリジナルセマンティック検索モデル及び各オリジナルセマンティック検索モデルに対応する目標クエリ文に基づいて、所定数のリコール言語材料をコーパスからリコールする。
【0055】
S304において、予め訓練されたファインソートモデルを用いて、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、リコールされた所定数のリコール言語材料とをスクリーニングして蒸留データセットを生成する。
【0056】
ステップS301~S304は、上述した図1に示した実施形態のステップS101の一実施形態である。
【0057】
上記図2に示した実施例とは異なり、本実施例では、スクリーニングにより蒸留データセットを生成する際に、さらにファインソートモデルを用いて、各オリジナルセマンティック検索モデルに対応する目標クエリ文及びリコールされた所定数のリコール言語材料をスクリーニングして蒸留データセットを生成する。例えば、図4は、本実施形態のセマンティック検索モデルの訓練方法の構成図である。これに応じて、図2に示す実施形態の構成図は、図4のファインソートモデルを除いたリコール結果のスクリーニングであってよい。
【0058】
本実施形態のニューラルネットワーク構造を用いたオリジナルセマンティック検索モデル及び目標セマンティック検索モデルは、いずれも二重塔構造のモデルを用いて、クエリ文queryと候補言語材料のそれぞれの符号化を実現し、さらに符号化結果に基づいて両者のベクトル類似度を計算することができる。本実施形態のファインソートモデルは、注釈データを用いて事前に訓練することにより得られる。ファインソートモデルは、クエリ文queryと候補言語材料との間のやりとり情報をモデリングすることができ、能力が対応する二重塔構造のモデルよりも優れている。したがって、ファインソートモデルを用いて各オリジナルセマンティック検索モデルのリコール結果にスクリーニングとフィルタリングを行うことにより、蒸留データセットにおける蒸留データの品質を効果的に向上させることができる。
【0059】
本開示の一実施形態では、ステップS304は、事前に訓練されたファインソートモデルを使用して、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、リコールされた所定数のリコール言語材料とをスクリーニングして蒸留データセットを生成することは、具体的に以下のステップを含むことができる。
【0060】
(a1)ファインソートモデル、各オリジナルセマンティック検索モデルに対応する目標クエリ文、及びリコールされた所定数のリコール言語材料に基づいて、正サンプルデータをスクリーニングする。
【0061】
(b1)ファインソートモデル、各オリジナルセマンティック検索モデルに対応する目標クエリ文、及びリコールされた所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングする。
【0062】
(c1)正サンプルデータと負サンプルデータを蒸留データセットに格納する。
【0063】
例えば、本実施形態では、ファインソートモデルに基づいて、正サンプルデータと負サンプルデータとを別々にスクリーニングして蒸留データとしてまとめて蒸留データセットを構成することができる。具体的には、蒸留データセットにおける正サンプルデータと負サンプルデータとの比率は、実際の必要に応じて設定することができ、例えば、1:1であっても良く、1:2、1:3、1:4であっても良く、他の比率であっても良く、ここでは限定しない。所望なサンプルの数に応じて対応するサンプルデータをスクリーニングすればよい。
【0064】
本実施形態では、蒸留データセットが生成される場合に、サンプルを統合する方法又は蒸留データにおいて、正サンプルデータ及び負サンプルデータを標識しなくてもよい。例えば、各蒸留データには、1つのクエリ文、少なくとも2つのリコール言語材料、及び少なくとも2つのリコール言語材料と当該クエリ文との相関度のランキングが含まれてよい。この形式の蒸留データはソフトラベルデータでもよい。この形式の蒸留データにより目標セマンティック検索モデルを訓練することにより、目標セマンティック検索モデルに、異なるリコール言語材料と同じクエリ文との相関度のスコアランキングを学習させることができる。本実施形態では、ステップS304において、予め訓練されたファインソートモデルを用いて、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、リコールされた所定数のリコール言語材料とをスクリーニングして蒸留データセットを生成することは、以下の3つの場合が考えられる。
【0065】
第1ケースは直接統合である。この場合、各オリジナルセマンティック検索モデルに基づいて、上述の方式に従って正サンプルデータと負サンプルデータを取得し、次に少なくとも2つのオリジナルセマンティック検索モデルの各々によって生成された正サンプルデータと負サンプルデータとを直接に統合して最終的な蒸留データセットを得る必要がある。すなわち、この場合に得られる蒸留データセットには、オリジナルセマンティック検索モデルごとに蒸留された正サンプルデータと負サンプルデータが十分に含まれている。
【0066】
例えば、それに応じて、この場合におけるステップ(a1)は、以下のステップを含むことができる。
【0067】
(a2)各オリジナルセマンティック検索モデルに対応する目標クエリ文について、ファインソートモデルを用いて目標クエリ文とそれに応じてリコールされた所定数のリコール言語材料のそれぞれとの相関度スコアを計算する。
【0068】
(b2)相関度スコアが予め設定された閾値より小さいリコール言語材料を、所定数のリコール言語材料の最初のN個から削除する。ここで、Nは1より大きい正整数である。
【0069】
(c2)目標クエリ文と、所定数のリコール言語材料における最初のN個のうち残りの各リコール言語材料に基づいて、正サンプルデータを構築する。
【0070】
例えば、この時点で構築された正サンプルデータには、目標クエリ文、所定数のリコール言語材料における最初のN個のうち相関度スコアが予め設定された閾値以上のリコール言語材料が含まれてよい。このサンプルを正サンプルとして目標セマンティック検索モデルを訓練するため、この時点で正サンプルデータの相関度スコアのラベルを1に再配置することにより、目標セマンティック検索モデルに、この目標クエリ文に基づいて対応する正サンプルデータにおけるリコール言語材料をリコールする能力を学習させることができる。
【0071】
例えば、これに応じて、この場合にステップ(b1)は、以下のステップを含むことができる。
【0072】
(a3)各オリジナルセマンティック検索モデルに対応する目標クエリ文について、所定数のリコール言語材料のうちN+1番目以降のリコール言語材料から、相関度スコアが予め設定された閾値より小さいリコール言語材料を選択する。Nは1より大きい正整数である。
【0073】
(b3)目標クエリ文と、所定数のリコール言語材料におけるN+1番目以降のリコール言語材料から選択された相関度スコアが予め設定された閾値より小さいリコール言語材料とに基づいて負サンプルデータを構築する。
【0074】
同様に、この時点で構築される負サンプルデータには、目標クエリ文と、所定数のリコール言語材料におけるN+1番目以降のリコール言語材料のうち相関度スコアが予め設定された閾値よりも小さいリコール言語材料が含まれてよい。このサンプルを負サンプルとして目標セマンティック検索モデルを訓練するため、この時点で負サンプルデータの相関度スコアのラベルを0に再配置することにより、目標セマンティック検索モデルに、この目標クエリ文に基づいて対応する負サンプルデータにおけるリコール言語材料をリコールしない能力を学習させることができる。
【0075】
例えば、所定数を100個とした場合に、Nが20をとることを例にする。各オリジナルセマンティック検索モデルがいずれか一つの目標クエリ文に対してリコールした最初の100個のリコール言語材料について、最初の20個のうち相関度スコアが予め設定された閾値よりも小さいリコール言語材料をとることにより、正サンプルの品質を向上させることができる。一方、負サンプルデータは、20個目から100個目までの中から相関度スコアが予め設定された閾値より小さいリコール言語材料をとって構築することができる。当該予め設定された閾値は、0.1、0.2、又は他の数値のように経験的に設定することができる。この方式を採用すれば、蒸留データセットにおける蒸留データの品質を効果的に向上させることができる。
【0076】
第2ケースは交差統合である。この場合に、オリジナルセマンティック検索モデルごとに生成された正サンプルデータを取って蒸留データセットに格納することができる。一方、負サンプルデータは、少なくとも2つのオリジナルセマンティック検索モデルによるすべてのリコール結果からスクリーニングすることができる。すなわち、この場合に得られる蒸留データセットには、オリジナルセマンティック検索モデルごとに蒸留された正サンプルデータが十分に含まれているが、負サンプルデータがオリジナルセマンティック検索モデルの一部のみが蒸留されたものである可能性がある。
【0077】
例えば、この場合に応じて、ステップ(b1)において、ファインソートモデル、各オリジナルセマンティック検索モデルに対応する目標クエリ文、及びリコールされた所定数のリコール言語材料に基づいて負サンプルデータをスクリーニングすることは、具体的には以下のステップを含むことができる。
【0078】
(a4)各オリジナルセマンティック検索モデルに対応する目標クエリ文について、ファインソートモデルを用いて対応する目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料における各リコール言語材料との相関度スコアを計算する。
【0079】
(b4)各目標クエリ文と各リコール言語材料の相関度スコアに基づいて、少なくとも2つのオリジナルセマンティック検索モデルによる全てのリコール言語材料から、予め設定された方法に従って負サンプルデータをスクリーニングする。
【0080】
例えば、相関度スコアが小さい順に、必要な数の負サンプルデータをスクリーニングすることができる。あるいは、相関度スコアが予め設定された閾値よりも小さい全てのリコール言語材料を直接に取得してもよい。あるいは、負サンプルデータを他の方法でスクリーニングすることも可能であるが、ここでは限定しない。このようにして、少なくとも2つのオリジナルセマンティック検索モデルによるすべてのリコール言語材料を参照して、より品質の高い負サンプルデータを選択し、更に蒸留データセットの品質を向上させることができる。
【0081】
第3ケースはソフトラベルデータ統合である。この場合、上記2つの場合とは異なり、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料とを、正と負のサンプルを区別することなく、オリジナルセマンティック検索モデルの元のスコア又はランキングをそのまま保持して統合する。この場合に、蒸留データセットを用いて目標セマンティック検索モデルを訓練する際に、目標セマンティック検索モデルがオリジナルセマンティック検索モデルによる異なるサンプルデータに対するスコア或いはランキングを学習するように訓練する。
【0082】
実際の応用では、必要に応じて上記3つの場合のいずれかを選択して蒸留データセットを生成することができる。いずれの方法であっても、正確で合理的かつ効果的な蒸留データセットを得ることができる。
【0083】
本実施形態では、上記の方式により、蒸留データセットを生成する際に、できるだけ各オリジナルセマンティック検索モデルが得意とする目標クエリ文タイプを採用して関連するタイプの蒸留データを生成することで、各オリジナルセマンティック検索モデルの利点を最大限に利用して利点のある蒸留データを生成する。たとえば、RocketQAv2モデルの方が問題系queryに対して優れている可能性があるため、このステップで蒸留データセットを生成する際のクエリ文の分布を調整し、RocketQAv 2モデルが問題系のクエリ文を扱う割合を大きくして、より効果的な蒸留データを得ることができる。他のオリジナルセマンティック検索モデルも同様であり、より効果的な蒸留データを得るために、処理に得意なクエリ文のタイプを選択するが、ここでは詳しく説明しない。
【0084】
S305において、蒸留データセットに基づいて、目標セマンティック検索モデルを訓練する。
【0085】
本実施形態の目標セマンティック検索モデルは、二重塔構造のモデルである。
【0086】
異なる蒸留データセットの生成方式について、異なる訓練方式を用いることができる。例えば、蒸留データセットを生成する前記第1ケース及び第2ケース、すなわち 直接統合と交差統合の生成方式について、hard label方式を用いて訓練し、よくある比較学習訓練方式を用いて、交差エントロピー損失を用いて、ロット内負サンプリングを導入して訓練することができる。ソフトラベルデータ統合方式、すなわち前記蒸留データセットを生成する第3ケースについては、marginMSE方式を用いて訓練を行い、サンプルペア間の採点を学習することができる。この2つの方式は訓練の効果に応じて柔軟に選ぶことができる。
【0087】
統合された蒸留データを用いて訓練された二重塔構造の目標セマンティック検索モデルは、複数のteacher、即ちオリジナルセマンティック検索モデルの特徴を統合することができ、しかも蒸留データ生成過程で異なるteacherのデータ分布を制御し、優位性があり、差異が大きい部分だけを保持するため、生成される弱ラベル訓練データを最大限に発揮させることができる。
【0088】
弱ラベルデータの訓練を経て、二重塔構造の目標セマンティック検索モデルの効果は注釈データによる訓練の結果を上回ることができ、しかもより強い汎化性を持ち、注釈データへの過剰適合を弱め、データ偏差によるロバスト性問題を一部解決した。
【0089】
本実施形態のセマンティック検索モデルの訓練方法は、ファインソートモデルにより、各オリジナルセマンティック検索モデルの目標クエリ文及びそれに応じてリコールされた所定数のリコール言語材料を取得して蒸留データセットを生成し、更に蒸留データセットの品質を効果的に向上させた。さらに、蒸留データセットに基づいて目標セマンティック検索モデルを訓練することにより、訓練された目標セマンティック検索モデルの正確性をより良くすることができる。
【0090】
本実施形態のセマンティック検索モデルの訓練方法は、少なくとも2種類のオリジナルセマンティック検索モデルの能力を二重塔構造の目標セマンティック検索モデルに統合することができるため、目標セマンティック検索モデルの検索能力を効果的に向上させることができる。
【0091】
本実施形態のセマンティック検索モデルの訓練方法は、少なくとも2つのオリジナルセマンティック検索モデルに疎ベクトル検索モデルが含まれることにより、目標セマンティック検索モデルにある程度の疎ベクトル検索の能力を学習させ、字面のファインソートマッチングのシナリオの解決能力を向上させるため、目標語義検索モデルの汎化能力を向上させ、より良いゼロサンプルにおける分野の移行性能を持たせる。
【0092】
また、本開示の実施形態では、既存の二重塔構造のセマンティック検索モデルに対して、二重塔モデルの構造を変更することなく、二重塔モデルの迅速な配置と高検索効率の特徴を維持し、大規模な検索シナリオに広く適用することができる。
【0093】
本実施形態のセマンティック検索モデルの訓練方法は、複数種類のオリジナルセマンティック検索モデルの能力を統合するスキームを適用時に柔軟に拡張することができ、ある面でより能力の高いモデル又はシステムが出現した場合に、このスキームを採用することにより、そのシステムの利点を効果的に吸収し、目標セマンティック検索モデルの性能を向上させることができる。
【0094】
図5は本発明の第4の実施形態による概略図である。図5に示すように、本実施形態は、少なくとも2つのオリジナルセマンティック検索モデルのそれぞれに対応する目標クエリ文タイプであって、オリジナルセマンティック検索モデルが様々なタイプのクエリ文を処理する際に最も正確性の高いクエリ文タイプである目標クエリ文タイプを取得するタイプ取得モジュール501と、少なくとも2つのオリジナルセマンティック検索モデル、及び各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプと、予め構築されたコーパスとに基づいて、蒸留データセットを取得するデータ取得モジュール502と、蒸留データセットに基づいて目標セマンティック検索モデルを訓練する訓練モジュール503と、を備えるセマンティック検索モデルの訓練装置500を提供する。
【0095】
本実施形態のセマンティック検索モデルの訓練装置500は、上記モジュールを用いてセマンティック検索モデルの訓練を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様である。詳細は上記関連方法の実施形態の記載を参照することができ、ここでは詳しく説明しない。
【0096】
図6は本開示の第5実施形態による概略図である。本実施形態は、セマンティック検索モデルの訓練装置600を提供し、上述した図5に示す実施形態の技術案に加えて、本開示の技術案をさらに詳細に説明する。図6に示されるように、本実施形態は、図5に示される同名且つ同機能のモジュールであるタイプ取得モジュール601と、データ取得モジュール602と、訓練モジュール603とを備えるセマンティック検索モデルの訓練装置600を提供する。
【0097】
ここで、データ取得モジュール602は、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文を取得する文取得部6021と、各オリジナルセマンティック検索モデル及び各オリジナルセマンティック検索モデルに対応する目標クエリ文に基づいて、コーパスから所定数のリコール言語材料をリコールする言語材料取得部6022と、各オリジナルセマンティック検索モデルに対応する目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料とに基づいて蒸留データセットを生成する生成部6023と、を備える。
【0098】
さらに、本開示の一実施形態では、タイプ取得モジュール601は、各タイプのクエリ文に対応する予め設定されたテストセットに基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを取得する。
【0099】
さらに、本開示の一実施形態では、タイプ取得モジュール601は、各オリジナルセマンティック検索モデルの属性に基づいて、各オリジナルセマンティック検索モデルに対応する目標クエリ文タイプを取得する。
【0100】
さらに、本開示の一実施形態では、生成部6023は、あらかじめ訓練されたファインソートモデルを用いて、各オリジナルセマンティック検索モデルに対応する目標クエリ文及びそれに応じてリコールされた所定数のリコール言語材料をスクリーニングして蒸留データセットを生成する。
【0101】
さらに、本開示の一実施形態では、生成部6023は、ファインソートモデル、各オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた所定数のリコール言語材料に基づいて、正サンプルデータをスクリーニングし、ファインソートモデル、各オリジナルセマンティック検索モデルに対応する目標クエリ文、及びそれに応じてリコールされた所定数のリコール言語材料に基づいて、負サンプルデータをスクリーニングし、正サンプルデータと負サンプルデータを蒸留データセットに格納する。
【0102】
さらに、本開示の一実施形態では、生成部6023は、各オリジナルセマンティック検索モデルに対応する目標クエリ文について、ファインソートモデルを用いて、目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料のそれぞれとの相関度スコアを計算し、所定数のリコール言語材料の最初のN(Nは1より大きい正整数である)個から相関度スコアが予め設定された閾値より小さいリコール言語材料を削除し、目標クエリ文と、所定数のリコール言語材料の最初のN個のうち残りの各リコール言語材料とに基づいて、正サンプルデータを構築する。
【0103】
さらに、本開示の一実施形態では、生成部6023は、各オリジナルセマンティック検索モデルに対応する目標クエリ文について、所定数のリコール言語材料のうちN+1(Nは1より大きい正整数である)番目以降のリコール言語材料の中から、相関度スコアが予め設定された閾値よりも小さいリコール言語材料を選択し、目標クエリ文と、所定数のリコール言語材料のうちN+1番目以降のリコール言語材料から選択された相関度スコアが予め設定された閾値よりも小さいリコール言語材料とに基づいて、負サンプルデータを構築する。
【0104】
さらに、本開示の一実施形態では、生成部6023は、各オリジナルセマンティック検索モデルに対応する目標クエリ文について、ファインソートモデルを用いて、対応する目標クエリ文と、それに応じてリコールされた所定数のリコール言語材料のそれぞれとの相関度スコアを計算し、少なくとも2つのオリジナルセマンティック検索モデルによる全てのリコール言語材料から、予め設定された方法で、各目標クエリ文及び各リコール言語材料の相関度スコアに基づいて負サンプルデータをスクリーニングする。
【0105】
本実施形態のセマンティック検索モデルの訓練装置600は、上記モジュールを用いてセマンティック検索モデルの訓練を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様である。詳細は上記関連方法の実施形態の記載を参照することができ、ここでは詳しく説明しない。
【0106】
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0107】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0108】
図7は、本開示の実施形態を実施可能な例示的な電子デバイス700の概略的なブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0109】
図7に示すように、デバイス700は、読み取り専用メモリ(ROM)702に記憶されたコンピュータプログラム、又は記憶手段708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段701を含む。RAM703には、デバイス700の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段701、ROM702及びRAM703は、バス704を介して接続されている。入出力(I/O)インターフェース705もバス704に接続されている。
【0110】
例えばキーボード、マウス等の入力手段706と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段707と、例えば磁気ディスク、光ディスク等の記憶手段708と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段709を含むデバイス700の複数の構成要素は、I/Oインターフェース705に接続される。通信手段709は、デバイス700が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0111】
演算手段701は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段701のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段701は、上述した様々な方法及び処理、例えば本開示の前記方法を実行する。例えば、幾つかの実施形態では、本開示の前記方法は、例えば記憶手段708のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM702及び/又は通信手段709を介してデバイス700にロード及び/又はインストールすることができる。コンピュータプログラムがRAM703にロードされ、演算手段701により実行されると、前記本開示の上記方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段701は、本開示の前記方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0112】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0113】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0114】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0115】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0116】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0117】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであっても良く、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0118】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0119】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7