IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-3752検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
<>
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図1
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図2
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図3
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図4
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図5
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図6
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図7
  • 特開-検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024003752
(43)【公開日】2024-01-15
(54)【発明の名称】検索結果ソートモデルの訓練方法、検索結果ソート方法、検索結果ソートモデルの訓練装置、検索結果ソート装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06F 16/9038 20190101AFI20240105BHJP
【FI】
G06F16/9038
【審査請求】有
【請求項の数】25
【出願形態】OL
(21)【出願番号】P 2023038515
(22)【出願日】2023-03-13
(31)【優先権主張番号】202210744647.X
(32)【優先日】2022-06-27
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ワン、ハイフェン
(72)【発明者】
【氏名】ティアン、ハオ
(72)【発明者】
【氏名】ウ、フア
(72)【発明者】
【氏名】ウ、ティアン
(72)【発明者】
【氏名】リウ、ジン
(72)【発明者】
【氏名】チェン、ウェイジェン
(72)【発明者】
【氏名】ダイ、ダイ
(72)【発明者】
【氏名】ワン、ジアカン
(72)【発明者】
【氏名】パン、チャオ
(72)【発明者】
【氏名】ワン、ウェンフア
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175JC05
(57)【要約】      (修正有)
【課題】検索結果ソートモデルの訓練及び検索結果ソート方法を提供する。
【解決手段】方法は、複数の第1データペアと、複数の第1データペアにおける検索結果が複数の検索目標に対応する単目標特徴と、複数の第1データペアがそれぞれ複数の検索目標に対応する注釈点数とを取得し、取得されたデータに基づいて、訓練により複数の単検索目標ソートモデルが得られ、複数の第2データペアと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴を取得し、複数の検索目標に対応する複数の単検索目標ソートモデルを用いて第2データペアにおける各検索結果を採点して第2データペアの訓練検索目標を決定し、複数の第2データペアにおけるクエリと、各検索結果が全ての検索目標に対応する多目標特徴と、各検索結果が訓練検索目標に対応する点数とに基づいて、訓練により検索結果ソートモデルを得られることを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
検索結果ソートモデルの訓練方法であって、
複数の第1データペアであって、前記複数の第1データペアに含まれるそれぞれの第1データペアは、クエリ及び前記クエリに対応する1つの検索結果を含む、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数と、を取得することと、
前記複数の検索目標に含まれる検索目標のそれぞれについて、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得ることと、
複数の第2データペアであって、前記複数の第2データペアに含まれるそれぞれの第2データペアは、クエリ及び前記クエリに対応する2つの検索結果を含む、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得することと、
前記複数の第2データペアのそれぞれについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定することと、
前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得ることと、を含む、
検索結果ソートモデルの訓練方法。
【請求項2】
前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴を取得することは、
前記複数の第1データペアにおける検索結果の属性情報を取得することと、
各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報を、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とすることと、を含む、
請求項1に記載の検索結果ソートモデルの訓練方法。
【請求項3】
各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報を、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とすることは、
各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報がテキストでないと判定された場合、当該検索目標に対応する属性情報をテキストに変換することと、
テキスト変換結果を、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とすることと、を含む、
請求項2に記載の検索結果ソートモデルの訓練方法。
【請求項4】
前記複数の検索目標のそれぞれについて、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、前記第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得ることは、
各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とを第1事前訓練言語モデルに入力して、前記第1事前訓練言語モデルが各第1データペアについて出力する予測点数を得ることと、
前記複数の第1データペアの予測点数と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて損失関数値を計算することと、
前記損失関数値に基づいて、前記第1事前訓練言語モデルが収束するまで前記第1事前訓練言語モデルのパラメータを調整して当該検索目標に対応する単検索目標ソートモデルを得ることと、を含む、
請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法。
【請求項5】
前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴を取得することは、
前記複数の第2データペアにおける各検索結果の属性情報を取得することと、
前記各検索結果の属性情報を、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とすることと、を含む、
請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法。
【請求項6】
前記各検索結果の属性情報を、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とすることは、
各検索結果について、当該検索結果の前記属性情報がテキストでないと判定された場合、前記属性情報をテキストに変換することと、
テキスト変換結果を、当該検索結果が全ての検索目標に対応する多目標特徴とすることと、を含む、
請求項5に記載の検索結果ソートモデルの訓練方法。
【請求項7】
各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定することは、
検索目標の優先度に従って、前記複数の単検索目標ソートモデルの採点順序を決定することと、
各第2データペアについて、前記採点順序に従って、前記単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を順次に採点することと、
当該第2データペアにおける2つの検索結果の間の点数差が、現在の単検索目標ソートモデルに対応する検索目標の差閾値を超えていると判定された場合に、当該現在の単検索目標ソートモデルに対応する検索目標を当該第2データペアの訓練検索目標とすることと、を含む、
請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法。
【請求項8】
前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得ることは、
各第2データペアについて、当該第2データペアにおけるクエリと、当該第2データペアにおける前記訓練検索目標に対応する点数が高い検索結果とを正例データペアとして構成し、当該第2データペアにおけるクエリと、当該第2データペアにおける前記訓練検索目標に対応する点数が低い検索結果とを負例データペアとして構成することと、
前記正例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴、及び前記負例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴を前記第2事前訓練言語モデルにそれぞれ入力して、前記第2事前訓練言語モデルが前記正例データペアについて出力する正例予測点数と、前記負例データペアについて出力する負例予測点数とをそれぞれ得ることと、
前記正例予測点数と前記負例予測点数とに基づいて損失関数値を計算することと、
前記損失関数値に基づいて、前記第2事前訓練言語モデルが収束するまで、前記第2事前訓練言語モデルのパラメータを調整して前記検索結果ソートモデルを得ることと、を含む、
請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法。
【請求項9】
前記第2事前訓練言語モデルが前記クエリと異なる目標特徴との間のアテンション計算、クエリとクエリとの間のアテンション計算、及び同じ目標特徴の間のアテンション計算のみを行うように、前記第2事前訓練言語モデルにおけるアテンションメカニズムを調整すること、をさらに含む、
請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法。
【請求項10】
検索結果ソート方法であって、
処理すべきクエリ及び前記クエリに対応する複数の検索結果を取得することと、
前記複数の検索結果に含まれるそれぞれの検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得することと、
前記検索結果のそれぞれについて、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴とを検索結果ソートモデルに入力して、前記検索結果ソートモデルが当該検索結果について出力する点数を取得することと、
前記複数の検索結果の点数に基づいて前記複数の検索結果をソートすることと、を含み、
前記検索結果ソートモデルは、請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法により訓練された、
検索結果ソート方法。
【請求項11】
前記複数の検索結果のそれぞれについて、当該検索結果が全ての検索目標に対応する多目標特徴を取得することは、
各検索結果について、当該検索結果の属性情報を取得することと、
前記属性情報を、当該検索結果が全ての検索目標に対応する多目標特徴とすることと、を含む、
請求項10に記載の検索結果ソート方法。
【請求項12】
検索結果ソートモデルの訓練装置であって、
複数の第1データペアであって、前記複数の第1データペアに含まれるそれぞれの第1データペアは、クエリ及び前記クエリに対応する1つの検索結果を含む、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数とを取得する、第1取得部と、
前記複数の検索目標に含まれるそれぞれの検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る第1訓練部と、
複数の第2データペアであって、前記複数の第2データペアに含まれるそれぞれの第2データペアは、クエリ及び前記クエリに対応する2つの検索結果を含む、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得する、第2取得部と、
前記複数の第2データペアのそれぞれについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する処理部と、
前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る第2訓練部と、
を備える検索結果ソートモデルの訓練装置。
【請求項13】
前記第1取得部は、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴を取得する場合に、
前記複数の第1データペアにおける検索結果の属性情報を取得し、
各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報を、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする、
請求項12に記載の検索結果ソートモデルの訓練装置。
【請求項14】
前記第1取得部は、各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報を、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする場合に、
各検索目標について、前記属性情報のうち当該検索目標に対応する属性情報がテキストでないと判定された場合、当該検索目標に対応する属性情報をテキストに変換し、
テキスト変換結果を前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする、
請求項13に記載の検索結果ソートモデルの訓練装置。
【請求項15】
前記第1訓練部は、前記複数の検索目標のそれぞれについて、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る場合に、
各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とを第1事前訓練言語モデルに入力して、前記第1事前訓練言語モデルが各第1データペアについて出力する予測点数を得、
前記複数の第1データペアの予測点数と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて損失関数値を計算し、
前記損失関数値に基づいて、前記第1事前訓練言語モデルが収束するまで前記第1事前訓練言語モデルのパラメータを調整して当該検索目標に対応する単検索目標ソートモデルを得る、
請求項12から14のいずれか1項に記載の検索結果ソートモデルの訓練装置。
【請求項16】
前記第2取得部は、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、
前記複数の第2データペアにおける各検索結果の属性情報を取得し、
前記各検索結果の属性情報を、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする、
請求項12から14のいずれか1項に記載の検索結果ソートモデルの訓練装置。
【請求項17】
前記第2取得部は、前記各検索結果の属性情報を、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする場合に、
各検索結果について、当該検索結果の前記属性情報がテキストでないと判定された場合、前記属性情報をテキストに変換し、
テキスト変換結果を、当該検索結果が全ての検索目標に対応する多目標特徴とする、
請求項16に記載の検索結果ソートモデルの訓練装置。
【請求項18】
前記処理部は、各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する場合に、
検索目標の優先度に従って、前記複数の単検索目標ソートモデルの採点順序を決定し、
各第2データペアについて、前記採点順序に従って、単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を順次に採点し、
当該第2データペアにおける2つの検索結果の間の点数差が、現在の単検索目標ソートモデルに対応する検索目標の差閾値を超えていると判定された場合に、現在の単検索目標ソートモデルに対応する検索目標を当該第2データペアの訓練検索目標とする、
請求項12から14のいずれか1項に記載の検索結果ソートモデルの訓練装置。
【請求項19】
前記第2訓練部は、前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、前記第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る場合に、
各第2データペアについて、当該第2データペアにおけるクエリと、当該第2データペアにおける前記訓練検索目標に対応する点数が高い検索結果とを正例データペアとして構成し、当該第2データペアにおけるクエリと、当該第2データペアにおける前記訓練検索目標に対応する点数が低い検索結果とを負例データペアとして構成し、
前記正例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴、及び前記負例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴を前記第2事前訓練言語モデルにそれぞれ入力して、前記第2事前訓練言語モデルが前記正例データペアについて出力する正例予測点数と、前記負例データペアについて出力する負例予測点数とを得、
前記正例予測点数と前記負例予測点数とに基づいて損失関数値を計算し、
前記損失関数値に基づいて、前記第2事前訓練言語モデルが収束するまで、前記第2事前訓練言語モデルのパラメータを調整して前記検索結果ソートモデルを得る、
請求項12から14のいずれか1項に記載の検索結果ソートモデルの訓練装置。
【請求項20】
前記第2事前訓練言語モデルが前記クエリと異なる目標特徴との間のアテンション計算、クエリとクエリとの間のアテンション計算、及び同じ目標特徴の間のアテンション計算のみを行うように、前記第2事前訓練言語モデルにおけるアテンションメカニズムを調整する調整部、をさらに備える、
請求項12から14の何れか1項に記載の検索結果ソートモデルの訓練装置。
【請求項21】
検索結果ソート装置であって、
処理すべきクエリ及び前記クエリに対応する複数の検索結果を取得する第3取得部と、
各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する第4取得部と、
各検索結果について、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴とを検索結果ソートモデルに入力して、前記検索結果ソートモデルが当該検索結果について出力する点数を取得する採点部と、
前記複数の検索結果の点数に基づいて前記複数の検索結果をソートするソート部とを備え、
前記検索結果ソートモデルは、請求項12から14のいずれか1項に記載の検索結果ソートモデルの訓練装置により訓練された、
検索結果ソート装置。
【請求項22】
前記第4取得部は、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、
各検索結果について、当該検索結果の属性情報を取得し、
前記属性情報を、当該検索結果が全ての検索目標に対応する多目標特徴とする、
請求項21に記載の検索結果ソート装置。
【請求項23】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法を実行させる電子デバイス。
【請求項24】
コンピュータに請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
【請求項25】
プロセッサにより実行されると、請求項1から3のいずれか1項に記載の検索結果ソートモデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術に関し、特に自然言語処理、ディープラーニング等の人工知能技術の分野に関し、具体的に検索結果ソートモデルの訓練及び検索結果ソート方法、装置、電子デバイス、及び可読記憶媒体に関する。
【背景技術】
【0002】
検索エンジン技術の急速な発展に伴い、ユーザが検索エンジンによる検索の方式でさまざまな検索結果を取得することが多くなってきた。大量の検索結果を対象とする場合、検索結果のソート結果に基づいてユーザに提示するというソート問題がある。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の第1態様によれば、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数とを取得し、各第1データペアはクエリ及びそれに対応する1つの検索結果を含み、各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得し、各第2データペアはクエリ及びそれに対応する2つの検索結果とを含み、各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定し、前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得ることを含む検索結果ソートモデルの訓練方法が提供される。
【0004】
本開示の第2態様によれば、処理すべきクエリ及びそれに対応する複数の検索結果を取得し、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得し、各検索結果について、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、前記検索結果ソートモデルが当該検索結果について出力する点数を得、前記複数の検索結果の点数に基づいて、前記複数の検索結果をソートすることを含む検索結果ソート方法が提供される。
【0005】
本開示の第3態様によれば、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数とを取得し、各第1データペアはクエリ及びそれに対応する1つの検索結果を含む第1取得部と、各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る第一訓練部と、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得し、各第2データペアはクエリ及びそれに対応する2つの検索結果を含む第2取得部と、各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する処理部と、前記複数の第2データペアにおけるクエリ、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴、及び前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数に基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る第二訓練部とを備える検索結果ソートモデルの訓練装置が提供される。
【0006】
本開示の第4態様によれば、処理すべきクエリ及びそれに対応する複数の検索結果を取得する第3取得部と、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する第4取得部と、各検索結果について、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴とを検索結果ソートモデルに入力して前記検索結果ソートモデルが当該検索結果について出力する点数を取得する採点部と、前記複数の検索結果の点数に応じて、前記複数の検索結果をソートするソート部とを備える検索結果ソート装置が提供される。
【0007】
本開示の第5態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述した方法を実行させる電子デバイスが提供される。
【0008】
本開示の第6態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドを格納した非一時的なコンピュータ可読記憶媒体が提供される。
【0009】
本開示の第7態様によれば、プロセッサにより実行されると、上述した方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0010】
以上の技術案から分かるように、本開示によれば、複数の探索目標の訓練データを注釈する必要がなく、単一の検索目標の訓練データを注釈するだけで済むため、データの注釈コストと注釈の難易度を低減し、且つ訓練して得られた検索結果ソートモデルにより、検索結果について複数の検索目標において統合採点を行う目的を実現でき、検索結果ソートモデルが検索結果をソートする時の正確性を向上させた。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図1】本開示の第1実施形態による概略図である。
図2】本開示の第2実施形態による概略図である。
図3】本開示の第3実施形態による概略図である。
図4】本開示の第4実施形態による概略図である。
図5】本開示の第5実施形態による概略図である。
図6】本開示の第6実施形態による概略図である。
図7】本開示の第7実施形態による概略図である。
図8】本開示の実施形態に係る検索結果ソートモデルの訓練又は検索結果ソート方法を実施するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
図1は、本開示の第1実施形態による概略図である。図1に示すように、本実施形態の検索結果ソートモデルの訓練方法は、具体的に以下のステップを含む。
【0015】
S101において、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数とを取得し、各第1データペアは、クエリ及びそれに対応する1つの検索結果とを含む。
【0016】
S102において、各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して、当該検索目標に対応する単検索目標ソートモデルを得る。
【0017】
S103において、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得し、各第2データペアはクエリ及びそれに対応する2つの検索結果とを含む。
【0018】
S104において、各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する。
【0019】
S105において、前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る。
【0020】
本実施形態の検索結果ソートモデルの訓練方法によれば、まず、単一の検索目標に対応する訓練データに基づいて、異なる検索目標に対応する単検索目標ソートモデルが訓練された後、複数の単検索目標ソートモデルを使用して、複数の検索目標に対応した訓練データを構築し、最後に複数の検索目標に対応する訓練データに基づいて、全ての検索目標に対応する検索結果ソートモデルが訓練された。本実施形態では、複数の検索目標の訓練データを注釈する必要がなく、単一の検索目標の訓練データのみを注釈すればよいため、データの注釈コストと注釈の難易度を低減し、且つ訓練された検索結果ソートモデルにより、検索結果について複数の検索目標において統合採点を行う目的を実現でき、検索結果ソートモデルが検索結果をソートするときの正確性を向上させた。
【0021】
本実施形態において、S101を実行して取得された第1データペアは、クエリ(query)及びそれに対応する1つの検索結果とからなる。ここで、第1データペアにおける当該検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータにおけるパラグラフ(para)であってもよい。
【0022】
実際の応用場面では、検索エンジンがクエリに対応する複数の検索結果を取得した後、各検索結果を採点し、採点結果に応じて複数の検索結果をソートする必要がある。検索エンジンは、相関性目標、権威性目標、時効性目標など複数の検索目標を結合し、各検索結果を採点しなければ、より正確な採点結果を得ることができない。
【0023】
したがって、本実施形態において予め設定されている複数の検索目標とは、上述した相関性目標(検索結果とクエリとの相関性を表す)、権威性目標(検索結果の権威性を表す)、時効性目標(検索結果の時効性を表す)などの複数の目標である。
【0024】
本実施形態では、S101を実行して第1データペアを取得した後、まず複数の検索目標を決定し、その後、複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数とを取得して良い。
【0025】
本実施形態では、S101を実行して、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数を取得する場合に、予め設定された注釈方式により、複数の第1データペアが各検索目標に対応する注釈点数を取得することができる。
【0026】
例えば、本実施形態がS101を実行して取得された複数の第1データペアにデータペア1(query1,para1)が含まれ、複数の検索目標が相関性目標、権威性目標、及び時効性目標である場合に、本実施例では、S101を実行する際に、人工による注釈により、データペア1が相関性目標に対応する注釈点数、データペア1が権威性目標に対応する注釈点数、及びデータペア1が時効性目標に対応する注釈点数をそれぞれ取得することができる。
【0027】
本実施形態では、S101を実行して、複数の第1データペアにおける検索結果が複数の検索目標に対応する単目標特徴を取得する場合に、複数の第1データペアにおける検索結果の属性情報であって、検索結果のタイトル、要約、公開時刻、公開サイト、公開者及び公開アドレスなどの情報を含むことが可能な属性情報を取得し、各検索目標について、属性情報のうち当該検索目標に対応する属性情報を、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする、という実現方式を採用できる。
【0028】
すなわち、本実施形態で取得された異なる単目標特徴は、異なる検索目標に対応しており、検索結果が同一の検索目標に対応する単目標特徴に含まれる属性情報は、1つであっても複数であってもよい。
【0029】
例えば、本実施形態では、S101を実行して取得された相関性目標に対応する属性情報は、検索結果のタイトル及び/又は要約であってもよく、時効性目標に対応する属性情報は、検索結果の公開時刻であってもよく、権威性目標に対応する属性情報は、検索結果の公開サイト、公開者、公開アドレス等の少なくとも1つであってもよい。
【0030】
本実施形態では、S101において、各検索目標について、属性情報のうち当該検索目標に対応する情報を、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする場合に、各検索目標について、属性情報のうち当該検索目標に対応する属性情報がテキストでないと判定された場合に、当該検索目標に対応する属性情報をテキストに変換し、テキスト変換結果を複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とすることを含んでよい。
【0031】
すなわち、本実施形態は、取得された単目標特徴がテキストであることを保証し、他の複雑な形式の内容の使用を回避することができるため、モデルの訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0032】
本実施形態では、S101を実行する場合に、予め設定された検索目標と属性情報との対応関係により、検索結果の属性情報から検索目標に対応する属性情報を、検索結果が各検索目標に対応する単目標特徴として取得することができるため、取得された単目標特徴の正確性を向上させる。
【0033】
例えば、本実施形態がS101を実行して取得された複数の第1データペアにデータペア1(query1,para1)が含まれ、複数の検索目標がそれぞれ相関性目標、権威性目標、時効性目標である場合に、本実施形態では、S101を実行する場合に、para1のタイトルと要約をpara1が相関性目標に対応する単目標特徴として取得し、para1の公開時刻をpara1が時効性目標に対応する単目標特徴として取得し、para1の公開サイトをpara1が権威性目標に対応する単目標特徴として取得することができる。
【0034】
本実施形態では、S101を実行して、複数の第1データペアと、複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数とを取得した後、S102を実行し、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る。
【0035】
理解すべきなのは、本実施形態では、S102を実行することにより複数の単検索目標ソートモデルが得られる。異なる単検索目標ソートモデルは異なる検索目標に対応する。
【0036】
具体的には、本実施形態では、S102において、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る場合に、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とを第1事前訓練言語モデルに入力して、第1事前訓練言語モデルが各第1データペアについて出力する予測点数を得、複数の第1データペアの予測点数と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて損失関数値を計算し、本実施形態においてクロスエントロピー損失関数の計算方法を使用して損失関数値を計算することができ、算出された損失関数値に基づいて、第1事前訓練言語モデルが収束するまで第1事前訓練言語モデルのパラメータを調整して当該検索目標に対応する単検索目標ソートモデルを得る、という実現方式を採用できる。
【0037】
例えば、複数の検索目標がそれぞれ相関目標、権威性目標、時効性目標であれば、本実施形態では、S102を実行すると、相関性目標に対応する単検索目標ソートモデル、権威性目標に対応する単検索目標ソートモデル、及び、時効性目標に対応する単検索目標ソートモデルがそれぞれ得られる。上記3つの単検索目標ソートモデルは、検索結果の相関性採点結果、権威性採点結果、時効性採点結果をそれぞれ出力するように使用される。
【0038】
つまり、本実施形態では、異なる検索目標に応じて異なる単検索目標ソートモデルが得られる。異なる検索目標に対応する単検索目標ソートモデルは、入力されたクエリ及びその検索結果が異なる検索目標に対応する単目標特徴に基づいて、検索結果が異なる検索目標に対応する採点結果を出力することができる。
【0039】
理解すべきなのは、本実施形態がS102を実行することにより訓練される第1事前訓練言語モデルは、変換ネットワーク(Transformer)に基づくニューラルネットワークモデルである。当該第1事前訓練言語モデルは、Ernieモデルであってよい。
【0040】
本実施形態では、S102を実行して、複数の検索目標に対応する単検索目標ソートモデルを得た後、S103を実行して、複数の第2データペアと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得する。
【0041】
本実施形態がS103を実行して取得された第2データペアは、クエリ及びそれに対応する2つの検索結果とからなる。ここで、第2データペアにおける2つの検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータにおける1つのパラグラフ(para)であってもよい。
【0042】
本実施形態では、S103を実行して複数の第2データペアを取得する場合に、まず複数のクエリを取得し、次に各クエリに対応する複数の検索結果を取得し、最後に、同一のクエリについて、当該クエリに対応する複数の検索結果から任意に2つを選択して組み合わせることにより、クエリ及びそれに対応する2つの検索結果とを含む複数の第2データペアを得ることができる。
【0043】
本実施形態では、S103を実行して、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、複数の第2データペアにおける各検索結果の属性情報を取得し、各検索結果の属性情報を複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする、というオプションな実現方式を採用して良い。
【0044】
つまり、本実施形態で取得される多目標特徴は、検索結果の全ての属性情報である。すなわち、当該多目標特徴は、検索結果が異なる検索目標に対応する全ての単目標特徴を含む。
【0045】
本実施形態では、S103を実行して、各検索結果の属性情報を複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする場合に、さらに、各検索結果について、当該検索結果の属性情報がテキストでないと判定された場合に、当該検索結果の属性情報をテキストに変換し、テキスト変換結果を当該検索結果が全ての検索目標に対応する多目標特徴とすることを含んでよい。
【0046】
すなわち、本実施形態は、取得された多目標特徴がテキストであることを保証することができ、他の複雑な形式の内容の使用を回避し、モデルの訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0047】
本実施形態では、S103を実行して、複数の第2データペアと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得した後、S104を実行し、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する。
【0048】
本実施形態では、S104において、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する場合に、検索目標の優先度に応じて複数の単検索目標ソートモデルの採点順序を決定し、各第2データペアについて、決定された採点順序に従って、単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を順次に採点し、2つの検索結果の点数差が現在の単検索目標ソートモデルに対応する検索目標の差閾値を超えていると判定された場合に、現在の単検索目標ソートモデルに対応する検索目標を、当該第2データペアの訓練検索目標とする、という実現方法を採用できる。
【0049】
すなわち、本実施形態では、予め設定された優先度に従って、異なる単検索目標ソートモデルを用いて、第2データペアにおける2つの検索結果を順次に採点して第2データペアの訓練検索目標を決定することにより、得られた訓練検索目標の正確性を向上させることができ、且つ決定された訓練検索目標が次のステップの検索結果ソートモデルの訓練に用いられるため、第2データペアにおける2つの検索結果が異なる検索目標に対応する点数を注釈する必要がなく、モデルの訓練の難易度と訓練コストを低減し、モデルの訓練効率を高めた。
【0050】
なお、本実施形態では、S104を実行する際に、異なる検索目標の優先度を予め設定しておくことになる。例えば、予め設定された優先度が「相関性目標>時効性目標>権威性目標」である場合に、本実施形態では、S104を実行して決定される採点順序は、まず、相関性目標に対応する単検索目標ソートモデルを用いて採点し、次に、時効性目標に対応する単検索目標ソートモデルを用いて採点し、最後に、権威性目標に対応する単検索目標ソートモデルを用いて採点する。
【0051】
本実施形態では、S104を実行して、単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点する際に、第2データペアにおける各検索結果について、第2データペアにおけるクエリと、当該検索結果が現在の検索目標に対応する単目標特徴とを、現在の検索目標に対応する単検索目標ソートモデルに入力して、当該単検索目標ソートモデルが当該検索結果について出力する点数を取得することができる。
【0052】
本実施形態では、S104を実行する際に、さらに、異なる検索目標に対応する差閾値も予め設定しておき、検索結果間の点数差と差閾値との比較結果に基づいて、第2データペアの訓練検索目標を決定する目的を実現する。
【0053】
例えば、相関性目標に対応する単検索目標ソートモデルがモデル1、時効性目標に対応する単検索目標ソートモデルがモデル2、権威性目標に対応する単検索目標ソートモデルがモデル3であり、本実施形態がS104を実行して決定した採点順序がモデル1~モデル2~モデル3である場合に、モデル1を用いて2つの検索結果を採点し、第2データペアにおける2つの検索結果間の点数差が相関性目標の差閾値を超えると判定された場合、相関性目標を当該第2データペアの訓練検索目標とし、そうでない場合、継続してモデル2を用いて2つの検索結果を採点し、第2データペアにおける2つの検索結果間の点数差が時効性目標の差閾値を超えると判定された場合に、時効性目標を当該第2データペアの訓練検索目標とし、そうでない場合に、継続してモデル3を使用して2つの検索結果を採点し、第2データペアにおける2つの検索結果の間の点数差が権威性目標の差閾値を超えると判定された場合、権威性目標を当該第2データペアの訓練検索目標とする。
【0054】
本実施形態では、S104において、点数差と差閾値とから第2データペアの訓練検索目標を決定する際に、2つの検索結果の点数差がいずれも異なる検索目標の差閾値を超えていない場合がある。この場合に、本実施形態では、S104を実行する際に、最も優先度の高い検索目標を、このような第2データペアの訓練検索目標とすることができる。
【0055】
また、本実施の形態では、S104において、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、この第2データペアの訓練検索目標を決定する際に、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、この第2データペアにおける各検索結果を採点し、2つの検索結果の間の最大点数差に対応する検索目標をこの第2データペアの訓練検索目標とする、というオプションな実現方式を採用して良い。
【0056】
つまり、本実施形態では、さらに、全ての単検索目標ソートモデルが第2データペアごとに出力される検索結果の点数に基づいて各第2データペアの訓練検索目標を決定することにより、第2データペアにおける2つの検索結果が決定された訓練検索目標において最も顕著な相違を有するようにするため、検索結果ソートモデルの訓練効果を向上させる。
【0057】
本実施形態では、S104を実行して複数の第2データペアの訓練検索目標を決定した後、S105を実行して、複数の第2データペアにおけるクエリと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、複数の第2データペアにおける各検索結果が訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る。
【0058】
本実施形態がS105を実行する際に使用される第2事前訓練言語モデルは、変換ネットワーク(Transformer)に基づくニューラルネットワークモデル、例えばErnieモデルであってよい。
【0059】
本実施形態では、S105において、複数の第2データペアにおけるクエリと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、複数の第2データペアにおける各検索結果が訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る場合に、各第2データペアについて、当該第2データペアにおけるクエリと、当該第2データペアにおける訓練検索目標に対応する点数が高い検索結果とを正例データペアとして構成し、当該第2データペアにおけるクエリと、当該第2データペアにおける訓練検索目標に対応する点数が低い検索結果とを負例データペアとして構成し、正例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴、負例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴を、それぞれ第2事前訓練言語モデルに入力して第2事前訓練言語モデルが正例データペアについて出力する正例予測点数及び負例データペアについて出力する負例予測点数を得、正例予測点数と負例予測点数に基づいて損失関数値を算出し、本実施例では、クロスエントロピー損失関数、見切り損失関数の計算方式を用いて損失関数値を算出することができ、算出された損失関数値に基づいて、第2事前訓練言語モデルが収束するまで第2事前訓練言語モデルのパラメータを調整して検索結果ソートモデルを得る、という実現方式を採用できる。
【0060】
つまり、本実施形態では、第2データペアの訓練検索目標に基づいて第2データペアに対応する正例データペアと負例データペアを得、さらに、得られた正例データペアと負例データペアを用いて第2事前訓練言語モデルの訓練を完成することにより、第2データペアにおける検索結果のそれぞれを注釈する必要がなく、モデルの訓練コストと訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0061】
例えば、第2データペアがデータペア2(query1,para1,para2)であり、データペア2の訓練検索目標が相関性目標であり、para1が相関性目標に対応する点数が0.7、para2が相関性目標に対応する点数は0.3である場合に、本実施例では、S105を実行する際に、(query1,para1)を正例データペアとし、(query1,para2)を負例データペアとする。
【0062】
Transformerに基づく第2事前訓練言語モデルにおけるアテンション(attention)メカニズムは、アテンション計算を行う際に、異なる検索目標に対応する特徴を区別することなく、検索目標1と検索目標2とが全く無関係な次元であっても、既存の第2事前訓練言語モデルが検索目標1と検索目標2との特徴についてアテンション計算を行う。
【0063】
しかし、異なる検索目標は実際には異なる一致度に対応しており、例えば、時効性目標は検索結果の時間とクエリとの一致度を描写するために使用され、権威性目標は検索結果の公開者とクエリとの一致度を描写するために使用されるため、時効性をモデル化する際に権威性目標を考慮する必要はない。
【0064】
事前訓練言語モデルが多検索目標を学習する際の効果をさらに向上させるために、本実施形態は、S105を実行する際に、さらに、第2事前訓練言語モデルにおけるアテンションメカニズムを調整することにより、第2事前訓練言語モデルがクエリと異なる目標特徴との間のアテンション計算、クエリとクエリとの間のアテンション計算、及び同じ目標特徴の間のアテンション計算のみを行うようにすることもできる。
【0065】
すなわち、本実施形態の第2事前訓練言語モデルは、訓練を行う際に、異なる検索目標に対応する目標特徴の間のアテンション計算を回避することができるため、異なる検索目標の目標特徴間の相互干渉を低減し、訓練により得られた検索結果ソートモデルのソート正確性を向上させることができる。
【0066】
例えば、第2事前訓練言語モデルの入力にクエリ、目標特徴1、目標特徴2、目標特徴3が含まれる場合、本実施形態における第2事前訓練言語モデルは、アテンション計算を行う際に、クエリと目標特徴1、クエリと目標特徴2、クエリと目標特徴3、クエリとクエリ、目標特徴1と目標特徴1、及び目標特徴2と目標特徴2についてのみアテンション計算を行う。
【0067】
図2は本開示の第2実施形態による概略図である。図2に示すように、本実施形態では、訓練により得られる単検索目標ソートモデルの構造図を示した。即ち、第1データペアにおけるクエリ(query)を、当該第1データペアにおける検索結果が現在の検索目標に対応する単目標特徴とスプライシングし、スプライシング結果を事前訓練言語モデルの入力として事前訓練言語モデルが当該第1データペアについて出力する予測点数を得る。ここで、[CLS]は開始文字、[SEP]は区切り文字を表す。
【0068】
図3は本開示の第3実施形態による概略図である。図3に示すように、本実施形態は、第2データペアの訓練検索目標を決定する際のフローチャートを示した。本実施形態では、複数の検索目標を主検索目標と複数の副検索目標とに分割し、異なる検索目標に対応する単検索目標ソートモデルにより第2データペアにおける2つの検索結果を順次に採点し、2つの検索結果間の点数差が主検索目標の差閾値を超えていると判定された場合、主検索目標を当該第2データペアの訓練検索目標とし、さもなければ、継続して副検索目標1に対応する単検索目標ソートモデルを用いて第2データペアにおける2つの検索結果を採点し、2つの検索結果の点数の差が副検索目標1の差閾値を超えていると判定された場合、副検索目標1を当該第2データペアの訓練検索目標とする。このようにして、第2データペアの訓練検索目標を決定することができる。特に、全ての副検索目標における第2データペアの点数差が何れも対応する差閾値を超えていない場合に、主検索目標を当該第2データペアの訓練検索目標とする。
【0069】
図4は本開示の第4実施形態による概略図である。図4に示すように、本実施形態では、訓練により得られる検索結果ソートモデルの構造図を示した。即ち、第2データペアにおけるクエリ(query)を、当該第2データペアにおける1つの検索結果が全ての検索目標に対応する多目標特徴(主検索目標の主目標特徴、副検索目標1の副目標1特徴、副検索目標nの副目標n特徴)とスプライシングし、スプライシング結果を事前訓練言語モデルの入力として、事前訓練言語モデルが当該第2データペアについて出力する予測点数を得る。ここで、[CLS]は開始文字、[SEP]は区切り文字を表す。
【0070】
図5は本開示の第5実施形態による概略図である。図5に示すように、本実施形態の検索結果ソート方法は、具体的に以下のステップを含む。
【0071】
S501において、処理すべきクエリ及びそれに対応する複数の検索結果を取得する。
【0072】
S502において、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する。
【0073】
S503において、各検索結果について、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、前記検索結果ソートモデルが当該検索結果について出力する点数を得る。
【0074】
S504において、前記複数の検索結果の点数に基づいて、前記複数の検索結果をソートする。
【0075】
本実施形態の検索結果ソート方法は、クエリに対応する複数の検索結果を取得した後、まず、各検索結果が全ての検索目標に対応する多目標特徴を取得し、次に、クエリと各検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、検索結果ソートモデルが各検索結果について出力した点数を取得し、最後に、検索結果の点数に基づいて検索結果のソートを完了する。本実施形態では、検索結果が全ての検索目標に対応する多目標特徴を取得することにより、ソートに用いる点数が複数の検索目標に統合することが可能となり、検索結果のソートのステップを簡略化し、検索結果のソートの正確性を向上させることができる。
【0076】
本実施形態では、S501を実行して処理すべきクエリを取得する際に、入力側で入力されたクエリを処理すべきクエリとしてもよく、入力側でネットワーク上で選択されたクエリを処理すべきクエリとしてもよい。本実施形態がS501を実行して取得された、処理すべきクエリに対応する検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータの中の1つのパラグラフであってもよい。
【0077】
本実施形態では、S501を実行して、処理すべきクエリ及びそれに対応する複数の検索結果を取得した後、S502を実行して、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する。なお、本実施形態における複数の検索目標は、予め設定された相関性目標、時効性目標、権威性目標等であってよい。
【0078】
本実施形態では、S502を実行して、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、各検索結果について、当該検索結果の属性情報を取得し、当該検索結果の属性情報を当該検索結果が全ての検索目標に対応する多目標特徴とする、という実現方式を採用できる。
【0079】
本実施形態では、S502を実行して、当該検索結果の属性情報を当該検索結果が全ての検索目標に対応する多目標特徴とする場合に、さらに、当該検索結果の属性情報がテキストでないと判定された場合に、当該検索結果の属性情報をテキストに変換し、テキスト変換結果を当該検索結果が全ての検索目標に対応する多目標特徴とすることを含んで良い。
【0080】
本実施形態では、S502を実行して、複数の検索結果がそれぞれ全ての検索目標に対応する多目標特徴を取得した後、S503を実行して、各検索結果について、処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、検索結果ソートモデルが検索結果について出力した点数を得る。
【0081】
本実施形態では、S503を実行して、処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力する場合に、両者の間のスプライシング結果を検索結果ソートモデルに入力することにより、検索結果ソートモデルが検索結果を採点して、当該検索結果について検索結果ソートモデルから出力する点数を得るようにすることができる。
【0082】
本実施形態では、S503を実行して複数の検索結果の点数を得た後、S504を実行して複数の検索結果の点数に応じて複数の検索結果をソートする。
【0083】
本実施形態では、S504を実行して検索結果の点数に応じて検索結果をソートする場合に、点数の高い順に複数の検索結果をソートすることができる。
【0084】
図6は、本開示の第6実施形態による概略図である。図6に示すように、本実施形態の検索結果ソートモデルの訓練装置600は、以下の手段を備える。
【0085】
第1取得部601は、複数の第1データペアと、前記複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、前記複数の第1データペアが前記複数の検索目標にそれぞれ対応する注釈点数とを取得し、各第1データペアは、クエリ及びそれに対応する1つの検索結果とを含む。
【0086】
第1訓練部602は、各検索目標について、前記複数の第1データペアにおけるクエリと、前記複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、前記複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して、当該検索目標に対応する単検索目標ソートモデルを得る。
【0087】
第2取得部603は、複数の第2データペアと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得し、各第2データペアはクエリ及びそれに対応する2つの検索結果とを含む。
【0088】
処理部604は、各第2データペアについて、前記複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、当該第2データペアにおける各検索結果を採点し、前記各検索結果が前記複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する。
【0089】
第2訓練部605は、前記複数の第2データペアにおけるクエリと、前記複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、前記複数の第2データペアにおける各検索結果が前記訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る。
【0090】
第1取得部601により取得された第1データペアは、クエリ(query)及びそれに対応する1つの検索結果とからなる。ここで、第1データペアにおける当該検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータにおけるパラグラフ(para)であってもよい。
【0091】
本実施形態において予め設定されている複数の検索目標とは、相関性目標(検索結果とクエリとの相関性を表す)、権威性目標(検索結果の権威性を表す)、時効性目標(検索結果の時効性を表す)などの複数の目標である。
【0092】
第1取得部601は、第1データペアを取得した後、まず複数の検索目標を決定し、その後、複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数とを取得して良い。
【0093】
第1取得部601は、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数を取得する場合に、予め設定された注釈方式により、複数の第1データペアが各検索目標に対応する注釈点数を取得することができる。
【0094】
第1取得部601は、複数の第1データペアにおける検索結果が複数の検索目標に対応する単目標特徴を取得する場合に、複数の第1データペアにおける検索結果の属性情報を取得し、各検索目標について、属性情報のうち当該検索目標に対応する属性情報を、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする、というオプションな実現方式を採用して良い。
【0095】
つまり、第1取得部601が取得した異なる単目標特徴は、異なる検索目標に対応しており、検索結果が同一の検索目標に対応する単目標特徴に含まれる属性情報は、1つであっても複数であってもよい。
【0096】
第1取得部601は、各検索目標について、属性情報のうち当該検索目標に対応する情報を、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とする場合に、各検索目標について、属性情報のうち当該検索目標に対応する属性情報がテキストでないと判定された場合に、当該検索目標に対応する属性情報をテキストに変換し、テキスト変換結果を複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とすることを含んでよい。
【0097】
すなわち、第1取得部601は、取得された単目標特徴がテキストであることを保証し、他の複雑な形式の内容の使用を回避することができるため、モデルの訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0098】
第1取得部601は、予め設定された検索目標と属性情報との対応関係により、検索結果の属性情報から検索目標に対応する属性情報を、検索結果が各検索目標に対応する単目標特徴として取得することができるため、取得された単目標特徴の正確性を向上させる。
【0099】
本実施形態では、第1取得部601により、複数の第1データペアと、複数の第1データペアにおける検索結果が複数の検索目標にそれぞれ対応する単目標特徴と、複数の第1データペアが複数の検索目標にそれぞれ対応する注釈点数とを取得した後、第1訓練部602により、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る。
【0100】
理解すべきなのは、第1訓練部602により、複数の単検索目標ソートモデルが得られる。異なる単検索目標ソートモデルは異なる検索目標に対応する。
【0101】
具体的には、第1訓練部602は、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて、第1事前訓練言語モデルを訓練して当該検索目標に対応する単検索目標ソートモデルを得る場合に、各検索目標について、複数の第1データペアにおけるクエリと、複数の第1データペアにおける検索結果が当該検索目標に対応する単目標特徴とを第1事前訓練言語モデルに入力して、第1事前訓練言語モデルが各第1データペアについて出力する予測点数を得、複数の第1データペアの予測点数と、複数の第1データペアが当該検索目標に対応する注釈点数とに基づいて損失関数値を計算し、算出された損失関数値に基づいて、第1事前訓練言語モデルが収束するまで第1事前訓練言語モデルのパラメータを調整して当該検索目標に対応する単検索目標ソートモデルを得る、というオプションな実現方式を採用して良い。
【0102】
つまり、第1訓練部602により、異なる検索目標に応じて異なる単検索目標ソートモデルが得られる。異なる検索目標に対応する単検索目標ソートモデルは、入力されたクエリ及びその検索結果が異なる検索目標に対応する単目標特徴に基づいて、検索結果が異なる検索目標に対応する採点結果を出力することができる。
【0103】
理解すべきなのは、第1訓練部602により訓練される第1事前訓練言語モデルは、変換ネットワーク(Transformer)に基づくニューラルネットワークモデルである。当該第1事前訓練言語モデルは、Ernieモデルであってよい。
【0104】
本実施形態では、第1訓練部602により複数の検索目標に対応する単検索目標ソートモデルを得た後、第2取得部603により、複数の第2データペアと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得する。
【0105】
第2取得部603により取得された第2データペアは、クエリ及びそれに対応する2つの検索結果とからなる。ここで、第2データペアにおける2つの検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータにおける1つのパラグラフ(para)であってもよい。
【0106】
第2取得部603は、複数の第2データペアを取得する場合に、まず複数のクエリを取得し、次に各クエリに対応する複数の検索結果を取得し、最後に、同一のクエリについて、当該クエリに対応する複数の検索結果から任意に2つを選択して組み合わせることにより、クエリ及びそれに対応する2つの検索結果とを含む複数の第2データペアを得ることができる。
【0107】
第2取得部603は、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、複数の第2データペアにおける各検索結果の属性情報を取得し、各検索結果の属性情報を複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする、というオプションな実現方式を採用して良い。
【0108】
すなわち、第2取得部603により取得される多目標特徴は、検索結果の全ての属性情報である。すなわち、当該多目標特徴は、検索結果が異なる検索目標に対応する全ての単目標特徴を含む。
【0109】
第2取得部603は、各検索結果の属性情報を複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とする場合に、さらに、各検索結果について、当該検索結果の属性情報がテキストでないと判定された場合に、当該検索結果の属性情報をテキストに変換し、テキスト変換結果を当該検索結果が全ての検索目標に対応する多目標特徴とすることを含んでよい。
【0110】
すなわち、第2取得部603は、取得された多目標特徴がテキストであることを保証することができ、他の複雑な形式の内容の使用を回避し、モデルの訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0111】
本実施形態では、第2取得部603により、複数の第2データペアと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴とを取得した後、処理部604により、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する。
【0112】
処理部604は、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、当該第2データペアの訓練検索目標を決定する場合に、検索目標の優先度に応じて複数の単検索目標ソートモデルの採点順序を決定し、各第2データペアについて、決定された採点順序に従って、単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を順次に採点し、2つの検索結果の点数差が現在の単検索目標ソートモデルに対応する検索目標の差閾値を超えていると判定された場合に、現在の単検索目標ソートモデルに対応する検索目標を、当該第2データペアの訓練検索目標とする、というオプションな実現方法を採用して良い。
【0113】
すなわち、処理部604は、予め設定された優先度に従って、異なる単検索目標ソートモデルを用いて、第2データペアにおける2つの検索結果を順次に採点して第2データペアの訓練検索目標を決定することにより、得られた訓練検索目標の正確性を向上させることができ、且つ決定された訓練検索目標が次のステップの検索結果ソートモデルの訓練に用いられるため、第2データペアにおける2つの検索結果が異なる検索目標に対応する点数を注釈する必要がなく、モデルの訓練の難易度と訓練コストを低減し、モデルの訓練効率を高めた。
【0114】
ここで、処理部604は、異なる検索目標の優先度を予め設定しておくことになる。例えば、予め設定された優先度が「相関性目標>時効性目標>権威性目標」である場合に、処理部604により決定される採点順序は、まず、相関性目標に対応する単検索目標ソートモデルを用いて採点し、次に、時効性目標に対応する単検索目標ソートモデルを用いて採点し、最後に、権威性目標に対応する単検索目標ソートモデルを用いて採点する。
【0115】
処理部604は、単検索目標ソートモデルを用いて当該第2データペアにおける各検索結果を採点する際に、第2データペアにおける各検索結果について、第2データペアにおけるクエリと、当該検索結果が現在の検索目標に対応する単目標特徴とを、現在の検索目標に対応する単検索目標ソートモデルに入力して、当該単検索目標ソートモデルが当該検索結果について出力する点数を取得することができる。
【0116】
処理部604は、さらに、異なる検索目標に対応する差閾値も予め設定しておき、検索結果間の点数差と差閾値との比較結果に基づいて、第2データペアの訓練検索目標を決定する目的を実現する。
【0117】
処理部604は、点数差と差閾値とから第2データペアの訓練検索目標を決定する際に、2つの検索結果の点数差がいずれも異なる検索目標の差閾値を超えていない場合がある。この場合に、処理部604は、最も優先度の高い検索目標を、このような第2データペアの訓練検索目標とすることができる。
【0118】
さらに、処理部604は、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを使用して当該第2データペアにおける各検索結果を採点し、各検索結果が複数の検索目標に対応する点数に基づいて、この第2データペアの訓練検索目標を決定する際に、各第2データペアについて、複数の検索目標に対応する複数の単検索目標ソートモデルを用いて、この第2データペアにおける各検索結果を採点し、2つの検索結果の間の最大点数差に対応する検索目標をこの第2データペアの訓練検索目標とする、というオプションな実現方式を採用して良い。
【0119】
つまり、処理部604はさらに、全ての単検索目標ソートモデルが第2データペアごとに出力される検索結果の点数に基づいて各第2データペアの訓練検索目標を決定することにより、第2データペアにおける2つの検索結果が決定された訓練検索目標において最も顕著な相違を有するようにするため、検索結果ソートモデルの訓練効果を向上させる。
【0120】
本実施形態では、処理部604により複数の第2データペアの訓練検索目標を決定した後、第2訓練部605により、複数の第2データペアにおけるクエリと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、複数の第2データペアにおける各検索結果が訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る。
【0121】
第2訓練部605により使用される第2事前訓練言語モデルは、変換ネットワーク(Transformer)に基づくニューラルネットワークモデル、例えばErnieモデルであってもよい。
【0122】
第2訓練部605は、複数の第2データペアにおけるクエリと、複数の第2データペアにおける各検索結果が全ての検索目標に対応する多目標特徴と、複数の第2データペアにおける各検索結果が訓練検索目標に対応する点数とに基づいて、第2事前訓練言語モデルを訓練して検索結果ソートモデルを得る場合に、各第2データペアについて、当該第2データペアにおけるクエリと、当該第2データペアにおける訓練検索目標に対応する点数が高い検索結果とを正例データペアとして構成し、当該第2データペアにおけるクエリと、当該第2データペアにおける訓練検索目標に対応する点数が低い検索結果とを負例データペアとして構成し、正例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴、負例データペアにおけるクエリ及び検索結果が全ての検索目標に対応する多目標特徴を、それぞれ第2事前訓練言語モデルに入力して第2事前訓練言語モデルが正例データペアについて出力する正例予測点数及び負例データペアについて出力する負例予測点数を得、正例予測点数と負例予測点数に基づいて損失関数値を算出し、算出された損失関数値に基づいて、第2事前訓練言語モデルが収束するまで第2事前訓練言語モデルのパラメータを調整して検索結果ソートモデルを得る、というオプションな実現方式を採用して良い。
【0123】
つまり、第2訓練部605は、第2データペアの訓練検索目標に基づいて第2データペアに対応する正例データペアと負例データペアを得、さらに、得られた正例データペアと負例データペアを用いて第2事前訓練言語モデルの訓練を完成することにより、第2データペアにおける検索結果のそれぞれを注釈する必要がなく、モデルの訓練コストと訓練の難易度を低減し、モデルの訓練効率を向上させる。
【0124】
Transformerに基づく第2事前訓練言語モデルにおけるアテンション(attention)メカニズムは、アテンション計算を行う際に、異なる検索目標に対応する特徴を区別することなく、検索目標1と検索目標2とが全く無関係な次元であっても、既存の第2事前訓練言語モデルが検索目標1と検索目標2との特徴についてアテンション計算を行う。
【0125】
しかし、異なる検索目標は実際には異なる一致度に対応しており、例えば、時効性目標は検索結果の時間とクエリとの一致度を描写するために使用され、権威性目標は検索結果の公開者とクエリとの一致度を描写するために使用されるため、時効性をモデル化する際に権威性目標を考慮する必要はない。
【0126】
事前訓練言語モデルが多検索目標を学習する際の効果をさらに向上させるために、本実施形態に係る検索結果ソートモデル訓練装置600では、第2事前訓練言語モデルにおけるアテンションメカニズムを調整することにより、第2事前訓練言語モデルがクエリと異なる目標特徴との間のアテンション計算、クエリとクエリとの間のアテンション計算、及び同じ目標特徴の間のアテンション計算のみを行うようにする調整部606をさらに備えて良い。
【0127】
すなわち、本実施形態の第2事前訓練言語モデルは、訓練を行う際に、異なる検索目標に対応する目標特徴の間のアテンション計算を回避することができるため、異なる検索目標の目標特徴間の相互干渉を低減し、訓練により得られた検索結果ソートモデルのソート正確性を向上させることができる。
【0128】
図7は、本開示の第7実施形態による概略図である。図7に示すように、本実施形態の検索結果ソート装置700は、以下の手段を備える。
【0129】
第3取得部701は、処理すべきクエリ及びそれに対応する複数の検索結果を取得する。
【0130】
第4取得部702は、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する。
【0131】
採点部703は、各検索結果について、前記処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、前記検索結果ソートモデルが当該検索結果について出力する点数を得る。
【0132】
ソート部704は、前記複数の検索結果の点数に基づいて、前記複数の検索結果をソートする。
【0133】
第3取得部701は、処理すべきクエリを取得する際に、入力側で入力されたクエリを処理すべきクエリとしてもよく、入力側でネットワーク上で選択されたクエリを処理すべきクエリとしてもよい。第3取得部701により取得された、処理すべきクエリに対応する検索結果は、ウェブページ全体、ドキュメント全体、又はマルチメディアデータ全体であってもよく、ウェブページ、ドキュメント、又はマルチメディアデータの中の1つのパラグラフであってもよい。
【0134】
本実施形態では、第3取得部701により、処理すべきクエリ及びそれに対応する複数の検索結果を取得した後、第4取得部702により、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する。なお、本実施形態における複数の検索目標は、予め設定された相関性目標、時効性目標、権威性目標等であってよい。
【0135】
第4取得部702は、各検索結果について、当該検索結果が全ての検索目標に対応する多目標特徴を取得する場合に、各検索結果について、当該検索結果の属性情報を取得し、当該検索結果の属性情報を当該検索結果が全ての検索目標に対応する多目標特徴とする、というオプションな実現方式を採用して良い。
【0136】
第4取得部702は、当該検索結果の属性情報を当該検索結果が全ての検索目標に対応する多目標特徴とする場合に、さらに、当該検索結果の属性情報がテキストでないと判定された場合に、当該検索結果の属性情報をテキストに変換し、テキスト変換結果を当該検索結果が全ての検索目標に対応する多目標特徴とすることを含んで良い。
【0137】
本実施形態では、第4取得部702により、複数の検索結果がそれぞれ全ての検索目標に対応する多目標特徴を取得した後、採点部703により、各検索結果について、処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力して、検索結果ソートモデルが検索結果について出力した点数を得る。
【0138】
採点部703は、処理すべきクエリと当該検索結果が全ての検索目標に対応する多目標特徴を検索結果ソートモデルに入力する場合に、両者の間のスプライシング結果を検索結果ソートモデルに入力することにより、検索結果ソートモデルが検索結果を採点して、当該検索結果について検索結果ソートモデルから出力する点数を得るようにすることができる。
【0139】
本実施形態では、採点部703により複数の検索結果の点数を得た後、ソート部704により複数の検索結果の点数に応じて複数の検索結果をソートする。
【0140】
ソート部704は、検索結果の点数に応じて検索結果をソートする場合に、点数の高い順に複数の検索結果をソートすることができる。
【0141】
本開示の技術案において、関わるユーザの個人情報の取得、記憶、応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0142】
本開示の実施形態によれば、本開示はさらに、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0143】
図8は、本開示の実施形態による検索結果ソートモデルの訓練又は検索結果ソート方法の電子デバイスのブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスさらに、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0144】
図8に示すように、デバイス800は、読み取り専用メモリ(ROM)802に記憶されたコンピュータプログラム、又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段801を含む。RAM803には、デバイス800の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段801、ROM802及びRAM803は、バス804を介して接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0145】
例えばキーボード、マウス等の入力手段806と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段807と、例えば磁気ディスク、光ディスク等の記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段809を含むデバイス800の複数の構成要素は、I/Oインターフェース805に接続される。通信手段809は、デバイス800が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0146】
演算手段801は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段801のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段801は、上述した様々な方法及び処理、例えば検索結果ソートモデルの訓練又は検索結果ソート方法を実行する。例えば、幾つかの実施形態では、検索結果ソートモデルの訓練又は検索結果ソート方法は、例えば記憶手段808のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。
【0147】
幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信手段809を介してデバイス800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされ、演算手段801により実行されると、前記検索結果ソートモデルの訓練又は検索結果ソート方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段801は、検索結果ソートモデルの訓練又は検索結果ソート方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0148】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0149】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0150】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0151】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0152】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0153】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)サービスにおいて管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0154】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0155】
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8