IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-186955検索方法、装置、電子機器及び記憶媒体
<>
  • 特開-検索方法、装置、電子機器及び記憶媒体 図1
  • 特開-検索方法、装置、電子機器及び記憶媒体 図2
  • 特開-検索方法、装置、電子機器及び記憶媒体 図3
  • 特開-検索方法、装置、電子機器及び記憶媒体 図4
  • 特開-検索方法、装置、電子機器及び記憶媒体 図5
  • 特開-検索方法、装置、電子機器及び記憶媒体 図6
  • 特開-検索方法、装置、電子機器及び記憶媒体 図7
  • 特開-検索方法、装置、電子機器及び記憶媒体 図8
  • 特開-検索方法、装置、電子機器及び記憶媒体 図9
  • 特開-検索方法、装置、電子機器及び記憶媒体 図10
  • 特開-検索方法、装置、電子機器及び記憶媒体 図11
  • 特開-検索方法、装置、電子機器及び記憶媒体 図12
  • 特開-検索方法、装置、電子機器及び記憶媒体 図13
  • 特開-検索方法、装置、電子機器及び記憶媒体 図14
  • 特開-検索方法、装置、電子機器及び記憶媒体 図15
  • 特開-検索方法、装置、電子機器及び記憶媒体 図16
  • 特開-検索方法、装置、電子機器及び記憶媒体 図17
  • 特開-検索方法、装置、電子機器及び記憶媒体 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022186955
(43)【公開日】2022-12-15
(54)【発明の名称】検索方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G06F 16/38 20190101AFI20221208BHJP
【FI】
G06F16/38
【審査請求】有
【請求項の数】58
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022171955
(22)【出願日】2022-10-27
(31)【優先権主張番号】202111308789.3
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ハイフオン ワーン
(72)【発明者】
【氏名】ハオ ティエン
(72)【発明者】
【氏名】ジーン リウ
(72)【発明者】
【氏名】ホワ ウー
(72)【発明者】
【氏名】ティエン ウー
(72)【発明者】
【氏名】ユイ スゥン
(72)【発明者】
【氏名】チヤオチヤオ ショーァ
(57)【要約】
【課題】検索方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
【解決手段】本開示は、検索方法、装置、電子機器及び記憶媒体を提供し、人工知能分野に関し、特にスマート検索分野に関する。解決手段は、ユーザの検索要求を第1要求意味ベクトルに変換することと、検索リソースデータベースで第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索することであって、検索リソースデータベースは意味ベクトル空間として構築され、意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含むことと、該少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成することと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザの検索要求を第1要求意味ベクトルに変換することと、
検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索することであって、前記検索リソースデータベースは、意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは、対応するデータ意味ベクトルに変換され、前記異なるタイプのデータは、テキスト、ピクチャ及びビデオを少なくとも含む、検索することと、
前記少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成することと、を含む、
検索方法。
【請求項2】
前記ユーザの検索要求に基づいて、前記ユーザの関連検索意図を取得することと、
前記関連検索意図を第2要求意味ベクトルに変換することと、
前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索することと、
前記少なくとも1つの第2データ意味ベクトルに基づいて、推薦結果を生成することと、をさらに含む、
請求項1に記載の方法。
【請求項3】
前記ユーザの関連検索意図を取得することは、ニーズグラフに基づいて、前記ユーザの関連検索意図を取得することを含む、請求項2に記載の方法。
【請求項4】
前記ユーザの関連検索意図を取得する前記ことは、前記ユーザの同一のセッションプロセスにおける検索履歴に基づいて、前記ユーザの関連検索意図を取得することを含む、請求項2に記載の方法。
【請求項5】
前記検索リソースデータベースは、第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は、前記第1サブライブラリ内のデータ量より小さい、請求項2~4のうちのいずれか1項に記載の方法。
【請求項6】
前記第2サブライブラリ内のデータは、所定の品質基準に基づいて選択されるものである、請求項5に記載の方法。
【請求項7】
前記検索結果を生成することは、
前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データを取得することと、
対応するデータのコンテンツ品質、配信時刻、及びソース信頼度のうちの少なくとも1つに基づく第1ソートロジックに基づいて、前記1つ又は複数の第1データをソートすることと、を含む、
請求項2に記載の方法。
【請求項8】
前記推薦結果を生成することは、
前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データを取得することと、
対応するデータの意味関連性特徴と感知関連性特徴に基づく前記第1ソートロジックと異なる第2ソートロジックに基づいて前記1つ又は複数の第2データをソートすることと、を含む、
請求項7に記載の方法。
【請求項9】
前記検索結果を生成することは、
対応するコンテンツへの理解に基づいて、前記1つ又は複数の第1データを整理して前記検索結果を生成することをさらに含む、請求項7又は8に記載の方法。
【請求項10】
前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定することと、
曖昧性があると決定したことに応答して、明確化を必要とするコンテンツをユーザに提供することと、をさらに含む、
請求項1に記載の方法。
【請求項11】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのコンテンツ品質に関する次元を含む、請求項1に記載の方法。
【請求項12】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータの配信時刻に関する次元を含む、請求項1に記載の方法。
【請求項13】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのソース信頼度に関する次元を含む、請求項1に記載の方法。
【請求項14】
前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項1に記載の方法。
【請求項15】
前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む、請求項1に記載の方法。
【請求項16】
前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項1に記載の方法。
【請求項17】
前記異なるタイプのデータは、少なくともテーブルと知識グラフとをさらに含む、請求項1に記載の方法。
【請求項18】
前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである、請求項1に記載の方法。
【請求項19】
前記異なるタイプのデータから変換されるデータ意味ベクトルは、統一仕様を有する、請求項1に記載の方法。
【請求項20】
ユーザの検索要求を第1要求意味ベクトルに変換するためのユニットと、
リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するためのユニットであって、前記検索リソースデータベースは、意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは、対応するデータ意味ベクトルに変換され、前記異なるタイプのデータは、テキスト、ピクチャ及びビデオを少なくとも含む、検索するためのユニットと、
前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するためのユニットと、を含む、
検索装置。
【請求項21】
前記ユーザの検索要求に基づいて、前記ユーザの関連検索意図を取得するためのユニットと、
前記関連検索意図を第2要求意味ベクトルに変換するためのユニットと、
前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索するためのユニットと、
前記少なくとも1つの第2データ意味ベクトルに基づいて推薦結果を生成するためのユニットと、をさらに含む、
請求項20に記載の装置。
【請求項22】
前記ユーザの検索要求に基づいて前記ユーザの関連検索意図を取得するための前記ユニットは、さらに、ニーズグラフに基づいて、前記ユーザの関連検索意図を取得することに用いられるように構成される、請求項21に記載の装置。
【請求項23】
前記ユーザの検索要求に基づいて前記ユーザの関連検索意図を取得するための前記ユニットは、さらに、前記ユーザの同一のセッションプロセスにおける検索履歴に基づいて、前記ユーザの関連検索意図を取得することに用いられるように構成される、請求項21に記載の装置。
【請求項24】
前記検索リソースデータベースは、第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は、前記第1サブライブラリ内のデータ量より小さい、請求項21~23のいずれか1項に記載の装置。
【請求項25】
前記第2サブライブラリ内のデータは、所定の品質基準に基づいて選択されるものである、請求項24に記載の装置。
【請求項26】
前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するための前記ユニットは、
前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データを取得するためのユニットと、
対応するデータのコンテンツ品質、配信時刻、及びソース信頼度のうちの少なくとも1つに基づく第1ソートロジックに基づいて前記1つ又は複数の第1データをソートするためのユニットと、をさらに含む、
請求項20に記載の装置。
【請求項27】
前記少なくとも1つの第2データ意味ベクトルに基づいて推薦結果を生成するための前記ユニットは、
前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データを取得するためユニットと、
対応するデータの意味関連性特徴と感知関連性特徴に基づく前記第1ソートロジックと異なる第2ソートロジックに基づいて前記1つ又は複数の第2データをソートするためのユニットと、を含む、
請求項26に記載の装置。
【請求項28】
前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するための前記ユニットは、
対応するコンテンツへの理解に基づいて、前記1つ又は複数の第1データを整理して前記検索結果を生成するためのユニットをさらに含む、
請求項20に記載の装置。
【請求項29】
前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定するためのユニットと、
曖昧性があると決定したことに応答して、明確化を必要とするコンテンツを前記ユーザに提供するためのユニットと、をさらに含む、
請求項20に記載の装置。
【請求項30】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのコンテンツ品質に関する次元を含む、請求項20に記載の装置。
【請求項31】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータの配信時刻に関する次元を含む、請求項20に記載の装置。
【請求項32】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのソース信頼度に関する次元を含む、請求項20に記載の装置。
【請求項33】
前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項20に記載の装置。
【請求項34】
前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項20に記載の装置。
【請求項35】
前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む、請求項20に記載の装置。
【請求項36】
前記異なるタイプのデータは、少なくともテーブルと知識グラフとをさらに含む、請求項20に記載の装置。
【請求項37】
前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである、請求項20に記載の装置。
【請求項38】
前記異なるタイプのデータから変換されるデータ意味ベクトルは、統一仕様を有する、請求項20に記載の装置。
【請求項39】
事前にトレーニングされた言語モデルに基づく検索システムであって、
ユーザの検索要求を第1要求意味ベクトルに変換し、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するように構成されるリコールモデルであって、前記検索リソースデータベースは、意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータは、テキスト、ピクチャ及びビデオを少なくとも含む、リコールモデルと、
前記検索要求と前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データとの間の類似度を順次決定することで、前記1つ又は複数の第1データをソートするように構成されるソートモデルと、を含み、
前記リコールモデルと前記ソートモデルとがカスケード接続されてエンドツーエンドのディープニューラルネットワーク基礎モデルを形成する、
検索システム。
【請求項40】
入力された前記検索要求に基づいて、前記ユーザの関連検索意図を取得するように構成される関連検索意図取得モデルをさらに含む、請求項39に記載の検索システム。
【請求項41】
前記リコールモデルは、さらに、
前記関連検索意図を第2要求意味ベクトルに変換し、
前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索するように構成される、
請求項40に記載の検索システム。
【請求項42】
前記検索リソースデータベースは、第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は、前記第1サブライブラリ内のデータ量より小さい、請求項40又は41に記載の検索システム。
【請求項43】
前記関連検索意図と前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データとの間の類似度を順次決定することで、前記1つ又は複数の第2データをソートするように構成される推薦モデルをさらに含む、請求項41に記載の検索システム。
【請求項44】
対応するコンテンツへの理解に基づいて、前記1つ又は複数の第1データを整理して検索結果を生成するように構成される検索結果生成モデルをさらに含む、請求項39に記載の検索システム。
【請求項45】
対応するコンテンツへの理解に基づいて、前記1つ又は複数の第2データを整理して推薦結果を生成するように構成される推薦結果生成モデルをさらに含む、請求項43又は44に記載の検索システム。
【請求項46】
前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定し、
曖昧性があると決定したことに応答して、明確化を必要とするコンテンツを前記ユーザに提供するように構成される曖昧性解消モデルをさらに含む、
請求項39に記載の検索システム。
【請求項47】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのコンテンツ品質に関する次元を含む、請求項39に記載の検索システム。
【請求項48】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータの配信時刻に関する次元を含む、請求項39に記載の検索システム。
【請求項49】
前記意味ベクトル空間における各データ意味ベクトルは、対応するデータのソース信頼度に関する次元を含む、請求項39に記載の検索システム。
【請求項50】
前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項39に記載の検索システム。
【請求項51】
前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む、請求項39に記載の検索システム。
【請求項52】
前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴とに関する次元をそれぞれ含む、請求項39に記載の検索システム。
【請求項53】
前記異なるタイプのデータは、少なくともテーブルと知識グラフとをさらに含む、請求項39に記載の検索システム。
【請求項54】
前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである、請求項39に記載の検索システム。
【請求項55】
前記異なるタイプのデータから変換されるデータ意味ベクトルは、統一仕様を有する、請求項39に記載の検索システム。
【請求項56】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサにより実行されて、請求項1~19のうちのいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、
電子機器。
【請求項57】
請求項1~19のうちのいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶された、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項58】
プロセッサにより実行されると、請求項1~19のうちのいずれか1項に記載の方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の技術分野に関し、特にスマート検索の技術分野に関し、具体的には、検索方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
人工知能は、コンピュータが人間のある思考過程及びインテリジェント行為(例えば学習、推論、思考、計画など)をシミュレーションすることを可能とすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能におけるハードウェア技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含む。人工知能におけるソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などを含む。
【0003】
データ検索は、インターネットの基本的なサービスの一つであり、ユーザの検索要求に基づいてユーザのニーズを満たす検索結果を提供することができる。
【0004】
この部分に記載される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に明記しない限り、この部分に記載されるいずれかの方法がこの部分に含まれているため従来の技術とみなされるものと仮定するべきではない。同様に、特に明記しない限り、この部分で言及された問題は、いかなる従来の技術においても認められていると見なされるべきではない。
【発明の概要】
【0005】
本開示は、検索方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
【0006】
本開示の一態様によれば、ユーザの検索要求を第1要求意味ベクトルに変換することと、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索することであって、前記検索リソースデータベースは意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含むことと、前記少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成することと、を含む検索方法を提供する。
【0007】
本開示の別の態様によれば、ユーザの検索要求を第1要求意味ベクトルに変換するためのユニットと、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するためのユニットであって、前記検索リソースデータベースは意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含むユニットと、前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するためのユニットと、を含むデータ検索装置を提供する。
【0008】
本開示の別の態様によれば、ユーザの検索要求を第1要求意味ベクトルに変換し、検索リソースベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するように構成されるリコールモデルであって、前記検索リソースデータベースは意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含むリコールモデルと、前記検索要求と前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データとの間の類似度を順次決定することで、前記1つ又は複数の第1データをソートするように構成されるソートモデルと、を含み、前記リコールモデルと前記ソートモデルとがカスケード接続されてエンドツーエンドのディープニューラルネットワーク基礎モデルを形成する事前にトレーニングされた言語モデルに基づく検索システムを提供する。
【0009】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、前記命令は少なくとも1つのプロセッサにより実行されて、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を少なくとも1つのプロセッサに実行させる電子機器を提供する。
【0010】
本開示の別の態様によれば、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
【0011】
本開示の別の態様によれば、プロセッサにより実行されると、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品を提供する。
【0012】
本開示の1つ又は複数の実施例によれば、検索性能を向上させることができる。
【0013】
なお、本部分で説明される内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は以下の説明により理解しやすくなる。
【図面の簡単な説明】
【0014】
図面は実施例を例示的に示し、明細書の一部を構成し、明細書の記載とともに実施例の例示的な実施形態を説明することに用いられる。示される実施例は例示の目的にのみ使用され、特許請求の範囲を限定するものではない。すべての図面において、同じ図面の符号は、類似するが、必ずしも同じではない要素を示す。
【0015】
図1】本開示の例示的な実施例に係る検索方法のフローチャートを示す。
図2】本開示の例示的な実施例に係る検索方法のフローチャートを示す。
図3】本開示の例示的な実施例に係る検索方法のフローチャートを示す。
図4】本開示の例示的な実施例に係る検索方法のフローチャートを示す。
図5】本開示の例示的な実施例に係る検索方法のフローチャートを示す。
図6】本開示の例示的な実施例に係る検索要求の構造化分析の概略図を示す。
図7】本開示の例示的な実施例に係るデータ検索装置の構造ブロック図を示す。
図8】本開示の例示的な実施例に係るデータ検索装置の構造ブロック図を示す。
図9】本開示の例示的な実施例に係るデータ検索装置の構造ブロック図を示す。
図10】本開示の例示的な実施例に係るデータ検索装置の構造ブロック図を示す。
図11】本開示の例示的な実施例に係るデータ検索装置の構造ブロック図を示す。
図12】本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムの構造ブロック図を示す。
図13】本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムの構造ブロック図を示す。
図14】本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムの構造ブロック図を示す。
図15】本開示の例示的な実施例に係るクロスエンコーダ構造に基づくモデル構造の概略図と、ダブルエンコーダ構造に基づくモデル構造の概略図を示す。
図16】本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムの動作プロセスの概略図を示す。
図17】本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法のフローチャートを示す。
図18】本開示の実施例を実現するために使用できる例示的な電子機器の構造ブロック図を示す。
【発明を実施するための形態】
【0016】
以下、図面を参照しつつ本開示の例示的な実施例を説明するが、以下の説明には、理解を容易にするために本開示の実施例の様々な詳細が含まれるが、このような詳細は単に例示的なものとみなされるべきである。したがって、当業者にとって自明なように、本開示の範囲から逸脱することなく、ここで記載された実施例に様々な変更及び修正が可能である。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。
【0017】
本開示では、特に明記しない限り、「第1」、「第2」などの用語を用いて様々な要素を説明する場合、これらの要素の位置関係、タイミング関係又は重要性関係を限定することを意図するものではなく、このような用語は、1つの素子と別の素子とを区別するためのものに過ぎない。いくつかの例では、第1の要素と第2の要素は、該要素の同じインスタンスを指すことができ、いくつかの場合では、文脈の説明に基づいて、それらは、異なるインスタンスを指すこともできる。
【0018】
本開示では、様々な例の説明において使用される用語は、特定の例を説明するためのものに過ぎず、限定することを意図するものではない。文脈において特に明記しない限り、要素の数が特に限定されていない場合、該要素は、1つであってもよいし、複数であってもよい。また、本開示で使用される「及び/又は」という用語は、示される項目のいずれか1つ及び全ての可能な組み合わせ形態をカバーする。
【0019】
データ検索は、インターネットの基本的なサービスの一つであり、ユーザの検索要求に基づいてユーザのニーズを満たす検索結果を提供することができる。
【0020】
発明者は、データの検索方法を創造的に提案し、テキスト、ピクチャ、ビデオ、テーブルなどの様々な異なる形式のネットワークリソースをユニファイドベクトル表現でユニファイドリソースデータベースに集めることで、異なるタイプのデータを対応するデータ意味ベクトルに変換する。それによりユーザの検索要求に対応する意味ベクトルと少なくとも1つのデータに対応する意味ベクトルとを比較することで、ユーザの検索要求に対する検索結果を少なくとも1つのデータからリコールすることができる。これにより、異なるタイプのデータを同一の意味ベクトル空間にマッピングすることで、異なるタイプのデータに対応する意味ベクトルに類似度マッチングを直接行い、ユーザの検索要求とマッチングするマルチモーダルデータを得て、検索性能の向上に役立ち、具体的には、検索コンテンツの多様性を向上させ、ユーザ体験を向上させることができる。
【0021】
データの属性はモーダル、言語、データ構造の少なくとも1つを含む。データのモーダルはテキスト、ピクチャ及びビデオを含み、言語は中国語、英語などの様々な種類の言語を含み、データ構造は構造化データ(例えばテーブル、グラフ)及び非構造化データを含む。したがって、本願の実施例の解決手段は、マルチモーダル、マルチ言語、マルチリソースのユニファイド検索方法を実現することができる。
【0022】
以下、添付の図面を参照しつつ本開示の実施例を詳細に説明する。
【0023】
図1は本開示の例示的な実施例に係る検索方法のフローチャートを示す。
【0024】
図1に示すように、前記方法は、ユーザの検索要求を第1要求意味ベクトルに変換するステップS101と、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するステップS102であって、前記検索リソースデータベースは意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含むステップS102と、前記少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成するステップS103と、を含んでもよい。これにより、異なるタイプのデータに対するユニファイド検索を実現し、検索結果の多様性を向上させ、ユーザ体験を向上させることができる。
【0025】
例示的に、検索リソースデータベースは、大量のテキスト、ピクチャ、ビデオなどの異なるタイプのデータを含み、異なるタイプのデータは様々な方式で取得されてもよく、例えば、既存の標準化データコンテンツのデータベースにアクセスしてもよく、そのうちのデータコンテンツは検索リソースデータベースの意味ベクトル空間において対応するデータ意味ベクトルに変換される。
【0026】
ユーザの検索要求はユーザが入力した検索情報を少なくとも含み、前記検索情報はテキスト情報又は音声情報を含むがこれらに限定されない。前記検索情報の意味特徴を抽出し、それを第1要求意味ベクトルに変換することで、検索をマッチングするために用いられ、ユーザのニーズを満たすデータを得る。
【0027】
いくつかの実施例によれば、前記検索リソースデータベースでは、前記異なるタイプのデータから変換されるデータ意味ベクトルは統一仕様を有する。これにより、異なるタイプのデータに対するユニファイド検索を実現することができる。
【0028】
理解できるように、前記第1要求意味ベクトルは、前記検索リソースデータベース内のデータ意味ベクトルと同じ仕様を有し、例えば、前記検索リソースデータベース内のデータ意味ベクトルが1000次元ベクトルである場合、前記検索要求も同じ仕様の1000次元ベクトルに変換されるべきである。
【0029】
例示的に、前記第1要求意味ベクトルと前記検索リソースデータベース内の各データ意味ベクトルとの間の類似度を計算し、類似度に基づいて前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを得ることができる。少なくとも1つの第1データ意味ベクトルに基づいて、各第1データ意味ベクトルに対応する第1データを取得することができ、さらに前記少なくとも1つの第1データに基づいて、検索結果を生成してユーザに表示することができる。ベクトル間の類似度は、例えばコサイン類似度であるがこれに限定されない。
【0030】
いくつかの実施例によれば、テキスト、ピクチャ及びビデオに加えて、前記異なるタイプのデータはテーブルと知識グラフを少なくとも含む。理解できるように、前記異なるタイプのデータは、地図、動画などの他のタイプのデータをさらに含んでもよく、より多くのタイプのデータはさらに、検索リソースデータベースを豊富にすることができ、それにより検索結果の多様性をさらに向上させ、ユーザのニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0031】
いくつかの実施例によれば、前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである。これにより、データコンテンツへの理解が深くなり、さらに細粒度インデックスを実現し、ユーザのニーズにより合致した検索結果を得ることができる。
【0032】
例示的に、元の完全なデータに対して細粒度分割を行うことによって少なくとも1つのテキスト又はビデオデータを取得する前記ことは、意味に従って元の完全なデータに対して細粒度分割を行うことであってもよい。いくつかの実施例では、元の完全なデータに対して細粒度分割を行うことは、元の完全なデータに対して意味分割を行い、少なくとも1つのテキスト又はビデオデータを得ることを含んでもよい。ウェブページテキストデータを例とし、元の完全なウェブページテキストデータは複数の段落を含む可能性があり、各段落は異なる意味特徴を有する可能性があるので、対応する完全なウェブページテキストデータに対応するデータ意味ベクトルは各段落の異なる意味特徴を十分に表すことができず、検索過程においてユーザのニーズを体現する第1要求意味ベクトルを各段落の意味とマッチングすることができない。元の完全なウェブページテキストデータを分割することで、それを異なる意味特徴を有する複数のセグメントに分割することができ、各セグメントは前記少なくとも1つのテキストのうちの1つに対応する。各セグメントはいずれも対応するデータ意味ベクトルに変換され、検索過程においてそれぞれユーザのニーズを体現する第1要求意味ベクトルとマッチングし、ユーザのニーズにより合致した検索結果を得ることができる。同様に、ビデオに対応するビデオテキストデータに基づいて細粒度分割を行うことができ、具体的な原理及び過程はウェブページテキストデータと類似する。
【0033】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは対応するデータのコンテンツ品質に関する次元を含む。対応するデータのコンテンツ品質に関する前記次元は、対応するデータのコンテンツ品質スコアであってもよいがこれに限られない。これにより、検索過程においてデータのコンテンツ品質を考慮し、検索結果の品質を向上させることができる。
【0034】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは対応するデータの配信時刻に関する次元を含む。対応するデータの配信時刻に関する前記次元は、対応するデータの配信時刻であってもよいがこれに限られない。これにより、検索過程においてデータの適時性を考慮し、検索結果の品質を向上させることができる。
【0035】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは対応するデータのソース信頼度に関する次元を含む。対応するデータのソース信頼度に関する前記次元は、対応するデータのソースウェブサイトタイプ及び対応するウェブサイトタイプの信頼度であってもよいが、これらに限定されない。これにより、検索過程においてデータのオーソリティを考慮し、検索結果の品質を向上させることができる。
【0036】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは、対応するデータの、コンテンツ品質に関する次元、配信時刻に関する次元及びソース信頼度に関する次元における少なくとも2つを含む。検索過程において、データの複数の次元を増加することで、検索結果の品質をさらに向上させることができる。
【0037】
同様の原理に基づいて、いくつかの実施例によれば、前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む。これにより、検索の精度をさらに向上させることができる。
【0038】
理解できるように、前記ユーザの検索に関するコンテキスト情報に基づいて、ユーザの直接的な検索要求をより正確に説明することができる。例えば、ユーザが入力した検索情報が「明日の天気はどうですか」である場合、これに対応して、前記第1要求意味ベクトルにはユーザが所在する場所、例えば北京市が含まれてもよく、それにより「北京市の明日の天気」に関する検索結果をユーザに提供し、ユーザのニーズをより正確に満たし、ユーザ体験を向上させることができる。
【0039】
発明者らの研究により、ユーザは1つの検索要求を照会した後、別の関連検索要求を照会し続ける可能性があり、該別の関連検索要求は、ユーザが最初の検索要求を照会する時の関連検索意図を体現することができる。例えば、ユーザは、「公的人物Aの奥様は誰ですか」を照会し、検索結果「公的人物Aの奥様は公的人物Bです」に基づいて、「公的人物Bの出身地はどこですか」を照会し続ける可能性がある。したがって、ユーザの検索要求を照会する際に、ユーザの関連検索意図をさらにマイニングすることは検索性能を向上させることに有利である。
【0040】
これに基づいて、いくつかの実施例によれば、図2に示すように、前記検索方法は、前記ユーザの検索要求に基づいて、前記ユーザの関連検索意図を取得するステップS201と、前記関連検索意図を第2要求意味ベクトルに変換するステップS202と、前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索するステップS203と、前記少なくとも1つの第2データ意味ベクトルに基づいて、推薦結果を生成するステップS204と、をさらに含む。これにより、ユーザの検索要求に応答し、前記ユーザの関連検索意図を取得し、これに基づいて推薦することで、ユーザが入力した検索要求に対する照会結果はユーザの拡張ニーズをさらに満たすことができ、それによりユーザ体験をさらに向上させる。1つ又は複数の前記関連拡張意図を有してもよい。
【0041】
いくつかの実施例によれば、前記ユーザの関連検索意図を取得する前記ことは、ニーズグラフに基づいて、前記ユーザの関連検索意図を取得することを含む。前記ニーズグラフには、ビッグデータに基づいて得られた検索ニーズ分布情報、検索ニーズ関連情報などが含まれ、これにより、ユーザの直接的な検索意図に基づいて前記ユーザの関連検索意図をより正確に取得することができる。
【0042】
例えば、前記ユーザの関連検索意図は、ユーザの検索要求に基づいてそれに関する人気検索ニーズを照会することによって取得されてもよい。一例では、現在のユーザが入力した検索要求が「どのように観光地Aに行きますか」である場合、ニーズグラフから「観光地A」に関する人気検索ニーズが「観光地Aのチケット予約方式」、「観光地Aの観光地図」などであることを照会すると、対応して前記ユーザの関連検索意図が「観光地Aへの観光に必要な準備」であることがわかり、それによりユーザに観光地Aのチケット予約、観光案内などのコンテンツを推薦することができる。したがって、ユーザの関連検索意図も潜在的な検索意図として理解することができる。
【0043】
別の実施例によれば、前記ユーザの関連検索意図を取得することは、前記ユーザの同一のセッションプロセスにおける検索履歴に基づいて、前記ユーザの関連検索意図を取得することを含む。これにより、ユーザの検索履歴に基づいて、前記ユーザの関連検索意図をより確実に取得することができる。
【0044】
例えば、前記ユーザが入力した検索要求が「どのように観光地Aに行きますか」である場合、該ユーザの検索履歴に従って、該ユーザの該セッションプロセスの検索履歴には「どのように観光地Bに行きますか」、「どのように観光地Cに行きますか」などの履歴検索情報が含まれることを得て、前記履歴検索情報に対して意味分析を行うことで、前記ユーザの関連検索意図が「ある観光地を照会する」であることを得ることができ、それによりある地域の他の観光地に関するコンテンツをユーザに推薦することができる。
【0045】
以上、2つの特定の実施例によりユーザの関連検索意図をどのように取得するかを説明し、理解できるように、ユーザの関連検索意図を取得する方式は上記2種類に限定されない。例えば、該ユーザの関係グラフに基づいて該ユーザの関連検索意図を取得することもできる。
【0046】
また、前記ユーザの関連検索意図を取得することは、例えばユーザの検索要求に対して構造化分析を行うことで実現されてもいい。構造化分析は、例えば、ユーザの意図グラフに基づいて実現されてもよい。図6の例を参照し、例えば、ユーザが入力した検索情報が「髪型」であると、対応してユーザの検索ログを取得し、検索ログに対してマイニングモデリングを行い、ユーザの意図グラフを得て、検索要求分析の結果と組み合わせて総合的なコンピュータ推理を行い、それによりユーザの関連検索意図を取得し、これに基づいて関連検索意図に合致したさまざまな分野のコンテンツ、例えば、美容ファッション分野に対応する「カットが上手な理髪店」、物品商品分野の「自動バリカン」、教育訓練分野の「理髪トレーニング」などをユーザーに推薦する。
【0047】
ユーザの検索要求に対応する関連検索意図を決定した後に、ステップS202~ステップS204を実行し、このようにして、関連検索意図に対応する第2要求意味ベクトルに基づいて、検索リソースデータベースからマッチングする少なくとも1つの第2データ意味ベクトルを検索し、少なくとも1つの第2データ意味ベクトルに基づいて推薦結果を生成する。
【0048】
いくつかの実施例によれば、前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、対応するデータの直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0049】
これに対応して、いくつかの実施例によれば、前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、前記検索要求の直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0050】
例えば、公的人物Aを紹介するコンテンツが含まれているウェブページに対応するデータ意味ベクトルにおける意味関連性特徴次元は、ウェブページコンテンツの直接的な意味を説明するために用いられる。該ウェブページに対応するデータ意味ベクトルにおける感知関連性特徴次元は、ユーザが公的人物Aを中心に拡張可能性のある関心を記述することに重点を置いており、例えば、ユーザは、公的人物Aの夫人が誰であるか、公的人物Aがどの作品があるかなどに関心があるかもしれなく、感知関連性特徴次元には、対応するコンテンツが含まれてもよい。これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0051】
いくつかの実施例によれば、ユーザの検索要求をリコールするための複数の第1データ意味ベクトルとユーザの関連検索意図をリコールするための複数の第2データ意味ベクトルの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。すなわち、複数の第1データ意味ベクトルに対応する複数の第1データと複数の第2データ意味ベクトルに対応する複数の第2データの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。ユーザの検索要求とマッチングする1つ又は複数の第1データは前記複数の第1データからリコールして得られ、ユーザの関連検索意図とマッチングする1つ又は複数の第2データは前記複数の第2データからリコールして得られる。
【0052】
いくつかの実施例では、前記複数の第2データの数は前記複数の第1データの数より小さく、それにより正確な推薦を実現し、推薦効果を向上させ、さらにユーザ体験を向上させる。
【0053】
いくつかの実施例によれば、前記検索リソースデータベースは第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は前記第1サブライブラリ内のデータ量より小さい。2つのサブライブラリを個別に設けることで、検索及び推薦のそれぞれの目的性をより強くすることができ、前記第1サブライブラリは関連性検索の大量リコール要求を満たすために用いられ、前記第2サブライブラリはユーザの潜在的な要求を満たす正確リコール要求を満たすために用いられ、それにより照会結果の品質をよりうまく向上させ、ユーザ体験をさらに向上させる。
【0054】
例示的に、前記第1サブライブラリ内のデータ量は百億又は千億オーダーであってもよく、それにより多くのコンテンツリソースをカバーすることができ、ユーザのコンテンツニーズをより全面的にカバーする。これに対応じて、前記第2サブライブラリ内のデータ量は百万オーダーであってもよい。
【0055】
理解できるように、推薦に適用する前記第2サブライブラリ内のデータは、所定の品質基準に基づいて選択されるものであってもよく、それによりより高い品質の推薦コンテンツをユーザに提供し、ユーザの拡張ニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0056】
例示的に、前記第2要求意味ベクトルと前記検索リソースデータベース内の各第2データ意味ベクトルとの間の類似度を計算し、類似度に基づいて前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを得ることができる。少なくとも1つの第2データ意味ベクトルに基づいて、各第2データ意味ベクトルに対応する第2データを取得することができ、さらに前記少なくとも1つの第2データに基づいて、推薦結果を生成してユーザに表示することができる。
【0057】
上記技術的解決手段において、ユーザの検索要求に応答し、検索結果を生成し、ユーザの関連検索意図を決定し、推薦結果を生成することができ、それによりユーザの直接的なニーズを正確に満たすとともに、視野を拡張し、ユーザの拡張ニーズを満たすことができる。
【0058】
いくつかの実施例によれば、図3に示すように、前記少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成するステップS103は、前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データを取得するステップS1031と、第1ソートロジックに基づいて前記1つ又は複数の第1データをソートするステップS1032であって、前記第1ソートロジックは、対応するデータのコンテンツ品質、配信時刻、及びソース信頼度のうちの少なくとも1つに基づくものであるステップS1032と、を含む。これにより、検索結果と検索要求との関連性がより配慮され、ユーザのニーズにより合致した検索結果を生成し、ユーザ体験を向上させることができる。
【0059】
いくつかの実施例によれば、図4に示すように、前記少なくとも1つの第2データ意味ベクトルに基づいて、推薦結果を生成するステップS204は、前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データを取得するステップS2041と、対応するデータの意味関連性特徴と感知関連性特徴に基づく前記第1ソートロジックと異なる第2ソートロジックに基づいて前記1つ又は複数の第2データをソートするステップS2042と、を含む。これにより、ユーザの感知性と関心をより配慮することで推薦結果を得て、潜在的なニーズへの感知をより重視した推薦結果を生成し、ユーザ体験を向上させることができる
【0060】
上記2つの実施例では、異なるソートロジックに基づいて前記検索結果と前記推薦結果を生成する。前記第1ソートロジックは、データの意味関連性、コンテンツ品質、ソース信頼度などをより重視し、ユーザの直接的な検索要求との関連度がより高い検索結果を得ることができる。これに対応して、前記第2ソートロジックはユーザの潜在的なニーズに対する感知をより重視し、ユーザの感知性及び関心により合致した推薦結果を得ることができる。理解できるように、2種類の異なるソートロジックを利用してそれぞれ検索結果及び推薦結果を生成することで、ユーザの直接的な検索要求及び潜在的な検索要求をよりうまく満たし、ユーザ体験を向上させることができる。
【0061】
いくつかの実施例によれば、図3に示すように、前記少なくとも1つの第1データ意味ベクトルに基づいて、検索結果を生成するステップS103は、前記少なくとも1つの第1データ意味ベクトルに基づいて対応する1つ又は複数のデータを決定し、対応するコンテンツへの理解に基づいて、前記1つ又は複数のデータを整理して前記検索結果を生成するステップS1033をさらに含む。これにより、検索結果を簡略化し、ユーザのニーズをより正確に満たすことができる。
【0062】
例えば、ユーザが入力した検索要求が「観光地A付近のグルメ」である場合、前記複数のデータには、「観光地A付近のグルメBのメニュー」、「観光地A付近のグルメBの営業時間と住所」、「観光地A付近のグルメCのメニュー」、「観光地A付近のグルメCの住所」などが含まれており、対応するコンテンツへの理解に基づいて、前記複数のデータを「観光地A付近のグルメBのメニュー、営業時間と住所」、「観光地A付近のグルメCのメニューと住所」に整理してユーザに示すことができる。それによりユーザのニーズにより合致した検索結果をユーザに提供し、ユーザ体験を向上させることができる。
【0063】
理解できるように、1つ又は複数のデータを整理する方式は、上記例における簡単な重ね合わせ方式に限定されず、具体的な適用シーンに基づいて適合する整理方式を設計することができ、例えば、1つ又は複数のデータがテキストセグメントである場合、1つ又は複数のデータに対して意味理解を行うことができ、意味理解結果に基づいて推薦結果を生成する。例えば、ある地域の温度、湿度、日照強度などの天気の状況を説明するテキストセグメントである場合、そのテキストセグメントへの意味理解に基づいて、「ある地域は野外活動に適する」という推薦結果を生成することができる。
【0064】
いくつかの実施例によれば、図5に示すように、前記検索方法は、前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定するステップS501と、曖昧性があると決定したことに応答し、明確化を必要とするコンテンツをユーザに提供するステップS502と、を含む。ステップS503~ステップS505の機能及び実現方式は、図1のステップS101~ステップS103と同様であり、ここでは詳細に説明しない。これにより、ユーザの検索要求への明確化及びユーザのニーズへの誘導を実現することができる。
【0065】
前記検索要求に対して構造化分析を行うことで、検索要求が明らかで曖昧性がないか否かを決定することができる。構造化分析は、例えば、知識グラフに基づいて実現されてもよい。
【0066】
続いて図6の例を参照し、ユーザが入力した検索情報「髪型」に対して構造化分析を行い、ビッグデータに基づく知識グラフと結合し、総合的なコンピュータ推論を行うことで、明確化を必要とする前記ユーザに提供可能なコンテンツを得る。ユーザが入力した[髪型]には、男性の髪型や女性の髪型、短い髪型や長い髪型、長い顔の髪型や丸顔の髪型など、複数の角度の曖昧さがある可能性があり、明確化を必要とするコンテンツをユーザに提供することで、ユーザのニーズをさらに明確に誘導することができる。
【0067】
本開示の技術的解決手段において、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも関連法律の規定に合致し、且つ公序良俗に反するものではない。
【0068】
本開示の別の態様によれば、データ検索装置を提供し、図7を参照し、前記装置は、ユーザの検索要求を第1要求意味ベクトルに変換するための第1変換ユニット701と、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するための第1検索ユニット702であって、前記検索リソースデータベースは意味ベクトル空間として構築され、前記意味ベクトル空間において、異なるタイプのデータは対応するデータ意味ベクトルに変換され、前記異なるタイプのデータはテキスト、ピクチャ及びビデオを少なくとも含む第1検索ユニット702と、前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するための第1生成ユニット703と、を含む。これにより、異なるタイプ、異なる構造のデータに対するユニファイド検索を実現し、検索結果の多様性を向上させ、ユーザ体験を向上させることができる。
【0069】
例示的に、検索リソースデータベースは、大量のテキスト、ピクチャ、ビデオなどの異なるタイプのデータを含み、異なるタイプのデータは様々な方式で取得されてもよく、例えば、既存の標準化データコンテンツのデータベースにアクセスしてもよく、そのうちのデータコンテンツは検索リソースデータベースの意味ベクトル空間において対応するデータ意味ベクトルに変換される。
【0070】
ユーザの検索要求はユーザが入力した検索情報を少なくとも含み、前記検索情報はテキスト情報又は音声情報を含むがこれらに限定されない。前記検索情報の意味特徴を抽出し、それを第1要求意味ベクトルに変換することで、検索をマッチングするために用いられ、ユーザのニーズを満たすデータを得る。
【0071】
いくつかの実施例によれば、前記検索リソースデータベースでは、前記異なるタイプのデータから変換されるデータ意味ベクトルは統一仕様を有する。これにより、異なるタイプのデータに対するユニファイド検索を実現することができる。
【0072】
理解できるように、前記第1要求意味ベクトルは、前記検索リソースデータベース内のデータ意味ベクトルと同じ仕様を有し、例えば、前記検索リソースデータベース内のデータ意味ベクトルが1000次元ベクトルである場合、前記検索要求も同じ仕様の1000次元ベクトルに変換されるべきである。例示的に、前記第1要求意味ベクトルと前記検索リソースデータベース内の各データ意味ベクトルとの間の類似度を計算し、類似度に基づいて前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを得ることができる。少なくとも1つの第1データ意味ベクトルに基づいて、各第1データ意味ベクトルに対応する第1データを取得することができ、さらに前記少なくとも1つの第1データに基づいて、検索結果を生成してユーザに表示することができる。ベクトル間の類似度は、例えばコサイン類似度であるがこれに限定されない。
【0073】
いくつかの実施例によれば、テキスト、ピクチャ及びビデオに加えて、前記異なるタイプのデータは少なくともテーブルと知識グラフを含む。理解できるように、前記異なるタイプのデータは、地図、動画などの他のタイプのデータをさらに含んでもよく、より多くのタイプのデータはさらに、検索リソースデータベースを豊富にすることができ、それにより検索結果の多様性をさらに向上させ、ユーザのニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0074】
いくつかの実施例によれば、前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである。これにより、データコンテンツへの理解が深くなり、さらに細粒度インデックスを実現し、ユーザのニーズにより合致した検索結果を得ることができる。
【0075】
例示的に、元の完全なデータに対して細粒度分割を行うことによって前記少なくとも1つのテキスト又はビデオデータを取得する前記ことは、意味に従って元の完全なデータに対して細粒度分割を行うことであってもよい。いくつかの実施例では、元の完全なデータに対して細粒度分割を行うことは、元の完全なデータに対して意味分割を行い、少なくとも1つのテキスト又はビデオデータを得ることを含んでもよい。ウェブページテキストデータを例とし、元の完全なウェブページテキストデータは複数の段落を含む可能性があり、各段落は異なる意味特徴を有する可能性があるので、対応する完全なウェブページテキストデータに対応するデータ意味ベクトルは各段落の異なる意味特徴を十分に表すことができず、検索過程においてユーザのニーズを体現する第1要求意味ベクトルを各段落の意味とマッチングすることができない。元の完全なウェブページテキストデータを分割することで、それを異なる意味特徴を有する複数のセグメントに分割することができ、各セグメントは前記少なくとも1つのテキストのうちの1つに対応する。各セグメントはいずれも対応するデータ意味ベクトルに変換され、検索過程においてそれぞれユーザのニーズを体現する第1要求意味ベクトルとマッチングし、ユーザのニーズにより合致した検索結果を得ることができる。同様に、ビデオに対応するビデオテキストデータに基づいて細粒度分割を行うことができ、具体的な原理及び過程はウェブページテキストデータと類似する。
【0076】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは対応するデータのコンテンツ品質に関する次元を含む。対応するデータのコンテンツ品質に関する前記次元は、対応するデータのコンテンツ品質スコアであってもよいがこれに限られない。これにより、検索過程においてデータのコンテンツ品質を考慮し、検索結果の品質を向上させることができる。
【0077】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは対応するデータの配信時刻に関する次元を含む。対応するデータの配信時刻に関する前記次元は、対応するデータの配信時刻であってもよいがこれに限られない。これにより、検索過程においてデータの適時性を考慮し、検索結果の品質を向上させることができる。
【0078】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは対応するデータのソース信頼度に関する次元を含む。対応するデータのソース信頼度に関する前記次元は、対応するデータのソースウェブサイトタイプ及び対応するウェブサイトタイプの信頼度であってもよいが、これらに限定されない。これにより、検索過程においてデータのオーソリティを考慮し、検索結果の品質を向上させることができる。
【0079】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは、対応するデータの、コンテンツ品質に関する次元、配信時刻に関する次元及びソース信頼度に関する次元における少なくとも2つを含む。検索過程において、データの複数の次元を増加することで、検索結果の品質をさらに向上させることができる。
【0080】
同様の原理に基づいて、いくつかの実施例によれば、前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む。これにより、検索の精度をさらに向上させることができる。
【0081】
理解できるように、前記ユーザの検索に関するコンテキスト情報に基づいて、ユーザの直接的な検索要求をより正確に説明することができる。例えば、ユーザが入力した検索情報が「明日の天気はどうですか」である場合、これに対応して、前記第1要求意味ベクトルにはユーザが所在する場所、例えば北京市が含まれてもよく、それにより「北京市の明日の天気」に関する検索結果をユーザに提供し、ユーザのニーズをより正確に満たし、ユーザ体験を向上させることができる。
【0082】
発明者らの研究により、ユーザは1つの検索要求を照会した後、別の関連検索要求を照会し続ける可能性があり、該別の関連検索要求は、ユーザが最初の検索要求を照会する時の関連検索意図を体現することができる。例えば、ユーザは、「公的人物Aの奥様は誰ですか」を照会し、検索結果「公的人物Aの奥様は公的人物Bです」に基づいて、「公的人物Bの出身地はどこですか」を照会し続ける可能性がある。したがって、ユーザの検索要求を照会する際に、ユーザの関連検索意図をさらにマイニングすることは検索性能を向上させることに有利である。
【0083】
これに基づいて、いくつかの実施例によれば、図8に示すように、前記データ検索装置は、前記ユーザの検索要求に基づいて、前記ユーザの関連検索意図を取得するための取得ユニット804と、前記関連検索意図を第2要求意味ベクトルに変換するための第2変換ユニット805と、前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索するための第2検索ユニット806と、前記少なくとも1つの第2データ意味ベクトルに基づいて、推薦結果を生成するための第2生成ユニット807とを、さらに含む。図8のユニット801~ユニット803の機能及び実現方式は、図7のユニット701~703と同様であり、ここでは詳細に説明しない。これにより、ユーザの検索要求に応答し、前記ユーザの関連検索意図を取得し、これに基づいて推薦することで、ユーザが入力した検索要求に対する照会結果はユーザの拡張ニーズをさらに満たすことができ、それによりユーザ体験をさらに向上させる。1つ又は複数の前記関連拡張意図を有してもよい。
【0084】
いくつかの実施例によれば、前記ユーザの検索要求に基づいて前記ユーザの関連検索意図を取得するための前記ユニットはさらに、ニーズグラフに基づいて、前記ユーザの関連検索意図を取得することに用いられるように構成される。前記ニーズグラフには、ビッグデータに基づいて得られた検索ニーズ分布情報、検索ニーズ関連情報などが含まれ、これにより、前記ユーザの関連検索意図をより正確に取得することができる。
【0085】
例えば、前記ユーザの関連検索意図は、ユーザの検索要求に基づいてそれに関する人気検索ニーズを照会することによって取得されてもよい。一例では、現在のユーザが入力した検索要求が「どのように観光地Aに行きますか」である場合、ニーズグラフから「観光地A」に関する人気検索ニーズが「観光地Aのチケット予約方式」、「観光地Aの観光地図」などであることを照会すると、対応して前記ユーザの関連検索意図が「観光地Aへの観光に必要な準備」であることがわかり、それによりユーザに観光地Aのチケット予約、観光案内などのコンテンツを推薦することができる。
【0086】
別の実施例によれば、前記ユーザの検索要求に基づいて前記ユーザの関連検索意図を取得するための前記ユニットはさらに、前記ユーザの同一のセッションプロセスにおける検索履歴に基づいて、前記ユーザの関連検索意図を取得することに用いられるように構成される。これにより、ユーザの検索履歴に基づいて、前記ユーザの関連検索意図をより確実に取得することができる。
【0087】
例えば、前記ユーザが入力した検索要求が「どのように観光地Aに行きますか」である場合、該ユーザの検索履歴に従って、該ユーザの該セッションプロセスの検索履歴には「どのように観光地Bに行きますか」、「どのように観光地Cに行きますか」などの履歴検索情報が含まれることを得て、前記履歴検索情報に対して意味分析を行うことで、前記ユーザの関連検索意図が「ある観光地を照会する」であることを得ることができ、それによりある地域の他の観光地に関するコンテンツをユーザに推薦することができる。
【0088】
以上、2つの特定の実施例によりユーザの関連検索意図をどのように取得するかを説明し、理解できるように、ユーザの関連検索意図を取得する方式は上記2種類に限定されない。例えば、該ユーザの関係グラフに基づいて該ユーザの関連検索意図を取得することもできる。
【0089】
また例えば、前記ユーザの関連検索意図を取得することは、ユーザの検索要求に対して構造化分析を行うことで、実現するようにしてもよい。構造化分析は、例えば、ユーザの意図グラフに基づいて実現するようにしてもよい。図6の例を参照し、例えば、ユーザが入力した検索情報が「髪型」であると、対応してユーザの検索ログを取得し、検索ログに対してマイニングモデリングを行い、ユーザの意図グラフを得て、検索要求分析の結果と組み合わせて総合的なコンピュータ推理を行い、それによりユーザの関連検索意図を取得し、これに基づいて関連検索意図に合致したさまざまな分野のコンテンツ、例えば、美容ファッション分野に対応する「カットが上手な理髪店」、物品商品分野の「自動バリカン」、教育訓練分野の「理髪トレーニング」などをユーザに推薦する。
【0090】
ユーザの検索要求に対応する関連検索意図を決定した後に、ステップS202~ステップS204を実行し、このようにして、関連検索意図に対応する第2要求意味ベクトルに基づいて、検索リソースデータベースからマッチングする少なくとも1つの第2データ意味ベクトルを検索し、少なくとも1つの第2データ意味ベクトルに基づいて推薦結果を生成する。
【0091】
いくつかの実施例によれば、前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、対応するデータの直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0092】
これに対応して、いくつかの実施例によれば、前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、対応するデータの直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0093】
例えば、公的人物Aを紹介するコンテンツが含まれているウェブページに対応するデータ意味ベクトルにおける意味関連性特徴次元は、ウェブページコンテンツの直接的な意味を説明するために用いられる。該ウェブページに対応するデータ意味ベクトルにおける感知関連性特徴次元は、ユーザが公的人物Aを中心に拡張可能性のある関心を記述することに重点を置いており、例えば、ユーザは、公的人物Aの夫人が誰であるか、公的人物Aがどの作品があるかなどに関心があるかもしれなく、感知関連性特徴次元には、対応するコンテンツが含まれてもよい。これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0094】
いくつかの実施例によれば、ユーザの検索要求をリコールするための複数の第1データ意味ベクトルとユーザの関連検索意図をリコールするための複数の第2データ意味ベクトルの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。すなわち、複数の第1データ意味ベクトルに対応する複数の第1データと複数の第2データ意味ベクトルに対応する複数の第2データの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。ユーザの検索要求とマッチングする1つ又は複数の第1データは前記複数の第1データからリコールして得られ、ユーザの関連検索意図とマッチングする1つ又は複数の第2データは前記複数の第2データからリコールして得られる。
【0095】
いくつかの実施例では、前記複数の第2データの数は前記複数の第1データの数より小さく、それにより正確な推薦を実現し、推薦効果を向上させ、さらにユーザ体験を向上させる。
【0096】
いくつかの実施例によれば、前記検索リソースデータベースは第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は前記第1サブライブラリ内のデータ量より小さい。2つのサブライブラリを個別に設けることで、検索及び推薦のそれぞれの目的性をより強くすることができ、前記第1サブライブラリは関連性検索の大量リコール要求を満たすために用いられ、前記第2サブライブラリはユーザの潜在的な要求を満たす正確リコール要求を満たすために用いられ、それにより照会結果の品質をよりうまく向上させ、ユーザ体験をさらに向上させる。
【0097】
例示的に、前記第1サブライブラリ内のデータ量は百億又は千億オーダーであってもよく、それにより多くのコンテンツリソースをカバーすることができ、ユーザのコンテンツニーズをより全面的にカバーする。これに対応じて、前記第2サブライブラリ内のデータ量は百万オーダーであってもよい。
【0098】
理解できるように、推薦に適用する前記第2サブライブラリ内のデータは、所定の品質基準に基づいて選択されるものであってもよく、それにより、より高い品質の推薦コンテンツをユーザに提供し、ユーザの拡張ニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0099】
例示的に、前記第2要求意味ベクトルと前記検索リソースデータベース内の各第2データ意味ベクトルとの間の類似度を計算し、類似度に基づいて前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを得ることができる。少なくとも1つの第2データ意味ベクトルに基づいて、各第2データ意味ベクトルに対応する第2データを取得することができ、さらに前記少なくとも1つの第2データに基づいて、推薦結果を生成してユーザに表示することができる。
【0100】
上記技術的解決手段において、ユーザの検索要求に応答し、検索結果を生成し、ユーザの関連検索意図を決定し、推薦結果を生成することができ、それによりユーザの直接的なニーズを正確に満たすとともに、視野を拡張し、ユーザの拡張ニーズを満たすことができる。
【0101】
いくつかの実施例によれば、図9に示すように、前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するための前記第1生成ユニット703は、前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データを取得するための第1取得サブユニット7031と、対応するデータのコンテンツ品質、配信時刻、及びソース信頼度のうちの少なくとも1つに基づく第1ソートロジックに基づいて前記1つ又は複数の第1データをソートするための第1ソートサブユニット7032と、をさらに含む。これにより、検索結果と検索要求との関連性がより配慮され、ユーザのニーズにより合致した検索結果を生成し、ユーザ体験を向上させることができる。
【0102】
いくつかの実施例によれば、図10に示すように、前記少なくとも1つの第2データ意味ベクトルに基づいて推薦結果を生成するための前記第2生成ユニット807は、前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データを取得するための第2取得サブユニット8071と、対応するデータの意味関連性特徴と感知関連性特徴に基づく前記第1ソートロジックと異なる第2ソートロジックに基づいて前記1つ又は複数の第2データをソートするための第2ソートサブユニット8072と、を含む。これにより、ユーザの感知性と関心をより配慮することで推薦結果を得て、潜在的なニーズへの感知をより重視した推薦結果を生成し、ユーザ体験を向上させることができる。
【0103】
上記2つの実施例では、異なるソートロジックに基づいて前記検索結果と前記推薦結果を生成する。前記第1ソートロジックは、データの意味関連性、コンテンツ品質、ソース信頼度などをより重視し、ユーザの直接的な検索要求との関連度がより高い検索結果を得ることができる。これに対応して、前記第2ソートロジックはユーザの潜在的なニーズに対する感知をより重視し、ユーザの感知性及び関心により合致した推薦結果を得ることができる。理解できるように、2種類の異なるソートロジックを利用してそれぞれ検索結果及び推薦結果を生成することで、ユーザの直接的な検索要求及び潜在的な検索要求をよりうまく満たし、ユーザ体験を向上させることができる。
【0104】
理解できるように、1つ又は複数のデータを整理する方式は、上記例における簡単な重ね合わせ方式に限定されず、具体的な適用シーンに基づいて適合する整理方式を設計することができ、例えば、1つ又は複数のデータがテキストセグメントである場合、1つ又は複数のデータに対して意味理解を行うことができ、意味理解結果に基づいて推薦結果を生成する。例えば、ある地域の温度、湿度、日照強度などの天気の状況を説明するテキストセグメントである場合、そのテキストセグメントへの意味理解に基づいて、「ある地域は野外活動に適する」という推薦結果を生成することができる。
【0105】
いくつかの実施例によれば、図9に示すように、前記少なくとも1つの第1データ意味ベクトルに基づいて検索結果を生成するための前記第1生成ユニット703は、対応するコンテンツへの理解に基づいて、前記1つ又は複数の第1データを整理して前記検索結果を生成するための整理サブユニット7033をさらに含む。これにより、検索結果を簡略化し、ユーザのニーズをより正確に満たすことができる。
【0106】
例えば、ユーザが入力した検索要求が「観光地A付近のグルメ」である場合、前記複数のデータには、「観光地A付近のグルメBのメニュー」、「観光地A付近のグルメBの営業時間と住所」、「観光地A付近のグルメCのメニュー」、「観光地A付近のグルメCの住所」などが含まれており、対応するコンテンツへの理解に基づいて、前記複数のデータを「観光地A付近のグルメBのメニュー、営業時間と住所」、「観光地A付近のグルメCのメニューと住所」に整理してユーザに示すことができる。それによりユーザのニーズにより合致した検索結果をユーザに提供し、ユーザ体験を向上させることができる。
【0107】
いくつかの実施例によれば、図11に示すように、データ検索装置1100は、前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定するための分析サブユニット1101と、曖昧性があると決定したことに応答し、明確化を必要とするコンテンツをユーザに提供するためのサブユニット1102と、を含む。ユニット1103~ユニット1105の機能及び実現方式は、図7のユニット701~ユニット703と同様であり、ここでは詳細に説明しない。これにより、ユーザの検索要求への明確化及びユーザのニーズへの誘導を実現することができる。
【0108】
前記検索要求に対して構造化分析を行うことで、検索要求が明らかで曖昧性がないか否かを決定することができる。構造化分析は、例えば、知識グラフに基づいて実現されてもよい。
【0109】
続いて図6の例を参照し、ユーザが入力した検索情報「髪型」に対して構造化分析を行い、ビッグデータに基づく知識グラフと結合し、総合的なコンピュータ推論を行うことで、明確化を必要とする前記ユーザに提供可能なコンテンツを得る。ユーザが入力した[髪型]には、男性の髪型や女性の髪型、短い髪型や長い髪型、長い顔の髪型や丸顔の髪型など、複数の角度の曖昧さがある可能性があり、明確化を必要とするコンテンツをユーザに提供することで、ユーザのニーズをさらに明確に誘導することができる。
【0110】
本開示の別の態様によれば、図12に示すように、事前にトレーニングされた言語モデルに基づく検索システム1200をさらに提供し、該検索システム1200は、ユーザの検索要求を第1要求意味ベクトルに変換し、検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索するように構成されるリコールモデル1201と、前記検索要求と前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データとの間の類似度を順次決定することで、前記1つ又は複数の第1データをソートするように構成されるソートモデル1202と、を含む。前記リコールモデルと前記ソートモデルとがカスケード接続されてエンドツーエンドのディープニューラルネットワーク基礎モデルを形成する。これにより、異なるタイプ、異なる構造のデータに対するユニファイド検索を実現し、検索結果の多様性を向上させ、ユーザ体験を向上させることができる。
【0111】
例示的に、前記リコールモデルはダブルエンコーダ構造に基づくものであってもよく、前記ソートモデルはクロスエンコーダ構造に基づくものであってもよい。図15は、クロスエンコーダ構造に基づくモデル構造の概略図と、ダブルエンコーダ構造に基づくモデル構造の概略図を示す。question文(すなわちユーザが入力した検索要求)及びpassage文(すなわち検索リソースデータベース内のデータ)をダブルエンコーダ構造に基づくリコールモデルに入力し、前記2つの文は2つの独立した符号化ネットワークに伝送され、該2つの符号化ネットワークは同じネットワークであってもよい。2つの符号化ネットワークはそれぞれ2つの文に対応する意味ベクトルE(q)及びE(p)を出力し、それにより意味ベクトルに基づいて類似度計算を行うことができる。類似度に基づいて、question文とマッチングする1つ又は複数のpassage文を得る。
【0112】
question文とリコールモデルによりリコールされた1つ又は複数のpassage文を、クロスエンコーダに基づいて構成された推薦モデルに入力し、question文と1又は複数のpassage文との類似スコアを出力する。類似スコアに基づいて、1つ又は複数のpassage文をソートする。ここで、入力推薦モデルはquestion文及びリコールされた1つ又は複数のpassage文にそれぞれ対応する意味ベクトルである。
【0113】
理解できるように、上記モデル構造は、本開示に記載のリコールモデル及びソートモデルの構造の例示だけであり、前記リコールモデル及びソートモデルは他の構造に基づくモデルであってもよい。
【0114】
例示的に、検索リソースデータベースは、大量のテキスト、ピクチャ、ビデオなどの異なるタイプのデータを含み、異なるタイプのデータは様々な方式で取得されてもよく、例えば、既存の標準化データコンテンツのデータベースにアクセスしてもよく、そのうちのデータコンテンツは検索リソースデータベースの意味ベクトル空間において対応するデータ意味ベクトルに変換される。
【0115】
ユーザの検索要求はユーザが入力した検索情報を少なくとも含み、前記検索情報はテキスト情報又は音声情報を含むがこれらに限定されない。前記検索情報の意味特徴を抽出し、それを第1要求意味ベクトルに変換することで、検索をマッチングするために用いられ、ユーザのニーズを満たすデータを得る。
【0116】
いくつかの実施例によれば、前記検索リソースデータベースでは、前記異なるタイプのデータから変換されるデータ意味ベクトルは統一仕様を有する。これにより、異なるタイプのデータに対するユニファイド検索を実現することができる。
【0117】
理解できるように、前記第1要求意味ベクトルは、前記検索リソースデータベース内のデータ意味ベクトルと同じ仕様を有し、例えば、前記検索リソースデータベース内のデータ意味ベクトルが1000次元ベクトルである場合、前記検索要求も同じ仕様の1000次元ベクトルに変換されるべきである。例示的に、前記第1要求意味ベクトルと前記検索リソースデータベース内の各データ意味ベクトルとの間の類似度を計算し、類似度に基づいて前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを得ることができる。少なくとも1つの第1データ意味ベクトルに基づいて、各第1データ意味ベクトルに対応する第1データを取得することができ、さらに前記少なくとも1つの第1データに基づいて、検索結果を生成してユーザに表示することができる。ベクトル間の類似度は、例えばコサイン類似度であるがこれに限定されない。
【0118】
いくつかの実施例によれば、テキスト、ピクチャ及びビデオに加えて、前記異なるタイプのデータは少なくともテーブルと知識グラフを含む。理解できるように、前記異なるタイプのデータは、地図、動画などの他のタイプのデータをさらに含んでもよく、より多くのタイプのデータはさらに、検索リソースデータベースを豊富にすることができ、それにより検索結果の多様性をさらに向上させ、ユーザのニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0119】
いくつかの実施例によれば、前記異なるタイプのデータにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである。これにより、データコンテンツへの理解が深くなり、さらに細粒度インデックスを実現し、ユーザのニーズにより合致した検索結果を得ることができる。
【0120】
例示的に、元の完全なデータに対して細粒度分割を行うことによって前記少なくとも1つのテキスト又はビデオデータを取得する前記ことは、意味に従って元の完全なデータに対して細粒度分割を行うことであってもよい。いくつかの実施例では、元の完全なデータに対して細粒度分割を行うことは、元の完全なデータに対して意味分割を行い、少なくとも1つのテキスト又はビデオデータを得ることを含んでもよい。ウェブページテキストデータを例とし、元の完全なウェブページテキストデータは複数の段落を含む可能性があり、各段落は異なる意味特徴を有する可能性があるので、対応する完全なウェブページテキストデータに対応するデータ意味ベクトルは各段落の異なる意味特徴を十分に表すことができず、検索過程においてユーザのニーズを体現する第1要求意味ベクトルを各段落の意味とマッチングすることができない。元の完全なウェブページテキストデータを分割することで、それを異なる意味特徴を有する複数のセグメントに分割することができ、各セグメントは前記少なくとも1つのテキストのうちの1つに対応する。各セグメントはいずれも対応するデータ意味ベクトルに変換され、検索過程においてそれぞれユーザのニーズを体現する第1要求意味ベクトルとマッチングし、ユーザのニーズにより合致した検索結果を得ることができる。同様に、ビデオに対応するビデオテキストデータに基づいて細粒度分割を行うことができ、具体的な原理及び過程はウェブページテキストデータと類似する。
【0121】
いくつかの実施例によれば、前記意味ベクトル空間における各データ意味ベクトルは対応するデータのコンテンツ品質に関する次元を含む。対応するデータのコンテンツ品質に関する前記次元は、対応するデータのコンテンツ品質スコアであってもよいがこれに限られない。これにより、検索過程においてデータのコンテンツ品質を考慮し、検索結果の品質を向上させることができる。
【0122】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは対応するデータの配信時刻に関する次元を含む。対応するデータの配信時刻に関する前記次元は、対応するデータの配信時刻であってもよいがこれに限られない。これにより、検索過程においてデータの適時性を考慮し、検索結果の品質を向上させることができる。
【0123】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは対応するデータのソース信頼度に関する次元を含む。対応するデータのソース信頼度に関する前記次元は、対応するデータのソースウェブサイトタイプ及び対応するウェブサイトタイプの信頼度であってもよいが、これらに限定されない。これにより、検索過程においてデータのオーソリティを考慮し、検索結果の品質を向上させることができる。
【0124】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは、対応するデータの、コンテンツ品質に関する次元、配信時刻に関する次元及びソース信頼度に関する次元における少なくとも2つを含む。検索過程において、データの複数の次元を増加することで、検索結果の品質をさらに向上させることができる。
【0125】
同様の原理に基づいて、いくつかの実施例によれば、前記第1要求意味ベクトルは、時間、場所、端末装置及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含んだ前記ユーザの検索に関するコンテキスト情報を含む。これにより、検索の精度をさらに向上させることができる。
【0126】
理解できるように、前記ユーザの検索に関するコンテキスト情報に基づいて、ユーザの直接的な検索要求をより正確に説明することができる。例えば、ユーザが入力した検索情報が「明日の天気はどうですか」である場合、これに対応して、前記第1要求意味ベクトルにはユーザが所在する場所、例えば北京市が含まれてもよく、それにより「北京市の明日の天気」に関する検索結果をユーザに提供し、ユーザのニーズをより正確に満たし、ユーザ体験を向上させることができる。
【0127】
いくつかの実施例によれば、図13に示すように、前記検索システムは、入力された前記検索要求に基づいて、前記ユーザの関連検索意図を取得するように構成される関連検索意図取得モデル1303をさらに含む。
【0128】
いくつかの実施例によれば、図13に示す検索システムでは、リコールモデル1301はさらに、前記関連検索意図を第2要求意味ベクトルに変換し、前記検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索するように構成される。
【0129】
これにより、ユーザの検索要求に応答し、前記ユーザの関連検索意図を取得し、これに基づいて検索したり推薦したりし、このようにして、照会結果はユーザの拡張ニーズをさらに満たすことができ、それによりユーザ体験をさらに向上させる。1つ又は複数の前記潜在的な拡張意図を有してもよい。
【0130】
いくつかの実施例によれば、前記少なくとも1つの第2データ意味ベクトルにおける各第2データ意味ベクトルは、対応するデータの意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、対応するデータの直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0131】
いくつかの実施例によれば、前記第2要求意味ベクトルは、前記検索要求の意味関連性特徴と感知関連性特徴に関する次元をそれぞれ含む。前記意味関連性特徴は、対応するデータの直接的な意味を説明するために用いられ、前記感知関連性特徴は、ユーザのニーズ及び関心に関する次元を重視し、これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0132】
例えば、公的人物Aを紹介するコンテンツが含まれているウェブページに対応するデータ意味ベクトルにおける意味関連性特徴次元は、ウェブページコンテンツの直接的な意味を説明するために用いられる。該ウェブページに対応するデータ意味ベクトルにおける感知関連性特徴次元は、ユーザが公的人物Aを中心に拡張可能性のある関心を記述することに重点を置いており、例えば、ユーザは、公的人物Aの夫人が誰であるか、公的人物Aがどの作品があるかなどに関心があるかもしれなく、感知関連性特徴次元には、対応するコンテンツが含まれてもよい。これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0133】
いくつかの実施例によれば、ユーザの検索要求をリコールするための複数の第1データ意味ベクトルとユーザの関連検索意図をリコールするための複数の第2データ意味ベクトルの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。すなわち、複数の第1データ意味ベクトルに対応する複数の第1データと複数の第2データ意味ベクトルに対応する複数の第2データの両方は、完全に同じであってもよく、一部が同じであってもよく、又は完全に異なる。ユーザの検索要求とマッチングする1つ又は複数の第1データは前記複数の第1データからリコールして得られ、ユーザの関連検索意図とマッチングする1つ又は複数の第2データは前記複数の第2データからリコールして得られる。
【0134】
いくつかの実施例では、前記複数の第2データの数は前記複数の第1データの数より小さく、それにより正確な推薦を実現し、推薦効果を向上させ、さらにユーザ体験を向上させる。
【0135】
いくつかの実施例によれば、前記検索リソースデータベースは第1サブライブラリと、前記関連検索意図のみに用いられる第2サブライブラリとを含み、前記第2サブライブラリ内のデータ量は前記第1サブライブラリ内のデータ量より小さい。2つのサブライブラリを個別に設けることで、検索及び推薦のそれぞれの目的性をより強くすることができ、前記第1サブライブラリは関連性検索の大量リコール要求を満たすために用いられ、前記第2サブライブラリはユーザの潜在的な要求を満たす正確リコール要求を満たすために用いられ、それにより照会結果の品質をよりうまく向上させ、ユーザ体験をさらに向上させる。
【0136】
例示的に、前記第1サブライブラリ内のデータ量は百億又は千億オーダーであってもよく、それにより多くのコンテンツリソースをカバーすることができ、ユーザのコンテンツニーズをより全面的にカバーする。これに対応じて、前記第2サブライブラリ内のデータ量は百万オーダーであってもよい。
【0137】
理解できるように、推薦に適用する前記第2サブライブラリ内のデータは、所定の品質基準に基づいて選択されるものであってもよく、それにより、より高い品質の推薦コンテンツをユーザに提供し、ユーザの拡張ニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0138】
いくつかの実施例によれば、図14に示すように、前記事前にトレーニングされた言語モデルに基づく検索システム1400は、前記関連検索意図と前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データとの間の類似度を順次決定することで、前記1つ又は複数の第2データをソートするように構成される推薦モデル1404をさらに含む。
【0139】
いくつかの実施例によれば、図14に示すように、前記事前にトレーニングされた言語モデルに基づく検索システム1400は、対応するコンテンツへの理解に基づいて、前記1つ又は複数の第1データを整理して検索結果を生成するように構成される検索結果生成モデル1405をさらに含む。これにより、検索結果を簡略化し、ユーザのニーズをより正確に満たすことができる。
【0140】
例えば、ユーザが入力した検索要求が「観光地A付近のグルメ」である場合、前記複数のデータには、「観光地A付近のグルメBのメニュー」、「観光地A付近のグルメBの営業時間と住所」、「観光地A付近のグルメCのメニュー」、「観光地A付近のグルメCの住所」などが含まれており、対応するコンテンツへの理解に基づいて、前記複数のデータを「観光地A付近のグルメBのメニュー、営業時間と住所」、「観光地A付近のグルメCのメニューと住所」に整理してユーザに示すことができる。それによりユーザのニーズにより合致した検索結果をユーザに提供し、ユーザ体験を向上させることができる。
【0141】
理解できるように、1つ又は複数のデータを整理する方式は、上記例における簡単な重ね合わせ方式に限定されず、具体的な適用シーンに基づいて適合する整理方式を設計することができ、例えば、1つ又は複数のデータがテキストセグメントである場合、1つ又は複数のデータに対して意味理解を行うことができ、意味理解結果に基づいて推薦結果を生成する。例えば、ある地域の温度、湿度、日照強度などの天気の状況を説明するテキストセグメントである場合、そのテキストセグメントへの意味理解に基づいて、「ある地域は野外活動に適する」という推薦結果を生成することができる。
【0142】
いくつかの実施例によれば、図14に示すように、前記事前にトレーニングされた言語モデルに基づく検索システム1400は、対応するコンテンツへの理解に基づいて、前記1つ又は複数の第2データを整理して推薦結果を生成するように構成される推薦結果生成モデル1406をさらに含む。これにより、推薦結果を簡略化し、ユーザのニーズをより正確に満たすことができる。
【0143】
いくつかの実施例によれば、前記検索システムは、前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定し、曖昧性があると決定したことに応答し、明確化を必要とするコンテンツをユーザに提供するように構成される曖昧性解消モデルをさらに含む。これにより、ユーザの検索要求への明確化及びユーザのニーズへの誘導を実現することができる。前記検索要求に対して構造化分析を行うことで、検索要求が明らかで曖昧性がないか否かを決定することができる。構造化分析は、例えば、知識グラフに基づいて実現されてもよい。
【0144】
図16は、本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムの動作プロセスの概略図を示す。矢印は信号ストリームの方向を示し、実線矢印はオンライン検索と推薦の動作プロセスを示し、破線矢印はユニフォームリソースデータベースを構築する動作プロセスを示す。
【0145】
検索システムの動作プロセスを説明する前に、検索システムが使用するデータベースの構築について説明する。
【0146】
図16に示すように、ユニフォームリソースデータベース内のデータは、データキャプチャ、データアクセス、データ生成などの方式により取得されてもよく、データキャプチャは具体的にコンピュータプログラムを利用してウェブページデータを自動的に抽出する方式であってもよく、データアクセスは具体的に既存のデータベースにアクセスする方式であってもよく、データ生成は具体的にユーザの検索要求に基づいてサードパーティーコンテンツの生産を指導してアクセスする方式であってもよい。様々な方式で得られたデータはいずれも統一のデータフォーマットに変換され、後の処理のためにユニフォームリソースデータベースに記憶される。
【0147】
ユニフォームリソースデータベースのデータに対応する統一のデータ構造は、例えば、キー値タプルから構成され、キーはデータの属性であり、値はデータの値である。キー値タプルは共通型と特殊型を含んでもよく。前記共通型のキー値タプルは、異なるタイプ、異なるソースのデータに共有される属性をカバーすることができ、例えばタイトル、要約、ユニフォームリソースロケータ(URL)、時間などである。前記特殊型のキー値タプルは異なるタイプ、異なるソースのデータ固有の属性をカバーすることができ、例えばビデオタイプのデータは解像度属性等を含んでもよい。
【0148】
異なるタイプとソースのデータは、マルチソース異種データユニフォーム意味表現モデルにより、統一仕様のデータ意味ベクトルに変換され、検索リソースデータベースに記憶される。
【0149】
各データ意味ベクトルに基づいて、ユニフォームリソースデータベースからそれに対応するデータを取得するようにしてもよい。例えば、各データに一意の識別番号を設定し、検索リソースデータベースには、各データ意味ベクトルと、対応するデータの一意の識別番号との対応関係が記憶されてもよく、ユニフォームリソースデータベースには、各データと対応する一意の識別番号との対応関係が記憶されてもよく、それによりユニフォームリソースデータベースと検索リソースデータベースとの関連付けを実現し、検索要求とマッチングする少なくとも1つのデータ意味ベクトルに基づいて対応する1つ又は複数のデータを取得するようにしてもよい。
【0150】
いくつかの実施例によれば、コンテンツ品質スコアモデルによってユニフォームリソースデータベース内の各データに対してコンテンツ品質スコアを行い、データのコンテンツ品質スコア情報の次元を増加し、ユニフォームリソースデータベースに記憶してもよい。これに対応して、各データの配信時間、ソース信頼度などの情報の次元を増加し、ユニフォームリソースデータベースに記憶するようにしてもよい。
【0151】
いくつかの実施例によれば、コンテンツ細粒度分割モデルを利用して、意味に基づいて元の完全なデータに対して細粒度分割を行うことができ、統一リソースデータベース内のデータは細粒度分割後のデータである。例えば、複数の段落を含むウェブページテキストデータについて、意味理解によって異なる意味特徴がある複数のテキストセグメントに分割し、複数のテキストセグメントをユニフォームリソースデータベースにそれぞれ記憶するようにしてもよい。さらに、マルチソース異種データユニフォーム意味表示モデルによって各テキストセグメントを対応するデータ意味ベクトルに変換し、検索リソースデータベースに記憶するようにしてもよい。
【0152】
続いて図16を参照し、検索システムの動作過程は以下のとおりである。
【0153】
ステップS11、ユーザが入力した検索要求に応答し、曖昧性解消モデルによって前記検索要求に対して構造化分析を行い、曖昧性があるか否かを決定し、それにより明確化を必要とするコンテンツを前記ユーザに提供し、ユーザの検索要求への明確化及びユーザのニーズへの誘導を実現することができる。
【0154】
検索要求は、具体的には、ユーザが入力した検索情報と、検索情報に関するコンテキスト情報とを含んでもよく、検索情報に関するコンテキスト情報としては、例えば、時間、場所、機器、ユーザの行きがけ順検索などが挙げられる。
【0155】
ステップS12、前記マルチソース異種データユニフォーム意味表示モデルを利用し、ユーザの検索要求を第1要求意味ベクトルに変換し、リコールモデルを利用して検索リソースデータベースで前記第1要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを検索する。
【0156】
具体的には、前記第1要求意味ベクトルと検索リソースデータベース内のデータ意味ベクトルとの間の類似度を計算することで、前記要求意味ベクトルとマッチングする少なくとも1つの第1データ意味ベクトルを得る。
【0157】
ステップS13、ユニフォームリソースデータベースから前記少なくとも1つの第1データ意味ベクトルに対応する1つ又は複数の第1データを取得する。
【0158】
ステップS14、前記1つ又は複数の第1データ及びユーザが入力した検索要求をソートモデルに入力し、前記1つ又は複数の第1データと検索要求との間の類似スコアを計算し、類似スコアに基づいて1つ又は複数の第1データをソートする。
【0159】
前記1つ又は複数の第1データ及び検索要求は、意味関連性、コンテンツ品質、オーソリティなどの各次元のうちの少なくとも1つを含んでもよい。
【0160】
ステップS15、検索結果生成モデルを利用し、1つ又は複数の第1データに基づいて検索結果を生成する。
【0161】
検索結果生成モデルは、対応するコンテンツへの理解に基づいて第1のデータを整理して検索結果を生成してもよい。
【0162】
ステップS16、関連検索意図取得モデルを利用し、前記検索要求に基づいてユーザの関連検索意図を取得する。
【0163】
ステップS17、前記マルチソース異種データユニフォーム意味表示モデルを利用し、ユーザの関連検索意図を第2要求意味ベクトルに変換し、リコールモデルを利用して検索リソースデータベースで前記第2要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを検索する。
【0164】
具体的には、前記第2要求意味ベクトルと検索リソースデータベース内のデータ意味ベクトルとの間の類似度を計算することで、前記要求意味ベクトルとマッチングする少なくとも1つの第2データ意味ベクトルを得る。
【0165】
推薦に使用されるリコールモデルは、検索に使用されるリコールモデルと同一のモデルであってもよく、異なるリコールロジックを利用して構築される異なるモデルであってもよい。
【0166】
ステップS18、ユニフォームリソースデータベースから前記少なくとも1つの第2データ意味ベクトルに対応する1つ又は複数の第2データを取得する。
【0167】
ステップS19、1つ又は複数の第2データ及びユーザが入力した検索要求に対応する関連検索意図を推薦モデルに入力し、前記1つ又は複数の第2データと関連検索意図との間の類似スコアを計算し、類似スコアに基づいて1つ又は複数の第2データをソートする。
【0168】
前記推薦モデルのソートロジックは、対応するデータに基づく意味関連性、感知関連性などの複数の次元であってもよく、前記感知関連性次元は、ユーザの潜在的なニーズ及び関心に対する感知をより重視し、それによりユーザのニーズ及び関心により近い検索結果を生成することができる。
【0169】
ステップS20、推薦結果生成モデルを利用し、1つ又は複数の第2データに基づいて推薦結果を生成する。
【0170】
本開示の別の態様によれば、事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法をさらに提供し、前記検索システムは、リコールモデルとソートモデルとがカスケード接続されてエンドツーエンドのディープニューラルネットワーク基礎モデルを含み、前記リコールモデルはダブルエンコーダ構造に基づくものであり、前記ソートモデルはクロスエンコーダ構造に基づくものである。
【0171】
図17は本開示の例示的な実施例に係る事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を示し、図17に示すように、前記方法は、サンプルデータセットを受信するステップS1701であって、前記サンプルデータセットにおけるサンプルデータはサンプル検索要求及び第1目標出力データセットを含むステップS1701と、前記リコールモデル及び前記ソートモデルにおける複数のパラメータを初期化し、各サンプルデータに対して、前記リコールモデルにおける第1エンコーダにより該サンプルデータにおけるサンプル検索要求を第1要求意味ベクトルに変換するステップS1703と、前記リコールモデルにおける第2エンコーダは異なるタイプの複数の候補データを対応する複数の第1データ意味ベクトルにそれぞれ変換するステップS1704であって、前記異なるタイプの複数の候補データは、テキスト、ピクチャ及びビデオを少なくとも含み、前記複数の第1データ意味ベクトルは統一仕様を有するステップS1704と、前記第1要求意味ベクトルと前記複数の第1データ意味ベクトルとの間の第1類似度をそれぞれ計算することで第1数量の第1データ意味ベクトルを選択するステップS1705であって、前記第1数量の第1データ意味ベクトルと前記第1要求意味ベクトルとの第1類似度はいずれも所定の条件を満たすステップS1705と、前記サンプル検索要求及び前記第1数量の第1データ意味ベクトルにおける各第1データ意味ベクトルに対応する候補データを、第1連携入力値として前記ソートモデルのクロスエンコーダに順次入力し、前記第1数量の第1データ意味ベクトルに対応する候補データをそれぞれソートするステップS1706と、ソートされた候補データと第1の目標出力データとに基づいて損失関数を算出するステップS1707と、前記損失関数に基づいて前記リコールモデルと前記ソートモデルの複数のパラメータを調整するステップS1708とを含む操作を実行するステップS1702と、を含む。ベクトル間の類似度は例えばコサイン類似度であるがこれに限定されない。
【0172】
いくつかの実施例によれば、前記異なるタイプの複数の候補データは、テキスト、ピクチャ及びビデオを加えて、少なくともテーブルと知識グラフをさらに含む。理解できるように、前記異なるタイプのデータは、地図、動画などの他のタイプのデータをさらに含んでもよく、より多くのタイプのデータはさらに、検索リソースデータベースを豊富にすることができ、それにより検索結果の多様性をさらに向上させ、ユーザのニーズをよりうまく満たし、ユーザ体験を向上させることができる。
【0173】
いくつかの実施例によれば、前記異なるタイプの複数の候補データにおける少なくとも1つのテキスト又はビデオデータは、元の完全なデータに対して細粒度分割を行うことによって得られたものである。これにより、データコンテンツへの理解が深くなり、さらに細粒度インデックスを実現し、ユーザのニーズにより合致した検索結果を得ることができる。
【0174】
例示的に、元の完全なデータに対して細粒度分割を行うことによって前記少なくとも1つのテキスト又はビデオデータを取得する前記ことは、意味に従って元の完全なデータに対して細粒度分割を行うことであってもよい。いくつかの実施例では、元の完全なデータに対して細粒度分割を行うことは、元の完全なデータに対して意味分割を行い、少なくとも1つのテキスト又はビデオデータを得ることを含んでもよい。ウェブページテキストデータを例とし、元の完全なウェブページテキストデータは複数の段落を含む可能性があり、各段落は異なる意味特徴を有する可能性があるので、対応する完全なウェブページテキストデータに対応するデータ意味ベクトルは各段落の異なる意味特徴を十分に表すことができず、検索過程においてユーザのニーズを体現する第1要求意味ベクトルを各段落の意味とマッチングすることができない。元の完全なウェブページテキストデータを分割することで、それを異なる意味特徴を有する複数のセグメントに分割することができ、各セグメントは前記少なくとも1つのテキストのうちの1つに対応する。各セグメントはいずれも対応するデータ意味ベクトルに変換され、検索過程においてそれぞれユーザのニーズを体現する第1要求意味ベクトルとマッチングし、ユーザのニーズにより合致した検索結果を得ることができる。同様に、ビデオに対応するビデオテキストデータに基づいて細粒度分割を行うことができ、具体的な原理及び過程はウェブページテキストデータと類似する。
【0175】
いくつかの実施例によれば、前記複数の第1データ意味ベクトルにおける各データ意味ベクトルは、対応する候補データのコンテンツ品質に関する次元を含む。対応するデータのコンテンツ品質に関する前記次元は、対応するデータのコンテンツ品質スコアであってもよいがこれに限られない。これにより、前記方法トレーニングを利用した検索システムがデータのコンテンツ品質をさらに考慮するようにし、検索結果の品質を向上させることができる。
【0176】
いくつかの実施例によれば、前記複数の第1データ意味ベクトルにおける各データ意味ベクトルは対応する候補データ的配信時刻に関する次元を含む。対応するデータの配信時刻に関する前記次元は、対応するデータの配信時刻であってもよいがこれに限られない。これにより、前記方法トレーニングを利用した検索システムが適時性をさらに考慮するようにし、検索結果の品質を向上させることができる。
【0177】
いくつかの実施例によれば、前記複数の第1データ意味ベクトルにおける各データ意味ベクトルは、対応する候補データのソース信頼度に関する次元を含む。対応するデータのソース信頼度に関する前記次元は、対応するデータのソースウェブサイトタイプ及び対応するウェブサイトタイプの信頼度であってもよいが、これらに限定されない。これにより、前記方法トレーニングを利用した検索システムがデータのオーソリティをさらに考慮するようにし、検索結果の品質を向上させることができる。
【0178】
いくつかの実施例によれば、前記意味空間ベクトルにおける各データ意味ベクトルは、対応するデータの、コンテンツ品質に関する次元、配信時刻に関する次元及びソース信頼度に関する次元における少なくとも2つを含む。検索過程において、データの複数の次元を増加することで、検索結果の品質をさらに向上させることができる。
【0179】
同様の原理に基づいて、いくつかの実施例によれば、前記第1要求意味ベクトルは、前記ユーザの検索に関するコンテキスト情報を含み、前記コンテキスト情報は、時間、場所及び前記ユーザの行きがけ順検索のうちの少なくとも1つを含む。これにより、前記方法トレーニングを利用した検索システムの検索精度をさらに向上させることができる。
【0180】
理解できるように、前記ユーザの検索に関するコンテキスト情報に基づいて、ユーザの直接的な検索要求をより正確に説明することができる。例えば、ユーザが入力した検索情報が「明日の天気はどうですか」である場合、これに対応して、前記第1要求意味ベクトルにはユーザが所在する場所、例えば北京市が含まれてもよく、それにより「北京市の明日の天気」に関する検索結果をユーザに提供し、ユーザのニーズをより正確に満たし、ユーザ体験を向上させることができる。
いくつかの実施例によれば、前記第1連携入力値は、対応する候補データのコンテンツ品質、配信時刻、及びソース信頼度のうちの少なくとも1つを含む。これにより、これにより、ソート過程において候補データのコンテンツ品質、配信時刻、ソース信頼度などコンテンツを十分に考慮することができ、それにより、より高い品質のソート結果を得て、さらに前記方法でトレーニングされた検索システムは、ユーザのニーズにより合致した検索結果を生成し、ユーザ体験を向上させることができる。
【0181】
いくつかの実施例によれば、前記システムは推薦モデルをさらに含み、前記サンプルデータセットにおけるサンプルデータは、さらに第2目標出力データセットを含み、前記トレーニング方法は、前記推薦モデルにおける複数のパラメータを初期化し、各サンプルデータに対して、前記サンプル検索要求及び前記第1数量の第1データ意味ベクトルにおける各第1データ意味ベクトルに対応する候補データを第2連携入力値として前記推薦モデルのクロスエンコーダに順次入力することで、それぞれ前記第1数量の第1データ意味ベクトルに対応する候補データをソートすることと、ソートされた候補データと前記第2の目標出力データとに基づいて損失関数を算出し、前記損失関数に基づいて、前記目標モデル及び前記推薦モデルにおける複数のパラメータを調整することとを含む操作を実行することを含む。
【0182】
いくつかの実施例によれば、前記第2連携入力値は、対応する候補データの意味関連性特徴及び感知関連性特徴を含む。前記意味関連性特徴は、候補データの直接的な意味を説明するために用いられ、前記意味関連性特徴は、ユーザのニーズ及び関心に関する次元を重視する。それにより、前記方法でトレーニングされた推薦モデルの精度をさらに向上させることができ、ユーザの潜在的なニーズをよりうまく満たす。
【0183】
例えば、公的人物Aを紹介するコンテンツが含まれているウェブページに対応するデータ意味ベクトルにおける意味関連性特徴次元は、ウェブページコンテンツの直接的な意味を説明するために用いられる。該ウェブページに対応するデータ意味ベクトルにおける感知関連性特徴次元は、ユーザが公的人物Aを中心に拡張可能性のある関心を記述することに重点を置いており、例えば、ユーザは、公的人物Aの夫人が誰であるか、公的人物Aがどの作品があるかなどに関心があるかもしれなく、感知関連性特徴次元には、対応するコンテンツが含まれてもよい。これにより、推薦システムの精度をさらに向上させ、ユーザの潜在的なニーズをよりうまく満たすことができる。
【0184】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶しており、前記命令は少なくとも1つのプロセッサにより実行されて、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を少なくとも1つのプロセッサに実行させる電子機器をさらに提供する。
【0185】
本開示の別の態様によれば、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0186】
本開示の別の態様によれば、プロセッサにより実行されると、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品をさらに提供する。
【0187】
図18を参照して、本開示のサーバ又はクライアントとして使用可能な電子機器1800の構造ブロック図を説明し、これは、本開示の各態様に適用できるハードウェア機器の例であってもよい。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタル電子のコンピュータ機器を示すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書に説明及び/又は要求される本開示の実現を限定することを意図しない。
【0188】
図18に示すように、機器1800は、読み取り専用メモリ(ROM)1802に記憶されたコンピュータプログラム又は記憶ユニット1808からランダムアクセスメモリ(RAM)1803にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができるコンピューティングユニット1801を含んでもよい。RAM1803には、機器1800の動作に必要な様々なプログラム及びデータが記憶されてもよい。コンピューティングユニット1801、ROM1802及びRAM1803は、バス1804を介して互いに接続されている。入力/出力(I/O)インターフェース1805もバス1804に接続されてもよい。
【0189】
機器1800の複数の部材はI/Oインターフェース1805に接続され、入力ユニット1806、出力ユニット18018、記憶ユニット1808及び通信ユニット1809を含む。入力ユニット1806は機器1800に情報を入力しうる任意のタイプの機器であってもよく、入力ユニット1806は、入力したデジタル又は文字情報を受信したり、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成したりすることができ、そして、マウス、キーボード、タッチスクリーン、トラックパッド、トラックボール、ジョイスティック、マイク、及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット18018は、情報を表示できる任意のタイプの機器であってもよく、そして、ディスプレイ、スピーカー、ビデオ/オーディオ出力端末、振動器及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1808は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット1809は、機器1800が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とし、そして、モデム、ネットワークカード、赤外線通信機器、無線通信トランシーバ及び/又はチップセット、例えば、ブルートゥース(登録商標)機器、802.6機器、WiFi機器、WiMax機器、セルラー通信機器及び/又は類似のものを含んでもよいが、これらに限定されない。
【0190】
コンピューティングユニット1801は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。コンピューティングユニット1801のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されない。コンピューティングユニット1801は、上記した様々な方法及び処理、例えば、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を実行する。例えば、いくつかの実施例では、上記検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法は、記憶ユニット1808などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM 1802及び/又は通信ユニット1809を介して機器1800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 1803にロードされ、コンピューティングユニット1801によって実行されると、上記した検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法の1つ以上のステップを実行することができる。オプションとして、別の実施例では、コンピューティングユニット1801は、他の任意の適切な方式で(例えば、ファームウェアによって)検索方法又は事前にトレーニングされた言語モデルに基づく検索システムのトレーニング方法を実行するように構成されてもよい。
【0191】
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複合プログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
【0192】
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それにより、プログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは完全に機械で実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行され、かつもう一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
【0193】
本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
【0194】
ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザが入力をコンピュータに提供することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
【0195】
ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
【0196】
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。サーバは、クラウドサーバ、分散システムサーバ、又はブロックチェーンと組み合わせたサーバにすることができる。
【0197】
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術的解決手段の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
【0198】
なお、図面を参照して本開示の実施例又は例を説明したが、上記の方法、システム及び機器は例示的な実施例又は例に過ぎず、本発明の範囲はこれらの実施例又は例により限定されず、授権された特許請求の範囲及びその同などの範囲により限定される。実施例又は例のうちの各種の要素は、省略されたり、他の同などの要素に置き換えたりすることができる。さらに、本開示に記載のものと異なる順番に従って各ステップを実行してもよい。さらに、各種の方式で実施例又は例の各種の要素を組み合わせることができる。重要なことは、技術の発展に伴い、ここで記載される多くの要素は本開示以降に現れる同などの要素により置き換えることができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
【外国語明細書】