(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-29
(54)【発明の名称】ソーティング方法、ソーティングモデルのトレーニング方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
G06F 16/9038 20190101AFI20240221BHJP
【FI】
G06F16/9038
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022578848
(86)(22)【出願日】2022-07-25
(85)【翻訳文提出日】2022-12-20
(86)【国際出願番号】 CN2022107627
(87)【国際公開番号】W WO2023142406
(87)【国際公開日】2023-08-03
(31)【優先権主張番号】202210113572.5
(32)【優先日】2022-01-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チュヨン,ジョウ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175JB02
(57)【要約】
本開示は、ソーティング方法、ソーティングモデルのトレーニング方法、装置、電子機器及び媒体を提供し、人工知能分野に関し、特にスマート検索分野に関する。実現案として、検索対象データに関連する複数のリコールデータを確定することと、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの複数のリコールデータにおける推奨度を確定することと、複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、前記複数のリコールデータをソーティングすることと、を含む。
【特許請求の範囲】
【請求項1】
ソーティング方法であって、
検索対象データに関連する複数のリコールデータを確定することと、
前記複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと前記複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの前記複数のリコールデータにおける推奨度を確定することと、
前記複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、前記複数のリコールデータをソーティングすることと、を含む、ソーティング方法。
【請求項2】
前記複数のリコールデータにおけるそれぞれのリコールデータは対応する第1の特徴ベクトルを有し、ここで、前記の該リコールデータの前記複数のリコールデータにおける推奨度を確定することは、
該リコールデータの第1の特徴ベクトルと前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルとの類似度に基づき、前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを融合させることにより、該リコールデータの第2の特徴ベクトルを取得することと、
該リコールデータの第2の特徴ベクトルに基づき、該リコールデータの前記複数のリコールデータにおける推奨度を確定することと、を含む、請求項1に記載の方法。
【請求項3】
前記の該リコールデータの前記複数のリコールデータにおける推奨度を確定することは、
前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することにより、該リコールデータの前記複数のリコールデータにおける推奨度を取得すること、を含む、請求項2に記載の方法。
【請求項4】
前記複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、前記方法は、
該リコールデータの前記複数のリコールデータにおける推奨度を確定する前、前記複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定すること、を更に含む、請求項2に記載の方法。
【請求項5】
前記の該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定することは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定することと、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定することと、を含む、請求項4に記載の方法。
【請求項6】
前記の前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定することは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することにより、該リコールデータの第1の特徴ベクトルを取得すること、を含む、請求項5に記載の方法。
【請求項7】
前記の前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを所定の順序で並べることにより、該リコールデータの特徴行列を構成することと、
前記特徴行列を前記第2のtransformerモジュールに入力することと、を含む、請求項6に記載の方法。
【請求項8】
前記複数の特徴情報のうちのいずれか1つの特徴情報が存在しないことに応答して、前記所定の順序における該特徴情報の順位にプリセットデフォルトベクトルを設定すること、を更に含む、請求項7に記載の方法。
【請求項9】
それぞれのリコールデータの前記複数の特徴情報には、該リコールデータと前記検索対象データとの類似度を示すために用いられる特徴情報が含まれる、請求項4に記載の方法。
【請求項10】
前記複数の特徴情報は、数値特徴情報、列挙特徴情報とベクトル特徴情報のうちの少なくとも1つを含む、請求項4に記載の方法。
【請求項11】
前記検索対象データと前記複数リコールデータとの両方のいずれか一方は、
テキストと、
画像と、
動画と、のうちの少なくとも1つのデータタイプを含む、請求項1に記載の方法。
【請求項12】
ソーティングモデルのトレーニング方法であって、前記ソーティングモデルは第1のtransformerモジュールを含み、前記方法は、
検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定することと、
前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを前記第1のtransformerモジュールに入力することにより、前記複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得することと、
前記複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、前記ソーティングモデルのパラメータを調整することと、を含む、ソーティングモデルのトレーニング方法。
【請求項13】
前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータのラベルは、
前記少なくとも1つのリコールデータに対するクリック情報と、
前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータと前記検索対象データとのマッチング情報と、の少なくとも1つの情報に基づいて確定される、請求項12に記載の方法。
【請求項14】
前記ソーティングモデルは第2のtransformerモジュールを更に含み、前記複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、
ここで、前記の前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定することは、
該リコールデータの複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定することと、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを前記第2のtransformerモジュールに入力することにより、該リコールデータの第1の特徴ベクトルを取得することと、を含む、請求項12に記載の方法。
【請求項15】
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを前記第2のtransformerモジュールに入力する前、前記第2のtransformerモジュールに対するプレトレーニングを実行すること、を更に含む、請求項14に記載の方法。
【請求項16】
ソーティング装置であって、
検索対象データに関連する複数のリコールデータを確定するために用いられるように構成される第1の確定ユニットと、
前記複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと前記複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの前記複数のリコールデータにおける推奨度を確定するために用いられるように構成される第2の確定ユニットと、
前記複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、前記複数のリコールデータに対するソーティングを実行するために用いられるように構成されるソーティングユニットと、を含む、ソーティング装置。
【請求項17】
前記複数のリコールデータにおけるそれぞれのリコールデータは対応する第1の特徴ベクトルを有し、ここで、前記第2の確定ユニットは、
該リコールデータの第1の特徴ベクトルと前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルとの類似度に基づき、前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを融合させることで、該リコールデータの第2の特徴ベクトルを取得するために用いられるように構成される融合サブユニットと、
該リコールデータの第2の特徴ベクトルに基づき、該リコールデータの前記複数のリコールデータにおける推奨度を確定するために用いられるように構成される第1の確定サブユニットと、を含む、請求項16に記載の装置。
【請求項18】
前記第2の確定ユニットは、
前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することで、該リコールデータの前記複数のリコールデータにおける推奨度を取得するために用いられるサブユニットを含む、請求項17に記載の装置。
【請求項19】
前記複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、前記装置は、
該リコールデータの前記複数のリコールデータにおける推奨度を確定する前、前記複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第3の確定ユニット、を更に含む、請求項17に記載の装置。
【請求項20】
前記第3の確定ユニットは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定するために用いられるように構成される第2の確定サブユニットと、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第3の確定サブユニットと、を含む、請求項19に記載の装置。
【請求項21】
前記第3の確定ユニットは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することで、該リコールデータの第1の特徴ベクトルを取得するために用いられるように構成される入力サブユニットを含む、請求項20に記載の装置。
【請求項22】
前記入力サブユニットは、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを所定の順序で並べることにより、該リコールデータの特徴行列を構成するために用いられるサブユニットと、
前記特徴行列を前記第2のtransformerモジュールに入力するために用いられるサブユニットと、を含む、請求項21に記載の装置。
【請求項23】
前記入力サブユニットは、
前記複数の特徴情報のうちのいずれか1つの特徴情報が存在しないことに応答して、前記所定の順序における該特徴情報の順位にプリセットデフォルトベクトルを設定するために用いられるサブユニット、を含む、請求項22に記載の装置。
【請求項24】
それぞれのリコールデータの前記複数の特徴情報には、該リコールデータと前記検索対象データとの類似度を示すために用いられる特徴情報が含まれる、請求項19に記載の装置。
【請求項25】
前記複数の特徴情報は、数値特徴情報、列挙特徴情報とベクトル特徴情報のうちの少なくとも1つを含む、請求項19に記載の装置。
【請求項26】
前記検索対象データと前記複数のリコールデータの両方のいずれか一方は、
テキストと、
画像と、
動画と、のうちの少なくとも1つのデータタイプを含む、請求項16に記載の装置。
【請求項27】
ソーティングモデルのトレーニング装置であって、前記ソーティングモデルは第1のtransformerモジュールを含み、前記装置は、
検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第4の確定ユニットと、
前記複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを前記第1のtransformerモジュールに入力することで、前記複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得するために用いられるように構成される取得ユニットと、
前記複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、前記ソーティングモデルのパラメータを調整するために用いられるように構成される調整ユニットと、を含む、ソーティングモデルのトレーニング装置。
【請求項28】
前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータのラベルは、
前記少なくとも1つのリコールデータに対するクリック情報と、
前記少なくとも1つのリコールデータにおけるそれぞれのリコールデータと前記検索対象データとのマッチング情報と、の少なくとも1つの情報に基づいて確定される、請求項27に記載の装置。
【請求項29】
前記ソーティングモデルは第2のtransformerモジュールを更に含み、前記複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、
ここで、前記第4の確定ユニットは、
該リコールデータの複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定するためのサブユニットと、
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを前記第2のtransformerモジュールに入力することで、該リコールデータの第1の特徴ベクトルを取得するために用いられるサブユニットと、を含む、請求項27に記載の装置。
【請求項30】
前記複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを前記第2のtransformerモジュールに入力する前に、前記第2のtransformerモジュールに対するプレトレーニングを実行するために用いられるように構成されるプレトレーニングユニット、を更に含む、請求項29に記載の装置。
【請求項31】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~15のいずれか一項に記載の方法を実行させる、電子機器。
【請求項32】
コンピュータに請求項1~15のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
【請求項33】
コンピュータに、請求項1~15のいずれか一項に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2022年1月30日に出願された中国特許出願202210113572.5の優先権を請求し、その内容の全てが参照によって本明細書に組み込まれる。
【0002】
本開示は、人工知能技術分野に関し、特にスマート検索分野に関し、具体的には、ソーティング方法、ソーティングモデルのトレーニング方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0003】
人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
【0004】
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、ソーティング方法、ソーティングモデルのトレーニング方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本開示の一態様によれば、検索対象データに関連する複数のリコールデータを確定することと、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの複数のリコールデータにおける推奨度を確定することと、複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、複数のリコールデータに対するソーティングを実行することと、を含むソーティング方法を提供する。
【0007】
本開示の一態様によれば、ソーティングモデルのトレーニング方法を提供し、ここで、ソーティングモデルは第1のtransformerモジュールを含み、方法は、検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定することと、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することにより、複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得することと、複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、ソーティングモデルのパラメータを調整することと、を含む。
【0008】
本開示の別の態様によれば、検索対象データに関連する複数のリコールデータを確定するために用いられるように構成される第1の確定ユニットと、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの複数のリコールデータにおける推奨度を確定するために用いられるように構成される第2の確定ユニットと、複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、複数のリコールデータに対するソーティングを実行するために用いられるように構成されるソーティングユニットと、を含むソーティング装置を提供する。
【0009】
本開示の別の態様によれば、ソーティングモデルのトレーニング装置を提供し、ここで、ソーティングモデルは第1のtransformerモジュールを含み、装置は、検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第4の確定ユニットと、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することで、複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得するために用いられるように構成される取得ユニットと、複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、ソーティングモデルのパラメータを調整するために用いられるように構成される調整ユニットと、を含む。
【0010】
本開示の別の態様によれば、電子機器を更に提供し、前記電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、命令は少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに以上に記載のいずれか1つの方法を実行させることができる。
【0011】
本開示の別の態様によれば、コンピュータに以上に記載のいずれか1つの方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を更に提供する。
【0012】
本開示の別の態様によれば、プロセッサによって実行されると、以上に記載のいずれか1つの方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を更に提供する。
【発明の効果】
【0013】
本開示の一又は複数の実施例によれば、ソーティング過程に複数のリコールデータの間の関連性を取得し、これに基づいて複数のリコールデータに対するソーティング品質を向上させることができる。
【0014】
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0015】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
【
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。
【
図2】本開示の実施例によるソーティング方法を示すフローチャートである。
【
図3】本開示の実施例によるソーティング方法を示す概略図である。
【
図4】本開示の実施例によるソーティングモデルのトレーニング方法を示すフローチャートである。
【
図5】本開示の実施例によるソーティング装置を示す構成ブロック図である。
【
図6】本開示の実施例によるソーティングモデルのトレーニング装置を示す構成ブロック図である。
【
図7】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
【発明を実施するための形態】
【0016】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0017】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0018】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。
【0019】
検索タスクは、一般的に、リコールとソーティングという2つの部分に分けられている。関連技術において、リコール過程に検索対象データに基づいて複数のリコールデータをリコールし、ソーティング過程において、それぞれのリコールデータ自体の特徴、例えば、該リコールデータと検索対象データとの類似度に基づき、該リコールデータの推奨度を確定し、更に複数のリコールデータをソーティングする。このようなソーティング方式では、複数のリコールデータの間に存在するコンテキスト情報を無視していることで、ソーティングの正確性が良くなくなる。
【0020】
これに基づき、本開示は、ソーティング方法を提供し、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの前記複数のリコールデータにおける推奨度を確定し、更に複数のリコールデータをソーティングする。これにより、ソーティング過程に複数のリコールデータの間の関係を取得し、これに基づいて複数のリコールデータに対するソーティング品質を向上させることができる。
【0021】
以下、図面を参照して本開示の実施例について詳細に説明する。
【0022】
図1は、本開示の実施例による、本明細書に記載の様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。
図1を参照すると、このシステム100は、1つ又は複数のクライアントデバイス101、102、103、104、105と106、サーバ120、及び1つ又は複数のクライアントデバイスをサーバ120に結合する1つ又は複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、1つ又は複数のアプリケーションを実行するように構成されることが可能である。
【0023】
本開示の実施例では、サーバ120は、ソーティング方法又はソーティングモデルのトレーニング方法を実行できる1つ又は複数のサービス又はソフトウェアアプリケーションを実行できる。
【0024】
いくつかの実施例では、サーバ120は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0025】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、1つ又は複数のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、1つ又は複数のクライアントアプリケーションを用いてサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、
図1は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0026】
ユーザは、クライアントデバイス101、102、103、104、105及び/又は106を用いて検索対象データを入力し送信することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りをするインターフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。
図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0027】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯型ハンドヘルドデバイスには、携帯電話、スマートフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0028】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、1つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、WIFI)、及び/又はこれらとその他のネットワークの任意の組み合わせであってもよい。
【0029】
サーバ120は、1つ又は複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する1つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの1つ又は複数のフレキシブルプール)を含んでもよい。様々な実施例において、サーバ120は、以下に説明する機能を提供する1つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
【0030】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む1つ又は複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、を含む様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか1つを実行することもできる。
【0031】
いくつかの実施形態では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析し統合するための1つ又は複数のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の1つ又は複数のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する1つ又は複数のアプリケーションを含んでもよい。
【0032】
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0033】
システム100は、1つ又は複数のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ又は複数は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に位置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの1つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0034】
いくつかの実施例では、データベース130のうちの1つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0035】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
【0036】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0037】
図2は、本開示の例示的な実施例によるソーティング方法を示すフローチャートであり、該方法200は、検索対象データに関連する複数のリコールデータを確定するステップS201と、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの複数のリコールデータにおける推奨度を確定するステップS202と、複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、複数のリコールデータをソーティングするステップS203と、を含む。
【0038】
これにより、ソーティング過程に複数のリコールデータのコンテキスト情報を考慮し、複数のリコールデータの間の相関性に基づき、複数のリコールデータに対するソーティング品質を向上させることができる。
【0039】
ステップS201に対し、検索対象データはユーザにより端末デバイスを介して入力されたものであってもよい。複数のリコールデータは所定のリコールルール又はトレーニングされたリコールモデルを利用し、データベースから取得された検索対象データに関連する複数のデータであってもよい。
【0040】
いくつかの実施例によれば、検索対象データと複数のリコールデータの両方のいずれか一方は、テキストと、画像と、動画とのうちの少なくとも1つのデータタイプを含んでもよい。
【0041】
ステップS202に対し、それぞれのリコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度を確定することにより、複数のリコールデータで構成されるデータセットの面から、該リコールデータが推奨されるべきか否かを評価することができ、すなわち、それによってそれぞれのリコールデータに対する評価は該リコールデータの内部情報に制限されるわけではなく、また複数のリコールデータのコンテキスト情報を考慮することができ、複数のリコールデータに対するソーティングの正確度を向上させることに役立つ。
【0042】
ここで、推奨度は、ユーザ満足度と、クリックされる確率と、検索対象データとのマッチング度のうちの1種又は複数種の要因に基づいて確定されると理解することができる。
【0043】
いくつかの実施例によれば、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータの文字重なり度に基づいて類似度を確定することができ、これによって、該リコールデータの複数のリコールデータにおける推奨度を確定する。
【0044】
例えば、それぞれのリコールデータに対し、複数のリコールデータにおける該リコールデータとの類似度がプリセット類似度閾値より高いリコールデータの数を確定し、該数に基づいて該リコールデータの推奨度を確定し、ここで、該リコールデータの推奨度は該数と正の相関関係を有する。
【0045】
いくつかの実施例によれば、複数のリコールデータにおけるそれぞれのリコールデータは対応する第1の特徴ベクトルを有し、ここで、該リコールデータの複数のリコールデータにおける推奨度を確定することは、該リコールデータの第1の特徴ベクトルと複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルとの類似度に基づき、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを融合させることにより、該リコールデータの第2の特徴ベクトルを取得することと、該リコールデータの第2の特徴ベクトルに基づき、該リコールデータの複数のリコールデータにおける推奨度を確定することと、を含んでもよい。
【0046】
該方法で得られたそれぞれのリコールデータの第2の特徴に基づき、複数のリコールデータで構成されるセットのグローバル面で、該リコールデータの特徴をグローバルに反映することができ、更に該リコールデータの複数のリコールデータにおける推奨度をより正確に確定する。
【0047】
ここで、上記リコールデータの第2の特徴ベクトルを確定する方式は注意力(Attention)メカニズムによって実現することができる。
【0048】
いくつかの実施例によれば、該リコールデータの複数のリコールデータにおける推奨度を確定することは、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することにより、該リコールデータの複数のリコールデータにおける推奨度を取得すること、を含んでもよい。
【0049】
ここで、第1のtransformerモジュールはエンコーダ(encoder)とデコーダ(decoder)という2つの部分で構成されてよい。自己注意機構(Self-Attention)に基づき、第1のtransformerモジュールは入力した複数の第1の特徴ベクトルを十分に融合させることができ、更に複数のリコールデータで構成されるセットのグローバル面から、各リコールデータの複数のリコールデータにおける推奨度を正確に確定する。
【0050】
いくつかの実施例によれば、複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、方法は、該リコールデータの複数のリコールデータにおける推奨度を確定する前、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定すること、を更に含んでもよい。
【0051】
それぞれのリコールデータの複数の特徴情報を融合させて得られた第1の特徴ベクトルにより、複数の特徴で構成される全体の面から、該リコールデータをより正確に表現することができ、更に複数のリコールデータに対するソーティング品質を向上させる。
【0052】
いくつかの実施例によれば、それぞれのリコールデータの複数の特徴情報は、該リコールデータと検索対象データとの類似度を示すために用いられる特徴情報を含む。
【0053】
これにより、各リコールデータの特徴から、該リコールデータと検索対象データとの類似度を反映することができ、更に、該リコールデータの複数の特徴情報を融合させて得られた第1の特徴ベクトルにより、該リコールデータと検索対象データの類似度を示すことができる。
【0054】
一実施形態において、各リコールデータの複数の特徴情報におけるそれぞれの特徴情報は付加的なモデルによって予測して得られる。例えば、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと検索対象データを付加的なマッチングモデルに入力することにより、該リコールデータと検索対象データとの類似度情報を取得することができる。該類似度情報は、該リコールデータの1つの特徴情報としてリコールデータをソーティングするために用いられる。
【0055】
いくつかの実施例によれば、複数の特徴情報は、数値特徴情報、列挙特徴情報とベクトル特徴情報のうちの少なくとも1つを含む。
【0056】
一実施形態において、数値特徴情報は、例えば、履歴クリック数を含んでもよく、列挙特徴情報は、例えば、該リコールデータのリコール元のタイプ、ページスタイルのタイプなどを含んでもよく、ベクトル特徴情報は、例えば、該リコールデータと検索対象データとの類似度を示すための特徴ベクトル、該リコールデータのサイト品質を示すための特徴ベクトルなどを含んでもよい。
【0057】
いくつかの実施例によれば、該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定することは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定することと、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定することと、を含んでもよい。
【0058】
複数の特徴情報のデータタイプが多様であるため、以降の処理を容易にするために、まず複数の特徴情報におけるそれぞれの特徴情報を同じ次元の表現ベクトルに変換することができ、すなわち、特徴情報の正規化を実現する。特徴情報間の関係学習を順調に行うために特徴正規化を行い、更にリコールデータを第1の特徴ベクトルのプレスステップとして示す。
【0059】
一実施形態において、各数値特徴情報に対し、その数値に対して対数を求め、又は定数で除算することにより1つのD次元の表現ベクトルに変換し、ここで、表現ベクトルの次元Dは予め定められたものである。各列挙特徴情報に対し、具体的な列挙値に基づいて1つの対応するプリセットD次元ベクトルを選択して該列挙特徴情報の表現ベクトルとすることができる。各ベクトル特徴情報に対し、1つ又は複数のD次元である表現ベクトルとして示すことができ、例えば、線形変換によってベクトル特徴情報を直接的に1つのD次元ベクトルに変換し、又はベクトル特徴情報の次元とデータの大きさに応じて、複数のD次元ベクトルに変換する。
【0060】
いくつかの実施例によれば、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定することは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することにより、該リコールデータの第1の特徴ベクトルを取得すること、を含んでもよい。
【0061】
ここで、第2のtransformerモジュールはエンコーダ(encoder)で構成されてよく、エンコーダにおける注意力メカニズムに基づき、複数の特徴情報におけるそれぞれの特徴情報を十分に融合させることができ、得られた第1の特徴ベクトルは、該リコールデータをより正確に示すことができる。
【0062】
いくつかの実施例によれば、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを所定の順序で並べることにより、該リコールデータの特徴行列を構成することと、特徴行列を第2のtransformerモジュールに入力することと、を含む。
【0063】
理解できるように、本開示は、複数の特徴情報の並べ順を制限せず、各リコールデータの複数の特徴情報の並べ順を同様にするだけでよく、例えば、並べ順を、「履歴クリック数、ページスタイルのタイプ、リコールデータと検索対象データとの類似度、リコール元のタイプ」として予め設定することができ、そうすることで、各リコールデータの複数の特徴情報の表現ベクトルはいずれも該順序に応じて並べるべきであり、これによって、各リコールデータは同じモードで第2のtransformerモジュールに入力される。
【0064】
一実施形態において、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータの複数の特徴情報の表現ベクトルをもとに1つの付加ベクトルを添加し、該付加ベクトルは複数の特徴情報の表現ベクトルの次元と同じで、第2のtransformerモジュールの出力端で該リコールデータの第1の特徴ベクトルを抽出するために用いられてよく、すなわち、該付加ベクトルが第2のtransformerモジュールによって処理されて得られた出力ベクトルを該リコールデータの第1の特徴ベクトルとする。
【0065】
特に、付加ベクトルは複数の特徴情報の表現ベクトルの前又は後ろに設定されてよい。
【0066】
いくつかの実施例によれば、複数の特徴情報のうちのいずれか1つの特徴情報が存在しないことに応答して、所定の順序における該特徴情報の順位にプリセットデフォルトベクトルを設定することができる。
【0067】
複数のリコールデータは複数の異なるリコール元に由来してもよいため、例えば、異なるデータベースから、又は、異なるリコールモデルによってリコールするため、異なるリコールデータにおける特徴情報が統一しない状況が存在する可能性があり、すなわち、1つのリコールデータにおけるある特徴情報は他のリコールデータにおいて存在しない。上記状況により、第2のtransformerモジュールに入力するリコールデータモードが統一しないことを回避するために、プリセットデフォルトベクトルを用いて、欠落の特徴情報の順位を占用する。
【0068】
ステップS203は、ステップS202で確定された複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づいて、複数のリコールデータに対するソーティングを実行する。具体的には、複数のリコールデータを推奨度の大きさに応じて順に並べ、クライアントにフィードバックすることにより、ユーザはクライアントを介して検索対象データに対する検索結果を調べることができる。
【0069】
図3は、本開示の例示的な実施例によるソーティング方法を示す概略図である。
図3に示すように、リコールデータ1~Nにおける各々はいずれも複数の特徴情報(
図3における正方体により例示的に示される)を含み、ステップ301、ステップ302とステップS303を実行することにより、リコールデータ1~Nにおける各々の推奨度を確定することができ、リコールデータ1~Nへのソーティングを実行するために用いられる。リコールデータ1~Nに対するソーティング方法は以下のとおりである。
【0070】
ステップ301、リコールデータ1~Nにおける各々に対し、該リコールデータの複数の特徴情報における各々の表現ベクトルを確定し、複数の特徴情報における各々の表現ベクトルと1つの付加ベクトルとで共同で構成される特徴行列を第2のtransformerモデルに入力し、ここで、付加ベクトルは特徴行列における第1列に位置し、
ステップ302、リコールデータ1~Nにおける各々に対し、第2のtransformerモデルのエンコーダを介して該リコールデータの第1の特徴ベクトルを取得し、ここで、該第1の特徴ベクトルは付加ベクトルが第2のtransformerモデルのエンコーダによって処理されて得られた出力ベクトルであり、
ステップ303、リコールデータ1~Nにおける各々の第1の特徴ベクトルを第1のtransformerモデルに入力し、第1のtransformerモデルにおけるエンコーダを介して各リコールデータの第1の特徴ベクトルを融合させ、リコールデータ1~Nにおける各々の第2の特徴ベクトルを取得することができ、ここで、各リコールデータの第2の特徴ベクトルがいずれも第1のtransformerモデルのエンコーダによってその他のリコールデータの情報を融合させ、最終的に、リコールデータ1~Nにおける各々に対し、該リコールデータの第2の特徴ベクトルに基づき、該リコールデータの推奨度を確定する。
【0071】
リコールデータ1~Nにおける各々の推奨度を確定した上で、各々の推奨度の大きさに基づいてリコールデータ1~Nをソーティングすることができる。
【0072】
図4は、本開示の例示的な実施例によるソーティングモデルのトレーニング方法を示すフローチャートであり、ここで、ソーティングモデルは第1のtransformerモジュールを含み、方法400は、検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定するステップS401と、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することにより、複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得するステップS402と、複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、ソーティングモデルのパラメータを調整するステップS403と、を含む。
【0073】
それによって、トレーニングして得られたソーティングモデルは、第1のtransformerモジュールによって複数のリコールデータの間の相関性をマイニングすることができ、これによってソーティング過程に複数のリコールデータのコンテキスト情報を考慮することができ、複数のリコールデータに対するソーティング品質を向上させる。
【0074】
ここで、第1のtransformerモジュールはエンコーダ(encoder)とデコーダ(decoder)という2つの部分で構成されてよい。上記方法によりトレーニングして得られたソーティングモデルにおける第1のtransformerモジュールは、自己注意機構(Self-Attention)に基づき、入力した複数の第1の特徴ベクトルを十分に融合させることができ、更に複数のリコールデータで構成されるセットのグローバル面から、各リコールデータの複数のリコールデータにおける推奨度を正確に確定する。
【0075】
ステップS401に対し、ここで、複数のリコールデータは所定のリコールルール又はトレーニングされたリコールモデルを利用し、データベースから取得された検索対象データに関連する複数のデータであってもよい。
【0076】
いくつかの実施例によれば、ソーティングモデルは第2のtransformerモジュールを更に含み、複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、ここで、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定することは、該リコールデータの複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定することと、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することにより、該リコールデータの第1の特徴ベクトルを取得することと、を含む。
【0077】
ここで、第2のtransformerモジュールはエンコーダ(encoder)で構成されてよい。トレーニングされた第2のtransformerモジュールは、エンコーダにおける注意力メカニズムに基づき、複数の特徴情報におけるそれぞれの特徴情報を十分に融合させることができ、得られた第1の特徴ベクトルは、該リコールデータをより正確に示すことができる。
【0078】
いくつかの実施例によれば、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力する前、第2のtransformerモジュールに対するプレトレーニングを実行する。
【0079】
一実施形態において、第2のtransformerモジュールに対するプレトレーニングは、複数の特徴情報を含む、ラベルを有するサンプルデータを取得することと、サンプルデータの複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することにより、該サンプルデータの第1の特徴ベクトルを取得することと、第1の特徴ベクトルを分類モデルに入力することにより、該サンプルデータの予測分類を取得することと、該サンプルデータの予測分類とラベルに基づき、第2のtransformerモジュールのパラメータを調整することと、を含んでもよい。
【0080】
これにより、第2のtransformerモジュールの出力端に分類モデルを接続させることにより第2のtransformerモジュールに対するプレトレーニングを行うことができ、これによって、後続のタスクに適応可能な初級の第2のtransformerモジュールを取得する。プレトレーニングされた第2のtransformerモジュールに基づき、ソーティングモデルへのトレーニングを実行し、モデルの収束速度を加速させ、トレーニング効果を向上させることができる。
【0081】
特に、該分類モデルはクリック予測モデルであってもよい。
【0082】
ステップS403に対し、ソーティングモデルのパラメータに対する調整は、ラベルを有するリコールデータのみに基づいて実行する。理解できるように、複数のリコールデータに対し、ユーザは、そのうちの一部のリコールデータのみを調べた可能性があり、すなわち、ユーザは、そのうちの一部のリコールデータのフィードバック情報のみを提供する。このような場合、調べた一部のリコールデータのラベルのみを取得することができる。
【0083】
例えば、200個のソーティングしたリコールデータに対し、ユーザは、そのうちの前の10個のリコールデータのみを調べ、すなわち、ユーザは、調べた前の10個のリコールデータのみを判断し、例えば、そのうちの第3のリコールデータをクリックしてその他のリコールデータをクリックしていなかった。このような場合、ユーザは前の10個のリコールデータ以外のリコールデータに対して判断していないため、これらのデータは、ソーティングモデルに対するパラメータ調整に応用されるべきではない。
【0084】
いくつかの実施例によれば、少なくとも1つのリコールデータにおけるそれぞれのリコールデータのラベルは、少なくとも1つのリコールデータに対するクリック情報と、少なくとも1つのリコールデータにおけるそれぞれのリコールデータと検索対象データとのマッチング情報と、の少なくとも1つの情報に基づいて確定されてもよい。
【0085】
一実施形態において、クリックされたリコールデータにラベルとして大きい数値を付与し、クリックされていなかったリコールデータにラベルとして小さい数値を付与することができる。例えば、クリックされたリコールデータのラベルは1であり、クリックされていなかったリコールデータのラベルは0である。
【0086】
特に、各リコールデータがクリックされる回数に基づいて該ラベルを更に細分化することができ、これによってラベル数値の大きさはクリック数と正の相関関係を有する。
【0087】
一実施形態において、少なくとも1つのリコールデータにおけるそれぞれのリコールデータと検索対象データとのマッチング情報に基づき、各リコールデータのラベルを確定することができ、ここで、ラベルの数値の大きさはマッチング度と正の相関関係を有する。
【0088】
一実施形態において、更にリコールデータに対する満足度に基づいてリコールデータのラベルを確定してもよく、ここで、ラベルの数値の大きさは満足度と正の相関関係を有する。
【0089】
図5は、本開示の例示的な実施例によるソーティング装置を示す構成ブロック図であり、該装置500は、検索対象データに関連する複数のリコールデータを確定するために用いられるように構成される第1の確定ユニット501と、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータと複数のリコールデータにおけるそれぞれのリコールデータとの類似度に基づき、該リコールデータの複数のリコールデータにおける推奨度を確定するために用いられるように構成される第2の確定ユニット502と、複数のリコールデータにおけるそれぞれのリコールデータの推奨度に基づき、複数のリコールデータをソーティングするために用いられるように構成されるソーティングユニット503と、を含む。
【0090】
いくつかの実施例によれば、複数のリコールデータにおけるそれぞれのリコールデータは対応する第1の特徴ベクトルを有し、ここで、第2の確定ユニットは、該リコールデータの第1の特徴ベクトルと複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルとの類似度に基づき、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを融合させることで、該リコールデータの第2の特徴ベクトルを取得するために用いられるように構成される融合サブユニットと、該リコールデータの第2の特徴ベクトルに基づき、該リコールデータの複数のリコールデータにおける推奨度を確定するために用いられるように構成される第1の確定サブユニットと、を含む。
【0091】
いくつかの実施例によれば、第2の確定ユニットは、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することで、該リコールデータの複数のリコールデータにおける推奨度を取得するために用いられるサブユニットと、を含む。
【0092】
いくつかの実施例によれば、複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、装置は、該リコールデータの複数のリコールデータにおける推奨度を確定する前、複数のリコールデータにおけるそれぞれのリコールデータに対し、該リコールデータの複数の特徴情報を融合させることにより、該リコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第3の確定ユニットを更に含む。
【0093】
いくつかの実施例によれば、第3の確定ユニットは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定するために用いられるように構成される第2の確定サブユニットと、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを融合させることにより、該リコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第3の確定サブユニットと、を含む。
【0094】
いくつかの実施例によれば、第3の確定ユニットは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することで、該リコールデータの第1の特徴ベクトルを取得するために用いられるように構成される入力サブユニットと、を含む。
【0095】
いくつかの実施例によれば、入力サブユニットは、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを所定の順序で並べることにより、該リコールデータの特徴行列を構成するために用いられるサブユニットと、特徴行列を第2のtransformerモジュールに入力するために用いられるサブユニットと、を含む。
【0096】
いくつかの実施例によれば、入力サブユニットは、複数の特徴情報のうちのいずれか1つの特徴情報が存在しないことに応答して、所定の順序における該特徴情報の順位にプリセットデフォルトベクトルを設定するために用いられるサブユニットと、を含む。
【0097】
いくつかの実施例によれば、それぞれのリコールデータの複数の特徴情報は、該リコールデータと検索対象データとの類似度を示すために用いられる特徴情報を含む。
【0098】
いくつかの実施例によれば、複数の特徴情報は、数値特徴情報、列挙特徴情報とベクトル特徴情報のうちの少なくとも1つを含む。
【0099】
いくつかの実施例によれば、検索対象データと複数のリコールデータの両方のいずれか一方は、テキストと、画像と、動画と、のうちの少なくとも1つのデータタイプを含む。
【0100】
図6は、本開示の例示的な実施例によるソーティングモデルのトレーニング装置を示す構成ブロック図であり、ここで、ソーティングモデルは第1のtransformerモジュールを含み、装置600は、検索対象データに関連する複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを確定するために用いられるように構成される第4の確定ユニット601と、複数のリコールデータにおけるそれぞれのリコールデータの第1の特徴ベクトルを第1のtransformerモジュールに入力することで、複数のリコールデータにおけるそれぞれのリコールデータの推奨度を取得するために用いられるように構成される取得ユニット602と、複数のリコールデータには少なくとも1つの、ラベルを有するリコールデータが存在することに応答して、少なくとも1つのリコールデータにおけるそれぞれのリコールデータの推奨度とラベルに基づき、ソーティングモデルのパラメータを調整するために用いられるように構成される調整ユニット603と、を含む。
【0101】
いくつかの実施例によれば、少なくとも1つのリコールデータにおけるそれぞれのリコールデータのラベルは、少なくとも1つのリコールデータに対するクリック情報と、少なくとも1つのリコールデータにおけるそれぞれのリコールデータと検索対象データとのマッチング情報と、のうちの少なくとも1つの情報に基づいて確定される。
【0102】
いくつかの実施例によれば、ソーティングモデルは第2のtransformerモジュールを更に含み、複数のリコールデータにおけるそれぞれのリコールデータは複数の特徴情報を含み、ここで、第4の確定ユニットは、該リコールデータの複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを確定するためのサブユニットと、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力することで、該リコールデータの第1の特徴ベクトルを取得するために用いられるサブユニットと、を含む。
【0103】
いくつかの実施例によれば、該装置は、複数の特徴情報におけるそれぞれの特徴情報の表現ベクトルを第2のtransformerモジュールに入力する前、第2のtransformerモジュールに対するプレトレーニングを実行するために用いられるように構成されるプレトレーニングユニット、を更に含む。
【0104】
本開示の実施例によれば、電子機器をさらに提供し、前記電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、命令は少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに以上に記載のいずれか1つの方法を実行させる。
【0105】
本開示の実施例によれば、前記コンピュータに以上に記載のいずれか1つの方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0106】
本開示の実施例によれば、プロセッサによって実行されると、以上に記載のいずれか1つの方法を実施するコンピュータプログラムを含むコンピュータプログラム製品をさらに提供する。
【0107】
図7に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器700の構成ブロック図について説明する。電子機器は、様々な形態のコンピュータデバイス、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0108】
図7に示すように、電子機器700は、計算ユニット701を含み、それは読み出し専用メモリ(ROM)702に記憶されたコンピュータプログラム又は記憶ユニット708からランダム・アクセス・メモリ(RAM)703にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM 703において、更に電子機器700を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット701、ROM 702及びRAM 703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705も、バス704に接続される。
【0109】
電子機器700における複数の部品はI/Oインターフェース705に接続され、入力ユニット706、出力ユニット707、記憶ユニット708及び通信ユニット709を含む。入力ユニット706は、電子機器700に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット706は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット707は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット708は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット709は、電子機器700が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0110】
計算ユニット701は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット701は、前文で説明された各方法及び処理、例えばソーティング方法又はソーティングモデルのトレーニング方法を実行する。例えば、いくつかの実施例では、ソーティング方法又はソーティングモデルのトレーニング方法は、機器可読媒体、例えば記憶ユニット708に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM 702及び/又は通信ユニット709を経して電子機器700にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 703にロードされて計算ユニット701によって実行される時、以上で説明されるソーティング方法又はソーティングモデルのトレーニング方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他のいかなる適切な方式で(例えば、ファームウェアによって)、ソーティング方法又はソーティングモデルのトレーニング方法を実行するように構成されてもよい。
【0111】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0112】
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、これによってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0113】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
【0114】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0115】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0116】
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0117】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載の各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0118】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
【国際調査報告】