(58)【調査した分野】(Int.Cl.,DB名)
前記ユーザ特徴が、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、前記世帯登録ディメンション特徴が、ユーザアイデンティティ情報の特徴を含み、前記名前ディメンション特徴が、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、前記社会的特徴が、ユーザの社会的関係情報の特徴を含む、請求項5に記載の方法。
複数のユーザデータ対を取得するように構成されたデータ取得モジュールであって、各ユーザデータ対の2つのユーザデータセットのデータフィールドが、同一の部分を有する、データ取得モジュールと、
各ユーザデータ対に対応するユーザ類似性を取得するように構成された類似性取得モジュールであって、前記ユーザ類似性が、各ユーザデータ対の前記2つのユーザデータセットに対応するユーザ間の類似性である、類似性取得モジュールと、
各ユーザデータ対に対応する前記ユーザ類似性及び前記複数のユーザデータ対に従って、双子又は一卵性双生児を識別する分類モデルを訓練するためのサンプルデータを決定するように構成されたサンプルデータ決定モジュールと、
前記サンプルデータに基づいて前記分類モデルを訓練するように構成されたモデル訓練モジュールと
を含む、モデル訓練装置。
前記ユーザ特徴が、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、前記世帯登録ディメンション特徴が、ユーザアイデンティティ情報の特徴を含み、前記名前ディメンション特徴が、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、前記社会的特徴が、ユーザの社会的関係情報の特徴を含む、請求項15に記載の装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
発明の概要
本出願の実施形態の目的は、モデルの迅速な訓練を実装し、モデル訓練効率を高め、資源消費を低減するために、モデル訓練方法、装置及びデバイス並びにデータ類似性決定方法、装置及びデバイスを提供することである。
【課題を解決するための手段】
【0006】
上記で言及される技術的問題を解決するため、本出願の実施形態は、以下の通り実施される。
【0007】
本出願の実施形態は、
複数のユーザデータ対を取得することであって、各ユーザデータ対の2つのユーザデータセットのデータフィールドが、同一の部分を有する、取得することと、
各ユーザデータ対に対応するユーザ類似性を取得することであって、ユーザ類似性が、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性である、取得することと、
各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータを決定することと、
類似性分類モデルを得るためにサンプルデータに基づいて分類モデルを訓練することと
を含む、モデル訓練方法を提供する。
【0008】
任意選択により、各ユーザデータ対に対応するユーザ類似性を取得することは、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することであって、第1のユーザデータ対が、複数のユーザデータ対の任意のユーザデータ対である、取得することと、
第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することと
を含む。
【0009】
任意選択により、生物学的特徴は、顔画像特徴を含み、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することは、
第1のユーザデータ対に対応するユーザの顔画像を取得することと、
顔画像特徴を得るために顔画像の特徴抽出を実行することと
を含み、それに応じて、第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することは、
第1のユーザデータ対に対応するユーザの顔画像特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定すること
を含む。
【0010】
任意選択により、生物学的特徴は、音声特徴を含み、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することは、
第1のユーザデータ対に対応するユーザの音声データを取得することと、
音声特徴を得るために音声データの特徴抽出を実行することと
を含み、それに応じて、第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することは、
第1のユーザデータ対に対応するユーザの音声特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定すること
を含む。
【0011】
任意選択により、各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、分類モデルを訓練するためのサンプルデータを決定することは、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の各ユーザデータ対の特徴抽出を実行することと、
各ユーザデータ対のユーザデータ間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータを決定することと
を含む。
【0012】
任意選択により、各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータを決定することは、
各ユーザデータ対に対応するユーザ類似性及び予め定められた類似性閾値に従って、複数のユーザデータ対に対応するユーザ特徴から肯定サンプル特徴及び否定サンプル特徴を選択することと、
分類モデルを訓練するためのサンプルデータとして肯定サンプル特徴及び否定サンプル特徴を使用することと
を含む。
【0013】
任意選択により、ユーザ特徴は、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、世帯登録ディメンション特徴は、ユーザアイデンティティ情報の特徴を含み、名前ディメンション特徴は、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、社会的特徴は、ユーザの社会的関係情報の特徴を含む。
【0014】
任意選択により、肯定サンプル特徴は、否定サンプル特徴と同じ量の特徴を含む。
【0015】
任意選択により、類似性分類モデルは、二項分類モデルである。
【0016】
本出願の実施形態は、
検出予定のユーザデータ対を取得することと、
検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行することと、
検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することと
を含む、データ類似性決定方法をさらに提供する。
【0017】
任意選択により、方法は、
検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が予め定められた類似性分類閾値より大きい場合は、検出予定のユーザデータ対に対応する検出予定のユーザを双子として決定すること
をさらに含む。
【0018】
本出願の実施形態は、
複数のユーザデータ対を取得するように構成されたデータ取得モジュールであって、各ユーザデータ対の2つのユーザデータセットのデータフィールドが、同一の部分を有する、データ取得モジュールと、
各ユーザデータ対に対応するユーザ類似性を取得するように構成された類似性取得モジュールであって、ユーザ類似性が、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性である、類似性取得モジュールと、
各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータを決定するように構成されたサンプルデータ決定モジュールと、
類似性分類モデルを得るためにサンプルデータに基づいて分類モデルを訓練するように構成されたモデル訓練モジュールと
を含む、モデル訓練装置を提供する。
【0019】
任意選択により、類似性取得モジュールは、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得するように構成された生物学的特徴取得ユニットであって、第1のユーザデータ対が、複数のユーザデータ対の任意のユーザデータ対である、生物学的特徴取得ユニットと、
第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成された類似性取得ユニットと
を含む。
【0020】
任意選択により、生物学的特徴は、顔画像特徴を含み、
生物学的特徴取得ユニットは、第1のユーザデータ対に対応するユーザの顔画像を取得することと、顔画像特徴を得るために顔画像の特徴抽出を実行することとを行うように構成され、
それに応じて、類似性取得ユニットは、第1のユーザデータ対に対応するユーザの顔画像特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成される。
【0021】
任意選択により、生物学的特徴は、音声特徴を含み、
生物学的特徴取得ユニットは、第1のユーザデータ対に対応するユーザの音声データを取得することと、音声特徴を得るために音声データの特徴抽出を実行することとを行うように構成され、
それに応じて、類似性取得ユニットは、第1のユーザデータ対に対応するユーザの音声特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成される。
【0022】
任意選択により、サンプルデータ決定モジュールは、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の各ユーザデータ対の特徴抽出を実行するように構成された特徴抽出ユニットと、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータを決定するように構成されたサンプルデータ決定ユニットと
を含む。
【0023】
任意選択により、サンプルデータ決定ユニットは、各ユーザデータ対に対応するユーザ類似性及び予め定められた類似性閾値に従って、複数のユーザデータ対に対応するユーザ特徴から肯定サンプル特徴及び否定サンプル特徴を選択することと、分類モデルを訓練するためのサンプルデータとして肯定サンプル特徴及び否定サンプル特徴を使用することとを行うように構成される。
【0024】
任意選択により、ユーザ特徴は、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、世帯登録ディメンション特徴は、ユーザアイデンティティ情報の特徴を含み、名前ディメンション特徴は、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、社会的特徴は、ユーザの社会的関係情報の特徴を含む。
【0025】
任意選択により、肯定サンプル特徴は、否定サンプル特徴と同じ量の特徴を含む。
【0026】
任意選択により、類似性分類モデルは、二項分類モデルである。
【0027】
本出願の実施形態は、
検出予定のユーザデータ対を取得するように構成された検出予定データ取得モジュールと、
検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行するように構成された特徴抽出モジュールと、
検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定するように構成された類似性決定モジュールと
を含む、データ類似性決定装置をさらに提供する。
【0028】
任意選択により、装置は、
検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が予め定められた類似性分類閾値より大きい場合は、検出予定のユーザデータ対に対応する検出予定のユーザを双子として決定するように構成された類似性分類モジュール
をさらに含む。
【0029】
本出願の実施形態は、
プロセッサと、
コンピュータ実行可能命令を格納するように構成されたメモリであって、コンピュータ実行可能命令が、実行されると、以下の動作、すなわち、
複数のユーザデータ対を取得することであって、各ユーザデータ対の2つのユーザデータセットのデータフィールドが、同一の部分を有する、取得することと、
各ユーザデータ対に対応するユーザ類似性を取得することであって、ユーザ類似性が、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性である、取得することと、
各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータを決定することと、
類似性分類モデルを得るためにサンプルデータに基づいて分類モデルを訓練することと
をプロセッサに実行させる、メモリと
を含む、モデル訓練デバイスを提供する。
【0030】
本出願の実施形態は、
プロセッサと、
コンピュータ実行可能命令を格納するように構成されたメモリであって、コンピュータ実行可能命令が、実行されると、以下の動作、すなわち、
検出予定のユーザデータ対を取得することと、
検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行することと、
検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することと
をプロセッサに実行させる、メモリと
を含む、データ類似性決定デバイスを提供する。
【0031】
本出願の実施形態によって提供される技術的解決法から分かるように、本出願の実施形態では、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じて得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0032】
図面の簡単な説明
本出願の実施形態又は先行技術の技術的解決法をより明確に説明するため、実施形態又は先行技術の説明において使用するために必要な図面を簡単に紹介する。以下の説明の図面は、本出願の単なるいくつかの実施形態であることは明らかであり、当業者は、創造的な取り組みを行うことなく、これらの図面に従って他の図面をさらに得ることができる。
【発明を実施するための形態】
【0034】
詳細な説明
本出願の実施形態は、モデル訓練方法、装置及びデバイス並びにデータ類似性決定方法、装置及びデバイスを提供する。
【0035】
当業者が本出願の技術的解決法をより良く理解できるようにするため、本出願の実施形態の技術的解決法は、本出願の実施形態の添付の図面を参照して、以下で明確且つ完全に説明する。説明される実施形態は、本出願の実施形態のすべてというよりむしろ、単にそのうちのいくつかであることは明らかである。本出願の実施形態に基づいて当業者によって得られた他のすべての実施形態は、本出願の保護範囲内に収まるものとする。
【0036】
実施形態1
図1に示されるように、本出願の実施形態は、モデル訓練方法を提供する。方法は、端末デバイス又はサーバによって実行することができる。端末デバイスは、パーソナルコンピュータ又は同様のものであり得る。サーバは、独立した単一のサーバでも、複数のサーバによって形成されたサーバクラスタでもよい。本出願の実施形態は、モデル訓練効率を高めるためにサーバによって方法が実行される例を使用することによって詳細に説明される。方法は、具体的には、以下のステップを含み得る。
【0037】
ステップS102では、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有する。
【0038】
各ユーザデータ対は、複数の異なるユーザのユーザデータを含み得る。例えば、複数のユーザデータ対は、ユーザデータ対A及びユーザデータ対Bを含む。ユーザデータ対Aは、ユーザデータ1及びユーザデータ2を含み、ユーザデータ対Bは、ユーザデータ3及びユーザデータ4を含むなどである。ユーザデータは、ユーザに関連するデータ(例えば、ユーザの名前、年齢、身長、住所、身分証明書番号及びソーシャルセキュリティカード番号などのアイデンティティ情報)であり得、また、ユーザの興味、購入商品、旅行などの情報も含み得る。データフィールドは、ユーザデータ対の2つの異なるユーザデータセットに対応するユーザのアイデンティティのみならず、例えば、姓、身分証明書番号の所定桁数の数字(例えば、身分証明書番号の最初の14桁の数字)、ソーシャルセキュリティカード番号、又は、ユーザアイデンティティ若しくは情報を決定することができる他のアイデンティティ番号などのユーザ間の関連性をも表すことができるフィールド又は文字であり得る。
【0039】
実装形態では、ユーザデータは、様々な方法で取得することができる。例えば、ユーザデータは、異なるユーザから購入することも、ウェブサイト又はアプリケーションに登録する際にユーザによって入力された情報(例えば、ユーザがAlipay(登録商標)に登録する際に入力された情報)であることも、ユーザによって能動的にアップロードされたユーザデータであることも可能である。ユーザデータが取得される具体的な方法は、本出願の実施形態において制限されない。ユーザデータが取得された後、同一の部分を共有するデータフィールドを有するユーザデータを発見するために、取得されたユーザデータに含まれるデータフィールドを比較することができる。同一の部分を共有するデータフィールドを有するユーザデータは、一緒にまとめてユーザデータ対を形成することができる。上記の方法により、複数のユーザデータ対を得ることができ、各ユーザデータ対のユーザデータのデータフィールドは、同一の部分を有する。
【0040】
例えば、実際の適用では、演算量を低減し、処理効率をできる限り高めるため、データフィールドは、身分証明書番号及び姓として設定することができ、身分証明書番号及びユーザの名前などの情報は、身分証明書番号の1つ又は複数の桁の数字(例えば、身分証明書番号の最初の14桁の数字)が2人のユーザ間の関係を表し得ることを考慮して、ユーザデータ内で検索することができる。本出願の実施形態では、例として、身分証明書番号の最初の14桁の数字は、データフィールドが同一の部分を有するかどうかを判断するための基準として使用される。具体的には、各ユーザの身分証明書番号の最初の14桁の数字及び姓を取得し、異なるユーザの身分証明書番号の最初の14桁の数字及び姓と比較することができる。同じ姓及び身分証明書番号の同じ最初の14桁の数字を有する2つのユーザデータセットは、1つのユーザデータ対にまとめることができる。具体的には、ユーザデータ対は、例えば、{ユーザ1の身分証明書番号、ユーザ2の身分証明書番号、ユーザ1の名前、ユーザ2の名前、ユーザ1の他のデータ、ユーザ2の他のデータ}又は同様のものなど、ユーザ対の形態で格納することができる。
【0041】
同一の部分を有する2つのユーザデータセットのデータフィールドは、データフィールドのいくつかのコンテンツ(例えば、18桁の身分証明書番号の最初の14桁の数字)が同一であると解釈することも、データフィールドのすべてのコンテンツが同一であると解釈することもできることに留意すべきである。
【0042】
ステップS104では、各ユーザデータ対に対応するユーザ類似性が取得され、ユーザ類似性は、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性である。
【0043】
ユーザ類似性は、複数のユーザ間の類似度(例えば、99%又は50%)を表すために使用することができる。実際の適用では、ユーザ類似性は、他の方法で表すこともできる。例えば、ユーザ類似性は、双子と非双子によって又は一卵性双生児と二卵性双生児によって表すこともできる。
【0044】
実装形態では、この実施形態の主要な目的は、分類モデルを訓練することであり、それには、分類モデルを訓練するためのサンプルデータ及びサンプルデータに対応するユーザ類似性が必要とされる。ユーザ類似性は、サーバ又は端末デバイスに事前に格納することができる。ユーザ類似性は、様々な方法で決定することができる。任意選択の処理方法の1つを以下で提供し、詳細については、以下のコンテンツを参照することができる。ユーザの画像は、前もって取得することができ、画像は、アプリケーション又はウェブサイトに登録する際にユーザによってアップロードすることができ、ユーザは、各ユーザデータ対に含まれる2つのユーザデータセットに対応するユーザであり得る。各ユーザデータ対の画像は、比較することができ、画像の比較を通じて、ユーザデータ対に含まれる2つのユーザデータセットに対応するユーザ間の類似性を計算することができる。画像比較プロセスの間、画像前処理、画像特徴抽出及び画像特徴比較などの処理方法を使用することができ、それらの処理方法は、本出願の実施形態において制限されない。
【0045】
ステップS106では、各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータが決定される。
【0046】
分類モデルは、ナイーブベイズ分類モデル、ロジスティック回帰分類モデル、決定木分類モデル、又はサポートベクタマシン分類モデルなどのいかなる分類モデルでもあり得る。本出願の実施形態では、2人の異なるユーザが似ているかどうかを判断するためだけに分類モデルが使用されることを考慮すると、分類モデルは、二項分類モデルであり得る。サンプルデータは、分類モデルを訓練するために使用されるデータであり得る。サンプルデータは、ユーザデータ対の2つのユーザデータセットであり得、また、上記のユーザデータがある特定の方法で処理された後に得られたデータでもあり得る。例えば、特徴抽出は、対応するユーザ特徴を得るために上記のユーザデータに対して実行され、ユーザ特徴のデータは、サンプルデータとして使用することができる。
【0047】
実装形態では、例えば、80%又は70%の類似性閾値を前もって設定することができる。各ユーザデータ対に対応するユーザ類似性はそれぞれ、類似性閾値と比較することができる。類似性閾値より大きいユーザ類似性に対応するユーザデータ対を1つのセットにまとめたり、類似性閾値未満のユーザ類似性に対応するユーザデータ対を1つのセットにまとめたりすることができ、上記の2つのセットの各々から既定の量(例えば、40000又は50000)のユーザデータ対を選択することができ、選択されたユーザデータ対は、プリセット分類モデルを訓練するためのサンプルデータとして使用される。
【0048】
プリセット分類モデルを訓練するためのサンプルデータは、上記の方法以外の他の様々な方法で選択できることに留意すべきである。例えば、各ユーザデータ対に含まれる2つのユーザデータセットの特徴は、対応するユーザ特徴を得るために抽出され、次いで、ユーザ特徴は、各ユーザデータ対に対応するユーザ類似性及び類似性閾値に従って上記の2つのセットにまとめることができる。2つのユーザ特徴セットのデータは、プリセット分類モデルを訓練するためのサンプルデータとして使用することができる。
【0049】
ステップS108では、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練される。
【0050】
類似性分類モデルは、異なるユーザ間の類似度を決定するために使用されるモデルであり得る。
【0051】
実装形態では、上記で選択されたユーザデータ対がプリセット分類モデルを訓練するためのサンプルデータとして使用される事例に基づいて、特徴抽出は、対応するユーザ特徴を得るために、選択されたユーザデータ対の各々の2つのユーザデータセットに対して実行することができ、次いで、サンプルデータの各ユーザデータ対のユーザ特徴は、計算のために分類モデルに入力することができる。計算後、計算結果を出力することができる。計算結果は、2つが同じであるかどうかを判断するために、対応するユーザデータ対に対応するユーザ類似性と比較することができる。2つが同じではない場合は、分類モデルの関連パラメータを変更することができ、次いで、ユーザデータ対のユーザ特徴が、計算のために修正された分類モデルに入力され、計算結果がユーザ類似性と同じであるかどうかが判断される。手順は、2つが同じになるまで繰り返される。2つが同じである場合は、次の選択されたユーザデータ対に対して上記の処理手順を実行することができる。最後に、各ユーザデータ対のユーザ特徴が分類モデルに入力された後に得られた計算結果が、対応するユーザデータ対に対応するユーザ類似性と同じである場合は、得られた分類モデルは、類似性分類モデルである。
【0052】
上記の方法により、類似性分類モデルを得ることができる。類似性分類モデルの使用については、以下の関連コンテンツを参照することができる。
【0053】
図2に示されるように、本出願の実施形態は、類似性決定方法を提供する。方法は、端末デバイス又はサーバによって実行することができる。端末デバイスは、パーソナルコンピュータ又は同様のものであり得る。サーバは、独立した単一のサーバでも、複数のサーバによって形成されたサーバクラスタでもよい。方法は、具体的には、以下のステップを含み得る。
【0054】
ステップS202では、検出予定のユーザデータ対が取得される。
【0055】
検出予定のユーザデータ対は、検出予定の2人のユーザのユーザデータによって形成されたユーザデータ対であり得る。
【0056】
実装形態では、2人の異なるユーザ間の類似性を検出するため、対応する検出アプリケーションを設定することができる。
図3に示されるように、検出アプリケーションは、データをアップロードするためのボタンを含み得る。2人の異なるユーザ間の類似性を検出する必要がある際には、データをアップロードするためのボタンをタップすることができる。検出アプリケーションは、データをアップロードするためのプロンプトボックスをポップアップすることができる。データアップローダは、検出予定のユーザデータ対のデータをプロンプトボックスに入力し、次いで、入力が完了すると、プロンプトボックスの確認ボタンをタップすることができる。検出アプリケーションは、データアップローダによって入力された検出予定のユーザデータ対を取得することができる。検出アプリケーションは、端末デバイスにインストールすることも、サーバにインストールすることもできる。本出願の実施形態によって提供される類似性決定方法がサーバによって実行され、検出アプリケーションが端末デバイスにインストールされている場合は、検出アプリケーションは、検出予定のユーザデータ対を取得した後に、検出予定のユーザデータ対をサーバに送信することができ、その結果、サーバは、検出予定のユーザデータ対を取得することができる。検出アプリケーションがサーバにインストールされている場合は、サーバは、検出アプリケーションから検出予定のユーザデータ対を直接取得することができる。
【0057】
ステップS204では、検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出が実行される。
【0058】
検出予定のユーザ特徴は、検出予定のユーザのユーザデータの特徴であり得る。
【0059】
実装形態では、検出予定のユーザデータ対の各検出予定のユーザデータセットを取得することができる。検出予定のユーザデータの任意のセットに対して、プリセット特徴抽出アルゴリズムを使用することによって検出予定のユーザデータから対応する特徴を抽出することができ、抽出された特徴は、検出予定のユーザデータに対応する検出予定のユーザ特徴として使用することができる。上記の方法により、検出予定のユーザデータ対の各検出予定のユーザデータセットに対応する検出予定のユーザ特徴を得ることができる。
【0060】
特徴抽出アルゴリズムは、ユーザデータから予め定めた特徴を抽出することができるいかなるアルゴリズムでもあり得、具体的には、実際の状況に従って設定できることに留意すべきである。
【0061】
ステップS206では、検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が決定される。
【0062】
実装形態では、ステップS204を通じて得られた検出予定のユーザ特徴は、計算のためにステップS102〜ステップS108を通じて得られた類似性分類モデルに入力することができる。類似性分類モデルから出力される結果は、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性であり得る。
【0063】
実際の適用では、類似性分類モデルの直接的な出力結果は、パーセンテージ(例えば、90%又は40%)で提示できることに留意すべきである。出力結果をユーザにとってより直観的なものにするため、類似性分類モデルの直接的な出力結果は、一卵性双生児と非一卵性双生児を区別する必要がある際又は一卵性双生児と二卵性双生児を区別する必要がある際など、実際の状況に従ってさらに設定することができる。上記の事例を考慮して、分類閾値を設定することができる。直接的な出力結果が分類閾値より大きい場合は、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザは、一卵性双生児であると決定され、そうでなければ、ユーザは、非一卵性双生児又は二卵性双生児であると決定される。このように、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性は、事前に訓練された類似性分類モデルに従って迅速に決定することができ、それにより、ユーザ間の類似性を決定する効率が高まる。
【0064】
前述の説明におけるユーザデータ対と検出予定のユーザデータ対とは両方とも2つのユーザデータセットを含み、実際の適用では、本出願によって提供されるモデル訓練方法及び類似性決定方法は、2つより多いユーザデータセットを含むユーザデータ組合せ及び検出予定のユーザデータ組合せにも適用できることに留意すべきである。具体的な実装形態については、本出願の実施形態の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。
【0065】
本出願の実施形態は、モデル訓練方法及び類似性決定方法を提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0066】
実施形態2
図4に示されるように、本出願の実施形態は、データ類似性決定方法を提供する。方法は、サーバによって実行することも、端末デバイス及びサーバによって連動して実行することもできる。端末デバイスは、パーソナルコンピュータ又は同様のものであり得る。サーバは、独立した単一のサーバでも、複数のサーバによって形成されたサーバクラスタでもよい。本出願の実施形態では、モデル訓練効率を高めるため、サーバによって方法が実行される例を使用することによって詳細な説明が行われる。方法が端末デバイス及びサーバによって連動して実装される事例については、以下の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。方法は、具体的には、以下のコンテンツを含む。
【0067】
現在は、新規のユーザアイデンティティ検証方法として、顔認識は、ユーザに便利性を提供する一方で、新しいリスクを生み出した。現在の顔認識技術の場合、ユーザの画像は、サイトで捕捉され、顔認識システムのデータベースに事前に格納されたユーザのユーザ画像と比較され、比較を通じて得られた値が既定の閾値に達した場合は、ユーザは、事前に格納されたユーザ画像に対応するユーザであると決定され、従って、ユーザのアイデンティティが検証される。しかし、上記の方法を使用することによって非常によく似た顔を有するユーザのアイデンティティを効果的に検証することは難しく、それにより、アイデンティティを検証することが不可能であることによる口座の誤登録及び口座資金の不正流用のリスクが生じる可能性が非常に高くなる。
【0068】
非常によく似た見た目に関与する最も典型的な既知の事例として、双子(特に、一卵性双生児)は、互いに密接な関係にあり、否定的な世論をもたらす可能性が非常に高い。できる限り多くの双子のユーザを含むリストが存在する場合は、上記のリスクを防ぐためにこれらのユーザに対して特別な顔認識対処戦略を設計することができる。従って、高正確度を保証しながら、これらのユーザの顔認識のふるまいをモニタするための、双子のリストを出力するために、双子を効果的に識別するためのモデルを構築することができ、従って、リスク制御を達成することができる。双子を効果的に識別するためのモデルを構築する実装形態については、以下のステップS402〜ステップS412によって提供されるモデル訓練方法を参照することができ、具体的なコンテンツは以下の通りである。
【0069】
ステップS402では、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有する。
【0070】
実装形態では、双子は一般に同じ姓及び身分証明書番号の同じ最初の14桁の数字を有することを考慮すると、ユーザデータ対を選択するためのデータフィールドとして、姓及び身分証明書番号の最初の14桁の数字を使用することができる。ステップS402の具体的な実装形態については、実施形態1のステップS102の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。
【0071】
ユーザデータ対を選択するための処理は、姓及び身分証明書番号の最初の14桁の数字に基づいて実施されることに留意すべきである。本出願の別の実施形態では、ユーザデータ対を選択するための処理は、他の情報(例えば、姓及びソーシャルセキュリティカード番号、又は、身分証明書番号の最初の14桁の数字及びソーシャルセキュリティカード番号)に基づいて実施することもでき、本出願の実施形態において制限されない。
【0072】
ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似度をモデル訓練の間に決定する必要があることを考慮すると、以下は、関連処理方法を提供し、具体的には以下のステップS404及びステップS406を参照することができる。
【0073】
ステップS404では、第1のユーザデータ対に対応するユーザの生物学的特徴が取得され、第1のユーザデータ対は、複数のユーザデータ対の任意のユーザデータ対である。
【0074】
生物学的特徴は、指紋特徴、虹彩特徴、顔特徴、DNA若しくは他の生理学的特徴、又は、声紋特徴、筆跡特徴、キーストローク習慣若しくは他の行動的特徴などの、人体の生理学的及び行動的特徴であり得る。
【0075】
実装形態では、上記のステップS402を通じて複数のユーザデータ対が取得された後、複数のユーザデータ対からユーザデータ対(すなわち、第1のユーザデータ対)を任意に選択することができる。ユーザが登録のために端末デバイスを使用してサーバにログインする際、ユーザは、ユーザの上記の生物学的特徴のうちの1つ又は複数をサーバにアップロードすることができる。サーバは、ユーザの生物学的特徴及び識別子を関連付けて格納することができる。ユーザの識別子は、登録の間にユーザによって入力されたユーザネーム又はユーザの名前であり得る。サーバにおいて関連付けて格納された上記の情報は、表1に示されるようなものであり得る。
【0077】
第1のユーザデータ対を選択した後、サーバは、第1のユーザデータ対に含まれるユーザの識別子を抽出し、次いで、ユーザの識別子に従って、対応する生物学的特徴を取得することができ、従って、第1のユーザデータ対に対応するユーザの生物学的特徴を得ることができる。例えば、第1のユーザデータ対に含まれるユーザの識別子は、ユーザ2及びユーザ3であり、上記の表の対応する関係のクエリを行うことによって、ユーザ2は生物学的特徴Bに対応し、ユーザ3は生物学的特徴Cに対応すると決定することができ、すなわち、第1のユーザデータ対に対応するユーザの生物学的特徴は、生物学的特徴B及び生物学的特徴Cである。
【0078】
ステップS406では、第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性が決定される。
【0079】
実装形態では、上記のステップS404を通じて第1のユーザデータ対に対応するユーザの生物学的特徴が得られた後、2人の対応するユーザ間の類似度(すなわち、ユーザ類似性)を決定するために、得られた生物学的特徴に対してそれぞれ類似性計算を実行することができる。類似性計算は、例えば、特徴ベクトル間のユークリッド距離に従って、様々な方法で実施することができ、本出願の実施形態において制限されない。
【0080】
閾値は、ユーザが似ているかどうかを判断するために設定できることに留意すべきである。例えば、閾値は70に設定される。2つの生物学的特徴に対応するユーザ類似性が70より大きい場合は、第1のユーザデータ対の2つのユーザデータセットに対応するユーザは似ていると決定され、2つの生物学的特徴に対応するユーザ類似性が70未満である場合は、第1のユーザデータ対の2つのユーザデータセットに対応するユーザは似ていないと決定される。
【0081】
上記の方法により、上記の処理手順は、複数のユーザデータ対の各ユーザデータ対に対応するユーザ類似性を得るために、複数のユーザデータ対の第1のユーザデータ対に加えて、他のユーザデータ対に対して実行することができる。
【0082】
上記のステップS404及びステップS406では、ユーザの生物学的特徴に従ってユーザ類似性が決定される。実際の適用では、ユーザ類似性は、具体的には、様々な方法で決定することができる。ステップS404及びステップS406は、生物学的特徴が顔特徴である例を使用することによって、以下で具体的に説明され、詳細については、以下のステップ1及びステップ2を参照することができる。
【0083】
ステップ1では、第1のユーザデータ対に対応するユーザの顔画像が取得され、第1のユーザデータ対は、複数のユーザデータ対の任意のユーザデータ対である。
【0084】
実装形態では、上記のステップS402を通じて複数のユーザデータ対が取得された後、複数のユーザデータ対から1つのユーザデータ対(すなわち、第1のユーザデータ対)を任意に選択することができる。ユーザが登録のために端末デバイスを使用してサーバにログインする際、ユーザは、ユーザの顔を含む画像をサーバにアップロードすることができる。サーバは、ユーザの画像及び識別子を関連付けて格納することができる。ユーザの識別子は、登録の間にユーザによって入力されたユーザネーム又はユーザの名前であり得る。サーバにおいて関連付けて格納された上記の情報は、表2に示されるようなものであり得る。
【0086】
第1のユーザデータ対を取得した後、サーバは、第1のユーザデータ対に含まれるユーザの識別子を抽出し、次いで、ユーザの識別子に従って、対応する画像を取得することができ、従って、第1のユーザデータ対に対応するユーザの顔画像を得ることができる。例えば、第1のユーザデータ対に含まれるユーザの識別子は、ユーザ2及びユーザ3であり、上記の表の対応する関係のクエリを行うことによって、ユーザ2に対応するユーザの顔を含む画像は画像Bであり、ユーザ3に対応するユーザの顔を含む画像は画像Cであり、すなわち、第1のユーザデータ対に対応するユーザの顔画像は、画像B及び画像Cである。
【0087】
ステップ2では、顔画像特徴を得るために顔画像の特徴抽出が実行され、第1のユーザデータ対に対応するユーザの顔画像特徴に従って、第1のユーザデータ対に対応するユーザ類似性が決定される。
【0088】
実装形態では、ステップ1を通じて第1のユーザデータ対に対応するユーザの顔画像が得られた後、対応する顔画像特徴を得るために、得られた顔画像に対してそれぞれ、特徴抽出を実行することができ、各顔画像の抽出された特徴に基づいて対応する特徴ベクトルが得られる。次いで、任意の2つの顔画像の特徴ベクトル間のユークリッド距離を計算することができ、特徴ベクトル間のユークリッド距離の値に従って、2人の対応するユーザ間の類似度(すなわち、ユーザ類似性)を決定することができる。特徴ベクトル間のユークリッド距離の値が大きい程、ユーザ類似性は低く、特徴ベクトル間のユークリッド距離の値が小さい程、ユーザ類似性は高い。
【0089】
顔画像の場合、2つの顔画像は似ているか又は似ていないかのいずれかであることに留意すべきである。従って、閾値は、画像が似ているかどうかを判断するために設定することができる。例えば、閾値は70に設定される。2つの顔画像に対応するユーザ類似性が70より大きい場合は、第1のユーザデータ対の2つのユーザデータセットに対応するユーザは似ていると決定され、2つの顔画像に対応するユーザ類似性が70未満である場合は、第1のユーザデータ対の2つのユーザデータセットに対応するユーザは似ていないと決定される。
【0090】
例えば、ステップ1の例に基づいて、特徴抽出は、画像B及び画像Cに対してそれぞれ実行され、対応する特徴ベクトルは、画像Bの特徴ベクトル及び画像Cの特徴ベクトルを得るために抽出された特徴に従ってそれぞれ構築される。画像Bの特徴ベクトルと画像Cの特徴ベクトルとの間のユークリッド距離が計算され、得られたユークリッド距離の値に従ってユーザ2とユーザ3との間のユーザ類似性が決定される。
【0091】
上記の方法により、上記の処理手順は、複数のユーザデータ対の各ユーザデータ対に対応するユーザ類似性を得るために、複数のユーザデータ対の第1のユーザデータ対に加えて、他のユーザデータ対に対して実行することができる。
【0092】
それに加えて、上記のステップS404及びステップS406の処理に対し、以下は、任意選択の処理方法をさらに提供し、詳細については、以下のステップ1及びステップ2を参照することができる。
【0093】
ステップ1では、第1のユーザデータ対に対応するユーザの音声データが取得され、第1のユーザデータ対は、複数のユーザデータ対の任意のユーザデータ対である。
【0094】
実装形態では、上記のステップS402を通じて複数のユーザデータ対が取得された後、複数のユーザデータ対から1つのユーザデータ対(すなわち、第1のユーザデータ対)を任意に選択することができる。ユーザが登録のために端末デバイスを使用してサーバにログインする際、ユーザは、既定の時間(例えば、3秒又は5秒)を有する及び/又は既定の音声コンテンツ(例えば、1つ若しくは複数の言葉又は1つの文の音声)を含む音声データをサーバにアップロードすることができる。サーバは、ユーザの音声データ及び識別子を関連付けて格納することができる。第1のユーザデータ対を選択した後、サーバは、第1のユーザデータ対に含まれるユーザの識別子をそれぞれ抽出し、次いで、ユーザの識別子に従って、対応する音声データを取得することができ、従って、
第1のユーザデータ対に対応するユーザの音声データを得ることができる。
【0095】
ステップ2では、音声特徴を得るために音声データの特徴抽出が実行され、第1のユーザデータ対に対応するユーザの音声特徴に従って、第1のユーザデータ対に対応するユーザ類似性が決定される。
【0096】
実装形態では、上記のステップ1を通じて第1のユーザデータ対に対応するユーザの音声データが得られた後、得られた音声データに対してそれぞれ、特徴抽出を実行することができ、各音声データ片の抽出された特徴に基づいて、2人の対応するユーザ間の類似度(すなわち、ユーザ類似性)を決定することができる。具体的な実施形態については、上記のステップS406の関連コンテンツを参照することができる。或いは、ユーザ類似性は、特徴を1つずつ比較することを通じて決定することも、ユーザ類似性を決定するために任意の2つの音声データ片に対して音声スペクトル解析を実行することもできる。上記の方法により、上記の処理手順は、複数のユーザデータ対の各ユーザデータ対に対応するユーザ類似性を得るために、複数のユーザデータ対の第1のユーザデータ対に加えて、他のユーザデータ対に対して実行することができる。
【0097】
ステップS408では、各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の各ユーザデータ対の特徴抽出が実行される。
【0098】
実装形態では、ユーザデータ対(第3のユーザデータ対と呼ぶことができる)は、複数のユーザデータ対から任意に選択することができ、特徴抽出は、第3のユーザデータ対の2つの異なるユーザデータセットに対してそれぞれ実行することができる。例えば、第3のユーザデータ対は、ユーザデータ1及びユーザデータ2を含み、特徴抽出は、ユーザデータ1及びユーザデータ2に対してそれぞれ実行することができる。次いで、異なるユーザデータから抽出された特徴を比較することによって、第3のユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得ることができる。上記の方法により、上記の処理手順は、各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の第3のユーザデータ対に加えて、他のユーザデータ対に対して実行することができる。
【0099】
実際の適用では、ユーザ特徴は、これらに限定されないが、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴又は同様のものを含み得る。世帯登録ディメンション特徴は、ユーザアイデンティティ情報の特徴を含み得る。世帯登録ディメンション特徴は、主に、中国の世帯登録管理システムに基づく。世帯登録に含まれる身分証明書情報は、生年月日及び世帯登録場所を含み、世帯登録は、両親の名前及び住民の住所を含む。しかし、歴史的な及び他の理由により、いくつかの住民の登録情報は、実際の状況と同じではない。例えば、登録された生年月日が本当の日付より早いことも、2人の子供達が両親の姓にそれぞれ従うことも、両親の離婚によって世帯登録が分離されることもあり得る。従って、世帯登録ディメンション特徴は、2人のユーザが双子であるかどうかを判断するための参照として機能し得る。このように、異なるユーザ間の関連性は、ユーザデータ対に対応する異なるユーザが、同じ生年月日、同じ世帯登録場所、同じ両親又は同じ現住所を有するかどうかなどの特徴に応じて決定される。
【0100】
名前ディメンション特徴は、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含む。名前ディメンション特徴の場合、自然言語処理(NLP)理論及び社会的な経験に基づいて、一般に、2人の名前がよく似ている場合(例えば、Zhang JinlongとZhang Jinhu)又はある特定の意味関係を有する場合(例えば、Zhang MeimeiとZhang Lili)は、2人の間に関連性があると考慮される。本出願の実施形態では、2人のユーザの名前の関係は、辞書を使用することによって評価することができ、ユーザの登録された個人情報及び人口統計データは、特徴として姓の希少度を計算するために使用される。このように、異なるユーザ間の関連性は、ユーザデータ対に対応する異なるユーザが同じ姓を有するかどうか若しくは同じ名前の長さを有するかどうか、名前の同義度、名前の組合せがフレーズかどうか、姓の希少度又は同様のものなどの特徴に応じて決定される。
【0101】
社会的特徴は、ユーザの社会的関係情報の特徴を含む。社会的特徴は、ビッグデータに基づいてユーザデータ対の社会的関係を抽出することによって得ることができる。一般に、双子は、互いに頻繁に対話し、高度に重複する社会的関係(例えば、同じ親族又はクラスメート)を有する。本出願の実施形態では、ユーザデータ対は、対応する特徴を得るために、サーバに格納されたユーザの個人情報及び既存のデータ、アドレス帳又は同様のものによって形成された関係ネットワークに基づいて関連付けられる。このように、ユーザデータ対に対応する異なるユーザ間の関連性は、異なるユーザがソーシャルネットワーキングアプリケーションにおいて互いにフォローし合っているかどうか、異なるユーザが互いの間で資金移動を行っているかどうか、異なるユーザが相手の連絡先情報をアドレス帳に保存しているかどうか、異なるユーザが相手の特別な呼称をアドレス帳にマーク付けしているかどうか、異なるユーザのアドレス帳の間の共通の連絡先の数又は同様のものなどの特徴に応じて決定される。
【0102】
それに加えて、双子が、多くの共通の趣味及び買い物の好みを有し得ることや、一緒に旅行し得ることを考慮すると、ユーザ特徴は、電子商取引、観光旅行、エンターテインメント及び他のディメンションの特徴をさらに含み得る。本出願の実施形態では、電子商取引、観光旅行、エンターテインメント及び他のディメンションの特徴に関連するデータは、既定のデータベース又はウェブサイトから取得することができる。このように、ユーザデータ対に対応する異なるユーザ間の関連性は、異なるユーザ間の共通の買い物記録の量、異なるユーザが一緒に旅行したかどうか、異なるユーザが同時刻にホテルにチェックインしたかどうか、異なるユーザの買い物の好みの間の類似性、異なるユーザが同じ配達先住所を有するかどうか又は同様のものなどの特徴に応じて決定される。
【0103】
上記のユーザ類似性を決定するための処理(ステップS404及びステップS406を含む)及び特徴抽出処理(すなわち、ステップS408)は、時系列で実行されることに留意すべきである。実際の適用では、ユーザ類似性を決定するための処理及び特徴抽出処理は、同時に実行することも、逆の順番で実行することもでき、本出願の実施形態において制限されない。
【0104】
ステップS410では、各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータが決定される。
【0105】
実装形態では、閾値は、前もって設定することができる。閾値に従って、複数のユーザデータ対から、閾値より大きいユーザ類似性に対応するユーザデータ対を選択することができる。選択されたユーザデータ対の各々の2つのユーザデータセット間の関連付けられたユーザ特徴は、分類モデルを訓練するためのユーザ特徴として使用することができる。選択されたユーザ特徴及び選択されたユーザデータ対に対応するユーザ類似性は、分類モデルを訓練するためのサンプルデータとして決定することができる。
【0106】
ステップS410の処理は、上記の方法に加えて、他の様々な方法で実施することができる。以下は、任意選択の処理方法をさらに提供し、具体的には、以下のステップ1及びステップ2を含む。
【0107】
ステップ1では、各ユーザデータ対に対応するユーザ類似性及び予め定められた類似性閾値に従って、複数のユーザデータ対に対応するユーザ特徴から肯定サンプル特徴及び否定サンプル特徴が選択される。
【0108】
実装形態では、一卵性双生児は、非常によく似た見た目、同じ生年月日及び出生地を有し、一般に、同じ姓を有するという常識に基づいて、2人のユーザが一卵性双生児であるかどうかを判断するために、2人のユーザの顔画像間のユーザ類似性が計算される。具体的には、例えば、80%又は70%の類似性閾値を前もって設定することができる。類似性閾値より大きいユーザ類似性に対応するユーザデータ対は、一卵性双生児のユーザデータ対として決定することができ、類似性閾値未満のユーザ類似性に対応するユーザデータ対は、非一卵性双生児のユーザデータ対として決定することができる。その一方で、一卵性双生児及び二卵性双生児は、見た目を除いて、基本的には同じ特徴を有するため、一卵性双生児のユーザデータ対に対応するユーザ特徴は、類似性分類モデルの肯定サンプル特徴として使用することができ、非一卵性双生児(二卵性双生児及び非双子を含む)のユーザデータ対に対応するユーザ特徴は、類似性分類モデルの否定サンプル特徴として使用することができる。
【0109】
否定サンプル特徴は、その中に含まれる特徴のすべてが二卵性双生児のユーザ特徴であることを意味するわけではないことに留意すべきである。実際の適用では、二卵性双生児のユーザ特徴が否定サンプル特徴の極めて小さな部分を占めることも、否定サンプル特徴が少数の肯定サンプル特徴を含むこともあり得るが、分類モデルの訓練に影響が及ぶことはなく、類似性分類モデルのロバスト性を向上させる。
【0110】
それに加えて、肯定サンプル特徴は、否定サンプル特徴と同じ量の特徴を含み得る。例えば、10%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択され、10%超且つ20%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択され、20%超且つ30%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択され、30%超且つ40%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択され、40%超且つ50%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択される。上記の50000のユーザデータ対のユーザ特徴は、否定サンプル特徴として使用される。80%超且つ90%未満のユーザ類似性に対応する40000のユーザデータ対が複数のユーザデータ対から選択され、90%超且つ100%未満のユーザ類似性に対応する10000のユーザデータ対が複数のユーザデータ対から選択される。上記の50000のユーザデータ対のユーザ特徴は、肯定サンプル特徴として使用される。
【0111】
ステップ2では、分類モデルを訓練するためのサンプルデータとして肯定サンプル特徴及び否定サンプル特徴が使用される。
【0112】
実装形態では、ユーザ特徴及び対応するユーザ類似性のデータを組み合わせることができ、組み合わされたデータは、分類モデルを訓練するためのサンプルデータとして使用することができる。
【0113】
ステップS412では、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練される。
【0114】
分類モデルの主要な目的は双子を識別することであるため、類似性分類モデルは、本出願の実施形態を簡単で実現可能なものにするために、二項分類モデル(具体的には、勾配ブースティング決定木(GBDT)二項分類モデル)であり得る。
【0115】
実装形態では、肯定サンプル特徴はそれぞれ、計算のために分類モデルに入力することができる。得られた計算結果は、肯定サンプル特徴に対応するユーザ類似性と比較することができる。2つが互いに一致する場合は、次の肯定サンプル特徴又は否定サンプル特徴を選択し、計算のために分類モデルに入力することができる。得られた計算結果は、肯定サンプル特徴に対応するユーザ類似性との比較が続けられる。2つが一致しない場合は、分類モデルの関連パラメータを調整することができ、次いで、計算のために調整された分類モデルに肯定サンプル特徴が入力され、得られた計算結果は再び肯定サンプル特徴に対応するユーザ類似性と比較される。手順は、2つが互いに一致するまで繰り返される。上記の方法により、計算のために分類モデルにすべての肯定サンプル特徴及びすべての否定サンプル特徴を入力することができ、従って、分類モデルを訓練することができる。訓練を通じて得られる最終的な分類モデルは、類似性分類モデルとして使用することができる。
【0116】
従って、類似性分類モデルは、上記の処理手順を通じて得られる。類似性分類モデルは、顔認識シナリオに適用することができる。リスクに関連する行動を取り得る双子のユーザの場合は、別個のリスク制御のために類似性分類モデルを使用することができる。
【0117】
類似性分類モデルが得られた後、
図5に示されるように、類似性分類モデルを使用することによって、検出予定のユーザデータ対に対応する検出予定のユーザが双子であるかどうかを判断することができる。具体的な実装形態については、以下のステップS414〜ステップS420のコンテンツを参照することができる。
【0118】
ステップS414では、検出予定のユーザデータ対が取得される。
【0119】
ステップS414のコンテンツは、実施形態1のステップS202のものと同じであり、ステップS414の具体的な実装形態については、ステップS202の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。
【0120】
ステップS416では、検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出が実行される。
【0121】
ステップS416において検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行するためのプロセスについては、上記のステップS408の関連コンテンツを参照することができる。すなわち、検出予定のユーザデータから抽出される特徴は、これらに限定されないが、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴、興味特徴又は同様のものを含む。ステップS408の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。
【0122】
ステップS418では、検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が決定される。
【0123】
ステップS418のコンテンツは、実施形態1のステップS206のものと同じであり、ステップS418の具体的な実装形態については、ステップS206の関連コンテンツを参照することができ、本明細書では、詳細を再び説明することはしない。
【0124】
ステップS420では、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が、予め定められた類似性分類閾値より大きい場合は、検出予定のユーザデータ対に対応する検出予定のユーザが双子として決定される。
【0125】
実装形態では、出力された双子リストはターゲットユーザの顔認識の使用に影響を及ぼすため、高正確度の類似性分類モデルの使用が望ましい。実際の適用では、類似性分類閾値は、大きな値(例えば、95%又は97%)に設定することができる。検出予定のユーザ特徴は、訓練された類似性分類モデルを使用することによって、予測及びスコアリングが行われる。スコアリングプロセスは、対応するユーザデータ対に対応するユーザが双子であるという確率を計算することである。例えば、確率が80%である場合は、スコアは80であり、確率が90%である場合は、スコアは90である。スコアが高い程、ユーザデータ対に対応するユーザが双子であるという確率は高い。
【0126】
本出願の実施形態は、データ類似性決定方法を提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、その後に、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0127】
実施形態3
本出願の実施形態によって提供されるデータ類似性決定方法は、上記で説明されている。同じ概念に基づいて、本出願の実施形態は、
図6に示されるように、モデル訓練装置をさらに提供する。
【0128】
モデル訓練装置は、サーバに配置することができる。装置は、データ取得モジュール601、類似性取得モジュール602、サンプルデータ決定モジュール603及びモデル訓練モジュール604を含み、
データ取得モジュール601は、複数のユーザデータ対を取得するように構成され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、
類似性取得モジュール602は、各ユーザデータ対に対応するユーザ類似性を取得するように構成され、ユーザ類似性は、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性であり、
サンプルデータ決定モジュール603は、各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータを決定するように構成され、
モデル訓練モジュール604は、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルを訓練するように構成される。
【0129】
本出願の実施形態では、類似性取得モジュール602は、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得するように構成された生物学的特徴取得ユニットであって、第1のユーザデータ対が、複数のユーザデータ対の任意のユーザデータ対である、生物学的特徴取得ユニットと、
第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成された類似性取得ユニットと
を含む。
【0130】
本出願の実施形態では、生物学的特徴は、顔画像特徴を含み、
生物学的特徴取得ユニットは、第1のユーザデータ対に対応するユーザの顔画像を取得することと、顔画像特徴を得るために顔画像の特徴抽出を実行することとを行うように構成され、
それに応じて、類似性取得ユニットは、第1のユーザデータ対に対応するユーザの顔画像特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成される。
【0131】
本出願の実施形態では、生物学的特徴は、音声特徴を含み、
生物学的特徴取得ユニットは、第1のユーザデータ対に対応するユーザの音声データを取得することと、音声特徴を得るために音声データの特徴抽出を実行することとを行うように構成され、
それに応じて、類似性取得ユニットは、第1のユーザデータ対に対応するユーザの音声特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定するように構成される。
【0132】
本出願の実施形態では、サンプルデータ決定モジュール603は、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の各ユーザデータ対の特徴抽出を実行するように構成された特徴抽出ユニットと、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータを決定するように構成されたサンプルデータ決定ユニットと
を含む。
【0133】
本出願の実施形態では、サンプルデータ決定ユニットは、各ユーザデータ対に対応するユーザ類似性及び予め定められた類似性閾値に従って、複数のユーザデータ対に対応するユーザ特徴から肯定サンプル特徴及び否定サンプル特徴を選択することと、分類モデルを訓練するためのサンプルデータとして肯定サンプル特徴及び否定サンプル特徴を使用することとを行うように構成される。
【0134】
本出願の実施形態では、ユーザ特徴は、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、世帯登録ディメンション特徴は、ユーザアイデンティティ情報の特徴を含み、名前ディメンション特徴は、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、社会的特徴は、ユーザの社会的関係情報の特徴を含む。
【0135】
本出願の実施形態では、肯定サンプル特徴は、否定サンプル特徴と同じ量の特徴を含む。
【0136】
本出願の実施形態では、類似性分類モデルは、二項分類モデルである。
【0137】
本出願の実施形態は、モデル訓練装置を提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0138】
実施形態4
本出願の実施形態によって提供されるモデル訓練装置は、上記で説明されている。同じ概念に基づいて、本出願の実施形態は、
図7に示されるように、データ類似性決定装置をさらに提供する。
【0139】
データ類似性決定装置は、検出予定データ取得モジュール701、特徴抽出モジュール702及び類似性決定モジュール703を含み、
検出予定データ取得モジュール701は、検出予定のユーザデータ対を取得するように構成され、
特徴抽出モジュール702は、検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行するように構成され、
類似性決定モジュール703は、検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定するように構成される。
【0140】
本出願の実施形態では、装置は、
検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が予め定められた類似性分類閾値より大きい場合は、検出予定のユーザデータ対に対応する検出予定のユーザを双子として決定するように構成された類似性分類モジュール
をさらに含む。
【0141】
本出願の実施形態は、データ類似性決定装置を提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0142】
実施形態5
同じ概念に基づいて、本出願の実施形態は、
図8に示されるように、モデル訓練デバイスをさらに提供する。
【0143】
モデル訓練デバイスは、前述の実施形態で提供されるサーバ又は同様のものであり得る。
【0144】
モデル訓練デバイスは、異なる構成又は性能に応じて大いに異なり得、1つ又は複数のプロセッサ801及びメモリ802を含み得る。メモリ802は、1つ又は複数のストレージアプリケーション又はデータを格納することができる。メモリ802は、一時的な又は永久記憶装置であり得る。メモリ802に格納されたアプリケーションは、1つ又は複数のモジュール(図示せず)を含み得、各モジュールは、モデル訓練デバイスの一連のコンピュータ実行可能命令を含み得る。さらに、プロセッサ801は、メモリ802と通信し、モデル訓練デバイス上で、メモリ802の一連のコンピュータ実行可能命令を実行するように構成することができる。モデル訓練デバイスは、1つ又は複数の電源803、1つ又は複数の有線又は無線ネットワークインタフェース804、1つ又は複数の入力/出力インタフェース805及び1つ又は複数のキーボード806をさらに含み得る。
【0145】
具体的には、この実施形態では、モデル訓練デバイスは、メモリ及び1つ又は複数のプログラムを含む。1つ又は複数のプログラムは、メモリに格納される。1つ又は複数のプログラムは、1つ又は複数のモジュールを含み得、各モジュールは、モデル訓練デバイスの一連のコンピュータ実行可能命令を含み得る。1つ又は複数のプロセッサは、コンピュータ実行可能命令、すなわち、
複数のユーザデータ対を取得することであって、各ユーザデータ対の2つのユーザデータセットのデータフィールドが、同一の部分を有する、取得することと、
各ユーザデータ対に対応するユーザ類似性を取得することであって、ユーザ類似性が、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の類似性である、取得することと、
各ユーザデータ対に対応するユーザ類似性及び複数のユーザデータ対に従って、プリセット分類モデルを訓練するためのサンプルデータを決定することと、
類似性分類モデルを得るためにサンプルデータに基づいて分類モデルを訓練することと
を実行するために、1つ又は複数のプログラムを実行するように構成される。
【0146】
任意選択により、実行可能命令は、実行されると、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することであって、第1のユーザデータ対が、複数のユーザデータ対の任意のユーザデータ対である、取得することと、
第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することと
をプロセッサにさらに行わせることができる。
【0147】
任意選択により、実行可能命令は、実行されると、以下の方法で、すなわち、
生物学的特徴は、顔画像特徴を含み、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することは、
第1のユーザデータ対に対応するユーザの顔画像を取得することと、
顔画像特徴を得るために顔画像の特徴抽出を実行することと
を含み、それに応じて、第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することは、
第1のユーザデータ対に対応するユーザの顔画像特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定すること
を含むように、プロセッサにさらに動作させることができる。
【0148】
任意選択により、実行可能命令は、実行されると、以下の方法で、すなわち、
生物学的特徴は、音声特徴を含み、
第1のユーザデータ対に対応するユーザの生物学的特徴を取得することは、
第1のユーザデータ対に対応するユーザの音声データを取得することと、
音声特徴を得るために音声データの特徴抽出を実行することと
を含み、それに応じて、第1のユーザデータ対に対応するユーザの生物学的特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定することは、
第1のユーザデータ対に対応するユーザの音声特徴に従って、第1のユーザデータ対に対応するユーザ類似性を決定すること
を含むように、プロセッサにさらに動作させることができる。
【0149】
任意選択により、実行可能命令は、実行されると、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴を得るために、複数のユーザデータ対の各ユーザデータ対の特徴抽出を実行することと、
各ユーザデータ対の2つのユーザデータセット間の関連付けられたユーザ特徴及び各ユーザデータ対に対応するユーザ類似性に従って、分類モデルを訓練するためのサンプルデータを決定することと
をプロセッサにさらに行わせることができる。
【0150】
任意選択により、実行可能命令は、実行されると、
各ユーザデータ対に対応するユーザ類似性及び予め定められた類似性閾値に従って、複数のユーザデータ対に対応するユーザ特徴から肯定サンプル特徴及び否定サンプル特徴を選択することと、
分類モデルを訓練するためのサンプルデータとして肯定サンプル特徴及び否定サンプル特徴を使用することと
をプロセッサにさらに行わせることができる。
【0151】
任意選択により、ユーザ特徴は、世帯登録ディメンション特徴、名前ディメンション特徴、社会的特徴及び興味特徴を含み、世帯登録ディメンション特徴は、ユーザアイデンティティ情報の特徴を含み、名前ディメンション特徴は、ユーザ名情報の特徴及びユーザ姓の希少度の特徴を含み、社会的特徴は、ユーザの社会的関係情報の特徴を含む。
【0152】
任意選択により、肯定サンプル特徴は、否定サンプル特徴と同じ量の特徴を含む。
【0153】
任意選択により、類似性分類モデルは、二項分類モデルである。
【0154】
本出願の実施形態は、モデル訓練デバイスを提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0155】
実施形態6
同じ概念に基づいて、本出願の実施形態は、
図9に示されるように、データ類似性決定デバイスをさらに提供する。
【0156】
データ類似性決定デバイスは、前述の実施形態で提供されるサーバ、端末デバイス又は同様のものであり得る。
【0157】
データ類似性決定デバイスは、異なる構成又は性能に応じて大いに異なり得、1つ又は複数のプロセッサ901及びメモリ902を含み得る。メモリ902は、1つ又は複数のストレージアプリケーション又はデータを格納することができる。メモリ902は、一時的な又は永久記憶装置であり得る。メモリ902に格納されたアプリケーションは、1つ又は複数のモジュール(図示せず)を含み得、各モジュールは、データ類似性決定デバイスの一連のコンピュータ実行可能命令を含み得る。さらに、プロセッサ901は、メモリ902と通信し、データ類似性決定デバイス上で、メモリ902の一連のコンピュータ実行可能命令を実行するように構成することができる。データ類似性決定デバイスは、1つ又は複数の電源903、1つ又は複数の有線又は無線ネットワークインタフェース904、1つ又は複数の入力/出力インタフェース905及び1つ又は複数のキーボード906をさらに含み得る。
【0158】
具体的には、この実施形態では、データ類似性決定デバイスは、メモリ及び1つ又は複数のプログラムを含む。1つ又は複数のプログラムは、メモリに格納される。1つ又は複数のプログラムは、1つ又は複数のモジュールを含み得、各モジュールは、データ類似性決定デバイスの一連のコンピュータ実行可能命令を含み得る。1つ又は複数のプロセッサは、以下のコンピュータ実行可能命令、すなわち、
検出予定のユーザデータ対を取得することと、
検出予定のユーザ特徴を得るために、検出予定のユーザデータ対の各検出予定のユーザデータセットの特徴抽出を実行することと、
検出予定のユーザ特徴及び事前に訓練された類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することと
を実行するために、1つ又は複数のプログラムを実行するように構成される。
【0159】
任意選択により、実行可能命令は、実行されると、
検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性が予め定められた類似性分類閾値より大きい場合は、検出予定のユーザデータ対に対応する検出予定のユーザを双子として決定すること
をプロセッサにさらに行わせることができる。
【0160】
本出願の実施形態は、データ類似性決定デバイスを提供し、複数のユーザデータ対が取得され、各ユーザデータ対の2つのユーザデータセットのデータフィールドは、同一の部分を有し、各ユーザデータ対に対応するユーザ類似性が取得され、プリセット分類モデルを訓練するためのサンプルデータが決定され、次いで、類似性分類モデルを得るためにサンプルデータに基づいて分類モデルが訓練され、その結果、類似性分類モデルに従って、検出予定のユーザデータ対の2つの検出予定のユーザデータセットに対応するユーザ間の類似性を決定することができる。このように、複数のユーザデータ対は、同じデータフィールドを通じてのみ得られ、各ユーザデータ対の2つのユーザデータセットに対応するユーザ間の関連性は、ユーザ類似性に従って決定されて、プリセット分類モデルを訓練するためのサンプルデータが得られ、すなわち、サンプルデータは、マニュアルラベリングなしで得ることができ、その結果、モデルの迅速な訓練を実装することができ、モデル訓練効率を高めることができ、資源消費を低減することができる。
【0161】
上記では、本明細書の具体的な実施形態について説明してきた。他の実施形態は、添付の請求項の範囲内である。いくつかの事例では、請求項に記載される動作又はステップは、実施形態で説明されるものとは異なる順番で実行することができ、それでもなお、所望の結果を達成することができる。それに加えて、図で描写されるプロセスは、必ずしも示される特定の順番又は連続した順番に従って所望の結果を達成する必要があるわけではない。いくつかの実施形態では、マルチタスク処理や並列処理も可能であるか又は有利であり得る。
【0162】
1990年代には、技術の改善は、ハードウェア上の改善(例えば、ダイオード、トランジスタ、スイッチなどの回路構造上の改善)又はソフトウェア上の改善(方法手順上の改善)として明らかに区別することができた。しかし、技術の開発と共に、現在の多くの方法手順上の改善は、ハードウェア回路構造上の直接的な改善と考えることができる。ほぼすべての設計者は、対応するハードウェア回路構造を得るために、改善された方法手順をハードウェア回路にプログラムする。従って、有形のハードウェアモジュールを使用することによって方法手順上の改善を実装することはできないと想定することは不適切である。例えば、プログラマブルロジックデバイス(PLD)(例えば、フィールドプログラマブルゲートアレイ(FPGA))は、そのような集積回路であり、その論理機能は、ユーザによってプログラムされたデバイスによって決定される。設計者は、彼ら自身によって、チップ製造業者に専用集積回路チップを設計及び製造するように依頼することなく、デジタルシステムをPLDに「組み込む」ようにプログラムする。その上、現在は、プログラミングは、大抵は、集積回路チップを手作業で製造する代わりに、論理コンパイラソフトウェアを使用することによって実装される。論理コンパイラソフトウェアは、プログラムの開発及び記入を行うために使用されるソフトウェアコンパイラと同様であり、コンパイルの前のオリジナルのコードもまた、特定のプログラミング言語(ハードウェア記述言語(HDL)と呼ばれる)を使用して記入する必要がある。アドバンストブール演算式言語(ABEL)、Alteraハードウェア記述言語(AHDL)、Confluence、Cornell Universityプログラミング言語(CUPL)、HDCal、Java(登録商標)ハードウェア記述言語(JHDL)、Lava、Lola、MyHDL、PALASM、及びRubyハードウェア記述言語(RHDL)など、多くのタイプのHDLがあり、その中でも、今は、超高速集積回路ハードウェア記述言語(VHDL)及びVerilogが最も一般的に使用される。また、当業者は、論理方法手順を実装するためのハードウェア回路が、上記のいくつかのハードウェア記述言語を使用して方法手順をやや論理的にプログラムし、それを集積回路にプログラムすることによって、容易に得られることも知るべきである。
【0163】
コントローラは、任意の適切な方法で実装することができる。例えば、コントローラは、マイクロプロセッサ又はプロセッサや、プロセッサ(マイクロプロセッサ)によって実行可能なコンピュータ可読プログラムコード(例えば、ソフトウェア若しくはファームウェア)を格納するコンピュータ可読媒体や、論理ゲート、スイッチ、特定用途向け集積回路(ASIC)、プログラマブルロジックコントローラ及び埋め込みマイクロコントローラの形態であり得る。コントローラの例は、これらに限定されないが、次のマイクロコントローラ、すなわち、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20及びSilicone Labs C8051F320を含む。また、メモリコントローラは、メモリの制御論理の一部として実装することもできる。また、当業者は、純粋なコンピュータ可読プログラムコードを使用することによってコントローラを実装できることに加えて、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブルロジックコントローラ及び埋め込みマイクロコントローラの形態での同じ機能の実装をコントローラが行えるように、方法ステップを論理的にプログラムできることも知っている。従って、このタイプのコントローラは、ハードウェアコンポーネントと考えることができ、コントローラに含まれる様々な機能を実装するための装置もまた、ハードウェアコンポーネントの内部の構造と考えることができる。或いは、様々な機能を実装するために使用される装置は、方法を実装するためのソフトウェアモジュールとハードウェアコンポーネントの内部の構造の両方と考えることさえもできる。
【0164】
上記の実施形態において示されるシステム、装置、モジュール又はユニットは、具体的には、コンピュータチップ又は有形物を使用することによって実装することも、特定の機能を有する製品を使用することによって実装することもできる。典型的な実装デバイスはコンピュータである。具体的には、コンピュータは、例えば、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、携帯情報端末、メディアプレーヤ、ナビゲーションデバイス、Eメールデバイス、ゲームコンソール、タブレットコンピュータ、着用可能デバイス又はこれらのデバイスの任意の組合せであり得る。
【0165】
説明し易くするため、上記の装置について説明する際、装置は、それぞれの説明のために機能の観点から様々なユニットに分割される。間違いなく、本出願が実装される際は、ユニットの機能は、ソフトウェア及び/又はハードウェアの同じ又は複数の断片において実装することができる。
【0166】
当業者によって理解されるように、本出願の実施形態は、方法、システム又はコンピュータプログラム製品として具体化することができる。それに従って、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又は、ソフトウェア態様とハードウェア態様を組み合わせた実施形態の形態を使用することができる。その上、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む1つ又は複数のコンピュータ使用可能記憶媒体(これらに限定されないが、磁気ディスクメモリ、CD−ROM、光メモリなどを含む)上で実装されたコンピュータプログラム製品の形態を使用することができる。
【0167】
本出願は、本出願の実施形態における、方法、デバイス(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。コンピュータプログラム命令は、フローチャート及び/又はブロック図の各プロセス及び/又はブロック並びにフローチャート及び/又はブロック図のプロセス及び/又はブロックの組合せを実装できることを理解すべきである。これらのコンピュータプログラム命令は、機械を生成するために、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ又は別のプログラマブルデータ処理デバイスのプロセッサに提供することができ、その結果、フローチャートの1つ若しくは複数のプロセス及び/又はブロック図の1つ若しくは複数のブロックにおいて指定された機能を実装するように構成された装置は、コンピュータ又は別のプログラマブルデータ処理デバイスのプロセッサによって実行される命令を使用することによって生成される。
【0168】
また、これらのコンピュータプログラム命令は、指定の方法で動作するようにコンピュータ又は別のプログラマブルデータ処理デバイスを導くことができるコンピュータ可読メモリに格納することもでき、その結果、コンピュータ可読メモリに格納された命令は、命令装置を含む製品を生成し、命令装置は、フローチャートの1つ若しくは複数のプロセス及び/又はブロック図の1つ若しくは複数のブロックにおいて指定された機能を実装する。
【0169】
また、これらのコンピュータプログラム命令は、コンピュータ又は別のプログラマブルデータ処理デバイスにロードすることもでき、その結果、一連の動作ステップは、コンピュータによって実装される処理を生成するためにコンピュータ又は別のプログラマブルデータ処理デバイス上で実行され、コンピュータ又は別のプログラマブルデータ処理デバイス上で実行された命令は、フローチャートの1つ若しくは複数のプロセス及び/又はブロック図の1つ若しくは複数のブロックにおいて指定された機能を実装するためのステップを提供する。
【0170】
典型的な構成では、コンピューティングデバイスは、1つ又は複数の中央処理装置(CPU)、入力/出力インタフェース、ネットワークインタフェース及びメモリを含む。
【0171】
メモリは、次の形態のコンピュータ可読媒体、すなわち、揮発性メモリ、ランダムアクセスメモリ(RAM)及び/又は不揮発性メモリ(例えば、読み取り専用メモリ(ROM)若しくはフラッシュRAM)を含み得る。メモリは、コンピュータ可読媒体の例である。
【0172】
コンピュータ可読媒体は、揮発性及び不揮発性媒体、並びに、可動及び非可動媒体を含み、情報を格納するためにいかなる方法又は技術も使用することができる。情報は、コンピュータ可読命令、データ構造、プログラムのモジュール又は他のデータであり得る。コンピュータの記憶媒体の例は、これらに限定されないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのRAM、ROM、電気的消去型プログラム可能読み取り専用メモリ(EEPROM)、フラッシュメモリ若しくは他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)若しくは他の光学記憶装置、カセットテープ、テープディスク記憶装置若しくは他の磁気記憶装置、又は、他の任意の非伝送媒体を含み、コンピュータアクセス可能情報を格納するために使用することができる。本明細書の定義によれば、コンピュータ可読媒体は、例えば、変調データ信号及び搬送波などの一時的なコンピュータ可読媒体(一時的な媒体)を含まない。
【0173】
「含む(include、comprise)」という用語又は他のその変形例は、非排他的包含をカバーすることが意図され、その結果、一連の要素を含むプロセス、方法、製品又はデバイスは、その要素を含むだけではなく、明示的にリストされていない他の要素も含むか、或いは、プロセス、方法、製品又はデバイスの固有の要素をさらに含むことにさらに留意すべきである。さらなる制限なしでは、「(a/an)…を含む」によって定義される要素は、その要素を含むプロセス、方法、製品又はデバイスが他の同一の要素をさらに有することを除外しない。
【0174】
当業者によって理解されるように、本出願の実施形態は、方法、システム又はコンピュータプログラム製品として具体化することができる。それに従って、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、又は、ソフトウェア態様とハードウェア態様を組み合わせた実施形態の形態を使用することができる。その上、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む1つ又は複数のコンピュータ使用可能記憶媒体(これらに限定されないが、磁気ディスクメモリ、CD−ROM、光メモリなどを含む)上で実装されたコンピュータプログラム製品の形態を使用することができる。
【0175】
本出願は、コンピュータによって実行されるコンピュータ実行可能命令(例えば、プログラムモジュール)の一般的な文脈において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装するために使用されるルーチン、プログラム、オブジェクト、アセンブリ、データ構造及び同様のものを含む。また、本出願は、分散型コンピューティング環境において実装することもでき、分散型コンピューティング環境では、タスクは、通信ネットワークを通じて接続されたリモート処理デバイスを使用することによって実行される。分散型コンピューティング環境では、プログラムモジュールは、記憶装置を含むローカル及びリモートコンピュータ記憶媒体に位置し得る。
【0176】
本明細書の実施形態は、段階的に説明されており、実施形態の同一の又は同様の部分は、互いに参照し合うことができ、各実施形態は、他の実施形態とは異なる態様を重視する。特に、システムの実施形態は、基本的には、方法の実施形態と同様であり、従って、簡単に説明している。関連部分に関しては、方法の実施形態の部分の説明を参照することができる。
【0177】
上記の説明は、本出願の単なる実施形態であり、本出願を制限することを意図しない。当業者は、本出願への様々な変更及び変形を行うことができる。本出願の精神及び原理内で行われたいかなる変更、同様の置換及び改善も、本出願の請求項の範囲内に収まるものとする。