IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特表2024-508403データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム
<>
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図1
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図2
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図3
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図4
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図5
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図6
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図7
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図8
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図9
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図10
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図11
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図12
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図13
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図14
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図15
  • 特表-データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-27
(54)【発明の名称】データ暗号化方法、装置、コンピュータ機器及びコンピュータプログラム
(51)【国際特許分類】
   G06F 21/60 20130101AFI20240219BHJP
   G06F 21/32 20130101ALI20240219BHJP
【FI】
G06F21/60 320
G06F21/32
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023548554
(86)(22)【出願日】2022-04-08
(85)【翻訳文提出日】2023-09-12
(86)【国際出願番号】 CN2022085884
(87)【国際公開番号】W WO2022242365
(87)【国際公開日】2022-11-24
(31)【優先権主張番号】202110536368.X
(32)【優先日】2021-05-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヤン,ウェイミン
(72)【発明者】
【氏名】ワン,シャオミン
(72)【発明者】
【氏名】グオ,ランジェン
(72)【発明者】
【氏名】タン,フイジョン
(57)【要約】
本出願の実施例は、データ暗号化方法、装置、コンピュータ機器及び記憶媒体を開示し、コンピュータ技術分野に属する。当該方法は、コンピュータ機器により実行され、当該方法は、ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップ(201)であって、前記オブジェクト情報が、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含むステップと、前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップ(202)と、前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップ(203)と、を含む。当該方法による暗号化方式において、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つが含まれ、暗号化データの安全性を向上させる。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行するデータ暗号化方法であって、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含むステップと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップと、
を含む方法。
【請求項2】
前記オブジェクト情報は、前記顔画像と前記オーディオ信号を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記顔画像の画像特徴と前記オーディオ信号のオーディオ特徴をそれぞれ取得するステップと、
前記画像特徴と前記オーディオ特徴をスティッチングし、スティッチングして得られた特徴を前記オブジェクト特徴として決定するステップと、
をさらに含む請求項1に記載の方法。
【請求項3】
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得する前記ステップは、
前記ターゲットデータに対応する暗号化フォーマットと前記セキュリティファクタに基づいて、前記ターゲットデータを暗号化し、前記暗号化データを取得するステップであって、前記暗号化フォーマットが、前記暗号化データにおける前記セキュリティファクタと前記ターゲットデータとの相対的な位置関係を示すステップ、
を含む請求項1に記載の方法。
【請求項4】
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップは、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定するステップであって、前記生体カテゴリは、前記オブジェクト情報が生体オブジェクトの情報であることを示すステップ、
を含む請求項1に記載の方法。
【請求項5】
前記オブジェクト情報は、前記顔画像を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
前記顔画像の画像特徴を取得し、前記画像特徴を複数の第1の領域特徴に分割するステップであって、前記顔画像が、複数の第1の顔領域を含み、各第1の領域特徴が、前記顔画像における1つの第1の顔領域に対応するステップと、
前記各第1の領域特徴に基づいて、前記各第1の領域特徴に対応する第1の顔領域が属するカテゴリを決定するステップと、
前記複数の第1の顔領域における、属するカテゴリが前記生体カテゴリである第1の顔領域の第1の割合を決定するステップと、
前記第1の割合が第1の参照割合より大きいことに応じて、前記顔画像が前記生体カテゴリに属すると決定するステップと、
をさらに含む請求項4に記載の方法。
【請求項6】
前記オブジェクト情報は、前記オーディオ信号を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
前記オーディオ信号のオーディオ特徴を取得し、前記オーディオ特徴を複数の第1のセグメント特徴に分割するステップであって、前記オーディオ信号が、複数の第1のオーディオセグメントを含み、各第1のセグメント特徴は、前記オーディオ信号における1つの第1のオーディオセグメントに対応するステップと、
前記各第1のセグメント特徴に基づいて、前記各第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定するステップと、
前記複数の第1のオーディオセグメントにおける、属するカテゴリが前記生体カテゴリである第1のオーディオセグメントの第2の割合を決定するステップと、
前記第2の割合が第2の参照割合より大きいことに応じて、前記オーディオセグメントが前記生体カテゴリに属すると決定するステップと、
をさらに含む請求項4に記載の方法。
【請求項7】
前記各第1のセグメント特徴に基づいて、前記各第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定する前記ステップは、
前記第1のセグメント特徴毎に、前記第1のセグメント特徴と前記オーディオ特徴に基づいて、前記第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定するステップ、
を含む請求項6に記載の方法。
【請求項8】
前記オブジェクト情報は、前記顔画像を含み、前記オブジェクト特徴は、前記顔画像の画像特徴を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記顔画像を複数の第2の顔領域に分割するステップと、
前記複数の第2の顔領域のそれぞれに対して特徴抽出を行い、各第2の顔領域の第2の領域特徴を取得するステップと、
取得した複数の第2の領域特徴をスティッチングし、前記画像特徴を得るステップと、
をさらに含む請求項1に記載の方法。
【請求項9】
前記複数の第2の顔領域のそれぞれに対して特徴抽出を行い、各第2の顔領域の第2の領域特徴を得る前記ステップは、
前記第2の顔領域毎に、前記第2の顔領域に対してエッジ検出を行い、前記第2の顔領域に対応する画像勾配を取得し、前記画像勾配を前記第2の顔領域の第2の領域特徴として決定するステップであって、前記画像勾配は、前記第2の顔領域における任意の2つの隣接するピクセルの変化率を示すステップ、
を含む請求項8に記載の方法。
【請求項10】
前記オブジェクト情報は、前記オーディオ信号を含み、前記オブジェクト特徴は、前記オーディオ信号のオーディオ特徴を含み、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップの前に、
前記オーディオ信号を複数の第2のオーディオセグメントに分割するステップと、
前記複数の第2のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第2のオーディオセグメントの第2のセグメント特徴を取得するステップと、
取得した複数の第2のセグメント特徴をスティッチングし、前記オーディオ特徴を得るステップと、
をさらに含む請求項1に記載の方法。
【請求項11】
前記オブジェクト情報は、前記顔画像を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
第1の分類モデルに基づいて、前記顔画像の画像特徴を分類し、前記顔画像が属するカテゴリを得るステップ、
をさらに含む請求項4に記載の方法。
【請求項12】
前記オブジェクト情報は、前記オーディオ信号を含み、
前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定する前記ステップの前に、
第2の分類モデルに基づいて、前記オーディオ信号のオーディオ特徴を分類し、前記オーディオ信号の属するカテゴリを得るステップ、
をさらに含む請求項4に記載の方法。
【請求項13】
データ暗号化装置であって、
請求項1から12のいずれか1項に記載のデータ暗号化方法を実行するように構成されたプロセッサ、
を含むデータ暗号化装置。
【請求項14】
プロセッサとメモリを含むコンピュータ機器であって、前記メモリに少なくとも1つのコンピュータプログラムが記憶され、前記少なくとも1つのコンピュータプログラムが前記プロセッサによってロードされて実行されることで、請求項1から12のいずれか1項に記載のデータ暗号化方法において実行される動作を実現するコンピュータ機器。
【請求項15】
コンピュータプログラムコードを含むコンピュータプログラムであって、前記コンピュータプログラムコードは、コンピュータ機器のプロセッサに請求項1から12のいずれか1項に記載のデータ暗号化方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年05月17日にて中国専利局に提出した、出願番号が202110536368.Xであって、発明の名称が「データ暗号化方法、装置、コンピュータ機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容が援用により本出願に組み込まれる。
【0002】
本出願の実施例は、コンピュータ技術分野に関し、特に、データ暗号化方法、装置、コンピュータ機器及び記憶媒体に関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、電子支払いは既に一般的な支払い方式となり、支払い手段もますます多様化している。通常、支払いを行う場合、コンピュータ機器は、検証対象のデータを収集し、収集したデータをバックグラウンドのサーバに送信して検証してから支払いを行うことができ、この過程ではデータの安全性を保証するために、データを暗号化する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、データ暗号化方法、装置、コンピュータ機器及び記憶媒体を提供し、暗号化データの安全性を向上させる。前記技術案は、以下の通りである。
【課題を解決するための手段】
【0005】
一態様では、データ暗号化方法を提供し、前記方法は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するステップであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含むステップと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するステップと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するステップと、を含む。
【0006】
任意選択で、前記複数の第2のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第2のオーディオセグメントの第2のセグメント特徴を取得するステップは、
前記第2のオーディオセグメント毎に、前記第2のオーディオセグメントをフーリエ変換し、変換された第2のオーディオセグメントを取得するステップと、
前記変換された第2のオーディオセグメントを前記第2のオーディオセグメントに対応するスペクトル特徴に変換し、前記スペクトル特徴を前記第2のオーディオセグメントの第2のセグメント特徴として決定するステップと、を含む。
【0007】
任意選択で、前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定する前記ステップは、
前記参照公開鍵に従って前記オブジェクト特徴及び参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴を前記ターゲットデータのセキュリティファクタとして決定するステップであって、前記参照特徴は、少なくともタイムスタンプ又はカウンタを含むステップを含む。
【0008】
任意選択で、前記第1の分類モデルのトレーニングプロセスは、
サンプル画像特徴及び前記サンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するステップであって、前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは、前記サンプル顔画像が生体オブジェクトの画像であることを示し、前記非生体カテゴリは、前記サンプル顔画像が非生体オブジェクトの画像であることを示すステップと、
前記第1の分類モデルに基づいて、前記サンプル画像特徴に従って、前記サンプル顔画像が属する予測カテゴリを決定するステップと、
前記サンプルカテゴリと前記予測カテゴリに従って、前記第1の分類モデルをトレーニングするステップと、を含む。
【0009】
任意選択で、前記第2の分類モデルのトレーニングプロセスは、
サンプルオーディオ特徴と前記サンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するステップであって、前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは、前記サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、前記非生体カテゴリは、前記サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示すステップと、
前記第2の分類モデルに基づいて、前記サンプルオーディオ特徴に従って、前記サンプルオーディオ信号が属する予測カテゴリを決定するステップと、
前記サンプルカテゴリと前記予測カテゴリに従って、前記第2の分類モデルをトレーニングするステップと、を含む。
【0010】
別の態様では、データ暗号化装置を提供し、前記装置は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及び前記ターゲットオブジェクトに対応するオブジェクト情報を収集するための情報収集モジュールであって、前記オブジェクト情報は、前記ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含む情報収集モジュールと、
前記オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴を前記ターゲットデータのセキュリティファクタとして決定するためのセキュリティファクタ取得モジュールと、
前記セキュリティファクタに基づいて前記ターゲットデータを暗号化し、前記ターゲットデータに対応する暗号化データを取得するためのデータ暗号化モジュールと、を含む。
【0011】
任意選択で、前記オブジェクト情報は、前記顔画像と前記オーディオ信号を含み、前記装置は、
前記顔画像の画像特徴と前記オーディオ信号のオーディオ特徴をそれぞれ取得するためのオブジェクト特徴取得モジュールをさらに含み、
前記オブジェクト特徴取得モジュールは、さらに、前記画像特徴と前記オーディオ特徴をスティッチングし、スティッチングして得られた特徴を前記オブジェクト特徴として決定する。
【0012】
任意選択で、前記データ暗号化モジュールは、前記ターゲットデータに対応する暗号化フォーマットと前記セキュリティファクタに基づいて、前記ターゲットデータを暗号化して、前記暗号化データを取得し、前記暗号化フォーマットは、前記暗号化データにおける前記セキュリティファクタと前記ターゲットデータとの相対的な位置関係を示す。
【0013】
任意選択で、前記セキュリティファクタ取得モジュールは、前記オブジェクト情報が生体カテゴリに属する場合、前記参照公開鍵に従って前記オブジェクト特徴を暗号化し、暗号化された前記オブジェクト特徴を前記セキュリティファクタとして決定し、前記生体カテゴリは、前記オブジェクト情報が生体オブジェクトの情報であることを示す。
【0014】
任意選択で、前記オブジェクト情報は前記顔画像を含み、前記装置は、
前記顔画像の画像特徴を取得し、前記画像特徴を複数の第1の領域特徴に分割するための第1のカテゴリ決定モジュールであって、前記顔画像は、複数の第1の顔領域を含み、各第1の領域特徴は、前記顔画像における1つの第1の顔領域に対応する第1のカテゴリ決定モジュールをさらに含み、
前記第1のカテゴリ決定モジュールはさらに、前記各第1の領域特徴に基づいて、前記各第1の領域特徴に対応する第1の顔領域が属するカテゴリを決定し、
前記第1のカテゴリ決定モジュールはさらに、前記複数の第1の顔領域における、属するカテゴリが前記生体カテゴリである第1の顔領域の第1の割合を決定し、
前記第1のカテゴリ決定モジュールはさらに、前記第1の割合が第1の参照割合より大きいことに応じて、前記顔画像が前記生体カテゴリに属すると決定する。
【0015】
任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記装置は、
前記オーディオ信号のオーディオ特徴を取得し、前記オーディオ特徴を複数の第1のセグメント特徴に分割するための第2のカテゴリ決定モジュールであって、前記オーディオ信号は複数の第1のオーディオセグメントを含み、各第1のセグメント特徴は前記オーディオ信号における1つの第1のオーディオセグメントに対応する第2のカテゴリ決定モジュールをさらに含み、
前記第2のカテゴリ決定モジュールはさらに、前記各第1のセグメント特徴に基づいて、前記各第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定し、
前記第2のカテゴリ決定モジュールはさらに、前記複数の第1のオーディオセグメントにおける、属するカテゴリが前記生体カテゴリである第1のオーディオセグメントの第2の割合を決定し、
前記第2のカテゴリ決定モジュールはさらに、前記第2の割合が第2の参照割合より大きいことに応じて、前記オーディオセグメントが前記生体カテゴリに属すると決定する。
【0016】
任意選択で、前記第2のカテゴリ決定モジュールはさらに、前記第1のセグメント特徴毎に、前記第1のセグメント特徴と前記オーディオ特徴に基づいて、前記第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定する。
【0017】
任意選択で、前記オブジェクト情報は前記顔画像を含み、前記オブジェクト特徴は前記顔画像の画像特徴を含み、前記装置は、
前記顔画像を複数の第2の顔領域に分割するための画像特徴取得モジュールをさらに含み、
前記画像特徴取得モジュールはさらに、前記複数の第2の顔領域のそれぞれに対して特徴抽出を行い、各第2の顔領域の第2の領域特徴を取得し、
前記画像特徴取得モジュールはさらに、特徴取得モジュールに使用され、取得した複数の第2の領域特徴をスティッチングして、前記画像特徴を得るために使用される。
【0018】
任意選択で、前記画像特徴取得モジュールはさらに、前記第2の顔領域毎に、前記第2の顔領域に対してエッジ検出を行い、前記第2の顔領域に対応する画像勾配を取得し、前記画像勾配を前記第2の顔領域の第2の領域特徴として決定し、前記画像勾配は、前記第2の顔領域における任意の2つの隣接するピクセルの変化率を示す。
【0019】
任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記オブジェクト特徴は、前記オーディオ信号のオーディオ特徴を含み、前記装置は、
前記オーディオ信号を複数の第2のオーディオセグメントに分割するためのオーディオ特徴取得モジュールをさらに含み、
前記オーディオ特徴取得モジュールはさらに、前記複数の第2のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第2のオーディオセグメントの第2のセグメント特徴を取得し、
前記オーディオ特徴取得モジュールはさらに、取得した複数の第2のセグメント特徴をスティッチングして、前記オーディオ特徴を得る。
【0020】
任意選択で、前記オーディオ特徴取得モジュールはさらに、
前記第2のオーディオセグメント毎に、前記第2のオーディオセグメントをフーリエ変換し、変換された第2のオーディオセグメントを取得し、
前記変換された第2のオーディオセグメントを前記第2のオーディオセグメントに対応するスペクトル特徴に変換し、前記スペクトル特徴を前記第2のオーディオセグメントの第2のセグメント特徴として決定する。
【0021】
任意選択で、前記セキュリティファクタ取得モジュールはさらに、前記参照公開鍵に従って前記オブジェクト特徴及び参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴を前記ターゲットデータのセキュリティファクタとして決定し、前記参照特徴は、少なくともタイムスタンプ又はカウンタを含む。
【0022】
任意選択で、前記オブジェクト情報は前記顔画像を含み、前記装置は、
第1の分類モデルに基づいて、前記顔画像の画像特徴を分類し、前記顔画像が属するカテゴリを得るための第1のカテゴリ決定モジュールをさらに含む。
【0023】
任意選択で、前記装置は、
サンプル画像特徴と前記サンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するための第1のトレーニングモジュールをさらに含み、
前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは前記サンプル顔画像が生体オブジェクトの画像であることを示し、前記非生体カテゴリは前記サンプル顔画像が非生体オブジェクトの画像であることを示し、
前記第1のトレーニングモジュールはさらに、前記第1の分類モデルに基づいて、前記サンプル画像特徴に従って、前記サンプル顔画像が属する予測カテゴリを決定し、
前記第1のトレーニングモジュールはさらに、前記サンプルカテゴリと前記予測カテゴリに従って、前記第1の分類モデルをトレーニングする。
【0024】
任意選択で、前記オブジェクト情報は、前記オーディオ信号を含み、前記装置は、
第2の分類モデルに基づいて、前記オーディオ信号のオーディオ特徴を分類し、前記オーディオ信号が属するカテゴリを得るための第2のカテゴリ決定モジュールをさらに含む。
【0025】
任意選択で、前記装置は、
サンプルオーディオ特徴と前記サンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するための第2のトレーニングモジュールをさらに含み、
前記サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、前記生体カテゴリは前記サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、前記非生体カテゴリは、前記サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示し、
前記第2のトレーニングモジュールはさらに、前記第2の分類モデルに基づいて、前記サンプルオーディオ特徴に従って、前記サンプルオーディオ信号が属する予測カテゴリを決定し、
前記第2のトレーニングモジュールはさらに、前記サンプルカテゴリと前記予測カテゴリに従って、前記第2の分類モデルをトレーニングする。
【0026】
別の態様では、プロセッサとメモリを含むコンピュータ機器を提供し、前記メモリには少なくとも1つのコンピュータプログラムが記憶されており、前記少なくとも1つのコンピュータプログラムが前記プロセッサによってロードされて実行される場合、上記の態様に記載のデータ暗号化方法において実行される動作を実現する。
【0027】
別の態様では、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には少なくとも1つのコンピュータプログラムが記憶され、前記少なくとも1つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の態様に記載のデータ暗号化方法において実行される動作を実現する。
【0028】
別の態様では、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又は前記コンピュータプログラムは、コンピュータプログラムコードを含み、前記コンピュータプログラムコードはコンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ機器のプロセッサはコンピュータ読み取り可能な記憶媒体から前記コンピュータプログラムコードを読み取り、プロセッサは前記コンピュータプログラムコードを実行して、上記の態様に記載のデータ暗号化方法において実行される動作を前記コンピュータ機器に実現させる。
【0029】
本出願の実施例で提供される方法、装置、コンピュータ機器、及び記憶媒体は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つを暗号化することで、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとし、この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。
【図面の簡単な説明】
【0030】
本出願の実施例における技術案をより明確に説明するために、以下では、実施例の説明において使用する必要がある図面を簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。
図1】本出願の実施例による実施環境の概略図である。
図2】本出願の実施例によるデータ暗号化方法のフローチャートである。
図3】本出願の実施例による別のデータ暗号化方法のフローチャートである。
図4】本出願の実施例による画像収集インターフェースの概略図である。
図5】本出願の実施例によるオーディオ信号の概略図である。
図6】本出願の実施例によるモデルトレーニングの概略図である。
図7】本出願の実施例によるモデルに基づいてカテゴリを決定する概略図である。
図8】本出願の実施例による第1の分類モデルの構造概略図である。
図9】本出願の実施例による第1の分類ネットワークの構造概略図である。
図10】本出願の実施例による分類層の構造概略図である。
図11】本出願の実施例による第2の分類モデルの構造概略図である。
図12】本出願の実施例による別の第2の分類モデルの構造概略図である。
図13】本出願の実施例によるデータ暗号化装置の構造概略図である。
図14】本出願の実施例による別のデータ暗号化装置の構造概略図である。
図15】本出願の実施例による端末の構造概略図である。
図16】本出願の実施例によるサーバの構造概略図である。
【発明を実施するための形態】
【0031】
本出願の実施例の目的、技術案及び利点をより明確にするために、以下は図面を参照しながら本出願の実施形態をさらに詳細に説明する。
【0032】
本出願で使用される「第1の」、「第2の」などの用語は、本明細書では様々な概念を説明するために使用されてもよいが、これらの概念は、特に明記しない限り、これらの用語によって限定されない。これらの用語は、ある概念を別の概念と区別するためにのみ使用される。例えば、本出願の範囲から逸脱することなく、第1のオーディオセグメントを、第2のオーディオセグメントと呼び、第2のオーディオセグメントを、第1のオーディオセグメントと呼ぶことができる。
【0033】
本出願で使用される「少なくとも1つ」、「複数」、「各」及び「いずれか」という用語について、少なくとも1つは、1つ又は2つ以上を含み、複数は、2つ以上を含み、各は、対応する複数のそれぞれを指し、いずれかは、複数のうちのいずれか1つを示す。例えば、複数のオーディオセグメントは、3つのオーディオセグメントを含み、各オーディオセグメントは、これらの3つのオーディオセグメントのそれぞれを指し、いずれかは、これらの3つのオーディオセグメントのうちいずれか1つを指し、1番目のオーディオセグメントであってもよく、2番目のオーディオセグメントであってもよく、又は3番目のオーディオセグメントであってもよい。
【0034】
本出願の実施例で提供される技術案は、人工知能コンピュータービジョン技術、音声認識技術、機械学習などの技術に従って、顔画像又はオーディオ信号に対して特徴抽出を行い、顔画像又はオーディオ信号が生体オブジェクトを収集したものであるかどうかを決定する。
【0035】
ブロックチェーンは、分散データストレージ、ポイントツーポイント伝送、コンセンサスメカニズム、暗号化アルゴリズムなどのコンピュータ技術の新しい応用モードである。ブロックチェーン(Blockchain)は、本質的に1つの脱中心化されたデータベースであり、暗号化方式を使用して相互に関連付けられた一連のデータブロックであり、各データブロックには、一括ネットワークトランザクションの情報が含まれ、その情報の有効性(偽造防止)の検証及び次のブロックの生成に使用される。ブロックチェーンは、ブロックチェーン基盤プラットフォーム、プラットフォーム製品サービス層、及びアプリケーションサービス層を含む。
【0036】
可能な実現形態では、本出願の実施例に係るコンピュータプログラムは、1つのコンピュータ機器に配置されて実行されてもよく、又は1つの場所に位置する複数のコンピュータ機器で実行されてもよく、又は複数の場所に分散され通信ネットワークを介して相互接続された複数のコンピュータ機器で実行されてもよく、複数の場所に分散され通信ネットワークを介して相互接続された複数のコンピュータ機器は、ブロックチェーンシステムを構成することができる。
【0037】
可能な実現形態では、本出願の実施例における端末及びサーバは、ブロックチェーンにおけるノードであり、端末に対応するノードは、顔画像又はオーディオ信号を取得してターゲットデータを暗号化し、暗号化された暗号化データをブロックチェーンに記憶し、その後、当該ブロックチェーンにおけるサーバに対応するノードは、当該暗号化データを復号することができる。
【0038】
本出願の実施例の理解を容易にするために、最初に、本出願の実施例に係るキーワードを解釈する。
教師あり学習:教師あり学習とは、ラベルを含むトレーニングデータセットを利用して機械学習することであり、トレーニングデータセットにおける各サンプルは、入力オブジェクトと、当該入力オブジェクトが所望する出力とを含む。
マルチモーダルフュージョン:マルチモーダルフュージョンは、マルチモーダル機械学習(Multi Modal Machine Learning,MMML)であり、機械学習の方法によってマルチソースモーダル情報を処理して理解する能力を実現し、例えば、画像、ビデオ、オーディオ、セマンティクス間のマルチモーダル学習である。シングルモーダル表現学習は、コンピュータ機器で処理できる数値ベクトルとして情報を表現したり、さらにより高レベルの特徴ベクトルとして情報を抽象化したりすることができ、マルチモーダル表現学習は、マルチモーダル間の相補性を利用して、異なるモーダル間の冗長性を除去することによって、より良い特徴表現を学習することができる。マルチモーダル表現学習は、共同表現(Joint Representations)と協調表現(Coordinated Representations)という2つの主要な研究方向を含む。
顔認証データ:顔認証トランザクションを行う場合、デバイスによって収集される顔データである。
【0039】
本出願の実施例で提供されるデータ暗号化方法は、コンピュータ機器により実行され、当該コンピュータ機器は、端末又はサーバである。以下の各方法実施例は、端末によって実行される当該データ暗号化方法を例として説明し、別の実施例では、当該データ暗号化方法はサーバによって実行され、実行プロセスは以下の実施例と類似しており、ここで繰り返し説明しない。
【0040】
図1は、本出願の実施例で提供される実施環境の概略図である。図1を参照して、当該実施環境は、端末101とサーバ102を含む。端末101とサーバ102は、無線又は有線ネットワーク介して接続される。
【0041】
端末101は、サーバ102がサービスを提供するターゲットアプリケーションをインストールし、当該ターゲットアプリケーションによって、例えば、データ収集、データ伝送、メッセージインタラクション、支払いなどの機能を実現することができる。任意選択で、ターゲットアプリケーションは、端末101のオペレーティングシステムにおけるターゲットアプリケーション、又は、サードパーティに提供されるターゲットアプリケーションである。例えば、ターゲットアプリケーションは、支払いアプリケーションであり、当該支払いアプリケーションは、支払い機能を有し、勿論、当該支払いアプリケーションは、例えば、データ伝送機能、ショッピング機能、メッセージインタラクション機能などの他の機能を有することもできる。
【0042】
任意選択で、端末101は、スマートフォン、タブレットコンピューター、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、顔認証デバイスなどであるが、これに限定されない。任意選択で、サーバ102は、独立した物理サーバであり、又は複数の物理サーバから構成されるサーバクラスタ又は分散システムであり、又はクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインサービス、セキュリティサービス、CDN(Content Delivery Network,コンテンツ配信ネットワーク)、及びビッグデータや人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバである。
【0043】
図1に示す実施環境に基づいて、顔認証による支払いシーンを提供する。ユーザがショッピングする場合、顔認証支払いの方式で、業者に支払いを行う。この場合、端末は、支払うべき金額、支払いを行うユーザのアカウント情報、支払いを受け取る業者のアカウント情報、及びユーザの顔データを取得し、暗号化すべきターゲットデータ(顔認証データ)としてユーザの顔画像とユーザが発する音声を収集し、顔画像の画像特徴と音声のオーディオ特徴を暗号化し、暗号化された画像特徴と暗号化されたオーディオ特徴をセキュリティファクタとし、セキュリティファクタを採用してターゲットデータを暗号化して暗号化データを取得し、その後、端末は暗号化データをサーバに送信し、サーバは当該暗号化データを復号して、支払いが許可されているかどうかを検証し、検証に合格する場合、端末に支払い情報を返し、ユーザによる確認を経て支払いを完了する。
【0044】
図2は、本出願の実施例で提供されるデータ暗号化方法のフローチャートである。本出願の実施例の実行主体は、端末である。図2を参照して、当該方法は、次のステップを含む。
【0045】
201、端末は、ターゲットオブジェクトの暗号化すべきターゲットデータ及びターゲットオブジェクトに対応するオブジェクト情報を収集する。
ターゲットオブジェクトはいずれかのオブジェクトであり、ターゲットデータは暗号化すべきデータであり、オブジェクト情報はターゲットオブジェクトを記述するための情報であり、そして、当該オブジェクト情報はターゲットデータを暗号化するために使用され、ターゲットデータは少なくとも顔データ、支払いデータ、又は指紋データのうちの少なくとも1つを含み、オブジェクト情報は少なくともターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含む。
なお、端末が収集したデータ又は情報はいずれもユーザの十分な許可を得て収集したものであり、例えば、端末は、確認収集オプションを表示し、当該確認収集オプションをトリガすることによって端末がデータを収集することを許可することを提示し、ターゲットオブジェクトが当該確認収集オプションをトリガした後、端末は、当該確認収集オプションに対するトリガ動作に応答して、許可を獲得することを確認すると、ターゲットオブジェクトのターゲットデータ及びオブジェクト情報を収集する。
【0046】
202、端末は、オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴をターゲットデータのセキュリティファクタとして決定する。
参照公開鍵は、端末に記憶され、オブジェクト情報を暗号化するために使用される公開鍵であり、例えば、参照公開鍵は、端末に対応するサーバから送信され、セキュリティファクタは、ターゲットデータを暗号化するために使用される。オブジェクト特徴は、顔画像の画像特徴、又はオーディオ信号のオーディオ特徴のうちの少なくとも1つを含む。任意選択で、オブジェクト特徴が画像特徴とオーディオ特徴を含む場合、参照公開鍵に従って画像特徴とオーディオ特徴をそれぞれ暗号化し、又は、まず画像特徴とオーディオ特徴をスティッチングし、スティッチングして得られた特徴をオブジェクト特徴として決定し、参照公開鍵に従ってオブジェクト特徴を暗号化する。
【0047】
203、端末は、セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得する。
本出願の実施例では、端末は、セキュリティファクタを取得した後、当該セキュリティファクタに基づいてターゲットデータを暗号化し、セキュリティファクタとターゲットデータは任意の方式で組み合わせることができ、本出願の実施例では、これを制限しない。
【0048】
関連技術では、通常、タイムスタンプを採用してデータに対して非対称暗号化を行うが、このような暗号化データは解読されやすく、安全性が低い。
【0049】
本出願の実施例で提供される方法は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つを暗号化することで、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとし、この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。
【0050】
図3は、本出願の実施例で提供されるデータ暗号化方法のフローチャートである。本出願の実施例の実行主体は、端末である。図3を参照して、当該方法は、次のステップを含む。
【0051】
301、端末は、ターゲットオブジェクトの暗号化すべきターゲットデータ、ターゲットオブジェクトの顔画像、及びオーディオ信号を収集する。
ターゲットオブジェクトは、いずれかのオブジェクトであり、例えば、ターゲットオブジェクトは、支払いを必要とするユーザである。ターゲットデータは暗号化すべきデータであり、オブジェクト情報はターゲットオブジェクトを記述するための情報であり、そして、当該オブジェクト情報はターゲットデータを暗号化するために使用され、ターゲットデータは、少なくとも顔データ、支払いデータ、又は指紋データのうちの少なくとも1つを含み、オブジェクト情報は、少なくともターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含む。支払いデータは、支払うべき金額、支払いを行うアカウント情報、支払いを受け取るアカウント情報、又は他の情報を含む。
【0052】
1つの可能な実現形態では、端末は、カメラによってターゲットオブジェクトの顔画像を収集し、マイクによってターゲットオブジェクトのオーディオ信号を収集する。1つの場合、ターゲットオブジェクトの顔画像とオーディオ信号は生体オブジェクトを収集して得られ、例えば、ターゲットオブジェクトはカメラの前方に立ち、端末はカメラによって顔画像を収集し、ターゲットオブジェクトはマイクに向かって話し、端末はマイクによってターゲットオブジェクトの言うことを収集し、又は、別の場合、ターゲットオブジェクトの顔画像とオーディオ信号は非生体オブジェクトを収集して得られ、例えば、カメラの前に他のコンピュータ機器を置き、コンピュータ機器のスクリーンにターゲットオブジェクトの顔画像を表示し、端末は、カメラによって当該顔画像を収集し、又はコンピュータ機器はターゲットオブジェクトのオーディオを再生し、端末はマイクによってオーディオ信号を収集する。
【0053】
1つの可能な実現形態では、端末にはターゲットアプリケーションがインストールされており、端末は、当該ターゲットアプリケーションによってターゲットデータ、顔画像、及びオーディオ信号を収集する。例えば、ターゲットアプリケーションは支払いアプリケーションであり、ターゲットデータは顔データであり、ユーザがターゲットアプリケーションによって顔認証支払いを行う場合、ターゲットアプリケーションは、ターゲットオブジェクトの顔データ、顔画像、及びオーディオ信号を収集する。
【0054】
1つの可能な実現形態では、端末は、画像収集インターフェースによって、顔画像を収集する。画像収集インターフェースには、画像収集領域と提示情報が含まれ、当該提示情報は、ユーザが実行する必要がある動作を提示するために使用され、収集された顔画像は、RGB(Red Green Blue)3色画像又は他のフォーマットの画像である。例えば、図4に示す画像収集インターフェース401を参照して、当該画像収集インターフェースには、「真ん中に立ってください」という提示情報を表示し、提示情報の下に円形の画像収集領域を表示し、顔画像を収集する過程では「処理中」という提示情報を表示し、画像収集領域に、認識された顔画像を表示する。
【0055】
1つの可能な実現形態では、端末がオーディオ信号を収集する時のサンプリングレートとサンプリング深さは任意の数値であり、収集されたオーディオ信号はモノラルであってもよく、ダブルラルであってもよい。例えば、図5に示すオーディオ信号を参照して、当該オーディオ信号のサンプリングレートは16kであり、サンプリング深さは16bit(ビット)である。また、本出願の実施例は、収集されたオーディオ信号の時間長を制限せず、オーディオ信号は任意の時間長であってもよく、例えば、オーディオ信号は5秒、10秒、又は他の時間長である。オーディオ信号の内容については、任意選択で、ターゲットオブジェクトが参照内容に応じてオーディオ信号を出し、オーディオ信号の内容は参照内容であり、例えば、参照内容は「私の音声を識別してください」であり、又はオーディオ信号の内容は任意の内容であってもよい。
【0056】
また、ターゲットデータに顔データが含まれる場合、顔データと顔画像とに重複する内容が存在する。端末は、ターゲットデータに含まれる顔データと、ターゲットデータを暗号化するための顔画像を、異なる方式でそれぞれ収集してもよく、同一方式で収集してもよく、本出願の実施例はこれを制限しない。又は、端末は、顔データと、ターゲットデータを暗号化するための顔画像をそれぞれ収集し、又は、ターゲットオブジェクトの顔画像を収集した後、当該顔画像を暗号化すべき顔データとして直接に決定することで、顔画像と顔データを一度に取得することができ、本出願の実施例はこれを制限しない。
【0057】
なお、本出願の実施例では、顔画像とオーディオ信号を収集する前後順序を制限せず、任意選択で、端末は顔画像とオーディオ信号を同時に収集し、又は、端末はまず顔画像を収集し、そしてオーディオ信号を収集し、又は、端末はまずオーディオ信号を収集し、そして顔画像を収集する。
【0058】
302、端末は、顔画像に対して特徴抽出を行い、顔画像の画像特徴を取得し、オーディオ信号に対して特徴抽出を行い、オーディオ信号のオーディオ特徴を取得する。
画像特徴は、顔画像を記述するために使用され、当該画像特徴は、ベクトル、行列、又は他の形態の特徴である。オーディオ特徴は、オーディオ信号を記述するために使用され、当該オーディオ特徴は、ベクトル、行列、又は他の形態の特徴である。
【0059】
端末は、顔画像とオーディオ信号に対して、それぞれ異なる方式で特徴抽出を行う。以下、顔画像の特徴抽出方式とオーディオ信号の特徴抽出方式をそれぞれ説明する。
【0060】
1、画像特徴の抽出
1つの可能な実現形態では、端末は、顔画像を複数の第2の顔領域に分割し、複数の第2の顔領域のそれぞれに対して特徴抽出を行い、各第2の顔領域の第2の領域特徴を取得し、取得した複数の第2の領域特徴をスティッチングして、画像特徴を得る。任意の2つの第2の顔領域の間には、重複する領域がなく、複数の第2の領域特徴をスティッチングすることは、当該複数の第2の領域特徴に対応する第2の顔領域の顔画像における位置関係に応じて、複数の第2の領域特徴を順次首尾接続して、画像特徴を得ることを意味する。
【0061】
任意選択で、端末は解像度に応じて顔画像を分割し、各第2の顔領域の解像度は同じであってもよく、異なってもよく、即ち、任意の2つの第2の顔領域のサイズは同じであってもよく、異なってもよい。例えば、顔画像の解像度は1920*1080であり、顔画像を60*60の解像度で分割し、複数の第2の顔領域を取得し、各第2の顔領域の解像度は60*60である。
【0062】
各第2の顔領域の特徴抽出方式について、1つの可能な実現形態では、端末は、第2の顔領域に対してエッジ検出を行い、第2の顔領域に対応する画像勾配を取得し、画像勾配を第2の顔領域の第2の領域特徴として決定し、画像勾配は、第2の顔領域における任意の2つの隣接するピクセルの変化率を示す。任意選択で、画像勾配は、勾配振幅及び勾配方向を含む。端末は、Sobel(ソーベル)演算子、Scharr演算子、ラプラス演算子、又は他の方式を採用して第2の顔領域に対してエッジ検出を行う。
【0063】
例えば、Sobelアルゴリズムで次の式を採用して画像勾配を決定する。
【数1】
ただし、
【数2】
は第2の顔領域の水平方向の勾配値を示し、
【数3】
は第2の顔領域の垂直方向の勾配値を示し、
【数4】
は第2の顔領域の勾配振幅を示し、
【数5】
は第2の顔領域の勾配方向を示し、当該勾配方向は角度で示し、当該角度の範囲は0°-360°又は0°-180°である。
【0064】
別の可能な実現形態では、端末は、収集された顔画像に対して直接に特徴抽出を行い、当該顔画像の画像特徴を取得し、顔画像を分割しない。
【0065】
別の可能な実現形態では、端末は、画像特徴抽出モデルに基づいて、顔画像に対して特徴抽出を行い、顔画像の画像特徴を得る。画像特徴抽出モデルは、端末によってトレーニングされ記憶されてもよく、他のデバイスから当該端末に送信されてもよく、本出願の実施例はこれを制限しない。
【0066】
2、オーディオ特徴の抽出
1つの可能な実現形態では、端末は、オーディオ信号を複数の第2のオーディオセグメントに分割し、複数の第2のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第2のオーディオセグメントの第2のセグメント特徴を取得し、取得した複数の第2のセグメント特徴をスティッチングして、オーディオ特徴を得る。任意の2つの第2のオーディオセグメントの間には、重複する部分がなく、複数の第2のセグメント特徴をスティッチングすることは、当該複数の第2のオーディオ特徴に対応する第2のオーディオセグメントのオーディオ信号における前後順序に応じて、複数の第2のセグメント特徴を順次首尾接続し、オーディオ特徴を得ることである。
【0067】
任意選択で、オーディオ信号の時間長に応じて分割し、端末は、参照時間長に応じてオーディオ信号を複数の第2のオーディオセグメントに分割し、各第2のオーディオセグメントの時間長は参照時間長であり、例えば、参照時間長は1秒、2秒、又は他の時間長である。又は、オーディオ信号に含まれるサンプリングポイントの数に応じて分割し、端末は、参照数に応じてオーディオ信号を複数の第2のオーディオセグメントに分割し、各第2のオーディオセグメントには、参照数のサンプリングポイントが含まれ、例えば、参照サンプリングポイントは、40、80、又は他の数である。
【0068】
各第2のオーディオセグメントの特徴抽出方式について、1つの可能な実現形態では、端末は、第2のオーディオセグメントをフーリエ変換して、変換された第2のオーディオセグメントを取得し、変換された第2のオーディオセグメントを第2のオーディオセグメントに対応するスペクトル特徴に変換し、スペクトル特徴を第2のオーディオセグメントの第2のセグメント特徴として決定する。
【0069】
任意選択で、端末は、第2のオーディオセグメントのメル逆スペクトル(Mel-Frequency Spectrum,MFC)を抽出する。端末は、三角窓関数(Triangular Overlapping Window)を採用して、変換された第2のオーディオセグメントをメルスケールにマッピングし、得られた結果に対数を取り、さらに対数を取った結果を離散余弦変換し、メル周波数逆スペクトル係数(Mel-Frequency Cepstral Coefficients,MFCCs)を得て、得られたメル周波数逆スペクトル係数を第2のセグメント特徴として決定する。
【0070】
別の可能な実現形態では、端末は、収集されたオーディオ信号に対して直接に特徴抽出を行い、当該オーディオ信号のオーディオ特徴を取得し、オーディオ信号を分割しない。
【0071】
別の可能な実現形態では、端末は、オーディオ特徴抽出モデルに基づいて、オーディオ信号に対して特徴抽出を行い、オーディオ信号のオーディオ特徴を取得する。オーディオ特徴抽出モデルは、端末によってトレーニングされ記憶されてもよく、他のデバイスから当該端末に送信されてもよく、本出願の実施例はこれを制限しない。
【0072】
なお、本出願の実施例は、画像特徴とオーディオ特徴を抽出する前後順序を制限しない。任意選択で、端末は、画像特徴とオーディオ特徴を同時に抽出し、又は、端末はまず画像特徴を抽出し、そしてオーディオ特徴を抽出し、又は、端末はまずオーディオ特徴を抽出し、そして画像特徴を抽出する。
【0073】
303、端末は、画像特徴に基づいて、顔画像が属するカテゴリを決定し、オーディオ特徴に基づいて、オーディオ信号が属するカテゴリを決定する。
カテゴリは、生体カテゴリと非生体カテゴリを含み、オブジェクト情報が生体カテゴリに属することは、オブジェクト情報が生体オブジェクトの情報であることを示し、オブジェクト情報が非生体カテゴリに属することは、オブジェクト情報が非生体オブジェクトの情報であることを示す。即ち、顔画像が生体カテゴリに属することは、顔画像が生体のターゲットオブジェクトの画像であることを示し、顔画像が非生体カテゴリに属することは、顔画像が非生体のターゲットオブジェクトの画像であることを示し、オーディオ信号が生体カテゴリに属することは、オーディオ信号が生体のターゲットオブジェクトのオーディオ信号であることを示し、オーディオ信号が非生体カテゴリに属することは、オーディオ信号が非生体のターゲットオブジェクトのオーディオ信号であることを示す。例えば、端末は、ターゲットオブジェクトがマイクの前で言うことを収集する場合、収集されたオーディオ信号は生体カテゴリに属する。
【0074】
顔画像の画像特徴については、1つの可能な実現形態では、端末は、取得した画像特徴を複数の第1の領域特徴に分割し、顔画像は複数の第1の顔領域を含み、各第1の領域特徴は、顔画像における1つの第1の顔領域に対応し、各第1の領域特徴に基づいて、各第1の領域特徴に対応する第1の顔領域が属するカテゴリを決定し、複数の第1の顔領域における、属するカテゴリが生体カテゴリである第1の顔領域の第1の割合を決定し、第1の割合が第1の参照割合より大きいことに応じて、顔画像が生体カテゴリに属すると決定し、第1の割合が参照割合より大きくないことに応じて、顔画像が非生体カテゴリに属すると決定する。第1の参照割合は任意の割合であり、例えば、第1の参照割合は80%、85%、又は他の割合であり、第1の顔領域は、上記のステップ302における第2の顔領域と同じであってもよく、異なってもよい。
【0075】
オーディオ信号のオーディオ特徴については、1つの可能な実現形態では、端末は、取得したオーディオ特徴を複数の第1のセグメント特徴に分割し、オーディオ信号は複数の第1のオーディオセグメントを含み、各第1のセグメント特徴は、オーディオ信号における1つの第1のオーディオセグメントに対応し、各第1のセグメント特徴に基づいて、各第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定し、複数の第1のオーディオセグメントにおける、属するカテゴリが生体カテゴリである第1のオーディオセグメントの第2の割合を決定し、第2の割合が第2の参照割合より大きいことに応じて、オーディオセグメントが生体カテゴリに属すると決定し、第2の割合が第2の参照割合より大きくないことに応じて、オーディオセグメントが非生体カテゴリに属すると決定する。第2の参照割合は任意の割合であり、例えば、第2の参照割合は80%、85%、又は他の割合であり、第1のオーディオセグメントは上記のステップ302における第2のオーディオセグメントと同じであってもよく、異なってもよい。
【0076】
第1のセグメント特徴毎に、1つの可能な実現形態では、端末は、第1のセグメント特徴とオーディオ特徴に基づいて、第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定する。つまり、第1のオーディオセグメントが属するカテゴリを決定する場合、第1のオーディオセグメントの第1のセグメント特徴及びオーディオ信号のオーディオ特徴を考慮することにより、第1のオーディオセグメントが属するカテゴリをより正確に決定することができる。
【0077】
別の可能な実現形態では、端末は、第1の分類モデルに基づいて、顔画像の画像特徴を分類し、顔画像が属するカテゴリを得る。端末は、第2の分類モデルに基づいて、オーディオ信号のオーディオ特徴を分類し、オーディオ信号が属するカテゴリを得る。端末が第1の分類モデルと第2の分類モデルに基づいて分類する詳細なプロセス及びモデル構造の詳細について、以下の図6-12に示す実施例を参照して、ここで繰り返し説明しない。
【0078】
304、端末は、顔画像とオーディオ信号が生体カテゴリに属する場合、参照公開鍵に従って、画像特徴とオーディオ特徴をそれぞれ暗号化し、暗号化された画像特徴と暗号化されたオーディオ特徴をセキュリティファクタとして決定する。
【0079】
本出願の実施例では、顔画像とオーディオ信号が生体カテゴリに属する場合にのみ、画像特徴とオーディオ特徴を暗号化し、その後に復号する場合にも、生体カテゴリに属する顔画像の画像特徴と生体カテゴリに属するオーディオ信号のオーディオ特徴を採用して復号する必要もあり、セキュリティファクタの安全性をさらに向上させる。
【0080】
1つの可能な実現形態では、端末は、参照特徴を暗号化し、暗号化された参照特徴もセキュリティファクタとすることもできる。参照特徴は、タイムスタンプ、カウンタ、又は乱数のうちの少なくとも1つを少なくとも含む。例えば、セキュリティファクタのフォーマットは次の通りである。
{magic_num}{device_info}{sign_version}{timestamp}{counter}{random}{マルチモーダル学習セキュリティファクタ}
ただし、magic_numは、セキュリティファクタの全体的なフォーマットを示し、device_infoは、セキュリティファクタを決定するデバイス情報を示し、sign_versionは、暗号化時の署名を示し、timestampは、タイムスタンプを示し、counterはカウンタを示し、randomは、乱数を示し、マルチモーダル学習セキュリティファクタは、暗号化された画像特徴と暗号化されたオーディオ特徴を示す。
【0081】
なお、本出願の実施例は、顔画像とオーディオ信号がいずれも生体カテゴリに属する場合にのみ、画像特徴とオーディオ特徴を暗号化することを例として説明したが、別の実施例では、端末は、上記のステップ303を実行しなく、即ち、端末は、顔画像とオーディオ信号が属するカテゴリを決定しなく、画像特徴とオーディオ特徴を取得した後、直接に暗号化し、又は、別の実施例では、顔画像とオーディオ信号がいずれも生体カテゴリに属する必要がなく、顔画像とオーディオ信号のいずれか一方が生体カテゴリに属していれば、画像特徴とオーディオ特徴を暗号化することができる。
【0082】
305、端末は、セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得する。
【0083】
端末は、ターゲットデータに対応する暗号化フォーマットを予め設置し、暗号化フォーマットに従って暗号化し、即ち、ターゲットデータに対応する暗号化フォーマットとセキュリティファクタに基づいて、ターゲットデータを暗号化して暗号化データを取得する。当該暗号化フォーマットは、暗号化データにおけるセキュリティファクタとターゲットデータとの間の相対的な位置関係を示し、例えば、セキュリティファクタは、ターゲットデータの前にあり、又は、セキュリティファクタはターゲットデータの後にある。セキュリティファクタには、画像特徴、オーディオ特徴、カウンタ、及びタイムスタンプなどの特徴が含まれ、異なる特徴は、画像特徴、オーディオ特徴、カウンタ、タイムスタンプという順序で配列されているが、勿論、セキュリティファクタにおける異なる特徴は、他の順序で配列することもでき、本出願はこれを制限しない。例えば、暗号化データのフォーマットは次の通りである。
{magic_num}{device_info}{sign_version}{timestamp}{counter}{並行マルチモーダル学習セキュリティファクタ}{random}{payload}
ただし、magic_numはセキュリティファクタの全体的なフォーマットを示し、device_infoはセキュリティファクタを決定するデバイス情報であり、sign_versionは暗号化時の署名であり、timestampはタイムスタンプを示し、counterはカウンタを示し、randomは乱数を示し、payloadはターゲットデータを示し、並行マルチモーダル学習セキュリティファクタは、暗号化された画像特徴と暗号化されたオーディオ特徴をスティッチングして得られたオブジェクト特徴を示す。
【0084】
また、1つの可能な実現形態では、端末は、暗号化データを取得した後、暗号化データをサーバに送信し、当該サーバは、暗号化データを復号し、ターゲットデータとセキュリティファクタを取得し、例えば、当該暗号化フォーマットが示す暗号化データにおけるセキュリティファクタとターゲットデータとの相対的な位置関係に従って、暗号化データからターゲットデータとセキュリティファクタを解析する。しかし、この時、当該ターゲットデータを復号されたデータとして直接に決定するのではなく、まずセキュリティファクタを検証する必要がある。従って、参照公開鍵に対応する参照秘密鍵に従って、セキュリティファクタを復号してセキュリティファクタに含まれる画像特徴とオーディオ特徴を取得し、予め記憶されたターゲットオブジェクトの顔画像とオーディオ信号を取得し、セキュリティファクタに含まれる画像特徴とオーディオ特徴が、サーバに記憶されている顔画像の画像特徴とオーディオ信号のオーディオ特徴と一致するかどうかを決定する。一致すると、検証に合格し、ターゲットデータを復号されたデータとして決定し、即ち、サーバは、現在支払いに使用されている顔データ、支払いデータ、又は指紋データのうちの少なくとも1つを決定し、検証合格情報を端末に返し、端末は、支払い確認インターフェースを表示し、ターゲットオブジェクトは当該支払い確認インターフェースを介して支払いを確認することで、上記のターゲットデータに基づいて支払いを完了する。サーバは、予め記憶された顔画像の画像特徴とオーディオ信号のオーディオ特徴を取得する際に、ステップ302と同じ特徴取得方式を採用して、特徴取得方式が異なるため取得した特徴に違いが生じ、検証に影響することを避けることができる。
【0085】
任意選択で、セキュリティファクタに含まれる画像特徴がサーバに記憶されている顔画像の画像特徴と一致しない場合、又はセキュリティファクタに含まれるオーディオ特徴がサーバに記憶されているオーディオ信号のオーディオ特徴と一致しない場合、検証が失敗し、サーバは検証失敗情報を端末に返し、端末は、検証失敗インターフェースを表示してターゲットオブジェクトに再検証を提示する。
【0086】
任意選択で、サーバに記憶されるターゲットオブジェクトの顔画像とオーディオ信号は、生体ターゲットオブジェクトを収集して得られたものであり、生体カテゴリに属し、上記のステップ304に基づいて、端末は、顔画像とオーディオ信号が生体カテゴリに属する場合、暗号化してこそ、セキュリティファクタに含まれる画像特徴及びオーディオ特徴がサーバに記憶されている顔画像の画像特徴及びオーディオ信号のオーディオ特徴と一致することを保証することができ、ひいては、検証に合格する。
【0087】
なお、図3に示す実施例では、オブジェクト情報が顔画像とオーディオ信号を含むことのみを例として説明したが、別の実施例では、オブジェクト情報は、顔画像を含み、参照公開鍵に従って顔画像の画像特徴を暗号化し、暗号化された画像特徴をターゲットデータのセキュリティファクタとして決定し、当該セキュリティファクタに基づいてターゲットデータを暗号化して暗号化データを取得し、又は、オブジェクト情報は、オーディオ信号を含み、参照公開鍵に従ってオーディオ信号のオーディオ特徴を暗号化し、暗号化されたオーディオ特徴をターゲットデータのセキュリティファクタとして決定し、当該セキュリティファクタに基づいてターゲットデータを暗号化して暗号化データを取得する。
【0088】
本出願の実施例で提供される方法は、暗号化すべきターゲットデータを収集する際には、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つを暗号化し、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとする。この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。
【0089】
そして、本出願の実施例では、顔画像とオーディオ信号が属するカテゴリを決定し、顔画像が生体カテゴリに属し、かつ、オーディオ信号が生体カテゴリに属する場合、暗号化された画像特徴とオーディオ特徴をセキュリティファクタとして決定し、それにより、その後復号する必要がある場合、今回収集した顔画像とオーディオ信号を、予め記憶された生体カテゴリに属する顔画像とオーディオ信号に従って検証すると、生体カテゴリに属する顔画像とオーディオ信号のみが検証に合格でき、生体カテゴリに属していない顔画像とオーディオ信号が検証に合格できないので、セキュリティファクタの安全性をさらに向上させ、暗号化データの安全性を向上させる。
【0090】
そして、本出願の実施例では、顔画像を複数の顔領域に分割し、各顔領域が属するカテゴリをそれぞれ決定し、さらに生体カテゴリに属する顔領域が占める割合を投票で決定し、得られた割合に従って、顔画像が属するカテゴリを決定することによれば、個別の分類が間違っている場合でも、顔画像が属するカテゴリを決定することに大きな影響を与えず、分類をより正確にすることができる。同様に、オーディオ信号を複数のオーディオセグメントに分割し、各オーディオセグメントが属するカテゴリをそれぞれ決定し、さらに生体カテゴリに属するオーディオセグメントが占める割合を投票で決定し、得られた割合に従ってオーディオ信号が属するカテゴリを決定することによれば、個別の分類が間違っている場合でも、オーディオ信号が属するカテゴリを決定することに大きな影響を与えず、分類をより正確にすることができる。
【0091】
次に、第1の分類モデルに基づいて顔画像のカテゴリを決定するプロセスと、第2の分類モデルに基づいてオーディオ信号のカテゴリを決定するプロセスとを説明する。
【0092】
第1の分類モデルと第2の分類モデルに基づいてカテゴリを決定する前に、まず第1の分類モデルと第2の分類モデルをそれぞれトレーニングする必要があり、図6に示すトレーニングプロセスを参照して、端末は、トレーニングモジュールとモデル評価モジュールを含み、端末は、サンプル顔画像と当該サンプル顔画像が属するサンプルカテゴリを取得し、当該サンプル顔画像のサンプル画像特徴を抽出し、第1の分類モデルを決定し、トレーニングモジュールによって、決定された第1の分類モデルにサンプル画像特徴を入力し、当該第1の分類モデルに基づいてサンプル顔画像が属する予測カテゴリを出力し、モデル評価モジュールに送信し、モデル評価モジュールによって、サンプルカテゴリと予測カテゴリとの間の違いに基づいて、第1の分類モデルにおけるモデルパラメータを調整することで、トレーニングされた第1の分類モデルを得る。同様に、端末は、サンプルオーディオ信号と当該サンプルオーディオ信号が属するサンプルカテゴリを取得し、当該サンプルオーディオ信号のサンプルオーディオ特徴を抽出し、第2の分類モデルを決定し、当該トレーニングモジュールによって、決定された第2の分類モデルにサンプルオーディオ特徴を入力し、当該第2の分類モデルに基づいてサンプルオーディオ信号が属する予測カテゴリを出力し、モデル評価モジュールに送信し、モデル評価モジュールによって、サンプルカテゴリと予測カテゴリとの間の違いに基づいて、第2の分類モデルにおけるモデルパラメータを調整することで、トレーニングされた第2の分類モデルを得る。
【0093】
任意選択で、端末は、サンプル画像特徴とサンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得し、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプル顔画像が生体オブジェクトの画像であることを示し、非生体カテゴリは、サンプル顔画像が非生体オブジェクトの画像であることを示し、第1の分類モデルに基づいて、サンプル画像特徴に従って、サンプル顔画像が属する予測カテゴリを決定し、サンプルカテゴリと予測カテゴリに従って、第1の分類モデルをトレーニングする。
【0094】
端末は、サンプルオーディオ特徴とサンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得し、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、非生体カテゴリは、サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示し、第2の分類モデルに基づいて、サンプルオーディオ特徴に従って、サンプルオーディオ信号が属する予測カテゴリを決定し、サンプルカテゴリと予測カテゴリに従って、第2の分類モデルをトレーニングする。
【0095】
1つの可能な実現形態では、モデルをトレーニングする前に、当該第1の分類モデルと第2の分類モデルのハイパーパラメータである反復回数(epoch)、分割された顔領域又はオーディオセグメントの数(batch)、及び学習率(learning rate)を予め設置する。例えば、第1の分類モデルのハイパーパラメータは、batch(128)、epoch(1000)、及びlearning rate(0.0001)であり、第2の分類モデルのハイパーパラメータは、batch(128)、epoch(5000)、及びlearning rate(0.0001)である。
【0096】
本出願の実施例では、第1の分類モデルと第2の分類モデルの反復トレーニング回数が参照回数に達した場合、又は第1の分類モデルと第2の分類モデルのトレーニング時間長が参照時間長に達した場合、第1の分類モデルと第2の分類モデルのトレーニングを終了し、トレーニングされた第1の分類モデルと第2の分類モデルをpb(ファイル拡張子)フォーマットのファイルとして記憶する。
【0097】
図7を参照して、端末は、モデル応用モジュールと出力モジュールをさらに含み、端末は、ターゲットオブジェクトの顔画像とオーディオ信号を収集し、トレーニングされた第1の分類モデルと第2の分類モデルに基づいて、顔画像が属するカテゴリとオーディオ信号が属するカテゴリをそれぞれ決定する。即ち、端末は、顔画像とオーディオ信号を収集し、顔画像の画像特徴とオーディオ信号のオーディオ特徴をそれぞれ抽出し、画像特徴とオーディオ特徴をモデル応用モジュールに入力し、モデル応用モジュールによって、第1の分類モデルに基づいて、画像特徴を分類し、出力モジュールによって画像特徴に対応する顔画像が属するカテゴリを出力し、モデル応用モジュールによって、第2の分類モデルに基づいて、オーディオ特徴を分類し、出力モジュールによって、オーディオ特徴に対応するオーディオ信号が属するカテゴリを出力する。
【0098】
1つの可能な実現形態では、第1の分類モデルの構造について図8を参照して、当該第1の分類モデルは、第1の入力ネットワーク801、複数の第1の分類ネットワーク802、及び第1の出力ネットワーク803を含み、第1の入力ネットワーク801は、入力された画像特徴を複数の第2の領域特徴に分割し、各第2の分類ネットワーク802は、1つの第2の領域特徴に対応する第2の顔領域を分類し、第1の出力ネットワーク803は、顔画像が属するカテゴリを出力する。
【0099】
図9を参照して、各分類ネットワーク802は、入力層901、次元調整層902、第1の分類層903、第1の次元削減層904、第2の分類層905、第2の次元削減層906、第3の分類層907、平均プーリング層(Average Pooling)908、活性化層(Dropout)909、及び正規化層(Softmax)910を含む。例えば、第1の分類モデルに入力された特徴の次元は299*299*3であり、次元調整層902を経て出力された特徴の次元は35*35*256であり、第1の分類層902を経て特徴を初歩的に分類し、出力された特徴の次元は35*35*256のままであり、第1の次元削減層903により出力された特徴の次元は17*17*896であり、その後、第2の分類層905、第2の次元削減層906、第3の分類層907で処理し、出力された特徴の次元は8*8*1792であり、そして、平均プーリング層908で処理された後、1つの数値が出力され、当該数値が活性化層909と正規化層910で処理された後、分類結果が出力される。任意選択で、第1の分類層903、第2の分類層905、及び第3の分類層907について、分類ネットワーク802は、複数の第1の分類層903、複数の第2の分類層905、及び複数の第3の分類層907を含む。勿論、別の実施例では、当該分類ネットワーク802のネットワーク構造は、他の形態であってもよく、本出願ではこれを限定しない。
【0100】
任意選択で、いずれかの分類層について、当該分類層の構造は図10を参照して、入力層に第2の領域特徴を入力し、3つの畳み込みコアが3*3の畳み込み層を介して、第2の領域特徴を処理し、処理された第2の領域特徴をそれぞれ畳み込みコアが3*3の畳み込み層及び1つの最大プーリング層で再び処理し、畳み込み層によって処理された特徴と最大プーリング層によって処理された特徴を第1の全接続層でスティッチングし、スティッチングして得られた第1の特徴を1つの畳み込みコアが1*1の畳み込み層と畳み込みコアが3*3の畳み込み層で再び処理し、第2の特徴を得て、スティッチングして得られた第1の特徴を1つの畳み込みコアが1*1の畳み込み層、1つの畳み込みコアが7*1の畳み込み層、1つの畳み込みコアが1*7の畳み込み層、及び1つの畳み込みコアが3*3の畳み込み層で再び処理し、第3の特徴を得て、第2の特徴と第3の特徴を第2の全接続層でスティッチングし、スティッチングして得られた第4の特徴を1つの畳み込みコアが3*3の畳み込み層で処理し、第5の特徴を得て、第2の特徴を最大プーリング層で処理し、第6の特徴を得て、第3の全接続層で第5の特徴と第6の特徴をスティッチングし、第2の領域特徴に対応する第2の顔領域が属するカテゴリを得る。勿論、別の実施例では、当該いずれかの分類層のネットワーク構造は、他の形態であってもよく、本出願ではこれを限定しない。
【0101】
1つの可能な実現形態では、第2の分類モデルの構造について図11を参照して、当該第2の分類モデルは、第2の入力ネットワーク1101、複数の第2の分類ネットワーク1102、及び第2の出力ネットワーク1103を含み、第2の入力ネットワーク1101は、入力されたオーディオ特徴を複数の第2のセグメント特徴に分割し、各第2のセグメントネットワーク1102は、1つの第2のセグメント特徴に対応する第2のオーディオセグメントを分類し、第2の出力ネットワーク1103は、オーディオ信号が属するカテゴリを出力する。
【0102】
任意選択で、当該第2の分類モデルの詳細な分類プロセスについて図12を参照して、オーディオ特徴と複数の第2のセグメント特徴を入力し、オーディオ特徴は1つの畳み込み層と深度処理層で処理され、第2のセグメント特徴毎に、処理されたオーディオ特徴と当該第2のセグメント特徴を再び複数の畳み込み層と深度処理層で処理し、処理された第2のセグメント特徴を得て、特徴選択層で、複数の処理された第2のセグメント特徴から最大の第2のセグメント特徴を選択し、さらに選択された特徴と前の畳み込み層から出力された特徴を特徴選択層の後の次の畳み込み層に入力し、同様に、再び特徴選択層と複数の畳み込み層を介して、各第2のセグメント特徴に対応する第2のオーディオセグメントが属するカテゴリを得て、オーディオ特徴の処理結果と複数の第2のオーディオセグメントが属するカテゴリを出力層に入力し、出力層によって処理した後、オーディオ信号が属するカテゴリを出力する。
【0103】
可能な実現形態では、第1の分類モデルと第2の分類モデルの分類精度をさらに向上させるために、第1の分類モデルと第2の分類モデルは、残差ネットワーク構造、及びBatch Normalization(バッチ規格化)構造を含む必要がある。残差ネットワーク構造は、特徴処理プロセスにおけるネットワークの劣化問題の発生を防止し、モデルの処理速度を高めることができ、Batch Normalizationは、勾配の消失を回避するためにモデルの収束速度を速めることができる。
【0104】
可能な実現形態では、上記の第1の分類モデルと第2の分類モデルの出力は、0又は1であり、出力が0であれば、非生体カテゴリに属することを示し、出力が1であれば、生体カテゴリに属することを示す。
【0105】
図13は、本出願の実施例で提供されるデータ暗号化装置の構造概略図である。図13を参照して、当該装置は、
ターゲットオブジェクトの暗号化すべきターゲットデータ及びターゲットオブジェクトに対応するオブジェクト情報を収集するための情報収集モジュール1301であって、オブジェクト情報は、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを含む情報収集モジュール1301と、
オブジェクト情報に対応するオブジェクト特徴を参照公開鍵に従って暗号化し、暗号化されたオブジェクト特徴をターゲットデータのセキュリティファクタとして決定するためのセキュリティファクタ取得モジュール1302と、
セキュリティファクタに基づいてターゲットデータを暗号化し、ターゲットデータに対応する暗号化データを取得するためのデータ暗号化モジュール1303と、を含む。
【0106】
本出願の実施例で提供される装置は、暗号化すべきターゲットデータを収集する場合、ターゲットオブジェクトの顔画像又はオーディオ信号のうちの少なくとも1つを収集し、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つを暗号化して、暗号化された特徴を、ターゲットデータを暗号化するセキュリティファクタとする。この暗号化方式では、ターゲットデータを暗号化するためのセキュリティファクタには、顔画像の特徴又はオーディオ信号の特徴のうちの少なくとも1つが含まれ、かつ、顔画像又はオーディオ信号の特徴がより複雑になり、解読されにくくなるため、暗号化データの安全性を向上させる。
【0107】
任意選択で、オブジェクト情報は、顔画像とオーディオ信号を含み、図14を参照して、当該装置は、
顔画像の画像特徴とオーディオ信号のオーディオ特徴をそれぞれ取得するためのオブジェクト特徴取得モジュール1304をさらに含み、
オブジェクト特徴取得モジュール1304はさらに、画像特徴とオーディオ特徴をスティッチングし、スティッチングして得られた特徴をオブジェクト特徴として決定する。
【0108】
任意選択で、データ暗号化モジュール1303は、ターゲットデータに対応する暗号化フォーマットとセキュリティファクタに基づいて、ターゲットデータを暗号化して暗号化データを取得し、暗号化フォーマットは、暗号化データにおけるセキュリティファクタとターゲットデータとの間の相対的な位置関係を示す。
【0109】
任意選択で、セキュリティファクタ取得モジュール1302は、オブジェクト情報が生体カテゴリに属する場合、参照公開鍵に従ってオブジェクト特徴を暗号化し、暗号化されたオブジェクト特徴をセキュリティファクタとして決定し、生体カテゴリは、オブジェクト情報が生体オブジェクトの情報であることを示す。
【0110】
任意選択で、オブジェクト情報は顔画像を含み、図14を参照して、当該装置は、
顔画像の画像特徴を取得し、画像特徴を複数の第1の領域特徴に分割するための第1のカテゴリ決定モジュール1305であって、顔画像は複数の第1の顔領域を含み、各第1の領域特徴は、顔画像における1つの第1の顔領域に対応する第1のカテゴリ決定モジュール1305をさらに含み、
第1のカテゴリ決定モジュール1305はさらに、各第1の領域特徴に基づいて、各第1の領域特徴に対応する第1の顔領域が属するカテゴリを決定し、
第1のカテゴリ決定モジュール1305はさらに、複数の第1の顔領域における、属するカテゴリが生体カテゴリである第1の顔領域の第1の割合を決定し、
第1のカテゴリ決定モジュール1305はさらに、第1の割合が第1の参照割合より大きいことに応じて、顔画像が生体カテゴリに属すると決定する。
【0111】
任意選択で、オブジェクト情報はオーディオ信号を含み、図14を参照して、当該装置は、
オーディオ信号のオーディオ特徴を取得し、オーディオ特徴を複数の第1のセグメント特徴に分割するための第2のカテゴリ決定モジュール1306であって、オーディオ信号は複数の第1のオーディオセグメントを含み、各第1のセグメント特徴はオーディオ信号における1つの第1のオーディオセグメントに対応する第2のカテゴリ決定モジュール1306をさらに含み、
第2のカテゴリ決定モジュール1306はさらに、各第1のセグメント特徴に基づいて、各第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定し、
第2のカテゴリ決定モジュール1306はさらに、複数の第1のオーディオセグメントにおける、属するカテゴリが生体カテゴリである第1のオーディオセグメントの第2の割合を決定し、
第2のカテゴリ決定モジュール1306はさらに、第2の割合が第2の参照割合より大きいことに応じて、オーディオセグメントが生体カテゴリに属すると決定する。
【0112】
任意選択で、図14を参照して、第2のカテゴリ決定モジュール1306はさらに、第1のセグメント特徴毎に、第1のセグメント特徴とオーディオ特徴に基づいて、第1のセグメント特徴に対応する第1のオーディオセグメントが属するカテゴリを決定する。
【0113】
任意選択で、オブジェクト情報は、顔画像を含み、オブジェクト特徴は、顔画像の画像特徴を含み、図14を参照して、当該装置は、
顔画像を複数の第2の顔領域に分割するための画像特徴取得モジュール1307をさらに含み、
画像特徴取得モジュール1307はさらに、複数の第2の顔領域のそれぞれに対して特徴抽出を行い、各第2の顔領域の第2の領域特徴を取得し、
画像特徴取得モジュール1307はさらに、取得した複数の第2の領域特徴をスティッチングして、画像特徴を得る。
【0114】
任意選択で、図14を参照して、画像特徴取得モジュール1307はさらに、第2の顔領域毎に、第2の顔領域に対してエッジ検出を行い、第2の顔領域に対応する画像勾配を取得し、画像勾配を第2の顔領域の第2の領域特徴として決定し、画像勾配は、第2の顔領域における任意の2つの隣接するピクセルの変化率を示す。
【0115】
任意選択で、オブジェクト情報はオーディオ信号を含み、オブジェクト特徴は、オーディオ信号のオーディオ特徴を含み、図14を参照して、当該装置は、
オーディオ信号を複数の第2のオーディオセグメントに分割するためのオーディオ特徴取得モジュール1308をさらに含み、
オーディオ特徴取得モジュール1308はさらに、複数の第2のオーディオセグメントのそれぞれに対して特徴抽出を行い、各第2のオーディオセグメントの第2のセグメント特徴を取得し、
オーディオ特徴取得モジュール1308はさらに、取得した複数の第2のセグメント特徴をスティッチングして、オーディオ特徴を得る。
【0116】
任意選択で、図14を参照して、オーディオ特徴取得モジュール1308はさらに、
第2のオーディオセグメント毎に、第2のオーディオセグメントをフーリエ変換して、変換された第2のオーディオセグメントを取得し、
変換された第2のオーディオセグメントを第2のオーディオセグメントに対応するスペクトル特徴に変換し、スペクトル特徴を第2のオーディオセグメントの第2のセグメント特徴として決定する。
【0117】
任意選択で、セキュリティファクタ取得モジュール1302はさらに、参照公開鍵に従ってオブジェクト特徴と参照特徴をそれぞれ暗号化し、暗号化されたオブジェクト特徴と暗号化された参照特徴をターゲットデータのセキュリティファクタとして決定し、参照特徴は、少なくともタイムスタンプ又はカウンタを含む。
【0118】
任意選択で、オブジェクト情報は顔画像を含み、図14を参照して、当該装置は、
第1の分類モデルに基づいて、顔画像の画像特徴を分類し、顔画像が属するカテゴリを得るための第1のカテゴリ決定モジュール1305をさらに含む。
【0119】
任意選択で、図14を参照して、当該装置は、
サンプル画像特徴とサンプル画像特徴に対応するサンプル顔画像が属するサンプルカテゴリを取得するための第1のトレーニングモジュール1309であって、サンプルカテゴリは生体カテゴリ又は非生体カテゴリを含み、生体カテゴリはサンプル顔画像が生体オブジェクトの画像であることを示し、非生体カテゴリはサンプル顔画像が非生体オブジェクトの画像であることを示す第1のトレーニングモジュール1309をさらに含み、
第1のトレーニングモジュール1309はさらに、第1の分類モデルに基づいて、サンプル画像特徴に従って、サンプル顔画像が属する予測カテゴリを決定し、
第1のトレーニングモジュール1309はさらに、サンプルカテゴリと予測カテゴリに従って、第1の分類モデルをトレーニングする。
【0120】
任意選択で、オブジェクト情報はオーディオ信号を含み、図14を参照して、当該装置は、
第2の分類モデルに基づいて、オーディオ信号のオーディオ特徴を分類し、オーディオ信号が属するカテゴリを得るための第2のカテゴリ決定モジュール1306をさらに含む。
【0121】
任意選択で、図14を参照して、当該装置は、
サンプルオーディオ特徴とサンプルオーディオ特徴に対応するサンプルオーディオ信号が属するサンプルカテゴリを取得するための第2のトレーニングモジュール1310であって、サンプルカテゴリは、生体カテゴリ又は非生体カテゴリを含み、生体カテゴリは、サンプルオーディオ信号が生体オブジェクトのオーディオ信号であることを示し、非生体カテゴリは、サンプルオーディオ信号が非生体オブジェクトのオーディオ信号であることを示す第2のトレーニングモジュール1310をさらに含み、
第2のトレーニングモジュール1310はさらに、第2の分類モデルに基づいて、サンプルオーディオ特徴に従って、サンプルオーディオ信号が属する予測カテゴリを決定し、
第2のトレーニングモジュール1310はさらに、サンプルカテゴリと予測カテゴリに従って、第2の分類モデルをトレーニングする。
【0122】
上記の全ての選択可能な技術案は、任意に組み合わせて本出願の選択可能な実施例を形成することができ、ここで説明を省略する。
【0123】
なお、上記の実施例で提供されるデータ暗号化装置は、データを暗号化する場合、上記の各機能モジュールの分割のみを例として説明し、実際の適用では、必要に応じて上記の機能を異なる機能モジュールに割り当てて完成することができ、即ち、コンピュータ機器の内部構造を異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を完成する。また、上記の実施例で提供されるデータ暗号化装置とデータ暗号化方法実施例は同一の概念に属し、その具体的な実現プロセスは方法の実施例で詳述され、ここで繰り返し説明しない。
【0124】
本出願の実施例は、コンピュータ機器をさらに提供し、当該コンピュータ機器は、プロセッサとメモリを含み、メモリに少なくとも1つのコンピュータプログラムが記憶されており、当該少なくとも1つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の実施例のデータ暗号化方法において実行される動作を実現する。
【0125】
任意選択で、当該コンピュータ機器は端末として提供される。図15は、本出願の実施例で提供される端末1500の構造概略図である。当該端末1500は、スマートフォン、タブレットコンピューター、ノートパソコン、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、顔認証デバイスなどであってもよい。端末1500は、ユーザデバイス、携帯端末、ラップトップ端末、デスクトップ端末などの他の名称と呼ばれることもある。
【0126】
端末1500は、プロセッサ1501及びメモリ1502を含む。
【0127】
プロセッサ1501は、例えば、4コアプロセッサー、8コアプロセッサーなどのような1つ又は複数の処理コアを含むことができる。プロセッサ1501は、DSP(Digital Signal Processing,デジタル信号処理)、FPGA(Field-Programmable Gate Array,フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array,プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェア形態で実現することができる。いくつかの実施例では、プロセッサ1501は、AI(Artificial Intelligence,人工知能)プロセッサを含むことができ、当該AIプロセッサは、機械学習に関する計算動作を処理する。
【0128】
メモリ1502は、1つ又は複数のコンピュータ読み取り可能な記憶媒体を含むことができ、当該コンピュータ読み取り可能な記憶媒体は、非一時的であってもよい。いくつかの実施例では、メモリ1502における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも1つのコンピュータプログラムを記憶するために使用され、当該少なくとも1つのコンピュータプログラムは、プロセッサ1501によって実行されることで、本出願の方法実施例で提供されるデータ暗号化方法を実現する。
【0129】
いくつかの実施例では、端末1500は、周辺機器インターフェース1503と少なくとも1つの周辺機器をさらに含むことができる。プロセッサ1501、メモリ1502、及び周辺機器インターフェース1503の間は、バス又は信号線を介して接続されることができる。各周辺機器は、バス、信号線又は回路基板を介して、周辺機器インターフェース1503に接続されることができる。具体的に、周辺機器は、カメラコンポーネント1504とオーディオ回路1505のうちの少なくとも1つを含む。
【0130】
周辺機器インターフェース1503は、I/O(Input/Output,入力/出力)に関連する少なくとも1つの周辺機器を、プロセッサ1501及びメモリ1502に接続するために使用される。いくつかの実施例では、プロセッサ1501、メモリ1502、及び周辺機器インターフェース1503は、同一のチップ又は回路基板に集積され、いくつかの他の実施例では、プロセッサ1501、メモリ1502、及び周辺機器インターフェース1503のいずれか1つ又は2つは、別個のチップ又は回路基板で実現されてもよく、本実施例では、これを限定しない。
【0131】
カメラコンポーネント1504は、画像又はビデオを収集する。任意選択で、カメラコンポーネント1504は、フロントカメラとバックカメラを含む。フロントカメラは端末のフロントパネルに設置され、バックカメラは端末の背面に設置されている。いくつかの実施例では、バックカメラは、少なくとも2つであり、それぞれは、メインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのいずれかであり、それにより、メインカメラと被写界深度カメラの融合による背景ぼかし機能、メインカメラと広角カメラの融合によるパノラマ撮影、及びVR(Virtual Reality,仮想現実)撮影機能又は他の融合撮影機能を実現する。
【0132】
オーディオ回路1505は、マイクロフォン及びスピーカを含む。マイクロフォンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換してプロセッサ1501に入力して処理するか、又は無線周波数回路1504に入力して音声通信を実現する。ステレオ収音またはノイズ低減の目的で、端末1500の異なる部分にそれぞれ設置される複数のマイクロフォンが存在してもよい。スピーカは、プロセッサ1501又は無線周波数回路1504からの電気信号を音波に転換する。スピーカは、従来の薄膜スピーカであってもよく、圧電セラミックスピーカであってもよい。
【0133】
いくつかの実施例では、端末1500は、1つ又は複数のセンサ1506も含む。当該1つ又は複数のセンサ1506は、加速度センサ1511、ジャイロセンサ1512、圧力センサ1513、光学センサ1514、及び近接センサ1515を含むが、これらに限定されない。
【0134】
当業者であれば、図15に示す構造が端末1500の限定を構成するものではなく、図示したものより多い又は少ないコンポーネントを含んでもよく、又はいくつかのコンポーネントを組み合わせてもよく、又は異なるコンポーネント配置を採用してもよいことを理解することができる。
【0135】
任意選択で、当該コンピュータ機器はサーバとして提供される。図16は、本出願の実施例で提供されるサーバの構造概略図であり、当該サーバ1600は、配置又は性能の違いによって比較的大きな違いを生じる可能性があり、1つ又は複数のプロセッサ(Central Processing Units,CPU)1601及び1つ又は複数のメモリ1602を含んでもよく、メモリ1602に少なくとも1つのコンピュータプログラムが記憶されており、当該少なくとも1つのコンピュータプログラムは、プロセッサ1601によってロードされて実行される場合、上記の各方法の実施例で提供される方法を実現する。勿論、当該サーバは、入出力するように、有線又は無線ネットワークインターフェース、キーボード、及び入出力インターフェースなどの構成要素をさらに含んでもよく、当該サーバは、他のデバイス機能を実現するための構成要素を含んでもよく、ここで詳しく説明しない。
【0136】
本出願の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体に少なくとも1つのコンピュータプログラムが記憶され、当該少なくとも1つのコンピュータプログラムがプロセッサによってロードされて実行される場合、上記の実施例のデータ暗号化方法において実行される動作を実現する。
【0137】
本出願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータプログラムコードを含み、当該コンピュータプログラムコードがコンピュータ読み取り可能な記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体から当該コンピュータプログラムコードを読み取り、プロセッサは、上記の実施例のデータ暗号化方法において実行される動作をコンピュータ機器に実現させるように、当該コンピュータプログラムコードを実行する。
【0138】
なお、本出願の実施例では、顔画像、オーディオ信号などの関連データに関し、本出願の以上の実施例が具体的な製品又は技術に適用される場合には、ユーザの許可または同意を得る必要があり、関連データの收集、使用、及び処理は、関連する国及び地域の関連する法律法規と基準に従う必要がある。
【0139】
当業者は、上記の実施例を実現するための全て又は一部のステップがハードウェアによって完成されてもよく、プログラムを介して関連するハードウェアに指令して完成されてもよいことを理解することができ、当該プログラムは、読み取り専用メモリ、磁気ディスク又は光ディスクなどのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。
【0140】
以上は、本出願の実施例の好ましい実施例に過ぎず、本出願の実施例を限定するために使用されるものではなく、本出願の実施例の精神及び原則の範囲で行われたいかなる補正、均等な置換、改善などは、いずれも本出願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
【国際調査報告】