特許第6937440号(P6937440)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クーパン コーポレイションの特許一覧

特許6937440マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法
<>
  • 特許6937440-マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法 図000002
  • 特許6937440-マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法 図000003
  • 特許6937440-マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法 図000004
  • 特許6937440-マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法 図000005
  • 特許6937440-マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6937440
(24)【登録日】2021年9月1日
(45)【発行日】2021年9月22日
(54)【発明の名称】マイクロ表現を用いて信ぴょう性を決定するコンピュータ化されたシステムおよび方法
(51)【国際特許分類】
   G06F 21/30 20130101AFI20210909BHJP
   G06Q 20/40 20120101ALI20210909BHJP
   G06Q 40/02 20120101ALI20210909BHJP
   G06N 3/04 20060101ALI20210909BHJP
   G06F 3/01 20060101ALI20210909BHJP
   G06T 7/00 20170101ALI20210909BHJP
   G06T 7/20 20170101ALI20210909BHJP
【FI】
   G06F21/30
   G06Q20/40
   G06Q40/02 300
   G06N3/04 154
   G06F3/01 510
   G06T7/00 350C
   G06T7/00 660A
   G06T7/20 300B
【請求項の数】20
【全頁数】15
(21)【出願番号】特願2020-537706(P2020-537706)
(86)(22)【出願日】2020年3月31日
(65)【公表番号】特表2021-517287(P2021-517287A)
(43)【公表日】2021年7月15日
(86)【国際出願番号】IB2020053049
(87)【国際公開番号】WO2020208470
(87)【国際公開日】20201015
【審査請求日】2020年9月25日
(31)【優先権主張番号】16/383,297
(32)【優先日】2019年4月12日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】520244544
【氏名又は名称】クーパン コーポレイション
(74)【代理人】
【識別番号】230104019
【弁護士】
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100167933
【弁理士】
【氏名又は名称】松野 知紘
(74)【代理人】
【識別番号】100174137
【弁理士】
【氏名又は名称】酒谷 誠一
(74)【代理人】
【識別番号】100184181
【弁理士】
【氏名又は名称】野本 裕史
(72)【発明者】
【氏名】ファン,シャオジュン
【審査官】 宮司 卓佳
(56)【参考文献】
【文献】 国際公開第2018/058554(WO,A1)
【文献】 特開2018−032164(JP,A)
【文献】 特開2016−149063(JP,A)
【文献】 上村祥之他,ディープニューラルネットワークによる微表情の検出と分類,電気学会研究会資料,日本,一般社団法人電気学会,2018年03月01日,p.33-p.38
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/30
G06Q 20/40
G06Q 40/02
G06N 3/04
G06F 3/01
G06T 7/00
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを有するデバイスによって実行される、人間のユーザの信ぴょう性を計算する方法であって、
ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとの接続をインスタンス化する電子的な要求を受信すること、
質問のデータベースを用いて、前記要求に関する第1の質問を生成すること、
前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供すること、
前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表を抽出することを含む、こと、
第1の畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、第2の畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算すること、
前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成すること、
前記候補となる感情データが所定の感情を予測するか否かを判定すること、
前記候補となる感情データが前記1以上の所定の感情を予測するかどうかの判断に基づいて、
前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、
前記ユーザの信ぴょう性を決定し、決定した信ぴょう性を使用して前記電子的な要求を決定すること、
を含む、方法。
【請求項2】
前記第1の畳み込みニューラルネットワークは、空間畳み込みニューラルネットワークを含み、
前記第2の畳み込みニューラルネットワークは、時間畳み込みニューラルネットワークを含む、請求項1に記載の方法。
【請求項3】
リソースのデータベースを使用して前記畳み込みニューラルネットワークの少なくとも1つをトレーニングすることをさらに含み、
前記リソースのデータベースは、前記所定の感情の正解を確立するためにラベル付けされた顔データを含む、請求項1に記載の方法。
【請求項4】
時間補間を使用して前記リソースのデータベースを正規化すること、
前記正規化されたリソースのデータベースを使用して、前記第1および第2の畳み込みニューラルネットワークの少なくとも1つをトレーニングすること、を含む、請求項3に記載の方法。
【請求項5】
前記2つの畳み込みニューラルネットワークは、前記ユーザのミクロ表現を解析する、請求項1に記載の方法。
【請求項6】
前記時間畳み込みニューラルネットワークは、前記音声データを分析する、請求項2に記載の方法。
【請求項7】
前記1以上の所定の感情は、驚き、嫌悪感または抑圧を含む、請求項1に記載の方法。
【請求項8】
前記第2の質問を生成することは、少なくとも前記第1の質問に対する受信された回答に基づく、請求項1に記載の方法。
【請求項9】
前記人間ユーザはローン申請者である、請求項1に記載の方法。
【請求項10】
人間のユーザの信ぴょう性を計算するコンピューティングシステムであって、
少なくとも1つのプロセッサと、
命令を格納した少なくとも1つのメモリと、を備え、
前記命令は、前記少なくとも1つのプロセッサに、
ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとの接続をインスタンス化する電子的な要求を受信すること、
質問のデータベースを用いて、前記要求に関する第1の質問を生成すること、
前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供すること、
前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表を抽出することを含む、こと、
第1の畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、第2の畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算すること、
前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成すること、
前記候補となる感情データが所定の感情を予測するか否かを判定すること、
前記候補となる感情データが前記1以上の所定の感情を予測するかどうかの判断に基づいて、
前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、
前記ユーザの信ぴょう性を決定し、決定した信ぴょう性を使用して前記ユーザの要求を決定すること、
を実行させる、コンピューティングシステム。
【請求項11】
前記第1の畳み込みニューラルネットワークは、空間畳み込みニューラルネットワークを含み、
前記第2の畳み込みニューラルネットワークは、時間畳み込みニューラルネットワークを含む、請求項10に記載のコンピューティングシステム
【請求項12】
前記命令は、前記1以上のプロセッサに、リソースのデータベースを使用して前記畳み込みニューラルネットワークの少なくとも1つをトレーニングすることをさらに実行させ、
前記リソースのデータベースは、前記所定の感情の正解を確立するためにラベル付けされた顔データを含む、請求項10に記載のコンピューティングシステム
【請求項13】
前記命令は、前記1以上のプロセッサに、
時間補間を使用して前記リソースのデータベースを正規化すること、
前記正規化されたリソースのデータベースを使用して、前記第1および第2の畳み込みニューラルネットワークの少なくとも1つをトレーニングすること、を実行させる、請求項12に記載のコンピューティングシステム
【請求項14】
前記2つの畳み込みニューラルネットワークは、前記ユーザのミクロ表現を解析する、請求項10に記載のコンピューティングシステム
【請求項15】
前記時間畳み込みニューラルネットワークは、前記音声データを分析する、請求項11に記載のコンピューティングシステム
【請求項16】
前記1以上の所定の感情は、驚き、嫌悪感または抑圧を含む、請求項10に記載のコンピューティングシステム
【請求項17】
前記第2の質問を生成することは、少なくとも前記第1の質問に対する受信された回答に基づく、請求項10に記載のコンピューティングシステム
【請求項18】
前記人間ユーザはローン申請者である、請求項10に記載のコンピューティングシステム
【請求項19】
前記コンピューティングシステムは、少なくとも7つの質問を前記ユーザに提供する、請求項10に記載のコンピューティングシステム
【請求項20】
少なくとも1つのプロセッサを有するデバイスによって実行される、ローン申請者の信ぴょう性を計算する方法であって、
ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとのビデオ接続をインスタンス化する電子的な要求を受信すること、
質問のデータベースを用いて、前記要求に関する第1の質問を生成すること、
前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供すること、
前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表を抽出することを含む、こと、
空間畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、時間畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算すること、
前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成すること、
前記候補となる感情データが所定の感情を予測するか否かを判定すること、
前記候補となる感情データが所定の感情を予測するかどうかの判断に基づいて、
前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、
前記ローン申請者の信ぴょう性を決定し、決定した信ぴょう性を使用して前記電子的な要求を決定すること、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、信ぴょう性(authenticity)を判定するためのコンピュータ化されたシステムおよび方法に関する。特に、本開示の実施形態は、人間のユーザの微小表現を使用して信ぴょう性を判定するための、発明的かつ非従来型のシステムに関する。
【背景技術】
【0002】
インターネットが広く普及するにつれて、電子取引は、対面取引に取って代わってきた。電子取引のタイプは、アイテムの購入および金銭の借用を含めて、様々であり得る。対面相互作用なしに取引相手の信ぴょう性を判定することは困難であるため、詐欺を検出する様々な方法が存在する。
【0003】
しかしながら、信ぴょう性を決定するための既存の方法は、本質的に完全ではない。それらは、取引または信用履歴を使用して申請者の信頼性を評価し、したがって、申請者に関連するデータの小集合に限定される。さらに、トランザクションまたはクレジット履歴をでっちあげることもできるので、判定が正確でない場合がある。この理由のために、既存の方法は、しばしば、取引に従事する人との対面対話または電話会話を必要とする。しかしながら、これを行うことにより、取引のコストが増加し、プロセスが遅延する。したがって、電子的な方法で信ぴょう性を正確に判定するための改善されたシステムおよび方法が必要とされている。
【発明の概要】
【0004】
本開示の一態様は、人間のユーザの信ぴょう性を計算する方法に関する。この方法は、少なくとも1つのプロセッサを有するデバイスによって実行され得る。方法は、ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとの接続をインスタンス化する電子的な要求を受信することを有し得る。方法は、質問のデータベースを用いて、前記要求に関する第1の質問を生成することを有してよい。方法は、前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供することを有し得る。方法は、前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表情を抽出することを含む、ことを有し得る。方法は、第1の畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、第2の畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算することを有し得る。方法は、前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成することを有し得る。方法は、前記候補となる感情データが所定の感情を予測するか否かを判定することを有し得る。方法は、前記候補となる感情データが前記1以上の所定の感情を予測するかどうかの判断に基づいて、前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、前記ユーザの信ぴょう性を決定し、決定した信ぴょう頼性を使用して前記電子的な要求を決定することを有し得る。
【0005】
本開示の別の態様は、人間のユーザの信ぴょう性を計算するコンピューティングシステムに関する。システムは、少なくとも1つのプロセッサと、命令を格納した少なくとも1つのメモリと、を備え得る。システムは、ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとの接続をインスタンス化する電子的な要求を受信し得る。システムは、質問のデータベースを用いて、前記要求に関する第1の質問を生成し得る。システムは、前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供し得る。システムは、前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表情を抽出することを含み得る。システムは、第1の畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、第2の畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算し得る。システムは、前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成し得る。システムは、前記候補となる感情データが所定の感情を予測するか否かを判定し得る。システムは、前記候補となる感情データが前記1以上の所定の感情を予測するかどうかの判断に基づいて、前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、前記ユーザの信ぴょう性を決定し、決定した信ぴょう頼性を使用して前記ユーザの要求を決定し得る。
【0006】
本開示のまた別の態様は、ローン申請者の信ぴょう性を計算する方法に関する。方法は、少なくとも1つのプロセッサを有するデバイスによって実行され得る。方法は、ネットワークを介して、ユーザデバイスから、前記ユーザデバイスとのビデオ接続をインスタンス化する電子的な要求を受信し得る。方法は、質問のデータベースを用いて、前記要求に関する第1の質問を生成し得る。方法は、前記ネットワークを介して、前記生成された質問を前記ユーザデバイスに提供し得る。方法は、前記接続を介して受信される映像データおよび音声データを解析することであって、この解析は、前記映像データから複数の顔表情を抽出し得る。方法は、空間畳み込みニューラルネットワークを用い、少なくとも1つの抽出された顔表現に基づいて、1以上の所定の感情に対応する第1のデータを計算するとともに、時間畳み込みニューラルネットワークを用い、少なくとも2つの抽出された顔表現および音声データに基づいて、前記1以上の所定の感情に対応する第2のデータを計算し得る。方法は、前記第1のデータおよび第2のデータを用いて、候補となる感情データを生成し得る。方法は、前記候補となる感情データが所定の感情を予測するか否かを判定し得る。方法は、前記候補となる感情データが所定の感情を予測するかどうかの判断に基づいて、前記第1のデータおよび前記第2のデータを集計するための追加データを収集すべく、第2の質問を生成すること、または、前記ローン申請者の信ぴょう性を決定し、決定した信ぴょう性を使用して前記電子的な要求を決定すること、をし得る。
【0007】
他のシステム、方法、およびコンピュータ可読媒体も、本明細書で説明される。
【図面の簡単な説明】
【0008】
図1】開示された実施形態と一致する、偽造検出システム(DDS)と通信するデバイスの例示的なネットワークを示す。
図2】開示された実施形態と一致する、ディープラーニングアルゴリズムエンジン(DLAE)によって実行される例示的な方法のフローチャートである。
図3A】開示された実施形態に一致する、クライアント動作に関してDDSによって実行される例示的な機能を示す。
図3B】開示された実施形態に一致する、サーバ動作に関してDDSによって実行される例示的な機能を示す。
図4】開示された実施形態と一致する、信ぴょう性を決定するための例示的な方法のフローチャートである。
【発明を実施するための形態】
【0009】
本開示の実施形態は、人間のユーザの信ぴょう性を判定するように構成されたシステムおよび方法を対象とする。開示された実施形態は、有利には、電子的な方法で微小表現を使用して信ぴょう性を判定することができる。微小表情は、不随意のつかの間の(fleeting)顔の動きを含むことができ、これは、わずか数分の1秒しか続かない。微小表現はまた、微小な目の動きまたは音声の微小な震えを含んでもよい。それらは微妙であり、抑圧や偽造はほとんど不可能である。微小表現は、人々が隠そうとしているかもしれない感情を明らかにすることができるので、微小表現を認識することは、ユーザの信ぴょう性を決定するのに役立つことができる。
【0010】
一実施形態では、ユーザ装置は、電子要求をサーバに送信することができる。要求に応じて、サーバーはユーザーに対して1つ以上の質問を生成することがある。ユーザデバイスは、生成された質問を受信し、ユーザの質問を表示することができる。ユーザデバイスは、ユーザから回答を受信し、その回答を深層学習アルゴリズムエンジン(DLAE)に送信することができる。DLAEは、2つの畳み込みニューラルネットワーク(CNN)を使用して、ユーザが提供する回答を分析することができる。CNNは、脳が視覚情報を処理する視覚皮質の挙動を模倣するように設計された多層パーセプトロンの生物学的に刺激された変異体である。2つのCNNからの結果は、ユーザの微小表現に関連する感情を予測する単一の分類器に統合される。感情が決定されない場合、サーバーは感情が決定されるまで、より多くの質問を生成する。感情が決定されると、決定された感情を用いてユーザの信ぴょう性が決定されてもよい。ユーザの回答は分析され、システム、例えばデータベースに保存される。
【0011】
いくつかの実施形態では、ユーザは、ローン申請者であってもよく、記載されたシステムは、銀行のような金融機関によって使用されてもよい。ユーザがローン申請者である場合、システムは、2つのCNNを使用して申請者の回答を分析することによって、申請者の信ぴょう性を判定することができる。2つのCNNは、空間CNNおよび時間CNNを含むことができる。2つのCNNからの結果は、申請者の微小表現に関連する感情を予測する単一の分類器に統合される。本システムおよび方法は、申請者の信ぴょう性を効率的かつ正確に決定し、プロセス全体を電子的に管理することができる。
【0012】
図1を参照すると、偽造検出システム(DDS)110と通信するデバイスの例示的なネットワークが示されている。図1Aに示すように、DDS 110は、ネットワーク100を介して、ディープ・ラーニング・アルゴリズム・エンジン(DLAE)120およびユーザ・デバイス130A〜130Cと通信することができる。いくつかの実施形態では、DDS 110は、例えばケーブルを使用して、直接接続を介してDLAE 120またはユーザデバイスと通信することができる。
【0013】
DDS 110は、いくつかの実施形態では、ユーザの信ぴょう性を判定するコンピュータシステムとして実装されてもよい。DDS 110は、単一のコンピュータを備えてもよく、または開示された例に関連する1つ以上のプロセスおよび機能性を実行するために相互運用する複数のコンピュータを含む分散コンピュータシステムとして構成されてもよい。いくつかの実施形態では、DDS 110は、ユーザデバイス130A〜130Cから電子要求を受信すると、ユーザ140に尋ねるための質問を生成する。
【0014】
図1に示すように、DDS 110は、プロセッサ112およびデータベース114を含むことができる。プロセッサ112は、インテル社製のペンティアムTMファミリーのマイクロプロセッサーやAMDTM社製のチュリオンTMファミリーなど、1つ以上の既知のプロセッシング装置であってもよい。プロセッサ112は、並列処理を同時に実行する単一コアまたは複数コアのプロセッサを構成してもよい。例えば、プロセッサ112は、論理プロセッサを使用して、複数のプロセスを同時に実行し、制御することができる。プロセッサ112は、複数のソフトウェアプロセス、アプリケーション、プログラムなどを実行、制御、実行、操作、格納などする能力を提供するために、仮想マシン技術または他の既知の技術を実装することができる。別の例では、プロセッサ112は、DDS 110が複数のプロセスを同時に実行することを可能にする並列処理機能性を提供するように構成された複数コアプロセッサ配置を含んでもよい。当業者は、本明細書で開示される能力を提供する他のタイプのプロセッサ構成が実装され得ることを理解するであろう。
【0015】
図1には示されていないが、DDS 110はメモリを含むことができる。メモリは、プロセッサ112によって実行されるとき、既知のオペレーティング・システム機能を実行する1つ以上のオペレーティング・システムを記憶することができる。一例として、オペレーティングシステムは、Microsoft Windows、Unix、Linux、Android、Mac OS、iOS、または他のタイプのオペレーティングシステムを含むことができる。したがって、開示された発明の例は、任意のタイプのオペレーティングシステムを実行するコンピュータシステムで動作し、機能することができる。メモリは、揮発性または不揮発性、磁気、半導体、テープ、光学、取外し可能、取外し不可能、または他のタイプの記憶装置または有形のコンピュータ可読媒体とすることができる。
【0016】
DDS 110は、少なくとも1つのデータベース114を含むことができる。データベース114は、開示された例に関連する方法およびプロセスを実行するためにプロセッサ112によって使用され得るデータを格納し得る。データベース114は、図1に示すようにDDS 110内に配置されてもよく、あるいは、DDS 110の外部に配置された外部記憶装置内に配置されてもよい。データベース114に記憶されたデータは、ユーザに尋ねる潜在的な質問に関連する情報など、任意の適切なデータを含んでもよい。質問には、任意のユーザに尋ねられる典型的な質問、またはDDS 110と対話するユーザ用にカスタマイズされた質問が含まれることがある。例示的な質問には、「収入は何ですか」、「職業は何ですか」、「現在の住所にどれだけ長く滞在したか」、「電話番号は何ですか」、および「識別番号は何ですか」が含まれ得る。
【0017】
深層学習アルゴリズムエンジン(DLAE)120は、図1に示すように、DDS 110の外部に配置されてもよい。代替的に、または追加的に、いくつかの実施形態では、DLAE 120は、DDS 110の内側に配置されてもよい。DLAE 120は、2つのCNNを使用してユーザの回答を分析することができる。図2に関して以下で論じるように、いくつかの実施形態では、2つのCNNは、空間CNN 120Aおよび時間CNN 120Bを含むことができる。空間CNN 120Aおよび時間CNNは、既知のニューラルネットワーク、例えば、VGG−16およびResNet 50であってもよい。
【0018】
空間CNN 120Aは、画像ソースからの顔について事前トレーニングされてもよく、時間CNN 120Bは、ビデオソースを使用して事前トレーニングされてもよい。CNNは、各感情についてラベル付けされたデータを有するデータセットを使用して、1つ以上の所定の感情クラスについてトレーニングされてもよい。そのようなデータセットの1つの既知の例は、ImageNetである。ImageNetは、視覚物体認識ソフトウェア研究に使用するために設計された大きな視覚データセットである。
【0019】
いくつかの実施形態では、所定の感情は、任意の数の所定の感情クラスを含むことができる。例えば、所定の感情クラスは、幸福、驚き、嫌悪、及び抑圧を含むことができる。トレーニングされたCNNは、感情クラスごとに確立された正解を有することができる。いくつかの実施形態では、CNNがトレーニングされた後、1つまたは複数の追加のデータセットを使用して、確立された正解(ground truth)の精度をチェックすることができる。正解は、ユーザの感情が測定される基準となる標準的な感情である。例えば、ユーザの微小な顔の表情が、幸福のための正解に完全に一致する場合、ユーザは100%幸福である。しかし、ユーザの微小表現が幸福のための地上の真実と一致するのは50%だけならば、ユーザは50%幸福である。2つのCNNからの結果は、ユーザの微小表現に関連する感情を予測する単一の分類器に統合される。
【0020】
いくつかの実施形態では、ビデオおよびオーディオを含むユーザの描写は、DLAE 120が描写を分析する前に前処理されてもよい。いくつかの実施形態では、DLAE 120は、DLAE 120がユーザを表すビデオを受信した後に、ビデオからフレームを抽出することができる。作成される抽出周波数は、予め決定される。いくつかの実施形態では、DLAE 120は、受信したビデオから10秒ごとにフレームを抽出することができる。正確な画像は、空間CNN 120A及び時間的CNN 120Bを用いて解析することができる。
【0021】
上述したように、抽出されたフレームを使用して、DLAE 120は、各感情クラスについて、ユーザの顔表現が正解にどの程度類似しているかを決定することができる。例えば、DLAE 120は、空間CNN 120Aを使用して、抽出されたフレーム内の目、まぶた、鼻、口などの位置および動作を分析することができる。例えば、フレームは、確立された正解と比較して、ユーザが30%不安、50%抑制、70%驚き、および20%幸せであることを示すユーザの微小表現を含むことができる。分析された結果は、時間的CNN 120Bの入力として使用されてもよい。時間的CNN 120Bは、時間の経過に伴うユーザの微小表現の変化を分析することができる。いくつかの実施形態では、時間的CNNは、ユーザの頭の揺れ、頭のうなずき、または微小眼球運動を分析することができる。時間的CNN 120Bはまた、音声微小振動を認識することができる。
【0022】
空間CNN 120Aと時間的CNN 120Bからの結果を組み合わせてもよい。いくつかの実施形態では、DLAE 120は、アンサンブル方法、すなわち、複数の学習アルゴリズムを使用して、2つの結果を組み合わせることができる。いくつかの実施形態では、結合された結果は、ロジスティック回帰モデルを使用してさらに分析されてもよい。
【0023】
結合された結果120Cに基づいて、DLAE 120は、ユーザの信ぴょう性を決定するために使用されることができるユーザの感情を決定することができる。感情が決定されない場合、DDS 110は、より多くの質問を生成することができる。追加の質問に対する回答は、DLAE 120によってさらに分析することができる。DDS 110は、ユーザの感情が決定されるまで質問を生成し続けることができる。
【0024】
DDS 110およびDLAE 120は、タブレット130A、モバイルデバイス/PDA 130B、コンピュータ130Cなどのユーザデバイスと通信することができる。ユーザデバイス130A〜130Cは、ディスプレイを含むことができる。ディスプレイは、例えば、液晶ディスプレイ、発光ダイオードスクリーン、有機発光ダイオードスクリーン、タッチスクリーン、および他の公知のディスプレイデバイスを含んでもよい。ディスプレイは、ユーザに様々な情報を表示することができる。例えば、これは、サーバによって生成された質問、またはDLAE 120によって決定された結果を表示することができる。
【0025】
ユーザデバイス130A〜130Cは、1つまたは複数の入出力(I/O)デバイスを含むことができる。I/Oデバイスは、ユーザデバイス130A〜130Cがユーザ140A〜140Cまたは別のデバイスから情報を送受信することを可能にする1つまたは複数のデバイスを含むことができる。I/Oデバイスは、様々な入出力デバイス、カメラ、マイクロフォン、キーボード、マウスタイプのデバイス、ジェスチャセンサ、アクションセンサ、物理ボタン、口頭入力などを含むことができる。例えば、ユーザは、ユーザデバイス130A〜130Cのカメラおよびマイクロフォンを介して、ユーザの顔のビデオをDDS 110に提供することができる。I/Oデバイスはまた、例えば、ユーザデバイス130A〜130Cとネットワーク100との間の有線または無線接続を確立することによって、DDS 110から情報を送受信するための1つまたは複数の通信モジュール(図示せず)を含むことができる。
【0026】
ユーザ装置130A〜130Cは、ビデオカメラを備えていてもよく、あるいは、遠隔ビデオカメラに接続されていてもよい。ユーザデバイス130A〜130Cは、ビデオ信号およびオーディオ信号をDDS 110に送信することができる。いくつかの実施形態では、ビデオ信号およびオーディオ信号は、例えば、MPEG−4、MPEG−2、ロスレスコーデック、または他のコーデックを含むコーデックを使用して圧縮され得る。一部の実施形態では、MPEG−4およびMPEG−2を使ってシグナルを圧縮することができる。いくつかの実施形態では、ビデオ信号およびオーディオ信号は、異なるコーデックを使用して別々に符号化および/または圧縮されてもよい。
【0027】
ユーザ140A〜140Cは、DDS 110に電子要求を提供する任意の人であってもよい。いくつかの実施形態では、ユーザ140A〜140Cは、ローン申請者であってもよい。場合によっては、DDSは、銀行および信用組合などの金融機関によって採用されてもよい。ユーザ140A〜140Cは、ユーザデバイス130A〜130Cを使用して、DDS 110から質問を受信し、DDS 110に回答を提供することができる。申請者の回答は、DLAE 120によって分析することができる。
【0028】
図2は、開示された実施形態と一致する、ディープラーニングアルゴリズムエンジン(DLAE)によって実行される例示的な方法のフローチャートである。DLAE 120は、ユーザデバイス130A〜130Cを介してユーザ140A〜140Cからロウデータ(raw data)210を受信することができる。ロウデータ210は、1つ以上の質問に応答して、ユーザの回答にビデオおよび/または音声を含むことができる。上で説明したように、ロウデータ210内の表情および音声は、2つの畳み込みニューラルネットワーク(CNN)を使用して分析することができる。
【0029】
CNNを使用する分析を通して、DLAE 120は、微小表情、微小眼球運動、および音声微小震えなどのユーザの微小表情を検出することができる。上記で説明したように、DLAE 120は、空間CNN 120Aおよび時間CNN 120Bを使用して、ユーザのビデオおよび/またはオーディオを分析することができる。結合された結果を使用して、DLAE 120は、感情を中間結果220として決定することができる。中間結果220は、予め決定された感情にわたる確率分布であってもよい。
【0030】
いくつかの実施形態では、中間結果を使用して、ユーザの信ぴょう性を判定することができる。信ぴょう性は、決定された感情に基づいてスコア付けされてもよい。スコアがしきい値を上回る場合、ユーザは真実(truthful)であると見なされてもよく、スコアがしきい値を下回る場合、ユーザは真実でない(untruthful)と見なされてもよい。
【0031】
図3Aは、DDS 110のクライアント側における例示的なモジュールを示す。これらのモジュールは、クライアント対話に関してDDS 110によって実行される機能を例示する。クライアント側とサーバ側の間の分割は説明目的であり、分割はすべての実施形態において要求されるわけではない。DDS 110のクライアント側は、問題ベース対話モジュール300、オーディオ及びビデオ取得モジュール310、並びにオーディオ及びビデオ特徴抽出モジュール320を含むことができる。問題ベース対話モジュール300は、質問生成モジュール302、質問選択モジュール304、問い合わせ決定モジュール306、および問題ヒントモジュール308を含むことができる。
【0032】
質問生成モジュール302は、ユーザデバイス130A〜130Cから電子要求を受信すると、質問を生成することができる。質問選択モジュール304は、ユーザ140に問い合わせるために、1つ以上の質問を選択することができる。いくつかの実施形態では、質問の生成および質問は、例えば、テキスト質問を提示することによって、またはテキスト音声モジュールを使用することによって、電子的に行うことができる。
【0033】
質問選択モジュール304は、ユーザに尋ねることができる潜在的な質問を含む適切なデータセットを格納するデータベース114を使用することができる。例えば、データベース114は、ユーザの収入、職業、住所、電話番号、または識別に関する潜在的な質問を含むことができる。ユーザ140A〜140Cのための質問を選択する際に、質問選択モジュール304は、1つまたは複数の以前の質問に対するユーザの以前の回答を含む、ユーザが提供した任意の情報を考慮することができる。いくつかの実施形態では、質問に対するユーザの回答が曖昧である場合、質問選択モジュール304は、次の質問を選択して、質問に対する回答を明確にすることができる。いくつかの実施形態では、質問選択モジュール304は、生成された質問を、その重要性および必要性に従ってランク付けすることができる。
【0034】
問い合せ決定モジュール306は、DDS 110が、ユーザの感情を決定するためにさらなる質問をする必要があるかどうかを決定することができる。例えば、1つ以上のユーザの以前の回答の分析結果は、ユーザの感情を決定するのに十分ではなく、問い合わせ決定モジュール306は、さらなる質問が必要であることをDDS 110に信号で伝えることができる。
【0035】
問題ヒントモジュール308は、ユーザの回答が様々な予想される潜在的な回答から予想以上に逸脱したときに、ユーザ140A〜140Cに1つまたは複数のヒントを提供することができる。いくつかの実施形態では、問題ヒントモジュール308は、現在の質問に対する適切な回答を提案するように機能することができる。例えば、DDS 110は、ローン申請者に、「どの月のどの日にローンのための分割払いを支払うか」を尋ねることができる。
【0036】
ユーザは質問を誤解し、「水曜日」と答えるかもしれない。その場合、DDS 110は問題のヒント308を提供し、「毎月どの日付?」と尋ねてもよい。オーディオおよびビデオ収集モジュール310は、オーディオ/ビデオ符号化モジュール312を含み、サーバモジュール314を保存およびアップロードすることができる。オーディオ/ビデオ符号化モジュール312は、ユーザデバイス130A〜130Cから受信されたロウデータが保存され、DDS 110にアップロードされる前に、それらのロウデータを符号化することができる。コーディングは、ロウデータ210を、DDS 110および/またはDLAE 120によってアクセスされ、修正され、または分析され得る異なるフォーマットに変更し得る。上述したように、コーデックは、MPEG−4、MPEG−2、可逆コーデック、または他のコーデックを含むことができる。保存およびアップロードサーバモジュール314は、符号化されたロウデータをDDS 110に保存することができる。
【0037】
ユーザのオーディオ及びビデオが保存され、DDS 110にアップロードされた後、オーディオ及びビデオの特徴が抽出され得る。オーディオおよびビデオ特徴抽出モジュール320は、オーディオ特徴モジュール322、ビデオ特徴モジュール324、および特徴データアップロードサーバモジュール326を含み得る。いくつかの実施形態では、オーディオ特徴モジュール332はオーディオデータを抽出することができ、ビデオ特徴モジュール324はビデオデータを抽出することができる。抽出は、所定の周波数で行われてもよい。例えば、オーディオ機能モジュール322およびビデオ機能モジュール324は、受信されたビデオから10秒ごとにオーディオおよび/またはフレームを抽出することができる。正確な画像は、空間CNN 120A及び時間的CNN 120Bを用いて解析することができる。
【0038】
図3Bは、DDS 110のサーバ側における例示的なモジュールを示す。これらのモジュールは、DLAE 120などのシステム間の内部対話に関してDDS 110によって実行される機能を例示する。上述したように、クライアント側とサーバ側との間の分割は、例示の目的のためであり、分割は、全ての実施形態において必要とされるわけではない。DDS 110におけるサーバ側モジュールは、ストリーミングメディアモジュール330、ビジネスインターフェースモジュール340、オーディオおよびビデオ分析モジュール350、ならびにモデル計算モジュール360を含み得る。
【0039】
ストリーミング・メディア・モジュール330は、記録および保存モジュール332およびブロードキャスト・モジュール334を含むことができる。オーディオおよびビデオ特徴抽出モジュール320を介して抽出されたデータは、記録および保存モジュール332によって、放送のためにサーバに記録および保存され得る。サーバは、図3Aで抽出されたデータを保存するために使用されるサーバと同じサーバであってもよいが、DDS 110に配置された異なるサーバであってもよい。いくつかの実施形態では、サーバは、DDS 110の外部に配置されてもよい。MPEG−4、MPEG−2、可逆コーデック、または他のビデオコーデックなどのコーデックを使用して、オーディオおよびビデオデータを保存することができる。
【0040】
放送モジュール334は、記録および保存モジュール332によってサーバに保存されたビデオおよびオーディオデータを放送することができる。上述したように、オーディオ及びビデオは、放送される前に前処理されてもよい。放送334されることによって、記録され、保存されたオーディオおよびビデオは、それらのピクセルデータおよびオプティカルフローデータを空間CNN 120Aおよび時間CNN 120Bに送ることができる。
【0041】
ビジネス・インターフェース・モジュール340は、問題ベース論理モジュール342およびビジネス・システム・モジュール344を含むことができる。いくつかの実施形態では、ビジネスインターフェースモジュール340は、ビジネスシステムモジュール344とDSS 110および/またはDLAE 120との間の通信を実行することができる。いくつかの実施形態では、ビジネスインターフェースモジュール340は、DLAE 120をビジネスシステム344に接続するためのソフトウェアインターフェースである。ソフトウェアインタフェースは、アプリケーションが通信するために使用する言語とコードである可能性がある。
【0042】
ビジネスシステムモジュール344は、DLAE 120と通信し、決定されたユーザの信ぴょう性データをDLAE 120から受信することができる。上述したように、信ぴょう性は、決定された感情に基づいてスコア付けされてもよい。いくつかの実施形態では、スコアがしきい値を上回る場合、ユーザは真実であると見なされてもよい。ユーザが決定した信ぴょう性に基づいて、ビジネス・システム・モジュール344は、ビジネス決定、例えば、ローン承認または拒否決定を行うことができる。
【0043】
問題ベース論理モジュール342は、ビジネス・システム・モジュール344がビジネス決定を行うのを支援することができる。問題ベース論理モジュール342は、ユーザの回答、またはユーザによって提供される任意の追加情報を分析して、ユーザとビジネスを行う価値があるかどうかを判定することができる。例えば、ユーザが、ユーザの収入が平均よりはるかに低いと答えた場合、および/または、ユーザが年間収入の2倍を超える負債を有する場合、ビジネスシステムモジュール344は、ユーザが強力な財務能力を有さない可能性があると判断することができ、これは、ユーザとのビジネスを行う可能性を低下させることができる。
【0044】
いくつかの実施形態では、ユーザはローン申請者であってもよい。実施形態では、ビジネスシステムモジュール344は、申請者の決定された信ぴょう性に基づいてローン承認決定を行うことができる。ビジネス・インターフェース・モジュール340を介して、ビジネス・システム・モジュール344は、DDS 110および/またはDLAE 120から、決定された申請者の信ぴょう性を受け取ることができる。問題ベース論理モジュール342は、ローン申請者の回答または提出されたローン申込を分析して、申請者の財務能力を評価することができる。評価された申請者の財務能力に基づいて、ビジネスシステムモジュール344は、承認されたローンの金利をさらに決定することもできる。例えば、ビジネス・システム・モジュール344は、より良好な金融能力を有する者に対して、より低い金利を決定することができる。
【0045】
オーディオおよびビデオ分析モジュール350は、空間CNN 120Aおよび時間120Bを使用して、ブロードキャストされたオーディオおよびビデオデータを分析することができる。オーディオ及びビデオ分析モジュール350は、顔特徴モジュール352及び声紋特徴モジュール354を含むことができる。顔面特徴モジュール352は、2つのCNN、空間CNN 120Aおよび時間CNN 120Bを使用して分析され得る。2つのCNNからの結果は、ユーザの微小表現に関連する感情を予測する単一の結合結果120Cに統合される。声紋特徴モジュール354は、時間的CNN 120Bを使用して、ブロードキャストされたオーディオデータを分析することができる。上述したように、時間的CNNは、スピーチマイクロトレンブリングを検出することができる。
【0046】
モデル計算モジュール360は、表現分析モジュール362および声紋分析モジュール364を含むことができる。表情分析モジュール362は、顔特徴モデル352から結果を受け取り、ユーザの表情から示されるユーザの感情を計算することができる。声紋分析モジュール362は、声紋特徴354から結果を受信し、ユーザの声の震えから示されるユーザの感情を計算することができる。いくつかの実施形態では、音声は、音声データを含むデータベースを使用してトレーニングされた1つ以上のCNNを使用して分析されてもよい。表現分析モジュール362および声紋分析モジュール364からの計算が組み合わされる。結合された結果に基づいて、モデル計算モジュール360は、ユーザの感情を決定することができる。
【0047】
図4は、偽装検出方法の一例を示すフローチャートである。偽装検出方法は、ユーザデバイス130A〜130C、偽装検出システム(DDS)110、深層学習アルゴリズムエンジン(DLAE)120、およびデータベース114を含むステップを備えることができる。
【0048】
ステップ402において、ユーザデバイス130A〜130Cは、ユーザ(例えば、図1のユーザ140A)のための電子要求を生成することができる。いくつかの実施形態では、ユーザ140Aは、ローン申請者であってもよく、電子要求は、申請者がローン申請を提出するときに生成されてもよい。ステップ412において、DDS 110は、要求を受信することができ、ユーザ140A〜140Cのための1つまたは複数の質問を生成することができる。質問は、ユーザの収入、職業、住所、電話番号、または識別に関するものとすることができる。ステップ404において、ユーザデバイス130A〜130Cは、生成された質問をDDS 110から受信し、その質問をユーザデバイス130A〜130C上に表示することができる。
【0049】
ステップ406において、ユーザデバイス130A〜130Cは、ユーザ140A〜140Cから回答を受信し、その回答をDLAE 120に送信することができる。ステップ422において、DLAE 120は、上記で説明したように、2つのCNNを使用して、受信した応答を分析することができる。ステップ424において、DLAE 120は、分析結果を使用して、ユーザの感情が判定されるかどうかを判定することができる(424)。DLAE 120が感情検出について明確な結果を得ると、感情が決定されたと考えることができる。ステップ432において、分析結果は、DDS 110が将来使用することができるデータベース114に記憶される。
【0050】
ステップ426において、DLAE 120は、ユーザの感情を決定し、これをユーザ装置130A〜130Cと通信する。図3Bで上述したように、決定された感情は、DDS 110がユーザの信ぴょう性を計算し、最終的にビジネス決定を行うために使用されてもよい。ステップ408において、ユーザデバイス130A〜130Cは、ユーザの電子要求に応答して、決定されたビジネス決定を表示することができる。
【0051】
ステップ424でユーザの感情が判定されない場合、DLAE 120は、追加の質問が必要であることをDDS 110に信号で伝えることができる。したがって、ステップ412において、DDS 100は、1つまたは複数のさらなる質問を生成することができる。上述したように、ステップ422において、DLAE 120は、ユーザの追加の回答を分析することができる。DDS 110は、DLAE 120がユーザの感情が決定されると決定するまで、追加の質問を生成することができる。分析された回答は、データベース114に記憶されてもよい。上で説明したように、DDS 110は、適応学習能力を有し、ユーザと対話し、ユーザからのより多くのデータを記憶し、顧客が嘘をついているかもしれないことを検出したときにより鋭い質問を生成することができるので、改善することができる。
図1
図2
図3A
図3B
図4