IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シーユーボックス カンパニー リミテッドの特許一覧

特表2024-531549顔映像を利用したアクティブライブネス検出方法および装置
<>
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図1
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図2
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図3
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図4
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図5
  • 特表-顔映像を利用したアクティブライブネス検出方法および装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-29
(54)【発明の名称】顔映像を利用したアクティブライブネス検出方法および装置
(51)【国際特許分類】
   G06V 40/40 20220101AFI20240822BHJP
   G06T 7/20 20170101ALI20240822BHJP
   G06T 7/00 20170101ALI20240822BHJP
   G06V 10/82 20220101ALI20240822BHJP
【FI】
G06V40/40
G06T7/20 300B
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024514015
(86)(22)【出願日】2022-03-28
(85)【翻訳文提出日】2024-03-01
(86)【国際出願番号】 KR2022004293
(87)【国際公開番号】W WO2023033287
(87)【国際公開日】2023-03-09
(31)【優先権主張番号】10-2021-0116673
(32)【優先日】2021-09-02
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523419048
【氏名又は名称】シーユーボックス カンパニー リミテッド
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】ナム, ウン ソン
(72)【発明者】
【氏名】ナム, ヨン ハン
【テーマコード(参考)】
5B043
5L096
【Fターム(参考)】
5B043AA05
5B043BA04
5B043BA05
5B043CA03
5B043EA06
5B043GA02
5L096AA06
5L096CA04
5L096DA02
5L096FA09
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
顔映像を利用したアクティブライブネス検出方法は、認証装置が使用者認証のための命令語を生成する段階、前記認証装置が前記命令語を画面に出力し、前記出力された命令語を発音する使用者の顔映像を撮影する段階、および前記認証装置が前記顔映像から口の形の変化に対する特徴点を抽出して前記使用者が前記命令語を真似て発音したかを判断する段階を含む。
【選択図】図1

【特許請求の範囲】
【請求項1】
認証装置が使用者認証のための命令語を生成する段階;
前記認証装置が前記命令語を画面に出力し、前記出力された命令語を発音する使用者の顔映像を撮影する段階;および
前記認証装置が前記顔映像から口の形の変化に対する特徴点を抽出して前記使用者が前記命令語を真似て発音したかを判断する段階;を含む、アクティブライブネス検出方法。
【請求項2】
前記生成する段階は、顔の撮影が可能な範囲内に前記使用者が入ってきたことを識別すれば前記命令語を生成する、請求項1に記載のアクティブライブネス検出方法。
【請求項3】
前記命令語は複数個の音節のうちランダムに選択された一定個数の音節である、請求項1に記載のアクティブライブネス検出方法。
【請求項4】
前記一定個数の音節は、
ハングルの母音のうち発音の形が区分される一部の母音および前記一部の母音と結合時に両唇音となる子音間の組み合わせと、
前記発音の形が区分される一部の母音および前記一部の母音と結合時に両唇音とならない子音間の組み合わせからランダムに選択される、請求項3に記載のアクティブライブネス検出方法。
【請求項5】
前記判断する段階は、前記顔映像から抽出された口の形の特徴点が前記命令語に含まれた一定個数の音節をそれぞれ発音するための口の形の特徴点と類似しているかを判断する、請求項1に記載のアクティブライブネス検出方法。
【請求項6】
前記判断する段階は、前記顔映像から抽出された顔筋肉の特徴点が前記命令語に含まれた一定個数の音節間の顔の変化に対する特徴点にマッチングされるかを判断する、請求項1に記載のアクティブライブネス検出方法。
【請求項7】
前記認証装置はゲートの開閉を制御する制御装置と連結されて前記判断結果に応じて前記制御装置に制御信号を伝送する、請求項1に記載のアクティブライブネス検出方法。
【請求項8】
顔の撮影が可能な範囲内に使用者が入ってきたかを識別するセンサ;
前記使用者の認証のための命令語を生成するために複数個の音節に対するデータを保存する保存装置;
前記命令語を画面に出力し、前記出力された命令語を発音する使用者の顔映像を撮影する出力装置;および
前記複数個の音節に対するデータを利用して一定個数の音節からなる前記命令語を生成し、前記顔映像から特徴点を抽出して前記使用者が前記命令語を真似て発音したかを判断する演算装置;を含む、アクティブライブネス検出装置。
【請求項9】
前記一定個数の音節は、
ハングルの母音のうち発音の形が区分される一部の母音および前記一部の母音と結合時に両唇音となる子音間の組み合わせと、
前記発音の形が区分される一部の母音および前記一部の母音と結合時に両唇音とならない子音間の組み合わせからランダムに選択される、請求項8に記載のアクティブライブネス検出装置。
【請求項10】
前記演算装置は前記顔映像から抽出された口の形の特徴点が前記命令語に含まれた一定個数の音節をそれぞれ発音するための口の形の特徴点と類似しているかを判断する、請求項8に記載のアクティブライブネス検出装置。
【請求項11】
前記演算装置は前記顔映像から抽出された顔筋肉の特徴点が前記命令語に含まれた一定個数の音節間の顔の変化に対する特徴点にマッチングされるかを判断する、請求項8に記載のアクティブライブネス検出装置。
【請求項12】
前記演算装置は前記顔映像を分析するディープラーニングモデルを含み、
前記ディープラーニングモデルに前記顔映像を入力して出力された結果により前記使用者の発音を判断する、請求項8に記載のアクティブライブネス検出装置。
【請求項13】
前記演算装置は前記判断結果によりゲートの開閉を制御する制御装置に制御信号を伝送する、請求項8に記載のアクティブライブネス検出装置。

【発明の詳細な説明】
【技術分野】
【0001】
開示された技術は、命令語を発音する使用者の顔映像を利用してライブネスを検出する方法および装置に関する。
【背景技術】
【0002】
非対面サービス環境の増加により、顔認識市場の規模が成長するにつれて顔認識技術を活用した多様なサービスが発売されている中、ライブネス(Liveness)検出乃至はアンチスプーフィング(Anti Spoofing)に対する重要性が日増しに増加している。
【0003】
このような重要性に起因して多様なライブネス検出方法に対する研究と製品に対する開発が進行されているが、商用化される殆どの顔認識システムに内蔵されたライブネス検出技術が追加的なセンサや特殊なカメラを利用した方式に基づいているため、実際の使用者観点の接近性が落ちる。
【0004】
最近RGBカメラ基盤の多様な顔ライブネス検出防止技法が現れているが、依然として特定センサおよび環境条件でのみ動作したり、プリントされた紙に穴を開けたり、メディアストリーミングアタックなどに脆弱である結果を示したりすることにより、RGBカメラなどの汎用カメラ上での利用がより安定的なライブネス検出技術に対する必要性が増加している。
【0005】
一方、RGBカメラ基盤の顔ライブネス検出のための方法は、使う映像フレームにより、静止映像のみを使う単一フレーム基盤(Single frame based)方式と一つ以上のフレームを使うマルチフレーム基盤(Multi frame based)方式に区分することができ、使用者の動作を要求するかにより、アクティブ方式とパッシブ方式に区分することができる。
【0006】
既存に具現されて提供されるマルチフレーム基盤方式のライブネス検出方式は、使用者の頭を画面の指示にしたがって回すようにしたり、目を瞬くようにしたり口を開けたりするなどの一つの動作を誘導したり、二つ以上の動作を組み合わせて判断する方式に従ったが、該当方式は誘導できる使用者の動作の組み合わせが制限的であるため、メディアストリーミング攻撃には依然として脆弱な構造を有する問題があった。
【発明の概要】
【発明が解決しようとする課題】
【0007】
開示された技術はランダムに生成された命令語を使用者が発音するようにし、使用者が命令語を発音する顔映像を獲得してライブネスを検出する方法および装置を提供するところにある。
【課題を解決するための手段】
【0008】
前記の技術的課題を達成するために開示された技術の第1側面は、認証装置が使用者認証のための命令語を生成する段階、前記認証装置が前記命令語を画面に出力し、前記出力された命令語を発音する使用者の顔映像を撮影する段階、および前記認証装置が前記顔映像から口の形の変化に対する特徴点を抽出して前記使用者が前記命令語を真似て発音したかを判断する段階を含むアクティブライブネス検出方法を提供するところにある。
【0009】
前記の技術的課題を達成するために開示された技術の第2側面は、顔の撮影が可能な範囲内に使用者が入ってきたかを識別するセンサ、前記使用者の認証のための命令語を生成するために複数個の音節に対するデータを保存する保存装置、前記命令語を画面に出力し、前記出力された命令語を発音する使用者の顔映像を撮影する出力装置、および前記複数個の音節に対するデータを利用して一定個数の音節からなる前記命令語を生成し、前記顔映像から特徴点を抽出して前記使用者が前記命令語を真似て発音したかを判断する演算装置を含むアクティブライブネス検出装置を提供するところにある。
【発明の効果】
【0010】
開示された技術の実施例は次の長所を含む効果を有することができる。ただし、開示された技術の実施例がこれをすべて含まなければならないという意味ではないので、開示された技術の権利範囲はこれによって制限されるものと理解されてはならないであろう。
【0011】
開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出方法および装置は、リアルタイムで生成される命令語を通じて使用者のライブネスを検出する効果がある。
【0012】
また、無意味な意味を有する音節で組み合わせられた命令語を毎回生成するので、命令語の流出による問題を防止する効果がある。
【0013】
また、音節を発音する口の形の変化に対する特徴点と音節間の顔筋肉の変化に対する特徴点に基づいてライブネスを検出して正確度を改善する効果がある。
【図面の簡単な説明】
【0014】
図1】開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出するシステムに対する例である。
【0015】
図2】開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出方法に対するフローチャートである。
【0016】
図3】開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出装置に対するブロック図である。
【0017】
図4】ハングルの母音のうち区別可能な一部の母音を選別したものを示した図面である。
【0018】
図5】一定個数の語節で生成された命令語を示した図面である。
【0019】
図6】顔映像から特徴点を抽出することを示した図面である。
【発明を実施するための形態】
【0020】
本発明は多様な変更を加えることができ、多様な実施例を有することができるところ、特定実施例を図面に例示して詳細な説明に詳細に説明しようとする。しかし、これは本発明を特定の実施形態に対して限定しようとするものではなく、本発明の思想および技術範囲に含まれるすべての変更、均等物乃至代替物を含むものと理解されるべきである。
【0021】
第2、A、Bなどの用語は多様な構成要素を説明するのに使われ得るが、該当構成要素は前記用語によって限定されはせず、ただし一つの構成要素を他の構成要素から区別する目的でのみ使われる。例えば、本発明の権利範囲を逸脱することなく第1構成要素は第2構成要素と命名され得、同様に第2構成要素も第1構成要素と命名され得る。および/またはという用語は複数の関連した記載された項目の組み合わせまたは複数の関連した記載された項目のうちいずれかの項目を含む。
【0022】
本明細書で使われる用語で単数の表現は、文脈上明白に異なって解釈されない限り複数の表現を含むものと理解されるべきである。そして、「含む」などの用語は説示された特徴、個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを意味し得、一つまたはそれ以上の他の特徴や個数、段階動作構成要素、部分品またはこれらを組み合わせたものなどの存在または付加の可能性を排除しないものと理解されるべきである。
【0023】
図面に対する詳細な説明に先立ち、本明細書での構成部に対する区分は各構成部が担当する主機能別に区分したものに過ぎないことを明確にしておきたい。すなわち、以下で説明する2個以上の構成部が一つの構成部で統合されたり、または一つの構成部がより細分化された機能別に2個以上に分化されて備えられてもよい。
【0024】
そして、以下で説明する構成部それぞれは、自身が担当する主機能以外にも他の構成部が担当する機能のうち一部又は全部の機能を追加的に遂行してもよく、構成部それぞれが担当する主機能のうち一部の機能が他の構成部によって専担されて遂行されてもよいことは言うまでもない。したがって、本明細書を通じて説明される各構成部の存在の有無は機能的に解釈されるべきである。
【0025】
図1は、開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出するシステム100に対する例である。図1を参照すると、認証装置110は使用者の認証のための命令語を生成し、使用者が命令語を真似て発音することを撮影することができる。そして、撮影した顔映像から口の形と顔筋肉の変化を分析して使用者が提示された命令語を真似て発音したかを判断することができる。
【0026】
認証装置110は使用者の顔映像を撮影する。映像撮影のためにカメラを搭載することができる。認証装置110はカメラの種類によって撮影可能な距離が決定され得、撮影可能な範囲内に使用者が入ってきたことを感知すると、使用者の認証のための命令語を生成することができる。そして、カメラを駆動して使用者の顔映像を撮影することができる。認証装置110が撮影した顔映像には、使用者が命令語を真似て発音する過程で口の形の変化と顔筋肉の変化が含まれる。認証装置110は口の形の変化および顔筋肉の変化に対する特徴点を抽出し、これを命令語に対する特徴点と比較することができる。
【0027】
一方、開示された技術で言及する命令語は使用者のライブネスをチェックするためのものであり、認証装置110に接近した使用者が実際の人であれば誰でも十分に真似て発音できる一定個数の音節を意味する。命令語は複数個の音節のうち命令語として使う一定個数の音節をランダムに選択することができる。
【0028】
一方、一部の音節は発音する口の形が差がない場合が存在する。例えば、「ゴ」や「オ」の場合、同一の母音の上にそれぞれ
【数1】
が結合された音節であるが、実際に発音する時の口の形は互いに区分されない。したがって、認証装置110は事前に発音する時に口の形が区分される一部の音節をデータベース120に保存し、命令語生成時に一部の音節でランダムに一定個数を選択して命令語を生成することができる。
【0029】
一方、口の形を区分するために認証装置110はハングルの母音のうち発音の形が区分される一部の母音および一部の母音と結合時に両唇音となる子音間の組み合わせと、発音の形が区分される一部の母音および一部の母音と結合時に両唇音とならない子音間の組み合わせをデータベース120に保存することができる。そして、これらのうちランダムに選択される一定個数の音節を命令語として生成することができる。
【0030】
一方、データベース120にはそれぞれの音節ごとに互いにマッチングされる口の形の特徴点が共に保存され得る。例えば、「オ」という音節と共に「オ」を発音する時の口の形に対する特徴点情報が共に保存され得る。データベース120に保存された音節それぞれには特徴点情報がマッチングされており、これは使用者の顔映像から抽出した特徴点と比較するのに利用され得る。認証装置110は顔映像から抽出した口の形の変化に対する特徴点と命令語に対する特徴点を比較して、使用者が命令語を真似て発音したかを判断することができる。この時、命令語に含まれた音節の個数に応じて順次分割して1:1に類似度を比較することができる。例えば、命令語に含まれた音節の個数が5個であれば、使用者の顔映像から抽出した特徴点を5分割し、それぞれ順次類似度を比較することができる。この過程で類似度が臨界値を超過すれば命令語を真似て正確に発音したと判断することができる。図1ではハングルの音節を例示として挙げたが、英語や他の言語の音節も同じ原理で適用が可能である。例えば、英語の場合、全体のアルファベット26個のうち発音が区別されない一部のアルファベットを除いた残りをデータベース120に保存した後、これらのうちランダムに一定個数だけ選択して命令語を生成することができる。
【0031】
一方、認証装置110は命令語を発音する過程中に音節と音節間の顔筋肉の変化を利用してライブネスをさらに精巧にチェックすることができる。人が特定音節を発音した後に次の音節を発音する時、音節と音節間に顔筋肉の変化は誰でも類似する形態であり得る。すなわち、実際の人が音節を発音するものであれば、どの人が命令語を真似ても音節と音節間の顔筋肉の変化は類似する特徴点で現れ得る。したがって、事前にデータベース120に保存された音節を基準にすべての場合の数に対応する顔筋肉の変化に対する特徴点情報を保存し、今後使用者の顔映像で顔筋肉の変化に対する特徴点と比較してライブネスを判断することができる。一実施例で、命令語に含まれた音節の個数が5個であれば、使用者の顔映像から抽出した特徴点をまず5分割した後、最初に分割された特徴点の最後と二番目に分割された特徴点の最初を結合して、最初の音節と二番目の音節間の顔筋肉の変化に対する特徴点として判断することができる。そして、データベース120に保存された特徴点と比較してライブネスをより精巧に判断することができる。
【0032】
一方、使用者が命令語を真似て正確に発音したと判断すれば、認証装置110はゲートの開閉を制御する制御装置に制御信号を伝送して使用者がゲートを通過するようにすることができる。認証装置110はゲートを制御する制御装置と連結されてもよく、二つの装置が互いに一つに結合されてもよい。互いに別途の装置であれば認証装置110が制御装置に制御信号を伝送してゲートを制御することができ、互いに同一の装置であればすぐにゲートを制御することができる。したがって、リアルタイムで生成する命令語を利用してアクティブライブネスをチェックすることによって、ゲート出入りのためのパスワードの流出を防止し、セキュリティ性を強化することができる。
【0033】
図2は、開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出方法に対するフローチャートである。図2を参照すると、アクティブライブネス検出方法200は命令語生成段階210、顔映像撮影段階220および発音判断段階230を含む。各段階は認証装置を通じて順次遂行され得る。
【0034】
210段階で認証装置は使用者認証のための命令語を生成する。命令語は複数の音節のうちランダムに選択された一定個数の音節であり、命令語を生成する過程は図1を通じて説明した通りである。認証装置は事前に設定された値により命令語として生成する音節の個数が決定され得る。210段階で命令語の生成時点は使用者が顔の撮影が可能な範囲内に入ってきた時点であり得る。
【0035】
220段階で認証装置は使用者の顔映像を撮影する。顔映像の撮影に先立ち、認証装置は使用者に生成された命令語を出力することができる。例えば、装置の内部的に生成された命令語を画面を通じて出力することができる。そして、出力された命令語を真似て使用者が発音する時の顔映像を撮影する。
【0036】
230段階で認証装置は顔映像から口の形の変化に対する特徴点を抽出して使用者が命令語を真似て発音したかを判断する。230段階で認証装置は使用者の顔映像から抽出された口の形の特徴点が命令語に含まれた一定個数の音節をそれぞれ発音するための口の形の特徴点と類似しているかを比較して使用者が命令語を正確に発音したかを判断することができる。この時、顔映像から抽出された顔筋肉の特徴点が命令語に含まれた一定個数の音節間の顔の変化に対する特徴点にマッチングされるかも比較して、より精巧なライブネスを検出することができる。
【0037】
従来の音声認識基盤の認証技術の場合には事前に使用者がパスワードとして登録した単語や語節を利用することができるが、この場合、事前に登録された情報が流出する問題があったし、音声の類似度を比較する方式の認証技術の場合は機械的に登録された使用者の音声と類似する音声を生成するものであって、許可されていない者が認証を通過する問題点があった。本技術はこのような問題点を解決するために、リアルタイムでランダムに生成される命令語を利用して使用者のライブネスをチェックできるため、正確に使用者本人を認証する長所がある。
【0038】
図3は、開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出装置に対するブロック図である。検出装置300はPC、ノートパソコン、スマート機器、ウェアラブル機器など多様な形態で具現され得る。図3を参照すると、アクティブライブネス検出装置300はセンサ310、保存装置320、出力装置330および演算装置340を含む。
【0039】
センサは顔の撮影が可能な範囲内に使用者が入ってきたかを識別する。一実施例として、ゲートで人の接近を感知する赤外線センサであり得る。もちろん赤外線ではない超音波や他の種類の人体感知センサを利用することができる。
【0040】
保存装置320は使用者の認証のための命令語を生成するために複数個の音節に対するデータを保存する。保存装置320は複数個の音節だけでなく各音節を発音する時の口の形に対する特徴点情報と音節と音節間の顔筋肉の変化に対する特徴点情報まで保存するので、全体のデータを十分に保存できる容量のメモリを利用することができる。
【0041】
出力装置330は命令語を画面に出力するディスプレイと出力された命令語を真似て発音する使用者の顔映像を撮影するカメラを含む。そして、ディスプレイを通じて命令語を出力する時、使用者が命令語を真似て読めるように音声や案内メッセージをさらに出力することができる。したがって、出力装置は音声出力のためのスピーカーも具備することができる。
【0042】
演算装置340は保存装置320に保存された複数個の音節に対するデータを利用して一定個数の音節からなる命令語を生成する。そして、出力装置330が撮影した顔映像から特徴点を抽出して使用者が命令語を真似て発音したかを判断する。演算装置はアクティブライブネス検出装置300のプロセッサ乃至はCPUであり得る。
【0043】
一方、前述したアクティブライブネス検出装置300はコンピュータで実行され得る実行可能なアルゴリズムを含むプログラム(またはアプリケーション)で具現され得る。すなわち、コンピュータ上で実行されるプログラムであり得る。前記プログラムは一時的または非一時的読み取り可能媒体(non-transitory computer readable medium)に保存されて提供され得る。
【0044】
非一時的読み取り可能媒体とは、レジスタ、キャッシュ、メモリなどのように短い瞬間の間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(reading)が可能な媒体を意味する。具体的には、前述した多様なアプリケーションまたはプログラムはCD、DVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM(read-only memory)、PROM(programmable read only memory)、EPROM(Erasable PROM、EPROM)またはEEPROM(Electrically EPROM)またはフラッシュメモリなどのような非一時的読み取り可能媒体に保存されて提供され得る。
【0045】
一時的読み取り可能媒体はスタティックラム(Static RAM、SRAM)、ダイナミックラム(Dynamic RAM、DRAM)、シンクロナスディーラム(Synchronous DRAM、SDRAM)、2倍速SDRAM(Double Data Rate SDRAM、DDR SDRAM)、増強型SDRAM(Enhanced SDRAM、ESDRAM)、同期化DRAM(Synclink DRAM、SLDRAM)およびダイレクトラムバスラム(Direct Rambus RAM、DRRAM)のような多様なRAMを意味する。
【0046】
図4は、ハングルの母音のうち区別可能な一部の母音を選別したものを示した図面である。図4のように、ハングルを構成する全体の母音21個のうち発音を区別できる14個の母音を選別した。選別された14個の母音はそれぞれ
【数2】
である。選別された母音と全体子音のうち選別された子音を結合して複数個の音節を生成することができる。認証装置はこのような過程により生成された音節を保存することができる。前述した通り、単純に音節のみ保存されるのではなく、各音節を発音する時の口の形に対する特徴点情報、音節と音節間の顔の変化に対する特徴点情報が共に保存されるので、認証装置の保存空間が充分でない場合には別途のデータベースやサーバーに保存してもよい。図4ではハングルを例示して説明したが、英語やその他の言語も発音が識別可能な一部のみ抽出して命令語生成のためのデータとして活用することができる。
【0047】
図5は、一定個数の音節で生成された命令語を示した図面である。図5のように、5個の語節で命令語を生成することができる。命令語として選別された音節はそれぞれ子音と母音が結合されたものであり、ここで母音は前記図4を通じて選別されたものであり、子音は全体の子音のうち母音と結合時に両唇音となるものと両唇音とならないもので一部選別され得る。例えば、図5の命令語のように、両唇音となる子音は
【数3】
両唇音とならない子音は
【数4】
であり得る。一方、図5では命令語の音節個数を5個を例示として挙げたが、さらに少なく設定してもよく、さらに多く設定してもよい。例えば、事前に認証装置の管理者から入力された設定値に応じて命令語に含まれる音節の個数が決定され得る。
【0048】
一方、使用者に命令語を提示する過程で画面に案内メッセージが出力され得る。図5のように、「認証のために次のように発音してください。」というメッセージが出力され得、スピーカーを通じてメッセージを音声で出力してもよい。
【0049】
図6は、顔映像から特徴点を抽出することを示した図面である。図6を参照すると、特徴点抽出のためにディープラーニングモデルを利用することができる。ディープラーニングモデルは特徴点抽出のために事前に学習され得、学習が完了した以後、認証装置に搭載されて使用者の顔映像に対する特徴点を抽出することができる。この時、使用者に提示された命令語を正確に発音するかを検出するために、口の形に対する特徴点を抽出した後に比較することができる。
【0050】
命令語生成のために保存されたデータには複数個の音節と共に、各音節ごとに発音を示す特徴点に対する情報がマッチングされて保存され得る。すなわち、ディープラーニングモデルを通じて撮影された顔映像から口の形の特徴点を抽出した後、命令語に含まれた音節それぞれの特徴点にマッチングさせることによって、使用者が命令語を正確に発音したかを判断することができる。言うまでもないが、二つの特徴点が100%一致することは不可能に近いので、特徴点間の類似度を比較することによって認証に対する成功または失敗を判断することができる。もし、一定以上の類似度を満足すれば使用者ライブネスに異常がないものと判断することができる。
【0051】
一方、使用者が特定順番の音節を発音した後、次の順番の音節を発音する時に顔筋肉の形はある程度決まった形態で変化し得る。すなわち、誰が発音しても概略的に類似する顔筋肉の変化を予想することができる。本技術ではこのような点に着眼して、事前に音節と音節間の顔の変化に対応する特徴点情報を保存した後、顔映像から音節間の顔の変化に対する特徴点を抽出してマッチングさせる方式で使用者のライブネスをより精巧に検出することができる。例えば、音節間で頬骨や人中、眉毛などの形や位置が変更されるのを比較してライブネスを検出することができる。
【0052】
開示された技術の一実施例に係る顔映像を利用したアクティブライブネス検出方法および装置は、理解を助けるために図面に図示された実施例を参照して説明されたが、これは例示的なものに過ぎず、当該分野で通常の知識を有する者であればこれから多様な変形および均等な他の実施例が可能であるという点が理解できるであろう。したがって、開示された技術の真の技術的保護範囲は添付された特許請求の範囲によって定められるべきである。

図1
図2
図3
図4
図5
図6
【国際調査報告】