(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-08
(45)【発行日】2024-11-18
(54)【発明の名称】多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出
(51)【国際特許分類】
G06T 7/00 20170101AFI20241111BHJP
G06V 10/82 20220101ALI20241111BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/00 660A
(21)【出願番号】P 2023572605
(86)(22)【出願日】2022-06-16
(86)【国際出願番号】 IB2022055611
(87)【国際公開番号】W WO2022264089
(87)【国際公開日】2022-12-22
【審査請求日】2023-11-22
(32)【優先日】2021-06-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】ワスニック パンカジ
(72)【発明者】
【氏名】シェノイ アマン
(72)【発明者】
【氏名】オノエ ナオユキ
(72)【発明者】
【氏名】ラマスワミ ジャナニ
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2021-009493(JP,A)
【文献】中国特許出願公開第111881743(CN,A)
【文献】Mohammad Akbari et al.,Learned Multi-Resolution Variable-Rate Image Compression With Octave-Based Residual Blocks,IEEE Transactions on Multimedia,IEEE,2021年03月24日,Volume: 23,Pages: 3013 - 3021,https://doi.org/10.1109/TMM.2021.3068523
【文献】Jingyi Song et al.,Higher Accuracy and Lower Complexity: Convolutional Neural Network for Multi-Organ Segmentation,Proceedings Volume 11574, International Symposium on Artificial Intelligence and Robotics 2020,SPIE,2020年10月12日,https://doi.org/10.1117/12.2577009
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06T 1/00- 7/90
G06V 10/00-20/90
G06V 40/16、40/20
(57)【特許請求の範囲】
【請求項1】
エンコーダネットワークと、
注意層と、
デコーダネットワークと、
を備えたシステムであって、
前記エンコーダネットワークは、
関心オブジェクトの画像を含む第1の入力を受け取り、
前記受け取った第1の入力に基づいて、前記エンコーダネットワークの最終層の出力として多重周波数特徴マップを生成する、
ように構成され、
前記注意層は、前記エンコーダネットワークの前記最終層に結合されて、
前記エンコーダネットワークの前記最終層から前記生成された多重周波数特徴マップを受け取り、
前記受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて前記多重周波数特徴マップを精緻化する、
ように構成され、
前記デコーダネットワークは、前記注意層を介して前記エンコーダネットワークに結合されて、
前記精緻化された多重周波数特徴マップを前記注意層から第2の入力として受け取り、
前記第2の入力に基づいて、前記関心オブジェクトのヒートマップ画像を含むランドマーク検出結果を生成する、
ように構成され、
前記ヒートマップ画像は、前記画像内の前記関心オブジェクト上のランドマーク点の位置を示す、
ことを特徴とするシステム。
【請求項2】
前記関心オブジェクトは、実在の人物、人物の戯画、架空キャラクタ又は漫画キャラクタの顔部分に対応する、
請求項1に記載のシステム。
【請求項3】
前記エンコーダネットワーク及び前記デコーダネットワークはディープニューラルネットワーク(DNN)であり、
前記エンコーダネットワーク、前記デコーダネットワーク及び前記注意層は、ランドマーク検出タスクに基づいて訓練されるエンコーダ-デコーダニューラルネットワークを形成する、
請求項1に記載のシステム。
【請求項4】
前記多重周波数特徴マップは、
前記関心オブジェクトの包括的形状特徴に関連する第1の空間情報を捕捉する第1の周波数特徴マップと、
前記関心オブジェクトの前記包括的形状特徴に比べて細かく数が多い局所的形状特徴に関連する第2の空間情報を捕捉する第2の周波数特徴マップと、
を含む、請求項1に記載のシステム。
【請求項5】
前記エンコーダネットワークは複数の符号化層を含み、
前記複数の符号化層は、入力層と、該入力層の後に続く第1の一連の畳み込み層とを含み、
前記第1の一連の畳み込み層の第1の畳み込み層は、前記エンコーダネットワークの前記入力層に結合され、前記第1の一連の畳み込み層の各残りの畳み込み層は、前記複数の符号化層の前の畳み込み層に結合される、
請求項1に記載のシステム。
【請求項6】
前記第1の一連の畳み込み層の各畳み込み層は、2つの畳み込み演算子を含み、
前記2つの畳み込み演算子の各々は、オクターブ畳み込み演算に対応する、
請求項5に記載のシステム。
【請求項7】
前記エンコーダネットワークは、
前記受け取った第1の入力に含まれる前記画像を初期多重周波数特徴マップに分割し、
前記エンコーダネットワークの前記最終層の出力として前記多重周波数特徴マップを生成するために、前記初期多重周波数特徴マップを前記第1の一連の畳み込み層に通す、
ようにさらに構成され、
前記エンコーダネットワークの前記入力層と前記エンコーダネットワークの前記最終層との間の各畳み込み層は、第1の一連の中間多重周波数特徴マップを生成し、
前記第1の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、前記初期多重周波数特徴マップよりも小さく、前記多重周波数特徴マップよりも大きい、
請求項5に記載のシステム。
【請求項8】
前記デコーダネットワークは複数の復号層を含み、
前記複数の復号層は、入力層と、前記デコーダネットワークの前記入力層の後に続く第2の一連の畳み込み層とを含み、
前記第2の一連の畳み込み層の第1の畳み込み層は、前記デコーダネットワークの前記入力層に結合され、前記第2の一連の畳み込み層の各残りの畳み込み層は、前記複数の復号層の前の畳み込み層に結合される、
請求項1に記載のシステム。
【請求項9】
前記第2の一連の畳み込み層の各畳み込み層は、2つの畳み込み演算子を含み、
前記2つの畳み込み演算子の各々は、転置オクターブ畳み込み演算に対応する、
請求項8に記載のシステム。
【請求項10】
前記デコーダネットワークは、
前記デコーダネットワークの最終層の出力として前記ランドマーク検出結果を生成するために、前記精緻化された多重周波数特徴マップを前記第2の一連の畳み込み層に通す、
ようにさらに構成され、
前記デコーダネットワークの前記入力層と前記デコーダネットワークの前記最終層との間の各畳み込み層は、第2の一連の中間多重周波数特徴マップを生成し、
前記第2の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、前記精緻化された多重周波数特徴マップよりも大きい、
請求項8に記載のシステム。
【請求項11】
前記エンコーダネットワークの中間符号化層と前記デコーダネットワークの中間復号層との間のスキップ接続をさらに備える、
請求項1に記載のシステム。
【請求項12】
前記エンコーダネットワークの前記中間符号化層は、前記エンコーダネットワークの前の層からの入力に基づいて第1の一連の中間多重周波数特徴マップを生成するように構成され、
前記スキップ接続は、前記第1の一連の中間多重周波数特徴マップに含まれる空間情報を前記デコーダネットワークの前記中間復号層に転送するように構成される、
請求項11に記載の方法。
【請求項13】
前記デコーダネットワークの最終層から前記ランドマーク検出結果を抽出し、
前記関心オブジェクト上の前記ランドマーク点の位置を示すように前記画像上にカラーマーキングをオーバーレイ表示し、
前記画像上にオーバーレイ表示された前記カラーマーキングを含む出力をレンダリングするようにディスプレイ装置を制御する、
ように構成されたプロセッサをさらに備える、請求項1に記載のシステム。
【請求項14】
エンコーダネットワークが、関心オブジェクトの画像を含む第1の入力を受け取ることと、
前記エンコーダネットワークが、前記受け取った第1の入力に基づいて、前記エンコーダネットワークの最終層の出力として多重周波数特徴マップを生成することと、
前記エンコーダネットワークの前記最終層に結合された注意層が、前記エンコーダネットワークの前記最終層から前記生成された多重周波数特徴マップを受け取ることと、
前記注意層が、前記受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて前記多重周波数特徴マップを精緻化することと、
前記注意層を介して前記エンコーダネットワークに結合されたデコーダネットワークが、前記精緻化された多重周波数特徴マップを前記注意層から第2の入力として受け取ることと、
前記デコーダネットワークが、前記第2の入力に基づいて、前記関心オブジェクトのヒートマップ画像を含むランドマーク検出結果を生成することと、
を含み、前記ヒートマップ画像は、前記画像内の前記関心オブジェクト上のランドマーク点の位置を示す、
ことを特徴とする方法。
【請求項15】
前記関心オブジェクトは、実在の人物、人物の戯画、架空キャラクタ又は漫画キャラクタの顔部分に対応する、
請求項14に記載の方法。
【請求項16】
前記エンコーダネットワーク及び前記デコーダネットワークはディープニューラルネットワーク(DNN)であり、
前記エンコーダネットワーク、前記デコーダネットワーク及び前記注意層は、ランドマーク検出タスクに基づいて訓練されるエンコーダ-デコーダニューラルネットワークを形成する、
請求項14に記載の方法。
【請求項17】
前記エンコーダネットワークは複数の符号化層を含み、
前記複数の符号化層は、入力層と、該入力層の後に続く第1の一連の畳み込み層とを含み、
前記第1の一連の畳み込み層の第1の畳み込み層は、前記エンコーダネットワークの前記入力層に結合され、前記第1の一連の畳み込み層の各残りの畳み込み層は、前記複数の符号化層の前の畳み込み層に結合される、
請求項14に記載の方法。
【請求項18】
前記第1の一連の畳み込み層の各畳み込み層は、2つの畳み込み演算子を含み、
前記2つの畳み込み演算子の各々は、オクターブ畳み込み演算に対応する、
請求項17に記載の方法。
【請求項19】
前記エンコーダネットワークが、前記受け取った第1の入力に含まれる前記画像を初期多重周波数特徴マップに分割することと、
前記エンコーダネットワークの前記最終層の出力として前記多重周波数特徴マップを生成するために、前記初期多重周波数特徴マップを前記第1の一連の畳み込み層に通すことと、
をさらに含み、
前記エンコーダネットワークの前記入力層と前記エンコーダネットワークの前記最終層との間の各畳み込み層は、第1の一連の中間多重周波数特徴マップを生成し、
前記第1の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、前記初期多重周波数特徴マップよりも小さく、前記多重周波数特徴マップよりも大きい、
請求項17に記載の方法。
【請求項20】
前記デコーダネットワークは複数の復号層を含み、
前記複数の復号層は、入力層と、前記デコーダネットワークの前記入力層の後に続く第2の一連の畳み込み層とを含み、
前記第2の一連の畳み込み層の第1の畳み込み層は、前記デコーダネットワークの入力層に結合され、前記第2の一連の畳み込み層の各残りの畳み込み層は、前記複数の復号層の前の畳み込み層に結合される、
請求項14に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
本出願は、2021年6月16日に出願された米国仮特許出願シリアル番号第63/211,127号に対する優先権を主張するものであり、この文献はその内容全体が引用により本明細書に組み入れられる。
【0002】
本開示の様々な実施形態は、ニューラルネットワーク及びオブジェクトランドマーク検出に関する。具体的には、本開示の様々な実施形態は、多重周波数自己注意(multi-frequency self-attention)を有するディープニューラルネットワークを用いたランドマーク検出のためのシステム及び方法に関する。
【背景技術】
【0003】
機械学習及び人工知能の進歩は、(顔ランドマーク検出などの)ランドマーク検出などの異なる用途で使用できる様々な種類のニューラルネットワーク(又はモデル)の開発をもたらした。通常、ランドマーク検出は、(人間の顔などの)オブジェクト画像内の複数のキーポイント又はランドマークを検出するタスクに対応する。人間の顔では、このようなキーポイント又はランドマークが、口、目、鼻、顎又は眉などの、顔の顕著な領域を表すことができる。顔ランドマーク検出には、例えば顔認識、顔モーフィング、頭部姿勢推定、顔の位置合わせ、動き検出、及び3Dモデリングなどの複数の用途がある。しかしながら、従来のランドマーク検出技術は、画像内のオブジェクト上のランドマークを、特にオブジェクトの画質が悪い(すなわち、隠れたり又はぼやけたりしている)場合に正確に検出できないことがある。また、従来のランドマーク検出技術は、標準的な人間の顔又はアニメオブジェクトとは異なり大量の誇張された顔特徴を示すことが典型的である戯画風の顔又は漫画風の顔などのオブジェクト画像内のランドマークを正確に検出できるほど十分にロバストでない場合もある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0005】
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のためのシステム及び方法を提供する。
【0006】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
【
図1】本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のためのネットワーク環境を示す図である。
【
図2】本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出システムの例示的なブロック図である。
【
図3A】本開示の実施形態による、
図1のエンコーダ-デコーダニューラルネットワークの例示的なアーキテクチャを
図3B及び
図3Cと共に示す図である。
【
図3B】本開示の実施形態による、
図1のエンコーダ-デコーダニューラルネットワークの例示的なアーキテクチャを
図3A及び
図3Cと共に示す図である。
【
図3C】本開示の実施形態による、
図1のエンコーダ-デコーダニューラルネットワークの例示的なアーキテクチャを
図3A及び
図3Bと共に示す図である。
【
図4A】本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のための例示的なシナリオを示す図である。
【
図4B】本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のための例示的なシナリオを示す図である。
【
図5】本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いた例示的なランドマーク検出方法を示すフローチャートである。
【発明を実施するための形態】
【0008】
本開示の多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のためのシステム及び方法では、後述する実装を見出すことができる。システムはエンコーダネットワークを含み、このエンコーダネットワークは、(人間の顔又は戯画風の顔などの)関心オブジェクトの画像を含む入力を受け取り、受け取った第1の入力に基づいてエンコーダネットワークの最終層の出力として多重周波数特徴マップを生成することができる。システムは、エンコーダネットワークの最終層に結合できる注意層(attention layer)をさらに含む。注意層は、エンコーダネットワークの最終層から生成された多重周波数特徴マップを受け取り、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化することができる。システムは、注意層を介してエンコーダネットワークに結合されたデコーダネットワークをさらに含むことができる。デコーダネットワークは、精緻化された多重周波数特徴マップを注意層から入力として受け取り、入力に基づいてランドマーク検出結果を生成することができる。ランドマーク検出結果は、関心オブジェクトのヒートマップ画像を含むことができる。ヒートマップ画像は、画像内の関心オブジェクト上のランドマーク点の位置を示すことができる。
【0009】
ランドマーク検出は、関心オブジェクト上の予め定められたランドマークの位置を特定するタスクに対応する。例えば、人間の顔では68個のランドマークを予め定めることができる。ランドマーク検出タスクは、顔正面化(face frontalization)、3D顔復元(3D face reconstruction)、又は顔認識などの、顔に関連する多くの用途において重要な役割を果たす。顔ランドマーク検出は、顔の超解像、感情認識、並びに顔品質の強化、又はメイキャップ及びその他の技術を通じたスタイル及び外観の変化に関与する他の顔復元タスクなどの様々なタスクで必要とされることがある。
【0010】
従来のネットワークには、関心オブジェクトの画像からのランドマーク検出専用に開発されたものが複数存在する。しかしながら、これらの従来のネットワークのほとんどは、1つのタイプの関心オブジェクトに関連するランドマークしか検出しないことがある。例えば、あるネットワークは、実在の人間の顔画像からは顔ランドマークを検出できる場合でも、標準的な人間の顔とは異なり大量の誇張された顔特徴を示す戯画風の顔画像上のランドマーク検出では問題に直面することがある。いくつかの事例では、関心オブジェクトの画像が隠れ又はぼやけている場合、或いは画像のポーズ又は照明が異なる場合、これらの従来のネットワークは望ましい結果の提供に苦労することが多い。
【0011】
本開示は、戯画風の顔、コミック又は漫画風の顔、或いは実在の人間の顔などの異なる様々なオブジェクトにおけるランドマーク位置を効率的に特定する階層的多重周波数空間学習を可能にすることによって、従来のネットワークが直面する課題に対処するニューラルネットワークアーキテクチャを提供する。本開示は、1又は2以上の高周波数特徴マップと低周波数特徴マップとの間の相関性及び複雑な相互作用を捕捉することによって様々な顔パーツのサイズ及び形状に関するばらつきを処理することができる多重周波数注意モジュールも提供する。従って、本開示は、各種の関心オブジェクトのランドマークを検出できるロバストな機構を提供することができる。開示するニューラルネットワークは、画像が隠れ又はぼやけている状況、或いは画像のポーズ又は照明が異なる状況でのランドマーク検出に苦労する従来のネットワークに比べ、たとえこのような場合でもランドマークを検出することができる。
【0012】
図1は、本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のためのネットワーク環境を示す図である。
図1にはネットワーク環境100の図を示す。ネットワーク環境100はシステム102を含む。システム102は、プロセッサ104と、エンコーダ-デコーダニューラルネットワーク106とを含む。エンコーダ-デコーダニューラルネットワーク106は、エンコーダネットワーク108、注意層110、デコーダネットワーク112、及び1又は2以上のスキップ接続(skip connections)114を含む。
図1には、ディスプレイ装置116及び通信ネットワーク118をさらに示す。エンコーダネットワーク108は、複数の符号化層を含むことができる。このような符号化層は、入力層120A、入力層120Aの後に続く第1の一連の畳み込み層120B、及び最終層120Cを含むことができる。同様に、デコーダネットワーク112は複数の復号層を含むことができる。このような復号層は、入力層122A、入力層122Aの後に続く第2の一連の畳み込み層122B、及び最終層122Cを含むことができる。
図1には、関心オブジェクト126の画像124、ランドマーク点130の位置を示すヒートマップ画像128、及び最終画像132も示す。最終画像132は、ディスプレイ装置116上に表示することができる。
【0013】
プロセッサ104は、システム102によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。例えば、これらの動作の一部は、最終画像132を生成するために関心オブジェクト126上のランドマーク点130の位置を示すように画像124上にカラーマーキングをオーバーレイ表示すること、及び生成された最終画像132を含む出力をレンダリングするようにディスプレイ装置116を制御することに関連することができる。他のいくつかの実施形態では、これらの動作が、エンコーダ-デコーダニューラルネットワーク106の訓練に関連することができる。プロセッサ104は、当業で周知の多くのプロセッサ技術に基づいて実装することができる。プロセッサ技術の例としては、以下に限定するわけではないが、中央処理装置(CPU)、x86ベースのプロセッサ、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、グラフィックプロセッシングユニット(GPU)、(推論アクセラレータ又は人口知能(AI)アクセラレータなどの)コプロセッサ、及び/又はこれらの組み合わせを挙げることができる。
【0014】
エンコーダ-デコーダニューラルネットワーク106は、計算ネットワーク、又は複数の層状に配置された人工ニューロンのシステムであることができる。エンコーダ-デコーダニューラルネットワーク106は、画像124内の関心オブジェクト126上のランドマーク点130の位置を決定することができる。例えば、エンコーダ-デコーダニューラルネットワーク106は、関心オブジェクト126上のランドマーク検出(すなわち、ランドマーク点130の位置を検出するためのランドマーク検出)タスクに基づいて訓練することができる。
【0015】
エンコーダネットワーク108は、複数の符号化層120の形で配置された計算ネットワーク又は人工ニューロンのシステムであることができる。エンコーダネットワーク108の複数の符号化層120は、入力層120A、第1の一連の畳み込み層120B、及び最終層120Nを含むことができる。複数の符号化層120の各層は、1又は2以上のノード(或いは、例えば円又はノードによって表される人工ニューロン)を含むことができる。入力層120Aの全てのノードの出力は、第1の一連の畳み込み層120Bの少なくとも1つのノードに結合することができる。同様に、各畳み込み層の入力は、エンコーダネットワーク108の他の層の少なくとも1つのノードの出力に結合することができる。各畳み込み層の出力は、エンコーダネットワーク108の他の層の少なくとも1つのノードの入力に結合することができる。最終層120Nの(単複の)ノードは、少なくとも1つの畳み込み層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、エンコーダネットワーク108のハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセットに基づくエンコーダネットワーク108の訓練前又は訓練後に設定することができる。
【0016】
エンコーダネットワーク108の各ノードは、エンコーダネットワーク108の訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、エンコーダネットワーク108の(単複の)他の層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。エンコーダネットワーク108のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
【0017】
エンコーダネットワーク108は、例えばシステム102上(又はディスプレイ装置116上)で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。エンコーダネットワーク108は、処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。エンコーダネットワーク108は、多重周波数特徴マップを生成するための1又は2以上の動作をプロセッサ104などのコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、エンコーダネットワーク108は、以下に限定するわけではないが、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、コプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。いくつかの実施形態では、エンコーダネットワーク108を、ハードウェアとソフトウェアとの組み合わせを使用して実装することもできる。
【0018】
注意層110は、エンコーダネットワーク108の最終層120Nから生成された多重周波数特徴マップを受け取り、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。注意層110は、エンコーダネットワーク108の最終層120Nに結合することができる。精緻化に関する詳細については、例えば
図3Cに示す。
【0019】
デコーダネットワーク112は、複数の復号層122の形で配置された計算ネットワーク又は人工ニューロンのシステムであることができる。デコーダネットワーク112の複数の復号層122は、入力層122A、第2の一連の畳み込み層122B、及び最終層122Nを含むことができる。複数の復号層122の各層は、(例えば、円で表す)1又は2以上のノード又は人工ニューロンを含むことができる。入力層122Aの全てのノードの出力は、第2の一連の畳み込み層122Bのうちの少なくとも1つに結合することができる。同様に、第2の一連の畳み込み層122Bの各々の入力は、デコーダネットワーク112の他の層における少なくとも1つのノードの出力に結合することができる。第2の一連の畳み込み層122Bの各畳み込み層の出力は、デコーダネットワーク112の他の層における少なくとも1つのノードの入力に結合することができる。最終層122Nの(単複の)ノードは、少なくとも1つの畳み込み層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、デコーダネットワーク112のハイパーパラメーターから決定することができる。このようなハイパーパラメータは、訓練データセットに基づくデコーダネットワーク112の訓練前又は訓練後に設定することができる。
【0020】
デコーダネットワーク112の各ノードは、デコーダネットワーク112の訓練中に調整できるパラメータセットを有する数学関数に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、デコーダネットワーク112の(単複の)他の層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。デコーダネットワーク112のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
【0021】
デコーダネットワーク112は、例えばシステム102上(又はディスプレイ装置116上)で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。デコーダネットワーク112は、処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。デコーダネットワーク112は、ランドマーク検出結果を生成するための1又は2以上の動作をプロセッサ104などのコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、デコーダネットワーク112は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、コプロセッサ、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、デコーダネットワーク112をハードウェアとソフトウェアとの組み合わせを使用して実装することもできる。
【0022】
ディスプレイ装置116は、関心オブジェクト126上の検出されたランドマークを示すことができる最終画像132を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ある実施形態では、ディスプレイ装置116を、ヒートマップ画像128を表示するように構成することができる。ディスプレイ装置116は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも1つなどの複数の既知の技術を通じて実現することができる。ある実施形態によれば、ディスプレイ装置116は、ヘッドマウント装置(HMD)のディスプレイ画面、スマートメガネ装置、シースルーディスプレイ、投影型ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイを意味することができる。
【0023】
別の実施形態では、ディスプレイ装置116が、エンコーダ-デコーダニューラルネットワーク106をディスプレイ装置116上で実行可能な(アプリケーションプログラミングインターフェイス(API)ベースのサービスなどの)ソフトウェアプログラム又はサービスの一部として実装できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。エンコーダデコーダニューラルネットワーク106は、システム102上でエンコーダデコーダニューラルネットワーク106の訓練が終了した後にディスプレイ装置116上に実装することができる。ディスプレイ装置116の例としては、以下に限定するわけではないが、コンピュータ装置、メインフレームマシン、サーバ、コンピュータワークステーション、スマートフォン、携帯電話機、ゲーム装置、ウェアラブルディスプレイ、消費者向け電子(CE)装置、及び/又は画像処理能力を有する他のいずれかの装置を挙げることができる。
【0024】
通信ネットワーク118は、システム102とディスプレイ装置116とが互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク118は、有線接続又は無線接続のいずれかを含むことができる。通信ネットワーク118の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、(ロングタームエボリューション及び5G新無線などの)セルラー又は無線モバイルネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)などを挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク118に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを挙げることができる。
【0025】
動作時には、エンコーダネットワーク108が、関心オブジェクト126の画像124などの画像を含むことができる第1の入力を受け取ることができる。エンコーダネットワーク108は、第1の入力に基づいて、エンコーダネットワーク108の複数の符号化層120のうちの最終層120Nの出力として多重周波数特徴マップを生成するように構成することができる。
【0026】
多重周波数特徴マップは、第1の周波数特徴マップ及び第2の周波数特徴マップを含むことができる。第1の周波数特徴マップは、関心オブジェクト126の包括的形状特徴に関連する第1の空間情報を捕捉することができ、第2の周波数特徴マップは、関心オブジェクト126の局所的形状特徴に関連する第2の空間情報を捕捉することができる。ある実施形態では、局所的形状特徴が、関心オブジェクト126の包括的形状特徴に比べて細かく、数が多いものであることができる。第1の周波数特徴マップは低周波数特徴マップと呼ぶことができ、第2の周波数特徴マップは高周波数特徴マップと呼ぶことができる。限定ではなく一例として、関心オブジェクト126が人間の顔又は人物の戯画である場合、低周波数特徴マップは、人間の顔又は人物の戯画の形状及びサイズをカバーするのに対し、高周波数特徴マップは、人間の顔又は人物の戯画の唇、目、鼻などの形状及びサイズをカバーする。
【0027】
注意層110は、エンコーダネットワーク108の最終層120Nに結合することができる。注意層110は、エンコーダネットワーク108の最終層120Nから生成された多重周波数特徴マップを受け取ることができる。注意層110は、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するように構成することができる。注意層110及び多重周波数特徴マップの精緻化に関する詳細については、例えば
図3Cに示す。
【0028】
デコーダネットワーク112は、注意層110を介してエンコーダネットワーク108に結合することができる。デコーダネットワーク112は、精緻化された多重周波数特徴マップを注意層110から第2の入力として受け取るように構成することができる。デコーダネットワーク112は、第2の入力に基づいてランドマーク検出結果を生成するように構成することができる。ランドマーク検出結果は、関心オブジェクト126のヒートマップ画像128を含むことができる。ヒートマップ画像128は、画像124内の関心オブジェクト126上のランドマーク点130の位置を示すことができる。デコーダネットワークに関する詳細については、例えば
図3Bに示す。
【0029】
ある実施形態によれば、エンコーダ-デコーダニューラルネットワーク106は、エンコーダネットワーク108の中間符号化層とデコーダネットワーク112の中間復号層との間の1又は2以上のスキップ接続114を含むことができる。エンコーダネットワーク108の中間符号化層は、エンコーダネットワーク108の前の層からの入力に基づいて第1の一連の中間多重周波数特徴マップを生成するように構成することができる。1又は2以上のスキップ接続114の各々は、第1の一連の中間多重周波数特徴マップに含まれる空間情報をデコーダネットワーク112の中間復号層に転送するように構成することができる。1又は2以上のスキップ接続114に関する詳細については、例えば
図3A及び
図3Bに示す。
【0030】
プロセッサ104は、デコーダネットワーク112の最終層122Nからランドマーク検出結果を抽出するように構成することができる。その後、プロセッサ104は、関心オブジェクト126上のランドマーク点130の位置を示すように画像124上にカラーマーキングをオーバーレイ表示して最終画像132を生成することができる。プロセッサ104は、最終画像132の生成後に、最終画像132を含む出力をレンダリングするようにディスプレイ装置116を制御することができる。カラーマーキングに関する詳細については、例えば
図4A及び
図4Bに示す。
【0031】
図2は、本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出システムの例示的なブロック図である。
図2の説明は、
図1の要素に関連して行う。
図2には、
図1のシステム102のブロック
図200を示す。システムは、(プロセッサ104などの)プロセッサ、メモリ202、入力/出力(I/O)装置204、ネットワークインターフェイス206、推論アクセラレータ208、及びエンコーダ-デコーダニューラルネットワーク106を含む。
【0032】
メモリ202は、プロセッサ104が実行できるプログラム命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。また、メモリ202は、画像124及びヒートマップ画像128を記憶することもできる。少なくとも1つの実施形態では、メモリ202が、エンコーダ-デコーダニューラルネットワーク106、多重周波数特徴マップ、及び画像124に関連する空間情報を記憶することもできる。メモリ202の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0033】
I/O装置204は、1又は2以上のユーザ入力を受け取り、及び/又はシステム102によって生成された情報をレンダリングするように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。I/O装置204は、システム102の異なる動作コンポーネントと通信するように構成できる様々な入力及び出力装置を含むことができる。I/O装置204の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及び(ディスプレイ装置116などの)ディスプレイ装置を挙げることができる。
【0034】
ネットワークインターフェイス206は、通信ネットワーク118を介してシステム102とディスプレイ装置116との間の通信を確立するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス206は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス206は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダーデコーダ(CODEC)チップセット、加入者アイデンティティモジュール(SIM)カード、及び/又はローカルバッファを含むことができる。
【0035】
ネットワークインターフェイス206は、インターネット、イントラネットなどのネットワーク、及び/又はセルラー電話ネットワーク、無線ローカルエリアネットワーク(WLAN)、パーソナルエリアネットワーク、及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークとオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、符号分割多重アクセス(CDMA)、LTE、5G新無線、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11、IEEE802.11b、IEEE802.11g、IEEE802.11n及び/又は他のいずれかのIEEE802.11プロトコルなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、機械型通信(MTC)技術、電子メール、インスタントメッセージング及び/又はショートメッセージサービス(SMS)のためのプロトコルなどの複数の通信標準、プロトコル及び技術のうちのいずれかを使用することができる。
【0036】
推論アクセラレータ208は、プロセッサ104のコプロセッサとしてエンコーダ-デコーダニューラルネットワーク106の動作に関連する計算を加速させるように動作するよう構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。例えば、推論アクセラレータ208は、推論アクセラレータ208を使用しない場合に通常発生する時間よりも短い時間でランドマーク検出結果が生成されるようにシステム102の計算を加速させることができる。推論アクセラレータ208は、エンコーダネットワーク108及びデコーダネットワーク112の動作の一部又は全部の並列化などの様々な加速技術を実装することができる。推論アクセラレータ208は、ソフトウェア、ハードウェア、又はこれらの組み合わせとして実装することができる。推論アクセラレータ208の実装例としては、以下に限定するわけではないが、GPU、テンソルプロセッシングユニット(TPU)、ニューロモルフィックチップ、ビジョンプロセッシングユニット(VPU)、フィールドプログラマブルゲートアレイ(FPGA)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、及び/又はこれらの組み合わせを挙げることができる。
【0037】
図3A及び
図3Bに、本開示の実施形態による、
図1のエンコーダ-デコーダニューラルネットワークの例示的なアーキテクチャを集合的に示す。
図3A及び
図3Bの説明は、
図1及び
図2の要素に関連して行う。
図3A及び
図3Bには、
図1のエンコーダ-デコーダニューラルネットワーク106の例示的な変形であることができるエンコーダ-デコーダニューラルネットワーク302の
図300を示す。エンコーダ-デコーダニューラルネットワーク302は、エンコーダネットワーク304、注意層306、及びデコーダネットワーク308を含むことができる。エンコーダネットワーク304及びデコーダネットワーク308は、注意層306を介して結合することができる。
【0038】
エンコーダネットワーク304及びデコーダネットワーク308は、ディープニューラルネットワーク(DNN)であることができる。エンコーダネットワーク304は複数の符号化層310を含むことができる。複数の符号化層310は、入力層310A、第1の一連の畳み込み層312、及び最終層310Bを含むことができる。第1の一連の畳み込み層312は入力層310Aの後に続き、第1の畳み込み層312A、第2の畳み込み層312B、第3の畳み込み層312C、第Nの畳み込み層312Nまでを含むことができる。例えば、第1の一連の畳み込み層312は5つの畳み込み層を含むことができる。第1の畳み込み層312Aは、エンコーダネットワーク304の入力層310Aに結合することができる。第1の一連の畳み込み層312の残りの畳み込み層の各々は、複数の符号化層310の前の畳み込み層に結合することができる。例えば、第2の畳み込み層312Bは第1の畳み込み層312Aに結合することができ、第3の畳み込み層312Cは第2の畳み込み層312Bに結合することができ、他も同様である。第1の一連の畳み込み層312の各畳み込み層は、2つの畳み込み演算子を含むことができる。例えば、2つの畳み込み演算子は、オクターブ畳み込み演算(octave convolution operations)に対応することができる。エンコーダネットワーク304と同様に、デコーダネットワーク308も複数の復号層314を含むことができる。複数の復号層314は、入力層314A、第2の一連の畳み込み層316、及び最終層310Bを含むことができる。第2の一連の畳み込み層316は入力層314Aの後に続くことができ、第1の畳み込み層316A、第2の畳み込み層316B、第3の畳み込み層316C、第Nの畳み込み層316Nまでを含むことができる。例えば、第2の一連の畳み込み層316は、5つ以下の畳み込み層を含むことができる。具体的には、第2の一連の畳み込み層316の第1の畳み込み層316Aは、デコーダネットワーク308の入力層314Aに結合することができる。第2の一連の畳み込み層316の各残りの畳み込み層は、複数の復号層314の前の畳み込み層に結合することができる。例えば、第2の畳み込み層316Bは第1の畳み込み層316Aに結合することができ、第3の畳み込み層316Cは第2の畳み込み層316Bに結合することができ、他も同様である。第2の一連の畳み込み層316の各畳み込み層は、2つの畳み込み演算子を含むことができる。例えば、2つの畳み込み演算子は、(二重転置オクターブ畳み込み演算(double transpose octave convolution operations)とも呼ばれる)転置オクターブ畳み込み演算(transposed octave convolution operations)に対応することができる。
【0039】
動作時には、エンコーダ-デコーダニューラルネットワーク302のエンコーダネットワーク304を、第1の入力を受け取るように構成することができる。具体的には、エンコーダネットワーク304の複数の符号化層310のうちの入力層310Aを、第1の入力を受け取るように構成することができる。第1の入力は、(関心オブジェクト126などの)関心オブジェクトの(画像124などの)入力画像を含むことができる。例えば、
図3Aに示すように、入力画像は、入力サイズ256×256画素の(赤色、緑色及び青色(RGB)画像などの)3チャンネル画像であることができる。関心オブジェクト126は、生物又は無生物に対応することができる。例えば、関心オブジェクト126は、実在の人物、人物の戯画、架空キャラクタ又は漫画キャラクタの顔部分に対応することができる。
【0040】
エンコーダネットワーク304は、多重周波数特徴マップを生成するために、受け取った第1の入力に含まれる(画像124などの)入力画像を初期多重周波数特徴マップに分割するように構成することができる。初期多重周波数特徴マップは、関心オブジェクト126の包括的形状特徴に関連する第1の空間情報を捕捉できる第1の初期周波数特徴マップと、関心オブジェクト126の局所的形状特徴に関連する第2の空間情報を捕捉する第2の初期周波数特徴マップとを含むことができる。包括的形状特徴は、関心オブジェクト126の形状に関連することができる。一方で、局所的形状特徴は、関心オブジェクト126の1又は2以上のパーツの形状及び/又は表情に関連することができる。一例として、関心オブジェクト126が人間の顔である場合、包括的特徴は人間の顔の構造に関連することができる。一方で、局所的特徴は、人間の顔の顔パーツ(例えば、目、唇、鼻など)の構造及び顔の表情に関連することができる。第1の初期周波数特徴マップ及び第2の初期周波数特徴マップは、それぞれ初期低周波数特徴マップ及び初期高周波数特徴マップと呼ぶことができる。初期低周波数特徴マップ及び初期高周波数特徴マップの各々は、画像124の入力サイズとは異なるサイズであることができる。ある実施形態では、初期高周波数特徴マップのサイズが画像124の入力サイズと同じであることができる。また、初期低周波数特徴マップのサイズは、高周波数特徴マップのサイズよりも1オクターブ低いことができる。例えば、初期高周波数特徴マップのサイズは256×256であることができ、初期低周波数特徴マップのサイズは128×128であることができる。
【0041】
エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bの出力として多重周波数特徴マップを生成するために、初期多重周波数特徴マップを第1の一連の畳み込み層312に通すようにさらに構成することができる。上述したように、第1の一連の畳み込み層312の各畳み込み層は、初期多重周波数特徴マップの各々に適用できる2つの畳み込み演算子を含むことができる。2つの畳み込み演算子の各々は、(二重オクターブ畳み込み演算とも呼ばれる)オクターブ畳み込み演算に対応することができる。
【0042】
オクターブ畳み込み演算は、多重周波数特徴マップを低周波数特徴マップ及び高周波数特徴マップに因数分解することができる。具体的には、オクターブ畳み込み演算は、画像124に関連する空間情報を複数の周波数で捕捉することができる。例えば、I
H及びI
Lが入力高周波数特徴マップ及び低周波数特徴マップをそれぞれ表す場合、オクターブ畳み込みから取得される出力高周波数特徴マップ及び低周波数特徴マップO
H及びO
Lは、以下に示す方程式(1)及び方程式(2)を使用して取得することができ、
(1)
(2)
ここで、
f
H→H及びf
L→Lは周波数内更新演算(intra-frequency update operations)を意味し、
f
L→H及びf
H→Lは周波数間通信(inter-frequency communication)を意味する。
【0043】
エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bの出力として多重周波数特徴マップを生成するために、初期多重周波数特徴マップを第1の一連の畳み込み層312に通すようにさらに構成することができる。エンコーダネットワーク304の入力層310Aとエンコーダネットワーク304の最終層310Bとの間の各畳み込み層は、第1の一連の中間多重周波数特徴マップを生成することができる。例えば、第1の畳み込み層316A(すなわち、「畳み込み層1」)は一連の第1の中間多重周波数特徴マップを生成し、第2の畳み込み層316B(すなわち、「畳み込み層2」)は一連の第2の中間多重周波数特徴マップを生成し、他も同様である。第1の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、初期多重周波数特徴マップよりも小さく、(最終層310Bから取得される)多重周波数特徴マップよりも大きいことができる。
【0044】
ある実施形態では、対応する中間多重周波数特徴マップを、オクターブ畳み込み演算を適用できる次の層に受け渡す前に、第1の一連の中間多重周波数特徴マップの各々にダウンサンプリング動作を適用することができる。例えば、第1の畳み込み層316Aによって生成された一連の第1の中間多重周波数特徴マップは、第2の畳み込み層316Bに受け渡す前にダウンサンプリングすることができる。
【0045】
限定ではなく一例として、初期高周波数特徴マップ及び低周波数特徴マップのサイズは、それぞれ256×256及び128×128であることができる。第1の畳み込み層312Aは、それぞれ128×128及び64×64のサイズの高周波数特徴マップ及び低周波数特徴マップを含むことができる一連の第1の中間多重周波数特徴マップを生成することができる。同様に、第2の畳み込み層312Bは、それぞれ64×64及び32×32のサイズの高周波数特徴マップ及び低周波数特徴マップを含むことができる一連の第2の中間多重周波数特徴マップを生成することができる。同様に、第Nの畳み込み層312Nは、それぞれ16×16及びサイズ8×8のサイズの高周波数特徴マップ及び低周波数特徴マップを含むことができる中間多重周波数特徴マップを生成することができる。
【0046】
エンコーダネットワーク304の最終層310Bは、出力として多重周波数特徴マップを生成することができる。多重周波数特徴マップは、関心オブジェクト126の包括的形状特徴に関連する第1の空間情報を捕捉できる第1の周波数特徴マップを含むことができる。図示のように、例えば第1の周波数特徴マップは16×16のサイズであることができる。多重周波数特徴マップは、関心オブジェクト126の局所的形状特徴に関連する第2の空間情報を捕捉できる、第1の周波数特徴マップのサイズよりも1オクターブ小さい8×8のサイズであることができる第2の周波数特徴マップをさらに含むことができる。説明したように、局所的形状特徴は、関心オブジェクト126の包括的形状特徴と比べて細かく、数が多いものであることができる。
【0047】
ある実施形態では、第1の一連の畳み込み層312及び最終層310Bによって生成された各特徴マップが複数のチャンネルを有することができる。第1の一連の中間多重周波数特徴マップの各々におけるチャンネルの数は、第1の定数(α)及び第2の定数(C)に基づくことができる。第1の定数(α)は、低周波数特徴マップ及び高周波数特徴マップに割り当てられるチャンネルの比率を意味することができる。低周波数特徴マップは高周波数特徴マップよりも1オクターブ低いものとして定めることができ、すなわち低周波数特徴マップの空間分解能は高周波数特徴マップの空間分解能の半分であることができる。第1の定数(α)の値は、(0及び1の両方を含む)0~1であることができる。ある実施形態によれば、第1の定数(α)の値を0.25として設定し、第2の定数(C)の値を128に固定することができる。生成される多重周波数特徴マップの第1の周波数特徴マップのチャンネル数は(1-α).8Cであることができ、生成される多重周波数特徴マップの第2の周波数特徴マップのチャンネル数はα.Cであることができる。
【0048】
注意層306は、エンコーダネットワーク304の最終層310Bから生成された多重周波数特徴マップを受け取るように構成することができる。注意層306は、エンコーダネットワーク304の最終層310Bに結合することができる。エンコーダネットワーク304の最終層310Bはボトルネック層と呼ぶことができる。注意層306は、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するように構成することができる。注意層306及び多重周波数特徴マップの精緻化に関する詳細については、例えば
図3Cに示す。
【0049】
デコーダネットワーク308は、精緻化された多重周波数特徴マップを注意層306から第2の入力として受け取るように構成することができる。具体的には、デコーダネットワーク308の入力層314Aは、第1の精緻化された多重周波数特徴マップ及び第2の精緻化された特徴マップを含むことができる精緻化された多重周波数特徴マップをデコーダネットワーク308への入力として受け取るように構成することができる。デコーダネットワーク308は、注意層306を介してエンコーダネットワーク304に結合することができる。
【0050】
デコーダネットワーク308は、第2の入力に基づいてランドマーク検出結果を生成するように構成される。デコーダネットワーク308は、ランドマーク検出結果を生成するために、精緻化された多重周波数特徴マップを第2の畳み込み層316に通すように構成される。ランドマーク検出結果は、デコーダネットワーク308の最終層314Bの出力として生成することができる。エンコーダネットワーク304と同様に、デコーダネットワーク308の入力層314Aとデコーダネットワーク308の最終層314Bとの間の各畳み込み層は、第2の一連の中間多重周波数特徴マップを生成することができる。しかしながら、第1の一連の中間多重周波数特徴マップとは対照的に、第2の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、精緻化された多重周波数特徴マップよりも大きいことができる。
【0051】
ある実施形態では、デコーダネットワーク308を、精緻化された多重周波数特徴マップをアップサンプリングするように構成することができる。一例として、入力層314Aにおいて受け取られた第1の精緻化された多重周波数特徴マップのサイズ及び第2の多重周波数特徴マップのサイズがそれぞれ16×16及び8×8である場合、デコーダネットワーク308は、第1の精緻化された多重周波数特徴マップ及び第2の多重周波数特徴マップをそれぞれ32×32及び16×16にアップサンプリングするように構成することができる。デコーダネットワーク308は、それぞれ32×32及び16×16のサイズの第1の中間特徴マップを生成するために、アップサンプリングされた多重周波数特徴マップを第2の一連の畳み込み層316の第1の畳み込み層316Aに通すことができる。説明したように、第1の畳み込み層316Aは、転置オクターブ畳み込み演算に対応できる2つの畳み込み演算子を含むことができる。いくつかの実施形態では、2つの畳み込み演算子がバイリニア補間演算(bilinear interpolation operations)に対応することができる。
【0052】
連続する転置オクターブ畳み込み演算により、エンコーダネットワーク304においてオクターブ畳み込み演算を使用して捕捉しておいた空間情報を取り出すことができる。デコーダネットワーク308は、転置オクターブ畳み込み演算を適用して空間情報を取り出すように構成することができる。第1の畳み込み層316Aにおいて転置オクターブ畳み込み演算を適用することで、生成された32×32及び16×16のサイズの第1の中間特徴マップをそれぞれ64×64及び32×32のサイズの中間特徴マップにアップサンプリングすることができる。同様に、デコーダネットワーク308の第2の畳み込み層316B及び連続する畳み込み層は、第2の中間特徴マップ及び第3の中間特徴マップなどを生成するように構成することができる。デコーダネットワーク308の最終層314Bは、デコーダネットワーク308の出力としてランドマーク検出結果を生成するように構成することができる。ある実施形態によれば、デコーダネットワーク308は、第Nの畳み込み層316Nの中間出力に単一の転置オクターブ畳み込みを適用して、デコーダネットワーク308の最終層314Bの出力としてランドマーク検出結果を生成するように構成することができる。
【0053】
ランドマーク検出結果は、関心オブジェクト126のヒートマップ画像(又は出力画像)を含むことができる。ヒートマップ画像は、画像124内の関心オブジェクト126上のランドマーク点の位置を示すことができる。例えば、関心オブジェクト126が人間の顔である場合、人間の顔のランドマーク点の総数は68であることができる。ある実施形態では、ヒートマップ画像の最終サイズを画像124の入力サイズよりも小さくすることができる。こうすることで、入力サイズのヒートマップ画像を生成する中間特徴マップの処理の計算オーバヘッドを低減することができる。
図3Bに示すように、出力画像のサイズは64×64であることができ、M個のチャンネルを有することができる。チャンネル数(M)は、ランドマーク点の数に対応することができる。例えば、関心オブジェクト126が人間の顔である場合、出力画像のサイズは64×64であることができ、出力画像は(人間の顔のランドマーク点の数と同じ)M=68チャンネルを有することができる。
【0054】
ある実施形態では、エンコーダ-デコーダニューラルネットワーク302が、1又は2以上のスキップ接続をさらに含むことができる。1又は2以上のスキップ接続は、限定するわけではないが、第1のスキップ接続318A及び第2のスキップ接続318Bを含むことができる。第1のスキップ接続318Aは、エンコーダネットワーク304の(畳み込み層3などの)第1の中間符号化層と、デコーダネットワーク308の(畳み込み層N-1などの)第1の中間復号層との間に存在することができる。同様に、第2のスキップ接続318Bは、エンコーダネットワーク304の(畳み込み層N-1などの)第2の中間符号化層と、デコーダネットワーク308の(畳み込み層3などの)第2の中間復号層との間に存在することができる。
【0055】
エンコーダネットワーク304の第1の中間符号化層は、エンコーダネットワーク304の前の層からの入力に基づいて第1の一連の中間多重周波数特徴マップを生成するように構成することができ、第1のスキップ接続318Aは、第1の一連の中間多重周波数特徴マップに含まれる空間情報をデコーダネットワーク308の第1の中間復号層に転送するように構成することができる。換言すれば、第1のスキップ接続318Aは、デコーダネットワーク308の位置情報を復元するとともに、エンコーダネットワーク304での符号化段階中に発生する空間損失を低減するために、エンコーダ-デコーダニューラルネットワーク302に組み込むことができる。同様に、エンコーダネットワーク304の第2の中間符号化層は、エンコーダネットワーク304の前の層からの入力に基づいて第2の一連の中間多重周波数特徴マップを生成するように構成することができ、第2のスキップ接続318Bは、第2の一連の中間多重周波数特徴マップに含まれる空間情報をデコーダネットワーク308の第2の中間復号層に転送するように構成することができる。ある実施形態では、エンコーダ-デコーダニューラルネットワーク106が3つ以上のスキップ接続を含むこともできる。
【0056】
なお、最終層310Bは、エンコーダネットワーク304において符号化できる最も重要かつ抽象的な情報を含むので、注意層306はボトルネック層(すなわち、エンコーダネットワーク304の最終層310Bの後)に組み込むことができる。さらに、ボトルネック層では、高周波数特徴マップ及び低周波数特徴マップの空間解像度を低くすることができる。これにより、注意層306の動作のための計算コストを低減し、エンコーダデコーダニューラルネットワーク302の実行を高速化できるようになる。
【0057】
開示するエンコーダ-デコーダニューラルネットワーク302は、人物の戯画、架空キャラクタ又は漫画キャラクタが実在の人物の顔部分と比べて誇張された顔特徴(例えば、複雑な顎構造)を含む場合があるにもかかわらず、実在の人物、人物の戯画、架空キャラクタ又は漫画キャラクタの顔部分のランドマークを検出できるほど十分にロバストであることができる。また、開示するシステムは、様々なポーズ、照明の変化、ぼやけ及びオクルージョンなどの困難なシナリオの場合でもランドマークを検出することができる。これが可能である理由は、開示するエンコーダ-デコーダニューラルネットワーク302が全ての符号化及び復号段階で多重周波数空間情報を捕捉できるからである。これにより、エンコーダ-デコーダニューラルネットワーク302が各段階で受け取った多重周波数マルチスケール情報を利用して包括的及び局所的構造を学習することを可能にすることができる。空間次元は連続する符号化層において減少するが、エンコーダデコーダニューラルネットワーク302はプロセスの一部として高レベルの抽象的な情報を学習する。さらに、特徴マップの品質をさらに高めるために、ボトルネック層に追加された注意層306は長期依存性(long-range dependencies)を捕捉することができる。この注意層306は周波数間通信をさらに触媒し、従って注意を提供して高レベルの特徴精緻化を保証することができる。さらに、エンコーダデコーダニューラルネットワーク302に1又は2以上のスキップ接続を組み込んで位置情報を復元するとともに、符号化段階中に発生する空間損失を低減することもできる。
【0058】
実験の一部として、開示するエンコーダ-デコーダニューラルネットワーク302を使用して複数のデータセットについて1又は2以上の評価メトリクスを計算する。1又は2以上の評価メトリクスは、正規化平均誤差(normalized mean error:NME)及び失敗率(failure rate)を含む。例えば、複数のデータセットは、戯画データセット(caricature dataset)、300faces in the wild(300W)データセット、Caltech Occluded Faces in the Wild(COFW)データセット、及びWider Facial Landmarks in the Wild(WFLW)データセットを含むことができる。開示するエンコーダ-デコーダニューラルネットワーク302のNME誤差は、当業で周知の全ての従来のランドマーク検出方法の中で最も低い。
【0059】
図3Cは、本開示の実施形態による、
図3A及び
図3Bのエンコーダ-デコーダニューラルネットワーク302の例示的な注意層を示す図である。
図3Cの説明は、
図1、
図2、
図3A及び
図3Bの要素に関連して行う。
図3Cには、エンコーダ-デコーダニューラルネットワーク302のエンコーダネットワーク304とデコーダネットワーク308との間に組み込むことができる注意層306を示す。
【0060】
ある実施形態では、注意層306が、エンコーダネットワーク304の最終層310Bに結合することができる。注意層306は、エンコーダネットワーク304の最終層310Bから生成された多重周波数特徴マップを受け取るように構成することができる。ある実施形態では、エンコーダネットワーク304の最終層310Bをボトルネック層と呼ぶことができる。換言すれば、注意層306はボトルネック層に実装することができる。注意層306は、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するように構成することができる。
【0061】
上述したように、生成された多重周波数特徴マップは、第1の周波数特徴マップ(Xh)320A及び第2の周波数特徴マップ(Xl)320Bを含むことができる。第1の周波数特徴マップ320AはCh個のチャンネルを含むことができ、高さ「H」及び幅「W」であることができる。第2の周波数特徴マップ320BはCl個のチャンネルを含むことができ、第1の周波数特徴マップ320Aよりも1オクターブ低い。従って、第2の周波数特徴マップ320Bは、高さ「H/2」及び幅「W/2」であることができる。注意層306は、多重周波数特徴マップを精緻化するために、受け取った多重周波数特徴マップから第1の埋め込み(φ)322A、第2の埋め込み(θ)322B及び第3の埋め込み(γ)322Cを含む一連の埋め込み(embeddings)を取得するように構成することができる。埋め込みは、高次元ベクトルの低次元空間への変換に対応することができる。具体的には、一連の埋め込みの各々は、多重周波数特徴マップに1×1畳み込み演算324を適用することによって取得することができる。限定ではなく一例として、第1の埋め込み322A、第2の埋め込み322B及び第3の埋め込み322Cは、以下の方程式(3)、(4)及び(5)を介して提供され、
(3)
(4)
(5)
ここで、
X
hは、多重周波数特徴マップの第1の周波数特徴マップ320Aを表し、X
h∈R
Ch×H×Wであり、
X
lは、多重周波数特徴マップの第2の周波数特徴マップ320Bを表し、
であり、
Hは、第1の周波数特徴マップ320Aの高さを表し、
Wは、第1の周波数特徴マップ320Aの幅を表し、
C
hは、第1の周波数特徴マップ320Aのチャンネル数を表し、
C
lは、第2の周波数特徴マップ320Bのチャンネル数を表し、
であり、
θ∈R
C×H×Wであり、
Y∈R
C×H×Wであり、
C=128(固定値)である。
【0062】
注意層306は、一連の埋め込みの各々を特定のサイズに平坦化するようにさらに構成することができる。例えば、第1の埋め込みはC×Sのサイズに平坦化することができる。第2の埋め込み及び第3の埋め込みの各々はC×Nのサイズに平坦化することができ、ここでのS及びNはそれぞれ空間的位置の総数を表し、すなわちS=H/2×W/2及びN=H*Wである。
【0063】
注意層306は、第1の周波数特徴マップ320Aと第2の周波数特徴マップ320Bとの間の1又は2以上の相関性を決定するようにさらに構成することができる。具体的には、注意層306は、第1の周波数特徴マップ320A及び第2の周波数特徴マップ320Bにおいてそれぞれ捕捉された低周波数空間情報と高周波数空間情報との間の長期依存性を捕捉できる類似度行列(similarity matrix)を計算するように構成することができる。ある実施形態では、以下の方程式(6)に示すような行列乗算を使用して類似度行列を計算することができ、
(6)
ここで、
Yは類似度行列を表し、Y∈R
S×Nである。
【0064】
注意層306は、類似度行列を正規化して統一的類似度行列(unified similarity matrix)を取得するようにさらに構成することができる。具体的には、計算された類似度行列を正規化関数326に基づいて正規化することができる。ある実施形態では、正規化関数326がSoftMax関数であることができる。統一的類似度行列は、以下のような方程式(7)を使用して取得することができ、
(7)
ここで、
Yは類似度行列を表し、Y∈R
S×Nであり、
fは正規化関数を表し、
は統一的類似度行列を表す。
【0065】
ある実施形態では、(方程式7で説明した)「Υ」における各位置についての注意層306の出力(Z)を以下のような方程式(8)によって提供することができ、
(8)
ここで、
Zは注意層306を表し、Z∈R
S×Cであり、
Υ
Tは、第3の埋め込み322Cの転置を表す。
【0066】
注意層306は、S及びZからそれぞれH/2×W/2を取得するために空間的位置を復元するようにさらに構成することができる。注意層306は、再びCからCl個のチャンネルを取得するように、S及びZを1×1畳み込みにさらに通すことができる。注意層306は、残差接続(residual connection)が第1の精緻化された多重周波数特徴マップ328を取得することを可能にするようにさらに構成される。ある実施形態では、第1の精緻化された多重周波数特徴マップ328を以下のような方程式(9)によって提供することができ、
(9)
ここで、
は、第1の精緻化された多重周波数特徴マップ328であり、
である。(方程式(9)によって示される)第1の精緻化された多重周波数特徴マップ328は、高周波数空間情報と低周波数空間情報との間の複雑な関連性を捕捉することができる。
【0067】
ある実施形態では、第2の精緻化された特徴マップがXhであることができる。注意層306は、(方程式(9)によって示される)第1の精緻化された特徴マップ及び第2の精緻化された特徴マップを入力としてデコーダネットワーク308に提供するように構成することができる。説明したように、デコーダネットワーク308は、精緻化された多重周波数特徴マップを受け取り、入力としての精緻化された多重周波数特徴マップに基づいてヒートマップ画像128を生成することができる。
【0068】
図4Aは、本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出の例示的なシナリオを示す図である。
図4Aの説明は、
図1、
図2、
図3A、
図3B及び
図3Cの要素に関連して行う。
図4Aにはシナリオ400Aを示す。シナリオ400Aには、プロセッサ404と、
図3A及び
図3Bのエンコーダ-デコーダニューラルネットワーク302と、
図1のディスプレイ装置116とを含むシステム402を示す。さらに、戯画風の顔408の画像406も示す。
【0069】
エンコーダ-デコーダニューラルネットワーク302は、エンコーダネットワーク304、注意層306、及びデコーダネットワーク308を含むことができる。エンコーダネットワーク304は、関心オブジェクト(すなわち、戯画風の顔408)の画像406を含む第1の入力を受け取ることができる。エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bの出力として多重周波数特徴マップを生成するようにさらに構成することができる。多重周波数特徴マップは、受け取った第1の入力に基づいて生成することができる。
【0070】
エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bに結合できる注意層306に多重周波数特徴マップを送信するようにさらに構成することができる。注意層306は、エンコーダネットワーク304の最終層310Bから生成された多重周波数特徴マップを受け取り、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化することができる。注意層306は、注意層306を介してエンコーダネットワーク304に結合できるデコーダネットワーク308に、精緻化された多重周波数特徴マップをさらに送信することができる。
【0071】
デコーダネットワーク308は、精緻化された多重周波数特徴マップを注意層306から第2の入力として受け取ることができる。デコーダネットワーク308は、ランドマーク検出結果を生成するようにさらに構成することができる。ある実施形態では、プロセッサ404を、デコーダネットワーク308の最終層314Bからランドマーク検出結果を抽出するように構成することができる。ランドマーク検出結果は、戯画風の顔408のヒートマップ画像410を含むことができる。ヒートマップ画像410は、画像406内の戯画風の顔408上のランドマーク点412の位置を示すことができる。
【0072】
ある実施形態では、プロセッサ404を、ヒートマップ画像410に基づいて戯画風の顔408上のランドマーク点412の位置を示すように画像406上にカラーマーキングをオーバーレイ表示するよう構成することができる。画像406上にオーバーレイ表示されたカラーマーキングに基づいて最終画像414を生成することができる。例えば、ランドマーク点412の各位置は、(白色などの)第1の色又は(白色及び赤色などの)少なくとも2色の組み合わせを使用して示すことができる。ある実施形態では、包括的形状特徴に関連するランドマーク点412の位置を第1の色で示し、局所的形状特徴に関連するランドマーク点412の位置を第2の色で示すことができる。プロセッサ404は、画像406上にカラーマーキングがオーバーレイ表示された最終画像414を含む出力をレンダリングするようにディスプレイ装置116を制御するようさらに構成することができる。
【0073】
図4Bは、本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出の例示的なシナリオを示す図である。
図4Bの説明は、
図1、
図2、
図3A、
図3B、
図3C及び
図4Aの要素に関連して行う。
図4Bにはシナリオ400Bを示す。シナリオ400Bには、プロセッサ404と、
図3A及び
図3Bのエンコーダ-デコーダニューラルネットワーク302と、
図1のディスプレイ装置116とを含むシステム402の図を示す。さらに、人間の顔418の画像416も示す。
【0074】
エンコーダ-デコーダニューラルネットワーク302は、エンコーダネットワーク304、注意層306、及びデコーダネットワーク308を含むことができる。エンコーダネットワーク304は、関心オブジェクト(すなわち、人間の顔418)の画像416を含む第1の入力を受け取ることができる。エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bの出力として多重周波数特徴マップを生成するようにさらに構成することができる。多重周波数特徴マップは、受け取った第1の入力に基づいて生成することができる。
【0075】
エンコーダネットワーク304は、エンコーダネットワーク304の最終層310Bに結合できる注意層306に多重周波数特徴マップを送信するようにさらに構成することができる。注意層306は、エンコーダネットワーク304の最終層から生成された多重周波数特徴マップを受け取り、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化することができる。注意層306は、注意層306を介してエンコーダネットワーク304に結合できるデコーダネットワーク308に精緻化された多重周波数特徴マップをさらに送信することができる。
【0076】
デコーダネットワーク308は、精緻化された多重周波数特徴マップを注意層306から第2の入力として受け取り、人間の顔418のヒートマップ画像420を含むランドマーク検出結果を生成することができる。ヒートマップ画像420は、画像416内の人間の顔418上のランドマーク点422の位置を示すことができる。
【0077】
ある実施形態では、プロセッサ404を、デコーダネットワーク308の最終層310Bからランドマーク検出結果を抽出するように構成することができる。プロセッサ404は、人間の顔418上のランドマーク点422の位置を示すように画像416上にカラーマーキングをオーバーレイ表示するようさらに構成することができる。画像416上にオーバーレイ表示されたカラーマーキングに基づいて最終画像424を生成することができる。例えば、ランドマーク点422の各位置は、(白色などの)第1の色又は(白色及び赤色などの)少なくとも2色の組み合わせを使用して示すことができる。ある実施形態では、包括的形状特徴に関連するランドマーク点422の位置を第1の色で示し、局所的形状特徴に関連するランドマーク点422の位置を第2の色で示すことができる。プロセッサ404は、画像416上にカラーマーキングがオーバーレイ表示された最終画像424を含む出力をレンダリングするようにディスプレイ装置116を制御するようさらに構成することができる。
【0078】
図5は、本開示の実施形態による、多重周波数自己注意を有するディープニューラルネットワークを用いた例示的なランドマーク検出方法を示すフローチャートである。
図5の説明は、
図1、
図2、
図3A、
図3B、
図3C、
図4A及び
図4Bの要素に関連して行う。
図5にはフローチャート500を示す。フローチャート500の動作は、502から開始して504に進むことができる。
【0079】
504において、入力として第1の入力を受け取ることができる。第1の入力は、関心オブジェクト126の画像124を含むことができる。少なくとも1つの実施形態では、エンコーダネットワーク108を、関心オブジェクト126の画像124を含むことができる第1の入力を受け取るように構成することができる。
【0080】
506において、エンコーダネットワーク108の最終層120Nの出力として多重周波数特徴マップを生成することができる。出力は、受け取った第1の入力に基づいて生成することができる。少なくとも1つの実施形態では、エンコーダネットワーク108を、受け取った第1の入力に基づいて、エンコーダネットワーク108の最終層120Nの出力として多重周波数特徴マップを生成するように構成することができる。
【0081】
508において、エンコーダネットワーク108の最終層120Nから生成された多重周波数特徴マップを受け取ることができる。少なくとも1つの実施形態では、注意層110を、エンコーダネットワーク108の最終層120Nから生成された多重周波数特徴マップを受け取るように構成することができる。
【0082】
510において、多重周波数特徴マップを精緻化することができる。多重周波数特徴マップは、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて精緻化することができる。少なくとも1つの実施形態では、注意層110を、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するように構成することができる。
【0083】
512において、精緻化された多重周波数特徴マップを注意層110から第2の入力として受け取ることができる。少なくとも1つの実施形態では、デコーダネットワーク112を、精緻化された多重周波数特徴マップを注意層110から第2の入力として受け取るように構成することができる。
【0084】
514において、第2の入力に基づいてランドマーク検出結果を生成することができる。ランドマーク検出結果は、関心オブジェクト126のヒートマップ画像128を含むことができる。ヒートマップ画像128は、画像124内の関心オブジェクト126上のランドマーク点130の位置を示すことができる。少なくとも1つの実施形態では、デコーダネットワーク112を、第2の入力に基づいて、関心オブジェクト126のヒートマップ画像128を含むランドマーク検出結果を生成するように構成することができ、ヒートマップ画像128は、画像124内の関心オブジェクト126上のランドマーク点130の位置を示すことができる。制御は終了に進むことができる。
【0085】
本開示の様々な実施形態は、多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出システム(例えば、システム102)を動作させるために機械及び/又はコンピュータが実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、関心オブジェクト(例えば、関心オブジェクト126)の画像(例えば、画像124)を含むことができる第1の入力を入力として受け取ることを含む動作を機械及び/又はコンピュータに実行させることができる。動作は、エンコーダネットワーク(例えば、エンコーダネットワーク108)の最終層(例えば、最終層120N)の出力として多重周波数特徴マップを生成することをさらに含む。動作は、エンコーダネットワーク304の最終層120Nから生成された多重周波数特徴マップを受け取ることをさらに含む。動作は、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化することをさらに含む。動作は、精緻化された多重周波数特徴マップを注意層(例えば、注意層110)から第2の入力として受け取ることをさらに含む。動作は、関心オブジェクトのヒートマップ画像(例えば、ヒートマップ画像128)を含むランドマーク検出結果を生成することをさらに含む。ヒートマップ画像は、画像内の関心オブジェクト上のランドマーク点(例えば、ランドマーク点130)の位置を示すことができる。
【0086】
多重周波数自己注意を有するディープニューラルネットワークを用いたランドマーク検出のためのシステム及び方法では、本開示のいくつかの実施形態を見出すことができる。本開示の様々な実施形態は、関心オブジェクト126の画像124を含む第1の入力を受け取るように構成できるエンコーダネットワーク108を含むことができるシステム102を提供することができる。関心オブジェクト126は、実在の人物、人物の戯画、架空キャラクタ又は漫画キャラクタの顔部分に対応することができる。エンコーダネットワーク108は、受け取った第1の入力に基づいて、エンコーダネットワーク108の最終層120Nの出力として多重周波数特徴マップを生成するようにさらに構成することができる。多重周波数特徴マップは、関心オブジェクト126の包括的形状特徴に関連する第1の空間情報を捕捉する第1の周波数特徴マップと、関心オブジェクト126上の包括的形状特徴に比べて細かく数が多い局所的形状特徴に関連する第2の空間情報を捕捉する第2の周波数特徴マップとを含むことができる。
【0087】
ある実施形態によれば、エンコーダネットワーク108は複数の符号化層120を含む。複数の符号化層120は、入力層120Aと、入力層120Aの後に続く第1の一連の畳み込み層120Bとをさらに含むことができる。第1の一連の畳み込み層120Bの第1の畳み込み層は、エンコーダネットワーク108の入力層120Aに結合され、第1の一連の畳み込み層120Bの各残りの畳み込み層は、複数の符号化層120の前の畳み込み層に結合される。第1の一連の畳み込み層120Bの各畳み込み層は、2つの畳み込み演算子を含む。2つの畳み込み演算子の各々は、オクターブ畳み込み演算に対応する。
【0088】
ある実施形態によれば、エンコーダネットワーク108は、受け取った第1の入力に含まれる画像124を初期多重周波数特徴マップに分割するように構成することができる。エンコーダネットワーク108は、エンコーダネットワーク108の最終層120Nの出力として多重周波数特徴マップを生成するために、初期多重周波数特徴マップを第1の一連の畳み込み層120Bに通すようにさらに構成することができる。エンコーダネットワーク108の入力層120Aとエンコーダネットワーク108の最終層120Nとの間の各畳み込み層は、第1の一連の中間多重周波数特徴マップを生成する。第1の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、初期多重周波数特徴マップよりも小さく、多重周波数特徴マップよりも大きい。
【0089】
システム102は、エンコーダネットワーク108の最終層120Nから生成された多重周波数特徴マップを受け取るように構成できる注意層110をさらに含むことができる。注意層110は、受け取った多重周波数特徴マップ間の相関性又は関連性に基づいて多重周波数特徴マップを精緻化するようにさらに構成することができる。
【0090】
ある実施形態によれば、システム102は、精緻化された多重周波数特徴マップを注意層110から第2の入力として受け取るように構成できるデコーダネットワーク112をさらに含むことができる。デコーダネットワーク112は、注意層110を介してエンコーダネットワーク108に結合することができる。デコーダネットワーク112は、複数の復号層122を含むことができる。複数の復号層122は、入力層122Aと、デコーダネットワーク112の入力層122Aの後に続く第2の一連の畳み込み層122Bとを含むことができる。第2の一連の畳み込み層122Bの第1の畳み込み層は、デコーダネットワーク112の入力層122Aに結合することができ、第2の一連の畳み込み層122Bの各残りの畳み込み層は、複数の復号層122の前の畳み込み層に結合することができる。第2の一連の畳み込み層122Bの各畳み込み層は、2つの畳み込み演算子を含む。2つの畳み込み演算子の各々は、転置オクターブ畳み込み演算に対応する。
【0091】
ある実施形態によれば、デコーダネットワーク112は、デコーダネットワーク112の最終層122Nの出力としてランドマーク検出結果を生成するために、精緻化された多重周波数特徴マップを第2の一連の畳み込み層122Bに通すように構成することができる。デコーダネットワーク112の入力層122Aとデコーダネットワーク112の最終層122Nとの間の各畳み込み層は、第2の一連の中間多重周波数特徴マップを生成する。第2の一連の中間多重周波数特徴マップの各中間特徴マップのサイズは、精緻化された多重周波数特徴マップよりも大きい。
【0092】
ある実施形態によれば、ランドマーク検出結果は、関心オブジェクト126のヒートマップ画像128を含むことができる。ヒートマップ画像128は、画像124内の関心オブジェクト126上のランドマーク点130の位置を示すことができる。
【0093】
ある実施形態によれば、システム102は、エンコーダネットワーク108の中間符号化層とデコーダネットワーク112の中間復号層との間のスキップ接続をさらに含むことができる。エンコーダネットワーク108の中間符号化層は、エンコーダネットワーク108の前の層からの入力に基づいて第1の一連の中間多重周波数特徴マップを生成するように構成することができる。スキップ接続は、第1の一連の中間多重周波数特徴マップに含まれる空間情報をデコーダネットワーク112の中間復号層に転送するように構成することができる。
【0094】
ある実施形態によれば、システム102は、デコーダネットワーク112の最終層122Nからランドマーク検出結果を抽出するように構成できるプロセッサ104をさらに含むことができる。プロセッサ104は、関心オブジェクト126上のランドマーク点の位置を示すように画像124上にカラーマーキングをオーバーレイ表示するようさらに構成することができる。プロセッサ104は、画像124上にオーバーレイ表示されたカラーマーキングを含む出力をレンダリングするようにディスプレイ装置116を制御するようさらに構成することができる。
【0095】
ある実施形態によれば、エンコーダネットワーク108及びデコーダネットワーク112は、ディープニューラルネットワーク(DNN)であることができる。エンコーダネットワーク108、デコーダネットワーク112及び注意層110は、ランドマーク検出タスクに基づいて訓練できるエンコーダ-デコーダニューラルネットワーク106を共に形成することができる。
【0096】
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
【0097】
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0098】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
【符号の説明】
【0099】
100 ネットワーク環境
102 システム
104 プロセッサ
106 エンコーダ-デコーダニューラルネットワーク
108 エンコーダネットワーク
110 注意層
112 デコーダネットワーク
114 スキップ
116 ディスプレイ装置
118 通信ネットワーク
120A 入力層
120B 第1の一連の畳み込み層
120C 最終層
122A 入力層
122B 第2の一連の畳み込み層
122C 最終層
124 画像
126 関心オブジェクト
128 ヒートマップ画像
130 ランドマーク点
132 最終画像