特表2024-508930 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ロレアルの特許一覧

特表2024-508930ワンショットニューラルアーキテクチャ検索による軽量でリアルタイムな顔の位置合わせ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
2E
3
4A
4B
4C
4D
5
6A
6B
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-28

(54)【発明の名称】ワンショットニューラルアーキテクチャ検索による軽量でリアルタイムな顔の位置合わせ

(51)【国際特許分類】

G06N 3/082 20230101AFI20240220BHJP

G06N 3/0464 20230101ALI20240220BHJP

G06T 7/00 20170101ALI20240220BHJP

G06T 7/30 20170101ALI20240220BHJP

【ＦＩ】

G06N3/082

G06N3/0464

G06T7/00 350C

G06T7/30

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023553745

(86)(22)【出願日】2022-03-03

(85)【翻訳文提出日】2023-11-06

(86)【国際出願番号】 EP2022055446

(87)【国際公開番号】W WO2022184850

(87)【国際公開日】2022-09-09

(31)【優先権主張番号】63/155,839

(32)【優先日】2021-03-03

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】2201813

(32)【優先日】2022-03-02

(33)【優先権主張国・地域又は機関】FR

(81)【指定国・地域】

(71)【出願人】

【識別番号】391023932

【氏名又は名称】ロレアル

【氏名又は名称原語表記】Ｌ’ＯＲＥＡＬ

【住所又は居所原語表記】１４ＲｕｅＲｏｙａｌｅ，７５００８ＰＡＲＩＳ，Ｆｒａｎｃｅ

(74)【代理人】

【識別番号】110000534

【氏名又は名称】弁理士法人真明センチュリー

(72)【発明者】

【氏名】アーラビ・パラム

(72)【発明者】

【氏名】チェン・ヂィーハオ

(72)【発明者】

【氏名】ユ・チ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA02

5L096FA69

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

畳み込みニューラルネットワーク（ＣＮＮ）では顔位置合わせネットワーク（ＦＡＮ）が広範囲の公衆データセット上でかなりの精度を達成しており、これは大きなモデルサイズ及び高価な計算コストとなるので、エッジデバイスのリアルタイムアプリにそれらを適応させるのは不可能である。性能基準を維持しつつこの問題を克服するため、ワンショットニューラルアーキテクチャ検索を用いるＦＡＮ上のモデル圧縮アプローチが提供される。方法及びデバイスは（１のＧＰＵ上で）効率的な訓練及び検索を提供し、結果として得られるモデルはエッジデバイスのブラウザベースのアプリでリアルタイム実行できるように展開できる。圧縮モデルは同等の最先端の精度を提供しつつ３０倍小さなモデルサイズを有し、一般的なスマートフォン及びＯＳ上の一般的なブラウザにおいて１フレーム当たり４０．７ミリ秒で実行できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

方法であって、
顔位置合わせネットワーク（ＦＡＮ）モデルを定義することは、
ｉ）訓練データセット及びｉｉ）拡張および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することで前記ネットワーク構造から候補サブモデルのセットを生成することと、ここで前記ＥＳＴ動作は、候補サブモデルのセットを定義するための様々な構成パラメータの候補サブモデルのインスタンスを定義および保持するものであり、
前記候補サブモデルから前記ＦＡＮモデルを選択するために、速度および精度評価基準を用いて前記候補サブモデルの進化的検索を実行することとを含むものであることを特徴とする方法。

【請求項2】

前記ＦＡＮモデルは、顔画像を処理するためのエッジデバイスによるランタイム実行のために定義されることを特徴とする請求項１記載の方法。

【請求項3】

前記ＥＳＴ動作は、前記ネットワーク構造に従って以前に定義されたベースラインモデルから訓練を開始することを特徴とする請求項１又は２に記載の方法。

【請求項4】

前記ＥＳＴ動作は、ＥＳＴ動作を用いる更なる訓練のために、前記候補サブモデルのそれぞれにおける部分的に訓練されたパラメータとして、前記ベースラインモデルからの事前訓練されたパラメータを利用することを特徴とする請求項３記載の方法。

【請求項5】

前記候補サブモデルは、２エポックと６０エポックとの間、２エポックと２５エポックとの間および２エポックのうちのいずれか１つについて更に訓練されることを特徴とする請求項に記載の方法。

【請求項6】

前記ＥＳＴ動作は、各訓練反復においてランダムなサブネットを活性化して、サブネットの部分重みを積分として訓練し、サブモデル間で共有重みを効果的に訓練することを特徴とする請求項３から５のいずれかに記載の方法。

【請求項7】

前記ＥＳＴ動作は、深度サイズ、カーネルサイズ、チャンネル比および拡張比を含む複数の検索次元に従って候補サブモデルを生成するための検索空間を定義することを特徴とする請求項３から６のいずれかに記載の方法。

【請求項8】

前記ＥＳＴ動作は、小さな深度サイズ、小さなカーネルサイズ、大きなチャンネル比および大きな拡張比で開始し、次いで、動作は、段階的かつ以下の順序で、深度サイズ及びカーネルサイズをそれぞれの最大まで徐々に拡張し、終了フェーズで、チャンネル比および拡張比をそれぞれの最小まで徐々に縮小することを特徴とする請求項７記載の方法。

【請求項9】

前記ＥＳＴ動作は、第１サイズのカーネルを訓練し、前記第１サイズのカーネルを用いて、その後、第２サイズのカーネルを訓練する初期フェーズにおけるカーネル訓練動作を備え、前記第１サイズのカーネルは、前記第２サイズのカーネルの中心であることを特徴とする請求項７又は８に記載の方法。

【請求項10】

前記ＥＳＴ動作は、より少ないレイヤーを訓練し、次いで、より大きなレイヤーオプションを前記訓練に徐々に追加する、中間フェーズにおける深度訓練動作を含むことを特徴とする請求項６から９のいずれかに記載の方法。

【請求項11】

前記ＥＳＴ動作は、チャンネル比および拡張比訓練動作を備え、チャンネル比および拡張比訓練動作は、それぞれ終了フェーズでチャンネル比および拡張比を縮小することを特徴とする請求項６から１０のいずれかに記載の方法。

【請求項12】

請求項２に従属する請求項３から１０のように、前記進化的検索が、速度および精度評価基準を決定するために前記ベースラインモデルを評価することを特徴とする請求項２から１１のいずれかに記載の方法。

【請求項13】

請求項２に従属する請求項３から１２のように、前記進化的検索が、前記ベースラインモデルから進化して、後続のサンプリング及び評価のための候補サブモデルの母集団を定義することを特徴とする請求項２から１２のいずれかに記載の方法。

【請求項14】

前記進化的検索は、
前記母集団からサンプリングして候補サブモデルの数量を選択し、
前記数量から最速のサブモデルを選択し、
前記最速のサブモデルを進化させて関連するサブモデルを決定し、
前記母集団から最古のサブモデルを除去し、
前記関連するサブモデルが精度閾値テストを満たす場合、後でサンプリングできるように前記関連するサブモデルを前記母集団に追加し、前記関連するサブモデルを最後の最速の候補サブモデルのセットに追加することを含む複数のサイクルを実行し、
前記複数のサイクルの前記性能に従って、前記最後の最速の候補サブモデルのセットから前記最速のサブモデルを前記ＦＡＮモデルとして選択することを特徴とする請求項１３記載の方法。

【請求項15】

前記進化的検索は、
前記母集団からサンプリングして候補サブモデルの数量を選択し、
前記数量から最も正確なサブモデルの選択を選択し、
前記最も正確なサブモデルを進化させて関連するサブモデルを決定し、
前記母集団から最古のサブモデルを除去し、
前記関連するサブモデルが速度閾値テストを満たす場合、後でサンプリングできるように前記関連するサブモデルを母集団に追加し、前記関連するサブモデルをサンプリングし、最後の最も正確な候補サブモデルのセットに追加することを含む複数のサイクルを実行し、
前記複数のサイクルの前記性能に従って、前記最後の最も正確な候補サブモデルのセットから前記最も正確なサブモデルを前記ＦＡＮモデルとして選択することを特徴とする請求項１３記載の方法。

【請求項16】

前記ネットワーク構造が、予測のために抽出された特徴を精緻化するために関心領域（ＲｏＩ）位置合わせレイヤーに出力する２段階構造であることを特徴とする請求項１から１５のいずれかに記載の方法。

【請求項17】

第１段階が４つのブロックを含み、第２段階が１つのブロックを含み、各ブロックが最大４つのレイヤーを含み、各レイヤーが反転された残差レイヤーを含むことを特徴とする請求項１６記載の方法。

【請求項18】

エッジデバイスによる実行のために前記ＦＡＮモデルを含むアプリケーションを定義することを特徴とする請求項１から１７のいずれかに記載の方法。

【請求項19】

前記アプリケーションは、
前記顔のメイクアップ製品の前記試着をシミュレートするメイクアップシミュレーションアプリケーションと、
少なくとも１つの皮膚の徴候について領域または前記顔の領域を分析し、スコア付けするための皮膚分析アプリケーションと、
前記顔の領域に関連するグラフィカルエフェクトをシミュレートするエフェクトシミュレーションアプリケーションと、
顔の位置を追跡および示すための顔追跡アプリケーションとのいずれか１つであることを特徴とする請求項１８記載の方法。

【請求項20】

前記アプリケーションは、前記ＦＡＮモデルによってビデオを処理するように構成されることを特徴とする請求項１８又は１９に記載の方法。

【請求項21】

前記エッジデバイスは、スマートフォン又はタブレット端末であり、前記ＦＡＮモデルは、グラフィックス処理ユニット（ＧＰＵ）による実行のために構成されることを特徴とする請求項１８から２０のいずれかに記載の方法。

【請求項22】

前記アプリケーションは、前記メイクアップシミュレーションアプリケーション又は前記皮膚分析アプリケーションであり、前記アプリケーションは、それぞれメイクアップ及び皮膚トリートメントに関連する製品またはサービスを購入するために、電子商取引購入サービスへのインターフェースを提供するように構成されることを特徴とする請求項１９から２１のいずれかに記載の方法。

【請求項23】

前記アプリケーションは、前記メイクアップシミュレーションアプリケーション又は前記皮膚分析アプリケーションであり、前記アプリケーションは、メイクアップ及び皮膚トリートメントにそれぞれ関連する製品またはサービスを推奨する電子商取引推奨サービスへのインターフェースを提供するように構成されることを特徴とする請求項１９から２２のいずれかに記載の方法。

【請求項24】

命令を記憶する記憶デバイスに結合されたプロセッサを備えるコンピューティングデバイスであって、前記命令が前記プロセッサで実行されると、前記コンピューティングデバイスを、前記の請求項のいずれかに記載の方法に従った方法を実行するように構成されることを特徴とするコンピューティングデバイス。

【請求項25】

コンピュータプログラム製品であって、命令を記憶する非一時的記憶デバイスと、コンピューティングデバイスの処理ユニットによる実行のためのＦＡＮモデルを定義するデータとを備え、前記ＦＡＮモデルは、前記の請求項のいずれかに記載の方法に従った方法で定義されることを特徴とするコンピュータプログラム製品。

【請求項26】

命令を記憶する記憶デバイスに結合された処理ユニットを備えるコンピュータデバイスであって、前記命令が前記理ユニットで実行されたときに、前記の請求項のいずれかに記載の方法に従って定義されたＦＡＮモデルを提供するように前記コンピューティングデバイスを構成することを特徴とするコンピュータデバイス。

【発明の詳細な説明】

【技術分野】

【0001】

《相互参照》
本出願は、2021年3月3日に出願された米国仮出願第63/155,839号に対する優先権の利益を主張し、その全内容は、参照により本明細書に組み込まれる。本出願はまた、2022年3月2日に出願された仏国特許出願第2201813号に対する優先権の利益を主張し、その全内容は、参照により本明細書に組み込まれる。

【0002】

本出願は、画像処理のためのコンピュータ処理、画像処理およびニューラルネットワークの改善に関し、より詳細には、ワンショットニューラルアーキテクチャ検索（one-shot neural architecture search、ＮＡＳ）を用いた軽量でリアルタイムな顔の位置合わせのためのシステム、方法および技法に関するものである。

【背景技術】

【0003】

顔の位置合わせ（Face alignment）は、人間の顔上における顔のランドマークを位置特定する一般的なコンピュータビジョンタスクである。この技術は、ライブ顔追跡、三次元（３Ｄ）顔形状推定および顔特徴抽出等の様々な種類の顔関連の産業の用途における構成要素（building block）として広く用いられている。設計された人工知能（ＡＩ）モデルを現実世界のアプリケーションに適用する際、計算速度および精度はエッジデバイス（例えば、タブレット端末およびスマートフォンを含むパーソナルコンピューティングデバイス）上のリソースが限られているため、主要なボトルネックとなる。クラウドコンピューティングは、良好な精度を維持しながらＡＩモデルの推論時間（inference time）を増大できる解決策を提供するが、クラウドベースの解決策はプライバシー及び安定性の問題に悩まされる。他の解決策は、計算時間を短縮するため手動で設計されたモバイルターゲットモデル（Howard等、2017）（Sandler等、2019）を用いるが、そのようなモデルは顔の位置合わせのみをターゲットとする注意深く設計されたモデルと比較して、十分な結果を提供しない。

【0004】

従って、畳み込みニューラルネットワーク（Convolutional Neural Networks、ＣＮＮ）では顔位置合わせネットワーク（facial alignment networks、ＦＡＮ）が広範囲の公衆データセット（public datasets）上でかなりの精度を達成しており、これはより大きなモデルサイズ及び高価な計算コストとなるので、エッジデバイス上のリアルタイムアプリケーションにそれらを適用させることは不可能である。

【発明の概要】

【0005】

ＣＮＮでは、顔位置合わせネットワークが広範囲の公衆データセット上でかなりの精度を達成しており、これはより大きなモデルサイズ及び高価な計算コストとなるので、エッジデバイス上のリアルタイムアプリケーションにそれらを適用させることは不可能である。性能基準を維持しながらこの問題を克服するために、ワンショットニューラルアーキテクチャ検索（One-Shot Neural Architecture Search）を用いる、ＦＡＮ上のモデル圧縮アプローチが提供される。方法およびデバイスは、（単一のＧＰＵ上で）効率的な訓練および検索を提供し、結果として得られるモデルは、タブレット端末およびスマートフォンを含むエッジデバイス上のブラウザベースのアプリケーションにおいてリアルタイムで実行するように展開できる。圧縮モデルは同等の最先端（cutting-edge）の精度を提供し、一方で３０倍小さなモデルサイズを有し、一般的なスマートフォン及びＯＳ上の、一般的なブラウザにおいて１フレーム当たり４０．７ミリ秒で実行できる。

【0006】

一実施形態では、顔位置合わせネットワーク（ＦＡＮ）モデルを定義する方法が提供され、定義することは、ｉ）訓練データセット及びｉｉ）拡張および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することでネットワーク構造から候補サブモデルのセットを生成することと、ここでＥＳＴ動作は候補サブモデルのセットを定義する様々な構成パラメータの候補サブモデルのインスタンスを定義および保持するものであり、候補サブモデルからＦＡＮモデルを選択するために、速度および精度評価基準（accuracy evaluation criteria）を用いて候補サブモデルの進化的検索（evolutionary search）を実行することとを含む。

【0007】

一実施形態では、ＦＡＮモデルが、顔画像を処理するために、エッジデバイスによるランタイム実行のために定義される。

【0008】

一実施形態では、ＥＳＴ動作が、ネットワーク構造に従って以前に定義されたベースラインモデル（baseline model）から訓練を開始する。一実施形態では、ＥＳＴ動作がＥＳＴ動作を用いる更なる訓練のために、候補サブモデルのそれぞれで部分的に訓練されたパラメータとして、ベースラインモデルからの事前訓練されたパラメータを利用する。一実施形態では、候補サブモデルが、２エポック（epochs）と６０エポックとの間、２エポックと２５エポックとの間および２エポックのうちのいずれか１つについて更に訓練される。

【0009】

一実施形態では、ＥＳＴ動作が、各訓練反復（training iteration）においてランダムなサブネットを活性化（activate）して、サブネットの部分重み（partial weights）を積分として訓練し、サブモデル間で共有重み（sharing weights）を効果的に訓練する。

【0010】

一実施形態では、ＥＳＴ動作が、深度サイズ（Depth size）、カーネルサイズ（Kernel size）、チャンネル比（Channel ratio）および拡張比（Expansion ratio）を含む複数の検索次元（search dimensions）に従って候補サブモデルを生成するための検索空間（search space）を定義する。一実施形態では、ＥＳＴ動作が小さな深度サイズ、小さなカーネルサイズ、大きなチャンネル比および大きな拡張比で開始し、次いで、動作は、段階的かつ以下の順序で、深度サイズ及びカーネルサイズをそれぞれの最大まで徐々に拡張し、終了フェーズ（ending phases）で、チャンネル比および拡張比をそれぞれの最小まで徐々に縮小する。一実施形態では、ＥＳＴ動作が、第１サイズのカーネルを訓練し、第１サイズのカーネルを用いて第２サイズのカーネルをその後に訓練する、初期フェーズ（early phase）でのカーネル訓練動作を備え、第１サイズのカーネルは第２サイズのカーネルの中心（center）である。

【0011】

一実施形態では、ＥＳＴ動作が、より少ないレイヤーを訓練し、次いで、より大きなレイヤーオプションを訓練に徐々に追加する、中間フェーズ（middle phase）における深度訓練動作を備える。

【0012】

一実施形態では、ＥＳＴ動作が、チャンネル比および拡張比訓練動作を備え、チャンネル比および拡張比訓練動作は、それぞれ終了フェーズでチャンネル比および拡張比を縮小する。

【0013】

一実施形態では、進化的検索が、速度および精度評価基準を決定するためにベースラインモデルを評価する。一実施形態では、進化的検索が、ベースラインモデルから進化して、後続のサンプリング及び評価のための候補サブモデルの母集団（population）を定義する。

【0014】

一実施形態では、進化的検索が、複数のサイクルを実行し、その複数のサイクルは母集団からサンプリングして候補サブモデルの数量を選択することと、その数量から最速のサブモデルを選択することと、最速のサブモデルを進化させて関連するサブモデルを決定することと、母集団から最古のサブモデルを除去することと、関連するサブモデルが精度閾値テスト（accuracy threshold test）を満たす場合、後でサンプリングできるように関連するサブモデルを母集団に追加し、関連するサブモデルを最後の最速の候補サブモデルのセットに追加することと、複数のサイクルの性能に従って、最後の最速の候補サブモデルのセットから最速のサブモデルを、ＦＡＮモデルとして選択することとを含む。

【0015】

一実施形態では、進化的検索が、複数のサイクルを実行し、その複数のサイクルは候補サブモデルの数量を選択するために母集団からサンプリングすることと、その数量から最も正確なサブモデルを選択することと、最も正確なサブモデルを進化させて関連するサブモデルを決定することと、最古のサブモデルを母集団から除去することと、関連するサブモデルが速度閾値テスト（speed threshold test）を満たす場合、後でサンプリングできるように関連するサブモデルを母集団に追加し、関連するサブモデルを最後の最も正確な候補サブモデルのセットに追加することと、複数のサイクルの性能に従って、最後の最も正確な候補サブモデルのセットから最も正確なサブモデルを、ＦＡＮモデルとして選択することとを含む。

【0016】

一実施形態では、ネットワーク構造は、予測のために抽出された特徴を精緻化するために関心領域（Region of Interest、ＲｏＩ）位置合わせレイヤーに出力する２段階構造である。一実施形態では、第１段階は４つのブロックを含み、第２段階は１つのブロックを含み、各ブロックは最大４つのレイヤーを含み、各レイヤーは反転された残差レイヤー（inverted residual layer）を含む。

【0017】

一実施形態では、方法が、エッジデバイスによる実行のためにＦＡＮモデルを含むアプリケーションを定義することを含む。それぞれの実施形態では、アプリケーションが顔上のメイクアップ製品の試着（trying on）をシミュレートするためのメイクアップシミュレーションアプリケーション、少なくとも１つの皮膚の徴候（skin sign）について領域または顔の領域を分析およびスコア付けするための皮膚分析アプリケーション、顔の領域に関連するグラフィカルエフェクトをシミュレートするためのエフェクトシミュレーションアプリケーション及び顔の位置を追跡および示すための顔追跡アプリケーションのうちのいずれか１つを含む。

【0018】

一実施形態では、アプリケーションが、ＦＡＮモデルによってビデオを処理するように構成される。一実施形態では、エッジデバイスが、スマートフォン又はタブレット端末であり、ＦＡＮモデルは、グラフィックス処理ユニット（ＧＰＵ）による実行のために構成される。一実施形態では、アプリケーションが、メイクアップシミュレーションアプリケーション又は皮膚分析アプリケーションであり、アプリケーションは、メイクアップ及び皮膚トリートメントにそれぞれ関連付けられた製品またはサービスを購入するために、電子商取引購入サービスへのインターフェースを提供するように構成される。

【0019】

一実施形態では、アプリケーションが、メイクアップシミュレーションアプリケーション又は皮膚分析アプリケーションであり、アプリケーションは、メイクアップ及び皮膚トリートメントにそれぞれ関連する製品またはサービスを推奨する電子商取引推奨サービスへのインターフェースを提供するように構成される。

【0020】

一実施形態では、命令を記憶する記憶デバイスに結合された処理ユニットを備えるコンピューティングデバイスであって、命令が処理ユニットで実行されると、実施形態に記載のいずれかの方法に従った方法を実行するようにコンピューティングデバイスを構成する、コンピューティングデバイスが提供される。

【0021】

一実施形態では、命令を記憶する非一時的記憶デバイスと、コンピューティングデバイスの処理ユニットによって実行するためのＦＡＮモデルを定義するデータとを備えるコンピュータプログラム製品が提供され、ＦＡＮモデルは、実施形態に記載の方法のいずれかに従った方法で定義される。

【0022】

一実施形態では、命令を記憶する記憶デバイスに結合された処理ユニットを備えるコンピュータデバイスが提供され、命令が処理ユニットで実行されると、実施形態に記載の方法のいずれかに従った方法で定義されたＦＡＮモデルを提供するようにコンピューティングデバイスを構成する。

【図面の簡単な説明】

【0023】

【図1】一実施形態による２段階ＣＮＮ構造の簡略図である。

【図2A】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2B】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2C】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2D】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2E】一実施形態によるＥＳＴ拡張およびチャンネル選択動作を示す図である。

【図3】一実施形態による進化的検索プロセスのための擬似コードのリストである。

【図4A】一実施形態による実験の結果を示すグラフである。

【図4B】一実施形態による実験の結果を示すグラフである。

【図4C】一実施形態による実験の結果を示すグラフである。

【図4D】一実施形態による実験の結果を示すグラフである。

【図5】Ａ及びＢは、一実施形態による実験の結果を示すグラフである。

【図6A】データセットのアノテーションを示す画像である。

【図6B】データセットのアノテーションを示す画像である。

【図7】一実施形態による開発コンピューティングデバイス、ウェブサイトコンピューティングデバイス及びエッジコンピューティングデバイスを示すコンピュータネットワークの図である。

【図8】一実施形態によるコンピューティングデバイスの図である。

【図9】一実施形態による動作のフローチャートである。

【0024】

【0025】

【0026】

【0027】

【0028】

【0029】

【0030】

【0031】

【発明を実施するための形態】

【0032】

＜関連業績＞
《顔のランドマークの位置合わせ》
顔の位置合わせの長い歴史は、古典的なコンピュータビジョンから始まり、回帰ツリーの集合アルゴリズム（Kazemi and Sullivan 2014）は、初期段階のリアルタイムな顔の追跡のための高速で許容可能で正確な解を与える。これらの手法は、非常に大きなモデルサイズによって合理的な結果を達成した。

【0033】

最近の顔の位置合わせのためのＣＮＮソリューションは、精度に関して優れた性能を達成した。ヒートマップ（heat maps）と共に砂時計構造（hourglass structures）のスタック（Newell、Yang、Deng 2016）（Liu等 2019）（Kowalski、Naruniec、Trzcinski 2017）を用いるのが研究のほとんどである。これらの種類の手法は、ランドマークの精度を著しく向上させるが、これらのカスケード構造（cascaded structures）は依然として厄介である。

【0034】

ＭｏｂｉｌｅＮｅｔ（Howard等 2017）及びＭｏｂｉｌｅｎｅｔＶ２（Sandler等 2019）等のモバイル及び組み込みビジョンアプリケーションをターゲットとする効率的なモデルは、滑らかに動作し良好な性能を有する。ＦＡＮの精度および速度には、依然として改善の余地がある。
《ニューラルアーキテクチャ検索（Neural Architecture Search）》

【0035】

初期のＮＡＳの業績（ZophとLe 2017）では、分類タスク（classification task）の結果が大幅に改善されたが、検索には１０００ＧＰＵ日（1000 GPU days）以上がかかる。検索コストは、サンプリングされたモデルの反復訓練から生じるので、ワンショットのＮＡＳアプローチ（Liu、Simonyan及びYang 2019）（Cai等 2020）は、サンプルモデルの全てのパラメータを網羅するスーパーモデル（supermodel）を訓練することを提案する。この手法では、検索時間が７ＧＰＵ日未満に短縮されるため、配置（deployment）シナリオ下でのＮＡＳの実行が実用的になる。

【0036】

分類タスクに関する効率的な検索と共に、ＮＡＳ手法は、物体検出（Chen等 2019）、分割（Nekrasov等 2019）及び姿勢推定（Yang、Yang、Cui 2020）にも適応される。ＮＡＳとＦＡＮのクロスフィールドについてはこれまで研究は行われていないが、バックボーンとボトルネックとを検索する検出研究（Chen等 2019）との類似点を共有している。
＜実施形態＞
《ＣＮＮモデルアーキテクチャ》

【0037】

一実施形態によれば、２段階ＣＮＮ構造は、提案されたもの（Li等、Lightweight Real-time Makeup Try-on in Mobile Browsers with Tiny CNN Models for Facial Tracking、2019 ＵＲＬ：arxiv.org/abs/1906.02260、2020年4月22日米国特許出願第16/854,993号の「CONVOLUTION NEURAL NETWORK BASED LANDMARK TRACKER」として出願されており、これらの引例は、いずれも参照により本明細書に組み込まれる）と同様に用いられる。

【0038】

図１は、一実施形態による２段階ＣＮＮ構造１００の簡略図である。ＣＮＮ構造１００は、段階１（１０２）及び段階２（１０４）を示す。段階１は、バックボーン１０６によって供給（feed）され、４つのブロック（ブロック１（１０８Ａ）、ブロック２（１０８Ｂ）、ブロック３（１０８Ｃ）及びブロック４（１０８Ｄ））を含む。段階２は、ブロック１からの出力を受け取る。ＣＮＮ構造１００は、関心領域（ＲｏＩ）位置合わせレイヤー１１０を用いて、１１２における予測のために特徴を精緻化する（refine）ように、特徴を段階１の出力から抽出する。ＣＮＮ構造１００はまた、ヒートマップを有するネットワークの出力を表す。実施形態によれば、ピクセル単位のシグモイド交差クロスエントロピー（sigmoid cross entropy）及び通常のＬ２損失が、参考文献に示唆されているように（モデル訓練中に）用いられる。

【0039】

実施形態によれば、レイヤー（例えば、バックボーン、ブロック１～４及び段階２の孤立した（lone）ブロック）は、反転された残差レイヤー（inverted residual layers）である。以下の例外を除いて、レイヤーはｓｔｒｉｄｅ＝１を用い、１つのブロック内に同数のチャンネルを保持する：ｉ）バックボーンのレイヤー（１０６）は、第１レイヤーにおいてｓ＝２及び第２レイヤーにおいてｃ＝１６での畳み込みであり；ｉｉ）ブロック１（１０８Ａ）の第１レイヤーが、ｓ＝２及びｃ＝２４を有し；ブロック２（１０８Ｂ）の第１レイヤーが、ｓ＝２及びｃ＝３２を有し；ブロック３（１０８Ｃ）の第１レイヤーが、ｓ＝２及びｃ＝６４を有し；ブロック４（１０８Ｄ）の第１レイヤーが、ｓ＝１及びｃ＝９６を有し；段階２（１０４）が、ｓ＝１及びｃ＝３２を有する（ここで「ｃ」が「チャンネル」を表し、「ｓ」が「ストライド（stride）」を表す）。
《検索空間（Search Space）》

【0040】

一実施形態によれば、ＣＮＮ構造１００により展開されたモデルは、その第１段階としてＭｏｂｉｌｅＮｅｔＶ２（Sandler等 2019）の一部を用いている。この展開されたモデルは、以下のセクションでベースラインモデルと呼ばれる。目標（goal）は、類似の構造を検索することで、このベースラインモデルのモデルサイズを圧縮することである。従って、図１を参照して説明したように、反転された残差レイヤーをモデルの基本構成として用いた。

【0041】

実施形態によれば、ブロック当たりのレイヤー深度は、[2,3,4]、[3,5,6]からのレイヤーの拡張率（expansion rate）、[3,5]からのカーネルサイズ、及び、[0.7,0.8,0.9,1.0]からのブロックワイズ（blockwise）チャンネル比から選択できる。このチャンネル比は、基本チャンネル数と乗算され、検索空間により多くの変動を加えることができる。全体として、検索空間は、

【数1】

の異なるサブモデルを含む。

【0042】

各検索次元（search dimension）から最大のオプションを選択することで得られる最大のサブモデルは、スーパーモデルである。ベースラインモデルを含むこの検索空間からサンプリングされた各モデルは、スーパーモデルのサブセットとみなすことができる。
《拡張および縮小訓練（Expand & Shrink Training）によるワンショットＮＡＳ》

【0043】

（前セクションで説明した）各検索次元の最大値を選択すると、一実施形態によれば、スーパーモデルは、1.14Ｍのパラメータを有する。訓練へのワンショットＮＡＳアプローチ下では、スーパーモデルが一度だけ訓練され（例えば、スーパーモデルは検索フェーズ中に再度訓練されない）、その事前訓練された重みはそれらを最初（scratch）から訓練する代わりに、全てのサンプリングされたモデルに提供される。ここで、サンプリングされたモデルは、スーパーモデルに従って検索フェーズ中にサンプリングされる初期の訓練フェーズ中に生成されたサブモデルを参照する。

【0044】

従って、スーパーモデルは、訓練するのにより長い時間を必要とするが（例えば、訓練に対するより典型的なアプローチ下で同様の構造のモデルと比較して）、それが完了すると、各サンプリングされたモデルの検索時間はＯ（Ｎ）の代わりにＯ（１）となる。

【0045】

スーパーモデルを全体として訓練することは、単純な（naive）アプローチである。それは簡単だが、共有される重みは、異なるサブモデルに対して最適化されておらず、従って、有望ではない（図４Ｃに関連して後述する）。重みは、スーパーモデルが全体として機能するように一体的に（integrally）訓練される。全てのサブネット（subnets）を同時に最適化するために、Once-For-All（ＯＦＡ、（Cai等 2020））からの手法が適応され、一実施形態によれば、新しい拡張および縮小訓練（ＥＳＴ）戦略が提案される。ＯＦＡ及びＥＳＴ（本明細書で紹介する）の両方は、同じ問題を解決するために働くが、スーパーモデルにおける重みは、それらが部分的にのみ活性化される（activated）ときに働くようにする－ＥＳＴが実証されるような改善された結果を示す。

【0046】

以下の例では、問題を一般的に簡略化して示す。レイヤーＡ、Ｂ及びＣを有するスーパーモデルが存在すると仮定する。全体のスーパーモデル（即ち、ＡＢＣ）が動作するだけでなく、サブモデルＡＢ、ＢＣ（部分的に）も動作することが望ましい。ＯＦＡ及びＥＳＴのそれぞれは、それぞれの訓練反復（training iteration）でランダムなサブネットを活性化することで、部分重み（partial weights）を一体的に訓練する。それぞれは、異なるアプローチを用いて、サブモデル間で共有重み（sharing weights）を効果的に訓練する手法に焦点を当てる。再度レイヤーＡＢＣの例示的なスーパーモデルを参照すると、典型的な訓練はＡＢＣを積分（integral）として訓練し、これは、ＡＢＣの全てのパラメータを、同時に且つＡ→Ｂ→Ｃ→の出力に基づく同じ方向で更新する。従って、部分重みを統合的に訓練することは、スーパーモデル内のＡＢレイヤーによってのみ定義されるサブモデルについて、そのようなレイヤーは訓練するための独立したモデルであるとみなされ得る。従って、このサブモデルを訓練するとき、ＡＢの重みのみが更新され、更新の方向は、Ａ→Ｂ→の出力に基づく。Ｃにおける重みは依然として（例えば、スーパーモデルにおいて）存在するが無視され（それらは活性化されない）、訓練の焦点はＡ及びＢのみに限定される。類似のアプローチがサブモデルＢＣに対して取られ、ここで、これらのレイヤーのみが、レイヤーＡを無視して一体的に訓練される。

【0047】

ＯＦＡ及びＥＳＴ下のアプローチは、前述の問題を解決する詳細において異なる。図２Ａ、２Ｂ、２Ｃ及び２Ｄは、ＯＦＡとＥＳＴとの間の比較を行うブロック図であり、図２Ａは、一例によるＯＦＡカーネル訓練動作２００を示す。動作２００は最初に、５ｘ５カーネルの訓練２０２Ａを示し、次いで、その中心の３ｘ３に線形変換を適用して、３ｘ３のカーネル２０２Ｂとして動作する。図２Ｂは、一例によるＥＳＴカーネル訓練動作２０２を示し、動作２０２は、動作２００の逆である：２０２Ａにおいて、動作は、最初に３ｘ３カーネルを訓練し、次いで、それを訓練するための５ｘ５カーネルの中心（２０２Ｂ）とみなす。図２Ｃは、一例によるＯＦＡ深度訓練動作（depth training operations）２０４を示し、動作２０４はまず、全てのレイヤー（２０４Ａ）を訓練し、次いで、最小のレイヤーオプションを徐々に低減することで（２０４Ｂ、２０４Ｃ）、より小さなモデルのより多くの選択を可能にする。図２Ｄは、一例によるＥＳＴ深度訓練動作２０６を示す。動作２０６は、より少ないレイヤー（２０６Ａ）を訓練し、次いで、より大きなレイヤーオプション（２０６Ｂ）を検索空間に徐々に追加する。そして、図２Ｅは、一例によるＥＳＴ拡張およびチャンネル選択動作２０８を示す。ＯＦＡでは、拡張比（expansion ratio）が決定され、Ｃ個のチャンネルが選択されると、最も(チャンネル毎の重みのＬ１ノルム（L1 norm）の合計が)重要な上位Ｃ個のチャンネルが選択される。ＥＳＴは、拡張比（２０８Ａ、２０８Ｂ）についてこの手法に従い、更にそれをブロックワイズチャンネル比（２０８Ｃ）に適用する。

【0048】

要約すると、ＯＦＡは、最初に最大のレイヤーの重みを訓練し、次いで、その重みを共有して、小さなレイヤーを徐々に訓練する傾向がある。対照的に、ＥＳＴは、拡張比およびチャンネル比のためにレイヤーのサイズを徐々に縮小する一方で、深度およびカーネルサイズのための検索オプションを拡大する。（ＯＦＡに対するＥＳＴの利点は、図５Ａ及び５Ｂのグラフ５００及び５０２を参照して示され、以下に説明される。）

【0049】

表１は、一実施形態によるＥＳＴの５つのフェーズを示す。検索次元は、深度（Ｄ）、カーネル（Ｋ）、チャンネル比（Ｃ）及び拡張比（Ｅ）を含む。これらの次元のそれぞれは、５つのフェーズのうちの１つにおいて、それに応じてその検索範囲を拡張または縮小する。示された訓練の順序は、異なる順序よりも良好な結果を達成するのが実証された。

【0050】

ＥＳＴは、小さな深度およびカーネルサイズ、並びに、大きなチャンネル及び拡張比で開始する。次いで、ＥＳＴは、徐々に深度およびカーネルを最大に拡張する。終了フェーズ（ending phases）において、ＥＳＴは、チャンネル及び拡張比を最小にまで徐々に縮小する。注目すべきことに、拡張および縮小フェーズの間、前のフェーズからの検索オプションが保持される（例えば、後の検索に用いるためにサブモデルの検索空間を拡張すること）。従って、（サブモデルの）活性化された検索空間は、サブモデルがＥＳＴ動作に従って追加されるにつれてステップ毎に大きくなり、ＥＳＴ動作を用いて作成される、より大きく、より小さなサブモデルは、一緒に訓練される機会を有する。更なる例が有用である。この例では、４つのレイヤーＡＢＣＤを有するスーパーモデルがあり、簡単にするために、検索空間はレイヤーの数である１つの検索オプションのみを有する。例えば「４」から選択するレイヤー番号の選択肢が１つしかない場合、サブモデルは、ＡＢＣＤを有するスーパーモデル自体である正確に４つのレイヤーを有することになり、検索オプションにおいて「２，３，４」レイヤーを可能にすることで検索空間が拡大されるとき、サブモデルは例えば、ＡＢ（２つのレイヤー）、ＡＢＣ（３つのレイヤー）、ＡＢＣＤ（４つのレイヤー）等であり得る。従って、より多くの検索オプション（「２，３，４」対「４」）を可能にすることで、より大きなモデル（例えば、ＡＢＣＤ）がより小さなモデル（ＡＢ、ＡＢＣ）と訓練され得る可能性がより高くなる（より多くなる）。

【表1】

《性能の評価および推定》

【0051】

一実施形態によれば、モデル圧縮は、配置シナリオにより少なくとも部分的に方向付けられ、従って、モデルの精度および速度の両方が評価される。最初からの訓練とエッジデバイス（edge devices）上での実行とによる、完全な評価はコストがかかる。評価コストを軽減するために、一実施形態によれば、推定器は、それらの性能を予測するために実装される。これらは、完全な評価と同様に、一貫した性能ランキングを与えるべきである。一実施形態によれば、速度（時間）推定は、ＦＬＯＰＳ、Ｐａｒａｍｓ及びＭｅｍｏｒｙＲｅａｄ＆Ｗｒｉｔｅを用いるために開発された推定器を用いる。（正しさは、図４Ａ、４Ｂ、４Ｃ及び４Ｄのグラフ４００，４０２，４０４及び４０６を参照して例示され、以下で説明される。）

【0052】

精度推定のために、Ｎエポックのために最初から完全にサンプリングされたモデルを訓練する代わりに、一実施形態によれば、ＥＳＴ動作から大きな利点が得られる。ＥＳＴは、一実施形態では、スーパーモデルの部分重みがサブモデルにロードされ、そのサブモデルは、スーパーモデルを迅速に収束（converge）させるように訓練される。また、以下の図４Ａ～４Ｄで後述するように、検索空間からサンプリングされた子（child）について、スーパーモデルから対応する重みをロードし、２エポックについてそれを訓練することは、正確な推定を与えるのに十分であることが証明された。これは、評価コストがＯ（Ｎ）ではなくＯ（１）であることを保証する。
《進化的検索（Evolutionary Search）》

【0053】

拡張および縮小訓練の後、検索空間上で進化的検索（ＥＳ）が実行される。一実施形態によれば、進化的検索の詳細が、アルゴリズム１（３００）のための擬似コードを提供する図３に示される。基本的なＥＳ（Real等 2019）とは異なり、ｃｈｉｌｄ_ａｃｃ及びｃｈｉｌｄ_ｔｉｍｅは、評価および検索の同定（search identification）のために用いられる。

【0054】

アルゴリズム１（３００）は、精度閾値（accuracy threshold）を用いてモデルをサンプリングして最速の候補をソートする速度を検索する場合を示す；速度閾値（speed threshold）が代わりに用いられる場合、サンプリングされたモデルのサイズを圧縮でき、最も正確なモデルを検索できる。即ち１３～２３行目のループでは１５行目の親（parent）が候補において最も正確なモデルであり、１８行目は速度値を比較し、最後の２４行目において、最も正確なモデルは、１３～２３行目のループから生成された最も正確なモデル候補を含むセットの履歴（history）から返却される。

【0055】

別の違いは、一実施形態では初期の母集団（population）の生成であり、検索はランダムサンプリングの代わりにベースラインから進化することによって（例えば、１６行目のＥＶＯＬＶＥ関数を介して）開始される。その後の進化は、ベースラインから進化された（一実施形態では）最速のサブモデルに対して実行される。

【0056】

ＥＶＯＬＶＥ関数では、検索空間から異なるサブモデルを選択するために用いられるランダム性がある。（同じ母親が異なる子どもを出産するのと同じように、ベースラインモデルを進化させると、異なる子モデルも生じる。実際、２つの子モデルが同じように進化する機会は、母親が双子を出産するのとほぼ同じである）。配置目的（deployment purpose）のため、検索は、より良好な効率および精度の両方を有するモデルを検索する。ランダムサンプリングを用いた場合、モデルサイズを制御し、精度をベースラインと公平に（fairly）比較することは困難である。
《データセット》

【0057】

組織内（in-house）データセット（「Ｍｏｄｉデータセット」という）は、全部で３６８１個の画像を有する。Ｍｏｄｉデータセットは、顔内の領域を定義する６２個の内側点（inner points）と、それぞれの顔について３個の輪郭点（contour points）とを有する。アプリケーションシナリオでは、姿勢は－３０°から３０°まで分布する。一実施形態では、ＥＳＴＮｅｔモデルが、３００Ｗデータセット（Sagonas等 2013）上で別々に訓練され、最先端（cutting-edge）の手法との公平な比較を行う。Ｍｏｄｉデータセットと３００Ｗデータセットとのアノテーション（annotations）の違いは、図６Ａ及び６Ｂの画像６００及び６０２に示される。
＜結果と切除（Ablation）研究＞
《訓練と検索》

【0058】

上記で論じられたのは、オリジナルのＯＦＡと、本明細書に開示されるＥＳＴの技法との間の相違である。以下の結果は、ＦＡＮ検索空間における深度およびカーネルについて、ＥＳＴによる拡張がＯＦＡによる縮小よりもはるかに良好に動作することを示す。図５Ａ（グラフ５００）では、[2,3]深度から[2,3,4]への訓練において、誤差は０．０３１に下がり、一方、完全な[4]レイヤーから最初に訓練する場合、誤差は高いままである。図５Ｂ（グラフ５０２）では、カーネルサイズ３又は５から訓練を開始し、学習レートは変換行列（transformation matrices）に対して調整される。

【0059】

縮小実験は、はるかに高い誤差でクラスター化する。考察したように、性能推定器を検証するための実験が実施された。１７個のランダムにサンプリングされたモデルを、推定値と比較して、実際の性能とそれらの性能ランクとで評価した。数式１の標本ピアソン相関係数（Freedman、Pisani、Purves 2007）を用いて、推定値と実際の評価の整合性を評価する。

【数2】

【0060】

図４Ａにおいて、グラフ４００は、実際の推論時間（inference time）を示し、図４Ｂにおいて、グラフ４０２は、ＦＬＯＰＳ、Ｐａｒａｍｓ及びＭｅｍｏｒｙＲｅａｄ＆Ｗｒｉｔｅの加重平均（weighted average）によって行われる時間推定を示す。数式１を用いると、推定器の正当性を立証する０．６７７という強い相関が得られる。

【0061】

図４Ｃ及び４Ｄのグラフ４０４及び４０６は、２つのスーパーモデル訓練戦略、即ち、単純訓練（naive training）と拡張および縮小訓練との比較を示す。図４（Ｃ）では、モデルが単純に事前訓練された重みでロードされ、２エポック及び２５エポックで訓練される。

【0062】

異なるエポックを調整した後の精度ランキングの相関は、わずか０．１５１である。従って、単純なアプローチは、良好な精度推定を提供しない。

【0063】

対照的に、図４Ｄは、前述の拡張および縮小訓練戦略から事前訓練されたスーパーモデルを用いる。同じモデルが２，２５及び６０エポックで訓練され、モデル精度ランクの一貫性は非常に強く、（２，２５）、（２５，６０）、（２，６０）の相関係数は、それぞれ０．６６７，０．９１６及び０．８１９である。これはＥＳＴの有効性を証明し、２エポックのチューニングモデルは、精度性能を推定するのに十分である。

【0064】

単純なアプローチと比較して、ＥＳＴは、はるかに多くの時間を費やすことなく、はるかに良好な精度推定を提供する。１つのTesla（登録商標）Ｖ－１００（NVIDIA Corporation, Santa Clara, CAからのテンソルコアＧＰＵ）では、拡張および縮小訓練が終了まで４０時間を要し、そこでは単純訓練も３６時間を要する。

【0065】

要約すると、本セクションでは、時間推定器と精度推定器との両方の有効性を証明する。それはまた、単純なアプローチに対するＥＳＴの利点を示す。
《検索結果》

【0066】

表２及び表３に、それぞれの実施形態による検索結果を示す。αは、異なる複雑さを有するデータセットをカスタマイズするためのチャンネル番号と乗算されるパラメータである。Ｍｏｄｉデータセットはα＝０：５が用いられ、３００Ｗデータセットはより多くのデータを有するためα＝１：０が用いられる。このセクション内の計算された誤差は、全て瞳孔間の正規化（Inter-pupil Normalization）を用いた平均誤差で計算される。一実施形態では、動作が、Ｍｏｄｉデータセットを検索し、表２のＥＳＴＮｅｔと呼ばれるものが最良の結果を獲得する。そのテストセットの内部誤差（inner error）及び輪郭誤差（contour error）は、ベースラインモデルよりも低く、そのモデルサイズは、ベースラインのわずか７５％である。異なるエッジデバイスでは、ＥＳＴＮｅｔは精度および速度の両方で性能を上回る。

【表2】

【0067】

一実施形態では、動作が、３００Ｗデータセット上のＥＳＴＮｅｔを別々に訓練して、そのロバスト性および一般性を評価する。表３に示すように、その結果は、ベースライン及び最先端の研究、ルックアットバウンダリ（ＬＡＢ、（Wu等 2018））と比較される。８スタックＬＡＢのＰａｒａｍ及びＦＬＯＰＳは、（Zhu等 2020）から得られる。４スタックの結果は、半分にすることで推定される。ＥＳＴＮｅｔは、モデルＰａｒａｍｓの２５％を削減しながら、共通（common）、困難（challenging）及び完全（full）検証セットの全てについてベースラインよりも優れている。また、それはＬＡＢと同等の結果が得られている。ＥＳＴＮｅｔは、リアルタイムであるIPhone（登録商標）11（Apple Inc.Cupertino, CAの商標）上のChrome（登録商標）において、１フレーム当たり４０．７ミリ秒で実行する。ＬＡＢが、ＥＳＴＮｅｔよりも２９．２倍多くのパラメータ及び５０．２倍多くのＦＬＯＰＳを有すると仮定すると、ＬＡＢはリアルタイムで実行できず、これは圧縮モデルＥＳＴＮｅｔの利点である。

【表3】

【0068】

従って、実施形態に示されるように、ＥＳＴ技法、デバイス及び手法は、特にデバイス上のウェブサイト等（例えば、ウェブブラウザベースのアプリケーション）を介してリアルタイムで実行するＦＡＮモデルを開発するために提案される。ウェブブラウザベースのアプリケーションは、通常、ネイティブ（非ブラウザベース）アプリケーションよりも制約される。ウェブブラウザベースのアプリケーションは、ウェブブラウジングによる配信の手法がユーザフレンドリであり、アプリケーション配信サービス等（例えば、アプリケーションストア）からネイティブアプリケーションを取得してインストールする場合と比較してユーザが好む場合があるので、一般的に提供される。

【0069】

ＦＡＮモデルが実行できるエッジデバイスは、共通のブラウザ及びＯＳを実行するスマートフォン及びタブレット端末（例えば、Apple Inc.Cupertino, CAからのデバイス、ブラウザ及びＯＳ）を含む。本明細書のＥＳＴ技法を用いて生成された一実施形態のモデルでは、３０倍小さなモデルサイズを有し、IPhone（登録商標）11上のChrome（登録商標）において４０．７ミリ秒で実行しながらも最先端の精度が得られる。

【0070】

図７は、一実施形態による、開発コンピューティングデバイス７０２、ウェブサイトコンピューティングデバイス７０４、アプリケーション配信コンピューティングデバイス７０６、並びに、それぞれのエッジコンピューティングデバイス、即ちスマートフォン７０８及びタブレット端末７１０を示す、コンピュータネットワーク７００の図である。コンピューティングデバイスは、通信ネットワーク７１２を介して結合される。コンピュータネットワーク７００は簡略化される。例えば、ウェブサイトコンピューティングデバイス７０４及びアプリケーション配信コンピューティングデバイス７０６は、それぞれのウェブサイト及びアプリケーション配信システムのデバイスの例である。通信ネットワーク７１２は、プライベート及びポブリック（poblic）ネットワークを含み得る複数の有線および／または無線ネットワークを含み得る。

【0071】

本実施形態では、開発コンピューティングデバイス７０２が、ネットワークモデルの訓練および試験等のための１又は複数のデータセットを記憶するデータストア７１４（データベースを含み得る）に結合される。データストア７１４は、開発および実装を支援するために、ソフトウェア、他のコンポーネント、ツール等を記憶できる。図示されていない別の実施形態では、データセットが、開発コンピューティングデバイス７０２の記憶デバイスに記憶される。開発コンピューティングデバイス７０２は、本明細書で説明する実施形態のうちの１つ又は複数に従ってＦＡＮモデル７１６を定義するように構成される。例えば、開発コンピューティングデバイス７０２は、ｉ）訓練データセット及びｉｉ）拡大および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することで、ネットワーク構造から候補モデルのセットを生成するように構成される。ここでＥＳＴ動作は、候補モデルのセットを定義するための様々な構成パラメータの候補モデルインスタンスを定義し、保持する。開発コンピューティングデバイスはまた、候補モデルからＦＡＮモデルを選択するために、速度および精度評価基準（accuracy evaluation criteria）を用いて候補モデルの進化的検索を実行する。

【0072】

開発コンピューティングデバイス７０２は、スマートフォン７０８及びタブレット端末７１０等のエッジデバイス上で実行するＦＡＮモデルを定義する。開発コンピューティングデバイス７０２（又は、別の図示しないもの）は、ＦＡＮモデル７１６を、（ウェブサイトコンピューティングデバイス７０４で提供するための）ウェブサイト用等のアプリケーション７２０Ａ及び／又はそれぞれのエッジデバイスに配信するためのアプリケーション配信コンピューティングデバイス（例えば、７０６）用のアプリケーション７２０Ｂに組み込む。一実施形態では、アプリケーション配信コンピューティングデバイス７０６が、アプリケーションストア（電子商取引）サービスを提供して、サポートされるオペレーティングシステム（ＯＳ）を実行するターゲットデバイス上で実行するためのアプリケーションを配信する。アプリケーション配信コンピューティングデバイスの例は、iOS（登録商標）又はiPADOS（Apple Inc. Cupertino CAの登録商標）を実行するiPhone（登録商標）又はiPAD（登録商標）デバイスのためのAppleのApp Store（登録商標）である。別の例は、Android OS（Google LLC, Mountain View, CAの登録商標）を実行する様々なソースからのスマートフォン及びタブレット端末デバイスのためのGoogle Play（Google LLC, Mountain View, CAの登録商標）である。この実施形態では、スマートフォン７０８が、ウェブサイトコンピューティングデバイス７０４からＦＡＮモデル７１６を有するアプリケーション７２０Ａを受信し、タブレット端末７１０が、アプリケーション配信コンピューティングデバイス７０６からＦＡＮモデル７１６を有するアプリケーション７２０Ｂを受信する。

【0073】

図８は、代表的なコンピューティングデバイス８００のブロック図である。図７のコンピューティングデバイスは、同様に、それらのそれぞれの必要性および機能に従って構成される。コンピューティングデバイス８００は、処理ユニット８０２（例えば、ＣＰＵ及び／又はＧＰＵ、又は他のプロセッサ等、一実施形態では少なくとも１つのプロセッサを備える）と、命令（及びデータ）を記憶する記憶デバイス８０４（一実施形態では、少なくとも１つの記憶デバイス）とを備え、命令は処理ユニット（例えば、プロセッサ）によって実行されるとコンピューティングデバイスの動作を構成し、例えば、方法を実行する。記憶デバイス８０４は、メモリデバイス（例えば、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ等）、ソリッドステートドライブ（例えば、フラッシュメモリを定義できる半導体記憶デバイス／ＩＣを備える）、ハードディスクドライブ又は他の種類のドライブ及びテープ、ディスク（例えば、ＣＤ－ＲＯＭ等）等の記憶媒体のうちのいずれかを含むことができ、追加の構成要素は、有線または無線の手段を介してデバイスを通信ネットワークに結合するための通信ユニット８０６、入力デバイス８０８、表示デバイス８１２を備えることができる出力デバイス８１０を含む。いくつかの例では、表示デバイスが、入力／出力デバイスを提供するタッチスクリーンデバイスである。コンピューティングデバイス８００の構成要素は、追加のデバイスに結合するための外部ポートを有し得る内部通信システム８１４を介して結合される。

【0074】

いくつかの例では、出力デバイスが、スピーカ、ベル、ライト、オーディオ出力ジャック、指紋リーダ等を備える。いくつかの例では、入力デバイスが、キーボード、ボタン、マイクロフォン、カメラ、マウス又はポインティングデバイス等を備える。他のデバイス（図示せず）は、位置決定デバイス（例えば、ＧＰＳ）を備え得る。

【0075】

記憶デバイス８０４は、一例ではオペレーティングシステム８１６と、ユーザアプリケーション８１８（アプリケーション７２０Ａ又は７２０Ｂのうちの１つであり得る）と、ウェブサイトをブラウズしウェブサイトから受信されたＦＡＮモデル７１６を用いてアプリケーション７２０Ａ等の実行可能体を実行するためのブラウザ８２０（ユーザアプリケーションのタイプ）と、例えば、カメラや他のものからの画像および／またはビデオフレームが記憶されるデータ８２２とを記憶する。

【0076】

引き続き図７を参照すると、一例では、スマートフォン７０８のユーザが、ブラウザを用いてウェブサイトコンピューティングデバイス７０４で提供されるウェブサイトを訪問する。スマートフォン７０８は、ＦＡＮモデル７１６を有するアプリケーション７２０Ａを受信する。この例では、アプリケーションが、仮想現実体験を提供するアプリケーション上のメイクアップ試着等のエフェクトシミュレーションアプリケーションである。ユーザはカメラを用い、静止画像またはビデオ画像（例えば、自撮り画像）を取得し、このソース画像はアプリケーションで（例えば、ＦＡＮモデル７１６を用いて）処理される。ユーザは、グラフィカルユーザインターフェースを介する等して適用されるべき様々なエフェクトを選択する。エフェクトは、ＦＡＮモデル７１６を通して識別された顔の領域（例えば、訓練された顔のランドマーク）を用いて、リアルタイムで画像に適用される。メイクアップエフェクトは、ソース画像から更新された画像を定義するためにオーバーレイを用いて適用され得る。更新された画像は、表示デバイスを介して表示され、記憶デバイスに記憶され、ソーシャルメディア、テキストメッセージ、電子メール等を介して共有（通信）され得る。一実施形態では、ウェブサイトコンピューティングデバイス７０４は、電子商取引サービスが可能であり、アプリケーション７２０Ａを介して仮想的に試着されたメイクアップの購入を容易にする。一実施形態では、ウェブサイトコンピューティングデバイス７０４が、製品を推奨するための推奨サービスを提供する。

【0077】

一実施形態では、アプリケーション７２０Ａが、皮膚または他の顔のトリートメント製品のエフェクトをシミュレートする。一実施形態では、アプリケーション７２０Ａが、皮膚または他の顔のトリートメントサービスのエフェクトをシミュレートする。一実施形態では、ウェブサイトコンピューティングデバイス７０４が製品を推奨するための推奨サービスを提供する。一実施形態では、ウェブサイトコンピューティングデバイス７０４は電子商取引サービスが可能であり、そのような製品および／またはそのようなサービスの購入を容易にする。一実施形態では、アプリケーション７２０Ａが皮膚分析を実行し、少なくとも１つの皮膚の徴候（skin sign、例えば、にきび）のスコアリングを提供する。ウェブサイトコンピューティングデバイス７０４は、製品推奨を提供できる。アプリケーション７２０Ａは、皮膚の徴候エフェクトの低減を示す結果または製品の使用をシミュレートできる。

【0078】

引き続き図７を参照すると、一例では、タブレット端末７１０のユーザがブラウザを用い、アプリケーション配信コンピューティングデバイス７０６によって提供されるウェブサイトを訪問する。タブレット端末７１０は、ＦＡＮモデル７１６を有するアプリケーション７２０Ｂを受信する。この例では、アプリケーションが仮想現実体験を提供する顔に関連する非現実的なエフェクト（例えば、グラフィカルエフェクト）をシミュレートするようなエフェクトシミュレーションアプリケーションである。一例では、エフェクトが自撮り画像に適用されるフィルタである。一例では、エフェクトがグラフィカルエフェクトを用いて、顔を漫画（cartoon）のキャラクターとしてシミュレートする。ユーザはカメラを用い、静止画像またはビデオ画像（例えば、自撮り画像）を取得し、このソース画像はアプリケーションによって（例えば、ＦＡＮモデル７１６を用いて）処理される。ユーザは、例えばグラフィカルユーザインターフェースを介して、適用されるキャラクターを選択できる。グラフィックエフェクト又はエフェクトは、ＦＡＮモデル７１６によって識別された顔の領域を用いて、リアルタイムで画像に適用される。エフェクトは、ソース画像から更新された画像を定義するためにオーバーレイを用いて適用され得る。更新された画像は、表示デバイスを介して表示され、記憶デバイスに記憶され、ソーシャルメディア、テキストメッセージ、電子メール等を介して共有（通信）され得る。

【0079】

一実施形態では、アプリケーション７２０Ｂが、トリートメント製品シミュレーション又はトリートメントサービスシミュレーション（それぞれ、仮想または拡張現実体験）をアプリケーション上でメイクアップ試着することを提供する。アプリケーション７２０Ｂは、一実施形態では推奨および／または購入促進のためにデバイスを電子商取引サービスに向けるように構成される。

【0080】

一例では、アプリケーションが、ビデオ通話または会議アプリケーションである。エフェクトは、ＦＡＮモデル７１６の結果を用いて、参加者のカメラからの画像にリアルタイムで適用される。エフェクトが適用された画像は、他の発呼者／会議参加者への通信のために、ビデオ通話または会議サービスを介して通信される。一実施形態では、エフェクトはメイクアップエフェクトを含む。

【0081】

例では、ＦＡＮモデルを含む開発されたアプリケーションが、顔上のメイクアップ製品の試着をシミュレートするためのメイクアップシミュレーションアプリケーションと、少なくとも１つの皮膚の徴候について領域または顔の領域を分析およびスコア付けするための皮膚分析アプリケーションと、顔の領域に関連するエフェクトをシミュレートするためのエフェクトシミュレーションアプリケーションと、顔の位置を追跡および示すための顔追跡アプリケーションと、等を含むことができる。

【0082】

図９は、顔位置合わせネットワーク（ＦＡＮ）モデルを定義するための動作９００のフローチャートである。ＦＡＮモデルを定義するために、９０２の動作は、ｉ）訓練データセット及びｉｉ）拡張および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することでネットワーク構造から候補サブモデルのセットを生成し、このＥＳＴ動作は、候補サブモデルのセットを定義するための様々な構成パラメータの候補サブモデルのインスタンスを定義および保持する。

【0083】

候補サブモデルからＦＡＮモデルを選択するために、９０４の動作は、速度および精度評価基準を用いて候補サブモデルの進化的検索を実行する。

【0084】

一実施形態では、ＦＡＮモデルが顔画像を処理するために、エッジデバイスによるランタイム実行のために定義される。例えば、エッジデバイスは、スマートフォン又はタブレット端末である。

【0085】

一実施形態では、ＥＳＴ動作が、ネットワーク構造に従って以前に（previously）定義されたベースラインモデルから訓練を開始する。一実施形態では、ＥＳＴ動作が、ＥＳＴ動作を用いる更なる訓練のために、候補サブモデルのそれぞれで部分的に訓練されたパラメータとして、ベースラインモデルからの事前訓練されたパラメータを利用する。一実施形態では、候補サブモデルが、２エポックと６０エポックとの間、２エポックと２５エポックとの間および２エポックのうちのいずれか１つについて更に訓練される。

【0086】

一実施形態では、ＥＳＴ動作が、各訓練反復においてランダムなサブネットを活性化して、サブネットの部分重みを積分として訓練し、サブモデル間で共有重みを効果的に訓練する。

【0087】

一実施形態では、ＥＳＴ動作が、深度サイズ、カーネルサイズ、チャンネル比および拡張比を含む複数の検索次元に従って候補サブモデルを生成するための検索空間を定義する。一実施形態では、ＥＳＴ動作が、小さな深度サイズ、小さなカーネルサイズ、大きなチャンネル比および大きな拡張比で開始し、次いで、動作は、段階的かつ以下の順序で（in phases and in the following order）、深度サイズ及びカーネルサイズをそれぞれの最大まで徐々に拡張し、終了フェーズで、チャンネル比および拡張比をそれぞれの最小まで徐々に縮小する。一実施形態では、ＥＳＴ動作が、第１サイズのカーネルを訓練し、第１サイズのカーネルを用いて第２サイズのカーネルをその後に訓練する、初期フェーズでのカーネル訓練動作を備え、第１サイズのカーネルは第２サイズのカーネルの中心（center）である。

【0088】

【0089】

一実施形態では、ＥＳＴ動作が、チャンネル比および拡張比訓練動作（channel ratio and expansion ratio training operations）を備え、チャンネル比および拡張比訓練動作はそれぞれ、終了フェーズでチャンネル比および拡張比を縮小する。

【0090】

一実施形態では、進化的検索が、速度および精度評価基準を決定するためにベースラインモデルを評価する。

【0091】

一実施形態では、進化的検索が、ベースラインモデルから進化して、後続のサンプリング及び評価のための候補サブモデルの母集団を定義する。進化的検索は、複数のサイクルを実行しても良く、それは、母集団からサンプリングして候補サブモデルの数量（quantity）を選択することと、その数量から最速のサブモデルを選択することと、最速のサブモデルを進化させて関連するサブモデルを決定することと、母集団から最古のサブモデルを除去することと、関連するサブモデルが精度閾値テストを満たす場合、後でサンプリングできるように関連するサブモデルを母集団に追加し、関連するサブモデルを最後の最速の候補サブモデルのセットに追加することと、複数のサイクルの性能に従って、最後の最速の候補サブモデルのセットから最速のサブモデルをＦＡＮモデルとして選択することとを含む。進化的検索は、複数のサイクルを実行することができ、それは、候補サブモデルの数量を選択するために母集団からサンプリングすることと、その数量から最も正確なサブモデルを選択することと、最も正確なサブモデルを進化させて関連するサブモデルを決定することと、母集団から最古のサブモデルを除去することと、関連するサブモデルが速度閾値テストを満たす場合、後でサンプリングできるように関連するサブモデルを母集団に追加し、関連するサブモデルを最後の最も正確な候補サブモデルのセットに追加することと、複数のサイクルの性能に従って、最後の最も正確な候補サブモデルのセットから最も正確なサブモデルをＦＡＮモデルとして選択することとを含む。

【0092】

一実施形態では、ネットワーク構造が、予測のために抽出された特徴を精緻化するために関心領域（ＲｏＩ）位置合わせレイヤーに出力する２段階構造である。一実施形態では、第１段階は、４つのブロックを含み、第２段階は、１つのブロックを含み、各ブロックは、最大４つのレイヤーを有し、各レイヤーは、反転された残差レイヤーを含む。

【0093】

従って、一実施形態では、コンピューティングデバイスが、命令を記憶する記憶デバイスに結合されたプロセッサを備え、命令はプロセッサで実行されると、方法に関連した（method-related）実施形態のいずれか１つによる方法を実行するようにコンピューティングデバイスを構成する。

【0094】

従って、一実施形態では、コンピュータプログラム製品が、命令と、コンピューティングデバイスのプロセッサで実行されるＦＡＮモデルを定義するデータとを記憶する非一時的記憶デバイスを備え、ＦＡＮモデルは、方法に関連した実施形態のいずれか１つの方法に従って定義される。同様の実施形態はそのようなＦＡＮモデルを（例えば、訓練を通して）定義するためのコンピュータプログラム製品に関する。

【0095】

従って、一実施形態では、コンピューティングデバイスが、命令を記憶する記憶デバイスに結合されたプロセッサを備え、命令はプロセッサで実行されると、方法に関連した実施形態のいずれか１つの方法に従って定義されたＦＡＮモデルを提供するようにコンピューティングデバイスを構成する。同様の実施形態は、そのようなＦＡＮモデルを（例えば、訓練を通して）定義するためのコンピューティングデバイスに関する。

【0096】

実用的な実装は、本明細書に記載される特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴および様々な組合せは、機能を実行するための方法、機器、系、手段および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセス及び技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ、又はステップを記載されたプロセスから排除することができ、他の構成要素を記載されたシステムに追加するか、又はそこから除去できる。従って、他の態様は特許請求の範囲の範囲内にある。

【0097】

本明細書の説明及び特許請求の範囲を通して、単語「含む（comprise）」及び「含む（contain）」及びそれらの変形は「含むが、限定されない（including but not limited to）」を意味し、他の構成要素、整数またはステップを排除することを意図しない。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が用いられる場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。

【0098】

【図1】

【図2A】

【図2B】

【図2C】

【図2D】

【図2E】

【図3】

【図4A】

【図4B】

【図4C】

【図4D】

【図5】

【図6A】

【図6B】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2023-11-15

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

方法であって、
顔画像を処理するためのエッジデバイスによるランタイム実行のための顔位置合わせネットワーク（ＦＡＮ）モデルを定義することは、
ｉ）訓練データセット及びｉｉ）拡張および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することで前記ネットワーク構造から候補サブモデルのセットを生成することと、ここで前記ＥＳＴ動作は、候補サブモデルのセットを定義するための様々な構成パラメータの候補サブモデルのインスタンスを定義および保持するものであり、
前記候補サブモデルから前記ＦＡＮモデルを選択するために、速度および精度評価基準を用いて前記候補サブモデルの進化的検索を実行することとを含むものであることを特徴とする方法。

【請求項2】

前記ＥＳＴ動作は、前記ネットワーク構造に従って以前に定義されたベースラインモデルから訓練を開始することを特徴とする請求項１記載の方法。

【請求項3】

前記ＥＳＴ動作は、ＥＳＴ動作を用いる更なる訓練のために、前記候補サブモデルのそれぞれにおける部分的に訓練されたパラメータとして、前記ベースラインモデルからの事前訓練されたパラメータを利用することを特徴とする請求項２記載の方法。

【請求項4】

前記ＥＳＴ動作は、各訓練反復においてランダムなサブネットを活性化して、サブネットの部分重みを積分として訓練し、サブモデル間で共有重みを効果的に訓練することを特徴とする請求項２又は３に記載の方法。

【請求項5】

前記ＥＳＴ動作は、深度サイズ、カーネルサイズ、チャンネル比および拡張比を含む複数の検索次元に従って候補サブモデルを生成するための検索空間を定義することを特徴とする請求項２から４のいずれかに記載の方法。

【請求項6】

【請求項7】

前記ＥＳＴ動作は、第１サイズのカーネルを訓練し、前記第１サイズのカーネルを用いて、その後、第２サイズのカーネルを訓練する初期フェーズにおけるカーネル訓練動作を備え、前記第１サイズのカーネルは、前記第２サイズのカーネルの中心であることを特徴とする請求項５又は６に記載の方法。

【請求項8】

前記ＥＳＴ動作は、より少ないレイヤーを訓練し、次いで、より大きなレイヤーオプションを前記訓練に徐々に追加する、中間フェーズにおける深度訓練動作を含むことを特徴とする請求項４から７のいずれかに記載の方法。

【請求項9】

前記進化的検索が、ｉ）速度および精度評価基準を決定するために前記ベースラインモデルを評価し、ｉｉ）前記ＦＡＮモデルを選択するために、前記ベースラインモデルから進化して、後続のサンプリング及び評価のための候補サブモデルの母集団を定義することを特徴とする請求項２記載の方法。

【請求項10】

エッジデバイスによる実行のために前記ＦＡＮモデルを含むアプリケーションを定義することを特徴とする請求項１から９のいずれかに記載の方法。

【請求項11】

前記アプリケーションは、前記ＦＡＮモデルによってビデオを処理するように構成され、前記ビデオは、前記顔画像であることを特徴とする請求項１０記載の方法。

【請求項12】

前記エッジデバイスは、スマートフォン又はタブレット端末であり、前記ＦＡＮモデルは、グラフィックス処理ユニット（ＧＰＵ）による実行のために構成されることを特徴とする請求項１０又は１１に記載の方法。

【請求項13】

前記アプリケーションは、
顔のメイクアップ製品の試着をシミュレートするメイクアップシミュレーションアプリケーションと、
少なくとも１つの皮膚の徴候について領域または前記顔の領域を分析し、スコア付けするための皮膚分析アプリケーションと、
前記顔の領域に関連するグラフィカルエフェクトをシミュレートするエフェクトシミュレーションアプリケーションと、
顔の位置を追跡および示すための顔追跡アプリケーションとのいずれか１つであることを特徴とする請求項１０から１２のいずれかに記載の方法。

【請求項14】

前記アプリケーションは、メイクアップシミュレーションアプリケーション又は皮膚分析アプリケーションであり、
前記アプリケーションは、それぞれメイクアップ及び皮膚トリートメントに関連する製品またはサービスを購入するために、電子商取引購入サービスへのインターフェースと、メイクアップ及び皮膚トリートメントにそれぞれ関連する製品またはサービスを推奨する電子商取引推奨サービスへのインターフェースとの一方または両方を提供するように構成されることを特徴とする請求項１０から１３のいずれかに記載の方法。

【請求項15】

命令を記憶する記憶デバイスに結合された処理ユニットを備えるコンピュータデバイスであって、前記命令が前記処理ユニットで実行されたときに、請求項１から１４のいずれかに記載の方法に従って定義されたＦＡＮモデルを提供するように前記コンピュータデバイスを構成することを特徴とするコンピュータデバイス。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

【背景技術】

【0003】

【0004】

【発明の概要】

【0005】

【0006】

【0007】

一実施形態では、ＦＡＮモデルが、顔画像を処理するために、エッジデバイスによるランタイム実行のために定義される。

【0008】

【0009】

【0010】

【0011】

【0012】

【0013】

【0014】

【0015】

【0016】

【0017】

【0018】

【0019】

【0020】

【0021】

【0022】

【図面の簡単な説明】

【0023】

【図1】一実施形態による２段階ＣＮＮ構造の簡略図である。

【図2A】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2B】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2C】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2D】一実施形態によるＯＦＡ訓練動作と拡張および縮小訓練（ＥＳＴ）動作との間の比較を示すブロック図である。

【図2E】一実施形態によるＥＳＴ拡張およびチャンネル選択動作を示す図である。

【図3】一実施形態による進化的検索プロセスのための擬似コードのリストである。

【図4A】一実施形態による実験の結果を示すグラフである。

【図4B】一実施形態による実験の結果を示すグラフである。

【図4C】一実施形態による実験の結果を示すグラフである。

【図4D】一実施形態による実験の結果を示すグラフである。

【図5】Ａ及びＢは、一実施形態による実験の結果を示すグラフである。

【図6A】データセットのアノテーションを示す画像である。

【図6B】データセットのアノテーションを示す画像である。

【図8】一実施形態によるコンピューティングデバイスの図である。

【図9】一実施形態による動作のフローチャートである。

【0024】

【0025】

【0026】

【0027】

【0028】

【0029】

【0030】

【0031】

【発明を実施するための形態】

【0032】

【0033】

【0034】

【0035】

【0036】

【0037】

【0038】

【0039】

【0040】

【0041】

【数1】

の異なるサブモデルを含む。

【0042】

【0043】

【0044】

【0045】

【0046】

【0047】

【0048】

【0049】

【0050】

【表1】

《性能の評価および推定》

【0051】

【0052】

【0053】

【0054】

【0055】

【0056】

【0057】

【0058】

【0059】

【数2】

【0060】

【0061】

【0062】

異なるエポックを調整した後の精度ランキングの相関は、わずか０．１５１である。従って、単純なアプローチは、良好な精度推定を提供しない。

【0063】

【0064】

【0065】

【0066】

【表2】

【0067】

【表3】

【0068】

【0069】

【0070】

【0071】

【0072】

【0073】

【0074】

【0075】

【0076】

【0077】

【0078】

【0079】

【0080】

【0081】

【0082】

【0083】

候補サブモデルからＦＡＮモデルを選択するために、９０４の動作は、速度および精度評価基準を用いて候補サブモデルの進化的検索を実行する。

【0084】

【0085】

【0086】

【0087】

【0088】

【0089】

【0090】

一実施形態では、進化的検索が、速度および精度評価基準を決定するためにベースラインモデルを評価する。

【0091】

【0092】

【0093】

【0094】

【0095】

【0096】

【0097】

【0098】

本発明の特定の態様、実施形態または実施例に関連して説明される特徴、整数、特性または群はそれらと互換性がない場合を除き、任意の他の態様、実施形態、又は実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て（任意の添付の特許請求の範囲、要約および図面を含む）及び／又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴及び／又はステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例又は実施形態の詳細に限定されない。本発明は、本明細書（添付の特許請求の範囲、要約および図面を含む）に開示される特徴の任意の新規な１又は任意の新規な組み合わせ、又は開示される任意の方法またはプロセスのステップの任意の新規な１又は任意の新規な組み合わせに及ぶ。

参考文献－その全体が参照により本明細書に組み込まれる
Cai, H.; Gan, C.; Wang, T.; Zhang, Z.; and Han, S. 2020. Once-for-All: Train One Network and Specialize it for Efficient Deployment.

Chen, Y.; Yang, T.; Zhang, X.; Meng, G.; Xiao, X.; and Sun, J. 2019. DetNAS: Backbone Search for Object Detection. Freedman, D.; Pisani, R.; and Purves, R. 2007. Statistics (international student edition). Pisani, R. Purves, 4th edn. WW Norton & Company, New York.

He, K.; Gkioxari, G.; Doll´ ar, P.; and Girshick, R. 2018. Mask R-CNN.

Howard, A. G.; Zhu, M.; Chen, B.; Kalenichenko, D.; Wang, W.; Weyand, T.; Andreetto, M.; and Adam, H. 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.

Kazemi, V.; and Sullivan, J. 2014. One millisecond face alignment with an ensemble of regression trees. In 2014 IEEE Conference on Computer Vision and Pattern Recognition, 1867?1874. doi:10.1109/CVPR.2014.241.

Kowalski, M.; Naruniec, J.; and Trzcinski, T. 2017. Deep Alignment Network: A convolutional neural network for robust face alignment.

Li, T.; Yu, Z.; Phung, E.; Duke, B.; Kezele, I.; and Aarabi, P. 2019. Lightweight Real-time Makeup Try-on in Mobile Browsers with Tiny CNN Models for Facial Tracking.

Liu, H.; Simonyan, K.; and Yang, Y. 2019. DARTS: Differentiable Architecture Search.

Liu, Z.; Zhu, X.; Hu, G.; Guo, H.; Tang, M.; Lei, Z.; Robertson, N. M.; and Wang, J. 2019. Semantic Alignment: Finding Semantically Consistent Ground-truth for Facial Landmark Detection.

Nekrasov, V.; Chen, H.; Shen, C.; and Reid, I. 2019. Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells.

Newell, A.; Yang, K.; and Deng, J. 2016. Stacked Hourglass Networks for Human Pose Estimation.

Real, E.; Aggarwal, A.; Huang, Y.; and Le, Q. V. 2019. Regularized Evolution for Image Classifier Architecture Search.

Sagonas, C.; Tzimiropoulos, G.; Zafeiriou, S.; and Pantic, M. 2013. 300 faces in-the-wild challenge: The first facial landmark localization challenge. In the IEEE International Conference on Computer Vision Workshops.

Sandler, M.; Howard, A.; Zhu, M.; Zhmoginov, A.; and Chen, L.-C. 2019. MobileNetV2: Inverted Residuals and Linear Bottlenecks.

Wu, W.; Qian, C.; Yang, S.; Wang, Q.; Cai, Y.; and Zhou, Q. 2018. Look at boundary: A boundary-aware face alignment algorithm. In the IEEE Conference on Computer Vision and Pattern Recognition.

Yang, S.; Yang, W.; and Cui, Z. 2020. Pose Neural Fabrics Search.

Zhu, B.; Lin, C.; Wang, Q.; Liao, R.; and Qian, C. 2020. Fast and Accurate: Structure Coherence Component for Face Alignment.

Zoph, B.; and Le, Q. V. 2017. Neural Architecture Search with Reinforcement Learning.
＜その他＞
＜手段＞
技術的思想１の方法は、顔位置合わせネットワーク（ＦＡＮ）モデルを定義することは、ｉ）訓練データセット及びｉｉ）拡張および縮小訓練（ＥＳＴ）動作を用いてネットワーク構造を訓練することで前記ネットワーク構造から候補サブモデルのセットを生成することと、ここで前記ＥＳＴ動作は、候補サブモデルのセットを定義するための様々な構成パラメータの候補サブモデルのインスタンスを定義および保持するものであり、前記候補サブモデルから前記ＦＡＮモデルを選択するために、速度および精度評価基準を用いて前記候補サブモデルの進化的検索を実行することとを含むものである。
技術的思想２の方法は、技術的思想１記載の方法において、前記ＦＡＮモデルは、顔画像を処理するためのエッジデバイスによるランタイム実行のために定義される。
技術的思想３の方法は、技術的思想１又は２に記載の方法において、前記ＥＳＴ動作は、前記ネットワーク構造に従って以前に定義されたベースラインモデルから訓練を開始する。
技術的思想４の方法は、技術的思想３記載の方法において、前記ＥＳＴ動作は、ＥＳＴ動作を用いる更なる訓練のために、前記候補サブモデルのそれぞれにおける部分的に訓練されたパラメータとして、前記ベースラインモデルからの事前訓練されたパラメータを利用する。
技術的思想５の方法は、技術的思想に記載の方法において、前記候補サブモデルは、２エポックと６０エポックとの間、２エポックと２５エポックとの間および２エポックのうちのいずれか１つについて更に訓練されることを特徴とする。
技術的思想６の方法は、技術的思想３から５のいずれかに記載の方法において、前記ＥＳＴ動作は、各訓練反復においてランダムなサブネットを活性化して、サブネットの部分重みを積分として訓練し、サブモデル間で共有重みを効果的に訓練する。
技術的思想７の方法は、技術的思想３から６のいずれかに記載の方法において、前記ＥＳＴ動作は、深度サイズ、カーネルサイズ、チャンネル比および拡張比を含む複数の検索次元に従って候補サブモデルを生成するための検索空間を定義する。
技術的思想８の方法は、技術的思想７記載の方法において、前記ＥＳＴ動作は、小さな深度サイズ、小さなカーネルサイズ、大きなチャンネル比および大きな拡張比で開始し、次いで、動作は、段階的かつ以下の順序で、深度サイズ及びカーネルサイズをそれぞれの最大まで徐々に拡張し、終了フェーズで、チャンネル比および拡張比をそれぞれの最小まで徐々に縮小する。
技術的思想９の方法は、技術的思想７又は８に記載の方法において、前記ＥＳＴ動作は、第１サイズのカーネルを訓練し、前記第１サイズのカーネルを用いて、その後、第２サイズのカーネルを訓練する初期フェーズにおけるカーネル訓練動作を備え、前記第１サイズのカーネルは、前記第２サイズのカーネルの中心である。
技術的思想１０の方法は、技術的思想６から９のいずれかに記載の方法において、前記ＥＳＴ動作は、より少ないレイヤーを訓練し、次いで、より大きなレイヤーオプションを前記訓練に徐々に追加する、中間フェーズにおける深度訓練動作を含む。
技術的思想１１の方法は、技術的思想６から１０のいずれかに記載の方法において、前記ＥＳＴ動作は、チャンネル比および拡張比訓練動作を備え、チャンネル比および拡張比訓練動作は、それぞれ終了フェーズでチャンネル比および拡張比を縮小する。
技術的思想１２の方法は、技術的思想２から１１のいずれかに記載の方法において、技術的思想２に従属する技術的思想３から１０のように、前記進化的検索が、速度および精度評価基準を決定するために前記ベースラインモデルを評価する。
技術的思想１３の方法は、技術的思想２から１２のいずれかに記載の方法において、技術的思想２に従属する技術的思想３から１２のように、前記進化的検索が、前記ベースラインモデルから進化して、後続のサンプリング及び評価のための候補サブモデルの母集団を定義する。
技術的思想１４の方法は、技術的思想１３記載の方法において、前記進化的検索は、前記母集団からサンプリングして候補サブモデルの数量を選択し、前記数量から最速のサブモデルを選択し、前記最速のサブモデルを進化させて関連するサブモデルを決定し、前記母集団から最古のサブモデルを除去し、前記関連するサブモデルが精度閾値テストを満たす場合、後でサンプリングできるように前記関連するサブモデルを前記母集団に追加し、前記関連するサブモデルを最後の最速の候補サブモデルのセットに追加することを含む複数のサイクルを実行し、前記複数のサイクルの前記性能に従って、前記最後の最速の候補サブモデルのセットから前記最速のサブモデルを前記ＦＡＮモデルとして選択する。
技術的思想１５の方法は、技術的思想１３記載の方法において、前記進化的検索は、前記母集団からサンプリングして候補サブモデルの数量を選択し、前記数量から最も正確なサブモデルの選択を選択し、前記最も正確なサブモデルを進化させて関連するサブモデルを決定し、前記母集団から最古のサブモデルを除去し、前記関連するサブモデルが速度閾値テストを満たす場合、後でサンプリングできるように前記関連するサブモデルを母集団に追加し、前記関連するサブモデルをサンプリングし、最後の最も正確な候補サブモデルのセットに追加することを含む複数のサイクルを実行し、前記複数のサイクルの前記性能に従って、前記最後の最も正確な候補サブモデルのセットから前記最も正確なサブモデルを前記ＦＡＮモデルとして選択する。
技術的思想１６の方法は、技術的思想１から１５のいずれかに記載の方法において、前記ネットワーク構造が、予測のために抽出された特徴を精緻化するために関心領域（ＲｏＩ）位置合わせレイヤーに出力する２段階構造である。
技術的思想１７の方法は、技術的思想１６記載の方法において、第１段階が４つのブロックを含み、第２段階が１つのブロックを含み、各ブロックが最大４つのレイヤーを含み、各レイヤーが反転された残差レイヤーを含む。
技術的思想１８の方法は、技術的思想１から１７のいずれかに記載の方法において、エッジデバイスによる実行のために前記ＦＡＮモデルを含むアプリケーションを定義する。
技術的思想１９の方法は、技術的思想１８記載の方法において、前記アプリケーションは前記顔のメイクアップ製品の前記試着をシミュレートするメイクアップシミュレーションアプリケーションと、少なくとも１つの皮膚の徴候について領域または前記顔の領域を分析し、スコア付けするための皮膚分析アプリケーションと、前記顔の領域に関連するグラフィカルエフェクトをシミュレートするエフェクトシミュレーションアプリケーションと、顔の位置を追跡および示すための顔追跡アプリケーションとのいずれか１つである。
技術的思想２０の方法は、技術的思想１８又は１９に記載の方法において、前記アプリケーションは、前記ＦＡＮモデルによってビデオを処理するように構成される。
技術的思想２１の方法は、技術的思想１８から２０のいずれかに記載の方法において、前記エッジデバイスは、スマートフォン又はタブレット端末であり、前記ＦＡＮモデルは、グラフィックス処理ユニット（ＧＰＵ）による実行のために構成される。
技術的思想２２の方法は、技術的思想１９から２１のいずれかに記載の方法において、前記アプリケーションは、前記メイクアップシミュレーションアプリケーション又は前記皮膚分析アプリケーションであり、前記アプリケーションは、それぞれメイクアップ及び皮膚トリートメントに関連する製品またはサービスを購入するために、電子商取引購入サービスへのインターフェースを提供するように構成される。
技術的思想２３の方法は、技術的思想１９から２２のいずれかに記載の方法において、前記アプリケーションは、前記メイクアップシミュレーションアプリケーション又は前記皮膚分析アプリケーションであり、前記アプリケーションは、メイクアップ及び皮膚トリートメントにそれぞれ関連する製品またはサービスを推奨する電子商取引推奨サービスへのインターフェースを提供するように構成される。
技術的思想２４のコンピューティングデバイスは、命令を記憶する記憶デバイスに結合されたプロセッサを備えるものであり、前記命令が前記プロセッサで実行されると、前記コンピューティングデバイスを、前記の技術的思想のいずれかに記載の方法に従った方法を実行するように構成される。
技術的思想２５のコンピュータプログラム製品は、命令を記憶する非一時的記憶デバイスと、コンピューティングデバイスの処理ユニットによる実行のためのＦＡＮモデルを定義するデータとを備え、前記ＦＡＮモデルは、前記の技術的思想のいずれかに記載の方法に従った方法で定義される。
技術的思想２６のコンピュータデバイスは、命令を記憶する記憶デバイスに結合された処理ユニットを備えるものであり、前記命令が前記理ユニットで実行されたときに、前記の技術的思想のいずれかに記載の方法に従って定義されたＦＡＮモデルを提供するように前記コンピューティングデバイスを構成する。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版