特開2023-117849 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 独立行政法人産業技術総合研究所の特許一覧

特開2023-117849顔認識装置、顔認識方法、顔認識プログラム、顔画像変換装置、顔画像変換方法、顔画像変換プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023117849

(43)【公開日】2023-08-24

(54)【発明の名称】顔認識装置、顔認識方法、顔認識プログラム、顔画像変換装置、顔画像変換方法、顔画像変換プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230817BHJP

【ＦＩ】

G06T7/00 660A

G06T7/00 350C

【審査請求】未請求

【請求項の数】22

【出願形態】ＯＬ

(21)【出願番号】P 2022020634

(22)【出願日】2022-02-14

(71)【出願人】

【識別番号】301021533

【氏名又は名称】国立研究開発法人産業技術総合研究所

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】林隆介

(72)【発明者】

【氏名】中村大樹

(72)【発明者】

【氏名】宍倉基文

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA18

5L096DA01

5L096DA02

5L096FA26

5L096FA38

5L096FA66

5L096HA01

5L096HA11

5L096JA05

5L096JA11

5L096KA04

5L096MA07

(57)【要約】（修正有）

【課題】顔認識において、データ収集のコスト低減、推定結果からのバイアスの除去及び撮影条件に依存しないロバストな推定を実現する技術を提供する。
【解決手段】顔認識装置１は、第１の顔画像群１０１及び第２の顔画像群１０２を、夫々第１の潜在変数ベクトル及び第２の潜在変数ベクトルに変換する潜在変数ベクトル変換部１０と、潜在変数ベクトルを、夫々第１のデータセット及び第２のデータセットにマッピングするマッピング部２０と、これらのデータセットを次元圧縮して、夫々が密に分布している第１のクラスタ領域群及び第２のクラスタ領域群を抽出し、これらのクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するアンカーポイント抽出部３０と、アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習する写像学習部４０と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、前記第１の顔画像群の顔の特性を認識する顔認識装置であって、
前記第１の顔画像群および前記第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する潜在変数ベクトル変換部と、
前記第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするマッピング部と、
前記第１のデータセットおよび前記第２のデータセットを次元圧縮して、前記第１のデータセットおよび前記第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、前記第１のクラスタ領域群と前記第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するアンカーポイント抽出部と、
前記アンカーポイントとして抽出された対応関係を利用して前記第１の潜在変数ベクトル（ないしデータセット）から前記第２の潜在変数ベクトル（ないしデータセット）への写像を学習する写像学習部と、を備える顔認識装置。

【請求項2】

前記マッピング部は、超球面上でマッピングを行うことを特徴とする請求項１に記載の顔認識装置。

【請求項3】

前記潜在変数ベクトル変換部は、教師なし学習に基づくニューラルネットワークを用いて、顔画像群を潜在変数ベクトルに変換することを特徴とする請求項１または２に記載の顔認識装置。

【請求項4】

前記教師なし学習に基づくニューラルネットワークは、敵対的生成ネットワークであることを特徴とする請求項３に記載の顔認識装置。

【請求項5】

前記マッピング部は、ｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇまたはｃｏｎｔｒａｓｔｉｖｅｌｅａｒｎｉｎｇを用いてマッピングを行うことを特徴とする請求項２から４のいずれかに記載の顔認識装置。

【請求項6】

前記マッピング部は、歪度が最大となるように温度パラメータを設定してマッピングを行うことを特徴とする請求項５に記載の顔認識装置。

【請求項7】

前記アンカーポイント抽出部は、次元圧縮後の空間内で特定のサンプルデータと、他のサンプルデータとの間の距離を計算し、所定の閾値以内の距離に分布するサンプルデータが、所定の閾値以上の個数存在する場合、これらのサンプルデータ集合をクラスタと判定することを特徴とする請求項１から６のいずれかに記載の顔認識装置。

【請求項8】

前記第１のクラスタ領域群と前記第２のクラスタ領域群との距離は、重心間のユークリッド距離またはＫｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ距離であることを特徴とする請求項１から７のいずれかに記載の顔認識装置。

【請求項9】

前記写像学習部が学習する写像は、線形写像であることを特徴とする請求項１から８のいずれかに記載の顔認識装置。

【請求項10】

前記写像学習部は、前記アンカーポイントの潜在変数が一致するような行列変換を学習することを特徴とする請求項９に記載の顔認識装置。

【請求項11】

前記写像学習部が学習する写像は、ニューラルネットワークによる非線形な写像であることを特徴とする請求項１から８のいずれかに記載の顔認識装置。

【請求項12】

前記写像学習部は、アンカーポイント同士が一致するように損失関数を設定し、前記第１の潜在変数ベクトル（ないしデータセット）から写像された分布が前記第２の潜在変数ベクトル（ないしデータセット）の分布と一致するようにＭＭＤ（ＭａｘｉｍｕｍＭｅａｎＤｉｓｃｒｅｐａｎｃｙ）または敵対的生成ネットワークで用いられるＤｉｓｃｒｉｍｉｎａｔｏｒｌｏｓｓを設定することを特徴とする請求項１１に記載の顔認識装置。

【請求項13】

顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、前記第１の顔画像群の顔の特性を認識する方法であって、
前記第１の顔画像群および前記第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、
前記第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、
前記第１のデータセットおよび前記第２のデータセットを次元圧縮して、前記第１のデータセットおよび前記第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、前記第１のクラスタ領域群と前記第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、
前記アンカーポイントとして抽出された対応関係を利用して前記第１の潜在変数ベクトル（ないしデータセット）から前記第２の潜在変数ベクトル（ないしデータセット）への写像を学習するステップと、を含む顔認識方法。

【請求項14】

前記マッピングするステップは、超球面上でマッピングを行うことを特徴とする請求項１３に記載の顔認識方法。

【請求項15】

顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、前記第１の顔画像群の顔の特性を認識するためのプログラムであって、
前記第１の顔画像群および前記第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、
前記第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、
前記第１のデータセットおよび前記第２のデータセットを次元圧縮して、前記第１のデータセットおよび前記第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、前記第１のクラスタ領域群と前記第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、
前記アンカーポイントとして抽出された対応関係を利用して前記第１の潜在変数ベクトル（ないしデータセット）から前記第２の潜在変数ベクトル（ないしデータセット）への写像を学習するステップと、をコンピュータに実行させる顔認識プログラム。

【請求項16】

前記マッピングするステップは、超球面上でマッピングを行うことを特徴とする請求項１５に記載の顔認識プログラム。

【請求項17】

請求項１から１２のいずれかに記載の顔認識装置と、前記第１の顔画像群の人物の顔画像を、前記第２の顔画像群の人物の顔画像に変換する顔画像変換部と、を備える顔画像変換装置。

【請求項18】

変換した顔画像を表示する表示部をさらに備える、請求項１７に記載の顔画像変換装置。

【請求項19】

第１の顔画像群を、第２の顔画像群に対応付けることにより、前記第１の顔画像群の人物の顔画像を、前記第２の顔画像群の人物の顔画像に変換する方法であって、
前記第１の顔画像群および前記第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、
前記第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、
前記第１のデータセットおよび前記第２のデータセットを次元圧縮して、前記第１のデータセットおよび前記第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、前記第１のクラスタ領域群と前記第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、
前記アンカーポイントとして抽出された対応関係を利用して前記第１の潜在変数ベクトル（ないしデータセット）から前記第２の潜在変数ベクトル（ないしデータセット）への写像を学習するステップと、
前記第１の顔画像群の人物の顔画像を、前記第２の顔画像群の人物の顔画像に変換するステップと、を含む顔画像変換方法。

【請求項20】

前記マッピングするステップは、超球面上でマッピングを行うことを特徴とする請求項１９に記載の顔画像変換方法。

【請求項21】

第１の顔画像群を、第２の顔画像群に対応付けることにより、前記第１の顔画像群の人物の顔画像を、前記第２の顔画像群の人物の顔画像に変換するためのプログラムであって、
前記第１の顔画像群および前記第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、
前記第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、
前記第１のデータセットおよび前記第２のデータセットを次元圧縮して、前記第１のデータセットおよび前記第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、前記第１のクラスタ領域群と前記第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、
前記アンカーポイントとして抽出された対応関係を利用して前記第１の潜在変数ベクトル（ないしデータセット）から前記第２の潜在変数ベクトル（ないしデータセット）への写像を学習するステップと、
前記第１の顔画像群の人物の顔画像を、前記第２の顔画像群の人物の顔画像に変換するステップと、をコンピュータに実行させる顔画像変換プログラム。

【請求項22】

前記マッピングするステップは、超球面上でマッピングを行うことを特徴とする請求項２１に記載の顔画像変換プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、顔認識装置、顔認識方法、顔認識プログラム、顔画像変換装置、顔画像変換方法、顔画像変換プログラムに関する。

【背景技術】

【0002】

個人の顔画像から、その人の表情を推定したり分類したりするための顔認識技術が提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０１７－５１７０７６

【非特許文献】

【0004】

【非特許文献1】Tero Karras, Samuli Laine, Timo Aila, “A Style-Based Generator Architecture for Generative Adversarial Networks”, IEEE Conference on Computer Vision and Pattern Recognition, pp.4401-4410 (2019).

【非特許文献2】Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, Daniel Cohen-Or, “Designing an encoder for StyleGAN image manipulation”, ACM Transactions on GraphicsVolume, 40Issue, 4 August 2021, Article No. 133pp.1-14 (2021)

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１のような従来の顔認識技術は、顔画像群と表情分類結果などのラベル情報群との対応関係を、ニューラルネットワークなどのＡＩ技術によって解くことで実現している。しかしＡＩの学習では、対となる画像とラベルとを大量に収集する必要がある。この場合、特にラベル情報の収集には膨大なコストと人的労力がかかる。また、画像およびラベルの収集方法に偏りがあると、学習したデータと異なる人種、性別、年齢の顔画像に対して、誤った認識結果が得られる可能性のあることが指摘されている。例えば、学習の元になるデータの多数を西欧人が占めると、アルゴリズムは、西欧人の画像に対して認識精度が高いが、日本人の顔画像に対しては認識を誤るといったバイアスが生じる可能性がある。こうしたバイアスは「ＡＩの偏見」として、社会的にも問題となっている。さらに、顔画像が撮影される環境は一般に一様ではない。例えば照明条件が変わると、同じ人物の顔であっても、画像データとしては大きく異なることがある。こうしたことから、撮影条件の違いに依存することなく、顔画像から表情推定・分類をロバストに実現できる画像認識技術が求められる。

【0006】

本発明はこうした状況に鑑みてなされたものであり、その目的は、顔認識において、データ収集のコスト低減、推定結果からのバイアスの除去、および撮影条件に依存しないロバストな推定を実現することにある。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本発明のある態様（第１の実施の形態）の顔認識装置は、顔にあらわれる特性（感情の他、睡眠・覚醒状態やモチベーションの指標、各種生理指標等を含む。以下、「顔の特性」と総称する）に関する情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、第１の顔画像群の顔の特性を認識する顔認識装置であって、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する潜在変数ベクトル変換部と、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするマッピング部と、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するアンカーポイント抽出部と、アンカーポイントを用いて第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習する写像学習部と、を備える。

【0008】

本発明の別の態様（第２の実施の形態）は、顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、第１の顔画像群の顔の特性を認識する顔認識方法である。この方法は、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を用いて第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、を含む。

【0009】

本発明のさらに別の態様（第３の実施の形態）は、顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、第１の顔画像群の顔の特性を認識するための顔認識プログラムである。このプログラムは、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を用いて第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、をコンピュータに実行させる。

【0010】

本発明のさらに別の態様（第４の実施の形態）は、顔画像変換装置である。この装置は、前述の顔認識装置と、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する顔画像変換部と、を備える。

【0011】

本発明のさらに別の態様（第５の実施の形態）もまた、顔画像変換装置である。この装置は、前述の顔認識装置と、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する顔画像変換部と、表示部と、を備える。

【0012】

本発明のさらに別の態様（第６の実施の形態）は、第１の顔画像群を、第２の顔画像群に対応付けることにより、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する顔画像変換方法である。この方法は、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を用いて第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換するステップと、を含む。

【0013】

本発明のさらに別の態様（第７の実施の形態）は、第１の顔画像群を、第２の顔画像群に対応付けることにより、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換するための顔画像変換プログラムである。このプログラムは、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を用いて第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換するステップと、をコンピュータに実行させる。

【0014】

なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

【発明の効果】

【0015】

本発明は、任意の顔画像のペア間で対応関係を学習し、一方の顔画像を他方の顔画像に変換して、表情等の顔特性を認識する。このため、顔認識において、データ収集のコスト低減、推定結果からのバイアスの除去、および撮影条件に依存しないロバストな推定を実現することができる。また、本発明技術は、顔画像の編集・変換を実現することができるため、表示部を備えた装置により、仮想空間で表示するアバターとして利用できる他、ロボットやヒトの顔に実際に映像をプロジェクションすることで、遠隔地にいる人物とのコミュニケーションや、エンターテイメント等に応用することもできる。

【図面の簡単な説明】

【0016】

【図1】第１の実施の形態に係る顔認識装置の機能ブロック図である。

【図2】マッピング部によって超球面上にマッピングされた第１のデータセットおよび第２のデータセットを示す模式図である。

【図3】ニューラルネットワークによる非線形写像の学習を用いた写像学習を示す模式図である。

【図4】第２および第３の実施の形態に係る顔認識方法および顔認識プログラムの処理手順を示すフローチャートである。

【図5】第４の実施の形態に係る顔画像変換装置の機能ブロック図である。

【図6】第５の実施の形態に係る顔画像変換装置の機能ブロック図である。

【図7】第６および第７の実施の形態に係る顔画像変換方法および顔画像変換プログラムの処理手順を示すフローチャートである。

【発明を実施するための形態】

【0017】

以下、本発明を好適な実施の形態をもとに各図面を参照しながら説明する。実施の形態及び変形例では、同一又は同等の構成要素、部材には同一の符号を付すものとし、適宜重複した説明は省略する。また、各図面における部材の寸法は、理解を容易にするために適宜拡大、縮小して示す。また、各図面において実施の形態を説明する上で重要でない部材の一部は省略して表示する。また、第１、第２などの序数を含む用語が多様な構成要素を説明するために用いられるが、こうした用語は一つの構成要素を他の構成要素から区別する目的でのみ用いられ、この用語によって構成要素が限定されるものではない。

【0018】

［第１の実施の形態］
図１は、第１の実施の形態に係る顔認識装置１の機能ブロック図である。顔認識装置１は、潜在変数ベクトル変換部１０と、マッピング部２０と、アンカーポイント抽出部３０と、写像学習部４０と、を備える。

【0019】

顔認識装置１には、顔の特性を表すラベル情報が付与されていない第１の顔画像群と、顔の特性を表すラベル情報が付与された第２の顔画像群と、が入力される。ここで「顔の特性」とは、個人の表情にあらわれる感情や、睡眠・覚醒状態、モチベーションの状態の他、各種生理指標等を含む。すなわち顔の特性は、顔の状態変化を通し、個人のその時々の感情、認知、内面、身体などの状態を表すものと考えられる。ラベル情報は、こうした個人の顔の特性を計測したデータベースとして作成される。本実施の形態では、上記のように、第１の顔画像の持ち主については表情等の顔の特性に関するデータベースが作成されておらず、第２の顔画像の持ち主については表情等の顔の特性に関するデータベースが作成されていることを前提とする。

【0020】

潜在変数ベクトル変換部１０は、顔認識装置１に入力された第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する。「潜在変数ベクトル」は、敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、以下「ＧＡＮ」とも呼ぶ）などにおいて画像を生成するために使われる変数であり、ｎ次元のベクトルデータである。潜在変数ベクトルは、生成モデルが画像を生成するための元となるが、画像データそのものではなく、顔の特徴を記述するのに適したデータである。

【0021】

ＧＡＮは、互いに競合する２つのニューラルネットワークモデル（この場合、敵対的生成ネットワーク）を用いて、事前に用意した画像などの訓練データと類似したデータを、潜在変数ベクトルを元に生成できるように学習を行う。これによりＧＡＮは、実際には存在しないデータを生成したり、存在するデータの特徴に沿って変換を行ったりするための画像生成モデルを構成する。ＧＡＮは、正解データを与えることなく学習する「教師なし学習」の手法を用いる点に特徴がある。その学習精度の高さとアーキテクチャの柔軟さから、ＧＡＮをベースとした応用研究や実用化が進んでいる。

【0022】

このようなＧＡＮをベースとした顔画像生成技術の一つに、大規模な顔画像データベースを用いて高精細な画像を生成するＳｔｙｌｅＧＡＮがある（例えば、非特許文献１参照）。ＳｔｙｌｅＧＡＮは、学習により潜在変数ベクトルから顔画像を生成する。ＳｔｙｌｅＧＡＮは、多段の階層をもつニューラルネットワークによって構成され、潜在変数ベクトルを分割し、各層に入力することで画像を生成する。学習後の潜在変数ベクトルは、顔画像情報の効率のよい表現形式となっているため、本実施の形態に好適であると考えられる。一例として、Ｅｎｃｏｄｅｒ４ｅｄｉｔｉｎｇという符号化技術を使うことにより、任意の顔画像をＳｔｙｌｅＧＡＮの潜在変数ベクトルに変換することができる（例えば、非特許文献２参照）。

【0023】

ある実施の形態では、潜在変数ベクトル変換部１０は、Ｅｎｃｏｄｅｒ４ｅｄｉｔｉｎｇを用いて、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する。

【0024】

マッピング部２０は、第１の潜在変数ベクトルおよび前記第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングする。ある実施の形態では、マッピング部２０は、潜在変数ベクトルを多次元超球面上に射影する。マッピング部２０は、ニューラルネットワークなどによって実装することができる。例えばマッピング部２０は、ｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇやｃｏｎｔｒａｓｔｉｖｅｌｅａｒｎｉｎｇなどを用いて、類似した顔画像は近くに配置し、異なる顔画像は遠くに配置するようなマッピングを学習することで、射影を実現する。この学習は、ラベル情報を必要としない学習で実現できる（「自己教師あり学習」とも呼ばれる）。マッピング部２０は、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ独立した超球面写像部を用いて、超球面上に写像するように学習する。図２に、マッピング部２０によって超球面上にマッピングされた第１のデータセットおよび第２のデータセットを、模式的に示す。

【0025】

一般にｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇなどに基づく学習では、データをどの程度広く散布するかを調節することが重要となる。このためｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇにおいては、温度パラメータと呼ばれるパラメータが考慮されることがある。この温度パラメータは、マッピング時に作用するサンプルデータ間の反発力を調整するパラメータである。本実施の形態において、潜在変数ベクトルを超球面上に適切に散布するには、温度パラメータの設定が重要となる。

【0026】

ある実施の形態では、超球面上に散布したサンプルデータ間のｃｏｓ距離をヒストグラム化し、そのヒストグラムの歪度(「ｓｋｅｗｎｅｓｓ」とも呼ぶ)が最大となるように温度パラメータを調節する。データ分布の歪度が大きいとは、類似度の高い一部のサンプルデータ同士が互いに近い場所に配置される一方、他の多くのサンプルデータが遠い距離の場所に配置されることを意味する。本実施の形態の次のステップのクラスタ抽出では、超球面上にマッピングされたデータセットの分布が特徴的な偏りを持つ必要がある。このとき、各サンプルペアの類似度のヒストグラムをプロットして歪度を求めることにより、データが超球面上でどのように分布しているかを評価することができる。歪度が最大となるように温度パラメータを調節することにより、類似度の高い特定のサンプルデータ同士のみを近くに配置することができる。これにより、クラスタ抽出を的確に行うことができる。

【0027】

アンカーポイント抽出部３０は、第１のデータセットおよび第２のデータセットを次元圧縮して、これらのデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出する。

【0028】

最初にアンカーポイント抽出部３０は、例えばｉｓｏｍａｐなどにより、超球面上にマッピングされたデータセットを次元圧縮する。このとき、アンカーポイント抽出部３０は、超球面上のデータセットのサンプルデータ間の距離関係を保存するように、次元を圧縮する（等長写像）。次元圧縮は、第１のデータセットおよび第２のデータセットに対して、それぞれ別々に実行される。ｉｓｏｍａｐ上では、データの近さに基づいて次元圧縮が行われるため、第１の顔画像群と第２の顔画像群との間で表情のバリエーションが類似していれば、次元圧縮後の両者の潜在変数ベクトルの分布は類似したものとなることが期待される。

【0029】

次にアンカーポイント抽出部３０は、次元圧縮後の空間内で、データが密に分布している領域をクラスタ領域群として抽出する。例えば、特定のサンプルデータと、他のサンプルデータとの間の距離を計算し、所定の閾値以内の距離に分布するサンプルデータが、所定の閾値以上の個数存在する場合、これらのサンプルデータ集合をクラスタと判定することができる。クラスタ抽出は、第１のデータセットおよび第２のデータセットに対して、それぞれ別々に実行される。すなわちアンカーポイント抽出部３０は、第１のデータセットおよび第２のデータセットが密に分布している領域を、それぞれ第１のクラスタ領域群および第２のクラスタ領域群として抽出する。

【0030】

次にアンカーポイント抽出部３０は、第１のクラスタ領域群と第２のクラスタ領域群との距離を、次元圧縮後の空間内で計算し、距離が最も近いクラスタ領域ペア内にあるデータサンプルをアンカーポイントとして抽出する。クラスタ間の距離は、それらの重心間のユークリッド距離で定義してもよいし、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ距離などで定義してもよい。アンカーポイントとして抽出された第１のデータサンプルと、第２のデータサンプルは、対応するクラスタ同士の距離が最も近いことから、対応する顔画像の内容は互いに相同であると考えられる。すなわちアンカーポイントが表現する画像は、互いに同じ顔の特性を持つ（例えば、同じ表情をしている）画像の集合であるとみなすことができる。

【0031】

写像学習部４０は、抽出されたアンカーポイントを用いて、第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習する。アンカーポイントが抽出されたことにより、例えば第１の人物と第２の人物との間で、相同な潜在変数ベクトルが決定されたと考えることができる。従って、第１の人物の潜在変数ベクトルが、第２の人物の相同な潜在変数ベクトルへと写像されるように学習を行うことができる。

【0032】

学習には、アンカーポイント以外のデータサンプルも同時に用いてもよい。その際は、写像変換により、第１の潜在変数ベクトル全体の分布が、第２の潜在変数ベクトル全体の分布に一致するように学習を行う。

【0033】

また学習は、第１のデータサンプルから第２のデータサンプルへの写像変換の学習であってもよい。

【0034】

写像は、線形写像であってもよいし、ニューラルネットワークによる非線形な写像であってもよい。

【0035】

例えば写像が線形写像であれば、アンカーポイントとして選ばれたサンプルの潜在変数が一致するような行列変換を学習すればよい。

【0036】

あるいは写像が非線形写像であれば、アンカーポイント同士が一致するように損失関数を設定しつつ、第１の潜在変数ベクトルから写像された分布が第２の潜在変数ベクトルの分布と一致するようにＭＭＤ（ＭａｘｉｍｕｍＭｅａｎＤｉｓｃｒｅｐａｎｃｙ）またはＤｉｓｃｒｉｍｉｎａｔｏｒｌｏｓｓを設定すればよい。図３に、ニューラルネットワークによる非線形写像の学習を用いた写像学習を模式的に示す。

【0037】

このように写像を学習することにより、顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることができる。そして対応付けられた第２の顔画像のラベル情報を読み取ることで、第１の顔画像群の顔の特性を推定することができる。

【0038】

以下、本実施の形態による作用効果について説明する。先ず本実施の形態に係る顔認識装置１は、第１の人物と第２の人物との間で、相同な表情を呈する顔画像サンプルを推定する。例えば、多数の顔画像サンプルの中から、第１の人物の「笑い顔」と第２の人物の「笑い顔」同士を、相同サンプルとして抽出することができる。ここで顔認識装置１は、従来の顔認識装置と大きく異なり、第１の人物の顔画像が「笑い顔」であることを示すラベル情報が利用できない場合にも相同サンプル推定することができることに注意されたい。すなわち顔認識装置１の特徴は、顔画像群を潜在変数ベクトル群に変換した上で、第１の人物と第２の人物との間で、潜在変数ベクトル群の対応関係を教師なし学習手法によって解く点にある。このような教師なし学習手法を用いることにより、最低限ラベル情報は、第２の人物一人の顔画像群のみに付与されていればよい。これは、人手をかけてすべての人物の顔画像群のラベル情報を収集することが必要であった従来技術に比べ、コストと労力を大幅に低減することができる。

【0039】

また顔認識装置１では、特定の人物間の顔画像の対応関係だけを解くので、例えば日本人の顔を西欧人の顔に変換して表情推定をすることが可能となる。従って、人種、性別、年齢などに起因するバイアスの発生を防ぐことができる。

【0040】

さらに潜在変数ベクトルは、顔の形態情報だけでなく、低次層の色やテクスチャなどの情報も含むという特徴を持つ。すなわち高次層に対応する潜在変数は、顔の形態情報をより強く表現していると考えられる。一方、照明環境の変化などは、低次層の潜在変数表現として反映される可能性が高い。従って、高次層の潜在変数だけを用いて顔画像を表現することにより、照明などの外乱に対しロバストな表情推定を実現することができる。

【0041】

以上述べたように本実施の形態によれば、データ収集のコスト低減、推定結果からのバイアスの除去、および撮影条件に依存しないロバストな推定が可能な顔認識装置を実現することができる。

【0042】

［第２の実施の形態］
図４は、第２の実施の形態に係る顔認識方法の処理手順を示すフローチャートである。この顔認識方法は、顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、第１の顔画像群の顔の特性を認識する方法である。この方法は、ステップＳ１０と、ステップＳ２０と、ステップＳ３０と、ステップＳ４０と、を含む。ステップＳ１０で本方法は、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する。ステップＳ２０で本方法は、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングする。ステップＳ３０で本方法は、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出する。ステップＳ４０で本方法は、アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習する。

【0043】

本実施の形態によれば、コンピュータを用いて、データ収集のコストを低減し、推定結果からのバイアスを除去した、撮影条件に依存しないロバストな顔認識を実行することができる。

【0044】

［第３の実施の形態］
第３の実施の形態は、顔認識プログラムである。このプログラムは、顔の特性を表すラベル情報が付与されていない第１の顔画像群を、顔の特性を表すラベル情報が付与された第２の顔画像群に対応付けることにより、第１の顔画像群の顔の特性を認識するためのプログラムである。このプログラムは、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、をコンピュータに実行させる。

【0045】

本実施の形態によれば、データ収集のコストを低減し、推定結果からのバイアスを除去した、撮影条件に依存しないロバストな顔認識を実行するプログラムをコンピュータのソフトウェアとして実装することができる。

【0046】

［第４の実施の形態］
図５は、第４の実施の形態に係る顔画像変換装置２の機能ブロック図である。顔画像変換装置２は、潜在変数ベクトル変換部１０と、マッピング部２０と、アンカーポイント抽出部３０と、写像学習部４０と、顔画像変換部５０と、を備える。すなわち顔画像変換装置２は、図１の顔認識装置１の構成に追加して、顔画像変換部５０を備える。顔画像変換装置２のその他の構成は顔認識装置１の構成と共通であるので、追加した構成に焦点を当てて説明する。

【0047】

顔画像変換部５０は、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する。顔画像変換部５０は例えば、第１の顔画像群の人物（例えば、日本人）の顔画像を、第２の顔画像群の人物（例えば、西欧人）の顔画像に変換する。写像学習部４０までの処理により、第１の顔画像群の潜在変数ベクトルを第２の顔画像の潜在変数ベクトルに変換できるので、変換後の潜在変数ベクトルをＳｔｙｌｅＧＡＮのような画像生成モデルに入力すれば、第１の人物と同じ表情をした、第２の人物の顔画像を生成できる。第２の顔画像データベースで学習した既存の顔画像認識ＡＩに受け渡すことによって、顔画像認識を実行してもよい。

【0048】

本実施の形態によれば、相同な表情など顔の特性のまま異なる人物間で顔画像の変換ができるので、顔画像の編集やアバターの作成などを行うことができる。

【0049】

［第５の実施の形態］
図６は、第５の実施の形態に係る顔画像変換装置３の機能ブロック図である。顔画像変換装置３は、潜在変数ベクトル変換部１０と、マッピング部２０と、アンカーポイント抽出部３０と、写像学習部４０と、顔画像変換部５０と、表示部６０と、を備える。すなわち顔画像変換装置３は、図５の顔画像変換装置２の構成に追加して、表示部６０を備える。顔画像変換装置３のその他の構成は顔画像変換装置２の構成と共通であるので、追加した構成に焦点を当てて説明する。

【0050】

表示部６０は、顔画像変換部５０が変換した顔画像を外部に表示するディスプレイ等の表示装置である。表示部６０は、例えばＨＭＤ、液晶ディスプレイ、ビデオプロジェクタなどの任意の好適な表示デバイスであってよい。

【0051】

本実施の形態によれば、異なる人物間で顔画像を変換することにより作成した顔画像を外部に表示できるので、編集やアバターの作成などが容易に実現できることに加え、作成した顔画像をエンターテインメントなどの用途に応用することができる。変換した顔画像をロボットの頭部や、別の人物の顔に投影・プロジェクションして、遠隔地間でのコミュニケーションやエンターテイメントに利用してもよい。

【0052】

［第６の実施の形態］
図７は、第６の実施の形態に係る顔画像変換方法の処理手順を示すフローチャートである。この顔画像変換方法は、第１の顔画像群を、第２の顔画像群に対応付けることにより、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する方法である。この方法は、ステップＳ１０と、ステップＳ２０と、ステップＳ３０と、ステップＳ４０と、ステップＳ５０と、を含む。ステップＳ１０で本方法は、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換する。ステップＳ２０で本方法は、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングする。ステップＳ３０で本方法は、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出する。ステップＳ４０で本方法は、アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習する。ステップＳ５０で本方法は、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換する。

【0053】

本実施の形態によれば、コンピュータを用いて、表情など顔の特性を基に異なる人物間で顔画像を変換し、顔画像の編集やアバターの作成などを行うことができる。

【0054】

［第７の実施の形態］
第７の実施の形態は、顔画像変換プログラムである。このプログラムは、第１の顔画像群を、第２の顔画像群に対応付けることにより、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換するためのプログラムである。このプログラムは、第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップと、第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップと、第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップと、アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップと、第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換するステップと、をコンピュータに実行させる。

【0055】

本実施の形態によれば、相同な表情など顔の特性のまま異なる人物間で顔画像を変換し、顔画像の編集やアバターの作成などを行うプログラムをコンピュータのソフトウェアとして実装することができる。

【0056】

以上、本発明の実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

【符号の説明】

【0057】

１・・顔認識装置、
２・・顔画像変換装置、
３・・顔画像変換装置、
１０・・潜在変数ベクトル変換部、
２０・・マッピング部、
３０・・アンカーポイント抽出部、
４０・・写像学習部、
５０・・顔画像変換部、
６０・・表示部、
１０１・・第１の顔画像群、
１０２・・第２の顔画像群、
Ｓ１０・・第１の顔画像群および第２の顔画像群を、それぞれ第１の潜在変数ベクトルおよび第２の潜在変数ベクトルに変換するステップ、
Ｓ２０・・第１の潜在変数ベクトルおよび第２の潜在変数ベクトルを、それぞれ第１のデータセットおよび第２のデータセットにマッピングするステップ、
Ｓ３０・・第１のデータセットおよび第２のデータセットを次元圧縮して、第１のデータセットおよび第２のデータセットがそれぞれ密に分布している第１のクラスタ領域群および第２のクラスタ領域群を抽出し、第１のクラスタ領域群と第２のクラスタ領域群のうち、互いに距離が近いクラスタ内に含まれる画像をアンカーポイントとして抽出するステップ、
Ｓ４０・・アンカーポイントとして抽出された対応関係を利用して第１の潜在変数ベクトルから第２の潜在変数ベクトルへの写像を学習するステップ、
Ｓ５０・・第１の顔画像群の人物の顔画像を、第２の顔画像群の人物の顔画像に変換
するステップ。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版