特開2022-184032 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 新東工業株式会社の特許一覧

特開2022-184032表情認識装置、対話ロボット、表情認識システム、表情認識方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022184032

(43)【公開日】2022-12-13

(54)【発明の名称】表情認識装置、対話ロボット、表情認識システム、表情認識方法、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221206BHJP

B25J 13/00 20060101ALI20221206BHJP

【ＦＩ】

G06T7/00 660A

B25J13/00 Z

G06T7/00 350C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021091647

(22)【出願日】2021-05-31

(71)【出願人】

【識別番号】000191009

【氏名又は名称】新東工業株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】特許業務法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】神林竜也

(72)【発明者】

【氏名】三谷純司

【テーマコード（参考）】

3C707

5L096

【Ｆターム（参考）】

3C707AS35

3C707KT01

3C707KT04

3C707KT11

3C707LW12

3C707MT04

3C707WL05

5L096BA05

5L096CA02

5L096DA02

5L096HA09

5L096HA11

5L096KA04

(57)【要約】

【課題】認識対象者に応じてより精度よく表情を認識する。
【解決手段】顔画像を取得する画像取得処理（Ｓ１０４）と、複数の互いに異なる認識モデルであって、各認識モデルが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、人又は人の属性の識別結果に応じた認識モデルを用いて人の表情を認識した認識結果を出力する認識結果出力処理（Ｓ１０３、Ｓ１０５～Ｓ１１１）と、を実行する。
【選択図】図３

【特許請求の範囲】

【請求項1】

１又は複数のプロセッサを含む表情認識装置であって、
前記１又は複数のプロセッサは、
人の顔を被写体として含む顔画像を取得する画像取得処理と、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する認識結果出力処理と、
を実行する表情認識装置。

【請求項2】

前記１または複数のプロセッサは、
前記認識結果出力処理において、
前記人の属性として文化圏を識別し、
前記複数の認識モデルのうち、前記文化圏に属する人の顔画像を教師データとして機械学習により生成された認識モデルを用いる、
請求項１に記載の表情認識装置。

【請求項3】

前記１または複数のプロセッサは、
前記認識結果出力処理において、
前記人を識別して個人を特定し、
前記複数の認識モデルのうち、前記個人の顔画像を教師データとして機械学習により生成された認識モデルを用いる、
請求項１に記載の表情認識装置。

【請求項4】

前記１または複数のプロセッサは、
前記認識結果出力処理において、前記顔画像を参照して前記人又は前記人の属性を識別する、
請求項１から３の何れか１項に記載の表情認識装置。

【請求項5】

前記１または複数のプロセッサは、
前記人の発話を含む音声を取得する音声取得処理をさらに実行し、
前記認識結果出力処理において、前記音声を参照して前記人又は前記人の属性を識別する、
請求項１から３の何れか１項に記載の表情認識装置。

【請求項6】

請求項１から５の何れか１項に記載の表情認識装置を含む対話ロボットであって、前記１または複数のプロセッサの何れかを備え、
前記対話ロボットが備えるプロセッサは、
前記認識結果出力処理を少なくとも実行する、対話ロボット。

【請求項7】

人の顔を撮像して顔画像を生成するカメラと、
前記顔画像を参照して前記人の表情を認識する表情認識装置と、
前記表情認識装置による認識結果を出力する出力装置と、を含む表情認識システムであって、
前記表情認識装置は、
前記カメラから前記顔画像を取得する画像取得処理と、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を前記出力装置に出力する認識結果出力処理と、
を実行する、表情認識システム。

【請求項8】

請求項１から５の何れか１項に記載の表情認識装置を動作させるためのプログラムであって、前記１または複数のプロセッサに前記各処理を実行させるプログラム。

【請求項9】

１又は複数のプロセッサが実行する表情認識方法であって、
人の顔を被写体として含む顔画像を取得する画像取得ステップと、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する認識結果出力ステップと、
を含む表情認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、表情を認識する技術に関する。

【背景技術】

【0002】

表情を認識する技術が知られている。例えば、特許文献１には、顔画像から眉、目等の特徴部位画像を抽出し、特徴部位画像から眉の動き、目の開閉等の表情要素を抽出して定量化し、定量化した表情要素を参照して情緒を判別する技術が記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平06-076058号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ここで、表情の表し方は、普遍的ではない可能性がある。例えば、表情の表し方には、個人差又は個人の属性による違いがある可能性が考えられる。しかしながら、特許文献１に記載された技術は、表情の表し方が普遍的ではない可能性を考慮していないため、認識対象者によっては精度よく認識できない場合がある。

【0005】

本発明の一態様は、認識対象者に応じてより精度よく表情を認識する技術を実現することを目的とする。

【課題を解決するための手段】

【0006】

上記の課題を解決するために、本発明の一態様に係る表情認識装置は、１又は複数のプロセッサを含む。前記１又は複数のプロセッサは、画像取得処理と、認識結果出力処理とを実行する。また、本発明の一態様に係る表情認識方法は、１または複数のプロセッサが実行する方法である。当該表情認識方法は、画像取得ステップと、認識結果出力ステップとを含む。

【0007】

画像取得処理（画像取得ステップ）において、前記１又は複数のプロセッサは、人の顔を被写体として含む顔画像を取得する。認識結果出力処理（認識結果出力ステップ）において、前記１又は複数のプロセッサは、複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する。

【0008】

上記の課題を解決するために、本発明の一態様に係る表情認識システムは、人の顔を撮像して顔画像を生成するカメラと、前記顔画像を参照して前記人の表情を認識する表情認識装置と、前記表情認識装置による認識結果を出力する出力装置と、を含む。前記表情認識装置は、前記カメラから前記顔画像を取得する画像取得処理と、複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を前記出力装置に出力する認識結果出力処理と、を実行する。

【発明の効果】

【0009】

本発明の一態様によれば、認識対象者に応じてより精度よく表情を認識することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の実施形態１に係る表情認識装置の構成を示すブロック図である。

【図2】本発明の実施形態１における文化圏と認識モデルとの対応関係を示す情報の一例を説明する図である。

【図3】本発明の実施形態１に係る表情認識方法の流れを示すフロー図である。

【図4】本発明の実施形態１における選択フラグの一例を示す図である。

【図5】本発明の実施形態１における識別フラグの一例を示す図である。

【図6】本発明の実施形態１に係る識別方法の流れを示すフロー図である。

【図7】本発明の実施形態１における識別結果の一例を示す図である。

【図8】本発明の実施形態２における個人と認識モデルとの対応関係を示す情報の一例を説明する図である。

【図9】本発明の実施形態３に係る対話ロボット１の構成を示すブロック図である。

【図10】本発明の実施形態３における認知症レベルと認識モデルとの対応関係を示す情報の一例を説明する図である。

【図11】各実施形態の変形例に係る表情認識装置の構成を示すブロック図である。

【発明を実施するための形態】

【0011】

〔実施形態１〕
以下、本発明の実施形態１について、図面を参照して説明する。

【0012】

＜表情認識装置の構成＞
本発明の実施形態１に係る表情認識装置１０の構成について、図１を参照して説明する。図１は、表情認識装置１０の構成を示すブロック図である。なお、表情認識装置１０は、特許請求の範囲に記載した「表情認識装置」を実現する形態の一例である。図１に示すように、表情認識装置１０は、プロセッサ１１と、一次メモリ１２と、二次メモリ１３と、入出力インタフェース１４とを含む。プロセッサ１１、一次メモリ１２、二次メモリ１３、及び入出力インタフェース１４は、バスを介して相互に接続されている。また、表情認識装置１０は、入出力インタフェース１４を介して、センサ５０、カメラ６０、マイク７０、及び出力装置８０に接続される。

【0013】

二次メモリ１３は、プログラムＰ１と、その他の情報とを格納している。プロセッサ１１は、プログラムＰ１に含まれる命令に従って、後述する表情認識方法Ｓ１、及び識別方法Ｓ２に含まれる各処理を実行する。二次メモリ１３に格納されるその他の情報の詳細については後述する。プロセッサ１１として利用可能なデバイスとしては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、又はこれらの組み合わせを挙げることができるが、これらに限られない。

【0014】

また、一次メモリ１２として利用可能なデバイスとしては、例えば、半導体ＲＡＭ（Random Access Memory）を挙げることができるが、これに限られない。また、二次メモリ１３として利用可能なデバイスとしては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせを挙げることができるが、これらに限られない。

【0015】

また、入出力インタフェース１４としては、例えば、ＵＳＢ（Universal Serial Bus）などのインタフェースが挙げられるが、これに限られない。

【0016】

センサ５０は、人を検知したことを示す検知信号を表情認識装置１０に出力する。例えば、センサ５０は、赤外線センサ、又は超音波センサを含む。

【0017】

カメラ６０は、周囲を撮影して撮影画像を生成し、生成した撮影画像を表情認識装置１０に出力する。カメラ６０は、撮影画像を静止画像として出力するものであってもよいし、所定のフレームレートで生成した撮影画像を動画像として順次出力するものであってもよい。

【0018】

マイク７０は、周囲の音声を検出し、検出した音声を表情認識装置１０に出力する。マイク７０から入力された音声は二次メモリ１３に格納される。

【0019】

出力装置８０は、表情認識装置１０が生成した情報を出力する。出力装置８０は、例えば、ディスプレイ、又はスピーカを含む。

【0020】

二次メモリ１３に格納される認識モデルＭ１－０、Ｍ１－１、Ｍ１－２、…について説明する。認識モデルＭ１－０、Ｍ１－１、Ｍ１－２、…は、複数の互いに異なる認識モデルである。以降、これらの認識モデルを特に区別して説明する必要が無い場合には、それぞれを単に認識モデルＭ１とも記載する。

【0021】

認識モデルＭ１は、顔画像を入力として表情の認識結果を出力するモデルである。ここで、認識モデルＭ１の生成には、機械学習アルゴリズムが用いられる。機械学習アルゴリズムの具体例としては、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）等のニューラルネットワーク、サポートベクタマシン、ランダムフォレスト等が挙げられる。ただし、認識モデルＭ１の生成に用いる機械学習アルゴリズムは、これらに限られない。また、認識モデルＭ１の生成に用いる機械学習アルゴリズムは、教師あり学習であってもよいし、教師なし学習であってもよい。また、各認識モデルＭ１を生成する機械学習アルゴリズムは、少なくとも他の１つの認識モデルＭ１を生成する機械学習アルゴリズムと同一であってもよいし、異なっていてもよい。また、複数の認識モデルＭ１の一部又は全部は、表情認識装置１０が生成したものであってもよいし、他の装置が生成したものであってもよい。

【0022】

例えば、認識モデルＭ１は、感情の分類を示す情報を出力する。感情の分類は、例えば、基本６感情（怒り、嫌悪、恐怖、喜び、悲しみ、驚き）であってもよいが、これらに限られない。

【0023】

認識モデルＭ１－１、Ｍ１－２、…は、それぞれ、特定の文化圏に属する人の顔画像を教師データとして機械学習により生成される。ここで、文化圏は、特許請求の範囲に記載した「人の属性」の一例である。このような教師データは、当該文化圏に属する少なくとも１人の人の複数の顔画像を含んでいればよいが、当該文化圏に属する複数の人各々の顔画像を含むことが望ましい。以降、認識モデルＭ１－１、Ｍ１－２、…を特に区別して説明する必要が無い場合には、それぞれを、「文化圏に特化した認識モデルＭ１」とも記載する。文化圏に特化した複数の認識モデルＭ１のそれぞれは、互いに異なる文化圏に特化している。

【0024】

認識モデルＭ１－０は、文化圏に特化していない汎用のモデルである。例えば、認識モデルＭ１－０は、様々な文化圏に属する複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとして用いられる複数の顔画像の被写体である複数の人が属する文化圏は、少なくとも２種類あればよいが、より多種類であることが望ましい。

【0025】

二次メモリ１３に格納されるテーブルＴ１について説明する。テーブルＴ１は、文化圏と認識モデルＭ１との対応関係を示す情報を格納する。テーブルＴ１の一例について図２を参照して説明する。図２は、文化圏と認識モデルＭ１との対応関係を示す情報の一例を説明する図である。図２の例では、文化圏「東アジア圏」には、Ｍ１－１をＩＤとする認識モデルＭ１－１が関連付けられ、文化圏「ヨーロッパ圏」には、Ｍ１－２をＩＤとする認識モデルＭ１－２が関連付けられている。

【0026】

なお、文化圏は、このような複数の国にまたがるような単位に限らず、国、州、地方、都道府県、県、市町村、等の単位であってもよい。また、複数の文化圏のうち少なくとも何れかの文化圏は、他の少なくとも何れかの文化圏と単位の粒度が同一でなくてもよい。例えば、東アジア圏、ヨーロッパ圏、東日本、及び西日本のそれぞれに認識モデルＩＤが関連付けられていてもよい。

【0027】

＜表情認識方法Ｓ１の流れ＞
以上のように構成された表情認識装置１０が実行する表情認識方法Ｓ１の流れについて、図３を参照して説明する。図３は、本実施形態に係る表情認識方法Ｓ１の流れを示すフロー図である。図３に示すように、表情認識方法Ｓ１は、ステップＳ１０１～Ｓ１１２を含む。

【0028】

ステップＳ１０１において、プロセッサ１１は、センサ５０から入力される検知信号を参照して人を検出する。

【0029】

ステップＳ１０２において、プロセッサ１１は、ステップＳ１０１で検出した人に対する表情認識に係る処理を開始するため、選択フラグを初期化する。

【0030】

選択フラグについて、図４を参照して説明する。図４は、表情認識方法において用いられる選択フラグの一例を示す図である。選択フラグは、複数の認識モデルＭ１のうち何れかを「選択済み」であるか「未選択」であるかを示す情報であり、初期状態は「未選択」である。図４の例では、選択フラグは、「選択済み」を示している。このため、プロセッサ１１は、当該選択フラグを「未選択」に設定して初期化する。

【0031】

ステップＳ１０３（識別ステップ）において、プロセッサ１１は、ステップＳ１０１で検出した人の文化圏を識別する識別処理の実行を開始する。識別処理の詳細については後述する。なお、プロセッサ１１は、開始した識別処理が終了していなくても、次のステップＳ１０４の処理を実行してよい。換言すると、プロセッサ１１は、識別処理が終了するまでの間、識別処理と、ステップＳ１０４以降の処理とを並行して実行する。

【0032】

ステップＳ１０４（画像取得ステップ）において、プロセッサ１１は、カメラ６０から入力される撮影画像を参照して、顔画像を取得する画像取得処理を実行する。具体的には、プロセッサ１１は、撮影画像から人の顔の領域を検出し、当該領域を顔画像として抽出する。顔の領域の検出には、公知の技術を用いることができる。例えば、プロセッサ１１は、撮影画像を分割して各領域から顔を示す特徴量を抽出し、抽出した特徴量に基づき各領域が顔であるか否かを判別することにより、顔の領域を検出してもよい。ただし、撮影画像を参照して顔画像を取得する技術は、これに限られない。

【0033】

ステップＳ１０５において、プロセッサ１１は、選択フラグを参照して、複数の認識モデルＭ１の何れかを選択済みであるか否かを判断する。

【0034】

ステップＳ１０５でＮｏと判断した場合、ステップＳ１０６において、プロセッサ１１は、識別フラグを参照して、ステップＳ１０１で検出した人の文化圏を識別済みであるかを判断する。

【0035】

識別フラグについて、図５を参照して説明する。図５は、表情認識方法において用いられる識別フラグの一例を示す図である。識別フラグは、文化圏が「識別済み」であるか「未識別」であるかを示す情報である。図５の例では、識別フラグは、識別済みであることを示している。識別フラグが「識別済み」を示す場合、ステップＳ１０３で開始した識別処理は既に終了している。一方、識別フラグが「未識別」を示す場合、ステップＳ１０３で開始した識別処理は未だ終了していない。

【0036】

ステップＳ１０６でＹｅｓと判断した場合、ステップＳ１０７において、プロセッサ１１は、テーブルＴ１を参照し、識別結果が示す文化圏に特化した認識モデルＭ１が有るか否かを判断する。

【0037】

ステップＳ１０７でＹｅｓと判断した場合、ステップＳ１０８（選択ステップ）において、プロセッサ１１は、テーブルＴ１を参照し、複数の認識モデルＭ１のうち、識別結果に応じた認識モデルＭ１を選択する選択処理を実行する。すなわち、プロセッサ１１は、識別結果が示す文化圏に特化した認識モデルＭ１を選択する。また、プロセッサ１１は、選択フラグを「選択済み」に設定する。

【0038】

ステップＳ１０６でＮｏ、又はＳ１０７でＮｏと判断した場合、ステップＳ１０９において、プロセッサ１１は、汎用の認識モデルＭ１－０を選択する。また、プロセッサ１１は、選択フラグを「選択済み」に設定する。ここで、ステップＳ１０６でＮｏと判断されるのは、人を検知した後、当該人の文化圏を識別する識別処理が終了していない場合である。ステップＳ１０７でＮｏと判断されるのは、人を検知した後、識別処理は終了したものの、識別結果が示す文化圏に特化した認識モデルＭ１が用意されていない場合である。

【0039】

ステップＳ１１０（認識ステップ）において、プロセッサ１１は、選択した認識モデルＭ１を用いて、ステップＳ１０１で検知した人の表情を認識する認識処理を実行する。具体的には、ステップＳ１０４で取得した顔画像を、選択した認識モデルＭ１に入力し、当該認識モデルＭ１から出力される表情の認識結果を取得する。

【0040】

ステップＳ１１１において、プロセッサ１１は、ステップＳ１１０で得られた表情の認識結果を出力装置８０に出力する。例えば、プロセッサ１１は、出力装置８０に含まれるディスプレイに、表情の認識結果を表示する。

【0041】

ステップＳ１１２において、プロセッサ１１は、センサ５０からの検知信号を参照して、ステップＳ１０１で検出した人を継続して検出中であるか否かを判断する。例えば、センサ５０からの検知信号を継続して受信している場合、プロセッサ１１は、継続して検出中であると判断する。継続して受信しているとは、例えば、検知信号を受信できない期間が所定の長さ以内であることであってもよい。ただし、継続して検出中であるか否かの判断処理は、上述したものに限られない。

【0042】

ステップＳ１１２でＹｅｓと判断した場合、プロセッサ１１は、ステップＳ１０４からの処理を繰り返す。ステップＳ１０４では、ステップＳ１０１で検出した人に関し、前回のステップＳ１０４で取得した顔画像とは異なる顔画像が得られる。また、ステップＳ１０５では、認識モデルＭ１を選択済みであると判断される。そして、プロセッサ１１は、選択済みの認識モデルＭ１を用いて、ステップＳ１１０～Ｓ１１１の処理を実行する。

【0043】

ステップＳ１１２でＮｏと判断した場合、プロセッサ１１は、表情認識方法Ｓ１を終了する。

【0044】

これにより、表情認識装置１０は、検出した人の文化圏に特化した認識モデルＭ１を用いて、当該人を検出している間、当該人の表情の認識結果をリアルタイムに認識して出力する。

【0045】

＜識別方法Ｓ２の流れ＞
次に、ステップＳ１０３で開始する識別処理を実行するための識別方法Ｓ２の流れについて、図６を参照して説明する。図６は、本実施形態に係る表情認識方法Ｓ１に含まれる識別方法Ｓ２の流れを示すフロー図である。図６に示すように、識別方法Ｓ２は、ステップＳ２０１～Ｓ２０６を含む。

【0046】

ステップＳ２０１において、プロセッサ１１は、識別処理を開始するため識別フラグを初期化する。識別フラグについては、図５を参照して説明した通りである。プロセッサ１１は、識別フラグが「識別済み」を示す場合、当該識別フラグを「未識別」に設定して初期化する。

【0047】

ステップＳ２０２（音声取得ステップ）において、プロセッサ１１は、マイク７０から入力される音声を取得する。取得する音声は、ステップＳ１０１で検出した人の発話を含む音声である。例えば、プロセッサ１１は、マイク７０から入力されて二次メモリ１３に格納されている音声のうち、現在までの所定の長さの音声を取得する。

【0048】

ステップＳ２０３（識別ステップ）において、プロセッサ１１は、取得した音声を参照して、ステップＳ１０１で検出した人の属性（ここでは、文化圏）を識別する。音声を参照して文化圏を識別する手法の具体例１～４について説明する。

【0049】

具体例１では、プロセッサ１１は、取得した音声を解析してイントネーションを判別し、判別したイントネーションに応じた文化圏を識別結果とする。例えば、プロセッサ１１は、音声からイントネーションを示す特徴量を抽出し、抽出した特徴量と、データベースに登録された文化圏に固有のイントネーションの特徴量とを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ１３に記憶されていてもよいし、外部の装置に記憶されていてもよい。

【0050】

具体例２では、プロセッサ１１は、取得した音声に含まれるキーワードを抽出し、抽出したキーワードに応じた文化圏を識別結果とする。例えば、プロセッサ１１は、抽出したキーワードと、データベースに登録された文化圏に固有のキーワードとを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ１３に記憶されていてもよいし、外部の装置に記憶されていてもよい。

【0051】

具体例３では、プロセッサ１１は、取得した音声に含まれる発話の言語を判別し、言語に応じた文化圏を識別結果とする。例えば、プロセッサ１１は、音声から言語を示す特徴量を抽出し、抽出した特徴量と、データベースに登録された文化圏に固有の言語の特徴量とを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ１３に記憶されていてもよいし、外部の装置に記憶されていてもよい。

【0052】

具体例４では、プロセッサ１１は、音声を入力として文化圏を出力するよう機械学習された識別モデルを用いて、文化圏を識別する。

【0053】

また、プロセッサ１１は、具体例１～４の一部又は全部を組み合わせて文化圏を認識してもよい。

【0054】

ステップＳ２０４において、プロセッサ１１は、ステップＳ２０３において識別に成功したか否かを判断する。識別に成功するとは、識別結果として文化圏が特定できたことである。

【0055】

ステップＳ２０４でＮｏと判断した場合、プロセッサ１１は、ステップＳ２０２からの処理を繰り返す。

【0056】

ステップＳ２０４でＹｅｓと判断した場合、ステップＳ２０５において、プロセッサ１１は、識別フラグを「識別済み」に設定する。

【0057】

ステップＳ２０６において、プロセッサ１１は、識別結果を設定する。識別結果は、一次メモリ１２又は二次メモリ１３に記憶される。識別結果について、図７を参照して説明する。図７は、識別結果の一例を示す図である。図７に示すように、識別結果は、ステップＳ２０３で識別された文化圏を示す。この例では、識別結果は「東アジア圏」である。

【0058】

以上で、プロセッサ１１は、識別方法Ｓ２を終了する。

【0059】

＜本実施形態の効果＞
このように、本実施形態は、人又は人の属性に応じた認識モデルを用いて当該人の表情を認識する。これにより、本実施形態は、認識対象者に応じてより精度よく表情を認識することができる。

【0060】

また、本実施形態は、検知した人の文化圏を識別し、識別した文化圏に特化した認識モデルを用いて、検知した人の顔画像から当該人の表情を認識する。これにより、本実施形態は、文化圏によって表情の表し方が違う可能性を考慮し、認識対象者の文化圏に応じてより精度よく人の表情を認識することができる。

【0061】

また、本実施形態は、顔画像を参照して人又は人の属性を識別する。これにより本実施形態は、適切な認識モデルを選択するための識別処理を、顔画像を参照することにより実現することができる。

【0062】

〔実施形態２〕
本発明の実施形態２について、以下に説明する。実施形態２は、実施形態１を変形した形態である。実施形態１では、人の文化圏を識別し、識別した文化圏に特化した識別モデルを用いて当該人の表情を認識していた。本実施形態はこれを変形し、人を識別して個人を特定し、特定した個人に特化した識別モデルを用いて当該人の表情を認識する。

【0063】

以下では、実施形態１と異なる点について説明し、実施形態１と同様の点については説明を繰り返さない。

【0064】

本実施形態では、認識モデルＭ１－１、Ｍ１－２、…は、それぞれ、特定の人の顔画像を教師データとして機械学習により生成される。このような教師データは、当該特定の人の複数の顔画像を含んでいる。以降、認識モデルＭ１－１、Ｍ１－２、…を特に区別して説明する必要が無い場合には、それぞれを、「個人に特化した認識モデルＭ１」とも記載する。個人に特化した複数の認識モデルＭ１のそれぞれは、互いに異なる人に特化している。

【0065】

また、本実施形態では、認識モデルＭ１－０は、個人に特化していない汎用のモデルである。例えば、認識モデルＭ１－０は、複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとしては、少なくとも２人の顔画像が用いられるが、より多くの人の顔画像が用いられることが望ましい。

【0066】

また、本実施形態では、テーブルＴ１は、個人と認識モデルＭ１との対応関係を示す情報を格納する。テーブルＴ１の一例について図８を参照して説明する。図８は、個人と認識モデルとの対応関係を示す情報の一例を説明する図である。図８の例では、ユーザＩＤ「００１」には、Ｍ１－１をＩＤとする認識モデルＭ１－１が関連付けられ、ユーザＩＤ「００２」には、Ｍ１－２をＩＤとする認識モデルＭ１－２が関連付けられている。

【0067】

＜表情認識方法Ｓ１の流れ＞
本実施形態に係る表情認識方法Ｓ１は、図３を用いて説明した表情認識方法Ｓ１とほぼ同様であるが、ステップＳ１０３、Ｓ１０６～Ｓ１０８の処理が若干異なる。

【0068】

ステップＳ１０３において、プロセッサ１１は、ステップＳ１０１で検出した人を識別してユーザＩＤを特定する識別処理の実行を開始する。

【0069】

ステップＳ１０６において、プロセッサ１１は、識別フラグを参照して、ステップＳ１０１で検出した人のユーザＩＤを特定済みであるかを判断する。

【0070】

ステップＳ１０７において、プロセッサ１１は、テーブルＴ１を参照し、特定したユーザＩＤが示す個人に特化した認識モデルＭ１が有るか否かを判断する。

【0071】

ステップＳ１０８において、プロセッサ１１は、テーブルＴ１を参照し、特定したユーザＩＤが示す個人に特化した認識モデルＭ１を選択する選択処理を実行する。

【0072】

これにより、表情認識装置１０は、検出した人に特化した認識モデルＭ１を用いて、当該人を検出している間、当該人の表情の認識結果をリアルタイムに認識して出力する。

【0073】

＜識別方法Ｓ２の流れ＞
本実施形態に係る識別方法Ｓ２は、図６を用いて説明した識別方法Ｓ２とほぼ同様である。ただし、ステップＳ２０２の音声取得処理は省略される。また、Ｓ２０３の処理が若干異なる。

【0074】

ステップＳ２０３において、プロセッサ１１は、ステップＳ１０４で取得した顔画像を参照して、ステップＳ１０１で検出した人を識別してユーザＩＤを特定する。顔画像を参照して人を識別する手法の具体例について説明する。

【0075】

例えば、プロセッサ１１は、ステップＳ１０４で取得した顔画像と、ユーザＩＤに関連付けてデータベースに登録された個人の顔画像とを照合することにより、ユーザＩＤを特定してもよい。

【0076】

＜本実施形態の効果＞
本実施形態は、検知した人を識別してユーザＩＤを特定し、特定したユーザＩＤが示す個人に応じた認識モデルを用いて、検知した人の顔画像から当該人の表情を認識する。これにより、本実施形態は、個人によって表情の表し方が違う可能性を考慮し、当該個人に応じてより精度よく人の表情を認識することができる。

【0077】

〔実施形態３〕
本発明の実施形態３について、以下に説明する。実施形態３は、実施形態１を変形した表情認識装置１０を、被介護者と対話する対話ロボット１に搭載した形態である。ここで、被介護者が認知症を有している場合、認知症のレベルに応じて表情の表し方が異なる可能性が考えられる。そこで、本実施形態に係る対話ロボット１は、対話相手である被介護者の認知症レベルを識別し、識別した認知症レベルに特化した認識モデルを用いて、当該被介護者の表情を認識する。なお、認知症レベルは、特許請求の範囲に記載した「人の属性」の一例である。

【0078】

以下では、実施形態１と異なる点について説明し、実施形態１と同様の点については説明を繰り返さない。

【0079】

＜対話ロボット１の構成＞
対話ロボット１の構成について、図９を参照して説明する。図９は、対話ロボット１の構成を示すブロック図である。図９に示すように、対話ロボット１は、表情認識装置１０を含んでいる。対話ロボット１に搭載された表情認識装置１０のプロセッサ１１は、対話相手である被介護者の表情を認識し、認識結果に応じた情報を出力する出力処理を実行する。

【0080】

対話ロボット１に搭載される表情認識装置１０は、実施形態１とほぼ同様に構成されるが、以下の点が異なる。

【0081】

本実施形態では、認識モデルＭ１－１、Ｍ１－２、…は、それぞれ、特定のレベルの認知症であると診断された人の顔画像を教師データとして機械学習により生成される。このような教師データは、当該レベルの認知症であると診断された少なくとも１人の複数の顔画像を含んでいればよいが、当該レベルの認知症であると診断された複数の人各々の顔画像を含むことが望ましい。以降、認識モデルＭ１－１、Ｍ１－２、…を特に区別して説明する必要が無い場合には、それぞれを、「認知症レベルに特化した認識モデルＭ１」とも記載する。認知症レベルに特化した複数の認識モデルＭ１のそれぞれは、互いに異なる認知症レベルに特化している。

【0082】

また、本実施形態では、認識モデルＭ１－０は、認知症レベルに特化していない汎用のモデルである。例えば、認識モデルＭ１－０は、複数のレベルの認知症にそれぞれ認定された複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとして用いられる複数の顔画像の被写体である複数の人が診断された認知症のレベルは、少なくとも２種類あればよいが、より多種類であることが望ましい。

【0083】

また、本実施形態では、テーブルＴ１は、認知症レベルと認識モデルＭ１との対応関係を示す情報を格納する。テーブルＴ１の一例について図１０を参照して説明する。図１０は、認知症レベルと認識モデルＭ１との対応関係を示す情報の一例を説明する図である。図１０の例では、認知症レベル「Ｉ」には、Ｍ１－１をＩＤとする認識モデルＭ１－１が関連付けられ、認知症レベル「ＩＩ」には、Ｍ１－２をＩＤとする認識モデルＭ１－２が関連付けられている。

【0084】

また、本実施形態では、二次メモリ１３は、テーブルＴ１に加えて、ユーザ情報テーブルを記憶している。ユーザ情報テーブルは、被介護者のユーザＩＤと、その認知症レベルとを関連付けて格納する。

【0085】

＜表情認識方法Ｓ１、識別方法Ｓ２の流れ＞
本実施形態に係る表情認識方法Ｓ１、及び識別方法Ｓ２は、実施形態１において図３及び図６を参照したこれらの方法の説明において、「文化圏」を「認知症レベル」と読み替えることにより同様に説明される。ただし、ステップＳ２０２の処理が省略される点と、Ｓ２０３、Ｓ１１１の動作の詳細とが異なる。

【0086】

ステップＳ２０３において、プロセッサ１１は、ステップＳ１０４で取得した顔画像を参照して、ステップＳ１０１で検出した人を識別してユーザＩＤを特定する。顔画像を参照して人を識別する手法の具体例については、実施形態２で説明した通りである。また、プロセッサ１１は、ユーザ情報テーブルを参照し、特定したユーザＩＤに関連付けられた認知症レベルを識別結果とする。

【0087】

ステップＳ１１１において、プロセッサ１１は、ステップＳ１１０で得られた表情の認識結果に応じた情報を、出力装置８０に出力する。例えば、プロセッサ１１は、出力装置８０に含まれるスピーカに、表情の認識結果に応じた発話音声を出力する。

【0088】

＜本実施形態の効果＞
本実施形態は、対話ロボットの対話相手に応じてその表情をより精度よく認識できるので、対話相手の表情により適した情報を対話相手に提示することができる。

【0089】

本実施形態では、図９に示すように、対話ロボット１は、被介護者の発話を参照して当該被介護者の認知症レベルを識別する。また、対話ロボット１は、識別した認知症レベルに特化した認識モデルＭ１に被介護者の顔画像を入力することにより、被介護者の表情を認識する。また、対話ロボット１は、ステップＳ１１１において、表情の認識結果に応じた発話音声を出力する。

【0090】

その結果、本実施形態に係る対話ロボット１は、被介護者との対話において、被介護者の認知症レベルに応じてより適切な応答を発話することができる。

【0091】

〔変形例１〕
上述した各実施形態に係る表情認識装置１０は、複数のプロセッサを備える表情認識システム２に変形可能である。表情認識システム２は、特許請求の範囲に記載した「表情認識装置」を複数のプロセッサを備える装置として実現する構成の一例である。表情認識システム２について、図１１を参照して説明する。図１１は、表情認識システム２の構成を示すブロック図である。図１１に示すように、表情認識システム２は、表情認識装置１０Ａと、サーバ２０とを含む。

【0092】

＜サーバ２０、表情認識装置１０Ａの構成＞
図１１に示すように、サーバ２０は、プロセッサ２１と、一次メモリ２２と、二次メモリ２３と、通信インタフェース２５とを含む。プロセッサ２１、一次メモリ２２、二次メモリ２３、及び通信インタフェース２５は、バスを介して相互に接続されている。また、サーバ２０は、通信インタフェース２５を介して、表情認識装置１０Ａと通信可能に接続される。

【0093】

二次メモリ２３は、プログラムＰ２と、テーブルＴ１と、認識モデルＭ１－０、Ｍ１－１、Ｍ１－２、…とを格納している。プロセッサ２１は、プログラムＰ２に含まれる命令に従って、表情認識方法Ｓ１、及び識別方法Ｓ２に含まれる各処理の少なくとも一部を実行する。二次メモリ２３に格納されるその他の情報の詳細については、実施形態１で説明した通りである。プロセッサ２１、一次メモリ２２、及び二次メモリ２３の詳細については、実施形態１で説明したプロセッサ１１、一次メモリ１２、及び二次メモリ１３と同様である。

【0094】

通信インタフェース２５には、ネットワークを介して少なくとも表情認識装置１０Ａが接続される。通信インタフェース２５としては、例えば、イーサネット（登録商標）、Ｗｉ－Ｆｉ（登録商標）などのインタフェースが挙げられるが、これらに限られない。利用可能なネットワークとしては、ＰＡＮ（Personal Area Network）、ＬＡＮ（Local Area Network）、ＣＡＮ（Campus Area Network）、ＭＡＮ（Metropolitan Area Network）、ＷＡＮ（Wide Area Network）、ＧＡＮ（Global Area Network）、又は、これらのネットワークを含むインターネットワークが挙げられるが、これらに限られない。

【0095】

表情認識装置１０Ａは、実施形態１に係る表情認識装置１０と同様の構成に加えて、通信インタフェース１５を含む。表情認識装置１０Ａは、通信インタフェース１５を介して少なくともサーバ２０に接続される。通信インタフェース１５の詳細については、通信インタフェース２５と同様である。また、二次メモリ１３は、「プログラムＰ１、テーブルＴ１、認識モデルＭ１－０、Ｍ１－１、Ｍ１－２、…」に替えてプログラムＰ１Ａを格納している。プロセッサ１１は、プログラムＰ１Ａに含まれる命令に従って、表情認識方法Ｓ１、及び識別方法Ｓ２に含まれる各処理の少なくとも一部を実行する。また、プロセッサ１１は、サーバ２０に格納された「テーブルＴ１、認識モデルＭ１－０、Ｍ１－１、Ｍ１－２、…」を参照する必要がある場合には、サーバ２０と通信することによりこれらを参照する。

【0096】

＜表情認識方法Ｓ１及び識別方法Ｓ２の流れ＞
プロセッサ１１及びプロセッサ２１は、必要となる情報を互いに送受信することにより、表情認識方法Ｓ１及び識別方法Ｓ２を実行する。例えば、表情認識方法Ｓ１のうち、ステップＳ１１０（表情を認識する認識処理）をサーバ２０のプロセッサ２１が実行し、他のステップを表情認識装置１０Ａのプロセッサ１１が実行してもよい。また、例えば、識別方法Ｓ２のうち、ステップＳ２０３（人又は人の属性を識別する識別処理）をサーバ２０のプロセッサ２１が実行し、その他のステップを表情認識装置１０Ａのプロセッサ１１が実行してもよい。ただし、サーバ２０及び表情認識装置１０Ａがそれぞれ実行するステップは、上述した例に限られない。表情認識方法Ｓ１及び識別方法Ｓ２の詳細については、各実施形態で説明した通りである。

【0097】

＜本変形例の効果＞
本変形例は、サーバ２０に格納された、個人又はその属性に特化した認識モデルＭ１を参照することにより、人の表情をより精度よく認識することができる。このような形態により、例えば、表情認識装置１０Ａと同様に構成される他の情報処理装置と、個人又はその属性に特化した認識モデルＭ１を共有することができる。一例として、実施形態３をこのように変形した場合、複数の介護施設のそれぞれに配置された対話ロボット１が、サーバ２０に含まれる認識モデルＭ１を共有して、被介護者の認知症レベルに適した応答を発話することができる。

【0098】

〔変形例２〕
上述した各実施形態において、プロセッサ１１は、センサ５０から入力される検知信号を参照して人を検知する例について説明した。人を検知する処理は、以下のように変形できる。例えば、プロセッサ１１は、カメラ６０から入力される撮影画像を参照して人を検知してもよい。一例として、プロセッサ１１は、カメラ６０から入力される撮影画像に人を示す領域が含まれることを検出した場合に、人を検知したと判断する。また、例えば、プロセッサ１１は、マイク７０から入力される音声を参照して人を検知してもよい。一例として、プロセッサ１１は、マイク７０から入力される音声に人の発話が含まれることを検出した場合に、人を検知したと判断する。

【0099】

〔変形例３〕
また、上述した実施形態１において、プロセッサ１１は、マイク７０から入力される音声を参照して文化圏を識別する例について説明した。文化圏を識別する識別処理は、以下のように変形できる。

【0100】

プロセッサ１１は、顔画像を参照して人の属性（例えば、文化圏）を識別してもよい。例えば、プロセッサ１１は、顔画像から抽出した顔の特徴量と、データベースに登録された人種の顔の特徴量とを照合することにより人種を推定し、推定した人種に対応する文化圏を識別結果としてもよい。また、プロセッサ１１は、顔画像を入力として文化圏を出力するよう機械学習された識別モデルを用いて文化圏を識別してもよい。

【0101】

また、プロセッサ１１は、表情認識装置（１０、１０Ａ）の設置場所を参照して文化圏を識別してもよい。例えば、プロセッサ１１は、地理的なエリアと文化圏とを関連付けた情報を記憶しておき、設置場所を含むエリアに関連付けられた文化圏を識別結果としてもよい。

【0102】

また、プロセッサ１１は、ユーザ入力により文化圏を識別してもよい。例えば、ユーザが、マイク７０に対して文化圏を指定する音声（例えば、「東アジア圏」）を入力するようにしてもよい。この場合、プロセッサ１１は、入力された音声に対する音声認識処理を実行して文化圏を示す情報（この例では「東アジア圏」）を取得し、これを識別結果とする。また、表情認識装置（１０、１０Ａ）が、複数の文化圏それぞれに対応する物理ボタンを含み、ユーザが何れかの操作ボタンを操作して文化圏を入力するようにしてもよい。この場合、プロセッサ１１は、操作を受け付けた物理ボタンに対応する文化圏を識別結果とする。

【0103】

〔変形例４〕
また、上述した実施形態２において、プロセッサ１１は、顔画像を参照して個人を識別する例について説明した。個人を識別する識別処理は、以下のように変形できる。

【0104】

例えば、プロセッサ１１は、マイク７０から入力される音声を参照して個人を識別してもよい。一例として、プロセッサ１１は、音声を参照して個人を識別してもよい。具体的には、プロセッサ１１は、取得した音声から特徴量を抽出し、抽出した特徴量と、ユーザＩＤに関連付けてデータベースに登録された個人の音声の特徴量とを照合することにより、ユーザＩＤを特定してもよい。また、プロセッサ１１は、音声を入力としてユーザＩＤを出力するよう機械学習された識別モデルを用いて個人を識別してもよい。

【0105】

また、プロセッサ１１は、ユーザ入力により個人を識別してもよい。例えば、ユーザがマイク７０に対して個人を識別する情報（例えば、氏名等）を入力するようにしてもよい。この場合、プロセッサ１１は、入力された音声に対する音声認識処理を実行して個人を識別する情報（例えば、氏名）を取得し、取得した情報に関連付けられたユーザＩＤを特定してもよい。

【0106】

本変形例は、適切な認識モデルを選択するための識別処理を、音声を参照することにより実現することができる。

【0107】

〔変形例５〕
また、上述した各実施形態では、個人又は属性に特化した複数の認識モデルＭ１を含む例について説明した。ただし、各実施形態において、個人又は属性に特化した認識モデルＭ１の数は１つであってもよい。この場合、プロセッサ１１は、選択処理において、識別結果に特化した認識モデルＭ１が無い場合、汎用の認識モデルＭ１－０を選択すればよい。

【0108】

〔変形例６〕
また、上述した実施形態１、３では、人の属性として文化圏、認知症のレベルを適用する例について説明した。各実施形態は、これらに替えて他の属性を適用するよう変形できる。例えば、人の属性の他の具体例としては、性別、介護度、及び年齢層等が挙げられるが、これらに限られない。

【0109】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【符号の説明】

【0110】

１対話ロボット
２表情認識システム
１０、１０Ａ表情認識装置
１１、２１プロセッサ
１２、２２一次メモリ
１３、２３二次メモリ
１４入出力インタフェース
１５、２５通信インタフェース
２０サーバ
５０センサ
６０カメラ
７０マイク
８０出力装置

【図1】