(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022184032
(43)【公開日】2022-12-13
(54)【発明の名称】表情認識装置、対話ロボット、表情認識システム、表情認識方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221206BHJP
B25J 13/00 20060101ALI20221206BHJP
【FI】
G06T7/00 660A
B25J13/00 Z
G06T7/00 350C
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021091647
(22)【出願日】2021-05-31
(71)【出願人】
【識別番号】000191009
【氏名又は名称】新東工業株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】神林 竜也
(72)【発明者】
【氏名】三谷 純司
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707AS35
3C707KT01
3C707KT04
3C707KT11
3C707LW12
3C707MT04
3C707WL05
5L096BA05
5L096CA02
5L096DA02
5L096HA09
5L096HA11
5L096KA04
(57)【要約】
【課題】認識対象者に応じてより精度よく表情を認識する。
【解決手段】顔画像を取得する画像取得処理(S104)と、複数の互いに異なる認識モデルであって、各認識モデルが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、人又は人の属性の識別結果に応じた認識モデルを用いて人の表情を認識した認識結果を出力する認識結果出力処理(S103、S105~S111)と、を実行する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
1又は複数のプロセッサを含む表情認識装置であって、
前記1又は複数のプロセッサは、
人の顔を被写体として含む顔画像を取得する画像取得処理と、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する認識結果出力処理と、
を実行する表情認識装置。
【請求項2】
前記1または複数のプロセッサは、
前記認識結果出力処理において、
前記人の属性として文化圏を識別し、
前記複数の認識モデルのうち、前記文化圏に属する人の顔画像を教師データとして機械学習により生成された認識モデルを用いる、
請求項1に記載の表情認識装置。
【請求項3】
前記1または複数のプロセッサは、
前記認識結果出力処理において、
前記人を識別して個人を特定し、
前記複数の認識モデルのうち、前記個人の顔画像を教師データとして機械学習により生成された認識モデルを用いる、
請求項1に記載の表情認識装置。
【請求項4】
前記1または複数のプロセッサは、
前記認識結果出力処理において、前記顔画像を参照して前記人又は前記人の属性を識別する、
請求項1から3の何れか1項に記載の表情認識装置。
【請求項5】
前記1または複数のプロセッサは、
前記人の発話を含む音声を取得する音声取得処理をさらに実行し、
前記認識結果出力処理において、前記音声を参照して前記人又は前記人の属性を識別する、
請求項1から3の何れか1項に記載の表情認識装置。
【請求項6】
請求項1から5の何れか1項に記載の表情認識装置を含む対話ロボットであって、前記1または複数のプロセッサの何れかを備え、
前記対話ロボットが備えるプロセッサは、
前記認識結果出力処理を少なくとも実行する、対話ロボット。
【請求項7】
人の顔を撮像して顔画像を生成するカメラと、
前記顔画像を参照して前記人の表情を認識する表情認識装置と、
前記表情認識装置による認識結果を出力する出力装置と、を含む表情認識システムであって、
前記表情認識装置は、
前記カメラから前記顔画像を取得する画像取得処理と、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を前記出力装置に出力する認識結果出力処理と、
を実行する、表情認識システム。
【請求項8】
請求項1から5の何れか1項に記載の表情認識装置を動作させるためのプログラムであって、前記1または複数のプロセッサに前記各処理を実行させるプログラム。
【請求項9】
1又は複数のプロセッサが実行する表情認識方法であって、
人の顔を被写体として含む顔画像を取得する画像取得ステップと、
複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する認識結果出力ステップと、
を含む表情認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表情を認識する技術に関する。
【背景技術】
【0002】
表情を認識する技術が知られている。例えば、特許文献1には、顔画像から眉、目等の特徴部位画像を抽出し、特徴部位画像から眉の動き、目の開閉等の表情要素を抽出して定量化し、定量化した表情要素を参照して情緒を判別する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、表情の表し方は、普遍的ではない可能性がある。例えば、表情の表し方には、個人差又は個人の属性による違いがある可能性が考えられる。しかしながら、特許文献1に記載された技術は、表情の表し方が普遍的ではない可能性を考慮していないため、認識対象者によっては精度よく認識できない場合がある。
【0005】
本発明の一態様は、認識対象者に応じてより精度よく表情を認識する技術を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る表情認識装置は、1又は複数のプロセッサを含む。前記1又は複数のプロセッサは、画像取得処理と、認識結果出力処理とを実行する。また、本発明の一態様に係る表情認識方法は、1または複数のプロセッサが実行する方法である。当該表情認識方法は、画像取得ステップと、認識結果出力ステップとを含む。
【0007】
画像取得処理(画像取得ステップ)において、前記1又は複数のプロセッサは、人の顔を被写体として含む顔画像を取得する。認識結果出力処理(認識結果出力ステップ)において、前記1又は複数のプロセッサは、複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を出力する。
【0008】
上記の課題を解決するために、本発明の一態様に係る表情認識システムは、人の顔を撮像して顔画像を生成するカメラと、前記顔画像を参照して前記人の表情を認識する表情認識装置と、前記表情認識装置による認識結果を出力する出力装置と、を含む。前記表情認識装置は、前記カメラから前記顔画像を取得する画像取得処理と、複数の互いに異なる認識モデルであって、それぞれが顔画像を入力として表情の認識結果を出力する複数の認識モデルのうち、前記人又は前記人の属性の識別結果に応じた認識モデルを用いて前記人の表情を認識した認識結果を前記出力装置に出力する認識結果出力処理と、を実行する。
【発明の効果】
【0009】
本発明の一態様によれば、認識対象者に応じてより精度よく表情を認識することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施形態1に係る表情認識装置の構成を示すブロック図である。
【
図2】本発明の実施形態1における文化圏と認識モデルとの対応関係を示す情報の一例を説明する図である。
【
図3】本発明の実施形態1に係る表情認識方法の流れを示すフロー図である。
【
図4】本発明の実施形態1における選択フラグの一例を示す図である。
【
図5】本発明の実施形態1における識別フラグの一例を示す図である。
【
図6】本発明の実施形態1に係る識別方法の流れを示すフロー図である。
【
図7】本発明の実施形態1における識別結果の一例を示す図である。
【
図8】本発明の実施形態2における個人と認識モデルとの対応関係を示す情報の一例を説明する図である。
【
図9】本発明の実施形態3に係る対話ロボット1の構成を示すブロック図である。
【
図10】本発明の実施形態3における認知症レベルと認識モデルとの対応関係を示す情報の一例を説明する図である。
【
図11】各実施形態の変形例に係る表情認識装置の構成を示すブロック図である。
【発明を実施するための形態】
【0011】
〔実施形態1〕
以下、本発明の実施形態1について、図面を参照して説明する。
【0012】
<表情認識装置の構成>
本発明の実施形態1に係る表情認識装置10の構成について、
図1を参照して説明する。
図1は、表情認識装置10の構成を示すブロック図である。なお、表情認識装置10は、特許請求の範囲に記載した「表情認識装置」を実現する形態の一例である。
図1に示すように、表情認識装置10は、プロセッサ11と、一次メモリ12と、二次メモリ13と、入出力インタフェース14とを含む。プロセッサ11、一次メモリ12、二次メモリ13、及び入出力インタフェース14は、バスを介して相互に接続されている。また、表情認識装置10は、入出力インタフェース14を介して、センサ50、カメラ60、マイク70、及び出力装置80に接続される。
【0013】
二次メモリ13は、プログラムP1と、その他の情報とを格納している。プロセッサ11は、プログラムP1に含まれる命令に従って、後述する表情認識方法S1、及び識別方法S2に含まれる各処理を実行する。二次メモリ13に格納されるその他の情報の詳細については後述する。プロセッサ11として利用可能なデバイスとしては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、又はこれらの組み合わせを挙げることができるが、これらに限られない。
【0014】
また、一次メモリ12として利用可能なデバイスとしては、例えば、半導体RAM(Random Access Memory)を挙げることができるが、これに限られない。また、二次メモリ13として利用可能なデバイスとしては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせを挙げることができるが、これらに限られない。
【0015】
また、入出力インタフェース14としては、例えば、USB(Universal Serial Bus)などのインタフェースが挙げられるが、これに限られない。
【0016】
センサ50は、人を検知したことを示す検知信号を表情認識装置10に出力する。例えば、センサ50は、赤外線センサ、又は超音波センサを含む。
【0017】
カメラ60は、周囲を撮影して撮影画像を生成し、生成した撮影画像を表情認識装置10に出力する。カメラ60は、撮影画像を静止画像として出力するものであってもよいし、所定のフレームレートで生成した撮影画像を動画像として順次出力するものであってもよい。
【0018】
マイク70は、周囲の音声を検出し、検出した音声を表情認識装置10に出力する。マイク70から入力された音声は二次メモリ13に格納される。
【0019】
出力装置80は、表情認識装置10が生成した情報を出力する。出力装置80は、例えば、ディスプレイ、又はスピーカを含む。
【0020】
二次メモリ13に格納される認識モデルM1-0、M1-1、M1-2、…について説明する。認識モデルM1-0、M1-1、M1-2、…は、複数の互いに異なる認識モデルである。以降、これらの認識モデルを特に区別して説明する必要が無い場合には、それぞれを単に認識モデルM1とも記載する。
【0021】
認識モデルM1は、顔画像を入力として表情の認識結果を出力するモデルである。ここで、認識モデルM1の生成には、機械学習アルゴリズムが用いられる。機械学習アルゴリズムの具体例としては、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)等のニューラルネットワーク、サポートベクタマシン、ランダムフォレスト等が挙げられる。ただし、認識モデルM1の生成に用いる機械学習アルゴリズムは、これらに限られない。また、認識モデルM1の生成に用いる機械学習アルゴリズムは、教師あり学習であってもよいし、教師なし学習であってもよい。また、各認識モデルM1を生成する機械学習アルゴリズムは、少なくとも他の1つの認識モデルM1を生成する機械学習アルゴリズムと同一であってもよいし、異なっていてもよい。また、複数の認識モデルM1の一部又は全部は、表情認識装置10が生成したものであってもよいし、他の装置が生成したものであってもよい。
【0022】
例えば、認識モデルM1は、感情の分類を示す情報を出力する。感情の分類は、例えば、基本6感情(怒り、嫌悪、恐怖、喜び、悲しみ、驚き)であってもよいが、これらに限られない。
【0023】
認識モデルM1-1、M1-2、…は、それぞれ、特定の文化圏に属する人の顔画像を教師データとして機械学習により生成される。ここで、文化圏は、特許請求の範囲に記載した「人の属性」の一例である。このような教師データは、当該文化圏に属する少なくとも1人の人の複数の顔画像を含んでいればよいが、当該文化圏に属する複数の人各々の顔画像を含むことが望ましい。以降、認識モデルM1-1、M1-2、…を特に区別して説明する必要が無い場合には、それぞれを、「文化圏に特化した認識モデルM1」とも記載する。文化圏に特化した複数の認識モデルM1のそれぞれは、互いに異なる文化圏に特化している。
【0024】
認識モデルM1-0は、文化圏に特化していない汎用のモデルである。例えば、認識モデルM1-0は、様々な文化圏に属する複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとして用いられる複数の顔画像の被写体である複数の人が属する文化圏は、少なくとも2種類あればよいが、より多種類であることが望ましい。
【0025】
二次メモリ13に格納されるテーブルT1について説明する。テーブルT1は、文化圏と認識モデルM1との対応関係を示す情報を格納する。テーブルT1の一例について
図2を参照して説明する。
図2は、文化圏と認識モデルM1との対応関係を示す情報の一例を説明する図である。
図2の例では、文化圏「東アジア圏」には、M1-1をIDとする認識モデルM1-1が関連付けられ、文化圏「ヨーロッパ圏」には、M1-2をIDとする認識モデルM1-2が関連付けられている。
【0026】
なお、文化圏は、このような複数の国にまたがるような単位に限らず、国、州、地方、都道府県、県、市町村、等の単位であってもよい。また、複数の文化圏のうち少なくとも何れかの文化圏は、他の少なくとも何れかの文化圏と単位の粒度が同一でなくてもよい。例えば、東アジア圏、ヨーロッパ圏、東日本、及び西日本のそれぞれに認識モデルIDが関連付けられていてもよい。
【0027】
<表情認識方法S1の流れ>
以上のように構成された表情認識装置10が実行する表情認識方法S1の流れについて、
図3を参照して説明する。
図3は、本実施形態に係る表情認識方法S1の流れを示すフロー図である。
図3に示すように、表情認識方法S1は、ステップS101~S112を含む。
【0028】
ステップS101において、プロセッサ11は、センサ50から入力される検知信号を参照して人を検出する。
【0029】
ステップS102において、プロセッサ11は、ステップS101で検出した人に対する表情認識に係る処理を開始するため、選択フラグを初期化する。
【0030】
選択フラグについて、
図4を参照して説明する。
図4は、表情認識方法において用いられる選択フラグの一例を示す図である。選択フラグは、複数の認識モデルM1のうち何れかを「選択済み」であるか「未選択」であるかを示す情報であり、初期状態は「未選択」である。
図4の例では、選択フラグは、「選択済み」を示している。このため、プロセッサ11は、当該選択フラグを「未選択」に設定して初期化する。
【0031】
ステップS103(識別ステップ)において、プロセッサ11は、ステップS101で検出した人の文化圏を識別する識別処理の実行を開始する。識別処理の詳細については後述する。なお、プロセッサ11は、開始した識別処理が終了していなくても、次のステップS104の処理を実行してよい。換言すると、プロセッサ11は、識別処理が終了するまでの間、識別処理と、ステップS104以降の処理とを並行して実行する。
【0032】
ステップS104(画像取得ステップ)において、プロセッサ11は、カメラ60から入力される撮影画像を参照して、顔画像を取得する画像取得処理を実行する。具体的には、プロセッサ11は、撮影画像から人の顔の領域を検出し、当該領域を顔画像として抽出する。顔の領域の検出には、公知の技術を用いることができる。例えば、プロセッサ11は、撮影画像を分割して各領域から顔を示す特徴量を抽出し、抽出した特徴量に基づき各領域が顔であるか否かを判別することにより、顔の領域を検出してもよい。ただし、撮影画像を参照して顔画像を取得する技術は、これに限られない。
【0033】
ステップS105において、プロセッサ11は、選択フラグを参照して、複数の認識モデルM1の何れかを選択済みであるか否かを判断する。
【0034】
ステップS105でNoと判断した場合、ステップS106において、プロセッサ11は、識別フラグを参照して、ステップS101で検出した人の文化圏を識別済みであるかを判断する。
【0035】
識別フラグについて、
図5を参照して説明する。
図5は、表情認識方法において用いられる識別フラグの一例を示す図である。識別フラグは、文化圏が「識別済み」であるか「未識別」であるかを示す情報である。
図5の例では、識別フラグは、識別済みであることを示している。識別フラグが「識別済み」を示す場合、ステップS103で開始した識別処理は既に終了している。一方、識別フラグが「未識別」を示す場合、ステップS103で開始した識別処理は未だ終了していない。
【0036】
ステップS106でYesと判断した場合、ステップS107において、プロセッサ11は、テーブルT1を参照し、識別結果が示す文化圏に特化した認識モデルM1が有るか否かを判断する。
【0037】
ステップS107でYesと判断した場合、ステップS108(選択ステップ)において、プロセッサ11は、テーブルT1を参照し、複数の認識モデルM1のうち、識別結果に応じた認識モデルM1を選択する選択処理を実行する。すなわち、プロセッサ11は、識別結果が示す文化圏に特化した認識モデルM1を選択する。また、プロセッサ11は、選択フラグを「選択済み」に設定する。
【0038】
ステップS106でNo、又はS107でNoと判断した場合、ステップS109において、プロセッサ11は、汎用の認識モデルM1-0を選択する。また、プロセッサ11は、選択フラグを「選択済み」に設定する。ここで、ステップS106でNoと判断されるのは、人を検知した後、当該人の文化圏を識別する識別処理が終了していない場合である。ステップS107でNoと判断されるのは、人を検知した後、識別処理は終了したものの、識別結果が示す文化圏に特化した認識モデルM1が用意されていない場合である。
【0039】
ステップS110(認識ステップ)において、プロセッサ11は、選択した認識モデルM1を用いて、ステップS101で検知した人の表情を認識する認識処理を実行する。具体的には、ステップS104で取得した顔画像を、選択した認識モデルM1に入力し、当該認識モデルM1から出力される表情の認識結果を取得する。
【0040】
ステップS111において、プロセッサ11は、ステップS110で得られた表情の認識結果を出力装置80に出力する。例えば、プロセッサ11は、出力装置80に含まれるディスプレイに、表情の認識結果を表示する。
【0041】
ステップS112において、プロセッサ11は、センサ50からの検知信号を参照して、ステップS101で検出した人を継続して検出中であるか否かを判断する。例えば、センサ50からの検知信号を継続して受信している場合、プロセッサ11は、継続して検出中であると判断する。継続して受信しているとは、例えば、検知信号を受信できない期間が所定の長さ以内であることであってもよい。ただし、継続して検出中であるか否かの判断処理は、上述したものに限られない。
【0042】
ステップS112でYesと判断した場合、プロセッサ11は、ステップS104からの処理を繰り返す。ステップS104では、ステップS101で検出した人に関し、前回のステップS104で取得した顔画像とは異なる顔画像が得られる。また、ステップS105では、認識モデルM1を選択済みであると判断される。そして、プロセッサ11は、選択済みの認識モデルM1を用いて、ステップS110~S111の処理を実行する。
【0043】
ステップS112でNoと判断した場合、プロセッサ11は、表情認識方法S1を終了する。
【0044】
これにより、表情認識装置10は、検出した人の文化圏に特化した認識モデルM1を用いて、当該人を検出している間、当該人の表情の認識結果をリアルタイムに認識して出力する。
【0045】
<識別方法S2の流れ>
次に、ステップS103で開始する識別処理を実行するための識別方法S2の流れについて、
図6を参照して説明する。
図6は、本実施形態に係る表情認識方法S1に含まれる識別方法S2の流れを示すフロー図である。
図6に示すように、識別方法S2は、ステップS201~S206を含む。
【0046】
ステップS201において、プロセッサ11は、識別処理を開始するため識別フラグを初期化する。識別フラグについては、
図5を参照して説明した通りである。プロセッサ11は、識別フラグが「識別済み」を示す場合、当該識別フラグを「未識別」に設定して初期化する。
【0047】
ステップS202(音声取得ステップ)において、プロセッサ11は、マイク70から入力される音声を取得する。取得する音声は、ステップS101で検出した人の発話を含む音声である。例えば、プロセッサ11は、マイク70から入力されて二次メモリ13に格納されている音声のうち、現在までの所定の長さの音声を取得する。
【0048】
ステップS203(識別ステップ)において、プロセッサ11は、取得した音声を参照して、ステップS101で検出した人の属性(ここでは、文化圏)を識別する。音声を参照して文化圏を識別する手法の具体例1~4について説明する。
【0049】
具体例1では、プロセッサ11は、取得した音声を解析してイントネーションを判別し、判別したイントネーションに応じた文化圏を識別結果とする。例えば、プロセッサ11は、音声からイントネーションを示す特徴量を抽出し、抽出した特徴量と、データベースに登録された文化圏に固有のイントネーションの特徴量とを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ13に記憶されていてもよいし、外部の装置に記憶されていてもよい。
【0050】
具体例2では、プロセッサ11は、取得した音声に含まれるキーワードを抽出し、抽出したキーワードに応じた文化圏を識別結果とする。例えば、プロセッサ11は、抽出したキーワードと、データベースに登録された文化圏に固有のキーワードとを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ13に記憶されていてもよいし、外部の装置に記憶されていてもよい。
【0051】
具体例3では、プロセッサ11は、取得した音声に含まれる発話の言語を判別し、言語に応じた文化圏を識別結果とする。例えば、プロセッサ11は、音声から言語を示す特徴量を抽出し、抽出した特徴量と、データベースに登録された文化圏に固有の言語の特徴量とを照合することにより、文化圏を識別してもよい。なお、このようなデータベースは、二次メモリ13に記憶されていてもよいし、外部の装置に記憶されていてもよい。
【0052】
具体例4では、プロセッサ11は、音声を入力として文化圏を出力するよう機械学習された識別モデルを用いて、文化圏を識別する。
【0053】
また、プロセッサ11は、具体例1~4の一部又は全部を組み合わせて文化圏を認識してもよい。
【0054】
ステップS204において、プロセッサ11は、ステップS203において識別に成功したか否かを判断する。識別に成功するとは、識別結果として文化圏が特定できたことである。
【0055】
ステップS204でNoと判断した場合、プロセッサ11は、ステップS202からの処理を繰り返す。
【0056】
ステップS204でYesと判断した場合、ステップS205において、プロセッサ11は、識別フラグを「識別済み」に設定する。
【0057】
ステップS206において、プロセッサ11は、識別結果を設定する。識別結果は、一次メモリ12又は二次メモリ13に記憶される。識別結果について、
図7を参照して説明する。
図7は、識別結果の一例を示す図である。
図7に示すように、識別結果は、ステップS203で識別された文化圏を示す。この例では、識別結果は「東アジア圏」である。
【0058】
以上で、プロセッサ11は、識別方法S2を終了する。
【0059】
<本実施形態の効果>
このように、本実施形態は、人又は人の属性に応じた認識モデルを用いて当該人の表情を認識する。これにより、本実施形態は、認識対象者に応じてより精度よく表情を認識することができる。
【0060】
また、本実施形態は、検知した人の文化圏を識別し、識別した文化圏に特化した認識モデルを用いて、検知した人の顔画像から当該人の表情を認識する。これにより、本実施形態は、文化圏によって表情の表し方が違う可能性を考慮し、認識対象者の文化圏に応じてより精度よく人の表情を認識することができる。
【0061】
また、本実施形態は、顔画像を参照して人又は人の属性を識別する。これにより本実施形態は、適切な認識モデルを選択するための識別処理を、顔画像を参照することにより実現することができる。
【0062】
〔実施形態2〕
本発明の実施形態2について、以下に説明する。実施形態2は、実施形態1を変形した形態である。実施形態1では、人の文化圏を識別し、識別した文化圏に特化した識別モデルを用いて当該人の表情を認識していた。本実施形態はこれを変形し、人を識別して個人を特定し、特定した個人に特化した識別モデルを用いて当該人の表情を認識する。
【0063】
以下では、実施形態1と異なる点について説明し、実施形態1と同様の点については説明を繰り返さない。
【0064】
本実施形態では、認識モデルM1-1、M1-2、…は、それぞれ、特定の人の顔画像を教師データとして機械学習により生成される。このような教師データは、当該特定の人の複数の顔画像を含んでいる。以降、認識モデルM1-1、M1-2、…を特に区別して説明する必要が無い場合には、それぞれを、「個人に特化した認識モデルM1」とも記載する。個人に特化した複数の認識モデルM1のそれぞれは、互いに異なる人に特化している。
【0065】
また、本実施形態では、認識モデルM1-0は、個人に特化していない汎用のモデルである。例えば、認識モデルM1-0は、複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとしては、少なくとも2人の顔画像が用いられるが、より多くの人の顔画像が用いられることが望ましい。
【0066】
また、本実施形態では、テーブルT1は、個人と認識モデルM1との対応関係を示す情報を格納する。テーブルT1の一例について
図8を参照して説明する。
図8は、個人と認識モデルとの対応関係を示す情報の一例を説明する図である。
図8の例では、ユーザID「001」には、M1-1をIDとする認識モデルM1-1が関連付けられ、ユーザID「002」には、M1-2をIDとする認識モデルM1-2が関連付けられている。
【0067】
<表情認識方法S1の流れ>
本実施形態に係る表情認識方法S1は、
図3を用いて説明した表情認識方法S1とほぼ同様であるが、ステップS103、S106~S108の処理が若干異なる。
【0068】
ステップS103において、プロセッサ11は、ステップS101で検出した人を識別してユーザIDを特定する識別処理の実行を開始する。
【0069】
ステップS106において、プロセッサ11は、識別フラグを参照して、ステップS101で検出した人のユーザIDを特定済みであるかを判断する。
【0070】
ステップS107において、プロセッサ11は、テーブルT1を参照し、特定したユーザIDが示す個人に特化した認識モデルM1が有るか否かを判断する。
【0071】
ステップS108において、プロセッサ11は、テーブルT1を参照し、特定したユーザIDが示す個人に特化した認識モデルM1を選択する選択処理を実行する。
【0072】
これにより、表情認識装置10は、検出した人に特化した認識モデルM1を用いて、当該人を検出している間、当該人の表情の認識結果をリアルタイムに認識して出力する。
【0073】
<識別方法S2の流れ>
本実施形態に係る識別方法S2は、
図6を用いて説明した識別方法S2とほぼ同様である。ただし、ステップS202の音声取得処理は省略される。また、S203の処理が若干異なる。
【0074】
ステップS203において、プロセッサ11は、ステップS104で取得した顔画像を参照して、ステップS101で検出した人を識別してユーザIDを特定する。顔画像を参照して人を識別する手法の具体例について説明する。
【0075】
例えば、プロセッサ11は、ステップS104で取得した顔画像と、ユーザIDに関連付けてデータベースに登録された個人の顔画像とを照合することにより、ユーザIDを特定してもよい。
【0076】
<本実施形態の効果>
本実施形態は、検知した人を識別してユーザIDを特定し、特定したユーザIDが示す個人に応じた認識モデルを用いて、検知した人の顔画像から当該人の表情を認識する。これにより、本実施形態は、個人によって表情の表し方が違う可能性を考慮し、当該個人に応じてより精度よく人の表情を認識することができる。
【0077】
〔実施形態3〕
本発明の実施形態3について、以下に説明する。実施形態3は、実施形態1を変形した表情認識装置10を、被介護者と対話する対話ロボット1に搭載した形態である。ここで、被介護者が認知症を有している場合、認知症のレベルに応じて表情の表し方が異なる可能性が考えられる。そこで、本実施形態に係る対話ロボット1は、対話相手である被介護者の認知症レベルを識別し、識別した認知症レベルに特化した認識モデルを用いて、当該被介護者の表情を認識する。なお、認知症レベルは、特許請求の範囲に記載した「人の属性」の一例である。
【0078】
以下では、実施形態1と異なる点について説明し、実施形態1と同様の点については説明を繰り返さない。
【0079】
<対話ロボット1の構成>
対話ロボット1の構成について、
図9を参照して説明する。
図9は、対話ロボット1の構成を示すブロック図である。
図9に示すように、対話ロボット1は、表情認識装置10を含んでいる。対話ロボット1に搭載された表情認識装置10のプロセッサ11は、対話相手である被介護者の表情を認識し、認識結果に応じた情報を出力する出力処理を実行する。
【0080】
対話ロボット1に搭載される表情認識装置10は、実施形態1とほぼ同様に構成されるが、以下の点が異なる。
【0081】
本実施形態では、認識モデルM1-1、M1-2、…は、それぞれ、特定のレベルの認知症であると診断された人の顔画像を教師データとして機械学習により生成される。このような教師データは、当該レベルの認知症であると診断された少なくとも1人の複数の顔画像を含んでいればよいが、当該レベルの認知症であると診断された複数の人各々の顔画像を含むことが望ましい。以降、認識モデルM1-1、M1-2、…を特に区別して説明する必要が無い場合には、それぞれを、「認知症レベルに特化した認識モデルM1」とも記載する。認知症レベルに特化した複数の認識モデルM1のそれぞれは、互いに異なる認知症レベルに特化している。
【0082】
また、本実施形態では、認識モデルM1-0は、認知症レベルに特化していない汎用のモデルである。例えば、認識モデルM1-0は、複数のレベルの認知症にそれぞれ認定された複数の人各々の顔画像を教師データとして機械学習により生成される。教師データとして用いられる複数の顔画像の被写体である複数の人が診断された認知症のレベルは、少なくとも2種類あればよいが、より多種類であることが望ましい。
【0083】
また、本実施形態では、テーブルT1は、認知症レベルと認識モデルM1との対応関係を示す情報を格納する。テーブルT1の一例について
図10を参照して説明する。
図10は、認知症レベルと認識モデルM1との対応関係を示す情報の一例を説明する図である。
図10の例では、認知症レベル「I」には、M1-1をIDとする認識モデルM1-1が関連付けられ、認知症レベル「II」には、M1-2をIDとする認識モデルM1-2が関連付けられている。
【0084】
また、本実施形態では、二次メモリ13は、テーブルT1に加えて、ユーザ情報テーブルを記憶している。ユーザ情報テーブルは、被介護者のユーザIDと、その認知症レベルとを関連付けて格納する。
【0085】
<表情認識方法S1、識別方法S2の流れ>
本実施形態に係る表情認識方法S1、及び識別方法S2は、実施形態1において
図3及び
図6を参照したこれらの方法の説明において、「文化圏」を「認知症レベル」と読み替えることにより同様に説明される。ただし、ステップS202の処理が省略される点と、S203、S111の動作の詳細とが異なる。
【0086】
ステップS203において、プロセッサ11は、ステップS104で取得した顔画像を参照して、ステップS101で検出した人を識別してユーザIDを特定する。顔画像を参照して人を識別する手法の具体例については、実施形態2で説明した通りである。また、プロセッサ11は、ユーザ情報テーブルを参照し、特定したユーザIDに関連付けられた認知症レベルを識別結果とする。
【0087】
ステップS111において、プロセッサ11は、ステップS110で得られた表情の認識結果に応じた情報を、出力装置80に出力する。例えば、プロセッサ11は、出力装置80に含まれるスピーカに、表情の認識結果に応じた発話音声を出力する。
【0088】
<本実施形態の効果>
本実施形態は、対話ロボットの対話相手に応じてその表情をより精度よく認識できるので、対話相手の表情により適した情報を対話相手に提示することができる。
【0089】
本実施形態では、
図9に示すように、対話ロボット1は、被介護者の発話を参照して当該被介護者の認知症レベルを識別する。また、対話ロボット1は、識別した認知症レベルに特化した認識モデルM1に被介護者の顔画像を入力することにより、被介護者の表情を認識する。また、対話ロボット1は、ステップS111において、表情の認識結果に応じた発話音声を出力する。
【0090】
その結果、本実施形態に係る対話ロボット1は、被介護者との対話において、被介護者の認知症レベルに応じてより適切な応答を発話することができる。
【0091】
〔変形例1〕
上述した各実施形態に係る表情認識装置10は、複数のプロセッサを備える表情認識システム2に変形可能である。表情認識システム2は、特許請求の範囲に記載した「表情認識装置」を複数のプロセッサを備える装置として実現する構成の一例である。表情認識システム2について、
図11を参照して説明する。
図11は、表情認識システム2の構成を示すブロック図である。
図11に示すように、表情認識システム2は、表情認識装置10Aと、サーバ20とを含む。
【0092】
<サーバ20、表情認識装置10Aの構成>
図11に示すように、サーバ20は、プロセッサ21と、一次メモリ22と、二次メモリ23と、通信インタフェース25とを含む。プロセッサ21、一次メモリ22、二次メモリ23、及び通信インタフェース25は、バスを介して相互に接続されている。また、サーバ20は、通信インタフェース25を介して、表情認識装置10Aと通信可能に接続される。
【0093】
二次メモリ23は、プログラムP2と、テーブルT1と、認識モデルM1-0、M1-1、M1-2、…とを格納している。プロセッサ21は、プログラムP2に含まれる命令に従って、表情認識方法S1、及び識別方法S2に含まれる各処理の少なくとも一部を実行する。二次メモリ23に格納されるその他の情報の詳細については、実施形態1で説明した通りである。プロセッサ21、一次メモリ22、及び二次メモリ23の詳細については、実施形態1で説明したプロセッサ11、一次メモリ12、及び二次メモリ13と同様である。
【0094】
通信インタフェース25には、ネットワークを介して少なくとも表情認識装置10Aが接続される。通信インタフェース25としては、例えば、イーサネット(登録商標)、Wi-Fi(登録商標)などのインタフェースが挙げられるが、これらに限られない。利用可能なネットワークとしては、PAN(Personal Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、GAN(Global Area Network)、又は、これらのネットワークを含むインターネットワークが挙げられるが、これらに限られない。
【0095】
表情認識装置10Aは、実施形態1に係る表情認識装置10と同様の構成に加えて、通信インタフェース15を含む。表情認識装置10Aは、通信インタフェース15を介して少なくともサーバ20に接続される。通信インタフェース15の詳細については、通信インタフェース25と同様である。また、二次メモリ13は、「プログラムP1、テーブルT1、認識モデルM1-0、M1-1、M1-2、…」に替えてプログラムP1Aを格納している。プロセッサ11は、プログラムP1Aに含まれる命令に従って、表情認識方法S1、及び識別方法S2に含まれる各処理の少なくとも一部を実行する。また、プロセッサ11は、サーバ20に格納された「テーブルT1、認識モデルM1-0、M1-1、M1-2、…」を参照する必要がある場合には、サーバ20と通信することによりこれらを参照する。
【0096】
<表情認識方法S1及び識別方法S2の流れ>
プロセッサ11及びプロセッサ21は、必要となる情報を互いに送受信することにより、表情認識方法S1及び識別方法S2を実行する。例えば、表情認識方法S1のうち、ステップS110(表情を認識する認識処理)をサーバ20のプロセッサ21が実行し、他のステップを表情認識装置10Aのプロセッサ11が実行してもよい。また、例えば、識別方法S2のうち、ステップS203(人又は人の属性を識別する識別処理)をサーバ20のプロセッサ21が実行し、その他のステップを表情認識装置10Aのプロセッサ11が実行してもよい。ただし、サーバ20及び表情認識装置10Aがそれぞれ実行するステップは、上述した例に限られない。表情認識方法S1及び識別方法S2の詳細については、各実施形態で説明した通りである。
【0097】
<本変形例の効果>
本変形例は、サーバ20に格納された、個人又はその属性に特化した認識モデルM1を参照することにより、人の表情をより精度よく認識することができる。このような形態により、例えば、表情認識装置10Aと同様に構成される他の情報処理装置と、個人又はその属性に特化した認識モデルM1を共有することができる。一例として、実施形態3をこのように変形した場合、複数の介護施設のそれぞれに配置された対話ロボット1が、サーバ20に含まれる認識モデルM1を共有して、被介護者の認知症レベルに適した応答を発話することができる。
【0098】
〔変形例2〕
上述した各実施形態において、プロセッサ11は、センサ50から入力される検知信号を参照して人を検知する例について説明した。人を検知する処理は、以下のように変形できる。例えば、プロセッサ11は、カメラ60から入力される撮影画像を参照して人を検知してもよい。一例として、プロセッサ11は、カメラ60から入力される撮影画像に人を示す領域が含まれることを検出した場合に、人を検知したと判断する。また、例えば、プロセッサ11は、マイク70から入力される音声を参照して人を検知してもよい。一例として、プロセッサ11は、マイク70から入力される音声に人の発話が含まれることを検出した場合に、人を検知したと判断する。
【0099】
〔変形例3〕
また、上述した実施形態1において、プロセッサ11は、マイク70から入力される音声を参照して文化圏を識別する例について説明した。文化圏を識別する識別処理は、以下のように変形できる。
【0100】
プロセッサ11は、顔画像を参照して人の属性(例えば、文化圏)を識別してもよい。例えば、プロセッサ11は、顔画像から抽出した顔の特徴量と、データベースに登録された人種の顔の特徴量とを照合することにより人種を推定し、推定した人種に対応する文化圏を識別結果としてもよい。また、プロセッサ11は、顔画像を入力として文化圏を出力するよう機械学習された識別モデルを用いて文化圏を識別してもよい。
【0101】
また、プロセッサ11は、表情認識装置(10、10A)の設置場所を参照して文化圏を識別してもよい。例えば、プロセッサ11は、地理的なエリアと文化圏とを関連付けた情報を記憶しておき、設置場所を含むエリアに関連付けられた文化圏を識別結果としてもよい。
【0102】
また、プロセッサ11は、ユーザ入力により文化圏を識別してもよい。例えば、ユーザが、マイク70に対して文化圏を指定する音声(例えば、「東アジア圏」)を入力するようにしてもよい。この場合、プロセッサ11は、入力された音声に対する音声認識処理を実行して文化圏を示す情報(この例では「東アジア圏」)を取得し、これを識別結果とする。また、表情認識装置(10、10A)が、複数の文化圏それぞれに対応する物理ボタンを含み、ユーザが何れかの操作ボタンを操作して文化圏を入力するようにしてもよい。この場合、プロセッサ11は、操作を受け付けた物理ボタンに対応する文化圏を識別結果とする。
【0103】
〔変形例4〕
また、上述した実施形態2において、プロセッサ11は、顔画像を参照して個人を識別する例について説明した。個人を識別する識別処理は、以下のように変形できる。
【0104】
例えば、プロセッサ11は、マイク70から入力される音声を参照して個人を識別してもよい。一例として、プロセッサ11は、音声を参照して個人を識別してもよい。具体的には、プロセッサ11は、取得した音声から特徴量を抽出し、抽出した特徴量と、ユーザIDに関連付けてデータベースに登録された個人の音声の特徴量とを照合することにより、ユーザIDを特定してもよい。また、プロセッサ11は、音声を入力としてユーザIDを出力するよう機械学習された識別モデルを用いて個人を識別してもよい。
【0105】
また、プロセッサ11は、ユーザ入力により個人を識別してもよい。例えば、ユーザがマイク70に対して個人を識別する情報(例えば、氏名等)を入力するようにしてもよい。この場合、プロセッサ11は、入力された音声に対する音声認識処理を実行して個人を識別する情報(例えば、氏名)を取得し、取得した情報に関連付けられたユーザIDを特定してもよい。
【0106】
本変形例は、適切な認識モデルを選択するための識別処理を、音声を参照することにより実現することができる。
【0107】
〔変形例5〕
また、上述した各実施形態では、個人又は属性に特化した複数の認識モデルM1を含む例について説明した。ただし、各実施形態において、個人又は属性に特化した認識モデルM1の数は1つであってもよい。この場合、プロセッサ11は、選択処理において、識別結果に特化した認識モデルM1が無い場合、汎用の認識モデルM1-0を選択すればよい。
【0108】
〔変形例6〕
また、上述した実施形態1、3では、人の属性として文化圏、認知症のレベルを適用する例について説明した。各実施形態は、これらに替えて他の属性を適用するよう変形できる。例えば、人の属性の他の具体例としては、性別、介護度、及び年齢層等が挙げられるが、これらに限られない。
【0109】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0110】
1 対話ロボット
2 表情認識システム
10、10A 表情認識装置
11、21 プロセッサ
12、22 一次メモリ
13、23 二次メモリ
14 入出力インタフェース
15、25 通信インタフェース
20 サーバ
50 センサ
60 カメラ
70 マイク
80 出力装置