2024-40908 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-40908状態推定システム、プログラム、及び、モデル作成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024040908

(43)【公開日】2024-03-26

(54)【発明の名称】状態推定システム、プログラム、及び、モデル作成方法

(51)【国際特許分類】

G06T 7/20 20170101AFI20240318BHJP

G06T 7/00 20170101ALI20240318BHJP

【ＦＩ】

G06T7/20 300B

G06T7/00 350B

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022145563

(22)【出願日】2022-09-13

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人日本医療研究開発機構、未来医療を実現する医療機器・システム研究開発事業ＩＣＴを活用した診療支援技術研究開発プロジェクト「表情・音声・日常生活活動の定量化から精神症状の客観的評価をリアルタイムで届けるデバイスの開発」、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】598121341

【氏名又は名称】慶應義塾

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100113435

【弁理士】

【氏名又は名称】黒木義樹

(74)【代理人】

【識別番号】100124800

【弁理士】

【氏名又は名称】諏澤勇司

(74)【代理人】

【識別番号】100206966

【弁理士】

【氏名又は名称】崎山翔一

(72)【発明者】

【氏名】大槻知明

(72)【発明者】

【氏名】ソコウテイ

(72)【発明者】

【氏名】モンデルボアジジ

(72)【発明者】

【氏名】岸本泰士郎

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096FA66

5L096FA69

5L096HA02

5L096KA04

(57)【要約】

【課題】プライバシーが保護されながら、精神状態の推定精度が確保され得る状態推定システムを提供する。
【解決手段】状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。
【選択図】図１

【特許請求の範囲】

【請求項1】

生体の顔を示す映像に含まれている複数の画像の画像情報を取得する画像情報取得部と、
前記画像情報に基づいて前記生体の精神状態を推定する状態推定部と、を備えており、
前記複数の画像の各々の前記画像情報は、前記顔を示す複数の特徴点の時間変化情報を含んでおり、
前記状態推定部は、前記時間変化情報に基づいて、前記生体の精神状態を推定する、状態推定システム。

【請求項2】

前記時間変化情報と前記生体の精神状態を示す情報とを関連付けている推定モデルを格納している格納部をさらに備え、
前記状態推定部は、前記画像情報取得部によって取得された前記画像情報の前記時間変化情報と、前記格納部に格納されている前記推定モデルとに基づいて、前記生体の精神状態を推定する、請求項１に記載の状態推定システム。

【請求項3】

学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを用いた学習によって、前記画像情報の入力によって前記生体の精神状態を示す情報を出力する前記推定モデルを作成するモデル作成部と、をさらに備え、
前記状態推定部は、前記画像情報取得部によって取得された前記画像情報と前記推定モデルとに基づいて、前記生体の精神状態を推定する、請求項２に記載の状態推定システム。

【請求項4】

前記時間変化情報は、前記複数の特徴点間の距離の時間変化情報、及び、前記複数の特徴点の各々の位置の時間変化情報のうちの少なくとも１つを含んでいる、請求項１に記載の状態推定システム。

【請求項5】

前記画像情報取得部は、基準点に対する前記複数の特徴点の相対位置に基づいて前記時間変化情報を演算し、
前記基準点は、前記生体の顔における、鼻の位置、唇の位置、前記鼻と前記唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている、請求項１に記載の状態推定システム。

【請求項6】

学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを取得することと、
前記学習データセットを用いた学習によって、生体の顔を示す映像に含まれている複数の画像の画像情報の入力によって前記生体の精神状態の情報を出力する推定モデルを作成することと、をコンピュータに実行させ、
前記複数の学習用画像の各々の前記学習用画像情報は、前記学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる、
前記複数の画像の各々の前記画像情報は、前記生体の顔を示す複数の特徴点の時間変化情報を含んでいる、プログラム。

【請求項7】

学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含む学習データセットを取得することと、
前記学習データセットを用いた学習によって、生体の顔を示す映像に含まれている複数の画像の画像情報の入力によって前記生体の精神状態の情報を出力する推定モデルを作成することと、を含んでおり、
前記複数の学習用画像の各々の前記学習用画像情報は、前記学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる、
前記複数の画像の各々の前記画像情報は、前記生体の顔を示す複数の特徴点の時間変化情報を含んでいる、モデル作成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、状態推定システム、プログラム、及び、モデル作成方法に関する。

【背景技術】

【0002】

生体の精神状態を推定する技術が知られている。例えば、非特許文献１には、言語モデルを用いて、生体の精神状態を推定する技術が記載されている。この文献において、言語パターンの違いに基づいて、認知症の患者と健康な人とを識別することが試みられている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】C.Zheng, M. Bouazizi, and T. Ohtsuki, “Dementia DetectionUsing Two Perplexity Methods with Part-of-Speech Tags,”2021 International Conference on Emerging Technologies for Communications(ICETC2021), Tokyo, Japan, Dec. 2021.

【発明の概要】

【発明が解決しようとする課題】

【0004】

生体の精神状態は、生体の言語パターン及び生体の表情などに影響する。たとえば、認知症等の精神疾患によって、生体の言語パターン及び生体の表情が変化する。このため、生体を撮像した映像を用いて、精神状態を推定することが考えられる。しかしながら、このような推定の精度を確保する技術は、未だ確立されていない。生体の背景によって、誤識別が生じるおそれもある。生体を撮像した映像が用いられる場合、プライバシー侵害の問題も生じうる。

【0005】

本発明の一つの態様は、プライバシーが保護されながら、精神状態の推定精度が確保され得る、状態推定システム、プログラム、及び、モデル作成方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一つの態様における状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。

【0007】

本発明の別の態様におけるプログラムは、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって前記生体の精神状態を示す情報を出力するモデルを作成することと、をコンピュータに実行させる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。

【0008】

本発明のさらに別の態様におけるモデルの作成方法は、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成することと、を含んでいる。学習データセットは、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。

【発明の効果】

【0009】

本発明の一つの態様は、プライバシーが保護されながら、精神状態の推定精度が確保され得る、状態推定システム、プログラム、及び、モデル作成方法を提供する。

【図面の簡単な説明】

【0010】

【図1】本実施形態における状態推定システムのブロック図である。

【図2】（ａ）及び（ｂ）は、健康な人のＦａｃｅＭｅｓｈの例を示している。

【図3】（ａ）及び（ｂ）は、認知症の患者のＦａｃｅＭｅｓｈの例を示している。

【図4】画像情報のデータ構造の一例を示している。

【図5】推定モデルの構造の一例を示している。

【図6】状態推定システムのハードウェア構成の一例を示す図である。

【図7】状態推定方法の学習フェーズにおけるフローチャートである。

【図8】状態推定方法の推定フェーズにおけるフローチャートである。

【発明を実施するための形態】

【0011】

［本開示の実施形態の説明］

【0012】

最初に本開示の実施形態を列記して説明する。

【0013】

［１］本開示の実施形態における状態推定システムは、画像情報取得部と状態推定部とを備えている。画像情報取得部は、複数の画像の画像情報を取得する。複数の画像は、生体の顔を示す映像に含まれている。状態推定部は、上記画像情報に基づいて生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。状態推定部は、時間変化情報に基づいて、生体の精神状態を推定する。

【0014】

上記［１］における状態推定システムにおいて、状態推定部は、生体の顔を示す映像に含まれている複数の画像の画像情報に基づいて、生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。この場合、特徴点の時間変化情報が得られれば生体の精神状態が推定されるため、プライバシーの保護が図られうる。さらに、生体の精神状態の推定精度が確保され得る。

【0015】

［２］上記［１］の状態推定システムは、格納部をさらに備えてもよい。格納部は、時間変化情報と生体の精神状態を示す情報とを関連付けている推定モデルを格納していてもよい。状態推定部は、画像情報取得部によって取得された画像情報の時間変化情報と、格納部に格納されている推定モデルとに基づいて、生体の精神状態を推定してもよい。この場合、生体の精神状態の推定精度が向上され得る。

【0016】

［３］上記［２］の状態推定システムは、モデル作成部をさらに備えていてもよい。モデル作成部は、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成してもよい。学習データセットは、複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいてもよい。複数の学習用画像の学習用画像情報は、学習用生体の顔を示す映像に含まれていてもよい。状態推定部は、画像情報取得部によって取得された画像情報と前記推定モデルとに基づいて、生体の精神状態を推定してもよい。この場合、推定モデルが適宜作成され得るため、生体の精神状態の推定精度が向上され得る。

【0017】

［４］上記［１］から［３］のいずれか一つの状態推定システムにおいて、時間変化情報は、複数の特徴点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうちの少なくとも１つを含んでいてもよい。この場合、生体の精神状態の推定精度がさらに向上され得る。

【0018】

［５］上記［１］から［４］のいずれか一つの状態推定システムにおいて、画像情報取得部は、基準点に対する複数の特徴点の相対位置に基づいて時間変化情報を演算してもよい。基準点は、生体の顔における、鼻の位置、唇の位置、鼻と唇との間の位置、又は、鼻及び唇の周辺の位置に配置されていてもよい。この場合、基準点の移動が縮小され、生体の精神状態の推定精度がさらに向上され得る。

【0019】

［６］本開示の別の形態におけるプログラムは、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって前記生体の精神状態を示す情報を出力するモデルを作成することと、をコンピュータに実行させる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。

【0020】

［７］本開示のさらに別の形態におけるモデル作成方法は、学習データセットを取得することと、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成することと、を含んでいる。学習データセットは、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、前記学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。
［本開示の実施形態の詳細］

【0021】

以下、図面を参照しつつ本発明における状態推定システムの実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。

【0022】

まず、図１から図５を参照して、本開示の実施形態における状態推定システムの概略構成について説明する。図１は、本実施形態における状態推定システム１のブロック図である。

【0023】

状態推定システム１は、生体の顔を示す映像に基づいて、生体の精神状態を推定する。本明細書において、「生体」は、人、及び、人以外の動物を含んでいる。本明細書において、「精神状態」は、感情の状態、及び、精神疾患の状態を含んでいる。精神疾患は、たとえば、痴呆、双極性障害、及び、鬱を含んでいる。

【0024】

本実施形態に示す例において、状態推定システム１は、学習フェーズ、及び、推定フェーズを実行する。状態推定システム１は、学習フェーズにおいて学習された推定モデルに基づいて、推定フェーズを実行する。状態推定システム１は、推定フェーズにおいて、生体の顔を示す映像に基づいて、生体の精神状態を推定する。状態推定システム１は、推定フェーズにおいて取得された情報に基づいて、さらに学習フェーズを実行してもよい。

【0025】

たとえば、状態推定システム１は、学習フェーズにおける推定モデルの作成において機械学習を利用する。機械学習とは、与えられた情報に基づいて反復的に学習することで法則又はルールを自律的に見つけ出す手法である。たとえば、状態推定システム１において行われる機械学習では、学習データセットを用いた学習によって、活性化関数、重み付け値等の推定モデルのパラメータが最適化される。これによって、推定モデルが作成される。

【0026】

状態推定システム１において行われる機械学習は、ディープラーニングである。この機械学習は、多層パーセプトロン（ＭＬＰ：Multilayer perceptron）によって構成される教師あり学習である。状態推定システム１は、ニューラルネットワークを含むように構成される機械学習を用いる。状態推定システム１において行われる機械学習は、教師あり学習に限定されない。状態推定システム１において行われる機械学習は、ランダムフォレスト、サポートベクトルマシン、ニューラルネットワーク（ＮＮ）、ディープニューラルネットワーク（ＤＮＮ）などを含むように構成されてもよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理モデルをいう。

【0027】

たとえば、状態推定システム１において用いられるニューラルネットワークは、長短期メモリネットワーク（ＬＳＴＭ：Long Short―Term Memory）である。たとえば、状態推定システム１において用いられるニューラルネットワークは、２層のＬＳＴＭ層と、３層のＤｅｎｓｅ層とを含んでいる。状態推定システム１で用いられるニューラルネットワークの種類はこれに限定されない。

【0028】

状態推定システム１は、推定フェーズにおいて動作する推定部１０と学習フェーズにおいて動作する学習部２０とを備えている。状態推定システム１は、推定部１０として、撮像装置１１と、映像取得部１２と、画像情報取得部１３と、正規化部１４と、格納部１５と、状態推定部１６と、出力部１８とを含んでいる。状態推定システム１は、学習部２０として、撮像装置１１と、映像取得部１２と、画像情報取得部１３と、正規化部１４と、格納部１５と、モデル作成部２１と、を含んでいる。

【0029】

本実施形態の変形例として、推定部１０と学習部２０とは互いに分離していてもよい。この場合、推定部１０と学習部２０とは、それぞれ異なる撮像装置１１と、映像取得部１２と、画像情報取得部１３と、正規化部１４と、格納部１５とを備えていてもよい。

【0030】

本実施形態の変形例として、状態推定システム１は、モデル作成部２１を含まず、推定部１０のみから構成されていてもよい。状態推定システム１は、学習部２０のみから構成された学習システムであってもよい。状態推定システム１は、撮像装置１１を備えず、状態推定システム１の外部に配置された撮像装置から映像を取得してもよい。

【0031】

次に、推定フェーズにおける状態推定システム１の各機能部について、より詳細に説明する。推定フェーズにおいては、推定部１０が動作する。推定部１０は、撮像装置１１と、映像取得部１２と、画像情報取得部１３と、格納部１５と、状態推定部１６と、出力部１８とによって、生体の精神状態を推定し、出力する。推定部１０は、画像情報取得部１３によって複数の画像の画像情報を取得し、生体の精神状態を推定する。

【0032】

撮像装置１１は、映像を撮像する。推定フェーズにおいて、撮像装置１１は、生体の顔を示す映像を撮像する。撮像装置１１は、たとえば、ビデオカメラである。撮像装置１１は、状態推定システム１の外部において、状態推定システム１と別体に設けられていてもよい。

【0033】

映像取得部１２は、撮像装置１１から、生体の顔を示す映像を取得する。映像取得部１２によって取得される映像は、互いに異なる時間における複数の画像を含んでいる。換言すれば、映像取得部１２によって取得される映像は、時間的に連続する複数の画像を含んでいる。本実施形態の変形例として、映像取得部１２は、状態推定システム１の外部から、生体の顔を示す映像を取得してもよい。

【0034】

画像情報取得部１３は、映像取得部１２によって取得された映像から画像情報を取得する。画像情報取得部１３によって取得された画像情報は、生体の顔を示す映像に含まれる複数の画像の画像情報を含んでいる。映像に含まれる複数の画像は、映像において互いに異なる時間の状態を示す画像を含んでいる。画像情報取得部１３によって取得された複数の画像の各々の画像情報は、生体の顔を示す複数の特徴点の時間変化情報を含んでいる。生体の顔を示す複数の特徴点は、ＦａｃｅＭｅｓｈに相当する。複数の特徴点の時間変化情報は、たとえば、複数の特徴点のうちの２点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうち少なくとも１つを含んでいる。複数の特徴点のうちの２点間の距離は、２点の位置情報の差分であり、スカラーであってもよいし、ベクトルであってもよい。複数の特徴点の各々の位置は、３次元空間の絶対位置であってもよいし、画像に対する相対位置であってもよいし、複数の特徴点に含まれる基準点からの相対位置であってもよい。

【0035】

たとえば、図２（ａ）及び図２（ｂ）は、例として、健康な人のＦａｃｅＭｅｓｈ３１を示している。図３（ａ）及び図３（ｂ）は、例として、認知症の患者のＦａｃｅＭｅｓｈ３２を示している。ＦａｃｅＭｅｓｈ３１は、健康な人の顔における複数の特徴点Ｐ１を含んでいる。ＦａｃｅＭｅｓｈ３２は、認知症の患者の顔における複数の特徴点Ｐ２を含んでいる。複数の特徴点Ｐ１，Ｐ２は、少なくとも一つの基準点を含んでいる。基準点は、たとえば、生体の顔における、鼻の位置、唇の位置、前記鼻と前記唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている。基準点は、たとえば、複数の直腸点のうちの１つの特徴点に相当する。たとえば、複数の特徴点Ｐ１は、生体の鼻の位置を示す基準点Ｒ１を含んでいる。同様に、複数の特徴点Ｐ２は、生体の鼻の位置を示す基準点Ｒ２を含んでいる。画像情報取得部１３は、たとえば、基準点Ｒ１，Ｒ２に対する複数の特徴点Ｐ１，Ｐ２の相対位置に基づいて、複数の特徴点Ｐ１，Ｐ２の時間変化情報を演算する。

【0036】

図４は、映像に含まれる複数の画像の画像情報のデータ構造の一例を示している。図４において、互いに異なる時間における複数の画像の複数の特徴点Ｐ１の位置情報が、行列状に配列されている。互いに異なる時間における同一の特徴点Ｐ１の位置情報は、左右方向に配列されている。矢印αは、時間の流れを示している。したがって、互いに異なる時間における同一の特徴点Ｐ１の位置情報は、矢印αに沿った方向に配列されている。同一の特徴点Ｐ１の位置情報は、Ｍ個存在している。たとえば、１０分間の映像において、３０ｆｐｓで画像が取得される場合、同一の特徴点Ｐ１の位置情報は、１８０００個存在している。

【0037】

同一の画像における複数の特徴点Ｐ１の位置情報は、縦方向に配列されている。換言すれば、同一の画像における複数の特徴点Ｐ１の位置情報は、矢印αと直交する方向に配列されている。同一の画像において、複数の特徴点Ｐ１は、Ｎ個存在している。たとえば、１つの画像において、４７８個の特徴点Ｐ１の位置情報が配置されている。

【0038】

各特徴点Ｐ１の時間変化情報は、たとえば、矢印αに沿った方向において互いに隣り合う特徴点Ｐ１の位置情報の差分である。たとえば、図４において、矢印αに沿った方向に特徴点Ｐ１１，Ｐ１２，Ｐ１３の位置情報が配列されている。特徴点Ｐ１１の位置情報と特徴点Ｐ１２の位置情報とは、グループＧに含まれており、互いに隣り合っている。特徴点Ｐ１１の位置情報と特徴点Ｐ１２の位置情報との差分が、時間変化情報に相当する。たとえば、画像において、特徴点Ｐ１１の位置座標が（ｘ１，ｙ１）であり、特徴点Ｐ１２の位置座標が（ｘ２，ｙ２）である場合、特徴点Ｐ１の時間変化情報は、（ｘ２－ｘ１，ｙ２－ｙ１）によって表されうる。各特徴点Ｐ１の位置座標は、基準点Ｒ１に対する相対座標であってもよい。

【0039】

正規化部１４は、生体の顔を示す映像に含まれる複数の画像において、画像に表示される顔の大きさを正規化する。たとえば、正規化部１４は、生体の顔を示す映像に含まれる複数の画像を、画像に表示される顔が予め決められた大きさになるように調整する。

【0040】

格納部１５は、映像取得部１２及び画像情報取得部１３によって取得された各種情報を格納している。推定フェーズにおいて、格納部１５は、生体の顔を示す映像に含まれる複数の画像の画像情報と、生体の精神状態を示す情報とを関連付けている推定モデルを格納している。格納部１５は、たとえば、推定モデルの他、映像取得部１２によって取得される映像、及び、画像情報取得部１３によって取得された画像情報の少なくとも一つを格納していてもよい。

【0041】

推定モデルは、モデル作成部２１によって作成される。推定モデルは、たとえば、生体の顔を示す複数の特徴点の時間変化情報と、生体の精神状態を示す情報とを関連付けている。推定モデルは、たとえば、画像情報取得部１３において取得された画像情報の入力によって、生体の精神状態を示す情報を出力とするように学習されたモデルを含んでいる。

【0042】

推定モデルは、たとえば、入力層と、中間層と、出力層とを備えている。入力層は、複数のノードを含む。中間層は、それぞれが１つ以上のノードを含む１つ以上の層からなる。中間層は、たとえば、２層のＬＳＴＭ層と全結合層（ＦＣ：Fully Connected layer）とを含んでいる。推定モデルは、個々のノードの活性化関数、又は個々のノード間の出力における重み付け値等の各種のパラメータによって規定されている。これらのパラメータは、上述した学習フェーズにおいて最適なパラメータに設定されている。たとえば、推定モデルは、生体の顔を示す複数の特徴点の時間変化情報を入力層に入力し、中間層にて演算し、出力層から生体の精神状態を示す情報を出力するようコンピュータを機能させる。中間層は、入力層と出力層とを接続する隠れ層である。中間層には、入力層から出力されたデータが入力される。中間層において、入力層から出力されたデータが変換される。中間層から出力されたデータは、出力層に入力される。中間層は、学習データセットを用いてパラメータの学習がなされている。

【0043】

図５は、推定モデルの構造の一例を示している。矢印αは、時間の流れを示している。入力層Ｉは、複数のノードＳ１を含んでいる。複数のノードＳ１は、互いに異なる時間における時間変化情報を示している。ＬＳＴＭ層Ｌ１は複数のノードＳ２を含んでおり、ＬＳＴＭ層Ｌ２は複数のノードＳ３を含んでいる。複数のノードＳ２の各々は、複数のノードＳ１のうち対応するノードＳ１に接続されている。複数のノードＳ３の各々は、複数のノードＳ２のうち対応するノードＳ２に接続されている。全結合層は、たとえば、互いに連続する３つのＤｅｎｃｅ層Ｄ１，Ｄ２，Ｄ３を含んでる。Ｄｅｎｃｅ層Ｄ１は、ＬＳＴＭ層Ｌ２に接続されている。Ｄｅｎｃｅ層Ｄ２は、Ｄｅｎｃｅ層Ｄ１に接続されている。Ｄｅｎｃｅ層Ｄ３は、Ｄｅｎｃｅ層Ｄ２に接続されている。

【0044】

状態推定部１６は、画像情報に基づいて、生体の精神状態を推定する。状態推定部１６は、画像情報取得部１３によって取得された複数の特徴点の時間変化情報に基づいて、生体の精神状態を推定する。状態推定部１６は、格納部１５に格納されている推定モデルを取得する。状態推定部１６は、取得された推定モデルと時間変化情報とから、生体の精神状態を推定する。状態推定部１６は、画像情報取得部１３によって取得された複数の特徴点の時間変化情報を推定モデルに入力し、推定モデルから出力された生体の精神状態を示す情報を、推定結果として出力する。

【0045】

出力部１８は、状態推定部１６によって推定された生体の精神状態を示す情報を、状態推定システム１の外部に出力する。たとえば、出力部１８は、状態推定部１６によって推定された生体の精神状態を示す情報を不図示のモニタに表示する。出力部１８は、状態推定部１６によって推定された生体の精神状態を示す情報を、通信ネットワークなどを介して、サーバ端末又は他の端末に出力してもよい。

【0046】

次に、学習フェーズにおける状態推定システム１の各機能部について、より詳細に説明する。学習フェーズにおいては、学習部２０が動作する。学習部２０は、種々情報を含む学習データセットを用いて学習された推定モデルを作成する。学習部２０は、たとえば、撮像装置１１と、映像取得部１２と、画像情報取得部１３と、格納部１５と、モデル作成部２１とよって、推定モデルを作成する。学習部２０は、たとえば、撮像装置１１、映像取得部１２、画像情報取得部１３、格納部１５、及び、モデル作成部２１によって学習データセットを取得し、推定モデルを作成する。

【0047】

学習データセットは、たとえば、学習用生体の顔を示す映像に含まれる複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいる。学習データセットにおいて、学習用画像情報と、学習用生体の精神状態を示す情報とが互いに紐付けられている。複数の学習用画像の各々の学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。「学習用生体」は、予め精神状態が知られている学習用の生体である。学習フェーズにおいても、撮像装置１１、映像取得部１２、及び、画像情報取得部１３が動作する。この場合、推定フェーズにおける処理と同様の処理が、生体を学習用生体に置き換えて実行される。

【0048】

学習フェーズにおいて、撮像装置１１は、学習用生体の顔を示す映像を撮像する。映像取得部１２は、学習用生体の顔を示す映像を取得する。画像情報取得部１３は、映像取得部１２によって取得された映像から学習用画像情報を取得する。学習用画像情報は、学習用生体の顔を示す複数の特徴点の時間変化情報を含んでいる。画像情報取得部１３は、映像取得部１２によって取得された映像から学習用画像情報を取得せずに、通信ネットワーク等を介して学習用画像情報を取得してもよい。

【0049】

学習フェーズにおいて、格納部１５は、学習データセットと、モデル作成部２１によって作成された推定モデルとを格納する。学習フェーズにおいて、格納部１５は、たとえば、学習用生体の精神状態を示す情報を予め格納している。学習フェーズにおいて、格納部１５は、たとえば、画像情報取得部１３によって取得された学習用画像情報を格納する。学習フェーズにおいて、格納部１５は、たとえば、学習用生体の顔を示す映像、及び、学習用画像情報の少なくとも一方を予め格納していてもよい。学習フェーズにおいて、画像情報取得部１３及び格納部１５の少なくとも一方から、学習データセットがモデル作成部２１に入力される。

【0050】

モデル作成部２１は、学習データセットを用いた学習によって、上述した推定モデルを作成する。推定モデルは、画像情報の入力によって生体の精神状態を示す情報を出力する。たとえば、モデル作成部２１は、作成した推定モデルを格納部１５に格納する。モデル作成部２１は、推定フェーズにおいて取得された情報に基づいて、推定モデルを再作成、又は、更新してもよい。モデル作成部２１は、学習フェーズの終了後に、状態推定システム１から除外されてもよい。

【0051】

次に、図６を参照して、状態推定システム１のハードウェア構成について説明する。図６は、状態推定システム１のハードウェア構成の一例を示す図である。図６に示されている例において、状態推定システム１の推定部１０と学習部２０とは、一体に構成されている。

【0052】

状態推定システム１は、上述した撮像装置１１に加えて、プロセッサ１０１と、主記憶装置１０２と、補助記憶装置１０３と、通信装置１０４と、入力装置１０５と、出力装置１０６と、表示装置１０７とを備えている。状態推定システム１は、これらのハードウェアと、プログラム等のソフトウェアとにより構成された１又は複数のコンピュータを含んでいる。映像取得部１２、画像情報取得部１３、格納部１５、状態推定部１６、出力部１８、及び、モデル作成部２１のそれぞれは、１つのコンピュータによって構成されていてもよいし、複数のコンピュータによって構成されていてもよい。状態推定システム１は、ハードウェアと協働して実現されている。

【0053】

状態推定システム１が、複数のコンピュータによって構成される場合には、これらのコンピュータはローカルで接続されてもよいし、インターネット又はイントラネットなどの通信ネットワークを介して接続されてもよい。この接続によって、論理的に１つの状態推定システム１が構築される。

【0054】

プロセッサ１０１は、オペレーティングシステム及びアプリケーション・プログラムなどを実行する。主記憶装置１０２は、ＲＯＭ（Read Only Memory)及びＲＡＭ（Random Access Memory）により構成される。たとえば、状態推定システム１の各種機能部の少なくとも一部は、プロセッサ１０１及び主記憶装置１０２によって実現され得る。

【0055】

補助記憶装置１０３は、ハードディスク及びフラッシュメモリなどにより構成される記憶媒体である。補助記憶装置１０３は、一般的に主記憶装置１０２よりも大量のデータを記憶する。たとえば、格納部１５の少なくとも一部は、補助記憶装置１０３によって実現され得る。

【0056】

通信装置１０４は、ネットワークカード又は無線通信モジュールにより構成される。たとえば、映像取得部１２、画像情報取得部１３、及び、出力部１８の少なくとも一部は、通信装置１０４によって実現され得る。入力装置１０５は、キーボード、マウス、及び、タッチパネルなどにより構成される。たとえば、画像情報取得部１３の少なくとも一部は、入力装置１０５によって実現され得る。出力装置１０６は、プリンタなどにより構成される。たとえば、出力部１８の少なくとも一部は、出力装置１０６によって実現され得る。表示装置１０７は、ディスプレイなどによって構成されている。たとえば、出力部１８の少なくとも一部は、表示装置１０７によって実現され得る。たとえば、表示装置１０７は、出力部１８の少なくとも一つにおいて作成された画像をディスプレイに表示する。

【0057】

補助記憶装置１０３は、予め、プログラム及び処理に必要なデータを格納している。このプログラムは、状態推定システム１の各機能要素をコンピュータに実行させる。このプログラムによって、たとえば、後述する状態識別方法における各処理がコンピュータにおいて実行される。このプログラムは、たとえば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリなどの有形の記録媒体に記録された上で提供されてもよい。このプログラムは、データ信号として通信ネットワークを介して提供されてもよい。

【0058】

次に、図７を参照して、状態推定方法について説明する。たとえば、状態推定方法は、推定モデルのモデル作成方法を含んでおり、推定モデルを作成する学習フェーズと作成された推定モデルを用いて生体の精神状態の推定を実行する推定フェーズとを実行する。まず、図７を参照して、学習フェーズにおけるモデル作成方法について説明する。図７は、モデル作成方法の一例を示すフローチャートである。

【0059】

まず、撮像装置１１の位置調整が実行される（処理Ｓ１）。たとえば、撮像装置１１と生体との相対位置が調整される。たとえば、生体と撮像装置１１との相対位置に応じて、撮像装置１１の画角が調整される。

【0060】

次に、学習用画像情報が取得される（処理Ｓ２）。処理Ｓ２において、画像情報取得部１３によって、学習用画像情報が取得される。処理Ｓ２において取得される学習用画像情報は、学習用生体の映像に含まれる複数の学習用画像の画像情報である。たとえば、撮像装置１１によって、学習用生体の顔を示す映像が撮像され、映像取得部１２によって、撮像装置１１によって撮像された映像が取得され、画像情報取得部１３によって、映像取得部１２によって取得された映像から学習用画像情報が取得される。この際、画像情報取得部１３は、複数の学習用画像において、学習用生体の顔を示す複数の特徴点の相対位置を正規化してもよい。たとえば、画像情報取得部１３は、映像取得部１２によって取得された映像に含まれる複数の学習用画像の画角を調整し画角が調整された学習用画像の学習用画像情報を取得してもよい。

【0061】

次に、学習用生体の精神状態を示す情報が取得される（処理Ｓ３）。処理Ｓ３において、たとえば、学習用生体の精神状態を示す情報が格納部１５に格納される。処理Ｓ２において取得された学習用画像情報と、処理Ｓ３において取得された学習用生体の精神状態を示す情報とに基づいて、学習データセットが格納部１５に格納される。学習データセットにおいて、処理Ｓ２において取得された学習用画像情報と、処理Ｓ３において取得された学習用生体の精神状態を示す情報とが互いに紐付けられている。

【0062】

次に、推定モデルが作成される（処理Ｓ４）。処理Ｓ４において、たとえば、モデル作成部２１が、学習データセットを用いた学習によって、推定モデルを作成する。作成された推定モデルは、画像情報の入力によって生体の精神状態を示す情報を出力する。

【0063】

次に、推定モデルが格納部１５に格納される（処理Ｓ５）。処理Ｓ５において、たとえば、モデル作成部２１が、処理Ｓ４において作成された推定モデルを格納部１５に格納する。

【0064】

以上、推定モデルのモデル作成方法の一例について説明したが、各処理の順序はこれに限定されない。たとえば、処理Ｓ３は、処理Ｓ２の前に実行されてもよい。処理Ｓ１が省略され、処理Ｓ２において取得される情報は、状態推定システム１の外部から取得されてもよい。

【0065】

次に、図８を参照しながら、推定フェーズにおける状態推定方法について説明する。図８は、状態推定方法の一例を示すフローチャートである。

【0066】

まず、撮像装置１１の位置調整が実行される（処理Ｓ２１）。たとえば、撮像装置１１と生体との相対位置が調整される。たとえば、生体と撮像装置１１との相対位置に応じて、撮像装置１１の画角が調整される。たとえば、学習用画像情報における学習用生体の位置に応じて、撮像装置１１の画角が調整される。

【0067】

次に、画像情報が取得される（処理Ｓ２２）。処理Ｓ２２において、画像情報取得部１３によって、画像情報が取得される。処理Ｓ２２において取得される画像情報は、生体の映像に含まれる複数の画像の画像情報である。たとえば、撮像装置１１によって、生体の顔を示す映像が撮像され、映像取得部１２によって、撮像装置１１によって撮像された映像が取得され、画像情報取得部１３によって、映像取得部１２によって取得された映像から画像情報が取得される。この際、画像情報取得部１３は、映像に含まれる複数の画像において、生体の顔を示す複数の特徴点の相対位置を正規化してもよい。たとえば、画像情報取得部１３は、映像取得部１２によって取得された映像に含まれる複数の画像の画角を調整し画角が調整された画像の画像情報を取得してもよい。

【0068】

次に、生体の精神状態が推定される（処理Ｓ２３）。処理Ｓ２３において、たとえば、状態推定部１６が、処理Ｓ２２において取得された画像情報と、格納部１５に予め格納されている推定モデルとに基づいて、生体の精神状態を推定する。たとえば、状態推定部１６は、生体の顔を示す複数の特徴点の時間変化情報を、推定モデルに入力し、この推定モデルから出力された情報を推定結果として決定する。

【0069】

次に、推定結果が出力される（処理Ｓ２４）。処理Ｓ２４において、たとえば、出力部１８が、状態推定部１６によって推定された生体の精神状態を、推定結果として状態推定システム１の外部に出力する。

【0070】

次に、上述した実施形態にかかる状態推定システム１、及び、推定モデルのモデル作成方法による作用効果について説明する。

【0071】

状態推定システム１において、状態推定部１６は、生体の顔を示す映像に含まれている複数の画像の画像情報に基づいて、生体の精神状態を推定する。複数の画像の各々の画像情報は、顔を示す複数の特徴点の時間変化情報を含んでいる。この場合、特徴点の時間変化情報が得られれば生体の精神状態が推定されるため、プライバシーの保護が図られうる。さらに、生体の精神状態の推定精度が確保され得る。

【0072】

状態推定システム１は、格納部１５をさらに備えている。格納部１５は、時間変化情報と生体の精神状態を示す情報とを関連付けている推定モデルを格納している。状態推定部１６は、画像情報取得部１３によって取得された画像情報の時間変化情報と、格納部１５に格納されている推定モデルとに基づいて、生体の精神状態を推定している。この場合、生体の精神状態の推定精度が向上され得る。

【0073】

状態推定システム１は、モデル作成部２１をさらに備えている。モデル作成部２１は、学習データセットを用いた学習によって、画像情報の入力によって生体の精神状態を示す情報を出力する推定モデルを作成している。学習データセットは、複数の学習用画像の学習用画像情報と、学習用生体の精神状態を示す情報とを含んでいる。複数の学習用画像の学習用画像情報は、学習用生体の顔を示す映像に含まれている。状態推定部１６は、画像情報取得部１３によって取得された画像情報と推定モデルとに基づいて、生体の精神状態を推定している。この場合、推定モデルが適宜作成され得るため、生体の精神状態の推定精度が向上され得る。

【0074】

状態推定システム１において、時間変化情報は、複数の特徴点間の距離の時間変化情報、及び、複数の特徴点の各々の位置の時間変化情報のうちの少なくとも１つを含んでいる。この場合、生体の精神状態の推定精度がさらに向上され得る。

【0075】

状態推定システム１において、画像情報取得部１３は、基準点に対する複数の特徴点の相対位置に基づいて時間変化情報を演算してもよい。基準点は、生体の顔における、鼻の位置、唇の位置、鼻と唇との間の位置、又は、鼻及び唇の周辺の位置に配置されている。この場合、基準点の移動が縮小され、生体の精神状態の推定精度がさらに向上され得る。

【0076】

次に、上述した状態推定システム１の検証の一例を説明する。モデル作成部２１において、映像から抽出されたＦａｃｅＭｅｓｈが用いられ、映像のうち最初の４０９６フレームの学習用画像の学習号画像情報が学習データセットに用いられた場合、推定精度は７０％であった。モデル作成部２１において、映像から抽出されたＦａｃｅＭｅｓｈが用いられ、映像の２分間分の学習用画像の学習用画像情報が学習データセットに用いられた場合、推定精度は７０％であった。モデル作成部２１において、静止画から抽出されたＦａｃｅＭｅｓｈが用いられ、映像の２分間分の学習用画像の学習用画像情報が学習データセットに用いられた場合、検証データの精度は７８％であった。モデル作成部２１において、映像から抽出されたＦａｃｅＭｅｓｈが用いられ、映像のうち１分間の長さに分割されたセグメントの学習用画像の学習用画像情報が学習データセットに用いられた場合、推定精度は６７％であった。状態推定システム１において、認知症患者と健康な人との推定精度は７０％であった。このように、状態推定システム１による検証データによれば、精神状態の推定において非常に高い精度が確認された。

【0077】

以上、本発明の実施形態及び変形例について説明してきたが、本発明は必ずしも上述した実施形態及び変形例に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。

【0078】

たとえば、生体の精神状態の推定において、精神疾患の状態の推定を主に説明した。しかしながら、状態推定システム１は、生体の感情の状態を推定してもよい。

【符号の説明】

【0079】

１…状態推定システム、１０…推定部、Ｐ１，Ｐ２，Ｐ１１，Ｐ１２，Ｐ１３…特徴点、１３…画像情報取得部、１５…格納部、１６…状態推定部、２１…モデル作成部、Ｒ１，Ｒ２…基準点。

【図1】